CN110338747B - 视力检查的辅助方法、存储介质、智能终端及辅助装置 - Google Patents
视力检查的辅助方法、存储介质、智能终端及辅助装置 Download PDFInfo
- Publication number
- CN110338747B CN110338747B CN201910512741.0A CN201910512741A CN110338747B CN 110338747 B CN110338747 B CN 110338747B CN 201910512741 A CN201910512741 A CN 201910512741A CN 110338747 B CN110338747 B CN 110338747B
- Authority
- CN
- China
- Prior art keywords
- information
- current
- visual target
- visual
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B3/00—Apparatus for testing the eyes; Instruments for examining the eyes
- A61B3/0016—Operational features thereof
- A61B3/0033—Operational features thereof characterised by user input arrangements
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B3/00—Apparatus for testing the eyes; Instruments for examining the eyes
- A61B3/02—Subjective types, i.e. testing apparatus requiring the active assistance of the patient
- A61B3/028—Subjective types, i.e. testing apparatus requiring the active assistance of the patient for testing visual acuity; for determination of refraction, e.g. phoropters
- A61B3/032—Devices for presenting test symbols or characters, e.g. test chart projectors
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Surgery (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Animal Behavior & Ethology (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Computational Linguistics (AREA)
- Heart & Thoracic Surgery (AREA)
- Biomedical Technology (AREA)
- Ophthalmology & Optometry (AREA)
- Biophysics (AREA)
- Eye Examination Apparatus (AREA)
Abstract
本发明公开了一种视力检查的辅助方法、存储介质、控制终端及辅助装置;解决了需要检测人员多次转头确认被检者是否答复正确的问题,其技术方案要点是,获取当前辨认表上的当前需辨认视标信息;从预先设置的需辨认视标信息与视标术语信息之间的对应关系中,查找与所述当前需辨认视标信息对应的当前视标术语信息,所述视标术语信息包括与所述需辨认视标信息相互对应的视标音频信息;调取当前需辨认视标信息所对应的当前视标音频信息以反馈给检测人员,本发明通过将辨认表上的视标直接以语音的形式反馈给检测人员,无需检测人员转头看辨认表上的视标,提高效率。
Description
技术领域
本发明涉及视力检测,特别涉及视力检查的辅助方法、存储介质、控制终端及辅助装置。
背景技术
视力是指视网膜分辨影像的能力。视力的好坏由视网膜分辨影像能力的大小来判定。一般检查视力的距离为5米,视力表的1.0行与受检者的眼睛位于同一高度。照明充足,两眼分别检查,一般是先右后左(先检查裸眼视力,后检查矫正视力)。检查一眼时,须以遮眼板将另一眼完全遮住。
检查时,让被检者先看清最大一行标记,如能辨认,则自上而下,由大至小,逐级将较小标记指给被检者看,直至查出能清楚辨认的最小一行标记。受检者读出每个视标的时间不得超过5秒。如估计患者视力尚佳,则不必由最大一行标记查起,可酌情由较小字行开始。
如果被检者仅能辨认表上最大的“0.1”行E字缺口方向,就记录视力为“0.1”;如果能辨认“0.2”行E字缺口方向,则记录为“0.2”;如此类推。能认清“1.0”行或更小的行次者,即为正常视力。倘若对某行标记部分能够看对,部分认不出,如“0.8”行有三个字不能辨认,则记录“0.8-3”,如该行只能认出三个字,则记录为“0.7+3”,余类推。或0.1~0.4每行有一个看不清则记录为上一行的视力。0.5~0.8每行允许看错一个,如果看错两个记为上一行的视力。1.0~1.2每行允许看错两个,视力在1.5以上每行允许看错三个。
在检测过程中,需要检测人员通过眼睛去观察当前辨认表上的视标以及当前被检者对视标的辨认情况,将两者相互比较之后在进行判断下一次的测试,该过程需要检测人员不断的来回转头去确认辨认表上的视标与被检者的辨认情况是否一致,如果一天有大量的被检者,则会导致检测人员的工作人员过大而影响颈椎的健康,所以目前的视力检查的过程具有一定的改进空间。
发明内容
本发明的第一目的是提供一种视力检查的辅助方法,能够将辨认表上选中的视标直接通过语音的方式反馈给检测人员,降低转头频率,减小工作量。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种视力检查的辅助方法,包括:
获取当前辨认表上的当前需辨认视标信息;
从预先设置的需辨认视标信息与视标术语信息之间的对应关系中,查找与所述当前需辨认视标信息对应的当前视标术语信息,所述视标术语信息包括与所述需辨认视标信息相互对应的视标音频信息;
调取当前需辨认视标信息所对应的当前视标音频信息以反馈给检测人员。
采用上述方案,由于辨认表上的需要辨认的视标原本就不多,只有上下左右四种类型的视标,辨认表上视标为四种类型视标的排列组合,故获取到当前需辨认视标信息之后,和预设的视标术语信息中查找对应的当前视标术语信息,从而将该视标对应的音频反馈给检测人员,使得检测人员能够直接通过音频了解该视标是什么视标,直接将通过视觉获取信息替换为通过听觉获取信息,能够有效的降低检测人员需要频繁转头的情况。
作为优选,获取当前需辨认视标信息的方法如下:
获取当前辨认表上的当前图像显示信息;
识别当前图像显示信息上是否存在所预设的标定识别信息;
若存在标定识别信息,则获取当前标定识别信息所预设范围内的当前部分图像信息;
将当前部分图像信息与所预设的基准视标图像信息进行匹配;
若当前部分图像信息与对应的基准视标图像信息相互匹配成功,则定义该对应的基准视标图像信息为当前需辨认视标信息。
采用上述方案,在获取当前需辨认视标信息的过程中,先获取辨认表上的整体图像,在识别的图像上且位于需辨认视标的位置设置标定识别信息,通过识别标定识别信息以获取需要识别的区域并将这个区域的作为比对图像,之后将该图像对应的当前部分图像信息与基准视标图像信息进行匹配,如果匹配成功,则确定该图像中的视标,则将该对应的基准视标图像信息为当前需辨认视标信息;通过图像识别的形式获取对应的当前需辨认视标信息。
作为优选,所述当前图像显示信息的获取可以通过将当前辨认表的电子图像进行数据传输获取和/或通过对当前辨认表进行外置图像拍摄进行获取。
采用上述方案,若在电子屏幕上显示的当前辨认表,则可以直接将电子图像通过数据传输的方式进行反馈即可获得当前图像显示信息,若在电子屏幕上显示的当前辨认表或在实体上显示的当前辨认表,则也可以通过外置的图像拍摄装置进行拍摄获取,根据实际情况来设置对应获取当前图像显示信息的方式。
作为优选,所述视标术语信息包括问题描述音频信息,在调取当前视标音频信息以反馈给检测人员同时,调取问题描述音频信息以反馈给被检者。
采用上述方案,在将当前视标音频信息以反馈给检测人员的同时,将对应该的问题描述音频信息反馈给被检者,即通过直接通过系统的音频来提醒被检者回答对应的问题,完成测试;无需通过检测人员口头提问,进一步降低检测人员的工作量。
作为优选,还包括:
获取当前被检者的当前答复语音信息;
将当前答复语音信息通过语音识别转化形成当前答复文字信息;
所述视标术语信息包括与所述需辨认视标信息相互对应的视标文字信息,将当前答复文字信息与当前视标文字信息进行匹配分析;
若当前答复文字信息与当前视标文字信息匹配成功,则形成与回答正确相互对应的正确语音信息以反馈给检测人员;
若当前答复文字信息与当前视标文字信息匹配不成功,则形成与回答错误相互对应的错误语音信息以反馈给检测人员。
采用上述方案,对当前被检者的当前答复语音信息进行获取,并将语音转化至文字,将转化后的文字和需辨认视标信息对应的视标文字信息进行比对,如果比对成功,则说明回答正确,就反馈对应的正确语音信息给检测人员;反之,就反馈错误语音信息,通过语音反馈的功能,检测人员可以直接对当前被检者的回答是否正确进行判定,无需频繁的转头确认是否正确,大大降低工作量。
作为优选,获取当前被检者的当前答复语音信息的方法如下:
获取当前被检者的当前声纹信息;
将该当前声纹信息作为基准声纹信息;
获取当前环境下的当前环境语音信息;
将当前环境语音信息所对应的声纹信息与基准声纹信息相互比对分析;若比对成功,则将该当前环境语音信息作为当前被检者的当前答复语音信息。
采用上述方案,由于在检测视力的环境中,通常不会只有一个被检者在检测,还会存在一些等候检测的人员,所以在获取当前答复语音信息的过程中存在被干扰的情况,故需确认获取的当前答复语音信息是被检者回答的声音,故先获取当前被检者的当前声纹信息作为基准声纹信息,在获取当前环境语音信息中的所有声音均进行声纹识别,将比对成功的当前环境语音信息作为当前被检者的当前答复语音信息。
作为优选,将当前答复文字信息与当前视标文字信息进行匹配分析的方法如下:
提取当前答复文字信息中的当前关键词信息;
将当前关键词信息与当前答复文字信息进行相互比对;
若当前答复文字信息中存在当前关键词信息,则匹配成功;
若当前答复文字信息中不存在当前关键词信息,则匹配不成功。
采用上述方案,由于语音转化为文字的过程中,可能存在一些无效的文字数据,故先对初始的文字进行提取关键词,确保判断识别准确性,将关键词和作为标准的答复文字信息进行比对,如果存在关键词,就说明匹配成功。
本发明的第二目的是提供一种计算机可读存储介质,能够存储相应的程序,能够将辨认表上选中的视标直接通过语音的方式反馈给检测人员,降低转头频率,减小工作量。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种计算机可读存储介质,包括能够被处理器加载执行时实现如上述权利要求所述的视力检查的辅助方法的程序。
采用上述方案,由于辨认表上的需要辨认的视标原本就不多,只有上下左右四种类型的视标,辨认表上视标为四种类型视标的排列组合,故获取到当前需辨认视标信息之后,和预设的视标术语信息中查找对应的当前视标术语信息,从而将该视标对应的音频反馈给检测人员,使得检测人员能够直接通过音频了解该视标是什么视标,直接将通过视觉获取信息替换为通过听觉获取信息,能够有效的降低检测人员需要频繁转头的情况。
本发明的第三目的是提供一种智能终端,能够将辨认表上选中的视标直接通过语音的方式反馈给检测人员,降低转头频率,减小工作量。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种智能终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,该程序能够被处理器加载执行时实现如上述权利要求所述的视力检查的辅助方法。
采用上述方案,由于辨认表上的需要辨认的视标原本就不多,只有上下左右四种类型的视标,辨认表上视标为四种类型视标的排列组合,故获取到当前需辨认视标信息之后,和预设的视标术语信息中查找对应的当前视标术语信息,从而将该视标对应的音频反馈给检测人员,使得检测人员能够直接通过音频了解该视标是什么视标,直接将通过视觉获取信息替换为通过听觉获取信息,能够有效的降低检测人员需要频繁转头的情况。
本发明的第四目的是提供一种辅助装置,能够将辨认表上选中的视标直接通过语音的方式反馈给检测人员,降低转头频率,减小工作量。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种辅助装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,该程序能够被处理器加载执行时实现如上述权利要求所述的视力检查的辅助方法。
采用上述方案,由于辨认表上的需要辨认的视标原本就不多,只有上下左右四种类型的视标,辨认表上视标为四种类型视标的排列组合,故获取到当前需辨认视标信息之后,和预设的视标术语信息中查找对应的当前视标术语信息,从而将该视标对应的音频反馈给检测人员,使得检测人员能够直接通过音频了解该视标是什么视标,直接将通过视觉获取信息替换为通过听觉获取信息,能够有效的降低检测人员需要频繁转头的情况。
综上所述,本发明具有以下有益效果:通过将辨认表上的视标直接以语音的形式反馈给检测人员,无需检测人员转头看辨认表上的视标,提高效率。
附图说明
图1为视力检查的辅助方法的流程框图;
图2为获取当前需辨认视标信息的方法的流程框图;
图3为答案判断方法的流程框图;
图4为获取当前被检者的当前答复语音信息的方法的流程框图;
图5为将当前答复文字信息与当前视标文字信息进行匹配分析的方法的流程框图。
具体实施方式
以下结合附图对本发明作进一步详细说明。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
本发明实施例提供一种视力检查的辅助方法,包括:获取当前辨认表上的当前需辨认视标信息;从预先设置的需辨认视标信息与视标术语信息之间的对应关系中,查找与当前需辨认视标信息对应的当前视标术语信息,视标术语信息包括与需辨认视标信息相互对应的视标音频信息;调取当前需辨认视标信息所对应的当前视标音频信息以反馈给检测人员。
本发明实施例中,由于辨认表上的需要辨认的视标原本就不多,只有上下左右四种类型的视标,辨认表上视标为四种类型视标的排列组合,故获取到当前需辨认视标信息之后,和预设的视标术语信息中查找对应的当前视标术语信息,从而将该视标对应的音频反馈给检测人员,使得检测人员能够直接通过音频了解该视标是什么视标,直接将通过视觉获取信息替换为通过听觉获取信息,能够有效的降低检测人员需要频繁转头的情况。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
下面结合说明书附图对本发明实施例作进一步详细描述。
本发明实施例提供一种视力检查的辅助方法,方法的主要流程描述如下。
如图1所示:
步骤1000:获取当前辨认表上的当前需辨认视标信息。
其中,为了能够尽可能降低检测人员的工作量,避免检测人员需要转头查看当前出现在当前辨认表上的视标是什么,而该视标可以为字符、动物、交通工具等等一些图像符号,所以将这些视标转化成数据的形式以供后续的调用读取,方便系统将视标转化为音频,如图2所示,具体获取当前需辨认视标信息的方法如下:
步骤1100:获取当前辨认表上的当前图像显示信息。
其中,当前图像显示信息的获取可以通过将当前辨认表的电子图像进行数据传输获取和/或通过对当前辨认表进行外置图像拍摄进行获取。
若通过智能显示设备来显示对应的辨认表时,此时该辨认表即为电子图像数据,故可以直接将电子图像数据通过数据传输的方式进行反馈即可获得当前图像显示信息;该数据传输可以是有线通讯传输,也可以通过无线通讯传输,根据实际情况进行设置。同时,也可以通过预设在辨认表前侧的图像拍摄装置进行图像拍摄,进而获取当前图像显示信息。图像拍摄装置可以为具有拍照功能的智能设备,例如手机、摄像机、照相机等等。
若通过实体上设置辨认表,即在壳体上固体了具有视标的辨认表,则可以通过预设在辨认表前侧的图像拍摄装置进行图像拍摄,进而获取当前图像显示信息。
本实施例中优选采用通过智能显示设备来显示对应的辨认表,在获取当前辨认表上的当前需辨认视标信息过程中,需要先在当前辨认表上进行显示对应的视标,显示可以是一整张辨认表进行显示,也可以是独立的视标进行显示,本实施例中优选采用显示整张辨认表;显示的过程中,可以根据所预设的软件程序产生在智能显示设备上,也可以通过与该智能显示设备通讯连接的遥控器进行控制显示更大的视标或显示更小的视标,即通过遥控器上设置的上下左右按键来进行控制。
步骤1200:识别当前图像显示信息上是否存在所预设的标定识别信息。
其中,所预设的标定识别信息即为在辨认表上需要辨认的视标外围设置对应的标识,该标识可以为圆形标识、方形标识、多边形标识等等,以确定当前需要被检者回答的视标,该标识的颜色可以根据实际情况进行设置,优选设置为与视标颜色不同的颜色。
步骤1300:若存在标定识别信息,则获取当前标定识别信息所预设范围内的当前部分图像信息。
其中,通过图像识别功能对标定识别信息进行识别,而图像识别是以图像的主要特征为基础的。每个图像都有它的特征,如字母A有个尖,P有个圈、而Y的中心有个锐角等。对图像识别时眼动的研究表明,视线总是集中在图像的主要特征上,也就是集中在图像轮廓曲度最大或轮廓方向突然改变的地方,这些地方的信息量最大。而且眼睛的扫描路线也总是依次从一个特征转到另一个特征上。由此可见,在图像识别过程中,知觉机制必须排除输入的多余信息,抽出关键的信息。同时,在大脑里必定有一个负责整合信息的机制,它能把分阶段获得的信息整理成一个完整的知觉映象。
在人类图像识别系统中,对复杂图像的识别往往要通过不同层次的信息加工才能实现。对于熟悉的图形,由于掌握了它的主要特征,就会把它当作一个单元来识别,而不再注意它的细节了。这种由孤立的单元材料组成的整体单位叫做组块,每一个组块是同时被感知的。在文字材料的识别中,人们不仅可以把一个汉字的笔划或偏旁等单元组成一个组块,而且能把经常在一起出现的字或词组成组块单位来加以识别。
在计算机视觉识别系统中,图像内容通常用图像特征进行描述。事实上,基于计算机视觉的图像检索也可以分为类似文本搜索引擎的三个步骤:提取特征、建索引build以及查询。
步骤1400:将当前部分图像信息与所预设的基准视标图像信息进行匹配;若当前部分图像信息与对应的基准视标图像信息相互匹配成功,则定义该对应的基准视标图像信息为当前需辨认视标信息。
其中,在获取当前需辨认视标信息的过程中,先获取辨认表上的整体图像,在识别的图像上且位于需辨认视标的位置设置标定识别信息,通过识别标定识别信息以获取需要识别的区域并将这个区域的作为比对图像,之后将该图像对应的当前部分图像信息与基准视标图像信息进行匹配,如果匹配成功,则确定该图像中的视标,则将该对应的基准视标图像信息为当前需辨认视标信息;通过图像识别的形式获取对应的当前需辨认视标信息。
步骤2000:从预先设置的需辨认视标信息与视标术语信息之间的对应关系中,查找与当前需辨认视标信息对应的当前视标术语信息,视标术语信息包括与需辨认视标信息相互对应的视标音频信息以及问题描述音频信息。
其中,在获取到当前需辨认视标信息后,查找与需辨认视标信息对应的视标术语信息,查询到后,即调取对应的视标音频信息以及问题描述音频信息。
步骤3000:调取当前需辨认视标信息所对应的当前视标音频信息以反馈给检测人员;同时,调取问题描述音频信息以反馈给被检者。
其中,获取到当前需辨认视标信息之后,和预设的视标术语信息中查找对应的当前视标术语信息,从而将该视标对应的音频反馈给检测人员,使得检测人员能够直接通过音频了解该视标是什么视标,直接将通过视觉获取信息替换为通过听觉获取信息,能够有效的降低检测人员需要频繁转头的情况;在将当前视标音频信息以反馈给检测人员的同时,将对应该的问题描述音频信息反馈给被检者,即通过直接通过系统的音频来提醒被检者回答对应的问题,完成测试;无需通过检测人员口头提问,进一步降低检测人员的工作量。
为了尽可能降低检测人员的工作量,故通过软件分析实现被检者反馈的答案是否正确,再通过语音反馈给检测人员,使得检测人员可以直接对当前被检者的回答是否正确进行判定,无需频繁的转头确认是否正确,大大降低工作量;如图3所示,具体答案判断方法如下:
步骤4100:获取当前被检者的当前答复语音信息。
其中,由于在检测视力的环境中,通常不会只有一个被检者在检测,还会存在一些等候检测的人员,所以在获取当前答复语音信息的过程中存在被干扰的情况,故需确认获取的当前答复语音信息是被检者回答的声音,如图4所示,具体获取当前被检者的当前答复语音信息的方法如下:
步骤4110:获取当前被检者的当前声纹信息。
步骤4120:将该当前声纹信息作为基准声纹信息。
步骤4130:获取当前环境下的当前环境语音信息。
步骤4140:将当前环境语音信息所对应的声纹信息与基准声纹信息相互比对分析;若比对成功,则将该当前环境语音信息作为当前被检者的当前答复语音信息。
其中,声纹识别,生物识别技术的一种,也称为说话人识别,有两类,即说话人辨认和说话人确认。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。声纹识别就是把声信号转换成电信号,再用计算机进行识别。
所谓声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,人们仍能区别不同的人的声音或判断是否是同一人的声音。
声纹识别可以说有两个关键问题,一是特征提取,二是模式匹配(模式识别)。
特征提取:
特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。与语音识别不同,声纹识别的特征必须是“个性化”特征,而说话人识别的特征对说话人来讲必须是“共性特征”。虽然目前大部分声纹识别系统用的都是声学层面的特征,但是表征一个人特点的特征应该是多层面的,包括:(1)与人类的发音机制的解剖学结构有关的声学特征(如频谱、倒频谱、共振峰、基音、反射系数等等)、鼻音、带深呼吸音、沙哑音、笑声等;(2)受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等;(3)个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征。从利用数学方法可以建模的角度出发,声纹自动识别模型目前可以使用的特征包括:(1)声学特征(倒频谱);(2)词法特征(说话人相关的词n-gram,音素n-gram);(3)韵律特征(利用n-gram描述的基音和能量“姿势”);(4)语种、方言和口音信息;(5)通道信息(使用何种通道);等等。
根据不同的任务需求,声纹识别还面临一个特征选择或特征选用的问题。例如,对“信道”信息,在刑侦应用上,希望不用,也就是说希望弱化信道对说话人识别的影响,因为我们希望不管说话人用什么信道系统它都可以辨认出来;而在银行交易上,希望用信道信息,即希望信道对说话人识别有较大影响,从而可以剔除录音、模仿等带来的影响。
总之,较好的特征,应该能够有效地区分不同的说话人,但又能在同一说话人语音发生变化时保持相对的稳定;不易被他人模仿或能够较好地解决被他人模仿问题;具有较好的抗噪性能;……。当然,这些问题也可以通过模型方法去解决。
模式识别:
对于模式识别,有以下几大类方法:
(1)模板匹配方法:利用动态时间弯折(DTW)以对准训练和测试特征序列,主要用于固定词组的应用(通常为文本相关任务);
(2)最近邻方法:训练时保留所有特征矢量,识别时对每个矢量都找到训练矢量中最近的K个,据此进行识别,通常模型存储和相似计算的量都很大;
(3)神经网络方法:有很多种形式,如多层感知、径向基函数(RBF)等,可以显式训练以区分说话人和其背景说话人,其训练量很大,且模型的可推广性不好;
(4)隐式马尔可夫模型(HMM)方法:通常使用单状态的HMM,或高斯混合模型(GMM),是比较流行的方法,效果比较好;
(5)VQ聚类方法(如LBG):效果比较好,算法复杂度也不高,和HMM方法配合起来更可以收到更好的效果;
(6)多项式分类器方法:有较高的精度,但模型存储和计算量都比较大;
(7)……。
声纹识别需要解决的关键问题还有很多,诸如:短话音问题,能否用很短的语音进行模型训练,而且用很短的时间进行识别,这主要是声音不易获取的应用所需求的;声音模仿(或放录音)问题,要有效地区分开模仿声音(录音)和真正的声音;多说话人情况下目标说话人的有效检出;消除或减弱声音变化(不同语言、内容、方式、身体状况、时间、年龄等)带来的影响;消除信道差异和背景噪音带来的影响;……此时需要用到其他一些技术来辅助完成,如去噪、自适应等技术。
对说话人确认,还面临一个两难选择问题。通常,表征说话人确认系统性能的两个重要参数是错误拒绝率(False Rejection Rate, FRR)和错误接受率(False AcceptationRate, FAR),前者是拒绝真正说话人而造成的错误,后者是接受集外说话人而造成的错误,二者与阈值的设定相关,两者相等的值称为等错率(Equal Error Rate, EER)。在现有的技术水平下,两者无法同时达到最小,需要调整阈值来满足不同应用的需求,比如在需要“易用性”的情况下,可以让错误拒绝率低一些,此时错误接受率会增加,从而安全性降低;在对“安全性”要求高的情况下,可以让错误接受率低一些,此时错误拒绝率会增加,从而易用性降低。前者可以概括为“宁错勿漏”,而后者可以“宁漏勿错”。我们把真正阈值的调整称为“操作点”调整。好的系统应该允许对操作点的自由调整。
其中,本实施例中,先获取当前被检者的当前声纹信息作为基准声纹信息,在获取当前环境语音信息中的所有声音均进行声纹识别,将比对成功的当前环境语音信息作为当前被检者的当前答复语音信息。
步骤4200:将当前答复语音信息通过语音识别转化形成当前答复文字信息。
步骤4300:视标术语信息包括与需辨认视标信息相互对应的视标文字信息,将当前答复文字信息与当前视标文字信息进行匹配分析。
其中,如图5所示,将当前答复文字信息与当前视标文字信息进行匹配分析的方法如下:
步骤4310:提取当前答复文字信息中的当前关键词信息。
步骤4320:将当前关键词信息与当前答复文字信息进行相互比对。
步骤4330:若当前答复文字信息中存在当前关键词信息,则匹配成功。
步骤4340:若当前答复文字信息中不存在当前关键词信息,则匹配不成功。
其中,由于语音转化为文字的过程中,可能存在一些无效的文字数据,故先对初始的文字进行提取关键词,确保判断识别准确性,将关键词和作为标准的答复文字信息进行比对,如果存在关键词,就说明匹配成功。
步骤4400:若当前答复文字信息与当前视标文字信息匹配成功,则形成与回答正确相互对应的正确语音信息以反馈给检测人员。
步骤4500:若当前答复文字信息与当前视标文字信息匹配不成功,则形成与回答错误相互对应的错误语音信息以反馈给检测人员。
其中,对当前被检者的当前答复语音信息进行获取,并将语音转化至文字,将转化后的文字和需辨认视标信息对应的视标文字信息进行比对,如果比对成功,则说明回答正确,就反馈对应的正确语音信息给检测人员;反之,就反馈错误语音信息。
本发明实施例提供一种计算机可读存储介质,包括能够被处理器加载执行时实现如图1-图5。流程中所述的各个步骤。
所述计算机可读存储介质例如包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
基于同一发明构思,本发明实施例提供一种智能终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,该程序能够被处理器加载执行时实现如图1-图5。流程中所述的视力检查的辅助方法。
基于同一发明构思,本发明实施例提供一种辅助装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,该程序能够被处理器加载执行时实现如图1-图5。流程中所述的视力检查的辅助方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以对本申请的技术方案进行了详细介绍,但以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,不应理解为对本发明的限制。本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (6)
1.一种视力检查的辅助方法,其特征是,包括:
获取当前辨认表上的当前需辨认视标信息;
从预先设置的需辨认视标信息与视标术语信息之间的对应关系中,查找与所述当前需辨认视标信息对应的当前视标术语信息,所述视标术语信息包括与所述需辨认视标信息相互对应的视标音频信息;
调取当前需辨认视标信息所对应的当前视标音频信息以反馈给检测人员;
获取当前需辨认视标信息的方法如下:
获取当前辨认表上的当前图像显示信息;
所述当前图像显示信息的获取可以通过将当前辨认表的电子图像进行数据传输获取;通过智能显示设备来显示对应的辨认表;
识别当前图像显示信息上是否存在所预设的标定识别信息;
通过图像识别功能对标定识别信息进行识别;所预设的标定识别信息即为在辨认表上需要辨认的视标外围设置对应的标识;该标识可以为圆形标识或方形标识或多边形标识;该标识的颜色设置为与视标颜色不同的颜色;
若存在标定识别信息,则获取当前标定识别信息所预设范围内的当前部分图像信息;
将当前部分图像信息与所预设的基准视标图像信息进行匹配;
若当前部分图像信息与对应的基准视标图像信息相互匹配成功,则定义该对应的基准视标图像信息为当前需辨认视标信息;
还包括:
获取当前被检者的当前答复语音信息;
将当前答复语音信息通过语音识别转化形成当前答复文字信息;
所述视标术语信息包括与所述需辨认视标信息相互对应的视标文字信息,将当前答复文字信息与当前视标文字信息进行匹配分析;
若当前答复文字信息与当前视标文字信息匹配成功,则形成与回答正确相互对应的正确语音信息以反馈给检测人员;
若当前答复文字信息与当前视标文字信息匹配不成功,则形成与回答错误相互对应的错误语音信息以反馈给检测人员;
获取当前被检者的当前答复语音信息的方法如下:
获取当前被检者的当前声纹信息;
将该当前声纹信息作为基准声纹信息;
获取当前环境下的当前环境语音信息;
将当前环境语音信息所对应的声纹信息与基准声纹信息相互比对分析;若比对成功,则将该当前环境语音信息作为当前被检者的当前答复语音信息。
2.根据权利要求1所述的视力检查的辅助方法,其特征是:所述视标术语信息包括问题描述音频信息,在调取当前视标音频信息以反馈给检测人员同时,调取问题描述音频信息以反馈给被检者。
3.根据权利要求1所述的视力检查的辅助方法,其特征是,将当前答复文字信息与当前视标文字信息进行匹配分析的方法如下:
提取当前答复文字信息中的当前关键词信息;
将当前关键词信息与当前答复文字信息进行相互比对;
若当前答复文字信息中存在当前关键词信息,则匹配成功;
若当前答复文字信息中不存在当前关键词信息,则匹配不成功。
4.一种计算机可读存储介质,其特征是,包括能够被处理器加载执行时实现如权利要求1至3中任一项所述的视力检查的辅助方法的程序。
5.一种智能终端,其特征是,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,该程序能够被处理器加载执行时实现如权利要求1至3中任一项所述的视力检查的辅助方法。
6.一种辅助装置,其特征是:包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,该程序能够被处理器加载执行时实现如权利要求1至3中任一项所述的视力检查的辅助方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910512741.0A CN110338747B (zh) | 2019-06-13 | 2019-06-13 | 视力检查的辅助方法、存储介质、智能终端及辅助装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910512741.0A CN110338747B (zh) | 2019-06-13 | 2019-06-13 | 视力检查的辅助方法、存储介质、智能终端及辅助装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110338747A CN110338747A (zh) | 2019-10-18 |
CN110338747B true CN110338747B (zh) | 2022-09-09 |
Family
ID=68181981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910512741.0A Active CN110338747B (zh) | 2019-06-13 | 2019-06-13 | 视力检查的辅助方法、存储介质、智能终端及辅助装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110338747B (zh) |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN201005675Y (zh) * | 2007-01-15 | 2008-01-16 | 涂聪 | 视力检测装置 |
JP4560801B2 (ja) * | 2007-01-19 | 2010-10-13 | 武敏 鈴木 | 視覚検査用チャート |
CN202146293U (zh) * | 2011-04-07 | 2012-02-22 | 胡骏 | 自助电子视力表 |
CN102657511A (zh) * | 2012-05-21 | 2012-09-12 | 天津理工大学 | 一种具有数码视标和语音识别特征的视觉测量系统 |
US10251544B2 (en) * | 2015-05-07 | 2019-04-09 | Kali Care, Inc. | Head-mounted display for performing ophthalmic examinations |
CN205181311U (zh) * | 2015-11-23 | 2016-04-27 | 曾妍 | 一种视力测试装置 |
KR101652739B1 (ko) * | 2016-03-23 | 2016-08-31 | (주) 뷰엠테크놀로지 | 시력 검사 방법, 시력 검사기 및 이 시력 검사 방법의 프로그램을 저장하는 다운로더 서버 |
JP3205691U (ja) * | 2016-05-12 | 2016-08-12 | 佐藤 和美 | 視力検査ツール |
CN106060142A (zh) * | 2016-06-17 | 2016-10-26 | 杨斌 | 一种能够检查视力的手机及使用其进行视力检查的方法 |
CN106343946A (zh) * | 2016-12-07 | 2017-01-25 | 安徽新华传媒股份有限公司 | 一种基于语音识别的视力检测系统 |
CN109545223B (zh) * | 2017-09-22 | 2022-03-01 | Tcl科技集团股份有限公司 | 应用于用户终端的语音识别方法及终端设备 |
JP6967928B2 (ja) * | 2017-09-28 | 2021-11-17 | 株式会社トプコン | 検眼装置、方法およびプログラム |
CN108968905A (zh) * | 2018-06-19 | 2018-12-11 | 湖州师范学院 | 检测视力的方法、装置、系统和计算机可读存储介质 |
CN109171637A (zh) * | 2018-09-30 | 2019-01-11 | 苏州安视沛清科技有限公司 | 视力检测方法、装置、计算机存储介质及计算机设备 |
CN109222882A (zh) * | 2018-10-08 | 2019-01-18 | 浙江工业大学 | 一种阅读视力检查系统及方法 |
CN109171638A (zh) * | 2018-10-25 | 2019-01-11 | 北京七鑫易维信息技术有限公司 | 视力检测的方法、终端、头戴显示设备以及视力检测系统 |
-
2019
- 2019-06-13 CN CN201910512741.0A patent/CN110338747B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110338747A (zh) | 2019-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10276152B2 (en) | System and method for discriminating between speakers for authentication | |
Rudzicz et al. | The TORGO database of acoustic and articulatory speech from speakers with dysarthria | |
CN111315302A (zh) | 认知功能评估装置、认知功能评估系统、认知功能评估方法及程序 | |
CN102737634A (zh) | 一种基于语音的认证方法及装置 | |
US11826161B2 (en) | Cognitive function evaluation device, cognitive function evaluation system, cognitive function evaluation method, and non-transitory computer-readable storage medium | |
US10311865B2 (en) | System and method for automated speech recognition | |
WO2006109268A1 (en) | Automated speech disorder detection method and apparatus | |
KR102444012B1 (ko) | 말 장애 평가 장치, 방법 및 프로그램 | |
CN113243918B (zh) | 基于多模态隐匿信息测试的风险检测方法及装置 | |
WO2006034569A1 (en) | A speech training system and method for comparing utterances to baseline speech | |
JP6729923B1 (ja) | 難聴判定装置、難聴判定システム、コンピュータプログラム及び認知機能レベル補正方法 | |
Nisar et al. | Speech recognition-based automated visual acuity testing with adaptive mel filter bank | |
CN110364180A (zh) | 一种基于音视频处理的考试系统及方法 | |
CN110338747B (zh) | 视力检查的辅助方法、存储介质、智能终端及辅助装置 | |
KR20220005232A (ko) | 음성 인식 기반의 원격 진료 서비스 제공 방법, 장치, 컴퓨터 프로그램 및 컴퓨터 판독 가능한 기록 매체 | |
Koniaris et al. | On mispronunciation analysis of individual foreign speakers using auditory periphery models | |
CN112308379A (zh) | 居家护理的服务订单评价方法、装置、设备和存储介质 | |
US20230274760A1 (en) | Voice processing device, voice processing method, recording medium, and voice authentication system | |
Tseng et al. | Segment and Tone Production in Continuous Speech of Hearing and Hearing-Impaired Children. | |
Park | Towards Understanding Voice Discrimination Abilities of Humans and Machines | |
Haring | Assisting Aphasia Diagnosis Employing Deep Learning | |
Liu | Automatic Assessment of Disordered Voice Based on Diverse Speech Tasks | |
Thongdee et al. | Comparative Study of Pairwise Classifications by ML and NN on Unvoiced Segments in Speech Sample | |
Svirava | The use of statistical methods in forensic speaker identification in Russian Federation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |