CN106601256B - 语音识别的方法及移动终端 - Google Patents
语音识别的方法及移动终端 Download PDFInfo
- Publication number
- CN106601256B CN106601256B CN201611254077.7A CN201611254077A CN106601256B CN 106601256 B CN106601256 B CN 106601256B CN 201611254077 A CN201611254077 A CN 201611254077A CN 106601256 B CN106601256 B CN 106601256B
- Authority
- CN
- China
- Prior art keywords
- text
- voice
- candidate
- voice messaging
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012545 processing Methods 0.000 claims description 23
- 230000008859 change Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 abstract description 8
- 230000004048 modification Effects 0.000 abstract description 8
- 238000004891 communication Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005242 forging Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
- G06F3/0236—Character input methods using selection techniques to select from displayed items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明属于通信技术领域,提供了一种语音识别的方法及移动终端,所述方法包括:接收输入的语音信息,对语音信息进行识别,以获得对应的文本信息;获取语音信息中识别度低于预设值的语音;显示语音信息对应的文本信息,并对所显示的文本信息中识别度低于预设值的语音对应的文本进行标记;显示至少一个与所述语音信息中与标记的文本对应的语音的识别度在预设范围内的候选文本供用户选择,接收用户从所述至少一个候选文本中选择的文本,并将所选择的文本替换所述标记的文本,以便于替换后的文本与所述文本信息中未标记的文本一同显示。通过本发明可解决当语音识别的文本信息中存在错误的文本时,需要将光标定位到相应的位置进行手动修改的问题。
Description
技术领域
本发明属于通信技术领域,尤其涉及语音识别的方法及移动终端。
背景技术
随着手机、平板电脑等移动终端的兴起,移动终端上的语音输入功能越来越受用户的喜爱。然而,现有技术通常是将识别的文本信息直接显示在移动终端的屏幕上,如果有识别错误的文本,则需要将光标定位到相应的位置进行手动修改,过程比较繁琐。
故,有必要提出一种新的技术方案,以解决上述技术问题。
发明内容
鉴于此,本发明实施例提供一种语音识别的方法及移动终端,以解决当语音识别的文本信息中存在错误的文本时,需要将光标定位到相应的位置进行手动修改的问题。
本发明实施例的第一方面,提供一种语音识别的方法,应用于移动终端,所述方法包括:
接收输入的语音信息,对所述语音信息进行识别,以获得对应的文本信息;
获取所述语音信息中识别度低于预设值的语音;
显示所述语音信息对应的文本信息,并对所显示的文本信息中所述识别度低于预设值的语音对应的文本进行标记;
显示至少一个与所述语音信息中与标记的文本对应的语音的识别度在预设范围内的候选文本供用户选择,接收用户从所述至少一个候选文本中选择的文本,并将所选择的文本替换所述标记的文本,以便于替换后的文本与所述文本信息中未标记的文本一同显示。
本发明实施例的第二方面,提供一种移动终端,所述移动终端包括:
接收模块,用于接收输入的语音信息,对所述语音信息进行识别,以获得对应的文本信息;
语音获取模块,用于获取所述语音信息中识别度低于预设值的语音;
显示模块,用于显示所述语音信息对应的文本信息,并对所显示的文本信息中所述识别度低于预设值的语音对应的文本进行标记;
处理模块,用于显示至少一个与所述语音信息中与标记的文本对应的语音的识别度在预设范围内的候选文本供用户选择,接收用户从所述至少一个候选文本中选择的文本,并将所选择的文本替换所述标记的文本,以便于替换后的文本与所述文本信息中未标记的文本一同显示。
本发明实施例的第三方面,提供一种移动终端,所述移动终端包括:
处理器、输入设备以及输出设备;
所述处理器,用于通过所述输入设备接收输入的语音信息,对所述语音信息进行识别,以获得对应的文本信息;
所述处理器,还用于通过所述输入设备获取所述语音信息中识别度低于预设值的语音;
所述处理器,还用于通过所述输出设备显示所述语音信息对应的文本信息,并对所显示的文本信息中所述识别度低于预设值的语音对应的文本进行标记;
所述处理器,还用于通过所述输出设备显示至少一个与所述语音信息中与标记的文本对应的语音的识别度在预设范围内的候选文本供用户选择,通过所述输入设备接收用户从所述至少一个候选文本中选择的文本,并将所选择的文本替换所述标记的文本,以便于替换后的文本与所述文本信息中未标记的文本一同显示。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例接收输入的语音信息,并对所述语音信息进行识别,以获得对应的文本信息,可以获取所述语音信息中识别度低于预设值的语音,显示所述语音信息对应的文本信息,并对所显示的文本信息中所述识别度低于预设值的语音对应的文本进行标记,同时显示至少一个与所述语音信息中与标记的文本对应的语音的识别度在预设范围内的候选文本供用户选择,接收用户从所述至少一个候选文本中选择的文本,并将所选择的文本替换所述标记的文本,以便于替换后的文本与所述文本信息中未标记的文本一同显示。本发明实施例通过将语音信息中识别度低于预设值的语音对应的文本进行标记(例如错误的文本),并显示至少一个与该语音信息中与标记的文本对应的语音的识别度在预设范围内的候选文本供用户,将用户从至少一个候选文本中选择的正确的文本替换标记的文本,无需用户手动进行修改,即解决了当语音识别的文本信息中存在错误的文本时,需要将光标定位到相应的位置进行手动修改的问题,提高了语音识别的效率和成功率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的语音识别的方法的示意流程图;
图2是本发明实施例二提供的语音识别的方法的示意流程图;
图3是本发明实施例三提供的移动终端的示意性框图;
图4是本发明实施例四提供的移动终端的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
具体实现中,本发明实施例中描述的移动终端包括但不限于诸如具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是,在某些实施例中,所述设备并非便携式通信设备,而是具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的台式计算机。
在接下来的讨论中,描述了包括显示器和触摸敏感表面的移动终端。然而,应当理解的是,移动终端可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其它物理用户接口设备。
移动终端支持各种应用程序,例如以下中的一个或多个:绘图应用程序、演示应用程序、文字处理应用程序、网站创建应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄影机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。
可以在移动终端上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的相应信息。这样,终端的公共物理架构(例如,触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
参见图1,是本发明实施例一提供的语音识别的方法的示意流程图,该方法应用于移动终端,如图所示该方法可以包括以下步骤:
步骤S101,接收输入的语音信息,对所述语音信息进行识别,以获得对应的文本信息。
在本发明实施例中,所述移动终端可以通过语音采集模块采集用户输入的语音信息,并对所述语音信息进行识别,从而获取所述语音信息对应的文本信息。
具体地,对所述语音信息进行识别可以指将输入的所述语音信息与所述移动终端的语音库进行匹配,从而获取所述语音信息中语音的匹配度,即所述语音信息中语音的识别度,并从所述语音库中获取所述语音信息中语音的识别度最大时所对应的文本,进而从所述语音库中获取与所述语音信息对应的文本信息。
在本发明实施例中,所述语音库包括但不限于不同地域方言所对应的方言语音库、不同国家语言所对应的语种语音库等。在接收到用户输入的语音信息时,可以获取移动终端用户所在的位置信息,根据位置信息加载相应的方言语音库或者语种语音库,对用户输入的语音信息进行识别,从而提高了语音识别的效率和准确性。
步骤S102,获取所述语音信息中识别度低于预设值的语音。
在本发明实施例中,可以根据预设值判断所述语音信息中识别度不高的语音,该识别度不高的语音可能是识别错误的语音,导致所述文本信息中该语音对应的文本也可能是错误的文本。可选的,所述预设值可以根据实际需要用户自行设定,例如95%,在此不作限定。
步骤S103,显示所述语音信息对应的文本信息,并对所显示的文本信息中所述识别度低于预设值的语音对应的文本进行标记。
在本发明实施例中,可以在所述移动终端的屏幕上的相应位置显示所述语音信息对应的文本信息,并对所显示的文本信息中所述识别度低于预设值的语音对应的文本进行标记,例如在使用语音输入短消息时,可以在短消息的编辑框显示所述语音信息对应的文本信息,并对该文本信息中识别度低于95%的语音对应的文本进行显示标记(如以黄色突显该文本)。
其中,标记方式包括但不限于颜色、字体大小、字体粗细等。
可选的,若所述标记的文本为正确的文本,则去除该文本的标记。
在本发明实施例中,所述语音信息中识别度低于预设值的语音所对应的文本,也可能为正确的文本,由于在步骤S103中对所述语音信息中所有识别度低于预设值的语音进行了标记,则为了避免对已标记的正确的文本执行步骤S104,可以在执行步骤S104之前去除该文本的标记。
需要说明的是,当所述文本信息中存在一个标记的文本时,若该标记的文本为正确的文本,则去除该文本的标记,无需再执行步骤S104。当所述文本信息中存在多个标记的文本时,若多个标记的文本中存在至少一个正确的文本时,则去除正确的文本的标记,并对剩余未去除标记的文本执行步骤S104。
步骤S104,显示至少一个与所述语音信息中与标记的文本对应的语音的识别度在预设范围内的候选文本供用户选择,接收用户从所述至少一个候选文本中选择的文本,并将所选择的文本替换所述标记的文本,以便于替换后的文本与所述文本信息中未标记的文本一同显示。
在本发明实施例中,与标记的文本所对应的语音的识别度在预设范围内的候选文本可能为一个,也可能为多个。可以以弹窗的方式在所述移动终端的屏幕上显示至少一个与标记的文本所对应的语音(该语音属于所述语音信息)的识别度在预设范围内(如85%~100%)的候选文本,例如,当候选文本为多个时,可以在弹窗中以九宫格的方式显示多个候选文本。
在本发明实施例中,当从所述至少一个候选文本中选中正确的文本时,在语音库中可以直接将正确的文本设置为相应语音(即语音信息中与标记的文本对应的语音)的识别结果,或者将正确的文本的识别度设置为预设值,该预设值高于标记的文本的识别度,以便于在后续输入相同的语音时,直接从语音库中获取正确的文本,提高了后续语音识别的效率和准确性。
可选的,若所述文本信息中存在多个标记的文本,则获取所述多个标记的文本在所述文本信息中的顺序;
所述显示至少一个与所述语音信息中与标记的文本对应的语音的识别度在预设范围内的候选文本供用户选择,接收用户从所述至少一个候选文本中选择的文本,并将所选择的文本替换所述标记的文本包括:
显示至少一个与所述语音信息中与第一个标记的文本对应的语音的识别度在预设范围内的候选文本供用户选择,接收用户从该候选文本中选择的文本,并将所选择的文本替换所述第一个标记的文本;
显示至少一个与所述语音信息中与第二个标记的文本对应的语音的识别度在预设范围内的候选文本供用户选择,接收用户从该候选文本中选择的文本,并将所选择的文本替换所述第二个标记的文本;
以此类推,直到遍历完所述多个标记的文本。
在本发明实施例中,可以获取所述多个标记的文本在所述文本信息中的顺序,首先自动显示至少一个与第一个标记的文本所对应的语音的识别度在预设范围内的候选文本供用户选择,并在所述移动终端接收到用户从上述至少一个候选文本中选择的文本后,将所选择的文本替换所述第一标记的文本;然后自动显示至少一个与第二标记的文本所对应的语音的识别度在预设范围内的候选文本供用户选择,并在所述移动终端接收到用户从上述至少一个候选文本中选择的文本后,将所选择的文本替换所述第二标记的文本;接着自动显示至少一个与第三标记的文本所对应的语音的识别度在预设范围内的候选文本供用户选择,并在所述移动终端接收到用户从上述至少一个候选文本中选择的文本后,将所选择的文本替换所述第三标记的文本,以此类推,直到遍历完所述多个标记的文本,即所述文本信息中不再存在标记的文本。
需要说明的是,可以根据用户预先设置的操作指令,在检测到用户对标记的文本进行预设操作(例如长按标记的文本)时,才显示与该标记的文本所对应的语音的识别度在预设范围内的候选文本供用户选择。
可选的,若所述至少一个候选文本中不存在正确的文本,则隐藏所述至少一个候选文本,以便于用户修改所述标记的文本。
在本发明实施例中,若所述至少一个候选文本中不存在正确的文本,即所述至少一个候选文本均为错误的文本,则所述移动终端可以在检测到用户对显示所述至少一个候选文本的弹窗的预设操作(例如双击该弹窗的空白处)时,隐藏所述至少一个候选文本,以便于用户手动修改所述标记的文本,将所述标记的文本替换为正确的文本,从而保证最终所显示的文本的正确性。
在本发明实施例中,在用户手动将所述标记的文本修改为正确的文本后,可以查找语音库中是否存在用户所修改的正确的文本,若不存在,则将正确的文本存储至语音库,并可以将正确的文本设置为相应语音(即语音信息中与标记的文本对应的语音)的识别结果,或者将正确的文本的识别度设置为预设值,该预设值高于标记的文本的识别度;若存在,则可以将正确的文本直接设置为相应语音(即语音信息中与标记的文本对应的语音)的识别结果,或者将正确的文本的识别度设置为预设值,该预设值高于标记的文本的识别度,以便于在后续输入相同的语音时,直接从语音库中获取正确的文本,提高了后续语音识别的效率和准确性。
本发明实施例通过将语音信息中识别度低于预设值的语音对应的文本进行标记(例如错误的文本),并显示至少一个与该语音信息中与标记的文本对应的语音的识别度在预设范围内的候选文本供用户,将用户从至少一个候选文本中选择的正确的文本替换标记的文本,无需用户手动进行修改,即解决了当语音识别的文本信息中存在错误的文本时,需要将光标定位到相应的位置进行手动修改的问题,提高了语音识别的效率和成功率。
参见图2,是本发明实施例二提供的语音识别的方法的示意流程图,该方法应用于移动终端,如图所示该方法可以包括以下步骤:
步骤S201,接收输入的语音信息,对所述语音信息进行识别,以获得对应的文本信息。
该步骤与步骤S101相同,具体可参见步骤S101的相关描述,在此不再赘述。
步骤S202,获取所述语音信息中识别度低于预设值的语音。
该步骤与步骤S102相同,具体可参见步骤S102的相关描述,在此不再赘述。
步骤S203,显示所述语音信息对应的文本信息,并对所显示的文本信息中所述识别度低于预设值的语音对应的文本进行标记。
该步骤与步骤S103相同,具体可参见步骤S103的相关描述,在此不再赘述。
步骤S204,显示多个与所述语音信息中与标记的文本对应的语音的识别度在预设范围内的候选文本供用户选择。
在本发明实施例中,可以以弹窗的方式在所述移动终端的屏幕上显示多个与标记的文本所对应的语音(该语音属于所述语音信息)的识别度在预设范围内(如85%~100%)的候选文本,并按照预定的条件对所述多个候选文本进行排序,例如,在弹窗中以九宫格的方式显示多个候选文本,且多个候选文本在九宫格中可以根据识别度的高低进行排序显示。
步骤S205,获取所述多个候选文本的排列顺序;
步骤S206,根据该排列顺序,建立所述多个候选文本中每个候选文本与文字显示区域码的对应关系。
在本发明实施例中,所述文字显示区域码可以指便于语音识别的代码,用于标识多个候选文本的排列顺序,例如,1、2、3等或者one、two、three等。
可选的,本发明实施例也可以在接收到用户对所述多个候选文本中某一候选文本的操作信息(例如点击或者滑动操作)时,确定该候选文本为所选择的文本,并接收该文本。
步骤S207,在接收到用户语音输入的文字显示区域码时,确定该文字显示区域码所对应的候选文本为所选择的文本,并接收该文本,将该文本替换所述标记的文本,以便于替换后的文本与所述文本信息中未标记的文本一同显示。
示例性的,在接收到用户输入的“1”时,确定多个候选文件中排列顺序为第一的候选文本为用户所选择的文本。
本发明实施例通过将语音信息中识别度低于预设值的语音对应的文本进行标记(例如错误的文本),并显示多个与该语音信息中与标记的文本对应的语音的识别度在预设范围内的候选文本供用户,将用户从多个候选文本中选择的正确的文本替换标记的文本,无需用户手动进行修改,即解决了当语音识别的文本信息中存在错误的文本时,需要将光标定位到相应的位置进行手动修改的问题,提高了语音识别的效率和成功率。
应理解,在上述实施例中,各步骤的序号的大小并不意味着执行顺序的先后,各步骤的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
参见图3,是本发明实施例三提供的移动终端的示意框图,为了便于说明,仅示出了与本发明实施例相关的部分。
所述移动终端包括:
接收模块31,用于接收输入的语音信息,对所述语音信息进行识别,以获得对应的文本信息;
语音获取模块32,用于获取所述语音信息中识别度低于预设值的语音;
显示模块33,用于显示所述语音信息对应的文本信息,并对所显示的文本信息中所述识别度低于预设值的语音对应的文本进行标记;
处理模块34,用于显示至少一个与所述语音信息中与标记的文本对应的语音的识别度在预设范围内的候选文本供用户选择,接收用户从所述至少一个候选文本中选择的文本,并将所选择的文本替换所述标记的文本,以便于替换后的文本与所述文本信息中未标记的文本一同显示。
可选的,所述移动终端还包括:
去除模块35,用于若所述标记的文本为正确的文本,则去除该文本的标记。
可选的,所述处理模块34还用于:
若所述至少一个候选文本中不存在正确的文本,则隐藏所述至少一个候选文本,以便于用户修改所述标记的文本。
可选的,所述移动终端还包括:
顺序获取模块36,用于若所述文本信息中存在多个标记的文本,则获取所述多个标记的文本在所述文本信息中的顺序;
可选的,所述处理模块34包括:
第一处理单元341,用于显示至少一个与所述语音信息中与第一个标记的文本对应的语音的匹配度在预设范围内的候选文本供用户选择,接收用户从该候选文本中选择的文本,并将所选择的文本替换所述第一个标记的文本;
第二处理单元342,用于显示至少一个与所述语音信息中与第二个标记的文本对应的语音的匹配度在预设范围内的候选文本供用户选择,接收用户从该候选文本中选择的文本,并将所选择的文本替换所述第二个标记的文本;
遍历单元343,用于以此类推,直到遍历完所述多个标记的文本。
可选的,所述处理模块包括:
获取单元344,用于当所述候选文本为多个时,获取所述多个候选文本的排列顺序;
关系建立单元345,用于根据该排列顺序,建立所述多个候选文本中每个候选文本与文字显示区域码的对应关系。
可选的,所述处理模块34用于:
在接收到用户语音输入的文字显示区域码时,确定该文字显示区域码所对应的候选文本为所选择的文本,并接收该文本。
可选的,所述处理模块34用于:
在接收到用户对所述至少一个候选文本中某一候选文本的操作信息时,确定该候选文本为所选择的文本,并接收该文本。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述移动终端的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述移动终端中模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
参见图4,是本发明实施例四提供的移动终端的示意框图。如图所示的该移动终端可以包括:一个或多个处理器401(图中仅示出一个);一个或多个输入设备402(图中仅示出一个),一个或多个输出设备403(图中仅示出一个)和存储器404。上述处理器401、输入设备402、输出设备403和存储器404通过总线405连接。存储器404用于存储指令,处理器401用于执行存储器404存储的指令。其中:
所述处理器401,用于通过所述输入设备402接收输入的语音信息,对所述语音信息进行识别,以获得对应的文本信息;通过所述输入设备402获取所述语音信息中识别度低于预设值的语音;通过所述输出设备403显示所述语音信息对应的文本信息,并对所显示的文本信息中所述识别度低于预设值的语音对应的文本进行标记;通过所述输出设备403显示至少一个与所述语音信息中与标记的文本对应的语音的识别度在预设范围内的候选文本供用户选择,通过所述输入设备402接收用户从所述至少一个候选文本中选择的文本,并将所选择的文本替换所述标记的文本,以便于替换后的文本与所述文本信息中未标记的文本一同显示。
可选的,所述处理器401,还用于若所述标记的文本为正确的文本,则去除该文本的标记。
可选的,所述处理器401,还用于若所述至少一个候选文本中不存在正确的文本,则隐藏所述至少一个候选文本,以便于用户修改所述标记的文本。
可选的,所述处理器401,还用于若所述文本信息中存在多个标记的文本,则获取所述多个标记的文本在所述文本信息中的顺序;
所述处理器401具体用于:通过所述输出设备403显示至少一个与所述语音信息中与第一个标记的文本对应的语音的识别度在预设范围内的候选文本供用户选择,通过所述输入设备402接收用户从该候选文本中选择的文本,并将所选择的文本替换所述第一个标记的文本;通过所述输出设备403显示至少一个与所述语音信息中与第二个标记的文本对应的语音的识别度在预设范围内的候选文本供用户选择,通过所述输入设备402接收用户从该候选文本中选择的文本,并将所选择的文本替换所述第二个标记的文本;以此类推,直到遍历完所述多个标记的文本。
可选的,当所述候选文本为多个时,在接收用户从所述多个候选文本中选择的文本之前,所述处理器401还用于:通过所述输入设备402获取所述多个候选文本的排列顺序;根据该排列顺序,建立所述多个候选文本中每个候选文本与文字显示区域码的对应关系。
可选的,所述处理器401,具体用于在接收到用户语音输入的文字显示区域码时,确定该文字显示区域码所对应的候选文本为所选择的文本,并通过所述输入设备402接收该文本。
可选的,所述处理器401,具体用于在接收到用户对所述至少一个候选文本中某一候选文本的操作信息时,确定该候选文本为所选择的文本,并通过所述输入设备402接收该文本。
所述存储器404,用于存储软件程序以及模块。所述处理器401通过运行存储在所述存储器404的软件程序以及模块,从而执行各种功能应用以及数据处理,以提高语音识别的成功率。
应当理解,在本发明实施例中,所述处理器401可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备402可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风、数据接收接口等。输出设备403可以包括显示器(LCD等)、扬声器、数据发送接口等。
该存储器404可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器404的一部分还可以包括非易失性随机存取存储器。例如,存储器404还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器401、输入设备402、输出设备403和存储器404可执行本发明实施例提供的语音识别的方法的实施例中所描述的实现方式,也可执行实施例三所述移动终端中所描述的实现方式,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的移动终端和方法,可以通过其它的方式实现。例如,以上所描述的移动终端实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。
Claims (15)
1.一种语音识别的方法,应用于移动终端,其特征在于,所述方法包括:
接收输入的语音信息,对所述语音信息进行识别,以获得对应的文本信息;所述对所述语音信息进行识别具体为:将所述语音信息与所述移动终端的语音库进行匹配,获取所述语音信息中语音的识别度,并从所述语音库中获取所述语音信息中语音的识别度最大时所对应的文本,进而从所述语音库中获取与所述语音信息对应的文本信息;
获取所述语音信息中识别度低于预设值的语音;
显示所述语音信息对应的文本信息,并对所显示的文本信息中所述识别度低于预设值的语音对应的文本进行标记;
显示至少一个与所述语音信息中与标记的文本对应的语音的识别度在预设范围内的候选文本供用户选择,接收用户从所述至少一个候选文本中选择的文本,并将所选择的文本替换所述标记的文本,以便于替换后的文本与所述文本信息中未标记的文本一同显示;
当从所述至少一个候选文本中选中正确的文本时,在语音库中直接将所述正确的文本设置为相应语音的识别结果,或者将所述正确的文本的识别度设置为预设值,该预设值高于标记的文本的识别度,以便于在后续输入相同的语音时,直接从语音库中获取正确的文本。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述标记的文本为正确的文本,则去除该文本的标记。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述至少一个候选文本中不存在正确的文本,则隐藏所述至少一个候选文本,以便于用户修改所述标记的文本。
4.根据权利要求1所述的方法,其特征在于,在对所显示的文本信息中所述识别度低于预设值的语音对应的文本进行标记之后,还包括:
若所述文本信息中存在多个标记的文本,则获取所述多个标记的文本在所述文本信息中的顺序;
所述显示至少一个与所述语音信息中与标记的文本对应的语音的识别度在预设范围内的候选文本供用户选择,接收用户从所述至少一个候选文本中选择的文本,并将所选择的文本替换所述标记的文本包括:
显示至少一个与所述语音信息中与第一个标记的文本对应的语音的识别度在预设范围内的候选文本供用户选择,接收用户从该候选文本中选择的文本,并将所选择的文本替换所述第一个标记的文本;
显示至少一个与所述语音信息中与第二个标记的文本对应的语音的识别度在预设范围内的候选文本供用户选择,接收用户从该候选文本中选择的文本,并将所选择的文本替换所述第二个标记的文本;
以此类推,直到遍历完所述多个标记的文本。
5.根据权利要求1所述的方法,其特征在于,当所述候选文本为多个时,在接收用户从所述多个候选文本中选择的文本之前,还包括:
获取所述多个候选文本的排列顺序;
根据该排列顺序,建立所述多个候选文本中每个候选文本与文字显示区域码的对应关系。
6.根据权利要求5所述的方法,其特征在于,所述接收用户从所述至少一个候选文本中选择的文本包括:
在接收到用户语音输入的文字显示区域码时,确定该文字显示区域码所对应的候选文本为所选择的文本,并接收该文本。
7.根据权利要求1所述的方法,其特征在于,所述接收用户从所述至少一个候选文本中选择的文本包括:
在接收到用户对所述至少一个候选文本中某一候选文本的操作信息时,确定该候选文本为所选择的文本,并接收该文本。
8.一种移动终端,其特征在于,所述移动终端包括:
接收模块,用于接收输入的语音信息,对所述语音信息进行识别,以获得对应的文本信息;所述对所述语音信息进行识别具体为:将所述语音信息与所述移动终端的语音库进行匹配,获取所述语音信息中语音的识别度,并从所述语音库中获取所述语音信息中语音的识别度最大时所对应的文本,进而从所述语音库中获取与所述语音信息对应的文本信息;
语音获取模块,用于获取所述语音信息中识别度低于预设值的语音;
显示模块,用于显示所述语音信息对应的文本信息,并对所显示的文本信息中所述识别度低于预设值的语音对应的文本进行标记;
处理模块,用于显示至少一个与所述语音信息中与标记的文本对应的语音的识别度在预设范围内的候选文本供用户选择,接收用户从所述至少一个候选文本中选择的文本,并将所选择的文本替换所述标记的文本,以便于替换后的文本与所述文本信息中未标记的文本一同显示;
当从所述至少一个候选文本中选中正确的文本时,在语音库中直接将所述正确的文本设置为相应语音的识别结果,或者将所述正确的文本的识别度设置为预设值,该预设值高于标记的文本的识别度,以便于在后续输入相同的语音时,直接从语音库中获取正确的文本。
9.根据权利要求8所述的移动终端,其特征在于,所述移动终端还包括:
去除模块,用于若所述标记的文本为正确的文本,则去除该文本的标记。
10.根据权利要求8所述的移动终端,其特征在于,所述处理模块还用于:
若所述至少一个候选文本中不存在正确的文本,则隐藏所述至少一个候选文本,以便于用户修改所述标记的文本。
11.根据权利要求8所述的移动终端,其特征在于,所述移动终端还包括:
顺序获取模块,用于若所述文本信息中存在多个标记的文本,则获取所述多个标记的文本在所述文本信息中的顺序;
所述处理模块包括:
第一处理单元,用于显示至少一个与所述语音信息中与第一个标记的文本对应的语音的识别度在预设范围内的候选文本供用户选择,接收用户从该候选文本中选择的文本,并将所选择的文本替换所述第一个标记的文本;
第二处理单元,用于显示至少一个与所述语音信息中与第二个标记的文本对应的语音的识别度在预设范围内的候选文本供用户选择,接收用户从该候选文本中选择的文本,并将所选择的文本替换所述第二个标记的文本;
遍历单元,用于以此类推,直到遍历完所述多个标记的文本。
12.根据权利要求8所述的移动终端,其特征在于,所述处理模块包括:
获取单元,用于当所述候选文本为多个时,获取所述多个候选文本的排列顺序;
关系建立单元,用于根据该排列顺序,建立所述多个候选文本中每个候选文本与文字显示区域码的对应关系。
13.根据权利要求12所述的移动终端,其特征在于,所述处理模块用于:
在接收到用户语音输入的文字显示区域码时,确定该文字显示区域码所对应的候选文本为所选择的文本,并接收该文本。
14.根据权利要求8所述的移动终端,其特征在于,所述处理模块用于:
在接收到用户对所述至少一个候选文本中某一候选文本的操作信息时,确定该候选文本为所选择的文本,并接收该文本。
15.一种移动终端,其特征在于,所述移动终端包括:
处理器、输入设备以及输出设备;
所述处理器,用于通过所述输入设备接收输入的语音信息,对所述语音信息进行识别,以获得对应的文本信息;所述对所述语音信息进行识别具体为:将所述语音信息与所述移动终端的语音库进行匹配,获取所述语音信息中语音的识别度,并从所述语音库中获取所述语音信息中语音的识别度最大时所对应的文本,进而从所述语音库中获取与所述语音信息对应的文本信息;
所述处理器,还用于通过所述输入设备获取所述语音信息中识别度低于预设值的语音;
所述处理器,还用于通过所述输出设备显示所述语音信息对应的文本信息,并对所显示的文本信息中所述识别度低于预设值的语音对应的文本进行标记;
所述处理器,还用于通过所述输出设备显示至少一个与所述语音信息中与标记的文本对应的语音的识别度在预设范围内的候选文本供用户选择,通过所述输入设备接收用户从所述至少一个候选文本中选择的文本,并将所选择的文本替换所述标记的文本,以便于替换后的文本与所述文本信息中未标记的文本一同显示;
所述处理器,还用于当从所述至少一个候选文本中选中正确的文本时,在语音库中直接将所述正确的文本设置为相应语音的识别结果,或者将所述正确的文本的识别度设置为预设值,该预设值高于标记的文本的识别度,以便于在后续输入相同的语音时,直接从语音库中获取正确的文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611254077.7A CN106601256B (zh) | 2016-12-29 | 2016-12-29 | 语音识别的方法及移动终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611254077.7A CN106601256B (zh) | 2016-12-29 | 2016-12-29 | 语音识别的方法及移动终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106601256A CN106601256A (zh) | 2017-04-26 |
CN106601256B true CN106601256B (zh) | 2019-08-30 |
Family
ID=58581397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611254077.7A Active CN106601256B (zh) | 2016-12-29 | 2016-12-29 | 语音识别的方法及移动终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106601256B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110708441B (zh) * | 2018-07-25 | 2021-12-10 | 南阳理工学院 | 提词器 |
CN109599095B (zh) * | 2018-11-21 | 2020-05-29 | 百度在线网络技术(北京)有限公司 | 一种语音数据的标注方法、装置、设备和计算机存储介质 |
CN111259170A (zh) * | 2018-11-30 | 2020-06-09 | 北京嘀嘀无限科技发展有限公司 | 一种语音搜索方法、装置、电子设备及存储介质 |
CN109493665A (zh) * | 2018-12-28 | 2019-03-19 | 南京红松信息技术有限公司 | 基于语音识别的快速答题方法及其系统 |
CN112036119B (zh) * | 2020-10-16 | 2024-07-02 | 深圳市欢太科技有限公司 | 一种文本显示方法、装置及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1356628A (zh) * | 2000-07-05 | 2002-07-03 | 国际商业机器公司 | 具有有限或无显示器的设备的语音识别校正 |
CN101593076A (zh) * | 2008-05-28 | 2009-12-02 | Lg电子株式会社 | 移动终端和用于修正其文本的方法 |
CN105786204A (zh) * | 2014-12-26 | 2016-07-20 | 联想(北京)有限公司 | 信息处理方法和电子设备 |
-
2016
- 2016-12-29 CN CN201611254077.7A patent/CN106601256B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1356628A (zh) * | 2000-07-05 | 2002-07-03 | 国际商业机器公司 | 具有有限或无显示器的设备的语音识别校正 |
CN101593076A (zh) * | 2008-05-28 | 2009-12-02 | Lg电子株式会社 | 移动终端和用于修正其文本的方法 |
CN105786204A (zh) * | 2014-12-26 | 2016-07-20 | 联想(北京)有限公司 | 信息处理方法和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN106601256A (zh) | 2017-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106601256B (zh) | 语音识别的方法及移动终端 | |
US11182554B2 (en) | Apparatus and method for executing application | |
CN110223695B (zh) | 一种任务创建方法及移动终端 | |
US7764837B2 (en) | System, method, and apparatus for continuous character recognition | |
CN110297973B (zh) | 一种基于深度学习的数据推荐方法、装置及终端设备 | |
CN111523021B (zh) | 一种信息处理系统及其执行的方法 | |
CN108182069A (zh) | 程序语言转换方法、终端设备及计算机可读介质 | |
CN109891374B (zh) | 用于与数字代理的基于力的交互的方法和计算设备 | |
CN107610698A (zh) | 一种实现语音控制的方法、机器人及计算机可读存储介质 | |
CN109165316A (zh) | 一种视频处理方法、视频索引方法、装置及终端设备 | |
CN106385537A (zh) | 一种拍照方法及终端 | |
CN106952655A (zh) | 一种输入方法和终端 | |
CN101231567A (zh) | 基于手写识别的人机交互方法和系统及运行该系统的设备 | |
CN104267922A (zh) | 一种信息处理方法及电子设备 | |
CN106375548A (zh) | 一种对语音信息处理的方法和终端 | |
CN108829686A (zh) | 翻译信息显示方法、装置、设备及存储介质 | |
CN113590776A (zh) | 基于知识图谱的文本处理方法、装置、电子设备及介质 | |
CN109509257A (zh) | 室内楼层级别构件图形形成方法、终端及存储介质 | |
KR20140039517A (ko) | 필기 기반으로 특정 기능을 실행하는 방법 및 그에 따른 디바이스 | |
CN108958731B (zh) | 一种应用程序界面生成方法、装置、设备和存储介质 | |
CN109359582A (zh) | 信息搜索方法、信息搜索装置及移动终端 | |
CN108052212A (zh) | 一种输入文字的方法、终端及计算机可读介质 | |
CN112181253A (zh) | 信息显示方法、装置和电子设备 | |
CN109165180A (zh) | 一种提高房源经纪人作业效率的方法和系统 | |
US10672295B2 (en) | Accessible metadata in data structures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Changan town in Guangdong province Dongguan 523860 usha Beach Road No. 18 Applicant after: OPPO Guangdong Mobile Communications Co., Ltd. Address before: Changan town in Guangdong province Dongguan 523841 usha Beach Road No. 18 Applicant before: Guangdong OPPO Mobile Communications Co., Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |