CN112835494A - 一种语音识别结果纠错方法及装置 - Google Patents
一种语音识别结果纠错方法及装置 Download PDFInfo
- Publication number
- CN112835494A CN112835494A CN201911159272.5A CN201911159272A CN112835494A CN 112835494 A CN112835494 A CN 112835494A CN 201911159272 A CN201911159272 A CN 201911159272A CN 112835494 A CN112835494 A CN 112835494A
- Authority
- CN
- China
- Prior art keywords
- words
- error correction
- corrected
- recognition result
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 236
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000013507 mapping Methods 0.000 claims description 29
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012544 monitoring process Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 9
- 238000012163 sequencing technique Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种语音识别结果纠错方法及装置,所述方法包括:展示用户输入的第一语音信息对应的第一语音识别结果;接收所述用户输入在所述第一语音识别结果上的触控操作,并确定所述触控操作对应的待纠错字词;根据所述待纠错字词获取目标纠错字词;根据所述目标纠错字词替换所述待纠错字词,获得第一语音纠错结果。用户只需点击待纠错字词,即可获取所述待纠错字词对应的目标纠错字词,并自动根据所述目标纠错字词替换所述待纠错字词,从而对语音识别结果进行纠错,提高了用户体验,降低了语音识别结果的纠错难度。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别结果纠错方法及装置。
背景技术
如图1所示,一次完整的语音交互过程包括:语音识别(ASR)、自然语言理解处理(NLP)、语义解析(Skill)以及从文本到语音(TTS)的流程,从而实现对用户发出的语音信息进行回应。语音识别是语音交互中关键的一环,目前语音识别在体验上存在以下痛点:语音识别的识别过程是不可逆的,一旦用户在输入语音信息时某一个字词说错或者发音不准确则可能导致识别结果出现错误。
在使用智能音箱时(或手机上的语音助手)时,当用户发出语音信息“帮我订明天的机票”后接着发出语音信息“不对,订今天的”,现有技术中的智能音箱只能识别出完整的语音信息,而无法在用户输入的两种语义中识别出用户的真实意图,无法对语音信息进行纠错。
因此,现有技术中如何实现对语音信息进行纠错是亟待解决的技术问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的语音识别结果纠错方法及装置。
依据本发明的第一个方面,提供了一种语音识别结果纠错方法,所述语音识别结果纠错方法包括:
展示用户输入的第一语音信息对应的第一语音识别结果;
接收所述用户输入在所述第一语音识别结果上的触控操作,并确定所述触控操作对应的待纠错字词;
根据所述待纠错字词获取目标纠错字词;
根据所述目标纠错字词替换所述待纠错字词,获得第一语音纠错结果。
优选的,所述接收所述用户输入在所述第一语音识别结果上的触控操作,并确定所述触控操作对应的待纠错字词,包括:
对所述第一语音识别结果进行分词,获得分词结果,所述分词结果包括多组字词;
按照所述分词结果将所述第一语音识别结果所处的展示区域对应划分为多个子区域;
接收所述用户输入在所述第一语音识别结果上的触控操作;
识别所述触控操作所处的目标子区域,并将所述目标子区域内的字词确定为待纠错字词。
优选的,所述根据所述待纠错字词获取目标纠错字词,包括:
按照排列的先后顺序依次在所述待纠错字词中选取当前待纠错字词,并将所述当前待纠错字词设为待定状态;
在所述待定状态下获取所述当前待纠错字词对应的目标纠错字词。
优选的,所述目标纠错字词包括:第二语音识别结果;
所述在所述待定状态下获取所述当前待纠错字词对应的目标纠错字词,包括:
在所述待定状态下接收所述用户输入的第二语音信息;
对所述第二语音信息进行语音识别,获得第二语音识别结果;
所述根据所述目标纠错字词替换所述待纠错字词,获得第一语音纠错结果,包括:
根据所述第二语音识别结果替换所述待纠错字词,获得第一语音纠错结果。
优选的,所述根据所述待纠错字词获取目标纠错字词,包括:
识别所述待纠错字词的当前语义类型;
查找所述当前语义类型对应的多个当前候选纠错字词,并对所述当前候选纠错字词进行展示;
监听所述用户输入在所述当前候选纠错字词上的触控事件;
在监听到所述触控事件时,确定所述触控事件对应的目标纠错字词。
优选的,所述查找所述当前语义类型对应的多个当前候选纠错字词,包括:
获取预设映射关系表,并在所述预设映射关系表中查找所述当前语义类型对应的多个当前候选纠错字词,所述预设映射关系表中包括语义类型和候选纠错字词之间的对应关系。
优选的,所述根据所述目标纠错字词替换所述待纠错字词,获得第一语音纠错结果之后,所述语音识别结果纠错方法还包括:
对历史目标纠错字词进行学习,得到新的候选纠错字词;
根据新的候选纠错字词对所述预设映射关系表进行更新。
依据本发明的第二个方面,提供了一种语音识别结果纠错装置,所述语音识别结果纠错装置包括:
展示模块,用于展示用户输入的第一语音信息对应的第一语音识别结果;
接收模块,用于接收所述用户输入在所述第一语音识别结果上的触控操作,并确定所述触控操作对应的待纠错字词;
获取模块,用于根据所述待纠错字词获取目标纠错字词;
纠错模块,用于根据所述目标纠错字词替换所述待纠错字词,获得第一语音纠错结果。
依据本发明的第三个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明的第一方面中任一方法步骤。
依据本发明的第四个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明的第一方面中任一方法步骤。
本发明提供的技术方案,至少具有如下技术效果或优点:
根据本发明的一种语音识别结果纠错方法,电子设备通过展示用户输入的第一语音信息对应的第一语音识别结果;接收所述用户输入在所述第一语音识别结果上的触控操作,并确定所述触控操作对应的待纠错字词;根据所述待纠错字词获取目标纠错字词;根据所述目标纠错字词替换所述待纠错字词,获得第一语音纠错结果。用户只需点击待纠错字词,即可获取所述待纠错字词对应的目标纠错字词,并自动根据所述目标纠错字词替换所述待纠错字词,从而对语音识别结果进行纠错,提高了用户体验,并且降低了语音识别结果的纠错难度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了现有技术中语音交互的流程示意图;
图2示出了本发明语音识别结果纠错方法第一实施例的流程图;
图3示出了本发明语音识别结果纠错方法第二实施例的流程图;
图4示出了本发明语音识别结果纠错方法第三实施例的流程图;
图5示出了本发明语音识别结果纠错装置第一实施例的结构图;
图6示出了本发明实施例中电子设备的结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种语音识别结果纠错方法及装置,用以解决现有技术如何实现对语音信息进行纠错的技术问题。
参照图2,提出本发明语音识别结果纠错方法的第一实施例。
在本实施例中,所述语音识别结果纠错方法包括:
步骤S10:展示用户输入的第一语音信息对应的第一语音识别结果。
本实施例的执行主体是电子设备,所述电子设备为可进行语音交互的设备,包括但不限于:智能音箱、智能手机、智能车载终端和智能穿戴设备等。本实施例的应用场景为:所述电子设备接收所述用户输入的第一语音信息,对所述第一语音信息进行语音识别,获得并展示对应的第一语音识别结果,由于用户发音不准或者输入错误,而导致所述第一语音识别结果与所述用户的实际意图并不相同时,所述电子设备可接收所述用户对所述第一语音识别结果的纠错操作,以实现对所述第一语音识别结果进行纠错,从而基于纠错后的第一语音识别结果执行正确的响应。
在具体实现中,对所述第一语音信息进行语音识别的过程通过云端服务器实现,所述电子设备将所述第一语音信息发送至所述云端服务器,以使所述云端服务器对所述第一语音信息进行语音识别,得到第一语音识别结果,并向所述电子设备返回所述第一语音识别结果,无需在所述电子设备本地进行语音识别,并降低了所述电子设备的处理压力。
步骤S20:接收所述用户输入在所述第一语音识别结果上的触控操作,并确定所述触控操作对应的待纠错字词;
所述电子设备通过所述电子设备的显示屏展示所述第一语音识别结果之后,用户可查看到所述第一语音识别结果,若所述第一语音识别结果无误,则所述用户不会采取任何措施,所述电子设备将对所述第一语音识别结果进行后续的自然语言理解处理、语义解析和从文本到语音等处理,并对所述第一语音信息进行响应。
所述第一语音识别结果由多个字词组成,所述字词为汉字或者词语,所述待纠错字词为所述第一语音识别结果中存在错误的字词,若所述用户查看后发现所述第一语音识别结果中存在待纠错字词,将对所述待纠错字词进行纠错,其中,所述接收所述用户输入在所述第一语音识别结果上的触控操作,并确定所述触控操作对应的待纠错字词,包括:所述电子设备对所述第一语音识别结果进行分词,获得分词结果,所述分词结果包括多组字词,按照所述分词结果将所述第一语音识别结果所处的展示区域对应划分为多个子区域,当接收到用户输入的触控操作时,识别所述触控操作所处的目标子区域,将所述目标子区域内的字词确定为待纠错字词。
步骤S30:根据所述待纠错字词获取目标纠错字词。
当确定待纠错字词后,可获取所述待纠错字词对应的目标纠错字词,所述目标纠错字词为所述待纠错字词对应的正确字词,在具体实现中,可通过预设待纠错字词与目标纠错字词之间的对应关系,实现根据所述待纠错字词获取对应的目标纠错字词。例如,当所述待纠错字词为“明天”时,说明用户输入的时间出现错误,用户实际想要输入的可能是“今天”,预设“明天”与“今天”对应,因此,可以将“今天”作为“明天”的目标纠错字词。
步骤S40:根据所述目标纠错字词替换所述待纠错字词,获得第一语音纠错结果。
所述目标纠错字词为所述待纠错字词对应的正确字词,根据所述目标纠错字词替换所述待纠错字词,能够自动将错误的待纠错字词更正为正确的目标纠错字词,实现对所述第一语音识别结果的纠错,提高了用户体验,降低了语音识别结果的纠错难度。
获得所述第一语音纠错结果之后,所述电子设备将获得并执行所述第一语音纠错结果对应的控制指令,例如,当所述第一语音纠错结果为“今天天气怎么样”时,获得对应的控制指令为“查询今天的天气”,并执行“查询今天的天气”的控制指令,以根据执行结果与所述用户进行互动。
本实施例中提供的技术方案,至少具有如下技术效果或优点:
根据本实施例的一种语音识别结果纠错方法,通过展示用户输入的第一语音信息对应的第一语音识别结果;接收所述用户输入在所述第一语音识别结果上的触控操作,并确定所述触控操作对应的待纠错字词;根据所述待纠错字词获取目标纠错字词;根据所述目标纠错字词替换所述待纠错字词,获得第一语音纠错结果。用户只需点击待纠错字词,即可获取所述待纠错字词对应的目标纠错字词,并自动根据所述目标纠错字词替换所述待纠错字词,提高了用户体验,并且降低了语音识别结果的纠错难度。
参照图3,基于上述第一实施例,提出本发明语音识别结果纠错方法的第二实施例。
在本实施例中,所述步骤S30,包括:
步骤S301:按照排列的先后顺序依次在所述待纠错字词中选取当前待纠错字词,并将所述当前待纠错字词设为待定状态。
为了对所述待纠错字词进行纠错,而不影响所述第一语音识别结果中的其它字词,将所述待纠错字词设为待定状态,待定状态下的待纠错字词可以变更,而不处于待定状态下的字词无法变更。为了对所述待纠错字词进行突出显示,将所述待定状态下的待纠错字词的字体大小、字体颜色进行凸显,例如将所述待纠错字词的字体大小调大一个或多个字号,或者将所述待纠错字词的字体颜色变更为预设颜色。
步骤S302:在所述待定状态下获取所述当前待纠错字词对应的目标纠错字词。
所述目标纠错字词包括:第二语音识别结果;
所述第二语音识别结果可通过所述用户输入第二语音信息获得。
所述步骤S302,包括:
在所述待定状态下接收所述用户输入的第二语音信息;
对所述第二语音信息进行语音识别,获得第二语音识别结果。
所述第一语音信息是所述用户输入的完整指令,所述第二语音信息为所述待纠错字词的正确发音,对所述第二语音信息进行语音识别,获得第二语音识别结果,所述第二语音识别结果为所述待纠错字词对应的正确字词。当然,对所述第二语音信息进行语音识别的过程通过云端服务器实现,所述电子设备将所述第二语音信息发送至所述云端服务器,以使所述云端服务器对所述第二语音信息进行语音识别,得到第二语音识别结果,并向所述电子设备返回所述第二语音识别结果,无需在所述电子设备本地进行语音识别,并降低了所述电子设备的处理压力。
相应地,所述步骤S40,包括:
根据所述第二语音识别结果替换所述待纠错字词,获得第一语音纠错结果。
进一步地,所述待纠错字词的数量为一个以上。
当所述待纠错字词的数量为一个时,将所述待纠错字词设为待定状态;接收所述用户输入的第二语音信息,并对所述第二语音信息进行语音识别,获得第二语音识别结果;在所述待定状态下将所述第二语音识别结果替换所述待纠错字词,得到纠错后的第一语音识别结果。
当所述待纠错字词的数量大于一时,按照所述待纠错字词在所述第一语音识别结果中的前后顺序依次对所述待纠错字词进行纠错。在对第一个待纠错字词进行纠错后,接收下一段第二语音信息,以实现对下一个待纠错字词进行纠错,从而逐个对所有待纠错字词完成纠错,其中,每段第二语音信息之间会间隔一预设时长,例如,间隔0.5秒钟或间隔1秒钟。
本实施例中提供的技术方案,至少具有如下技术效果或优点:
通过将所述待纠错字词设为待定状态;在所述待定状态下接收所述用户输入的第二语音信息;对所述第二语音信息进行语音识别,获得第二语音识别结果,根据所述第二语音识别结果替换所述待纠错字词,获得第一语音纠错结果,用户只需点击待纠错字词,输入第二语音信息即可获取所述第二语音识别结果,并自动根据所述第二语音识别结果替换所述待纠错字词,提高了用户体验,降低了语音识别结果的纠错难度。并且所述待纠错字词的数量为一个以上,能够顺序对多个待纠错字词进行纠错,提高了纠错结果的准确性。
参照图4,基于上述第一实施例,提出本发明语音识别结果纠错方法的第三实施例。
在本实施例中,所述步骤S30,包括:
步骤S303:识别所述待纠错字词的当前语义类型;
步骤S304:查找所述当前语义类型对应的多个当前候选纠错字词,并对所述当前候选纠错字词进行展示;
语义类型包括但不限于:时间、地点和对象等类型,各语义类型包括多个候选纠错字词,所述当前候选纠错字词为与所述待纠错字词属于同一语义类型的字词,例如,当前语义类型为时间时,对应的当前候选纠错字词包括:今天、明天和/或后天等,当前语义类型为地点时,对应的当前候选纠错字词包括:家里、公司和/或学校等。
步骤S305:监听所述用户输入在所述当前候选纠错字词上的触控事件。
步骤S306:在监听到所述触控事件时,确定所述触控事件对应的目标纠错字词。
监听是否接收到所述用户输入在所述当前候选纠错字词上的触控事件,若监听到所述用户输入在所述当前候选纠错字词上的触控事件,则确定所述触控事件对应的目标纠错字词,并根据所述目标纠错字词替换所述待纠错字词,得到纠错后的第一语音识别结果。
若所述当前候选纠错字词中包括所述待纠错字词对应的正确字词,则用户会对该正确字词输入触控事件,所述触控事件包括:点击该正确字词,所述电子设备在监听到所述触控事件时确定所述触控事件对应的正确字词,并将该正确字词作为目标纠错字词,根据所述目标纠错字词替换所述待纠错字词,得到纠错后的第一语音识别结果。由于不需要用户再次输出语音信息,提高了纠错的便利性。
在具体实现中,当所述用户对所述待纠错字词输入触控操作后,用户可以通过输入第二语音信息对所述待纠错字词进行纠错,也可以通过点击正确的候选纠错字词进行纠错。例如,第一语音识别结果“帮我订明天的机票”中待纠错字词为“明天”,该待纠错字词的正确字词为“今天”时,用户可以在点击“明天”之后,输入第二语音信息“今天”,也可以在点击“明天”,所述电子设备展示所述候选纠错字词之后,点击“今天”,从而所述电子设备将根据“今天”替换“明天”,以实现纠错。
进一步地,所述查找所述当前语义类型对应的多个当前候选纠错字词,包括:
获取预设映射关系表,并在所述预设映射关系表中查找所述当前语义类型对应的多个当前候选纠错字词,所述预设映射关系表中包括语义类型和候选纠错字词之间的对应关系。
所述预设映射关系表中包括语义类型和候选纠错字词之间的对应关系,在识别所述待纠错字词的当前语义类型之后,将根据所述当前语义类型在所述预设映射关系表中查找所述当前语义类型对应的当前候选纠错字词,基于该预设映射关系表,能够快速查找到当前语义类型对应的多个当前候选纠错字词,提高了所述当前候选纠错字词的展示速度,从而提高了纠错效率。
进一步地,所述步骤S40之后,所述方法还包括:
对历史目标纠错字词进行学习,得到新的候选纠错字词;
根据新的候选纠错字词对所述预设映射关系表进行更新。
在所述电子设备的使用过程中,预先建立的预设映射关系表中的候选纠错字词不再满足用户的使用需求,将对历史目标纠错字词进行机器学习,得到新的候选纠错字词,并根据新的候选纠错字词对所述预设映射关系表进行更新,能够避免展示的候选纠错字词中不存在用户需要的正确字词,并提高了候选纠错字词的使用率,降低了语音识别结果的纠错难度。
进一步地,所述对历史目标纠错字词进行学习,得到新的候选纠错字词,包括:
记录历史目标纠错字词及所述历史目标纠错字词对应的历史语义类型;
按照使用频率由高到低的顺序对所述历史语义类型对应的历史目标纠错字词进行排序,将排序前预设数目的历史目标纠错字词作为所述历史语义类型对应的新的候选纠错字词。
所述历史目标纠错字词是历史使用行为中用户实际想要输入的字词,根据所述目标纠错字词进行学习具有较高的准确性和实用性。记录历史目标纠错字词及所述历史目标纠错字词对应的历史语义类型,对于每一个历史语义类型,按照使用频率由高到低的顺序对该历史语义类型对应的历史目标纠错字词进行排序,将排序前预设数目的历史目标纠错字词作为该历史语义类型对应的新的候选纠错字词。例如,历史语义类型为地点时,历史目标纠错字词包括:频率为3的地点a、频率为4的地点b、频率为1的地点c、频率为1的地点d和频率为5的地点e,原候选纠错字词为家、公司和学校,按照使用频率由高到低的顺序排序的排序结果为:地点e、地点b、地点a、地点c和地点d,预设数目选为3时,新的候选纠错字词为:地点e、地点b和地点a,将地点e、地点b和地点a替换原有的家、公司和学校,实现对预设映射关系表进行更新,后续使用新的预设映射关系表查找当前语义类型对应的多个当前候选纠错字词时,能够提高候选纠错字词的可用性和准确性,能够降低语音识别结果的纠错难度。
本实施例中提供的技术方案,至少具有如下技术效果或优点:
通过展示与所述待纠错字词同一语义类型的多个候选纠错字词供用户选择,用户只需通过点击待纠错字词,并在多个候选纠错字词中选择并点击目标纠错字词,即可自动根据所述目标纠错字词替换所述待纠错字词,实现了对语音识别结果进行纠错,提高了用户体验,降低了语音识别结果的纠错难度。通过预设映射关系表查找待纠错字词对应的多个候选纠错字词,能够提高纠错效率和准确度,并且通过更新预设映射关系表,能够提高候选纠错字词的可用性和准确性。
基于同一发明构思,本发明实施例还提出一种语音识别结果纠错装置,参照图5,所述语音识别结果纠错装置包括:
展示模块10,用于展示用户输入的第一语音信息对应的第一语音识别结果;
接收模块20,用于接收所述用户输入在所述第一语音识别结果上的触控操作,并确定所述触控操作对应的待纠错字词;
获取模块30,用于根据所述待纠错字词获取目标纠错字词;
纠错模块40,用于根据所述目标纠错字词替换所述待纠错字词,获得第一语音纠错结果。
基于同一发明构思,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述第一实施例所述的方法步骤。
基于同一发明构思,本发明实施例还提供了一种电子设备,如图6所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该电子设备可以为包括手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、POS(Point of Sales,销售终端)、车载电脑等任意终端设备,以电子设备为手机为例:
图6示出的是与本发明实施例提供的电子设备相关的部分结构的框图。参考图6,该电子设备包括:存储器501和处理器502。本领域技术人员可以理解,图6中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图6对电子设备的各个构成部件进行具体的介绍:
存储器501可用于存储软件程序以及模块,处理器502通过运行存储在存储器501的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器501可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储数据(比如音频数据、电话本等)等。此外,存储器501可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器502是电子设备的控制中心,通过运行或执行存储在存储器501内的软件程序和/或模块,以及调用存储在存储器501内的数据,执行各种功能和处理数据。可选的,处理器502可包括一个或多个处理单元;优选的,处理器502可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。
在本发明实施例中,该电子设备所包括的处理器502可以具有前述第一实施例中任一方法步骤所对应的功能。
总之,根据本发明的语音识别结果纠错方法及装置,通过展示用户输入的第一语音信息对应的第一语音识别结果;接收所述用户输入在所述第一语音识别结果上的触控操作,并确定所述触控操作对应的待纠错字词;根据所述待纠错字词获取目标纠错字词;根据所述目标纠错字词替换所述待纠错字词,获得第一语音纠错结果。用户只需点击待纠错字词,即可获取所述待纠错字词对应的目标纠错字词,并自动根据所述目标纠错字词替换所述待纠错字词,提高了用户体验,并且降低了语音识别结果的纠错难度。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的电子设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明提供了,A1、一种语音识别结果纠错方法,其特征在于,所述方法包括:
展示用户输入的第一语音信息对应的第一语音识别结果;
接收所述用户输入在所述第一语音识别结果上的触控操作,并确定所述触控操作对应的待纠错字词;
根据所述待纠错字词获取目标纠错字词;
根据所述目标纠错字词替换所述待纠错字词,获得第一语音纠错结果。
A2、根据A1所述的语音识别结果纠错方法,其特征在于,所述接收所述用户输入在所述第一语音识别结果上的触控操作,并确定所述触控操作对应的待纠错字词,包括:
对所述第一语音识别结果进行分词,获得分词结果,所述分词结果包括多组字词;
按照所述分词结果将所述第一语音识别结果所处的展示区域对应划分为多个子区域;
接收所述用户输入在所述第一语音识别结果上的触控操作;
识别所述触控操作所处的目标子区域,并将所述目标子区域内的字词确定为待纠错字词。
A3、根据A1所述的语音识别结果纠错方法,其特征在于,所述根据所述待纠错字词获取目标纠错字词,包括:
按照排列的先后顺序依次在所述待纠错字词中选取当前待纠错字词,并将所述当前待纠错字词设为待定状态;
在所述待定状态下获取所述当前待纠错字词对应的目标纠错字词。
A4、根据A3所述的语音识别结果纠错方法,其特征在于,所述目标纠错字词包括:第二语音识别结果;
所述在所述待定状态下获取所述当前待纠错字词对应的目标纠错字词,包括:
在所述待定状态下接收所述用户输入的第二语音信息;
对所述第二语音信息进行语音识别,获得第二语音识别结果;
所述根据所述目标纠错字词替换所述待纠错字词,获得第一语音纠错结果,包括:
根据所述第二语音识别结果替换所述待纠错字词,获得第一语音纠错结果。
A5、根据A1所述的语音识别结果纠错方法,其特征在于,所述根据所述待纠错字词获取目标纠错字词,包括:
识别所述待纠错字词的当前语义类型;
查找所述当前语义类型对应的多个当前候选纠错字词,并对所述当前候选纠错字词进行展示;
监听所述用户输入在所述当前候选纠错字词上的触控事件;
在监听到所述触控事件时,确定所述触控事件对应的目标纠错字词。
A6、根据A5所述的语音识别结果纠错方法,其特征在于,所述查找所述当前语义类型对应的多个当前候选纠错字词,包括:
获取预设映射关系表,并在所述预设映射关系表中查找所述当前语义类型对应的多个当前候选纠错字词,所述预设映射关系表中包括语义类型和候选纠错字词之间的对应关系。
A7、根据A6所述的语音识别结果纠错方法,其特征在于,所述根据所述目标纠错字词替换所述待纠错字词,获得第一语音纠错结果之后,所述语音识别结果纠错方法还包括:
对历史目标纠错字词进行学习,得到新的候选纠错字词;
根据新的候选纠错字词对所述预设映射关系表进行更新。
A8、根据A7所述的语音识别结果纠错方法,其特征在于,所述对历史目标纠错字词进行学习,得到新的候选纠错字词,包括:
记录历史目标纠错字词及所述历史目标纠错字词对应的历史语义类型;
按照使用频率由高到低的顺序对所述历史语义类型对应的历史目标纠错字词进行排序,将排序前预设数目的历史目标纠错字词作为所述历史语义类型对应的新的候选纠错字词。
B9、一种语音识别结果纠错装置,其特征在于,所述语音识别结果纠错装置包括:
展示模块,用于展示用户输入的第一语音信息对应的第一语音识别结果;
接收模块,用于接收所述用户输入在所述第一语音识别结果上的触控操作,并确定所述触控操作对应的待纠错字词;
获取模块,用于根据所述待纠错字词获取目标纠错字词;
纠错模块,用于根据所述目标纠错字词替换所述待纠错字词,获得第一语音纠错结果。
B10、根据B9所述的语音识别结果纠错装置,其特征在于,所述接收模块,包括:
分词单元,用于对所述第一语音识别结果进行分词,获得分词结果,所述分词结果包括多组字词;
划分单元,用于按照所述分词结果将所述第一语音识别结果所处的展示区域对应划分为多个子区域;
接收单元,用于接收所述用户输入在所述第一语音识别结果上的触控操作;
获得单元,用于识别所述触控操作所处的目标子区域,并将所述目标子区域内的字词确定为待纠错字词。
B11、根据B9所述的语音识别结果纠错装置,其特征在于,所述获取模块,包括:
循环单元,用于按照排列的先后顺序依次在所述待纠错字词中选取当前待纠错字词,并将所述当前待纠错字词设为待定状态;
获取单元,用于在所述待定状态下获取所述当前待纠错字词对应的目标纠错字词。
B12、根据B11所述的语音识别结果纠错装置,其特征在于,所述目标纠错字词包括:第二语音识别结果;
所述获取单元,具体用于:
在所述待定状态下接收所述用户输入的第二语音信息,对所述第二语音信息进行语音识别,获得第二语音识别结果;
所述纠错模块,具体用于:
根据所述第二语音识别结果替换所述待纠错字词,获得第一语音纠错结果。
B13、根据B9所述的语音识别结果纠错装置,其特征在于,所述获取模块,包括:
识别单元,用于识别所述待纠错字词的当前语义类型;
查找单元,用于查找所述当前语义类型对应的多个当前候选纠错字词,并对所述当前候选纠错字词进行展示;
监听单元,用于监听所述用户输入在所述当前候选纠错字词上的触控事件;
确定单元,用于在监听到所述触控事件时,确定所述触控事件对应的目标纠错字词。
B14、根据B13所述的语音识别结果纠错装置,其特征在于,所述查找单元,具体用于:
获取预设映射关系表,并在所述预设映射关系表中查找所述当前语义类型对应的多个当前候选纠错字词,所述预设映射关系表中包括语义类型和候选纠错字词之间的对应关系。
B15、根据B14所述的语音识别结果纠错装置,其特征在于,所述获取模块,还包括:
学习单元,用于对历史目标纠错字词进行学习,得到新的候选纠错字词;
更新单元,用于根据新的候选纠错字词对所述预设映射关系表进行更新。
B16、根据B15所述的语音识别结果纠错装置,其特征在于,所述学习单元,包括:
记录单元,用于记录历史目标纠错字词及所述历史目标纠错字词对应的历史语义类型;
排序单元,用于按照使用频率由高到低的顺序对所述历史语义类型对应的历史目标纠错字词进行排序,将排序前预设数目的历史目标纠错字词作为所述历史语义类型对应的新的候选纠错字词。
C17、一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现根据A1-A8中任一项所述的方法步骤。
D18、一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现根据A1-A8中任一项所述的方法步骤。
Claims (10)
1.一种语音识别结果纠错方法,其特征在于,应用于电子设备中,所述方法包括:
展示用户输入的第一语音信息对应的第一语音识别结果;
接收所述用户输入在所述第一语音识别结果上的触控操作,并确定所述触控操作对应的待纠错字词;
根据所述待纠错字词获取目标纠错字词;
根据所述目标纠错字词替换所述待纠错字词,获得第一语音纠错结果。
2.如权利要求1所述的语音识别结果纠错方法,其特征在于,所述接收所述用户输入在所述第一语音识别结果上的触控操作,并确定所述触控操作对应的待纠错字词,包括:
对所述第一语音识别结果进行分词,获得分词结果,所述分词结果包括多组字词;
按照所述分词结果将所述第一语音识别结果所处的展示区域对应划分为多个子区域;
接收所述用户输入在所述第一语音识别结果上的触控操作;
识别所述触控操作所处的目标子区域,并将所述目标子区域内的字词确定为待纠错字词。
3.如权利要求1所述的语音识别结果纠错方法,其特征在于,所述根据所述待纠错字词获取目标纠错字词,包括:
按照排列的先后顺序依次在所述待纠错字词中选取当前待纠错字词,并将所述当前待纠错字词设为待定状态;
在所述待定状态下获取所述当前待纠错字词对应的目标纠错字词。
4.如权利要求3所述的语音识别结果纠错方法,其特征在于,所述目标纠错字词包括:第二语音识别结果;
所述在所述待定状态下获取所述当前待纠错字词对应的目标纠错字词,包括:
在所述待定状态下接收所述用户输入的第二语音信息;
对所述第二语音信息进行语音识别,获得第二语音识别结果;
所述根据所述目标纠错字词替换所述待纠错字词,获得第一语音纠错结果,包括:
根据所述第二语音识别结果替换所述待纠错字词,获得第一语音纠错结果。
5.如权利要求1所述的语音识别结果纠错方法,其特征在于,所述根据所述待纠错字词获取目标纠错字词,包括:
识别所述待纠错字词的当前语义类型;
查找所述当前语义类型对应的多个当前候选纠错字词,并对所述当前候选纠错字词进行展示;
监听所述用户输入在所述当前候选纠错字词上的触控事件;
在监听到所述触控事件时,确定所述触控事件对应的目标纠错字词。
6.如权利要求5所述的语音识别结果纠错方法,其特征在于,所述查找所述当前语义类型对应的多个当前候选纠错字词,包括:
获取预设映射关系表,并在所述预设映射关系表中查找所述当前语义类型对应的多个当前候选纠错字词,所述预设映射关系表中包括语义类型和候选纠错字词之间的对应关系。
7.如权利要求6所述的语音识别结果纠错方法,其特征在于,所述根据所述目标纠错字词替换所述待纠错字词,获得第一语音纠错结果之后,所述语音识别结果纠错方法还包括:
对历史目标纠错字词进行学习,得到新的候选纠错字词;
根据新的候选纠错字词对所述预设映射关系表进行更新。
8.一种语音识别结果纠错装置,其特征在于,所述语音识别结果纠错装置包括:
展示模块,用于展示用户输入的第一语音信息对应的第一语音识别结果;
接收模块,用于接收所述用户输入在所述第一语音识别结果上的触控操作,并确定所述触控操作对应的待纠错字词;
获取模块,用于根据所述待纠错字词获取目标纠错字词;
纠错模块,用于根据所述目标纠错字词替换所述待纠错字词,获得第一语音纠错结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一权利要求所述的方法步骤。
10.一种电子设备设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一权利要求所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911159272.5A CN112835494A (zh) | 2019-11-22 | 2019-11-22 | 一种语音识别结果纠错方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911159272.5A CN112835494A (zh) | 2019-11-22 | 2019-11-22 | 一种语音识别结果纠错方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112835494A true CN112835494A (zh) | 2021-05-25 |
Family
ID=75922588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911159272.5A Pending CN112835494A (zh) | 2019-11-22 | 2019-11-22 | 一种语音识别结果纠错方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112835494A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113470638A (zh) * | 2021-05-28 | 2021-10-01 | 荣耀终端有限公司 | 槽位填充的方法、芯片、电子设备和可读存储介质 |
-
2019
- 2019-11-22 CN CN201911159272.5A patent/CN112835494A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113470638A (zh) * | 2021-05-28 | 2021-10-01 | 荣耀终端有限公司 | 槽位填充的方法、芯片、电子设备和可读存储介质 |
CN113470638B (zh) * | 2021-05-28 | 2022-08-26 | 荣耀终端有限公司 | 槽位填充的方法、芯片、电子设备和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109542399B (zh) | 软件开发方法、装置、终端设备及计算机可读存储介质 | |
CN110968601A (zh) | 一种数据查询处理方法及装置 | |
CN110334109B (zh) | 关系式数据库数据查询方法、系统、介质和电子设备 | |
CN107885823B (zh) | 音频信息的播放方法、装置、存储介质及电子设备 | |
CN104866275B (zh) | 一种用于获取图像信息的方法和装置 | |
CN104731509A (zh) | 基于触摸操作的搜索方法、装置和终端 | |
CN107133263B (zh) | Poi推荐方法、装置、设备及计算机可读存储介质 | |
CN108776587B (zh) | 数据获取方法、装置、计算机设备以及存储介质 | |
CN111310440A (zh) | 文本的纠错方法、装置和系统 | |
US10936815B2 (en) | Removable spell checker device | |
CN110532107B (zh) | 接口调用方法、装置、计算机设备及存储介质 | |
CN111459376B (zh) | 产品引导方法、装置及设备 | |
CN106601256B (zh) | 语音识别的方法及移动终端 | |
US10430802B2 (en) | Screen-image based classification | |
CN110888756A (zh) | 一种诊断日志生成方法及装置 | |
CN109597482B (zh) | 电子书的自动翻页方法和装置、介质及电子设备 | |
CN112835494A (zh) | 一种语音识别结果纠错方法及装置 | |
CN105786888A (zh) | 快捷选项的生成方法和系统、及电子设备 | |
US9648112B2 (en) | Electronic device and method for setting network model | |
CN107071553B (zh) | 一种修改视频语音的方法、装置和计算机可读存储介质 | |
CN113360127B (zh) | 音频播放方法以及电子设备 | |
CN109145084B (zh) | 数据处理方法、数据处理装置和服务器 | |
US20160316052A1 (en) | Apparatus and method for correcting an input number | |
CN111753548A (zh) | 信息获取方法及装置、计算机存储介质、电子设备 | |
CN111222066A (zh) | 一种用于事件处理及搜索的下拉组件系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210525 |