CN103150294A - 基于语音识别结果的修正方法和系统 - Google Patents

基于语音识别结果的修正方法和系统 Download PDF

Info

Publication number
CN103150294A
CN103150294A CN 201110401645 CN201110401645A CN103150294A CN 103150294 A CN103150294 A CN 103150294A CN 201110401645 CN201110401645 CN 201110401645 CN 201110401645 A CN201110401645 A CN 201110401645A CN 103150294 A CN103150294 A CN 103150294A
Authority
CN
China
Prior art keywords
voice identification
identification result
text
text block
update
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201110401645
Other languages
English (en)
Inventor
李霄寒
李曜
王亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Guoke Electronic Co., Ltd.
Original Assignee
Shengle Information Technolpogy Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shengle Information Technolpogy Shanghai Co Ltd filed Critical Shengle Information Technolpogy Shanghai Co Ltd
Priority to CN 201110401645 priority Critical patent/CN103150294A/zh
Publication of CN103150294A publication Critical patent/CN103150294A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种基于语音识别结果的修正方法和系统,在语音转文字的准确率不可能达到100%的前提下,结合预定义规则的边界信息对文本信息文本块化,以边界信息为基础,对语音识别结果中的该边界信息之前或之后的文本块进行快速地编辑、修改和删除,以及在该边界信息处快速插入新的文本信息;本发明的这种基于文本块化语音识别结果的文本修正方式,相对于传统的键盘修改方式,操作次数减少,大大提升了用户与智能终端的交互体验。

Description

基于语音识别结果的修正方法和系统
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于语音识别结果的修正方法和系统。
背景技术
随着移动互联网时代的到来,以智能手机为代表的各种移动终端越来越多地占据人们的生活,触摸屏也成为智能手机的主流屏幕配置。但无论是手机的物理键盘还是触摸屏上的虚拟键盘,由于尺寸的限制,在手机上进行文本输入总是不如PC键盘输入那样快捷方便。因此,通过语音识别的功能在手机上进行文本输入成为一个大趋势。语音输入法、语音发短信、语音搜索之类的应用越来越多地出现在智能手机中。
对于目前常见的语音输入应用,文本中出现这些识别错误之后,只能通过实体键盘或者虚拟键盘,将错误的字词或句子删掉并手动输入正确的文字,相当繁琐。
而目前,用于语音识别的语音解码器输出的语音识别结果中,除了文本信息之外,还包含文本对应的边界信息。值得注意的是,虽然文本信息会出现各种各样的错误,但是边界信息却不容易出错。第一,语音解码器不会将连续的语音切开,第二,语音解码器能够检测到正常语速下的句间暂停并以逗号或句号这些分割标号代替之。因此,除非是在噪声极大的环境中或是用户故意以极慢或极快的语速进行语音输入(此时根本就不适合做语音识别,文本准确率将极低),正常情况下无需担心边界信息出错。
同时,当我们分析大量语音识别结果错误的情况后,发现这些错误基本上可以分为两类,一类是个别字词识别错误,另一类是一串连续的字词都识别错误,甚至是一整句话都错了。对于前一类错误,由于一整句话中只需要修改一两个字词,这额外的操作相对于手动输入一整句文本的键盘操作,是容易被用户接受的。而对于后一类错误,语音输入非但没有避免大部分的文本重新输入,还额外引入了大量的删除操作,让用户得不偿失,从而放弃使用语音输入。事实上,由于语音识别对于语言模型的依赖程度很高,当由于语音质量不高而引起个别字词识别错误时,这种错误很容易蔓延到后续的一串字词上甚至蔓延到整句。也就是说,第二类错误在真实环境下的语音识别中是很容易出现的。而只要出现一次,给用户带来的额外操作将抵消很大一部分由于使用语音输入而节省的键盘操作。
可见,虽然利用语音识别进行文本输入的方法是可行的,但是由于人有时说话会含混不清,语音识别的准确率永远不可能达到100%,尤其是在噪音环境下,语音识别结果中极为可能存在各种错误,导致用户不得不再次调出键盘进行手动修改,这大大降低了语音输入的便捷性。
因此,需要一种基于语音识别结果的修正方法和系统,在语音转文字的准确率不可能达到100%的前提下,对语音识别的文字结果进行快速地编辑和修改。
发明内容
本发明的目的在于提供一种基于语音识别结果的修正方法和系统,实现对语音识别的文字结果进行快速地编辑和修改。
为解决上述问题,本发明提供一种基于语音识别结果的修正方法,包括以下步骤:
获取语音识别结果,所述语音识别结果包含文本信息以及按照预定义规则将所述文本信息分割为若干文本块的边界信息;
对一边界信息之前或之后的文本块进行删除、编辑和/或重录;
在一边界信息处插入新文本块。
进一步的,所述预定义规则为标点符号规则。
进一步的,所述边界信息为句末标点和/或句中标点。
进一步的,所述句末标点包括句号、问号以及感叹号中的一种或多种。
进一步的,所述句中标点包括逗号、分号、冒号、引号以及破折号中的一种或多种。
进一步的,所述预定义规则为按照字词、短语和短句中的至少一种语义单元划分所述语音识别结果为若干文本块的规则。
进一步的,所述编辑包括键盘方式下的文本删除和/或文本输入。
进一步的,所述新文本信息的插入采用语音识别输入或键盘编辑文本输入的方式。
相应的,本发明还提供一种基于语音识别结果的修正系统,包括:
获取单元,用于获取语音识别结果,所述语音识别结果包含文本信息以及按照预定义规则将所述文本信息分割为若干文本块的边界信息;
重修单元,用于对一边界信息之前或之后的文本块进行删除、编辑和/或重录;
插入单元,用于在一边界信息处插入新文本块。
进一步的,所述重修单元删除某一文本块之前,向用户确认所述文本块是否真要删除,若是,则直接删除所述文本块;若否,则退出本次删除操作。
进一步的,所述基于语音识别结果的修正系统嵌入各种智能终端中,所述智能终端的显示屏用于显示所述获取单元、重修单元以及插入单元的处理结果。
与现有技术相比,本发明的基于语音识别结果的修正方法和系统,在语音转文字的准确率不可能达到100%的前提下,结合预定义规则的边界信息对文本信息文本块化,以边界信息为基础,对语音识别结果中的该边界信息之前或之后的文本块进行快速地编辑、修改和删除,以及在该边界信息处快速插入新的文本信息;本发明的这种基于文本块化语音识别结果的文本修正方式,相对于传统的键盘修改方式,操作次数减少,大大提升了用户与智能终端的交互体验。
附图说明
图1是本发明基于语音识别结果的修正方法流程图;
图2是本发明基于语音识别结果的修正系统的架构示意图;
图3是本发明具体实施例的语音识别结果示意图;
图4是本发明具体实施例的重修单元删除操作中向用户确认的示意图;
图5是本发明具体实施例的重修单元删除操作的结果示意图。
具体实施方式
本发明提供了一种基于语音识别结果的修正方法和系统,可以获取包含文本信息和边界信息的语音识别结果,边界信息按照一预定义规则将所有文本信息分割成若干文本块,当对文本信息进行修正时,文本修正不再以单个字的形式存在,而是以边界信息为基础的整个文本块的形式存在。
如图1所示,本发明提供一种基于语音识别结果的修正方法,包括以下步骤:
S1,获取语音识别结果,所述语音识别结果包含文本信息以及按照预定义规则将所述文本信息分割为若干文本块的边界信息;
S2,对一边界信息之前或之后的文本块进行删除、编辑和/或重录;
S3,在一边界信息处插入新文本块。
相应的,本发明还提供一种基于语音识别结果的修正系统,如图2所示,包括:
获取单元201,用于获取语音识别结果,所述语音识别结果包含文本信息以及按照预定义规则将所述文本信息分割为若干文本块的边界信息;
重修单元202,用于对一边界信息之前或之后的文本块进行删除、编辑和/或重录;
插入单元203,用于在一边界信息处插入新文本块。
本发明的基于语音识别结果的修正系统可以嵌入各种智能终端中,所述智能终端的显示屏(包括普通屏和触摸屏)可以显示所述获取单元201、重修单元202以及插入单元203的处理结果。
以下结合附图和具体实施例对本发明提出的基于语音识别结果的修正方法和系统作进一步详细说明。
本实施例中,用户在智能终端上通过语音输入的方式,想在某个文本编辑框中输入了一串文本,例如:
“今天下午三点开会,讨论有关语音输入法的问题。会上先由张三介绍几款已经做好的语音输入法应用,再由李四总结这几款应用的共同点和不同点。”
但是,如图3所示,由于语音识别存在一定的错误率,有可能得到如下的输入结果:
“今天下午三点开会,讨论有关于输入法的问题,会首先游走三介绍几款已经做好的语音输入法急用,在油里似从前就基本一致的过路费和不同点。”
可以看到,在这一段文本中,总共包含四句话,其中第一句话完全识别正确,第二句话中将“语音”识别成“于”,第三句话将“会上先由张三”识别为“会首先游走三”,将“应用”识别为“急用”,第四句话错误很多,除了结尾的“不同点”,其余部分基本都错了。若用户只采用传统的键盘编辑修改方式,则最少一共需要进行四次光标定位操作,二十一次删除操作,重新输入二十二个文字,尤其是在修改错误较多的第四句话时,需要删除十五个识别错误的字,再输入十五个字,相当繁琐;但若采用本发明的基于语音识别结果的修正方法和系统,可减少大量的键盘操作。以下结合附图2至5对本发明提出的基于语音识别结果的修正系统作进一步详细说明。
本实施例中,所述预定义规则为标点符号规则,所述边界信息包括句中标点和句末标点,其中,所述句末标点包括句号。所述句中标点包括逗号。所以获取单元201获取的语音识别结果即为图3中有错误的输入结果,该结果显示在智能终端的显示屏中,且包含文本信息以及按照标点规则将所述文本信息分割为若干文本块的边界信息,其中各个文本块分别为“今天下午三点开会”,“讨论有关语音输入法的问题”,“会首先游走三介绍几款已经做好的语音输入法急用”,“在油里似从前就基本一致的过路费和不同点”。
由于文本块“会首先游走三介绍几款已经做好的语音输入法急用”和“在油里似从前就基本一致的过路费和不同点”中存在较多错误,接下来,应用重修单元202对两文本块进行修改、编辑和重录。一种方式是采用传统方式下的文本删除、输入对这两个文本块中错误的地方进行删除和重新输入,这种方式键盘操作次数较多;另一种方式是重修单元202直接删除、重录或编辑这两个文本块,这种方式相对操作次数较少。
当用户应用重修单元202删除这两个文本块中的一个整的文本块时,如删除“会首先游走三介绍几款已经做好的语音输入法急用”,为防止用户误删文字内容,可以先让显示屏高亮显示该文本块(如图4所示),向用户确认所述文本块是否真要删除,若是,则重修单元202直接删除所述文本块(如图5所示);若否,则重修单元202退出本次删除操作,通过这种方式一方面避免用户误删内容,而一旦检测到用户真的要删除时,可以立即删除整句,用户可以很方便地删除整个识别内容不满意的句子(文本块),而不是像以前一样,必须一个字一个字地删除。
当用户应用重修单元202直接重录这两个文本块中的一个整的文本块时,将直接启动新的语音识别服务,用户重新录入这句话的语音,得到新的语音识别结果,并替代高亮显示的文本块。通过这种方式,同时达到了“删除原句”和“重新对本句进行语音输入”的效果。
当用户应用重修单元202编辑这两个文本块中的一个整的文本块时,那么进入对整个文本块的编辑界面。光标自动停止在当前文本块后面,用户可以通过传统的键盘操作下的文本删除和文本输入方式进行编辑。这种方式适合修正一句话里只有个别字词识别错误的情况。
通过这样的方法,用户可以方便地对整句进行删除或重录的操作,大大减少了删除操作的次数。如果只需要修改整句中个别词语,进入整句编辑界面后再进行删除和输入操作,并不会带来其它额外的操作。本实施例中,采用本发明的修正方法和修正系统,只需要六次点击操作,五次删除操作和六个字的输入操作,此外再重新录入第四句话即可。可以看到,对于键盘的操作次数大大减少,提升用户与移动终端的交互体验。
当用户想插入新的文本内容时,可以应用插入单元203在想插入的边界信息位置(即标点处),可以采用语音识别输入或传统的键盘编辑文本输入的方式。
需要说明的是,根据边界信息选取文本块时,可以设定选取边界信息之前或者之后的文本块,该文本块可以包含边界信息,也可以不包含。
本发明的其他实施例中,所述预定义规则为标点符号规则时,所述句末标点可以包括句号、问号以及感叹号中的一种或多种;所述句中标点可以包括逗号、分号、冒号、引号以及破折号中的一种或多种。
本发明的其他实施例中,所述预定义规则还可以是按照字词、短语、短句等更小的语义单元划分文本块的规则,边界信息的表现形式还可以是“|”或“/”,以实现更精确的定位,进一步提高修正效率。
综上所述,本发明提供的基于语音识别结果的修正方法和系统,在语音转文字的准确率不可能达到100%的前提下,结合预定义规则的边界信息对文本信息文本块化,以边界信息为基础,对语音识别结果中的该边界信息之前或之后的文本块进行快速地编辑、修改和删除,以及在该边界信息处快速插入新的文本信息;本发明的这种基于文本块化语音识别结果的文本修正方式,相对于传统的键盘修改方式,操作次数减少,大大提升了用户与智能终端的交互体验。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (18)

1.一种基于语音识别结果的修正方法,其特征在于,包括:
获取语音识别结果,所述语音识别结果包含文本信息以及按照一预定义规则将所述文本信息分割为若干文本块的边界信息;
对一边界信息之前或之后的文本块进行删除、编辑和/或重录;
在一边界信息处插入新文本块。
2.如权利要求1所述的基于语音识别结果的修正方法,其特征在于,所述预定义规则为标点符号规则。
3.如权利要求2所述的基于语音识别结果的修正方法,其特征在于,所述边界信息为句末标点和/或句中标点。
4.如权利要求3所述的基于语音识别结果的修正方法,其特征在于,所述句末标点包括句号、问号以及感叹号中的一种或多种。
5.如权利要求3所述的基于语音识别结果的修正方法,其特征在于,所述句中标点包括逗号、分号、冒号、引号以及破折号中的一种或多种。
6.如权利要求1所述的基于语音识别结果的修正方法,其特征在于,所述预定义规则为按照字词、短语和短句中的至少一种语义单元划分所述语音识别结果为若干文本块的规则。
7.如权利要求1所述的基于语音识别结果的修正方法,其特征在于,所述编辑包括键盘方式下的文本删除和/或文本输入。
8.如权利要求1所述的基于语音识别结果的修正方法,其特征在于,所述新文本块的插入采用语音识别输入或键盘编辑文本输入的方式。
9.一种基于语音识别结果的修正系统,其特征在于,包括:
获取单元,用于获取语音识别结果,所述语音识别结果包含文本信息以及按照一预定义规则将所述文本信息分割为若干文本块的边界信息;
重修单元,用于对一边界信息之前或之后的文本块进行删除、编辑和/或重录;
插入单元,用于在一边界信息处插入新文本块。
10.如权利要求9所述的基于语音识别结果的修正系统,其特征在于,所述预定义规则为标点符号规则。
11.如权利要求10所述的基于语音识别结果的修正系统,其特征在于,所述边界信息为句末标点和/或句中标点。
12.如权利要求11所述的基于语音识别结果的修正系统,其特征在于,所述句末标点包括句号、问号以及感叹号中的一种或多种。
13.如权利要求11所述的基于语音识别结果的修正系统,其特征在于,所述句中标点包括逗号、分号、冒号、引号以及破折号中的一种或多种。
14.如权利要求9所述的基于语音识别结果的修正系统,其特征在于,所述预定义规则为按照字词、短语和短句中的至少一种语义单元划分所述语音识别结果为若干文本块的规则。
15.如权利要求9所述的基于语音识别结果的修正系统,其特征在于,所述重修单元的编辑包括键盘方式下的文本删除和/或文本输入。
16.如权利要求9所述的基于语音识别结果的修正系统,其特征在于,所述插入单元插入新文本块采用语音识别输入或键盘编辑文本输入的方式。
17.如权利要求9所述的基于语音识别结果的修正系统,其特征在于,所述重修单元删除某一文本块之前,向用户确认所述文本块是否要删除,若是,则直接删除所述文本块;若否,则退出本次删除操作。
18.如权利要求9所述的基于语音识别结果的修正系统,其特征在于,所述基于语音识别结果的修正系统嵌入各种智能终端中,所述智能终端的显示屏用于显示所述获取单元、重修单元以及插入单元的处理结果。
CN 201110401645 2011-12-06 2011-12-06 基于语音识别结果的修正方法和系统 Pending CN103150294A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110401645 CN103150294A (zh) 2011-12-06 2011-12-06 基于语音识别结果的修正方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110401645 CN103150294A (zh) 2011-12-06 2011-12-06 基于语音识别结果的修正方法和系统

Publications (1)

Publication Number Publication Date
CN103150294A true CN103150294A (zh) 2013-06-12

Family

ID=48548380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110401645 Pending CN103150294A (zh) 2011-12-06 2011-12-06 基于语音识别结果的修正方法和系统

Country Status (1)

Country Link
CN (1) CN103150294A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630959A (zh) * 2015-12-24 2016-06-01 联想(北京)有限公司 一种文本信息显示方法及电子设备
CN106782543A (zh) * 2017-03-24 2017-05-31 联想(北京)有限公司 一种信息处理方法和电子设备
CN107209640A (zh) * 2015-02-05 2017-09-26 微软技术许可有限责任公司 基于输入模式的文本删除
CN107305541A (zh) * 2016-04-20 2017-10-31 科大讯飞股份有限公司 语音识别文本分段方法及装置
CN108037957A (zh) * 2017-12-27 2018-05-15 北京锐安科技有限公司 一种防止误操作的方法以及装置
CN108564953A (zh) * 2018-04-20 2018-09-21 科大讯飞股份有限公司 一种语音识别文本的标点处理方法及装置
CN108984788A (zh) * 2018-07-30 2018-12-11 珠海格力电器股份有限公司 一种录音文件整理、归类系统及其控制方法与录音设备
CN109215661A (zh) * 2018-08-30 2019-01-15 上海与德通讯技术有限公司 语音转文字方法、装置设备及存储介质
CN110111793A (zh) * 2018-02-01 2019-08-09 腾讯科技(深圳)有限公司 音频信息的处理方法、装置、存储介质及电子装置
CN112579035A (zh) * 2020-12-14 2021-03-30 江苏惠通集团有限责任公司 语音采集终端输入系统及输入方法
CN112951238A (zh) * 2021-03-19 2021-06-11 河南蜂云科技发展有限公司 一种基于语音处理的科技法庭智能管理方法、系统及存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107209640A (zh) * 2015-02-05 2017-09-26 微软技术许可有限责任公司 基于输入模式的文本删除
CN105630959A (zh) * 2015-12-24 2016-06-01 联想(北京)有限公司 一种文本信息显示方法及电子设备
CN107305541A (zh) * 2016-04-20 2017-10-31 科大讯飞股份有限公司 语音识别文本分段方法及装置
CN106782543A (zh) * 2017-03-24 2017-05-31 联想(北京)有限公司 一种信息处理方法和电子设备
CN108037957A (zh) * 2017-12-27 2018-05-15 北京锐安科技有限公司 一种防止误操作的方法以及装置
CN110111793A (zh) * 2018-02-01 2019-08-09 腾讯科技(深圳)有限公司 音频信息的处理方法、装置、存储介质及电子装置
CN108564953A (zh) * 2018-04-20 2018-09-21 科大讯飞股份有限公司 一种语音识别文本的标点处理方法及装置
CN108984788A (zh) * 2018-07-30 2018-12-11 珠海格力电器股份有限公司 一种录音文件整理、归类系统及其控制方法与录音设备
CN109215661A (zh) * 2018-08-30 2019-01-15 上海与德通讯技术有限公司 语音转文字方法、装置设备及存储介质
CN112579035A (zh) * 2020-12-14 2021-03-30 江苏惠通集团有限责任公司 语音采集终端输入系统及输入方法
CN112951238A (zh) * 2021-03-19 2021-06-11 河南蜂云科技发展有限公司 一种基于语音处理的科技法庭智能管理方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN103150294A (zh) 基于语音识别结果的修正方法和系统
JP4580885B2 (ja) シーン情報抽出方法、シーン抽出方法および抽出装置
KR101768509B1 (ko) 온라인 음성 번역 방법 및 장치
US20180144747A1 (en) Real-time caption correction by moderator
CN101727271B (zh) 一种提供纠错提示的方法、装置及输入法系统
US7912700B2 (en) Context based word prediction
CN107798123B (zh) 知识库及其建立、修改、智能问答方法、装置及设备
CN103369122A (zh) 语音输入方法及系统
JP2016526216A (ja) インクからテキスト表現への変換
US20080077869A1 (en) Conference supporting apparatus, method, and computer program product
US11461081B2 (en) Adapting existing source code snippets to new contexts
CN109817210A (zh) 语音写作方法、装置、终端和存储介质
JP2009515253A (ja) 草稿文書における編集パターンの自動検出及び適用
CN102141868B (zh) 快捷操作信息交互页面的方法、输入法系统和浏览器插件
CN105843787B (zh) 一种富文本编辑方法及系统
CN103971684A (zh) 一种添加标点的方法、系统及其语言模型建立方法、装置
CN103186523A (zh) 电子设备及其自然语言分析方法
CN103049206A (zh) 文本编辑方法及通信终端
CN109445794B (zh) 一种页面构造方法及装置
CN103186522A (zh) 电子设备及其自然语言分析方法
CN101452468A (zh) 基于用户制作的问答数据提供会话辞典服务的方法及系统
CN102323858B (zh) 识别输入时修改项的输入方法、终端及系统
CN108766513B (zh) 一种智慧健康医疗数据结构化处理系统
CN107066438A (zh) 一种文本编辑方法及装置,电子设备
Dutrey et al. A CRF-based approach to automatic disfluency detection in a French call-centre corpus.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: SHANGHAI GUOKE ELECTRONIC CO., LTD.

Free format text: FORMER OWNER: SHENGYUE INFORMATION TECHNOLOGY (SHANGHAI) CO., LTD.

Effective date: 20140919

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20140919

Address after: 201203, room 1, building 380, 108 Yin Yin Road, Shanghai, Pudong New Area

Applicant after: Shanghai Guoke Electronic Co., Ltd.

Address before: 201203 Shanghai Guo Shou Jing Road, Zhangjiang High Tech Park of Pudong New Area No. 356 building 3 Room 102

Applicant before: Shengle Information Technology (Shanghai) Co., Ltd.

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130612