CN105810197A - 语音处理方法、语音处理装置和电子设备 - Google Patents

语音处理方法、语音处理装置和电子设备 Download PDF

Info

Publication number
CN105810197A
CN105810197A CN201410843238.0A CN201410843238A CN105810197A CN 105810197 A CN105810197 A CN 105810197A CN 201410843238 A CN201410843238 A CN 201410843238A CN 105810197 A CN105810197 A CN 105810197A
Authority
CN
China
Prior art keywords
content
mapping
determined text
text content
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410843238.0A
Other languages
English (en)
Other versions
CN105810197B (zh
Inventor
戴海生
王哲鹏
过晓冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201410843238.0A priority Critical patent/CN105810197B/zh
Publication of CN105810197A publication Critical patent/CN105810197A/zh
Application granted granted Critical
Publication of CN105810197B publication Critical patent/CN105810197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

提供了一种语音处理方法、语音处理装置和电子设备。该语音处理方法包括:对语音数据进行识别以获得与该语音数据对应的文本数据;确定所述文本数据中是否存在符合预定规则的预定文本内容,以得到一确定结果;当所述确定结果指明所述文本数据中存在预定文本内容时,生成在含义上与该预定文本内容对应的映射内容,该映射内容不同于所述预定文本内容;提供包括所述映射内容的提示链接;根据针对所述提示链接的操作来确定是否以所述映射内容替换所述预定文本内容。在根据本申请实施例的技术方案中,能够方便地修改文本内容,呈现直观且准确的语音输入结果,从而提高了用户的使用体验。

Description

语音处理方法、语音处理装置和电子设备
技术领域
本申请涉及信息处理技术领域,更具体地,涉及一种语音处理方法、语音处理装置和电子设备。
背景技术
通信技术的快速发展使得各种移动终端广泛普及。所述移动终端例如为智能手机、平板电脑、穿戴式设备。作为移动终端上人机交互最方便自然的方式之一,语音识别能够极大地提高用户操作的便捷性。
语音识别技术是通过识别和理解而将语音转变为相应的文本或命令的技术。在语音识别技术中,通过对语音进行特征提取、模式匹配、模型训练等处理,而获得电子设备能够响应的指令、在电子设备中记录的文本等,从而用户能够利用语言来与电子设备进行交互。
在语音识别进行语音输入时,通过识别所生成是文字表达,该文字表达中不包括阿拉伯数字、单位字符等。这不简洁、并且可能不符合用户的阅读习惯。而且,在真实的语音环境中通常存在噪音,而且真实的口语中会参杂停顿、咳嗽声等干扰音,这会影响现有的语音输入结果的准确度。在生成错误文字时,用户需要逐个地修改错误内容,这不简便。
因此,期望能够生成直观且准确的语音输入结果,以提高用户的使用体验。
发明内容
本申请实施例提供了一种语音处理方法、语音处理装置和电子设备,其能够生成直观且准确的语音输入结果,以提高用户的使用体验。
第一方面,提供了一种语音处理方法,应用于一电子设备。该语音处理方法可包括:对语音数据进行识别以获得与该语音数据对应的文本数据;确定所述文本数据中是否存在符合预定规则的预定文本内容,以得到一确定结果;当所述确定结果指明所述文本数据中存在预定文本内容时,生成在含义上与该预定文本内容对应的映射内容,该映射内容不同于所述预定文本内容;提供包括所述映射内容的提示链接;根据针对所述提示链接的操作来确定是否以所述映射内容替换所述预定文本内容。
结合第一方面,在第一方面的一种实现方式中,所述确定所述文本数据中是否存在符合预定规则的预定文本内容可包括:显示与该语音数据对应的文本数据;接收用户针对所显示的文本数据的圈选操作,而获得圈选内容;通过将该圈选内容与预定规则比对来确定所述文本数据中是否存在符合预定规则的预定文本内容。
结合第一方面及其上述实现方式,在第一方面的另一实现方式中,所述生成在含义上与该预定文本内容对应的映射内容可包括:生成在含义上与该预定文本内容对应的两个或更多映射内容,所述提供包括映射内容的提示链接可包括:在所述预定文本内容附近显示包括两个或更多映射内容的提示链接。
结合第一方面及其上述实现方式,在第一方面的另一实现方式中,所述生成在含义上与该预定文本内容对应的映射内容可包括:确定所述映射内容中是否包括特定类型字符;在所述映射内容中存在特定类型字符时,按照能够图形化修改所述特定类型字符的方式生成所述映射内容。
结合第一方面及其上述实现方式,在第一方面的另一实现方式中,所述提供包括所述映射内容的提示链接可包括:确定该提示链接的数量;当该提示链接的数量大于预定值时,按照列表的方式集中显示各个提示链接,每个提示链接中包括预定文本内容和与该预定文本内容对应的映射内容。
结合第一方面及其上述实现方式,在第一方面的另一实现方式中,所述提供包括所述映射内容的提示链接可包括:生成针对所述预定文本内容的编辑命令;和显示包括所述映射内容和所述编辑命令的提示链接。所述根据针对所述提示链接的操作来确定是否以所述映射内容替换所述预定文本内容可包括:当接收到确认映射内容的确认操作时,用所述映射内容替换所述预定文本内容;以及当接收到使用编辑命令进行的编辑操作时,用所述编辑操作修改所述预定文本内容。
结合第一方面及其上述实现方式,在第一方面的另一实现方式中,所述预定规则可包括日期、时间、温度、货币、名称缩写、语法缩写中的至少一个的文字表达规则。
第二方面,提供了一种语音处理装置。该语音处理装置可包括:识别单元,用于对语音数据进行识别以获得与该语音数据对应的文本数据;确定单元,用于确定所述文本数据中是否存在符合预定规则的预定文本内容,以得到一确定结果;映射单元,当所述确定结果指明所述文本数据中存在预定文本内容时,生成在含义上与该预定文本内容对应的映射内容,该映射内容不同于所述预定文本内容;提示单元,用于提供包括所述映射内容的提示链接;修改单元,用于根据针对所述提示链接的操作来确定是否以所述映射内容替换所述预定文本内容。
结合第二方面,在第二方面的一种实现方式中,所述确定单元可包括:显示部件,用于显示与该语音数据对应的文本数据;接收部件,接收用户针对所显示的文本数据的圈选操作,而获得圈选内容;比对部件,用于通过将该圈选内容与预定规则比对来确定所述文本数据中是否存在符合预定规则的预定文本内容。
结合第二方面及其上述实现方式,在第二方面的另一实现方式中,所述映射单元可生成在含义上与该预定文本内容对应的两个或更多映射内容,所述提示单元可以在所述预定文本内容附近显示包括两个或更多映射内容的提示链接。
结合第二方面及其上述实现方式,在第二方面的另一实现方式中,所述映射单元可以按照能够图形化修改的方式生成所述映射内容中的特定类型字符。
结合第二方面及其上述实现方式,在第二方面的另一实现方式中,所述提示单元可包括:计数部件,用于确定该提示链接的数量;显示部件,当该提示链接的数量大于预定值时,按照列表的方式集中显示各个提示链接,每个提示链接中包括预定文本内容和与该预定文本内容对应的映射内容。
结合第二方面及其上述实现方式,在第二方面的另一实现方式中,所述语音处理装置还可包括命令生成单元,用于生成针对所述预定文本内容的编辑命令。所述提示单元可提供包括所述映射内容和所述编辑命令的提示链接。所述修改单元可以在接收到确认映射内容的确认操作时,用所述映射内容替换所述预定文本内容,并且在接收到使用编辑命令进行的编辑操作时,用所述编辑操作修改所述预定文本内容。
结合第二方面及其上述实现方式,在第二方面的另一实现方式中,所述确定单元可以确定所述文本数据中是否存在日期、时间、温度、货币、名称缩写、语法缩写中的至少一个的文字表达内容。
第三方面,提供了一种电子设备,可包括如上所述的语音处理装置。
在根据本申请实施例的语音处理方法、语音处理装置和电子设备的技术方案中,通过为语音识别的文本数据中的预定文本内容生成对应的映射内容,并根据指示操作来确定是否以所述映射内容替换所述预定文本内容,能够方便地修改文本内容,呈现直观且准确的语音输入结果,从而提高了用户的使用体验。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是示意性图示了本申请的实施例的应用场景的示意图;
图2是示意性图示了根据本申请实施例的语音处理方法的流程图;
图3示意性图示了图2的语音处理方法中的确定预定文本内容的流程;
图4示意性图示了图2的语音处理方法中的映射内容的提示链接的示例;
图5是示意性图示了根据本申请实施例的语音处理装置的框图;
图6是示意性图示了根据本申请实施例的另一语音处理装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。
图1是示意性图示了本申请的实施例的应用场景的示意图。如图1所示,电子设备可包括语音输入装置、语音识别装置、和显示器。该语音输入装置例如为麦克风,用于从用户接收语音。该电子设备也可以不包括语音输入装置,而从其它电子设备接收要识别的语音信号。语音识别装置对所接收的语音进行语音识别处理,而获得相应的识别内容,其例如为电子设备能够响应的指令、在电子设备中记录的文本等。这里,将所识别的文本内容显示在电子设备中。此外,还可以将所识别的文本内容传送给另一电子设备或显示设备,以由其它设备进行处理。所述电子设备例如可以为移动电话机、笔记本计算机、平板计算机等,还可以是专用的语音识别装置。电子设备的类型不构成对本申请实施例的限制。
对于通过语音识别获得的文本数据,其完全是文字表达方式,不包括阿拉伯数字、单位字符等。这不简洁、并且可能不符合用户的阅读习惯。在本申请的实施例中,为语音识别的文本数据中的预定文本内容生成对应的映射内容,并根据指示操作以所述映射内容替换所述预定文本内容。因此,能够方便地修改文本内容,呈现直观且准确的语音输入结果,从而提高了用户的使用体验。
图2是示意性图示了根据本申请实施例的语音处理方法200的流程图。该语音处理方法200可应用于如图1所示的电子设备,其用于识别语音信号,并对识别结果进行处理。该处理包括但不限于优化、修改、编辑等。
如图2所示,该语音处理方法200可包括:对语音数据进行识别以获得与该语音数据对应的文本数据(S210);确定所述文本数据中是否存在符合预定规则的预定文本内容,以得到一确定结果(S220);当所述确定结果指明所述文本数据中存在预定文本内容时,生成在含义上与该预定文本内容对应的映射内容,该映射内容不同于所述预定文本内容(S230);提供包括所述映射内容的提示链接(S240);根据针对所述提示链接的操作来确定是否以所述映射内容替换所述预定文本内容(S250)。
在S210中,对语音数据进行识别以获得与该语音数据对应的文本数据。该语音数据可以是所述电子设备利用麦克风等语音输入装置接收的语音信号,也可以是从其它电子设备获取的语音信号。所述语音输入装置能够将所接收的语音转换成要处理的语音数据。
可以采用现有的将来出现的任何语音识别技术来对所述语音数据进行识别处理而得到与该语音数据对应的文本数据。以模式匹配方式的语音识别为例,在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库;然后,在识别阶段,从原始的语音数据中提取特征矢量,并将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。
在S220中,从在S210获得的文本数据中寻找符合预定规则的预定文本内容。该预定规则用于从文本数据中确定不直观或者不准确的预定文本内容。作为示例,该预定规则可以是文字规则,例如“…年…月…日”、“温度…度”、“上午/下午…点…分”等,其中省略号部分是与数字对应的文字,还可以是特定文字的撰写规则,例如公司“IBM”的小写名称ibm等。所述预定规则可以包括日期、时间、温度、货币、名称缩写、语法缩写中的至少一个的文字表达规则。日期、时间、温度、货币、名称缩写中通常宝库数字、符号等,其具有为用户所熟知的表达方式,不适宜用文字来表示。相应地,可以将包含日期、时间、温度、货币、名称缩写、语法缩写的文字作为预定文本内容。随着用户的阅读和书写习惯的改变,还可以将其它元素的文字表达作为预定文本内容。
所述符合预定规则的预定文本内容可以由用户指定。图3示意性图示了图2的语音处理方法中的确定预定文本内容的流程。通过与用户的交互操作来确定文本数据中的符合预定规则的所有预定文本内容。如图3所示,在S220中可如下地确定所述文本数据中是否存在符合预定规则的预定文本内容:显示与该语音数据对应的文本数据(S221);接收用户针对所显示的文本数据的圈选操作,而获得圈选内容(S222);通过将该圈选内容与预定规则比对来确定所述文本数据中是否存在符合预定规则的预定文本内容(S223)。
在S221中显示与该语音数据对应的文本数据之后,用户可以直观地看到语音识别后的文本数据中的不符合阅读习惯的文本内容。因此,在S222可以通过圈选操作准确地发现可能需要修改的文本内容,这缩小了比对范围,并且可以降低错误地识别预定文本内容的可能性。在S223中,将该圈选内容与预定规则比对来确定所述文本数据中是否存在符合预定规则的预定文本内容。例如,当S222中的圈选内容是“今天是二零一四年四月十三日”时,该圈选内容中的“二零一四年四月十三日”符合“…年…月…日”的文字规则,则可以确定“二零一四年四月十三日”是预定文本内容。当S222中的圈选内容是“我们下午两点五十分集合”时,该圈选内容中的“下午两点五十分”符合“上午/下午…点…分”的文字规则,则可以确定“上午/下午…点…分”是预定文本内容。当圈选内容是“我要去ibm面试”时,该圈选内容中的“ibm”符合预定规则而称为预定文本内容。
替换地,该预定规则可以由用户预先设定,并存储在电子设备中以备调用。这样,在生成文本数据后,可以自动地将各个预定规则与语音识别文本进行比对,以发现文本数据中的符合预定规则的所有预定文本内容。当在S210中生成的文本数据较多时,这可以提高识别预定文本内容的效率。
当S220中的确定结果指明所述文本数据中存在预定文本内容时,在S230中生成在含义上与该预定文本内容对应的映射内容,该映射内容不同于所述预定文本内容。所述映射内容可以是所述预定文本内容的替换表达,其可以以不同的方式来展示与所述预定文本内容相同的含义,并且更符合日常阅读习惯。例如,当预定文本内容是“下午两点五十分”,所生成的映射内容可以是“14:50”。该映射内容“14:50”的含义与预定文本内容“下午两点五十分”的含义对应,但是所述映射内容更直观、更简洁。
在S230中生成在含义上与该预定文本内容对应的映射内容时,可以生成在含义上与该预定文本内容对应的两个或更多映射内容。例如,当预定文本内容是“下午两点五十分”,可以生成对应的两个映射内容,一个是上述的“14:50”,另一个是“02:50PM”。当预定文本内容是“二零一四年四月十三日”,也可以生成对应的两个映射内容,例如一个是“2014/04/13”,另一个是“04/13/2014”。可以看出,与同一预定文本内容对应的两个映射内容的含义相同,但是其表达方式不同,该两个或更多映射内容使得用户可以根据其习惯选择使用。当然,与一个预定文本内容对应的映射内容的数目也可以是一个、三个等。
在S230中生成在含义上与该预定文本内容对应的映射内容的过程中,还可以确定所述映射内容中是否包括特定类型字符;在所述映射内容中存在特定类型字符时,按照能够图形化修改所述特定类型字符的方式生成所述映射内容。所述特定类型字符例如可以是数字、字母等。例如,当映射内容中存在字母M时,可以在该字母附近图形显示与其相近的字母,例如W、N等。这样,如果所述字母M是错误识别,则可以以图形化方式修改所述映射内容,从而方便地修改映射内容以替换所述预定文本内容。
在S240中,提供包括所述映射内容的提示链接。该提示链接将所述映射内容展现给用户,使得用户能够进行操作以确定是否用映射内容代替预定文本内容,并确定使用至少两个映射内容中的哪个映射内容代替预定文本内容。
图4示意性图示了图2的语音处理方法中的映射内容的提示链接的示例。如图4所示,电子设备的显示屏中具有下划线部分的文本内容是预定文本内容,每个预定文本内容附近,用箭头示出了其映射内容,并用方框示出了默认的映射内容。图4中给出了映射内容的三个示例,包括示例1、示例2和示例3。
在S230中生成在含义上与该预定文本内容对应的两个或更多映射内容的情况中,在S240中可以在所述预定文本内容附近显示包括两个或更多映射内容的提示链接。如图4中的示例1所示,可以在预定文本内容“二零一四年四月十三日”附近显示两个映射内容“2014/04/13”和“04/13/2014”。在图4中,映射内容“2014/04/13”位于方框中,表示其是默认的映射内容,如果用户更期望选“04/13/2014”,则可以点选该映射内容“04/13/2014”。
在S230中按照能够图形化修改所述特定类型字符的方式生成所述映射内容的情况中,在S240中提供的提示链接可以包括该映射内容和该映射内容中的特定类型字符的图形化修改。如图4中的示例2所示,可以在预定文本内容“下午两点五十分”附近显示映射内容“14:50”。在映射内容“14:50”的具有阴影的数字5是特定字符,在该特定字符5的上下位置提供了图形化修改选项。用户可以通过操作该图形化修改选项来选择合适的字符替换所述映射内容中的5,然后用所述映射内容替换所述预定内容。
在S240中提供提示链接的过程中,可以生成针对所述预定文本内容的编辑命令;并显示包括所述映射内容和所述编辑命令的提示链接。如图4中的示例3所示,可以在预定文本内容“ibm”附近显示映射内容“IBM”,并且在映射内容提供了按钮“编辑”。当用户不想选择映射内容“IBM”时,其可以点击所述“编辑”按钮,然后能够对所述预定文本内容“ibm”进行编辑,或获得期望的文本内容。
此外,在文本数据中的预定文本内容较多的情况中,相应地与其对应的映射内容也较多,则在S240中可以采取其它的方式提供提示链接,以加快处理。作为示例,在S240中可包括:确定该提示链接的数量;当该提示链接的数量大于预定值时,按照列表的方式集中显示各个提示链接,每个提示链接中包括预定文本内容和与该预定文本内容对应的映射内容。这样,可以集中进行替换处理。所述预定值可以是5、8、10等,其可以根据显示屏幕的大小等事先设定。
在S250中,根据针对所述提示链接的操作来确定是否以所述映射内容替换所述预定文本内容。当所述提示链接中的映射内容被选择时,可以用所选择的内容替换所述预定文本内容。在图4所示的示例1中,如果映射内容“04/13/2014”被选择,则用该映射内容“04/13/2014”替换所述预定文本内容“二零一四年四月十三日”。在图4所示的示例2中,如果用户期望提前集合,从而选择了特定字符5上方的4,并然后选择了映射内容“14:40”,则用该映射内容“14:40”替换所述预定文本内容“下午两点五十分”。在S240中提供的提示链接包括映射内容和编辑命令的情况中,在S250中,如果接收到确认映射内容的确认操作时,用所述映射内容替换所述预定文本内容;如果接收到使用编辑命令进行的编辑操作时,用所述编辑操作修改所述预定文本内容。在图4的示例3所示的情况中,如果用户选择了所述编辑按钮,则可以就进入编辑所述预定文本内容“ibm”的状态,并且用于编辑的内容修改预定文本内容“ibm”。
在根据本申请实施例的上述语音处理方法的技术方案中,通过为语音识别的文本数据中的预定文本内容生成对应的映射内容,并根据指示操作来确定是否以所述映射内容替换所述预定文本内容,能够方便地修改文本内容,呈现直观且准确的语音输入结果,从而提高了用户的使用体验。
图5是示意性图示了根据本申请实施例的语音处理装置500的框图。该语音处理装置500可应用于如图1所示的电子设备,其用于识别语音信号,并对识别结果进行处理。该处理包括但不限于优化、修改、编辑等。
如图5所示,该语音处理装置500可包括:识别单元510,用于对语音数据进行识别以获得与该语音数据对应的文本数据;确定单元520,用于确定所述文本数据中是否存在符合预定规则的预定文本内容,以得到一确定结果;映射单元530,当所述确定结果指明所述文本数据中存在预定文本内容时,生成在含义上与该预定文本内容对应的映射内容,该映射内容不同于所述预定文本内容;提示单元540,用于提供包括所述映射内容的提示链接;修改单元550,用于根据针对所述提示链接的操作来确定是否以所述映射内容替换所述预定文本内容。
识别单元510可以采用现有的将来出现的任何语音识别技术来对所述语音数据进行识别处理而得到与该语音数据对应的文本数据。在识别单元510以模式匹配方式进行语音识别的情况中,识别单元510可以在训练阶段识别词汇表中的每一词的语音,并且将其特征矢量作为模板存入模板库;然后,在识别阶段,从原始的语音数据中提取特征矢量,并将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。
确定单元520从通过识别单元510获得的文本数据中寻找符合预定规则的预定文本内容。该预定规则用于从文本数据中确定不直观或者不准确的预定文本内容。该预定规则可以是文字规则,例如“…年…月…日”、“温度…度”、“上午/下午…点…分”等,其中省略号部分是与数字对应的文字,还可以是特定文字的撰写规则,例如公司“IBM”的小写名称ibm等。所述预定规则可以包括日期、时间、温度、货币、名称缩写、语法缩写中的至少一个的文字表达规则。日期、时间、温度、货币、名称缩写中通常宝库数字、符号等,其具有为用户所熟知的表达方式,不适宜用文字来表示。相应地,可以将包含日期、时间、温度、货币、名称缩写、语法缩写的文字作为预定文本内容。随着用户的阅读和书写习惯的改变,还可以将其它元素的文字表达作为预定文本内容。
所述符合预定规则的预定文本内容可以由用户指定,然后通过与用户的交互操作来确定文本数据中的符合预定规则的所有预定文本内容。例如,所述确定单元520可包括:显示部件,用于显示与该语音数据对应的文本数据;接收部件,接收用户针对所显示的文本数据的圈选操作,而获得圈选内容;比对部件,用于通过将该圈选内容与预定规则比对来确定所述文本数据中是否存在符合预定规则的预定文本内容。所述显示部件可以是电子设备中的显示器。所述接收部件可以是触摸屏、鼠标等。
接收部件通过圈选操作准确地发现可能需要修改的文本内容,这缩小了比对范围,并且可以降低错误地识别预定文本内容的可能性。例如,当接收部件所获得的圈选内容是“今天是二零一四年四月十三日”时,比对部件将该圈选内容与文字规则“…年…月…日”比对,可以确定“二零一四年四月十三日”是预定文本内容。
替换地,该预定规则可以由用户预先设定,并存储在电子设备中以备调用。此时,确定单元520可以自动地将各个预定规则与语音识别文本进行比对,以发现文本数据中的符合预定规则的所有预定文本内容。当识别单元510生成的文本数据较多时,这可以提高确定单元520识别预定文本内容的效率。
当确定单元520所生成的确定结果指明所述文本数据中存在预定文本内容时,映射单元530生成在含义上与该预定文本内容对应的映射内容,该映射内容不同于所述预定文本内容。所述映射内容可以是所述预定文本内容的替换表达,其可以以不同的方式来展示与所述预定文本内容相同的含义,并且更符合日常阅读习惯。例如,当预定文本内容是“下午两点五十分”,所生成的映射内容可以是“14:50”。该映射内容“14:50”的含义与预定文本内容“下午两点五十分”的含义对应,但是所述映射内容更直观、更简洁。
映射单元530可以生成在含义上与该预定文本内容对应的两个或更多映射内容。例如,当预定文本内容是“下午两点五十分”,映射单元530可以生成对应的两个映射内容,一个是上述的“14:50”,另一个是“02:50PM”。当确定单元520所确定的预定文本内容是“二零一四年四月十三日”,映射单元530也可以生成对应的两个映射内容,例如一个是“2014/04/13”,另一个是“04/13/2014”。该两个或更多映射内容使得用户可以根据其习惯选择使用。
所述映射单元530还可以按照能够图形化修改的方式生成所述映射内容中的特定类型字符。具体地,所述映射单元530可以确定所述映射内容中是否包括特定类型字符,并在存在特定类型字符时按照能够图形化修改所述特定类型字符的方式生成所述映射内容。所述特定类型字符例如可以是数字、字母等。例如,当所述映射单元530发现映射内容中存在字母M时,可以在该字母附近图形显示与其相近的字母,例如W、N等。这样,如果所述字母M是错误识别,则可以以图形化方式修改所述映射内容,从而方便地修改映射内容以替换所述预定文本内容。
提示单元540提供包括所述映射内容的提示链接。该提示链接将所述映射内容展现给用户,使得用户能够进行操作以确定是否用映射内容代替预定文本内容,并确定使用至少两个映射内容中的哪个映射内容代替预定文本内容。
在映射单元530生成在含义上与该预定文本内容对应的两个或更多映射内容的情况中,提示单元540可以在所述预定文本内容附近显示包括两个或更多映射内容的提示链接。此时,所生成的提示链接可以参见图4中的示例1和相关描述。
在映射单元530按照能够图形化修改所述特定类型字符的方式生成所述映射内容的情况中,提示单元540所提供的提示链接可以包括该映射内容和该映射内容中的特定类型字符的图形化修改。此时,所生成的提示链接可以参见图4中的示例2和相关描述。
提示单元540还可以按照能够图形化修改的方式生成所述映射内容中的特定类型字符。此时,所生成的提示链接可以参见图4中的示例3和相关描述。
此外,在文本数据中的预定文本内容较多的情况中,相应地映射单元530所生成的映射内容也较多,则提示单元540可以采取其它的方式提供提示链接,以加快处理。作为示例,所述提示单元540可包括:计数部件,用于确定该提示链接的数量;显示部件,当该提示链接的数量大于预定值时,按照列表的方式集中显示各个提示链接,每个提示链接中包括预定文本内容和与该预定文本内容对应的映射内容。这样,可以集中进行替换处理。所述预定值可以是5、8、10等,其可以根据显示屏幕的大小等事先设定。
修改单元550可以根据针对所述提示链接的操作来确定是否以所述映射内容替换所述预定文本内容。当所述提示链接中的映射内容被选择时,可以用所选择的内容替换所述预定文本内容。在图4所示的示例1中,如果映射内容“04/13/2014”被选择,则修改单元550用该映射内容“04/13/2014”替换所述预定文本内容“二零一四年四月十三日”。在图4所示的示例2中,如果用户将映射内容修改成了“14:40”并选择了该映射内容,则修改单元550用该映射内容“14:40”替换所述预定文本内容“下午两点五十分”。
语音处理装置500还可以包括命令生成单元,用于生成针对所述预定文本内容的编辑命令。此时,提示单元540可以提供包括所述映射内容和所述编辑命令的提示链接,所述修改单元550可以在接收到确认映射内容的确认操作时,用所述映射内容替换所述预定文本内容;而在接收到使用编辑命令进行的编辑操作时,用所述编辑操作修改所述预定文本内容。
在根据本申请实施例的上述语音处理装置的技术方案中,通过为语音识别的文本数据中的预定文本内容生成对应的映射内容,并根据指示操作来确定是否以所述映射内容替换所述预定文本内容,能够方便地修改文本内容,呈现直观且准确的语音输入结果,从而提高了用户的使用体验。
图6是示意性图示了根据本申请另一实施例的语音识别装置600的框图。该语音识别装置600包括:存储器610,用于存储程序代码;处理器620,用于执行所述程序代码以实现结合图2-4描述的方法。
存储器610可以包括只读存储器和随机存取存储器中的至少一个,并向处理器620提供指令和数据。存储器610的一部分还可以包括非易失行随机存取存储器(NVRAM)。
处理器620可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者任何常规的处理器等。
结合本申请实施例所公开的方法的步骤可以直接体现为由处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器610中,处理器620读取存储器610中的信息,结合其硬件完成上述方法的步骤。
在上面结合图5-6公开了根据本申请实施例的语音识别装置的情况下,所有包括所述语音识别装置的电子设备也都处于本申请实施例的公开范围。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (15)

1.一种语音处理方法,应用于一电子设备,该语音处理方法包括:
对语音数据进行识别以获得与该语音数据对应的文本数据;
确定所述文本数据中是否存在符合预定规则的预定文本内容,以得到一确定结果;
当所述确定结果指明所述文本数据中存在预定文本内容时,生成在含义上与该预定文本内容对应的映射内容,该映射内容不同于所述预定文本内容;
提供包括所述映射内容的提示链接;
根据针对所述提示链接的操作来确定是否以所述映射内容替换所述预定文本内容。
2.根据权利要求1的语音处理方法,其中,所述确定所述文本数据中是否存在符合预定规则的预定文本内容包括:
显示与该语音数据对应的文本数据;
接收用户针对所显示的文本数据的圈选操作,而获得圈选内容;
通过将该圈选内容与预定规则比对来确定所述文本数据中是否存在符合预定规则的预定文本内容。
3.根据权利要求2的语音处理方法,其中,
所述生成在含义上与该预定文本内容对应的映射内容包括:生成在含义上与该预定文本内容对应的两个或更多映射内容,
所述提供包括映射内容的提示链接包括:在所述预定文本内容附近显示包括两个或更多映射内容的提示链接。
4.根据权利要求1的语音处理方法,其中,所述生成在含义上与该预定文本内容对应的映射内容包括:
确定所述映射内容中是否包括特定类型字符;
在所述映射内容中存在特定类型字符时,按照能够图形化修改所述特定类型字符的方式生成所述映射内容。
5.根据权利要求1的语音处理方法,其中,所述提供包括所述映射内容的提示链接包括:
确定该提示链接的数量;
当该提示链接的数量大于预定值时,按照列表的方式集中显示各个提示链接,每个提示链接中包括预定文本内容和与该预定文本内容对应的映射内容。
6.根据权利要求1的语音处理方法,其中,
所述提供包括所述映射内容的提示链接包括:
生成针对所述预定文本内容的编辑命令;和
显示包括所述映射内容和所述编辑命令的提示链接,
所述根据针对所述提示链接的操作来确定是否以所述映射内容替换所述预定文本内容包括:
当接收到确认映射内容的确认操作时,用所述映射内容替换所述预定文本内容;以及
当接收到使用编辑命令进行的编辑操作时,用所述编辑操作修改所述预定文本内容。
7.根据权利要求1的语音处理方法,其中,所述预定规则包括日期、时间、温度、货币、名称缩写、语法缩写中的至少一个的文字表达规则。
8.一种语音处理装置,包括:
识别单元,用于对语音数据进行识别以获得与该语音数据对应的文本数据;
确定单元,用于确定所述文本数据中是否存在符合预定规则的预定文本内容,以得到一确定结果;
映射单元,当所述确定结果指明所述文本数据中存在预定文本内容时,生成在含义上与该预定文本内容对应的映射内容,该映射内容不同于所述预定文本内容;
提示单元,用于提供包括所述映射内容的提示链接;
修改单元,用于根据针对所述提示链接的操作来确定是否以所述映射内容替换所述预定文本内容。
9.根据权利要求8的语音处理装置,其中,所述确定单元包括:
显示部件,用于显示与该语音数据对应的文本数据;
接收部件,接收用户针对所显示的文本数据的圈选操作,而获得圈选内容;
比对部件,用于通过将该圈选内容与预定规则比对来确定所述文本数据中是否存在符合预定规则的预定文本内容。
10.根据权利要求9的语音处理装置,其中,所述映射单元生成在含义上与该预定文本内容对应的两个或更多映射内容,
所述提示单元在所述预定文本内容附近显示包括两个或更多映射内容的提示链接。
11.根据权利要求8的语音处理装置,其中,所述映射单元按照能够图形化修改的方式生成所述映射内容中的特定类型字符。
12.根据权利要求8的语音处理装置,其中,所述提示单元包括:
计数部件,用于确定该提示链接的数量;
显示部件,当该提示链接的数量大于预定值时,按照列表的方式集中显示各个提示链接,每个提示链接中包括预定文本内容和与该预定文本内容对应的映射内容。
13.根据权利要求8的语音处理装置,其中,所述语音处理装置还包括命令生成单元,用于生成针对所述预定文本内容的编辑命令,
所述提示单元提供包括所述映射内容和所述编辑命令的提示链接,
所述修改单元在接收到确认映射内容的确认操作时,用所述映射内容替换所述预定文本内容;并且在接收到使用编辑命令进行的编辑操作时,用所述编辑操作修改所述预定文本内容。
14.根据权利要求8的语音处理装置,其中,所述确定单元确定所述文本数据中是否存在日期、时间、温度、货币、名称缩写、语法缩写中的至少一个的文字表达内容。
15.一种电子设备,包括如权利要求8-14中任一项所述的语音处理装置。
CN201410843238.0A 2014-12-30 2014-12-30 语音处理方法、语音处理装置和电子设备 Active CN105810197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410843238.0A CN105810197B (zh) 2014-12-30 2014-12-30 语音处理方法、语音处理装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410843238.0A CN105810197B (zh) 2014-12-30 2014-12-30 语音处理方法、语音处理装置和电子设备

Publications (2)

Publication Number Publication Date
CN105810197A true CN105810197A (zh) 2016-07-27
CN105810197B CN105810197B (zh) 2019-07-26

Family

ID=56420987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410843238.0A Active CN105810197B (zh) 2014-12-30 2014-12-30 语音处理方法、语音处理装置和电子设备

Country Status (1)

Country Link
CN (1) CN105810197B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108682421A (zh) * 2018-04-09 2018-10-19 平安科技(深圳)有限公司 一种语音识别方法、终端设备及计算机可读存储介质
CN109215661A (zh) * 2018-08-30 2019-01-15 上海与德通讯技术有限公司 语音转文字方法、装置设备及存储介质
CN109858005A (zh) * 2019-03-07 2019-06-07 百度在线网络技术(北京)有限公司 基于语音识别的文档更新方法、装置、设备及存储介质
CN111971744A (zh) * 2018-03-23 2020-11-20 清晰Xyz有限公司 处理语音到文本的转换
CN112771608A (zh) * 2018-11-20 2021-05-07 深圳市欢太科技有限公司 语音信息的处理方法、装置、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5909667A (en) * 1997-03-05 1999-06-01 International Business Machines Corporation Method and apparatus for fast voice selection of error words in dictated text
CN1918578A (zh) * 2004-02-11 2007-02-21 美国联机股份有限公司 具有自动校正的手写及语音输入
CN102323858A (zh) * 2011-08-29 2012-01-18 上海量明科技发展有限公司 识别输入时修改项的输入方法、终端及系统
CN102640107A (zh) * 2009-11-30 2012-08-15 株式会社东芝 信息处理装置
CN103941959A (zh) * 2013-01-23 2014-07-23 Lg电子株式会社 电子设备以及其控制方法
CN104123937A (zh) * 2013-04-28 2014-10-29 腾讯科技(深圳)有限公司 提醒设置方法、装置和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5909667A (en) * 1997-03-05 1999-06-01 International Business Machines Corporation Method and apparatus for fast voice selection of error words in dictated text
CN1918578A (zh) * 2004-02-11 2007-02-21 美国联机股份有限公司 具有自动校正的手写及语音输入
CN102640107A (zh) * 2009-11-30 2012-08-15 株式会社东芝 信息处理装置
CN102323858A (zh) * 2011-08-29 2012-01-18 上海量明科技发展有限公司 识别输入时修改项的输入方法、终端及系统
CN103941959A (zh) * 2013-01-23 2014-07-23 Lg电子株式会社 电子设备以及其控制方法
CN104123937A (zh) * 2013-04-28 2014-10-29 腾讯科技(深圳)有限公司 提醒设置方法、装置和系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111971744A (zh) * 2018-03-23 2020-11-20 清晰Xyz有限公司 处理语音到文本的转换
CN108682421A (zh) * 2018-04-09 2018-10-19 平安科技(深圳)有限公司 一种语音识别方法、终端设备及计算机可读存储介质
WO2019196238A1 (zh) * 2018-04-09 2019-10-17 平安科技(深圳)有限公司 一种语音识别方法、终端设备及计算机可读存储介质
CN109215661A (zh) * 2018-08-30 2019-01-15 上海与德通讯技术有限公司 语音转文字方法、装置设备及存储介质
CN112771608A (zh) * 2018-11-20 2021-05-07 深圳市欢太科技有限公司 语音信息的处理方法、装置、存储介质及电子设备
CN109858005A (zh) * 2019-03-07 2019-06-07 百度在线网络技术(北京)有限公司 基于语音识别的文档更新方法、装置、设备及存储介质
CN109858005B (zh) * 2019-03-07 2024-01-12 百度在线网络技术(北京)有限公司 基于语音识别的文档更新方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN105810197B (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
US9767092B2 (en) Information extraction in a natural language understanding system
CN102906735B (zh) 语音流增强的笔记记录
CN110110041A (zh) 错词纠正方法、装置、计算机装置及存储介质
CN105378606B (zh) 用于手势键入的备选假设错误修正
CN105810197A (zh) 语音处理方法、语音处理装置和电子设备
US20100153115A1 (en) Human-Assisted Pronunciation Generation
CN103645876A (zh) 语音输入方法和装置
US20140222424A1 (en) Method and apparatus for contextual text to speech conversion
CN101622616B (zh) 共享语言模型
CN102141889A (zh) 用于编辑的打字辅助
CN103369122A (zh) 语音输入方法及系统
US20150169537A1 (en) Using statistical language models to improve text input
JP2022002088A (ja) 言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体
EP3195308B1 (en) Actions on digital document elements from voice
CN103942223A (zh) 一种对语言模型进行在线纠错的方法及系统
US20160180741A1 (en) Pronunciation learning device, pronunciation learning method and recording medium storing control program for pronunciation learning
CN104346147A (zh) 音乐游戏的节拍点的编辑方法及装置
CN107480369B (zh) 一种pcb设计中分类显示drc的设计、操作方法
US20150193410A1 (en) System for editing a text of a portable terminal and method thereof
US9772816B1 (en) Transcription and tagging system
CN102323858B (zh) 识别输入时修改项的输入方法、终端及系统
CN104657344A (zh) 写作提示系统及其方法
CN108257601A (zh) 用于语音识别文本的方法、设备、客户端装置及电子设备
CN106716308A (zh) 用于输入地理位置名称的输入法编辑器
CN107705790A (zh) 一种信息处理方法和电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant