CN103645876A

CN103645876A - 语音输入方法和装置

Info

Publication number: CN103645876A
Application number: CN201310661487.3A
Authority: CN
Inventors: 时迎超; 张海雷; 白龙飞
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-12-06
Filing date: 2013-12-06
Publication date: 2014-03-19
Anticipated expiration: 2033-12-06
Also published as: CN103645876B

Abstract

本发明提出一种语音输入方法和装置，其中，该方法包括：接收用户的第一语音输入指令；对第一语音输入指令进行识别，并将识别结果展示；以及获取用户的后续行为，并根据后续行为对识别结果进行修正。本发明的语音输入方法，通过对用户的第一语音输入指令进行识别，并根据识别结果，获取用户的后续行为，最后根据后续行为对识别结果进行修正，使用户通过语音识别技术对识别结果进行修正，无需用户手动进行删除和修改，提高了语音输入的效率，并且更加，符合用户习惯，提升了用户体验。

Description

语音输入方法和装置

技术领域

本发明涉及人机交互技术领域，特别涉及一种语音输入方法和装置。

背景技术

语音识别技术是一种通过机器正确识别人类的语音，并将人类语音中的词汇内容转换为相应的计算机可读可输入的文本或命令的高科技技术。随着科技的不断进步，语音识别技术涉及领域也越来越广泛。相对于键盘输入等其他输入方式，语音识别技术更符合用户日常习惯，因此，它将成为最重要的人机交互技术之一。然而，由于语音识别的模型并不完善，识别的结果可能会产生错误。在日常口语场景下，容易受到环境噪音或者其他方面的影响，更容易产生错误。例如：用户说出的短句是“附近的好吃的”，但由于附近的噪音干扰或者刮大风造成干扰，被识别成“附件的好吃的”，导致语音识别率比较低，产生识别错误。

目前，针对语音识别出现错误的情况，可先取消已识别的内容并重新进行语音输入，或者手动选择识别错误的识别结果，并手动删除。但是，重新语音输入的方法效率低，并且再次识别的时候可能依然会识别错误，需要输入多次才能正确识别；而通过手动选择并删除错误的识别结果，则需要多次进行按键或触摸操作，操作过程繁琐，使用不便，用户体验差。

发明内容

本发明旨在至少在一定程度上解决上述技术问题。

为此，本发明的第一个目的在于提出一种语音输入方法，通过对用户的第一语音输入指令进行识别，并根据识别结果，获取用户的后续行为，最后根据后续行为对识别结果进行修正，使用户通过语音识别技术对识别结果进行修正，无需用户手动进行删除和修改，提高了语音输入的效率，并且更加，符合用户习惯，提升了用户体验。

本发明的第二个目的在于提出一种语音输入装置。

为达上述目的，根据本发明第一方面实施例提出了一种语音输入方法，包括：接收用户的第一语音输入指令；对所述第一语音输入指令进行识别，并将识别结果展示；以及获取所述用户的后续行为，并根据所述后续行为对所述识别结果进行修正。

本发明实施例的语音输入方法，通过对用户的第一语音输入指令进行识别，并根据识别结果，获取用户的后续行为，最后根据后续行为对识别结果进行修正，使用户通过语音识别技术对识别结果进行修正，无需用户手动进行删除和修改，提高了语音输入的效率，并且更加，符合用户习惯，提升了用户体验。

本发明第二方面实施例提供了一种语音输入装置，包括：接收模块，用于接收用户的第一语音输入指令；识别展示模块，用于对所述第一语音输入指令进行识别，并将识别结果展示；获取模块，用于获取所述用户的后续行为；修正模块，用于根据所述后续行为对所述识别结果进行修正。

根据本发明实施例的语音输入装置，通过对用户的第一语音输入指令进行识别，并根据识别结果，获取用户的后续行为，最后根据后续行为对识别结果进行修正，使用户通过语音识别技术对识别结果进行修正，无需用户手动进行删除和修改，提高了语音输入的效率，并且更加，符合用户习惯，提升了用户体验。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的语音输入方法的流程图；

图2为根据本发明一个具体实施例的语音输入方法的流程图；

图3为根据本发明另一个实施例的语音输入方法的流程图；

图4为根据本发明一个实施例的语音输入装置的结构示意图；

图5为根据本发明一个具体实施例的语音输入装置的结构示意图；

图6为根据本发明另一个实施例的语音输入装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

下面参考附图描述根据本发明实施例的语音输入方法和装置。

为使用户通过语音识别技术对识别结果进行修正更加高效、准确，本发明提出一种语音输入方法，包括：接收用户的第一语音输入指令；对第一语音输入指令进行识别，并将识别结果展示；以及获取用户的后续行为，并根据后续行为对识别结果进行修正。

图1为根据本发明一个实施例的语音输入方法的流程图。

如图1所示，根据本发明实施例的语音输入方法，包括以下步骤：

S101，接收用户的第一语音输入指令。

在本发明的实施例中，客户端中的语音输入装置可通过麦克风或其他语音输入设备接收用户输入的第一语音输入指令。其中，客户端可为个人电脑、笔记本电脑、平板电脑、电子书等具有语音输入功能的电子设备。举例来说，如果用户希望搜索自己所在位置附近的好吃的，可在相应的搜索界面通过麦克风或其他语音输入设备输入第一语音输入指令“附近的好吃的”。

S102，对第一语音输入指令进行识别，并将识别结果展示。

在本发明的实施例中，语音输入装置可对第一语音输入指令进行识别，并将语音内容转换为文字等便于用户查看的数据形式，然后将识别结果以文本或者其他输出方式展示给用户。

S103，获取用户的后续行为，并根据后续行为对识别结果进行修正。

在本发明的一个实施例中，用户的后续行为可为当识别结果中存在识别错误的元素时，用户输入的能够指示该识别错误的元素的位置的操作。举例来说，如果对于上述第一语音输入指令“附近的好吃的”，由于语音输入装置的精确度或者客户端周围环境（如刮风等造成的噪音等）将其识别为“附件的好吃的”，此时用户可通过语音、按键、触摸等输入操作向客户端确认识别错误的元素“附件”，以使客户端对其进行修正。具体地，用户可点击识别错误的元素，以使语音输入装置自动对该元素进行修正，或者用户通过语音对该元素进行细节描述，如再次输入语音“附属的附，距离远近的近”，以使语音输入装置识别并对相应元素进行修正。

图2为根据本发明一个具体实施例的语音输入方法的流程图。

在本实施例中，用户的后续行为为用户针对识别结果的选择输入动作，由此，可获取被识别错误的元素，并对获取的元素进行自动纠错，能够快速的对语音输入错误进行纠错，使语音输入更加高效、准确，更加符合用户的习惯，进一步满足用户需求，提升用户体验。具体地，如图2所示，根据本发明实施例的语音输入方法，包括以下步骤：

S201，接收用户的第一语音输入指令。

S202，对第一语音输入指令进行识别，并将识别结果展示。

S203，获取用户针对识别结果的选择输入动作。

在本发明的实施例中，选择输入动作可以为用户针对识别结果的手势选定动作，也可以是用户针对识别结果输出的第二语音输入指令，第二语音输入指令中包括至少一个元素的位置信息。

具体地，用户针对识别结果的手势选定动作可为用户通过鼠标、键盘或触摸控制等其他人机交互设备对识别结果中识别错误的元素进行选定。

用户针对识别结果输出的第二语音输入指令，第二语音输入指令中包括至少一个元素的位置信息。由此，用户根据第二语音输入指令中的元素的位置信息即可选中识别错误的元素。例如：用户说出“第一个词”“第二个词”等包含元素位置信息的语音输入指令，则客户端的客户端中的语音输入装置通过语音识别技术，选中用户说出的相对应的元素。

S204，获取选择输入动作所对应的识别结果中的至少一个元素。

在本发明的实施例中，根据用户的选择输入动作可在识别结果中获取至少一个元素，即用户想要进行纠错的错别字或识别错误的词汇。例如，如果用户点击选中了“附件”，或者语音输入“第一个词”，则可获取需要进行纠错的词“附件”。

S205，对至少一个元素进行自动纠错，并展示对应的纠错结果。

在本发明的实施例中，语音输入装置可根据预设的改写模型获取与至少一个元素（即被识别错误的元素）的上下文语义相匹配的候选元素，并根据这些候选元素对至少一个元素进行自动纠错。其中，预设的改写模型为预先建立的，集成了统计对齐、翻译、语言模型、语义相似度计算等技术，从而基于语言模型能够根据被识别错误的元素的上下文获取在该元素位置最可能出现的词，并根据语义相似度计算获取到的最可能出现的词与上下文语义是否相符，并将相符的作为候选元素。具体地，可将这些候选元素向用户展示或提醒，以供用户选择其中正确的一个，对识别错误的元素进行纠错。举例来说，客户端检测到“附件”需要改正“附近”或“福建”时，语音提醒的语句为：您说的是“周边的好吃的”还是“福建省的好吃的”？，而用户可以回答“第一个”或者“后一个”，也可以重复提醒语句中的任意一个，以选择相应的纠错结果对“附件”进行纠错。

本发明实施例的语音输入方法，通过用户针对识别结果的选择输入动作获取需要纠错的元素，并对该元素进行自动纠错，能够快速的对语音输入错误进行纠错，并将纠错结果展示给用户，以便用户确认，进一步提高了语音输入的准确性，更加符合用户的习惯，进一步满足用户需求，提升用户体验。

图3为根据本发明另一个实施例的语音输入方法的流程图。

在本实施例中，用户的后续行为为第三语音输入指令，通过对第三语音输入指令的指令类型和语义的分析结果，对识别结果进行修正，使用户对语音输入的修正更加智能化，更加高效、准确，更加符合用户的习惯，从而为用户提供更方便的服务，满足用户需求，进一步提升用户体验。具体地，如图3所示，根据本发明实施例的语音输入方法，包括以下步骤：

S301，接收用户的第一语音输入指令。

S302，对第一语音输入指令进行识别，并将识别结果展示。

S303，接收用户针对识别结果的第三语音输入指令。

在本发明的实施例中，识别结果的第三语音输入指令可为编辑指令或重复指令。其中，编辑指令为根据字词的结构或者语义对识别结果中的元素进行编辑的指令，如“弓长张”、“冰清玉洁的冰”等。重复指令为对某一部分识别结果再次重复输入的指令，如对于“从曹县到深圳农行一下”，可再次输入重复指令“导航一下”。

S304，对第三语音输入指令进行分析。

在本发明的实施例中，客户端中的语音输入装置可识别第三语音输入指令的内容，并对该内容进行语义分析，以获取第三语音输入指令的指令类型和语义分析结果。

具体地，客户端中的语音输入装置可根据对第三语音输入指令的内容进行分析，第三语音输入指令中包含有根据字词的结构或者编辑元素动作的指令，可判断为编辑指令。举例来说，用户输入的短句中包含“张”字，但被识别成其他读音相同或相似的字，因此用户可输入第三语音指令“弓长张”，使客户端中的语音输入装置对“弓长张”进行识别，根据语义可知“弓长张”为编辑指令。同样的，“三点水的涨”、“冰清玉洁的冰”、“木字旁加一个秋天的秋”、“删除最后两个字”等，均为编辑指令。

在本发明的实施例中，用户输入一个与上一句的部分或全部内容相似度极高的短句，其意图很可能是对上一句中内容的一个修改，由此可判断与上一句的部分或全部内容相似度极高的短句为重复指令。例如：语音识别的短句内容为“从曹县到深圳农行一下”，用户发现识别错误后，重复输入“导航一下”这部分内容，客户端中的语音输入装置则可根据语义分析出“导航一下”为重复指令。

S305，根据分析结果对识别结果进行修正。

在本发明的实施例中，当第三语音输入指令为编辑指令时，客户端中的语音输入装置可根据拼音相似度确定用于修正待编辑元素的候选元素，并根据确定的候选元素替换待编辑元素，以对识别结果进行修正。其中，拼音相似度可对用户已输入的词汇的读音通过语音转换，获取同音或近似音的其他词。此外，计算并衡量两个词汇的读音相似程度。

例如，用户想输入“给张杰打电话”，但被识别成为“给江姐打电话”。用户只需继续说“弓长张，杰出的杰”，即可实现“张杰”对“江姐”的替换。具体地，用户发现“给江姐打电话”中的识别错误，尝试输入“弓长张，杰出的杰”进行修正。识别到的两个编辑指令“弓长张”和“杰出的杰”。对识别到的两个编辑指令分别使用字形和读音进行相似度分析。如“弓长张”解析为“张”,“杰出的杰”可分析为“接、截、杰、解、戒、借”。组合所有的编辑内容的解析结果成为最终候选元素。因为“张杰”是一个可查询的组合，而其余五个字和“张”的组合结果均不可查询，因此最后候选元素只保留“张杰”。从历史文本“给江姐打电话”中对每个最终候选元素进行定位、打分、排序和筛选。定位通过拼音相似度的计算实现，找到该候选元素的所有可能替换位置后，根据定位得分进行排序，并显示给用户。如“张杰”对于“给江姐打电话”得到的最终替换结果为“给[张杰]打电话”“[张杰]打电话”和“给[张杰]电话”。对得到的所有最终候选的替换结果进行综合排序，将得分最高的前5个返回给用户。应当理解，得分最高的结果可由用户或程序预先设定，不仅限定于5个。

当第三语音输入指令为重复指令时，客户端中的语音输入装置可根据拼音相似度获取与重复指令对应的元素中与重复指令不同的元素，并根据重复指令对不同的元素进行替换，以对识别结果进行修正。例如：用户发现“从曹县到深圳农行一下”的识别错误，重复错误元素“导航一下”进行修正。此时，客户端中的语音输入装置可给出几个相近或相似的候选元素，客户端中的语音输入装置将新的输入“导航一下”针对历史句子中“农行一下”进行替换。

本发明实施例的语音输入方法，通过获取第三语音输入指令的指令类型和语义分析结果，并根据分析结果对识别结果进行修正，使用户对语音输入的修正更加智能化，更加高效、准确，更加符合用户的习惯，从而为用户提供更方便的服务，满足用户需求，进一步提升用户体验。

在本发明的实施例中，该方法还可以获取对识别结果的修正记录，其中，修正记录中包括至少一个历史修正操作和与至少一个历史修正操作分别对应的历史识别结果，并根据撤销指令对应的历史修正操作，将识别结果恢复至与撤销指令对应的历史修正操作对应的历史识别结果。

例如，对于识别结果“给江姐打电话”，如果用户通过语音输入“弓长张，杰出的杰”将该识别结果修正为“给张杰打电话”。则可将“弓长张，杰出的杰”作为历史修正操作添加至修正记录，并将“弓长张，杰出的杰”操作执行之前的识别结果“给江姐打电话”记录为相应的历史识别结果。如果用户想撤销对“给江姐打电话”的修正，则可点击撤销按钮，或者通过输入语音撤销指令，则可根据修正记录将识别结果“给张杰打电话”恢复为“弓长张，杰出的杰”操作之前的历史识别结果“给江姐打电话”。应当理解，本发明不限于将识别结果撤销为上一次修正操作之前的识别结果，也可为修正记录中的任一次历史修正操作对应的历史修正结果，其中，修正记录的可记录容量可由系统默认设定或者由用户根据需要设定。本发明的其他实施例中也可通过其他指令输入方法输入撤销指令，本发明对此不做限定。

为实现上述发明，本发明提出一种语音输入装置。

图4为根据本发明一个实施例的语音输入装置的结构示意图。

如图4所示，根据本发明实施例的语音输入装置，包括：接收模块100、识别展示模块200、获取模块300和修正模块400。

接收模块100用于接收用户的第一语音输入指令。

在本发明的实施例中，接收模块100可通过麦克风或其他语音输入设备接收用户输入的第一语音输入指令。其中，客户端可为个人电脑、笔记本电脑、平板电脑、电子书等具有语音输入功能的电子设备。举例来说，如果用户希望搜索自己所在位置附近的好吃的，可在相应的搜索界面通过麦克风或其他语音输入设备输入第一语音输入指令“附近的好吃的”。

识别展示模块200用于对第一语音输入指令进行识别，并将识别结果展示。

在本发明的实施例中，识别展示模块200可对第一语音输入指令进行识别，并将语音内容转换为文字等便于用户查看的数据形式，然后将识别结果以文本或者其他输出方式展示给用户。

获取模块300用于获取用户的后续行为。

修正模块400用于根据后续行为对识别结果进行修正。

本发明实施例的语音输入装置，通过对用户的第一语音输入指令进行识别，并根据识别结果，获取用户的后续行为，最后根据后续行为对识别结果进行修正，使用户通过语音识别技术对识别结果进行修正，无需用户手动进行删除和修改，提高了语音输入的效率，并且更加，符合用户习惯，提升了用户体验。

图5为根据本发明一个具体实施例的语音输入装置的结构示意图。

如图5所示，根据本发明实施例的语音输入装置，包括：接收模块100、识别展示模块200、获取模块300和修正模块400。其中，修正模块400具体包括：获取子模块410、纠错子模块420和展示子模块430。

在本实施例中，获取模块300获取的用户的后续行为可为用户针对识别结果的选择输入动作。具体地，修正模块400可通过获取子模块410、纠错子模块420和展示子模块430对识别结果进行修正。

其中，获取子模块410用于获取选择输入动作所对应的识别结果中的至少一个元素。

在本发明的实施例中，选择输入动作可以为用户针对识别结果的手势选定动作。具体地，用户针对识别结果的手势选定动作可为用户通过鼠标、键盘或触摸控制等其他人机交互设备对识别结果中识别错误的元素进行选定。

在本发明的实施例中，选择输入动作也可以是用户针对识别结果输出的第二语音输入指令，第二语音输入指令中包括至少一个元素的位置信息。由此，用户根据第二语音输入指令中的元素的位置信息即可通过获取子模块410选中识别错误的元素。例如：用户说出“第一个词”“第二个词”等包含元素位置信息的语音输入指令，则识别展示模块200通过语音识别技术，获取用户说出的相对应的元素。

纠错子模块420用于对至少一个元素进行自动纠错。

在本发明的实施例中，语音输入装置可根据预设的改写模型获取与至少一个元素（即被识别错误的元素）的上下文语义相匹配的候选元素，并根据这些候选元素对至少一个元素进行自动纠错。其中，预设的改写模型为预先建立的，集成了统计对齐、翻译、语言模型、语义相似度计算等技术，从而基于语言模型能够根据被识别错误的元素的上下文获取在该元素位置最可能出现的词，并根据语义相似度计算获取到的最可能出现的词与上下文语义是否相符，并将相符的作为候选元素。具体地，可将这些候选元素向用户展示或提醒，以供用户选择其中正确的一个，纠错子模块420对识别错误的元素进行纠错。举例来说，客户端检测到“附件”需要改正“附近”或“福建”时，语音提醒的语句为：您说的是“周边的好吃的”还是“福建省的好吃的”？，而用户可以回答“第一个”或者“后一个”，也可以重复提醒语句中的任意一个，以选择相应的纠错结果对“附件”进行纠错。

展示子模块430用于展示对应的纠错结果。具体地，展示子模块430可将纠错结果展示给用户，例如在上述例子中，如果用户选择“第一个”候选词时，展示子模块430可在“附近”替换“附件”后展示纠错后的结果“附近的好吃的”。

本发明实施例的语音输入装置，通过用户针对识别结果的选择输入动作获取需要纠错的元素，并对该元素进行自动纠错，能够快速的对语音输入错误进行纠错，并将纠错结果展示给用户，以便用户确认，进一步提高了语音输入的准确性，更加符合用户的习惯，进一步满足用户需求，提升用户体验。

如图6所示，根据本发明实施例的语音输入装置，包括：接收模块100、识别展示模块200、获取模块300、修正模块400和撤销模块500。其中，修正模块400具体包括：获取子模块410、纠错子模块420、展示子模块430、分析子模块440和修正子模块450。分析子模块440具体包括：语义分析单元441和获取单元442。

在本实施例中，获取模块300获取的用户的后续行为可为用户针对识别结果的第三语音输入指令。具体地，修正模块400可通过分析子模块440和修正子模块450对识别结果进行修正。

其中，分析子模块440用于对第三语音输入指令进行分析。具体地，分析子模块440进一步包括：语义分析单元441和获取单元442。

语义分析单元441用于识别第三语音输入指令的内容，并对内容进行语义分析，以获取第三语音输入指令的指令类型和语义分析结果。具体地，语义分析单元441可根据对第三语音输入指令的内容进行分析，第三语音输入指令中包含有根据字词的结构或者编辑元素动作的指令，可判断为编辑指令。举例来说，用户输入的短句中包含“张”字，但被识别成其他读音相同或相似的字，因此用户可输入第三语音指令“弓长张”，使客户端中的语音输入装置对“弓长张”进行识别，根据语义可知“弓长张”为编辑指令。同样的，“三点水的涨”、“冰清玉洁的冰”、“木字旁加一个秋天的秋”、“删除最后两个字”等，均为编辑指令。

在本发明的实施例中，用户输入一个与上一句的部分或全部内容相似度极高的短句，其意图很可能是对上一句中内容的一个修改，由此语义分析单元441可分析出与上一句的部分或全部内容相似度极高的短句为重复指令。例如：语音识别的短句内容为“从曹县到深圳农行一下”，用户发现识别错误后，重复输入“导航一下”这部分内容，客户端中的语音输入装置则可根据语义分析出“导航一下”为重复指令。

获取单元442用于在第三语音输入指令为编辑指令时，根据语义分析结果获取识别结果中的待编辑元素以用于修正待编辑元素的至少一个候选元素，以及在第三语音输入指令为重复指令时，获取识别结果中与重复指令对应的元素。

修正子模块450用于根据分析结果对识别结果进行修正。

在本发明的实施例中，当第三语音输入指令为编辑指令时，修正子模块450可根据拼音相似度确定用于修正待编辑元素的候选元素，以及根据确定的候选元素替换待编辑元素，以对识别结果进行修正。其中，拼音相似度可对用户已输入的词汇的读音通过语音转换，获取同音或近似音的其他词。此外，计算并衡量两个词汇的读音相似程度。

当第三语音输入指令为重复指令时，修正子模块450可根据拼音相似度获取与重复指令对应的元素中与重复指令不同的元素，并根据重复指令对不同的元素进行替换，以对识别结果进行修正。例如：用户发现“从曹县到深圳农行一下”的识别错误，重复错误元素“导航一下”进行修正。修正子模块450可给出几个相近或相似的候选元素，并将新的输入“导航一下”针对历史句子中“农行一下”进行替换。

撤销模块500用于获取对识别结果的修正记录，其中，修正记录中包括至少一个历史修正操作和与至少一个历史修正操作分别对应的历史识别结果，并根据撤销指令对应的历史修正操作，将识别结果恢复至与撤销指令对应的历史修正操作对应的历史识别结果。

本发明实施例的语音输入装置，通过获取第三语音输入指令的指令类型和语义分析结果，并根据分析结果对识别结果进行修正，使用户对语音输入的修正更加智能化，更加高效、准确，更加符合用户的习惯，从而为用户提供更方便的服务，满足用户需求，进一步提升用户体验。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同限定。

Claims

1.一种语音输入方法，其特征在于，包括以下步骤：

接收用户的第一语音输入指令；

对所述第一语音输入指令进行识别，并将识别结果展示；以及

获取所述用户的后续行为，并根据所述后续行为对所述识别结果进行修正。

2.如权利要求1所述的方法，其特征在于，所述后续行为为用户针对所述识别结果的选择输入动作，所述根据后续行为对所述识别结果进行修正具体包括：

获取所述选择输入动作所对应的所述识别结果中的至少一个元素；以及

对所述至少一个元素进行自动纠错，并展示对应的纠错结果。

3.如权利要求2所述的方法，其特征在于，所述对所述至少一个元素进行自动纠错具体包括：

根据预设的改写模型获取与所述至少一个元素的上下文语义相匹配的候选元素；

根据所述候选元素对所述至少一个元素进行自动纠错。

4.如权利要求2所述的方法，其特征在于，所述用户针对所述识别结果的选择输入动作具体包括：

所述用户针对所述识别结果的手势选定动作；或者

所述用户针对所述识别结果输出的第二语音输入指令，所述第二语音输入指令中包括所述至少一个元素的位置信息。

5.如权利要求1所述的方法，其特征在于，所述后续行为为用户针对所述识别结果的第三语音输入指令，所述根据后续行为对所述识别结果进行修正具体包括：

对所述第三语音输入指令进行分析；以及

根据所述分析结果对所述识别结果进行修正。

6.如权利要求5所述的方法，其特征在于，所述对第三语音输入指令进行分析具体包括：

识别所述第三语音输入指令的内容，并对所述内容进行语义分析，以获取所述第三语音输入指令的指令类型和语义分析结果；

如果所述第三语音输入指令为编辑指令，则根据所述语义分析结果获取所述识别结果中的待编辑元素以用于修正所述待编辑元素的至少一个候选元素；

如果所述第三语音输入指令为重复指令，则获取所述识别结果中与所述重复指令对应的元素。

7.如权利要求6所述的方法，其特征在于，如果所述第三语音输入指令为编辑指令，则所述根据分析结果对所述识别结果进行修正具体包括：

对所述至少一个候选元素进行拼音相似度分析，并根据拼音相似度确定用于修正所述待编辑元素的候选元素；以及

根据所述确定的候选元素替换所述待编辑元素，以对所述识别结果进行修正。

8.如权利要求6所述的方法，其特征在于，如果所述第三语音输入指令为重复指令，则所述根据分析结果对所述识别结果进行修正具体包括：

获取与所述重复指令对应的元素中与所述重复指令不同的元素，并根据所述重复指令对所述不同的元素进行替换，以对所述识别结果进行修正。

9.如权利要求1-8任一项所述的方法，其特征在于，还包括：

获取对所述识别结果的修正记录，其中，所述修正记录中包括至少一个历史修正操作和与所述至少一个历史修正操作分别对应的历史识别结果；

接收撤销指令，并根据所述撤销指令对应的历史修正操作，将所述识别结果恢复至与所述撤销指令对应的历史修正操作对应的历史识别结果。

10.一种语音输入装置，其特征在于，包括：

接收模块，用于接收用户的第一语音输入指令；

识别展示模块，用于对所述第一语音输入指令进行识别，并将识别结果展示；以及

获取模块，用于获取所述用户的后续行为；

修正模块，用于根据所述后续行为对所述识别结果进行修正。

11.如权利要求10所述的装置，其特征在于，所述后续行为为用户针对所述识别结果的选择输入动作，所述修正模块具体包括：

获取子模块，用于获取所述选择输入动作所对应的所述识别结果中的至少一个元素；以及

纠错子模块，用于对所述至少一个元素进行自动纠错；

展示子模块，用于展示对应的纠错结果。

12.如权利要求11所述的装置，其特征在于，所述纠错子模块具体用于：根据预设的改写模型获取与所述至少一个元素的上下文语义相匹配的候选元素，并根据所述候选元素对所述至少一个元素进行自动纠错。

13.如权利要求11所述的装置，其特征在于，所述用户针对所述识别结果的选择输入动作具体包括：

所述用户针对所述识别结果的手势选定动作；或者

14.如权利要求10所述的装置，其特征在于，所述后续行为为用户针对所述识别结果的第三语音输入指令，所述修正模块还包括：

分析子模块，用于对所述第三语音输入指令进行分析；以及

修正子模块，用于根据所述分析结果对所述识别结果进行修正。

15.如权利要求14所述的装置，其特征在于，所述分析子模块具体包括：

语义分析单元，用于识别所述第三语音输入指令的内容，并对所述内容进行语义分析，以获取所述第三语音输入指令的指令类型和语义分析结果；

获取单元，用于在所述第三语音输入指令为编辑指令时，根据所述语义分析结果获取所述识别结果中的待编辑元素以用于修正所述待编辑元素的至少一个候选元素，以及在所述第三语音输入指令为重复指令时，获取所述识别结果中与所述重复指令对应的元素。

16.如权利要求15所述的装置，其特征在于，

当所述第三语音输入指令为编辑指令时，所述修正子模块具体用于对所述至少一个候选元素进行拼音相似度分析，并根据拼音相似度确定用于修正所述待编辑元素的候选元素，以及根据所述确定的候选元素替换所述待编辑元素，以对所述识别结果进行修正。

17.如权利要求15所述的装置，其特征在于，当所述当第三语音输入指令为重复指令时，所述修正子模块具体还用于获取与所述重复指令对应的元素中与所述重复指令不同的元素，并根据所述重复指令对所述不同的元素进行替换，以对所述识别结果进行修正。

18.如权利要求10-17任一项所述的装置，其特征在于，还包括：

撤销模块，用于获取对所述识别结果的修正记录，其中，所述修正记录中包括至少一个历史修正操作和与所述至少一个历史修正操作分别对应的历史识别结果，并根据所述撤销指令对应的历史修正操作，将所述识别结果恢复至与所述撤销指令对应的历史修正操作对应的历史识别结果。