CN105139849B

CN105139849B - 语音识别方法和装置

Info

Publication number: CN105139849B
Application number: CN201510435887.1A
Authority: CN
Inventors: 谢延
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-07-22
Filing date: 2015-07-22
Publication date: 2017-05-10
Anticipated expiration: 2035-07-22
Also published as: CN105139849A; WO2017012242A1

Abstract

本发明公开了一种语音识别方法和装置，其中，方法包括：S1、接收用户输入的语音信息，并实时对语音信息进行识别；S2、当语音信息产生静音时，判断静音的类型；S3、如果静音为短静音，则获得第一识别结果，并显示第一识别结果，同时继续执行步骤S1；以及S4、如果静音为长静音，则获得第二识别结果，并显示第二识别结果。本发明实施例的语音识别方法和装置，通过实时对用户输入的语音信息进行识别，当语音信息产生静音时，判断静音的类型，如果静音为短静音，则获得及显示第一识别结果，同时继续接收用户输入的语音信息，如果静音为长静音，则获得及显示第二识别结果，能够降低用户等待时间，提升用户使用体验。

Description

语音识别方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法和装置。

背景技术

随着科技的不断进步，语音识别技术的应用也越来越广泛，例如工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等领域，都会应用到语音识别技术。目前，语音识别系统主要通过接收用户输入的语音，对语音进行识别，从而获得语音识别结果。其中，语音搜索类产品不仅可以对用户输入的语音进行识别，还可根据语音识别结果向搜索服务器发送搜索请求，进一步获取搜索结果。

但是，有时候用户输入语音时，内容可能很多，则需要在用户输入语音结束后，等待很长时间才能获取到识别结果。如果是语音搜索类产品，则需要先等待获得识别结果的过程，再等待获取搜索结果的过程，等待时间长，导致用户体验降低。另外，在噪声环境中，由于噪声干扰，有可能出现检测不到语音结束点或者识别结果不准确的情况。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种语音识别方法，该方法能够降低用户等待时间，提升用户使用体验。

本发明的第二个目的在于提出一种语音识别装置。

为了实现上述目的，本发明第一方面实施例提出了一种语音识别方法，包括以下步骤：S1、接收用户输入的语音信息，并实时对所述语音信息进行识别；S2、当所述语音信息产生静音时，判断所述静音的类型；S3、如果所述静音为短静音，则获得第一识别结果，并显示所述第一识别结果，同时继续执行步骤S1；以及S4、如果所述静音为长静音，则获得第二识别结果，并显示所述第二识别结果。

本发明实施例的语音识别方法，通过接收用户输入的语音信息，并实时对语音信息进行识别，当语音信息产生静音时，判断静音的类型，如果静音为短静音，则获得第一识别结果，并显示第一识别结果，同时继续接收用户输入的语音信息，如果静音为长静音，则获得第二识别结果，并显示第二识别结果，能够有效地降低用户等待时间，提升用户使用体验。

本发明第二方面实施例提出了一种语音识别装置，包括：接收模块，用于接收用户输入的语音信息，并实时对所述语音信息进行识别；判断模块，用于当所述语音信息产生静音时，判断所述静音的类型；第一识别模块，用于当所述静音为短静音时，获得第一识别结果，并显示所述第一识别结果，同时所述接收模块继续接收搜索用户输入的语音信息；第二识别模块，用于当所述静音为长静音时，获得第二识别结果，并显示所述第二识别结果。

本发明实施例的语音识别装置，通过接收用户输入的语音信息，并实时对语音信息进行识别，当语音信息产生静音时，判断静音的类型，如果静音为短静音，则获得第一识别结果，并显示第一识别结果，同时继续接收用户输入的语音信息，如果静音为长静音，则获得第二识别结果，并显示第二识别结果，能够有效地降低用户等待时间，提升用户使用体验。

附图说明

图1是根据本发明一个实施例的语音识别方法的流程图。

图2是根据本发明一个具体实施例的语音识别方法的流程图。

图3是根据本发明一个具体实施例的初始化界面效果示意图。

图4是根据本发明一个具体实施例的提示界面效果示意图。

图5是根据本发明一个具体实施例的接收用户输入的语音信息界面效果示意图。

图6是根据本发明一个具体实施例的显示识别结果界面效果示意图一。

图7是根据本发明一个具体实施例的显示识别结果界面效果示意图二。

图8是根据本发明一个具体实施例的显示识别结果界面效果示意图三。

图9是根据本发明一个具体实施例的根据识别结果进行搜索的界面效果示意图。

图10是根据本发明一个具体实施例的显示搜索结果的界面效果示意图。

图11是根据本发明一个具体实施例的根据识别结果进行搜索的界面效果示意图一。

图12是根据本发明一个具体实施例的根据识别结果进行搜索的界面效果示意图二。

图13是根据本发明一个具体实施例的根据识别结果进行搜索的界面效果示意图三。

图14是根据本发明一个具体实施例的根据识别结果进行搜索的界面效果示意图四。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的语音识别方法和装置。

图1是根据本发明一个实施例的语音识别方法的流程图。

如图1所示，语音识别方法可包括：

S1、接收用户输入的语音信息，并实时对语音信息进行识别。

其中，语音信息可以为词组，也可以为短句。

S2、当语音信息产生静音时，判断静音的类型。

在本发明的实施例中，为解决在噪声环境中，静音检测不准确的问题，可根据尾点检测算法检测出静音，并判断静音的类型。其中，静音的类型可包括长静音和短静音。短静音为用户输入语音信息的短暂停顿，而长静音则为用户输入语音信息的结束点(尾点)。

具体地，可先在不同环境下采集语音样本，并训练尾点检测模型。然后在对语音信息进行识别时，可通过尾点检测模型判断静音的类型，在噪声环境下能够准确地判断出静音的类型，提高了抗噪性和准确率。相对于本地的尾点检测算法，服务器端的尾点检测算法具有更强大的计算能力，可不断地对尾点检测模型进行优化。在本发明一个实施例中，在对语音信息识别的过程中，可先通过本地的尾点检测算法进行检测，如果无法检测出语音信息的结束点，则再通过服务器端的尾点检测算法进行检测。

S3、如果静音为短静音，则获得第一识别结果，并显示第一识别结果，同时继续执行步骤S1。

具体地，在用户输入语音信息开始时，可实时地对语音信息进行识别，当出现静音时，如果当前出现的静音为短静音，即用户输入语音信息的短暂停顿，则可获得第一识别结果，然后将第一识别结果显示在客户端的屏幕上，反馈给用户。其中，第一识别结果可以为输入语音信息开始至短静音之间的内容，也可以是两个短静音之间的内容。与此同时，用户还在继续输入语音信息。也就是说，识别过程与接收语音信息过程同步进行，即两个单独且互不干扰的线程并行处理，减少了用户等待的时间。用户在输入语音信息的同时，已经在客户端的屏幕上显示出了一部分的识别结果，由于短静音时间很短，因此在客户端的屏幕上显示的效果相当于用户一边输入语音信息，同时动态地连续不断地显示出识别结果，解决了传统的语音识别中，等待用户输入语音信息结束后，再对语音信息进行整体识别所带来的等待时间过长的问题，提升了用户使用体验。

此外，在获得第一识别结果之后，还可将第一识别结果作为关键词进行搜索，并获取第一搜索结果。例如：识别系统为语音搜索系统时，可根据实时识别出的识别结果进行搜索。

S4、如果静音为长静音，则获得第二识别结果，并显示第二识别结果。

具体地，如果当前出现的静音为长静音，即用户输入语音信息结束，则可获得第二识别结果，然后将第二识别结果显示在客户端的屏幕上，反馈给用户。其中，第二识别结果可以是最后一个短静音与长静音之间的内容，如果用户输入的语音信息没有短静音，则第二识别结果可以为输入语音信息开始与长静音之间的内容。举例来说，实时地对用户输入的语音信息进行识别，当客户端的屏幕显示第一识别结果时，同时还在接收用户输入的语音信息，并实时地对语音信息识别，从而达到减少用户等待时间的目的。

另外，还可将第一识别结果与第二识别结果进行对比。若第一识别结果与第二识别结果一致，则可将第一搜索结果作为最终搜索结果。具体地，第一识别结果为语音信息产生短静音时对应的识别结果，第二识别结果为语音信息产生长静音时对应的识别结果。而获得第二识别结果通常需要一个长静音，而在判断当前静音是否为长静音时，已经将其作为短静音并进行了语音识别，获得了第一识别结果，并获取了对应的第一搜索结果。当确定该静音为长静音后，如果第一识别结果和第二识别结果一致，则可直接将第一搜索结果作为最终的搜索结果，而无需将第二识别结果作为关键词再次进行搜索，从而节省了用户等待的时间。

若第一识别结果与第二识别结果不一致，则可将第一识别结果与第二识别结果进行拼接，生成最终的识别结果，并将识别结果作为关键词进行搜索，以获取最终的搜索结果。

在确定最终的搜索结果后，可在客户端的屏幕显示搜索结果，以反馈给用户。

图2是根据本发明一个具体实施例的语音识别方法的流程图，本实施例以搜索APP为例进行详细描述。

如图2所示，语音识别方法可包括：

S201，开启搜索APP，并进行初始化。

如图3所示，在开启终端中的搜索APP时，可对运行环境进行初始化。

S202，显示提示界面。

在初始化结束后，可显示如图4所示的提示界面。

S203，接收用户输入的语音信息，并实时对语音信息进行识别。

当检测到有用户输入语音信息时，如图5所示，可在界面中显示如“倾听中”字样，表示正在接收用户输入的语音信息，与此同时正在对输入的语音信息进行识别。

S204，当产生短静音时，获得并显示第一识别结果。

例如，用户输入的语音信息为“百度语音提供技术”，而输入到“百度”时，检测到一个短静音，则可获得并显示对应的识别结果“百度”，如图6所示。与此同时，还在接收用户输入的语音信息，且实时地对语音信息进行识别。依此类推，当用户输入到“语音”时，又检测到一个短静音，此时可获得并显示对应的识别结果“语音”，如图7所示。

此外，在识别出“百度”的同时，还可以“百度”为关键词，向搜索服务器发送搜索请求，获得“百度”对应的搜索结果。以此类推，在识别出“语音”的同时，还可以“百度语音”为关键词，向搜索服务器发送搜索请求，获得“百度语音”对应的搜索结果。

此处检测短静音和长静音使用的方法为尾点检测算法，与上一实施例中的描述一致，故此处不赘述。

S205，当产生长静音时，显示第二识别结果。

例如：当用户输入语音信息“百度语音提供技术”结束时，可检测到产生长静音，则可获得并显示对应的识别结果“提供技术”。由于“百度”、“语音”、“提供技术”是先后显示的，且时间间隔很短，则其效果相当于用户一边输入语音信息，一边连续不断地在客户端的屏幕上显示出识别结果，最终显示出“百度语音提供技术”，如图8所示。

S206，将第一识别结果和第二识别结果进行拼接，以生成搜索词，并进行搜索。

在识别结束后，可将每段识别结果进行拼接，生成关键词“百度语音提供技术”，并向搜索服务器发送搜索请求。

S207，获得搜索词对应的搜索结果，并显示搜索结果。

具体地，如图9所示，在根据关键词“百度语音提供技术”进行搜索时，界面中的状态可显示为“处理中”。然后，在通过搜索服务器获得“百度语音提供技术”对应的搜索结果后，如图10所示，显示该搜索结果。

本发明实施例的语音识别方法，通过尾点检测算法对用户输入的语音信息进行分段，能够准确地判断出用户输入的语音信息的暂停点或结束点，提升了语音识别的抗噪性和准确性；通过实时地对语音信息进行识别，可在用户输入语音信息的同时即可显示出已识别的部分，减少了用户等待的时间；通过将识别过程和搜索过程并行处理，降低了整个语音识别搜索系统的响应时间，进而提高了用户使用体验。

为实现上述目的，本发明还提出一种语音识别装置。

图11是根据本发明一个实施例的语音识别装置的结构示意图一。

如图11所示，该语音识别装置可包括：接收模块110、判断模块120、第一识别模块130和第二识别模块140。

其中，接收模块110用于接收用户输入的语音信息，并实时对语音信息进行识别。

其中，语音信息可以为词组，也可以为短句。

判断模块120用于当语音信息产生静音时，判断静音的类型。

在本发明的实施例中，为解决在噪声环境中，静音检测不准确的问题，判断模块120可根据尾点检测算法检测出静音，并判断静音的类型。其中，静音的类型可包括长静音和短静音。短静音为用户输入语音信息的短暂停顿，而长静音则为用户输入语音信息的结束点(尾点)。

第一识别模块130用于当静音为短静音时，获得第一识别结果，并显示第一识别结果，同时接收模块继续接收搜索用户输入的语音信息。

具体地，在用户输入语音信息开始时，可实时地对语音信息进行识别，当出现静音时，如果当前出现的静音为短静音，即用户输入语音信息的短暂停顿，则第一识别模块130可获得第一识别结果，然后将第一识别结果显示在客户端的屏幕上，反馈给用户。其中，第一识别结果可以为输入语音信息开始至短静音之间的内容，也可以是两个短静音之间的内容。与此同时，用户还在继续输入语音信息。也就是说，识别过程与接收语音信息过程同步进行，即两个单独且互不干扰的线程并行处理，减少了用户等待的时间。用户在输入语音信息的同时，已经在客户端的屏幕上显示出了一部分的识别结果，由于短静音时间很短，因此在客户端的屏幕上显示的效果相当于用户一边输入语音信息，同时动态地连续不断地显示出识别结果，解决了传统的语音识别中，等待用户输入语音信息结束后，再对语音信息进行整体识别所带来的等待时间过长的问题，提升了用户使用体验。。

第二识别模块140用于当静音为长静音时，获得第二识别结果，并显示第二识别结果。

具体地，如果当前出现的静音为长静音，即用户输入语音信息结束，则第二识别模块140可获得第二识别结果，然后将第二识别结果显示在客户端的屏幕上，反馈给用户。其中，第二识别结果可以是最后一个短静音与长静音之间的内容，如果用户输入的语音信息没有短静音，则第二识别结果可以为输入语音信息开始与长静音之间的内容。举例来说，实时地对用户输入的语音信息进行识别，当客户端的屏幕显示第一识别结果时，同时还在接收用户输入的语音信息，并实时地对语音信息识别，从而达到减少用户等待时间的目的。

另外，如图12所示，本发明实施例的语音识别装置还可包括搜索模块150。

搜索模块150用于在第一识别模块130获得第一识别结果之后，将第一识别结果作为关键词进行搜索，并获取第一搜索结果。例如：识别系统为语音搜索系统时，可根据实时识别出的识别结果进行搜索。

此外，如图13所示，本发明实施例的语音识别装置还可包括处理模块160。

处理模块160用于将第一识别结果与第二识别结果进行对比，若第一识别结果与第二识别结果一致，则将第一搜索结果作为最终的搜索结果，以及若第一识别结果与第二识别结果不一致，则将第一识别结果与第二识别结果进行拼接，生成最终的识别结果，并将识别结果作为关键词进行搜索，以获取最终的搜索结果。

具体地，第一识别结果为语音信息产生短静音时对应的识别结果，第二识别结果为语音信息产生长静音时对应的识别结果。而获得第二识别结果通常需要一个长静音，而在判断当前静音是否为长静音时，已经将其作为短静音并进行了语音识别，获得了第一识别结果，并获取了对应的第一搜索结果。当确定该静音为长静音后，如果第一识别结果和第二识别结果一致，则可直接将第一搜索结果作为最终的搜索结果，而无需将第二识别结果作为关键词再次进行搜索，从而节省了用户等待的时间。

进一步地，如图14所示，本发明实施例的语音识别装置还可包括显示模块170。

显示模块170用于在获取最终的搜索结果之后，显示搜索结果。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音识别方法，其特征在于，包括以下步骤：

S1、接收用户输入的语音信息，并实时对所述语音信息进行识别；

S2、当所述语音信息产生静音时，判断所述静音的类型；

S3、如果所述静音为短静音，则获得第一识别结果，并显示所述第一识别结果，同时继续执行步骤S1；以及

S4、如果所述静音为长静音，则获得第二识别结果，并显示所述第二识别结果；

在获得所述第一识别结果之后，还包括：

将所述第一识别结果作为关键词进行搜索，并获取第一搜索结果。

2.如权利要求1所述的方法，其特征在于，还包括：

将所述第一识别结果与所述第二识别结果进行对比；

若所述第一识别结果与所述第二识别结果一致，则将所述第一搜索结果作为最终的搜索结果；

若所述第一识别结果与所述第二识别结果不一致，则将所述第一识别结果与所述第二识别结果进行拼接，生成最终的识别结果，并将所述识别结果作为所述关键词进行搜索，以获取最终的所述搜索结果。

3.如权利要求2所述的方法，其特征在于，在获取最终的所述搜索结果之后，还包括：

显示所述搜索结果。

4.如权利要求1所述的方法，其特征在于，所述判断所述静音的类型，包括：

根据尾点检测算法判断所述静音的类型。

5.一种语音识别装置，其特征在于，包括：

接收模块，用于接收用户输入的语音信息，并实时对所述语音信息进行识别；

判断模块，用于当所述语音信息产生静音时，判断所述静音的类型；

第一识别模块，用于当所述静音为短静音时，获得第一识别结果，并显示所述第一识别结果，同时所述接收模块继续接收搜索用户输入的语音信息；

第二识别模块，用于当所述静音为长静音时，获得第二识别结果，并显示所述第二识别结果；

还包括：

搜索模块，用于在获得所述第一识别结果之后，将所述第一识别结果作为关键词进行搜索，并获取第一搜索结果。

6.如权利要求5所述的装置，其特征在于，还包括：

处理模块，用于将所述第一识别结果与所述第二识别结果进行对比，若所述第一识别结果与所述第二识别结果一致，则将所述第一搜索结果作为最终的搜索结果，以及若所述第一识别结果与所述第二识别结果不一致，则将所述第一识别结果与所述第二识别结果进行拼接，生成最终的识别结果，并将所述识别结果作为所述关键词进行搜索，以获取最终的所述搜索结果。

7.如权利要求6所述的装置，其特征在于，还包括：

显示模块，用于在获取最终的所述搜索结果之后，显示所述搜索结果。

8.如权利要求5所述的装置，其特征在于，所述判断判断模块，具体用于：

根据尾点检测算法判断所述静音的类型。