CN104391673A

CN104391673A - 语音交互方法和装置

Info

Publication number: CN104391673A
Application number: CN201410670573.5A
Authority: CN
Inventors: 李秀林
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-11-20
Filing date: 2014-11-20
Publication date: 2015-03-04

Abstract

本发明提出一种语音交互方法和装置，该语音交互方法包括接收输入语音，并对所述输入语音进行特征提取，得到所述输入语音的特征信息；根据所述特征信息进行语音特点识别以及语音识别，得到语音特点和语音识别结果，其中，所述语音特点包括：方言，口音或者普通话；根据所述语音识别结果和所述语音特点，获取与所述输入的语音对应的答案；根据所述语音特点和所述答案，生成输出语音，所述输出语音是与所述答案对应的且具有所述语音特点的语音。该方法能够提高语音交互效果，提升用户体验。

Description

语音交互方法和装置

技术领域

本发明涉及信息技术领域，尤其涉及一种语音交互方法和装置。

背景技术

在人类的发展历史上，语言对于文明的发展是至关重要的。语音，数千年来，一直作为人类进行信息交流的重要载体，也在不断变化和演进。在不同地区，语言和语音，也会因环境和历史的不同，而有明显差异。因此，语言不仅包括普通话，还包括方言和口音。

随着计算机技术的不断发展，人机交互也变得越来越重要，语音交互是一种人机交互形式。方言和口音的问题，一直以来，都是语音识别和合成领域的一个难点，很多研究者，是通过收集更多的数据，建立新的语音模型，或者优化原有的模型，以改善识别和合成的效果。用户在使用人机对话系统时，只能通过默认的方言/口音设置，或者手工修改方言/口音设置，来实现期望的结果，造成对话效果不够理想，用户体验较差。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种语音交互方法，该方法可以提高语音交互效果，提升用户体验。

本发明的另一个目的在于提出一种语音交互装置。

为达到上述目的，本发明第一方面实施例提出的语音交互方法，包括：接收输入语音，并对所述输入语音进行特征提取，得到所述输入语音的特征信息；根据所述特征信息进行语音特点识别以及语音识别，得到语音特点和语音识别结果，其中，所述语音特点包括：方言，口音或者普通话；根据所述语音识别结果和所述语音特点，获取与所述输入的语音对应的答案；根据所述语音特点和所述答案，生成输出语音，所述输出语音是与所述答案对应的且具有所述语音特点的语音。

本发明第一方面实施例提出的语音交互方法，通过对输入语音进行语音特点识别，可以选取与语音特点匹配的语音识别模型对输入语音进行语音识别，从而可以提高语音交互效果，提升用户体验。

为达到上述目的，本发明第二方面实施例提出的语音交互装置，包括：输入模块，用于接收输入语音，并对所述输入语音进行特征提取，得到所述输入语音的特征信息；识别模块，用于根据所述特征信息进行语音特点识别以及语音识别，得到语音特点和语音识别结果，其中，所述语音特点包括：方言，口音或者普通话；获取模块，用于根据所述语音识别结果和所述语音特点，获取与所述输入的语音对应的答案；输出模块，用于根据所述语音特点和所述答案，生成输出语音，所述输出语音是与所述答案对应的且具有所述语音特点的语音。

本发明第二方面实施例提出的语音交互装置，通过对输入语音进行语音特点识别，可以选取与语音特点匹配的语音识别模型对输入语音进行语音识别，从而可以提高语音交互效果，提升用户体验。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的语音交互方法的流程示意图；

图2是本发明实施例中获取语音特点的流程示意图；

图3是本发明实施例中获取语音特点和语音识别结果的流程示意图；

图4是本发明实施例中生成输出语音的流程示意图；

图5是本发明另一实施例提出的语音交互方法的流程示意图；

图6是本发明另一实施例提出的语音交互装置的结构示意图；

图7是本发明另一实施例提出的语音交互装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的语音交互方法的流程示意图，该方法包括：

S11：接收输入语音，并对所述输入语音进行特征提取，得到所述输入语音的特征信息。

输入语音是用户输入到语音交互系统中的语音，输入语音具体可以是问题，例如，输入语音是“今天天气怎么样”的语音。

语音交互系统可以通过麦克风等设备接收输入语音，接收到输入语音后，可以对输入语音进行降噪等预处理，预处理后的输入语音再进行特征提取，例如提取谱特征，基频特征，能量特征或者过零率等。

S12：根据所述特征信息进行语音特点识别以及语音识别，得到语音特点和语音识别结果，其中，所述语音特点包括：方言，口音或者普通话。

其中，可以先根据特征信息确定语音特点，再确定与语音特点对应的预先建立的语音模型，采用该语音模型进行语音识别，得到语音识别结果；或者，

根据特征信息与预先建立的多个语音模型进行语音识别，得到每个语音模型进行语音识别时的置信度数值，再根据该置信度数值从该多个语音模型中确定出最优的语音模型，再将该最优的语音模型对应的语音特点和语音识别结果确定为要得到的语音特点和语音识别结果。

参见图2，得到输入语音的语音特点的流程可以包括：

S21：对输入语音进行预处理。

预处理例如为降噪处理。

S22：对预处理后的输入语音进行特征提取，得到特征信息。

特征提取例如为谱特征提取，基频特征提取，能量特征提取或者过零率提取等。

S23：根据特征提取后得到的特征信息以及预先建立的判别模型，进行语音特点识别。

其中，可以采用支持向量机(support vector machine，SVM)或者隐马尔可夫模型(Hidden Markov Model，HMM)等建模技术建立判别模型，判别模型可以包括普通话，方言或者口音的模型。

根据特征信息与判别模型的比对，可以识别出语音特点是普通话，方言或者口音。

本实施例主要针对方言或口音的判别，因此在图2中语音特点判别用方言/口音判别表示。

可选的，在根据判别模型得到语音特点后，还可以根据相关信息对该语音特点进行修正。参见图2，该方法还可以包括：

S24：获取近期数据，并根据近期数据对方言/口音判别结果进行累积判决，得到判别结果。

近期数据是指距离当前时间小于预设值的时间段内的数据。

此外，数据例如还可以结合用户的位置信息，根据先验模型中相关信息，例如统计得到的该位置所属的地区中，各方言或口音的概率，结合方言/口音的判别结果，得到最终的识别结果，从而得到更为准确的估计。

在得到语音特点后，可以从预先建立的多个模型中确定出对应的语音识别模型，再采用该对应的语音识别模型进行语音识别，例如，得到语音特点是四川话，则可以采用四川话对应的语音识别模型进行对输入语音进行语音识别。

上述描述了先确定语音特点再确定语音识别模型，可选的，语音特点和语音识别模型可以同步确定。

参见图3，根据输入语音得到语音特点和语音识别结果的流程可以包括：

S31：对输入语音进行预处理。

预处理例如为降噪处理。

S32：对预处理后的输入语音进行特征提取，得到特征信息。

S33：根据特征信息以及预先建立的多个语音识别模型，进行语音识别，得到每个模型对应的置信度数值。

多个语音识别模型可以是预先建立的所有模型，或者，从预先建立的所有模型中选择的多个模型。

在图3中，多个语音识别模型分别用识别模型_1，识别模型_2，…，识别模型_N表示。

例如，多个语音识别模型分别是四川话对应的语音识别模型，东北话对应的语音识别模型和广东话对应的语音识别模型。

在每个语音识别模型对输入语音进行语音识别时，可以得到每个模型对应的置信度数值。

S34：根据置信度数值得到最优的语音识别模型，并获取最优的语音识别模型对应的语音特点和语音识别结果。

例如，四川话对应的语音识别模型得到的置信度数值>东北话对应的语音识别模型的置信度数值>广东话对应的语音识别模型，由于四川话对应的语音识别模型得到的置信度数值最大，则可以确定最优的语音识别模型是四川话对应的语音识别模型。

例如，最优的语音识别模型是四川话对应的语音识别模型，则语音特点是四川话，语音识别结果是采用四川话对应的语音识别模型对输入语音进行语音识别后得到的语音识别结果。

另外，可以理解的是，不论是确定语音特点再确定语音识别模型，还是同步确定语音特点和语音识别模型，如果找不到与特征信息一致的语音特点和语音识别模型，可以根据相似度，找到最相似的语音识别模型，采用该最相似的语音识别模型进行语音识别。

S13：根据所述语音识别结果和所述语音特点，获取与所述输入的语音对应的答案。

在得到语音识别结果后，用语义理解技术，判断用户的需求，在数据库、搜索引擎或其他知识库、信息数据中，查找相关的结果作为答案。

优选的，优先在数据库中获取具有所述语音特点的文本答案。

例如，如果用户的语音是带有方言或者口音的，优先在数据中查找具有其方言或口音特点的答案。

另外，如果没有相应的信息，可以将语音识别结果，进行一定的文本转换，使之更符合书面语言习惯，并进行查找。

S14：根据所述语音特点和所述答案，生成输出语音，所述输出语音是与所述答案对应的且具有所述语音特点的语音。

可选的，所述根据所述语音特点和所述答案，生成输出语音，包括：

如果所述答案包括具有所述语音特点的文本答案，设置语音合成参数，将具有所述语音特点的文本答案转换为所述输出语音；或者，

如果所述答案包括不具有所述语音特点的文本答案，则根据所述语音特点，设置语音合成参数，根据所述语音合成参数和所述不具有所述语音特点的文本答案，生成所述输出语音；或者，

如果所述答案包括不具有所述语音特点的文本答案，将文本答案转换成具有所述语音特点的文本答案，根据所述语音特点，设置语音合成参数，以及，根据所述语音合成参数和转换后的文本答案，生成所述输出语音。

例如，当输入语音是四川语音时，在数据库中找到具有四川话特点的答案后，可以将该具有四川话特点的文本答案转换为语音。或者，在数据库中找到普通话的文本答案后，可以根据四川话的语音特点将普通话的答案转换为具有四川话特点的语音。或者，在据库中找到普通话的文本答案后，先将文本答案转换成具有四川话特点的文本答案，然后再转换成具有四川话特点的语音。

在得到输出语音后，可以输出该输出语音，和/或，保存该输出语音。

可选的，所述根据所述语音特点，设置语音合成参数，包括：

设置与所述语音特点匹配的语音合成参数；或者，

设置与所述语音特点相似度最高的语音合成参数。

参见图4，根据答案生成输出语音的流程可以包括：

S41：判断是否有与识别出的语音特点对应的方言，若是，执行S45，否则执行S42。

S42：判断是否有与识别出的语音特点对应的口音，若是，执行S45，否则，执行S43。

S43：判断是否可以通过转换实现近似口音，若是，执行S45，否则，执行S44。

S44：重置参数。

S45：设置合成参数。

S46：语音合成。

例如，如果查找到的信息，是带有用户所对应的方言或者口音，则结合语音合成模块，看是否有相同的合成设置，如果没有则设置为最为接近的合成设置。如果查找到的信息为常规书面语言习惯文本，同时合成模块可支持对应的方言，或者支持近似的口音，或者通过简单的声调等转换规则实现近似口音，则先将答案文本进行转换，符合语音合成中所对应的语言习惯后，作为合成模块的输入信息。

本实施例通过对输入语音进行语音特点识别，可以选取与语音特点匹配的语音识别模型对输入语音进行语音识别，从而可以提高语音交互效果，提升用户体验。

图5是本发明另一实施例提出的语音交互方法的流程示意图，该方法包括：

S51：对输入语音进行特征提取。

例如，先对输入语音进行预处理，再对预处理后的输入语音进行特征提取。

预处理例如为降噪处理。

S52：根据特征提取得到的特征信息，进行方言/口音判别。

可以根据预先建立的判别模型和该特征信息，进行方言/口音判别。

具体的判别方式可以参见图2，在此不再赘述。

S53：语音识别。

在得到语音特点后，可以采用与语音特点相匹配的语音识别模型进行语音识别，例如，当输入语音具有四川话特点时，采用四川话特点的语音识别模型进行语音识别。

可以理解的是，当不存在与识别出的语音特点一致的语音识别模型时，可以将与语音特点最相似的语音识别模型进行语音识别。

S54：语义理解。

例如，在语音识别得到文本内容后，对该文本内容进行语义理解，得到用户输入语音的意图。

S55：答案生成。

在语义理解后，可以在相应的方言或口音的数据库，和/或，普通话数据库中进行查找，得到对应的答案。

S56：合成方言/口音设置。

例如，当输入语音具有四川话特点时，可以设置具有四川话特点的参数，使得答案对应的语音具有四川话特点。

S57：语音生成，得到输出语音，之后可以输出该输出语音。

在设置合成参数后，可以根据该参数将答案转换为语音。

本实施例的可能应用场景，举例如下：

用户以普通话输入语音，对应“今天天气怎么样？”，经过方言/口音判别后，设定识别系统采用普通话识别模型，得到正确识别。然后，通过搜索引擎或者天气服务提供商的数据，得到当天的天气预报信息。最后，通过设置语音合成为普通话，将天气预报信息播放给用户，从而完成一次对话。

用户以带口音的北方语音，输入“今天天气咋样，知道不？”，通过方言/口音判别后，设定识别系统采用带东北口音的识别模型，得到正确识别结果。然后，通过语义理解模块，利用搜索引擎或者天气服务提供商的数据，得到当天的天气预报信息。最后，将获得的信息进行适当的转化，在文本上增加用户所用语言的特色后，通过设置语音合成为带东北口音的普通话，将天气预报信息用东北口音播放给用户，从而完成一次对话。

本实施例对传统的人机交互界面中的核心环节进行了改进，通过引入方言/口音的判别，可以使系统更加智能、亲切，从而改善用户体验，提升用户满意度。本实施例通过方言/口音判别，可以采用与用户的输入语音更为为匹配的识别模型，提升识别效果，更好地理解用户需求；通过语义理解，可以在理解用户带方言/口音的口语化内容基础上，生成适合用户接受的应答内容；通过语音合成，可以输出最适合用户的语音。本实施例将人机交互中的方言/口音信息充分利用起来，通过对方言/口音的判别，提升机器“听懂”语音和“会说”特色语音的能力，将方言/口音这一不利因素，转化为有利因素。同时，可以进一步减少对用户使用人机语音交互时的限制，大大促进语音技术更加广泛地应用。

图6是本发明另一实施例提出的语音交互装置的结构示意图，该装置60包括输入模块61、识别模块62、获取模块63和输出模块64。

输入模块61用于接收输入语音，并对所述输入语音进行特征提取，得到所述输入语音的特征信息；

识别模块62用于根据所述特征信息进行语音特点识别以及语音识别，得到语音特点和语音识别结果，其中，所述语音特点包括：方言，口音或者普通话；

可选的，所述识别模块62具体用于：

根据所述特征信息进行语音特点识别，得到语音特点；

确定与所述语音特点对应的语音识别模型，并采用与所述语音特点对应的语音识别模型对所述输入语音进行识别，得到语音识别结果。

可选的，所述识别模块62进一步具体用于：

根据所述特征信息及预先建立的判别模型，进行语音特点识别，得到语音特点；或者，

根据所述特征信息及预先建立的判别模型，进行语音特点识别，得到初步的语音特点，根据所述初步的语音特点和预先获取的数据，得到最终的语音特点，其中，所述预先获取的数据是距离当前时间小于预设值的时间段内收集的数据。

可选的，在根据判别模型得到语音特点后，还可以根据相关信息对该语音特点进行修正。

可选的，所述识别模块62具体用于：

采用预设设置的至少两个语音识别模型对所述输入语音进行识别，得到每个语音识别模型对应的语音识别结果以及置信度数值，其中，不同的语音识别模型具有不同的语音特点；

将置信度数值最大的语音识别模型对应的语音特点和语音识别结果，确定为所述要得到的语音特点和语义识别结果。

获取模块63用于根据所述语音识别结果和所述语音特点，获取与所述输入的语音对应的答案；

可选的，所述获取模块63具体用于：

优先在具有所述语音特点的数据库中，获取具有所述语音特点的文本答案。

例如，如果用户的语音是带有方言或者口音的，优先在其方言或者口音相对应的数据中查找。

输出模块64用于根据所述语音特点和所述答案，生成输出语音，所述输出语音是与所述答案对应的且具有所述语音特点的语音。

可选的，所述输出模块64具体用于：

可选的，所述输出模块64进一步具体用于：

设置与所述语音特点匹配的语音合成参数；或者，

设置与所述语音特点相似度最高的语音合成参数。

另一实施例中，参见图7，该装置60还包括：

处理模块65，用于保存所述输出语音；或者，输出所述输出语音。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音交互方法，其特征在于，包括：

接收输入语音，并对所述输入语音进行特征提取，得到所述输入语音的特征信息；

根据所述特征信息进行语音特点识别以及语音识别，得到语音特点和语音识别结果，其中，所述语音特点包括：方言，口音或者普通话；

根据所述语音识别结果和所述语音特点，获取与所述输入的语音对应的答案；

根据所述语音特点和所述答案，生成输出语音，所述输出语音是与所述答案对应的且具有所述语音特点的语音。

2.根据权利要求1所述的方法，其特征在于，所述根据所述特征信息进行语音特点识别以及语音识别，得到语音特点和语音识别结果，包括：

根据所述特征信息进行语音特点识别，得到语音特点；

3.根据权利要求2所述的方法，其特征在于，所述根据所述特征信息进行语音特点识别，得到语音特点，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述特征信息进行语音特点识别以及语音识别，得到语音特点和语音识别结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述语音识别结果和所述语音特点，获取与所述输入的语音对应的答案，包括：

优先在数据库中，获取具有所述语音特点的文本答案。

6.根据权利要求5所述的方法，其特征在于，所述根据所述语音特点和所述答案，生成输出语音，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述语音特点，设置语音合成参数，包括：

设置与所述语音特点匹配的语音合成参数；或者，

设置与所述语音特点相似度最高的语音合成参数。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述生成输出语音之后，所述方法还包括：

保存所述输出语音；或者，

输出所述输出语音。

9.一种语音交互装置，其特征在于，包括：

输入模块，用于接收输入语音，并对所述输入语音进行特征提取，得到所述输入语音的特征信息；

识别模块，用于根据所述特征信息进行语音特点识别以及语音识别，得到语音特点和语音识别结果，其中，所述语音特点包括：方言，口音或者普通话；

获取模块，用于根据所述语音识别结果和所述语音特点，获取与所述输入的语音对应的答案；

输出模块，用于根据所述语音特点和所述答案，生成输出语音，所述输出语音是与所述答案对应的且具有所述语音特点的语音。

10.根据权利要求9所述的装置，其特征在于，所述识别模块具体用于：

根据所述特征信息进行语音特点识别，得到语音特点；

11.根据权利要求10所述的装置，其特征在于，所述识别模块进一步具体用于：

12.根据权利要求9所述的装置，其特征在于，所述识别模块具体用于：

13.根据权利要求9所述的装置，其特征在于，所述获取模块具体用于：

优先在数据库中，获取具有所述语音特点的文本答案。

14.根据权利要求9所述的装置，其特征在于，所述输出模块具体用于：

15.根据权利要求9-14任一项所述的装置，其特征在于，还包括：

处理模块，用于保存所述输出语音；或者，输出所述输出语音。