CN111833865A

CN111833865A - 一种人机交互方法与终端、计算机可读存储介质

Info

Publication number: CN111833865A
Application number: CN202010016725.5A
Authority: CN
Inventors: 孙建伟; 赵帅江
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2020-10-27

Abstract

本发明提供一种人机交互方法与终端、计算机可读存储介质。该方法包括：采集当前的语音数据，然后，提取所述语音数据中的语音特征，从而，利用训练好的多语种语音分类器处理所述语音特征，得到分类识别结果，所述多语种语音分类器用于判断语音数据中是否包含多语种指定话术中的任意一种所述指定话术，进而，当所述分类识别结果指示所述语音数据中包含所述指定话术时，输出针对所述指定话术的响应话术。本发明所提供的技术方案，能够解决在多语种语音交互场景中维护资源量较大且语音识别效率较低的问题。

Description

一种人机交互方法与终端、计算机可读存储介质

技术领域

本发明涉及计算机技术，尤其涉及一种人机交互方法与终端、计算机可读存储介质。

背景技术

随着计算机技术的发展，用户可以通过语音来控制终端执行动作或实现某些功能。示例性的，在一种语音交互场景中，可以采集用户的语音数据，然后，利用声学模型处理语音数据，以识别出该语音数据是否为指定的语音指令，进而，当其为指定的语音指令时，针对该语音指令进行响应。

现有技术中，用于识别语音指令的声学模型一般为单语种模型。单语种模型可用于实现对单一语种的语音识别，针对其他语种的识别准确率较低，甚至无法识别。而且，受到现有的声学模型结构的限制，很难实对多语种数据进行统一的建模处理，也难以保障多语种声学模型的识别准确率以及鲁棒性。

基于此，在多语种环境中，需要为每种语种分别建立不同的(单语种)声学模型，这就需要分别维护各语种资源，也对语音识别效率产生不利影响，影响语音交互效果。

发明内容

本发明提供一种人机交互方法与终端、计算机可读存储介质，用以解决在多语种语音交互场景中维护资源量较大且语音识别效率较低的问题。

第一方面，本发明提供一种人机交互方法，包括：

采集当前的语音数据；

提取所述语音数据中的语音特征；

利用训练好的多语种语音分类器处理所述语音特征，得到分类识别结果，所述多语种语音分类器用于判断语音数据中是否包含多语种指定话术中的任意一种所述指定话术；

当所述分类识别结果指示所述语音数据中包含所述指定话术时，输出针对所述指定话术的响应话术。

第二方面，本发明提供一种终端，包括：

采集模块，用于采集当前的语音数据；

提取模块，用于提取所述语音数据中的语音特征；

处理模块，用于利用训练好的多语种语音分类器处理所述语音特征，得到分类识别结果，所述多语种语音分类器用于判断语音数据中是否包含多语种指定话术中的任意一种所述指定话术；

输出模块，用于当所述分类识别结果指示所述语音数据中包含所述指定话术时，输出针对所述指定话术的响应话术。

第三方面，本发明提供一种终端，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面任一项所述的方法。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现如第一方面所述的方法。

本发明提供的一种人机交互方法与终端、计算机可读存储介质，本方案中，终端可以采集当前的语音数据，并提取其中的语音特征，然后，利用多语种语音分类器来处理这些语音特征，以确定这些语音数据中是否包含有指定话术，从而，当其中包含指定话术时，输出响应话术以对指定话术进行响应。如此，本发明实施例提供的技术方案中，分类器能够实现对多语种指定话术进行分类处理，在保证了分类效果的基础上，还能够将复杂的语音识别问题转化为简单的分类问题，从而，无需再为各语种分别训练并维护声学模型，节省资源维护量；并且，相较于多语种声学模型的分别处理，分类器的处理效率更高，有利于提高语音识别效率，进而，也有利于提高响应话术的应答准确率，降低无效语音交互对用户的干扰，提高语音交互效果。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本发明实施例所提供的一种人机交互方法的流程示意图；

图2为本发明实施例所提供的一种人机交互示意图；

图3为本发明实施例所提供的另一种人机交互示意图；

图4为本发明实施例所提供的另一种人机交互示意图；

图5为本发明实施例所提供的另一种人机交互示意图；

图6为本发明实施例所提供的一种多语种语音分类器的训练过程的流程示意图；

图7为本发明实施例所提供的一种终端的功能方块图；

图8为本发明实施例所提供的一种终端的实体结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本发明实施例所提供的人机交互方法，可以应用于任意终端设备中。其中，本发明实施例所涉及到的终端设备可以是无线终端也可以是有线终端。无线终端可以是指向用户提供语音和/或其他业务数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(Radio Access Network，简称RAN)与一个或多个核心网设备进行通信，无线终端可以是移动终端，如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语言和/或数据。再例如，无线终端还可以是个人通信业务(Personal Communication Service，简称PCS)电话、无绳电话、会话发起协议(Session Initiation Protocol，简称SIP)话机、无线本地环路(Wireless LocalLoop，简称WLL)站、个人数字助理(Personal Digital Assistant，简称PDA)等设备。无线终端也可以称为系统、订户单元(Subscriber Unit)、订户站(Subscriber Station)，移动站(Mobile Station)、移动台(Mobile)、远程站(Remote Station)、远程终端(RemoteTerminal)、接入终端(Access Terminal)、用户终端(User Terminal)、用户代理(UserAgent)、用户设备(User Device or User Equipment)，在此不作限定。可选的，上述终端设备还可以是智能手表、平板电脑等设备。

本发明具体的应用场景为语音交互场景，更具体的，可以为针对多语种用户的语音交互场景。

示例性的一种可能的语音交互场景中，用户可以通过发出语音指令，例如“夸夸我吧”，来指示终端输出用于夸赞用户的响应话术。在该场景中，终端可以采集语音数据，并对语音数据进行语义识别，并在识别出用户的语义后，输出响应话术。在该场景中，终端可以采用单语种的声学模型来识别语音数据的语义。

但是，在多语种的语音交互场景中，单语种的声学模型无法满足多语种用户的语音交互需求。示例性的，终端采集到的声音可能为英语语音，则终端采用针对中文的声学模型对该英语语音进行处理，语义识别的准确率非常低，且甚至无法识别。

因此，在多语种语音交互场景中，为终端配置多个单语种的声学模型，就成为一种普遍做法。如前所述，这种处理方式需要在终端中维护多语种资源，资源维护量较大。相应的，终端采集到语音数据后，可能还需要利用各单语种的声学模型分别对语音数据进行处理，处理效率也较慢。

本发明提供的技术方案，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

本发明实施例提供了一种人机交互方法。请参考图1，该方法包括如下步骤：

S102，采集当前的语音数据。

本方案应用于语音交互场景，在该场景中，终端可以实时采集用户发出的语音数据，并进行后续处理。本发明实施例对于语音数据的语种无限制。例如，采集到的语音数据可以为中文语音、英文语音、日语语音、韩文语音等中的任意一种。应当理解，这些举例并不用于限制本方案，本发明实施例对于语音数据的语种不作穷举。

该步骤在实现时，可以在用户指示启动语音交互功能后，由终端自动监听并采集用户发出的语音数据。或者，还可以为用户按压显示界面上的语义输入按键，来触发并采集语音数据的。

S104，提取语音数据中的语音特征。

在该步骤中，语音特征可以为多维的fbank特征。具体而言，人耳对声音频谱的响应是非线性的，fbank特征是通过类似于人耳的方式对音频尽进行处理得到的，fbank特征有利于提高语音识别的性能。

具体而言，可以通过如下步骤来提取语音数据中的Fbank特征：对语音数据进行时域到频域的信号转换，得到频域语音数据，然后，计算频域语音数据的能量谱，得到语音特征。

终端设备采集到的语音数据为线性的时域信号，可以通过傅里叶变换(Fouriertransform，FFT)，将(时域)语音信号变换为频域语音信号。具体而言，在信号转换过程中，可以对语音数据进行采样。在此基础上，频域信号中每个频带范围的能量大小不一，不同音素的能量谱不一样。因此，可以计算频域语音数据的能量谱，即可得到语音特征。计算能量谱的方法此处不赘述。

示例性的，若在S102中采集到的语音数据时的采样频率为16khz，则可以在该步骤中提取出fbank40维特征。

在另一个可能的实施例中，在进行特征提取步骤之前，还可以对语音数据进行预处理。本发明实施例所涉及到的预处理方式可以包括但不限于：分帧处理、预增强处理、加窗处理、噪声处理中的一种或多种。

其中，分帧处理用于将语音数据切分为多个语音片段，这可以缩减每次处理的数据量。进行分帧处理时，可以按照10ms～30ms一帧的方式切分，并且，为避免遗漏，分帧时还要有偏移，也就是，相邻两帧之间存在重叠的部分。在本发明实施例所应用的场景中，语音数据一般为短句，部分场景中无需进行切分。

预增强处理用于加强高频。加窗处理用于消除各个帧两端可能会造成的信号不连续性。噪声处理可以为添加随机噪声的处理，该处理能够解决合成音频的处理错漏。类似的，在本发明实施例所应用的场景中，语音数据为实时采集的数据，部分场景中无需进行噪声处理等。

S106，利用训练好的多语种语音分类器处理语音特征，得到分类识别结果，多语种语音分类器用于判断语音数据中是否包含多语种指定话术中的任意一种指定话术。

本发明实施例中，多语种语音分类器可以对多(种)语种的语音数据进行分类识别。此时，多语种语音分类器所能识别的语种类型，与多语种语音分类器训练过程中的语音样本的语种类型一致。如前，本发明实施例对于语种无特别限定，亦不作穷举。

本发明实施例中，分类识别结果可以为多分类结果，其中，包括双分类结果。

具体的，分类识别结果用于指示语音数据为正样本或负样本；或者，分类识别结果为正样本与负样本之间的程度级别，每个程度级别对应于正样本或负样本。因此，当程度级别对应正样本时，分类识别结果指示语音数据中包含指定话术；当程度级别对应负样本时，分类识别结果指示语音数据中不包含指定话术。

示例性的一种实施例中，分类识别结果可以分为两种：“是”或“否”。其中，分类识别结果为“是”，则表示语音数据中包含多语种指定话术中的一种语种的指定话术；反之，分类识别结果为“否”，则表示语音数据与任意一种语种的指定话术都无关，语音数据中不包含指定话术。

应当理解，分类识别结果还可以有其他的表现形式。示例性的，分类识别结果可以为符号、数字、字符(包含各语种的字符，例如中文字符和英文字符)中的一种或多种。例如，分类识别结果可以为“+”或“-”；或者，分类识别结果也可以为“正”或者“负”；或者，分类识别结果还可以为“结果1”或“结果2”；或者，分类识别结果还可以为“正样本”或“负样本”。在二分类结果中，前述各表示形式所指示的结果可以自定义设计。例如，分类识别结果为“是”，可以表示语音数据与任意一种语种的指定话术都无关，语音数据中不包含指定话术；分类识别结果为“否”，可以表示语音数据中包含多语种指定话术中的一种语种的指定话术。

在双分类结果的实施例中，可以直接根据双分类结果确认分类识别结果的指示，不作赘述。

示例性的另一种实施例中，分类识别结果还可以为n个级别，n为大于1的整数。此时，n个级别是指识别出语音数据属于正样本到负样本之间的程度分级。示例性的，级别最高，则判断出语音数据属于正样本的程度越高；反之，级别越低，则判断出语音数据属于负样本的程度越高，属于正样本的程度越低。例如，则若分类识别结果为n，则级别最高，判断出语音数据属于正样本的程度较高；或者，若分类识别结果为1，则级别最低，判断出语音数据属于正样本的程度较低。

反之亦可成立。也就是，级别最高，则判断出语音数据属于正样本的程度越低；反之，级别越低，则判断出语音数据属于正样本的程度越高。不作赘述。

在多分类结果的实施例中，还需要基于分级结果，确定分类识别结果的指示。此时，可以预设正样本与负样本各自对应的级别。例如，针对10分类结果(n为10，共10个级别)，则1～5级可以对应负样本，6～10级可以对应正样本。那么，若分类级别结果为1，则分类识别结果指示语音数据中不包含指定话术；若分类级别结果为8，则分类识别结果指示语音数据中包含指定话术。

在本发明实施例中，正样本和负样本为多语种语音分类器训练阶段所使用的训练样本，其中，正样本是为携带有指定话术的多语种语音数据，负样本为与指定话术无关的多语种语音数据。应当理解，训练样本中的正样本(或负样本)包含多种语种的语音数据，而分类识别结果所涉及到的正样本(或负样本)，是指识别出语音数据为正样本(或负样本)中的一种语种的语音数据。后续详述多语种语音分类器的训练过程。

S108，当分类识别结果指示语音数据中包含指定话术时，输出针对指定话术的响应话术。

此时，可以直接输出针对指定话术的响应话术。本发明实施例中，响应话术可以包括但不限于：响应语音与响应文字中的一种或多种。换言之，当识别出语音数据中包含指定话术时，可以输出响应语音和/或输出响应文字。

需要说明的是，响应语音和响应文字的语义可以相同，部分场景中也可以不同。示例性的，若指定话术为“夸夸我吧”，则响应语音可以为“司机师傅最阳光”，响应文字也可以为“司机师傅最阳光”，二者语义一致。或者，若指定话术为“夸夸我吧”，则响应语音可以为“司机师傅最阳光”，响应文字可以为“风里雨里，感谢不辞辛苦的你”，二者的语义不同。实际场景中，可以自定义二者是否相同。

具体实现场景中，输出响应语音，还是输出响应文字，可以根据实际场景来确定。

示例性的一种场景中，在输出响应话术时，若当前终端为司机端，且司机端当前处于车辆驾驶状态，则可以仅输出响应语音。此时，避免输出响应文字分散司机注意力，避免由此导致的驾车安全问题。此外，在该场景中，还可以同时输出响应语音和响应文字。

示例性的另一种场景中，在输出响应话术时，可以检测终端是否处于音频或视频播放状态；若是，则输出响应文字；反之，则可以输出响应文字与响应语音中的一种或多种。例如，用户可能发出了“夸夸我吧”的语音，在终端尚未输出响应话术时，用户后来又打开了一个视频，那么，该场景中可以输出响应文字。其中，用户后来打开的视频可以为当前应用程序(Application，APP)中的视频，也可以为另一个APP中的视频，对此无特别限制。

响应话术可以显示在预设的显示界面里，也可以显示在状态栏或通知栏。例如，前述两种场景中，若司机端正处于车辆驾驶状态，则可以在当前的显示界面上输出响应话术；若当前终端正处于音视频播放状态，则可以在状态栏或通知栏中，小窗显示响应话术。

还需要说明的是，指定话术可以是针对自身的指定话术，也可以是针对当前通信的对方用户的。

以指定话术用于夸奖用户这一具体的夸夸场景为例，进行说明。具体的，以当前正进行通信的一对司机端和乘客端为例。

对司机端而言，若司机端发出的语音数据中包含有指定话术为“夸夸我吧”或者“夸夸司机”，则该指定话术是针对自身的；或者，若司机端的发出的语音数据中包含有指定话术“夸夸乘客”，则该指定话术是针对当前通信的对方用户的，也就是，针对乘客端的。

反之，对乘客端而言，若乘客端发出的语音数据中包含有指定话术为“夸夸我吧”或者“夸夸乘客”，则该指定话术是针对自身的；或者，若乘客端的发出的语音数据中包含有指定话术“夸夸司机”，则该指定话术是针对当前通信的对方用户的，也就是，针对司机端的。

基于指定话术针对的对象不同，在执行响应话术的输出时，则可以分别向自身或向对方用户输出响应话术。换言之，当指定话术针对自身时，直接输出针对指定话术的响应话术；或者，当指定话术针对当前通信的对方用户时，向对方用户输出响应话术。输出方式与响应话术的表现形式如前，此处不作赘述。

示例性的，图2和图3分别示出了两种不同的人机交互场景。

图2示出了一种司机端用户进行自夸的场景。如图2A所示，司机端用户可以在打车APP的司机端显示界面中，点击功能控件201进入夸夸界面，那么，终端可以显示如图2B所示界面。图2B为夸夸功能的显示界面，在该显示界面上，司机端用户可以发出语音，相应地，终端则采集实时的语音数据，也即执行S102步骤。之后，终端采集到语音数据后，可以执行前述S104和S106步骤，以确定采集到的语音数据是否包含指定话术。那么，若识别出来自于司机端用户的实时的语音数据中包含“夸夸司机”或“夸夸我吧”中的一个，则可以在终端中显示如图2C所示的显示界面。如图2C所示，在当前的显示界面中显示针对“夸夸我吧”的响应话术203，具体为：“风里雨里，感谢不辞辛苦来接我”。

除此之外，在图2B所示显示界面中，司机端用户还可以点击夸夸控件202，以触发夸夸功能，进而显示如图2C所示界面，不作赘述。在图2A所示的显示界面中，功能控件201中还可以对司机端新接收到的夸夸进行提示。

图3示出了一种乘客端用户对司机端用户进行夸夸的场景。如图3A为用户端与司机端的通信界面，在该通信界面上，乘客端用户可以点击语音切换控件301，来触发语音输入功能。此时，终端显示如图3B界面，在该显示界面上，若用户按住语音输入控件302，终端就可以采集实时的语音数据，也即执行S102步骤。之后，终端采集到语音数据后，可以执行前述S104和S106步骤，以确定采集到的语音数据是否包含指定话术。那么，若识别出来自于用户的实时的语音数据中包含“夸夸司机”，则可以在终端中显示如图2C所示的显示界面。如图2C所示，在当前的通信界面中，用户端向司机端发送响应话术303，具体为：“司机师傅最阳光，最热心，最善良，最知冷知热！”。相对应的，对司机端而言，则可以提示用户收到了来自于乘客端的夸夸，例如，在图2A所示界面中的功能控件201中进行提示，也可以在通知栏或状态栏进行提示。

除此之外，在图3所示的场景中，如图3A所示，乘客端用户还可以点击该显示界面上的夸夸控件304，来触发夸夸功能。此时，用户点击夸夸控件304进行夸夸时，可以进入语音采集步骤，采用如图1所示的方式来实现夸夸，如图3所示。

或者，也可以直接进入夸夸界面。图4示出了这种实现方式。如图4A所示的通信界面与图3A所示通信界面一致。乘客端用户可以点击夸夸控件304，此时，终端显示图4B所示界面。在该界面上，终端确定要进行夸夸，可直接确定针对司机端用户的响应话术。此时，若乘客端用户点击响应话术的发送控件305，则进入图4C所示界面，用户端向司机端发送响应话术303，具体为：“司机师傅最阳光，最热心，最善良，最知冷知热！”。

本发明实施例中，响应话术可以是在中根据一个或多个预设话术确定的，预设话术可以是用户(包括司机端用户或乘客端用户)提前自定义录制好的，也可以是开发人员提前预设的。

那么，当预设话术的数目为多个时，在具体输出响应话术时，还需要在多个预设话术中确定出一个响应话术，进而才能输出响应话术。

在具体实现时，终端可以在多个预设话术中，按照预设规则自动选择一个预设话术作为响应话术，并将该响应话术输出。示例性的，终端可以随机选择一个预设话术作为响应话术。或者，终端可以将该用户或用户群体的使用频率最高的一个预设话术作为响应话术；其中，用户群体可以为所有用户、所有乘客端、所有司机端、用户所在区域(例如市、区或自定义区域，如5公里范围内的圆形区域内，等)内的所有用户，等。

除此之外，用户还可以具备修改响应话术的权限。图5示出了这种情况。如图5A所示的显示界面与图4B所示的显示界面相同。此时，在图5A所示界面上，终端当前确定的响应话术为“司机师傅最阳光，最热心，最善良，最知冷知热！”。若乘客端用户对该响应话术不满意，则可以点击话术切换控件501，以对响应话术进行切换。此时，终端显示图5B所示控件。如图5B所示，经乘客端用户操作之后，当前确定的响应话术为“司机师傅最阳光，是最可靠的人”。如此，实现对响应话术的切换。之后，用户点击该显示界面上的发送控件305，终端即可将该响应话术发送至司机端。

在本发明实施例中，终端设备还可以对历史响应话术进行统计处理，并进行展示。

示例性的一种实施例中，终端设备还可以用于执行如下步骤：获取来自于其他用户的历史响应话术，然后，确定历史响应话术的输出总数，以及，根据历史响应话术，确定一个或多个话术标签，进而，显示输出总数与话术标签。

本发明实施例中，话术标签可以根据实际需要进行设计。示例性的，可以将历史响应话术的场景作为标签；还可以将历史响应话术的场景，以及，该场景中的历史响应话术的次数作为话术标签。

仍以图2～图5所示的夸夸场景为例。考虑到用户可以对自己进行夸夸，那么，在实际场景中，可以排除针对自己的夸夸的处理，而获取来自于其他用户的历史的夸夸数据，进行统计分析。例如，当前终端为司机端时，可以统计各个乘客端或其他司机端，对该司机端用户的夸夸数据，并统计这些夸夸的总数和话术标签，在该终端的显示界面上进行显示。例如，图2所示场景中，图2B的显示界面上，显示该司机端累积收到夸夸108次，这即为历史响应话术的输出总数。此外，图2B中还显示有3个话术标签，分别为：“雨天夸夸999+”、“深夜夸夸3”和“假日夸夸66”。该场景中的话术标签由夸夸场景和该场景中的夸夸次数构成。

在前述任意一种实施例的基础上，现对本发明实施例所采用的多语种语音分类器进行说明。本发明实施例中，多语种语音分类器可以提前进行离线训练，并部署在终端设备上。或者，还可以实时的基于当前数据，进行在线训练。或者，还可以由终端设备提前进行多语种语音分类器的训练。或者，还可以将多语种语音分类器提前训练，并部署在云端，此时，终端设备具备云端数据的访问权限。

现以终端设备侧进行的多语种语音分类器的训练过程为例，对多语种语音分类器作进一步说明。

示例性的，图6示出了一种多语种语音分类器的训练过程，其可以包括如下步骤：

S602，获取正样本与负样本，正样本为携带有指定话术的多语种语音数据，负样本为与指定话术无关的多语种语音数据。

具体而言，该步骤中，可以首先获取多语种语音样本。例如，可以获取英文语音样本、日文语音样本、中文语音样本、韩文语音样本等，不作穷举。

之后，获取多语种语音样本的话术识别结果，话术识别结果用于指示语音样本中是否携带指定话术。那么，就可以根据话术识别结果，对多语种语音样本进行分类，得到正样本与负样本。

在该步骤实现时，话术识别结果可以是文本识别结果，也可以是开发人员手动标注得到的标签，以及，二者也可以结合。也就是，可以将多语种语音样本转换为文本样本，并在文本样本中，针对指定话术进行文本识别，得到文本样本的话术识别结果；和/或；接收针对多语种语音样本的人工标注的话术识别结果。

示例性的，可以通过语音解码器，将多语种语音样本来转换为文本样本。

示例性的，利用语音解码器处理多语种语音样本，得到文本样本后，然后，通过文本匹配计算该文本样本与指定话术文本的文本相似度，从而，若文本相似度达到(大于、大于或等于的情况)预设的相似度阈值，则将该文本样本对应的多语种语音样本确定为正样本；反之，若文本相似度未达到相似度阈值，则将该文本样本对应的多语种语音样本确定为负样本。本发明实施例对于相似度阈值无特别限定，示例性的，可以为80％。

在前一实施例的基础上，还可以计算当前文本内容的字准，并将字准作为计算文本相似度的一个评价标准。

在前述实施例的基础上，若通过前述处理，无法获取到与多语种语音样本对应的文本，或者，语音解码器的解码准确度不能满足预设的识别要求，或者，通过前述文本相似度的处理实现的正负样本的划分准确率较低时，还可以结合人工标注的方式来实现分类。示例性的，可以将基于文本相似度输出的结果、未成功识别或识别准确率较低的多语种语音数据，在屏幕上输出，以便于用户针对自动分类结果进行校验或更正(标注)，之后，将人工标注的结果作为话术识别结果。

基于前述处理，可以实现正样本与负样本的划分。

实际场景中，为便于处理，还可以对正样本和负样本的比例进行控制。示例性的一种实施例中，可以将正样本与负样本之比控制为7：3。如此，在执行该步骤处理时，还可能涉及到将正样本与负样本进行筛选的可能，以使得正负样本的比例在预设的比例范围内。

S604，利用正样本与负样本，对预设的基础分类器进行训练，得到多语种语音分类器。

在该步骤中，正式利用正样本与负样本进行模型训练之前，还可以首先提取正负样本的语音特征，进而，利用提取出来的语音特征来进行模型训练。应当理解，针对正负样本进行语音特征提取的方式，与前述S104步骤相同，此处不赘述。

本发明实施例中，基础分类器可以由多层卷积神经网络(Convolutional NeuralNetwork，CNN)与多层全连接网络构成；或者，基础分类器可以由多层CNN残差网络与多层全连接网络构成。例如，基础分类器可以为多层CNN残差网络和3层全连接网络。

可以理解，经正样本与负样本训练完成后，得到的多语种语音分类器也满足与基础分类器相同的网络结构。由此，多语种语音分类器中不包含长短期记忆网络(Long ShortTerm Memory，LSTM)或者循环神经网络(Recurrent Neural Network，RNN)等对序列数据进行处理的网络结构，而是基于CNN网络构建残差网络来提取语音数据的隐层特征，然后，再利用多层全连接网络对残差网络输出的隐层特征进行映射，如此，经柔性最大值传输函数(softmax)分类输出得到多分类识别结果。

具体训练时，可以将正样本与负样本数据按照一定的比例进行混合训练，如前述7：3的比例。具体训练时，可以采取整句训练的方式来实现。

在具体执行该步骤时，可以对基础分类器中的参数进行初始赋值，然后，利用正负样本来进行训练，结合对正负样本输出结果的准确率，来对分类器中的参数进行调整，循环多次训练处理，最终得到分类结果的准确率较高的参数，变将当前具备当前参数的分类器作为多语种语音分类器。

在另一实施例中，经过前述自动训练之后，还可以构建测试集，并利用测试集来对多语种语音分类器的分类识别结果进行测试，从而，可以通过计算预测结果的准确率与误识别率，来评价多语种语音分类器的真实性能。以及，还可以基于该真实性能，决定是否对多语种语音分类器作进一步训练处理。

综上，本发明提供技术方案中，终端可以采集当前的语音数据，并提取其中的语音特征，然后，利用多语种语音分类器来处理这些语音特征，以确定这些语音数据中是否包含有指定话术，从而，当其中包含指定话术时，输出响应话术以对指定话术进行响应。如此，本发明实施例提供的技术方案中，分类器能够实现对多语种指定话术进行分类处理，在保证了分类效果的基础上，还能够将复杂的语音识别问题转化为简单的分类问题，从而，无需再为各语种分别训练并维护声学模型，节省资源维护量；并且，相较于多语种声学模型的分别处理，分类器的处理效率更高，有利于提高语音识别效率，进而，也有利于提高响应话术的应答准确率，降低无效语音交互对用户的干扰，提高语音交互效果。

可以理解的是，上述实施例中的部分或全部步骤或操作仅是示例，本申请实施例还可以执行其它操作或者各种操作的变形。此外，各个步骤可以按照上述实施例呈现的不同的顺序来执行，并且有可能并非要执行上述实施例中的全部操作。

本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的，除非上下文清楚地表明，否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地，如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外，当用于本申请中时，术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素，和/或组件的存在，但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。

基于上述方法实施例所提供的人机交互方法，本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。

本发明实施例提供了一种终端，请参考图7，该终端700，包括：

采集模块72，用于采集当前的语音数据；

提取模块74，用于提取语音数据中的语音特征；

处理模块76，用于利用训练好的多语种语音分类器处理语音特征，得到分类识别结果，多语种语音分类器用于判断语音数据中是否包含多语种指定话术中的任意一种指定话术；

输出模块78，用于当分类识别结果指示语音数据中包含指定话术时，输出针对指定话术的响应话术。

在一种可能的实施例中，提取模块74，具体用于：

对语音数据进行时域到频域的信号转换，得到频域语音数据；

计算频域语音数据的能量谱，得到语音特征。

在另一种可能的实施例中，提取模块74，还用于：

对语音数据进行时域到频域的信号转换之前，对语音数据进行预处理；

其中，预处理方式包括：分帧处理、预增强处理、加窗处理、噪声处理中的一种或多种。

在另一种可能的实施例中，终端700还包括训练模块(图7未示出)，该训练模块具体用于：

获取正样本与负样本，正样本为携带有指定话术的多语种语音数据，负样本为与指定话术无关的多语种语音数据；

利用正样本与负样本，对预设的基础分类器进行训练，得到多语种语音分类器。

在另一种可能的实施例中，多语种语音分类器由多层卷积神经网络CNN与多层全连接网络构成；或者，

多语种语音分类器由多层CNN残差网络与多层全连接网络构成。

在另一种可能的实施例中，训练模块，还用于：

获取多语种语音样本；

获取多语种语音样本的话术识别结果，话术识别结果用于指示语音样本中是否携带指定话术；

根据话术识别结果，对多语种语音样本进行分类，得到正样本与负样本。

在另一种可能的实施例中，训练模块，还用于：

将多语种语音样本转换为文本样本，并在文本样本中，针对指定话术进行文本识别，得到文本样本的话术识别结果；

和/或；

接收针对多语种语音样本的人工标注的话术识别结果。

示例性的一种实施例中，分类识别结果用于指示语音数据为正样本或负样本；或者，分类识别结果为正样本与负样本之间的程度级别，每个程度级别对应于正样本或负样本。因此，当程度级别对应正样本时，分类识别结果指示语音数据中包含指定话术；当程度级别对应负样本时，分类识别结果指示语音数据中不包含指定话术。

在另一种可能的实施例中，输出模块78，具体用于：

当指定话术针对自身时，直接输出针对指定话术的响应话术；或者，

当指定话术针对当前通信的对方用户时，向对方用户输出响应话术。

在另一种可能的实施例中，响应话术包括：响应语音与响应文字中的一种或多种。

在另一种可能的实施例中，终端700还包括：

获取模块(图7未示出)，用于获取来自于其他用户的历史响应话术；

确定模块(图7未示出)，用于确定历史响应话术的输出总数；

确定模块(图7未示出)，还用于根据历史响应话术，确定一个或多个话术标签；

输出模块78，还用于显示输出总数与话术标签。

图7所示实施例的终端700可用于执行上述方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述。

应理解以上图7所示终端700的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块以软件通过处理元件调用的形式实现，部分模块通过硬件的形式实现。例如，提取模块74可以为单独设立的处理元件，也可以集成在终端700中，例如终端的某一个芯片中实现，此外，也可以以程序的形式存储于终端700的存储器中，由终端700的某一个处理元件调用并执行以上各个模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，ASIC)，或，一个或多个微处理器(digital singnal processor，DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，FPGA)等。再如，当以上某个模块通过处理元件调度程序的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central ProcessingUnit，CPU)或其它可以调用程序的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，SOC)的形式实现。

并且，本发明实施例提供了一种终端，请参考图8，该终端700，包括：

存储器710；

处理器720；以及

计算机程序；

其中，计算机程序存储在存储器710中，并被配置为由处理器720执行以实现如上述实施例所述的方法。

其中，终端700中处理器720的数目可以为一个或多个，处理器720也可以称为处理单元，可以实现一定的控制功能。所述处理器720可以是通用处理器或者专用处理器等。在一种可选地设计中，处理器720也可以存有指令，所述指令可以被所述处理器720运行，使得所述终端700执行上述方法实施例中描述的方法。

在又一种可能的设计中，终端700可以包括电路，所述电路可以实现前述方法实施例中发送或接收或者通信的功能。

可选地，所述终端700中存储器710的数目可以为一个或多个，存储器710上存有指令或者中间数据，所述指令可在所述处理器720上被运行，使得所述终端700执行上述方法实施例中描述的方法。可选地，所述存储器710中还可以存储有其他相关数据。可选地处理器720中也可以存储指令和/或数据。所述处理器720和存储器710可以单独设置，也可以集成在一起。

此外，如图8所示，在该终端700中还设置有收发器730，其中，所述收发器730可以称为收发单元、收发机、收发电路、或者收发器等，用于与测试设备或其他终端设备进行数据传输或通信，在此不再赘述。

如图8所示，存储器710、处理器720与收发器730通过总线连接并通信。

若该终端700用于实现对应于图1中的方法时，例如，可以由收发器730输出针对所述指定话术的响应话术。而处理器720用于完成相应的确定或者控制操作，可选的，还可以在存储器710中存储相应的指令。各个部件的具体的处理方式可以参考前述实施例的相关描述。

此外，本发明实施例提供了一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行以实现如方法实施例所述的方法。

由于本实施例中的各模块能够执行方法实施例所示的方法，本实施例未详细描述的部分，可参考对方法实施例的相关说明。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims

1.一种人机交互方法，其特征在于，包括：

采集当前的语音数据；

提取所述语音数据中的语音特征；

2.根据权利要求1所述的方法，其特征在于，所述提取所述语音数据中的语音特征，包括：

对所述语音数据进行时域到频域的信号转换，得到频域语音数据；

计算所述频域语音数据的能量谱，得到所述语音特征。

3.根据权利要求2所述的方法，其特征在于，所述对所述语音数据进行时域到频域的信号转换之前，所述方法还包括：

对所述语音数据进行预处理；

其中，所述预处理方式包括：分帧处理、预增强处理、加窗处理、噪声处理中的一种或多种。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

获取正样本与负样本，所述正样本为携带有所述指定话术的多语种语音数据，所述负样本为与所述指定话术无关的多语种语音数据；

利用所述正样本与所述负样本，对预设的基础分类器进行训练，得到所述多语种语音分类器。

5.根据权利要求4所述的方法，其特征在于，所述多语种语音分类器由多层卷积神经网络CNN与多层全连接网络构成；或者，

所述多语种语音分类器由多层CNN残差网络与多层全连接网络构成。

6.根据权利要求4所述的方法，其特征在于，获取正样本与负样本，包括：

获取多语种语音样本；

获取所述多语种语音样本的话术识别结果，所述话术识别结果用于指示所述语音样本中是否携带所述指定话术；

根据所述话术识别结果，对所述多语种语音样本进行分类，得到所述正样本与所述负样本。

7.根据权利要求6所述的方法，其特征在于，所述获取所述多语种语音样本的话术识别结果，包括：

将所述多语种语音样本转换为文本样本，并在所述文本样本中，针对所述指定话术进行文本识别，得到所述文本样本的话术识别结果；

和/或；

接收针对所述多语种语音样本的人工标注的所述话术识别结果。

8.根据权利要求4所述的方法，其特征在于，所述分类识别结果为多分类结果；

所述分类识别结果用于指示所述语音数据为正样本或负样本；

或者，

所述分类识别结果为正样本与负样本之间的程度级别，每个所述程度级别对应于正样本或负样本。

9.根据权利要求1-3任一项所述的方法，其特征在于，所述输出针对所述指定话术的响应话术，包括：

当所述指定话术针对自身时，直接输出针对所述指定话术的响应话术；或者，

当所述指定话术针对当前通信的对方用户时，向所述对方用户输出所述响应话术。

10.根据权利要求1-3任一项所述的方法，其特征在于，所述响应话术包括：响应语音与响应文字中的一种或多种。

11.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

获取来自于其他用户的历史响应话术；

确定所述历史响应话术的输出总数；

根据所述历史响应话术，确定一个或多个话术标签；

显示所述输出总数与所述话术标签。

12.一种终端，其特征在于，包括：

采集模块，用于采集当前的语音数据；

提取模块，用于提取所述语音数据中的语音特征；

13.一种终端，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-11任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-11任一项所述的方法。