CN112883178B

CN112883178B - 对话方法、装置、服务器及存储介质

Info

Publication number: CN112883178B
Application number: CN202110190415.XA
Authority: CN
Inventors: 楚晨; 朱会峰
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-02-18
Filing date: 2021-02-18
Publication date: 2024-03-29
Anticipated expiration: 2041-02-18
Also published as: CN112883178A

Abstract

本发明公开了一种对话方法、装置、服务器及存储介质。其中，方法包括：获取音频数据；所述音频数据是从客户端获取的；将所述音频数据发送给第二服务器；所述音频数据用于供所述第二服务器确定对应的识别文本和所述识别文本的置信度以及检测当前的声学环境；接收所述第二服务器发送的所述识别文本、所述识别文件的置信度和当前的声学环境；基于所述识别文件、所述识别文本的置信度和所述当前的声学环境，生成与所述音频数据对应的应答文本；将所述应答文本发送给所述客户端。

Description

对话方法、装置、服务器及存储介质

技术领域

本发明涉及语音交互技术领域，具体涉及一种对话方法、装置、服务器及存储介质。

背景技术

随着语音识别和终端技术的快速发展，语音交互的应用场景越来越多，例如，通过语音控制智能设备与用户完成人机交互。通常，智能设备先获取用户输入的音频数据，然后通过特征提取和语音识别模型得到与所述音频数据对应的识别文本，最后基于该识别文本得到对应的对答文本。但是，实际应用时，基于该识别文本得到的对答文本未必能够反映用户的真实意思，导致人机交互体验较差。

发明内容

有鉴于此，本发明实施例期望提供一种对话方法、装置、服务器及存储介质。

本发明的技术方案是这样实现的：

本发明实施例提供一种对话方法，应用于第一服务器，所述方法包括：

获取音频数据；所述音频数据是从客户端获取的；

将所述音频数据发送给第二服务器；所述音频数据用于供所述第二服务器确定对应的识别文本和所述识别文本的置信度以及检测当前的声学环境；

接收所述第二服务器发送的所述识别文本、所述识别文件的置信度和当前的声学环境；

基于所述识别文件、所述识别文本的置信度和所述当前的声学环境，生成与所述音频数据对应的应答文本；

将所述应答文本发送给所述客户端。

上述方案中，所述基于所述识别文件、所述识别文本的置信度和所述当前的声学环境，生成与所述音频数据对应的应答文本，包括：

判断所述识别文件的置信度是否小于置信度阈值；

当确定所述识别文件的置信度小于置信度阈值时，基于所述当前的声学环境，生成与所述音频数据对应的应答文本，并丢弃所述识别文本。

上述方案中，所述基于所述当前的声学环境，生成与所述音频数据对应的应答文本，包括：

基于所述当前的声学环境，确定在用户录入所述音频数据的环境中产生的第一信噪比；

根据信噪比和噪声类型的对应关系，确定与所述第一信噪比对应的第一噪声类型；

基于所述第一噪声类型，生成与所述音频数据对应的应答文本。

上述方案中，所述基于所述第一噪声类型，生成与所述音频数据对应的应答文本，包括：

基于所述第一噪声类型，生成第一文本；所述第一文本表征对当前用户录入音频数据的环境中的噪声源执行预设操作；

对所述第一文本和预设第二文本进行拼接，得到与所述音频数据对应的应答文本；所述第二文本表征对音频数据进行重新录入。

判断所述识别文件的置信度是否大于或等于置信度阈值；

当确定所述识别文件的置信度大于或等于置信度阈值时，丢弃所述当前的声学环境，将所述识别文件发送给第三服务器；

其中，所述识别文本用于供所述第三服务器进行语义识别得到意图文本，并基于所述意图文本确定与所述音频数据对应的应答文本；

接收所述第三服务器发送的所述应答文本。

上述方案中，当确定所述识别文件的置信度大于或等于置信度阈值时，所述方法还包括：

将所述识别文件和所述当前的声学环境发送给第三服务器；

其中，所述识别文本用于供所述第三服务器进行语义识别得到意图文本；所述当前的声学环境用于供所述第三服务器判断是否将所述意图文本作为与所述音频数据对应的应答文本。

上述方案中，应用于第三服务器，所述方法还包括：

当所述第一噪声类型满足预设条件时，不将所述意图文本作为应答文本，并基于所述第一噪声类型，生成与所述音频数据对应的应答文本。

本发明实施例提供一种对话装置，包括：

获取单元，用于获取音频数据；所述音频数据是从客户端获取的；

发送单元，用于将所述音频数据发送给第二服务器；所述音频数据用于供所述第二服务器确定对应的识别文本和所述识别文本的置信度以及检测当前的声学环境；

所述获取单元，还用于接收所述第二服务器发送的所述识别文本、所述识别文件的置信度和当前的声学环境；

处理单元，用于基于所述识别文件、所述识别文本的置信度和所述当前的声学环境，生成与所述音频数据对应的应答文本；

所述发送单元，还用于将所述应答文本发送给所述客户端。

本发明实施例提供一种服务器，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行所述程序时实现上述任一方法的步骤。

本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行所述程序时实现上述任一方法的步骤。

本发明实施例提供的对话方法、装置、服务器及存储介质，获取音频数据；所述音频数据是从客户端获取的；将所述音频数据发送给第二服务器；所述音频数据用于供所述第二服务器确定对应的识别文本和所述识别文本的置信度以及检测当前的声学环境；接收所述第二服务器发送的所述识别文本、所述识别文件的置信度和当前的声学环境；基于所述识别文件、所述识别文本的置信度和所述当前的声学环境，生成与所述音频数据对应的应答文本；将所述应答文本发送给所述客户端。采用本发明实施例的技术方案，第一服务器结合识别文本的置信度和当前的声学环境，确定该识别文本对应的应答文本，由于当前的声学环境可以检测出在用户录入音频数据的环境中是否存在噪声干扰，因此能够判定出该识别文本是否准确，避免由于识别文本不准确从而导致采用该识别文本得到的应答文本不能够反映用户真实意图情况的发生。

附图说明

图1为相关技术中通过智能设备中的语音助手实现语音交互的实现流程示意图；

图2为本发明实施例对话方法的实现流程示意图；

图3为本发明实施例第一种生成与音频数据对应的应答文本的实现流程示意图；

图4为本发明实施例第二种生成与音频数据对应的应答文本的实现流程示意图；

图5为本发明实施例对话方法应用的系统架构示意图；

图6为本发明实施例第三种生成与音频数据对应的应答文本的实现流程示意图；

图7为本发明实施例第四种生成与音频数据对应的应答文本的实现流程示意图；

图8为本发明实施例对话装置的组成结构示意图；

图9为本发明实施例对话系统的组成结构示意图；

图10为本发明实施例服务器的组成结构示意图。

具体实施方式

在对本发明实施例的技术方案进行详细说明之前，首先对相关技术进行介绍说明。

相关技术中，随着语音识别和终端技术的快速发展，语音交互的应用场景越来越多，例如，智能设备通过语音与用户完成人机交互。通常，手机、车载、智能家居等智能设备可以通过语音助手等语音对话交互产品，与用户完成人机交互，完全解放用户双手。其中，语音助手包括苹果的Siri、亚马逊的Alexa、小米的小爱同学、阿里的天猫精灵和百度的DuerOS等等。

图1是相关技术中通过智能设备中的语音助手实现语音交互的过程，如图1所示，该过程包括：

步骤1：通过智能设备中的语音助手，采集用户录入的音频数据，并发送给语音助手中控服务器。

步骤2：语音助手中控服务器将音频数据发送给语音识别服务器。

步骤3：语音识别服务器对所述音频数据进行识别，得到识别文本，并返回给语音助手中控服务器。

步骤4：语音助手中控服务器将识别文本发送给语义服务器。

步骤5：语义服务器对识别文本进行语义识别得到意图结果，将意图结果发送给资源召回服务器。

步骤6：资源召回服务器根据意图结果确定对应的应答文本，并返回给语义服务器。

步骤7：语义服务器将应答文本返回给语音助手中控服务器。

步骤8：语音助手中控服务器将应答文本返回给智能设备。

步骤9：智能设备将应答文本发送给语音合成服务器。

步骤10：语音合成服务器将应答文本合成为语音，并返回给智能设备。

综上，目前的语音交互流程中，包括语音识别->语义服务(语义理解+对话管理+语言生成)->语音合成共三个环节，在第一环节(步骤2、步骤3)的语音识别过程中，语音识别服务器即引擎会不遗余力的尽可能识别用户的语音，但是由于音乐、街道、车载、多说话人等不同的噪声环境干扰，语音识别结果往往有不同程度的错误率提升，有可能出现后续语义理解层面的根本性错误，从而导致对用户需求理解的偏差或完全不理解，造成“答非所问”的情况出现，让用户觉得语音对话交互产品不够智能，降低用户对产品的信赖程度和使用率。

基于此，在本发明的各种实施例中，获取音频数据；所述音频数据是从客户端获取的；将所述音频数据发送给第二服务器；所述音频数据用于供所述第二服务器确定对应的识别文本和所述识别文本的置信度以及检测当前的声学环境；接收所述第二服务器发送的所述识别文本、所述识别文件的置信度和当前的声学环境；基于所述识别文件、所述识别文本的置信度和所述当前的声学环境，生成与所述音频数据对应的应答文本；将所述应答文本发送给所述客户端。

需要说明的是，本发明实施例中，第一服务器在根据识别文本确定应答文本之前，除了从第二服务器获取该识别文本之外，还从第二服务器获取该识别文本的置信度以及当前的声学环境，并结合该识别文本的置信度和当前的声学环境，确定该识别文本对应的应答文本，从而可以判定出在用户录入音频数据的环境中是否存在噪声干扰，进而在确定应答文本之前就能够判定出该识别文本是否准确，避免由于识别文本不准确导致应答文本也不能够反映用户真实意图情况的发生。

下面结合附图及具体实施例对本发明作进一步详细的说明。

本发明实施例提供一种对话方法，应用于第一服务器，图2为本发明实施例对话方法的实现流程示意图；如图2所示，所述方法包括：

步骤201：获取音频数据；所述音频数据是从客户端获取的；

步骤202：将所述音频数据发送给第二服务器；所述音频数据用于供所述第二服务器确定对应的识别文本和所述识别文本的置信度以及检测当前的声学环境；

步骤203：接收所述第二服务器发送的所述识别文本、所述识别文件的置信度和当前的声学环境；

步骤204：基于所述识别文件、所述识别文本的置信度和所述当前的声学环境，生成与所述音频数据对应的应答文本；

步骤205：将所述应答文本发送给所述客户端。

这里，在步骤201中，实际应用时，当用户通过客户端上的应用程序录入音频数据后，所述客户端可以将录入的音频数据发送给所述第一服务器。

这里，在步骤202中，实际应用时，所述第二服务器可以是具有语音识别功能的服务器。所述第一服务器将音频数据发送给第二服务器后，所述第二服务器除了可以对音频数据进行语音识别得到识别文本和识别文本的置信度之外，还可以利用音频数据来检测当前的声学环境，以确定出在用户录入音频数据的环境中是否参杂了噪声如音乐噪声、街道噪声、车载噪声、多说话人噪声等等。

这里，在步骤204中，实际应用时，以音乐噪声为例，若在用户录入音频数据的环境中存在音乐噪声，则会导致识别文本中除了用户录入的文本之外还可能存在音乐中的文本，这样，该识别文本的置信度的取值偏小，就可以基于当前的声学环境确定反馈给用户的应答文本。若在用户录入音频数据的环境中不存在音乐噪声，则识别文本中不会包含与噪声源相关的文本，这样，该识别文本的置信度的取值偏大，就可以基于识别文本确定反馈给用户的应答文本。

下面对如何生成与音频数据对应的应答文本的过程进行详细说明。

实际应用时，若识别文本的置信度偏小，则会导致识别文本中除了用户录入的文本之外还可能包含其他与噪声源相关的文本，这样，可以基于当前的声学环境确定反馈给用户的应答文本。

基于此，在一实施例中，所述基于所述识别文件、所述识别文本的置信度和所述当前的声学环境，生成与所述音频数据对应的应答文本，包括：

判断所述识别文件的置信度是否小于置信度阈值；

这里，所述识别文件的置信度是指所述识别文件的可信度，即所述识别文本是否与用户真实录入的语音相对应的可能性大小。

这里，所述第一服务器将所述音频数据发送给第二服务器后，所述第二服务器可以将所述音频数据作为测试样本，对该测试样本进行多次语音识别测试，得到测试结果，并根据测试总次数和每次测试结果的准确性确定所述识别文本的置信度。例如，测试总次数为100次，测试结果中有90次测试结果与用户录入真实语音相符，则所述识别文本的置信度为90/100＝90％。

这里，所述第一服务器可以根据第二服务器针对用户在无噪声环境中录入的测试语音样本计算的置信度确定置信度阈值，例如，假设第二服务器针对用户在无噪声环境中录入的多个测试语音样本计算的置信度在[85％，90％]之间，则第一服务器可以将最小值85％作为置信度阈值。

这里，所述第一服务器还可以根据第二服务器针对用户在无噪声环境中录入的测试语音样本计算的置信度以及针对用户在有噪声环境中录入的测试语音样本计算的置信度确定置信度阈值，例如，假设第二服务器针对用户在无噪声环境中录入的多个测试语音样本计算的置信度在[85％，90％]之间，第二服务器针对用户在有噪声环境中录入的多个测试语音样本计算的置信度在[75％，80％]之间，则第一服务器可以从80％和85％之间随机选取一个数值作为置信度阈值。

实际应用时，第一服务器可以建立信噪比的噪声类型的对应关系，并根据该对应关系确定与当前的声学环境对应的噪声类型，从而根据噪声类型确定具体反馈给用户的应答文本。

基于此，在一实施例中，所述基于所述当前的声学环境，生成与所述音频数据对应的应答文本，包括：

这里，所述第一服务器将所述音频数据发送给第二服务器后，所述第二服务器可以对所述音频数据进行信噪比估计，得到第一信噪比，并作为当前的声学环境参数返回给所述第一服务器，这样，所述第一服务器接收到第二服务器返回的当前声学环境后，可以确定出在用户录入所述音频数据的环境中产生的第一信噪比。

表1是信噪比和噪声类型的对应关系的示意，如表1所示，假设在用户录入所述音频数据的环境中产生的第一信噪比的值为A，则对应的第一噪声类型为音乐噪声，即在有音乐播放的环境中录入了用户的音频数据；假设在用户录入所述音频数据的环境中产生的第一信噪比的值为B，则对应的第一噪声类型为街道噪声，即在有街道嘈杂声音的环境中录入了用户的音频数据；假设在用户录入所述音频数据的环境中产生的第一信噪比的值为C，则对应的第一噪声类型为车载噪声，即在车载环境中录入了用户的音频数据；假设在用户录入所述音频数据的环境中产生的第一信噪比的值为D，则对应的第一噪声类型为多说话人噪声，即在有多个人说话的环境中录入了用户的音频数据。

信噪比	噪声类型
		A	音乐噪声
B	街道噪声
		C	车载噪声
D	多说话人噪声

表1

实际应用时，为了保证在用户再次录入音频数据的声学环境中不受噪声干扰，可以在反馈给用户的应答文本除了包含重新录入音频数据的文本之外，还可以包含对当前声学环境中的噪声源执行预设操作的文本。

基于此，在一实施例中，所述基于所述第一噪声类型，生成与所述音频数据对应的应答文本，包括：

这里，所述预设操作可以是指对当前用户录入音频数据的环境中的噪声源执行关闭、远离操作等等。

举例来说，假设所述第一噪声类型为音乐噪声类型，生成的第一文本可以为“音乐声太大了，听不太清楚，请先关掉音乐”；预设第二文本可以为“请重新录入音频数据”，这样，对所述第一文本和预设第二文本进行拼接，得到与所述音频数据对应的应答文本为“音乐声太大了，听不太清楚，请先关掉音乐，并请重新录入音频数据”。

在一示例中，如图3所示，描述生成与音频数据对应的应答文本的过程，包括：

步骤301：第一服务器从客户端获取音频数据，并将所述音频数据发送给第二服务器。

其中，所述音频数据用于供所述第二服务器确定对应的识别文本和所述识别文本的置信度以及检测当前的声学环境。

这里，第一服务器具体可以为与客户端中的应用程序对应的中控服务器；第二服务器具体可以为语音识别服务器。

步骤302：所述第一服务器接收所述第二服务器发送的识别文本、识别文件的置信度和当前的声学环境。

步骤303：所述第一服务器判断所述识别文件的置信度是否小于置信度阈值；当确定所述识别文件的置信度小于置信度阈值时，执行步骤304。

步骤304：所述第一服务器基于所述当前的声学环境，生成与所述音频数据对应的应答文本，并丢弃所述识别文本。

具体地，基于所述当前的声学环境，确定在用户录入所述音频数据的环境中产生的第一信噪比；根据信噪比和噪声类型的对应关系，确定与所述第一信噪比对应的第一噪声类型；基于所述第一噪声类型，生成第一文本；所述第一文本表征对当前用户录入音频数据的环境中的噪声源执行预设操作；对所述第一文本和预设第二文本进行拼接，得到与所述音频数据对应的应答文本；所述第二文本表征对音频数据进行重新录入。

步骤305：所述第一服务器将应答文本发送给客户端。

这里，基于所述识别文件的置信度和当前的声学环境，生成与音频数据对应的应答文本，具备以下优点：

(1)在语音识别环节，通过细粒度的声学环境检测，区分出音乐、街道、车载、多说话人等噪声环境，结合语音识别得到的识别文本的置信度，做出是否采用该次语音识别结果得到的识别文本的判断，并提供相应的对话反馈提示，从而提供用户更加细腻的语音对话交互反馈，让用户感受到更加智能的语音对话交互体验，并且大大提升用户语音对话的成功率，提高产品的用户粘性。

(2)可以通过增加更多的环境噪声检测，从而提供更多细腻的噪声反馈提示。

(3)可以通过对识别文本的置信度阈值进行策略优化，从而根据不同的噪声场景设置不同的置信度阈值，从而结合当前细粒度的声学环境以及识别文本的置信度，做出是否采用该次语音识别结果得到的识别文本的判断。

(4)在检测噪声环境的同时，还可以通过语种、方言等非噪声的检测，增加更多维度缓解后续语义理解等对话结果误召回的压力。

(5)客户端可以通过录入视频的方式采集用户的音频数据，即以视觉等其他模态作为输入的参考数据，并结合当前的声学环境，提供更智能的交互反馈。

实际应用时，若识别文本的置信度偏大，则表明识别文本中除了用户录入的文本之外不太可能包含其他与噪声源相关的文本，这样，可以基于识别文本确定反馈给用户的应答文本。

判断所述识别文件的置信度是否大于或等于置信度阈值；

接收所述第三服务器发送的所述应答文本。

这里，当所述第一服务器确定所述识别文件的置信度大于或等于置信度阈值时，可以表明在用户录入音频数据的环境中没有参杂任何噪声，这样，所述第一服务器可以丢弃所述当前的声学环境，并将所述识别文件发送给第三服务器。

这里，所述第三服务器接收到所述识别文本后，可以对所述识别文本进行语义识别得到意图文本，该意图文本可以准确反映用户当前的需求。

举例来说，假设识别文本为“我想看生化危机”，第三服务器对该识别文本进行语义识别得到的意图文本为“我想看生化危机电影”，这样，所述第三服务器根据该意图文本生成的识别文本可以为与生化危机电影对应的网址链接。

实际应用时，若识别文本的置信度偏大，则表明识别文本中除了用户录入的文本之外也可能包含其他与噪声源相关的文本，这样，第一服务器可以将识别文本和当前的声学环境发送给第三服务器，由所述第三服务器根据当前的声学环境以及识别文本确定反馈给用户的应答文本。

基于此，在一实施例中，当确定所述识别文件的置信度大于或等于置信度阈值时，所述方法还包括：

将所述识别文件和所述当前的声学环境发送给第三服务器；

这里，所述第一服务器将所述识别文件和所述当前的声学环境发送给第三服务器后，若第三服务器根据所述当前的声学环境确定在用户录入音频数据的环境中没有参杂任何噪声，则将所述意图文本作为与所述音频数据对应的应答文本。

实际应用时，第一服务器将识别文本和当前的声学环境发送给第三服务器后，第三服务器可以根据预先建立的信噪比和噪声类型的对应关系，确定与当前的声学环境对应的噪声类型，从而根据噪声类型确定具体反馈给用户的应答文本。

基于此，在一实施例中，应用于第三服务器，所述方法还包括：

这里，所述第一噪声类型满足预设条件可以是指所述第一噪声类型为音乐噪声、街道噪声、车载噪声中之一。

这里，所述第一服务器将所述识别文件和所述当前的声学环境发送给第三服务器后，若第三服务器根据所述当前的声学环境确定在用户录入音频数据的环境中参杂了噪声，则不将所述意图文本作为与所述音频数据对应的应答文本并基于所述第一噪声类型，生成与所述音频数据对应的应答文本。

这里，所述基于所述第一噪声类型，生成与所述音频数据对应的应答文本，包括：

举例来说，假设所述第一噪声类型为街道噪声类型，生成的第一文本可以为“街上人太吵了，听不太清楚，请先远离人群”；预设第二文本可以为“请重新录入音频数据”，这样，对所述第一文本和预设第二文本进行拼接，得到与所述音频数据对应的应答文本为“街上人太吵了，听不太清楚，请先远离人群，并请重新录入音频数据”。

在一示例中，如图4所示，描述生成与音频数据对应的应答文本的过程，包括：

步骤401：第一服务器从客户端获取音频数据，并将所述音频数据发送给第二服务器。

步骤402：所述第一服务器接收所述第二服务器发送的识别文本、识别文件的置信度和当前的声学环境。

步骤403：所述第一服务器判断所述识别文件的置信度是否大于或等于置信度阈值；当确定所述识别文件的置信度大于或等于置信度阈值时，执行步骤404。

步骤404：所述第一服务器将所述识别文件和所述当前的声学环境发送给第三服务器。

这里，所述第三服务器具体可以为语义识别服务器。

这里，若第三服务器根据所述当前的声学环境确定在用户录入音频数据的环境中没有参杂任何噪声，则将所述意图文本作为与所述音频数据对应的应答文本；若第三服务器根据所述当前的声学环境确定在用户录入音频数据的环境中参杂了噪声，则不将所述意图文本作为与所述音频数据对应的应答文本并基于所述第一噪声类型，生成与所述音频数据对应的应答文本。

步骤405：所述第一服务器接收所述第三服务器发送的应答文本，并转发给客户端。

(2)可以通过对识别文本的置信度阈值进行策略优化，从而根据不同的噪声场景设置不同的置信度阈值，从而结合当前细粒度的声学环境以及识别文本的置信度，做出是否采用该次语音识别结果得到的识别文本的判断。

图5是对话方法应用的系统架构示意图，如图5所示，包括：语音助手客户端、语音助手中控服务器、语音识别服务器、语义识别服务器、资源召回服务器、语音合成服务器；其中，

语音助手客户端对应客户端；

语音助手中控服务器对应第一服务器；

语音识别服务器对应第二服务器；

语义识别服务器对应第三服务器。

这里，结合图5所示的系统架构，描述通过细粒度的声学环境检测结合语音识别得到的识别文本的置信度，生成与音频数据对应的应答文本的过程，如图6所示，包括：

步骤601：语音助手客户端采集用户录入的音频数据，并发送给语音助手中控服务器。

步骤602：语音助手中控服务器将音频数据发送给语音识别服务器。

步骤603：语音识别服务器利用所述音频数据得到识别文本、识别文本的置信度以及检测当前的声学环境，并返回给语音助手中控服务器。

步骤604：语音助手中控服务器判断所述识别文件的置信度是否小于置信度阈值；当确定所述识别文件的置信度小于置信度阈值时，判断当前的声学环境，并执行步骤605。

这里，置信度阈值可以设置为0.85，等等。

步骤605：语音助手中控服务器基于不同噪声环境生成不同的反馈文本结果，并反馈给语音助手客户端。

这里，当检测的声学环境为音乐噪声场景，且语音识别结果得到的识别文本的置信度小于0.85时，则不将语音识别结果得到的识别文本向后传递给语义识别服务器，同时向语音助手客户端反馈提示“音乐声音太大了，我没听清楚，请先关掉音乐，并麻烦您再说一遍吧”。

当检测的声学环境为街道噪声场景，同时语音识别结果得到的识别文本的置信度小于0.85，则不将语音识别结果向后传递给语义识别服务器，同时向语音助手客户端反馈提示“街上太吵了，我没听清楚，请先远离街道，并麻烦您再说一遍吧”。

当检测的声学环境为车载噪声场景，同时语音识别结果得到的识别文本的置信度小于0.85，则不将语音识别结果向后传递给语义识别服务器，同时向语音助手客户端反馈提示“车上太吵了，我没听清楚，请远离车辆，并麻烦您再说一遍吧”。

当检测的声学环境为多说话人噪声场景，同时语音识别结果得到的识别文本的置信度小于0.85，则不将语音识别结果向后传递给语义识别服务器，同时向语音助手客户端反馈提示“刚才好多人说话，我没听清楚，请远离人群，并麻烦您再说一遍吧”。

当未检测到已知噪声场景，同时语音识别结果得到的识别文本的置信度小于0.85，则不将语音识别结果向后传递给语义识别服务器，同时向语音助手客户端反馈提示“我没听清楚，麻烦您再说一遍吧”。

这里，语音助手客户端接收到应答文本后，再通过语音合成服务器合成音频后反馈给用户。

结合图5所示的系统架构，描述通过细粒度的声学环境检测结合语音识别得到的识别文本的置信度，生成与音频数据对应的应答文本的过程，如图7所示，包括：

步骤701：语音助手客户端采集用户录入的音频数据，并发送给语音助手中控服务器。

步骤702：语音助手中控服务器将音频数据发送给语音识别服务器。

步骤703：语音识别服务器利用所述音频数据得到识别文本、识别文本的置信度以及检测当前的声学环境，并返回给语音助手中控服务器。

步骤704：语音助手中控服务器判断所述识别文件的置信度是否大于或等于置信度阈值；当确定所述识别文件的置信度大于或等于置信度阈值时，判断当前的声学环境中无噪声的情况下，执行步骤705。

这里，置信度阈值可以设置为0.85，等等。

步骤705：语音助手中控服务器将所述识别文件发送给语义识别服务器。

这里，当语音识别结果得到的识别文本的置信度大于或等于0.85，则将语音识别结果向后传递给语义识别服务器，并进行正常的语义理解等后续流程。

步骤706：语义识别服务器对识别文本进行语义识别得到意图文本，并基于所述意图文本确定与所述音频数据对应的应答文本。

步骤707：语义识别服务器将应答文本发送给语音助手中控服务器。

步骤708：语音助手中控服务器将应答文本反馈给语音助手客户端。

采用本发明实施例的技术方案，第一服务器结合识别文本的置信度和当前的声学环境，确定该识别文本对应的应答文本，由于当前的声学环境可以检测出在用户录入音频数据的环境中是否存在噪声干扰，因此能够判定出该识别文本是否准确，避免由于识别文本不准确从而导致采用该识别文本得到的应答文本不能够反映用户真实意图情况的发生。

为实现本发明实施例对话方法，本发明实施例还提供一种对话装置。图8为本发明实施例对话装置的组成结构示意图；如图8所示，所述装置包括：

获取单元81，用于获取音频数据；所述音频数据是从客户端获取的；

发送单元82，用于将所述音频数据发送给第二服务器；所述音频数据用于供所述第二服务器确定对应的识别文本和所述识别文本的置信度以及检测当前的声学环境；

所述获取单元81，还用于接收所述第二服务器发送的所述识别文本、所述识别文件的置信度和当前的声学环境；

处理单元83，用于基于所述识别文件、所述识别文本的置信度和所述当前的声学环境，生成与所述音频数据对应的应答文本；

所述发送单元82，还用于将所述应答文本发送给所述客户端。

在一实施例中，所述处理单元83，具体用于：

判断所述识别文件的置信度是否小于置信度阈值；

在一实施例中，所述处理单元83，具体用于：

判断所述识别文件的置信度是否大于或等于置信度阈值；

接收所述第三服务器发送的所述应答文本。

在一实施例中，所述发送单元82，还用于：

当确定所述识别文件的置信度大于或等于置信度阈值时，将所述识别文件和所述当前的声学环境发送给第三服务器；

在一实施例中，应用于第三服务器，所述装置还包括：

生成单元，用于基于所述当前的声学环境，确定在用户录入所述音频数据的环境中产生的第一信噪比；

实际应用时，所述获取单元81、发送单元82可由所述装置中的通信接口实现；所述处理单元83可由所述装置中的处理器实现；所述处理器可以是中央处理器(CPU，CentralProcessing Unit)、数字信号处理器(DSP，Digital Signal Processor)、微控制单元(MCU，Microcontroller Unit)或可编程门阵列(FPGA，Field－Programmable Gate Array)。

需要说明的是：上述实施例提供的装置在进行对话时，仅以上述各程序模块的划分进行举例说明，实际应用时，可以根据需要而将上述处理分配由不同的程序模块完成，即将终端的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的装置与对话方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

为实现本发明实施例对话方法，本发明实施例还提供一种对话系统。图9为本发明实施例对话系统的组成结构示意图；如图9所示，包括：

客户端91，用于采集用户录入的音频数据，并发送给第一服务器；

第一服务器92，用于从客户端获取音频数据，并将所述音频数据发送给第二服务器；

第二服务器93，用于利用所述音频数据确定对应的识别文本和所述识别文本的置信度以及检测当前的声学环境；

所述第一服务器92，还用于接收所述第二服务器发送的所述识别文本、所述识别文件的置信度和当前的声学环境；以及基于所述识别文件、所述识别文本的置信度和所述当前的声学环境，生成与所述音频数据对应的应答文本；并将所述应答文本发送给所述客户端。

需要说明的是，第一服务器92、第二服务器93的执行过程在上面已描述，在此不再赘述。

基于上述设备的硬件实现，本发明实施例还提供了一种服务器，图10为本发明实施例的服务器的硬件组成结构示意图，如图10所示，服务器100包括存储器103、处理器102及存储在存储器103上并可在处理器102上运行的计算机程序；所述处理器102执行所述程序时实现上述一个或多个技术方案提供的方法。

需要说明的是，所述处理器102执行所述程序时实现的具体步骤已在上文详述，这里不再赘述。

可以理解，服务器100还包括通信接口101，所述通信接口101用于和其它设备进行信息交互；同时，服务器100中的各个组件通过总线系统104耦合在一起。可理解，总线系统104配置为实现这些组件之间的连接通信。总线系统104除包括数据总线之外，还包括电源总线、控制总线和状态信号总线等。

可以理解，本实施例中的存储器103可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，ReadOnly Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，RandomAccess Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

上述本发明实施例揭示的方法可以应用于处理器102中，或者由处理器102实现。处理器102可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器102中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器102可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器102可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器102读取存储器中的信息，结合其硬件完成前述方法的步骤。

本发明实施例还提供了一种存储介质，具体为计算机存储介质，更具体的为计算机可读存储介质。其上存储有计算机指令，即计算机程序，该计算机指令被处理器执行时上述一个或多个技术方案提供的方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的方法和智能设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、终端、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

另外，本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种对话方法，其特征在于，应用于第一服务器，所述方法包括：

获取音频数据；所述音频数据是从客户端获取的；

接收所述第二服务器发送的所述识别文本、所述识别文本的置信度和当前的声学环境；

基于所述识别文本、所述识别文本的置信度和所述当前的声学环境，生成与所述音频数据对应的应答文本；

将所述应答文本发送给所述客户端；

其中，所述基于所述识别文本、所述识别文本的置信度和所述当前的声学环境，生成与所述音频数据对应的应答文本，包括：

判断所述识别文本的置信度是否小于置信度阈值；

当确定所述识别文本的置信度小于置信度阈值时，基于所述当前的声学环境，生成与所述音频数据对应的应答文本，并丢弃所述识别文本。

2.根据权利要求1所述的方法，其特征在于，所述基于所述当前的声学环境，生成与所述音频数据对应的应答文本，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一噪声类型，生成与所述音频数据对应的应答文本，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述识别文本、所述识别文本的置信度和所述当前的声学环境，生成与所述音频数据对应的应答文本，包括：

判断所述识别文本的置信度是否大于或等于置信度阈值；

当确定所述识别文本的置信度大于或等于置信度阈值时，丢弃所述当前的声学环境，将所述识别文本发送给第三服务器；

接收所述第三服务器发送的所述应答文本。

5.根据权利要求4所述的方法，其特征在于，当确定所述识别文本的置信度大于或等于置信度阈值时，所述方法还包括：

将所述识别文本和所述当前的声学环境发送给第三服务器；

6.根据权利要求5所述的方法，其特征在于，应用于第三服务器，所述方法还包括：

7.一种对话装置，其特征在于，包括：

所述获取单元，还用于接收所述第二服务器发送的所述识别文本、所述识别文本的置信度和当前的声学环境；

处理单元，用于基于所述识别文本、所述识别文本的置信度和所述当前的声学环境，生成与所述音频数据对应的应答文本；

所述发送单元，还用于将所述应答文本发送给所述客户端；

所述处理单元，具体用于：判断所述识别文本的置信度是否小于置信度阈值；当确定所述识别文本的置信度小于置信度阈值时，基于所述当前的声学环境，生成与所述音频数据对应的应答文本，并丢弃所述识别文本。

8.一种服务器，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行权利要求1至6任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。