CN111951795B

CN111951795B - 语音交互方法、服务器、电子设备和存储介质

Info

Publication number: CN111951795B
Application number: CN202010796092.4A
Authority: CN
Inventors: 杨一帆; 张俊杰; 栗景树; 罗红
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2024-04-09
Anticipated expiration: 2040-08-10
Also published as: CN111951795A

Abstract

本发明实施例公开了一种语音交互方法、服务器、电子设备和存储介质，涉及互联网领域。语音交互方法包括：获取到与用户之间的信息差时，向所述用户发起对话；接收并识别所述用户的语音，并对所述语音进行语义解析处理；根据所述语义解析处理结果与当前执行内容的相关性消除所述信息差。将本发明的语音交互方法应用在智能产品上，可以减少智能产品与用户进行语音交互时的误识、错识的概率，来达到精准实现用户需求的目的。

Description

语音交互方法、服务器、电子设备和存储介质

技术领域

本发明实施例涉及互联网领域，特别涉及一种语音交互方法、服务器、电子设备和存储介质。

背景技术

目前语音交互系统在智能产品中的地位越来越重要，它是基于语音输入的一种人机交互方式。现有技术提供的语音交互方法包括：由用户输入语音命令，智能产品(如智能音箱等)对语音命令进行语音识别，获取语音命令对应的操作指令，根据操作指令进行操作。

然而，发明人发现，现有的语音交互系统都只能够被动的接收用户各类语音指令，并根据语音指令的识别结果进行完成对智能产品的控制，可能存在识别错误的问题，从而降低用户使用体验。

发明内容

本发明实施方式的目的在于提供一中语音交互方法、服务器、电子设备和存储介质，使得智能产品可以在与用户进行交互的同时精准实现用户的需求。

为解决上述技术问题，本发明的实施方式提供了一种语音交互方法，包括：获取到与用户之间的信息差时，向所述用户发起对话；接收并识别所述用户的语音，对所述语音进行语义解析处理；根据所述语义解析处理结果与当前执行内容的相关性消除所述信息差。

本发明的实施方式还提供了一种服务器，包括：

信息差检测模块：用于根据当前明文、场景模型、知识图谱模型计算与用户间的信息差，并判断是否达到阈值，再根据当前场景好用户判断是否达到沟通阈值；

语音信息处理模块：用于将用户语音文件转为文本信息，在转化过程中，会结合所述用户上传的各领域热词，进行优先匹配；

自然语言处理模块：用于对所述用户语音的文本信息进行敏感词过滤，之后优先匹配问答对和NLP解析，并传输解析得到的各个技能域及解析结果；

技能分发模块：用于根据NLP解析到的技能域进行技能分发，并根据各类技能域做相应逻辑处理，当语音交互信息不全时，会触发云端的多轮交互；

内容相关性判断模块：用于判断所述用户的语句解析结果与当前执行内容的相关性，其中，若无相关性，会继续向所述用户提问；若有相关性，会根据当前执行内容向所述用户进行解释说明。

本发明的实施方式还提供了一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行以上所述的语音交互方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现以上所述的语音交互方法。

本发明实施方式相对于现有技术而言，会在获取到与用户间的信息差时向用户发起语音对话，在接收并识别用户的语音之后，对识别到的语音进行解析处理，再根据语义解析处理的结果与当前执行内容的相关性来消除与用户间的信息差，从而达到精准实现用户需求的目的，解决了现有技术中智能设备存在识别错误而导致降低用户体验感的问题。

另外，本发明实施方式提供的语音交互方法，在向所述获取到与用户之间的信息差时包括：计算所述信息差与所述用户间的差异性；当所述差异性大于预设阈值时，向所述用户发起对话。在与用户交互前会对获取到的信息差的差异性进行判断，可以针对性的对获取到的信息差进行交互，使得本发明实施方式提供的技术方案更贴近于用户的日常沟通，进一步提升用户体验。

另外，本发明实施方式提供的语音交互方法，所述计算所述信息差与所述用户间的差异性，包括：根据当前状态更新所处意图/所述用户代办或关心的话题和交互明文系数、当前状态更新所处技能域/所述用户代办或关心的领域和场景模型系数、新增知识图谱/所述用户感兴趣的知识图谱领域和知识域模型系数中的任意一种或组合，获取所述信息差与所述用户间的差异性，其中，交互明文系数、场景模型系数和知识域模型系数是根据所述用户习惯计算。不同类型的用户在计算所述差异性时有着不同的系数，可以使计算出的差异性更加准确，使得本发明实施方式提供的技术方案可以更贴近于用户的使用习惯，提升用户的使用感。

另外，本发明实施方式提供的语音交互方法，在向所述用户发起对话之前，还包括：检测所述用户当前状态是否达到预设沟通阈值；当所述用户当前状态达到预设沟通阈值时，则向所述用户发起对话。可以根据用户当前的状态选择性的去沟通，使得本发明实施方式提供的技术方案可以更加智能的进行语音交互，进一步提升用户体验。

另外，本发明实施方式提供的语音交互方法，所述交互过程，可以随时进行语音反馈，即使有当前执行的内容，也会开启拾音，识别时会消除所述当前执行的内容的语音，而当所述用户的语音识别完成后，会暂停所述当前执行的内容，对拾音语句进行语义解析处理。可以在语音交互过程中消除当前执行内容的影响，使得本发明实施方式提供的技术方案的适用性强。

另外，本发明实施方式提供的语音交互方法，所述根据所述语义解析处理结果与当前执行内容的相关性消除所述信息差，包括：判断所述语义解析处理结果与当前执行内容是否有相关性；若无，则继续向所述用户发起对话，进行多轮交互；若有，则根据当前执行内容向所述用户进行解释说明，消除所述信息差。可以在发现信息差没有消除时触发多轮交互本发明实施方式提供的技术方案可以减少误识和错识的概率，提升用户体验。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的组件表示为类似的组件，除非有特别申明，附图中的图不构成比例限制。

图1是本发明的第一实施方式提供的语音交互方法的流程图；

图2是图1所示的本发明的第一实施方式提供的语音交互方法中步骤102的流程图；

图3是图1所示的本发明的第一实施方式提供的语音交互方法中步骤103的流程图；

图4是本发明的第二实施方式提供的语音交互方法的流程图；

图5是本发明的第三实施方式提供的服务器的结构示意图；

图6是本发明的第四实施方式提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施方式涉及一种语音交互方法，具体流程如图1所示。

步骤101，获取到与用户间的信息差时，向所述用户发起对话；

在本实施方式中，信息差可以包括用户设定任务执行后状态有更新、时间改变或场景变化导致信息状态有更新、知识图谱信息更新三种维度。比如说用户初始设定的自动开机时间从原先的8点更新为9点，此时就认为与用户间存在信息差，或者说将智能产品从客厅移动到卧室，由于使用的一些预设参数还继续使用客厅场景下的，此时就认为与用户间存在信息差，或者说音箱的曲库有更新、导航仪的地图有更新，此时就认为与用户间存在信息差。当然，以上仅为具体的举例说明，在实际的使用过程中信息差还可以包括其他维度，此处不做一一赘述。

步骤102，接收并识别用户的语音，对识别的语音进行语义解析处理；

在本实施方式中，用户的语音在识别时要先对原始语音进行处理，消除部分噪声和不同说话人带来的影响，再提取用户语音的声学特征和语言模型，将所提取到的声学特征和语言模型作为特征矢量在标准库中进行模板匹配，寻找相似度最高的作为识别结果。

步骤103，根据语义解析处理的结果和当前执行内容的相关性消除信息差。

在本实施方式中，相关性的判断是判断所有的语义解析处理结果中是否有包含在当前执行内容中(或者是否有相似于当前执行内容)，若有，则说明语义解析处理结果与当前执行内容有相关性，否则说明没有相关性。

具体地，如图2所示，步骤102还包括：

步骤1021，接收用户的语音；

步骤1022，消除当前执行内容的音频并识别用户语音；

在本实施方式中，当智能设备当前是正在其他内容时，会在接收到用户的语音时，使用回音消除技术消除当前正在执行内容的音频，避免当前正在执行内容的音频降低用户语音识别时的准确率。

步骤1023，暂停当前执行内容，对识别的语音进行语义解析处理。

在步骤103中，如图3所示，还包括：

步骤1031，获取用户语音的语义解析处理结果；

步骤1032，判断语义解析处理结果与当前执行内容是否有相关性；若有，则执行步骤1033，否则执行步骤101，出发多轮交互；

在本实施方式中，语音解析处理结果与当前执行内容的相关性包含相关和不相关两种情况，相关则表明当前执行内容就是用户语音所表达的需求，不相关则表明当前执行内容与用户之间的信息差还是存在的，需要再与用户进行多轮的语音交互来消除存在的信息差。

步骤1033，根据当前执行内容向用户进行解释说明；

在本实施方式中，当语义解析处理结果与当前执行内容有相关性时，就表明当前执行内容就是用户语音所表达的需求，此时需要向用户进行解释说明，向用户说明执行当前执行内容的原因。

步骤1034，用户反馈知晓信息后，消除信息差。

在本实施方式中，用户接收到解释说明后，会向智能产品反馈知晓信息，知晓信息是指识别到用户发出“好的”、“明白”、“没有问题”等简短且包含肯定性的语音，就表明用户已经认可当前执行内容可以满足自己的需求。

本发明实施方式相对于现有技术而言，会在获取到与用户间的信息差时向用户发起语音对话，在接收并识别用户的语音之后，暂停当前正在执行的内容，对识别到的语音进行解析处理，再根据语义解析处理的结果与当前执行内容的相关性来消除与用户间的信息差，从而达到精准实现用户需求的目的，解决了现有技术中智能设备存在识别错误而导致降低用户体验感的问题。

本发明的第二实施方式涉及一种语音交互方法。具体流程如图4所示。

步骤201，获取到与用户间的信息差；

步骤202，计算信息差与用户间的差异性；

在本实施方式中，信息差与用户间的差异性的计算是根据当前状态更新所处意图/所述用户代办或关心的话题和交互明文系数、当前状态更新所处技能域/所述用户代办或关心的领域和场景模型系数、新增知识图谱/所述用户感兴趣的知识图谱领域和知识域模型系数中的任意一种或组合。其中，交互明文系数、场景模型系数和知识域模型系数是根据所述用户习惯计算。例如：差异性＝x*交互明文系数+y*场景模型系数+z*知识域模型系数。

步骤203，判断差异性是否大于预设阈值，若是，执行步骤204，否则执行步骤201；

在本实施方式中，预设阈值并非是一个确定的值，系统一般来说会默认一个预设阈值作为判断的标准，比如说预设阈值为60％，则说明当差异性大于60％时，就可以开始检测用户的状态是否可以进行交互，而预设阈值也可以由用户根据自己的习惯来更改设定。

步骤204，检测用户当前状态；

在本实施方式中，用户当前的状态可以通过检测当前所处场景下的语音状态，比如说当前场景下有没有人的脚步声、敲击键盘声音、打电话声音、鼾声等声音；也可以通过摄像头的方式(智能产品支持摄像头前提下)来观察当前所处场景下有无用户以及用户的当前状态；也可以使用检测声音和摄像头相结合的方式。

步骤205，判断用户当前状态是否达到沟通预设阈值，若是，则执行步骤206，否则执行步骤204；

在本实施方式中，沟通阈值并非是一个确定的值，可以由用户设定，沟通阈值的设定应该应考虑用户的心情状态、用户所处房间位置、用户是否忙碌、用户是否使用其他设备等因素。沟通阈值的高低可以影响语音交互的频率，沟通阈值愈低，语音交互频率越高。

步骤206，向用户发起对话；

在本实施方式中，向用户发起对话的句式以疑问句为主，其他句式为辅，比如说，当智能产品从客厅移动到卧室时，智能产品会向用户提问：“检测到当前使用环境有所更改，是否为您更新使用参数？”

步骤207，接收并识别用户的语音，对识别的语音进行语义解析处理；

步骤208，根据语义解析处理结果和当前执行内容的相关性来消除信息差。

本发明实施方式相对于现有技术而言，会在获取到与用户间的信息差时，会计算信息差与用户间的差异性是否大于预设阈值，大于时向用户发起语音对话，在开启对话之前会检测用户当前是否处于可沟通的状态，在接收并识别用户的语音之后，对识别到的语音进行解析处理，再根据语义解析处理的结果与当前执行内容的相关性来消除与用户间的信息差，从而在解决现有技术中智能设备存在识别错误而导致降低用户体验感的问题的同时使得本发明实施方式更贴近于用户的日常生活。

本发明第三实施方式涉及一种服务器，如图5所示，包括：

不难发现，本实施方式为与第一实施方式相对应的系统实施例，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明第四实施方式涉及一种电子设备，如图6所示，包括：

至少一个处理器601；以及，

与所述至少一个处理器601通信连接的存储器602；其中，

所述存储器602存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器601执行，以使所述至少一个处理器601能够执行本发明第一实施方式所述的语音交互的方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个组件，也可以是多个组件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明第五实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁盘或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种语音交互方法，其特征在于，包括：

获取到与用户之间的信息差时，向所述用户发起对话，所述信息差包含第一信息差、第二信息差和第三信息差；

接收和识别所述用户的语音，并对所述语音进行语义解析处理；

根据所述语义解析处理结果与当前执行内容的相关性消除所述信息差；

其中，所述获取到与用户之间的信息差时，向所述用户发起对话包括：

计算所述信息差与所述用户间的差异性，当所述差异性大于预设阈值时，向所述用户发起对话；

其中，所述计算所述信息差与所述用户间的差异性，包括：

根据所述第一信息差和交互明文系数、所述第二信息差和场景模型系数以及所述第三信息差和知识域模型系数计算得到所述信息差与所述用户间的差异性，其中，所述第一信息差为所述用户代办或关心的话题、当前状态更新所处意图中的任意一种，所述第二信息差为所述用户代办或关心的领域、当前状态更新所处技能域中的任意一种，所述第三信息差为新增知识图谱或所述用户感兴趣的知识图谱领域，所述交互明文系数、所述场景模型系数和所述知识域模型系数是根据所述用户习惯计算。

2.根据权利要求1所述的语音交互方法，其特征在于，所述向所述用户发起对话之前，还包括：

检测所述用户当前状态是否达到预设沟通阈值；

当所述用户当前状态达到预设沟通阈值时，向所述用户发起对话。

3.根据权利要求1所述的语音交互方法，其特征在于，所述接收和识别所述用户的语音，还包括在识别过程中消除当前执行内容的音频。

4.根据权利要求1所述的语音交互方法，其特征在于，所述对所述语音进行语义解析处理，还包括暂停当前执行内容。

5.根据权利要求1所述的语音交互方法，其特征在于，所述根据所述语义解析处理结果与当前执行内容的相关性消除所述信息差，包括：

判断所述语义解析处理结果与当前执行内容是否有相关性；

若无，则继续向所述用户发起对话，进行多轮交互；

若有，则根据当前执行内容向所述用户进行解释说明，消除所述信息差。

6.一种服务器，其特征在于，包括：

信息差检测模块：用于根据当前明文、场景模型、知识图谱模型计算与用户间的信息差，并判断是否达到阈值，再根据当前场景和所述用户判断是否达到沟通阈值；

内容相关性判断模块：用于判断所述用户的语句解析结果与当前执行内容的相关性，其中，若无相关性，会继续向所述用户提问；若有相关性，会根据当前执行内容向所述用户进行解释说明；

其中，所述信息差包含第一信息差、第二信息差和第三信息差；

所述判断是否达到阈值，包括：

计算所述信息差与所述用户间的差异性，判断所述差异性是否达到所述阈值；

其中，所述计算所述信息差与所述用户间的差异性，包括：

7.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5中任一所述的语音交互方法。

8.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一所述的语音交互方法。