CN114678028A

CN114678028A - 一种基于人工智能的语音交互方法及系统

Info

Publication number: CN114678028A
Application number: CN202210466115.4A
Authority: CN
Inventors: 陈强; 蒋义; 李胜光
Original assignee: Shenzhen Lisilian Information Technology Co ltd
Current assignee: Shenzhen Lisilian Information Technology Co ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-06-28

Abstract

本发明实施例公开了一种基于人工智能的语音交互方法及系统，实施本发明实施例提供的语音交互方法，在与用户进行语音交互时，通过识别用户的对话领域、当前意图和词槽，能够更加准确地理解用户意图和语义，使输出的回答更加符合用户的行为和意图，提高用户体验。

Description

一种基于人工智能的语音交互方法及系统

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于人工智能的语音交互方法及系统。

背景技术

随着社会的信息化进程日益加剧，通过自然语言与用户交流的机器人也逐渐走入人们的生活。在机器人与用户交互的过程中，基本可以将机器人分为三类：简单的一问一答方式，没有上下文，这种方式根本上是对传统检索方式的升级和迭代；有目标的人机对话，这种对话的目的是解决用户的某一特定需求，如：天气查询、订票、订酒店等，机器人需要在尽量少的对话轮数中挖掘到用户的需求信息；闲聊模式是用户与机器人之间进行的无目的对话。

但是，目前语音交互的技术依然存在巨大挑战，还很难在复杂的环境和不确定的情景下，真实的理解用户的行为和意图，无法给出质量高的回答，使用户体验度低。

发明内容

针对现有技术中的技术缺陷，本发明实施例的目的在于提供一种基于人工智能的语音交互方法及系统，改善语音交互回答质量，提高用户体验。

为实现上述目的，第一方面，本发明实施例提供了一种基于人工智能的语音交互方法，包括：

接收用户当前语音输入；

将所述当前语音输入转换为对应的当前文本信息；

若能够根据所述当前文本信息识别用户的对话领域、当前意图和词槽，则通过逻辑规则方法或机器学习的方法给出与所述当前文本信息对应的第一回答；

若无法根据所述当前文本信息识别用户的对话领域、当前意图或词槽中的至少一种，获取所述用户的过去文本信息；

若根据所述当前文本信息和过去文本信息，识别到用户对话领域、当前意图和词槽，则通过逻辑规则方法或机器学习的方法给出与所述当前文本信息对应的第二回答；

若根据所述当前文本信息和过去文本信息，不能识别用户对话领域、当前意图或词槽中的至少一种，则通过逻辑规则方法或机器学习的方法给出与所述当前文本信息对应的第三回答。

进一步，根据所述当前文本信息识别用户对话领域、当前意图和词槽，包括：

对当前文本信息进行分词处理；

对分词处理得到的词语进行词性标注，并对得到的词语进行命名实体识别和实体链接；

根据命名实体识别的结果和实体链接结果识别用户对话领域、当前意图和词槽。

进一步，根据所述当前文本信息和过去文本信息，识别到用户对话领域、当前意图和词槽，包括：

将当前文本信息和过去文本信息进行融合，获得融合文本信息；

对所述融合文本信息进行分词处理；

进一步，所述将当前文本信息和过去文本信息进行融合，获得融合文本信息，包括：

从所述过去文本信息中获取用户过去的对话领域、过去意图和词槽中的至少一种；

将所述过去的对话领域、过去意图或词槽补充至所述当前文本信息中，获得所述融合文本信息。

进一步，由近及远逐轮获取靠近所述当前文本信息的过去文本信息。

第二方面，本发明实施例还提供了一种基于人工智能的语音交互系统，包括：

语音接收模块，用于接收用户当前语音输入；

文本转换模块，用于将所述当前语音输入转换为对应的当前文本信息；

第一回答模块，用于若能够根据所述当前文本信息识别用户的对话领域、当前意图和词槽，则通过逻辑规则方法或机器学习的方法给出与所述当前文本信息对应的第一回答；

过去文本获取模块，用于若无法根据所述当前文本信息识别用户的对话领域、当前意图或词槽中的至少一种，获取所述用户的过去文本信息；

第二回答模块，用于若根据所述当前文本信息和过去文本信息，识别到用户对话领域、当前意图和词槽，则通过逻辑规则方法或机器学习的方法给出与所述当前文本信息对应的第二回答；

第三回答模块，用于若根据所述当前文本信息和过去文本信息，不能识别用户对话领域、当前意图或词槽中的至少一种，则通过逻辑规则方法或机器学习的方法给出与所述当前文本信息对应的第三回答。

对当前文本信息进行分词处理；

对所述融合文本信息进行分词处理；

实施本发明实施例提供的语音交互方法，在与用户进行语音交互时，通过识别用户的对话领域、当前意图和词槽，能够更加准确地理解用户意图和语义，使输出的回答更加符合用户的行为和意图，提高用户体验。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的基于人工智能的语音交互方法的流程示意图；

图2是本发明实施例提供的基于人工智能的语音交互系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

第一方面，如图1所示，本发明实施例提供了一种基于人工智能的语音交互方法的流程示意图，能够更加准确的理解用户意图，给出符合用户意图的答案，提高语音交互对话质量。该语音交互方法可以包括：

S100：接收用户当前语音输入。

S200：将所述当前语音输入转换为对应的当前文本信息。

接收用户的语音输入之后，通过自动语音识别技术将用户的语音输入转换为对应的文字，生成文本信息。

S300：若能够根据所述当前文本信息识别用户的对话领域、当前意图和词槽，则通过逻辑规则方法或机器学习的方法给出与所述当前文本信息对应的第一回答。

本实施例中，根据所述当前文本信息识别用户对话领域、当前意图和词槽，包括：

对当前文本信息进行分词处理；

本实施例中，领域：是指同一类型的数据或资源，以及围绕这些数据或资源提供的服务，比如“天气”、“音乐”、“酒店”等。意图：是指对于领域数据的操作，一般以动宾短语来命名，比如音乐领域有“查询天气”、“查询歌曲”、“播放音乐”、“暂停音乐”等意图。词槽：用来存放领域的属性，比如音乐领域有“歌曲名”、“歌手”等词槽。

例如，从“重庆明天天气怎么样”这句话中，通过NLU可以得到以下语义结果：

领域：天气；

意图：查询天气；

词槽：城市＝重庆；时间＝明天。

若用户当前语音输入为“重庆明天天气怎么样”这句话，则能够清楚的识别到用户的对话领域、当前意图和词槽，即能够清楚的了解到用户的对话意图。了解到用户的对话意图后，通过逻辑规则方法或机器学习的方法给出与所述当前文本信息对应的第一回答即可。

S400：若无法根据所述当前文本信息识别用户的对话领域、当前意图或词槽中的至少一种，获取所述用户的过去文本信息。

可以理解的是，有可能从用户当前语音输入中无法获取到对话领域、当前意图或者词槽中的一种或者多种，导致对用户的对话意图或语义理解不清楚。

例如，用户的语音输入为“明天天气怎么样？”，对此语音输入进行识别时，无法获取词槽中关于“城市”的属性，导致不能理解用户要查询哪个城市明天的天气。

此时，需要结合本轮对话提供的语义信息和上下文数据，确定当前对话状态，同时会补全词槽，并且根据对话状态和具体任务决定要执行什么动作，比如进一步询问用户以获得更多的信息、调用内容服务等。同样的，对于无法识别用户当前语音输入对话领域或当前意图的，也需要结合本轮对话提供的语义信息和上下文数据，确定当前对话状态，同时会补全对话领域或当前意图。

在获取用户的过去文本信息时，由近及远逐轮获取靠近所述当前文本信息的过去文本信息。即先获取前面一轮的对话文本信息，若从前面一轮的对话文本信息中无法补全当前的对话领域或当前意图的，再获取前面两轮的对话文本信息，以此类推，直至获取的过去文本信息能够补全当前的对话领域、当前意图或词槽。

S500：若根据所述当前文本信息和过去文本信息，识别到用户对话领域、当前意图和词槽，则通过逻辑规则方法或机器学习的方法给出与所述当前文本信息对应的第二回答。

具体的，根据所述当前文本信息和过去文本信息，识别到用户对话领域、当前意图和词槽，包括：

对所述融合文本信息进行分词处理；

其中，所述将当前文本信息和过去文本信息进行融合，获得融合文本信息，包括：

例如，用户在前一轮对话中说“后天我要到武汉出差”，当前用户的语音输入为“后天天气怎么样？”，则获取前一轮对话“后天我要到武汉出差”。然后，从前一轮对话中，获取到前一轮对话的词槽中“城市”的属性为“武汉”，将词槽“武汉”补充到当前文本信息中后，即认为用户当前的语音输入的含义为“武汉后天天气怎么样？”。

此种情况下，在准确识别到用户的对话意图之后，通过逻辑规则方法或机器学习的方法给出与所述当前文本信息对应的第二回答即可。

S600：若根据所述当前文本信息和过去文本信息，不能识别用户对话领域、当前意图或词槽中的至少一种，则通过逻辑规则方法或机器学习的方法给出与所述当前文本信息对应的第三回答。

由于用户对话的轮数可能较少，或者对话刚开始，导致无法通过从之前几轮对话中补充当前文本信息中缺少的对话领域、对话意图或词槽，因此无法准确识别用户对话的语义或意图。此时，需要通过逻辑规则方法或机器学习的方法给出与所述当前文本信息对应的第三回答，即主动询问用户，通过进一步询问用户以获得更多的信息、调用内容服务等，使语音交互能够继续进行下去。

第二方面，如图2所示，基于与第一方面相同的发明构思，本发明实施例还提供了一种基于人工智能的语音交互系统，该语音交互系统用于与用户进行语音交互。该语音交互系统可以包括：

语音接收模块101，用于接收用户当前语音输入；

文本转换模块102，用于将所述当前语音输入转换为对应的当前文本信息；

第一回答模块103，用于若能够根据所述当前文本信息识别用户的对话领域、当前意图和词槽，则通过逻辑规则方法或机器学习的方法给出与所述当前文本信息对应的第一回答；

过去文本获取模块104，用于若无法根据所述当前文本信息识别用户的对话领域、当前意图或词槽中的至少一种，获取所述用户的过去文本信息；

第二回答模块105，用于若根据所述当前文本信息和过去文本信息，识别到用户对话领域、当前意图和词槽，则通过逻辑规则方法或机器学习的方法给出与所述当前文本信息对应的第二回答；

第三回答模块106，用于若根据所述当前文本信息和过去文本信息，不能识别用户对话领域、当前意图或词槽中的至少一种，则通过逻辑规则方法或机器学习的方法给出与所述当前文本信息对应的第三回答。

具体的，本实施例中，根据所述当前文本信息识别用户对话领域、当前意图和词槽，包括：

对当前文本信息进行分词处理；

具体的，本实施例中，根据所述当前文本信息和过去文本信息，识别到用户对话领域、当前意图和词槽，包括：

对所述融合文本信息进行分词处理；

本实施例中，所述将当前文本信息和过去文本信息进行融合，获得融合文本信息，包括：

本实施例中，由近及远逐轮获取靠近所述当前文本信息的过去文本信息。

进一步地，本发明实施例还提供了一种可读存储介质，存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现：上述基于人工智能的语音交互方法。

所述计算机可读存储介质可以是前述实施例所述的后台服务器的内部存储单元，例如系统的硬盘或内存。所述计算机可读存储介质也可以是所述系统的外部存储设备，例如所述系统上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述系统的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述系统所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改，这些修改都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于人工智能的语音交互方法，其特征在于，包括：

接收用户当前语音输入；

将所述当前语音输入转换为对应的当前文本信息；

2.如权利要求1所述的一种基于人工智能的语音交互方法，其特征在于，根据所述当前文本信息识别用户对话领域、当前意图和词槽，包括：

对当前文本信息进行分词处理；

3.如权利要求1所述的一种基于人工智能的语音交互方法，其特征在于，根据所述当前文本信息和过去文本信息，识别到用户对话领域、当前意图和词槽，包括：

对所述融合文本信息进行分词处理；

4.如权利要求3所述的一种基于人工智能的语音交互方法，其特征在于，所述将当前文本信息和过去文本信息进行融合，获得融合文本信息，包括：

5.如权利要求4所述的一种基于人工智能的语音交互方法，其特征在于，由近及远逐轮获取靠近所述当前文本信息的过去文本信息。

6.一种基于人工智能的语音交互系统，其特征在于，包括：

语音接收模块，用于接收用户当前语音输入；

7.如权利要求6所述的一种基于人工智能的语音交互系统，其特征在于，根据所述当前文本信息识别用户对话领域、当前意图和词槽，包括：

对当前文本信息进行分词处理；

8.如权利要求6所述的一种基于人工智能的语音交互系统，其特征在于，根据所述当前文本信息和过去文本信息，识别到用户对话领域、当前意图和词槽，包括：

对所述融合文本信息进行分词处理；

9.如权利要求8所述的一种基于人工智能的语音交互系统，其特征在于，所述将当前文本信息和过去文本信息进行融合，获得融合文本信息，包括：

10.如权利要求9所述的一种基于人工智能的语音交互系统，其特征在于，由近及远逐轮获取靠近所述当前文本信息的过去文本信息。