CN110728978A

CN110728978A - 一种基于人工智能的语音对话方法和系统

Info

Publication number: CN110728978A
Application number: CN201810714241.0A
Authority: CN
Inventors: 陈访访
Original assignee: Nanjing Zhilan Artificial Intelligence Technology Research Institute Co Ltd
Current assignee: Nanjing Zhilan Artificial Intelligence Technology Research Institute Co Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2020-01-24

Abstract

本发明的实施例提供了一种基于人工智能的语音对话方法和系统，该方法包括应用单元接收用户输入的信息，传输单元调用上下文服务对用户输入的信息进行处理，并根据处理结果将用户输入的信息发送给对应的业务模块；业务模块对接收到的信息进行进一步处理，获得处理后信息，并对处理后信息进行分析，获得分析结果；对于需要对话的指令，业务模块根据指令从数据单元选择对应的对话脚本，经过处理后发送给应用单元向用户展示。采用了本发明的技术方案，为语音/文字对话交互设备或软件提供全套的对话系统和方法，改善了语音对话系统的效果和效率。

Description

一种基于人工智能的语音对话方法和系统

技术领域

本发明涉及智能设备技术领域，尤其涉及一种基于人工智能的语音对话方法和系统。

背景技术

用户在与硬件/软件进行语音对话时，需要语音对话系统的支持。语音对话系统能够理解用户的输入信息，并基于用户的输入信息给出及时准确的回复，达到自然互动的效果。

基于现有的人工智能技术，设计并实现了不同的语音对话系统，从对话功能提供给不同产品或者业务的方式上来看分为两种，第一种是将对话功能集成到不同底层业务模块内部(如娱乐、教育、工具、定制等不同模块内部拥有自己的对话逻辑)；第二种是将对话功能进行集成管理，将对话所需要的通用逻辑及功能放在独立的云端服务器，形成对话云服务，所有需要对话功能的请求通过对话云服务的客户端传输给对话云服务，对话云服务处理后将对应信息返回给底层业务模块。

第一种对话系统，适用于底层业务对话逻辑和脚本结构差异大，且业务内部更新频繁的情况。其优点是各个业务模块独立，后端逻辑和脚本结构的改变不影响其它模块，业务内部可以根据需要进行快速迭代和更改。

但是也存在缺点：后端需要较多的技术人力进行维护，代码冗余，不同底层业务模块间分别管理差异大，与控制中心之间的传输逻辑不同，导致控制中心逻辑复杂，易出错，定位问题困难，造成整个系统管理上的困难。

发明内容

鉴于上述技术问题，本发明实施例提供一种基于人工智能的语音对话方法和系统，能够为语音/文字对话交互设备或软件提供全套的对话系统和方法，改善了语音对话系统的效果和效率。

本发明的实施例一方面提供一种基于人工智能的语音对话方法，包括以下步骤：

应用单元接收用户输入的信息，发送给传输单元；

传输单元调用基础服务单元的上下文服务对用户输入的信息进行处理，并根据处理结果将所述用户输入的信息发送给业务逻辑单元中对应的业务模块；

业务模块对接收到的信息进行进一步处理，获得处理后信息，并对处理后信息进行分析，获得分析结果；

对于不需要对话的指令，业务模块根据所述指令在数据单元中选择对应的资源信息，并通过传输单元发送给应用单元，应用单元将所述资源信息向用户展示；

对于需要对话的指令，业务模块根据所述指令在数据单元中选择对应的对话脚本，经过处理后发送给应用单元，应用单元向用户展示。

进一步地，如果用户输入的信息是语音信息，还包括以下步骤：

应用单元对所述语音信息进行文字转写。

进一步地，所述业务模块对接收到的信息进行进一步处理，获得处理后信息，并对处理后信息进行分析，获得分析结果，进一步包括以下步骤：

业务模块的业务逻辑子模块调用基础服务单元对接收到的信息进行自然语音处理，理解用户的意图，进行情感分析，获得处理后信息；

业务模块的智能分析子模块对所述处理后信息进行分析，获得分析结果。

进一步地，所述业务模块根据所述指令在数据单元中选择对应的对话脚本，经过处理后发送给应用单元，应用单元向用户展示，进一步包括以下步骤：

业务模块的对话控制器子模块接收所述指令；

选择单轮对话脚本或者多轮对话脚本，并进一步选择分支节点；

业务模块的对话树引擎子模块将单轮对话脚本解析成问答对的结构，将多轮对话脚本解析成数据的结构；

节点信息选定后，对节点信息进行解析；

选定信息后，调用基础服务单元将节点信息和资源信息处理生成系统话语，返回给业务模块；

业务模块通过传输单元发送给应用单元，应用单元向用户展示。

进一步地，还包括以下步骤：

数据单元存储用户的使用日志、用户的对话数据、用户副本和业务副本，提供给基础服务单元。

进一步地，如果需要向用户以语音方式展示，还包括以下步骤：

对文字信息进行合成，转为语音信息进行展示。

本发明实施例的另一方面还提供了一种基于人工智能的语音对话系统，包括应用单元、传输单元、业务逻辑单元、基础服务单元和数据单元，其中，

应用单元用于接收用户输入的信息，发送给传输单元，对于不需要对话的指令，从传输单元获取对应的资源信息，向用户展示，对于需要对话的指令，从传输单元获取处理后的对话脚本，向用户展示；

传输单元用于调用基础服务单元的上下文服务对用户输入的信息进行处理，根据处理结果将所述用户输入的信息发送给业务逻辑单元中对应的业务模块，并将收到的资源信息和处理后的对话脚本发送给应用单元；

业务逻辑单元用于对接收到的信息进行进一步处理，获得处理后信息，并对处理后信息进行分析，获得分析结果，对于不需要对话的指令，根据所述指令从数据单元选择对应的资源信息，对于需要对话的指令，根据所述指令在数据单元中选择对应的对话脚本，经过处理后发送给应用单元；

基础服务单元用于采用上下文服务对用户输入的信息进行处理，对业务逻辑单元发来的信息进行自然语言处理，意图分析和情感分析，并将处理后信息发送给业务逻辑单元；

数据单元用户存储资源信息和对话脚本。

进一步地，所述数据单元还用于存储用户的使用日志、用户的对话数据、用户副本和业务副本，提供给基础服务单元。

进一步地，所述应用单元进一步包括应用设备、语音识别模块和语音合成模块，其中，

应用设备用于采集用户输入信息，向用户展示信息，应用设备进一步包括语音采集子模块和网络传输子模块，语音采集子模块用于采集用户的语音信息，网络传输子模块用于发送和接收信息；

语音识别模块用于将用户的语音信息转写成文字信息；

语音合成模块用于接收系统话语，将文字信息进行合成，转为语音信息。

进一步地，所述传输单元进一步包括消息中心模块和控制中心模块，其中，

消息中心模块用于接收应用单元发来的文字信息，发送给控制中心模块，根据控制中心模块的处理结果将所述用户输入的信息发送给业务逻辑单元中对应的业务模块，并将收到的资源信息和处理后的对话脚本发送给应用单元；

控制中心模块用于调用基础服务单元的上下文服务对用户输入的信息进行处理，根据处理结果确定将所述用户输入的信息发送给业务逻辑单元中对应的业务模块。

进一步地，所述业务逻辑单元进一步包括不少于一个业务模块，业务模块进一步包括业务逻辑子模块、智能分析子模块、智能推荐子模块、对话控制器子模块和对话树引擎子模块，其中，

业务逻辑子模块用于调用基础服务单元对接收到的信息进行自然语音处理，理解用户的意图，进行情感分析，获得处理后信息；

智能分析子模块用于对所述处理后信息进行分析，获得分析结果；

智能推荐子模块用于对于不需要对话的指令，根据所述指令选择对应的资源信息；

对话控制器子模块用于选择单轮对话脚本或者多轮对话脚本，并进一步选择分支节点；

对话树引擎子模块用于将单轮对话脚本解析成问答对的结构，将多轮对话脚本解析成数据的结构，节点信息选定后，对节点信息进行解析，选定信息后，调用基础服务单元将节点信息和资源信息处理生成系统话语，返回给业务模块。

进一步地，所述基础服务单元进一步包括上下文服务模块、自然语言处理模块、情感分析服务模块和语言生成服务模块，其中，

上下文服务模块用于被控制中心模块调用，根据用户的历史使用数据、用户副本、用户当前的输入三种数据进行处理分析，将处理结果传回给控制中心模块；

自然语言处理模块用于提供文本理解服务；

情感分析服务模块用于提供情感分析服务；

语言生成服务模块用于将文字信息处理成系统话语。

上述技术方案具有如下优点或有益效果：

1、为语音/文字对话交互设备或软件提供全套的对话系统和方法；

2、根据专业经验定义了不同的底层业务模块，使不同类型的产品在应用该系统时更为方便地进行；

3、为系统建立自然语言理解(NLP)、情感分析、上下文服务等基础服务，使对话更自然和智能；

4、设计底层业务分模块管理，并在各模块内部分别集成使用的对话功能，为用户交互提供对话服务；

5、对话系统结合用户属性，利用大数据分析为用户建立模型和副本，面对不同用户使用不同的对话模型，使对话更符合不同用户的需求；

6、对话服务中内设对话控制器，用以控制交互过程中的单轮或多轮，给用户的反馈更为精确。

附图说明

图1为本发明实施例一中的基于人工智能的语音对话流程图。

图2为本发明实施例二中的基于人工智能的语音对话系统的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1为本发明实施例一中的基于人工智能的语音对话流程图。如图1所示，该基于人工智能的语音对话流程包括以下步骤：

步骤101、应用单元接收用户输入的信息，发送给传输单元。

应用单元包括应用设备、语音识别模块和语音合成模块，应用设备进一步包括语音采集子模块和网络传输子模块，语音采集子模块采集用户的语音信息，网络传输子模块发送和接收信息。

应用设备将采集到的语音信息发送给语音识别模块，语音识别模块将语音信息转写成文字信息，以文字信息的形式进行下一步传输。

步骤102、传输单元调用基础服务单元的上下文服务对用户输入的信息进行处理，并根据处理结果将用户输入的信息发送给业务逻辑单元中对应的业务模块。

传输单元进一步包括消息中心模块和控制中心模块。其中消息中心模块具有通信功能，负责消息的传输，是消息传输的工具，控制中心模块负责消息的解析和分发，是整个系统的“大脑”。

即消息中心接收应用单元发来的文字信息，发送给控制中心模块；控制中心模块调用基础服务单元中的上下文服务对用户输入的信息进行处理，获得上下文服务处理的结果，通过该处理结果确定信息应当发送给哪个业务模块，消息中心模块执行该结果，将用户输入的信息传输给相对应的业务模块。

上下文服务是基础服务单元根据用户的历史使用数据、用户副本、用户当前的输入三种数据进行处理分析，将分析结果传回给控制中心模块，控制中心模块用以确定信息传递给哪个业务模块。其中，用户的历史数据包含五条，每条数据为一个[时间、地点、事件]的三元组，时间即每一次用户交互发生的时间点，地点即交互发生在系统的位置，事件即用户的操作信息。

步骤103、业务逻辑单元的业务模块对接收到的信息进行进一步处理，获得处理后信息，并对处理后信息进行分析，获得分析结果。

业务逻辑单元进一步包括多个业务模块，基本业务模块包括娱乐模块、教育模块、工具模块、定制模块等模块。娱乐模块可以细分为笑话、谜语、闲聊、讲故事、唱歌等；教育模块可以细分为英语、认知、科学、安全、美术、道德、健康、音乐等；工具模块可以细分为天气、计算器、翻译、百科、诗词、打招呼、新手引导等。

每个业务模块进一步包括业务逻辑子模块、智能分析子模块、智能推荐子模块、对话控制器子模块和对话树引擎子模块，同时还集成了网络通信的功能。

业务模块收到消息中心模块发来的信息后，业务逻辑子模块调用基础服务单元对接收到的信息进行自然语音处理，理解用户的意图，进行情感分析，获得处理后信息。

自然语音处理模块能够为系统提供文本理解服务，业务模块调用基础服务单元的自然语音处理模块时，自然语音处理模块对传来的信息进行理解，并将处理结果传回给业务模块，业务模块根据该结果确定用户的意图，并完成请求匹配和资源检索。

情感分析模块能够为系统提供情感分析服务，业务模块根据需要调用情感分析服务模块时，该模块能够根据用户的输入文本，提取相应的特征信息，根据特征分析用户的情感，将分析后的结果传回给业务模块，业务模块利用该结果执行进一步的操作。

智能分析子模块对该处理后信息进行分析，获得分析结果。

步骤104、业务模块中的智能推荐子模块根据分析结果判断指令是否需要对话，如果不需要对话的指令，转至步骤105，如果需要对话的指令，转至步骤106。

步骤105、对于不需要对话的指令，业务模块的智能推荐子模块根据该指令在数据单元中选择对应的资源信息，并通过传输单元发送给应用单元，应用单元将该资源信息向用户展示。

步骤106、对于需要对话的指令，业务模块的智能推荐子模块将信息发送给对话控制器子模块。

步骤107、对话控制器子模块根据处理后信息在数据单元中选择对应的对话脚本，经过处理后返回给业务模块。

数据单元存储单轮对话脚本和多轮对话脚本。

对话控制器子模块获取处理后信息，选择单轮对话脚本或者多轮对话脚本，并进一步选择分支节点；对话树引擎子模块将单轮对话脚本解析成问答对的结构，将多轮对话脚本解析成数据的结构，节点信息选定后，对节点信息进行解析，选定信息后，调用基础服务单元将节点信息和资源信息处理生成系统话语，返回给业务模块。

步骤108、业务模块将系统话语通过传输单元发送给应用单元，应用单元的语音合成模块接收系统话语，将文字信息进行合成，转为语音信息，然后向用户展示。

另外，数据单元存储用户的使用日志、用户的对话数据、用户副本和业务副本，提供给基础服务单元。可以根据需要从后台数据库中获取相应的数据，根据目的进行分析，例如：利用大数据分析为每个用户建立对话模型，并存回数据库，作为用户副本的一部分；根据需要进行数据的统计分析，获得产品的运营数据，为优化产品提供数据支持。

为了实现上述流程，本发明实施例还提供了一种基于人工智能的语音对话系统，图2为本发明实施例二中的基于人工智能的语音对话系统的结构示意图。如图2所示，该基于人工智能的语音对话系统包括应用单元21、传输单元22、业务逻辑单元23、基础服务单元24和数据单元25。

应用单元接收用户输入的信息，发送给传输单元，对于不需要对话的指令，从传输单元获取对应的资源信息，向用户展示，对于需要对话的指令，从传输单元获取处理后的对话脚本，向用户展示。

应用单元进一步包括应用设备211、语音识别模块212和语音合成模块213。

应用设备采集用户输入信息，向用户展示信息，应用设备进一步包括语音采集子模块和网络传输子模块，语音采集子模块2111采集用户的语音信息，网络传输子模块2112能够发送和接收信息。

语音识别模块将用户的语音信息转写成文字信息。

语音合成模块接收系统话语，将文字信息进行合成，转为语音信息。

传输单元调用基础服务单元的上下文服务对用户输入的信息进行处理，根据处理结果将用户输入的信息发送给业务逻辑单元中对应的业务模块，并将收到的资源信息和处理后的对话脚本发送给应用单元。

传输单元进一步包括消息中心模块221和控制中心模块222。

消息中心模块接收应用单元发来的文字信息，发送给控制中心模块，根据控制中心模块的处理结果将所述用户输入的信息发送给业务逻辑单元中对应的业务模块，并将收到的资源信息和处理后的对话脚本发送给应用单元。

业务逻辑单元对接收到的信息进行进一步处理，获得处理后信息，并对处理后信息进行分析，获得分析结果，对于不需要对话的指令，根据该指令在数据单元中选择对应的资源信息，对于需要对话的指令，根据处理后信息从数据单元选择对应的对话脚本，经过处理后发送给应用单元。

业务逻辑单元进一步包括不少于一个业务模块231，业务模块进一步包括业务逻辑子模块2311、智能分析子模块2312、智能推荐子模块2313、对话控制器子模块2314和对话树引擎子模块2315。

业务逻辑子模块调用基础服务单元对接收到的信息进行自然语音处理，理解用户的意图，进行情感分析，获得处理后信息。

智能分析子模块对处理后信息进行分析，获得分析结果。

智能推荐子模块对于不需要对话的指令，根据该指令在数据单元中选择对应的资源信息，对于需要对话的指令，发送给对话控制器子模块。

对话控制器子模块选择单轮对话脚本或者多轮对话脚本，并进一步选择分支节点。

对话树引擎子模块将单轮对话脚本解析成问答对的结构，将多轮对话脚本解析成数据的结构，节点信息选定后，对节点信息进行解析，选定信息后，调用基础服务单元将节点信息和资源信息处理生成系统话语，返回给业务模块。

基础服务单元采用上下文服务对用户输入的信息进行处理，对业务逻辑单元发来的信息进行自然语言处理，意图分析和情感分析，并将处理后信息发送给业务逻辑单元。

基础服务单元进一步包括上下文服务模块241、自然语言处理模块242、情感分析服务模块243和语言生成服务模块244。

上下文服务模块被控制中心模块调用，根据用户的历史使用数据、用户副本、用户当前的输入三种数据进行处理分析，将处理结果传回给控制中心模块。

自然语言处理模块提供文本理解服务。

情感分析服务模块提供情感分析服务。

语言生成服务模块将文字信息处理成系统话语。

数据单元存储单轮对话脚本和多轮对话脚本，还存储用户的使用日志、用户的对话数据、用户副本和业务副本，提供给基础服务单元。

采用了上述技术方案，可以为语音/文字对话交互设备或软件提供全套的对话系统和方法；根据专业经验定义了不同的底层业务模块，使不同类型的产品在应用该系统时更为方便地进行；为系统建立自然语言理解(NLP)、情感分析、上下文服务等基础服务，使对话更自然和智能；设计底层业务分模块管理，并在各模块内部分别集成使用的对话功能，为用户交互提供对话服务；对话系统结合用户属性，利用大数据分析为用户建立模型和副本，面对不同用户使用不同的对话模型，使对话更符合不同用户的需求；对话服务中内设对话控制器，用以控制交互过程中的单轮或多轮，给用户的反馈更为精确。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述的是本发明的优选实施方式，应当指出对于本技术领域的普通人员来说，在不脱离本发明所述的原理前提下还可以做出若干改进和润饰，这些改进和润饰也在本发明的保护范围内。

Claims

1.一种基于人工智能的语音对话方法，其特征在于，包括以下步骤：

应用单元接收用户输入的信息，发送给传输单元；

2.根据权利要求1所述的基于人工智能的语音对话方法，其特征在于，如果用户输入的信息是语音信息，还包括以下步骤：

应用单元对所述语音信息进行文字转写。

3.根据权利要求1所述的基于人工智能的语音对话方法，其特征在于，所述业务模块对接收到的信息进行进一步处理，获得处理后信息，并对处理后信息进行分析，获得分析结果，进一步包括以下步骤：

4.根据权利要求1所述的基于人工智能的语音对话方法，其特征在于，所述业务模块根据所述指令在数据单元中选择对应的对话脚本，经过处理后发送给应用单元，应用单元向用户展示，进一步包括以下步骤：

业务模块的对话控制器子模块接收所述指令；

节点信息选定后，对节点信息进行解析；

5.根据权利要求1所述的基于人工智能的语音对话方法，其特征在于，还包括以下步骤：

6.根据权利要求1所述的基于人工智能的语音对话方法，其特征在于，如果需要向用户以语音方式展示，还包括以下步骤：

对文字信息进行合成，转为语音信息进行展示。

7.一种基于人工智能的语音对话系统，其特征在于，包括应用单元、传输单元、业务逻辑单元、基础服务单元和数据单元，其中，

数据单元用户存储资源信息和对话脚本。

8.根据权利要求7所述的基于人工智能的语音对话系统，其特征在于，所述数据单元还用于存储用户的使用日志、用户的对话数据、用户副本和业务副本，提供给基础服务单元。

9.根据权利要求7所述的基于人工智能的语音对话系统，其特征在于，所述应用单元进一步包括应用设备、语音识别模块和语音合成模块，其中，

语音识别模块用于将用户的语音信息转写成文字信息；

10.根据权利要求7所述的基于人工智能的语音对话系统，其特征在于，所述传输单元进一步包括消息中心模块和控制中心模块，其中，

11.根据权利要求7所述的基于人工智能的语音对话系统，其特征在于，所述业务逻辑单元进一步包括不少于一个业务模块，业务模块进一步包括业务逻辑子模块、智能分析子模块、智能推荐子模块、对话控制器子模块和对话树引擎子模块，其中，

12.根据权利要求7所述的基于人工智能的语音对话系统，其特征在于，所述基础服务单元进一步包括上下文服务模块、自然语言处理模块、情感分析服务模块和语言生成服务模块，其中，

自然语言处理模块用于提供文本理解服务；

情感分析服务模块用于提供情感分析服务；

语言生成服务模块用于将文字信息处理成系统话语。