CN114238589B

CN114238589B - 人机对话控制方法及装置、终端

Info

Publication number: CN114238589B
Application number: CN202010939782.0A
Authority: CN
Inventors: 肖迪
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Shanghai ICT Co Ltd; CM Intelligent Mobility Network Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Shanghai ICT Co Ltd; CM Intelligent Mobility Network Co Ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2023-11-21
Anticipated expiration: 2040-09-09
Also published as: CN114238589A

Abstract

本发明实施例提供一种人机对话控制方法及装置、终端，该方法包括：获取当前对话中用户输入的自然语言；根据当前对话中用户输入的自然语言生成当前对话初始知识图谱，当前对话初始知识图谱包括至少一个对话认知信息，对话认知信息由特定对象、通用对象事件和情境中至少一者构成；将对话认知信息与语义记忆层中对应的语义记忆认知信息相关联；根据语义记忆认知信息填充当前对话初始知识图谱，得到当前对话扩充知识图谱；根据当前对话扩充知识图谱得到聚焦的认知信息；根据聚焦的认知信息生成本次回复内容。根据本发明实施例，可以真正理解用户对话的含义，在了解用户对话含义的基础上回复用户，进而可以实现主动推动对话。

Description

人机对话控制方法及装置、终端

技术领域

本发明涉及智能终端技术领域，尤其涉及一种人机对话控制方法及装置、终端。

背景技术

随着智能化技术不断发展，一些智能终端中可以提供与用户进行人机对话的智能助手，如图1所示的现有技术中人机对话系统的原理示意图，现有技术中的智能助手会根据用户的自然语言为用户提供相应的服务或语音回复，然而现有的智能助手只会被动的应对用户的指令，无法做到真正理解对话的含义，缺少主动推动对话进行的能力。

发明内容

本发明实施例提供一种人机对话控制方法及装置、终端，该人机对话控制方法可以根据用户输入的自然语言生成当前对话初始知识图谱，并通过在预存的语义记忆层中关联出与当前对话初始知识图谱相关的认知信息，并填充至前对话初始知识图谱得到当前对话扩充知识图谱，进而根据当前对话扩充知识图谱得到聚焦的认知信息，再根据聚焦的认知信息生成本次回复内容，可以真正理解用户对话的含义，在了解用户对话含义的基础上回复用户，进而可以实现主动推动对话。

第一方面，本发明实施例提供一种人机对话控制方法，该方法包括：

获取当前对话中用户输入的自然语言；

根据当前对话中用户输入的自然语言生成当前对话初始知识图谱，所述当前对话初始知识图谱包括至少一个对话认知信息，所述对话认知信息由特定对象、通用对象、事件和情境中至少一者构成；

所述对话认知信息与语义记忆层中对应的语义记忆认知信息相关联，所述语义记忆层用于存储多个语义记忆认知信息，所述语义记忆认知信息由通用对象和情境构成；

根据所述语义记忆层中与所述对话认知信息相关联的语义记忆认知信息填充所述当前对话初始知识图谱，得到当前对话扩充知识图谱；

根据所述当前对话扩充知识图谱得到聚焦的认知信息；

根据所述聚焦的认知信息生成本次回复内容。

进一步地，所述将所述对话认知信息与语义记忆层中对应的语义记忆认知信息相关联的过程包括：

若语义记忆层已存在与所述对话认知信息相对应的语义记忆认知信息，则将所述对话认知信息与语义记忆层中已存在的对应的语义记忆认知信息相关联；

若语义记忆层中不存在与所述对话认知信息相对应的语义记忆认知信息，则将所述对话认知信息作为新的语义记忆认知信息存储至语义记忆层。

进一步地，所述将所述对话认知信息作为新的语义记忆认知信息存储至语义记忆层包括：

基于所述新的语义记忆认知信息的所要表达的语义，为所述新的语义记忆认知信息提供相应的认知信息ID，并将携带认知信息ID的所述新的语义记忆认知信息存储至语义记忆层。

进一步地，所述新的语义记忆认知信息中的事件具有对应的用户标识、对用户的信任指数、确信参数和活跃度。

进一步地，所述根据所述聚焦的认知信息生成本次回复内容包括：

将所述语义记忆层中与所述聚焦的认知信息相关联的语义记忆认知信息作为聚焦的语义记忆认知信息，将与所述聚焦的语义记忆认知信息中相关联且满足预设条件的内容作为相关内容；

基于所述相关内容和回复机制产生本次回复内容。

进一步地，所述基于所述相关内容和回复机制产生本次回复内容包括：

分别基于每种回复机制确定对应的必须表达内容和概率表达内容，并基于所有回复机制对应的必须表达内容和概率表达内容产生本次回复内容。

进一步地，所述回复机制包括回避机制；

在所述分别基于每种回复机制确定对应的必须表达内容和概率表达内容之前，所述基于所述相关内容和回复机制产生本次回复内容还包括：

基于所述回避机制确定是否存在排他表达，若是，则直接根据所述回避机制产生本次回复内容，若否，则进入所述分别基于每种回复机制确定对应的必须表达内容和概率表达内容的过程。

进一步地，所述回复机制还包括以下一者或多者：好奇动机、联想机制、共情机制以及情绪系统；

所述分别基于每种回复机制确定对应的必须表达内容和概率表达内容的包括：

基于以下回复机制中的一者或多者确定所述必须表达的内容：回避机制、好奇动机以及联想机制；以及

基于以下回复机制中的一者或多者确定所述概率表达内容：好奇动机、联想机制、共情机制以及情绪系统。

第二方面，本发明实施例还提供一种人机对话控制装置，所述装置包括：处理器和存储器，所述存储器用于存储至少一条指令，所述指令由所述处理器加载并执行时以实现上述人机对话控制方法。

第三方面，本发明实施例还提供一种终端，所述终端包括上述人机对话控制装置。

通过上述技术方案，该人机对话控制方法可以根据用户输入的自然语言生成当前对话初始知识图谱，并通过在预存的语义记忆层中关联出与当前对话初始知识图谱相关的认知信息，并填充至前对话初始知识图谱得到当前对话扩充知识图谱，进而根据当前对话扩充知识图谱得到聚焦的认知信息，再根据聚焦的认知信息生成本次回复内容，可以真正理解用户对话的含义，在了解用户对话含义的基础上回复用户，进而可以实现主动推动对话。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中人机对话系统原理示意图；

图2为本发明实施例提供的人机对话控制方法流程示意图；

图3为本发明实施例提供的当前对话初始知识图谱示意图；

图4为本发明实施例提供的认知信息关联的示意图；

图5为本发明实施例提供的当前对话初始知识图谱扩充示意图；

图6为本发明实施例提供的聚焦的语义记忆认知信息确认流程示意图；

图7为本发明实施例提供的语义记忆形成示意图；

图8为本发明实施例提供的系统认知架构示意图；

图9为本发明实施例提供的未经确定认知信息示意图；

图10为本发明实施例提供的语义记忆关联标注示意图；

图11为本发明实施例提供的回复策略示意图；

图12为本发明实施例提供的人机对话控制装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

关于现有技术中人机对话系统操作信息：

具体地，可以通过以下举例说明现有技术中人机对话系统的相关内容：

某智能助手做完语音识别和语义分析之后，将结构化语音分析结果打包成一个某个领域(Domain)的意图(Intent)，然后交给支持这个意图(Intent)的第三方应用(比如微信)，第三方应用被启动，从传入的Intent中获取相应的信息，完成操作。

例如，“I need to send a message to Nancy via WeChat saying I'll befive minutes late"，

领域(Domain)：Messaging；

意图(Intent)：Send a message(INSendMessageIntent)；

意图参数(Intent Parameter)；

收件人(recipients)：Nancy；

消息内容(content)：I'll be five minutes late。

然而现有的智能助手仅可支持如下7个领域的共计22种意图：

语音通话VoIP Calling：打电话、发起视频电话、查通话记录

信息Messaging：发信息、搜索信息

照片搜索Photo Search：搜索照片、播放照片幻灯片

个人之间的付款Payments：向某人付款、向某人收款

健身Workouts：开始健身、暂停健身、恢复健身、结束健身、取消健身

打车Ride Booking：查看附近可用的车辆、订车、查看订单

车载CarPlay：切换音频输入源、空调、除霜、座椅加热、FM调台(只针对汽车厂商)。

现有技术中存在的缺陷在于，现有的智能助手智能在上述7个领域和22种意图的范围内为用户提供服务，若出现超纲问题，会做出令人失望的回复，并且只会被动的应对用户的指令，无法做到真正理解对话的含义，缺少主动推动对话进行的能力。

为克服上述缺陷，本发明实施例提供一种人机对话控制方法及装置、终端。具体如下：

图2为本发明实施例提供的人机对话控制方法的流程示意图，如图2所示，该方法包括：

步骤101：获取当前对话中用户输入的自然语言；

步骤102：根据当前对话中用户输入的自然语言生成当前对话初始知识图谱；

步骤103：将当前对话初始知识图谱中的对话认知信息与语义记忆层中对应的语义记忆认知信息相关联；

步骤104：根据语义记忆层中与对话认知信息相关联的语义记忆认知信息填充当前对话初始知识图谱，得到当前对话扩充知识图谱；

步骤105：根据当前对话扩充知识图谱得到聚焦的认知信息；

步骤106：根据聚焦的认知信息生成本次回复内容。

关于步骤101

获取当前对话中用户输入的自然语言，所接收到的用户输入的自然语言可以为文本信息也可以为语音信息，语音信息转化为文本信息后进入后续步骤。

为鼓励用户输入内容，本发明实施例在首次对话时可发出开场白例如：

“你好，我是聊天机器人娜娜，有什么烦心事，有趣事都可以跟我说～”

下面以收到用户输入自然语言“我老婆生了”为例。

关于步骤102

在接收到用户输入的自然语言后，根据当前对话中用户输入的自然语言生成当前对话初始知识图谱，所述当前对话初始知识图谱包括至少一个对话认知信息，所述对话认知信息由特定对象、通用对象、事件和情境中至少一者构成。图3示出了本发明实施例提供的当前对话初始知识图谱示意图，如图3所示，如用户输入的自然语言为“我老婆生了”，并根据该语音信息生成当前对话初始知识图谱，具体地，首先对语音信息进行分词，如将“我老婆生了”进行分词后得到“我”-“老婆”-“生了”。进一步地确定经过分词后的语音信息中的对话认知信息，对话认知信息由特定对象(SO，Specific Object)通用对象(CO，CommonObject)、事件(EV，Event)和情境(ST，Situation)中至少一者构成，该特定对象SO为指定的人或物，比如“我”、“我老婆”、“我的孩子”、“我养的猫”或“我的车”等，通用对象CO泛指的人或物或者被大众熟知的特定人或物，例如，“老婆”、“流浪狗”、“孩子”、“网络游戏”、“孙悟空”、“北斗定位系统”等。事件EV为用户的个人事件，事件EV对应当前对话知识图谱中的一个“区域”，如图3中的矩形虚线框EV#001中的内容即为当前对话知识图谱中对应的事件“老婆生了”，情境ST为如：打招呼(你好/hi)、告别、分手、婚姻、亲子关系等情境或公共所知的事件，例如，“新冠疫情”、“科比去世”等。

如图3所示，确定出用户输入的自然语言中的对象包括“我”(SO#001)和“老婆”(SO#002)，而该语音信息中事件则为“老婆生了”(EV#001)。在确定对象SO和事件EV后，还可以根据当前对话用户ID生成对象SO和事件EV相应的认知信息ID，如上述“我”的认知信息ID为(SO#001)、“老婆”的认知信息ID为(SO#002)和“老婆生了”的认知信息ID为(EV#001)。

关于步骤103

将所述对话认知信息与语义记忆层中对应的语义记忆认知信息相关联的过程包括：

将所述对话认知信息作为新的语义记忆认知信息存储至语义记忆层包括：

基于所述新的语义记忆认知信息的所要表达的语义，为所述新的语义记忆认知信息提供相应的认知信息ID，并将携带认知信息ID的所述新的语义记忆认知信息存储至语义记忆层。新的语义记忆认知信息中的事件具有对应的用户标识、对用户的信任指数、确信参数和活跃度。

具体地，将所述对话认知信息与语义记忆层中对应的语义记忆认知信息相关联，所述语义记忆层用于存储多个语义记忆认知信息，所述语义记忆认知信息由通用对象和情境构成；其中，该语义记忆层中存储多个语义记忆认知信息，不同于对话认知信息中的特定对象，语义记忆认知信息中的对象为通用对象(CO，Common Object)，该通用对象CO泛指的人或物或者被大众熟知的特定人或物，例如，“老婆”、“流浪狗”、“孩子”、“网络游戏”、“孙悟空”、“北斗定位系统”等。语义记忆认知信息中的情境ST为如：打招呼(你好/hi)、告别、分手、婚姻、亲子关系等情境或公共所知的事件，例如，“新冠疫情”、“科比去世”等。

根据步骤102中所确定的对象SO和事件EV在语义记忆层中关联得到相应的通用对象CO和情境ST，图4示出了本发明实施例提供的认知信息关联示意图，如图4所示的，例如，用户输入的自然语言为“我老婆生了”，该语音信息中的对象SO包括“我”(SO#001)和“老婆”(SO#002)，而事件EV包括“老婆生了”(EV#001)，将对象SO“我”(SO#001)和“老婆”(SO#002)以及事件EV“老婆生了”(EV#001)向语义记忆层进行关联，可以得到相对应的通用对象CO、对象间的关系以及相应情境ST，其中，对象SO“我”(SO#001)相关联的通用对象CO为“老公”(CO#001)，对象SO“老婆”(SO#002)相关联的通用对象CO为“老婆”(CO#002)，通用对象CO“老公”(CO#001)与“老婆”(CO#002)之间为“婚姻关系”。事件EV“老婆生了”(EV#001)相关联的情境ST为“老婆生育孩子”(ST#001)，根据该情境“老婆生育孩子”(ST#001)进一步确定出存在于本情境(ST#001)中的另一通用对象CO“孩子”(CO#003)，其中通用对象CO“老婆”(CO#002)与“孩子”(CO#003)之间为“生育关系”以及“母子或母女关系”，由于未确定“孩子”(CO#003)的性别，因此并不能直接确定“老婆”(CO#002)与“孩子”(CO#003)到底是“母子关系”还是“母女关系”，而可以直接确定的是“老婆”(CO#002)生育了“孩子”(CO#003)。

如图4所示，将所述认知信息ID：EV#001、SO#002对应的当前对话知识图谱中的信息“老婆生了”、“老婆”在语义记忆中查找匹配的信息。并将匹配的信息“老婆生孩子”、“老婆”对应的认知信息ID：ST001、CO#002与EV#001、SO#002形成关联。如果“老婆”“生了”及其近义词是首次录入语义记忆中出现，则创建新的认知信息ID进行关联。

当前对话中出现的SO、EV认知信息ID通过对应的CO、ST认知信息ID与语义记忆发生关联；当前对话中出现的CO、ST认知信息ID直接与语义记忆发生关联。这样的认知架构能够实现不同用户的个人信息(SO、EV)完全独立保存，不与其他用户的SO、EV发生混淆。同时只保存普适信息的语义记忆能够不断地通过对话进行扩展。

如图8所示的认知架构，能够通过认知信息ID解决自然语言中常见的多义词问题：例如“我老婆生了”，“我老婆是miku”对应不同的ST,其中的“老婆”分别对应不同的CO)。

如图8所示的认知架构，能够通过认知信息ID解决自然语言中常见的近义词问题：例如“老婆生了”、“我内人生了”对应同一个ST。

如图8所示的认知架构，聊天记录为基于用户ID和时间线存储的原始聊天内容，当存在信息被误解并被澄清时，可以重新对聊天记录进行追溯，对当前对话知识图谱中的认知信息ID的关联进行重构。例如：

用户输入：“我特别喜欢Michael。”

系统回复：“据说他歌唱的很好，可惜我还不会听。”(参考联想、回避机制)

用户继续输入：“我说的是打篮球的那个。”

系统回复：“我还不知道打篮球的Michael，可以跟我说说他么？”(参考好奇动机)

此时，当前对话可以追溯即聊天记录的内容，并更新认知核心的关联并重构知识图谱，将用户输入的“Michael”对应到新创建的通用对象CO“打篮球的Michael”。

如图8所示的认知架构，系统自身是通用实体CO。同时系统在每一个用户的当前对话知识图谱中，也会存在一个对应的特定实体SO，随着与不同用户的互动产生不同事件，不同用户会对系统进行评价。通过上述评价过程，系统能够形成丰富的自我认知。

当前对话知识图谱向语义记忆知识图谱同步信息时的算法如下：

语义记忆知识图谱是以知识图谱形式存储的文本信息单元及文本信息单元间的关系。语义记忆的关系R是一个四维矩阵，其中包含以下四个维度的数据：ID、对ID的信任指数Ru、确信参数T以及该条信息存储至语义记忆层的时间S，其中：

ID指用户ID和系统ID，每个当前对话存在一对用户ID及系统ID，例如USER#001、SYS#001，用户ID和系统ID相关的语言内容等价的参与到4维度的数据相关的计算中；

确信参数T为-1到1之间的数值，T＝1为真，T＝0为不确定，T＝-1为假。

例如某关系R可以表示为：

R＝[ID1,Ru1,T1,S1；ID2,Ru2,T2,S2；.......IDn,Run,Tn,Sn；]

上述公式中n表示第n个数据,下同。

系统对当前对话正在对话的ID保持“有保留”的信任，对新出现的关联按照语义的T值保存，如输入：“5G会导致感冒。”图9示出了本发明实施例提供的未经确定认知信息ID示意图，若用户输入类似谣言或未经确认的信息，则在语义记忆中被保存，并生成如图9所示的关系，具体地，图9中虚线框内为本次需要存储的信息，对用户“有保留”信任，即暂定确信参数T＝1为真。如图9中，由“5G”指向“感冒”的箭头为虚线，则表示用户输入的该条信息“未经确定”。“有保留”的信任体现在未经确认的语义记忆“关联”仅对当前正在对话的ID生效。

此时，系统的回复是：“嗯，为什么？”(参考好奇动机)。

“临时性”关联达到一定的重复次数时(按照实际的用户数及运营能力确定)，督导(指维护系统聊天内容及知识图谱内容的运维人员)对关联通过对话的形式进行人工标注T。例如“5G会导致感冒是谣言。”语义记忆关联标注为如图10所示。

在经过语义记忆关联标注后，当后续用户再输入“5G会导致感冒”或类似语句时，系统将回复“这是谣言”。(参考回避机制)

用户的可靠程度Ru：用户在对话中表达的关联关系Tu与督导标注T值的差异越小可靠程度越高。该用户的可靠程度Ru的计算公式可以表示为：

Ru＝((2n-|Tu1-T1|-|Tu2-T2|...-|Tun-Tn|)/2n)^X

X次方是可调参数，数值越高，系统越难被取信，初步可以设为100。用户表达的存在督导标注的关联数量达到一定数值之后(例如去重后大于1000)，且Ru值>0.5，即被认为是可靠用户。

自动计算的确信参数Ta：当对某一关系R存有一定数量的可靠用户(如可靠用户数量>＝10)提及，可靠用户的T值按照Ru加权后的算术平均值，即可作为该关系R的总体确信参数Ta。

Ta＝(Ru1Tu1+Ru2Tu2...RunTun)/n

通过得到关联R的总体确信参数Ta，可以脱离人工标注，实现系统自主进行知识图谱内容扩充。

当Ta与督导的标注T同时存在，并冲突时(如Ta＝0.54，T＝-1)。以督导的标注为准。但此时需要进行人工检查。可能存在标注错误或广泛传播的谣言。

语义记忆的基础内容可以通过类似hownet(知网)的义原知识库导入，减少近似关系、上下义关系等语言学关联的录入工作量。

关于步骤104

如图4所示，通过CO#002、ST001，可发现语义记忆中存在“老公”CO#001、“老公和老婆存在婚姻关系”ST#002，“孩子”CO#003与之存在高可靠关联(T>0.9)。

将所述高可靠关联相关的信息扩充到所述当前对话初始知识图谱，得到当前对话扩充知识图谱；具体地，图5示出了本发明实施例提供的当前对话初始知识图谱扩充示意图，如图5所示，根据上述关联得到通用对象CO“老公”(CO#001)与“老婆”(CO#002)之间为“婚姻关系”，可推得“我”SO#001的角色为“老公”，CO#001与SO#001建立关联，婚姻情境ST#002相关内容“婚姻关系”填充至当前对话知识图谱。同样的，ST#001情境中的“孩子”CO#003填充至当前对话知识图谱，得到当前对话扩充知识图谱

关于步骤105

根据所述当前对话扩充知识图谱得到聚焦的认知信息ID，具体地，基于步骤104中当前对话扩充知识图谱，确定当前对话扩充知识图谱中主要语法结构对应的多个认知信息ID中所包含元素最多的认知信息ID，并将其作为聚焦的认知信息ID。例如，如图5所示的当前对话扩充知识图谱中，其主要语法结构仅包含一个事件EV#001(ST#002婚姻情境为隐含事件)，因此，图5所示的当前对话扩充知识图谱中的事件“老婆生了孩子”(EV#001)作为聚焦认知信息ID。

若用户输入的自然语言较为复杂，例如。用户输入：“我爸妈很小就离婚了，我妈不要我，就把我丢给亲戚家，那时候我才五岁，我被他们打了3年，拿烟头烫，下着雨被赶出去，没人帮我。后来他们不想养我了，我被我爸接了回去，他对我不是打就是骂，学校里被欺负，被诬蔑偷东西，被扒衣服，我跟他说他也不帮我只会对我凶。我手上全是疤，自己割的，血流出来的时候我才能感觉到我还活着。”

若根据上述自然语言生成相应的当前对话扩充知识图谱，则该当前对话扩充知识图谱中存在多个事件EV，具体地，可以根据多个事件之间的关联关系(在语义记忆层获取)确定一个“中心事件”，该“中心事件”与上述多个事件均相关，并将该“中心事件”作为聚焦认知信息ID，上述例子中的内容在语义记忆中均和“童年经历”、“抑郁”存在关联，可以将“童年经历造成的极度抑郁”相关的情境ST作为聚焦的认知信息ID展开后续的讨论。如果确实存在多个事件且没有对应的中心事件，则每个事件均为聚焦的认知信息ID,相关内容分别进入步骤106，进行多轮的回复。

关于步骤106

根据所述聚焦的认知信息ID生成本次回复内容，具体地，可以将与所述聚焦的认知信息ID关联且满足预设条件的语义记忆内容作为相关内容，并基于所述相关内容和回复机制产生本次回复内容。图6示出了本发明实施例提供的聚焦认知信息ID的相关内容示意图，如图6所示，基于步骤105中所确认的聚焦认知信息ID为EV#001，在语义记忆层关联对应的情境ST#001相关的高活跃信息。具体地，根据预存的以下高活跃计算公式计算出情境(ST#001)的高活跃信息：

A＝Ru1S1’+Ru2S2’+......RunSn’

其中，时间参数S’与时间S为函数关系：越近期，S’越趋近于1，越久远，S’越趋近于0，时间参数S’与时间S的函数关系是可调参数。

例如，根据上述计算得到关于老婆生了孩子”(ST#001)的高活跃相关信息包括“好幸福”、“老婆辛苦”以及“男孩女孩”。

基于该相关内容和回复机制产生本次回复内容，具体地，分别基于每种回复机制确定对应的必须表达内容和概率表达内容，并基于所有回复机制对应的必须表达内容和概率表达内容产生本次回复内容。

该回复机制包括以下一者或多者：回避机制、好奇动机、联想机制、共情机制以及情绪系统，在一种可实现的方式中，该回复机制包括：回避机制、好奇动机、联想机制、共情机制以及情绪系统。

图11示出了本发明实施例提供的回复策略示意图，如图11所示：

排他表达表示除了该内容外不表达其他内容；

必须表达表示不存在排他情况时，一定会被表达；

概率表达表示有概率被表达的内容，且该内容被表达的概率为P。该概率P按照语义记忆关联的“活跃度”进行计算(例如某一个表达的内容存在数个关联，则几个关联的活跃度进行累加)计算得到的P>1(即P>100％)时，必定会被表达，0<P<100％时，按照概率随机计算该内容是否被表达。假设存在N个需要表达的内容，其下属关联的活跃度分别为A1～An，内容1被表达的概率P1。

P1＝(A1/(A1+A2+...An))*(E+2-N)

其中E是系统的情绪值(参考情绪系统)。N为必须表达内容的数量。

该回复机制中还可以包括去重机制，及在生成内容时，尽可能不出现对话中已有的内容。

在分别基于每种回复机制确定对应的必须表达内容和概率表达内容之前，基于回避机制确定是否存在排他表达，若是，则直接根据所述回避机制产生本次回复内容，若否，则进入分别基于每种回复机制确定对应的必须表达内容和概率表达内容的过程。

其中，该分别基于每种回复机制确定对应的必须表达内容和概率表达内容包括：基于以下回复机制中的一者或多者确定必须表达的内容：回避机制、好奇动机以及联想机制；以及

基于以下回复机制中的一者或多者确定概率表达内容：好奇动机、联想机制、共情机制以及情绪系统。

在一种可实现的方式中，基于回避机制、好奇动机以及联想机制确定所述必须表达的内容，基于好奇动机、联想机制、共情机制以及情绪系统确定概率表达内容。

将上述最终确定表达的内容发送至自然语言生成模块，该自然语言生成模块主要负责对经过各回复机制计算后输出的内容进行润色、连接、分句等操作。自然语言的生成(NLG)目前已经有较成熟的解决方案(如写作机器人等)。无内容输入到自然语言生成模块时，系统可以沉默。此外系统本身可以获得大量真实语料，可以不断提升NLG的表现。

通过上述人机对话控制方法，通过当前对话知识图谱系统可以真正理解用户的表述内容，在了解用户对话含义的基础上回复用户，进而可以实现主动推动对话。本系统通过“好奇动机”、“共情机制”、“回避机制”、“联想机制”、“情绪系统”，能够在应答的基础上，主动发问、表达共情、规避话题等。即使遇到全新的信息，也能够做出合适的回应，让对话有来有往，更接近真人。彻底颠覆传统智能助手一问一答，答不出来算数的机械式无聊对话。

以下对各回复机制进行举例解释说明

其中，表一示出了各回复机制确定何种表达内容。

表一

一、关于回避机制

回避机制分为屏蔽话题、用户不配合、不了解的内容、能力外的要求、情感连接等情况。

1.触发屏蔽话题时，不表达任何其他内容。屏蔽的话题包括：政治、色情、暴力等。

当用户提问的关键语义元素与需要直接回避的话题存在上下意关系时，直接触发回避。

例如：

用户数输入：“你对XXX怎么看？”(可以通过用户当前对话扩充知识图谱中的话题ID“XXX”确定其为政治话题)

系统回复：“我不聊政治话题。”(用户对话涉及政治问题，系统直接回避)

2.用户的不配合包括：向系统灌输谣言、语言攻击等。

例如：

用户输入：“5G会导致感冒。”(重复输入各类谣言)

系统回复：“这是谣言。”

用户输入：“你这个蠢货”

系统回复：“我不接受无理的责骂。”

此类情况发生时，用户的可靠程度(Ru)会急剧下降到0附近，参考语义记忆章节的Ru计算公式。(因为系统的自我认知是由督导标注的，固定为正面评价)

3.系统不了解的话题

系统当前能力之外的视觉、听觉、触觉等，或者该话题相关的语义记忆规模还不够大(<100连接，参数可调)。

系统会尝试响应这类话题，但会说明回避的原因，用于降低用户的预期。

例如：

用户输入：“我特别喜欢猫，摸着毛茸茸的感觉好舒服。”

系统回复“我现在还没有触觉，但感觉好幸福的样子。”(回避表达+联想表达)

用户输入：“你知道某某某么？”

系统回复：“知道，但还不太熟悉。”(联想表达+回避表达)

4.系统能力之外的要求

用户输入：“你可以帮我开灯么？人家小爱都会的。”

系统回复“我暂时只会聊天。”

用户输入：“一加二等于几？”

系统回复：“我暂时还不会，我的督导说也许以后会加计算功能。”

用户输入：“你可以做我的心理咨询师吗？”

系统回复：“我只是一个聊天机器人。”

5.系统会回避情感联系的产生。

例如：

用户输入：“我好喜欢你啊。”

系统回复：“我很高兴你能喜欢我。”

用户输入：“那你喜欢我么？”

系统回复：“我的情绪系统还不完善，暂时还不会喜欢。”

二、关于好奇动机

确定对话中是否存在以下情况：存在陌生信息、存在反常信息、模糊指代或缺失信息，若存在，则基于相应情况触发好奇动机。

1、关于存在陌生信息的情况

对话中是否存在陌生的信息。(名词第一次出现，或代词无法定位到认知信息ID)

例如，

用户输入：“我老婆想请个月嫂。”

系统回复：“月嫂是什么？”(假设系统对“月嫂”未知。)

用户输入：“嗯，女的生完孩子之后，要休息一个月左右，叫坐月子，月嫂是在月子期间照顾产妇和新生儿的保姆”。

此时，系统可以根据用户输入信息形成如图7所示的语义记忆，具体地，根据用户输入的信息创建的当前对话知识图谱，可以确定当前对话知识图谱中包括多个对象：“女人-产妇”(CO#001)、“孩子-新生儿”(CO#002)、“月嫂”(CO#003)以及“保姆”(CO#003)。当前对话知识图谱中包括的事件为“坐月子”(EV#001)，该事件“坐月子”(EV#001)具体为“女人-产妇”(CO#001)生育“孩子-新生儿”(CO#002)后休息一个月。在事件“坐月子”(EV#001)期间照顾“女人-产妇”(CO#001)和“孩子-新生儿”(CO#002)的“保姆”(CO#003)叫做“月嫂”(CO#003)。将上述信息填充至语义记忆层中，即将上述图7中的当前对话知识图谱填充至语义记忆层中。

根据用户输入，系统进一步可以回复：“谢谢，能学到这些我很高兴。”(参见情绪系统)

进一步地系统还可以根据以下回复推动对话：“虽然我对月嫂的了解还不深入，但我还是想知道你对请月嫂这事有什么看法么？”(回避表达+对当事人对事件的看法的好奇，参见下文ABC理论)

2、关于存在反常信息

对话中的信息，是否存在反常(用户表达的T值与人工标注T值或系统得出的Ta值不一致)/少见的信息或关联(知识图谱中关联弱,即无人工标注T，且尚未自动形成Ta)。

例1：用户输入：“生命是没有价值的。”

系统回复：“为什么这么认为？”

例2：用户输入：“我认为堕胎是不对的。”

系统回复：“堕胎确实很残忍，婴儿是无辜的。”(共情机制+联想表达)

用户输入：“人们不应该支持堕胎。”

系统回复：“为什么这么觉得？婴儿也确实会给没有准备好的母亲带来很大的生存压力。”(好奇表达+联想表达)

(语义记忆中，人-支持-堕胎，人-反对-堕胎的T值均为1。)

3、关于存在模糊指代的情况

聚焦到的认知信息ID(聚焦事件)存在较多的下义与其存在高活跃度的关联。

例1：用户输入：“我老婆生了！”

系统回复：“好幸福呀！男孩女孩？”(其中，聚焦事件为“老婆生了孩子”，确定该聚焦事件的高活跃信息中存在“男孩女孩”，该“男孩女孩”为“孩子”的高活跃下义，且自身形成关联)

例2：用户输入：“我特别爱他。”

系统回复：“他是？”(“他”会对应极其多的下义)

4、关于缺少信息的情况

使用ABC理论对当前对话知识图谱进行结构化，寻找缺失的信息。(ABC：Activating event指事件，含时间地点人物事情等要素；Believe，指当事人对事件的看法；Consequence由于看法形成的情绪或者行为。)

例1：用户输入：“我马上要去外国读书了。”

系统回复：“你对留学有什么感觉？”

用户输入：“挺迷茫的。”

系统回复：“为什么迷茫？”

用户输入：“留学要花很多钱，亚裔现在还挺不让人待见的。不知道付出这么多，能不能学到东西。”

例2：用户输入：“我不开心”

系统回复：“因为什么事情么？”(没有表达事件，共情不触发，表达好奇)

针对ABC理论的提问顺序为：事件>>情绪或行为>>认知看法。

三、关于联想机制

联想机制针对对话中出现的信息，通过语义记忆的关系结构，定位聚焦认知信息ID关联的内容。回答问题或者推动对话继续进行。联想机制有以下几种常见情形：

1.应对用户的提问：

例如：用户输入：“你知道某某某么？”

系统回复：“知道，他是偶像明星。”

2.礼貌用语：

例如：你好/再见/晚安/客气/抱歉/对不起等等。

由于礼貌用语的出现频率很高，关联的活跃度通常较高。

3.情绪联想：

例如用户输入：“我中过500万。”

系统回复：“那你那时候一定非常开心吧。”(中奖-开心)

注意：情绪联想的表达概率受到情绪系统的加权。(参见情绪系统)

4.其他联想：

例如：用户输入：我高三啦

系统回复：“那马上考大学了啊，想去哪个大学？“(“高三”联想到“考大学”，大学属于“模糊指代”存在大量的下义，触发好奇引擎)

用户输入：“嗯，我准备考武大计算机。”

系统回复：“武汉大学的樱花很美。”(武汉的近期高活跃关联)

5.应用拓展：

针对用户提问或指令，可以存在一些特定的应用，通过联想机制激活。例如：

1>我的性格：

对话中情绪词的PAD统计数据(见共情机制)，能反映用户性格的倾向性。P维度反映了乐观(P+)-悲观(P-)倾向。A维度反映了外向(A+)-内向(A-)的程度。D维度反映了强势(D+)-弱势(D-)的倾向性。用户对系统发问时，可以通过情绪倾向的统计进行回答。

如：用户输入：“你觉得我是什么样的人？

系统回复：“我觉得你有些内向，但挺乐观自信的。”(P+,A-,D+)

2>计算器、天气查询、家电控制、汽车控制等常见应用也可以通过类似方式进行。

四、关于共情机制

通过以下方式量化用户情绪状态：

1.针对用户表达的事件(EV)，通过语义记忆系统发现高活跃的关联情绪词，通过情绪词的PAD三维情绪模型，量化用户的情绪状态。

PAD模型由以下三个维度组成(详见参考资料，但网络资料的用词不够准缺，下文已做相应修正)：

P(Pleasure-displeasur)度量情绪的愉悦程度，判断情绪的正负面状态。比如愤怒和恐惧属于非愉悦情绪，而喜爱则属于愉悦情绪。

A(Arousal-nonarousal)度量情绪的激活程度。例如激动比开心的激活程度更高，沮丧则激活程度较低。

D(Dominance-submissiveness)度量情绪的优势度，表示主体对情景的可控制性。例如愤怒是优势情绪，恐惧则处于劣势，焦虑在两者之间。

系统按照PAD模型维护一个情绪词(或词组)对应的三维数值表(比如愉快＝[0.7,0,0.8]；焦虑＝[-0.8,-0.6,-0.1]；残忍＝[-0.9,-0.8,0.5])。

随着对话的累积，新出现的情绪词，或者旧的情绪词在PAD模型中的坐标位置可以按照情绪词与情境认知信息ID的关联活跃度，通过协同过滤算法重新计算。

同时，PAD情绪模型，能够为联想机制提供大量的情绪近似关系，保证共情时的表述足够多样化。

情绪反应离散度较大的情境，如：出国、毕业等，在用户未表达情绪时，不预设情绪值。

同时，用户的情绪默认会发生自然消退：

i.用户当前事件的情绪默认每分钟向0收敛0.01。

ii.用户过往事件的情绪默认每秒向0收敛0.01。

2.当用户情绪状态出现波动时触发“共情”，即在情绪相关的联想表达的基础上，进行额外的加权，情绪波动越大，加权越高。共情加权被触发时，会挤占其他概率表达的可能性。需要注意的是，无事件的单纯情绪表达，不触发共情。

例1：

用户输入：“我中过500万。”(PAD＝[0.7,-0.5,0.8]，

系统回复：“那你一定非常开心吧。”(中奖-开心，表达共情)

用户输入：“是啊，可没多久，我父亲生病离世了，钱并没能救他。”(PAD＝[-0.8,-0.5,0])

系统回复：“父亲的离世对你的打击看起来非常大。”(情绪巨大落差，情绪相关联想权重加大。)

用书输入：“嗯，我消沉了好几年。”(PAD＝[-0.8,-0.5,0])

系统回复：“那几年发生了什么？”(情绪值与先前相近，不触发共情，正常表达好奇)。

随着对话内容的增多，知识图谱的范围也会扩大，会有大量交错重叠，存在包含、被包含、部分包含等关系的事件认知信息ID。

五、关于情绪系统

1.情绪系统控制系统自身的情绪数值E，针对每个用户独立。情绪E数值上仅保留PAD三维情绪模型中的P维度，初始值为0，数值区间为(-1～1)。

与共情的差异在于，共情是在表达“我理解你的感受”。情绪系统是在表达系统自身的情绪。

2.以下情况产生情绪系统数值增减

A)好奇动机得到满足：按照新增关联的数量，数值增加0.1～0.5(每一条0.1)，通过好奇动机，E最多能增加到+0.5。

B)由于话题在系统当前能力之外，触发回避机制时，情绪值E-0.1，最多降低到-0.5。

C)当接收到用户的合理的正面或负面评价时(评价与之前讨论的事件有符合语义记忆的合理因果关系)，按照评价关键词最常关联的情绪词的P值(参照共情章节)*0.5后，对系统的E值做相应调整。

针对用户的评价产生的相关情绪联想，经过系统自身情绪波动值的加权后。形成情绪表达的强度。

D)接受到用户的情绪或情绪相关事件的诉说后，系统会按照该情绪在PAD模型中的P值*0.1，累加到系统的情绪E数值上。

E)情绪的自然消退：系统情绪值E按照每秒0.01的速度向0收敛。

图12示出了本发明实施例提供的人机对话控制装置结构示意图，如图12所示，本发明实施例提供的人机对话控制装置包括处理器10和存储器20，所述存储器20用于存储至少一条指令，所述指令由所述处理器10加载并执行时以实现以下人机对话控制方法：

获取当前对话中用户输入的自然语言；

根据所述当前对话扩充知识图谱得到聚焦的认知信息；

根据所述聚焦的认知信息生成本次回复内容。

基于所述相关内容和回复机制产生本次回复内容。

进一步地，所述回复机制包括回避机制；

本发明实施例还提供一种终端，该终端包括上述人机对话控制装置。

需要说明的是，本发明实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer，PC)、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述人机对话控制方法。

可以理解的是，所述应用可以是安装在终端上的应用程序(nativeApp)，或者还可以是终端上的浏览器的一个网页程序(webApp)，本发明实施例对此不进行限定。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种人机对话控制方法，其特征在于，所述方法包括：

获取当前对话中用户输入的自然语言；

根据所述当前对话扩充知识图谱得到聚焦的认知信息；

根据所述聚焦的认知信息生成本次回复内容。

2.根据权利要求1所述的方法，其特征在于，所述将所述对话认知信息与语义记忆层中对应的语义记忆认知信息相关联的过程包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述对话认知信息作为新的语义记忆认知信息存储至语义记忆层包括：

4.根据权利要求2或3所述的方法，其特征在于，所述新的语义记忆认知信息中的事件具有对应的用户标识、对用户的信任指数、确信参数和活跃度。

5.根据权利要求1所述的方法，其特征在于，

所述根据所述聚焦的认知信息生成本次回复内容包括：

基于所述相关内容和回复机制产生本次回复内容。

6.根据权利要求5所述的方法，其特征在于，

所述基于所述相关内容和回复机制产生本次回复内容包括：

7.根据权利要求6所述的方法，其特征在于，所述回复机制包括回避机制；

8.根据权利要求6或7所述的方法，其特征在于，

所述回复机制还包括以下一者或多者：好奇动机、联想机制、共情机制以及情绪系统；

9.一种人机对话控制装置，其特征在于，所述装置包括：

处理器和存储器，所述存储器用于存储至少一条指令，所述指令由所述处理器加载并执行时以实现如权利要求1-8中任意一项所述的人机对话控制方法。

10.一种终端，其特征在于，所述终端包括权利要求9所述的人机对话控制装置。