CN111831798A

CN111831798A - 信息处理方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN111831798A
Application number: CN201910319841.1A
Authority: CN
Inventors: 汪华东; 刘松; 张云涛
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecom R&D Center; Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2019-04-19
Filing date: 2019-04-19
Publication date: 2020-10-27
Also published as: WO2020214011A1; US20220179888A1

Abstract

本申请实施例提供了一种信息处理方法、装置、电子设备及计算机可读存储介质，涉及自然语言处理技术领域。该方法包括：根据用户当前输入获取机器人当前对应的属性信息，然后确定针对用户当前输入所对应的待回复信息，然后基于机器人当前对应的属性信息以及针对用户当前输入所对应的待回复信息，生成目标回复并输出。本申请实施例实现了在将信息回复方(例如智能聊天机器人)与用户进行交互时，更加准确地输出目标答复，以实现与用户进行对话。

Description

信息处理方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及自然语言处理技术领域，具体而言，本申请涉及一种信息处理方法、装置、电子设备及计算机可读存储介质。

背景技术

随着信息技术的发展，智能聊天机器人随之出现，智能聊天机器人可以被广泛应用于多模态交互中，例如，智能聊天机器人可以直接和用户进行对话，或者智能聊天机器人可以接收用户输入的问题，并从知识库中检索与该问题相匹配的答案，并输出给用户。

在智能聊天机器人与用户进行信息交互的过程中，智能聊天机器人当接收到用户的输入信息时，对用户输入的信息进行意图理解，并生成目标答复，以输出至用户。因此在将智能聊天机器人应用于与用户进行交互时，如何个性化地且更为准确地目标答复并输出至用户成为一个关键问题。

发明内容

本申请提供了一种信息处理方法、装置、电子设备及计算机可读存储介质，用于解决在将智能聊天机器人应用于与用户进行交互时，如何更为准确地输出答复信息，该技术方案如下所示：

第一方面，提供了一种信息处理方法，该方法包括：

根据用户当前输入获取机器人当前对应的属性信息；

确定针对用户当前输入所对应的待回复信息；

基于机器人当前对应的属性信息以及针对用户当前输入所对应的待回复信息，生成目标回复并输出。

第二方面，提供了一种信息处理装置，该装置包括：

第一获取模块，用于根据用户当前输入获取信息回复方当前对应的属性信息；

确定模块，用于确定针对用户当前输入所对应的待回复信息；

第一生成并输出模块，用于基于第一获取模块获取的信息回复方当前对应的属性信息以及确定模块确定的针对用户当前输入所对应的待回复信息，生成目标回复并输出。

第三方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行根据第一方面所示的信息处理方法所对应的操作。

第四方面，提供了一种计算机可读存储介质，存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第一方面所示的信息处理方法。

第五方面，提供了一种信息处理方法，该方法包括：

获取用户当前输入；

基于用户当前输入以及历史交互信息，生成并输出目标回复信息。

第六方面，提供了一种信息处理装置，该装置包括：

第二获取模块，用于获取用户当前输入；

第二生成并输出模块，用于基于用户当前输入以及历史交互信息，生成并输出目标回复信息。

第七方面，提供了一种电子设备，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行根据第五方面所示的信息处理方法所对应的操作。

第八方面，一种计算机可读存储介质，存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第五方面所示的信息处理方法。

本申请提供的技术方案带来的有益效果是：

本申请提供了一种信息处理方法、装置、电子设备及计算机可读存储介质，与现有技术相比，本申请根据用户当前输入获取信息回复方当前对应的属性信息，然后确定针对用户当前输入所对应的待回复信息，然后基于信息回复方当前对应的属性信息以及针对用户当前输入所对应的待回复信息，生成目标回复并输出。即本申请中输出的目标答复是基于信息回复方当前对应的属性信息生成的，并且信息回复方当前对应的属性信息是基于用户当前输入确定的，从而可以提高信息回复方(包括智能聊天机器人)输出的目标答复信息的准确度，进而可以提升用户体验。

本申请提供了一种信息处理方法、装置、电子设备及计算机可读存储介质，与现有技术相比，本申请获取用户当前输入，然后基于用户当前输入以及用户与信息回复方交互的历史知识信息，生成并输出目标回复信息。即本申请中输出的目标答复信息是基于用户当前输入以及用户与信息回复方交互的历史知识信息生成的，而并不仅仅根据用户当前输入生成的，从而可以提高信息回复方(包括智能聊天机器人)输出的目标答复信息的准确度，进而可以提升用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1a为一种关于性格信息的聊天场景对话示意图；

图1b为一种关于情感信息的聊天场景对话示意图；

图1c为一种关于画像信息的聊天场景对话示意图；

图1d为一种关于历史交互信息的聊天场景对话示意图；

图1e为另一种关于画像信息的聊天场景对话示意图；

图2a为本申请实施例提供的一种积极成长的聊天机器人的架构示意图；

图2b为本申请实施例提供的后端数据库的示意图；

图2c为本申请实施例中通过群体数据库对个体画像数据库进行属性填补示意图；

图3为本申请实施例中一种信息处理的方法流程示意图；

图4为本申请实施例中另一种信息处理的方法流程示意图；

图5a为本申请实施例中从历史对话中提取历史知识的示意图

图5b为本申请实施例中个体数据库中存储历史知识信息的示例图；

图6为本申请实施例中基于层次强化学习的对话管理和数据更新框架图；

图7a为本申请实施例中数据库更新策略网络示意图；

图7b为本申请实施例中对话生成策略网络示意图；

图8为本申请实施例中基于编码-解码模型的NLG框架图；

图9为本申请实施例中基于张量特征融合的方法示意图；

图10为本申请实施例中多任务学习模型框架示意图；

图11a为本申请实施例中基于多标签学习的性格特征预测模型结构示意图；

图11b为本申请实施例中基于多标签学习的情感特征预测模型结构示意图；

图12为本申请实施例中群体数据库构建的流程示意图；

图13为本申请实施例提供的另一种积极成长的聊天机器人的架构示意图；

图14为本申请实施例中数据库更新的流程示意图；

图15为本申请实施例中一种信息处理装置结构示意图；

图16为本申请实施例中另一种信息处理装置结构示意图；

图17为本申请实施例中一种电子设备的结构示意图；

图18为本申请实施例中可用于实现本申请的电子设备的计算系统的框图；

图19a为本申请实施例中用户性格类型以及用户性格模板的示意图；

图19b为本申请实施例中聊天机器人性格类型以及聊天机器人性格模板示意图；

图20a为本申请实施例中用户情感类型以及用户情感模板的示意图；

图20b为本申请实施例中聊天机器人情感类型以及聊天机器人情感模板示意图；

图21a为本申请实施例中用户画像属性以及用户画像模板示意图；

图21b为本申请实施例中聊天机器人画像属性以及聊天机器人画像模板示意图；

图22a为本申请实施例中用户画像信息提取流程示意图；

图22b为本申请实施例中聊天机器人画像信息提取流程示意图；

图23为本申请实施例中预测聊天机器人属性的示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

随着人工智能的发展，智能聊天机器人(可称为Chatbot)随之出现，聊天机器人可以与用户进行对话，包括与用户进行聊天以及智能问答。现在越来越多的用户希望聊天机器人可以与其进行个性化的对话，现在存在很多聊天机器人，但是这些聊天机器人存在很多不足：

1)现有技术中Chatbot的性格和情感是预定义的，在对话中固定不变；

例如，如图1a所示的对话场景中，两个对话场景分别显示一个成年性格成熟的人和一个孩子气性格(不成熟性格)的人分别在心情糟糕的时候与Chatbot对话，但是Chatbot都是相同的性格(预定义的性格)生成目标答复与之对话，显然这种方式对于性格成熟的人是不合适的，因为其更希望得到倾听，因此导致Chatbot与用户进行对话的准确度较低，进而导致用户体验较差。

例如：如图1b所示的对话场景中，当用户分别以严肃以及高兴两种情感(语气)对Chatbot说“明天比赛我一定会拿到冠军”，此时Chatbot均以预定义的情感(调皮的口气)回复说“你肯定会失败的”。显然，当用户严肃的口气与Chatbot进行对话时，Chatbot这种回复是不恰当的，会让用户生气而失去聊天的兴趣。

上述两种对话场景中，当不同的用户通过不同的性格来与Chatbot进行对话，或者相同的用户通过不同的情感来与Chatbot进行对话，Chatbot均通过预定义的性格或者预定义的情感生成目标答复，以实现与用户进行对话，从而导致Chatbot与用户进行对话的准确度较低，进而导致用户在与Chatbot进行对话的过程中体验较差。

2)现有技术中在个性化Chatbot时，仅考虑了用户的画像信息，而忽略了Chatbot本身应具有的画像信息。

例如，用户希望Chatbot能够与自己有相似的偏好，如图1c所示的两种对话场景中分别表示男生和女生分别与Chatbot对话，问题均为“最近好看的电影是什么？”，对于男生来说一般都比较倾向于动作电影，女生更喜欢情感浪漫类电影，而现有技术中并未考虑Chatbot的本身的画像信息，可能均回复为“嗯，我认为《XXX》非常好，飙车太刺激了”，从而导致Chatbot与用户进行对话的准确度较低，进而导致用户在与Chatbot进行对话的过程中体验较差。

3)Chatbot不具有长期记忆的能力，并且在对话中不能充分利用对话的长期历史信息与用户进行对话；

例如，如图1d所示，当用户第一天与Chatbot聊天，提到某足球比赛，第二天想再继续和Chatbot聊昨天这场足球赛时，但Chatbot已完全没有昨天聊天的背景信息，从而导致Chatbot无法给出准确的答复，用户的体验较差；

4)任务型Chatbot，例如，针对音乐领域的MusicBot、医疗领域的DoctorBot、食品领域的FoodBot、电商领域的TelecomBot等，对话模式固定且单一，可持续对话轮数一般较少。并且不能够与用户进行有情感、有个性的对话，灵活性较差；

5)现有技术没有考虑如何让Chatbot在与用户对话中不断自我完善和成长。

为了解决现有技术中的技术问题，本申请提出以下解决方案：

1)建立可具有多种不同属性信息(性格、情感、画像)的Chatbot，Chatbot在与用户对话中，首先对用户的性格、情感、用户画像等的进行识别，选择用户最可能喜欢的聊天对象的性格、情感以及画像信息，与用户进行对话；

2)本申请实施例的Chatbot系统中，同时考虑用户个性化特征(属性信息)和Chatbot的个性化特征，主要包括性格、情感、画像、个体知识信息等，并设计了基于深度学习网络的联合特征学习方法；

例如，以画像信息为例，Chatbot可以在生成目标回复时考虑用户画像，如图1e所示的两种对话场景中分别表示男生和女生分别与Chatbot对话，问题均为“最近好看的电影是什么？”，对于男生来说一般都比较倾向于动作电影，女生更喜欢情感浪漫类电影，则针对男性用户回复为“嗯，我认为《XXX》非常好，飙车太刺激了”，针对女性用户，Chatbot回复“嗯，我认为《YYY》很好看，是一部非常浪漫，充满爱的电影”提升Chatbot回复准确度，提升用户体验。

3)引入个体知识库，在对话过程中提取对话文本中关键知识信息并存储于个体知识库，实现对长期历史信息的记忆；Chatbot在与用户进行对话过程中，可以从个体知识库中查找背景信息，生成并输出回复信息；

4)构建个性化数据库以及群体数据库，以实现通过个性化数据库以及群体数据库获取与用户喜好的机器人属性信息：

其中，个性化数据库可以包括：用户数据库以及Chatbot数据库，其中，用户数据库以及Chatbot数据库中均包括：性格数据库、情感数据库以及画像数据库。

其中，用户数据库中的性格数据库用于存储用户的性格信息，用户数据库中的情感数据库用于存储用户的情感信息，用户数据库中的画像数据库用于存储用户的画像信息；Chatbot数据库中的性格数据库用于存储Chatbot所具有的性格信息；Chatbot数据库中的情感数据库用于存储Chatbot所具有的情感信息，Chatbot数据库中的画像数据库用于存储Chatbot所具有的画像信息。

其中，在构建用户数据库中的性格数据库以及构建Chatbot数据库中的性格数据库均需要定义性格数据库模板，模板由相关的性格类别组成，以构成性格数据库的坐标基。性格的类别集合可以根据行为心理学概括得到。用户数据库中的性格数据库和Chatbot数据库中的性格数据库采用相同的性格数据库模板。其中，用户数据库中性格数据库模板如图19a所示，Chatbot数据库中的性格数据库如图19b所示。

其中，在构建用户数据库中的情感数据库以及构建Chatbot数据库中的情感数据库均需要定义情感数据库模板，模板由相关的性格类别组成，以构成情感数据库的坐标基。性格的类别集合可以根据行为心理学概括得到。用户数据库中的情感数据库和Chatbot数据库中的情感数据库采用相同的情感数据库模板。其中，用户数据库中情感数据库模板如图20a所示，Chatbot数据库中的情感数据库如图20b所示。

其中，在构建用户数据库中的画像数据库以及构建Chatbot数据库中的画像数据库均需要定义画像数据库模板，模板由相关的性格类别组成，以构成画像数据库的坐标基。性格的类别集合可以根据行为心理学概括得到。用户数据库中的画像数据库和Chatbot数据库中的画像数据库采用相同的画像数据库模板。其中，用户数据库中画像数据库模板如图21a所示，Chatbot数据库中的画像数据库如图21b所示。

5)提出积极成长的个性化聊天机器人，通过在对话中对个性化数据库和个体知识库的更新实现Chatbot的个性化和积极性成长，给出了基于深度学习和层次强化学习的数据库更新方法；

其中，用户数据库中的性格数据库用于存储用户的性格信息，用户数据库中的情感数据库用于存储用户的情感信息，用户数据库中的画像数据库用于存储用户的画像信息；chatbotChatbot数据库中的性格数据库用于存储chatbotChatbot所具有的性格信息；chatbotChatbot数据库中的情感数据库用于存储chatbotChatbot所具有的情感信息，chatbotChatbot数据库中的画像数据库用于存储chatbotChatbot所具有的画像信息。

对于本申请实施例，同一用户在对话过程中的性格可以是固定不变的，但是同一用户在对话过程中的情感是可能发生变化的。

例如，性格可以包括：成熟性格、敏感性格以及固执性格；情感可以包括：快乐情感、兴奋情感以及调皮情感。

对于本申请实施例，画像信息可以包括：社会属性、生活习惯以及个人偏好等特征。

例如，画像信息包括以下至少一项：性别、年龄、体重、身高、籍贯、职业、教育背景以及爱好。

在上述方案的基础上，本申请实施例提供了一种积极成长的聊天机器人的架构，用于实现Chatbot与用户进行对话，生成并输出目标答复的方法：

其中，如图2a所示，该架构中主要包含以下四个基本模块，其中：

·自然语言理解(Natural Language Understanding，NLU)，主要用于对话的信息抽取和用户意图识别；

·对话管理(Dialog Management，DM)，是整个系统的中心成分，包括对话状态跟踪(Dialogue State Tracker，DST)、对话策略(Dialogue Policy)和数据库策略；

1)对话状态追踪(DST)，记录系统从NLU模块获得信息的中间状态，如用户意图类别(Intent)、槽值填充(Slot Filling)的信度值分布变化，对话历史背景的表示、当前话语的表示等，用于对话策略和数据库更新策略生成；比如，“去XXX吃饭”，这里意图为“Food”，槽值填充Adress＝“XXX”，其中Adress称为槽位，“XXX”为槽值，槽值填充主要指输入文本的实体信息抽取。DST在记录Food(Adress＝“XXX”)，p＝0.8，这里p指的该信息的信度，可以理解为一个预测概率。该值随着对话会不断被更新确认。

2)对话策略，即生成所有可能回复(response)的概率分布P(a|s)，其中s为当前输入状态(包括DST信息和Chatbot个性化属性信息)，状态a也称action，表示为生成的一种可能回复(response)。由于回复可以是任意长度的句子，因此a的状态空间大小是无穷的(infinite)；

3)数据库策略(DB Policy)，包括四种策略：①用户数据库更新策略，确定用户数据库是否需要更新；②Chatbot数据库更新策略，确定Chatbot数据库是否需要更新；③群体数据库获取策略，确定是否需要从群体数据库获取Chatbot属性信息，以备更新Chatbot数据库；④个体知识库更新策略，决定是否需要对个体知识库进行更新，其中个体知识是来自NLU对整个对话输入的知识抽取。

·后端数据库和知识库，包括个体数据库、群体数据库和开放知识库，Chatbot需要与开放数据库进行交互以获得真实世界的知识。

·自然语言生成(Natural Language Generation，NLG)，根据对话背景信息、个体数据库和知识库生成回复。

其中，NLU获取用户输入的用户话语信息，将自然语言理解后的信息输入到DM模块，DM模块通过与后端数据库和知识库模块进行信息交互，将处理结果输入至自然语言生成模块NLG，NLG基于DM的处理结果，以及后端数据库和知识库的信息，生成针对用户输入的用户话语信息的回复信息，并输出给用户。

其中，后端数据库可以包括：群体数据库、个体数据库以及开放知识库，如图2b所示，群体数据库可以包括：群体性格数据库、群体情感数据库以及群体画像数据库，个体数据库包括：用户数据库、Chatbot数据库以及个体知识库，其中，用户数据库包括：用户性格数据库、用户情感数据库以及用户画像数据库，Chatbot数据库中包括：Chatbot性格数据库、Chatbot情感数据库以及Chatbot画像数据库；其中，用户数据库用于学习和更新对话中用户的个性化特征，Chatbot数据库根据用户数据库中的用户个性化信息进行更新和调整。群体数据库主要用来对用户数据库、Chatbot数据库的信息补充和完善，开放知识库为Chatbot提供丰富的常识性知识，并且可以为个体知识库提供常识性的知识。

对于本申请实施例，群体数据库为基于互联网中大量用户对话数据抽取得到的图关系数据库，其中该图关系数据库的节点表示用户及其个性化信息(性格特征、情感特征和画像特征等)，边表示用户与用户之间的喜好关系，这里喜好关系可根据用户之间对话的次数得到的权值反映。该群体数据库的主要功能：

1)辅助用户数据库，补充个体数据库信息，即由当前对话信息获取用户个性化信息不完备(即缺失或信度接近于零)的情况下，对用户个性化信息进行补充和近似。这里我们以群体画像数据库为例，说明群体数据库是如何对个体数据库信息进行补充的，如图2c所示：在用户画像数据库中，用户i缺少“兴趣”的属性值，在群体数据库中，由于用户k具有“兴趣”属性值，且用户k与用户i相似，可用其“兴趣”属性值来填补用户i的缺失信息。

2)辅助Chatbot个体数据库，在识别用户个性化特征基础上，帮助Chatbot选择恰当的个性化特征，即用户可能喜欢的聊天对象所具有的个性化特征。该操作主要是在本地Chatbot个体数据库中存储的个性化特征不完整的情况下，从群体数据库中补充。

对于本申请实施例，用户性格数据库用于存储用户对应的性格特征，并且能够实现对用户性格特征的不断学习和更新；Chatbot性格数据库用于存储Chatbot所对应的性格特征，以使得Chatbot能够以不同的性格与用户进行对话；用户情感数据库用于存储用户对应的情感特征，并且能够实现对用户情感特征的不断学习和更新；Chatbot情感数据库用于存储Chatbot所对应的情感特征，以使得Chatbot能够以不同的情感与用户进行对话；用户画像数据库以及Chatbot画像数据库分别用于存储用户的画像信息以及Chatbot的画像信息。在本申请实施例中，个体知识库主要来用记录对话中的本地知识信息，用以实现Chatbot对长期背景记忆，该数据库的输入与对话管理DM相连，并为NLG提供对话背景知识信息，该数据库独立于其他数据库。

对于本申请实施例，开放数据库也称在线知识库或知识图谱，主要是一种常识性知识网络，如<XXX，总统，YY>、<AAA、身高、2.29m>分别表示“XXX是YY的总统”、“AAA的身高为2.29m”。个体数据库与开放知识库相连接，可为Chatbot提供丰富的开放域的常识性知识。

结合上述结构，本申请实施例提供了一种信息处理方法，用于实现用户与信息回复方进行对话，以解决上述技术问题，方法流程如下所示：

步骤S101(图中未示出)，根据用户当前输入获取信息回复方当前对应的属性信息。

对于本申请实施例，信息回复方可以包括：虚拟机器人以及实体机器人，其中虚拟机器人是基于自然语言处理的智能会话系统，它是融合了多元人工技术的智能聊天机器人；实体机器人为具备虚拟机器人功能的实体装置。

步骤S102(图中未示出)，确定针对用户当前输入所对应的待回复信息。

具体地，步骤S102可以包括：基于信息回复方当前对应的属性信息确定针对用户当前输入所对应的待回复信息。

步骤S103(图中未示出)，基于信息回复方当前对应的属性信息以及针对用户当前输入所对应的待回复信息，生成目标回复并输出。

本申请实施例提供了一种信息处理方法，与现有技术相比，本申请实施例根据用户当前输入获取信息回复方当前对应的属性信息，然后确定针对用户当前输入所对应的待回复信息，然后基于信息回复方当前对应的属性信息以及针对用户当前输入所对应的待回复信息，生成目标回复并输出。即本申请实施例中输出的目标答复是基于信息回复方当前对应的属性信息生成的，并且信息回复方当前对应的属性信息是基于用户当前输入确定的，从而可以提高信息回复方(包括智能聊天机器人)输出的目标答复信息的准确度，进而可以提升用户体验。

本申请实施例的一种可能的实现方式，信息回复方当前对应的属性信息包括以下至少一项：

性格信息；情感信息；画像信息；

画像信息包括以下至少一项：性别、年龄、体重、身高、籍贯、职业、教育背景以及爱好。

本申请实施例的另一种可能的实现方式，步骤S101具体可以包括：根据历史交互信息和用户当前输入，获取信息回复方当前对应的属性信息。

其中，历史交互信息包括：从历史对话信息中获取的历史交互事件信息。

本申请实施例的另一种可能的实现方式，根据用户当前输入获取信息回复方当前对应的属性信息，包括：若根据用户当前输入确定不更新信息回复方数据库，则确定信息回复方当前对应的属性信息为上一次用户输入对应的信息回复方属性信息；和/或，若根据用户当前输入确定更新信息回复方数据库，则根据用户当前输入对信息回复方数据库进行更新，从更新后的信息回复方数据库中获取信息回复方当前对应的属性信息。

本申请实施例的另一种可能的实现方式，根据用户当前输入对信息回复方数据库进行更新，包括：根据用户当前输入确定信息回复方对应的预测属性信息，并基于信息回复方对应的预测属性信息对信息回复方数据库进行更新。

本申请实施例的另一种可能的实现方式，根据用户当前输入确定信息回复方对应的预测属性信息，包括：根据用户当前输入确定用户当前对应的属性信息；根据用户当前对应的属性信息确定信息回复方对应的预测属性信息。

本申请实施例的另一种可能的实现方式，根据用户当前输入确定用户当前对应的属性信息，包括：确定针对当前输入对应的用户属性信息；基于针对当前输入对应的用户属性信息以及用户数据库中存储的用户属性信息，确定用户当前对应的属性信息。

本申请实施例的另一种可能的实现方式，根据用户当前对应的属性信息确定信息回复方对应的预测属性信息，包括：基于用户当前对应的属性信息确定与之对应的相似属性信息；基于确定出的与之对应的相似属性信息确定所述信息回复方对应的预测属性信息。

具体地，基于用户当前对应的属性信息确定与之对应的相似属性信息；确定该与之对应的相似属性信息的用户所喜好的属性信息，并将该与之对应对的相似属性信息的用户所喜好的属性信息确定为信息回复方对应的预测属性信息。

本申请实施例的另一种可能的实现方式，从更新后的信息回复方数据库中获取信息回复方当前对应的属性信息，包括：从更新后的信息回复方数据库中获取信度最高的信息回复方属性信息作为信息回复方当前对应的属性信息。

本申请实施例的另一种可能的实现方式，用户当前对应的属性信息包括以下至少一项：性格信息；情感信息；画像信息。

其中，画像信息包括以下至少一项：性别、年龄、体重、身高、籍贯、职业、教育背景以及爱好。

本申请实施例的另一种可能的实现方式，基于用户当前输入，确定当前用户对应的性格信息，包括：基于用户当前输入，确定用户在各个性格类别上的概率分布信息；基于用户在各个性格类别上的概率分布信息确定当前用户对应的性格信息；

本申请实施例的另一种可能的实现方式，基于用户当前输入，确定当前用户对应的情感信息，包括：基于用户当前输入，确定用户在各个情感类别上的概率分布信息；基于用户在各个情感类别上的概率分布信息确定当前用户对应的情感信息。

本申请实施例提供了另一种信息处理的方法，用于实现用户与信息回复方进行对话，以解决上述技术问题，具体如下所示：

步骤S201(图中未示出)、获取用户当前输入。

步骤S202(图中未示出)、基于用户当前输入以及历史交互信息，生成并输出目标回复信息。

本申请实施例提供了一种信息处理方法，与现有技术相比，本申请实施例获取用户当前输入，然后基于用户当前输入以及用户与信息回复方交互的历史知识信息，生成并输出目标回复信息。即本申请实施例中输出的目标答复信息是基于用户当前输入以及用户与信息回复方交互的历史知识信息生成的，而并不仅仅根据用户当前输入生成的，从而可以提高信息回复方(包括智能聊天机器人)输出的目标答复信息的准确度，进而可以提升用户体验。

本申请实施例的另一种可能的实现方式，步骤S202可以包括：步骤S2021(图中未示出)以及步骤2022(图中未示出)，其中，

步骤S2021、获取与用户当前输入相匹配的历史知识信息。

步骤S2022、基于用户当前输入以及与用户当前输入信息相匹配的历史交互信息，生成并输出目标回复信息。

本申请实施例的另一种可能的实现方式，生成并输出目标回复信息，之后还包括：将用户当前输入以及目标回复信息通过预设处理方式提取关键信息，并按照知识表示形式将关键信息进行存储。

其中，预设处理方式包括以下至少一项：

实体识别；关系抽取；事件抽取；降噪处理。

在上述实施例的基础上，结合上述架构，并通过两个具体的实例(实例一以及实例二)来介绍信息回复方(下述以chatbot为例代替信息回复方)与用户进行对话，生成目标答复的具体流程，实例一：构建积极成长的个性化聊天机器人，该机器人可以在与用户对话过程中不断自我完善和成长，同时具有性格、情感、画像、个体知识等个性化特征，并且在聊天过程中可以实时预测用户的属性信息(个性化特征)，并根据用户的属性信息确定与用户进行聊天的Chatbot的属性信息，并通过确定出的Chatbot的属性信息与用户进行对话；实例二：聊天机器人可以具有长期背景记忆的能力，存储历史知识信息(用户与Chatbot在交互过程中的历史对话信息)，在与用户进行聊天的过程中，可以基于存储的历史知识信息生成回复并输出给用户，具体如下所示：

实例一

本申请实施例介绍了一种信息处理方法，在该实施例中，可以根据用户当前输入确定Chatbot当前对应的属性信息(即Chatbot在对话过程中的与用户当前输入相匹配的性格、情感以及画像)，并基于Chatbot当前对应的属性信息，与用户进行对话的过程中。其中具体的方法流程如图3所示，其中，

步骤S301、根据用户当前输入获取机器人当前对应的属性信息。

对于本申请实施例，用户当前输入包括：用户当前输入可以包括：用户当前输入的文本信息和/或用户当前输入的语音信息。

本申请实施例的一种可能的实现方式，机器人当前对应的属性信息包括以下至少一项：

性格信息；情感信息；画像信息；

本申请实施例的另一种可能的实现方式，根据用户当前输入获取机器人当前对应的属性信息，包括：若根据用户当前输入确定不更新机器人数据库，则确定机器人当前对应的属性信息为上一次用户输入对应的机器人属性信息；若根据用户当前输入确定更新机器人数据库，则根据用户当前输入对机器人数据库进行更新，从更新后的机器人数据库中获取机器人当前对应的属性信息。

本申请实施例的另一种可能的实现方式，根据用户当前输入对机器人数据库进行更新，包括：根据用户当前输入确定机器人对应的预测属性信息，并基于机器人对应的预测属性信息对机器人数据库进行更新。

本申请实施例的另一种可能的实现方式，根据用户当前输入确定机器人对应的预测属性信息，包括：根据用户当前输入确定用户当前对应的属性信息；根据用户当前对应的属性信息确定机器人对应的预测属性信息。

本申请实施例的另一种可能的实现方式，用户当前对应的属性信息包括以下至少一项：

性格信息；情感信息；画像信息；

本申请实施例的另一种可能的实现方式，根据用户当前对应的属性信息确定机器人对应的预测属性信息，包括：基于用户当前对应的属性信息查找第一相似属性信息，第一相似属性信息为与用户当前对应的属性信息相似的属性信息；查找第二相似属性信息，第二相似属性信息为第一相似属性信息对应的机器人属性信息；确定机器人对应的预测属性信息为第二相似属性信息。

本申请实施例的另一种可能的实现方式，从更新后的机器人数据库中获取机器人当前对应的属性信息，包括：从更新后的机器人数据库中获取发生更新的机器人属性信息作为机器人当前对应的属性信息。

由上述实施例可知：在获取机器人对应的属性信息的过程中，需要先基于用户当前输入确定用户当前对应的属性信息，然后确定是否更新机器人数据库，并基于确定结果，获取机器人对应的属性信息的集合，下述通过更为具体的实现方式，先介绍如何基于用户当前输入确定用户当前对应的属性信息，然后介绍确定机器人数据库是否更新过程、以及在更新或者不更新的情况下如何获取机器人对应的属性信息：

1、具体介绍如何基于用户当前输入确定用户当前对应的属性信息(性格信息、情感信息以及画像信息)以及实体、实体关系、意图等个体知识信息(可以统称为历史交互事件)：

对于本申请实施例，一种比较直接基于用户当前输入确定用户当前对应的属性信息的方式为：分别对这些任务(性格抽取任务、情感抽取任务、画像抽取任务、个体知识抽取任务)建立单独任务学习模型，该方法简单但忽略了任务之间相互关联、相互影响的事实。为此本申请实施例提出了联合学习方法(即基于深度神经网络联合提取抽取模型来抽取用户书对应的属性信息)，将这些任务看成多任务学习。联合学习有助于各任务特征提取时任务之间信息相互补充，可提升各任务特征提取效果：

具体地，从网络中爬取公开的对话文本，作为对话训练语料，并通过对话训练语料训练构建的多任务学习模型。其中，模型框架如图10所示。网络模型主要包含三层：第一层编码层，输入的信息包括背景表示(用户对应的背景表示以及Chatbot对应的背景表示、用户当前输入等信息；第二层为背景信息表示层，即在输入信息的基础上考虑上下文信息特征提取层，第三层为输出层，输出性格特征、情感特征、画像、个体知识、意图等类别信息。需要说明的是，联合抽取主要针对的用户输入NLU分析，输出中个体知识是指实体、实体关系、意图、槽值等信息，个体知识库中的信息除此之外还有事件知识信息，其抽取需要从历史对话中用户输入和Chatbot回复一起获得，具体方法见图5a及其方法描述。

对于本申请实施例，在通过多任务学习模型提取的性格特征主要由一些类别型标签组成，并通过特征向量的形式进行表征。例如，如图11a所示，用户当前输入对应的文本信息为“有什么有趣的地方可去吗？”，通过多任务学习模型(该多任务学习模型为基于LSTM、CNN或者DNN的学习模型)，输出该用户对应的性格特征向量(该用户属于任一性格类型的概率，包括：属于诚实性格类型的概率为0.6、属于敏感性格类型的概率为0.7、属于祈祷性格类型的概率为0.9…)。

对于本申请实施例，Chatbot性格特征的选择与用户的性格以及用户的话语相关，预测用户可能喜欢的Chatbot性格可以建立一个多标签预测模型，输入信息包括当前用户的性格特征、当前用户话语和上一时刻Chatbot回复共同预测得到。图23给出Chatbot的性格特征预测的模型，主要分为四层：

第1层，输入层：包括当前用户话语(用户当前输入)x1、上一时刻Chatbot回复x2和当前用户的性格特征x3；

第2层，分别采用采用神经网络(LSTM、CNN或NN)对三种数据信息(用户当前输入、上一时刻Chatbot回复以及当前的性格特征)进行编码，分别得到h11、h12、h13；

第3层，特征整合层：将三种编码后的信息h11、h12、h13输入到神经网络NN模块(还可以包括：LSTM、CNN)进行特征融合；

第4层，输出层，为多标签预测输出，每个节点对应一个性格类别，激活函数采用Sigmoid。

对于本申请实施例，在通过多任务学习模型提取的情感特征主要由一些情感类型标签组成，并通过特征向量的形式进行表征，例如，如图11b所示，基于用户当前输入的语音，进行语音识别得到对应的文本信息“我将会获得冠军”，然后通过基于LSTM或CNN的多任务学习模型得到该用户对应的情感特征向量(该用户属于任一情感类型的概率，包括；属于快乐情感类型的概率为0.8、属于调皮情感类型的概率为0.9，属于严肃情感类型的概率为0.1，属于发疯情感类型的概率为0.1…)。

对于本申请实施例，Chatbot情感特征的选择与用户的情感和用户的话语有之间的关系，预测用户可能喜欢的Chatbot情感特征可以建立一个多标签预测模型，输入信息包括当前用户的情感特征、当前用户话语语音(用户当前输入)和上一时刻Chatbot回复共同预测得到。Chatbot的情感特征预测的模型网络结构与Chatbot性格特征预测网络类似，这里不在赘述。需要说明的是，在预测Chatbot情感信息时，没有输入Chatbot输入语音，这是因为预测的用户情感特征已经提取了用户语音中情感信息。

对于本申请实施例，用户当前对应的画像信息可以根据画像模板如图21a所示从相关数据中提取得到。该相关数据可以包含用户数据，如对话中的用户文本数据、用户的APP使用数据以及外部数据，并采用特征提取、聚类、分类、对话等方法提取用户画像信息，具体如图22a所示。

进一步地，关于Chatbot对应的画像信息可以根据画像模板(如图21b所示)从相关数据中提取得到。获得画像的数据包含用户话语、Chatbot的回复文本数据、运行环境数据以及用户的反馈数据等，除此之外，还包括当前用户画像特征信息。采用特征提取、聚类、分类等方法提取Chatbot的画像信息，具体如图22b所示。

2、具体介绍确定机器人数据库是否更新过程、以及在更新或者不更新的情况下如何获取机器人对应的属性信息：

对于本申请实施例，关于Chatbot数据库的更新策略包括：Chatbot数据库更新策略，用于确定是否更新Chatbot数据库，以及群体数据库获取策略，用于确定是否需要从群体数据库中获取Chatbot属性信息，以用于更新Chatbot数据库。在本申请实施例中，先根据Chatbot数据库更新策略确定是否更新Chatbot数据库，若Chatbot数据库更新策略指示更新，则对Chatbot数据库进行更新，若Chatbot数据库更新策略未指示更新，则根据群体数据库获取策略确定是否更新Chatbot数据库，具体如图14所示。

对于本申请实施例，若通过Chatbot数据库更新策略以及群体数据库获取策略均指示不更新Chatbot数据库，则其确定与用户当前输入对应的机器人当前对应的属性信息与上一次用户输入所对应的机器人属性信息相同，仍根据上一次用户输入对应的机器人属性信息生成目标答复并输出。

对于本申请实施例，根据Chatbot数据库更新策略确定更新Chatbot数据库，则基于根据用户当前输入确定机器人对应的预测属性信息，然后通过确定出的机器人对应的预测属性信息对机器人数据库进行更新；若根据Chatbot数据库更新策略未指示更新但群体数据库获取策略指示机器人数据库更新，则根据用户当前输入确定用户当前对应的属性信息，根据用户当前对应的属性信息从群体数据库中查找与用户当前对应的属性信息相似的用户属性信息(第一相似属性信息)，然后基于第一相似属性信息，从群体数据库中查找与之对应的机器人对应的属性信息(第二相似属性信息)，然后通过第二相似属性信息更新机器人数据库。

对于本申请实施例，若通过上述Chatbot数据库更新策略和/或群体数据库获取策略对Chatbot数据库进行更新，则输入更新后的Chatbot属性信息的集合作为生成目标答复所依据的Chatbot属性信息。

对于本申请实施例，由上述可知，在对Chatbot数据库进行更新时，需要依据用户属性数据库，对基于用户当前输入得到的用户属性信息进行补充，因此在获取Chatbot属性信息，以生成目标答复的过程中可能需要对用户属性数据库进行更新。在本申请实施例中，通过用户数据库更新策略(通过DM中的数据库策略确定)以及数据库中的属性信息是否完备，以确定是否更新用户数据库。

具体地，若依据用户数据库更新策略指示更新用户数据库，则基于用户当前输入得到的用户属性信息对用户数据库进行更新；若依据用户数据库更新策略未指示更新用户数据库，则基于用户数据库中的属性信息是否完整(例如，是否缺少部分属性信息，或是否缺少任一属性信息的概率)，以确定是否更新用户数据库，具体如图14所示，图14中仅是一个示例，不作为对更新方式的限定，即本申请实施例还可以仅对Chatbot数据库进行更新，不对用户数据库进行更新，或者仅对用户数据库进行更新，不对Chatbot数据库进行更新。

对于本申请实施例，在用户与Chatbot进行初始对话时，用户数据库以及Chatbot数据库中可能未存储任何的属性信息，因此当接收到用户当前输入时，通过群体数据库确定与该用户对应的机器人属性信息。

以性格属性为例，介绍如何通过群体数据库确定与该用户对应的Chatbot的性格属性：

1.考虑具有性格属性X的用户u，当群体数据库获取策略得到的action为yes时，从群体性格数据库中找出与该用户u最相近的性格用户u′；当action为No时，则不更新Chatbot数据库，保持Chatbot性格属性不变，即仍然采用上一轮对话下的Chatbot性格属性。

2.从群体性格数据库中找出用户u′喜欢的所有性格{V₁，V₂，...，V_n}(根据群体数据库图谱的连接关系可以获得)；

3.计算相似度S(X，V_i)，i＝1，...，n，选择与X具有最大相似度的X′＝max_iS(X，V_i)，作为当前对话Chatbot对应的性格属性。

对于本申请实施例，群体数据库可以包括：群体性格数据库、群体情感数据库以及群体画像数据库。本申请实施例可以通过以下方式构建群体数据库，具体如图12所示：

1.从互联网中获得大量开放对话资源；

2.分别利用画像属性抽取模型、性格识别模型、情感识别模型提取画像、性格和情感等特征信息，存储至群体画像数据库、群体性格数据库和群体情感数据库；

3.对用户之间进行关系抽取，结合以上数据库，分别构建画像图谱、性格图谱和情感图谱；

4.对群体画像(性格或情感)和关系偏好进行聚类，得到群体的特征信息，构建群体数据库(群体画像数据库、群体性格数据库以及群体情感数据库)。

步骤S302、确定针对用户当前输入所对应的待回复信息。

对于本申请实施例，步骤S302具体可以包括：基于机器人当前对应的属性信息确定针对用户当前输入所对应的待回复信息。

对于本申请实施例，步骤S301中介绍数据库更新策略，步骤S302介绍了针对对话策略，即基于对话生成策略确定针对当前输入所对应的待回复信息，其中生成对话生成是建立数据库更新的基础上，二者之间存在前后的依赖的层次关系。本申请实施例通过层次策略强化学习以实现二者的联合管理。本申请实施例针对生成待回复信息以及数据库更新层次结构上设计了两种策略，如图6所示，对于每个时间步t＝1，…，T，假设对话历史状态序列是s_t＝p₁，q₁，r₁，…，p_t，q_t，r_t，其中p_t，q_t，r_t分别表示t时刻用户话语、t时刻Chatbot回复以及t时刻Agent收到的奖励。奖励r_t由两部分组成：来自数据库(个体数据库以及个体知识库)更新的奖励r_t1和来自对话生成(生成目标答复)的奖励r_t2。

具体地，层次策略强化学习的策略网络由两个子策略网络组成，即数据库更新策略网络和对话生成策略网络。在强化学习过程中，两个策略网络相互耦合、联合学习。在本申请实施例中，数据库更新策略网络如图7a所示，目标：数据库更新，选择需要更新的数据库；输入：状态s_t1，性格、情感、画像和本地知识的历史特征；输出：针对四个数据库的数据库策略π(a)＝P(a|s_t1)；网络：深度神经网络(Deep Neural Networks，DNN)；奖励：r_t1和r_t2的加权和，即R_t1＝λ₁r_t1+λ₂r_t2。在本申请实施例中，对话策略网络构建，生成对话生成策略π(a)＝P(a|s_t2)，用于NLG对话生成，网络结构如图7b所示，其中，目标：选择下一句对话动作以及决定NLG是选择模板生成还是模型生成；输入：状态s_t2，包括当前话语p_t，背景表示c_t和Chatbot数据d_t；输出：针对所有可利用的回复动作的对话策略π(a)＝P(a|s_t2)；网络：基于深度学习网络(长短期记忆网络(Long Short-Term Memory，LSTM)、卷积神经网络(Convolutional Neural Networks，CNN)或注意力网络(Attention)等)的编码和解码网络；奖励：用于评估对话生成效果的奖励r_t2。

对于本申请实施例，在强化学习中，奖励(reward)是用于更新策略网络的重要信息。奖励的定义依赖于实际任务的需求，因此可以有很多种形式。下面介绍数据库更新策略网络和对话生成管理策略网络的奖励定义准则：

·数据库更新奖励r_t1定义

(1)尽可能低的数据库更新频率，如

其中

表示在状态s_t下的动作k，

是一个指示函数。

(2)尽可能高的增加数据库信息量，如

数据库更新前后两步状态Φ_(t-1)u和Φ_tu的平均互信息。

·对话生成的奖励r_t2定义

(1)信息流，Chatbot能够在对话中产生有信息量的回复，以保证可持续对话，如，r₂₁＝-log cos(h_t·h_t+1)，其中h_t，h_t+1分别是从生成连续话语的编码器的编码表示；

(2)语义相关性，生成的回复应该能够满足句法，同时与用户话语相关，如，

其中第一项表示生成回复a的概率，第二项生成前一句对话话语的概率。

奖励r_t2可定义为r₂₁和r₂₂的加权和，即r_t2＝u₁r₂₁+u₂r₂₂。

步骤S303、基于机器人当前对应的属性信息以及针对用户当前输入所对应的待回复信息，生成目标回复并输出。

对于本申请实施例，基于机器人当前对应的属性信息以及针对用户当前输入所对应的待回复信息，并通过预设模型，生成目标答复并输出。

具体地，如图8所示，预设模型可以包括：编码-解码模型，输入数据包括：用户当前输入、对话生成策略(对话策略分布)、背景表示、机器人当前对应的属性信息以及意图信息，其中对话生成策略是来自对话管理模块，意图来自NLU模块，Chatbot数据来自Chatbot个体数据库和/或群体数据库。模型的输出层不仅生成对话回复(目标回复)，同时可以生成新的背景表示，将被作为下一次编码-解码模型输入的背景表示。

进一步地，如图8所示，将当前用户输入通过LSTM模型、CNN模型或者Self-Attention模型，得到对应的文本信息，并将该得到的对应的文本信息、对话策略、背景表示、Chatbot数据、槽值以及意图通过融合模型进行融合，然后将融合后的信息再通过LSTM模型、CNN模型或者Self-Attention模型得到目标回复以及下一次编码-解码模型输入的背景表示。

其中，融合模块主要用于整合话语特征、数据库特征和对话内容特征，具体可以通过以下公式进行融合：

其中，h_x表征用户当前输入、h_y表征背景特征、h_z表征Chatbot对应的属性信息，h_m表征h_x、h_y、h_z三种模态融合后的张量，“1”表示数值全为1的向量，考虑到偏置的影响，对张量进行维度扩展；在本申请实施例中，被融合的特征可以为一维张量，也可以为多维张量。

具体地，如图9所示，将h_x、h_y以及h_z，通过融合得到扩展的张量特征h_m。张量融合技术可以实现多模态信息的融合，可以有效获取多种模态之间的多维度交互信息，如单一模态信息、两种模态之间交互信息、三种模型之间交互信息等，在实际应用中，避免复杂性，只取最大不超过N＝3种模态的交互信息(当N＝1时，此时没有交互)。最后，将这多种融合的张量信息一起输入到解码的网络中。模态融合信息与模态信息的融合次序无关。

对于本申请实施例，还可以根据NLU从用户当前输入中提取的槽值以及知识，并通过如表1所示的模板生成目标答复。对话策略网络同时判断是否需要采用模板生成，如果是Yes，则采用模板生成，否则采用模型生成。

表1

其中在表1中$V、$W可以表示需要填充的槽值，$W表示这个是需要填充的信息，相对于槽位，填充的值叫做槽值；比如area＝“XXX”，这里area表示槽位，“XXX”是根据输入得到的槽值，整个过程称为槽值填充。

本申请实施例的另一种可能的实现方式，步骤S301具体可以包括：根据用户上一次输入以及历史知识信息中的至少一项和用户当前输入，获取机器人当前对应的属性信息。

其中，历史知识信息为用户与机器人之间的历史交互信息，历史知识信息中包括：历史对话信息中的对象以及各个对象之间的关系信息。

对于本申请实施例，可以根据用户上一次输入以及用户当前输入，获取机器人当前对应的属性信息；还可以根据历史知识信息以及用户当前输入，获取机器人当前对应的属性信息；还可以根据用户上一次输入、历史知识信息、和用户当前输入，获取机器人当前对应的属性信息。在本申请实施例中不做限定。

本申请实施例的另一种可能的实现方式，基于用户当前输入，确定当前用户对应的性格信息，包括：基于用户当前输入，确定用户在各个性格类别上的概率分布信息；基于用户在各个性格类别上的概率分布信息确定当前用户对应的性格信息。

本申请实施例的另一种可能的实现方式，基于用户当前输入，确定当前用户对应的情感信息，包括：基于用户当前输入，确定用户在各个情感类别上的概率分布信息；基于用户在各个情感类别上的概率分别信息确定当前用户对应的情感信息。

实例二

本申请实施例介绍了一种信息处理方法，在该实施例中，可以根据用户当前输入并基于用户与机器人交互过程中的历史知识信息，与用户进行对话的过程。其中，实例二可以与实例一结合实现，也可以单独实现，在实例二单独实现时，具体的方法流程如图4所示，其中，

步骤S401、获取用户当前输入。

对于本申请实施例，用户当前输入可以包括用户通过文本格式输入的信息，还可以包括用户通过语音格式输入的信息。在本申请实施例中不做限定。

步骤S402、基于用户当前输入以及历史交互信息，生成并输出目标回复信息。

对于本申请实施例，步骤S402具体可以包括：获取与用户当前输入相匹配的历史知识信息；基于用户当前输入以及与用户当前输入信息相匹配的历史知识信息，生成并输出目标回复信息。

对于本申请实施例，用户与机器人交互的历史知识信息(历史交互信息)包括：历史对话信息中的对象以及各个对象之间的关系信息。

在本申请实施例中，用户与机器人交互的历史知识信息可以存储在预先构建的个体知识库中。在本申请实施例中，获取用户当前输入，并基于用户当前输入确定该用户当前输入对应的意图等信息，并根据当前输入对应的意图等信息从个体知识库中获取与用户当前输入相匹配的历史知识信息。例如，用户当前输入为“昨天的球赛很好看”，则确定用户当前对应的意图为“球赛”相关信息，则从个体知识库中获取与“球赛”相关的历史知识信息。当然还可以由于个体知识库中每条历史知识信息存在与之对应的时间戳，因此在获取与当前输入对应的历史知识信息时可以结合时间信息。

本申请实施例的另一种可能的实现方式，生成并输出目标回复信息，之后还包括：将用户当前输入以及目标回复信息通过预设处理方式提取关键信息，并按照知识表示形式将关键信息进行存储；

其中，预设处理方式包括以下至少一项：

实体识别；关系抽取；事件抽取；降噪处理。

实体识别和关系抽取目前有许多成熟的方法可以利用，如实体识别可以采用基于深度学习的序列标注方法学习得到，如双向循环神经网络(Bi-LSTM)；关系抽取在实体识别的基础上采用关系分类的方法学习；也直接采用实体和关系分类联合学习方法同时进行实体识别和关系抽取，如协同标注(CoType)方法、表法(Table Representation)方法等。事件抽取主要抽取对话中的提到的事件信息，与事件相关的实体信息组成，比如一场篮球赛，事件信息包括，“球队”、“比赛时间”、“得分”、“比赛地址”等信息，同样可以采用序列标注的方法学习得到。抽取的信息往往存在一定的错误或冗余信息，需要进一步降噪处理。

具体如图5a所示，从历史对话(用户输入信息以及机器人回复信息)中提取意图信息，包括意图类别(intent)、槽值填充(slot filling)信息，然后结合开放数据库，并通过实体识别、关系抽取；事件抽取；以及降噪处理等，得到历史知识信息，例如“时间：T1，关系：(运动员A、球队、足球队B)，来源：用户”，“时间：T2，关系：(运动员A，得分、3个球)，来源：Chatbot”，并将历史知识信息存储至个体知识库。

对于本申请实施例，个体知识库中通过知识表示形式，记录对话中用户以及Chatbot的对话中的关键信息，例如将“时间：T1，关系：(运动员A、球队、足球队B)，来源：用户”以及“时间：T2，关系：(运动员A，得分、3个球)，来源：Chatbot”通过知识表示形式存储至个体知识库，具体如图5b所示。

本申请实施例提供了一种信息处理方法，与现有技术相比，本申请实施例获取用户当前输入，然后基于用户当前输入以及用户与机器人交互的历史知识信息，生成并输出目标回复信息。即本申请实施例中输出的目标答复信息是基于用户当前输入以及用户与机器人交互的历史知识信息生成的，而并不仅仅根据用户当前输入生成的，从而可以提高机器人输出的目标答复信息的准确度，进而可以提升用户体验。

在上述实施例的基础上，通过总结方式概括介绍通过用户与Chatbot进行对话的方式，具体如图13所示，该架构中主要包括自然语言理解(NLU)、对话管理(DM)、个体数据库和群体数据库(含开放知识库)、自然语言生成(NLG)等四个模块。该架构可支持云(Cloud)端部署，还可以支持设备端(On-Device)部署。

自然语言理解(NLU)，主要是对话中的语句文本进行解析，功能包含抽取用户的意图、性格特征、情感特征、画像以及对话中蕴涵的个体知识，同时预测用户可能喜欢的聊天对象的属性特征。输入信息为用户当前输入(用户话语(Utterance)p)和上一轮Chatbot回复(Response)q，以及NLG产生的历史背景表示。用户个性化特征提取和个体知识提取，主要依赖于用户话语和历史背景表示，但在预测用户可能喜好的Chatbot属性信息除了以上信息外，还需要利用上一轮Chatbot的回复文本。

对话管理(DM)主要包括以下三部分内容：

1)对话状态追踪(DST)，记录系统从NLU模块获得信息的中间状态，如用户意图(Intent)、槽值填充(Slot Filling)的信度值分布变化，对话历史背景表示、当前话语表示(用户当前输入对应的表示向量)等，用于对话策略和数据库更新策略生成。

2)对话策略(Dialogue Policy)，即生成所有可能回复(response)的概率分布P(a|s)，其中s为当前输入状态(包括DST信息和Chatbot个性化信息)，a也称action，表示为生成的一种可能回复(response)。由于回复可以是任意长度的句子，因此a的状态空间大小是无穷的(infinite)。

3)数据库策略(DB Policy)，包括四种策略：①用户数据库更新策略，决定用户个体数据库是否需要更新；②Chatbot数据库更新策略，决定Chatbot个体数据库是否需要更新、③群体数据库获取策略，决定是否需要从群体数据库获取Chatbot个性化信息，以备更新Chatbot个体数据库；④个体知识库更新策略，决定是否需要对个体知识库进行更新，其中个体知识是来自NLU对整个对话文本的知识抽取。

自然语言生成(NLG),为对话回复文本生成模块，这里采用基于模板生成和神经网络生成方法。该模块的输入信息包括根据对话策略得到的对话回复的概率分布、对话文本的背景表示、从Chatbot数据库和个体知识库获得的个性化特征信息。

上述实施例通过方法流程的角度介绍用户与Chatbot进行对话的方法，下述通过虚拟模块的角度进行介绍，具体如下所示：

本申请实施例提供了一种信息处理装置，如图15所示，该装置1500可以包括：第一获取模块1501、确定模块1502、第一生成并输出模块1503，其中，

第一获取模块1501，用于根据用户当前输入获取信息回复方当前对应的属性信息。

确定模块1502，用于确定针对用户当前输入所对应的待回复信息。

第一生成并输出模块1503，用于基于第一获取模块1501获取的信息回复方当前对应的属性信息以及确定模块1502确定的针对用户当前输入所对应的待回复信息，生成目标回复并输出。

性格信息；情感信息；画像信息；

本申请实施例的另一种可能的实现方式，第一获取模块，具体用于根据用户当前输入以及历史交互信息，获取信息回复方当前对应的属性信息。

本申请实施例的另一种可能的实现方式，第一获取模块1501，具体用于当根据用户当前输入确定不更新信息回复方数据库时，确定信息回复方当前对应的属性信息为上一次用户输入对应的信息回复方属性信息；和/或，

第一获取模块1501包括：更新单元以及第一获取单元，其中，

更新单元，用于当根据用户当前输入确定更新信息回复方数据库时，根据用户当前输入对信息回复方数据库进行更新。

第一获取单元，用于从更新后的信息回复方数据库中获取信息回复方当前对应的属性信息。

本申请实施例的另一种可能的实现方式，更新单元包括：确定子单元以及更新子单元，其中，

确定子单元，用于根据用户当前输入确定信息回复方对应的预测属性信息；

更新子单元，用于基于信息回复方对应的预测属性信息对信息回复方数据库进行更新。

本申请实施例的另一种可能的实现方式，确定子单元，具体用于根据用户当前输入确定用户当前对应的属性信息；

确定子单元，具体还用于根据用户当前对应的属性信息确定信息回复方对应的预测属性信息。

本申请实施例的另一种可能的实现方式，确定子单元，具体还用于确定针对当前输入对应的用户属性信息；

确定子单元，具体还用于基于针对当前输入对应的用户属性信息以及用户数据库中存储的用户属性信息，确定用户当前对应的属性信息。

本申请实施例的另一种可能的实现方式，确定子单元，具体用于基于用户当前对应的属性信息确定与之对应的相似属性信息；

确定子单元，具体用于基于确定出的与之对应的相似属性信息确定信息回复方对应的预测属性信息。

本申请实施例的另一种可能的实现方式，第一获取单元，具体用于从更新后的信息回复方数据库中获取发生更新的信息回复方属性信息作为信息回复方当前对应的属性信息。

性格信息；情感信息；画像信息；

本申请实施例的另一种可能的实现方式，确定子单元在用于基于用户当前输入，确定当前用户对应的性格信息时，具体用于基于用户当前输入，确定用户在各个性格类别上的概率分布信息，基于用户在各个性格类别上的概率分布信息确定当前用户对应的性格信息；和/或，

确定子模块在用于基于用户当前输入，确定当前用户对应的情感信息时，具体用于基于用户当前输入，确定用户在各个情感类别上的概率分布信息，基于用户在各个情感类别上的概率分别信息确定当前用户对应的情感信息。

本申请实施例提供了一种信息处理装置，与现有技术相比，本申请实施例根据用户当前输入获取信息回复方当前对应的属性信息，然后确定针对用户当前输入所对应的待回复信息，然后基于信息回复方当前对应的属性信息以及针对用户当前输入所对应的待回复信息，生成目标回复并输出。即本申请实施例中输出的目标答复是基于信息回复方当前对应的属性信息生成的，并且信息回复方当前对应的属性信息是基于用户当前输入确定的，从而可以提高信息回复方(包括智能聊天机器人)输出的目标答复信息的准确度，进而可以提升用户体验。

本申请实施例适用于上述方法实施例，在此不再赘述。

本申请实施例提供了另一种信息处理装置，如图16所示，其中，该装置1600可以包括：第二获取模块1601、第二生成并输出模块1602，其中，

第二获取模块1601，用于获取用户当前输入。

第二生成并输出模块1602，用于基于用户当前输入以及历史交互信息，生成并输出目标回复信息。

本申请实施例的另一种可能的实现方式，第二生成并输出模块1602包括：第二获取单元以及生成并输出单元，其中，

第二获取单元，用于获取与用户当前输入相匹配的历史交互信息；

生成并输出单元，用于基于用户当前输入以及与用户当前输入信息相匹配的历史交互信息，生成并输出目标回复信息；

本申请实施例的另一种可能的实现方式，装置1600还包括：提取模块以及存储模块，其中，

提取模块，用于将用户当前输入以及目标回复信息通过预设处理方式提取关键信息；

存储模块，用于存储提取模块提取的关键信息；

其中，预设处理方式包括以下至少一项：

实体识别；关系抽取；事件抽取；降噪处理。

本申请实施例提供了一种信息处理装置，与现有技术相比，本申请实施例获取用户当前输入，然后基于用户当前输入以及用户与信息回复方交互的历史知识信息，生成并输出目标回复信息。即本申请实施例中输出的目标答复信息是基于用户当前输入以及用户与信息回复方交互的历史知识信息生成的，而并不仅仅根据用户当前输入生成的，从而可以提高信息回复方(包括智能聊天机器人)输出的目标答复信息的准确度，进而可以提升用户体验。

本申请实施例提供的信息处理装置适用于上述方法实施例，在此不再赘述。

上面从功能模块化的角度对本申请实施例提供的信息处理装置进行介绍，接下来，将从硬件实体化的角度对本申请实施例提供的电子设备进行介绍，并同时对电子设备的计算系统进行介绍。

本申请实施例提供了一种电子设备，适用于上述方法实施例，如图17所示，包括：处理器1701；以及存储器1702，配置用于存储机器可读指令，上述指令在由上述处理器1701执行时，使得上述处理器1701执行上述信息处理方法。

图18示意性示出了根据本申请实施例的可用于实现本申请的电子设备的计算系统的框图。如图18所示，计算系统1800包括处理器1810、计算机可读存储介质1820、输出接口1830、以及输入接口1840。该计算系统1800可以执行上面参考图3或图4描述的方法，以实现基于用户输入的设备控制指令，控制至少一个目标设备执行相应的操作。具体地，处理器1810例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器1810还可以包括用于缓存用途的板载存储器。处理器1810可以是用于执行参考图3或图4描述的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质1820，例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

计算机可读存储介质1820可以包括计算机程序1821，该计算机程序1821可以包括代码/计算机可执行指令，其在由处理器1810执行时使得处理器1810执行例如上面结合图3或图4所描述的方法流程及其任何变形。计算机程序1821可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序1821中的代码可以包括一个或多个程序模块，例如包括1821A、模块1821B、……。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器1810执行时，使得处理器1810可以执行例如上面结合图3或图4所描述的方法流程及其任何变形。

根据本申请实施例，处理器1810可以使用输出接口1830和输入接口1840来执行上面结合图3或图4所描述的方法流程及其任何变形。

本申请实施例提供了一种电子设备，与现有技术相比，本申请实施例根据用户当前输入获取信息回复方当前对应的属性信息，然后确定针对用户当前输入所对应的待回复信息，然后基于信息回复方当前对应的属性信息以及针对用户当前输入所对应的待回复信息，生成目标回复并输出。即本申请实施例中输出的目标答复是基于信息回复方当前对应的属性信息生成的，并且信息回复方当前对应的属性信息是基于用户当前输入确定的，从而可以提高信息回复方(包括智能聊天机器人)输出的目标答复信息的准确度，进而可以提升用户体验。

本申请实施例提供了一种电子设备，与现有技术相比，本申请实施例获取用户当前输入，然后基于用户当前输入以及用户与信息回复方交互的历史知识信息，生成并输出目标回复信息。即本申请实施例中输出的目标答复信息是基于用户当前输入以及用户与信息回复方交互的历史知识信息生成的，而并不仅仅根据用户当前输入生成的，从而可以提高信息回复方(包括智能聊天机器人)输出的目标答复信息的准确度，进而可以提升用户体验。

本申请实施例提供的电子设备以及电子设备的计算系统适用于上述方法实施例，在此不再赘述。

对于本申请实施例，各个实施例中关于相同或者相似的术语的解释可以相互借鉴，并不在各个实施例中分别赘述。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种信息处理方法，其特征在于，包括：

根据用户当前输入获取信息回复方当前对应的属性信息；

确定针对用户当前输入所对应的待回复信息；

基于所述信息回复方当前对应的属性信息以及所述针对用户当前输入所对应的待回复信息，生成目标回复并输出。

2.根据权利要求1所述的方法，其特征在于，所述信息回复方当前对应的属性信息包括以下至少一项：

性格信息；情感信息；画像信息；

所述画像信息包括以下至少一项：性别、年龄、体重、身高、籍贯、职业、教育背景以及爱好。

3.根据权利要求1或2所述的方法，其特征在于，根据用户当前输入获取信息回复方当前对应的属性信息，包括：

根据所述用户当前输入以及历史交互信息，获取信息回复方当前对应的属性信息；

所述历史交互信息包括：从历史对话信息中获取的历史交互事件信息。

4.根据权利要求1-3任一项所述的方法，其特征在于，根据用户当前输入获取信息回复方当前对应的属性信息，包括以下至少一项：

若根据用户当前输入确定不更新信息回复方数据库，则确定信息回复方当前对应的属性信息为上一次用户输入对应的信息回复方属性信息；

若根据用户当前输入确定更新信息回复方数据库，则根据用户当前输入对信息回复方数据库进行更新，从更新后的信息回复方数据库中获取信息回复方当前对应的属性信息。

5.根据权利要求4所述的方法，其特征在于，根据用户当前输入对信息回复方数据库进行更新，包括：

根据用户当前输入确定所述信息回复方对应的预测属性信息，并基于所述信息回复方对应的预测属性信息对信息回复方数据库进行更新。

6.根据权利要求5所述的方法，其特征在于，根据用户当前输入确定所述信息回复方对应的预测属性信息，包括：

根据用户当前输入确定所述用户当前对应的属性信息；

根据所述用户当前对应的属性信息确定所述信息回复方对应的预测属性信息。

7.根据权利要求6所述的方法，其特征在于，根据用户当前输入确定所述用户当前对应的属性信息，包括：

确定针对所述当前输入对应的用户属性信息；

基于所述针对当前输入对应的用户属性信息以及用户数据库中存储的用户属性信息，确定所述用户当前对应的属性信息。

8.根据权利要求6或7所述的方法，其特征在于，根据所述用户当前对应的属性信息确定所述信息回复方对应的预测属性信息，包括：

基于用户当前对应的属性信息确定与之对应的相似属性信息；

基于确定出的与之对应的相似属性信息确定所述信息回复方对应的预测属性信息。

9.根据权利要求4-8任一项所述的方法，其特征在于，从更新后的信息回复方数据库中获取信息回复方当前对应的属性信息，包括：

从所述更新后的信息回复方数据库中获取发生更新的信息回复方属性信息作为所述信息回复方当前对应的属性信息。

10.根据权利要求6-9任一项所述的方法，其特征在于，用户当前对应的属性信息包括以下至少一项：

性格信息；情感信息；画像信息；

11.根据权利要求10所述的方法，其特征在于，基于所述用户当前输入，确定当前用户对应的性格信息，包括：

基于所述用户当前输入，确定所述用户在各个性格类别上的概率分布信息；

基于所述用户在各个性格类别上的概率分布信息确定所述当前用户对应的性格信息；

和/或，基于所述用户当前输入，确定当前用户对应的情感信息，包括：

基于所述用户当前输入，确定所述用户在各个情感类别上的概率分布信息；

基于所述用户在各个情感类别上的概率分别信息确定所述当前用户对应的情感信息。

12.一种信息处理方法，其特征在于，包括：

获取用户当前输入；

13.根据权利要求12所述的方法，其特征在于，基于用户当前输入以及用户与历史交互信息，生成并输出目标回复信息，包括：

获取与用户当前输入相匹配的历史交互信息；

基于所述用户当前输入以及所述与用户当前输入信息相匹配的历史交互信息，生成并输出目标回复信息；

14.根据权利要求12或13所述的方法，其特征在于，生成并输出目标回复信息，之后还包括：

将所述用户当前输入以及所述目标回复信息通过预设处理方式提取关键信息，并存储所述关键信息；

所述预设处理方式包括以下至少一项：

实体识别；关系抽取；事件抽取；降噪处理。

15.一种信息处理装置，其特征在于，包括：

第一生成并输出模块，用于基于所述第一获取模块获取的信息回复方当前对应的属性信息以及所述确定模块确定的针对用户当前输入所对应的待回复信息，生成目标回复并输出。

16.一种信息处理装置，其特征在于，包括：

第二获取模块，用于获取用户当前输入；

17.一种电子设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1～11任一项所述的信息处理方法。

18.一种电子设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求12～14任一项所述的信息处理方法。

19.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1～11任一项所述的信息处理方法。

20.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求12～14任一项所述的信息处理方法。