CN112685551A - 语料库构建方法、聊天机器人会话方法及相关装置 - Google Patents

语料库构建方法、聊天机器人会话方法及相关装置 Download PDF

Info

Publication number
CN112685551A
CN112685551A CN202110045035.7A CN202110045035A CN112685551A CN 112685551 A CN112685551 A CN 112685551A CN 202110045035 A CN202110045035 A CN 202110045035A CN 112685551 A CN112685551 A CN 112685551A
Authority
CN
China
Prior art keywords
target
chat
user
information
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110045035.7A
Other languages
English (en)
Other versions
CN112685551B (zh
Inventor
高波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110045035.7A priority Critical patent/CN112685551B/zh
Publication of CN112685551A publication Critical patent/CN112685551A/zh
Application granted granted Critical
Publication of CN112685551B publication Critical patent/CN112685551B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例公开了一种人工智能领域的语料库构建方法、聊天机器人会话方法及相关装置,其中该语料库构建方法包括:针对目标网络平台上的每个目标用户,根据该目标用户的关联信息数据确定该目标用户关联的信息标签;根据各个目标用户各自关联的信息标签构建目标知识图谱;基于目标知识图谱对目标网络平台上各个目标用户进行聚类处理,得到至少一个目标用户群;针对每个目标用户群,基于目标用户群中各个目标用户产生的聊天语料,构建该目标用户群对应的目标聊天语料库;该目标聊天语料库用于在聊天机器人与该目标用户群中的所述目标用户聊天时,为聊天机器人提供对话语料。该方法能够降低构建语料库时所需耗费的人力成本,提高语料库的构建效率。

Description

语料库构建方法、聊天机器人会话方法及相关装置
技术领域
本申请涉及人工智能(Artificial Intelligence,AI)技术领域,尤其涉及一种语料库构建方法、聊天机器人会话方法及相关装置。
背景技术
聊天机器人(Chatbot)是可以通过语音或文字与用户进行对话交流的计算机程序,其能够模仿人类对话。随着人工智能技术的迅速发展,近年来,聊天机器人的热度越来越高,被越来越广泛地应用于各行各业。
目前,很多社交网络平台致力于研究拥有特定人设、能够理解对话语境和语义的聊天机器人,此类聊天机器人可以与用户进行日常聊天互动,有助于提高用户对于社交网络平台的使用粘性。为了使聊天机器人可以更智能地与用户进行聊天互动,通常需要针对聊天机器人配置丰富的语料库。
相关技术中,聊天机器人语料库的构建和维护主要依赖于内容运营团队,即由运营人员人工生产大量语料,并将语料录入聊天机器人的语料库中,为了使语料库中的语料可以覆盖不同类型的话题且丰富多样,运维人员往往需要积累大量的语料数据。这种语料库的构建维护方法所需耗费的人力成本巨大,且语料库的构建效率较低。
发明内容
本申请实施例提供了一种语料库构建方法、聊天机器人会话方法及相关装置,能够降低构建语料库时所需耗费的人力成本,提高语料库的构建效率,并且能够保证聊天机器人所回复的信息的准确性和合理性。
有鉴于此,本申请第一方面提供了一种语料库构建方法,所述方法包括:
针对目标网络平台上的每个目标用户,根据所述目标用户的关联信息数据,确定所述目标用户关联的信息标签;
根据所述目标网络平台上各个所述目标用户各自关联的信息标签,构建目标知识图谱;所述目标知识图谱用于表征多个目标节点之间的关联关系,所述多个目标节点包括对应于所述目标用户的节点和对应于所述信息标签的节点;
基于所述目标知识图谱,对所述目标网络平台上的各个所述目标用户进行聚类处理,得到至少一个目标用户群;
针对每个所述目标用户群,基于所述目标用户群中各个所述目标用户产生的聊天语料,构建所述目标用户群对应的目标聊天语料库;所述目标聊天语料库用于在聊天机器人与所述目标用户群中的所述目标用户聊天时,为所述聊天机器人提供对话语料。
本申请第二方面提供了一种聊天机器人会话方法,所述方法包括:
接收目标网络平台上的目标对话用户发送的目标对话信息;
确定所述目标对话用户所属的目标用户群;所述目标用户群是基于目标知识图谱对所述目标网络平台上的各个目标用户进行聚类处理得到的;所述目标知识图谱用于表征多个目标节点之间的关联关系,所述多个目标节点包括所述对应于所述目标用户的节点和对应于所述目标用户关联的信息标签的节点;
在所述目标用户群对应的目标聊天语料库中,查找与所述目标对话信息的匹配度满足预设匹配条件的聊天语料,作为目标回复信息;所述目标聊天语料库是通过第一方面所述的语料库构建方法构建的;
向所述目标对话用户发送所述目标回复信息。
本申请第三方面提供了一种语料库构建装置,所述装置包括:
标签确定模块,用于针对目标网络平台上的每个目标用户,根据所述目标用户的关联信息数据,确定所述目标用户关联的信息标签;
知识图谱构建模块,用于根据所述目标网络平台上各个所述目标用户各自关联的信息标签,构建目标知识图谱;所述目标知识图谱用于表征多个目标节点之间的关联关系,所述多个目标节点包括对应于所述目标用户的节点和对应于所述信息标签的节点;
聚类模块,用于基于所述目标知识图谱,对所述目标网络平台上的各个所述目标用户进行聚类处理,得到至少一个目标用户群;
语料库构建模块,用于针对每个所述目标用户群,基于所述目标用户群中各个所述目标用户产生的聊天语料,构建所述目标用户群对应的目标聊天语料库;所述目标聊天语料库用于在聊天机器人与所述目标用户群中的所述目标用户聊天时,为所述聊天机器人提供对话语料。
本申请第四方面提供了一种聊天机器人会话装置,所述装置包括:
信息接收模块,用于接收目标网络平台上的目标对话用户发送的目标对话信息;
用户群确定模块,用于确定所述目标对话用户所属的目标用户群;所述目标用户群是基于目标知识图谱对所述目标网络平台上的各个目标用户进行聚类处理得到的;所述目标知识图谱用于表征多个目标节点之间的关联关系,所述多个目标节点包括所述对应于所述目标用户的节点和对应于所述目标用户关联的信息标签的节点;
回复信息查找模块,用于在所述目标用户群对应的目标聊天语料库中,查找与所述目标对话信息的匹配度满足预设匹配条件的聊天语料,作为目标回复信息;所述目标聊天语料库是通过第一方面所述的语料库构建方法构建的;
信息发送模块,用于向所述目标对话用户发送所述目标回复信息。
本申请第五方面提供了一种设备,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序,执行如上述第一方面所述的语料库方法或者上述第二方面所述的聊天机器人会话方法的步骤。
本申请第六方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面所述的语料库方法或者上述第二方面所述的聊天机器人会话方法的步骤。
本申请第七方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面所述的语料库方法或者上述第二方面所述的聊天机器人会话方法的步骤。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供了一种语料库构建方法,在该方法中,先针对目标网络平台上的每个目标用户,根据该目标用户的关联信息数据确定该目标用户关联的信息标签;然后,根据目标网络平台上各个目标用户各自关联的信息标签构建目标知识图谱,该目标知识图谱能够表征多个目标节点之间的关联关系,此处的多个目标节点包括对应于目标用户的节点和对应于信息标签的节点;进而,基于目标知识图谱对目标网络平台上各个目标用户进行聚类处理,得到至少一个目标用户群;最终,针对每个目标用户群,基于该目标用户群中各个目标用户产生的聊天语料,构建该目标用户群对应的目标聊天语料库。相比相关技术中由运维人员人工构建语料库的实现方式,本申请实施例提供的方法直接利用目标用户群中各个目标用户产生的聊天语料,构建适用于该目标用户群的目标聊天语料库,大大节省了所需耗费的人力成本,并且能够提供语料库的构建效率。此外,基于目标知识图谱对目标网络平台上的目标用户进行聚类处理,能够将相似度高和/或关联性强的目标用户聚集至同一目标用户群,由于相似度高和/或关联性强的用户所产生的聊天语料具有一定的共享性,因此,聊天机器人与目标用户群中的目标用户聊天时,从该目标用户群对应的目标聊天语料库中调用聊天语料与用户进行聊天对话,可以保证聊天对话的自然性和合理性,为用户提供较好的聊天互动体验。
附图说明
图1为本申请实施例提供的语料库构建方法的应用场景示意图;
图2为本申请实施例提供的语料库构建方法的流程示意图;
图3为本申请实施例提供的目标子用户群的构建原理示意图;
图4为本申请实施例提供的行为轨迹记录对应的二维网络的示意图;
图5为本申请实施例提供的聊天机器人会话方法的流程示意图;
图6为本申请实施例提供的基于目标知识图谱的推理过程的原理示意图;
图7为本申请实施例提供的聊天机器人会话方法的实现过程示意图;
图8为本申请实施例提供的聊天机器人的聊天界面示意图;
图9为本申请实施例提供的目标聊天语料库的构建过程的原理示意图;
图10为本申请实施例提供的语料库构建装置的结构示意图;
图11为本申请实施例提供的聊天机器人会话装置的结构示意图;
图12为本申请实施例提供的终端设备的结构示意图;
图13为本申请实施例提供的服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如,常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的自然语言处理技术,具体通过如下实施例进行说明:
相关技术中,构建聊天机器人的聊天语料库时,需要运维人员基于自身积累的语料数据生成覆盖不同话题且丰富多样的语料,进而将所生成的语料录入聊天语料库。这种语料库构建方法所需耗费的人力成本巨大,且语料库的构建效率较低。
针对上述相关技术存在的问题,本申请实施例提供了一种语料库构建方法,该方法能够降低构建语料库时所需耗费的人力成本,提高语料库构建效率,并且聊天机器人基于所构建的语料库能够与用户自然合理地进行聊天对话,为用户提供较好的聊天互动体验。
具体的,在本申请实施例提供的语料库构建方法中,先针对目标网络平台上的每个目标用户,根据该目标用户的关联信息数据确定该目标用户关联的信息标签;然后,根据目标网络平台上各个目标用户各自关联的信息标签构建目标知识图谱,该目标知识图谱能够表征多个目标节点之间的关联关系,此处的多个目标节点包括对应于目标用户的节点和对应于信息标签的节点;进而,基于目标知识图谱对目标网络平台上各个目标用户进行聚类处理,得到至少一个目标用户群;最终,针对每个目标用户群,基于该目标用户群中各个目标用户产生的聊天语料,构建该目标用户群对应的目标聊天语料库,该目标聊天语料库可以在聊天机器人与该目标用户群中的目标用户聊天时,为该聊天机器人提供对话语料。
相比相关技术中由运维人员人工构建语料库的实现方式,本申请实施例提供的语料库构建方法,直接利用目标用户群中各个目标用户产生的聊天语料,构建适用于该目标用户群的目标聊天语料库,大大节省了所需耗费的人力成本,并且能够提供语料库的构建效率。此外,基于目标知识图谱对目标网络平台上的目标用户进行聚类处理,能够将相似度高和/或关联性强的目标用户聚集至同一目标用户群,由于相似度高和/或关联性强的用户所产生的聊天语料具有一定的共享性,因此,聊天机器人与目标用户群中的目标用户聊天时,从该目标用户群对应的目标聊天语料库中调用聊天语料与用户进行聊天对话,可以保证聊天对话的自然性和合理性,为用户提供较好的聊天互动体验。
此外,本申请实施例还提供了一种聊天机器人会话方法,该方法可以基于通过上述语料库构建方法构建的目标聊天语料库,与目标网络平台上的用户进行聊天互动,为用户提供较好的聊天互动体验。
具体的,在本申请实施例提供的聊天机器人会话方法中,先接收目标网络平台上的目标对话用户发送的目标对话信息;然后,确定该目标对话用户所属的目标用户群,此处的目标用户群是基于目标知识图谱对目标网络平台上的各个目标用户进行聚类处理得到的,该目标知识图谱能够表征多个目标节点之间的关联关系,多个目标节点包括对应于目标用户的节点和对应于目标用户关联的信息标签的节点;进而,在该目标用户群对应的目标聊天语料库中,查找与该目标对话信息的匹配度满足预设匹配条件的聊天语料作为目标回复信息,该目标聊天语料库即是通过本申请实施例提供的语料库构建方法构建的;最终,向该目标对话用户发送该目标回复信息。
由于目标用户群是基于目标知识图谱对目标网络平台上的目标用户进行聚类处理得到的,因此,目标用户群中包括的目标用户彼此间具有较高的相似度和/或较强的关联性;目标用户群对应的目标聊天语料库即用于存储这些相似度高和/或关联性强的目标用户所产生的聊天语料;由于相似度高和/或关联性强的目标用户所产生的聊天语料具有一定的共享性,因此,聊天机器人基于该目标聊天语料库中的聊天语料与该目标用户群中的目标用户聊天对话,可以保证聊天对话的自然性和合理性,为用户提供较好的聊天互动体验。
应理解,本申请实施例提供的语料库构建方法可以应用于具备信息收集和处理能力的设备,如服务器;该服务器具体可以为应用服务器或Web服务器,在实际部署时,可以为独立服务器,也可以为集群服务器或云服务器。本申请实施例提供的聊天机器人会话方法可以应用于具备信息处理能力的设备,如终端设备或服务器;该终端设备具体可以为智能手机、计算机、平板电脑、个人数字助理(Personal Digital Assitant,PDA)、智能音箱、智能机器人等;该服务器具体可以为应用服务器或Web服务器,在实际部署时,可以为独立服务器,也可以为集群服务器或云服务器。
为了便于理解本申请实施例提供的语料库构建方法,下面先对该语料库构建方法的应用场景进行示例性介绍。
参见图1,图1为本申请实施例提供的语料库构建方法的应用场景示意图。如图1所示,该应用场景中包括服务器110、数据库120、数据库130和至少一个目标聊天语料库140,服务器110可以通过网络访问数据库120和数据库130,或者数据库120和数据库130也可以集成在服务器110中。其中,服务器110用于执行本申请实施例提供的语料库构建方法,以构建目标聊天语料库140;数据库120用于存储目标网络平台上各个目标用户的关联信息数据;数据库130用于存储目标网络平台上各个目标用户产生的聊天语料。
在实际应用中,服务器110可以先从数据库120中调取目标网络平台上各个目标用户的关联信息数据,然后,针对每个目标用户,根据该目标用户的关联信息数据确定该目标用户关联的信息标签。上述目标网络平台可以是任意一种支持用户与聊天机器人进行对话互动的网络平台,如社交网络平台、游戏网络平台等。上述目标用户可以是目标网络平台上的注册用户,也可以是在目标网络平台上与聊天机器人进行对话互动的用户。目标用户的关联信息数据包括但不限于:目标用户产生的聊天语料、目标用户的个人基本信息。
然后,服务器110可以根据目标网络平台上各个目标用户各自关联的信息标签,构建对应的目标知识图谱。该目标知识图谱能够表征多个目标节点之间的关联关系,多个目标节点包括对应于目标用户的节点和对应于信息标签的节点。即,服务器110确定出各个目标用户各自关联的信息标签后,可以采用知识图谱的形式表现目标网络平台上目标用户与目标用户之间、目标用户与信息标签之间的关联关系。
进而,服务器110可以基于所构建的目标知识图谱,对目标网络平台上的各个目标用户进行聚类处理,将相似度高和/或关联性强的目标用户聚集至同一目标用户群;如此,通过聚类处理得到至少一个目标用户群。
最终,服务器110可以针对聚类得到的每个目标用户群,从数据库130中调取该目标用户群中各个目标用户产生的聊天语料,利用所调取到的聊天语料构建该目标用户群对应的目标聊天语料库140;如此,构建出各个目标用户群各自对应的目标聊天语料库140。
相应地,聊天机器人可以基于上述各个目标用户群各自对应的目标聊天语料库140,与目标网络平台上的目标用户进行聊天对话。具体的,聊天机器人接收到目标网络平台上的目标对话用户发送的目标对话信息后,需要先确定该目标对话用户所属的目标用户群;然后,在该目标用户群对应的目标聊天语料库140中查找与该目标对话信息的匹配度满足预设匹配条件的聊天语料,作为目标回复信息;进而,将该目标回复信息发送给该目标对话用户。
应理解,图1所示的应用场景仅为示例,在实际应用中,服务器110也可以从其它渠道获取目标用户的关联信息数据和/或目标用户产生的聊天语料,在此不对本申请实施例提供的语料库构建方法的应用场景做任何限定。
下面通过方法实施例对本申请提供的语料库构建方法进行详细介绍。
参见图2,图2为本申请实施例提供的语料库构建方法的流程示意图。为了便于描述,下述实施例以该语料库构建方法的执行主体为服务器为例进行介绍。如图2所示,该语料库构建方法包括以下步骤:
步骤201:针对目标网络平台上的每个目标用户,根据所述目标用户的关联信息数据,确定所述目标用户关联的信息标签。
当服务器需要针对目标网络平台上的聊天机器人构建聊天语料库时,服务器可以先针对目标网络平台上的每个目标用户,根据该目标用户的关联信息数据,确定该目标用户关联的信息标签。
需要说明的是,网络平台是指以互联网为技术基础的各种网络服务支持系统,上述目标网络平台可以是任意一种支持用户与聊天机器人聊天互动的网络平台,即目标网络平台可以为用户提供与聊天机器人闲聊互动的功能;示例性的,该目标网络平台可以为社交网络平台、游戏网络平台(即可提供相关游戏服务的网络平台)等等,本申请在此不对目标网络平台的类型做任何限定。上述聊天机器人具体可以是集成在目标网络平台的后台服务器中的计算机程序,也可以是集成在目标网络平台的前台客户端中的计算机程序,其可以通过文字或语音与用户进行闲聊互动。
需要说明的是,上述目标用户可以是目标网络平台上的注册用户,也可以是与目标网络平台上的聊天机器人进行过聊天互动的用户,还可以是在特定时间段内与目标网络平台上的聊天机器人进行过聊天互动的用户,例如,在最近一个月内与目标网络平台上的聊天机器人进行过聊天互动的用户,本申请在此不对目标用户做任何限定。
目标用户的关联信息数据包括但不限于:目标用户产生的聊天语料和目标用户的个人基本信息。目标用户产生的聊天语料可以包括目标用户与聊天机器人聊天时产生的聊天语料,也可以包括目标用户与目标网络平台上的其他实体用户聊天时产生的聊天语料,本申请在此不对关联信息数据中聊天语料的产生方式做任何限定。目标用户的个人基本信息可以包括目标用户在目标网络平台上注册账号时预留的个人信息,如姓名、性别、兴趣爱好、地址等;也可以包括对目标用户进行人格心理测试所得到的性格信息,例如,对目标用户进行九型人格测试、迈尔斯布里格斯类型指标(Myers–Briggs Type Indicator,MBTI)测试、基于大五模型的人格测试等,所确定的目标用户的性格信息,又例如,通过对目标用户进行强迫程度测试、自信与自尊水平测试,得到的目标用户的性格信息,本申请在此不对该个人基本信息做任何限定。
目标用户关联的信息标签,是根据目标用户的关联信息数据确定的与目标用户相关的标签;例如,假设某目标用户产生了聊天语料“用户A为我的母亲”,则可以根据该聊天语料确定信息标签“用户A”,目标用户与该信息标签之间的关系为母子关系;又例如,假设某目标用户注册账号时预留了其兴趣爱好为“打篮球”,则可以根据该预留的个人信息确定信息标签“篮球”,目标用户与该信息标签之间的关系为爱好关系;再例如,假设某目标用户的人格心理测试结果为性格外向,则可以根据该人格心理测试结果确定信息标签“外向”,目标用户与该信息标签之间的关系为所属性格。
作为一种示例,服务器可以通过以下至少一种方式根据目标用户的关联信息数据,确定目标用户关联的信息标签:
第一种方式,从目标用户产生的聊天语料中提取目标副体,该目标副体是与目标用户相关的实体;进而,根据该目标副体,确定目标用户关联的信息标签。
在目标用户的关联信息数据包括目标用户产生的聊天语料的情况下,服务器可以综合使用实体识别、实体链接、关系抽取、事件抽取等自然语言处理技术,从目标用户产生的聊天语料中抽取出与目标用户具有关联关系的实体,即抽取出目标副体,并且根据聊天语料确定目标用户与该目标副体之间的关联关系;进而,基于所抽取出的目标副体以及目标副体与目标用户之间的关联关系,确定目标用户关联的信息标签。
应理解,所要抽取的目标副体的类型可以预先根据实际需求设定,示例性的,目标副体可以为人物、组织、地点、时间等,本申请在此不对目标副体的类型做任何限定。
由于目标用户产生的聊天语料通常能够比较全面地覆盖与该目标用户相关的信息,因此,通过上述种方式确定目标用户关联的信息标签,能够保证所确定的信息标签全面覆盖与目标用户相关的各个实体,即保证所确定的目标用户关联的信息标签更丰富。
第二种方式,根据目标用户的个人基本信息,确定目标用户关联的信息标签;此处的个人基本信息可以包括以下至少一种:目标用户在目标网络平台上注册账号时预留的个人信息、通过对目标用户进行人格心理测试得到的性格信息、通过对目标用户进行情绪状态测试得到的情绪信息、通过对目标用户进行心理状态测试得到的心理状态信息。
在目标用户的关联信息数据包括目标用户的个人基本信息的情况下,服务器可以直接根据目标用户的个人基本信息,确定该目标用户关联的信息标签。示例性的,在目标用户的个人基本信息包括目标用户在目标网络平台上注册账号时预留的个人信息的情况下,服务器可以直接从该个人信息中抽取出有效信息作为目标用户关联的信息标签,例如,抽取兴趣爱好信息、地址信息等作为目标用户关联的信息标签。示例性的,在目标用户的个人基本信息包括通过对目标用户进行人格心理测试得到的性格信息的情况下,服务器可以直接将目标用户的性格信息作为目标用户关联的信息标签。示例性的,在目标用户的个人基本信息包括通过对目标用户进行情绪状态测试得到的情绪信息的情况下,服务器可以直接将目标用户的情绪信息(如开心、易怒、难过、沮丧、痛苦等)作为目标用户的关联信息标签。示例性的,在目标用户的个人基本信息包括通过对目标用户进行心理状态测试得到的心理状态信息的情况下,服务器可以直接将目标用户的心理状态信息(如抑郁、焦虑、自恋、自卑、自信等)作为目标用户的关联信息标签。
需要说明的是,上述人格心理测试通常是在目标用户初次与聊天机器人进行聊天互动时,由聊天机器人引导进行的;即聊天机器人在识别到当前与其进行聊天互动的用户为新用户时,可以通过聊天互动的方式对该新用户进行人格心理测试,以确定该新用户的性格信息。上述情绪状态测试和心理状态测试通常是在聊天机器人检测到目标用户发送的聊天内容中包括特定的关键词时,由聊天机器人引导进行的;例如,假设聊天机器人检测到当前与其进行聊天互动的目标用户发送的聊天内容中包括情绪状态测试对应的触发关键词,则聊天机器人可以调取情绪状态测试的聊天语料,通过聊天互动的方式对该目标用户进行情绪状态测试,以确定该目标用户的情绪信息。
由于目标用户在目标网络平台上注册账号时预留的个人信息通常具有较高的准确性和可靠性,因此,基于此类个人信息确定的与目标用户关联的信息标签,也具有较高的准确性和可靠性。此外,对目标用户进行人格心理测试、情绪状态测试或者心理状态测试,得到目标用户的性格信息、情绪信息或者心理状态信息,并基于目标用户的性格信息、情绪信息或者心理状态信息确定该目标用户关联的信息标签,实现了从个人性格、情绪、心理状态等维度构建对应的信息标签,使得所构建的信息标签更丰富,涵盖与目标用户相关的更多维度的信息。
应理解,在实际应用中,服务器还可以采用其它方式,根据目标用户的关联信息数据确定该目标用户关联的信息标签,本申请在此不对服务器确定目标用户关联的信息标签的实现方式做任何限定。
步骤202:根据所述目标网络平台上各个所述目标用户各自关联的信息标签,构建目标知识图谱;所述目标知识图谱用于表征多个目标节点之间的关联关系,所述多个目标节点包括对应于所述目标用户的节点和对应于所述信息标签的节点。
服务器确定出目标网络平台上各个目标用户各自关联的信息标签后,可以根据目标网络平台上各个目标用户各自关联的信息标签,构建目标知识图谱;该目标知识图谱能够表现出多个目标节点之间的关联关系,这多个目标节点既包括与目标网络平台上的目标用户相对应的节点,又包括与目标用户关联的信息标签相对应的节点。
具体实现时,服务器可以将目标用户以及目标用户关联的信息标签均视为目标节点。针对每个目标用户,基于该目标用户与信息标签之间的关联关系,构建该目标用户对应的个人标签网络。进而,基于信息标签与信息标签之间的关联关系、目标用户与目标用户之间的关联关系,将各目标用户各自对应的个人标签网络串联起来得到目标知识图谱;例如,假设目标用户A关联有信息标签“球类运动”,目标用户B关联有信息标签“篮球”,由于篮球所属于球类运动,因此,可以将对应于目标用户A的目标节点、对应于信息标签“球类运动”的目标节点、对应于信息标签“篮球”的目标节点、以及对应于目标用户B的目标节点串联起来;又例如,假设目标用户C与目标用户D之间具有朋友关系,则可以通过将对应于目标用户C的目标节点与对应于目标用户D的目标节点连接起来,将目标用户C对应的个人标签网络与目标用户D对应的个人标签网络串联。
可选的,服务器通过上述操作构建出目标知识图谱后,可以对该目标知识图谱中语义重叠的目标节点进行融合处理,并且滤除该目标知识图谱中与无效节点标准匹配的目标节点,得到标准目标知识图谱,以便基于该标准目标知识图谱进行后续处理。
具体的,考虑到通过上述操作构建得到的目标知识图谱中通常会存在一些语义重叠的目标节点,此处的语义重叠是指两个节点各自对应的标签之间的语义相似度高于预设相似度阈值,这些目标节点的存在会导致目标知识图谱中存在冗杂的层级结构和关联关系,因此,需要对目标知识图谱中语义重叠的目标节点进行融合处理,此处的融合处理是指将语义重叠的目标节点合并,同时相应地调整与所合并的目标节点相关的节点关联关系;例如,对应于“桂圆”的目标节点与对应于“龙眼”的目标节点实质上即为语义重叠的目标节点,因此,可以对此类目标节点进行融合处理。
此外,考虑到目标知识图谱中可能存在一些对于后续处理无参考作用或参考作用较弱的目标节点,因此,可以预先设定用于衡量无参考作用或参考作用较弱的目标节点的无效节点条件,并将目标知识图谱中满足该无效节点条件的目标节点过滤掉,从而减少目标知识图谱的复杂性。示例性的,考虑到目标知识图谱中所对应的关联关系较少的节点,通常对于后续处理所起到的参考作用较弱,因此,可以设置无效节点条件为所对应的关联关系少于预设关系阈值,相应地,可以将目标知识图谱中所对应的关联关系少于预设关系阈值的目标节点过滤掉。
应理解,在实际应用中,也可以根据实际需求设置其它无效节点条件,例如,还可以设置无效节点条件为目标节点对应于特定的无效内容(如目标网络平台上热度较低的内容、在聊天对话中不常出现的内容等),对应于此类无效内容的目标节点应当被过滤掉;本申请在此不对该无效节点条件做任何限定。
步骤203:基于所述目标知识图谱,对所述目标网络平台上的各个所述目标用户进行聚类处理,得到至少一个目标用户群。
服务器构建出目标知识图谱后,可以基于该目标知识图谱,对目标网络平台上的各个目标用户进行聚类处理,以将相似度高和/或关联性强的目标用户聚集至同一目标用户群,如此,通过聚类处理得到至少一个目标用户群。
具体实现时,服务器可以采用特定的聚类算法,如具有噪声的基于密度的聚类算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)、k均值聚类算法(k-means clustering algorithm,K-means)等,对目标知识图谱进行聚类处理,以将目标知识图谱中的目标节点聚集在至少一个子网络中。进而,针对通过上述聚类处理得到的每个子网络,确定该子网络中包括的对应于目标用户的目标节点,利用这些目标节点各自对应的目标用户组成一个目标用户群。
应理解,若服务器在执行步骤203之前,对目标知识图谱进行了语义重叠节点融合处理、无效节点过滤处理,得到标准目标知识图谱,则服务器执行步骤203时,可以直接基于该标准目标知识图谱对目标网络平台上的各个目标用户进行聚类处理,得到至少一个目标用户群。
步骤204:针对每个所述目标用户群,基于所述目标用户群中各个所述目标用户产生的聊天语料,构建所述目标用户群对应的目标聊天语料库;所述目标聊天语料库用于在聊天机器人与所述目标用户群中的所述目标用户聊天时,为所述聊天机器人提供对话语料。
服务器通过上述聚类处理得到至少一个目标用户群后,可以针对其中每个目标用户群,基于该目标用户群中各个目标用户产生的聊天语料,构建该目标用户群对应的目标聊天语料库。相应地,聊天机器人与该目标用户群中的目标用户聊天时,可以从该目标用户群对应的目标聊天语料库中调取对话语料。
需要说明的是,服务器构建目标用户群对应的目标聊天语料库时,可以利用目标用户群中各个目标用户与聊天机器人聊天时产生的聊天语料,构建该目标聊天语料库,也可以利用目标用户群中各个目标用户与其他实体用户聊天时产生的聊天语料,构建该目标聊天语料库,本申请在此不对构建目标聊天语料库时所利用的聊天语料做任何限定。此外,服务器构建目标用户群对应的目标聊天语料库时,可以利用目标用户群中各个目标用户通过目标网络平台产生的所有历史聊天语料,构建目标聊天语料库,也可以利用目标用户群中各个目标用户通过目标网络平台在特定时段内产生的历史聊天语料,构建目标聊天语料库,例如,利用目标用户群中各个目标用户在最近一个月内产生的历史聊天语料构建目标聊天语料库,本申请在此不对构建目标聊天语料库时使用的聊天语料的产生时间做任何限定。
考虑到在实际应用中用户与聊天机器人进行聊天对话时主要使用的语句包括问题语句和回答语句,相应地,聊天机器人针对用户的问题语句应当回复回答语句,针对用户的回答语句应当回复问题语句。
基于此,服务器构建目标用户群对应的目标聊天语料库时,可以将目标用户群中各个目标用户产生的聊天语料,划分为问题语料和回答语料;进而,基于问题语料构建目标用户群对应的目标问题语料库,基于回答语料构建目标用户群对应的目标回答语料库。聊天机器人与该目标用户群中的目标用户聊天时,若识别目标用户发送的对话信息为问题语句,则从该目标用户群对应的目标回答语料库中相应地调取对话语料,若识别目标用户发送的对话信息为回答语句,则从该目标用户群对应的目标问题语料库中相应地调取对话语料。
如此,将聊天语料库划分为问题语料库和回答语料库,聊天机器人与目标用户进行聊天互动时,可以根据目标用户发送的聊天内容的类型,从相应的语料库中调取对话语料,有助于提高聊天机器人调取对话语料的速度。
在实际应用中,目标网络平台通常会针对聊天机器人赋予特定的人物设定,例如,设定聊天机器人为单纯少女、知性姐姐等等,为了使所构建的目标聊天语料库中的聊天语料更贴近聊天机器人的人物设定,服务器通常还需要对目标用户产生的聊天语料进行转换处理,以得到与聊天机器人的人物设定相符的目标聊天语料,聊天机器人基于此类目标聊天语料与用户进行聊天,会给用户带来更亲近的感觉,有利于提升用户的聊天交互体验。
即,服务器需要针对目标用户群中各个目标用户产生的每个聊天语料,通过生成模型处理该聊天语料,得到该聊天语料对应的目标聊天语料;此处的生成模型用于将聊天语料转换为与聊天机器人的人物设定相符的目标聊天语料。进而,利用目标用户群中各个目标用户产生的各个聊天语料各自对应的目标聊天语料,构建该目标用户群对应的目标聊天语料库。
需要说明的是,上述生成模型是预先训练好的神经网络模型,该生成模型可以对输入的聊天语料进行处理,将该聊天语料转换为符合聊天机器人的人物设定的目标聊天语料。具体训练该生成模型时,可以利用大量包括训练语料及其对应的标注语料的训练样本,对生成模型进行迭代训练,此处的训练语料可以是目标网络平台上的用户产生的语料,此处的标注语料可以是人工转换训练语料得到的、与聊天机器人的人物设定相符的语料。
服务器具体构建目标聊天语料库时,可以将目标用户群中各目标用户产生的每个聊天语料输入上述生成模型,该生成模型对所输入的聊天语料进行处理后,输出该聊天语料对应的目标聊天语料,即输出与该聊天语料语义相同、且符合聊天机器人的人物设定的目标聊天语料。进而,利用目标用户群中各目标用户产生的各个聊天语料各自对应的目标聊天语料,构建该目标用户群对应的目标聊天语料库。
可选的,为了使聊天机器人可以主动地与目标用户进行聊天对话,并且保证对话内容的合理性,本申请实施例提供的方法还可以进一步基于目标用户群中目标用户产生的聊天语料,构建用于提供主动对话语料的目标聊天语料集合。
在一种可能的实现方式中,服务器可以针对每个目标用户群,利用该目标用户群中关联有目标信息标签的目标用户,组成该目标信息标签对应的目标子用户群;进而,基于该目标子用户群中各个目标用户产生的、与目标信息标签相关的聊天语料,构建该目标子用户群对应的目标聊天语料集合;该目标聊天语料集合用于在聊天机器人与该目标子用户群中的目标用户聊天时,为该聊天机器人提供对话语料。
具体的,服务器通过聚类处理得到至少一个目标用户群后,可以针对每个目标用户群,利用该目标用户群中关联有同一目标信息标签的各个目标用户,组成该目标信息标签对应的目标子用户群;如图3所示的目标子用户群的构建原理示意图,假设目标信息标签为“悬疑小说”,则可以利用目标用户群中所有关联有信息标签“悬疑小说”的目标用户,组成对应于信息标签“悬疑小说”的目标子用户群301,如图3所示,目标用户关联的信息标签可以是根据目标用户产生的聊天语料确定的,例如,假设目标用户产生的聊天语料为“东野圭吾的《放学后》是我看的第一部悬疑小说”,根据该聊天语料可以确定目标用户关联有信息标签“悬疑小说”;假设目标信息标签为“爱情小说”,则可以利用目标用户群中所有关联有信息标签“爱情小说”的目标用户,组成对应于信息标签“爱情小说”的目标子用户群302。
应理解,上述目标信息标签可以是预先设定的信息标签,例如,服务器可以预先将一些热度较高的信息标签设定目标信息标签;上述目标信息标签也可以是根据目标用户群中各个目标用户各自关联的信息标签确定的,例如,服务器可以将目标用户群中较多目标用户关联的信息标签设定为目标信息标签。本申请在此不对目标信息标签的确定方式做任何限定。
进而,服务器可以利用某目标信息标签对应的目标子用户群中各个目标用户产生的、与该目标信息标签相关的聊天语料,构建该目标子用户群对应的目标聊天语料集合。聊天机器人与该目标子用户群中的目标用户聊天时,可以从该目标聊天语料集合中调取聊天语料,主动发起聊天对话,以谈论该目标用户可能感兴趣的话题,保证了聊天机器人主动发起聊天对话时的聊天内容具有较高的合理性。
在另一种可能的实现方式中,服务器可以根据目标用户产生的聊天语料,生成目标用户的行为轨迹记录,该行为轨迹记录中包括目标用户的行为信息,该行为轨迹记录具体是指将目标用户的行为信息按照行为发生的时间和/或地点串联起来得到的记录,目标用户的行为信息用于表征目标用户发生的各种行为,例如,上班、运动、参加活动等等;针对每个目标用户群,利用该目标用户群中行为轨迹记录存在重合行为信息的目标用户,组成该重合行为信息对应的目标子用户群;进而,基于目标用子用户群中各个目标用户产生的、与该重合行为信息相关的聊天语料,构建该目标子用户群对应的目标聊天语料集合;该目标聊天语料集合用于在聊天机器人与该目标子用户群中的目标用户聊天时,为聊天机器人提供对话语料。
具体的,服务器可以针对目标网络平台上的每个目标用户,根据该目标用户产生的聊天语料,确定其在特定的时间和/或地点发生的行为,并将对应的行为信息记录在该目标用户的行为轨迹记录中;例如,假设目标用户向聊天机器人发送对话信息“我现在在X咖啡厅喝咖啡”,则服务器可以根据该对话信息,在该目标用户对应的行为轨迹记录中,记录该目标用户在当前时间点在X咖啡厅喝咖啡的行为信息。示例性的,上述行为轨迹记录具体可以表现为一个二维网络,如图4所示,该二维网络的x轴对应于时间信息,y轴对应于空间信息,二维网络中的每个坐标点表示在对应的时间和空间所产生的行为信息。
相应地,服务器可以基于目标用户群中各个目标用户各自的行为轨迹记录,确定该目标用户群中存在重合行为信息的目标用户,并利用这些具有重合行为信息的目标用户组成该重合行为信息对应的目标子用户群;例如,假设目标用户A、目标用户B和目标用户C各自的行为轨迹记录中均包括喝咖啡这一行为信息,则服务器可以将目标用户A、目标用户B和目标用户C组成喝咖啡对应的目标子用户群。
进而,服务器可以利用某重合行为信息对应的目标子用户群中各个目标用户产生的、与该重合行为信息相关的聊天语料,构建该目标子用户群对应的目标聊天语料集合。聊天机器人与该目标子用户群中的目标用户聊天时,可以从该目标聊天语料集合中调取聊天语料,主动发起聊天对话,以谈论与该目标用户的历史行为相关的内容,保证了聊天机器人主动发起聊天对话时的聊天内容具有较高的合理性。
应理解,在上述实现方式中,服务器也可以利用生成模型,对目标子用户群中各个目标用户产生的、与目标信息标签相关或者与重合行为信息相关的聊天语料进行处理,以得到符合聊天机器人的人物设定的目标聊天语料,利用目标聊天语料构建目标聊天语料集合。
相比相关技术中由运维人员人工构建语料库的实现方式,本申请实施例提供的语料库构建方法,直接利用目标用户群中各个目标用户产生的聊天语料,构建适用于该目标用户群的目标聊天语料库,大大节省了所需耗费的人力成本,并且能够提供语料库的构建效率。此外,基于目标知识图谱对目标网络平台上的目标用户进行聚类处理,能够将相似度高和/或关联性强的目标用户聚集至同一目标用户群,由于相似度高和/或关联性强的用户所产生的聊天语料具有一定的共享性,因此,聊天机器人与目标用户群中的目标用户聊天时,从该目标用户群对应的目标聊天语料库中调用聊天语料与用户进行聊天对话,可以保证聊天对话的自然性和合理性,为用户提供较好的聊天互动体验。
此外,本申请实施例还提供了一种以通过上述语料库构建方法构建的目标聊天语料库为基础的聊天机器人会话方法,下面通过方法实施例对该聊天机器人会话方法进行介绍。
参见图5,图5为本申请实施例提供的聊天机器人会话方法的流程示意图。为了便于描述,下述实施例以该聊天机器人会话方法的执行主体为聊天机器人为例进行介绍,应理解,该聊天机器人实际上可以是服务器,也可以是终端设备。如图5所示,该聊天机器人会话方法包括以下步骤:
步骤501:接收目标网络平台上的目标对话用户发送的目标对话信息。
在实际应用中,目标网络平台上的目标用户可以通过语音或文字,与聊天机器人进行聊天对话;示例性的,目标用户可以通过其与聊天机器人的对话界面中的语音输入控件输入对话语音,并向聊天机器人发送其输入的对话语音,或者目标用户也可以通过其与聊天机器人的对话界面中的文本输入控件输入对话文本,并向聊天机器人发送其输入的对话文本。
在此过程中,聊天机器人可以将与其对话的目标用户视为目标对话用户;将目标用户发送的对话语音或对话文本视为目标对话信息,为了便于后续处理,在目标用户发送对话语音的情况下,聊天机器人需要将该对话语音转换为对应的文本信息作为目标对话信息。
步骤502:确定所述目标对话用户所属的目标用户群;所述目标用户群是基于目标知识图谱对所述目标网络平台上的各个目标用户进行聚类处理得到的;所述目标知识图谱用于表征多个目标节点之间的关联关系,所述多个目标节点包括所述对应于所述目标用户的节点和对应于所述目标用户关联的信息标签的节点。
聊天机器人接收到目标对话用户发送的目标对话信息后,需要确定该目标对话用户所属的目标用户群。应理解,此处的目标用户群是通过图2所示实施例中步骤201至步骤203这一处理过程获得的,服务器通过上述步骤201至步骤203,将目标网络平台上的各个目标用户聚集到至少一个目标用户群中后,可以针对每个目标用户标记其所属的目标用户群;相应地,聊天机器人接收到目标对话用户发送的目标对话信息后,可以基于此直接确定该目标对话用户所属的目标用户群。
步骤503:在所述目标用户群对应的目标聊天语料库中,查找与所述目标对话信息的匹配度满足预设匹配条件的聊天语料,作为目标回复信息;所述目标聊天语料库是通过本申请实施例提供的语料库构建方法构建的。
聊天机器人确定出目标对话用户所属的目标用户群后,可以调用该目标用户群对应的目标聊天语料库,进而,在该目标聊天语料库中查找与目标对话信息之间的匹配度满足预设匹配条件的聊天语料,并将所查找到的聊天语料作为目标回复信息。
正如图2所示实施例中介绍的,目标聊天语料库通常包括目标问题语料库和目标回答语料库,聊天机器人接收到目标对话用户发送的目标对话信息后,可以先确定该目标对话信息属于问题语句还是回答语句。若目标对话信息属于问题语句,则聊天机器人可以在目标用户群对应的目标回答语料库中,查找与该目标对话信息之间的匹配度满足第一预设匹配条件的聊天语料,作为目标回复信息。若目标对话信息属于回答语句,则聊天机器人可以在目标用户群对应的目标问题语料库中,查找与该目标对话信息之间的匹配度满足第二预设匹配条件的聊天语料,作为目标回复信息。
具体实现时,聊天机器人可以借助匹配度确定模型计算目标对话信息与目标聊天语料库中的聊天语料之间匹配度。具体的,在目标对话信息属于问题语句的情况下,聊天机器人可以针对目标回答语料库中的每个回答语料,通过匹配度确定模型计算其与目标对话信息之间的匹配度;在目标对话信息属于回答语句的情况下,聊天机器人可以针对目标问题语料库中的每个问题语料,通过匹配度确定模型计算其与目标对话信息之间的匹配度。
上述匹配度确定模型是预先训练好的神经网络模型,该匹配度确定模型可以确定两个语料之间的匹配度,例如,确定问题与答案之间的匹配度。具体训练该匹配度确定模型时,可以利用大量包括训练语料对及其对应的标注匹配度的训练样本,对该匹配度确定模型进行迭代训练,此处的训练语料对可以包括两个训练语料,此处的标注匹配度是人工标注的训练语料对中的训练语料之间的匹配度。
应理解,上述预设匹配条件可以是预先根据实际需求设定的匹配度阈值,若目标聊天语料库中的某聊天语料与目标对话信息之间的匹配度超过该匹配度阈值,则可认为该聊天语料与该目标对话信息之间的匹配度满足预设匹配条件,进而可以将该聊天语料作为目标回复信息。上述预设匹配条件也可以是与目标对话信息之间的匹配度最高,即目标聊天语料库中与目标对象信息之间的匹配度最高的聊天语料,可以被视为与目标对话信息的匹配度满足预设匹配条件的聊天语料,进而可以将该聊天语料作为目标回复信息。当然,在实际应用中,还可以根据实际需求设置其它类型的预设匹配条件,本申请在此不对该预设匹配条件做任何限定。
应理解,若目标聊天语料库中同时存在多个聊天语料与目标对话信息的匹配度满足预设匹配条件,则聊天机器人可以随机从这多个聊天语料中选择一个聊天语料,作为目标回复信息;当然,聊天机器人也可以采取其它方式从这多个聊天语料中选择目标回复信息,本申请在此不对目标回复信息的选择方式做任何限定。
步骤504:向所述目标对话用户发送所述目标回复信息。
聊天机器人确定出目标回复信息后,可以向目标对话用户发送该目标回复信息,该目标回复信息具体可以为语音形式或文本形式的信息;示例性的,若目标对话用户向聊天机器人发送的目标对话信息为对话语音,则聊天机器人可以向该目标对话用户反馈语音形式的目标回复信息,若目标对话用户向聊天机器人发送的目标对话信息为对话文本,则聊天机器人可以向该目标对话用户反馈文本形式的目标回复信息。
可选的,在本申请实施例提供的聊天机器人会话方法中,为了进一步提高用户的聊天互动体验,聊天机器人还可以主动向目标对话用户发送对话信息,由聊天机器人主动引导对话,实现与用户之间深层次的多轮交流。
在一种可能的实现方式中,聊天机器人可以确定目标对话用户所属的目标子用户群,该目标子用户群包括目标用户群中关联有目标信息标签的目标用户,或者包括目标用户群中行为轨迹记录存在重合行为信息的目标用户;然后,在该目标子用户群对应的目标聊天语料集合中调取聊天语料作为主动对话信息,该目标聊天语料集合中包括该目标子用户群中各个目标用户产生的、与目标信息标签相关的聊天语料,或者包括该目标子用户群中各个目标用户产生的、与重合行为信息相关的聊天语料;进而,向目标对话用户发送该主动对话信息。
正如图2所示实施例中相关内容所介绍的,服务器基于目标知识图谱对目标网络平台上的各个目标用户进行聚类处理,得到至少一个目标用户群后,还可以进一步针对每个目标用户群,利用其中关联有目标信息标签的目标用户组成目标子用户群,或者利用其中行为轨迹记录存在重合行为信息的目标用户组成目标子用户群;进而,利用目标子用户群中各个目标用户产生的、与目标信息标签相关的聊天语料,组成该目标子用户群对应的目标聊天语料集合,或者利用目标子用户群中各个目标用户产生的、与重合行为信息相关的聊天语料,组成该目标子用户群对应的目标聊天语料集合。
聊天机器人与目标对话用户聊天时,可以相应地确定该目标对话用户所属的目标子用户群;进而,在该目标子用户群对应的目标聊天语料集合中调取聊天语料作为主动对话信息,向该目标对话用户发送该主动对话信息,以实现聊天机器人主动引导对话。例如,假设目标对话用户所属于目标信息标签“悬疑小说”对应的目标子用户群,则聊天机器人可以在该目标子用户群对应的目标聊天语料集合中,调取该目标子用户群中其他目标用户产生的、与“悬疑小说”相关的聊天语料作为主动对话信息,并向目标对话用户发送该主动对话信息,从而引导目标对话用户谈论其感兴趣的内容。又例如,假设目标对话用户所属于重合行为信息“喝咖啡”对应的目标子用户群,则聊天机器人可以在该目标子用户群对应的目标聊天语料集合中,调取该目标子用户群中其他目标用户产生的、与行为信息“喝咖啡”相关的聊天语料作为主动对话信息,并向该目标对话用户发送该主动对话信息,从而引导目标对话用户谈论其曾经触发的行为。
在另一种可能的实现方式中,聊天机器人可以确定目标知识图谱中与对应于目标对话用户的目标节点具有间接关联关系的目标节点,作为参考目标节点;并根据该参考目标节点生成目标推理信息,作为主动对话信息;进而,向目标对话用户发送该主动对话信息。
由于目标知识图谱能够表征多个目标节点之间的关联关系,因此,在实际应用中,聊天机器人可以基于目标知识图谱中对应于目标对话用户的目标节点,确定与该目标节点具有间接关联关系的目标节点作为参考目标节点,进而根据参考目标节点对应的内容生成目标推理信息,并将该目标推理信息作为主动对话信息发送给目标对话用户。该过程可以理解为聊天机器人基于目标知识图谱中的关联关系进行推理,即基于目标知识图谱中已有的事实和关系合理地推理出未知的事实和关系,进而基于所推理出的内容生成主动对话信息,利用该主动对话信息主动引导目标对话用户进行聊天互动,谈论可能与目标对话用户相关的内容。
为了便于理解上述实现过程,下面结合图6所示的基于目标知识图谱的推理过程实现原理示意图,对上述实现过程进行示例性介绍。假设目标知识图谱中对应于目标对话用户A的目标节点与对应于信息标签“糖”的目标节点相关联,且二者之间的关系为目标对话用户A对糖过敏;对应于信息标签“蛋糕”的目标节点和对应于信息标签“冰淇淋”的目标节点与对应于信息标签“糖”的目标节点均具有关联关系,即蛋糕和冰淇淋中均含有糖,基于上述目标节点之间的关联关系,聊天机器人可以推理出目标对话用户A对蛋糕和冰淇淋均过敏,进而,聊天机器人可以基于此生成主动对话信息。应理解,若目标对话用户B也对糖过敏,则聊天机器人针对目标对话用户A推理出的主动对话信息同样也适用于目标对话用户B。
应理解,在实际应用中,聊天机器人也可以通过其它方式生成主动对话信息,主动引导对话用户进行聊天互动,本申请在此不对聊天机器人生成主动对话信息的方式做任何限定。
可选的,在本申请实施例提供的聊天机器人会话方法中,聊天机器人还可以根据目标对话用户发送的对话信息,触发检测目标对话用户的情绪状态,并在检测到目标对话用户的情绪状态欠佳时,及时地对目标对话用户进行情绪疏导,以帮助用户调整自身的情绪状态。
即聊天机器人可以在检测到目标对话信息中包括目标敏感词时,确定与目标敏感词对应的目标心理测试;然后,向目标对话用户发送该目标心理测试对应的对话信息,并接收目标对话用户针对该对话信息发送的回复信息;进而,根据所接收的回复信息检测目标对话用户的情绪状态,并在检测到目标对话用户的情绪状态为异常状态时,触发预设目标操作,该预设目标操作包括以下至少一种:情绪安抚操作、相关用户预警操作。
示例性的,聊天机器人可以为用户提供第一心理测试、第二心理测试和第三心理测试,其中,第一心理测试用于对用户的抑郁、焦虑和压力水平进行测试,第二心理测试用于对用户的易怒程度进行测试,第三心理测试用于对用户的自恋程度进行测试。
在聊天机器人与目标对话用户进行聊天互动的过程中,若聊天机器人检测到目标对话用户发送的目标对话信息中包括与第一心理测试对应的第一敏感词,则聊天机器人可以调取用于测试用户抑郁、焦虑和压力水平的心理测试对话语料,利用所调取的对话语料与目标对话用户进行深度交流,并根据目标对话用户发送的回复信息,检测目标对话用户当前的情绪状态;若检测到目标对话用户当前的情绪状态为异常状态,则聊天机器人可以向目标对话用户发送相关的思想开导语料,以开导目标对话用户;和/或聊天机器人可以向与该目标对话用户相关的其他用户(如目标对话用户的朋友、父母等),发送对于目标对话用户的预警信息,以提示相关用户该目标对话用户当前的情绪状态异常。
若聊天机器人检测到目标对话用户发送的目标对话信息中包括与第二心理测试对应的第二敏感词,则聊天机器人可以调取用于测试用户易怒程度的心理测试对话语料,利用所调取的对话语料与目标对话用户进行深度交流,并根据目标对话用户发送的回复信息,检测目标对话用户当前的易怒程度;若检测到目标对话用户当前比较易怒,则聊天机器人可以向目标对话用户发送相关的思想开导语料,和/或播放相关能够安抚情绪的音视频,以安抚目标对话用户的情绪。
若聊天机器人检测到目标对话用户发送的目标对话信息中包括与第三心理测试对应的第三敏感词,则聊天机器人可以调取用于测试用户自恋程度的心理测试对话语料,利用所调取的对话语料与目标对话用户进行深度交流,并根据目标对话用户发送的回复信息,检测目标对话用户当前的自恋程度;若检测到目标对话用户当前比较自恋,则聊天机器人可以向目标对话用户发送相关的心理建议语料,以帮助目标对话用户维持健康的心理状态。
应理解,在实际应用中,聊天机器人还可以针对目标对话用户提供其它类型的心理测试,本申请在此不对聊天机器人所提供的心理测试类型做任何限定;此外,聊天机器人在检测到目标对话用户的情绪状态为异常状态时,除了可以触发上述预设目标操作外,还可以触发其它预设目标操作,本申请在此不对预设目标操作做任何限定。
在上述聊天机器人会话方法中,由于目标用户群是基于目标知识图谱对目标网络平台上的目标用户进行聚类处理得到的,因此,目标用户群中包括的目标用户彼此间具有较高的相似度和/或较强的关联性;目标用户群对应的目标聊天语料库即用于存储这些相似度高和/或关联性强的目标用户所产生的聊天语料;由于相似度高和/或关联性强的目标用户所产生的聊天语料具有一定的共享性,因此,聊天机器人基于该目标聊天语料库中的聊天语料与该目标用户群中的目标用户聊天对话,可以保证聊天对话的自然性和合理性,为用户提供较好的聊天互动体验。
为了便于进一步理解本申请实施例提供的技术方案,下面以本申请实施例提供的语料库构建方法和聊天机器人会话方法应用于游戏场景为例,即以聊天机器人为目标游戏应用中与用户进行聊天互动的机器人为例,对上述语料库构建方法和聊天机器人会话方法进行整体示例性介绍。
图7为本申请实施例提供的聊天机器人会话方法的实现过程示意图。如图7所示,聊天机器人接收到目标用户通过目标游戏应用发送的目标对话信息后,可以先判断该目标用户是否为该目标游戏应用的新用户,即判断该目标用户是否初次与聊天机器人进行聊天互动。
若确定发送目标对话信息的目标用户为目标游戏应用的新用户,则聊天机器人可以主动引导该目标用户聊天,以从目标用户回复的对话信息中,收集该目标用户的个人信息,确定该目标用户关联的信息标签,在此过程中,聊天机器人也可以结合目标用户通过目标游戏应用注册账号时预留的信息补充相关信息标签。示例性的,聊天机器人确定目标用户关联的信息标签时,通常需要依据长期变量信息和短期变量信息,其中,长期变量信息包括但不限于姓名、生日、父母信息、籍贯等,短期变量信息包括但不限于爱好、住址等;一般情况下,长期变量信息不可更改,短期变量信息可能需要随着时间的推移而及时更新。图8所示的聊天界面表现出了聊天机器人引导目标用户提供个人信息的实现过程。
此外,在确定目标用户为目标游戏应用的新用户的情况下,聊天机器人还可以通过心理测试话术,进一步收集目标用户的性格信息、情绪状态信息等;并且,聊天机器人还可以根据目标用户的情绪状态信息调整自身的对话风格(如对话语气等),设计相关的对话语料与目标用户进行聊天互动,和/或触发相关预警操作(例如,当检测到青少年用户存在较为严重的负面情绪时,聊天机器人可以联系相关监护人)。同时,心理测试的结构可以被结构化为目标用户的信息标签,以当作目标知识图谱中的目标节点。
表1所示内容为聊天机器人所能提供的相关心理测试内容;其中,人格测试、强迫程度测试、自信与自尊水平测试通常适用于新用户;抑郁、焦虑与压力水平测试、易怒程度测试和自恋程度测试既适用于新用户,又适用于老用户,聊天机器人通常可以在检测到目标用户发送的目标对话信息中存在相关敏感词时,触发相对应的心理测试。
表1
Figure BDA0002896904290000271
Figure BDA0002896904290000281
通过上述方式,针对为新用户的目标用户确定出其关联的信息标签后,可以根据该目标用户关联的信息标签,将其纳入目标知识图谱中,并基于目标知识图谱确定该目标用户所属的目标用户群。在该目标用户发送的目标对话信息为问题语句时,在该目标用户群对应的目标回答语料库中,查找与该目标用户发送的目标对话信息之间的匹配度满足预设匹配条件的回答语料,作为目标回复信息;在该目标用户发送的目标对话信息并非问题语句时,在该目标用户群对应的目标问题语料库中,查找与该目标用户发送的目标对话信息之间的匹配度满足预设匹配条件的问题语料,作为目标回复信息。
若确定发送目标对话信息的目标用户并非目标游戏应用的新用户,则可以直接确定该目标用户所属的目标用户群。在该目标用户发送的目标对话信息为问题语句时,在该目标用户群对应的目标回答语料库中,查找与该目标用户发送的目标对话信息之间的匹配度满足预设匹配条件的回答语料,作为目标回复信息;在该目标用户发送的目标对话信息并非问题语句时,在该目标用户群对应的目标问题语料库中,查找与该目标用户发送的目标对话信息之间的匹配度满足预设匹配条件的问题语料,作为目标回复信息。
需要说明的是,目标用户群对应的目标聊天语料库是基于图9所示的构建过程构建的。如图9所示,服务器可以根据使用目标游戏应用的各个目标用户各自关联的信息标签构建目标知识图谱;然后,基于该目标知识图谱对各个目标用户进行聚类处理,使得相似度高和/或关联性强的用户聚集在同一目标用户群;进而,针对每个目标用户群,将该目标用户群中各个目标用户产生的聊天语料划分为问题语料和回答语料,利用问题语料构建该目标用户群对应的目标问题语料库,利用回答语料构建该目标用户群对应的目标回答语料库,并且,服务器还可以利用生成模型对每个问题语料和回答语料进行转换处理,使其符合聊天机器人的人物设定。
上述目标用户关联的信息标签可以基于非结构数据(如目标用户产生的聊天语料)构建,即通过实体识别、实体链接、关系抽取、事件抽取等自然语言处理技术,从目标用户的聊天语料中抽取相关信息,并基于此确定目标用户关联的信息标签。上述目标用户关联的信息标签也可以基于结构化数据(如目标用户注册账号时预留的个人信息、通过心理测试得到的性格信息)构建。
应理解,在实际应用中,聊天机器人还可以利用目标用户发送的目标对话信息,更新该目标用户所属的目标用户群对应的目标聊天语料集合。
可选的,在本申请实施例提供的方法中,服务器可以针对每个目标用户群,利用该目标用户群中关联有目标信息标签的目标用户,组成该目标信息标签对应的目标子用户群;进而,基于该目标子用户群中各个目标用户产生的、与目标信息标签相关的聊天语料,构建该目标子用户群对应的目标聊天语料集合。当聊天机器人与该目标子用户群中的目标用户进行聊天互动时,聊天机器人可以从该目标聊天语料集合中调取聊天语料,主动引导目标用户聊天。
可选的,在本申请实施例提供的方法中,服务器还可以针对每个目标用户群,利用该目标用户群中行为轨迹记录存在重合行为信息的目标用户,组成该重合行为信息对应的目标子用户群;进而,基于该目标子用户群中各个目标用户产生的、与重合行为信息相关的聊天语料,构建该目标子用户群对应的目标聊天语料集合。当聊天机器人与该目标子用户群中的目标用户进行聊天互动时,聊天机器人可以从该目标聊天语料集合中调取聊天语料,主动引导目标用户聊天。
可选的,在本申请实施例提供的方法中,当聊天机器人与目标用户进行聊天互动时,聊天机器人可以确定目标知识图谱中与对应于该目标用户的目标节点具有间接关联关系的目标节点,作为参考目标节点,进而,根据参考目标节点推理得到主动对话信息,并向目标用户发送该主动对话信息,从而实现主动引导目标用户聊天。
应理解,在实际应用中,本申请实施例提供的方法除了可以应用于游戏场景中外,还可以应用于其它支持聊天机器人与用户进行聊天互动的场景,在此不对本申请实施例提供的方法适用的应用场景做任何限定。
针对上文描述的语料库构建方法和聊天机器人会话方法,本申请还提供了对应的语料库构建装置和聊天机器人会话装置,以使上述语料库构建方法和聊天机器人会话方法在实际中的应用以及实现。
参见图10,图10是上文图2所示的语料库构建方法对应的一种语料库构建装置1000的结构示意图。如图10所示,该语料库构建装置1000包括:
标签确定模块1001,用于针对目标网络平台上的每个目标用户,根据所述目标用户的关联信息数据,确定所述目标用户关联的信息标签;
知识图谱构建模块1002,用于根据所述目标网络平台上各个所述目标用户各自关联的信息标签,构建目标知识图谱;所述目标知识图谱用于表征多个目标节点之间的关联关系,所述多个目标节点包括对应于所述目标用户的节点和对应于所述信息标签的节点;
聚类模块1003,用于基于所述目标知识图谱,对所述目标网络平台上的各个所述目标用户进行聚类处理,得到至少一个目标用户群;
语料库构建模块1004,用于针对每个所述目标用户群,基于所述目标用户群中各个所述目标用户产生的聊天语料,构建所述目标用户群对应的目标聊天语料库;所述目标聊天语料库用于在聊天机器人与所述目标用户群中的所述目标用户聊天时,为所述聊天机器人提供对话语料。
可选的,在图10所示的语料库构建装置的基础上,所述标签确定模块1001具体通过以下至少一种方式确定所述目标用户关联的信息标签:
从所述目标用户产生的聊天语料中提取目标副体,所述目标副体为与所述目标用户相关的实体;根据所述目标副体,确定所述目标用户关联的信息标签;
根据所述目标用户的个人基本信息,确定所述目标用户关联的信息标签;所述个人基本信息包括以下至少一种:所述目标用户在所述目标网络平台上注册账号时预留的个人信息、通过对所述目标用户进行人格心理测试得到的性格信息、通过对所述目标用户进行情绪状态测试得到的情绪信息、通过对所述目标用户进行心理状态测试得到的心理状态信息。
可选的,在图10所示的语料库构建装置的基础上,本申请实施例还提供了另一种语料库构建装置,该语料库构建装置还包括:
第一语料集合构建模块,用于针对每个所述目标用户群,利用所述目标用户群中关联有目标信息标签的所述目标用户,组成所述目标信息标签对应的目标子用户群;基于所述目标子用户群中各个所述目标用户产生的、与所述目标信息标签相关的聊天语料,构建所述目标子用户群对应的目标聊天语料集合;所述目标聊天语料集合用于在所述聊天机器人与所述目标子用户群中的所述目标用户聊天时,为所述聊天机器人提供对话语料。
可选的,在图10所示的语料库构建装置的基础上,本申请实施例还提供了另一种语料库构建装置,该语料库构建装置还包括:
行为轨迹记录模块,用于根据所述目标用户产生的聊天语料,生成所述目标用户的行为轨迹记录;所述行为轨迹记录中包括所述目标用户的行为信息;
第二语料集合构建模块,用于针对每个所述目标用户群,利用所述目标用户群中所述行为轨迹记录存在重合行为信息的所述目标用户,组成所述重合行为信息对应的目标子用户群;基于所述目标子用户群中各个所述目标用户产生的、与所述重合行为信息相关的聊天语料,构建所述目标子用户群对应的目标聊天语料集合;所述目标聊天语料集合用于在所述聊天机器人与所述目标子用户群中的所述目标用户聊天时,为所述聊天机器人提供对话语料。
可选的,在图10所示的语料库构建装置的基础上,所述语料库构建模块1004具体用于:
将所述目标用户群中各个所述目标用户产生的聊天语料,划分为问题语料和回答语料;
基于所述问题语料构建所述目标用户群对应的目标问题语料库,基于所述回答语料构建所述目标用户群对应的目标回答语料库。
可选的,在图10所示的语料库构建装置的基础上,所述语料库构建模块1004具体用于:
针对所述目标用户群中各个所述目标用户产生的每个聊天语料,通过生成模型处理所述聊天语料,得到所述聊天语料对应的目标聊天语料;所述生成模型用于将所述聊天语料转换为与所述聊天机器人的人物设定相符的所述目标聊天语料;
利用所述目标用户群中各个所述目标用户产生的各个聊天语料各自对应的目标聊天语料,构建所述目标用户群对应的目标聊天语料库。
可选的,在图10所示的语料库构建装置的基础上,本申请实施例还提供了另一种语料库构建装置,该语料库构建装置还包括:
知识图谱处理模块,用于对所述目标知识图谱中语义重叠的所述目标节点进行融合处理,并且滤除所述目标知识图谱中满足无效节点条件的所述目标节点,得到标准目标知识图谱;
则所述聚类模块1003具体用于:
基于所述标准目标知识图谱,对所述目标网络平台上的各个所述目标用户进行聚类处理,得到至少一个所述目标用户群。
本申请实施例提供的语料库构建装置,直接利用目标用户群中各个目标用户产生的聊天语料,构建适用于该目标用户群的目标聊天语料库,大大节省了所需耗费的人力成本,并且能够提供语料库的构建效率。此外,基于目标知识图谱对目标网络平台上的目标用户进行聚类处理,能够将相似度高和/或关联性强的目标用户聚集至同一目标用户群,由于相似度高和/或关联性强的用户所产生的聊天语料具有一定的共享性,因此,聊天机器人与目标用户群中的目标用户聊天时,从该目标用户群对应的目标聊天语料库中调用聊天语料与用户进行聊天对话,可以保证聊天对话的自然性和合理性,为用户提供较好的聊天互动体验。
参见图11,图11是上文图5所示的聊天机器人会话方法对应的一种聊天机器人会话装置1100的结构示意图。如图11所示,该聊天机器人会话装置1100包括:
信息接收模块1101,用于接收目标网络平台上的目标对话用户发送的目标对话信息;
用户群确定模块1102,用于确定所述目标对话用户所属的目标用户群;所述目标用户群是基于目标知识图谱对所述目标网络平台上的各个目标用户进行聚类处理得到的;所述目标知识图谱用于表征多个目标节点之间的关联关系,所述多个目标节点包括所述对应于所述目标用户的节点和对应于所述目标用户关联的信息标签的节点;
回复信息查找模块1103,用于在所述目标用户群对应的目标聊天语料库中,查找与所述目标对话信息的匹配度满足预设匹配条件的聊天语料,作为目标回复信息;所述目标聊天语料库是通过图2所示的语料库构建方法构建的;
信息发送模块1104,用于向所述目标对话用户发送所述目标回复信息。
可选的,在图11所示的聊天机器人会话装置的基础上,本申请实施例还提供了另一种聊天机器人会话装置,该聊天机器人会话装置还包括:
第一主动对话模块,用于确定所述目标对话用户所属的目标子用户群;所述目标子用户群包括所述目标用户群中关联有目标信息标签的所述目标用户,或者,所述目标子用户群包括所述目标用户群中行为轨迹记录存在重合行为信息的所述目标用户;在所述目标子用户群对应的目标聊天语料集合中调取聊天语料,作为主动对话信息;所述目标聊天语料集合中包括所述目标子用户群中各个所述目标用户产生的、与所述目标信息标签相关的聊天语料,或者,所述目标聊天语料集合中包括所述目标子用户群中各个所述目标用户产生的、与所述重合行为信息相关的聊天语料;向所述目标对话用户发送所述主动对话信息。
可选的,在图11所示的聊天机器人会话装置的基础上,本申请实施例还提供了另一种聊天机器人会话装置,该聊天机器人会话装置还包括:
第二主动对话模块,用于确定所述目标知识图谱中与对应于所述目标对话用户的目标节点具有间接关联关系的目标节点,作为参考目标节点;根据所述参考目标节点生成目标推理信息,作为主动对话信息;向所述目标对话用户发送所述主动对话信息。
可选的,在图11所示的聊天机器人会话装置的基础上,本申请实施例还提供了另一种聊天机器人会话装置,该聊天机器人会话装置还包括:
心理测试模块,用于检测到所述目标对话信息中包括目标敏感词时,确定与所述目标敏感词对应的目标心理测试;向所述目标对话用户发送所述目标心理测试对应的对话信息;接收所述目标对话用户针对所述对话信息发送的回复信息;根据所述回复信息检测所述目标对话用户的情绪状态;检测到所述目标对话用户的情绪状态为异常状态时,触发预设目标操作;所述预设目标操作包括以下至少一种:情绪安抚操作、相关用户预警操作。
在上述聊天机器人会话装置中,由于目标用户群是基于目标知识图谱对目标网络平台上的目标用户进行聚类处理得到的,因此,目标用户群中包括的目标用户彼此间具有较高的相似度和/或较强的关联性;目标用户群对应的目标聊天语料库即用于存储这些相似度高和/或关联性强的目标用户所产生的聊天语料;由于相似度高和/或关联性强的目标用户所产生的聊天语料具有一定的共享性,因此,聊天机器人基于该目标聊天语料库中的聊天语料与该目标用户群中的目标用户聊天对话,可以保证聊天对话的自然性和合理性,为用户提供较好的聊天互动体验。
本申请实施例还提供了一种用于构建语料库的设备和用于支持聊天机器人会话的设备,该设备具体可以是服务器或终端设备,下面将从硬件实体化的角度对本申请实施例提供的服务器和终端设备进行介绍。
参见图12,图12是本申请实施例提供的终端设备的结构示意图。如图12所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理、销售终端(Point ofSales,POS)、车载电脑等任意终端设备,以终端为智能手机为例:
图12示出的是与本申请实施例提供的终端相关的智能手机的部分结构的框图。参考图12,智能手机包括:射频(Radio Frequency,RF)电路1210、存储器1220、输入单元1230、显示单元1240、传感器1250、音频电路1260、无线保真(wireless fidelity,WiFi)模块1270、处理器1280、以及电源1290等部件。本领域技术人员可以理解,图12中示出的智能手机结构并不构成对智能手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储器1220可用于存储软件程序以及模块,处理器1280通过运行存储在存储器1220的软件程序以及模块,从而执行智能手机的各种功能应用以及数据处理。存储器1220可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1220可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器1280是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器1220内的软件程序和/或模块,以及调用存储在存储器1220内的数据,执行智能手机的各种功能和处理数据,从而对智能手机进行整体监控。可选的,处理器1280可包括一个或多个处理单元;优选的,处理器1280可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1280中。
在本申请实施例中,该终端所包括的处理器1280还具有以下功能:
接收目标网络平台上的目标对话用户发送的目标对话信息;
确定所述目标对话用户所属的目标用户群;所述目标用户群是基于目标知识图谱对所述目标网络平台上的各个目标用户进行聚类处理得到的;所述目标知识图谱用于表征多个目标节点之间的关联关系,所述多个目标节点包括所述对应于所述目标用户的节点和对应于所述目标用户关联的信息标签的节点;
在所述目标用户群对应的目标聊天语料库中,查找与所述目标对话信息的匹配度满足预设匹配条件的聊天语料,作为目标回复信息;所述目标聊天语料库是通过图2所示的语料库构建方法构建的;
向所述目标对话用户发送所述目标回复信息。
可选的,所述处理器1280还用于执行本申请实施例提供的聊天机器人会话方法的任意一种实现方式的步骤。
参见图13,图13为本申请实施例提供的一种服务器1300的结构示意图。该服务器1300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1322(例如,一个或一个以上处理器)和存储器1332,一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中,存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1322可以设置为与存储介质1330通信,在服务器1300上执行存储介质1330中的一系列指令操作。
服务器1300还可以包括一个或一个以上电源1326,一个或一个以上有线或无线网络接口1350,一个或一个以上输入输出接口1358,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图13所示的服务器结构。
其中,CPU 1322用于执行如下步骤:
针对目标网络平台上的每个目标用户,根据所述目标用户的关联信息数据,确定所述目标用户关联的信息标签;
根据所述目标网络平台上各个所述目标用户各自关联的信息标签,构建目标知识图谱;所述目标知识图谱用于表征多个目标节点之间的关联关系,所述多个目标节点包括对应于所述目标用户的节点和对应于所述信息标签的节点;
基于所述目标知识图谱,对所述目标网络平台上的各个所述目标用户进行聚类处理,得到至少一个目标用户群;
针对每个所述目标用户群,基于所述目标用户群中各个所述目标用户产生的聊天语料,构建所述目标用户群对应的目标聊天语料库;所述目标聊天语料库用于在聊天机器人与所述目标用户群中的所述目标用户聊天时,为所述聊天机器人提供对话语料。
或者,
接收目标网络平台上的目标对话用户发送的目标对话信息;
确定所述目标对话用户所属的目标用户群;所述目标用户群是基于目标知识图谱对所述目标网络平台上的各个目标用户进行聚类处理得到的;所述目标知识图谱用于表征多个目标节点之间的关联关系,所述多个目标节点包括所述对应于所述目标用户的节点和对应于所述目标用户关联的信息标签的节点;
在所述目标用户群对应的目标聊天语料库中,查找与所述目标对话信息的匹配度满足预设匹配条件的聊天语料,作为目标回复信息;所述目标聊天语料库是通过图2所示的语料库构建方法构建的;
向所述目标对话用户发送所述目标回复信息。
可选的,CPU 1322还可以用于执行本申请实施例提供的语料库构建方法或者聊天机器人会话方法的任意一种实现方式的步骤。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行前述各个实施例所述的一种语料库构建方法或者聊天机器人会话方法中的任意一种实施方式。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述各个实施例所述的一种语料库构建方法或者聊天机器人会话方法中的任意一种实施方式。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种语料库构建方法,其特征在于,所述方法包括:
针对目标网络平台上的每个目标用户,根据所述目标用户的关联信息数据,确定所述目标用户关联的信息标签;
根据所述目标网络平台上各个所述目标用户各自关联的信息标签,构建目标知识图谱;所述目标知识图谱用于表征多个目标节点之间的关联关系,所述多个目标节点包括对应于所述目标用户的节点和对应于所述信息标签的节点;
基于所述目标知识图谱,对所述目标网络平台上的各个所述目标用户进行聚类处理,得到至少一个目标用户群;
针对每个所述目标用户群,基于所述目标用户群中各个所述目标用户产生的聊天语料,构建所述目标用户群对应的目标聊天语料库;所述目标聊天语料库用于在聊天机器人与所述目标用户群中的所述目标用户聊天时,为所述聊天机器人提供对话语料。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标用户的关联信息数据,确定所述目标用户关联的信息标签,包括以下至少一种:
从所述目标用户产生的聊天语料中提取目标副体,所述目标副体为与所述目标用户相关的实体;根据所述目标副体,确定所述目标用户关联的信息标签;
根据所述目标用户的个人基本信息,确定所述目标用户关联的信息标签;所述个人基本信息包括以下至少一种:所述目标用户在所述目标网络平台上注册账号时预留的个人信息、通过对所述目标用户进行人格心理测试得到的性格信息、通过对所述目标用户进行情绪状态测试得到的情绪信息、通过对所述目标用户进行心理状态测试得到的心理状态信息。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对每个所述目标用户群,利用所述目标用户群中关联有目标信息标签的所述目标用户,组成所述目标信息标签对应的目标子用户群;
基于所述目标子用户群中各个所述目标用户产生的、与所述目标信息标签相关的聊天语料,构建所述目标子用户群对应的目标聊天语料集合;所述目标聊天语料集合用于在所述聊天机器人与所述目标子用户群中的所述目标用户聊天时,为所述聊天机器人提供对话语料。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述目标用户产生的聊天语料,生成所述目标用户的行为轨迹记录;所述行为轨迹记录中包括所述目标用户的行为信息;
针对每个所述目标用户群,利用所述目标用户群中所述行为轨迹记录存在重合行为信息的所述目标用户,组成所述重合行为信息对应的目标子用户群;
基于所述目标子用户群中各个所述目标用户产生的、与所述重合行为信息相关的聊天语料,构建所述目标子用户群对应的目标聊天语料集合;所述目标聊天语料集合用于在所述聊天机器人与所述目标子用户群中的所述目标用户聊天时,为所述聊天机器人提供对话语料。
5.根据权利要求1所述的方法,其特征在于,所述基于所述目标用户群中各个所述目标用户产生的聊天语料,构建所述目标用户群对应的目标聊天语料库,包括:
将所述目标用户群中各个所述目标用户产生的聊天语料,划分为问题语料和回答语料;
基于所述问题语料构建所述目标用户群对应的目标问题语料库,基于所述回答语料构建所述目标用户群对应的目标回答语料库。
6.根据权利要求1或5所述的方法,其特征在于,所述基于所述目标用户群中各个所述目标用户产生的聊天语料,构建所述目标用户群对应的目标聊天语料库,包括:
针对所述目标用户群中各个所述目标用户产生的每个聊天语料,通过生成模型处理所述聊天语料,得到所述聊天语料对应的目标聊天语料;所述生成模型用于将所述聊天语料转换为与所述聊天机器人的人物设定相符的所述目标聊天语料;
利用所述目标用户群中各个所述目标用户产生的各个聊天语料各自对应的目标聊天语料,构建所述目标用户群对应的目标聊天语料库。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述目标知识图谱中语义重叠的所述目标节点进行融合处理,并且滤除所述目标知识图谱中满足无效节点条件的所述目标节点,得到标准目标知识图谱;
所述基于所述目标知识图谱,对所述目标网络平台上的各个所述目标用户进行聚类处理,得到至少一个目标用户群,包括:
基于所述标准目标知识图谱,对所述目标网络平台上的各个所述目标用户进行聚类处理,得到至少一个所述目标用户群。
8.一种聊天机器人会话方法,其特征在于,所述方法包括:
接收目标网络平台上的目标对话用户发送的目标对话信息;
确定所述目标对话用户所属的目标用户群;所述目标用户群是基于目标知识图谱对所述目标网络平台上的各个目标用户进行聚类处理得到的;所述目标知识图谱用于表征多个目标节点之间的关联关系,所述多个目标节点包括所述对应于所述目标用户的节点和对应于所述目标用户关联的信息标签的节点;
在所述目标用户群对应的目标聊天语料库中,查找与所述目标对话信息的匹配度满足预设匹配条件的聊天语料,作为目标回复信息;所述目标聊天语料库是通过权利要求1至7任一项所述的语料库构建方法构建的;
向所述目标对话用户发送所述目标回复信息。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
确定所述目标对话用户所属的目标子用户群;所述目标子用户群包括所述目标用户群中关联有目标信息标签的所述目标用户,或者,所述目标子用户群包括所述目标用户群中行为轨迹记录存在重合行为信息的所述目标用户;
在所述目标子用户群对应的目标聊天语料集合中调取聊天语料,作为主动对话信息;所述目标聊天语料集合中包括所述目标子用户群中各个所述目标用户产生的、与所述目标信息标签相关的聊天语料,或者,所述目标聊天语料集合中包括所述目标子用户群中各个所述目标用户产生的、与所述重合行为信息相关的聊天语料;
向所述目标对话用户发送所述主动对话信息。
10.根据权利要求8所述的方法,其特征在于,所述方法还包括:
确定所述目标知识图谱中与对应于所述目标对话用户的目标节点具有间接关联关系的目标节点,作为参考目标节点;
根据所述参考目标节点生成目标推理信息,作为主动对话信息;
向所述目标对话用户发送所述主动对话信息。
11.根据权利要求8所述的方法,其特征在于,所述方法还包括:
检测到所述目标对话信息中包括目标敏感词时,确定与所述目标敏感词对应的目标心理测试;
向所述目标对话用户发送所述目标心理测试对应的对话信息;
接收所述目标对话用户针对所述对话信息发送的回复信息;
根据所述回复信息检测所述目标对话用户的情绪状态;
检测到所述目标对话用户的情绪状态为异常状态时,触发预设目标操作;所述预设目标操作包括以下至少一种:情绪安抚操作、相关用户预警操作。
12.一种语料库构建装置,其特征在于,所述装置包括:
标签确定模块,用于针对目标网络平台上的每个目标用户,根据所述目标用户的关联信息数据,确定所述目标用户关联的信息标签;
知识图谱构建模块,用于根据所述目标网络平台上各个所述目标用户各自关联的信息标签,构建目标知识图谱;所述目标知识图谱用于表征多个目标节点之间的关联关系,所述多个目标节点包括对应于所述目标用户的节点和对应于所述信息标签的节点;
聚类模块,用于基于所述目标知识图谱,对所述目标网络平台上的各个所述目标用户进行聚类处理,得到至少一个目标用户群;
语料库构建模块,用于针对每个所述目标用户群,基于所述目标用户群中各个所述目标用户产生的聊天语料,构建所述目标用户群对应的目标聊天语料库;所述目标聊天语料库用于在聊天机器人与所述目标用户群中的所述目标用户聊天时,为所述聊天机器人提供对话语料。
13.一种聊天机器人会话装置,其特征在于,所述装置包括:
信息接收模块,用于接收目标网络平台上的目标对话用户发送的目标对话信息;
用户群确定模块,用于确定所述目标对话用户所属的目标用户群;所述目标用户群是基于目标知识图谱对所述目标网络平台上的各个目标用户进行聚类处理得到的;所述目标知识图谱用于表征多个目标节点之间的关联关系,所述多个目标节点包括所述对应于所述目标用户的节点和对应于所述目标用户关联的信息标签的节点;
回复信息查找模块,用于在所述目标用户群对应的目标聊天语料库中,查找与所述目标对话信息的匹配度满足预设匹配条件的聊天语料,作为目标回复信息;所述目标聊天语料库是通过权利要求1至7任一项所述的语料库构建方法构建的;
信息发送模块,用于向所述目标对话用户发送所述目标回复信息。
14.一种设备,其特征在于,所述设备包括处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行权利要求1至7中任一项所述的语料库构建方法,或者权利要求8至11中任一项所述的聊天机器人会话方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1至7中任一项所述的语料库构建方法,或者权利要求8至11中任一项所述的聊天机器人会话方法。
CN202110045035.7A 2021-01-13 2021-01-13 语料库构建方法、聊天机器人会话方法及相关装置 Active CN112685551B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110045035.7A CN112685551B (zh) 2021-01-13 2021-01-13 语料库构建方法、聊天机器人会话方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110045035.7A CN112685551B (zh) 2021-01-13 2021-01-13 语料库构建方法、聊天机器人会话方法及相关装置

Publications (2)

Publication Number Publication Date
CN112685551A true CN112685551A (zh) 2021-04-20
CN112685551B CN112685551B (zh) 2023-09-22

Family

ID=75457943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110045035.7A Active CN112685551B (zh) 2021-01-13 2021-01-13 语料库构建方法、聊天机器人会话方法及相关装置

Country Status (1)

Country Link
CN (1) CN112685551B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114356276A (zh) * 2021-12-22 2022-04-15 科大讯飞股份有限公司 一种语音交互方法以及相关装置
CN115617973A (zh) * 2022-12-14 2023-01-17 安徽数分智能科技有限公司 一种基于智能数据处理的信息获取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180025726A1 (en) * 2016-07-22 2018-01-25 International Business Machines Corporation Creating coordinated multi-chatbots using natural dialogues by means of knowledge base
CN109885810A (zh) * 2019-01-17 2019-06-14 平安城市建设科技(深圳)有限公司 基于语义解析的人机问答方法、装置、设备和存储介质
CN110489513A (zh) * 2019-06-24 2019-11-22 覃立万 一种智能机器人社交信息处理方法及与人的社交系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180025726A1 (en) * 2016-07-22 2018-01-25 International Business Machines Corporation Creating coordinated multi-chatbots using natural dialogues by means of knowledge base
CN109885810A (zh) * 2019-01-17 2019-06-14 平安城市建设科技(深圳)有限公司 基于语义解析的人机问答方法、装置、设备和存储介质
CN110489513A (zh) * 2019-06-24 2019-11-22 覃立万 一种智能机器人社交信息处理方法及与人的社交系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114356276A (zh) * 2021-12-22 2022-04-15 科大讯飞股份有限公司 一种语音交互方法以及相关装置
CN115617973A (zh) * 2022-12-14 2023-01-17 安徽数分智能科技有限公司 一种基于智能数据处理的信息获取方法

Also Published As

Publication number Publication date
CN112685551B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
CN109002490B (zh) 用户画像生成方法、装置、服务器及存储介质
US20200301954A1 (en) Reply information obtaining method and apparatus
CN108536681B (zh) 基于情感分析的智能问答方法、装置、设备及存储介质
CN110209897B (zh) 智能对话方法、装置、存储介质及设备
CN109829039B (zh) 智能聊天方法、装置、计算机设备及存储介质
CN110869969A (zh) 用于在通信会话内生成个性化响应的虚拟助手
WO2019005348A1 (en) VIRTUAL ASSISTANT PROVIDING ENHANCED COMMUNICATION SESSION SERVICES
CN109643325B (zh) 在自动聊天中推荐朋友
Rosa et al. Event detection system based on user behavior changes in online social networks: Case of the covid-19 pandemic
CN105574067A (zh) 项目推荐装置以及项目推荐方法
JP2015135668A (ja) コンテント及び関係距離に基づいて人々をつなげるコンピューティング装置及び方法
CN112685551B (zh) 语料库构建方法、聊天机器人会话方法及相关装置
JP6076425B1 (ja) 対話インターフェース
EP2618274A1 (en) Method for providing a set of services of a first subset of a social network to a user of a second subset of said social network
CN114328852B (zh) 一种文本处理的方法、相关装置及设备
CN110852109A (zh) 语料生成方法、语料生成装置、和存储介质
CN110209810A (zh) 相似文本识别方法以及装置
JP6366749B2 (ja) 対話インターフェース
CN112291423B (zh) 通信呼叫智能应答处理方法、装置、电子设备及存储介质
CN114357278B (zh) 一种话题推荐方法、装置及设备
WO2015131306A1 (en) Dynamics of tie strength from social interaction
CN110472057A (zh) 话题标签的生成方法及装置
CN108306813B (zh) 会话消息的处理方法、服务器及客户端
KR20160134564A (ko) 사용자의 감성을 분석하는 방법 및 디바이스
Subbanarasimha et al. Invisible stories that drive online social cognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40042006

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant