CN114969282A

CN114969282A - 基于富媒体知识图谱多模态情感分析模型的智能交互方法

Info

Publication number: CN114969282A
Application number: CN202210481184.2A
Authority: CN
Inventors: 伏英娜; 霍久兴
Original assignee: Appmagics Tech (beijing) Ltd
Current assignee: Appmagics Tech (beijing) Ltd
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-08-30
Anticipated expiration: 2042-05-05
Also published as: CN114969282B

Abstract

本申请实施例提供了一种基于基于富媒体知识图谱多模态情感分析模型的智能交互方法，涉及人机交互技术领域，所述方法包括：基于富媒体多模态知识图谱，生成用户问题对应的答案；基于多模态智能情感交互模型，根据所述答案，生成所述答案对应的情感和所述情感对应的强度，所述多模态智能情感交互模型表示答案、情感和强度三者的映射关系；基于情绪表达规则，根据所述强度，获得所述强度对应的表情和动作；基于三维模型，根据所述答案、所述情感、所述强度和所述表情和动作，进行实时智能交互。本申请能够改善当前人机自然交互的展现形式单一，从而导致表达和沟通的效果较差的问题，达到丰富当前人机自然交互的展现形式的效果。

Description

基于富媒体知识图谱多模态情感分析模型的智能交互方法

技术领域

本申请实施例涉及人机交互技术领域，尤其涉及一种基于富媒体知识图谱多模态情感分析模型的智能交互方法。

背景技术

当前，人机自然交互的基本特征是仅限于面部表情的运动，赋予计算机听觉和视觉智能，理解以语言形式表达的内容。随着年轻一代逐渐成为消费市场的主力，一些产品已经不能够靠传统的方式来吸引这些年轻用户。正如我们目前在网络平台上的形象，基于二维的文字与图片形式，就显得有些偏平。

在网络传输速率远超世纪初期的现在，社交平台大多是二维社交，互相传输的信息大多数都是图文和语音。购物也是如此，在选购商品的过程中，绝大部分看的是图片和或者视频，并没有真正的体验感。

可见，前端展现依旧过于冰冷，并未多元立体地展现用户个性与特征，网络上大家的个人形象依旧还是世纪初就定义的头像+昵称的二维展现，这是不符合常理的。

要知道，我们存在的是四维时空的世界，有价值的未来必然是混合现实的未来。基于此，互联网上的所有体验，都会升维并还原成我们在四维时空中的体验。

在实现本发明的过程中，发明人发现，当前人机自然交互的展现形式单一，从而导致表达的效果较差。

发明内容

本申请实施例提供了一种基于富媒体知识图谱多模态情感分析模型的智能交互方法，能够改善当前人机自然交互的展现形式单一，从而导致表达和沟通的效果较差的问题。

在本申请的第一方面，提供了一种基于富媒体知识图谱多模态情感分析模型的智能交互方法，包括：

基于富媒体多模态知识图谱，生成用户问题对应的答案，所述富媒体多模态知识图谱根据富媒体多模态信息构建，所述富媒体多模态知识图谱包括答案集、问题集和/或所述问题集对应的答案集，所述答案以脚本的形式运行，所述富媒体多模态知识图谱还包括其它扩展数据来源；

基于多模态智能情感交互模型，根据所述答案，生成所述答案对应的情感和所述情感对应的强度，所述多模态智能情感交互模型表示答案、情感和强度三者的映射关系；

基于情感表达规则，根据所述强度，获得所述强度对应的表情和/或动作；

基于三维模型，根据所述答案、所述情感、所述强度和所述表情和/或动作，进行交互。

通过采用以上技术方案，基于富媒体多模态知识图谱，生成用户问题对应的答案；再基于多模态智能情感交互模型，根据答案，生成答案对应的情感和所述情感对应的强度；再基于情感表达规则，根据强度，获得强度对应的动作；再基于三维模型，根据答案、情感、强度、表情和/或动作，进行交互；综上可以将答案基于语音语调、面部表情和/或肢体语言的表现形式，表达给用户，能够改善当前人机自然交互的展现形式单一，从而导致表达的效果较差的问题，达到丰富当前人机自然交互的展现形式的效果。

在一些实施例中，所述问题集中的问题包括预设标签；

所述基于富媒体多模态知识图谱，生成用户问题对应的答案，包括：

获取所述用户问题；

根据所述预设标签对所述用户问题与预设标签进行分类，并根据所述用户问题的分类结果从对应的问题集中匹配对应的问题；

若匹配成功，则根据所述用户问题和所述问题集对应的答案集，生成所述用户问题对应的答案。

在一些实施例中，所述基于富媒体多模态知识图谱，生成用户问题对应的答案，包括：

提取所述用户问题的关键词，并设置所述关键词的权重；

对所述关键词进行泛化处理，根据泛化后的关键词，生成所述用户问题的相似问题集；

将所述相似问题集与所述问题集进行匹配，基于所述富媒体多模态知识图谱，根据所述问题集对应的答案集，生成所述相似问题集对应的答案集，作为所述富媒体多模态知识图谱的增量数据；

根据所述关键词，从所述答案集中查找所述关键词所有相关的答案，所述关键词的权重作为所述用户问题对应的答案排序依据。

在所述富媒体多模态知识图谱中导入半结构化和非结构化数据；

对所述半结构化和非结构化数据进行关键词提取和向量化处理；

根据所述用户问题，基于关键词及向量计算检索并匹配对应的答案集；

根据所述用户问题，对所述答案集数据进行搜索排序及阅读理解，生成所述用户问题对应的答案。

在一些实施例中，所述富媒体多模态知识图谱的构建包括：

基于自顶向下的构建方式和/或自下而上的构建方式，导入结构化、半结构化和/或非结构化数据生成所述富媒体多模态知识图谱，所述富媒体多模态知识图谱包括所述答案集、所述问题集和/或所述问题集对应的答案集。

在一些实施例中，还包括：

基于所构建的多模态富媒体搜索引擎进行数据定位；和/或

基于相似问处理算法，对所述问题集进行增量处理；和/或

设置所述问题集的问题标签，对所述问题集进行增量处理；和/或

基于向量计算方法，对所述问题集、所述问题集对应的答案集和/或所述答案集进行增量处理；和/或

基于文本分割算法和/或所述情感表达规则，对所述问题集、所述问题集对应的答案集和/或所述答案集进行增量处理；和/或

基于分词处理算法、命名实体识别算法、关键词和同/近义词提取算法和/或词性分析算法，对所述问题集、所述问题集对应的答案集和/或所述答案集进行增量处理。

在一些实施例中，所述答案集的生成方法包括：

基于富媒体多模态数据的统一资源定位符，获得富媒体多模态数据和所述富媒体多模态数据的网页结构，所述富媒体多模态数据包括文字数据、图片数据、图文数据、音频数据和/或视频数据；

对所述富媒体多模态数据的类型与格式进行文字识别或提取；

根据所述富媒体多模态数据的网页结构，生成所述网页结构的正则表达式；

基于所述正则表达式，获得所述富媒体多模态信息，并对所述富媒体多模态信息进行分割，生成第一子富媒体多模态信息；

基于所述文本分割算法，对所述第一子富媒体多模态信息进行分割，生成第二子富媒体多模态信息；

根据所述第二子富媒体多模态信息，生成所述答案集。

在一些实施例中，所述答案集的生成方法，还包括：

根据所述正则表达式，获得所述富媒体多模态信息中图片和文字的相对位置关系；

根据富媒体多模态信息中图片和视频类内容进行文字识别和提取，建立图像数据与文本数据的关联；

基于所述多模态智能情感交互模型、语音和/或语义理解，根据所述富媒体多模态信息，生成所述富媒体多模态信息对应的情感和情感对应的强度；

基于所述情感表达规则，根据所述富媒体多模态信息对应的情感、情感对应的强度、所述相对位置关系及关联，生成所述答案集。

在一些实施例中，所述多模态智能情感交互模型是通过以下方式训练得到的：

分别获取标记有情感标签的富媒体多模态信息和所述情感标签对应的强度标签的富媒体多模态信息；

用标记有所述情感标签的富媒体多模态信息作为训练数据，利用深度神经网络算法进行训练学习，生成第一多模态智能情感交互子模型；

用标记有所述强度标签的富媒体多模态信息作为训练数据，利用深度神经网络算法进行训练学习，生成第二多模态智能情感交互子模型；

根据第一多模态智能情感交互子模型和第二多模态智能情感交互子模型，生成所述多模态智能情感交互模型。

在一些实施例中，所述情绪表达规则包括所述答案集和/或所述问题集对应的答案集对应的情感、情感对应的强度、情感对应的表情和/或动作、强度对应的表情和/或动作、同类的表情和/或动作出现的频率阈值以及同类的表情和/或动作出现的间隔阈值。

应当理解，发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征，亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本申请各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本申请实施例中基于富媒体知识图谱多模态情感分析模型的智能交互方法的流程图。

图2示出了本申请实施例中一种生成用户问题对应的答案方法的流程图；

图3示出了本申请实施例中另一种生成用户问题对应的答案方法的流程图；

图4示出了本申请实施例中另一种生成用户问题对应的答案方法的流程图；

图5示出了本申请实施例中一种构建富媒体多模态知识图谱方法的流程图；

图6示出了本申请实施例中另一种构建富媒体多模态知识图谱方法的流程图；

图7示出了本申请实施例中一种生成答案集方法的流程图；

图8示出了本申请实施例中另一种生成答案集方法的流程图；

图9示出了本申请实施例中一种训练多模态智能情感交互模型方法的流程图；

图10示出了本申请实施例中虚拟直播展示的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所生成的所有其他实施例，都属于本申请保护的范围。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指大于或者等于两个。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本申请实施例提供的基于富媒体知识图谱多模态情感分析模型的智能交互方法可以应用于人机交互技术领域。当下，人机自然交互的基本特征是只动嘴不动手，赋予计算机听觉和视觉智能，理解以语言形式表达的说话内容。随着时代的发展，用户对人机交互进入多模态阶段后技术发展的要求更高，可以看到，当前人机自然交互的展现形式较为单一，从而导致表达的效果较差。为解决这个技术问题，本申请实施例提供了一种基于富媒体知识图谱多模态情感分析模型的智能交互方法。

为方便说明，将对本申请实施例涉及的专业术语进行如下说明：

富媒体(即Rich Media)，本身并不是一种具体的互联网媒体形式，而是指具有动画、声音、视频或交互性的信息传播方法。

多模态，即多模态生物识别，是指整合或融合两种及两种以上生物识别技术，利用其多重生物识别技术的独特优势，并结合数据融合技术，使得认证和识别过程更加精准、安全。

FAQ(Frequently Asked Questions，常见问题解答)，是企业、网站、组织、或者页面功能等设计者提供在线帮助的主要手段，通过事先设计好的一些可能的常问问答，发布在网页上为用户提供咨询服务，以便快速找到答案信息。

知识图谱(Knowledge Graph)，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱在本质上是一种叫做语义网络(semantic network)的知识库，即具有有向图结构的一个知识库。知识图谱包括通用知识图谱和行业知识图谱，其中，通用知识图谱侧重构建行业常识性的知识，并用于搜索引擎和推荐系统。行业知识图谱主要面向企业，通过构建不同行业、企业的知识图谱，对企业内部提供知识化服务。

在本申请实施例中，富媒体多模态知识图谱所属行业知识图谱。

图1示出了本申请实施例中基于富媒体知识图谱多模态情感分析模型的智能交互方法的流程图。参见图1，本实施例中基于富媒体知识图谱多模态情感分析模型的智能交互方法包括：

步骤S101：基于富媒体多模态知识图谱，生成用户问题对应的答案，所述富媒体多模态知识图谱根据富媒体多模态信息构建，所述富媒体多模态知识图谱包括答案集、问题集和/或所述问题集对应的答案集，所述答案以脚本的形式运行，所述富媒体多模态知识图谱还包括其它扩展数据来源。

步骤S102：基于多模态智能情感交互模型，根据所述答案，生成所述答案对应的情感和所述情感对应的强度，所述多模态智能情感交互模型表示答案、情感和强度三者的映射关系。

步骤S103：基于情感表达规则，根据所述强度，获得所述强度对应的表情和/或动作。

步骤S104：基于三维模型，根据所述答案、所述情感、所述强度和所述表情和/或动作，进行交互。

在步骤S101中，基于交互的实时性，用户问题将通过用户交互设备实时进行获取。在获取到用户问题后，根据用户问题，从富媒体多模态知识图谱中生成用户问题对应的答案。用户交互设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。用户问题可以是语音、文字或视频等形式的问题。基于富媒体知识图谱多模态情感分析模型的智能交互方法的应用场景包括但不限于电商直播、数智内容和营销、智能服务和新一代互联网交互。

其中，根据数据格式，可以将富媒体多模态知识图谱中的答案集、问题集和/或问题集对应的答案集划分为至少一种数据格式的信息，即结构化数据格式信息和/或非结构化数据格式信息。进一步地，在富媒体多模态知识图谱中，还可以包括半结构化数据格式信息。结构化数据格式信息、半结构化数据格式信息和非结构化数据格式信息可根据实际情况分别单独存在，也可以兼容存在。其中，结构化数据格式信息、半结构化数据格式信息和非结构化数据格式信息均指富媒体数据。

可选的，结构化数据格式信息为FAQ格式信息，包括问题集和/或问题集对应的答案集，可由人工录入。非结构文本格式信息为脚本格式或其它可能的网页、文档等形式，包括答案集，可基于富媒体多模态数据进行获取。

需说明，用户问题对应的答案，可以是非结构化数据格式信息构建的答案，也可以是结构化数据格式信息构建的答案。同时，基于此，根据问题集对应的答案集生成的答案和根据答案集生成的答案，均以脚本的形式运行。富媒体多模态知识图谱还包括其他扩展数据来源，即富媒体多模态知识图谱中的答案集、问题集和/或问题集对应的答案集中的每一条数据均可带有数据来源。

在步骤S102中，情感包括但不限于喜悦、兴奋、幸福、热情、乐趣和满足。情感对应的强度由人为设置，并将情感对应的强度标准进行工人录入。

在步骤S103中，情感表达规则由人为设置，强度对应的表情和/或包括面部动作和肢体动作，面部动作包括但不限于眼睛的闭合、眉毛与鼻梁的运动、嘴部的开合以及五官运动对脸部轮廓的影响；肢体动作包括但不限于头部运动、手部运动、肢体运动包括腿部运动和脚部运动等。

在步骤S104中，通过三维模型(如CG模型)，对答案、情感、强度和动作进行表达，完成与用户的交互。

在本申请实施例中，根据用户问题，基于富媒体多模态知识图谱生成用户问题的答案，基于多模态智能情感交互模型生成答案对应的情感和情感对应的强度，基于情感表达规则，根据强度，获得强度对应的动作，基于三维模型，对答案、情感、强度、表情和/或动作进行表达，在与用户的交互过程中，实现基于语言、语调语速和表情动作的多维交互方式。

通过采用以上技术方案，基于富媒体多模态知识图谱，生成用户问题对应的答案；再基于多模态智能情感交互模型，根据答案，生成答案对应的情感和所述情感对应的强度；再基于情绪表达规则，根据强度，获得强度对应的表情和/或动作；再基于三维模型，根据答案、情感、强度、表情和/或动作，进行交互；综上可以将答案基于语音语调、面部表情和/或肢体语言的表现形式，表达给用户，能够改善当前人机自然交互的表现形式单一，从而导致表达的效果较差的问题，达到丰富当前人机自然交互的表现形式的效果。

图2示出了本申请实施例中一种生成用户问题对应的答案方法的流程图。参见图2，所述问题集中的问题包括预设标签；步骤S101可以包括：步骤A101-步骤A103。

步骤A101：获取所述用户问题。

步骤A102：根据所述预设标签对所述用户问题进行分类，并根据所述用户问题的分类结果从对应的问题集中匹配对应的问题。

步骤A103：若匹配成功，则根据所述用户问题和所述问题集对应的答案集，生成所述用户问题对应的答案。

在本申请实施例中，基于计算机处理结构化数据格式信息的效率比处理非结构化数据格式信息的效率更高，在基于富媒体多模态知识图谱，生成用户问题对应的答案时，可以预先设定优先级。

例如，在基于富媒体多模态知识图谱，生成用户问题对应的答案时，设定程序为，先基于富媒体多模态知识图谱中的结构化数据格式信息，生成用户问题对应的答案，若在富媒体多模态知识图谱中的结构化数据格式信息中未生成用户问题对应的答案，再基于富媒体多模态知识图谱中的非结构化数据格式信息，生成用户问题对应的答案。

在本申请实施例中，为确保生成用户问题对应的答案的速度和准确度，还可以同时分别基于富媒体多模态知识图谱中的结构化数据格式信息和非结构化数据格式信息，生成用户问题对应的答案，然后，对生成的答案进行判定，获得更为准确的答案。

在本申请实施例中，预设标签可以根据问题类型和专业术语进行设定，随后由人工进行录入。预设标签包括预设分类标签和专业术语标签。例如，基于电商直播这一应用场景，预设分类标签包括产品配置问题标签、产品价目问题标签和产品优惠活动问题标签。再例如，专业术语标签包括对产品构造零件进行解释的问题标签和对产品功能进行说明的问题标签。

在本申请实施例中，在与用户的交互过程中，将用户问题与预设标签进行匹配，也就是对用户问题进行关键词提取，根据提取的关键词与富媒体多模态知识图谱中问题集的预设标签进行匹配，从富媒体多模态知识图谱中查找用户问题对应的问题。若匹配成功，说明在富媒体多模态知识图谱中的结构化数据格式信息中能够生成答案。随后，根据用户问题和问题集对应的答案集，生成用户问题对应的答案。

需说明，带有专业术语标签的问题对应的答案集，为在构建富媒体多模态知识图谱时，关联在富媒体多模态知识图谱中的通用知识图谱中的答案集。通用知识图谱中的文本格式为结构化文本格式。

图3示出了本申请实施例中另一种生成用户问题对应的答案方法的流程图。参见图3，步骤S101还可以包括：步骤B101-步骤B104。

步骤B101：提取所述用户问题的关键词，并设置所述关键词的权重。

步骤B102：对所述关键词进行泛化处理，根据泛化后的关键词，生成所述用户问题的相似问题集。

步骤B103：将所述相似问题集与所述问题集进行匹配，基于所述富媒体多模态知识图谱，根据所述问题集对应的答案集，生成所述相似问题集对应的答案集，作为所述富媒体多模态知识图谱的增量数据。

步骤B104：根据所述关键词，从所述答案集中查找所述关键词所有相关的答案，所述关键词的权重作为所述用户问题对应的答案排序依据。

在本申请实施例中，对用户问题进行关键词提取时，人工录入每个关键词的权重。随后，对关键词进行泛化处理，获得多个该关键词的同义词或近义词。然后，根据多个该关键词的同义词或近义词，生成用户问题的相似问题集。其中，关键词的权重越高，表示用户问题表达该关键词的意图的程度越高，基于带有高权重的关键词的相似问题找到的答案的准确度越高。

在本申请实施例中，基于关键词的同义词或近义词，将相似问题集和富媒体多模态知识图谱中的问题集直接进行匹配，根据匹配成功的问题集中的问题，从富媒体多模态知识图谱中的问题集对应的答案集中，生成相似问题集对应的答案集。

在本申请实施例中，根据关键词的权重，从相似问题集对应的答案集中的答案中，查找所有带有关键词的相似问题找到的答案(即关键词的等级最高的答案)，并将带有关键词的相似问题找到的答案作为用户问题对应的答案。

具体地，基于向量计算方法，对相似问题集中的每个问题进行向量化处理，生成相似问题集的向量值，根据相似问题集的向量值的大小和用户问题的关键词权重的高低，从大到小，从高到底，对用户问题对应的答案集进行重排。随后，根据根据相似问题集的向量值和用户问题的关键词，设定答案阈值(答案向量化后的数值的阈值)。对重排后的答案进行向量化处理后，在用户问题对应的答案集中，从上到下逐一判断用户问题对应的答案集中答案对应的向量值中是否存在超过答案阈值的答案。若存在，则将超过答案阈值的答案作为用户问题对应的答案。

需说明，为确保与用户交互过程中答案的准确性，一般情况下，在上述设定答案阈值时，会基于人工校准的方式，确保答案集中仅存在一个超过答案阈值的答案。

图4示出了本申请实施例中另一种生成用户问题对应的答案方法的流程图。参见图4，步骤S101还可以包括：步骤C101-步骤C104。

步骤C101：在所述富媒体多模态知识图谱中导入半结构化和非结构化数据。

步骤C102：对所述半结构化和非结构化数据进行关键词提取和向量化处理。

步骤C103：根据所述用户问题，基于关键词及向量计算检索并匹配对应的答案集。

步骤C104：根据所述用户问题，对所述答案集数据进行搜索排序及阅读理解，生成所述用户问题对应的答案。。

在本申请实施例中，若未在结构化数据格式信息中找到答案(即用户问题对应的答案集中答案对应的向量值中不存在超过答案阈值的答案)，将直接根据用户问题和富媒体多模态知识图谱中的答案集，生成用户问题对应的答案。

在本申请实施例中，对用户问题进行意图识别。识别出用户问题的意图后，根据用户问题的意图，基于语义识别和自然语言处理(Natural Language Processing,简称NLP)，从非结构化数据格式信息中生成用户问题对应的答案。

需要说的是，若根据用户问题，基于富媒体多模态知识图谱中的结构化数据格式信息和非结构化数据格式信息，均未生成用户问题对应的答案(即表示当前的富媒体多模态知识图谱中并不存在用户问题的答案)，则将对当前的富媒体多模态知识图谱中的数据源(结构化数据格式信息和非结构化数据格式信息)进行增量处理，再根据增量后的本体数据，进行对富媒体多模态知识图谱的增量学习。

例如，可以基于企业级(针对企业的层级)搜索引擎，根据用户问题进行补充检索，生成用户问题的答案，并将答案作为数据源，增量至富媒体多模态知识图谱中，实现对富媒体多模态知识图谱的增量学习。

再例如，还可以基于人工录入的方式，根据用户问题进行答案的手动录入，并将答案作为数据源，关联至富媒体多模态知识图谱中，实现对富媒体多模态知识图谱的增量学习。

图5示出了本申请实施例中一种构建富媒体多模态知识图谱方法的流程图。参见图5，上述步骤中涉及的富媒体多模态知识图谱的构建包括：步骤S201。

步骤S201：基于自顶向下的构建方式和/或自下而上的构建方式，导入结构化、半结构化和/或非结构化数据生成所述富媒体多模态知识图谱，所述富媒体多模态知识图谱包括所述答案集、所述问题集和/或所述问题集对应的答案集。

在本申请实施例中，自下而上的构建方式(即bottom-up)，适合常识性知识，比如人名、机构名等通用知识图谱的构建。基于此，从开放的链接开放数据(open linked data)中抽取置信度高的知识，或者从非结构化数据格式信息(答案集)中抽取知识，完成知识图谱构建。

在本申请实施例中，自顶向下的构建方式(即Top-dwon)，适用于专业知识方面图谱的构建，比如企业知识图谱、面向领域专业用户使用。基于此，在获取由人工录入的FAQ格式信息(结构化数据格式信息)后，定义好本地(schema)，再基于输入数据(问题集和/或问题集对应的答案集)完成信息抽取到图谱构建。其中，本体是富媒体多模态知识图谱的模型，是对构成图谱的数据的一种约束。

综上可见，根据企业的实际需求，可基于bottom-up和/或Top-dwon的方式，构建与企业适配的富媒体多模态知识图谱。

具体地，获得富媒体多模态知识图谱的数据源(数据源包括结构化数据格式信息和/或非结构化数据格式信息)；对结构化数据格式信息直接进行数据整合，在数据整合阶段可关联第三方数据库；对半结构化数据格式信息和非结构化数据格式信息进行知识抽取(知识抽取包括实体抽取、关系抽取、属性抽取和/或事件抽取)，再进行实体对齐和指代消解；将经过知识融合的结构化数据格式信息和/或非结构化数据格式信息，输入知识库进行知识加工，构建富媒体多模态知识图谱。其中，富媒体多模态知识图谱的应用包括但不限于原图应用、知识检索、算法支撑和知识自动化。

综上可知，构建完成的富媒体多模态知识图谱兼容结构化数据格式信息和/或非结构化数据格式信息的处理，可以根据结构化数据格式信息(问题集和/或问题集对应的答案集)，生成用户问题对应的答案，还可以依据根据非结构化数据格式信息(答案集)生成结构化数据格式信息(FAQ)的能力，根据用户问题，直接从答案集中，生成用户问题对应的答案。

在本申请实施例中，非结构化数据格式信息根据富媒体多模态数据进行获取。具体地，将不同形态的数据，如文字数据、图片数据、图文数据、音频数据和视频数据进行非结构的表达为答案集。

图6示出了本申请实施例中另一种构建富媒体多模态知识图谱方法的流程图。参见图6，上述构建富媒体多模态知识图谱的方法还包括：步骤S301-步骤S306。

步骤S301：基于相似问处理算法，对所述问题集进行增量处理。

步骤S302：设置所述问题集的问题标签，对所述问题集进行增量处理。

步骤S303：基于向量计算方法，对所述问题集、所述问题集对应的答案集和/或所述答案集进行增量处理。

步骤S304：基于文本分割算法和/或所述情感表达规则，对所述问题集、所述问题集对应的答案集和/或所述答案集进行增量处理。

步骤S305：基于分词处理算法、命名实体识别算法、关键词和同/近义词提取算法和/或词性分析算法，对所述问题集、所述问题集对应的答案集和/或所述答案集进行增量处理。

步骤S306：基于所构建的多模态富媒体搜索引擎进行数据定位。

在本申请实施例中，步骤S301至步骤S306为和/或的关联关系，即构建富媒体多模态知识图谱的方法还包括步骤S301、步骤S302、步骤S303、步骤S304、步骤S305和/或步骤S306。

在步骤S301中，基于相似问处理算法，根据问题集，生成问题集中每个问题对应的相似问题，对相似问题进行关键词提取处理，将相似问题和相似问题的关键词增量关联至富媒体多模态知识图谱中，实现对问题集进行增量处理，使得富媒体多模态知识图谱再根据增量后的问题集，进行增量学习。

具体地，对问题集中每个问题进行相似问处理，生成每个问题对应的多个相似问题。对问题进行结构化分析，基于词典和语义识别，对构成问题的句子中的名词和动词进行泛化处理，生成名词对应的多个同义词或近义词和动词对应的多个同义词或近义词，再根据语法将上述词组进顺序打乱并重新排序，生成每个问题对应的多个相似问题。

在本申请实施例中，对多个相似问题进行关键词提取的处理过程中，根据关键词的权重，对关键词进行等级的划分，生成关键词对应的关键词等级。随后，将相似问题、相似问题的关键词和\或相似问题的关键词等级，关联至富媒体多模态知识图谱的问题集中，实现对问题集进行增量处理，使得富媒体多模态知识图谱再根据增量后的问题集，进行增量学习。

在步骤S302中，对问题集中问题进行标记，给问题集中每个问题设置标签，并将问题和问题标签关联至富媒体多模态知识图谱中。

具体地，在构建富媒体多模态知识图谱时，设置问题集的问题标签，即为问题集中问题的预设问题标签。

需要说明的是，在基于富媒体多模态知识图谱，根据用户问题生成答案时，若根据用户问题匹配到预设分类标签中的问题时，答案从富媒体多模态知识图谱中的问题集对应的答案集中生成；若根据用户问题匹配到专业术语标签中的问题时，答案从富媒体多模态知识图谱中的通用知识图谱中的答案集中生成。

将问题集对应的问题标签增量关联至富媒体多模态知识图谱中，实现对问题集进行增量处理，使得富媒体多模态知识图谱再根据增量后的问题集，进行增量学习。

在步骤S303中，基于向量计算方法，对问题集、问题集对应的答案集和/或答案集进行向量化处理，生成对应的向量值，便于在与用户交互过程中，提高发送答案的速度和准确性。

将问题集中问题的向量值、问题集对应的答案集中答案的向量值和/或答案集中答案的向量值，增量关联至富媒体多模态知识图谱中，实现对富媒体多模态知识图谱进行增量处理，使得富媒体多模态知识图谱再根据增量后的问题集、问题集对应的答案集和/或答案集，进行增量学习。

在步骤S304中，基于文本分割，对问题集对应的答案集和/或答案集中答案进行分割处理，生成问题集对应的答案集和/或答案集中答案对应的句子集；基于情感表达规则，匹配句子集中句子对应的情感、情感对应的强度和强度对应的动作；再将句子集中句子、句子对应的情感、情感对应的强度和强度对应的动作，增量关联至所述富媒体多模态知识图谱中，实现对问题集对应的答案集和/或答案集进行增量处理，使得富媒体多模态知识图谱再根据增量后的问题集对应的答案集和/或答案集，进行增量学习。

在本申请实施例中，情感表达规则包括答案，答案对应的情感标签、情感标签对应的强度标签和强度标签对应的动作标签、同类的动作标签出现的次数阈值以及同类的动作标签出现的间隔阈值。

例如，基于文本分割方法，根据每个答案中包括的标点符号或换行符，将每个答案分割成多个句子，构成句子集。通过多模态智能情感交互模型，获取句子集中每个句子的情感标签和情感标签对应的强度标签。基于情绪表达规则，根据句子集中每个句子的情感标签和强度标签，匹配每个句子的动作标签，再判断同类的动作标签出现的次数是否超过动作标签出现的次数阈值和\或同类的动作标签出现的间隔是否超过动作标签出现的间隔阈值，若均超过对应的阈值，则在超过阈值之后，该动作标签对应的句子在交互过程中就不再表达超出阈值的动作，仅表达情感，或不再表达超出阈值的情感，仅表达动作，即一种情感不能连续表达或一种动作不能连续表达。

在步骤S305中，基于NLP技术，对问题集对应的答案集和/或答案集中答案进行分词处理，生成分词后的答案。将分词后的答案增量关联至富媒体多模态知识图谱中，实现对问题集对应的答案集和/或答案集进行增量处理，使得富媒体多模态知识图谱再根据增量后的问题集对应的答案集和/或答案集，进行增量学习。还可以基于命名实体识别算法、关键词和同/近义词提取算法和/或词性分析算法，对问题集对应的答案集和/或答案集中答案进行处理。

图7示出了本申请实施例中一种生成答案集方法的流程图。参见图7，所述答案集的生成方法包括：步骤S401-步骤S406。

步骤S401：基于富媒体多模态数据的统一资源定位符，获得富媒体多模态数据和所述富媒体多模态数据的网页结构，所述富媒体多模态数据包括文字数据、图片数据、图文数据、音频数据和/或视频数据。

步骤S402：，对所述富媒体多模态数据的类型与格式进行文字识别或提取。

步骤S403：根据所述富媒体多模态数据的网页结构，生成所述网页结构的正则表达式。

步骤S404：基于所述正则表达式，获得所述富媒体多模态信息，并对所述富媒体多模态信息进行分割，生成第一子富媒体多模态信息。

步骤S405：基于所述文本分割算法，对所述第一子富媒体多模态信息进行分割，生成第二子富媒体多模态信息。

步骤S406：根据所述第二子富媒体多模态信息，生成所述答案集。

在本申请实施例中，基于答案集中的答案均已脚本的形式运行，因此，答案集的生成方法也可以称为脚本的生成方法。

在本申请实施例中，富媒体多模态数据包括的图片数据、图文数据、音频数据和/或视频数据，在生成脚本的过程中，均会基于光学字符识别(Optical CharacterRecognition，简称OCR)技术，转换为文字数据。即基于光学字符识别，对富媒体多模态数据进行预处理，再根据文字数据，获得所述富媒体多模态信息。

在本申请实施例中，富媒体多模态数据的数据分类，按照获取来源可分为网络数据和本地数据。网络数据，即表示获取的富媒体多模态数据的通道来源于开放的链接开放数据(如互联网)；本地数据即表示获取的富媒体多模态数据的通道来源于本地录入。

其中，网络物料的统一资源定位符(URL，uniform resource locator；即统一资源定位系统)，即网络物料的网络地址。

在本申请实施例中，第一子富媒体多模态信息为基于正则表达式，对富媒体多模态信息进行初次分割后生成的富媒体多模态信息。第一子富媒体多模态信息为基于文本分割算法，对第一子富媒体多模态信息进行分割后生成的富媒体多模态信息。

在本申请实施例中，根据网络数据的数据地址，即可生成网络数据的网页结构。如网络数据为公众号文章，则基于公众号文章的网络地址，就可以生成公众号文章所对应的网页结构。随后，根据网页结构，就可以生成网页结构的正则表达式，即生成公众号文章的图文位置规律。基于正则表达式对公众号文章进行初次分割。随后，再基于文本分割，对公众号文章进行二次分割，生成脚本。

需要说明的是，根据网络数据自动生成脚本后，在未获得用户问题的情况下，还可以根据实际的应用场景，基于多模态智能情感交互模型和三维模型，直接生成视频或进行直播，满足多方位的需求。

在一些实施例中，在步骤S404之后，还包括：针对图文数据，若存在从图片中识别出文字较多的情况，还将基于文本分割，再对识别出的文字进行分割；再将从图片中识别出的文字与图文数据中的文字进行关联，确定图片中识别出的文字与图文数据中图片的位置关系。最后，根据图文数据中的文字和图片、从图片中识别出的文字以及图片中识别出的文字与图文数据中图片的位置关系，生成所述脚本。

在本申请实施例中，上述过程适用的网络数据中图文数据，即图片和文字均有占比的网络数据。确定图片中识别出的文字与图文数据中图片的位置关系的具体过程为，对图文数据中图片中的文字与图文数据中的文字进行分词处理和词性分析处理，再进行关键词关联、词性关联和\或根据文本做全文查询关联，确定图片中识别出的文字与图文数据中图片的位置关系。

在一些实施例中，在步骤S404之后，还包括：若网络数据只有图片数据，将基于光学字符识别，提取的文字归纳为一段或多段，生成脚本。

图8示出了本申请实施例中另一种生成答案集方法的流程图。参见图8，所述答案集的生成方法包括：步骤S501-步骤S504。

步骤S501：根据所述正则表达式，获得所述富媒体多模态信息中图片和文字的相对位置关系。

步骤S502：根据富媒体多模态信息中图片和视频类内容进行文字识别和提取，建立图像数据与文本数据的关联。

步骤S503：基于所述多模态智能情感交互模型、语音和/或语义理解，根据所述富媒体多模态信息，生成所述富媒体多模态信息对应的情感和情感对应的强度。

步骤S504：基于所述情感表达规则，根据所述富媒体多模态信息对应的情感、情感对应的强度、所述相对位置关系及关联，生成所述答案集。

在本申请实施例中，可以不对网络数据进行分割，直接根据正则表达式确定网络数据中图片和文字的相对位置关系后，基于多模态智能情感交互模型和情绪表达规则，生成脚本。

需要说明的，无论是否对网络数据进行初次分割或二次分割，只要获取数据后，根据正则表达式确定网络物料中图片和文字的相对位置关系后，均可基于多模态智能情感交互模型和情绪表达规则，生成脚本。

在本申请实施例中，在基于多模态智能情感交互模型，根据网络物料生成网络物料对应的情感和情感对应的强度后，再基于情绪表达规则，根据强度生成强度对应的动作，然后根据网络物料中图片和文字的相对位置关系，将情感、强度和动作匹配并添加至相应的图片和文字的首部或尾部，生成脚本。

在上述步骤中生成的脚本可以是任意的非结构化文本，直接应用于实际的应用场景，也可以是富媒体多模态知识图谱中的答案集中的非结构化文本。

图9示出了本申请实施例中一种训练多模态智能情感交互模型方法的流程图。参见图9，所述多模态智能情感交互模型的训练方法包括：步骤S601-步骤S604。

步骤S601：分别获取标记有情感标签的富媒体多模态信息和所述情感标签对应的强度标签的富媒体多模态信息。

步骤S602：用标记有所述情感标签的富媒体多模态信息作为训练数据，利用深度神经网络算法进行训练学习，生成第一多模态智能情感交互子模型。

步骤S603：用标记有所述强度标签的富媒体多模态信息作为训练数据，利用深度神经网络算法进行训练学习，生成第二多模态智能情感交互子模型。

步骤S604：根据第一多模态智能情感交互子模型和第二多模态智能情感交互子模型，生成所述多模态智能情感交互模型。

在本申请实施例中，采取分别训练的方式，基于标记有情感标签的富媒体多模态信息和强度标签的富媒体多模态信息，对两个神经网络模型进行训练，然后再将两个训练后的神经网络模型进行融合，输出完整的多模态智能情感交互模型。其中，神经网络模型为卷积神经网络模型。

在一些实施例中，所述情绪表达规则包括所述答案集和/或所述问题集对应的答案集对应的情感、情感对应的强度、情感对应的表情和/或动作、强度对应的表情和/或动作、同类的表情和/或动作出现的次数阈值以及同类的表情和/或动作出现的间隔阈值。

在本申请实施例中，情绪表达规则包括但不限于喜悦、骄傲、愤怒、对抗、悲伤、孤独、害怕、自卑和担忧等27中情绪，每一种情绪对应一个情感标签，每一个情感标签又对应不同的情感强度，每一个情感强度又对应不同的情感动作(一种情感标签可以对应多种情感动作)。

需要说明的是，对于本地数据，基于文本分割，对本地数据直接进行分割，也可生成脚本。

具体地，基于文本分割，对本地数据进行分割，生成分割后的本地数据；若分割后的本地数据中同时存在图片和文字，则基于光学字符识别，提取分割后的本地数据中图片中的文字；将分割后的本地数据中图片中的文字与分割后的本地数据中文字进行关联，确定分割后的本地数据中图片与分割后的本地数据中文字的相对位置关系，生成脚本。

时至今日，人机自然交互的研究已进入多模态的阶段，促使人与机器交互像人与人交互那样自然、准确和快捷的方向发展。本申请实施例提供的一种基于富媒体知识图谱多模态情感分析模型的智能交互方法，在当前已实现数据化的领域中把信息和数据做智能升级，随着元宇宙的逐步发展，能够在各相关领域创造一种全新的智能化的视觉化的实时沟通方式，并配合当前蓬勃发展的元宇宙，将现实世界和虚拟世界的身份系统、社交系统、经济系统紧密结合，可以让所有的用户智能生产内容、编辑世界，拥有超越时空的智能分身。

例如，当下的社交平台大多是二维社交，互相传输的信息大多数都是图文、语音，但我们平时和朋友一起参加的各种各种娱乐，除了娱乐内容的体验，同时也是一种社交互动。尤其是在线下互动几近停止的状态下，三维虚拟化、沉浸感场景的社交模式，对于用户就有了更加强烈的吸引力和需求。

再例如，在选购商品的过程中，我们在绝大部分的情况下，看到的还是图片或者视频，并没有真正的体验感。而伴随元宇宙的出现，可能会带来全新的网购体验。元宇宙将现实世界的商铺和商业街复刻上线，用户可以更真实的街区中逛街，进入到各个店铺，在智能虚拟导购的推荐下选购商品。

当前，影视级科幻巨制在制作过程中都是通过专业设备捕捉真人的表情动作，映射为虚拟人物的表情及动作，用CG技术构建出逼真的场景和角色交互。那么，这些影视级的CG内容生产技术能否消费化？能否让每个人都平等地拥有用CG视觉化语言表达创意和想象力的能力？

基于上述目标，知识图谱和情感分析模型的智能交互方法结合词典和词向量各自的优势进行互为补充，构建了跨语言的文本分析和语义理解模型，并基于自身产品定位和市场需求；还构建并实现了富媒体、非结构化数据的企业级搜索能力；还构建了跨语言的情感分析能力，实现了阅读理解、摘要和用户问题泛化等生成模型；还结合业务需求，利用命名实体识别(NER)、词性和关键词等算法组合，构建基于企业级富媒体数据的富媒体多模态知识图谱；还基于富媒体搜索引擎和富媒体多模态知识图谱，实现垂直场景企业级单轮\多轮的对话能力(Chatbot)。

综上所述，基于富媒体知识图谱多模态情感分析模型的智能交互方法可以实现消费级的CG内容生产、分发和实时互动能力，7*24小时不间断地让信息的表达和交流无缝融入虚拟或现实场景中，实现混合现实的智能化、多模态实时交互体验，创造基于智能虚拟角色的升维、高效、低成本且智能的动态视觉化表达和交流模式。

同时，基于富媒体知识图谱多模态情感分析模型的智能交互方法把智能虚拟形象从人控迭代到智控，不止可以由真人通过表情、手势和声音进行实时控制，实时驱动3D虚拟形象IP进行内容生产和交互，还可以基于算法和引擎实现形神合一的全智能，结合多模态知识库和知识图谱构建Avatar虚拟角色的“思想和意识”，使其以活灵活现的表情动作、语音语调进行跨模态智能交互，7*24小时不间断服务，成为与真人优势互补的数字化身。

基于富媒体知识图谱多模态情感分析模型的智能交互方法，可以看到，内容载体需要是智能化的、实时互动的和动态视觉化的(三维视觉呈现的)，从AI角度理解就是多模态智能交互，从CG角度理解就是智能虚拟化技术。于是乎，基于智能虚拟化技术构建的虚拟数字形象,是变为存在于数字世界中的“人”，通过多模态知识图谱、三维模型、语音合成、智能表情和动作驱动等技术高度还原或模仿的数字存在，以虚拟主播、虚拟员工等为代表的数字人成功进入大众视野，并以多元的姿态在影视、游戏、传媒、文旅、金融和电商等众多领域大放异彩，智能虚拟角色带来的想象空间和商业路径似乎也有无限可能。

图10示出了本申请实施例中虚拟直播展示的示意图。参见图10，基于富媒体知识图谱多模态情感分析模型的智能交互方法实现富媒体多模态知识图谱、NLP\NLG、CG跨领域AI算法的融合和跨模态智能人机交互，实现真正意义上的实时渲染和智能驱动，让虚拟数字人的动作、表情与内容自然协调，实时互动，且基于该技术实现标准化、可规模化应用的智能数字人产品矩阵，完美匹配消费级场景定位。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于富媒体知识图谱多模态情感分析模型的智能交互方法，其特征在于，包括：

基于富媒体多模态知识图谱，生成用户问题对应的答案，所述富媒体多模态知识图谱根据富媒体多模态信息构建，所述富媒体多模态知识图谱包括答案集、问题集和/或所述问题集对应的答案集，所述答案以脚本的形式运行，所述富媒体多模态知识图谱还包括数据来源；

2.根据权利要求1所述的方法，其特征在于，所述问题集中的问题包括预设标签；

获取所述用户问题；

根据所述预设标签对所述用户问题进行分类，并根据所述用户问题的分类结果从对应的问题集中匹配对应的问题；

若匹配成功，则根据所述用户问题和所述问题集对应的数据集，生成所述用户问题对应的答案。

3.根据权利要求1所述的方法，其特征在于，所述基于富媒体多模态知识图谱，生成用户问题对应的答案，包括：

提取所述用户问题的关键词，并设置所述关键词的权重；

4.根据权利要求1所述的方法，其特征在于，所述基于富媒体多模态知识图谱，生成用户问题对应的答案，包括：

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述富媒体多模态知识图谱的构建包括：

基于自顶向下的构建方式和/或自下而上的构建方式，导入结构化数据、半结构化数据和/或非结构化数据生成所述富媒体多模态知识图谱，所述富媒体多模态知识图谱包括所述答案集、所述问题集和/或所述问题集对应的答案集。

6.根据权利要求5所述的方法，其特征在于，还包括：

基于所构建的多模态富媒体搜索引擎进行数据定位；和/或

基于相似问处理算法，对所述问题集进行增量处理；和/或

7.根据权利要求1所述的方法，其特征在于，所述答案集的生成方法包括：

基于富媒体多模态数据的统一资源定位符，获得富媒体多模态数据和所述富媒体多模态数据的网页结构，导入所述富媒体多模态数据包括文字数据、图片数据、图文数据、音频数据和/或视频数据；

根据所述第二子富媒体多模态信息，生成所述答案集。

8.根据权利要求7所述的方法，其特征在于，所述答案集的生成方法，还包括：

9.根据权利要求1所述的方法，其特征在于，所述多模态智能情感交互模型是通过以下方式训练得到的：

10.根据权利要求1所述的方法，其特征在于，所述情绪表达规则包括所述答案集和/或所述问题集对应的答案集对应的情感、情感对应的强度、情感对应的表情和/或动作、强度对应的表情和/或动作、同类的表情和/或动作出现的频率阈值以及同类的表情和/或动作出现的间隔阈值。