CN116821287B

CN116821287B - 基于知识图谱和大语言模型的用户心理画像系统及方法

Info

Publication number: CN116821287B
Application number: CN202311086511.5A
Authority: CN
Inventors: 龙海; 文建全; 彭炜; 黄刊迪; 杨文君; 肖媛; 甘元茂; 任强; 文舸扬; 虞敏
Original assignee: Hunan Trasen Technology Co ltd
Current assignee: Hunan Trasen Technology Co ltd
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-11-17
Anticipated expiration: 2043-08-28
Also published as: CN116821287A

Abstract

本发明属于电子信息中的数据处理技术领域，具体为一种基于知识图谱和大语言模型的用户心理画像系统及方法，包括：用户交互模块，用于用户与访谈数据模块进行交互；访谈数据模块，访谈数据模块包括访谈语料库和心理量表模块；自然语言处理模块，用于对用户输入的自然语言数据进行处理；知识图谱模块，用于包含关于各种有关心理疾病的知识图谱；用户心理特征模块，用于接收自然语言处理模块与知识图谱模块数据进行比对分析；用户画像模块，根据用户心理特征模块打上的特征标签，进行用户画像；本系统的方法包括六个步骤。本发明用于解决提高用户心理画像的效率和效果问题。

Description

基于知识图谱和大语言模型的用户心理画像系统及方法

技术领域

本发明属于电子信息中的数据处理技术领域，具体为一种基于知识图谱和大语言模型的用户心理画像系统及方法。

背景技术

用户心理画像是一种通过分析用户的心理特征，如情绪、思维、行为等，来描绘用户的心理状态和倾向的方法。用户心理画像可以帮助医生、心理咨询师、教育工作者等了解用户的心理需求和问题，从而提供更有效的评估和干预。

目前，用户心理画像的方法主要有以下几种：

基于问卷或访谈的方法：这种方法是通过让用户填写一些标准化的心理量表或进行结构化的访谈，来获取用户的心理特征信息。这种方法的优点是比较标准化和专业化，可以得到一些可量化的指标，如抑郁程度、焦虑程度等。但是这种方法的缺点是比较单一和静态，不能充分捕捉用户的多样性和动态性，也不能反映用户的真实情况，因为用户可能会有社会期望效应或回答不真实等问题。

基于自然语言处理的方法：这种方法是通过对用户输入的自然语言数据，如文本、语音等，进行处理，来提取用户的情绪和主题信息。这种方法的优点是比较自然和动态，可以捕捉用户在不同场景和时间下的心理变化，也可以反映用户的真实情况，因为用户可能会在自然语言中表达出他们不愿意在问卷或访谈中说出的内容。但是这种方法的缺点是比较复杂和不准确，因为自然语言处理涉及到很多难以解决的问题，如语义理解、情感识别、话题发现等，而且自然语言数据本身也可能存在噪声、歧义、隐喻等问题。

基于多模态数据的方法：这种方法是通过对用户输入的多模态数据，如音频、视频、图像等，进行处理，来提取用户的言行举止、肢体动作、思维活跃度、语言连贯性、面部表情、语音语调等信息。这种方法的优点是比较丰富和全面，可以从多种角度和多个维度来分析用户的心理特征，也可以增加数据的可信度和可解释性，因为多模态数据可以相互验证和补充。但是这种方法的缺点是比较复杂和高成本，因为多模态数据处理涉及到很多难以解决的问题，如数据同步、数据融合、数据表示等，而且多模态数据本身也需要更多的存储空间和计算资源。

以上各种方法都有其优缺点，但都没有充分利用最新的人工智能技术来提高用户心理画像的效率和效果。例如：

知识图谱是一种用于表示结构化知识的图形模型，包含了实体、关系、属性等元素，并以三元组（主体-谓词-宾语）的形式表示这些元素之间的事实。知识图谱可以用于存储和查询与心理疾病相关的知识，如不同类型的疾病、症状、原因、治疗方案等，并通过本体建模来定义这些知识之间的语义关联。知识图谱可以帮助系统更好地理解用户输入的自然语言数据和多模态数据，以及提供更准确和专业的用户心理画像分析结果。

大语言模型是一种基于深度学习的自然语言生成技术，可以根据给定的输入参数，如文本、图像、音频等，生成相应的自然语言输出，如文本、图像、音频等。大语言模型可以用于获取用户心理画像分析结果，如用户的心理特征、疾病风险、治疗建议等，并通过微调训练来适应不同的领域和场景。大语言模型可以帮助系统更好地生成用户心理画像报告，以及提供更自然和有趣的用户交互体验。

因此，有必要开发一种基于知识图谱和大语言模型的用户心理画像系统及方法，以提高用户心理画像的效率和效果。

发明内容

针对以上问题，本发明提供一种基于知识图谱和大语言模型的用户心理画像系统及方法，用于解决提高用户心理画像的效率和效果问题。

为实现上述目的，本发明采用的技术方案是：

一种基于知识图谱和大语言模型的用户心理画像系统，包括：

用户交互模块，用于用户与访谈数据模块进行交互，并将交互得到的数据传给自然语言处理模块；

访谈数据模块，访谈数据模块包括访谈语料库和心理量表模块，用于提供用于用户互动的语料库和量表；

自然语言处理模块，用于对用户输入的自然语言数据进行处理，包括词性分类、分词、归一化基础任务，以及主题建模、情感分析高级任务；

知识图谱模块，用于包含关于各种有关心理疾病的知识图谱，包括不同的疾病类型、症状；

用户心理特征模块，用于接收自然语言处理模块与知识图谱模块数据进行比对分析，分析用户的心理特征，包括情绪状态、思维模式、行为模式，并按照用户不同的维度特征打上特征标签；

用户画像模块，根据用户心理特征模块打上的特征标签，进行用户画像，用于展示用户的心理画像报告，包括用户的心理特征、疾病风险；

大语言模型API接口模块，大语言模型API接口模块与用户交互模块、访谈数据模块、自然语言处理模块、知识图谱模块进行数据互通。

在较佳实施情况下，所述的用户交互模块还用于根据用户的输入和反馈，动态调整访谈数据模块中的语料库和量表，以提高用户体验和互动效果，其中所述的动态调整采用基于强化学习的算法，根据用户的输入和反馈与访谈数据模块中的语料库和量表之间的相似度进行奖励或惩罚，以优化访谈数据模块中的语料库和量表的选择，其中所述的相似度计算采用余弦相似度公式：其中/>表示用户的输入和反馈向量，/>表示访谈数据模块中的语料库和量表向量。

在较佳实施情况下，所述的自然语言处理模块还用于对用户输入的自然语言数据进行语义理解和意图识别，以便更准确地分析用户的心理状态和需求，其中所述的语义理解采用基于神经网络的模型，将用户输入的自然语言数据转换为语义向量，并与预定义的语义类别进行匹配，其中所述的意图识别采用基于条件随机场的模型，将用户输入的自然语言数据划分为不同的意图标签，并与预定义的意图类别进行匹配。

在较佳实施情况下，所述的用户心理特征模块用于接收自然语言处理模块与知识图谱模块数据进行比对分析，其中所述的比对分析采用基于注意力机制Attention模型，将用户输入的自然语言数据、自然语言处理模块传来的数据、知识图谱模块传来的数据、大语言模型API接口模块传来的数据进行融合，并计算不同数据之间的相关性权重，其中所述的相关性权重计算采用点积注意力Attention公式：其中表示查询向量，/>表示键向量，/>表示值向量，/>表示向量维度。

在较佳实施情况下，所述的大语言模型API接口模块还用于与其他第三方平台进行数据共享和交互，以便扩大用户群体和服务范围，其中所述的数据共享和交互采用基于区块链的技术，将用户输入的自然语言数据、自然语言处理模块传来的数据、知识图谱模块传来的数据、用户心理特征模块传来的数据、用户画像报告数据进行加密和分布式存储，并通过智能合约实现数据的安全和有效的传输和访问。

一种基于知识图谱和大语言模型的用户心理画像方法，包括以下步骤：

a)通过用户交互模块与用户进行交互，并将交互得到的数据传给自然语言处理模块；

b)通过自然语言处理模块对用户输入的自然语言数据进行处理，并将处理结果传给知识图谱模块；

c)通过知识图谱模块对用户输入的自然语言数据进行匹配和查询，并将匹配和查询结果传给用户心理特征模块；

d)通过用户心理特征模块对用户输入的自然语言数据进行比对分析，并将比对分析结果传给用户画像模块；

e)通过用户画像模块对用户输入的自然语言数据进行综合评估，并生成用户画像报告；

f)用户画像报告通过大语言模型API接口模块运算后将报告传送到用户交互模块，展示给用户。

在较佳实施情况下，在步骤a)中，还包括根据用户的输入和反馈，动态调整访谈数据模块中的语料库和量表，其中所述的动态调整采用基于强化学习的算法，根据用户的输入和反馈与访谈数据模块中的语料库和量表之间的相似度进行奖励或惩罚，以优化访谈数据模块中的语料库和量表的选择，其中所述的相似度计算采用余弦相似度公式：其中/>表示用户的输入和反馈向量，/>表示访谈数据模块中的语料库和量表向量。

在较佳实施情况下，在步骤b)中，还包括对用户输入的自然语言数据进行语义理解和意图识别，其中所述的语义理解采用基于神经网络的模型，将用户输入的自然语言数据转换为语义向量，并与预定义的语义类别进行匹配，其中所述的意图识别采用基于条件随机场的模型，将用户输入的自然语言数据划分为不同的意图标签，并与预定义的意图类别进行匹配。

在较佳实施情况下，还包括大语言模型API接口模块与用户交互模块、访谈数据模块、自然语言处理模块、知识图谱模块进行数据补充方法如下：

J)通过大语言模型API接口模块向用户交互模块发送数据，用于生成更自然和流畅的对话语句，提高用户的交互体验；用户交互模块向大语言模型API接口模块发送数据，用于向大语言模型API接口模块进行数据反馈；

K)通过大语言模型API接口模块向访谈数据模块发送数据，用于扩充和更新访谈语料库和心理量表模块，提高访谈数据的质量和覆盖度；访谈数据模块向大语言模型API接口模块发送数据，用于向大语言模型API接口模块进行数据反馈；

L)通过大语言模型API接口模块向自然语言处理模块发送数据，用于辅助和优化自然语言处理的任务，提高自然语言处理的准确性和效率；自然语言处理模块向大语言模型API接口模块发送数据，用于向大语言模型API接口模块进行数据反馈；

M)通过大语言模型API接口模块向知识图谱模块发送数据，用于补充和修正知识图谱中的信息，提高知识图谱的完整性和可靠性；知识图谱模块向大语言模型API接口模块发送数据，用于向大语言模型API接口模块进行数据反馈。

本发明的有益效果：

1)本发明能够利用知识图谱和大语言模型的优势，提高用户心理画像的准确性和深度，为用户提供更有针对性和个性化的心理咨询服务；

2)本发明能够通过用户交互模块和访谈数据模块的动态调整，提高用户的交互体验和互动效果，增加用户的参与度和满意度；

3)本发明能够通过自然语言处理模块和用户心理特征模块的语义理解和意图识别，提高用户输入的自然语言数据的处理效率和质量，更准确地分析用户的心理状态和需求；

4)本发明能够通过大语言模型API接口模块和区块链技术的数据共享和交互，扩大用户群体和服务范围，提高数据的安全性和有效性；

5)本发明能够通过知识图谱模块和用户心理特征模块的信息传播和推理，提高用户对心理疾病和心理干预的认知和理解，增强用户的自我管理和自我调节能力；

6)本发明能够通过用户画像模块和大语言模型API接口模块的综合评估和运算，生成更详细和全面的用户画像报告，展示给用户更多的心理特征、疾病风险、治疗建议等信息。

附图说明

图1为本发明的系统图。

图2为本发明的方法图。

图3为大语言模型API接口模块数据传输图。

具体实施方式

为了使本领域技术人员更好地理解技术方案，下面结合实施例对技术方案进行详细描述，本部分的描述仅是示范性和解释性，不应对本发明的保护范围有任何的限制作用。

实施例1:

如图1所示：本发明的结构关系如下：一种基于知识图谱和大语言模型的用户心理画像系统，包括：

Attention是一种计算两个向量之间相似度的方法，它可以用于对不同的输入数据进行加权平均，以得到一个新的表示。Q、K、V分别代表Query、Key和Value，它们是从同一个输入矩阵X经过不同的线性变换得到的。是一种对向量进行归一化的函数，它可以将向量中的每个元素映射到(0,1)区间，并且保持向量中元素之和为1。是一种对Q和K进行点积后再进行归一化的操作，它可以得到一个权重矩阵，其中每个元素表示Q中某个向量和K中某个向量之间的相似度。/>是一种对V进行加权平均的操作，它可以得到一个新的矩阵，其中每个向量表示Q中某个向量和V中所有向量之间的加权组合。

如图2所示，一种基于知识图谱和大语言模型的用户心理画像方法，包括以下步骤：

如图3所示，在较佳实施情况下，还包括大语言模型API接口模块与用户交互模块、访谈数据模块、自然语言处理模块、知识图谱模块进行数据补充方法如下：

进一步解释以上步骤M，知识图谱的数据相对是固化的静态的大语言模型API接口模块调用知识图谱的关系数据作为提示依据；双向体现在大语言模型API接口模块在构建知识图谱的过程中也可以起到数据处理信息抽取自动构建补充完善等作用。大语言模型API接口模块是参数化的知识库，知识图谱是结构化的知识库，后者是比较固定的形式化的知识表示；前者是通过海量数据训练出来的参数模型，知识图谱可以给大模型提供一个相对准确的参考作为评估依据。而大语言模型API接口模块可以在知识库的基础上生成更完整和可靠的内容结果。举个例子，我们有一个药品知识图谱（包括药品说明书）里面有各种合理用药的说明解释，包括用法用量，注意事项，禁忌症，适用证等；根据这个知识库的内容，大语言模型API接口模块可以由此更加准确的产生合理用药的说明。而不是单纯依靠大数据和深度学习产出的内容（AIGC）,没有知识图谱作为参考的大语言模型API接口模块产出结果有可能是错的。

如图1所示：用户心理特征分析模块到用户画像模块这部分的箭头流动是单向的，用户画像模块本是一个可以动态调整的状态集合，作为喂给大语言模型API接口模块的Prompt信息的一部分（input）。大语言模型API接口模块经过比对分析之后，输出给用户（output)。另外从自然语言处理模块和知识图谱模块往用户心理特征分析模块的箭头也是单向的，用户心理特征分析也是一个动态调整的一系列操作指令集合，接受从顶部模块（自然语言处理模块、知识图谱模块）发来的信息（NLP-处理后输入数据）+（KG-知识库检索数据）等进行处理之后传给下一步的用户画像模块，画像模块作为中间阶段的结果输出，由用户画像模块单向箭头传给大语言模型API接口模块，经过处理之后由UI交互界面（用户交互模块）传递给用户。这个过程可以式循环迭代（1轮，2轮，3轮）的。双向的信息交互主要是在框架图的上层，及访谈数据模块、自然语言处理模块与大语言模型API接口模块之间，以及知识图谱模块与大语言模型API接口模块之间。

实施例2：

如图1所示，具体描述本系统采用的技术细节。

用户交互模块，用于用户与访谈数据模块进行交互，并将交互得到的数据传给自然语言处理模块；用户交互模块采用基于Web的界面，用户可以通过浏览器或移动设备访问该界面，输入自然语言文本或语音，并接收系统的回复和反馈；

访谈数据模块，访谈数据模块包括访谈语料库和心理量表模块，用于提供用于用户互动的语料库和量表；访谈语料库包括常见的心理咨询问题和回答，以及一些开放式的问题和引导性的话语，用于激发用户的表达和沟通；心理量表模块包括常用的心理测试题目和评分标准，用于评估用户的心理状况和风险；

自然语言处理模块，用于对用户输入的自然语言数据进行处理，包括词性分类、分词、归一化基础任务，以及主题建模、情感分析高级任务；自然语言处理模块采用基于深度学习的模型，如BERT、GPT-3等，对用户输入的自然语言数据进行编码、解码、生成等操作，并输出相应的结果；

知识图谱模块，用于包含关于各种有关心理疾病的知识图谱，包括不同的疾病类型、症状；知识图谱模块采用基于图数据库的技术，如Neo4j等，存储和管理知识图谱中的实体、属性、关系等信息，并提供查询和推理等功能；

用户心理特征模块，用于接收自然语言处理模块与知识图谱模块数据进行比对分析，分析用户的心理特征，包括情绪状态、思维模式、行为模式，并按照用户不同的维度特征打上特征标签；用户心理特征模块采用基于机器学习的模型，如SVM、XGBoost等，对用户输入的自然语言数据、自然语言处理模块传来的数据、知识图谱模块传来的数据进行特征提取、分类、聚类等操作，并输出相应的结果；

用户画像模块，根据用户心理特征模块打上的特征标签，进行用户画像，用于展示用户的心理画像报告，包括用户的心理特征、疾病风险；用户画像模块采用基于可视化的技术，如ECharts等，将用户画像报告以图表、图形、文字等形式展示给用户，并提供一些建议和引导；

大语言模型API接口模块，大语言模型API接口模块与用户交互模块、访谈数据模块、自然语言处理模块、知识图谱模块进行数据互通。大语言模型API接口模块采用基于云计算的技术，如Azure等，调用第三方平台提供的大语言模型服务，如OpenAI等，向用户交互模块发送数据，用于生成更自然和流畅的对话语句，提高用户的交互体验；向访谈数据模块发送数据，用于扩充和更新访谈语料库和心理量表模块，提高访谈数据的质量和覆盖度；向自然语言处理模块发送数据，用于辅助和优化自然语言处理的任务，提高自然语言处理的准确性和效率；向知识图谱模块发送数据，用于补充和修正知识图谱中的信息，提高知识图谱的完整性和可靠性。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。本文中应用了具体个例对本发明技术方案的原理及实施方式进行了阐述，以上实例的说明只是用于帮助理解本发明的方法及其核心思想。以上所述仅是本发明的优选实施方式，应当指出，由于文字表达的有限性，而客观上存在无限的具体结构，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进、润饰或变化，也可以将上述技术特征以适当的方式进行组合；这些改进润饰、变化或组合，或未经改进将发明的构思和技术方案直接应用于其它场合的，均应视为本发明的保护范围。

Claims

1.一种基于知识图谱和大语言模型的用户心理画像系统，其特征在于，包括：

大语言模型API接口模块，大语言模型API接口模块与用户交互模块、访谈数据模块、自然语言处理模块、知识图谱模块进行数据互通；

所述的用户交互模块还用于根据用户的输入和反馈，动态调整访谈数据模块中的语料库和量表，以提高用户体验和互动效果，其中所述的动态调整采用基于强化学习的算法，根据用户的输入和反馈与访谈数据模块中的语料库和量表之间的相似度进行奖励或惩罚，以优化访谈数据模块中的语料库和量表的选择，其中所述的相似度计算采用余弦相似度公式：其中/>表示用户的输入和反馈向量，/>表示访谈数据模块中的语料库和量表向量。

2.根据权利要求1所述的一种基于知识图谱和大语言模型的用户心理画像系统，其特征在于，所述的自然语言处理模块还用于对用户输入的自然语言数据进行语义理解和意图识别，以便更准确地分析用户的心理状态和需求，其中所述的语义理解采用基于神经网络的模型，将用户输入的自然语言数据转换为语义向量，并与预定义的语义类别进行匹配，其中所述的意图识别采用基于条件随机场的模型，将用户输入的自然语言数据划分为不同的意图标签，并与预定义的意图类别进行匹配。

3.根据权利要求1所述的一种基于知识图谱和大语言模型的用户心理画像系统，其特征在于，所述的用户心理特征模块用于接收自然语言处理模块与知识图谱模块数据进行比对分析，其中所述的比对分析采用基于注意力机制Attention模型，将用户输入的自然语言数据、自然语言处理模块传来的数据、知识图谱模块传来的数据、大语言模型API接口模块传来的数据进行融合，并计算不同数据之间的相关性权重，其中所述的相关性权重计算采用点积注意力Attention公式：其中/>表示查询向量，表示键向量，/>表示值向量，/>表示向量维度。

4.根据权利要求1所述的一种基于知识图谱和大语言模型的用户心理画像系统，其特征在于，所述的大语言模型API接口模块还用于与其他第三方平台进行数据共享和交互，以便扩大用户群体和服务范围，其中所述的数据共享和交互采用基于区块链的技术，将用户输入的自然语言数据、自然语言处理模块传来的数据、知识图谱模块传来的数据、用户心理特征模块传来的数据、用户画像报告数据进行加密和分布式存储，并通过智能合约实现数据的安全和有效的传输和访问。

5.一种基于知识图谱和大语言模型的用户心理画像方法，其特征在于，包括以下步骤：

f)用户画像报告通过大语言模型API接口模块运算后将报告传送到用户交互模块，展示给用户；

在步骤a)中，还包括根据用户的输入和反馈，动态调整访谈数据模块中的语料库和量表，其中所述的动态调整采用基于强化学习的算法，根据用户的输入和反馈与访谈数据模块中的语料库和量表之间的相似度进行奖励或惩罚，以优化访谈数据模块中的语料库和量表的选择，其中所述的相似度计算采用余弦相似度公式：其中/>表示用户的输入和反馈向量，/>表示访谈数据模块中的语料库和量表向量。

6.根据权利要求5所述的一种基于知识图谱和大语言模型的用户心理画像方法，其特征在于，在步骤b)中，还包括对用户输入的自然语言数据进行语义理解和意图识别，其中所述的语义理解采用基于神经网络的模型，将用户输入的自然语言数据转换为语义向量，并与预定义的语义类别进行匹配，其中所述的意图识别采用基于条件随机场的模型，将用户输入的自然语言数据划分为不同的意图标签，并与预定义的意图类别进行匹配。

7.根据权利要求5所述的一种基于知识图谱和大语言模型的用户心理画像方法，其特征在于，还包括大语言模型API接口模块与用户交互模块、访谈数据模块、自然语言处理模块、知识图谱模块进行数据补充方法如下：