CN114519351A

CN114519351A - 一种基于用户意图嵌入图谱学习的主题文本快速检测方法

Info

Publication number: CN114519351A
Application number: CN202210156822.3A
Authority: CN
Inventors: 刘丽娟; 闵宗茹; 郭承禹; 陈阳
Original assignee: Shanghai Branch Of National Computer Network And Information Security Management Center
Current assignee: Shanghai Branch Of National Computer Network And Information Security Management Center
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2022-05-20

Abstract

本发明公开了一种基于用户意图嵌入图谱学习的主题文本快速检测方法，属于文本检测技术领域，该检测方法具体步骤如下：(1)识别主题文本以抽取主题特征；(2)嵌入用户意图以进行结构化提取；(3)对知识图谱进行结构化处理；(4)构建深度学习模型以检测主题文本；本发明能够更容易用户操作，贴近用户意图，与人工判定结果更为贴近，通过融合主动搜索知识图谱和深度学习的方法，能够提升算法识别性能，提高效率，识别准确率和召回率较高。

Description

一种基于用户意图嵌入图谱学习的主题文本快速检测方法

技术领域

本发明涉及文本检测技术领域，尤其涉及一种基于用户意图嵌入图谱学习的主题文本快速检测方法。

背景技术

网络主题文本内容快速感知在治理互联网不良信息中尤为重要。大数据背景下，网络为信息的快速传播提供了温床，不良信息包括但不限于恶意传播、捏造，从而造成国家名誉或利益受损的信息，这些信息往往是带有主题的、具备某些特征的，因此，如何运用知识和数据，利用蕴含在知识图谱中的经验知识，结合深度神经网络模型识别并挖掘网络有害信息具有重要意义。当前方法对网络主题信息识别不准不全，大量依赖人工手段、由于个人差异性且缺乏经验知识，目前该工作主要存在知识重用率较低、识别不准不全等问题，因此，发明出一种基于用户意图嵌入图谱学习的主题文本快速检测方法变得尤为重要。

现有的基于用户意图嵌入图谱学习的主题文本快速检测方法的算法识别性能低下，影响检测效率，同时识别准确率和召回率较低，不方便人工操作；为此，我们提出一种基于用户意图嵌入图谱学习的主题文本快速检测方法。

发明内容

本发明的目的是为了解决现有技术中存在的缺陷，而提出的一种基于用户意图嵌入图谱学习的主题文本快速检测方法。

为了实现上述目的，本发明采用了如下技术方案：

一种基于用户意图嵌入图谱学习的主题文本快速检测方法，该检测方法具体步骤如下：

(1)识别主题文本以抽取主题特征：对主题文本进行分词，并识别主题实体，同时抽取其中主题特征关键词，并将其转化为词向量；

(2)嵌入用户意图以进行结构化提取：机器向用户主动提出问题，同时从用户的反馈中获取信息，再对这些信息处理，形成用户意图知识，并将用户偏好和知识图谱嵌入到同一低维向量空间，机器针对用户的反馈打分得到用户偏好在向量空间的定位；

(3)对知识图谱进行结构化处理：得到主题内容知识图谱与主题特征相关的实体和关系，同时构建TransD模型接收相关数据，并针对主题描述语句进行具体分析，同时识别主题嵌入特征实体向量和上下文实体向量，实现知识图谱嵌入；

(4)构建深度学习模型以检测主题文本：构建CNN深度学习模型，并将主题文本特征词向量输入深度学习模型CNN多通道，进行CNN模型训练学习，并依据用户意图实体向量，快速检测得到更多目标主题文本。

作为本发明的进一步方案，步骤(1)中所述特征关键词抽取具体步骤如下：

步骤一：使用中科院的汉语词法分析系统ICTCLAS中文分词系统对主题文本进行分词、词性标注及主题实体识别，并去除停用词和无意义的单字，得到一组包含n个描述主题特征的关键词；

步骤二：将多个特征词构成的主题特征设为x＝[w₁，w₂，…，w_i]，并将各组特征关键词转换为词向量，并将各组词向量映射为对应的d维表示向量w_1:i∈Rd，其中，w_i是完整主题文本中第i个位置上的词汇。

作为本发明的进一步方案，步骤(2)中所述用户偏好和知识图谱嵌入具体步骤如下：

第一步：使用prefer向量表示空间中原点到用户兴趣偏好嵌入的向量，同时用户对特定实体e的偏好程度通过prefer和e的欧几里得距离衡量；

第二步：当用户偏好点与实体对应点距离越近，表明用户更偏好该实体，有助于机器选择更为贴近目标主题的文本；

第三步：收集用户评分，并组建用户评分数据集Score∈{-2，-1，1，2}，-2代表非常不感兴趣，-1代表不感兴趣，1代表感兴趣，2代表非常感兴趣；

第四步：针对用户对各主题的评分，并调整用户偏好嵌入向量prefer，使其更接近目标节点嵌入，当用户给出足够反馈信息后，将得到包含最可能k个答案的主题特征词列表。

作为本发明的进一步方案，步骤(3)中所述知识图谱嵌入具体步骤如下：

S1.1：TransD模型通过文本特征词w_1:i与知识图谱三元组候选实体进行实体相似性计算，消除歧义，以获得实体知识；

S1.2：构造主题文本知识子图，并依照实体提取子图中与实体相连的关系；

S1.3：采用知识图谱嵌入模型进行学习，把学习到的实体向量作为CNN层的输入。

作为本发明的进一步方案，步骤(4)中所述CNN模型训练学习具体步骤如下：

S2.1：将主题特征向量w_1:i＝[w₁,w₂,…，w_i]、词语-实体对齐后的实体向量g(e_1:i)以及相关实体上下文向量

输入CNN模型中；

S2.2：通过词语-实体对齐转换函数将实体向量、上下文实体向量从实体空间映射到词向量空间，并将特征连接在一起作为输入；

S2.3：将主题描述文本e(x)输入Softmax分类器中，并经过归一化得到主题文本在第k种主题的输出概率，同时采用自适应矩估计算法最小化目标函数，通过反向传播更新每轮迭代过程网络各种参数，直到模型符合拟合要求为止。

作为本发明的进一步方案，S2.2中所述词语-实体对齐转换函数具体函数式如下：

g(e)＝tanh(Me+b)

(1)

其中，g(e)代表对齐后的实体向量，tanh()代表转换函数，b为偏差，且b∈R^d×1，Me代表变化矩阵，且Me∈R^d×k。

相比于现有技术，本发明的有益效果在于：

1、该基于用户意图嵌入图谱学习的主题文本快速检测方法相较于以往检测方法，本发明对主题文本进行分词、词性标注及主题实体识别，并去除停用词和无意义的单字以得到多个描述主题特征的关键词，并使用prefer向量表示空间中原点到用户兴趣偏好嵌入的向量，同时用户对特定实体e的偏好程度通过prefer和e的欧几里得距离衡量，并收集用户评分以组建用户评分数据集，同时针对用户对各主题的评分，并调整用户偏好嵌入向量prefer，使其更接近目标节点嵌入，当用户给出足够反馈信息后，将得到包含最可能k个答案的主题特征词列表，能够更容易用户操作，贴近用户意图，与人工判定结果更为贴近，同时能够缩短响应时间，提升效率；

2、该基于用户意图嵌入图谱学习的主题文本快速检测方法通过TransD，对文本特征词与知识图谱三元组候选实体进行实体相似性计算，消除歧义，以获得实体知识，构造主题文本知识子图，并依照实体提取子图中与实体相连的关系，同时采用知识图谱嵌入模型进行学习，并构建深度学习模型接收学习结果，同时将主题描述文本输入Softmax分类器中，并经过归一化得到主题文本在第k种主题的输出概率，同时采用自适应矩估计算法最小化目标函数，通过反向传播更新每轮迭代过程网络各种参数，直到模型符合拟合要求为止，通过融合主动搜索知识图谱和深度学习的方法，能够提升算法识别性能，提高效率，识别准确率和召回率较高。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明提出的一种基于用户意图嵌入图谱学习的主题文本快速检测方法的流程框图；

图2为本发明提出的一种基于用户意图嵌入图谱学习的主题文本快速检测方法的特征选择流程图；

图3为本发明提出的一种基于用户意图嵌入图谱学习的主题文本快速检测方法的算法流程图；

图4为本发明提出的一种基于用户意图嵌入图谱学习的主题文本快速检测方法的框架图；

图5为本发明提出的一种基于用户意图嵌入图谱学习的主题文本快速检测方法的知识提取流程图。

具体实施方式

实施例1

参照图1-4，一种基于用户意图嵌入图谱学习的主题文本快速检测方法，本实施例具体公开了一种用户偏好和知识图谱嵌入方法：

识别主题文本以抽取主题特征：对主题文本进行分词，并识别主题实体，同时抽取其中主题特征关键词，并将其转化为词向量。

具体的，如图2-3所示，首先通过中科院的汉语词法分析系统ICTCLAS中文分词系统对主题文本进行分词、词性标注及主题实体识别，并去除停用词和无意义的单字，得到一组包含n个描述主题特征的关键词，主题特征关键词提取完成后，将多个特征词构成的主题特征设为x＝[w₁，w₂，…，w_i]，并将各组特征关键词转换为词向量，并将各组词向量映射为对应的d维表示向量w_1:i∈Rd，其中，w_i是完整主题文本中第i个位置上的词汇。

嵌入用户意图以进行结构化提取：机器向用户主动提出问题，同时从用户的反馈中获取信息，再对这些信息处理，形成用户意图知识，并将用户偏好和知识图谱嵌入到同一低维向量空间，机器针对用户的反馈打分得到用户偏好在向量空间的定位。

具体的，将空间中原点到用户兴趣偏好嵌入的向量用使用prefer向量来表示，同时用户对特定实体e的偏好程度通过prefer和e的欧几里得距离衡量，当用户偏好点与实体对应点距离越近，表明用户更偏好该实体，有助于机器选择更为贴近目标主题的文本，自行收集用户评分，并组建用户评分数据集Score∈{-2，-1，1，2}，-2代表非常不感兴趣，-1代表不感兴趣，1代表感兴趣，2代表非常感兴趣，针对用户对各主题的评分，并调整用户偏好嵌入向量prefer，使其更接近目标节点嵌入，当用户给出足够反馈信息后，将得到包含最可能k个答案的主题特征词列表。

具体的，如图4所示，框架包括分为文本预处理及中文分词、词向量表示、词向量输入(神经网络输入数据和嵌入矩阵)、输出几个阶段。

实施例2

参照图1-2、5，一种基于用户意图嵌入图谱学习的主题文本快速检测方法，除与上述实施例相同的结构外，本实施例具体公开了一种CNN模型训练方法：

对知识图谱进行结构化处理：得到主题内容知识图谱与主题特征相关的实体和关系，同时构建TransD模型接收相关数据，并针对主题描述语句进行具体分析，同时识别主题嵌入特征实体向量和上下文实体向量，实现知识图谱嵌入。

具体的，如图5所示，TransD模型通过文本特征词w_1:i与知识图谱三元组候选实体进行实体相似性计算，消除歧义，以获得实体知识，并构造主题文本知识子图，并依照实体提取子图中与实体相连的关系，同时采用知识图谱嵌入模型进行学习，把学习到的实体向量作为CNN层的输入。

构建深度学习模型以检测主题文本：构建CNN深度学习模型，并将主题文本特征词向量输入深度学习模型CNN多通道，进行CNN模型训练学习，并依据用户意图实体向量，快速检测得到更多目标主题文本。

具体的，计算机将主题特征向量w_1:i＝[w₁,w₂,…，w_i]、词语-实体对齐后的实体向量g(e_1:i)以及相关实体上下文向量

输入CNN模型中，并通过词语-实体对齐转换函数将实体向量、上下文实体向量从实体空间映射到词向量空间，并将特征连接在一起作为输入，同时将主题描述文本e(x)输入Softmax分类器中，并经过归一化得到主题文本在第k种主题的输出概率，同时采用自适应矩估计算法最小化目标函数，通过反向传播更新每轮迭代过程网络各种参数，直到模型符合拟合要求为止，能够提升算法识别性能，提高效率，识别准确率和召回率较高。

需要进一步说明的是，词语-实体对齐转换函数具体函数式如下：

g(e)＝tanh(Me+b)

需要进一步说明的是，从知识提取中得到每个词语w_i对应的实体向量e_i∈R^k×1、实体上下文向量

k是实体嵌入的维数。

需要进一步说明的是，深度学习模型CNN训练完成后，通过准确度Accrary、精度Precision、召回率Recall和F1值指标评价主题文本检测方法的性能，其具体计算公式如下：

其中，TP表示正确分类下的正样本数，TN表示正确分类下的负样本数，FP表示负样本误分类为正样本的数量，FN表示正样本误分类为负样本的数量。

此外，对比CNN法、加入实体向量的实体-CNN法、上下文关联的Context-CNN法以及本发明融合用户意图嵌入知识图谱进行深度学习的方法，其对比结果如下：

算法	准确度	精度	召回率	F1
					CNN	83.1	83.2	83.5	82.6
实体-CNN	84.1	84.5	83.1	84.2
					上下文-CNN	84.2	85.1	82.9	84
本发明法	85.3	86.5	85.1	85.9

由上述对比结果可知，对比单一的CNN法，实体-CNN法和本发明的上下文关联-CNN法使得分类准确率提高1％，其中原因是知识图谱融合主题信息实体，丰富了语义理解，从而让CNN能更好学习网络主题文本，联系不同语义环境能够甄别主题信息。而本发明法同时引入用户搜索意图知识图谱和上下文关联-实体向量方法，提升算法识别性能，提高效率，比仅仅引入一种的效果好。

Claims

1.一种基于用户意图嵌入图谱学习的主题文本快速检测方法，其特征在于，该检测方法具体步骤如下：

2.根据权利要求1所述的一种基于用户意图嵌入图谱学习的主题文本快速检测方法，其特征在于，步骤(1)中所述特征关键词抽取具体步骤如下：

3.根据权利要求1所述的一种基于用户意图嵌入图谱学习的主题文本快速检测方法，其特征在于，步骤(2)中所述用户偏好和知识图谱嵌入具体步骤如下：

4.根据权利要求2所述的一种基于用户意图嵌入图谱学习的主题文本快速检测方法，其特征在于，步骤(3)中所述知识图谱嵌入具体步骤如下：

5.根据权利要求2所述的一种基于用户意图嵌入图谱学习的主题文本快速检测方法，其特征在于，步骤(4)中所述CNN模型训练学习具体步骤如下：

输入CNN模型中；

6.根据权利要求5所述的一种基于用户意图嵌入图谱学习的主题文本快速检测方法，其特征在于，S2.2中所述词语-实体对齐转换函数具体函数式如下：

g(e)＝tanh(Me+b) (1)