CN111191031A - 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 - Google Patents

一种基于WordNet和IDF的非结构化文本的实体关系分类方法 Download PDF

Info

Publication number
CN111191031A
CN111191031A CN201911345611.9A CN201911345611A CN111191031A CN 111191031 A CN111191031 A CN 111191031A CN 201911345611 A CN201911345611 A CN 201911345611A CN 111191031 A CN111191031 A CN 111191031A
Authority
CN
China
Prior art keywords
sentence
word
vector
matrix
idf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911345611.9A
Other languages
English (en)
Inventor
陈雪
乐金雄
骆祥峰
黄敬
王鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Transpacific Technology Development Ltd
Alibaba Group Holding Ltd
University of Shanghai for Science and Technology
Original Assignee
Beijing Transpacific Technology Development Ltd
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Transpacific Technology Development Ltd, Alibaba Group Holding Ltd filed Critical Beijing Transpacific Technology Development Ltd
Priority to CN201911345611.9A priority Critical patent/CN111191031A/zh
Publication of CN111191031A publication Critical patent/CN111191031A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于WordNet和IDF的非结构化文本的实体关系分类方法。该方法的具体步骤如下:(1)获取文本训练集并进行预处理后得到句子矩阵表示;(2)利用WordNet扩展句子外部语义信息;(3)利用IDF扩展句子内部语义信息;(4)计算句子中单词的位置信息,更新句子的矩阵表示;(5)将步骤(4)的句子矩阵输入分段卷积神经网络中,得到句子的特征向量。(6)将特征向量输入到分类器中,计算损失函数。(7)若本轮训练准确率较上一轮的提高大于0.1%或者达到迭代上限,则该分类方法训练完毕;否则,更新步骤(5)中超参数,继续训练过程。本发明所述方法能准确地表达实体和关系的语义特征,从而缓解训练集数据噪声过大的问题,提高分类准确性。

Description

一种基于WordNet和IDF的非结构化文本的实体关系分类方法
技术领域
本发明涉及文本挖掘和深度学习技术领域,是一种在远程监督学习下基于WordNet和IDF的非结构化文本的实体关系分类方法,可应用于构建知识图谱、开发问答系统,以及信息检索系统等具体领域。
背景技术
实体关系抽取是信息抽取领域最重要的子课题之一,是在实体识别的基础上从非结构化文本中抽取出预先定义的实体间的语义关系。根据对标注数据的依赖程度,实体关系抽取方法可分为有监督关系抽取、半监督关系抽取、无监督关系抽取和远程监督关系抽取。
有监督关系抽取将关系抽取任务当作关系分类问题,根据训练数据设计合适的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。半监督关系抽取采用自助抽样法进行关系抽取,首先人工设定种子实例,然后迭代地从数据中抽取关系对应的关系模版和更多的实例。无监督关系抽取假设拥有相同语义关系的实体对拥有相似的上下文信息,然后利用每个实体对上下文信息来代表该实体对的语义关系,并对所有实体对的语义关系进行聚类。
远程监督方法是一种使用远程知识库对齐朴素文本的标注方法,可以进行自动标注数据,从而避免人工构建语料库。此方法假设只要一个句子里包含知识库中的两个实体,那么句子中两实体的关系一定是知识库中定义的关系。这种强假设条件会产生大量的错误标签,对于大量错误标签的过滤成为该研究方法的重点。现有的过滤方法总体上分为三种,其一是采用多示例学习(Multiple Instance Learning,MIL)的方式从训练集中抽取置信度高的训练样例结合分段卷积神经网络(Piece-wise Convolutional Neural Network,PCNN)进行标签过滤。其二是采用PCNN结合注意力机制(Attention)为标签正确的示例句子分配较高权重,标签错误的示例句子分配较低权重。其三是在PCNN和Attention的基础上添加了实体的描述信息来辅助学习实体的表示。
综上,当前远程监督下的关系抽取方法,主要解决远程监督自动生成标注训练集的过程中由于引入强假设条件,导致大量数据的关系被标注错误,使得训练数据存在大量噪声的问题。
发明内容
本发明提出了一种基于认知语言学的英文词典(WordNet)和逆文档频率(InverseDocument Frequency,IDF)的非结构化文本实体关系分类方法,使用外部信息和内部信息对实体及句子进行语义扩展,然后利用分段卷积神经网络提取定长的语义特征向量,用于训练分类器,最后可以对非结构化文本的实体关系进行分类。
为达到上述目的,本发明采用如下技术方案:
一种基于WordNet和IDF的非结构化文本的实体关系分类方法,包括以下步骤:
步骤1、获取非结构化的文本训练集,对数据集中的每个句子进行预处理之后,利用Word2Vec得到句子的矩阵表示;
步骤2、利用WordNet扩展句子外部语义信息,更新句子的矩阵表示;
步骤3、利用IDF扩展句子内部语义信息,更新句子的矩阵表示;
步骤4、计算句子中每个单词的位置信息,并将其加入到该词的词向量中,更新句子的矩阵表示;
步骤5、将步骤4得到的句子矩阵输入到分段卷积神经网络PCNN中,得到句子的特征向量;
步骤6、将步骤5的句子特征向量输入到分类器中,对句子的实体关系进行分类,并将分类结果与训练集标签对比,计算损失函数;
步骤7、若本轮测试的准确率较上轮提高大于0.1%或者达到训练次数上限,则该实体关系自动分类方法训练完毕;否则,根据分类结果和损失函数更新步骤5中的超参数,继续迭代训练。
所述步骤1中的对数据集进行预处理,并得到句子的矩阵表示,其过程如下:
(1-1)预处理:获取数据集后,利用Freebase标准知识库标注出数据集中每个句子的两个实体间的关系;标注完成后数据集表示为D={d1,d2,…,di,…,dg},其中di为数据集中的每一个句子,di={t1,t2,…,e1,…,e2,…,tf},ti表示句子中的每个单词,e1和e2是句子的两个实体,f代表句子中单词的数量;
(1-2)生成句子矩阵:对数据集中D的每个句子di,利用Word2Vec找出其每个单词的向量表示并将其组成映射矩阵:xi={w1,w2,…,wi,…,wh},其中wi={v1,v2,…v50}是句子中每个单词的向量表示,每个词向量的维度为50。
所述步骤2中利用WordNet扩展句子外部语义信息,更新句子的矩阵表示,其过程如下:
(2-1)对数据集中所有句子进行外部语义分析:将句子di中的实体e1和e2输入到WordNet字典中,分别获取其上位词集合,并利用Word2Vec进行向量化表示,得到
Figure BDA0002333258980000021
Figure BDA0002333258980000022
Figure BDA0002333258980000023
其中m为e1的上位词个数,n为e2的上位词个数;计算每个上位词集合的平均向量wout来代表其实体的外部信息,具体计算公式为:
Figure BDA0002333258980000031
其中,k取m时,wi
Figure BDA0002333258980000032
中每个词的向量,公式(1)得出的wout为实体e1的平均向量wout1;k取n时,wi
Figure BDA0002333258980000033
中每个词的向量,公式(1)得出的wout为实体e2的平均向量wout2
(2-2)更新句子矩阵:将e1和e2计算出的两个平均向量wout1和wout2拼接到句子xi中,更新后的句子矩阵:xi={w1,w2,…,wj,wout1,wout2}。
所述步骤3中利用IDF扩展句子内部语义信息,更新句子的矩阵表示,其过程如下:
(3-1)计算IDF:将数据集D中的每个句子di看成一篇文章,整个数据集看成一个文本库,计算出句子中每个单词的IDF,公式为:
Figure BDA0002333258980000034
其中,
Figure BDA0002333258980000035
表示句子中第i个词的IDF,|D|是训练集中的句子总数,|{j:ti∈dj}|表示包含单词ti的句子总数;
将句子di中计算出的k个IDF使用SoftMax进行归一化操作,公式为:
Figure BDA0002333258980000036
其中,
Figure BDA0002333258980000037
是归一化后每个单词的IDF,k是一个句子中单词总数;
(3-2)更新句子矩阵:将上一步中得到的k个IDF值拼接到每个单词向量wi={v1,v2,…v50}末尾,将词向量变为51维:
Figure BDA0002333258980000038
所述步骤4中计算句子中每个单词的位置信息,并添加到该词的词向量中,更新句子的矩阵表示,其过程如下:
(4-1)计算单词位置信息:计算句子中每个词分别到实体e1和e2的距离,如:
Figure BDA0002333258980000039
Figure BDA00023332589800000310
中,w1到实体
Figure BDA00023332589800000311
的位置距离为dis1,到实体
Figure BDA00023332589800000312
的位置距离为dis2
(4-2)更新句子矩阵:将上一步得到的dis1和dis2编码进入w1的词向量中,句子矩阵中的单词向量w1更新,更新后
Figure BDA00023332589800000313
所述步骤5中将句子矩阵输入到分段卷积神经网络中,得到句子的特征向量,其过程如下:
(5-1)输入层:将步骤(4-2)得到的句子矩阵进行分段标记,以两个实体e1和e2为界限分为3段,e1前面部分的单词全部标记为1;e1和e2之间的单词全部标记为2;e2之后的单词标记为3;
(5-2)卷积层:卷积神经网络第二层将步骤(5-1)的输出当作输入进行二维卷积运算,提取局部卷积特征,由多个卷积核同时进行特征提取,最终获得多个向量;具体做法是用一个跨度为l的滑动窗口在句子矩阵上每次取一段单词序列q,然后与卷积矩阵W做运算,计算公式为:
pi=[Wq+b]i (4)
其中,q为滑动窗口从句子矩阵中取到的固定大小的词序列矩阵,b为偏置矩阵;
(5-3)池化层:卷积神经网络中的第二层使用Piece-wise max pooling,句子经过卷积层之后,进入池化层,池化层能够组合所有卷积层得到的局部特征,以获得固定大小的向量,计算公式为:
[r]ij=max(pij) (5)
其中,pij表示的是第i个卷积核的第j段的向量,其中j的取值范围为1,2,3,在此段中得到其中最大的一个值;将所有卷积核都做完分段池化之后,将结果进行一个非线形的变换最终得到一个句子的特征提取之后的向量表示;非线性变换采用ReLU函数,公式为:
Figure BDA0002333258980000041
(5-4)输出层:池化层的输出结果就是句子的特征向量,用ri表示。
所述步骤6中将句子特征向量输入到分类器中,对句子的实体关系进行分类,并将分类结果与训练集标签对比,计算损失函数,其过程如下:
(6-1)先对特征向量ri进行调整,得到该向量与每一种关系的关联程度,计算公式为:
Oi=riR+b (7)
其中,R是所有既定关系矩阵的向量表示,b是偏置向量,Oi={o1,o2,…,oj};
(6-2)使用SoftMax更新步骤(6-1)的输出Oi,计算公式为:
Figure BDA0002333258980000042
其中,Oi是训练集中每一个句子的最终输出,其每一维变成0到1之间的值,表示该句子属于对应类别的概率,nr为Oi的维度,也即是类别数量;
(6-3)使用损失函数计算预测结果与标签的差值,计算公式为:
Figure BDA0002333258980000051
其中,k是训练集的句子总数,θ表示本模型所有需要更新的超参数。
所述步骤7中若本轮测试的准确率较上轮提高大于0.1%或者达到迭代上限,则该实体关系自动分类方法训练完毕;否则,根据分类结果和损失函数更新步骤5中的超参数,继续迭代训练;其过程如下:
(7-1)以标签作为训练集实体关系分类的标准,计算本轮训练结果中,其关系预测正确的句子占训练集所有句子的比例作为准确率;
(7-2)训练次数上限设置为η,当训练次数到达上限η或者本轮训练准确率较上一轮提高小于0.1%时,该实体关系自动分类方法训练结束;否则,更新步骤5分段卷积神经网络PCNN中所有超参数θ,并在PCNN中输入训练集继续训练,其超参数更新公式为:
Figure BDA0002333258980000052
与现有技术相比,本发明具有如下突出的实质性特点的显著的优点:
本发明所述方法与其他在PCNN和添加实体描述信息等方法相比,通过WordNet获取实体语义信息,并通过IDF获取句子的内部结构信息当作该句子的背景信息,能更加准确地表达实体和关系的语义特征,缓解训练集数据噪声过大的问题。
附图说明
图1为基于WordNet和IDF的非结构化文本实体关系分类方法流程图。
图2为使用WordNet和IDF提取句子中词语信息进行拼接。
图3为使用PCNN提取一个句子特征信息的过程。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明提出了一种基于WordNet和IDF的非结构化文本的实体关系分类方法,使用外部信息和内部信息向量对实体及句子进行语义扩展,然后利用分段卷积神经网络提取定长的语义特征向量,用于训练分类器,最后可以对非结构化文本的实体关系进行分类。本发明的基本特征主要有以下几个方面:一是将句子向量化之后,在向量中添加实体的外部信息,以及内部信息和句子结构信息;二是使用卷积神经网络来提取句子的特征信息;三是使用分段池化对卷积后的向量进行采样。
请参阅图1的关系分类方法流程图,该过程的具体实施步骤如下:
步骤1、获取非结构化的文本训练集,对数据集中的每个句子进行预处理之后,利用Word2Vec得到句子的矩阵表示;
(1-1)预处理过程:下载Google公布的《纽约时报》标注数据集作为训练集,下载地址:http://t.cn/RPsjAyl。利用Freebase知识图谱中标注的实体以及实体间对应关系,在语料集中进行回标。过程是:如果训练集中某个句子的两个实体在Freebase中标注过属于某种特定关系,那么就假定这个句子的实体关系就是这种特定关系,这样就将训练集中的所有句子打上了关系标注,完成了训练集的创建。训练集一共包括522611个句子,281270个实体对和18252个关系实例。
(1-2)生成句子矩阵:上一步中数据集表示为D,D={d1,d2,…,di,…,dg},其中di为数据集中的每一个句子,g=522611。其中di={t1,t2,…,e1,…,e2,…,tf},ti表示句子中的每个单词,e1和e2是句子的两个实体,f代表句子中单词的数量。对数据集中的每个句子,利用Word2Vec工具找出其每个单词的向量表示并将其组成映射矩阵,即:xi={w1,w2,…,wi,…,wh},h的取值118,若原句子总词数f大于118,丢弃超出的单词;若f小于118,空缺的单词向量则用零向量填充。其中wi是句子中每个单词的向量表示,wi={v1,v2,…v50},每个词向量的维度为50。最后句子矩阵维度:
Figure BDA0002333258980000061
步骤2:利用WordNet扩展句子外部语义信息,更新句子的矩阵表示。具体过程如下:
(2-1)对数据集中所有句子进行外部语义分析:将句子di中的实体e1和e2输入到WordNet字典中,分别获取其上位词集合,并利用Word2Vec进行向量化表示,得到
Figure BDA0002333258980000062
Figure BDA0002333258980000063
m为e1的上位词个数,和
Figure BDA0002333258980000064
n为e2的上位词个数。计算每个上位词集合的平均向量来代表其实体的外部信息,具体计算公式为:
Figure BDA0002333258980000065
其中,k取m时,wi
Figure BDA0002333258980000066
中每个词的向量;k取n时,wi
Figure BDA0002333258980000067
中每个词的向量。
(2-2)更新句子矩阵:将e1和e2计算出的两个平均向量wout1和wout2拼接到句子xi中,更新后的句子矩阵:xi={w1,w2,…,wj,wout1,wout2},句子矩阵的维度:
Figure BDA0002333258980000068
步骤3:利用IDF扩展句子内部语义信息,更新句子的矩阵表示。具体过程如下:
(3-1)计算IDF:将数据集D中的每个句子di看成一篇文章,整个数据集看成一个文本库,计算出句子中每个单词的IDF,公式为:
Figure BDA0002333258980000071
其中,
Figure BDA0002333258980000072
表示句子中第i个词的IDF,|D|是训练集中的句子总数,|{j:ti∈dj}|表示包含单词ti的句子总数。
然后将句子di中计算出的k个IDF使用SoftMax进行归一化操作,公式为:
Figure BDA0002333258980000073
其中,
Figure BDA0002333258980000074
是归一化后每个单词的IDF,k是一个句子中单词总数。
(3-2)更新句子矩阵:将上一步中得到的k个IDF值拼接到每个单词向量wi={v1,v2,…v50}末尾,将词向量变为51维:
Figure BDA0002333258980000075
外部信息和内部信息的拼接过程见图2。
步骤4:计算句子中每个单词的位置信息,并将其加入到该词的词向量中,更新句子的矩阵表示。具体过程如下:
(4-1)计算单词位置信息:计算句子中每个词分别到实体e1和e2的距离,如:
Figure BDA0002333258980000076
Figure BDA0002333258980000077
中,w1到实体
Figure BDA0002333258980000078
的距离为3,到实体
Figure BDA0002333258980000079
的距离为6,所以词w1的位置信息分别为3和6。
(4-2)更新句子矩阵:将上一步得到的3和6编码进行w1的词向量中,句子矩阵中的单词向量w1更新,更新后
Figure BDA00023332589800000710
句子矩阵维度:
Figure BDA00023332589800000711
步骤5:将步骤4得到的句子矩阵输入到PCNN中,得到句子的特征向量,见图3所示:
(5-1)输入层:将上一步得到的句子矩阵进行分段标记,以两个实体e1和e2为界限分为3段,e1前面部分的单词全部标记为1;e1和e2之间的单词全部标记为2;e2之后的单词标记为3。用零向量填充的单词标记为0。
(5-2)卷积层:卷积神经网络第二层将第一层的输出当作输入进行二维卷积运算,提取局部卷积特征,由多个卷积核同时进行特征提取,最终获得多个向量。具体做法是用一个跨度为l的滑动窗口在句子矩阵上每次取一段单词序列q,然后与卷积矩阵W做运算,计算公式为:
pi=[Wq+b]i (4)
其中,q为滑动窗口从句子矩阵中取到的固定大小的词序列矩阵,b为偏置矩阵。
(5-3)池化层:卷积神经网络中的第二层使用Piece-wise max pooling,句子经过卷积层之后,进入池化层,池化层能够组合所有卷积层得到的局部特征,以获得固定大小的向量。
计算公式为:
[r]ij=max(pij) (5)
其中,pij表示的是第i个卷积核的第j(j的取值范围为1,2,3)段的向量,在此段中得到其中最大的一个值。将所有卷积核都做完分段池化之后,将结果进行一个非线形的变换最终得到一个句子的特征提取之后的向量表示。非线性变换采用ReLU函数,公式为:
Figure BDA0002333258980000081
(5-4)输出层:池化层的输出结果就是句子的特征向量,用ri表示。
步骤6:将上一步得到的句子特征向量输入到分类器中,对句子的实体关系进行分类,并将分类结果与训练集标签对比,计算损失函数。具体过程如下:
(6-1)先对特征向量ri进行一些调整,得到该向量与每一种关系的关联程度,计算公式为:
Oi=riR+b (7)
其中,R是所有既定关系矩阵的向量表示,b是偏置向量,Oi={o1,o2,…,oj,o53}。
(6-2)使用SoftMax将单个句子的输出Oi的每一维映射为0到1之间的值,每一维的值就表示该句子属于该关系的概率。计算公式为:
Figure BDA0002333258980000082
其中,Oi是训练集中每一个句子的最终输出,nr为标签总数,值为53。
(6-3)使用损失函数计算预测结果与标签的差值,计算公式为:
Figure BDA0002333258980000083
其中,k是训练集的句子总数,θ表示本模型所有需要更新的超参数。
步骤7、若本轮测试的准确率较上轮提高大于0.1%或者达到训练次数上限,则该实体关系自动分类方法训练完毕;否则,根据分类结果和损失函数更新步骤5中的超参数,继续迭代训练。其过程如下:
(7-1)以标签作为训练集实体关系分类的标准,计算本轮训练结果中其关系预测正确的句子占训练集所有句子的比例作为准确率。
(7-2)训练次数上限设置为η,当训练次数到达上限η或者本轮训练准确率较上一轮提高小于0.1%时,该实体关系自动分类方法训练结束。否则,更新步骤5分段卷积神经网络PCNN中超参数θ并在PCNN中输入训练集继续训练,其超参数更新公式为:
Figure BDA0002333258980000091
实验说明及结果:训练集为步骤(1-1)所述的《纽约时报》标注数据集。测试集同样是Google公布的《纽约时报》标注数据集,测试集包括172448个句子,96678个实体对和1950个关系。表1显示不同的训练方法在测试集上的对比结果。
表1测试结果
P@N(%) 100 200 300 平均
CNN 71.3 70.1 64.5 68.6
PCNN 79.2 72.1 69.1 73.5
Random+PCNN 77.2 74.1 70.8 74.0
WordNet+PCNN 81.2 77.1 74.4 77.6
IDF+WordNet+PCNN 80.8 78.2 76.5 78.1
其中,指标P@N表示前N条数据的准确率;CNN表示使用卷积神经网络作为训练模型;PCNN表示使用分段卷积神经网络作为训练模型;Random+PCNN中Random表示的是加入随机的句子外部信息然后使用PCNN进行训练的方法;WordNet+PCNN中WordNet表示从WordNet中获取的句子的外部信息然后使用PCNN进行训练的方法;IDF+WordNet+PCNN是本发明使用的方法,通过WordNet和IDF分别获取句子外部和内部信息,而后使用PCNN进行训练的实体分类方法。可以看出,本发明方法在P@200和P@300下准确率最高,并且平均准确率达到78.1%,比其他方法分别高出9.5个百分点、4.6个百分点、4.1个百分点以及0.5个百分点。

Claims (8)

1.一种基于WordNet和IDF的非结构化文本的实体关系分类方法,其特征在于,包括以下步骤:
步骤1、获取非结构化的文本训练集,对数据集中的每个句子进行预处理之后,利用Word2Vec得到句子的矩阵表示;
步骤2、利用WordNet扩展句子外部语义信息,更新句子的矩阵表示;
步骤3、利用IDF扩展句子内部语义信息,更新句子的矩阵表示;
步骤4、计算句子中每个单词的位置信息,并将其加入到该词的词向量中,更新句子的矩阵表示;
步骤5、将步骤4得到的句子矩阵输入到分段卷积神经网络PCNN中,得到句子的特征向量;
步骤6、将步骤5的句子特征向量输入到分类器中,对句子的实体关系进行分类,并将分类结果与训练集标签对比,计算损失函数;
步骤7、若本轮测试的准确率较上轮提高大于0.1%或者达到训练次数上限,则该实体关系自动分类方法训练完毕;否则,根据分类结果和损失函数更新步骤5中的超参数,继续迭代训练。
2.根据权利要求1所述的基于WordNet和IDF的非结构化文本的实体关系分类方法,其特征在于,所述步骤1中的对数据集进行预处理,并得到句子的矩阵表示,其过程如下:
(1-1)预处理:获取数据集后,利用Freebase标准知识库标注出数据集中每个句子的两个实体间的关系;标注完成后数据集表示为D={d1,d2,…,di,…,dg},其中di为数据集中的每一个句子,di={t1,t2,…,e1,…,e2,…,tf},ti表示句子中的每个单词,e1和e2是句子的两个实体,f代表句子中单词的数量;
(1-2)生成句子矩阵:对数据集中D的每个句子di,利用Word2Vec找出其每个单词的向量表示并将其组成映射矩阵:xi={w1,w2,…,wi,…,wh},其中wi={v1,v2,…v50}是句子中每个单词的向量表示,每个词向量的维度为50。
3.根据权利要求1所述的基于WordNet和IDF的非结构化文本的实体关系分类方法,其特征在于,所述步骤2中利用WordNet扩展句子外部语义信息,更新句子的矩阵表示,其过程如下:
(2-1)对数据集中所有句子进行外部语义分析:将句子di中的实体e1和e2输入到WordNet字典中,分别获取其上位词集合,并利用Word2Vec进行向量化表示,得到
Figure FDA0002333258970000011
Figure FDA0002333258970000021
Figure FDA0002333258970000022
其中m为e1的上位词个数,n为e2的上位词个数;计算每个上位词集合的平均向量wout来代表其实体的外部信息,具体计算公式为:
Figure FDA0002333258970000023
其中,k取m时,wi
Figure FDA0002333258970000024
中每个词的向量,公式(1)得出的wout为实体e1的平均向量wout1;k取n时,wi
Figure FDA0002333258970000025
中每个词的向量,公式(1)得出的wout为实体e2的平均向量wout2
(2-2)更新句子矩阵:将e1和e2计算出的两个平均向量wout1和wout2拼接到句子xi中,更新后的句子矩阵:xi={w1,w2,…,wj,wout1,wout2}。
4.根据权利要求1所述的基于WordNet和IDF的非结构化文本的实体关系分类方法,其特征在于,所述步骤3中利用IDF扩展句子内部语义信息,更新句子的矩阵表示,其过程如下:
(3-1)计算IDF:将数据集D中的每个句子di看成一篇文章,整个数据集看成一个文本库,计算出句子中每个单词的IDF,公式为:
Figure FDA0002333258970000026
其中,
Figure FDA0002333258970000027
表示句子中第i个词的IDF,|D|是训练集中的句子总数,|{j:ti∈dj}|表示包含单词ti的句子总数;
将句子di中计算出的k个IDF使用SoftMax进行归一化操作,公式为:
Figure FDA0002333258970000028
其中,
Figure FDA0002333258970000029
是归一化后每个单词的IDF,k是一个句子中单词总数;
(3-2)更新句子矩阵:将上一步中得到的k个IDF值拼接到每个单词向量wi={v1,v2,…v50}末尾,将词向量变为51维:
Figure FDA00023332589700000210
5.根据权利要求1所述的基于WordNet和IDF的非结构化文本的实体关系分类方法,其特征在于,所述步骤4中计算句子中每个单词的位置信息,并添加到该词的词向量中,更新句子的矩阵表示,其过程如下:
(4-1)计算单词位置信息:计算句子中每个词分别到实体e1和e2的距离,如:
Figure FDA00023332589700000211
Figure FDA00023332589700000212
中,w1到实体
Figure FDA00023332589700000213
的位置距离为dis1,到实体
Figure FDA00023332589700000214
的位置距离为dis2
(4-2)更新句子矩阵:将上一步得到的dis1和dis2编码进入w1的词向量中,句子矩阵中的单词向量w1更新,更新后
Figure FDA0002333258970000031
6.根据权利要求1所述的基于WordNet和IDF的非结构化文本的实体关系分类方法,其特征在于,所述步骤5中将句子矩阵输入到分段卷积神经网络中,得到句子的特征向量,其过程如下:
(5-1)输入层:将步骤(4-2)得到的句子矩阵进行分段标记,以两个实体e1和e2为界限分为3段,e1前面部分的单词全部标记为1;e1和e2之间的单词全部标记为2;e2之后的单词标记为3;
(5-2)卷积层:卷积神经网络第二层将步骤(5-1)的输出当作输入进行二维卷积运算,提取局部卷积特征,由多个卷积核同时进行特征提取,最终获得多个向量;具体做法是用一个跨度为l的滑动窗口在句子矩阵上每次取一段单词序列q,然后与卷积矩阵W做运算,计算公式为:
pi=[Wq+b]i (4)
其中,q为滑动窗口从句子矩阵中取到的固定大小的词序列矩阵,b为偏置矩阵;
(5-3)池化层:卷积神经网络中的第二层使用Piece-wise max pooling,句子经过卷积层之后,进入池化层,池化层能够组合所有卷积层得到的局部特征,以获得固定大小的向量,计算公式为:
[r]ij=max(pij) (5)
其中,pij表示的是第i个卷积核的第j段的向量,其中j的取值范围为1,2,3,在此段中得到其中最大的一个值;将所有卷积核都做完分段池化之后,将结果进行一个非线形的变换最终得到一个句子的特征提取之后的向量表示;非线性变换采用ReLU函数,公式为:
Figure FDA0002333258970000032
(5-4)输出层:池化层的输出结果就是句子的特征向量,用ri表示。
7.根据权利要求1所述的基于WordNet和IDF的非结构化文本的实体关系分类方法,其特征在于,所述步骤6中将句子特征向量输入到分类器中,对句子的实体关系进行分类,并将分类结果与训练集标签对比,计算损失函数,其过程如下:
(6-1)先对特征向量ri进行调整,得到该向量与每一种关系的关联程度,计算公式为:
Oi=riR+b (7)
其中,R是所有既定关系矩阵的向量表示,b是偏置向量,Oi={o1,o2,…,oj};
(6-2)使用SoftMax更新步骤(6-1)的输出Oi,计算公式为:
Figure FDA0002333258970000041
其中,Oi是训练集中每一个句子的最终输出,其每一维变成0到1之间的值,表示该句子属于对应类别的概率,nr为Oi的维度,也即是类别数量;
(6-3)使用损失函数计算预测结果与标签的差值,计算公式为:
Figure FDA0002333258970000042
其中,k是训练集的句子总数,θ表示本模型所有需要更新的超参数。
8.根据权利要求1所述的基于WordNet和IDF的非结构化文本的实体关系分类方法,其特征在于,所述步骤7中若本轮测试的准确率较上轮提高大于0.1%或者达到迭代上限,则该实体关系自动分类方法训练完毕;否则,根据分类结果和损失函数更新步骤5中的超参数,继续迭代训练;其过程如下:
(7-1)以标签作为训练集实体关系分类的标准,计算本轮训练结果中,其关系预测正确的句子占训练集所有句子的比例作为准确率;
(7-2)训练次数上限设置为η,当训练次数到达上限η或者本轮训练准确率较上一轮提高小于0.1%时,该实体关系自动分类方法训练结束;否则,更新步骤5分段卷积神经网络PCNN中所有超参数θ,并在PCNN中输入训练集继续训练,其超参数更新公式为:
Figure FDA0002333258970000043
CN201911345611.9A 2019-12-24 2019-12-24 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 Pending CN111191031A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911345611.9A CN111191031A (zh) 2019-12-24 2019-12-24 一种基于WordNet和IDF的非结构化文本的实体关系分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911345611.9A CN111191031A (zh) 2019-12-24 2019-12-24 一种基于WordNet和IDF的非结构化文本的实体关系分类方法

Publications (1)

Publication Number Publication Date
CN111191031A true CN111191031A (zh) 2020-05-22

Family

ID=70709351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911345611.9A Pending CN111191031A (zh) 2019-12-24 2019-12-24 一种基于WordNet和IDF的非结构化文本的实体关系分类方法

Country Status (1)

Country Link
CN (1) CN111191031A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651575A (zh) * 2020-05-29 2020-09-11 泰康保险集团股份有限公司 会话文本处理方法、装置、介质及电子设备
CN112084790A (zh) * 2020-09-24 2020-12-15 中国民航大学 一种基于预训练卷积神经网络的关系抽取方法及系统
CN112417872A (zh) * 2020-10-20 2021-02-26 上海大学 一种基于相关系数熵的单示例单标签远程监督实体关系标注方法
CN113254636A (zh) * 2021-04-27 2021-08-13 上海大学 一种基于示例权重离散度的远程监督实体关系分类方法
CN113591483A (zh) * 2021-04-27 2021-11-02 重庆邮电大学 一种基于序列标注的文档级事件论元抽取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595708A (zh) * 2018-05-10 2018-09-28 北京航空航天大学 一种基于知识图谱的异常信息文本分类方法
CN109597995A (zh) * 2018-12-04 2019-04-09 国网江西省电力有限公司信息通信分公司 一种基于bm25加权结合词向量的文本表示方法
CN109886020A (zh) * 2019-01-24 2019-06-14 燕山大学 基于深度神经网络的软件漏洞自动分类方法
CN109947864A (zh) * 2018-06-27 2019-06-28 淮阴工学院 一种基于tf-idf和cnn启发式短文本特征提取与分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595708A (zh) * 2018-05-10 2018-09-28 北京航空航天大学 一种基于知识图谱的异常信息文本分类方法
CN109947864A (zh) * 2018-06-27 2019-06-28 淮阴工学院 一种基于tf-idf和cnn启发式短文本特征提取与分类方法
CN109597995A (zh) * 2018-12-04 2019-04-09 国网江西省电力有限公司信息通信分公司 一种基于bm25加权结合词向量的文本表示方法
CN109886020A (zh) * 2019-01-24 2019-06-14 燕山大学 基于深度神经网络的软件漏洞自动分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王林玉 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651575A (zh) * 2020-05-29 2020-09-11 泰康保险集团股份有限公司 会话文本处理方法、装置、介质及电子设备
CN111651575B (zh) * 2020-05-29 2023-09-12 泰康保险集团股份有限公司 会话文本处理方法、装置、介质及电子设备
CN112084790A (zh) * 2020-09-24 2020-12-15 中国民航大学 一种基于预训练卷积神经网络的关系抽取方法及系统
CN112084790B (zh) * 2020-09-24 2022-07-05 中国民航大学 一种基于预训练卷积神经网络的关系抽取方法及系统
CN112417872A (zh) * 2020-10-20 2021-02-26 上海大学 一种基于相关系数熵的单示例单标签远程监督实体关系标注方法
CN112417872B (zh) * 2020-10-20 2022-08-05 上海大学 一种基于相关系数熵的单示例单标签远程监督实体关系标注方法
CN113254636A (zh) * 2021-04-27 2021-08-13 上海大学 一种基于示例权重离散度的远程监督实体关系分类方法
CN113591483A (zh) * 2021-04-27 2021-11-02 重庆邮电大学 一种基于序列标注的文档级事件论元抽取方法

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN112084790B (zh) 一种基于预训练卷积神经网络的关系抽取方法及系统
CN111914558B (zh) 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN111160037B (zh) 一种支持跨语言迁移的细粒度情感分析方法
CN109783818B (zh) 一种企业行业分类方法
CN111191031A (zh) 一种基于WordNet和IDF的非结构化文本的实体关系分类方法
Alwehaibi et al. Comparison of pre-trained word vectors for arabic text classification using deep learning approach
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN111737496A (zh) 一种电力设备故障知识图谱构建方法
US20150331936A1 (en) Method and system for extracting a product and classifying text-based electronic documents
Zhang et al. Sentiment Classification Based on Piecewise Pooling Convolutional Neural Network.
CN110263325B (zh) 中文分词系统
CN109344399B (zh) 一种基于堆叠双向lstm神经网络的文本相似度计算方法
CN111611807B (zh) 一种基于神经网络的关键词提取方法、装置及电子设备
CN110297888B (zh) 一种基于前缀树与循环神经网络的领域分类方法
CN114896388A (zh) 一种基于混合注意力的层级多标签文本分类方法
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN101714135A (zh) 一种跨领域文本情感倾向性分析方法
CN110889282A (zh) 一种基于深度学习的文本情感分析方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
CN113672718A (zh) 基于特征匹配和领域自适应的对话意图识别方法及系统
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN114936277A (zh) 相似问题匹配方法和户相似问题匹配系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination