CN111191031A - 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 - Google Patents
一种基于WordNet和IDF的非结构化文本的实体关系分类方法 Download PDFInfo
- Publication number
- CN111191031A CN111191031A CN201911345611.9A CN201911345611A CN111191031A CN 111191031 A CN111191031 A CN 111191031A CN 201911345611 A CN201911345611 A CN 201911345611A CN 111191031 A CN111191031 A CN 111191031A
- Authority
- CN
- China
- Prior art keywords
- sentence
- word
- vector
- matrix
- idf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于WordNet和IDF的非结构化文本的实体关系分类方法。该方法的具体步骤如下:(1)获取文本训练集并进行预处理后得到句子矩阵表示;(2)利用WordNet扩展句子外部语义信息;(3)利用IDF扩展句子内部语义信息;(4)计算句子中单词的位置信息,更新句子的矩阵表示;(5)将步骤(4)的句子矩阵输入分段卷积神经网络中,得到句子的特征向量。(6)将特征向量输入到分类器中,计算损失函数。(7)若本轮训练准确率较上一轮的提高大于0.1%或者达到迭代上限,则该分类方法训练完毕;否则,更新步骤(5)中超参数,继续训练过程。本发明所述方法能准确地表达实体和关系的语义特征,从而缓解训练集数据噪声过大的问题,提高分类准确性。
Description
技术领域
本发明涉及文本挖掘和深度学习技术领域,是一种在远程监督学习下基于WordNet和IDF的非结构化文本的实体关系分类方法,可应用于构建知识图谱、开发问答系统,以及信息检索系统等具体领域。
背景技术
实体关系抽取是信息抽取领域最重要的子课题之一,是在实体识别的基础上从非结构化文本中抽取出预先定义的实体间的语义关系。根据对标注数据的依赖程度,实体关系抽取方法可分为有监督关系抽取、半监督关系抽取、无监督关系抽取和远程监督关系抽取。
有监督关系抽取将关系抽取任务当作关系分类问题,根据训练数据设计合适的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。半监督关系抽取采用自助抽样法进行关系抽取,首先人工设定种子实例,然后迭代地从数据中抽取关系对应的关系模版和更多的实例。无监督关系抽取假设拥有相同语义关系的实体对拥有相似的上下文信息,然后利用每个实体对上下文信息来代表该实体对的语义关系,并对所有实体对的语义关系进行聚类。
远程监督方法是一种使用远程知识库对齐朴素文本的标注方法,可以进行自动标注数据,从而避免人工构建语料库。此方法假设只要一个句子里包含知识库中的两个实体,那么句子中两实体的关系一定是知识库中定义的关系。这种强假设条件会产生大量的错误标签,对于大量错误标签的过滤成为该研究方法的重点。现有的过滤方法总体上分为三种,其一是采用多示例学习(Multiple Instance Learning,MIL)的方式从训练集中抽取置信度高的训练样例结合分段卷积神经网络(Piece-wise Convolutional Neural Network,PCNN)进行标签过滤。其二是采用PCNN结合注意力机制(Attention)为标签正确的示例句子分配较高权重,标签错误的示例句子分配较低权重。其三是在PCNN和Attention的基础上添加了实体的描述信息来辅助学习实体的表示。
综上,当前远程监督下的关系抽取方法,主要解决远程监督自动生成标注训练集的过程中由于引入强假设条件,导致大量数据的关系被标注错误,使得训练数据存在大量噪声的问题。
发明内容
本发明提出了一种基于认知语言学的英文词典(WordNet)和逆文档频率(InverseDocument Frequency,IDF)的非结构化文本实体关系分类方法,使用外部信息和内部信息对实体及句子进行语义扩展,然后利用分段卷积神经网络提取定长的语义特征向量,用于训练分类器,最后可以对非结构化文本的实体关系进行分类。
为达到上述目的,本发明采用如下技术方案:
一种基于WordNet和IDF的非结构化文本的实体关系分类方法,包括以下步骤:
步骤1、获取非结构化的文本训练集,对数据集中的每个句子进行预处理之后,利用Word2Vec得到句子的矩阵表示;
步骤2、利用WordNet扩展句子外部语义信息,更新句子的矩阵表示;
步骤3、利用IDF扩展句子内部语义信息,更新句子的矩阵表示;
步骤4、计算句子中每个单词的位置信息,并将其加入到该词的词向量中,更新句子的矩阵表示;
步骤5、将步骤4得到的句子矩阵输入到分段卷积神经网络PCNN中,得到句子的特征向量;
步骤6、将步骤5的句子特征向量输入到分类器中,对句子的实体关系进行分类,并将分类结果与训练集标签对比,计算损失函数;
步骤7、若本轮测试的准确率较上轮提高大于0.1%或者达到训练次数上限,则该实体关系自动分类方法训练完毕;否则,根据分类结果和损失函数更新步骤5中的超参数,继续迭代训练。
所述步骤1中的对数据集进行预处理,并得到句子的矩阵表示,其过程如下:
(1-1)预处理:获取数据集后,利用Freebase标准知识库标注出数据集中每个句子的两个实体间的关系;标注完成后数据集表示为D={d1,d2,…,di,…,dg},其中di为数据集中的每一个句子,di={t1,t2,…,e1,…,e2,…,tf},ti表示句子中的每个单词,e1和e2是句子的两个实体,f代表句子中单词的数量;
(1-2)生成句子矩阵:对数据集中D的每个句子di,利用Word2Vec找出其每个单词的向量表示并将其组成映射矩阵:xi={w1,w2,…,wi,…,wh},其中wi={v1,v2,…v50}是句子中每个单词的向量表示,每个词向量的维度为50。
所述步骤2中利用WordNet扩展句子外部语义信息,更新句子的矩阵表示,其过程如下:
(2-1)对数据集中所有句子进行外部语义分析:将句子di中的实体e1和e2输入到WordNet字典中,分别获取其上位词集合,并利用Word2Vec进行向量化表示,得到 和其中m为e1的上位词个数,n为e2的上位词个数;计算每个上位词集合的平均向量wout来代表其实体的外部信息,具体计算公式为:
(2-2)更新句子矩阵:将e1和e2计算出的两个平均向量wout1和wout2拼接到句子xi中,更新后的句子矩阵:xi={w1,w2,…,wj,wout1,wout2}。
所述步骤3中利用IDF扩展句子内部语义信息,更新句子的矩阵表示,其过程如下:
(3-1)计算IDF:将数据集D中的每个句子di看成一篇文章,整个数据集看成一个文本库,计算出句子中每个单词的IDF,公式为:
将句子di中计算出的k个IDF使用SoftMax进行归一化操作,公式为:
所述步骤4中计算句子中每个单词的位置信息,并添加到该词的词向量中,更新句子的矩阵表示,其过程如下:
所述步骤5中将句子矩阵输入到分段卷积神经网络中,得到句子的特征向量,其过程如下:
(5-1)输入层:将步骤(4-2)得到的句子矩阵进行分段标记,以两个实体e1和e2为界限分为3段,e1前面部分的单词全部标记为1;e1和e2之间的单词全部标记为2;e2之后的单词标记为3;
(5-2)卷积层:卷积神经网络第二层将步骤(5-1)的输出当作输入进行二维卷积运算,提取局部卷积特征,由多个卷积核同时进行特征提取,最终获得多个向量;具体做法是用一个跨度为l的滑动窗口在句子矩阵上每次取一段单词序列q,然后与卷积矩阵W做运算,计算公式为:
pi=[Wq+b]i (4)
其中,q为滑动窗口从句子矩阵中取到的固定大小的词序列矩阵,b为偏置矩阵;
(5-3)池化层:卷积神经网络中的第二层使用Piece-wise max pooling,句子经过卷积层之后,进入池化层,池化层能够组合所有卷积层得到的局部特征,以获得固定大小的向量,计算公式为:
[r]ij=max(pij) (5)
其中,pij表示的是第i个卷积核的第j段的向量,其中j的取值范围为1,2,3,在此段中得到其中最大的一个值;将所有卷积核都做完分段池化之后,将结果进行一个非线形的变换最终得到一个句子的特征提取之后的向量表示;非线性变换采用ReLU函数,公式为:
(5-4)输出层:池化层的输出结果就是句子的特征向量,用ri表示。
所述步骤6中将句子特征向量输入到分类器中,对句子的实体关系进行分类,并将分类结果与训练集标签对比,计算损失函数,其过程如下:
(6-1)先对特征向量ri进行调整,得到该向量与每一种关系的关联程度,计算公式为:
Oi=riR+b (7)
其中,R是所有既定关系矩阵的向量表示,b是偏置向量,Oi={o1,o2,…,oj};
(6-2)使用SoftMax更新步骤(6-1)的输出Oi,计算公式为:
其中,Oi是训练集中每一个句子的最终输出,其每一维变成0到1之间的值,表示该句子属于对应类别的概率,nr为Oi的维度,也即是类别数量;
(6-3)使用损失函数计算预测结果与标签的差值,计算公式为:
其中,k是训练集的句子总数,θ表示本模型所有需要更新的超参数。
所述步骤7中若本轮测试的准确率较上轮提高大于0.1%或者达到迭代上限,则该实体关系自动分类方法训练完毕;否则,根据分类结果和损失函数更新步骤5中的超参数,继续迭代训练;其过程如下:
(7-1)以标签作为训练集实体关系分类的标准,计算本轮训练结果中,其关系预测正确的句子占训练集所有句子的比例作为准确率;
(7-2)训练次数上限设置为η,当训练次数到达上限η或者本轮训练准确率较上一轮提高小于0.1%时,该实体关系自动分类方法训练结束;否则,更新步骤5分段卷积神经网络PCNN中所有超参数θ,并在PCNN中输入训练集继续训练,其超参数更新公式为:
与现有技术相比,本发明具有如下突出的实质性特点的显著的优点:
本发明所述方法与其他在PCNN和添加实体描述信息等方法相比,通过WordNet获取实体语义信息,并通过IDF获取句子的内部结构信息当作该句子的背景信息,能更加准确地表达实体和关系的语义特征,缓解训练集数据噪声过大的问题。
附图说明
图1为基于WordNet和IDF的非结构化文本实体关系分类方法流程图。
图2为使用WordNet和IDF提取句子中词语信息进行拼接。
图3为使用PCNN提取一个句子特征信息的过程。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明提出了一种基于WordNet和IDF的非结构化文本的实体关系分类方法,使用外部信息和内部信息向量对实体及句子进行语义扩展,然后利用分段卷积神经网络提取定长的语义特征向量,用于训练分类器,最后可以对非结构化文本的实体关系进行分类。本发明的基本特征主要有以下几个方面:一是将句子向量化之后,在向量中添加实体的外部信息,以及内部信息和句子结构信息;二是使用卷积神经网络来提取句子的特征信息;三是使用分段池化对卷积后的向量进行采样。
请参阅图1的关系分类方法流程图,该过程的具体实施步骤如下:
步骤1、获取非结构化的文本训练集,对数据集中的每个句子进行预处理之后,利用Word2Vec得到句子的矩阵表示;
(1-1)预处理过程:下载Google公布的《纽约时报》标注数据集作为训练集,下载地址:http://t.cn/RPsjAyl。利用Freebase知识图谱中标注的实体以及实体间对应关系,在语料集中进行回标。过程是:如果训练集中某个句子的两个实体在Freebase中标注过属于某种特定关系,那么就假定这个句子的实体关系就是这种特定关系,这样就将训练集中的所有句子打上了关系标注,完成了训练集的创建。训练集一共包括522611个句子,281270个实体对和18252个关系实例。
(1-2)生成句子矩阵:上一步中数据集表示为D,D={d1,d2,…,di,…,dg},其中di为数据集中的每一个句子,g=522611。其中di={t1,t2,…,e1,…,e2,…,tf},ti表示句子中的每个单词,e1和e2是句子的两个实体,f代表句子中单词的数量。对数据集中的每个句子,利用Word2Vec工具找出其每个单词的向量表示并将其组成映射矩阵,即:xi={w1,w2,…,wi,…,wh},h的取值118,若原句子总词数f大于118,丢弃超出的单词;若f小于118,空缺的单词向量则用零向量填充。其中wi是句子中每个单词的向量表示,wi={v1,v2,…v50},每个词向量的维度为50。最后句子矩阵维度:
步骤2:利用WordNet扩展句子外部语义信息,更新句子的矩阵表示。具体过程如下:
(2-1)对数据集中所有句子进行外部语义分析:将句子di中的实体e1和e2输入到WordNet字典中,分别获取其上位词集合,并利用Word2Vec进行向量化表示,得到 m为e1的上位词个数,和n为e2的上位词个数。计算每个上位词集合的平均向量来代表其实体的外部信息,具体计算公式为:
步骤3:利用IDF扩展句子内部语义信息,更新句子的矩阵表示。具体过程如下:
(3-1)计算IDF:将数据集D中的每个句子di看成一篇文章,整个数据集看成一个文本库,计算出句子中每个单词的IDF,公式为:
然后将句子di中计算出的k个IDF使用SoftMax进行归一化操作,公式为:
步骤4:计算句子中每个单词的位置信息,并将其加入到该词的词向量中,更新句子的矩阵表示。具体过程如下:
步骤5:将步骤4得到的句子矩阵输入到PCNN中,得到句子的特征向量,见图3所示:
(5-1)输入层:将上一步得到的句子矩阵进行分段标记,以两个实体e1和e2为界限分为3段,e1前面部分的单词全部标记为1;e1和e2之间的单词全部标记为2;e2之后的单词标记为3。用零向量填充的单词标记为0。
(5-2)卷积层:卷积神经网络第二层将第一层的输出当作输入进行二维卷积运算,提取局部卷积特征,由多个卷积核同时进行特征提取,最终获得多个向量。具体做法是用一个跨度为l的滑动窗口在句子矩阵上每次取一段单词序列q,然后与卷积矩阵W做运算,计算公式为:
pi=[Wq+b]i (4)
其中,q为滑动窗口从句子矩阵中取到的固定大小的词序列矩阵,b为偏置矩阵。
(5-3)池化层:卷积神经网络中的第二层使用Piece-wise max pooling,句子经过卷积层之后,进入池化层,池化层能够组合所有卷积层得到的局部特征,以获得固定大小的向量。
计算公式为:
[r]ij=max(pij) (5)
其中,pij表示的是第i个卷积核的第j(j的取值范围为1,2,3)段的向量,在此段中得到其中最大的一个值。将所有卷积核都做完分段池化之后,将结果进行一个非线形的变换最终得到一个句子的特征提取之后的向量表示。非线性变换采用ReLU函数,公式为:
(5-4)输出层:池化层的输出结果就是句子的特征向量,用ri表示。
步骤6:将上一步得到的句子特征向量输入到分类器中,对句子的实体关系进行分类,并将分类结果与训练集标签对比,计算损失函数。具体过程如下:
(6-1)先对特征向量ri进行一些调整,得到该向量与每一种关系的关联程度,计算公式为:
Oi=riR+b (7)
其中,R是所有既定关系矩阵的向量表示,b是偏置向量,Oi={o1,o2,…,oj,o53}。
(6-2)使用SoftMax将单个句子的输出Oi的每一维映射为0到1之间的值,每一维的值就表示该句子属于该关系的概率。计算公式为:
其中,Oi是训练集中每一个句子的最终输出,nr为标签总数,值为53。
(6-3)使用损失函数计算预测结果与标签的差值,计算公式为:
其中,k是训练集的句子总数,θ表示本模型所有需要更新的超参数。
步骤7、若本轮测试的准确率较上轮提高大于0.1%或者达到训练次数上限,则该实体关系自动分类方法训练完毕;否则,根据分类结果和损失函数更新步骤5中的超参数,继续迭代训练。其过程如下:
(7-1)以标签作为训练集实体关系分类的标准,计算本轮训练结果中其关系预测正确的句子占训练集所有句子的比例作为准确率。
(7-2)训练次数上限设置为η,当训练次数到达上限η或者本轮训练准确率较上一轮提高小于0.1%时,该实体关系自动分类方法训练结束。否则,更新步骤5分段卷积神经网络PCNN中超参数θ并在PCNN中输入训练集继续训练,其超参数更新公式为:
实验说明及结果:训练集为步骤(1-1)所述的《纽约时报》标注数据集。测试集同样是Google公布的《纽约时报》标注数据集,测试集包括172448个句子,96678个实体对和1950个关系。表1显示不同的训练方法在测试集上的对比结果。
表1测试结果
P@N(%) | 100 | 200 | 300 | 平均 |
CNN | 71.3 | 70.1 | 64.5 | 68.6 |
PCNN | 79.2 | 72.1 | 69.1 | 73.5 |
Random+PCNN | 77.2 | 74.1 | 70.8 | 74.0 |
WordNet+PCNN | 81.2 | 77.1 | 74.4 | 77.6 |
IDF+WordNet+PCNN | 80.8 | 78.2 | 76.5 | 78.1 |
其中,指标P@N表示前N条数据的准确率;CNN表示使用卷积神经网络作为训练模型;PCNN表示使用分段卷积神经网络作为训练模型;Random+PCNN中Random表示的是加入随机的句子外部信息然后使用PCNN进行训练的方法;WordNet+PCNN中WordNet表示从WordNet中获取的句子的外部信息然后使用PCNN进行训练的方法;IDF+WordNet+PCNN是本发明使用的方法,通过WordNet和IDF分别获取句子外部和内部信息,而后使用PCNN进行训练的实体分类方法。可以看出,本发明方法在P@200和P@300下准确率最高,并且平均准确率达到78.1%,比其他方法分别高出9.5个百分点、4.6个百分点、4.1个百分点以及0.5个百分点。
Claims (8)
1.一种基于WordNet和IDF的非结构化文本的实体关系分类方法,其特征在于,包括以下步骤:
步骤1、获取非结构化的文本训练集,对数据集中的每个句子进行预处理之后,利用Word2Vec得到句子的矩阵表示;
步骤2、利用WordNet扩展句子外部语义信息,更新句子的矩阵表示;
步骤3、利用IDF扩展句子内部语义信息,更新句子的矩阵表示;
步骤4、计算句子中每个单词的位置信息,并将其加入到该词的词向量中,更新句子的矩阵表示;
步骤5、将步骤4得到的句子矩阵输入到分段卷积神经网络PCNN中,得到句子的特征向量;
步骤6、将步骤5的句子特征向量输入到分类器中,对句子的实体关系进行分类,并将分类结果与训练集标签对比,计算损失函数;
步骤7、若本轮测试的准确率较上轮提高大于0.1%或者达到训练次数上限,则该实体关系自动分类方法训练完毕;否则,根据分类结果和损失函数更新步骤5中的超参数,继续迭代训练。
2.根据权利要求1所述的基于WordNet和IDF的非结构化文本的实体关系分类方法,其特征在于,所述步骤1中的对数据集进行预处理,并得到句子的矩阵表示,其过程如下:
(1-1)预处理:获取数据集后,利用Freebase标准知识库标注出数据集中每个句子的两个实体间的关系;标注完成后数据集表示为D={d1,d2,…,di,…,dg},其中di为数据集中的每一个句子,di={t1,t2,…,e1,…,e2,…,tf},ti表示句子中的每个单词,e1和e2是句子的两个实体,f代表句子中单词的数量;
(1-2)生成句子矩阵:对数据集中D的每个句子di,利用Word2Vec找出其每个单词的向量表示并将其组成映射矩阵:xi={w1,w2,…,wi,…,wh},其中wi={v1,v2,…v50}是句子中每个单词的向量表示,每个词向量的维度为50。
3.根据权利要求1所述的基于WordNet和IDF的非结构化文本的实体关系分类方法,其特征在于,所述步骤2中利用WordNet扩展句子外部语义信息,更新句子的矩阵表示,其过程如下:
(2-1)对数据集中所有句子进行外部语义分析:将句子di中的实体e1和e2输入到WordNet字典中,分别获取其上位词集合,并利用Word2Vec进行向量化表示,得到 和其中m为e1的上位词个数,n为e2的上位词个数;计算每个上位词集合的平均向量wout来代表其实体的外部信息,具体计算公式为:
(2-2)更新句子矩阵:将e1和e2计算出的两个平均向量wout1和wout2拼接到句子xi中,更新后的句子矩阵:xi={w1,w2,…,wj,wout1,wout2}。
4.根据权利要求1所述的基于WordNet和IDF的非结构化文本的实体关系分类方法,其特征在于,所述步骤3中利用IDF扩展句子内部语义信息,更新句子的矩阵表示,其过程如下:
(3-1)计算IDF:将数据集D中的每个句子di看成一篇文章,整个数据集看成一个文本库,计算出句子中每个单词的IDF,公式为:
将句子di中计算出的k个IDF使用SoftMax进行归一化操作,公式为:
6.根据权利要求1所述的基于WordNet和IDF的非结构化文本的实体关系分类方法,其特征在于,所述步骤5中将句子矩阵输入到分段卷积神经网络中,得到句子的特征向量,其过程如下:
(5-1)输入层:将步骤(4-2)得到的句子矩阵进行分段标记,以两个实体e1和e2为界限分为3段,e1前面部分的单词全部标记为1;e1和e2之间的单词全部标记为2;e2之后的单词标记为3;
(5-2)卷积层:卷积神经网络第二层将步骤(5-1)的输出当作输入进行二维卷积运算,提取局部卷积特征,由多个卷积核同时进行特征提取,最终获得多个向量;具体做法是用一个跨度为l的滑动窗口在句子矩阵上每次取一段单词序列q,然后与卷积矩阵W做运算,计算公式为:
pi=[Wq+b]i (4)
其中,q为滑动窗口从句子矩阵中取到的固定大小的词序列矩阵,b为偏置矩阵;
(5-3)池化层:卷积神经网络中的第二层使用Piece-wise max pooling,句子经过卷积层之后,进入池化层,池化层能够组合所有卷积层得到的局部特征,以获得固定大小的向量,计算公式为:
[r]ij=max(pij) (5)
其中,pij表示的是第i个卷积核的第j段的向量,其中j的取值范围为1,2,3,在此段中得到其中最大的一个值;将所有卷积核都做完分段池化之后,将结果进行一个非线形的变换最终得到一个句子的特征提取之后的向量表示;非线性变换采用ReLU函数,公式为:
(5-4)输出层:池化层的输出结果就是句子的特征向量,用ri表示。
7.根据权利要求1所述的基于WordNet和IDF的非结构化文本的实体关系分类方法,其特征在于,所述步骤6中将句子特征向量输入到分类器中,对句子的实体关系进行分类,并将分类结果与训练集标签对比,计算损失函数,其过程如下:
(6-1)先对特征向量ri进行调整,得到该向量与每一种关系的关联程度,计算公式为:
Oi=riR+b (7)
其中,R是所有既定关系矩阵的向量表示,b是偏置向量,Oi={o1,o2,…,oj};
(6-2)使用SoftMax更新步骤(6-1)的输出Oi,计算公式为:
其中,Oi是训练集中每一个句子的最终输出,其每一维变成0到1之间的值,表示该句子属于对应类别的概率,nr为Oi的维度,也即是类别数量;
(6-3)使用损失函数计算预测结果与标签的差值,计算公式为:
其中,k是训练集的句子总数,θ表示本模型所有需要更新的超参数。
8.根据权利要求1所述的基于WordNet和IDF的非结构化文本的实体关系分类方法,其特征在于,所述步骤7中若本轮测试的准确率较上轮提高大于0.1%或者达到迭代上限,则该实体关系自动分类方法训练完毕;否则,根据分类结果和损失函数更新步骤5中的超参数,继续迭代训练;其过程如下:
(7-1)以标签作为训练集实体关系分类的标准,计算本轮训练结果中,其关系预测正确的句子占训练集所有句子的比例作为准确率;
(7-2)训练次数上限设置为η,当训练次数到达上限η或者本轮训练准确率较上一轮提高小于0.1%时,该实体关系自动分类方法训练结束;否则,更新步骤5分段卷积神经网络PCNN中所有超参数θ,并在PCNN中输入训练集继续训练,其超参数更新公式为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911345611.9A CN111191031A (zh) | 2019-12-24 | 2019-12-24 | 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911345611.9A CN111191031A (zh) | 2019-12-24 | 2019-12-24 | 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111191031A true CN111191031A (zh) | 2020-05-22 |
Family
ID=70709351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911345611.9A Pending CN111191031A (zh) | 2019-12-24 | 2019-12-24 | 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191031A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111651575A (zh) * | 2020-05-29 | 2020-09-11 | 泰康保险集团股份有限公司 | 会话文本处理方法、装置、介质及电子设备 |
CN112084790A (zh) * | 2020-09-24 | 2020-12-15 | 中国民航大学 | 一种基于预训练卷积神经网络的关系抽取方法及系统 |
CN112417872A (zh) * | 2020-10-20 | 2021-02-26 | 上海大学 | 一种基于相关系数熵的单示例单标签远程监督实体关系标注方法 |
CN113254636A (zh) * | 2021-04-27 | 2021-08-13 | 上海大学 | 一种基于示例权重离散度的远程监督实体关系分类方法 |
CN113591483A (zh) * | 2021-04-27 | 2021-11-02 | 重庆邮电大学 | 一种基于序列标注的文档级事件论元抽取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595708A (zh) * | 2018-05-10 | 2018-09-28 | 北京航空航天大学 | 一种基于知识图谱的异常信息文本分类方法 |
CN109597995A (zh) * | 2018-12-04 | 2019-04-09 | 国网江西省电力有限公司信息通信分公司 | 一种基于bm25加权结合词向量的文本表示方法 |
CN109886020A (zh) * | 2019-01-24 | 2019-06-14 | 燕山大学 | 基于深度神经网络的软件漏洞自动分类方法 |
CN109947864A (zh) * | 2018-06-27 | 2019-06-28 | 淮阴工学院 | 一种基于tf-idf和cnn启发式短文本特征提取与分类方法 |
-
2019
- 2019-12-24 CN CN201911345611.9A patent/CN111191031A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595708A (zh) * | 2018-05-10 | 2018-09-28 | 北京航空航天大学 | 一种基于知识图谱的异常信息文本分类方法 |
CN109947864A (zh) * | 2018-06-27 | 2019-06-28 | 淮阴工学院 | 一种基于tf-idf和cnn启发式短文本特征提取与分类方法 |
CN109597995A (zh) * | 2018-12-04 | 2019-04-09 | 国网江西省电力有限公司信息通信分公司 | 一种基于bm25加权结合词向量的文本表示方法 |
CN109886020A (zh) * | 2019-01-24 | 2019-06-14 | 燕山大学 | 基于深度神经网络的软件漏洞自动分类方法 |
Non-Patent Citations (1)
Title |
---|
王林玉 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111651575A (zh) * | 2020-05-29 | 2020-09-11 | 泰康保险集团股份有限公司 | 会话文本处理方法、装置、介质及电子设备 |
CN111651575B (zh) * | 2020-05-29 | 2023-09-12 | 泰康保险集团股份有限公司 | 会话文本处理方法、装置、介质及电子设备 |
CN112084790A (zh) * | 2020-09-24 | 2020-12-15 | 中国民航大学 | 一种基于预训练卷积神经网络的关系抽取方法及系统 |
CN112084790B (zh) * | 2020-09-24 | 2022-07-05 | 中国民航大学 | 一种基于预训练卷积神经网络的关系抽取方法及系统 |
CN112417872A (zh) * | 2020-10-20 | 2021-02-26 | 上海大学 | 一种基于相关系数熵的单示例单标签远程监督实体关系标注方法 |
CN112417872B (zh) * | 2020-10-20 | 2022-08-05 | 上海大学 | 一种基于相关系数熵的单示例单标签远程监督实体关系标注方法 |
CN113254636A (zh) * | 2021-04-27 | 2021-08-13 | 上海大学 | 一种基于示例权重离散度的远程监督实体关系分类方法 |
CN113591483A (zh) * | 2021-04-27 | 2021-11-02 | 重庆邮电大学 | 一种基于序列标注的文档级事件论元抽取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN112084790B (zh) | 一种基于预训练卷积神经网络的关系抽取方法及系统 | |
CN111914558B (zh) | 基于句袋注意力远程监督的课程知识关系抽取方法及系统 | |
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN111160037B (zh) | 一种支持跨语言迁移的细粒度情感分析方法 | |
CN109783818B (zh) | 一种企业行业分类方法 | |
CN111191031A (zh) | 一种基于WordNet和IDF的非结构化文本的实体关系分类方法 | |
Alwehaibi et al. | Comparison of pre-trained word vectors for arabic text classification using deep learning approach | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN111737496A (zh) | 一种电力设备故障知识图谱构建方法 | |
US20150331936A1 (en) | Method and system for extracting a product and classifying text-based electronic documents | |
Zhang et al. | Sentiment Classification Based on Piecewise Pooling Convolutional Neural Network. | |
CN110263325B (zh) | 中文分词系统 | |
CN109344399B (zh) | 一种基于堆叠双向lstm神经网络的文本相似度计算方法 | |
CN111611807B (zh) | 一种基于神经网络的关键词提取方法、装置及电子设备 | |
CN110297888B (zh) | 一种基于前缀树与循环神经网络的领域分类方法 | |
CN114896388A (zh) | 一种基于混合注意力的层级多标签文本分类方法 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN101714135A (zh) | 一种跨领域文本情感倾向性分析方法 | |
CN110889282A (zh) | 一种基于深度学习的文本情感分析方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
CN113672718A (zh) | 基于特征匹配和领域自适应的对话意图识别方法及系统 | |
CN114564563A (zh) | 一种基于关系分解的端到端实体关系联合抽取方法及系统 | |
CN114936277A (zh) | 相似问题匹配方法和户相似问题匹配系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |