CN110489551B - 一种基于写作习惯的作者识别方法 - Google Patents

一种基于写作习惯的作者识别方法 Download PDF

Info

Publication number
CN110489551B
CN110489551B CN201910640120.0A CN201910640120A CN110489551B CN 110489551 B CN110489551 B CN 110489551B CN 201910640120 A CN201910640120 A CN 201910640120A CN 110489551 B CN110489551 B CN 110489551B
Authority
CN
China
Prior art keywords
loss
feature extraction
result
similarity calculation
pooling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910640120.0A
Other languages
English (en)
Other versions
CN110489551A (zh
Inventor
刘刚
王凯
李涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201910640120.0A priority Critical patent/CN110489551B/zh
Publication of CN110489551A publication Critical patent/CN110489551A/zh
Application granted granted Critical
Publication of CN110489551B publication Critical patent/CN110489551B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及信息技术领域,具体涉及的是一种基于写作习惯的作者识别方法,目的是为了提供一种基于写作习惯的作者识别方法,分为三个阶段:首先,语料预处理,然后通过Bi‑GRU进行双向特征提取,在特征提取的过程中加入分段池化和平均池化相结合的池化层,再通过MLP隐层进行全连接和高阶特征抽取;然后,在相似度计算过程中提出联合损失,通过相似度计算和预测损失结果联合计算损失值,得出结果;最后将作者识别框架与传统的svm和朴素贝叶斯进行对比。本发明与传统方法相比具有高效计算能力,适合解决含大规模数据和参数的优化问题,解决的全联接结果参数过多,特征集过大的问题,使神经网络朝着风格的方向收敛,具有科学性和有效性。

Description

一种基于写作习惯的作者识别方法
技术领域
本发明涉及信息技术领域,具体涉及的是一种基于写作习惯的作者识别方法。
背景技术
作者识别是对匿名的作品进行作者的判定,该技术不仅仅能运用在原创性检测,还可以运用到匿名反动言论、匿名微薄、文学作品作者识别等方向。早些年作者识别的主要语料就是文学的作品,研究的语言也是各种各样的,包含中文、英语、法语、俄语等。研究的成果也是非常的显著。这些年随着大数据的出现,网络的进步,人工智能的发展,对作者的识别慢慢的更加多维化,相应的方法适用的范围也更加普遍。
早期的研究主要就是定量的研究,研究的方法比较单一,只能针对同一文章的作者进行设别。传统的文本作者识别在海量文本数据处理过程中存在效率与成本的问题,近几年随着神经网络的发展,各种各样的神经网络都被引入到作者识别中来。在作者识别领域,至今为止比较流行的领域就是作者鉴定技术。支持向量机的引用,通过分类器将文档归属到所属的作者并取得了不错的成绩。这个方法可以有效的对长文档进行作者识别和文档的分类,但是对于短文档的效果较差。
发明内容
本发明的目的是为了提供一种比传统方法更具有优势的基于写作习惯的作者识别技术。
为实现本发明的目的,采用的技术方案是:
一种基于写作习惯的作者识别方法,可以分为三个阶段:
第一阶段:语料预处理,然后通过Bi-GRU进行双向特征提取,在特征提取的过程中加入分段池化和平均池化相结合的池化层,在通过MLP隐层进行全连接和高阶特征抽取;
第二阶段:决策网络分为相似度计算和联合损失函数,在相似度计算过程中提出联合损失,通过相似度计算和预测损失结果联合计算损失值;
第三阶段:将作者识别框架与传统的svm和朴素贝叶斯进行对比。
所述语料预处理为对文本进行分词处理,通过中文维基GloVe词向量作为预处理词向量输入。
所述Bi-GRU算法使用双向神经网络,利用更新门和重置门的特征判断提取特征的去留,并在Bi-GRU算法中对虚词加入attention机制。
所述MLP隐层分为全连接和softmax分类。
所述高阶特征提取是利用词语级别的词向量,以训练好的词向量空间模型作为文档的输入。
所述联合损失是根据相似度计算的结果进行损失计算,相似损失公式为:
sim-loss=max(sim-loss)2
其中,sim代表相似度计算的结果。
所述预测损失是根据预测时的准确定乘以相似度结果得到的,最后得出:
Figure BDA0002131567130000021
其中,sim-loss和pre-loss都是为维度的损失向量最后求和,去平均值后的损失值。
与现有技术相比,本发明的有益效果为;
本发明与传统方法相比具有高效计算能力,适合解决含大规模数据和参数的优化问题,解决的全联接结果参数过多,特征集过大的问题,使神经网络朝着风格的方向收敛,具有科学性和有效性。
附图说明
图1为作者识别框架ARTW。
图2为ARTW数据流。
图3为高阶特征提取结构图。
图4为Bi-GRU神经网络。
图5为MLP结构图。
具体实施方式
本发明涉及信息技术领域,具体涉及的是一种基于写作习惯的作者识别方法,目的是为了提供一种比传统方法更具有优势的基于写作习惯的作者识别技术。
为实现本发明的目的,采用的技术方案是:
一种基于写作习惯的作者识别方法,可以分为三个阶段:
第一阶段:语料预处理,然后通过Bi-GRU进行双向特征提取,在特征提取的过程中有加入分段池化和平均池化相结合的池化层,在通过MLP隐层进行全连接和高阶特征抽取;
第二阶段:决策网络分为相似度计算和联合损失函数,在相似度计算过程中提出了联合损失,通过相似度计算和预测损失结果联合计算损失值,得出结果;
第三阶段:将作者识别框架与传统的svm和朴素贝叶斯进行对比。
所述语料预处理为对文本进行分词处理,通过中文维基GloVe词向量作为预处理词向量输入。
所述Bi-GRU算法使用双向神经网络,利用更新门和重置门的特征判断提取特征的去留,并在Bi-GRU算法中对虚词加入attention机制。
所述MLP隐层分为全连接和softmax分类。
所述高阶特征提取是利用词语级别的词向量,以训练好的词向量空间模型作为文档的输入。
所述联合损失是根据相似度计算的结果进行损失计算,相似损失公式为:
sim-loss=max(sim-loss)2
其中,sim代表相似度计算的结果。
所述预测损失是根据预测时的准确定乘以相似度结果得到的,最后得出:
Figure BDA0002131567130000031
其中,sim-loss和pre-loss都是为维度的损失向量最后求和,去平均值后的损失值。
与现有技术相比,本发明的有益效果为;
本发明与传统方法相比具有高效计算能力,适合解决含大规模数据和参数的优化问题,解决的全联接结果参数过多,特征集过大的问题,使神经网络朝着风格的方向收敛,具有科学性和有效性。
进一步描述如下,一种基于写作习惯的作者识别方法:
1.语料的预处理
首先对文本进行分词处理,分词结果采用的是jieba分词,记录下分词结果和词性,通过中文维基GloVe词向量作为预处理词向量输入。GloVe词向量结果的最后一维度加上词性标记编码,0位置代表词性为动词,名词,形容词等不能代表作者写作风格的词,设置其他编码代表词性为感叹词,代词,语气词等词性的词。采用批量输入并且利用利用GPU(图像处理器)的并行计算的优势,加速模型的训练速度。由于批量处理具有固定长度作为输入,因此输入超过设定的固定长度,则会截断输入。如果输入未达到固定长度,则会在末尾增加几个“magic words”。“magic words”是一个特殊符号,因为GloVe词向量是一个50维度的向量,所以每一次补位多是0,不会有一个词向量全是0,为了消除“magic words”对结果的影响,在输出处掩盖这些词,使得错误的反向传播忽略这些“magic words”并且仅从网络中提取“true words”。最后借用维基百科训练的词向量结果作为GRU神经网络输入的词向量。该结果被保存下来,对文本进行与处理后去文件中匹配相应的词向量结果,作为神经网络的输入。
2.高阶特征提取
使用了Bi-GRU算法,该算法使用了双向神经网络,使用双向GRU通过两个方向提取文本特征,利用更新门和重置门的特征判断提取特征的去留。在Bi-GRU算法中对虚词加入了attention机制,使神经网络朝着风格的方向收敛,尽量减小主题的影响。使用当前流行的adam优化算法,加快算法的收敛。
在Bi-GRU循环神经网络,层内循环时,首先初始化初始时刻为0,在t时刻网络的输入时基于t-1时刻的输出,在不同的时刻GRU神经网络会输出隐藏层的输出值,得到结果作为句子的特征向量,输入到下一个网络中。可以通过这样的方式实现循环网络的学习,可以得到句子词语之间的前后信息。层间传递时,首先初始化初始时刻为0,上一层每一时刻,在层与层之间会发生dropout,dropout是控制正常工作时的节点个数,同时删除无用节点,dropout不会发生在层与层内,同时在在反向传播的过程中,输入为上一次提取的输出的反向,输入到反向层进行反向特征提取,表示神经网络输入,表示输出,具体公式为:
Zt=σ(ω(z)χt+U(z)ht-1+b(z))
rt=σ(ω(r)χt+U(r)ht-1+b(r))
ht=(1-Zt)ht+Ztht-1
在算法收敛和参数优化使用的是adam优化算法代替随即梯度下降算法,adam算法更好的减少算法优化的参数,令模型收敛更加迅速。adam的高效计算能力,适合解决含大规模数据和参数的优化问题。
3.分段池化
在隐藏层和MLP隐层中间加入池化的作用是使结果特征在不受影响的情况下使特征减少,从而减少训练中的参数数量,在下一步的MLP隐层中可以缩小全联接的参数和规模。本课题处理数据量较大,所有采用分布式的思想,使用分段池化结合平均池化。平均池化是对领域内的特征点求平均值。解决的全联接结果参数过多,特征集过大的问题。
在分段池化过程中,对上一层的特征提取的结果作为输入,通过两个实体分为三个部分,再通过平均池化。最后再把平均池化结果拼接起来。
4.MLP隐层
设计的MLP层有可以分为全连接和softmax分类。全连接的主要目的是提升模型的拟合能力,并且进一步的抽取更有价值的特征。MLP隐层的每一个节点都与上一层的节点相连接,用来把之前隐藏层提取的特征整合起来,并且提取更有价值的特征,由于全连接的特征,一般全连接的参数也很多。在向前计算的过程中,是一个线性加权求和的过程,使用tanh函数在每一次输出的过程中都对前一层每一个节点乘以一个权重加上相应的偏向。
softmax分类分过程首先将GRU隐含层的输出信息经过全连接得出结果,经过非线性变化得到隐含层的结果,根据词性标注信息随机初始化注意力机制矩阵进行乘法运算并且进行对其归一化,使用softmax函数,最后得到参数权重,最终通过得到该词语注意力权重向量。
在作者识别层也可以说是softmax层之前添加一个非线性层,将所有向量降维映射到一个长度为C的向量中。最后进行作者识别技术。
5.联合损失函数
联合损失是根据相似度计算的结果进行损失计算,在孪生神经网络中肯定要考虑数据对的情况,本次损失函数先对训练文档求一个normal的相似度结果,以nor相似度结果作为临界值,sim代表相似度计算的结果,相似损失公式为:
sim-loss=max(sim-loss)2
预测损失是根据预测时的准确定乘以相似度结果得到的,其中True代表实际值,1表示相同作者,0表示不同作者。Pre表示预测值,其中1表示相同作者,0表示不同作者。最后得出
Figure BDA0002131567130000051
其中sim-loss和pre-loss都是为维度的损失向量最后求和,去平均着作为最后的损失值。使用对比损失函数主要是判断降维技术对结果的影响,空间中有两个相似的点,降维之后有仍然比较近,但是空间中两个不相似的点,降维之后有可能改变其相似关系,通过对比损失评判模型有效性的一个方法。通过降维处理之后后,相似度文本仍然具有相似性,不相似的文本也同样不具有相似性。
对比损失函数可以很好的表达样本的匹配程度,也能够很好用于训练提取特征的模型。当true=pre时,表示样本相似,损失函数剩下sim-loss,即原本相似的样本公式,如果在特征空间的相似度较大,则说明当前的模型不好,因此加大损失,相反欧式距离较少,则说明模型优异,因此减小损失。而当true!=pre时,表示样本不相似.
6.相似度结果输出
相似度计算是将MLP隐层的结果通过激活函数计算,就可以得到两个比较稳当的特征提取结果,一般特征提取结果为128维度的向量,向量经过激活函数处理会在(0,1)之间。衡量特征相似度的指标会使用欧式距离、汉明距离、余弦相似度等。
在相似度算法的选择上也有相应的考虑,在空间词向量模型中,存在大量空间距离相等的情况,所以使用欧式距离不能显示向量的差异度。使用汉明距离是通过变换次数得到相似度情况,对于高阶特征提取的结果进行相似度计算。
得到余弦相似度的结果集合和Bi-GRU预测的结果进行作者识别,这里会分别得到Bi-GRU预测的结果是否是同一作者和相应的相似度结果。会得的风格裂缝分段的每一个部分和每一个署名作者的相似度结果,最后取相似度最高的并且预测结果为“是”的映射关系作为最终的结果。
综上所述,本发明涉及信息技术领域,具体涉及的是一种基于写作习惯的作者识别方法,目的是为了提供一种基于写作习惯的作者识别方法,分为三个阶段:首先,语料预处理,然后通过Bi-GRU进行双向特征提取,在特征提取的过程中有加入分段池化和平均池化相结合的池化层,再通过MLP隐层进行全连接和高阶特征抽取;然后,在相似度计算过程中提出了联合损失,通过相似度计算和预测损失结果联合计算损失值,得出结果;最后将作者识别框架与传统的svm和朴素贝叶斯进行对比。本发明与传统方法相比具有高效计算能力,适合解决含大规模数据和参数的优化问题,解决的全联接结果参数过多,特征集过大的问题,使神经网络朝着风格的方向收敛,具有科学性和有效性。

Claims (4)

1.一种基于写作习惯的作者识别方法,其特征在于,可以分为三个阶段:
(1)语料预处理,然后通过Bi-GRU进行双向特征提取,在特征提取的过程中加入分段池化和平均池化相结合的池化层,再通过MLP隐层进行全连接和高阶特征抽取;所述语料预处理为对文本进行分词处理,通过中文维基GloVe词向量作为预处理词向量输入;
(2)决策网络分为相似度计算和联合损失函数,在相似度计算过程中提出联合损失,通过相似度计算和预测损失结果联合计算损失值;
(3)将作者识别框架与传统的svm和朴素贝叶斯进行对比;
所述联合损失是根据相似度计算的结果进行损失计算,相似损失公式为:
sim-loss=max(sim-loss)2
其中,sim代表相似度计算的结果;
所述预测损失是根据预测时的准确度乘以相似度结果得到的,最后得出:
Figure FDA0004127174980000011
其中,sim-loss和pre-loss都是为维度的损失向量最后求和,去平均值后的损失值。
2.根据权利要求1所述的一种基于写作习惯的作者识别方法,其特征在于:所述Bi-GRU算法使用双向神经网络,利用更新门和重置门的特征判断提取特征的去留,并在Bi-GRU算法中对虚词加入attention机制。
3.根据权利要求1所述的一种基于写作习惯的作者识别方法,其特征在于:所述MLP隐层分为全连接和softmax分类。
4.根据权利要求1所述的一种基于写作习惯的作者识别方法,其特征在于:所述高阶特征提取是利用词语级别的词向量,以训练好的词向量空间模型作为文档的输入。
CN201910640120.0A 2019-07-16 2019-07-16 一种基于写作习惯的作者识别方法 Active CN110489551B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910640120.0A CN110489551B (zh) 2019-07-16 2019-07-16 一种基于写作习惯的作者识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910640120.0A CN110489551B (zh) 2019-07-16 2019-07-16 一种基于写作习惯的作者识别方法

Publications (2)

Publication Number Publication Date
CN110489551A CN110489551A (zh) 2019-11-22
CN110489551B true CN110489551B (zh) 2023-05-30

Family

ID=68547173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910640120.0A Active CN110489551B (zh) 2019-07-16 2019-07-16 一种基于写作习惯的作者识别方法

Country Status (1)

Country Link
CN (1) CN110489551B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368773A (zh) * 2020-03-12 2020-07-03 广东小天才科技有限公司 数学公式识别方法及装置、终端设备和可读存储介质
CN111612157B (zh) * 2020-05-22 2023-06-30 四川无声信息技术有限公司 训练方法、文字识别方法、装置、存储介质及电子设备
CN111930947A (zh) * 2020-08-26 2020-11-13 施建军 一种现代汉语文字作品作者鉴别系统和方法
CN113326347B (zh) * 2021-05-21 2021-10-08 四川省人工智能研究院(宜宾) 一种句法信息感知的作者归属方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572892A (zh) * 2014-12-24 2015-04-29 中国科学院自动化研究所 一种基于循环卷积网络的文本分类方法
CN108108184A (zh) * 2017-03-07 2018-06-01 北京理工大学 一种基于深度信念网络的源代码作者识别方法
WO2019007041A1 (zh) * 2017-07-06 2019-01-10 北京大学深圳研究生院 基于多视图联合嵌入空间的图像-文本双向检索方法
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术
CN109710923A (zh) * 2018-12-06 2019-05-03 浙江大学 基于跨媒体信息的跨语言实体匹配方法
CN109886206A (zh) * 2019-02-21 2019-06-14 电子科技大学中山学院 一种三维物体识别方法及设备
CN109918652A (zh) * 2019-02-20 2019-06-21 上海方立数码科技有限公司 一种语句相似度判断方法及判断系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090182723A1 (en) * 2008-01-10 2009-07-16 Microsoft Corporation Ranking search results using author extraction
US20190213705A1 (en) * 2017-12-08 2019-07-11 Digimarc Corporation Artwork generated to convey digital messages, and methods/apparatuses for generating such artwork

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572892A (zh) * 2014-12-24 2015-04-29 中国科学院自动化研究所 一种基于循环卷积网络的文本分类方法
CN108108184A (zh) * 2017-03-07 2018-06-01 北京理工大学 一种基于深度信念网络的源代码作者识别方法
WO2019007041A1 (zh) * 2017-07-06 2019-01-10 北京大学深圳研究生院 基于多视图联合嵌入空间的图像-文本双向检索方法
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术
CN109710923A (zh) * 2018-12-06 2019-05-03 浙江大学 基于跨媒体信息的跨语言实体匹配方法
CN109918652A (zh) * 2019-02-20 2019-06-21 上海方立数码科技有限公司 一种语句相似度判断方法及判断系统
CN109886206A (zh) * 2019-02-21 2019-06-14 电子科技大学中山学院 一种三维物体识别方法及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Modeling Text with Graph Convolutional Network for Cross-Modal Information Retrieval;Jing Yu等;《PCM 2018: Advances in Multimedia Information Processing》;20180919;第223–234页 *
基于写作风格学的作者识别技术研究;刘明勇;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140115;I138-2313 *
基于深度学习的中文论述类问题智能问答系统的研究与实现;王英涛;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181015;I138-976 *

Also Published As

Publication number Publication date
CN110489551A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN110489551B (zh) 一种基于写作习惯的作者识别方法
CN108009148B (zh) 基于深度学习的文本情感分类表示方法
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
Zhang et al. Neural coreference resolution with deep biaffine attention by joint mention detection and mention clustering
CN107085581B (zh) 短文本分类方法和装置
CN109325229B (zh) 一种利用语义信息计算文本相似度的方法
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN110263325B (zh) 中文分词系统
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
US10521510B2 (en) Computer-readable recording medium, retrieval device, and retrieval method
Suleiman et al. Comparative study of word embeddings models and their usage in Arabic language applications
CN114780690B (zh) 基于多模态矩阵向量表示的专利文本检索方法及装置
CN110765755A (zh) 一种基于双重选择门的语义相似度特征提取方法
CN110134950B (zh) 一种字词结合的文本自动校对方法
CN111666758A (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN111125367A (zh) 一种基于多层次注意力机制的多种人物关系抽取方法
CN111368542A (zh) 一种基于递归神经网络的文本语言关联抽取方法和系统
Kokane et al. Word sense disambiguation: a supervised semantic similarity based complex network approach
CN110569355A (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN115269768A (zh) 要素文本处理方法、装置、电子设备和存储介质
CN113065350A (zh) 一种基于注意力神经网络的生物医学文本词义消岐方法
CN116263786A (zh) 舆情文本情感分析方法、装置、计算机设备及介质
Li et al. Text similarity measurement with semantic analysis
CN109710943B (zh) 矛盾语句识别方法和系统及条款逻辑鉴别方法和系统
You et al. Syllable-based Korean named entity recognition using convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant