CN110489551A - 一种基于写作习惯的作者识别方法 - Google Patents
一种基于写作习惯的作者识别方法 Download PDFInfo
- Publication number
- CN110489551A CN110489551A CN201910640120.0A CN201910640120A CN110489551A CN 110489551 A CN110489551 A CN 110489551A CN 201910640120 A CN201910640120 A CN 201910640120A CN 110489551 A CN110489551 A CN 110489551A
- Authority
- CN
- China
- Prior art keywords
- loss
- method based
- result
- identification method
- writing habit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及信息技术领域,具体涉及的是一种基于写作习惯的作者识别方法,目的是为了提供一种基于写作习惯的作者识别方法,分为三个阶段:首先,语料预处理,然后通过Bi‑GRU进行双向特征提取,在特征提取的过程中加入分段池化和平均池化相结合的池化层,再通过MLP隐层进行全连接和高阶特征抽取;然后,在相似度计算过程中提出联合损失,通过相似度计算和预测损失结果联合计算损失值,得出结果;最后将作者识别框架与传统的svm和朴素贝叶斯进行对比。本发明与传统方法相比具有高效计算能力,适合解决含大规模数据和参数的优化问题,解决的全联接结果参数过多,特征集过大的问题,使神经网络朝着风格的方向收敛,具有科学性和有效性。
Description
技术领域
本发明涉及信息技术领域,具体涉及的是一种基于写作习惯的作者识别方法。
背景技术
作者识别是对匿名的作品进行作者的判定,该技术不仅仅能运用在原创性检测,还可以运用到匿名反动言论、匿名微薄、文学作品作者识别等方向。早些年作者识别的主要语料就是文学的作品,研究的语言也是各种各样的,包含中文、英语、法语、俄语等。研究的成果也是非常的显著。这些年随着大数据的出现,网络的进步,人工智能的发展,对作者的识别慢慢的更加多维化,相应的方法适用的范围也更加普遍。
早期的研究主要就是定量的研究,研究的方法比较单一,只能针对同一文章的作者进行设别。传统的文本作者识别在海量文本数据处理过程中存在效率与成本的问题,近几年随着神经网络的发展,各种各样的神经网络都被引入到作者识别中来。在作者识别领域,至今为止比较流行的领域就是作者鉴定技术。支持向量机的引用,通过分类器将文档归属到所属的作者并取得了不错的成绩。这个方法可以有效的对长文档进行作者识别和文档的分类,但是对于短文档的效果较差。
发明内容
本发明的目的是为了提供一种比传统方法更具有优势的基于写作习惯的作者识别技术。
为实现本发明的目的,采用的技术方案是:
一种基于写作习惯的作者识别方法,可以分为三个阶段:
第一阶段:语料预处理,然后通过Bi-GRU进行双向特征提取,在特征提取的过程中加入分段池化和平均池化相结合的池化层,在通过MLP隐层进行全连接和高阶特征抽取;
第二阶段:决策网络分为相似度计算和联合损失函数,在相似度计算过程中提出联合损失,通过相似度计算和预测损失结果联合计算损失值;
第三阶段:将作者识别框架与传统的svm和朴素贝叶斯进行对比。
所述语料预处理为对文本进行分词处理,通过中文维基GloVe词向量作为预处理词向量输入。
所述Bi-GRU算法使用双向神经网络,利用更新门和重置门的特征判断提取特征的去留,并在Bi-GRU算法中对虚词加入attention机制。
所述MLP隐层分为全连接和softmax分类。
所述高阶特征提取是利用词语级别的词向量,以训练好的词向量空间模型作为文档的输入。
所述联合损失是根据相似度计算的结果进行损失计算,相似损失公式为:
sim-loss=max(sim-loss)2
其中,sim代表相似度计算的结果。
所述预测损失是根据预测时的准确定乘以相似度结果得到的,最后得出:
其中,sim-loss和pre-loss都是为维度的损失向量最后求和,去平均值后的损失值。
与现有技术相比,本发明的有益效果为;
本发明与传统方法相比具有高效计算能力,适合解决含大规模数据和参数的优化问题,解决的全联接结果参数过多,特征集过大的问题,使神经网络朝着风格的方向收敛,具有科学性和有效性。
附图说明
图1为作者识别框架ARTW。
图2为ARTW数据流。
图3为高阶特征提取结构图。
图4为Bi-GRU神经网络。
图5为MLP结构图。
具体实施方式
本发明涉及信息技术领域,具体涉及的是一种基于写作习惯的作者识别方法,目的是为了提供一种比传统方法更具有优势的基于写作习惯的作者识别技术。
为实现本发明的目的,采用的技术方案是:
一种基于写作习惯的作者识别方法,可以分为三个阶段:
第一阶段:语料预处理,然后通过Bi-GRU进行双向特征提取,在特征提取的过程中有加入分段池化和平均池化相结合的池化层,在通过MLP隐层进行全连接和高阶特征抽取;
第二阶段:决策网络分为相似度计算和联合损失函数,在相似度计算过程中提出了联合损失,通过相似度计算和预测损失结果联合计算损失值,得出结果;
第三阶段:将作者识别框架与传统的svm和朴素贝叶斯进行对比。
所述语料预处理为对文本进行分词处理,通过中文维基GloVe词向量作为预处理词向量输入。
所述Bi-GRU算法使用双向神经网络,利用更新门和重置门的特征判断提取特征的去留,并在Bi-GRU算法中对虚词加入attention机制。
所述MLP隐层分为全连接和softmax分类。
所述高阶特征提取是利用词语级别的词向量,以训练好的词向量空间模型作为文档的输入。
所述联合损失是根据相似度计算的结果进行损失计算,相似损失公式为:
sim-loss=max(sim-loss)2
其中,sim代表相似度计算的结果。
所述预测损失是根据预测时的准确定乘以相似度结果得到的,最后得出:
其中,sim-loss和pre-loss都是为维度的损失向量最后求和,去平均值后的损失值。
与现有技术相比,本发明的有益效果为;
本发明与传统方法相比具有高效计算能力,适合解决含大规模数据和参数的优化问题,解决的全联接结果参数过多,特征集过大的问题,使神经网络朝着风格的方向收敛,具有科学性和有效性。
进一步描述如下,一种基于写作习惯的作者识别方法:
1.语料的预处理
首先对文本进行分词处理,分词结果采用的是jieba分词,记录下分词结果和词性,通过中文维基GloVe词向量作为预处理词向量输入。GloVe词向量结果的最后一维度加上词性标记编码,0位置代表词性为动词,名词,形容词等不能代表作者写作风格的词,设置其他编码代表词性为感叹词,代词,语气词等词性的词。采用批量输入并且利用利用GPU(图像处理器)的并行计算的优势,加速模型的训练速度。由于批量处理具有固定长度作为输入,因此输入超过设定的固定长度,则会截断输入。如果输入未达到固定长度,则会在末尾增加几个“magic words”。“magic words”是一个特殊符号,因为GloVe词向量是一个50维度的向量,所以每一次补位多是0,不会有一个词向量全是0,为了消除“magic words”对结果的影响,在输出处掩盖这些词,使得错误的反向传播忽略这些“magic words”并且仅从网络中提取“true words”。最后借用维基百科训练的词向量结果作为GRU神经网络输入的词向量。该结果被保存下来,对文本进行与处理后去文件中匹配相应的词向量结果,作为神经网络的输入。
2.高阶特征提取
使用了Bi-GRU算法,该算法使用了双向神经网络,使用双向GRU通过两个方向提取文本特征,利用更新门和重置门的特征判断提取特征的去留。在Bi-GRU算法中对虚词加入了attention机制,使神经网络朝着风格的方向收敛,尽量减小主题的影响。使用当前流行的adam优化算法,加快算法的收敛。
在Bi-GRU循环神经网络,层内循环时,首先初始化初始时刻为0,在t时刻网络的输入时基于t-1时刻的输出,在不同的时刻GRU神经网络会输出隐藏层的输出值,得到结果作为句子的特征向量,输入到下一个网络中。可以通过这样的方式实现循环网络的学习,可以得到句子词语之间的前后信息。层间传递时,首先初始化初始时刻为0,上一层每一时刻,在层与层之间会发生dropout,dropout是控制正常工作时的节点个数,同时删除无用节点,dropout不会发生在层与层内,同时在在反向传播的过程中,输入为上一次提取的输出的反向,输入到反向层进行反向特征提取,表示神经网络输入,表示输出,具体公式为:
Zt=σ(ω(z)χt+U(z)ht-1+b(z))
rt=σ(ω(r)χt+U(r)ht-1+b(r))
ht=(1-Zt)ht+Ztht-1
在算法收敛和参数优化使用的是adam优化算法代替随即梯度下降算法,adam算法更好的减少算法优化的参数,令模型收敛更加迅速。adam的高效计算能力,适合解决含大规模数据和参数的优化问题。
3.分段池化
在隐藏层和MLP隐层中间加入池化的作用是使结果特征在不受影响的情况下使特征减少,从而减少训练中的参数数量,在下一步的MLP隐层中可以缩小全联接的参数和规模。本课题处理数据量较大,所有采用分布式的思想,使用分段池化结合平均池化。平均池化是对领域内的特征点求平均值。解决的全联接结果参数过多,特征集过大的问题。
在分段池化过程中,对上一层的特征提取的结果作为输入,通过两个实体分为三个部分,再通过平均池化。最后再把平均池化结果拼接起来。
4.MLP隐层
设计的MLP层有可以分为全连接和softmax分类。全连接的主要目的是提升模型的拟合能力,并且进一步的抽取更有价值的特征。MLP隐层的每一个节点都与上一层的节点相连接,用来把之前隐藏层提取的特征整合起来,并且提取更有价值的特征,由于全连接的特征,一般全连接的参数也很多。在向前计算的过程中,是一个线性加权求和的过程,使用tanh函数在每一次输出的过程中都对前一层每一个节点乘以一个权重加上相应的偏向。
softmax分类分过程首先将GRU隐含层的输出信息经过全连接得出结果,经过非线性变化得到隐含层的结果,根据词性标注信息随机初始化注意力机制矩阵进行乘法运算并且进行对其归一化,使用softmax函数,最后得到参数权重,最终通过得到该词语注意力权重向量。
在作者识别层也可以说是softmax层之前添加一个非线性层,将所有向量降维映射到一个长度为C的向量中。最后进行作者识别技术。
5.联合损失函数
联合损失是根据相似度计算的结果进行损失计算,在孪生神经网络中肯定要考虑数据对的情况,本次损失函数先对训练文档求一个normal的相似度结果,以nor相似度结果作为临界值,sim代表相似度计算的结果,相似损失公式为:
sim-loss=max(sim-loss)2
预测损失是根据预测时的准确定乘以相似度结果得到的,其中True代表实际值,1表示相同作者,0表示不同作者。Pre表示预测值,其中1表示相同作者,0表示不同作者。最后得出
其中sim-loss和pre-loss都是为维度的损失向量最后求和,去平均着作为最后的损失值。使用对比损失函数主要是判断降维技术对结果的影响,空间中有两个相似的点,降维之后有仍然比较近,但是空间中两个不相似的点,降维之后有可能改变其相似关系,通过对比损失评判模型有效性的一个方法。通过降维处理之后后,相似度文本仍然具有相似性,不相似的文本也同样不具有相似性。
对比损失函数可以很好的表达样本的匹配程度,也能够很好用于训练提取特征的模型。当true=pre时,表示样本相似,损失函数剩下sim-loss,即原本相似的样本公式,如果在特征空间的相似度较大,则说明当前的模型不好,因此加大损失,相反欧式距离较少,则说明模型优异,因此减小损失。而当true!=pre时,表示样本不相似.
6.相似度结果输出
相似度计算是将MLP隐层的结果通过激活函数计算,就可以得到两个比较稳当的特征提取结果,一般特征提取结果为128维度的向量,向量经过激活函数处理会在(0,1)之间。衡量特征相似度的指标会使用欧式距离、汉明距离、余弦相似度等。
在相似度算法的选择上也有相应的考虑,在空间词向量模型中,存在大量空间距离相等的情况,所以使用欧式距离不能显示向量的差异度。使用汉明距离是通过变换次数得到相似度情况,对于高阶特征提取的结果进行相似度计算。
得到余弦相似度的结果集合和Bi-GRU预测的结果进行作者识别,这里会分别得到Bi-GRU预测的结果是否是同一作者和相应的相似度结果。会得的风格裂缝分段的每一个部分和每一个署名作者的相似度结果,最后取相似度最高的并且预测结果为“是”的映射关系作为最终的结果。
综上所述,本发明涉及信息技术领域,具体涉及的是一种基于写作习惯的作者识别方法,目的是为了提供一种基于写作习惯的作者识别方法,分为三个阶段:首先,语料预处理,然后通过Bi-GRU进行双向特征提取,在特征提取的过程中有加入分段池化和平均池化相结合的池化层,再通过MLP隐层进行全连接和高阶特征抽取;然后,在相似度计算过程中提出了联合损失,通过相似度计算和预测损失结果联合计算损失值,得出结果;最后将作者识别框架与传统的svm和朴素贝叶斯进行对比。本发明与传统方法相比具有高效计算能力,适合解决含大规模数据和参数的优化问题,解决的全联接结果参数过多,特征集过大的问题,使神经网络朝着风格的方向收敛,具有科学性和有效性。
Claims (7)
1.一种基于写作习惯的作者识别方法,其特征在于,可以分为三个阶段:
(1)语料预处理,然后通过Bi-GRU进行双向特征提取,在特征提取的过程中加入分段池化和平均池化相结合的池化层,再通过MLP隐层进行全连接和高阶特征抽取;
(2)决策网络分为相似度计算和联合损失函数,在相似度计算过程中提出联合损失,通过相似度计算和预测损失结果联合计算损失值;
(3)将作者识别框架与传统的svm和朴素贝叶斯进行对比。
2.根据权利要求1所述的一种基于写作习惯的作者识别方法,其特征在于:所述语料预处理为对文本进行分词处理,通过中文维基GloVe词向量作为预处理词向量输入。
3.根据权利要求1所述的一种基于写作习惯的作者识别方法,其特征在于:所述Bi-GRU算法使用双向神经网络,利用更新门和重置门的特征判断提取特征的去留,并在Bi-GRU算法中对虚词加入attention机制。
4.根据权利要求1所述的一种基于写作习惯的作者识别方法,其特征在于:所述MLP隐层分为全连接和softmax分类。
5.根据权利要求1所述的一种基于写作习惯的作者识别方法,其特征在于:所述高阶特征提取是利用词语级别的词向量,以训练好的词向量空间模型作为文档的输入。
6.根据权利要求1所述的一种基于写作习惯的作者识别方法,其特征在于:所述联合损失是根据相似度计算的结果进行损失计算,相似损失公式为:
sim-loss=max(sim-loss)2
其中,sim代表相似度计算的结果。
7.根据权利要求1所述的一种基于写作习惯的作者识别方法,其特征在于:所述预测损失是根据预测时的准确度乘以相似度结果得到的,最后得出:
其中,sim-loss和pre-loss都是为维度的损失向量最后求和,去平均值后的损失值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910640120.0A CN110489551B (zh) | 2019-07-16 | 2019-07-16 | 一种基于写作习惯的作者识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910640120.0A CN110489551B (zh) | 2019-07-16 | 2019-07-16 | 一种基于写作习惯的作者识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110489551A true CN110489551A (zh) | 2019-11-22 |
CN110489551B CN110489551B (zh) | 2023-05-30 |
Family
ID=68547173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910640120.0A Active CN110489551B (zh) | 2019-07-16 | 2019-07-16 | 一种基于写作习惯的作者识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110489551B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368773A (zh) * | 2020-03-12 | 2020-07-03 | 广东小天才科技有限公司 | 数学公式识别方法及装置、终端设备和可读存储介质 |
CN111612157A (zh) * | 2020-05-22 | 2020-09-01 | 四川无声信息技术有限公司 | 训练方法、文字识别方法、装置、存储介质及电子设备 |
CN111930947A (zh) * | 2020-08-26 | 2020-11-13 | 施建军 | 一种现代汉语文字作品作者鉴别系统和方法 |
CN112926321A (zh) * | 2021-04-12 | 2021-06-08 | 常州微亿智造科技有限公司 | 一种基于神经网络框架的文学作品作者识别方法 |
CN113326347A (zh) * | 2021-05-21 | 2021-08-31 | 四川省人工智能研究院(宜宾) | 一种句法信息感知的作者归属方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090182723A1 (en) * | 2008-01-10 | 2009-07-16 | Microsoft Corporation | Ranking search results using author extraction |
CN104572892A (zh) * | 2014-12-24 | 2015-04-29 | 中国科学院自动化研究所 | 一种基于循环卷积网络的文本分类方法 |
CN108108184A (zh) * | 2017-03-07 | 2018-06-01 | 北京理工大学 | 一种基于深度信念网络的源代码作者识别方法 |
WO2019007041A1 (zh) * | 2017-07-06 | 2019-01-10 | 北京大学深圳研究生院 | 基于多视图联合嵌入空间的图像-文本双向检索方法 |
CN109213995A (zh) * | 2018-08-02 | 2019-01-15 | 哈尔滨工程大学 | 一种基于双语词嵌入的跨语言文本相似度评估技术 |
CN109710923A (zh) * | 2018-12-06 | 2019-05-03 | 浙江大学 | 基于跨媒体信息的跨语言实体匹配方法 |
CN109886206A (zh) * | 2019-02-21 | 2019-06-14 | 电子科技大学中山学院 | 一种三维物体识别方法及设备 |
CN109918652A (zh) * | 2019-02-20 | 2019-06-21 | 上海方立数码科技有限公司 | 一种语句相似度判断方法及判断系统 |
US20190213705A1 (en) * | 2017-12-08 | 2019-07-11 | Digimarc Corporation | Artwork generated to convey digital messages, and methods/apparatuses for generating such artwork |
-
2019
- 2019-07-16 CN CN201910640120.0A patent/CN110489551B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090182723A1 (en) * | 2008-01-10 | 2009-07-16 | Microsoft Corporation | Ranking search results using author extraction |
CN104572892A (zh) * | 2014-12-24 | 2015-04-29 | 中国科学院自动化研究所 | 一种基于循环卷积网络的文本分类方法 |
CN108108184A (zh) * | 2017-03-07 | 2018-06-01 | 北京理工大学 | 一种基于深度信念网络的源代码作者识别方法 |
WO2019007041A1 (zh) * | 2017-07-06 | 2019-01-10 | 北京大学深圳研究生院 | 基于多视图联合嵌入空间的图像-文本双向检索方法 |
US20190213705A1 (en) * | 2017-12-08 | 2019-07-11 | Digimarc Corporation | Artwork generated to convey digital messages, and methods/apparatuses for generating such artwork |
CN109213995A (zh) * | 2018-08-02 | 2019-01-15 | 哈尔滨工程大学 | 一种基于双语词嵌入的跨语言文本相似度评估技术 |
CN109710923A (zh) * | 2018-12-06 | 2019-05-03 | 浙江大学 | 基于跨媒体信息的跨语言实体匹配方法 |
CN109918652A (zh) * | 2019-02-20 | 2019-06-21 | 上海方立数码科技有限公司 | 一种语句相似度判断方法及判断系统 |
CN109886206A (zh) * | 2019-02-21 | 2019-06-14 | 电子科技大学中山学院 | 一种三维物体识别方法及设备 |
Non-Patent Citations (3)
Title |
---|
JING YU等: "Modeling Text with Graph Convolutional Network for Cross-Modal Information Retrieval", 《PCM 2018: ADVANCES IN MULTIMEDIA INFORMATION PROCESSING》 * |
刘明勇: "基于写作风格学的作者识别技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
王英涛: "基于深度学习的中文论述类问题智能问答系统的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368773A (zh) * | 2020-03-12 | 2020-07-03 | 广东小天才科技有限公司 | 数学公式识别方法及装置、终端设备和可读存储介质 |
CN111612157A (zh) * | 2020-05-22 | 2020-09-01 | 四川无声信息技术有限公司 | 训练方法、文字识别方法、装置、存储介质及电子设备 |
CN111612157B (zh) * | 2020-05-22 | 2023-06-30 | 四川无声信息技术有限公司 | 训练方法、文字识别方法、装置、存储介质及电子设备 |
CN111930947A (zh) * | 2020-08-26 | 2020-11-13 | 施建军 | 一种现代汉语文字作品作者鉴别系统和方法 |
CN112926321A (zh) * | 2021-04-12 | 2021-06-08 | 常州微亿智造科技有限公司 | 一种基于神经网络框架的文学作品作者识别方法 |
CN112926321B (zh) * | 2021-04-12 | 2024-09-06 | 常州微亿智造科技有限公司 | 一种基于神经网络框架的文学作品作者识别方法 |
CN113326347A (zh) * | 2021-05-21 | 2021-08-31 | 四川省人工智能研究院(宜宾) | 一种句法信息感知的作者归属方法 |
CN113326347B (zh) * | 2021-05-21 | 2021-10-08 | 四川省人工智能研究院(宜宾) | 一种句法信息感知的作者归属方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110489551B (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489551A (zh) | 一种基于写作习惯的作者识别方法 | |
El-Alami et al. | Contextual semantic embeddings based on fine-tuned AraBERT model for Arabic text multi-class categorization | |
US20210375280A1 (en) | Systems and methods for response selection in multi-party conversations with dynamic topic tracking | |
CN112733541A (zh) | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 | |
CN112232053B (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN107480143A (zh) | 基于上下文相关性的对话话题分割方法和系统 | |
CN109086269B (zh) | 一种基于语义资源词表示和搭配关系的语义双关语识别方法 | |
Huang et al. | Attention-enabled gated spiking neural P model for aspect-level sentiment classification | |
Ji et al. | Asymmetric cross-scale alignment for text-based person search | |
CN110765755A (zh) | 一种基于双重选择门的语义相似度特征提取方法 | |
CN110288029A (zh) | 基于Tri-LSTMs模型的图像描述方法 | |
Fadel et al. | Arabic aspect extraction based on stacked contextualized embedding with deep learning | |
CN111737453A (zh) | 一种基于无监督的多模型融合抽取式文本摘要方法 | |
CN117291265B (zh) | 一种基于文本大数据的知识图谱构建方法 | |
CN113157919A (zh) | 语句文本方面级情感分类方法及系统 | |
CN109766523A (zh) | 词性标注方法和标注系统 | |
CN113408430A (zh) | 基于多级策略和深度强化学习框架的图像中文描述系统及方法 | |
Calvo et al. | Toward universal word sense disambiguation using deep neural networks | |
Sethi et al. | Natural language processing based automated essay scoring with parameter-efficient transformer approach | |
Yong et al. | A new emotion analysis fusion and complementary model based on online food reviews | |
Liu et al. | Improved Chinese sentence semantic similarity calculation method based on multi-feature fusion | |
CN115269768A (zh) | 要素文本处理方法、装置、电子设备和存储介质 | |
CN117610579A (zh) | 基于长短时记忆网络的语义分析方法及系统 | |
YU et al. | Lexicon‐Augmented Cross‐Domain Chinese Word Segmentation with Graph Convolutional Network | |
Che et al. | Fast and effective biomedical named entity recognition using temporal convolutional network with conditional random field |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |