CN113326347A - 一种句法信息感知的作者归属方法 - Google Patents

一种句法信息感知的作者归属方法 Download PDF

Info

Publication number
CN113326347A
CN113326347A CN202110554637.5A CN202110554637A CN113326347A CN 113326347 A CN113326347 A CN 113326347A CN 202110554637 A CN202110554637 A CN 202110554637A CN 113326347 A CN113326347 A CN 113326347A
Authority
CN
China
Prior art keywords
text
author
vector
representing
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110554637.5A
Other languages
English (en)
Other versions
CN113326347B (zh
Inventor
邵杰
刘建博
张嘉昇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Artificial Intelligence Research Institute Yibin
Original Assignee
Sichuan Artificial Intelligence Research Institute Yibin
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Artificial Intelligence Research Institute Yibin filed Critical Sichuan Artificial Intelligence Research Institute Yibin
Priority to CN202110554637.5A priority Critical patent/CN113326347B/zh
Publication of CN113326347A publication Critical patent/CN113326347A/zh
Application granted granted Critical
Publication of CN113326347B publication Critical patent/CN113326347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种句法信息感知的作者归属方法,涉及文本作者识别领域,本发明首先使用句法依赖树来解决作者归属任务。将依赖关系输入到图卷积神经网络中提取句子的句结构。由于句法成分树中路径的标签会增大数据量和计算难度,本发明使用的句法依赖树数据量小,计算简单,效果明显。本发明使用图卷积神经网络从文本的依赖树中提取语法表示形式,并使用字符来收集内容表示形式。结果表明,本发明性能优于所有最新的方法,并且具有更好的捕获用于短文本作者归属任务的语法信息的能力。文本的语法表示形式可以帮助克服短文本作者归属任务的挑战,同时也可以在长文本上取得很好的效果。

Description

一种句法信息感知的作者归属方法
技术领域
本发明涉及文本作者识别领域,具体涉及一种句法信息感知的作者归属方法。
背景技术
作者归属是一个被广泛研究的问题,是通过学习作者的写作风格从候选作者中预测匿名文本的作者的任务。作者归属的应用场景广泛,例如:剽窃调查和检测(书籍,文案抄袭等),文学科学与教育(作者身份争议文献的作者归属)。随着计算机系统,智能手机和网络的普及极大的改变了我们传递信息的方式。
而且如今的社交媒体软件繁多,每天会产生数以亿计的文本数据,在社交媒体上的作者归属也有很大的应用前景,例如:网络犯罪调查(例如,网络钓鱼诈骗,垃圾邮件和非法信息传播等),网络营销(利用用户的风格属性定向推销)。
发明内容
针对现有技术中的上述不足,本发明提供的一种句法信息感知的作者归属方法可以准确快速的找到文本的真实作者。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种句法信息感知的作者归属方法,其包括以下步骤:
S1、预处理文本并获取预处理后文本的字符集合和表征单词间依赖关系的邻接矩阵;
S2、通过卷积神经网络得到文本的字符集合的字符特征实值向量;
S3、通过双向循环神经网络获取文本单词的单词级隐状态表征;
S4、将一条文本中表征单词间依赖关系的邻接矩阵和每个单词级隐状态表征作为图卷积神经网络的输入,获取该文本对应的单词实值向量;
S5、将一条文本中的单词实值向量求平均得到该文本的句法特征实值向量;
S6、将句法特征实值向量与字符特征实值向量进行拼接得到的向量作为代表作者写作风格的表征向量;
S7、通过比较代表作者写作风格的表征向量来确定文本的作者归属。
进一步地,步骤S1的具体方法为:
将文本预处理为字符数据,获取字符集合,并通过斯坦福核心自然语言处理工具包获取文本中单词间的依赖关系,即获得表征单词间依赖关系的邻接矩阵。
进一步地,步骤S2的具体方法包括以下子步骤:
S2-1、对同一条文本的所有字符进行向量嵌入,获取该文本的字符集合中每个字符的嵌入向量得到输入矩阵X
Figure 246176DEST_PATH_IMAGE001
;其中嵌入向量通过初始化获取,所有嵌入向量符合均匀分布;R表示向量空间,n表示字符的个数,d表示维度;
S2-2、根据公式:
Figure 999368DEST_PATH_IMAGE002
对输入的第i个卷积的字符向量
Figure 739791DEST_PATH_IMAGE003
进行过滤器窗口宽度为w的卷积运算,得到第i个字符向量
Figure 236632DEST_PATH_IMAGE003
对应的输出特征
Figure 11690DEST_PATH_IMAGE004
;其中过滤器窗口宽度w的取值为3、4和5;
Figure 466942DEST_PATH_IMAGE005
Wb为学习参数,即常数;
Figure 835606DEST_PATH_IMAGE006
表示relu激活函数;
S2-3、根据公式:
Figure 729613DEST_PATH_IMAGE007
对输出特征
Figure 500123DEST_PATH_IMAGE008
进行最大池操作,得到操作结果
Figure 126276DEST_PATH_IMAGE009
;其中
Figure 106870DEST_PATH_IMAGE010
表示最大池操作;
S2-4、根据所有字符向量的操作结果获取关联度最大的字符向量,并将关联度最大的字符向量在过滤器窗口宽度分别为3、4和5时对应的卷积运算输出特征进行拼接,将拼接结果作为该文本的字符集合的字符特征实值向量。
进一步地,步骤S3的具体方法包括以下子步骤:
S3-1、对同一条文本的所有单词进行向量嵌入,获取该文本所有单词的嵌入向量得到输入矩阵E;其中嵌入向量通过初始化获取,所有嵌入向量符合均匀分布;
S3-2、根据公式:
Figure 945513DEST_PATH_IMAGE011
通过双向循环神经网络获取第j个文本单词的单词级隐状态表征
Figure 164005DEST_PATH_IMAGE012
;其中
Figure 429901DEST_PATH_IMAGE013
为正向循环神经网络,
Figure 304317DEST_PATH_IMAGE014
为反向循环神经网络;
Figure 71284DEST_PATH_IMAGE015
表示拼接操作;
Figure 285228DEST_PATH_IMAGE016
为前j个文本单词序列;
Figure 846659DEST_PATH_IMAGE017
为第j个文本单词至第n个文本单词的序列。
进一步地,步骤S4的具体方法为:
根据公式:
Figure 208371DEST_PATH_IMAGE018
Figure 388816DEST_PATH_IMAGE019
对一条文本中表征单词间依赖关系的邻接矩阵和每个单词级隐状态表征进行f+1次图卷积运算,得到该文本对应的单词实值向量
Figure 581900DEST_PATH_IMAGE020
;其中
Figure 189599DEST_PATH_IMAGE021
表示图卷积运算,
Figure 38606DEST_PATH_IMAGE006
表示relu激活函数;H表示单词级隐状态表征;A表示表征单词间依赖关系的邻接矩阵;
Figure 881797DEST_PATH_IMAGE022
f≥0;
Figure 335912DEST_PATH_IMAGE023
表示图卷积运算的初始值,
Figure 973567DEST_PATH_IMAGE024
为可学习参数,即常数。
进一步地,步骤S7的具体方法包括以下子步骤:
S7-1、通过随机失活层对代表作者写作风格的表征向量进行随机失活,得到随机失活后的向量O;
S7-2、将向量O输入全连接层,获取该文本属于所有候选作者中作者u的置信度
Figure 513133DEST_PATH_IMAGE025
S7-3、根据公式:
Figure 832119DEST_PATH_IMAGE026
获取该文本是作者u的概率
Figure 265374DEST_PATH_IMAGE027
;其中e为自然常数,
Figure 949296DEST_PATH_IMAGE028
表示所有候选作者的概率累加值;
S7-4、将概率最大的作者作为该文本的真实作者。
本发明的有益效果为:
1、本发明将文本的字符特征和句子结构特征相结合作为作者的写作风格特征,避免了使用单一特征缺失一些特征的问题。
2、本发明首先使用句法依赖树来解决作者归属任务。句法依赖树代表着句子中单词间的依赖关系,代表着句子的结构,而句子的结构属于作者的写作风格。将依赖关系输入到图卷积神经网络中提取句子的句结构。由于句法成分树中路径的标签会增大数据量和计算难度,本发明使用的句法依赖树数据量小,计算简单,效果明显。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,该句法信息感知的作者归属方法包括以下步骤:
S1、预处理文本并获取预处理后文本的字符集合和表征单词间依赖关系的邻接矩阵;
S2、通过卷积神经网络得到文本的字符集合的字符特征实值向量;
S3、通过双向循环神经网络获取文本单词的单词级隐状态表征;
S4、将一条文本中表征单词间依赖关系的邻接矩阵和每个单词级隐状态表征作为图卷积神经网络的输入,获取该文本对应的单词实值向量;
S5、将一条文本中的单词实值向量求平均得到该文本的句法特征实值向量;
S6、将句法特征实值向量与字符特征实值向量进行拼接得到的向量作为代表作者写作风格的表征向量;
S7、通过比较代表作者写作风格的表征向量来确定文本的作者归属。
步骤S1的具体方法为:
将文本预处理为字符数据,获取字符集合,并通过斯坦福核心自然语言处理工具包获取文本中单词间的依赖关系,即获得表征单词间依赖关系的邻接矩阵。
步骤S2的具体方法包括以下子步骤:
S2-1、对同一条文本的所有字符进行向量嵌入,获取该文本的字符集合中每个字符的嵌入向量得到输入矩阵X
Figure 835213DEST_PATH_IMAGE001
;其中嵌入向量通过初始化获取,所有嵌入向量符合均匀分布;R表示向量空间,n表示字符的个数,d表示维度;
S2-2、根据公式:
Figure 957890DEST_PATH_IMAGE002
对输入的第i个卷积的字符向量
Figure 121018DEST_PATH_IMAGE003
进行过滤器窗口宽度为w的卷积运算,得到第i个字符向量
Figure 100475DEST_PATH_IMAGE003
对应的输出特征
Figure 614633DEST_PATH_IMAGE004
;其中过滤器窗口宽度w的取值为3、4和5;
Figure 275421DEST_PATH_IMAGE005
Wb为学习参数,即常数;
Figure 417690DEST_PATH_IMAGE006
表示relu激活函数;
S2-3、根据公式:
Figure 708994DEST_PATH_IMAGE007
对输出特征
Figure 569502DEST_PATH_IMAGE008
进行最大池操作,得到操作结果
Figure 237244DEST_PATH_IMAGE009
;其中
Figure 906123DEST_PATH_IMAGE010
表示最大池操作;
S2-4、根据所有字符向量的操作结果获取关联度最大的字符向量,并将关联度最大的字符向量在过滤器窗口宽度分别为3、4和5时对应的卷积运算输出特征进行拼接,将拼接结果作为该文本的字符集合的字符特征实值向量。
步骤S3的具体方法包括以下子步骤:
S3-1、对同一条文本的所有单词进行向量嵌入,获取该文本所有单词的嵌入向量得到输入矩阵E;其中嵌入向量通过初始化获取,所有嵌入向量符合均匀分布;
S3-2、根据公式:
Figure 758541DEST_PATH_IMAGE011
通过双向循环神经网络获取第j个文本单词的单词级隐状态表征
Figure 716133DEST_PATH_IMAGE012
;其中
Figure 718724DEST_PATH_IMAGE013
为正向循环神经网络,
Figure 835585DEST_PATH_IMAGE014
为反向循环神经网络;
Figure 734270DEST_PATH_IMAGE015
表示拼接操作;
Figure 38213DEST_PATH_IMAGE016
为前j个文本单词序列;
Figure 47757DEST_PATH_IMAGE017
为第j个文本单词至第n个文本单词的序列。
步骤S4的具体方法为:
根据公式:
Figure 956807DEST_PATH_IMAGE018
Figure 885449DEST_PATH_IMAGE019
对一条文本中表征单词间依赖关系的邻接矩阵和每个单词级隐状态表征进行f+1次图卷积运算,得到该文本对应的单词实值向量
Figure 817633DEST_PATH_IMAGE020
;其中
Figure 513360DEST_PATH_IMAGE021
表示图卷积运算,
Figure 276917DEST_PATH_IMAGE006
表示relu激活函数;H表示单词级隐状态表征;A表示表征单词间依赖关系的邻接矩阵;
Figure 251826DEST_PATH_IMAGE022
f≥0;
Figure 795940DEST_PATH_IMAGE023
表示图卷积运算的初始值,
Figure 147287DEST_PATH_IMAGE024
为可学习参数,即常数。
步骤S7的具体方法包括以下子步骤:
S7-1、通过随机失活层对代表作者写作风格的表征向量进行随机失活,得到随机失活后的向量O;
S7-2、将向量O输入全连接层,获取该文本属于所有候选作者中作者u的置信度
Figure 765350DEST_PATH_IMAGE025
S7-3、根据公式:
Figure 301374DEST_PATH_IMAGE026
获取该文本是作者u的概率
Figure 942571DEST_PATH_IMAGE027
;其中e为自然常数,
Figure 956663DEST_PATH_IMAGE028
表示所有候选作者的概率累加值;
S7-4、将概率最大的作者作为该文本的真实作者。
在本发明的一个实施例中,采用两个常用的社交媒体短文本数据集:Twitter有7026位作者,每位作者120推文;Weibo有9819位作者,每位作者120推文。另外三个长文本数据集:CCAT10有10位作者,每位作者100条新闻故事;CCAT50有50位作者,每位作者100条推文故事;IMDB62有62位作者,每位作者1000条文章。
本发明与现有效果最好的短文本作者归属方法对比,现有方法包括TOS方法、N-gram CNN方法、LSTM方法、DeepStyle方法、iur方法和Syntax-CNN。
TOS方法‘Sari, Y., Stevenson, M., Vlachos, A.: Topic or style
Figure 898074DEST_PATH_IMAGE030
exploring the most useful features for authorship attribution. In:Proceedings of the 27th International Conference on ComputationalLinguistics, COLING 2018. pp. 343–353 (2018)’导出基于内容和风格的表征以训练逻辑回归分类器。
N-gram CNN方法‘Shrestha, P., Sierra, S., Gonz´alez, F.A., Montes-y-G´omez, M., Rosso, P., Solorio, T.: Convolutional neural networks forauthorship attribution of short texts. In: Proceedings of the 15th Conferenceof the European Chapter of the Association for Computational Linguistics,EACL 2017, Volume 2: Short Papers. pp. 669–674 (2017)’使用不同窗口来提取字符特征。
LSTM方法是在字符级别训练长短时记忆网络。
Syntax-CNN方法‘Zhang, R., Hu, Z., Guo, H., Mao, Y.: Syntax encodingwith application in authorship attribution. In: Proceedings of the 2018Conference on Empirical Methods in Natural Language Processing. pp. 2742–2753(2018)’使用字符和句法成分树获得作者的风格特征。
DeepStyle方法‘Hu, Z., Lee, R.K., Wang, L., Lim, E., Dai, B.:Deepstyle: User style embedding for authorship attribution of short texts.In: Web and Big Data - 4th International Joint Conference, APWeb-WAIM 2020,Proceedings, Part II. pp. 221–229 (2020)’使用三元组损失函数学习作者风格的嵌入并映射到向量空间。
iur方法‘Andrews, N., Bishop, M.: Learning invariant representationsof social media users. In: Proceedings of the 2019 Conference on EmpiricalMethods in Natural Language Processing and the 9th International JointConference on Natural Language Processing, EMNLP-IJCNLP 2019. pp. 1684–1695(2019)’是学习从社交媒体上的作者活动的短暂事件到向量空间的映射。
由表1(数值越大越好)可以看出,本方法社交短文本数据集上比现有的方法都要好。其中P@X表示预测的前X个最高概率的作者中有正确作者的准确率。
表1:本方法在社交媒体短文本数据集上的效果
Figure 11524DEST_PATH_IMAGE031
为了验证本方法在长文本上的分类效果,实验选择了在作者归属任务中使用广泛的三个长文本数据集,并选择了最先进的几个方法,并得到了在这三个数据集上的效果。
SVM with most frequent 3-grams方法‘Plakias, S., Stamatatos, E.:Tensor space models for authorship identification. In:ArtificialIntelligence: Theories, Models and Applications, 5th Hellenic Conference onAI, SETN 2008, Proceedings. pp. 239–249 (2008)’使用2500个最常用的字符训练支持向量机(SVM)算法。
Continuous n-gram representations方法‘Sari, Y., Vlachos, A.,Stevenson, M.: Continuous n-gram representations for authorship attribution.In: Proceedings of the 15th Conference of the European Chapter of theAssociation for Computational Linguistics, EACL 2017, Volume 2: Short Papers.pp. 267–273 (2017)’使用字符的连续表示解决作者归属任务。由表2可以看出(数值越大越好),本发明在长文本数据集上的效果优于目前最先进的方法,这证明了本发明在长文本数据集上同样能取得好的效果。其中表2中的数据表示方法在数据集中的预测准确率。
表2:本方法在长文本数据集上的效果
Figure 530230DEST_PATH_IMAGE032
综上所述,本发明使用图卷积神经网络从文本的依赖树中提取语法表示形式,并使用字符来收集内容表示形式。结果表明,本发明性能优于所有最新的方法,并且具有更好的捕获用于短文本作者归属任务的语法信息的能力。文本的语法表示形式可以帮助克服短文本作者归属任务的挑战,同时也可以在长文本上取得很好的效果。

Claims (6)

1.一种句法信息感知的作者归属方法,其特征在于,包括以下步骤:
S1、预处理文本并获取预处理后文本的字符集合和表征单词间依赖关系的邻接矩阵;
S2、通过卷积神经网络得到文本的字符集合的字符特征实值向量;
S3、通过双向循环神经网络获取文本单词的单词级隐状态表征;
S4、将一条文本中表征单词间依赖关系的邻接矩阵和每个单词级隐状态表征作为图卷积神经网络的输入,获取该文本对应的单词实值向量;
S5、将一条文本中的单词实值向量求平均得到该文本的句法特征实值向量;
S6、将句法特征实值向量与字符特征实值向量进行拼接得到的向量作为代表作者写作风格的表征向量;
S7、通过比较代表作者写作风格的表征向量来确定文本的作者归属。
2.根据权利要求1所述的句法信息感知的作者归属方法,其特征在于,步骤S1的具体方法为:
将文本预处理为字符数据,获取字符集合,并通过斯坦福核心自然语言处理工具包获取文本中单词间的依赖关系,即获得表征单词间依赖关系的邻接矩阵。
3.根据权利要求1所述的句法信息感知的作者归属方法,其特征在于,步骤S2的具体方法包括以下子步骤:
S2-1、对同一条文本的所有字符进行向量嵌入,获取该文本的字符集合中每个字符的嵌入向量得到输入矩阵X
Figure 762098DEST_PATH_IMAGE001
;其中嵌入向量通过初始化获取,所有嵌入向量符合均匀分布;R表示向量空间,n表示字符的个数,d表示维度;
S2-2、根据公式:
Figure 314302DEST_PATH_IMAGE002
对输入的第i个卷积的字符向量
Figure 844641DEST_PATH_IMAGE003
进行过滤器窗口宽度为w的卷积运算,得到第i个字符向量
Figure 988046DEST_PATH_IMAGE003
对应的输出特征
Figure 869415DEST_PATH_IMAGE004
;其中过滤器窗口宽度w的取值为3、4和5;
Figure 490889DEST_PATH_IMAGE005
Wb为学习参数,即常数;
Figure 141313DEST_PATH_IMAGE006
表示relu激活函数;
S2-3、根据公式:
Figure 924461DEST_PATH_IMAGE007
对输出特征
Figure 293126DEST_PATH_IMAGE008
进行最大池操作,得到操作结果
Figure 452712DEST_PATH_IMAGE009
;其中
Figure 223221DEST_PATH_IMAGE010
表示最大池操作;
S2-4、根据所有字符向量的操作结果获取关联度最大的字符向量,并将关联度最大的字符向量在过滤器窗口宽度分别为3、4和5时对应的卷积运算输出特征进行拼接,将拼接结果作为该文本的字符集合的字符特征实值向量。
4.根据权利要求1所述的句法信息感知的作者归属方法,其特征在于,步骤S3的具体方法包括以下子步骤:
S3-1、对同一条文本的所有单词进行向量嵌入,获取该文本所有单词的嵌入向量得到输入矩阵E;其中嵌入向量通过初始化获取,所有嵌入向量符合均匀分布;
S3-2、根据公式:
Figure 318216DEST_PATH_IMAGE011
通过双向循环神经网络获取第j个文本单词的单词级隐状态表征
Figure 298811DEST_PATH_IMAGE012
;其中
Figure 137454DEST_PATH_IMAGE013
为正向循环神经网络,
Figure 621525DEST_PATH_IMAGE014
为反向循环神经网络;
Figure 887421DEST_PATH_IMAGE015
表示拼接操作;
Figure 89732DEST_PATH_IMAGE016
为前j个文本单词序列;
Figure 732066DEST_PATH_IMAGE017
为第j个文本单词至第n个文本单词的序列。
5.根据权利要求1所述的句法信息感知的作者归属方法,其特征在于,步骤S4的具体方法为:
根据公式:
Figure 336223DEST_PATH_IMAGE018
Figure 38600DEST_PATH_IMAGE019
对一条文本中表征单词间依赖关系的邻接矩阵和每个单词级隐状态表征进行f+1次图卷积运算,得到该文本对应的单词实值向量
Figure 728207DEST_PATH_IMAGE020
;其中
Figure 908653DEST_PATH_IMAGE021
表示图卷积运算,
Figure 367316DEST_PATH_IMAGE006
表示relu激活函数;H表示单词级隐状态表征;A表示表征单词间依赖关系的邻接矩阵;
Figure 975015DEST_PATH_IMAGE022
f≥0;
Figure 292863DEST_PATH_IMAGE023
表示图卷积运算的初始值,
Figure 136055DEST_PATH_IMAGE024
为可学习参数,即常数。
6.根据权利要求1所述的句法信息感知的作者归属方法,其特征在于,步骤S7的具体方法包括以下子步骤:
S7-1、通过随机失活层对代表作者写作风格的表征向量进行随机失活,得到随机失活后的向量O;
S7-2、将向量O输入全连接层,获取该文本属于所有候选作者中作者u的置信度
Figure 590170DEST_PATH_IMAGE025
S7-3、根据公式:
Figure 493404DEST_PATH_IMAGE026
获取该文本是作者u的概率
Figure 32969DEST_PATH_IMAGE027
;其中e为自然常数,
Figure 685711DEST_PATH_IMAGE028
表示所有候选作者的概率累加值;
S7-4、将概率最大的作者作为该文本的真实作者。
CN202110554637.5A 2021-05-21 2021-05-21 一种句法信息感知的作者归属方法 Active CN113326347B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110554637.5A CN113326347B (zh) 2021-05-21 2021-05-21 一种句法信息感知的作者归属方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110554637.5A CN113326347B (zh) 2021-05-21 2021-05-21 一种句法信息感知的作者归属方法

Publications (2)

Publication Number Publication Date
CN113326347A true CN113326347A (zh) 2021-08-31
CN113326347B CN113326347B (zh) 2021-10-08

Family

ID=77416197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110554637.5A Active CN113326347B (zh) 2021-05-21 2021-05-21 一种句法信息感知的作者归属方法

Country Status (1)

Country Link
CN (1) CN113326347B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114036264A (zh) * 2021-11-19 2022-02-11 四川大学 一种基于小样本学习的电子邮件作者身份归属识别方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070288458A1 (en) * 2006-06-13 2007-12-13 Microsoft Corporation Obfuscating document stylometry
US20080281581A1 (en) * 2007-05-07 2008-11-13 Sparta, Inc. Method of identifying documents with similar properties utilizing principal component analysis
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
US20140280168A1 (en) * 2013-03-12 2014-09-18 Oracle International Corporation Method and system for implementing author profiling
CN106708947A (zh) * 2016-11-25 2017-05-24 成都寻道科技有限公司 一种基于大数据的网络文章转发识别方法
CN106777339A (zh) * 2017-01-13 2017-05-31 深圳市唯特视科技有限公司 一种基于异构网络嵌入模型识别作者的方法
CN110059180A (zh) * 2019-03-13 2019-07-26 百度在线网络技术(北京)有限公司 文章作者身份识别及评估模型训练方法、装置及存储介质
CN110489551A (zh) * 2019-07-16 2019-11-22 哈尔滨工程大学 一种基于写作习惯的作者识别方法
CN111221968A (zh) * 2019-12-31 2020-06-02 北京航空航天大学 基于学科树聚类的作者消歧方法及装置
CN111340661A (zh) * 2020-02-21 2020-06-26 电子科技大学 一种基于图神经网络的应用题自动解题方法
CN111460148A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 文本分类方法、装置、终端设备及存储介质
CN111930947A (zh) * 2020-08-26 2020-11-13 施建军 一种现代汉语文字作品作者鉴别系统和方法
CN112001185A (zh) * 2020-08-26 2020-11-27 重庆理工大学 一种结合中文句法和图卷积神经网络的情感分类方法
CN112699242A (zh) * 2021-01-11 2021-04-23 大连东软信息学院 一种中文文本作者识别方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070288458A1 (en) * 2006-06-13 2007-12-13 Microsoft Corporation Obfuscating document stylometry
US20080281581A1 (en) * 2007-05-07 2008-11-13 Sparta, Inc. Method of identifying documents with similar properties utilizing principal component analysis
US20140280168A1 (en) * 2013-03-12 2014-09-18 Oracle International Corporation Method and system for implementing author profiling
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN106708947A (zh) * 2016-11-25 2017-05-24 成都寻道科技有限公司 一种基于大数据的网络文章转发识别方法
CN106777339A (zh) * 2017-01-13 2017-05-31 深圳市唯特视科技有限公司 一种基于异构网络嵌入模型识别作者的方法
CN110059180A (zh) * 2019-03-13 2019-07-26 百度在线网络技术(北京)有限公司 文章作者身份识别及评估模型训练方法、装置及存储介质
CN110489551A (zh) * 2019-07-16 2019-11-22 哈尔滨工程大学 一种基于写作习惯的作者识别方法
CN111221968A (zh) * 2019-12-31 2020-06-02 北京航空航天大学 基于学科树聚类的作者消歧方法及装置
CN111340661A (zh) * 2020-02-21 2020-06-26 电子科技大学 一种基于图神经网络的应用题自动解题方法
CN111460148A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 文本分类方法、装置、终端设备及存储介质
CN111930947A (zh) * 2020-08-26 2020-11-13 施建军 一种现代汉语文字作品作者鉴别系统和方法
CN112001185A (zh) * 2020-08-26 2020-11-27 重庆理工大学 一种结合中文句法和图卷积神经网络的情感分类方法
CN112699242A (zh) * 2021-01-11 2021-04-23 大连东软信息学院 一种中文文本作者识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
G. TAMBOURATZIS 等: "Assessing the effectiveness of feature groups in author recognition tasks with the SOM model", 《 IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS, PART C (APPLICATIONS AND REVIEWS)》 *
刘明勇: "基于写作风格学的作者识别技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
徐晓霖: "中文文本的作者身份识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
祁瑞华 等: "中文微博作者身份识别研究", 《情报学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114036264A (zh) * 2021-11-19 2022-02-11 四川大学 一种基于小样本学习的电子邮件作者身份归属识别方法

Also Published As

Publication number Publication date
CN113326347B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
US9720901B2 (en) Automated text-evaluation of user generated text
CN107168954B (zh) 文本关键词生成方法及装置和电子设备及可读存储介质
US8452772B1 (en) Methods, systems, and articles of manufacture for addressing popular topics in a socials sphere
CN111552799B (zh) 信息处理方法、装置、电子设备及存储介质
EP3213226A1 (en) Focused sentiment classification
CN113055386B (zh) 一种攻击组织的识别分析方法和装置
WO2023029356A1 (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
Benamara et al. Introduction to the special issue on language in social media: exploiting discourse and other contextual information
CN111552797B (zh) 名称预测模型的训练方法、装置、电子设备及存储介质
Xu et al. Microblog dimensionality reduction—a deep learning approach
CN112231569A (zh) 新闻推荐方法、装置、计算机设备及存储介质
Ma et al. Temporal enhanced sentence‐level attention model for hashtag recommendation
Zhou et al. Multi‐channel sliced deep RCNN with residual network for text classification
Qian et al. Learning to decipher hate symbols
CN113326347B (zh) 一种句法信息感知的作者归属方法
Taofeek et al. A cognitive deception model for generating fake documents to curb data exfiltration in networks during cyber-attacks
Yue et al. Differential privacy for text analytics via natural text sanitization
Volkova et al. Improving gender prediction of social media users via weighted annotator rationales
Chen et al. Learning the structures of online asynchronous conversations
CN116561298A (zh) 基于人工智能的标题生成方法、装置、设备及存储介质
Jiang et al. Micro–blog emotion orientation analysis algorithm based on Tibetan and Chinese mixed text
Granados et al. Is the contextual information relevant in text clustering by compression?
King et al. Authorship verification with personalized language models
Mehmood et al. Contributions to the study of bi-lingual roman urdu sms spam filtering
CN110909167B (zh) 一种微博文本分类系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant