CN113326347A - 一种句法信息感知的作者归属方法 - Google Patents
一种句法信息感知的作者归属方法 Download PDFInfo
- Publication number
- CN113326347A CN113326347A CN202110554637.5A CN202110554637A CN113326347A CN 113326347 A CN113326347 A CN 113326347A CN 202110554637 A CN202110554637 A CN 202110554637A CN 113326347 A CN113326347 A CN 113326347A
- Authority
- CN
- China
- Prior art keywords
- text
- author
- vector
- representing
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种句法信息感知的作者归属方法,涉及文本作者识别领域,本发明首先使用句法依赖树来解决作者归属任务。将依赖关系输入到图卷积神经网络中提取句子的句结构。由于句法成分树中路径的标签会增大数据量和计算难度,本发明使用的句法依赖树数据量小,计算简单,效果明显。本发明使用图卷积神经网络从文本的依赖树中提取语法表示形式,并使用字符来收集内容表示形式。结果表明,本发明性能优于所有最新的方法,并且具有更好的捕获用于短文本作者归属任务的语法信息的能力。文本的语法表示形式可以帮助克服短文本作者归属任务的挑战,同时也可以在长文本上取得很好的效果。
Description
技术领域
本发明涉及文本作者识别领域,具体涉及一种句法信息感知的作者归属方法。
背景技术
作者归属是一个被广泛研究的问题,是通过学习作者的写作风格从候选作者中预测匿名文本的作者的任务。作者归属的应用场景广泛,例如:剽窃调查和检测(书籍,文案抄袭等),文学科学与教育(作者身份争议文献的作者归属)。随着计算机系统,智能手机和网络的普及极大的改变了我们传递信息的方式。
而且如今的社交媒体软件繁多,每天会产生数以亿计的文本数据,在社交媒体上的作者归属也有很大的应用前景,例如:网络犯罪调查(例如,网络钓鱼诈骗,垃圾邮件和非法信息传播等),网络营销(利用用户的风格属性定向推销)。
发明内容
针对现有技术中的上述不足,本发明提供的一种句法信息感知的作者归属方法可以准确快速的找到文本的真实作者。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种句法信息感知的作者归属方法,其包括以下步骤:
S1、预处理文本并获取预处理后文本的字符集合和表征单词间依赖关系的邻接矩阵;
S2、通过卷积神经网络得到文本的字符集合的字符特征实值向量;
S3、通过双向循环神经网络获取文本单词的单词级隐状态表征;
S4、将一条文本中表征单词间依赖关系的邻接矩阵和每个单词级隐状态表征作为图卷积神经网络的输入,获取该文本对应的单词实值向量;
S5、将一条文本中的单词实值向量求平均得到该文本的句法特征实值向量;
S6、将句法特征实值向量与字符特征实值向量进行拼接得到的向量作为代表作者写作风格的表征向量;
S7、通过比较代表作者写作风格的表征向量来确定文本的作者归属。
进一步地,步骤S1的具体方法为:
将文本预处理为字符数据,获取字符集合,并通过斯坦福核心自然语言处理工具包获取文本中单词间的依赖关系,即获得表征单词间依赖关系的邻接矩阵。
进一步地,步骤S2的具体方法包括以下子步骤:
S2-1、对同一条文本的所有字符进行向量嵌入,获取该文本的字符集合中每个字符的嵌入向量得到输入矩阵X,;其中嵌入向量通过初始化获取,所有嵌入向量符合均匀分布;R表示向量空间,n表示字符的个数,d表示维度;
S2-2、根据公式:
S2-3、根据公式:
S2-4、根据所有字符向量的操作结果获取关联度最大的字符向量,并将关联度最大的字符向量在过滤器窗口宽度分别为3、4和5时对应的卷积运算输出特征进行拼接,将拼接结果作为该文本的字符集合的字符特征实值向量。
进一步地,步骤S3的具体方法包括以下子步骤:
S3-1、对同一条文本的所有单词进行向量嵌入,获取该文本所有单词的嵌入向量得到输入矩阵E;其中嵌入向量通过初始化获取,所有嵌入向量符合均匀分布;
S3-2、根据公式:
进一步地,步骤S4的具体方法为:
根据公式:
对一条文本中表征单词间依赖关系的邻接矩阵和每个单词级隐状态表征进行f+1次图卷积运算,得到该文本对应的单词实值向量;其中 表示图卷积运算,表示relu激活函数;H表示单词级隐状态表征;A表示表征单词间依赖关系的邻接矩阵;,f≥0;表示图卷积运算的初始值,为可学习参数,即常数。
进一步地,步骤S7的具体方法包括以下子步骤:
S7-1、通过随机失活层对代表作者写作风格的表征向量进行随机失活,得到随机失活后的向量O;
S7-3、根据公式:
S7-4、将概率最大的作者作为该文本的真实作者。
本发明的有益效果为:
1、本发明将文本的字符特征和句子结构特征相结合作为作者的写作风格特征,避免了使用单一特征缺失一些特征的问题。
2、本发明首先使用句法依赖树来解决作者归属任务。句法依赖树代表着句子中单词间的依赖关系,代表着句子的结构,而句子的结构属于作者的写作风格。将依赖关系输入到图卷积神经网络中提取句子的句结构。由于句法成分树中路径的标签会增大数据量和计算难度,本发明使用的句法依赖树数据量小,计算简单,效果明显。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,该句法信息感知的作者归属方法包括以下步骤:
S1、预处理文本并获取预处理后文本的字符集合和表征单词间依赖关系的邻接矩阵;
S2、通过卷积神经网络得到文本的字符集合的字符特征实值向量;
S3、通过双向循环神经网络获取文本单词的单词级隐状态表征;
S4、将一条文本中表征单词间依赖关系的邻接矩阵和每个单词级隐状态表征作为图卷积神经网络的输入,获取该文本对应的单词实值向量;
S5、将一条文本中的单词实值向量求平均得到该文本的句法特征实值向量;
S6、将句法特征实值向量与字符特征实值向量进行拼接得到的向量作为代表作者写作风格的表征向量;
S7、通过比较代表作者写作风格的表征向量来确定文本的作者归属。
步骤S1的具体方法为:
将文本预处理为字符数据,获取字符集合,并通过斯坦福核心自然语言处理工具包获取文本中单词间的依赖关系,即获得表征单词间依赖关系的邻接矩阵。
步骤S2的具体方法包括以下子步骤:
S2-1、对同一条文本的所有字符进行向量嵌入,获取该文本的字符集合中每个字符的嵌入向量得到输入矩阵X, ;其中嵌入向量通过初始化获取,所有嵌入向量符合均匀分布;R表示向量空间,n表示字符的个数,d表示维度;
S2-2、根据公式:
S2-3、根据公式:
S2-4、根据所有字符向量的操作结果获取关联度最大的字符向量,并将关联度最大的字符向量在过滤器窗口宽度分别为3、4和5时对应的卷积运算输出特征进行拼接,将拼接结果作为该文本的字符集合的字符特征实值向量。
步骤S3的具体方法包括以下子步骤:
S3-1、对同一条文本的所有单词进行向量嵌入,获取该文本所有单词的嵌入向量得到输入矩阵E;其中嵌入向量通过初始化获取,所有嵌入向量符合均匀分布;
S3-2、根据公式:
步骤S4的具体方法为:
根据公式:
对一条文本中表征单词间依赖关系的邻接矩阵和每个单词级隐状态表征进行f+1次图卷积运算,得到该文本对应的单词实值向量;其中 表示图卷积运算,表示relu激活函数;H表示单词级隐状态表征;A表示表征单词间依赖关系的邻接矩阵;,f≥0;表示图卷积运算的初始值,为可学习参数,即常数。
步骤S7的具体方法包括以下子步骤:
S7-1、通过随机失活层对代表作者写作风格的表征向量进行随机失活,得到随机失活后的向量O;
S7-3、根据公式:
S7-4、将概率最大的作者作为该文本的真实作者。
在本发明的一个实施例中,采用两个常用的社交媒体短文本数据集:Twitter有7026位作者,每位作者120推文;Weibo有9819位作者,每位作者120推文。另外三个长文本数据集:CCAT10有10位作者,每位作者100条新闻故事;CCAT50有50位作者,每位作者100条推文故事;IMDB62有62位作者,每位作者1000条文章。
本发明与现有效果最好的短文本作者归属方法对比,现有方法包括TOS方法、N-gram CNN方法、LSTM方法、DeepStyle方法、iur方法和Syntax-CNN。
TOS方法‘Sari, Y., Stevenson, M., Vlachos, A.: Topic or styleexploring the most useful features for authorship attribution. In:Proceedings of the 27th International Conference on ComputationalLinguistics, COLING 2018. pp. 343–353 (2018)’导出基于内容和风格的表征以训练逻辑回归分类器。
N-gram CNN方法‘Shrestha, P., Sierra, S., Gonz´alez, F.A., Montes-y-G´omez, M., Rosso, P., Solorio, T.: Convolutional neural networks forauthorship attribution of short texts. In: Proceedings of the 15th Conferenceof the European Chapter of the Association for Computational Linguistics,EACL 2017, Volume 2: Short Papers. pp. 669–674 (2017)’使用不同窗口来提取字符特征。
LSTM方法是在字符级别训练长短时记忆网络。
Syntax-CNN方法‘Zhang, R., Hu, Z., Guo, H., Mao, Y.: Syntax encodingwith application in authorship attribution. In: Proceedings of the 2018Conference on Empirical Methods in Natural Language Processing. pp. 2742–2753(2018)’使用字符和句法成分树获得作者的风格特征。
DeepStyle方法‘Hu, Z., Lee, R.K., Wang, L., Lim, E., Dai, B.:Deepstyle: User style embedding for authorship attribution of short texts.In: Web and Big Data - 4th International Joint Conference, APWeb-WAIM 2020,Proceedings, Part II. pp. 221–229 (2020)’使用三元组损失函数学习作者风格的嵌入并映射到向量空间。
iur方法‘Andrews, N., Bishop, M.: Learning invariant representationsof social media users. In: Proceedings of the 2019 Conference on EmpiricalMethods in Natural Language Processing and the 9th International JointConference on Natural Language Processing, EMNLP-IJCNLP 2019. pp. 1684–1695(2019)’是学习从社交媒体上的作者活动的短暂事件到向量空间的映射。
由表1(数值越大越好)可以看出,本方法社交短文本数据集上比现有的方法都要好。其中P@X表示预测的前X个最高概率的作者中有正确作者的准确率。
表1:本方法在社交媒体短文本数据集上的效果
为了验证本方法在长文本上的分类效果,实验选择了在作者归属任务中使用广泛的三个长文本数据集,并选择了最先进的几个方法,并得到了在这三个数据集上的效果。
SVM with most frequent 3-grams方法‘Plakias, S., Stamatatos, E.:Tensor space models for authorship identification. In:ArtificialIntelligence: Theories, Models and Applications, 5th Hellenic Conference onAI, SETN 2008, Proceedings. pp. 239–249 (2008)’使用2500个最常用的字符训练支持向量机(SVM)算法。
Continuous n-gram representations方法‘Sari, Y., Vlachos, A.,Stevenson, M.: Continuous n-gram representations for authorship attribution.In: Proceedings of the 15th Conference of the European Chapter of theAssociation for Computational Linguistics, EACL 2017, Volume 2: Short Papers.pp. 267–273 (2017)’使用字符的连续表示解决作者归属任务。由表2可以看出(数值越大越好),本发明在长文本数据集上的效果优于目前最先进的方法,这证明了本发明在长文本数据集上同样能取得好的效果。其中表2中的数据表示方法在数据集中的预测准确率。
表2:本方法在长文本数据集上的效果
综上所述,本发明使用图卷积神经网络从文本的依赖树中提取语法表示形式,并使用字符来收集内容表示形式。结果表明,本发明性能优于所有最新的方法,并且具有更好的捕获用于短文本作者归属任务的语法信息的能力。文本的语法表示形式可以帮助克服短文本作者归属任务的挑战,同时也可以在长文本上取得很好的效果。
Claims (6)
1.一种句法信息感知的作者归属方法,其特征在于,包括以下步骤:
S1、预处理文本并获取预处理后文本的字符集合和表征单词间依赖关系的邻接矩阵;
S2、通过卷积神经网络得到文本的字符集合的字符特征实值向量;
S3、通过双向循环神经网络获取文本单词的单词级隐状态表征;
S4、将一条文本中表征单词间依赖关系的邻接矩阵和每个单词级隐状态表征作为图卷积神经网络的输入,获取该文本对应的单词实值向量;
S5、将一条文本中的单词实值向量求平均得到该文本的句法特征实值向量;
S6、将句法特征实值向量与字符特征实值向量进行拼接得到的向量作为代表作者写作风格的表征向量;
S7、通过比较代表作者写作风格的表征向量来确定文本的作者归属。
2.根据权利要求1所述的句法信息感知的作者归属方法,其特征在于,步骤S1的具体方法为:
将文本预处理为字符数据,获取字符集合,并通过斯坦福核心自然语言处理工具包获取文本中单词间的依赖关系,即获得表征单词间依赖关系的邻接矩阵。
3.根据权利要求1所述的句法信息感知的作者归属方法,其特征在于,步骤S2的具体方法包括以下子步骤:
S2-1、对同一条文本的所有字符进行向量嵌入,获取该文本的字符集合中每个字符的嵌入向量得到输入矩阵X,;其中嵌入向量通过初始化获取,所有嵌入向量符合均匀分布;R表示向量空间,n表示字符的个数,d表示维度;
S2-2、根据公式:
S2-3、根据公式:
S2-4、根据所有字符向量的操作结果获取关联度最大的字符向量,并将关联度最大的字符向量在过滤器窗口宽度分别为3、4和5时对应的卷积运算输出特征进行拼接,将拼接结果作为该文本的字符集合的字符特征实值向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110554637.5A CN113326347B (zh) | 2021-05-21 | 2021-05-21 | 一种句法信息感知的作者归属方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110554637.5A CN113326347B (zh) | 2021-05-21 | 2021-05-21 | 一种句法信息感知的作者归属方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113326347A true CN113326347A (zh) | 2021-08-31 |
CN113326347B CN113326347B (zh) | 2021-10-08 |
Family
ID=77416197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110554637.5A Active CN113326347B (zh) | 2021-05-21 | 2021-05-21 | 一种句法信息感知的作者归属方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113326347B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114036264A (zh) * | 2021-11-19 | 2022-02-11 | 四川大学 | 一种基于小样本学习的电子邮件作者身份归属识别方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070288458A1 (en) * | 2006-06-13 | 2007-12-13 | Microsoft Corporation | Obfuscating document stylometry |
US20080281581A1 (en) * | 2007-05-07 | 2008-11-13 | Sparta, Inc. | Method of identifying documents with similar properties utilizing principal component analysis |
CN103440329A (zh) * | 2013-09-04 | 2013-12-11 | 北京邮电大学 | 权威作者和高质量论文推荐系统和推荐方法 |
US20140280168A1 (en) * | 2013-03-12 | 2014-09-18 | Oracle International Corporation | Method and system for implementing author profiling |
CN106708947A (zh) * | 2016-11-25 | 2017-05-24 | 成都寻道科技有限公司 | 一种基于大数据的网络文章转发识别方法 |
CN106777339A (zh) * | 2017-01-13 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于异构网络嵌入模型识别作者的方法 |
CN110059180A (zh) * | 2019-03-13 | 2019-07-26 | 百度在线网络技术(北京)有限公司 | 文章作者身份识别及评估模型训练方法、装置及存储介质 |
CN110489551A (zh) * | 2019-07-16 | 2019-11-22 | 哈尔滨工程大学 | 一种基于写作习惯的作者识别方法 |
CN111221968A (zh) * | 2019-12-31 | 2020-06-02 | 北京航空航天大学 | 基于学科树聚类的作者消歧方法及装置 |
CN111340661A (zh) * | 2020-02-21 | 2020-06-26 | 电子科技大学 | 一种基于图神经网络的应用题自动解题方法 |
CN111460148A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 文本分类方法、装置、终端设备及存储介质 |
CN111930947A (zh) * | 2020-08-26 | 2020-11-13 | 施建军 | 一种现代汉语文字作品作者鉴别系统和方法 |
CN112001185A (zh) * | 2020-08-26 | 2020-11-27 | 重庆理工大学 | 一种结合中文句法和图卷积神经网络的情感分类方法 |
CN112699242A (zh) * | 2021-01-11 | 2021-04-23 | 大连东软信息学院 | 一种中文文本作者识别方法 |
-
2021
- 2021-05-21 CN CN202110554637.5A patent/CN113326347B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070288458A1 (en) * | 2006-06-13 | 2007-12-13 | Microsoft Corporation | Obfuscating document stylometry |
US20080281581A1 (en) * | 2007-05-07 | 2008-11-13 | Sparta, Inc. | Method of identifying documents with similar properties utilizing principal component analysis |
US20140280168A1 (en) * | 2013-03-12 | 2014-09-18 | Oracle International Corporation | Method and system for implementing author profiling |
CN103440329A (zh) * | 2013-09-04 | 2013-12-11 | 北京邮电大学 | 权威作者和高质量论文推荐系统和推荐方法 |
CN106708947A (zh) * | 2016-11-25 | 2017-05-24 | 成都寻道科技有限公司 | 一种基于大数据的网络文章转发识别方法 |
CN106777339A (zh) * | 2017-01-13 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于异构网络嵌入模型识别作者的方法 |
CN110059180A (zh) * | 2019-03-13 | 2019-07-26 | 百度在线网络技术(北京)有限公司 | 文章作者身份识别及评估模型训练方法、装置及存储介质 |
CN110489551A (zh) * | 2019-07-16 | 2019-11-22 | 哈尔滨工程大学 | 一种基于写作习惯的作者识别方法 |
CN111221968A (zh) * | 2019-12-31 | 2020-06-02 | 北京航空航天大学 | 基于学科树聚类的作者消歧方法及装置 |
CN111340661A (zh) * | 2020-02-21 | 2020-06-26 | 电子科技大学 | 一种基于图神经网络的应用题自动解题方法 |
CN111460148A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 文本分类方法、装置、终端设备及存储介质 |
CN111930947A (zh) * | 2020-08-26 | 2020-11-13 | 施建军 | 一种现代汉语文字作品作者鉴别系统和方法 |
CN112001185A (zh) * | 2020-08-26 | 2020-11-27 | 重庆理工大学 | 一种结合中文句法和图卷积神经网络的情感分类方法 |
CN112699242A (zh) * | 2021-01-11 | 2021-04-23 | 大连东软信息学院 | 一种中文文本作者识别方法 |
Non-Patent Citations (4)
Title |
---|
G. TAMBOURATZIS 等: "Assessing the effectiveness of feature groups in author recognition tasks with the SOM model", 《 IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS, PART C (APPLICATIONS AND REVIEWS)》 * |
刘明勇: "基于写作风格学的作者识别技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
徐晓霖: "中文文本的作者身份识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
祁瑞华 等: "中文微博作者身份识别研究", 《情报学报》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114036264A (zh) * | 2021-11-19 | 2022-02-11 | 四川大学 | 一种基于小样本学习的电子邮件作者身份归属识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113326347B (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9720901B2 (en) | Automated text-evaluation of user generated text | |
CN107168954B (zh) | 文本关键词生成方法及装置和电子设备及可读存储介质 | |
US8452772B1 (en) | Methods, systems, and articles of manufacture for addressing popular topics in a socials sphere | |
CN111552799B (zh) | 信息处理方法、装置、电子设备及存储介质 | |
EP3213226A1 (en) | Focused sentiment classification | |
CN113055386B (zh) | 一种攻击组织的识别分析方法和装置 | |
WO2023029356A1 (zh) | 基于句向量模型的句向量生成方法、装置及计算机设备 | |
Benamara et al. | Introduction to the special issue on language in social media: exploiting discourse and other contextual information | |
CN111552797B (zh) | 名称预测模型的训练方法、装置、电子设备及存储介质 | |
Xu et al. | Microblog dimensionality reduction—a deep learning approach | |
CN112231569A (zh) | 新闻推荐方法、装置、计算机设备及存储介质 | |
Ma et al. | Temporal enhanced sentence‐level attention model for hashtag recommendation | |
Zhou et al. | Multi‐channel sliced deep RCNN with residual network for text classification | |
Qian et al. | Learning to decipher hate symbols | |
CN113326347B (zh) | 一种句法信息感知的作者归属方法 | |
Taofeek et al. | A cognitive deception model for generating fake documents to curb data exfiltration in networks during cyber-attacks | |
Yue et al. | Differential privacy for text analytics via natural text sanitization | |
Volkova et al. | Improving gender prediction of social media users via weighted annotator rationales | |
Chen et al. | Learning the structures of online asynchronous conversations | |
CN116561298A (zh) | 基于人工智能的标题生成方法、装置、设备及存储介质 | |
Jiang et al. | Micro–blog emotion orientation analysis algorithm based on Tibetan and Chinese mixed text | |
Granados et al. | Is the contextual information relevant in text clustering by compression? | |
King et al. | Authorship verification with personalized language models | |
Mehmood et al. | Contributions to the study of bi-lingual roman urdu sms spam filtering | |
CN110909167B (zh) | 一种微博文本分类系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |