CN116186211B - 一种文本攻击性检测和转换的方法 - Google Patents

一种文本攻击性检测和转换的方法 Download PDF

Info

Publication number
CN116186211B
CN116186211B CN202211631371.0A CN202211631371A CN116186211B CN 116186211 B CN116186211 B CN 116186211B CN 202211631371 A CN202211631371 A CN 202211631371A CN 116186211 B CN116186211 B CN 116186211B
Authority
CN
China
Prior art keywords
text
aggressive
model
detection
tower
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211631371.0A
Other languages
English (en)
Other versions
CN116186211A (zh
Inventor
路明
梁锐
张小明
陈建忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongguancun Rongzhi Enterprise Management Innovation Promotion Center
Beihang University
Original Assignee
Zhongguancun Rongzhi Enterprise Management Innovation Promotion Center
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongguancun Rongzhi Enterprise Management Innovation Promotion Center, Beihang University filed Critical Zhongguancun Rongzhi Enterprise Management Innovation Promotion Center
Priority to CN202211631371.0A priority Critical patent/CN116186211B/zh
Publication of CN116186211A publication Critical patent/CN116186211A/zh
Application granted granted Critical
Publication of CN116186211B publication Critical patent/CN116186211B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本攻击性检测和转换的方法,包括:获取待处理文本数据,将所述待处理文本输入预训练BERT模型,获取序列词向量;构建双塔攻击性检测模型,将所述序列词向量输入所述双塔攻击性检测模型进行攻击性检测,获取攻击性词汇的位置;基于所述攻击性词汇的位置,确定攻击性语句的位置;构建攻击性文本转换模型,基于所述攻击性文本转换模型对所述攻击性语句进行去攻击性处理,生成无攻击性文本。本发明综合利用了文本向量化表示、召回模型、文本转换等技术,可以检测攻击性文本并识别出攻击性词汇,进而去攻击性转化得到目标文本,对进一步研究文本攻击性检测和转化提供了关键基础。

Description

一种文本攻击性检测和转换的方法
技术领域
本发明属于数据挖掘、自然语言处理、机器学习、文本分类等研究领域,尤其涉及一种文本攻击性检测和转换的方法。
背景技术
随着互联网的快速发展,人们在社交媒体平台上以网络评论方式表达想法,相关内容繁复庞杂,言论质量参差不齐,更存在很多攻击性言论。现在用于社交的软件,比如微博、脉脉、Twitter等,登陆的用户的文化背景不同,发表的言论包含很多攻击性或者辱骂的词语,使得网络环境被污染。每天发表的评论数据量激增,单靠人工进行干预和屏蔽,任务量巨大,所以很需要能自动地进行识别这类言论,并进行去攻击性转换的方法。
从分类算法的角度看,文本攻击性检测主要包含基于词典方法、基于传统机器学习方法和基于深度学习的方法。基于词典的方法主要是使用词典或者基于规则的方法,根据文本中攻击性词语的数目,来判断攻击性言论。但攻击性词典需要不断更新维护,人工成本很高。基于传统机器学习和基于深度学习的方法,一般缺乏平行语料,采用的多为无监督学习。现有方法提出一种结合协同分类器、注意力机制和周期一致性损失的编码器-解码器框架,采用无监督文本风格迁移将冒犯句子转换为非冒犯句子。还有利用CNN、RNN、LSTM等方法进行攻击性句子检测,有时一句话中不只一处攻击性词语,可能有多处表达不好的含义,这时基于分类进行预测攻击性词语,可能存在召回不足的问题,后续对于去攻击性转换也有一定的难度。
发明内容
本发明的目的在于提供一种文本攻击性检测和转换的方法,以解决上述背景技术中提出的问题,如一段话中存在多处攻击性言论,攻击性文本转化存在丢失语义、语序不通的问题。
为实现上述目的,本发明提供了一种文本攻击性检测和转换的方法,包括以下步骤:
获取待处理文本数据,将所述待处理文本输入预训练BERT模型,获取序列词向量;
构建双塔攻击性检测模型,将所述序列词向量输入所述双塔攻击性检测模型进行攻击性检测,获取攻击性词汇位置;
基于所述攻击性词汇位置,确定攻击性文本位置;
构建攻击性文本转换模型,基于所述攻击性文本转换模型对所述攻击性文本进行去攻击性处理,生成非攻击性文本。
可选的,获取所述待处理文本数据包括:
获取攻击性文本数据集,对所述攻击性文本数据集进行预处理,获取所述待处理文本数据。
可选的,将所述待处理文本数据输入预训练BERT模型,获取序列词向量包括:
所述待处理文本包括训练集和验证集;
基于编码-解码模块,构建经过预训练的BERT模型;
将所述训练集输入所述BERT模型,获取序列词向量。
可选的,所述双塔攻击性检测模型包括输入层、表示层和匹配层;
所述输入层用于将所述待处理文本数据进行切分;
所述表示层采用传统的DNN模型或BERT模型进行特征提取,获取两个语义向量;
所述匹配层用于计算两个所述语义向量的余弦相似度。
可选的,构建双塔攻击性检测模型,将所述序列词向量输入所述双塔攻击性检测模型进行攻击性检测,获取攻击性词汇位置包括:
所述双塔攻击性模型包括user塔和item塔,将所述序列词向量分别输入所述user塔和所述item塔,获取user embedding和item embedding;
计算所述user embedding和所述item embedding的相似度,获取目标词汇相关度;
基于所述目标词汇相关度,对所述待处理文本数据进行攻击性检测,获取攻击性词汇位置。
可选的,所述user塔的输入为待检测句子,所述item塔的输入为攻击性词汇。
可选的,构建攻击性文本转换模型,基于所述攻击性文本转换模型对所述攻击性文本进行去攻击性处理,生成非攻击性文本包括:
基于所述攻击性词汇位置,删除所述攻击性文本中的攻击性词汇,获取无攻击性语句;
对所述无攻击性语句进行检索,获取相似语句;
基于所述相似语句,获取非攻击性文本。
本发明具有以下有益效果:本发明提供了一种基于双塔召回模型的攻击性言语检测模型,通过sentence侧和target侧的输入,可以对相关度高的攻击性词语进行检索,有利于提高数据召回,可检测出一段话中多处攻击性词汇,提高了攻击性言论的识别精度。由此检测出的攻击性词汇,再进行去攻击性操作,采用三阶段框架进行转换,从文本中更好的进行学习问题结构和问题本质,使攻击性言论的检测和转换效果更好。综上所述,本发明可以更好地进行文本攻击性识别和转换,帮助构造更健康安全的网络环境。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明实施例提出的一种文本攻击性检测和转换的方法构造流程图;
图2为本发明实施例二提出的双塔攻击性检测模型的模型结构;
图3为本发明实施例二提出的Delete-Retrieve-Generate去攻击性模型训练数据实例。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
如图1所示,本实施例中提供一种文本攻击性检测和转换的方法,包括以下步骤:
步骤一:攻击性文本数据收集
收集攻击性文本数据集,其中Twitter和Reddit包含大量的社交媒体的帖子,用于攻击性言语检测和转换。为了丰富数据量,编写爬虫爬取微博网站等评论数据,爬取字段包括用户评论、日期、用户名等。收集的数据集为攻击性文本数据,收集字段包含用户评论、用户名、发表时间等,若存在用户评论的详细和简要描述,也应爬取并存储。
获取待检测的文本后,对文本进行预处理,包括删除停用词、提取词干、删除多余字符、分词等。利用NLTK语料库提供的停用词表,删除停用词;进行字符串的替换操作,删除文本中可能无关的表达式。
步骤二:预训练BERT生成序列词向量
多数模型利用word2vec生成词向量,使用这些模型生成的词向量有一个问题,属于静态词向量,同一单词在不同的上下文环境仍是相同的向量,导致后期训练模型存在偏差。为了规避这一问题,本发明使用预训练的语言模型Bert进行文本的语义特征表示,更好实现上下文句子与攻击性词语、预训练词向量嵌入的充分交互,来更好的提取上下文句子中的关键特征,从而提升攻击性词汇检测的效果。
Bert的输入为3个向量的加和,对于输入的词,3部分的表征,分别是词向量(tokenembedding)、句子表征(sentence embedding)和位置嵌入(position embedding)。每句话分别是CLS和SEP作为开头和结尾。首先对文本进行分词处理,通过微调Bert获得词语的表示T,即给出文本D={X1,X2,X3,…,Xn},Xi表示文本中的token,通过Bert获得词向量表示。
将样本分为训练集和验证集,用训练集中的数据微调Bert深度学习模型,用验证集数据进行验证。
利用预训练语言模型Bert生成表示向量,具体包括:
对攻击性文本进行分词,并通过数据来微调Bert模型获得词语的表示向量。如:Ti=Bert(yi)
步骤三:构造双塔攻击性检测模型
训练阶段分别利用复杂网络构建sentence侧特征的embedding、target侧的embedding,预测时通过计算两个语义向量的cos距离函数,来表示语义相关度,最后获得攻击性预测模型。这个语义相关度是在攻击性文本检测中,相关属性词对于整个句子的影响程度。
为了解决一段话中可能存在多处攻击性言论,提出利用双塔召回模型进行攻击性词汇检测。双塔模型架构结构比较简单,一个是user塔,另一个是item塔,两边的encoder可以是DNN或是Bert等,使user embedding和item embedding维度相同,然后计算二者相似度,如计算cos内积,损失函数采用交叉熵分类损失,模型结构如图2所示。
User塔的输入为待检测句子,item塔输入为待检测句子中的n-gram片段,即待识别的攻击性词汇。训练语料可以用现有的攻击性数据集生成sentence-offensivenesswordpair对,利用双塔召回模型可以自行设定阈值,返回检测出的topN的攻击性词汇。
双塔攻击性检测模型主要分为三部分:输入层、表示层和匹配层。输入层主要作用是把文本映射到向量表示,通过低维向量空间转化提供给深度学习网络训练,将输入文本进行切分。英文数据集的输入采用word hashing方式处理,该方法是基于字母n-gram,可以减小输入向量的维度,比如词语boy,用#表示开始和结束字符,输入为‘#boy#’,采用字母n-gram的形式,设置n为3,得到(#bo,boy,oy#)三种数据,分别用n-gram的向量来表示。表示层采用传统的DNN模型或Bert模型。匹配层利用cos函数计算两个向量的余弦相似度。两侧输入分别为待检测句子和n-gram词汇,可以自行设定阈值,返回检测出的topN的攻击性词汇,这样可以解决一段话中存在多处攻击性词汇的情况。
步骤四:Delete-Retrieve-Generate去攻击性框架
由原文本和步骤三检测到的攻击性词汇可以用于文本转换,在对语料的观察后发现攻击性言论受到该句子中的一小部分影响,提出一种思路,将句子中攻击性词语“挖掉”,得到去攻击性的句子,然后再利用目标词汇相关度最大的部分去填充,分为三步完成去攻击性,其中模型达到的效果如图3所示,为去攻击后的数据。
第一阶段删除操作由步骤三检测出的攻击性词汇位置,作为最具鉴别能力的属性标记删除,删除表达攻击性的关键词,以简单的方式删除最具鉴别性的属性标记,计算n-gram片段对攻击性标签的相对频率,如公式(1):
第二阶段是检索相似句子进行词语替换,在非攻击性的句子(或目标词汇的句子)中找到与原句子相似的句子,然后将句子中相关属性词(或与目标词汇相关的部分)插入其中,距离函数利用TF-IDF,或是对embedding进行欧式距离计算。
第三阶段是生成目标句子,这里提出了三种对比方法,一是将相似句子作为去攻击化后的语句,即检索到的句子为最终结果,二是识别第二阶段找到的相似句子中的非攻击性词汇,沿用双塔攻击性检测模型,然后替代原句子中的攻击性词汇。实验的生成方法较粗糙,直接返回目标句子,可能与原句子的语义不同,生成一定的错误实例;进行词汇替换(或替换情感相关部分)得到的句子会有语序不通的情况,这些都是存在的问题。三是采用编码器-解码器架构,将删除攻击性词汇后的序列embedding送入transformer,然后与检索到的相似句子中的非攻击性词汇的embedding连接,再送入transformer的decoder部分来生成输出。这样既能保证语序的正确,也能达到去攻击性的效果。这三种生成方法是优化递进的关系,如果原句较简单、含有明确的攻击性词汇,使用第一种生成方法,如果原句语义较复杂,后两种生成的句子去攻击性效果更好。第一种生成方法的优点在于生成的句子一定是语义通顺的,问题在于句子内容和原句不一致,第二种和第三种生成方法较复杂,不如第一种简单易用。
步骤五:系统可视化
可视化系统对本发明起着行动指南的关键作用,仅仅使用上述的模型评估F1值等,并不是对用户友好的模型。对于使用者,不需要了解模型内部复杂的架构,只需要输入想要测试的文档,系统便输出对该文档的攻击性检测和去攻击性结果。这大大降低了使用成本,也便于推广。
本发明最后通过web形式显示,由网站主页、搜索结果页构成,主页包括数据分析和检索的功能;搜索结果页是用户输入一段话,显示检测出的攻击性言论,可能有一处或多处词语,分别按攻击性词语的相关度进行排列显示;最后将检测出的句子去攻击性,并将结果显示。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (5)

1.一种文本攻击性检测和转换的方法,其特征在于,包括:
获取待处理文本数据,将所述待处理文本输入预训练BERT模型,获取序列词向量;
构建双塔攻击性检测模型,将所述序列词向量输入所述双塔攻击性检测模型进行攻击性检测,获取攻击性词汇位置;
基于所述攻击性词汇位置,确定攻击性文本位置;
构建攻击性文本转换模型,基于所述攻击性文本转换模型对所述攻击性文本进行去攻击性处理,生成非攻击性文本;
所述双塔攻击性检测模型包括输入层、表示层和匹配层;
所述输入层用于将所述待处理文本数据进行切分;
所述表示层采用传统的DNN模型或BERT模型进行特征提取,获取两个语义向量;
所述匹配层用于计算两个所述语义向量的余弦相似度;
构建双塔攻击性检测模型,将所述序列词向量输入所述双塔攻击性检测模型进行攻击性检测,获取攻击性词汇位置包括:
所述双塔攻击性检测模型包括user塔和item塔,将所述序列词向量分别输入所述user塔和所述item塔,获取user embedding和item embedding;
计算所述user embedding和所述item embedding的相似度,获取目标词汇相关度;
基于所述目标词汇相关度,对所述待处理文本数据进行攻击性检测,获取攻击性词汇位置。
2.如权利要求1所述的一种文本攻击性检测和转换的方法,其特征在于,获取所述待处理文本数据包括:
获取攻击性文本数据集,对所述攻击性文本数据集进行预处理,获取所述待处理文本数据。
3.如权利要求1所述的一种文本攻击性检测和转换的方法,其特征在于,将所述待处理文本数据输入预训练BERT模型,获取序列词向量包括:
所述待处理文本包括训练集和验证集;
基于编码-解码模块,构建经过预训练的BERT模型;
将所述训练集输入所述BERT模型,获取序列词向量。
4.如权利要求1所述的一种文本攻击性检测和转换的方法,其特征在于,所述user塔的输入为待检测句子,所述item塔的输入为攻击性词汇。
5.如权利要求1所述的一种文本攻击性检测和转换的方法,其特征在于,构建攻击性文本转换模型,基于所述攻击性文本转换模型对所述攻击性文本进行去攻击性处理,生成非攻击性文本包括:
基于所述攻击性词汇位置,删除所述攻击性文本中的攻击性词汇,获取无攻击性语句;
对所述无攻击性语句进行检索,获取相似语句;
基于所述相似语句,获取非攻击性文本。
CN202211631371.0A 2022-12-19 2022-12-19 一种文本攻击性检测和转换的方法 Active CN116186211B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211631371.0A CN116186211B (zh) 2022-12-19 2022-12-19 一种文本攻击性检测和转换的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211631371.0A CN116186211B (zh) 2022-12-19 2022-12-19 一种文本攻击性检测和转换的方法

Publications (2)

Publication Number Publication Date
CN116186211A CN116186211A (zh) 2023-05-30
CN116186211B true CN116186211B (zh) 2023-07-25

Family

ID=86441256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211631371.0A Active CN116186211B (zh) 2022-12-19 2022-12-19 一种文本攻击性检测和转换的方法

Country Status (1)

Country Link
CN (1) CN116186211B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113919424A (zh) * 2021-10-09 2022-01-11 北京百度网讯科技有限公司 文本处理模型的训练、文本处理方法、装置、设备和介质
CN114595370A (zh) * 2022-02-16 2022-06-07 北京三快在线科技有限公司 模型训练、排序方法、装置、电子设备及存储介质
WO2023091210A1 (en) * 2021-11-19 2023-05-25 Microsoft Technology Licensing, Llc. Scalable retrieval system for suggesting textual content

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11151982B2 (en) * 2020-03-23 2021-10-19 Sorcero, Inc. Cross-context natural language model generation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113919424A (zh) * 2021-10-09 2022-01-11 北京百度网讯科技有限公司 文本处理模型的训练、文本处理方法、装置、设备和介质
WO2023091210A1 (en) * 2021-11-19 2023-05-25 Microsoft Technology Licensing, Llc. Scalable retrieval system for suggesting textual content
CN114595370A (zh) * 2022-02-16 2022-06-07 北京三快在线科技有限公司 模型训练、排序方法、装置、电子设备及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ATWebshell:基于对抗学习和长短语义感知的Webshell检测方法;郜洪奎等;《数据与计算发展前沿》;第4卷(第5期);第68-76页 *
BERTGACN: Text Classification by Combining BERT and GCN and GAT;Yang Xue;《2023 3rd International Conference on Neural Networks, Information and Communication Engineering (NNICE)》;第422-426页 *
The Effects of Corpus Type and Size on the Classification of News;Fatma Zehra Çetin等;《2019 27th Signal Processing and Communications Applications Conference (SIU)》;第1-4页 *
基于多特征融合的深度视频自然语言描述方法;梁锐等;《计算机应用》;第37卷(第4期);第1179-1184页 *
基于多路语义图网络的图像自动问答;乔有田等;《计算机应用研究》;第40卷(第2期);第383-387页 *

Also Published As

Publication number Publication date
CN116186211A (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
Arora et al. Character level embedding with deep convolutional neural network for text normalization of unstructured data for Twitter sentiment analysis
CN110390103B (zh) 基于双编码器的短文本自动摘要方法及系统
US11062095B1 (en) Language translation of text input using an embedded set for images and for multilanguage text strings
Qiu et al. DGeoSegmenter: A dictionary-based Chinese word segmenter for the geoscience domain
Qiu et al. Geoscience keyphrase extraction algorithm using enhanced word embedding
Wang et al. Multilayer dense attention model for image caption
Zubrinic et al. The automatic creation of concept maps from documents written using morphologically rich languages
Dashtipour et al. Exploiting deep learning for Persian sentiment analysis
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
CN102253930B (zh) 一种文本翻译的方法及装置
Sen et al. Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods
Suleiman et al. Comparative study of word embeddings models and their usage in Arabic language applications
Arumugam et al. Hands-On Natural Language Processing with Python: A practical guide to applying deep learning architectures to your NLP applications
CN113168499A (zh) 检索专利文档的方法
CN113196277A (zh) 用于检索自然语言文档的系统
Magdum et al. A survey on deep learning-based automatic text summarization models
CN111984782A (zh) 藏文文本摘要生成方法和系统
CN114861082A (zh) 一种基于多维度语义表示的攻击性评论检测方法
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
Chader et al. Sentiment Analysis for Arabizi: Application to Algerian Dialect.
Lubis et al. spelling checking with deep learning model in analysis of Tweet data for word classification process
Palagin et al. Distributional semantic modeling: A revised technique to train term/word vector space models applying the ontology-related approach
Da et al. Deep learning based dual encoder retrieval model for citation recommendation
Arslan Application of BiLSTM-CRF model with different embeddings for product name extraction in unstructured Turkish text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant