CN113111645A - 一种媒体文本相似性检测方法 - Google Patents

一种媒体文本相似性检测方法 Download PDF

Info

Publication number
CN113111645A
CN113111645A CN202110469854.4A CN202110469854A CN113111645A CN 113111645 A CN113111645 A CN 113111645A CN 202110469854 A CN202110469854 A CN 202110469854A CN 113111645 A CN113111645 A CN 113111645A
Authority
CN
China
Prior art keywords
text
word
media
value
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110469854.4A
Other languages
English (en)
Other versions
CN113111645B (zh
Inventor
杨鹏
田杨静
匡晨
于晓潭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110469854.4A priority Critical patent/CN113111645B/zh
Publication of CN113111645A publication Critical patent/CN113111645A/zh
Application granted granted Critical
Publication of CN113111645B publication Critical patent/CN113111645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种媒体文本相似性检测方法,该方法能够在海量的媒体文本中检测到与目标文本相似的媒体文本,本发明首先使用爬虫工具获得主流自媒体平台的媒体文本,构建媒体文本集;然后对媒体文本进行预处理提取正文字段,并进行分词和停用词过滤;接着,基于海量语料库训练Skip‑gram模型获得特征项的词向量表示;再者,使用词语的TF‑IDF特征,词性特征与位置特征进行特征融合,构建特征项的权重;最后基于特征项的词向量表示和权重使用Simhash算法获得文本指纹,并根据倒排索引构建文本指纹索引。本发明可以有效增强文本指纹的语义特征,提高Simhash算法对相似文本的检索效率和准确度。

Description

一种媒体文本相似性检测方法
技术领域
本发明涉及一种检测方法,具体涉及一种媒体文本相似性检测方法,属于自然语言处理技术领域。
背景技术
随着互联网技术的不断升级以及智能终端系统的大力推广,极力促进了媒体行业的蓬勃发展。从2003年进入大众视野,到现在依然方兴未艾的新媒体模式不但拥有更广阔的社会覆盖面,而且基于自媒体模式,人们可以参与社会的实事讨论,极大地提高了新闻的时效性。然而,自媒体模式在其发展中逐渐暴露自身弊端,由于在自媒体内容的著作权方面缺少相关的法律保护,稿件发表平台缺乏有效的监管以及自媒体人创作者自身的媒介素质不高,导致出现文本抄袭现象。现有文本抄袭评定中,对于作者的独创性表达的判断有较大的人为主观性,缺乏相应的量化指标。针对于中文文本,作者的独创性表达侧重于文本中词语的用法,基于文本相似度的检测技术,就可以很好的衡量不同文本的相似度,为实质性相似判定提供量化依据。
Simhash算法因为其指纹局部敏感特性和检索效率高的特点被广泛应用于海量文本的相似性检测中。但是现有Simhash算法仍然存在一些问题。首先,传统的Simhash算法对文本的词嵌入大多采用哈希函数或者汉语哈希词表,导致生成的文本指纹缺乏词语的语义信息。其次,Simhash算法对于特征词权重的选择仅仅局限于词频的单一维度,忽视了特征词的其余特征对文本的影响,会导致得到的文本表征信息不准确。最后,虽然基于Simhash的文本相似度检测使用海明距离计算文本相似度,提高了文本比对效率。但是面对庞大的文本集,仍然需要两两比较文本指纹判断其是否相似,导致检索效率较低。针对以上问题,亟需对Simhash算法进行改进,以便提高其检索的速度与精度。
发明内容
本发明正是针对现有技术中存在的问题,提供一种媒体文本相似性检测方法,该技术方案通过融入文本的语义特征与优化特征词权重的方法,克服传统Simhash算法生成的文本指纹语义特征不强和检索效率低的问题,可应用于海量的媒体文本中相似的媒体文本的快速检测。
为了实现上述目的,本发明的技术方案如下,一种媒体文本相似性检测方法,所述方法包括以下步骤:
步骤1,媒体文本采集,首先通过Scrapy爬虫工具采集多个自媒体平台的媒体文本,积累样本数据集,然后对样本数据集进行过滤以确保在娱乐、政治等类别中均匀分布;
步骤2,媒体稿件预处理,首先对包含目标文本的网页代码进行预处理,提出媒体的正文内容,然后对文本进行分词以及去除停用词的操作,得到文本的特征项序列;
步骤3,文本指纹生成,首先基于海量语料库训练Word2Vec模型,得到词向量的表示,修改Simhash算法的词嵌入方式,然后综合特征项序列中各项的TF-IDF权重、词性权重和位置权重得到最终权重值表示,解决Simhash算法词权重单一问题,最后基于词向量表示和最终权重值生成媒体文本的语义指纹;
步骤4,建立指纹索引,基于倒排索引,将指纹分割为多个索引值,快速检测到相似的文本集。
作为本发明的一种改进,步骤2,媒体稿件预处理,具体如下:
子步骤2-1,稿件网页预处理,包含自媒体文本的网页源码包含多个标签,在不同自媒体平台上,稿件文本对应的标签不一致,需要针对不同的网页源码进行分析,
子步骤2-2,稿件文本预处理,针对获得的稿件文本内容,使用Jieba分词工具对文本进行分词,并采用包含哈工大停用词表、百度停用词表以及四川大学机器智能实验室停用词库在内的中文常用停用词表进行停用词过滤,尽可能剔除对文本表征有影响的噪声内容,获得特征词序列。
作为本发明的一种改进,步骤3,文本指纹生成,具体如下:
基于深度学习,对特征词的序列进行分析,提取媒体文本的指纹特征,得到文本的语义指纹,该步骤实施过程分为个7子步骤:
子步骤3-1,Skip-gram模型训练,采用Word2Vec工具,基于百度百科500万词条与维基百科30万词条的语料库对Skip-gram模型进行词向量的训练,Skip-gram模型的目标函数为:
Figure BDA0003045121320000021
其中,wt为语料中某一特征词,Context(wt)表示wt周围的词语信息,将媒体文本的特征项序列输入训练好的Skip-gram模型中,得到特征项的词向量表示;
子步骤3-2,计算词语的TF-IDF权重,
TF值,即词频(Term Frequency),基于在文中出现的概率越高的词语越能代表文本的表达信息的原理,如果在文本集合D中包含多个文本,其中序号为n的文本表示为dn,文本dn中的第m个特征词表示为tm,n,利用公式2计算特征词tm,n的TF值:
Figure BDA0003045121320000031
其中,len表示文本dn中词语集合的长度,countm,n表示特征词tm,n在文本dn中出现的次数;
IDF值,即逆文本频率指数(Inverse Document Frequency),基于如果一个词在全部文本集中出现频率越高,那么这个词语无法代表该文本的原理,利用公式3计算特征词tm,n的IDF值:
Figure BDA0003045121320000032
其中,countm,n表示在包含N篇文本的文本集合中出现特征词tm,n的文本数量,a为经验常数,取1;
基于词语的TF值和IDF值,利用公式4计算特征词tm,n的TF-IDF值:
TF-IDFm,n=TFm,n×IDFm,n (4)
传统的Simhash算法对于词嵌入选择将词进行哈希,基于深度学习,使用词向量代替词哈希值,融入特征词的语义特征,增强文本局部敏感哈希值的相关性;
子步骤3-3,获得词性权重,使用Jieba工具对特征词进行词性标注,并且基于不同词性汉语对文本表征的影响,设计不同的词性权重参数,如表1所示:
表1词性权重参数配置表
Figure BDA0003045121320000033
子步骤3-4,计算位置权重,按照词语在文章的不同位置与文本内容的相关程度,使用公式5计算特征词的位置权重:
Figure BDA0003045121320000034
其中,posm,n表示词语tm,n在文档dn中所在位置的百分比,k1与k2是可调整的参数,其中k1取值为0.5,,k2的取值为0.7;
子步骤3-5,计算特征词的综合权重值,基于词语的TF-IDF权重TF-IDFm,n,词性权重PSi以及位置权重Pm,n,使用公式6计算特征词的综合权重值:
Wm,n=TF-IDFm,n×PSi×Pm,n (6)
子步骤3-6,加权合并,将基于深度学习得到的特征词的词向量表示与对应的多维度特征融合的词权重值相乘得到每个特征词的加权字符串,然后对文本中每个特征词的加权字符串进行累加,得到一个序列串{Simh1,Simh2,…,Simhj,…Simhm},利用公式7计算Simhj的值:
Figure BDA0003045121320000041
其中,wi表示每个词的权重值,Hij表示第i个词的第j位二进制码;
子步骤3-7,序列降维,得到文本的Simhash指纹,将加权合并后的序列串转化为01串,形成最终的Simhash签名{Simh1,Simh2,…,Simhj,…Simhm},使用公式8计算Simj的值:
Figure BDA0003045121320000042
基于词语的向量化表示和词权重值,使用Simhash算法得到文本的64位Simhash指纹。
作为本发明的一种改进,步骤4,建立指纹索引,结合倒排索引,将64的Simhash指纹拆为4个部分,每个部分为16位二进制码,然后分别用这4个部分的16位二进制码查找库中对应部分的索引值,如果没有找到索引值,则将这16位二进制码追加到链表上,如果有对应的索引值,将文本放入对应的内容中,因为自媒体文本的Simhash指纹为64位,本文建立4个表对应指纹的4个部分,每个部分分别建立索引值key为16位的Simhash指纹索引库。
相对于现有技术,本发明具有如下优点,1)该技术方案使用基于海量语料库训练的模型获得文本的词向量表示,将词语义信息嵌入文本指纹的生成算法中,补充传统Simhash指纹的语义信息,增强文本指纹的表征信息;2)该技术方案从三个角度考虑不同特征单词对文本的贡献度,在常用的基于TF-IDF权重基础上添加词性权重以及位置权重对权重选择进行优化,有效区分不同单词对文本的贡献程度;3)该技术方案基于Simhash算法,与传统检测方法相比,对检测结果有更高的准确率和精确率;4)该方案引入Manku提出的Simhash快速检测算法,并基于倒排索引建立指纹索引,提高检索效率。
附图说明
图1为本发明实施例的处理流程图。
图2为媒体稿件预处理流程图。
具体实施方式:
为了加深对本发明的理解,下面结合附图对本实施例做详细的说明。
实施例1:如图1所示,本发明是一种媒体文本相似性检测方法,具体实施步骤如下:
步骤1,媒体文本采集。本实例从互联网中主流的自媒体平台爬取包含自媒体稿件的网页源码,并保证每类自媒体稿件的数量均匀,然后将网页源码存储在数据库中。
步骤2,媒体稿件预处理。由于使用过爬虫工具获得的是包含媒体文本的网页源码,所以需要对网页源码进行文本内容提取。
子步骤2-1,稿件网页预处理。因为包含自媒体文本的网页源码包含多个标签,在不同自媒体平台上,稿件文本对应的标签不一致,因此需要针对不同的网页源码进行分析。本实例中采用python的第三方工具包Goose进行二次开发,针对媒体稿件的网页源码进行文本内容提取。
子步骤2-2,稿件文本预处理。针对获得的稿件文本内容,使用Jieba分词工具对文本进行分词,并采用包含哈工大停用词表、百度停用词表以及四川大学机器智能实验室停用词库在内的中文常用停用词表进行停用词过滤,获得特征词序列。
步骤3,文本指纹生成。基于深度学习,对特征词的序列进行分析,提取媒体文本的指纹特征,得到文本的语义指纹。该步骤实施过程分为个7子步骤:
子步骤3-1,Skip-gram模型训练。本发明采用Word2Vec工具,基于百度百科500万词条与维基百科30万词条的语料库对Skip-gram模型进行词向量的训练。Skip-gram模型的目标函数为:
Figure BDA0003045121320000051
其中,wt为语料中某一特征词,Context(wt)表示wt周围的词语信息。将媒体文本的特征项序列输入训练好的Skip-gram模型中,得到特征项的词向量表示。
子步骤3-2,计算词语的TF-IDF权重。
TF值,即词频(Term Frequency),基于在文中出现的概率越高的词语越能代表文本的表达信息的原理。如果在文本集合D中包含多个文本,其中序号为n的文本表示为dn,文本dn中的第m个特征词表示为tm,n,可以利用公式2计算特征词tm,n的TF值:
Figure BDA0003045121320000052
其中,len表示文本dn中词语集合的长度,countm,n表示特征词tm,n在文本dn中出现的次数。
IDF值,即逆文本频率指数(Inverse Document Frequency),基于如果一个词在全部文本集中出现频率越高,那么这个词语无法代表该文本的原理,可以利用公式3计算特征词tm,n的IDF值:
Figure BDA0003045121320000061
其中,countm,n表示在包含N篇文本的文本集合中出现特征词tm,n的文本数量,a为经验常数,一般取1。
基于词语的TF值和IDF值,利用公式4计算特征词tm,n的TF-IDF值:
TF-IDFm,n=TFm,n×IDFm,n (4)
传统的Simhash算法对于词嵌入选择将词进行哈希,本实例基于深度学习,使用词向量代替词哈希值,融入特征词的语义特征,增强文本局部敏感哈希值的相关性。
子步骤3-3,获得词性权重。本发明使用Jieba工具对特征词进行词性标注,并且基于不同词性汉语对文本表征的影响,设计不同的词性权重参数。如表1所示。
表1词性权重参数配置表
Figure BDA0003045121320000062
子步骤3-4,计算位置权重。按照词语在文章的不同位置与文本内容的相关程度,使用公式5计算特征词的位置权重:
Figure BDA0003045121320000063
其中,posm,n表示词语tm,n在文档dn中所在位置的百分比,k1与k2是可调整的参数。其中k1取值为0.5,,k2的取值为0.7。
子步骤3-5,计算特征词的综合权重值。基于词语的TF-IDF权重TF-IDFm,n,词性权重PSi以及位置权重Pm,n,使用公式6计算特征词的综合权重值:
Wm,n=TF-IDFm,n×PSi×Pm,n (6)
传统的Simhash算法采用TF-IDF值为词权重,本实例在TF-IDF基础上,添加词性权重和位置权重,从多个维度提取特征词的特征,提高词语对文本表征的影响力。
子步骤3-6,加权合并。将基于深度学习得到的特征词的词向量表示与对应的多维度特征融合的词权重值相乘得到每个特征词的加权字符串,然后对文本中每个特征词的加权字符串进行累加,得到一个序列串{Simh1,Simh2,…,Simhj,…Simhm},利用公式7计算Simhj的值:
Figure BDA0003045121320000071
其中,wi表示每个词的权重值,Hij表示第i个词的第j位二进制码。
子步骤3-7,序列降维,得到文本的Simhash指纹。将加权合并后的序列串转化为01串,形成最终的Simhash签名{Simh1,Simh2,…,Simhj,…Simhm},使用公式8计算Simj的值:
Figure BDA0003045121320000072
基于词语的向量化表示和词权重值,使用Simhash算法得到文本的64位Simhash指纹。
步骤4,建立指纹索引。业界常常判定两篇长文本的海明距离小于等于3为文本相似的依据,因此本发明以海明距离3为阈值,筛选指纹库中文本,得到目标文本的相似自媒体文本集。
结合倒排索引,将64的Simhash指纹拆为4个部分,每个部分为16位二进制码。然后分别用这4个部分的16位二进制码查找库中对应部分的索引值,如果没有找到索引值,则将这16位二进制码追加到链表上,如果有对应的索引值,将文本放入对应的内容中。因为自媒体文本的Simhash指纹为64位,本文建立4个表对应指纹的4个部分,每个部分分别建立索引值key为16位的Simhash指纹索引库。
基于相同的发明构思,本发明实施例还提供一种媒体文本相似性检测方法与装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的媒体文本相似性检测方法。
需要说明的是上述实施例,并非用来限定本发明的保护范围,在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

Claims (4)

1.一种媒体文本相似性检测方法,其特征在于,所述方法包括以下步骤:
步骤1,媒体文本采集,首先通过Scrapy爬虫工具采集多个自媒体平台的媒体文本,积累样本数据集,然后对样本数据集进行过滤以确保在娱乐、政治等类别中均匀分布;
步骤2,媒体稿件预处理,首先对包含目标文本的网页代码进行预处理,提出媒体的正文内容,然后对文本进行分词以及去除停用词的操作,得到文本的特征项序列;
步骤3,文本指纹生成,首先基于海量语料库训练Word2Vec模型,得到词向量的表示,修改Simhash算法的词嵌入方式,然后综合特征项序列中各项的TF-IDF权重、词性权重和位置权重得到最终权重值表示,解决Simhash算法词权重单一问题,最后基于词向量表示和最终权重值生成媒体文本的语义指纹;
步骤4,建立指纹索引,基于倒排索引,将指纹分割为多个索引值,快速检测到相似的文本集。
2.根据权利要求1所述的媒体文本相似性检测方法,其特征在于,步骤2,媒体稿件预处理,具体如下:
子步骤2-1,稿件网页预处理,包含自媒体文本的网页源码包含多个标签,在不同自媒体平台上,稿件文本对应的标签不一致,需要针对不同的网页源码进行分析,
子步骤2-2,稿件文本预处理,针对获得的稿件文本内容,使用Jieba分词工具对文本进行分词,并采用包含哈工大停用词表、百度停用词表以及四川大学机器智能实验室停用词库在内的中文常用停用词表进行停用词过滤,获得特征词序列。
3.根据权利要求2所述的媒体文本相似性检测方法,其特征在于,步骤3,文本指纹生成,具体如下:
基于深度学习,对特征词的序列进行分析,提取媒体文本的指纹特征,得到文本的语义指纹,该步骤实施过程分为个7子步骤:
子步骤3-1,Skip-gram模型训练,采用Word2Vec工具,基于百度百科500万词条与维基百科30万词条的语料库对Skip-gram模型进行词向量的训练,Skip-gram模型的目标函数为:
Figure FDA0003045121310000011
其中,wt为语料中某一特征词,Context(wt)表示wt周围的词语信息,将媒体文本的特征项序列输入训练好的Skip-gram模型中,得到特征项的词向量表示;
子步骤3-2,计算词语的TF-IDF权重,
TF值,即词频(Term Frequency),基于在文中出现的概率越高的词语越能代表文本的表达信息的原理,如果在文本集合D中包含多个文本,其中序号为n的文本表示为dn,文本dn中的第m个特征词表示为tm,n,利用公式2计算特征词tm,n的TF值:
Figure FDA0003045121310000021
其中,len表示文本dn中词语集合的长度,countm,n表示特征词tm,n在文本dn中出现的次数;
IDF值,即逆文本频率指数(Inverse Document Frequency),基于如果一个词在全部文本集中出现频率越高,那么这个词语无法代表该文本的原理,利用公式3计算特征词tm,n的IDF值:
Figure FDA0003045121310000022
其中,countm,n表示在包含N篇文本的文本集合中出现特征词tm,n的文本数量,a为经验常数,取1;
基于词语的TF值和IDF值,利用公式4计算特征词tm,n的TF-IDF值:
TF-IDFm,n=TFm,n×IDFm,n (4)
传统的Simhash算法对于词嵌入选择将词进行哈希,基于深度学习,使用词向量代替词哈希值,融入特征词的语义特征,增强文本局部敏感哈希值的相关性;
子步骤3-3,获得词性权重,使用Jieba工具对特征词进行词性标注,并且基于不同词性汉语对文本表征的影响,设计不同的词性权重参数,如表1所示:
表1词性权重参数配置表
Figure FDA0003045121310000023
子步骤3-4,计算位置权重,按照词语在文章的不同位置与文本内容的相关程度,使用公式5计算特征词的位置权重:
Figure FDA0003045121310000031
其中,posm,n表示词语tm,n在文档dn中所在位置的百分比,k1与k2是可调整的参数,其中k1取值为0.5,,k2的取值为0.7;
子步骤3-5,计算特征词的综合权重值,基于词语的TF-IDF权重TF-IDFm,n,词性权重PSi以及位置权重Pm,n,使用公式6计算特征词的综合权重值:
Wm,n=TF-IDFm,n×PSi×Pm,n (6)
子步骤3-6,加权合并,将基于深度学习得到的特征词的词向量表示与对应的多维度特征融合的词权重值相乘得到每个特征词的加权字符串,然后对文本中每个特征词的加权字符串进行累加,得到一个序列串{Simh1,Simh2,…,Simhj,…Simhm},利用公式7计算Simhj的值:
Figure FDA0003045121310000032
其中,wi表示每个词的权重值,Hij表示第i个词的第j位二进制码;
子步骤3-7,序列降维,得到文本的Simhash指纹,将加权合并后的序列串转化为01串,形成最终的Simhash签名{Simh1,Simh2,…,Simhj,…Simhm},使用公式8计算Simj的值:
Figure FDA0003045121310000033
基于词语的向量化表示和词权重值,使用Simhash算法得到文本的64位Simhash指纹。
4.根据权利要求3所述的媒体文本相似性检测方法,其特征在于,步骤4,建立指纹索引,结合倒排索引,将64的Simhash指纹拆为4个部分,每个部分为16位二进制码,然后分别用这4个部分的16位二进制码查找库中对应部分的索引值,如果没有找到索引值,则将这16位二进制码追加到链表上,如果有对应的索引值,将文本放入对应的内容中,因为自媒体文本的Simhash指纹为64位,本文建立4个表对应指纹的4个部分,每个部分分别建立索引值key为16位的Simhash指纹索引库。
CN202110469854.4A 2021-04-28 2021-04-28 一种媒体文本相似性检测方法 Active CN113111645B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110469854.4A CN113111645B (zh) 2021-04-28 2021-04-28 一种媒体文本相似性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110469854.4A CN113111645B (zh) 2021-04-28 2021-04-28 一种媒体文本相似性检测方法

Publications (2)

Publication Number Publication Date
CN113111645A true CN113111645A (zh) 2021-07-13
CN113111645B CN113111645B (zh) 2024-02-06

Family

ID=76721075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110469854.4A Active CN113111645B (zh) 2021-04-28 2021-04-28 一种媒体文本相似性检测方法

Country Status (1)

Country Link
CN (1) CN113111645B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918621A (zh) * 2019-02-18 2019-06-21 东南大学 基于数字指纹和语义特征的新闻文本侵权检测方法与装置
CN113808742A (zh) * 2021-08-10 2021-12-17 三峡大学 一种基于文本特征降维的lstm注意力机制疾病预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918621A (zh) * 2019-02-18 2019-06-21 东南大学 基于数字指纹和语义特征的新闻文本侵权检测方法与装置
CN110321925A (zh) * 2019-05-24 2019-10-11 中国工程物理研究院计算机应用研究所 一种基于语义聚合指纹的文本多粒度相似度比对方法
CN110825877A (zh) * 2019-11-12 2020-02-21 中国石油大学(华东) 一种基于文本聚类的语义相似度分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918621A (zh) * 2019-02-18 2019-06-21 东南大学 基于数字指纹和语义特征的新闻文本侵权检测方法与装置
CN110321925A (zh) * 2019-05-24 2019-10-11 中国工程物理研究院计算机应用研究所 一种基于语义聚合指纹的文本多粒度相似度比对方法
CN110825877A (zh) * 2019-11-12 2020-02-21 中国石油大学(华东) 一种基于文本聚类的语义相似度分析方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918621A (zh) * 2019-02-18 2019-06-21 东南大学 基于数字指纹和语义特征的新闻文本侵权检测方法与装置
CN109918621B (zh) * 2019-02-18 2023-02-28 东南大学 基于数字指纹和语义特征的新闻文本侵权检测方法与装置
CN113808742A (zh) * 2021-08-10 2021-12-17 三峡大学 一种基于文本特征降维的lstm注意力机制疾病预测方法

Also Published As

Publication number Publication date
CN113111645B (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
WO2017167067A1 (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN112541476B (zh) 一种基于语义特征提取的恶意网页识别方法
CN107102993B (zh) 一种用户诉求分析方法和装置
CN110727766A (zh) 敏感词的检测方法
CN106933800A (zh) 一种金融领域的事件句抽取方法
CN112256861B (zh) 一种基于搜索引擎返回结果的谣言检测方法及电子装置
CN110489745B (zh) 基于引文网络的论文文本相似性的检测方法
CN108416034B (zh) 基于金融异构大数据的信息采集系统及其控制方法
CN113111645B (zh) 一种媒体文本相似性检测方法
CN103377451A (zh) 专利质量评估系统及方法
CN112328936A (zh) 一种网站识别方法、装置、设备及计算机可读存储介质
CN111460803B (zh) 基于工业物联网设备Web管理页面的设备识别方法
CN114021577A (zh) 内容标签的生成方法、装置、电子设备及存储介质
CN105808602B (zh) 一种垃圾信息的检测方法及装置
Chader et al. Sentiment Analysis for Arabizi: Application to Algerian Dialect.
CN117351334A (zh) 图像审核方法和相关设备
Liu Automatic argumentative-zoning using word2vec
CN108717637B (zh) 一种电商安全相关实体的自动挖掘方法及系统
CN114238735B (zh) 一种互联网数据智能采集方法
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN109063117B (zh) 一种基于特征抽取的网络安全博客分类方法及系统
CN110019814B (zh) 一种基于数据挖掘与深度学习的新闻信息聚合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant