CN113111645B - 一种媒体文本相似性检测方法 - Google Patents
一种媒体文本相似性检测方法 Download PDFInfo
- Publication number
- CN113111645B CN113111645B CN202110469854.4A CN202110469854A CN113111645B CN 113111645 B CN113111645 B CN 113111645B CN 202110469854 A CN202110469854 A CN 202110469854A CN 113111645 B CN113111645 B CN 113111645B
- Authority
- CN
- China
- Prior art keywords
- text
- word
- media
- value
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title description 12
- 239000013598 vector Substances 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000001914 filtration Methods 0.000 claims abstract description 6
- 230000011218 segmentation Effects 0.000 claims abstract description 6
- 238000013135 deep learning Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 238000009827 uniform distribution Methods 0.000 claims description 2
- 230000004927 fusion Effects 0.000 abstract 1
- 238000012512 characterization method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 241000272814 Anser sp. Species 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种媒体文本相似性检测方法,该方法能够在海量的媒体文本中检测到与目标文本相似的媒体文本,本发明首先使用爬虫工具获得主流自媒体平台的媒体文本,构建媒体文本集;然后对媒体文本进行预处理提取正文字段,并进行分词和停用词过滤;接着,基于海量语料库训练Skip‑gram模型获得特征项的词向量表示;再者,使用词语的TF‑IDF特征,词性特征与位置特征进行特征融合,构建特征项的权重;最后基于特征项的词向量表示和权重使用Simhash算法获得文本指纹,并根据倒排索引构建文本指纹索引。本发明可以有效增强文本指纹的语义特征,提高Simhash算法对相似文本的检索效率和准确度。
Description
技术领域
本发明涉及一种检测方法,具体涉及一种媒体文本相似性检测方法,属于自然语言处理技术领域。
背景技术
随着互联网技术的不断升级以及智能终端系统的大力推广,极力促进了媒体行业的蓬勃发展。从2003年进入大众视野,到现在依然方兴未艾的新媒体模式不但拥有更广阔的社会覆盖面,而且基于自媒体模式,人们可以参与社会的实事讨论,极大地提高了新闻的时效性。然而,自媒体模式在其发展中逐渐暴露自身弊端,由于在自媒体内容的著作权方面缺少相关的法律保护,稿件发表平台缺乏有效的监管以及自媒体人创作者自身的媒介素质不高,导致出现文本抄袭现象。现有文本抄袭评定中,对于作者的独创性表达的判断有较大的人为主观性,缺乏相应的量化指标。针对于中文文本,作者的独创性表达侧重于文本中词语的用法,基于文本相似度的检测技术,就可以很好的衡量不同文本的相似度,为实质性相似判定提供量化依据。
Simhash算法因为其指纹局部敏感特性和检索效率高的特点被广泛应用于海量文本的相似性检测中。但是现有Simhash算法仍然存在一些问题。首先,传统的Simhash算法对文本的词嵌入大多采用哈希函数或者汉语哈希词表,导致生成的文本指纹缺乏词语的语义信息。其次,Simhash算法对于特征词权重的选择仅仅局限于词频的单一维度,忽视了特征词的其余特征对文本的影响,会导致得到的文本表征信息不准确。最后,虽然基于Simhash的文本相似度检测使用海明距离计算文本相似度,提高了文本比对效率。但是面对庞大的文本集,仍然需要两两比较文本指纹判断其是否相似,导致检索效率较低。针对以上问题,亟需对Simhash算法进行改进,以便提高其检索的速度与精度。
发明内容
本发明正是针对现有技术中存在的问题,提供一种媒体文本相似性检测方法,该技术方案通过融入文本的语义特征与优化特征词权重的方法,克服传统Simhash算法生成的文本指纹语义特征不强和检索效率低的问题,可应用于海量的媒体文本中相似的媒体文本的快速检测。
为了实现上述目的,本发明的技术方案如下,一种媒体文本相似性检测方法,所述方法包括以下步骤:
步骤1,媒体文本采集,首先通过Scrapy爬虫工具采集多个自媒体平台的媒体文本,积累样本数据集,然后对样本数据集进行过滤以确保在娱乐、政治等类别中均匀分布;
步骤2,媒体稿件预处理,首先对包含目标文本的网页代码进行预处理,提出媒体的正文内容,然后对文本进行分词以及去除停用词的操作,得到文本的特征项序列;
步骤3,文本指纹生成,首先基于海量语料库训练Word2Vec模型,得到词向量的表示,修改Simhash算法的词嵌入方式,然后综合特征项序列中各项的TF-IDF权重、词性权重和位置权重得到最终权重值表示,解决Simhash算法词权重单一问题,最后基于词向量表示和最终权重值生成媒体文本的语义指纹;
步骤4,建立指纹索引,基于倒排索引,将指纹分割为多个索引值,快速检测到相似的文本集。
作为本发明的一种改进,步骤2,媒体稿件预处理,具体如下:
子步骤2-1,稿件网页预处理,包含自媒体文本的网页源码包含多个标签,在不同自媒体平台上,稿件文本对应的标签不一致,需要针对不同的网页源码进行分析,
子步骤2-2,稿件文本预处理,针对获得的稿件文本内容,使用Jieba分词工具对文本进行分词,并采用包含哈工大停用词表、百度停用词表以及四川大学机器智能实验室停用词库在内的中文常用停用词表进行停用词过滤,尽可能剔除对文本表征有影响的噪声内容,获得特征词序列。
作为本发明的一种改进,步骤3,文本指纹生成,具体如下:
基于深度学习,对特征词的序列进行分析,提取媒体文本的指纹特征,得到文本的语义指纹,该步骤实施过程分为个7子步骤:
子步骤3-1,Skip-gram模型训练,采用Word2Vec工具,基于百度百科500万词条与维基百科30万词条的语料库对Skip-gram模型进行词向量的训练,Skip-gram模型的目标函数为:
其中,wt为语料中某一特征词,Context(wt)表示wt周围的词语信息,将媒体文本的特征项序列输入训练好的Skip-gram模型中,得到特征项的词向量表示;
子步骤3-2,计算词语的TF-IDF权重,
TF值,即词频(Term Frequency),基于在文中出现的概率越高的词语越能代表文本的表达信息的原理,如果在文本集合D中包含多个文本,其中序号为n的文本表示为dn,文本dn中的第m个特征词表示为tm,n,利用公式2计算特征词tm,n的TF值:
其中,len表示文本dn中词语集合的长度,countm,n表示特征词tm,n在文本dn中出现的次数;
IDF值,即逆文本频率指数(Inverse Document Frequency),基于如果一个词在全部文本集中出现频率越高,那么这个词语无法代表该文本的原理,利用公式3计算特征词tm,n的IDF值:
其中,countm,n表示在包含N篇文本的文本集合中出现特征词tm,n的文本数量,a为经验常数,取1;
基于词语的TF值和IDF值,利用公式4计算特征词tm,n的TF-IDF值:
TF-IDFm,n=TFm,n×IDFm,n (4)
传统的Simhash算法对于词嵌入选择将词进行哈希,基于深度学习,使用词向量代替词哈希值,融入特征词的语义特征,增强文本局部敏感哈希值的相关性;
子步骤3-3,获得词性权重,使用Jieba工具对特征词进行词性标注,并且基于不同词性汉语对文本表征的影响,设计不同的词性权重参数,如表1所示:
表1词性权重参数配置表
子步骤3-4,计算位置权重,按照词语在文章的不同位置与文本内容的相关程度,使用公式5计算特征词的位置权重:
其中,posm,n表示词语tm,n在文档dn中所在位置的百分比,k1与k2是可调整的参数,其中k1取值为0.5,,k2的取值为0.7;
子步骤3-5,计算特征词的综合权重值,基于词语的TF-IDF权重TF-IDFm,n,词性权重PSi以及位置权重Pm,n,使用公式6计算特征词的综合权重值:
Wm,n=TF-IDFm,n×PSi×Pm,n (6)
子步骤3-6,加权合并,将基于深度学习得到的特征词的词向量表示与对应的多维度特征融合的词权重值相乘得到每个特征词的加权字符串,然后对文本中每个特征词的加权字符串进行累加,得到一个序列串{Simh1,Simh2,…,Simhj,…Simhm},利用公式7计算Simhj的值:
其中,wi表示每个词的权重值,Hij表示第i个词的第j位二进制码;
子步骤3-7,序列降维,得到文本的Simhash指纹,将加权合并后的序列串转化为01串,形成最终的Simhash签名{Simh1,Simh2,…,Simhj,…Simhm},使用公式8计算Simj的值:
基于词语的向量化表示和词权重值,使用Simhash算法得到文本的64位Simhash指纹。
作为本发明的一种改进,步骤4,建立指纹索引,结合倒排索引,将64的Simhash指纹拆为4个部分,每个部分为16位二进制码,然后分别用这4个部分的16位二进制码查找库中对应部分的索引值,如果没有找到索引值,则将这16位二进制码追加到链表上,如果有对应的索引值,将文本放入对应的内容中,因为自媒体文本的Simhash指纹为64位,本文建立4个表对应指纹的4个部分,每个部分分别建立索引值key为16位的Simhash指纹索引库。
相对于现有技术,本发明具有如下优点,1)该技术方案使用基于海量语料库训练的模型获得文本的词向量表示,将词语义信息嵌入文本指纹的生成算法中,补充传统Simhash指纹的语义信息,增强文本指纹的表征信息;2)该技术方案从三个角度考虑不同特征单词对文本的贡献度,在常用的基于TF-IDF权重基础上添加词性权重以及位置权重对权重选择进行优化,有效区分不同单词对文本的贡献程度;3)该技术方案基于Simhash算法,与传统检测方法相比,对检测结果有更高的准确率和精确率;4)该方案引入Manku提出的Simhash快速检测算法,并基于倒排索引建立指纹索引,提高检索效率。
附图说明
图1为本发明实施例的处理流程图。
图2为媒体稿件预处理流程图。
具体实施方式:
为了加深对本发明的理解,下面结合附图对本实施例做详细的说明。
实施例1:如图1所示,本发明是一种媒体文本相似性检测方法,具体实施步骤如下:
步骤1,媒体文本采集。本实例从互联网中主流的自媒体平台爬取包含自媒体稿件的网页源码,并保证每类自媒体稿件的数量均匀,然后将网页源码存储在数据库中。
步骤2,媒体稿件预处理。由于使用过爬虫工具获得的是包含媒体文本的网页源码,所以需要对网页源码进行文本内容提取。
子步骤2-1,稿件网页预处理。因为包含自媒体文本的网页源码包含多个标签,在不同自媒体平台上,稿件文本对应的标签不一致,因此需要针对不同的网页源码进行分析。本实例中采用python的第三方工具包Goose进行二次开发,针对媒体稿件的网页源码进行文本内容提取。
子步骤2-2,稿件文本预处理。针对获得的稿件文本内容,使用Jieba分词工具对文本进行分词,并采用包含哈工大停用词表、百度停用词表以及四川大学机器智能实验室停用词库在内的中文常用停用词表进行停用词过滤,获得特征词序列。
步骤3,文本指纹生成。基于深度学习,对特征词的序列进行分析,提取媒体文本的指纹特征,得到文本的语义指纹。该步骤实施过程分为个7子步骤:
子步骤3-1,Skip-gram模型训练。本发明采用Word2Vec工具,基于百度百科500万词条与维基百科30万词条的语料库对Skip-gram模型进行词向量的训练。Skip-gram模型的目标函数为:
其中,wt为语料中某一特征词,Context(wt)表示wt周围的词语信息。将媒体文本的特征项序列输入训练好的Skip-gram模型中,得到特征项的词向量表示。
子步骤3-2,计算词语的TF-IDF权重。
TF值,即词频(Term Frequency),基于在文中出现的概率越高的词语越能代表文本的表达信息的原理。如果在文本集合D中包含多个文本,其中序号为n的文本表示为dn,文本dn中的第m个特征词表示为tm,n,可以利用公式2计算特征词tm,n的TF值:
其中,len表示文本dn中词语集合的长度,countm,n表示特征词tm,n在文本dn中出现的次数。
IDF值,即逆文本频率指数(Inverse Document Frequency),基于如果一个词在全部文本集中出现频率越高,那么这个词语无法代表该文本的原理,可以利用公式3计算特征词tm,n的IDF值:
其中,countm,n表示在包含N篇文本的文本集合中出现特征词tm,n的文本数量,a为经验常数,一般取1。
基于词语的TF值和IDF值,利用公式4计算特征词tm,n的TF-IDF值:
TF-IDFm,n=TFm,n×IDFm,n (4)
传统的Simhash算法对于词嵌入选择将词进行哈希,本实例基于深度学习,使用词向量代替词哈希值,融入特征词的语义特征,增强文本局部敏感哈希值的相关性。
子步骤3-3,获得词性权重。本发明使用Jieba工具对特征词进行词性标注,并且基于不同词性汉语对文本表征的影响,设计不同的词性权重参数。如表1所示。
表1词性权重参数配置表
子步骤3-4,计算位置权重。按照词语在文章的不同位置与文本内容的相关程度,使用公式5计算特征词的位置权重:
其中,posm,n表示词语tm,n在文档dn中所在位置的百分比,k1与k2是可调整的参数。其中k1取值为0.5,,k2的取值为0.7。
子步骤3-5,计算特征词的综合权重值。基于词语的TF-IDF权重TF-IDFm,n,词性权重PSi以及位置权重Pm,n,使用公式6计算特征词的综合权重值:
Wm,n=TF-IDFm,n×PSi×Pm,n (6)
传统的Simhash算法采用TF-IDF值为词权重,本实例在TF-IDF基础上,添加词性权重和位置权重,从多个维度提取特征词的特征,提高词语对文本表征的影响力。
子步骤3-6,加权合并。将基于深度学习得到的特征词的词向量表示与对应的多维度特征融合的词权重值相乘得到每个特征词的加权字符串,然后对文本中每个特征词的加权字符串进行累加,得到一个序列串{Simh1,Simh2,…,Simhj,…Simhm},利用公式7计算Simhj的值:
其中,wi表示每个词的权重值,Hij表示第i个词的第j位二进制码。
子步骤3-7,序列降维,得到文本的Simhash指纹。将加权合并后的序列串转化为01串,形成最终的Simhash签名{Simh1,Simh2,…,Simhj,…Simhm},使用公式8计算Simj的值:
基于词语的向量化表示和词权重值,使用Simhash算法得到文本的64位Simhash指纹。
步骤4,建立指纹索引。业界常常判定两篇长文本的海明距离小于等于3为文本相似的依据,因此本发明以海明距离3为阈值,筛选指纹库中文本,得到目标文本的相似自媒体文本集。
结合倒排索引,将64的Simhash指纹拆为4个部分,每个部分为16位二进制码。然后分别用这4个部分的16位二进制码查找库中对应部分的索引值,如果没有找到索引值,则将这16位二进制码追加到链表上,如果有对应的索引值,将文本放入对应的内容中。因为自媒体文本的Simhash指纹为64位,本文建立4个表对应指纹的4个部分,每个部分分别建立索引值key为16位的Simhash指纹索引库。
基于相同的发明构思,本发明实施例还提供一种媒体文本相似性检测方法与装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的媒体文本相似性检测方法。
需要说明的是上述实施例,并非用来限定本发明的保护范围,在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。
Claims (3)
1.一种媒体文本相似性检测方法,其特征在于,所述方法包括以下步骤:
步骤1,媒体文本采集,首先通过Scrapy爬虫工具采集多个自媒体平台的媒体文本,积累样本数据集,然后对样本数据集进行过滤以确保在娱乐、政治等类别中均匀分布;
步骤2,媒体稿件预处理,首先对包含目标文本的网页代码进行预处理,提出媒体的正文内容,然后对文本进行分词以及去除停用词的操作,得到文本的特征项序列;
步骤3,文本指纹生成,首先基于海量语料库训练Word2Vec模型,得到词向量的表示,修改Simhash算法的词嵌入方式,然后综合特征项序列中各项的TF-IDF权重、词性权重和位置权重得到最终权重值表示,解决Simhash算法词权重单一问题,最后基于词向量表示和最终权重值生成媒体文本的语义指纹;
步骤4,建立指纹索引,基于倒排索引,将指纹分割为多个索引值,快速检测到相似的文本集;
其中,步骤3文本指纹生成,具体如下:
基于深度学习,对特征词的序列进行分析,提取媒体文本的指纹特征,得到文本的语义指纹,该步骤实施过程分为个7子步骤:
子步骤3-1,Skip-gram模型训练,采用Word2Vec工具,基于百度百科500万词条与维基百科30万词条的语料库对Skip-gram模型进行词向量的训练,Skip-gram模型的目标函数为:
其中,wt为语料中某一特征词,Context(wt)表示wt周围的词语信息,将媒体文本的特征项序列输入训练好的Skip-gram模型中,得到特征项的词向量表示;
子步骤3-2,计算词语的TF-IDF权重,
TF值,即词频(Term Frequency),基于在文中出现的概率越高的词语越能代表文本的表达信息的原理,如果在文本集合D中包含多个文本,其中序号为n的文本表示为dn,文本dn中的第m个特征词表示为tm,n,利用公式2计算特征词tm,n的TF值:
其中,len表示文本dn中词语集合的长度,countm,n表示特征词tm,n在文本dn中出现的次数;
IDF值,即逆文本频率指数(Inverse Document Frequency),基于如果一个词在全部文本集中出现频率越高,那么这个词语无法代表该文本的原理,利用公式3计算特征词tm,n的IDF值:
其中,countm,n表示在包含N篇文本的文本集合中出现特征词tm,n的文本数量,a为经验常数,取1;
基于词语的TF值和IDF值,利用公式4计算特征词tm,n的TF-IDF值:
TF-IDFm,n=TFm,n×IDFm,n (4)
传统的Simhash算法对于词嵌入选择将词进行哈希,基于深度学习,使用词向量代替词哈希值,融入特征词的语义特征,增强文本局部敏感哈希值的相关性;
子步骤3-3,获得词性权重,使用Jieba工具对特征词进行词性标注,并且基于不同词性汉语对文本表征的影响,设计不同的词性权重参数,如表1所示:
表1词性权重参数配置表
子步骤3-4,计算位置权重,按照词语在文章的不同位置与文本内容的相关程度,使用公式5计算特征词的位置权重:
其中,posm,n表示词语tm,n在文档dn中所在位置的百分比,k1与k2是可调整的参数,其中k1取值为0.5,k2的取值为0.7;
子步骤3-5,计算特征词的综合权重值,基于词语的TF-IDF权重TF-IDFm,n,词性权重PSi以及位置权重Pm,n,使用公式6计算特征词的综合权重值:
Wm,n=TF-IDFm,n×PSi×Pm,n (6)
子步骤3-6,加权合并,将基于深度学习得到的特征词的词向量表示与对应的多维度特征融合的词权重值相乘得到每个特征词的加权字符串,然后对文本中每个特征词的加权字符串进行累加,得到一个序列串{Simh1,Simh2,…,Simhj,…Simhm},利用公式7计算Simhj的值:
其中,wi表示每个词的权重值,Hij表示第i个词的第j位二进制码;
子步骤3-7,序列降维,得到文本的Simhash指纹,将加权合并后的序列串转化为01串,形成最终的Simhash签名{Simh1,Simh2,…,Simhj,…Simhm},使用公式8计算Simj的值:
基于词语的向量化表示和词权重值,使用Simhash算法得到文本的64位Simhash指纹。
2.根据权利要求1所述的媒体文本相似性检测方法,其特征在于,步骤2,媒体稿件预处理,具体如下:
子步骤2-1,稿件网页预处理,包含自媒体文本的网页源码包含多个标签,在不同自媒体平台上,稿件文本对应的标签不一致,需要针对不同的网页源码进行分析,
子步骤2-2,稿件文本预处理,针对获得的稿件文本内容,使用Jieba分词工具对文本进行分词,并采用包含哈工大停用词表、百度停用词表以及四川大学机器智能实验室停用词库在内的中文常用停用词表进行停用词过滤,获得特征词序列。
3.根据权利要求2所述的媒体文本相似性检测方法,其特征在于,步骤4,建立指纹索引,结合倒排索引,将64的Simhash指纹拆为4个部分,每个部分为16位二进制码,然后分别用这4个部分的16位二进制码查找库中对应部分的索引值,如果没有找到索引值,则将这16位二进制码追加到链表上,如果有对应的索引值,将文本放入对应的内容中,因为自媒体文本的Simhash指纹为64位,本文建立4个表对应指纹的4个部分,每个部分分别建立索引值key为16位的Simhash指纹索引库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110469854.4A CN113111645B (zh) | 2021-04-28 | 2021-04-28 | 一种媒体文本相似性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110469854.4A CN113111645B (zh) | 2021-04-28 | 2021-04-28 | 一种媒体文本相似性检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113111645A CN113111645A (zh) | 2021-07-13 |
CN113111645B true CN113111645B (zh) | 2024-02-06 |
Family
ID=76721075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110469854.4A Active CN113111645B (zh) | 2021-04-28 | 2021-04-28 | 一种媒体文本相似性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113111645B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918621B (zh) * | 2019-02-18 | 2023-02-28 | 东南大学 | 基于数字指纹和语义特征的新闻文本侵权检测方法与装置 |
CN113808742B (zh) * | 2021-08-10 | 2024-07-02 | 三峡大学 | 一种基于文本特征降维的lstm注意力机制疾病预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918621A (zh) * | 2019-02-18 | 2019-06-21 | 东南大学 | 基于数字指纹和语义特征的新闻文本侵权检测方法与装置 |
CN110321925A (zh) * | 2019-05-24 | 2019-10-11 | 中国工程物理研究院计算机应用研究所 | 一种基于语义聚合指纹的文本多粒度相似度比对方法 |
CN110825877A (zh) * | 2019-11-12 | 2020-02-21 | 中国石油大学(华东) | 一种基于文本聚类的语义相似度分析方法 |
-
2021
- 2021-04-28 CN CN202110469854.4A patent/CN113111645B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918621A (zh) * | 2019-02-18 | 2019-06-21 | 东南大学 | 基于数字指纹和语义特征的新闻文本侵权检测方法与装置 |
CN110321925A (zh) * | 2019-05-24 | 2019-10-11 | 中国工程物理研究院计算机应用研究所 | 一种基于语义聚合指纹的文本多粒度相似度比对方法 |
CN110825877A (zh) * | 2019-11-12 | 2020-02-21 | 中国石油大学(华东) | 一种基于文本聚类的语义相似度分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113111645A (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107861939B (zh) | 一种融合词向量和主题模型的领域实体消歧方法 | |
WO2021114745A1 (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
WO2017167067A1 (zh) | 网页文本分类的方法和装置,网页文本识别的方法和装置 | |
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
CN111753167B (zh) | 搜索处理方法、装置、计算机设备和介质 | |
CN112541476B (zh) | 一种基于语义特征提取的恶意网页识别方法 | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN110888991B (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN109766544A (zh) | 基于lda和词向量的文档关键词抽取方法和装置 | |
CN113268569B (zh) | 基于语义的关联词查找方法及装置、电子设备、存储介质 | |
CN106933800A (zh) | 一种金融领域的事件句抽取方法 | |
CN113111645B (zh) | 一种媒体文本相似性检测方法 | |
CN112256861B (zh) | 一种基于搜索引擎返回结果的谣言检测方法及电子装置 | |
CN111324801B (zh) | 基于热点词的司法领域热点事件发现方法 | |
CN103324700A (zh) | 一种基于Web信息的本体概念属性学习方法 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN112860898B (zh) | 一种短文本框聚类方法、系统、设备及存储介质 | |
CN111160019A (zh) | 一种舆情监测的方法、装置及系统 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
CN110866102A (zh) | 检索处理方法 | |
CN111090994A (zh) | 一种面向中文网络论坛文本的事件地点归属省份识别方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN113282754A (zh) | 针对新闻事件的舆情检测方法、装置、设备和存储介质 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN111538893B (zh) | 一种从非结构化数据中提取网络安全新词的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |