CN110489745A - 基于引文网络的论文文本相似性的检测方法 - Google Patents

基于引文网络的论文文本相似性的检测方法 Download PDF

Info

Publication number
CN110489745A
CN110489745A CN201910701668.1A CN201910701668A CN110489745A CN 110489745 A CN110489745 A CN 110489745A CN 201910701668 A CN201910701668 A CN 201910701668A CN 110489745 A CN110489745 A CN 110489745A
Authority
CN
China
Prior art keywords
sentence
document
word
text
citation network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910701668.1A
Other languages
English (en)
Other versions
CN110489745B (zh
Inventor
武山山
王继民
罗鹏程
赵常煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Pan Language Technology Co Ltd
Peking University
Original Assignee
Chongqing Pan Language Technology Co Ltd
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Pan Language Technology Co Ltd, Peking University filed Critical Chongqing Pan Language Technology Co Ltd
Priority to CN201910701668.1A priority Critical patent/CN110489745B/zh
Publication of CN110489745A publication Critical patent/CN110489745A/zh
Application granted granted Critical
Publication of CN110489745B publication Critical patent/CN110489745B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于引文网络的论文文本相似性的检测方法,该方法在引文网络的基础上提出了基于书目耦合与语义指纹相结合的候选文档集过滤,在候选文档集上,基于词建立句子级别的倒排索引,进行相似句子检测与观点片段检测,生成相似文本,计算得到待检文档的复制比,从而判断出论文文本的相似性。本发明基于词向量的句子比对与观点检测,将词向量与同义词引入到文本相似性计算中,提升了句子相似性的计算效果且具有计算速度快的优点,能够检测出论文文本中可能涉及观点抄袭的文本片段。采用本发明不仅速度快,而且对词语替换、句子重组等形式的句子相似性检测具有好的效果。

Description

基于引文网络的论文文本相似性的检测方法
技术领域
本发明提供一种论文文本相似性的检测方法,具体涉及一种基于引文网络的论文文本相似性的检测方法,属于文本检测领域。
背景技术
论文抄袭不仅有违科研基本精神,而且严重损害了科研的公平性及其他人员的权益。随着信息社会的进一步发展,在线博客、数据库等使人们获取信息的成本越来越低,同时使抄袭变得越来越便利。论文抄袭主要指将他人的语言文字、图表公式或研究观点,经过编辑、拼凑、修改后加入到自己的论文当中,并当作自己的成果而不加引用的公开发表。因此需要有效的文本相似性的检测方法来应对论文抄袭。
目前论文文本相似性的检测方法主要有两种方法,一种是基于字符匹配的方法,一种是基于指纹的比对方法。基于字符匹配的方法通过计算句子之间相同的字符数或不同的字符数计算句子的相似性,基于指纹的匹配方法采用哈希函数将词、短语或片段转化后的哈希值(或哈希值的和),通过比对指纹间的重合程度衡量文本之间的相似性。两种方法在计算相似性的基础上设定一个相似性阈值,将相似性大于阈值的句子(片段)视为疑似抄袭的句子(片段)。最后通过计算文本复制比来判断论文文本是否相似。但是论文文本相似除了简单的复制文本外,还包括同义词替换、句子浓缩与组合、对文本进行摘要等方式修改原文档。因此,目前现有的论文文本相近性检测方法无法检出智能抄袭,存在效率不高、识别率低的问题。
发明内容
本发明的目的是提供一种高效、高识别率的基于引文网络的论文文本相似性的检测方法,以解决目前论文文本相似性检测的不足。
本发明的技术方案,具体方案如下:
基于引文网络的论文文本相似性的检测方法,其步骤包括:
1)提取或构建引文网络;
2)通过计算书目耦合度BCS和语义相似性FD过滤引文网络中的文档,生成候选文档集;
3)对待检文档进行规范化处理;
4)在候选文档集上基于词建立句子级别的倒排索引,进行相似句子检测与观点片段检测,生成相似文本,通过计算待检文档的复制比得到相似性的判断。
进一步,步骤2)中,计算书目耦合度BCS的公式如下:
其中Rd表示d文档的参考文献,|Rd1∩Rd2|表示d1文档与d2文档参考文献的重复数,|Rd1∪Rd2|表示文档d1和文档d2的总引文数。
步骤2)中,计算语义相似性FD,具体步骤如下:
2.1)对引文网络的每篇文本进行切词,去除停用词处理,基于tf提取其前50个关键词,并对关键词进行统一替换;
2.2)采用hash函数获得每个词的64位hash码;
2.3)将每篇文档的50个关键词,生成50*64个数字,然后将这些数字对应位置相加得到64个求和数,表示为(s1,s2,s3......s64),对每一个数如Si>0则置1,否则Si置0,生成每篇文档的64位语义指纹;
2.4)计算待测文档与引文网络中每篇文档语义指纹的汉明距离HD;
2.5)基于汉明距离计算文本语义相似性FD=1-HD/64。
步骤2)中,首先计算待测文档与引文网络中每篇文档的相似性R=(BCS+FD)/2,基于相似性R对引文网络中的文档进行排序,取前10--100篇作为候选文档集。
进一步,步骤3)中,具体包括:
3.1)去除文档中的图片、表格、公式、乱码字符;
3.2)对文本进行分句,分句的符号为句号、感叹号、分号或问号;
3.3)对句子进行分词,并进行同义词替换,对待检测的句子分词后进行同义词替换,获得处理后的词集W。
进一步,步骤4)进行相似句子检测的具体过程如下:
4.1)假设待检测的句子同义词替换后的词集是W1,候选句子同义词替换后的词集为W2,计算两者的公共词集W3=W1∩W2
4.2)计算待测句子集去除W3后的词集W4=W1-W3,计算候选句子词集去除W3后的词集W5=W2-W3
4.3)获取词集W4的词向量矩阵V1,获取词集W5的词向量矩阵V2,并计算矩阵内积V3=(V1,V2.T),V2.T为V2的转置;
4.4)计算矩阵V3行方向上的最大值,并求和得m;
4.5)计算词集W1和W2的交集W6
4.6)计算句子相似性R=(|W3|+m)/W6,R>0.65时,该句子构成可疑句子。
步骤4)中,对观点片段进行检测,其操作过程如下:
4.7)采用textRank方法计算出候选文档集和待测文档的核心句子,将包含核心句子的一段文本作为观点片段;
4.8)生成观点片段中每句的句向量表示,句向量的生成方式如下:
4.8.1)对每句进行切词,获得词集W,并计算每个词的tf-idf值;
4.8.2)基于词向量模型获得词的向量表示,基于tf-idf计算所有词向量的加权平均作为句向量;
4.9)基于句向量获得待测观点片段的句向量矩阵V1和候选文档观点片段的句向量矩阵V2;
4.10)计算两者的内积V=(V1,V2),并计算行方向上的最大值R;
4.11)计算S的平均值E,如E大于0.9,则判定观点片段构成相似。
步骤4)中,若相似句子相邻则直接合并成片段,若相似句子的字数小于30个,则过滤掉,相似句子片段与相似观点片段合并构成相似文本。
步骤4)中,复制比=相似文本的字符数/待检文档总字符数,得到待检文档的复制比,从而判断出论文文本的相似性。
本发明在引文网络的基础上提出了基于书目耦合与语义指纹相结合的候选文档集过滤方法。该方法在过滤候选文档时,既考虑了文档在引用模式上的相似性又考虑了文档在内容上的相似性。与传统的检索模型相比,在保证候选文档集质量的前提下,减少了候选文档集的生成时间;与基于引文分析的候选集生成方法相比,该方法考虑了文档内容相似性,生成的候选文档集更为全面。其次在文本细致比对阶段,为了解决字符串匹配无法检测词语替换、句子重组及观点抄袭等抄袭手段的问题,本发明提出基于词向量的句子比对与观点检测,将词向量与同义词引入到相似性中,提升了句子相似性的计算效果且具有计算速度快的优点。且本发明能够检测出文本中可能涉及观点抄袭的文本片段。
采用本发明对市场经济管理主题下的100篇论文进行了检测。检测发现本发明不仅速度快,而且对词语替换、句子重组等相似性检测具有好的效果,其中观点抄袭对小幅改动的观点内容有一定的效果。检测结果显示平均每篇用时约7-10S,平均每篇复制比为0.44%,与仅基于字符的方法相比高0.11%,并在检测中发现1篇论文涉嫌观点抄袭。
附图说明
图1是本发明基于引文网络的论文文本相似性的检测方法的流程图;
图2是引文网络示意图。
具体实施方式
如图1所示,本发明基于引文网络的论文文本相似性的检测方法,具体步骤包括:
1.引文网络提取或构建,其具体操作如下:
首先,以论文标题和作者检索引文网络数据库,若该篇论文在数据库中则从引文网络库中直接提取其引文网络;若该篇论文不在库中,则解析其参考文献,然后通过参考文献构造其引文网络(如图2所示)。例如文献T、作者a,则以(T,a)问检索条件,检索其引文网络,若(T,a)不在引文网络库,则解析其参考文献,生产引文网络。如文献T的参考文献为(T1,a1)、(T2,a2)、(T3,a3),则分别以(T1,a1)、(T2,a2)、(T3,a3)为检索条件生成(T,a)的引文网络。其生成的结果为:参考文档集一级,共引文档集1,参考文档集二级,共引文档集2。
2.生成候选文档集,其生成操作如下。
2.1)计算引文网络中的每篇文档与待检文档的数目耦合度BCS,如论文A有参考文献a、b、c、d、B论文有a,c,d,e,则AB的文献耦合度为3/5。其计算公式如公式1:
其中Rd表示d文档的参考文献,|Rd1∩Rd2|表示d1文档与d2文档参考文献的重复数,|Rd1∪Rd2|表示文档d1和文档d2的总引文数(去重)。
2.2)计算引文网络中每篇文档与待检文档的语义相似性FD。其操作如下。
2.2.1)对引文网络的每篇文档进行切词,去除停用词处理,基于tf提取其前50个关键词,并对关键词进行统一替换,如近义词A、B、C统一替换为A。
2.2.2)采用hash函数获得每个词的64位hash码,
如词“北京市”经hash函数后生产的64位hash码为“1000101010101101010001110000010011110000011011101111000010111010”,将hash码的0置为-1,1不变,乘以词的tf值,生成64个数字,表示为(a1,a2,a3……a64)。
2.2.3)将每篇文档的50个关键词,生成50*64个数字,然后将这些数字对应位置相加得到64个求和数,表示为(s1,s2,s3……s64),对每一个数如si>0则置1,否则si置0,生成每篇文档的64位语义指纹。
2.2.4)计算待测文档与引文网络中每篇文档语义指纹的汉明距离HD。如文档A的语义指纹为:
“0010000000000000000001110101111000010011100011001110000110000001”
文档B的语义指纹为:
“0010000000000000000001110101111000010011100011001110000110000001”
两者汉明距离为9。
2.2.5)基于汉明距离计算文本语义相似性FD=1-HD/64。
2.3)计算待测文档与引文网络中每篇文档的相似性R=(BCS+FD)/2。
2.4)基于相似性R对引文网络中的文档进行排序,取前100篇作为候选文档集。
3.在进行文本细致比对前需要对待测文档进行规范化处理,具体处理过程为:
3.1)去除待测文档中的图片、表格、公式、乱码字符。
3.2)对待测文本进行分句,分句的符号为句号(。)感叹号(!)分号(;)问号(?)
3.3)对句子进行分词,并进行同义词替换,对待检测的句子分词后进行同义词替换,获得处理后的词集W。
4.在候选文档集上基于词建立句子级别的倒排索引,进行可疑的相似句子检测与观点抄袭片段检测,生成相似性高的可疑相似文本,计算得到待检文档的复制比,其检测过程操作如下:
4.1)基于词集W去检索候选文档集中的句子,并对检索到的句子频次进行统计,由高到低进行排序。选取前三个句子作为候选句子进行相似性计算,若其中一个相似性R的值大于0.65,则认为该句子可能抄袭。句子相似性的计算过程如下:
4.1.1)假设带检测的句子同义词替换后的词集是W1,候选句子同义词替换后的词集为W2,计算两者的公共词集W3=W1∩W2
4.1.2)计算待测句子集去除W3后的词集W4=W1-W3,计算候选句子词集去除W3后的词集W5=W2-W3
4.1.3)获取词集W4的词向量矩阵V1,获取词集W5的词向量矩阵V2,并计算矩阵内积V3=(V1,V2.T)(V2.T为V2的转置)。
4.1.4)计算矩阵V3行方向上的最大值,并求和的m
4.1.5)计算词集W1和W2的交集W6
4.1.6)计算句子相似性R=(|W3|+m)/W6.
4.2)在候选文档集上基于词建立句子级别的倒排索引,对观点抄袭片段进行检测,其操作过程如下:
4.2.1)采用textRank方法计算出候选文档集和待测文档的核心句子,这里核心句子数取3个。
4.2.2)以5为句子数窗口的大小,采用滑动窗口的方式构造包含文档观点的文本片段。如有句子集顺序为A,B,C,D,E,F,G,识别的核心句子为E,则生成的文档观点片段为(ABCDE)、(BCDEF)、(CDEFG)。
4.2.3)生成待检文档和候选文档集的文档观点片段集。
4.3)依次检测待检文档的每个文档观点片段是否涉嫌抄袭,其检测过程如下:
4.3.1)生成文档片段中每句的句向量表示,句向量的生成方式如下:
a)对每句进行切词,获得词集W,并计算每个词的tf-idf值。
b)基于词向量模型获得词的向量表示,基于tf-idf计算所有词向量的加权平均作为句向量。
4.3.2)基于句向量获得待测文档片段的句向量矩阵V1,获得候选文档片段的句向量矩阵V2
4.3.3)计算两者的内积V=(V1,V2),并计算行方向上的最大值S。
4.3.4)计算S的平均值E,如E大于0.9,则判定文档观点片段可能涉嫌抄袭。
对于判定为相似的句子,若相似句子相邻这合并成片段。如句子的字数小于30个字则过滤掉。生成的相似句子片段与观点片段合并构成可疑的相似文本。
最后计算待测文本的复制比,复制比=可疑的相似文本的字符数/待测文档总字符数。
上述说明仅对本方法的技术方案做了概述,为了能够更清楚的了解本发明的技术手段,并可依照说明书的内容予以实施,以下配合附图做详细说明。

Claims (9)

1.一种基于引文网络的论文文本相似性的检测方法,其步骤包括:
1.1)提取或构建引文网络;
1.2)通过计算书目耦合度BCS和语义相似性FD过滤引文网络中的文档,生成候选文档集;
1.3)对待检文档进行规范化处理;
1.4)在候选文档集上基于词建立句子级别的倒排索引,再进行相似句子检测与观点片段检测,生成相似文本,通过计算待检文档的复制比得到相似性的判断。
2.如权利要求1所述的基于引文网络的论文文本相似性的检测方法,其特征是,步骤2)中,计算书目耦合度BCS的公式如下:
其中Rd表示d文档的参考文献,|Rd1∩Rd2|表示d1文档与d2文档的重复数,|Rd1∪Rd2|表示文档d1和文档d2的总引文数。
3.如权利要求1所述的基于引文网络的论文文本相似性的检测方法,其特征是,步骤2)中,计算语义相似度FD,具体步骤如下:
2.1)对引文网络的每篇文旦进行切词,去除停用词处理,基于tf提取其前50个关键词,并对关键词进行统一替换;
2.2)采用hash函数获得每个词的64位hash码;
2.3)将每篇文档的50个关键词,生成50*64个数字,然后将这些数字对应位置相加得到64个求和数,表示为(s1,s2,s3……s64),对每一个数如si>0则置1,否则si置0,生成每篇文档的64位语义指纹;
2.4)计算待测文档与引文网络中每篇文档语义指纹的汉明距离HD;
2.5)基于汉明距离计算文本语义相似度FD=1-HD/64。
4.如权利要求1所述的基于引文网络的论文文本相似性的检测方法,其特征是,步骤2)中,首先计算待测文档与引文网络中每篇文档的相似度R=(BCS+FD)/2,基于相似度R对引文网络中的文档进行排序,取前10-100篇作为候选文档集。
5.如权利要求1所述的基于引文网络的论文文本相似性的检测方法,其特征是,步骤3)中,具体包括:
3.1)去除文档中的图片、表格、公式、乱码字符;
3.2)对文本进行分句,分句的符号为句号、感叹号、分号或问号;
3.3)对句子进行分词,并进行同义词替换,对待检测的句子分词后进行同义词替换,获得处理后的词集W。
6.如权利要求1所述的基于引文网络的论文文本相似性的检测方法,其特征是,步骤4)具体相似句子的具体计算过程如下:
4.1)假设带检测的句子同义词替换后的词集是W1,候选句子同义词替换后的词集为W2,计算两者的公共词集W3=W1∩W2
4.2)计算待测句子集去除W3后的词集W4=W1-W3,计算候选句子词集去除W3后的词集W5=W2-W3
4.3)获取词集W4的词向量矩阵V1,获取词集W5的词向量矩阵V2,并计算矩阵内积V3=(V1,V2.T),V2.T为V2的转置;
4.4)计算矩阵V3行方向上的最大值,并求和的m;
4.5)计算词集W1和W1的交集W6
4.6)计算句子相似度R=(|W3|+m)/W6,R>0.65时,该句子构成相似。
7.如权利要求1所述的基于引文网络的论文文本相似性的检测方法,其特征是,步骤4)中,对观点片段进行检测,其操作过程如下:
4.7)采用textRank方法计算出候选文档集和待测文档的核心句子,将包含核心句子的一段文本作为观点片段;
4.8)生成观点片段中每句的句向量表示,句向量的生成方式如下:
4.8.1)对每句进行切词,获得词集W,并计算每个词的tf-idf值;
4.8.2)基于词向量模型获得词的向量表示,基于tf-idf计算所有词向量的加权平均作为句向量;
4.9)基于句向量获得待测观点片段的句向量矩阵V1和候选文档观点片段的句向量矩阵V2;
4.10)计算两者的内积V=(V1,V2),并计算行方向上的最大值S;
4.11)计算S的平均值E,如E大于0.9,则判定观点片段构成相似。
8.如权利要求1所述的基于引文网络的论文文本相似性的检测方法,其特征是,步骤4)中,若相似句子相邻则直接合并成片段,若相似句子的字数小于30个,则过滤掉,相似句子片段与相似观点片段合并构成相似文本。
9.如权利要求1所述的基于引文网络的论文文本相似性的检测方法,其特征是,步骤4)中,复制比=相似文本的字符数/待检文档总字符数。
CN201910701668.1A 2019-07-31 2019-07-31 基于引文网络的论文文本相似性的检测方法 Active CN110489745B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910701668.1A CN110489745B (zh) 2019-07-31 2019-07-31 基于引文网络的论文文本相似性的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910701668.1A CN110489745B (zh) 2019-07-31 2019-07-31 基于引文网络的论文文本相似性的检测方法

Publications (2)

Publication Number Publication Date
CN110489745A true CN110489745A (zh) 2019-11-22
CN110489745B CN110489745B (zh) 2020-12-22

Family

ID=68548940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910701668.1A Active CN110489745B (zh) 2019-07-31 2019-07-31 基于引文网络的论文文本相似性的检测方法

Country Status (1)

Country Link
CN (1) CN110489745B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111381191A (zh) * 2020-05-29 2020-07-07 支付宝(杭州)信息技术有限公司 一种对文本进行同义修改、确定文本创作者的方法
CN111898366A (zh) * 2020-07-29 2020-11-06 平安科技(深圳)有限公司 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN112989793A (zh) * 2021-05-17 2021-06-18 北京创新乐知网络技术有限公司 文章检测方法及装置
CN112989038A (zh) * 2021-02-08 2021-06-18 浙江连信科技有限公司 句子级用户画像生成方法、装置及存储介质
CN114444498A (zh) * 2021-12-20 2022-05-06 奇安信科技集团股份有限公司 文本查重方法、装置、电子设备及存储介质
CN115563515A (zh) * 2022-12-07 2023-01-03 粤港澳大湾区数字经济研究院(福田) 文本相似性检测方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227897A (zh) * 2016-08-31 2016-12-14 青海民族大学 一种基于藏文句子级别的藏文论文复制检测方法及系统
CN109284485A (zh) * 2018-08-02 2019-01-29 哈尔滨工程大学 一种基于引用的论文原创性检测方法
CN109376238A (zh) * 2018-09-14 2019-02-22 大连理工大学 一种基于参考文献列表重叠度的论文相关度量化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227897A (zh) * 2016-08-31 2016-12-14 青海民族大学 一种基于藏文句子级别的藏文论文复制检测方法及系统
CN109284485A (zh) * 2018-08-02 2019-01-29 哈尔滨工程大学 一种基于引用的论文原创性检测方法
CN109376238A (zh) * 2018-09-14 2019-02-22 大连理工大学 一种基于参考文献列表重叠度的论文相关度量化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RAJA HABIB ET AL.: "Sections-based bibliographic coupling for research paper recommendation", 《SCIENTOMETRICS》 *
白如江 等: "基于数字指纹的文献相似度检测研究", 《图书情报工作》 *
看不太 等: "藏文学术论文复制检测技术研究", 《信息与电脑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111381191A (zh) * 2020-05-29 2020-07-07 支付宝(杭州)信息技术有限公司 一种对文本进行同义修改、确定文本创作者的方法
CN111381191B (zh) * 2020-05-29 2020-09-01 支付宝(杭州)信息技术有限公司 一种对文本进行同义修改、确定文本创作者的方法
CN111898366A (zh) * 2020-07-29 2020-11-06 平安科技(深圳)有限公司 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN111898366B (zh) * 2020-07-29 2022-08-09 平安科技(深圳)有限公司 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN112989038A (zh) * 2021-02-08 2021-06-18 浙江连信科技有限公司 句子级用户画像生成方法、装置及存储介质
CN112989038B (zh) * 2021-02-08 2022-06-21 浙江连信科技有限公司 句子级用户画像生成方法、装置及存储介质
CN112989793A (zh) * 2021-05-17 2021-06-18 北京创新乐知网络技术有限公司 文章检测方法及装置
CN114444498A (zh) * 2021-12-20 2022-05-06 奇安信科技集团股份有限公司 文本查重方法、装置、电子设备及存储介质
CN115563515A (zh) * 2022-12-07 2023-01-03 粤港澳大湾区数字经济研究院(福田) 文本相似性检测方法、装置、设备及存储介质
CN115563515B (zh) * 2022-12-07 2023-05-16 粤港澳大湾区数字经济研究院(福田) 文本相似性检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110489745B (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
CN110489745A (zh) 基于引文网络的论文文本相似性的检测方法
Venugopalan et al. An enhanced guided LDA model augmented with BERT based semantic strength for aspect term extraction in sentiment analysis
Wang et al. That’s so annoying!!!: A lexical and frame-semantic embedding based data augmentation approach to automatic categorization of annoying behaviors using# petpeeve tweets
CN110046260B (zh) 一种基于知识图谱的暗网话题发现方法和系统
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
Bellaachia et al. Ne-rank: A novel graph-based keyphrase extraction in twitter
Ruwandika et al. Identification of hate speech in social media
CN105824959A (zh) 舆情监控方法及系统
CN107544988B (zh) 一种获取舆情数据的方法和装置
Botnevik et al. Brenda: Browser extension for fake news detection
CN106202211A (zh) 一种基于微博类型的集成微博谣言识别方法
El-Shishtawy et al. An accurate arabic root-based lemmatizer for information retrieval purposes
CN105760439A (zh) 一种基于特定行为共现网络的人物共现关系图谱构建方法
CN112256861B (zh) 一种基于搜索引擎返回结果的谣言检测方法及电子装置
CN107480200A (zh) 基于词标签的词语标注方法、装置、服务器及存储介质
CN106682123A (zh) 一种获取热点事件的方法及装置
CN106529492A (zh) 面向网络查询基于多图融合视频主题分类与描述方法
CN109857869A (zh) 一种基于Ap增量聚类和网络基元的热点话题预测方法
Choi et al. Using topic modeling and adversarial neural networks for fake news video detection
Gupta et al. Plagiarism detection in text documents using sentence bounded stop word n-grams
Alksher et al. A review of methods for mining idea from text
Campbell et al. Content+ context networks for user classification in twitter
Bellaachia et al. Learning from twitter hashtags: Leveraging proximate tags to enhance graph-based keyphrase extraction
CN103034657A (zh) 文档摘要生成方法和装置
Han et al. Mining Technical Topic Networks from Chinese Patents.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant