CN105786799A - 网络文章原创性判定方法 - Google Patents

网络文章原创性判定方法 Download PDF

Info

Publication number
CN105786799A
CN105786799A CN201610163870.XA CN201610163870A CN105786799A CN 105786799 A CN105786799 A CN 105786799A CN 201610163870 A CN201610163870 A CN 201610163870A CN 105786799 A CN105786799 A CN 105786799A
Authority
CN
China
Prior art keywords
article
determined
vector
feature sets
document feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610163870.XA
Other languages
English (en)
Inventor
聂敏
杨磊
夏虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Xundao Technology Co Ltd
Original Assignee
Chengdu Xundao Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Xundao Technology Co Ltd filed Critical Chengdu Xundao Technology Co Ltd
Priority to CN201610163870.XA priority Critical patent/CN105786799A/zh
Publication of CN105786799A publication Critical patent/CN105786799A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网络文章原创性判定方法,首先对待判定文章进行分词,得到特征词条,统计特征词条的出现频率并计算Hash值,通过出现频率和Hash值计算特征词条的权值向量,将所有特征词条的权值向量累加得到文章的权值向量,对权值向量进行降维得到文章的判定向量,计算待判定文章与数据库中参考文章的判定向量的汉明距离,根据汉明距离进行原创性判定,得到是否具有原创性的结果;如果判定得到相似文章,则需要进一步精确判定:得到待判定文章与相似文章的特征词条,构建两篇文章的特征向量,通过特征向量的相似度来进行原创性判定。本发明结合文章特征词条的出现频率和Hash值来计算网络文章之间的相似度,实现更为可靠有效的文章原创性判定。

Description

网络文章原创性判定方法
技术领域
本发明属于文本挖掘技术领域,更为具体地讲,涉及一种网络文章原创性判定方法。
背景技术
在科学研究领域,论文的原创性在很大程度上体现上学者的学术水平,是论文质量的重要指标,在论文发表时通常需要对论文的原创性进行判定。在互联网领域,网络文章作为一种具有极强传播性与影响力的事物,在网络舆论中发挥着重要的作用。但是由于网络不易监管的特性,导致网络文章原创性较差,更易出现抄袭行为。为了避免抄袭,需要对网络文章的原创性判定方法进行探索。
目前的网络文章原创性判定方法包括逐字比对、提取特征词条进行比对匹配等等。这些方法的判定结果的可靠性较差,大部分都只能作为人工判定的辅助性手段,需要进一步研究更具有效性的网络文章原创性判定方法。
发明内容
本发明的目的在于克服现有技术的不足,提供一种网络文章原创性判定方法,结合文章特征词条的出现频率和Hash值来计算网络文章之间的相似度,实现更为可靠有效的文章原创性判定。
为实现上述发明目的,本发明网络文章原创性判定方法包括以下步骤:
S1:对待判定文章的文本进行分词处理,得到文章的特征词条;
S2:对于待判定文章的特征词条,统计每个特征词条在文章中的出现频率,按照出现频率从大到小抽取前N个特征词条,第i个特征词条记为fi,对应的出现频率记为di,其中i=1,2,…,N,N根据实际需要进行设置;
S3:对于每个特征词条fi,使用Hash函数计算该词条的Hash值,计算结果取M位,记为Hi=(hi1,hi2,...,hiM),其中M=2α,α≥5;
S4:根据每个特征词条fi的权重di和Hash值Hi,计算特征词条的权值向量Wi=(wi1,wi2,...,wiM),其中第j个权值元素wij的计算公式为j=1,2,…,M;
S5:将N个特征词条的权值向量Wi按位累加,得到权值向量Q=(q1,q2,...,qM),其中对权值向量Q进行降维,得到判定向量S=(s1,s2,...,sM),其具体方法为:
s j = { 1 , q j > 0 0 , q j ≤ 0 ;
S6:计算待判定文章的判定向量S与数据库中参考文章的判定向量的汉明距离;如果待判定文章的判定向量与所有参考文章的判定向量的汉明距离都大于T1,则判定待判定文章具有原创性,判定结束;如果与一篇以上参考文章的判定向量的汉明距离在范围[T2,T1]内,则将这些参考文章作为待判定文章的相似文章,进入步骤S107;如果与一篇以上参考文章的判定向量的汉明距离小于T2,则将这些参考文章作为待判定文章的雷同文章,判定待判定文章不具有原创性,判定结束;T1和T2是预先设置的两个汉明距离阈值,其中T2<T1
S7:对于待判定文章及其对应的相似文章,分别获取每篇文章的特征向量,获取特征向量的方法为:对文章进行分词处理,得到文章的特征词条,统计各个特征词条在文章中的出现频率,按照出现频率从大到小抽取前R个特征词条,第r个特征词条记为fr,对应的出现频率记为dr,其中r=1,2,…,R,R根据实际需要进行设置;
分别计算待判定文章和每篇相似文章的相似度,相似度计算方法为:记待判定文章的特征词条集合为A,相似文章的特征词条集合为B,求取两个集合的并集C=A∪B,根据特征词条集合C构建待判定文章的特征向量Va=(va1,va2,…,vaK)和相似文章的特征向量Vb=(vb1,vb2,…,vbK),其中K表示特征词条集合C中的特征词条数量,vak和vbk分别表示第k个特征词条在待判定文章和相似文章中的出现频率,k=1,2,…,K;计算特征向量Va和Vb之间的相似度,该相似度即为文章间的相似度;如果待判定文章与一篇以上相似文章的相似度大于预设相似度阈值T3,则将这些相似文章作为待判定文章的雷同文章,判定待判定文章不具有原创性,判定结束。
本发明网络文章原创性判定方法,首先对待判定文章进行分词,得到特征词条,统计特征词条的出现频率并计算Hash值,通过出现频率和Hash值计算特征词条的权值向量,将所有特征词条的权值向量累加得到文章的权值向量,对权值向量进行降维得到文章的判定向量,计算待判定文章与数据库中参考文章的判定向量的汉明距离,根据汉明距离进行原创性判定,得到是否具有原创性的结果;如果判定得到相似文章,则需要进一步精确判定:得到待判定文章与相似文章的特征词条,构建两篇文章的特征向量,通过特征向量的相似度来进行原创性判定。
本发明通过特征词条的出现频率和Hash值来计算文章的判定向量,通过判定向量进行初步判定,对于初步判定无法得到结果的相似文章,则通过进一步构建文章的特征向量来进行判定,使判定结果更为可靠。
附图说明
图1是本发明网络文章原创性判定方法的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明网络文章原创性判定方法的流程图。如图1所示,本发明网络文章原创性判定方法包括以下步骤:
S101:分词处理:
对待判定文章的文本进行分词处理,得到文章的特征词条。分词处理是文本处理的一种常用技术,其具体过程在此不再赘述。分词处理的作用是将文本离散化,从而将文档转化为一组词条,每一个词条都可以看作是文本的一个特征。在分词的时候可以去除助词、虚词等,从而提高判定精度,同时还可以去掉一些标点符号与干扰符,可防止在文档中加特殊干扰符的作弊行为。
S102:统计特征词条出现频率:
对于待判定文章的特征词条,统计每个词在文章中的出现频率,将其作为该特征词条的权值,权值越大说明对文章意义的贡献越大。按照出现频率从大到小抽取前N个特征词条,第i个特征词条记为fi,对应的权值(即出现频率)记为di,其中i=1,2,…,N,N根据实际需要进行设置。
S103:计算特征词条Hash值:
对于每个特征词条fi,使用Hash函数计算该词条的Hash值,计算结果取M位,记为Hi=(hi1,hi2,…,hiM)。Hash值的计算是一种常用方法,其具体过程在此不再赘述。Hash值的位数M可以根据实际需要来确定。理论上,一个位数为32位的Hash字符串可以区分近43亿个不同的词条,因此M的取值范围可以设置为M≥32,M一般设置为2的幂,因此可知M=2α,α≥5。
S104:计算特征词条权值向量:
根据每个特征词条fi的权重di和Hash值Hi,计算特征词条的权值向量Wi=(wi1,wi2,...,wiM),其中第j个权值元素wij的计算公式为其中j=1,2,…,M。也就是说,当hij=1时,得到的权值元素wij=di,当hij=0时,得到的权值元素wij=-di
假设某个特征词条的Hash值为1001…01,其对应的权重为d,那么其对应的权值向量为(d,-d,-d,d,…,-d,d)。
S105:计算文章判定向量:
将N个特征词条的权值向量Wi按位累加,得到权值向量Q=(q1,q2,…,qM),其中权值向量Q即为待判定文章的特征向量,由于该向量是根据各个特征词条的Hash值计算得到的,因此权值向量Q在一定程度上体现了待判定文章的特征。为了便于判定,需要对权值向量Q进行降维,得到判定向量S=(s1,s2,…,sM),其具体方法为:
s j = 1 , q j > 0 0 , q j ≤ 0
例如某文章的权值向量Q=(4,-3,5,2,…-9,7),那么降维得到的判定向量S=(1,0,1,1,…,0,1)。
S106:初步判定:
计算待判定文章的判定向量S与数据库中参考文章的判定向量的汉明距离。数据库中的所有参考文章都按照步骤S101至步骤S105的方法预先计算出了各自的判定向量。两篇文章判定向量的汉明距离越小,则认为两篇文章越接近。汉明距离是两个字符串对应位置的不同字符的个数,它是将一个字符串变换成另外一个字符串所需要替换的字符个数。汉明距离的求法为:异或时,只有在两个比较的位不同时其结果是1,否则结果为0,两个二进制字符串进行异或运算后得到1的个数即为汉明距离的大小。例如,两篇文章的初步判定值分别为S1=1011101和S2=1001001,则S1和S2之间的汉明距离为2。
预先设置两个汉明距离阈值T1和T2,其中T2<T1。如果待判定文章的判定向量与所有参考文章的判定向量的汉明距离都大于T1,则判定待判定文章具有原创性,判定结束;如果与一篇以上参考文章的判定向量的汉明距离在范围[T2,T1]内,则将这些参考文章作为待判定文章的相似文章,进入步骤S107;如果与一篇以上参考文章的判定向量的汉明距离小于T2,则将这些参考文章作为待判定文章的雷同文章,判定待判定文章不具有原创性,判定结束。汉明距离阈值T1和T2的大小可以根据判定向量S的位数来设置,为了更为准确地判定,两个阈值不宜太大,一般来说可以设置以128位为例,采用向上取整,T1=15,T2=7。
由于数据库中参考文章的量非常大,如果逐个进行判定向量汉明距离的计算需要花费较多时间,因此本发明建立了一个数据库的索引,通过索引来查找潜在的相似文章或雷同文章,从而缩短计算时间,其具体方法为:
将数据库中每篇参考文章的M位判定向量划分为X个部分,每个部分长度为8位。当汉明距离阈值时,通过抽屉原理可知,则必定有一个部分相等。也就是说X个部分中必定有一个部分相等。将每个部分字符串分别作为一个关键字,与判定向量建立映射关系,那么每篇参考文章就有X个映射关系。记数据库中所有参考文章得到的关键字数量为G,第g个关键字keyg对应的参考文章集合为setg,其中g=1,2,…,G,建立索引{keyg,setg},得到映射表。对于待判定文章,同样将其判定向量划分为X个部分,将每个部分作为关键字在索引表中搜索得到对应的文章集合,将X个文章集合合并,合并后集合所包含的参考文章即为潜在的相似文章或雷同文章,再通过计算待判定文章的判定向量S与这些文章的判定向量的汉明距离来进行原创性判定。
S107:精确判定:
当待判定文章存在相似文章时,还需要进行进一步的精确分析,以判定该待判定文章的原创性,其具体方法为:
对于待判定文章及其对应的相似文章,分别获取每篇文章的特征向量,获取特征向量的方法为:对文章进行分词处理,得到文章的特征词条,统计各个特征词条在文章中的出现频率,按照出现频率从大到小抽取前R个特征词条,第r个特征词条记为fr,对应的出现频率记为dr,其中r=1,2,…,R,R根据实际需要进行设置。由于本步骤中所需计算的文章相对较少,而且所需的结果要求要更精确,因此本步骤中的特征词条数量R一般要大于步骤S101中的特征词条数量N。
分别计算待判定文章和每篇相似文章的相似度,相似度计算方法为:记待判定文章的特征词条集合为A,相似文章的特征词条集合为B,求取两个集合的并集C=A∪B,根据特征词条集合C构建待判定文章的特征向量Va=(va1,va2,…,vaK)和相似文章的特征向量Vb=(vb1,vb2,…,vbK),其中K表示特征词条集合C中的特征词条数量,vak和vbk分别表示第k个特征词条在待判定文章和相似文章中的出现频率,k=1,2,…,K。显然,文章的原始特征词条集合中不存在的特征词条在该文章的出现频率为0。计算特征向量Va和Vb之间的相似度,该相似度即为文章间的相似度。目前最常用的向量相似度为余弦相似度。
如果待判定文章与一篇以上相似文章的相似度大于预设相似度阈值T3,则将这些相似文章作为待判定文章的雷同文章,判定待判定文章不具有原创性,判定结束。相似度阈值T3可以根据实际需要进行设置。一般来说,可以预先设定一个相似度阈值T3,对已经判定结果的文章进行判定,人工检查判定结果,再对相似度阈值T3进行调整,从而得到一个合适的值。本实施例中,设置相似度阈值T3=0.3。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (5)

1.一种网络文章原创性判定方法,其特征在于,包括以下步骤:
S1:对待判定文章的文本进行分词处理,得到文章的特征词条;
S2:对于待判定文章的特征词条,统计每个特征词条在文章中的出现频率,按照出现频率从大到小抽取前N个特征词条,第i个特征词条记为fi,对应的出现频率记为di,其中i=1,2,…,N,N根据实际需要进行设置;
S3:对于每个特征词条fi,使用Hash函数计算该词条的Hash值,计算结果取M位,记为Hi=(hi1,hi2,…,hiM),其中M=2α,α≥5;
S4:根据每个特征词条fi的权重di和Hash值Hi,计算特征词条的权值向量Wi=(wi1,wi2,…,wiM),其中第j个权值元素wij的计算公式为j=1,2,…,M;
S5:将N个特征词条的权值向量Wi按位累加,得到权值向量Q=(q1,q2,…,qM),其中对权值向量Q进行降维,得到判定向量S=(s1,s2,…,sM),其具体方法为:
s j = 1 , q j > 0 0 , q j ≤ 0
S6:计算待判定文章的判定向量S与数据库中参考文章的判定向量的汉明距离;如果待判定文章的判定向量与所有参考文章的判定向量的汉明距离都大于T1,则判定待判定文章具有原创性,判定结束;如果与一篇以上参考文章的判定向量的汉明距离在范围[T2,T1]内,则将这些参考文章作为待判定文章的相似文章,进入步骤S107;如果与一篇以上参考文章的判定向量的汉明距离小于T2,则将这些参考文章作为待判定文章的雷同文章,判定待判定文章不具有原创性,判定结束;T1和T2是预先设置的两个汉明距离阈值,其中T2<T1
S7:对于待判定文章及其对应的相似文章,分别获取每篇文章的特征向量,获取特征向量的方法为:对文章进行分词处理,得到文章的特征词条,统计各个特征词条在文章中的出现频率,按照出现频率从大到小抽取前R个特征词条,第r个特征词条记为fr,对应的出现频率记为dr,其中r=1,2,…,R,R根据实际需要进行设置;
分别计算待判定文章和每篇相似文章的相似度,相似度计算方法为:记待判定文章的特征词条集合为A,相似文章的特征词条集合为B,求取两个集合的并集C=A∪B,根据特征词条集合C构建待判定文章的特征特征向量Va=(va1,va2,…,vaK)和相似文章的特征向量Vb=(vb1,vb2,…,vbK),其中K表示特征词条集合C中的特征词条数量,vak和vbk分别表示第k个特征词条在待判定文章和相似文章中的出现频率,k=1,2,…,K;计算特征向量Va和Vb之间的相似度,该相似度即为文章间的相似度;如果待判定文章与一篇以上相似文章的相似度大于预设相似度阈值T3,则将这些相似文章作为待判定文章的雷同文章,判定待判定文章不具有原创性,判定结束。
2.根据权利要求1所述的网络文章原创性判定方法,其特征在于,所述步骤S6中阈值T1和T2的计算公式为
3.根据权利要求2所述的网络文章原创性判定方法,其特征在于,所述步骤S6中,在计算汉明距离之前对数据库中参考文章进行预选,搜索潜在的相似文章或雷同文章,其具体方法为:将数据库中每篇参考文章的M位判定向量划分为X个部分,每个部分长度为8位,将每个部分字符串分别作为一个关键字,与判定向量建立映射关系。记数据库中所有参考文章得到的关键字数量为G,第g个关键字keyg对应的参考文章集合为setg,其中g=1,2,…,G,建立索引{keyg,setg},得到映射表;对于待判定文章,同样将其判定向量划分为X个部分,将每个部分作为关键字在索引表中搜索得到对应的文章集合,将X个文章集合合并,合并后集合所包含的参考文章即为潜在的相似文章或雷同文章。
4.根据权利要求1所述的网络文章原创性判定方法,其特征在于,所述步骤S7中特征词条数量R>N。
5.根据权利要求1所述的网络文章原创性判定方法,其特征在于,所述步骤S7中阈值T3=0.3。
CN201610163870.XA 2016-03-21 2016-03-21 网络文章原创性判定方法 Pending CN105786799A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610163870.XA CN105786799A (zh) 2016-03-21 2016-03-21 网络文章原创性判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610163870.XA CN105786799A (zh) 2016-03-21 2016-03-21 网络文章原创性判定方法

Publications (1)

Publication Number Publication Date
CN105786799A true CN105786799A (zh) 2016-07-20

Family

ID=56390459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610163870.XA Pending CN105786799A (zh) 2016-03-21 2016-03-21 网络文章原创性判定方法

Country Status (1)

Country Link
CN (1) CN105786799A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326388A (zh) * 2016-08-17 2017-01-11 乐视控股(北京)有限公司 一种信息处理方法和装置
CN106708947A (zh) * 2016-11-25 2017-05-24 成都寻道科技有限公司 一种基于大数据的网络文章转发识别方法
CN107967364A (zh) * 2017-12-22 2018-04-27 新华网股份有限公司 网络文章传播力评估方法及装置
CN108073708A (zh) * 2017-12-20 2018-05-25 北京百度网讯科技有限公司 信息输出方法和装置
CN108170650A (zh) * 2016-12-07 2018-06-15 北京京东尚科信息技术有限公司 文本比较方法以及文本比较装置
CN108595439A (zh) * 2018-05-04 2018-09-28 北京中科闻歌科技股份有限公司 一种文字传播路径分析方法及系统
CN108920617A (zh) * 2018-06-28 2018-11-30 中译语通科技股份有限公司 一种数据采集的判定系统及方法、信息数据处理终端
CN109213845A (zh) * 2018-09-06 2019-01-15 杭州凡闻科技有限公司 基于文章特征的原创新闻评估方法和系统
CN110134761A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 判决文书信息检索方法、装置、计算机设备和存储介质
CN110321931A (zh) * 2019-06-05 2019-10-11 上海易点时空网络有限公司 原创内容仲裁方法及装置
CN111290784A (zh) * 2020-01-21 2020-06-16 北京航空航天大学 适用于大规模样本的程序源代码相似度检测方法
CN112270183A (zh) * 2020-10-21 2021-01-26 北京钛氪新媒体科技有限公司 一种基于文本的新闻传播效果监测系统
CN112836009A (zh) * 2021-02-19 2021-05-25 东莞理工学院 一种支持隐私保护的论文查重方法及系统
CN113420234A (zh) * 2021-07-02 2021-09-21 青海师范大学 一种微博数据采集方法与系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799647A (zh) * 2012-06-30 2012-11-28 华为技术有限公司 网页去重方法和设备
CN103123618A (zh) * 2011-11-21 2013-05-29 北京新媒传信科技有限公司 文本相似度获取方法和装置
CN103207864A (zh) * 2012-01-13 2013-07-17 北京中文在线数字出版股份有限公司 一种网络小说内容近似度比对方法
CN103646029A (zh) * 2013-11-04 2014-03-19 北京中搜网络技术股份有限公司 一种针对博文的相似度计算方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123618A (zh) * 2011-11-21 2013-05-29 北京新媒传信科技有限公司 文本相似度获取方法和装置
CN103207864A (zh) * 2012-01-13 2013-07-17 北京中文在线数字出版股份有限公司 一种网络小说内容近似度比对方法
CN102799647A (zh) * 2012-06-30 2012-11-28 华为技术有限公司 网页去重方法和设备
CN103646029A (zh) * 2013-11-04 2014-03-19 北京中搜网络技术股份有限公司 一种针对博文的相似度计算方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
何锦潮: "微博垃圾信息大规模爆发的检测方法研究及应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
冯晓文: "基于GPU的相似度计算关键技术研究", 《中国博士学位论文全文数据库信息科技辑》 *
李娇等: "基于感知哈希的在线发表论文版权保护系统", 《技术研究》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326388A (zh) * 2016-08-17 2017-01-11 乐视控股(北京)有限公司 一种信息处理方法和装置
CN106708947B (zh) * 2016-11-25 2020-06-09 成都寻道科技有限公司 一种基于大数据的网络文章转发识别方法
CN106708947A (zh) * 2016-11-25 2017-05-24 成都寻道科技有限公司 一种基于大数据的网络文章转发识别方法
CN108170650A (zh) * 2016-12-07 2018-06-15 北京京东尚科信息技术有限公司 文本比较方法以及文本比较装置
CN108170650B (zh) * 2016-12-07 2021-05-25 北京京东尚科信息技术有限公司 文本比较方法以及文本比较装置
CN108073708A (zh) * 2017-12-20 2018-05-25 北京百度网讯科技有限公司 信息输出方法和装置
CN107967364A (zh) * 2017-12-22 2018-04-27 新华网股份有限公司 网络文章传播力评估方法及装置
CN107967364B (zh) * 2017-12-22 2021-11-23 新华网股份有限公司 网络文章传播力评估方法及装置
CN108595439A (zh) * 2018-05-04 2018-09-28 北京中科闻歌科技股份有限公司 一种文字传播路径分析方法及系统
CN108595439B (zh) * 2018-05-04 2022-04-12 北京中科闻歌科技股份有限公司 一种文字传播路径分析方法及系统
CN108920617A (zh) * 2018-06-28 2018-11-30 中译语通科技股份有限公司 一种数据采集的判定系统及方法、信息数据处理终端
CN108920617B (zh) * 2018-06-28 2022-07-12 中译语通科技股份有限公司 一种数据采集的判定系统及方法、信息数据处理终端
CN109213845A (zh) * 2018-09-06 2019-01-15 杭州凡闻科技有限公司 基于文章特征的原创新闻评估方法和系统
CN110134761A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 判决文书信息检索方法、装置、计算机设备和存储介质
CN110321931A (zh) * 2019-06-05 2019-10-11 上海易点时空网络有限公司 原创内容仲裁方法及装置
CN111290784A (zh) * 2020-01-21 2020-06-16 北京航空航天大学 适用于大规模样本的程序源代码相似度检测方法
CN112270183A (zh) * 2020-10-21 2021-01-26 北京钛氪新媒体科技有限公司 一种基于文本的新闻传播效果监测系统
CN112270183B (zh) * 2020-10-21 2024-03-19 北京钛氪新媒体科技有限公司 一种基于文本的新闻传播效果监测系统
CN112836009B (zh) * 2021-02-19 2021-10-29 东莞理工学院 一种支持隐私保护的论文查重方法及系统
CN112836009A (zh) * 2021-02-19 2021-05-25 东莞理工学院 一种支持隐私保护的论文查重方法及系统
CN113420234A (zh) * 2021-07-02 2021-09-21 青海师范大学 一种微博数据采集方法与系统
CN113420234B (zh) * 2021-07-02 2022-08-02 青海师范大学 一种微博数据采集方法与系统

Similar Documents

Publication Publication Date Title
CN105786799A (zh) 网络文章原创性判定方法
Le et al. Log-based anomaly detection without log parsing
CN106202042B (zh) 一种基于图的关键词抽取方法
WO2016165538A1 (zh) 一种地址数据的管理方法和装置
CN103150405B (zh) 一种分类模型建模方法、中文跨文本指代消解方法和系统
CN103617157A (zh) 基于语义的文本相似度计算方法
CN103324609A (zh) 文本校对装置和文本校对方法
De Amorim et al. Effective spell checking methods using clustering algorithms
CN106708947B (zh) 一种基于大数据的网络文章转发识别方法
CN103995853A (zh) 基于关键句的多语言情感数据处理分类方法及系统
CN104239512A (zh) 一种文本推荐方法
CN104063502A (zh) 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法
CN108920482A (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN104915443A (zh) 一种中文微博评价对象的抽取方法
CN104967558A (zh) 一种垃圾邮件的检测方法及装置
CN103646029A (zh) 一种针对博文的相似度计算方法
WO2014002774A1 (ja) 同義語抽出システム、方法および記録媒体
Laddha et al. Extracting aspect specific opinion expressions
CN104951478A (zh) 信息处理方法和信息处理装置
JP6108212B2 (ja) 同義語抽出システム、方法およびプログラム
CN106156340A (zh) 一种命名实体链接方法
Esteki et al. A Plagiarism Detection Approach Based on SVM for Persian Texts.
CN114912458A (zh) 一种情感分析方法、装置和计算机可读介质
Althobaiti et al. A semi-supervised learning approach to arabic named entity recognition
CN103049434A (zh) 一种变形词证认系统及证认方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160720