CN107015961B - 一种文本相似性比对方法 - Google Patents

一种文本相似性比对方法 Download PDF

Info

Publication number
CN107015961B
CN107015961B CN201610053813.6A CN201610053813A CN107015961B CN 107015961 B CN107015961 B CN 107015961B CN 201610053813 A CN201610053813 A CN 201610053813A CN 107015961 B CN107015961 B CN 107015961B
Authority
CN
China
Prior art keywords
similarity
text
words
comparison
segmented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610053813.6A
Other languages
English (en)
Other versions
CN107015961A (zh
Inventor
张国文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Academy Of Press And Publication
Col Group Co ltd
Original Assignee
Chinese Academy Of Press And Publication
Chineseall Digital Publishing Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Academy Of Press And Publication, Chineseall Digital Publishing Group Co ltd filed Critical Chinese Academy Of Press And Publication
Priority to CN201610053813.6A priority Critical patent/CN107015961B/zh
Publication of CN107015961A publication Critical patent/CN107015961A/zh
Application granted granted Critical
Publication of CN107015961B publication Critical patent/CN107015961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本相似性比对方法,涉及网络作品比对技术领域。本发明实施例中,文本相似性比对在系统的架构上采用分布式架构,在比对算法上采用多粒度分层算法,包括以文档为粗粒度的相似度比对,以及以分段文本为细粒度的相似度比对,从而在内容相似性比对的效率和精确性上取得了较好的均衡,实现了如下的性能指标:在构建的测试数据上,平均漏警率和虚警率≤10%,比对响应时间≤0.1秒。

Description

一种文本相似性比对方法
技术领域
本发明涉及网络作品比对技术领域,尤其涉及一种文本相似性比对方法。
背景技术
目前,随着互联网技术的迅速发展,网络作品的传播速度越来越快,传播范围越来越广泛,对网络作品的侵权行为也越来越多,为了解决通过网络发生的作品侵权行为,可以使用网络侵权追踪开发平台对作品进行监测追踪。
在追踪的过程中,主要是使用网络爬虫技术,首先从互联网上抓取作品,然后与网络侵权追踪开发平台的作品库中存储的作品进行内容相似性比对,从而确认网络作品是否为侵权作品。
其中,网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常被称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询。随着网络的迅速发展,不断优化的网络爬虫技术正在有效地应对各种挑战,为高效搜索用户关注的特定领域与主题提供了有力支撑。网络爬虫也为中小站点的推广提供了有效的途径。
而在进行内容相似性比对时,由于作品库中有上千万的作品,网络侵权追踪开发平台从互联网上抓取的作品数量更是作品库中作品数量的几百倍以上,因此,两两相比的次数庞大,工作量大,效率及准确率均比较低。
发明内容
本发明的目的在于提供一种文本相似性比对方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种文本相似性比对方法,包括如下步骤:
S1,以文档为粗粒度,根据词的浅层次相似度从注册作品库中筛选出相似度最大的N个作品形成候选作品集,其中,N为自然数;
S2,对所述候选作品集中的每个作品进行文本分段,得到分段文本;
S3,以所述分段文本为细粒度,进行文本细粒度相似度比对。
进一步地,S1之前还包括步骤S0:对所述文档进行分词和词性标注。
进一步地,S0和S1之间还包括步骤:对所述分词进行过滤处理。
优选地,所述对所述分词进行过滤处理,采用插件式过滤链,所述插件式过滤链包括停用词过滤器和/或同义词过滤器。
优选地,S1中,所述词的浅层次相似度,采用如下公式进行计算:
Sim(D1,D2)=Count(D1∩D2)/(Count(D1)+Count(D2)),
式中,
D={W1,W2,W3…}表示文档,
Wi表示文档D中的词,
D1∩D2表示文档D1、D2中词的交集,
Count(Di)表示文档Di中词的个数。
优选地,S2中,所述文本分段包括如下方式:以段落分段、以一定数量的字词分段或以句子分段。
优选地,S3中所述文本细粒度相似度由:基于句子的浅层相似度、信息熵相似度和浅语义相似度组成和计算得到,具体地,
当所述基于句子的浅层相似度,采用如下公式进行计算:
SimSha(S1,S2)=Count(S1∩S2)/(Count(S1)+Count(S2)),
式中,
SimSha(S1,S2)表示基于句子的浅层相似度,
S={W1,W2,W3…}表示句子,
Wi表示句子S中的词,
S1∩S2表示句子S1、S2中词的交集,
Count(Si)表示句子Si中词的个数;
当所述信息熵相似度,采用如下公式进行计算:
SimEnt(S1,S2)=∑(E(Wi)),E(W)=log(N/n),
式中,
SimEnt(S1,S2)表示信息熵相似度,
S={W1,W2,W3…}表示句子,
Wi∈S1∩S2,
S1∩S2表示句子S1、S2中词的交集,
N表示候选文档集中句子的总数,
n表示包含词w的句子数;
当所述浅语义相似度,包括词义相似度、句子语义相似度和句子细粒度相似度,
其中,词义相似度采用如下公式进行计算:
SimSemW(W1,W2)=F(SimLex(W1,W2),SimPos(W1,W2),SimCon(W1,W2))=SimLex(W1,W2)·SimPos(W1,W2)·SimCon(W1,W2),
式中,
SimSemW(W1,W2)表示词义相似度,
SimLex(W1,W2)、SimPos(W1,W2)、SimCon(W1,W2)分别表示词W1与W2的词汇相似度、词性相似度、词上下文相似度,
SimLex(W1,W2)是词w1和w2对应的义原在义原树上的距离;
SimPos(W1,W2)取值:当w1与w2词性相同时,取值为1;当w1与w2词性不相同时,取值为0;
SimCon(W1,W2)=ABS(pos1/N1-pos2/N2),其中,pos1、pos2分别是w1、w2在相应句中的位置,N1、N2是w1、w2所在句子的长度;
句子语义相似度采用如下公式进行计算:
SimSemS(S1,S2)=2·∑0≤i<Len(S1)ArgMax{SimSemW(Wi,Wj):0≤j<Len(S2)}/(Len(S1)+Len(S2)),
式中,
SimSemS(S1,S2)表示句子语义相似度,
ArgMax表示寻找具有最大评分的参量,函数argmax{f(x,y):x∈X},表示x∈X,使f(x,y)达到最大值时的取值,
Len(S)是句子S的长度,即词语个数;
则,所述句子细粒度相似度采用如下公式进行计算:
Similarity(S1,S2)
=α·SimSha(S1,S2)+β·SimEnt(S1,S2)+γ·SimSemS(S1,S2)
式中,
α、β、γ为权值参数,且α+β+γ=1;
假设所述分段文本为句子,则所述文本细粒度相似度为:
Similarity(D1,D2)=∑Wk·SegSimilarity(Sk,Sj),
SegSimilarity(Sk,Sj)=max(Similarity(Sk,Si)),
其中,
Similarity(D1,D2)表示文本细粒度相似度,
Similarity(Sk,Si)表示句子细粒度相似度,
Sk是第一文档中的句子,Si是第二文档中的句子,1≤i≤N2,N2为第二文档中中句子数,j是第二文档中Similarity(Sk,Si)取得最大值时的i值,
Wk是与Sk相关的权重,一般可以简化为1/N,N是文档的句子总数。
本发明的有益效果是:本发明实施例中,文本相似性比对在系统的架构上采用分布式架构,在比对算法上采用多粒度分层算法,包括以文档为粗粒度的相似度比对,以及以分段文本为细粒度的相似度比对,从而在内容相似性比对的效率和精确性上取得了较好的均衡,实现了如下的性能指标:在构建的测试数据上,平均漏警率和虚警率≤10%,比对响应时间≤0.1秒。
附图说明
图1是本发明实施例提供的文本相似性比对方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
网络侵权追踪开发平台监测追踪的是文字类数字作品,因此,作品内容相似性比对技术方案是针对文本内容的。文本比对是针对数据处理后的纯文本内容进行。比对系统的架构设计和比对算法的设计对整个追踪平台的效率有很大影响。
本发明实施例中,文本相似性比对在系统的架构上采用分布式架构,在比对算法上采用多粒度分层算法。
具体地,首先使用文本分析调度器将需要做文本内容相似度分析的网络作品比对任务均衡地分配给多个文本分析器,并监测文本分析器的状态;然后,在文本分析器中,采用多粒度分层算法进行文档内容相似性比对。
如图1所示,本发明实施例提供了一种文本相似性比对方法,包括如下步骤:
S1,以文档为粗粒度,根据词的浅层次相似度从注册作品库中筛选出相似度最大的N个作品形成候选作品集,其中,N为自然数;
S2,对所述候选作品集中的每个作品进行文本分段,得到分段文本;
S3,以所述分段文本为细粒度,进行文本细粒度相似度比对。
其中,粗粒度相似度比对是以整个文档为单位,基于词的表层特征来进行相似度计算,从海量的注册作品库中筛选出最相似的N个作品来做后续细粒度的比对。
文本分段是在更小粒度上进行相似度比对的前提,因此,在进行细粒度相似度比对之前,首先需要对文本进行分段,将分段文本作为细粒度。
细粒度相似度的比对,采用基于句子的浅层相似度(SegShallowSimilarity)、信息熵相似度(SegEntropySimilarity)和浅语义相似度(SegSemanticSimilarity)组合而成。
在本发明的一个优选实施例中,S1之前还可以包括步骤S0:对所述文档进行分词和词性标注。
S0和S1之间还包括步骤:对所述分词进行过滤处理。
所述对所述分词进行过滤处理,采用插件式过滤链,所述插件式过滤链包括停用词过滤器和/或同义词过滤器。
算法是以词为文本的特征表示项,因此对于中文文本需要对内容进行分词和词性标注;为了减少不重要词对准确性和系统性能的影响,可以对这些分词进行过滤处理,系统对分词进行过滤处理可以采用插件式的过滤链,所述插件式过滤链可以包括停用词过滤器和/或同义词过滤器
本发明的一个优选实施例中,S1中,所述词的浅层次相似度,可以采用如下公式进行计算:
Sim(D1,D2)=Count(D1∩D2)/(Count(D1)+Count(D2)),
式中,
D={W1,W2,W3…}表示文档,
Wi表示文档D中的词,
D1∩D2表示文档D1、D2中词的交集,
Count(Di)表示文档Di中词的个数。
在本发明的一个优选实施例中,S2中,所述文本分段包括如下方式:以段落分段、以一定数量的字词分段或以句子分段。
分段方式不一样,其分段的粒度也不一样,可以以文档的段落分段,也可以按一定数量的字词固定分段,也可以句子分段。
在本发明的一个优选实施例中,可以以句子(以句号作为句子结束标志)为分段单位,也就是说,细粒度的相似度比对是以句子为单位,以词为特征表示。
在本发明的一个优选实施例中,S3中所述文本细粒度相似度由:基于句子的浅层相似度、信息熵相似度和浅语义相似度组成和计算得到,具体地,
当所述基于句子的浅层相似度,采用如下公式进行计算:
SimSha(S1,S2)=Count(S1∩S2)/(Count(S1)+Count(S2)),
式中,
SimSha(S1,S2)表示基于句子的浅层相似度,
S={W1,W2,W3…}表示句子,
Wi表示句子S中的词,
S1∩S2表示句子S1、S2中词的交集,
Count(Si)表示句子Si中词的个数;
当所述信息熵相似度,采用如下公式进行计算:
SimEnt(S1,S2)=∑(E(Wi)),E(W)=log(N/n),
式中,
SimEnt(S1,S2)表示信息熵相似度,
S={W1,W2,W3…}表示句子,
Wi∈S1∩S2,
S1∩S2表示句子S1、S2中词的交集,
N表示候选文档集中句子的总数,
n表示包含词w的句子数;
当所述浅语义相似度,包括词义相似度、句子语义相似度和句子细粒度相似度,
其中,词义相似度采用如下公式进行计算:
SimSemW(W1,W2)=F(SimLex(W1,W2),SimPos(W1,W2),SimCon(W1,W2))=SimLex(W1,W2)·SimPos(W1,W2)·SimCon(W1,W2),式中,
SimSemW(W1,W2)表示词义相似度,
SimLex(W1,W2)、SimPos(W1,W2)、SimCon(W1,W2)分别表示词W1与W2的词汇相似度、词性相似度、词上下文相似度,
SimLex(W1,W2)是词w1和w2对应的义原在义原树上的距离;
SimPos(W1,W2)取值:当w1与w2词性相同时,取值为1;当w1与w2词性不相同时,取值为0;
SimCon(W1,W2)=ABS(pos1/N1-pos2/N2),其中,pos1、pos2分别是w1、w2在相应句中的位置,N1、N2是w1、w2所在句子的长度;
句子语义相似度采用如下公式进行计算:
SimSemS(S1,S2)=2·∑0≤i<Len(S1)ArgMax{SimSemW(Wi,Wj):0≤j<Len(S2)}/(Len(S1)+Len(S2)),
式中,
SimSemS(S1,S2)表示句子语义相似度,
ArgMax表示寻找具有最大评分的参量,函数argmax{f(x,y):x∈X},表示x∈X,使f(x,y)达到最大值时的取值,
Len(S)是句子S的长度,即词语个数;
则,所述句子细粒度相似度采用如下公式进行计算:
Similarity(S1,S2)
=α·SimSha(S1,S2)+β·SimEnt(S1,S2)+γ·SimSemS(S1,S2)
式中,
α、β、γ为权值参数,且α+β+γ=1;
假设所述分段文本为句子,则所述文本细粒度相似度为:
Similarity(D1,D2)=∑Wk·SegSimilarity(Sk,Sj),
SegSimilarity(Sk,Sj)=max(Similarity(Sk,Si)),
其中,
Similarity(D1,D2)表示文本细粒度相似度,
Similarity(Sk,Si)表示句子细粒度相似度,
Sk是第一文档中的句子,Si是第二文档中的句子,1≤i≤N2,N2为第二文档中中句子数,j是第二文档中Similarity(Sk,Si)取得最大值时的i值,
Wk是与Sk相关的权重,一般可以简化为1/N,N是文档的句子总数。
采用上述本发明实施例提供的技术方案,在构建的测试数据上,平均漏警率和虚警率≤10%,比对响应时间≤0.1秒。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:本发明实施例中,文本相似性比对在系统的架构上采用分布式架构,在比对算法上采用多粒度分层算法,包括以文档为粗粒度的相似度比对,以及以分段文本为细粒度的相似度比对,从而在内容相似性比对的效率和精确性上取得了较好的均衡,实现了如下的性能指标:在构建的测试数据上,平均漏警率和虚警率≤10%,比对响应时间≤0.1秒。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域人员应该理解的是,上述实施例提供的方法步骤的时序可根据实际情况进行适应性调整,也可根据实际情况并发进行。
上述实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,例如:个人计算机、服务器、网络设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,例如:RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (6)

1.一种文本相似性比对方法,其特征在于,使用文本分析调度器将需要做文本内容相似度分析的网络作品比对任务均衡地分配给多个文本分析器,并监测文本分析器的状态;然后,在文本分析器中,采用多粒度分层算法进行文档内容相似性比对,所述多粒度分层算法包括如下步骤:
S1,以文档为粗粒度,根据词的浅层次相似度从注册作品库中筛选出相似度最大的N个作品形成候选作品集,其中,N为自然数;
S2,对所述候选作品集中的每个作品进行文本分段,得到分段文本;
S3,以所述分段文本为细粒度,进行文本细粒度相似度比对。
2.根据权利要求1所述的文本相似性比对方法,其特征在于,S1之前还包括步骤S0:对所述网络作品分配到某个文本分析器中的待比对文档和所述注册作品库中的文档进行分词和词性标注。
3.根据权利要求2所述的文本相似性比对方法,其特征在于,S0和S1之间还包括步骤:对所述分词进行过滤处理。
4.根据权利要求3所述的文本相似性比对方法,其特征在于,所述对所述分词进行过滤处理,采用插件式过滤链,所述插件式过滤链包括停用词过滤器和/或同义词过滤器。
5.根据权利要求1所述的文本相似性比对方法,其特征在于,S1中,所述词的浅层次相似度,采用如下公式进行计算:
Sim(D1,D2)=Count(D1∩D2)/(Count(D1)+Count(D2)),
式中,
D={W1,W2,W3…}表示文档,
Wi表示文档D中的词,
D1∩D2表示文档D1、D2中词的交集,
Count(Di)表示文档Di中词的个数,当词有重复时,重复数不计入词的个数。
6.根据权利要求1所述的文本相似性比对方法,其特征在于,S2中,所述文本分段包括如下方式:以段落分段、以一定数量的字词分段或以句子分段。
CN201610053813.6A 2016-01-27 2016-01-27 一种文本相似性比对方法 Active CN107015961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610053813.6A CN107015961B (zh) 2016-01-27 2016-01-27 一种文本相似性比对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610053813.6A CN107015961B (zh) 2016-01-27 2016-01-27 一种文本相似性比对方法

Publications (2)

Publication Number Publication Date
CN107015961A CN107015961A (zh) 2017-08-04
CN107015961B true CN107015961B (zh) 2021-06-25

Family

ID=59438843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610053813.6A Active CN107015961B (zh) 2016-01-27 2016-01-27 一种文本相似性比对方法

Country Status (1)

Country Link
CN (1) CN107015961B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106610952A (zh) * 2016-09-30 2017-05-03 四川用联信息技术有限公司 一种混合的文本特征词汇提取方法
CN107633020B (zh) * 2017-08-24 2020-05-05 新译信息科技(深圳)有限公司 文章相似度检测方法及装置
CN107766237A (zh) * 2017-09-22 2018-03-06 北京锐安科技有限公司 网络爬虫的测试方法、装置、服务器和存储介质
CN107992470A (zh) * 2017-11-08 2018-05-04 中国科学院计算机网络信息中心 一种基于相似度的文本查重方法及系统
CN108846031B (zh) * 2018-05-28 2022-05-13 同方知网数字出版技术股份有限公司 一种面向电力行业的项目相似性对比方法
CN108829780B (zh) * 2018-05-31 2022-05-24 北京万方数据股份有限公司 文本检测方法、装置、计算设备及计算机可读存储介质
CN109582933B (zh) * 2018-11-13 2021-09-03 北京合享智慧科技有限公司 一种确定文本新颖度的方法及相关装置
CN109472008A (zh) * 2018-11-20 2019-03-15 武汉斗鱼网络科技有限公司 一种文本相似度计算方法、装置及电子设备
CN111860662B (zh) * 2020-07-24 2023-03-24 南开大学 一种相似性检测模型的训练方法及装置、应用方法及装置
CN113221536A (zh) * 2020-12-29 2021-08-06 广东电网有限责任公司 一种基于自然语言分析文件中相似段落的方法及装置
CN113033198B (zh) * 2021-03-25 2022-08-26 平安国际智慧城市科技股份有限公司 相似文本推送方法、装置、电子设备及计算机存储介质
CN116738965A (zh) * 2023-05-25 2023-09-12 重庆亚利贝德科技咨询有限公司 一种科技查新委托历史数据的复用方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156711A (zh) * 2011-03-08 2011-08-17 国网信息通信有限公司 一种基于云存储的电力全文检索方法及系统
CN103577418A (zh) * 2012-07-24 2014-02-12 北京拓尔思信息技术股份有限公司 海量文档分布式检索排重系统和方法
CN103793523A (zh) * 2014-02-20 2014-05-14 刘峰 一种基于内容相似度计算的自动搜索引擎构建方法
CN104408153A (zh) * 2014-12-03 2015-03-11 中国科学院自动化研究所 一种基于多粒度主题模型的短文本哈希学习方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610313B2 (en) * 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156711A (zh) * 2011-03-08 2011-08-17 国网信息通信有限公司 一种基于云存储的电力全文检索方法及系统
CN103577418A (zh) * 2012-07-24 2014-02-12 北京拓尔思信息技术股份有限公司 海量文档分布式检索排重系统和方法
CN103793523A (zh) * 2014-02-20 2014-05-14 刘峰 一种基于内容相似度计算的自动搜索引擎构建方法
CN104408153A (zh) * 2014-12-03 2015-03-11 中国科学院自动化研究所 一种基于多粒度主题模型的短文本哈希学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
数字指纹关键技术研究;刘文龙;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150815;论文正文第41-46页 *

Also Published As

Publication number Publication date
CN107015961A (zh) 2017-08-04

Similar Documents

Publication Publication Date Title
CN107015961B (zh) 一种文本相似性比对方法
Jansen et al. Unsupervised learning of semantic audio representations
Nguyen et al. Automatic image filtering on social networks using deep learning and perceptual hashing during crises
US9514405B2 (en) Scoring concept terms using a deep network
US10146862B2 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
US7783476B2 (en) Word extraction method and system for use in word-breaking using statistical information
CN111310476B (zh) 一种使用基于方面的情感分析方法的舆情监控方法和系统
CN108334489B (zh) 文本核心词识别方法和装置
US20070113292A1 (en) Automated rule generation for a secure downgrader
US20130339373A1 (en) Method and system of filtering and recommending documents
CN109885675B (zh) 基于改进lda的文本子话题发现方法
Weiler et al. Event identification and tracking in social media streaming data
Alabbas et al. Classification of colloquial Arabic tweets in real-time to detect high-risk floods
CN108241856B (zh) 资讯信息生成方法及设备
CN115982376B (zh) 基于文本、多模数据和知识训练模型的方法和装置
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
CN111324810A (zh) 一种信息过滤方法、装置及电子设备
CN103942328A (zh) 一种视频检索方法及视频装置
CN111078849B (zh) 用于输出信息的方法和装置
CN109933691B (zh) 用于内容检索的方法、装置、设备和存储介质
CN114676346A (zh) 新闻事件处理方法、装置、计算机设备和存储介质
US11341138B2 (en) Method and system for query performance prediction
US9946765B2 (en) Building a domain knowledge and term identity using crowd sourcing
CN115470489A (zh) 检测模型训练方法、检测方法、设备以及计算机可读介质
CN115455975A (zh) 基于多模型融合决策提取主题关键词的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100007 no.905, 9th floor, building 2, 28 Andingmen East Street, Dongcheng District, Beijing

Patentee after: COL Group Co.,Ltd.

Patentee after: CHINESE ACADEMY OF PRESS AND PUBLICATION

Address before: 100007 no.905, 9th floor, building 2, 28 Andingmen East Street, Dongcheng District, Beijing

Patentee before: CHINESEALL DIGITAL PUBLISHING GROUP CO.,LTD.

Patentee before: CHINESE ACADEMY OF PRESS AND PUBLICATION

CP01 Change in the name or title of a patent holder