CN107633020B - 文章相似度检测方法及装置 - Google Patents

文章相似度检测方法及装置 Download PDF

Info

Publication number
CN107633020B
CN107633020B CN201710736855.4A CN201710736855A CN107633020B CN 107633020 B CN107633020 B CN 107633020B CN 201710736855 A CN201710736855 A CN 201710736855A CN 107633020 B CN107633020 B CN 107633020B
Authority
CN
China
Prior art keywords
article
similarity
content
target keywords
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710736855.4A
Other languages
English (en)
Other versions
CN107633020A (zh
Inventor
田亮
孙凡
武琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Tranx Information Technology Shenzhen Co ltd
Original Assignee
New Tranx Information Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New Tranx Information Technology Shenzhen Co ltd filed Critical New Tranx Information Technology Shenzhen Co ltd
Priority to CN201710736855.4A priority Critical patent/CN107633020B/zh
Publication of CN107633020A publication Critical patent/CN107633020A/zh
Application granted granted Critical
Publication of CN107633020B publication Critical patent/CN107633020B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种文章相似度检测方法及装置,通过从第一文章中提取评价分值高于第一预设阈值的词作为目标关键词,根据提取获得的目标关键词,查找与第一文章之间相同目标关键词的数量大于第二预设阈值的第二文章作为相似度检测的参考文章,并基于预设滑动窗口,检测第一文章中各段内容与所述第二文章之间的第一相似度,以及第二文章中各段内容与第一文章之间的第二相似度,从而根据第一相似度和第二相似度,计算得到第一文章和第二文章之间的相似度,本发明实施例提供的技术方案能够对文章的相似度进行可靠有效的检测,从而解决了抄袭文章的识别问题。

Description

文章相似度检测方法及装置
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种文章相似度检测方法及装置。
背景技术
目前,学术论文的抄袭剽窃问题是一个比较突出的问题。学术界对此虽然早有认识,政府有关部门也给予了一定的关注,但抄袭剽窃的案例仍然层出不穷,且屡禁不止。为了提高学术论文的质量,有效辨认涉嫌抄袭剽窃的文章,现急需一种可靠有效的文章相似度检测手段。
发明内容
本发明实施例提供一种文章相似度检测方法及装置,用以对文章的相似度进行有效可靠的检测。
本发明实施例第一方面提供一种文章相似度检测方法,该方法包括:
从第一文章中提取目标关键词,所述目标关键词包括所述第一文章提供的关键词和所述第一文章中评价分值高于第一预设阈值的词;
根据所述目标关键词,查找第二文章,所述第二文章和所述第一文章之间相同目标关键词的数量大于第二预设阈值;
基于预设滑动窗口,检测所述第一文章中各段的内容与所述第二文章之间的第一相似度,以及第二文章中各段的内容与所述第一文章之间的第二相似度;
根据所述第一相似度和所述第二相似度,计算所述第一文章和所述第二文章之间的相似度。
本发明实施例第二方面提供一种文章相似度检测装置,该装置包括:
提取模块,用于从第一文章中提取目标关键词,所述目标关键词包括所述第一文章提供的关键词和所述第一文章中评价分值高于第一预设阈值的词;
查找模块,用于根据所述目标关键词,查找第二文章,所述第二文章和所述第一文章之间相同目标关键词的数量大于第二预设阈值;
检测模块,用于基于预设滑动窗口,检测所述第一文章中各段的内容与所述第二文章之间的第一相似度,以及第二文章中各段的内容与所述第一文章之间的第二相似度;
计算模块,用于根据所述第一相似度和所述第二相似度,计算所述第一文章和所述第二文章之间的相似度。
本发明实施例,通过从第一文章中提取评价分值高于第一预设阈值的词作为目标关键词,根据提取获得的目标关键词,查找与第一文章之间相同目标关键词的数量大于第二预设阈值的第二文章作为相似度检测的参考文章,并基于预设滑动窗口,检测第一文章中各段内容与所述第二文章之间的第一相似度,以及第二文章中各段内容与第一文章之间的第二相似度,从而根据第一相似度和第二相似度,计算得到第一文章和第二文章之间的相似度,本发明实施例提供的技术方案能够对文章的相似度进行可靠有效的检测,从而解决了抄袭文章的识别问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种文章相似度检测方法的流程图;
图2为本发明一实施例提供的一种文章相似度检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤的过程或结构的装置不必限于清楚地列出的那些结构或步骤而是可包括没有清楚地列出的或对于这些过程或装置固有的其它步骤或结构。
本发明实施例提供一种文章相似度检测方法,该方法由一种文章相似度检测装置(以下简称检测装置)来执行。参见图1,图1为本发明一实施例提供的一种文章相似度检测方法的流程图,如图1所示,该方法包括:
步骤101、从第一文章中提取目标关键词,所述目标关键词包括所述第一文章提供的关键词和所述第一文章中评价分值高于第一预设阈值的词。
实际场景中,科技论文的期刊文章一般会在文章的固定位置提供文章的关键字,本实施例基于期刊文章的这一特点,首先从第一文章(即待检测的文章)的相应位置中直接提起文章提供的关键词,进一步的,再基于提取获得的关键词,采用bootstrapping算法从第一文章中提取评价分值高于第一阈值的词作为目标关键词。
具体的,采用bootstrapping算法从第一文章中提取评价分值高于第一阈值的词作为目标关键词的方法如下:
首先,对第一文章中的内容进行分词处理。其次,在分词结果的基础上,基于评价函数:
Figure BDA0001388319330000031
计算第一文章中每个词对应的分值T,再基于分值高于第一预设阈值的词和前述提取的关键词,计算第一文章中每个词对应的分值,如此循环预设次数后,获取分值大于第一预设阈值的词作为第一文章的目标关键词。其中,上式中的s在初次计算时,s为前述直接从第一文章中提取的关键词,在后续循环计算中,s为前述关键词和前一次计算获得的分值大于第一预设阈值的词。w为对第一文章进行分词处理后得到的词,F(w)为第一文章中包含w的句子数,F(s)为第一文章中包含s的句子数,F(w,s)为s和w出现在同一段中的次数。
步骤102、根据所述目标关键词,查找第二文章,所述第二文章和所述第一文章之间相同目标关键词的数量大于第二预设阈值。
实际应用中数据库中存储有多篇文章,在执行本实施例的方法时,分别对每篇文章的目标关键词进行提取,再将每篇文章的目标关键词与第一文章的目标关键词取交集,得到与第一文章具有相同目标关键词的数量大于第二预设阈值的第二文章。其中,从数据库的文章中提取目标关键词的方法与前述提取第一文章的目标关键词的方法相同,在这里不再赘述。
具体的,本实施例中,可以根据如下表达式计算数据库中每篇文章与第一文章之间的目标关键词的交集:
S(A,B)=|F(A)∩F(B)|
其中,F(A)为第一文章的目标关键词的集合,F(B)为数据库中的文章(即第二文章)的目标关键词的集合,S(A,B)为第二文章和第一文章之间具有的相同的目标关键词的集合。
步骤103、基于预设滑动窗口,检测所述第一文章中各段的内容与所述第二文章之间的第一相似度,以及第二文章中各段的内容与所述第一文章之间的第二相似度。
可选的,本实施例中通过计算第一文章和第二文章中隔断内容之间的相似度,将第一文章中各段内容对应的最大相似度作为第一文章中各段内容与第二文章之间的相似度,将第二文章中各段内容对应的最大相似度作为第二文章中内容与第一文章之间的相似度。
举例来说,假设预设滑动窗口的大小为n,则用第一文章的第一段内容和第二文章的前n段进行相似度比较,如果在前n中第s1段的内容与第一文章中第一段内容的相似度最大,相似度为a1,则将第一文章中第一段内容与第二文章的相似度记为a1。进一步的,若a1大于预设的相似度值,则认为a1可信,并继续将第一文章中第二段内容分别与第二文章中第s1段之后的n段内容进行相似度比较,得到第一文章中第二段内容与第二文章的相似度。而当a1小于预设的相似度值时,认为a1不可信,在计算第一文章中第二段内容与第二文章的相似度时,将滑动窗口增加为n+1,然后再将第一文章中第二段内容与第二文章的前n+1段进行相似度比较,以此类推,最终获得第一文章中各段内容与第二文章之间的相似度。本实施例中,第二文章中各段内容与第一文章的相似度的计算方法与前述方法类似,在这里不再赘述。
步骤104、根据所述第一相似度和所述第二相似度,计算所述第一文章和所述第二文章之间的相似度。
可选的,本实施例中根据如下表达式计算第一文章与第二文章之间的相似度:
Figure BDA0001388319330000051
其中,sim(A,B)为第一文章和第二文章之间的相似度,ai为第一文章中第i段与第二文章的相似度,bi为第二文章中第i段与第一文章的相似度,xi为第一文章中第i段的权重,yi为第二文章中第i段的权重,n为第一文章中的段数,m为第二文章中的段数。
其中,文章中第i段在文章中的权重根据如下表达式计算:
Figure BDA0001388319330000052
其中,Si为文章中第i段的权重,m为文章的段数,a为预设段落离中心的偏移量,本实施例中a=1,λ为递减因子,λ小于或等于1。
本实施例,通过从第一文章中提取评价分值高于第一预设阈值的词作为目标关键词,根据提取获得的目标关键词,查找与第一文章之间相同目标关键词的数量大于第二预设阈值的第二文章作为相似度检测的参考文章,并基于预设滑动窗口,检测第一文章中各段内容与所述第二文章之间的第一相似度,以及第二文章中各段内容与第一文章之间的第二相似度,从而根据第一相似度和第二相似度,计算得到第一文章和第二文章之间的相似度,本实施例提供的技术方案能够对文章的相似度进行可靠有效的检测,从而解决了抄袭文章的识别问题。
图2为本发明一实施例提供的一种文章相似度检测装置的结构示意图,如图2所示,该装置包括:
提取模块11,用于从第一文章中提取目标关键词,所述目标关键词包括所述第一文章提供的关键词和所述第一文章中评价分值高于第一预设阈值的词;
查找模块12,用于根据所述目标关键词,查找第二文章,所述第二文章和所述第一文章之间相同目标关键词的数量大于第二预设阈值;
检测模块13,用于基于预设滑动窗口,检测所述第一文章中各段的内容与所述第二文章之间的第一相似度,以及第二文章中各段的内容与所述第一文章之间的第二相似度;
计算模块14,用于根据所述第一相似度和所述第二相似度,计算所述第一文章和所述第二文章之间的相似度。
可选的,所述提取模块11,具体用于:
基于所述第一文章提供的关键词,采用bootstrapping算法提取所述第一文章中评价分值高于第一预设阈值的词作为目标关键词。
可选的,所述查找模块12,具体用于:
根据表达式:
S(A,B)=|F(A)∩F(B)|
查找与所述第一文章之间具有相同目标关键词的数量大于第二预设阈值的第二文章;
其中,F(A)为所述第一文章的目标关键词的集合,F(B)为所述第二文章的目标关键词的集合,S(A,B)为所述第二文章和所述第一文章之间具有的相同的目标关键词的集合。
可选的,所述检测模块13,具体用于:
基于预设滑动窗口,计算所述第一文章和所述第二文章中各段内容之间的相似度,确定所述第一文章中各段内容对应的最大相似度为各段内容与所述第二文章之间的相似度,确定所述第二文章中各段内容对应的最大相似度为所述第二文章中各段内容与所述第一文章之间的相似度。
可选的,所述计算模块14,具体用于:
根据表达式:
Figure BDA0001388319330000061
计算所述第一文章和所述第二文章之间的相似度sim(A,B),其中,ai为所述第一文章中第i段与所述第二文章的相似度,bi为所述第二文章中第i段与所述第一文章的相似度,xi为所述第一文章中第i段的权重,yi为所述第二文章中第i段的权重,n为所述第一文章中的段数,m为所述第二文章中的段数。
本实施例提供的装置能够用于执行图1实施例的方法,其执行方式和有益效果类似,在这里不再赘述。
最后需要说明的是,本领域普通技术人员可以理解上述实施例方法中的全部或者部分流程,是可以通过计算机程序来指令相关的硬件完成,所述的程序可存储于一计算机可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可以为磁盘、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。
本发明实施例中的各个功能单元可以集成在一个处理模块中,也可以是各个单元单独的物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现,并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。上述提到的存储介质可以是只读存储器、磁盘或光盘等。
以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (6)

1.一种文章相似度检测方法,其特征在于,包括:
从第一文章中提取目标关键词,所述目标关键词包括所述第一文章提供的关键词和所述第一文章中评价分值高于第一预设阈值的词;
根据所述目标关键词,查找第二文章,所述第二文章和所述第一文章之间相同目标关键词的数量大于第二预设阈值;
基于预设滑动窗口,检测所述第一文章中各段的内容与所述第二文章之间的第一相似度,以及第二文章中各段的内容与所述第一文章之间的第二相似度;
根据所述第一相似度和所述第二相似度,计算所述第一文章和所述第二文章之间的相似度;
所述基于预设滑动窗口,检测所述第一文章中各段的内容与所述第二文章之间的第一相似度,以及第二文章中各段的内容与所述第一文章之间的第二相似度,包括:
基于预设滑动窗口,计算所述第一文章各段内容和所述第二文章中各段内容之间的相似度,确定所述第一文章中各段内容在预设滑动窗口内对应的最大相似度为所述第一文章各段内容与所述第二文章之间的第一相似度,其中,所述第一相似度值大于预设的相似度的值,并基于预设滑动窗口,计算所述第二文章各段内容和所述第一文章中各段内容之间的相似度,确定所述第二文章中各段内容在预设滑动窗口内对应的最大相似度为所述第二文章中各段内容与所述第一文章之间的第二相似度,其中,所述第二相似度值大于预设的相似度的值;
所述根据所述第一相似度和所述第二相似度,计算所述第一文章和所述第二文章之间的相似度,包括:
根据表达式:
Figure FDA0002304264620000011
计算所述第一文章和所述第二文章之间的相似度sim(A,B),其中,ai为所述第一文章中第i段与所述第二文章的相似度,bi为所述第二文章中第i段与所述第一文章的相似度,xi为所述第一文章中第i段的权重,yi为所述第二文章中第i段的权重,n为所述第一文章中的段数,m为所述第二文章中的段数。
2.根据权利要求1所述的方法,其特征在于,所述从第一文章中提取目标关键词,包括:
基于所述第一文章提供的关键词,采用bootstrapping算法提取所述第一文章中评价分值高于第一预设阈值的词作为目标关键词。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标关键词,查找第二文章,包括:
根据表达式:
S(A,B)=|F(A)∩F(B)|
查找与所述第一文章之间具有相同目标关键词的数量大于第二预设阈值的第二文章;
其中,F(A)为所述第一文章的目标关键词的集合,F(B)为所述第二文章的目标关键词的集合,S(A,B)为所述第二文章和所述第一文章之间具有的相同的目标关键词的集合。
4.一种文章相似度检测装置,其特征在于,包括:
提取模块,用于从第一文章中提取目标关键词,所述目标关键词包括所述第一文章提供的关键词和所述第一文章中评价分值高于第一预设阈值的词;
查找模块,用于根据所述目标关键词,查找第二文章,所述第二文章和所述第一文章之间相同目标关键词的数量大于第二预设阈值;
检测模块,用于基于预设滑动窗口,检测所述第一文章中各段的内容与所述第二文章之间的第一相似度,以及第二文章中各段的内容与所述第一文章之间的第二相似度;
计算模块,用于根据所述第一相似度和所述第二相似度,计算所述第一文章和所述第二文章之间的相似度;
所述检测模块,具体用于:
基于预设滑动窗口,计算所述第一文章各段内容和所述第二文章中各段内容之间的相似度,确定所述第一文章中各段内容在预设滑动窗口内对应的最大相似度为所述第一文章各段内容与所述第二文章之间的第一相似度,其中,所述第一相似度值大于预设的相似度的值,并基于预设滑动窗口,计算所述第二文章各段内容和所述第一文章中各段内容之间的相似度,确定所述第二文章中各段内容在预设滑动窗口内对应的最大相似度为所述第二文章中各段内容与所述第一文章之间的第二相似度,其中,所述第二相似度值大于预设的相似度的值;
所述计算模块,具体用于:
根据表达式:
Figure FDA0002304264620000031
计算所述第一文章和所述第二文章之间的相似度sim(A,B),其中,ai为所述第一文章中第i段与所述第二文章的相似度,bi为所述第二文章中第i段与所述第一文章的相似度,xi为所述第一文章中第i段的权重,yi为所述第二文章中第i段的权重,n为所述第一文章中的段数,m为所述第二文章中的段数。
5.根据权利要求4所述的装置,其特征在于,所述提取模块,具体用于:
基于所述第一文章提供的关键词,采用bootstrapping算法提取所述第一文章中评价分值高于第一预设阈值的词作为目标关键词。
6.根据权利要求4所述的装置,其特征在于,所述查找模块,具体用于:
根据表达式:
S(A,B)=|F(A)∩F(B)|
查找与所述第一文章之间具有相同目标关键词的数量大于第二预设阈值的第二文章;
其中,F(A)为所述第一文章的目标关键词的集合,F(B)为所述第二文章的目标关键词的集合,S(A,B)为所述第二文章和所述第一文章之间具有的相同的目标关键词的集合。
CN201710736855.4A 2017-08-24 2017-08-24 文章相似度检测方法及装置 Active CN107633020B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710736855.4A CN107633020B (zh) 2017-08-24 2017-08-24 文章相似度检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710736855.4A CN107633020B (zh) 2017-08-24 2017-08-24 文章相似度检测方法及装置

Publications (2)

Publication Number Publication Date
CN107633020A CN107633020A (zh) 2018-01-26
CN107633020B true CN107633020B (zh) 2020-05-05

Family

ID=61101385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710736855.4A Active CN107633020B (zh) 2017-08-24 2017-08-24 文章相似度检测方法及装置

Country Status (1)

Country Link
CN (1) CN107633020B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829659B (zh) * 2018-05-04 2021-02-09 北京中科闻歌科技股份有限公司 一种引用识别方法、设备和计算机可存储介质
CN109615001B (zh) * 2018-12-05 2020-03-10 上海恺英网络科技有限公司 一种识别相似文章的方法和装置
CN109635090A (zh) * 2018-12-14 2019-04-16 安徽中船璞华科技有限公司 一种基于机器学习的版权追踪方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7403932B2 (en) * 2005-07-01 2008-07-22 The Boeing Company Text differentiation methods, systems, and computer program products for content analysis
US8943033B2 (en) * 2009-01-30 2015-01-27 International Business Machines Corporation System and method for avoiding duplication of effort in drafting documents
CN105302779A (zh) * 2015-10-23 2016-02-03 北京慧点科技有限公司 一种文本相似度比对方法及装置
CN107015961A (zh) * 2016-01-27 2017-08-04 中文在线数字出版集团股份有限公司 一种文本相似性比对方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7403932B2 (en) * 2005-07-01 2008-07-22 The Boeing Company Text differentiation methods, systems, and computer program products for content analysis
US8943033B2 (en) * 2009-01-30 2015-01-27 International Business Machines Corporation System and method for avoiding duplication of effort in drafting documents
CN105302779A (zh) * 2015-10-23 2016-02-03 北京慧点科技有限公司 一种文本相似度比对方法及装置
CN107015961A (zh) * 2016-01-27 2017-08-04 中文在线数字出版集团股份有限公司 一种文本相似性比对方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《基于本体的论文复制检测系统》;聂规划 等;《计算机工程》;20090320;第35卷(第6期);第81、84页 *
《基于网页正文结构树的近似网页去重算法研究》;牙漫 等;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140315;论文第4.5节 *
《基于购买意向的移动电子商务智能客服系统》;蔡志文 等;《科技管理研究》;20150920;第182页 *
《结合框架和描述逻辑的文本检索系统研究》;李翠曼;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140615;论文第4章 *

Also Published As

Publication number Publication date
CN107633020A (zh) 2018-01-26

Similar Documents

Publication Publication Date Title
US8000504B2 (en) Multimodal classification of adult content
CN106055574B (zh) 一种识别非法统一资源标识符url的方法与装置
US20150186503A1 (en) Method, system, and computer readable medium for interest tag recommendation
CN108846091B (zh) 资讯推荐方法、装置及设备
CN110738039B (zh) 一种案件辅助信息的提示方法、装置、存储介质和服务器
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
US20220083874A1 (en) Method and device for training search model, method for searching for target object, and storage medium
CN107273416B (zh) 网页暗链检测方法、装置及计算机可读存储介质
US20200193146A1 (en) Method and device for recognizing identity of human target
CN107633020B (zh) 文章相似度检测方法及装置
CN104572717B (zh) 信息搜索方法和装置
CN111310011B (zh) 一种信息推送方法、装置、电子设备及存储介质
CN110765761A (zh) 基于人工智能的合同敏感词校验方法、装置及存储介质
US9436891B2 (en) Discriminating synonymous expressions using images
CN111260428A (zh) 一种商品推荐方法和装置
CN108255803B (zh) 文档情感的判断方法和装置
CN109635810B (zh) 一种确定文本信息的方法、装置、设备及存储介质
JP6780244B2 (ja) 判定方法、判定プログラムおよび判定装置
CN105630769B (zh) 文档主题词提取方法及装置
CN108388556B (zh) 同类实体的挖掘方法及系统
US20200364259A1 (en) Image retrieval
Ku et al. Discriminatively-learned global image representation using CNN as a local feature extractor for image retrieval
US20110264672A1 (en) Method and system for detecting a similarity of documents
CN112818206A (zh) 一种数据分类方法、装置、终端及存储介质
Tehsin et al. Text localization and detection method for born-digital images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20180126

Assignee: Xi'an Tianyi Information Technology Co.,Ltd.

Assignor: NEW TRANX INFORMATION TECHNOLOGY (SHENZHEN) CO.,LTD.

Contract record no.: X2023980039075

Denomination of invention: Method and device for detecting article similarity

Granted publication date: 20200505

License type: Common License

Record date: 20230804

EE01 Entry into force of recordation of patent licensing contract