CN106372043A - 一种基于改进的Jaccard系数确定文档相似度的方法 - Google Patents

一种基于改进的Jaccard系数确定文档相似度的方法 Download PDF

Info

Publication number
CN106372043A
CN106372043A CN201610807202.6A CN201610807202A CN106372043A CN 106372043 A CN106372043 A CN 106372043A CN 201610807202 A CN201610807202 A CN 201610807202A CN 106372043 A CN106372043 A CN 106372043A
Authority
CN
China
Prior art keywords
document
similarity
length
jaccard
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610807202.6A
Other languages
English (en)
Other versions
CN106372043B (zh
Inventor
林劼
俞婷婷
江育娥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Normal University
Original Assignee
Fujian Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Normal University filed Critical Fujian Normal University
Priority to CN201610807202.6A priority Critical patent/CN106372043B/zh
Publication of CN106372043A publication Critical patent/CN106372043A/zh
Application granted granted Critical
Publication of CN106372043B publication Critical patent/CN106372043B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开一种基于改进的Jaccard系数确定文档相似度的方法,步骤1:分别确定文档X中长度为K的每个元素wi对应的数量和文档Y中长度为K的每个元素wj对应的数量,步骤2:计算每个元素wi在文档X中所占的比重步骤3:计算每个元素wj在文档Y中所占的比重步骤4:计算文档X和文档Y关于共同元素wh的Jaccard相似度步骤5:计算元素wh在文档X和文档Y所有n‑Gram长度为K的元素中的所占的比重ε(wh),步骤6:计算元素wh在文档X和文档Y是否同时出现的参数F(wh),步骤7:设定为文档X和文档Y的相似度。本发明通过考虑各元素、样本在文档中的权重及其对多个文档相似度的贡献程度,有效地解决现有技术中存在的文档间相似度计算不精的问题。

Description

一种基于改进的Jaccard系数确定文档相似度的方法
技术领域
本发明涉及信息检索领域,尤其涉及一种基于改进的Jaccard系数确定文档相似度的方法。
背景技术
随着现代计算机技术的快速发展与网络的飞速普及,网上数据资源也在急速增加,这丰富的数据资源为人们的生活提供了便利,也提高了人们的工作效率。在这些数据资源给人们提供便利的同时,也出现了不少问题,如学术论文抄袭、新闻转载等。在这样的背景下,查重检测应运而生。相似度计算具有广泛的应用前景,目前主要应用于学术论文查重检测、电子档版权、文本聚类、问卷调查整理、搜索引擎去重等。
相似性数据的检测数据量十分庞大。在百度百科上,以中国学位论文全文数据库收录的学位论文为例,截止2011年10月,论文总量达200万篇以上,每年增长约30万篇。再如,2016年5月份中国50所高校在线发表论文数量高达62000多篇,其中大部分的科研论文都需要进行相似性检测。如此庞大的数据,借助一种基于改进的Jaccard系数确定多个文档相似度的方法进行检测,实现多个文档之间的相似性比对是很有必要的。一个好的确定文档相似度的方法在学术论文相似性检测、文本聚类、舆情调查等领域上具有重要意义。
文本相似度是指在两篇或者多篇文档中出现的词语、句子、段落或者篇章的匹配程度。两篇文档在词语、句子、段落或者篇章上越匹配,代表着这两篇文档的相似度越高。文档相同是特殊的相似,即相似度为100%。目前已有的文本相似度度量方法有很多,如:欧式距离和马氏距离。欧式距离是最简单、最易于理解的一种距离测量方法。在二维平面内,两点间的欧氏距离为相应的,在多维空间内,两点间的欧氏距离为:该方法虽然操作简单,但它将每个样本的属性公平对待,不考虑各属性之间存在的差异及其对欧氏距离的贡献程度。相反地,马氏距离正是通过考虑各特性之间的联系,有效地对未知样本进行相似度计算,如一条关于身高的信息会带来一条关于体重的信息,因为二者是有关联的,但它有时会夸大变化微小的变量的作用。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于改进的Jaccard系数确定文档相似度的方法,通过考虑各元素、样本在文档中的权重及其对多个文档相似度的贡献程度,有效地解决现有技术中存在的文档间相似度计算不精的问题。
本发明采用的技术方案是:
一种基于改进的Jaccard系数确定文档相似度的方法,其包括以下步骤:
步骤1:给定文档X和文档Y,文档X的文档长度为m,文档Y的文档长度为n;分别确定文档X中长度为K的每个元素wi对应的数量和文档Y中长度为K的每个元素wj对应的数量其中i=1,2,...,m-K+1,j=1,2,...,n-K+1;
步骤2:计算文档X中每个元素wi所占的比重即:
步骤3:计算文档Y中每个元素wj所占的比重即:
步骤4:根据Jaccard相似度原理,文档X和文档Y的Jaccard相似度等于文档X和文档Y的交集大小与并集大小的比例;设定元素wh同时存在于文档X和文档Y中,则文档X和文档Y的Jaccard相似度为元素wh在文档X中的权重与元素wh在文档Y中的权重的比值采用如下公式计算
C J ( X w h , Y w h ) = | X w h ∩ Y w h | | X w h ∪ Y w h | = min ( | X w h | , | Y w h |) max ( | X w h | , | Y w h |) = min ( NX w h , NY w h ) max ( NX w h , NY w h ) - - - ( 3 ) ;
步骤5:设定ε(wh)代表元素wh在文档X和文档Y所有n-Gram长度为K的元素中的所占的比重ε(wh),
步骤6:设定F(wh)代表元素wh在文档X和文档Y是否同时出现,则
F ( w h ) = 1 ( w h ∈ X ∩ Y ) 0 ( w h ∉ X ∩ Y ) - - - ( 5 ) ;
步骤7:设定为文档X和文档Y的相似度,采用如下公式计算
Similarity c J ( X , Y ) = Σ w h ∈ Σ K C J ( X w h , Y w h ) ϵ ( w h ) Σ w h ∈ Σ K F ( w h ) ϵ ( w h ) - - - ( 6 ) .
本发明采用以上技术方案,根据Jaccard相似度的原理:集合间相似度大小等于交集大小与并集大小的比值,建立起判断多文档相似度的模型;将该方法运用到多文档相似度的确定,准确有效地得到了精度较高的文档相似度;由于该方法考虑到了每个词在各个文档中所占的比重,这样所获得的相似度是比较准确的。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1为本发明一种基于改进的Jaccard系数确定文档相似度的方法的流程图。
具体实施方式
以下将结合附图对本发明提供的方法进行详细的说明,并将结合实例及实验数据对根据本发明的方法的优势进行具体的说明。
如图1所示,本发明公开一种基于改进的Jaccard系数确定文档相似度的方法,其包括以下步骤:
步骤1:给定文档X和文档Y,文档X的文档长度为m,文档Y的文档长度为n;分别确定文档X中长度为K的每个元素wi对应的数量和文档Y中长度为K的每个元素wj对应的数量其中i=1,2,...,m-K+1,j=1,2,...,n-K+1;具体地,文档X中含有m个长度为1的元素w1,含有(m-1)个长度为2的元素w2,依此类推含有1个长度为m的元素,这些元素即n-Gram,是由大小为m的滑动窗口从文本起始位置开始滑向终止位置所形成。那么在文档X和文档Y中所有n-Gram长度为K的元素个数:文档X有m-K+1个,文档Y有n-K+1个,其中m≥K,n≥K。对于文档X,令i从文本起始位置1滑向终止位置m-K+1,读取第i至m-K+1位置的元素并保存在temp1中。所以当i滑向终止位置时,temp1中有m-K+1个n-Gram长度为K的元素;类似地,对于文档Y,令j从文本起始位置1滑向终止位置n-K+1,读取第j至n-K+1位置的元素并保存在temp2中。所以当j滑向终止位置时,temp2中有n-K+1个n-Gram长度为K的元素。
例如在文档X=“abcabc123”与文档Y=“123abc”中,他们的文档长度分别为m=9和n=6。假设n-Gram长度K=3,那么在文档X中含有7个n-Gram长度为3的元素:{abc,bca,cab,abc,bc1,c12,123},在文档Y中含有4个n-Gram长度为3的元素:{123,23a,3ab,abc}。
将文档X中的元素数量的初始值设为0,在大小为m的滑动窗口从起始位置滑向终止位置的过程中,一边读取n-Gram长度为K的元素,一边将对应元素的数量加1;将文档Y中的元素数量的初始值设为0,在大小为n的滑动窗口从起始位置滑向终止位置的过程中,一边读取n-Gram长度为K的元素,一边将对应元素的数量加1。所以,在文档X中n-Gram长度为3的元素为{abc,bca,cab,bc1,c12,123},对应的数量分别为{2,1,1,1,1,1};在文档Y中n-Gram长度为3的元素为{123,23a,3ab,abc},对应的数量分别为{1,1,1,1}。
步骤2:计算每个元素wi在文档X中所占的比重即:
由步骤1可知,在长度为m的文档X中,n-Gram长度为K的元素数量为m-K+1,那么每个元素wi在文档中出现的次数与m-K+1的比值即每个元素在文档X中所占的比重。
因此,就上述例子而言,在文档X中,每个元素{wabc,wbca,wcab,wbc1,wc12,w123}所占的比重分别是
步骤3:计算每个元素wj在文档Y中所占的比重即:
由步骤1可知,在长度为n的文档Y中,n-Gram长度为K的元素数量为n-K+1,那么每个元素wj在文档中出现的次数与n-K+1的比值即每个元素在文档Y中所占的比重。
因此,就上述例子而言,在文档Y中,每个元素{w123,w23a,w3ab,wabc}所占的比重分别是
步骤4:根据Jaccard相似度原理,文档X和文档Y的Jaccard相似度等于文档X和文档Y的交集大小与并集大小的比值;设定元素wh同时存在于文档X和文档Y中,则文档X和文档Y的Jaccard相似度为元素wh在文档X中的权重与元素wh在文档Y中的权重的比值采用如下公式计算
C J ( X w h , Y w h ) = | X w h ∩ Y w h | | X w h ∪ Y w h | = min ( | X w h | , | Y w h |) max ( | X w h | , | Y w h |) = min ( NX w h , NY w h ) max ( NX w h , NY w h ) - - - ( 3 ) ;
就上述例子而言,文档X的元素集合为a,文档Y的元素集合为b,令i从集合a的起始位置滑向终止位置,令j从集合b的起始位置滑向终止位置。(1)若集合a中第h个元素的行名与集合b中第h个元素的行名相等,说明该元素同时存在于两个文档中。此时,该元素对应的两文档改进的Jaccard相似度即的比值。基于此,上述例子中,元素wabc和w123同时存在于文档X和文档Y中,所以X、Y两文档改进的Jaccard相似度为:
C J ( X w a b c , Y w a b c ) = | X w a b c ∩ Y w a b c | | X w a b c ∪ Y w a b c | = min ( | X w a b c | , | Y w a b c |) max ( | X w a b c | , | Y w a b c |) = min ( NX w a b c , NY w a b c ) max ( NX w a b c , NY w a b c ) = 1 / 4 2 / 7 = 7 8
C J ( X w 123 , Y w 123 ) = | X w 123 ∩ Y w 123 | | X w 123 ∪ Y w 123 | = min ( | X w 123 | , | Y w 123 |) max ( | X w 123 | , | Y w 123 |) = min ( NX w 123 , NY w 123 ) max ( NX w 123 , NY w 123 ) = 1 / 7 1 / 4 = 4 7 .
(2)在i从集合a的起始位置滑向终止位置,j从集合b的起始位置滑向终止位置的过程中,若集合a中第h个元素的行名与集合b中任一元素的行名都不相等,说明该元素不是同时存在于两个文档中,那么该元素对应的两文档改进的Jaccard相似度为0。基于此:
步骤5:设定ε(wh)代表元素wh在文档X和文档Y所有n-Gram长度为K的元素中的所占的比重ε(wh),
具体地,由步骤1可知,temp1中保存的是文档X中m-K+1个n-Gram长度K为3的元素,temp2中保存的是文档Y中n-K+1个n-Gram长度K为3的元素,将temp1和temp2中所有的元素及其相应的数量拼接起来,并且建立列联表,此时表中显示的是文档X和Y所有的元素及数量。
就上述例子而言,文档X、Y中所有元素为:{wabc,wbca,wcab,wbc1,wc12,w123,w23a,w3ab},那么这些元素在文档X和文档Y所有n-Gram长度为3的元素中的所占的比重是:
ϵ ( w a b c ) = 3 11 , ϵ ( w b c a ) = 1 11 , ϵ ( w c a b ) = 1 11 , ϵ ( w b c 1 ) = 1 11
ϵ ( w c 12 ) = 1 11 , ϵ ( w 123 ) = 2 11 , ϵ ( w 23 a ) = 1 11 , ϵ ( w 3 a b ) = 1 11 .
步骤6:设定F(wh)代表元素wh在文档X和文档Y是否同时出现,则
F ( w h ) = 1 ( w h ∈ X ∩ Y ) 0 ( w h ∉ X ∩ Y ) - - - ( 5 ) ;
具体地,就上述例子而言,
(1)若集合a中第h个元素的行名与集合b中第h个元素的行名相等,说明该元素同时存在于两个文档中,并且该元素对文档X和Y的文档相似度有贡献,此时,F(wh)=1。基于此,由于元素wabc和w123同时存在于文档X和文档Y中,所以:F(wabc)=1,F(w123)=1。
(2)若集合a中第h个元素的行名与集合b中任一元素的行名都不相等,说明该元素不是同时存在于两个文档中,则该元素对文档X和Y的文档相似度无贡献,此时,F(wh)=0。基于此,由于元素{wbca,wcab,wbc1,wc12,w23a,w3ab}不是同时存在于文档X和文档Y中,所以:F(wbca)=F(wcab)=F(wbc1)=F(wc12)=F(w23a)=F(w3ab)=0。
步骤7:设定为文档X和文档Y的相似度,采用如下公式计算
Similarity c J ( X , Y ) = Σ w h ∈ Σ K C J ( X w h , Y w h ) ϵ ( w h ) Σ w h ∈ Σ K F ( w h ) ϵ ( w h ) - - - ( 6 ) .
具体地,就上述例子而言,文档X和文档Y的相似度为:
Similarity c J ( X , Y ) = Σ w h ∈ Σ K C J ( X w h , Y w h ) ϵ ( w h ) Σ w h ∈ Σ K F ( w h ) ϵ ( w h ) = C J ( X w a b c , Y w a b c ) ϵ ( w a b c ) + C J ( X w 123 , Y w 123 ) ϵ ( w 123 ) F ( w a b c ) ϵ ( w a b c ) + F ( w 123 ) ϵ ( w 123 ) ≈ 0.75.
本发明采用以上技术方案,根据Jaccard相似度的原理:集合间相似度大小等于交集大小与并集大小的比例,建立起判断多文档相似度的模型;将该方法运用到多文档相似度的确定,准确有效地得到了精度较高的文档相似度;由于该方法考虑到了每个词在各个文档中所占的比重,这样所获得的相似度是比较准确的。

Claims (2)

1.一种基于改进的Jaccard系数确定文档相似度的方法,其特征在于:其包括以下步骤:
步骤1:给定文档X和文档Y,文档X的文档长度为m,文档Y的文档长度为n;分别确定文档X中长度为K的每个元素wi对应的数量和文档Y中长度为K的每个元素wj对应的数量其中i=1,2,...,m-K+1,j=1,2,...,n-K+1;
步骤2:计算文档X中每个元素wi所占的比重即:
步骤3:计算文档Y中每个元素wj所占的比重即:
步骤4:根据Jaccard相似度原理,文档X和文档Y的Jaccard相似度等于文档X和文档Y的交集大小与并集大小的比值;当元素wh同时存在于文档X和文档Y中,则文档X和文档Y的Jaccard相似度为元素wh在文档X中的权重与元素wh在文档Y中的权重的比值采用如下公式计算
C J ( X w h , Y w h ) = | X w h ∩ Y w h | | X w h ∪ Y w h | = min ( | X w h | , | Y w h | ) max ( | X w h | , | Y w h | ) = min ( NX w h , NY w h ) max ( NX w h , NY w h ) - - - ( 3 ) ;
步骤5:设定ε(wh)代表元素wh在文档X和文档Y所有n-Gram长度为K的元素中的所占的比重ε(wh),
步骤6:设定F(wh)代表元素wh在文档X和文档Y是否同时出现,则
F ( w h ) = 1 ( w h ∈ X ∩ Y ) 0 ( w h ∉ X ∩ Y ) - - - ( 5 ) ;
步骤7:设定为文档X和文档Y的相似度,采用如下公式计算
Similarity c J ( X , Y ) = Σ w h ∈ Σ K C J ( X w h , Y w h ) ϵ ( w h ) Σ w h ∈ Σ K F ( w h ) ϵ ( w h ) - - - ( 6 ) .
2.根据权利要求1所述的一种基于改进的Jaccard系数确定文档相似度的方法,其特征在于:所述步骤4中当文档X和文档Y不存在相同元素时,则文档X和文档Y的Jaccard相似度为0。
CN201610807202.6A 2016-09-07 2016-09-07 一种基于改进的Jaccard系数确定文档相似度的方法 Expired - Fee Related CN106372043B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610807202.6A CN106372043B (zh) 2016-09-07 2016-09-07 一种基于改进的Jaccard系数确定文档相似度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610807202.6A CN106372043B (zh) 2016-09-07 2016-09-07 一种基于改进的Jaccard系数确定文档相似度的方法

Publications (2)

Publication Number Publication Date
CN106372043A true CN106372043A (zh) 2017-02-01
CN106372043B CN106372043B (zh) 2018-11-23

Family

ID=57898837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610807202.6A Expired - Fee Related CN106372043B (zh) 2016-09-07 2016-09-07 一种基于改进的Jaccard系数确定文档相似度的方法

Country Status (1)

Country Link
CN (1) CN106372043B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909667A (zh) * 2017-02-28 2017-06-30 北京奇虎科技有限公司 基于桌面启动器的应用推荐方法、装置及移动终端
CN108536657A (zh) * 2018-04-10 2018-09-14 百融金融信息服务股份有限公司 人为填写的地址文本相似度处理方法和系统
CN110674332A (zh) * 2019-08-01 2020-01-10 南昌市微轲联信息技术有限公司 基于ocr与文本挖掘的机动车数字电子档案分类方法
CN112085404A (zh) * 2020-09-17 2020-12-15 辽宁工程技术大学 一种感性工学产品样本筛选方法
CN112131502A (zh) * 2019-06-25 2020-12-25 北京京东尚科信息技术有限公司 数据处理方法、数据处理装置、电子设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1959671A (zh) * 2005-10-31 2007-05-09 北大方正集团有限公司 基于文档结构的文档相似性度量方法
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及系统
CN101576903A (zh) * 2009-03-03 2009-11-11 杜小勇 一种文档相似度衡量方法
US20140365525A1 (en) * 2013-06-10 2014-12-11 Sap Ag System and Method of Merging Text Analysis Results
US9280747B1 (en) * 2015-05-27 2016-03-08 Sas Institute Inc. Normalizing electronic communications using feature sets

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1959671A (zh) * 2005-10-31 2007-05-09 北大方正集团有限公司 基于文档结构的文档相似性度量方法
CN101398814A (zh) * 2007-09-26 2009-04-01 北京大学 一种同时抽取文档摘要和关键词的方法及系统
CN101576903A (zh) * 2009-03-03 2009-11-11 杜小勇 一种文档相似度衡量方法
US20140365525A1 (en) * 2013-06-10 2014-12-11 Sap Ag System and Method of Merging Text Analysis Results
US9280747B1 (en) * 2015-05-27 2016-03-08 Sas Institute Inc. Normalizing electronic communications using feature sets

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
GERARD SALTON 等: "Term-Weighting Approaches in Automatic Text Retrieval", 《INFORMATION PROCESSING & MANAGEMENT》 *
SNEHALATA B. SHIRUDE 等: "Identifying subject area/s of user using n-Gram and Jaccard"s similarity in profile agent of library recommender system", 《ICTCS"14 PROCEEDINGS OF THE 2014 INTERNATIONAL CONFERENCE ON INFORMATION AND COMMUNICATION TECHNOLOGY FOR COMPETITIVE STRATEGIES》 *
晋民杰 等: "一种基于相似系数的权重确定方法", 《太原科技大学学报》 *
王贤明 等: "一种基于随机n-Grams的文本相似度计算方法", 《情报学报》 *
邓琨 等: "一种整体性的相似度计算方法", 《情报学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909667A (zh) * 2017-02-28 2017-06-30 北京奇虎科技有限公司 基于桌面启动器的应用推荐方法、装置及移动终端
CN106909667B (zh) * 2017-02-28 2020-10-13 北京安云世纪科技有限公司 基于桌面启动器的应用推荐方法、装置及移动终端
CN108536657A (zh) * 2018-04-10 2018-09-14 百融金融信息服务股份有限公司 人为填写的地址文本相似度处理方法和系统
CN108536657B (zh) * 2018-04-10 2021-09-21 百融云创科技股份有限公司 人为填写的地址文本相似度处理方法和系统
CN112131502A (zh) * 2019-06-25 2020-12-25 北京京东尚科信息技术有限公司 数据处理方法、数据处理装置、电子设备和介质
CN110674332A (zh) * 2019-08-01 2020-01-10 南昌市微轲联信息技术有限公司 基于ocr与文本挖掘的机动车数字电子档案分类方法
CN110674332B (zh) * 2019-08-01 2022-11-15 南昌市微轲联信息技术有限公司 基于ocr与文本挖掘的机动车数字电子档案分类方法
CN112085404A (zh) * 2020-09-17 2020-12-15 辽宁工程技术大学 一种感性工学产品样本筛选方法

Also Published As

Publication number Publication date
CN106372043B (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN106372043A (zh) 一种基于改进的Jaccard系数确定文档相似度的方法
Zhu et al. Heterogeneous hypergraph embedding for document recommendation
CN103049435B (zh) 文本细粒度情感分析方法及装置
US9880998B1 (en) Producing datasets for representing terms and objects based on automated learning from text contents
Ray et al. Review and implementation of topic modeling in Hindi
Stepchenkova Content analysis
US20210182659A1 (en) Data processing and classification
Gao et al. Ontology Similarity Measure and Ontology Mapping via Learning Optimization SimilarityFunction
Gómez-Adorno et al. Automatic authorship detection using textual patterns extracted from integrated syntactic graphs
CN103559191A (zh) 基于隐空间学习和双向排序学习的跨媒体排序方法
Koltcov et al. Estimating topic modeling performance with sharma–mittal entropy
Xue et al. Aspect identification and ratings inference for hotel reviews
Hou et al. A study on Chinese quantitative stylistic features and relation among different styles based on text clustering
US9262395B1 (en) System, methods, and data structure for quantitative assessment of symbolic associations
Xu et al. Exploring the potential of BERT-BiLSTM-CRF and the attention mechanism in building a tourism knowledge graph
Reisinger et al. Latent variable models of concept-attribute attachment
CN112417082B (zh) 一种科研成果数据消歧归档存储方法
Quemy et al. On integrating and classifying legal text documents
Liu et al. An extended hits algorithm on bipartite network for features extraction of online customer reviews
TWI501183B (zh) 個人化教科書推薦系統及其方法
Yu et al. ACS: Construction data auto-correction system—Taiwan Public construction data example
Pan [Retracted] Construction and Application of College English Blended Teaching System Based on Multidata Fusion
Chen et al. Long text QA matching model based on BiGRU–DAttention–DSSM
Qi et al. Application of LDA and word2vec to detect English off-topic composition
Wu et al. Cross-modal learning based on semantic correlation and multi-task learning for text-video retrieval

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181123