CN108573045A - 一种基于多阶指纹的比对矩阵相似度检索方法 - Google Patents

一种基于多阶指纹的比对矩阵相似度检索方法 Download PDF

Info

Publication number
CN108573045A
CN108573045A CN201810347530.1A CN201810347530A CN108573045A CN 108573045 A CN108573045 A CN 108573045A CN 201810347530 A CN201810347530 A CN 201810347530A CN 108573045 A CN108573045 A CN 108573045A
Authority
CN
China
Prior art keywords
text
similarity
sentence
alignment matrix
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810347530.1A
Other languages
English (en)
Other versions
CN108573045B (zh
Inventor
段飞虎
吕强
冯自强
张宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLICATION TECHNOLOGY Co Ltd
Original Assignee
TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLICATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLICATION TECHNOLOGY Co Ltd filed Critical TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLICATION TECHNOLOGY Co Ltd
Priority to CN201810347530.1A priority Critical patent/CN108573045B/zh
Publication of CN108573045A publication Critical patent/CN108573045A/zh
Application granted granted Critical
Publication of CN108573045B publication Critical patent/CN108573045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多阶指纹的比对矩阵相似度检索方法,该方法包括:将文本进行碎片化处理,保存于数据库并将文本数据清洗形成统一格式文本;将统一格式文本使用simhash算法进行编码,形成64位二进制的多阶指纹特征值并保存于数据库;计算要进行相似比对文本的特征值与其他文本特征值之间的海明距离,并选取海明距离小于阈值为3的文本进行二次计算;将原文本与比对文本两两构建比对矩阵,计算文本相似度和相似内容并标记输出;对文本相似度和相似度内容计算方法进行优化,该优化方法采用并行计算实用多个线程同时计算。

Description

一种基于多阶指纹的比对矩阵相似度检索方法
技术领域
本发明涉及文本挖掘和计算机信息处理技术领域,尤其涉及一种基于多阶指纹的比对矩阵相似度检索方法。
背景技术
随着计算机对文本信息等各种自然语言处理应用的普及,面临当今社会日益复杂的需求,人们对计算机文本处理提出了更高的要求。在相似度检索领域,现在已有的方法具有不可复制性,需要大量的硬件支撑和特殊数据库的支持,因此无法满足企业多样化的需求。尤其针对国企、机关事业单位以及国家保密机构等,由于数据需要保密不能使用公开的相似度检索系统。面临日益增多的项目申报需求,只能够通过传统的人工方式来对所有申报项目进行相似排查,大量的耗费了人力,物力,财力。因此人们迫切需要一种轻量级的相似度检索机制来处理这些问题。
一般地,相似度检索方法通常分为三种:1、将文本表示成文本词频向量,通过计算词频向量之间的距离得到文本的相似度。然而现有的文本词频向量方法需要能够从文本中抽取大量的词汇,因此只适用于长文本。2、通过将文本表示成多阶指纹的形式进行相似度计算,由于多阶指纹通过对文本进行编码再计算,因此此方法能够计算相似度但不能够精确表引出相似内容。3、通过机器学习的方法计算,由于机器学习需要大量的语料进行训练和高效的硬件系统来支撑,因此不能够应对轻量级相似度检索的需求。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于多阶指纹的比对矩阵相似度检索方法,该方法首先通过多阶指纹来标识每篇文本,以此来初步查询出相似文本,之后再针对相似文本构造比对矩阵来精确查找并标引相似内容。所述方法提高了申报项目查重比对的效率,减少了人力物力等资源的浪费,解决了现有相似度检索机制不能够有效迁移的问题。
本发明的目的通过以下的技术方案来实现:
一种基于多阶指纹的比对矩阵相似度检索方法,包括:
A将文本进行碎片化处理,保存于数据库并将文本数据清洗形成统一格式文本;
B将统一格式文本使用simhash算法进行编码,形成64位二进制的多阶指纹特征值并保存于数据库;
C计算要进行相似比对文本的特征值与其他文本特征值之间的海明距离,并选取海明距离小于阈值为3的文本进行二次计算;
D将原文本与比对文本两两构建比对矩阵,计算文本相似度和相似内容并标记输出;
E对文本相似度和相似度内容计算方法进行优化,该优化方法采用并行计算实用多个线程同时计算。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
该方法通过对文本进行细粒度划分构建文本比对矩阵来进行相似度计算,之后通过设定阈值精确查找在文本之间的相似内容并标记。本算法通过运用构造比对矩阵,并使用多线程优化了比对速度并提高了比对结果的准确性。
附图说明
图1是基于多阶指纹的比对矩阵相似度检索方法流程图;
图2是数据库统一结构表图;
图3是数据统一格式后的图例;
图4是64位simhash多阶指纹特征值列表图;
图5是64位simhash特征值拆分表图;
图6是基于多阶指纹的比对矩阵相似度检索方法详细流程图;
图7是一对多查重结果展示图;
图8是一对一精确查重结果展示图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为基于多阶指纹的比对矩阵相似度检索方法,包括:
步骤10将文本进行碎片化处理,保存于数据库并将文本数据清洗形成统一格式文本;
将word,pdf等格式的文本通过程序识别,统一格式并保存在数据库内。如图2所示,为数据库统一结构,其中属性f_article_title为每篇文本标题, f_after_content为去除html标签的文本全文,本方法主要使用属性 f_after_content的全文信息。
如图3所示为文本格式化后的内容。
步骤20将统一格式文本使用simhash算法进行编码,形成64位二进制的多阶指纹特征值并保存于数据库中的simhash字段(如图4所示);
同时计算并保存文本的相关数据例如:文本字数以及提取的关键词和关键词权重。
Simhash算法分为五个步骤:分词,hash,加权,合并,降维。
对文本进行分词并去除对全文内容没有影响的词汇,例如介词,副词等。为每个词赋予权重,权重采用词频来计算。权重越大说明该词汇在文中出现次数越多。
通过hash函数计算每个词的特征值,并用二进制的0和1组成n-bit签名,使字符串变成一系列数字。
在hash值的基础上,给所有特征值进行加权,即W=hash*weight,且遇到1则hash值和权值正相乘,遇到0则hash值和权值负相乘。
将上述各个特征值的加权结果累加,变成只有一个序列串。
对于n-bit签名的累加结果,如果大于0则置1,否则置0,从而得到该语句的simhash值。
步骤30计算要进行相似比对文本的特征值与其他文本特征值之间的海明距离,并选取海明距离小于阈值为3的文本进行二次计算;
海明距离的求法是:异或时,只有在两个比较的位不同时其结果是1,否则结果为0,两个二进制“异或”后得到1的个数即为海明距离的大小。
如果逐一计算海明距离会进行n2次计算(设数据库的数据量为n),因此如果数据库存储数据量过大会耗费很长时间。因此为提高效率提出了时间与空间多表索引方法。
为加快海明距离计算速度方便查找相似文本,建立新表SimhashMap以拆分64位Simhash编码,拆分表如图5所示,该方法基于抽屉原理,如果两个 simhash值的海明距离在3以内,则它们切分成的m(m≤64)块中,必有l-3 块相等。为提高检索效率,同时兼顾空间开销,本文设m=8,将每个simhash 值均分为8块,为所有的simhash值创建8个表,不同的表存储不同位置的块,如第一个表存储0-7位,第二个表存储8-15位,第三个表存储16-23 位等,表中同样使用倒排索引,由8位比特串索引simhash值。
当依据某simhash检索海明距离在3以内的其他simhash值时,将该 simhash平分为8块,每块在相应的表寻找相似块,取相似块对应的simhash 集合,筛选出至少在5个块对应的集合中出现的simhash值,然后逐一计算汉明距离。假如simhash平均分布,则该方法使海明距离计算次数减至总数的 0.375次方。
步骤40将原文本与比对文本两两构建比对矩阵,计算文本相似度和相似内容并标记输出;
1、将两篇比对文本由粗粒度转化成细粒度,设比对文本和被比对文本为:
D={d1,d2,d3,...,dn},M={m1,m2,m3,...,mk},其中D和M为原始文本语句粒度的集合,其中d和m为拆分出的语句,n和k表示文本语句的数量;
2、由原始文本语句粒度的集合对文本集合进行相似度计算,并构建比对矩阵P:
其中,pnk为原始文本dn与比对文本中mk计算相似度所得结果,计算公式为:
其中,LCS(dn,mk)为dn与mk中相同字的数量,Num(dn)为语句dn的字数, Num(mk)为语句mk的字数;由此可得相同的字数分别占原始语句与比对语句的比值,并取比值较小的当做pnk的最终结果;
3、设定阈值similarWeight,并构建邻接矩阵;
阈值的范围为0到1的取值,并且可以通过人为调整以应对不同项目对精确度的不同要求,将对比矩阵P中的所有值与阈值similarWeight进行比较,大于阈值则设为1,小于阈值设为0从而构建n行k列的邻接矩阵Q:
拆分原始文本的simhash值,并将各个位置的拆分值通过SimhashMap表快速查找,将所有满足条件结果的simhash值进行海明距离计算,并筛选出海明距离小于阈值的记录(一般情况下阈值设为3)进行精确相似度计算,计算过程如图6所示。
4、通过邻接矩阵找到文本比对相似处进行精确判断并标注;
设定阈值rightWeight,所述阈值rightWeight在0-1之间且大于 similarWeight,对照邻接矩阵标记处的pnk值进行排查,大于阈值的部分直接标记为相似并存储该对相似语句在两篇比对文本中出现的位置;
对于小于阈值rightWeight的部分,通过其所在的行列位置找到对应语句并进行分词,同时加入近义词库进行语义判断,其判断公式如下:
其中,rightWords(dn,mk)表示分词之后相同词的字的数量,表示在原始文本D的语句dn中相似词语的字数,表示在比对文本M的语句mk中相似词语的字数,wnk表示在分词并加入相似词库之后相似文本在原始文本语句和背对文本语句中所占的比值的较小值。当wnk大于或者等于阈值rightWeight时标记为相似。
步骤50对文本相似度和相似度内容计算方法进行优化,该优化方法采用并行计算实用多个线程同时计算;
由于构建比对矩阵时需要计算两两比对中所有语句的相似度,即需要经过 n*k次计算,而且随着比对篇幅的增加会加大运算时间,因此采用并行计算方法使用多个线程同时计算。然而,线程开启过多时,又会使线程调度时间过长而达不到理想效果,因此经过大量文本测试,文本比对总字数在各个区间时,选取在各区间线程数的最优解。由于线程数不同,需要将比对矩阵进行切分,使原始比对矩阵转换化成相对较小的比对矩阵进行并行计算。
其转化方法如下:
本算法通过限制单次比对语句数来达到限制线程数的效果,设单次比对语句数量为t,则开启线程数v的计算公式为:
其中Ceiling函数是取整函数同时只要存在小数则加1。
比对矩阵切分方法为(存在小数情况):
将上述P’中的多个矩阵同时加入线程并行计算,以充分利用空间和时间资源提高效率。
查重结果展示分为一对多查重和一对一查重,一对多查重是指原始文本与多篇相似文本比对的结果,一对一查重指原始文本与单篇相似文本的比对结果。申报项目查重只针对历年以来所申报的项目,数据量较小但更加注重所申报项目的精确性,因此有必要进行一对一单篇针对性比较。
一对多比对结果展示如图7所示,一对一比对结果展示如图8所示,在一对一查重比对中,左右两篇文本黑色加粗语句对应的角标相同则为相似内容。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (6)

1.一种基于多阶指纹的比对矩阵相似度检索方法,其特征在于,所述方法包括:
A将文本进行碎片化处理,保存于数据库并将文本数据清洗形成统一格式文本;
B将统一格式文本使用simhash算法进行编码,形成64位二进制的多阶指纹特征值并保存于数据库;
C计算要进行相似比对文本的特征值与其他文本特征值之间的海明距离,并选取海明距离小于阈值为3的文本进行二次计算;
D将原文本与比对文本两两构建比对矩阵,计算文本相似度和相似内容并标记输出;
E对文本相似度和相似度内容计算方法进行优化,该优化方法采用并行计算实用多个线程同时计算。
2.如权利要求1所述的基于多阶指纹的比对矩阵相似度检索方法,其特征在于,所述simhash算法包括:
对文本进行分词,并去除对全文内容没有影响的词汇;
通过hash函数计算每个词的特征值,并用二进制的0和1组成n-bit签名;
给所有特征值进行加权;
将各个特征值的加权结果进行累加,变成只有一个序列串;
对于n-bit签名的累加结果,如果大于0则置1,否则置0,从而得到该语句的simhash值。
3.如权利要求1所述的基于多阶指纹的比对矩阵相似度检索方法,其特征在于,所述海明距离的求法是:异或时,在两个比较位不同时其结果是1,否则结果是0,两个二进制“异或”后得到1的个数即为海明距离的大小。
4.如权利要求1所述的基于多阶指纹的比对矩阵相似度检索方法,其特征在于,所述比对矩阵的构建及文本相似度的计算步骤包括:
D1将两篇比对文本由粗粒度转化成细粒度,设比对文本和被比对文本为:
D={d1,d2,d3,...,dn},M={m1,m2,m3,...,mk},其中D和M为原始文本语句粒度的集合,其中d和m为拆分出的语句,n和k表示文本语句的数量;
D2由原始文本语句粒度的集合对文本集合进行相似度计算,并构建比对矩阵P:
其中,pnk为原始文本dn与比对文本中mk计算相似度所得结果,计算公式为:
其中,LCS(dn,mk)为dn与mk中相同字的数量,Num(dn)为语句dn的字数,Num(mk)为语句mk的字数;由此可得相同的字数分别占原始语句与比对语句的比值,并取比值较小的当做pnk的最终结果;
D3设定阈值similarWeight,并构建邻接矩阵;
D4通过邻接矩阵找到文本比对相似处进行精确判断并标注。
5.如权利要求4所述的基于多阶指纹的比对矩阵相似度检索方法,其特征在于,所述步骤D3中:将对比矩阵P中的所有值与阈值similarWeight进行比较,大于阈值则设为1,小于阈值设为0从而构建n行k列的邻接矩阵Q:
6.如权利要求4所述的基于多阶指纹的比对矩阵相似度检索方法,其特征在于,所述步骤D4中精确判断包括:
设定阈值rightWeight,所述阈值rightWeight在0-1之间且大于similarWeight,对照邻接矩阵标记处的pnk值进行排查,大于阈值的部分直接标记为相似并存储该对相似语句在两篇比对文本中出现的位置;
对于小于阈值rightWeight的部分,通过其所在的行列位置找到对应语句并进行分词,同时加入近义词库进行语义判断,其判断公式如下:
其中,rightWords(dn,mk)表示分词之后相同词的字的数量,表示在原始文本D的语句dn中相似词语的字数,表示在比对文本M的语句mk中相似词语的字数,wnk表示在分词并加入相似词库之后相似文本在原始文本语句和背对文本语句中所占的比值的较小值。当wnk大于或者等于阈值rightWeight时标记为相似。
CN201810347530.1A 2018-04-18 2018-04-18 一种基于多阶指纹的比对矩阵相似度检索方法 Active CN108573045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810347530.1A CN108573045B (zh) 2018-04-18 2018-04-18 一种基于多阶指纹的比对矩阵相似度检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810347530.1A CN108573045B (zh) 2018-04-18 2018-04-18 一种基于多阶指纹的比对矩阵相似度检索方法

Publications (2)

Publication Number Publication Date
CN108573045A true CN108573045A (zh) 2018-09-25
CN108573045B CN108573045B (zh) 2021-12-24

Family

ID=63575004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810347530.1A Active CN108573045B (zh) 2018-04-18 2018-04-18 一种基于多阶指纹的比对矩阵相似度检索方法

Country Status (1)

Country Link
CN (1) CN108573045B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299260A (zh) * 2018-09-29 2019-02-01 上海晶赞融宣科技有限公司 数据分类方法、装置以及计算机可读存储介质
CN109635084A (zh) * 2018-11-30 2019-04-16 宁波深擎信息科技有限公司 一种多源数据文档实时快速去重方法及系统
CN110134761A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 判决文书信息检索方法、装置、计算机设备和存储介质
CN110297879A (zh) * 2019-05-15 2019-10-01 平安科技(深圳)有限公司 一种基于大数据的数据去重的方法、装置及存储介质
CN110309263A (zh) * 2019-06-06 2019-10-08 中国人民解放军军事科学院军事科学信息研究中心 一种基于语义的工作属性文本内容冲突判断方法及装置
CN110704645A (zh) * 2019-08-22 2020-01-17 中国人民解放军军事科学院评估论证研究中心 一种基于指纹的语料库全文检索方法及系统
CN110837555A (zh) * 2019-11-11 2020-02-25 苏州朗动网络科技有限公司 海量文本去重筛选的方法、设备和存储介质
CN110866088A (zh) * 2019-08-22 2020-03-06 中国人民解放军军事科学院评估论证研究中心 一种语料库之间的快速全文检索方法及系统
CN110909019A (zh) * 2019-11-14 2020-03-24 湖南赛吉智慧城市建设管理有限公司 大数据查重方法、装置、计算机设备及存储介质
CN111104794A (zh) * 2019-12-25 2020-05-05 同方知网(北京)技术有限公司 一种基于主题词的文本相似度匹配方法
CN111339082A (zh) * 2020-02-10 2020-06-26 同方知网(北京)技术有限公司 一种基于检索式的指标数据图表解读方法
CN111544892A (zh) * 2020-05-06 2020-08-18 福建天晴数码有限公司 一种游戏中长文本消息合法性校验的方法及系统
CN112182337A (zh) * 2020-10-14 2021-01-05 数库(上海)科技有限公司 从海量短新闻中识别相似新闻的方法及相关设备
CN114610847A (zh) * 2022-03-21 2022-06-10 南方电网科学研究院有限责任公司 一种智能知识检索系统
CN117056456A (zh) * 2023-07-12 2023-11-14 国网江苏省电力有限公司淮安供电分公司 一种基于CsiBert模型的高效文本搜索方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1828609A (zh) * 2006-04-13 2006-09-06 北大方正集团有限公司 一种基于簇排列的面向主题或查询的多文档摘要方法
CN102262729A (zh) * 2011-08-03 2011-11-30 山东志华信息科技股份有限公司 基于集成学习的混合融合人脸识别方法
US20130053541A1 (en) * 2011-03-11 2013-02-28 Lynntech, Inc. Methods for discovering molecules that bind to proteins
CN105718506A (zh) * 2016-01-04 2016-06-29 胡新伟 一种科技项目查重对比的方法
CN106126497A (zh) * 2016-06-21 2016-11-16 同方知网数字出版技术股份有限公司 一种自动挖掘对应施引片段和被引文献原文内容片段的方法
CN106204366A (zh) * 2016-07-22 2016-12-07 三峡大学 一种基于模糊推理的法律大数据管理系统
CN106649273A (zh) * 2016-12-26 2017-05-10 东软集团股份有限公司 一种文本处理方法及装置
CN106909609A (zh) * 2017-01-09 2017-06-30 北方工业大学 确定相似字符串的方法、文件查重的方法及系统
US20170308592A1 (en) * 2016-04-22 2017-10-26 Cloudera, Inc. Interactive identification of similar sql queries
CN107506426A (zh) * 2017-08-18 2017-12-22 四川长虹电器股份有限公司 一种智能电视自动智能应答机器人的实现方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1828609A (zh) * 2006-04-13 2006-09-06 北大方正集团有限公司 一种基于簇排列的面向主题或查询的多文档摘要方法
US20130053541A1 (en) * 2011-03-11 2013-02-28 Lynntech, Inc. Methods for discovering molecules that bind to proteins
CN102262729A (zh) * 2011-08-03 2011-11-30 山东志华信息科技股份有限公司 基于集成学习的混合融合人脸识别方法
CN105718506A (zh) * 2016-01-04 2016-06-29 胡新伟 一种科技项目查重对比的方法
US20170308592A1 (en) * 2016-04-22 2017-10-26 Cloudera, Inc. Interactive identification of similar sql queries
CN106126497A (zh) * 2016-06-21 2016-11-16 同方知网数字出版技术股份有限公司 一种自动挖掘对应施引片段和被引文献原文内容片段的方法
CN106204366A (zh) * 2016-07-22 2016-12-07 三峡大学 一种基于模糊推理的法律大数据管理系统
CN106649273A (zh) * 2016-12-26 2017-05-10 东软集团股份有限公司 一种文本处理方法及装置
CN106909609A (zh) * 2017-01-09 2017-06-30 北方工业大学 确定相似字符串的方法、文件查重的方法及系统
CN107506426A (zh) * 2017-08-18 2017-12-22 四川长虹电器股份有限公司 一种智能电视自动智能应答机器人的实现方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
QIANG LV等: "Similarity Retrieval Algorithm based on Multilevel Fingerprint Comparison Matrix", 《PROCEEDINGS OF THE 2018 INTERNATIONAL SYMPOSIUM ON COMMUNICATION ENGINEERING & COMPUTER SCIENCE》 *
徐济惠: "基于Simhash算法的海量文档反作弊技术研究", 《计算机技术与发展》 *
李成龙等: "基于分词矩阵模型的模糊匹配查重算法研究", 《计算机科学》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299260A (zh) * 2018-09-29 2019-02-01 上海晶赞融宣科技有限公司 数据分类方法、装置以及计算机可读存储介质
CN109635084A (zh) * 2018-11-30 2019-04-16 宁波深擎信息科技有限公司 一种多源数据文档实时快速去重方法及系统
CN109635084B (zh) * 2018-11-30 2020-11-24 宁波深擎信息科技有限公司 一种多源数据文档实时快速去重方法及系统
CN110134761A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 判决文书信息检索方法、装置、计算机设备和存储介质
CN110297879A (zh) * 2019-05-15 2019-10-01 平安科技(深圳)有限公司 一种基于大数据的数据去重的方法、装置及存储介质
CN110297879B (zh) * 2019-05-15 2023-05-30 平安科技(深圳)有限公司 一种基于大数据的数据去重的方法、装置及存储介质
CN110309263A (zh) * 2019-06-06 2019-10-08 中国人民解放军军事科学院军事科学信息研究中心 一种基于语义的工作属性文本内容冲突判断方法及装置
CN110866088B (zh) * 2019-08-22 2020-10-30 中国人民解放军军事科学院评估论证研究中心 一种语料库之间的快速全文检索方法及系统
CN110866088A (zh) * 2019-08-22 2020-03-06 中国人民解放军军事科学院评估论证研究中心 一种语料库之间的快速全文检索方法及系统
CN110704645B (zh) * 2019-08-22 2020-12-22 中国人民解放军军事科学院评估论证研究中心 一种基于指纹的语料库全文检索方法及系统
CN110704645A (zh) * 2019-08-22 2020-01-17 中国人民解放军军事科学院评估论证研究中心 一种基于指纹的语料库全文检索方法及系统
CN110837555A (zh) * 2019-11-11 2020-02-25 苏州朗动网络科技有限公司 海量文本去重筛选的方法、设备和存储介质
CN110909019A (zh) * 2019-11-14 2020-03-24 湖南赛吉智慧城市建设管理有限公司 大数据查重方法、装置、计算机设备及存储介质
CN110909019B (zh) * 2019-11-14 2022-04-08 湖南赛吉智慧城市建设管理有限公司 大数据查重方法、装置、计算机设备及存储介质
CN111104794A (zh) * 2019-12-25 2020-05-05 同方知网(北京)技术有限公司 一种基于主题词的文本相似度匹配方法
CN111104794B (zh) * 2019-12-25 2023-07-04 同方知网数字出版技术股份有限公司 一种基于主题词的文本相似度匹配方法
CN111339082A (zh) * 2020-02-10 2020-06-26 同方知网(北京)技术有限公司 一种基于检索式的指标数据图表解读方法
CN111544892A (zh) * 2020-05-06 2020-08-18 福建天晴数码有限公司 一种游戏中长文本消息合法性校验的方法及系统
CN112182337B (zh) * 2020-10-14 2021-10-22 数库(上海)科技有限公司 从海量短新闻中识别相似新闻的方法及相关设备
CN112182337A (zh) * 2020-10-14 2021-01-05 数库(上海)科技有限公司 从海量短新闻中识别相似新闻的方法及相关设备
CN114610847A (zh) * 2022-03-21 2022-06-10 南方电网科学研究院有限责任公司 一种智能知识检索系统
CN117056456A (zh) * 2023-07-12 2023-11-14 国网江苏省电力有限公司淮安供电分公司 一种基于CsiBert模型的高效文本搜索方法

Also Published As

Publication number Publication date
CN108573045B (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
CN108573045A (zh) 一种基于多阶指纹的比对矩阵相似度检索方法
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
CN104699763B (zh) 多特征融合的文本相似性度量系统
WO2019091026A1 (zh) 知识库文档快速检索方法、应用服务器及计算机可读存储介质
Inzalkar et al. A survey on text mining-techniques and application
US6665661B1 (en) System and method for use in text analysis of documents and records
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN110851598B (zh) 文本分类方法、装置、终端设备及存储介质
CN112000773B (zh) 基于搜索引擎技术的数据关联关系挖掘方法及应用
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN108846031B (zh) 一种面向电力行业的项目相似性对比方法
CN111325033B (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN114491034B (zh) 一种文本分类方法及智能设备
Alsaidi et al. English poems categorization using text mining and rough set theory
Friedrich Complexity and entropy in legal language
Hanyurwimfura et al. A centroid and relationship based clustering for organizing
CN115687960B (zh) 一种面向开源安全情报的文本聚类方法
Mohemad et al. Performance analysis in text clustering using k-means and k-medoids algorithms for Malay crime documents
Long et al. Multi-document summarization by information distance
Ashqar et al. A Comparative Assessment of Various Embeddings for Keyword Extraction
İlgün et al. Sentiment Analysis using Transformers and Machine Learning Models
Keyan et al. Multi-document and multi-lingual summarization using neural networks
Wu et al. An efficient linear text segmentation algorithm using hierarchical agglomerative clustering
Ajitha et al. EFFECTIVE FEATURE EXTRACTION FOR DOCUMENT CLUSTERING TO ENHANCE SEARCH ENGINE USING XML.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant