CN108132929A - 一种海量非结构化文本的相似性计算方法 - Google Patents

一种海量非结构化文本的相似性计算方法 Download PDF

Info

Publication number
CN108132929A
CN108132929A CN201711416937.7A CN201711416937A CN108132929A CN 108132929 A CN108132929 A CN 108132929A CN 201711416937 A CN201711416937 A CN 201711416937A CN 108132929 A CN108132929 A CN 108132929A
Authority
CN
China
Prior art keywords
document
keyword
value
weight
binarization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711416937.7A
Other languages
English (en)
Inventor
蔡红霞
任民山
魏壮宇
朱政
张微
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201711416937.7A priority Critical patent/CN108132929A/zh
Publication of CN108132929A publication Critical patent/CN108132929A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种海量非结构化文本的相似性计算方法。该方法基于传统的Simhash算法进行改进,克服了传统的文本相似性计算方法中准确率不够、计算效率不高的问题。其相似性计算得方法步骤为:(1)、获取所需非结构化数据信息,对数据进行预处理;(2)、对文档内容进行分词,去除停用词,提取关键词,计算每篇文档中每个关键词的特征值权重;将关键词进行二进制化;(3)、累计求解,二进制降维得到每篇文档的改进Simhash值;通过计算两个Simhash值的海明距离得到两篇文档的相似度。

Description

一种海量非结构化文本的相似性计算方法
技术领域
本发明公开了一种海量非结构化文本的相似性计算方法,属于文本相似性计算领域。
背景技术
在现有的机械研制系统中,存在海量的非结构化文档,当用户输入关键词进行搜索时,只能匹配搜索到包含该关键词的文档,存在一些语义相似的文档未能被搜索出来,因此需要实现相似性文档搜索,即需要计算海量文本的相似性。传统的方法将文本相似性问题转化为关键词、关键项或关键语句的相似性问题,容易出现以偏概全或以点带面现象,影响结果的准确性和完整性。另外,这些关键特征的提取需要耗费很多时间,且需要多种特征同时参与检索,在数据规模很大时显得效率低下。
发明内容
本发明的目的在于针对已有技术存在的不足,提供一种海量非结构化文本的相似性计算方法,该方法基于传统的Simhash算法(用来网页去重的最常用hash方法,hash是指就是把任意长度的输入通过散列算法,变换成固定长度的输出,该输出就是散列值)进行改进,克服了传统的文本相似性计算方法中准确率不够、计算效率不高的问题。
为达到上述目的,本发明的构思是:
使用一种低碰撞率的Simhash算法来识别存储系统中的相似数据。考虑到传统Simhash算法的关键词权重是基于关键词出现的频率,该计算不能精确计算出文档特征的Simhash值,引入ICT-CLAS分词技术(Institute of Computing Technology,ChineseLexical Analysis System,中国科学院计算技术研究所提出的一种分词系统)和TF-IDF技术(Term Frequency–Inverse Document Frequency,一种用于信息检索与数据挖掘的常用加权技术),并将关键词的词性与词长作为权衡特征值权重的考虑因素来增加Simhash指纹值的精确性,同时将整个改进的算法基于MapReduce框架(一种用于大规模数据集并行计算的编程模型,概念"Map(映射)"和"Reduce(归约))进行计算以提高计算效率。然后使用带索引功能的海明距离来检测文档之间的相似程度。
根据上述构思,本发明采用如下技术方案:
一种海量非结构化文本的相似性计算方法,具体操作步骤如下:
步骤一,获取多源异构非结构化数据信息,对其进行统一的预处理:首先使用Apache Tika(Apache提出的一种文档解析、提取工具)将所有异构的文档转换成统一结构形式的文档,然后对处理后的文档集按照标点符号循环分成字符串集,同时判断是否存在标记符,有标记符的除去标记符,以<key,value>(键值对)的形式存储在HDFS(HadoopDistributed File System,Hadoop分布式文件系统,Hadoop是一个由Apache基金会所开发的分布式系统基础架构)中,其中key(键)为文档编号,value(值)为文档内容;
步骤二,对文档数据进行分词、计算特征值权重、关键词二进制化:使用ICT-CLAS分词技术对文档内容进行分词处理,同时按照停止词词典除去停用词,提取其中的关键词使文档离散化,将文档转化为一组特征值;
步骤三,采用改进特征权重计算方案计算特征值权重,并对于每篇文档的关键词进行二进制化处理;其中改进的特征权重计算方式如下:
W=0.5×TF-IDF+0.5×γ(wni+Len(wi)) (1)
在公式(1)中,TF-IDF的值由上文中的如下公式计算得到:
在公式(2)中,TFx表示关键词x在文档中出现的词频,TFmax表示某个关键词在特定文档中出现的最大词频;Kn表示某个位置的关键系数,其中,n为1或者2,K1表示标题的关键系数,K2表示文档内容的关键系数;
在公式(1)中,γ为参数,取值与文档长度有关,Len(wi)定义如下:
步骤四,改进的Simhash指纹值计算:通过上一步的hash生成结果,按照特征值的权重形成加权字符串,进而通过二进制化得到改进的Simhash指纹值;
步骤五,海明距离计算:对计算得到的Simhash指纹值使用带索引功能的海明距离来检测文档之间的相似程度。
所述步骤二中对文档数据进行分词、计算特征值权重、关键词二进制化,具体为:采取Hadoop分布式文件系统HDFS,与Map/Reduce结合,数据访问的吞吐量更高,HDFS的应用程序对文件使用“一次写入,多次读取”模式;Hadoop下采用Map/Reduce的方式对改进Simhash算法进行实现,将算法分布在多个节点上进行存储,实现高度并行化;Map函数的输入是以键值对形式存储在HDFS中的<key,value>,其中key表示文档编号(唯一标识一篇文档),value表示文档内容(包含标题和正文),Map函数主要有以下三项工作:
(1)分词:使用ICT-CLAS分词技术对文档内容进行分词处理,同时按照停止词词典除去停用词,以提高指纹的精度,提取其中的关键词;
(2)计算关键词权重:采用改进特征权重计算方案计算每个关键词相对于每篇文档的特征值权重;
(3)关键词的二进制化:对于每篇文档的关键词进行二进制化处理,其中,关键词的二进制长度与关键词长度有关;
最终Map函数的输出是<关键词二进制化,关键词权重>形式,其中关键词与关键词权重都是以每篇工序文档为单位进行输出。
所述步骤三中改进的Simhash指纹值计算,具体为:
其中Reduce函数的输入是Map函数输出的以每篇工序文档为单位的<关键词二进制化,关键词权重>,Reduce函数的主要工作如下:
(1)二进制加权:将关键词二进制化后的值进行加权,将特征值权重与二进制对应的每一位相乘,字符串中的“0”视为“-1”;
(2)累计合并求解:将每个关键词中相同位置的加权值累计求和,得到最终的Simhash值;
(3)降维二进制化:通过约定,若累计合并的值中,大于0的位设定为1,小于等于0的位设定为0;
Reduce最终函数的输出为<文档编号,Simhash指纹值>,最终将输出结果保存在HDFS中。
本发明与现有技术相比较,具有如下显而易见的突出实质性特质和显著技术进步:
本发明方法克服了传统的文本相似性计算方法中准确度不够、计算效率不高的问题。使在机械研制搜索系统中为用户推荐语义内容相似文档时,能够实现大规模文档中快速、精确的相似性计算。
附图说明
图1为本发明方法的整体流程图。
图2为基于大数据技术的文档相关度计算流程图。
图3为基于MapReduce改进Simhash算法流程图。
具体实施方式
下面结合附图和优选实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
针对文档特征权值的计算,在引用TF-IDF技术的基础上,同时还考虑了关键词的词性与词长。
针对传统TF-IDF算法计算精度不足的问题,根据非结构化文档的结构特点,可以知道文档的标题就能概括整篇文档的主旨,这就说明在标题中出现的关键词要比在文档内容中现的关键词更为重要,本说明中引入了一个关键系数的概念对TF-IDF算法公式进行改进,改进的策略如下:
对于这个关键系数,假设特定文档T由K1,K2两部分构成,其中K1是标题的关键系数,K2是内容的关键系数,显然标题中如果出现关键词,则这个词的重要性不言而喻,故赋予K1较大的值。这样就能根据文档中关键词的位置来判断这个关键词的重要性了,本文根据经验数据确定其权值分配,改进后的TF-IDF算法公式如下:
其中,TFx表示关键词x在文档中出现的词频,TFmax表示某个关键词在特定文档中出现的最大词频。Kn表示某个位置的关键系数(n为1或者2),K1表示标题的关键系数,K2表示文档内容的关键系数。
在词性方面,本发明细分了关键词的词性。比如一篇文章是由多个句子构成的,句子里最重要的部分是主语和谓语,主语是一个句子的中心,它可以是执行句子的行为或动作的主体;谓语是用来表示主语的动作或主语所处的状态;形容词用来修饰名词或代词。因此,不难发现,主语是一句话的主要表征,主语后面的词都是对主语的补充说明。普遍情况下,一个句子中名词作为主语的概率最高,动词作为谓语的概率最高,因此可以将句子中关键词的词性作为衡量其在句中代表性的判断依据。例如对于“按工程图纸进行检验”使用分析技术进行分词后有“按”、“工程图纸”、“进行”、“检验”,它们出现的频率分别是;1,1,1,但是显然这句话的核心应该是“工程图纸”,它必须给予更大的权重来表示出这句话的特征。因此,在计算权重时加入词性权重的考虑可以提高Simhash指纹值计算的准确性。结合应用场景,并运用专家意见法,即德尔菲法得出权重系数如下表所示。
在词长方面,根据对2008年度CSSCI(Chinese Social Sciences CitationIndex,中文社会科学引文索引)关键词库中的关键词长进行的统计,发现由4-6个字所组成的词能成为关键词的概率较高,因此应该给四个字及以上的词更高的权重。另外规定在计算关键词整体权重时,同时将关键词词频改为计算TF-IDF值,TF-IDF值对应的权重w1=0.5,词性与词长对应的权重w2=0.5,设词性对应的权重为wni,词长对应的权重为Len(wi),那么关键词权重的计算公式就变成:
W=0.5×TF-IDF+0.5×γ(wni+Len(wi)) (1)
其中,TF-IDF的值由上文中的公式(2)计算得到,γ为参数,取值与文档长度有关,Len(wi)定义如下:
如图1所示,为Simhash算法整体流程图,本发明主要针对特征值的计算加入了一些优化步骤,对应步骤如下:
1)对多源异构的文档进行统一的预处理,将其中的标记符与干扰符去除;
2)针对预处理后的文档采用ICTALAS分词系统进行分词处理,并标注词性,统计词长;
3)根据ICTALAS的停用词库对上一步得到的词元进行停用词过滤,将一些助词、虚词等对文档特征表示无贡献的词去掉,提高文档特征表示精度,进而得到关键词集合。
经过以上3步就可以根据文档内容得到离散化后的文档特征,为计算改进的文档Simhash值提供依据。
针对现有机械研制系统中存在的海量非结构化文档数据,本发明利用现有的大数据技术,将改进的Simhash相似度计算方法采用分布式计算模型Map/Reduce进行计算,通过分割数据实现并行计算,以提高计算速度,并采用HDFS将计算得到的指纹值进行分布式存储,整体流程图如图2所示。
其中,文档预处理、特征权值计算、Simhash指纹计算等改进的Simhash相似度计算方法流程按照上文中提出的方法采用分布式计算模型Map/Reduce进行计算。此外,由于海量文档集的文本数量众多且大小相对较小,同时为了提高海量文档Simhash指纹值的检索效率,本发明采用大数据存储技术,将原始文档和Simhash指纹值均存储在分布式文件系统HDFS中,构建海量分布式Simhash指纹库。
如图3所示为基于MapReduce改进Simhash算法流程图。其中在数据输入阶段对文档内容进行预处理、分片;在MapReduce阶段主要对文档内容进行分词,并按照上文介绍的方法计算每个关键词相对于每篇文档的文本特征权值;在Shuffle阶段主要是采用hash算法将每个关键词转化为二进制hash值,再进行加权、合并与降维;在Reduce阶段主要是将每篇文档所对应的关键词合并起来,计算出每篇文档的Simhash指纹值;输出阶段主要是以key/value的形式输出每篇文档的Simhash值。
实施例(以机械研制领域中的装配大纲数据为例)。
一种海量非结构化文本的相似性计算方法,包括以下步骤:
步骤一:数据预处理
本实施例使用的数据主要来源于某制造公司数据仓库中的非结构化装配大纲数据。首先使用Tika将所有异构的文档转换成统一结构形式的文档,然后循环对处理后的文档集按照标点符号分成字符串集,同时判断是否存在标记符,有标记符的除去标记符,以<key,value>的形式存储在HDFS中,其中key为文档编号,唯一标识一篇文档,value为文档内容,由装配大纲标题与装配大纲内容共同构成,文档内容中第一行对应装配大纲标题,第一行以下内容对应装配大纲内容。处理后的文档如下表所示,其中Doc-01与Doc-02分别对应着文档编号,下面以其中的两篇文档的部分内容为例进行介绍。
步骤二:文档分词、特征值权重计算、关键词二进制化
本发明采取Hadoop分布式文件系统HDFS,与Map/Reduce结合,数据访问的吞吐量更高,HDSF的应用程序对文件使用“一次写入,多次读取”模式。Hadoop下采用Map/Reduce的方式对改进Simhash算法进行实现,将算法分布在多个节点上进行存储,实现高度并行化。Map函数的输入是以键值对形式存储在HDFS中的<key,value>,其中key表示文档编号,value表示文档内容,Map函数主要有以下三项工作:
(1)分词
使用ICT-CLAS分词技术对文档内容进行分词处理,同时按照停止词词典除去停用词,如冠词、助词、语气词等,提取其中的关键词。
(2)计算关键词权重
利用公式(2)计算每个关键词相对于每篇文档的特征值权重,分词及计算关键词权重两步对应结果如下表所示。
(3)关键词的二进制化。对于每篇文档的关键词采用哈希函数进行二进制化处理,下面以文档编号为Doc-01的文档进行处理,如下表所示。
最终Map函数的输出是<关键词二进制化,关键词权重>形式,其中关键词与关键词权重都是以每篇文档为单位进行输出,即<100110,0.31222>。
步骤三:Simhash指纹值计算
其中Reduce函数的输入是Map函数输出的以每篇文档为单位的<关键词二进制化,关键词权重>,Reduce函数的主要工作如下:
(1)二进制加权。将关键词二进制化后的值进行加权。将特征值权重与二进制对应的每一位相乘,字符串中的“0”视为“-1”,如下表所示。
(2)累计合并求解。将每个关键词中相同位置的加权值累计求和,最终得到最终的Simhash值“1.09044-0.15675-0.80433-0.33015 1.65771-1.14863”。
(3)降维二进制化。通过约定,若累计合并的值中,大于0的位设定为1,小于等于0的位设定为0,因此最终文档的Simhash指纹值为“100010”。
Reduce最终函数的输出为<文档编号,Simhash指纹值>,即<Doc-01,100010>。同理可计算出文档编号为Doc-02的Simhash指纹值为011001,即为<Doc-02,011001>,最终将输出结果保存在HDFS中。
步骤四:海明距离计算。
针对两篇Simhash值需要通过海明距离(Hamming Distance)计算两者相似度,对于“011001”与“011001”的海明距离,是将二者异或之后得到的二进制字符串中“1”的个数,因文档Doc-01与文档Doc-02的二者海明距离为5,即两篇文档的相似度为5。

Claims (3)

1.一种海量非结构化文本的相似性计算方法,其特征在于,具体操作步骤如下:
步骤一,获取多源异构非结构化数据信息,对其进行统一的预处理:首先使用Tika将所有异构的文档转换成统一结构形式的文档,然后对处理后的文档集按照标点符号循环分成字符串集,同时判断是否存在标记符,有标记符的除去标记符,以<key,value>的形式存储在HDFS中,其中key为文档编号,value为文档内容;
步骤二,对文档数据进行分词、计算特征值权重、关键词二进制化:使用ICT-CLAS分词技术对文档内容进行分词处理,同时按照停止词词典除去停用词,提取其中的关键词使文档离散化,将文档转化为一组特征值;
步骤三,采用改进特征权重计算方案计算特征值权重,并对于每篇文档的关键词进行二进制化处理;其中改进的特征权重计算方式如下:
W=0.5×TF-IDF+0.5×γ(wni+Len(wi)) (1)
在公式(1)中,TF-IDF的值由上文中的如下公式计算得到:
在公式(2)中,TFx表示关键词x在文档中出现的词频,TFmax表示某个关键词在特定文档中出现的最大词频;Kn表示某个位置的关键系数,其中,n为1或者2,K1表示标题的关键系数,K2表示文档内容的关键系数;
在公式(1)中,γ为参数,取值与文档长度有关,Len(wi)定义如下:
步骤四,改进的Simhash指纹值计算:通过上一步的hash生成结果,按照特征值的权重形成加权字符串,进而通过二进制化得到改进的Simhash指纹值;
步骤五,海明距离计算:对计算得到的Simhash指纹值使用带索引功能的海明距离来检测文档之间的相似程度。
2.根据权利要求1所述的海量非结构化文本的相似性计算方法,其特征在于,所述步骤二中对文档数据进行分词、计算特征值权重、关键词二进制化,具体为:采取Hadoop分布式文件系统HDFS,与Map/Reduce结合,数据访问的吞吐量更高,HDFS的应用程序对文件使用“一次写入,多次读取”模式;Hadoop下采用Map/Reduce的方式对改进Simhash算法进行实现,将算法分布在多个节点上进行存储,实现高度并行化;Map函数的输入是以键值对形式存储在HDFS中的<key,value>,其中key表示文档编号,value表示文档内容,Map函数主要有以下三项工作:
(1)分词:使用ICT-CLAS分词技术对文档内容进行分词处理,同时按照停止词词典除去停用词,以提高指纹的精度,提取其中的关键词;
(2)计算关键词权重:采用改进特征权重计算方案计算每个关键词相对于每篇文档的特征值权重;
(3)关键词的二进制化:对于每篇文档的关键词进行二进制化处理,其中,关键词的二进制长度与关键词长度有关;
最终Map函数的输出是<关键词二进制化,关键词权重>形式,其中关键词与关键词权重都是以每篇工序文档为单位进行输出。
3.根据权利要求1所述的海量非结构化文本的相似性计算方法,其特征在于,所述步骤三中改进的Simhash指纹值计算,具体为:
其中Reduce函数的输入是Map函数输出的以每篇工序文档为单位的<关键词二进制化,关键词权重>,Reduce函数的主要工作如下:
(1)二进制加权:将关键词二进制化后的值进行加权,将特征值权重与二进制对应的每一位相乘,字符串中的“0”视为“-1”;
(2)累计合并求解:将每个关键词中相同位置的加权值累计求和,得到最终的Simhash值;
(3)降维二进制化:通过约定,若累计合并的值中,大于0的位设定为1,小于等于0的位设定为0;
Reduce最终函数的输出为<文档编号,Simhash指纹值>,最终将输出结果保存在HDFS中。
CN201711416937.7A 2017-12-25 2017-12-25 一种海量非结构化文本的相似性计算方法 Pending CN108132929A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711416937.7A CN108132929A (zh) 2017-12-25 2017-12-25 一种海量非结构化文本的相似性计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711416937.7A CN108132929A (zh) 2017-12-25 2017-12-25 一种海量非结构化文本的相似性计算方法

Publications (1)

Publication Number Publication Date
CN108132929A true CN108132929A (zh) 2018-06-08

Family

ID=62392680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711416937.7A Pending CN108132929A (zh) 2017-12-25 2017-12-25 一种海量非结构化文本的相似性计算方法

Country Status (1)

Country Link
CN (1) CN108132929A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271614A (zh) * 2018-10-30 2019-01-25 中译语通科技股份有限公司 一种数据查重方法
CN109960590A (zh) * 2019-03-26 2019-07-02 北京简约纳电子有限公司 一种优化嵌入式系统诊断打印的方法
CN110175328A (zh) * 2019-05-16 2019-08-27 镇江市高等专科学校 一种基于关键词序列结构的文档相似度度量方法及系统
CN110399464A (zh) * 2019-07-30 2019-11-01 广州吉信网络科技开发有限公司 一种相似新闻判别方法、系统及电子设备
CN110442679A (zh) * 2019-08-01 2019-11-12 信雅达系统工程股份有限公司 一种基于融合模型算法的文本去重方法
CN110516212A (zh) * 2019-09-02 2019-11-29 河南理工大学 一种云计算的海量文档相似检测方法
CN110704645A (zh) * 2019-08-22 2020-01-17 中国人民解放军军事科学院评估论证研究中心 一种基于指纹的语料库全文检索方法及系统
CN110704579A (zh) * 2019-08-22 2020-01-17 中国人民解放军军事科学院评估论证研究中心 一种基于分支界定的全文检索方法及系统
CN111104794A (zh) * 2019-12-25 2020-05-05 同方知网(北京)技术有限公司 一种基于主题词的文本相似度匹配方法
CN111159499A (zh) * 2019-12-31 2020-05-15 南方电网调峰调频发电有限公司 一种基于字符串间相似性的电力系统模型搜索排序方法
WO2020228182A1 (zh) * 2019-05-15 2020-11-19 平安科技(深圳)有限公司 基于大数据的数据去重的方法、装置、设备及存储介质
CN112100381A (zh) * 2020-09-22 2020-12-18 福建天晴在线互动科技有限公司 一种文本相似度进行量化的方法及其系统
CN112100318A (zh) * 2020-11-12 2020-12-18 北京智慧星光信息技术有限公司 一种多维度信息合并方法、装置、设备及存储介质
CN112101001A (zh) * 2020-09-21 2020-12-18 国网辽宁省电力有限公司电力科学研究院 一种非结构化文本相似性判断的方法及系统
CN112149008A (zh) * 2020-09-18 2020-12-29 四川工商学院 一种文档版本集合的计算方法
CN113011194A (zh) * 2021-04-15 2021-06-22 电子科技大学 融合关键词特征和多粒度语义特征的文本相似度计算方法
CN113139705A (zh) * 2020-01-17 2021-07-20 中国移动通信集团浙江有限公司 业务项目的风险识别方法及装置
CN113407576A (zh) * 2021-06-28 2021-09-17 浪潮软件科技有限公司 基于降维算法的数据关联方法及系统
CN116226681A (zh) * 2023-02-22 2023-06-06 北京麦克斯泰科技有限公司 一种文本相似性判定方法、装置、计算机设备和存储介质
CN111177373B (zh) * 2019-12-12 2023-07-14 北京明略软件系统有限公司 一种获取训练数据的方法和装置、模型训练方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090119343A1 (en) * 2007-11-01 2009-05-07 Yu Jiao Dynamic reduction of dimensions of a document vector in a document search and retrieval system
CN105205163A (zh) * 2015-06-29 2015-12-30 淮阴工学院 一种科技新闻的增量学习多层次二分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090119343A1 (en) * 2007-11-01 2009-05-07 Yu Jiao Dynamic reduction of dimensions of a document vector in a document search and retrieval system
CN105205163A (zh) * 2015-06-29 2015-12-30 淮阴工学院 一种科技新闻的增量学习多层次二分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HONGXIA CAI等: "Search Algorithm Study Based on Big Data Technology in Civil Aircraft Research and Development", 《2017 2ND INTERNATIONAL CONFERENCE ON MECHATRONICS AND INFORMATION TECHNOLOGY (ICMIT 2017)》 *
陈春玲等: "基于Simhash 算法的重复数据删除技术的研究与改进", 《南京邮电大学学报(自然科学版)》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271614B (zh) * 2018-10-30 2022-12-13 中译语通科技股份有限公司 一种数据查重方法
CN109271614A (zh) * 2018-10-30 2019-01-25 中译语通科技股份有限公司 一种数据查重方法
CN109960590A (zh) * 2019-03-26 2019-07-02 北京简约纳电子有限公司 一种优化嵌入式系统诊断打印的方法
WO2020228182A1 (zh) * 2019-05-15 2020-11-19 平安科技(深圳)有限公司 基于大数据的数据去重的方法、装置、设备及存储介质
CN110175328A (zh) * 2019-05-16 2019-08-27 镇江市高等专科学校 一种基于关键词序列结构的文档相似度度量方法及系统
CN110175328B (zh) * 2019-05-16 2023-02-17 镇江市高等专科学校 一种基于关键词序列结构的文档相似度度量方法及系统
CN110399464A (zh) * 2019-07-30 2019-11-01 广州吉信网络科技开发有限公司 一种相似新闻判别方法、系统及电子设备
CN110399464B (zh) * 2019-07-30 2023-04-07 广州吉信网络科技开发有限公司 一种相似新闻判别方法、系统及电子设备
CN110442679A (zh) * 2019-08-01 2019-11-12 信雅达系统工程股份有限公司 一种基于融合模型算法的文本去重方法
CN110704645A (zh) * 2019-08-22 2020-01-17 中国人民解放军军事科学院评估论证研究中心 一种基于指纹的语料库全文检索方法及系统
CN110704579A (zh) * 2019-08-22 2020-01-17 中国人民解放军军事科学院评估论证研究中心 一种基于分支界定的全文检索方法及系统
CN110516212A (zh) * 2019-09-02 2019-11-29 河南理工大学 一种云计算的海量文档相似检测方法
CN111177373B (zh) * 2019-12-12 2023-07-14 北京明略软件系统有限公司 一种获取训练数据的方法和装置、模型训练方法和装置
CN111104794B (zh) * 2019-12-25 2023-07-04 同方知网数字出版技术股份有限公司 一种基于主题词的文本相似度匹配方法
CN111104794A (zh) * 2019-12-25 2020-05-05 同方知网(北京)技术有限公司 一种基于主题词的文本相似度匹配方法
CN111159499B (zh) * 2019-12-31 2022-04-29 南方电网调峰调频发电有限公司 一种基于字符串间相似性的电力系统模型搜索排序方法
CN111159499A (zh) * 2019-12-31 2020-05-15 南方电网调峰调频发电有限公司 一种基于字符串间相似性的电力系统模型搜索排序方法
CN113139705A (zh) * 2020-01-17 2021-07-20 中国移动通信集团浙江有限公司 业务项目的风险识别方法及装置
CN112149008A (zh) * 2020-09-18 2020-12-29 四川工商学院 一种文档版本集合的计算方法
CN112101001A (zh) * 2020-09-21 2020-12-18 国网辽宁省电力有限公司电力科学研究院 一种非结构化文本相似性判断的方法及系统
CN112100381B (zh) * 2020-09-22 2022-05-17 福建天晴在线互动科技有限公司 一种文本相似度进行量化的方法及其系统
CN112100381A (zh) * 2020-09-22 2020-12-18 福建天晴在线互动科技有限公司 一种文本相似度进行量化的方法及其系统
CN112100318A (zh) * 2020-11-12 2020-12-18 北京智慧星光信息技术有限公司 一种多维度信息合并方法、装置、设备及存储介质
CN113011194A (zh) * 2021-04-15 2021-06-22 电子科技大学 融合关键词特征和多粒度语义特征的文本相似度计算方法
CN113407576A (zh) * 2021-06-28 2021-09-17 浪潮软件科技有限公司 基于降维算法的数据关联方法及系统
CN116226681A (zh) * 2023-02-22 2023-06-06 北京麦克斯泰科技有限公司 一种文本相似性判定方法、装置、计算机设备和存储介质
CN116226681B (zh) * 2023-02-22 2023-11-28 北京麦克斯泰科技有限公司 一种文本相似性判定方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN108132929A (zh) 一种海量非结构化文本的相似性计算方法
Ibrahim et al. Survey on semantic similarity based on document clustering
Mohammed et al. A state-of-the-art survey on semantic similarity for document clustering using GloVe and density-based algorithms
CN103514183B (zh) 基于交互式文档聚类的信息检索方法及系统
CN101430695B (zh) 用于计算单词之间的差相关度的系统和方法
Usman et al. Urdu text classification using majority voting
Mohammed et al. Glove word embedding and DBSCAN algorithms for semantic document clustering
Unnisa et al. Opinion mining on Twitter data using unsupervised learning technique
Zhang et al. Continuous word embeddings for detecting local text reuses at the semantic level
Ullah et al. A framework for extractive text summarization using semantic graph based approach
Prokhorov et al. AI for AI: what NLP techniques help researchers find the right articles on NLP
Ma et al. A time-series based aggregation scheme for topic detection in Weibo short texts
Momtaz et al. Graph-based Approach to Text Alignment for Plagiarism Detection in Persian Documents.
Zhang et al. Learning hash codes for efficient content reuse detection
CN111190873A (zh) 一种用于云原生系统日志训练的日志模式提取方法及系统
Jain et al. Cawesumm: A contextual and anonymous walk embedding based extractive summarization of legal bills
Thushara et al. An analysis on different document keyword extraction methods
Canhasi Fast Document Summarization using Locality Sensitive Hashing and Memory Access Efficient Node Ranking.
Zandieh et al. Clustering data text based on semantic
Tohalino et al. Using virtual edges to extract keywords from texts modeled as complex networks
Vahidnia et al. Document Clustering and Labeling for Research Trend Extraction and Evolution Mapping.
Alfarra et al. Graph-based Growing self-organizing map for Single Document Summarization (GGSDS)
Wang et al. A graph-based approach for semantic similar word retrieval
Tandon et al. Multi-label text classification with an ensemble feature space
Rakib et al. Improving short text clustering by similarity matrix sparsification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180608