CN111104794A - 一种基于主题词的文本相似度匹配方法 - Google Patents

一种基于主题词的文本相似度匹配方法 Download PDF

Info

Publication number
CN111104794A
CN111104794A CN201911353732.8A CN201911353732A CN111104794A CN 111104794 A CN111104794 A CN 111104794A CN 201911353732 A CN201911353732 A CN 201911353732A CN 111104794 A CN111104794 A CN 111104794A
Authority
CN
China
Prior art keywords
text
word
similarity
keywords
idf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911353732.8A
Other languages
English (en)
Other versions
CN111104794B (zh
Inventor
杨雷
段飞虎
吕强
印东敏
冯自强
张宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Original Assignee
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Tongfang Knowledge Network Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongfang Knowledge Network Digital Publishing Technology Co ltd, Tongfang Knowledge Network Beijing Technology Co ltd filed Critical Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority to CN201911353732.8A priority Critical patent/CN111104794B/zh
Publication of CN111104794A publication Critical patent/CN111104794A/zh
Application granted granted Critical
Publication of CN111104794B publication Critical patent/CN111104794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于主题词的文本相似度匹配方法,该方法基于倒排索引进行文档筛选,从大批量文档中精确过滤出需要的相关文档进行相似度比较,极大提升了检索效率。然后基于关键词的tf‑idf、textRank综合权重值给词向量加权,用加权词向量进行文档向量计算并进行余弦相似度比较。最后对两篇相似文档,分别计算句子向量,并计算两篇文档的两两句子相似度,设置阈值以判别句子是否相似,对于句子相似度高于阈值的即判断相似并标红。本发明用于在各领域语料系统的查相似的工作,提高系统查重效率及准确率,减少人力资源浪费。

Description

一种基于主题词的文本相似度匹配方法
技术领域
本发明涉及文本数据挖掘和计算信息处理技术领域,尤其涉及一种基于主题词的从大规模语料数据库中快速检索相似文章的文本相似度匹配方法。
背景技术
随着计算机文本信息挖掘等各种自然语言处理应用的普及,当今社会对基于文本相似度的文档检索系统需求日益增加,同时人们对计算机文本处理也提出了更高的要求。在自然语言处理过程中,经常会涉及到如何度量两个文本之间的相似性,我们都知道文本是一种高维的语义空间,如何对其进行抽象分解,从而能够站在数学角度去量化其相似性,是此方法的重点。在相似度检索领域,现有的相似度检索方法,要么在检索效率上存在不足,要么在准确度方面不能令人满意。为解决此问题,本文研制了一套基于主题词的相似度检索查询方法。本方法首先基于倒排索引进行文档筛选,从大批量文档中精确过滤出需要的相关文档进行相似度比较,极大提升了检索效率。然后基于关键词的tf-idf、textRank综合权重值给词向量加权,用加权词向量进行文档向量计算并进行余弦相似度比较。最后对两篇相似文档,分别计算句子向量,并计算两篇文档的两两句子相似度,设置阈值以判别句子是否相似,对于句子相似度高于阈值的即判断相似并标红。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于主题词的文本相似度匹配方法。该方法首先基于倒排索引进行文档筛选,从大批量文档中精确过滤出需要的相关文档进行相似度比较,极大提升了检索效率。然后基于关键词的tf-idf、textRank综合权重值给词向量加权,用加权词向量进行文档向量计算并进行余弦相似度比较。最后对两篇相似文档,分别计算句子向量,并计算两篇文档的两两句子相似度,设置阈值以判别句子是否相似,对于句子相似度高于阈值的即判断相似并标红。
本发明的目的通过以下的技术方案来实现:
一种基于主题词的文本相似度匹配方法,包括:
A将文本进行碎片化处理,把各种格式的文本统一入库,并进行数据清洗形成统一格式的文本;
B对文本进行分词、去除停用词操作,并将文档id和分词结果存储于数据库中;
C使用倒排索引算法对数据库中所有已分词处理的的文本进行统计计算,形成单词-文档列表矩阵,并将结果存储到数据库中;
D通过tf-idf算法提取每篇文本的关键词并计算文本字词的tf-idf值,使用textRank算法提取文本摘要,并对文本的字词进行权重值统计计算,计算每个词的tf-idf、textRang综合均值权重;
E加载word2vec模型,使用tf-idf提取倒排索引筛选出的多篇文档的关键词,使用word2vec模型查询出输入文本和筛选出的多篇文档关键词的词向量;
F关键词权重按标题、摘要、正文的计算比例与关键词的综合权重值再进行进行加权计算,得到关键词的最终权重值,然后再乘关键词的词向量,得到加权的词向量,并通过线性相加求均值及自归一化处理得到最终的文本向量;
G通过余弦相似度算法得到两两文本之间的相似度。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
用于在各领域语料系统的查相似的工作,提高系统查重效率及准确率,减少人力资源浪费。
附图说明
图1是基于主题词的文本相似度匹配方法流程图;
图2是文本碎片化后入库示意;
图3是tf-idf、textRank及其均值权重计算结果示意图;
图4是word2ve词向量示意图;
图5是基于主题词的文本相似度匹配方法原理示意图;
图6是相似文本集展示图;
图7是相似文本中相似语句标红显示示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为基于主题词的文本相似度匹配方法流程,包括以下步骤:
步骤10将文本进行碎片化处理,把各种格式的文本统一入库,并进行数据清洗形成统一格式的文本;
步骤20对文本进行分词、去除停用词操作,并将文档id和分词结果存储于数据库中;
步骤30使用倒排索引算法对数据库中所有已分词处理的的文本进行统计计算,形成单词-文档列表矩阵,并将结果存储到数据库中;
步骤40通过tf-idf算法提取每篇文本的关键词并计算文本字词的tf-idf值,使用textRank算法提取文本摘要,并对文本的字词进行权重值统计计算,计算每个词的tf-idf、textRang综合均值权重即二者相加除2,将提取的关键词、文本摘要和三个权重值的计算结果存入数据库中;
步骤50加载word2vec模型,使用tf-idf提取倒排索引筛选出的多篇文档的关键词,使用word2vec模型查询出输入文本和筛选出的多篇文档关键词的词向量;
步骤60关键词权重按标题、摘要、正文的计算比例与关键词的综合权重值再进行进行加权计算,得到关键词的最终权重值,然后再乘关键词的词向量,得到加权的词向量,并通过线性相加求均值及自归一化处理得到最终的文本向量;
步骤70通过余弦相似度算法得到两两文本之间的相似度。
上述步骤10中将文本进行碎片化处理,把各种格式的文本统一入库,并进行数据清洗形成统一格式的文本。将word,pdf等格式的文本通过程序识别,统一格式并保存在数据库内。下表1为数据库统一结构,其中属性f_article_title为每篇文本标题,f_after_content为去除html标签的文本全文,本算法主要使用属性f_after_content的全文信息。
表1
Figure BDA0002335336900000041
文本格式化后入库后内容如图2所示。
上述步骤20,使用分词器(jieba分词、Hanlp分词等)对文本进行分词、去除停用词(分词使用通用的分词算法即可,用户词典及停用词词典根据用户自己的需求选择专业领域词典或者通用词典),用户可以指定自己自定义的词典,以便包含分词器词库里没有的词,虽然分词器有新词识别能力,但是自行添加新词可以保证更高的正确率,以保证将一些专业领域词汇准确切分出来。停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些没有实际意义的并且常用的名词、动词、语气助词等。
上述步骤30基于倒排索引原理对分词进行倒排索引操作,倒排索引是实现“单词-文档矩阵”的一种具体存储形式,通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词词典”和“倒排文件”。使用倒排索引查找相关文档,对于大规模语料数据库检索效率有极大的提升。基于倒排索引原来编写程序将倒排索引表存入数据库,在使用系统查找相似文本时,直接读取所有关键词的所在翁当的id列表。新增语料时需同步更新倒排索引表图下表2。
表2
Figure BDA0002335336900000051
上述tf-idf是一种用于信息检索(information retrieval)与文本挖掘(textmining)的常用加权技术,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。如图3为tf-idf、textRank及其两者均值的计算结果,并存入数据库表中;其核心思想是:如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
Figure BDA0002335336900000052
Figure BDA0002335336900000053
TF-IDF=词频(TF)×逆文档频率(IDF)
TextRank基于算法PageRank而来,用TextRank提取来提取关键词,用PageRank的思想来解释它:如果一个单词出现在很多单词后面的话,那么说明这个单词比较重要一个TextRank值很高的单词后面跟着的一个单词,那么这个单词的TextRank值会相应地因此而提高。这样TextRank的公式就可以由PageRank公式改写为:
Figure BDA0002335336900000061
TextRank中一个单词的权i重取决于与在前面的各个点j组成的(j,i)这条边的权重,以及j这个点到其他其他边的权重之和。使用tf-idf和textRank综合权重是为了平衡两个算法统计的误差,提高关键词权重的准确性,不会因为某个词的tf-idf或textRank值过大或过小从而影响这个词的真实权重,从而提高词向量的准确性。将文本中的每个句子看做一个节点,如果两个句子有相似性,则认为两个句子对应的节点之间存在一条无向有权边。句子相似度的计算式子如上所示,Si、Sj两个句子,Wk代表句子中的单词,那么分子代表同时出现在两个句子中的单词的个数,分母是对句子中单词个数求对数之和。分母使用对数可以抵消长句子在相似度计算上的优势(长句子包含相同单词的可能性更高)。根据以上相似度公式循环迭代计算得到任意两个节点之间的相似度,构建节点连接图,最后计算PR值,经排序选出PR值最高的的节点对应的句子作为摘要。
基于word2vec算法,使用大规模语料进行词向量模型训练,得到word2vec模型,将模型放到服务器指定路径保存。一个单词的词向量可以表示单词的语义,本文使用从文本中提取的关键字的词向量代表文本语义,使用基于加权线性求均值的方法得到文本向量,使用文本向量去计算相似度。
对输入文本使用tf-idf算法进行关键词提取,取其tf-idf值最大的15个词,本文主要针对短文本相似度计算,所以这里取15个权重值最大的关键词来代表文本语义。并使用textRang算法进行关键词提取计算拿到关键词及其权重值,并计算其tf-idf、textRank的均值权重(关键词的textRank值和tfidf值相加除2)。此步骤是为了后续计算文本向量做准备,这里计算的关键词综合均值权重乘以关键词的词向量就得到了关键词的加权向量,使用加权向量用于相似度计算。
使用主题词表以及哈工大同义词词林扩展版对属于主题词同义、近义范畴内的关键词替换为主题词,通过对所有文本的关键词与主题词进行统一,达到词语消歧、词语统一的作用,进而实现文本语义消歧的作用,以提高文本相似度的准确性。针对专业领域的语料库,使用专业领域的主题词,对属于专业主题词表的这专业名词的词向量权重赋予更高的值,会提升系统对专业名词、术语的语义理解。
使用输入文本提取的15个关键词通过倒排索引表拿到包含这样关键词的文档id,并进行取交集操作,拿到包含关键词最多的50篇文档用于相似度比较。对拿到的50篇文档使用主题词表进行主题词替换,从而使得输入文本的关键词和比较文本同义或近义的关键词统一为同样的主题词,从而提高相似度计算的准确性。
使用word2vec算法对大规模通用语料(如百度百科、维基百科、知乎、微博等语料)进行模型的训练,然后用已入库的业务语料对word2vec模型进行增量训练,这样便可以兼顾通用性及专业性的需求。一般认为词向量维度为200或者300维即可,训练完毕,保存模型。词向量的概念是将word映射到一个新的空间中,并以多维的连续实数向量进行表示叫做“Word Represention”或“Word Embedding”。自从21世纪以来,人们逐渐从原始的词向量稀疏表示法过渡到现在的低维空间中的密集表示。用稀疏表示法在解决实际问题时经常会遇到维数灾难,并且语义信息无法表示,无法揭示word之间的潜在联系。而采用低维空间表示法,不但解决了维数灾难问题,并且挖掘了word之间的关联属性,从而提高了向量语义上的准确度。Distributed representation的关键点在于,将高维空间中的词汇映射到一个低维的向量空间中,并且让相关或者相似的词,在距离上更接近。我们这里说的词向量是在词粒度进行分析,当然我们也可以在字粒度的字向量、句子粒度的句向量以及文档粒度的文档向量进行表示分析。如图4所示为tf-idf、textRank及其两者均值的计算结果,并存入数据库表中。
加载word2vec模型,使用tf-idf提取倒排索引筛选出的50篇文档的关键词,使用word2vec模型查询出输入文本和筛选出的50篇文档关键词的词向量。统计关键字是否属于标题、摘要,若关键词属于标题说明它在文本中重要性更高,若属于摘要,重要性次等重要,只属于正文重要性一般,关键词权重按(标题0.5、摘要0.3、正文0.2)的计算比例与关键词的综合权重值再进行进行加权计算,得到关键词的最终权重值,然后再乘关键词的词向量,得到加权的词向量,并通过线性相加求均值及自归一化处理得到最终的文本向量。通过余弦相似度算法得到两两文本之间的相似度。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,夹角等于0,即两个向量相等,这就叫"余弦相似性"。余弦距离使用两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比欧氏距离,余弦距离更加注重两个向量在方向上的差异。
Figure BDA0002335336900000081
其中xiyi分别代表向量x和y的分量,θ代表两个向量的夹角。
对文本以标点符号(。|,|:|;|!|?)切分得到句子,对句子进行分词,并对字词使用主题词表进行同义词、近义词替换。并通过词向量结合综合权重值得到加权句向量,对相似的两篇文本分别计算其句向量的余弦相似度。设置阈值(一般设为85%即可),句子相似度高于阈值即判定这两个句子是相似的,予以标红显示。
图5是基于主题词的文本相似度匹配方法原理示意图;图6是相似文本集展示图;图7是相似文本中相似语句标红显示示意图。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (6)

1.一种基于主题词的文本相似度匹配方法,其特征在于,所述方法包括:
A将文本进行碎片化处理,把各种格式的文本统一入库,并进行数据清洗形成统一格式的文本;
B对文本进行分词、去除停用词操作,并将文档id和分词结果存储于数据库中;
C使用倒排索引算法对数据库中所有已分词处理的的文本进行统计计算,形成单词-文档列表矩阵,并将结果存储到数据库中;
D通过tf-idf算法提取每篇文本的关键词并计算文本字词的tf-idf值,使用textRank算法提取文本摘要,并对文本的字词进行权重值统计计算,计算每个词的tf-idf、textRang综合均值权重;
E加载word2vec模型,使用tf-idf提取倒排索引筛选出的多篇文档的关键词,使用word2vec模型查询出输入文本和筛选出的多篇文档关键词的词向量;
F关键词权重按标题、摘要、正文的计算比例与关键词的综合权重值再进行加权计算,得到关键词的最终权重值,然后再乘关键词的词向量,得到加权的词向量,并通过线性相加求均值及自归一化处理得到最终的文本向量;
G通过余弦相似度算法得到两两文本之间的相似度。
2.如权利要求1所述的基于主题词的文本相似度匹配方法,其特征在于,所述tf-idf为用于信息检索与文本挖掘的加权技术,其中,tf为词频,idf为逆文档频率:
Figure FDA0002335336890000011
Figure FDA0002335336890000012
TF-IDF=词频(TF)×逆文档频率(IDF)。
3.如权利要求1所述的基于主题词的文本相似度匹配方法,其特征在于,所述textRank算法公式为
Figure FDA0002335336890000021
TextRank中一个单词的权重i取决于与在前面的各个j组成的(j,i)这条边的权重,以及j这个点到其他边的权重之和;
将文本中的每个句子看做一个节点,如果两个句子有相似性,则认为两个句子对应的节点之间存在一条无向有权边,上述句子相似度的计算式子中,Si、Sj两个句子,Wk代表句子中的单词,那么分子代表同时出现在两个句子中的单词的个数,分母是对句子中单词个数求对数之和。
4.如权利要求1所述的基于主题词的文本相似度匹配方法,其特征在于,通过tf-idf算法对输入文本进行关键词提取,取tf-idf权重值最大的15个关键词代表文本语义,使用textRang算法进行关键词提取计算拿到关键词及其权重值,并计算其tf-idf、textRank的均值权重,通过关键词综合均值权重乘以关键词的词向量获得关键词的加权向量,使用加权向量用于相似度计算。
5.如权利要求1所述的基于主题词的文本相似度匹配方法,其特征在于,所述步骤G中:余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,夹角等于0,即两个向量相等;其两两文本之间通过余弦相似度算法计算公式如下:
Figure FDA0002335336890000022
其中xiyi分别代表向量x和y的分量,θ代表两个向量的夹角。
6.如权利要求1所述的基于主题词的文本相似度匹配方法,其特征在于,所述方法号包括:对两篇相似文档,分别计算句子向量,并计算两篇文档的两两句子相似度。
CN201911353732.8A 2019-12-25 2019-12-25 一种基于主题词的文本相似度匹配方法 Active CN111104794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911353732.8A CN111104794B (zh) 2019-12-25 2019-12-25 一种基于主题词的文本相似度匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911353732.8A CN111104794B (zh) 2019-12-25 2019-12-25 一种基于主题词的文本相似度匹配方法

Publications (2)

Publication Number Publication Date
CN111104794A true CN111104794A (zh) 2020-05-05
CN111104794B CN111104794B (zh) 2023-07-04

Family

ID=70424522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911353732.8A Active CN111104794B (zh) 2019-12-25 2019-12-25 一种基于主题词的文本相似度匹配方法

Country Status (1)

Country Link
CN (1) CN111104794B (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581960A (zh) * 2020-05-06 2020-08-25 上海海事大学 一种获取医学文本语义相似度的方法
CN111753526A (zh) * 2020-06-18 2020-10-09 北京无忧创想信息技术有限公司 一种相似竞品数据分析方法及系统
CN111767394A (zh) * 2020-06-24 2020-10-13 中国工商银行股份有限公司 一种基于人工智能专家系统的摘要提取方法及装置
CN111913912A (zh) * 2020-07-16 2020-11-10 北京字节跳动网络技术有限公司 文件处理方法、文件匹配方法、装置、电子设备和介质
CN111930880A (zh) * 2020-08-14 2020-11-13 易联众信息技术股份有限公司 一种文本编码检索的方法、装置及介质
CN112000802A (zh) * 2020-07-24 2020-11-27 南京航空航天大学 基于相似度集成的软件缺陷定位方法
CN112036177A (zh) * 2020-07-28 2020-12-04 中译语通科技股份有限公司 基于多模型融合的文本语义相似度信息处理方法及系统
CN112347758A (zh) * 2020-11-06 2021-02-09 中国平安人寿保险股份有限公司 文本摘要的生成方法、装置、终端设备及存储介质
CN112364142A (zh) * 2020-11-09 2021-02-12 上海恒企教育培训有限公司 一种面向垂直领域的问句匹配方法、装置、终端以及可读存储介质
CN112380342A (zh) * 2020-11-10 2021-02-19 福建亿榕信息技术有限公司 一种电力文档主题提取方法及设备
CN112395878A (zh) * 2020-12-14 2021-02-23 深圳供电局有限公司 一种基于电价政策的文本处理方法及系统
CN112417835A (zh) * 2020-11-18 2021-02-26 云南电网有限责任公司信息中心 基于自然语言处理技术的采购文件智能化审查方法及系统
CN112417091A (zh) * 2020-10-16 2021-02-26 北京斗米优聘科技发展有限公司 一种文本检索方法及装置
CN112507097A (zh) * 2020-12-17 2021-03-16 神思电子技术股份有限公司 一种提高问答系统泛化能力的方法
CN112527971A (zh) * 2020-12-25 2021-03-19 华戎信息产业有限公司 一种相似文章的检索方法和系统
CN112966521A (zh) * 2021-03-01 2021-06-15 北京新方通信技术有限公司 一种短句相似度的计算方法及系统
CN113076734A (zh) * 2021-04-15 2021-07-06 云南电网有限责任公司电力科学研究院 一种项目文本的相似度检测方法及装置
CN113254634A (zh) * 2021-02-04 2021-08-13 天津德尔塔科技有限公司 一种基于相空间的档案分类方法及系统
CN113377945A (zh) * 2021-06-11 2021-09-10 成都工物科云科技有限公司 一种面向项目需求的科技专家智能推荐方法
CN113553825A (zh) * 2021-07-23 2021-10-26 安徽商信政通信息技术股份有限公司 一种电子公文脉络关系分析方法及系统
CN113609858A (zh) * 2021-07-31 2021-11-05 云南电网有限责任公司信息中心 一种基于Word Embedding的配网设备一致性识别方法
CN113687826A (zh) * 2021-08-10 2021-11-23 中国人民解放军陆军工程大学 一种基于需求项提取的测试用例复用系统及方法
CN113722478A (zh) * 2021-08-09 2021-11-30 北京智慧星光信息技术有限公司 多维度特征融合相似事件计算方法、系统及电子设备
CN113901783A (zh) * 2021-11-18 2022-01-07 青岛科技大学 面向领域的文档查重方法及系统
CN114154498A (zh) * 2021-12-08 2022-03-08 合肥工业大学 一种基于科技大数据文本内容的创新性评估方法
CN115129815A (zh) * 2022-06-28 2022-09-30 上海应用技术大学 融合改进yake和神经网络的文本相似度计算方法
CN115145872A (zh) * 2022-07-13 2022-10-04 成都卫士通信息产业股份有限公司 一种相似文件的检测方法、系统、电子设备及存储介质
CN115688771A (zh) * 2023-01-05 2023-02-03 京华信息科技股份有限公司 一种文书内容比对性能提升方法及系统
CN115880120A (zh) * 2023-02-24 2023-03-31 江西微博科技有限公司 一种在线政务服务系统及服务方法
CN115983233A (zh) * 2023-01-04 2023-04-18 重庆邮电大学 一种基于数据流匹配的电子病历查重率估计方法
WO2023071118A1 (zh) * 2021-10-25 2023-05-04 苏州浪潮智能科技有限公司 一种计算文本相似度的方法、系统、设备和存储介质
CN116451703A (zh) * 2023-03-24 2023-07-18 鞍钢集团信息产业有限公司 一种基于余弦相似度算法的实时语义相似度匹配设计方法
CN116662521A (zh) * 2023-07-26 2023-08-29 广东省建设工程质量安全检测总站有限公司 一种电子文档筛选查询方法及系统
CN116934378A (zh) * 2023-03-02 2023-10-24 成都理工大学 城乡融合试验区生态产品供给能力测算方法及系统
CN117763106A (zh) * 2023-12-11 2024-03-26 中国科学院文献情报中心 一种文献查重的方法、装置、存储介质及电子设备
CN117972025A (zh) * 2024-04-01 2024-05-03 浙江大学 一种基于语义分析的海量文本检索匹配方法
CN118520504A (zh) * 2024-07-19 2024-08-20 泰安市东信智联信息科技有限公司 一种面向智慧办公系统的文档脱敏存储方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095737A (zh) * 2016-06-07 2016-11-09 杭州凡闻科技有限公司 文档相似度计算方法及相似文档全网检索跟踪方法
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
CN107644010A (zh) * 2016-07-20 2018-01-30 阿里巴巴集团控股有限公司 一种文本相似度计算方法及装置
CN108132929A (zh) * 2017-12-25 2018-06-08 上海大学 一种海量非结构化文本的相似性计算方法
CN108573045A (zh) * 2018-04-18 2018-09-25 同方知网数字出版技术股份有限公司 一种基于多阶指纹的比对矩阵相似度检索方法
CN108628825A (zh) * 2018-04-10 2018-10-09 平安科技(深圳)有限公司 文本信息相似度匹配方法、装置、计算机设备及存储介质
CN109255021A (zh) * 2018-11-01 2019-01-22 北京京航计算通讯研究所 基于质量文本相似性的数据查询方法
CN110110333A (zh) * 2019-05-08 2019-08-09 上海数据交易中心有限公司 一种互联对象的检索方法及系统
CN110209810A (zh) * 2018-09-10 2019-09-06 腾讯科技(深圳)有限公司 相似文本识别方法以及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095737A (zh) * 2016-06-07 2016-11-09 杭州凡闻科技有限公司 文档相似度计算方法及相似文档全网检索跟踪方法
CN107644010A (zh) * 2016-07-20 2018-01-30 阿里巴巴集团控股有限公司 一种文本相似度计算方法及装置
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
CN108132929A (zh) * 2017-12-25 2018-06-08 上海大学 一种海量非结构化文本的相似性计算方法
CN108628825A (zh) * 2018-04-10 2018-10-09 平安科技(深圳)有限公司 文本信息相似度匹配方法、装置、计算机设备及存储介质
CN108573045A (zh) * 2018-04-18 2018-09-25 同方知网数字出版技术股份有限公司 一种基于多阶指纹的比对矩阵相似度检索方法
CN110209810A (zh) * 2018-09-10 2019-09-06 腾讯科技(深圳)有限公司 相似文本识别方法以及装置
CN109255021A (zh) * 2018-11-01 2019-01-22 北京京航计算通讯研究所 基于质量文本相似性的数据查询方法
CN110110333A (zh) * 2019-05-08 2019-08-09 上海数据交易中心有限公司 一种互联对象的检索方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
何喜军: "供需匹配视角下基于语义相似聚类的技术需求识别模型", 《系统工程理论与实践》 *

Cited By (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581960A (zh) * 2020-05-06 2020-08-25 上海海事大学 一种获取医学文本语义相似度的方法
CN111581960B (zh) * 2020-05-06 2023-09-29 上海海事大学 一种获取医学文本语义相似度的方法
CN111753526A (zh) * 2020-06-18 2020-10-09 北京无忧创想信息技术有限公司 一种相似竞品数据分析方法及系统
CN111767394A (zh) * 2020-06-24 2020-10-13 中国工商银行股份有限公司 一种基于人工智能专家系统的摘要提取方法及装置
CN111913912A (zh) * 2020-07-16 2020-11-10 北京字节跳动网络技术有限公司 文件处理方法、文件匹配方法、装置、电子设备和介质
CN112000802A (zh) * 2020-07-24 2020-11-27 南京航空航天大学 基于相似度集成的软件缺陷定位方法
CN112036177A (zh) * 2020-07-28 2020-12-04 中译语通科技股份有限公司 基于多模型融合的文本语义相似度信息处理方法及系统
CN111930880A (zh) * 2020-08-14 2020-11-13 易联众信息技术股份有限公司 一种文本编码检索的方法、装置及介质
CN112417091A (zh) * 2020-10-16 2021-02-26 北京斗米优聘科技发展有限公司 一种文本检索方法及装置
CN112347758B (zh) * 2020-11-06 2024-05-17 中国平安人寿保险股份有限公司 文本摘要的生成方法、装置、终端设备及存储介质
CN112347758A (zh) * 2020-11-06 2021-02-09 中国平安人寿保险股份有限公司 文本摘要的生成方法、装置、终端设备及存储介质
CN112364142A (zh) * 2020-11-09 2021-02-12 上海恒企教育培训有限公司 一种面向垂直领域的问句匹配方法、装置、终端以及可读存储介质
CN112380342A (zh) * 2020-11-10 2021-02-19 福建亿榕信息技术有限公司 一种电力文档主题提取方法及设备
CN112417835A (zh) * 2020-11-18 2021-02-26 云南电网有限责任公司信息中心 基于自然语言处理技术的采购文件智能化审查方法及系统
CN112417835B (zh) * 2020-11-18 2023-11-14 云南电网有限责任公司信息中心 基于自然语言处理技术的采购文件智能化审查方法及系统
CN112395878A (zh) * 2020-12-14 2021-02-23 深圳供电局有限公司 一种基于电价政策的文本处理方法及系统
CN112395878B (zh) * 2020-12-14 2024-01-02 深圳供电局有限公司 一种基于电价政策的文本处理方法及系统
CN112507097A (zh) * 2020-12-17 2021-03-16 神思电子技术股份有限公司 一种提高问答系统泛化能力的方法
CN112507097B (zh) * 2020-12-17 2022-11-18 神思电子技术股份有限公司 一种提高问答系统泛化能力的方法
CN112527971A (zh) * 2020-12-25 2021-03-19 华戎信息产业有限公司 一种相似文章的检索方法和系统
CN113254634A (zh) * 2021-02-04 2021-08-13 天津德尔塔科技有限公司 一种基于相空间的档案分类方法及系统
CN112966521B (zh) * 2021-03-01 2024-03-12 北京新方通信技术有限公司 一种短句相似度的计算方法及系统
CN112966521A (zh) * 2021-03-01 2021-06-15 北京新方通信技术有限公司 一种短句相似度的计算方法及系统
CN113076734B (zh) * 2021-04-15 2023-01-20 云南电网有限责任公司电力科学研究院 一种项目文本的相似度检测方法及装置
CN113076734A (zh) * 2021-04-15 2021-07-06 云南电网有限责任公司电力科学研究院 一种项目文本的相似度检测方法及装置
CN113377945A (zh) * 2021-06-11 2021-09-10 成都工物科云科技有限公司 一种面向项目需求的科技专家智能推荐方法
CN113553825A (zh) * 2021-07-23 2021-10-26 安徽商信政通信息技术股份有限公司 一种电子公文脉络关系分析方法及系统
CN113609858A (zh) * 2021-07-31 2021-11-05 云南电网有限责任公司信息中心 一种基于Word Embedding的配网设备一致性识别方法
CN113722478B (zh) * 2021-08-09 2023-09-19 北京智慧星光信息技术有限公司 多维度特征融合相似事件计算方法、系统及电子设备
CN113722478A (zh) * 2021-08-09 2021-11-30 北京智慧星光信息技术有限公司 多维度特征融合相似事件计算方法、系统及电子设备
CN113687826A (zh) * 2021-08-10 2021-11-23 中国人民解放军陆军工程大学 一种基于需求项提取的测试用例复用系统及方法
CN113687826B (zh) * 2021-08-10 2024-02-02 中国人民解放军陆军工程大学 一种基于需求项提取的测试用例复用系统及方法
WO2023071118A1 (zh) * 2021-10-25 2023-05-04 苏州浪潮智能科技有限公司 一种计算文本相似度的方法、系统、设备和存储介质
CN113901783A (zh) * 2021-11-18 2022-01-07 青岛科技大学 面向领域的文档查重方法及系统
CN113901783B (zh) * 2021-11-18 2024-07-16 青岛科技大学 面向领域的文档查重方法及系统
CN114154498A (zh) * 2021-12-08 2022-03-08 合肥工业大学 一种基于科技大数据文本内容的创新性评估方法
CN114154498B (zh) * 2021-12-08 2024-02-20 合肥工业大学 一种基于科技大数据文本内容的创新性评估方法
CN115129815A (zh) * 2022-06-28 2022-09-30 上海应用技术大学 融合改进yake和神经网络的文本相似度计算方法
CN115129815B (zh) * 2022-06-28 2024-09-06 上海应用技术大学 融合改进yake和神经网络的文本相似度计算方法
CN115145872A (zh) * 2022-07-13 2022-10-04 成都卫士通信息产业股份有限公司 一种相似文件的检测方法、系统、电子设备及存储介质
CN115983233A (zh) * 2023-01-04 2023-04-18 重庆邮电大学 一种基于数据流匹配的电子病历查重率估计方法
CN115688771A (zh) * 2023-01-05 2023-02-03 京华信息科技股份有限公司 一种文书内容比对性能提升方法及系统
CN115880120A (zh) * 2023-02-24 2023-03-31 江西微博科技有限公司 一种在线政务服务系统及服务方法
CN116934378A (zh) * 2023-03-02 2023-10-24 成都理工大学 城乡融合试验区生态产品供给能力测算方法及系统
CN116451703A (zh) * 2023-03-24 2023-07-18 鞍钢集团信息产业有限公司 一种基于余弦相似度算法的实时语义相似度匹配设计方法
CN116662521B (zh) * 2023-07-26 2023-11-14 广东省建设工程质量安全检测总站有限公司 一种电子文档筛选查询方法及系统
CN116662521A (zh) * 2023-07-26 2023-08-29 广东省建设工程质量安全检测总站有限公司 一种电子文档筛选查询方法及系统
CN117763106A (zh) * 2023-12-11 2024-03-26 中国科学院文献情报中心 一种文献查重的方法、装置、存储介质及电子设备
CN117972025A (zh) * 2024-04-01 2024-05-03 浙江大学 一种基于语义分析的海量文本检索匹配方法
CN117972025B (zh) * 2024-04-01 2024-06-07 浙江大学 一种基于语义分析的海量文本检索匹配方法
CN118520504A (zh) * 2024-07-19 2024-08-20 泰安市东信智联信息科技有限公司 一种面向智慧办公系统的文档脱敏存储方法

Also Published As

Publication number Publication date
CN111104794B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
WO2019174132A1 (zh) 数据处理方法、服务器及计算机存储介质
WO2019091026A1 (zh) 知识库文档快速检索方法、应用服务器及计算机可读存储介质
CN103678576B (zh) 基于动态语义分析的全文检索系统
CN110851598B (zh) 文本分类方法、装置、终端设备及存储介质
US20060206306A1 (en) Text mining apparatus and associated methods
US20110295857A1 (en) System and method for aligning and indexing multilingual documents
KR20160121382A (ko) 텍스트 마이닝 시스템 및 툴
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
CN106951530B (zh) 一种事件类型抽取方法和装置
CN114911917B (zh) 资产元信息搜索方法、装置、计算机设备及可读存储介质
US20210264115A1 (en) Analysis of theme coverage of documents
CN112231494B (zh) 信息抽取方法、装置、电子设备及存储介质
CN108319583B (zh) 从中文语料库提取知识的方法与系统
US20200073890A1 (en) Intelligent search platforms
JP2011227688A (ja) テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置
CN112818661B (zh) 一种专利技术关键词非监督提取方法
CN115794995A (zh) 目标答案获取方法及相关装置、电子设备和存储介质
CN116501875A (zh) 一种基于自然语言和知识图谱的文档处理方法和系统
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
Zehtab-Salmasi et al. FRAKE: fusional real-time automatic keyword extraction
CN117236324A (zh) 基于tf-idf的关键词提取方法
Abdulhayoglu et al. Using character n-grams to match a list of publications to references in bibliographic databases
CN113191145A (zh) 关键词的处理方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230525

Address after: Rooms B201, B202, B203, B205, B206, B207, B208, B209, B210, 2nd Floor, Building B-2, Zhongguancun Dongsheng Science and Technology Park, No. 66 Xixiaokou Road, Haidian District, Beijing, 100084 (Dongsheng District)

Applicant after: TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLISHING TECHNOLOGY CO.,LTD.

Address before: 100084 Beijing city Haidian District Tsinghua University Tsinghua Yuan 36 zone B1410, Huaye building 1412, room 1414

Applicant before: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co.,Ltd.

Applicant before: TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLISHING TECHNOLOGY CO.,LTD.

GR01 Patent grant
GR01 Patent grant