CN113076734B - 一种项目文本的相似度检测方法及装置 - Google Patents

一种项目文本的相似度检测方法及装置 Download PDF

Info

Publication number
CN113076734B
CN113076734B CN202110403617.8A CN202110403617A CN113076734B CN 113076734 B CN113076734 B CN 113076734B CN 202110403617 A CN202110403617 A CN 202110403617A CN 113076734 B CN113076734 B CN 113076734B
Authority
CN
China
Prior art keywords
similarity
tested
detected
section
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110403617.8A
Other languages
English (en)
Other versions
CN113076734A (zh
Inventor
方正云
杨政
尹春林
李萍
刘柱揆
潘侃
朱华
苏蒙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of Yunnan Power Grid Co Ltd
Original Assignee
Electric Power Research Institute of Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of Yunnan Power Grid Co Ltd filed Critical Electric Power Research Institute of Yunnan Power Grid Co Ltd
Priority to CN202110403617.8A priority Critical patent/CN113076734B/zh
Publication of CN113076734A publication Critical patent/CN113076734A/zh
Application granted granted Critical
Publication of CN113076734B publication Critical patent/CN113076734B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及数据库技术领域,提供一种项目文本的相似度检测方法及装置,包括,提取待检测项目文本的待测章节和对比项目文本的对比章节,通过待测语句与对比语句的余弦相似度和欧氏距离相似度,定义新的相似度模型,获得待测语句多个第一相似度,根据待测语句的多个第一相似度,获得所述待测语句的第二相似度,根据所述待测章节中全部待测语句的第二相似度以及全部待测语句对应的第一预设权重,获得所述待测章节的第三相似度,根据待检测项目文本全部待测章节的第三相似度以及待测章节对应的第二预设权重,获得待检测项目文本与对比项目文本的文本相似度,得到的文本相似度融合了语义层面的相似度,可以提高项目文本的相似度检测效率。

Description

一种项目文本的相似度检测方法及装置
技术领域
本申请涉及数据库技术领域,特别是涉及电力行业项目文本的相似度检测方法及装置。
背景技术
科技项目审查是科技计划管理的重要工作,是推动科技事业持续健康发展、促进科技资源优化配置、提高科技管理水平的重要手段。在审查阶段,利用科技项目库中的现有项目文本作为对比项目文本,对待测项目文本进行相似度检测是必要的一步,例如电力行业项目文本包括项目摘要、目的和意义、项目研究的背景、研究内容与实施方案、预期目标和成果形式五个章节,在将待测项目文本与对比项目文本进行相似度检测时,是将两个项目文本相对应的章节进行相似度检测,例如,待测项目文本的项目摘要章节为待测章节,则将对比项目文本的项目摘要章节作为对比章节,通过判断待测章节与对比章节的相似度,判断待检测章节的是否与对比章节雷同。
目前的科技项目文本相似度检测方法主要分为两大类:基于字符串编辑距离比较的方法和基于TF-IDF(Term Frequency-Inverse Document Frequency,词频—逆文件频率)的方法,基于字符串编辑距离比较的方法只是在科研项目语句字符串层面进行相似度比较,并没有考虑每个句子语义层面的特征;基于TF-IDF的方法,是采用关键词来进行科研项目文本的相似度比较,此类方法只考虑了项目文本中几个关键词的特征,并没有考虑项目文本的整体框架特征以及项目文本中每句话的语义特征。因此,基于字符串编辑距离比较的方法和基于TF-IDF的方法在针对文本不同但是语义相同的表述语句时,均无法有效的检测两者的语义相似度,在进行项目文本相似度检测时均需要人工审核进行辅助。
可见现有技术在检测预研项目文本时,难以在语义层面进行相似度的检测,而为完成不同项目文本的相似度检测,通常需要人工审核的介入,从而增加了评审专家的工作量,提高了人工成本,降低了审核效率。
发明内容
本申请提供了一种项目文本的相似度检测方法及装置,以提供一种可以有效检测待测项目文本与对比项目文本语义相似度的项目文本的相似度检测方法及装置。
本申请第一方面提供了一种项目文本的相似度检测方法,包括:
提取待检测项目文本的任一待测章节,以及提取对比项目文本中所述任一待测章节对应的对比章节;
计算所述待测章节中任一待测语句与所述对比章节中全部对比语句的余弦相似度,以及对应余弦相似度的欧氏距离相似度,所述对应余弦相似度的欧氏距离相似度是指其待测语句与余弦相似度的待测语句为同一语句,且其对比语句与余弦相似度的对比语句为同一语句;
若余弦相似度的值大于或等于预设阈值,则将所述余弦相似度作为所述待测语句的第一相似度,若余弦相似度的值小于预设阈值,则将所述余弦相似度与对应的欧氏距离相似度的均值作为所述待测语句的第一相似度,获得所述待测语句的多个第一相似度;
根据所述待测语句的多个第一相似度的大小,获得所述待测语句的第二相似度,所述第二相似度为多个第一相似度中数值最大的第一相似度;
根据所述待测章节中全部待测语句的第二相似度以及全部待测语句对应的第一预设权重,获得所述待测章节的第三相似度,所述第一预设权重用于表示所述待测语句的重要程度;根据待检测项目文本的全部待测章节的第三相似度以及待测章节对应的第二预设权重,获得待检测项目文本与对比项目文本的文本相似度,所述第二预设权重用于表示所述待测章节的重要程度。
可选的,在所述计算所述待测章节中任一待测语句与所述对比章节中全部对比语句的余弦相似度,以及对应余弦相似度的欧氏距离相似度的步骤之前,还包括利用RoBERTa-WWM预训练模型对所述待测章节中任一待测语句进行向量化,以及对所述对比章节中任一对比语句进行向量化。
可选的,所述预设阈值为0.95。
可选的,所述全部待测语句对应的第一预设权重基于TextRank算法得到,所述TextRank算法用于将待测语句的重要程度转化为权重。
可选的,所述第一预设权重为所述待测章节中全部待测语句数目的倒数。
可选的,所述第三相似度由第三相似度模型获得,所述第三相似度模型为:
Figure GDA0003759451400000021
Figure GDA0003759451400000022
NAi维向量
Figure GDA0003759451400000023
由待测章节Ai中全部待测语句的第二相似度构成,Bi为待测章节Ai的对比章节,向量
Figure GDA0003759451400000024
由待测章节Ai中全部待测语句的第一预设权重构成,数值sim(Ai,Bi)由
Figure GDA0003759451400000025
Figure GDA0003759451400000026
内积得到,所述sim(Ai,Bi)为待测章节Ai的第三相似度,NAi为待测章节Ai的语句数,Aij代表待测章节Ai中第j句语句,sim(Aij,Bi)代表待测章节Ai中第j句语句的第二相似度。
可选的,所述文本相似度为所述待检测项目文本的全部待测章节的第三相似度与所述全部待测章节对应的第二预设权重的加权和,所述加权和模型为:
Figure GDA0003759451400000027
sim(Ai,Bi)为待测章节Ai的第三相似度,Bi为待测章节Ai的对比章节,αi为待测章节Ai的第二预设权重,且
Figure GDA0003759451400000031
n为全部待测章节的章节数目,sim(A,B)为待检测项目文本A的文本相似度。
本申请第二方面提供一种项目文本的相似度检测装置,包括:
提取模块,用于提取待检测项目文本的任一待测章节,以及提取对比项目文本中所述任一待测章节对应的对比章节;
余弦相似度获取模块,用于获取待测章节中任一待测语句与对比章节中全部对比语句的余弦相似度;
欧氏距离相似度获取模块,用于获取对应余弦相似度的欧氏距离相似度,所述对应余弦相似度的欧氏距离相似度是指其待测语句与余弦相似度的待测语句为同一语句,且其对比语句与余弦相似度的对比语句为同一语句;
第一相似度获取模块,用于获取待测章节中任一待测语句的多个第一相似度,所述第一相似度为:若余弦相似度的值大于或等于预设阈值,则将所述余弦相似度作为所述待测语句的第一相似度,若余弦相似度的值小于预设阈值,则将所述余弦相似度与对应的欧氏距离相似度的均值作为所述待测语句的第一相似度,获得所述待测语句的多个第一相似度;
第二相似度获取模块,用于获取待测章节中任一待测语句的第二相似度,根据所述待测语句的多个第一相似度的大小,所述第二相似度为多个第一相似度中数值最大的第一相似度;
第一预设权重获取模块,用于获取任一待测章节中全部待测语句对应的第一预设权重,所述第一预设权重用于表示所述待测语句的重要程度;
第三相似度获取模块,用于获取任一待测章节的第三相似度,根据所述待测章节中全部语句的第二相似度以及全部待测语句对应的第一预设权重,获得所述第三相似度;
第二预设权重获取模块,用于获取任一待测章节的第二预设权重,所述第二预设权重用于表示所述待测章节的重要程度;
文本相似度获取模块,用于获取待检测项目文本与对比项目文本的文本相似度,所述文本相似度根据待检测项目文本的全部待测章节的第三相似度以及待测章节对应的第二预设权重获得。
可选的,所述第三相似度获取模块根据所述待测章节中全部待测语句的第二相似度以及所述全部待测语句对应的第一预设权重,获得所述全部待测语句的第二相似度与所述全部待测语句对应的第一预设权重的加权和,即为所述待测章节的第三相似度。
可选的,所述文本相似度获取模块根据所述待检测项目文本的全部待测章节的第三相似度与所述全部待测章节对应的第二预设权重,获得所述全部待测章节的第三相似度与所述全部待测章节对应的第二预设权重的加权和,即为所述待检测项目文本的文本相似度。
本申请提供一种项目文本的相似度检测方法及装置,所述一种项目文本的相似度检测装置用于执行所述一种项目文本的相似度检测方法的步骤,提取待检测项目文本的任一待测章节,以及提取对比项目文本中所述任一待测章节对应的对比章节,获取所述待测章节中任一待测语句与所述对比章节中全部对比语句的余弦相似度,以及对应余弦相似度的欧氏距离相似度,根据定义的新的相似度函数,获取待测语句分别相较于多个对比语句的多个第一相似度,获取待测章节中待测语句相较于对比章节的第二相似度,获取待测章节相较于对比章节的第三相似度,最终获取待测项目文本相较于对比项目文本的文本相似度。
本申请实施例提供的一种项目文本的相似度检测方法,本申请提供的一种项目文本的相似度检测方法是基于RoBERTa-WWM的预训练模型,在理解语义方面能够达到很好的效果,可以有效地得到语义特征,考虑到同一章节每句话的重要程度,本申请提供了基于两种不同重要权重的文本相似度获取方法,考虑到在科技项目查重的时候,审核者对于不同科技项目关注的章节重点不同,本申请给予了审核者对不同章节重要权重的调节空间,可以根据审核部门的相关规定重点关注某几个章节,并且将欧式距离相似度与余弦相似度结合起来作为新的相似度模型进行相似度审查。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种项目文本的相似度检测方法的流程示意图;
图2为本申请实施例提供的30个待测语句和45个待测语句的基于TextRank算法的重要权重分布示意图;
图3为本申请实施例提供的一种项目文本的相似度检测装置的结构示意图;
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例第一方面提供一种项目文本的相似度检测方法,用于检测项目文本的相似度。如图1所示,为本申请实施例提供的一种项目文本的相似度检测方法的流程示意图,所述一种项目文本的相似度检测方法包括步骤S101至步骤S106。
步骤S101:提取待检测项目文本的任一待测章节,以及提取对比项目文本中所述任一待测章节对应的对比章节。
例如,电力行业领域的预研项目文本一般分为以下几个部分:项目名称、项目摘要、目的和意义、项目研究的背景、研究基础和条件、研究内容与实施方案、预期目标和成果形式。待检测项目文本的类型不限于电力行业领域的预研项目文本。根据电力行业项目审查中的各个章节的重要程度,提取待检测项目文本A的项目摘要A1、目的和意义A2、项目研究的背景A3、研究内容与实施方案A4、预期目标和成果形式A5,以及对应的对比项目文本B的项目摘要B1、目的和意义B2、项目研究的背景B3、研究内容与实施方案B4、预期目标和成果形式B5,将待测项目文本A、对比项目文本B两篇项目文本分别进行结构化得到(A1,A2,A3,A4,A5)和(B1,B2,B3,B4,B5),假设项目摘要A1有n句待测语句,待测语句A11、待测语句A12、…、待测语句A1n,项目摘要B1有3句对比语句B11、对比语句B12、对比语句B13
步骤S102:计算所述待测章节中任一待测语句与所述对比章节中全部对比语句的余弦相似度,以及对应余弦相似度的欧氏距离相似度。
所述对应余弦相似度的欧氏距离相似度是指其待测语句与余弦相似度的待测语句为同一语句,且其对比语句与余弦相似度的对比语句为同一语句。余弦相似度是向量空间中两个向量夹角的余弦值,作为衡量两个向量间差异大小的度量,由以下公式计算得到:
Figure GDA0003759451400000051
其中,
Figure GDA0003759451400000052
为两个向量。余弦相似度的值域是[0,1],两个向量之间的夹角越小,两个向量越相似。余弦相似度更多的是从方向上来体现向量之间的差异,对向量的长度不敏感。
欧式距离相似度根据欧式距离计算得到,分别由以下公式计算:
欧氏距离:
Figure GDA0003759451400000053
欧氏距离相似度:
Figure GDA0003759451400000054
由以上模式可以得到,欧氏距离相似度的范围为(0,1]。欧氏距离相似度接近1时,两个向量的长度差距越小,两个向量越相似,欧式距离相似度更加侧重于向量的长度差异。
进一步的,在步骤S102之前,还包括利用RoBERTa-WWM预训练模型,基于python中的bert4keras包,对所述待测章节中任一待测语句进行向量化,以及对所述对比章节中任一对比语句进行向量化,得到每个待测语句的特征向量,以及每个对比语句的特征向量。
RoBERTa-WWM预训练模型是由BERT-WWM和BERT模型发展而来。BERT作为一种fine-tuning的方法,该方法采用了新的预训练的目标函数,增加了句子级别的预测任务。BERT模型随机的屏蔽掉输入中的一些tokens,然后在预训练中对它们进行预测。这样可以使学习到的特征可以融合上下文。另外,预测下一个句子可以对两个句子之间的关系进行更好的理解。BERT-WWM是一种改进后的BERT,相比于BERT来说,主要是修改原来预训练的时候屏蔽的策略。BERT分词时把一个完整的词切分成若干个子词,之后随机地屏蔽部分子词,然后再进行预训练来预测这些子词。在BERT-WWM中,屏蔽时只会屏蔽掉完整的词,在预训练的时候再预测完整的词。
RoBERTa-WWM预训练模型在BERT-WWM的基础上做了三方面的调整。(1)增加训练时间以及训练时的批量;(2)使用动态屏蔽机制,bert使用的是静态的屏蔽,动态屏蔽相比于静态的屏蔽每次输入到序列的屏蔽都是不一样的;(3)不使用next predict loss(下一预测损失),Bert为了捕捉句子之间的关系,使用了next predict loss进行预训练。Nextpredict loss判断输入的语句a,b是否连续。训练时,50%的b是a的下一语句,50%的b是随机抽取。RoBERTa-WWM采用FULL–SENTENCES(完整语句策略),每次输入连续字符串,可能由多个语句组成,直到字符串长度达到长度512。
进一步的,RoBERTa-WWM预训练模型提取出来的特征维度为1024维,所以任一待测章节Ai最终提取出来的特征矩阵FAi的维度为NAi×1024,其中NAi为待测章节Ai全部待测语句的数目。
例如,步骤S101的实施例中,结构化后的项目文本可以得到特征矩阵(FA1,FA2,FA3,FA4,FA5)和(FB1,FB2,FB3,FB4,FB5)。
例如,从数据库中人工提取以下三种情况的待测项目文本与对比项目文本:(1)待测项目文本与对比项目文本的语句完全相同,语义完全相同;(2)待测项目文本与对比项目文本的语句部分相同,语义完全相同;(3)待测项目文本与对比项目文本的语句完全不同,语义完全不同。然后对这三种情况计算文本相似度。本申请通过RoBERTa-WWM预训练模型提取融合语义的语句特征,求得(1)、(2)、(3)三种情况的项目文本相似度分别为100%、100%、0%,验证了本申请的可靠性。
步骤S103:若余弦相似度的值大于或等于预设阈值,则将所述余弦相似度作为所述待测语句的第一相似度,若余弦相似度的值小于预设阈值,则将所述余弦相似度与对应的欧氏距离相似度的均值作为所述待测语句的第一相似度。
例如,当预设阈值为0.95,而一个余弦相似度的值为0.96时,该余弦相似度的值大于预设阈值,则0.96为所述待测语句的一个第一相似度;当预设阈值为0.95,而一个余弦相似度的值为0.94,该余弦相似度的值小于预设阈值,则0.94为所述待测语句的一个第一相似度。
进一步的,步骤S103可以通过定义相似度模型fsim(u,v,λ)来实现,相似度模型fsim(u,v,λ)由余弦相似度和欧氏距离相似度定义,
Figure GDA0003759451400000061
其中,λ为预设阈值,该定义表明,当两个语句的余弦相似度小于该阈值时,语句间相似度用余弦相似度和欧式相似度的均值定义。这样的定义,可以避免语句间相似度偏大的情形。
进一步的,所述预设阈值λ为0.95。
例如,利用相似度模型fsim(u,v,λ)分别计算步骤S101实施例中待测语句A11分别相较于对比语句B11、对比语句B12、对比语句B13的三个第一相似度,基于python中的scipy包。
步骤S104:获得所述待测语句的多个第一相似度,根据所述待测语句的多个第一相似度的大小,获得所述待测语句的第二相似度。
所述第二相似度为多个第一相似度中数值最大的第一相似度。
例如,选取步骤S103实施例中获得的三个第一相似度数值中的最大数值作为待测章节A1中待测语句A11相较于对比章节B1的相似度,记为第二相似度A11B1。同样的方法,可以计算出待测章节A1中待测语句A12、A13、…、A1n分别相较于对比章节B1的第二相似度,记为第二相似度A12B、第二相似度A13B、…、第二相似度A1nB。
又例如,由RoBERTa-WWM预训练模型获得的特征矩阵FAi,通过针对FAi矩阵中的第j行FAij与FBi矩阵的任一行计算fsim(u,v,λ)得到NBi个第一相似度,选取这些相似度的最大值作为FAi矩阵第j行向量与FBi的相似度,即待测章节Ai的第j句待测语句与对比章节Bi的第二相似度,即
Figure GDA0003759451400000071
其中,0<j≤NAi,NBi为对比章节Bi的全部对比语句的。
根据以上模式,可以得到待测章节Ai中任一待测语句相较于对比章节Bi的第二相似度,记为sim(Aij,Bi),构成一个NAi维向量
Figure GDA0003759451400000072
Figure GDA0003759451400000073
其中NAi为待测章节Ai中全部待测语句的数目。
步骤S105:根据所述待测章节中全部待测语句的第二相似度以及全部待测语句对应的第一预设权重,获得所述待测章节的第三相似度。
所述第一预设权重用于表示所述待测语句的重要程度。
进一步的,计算待测章节Ai相较于对比章节Bi的第三相似度sim(Ai,Bi)有两种方法。第一种方法是基于TextRank方法的重要权重方法,考虑到待测章节中每句待测语句的重要程度,使用TextRank方法得到待测章节中待测语句的重要权重向量
Figure GDA0003759451400000074
之后重要权重向量与
Figure GDA0003759451400000075
做内积得到数值sim(Ai,Bi),数值sim(Ai,Bi)即为待测章节相较于对比章节的第三相似度。
Figure GDA0003759451400000076
TextRank算法是一种基于图的用于关键词抽取和文档摘要的排序算法,由网页重要性排序算法PageRank算法改进而来。TextRank算法是将每一个语句作为图的一个顶点,根据两个句子特征来计算语句之间的相似度,构建以相似度大小作为边,即权重的有权图。之后按照算法进行迭代,最终得到图中每个点的重要性程度,即语句的重要性程度。
例如,若选用基于TextRank方法的重要权重方法,基于python中的networkx包,得到待测章节A1中待测语句A11、待测语句A12、…、待测语句A1n的权重,之后每个权重乘以对应待测语句的第二相似度,得到待测章节A1相较于对比章节B1的第三相似度。
第二种方法是基于平均相似性方法的重要权重方法,通过步骤S104得到待测章节中任一待测语句相较于对比章节的第二相似度,取待测章节Ai中全部待测语句第二相似度的均值,作为待测章节Ai相较于对比章节Bi的第三相似度,数值记为sim(Ai,Bi),
Figure GDA0003759451400000077
NAi为待测章节Ai中全部待测语句的数目。
例如,若选用基于平均相似度的重要权重方法,分别得到待测语句A11、A12、···、A1n相较于对比章节B1的第二相似度,将所述所有第二相似度取均值,得到的均值作为待测章节A1相较于对比章节B1的第三相似度。同理,也可以得到目的和意义A2、项目研究的背景A3、研究内容与实施方案A4、预期目标和成果形式A5分别相较于各自的对比章节的第三相似度。
又例如,在使用基于TextRank算法的重要权重方法时,使用RoBERTa-WWM预训练模型提取待测章节任一待测语句的特征,以及对比章节中任一对比语句的特征,之后使用TextRank算法,采用python中的networkx包,计算每个待测语句的重要权重,得到的结果如图2所示,30个待测语句的重要权重分布与1/30极其近似,45个待测语句的重要权重分布与1/45也极其近似,因此,基于TextRank算法的重要性权重方法和基于平均相似度的重要性权重方法最终结果近似。
又例如,随机从数据库中选取了3篇文档,之后将这3篇文档与数据库中的2000多篇文档按照本申请计算文档的相似度,如表1所示,基于重要权重方法的耗费时间远远大于基于平均相似度方法的耗费时间。因此,在工程上,使用基于TextRank算法的重要权重方法,可以获得更准确的结果。
表1基于TextRank算法与基于平均相似度方法的重要权重文本相似度运行时间。
Figure GDA0003759451400000081
又例如,随机选取科技项目库中的50篇中文项目文本使用翻译软件首先进行中译英,后进行英译中得到50篇待测项目文本,并给定待测项目文本与原中文项目文本的相似度数值为1。首先根据文本内容结构设定规则提取项目摘要、目的和意义、项目研究的背景、研究内容与实施方案、预期目标和成果形式五个部分,计算待测语句相较于对比章节的第二相似度,计算待测章节的第三相似度时使用基于平均相似度的重要权重方法,最终将待测章节:项目摘要、目的和意义、项目研究的背景、研究内容与实施方案、预期目标和成果形式的第三相似度按照第二预设权重[0.35,0.1,0.1,0.35,0.1]进行加权和,得到待测项目文本相较于对比项目文本的文本相似度数值。将得到的文本相似度数值与给定的相似度数值1进行比较并计算均方误差。同时将本申请与现有的TF-IDF方法对比,TF-IDF模型使用jieba包来进行分词,之后使用gensim包来计算相似度,最后本申请得到的均方误差0.1559,相比于基于TF-IDF模型的相似度比较方法得到的均方误差0.1894要小,表明本申请可以在从语义理解上来进行科技项目文本相似度审查,本申请实施例将欧式距离相似度与余弦相似度结合起来的作为新的相似度进行相似度的审查,对比基于TF-IDF模型的相似度审查,本申请不但可以更有效的提取语义特征,并且本申请在提取章节特征的时候提供了使用基于重要权重的方法,对不同章节加上不同权重时可以有侧重的得到科技项目文本相似度审查结果。
步骤S106:根据待检测项目文本的全部待测章节的第三相似度以及待测章节对应的第二预设权重,获得待检测项目文本与对比项目文本的文本相似度。
所述第二预设权重用于表示所述待测章节的重要程度,考虑到待测项目文本中每个待测章节的重要程度,所以对不同待测章节预设了权重αi,最终待测项目文本A相较于对比项目文本B的文本相似度由以下公式得到:
Figure GDA0003759451400000091
其中n表示待测章节的全部章节数目,
Figure GDA0003759451400000092
例如,当本申请程序基于python3.6,第二预设权重[α12345]预设为[0.35,0.1,0.1,0.35,0.1],用bert4keras包来提取语句特征,并且用networkx包来获取步骤S105中基于重要权重的相似度检测方法中的第一预设权重,使用scipy包进行第一相似度的计算,最后将待测章节A1、A2、A3、A4、A5的第三相似度按照第二预设权重[0.35,0.1,0.1,0.35,0.1]的加权和得到待测项目文本A的项目文本相似度。
本申请实施例第二方面提供一种项目文本的相似度检测装置,用于执行本申请实施例第一方面提供的一种项目文本的相似度检测方法,对于本申请实施例第二方面提供的一种项目文本的相似度检测装置中未公开的细节,请参见本申请实施例第一方面提供的一种项目文本的相似度检测方法。
如图3所示,为本申请实施例提供的一种项目文本的相似度检测装置的结构示意图。所述一种项目文本的相似度检测装置包括提取模块、余弦相似度获取模块、欧氏距离相似度获取模块、第一相似度获取模块、第二相似度获取模块、第一预设权重获取模块、第三相似度获取模块、第二预设权重获取模块、文本相似度获取模块。
提取模块,用于提取待检测项目文本的任一待测章节,以及提取对比项目文本中所述任一待测章节对应的对比章节。
余弦相似度获取模块,用于获取待测章节中任一待测语句与对比章节中全部对比语句的余弦相似度。
欧氏距离相似度获取模块,用于获取对应余弦相似度的欧氏距离相似度,所述对应余弦相似度的欧氏距离相似度是指其待测语句与余弦相似度的待测语句为同一语句,且其对比语句与余弦相似度的对比语句为同一语句。
第一相似度获取模块,用于获取待测章节中任一待测语句的多个第一相似度,所述第一相似度为:若余弦相似度的值大于或等于预设阈值,则将所述余弦相似度作为所述待测语句的第一相似度,若余弦相似度的值小于预设阈值,则将所述余弦相似度与对应的欧氏距离相似度的均值作为所述待测语句的第一相似度,获得所述待测语句的多个第一相似度。
第二相似度获取模块,用于获取待测章节中任一待测语句的第二相似度,根据所述待测语句的多个第一相似度的大小,所述第二相似度为多个第一相似度中数值最大的第一相似度。
第一预设权重获取模块,用于获取任一待测章节中全部待测语句对应的第一预设权重,所述第一预设权重用于表示所述待测语句的重要程度。
第三相似度获取模块,用于获取任一待测章节的第三相似度,根据所述待测章节中全部语句的第二相似度以及全部待测语句对应的第一预设权重,获得所述第三相似度。
第二预设权重获取模块,用于获取任一待测章节的第二预设权重,所述第二预设权重用于表示所述待测章节的重要程度。
文本相似度获取模块,用于获取待检测项目文本与对比项目文本的文本相似度,所述文本相似度根据待检测项目文本的全部待测章节的第三相似度以及待测章节对应的第二预设权重获得。
可选的,所述第三相似度获取模块根据所述待测章节中全部待测语句的第二相似度以及所述全部待测语句对应的第一预设权重,获得所述全部待测语句的第二相似度与所述全部待测语句对应的第一预设权重的加权和,即为所述待测章节的第三相似度。
可选的,所述文本相似度获取模块根据所述待检测项目文本的全部待测章节的第三相似度与所述全部待测章节对应的第二预设权重,获得所述全部待测章节的第三相似度与所述全部待测章节对应的第二预设权重的加权和,即为所述待检测项目文本的文本相似度。
通过上述实施例,本申请可以在语义层面理解不同的科技项目,并进行相似度比较,减少了评审专家的工作量,降低有重复的预研项目的通过率,保障电力领域预研项目的有效性。
以上结合具体实施方式和范例性实例对本申请进行了详细说明,不过这些说明并不能理解为对本申请的限制。本领域技术人员理解,在不偏离本申请精神和范围的情况下,可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

Claims (9)

1.一种项目文本的相似度检测方法,其特征在于,包括:
提取待检测项目文本的任一待测章节,以及提取对比项目文本中所述任一待测章节对应的对比章节;
计算所述待测章节中任一待测语句与所述对比章节中全部对比语句的余弦相似度,以及对应余弦相似度的欧氏距离相似度,所述对应余弦相似度的欧氏距离相似度是指其待测语句与余弦相似度的待测语句为同一语句,且其对比语句与余弦相似度的对比语句为同一语句;
若余弦相似度的值大于或等于预设阈值,则将所述余弦相似度作为所述待测语句的第一相似度,若余弦相似度的值小于预设阈值,则将所述余弦相似度与对应的欧氏距离相似度的均值作为所述待测语句的第一相似度,获得所述待测语句的多个第一相似度;
根据所述待测语句的多个第一相似度的大小,获得所述待测语句的第二相似度,所述第二相似度为多个第一相似度中数值最大的第一相似度;
根据所述待测章节中全部待测语句的第二相似度以及全部待测语句对应的第一预设权重,获得所述待测章节的第三相似度,所述第一预设权重用于表示所述待测语句的重要程度;根据待检测项目文本的全部待测章节的第三相似度以及待测章节对应的第二预设权重,获得待检测项目文本与对比项目文本的文本相似度,所述第二预设权重用于表示所述待测章节的重要程度;
其中,所述根据所述待测章节中全部待测语句的第二相似度以及全部待测语句对应的第一预设权重,获得所述待测章节的第三相似度的过程,包括第一种方式和第二种方式;
其中,所述第一种方式为:所述第三相似度由第三相似度模型获得,所述第三相似度模型为:
Figure FDA0003759451390000011
Figure FDA0003759451390000012
NAi维向量
Figure FDA0003759451390000013
由待测章节Ai中全部待测语句的第二相似度构成,Bi为Ai的对比章节,向量
Figure FDA0003759451390000014
由待测章节Ai中全部待测语句的第一预设权重构成,数值sim(Ai,Bi)由
Figure FDA0003759451390000015
Figure FDA0003759451390000016
内积得到,所述sim(Ai,Bi)为待测章节Ai的第三相似度,NAi为待测章节Ai的语句数,Aij为待测章节Ai中第j句语句,sim(Aij,Bi)为待测章节Ai中第j句语句的第二相似度;
其中,所述第二种方式为:通过所述待测章节中任一待测语句相较于对比章节的第二相似度,取待测章节Ai中全部待测语句第二相似度的均值,作为待测章节Ai相较于对比章节Bi的第三相似度,数值记为sim(Ai,Bi),
Figure FDA0003759451390000017
NAi为待测章节Ai中全部待测语句的数目,sim(Aij,Bi)为待测章节Ai中第j句语句的第二相似度。
2.根据权利要求1所述的一种项目文本的相似度检测方法,其特征在于,在所述计算所述待测章节中任一待测语句与所述对比章节中全部对比语句的余弦相似度,以及对应余弦相似度的欧氏距离相似度的步骤之前,还包括利用RoBERTa-WWM预训练模型对所述待测章节中任一待测语句进行向量化,以及对所述对比章节中任一对比语句进行向量化。
3.根据权利要求1所述的一种项目文本的相似度检测方法,其特征在于,所述预设阈值为0.95。
4.根据权利要求1所述的一种项目文本的相似度检测方法,其特征在于,所述全部待测语句对应的第一预设权重基于TextRank算法得到,所述TextRank算法用于将待测语句的重要程度转化为权重。
5.根据权利要求1所述的一种项目文本的相似度检测方法,其特征在于,所述第一预设权重为所述待测章节中全部待测语句数目的倒数。
6.根据权利要求1所述的一种项目文本的相似度检测方法,其特征在于,所述文本相似度为所述待检测项目文本的全部待测章节的第三相似度与所述全部待测章节对应的第二预设权重的加权和,所述加权和具体采用以下模型得到:
Figure FDA0003759451390000021
sim(Ai,Bi)为待测章节Ai的第三相似度,Bi为待测章节Ai的对比章节,αi为待测章节Ai的第二预设权重,且
Figure FDA0003759451390000022
n为全部待测章节的章节数目,sim(A,B)为待检测项目文本A的文本相似度。
7.一种项目文本的相似度检测装置,其特征在于,包括:
提取模块,用于提取待检测项目文本的任一待测章节,以及提取对比项目文本中所述任一待测章节对应的对比章节;
余弦相似度获取模块,用于获取待测章节中任一待测语句与对比章节中全部对比语句的余弦相似度;
欧氏距离相似度获取模块,用于获取对应余弦相似度的欧氏距离相似度,所述对应余弦相似度的欧氏距离相似度是指其待测语句与余弦相似度的待测语句为同一语句,且其对比语句与余弦相似度的对比语句为同一语句;
第一相似度获取模块,用于获取待测章节中任一待测语句的多个第一相似度,所述第一相似度为:若余弦相似度的值大于或等于预设阈值,则将所述余弦相似度作为所述待测语句的第一相似度,若余弦相似度的值小于预设阈值,则将所述余弦相似度与对应的欧氏距离相似度的均值作为所述待测语句的第一相似度,获得所述待测语句的多个第一相似度;
第二相似度获取模块,用于获取待测章节中任一待测语句的第二相似度,根据所述待测语句的多个第一相似度的大小,所述第二相似度为多个第一相似度中数值最大的第一相似度;
第一预设权重获取模块,用于获取任一待测章节中全部待测语句对应的第一预设权重,所述第一预设权重用于表示所述待测语句的重要程度;
第三相似度获取模块,用于获取任一待测章节的第三相似度,根据所述待测章节中全部语句的第二相似度以及全部待测语句对应的第一预设权重,获得所述第三相似度;
第二预设权重获取模块,用于获取任一待测章节的第二预设权重,所述第二预设权重用于表示所述待测章节的重要程度;
文本相似度获取模块,用于获取待检测项目文本与对比项目文本的文本相似度,所述文本相似度根据待检测项目文本的全部待测章节的第三相似度以及待测章节对应的第二预设权重获得;
其中,在所述第三相似度获取模块中,所述根据所述待测章节中全部待测语句的第二相似度以及全部待测语句对应的第一预设权重,获得所述待测章节的第三相似度的过程,包括第一种方式和第二种方式;
其中,所述第一种方式为:所述第三相似度由第三相似度模型获得,所述第三相似度模型为:
Figure FDA0003759451390000031
Figure FDA0003759451390000032
NAi维向量
Figure FDA0003759451390000033
由待测章节Ai中全部待测语句的第二相似度构成,Bi为Ai的对比章节,向量
Figure FDA0003759451390000034
由待测章节Ai中全部待测语句的第一预设权重构成,数值sim(Ai,Bi)由
Figure FDA0003759451390000035
Figure FDA0003759451390000036
内积得到,所述sim(Ai,Bi)为待测章节Ai的第三相似度,NAi为待测章节Ai的语句数,Aij为待测章节Ai中第j句语句,sim(Aij,Bi)为待测章节Ai中第j句语句的第二相似度;
其中,所述第二种方式为:通过所述待测章节中任一待测语句相较于对比章节的第二相似度,取待测章节Ai中全部待测语句第二相似度的均值,作为待测章节Ai相较于对比章节Bi的第三相似度,数值记为sim(Ai,Bi),
Figure FDA0003759451390000037
NAi为待测章节Ai中全部待测语句的数目,sim(Aij,Bi)为待测章节Ai中第j句语句的第二相似度。
8.根据权利要求7所述的一种项目文本的相似度检测装置,其特征在于,所述第三相似度获取模块根据所述待测章节中全部待测语句的第二相似度以及所述全部待测语句对应的第一预设权重,获得所述全部待测语句的第二相似度与所述全部待测语句对应的第一预设权重的加权和,即为所述待测章节的第三相似度。
9.根据权利要求7所述的一种项目文本的相似度检测装置,其特征在于,所述文本相似度获取模块根据所述待检测项目文本的全部待测章节的第三相似度与所述全部待测章节对应的第二预设权重,获得所述全部待测章节的第三相似度与所述全部待测章节对应的第二预设权重的加权和,即为所述待检测项目文本的文本相似度。
CN202110403617.8A 2021-04-15 2021-04-15 一种项目文本的相似度检测方法及装置 Active CN113076734B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110403617.8A CN113076734B (zh) 2021-04-15 2021-04-15 一种项目文本的相似度检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110403617.8A CN113076734B (zh) 2021-04-15 2021-04-15 一种项目文本的相似度检测方法及装置

Publications (2)

Publication Number Publication Date
CN113076734A CN113076734A (zh) 2021-07-06
CN113076734B true CN113076734B (zh) 2023-01-20

Family

ID=76617691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110403617.8A Active CN113076734B (zh) 2021-04-15 2021-04-15 一种项目文本的相似度检测方法及装置

Country Status (1)

Country Link
CN (1) CN113076734B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642310B (zh) * 2021-07-14 2022-04-19 广州市玄武无线科技股份有限公司 一种终端数据相似度度量方法
CN113762719A (zh) * 2021-08-03 2021-12-07 远光软件股份有限公司 文本相似度的计算方法、计算机设备及存储装置
CN113987192B (zh) * 2021-12-28 2022-04-01 中国电子科技网络信息安全有限公司 一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法
CN115438644B (zh) * 2022-11-08 2023-01-06 广州信安数据有限公司 一种信息化项目相似度分析方法、存储介质及系统
CN115688771B (zh) * 2023-01-05 2023-03-21 京华信息科技股份有限公司 一种文书内容比对性能提升方法及系统
CN116881738B (zh) * 2023-09-06 2024-02-13 华南理工大学 一种应用于电网行业的项目申报文档的相似度检测方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008187A (zh) * 2014-06-11 2014-08-27 北京邮电大学 一种基于最小编辑距离的半结构化文本匹配方法
CN107133213A (zh) * 2017-05-06 2017-09-05 广东药科大学 一种基于算法的文本摘要自动提取方法与系统
CN109508379A (zh) * 2018-12-21 2019-03-22 上海文军信息技术有限公司 一种基于加权词向量表示和组合相似度的短文本聚类方法
CN109977196A (zh) * 2019-03-29 2019-07-05 云南电网有限责任公司电力科学研究院 一种海量文档相似性的检测方法及装置
CN111104794A (zh) * 2019-12-25 2020-05-05 同方知网(北京)技术有限公司 一种基于主题词的文本相似度匹配方法
CN111274783A (zh) * 2020-01-14 2020-06-12 广州供电局有限公司 一种基于语义相似分析的围串标智能识别方法
AU2020101024A4 (en) * 2020-01-19 2020-07-23 Nanjing Normal University Multi-language oriented general method for calculating place name semanteme similarity and use thereof
CN111723297A (zh) * 2019-11-20 2020-09-29 中共南通市委政法委员会 一种面向网格社情研判的双重语义相似度判别方法
CN112632252A (zh) * 2020-12-25 2021-04-09 中电金信软件有限公司 对话应答方法、装置、计算机设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070055662A1 (en) * 2004-08-01 2007-03-08 Shimon Edelman Method and apparatus for learning, recognizing and generalizing sequences
CN101620596B (zh) * 2008-06-30 2012-02-15 东北大学 一种面向查询的多文档自动摘要方法
CN102945228B (zh) * 2012-10-29 2016-07-06 广西科技大学 一种基于文本分割技术的多文档文摘方法
CN105824798A (zh) * 2016-03-03 2016-08-03 云南电网有限责任公司教育培训评价中心 基于试题关键字相似性的试题库中的试题去重方法
CN109684642B (zh) * 2018-12-26 2023-01-13 重庆电信系统集成有限公司 一种结合页面解析规则和nlp文本向量化的摘要提取方法
CN111626056B (zh) * 2020-04-11 2023-04-07 中国人民解放军战略支援部队信息工程大学 基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008187A (zh) * 2014-06-11 2014-08-27 北京邮电大学 一种基于最小编辑距离的半结构化文本匹配方法
CN107133213A (zh) * 2017-05-06 2017-09-05 广东药科大学 一种基于算法的文本摘要自动提取方法与系统
CN109508379A (zh) * 2018-12-21 2019-03-22 上海文军信息技术有限公司 一种基于加权词向量表示和组合相似度的短文本聚类方法
CN109977196A (zh) * 2019-03-29 2019-07-05 云南电网有限责任公司电力科学研究院 一种海量文档相似性的检测方法及装置
CN111723297A (zh) * 2019-11-20 2020-09-29 中共南通市委政法委员会 一种面向网格社情研判的双重语义相似度判别方法
CN111104794A (zh) * 2019-12-25 2020-05-05 同方知网(北京)技术有限公司 一种基于主题词的文本相似度匹配方法
CN111274783A (zh) * 2020-01-14 2020-06-12 广州供电局有限公司 一种基于语义相似分析的围串标智能识别方法
AU2020101024A4 (en) * 2020-01-19 2020-07-23 Nanjing Normal University Multi-language oriented general method for calculating place name semanteme similarity and use thereof
CN112632252A (zh) * 2020-12-25 2021-04-09 中电金信软件有限公司 对话应答方法、装置、计算机设备和存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Some cosine similarity measures and distance measures between q-rung orthopair fuzzy sets;Liu Donghai 等;《International Journal of Intelligent Systems》;20190331;第34卷(第7期);285-289 *
Unsupervised whatsapp fake news detection using semantic search;Gaglani Jaynil 等;《2020 4th International Conference on Intelligent Computing and Control Systems (ICICCS)》;20200619;1572-1587 *
基于FAQ的中文问答系统的研究与实现;段佳平;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200215(第02期);I138-2283 *
基于自然语言处理的疑似侵权专利智能检索研究;金健;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20180115(第01期);I138-1877 *

Also Published As

Publication number Publication date
CN113076734A (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN113076734B (zh) 一种项目文本的相似度检测方法及装置
CN108073568B (zh) 关键词提取方法和装置
Jiang et al. Sentence level topic models for associated topics extraction
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN110929038B (zh) 基于知识图谱的实体链接方法、装置、设备和存储介质
EP3937029A2 (en) Method and apparatus for training search model, and method and apparatus for searching for target object
CN109492213B (zh) 句子相似度计算方法和装置
CN108519971B (zh) 一种基于平行语料库的跨语种新闻主题相似性对比方法
WO2015032301A1 (zh) 一种基于新核函数Luke核的专利文献相似度检测方法
CN111428733A (zh) 基于语义特征空间转换的零样本目标检测方法及系统
CN109508460B (zh) 基于主题聚类的无监督作文跑题检测方法及系统
Aida et al. A comprehensive analysis of PMI-based models for measuring semantic differences
US10810266B2 (en) Document search using grammatical units
CN107766419B (zh) 一种基于阈值去噪的TextRank文档摘要方法及装置
Subeno et al. Optimisation towards Latent Dirichlet Allocation: Its Topic Number and Collapsed Gibbs Sampling Inference Process.
CN115185920B (zh) 一种日志类型的检测方法、装置及设备
CN109344397B (zh) 文本特征词语的提取方法及装置、存储介质及程序产品
Wongchaisuwat Automatic keyword extraction using textrank
CN113761875B (zh) 事件抽取方法、装置、电子设备及存储介质
CN112579583B (zh) 一种面向事实检测的证据与声明联合抽取方法
CN117151089A (zh) 新词发现方法、装置、设备和介质
CN111339287B (zh) 摘要生成方法及装置
CN110929501B (zh) 文本分析方法和装置
Pei [Retracted] Construction of a Legal System of Corporate Social Responsibility Based on Big Data Analysis Technology
CN113901203A (zh) 一种文本分类方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant