CN117194614A - 一种文本差异识别方法、装置和计算机可读介质 - Google Patents

一种文本差异识别方法、装置和计算机可读介质 Download PDF

Info

Publication number
CN117194614A
CN117194614A CN202311447367.3A CN202311447367A CN117194614A CN 117194614 A CN117194614 A CN 117194614A CN 202311447367 A CN202311447367 A CN 202311447367A CN 117194614 A CN117194614 A CN 117194614A
Authority
CN
China
Prior art keywords
sentence
text
similarity
vector
analyzed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311447367.3A
Other languages
English (en)
Other versions
CN117194614B (zh
Inventor
高晓欣
许元斌
刘永清
刘玉玺
王思宁
许海清
赵海翔
李刚
欧阳红
杨强
王宇
王明
焦艳斌
韩泽华
陈刚
卜娜
韩嘉佳
孙歆
颜拥
姚影
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Information and Telecommunication Co Ltd
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Beijing China Power Information Technology Co Ltd
Original Assignee
State Grid Information and Telecommunication Co Ltd
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Beijing China Power Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Information and Telecommunication Co Ltd, Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd, Beijing China Power Information Technology Co Ltd filed Critical State Grid Information and Telecommunication Co Ltd
Priority to CN202311447367.3A priority Critical patent/CN117194614B/zh
Publication of CN117194614A publication Critical patent/CN117194614A/zh
Application granted granted Critical
Publication of CN117194614B publication Critical patent/CN117194614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开一种文本差异识别方法、装置和计算机可读介质,分别获取待分析文本的关键信息和标准文本的关键信息,将待分析文本的关键信息对应的第一语句和标准文本的关键信息对应的第二语句进行拼接得到嵌入向量,将嵌入向量输入预先训练好的BERT模型中,得到上下文编码向量,利用上下文编码向量得到第一语句和第二语句的匹配信息量,从而通过嵌入向量和匹配信息向量,得到第一语句和第二语句的语义相似度,通过预先训练的BERT模型可以得到准确率高的语义相似度,之后获取第一语句和第二语句的结构相似度,最后通过语义相似度和结构相似度,计算求得待分析文本和标准文本间的文本相似度。

Description

一种文本差异识别方法、装置和计算机可读介质
技术领域
本申请属于计算机应用技术领域,尤其涉及一种文本差异识别方法、装置和计算机可读介质。
背景技术
作业指导书为质量体系文件的第三级文件,多用于指导具体的作业,在质量体系的运行中起着举足轻重的作用,是安全生产过程中的重要保证和不可或缺的文件之一。作业指导书的编制在原则上要依照作业指导书标准中的要求,并且需要贴合制作方的实际需求。但是现实中仍存在作业指导书并没有严格的依照作业指导书的标准来编写的问题,这可能会导致作业指导书上的工艺参数不严谨,导致在具体执行时出现理解或者执行上的偏差。
这时就需要对作业指导书进行检查,现有技术中,一般采用人工方式对作业指导书进行重复检索、分析和判断,最终得到作业指导书与标准作业指导书的差异情况,这一过程需要耗费大量的时间,并且准确率低。
发明内容
有鉴于此,本申请提供一种文本差异识别方法、装置和计算机可读介质,以用于解决人工方式对作业指导书进行检查时出现的耗时以及准确率低的问题。
为解决上述问题,本申请提供如下方案:
一种文本差异识别方法,包括:
分别获取待分析文本的关键信息和标准文本的关键信息,所述待分析文本的关键信息至少包括第一语句,所述第一语句为所述待分析文本中,预设目标类别的关键语句,所述标准文本的关键信息至少包括第二语句,所述第二语句为所述标准文本中,所述预设目标类别的关键语句;
将所述第一语句,与所述第二语句进行拼接,并确定拼接后语句的嵌入向量;
调用预先训练的BERT模型,对所述嵌入向量进行处理,得到所述拼接后语句的上下文编码向量,所述预先训练的BERT模型是依据训练样本的嵌入向量进行训练得到的;
利用所述上下文编码向量,获取所述第一语句与所述第二语句的匹配信息向量;
依据所述嵌入向量和所述匹配信息向量,确定所述第一语句与所述第二语句的语义相似度;
获取所述第一语句与所述第二语句的结构相似度;
依据所述语义相似度和所述结构相似度,确定所述待分析文本以及所述标准文本之间的文本相似度。
可选的,所述分别获取待分析文本的关键信息和标准文本的关键信息,包括:
若所述标准文本为非结构化的文本,则通过正则表达式提取所述标准文本的关键信息;
若所述待分析文本为结构化的表格数据文本,则通过表格数据提取工具提取所述待分析文本的关键信息。
可选的,所述预设目标类别至少包括文本编码、文本名称、文本具体操作流程。
可选的,所述确定拼接后语句的嵌入向量,包括:
对所述拼接后语句进行词嵌入、段落嵌入和位置嵌入,得到词向量、段落向量和位置向量;
将所述词向量、位置向量和段落向量相加得到所述拼接后语句的嵌入向量。
可选的,所述利用所述上下文编码向量,获取所述第一语句与所述第二语句的匹配信息向量,包括:
依据所述上下文编码向量构建词语匹配矩阵,所述词语匹配矩阵中的每个元素用于表征,所述第一语句中与所述元素的横/纵坐标位置对应的单词,和,所述第二语句中与所述元素的纵/横坐标位置对应的单词之间的相似度;
调用预先设定的卷积神经网络,从所述词语匹配矩阵中提取所述第一语句和第二语句的匹配信息向量。
可选的,所述预先设定的卷积神经网络包括依次连接的两个卷积池化层,每个卷积池化层包括一个卷积层和一个池化层,所述调用预先设定的卷积神经网络,从所述词语匹配矩阵中提取所述第一语句和第二语句的匹配信息向量,包括:
将所述词语匹配矩阵输入第一卷积池化层,进行卷积和池化后得到短语级别的匹配信息向量;
将所述词语匹配矩阵输入第二卷积池化层,进行卷积和池化后得到句子级别的匹配信息向量;
依据所述短语级别的匹配信息向量和所述句子级别的匹配信息向量,确定所述第一语句和第二语句的匹配信息向量。
可选的,所述获取所述第一语句与所述第二语句的结构相似度,包括:
基于预设的关系名称相似度判定方法,确定所述第一语句和所述第二语句的关系名称相似度;
依据所述关系名称相似度,计算得到所述第一语句和所述第二语句的依存关系相似度;
依据所述依存关系相似度,通过双仿射注意力机制计算得到所述第一语句和所述第二语句的结构相似度。
可选的,所述依据所述语义相似度和所述结构相似度,确定所述待分许文本以及所述标准文本之间的文本相似度,包括:
将所述语义相似度和所述结构相似度加权求和,得到所述待分析文本以及所述标准文本之间的文本相似度。
一种文本差异识别装置,包括:
第一获取单元,用于分别获取待分析文本的关键信息和标准文本的关键信息,所述待分析文本的关键信息至少包括第一语句,所述第一语句为所述待分析文本中,预设目标类别的关键语句,所述标准文本的关键信息至少包括第二语句,所述第二语句为所述标准文本中,所述预设目标类别的关键语句;
拼接单元,用于将所述第一语句,与所述第二语句进行拼接,并确定拼接后语句的嵌入向量;
处理单元,用于调用预先训练的BERT模型,对所述嵌入向量进行处理,得到所述拼接后语句的上下文编码向量,所述预先训练的BERT模型是依据训练样本的嵌入向量进行训练得到的;
第二获取单元,用于利用所述上下文编码向量,获取所述第一语句与所述第二语句的匹配信息向量;
第一确定单元,用于依据所述嵌入向量和所述匹配信息向量,确定所述第一语句与所述第二语句的语义相似度;
第三获取单元,用于获取所述第一语句与所述第二语句的结构相似度;
第二确定单元,用于依据所述语义相似度和所述结构相似度,确定所述待分析文本以及所述标准文本之间的文本相似度。
可选的,所述第三获取单元,具体用于:
基于预设的关系名称相似度判定方法,确定所述第一语句和所述第二语句的关系名称相似度;
依据所述关系名称相似度,计算得到所述第一语句和所述第二语句的依存关系相似度;
依据所述依存关系相似度,通过双仿射注意力机制计算得到所述第一语句和所述第二语句的结构相似度。
可选的,所述第二确定单元,具体用于:
将所述语义相似度和所述结构相似度加权求和,得到所述待分析文本以及所述标准文本之间的文本相似度。
一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时,能实现如上文任一项所述的文本差异识别方法。
由以上方案可知,本申请公开的文本差异识别方法,装置和计算机可读介质,分别获取待分析文本的关键信息和标准文本的关键信息,将待分析文本的关键信息对应的第一语句和标准文本的关键信息对应的第二语句进行拼接得到嵌入向量,将嵌入向量输入预先训练好的BERT模型中,得到上下文编码向量,利用上下文编码向量得到第一语句和第二语句的匹配信息量,从而通过嵌入向量和匹配信息向量,得到第一语句和第二语句的语义相似度,通过预先训练的BERT模型可以得到准确率高的语义相似度,之后获取第一语句和第二语句的结构相似度,最后通过语义相似度和结构相似度,计算求得待分析文本和标准文本间的文本相似度。
本申请通过调用预先用嵌入向量进行训练的BERT模型处理第一语句和第二语句拼接后的嵌入向量,得到上下文编码向量,然后利用上下文编码向量,获取第一语句与第二语句的匹配信息向量,依据嵌入向量和匹配信息向量,确定第一语句与第二语句的语义相似度,改进的BERT模型使得到的语义相似度更加的精确,提高了文本差异分析的准确率,并且该文本差异分析过程主要由各模型参与,不需要人工重复检索、分析和判断,节省了大量的时间。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请提供的文本差异识别方法的一种流程示意图;
图2是本申请提供的文本差异识别方法中获取语义相似度的一种流程示例图;
图3是本申请提供的文本差异识别方法的一种流程示例图;
图4是本申请提供的文本差异识别装置的组成结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本申请中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
作业指导书一般用于指导具体的作业,作业指导书的落实,能够实现操作标准的完整落地,可以从制度健全、流程优化、执行到位、评价回顾、持续改进等各方面强化业务管控的有效性,在实际应用中,需要先对作业指导书与标准文件进行检查之后才会进一步落实,因此作业指导书与标准文件的差异检查的准确率就至关重要。
传统作业指导书的检查,一般采用人工方式对作业指导书进行筛选、分析和判断,最终获得作业指导书与标准文件的差异情况,这种方法非常的消耗人力,并且需要耗费检查人员大量的时间和精力,还可能存在人为上的检查偏差并且容易出错,一旦出错,就意味着需要重新进行一部分检查的工作,传统的这种作业指导书的检查方法更适用于抽查,并不适用于全面检查。
已知技术中还存在基于深度学习技术进行文本相似度的分析工作,该类技术研究主要分为两大类:句子表征学习和局部特征匹配,但是,已经实际应用的深度学习技术并不能精准的体现作业指导书文本构成的不同贡献,并且,作业指导书中的句法信息很容易被忽略,例如,构成词语和语序完全相同的句子,如果句法结构不同,其语义也会有所不同,但是,已知技术中的深度学习技术会将该类句子划分为语义相同的句子。
为了解决上述问题,本申请提出了一种文本差异识别方法、装置和计算机可读介质,在充分考虑作业指导书与标准文件中句子间的语义信息与句法结构信息的基础上,对于文本差异分析相较于传统的人工检查方式,在准确率和召回率方面具有良好的表现,并且具有较高的实用性。
参见图1所示的文本差异识别方法的流程示意图,本申请提供的文本差异识别方法包括以下步骤:
步骤101、分别获取待分析文本的关键信息和标准文本的关键信息,所述待分析文本的关键信息至少包括第一语句,所述第一语句为所述待分析文本中,预设目标类别的关键语句,所述标准文本的关键信息至少包括第二语句,所述第二语句为所述标准文本中,所述预设目标类别的关键语句。
具体的,待分析文本可以但不限于为作业指导书,标准文本可以但不限于为作业指导书用作进行差异分析的标准文件。关键信息可以为文本编码、文本名称、文本具体的操作流程。对于作业指导书来说,关键信息可以但不限于为产品名称、产品代号、工序名称、技术要求以及规章操作等等;对于标准文件来说,关键信息可以但不限于为标准文件编码、标准文件名、目录级别、标题名称、条款内容等等。第一语句主要是指作业指导书中提取的关键信息中预设的目标类别的关键语句;同样的,第二语句主要是指标准文件中提取的关键信息中预设的目标类别的关键语句。预设的目标类别可以为上文中提到的作业指导文件和标准文件的组成关键信息的各部分对应的类别名,比如:标准文件编码、标准文件名、目录级别、标题名称、条款内容、产品名称、产品代号、工序名称、技术要求及操作规程,需要说明的是,本申请的文本差异分析方法主要针对作业指导书中的技术要求及操作规程和标准文件中的条款内容进行对比分析,可以理解的是,预设类别的关键语句为作业指导书中的技术要求及操作规程和标准文件中的条款内容中的内容。
可选的,对于提取作业指导书的关键信息方法如下:
由于作业指导书一般为结构化的表格数据,从而可以采用表格数据提取工具提取作业指导书的关键信息,比如,可以利用Python中的pandas库导入表格数据,然后识别表格中的行和列,最后通过行名和列名读取表格中的数据,完成作业指导书关键信息的提取。
对于提取标准文件的关键信息方法如下:
如果为结构化的标准文件,可以直接读取标准文件中的关键信息;
如果为非结构化的标准文件,可以但不限于采用正则表达式提取标准文件中的关键信息。常见的关键信息提取方法有很多种,比如:文本分类、命名实体识别等,这些方法都可以用来提取标准文件的关键信息,这里采用正则表达式的原因有:相较于其他提取方法,正则表达式操作比较灵活、匹配速度快,并且正则表达式相较于其他方法更优,对于标准文件关键信息的提取没有必要采用更加复杂的方法。
示例性的,采用数据提取工具提取结构化的作业指导书中的关键信息并整理出来,如:产品名称、产品代号、工序名称、技术要求及操作规程等,其中,技术要求及操作规程为较长的文本数据,可以按照序号进行分割。参见表1。
表1
表格中的内容为提取出来的作业指导书的关键信息,其中,技术要求以及操作规程可以理解为第一语句对应的具体内容。
采用正则表达式提取非结构化的标准文件中的关键信息,如:标准文件编码、标准文件名、目录级别、标题名称、条款内容等。具体可以参见表2。
表2
表格中的内容为提取出来的标准文件的关键信息,其中,条款内容可以理解为第二语句对应的具体内容。
之后,对于提取出来的表格信息,对其中的产品名称、工序名称和标题名称进行最长匹配遍历,得到“互感器检修结束要求”与“电压互感器检修作业”,则下一步需要对比的句子为“互感器检修结束要求”相对应的条款内容和“电压互感器检修作业”相对应的技术要求以及操作规程。
步骤102、将所述第一语句,与所述第二语句进行拼接,并确定拼接后语句的嵌入向量。
接下来,开始构建文本相似度计算模型。首先,可以利用[SEP]和[CLS]将第一语句和第二语句拼接成为一个句子,设该句子为X,拼接方式可以如下:
其中,[CLS]是一个特殊分隔符,表示每个样本的开头,[SEP]是样本中每个句子的结束标记符。
与已知技术中不同的是,之后会对拼接后语句进行词嵌入、段落嵌入以及位置嵌入,得到拼接后句子的词向量、段落向量和位置向量,然后将这三个向量相加得到拼接后语句的嵌入向量,设该嵌入向量为S。由于对拼接后语句进行了词、段落以及位置三个方面的嵌入操作,致使嵌入向量的数据特征更加的明显,精度更高。
步骤103、调用预先训练的BERT模型,对所述嵌入向量进行处理,得到所述拼接后语句的上下文编码向量,所述预先训练的BERT模型是依据训练样本的嵌入向量进行训练得到的。
之后,将嵌入向量输入到本申请中特有的预先依据嵌入向量作为训练样本进行训练的BERT模型中,得到拼接后语句的上下文编码向量。需要说明的是,本申请中的BERT模型是预先以嵌入向量作为训练数据训练出来的可以将以处理嵌入向量的BERT模型。
示例性的,将上文得到的嵌入向量S输入到BERT模型中,得到上下文编码,公式可以如下:
其中,l为拼接的句子X的长度,表示X中第i个字符的上下文表示,/>表示特殊字符[CLS]的向量表示。
步骤104、利用所述上下文编码向量,获取所述第一语句与所述第二语句的匹配信息向量。
接下来,主要利用卷积神经网络的数据特征提取功能对上文中得到的上下文编码向量进行相应的处理操作。
首先,将上下文编码向量构建成词语匹配矩阵,这里将该矩阵设为E,该词语矩阵中的每个元素用来表征第一语句中元素的横坐标位置对应的单词和第二语句中元素的纵坐标位置对应的单词之间的相似度;或该词语矩阵中的每个元素用来表征第一语句中元素的纵坐标位置对应的单词和第二语句中元素的横坐标位置对应的单词之间的相似度。
示例性的,可以表示为:
其中,代表第一个句子中的第i个单词和第二个句子中的第j个单词之间的相似度。
然后,利用卷积神经网络对词语匹配矩阵进行信息提取,需要说明的是,该卷积神经网络是预先设定的卷积神经网络,包括一次连接的两个卷积池化层,每个卷积池化层包括一个卷积层和一个池化层。
具体的,将词语匹配矩阵E输入第一卷积池化层,进行卷积池化后得到短语级别的匹配信息向量。然后将词语匹配矩阵E输入到第二层卷积池化层,进行卷积池化后得到句子级别的匹配信息向量,然后将短语级别的匹配信息向量和句子级别的匹配信息向量拼接得到第一语句和第二语句的匹配信息向量。
步骤105、依据所述嵌入向量和所述匹配信息向量,确定所述第一语句与所述第二语句的语义相似度。
之后,将步骤102得到的嵌入向量和步骤104得到的第一语句和第二语句的匹配信息向量进行拼接,然后输入到全连接网络中,然后可以通过softmax函数对第一语句和第二语句相似的概率进行预测,得到第一语句和第二语句的语义相似度。
示例性的,对于句子A和句子B。参见表3。
表3
经过计算,二者的语义相似度可以表示为s(A,B)=0.71。
可选的,对于求得第一语句和第二语句的语义相似度,参见图2,本申请提供的文本差异识别方法中获取语义相似度的一种流程示例图。
具体的,可以通过将第一语句和第二语句进行拼接,得到拼接后语句,通过拼接后语句进行词嵌入、段落嵌入、位置嵌入后得到嵌入向量S,然后将嵌入向量输入到BERT模型中,得到上下文编码向量h,之后将上下文编码向量构建成词语匹配矩阵E,再通过预先设定的卷积神经网络逐层进行卷积池化,提取词语匹配矩阵的抽象特征,具体为进行第一层卷积池化后得到短语级别的词语匹配向量,然后将词语匹配矩阵进行第二层卷积池化之后得到句子级别的词语匹配向量,将短语级别的词语匹配向量和句子级别的词语匹配向量进行拼接后,输入全连接层,通过语义相似度概率预测公式得到第一语句和第二语句的语义相似度。
步骤106、获取所述第一语句与所述第二语句的结构相似度。
之后,构建句法相似度计算模型,得到第一语句和第二语句的结构相似度。
首先,基于预设的关系名称相似度判定方法,确定第一语句和第二语句的关系名称相似度。
具体的,第一语句和第二语句关系名称相似度的判定方法:关系名称相同,相似度为1;关系名称相关,相似度为0.76;其他情况下,相似度为0.62。
然后,依据所述关系名称相似度,计算得到所述第一语句和所述第二语句的依存关系相似度。
具体的,可以利用开源的自然语言处理工具HanLP对第一语句和第二语句进行分词、词性标注、依存句法分析。
示例性的,对于句子“一次接线端子机械强度要求任意方向静态承受试验载荷为1000N。”的分词和词性标注结果为“一/m 次/q 接线/vn 端子/n 机械/n 强度/n 要求/v任意/b 方向/n 静态/n 承受/vn 试验/vn 载荷/n 为/v 1000N/nx 。/w”。
词性标注规则表(部分)如表4所示:
表4
依存句法分析结果为“"dep": [[2, "nummod"],[3, "clf"],[6, "nn"],[6, "nn"],[6, "nn"],[7, "nsubj"],[0, "root"],[9, "amod"],[11, "nsubj"],[11, "dep"],[7, "dep"],[13, "nn"],[14, "top"],[7, "dep"],[14, "attr"],[7, "punct"]]”,结果中[2, "nummod"]表示为分词结果的当前词与第二个词构成"nummod"关系。"nummod"表示“数词修饰语”关系,其他修饰词参照HanLP Documentation中的StanfordDependencies Chinese。
之后,计算依存关系相似度,设第一语句和第二语句对应的两个集合分别为,/>中的元素为依存关系/>(i=1,2,…m),/>中的元素为依存关系/>(j=1,2,…n),每个依存关系都与核心词和依存词两个节点有关,因此本方法采用节点相似度和关系名称相似度结合的方式来计算依存关系相似度,节点相似度可以采用词嵌入的方式计算,公式可以如下:
其中,是依存关系/>与/>的相似度,/>,/>可以分别表示两个依存关系的第一个节点的向量,/>是两个依存关系的第一个节点的相似度,/>,/>分别表示两个依存关系的第二个节点的向量,/>是两个依存关系的第二个节点相似度,是关系名称的相似度。
最后,依据依存关系相似度,通过双仿射注意力机制计算得到所述第一语句和所述第二语句的结构相似度。
具体的,由上文得到的依存关系相似度计算句子A、B的句法结构相似度,记为,/>与/>的依存关系相似度为/>,令/>,其中,1/>j/>n,最终得到m个/>,令/>,其中1/>i/>m,最终得到n个/>
采用双仿射注意力机制计算依存关系得分,公式可以如下:
其中,是/>的依存关系得分,/>、/>分别表示第一、二个节点表示向量,W为权重矩阵,/>为偏置项,同理,/>为/>的依存关系得分。分别对/>、/>进行归一化:
将计算得到的、/>作为句法结构相似度加权融合的权值,公式如下:
为最终句子A、B的句法结构相似度。
步骤107、依据所述语义相似度和所述结构相似度,确定所述待分析文本以及所述标准文本之间的文本相似度。
最后,可以综合考虑句子的语义信息与结构信息,融合语义相似度和结构相似度,得到最终的文本相似度。
具体的,可以将上文得到的语义相似度和结构相似度加权求和,得到待分析文本以及标准文本之间的文本相似度。
示例性的,公式可以为:
其中,w为加权因子,本方法中的w需要通过具体实验确定最终取值。
求得待分析文本和标准文本之间的文本相似度之后,需要进行最后的差异分析,通过预设的相似度阈值,筛选出文本中相似度位于预设的相似度预设阈值区间的句子对,给出相应的差异提示信息。
综上所述,本申请公开的文本差异识别方法,分别获取待分析文本的关键信息和标准文本的关键信息,将各自关键信息对应的第一语句和第二语句进行拼接得到嵌入向量,将嵌入向量输入预先训练好的BERT模型中,得到上下文编码向量,利用上下文编码向量得到第一语句和第二语句的匹配信息量,从而通过嵌入向量和匹配信息向量,得到第一语句和第二语句的语义相似度,通过预先训练的BERT模型可以得到准确率高的语义相似度,之后获取第一语句和第二语句的结构相似度,最后通过语义相似度和结构相似度,计算求得待分析文本和标准文本间的文本相似度。
本申请通过调用预先用嵌入向量进行训练的BERT模型处理第一语句和第二语句拼接后的嵌入向量,得到上下文编码向量,然后利用上下文编码向量,获取第一语句与第二语句的匹配信息向量,依据嵌入向量和匹配信息向量,确定第一语句与第二语句的语义相似度,改进的BERT模型使得到的语义相似度更加的精确,提高了文本差异分析的准确率,并且该文本差异分析过程主要由各模型参与,不需要人工重复检索、分析和判断,节省了大量的时间。
可选的,在一实施例中,参见图3,本申请提供的文本差异是识别方法的流程示例图。
需要说明的是,图3是本申请提供的文本差异识别方法的一种示例图,具体的,提取标准文件中的关键信息,然后提取作业指导书中的关键信息,对标准文件中的关键信息以及作业指导书中的关键信息进行最长匹配遍历,上述过程对应于图1中的步骤101,执行结束后得到主要进行差异分析的语句对:作业指导书中的关键信息中包含的第一语句和标准文件的关键信息中包含的第二语句,然后分别求第一语句和第二语句的语义相似度和句法结构相似度。对于语义相似度,主要利用BERT模型得到语句的上下文编码向量,这里对应于图1中将嵌入向量输入到预训练的BERT模型中得到上下文编码向量,然后融合卷积神经网络得到词语信息,需要说明的是,词语信息对应于图1中的通过预先设定的卷积神经网络通过两层卷积池化提取出来的能够表征第一语句和第二语句的数据特征的词语匹配信息向量,最后计算得到第一语句和第二语句的语义相似度;对于句法结构相似度,对第一语句和第二语句先进行分词、词性标准、依存句法分析,在本实施例中,与图1中所示的句法结构相似度不同的是,还可以在对第一语句和第二语句进行分词、词性标准、依存句法分析后,通过构建依存关系矩阵,计算得到句法结构相似度。最后融合语义相似度和结构相似度,求得标准文件和作业指导书之间的文本相似度,结合文本相似度的具体内容给出相应的差异分析。
对于上述文本差异识别方法,本申请还提供了一种文本差异识别装置,该装置的组成如图4所示。
第一获取单元10,用于分别获取待分析文本的关键信息和标准文本的关键信息,所述待分析文本的关键信息至少包括第一语句,所述第一语句为所述待分析文本中,预设目标类别的关键语句,所述标准文本的关键信息至少包括第二语句,所述第二语句为所述标准文本中,所述预设目标类别的关键语句;
拼接单元20,用于将所述第一语句,与所述第二语句进行拼接,并确定拼接后语句的嵌入向量;
处理单元30,用于调用预先训练的BERT模型,对所述嵌入向量进行处理,得到所述拼接后语句的上下文编码向量,所述预先训练的BERT模型是依据训练样本的嵌入向量进行训练得到的;
第二获取单元40,用于利用所述上下文编码向量,获取所述第一语句与所述第二语句的匹配信息向量;
第一确定单元50,用于依据所述上下文编码向量和所述匹配信息向量,确定所述第一语句与所述第二语句的语义相似度;
第三获取单元60,用于获取所述第一语句与所述第二语句的结构相似度;
第二确定单元70,用于依据所述语义相似度和所述结构相似度,确定所述待分析文本以及所述标准文本之间的文本相似度。
在一实施方式中,第一获取单元10,具体用于:
若所述标准文本为非结构化的文本,则通过正则表达式提取所述标准文本的关键信息;
若所述待分析文本为结构化的表格数据文本,则通过表格数据提取工具提取所述待分析文本的关键信息。
在一实施方式中,第一获取单元10中所述预设目标类别至少包括文本编码、文本名称、文本具体操作流程。
在一实施方式中,拼接单元20,具体用于:
对所述拼接后语句进行词嵌入、段落嵌入和位置嵌入,得到词向量、段落向量和位置向量;
将所述词向量、位置向量和段落向量相加得到所述拼接后语句的嵌入向量。
在一实施方式中,第二获取单元40,具体用于:
依据所述上下文编码向量构建词语匹配矩阵,所述词语匹配矩阵中的每个元素用于表征,所述第一语句中与所述元素的横/纵坐标位置对应的单词,和,所述第二语句中与所述元素的纵/横坐标位置对应的单词之间的相似度;
调用预先设定的卷积神经网络,从所述词语匹配矩阵中提取所述第一语句和第二语句的匹配信息向量。
在一实施方式中,第二获取单元40,所述预先设定的卷积神经网络包括依次连接的两个卷积池化层,每个卷积池化层包括一个卷积层和一个池化层,具体用于:
将所述词语匹配矩阵输入第一卷积池化层,进行卷积和池化后得到短语级别的匹配信息向量;
将所述词语匹配矩阵输入第二卷积池化层,进行卷积和池化后得到句子级别的匹配信息向量;
依据所述短语级别的匹配信息向量和所述句子级别的匹配信息向量,确定所述第一语句和第二语句的匹配信息向量。
在一实施方式中,第三获取单元60,具体用于:
基于预设的关系名称相似度判定方法,确定所述第一语句和所述第二语句的关系名称相似度;
依据所述关系名称相似度,计算得到所述第一语句和所述第二语句的依存关系相似度;
依据所述依存关系相似度,通过双仿射注意力机制计算得到所述第一语句和所述第二语句的结构相似度。
可选的,通过构建句法相似度模型,得到第一语句和第二语句的结构相似度。
首先,基于预设的关系名称相似度判定方法,确定第一语句和第二语句的关系名称相似度。
具体的,第一语句和第二语句关系名称相似度的判定方法:关系名称相同,相似度为1;关系名称相关,相似度为0.76;其他情况下,相似度为0.62。
然后,依据所述关系名称相似度,计算得到所述第一语句和所述第二语句的依存关系相似度。
具体的,可以利用开源的自然语言处理工具HanLP对第一语句和第二语句进行分词、词性标注、依存句法分析。
之后,计算依存关系相似度,设第一语句和第二语句对应的两个集合分别为,/>中的元素为依存关系/>(i=1,2,…m),/>中的元素为依存关系/>(j=1,2,…n),每个依存关系都与核心词和依存词两个节点有关,因此本方法采用节点相似度和关系名称相似度结合的方式来计算依存关系相似度,节点相似度可以采用词嵌入的方式计算,公式可以如下:
最后,依据依存关系相似度,通过双仿射注意力机制计算得到所述第一语句和所述第二语句的结构相似度。
具体的,由上文得到的依存关系相似度计算句子A、B的句法结构相似度,记为,/>与/>的依存关系相似度为/>,令/>,其中,1/>j/>n,最终得到m个/>,令/>,其中1/>i/>m,最终得到n个/>
采用双仿射注意力机制计算依存关系得分,公式可以如下:
其中,是/>的依存关系得分,/>、/>分别表示第一、二个节点表示向量,W为权重矩阵,/>为偏置项,同理,/>为/>的依存关系得分。分别对/>、/>进行归一化:
将计算得到的、/>作为句法结构相似度加权融合的权值,公式如下:
为最终句子A、B的句法结构相似度。
在一实施方式中,第二确定单元70,具体用于:
将所述语义相似度和所述结构相似度加权求和,得到所述待分析文本以及所述标准文本之间的文本相似度。
可选的,综合考虑句子的语义信息与结构信息,融合语义相似度和结构相似度,得到最终的文本相似度,将上文得到的语义相似度和结构相似度加权求和,得到待分析文本以及标准文本之间的文本相似度。
另外,本申请还提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时,能实现文本差异识别方法的各个识别步骤。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
为了描述的方便,描述以上系统或装置时以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (12)

1.一种文本差异识别方法,其特征在于,包括:
分别获取待分析文本的关键信息和标准文本的关键信息,所述待分析文本的关键信息至少包括第一语句,所述第一语句为所述待分析文本中,预设目标类别的关键语句,所述标准文本的关键信息至少包括第二语句,所述第二语句为所述标准文本中,所述预设目标类别的关键语句;
将所述第一语句,与所述第二语句进行拼接,并确定拼接后语句的嵌入向量;
调用预先训练的BERT模型,对所述嵌入向量进行处理,得到所述拼接后语句的上下文编码向量,所述预先训练的BERT模型是依据训练样本的嵌入向量进行训练得到的;
利用所述上下文编码向量,获取所述第一语句与所述第二语句的匹配信息向量;
依据所述嵌入向量和所述匹配信息向量,确定所述第一语句与所述第二语句的语义相似度;
获取所述第一语句与所述第二语句的结构相似度;
依据所述语义相似度和所述结构相似度,确定所述待分析文本以及所述标准文本之间的文本相似度。
2.根据权利要求1所述的文本差异识别方法,其特征在于,所述分别获取待分析文本的关键信息和标准文本的关键信息,包括:
若所述标准文本为非结构化的文本,则通过正则表达式提取所述标准文本的关键信息;
若所述待分析文本为结构化的表格数据文本,则通过表格数据提取工具提取所述待分析文本的关键信息。
3.根据权利要求2所述的文本差异识别方法,其特征在于,所述预设目标类别至少包括文本编码、文本名称、文本具体操作流程。
4.根据权利要求1所述的文本差异识别方法,其特征在于,所述确定拼接后语句的嵌入向量,包括:
对所述拼接后语句进行词嵌入、段落嵌入和位置嵌入,得到词向量、段落向量和位置向量;
将所述词向量、位置向量和段落向量相加得到所述拼接后语句的嵌入向量。
5.根据所述权利要求1所述的文本差异识别方法,其特征在于,所述利用所述上下文编码向量,获取所述第一语句与所述第二语句的匹配信息向量,包括:
依据所述上下文编码向量构建词语匹配矩阵,所述词语匹配矩阵中的每个元素用于表征,所述第一语句中与所述元素的横/纵坐标位置对应的单词,和,所述第二语句中与所述元素的纵/横坐标位置对应的单词之间的相似度;
调用预先设定的卷积神经网络,从所述词语匹配矩阵中提取所述第一语句和第二语句的匹配信息向量。
6.根据权利要求5所述的文本差异识别方法,其特征在于,所述预先设定的卷积神经网络包括依次连接的两个卷积池化层,每个卷积池化层包括一个卷积层和一个池化层,所述调用预先设定的卷积神经网络,从所述词语匹配矩阵中提取所述第一语句和第二语句的匹配信息向量,包括:
将所述词语匹配矩阵输入第一卷积池化层,进行卷积和池化后得到短语级别的匹配信息向量;
将所述词语匹配矩阵输入第二卷积池化层,进行卷积和池化后得到句子级别的匹配信息向量;
依据所述短语级别的匹配信息向量和所述句子级别的匹配信息向量,确定所述第一语句和第二语句的匹配信息向量。
7.根据权利要求1所述的文本差异识别方法,其特征在于,所述获取所述第一语句与所述第二语句的结构相似度,包括:
基于预设的关系名称相似度判定方法,确定所述第一语句和所述第二语句的关系名称相似度;
依据所述关系名称相似度,计算得到所述第一语句和所述第二语句的依存关系相似度;
依据所述依存关系相似度,通过双仿射注意力机制计算得到所述第一语句和所述第二语句的结构相似度。
8.根据权利要求1所述的文本差异识别方法,其特征在于,所述依据所述语义相似度和所述结构相似度,确定所述待分析文本以及所述标准文本之间的文本相似度,包括:
将所述语义相似度和所述结构相似度加权求和,得到所述待分析文本以及所述标准文本之间的文本相似度。
9.一种文本差异识别装置,其特征在于,包括:
第一获取单元,用于分别获取待分析文本的关键信息和标准文本的关键信息,所述待分析文本的关键信息至少包括第一语句,所述第一语句为所述待分析文本中,预设目标类别的关键语句,所述标准文本的关键信息至少包括第二语句,所述第二语句为所述标准文本中,所述预设目标类别的关键语句;
拼接单元,用于将所述第一语句,与所述第二语句进行拼接,并确定拼接后语句的嵌入向量;
处理单元,用于调用预先训练的BERT模型,对所述嵌入向量进行处理,得到所述拼接后语句的上下文编码向量,所述预先训练的BERT模型是依据训练样本的嵌入向量进行训练得到的;
第二获取单元,用于利用所述上下文编码向量,获取所述第一语句与所述第二语句的匹配信息向量;
第一确定单元,用于依据所述嵌入向量和所述匹配信息向量,确定所述第一语句与所述第二语句的语义相似度;
第三获取单元,用于获取所述第一语句与所述第二语句的结构相似度;
第二确定单元,用于依据所述语义相似度和所述结构相似度,确定所述待分析文本以及所述标准文本之间的文本相似度。
10.根据权利要求9所述的文本差异识别装置,其特征在于,所述第三获取单元,用于:
基于预设的关系名称相似度判定方法,确定所述第一语句和所述第二语句的关系名称相似度;
依据所述关系名称相似度,计算得到所述第一语句和所述第二语句的依存关系相似度;
依据所述依存关系相似度,通过双仿射注意力机制计算得到所述第一语句和所述第二语句的结构相似度。
11.根据权利要求9所述的文本差异识别装置,其特征在于,所述第二确定单元,用于:
将所述语义相似度和所述结构相似度加权求和,得到所述待分析文本以及所述标准文本之间的文本相似度。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,能实现如权利要求1-8任一项所述的文本差异识别方法。
CN202311447367.3A 2023-11-02 2023-11-02 一种文本差异识别方法、装置和计算机可读介质 Active CN117194614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311447367.3A CN117194614B (zh) 2023-11-02 2023-11-02 一种文本差异识别方法、装置和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311447367.3A CN117194614B (zh) 2023-11-02 2023-11-02 一种文本差异识别方法、装置和计算机可读介质

Publications (2)

Publication Number Publication Date
CN117194614A true CN117194614A (zh) 2023-12-08
CN117194614B CN117194614B (zh) 2024-01-30

Family

ID=88985358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311447367.3A Active CN117194614B (zh) 2023-11-02 2023-11-02 一种文本差异识别方法、装置和计算机可读介质

Country Status (1)

Country Link
CN (1) CN117194614B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
WO2020140635A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 文本匹配方法、装置及存储介质、计算机设备
CN112101043A (zh) * 2020-09-22 2020-12-18 浙江理工大学 一种基于注意力的语义文本相似度计算方法
CN112182166A (zh) * 2020-10-29 2021-01-05 腾讯科技(深圳)有限公司 一种文本匹配方法、装置、电子设备及存储介质
CN112650836A (zh) * 2020-12-28 2021-04-13 成都网安科技发展有限公司 基于句法结构元素语义的文本分析方法、装置及计算终端
CN114067308A (zh) * 2021-11-30 2022-02-18 天九共享网络科技集团有限公司 智能匹配方法、装置、电子设备及存储介质
CN114580385A (zh) * 2022-03-15 2022-06-03 中南大学 一种结合语法的文本语义相似度计算方法
CN115860006A (zh) * 2023-02-13 2023-03-28 广东工业大学 一种基于语义句法的方面级情感预测方法及装置
CN116306667A (zh) * 2023-02-17 2023-06-23 中科院成都信息技术股份有限公司 一种面向长文本的文本匹配方法及系统
CN116522165A (zh) * 2023-06-27 2023-08-01 武汉爱科软件技术股份有限公司 一种基于孪生结构的舆情文本匹配系统及方法
CN116701574A (zh) * 2023-06-09 2023-09-05 北京海卓飞网络科技有限公司 文本语义相似度计算方法、装置、设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020140635A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 文本匹配方法、装置及存储介质、计算机设备
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN112101043A (zh) * 2020-09-22 2020-12-18 浙江理工大学 一种基于注意力的语义文本相似度计算方法
CN112182166A (zh) * 2020-10-29 2021-01-05 腾讯科技(深圳)有限公司 一种文本匹配方法、装置、电子设备及存储介质
CN112650836A (zh) * 2020-12-28 2021-04-13 成都网安科技发展有限公司 基于句法结构元素语义的文本分析方法、装置及计算终端
CN114067308A (zh) * 2021-11-30 2022-02-18 天九共享网络科技集团有限公司 智能匹配方法、装置、电子设备及存储介质
CN114580385A (zh) * 2022-03-15 2022-06-03 中南大学 一种结合语法的文本语义相似度计算方法
CN115860006A (zh) * 2023-02-13 2023-03-28 广东工业大学 一种基于语义句法的方面级情感预测方法及装置
CN116306667A (zh) * 2023-02-17 2023-06-23 中科院成都信息技术股份有限公司 一种面向长文本的文本匹配方法及系统
CN116701574A (zh) * 2023-06-09 2023-09-05 北京海卓飞网络科技有限公司 文本语义相似度计算方法、装置、设备及存储介质
CN116522165A (zh) * 2023-06-27 2023-08-01 武汉爱科软件技术股份有限公司 一种基于孪生结构的舆情文本匹配系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴炎;王儒敬;: "基于BERT的语义匹配算法在问答系统中的应用", 仪表技术, no. 06 *

Also Published As

Publication number Publication date
CN117194614B (zh) 2024-01-30

Similar Documents

Publication Publication Date Title
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN109271627B (zh) 文本分析方法、装置、计算机设备和存储介质
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
Vu et al. Etnlp: A visual-aided systematic approach to select pre-trained embeddings for a downstream task
US20230069935A1 (en) Dialog system answering method based on sentence paraphrase recognition
CN112183094A (zh) 一种基于多元文本特征的中文语法查错方法及系统
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN113191148A (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN113343706B (zh) 基于多模态特征和语义规则的文本抑郁倾向检测系统
WO2022226716A1 (zh) 基于深度学习的Java程序内部注释的生成方法及系统
CN113204967B (zh) 简历命名实体识别方法及系统
CN112183064A (zh) 基于多任务联合学习的文本情绪原因识别系统
CN113742493A (zh) 一种病理知识图谱的构建方法及装置
CN114004231A (zh) 一种中文专词抽取方法、系统、电子设备及存储介质
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114492460B (zh) 基于衍生提示学习的事件因果关系抽取方法
CN115390806A (zh) 基于双模态联合建模的软件设计模式推荐方法
CN113378024B (zh) 一种基于深度学习面向公检法领域的相关事件识别方法
CN117151222B (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN113361252A (zh) 基于多模态特征和情感词典的文本抑郁倾向检测系统
CN117194614B (zh) 一种文本差异识别方法、装置和计算机可读介质
CN115906818A (zh) 语法知识预测方法、装置、电子设备和存储介质
Marques-Lucena et al. Framework for customers’ sentiment analysis
CN115481635A (zh) 一种地址要素解析方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant