CN114925157A - 一种基于预训练模型的核电站维修经验文本匹配方法 - Google Patents

一种基于预训练模型的核电站维修经验文本匹配方法 Download PDF

Info

Publication number
CN114925157A
CN114925157A CN202210214810.1A CN202210214810A CN114925157A CN 114925157 A CN114925157 A CN 114925157A CN 202210214810 A CN202210214810 A CN 202210214810A CN 114925157 A CN114925157 A CN 114925157A
Authority
CN
China
Prior art keywords
text
maintenance
matching
layer
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210214810.1A
Other languages
English (en)
Inventor
刘新华
李亭亭
旷海兰
马小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202210214810.1A priority Critical patent/CN114925157A/zh
Publication of CN114925157A publication Critical patent/CN114925157A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于预训练模型的核电站维修经验文本匹配方法,包括:1、获取用户查询的维修主题,并对核电站维修文档非结构化数据进行清洗,组成原始数据集;2、对数据进行增强,得到包含第一文本、第二文本数据对的最终的数据集,3、构建多任务的训练集、验证集和测试集,并进一步分词处理;4、通过预训练文本匹配模型对第一文本、第二文本数据对进行语义特征提取,生成匹配权重矩阵;5、将用户查询的维修主题输入到文本匹配模型中,对维修经验主题进行语义分析,进而给出相匹配关联的维修经验文档。相比于其他方法,本发明能够从解决多种长度文本匹配使用一个模型进行训练匹配的准确度、核电站领域没有维修文本数据集及匹配系统的问题。

Description

一种基于预训练模型的核电站维修经验文本匹配方法
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于预训练模型的核电站维修经验文本匹配方法。
背景技术
近年来随着自然语言处理技术的快速发展,与文本匹配相关的信息检索,问答系统、文档匹配的需求都越来越高。过去的文本匹配工作是更多的是在提取文本特征时注重于文本内部信息,对两个文本间的语义交互信息缺少关注,因此不能很好的适用于核电站维修经验的文本匹配工作,日常维修检测人员积累完善的核电站维修数据资料,却不能充分利用。
文本匹配技术主要是分析与判断两个文本是否语义匹配,在文本匹配中,模型将待匹配的两个文本转化为字向量或词向量作为输入,通过深度神经网络进行特征提取,预测两个文本的语义关系。文本匹配方法可以分为基于表示、基于交互和基于预训练模型的方法,基于表示的文本匹配方法忽略句子间的语义特征交互;基于交互文本匹配方法引入注意力机制,以对两个文本进行单词级交互的方式进行建模,利用两个文本间的语义特征交互,提高了匹配的准确性,但是随着网络的加深,容易产生梯度消失问题;基于预训练模型的文本匹配方法在大规模语料上进行预训练,能够从不同角度更有效的获取文本特征,并取得了较好的效果,但是这些方法针对短文本匹配效果显著提升,对于序列较长的文本则不能很好的进行文本特征提取。
发明内容
本发明提出一种基于预训练模型的核电站维修经验文本匹配方法,用以解决或者至少部分解决现有方法匹配效果不佳的技术问题。
本发明采用的技术方法包括:提供一种基于预训练模型的核电站维修经验文本匹配方法,包括:
S1:获取用户查询的维修主题,对核电站维修文档非结构化数据进行清洗,得到标准维修主题和标准维修目的,组成原始数据集;
S2:在原始数据集的基础上,对数据进行增强,得到最终数据集,最终数据集中包含由第一文本和第二文本构成的数据对;
S3:在最终数据集上构建多任务的训练集、验证集和测试集,并对构建的数据集进行分词处理,多任务包括短短匹配、短长匹配、长长匹配三大类的语义匹配任务;
S4:通过预训练文本匹配模型对最终数据集中由第一文本和第二文本组成的数据对进行语义特征提取,生成文本数据对间的匹配权重矩阵,匹配权重矩阵包含多层次交互信息,预训练文本匹配模型为基于Roformer的预训练模型;
S5:将用户查询的维修主题输入到预训练文本匹配模型中,获得待查询维修主题文本向量,根据待查询维修主题文本向量与步骤S4生成的文本数据对间的匹配权重矩阵之间的相似度,获取相似度高于相似度阈值的维修主题,并将相似度高于相似度阈值的维修主题对应的维修文档返回给用户。
在一种实施方式中,步骤S1包括:
S101:获取用户查询的维修主题;
S102:将不同类型的核电站维修文档文件转换为统一的核电站维修结构化数据;
S103:对S102得到的核电站维修结构化数据利用正则过滤原则提取有效内容,得到初步有效的维修关键数据;
S104:对S103中初步有效的维修关键数据进行语料清洗和过滤,得到结构化核电站维修文档有效数据,组成原始数据集,所述结构化核电站维修文档有效数据的结构为一个核电站维修主题对应一个维修目的。
在一种实施方式中,S2中采用的数据增强策略包括基于规则的EDA增强数据方法、基于SimBERT模型的方法。
在一种实施方式中,步骤S3包括:
对进行数据增强后的数据进行数据集进行划分,划分为短短文本匹配、短长文本匹配和长长文本匹配三大类文件,三大类文件内部按照预设比例划分为训练集、验证集以及测试集;
对划分后的数据集文本使用jieba分词进行分词,根据常用停顿词表,对文本去除停顿词。
在一种实施方式中,步骤S4中预训练文本匹配模型采用预训练的Roformer模型。
在一种实施方式中,Roformer模型包括嵌入层、位置编码层、多头注意力层、前馈神经网络层、交互注意力层和预测层,其中,嵌入层用于对第一文本和第二文本进行文本向量化表示,位置编码层用于对嵌入层得到文本向量化表示进行相对位置编码,多头注意力层用于根据相对位置编码的结果进行注意力计算,前馈神经网络层用于对多头注意力层的结果进行线性变换,交互注意力层用于对文本数据进行多层次的信息交互,预测层用于根据交互注意力层的结果得到匹配结果。
在一种实施方式中,多层多头注意力层和前馈神经网络层的周围都具有求和层和条件归一化层。
在一种实施方式中,嵌入层采用BERT模型,预测层包括最大池化、全连接层和softmax层,步骤S4包括:
S401:采用BERT模型分别对第一文本和第二文本进行文本向量化表示,得到嵌入矩阵A和嵌入矩阵B;
S402:通过位置编码层将嵌入矩阵A和嵌入矩阵B进行相对位置编码,得到第一向量和第二向量;
S403:对编码后获得的数值化第一向量和第二向量,通过Roformer模型的多头注意力层进行注意力计算、前馈神经网络层进行线性变换;
S404:通过Roformer的交互注意力层,对第一向量和第二向量之间进行信息交互,获得丰富的上下文信息和交互信息,得到包含两个文本多层次交互信息的第一交互矩阵和第二交互矩阵;
S405:对第一交互矩阵和第二交互矩阵分别进行最大池化操作,得到降维压缩后的第一预测向量和第二预测向量并计算第一预测向量和第一预测向量之间的匹配结果
Figure BDA0003534012550000031
其中,v1和v2分别为第一预测向量和第一预测向量,对应第一文本和第二文本,
Figure BDA0003534012550000032
表示v1和v2对应元素逐个相乘,强调两个文本之间相同之处,|v1-v2|表示v1和v2对应元素逐个相减,强调两个文本之间不同之处,F表示将获取的四个向量拼接,再输入到全连接层,最终通过分类器softmax输出匹配权重矩阵。
在一种实施方式中,所述方法还包括步骤S6:根据对推荐的核电站维修经验文档匹配度的反馈,优化文本匹配模型。
在一种实施方式中,步骤S6包括:
获取用户对返回的维修文档是否符合查询的维修主题的反馈结果,其中,反馈结果包括返回的维修文档与查询的维修主题相关和不相关,
如果反馈结果为不相关,则将查询维修主题与匹配的标准维修主题作为负样本,重复执行步骤S3步骤S4对匹配权重矩阵进行更新,根据更新后的匹配权重矩阵对文本匹配模型进行优化。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种基于预训练模型的核电站维修经验文本匹配方法,将非结构化核电站维修文档数据抽取为结构化数据,制作核电站维修经验领域的语义匹配数据库,即原始数据集;对原始数据集进行数据增强,并针对短短匹配、短长匹配、长长匹配三大类的语义匹配任务,基于Roformer预训练模型进行特征提取,将上述分好类别的三大类数据作为条件标签,通过条件Layer Norm实现用一个模型完成这三个相关任务共同训练,不同任务之间能够相互补充和促进,从而获得单任务上更好的效果,提出的模型可以直接处理长文本,且不同任务之间共享一部分参数,实现参数的最大公用化的多任务文本匹配模型。本申请的文本匹配模型能够从解决多种长度文本匹配使用一个模型进行训练匹配的准确度问题,以及核电站领域没有维修文本数据集及维修数据匹配系统的问题,从而改善了文本匹配效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施中核电站维修经验文本匹配方法整体流程图;
图2为本发明实施中采用SimBERT模型的相似句子生成训练方式图;
图3为本发明实施中生成匹配权重矩阵的模型的示意图;
图4为本发明实施中结合旋转式位置编码ROPE的Roformer模型的结构图;
图5为本发明实施中工作人员反馈优化模型流程图。
具体实施方式
本申请发明人通过大量的研究与实践发现:文本匹配技术主要是分析与判断两个文本是否语义匹配,在文本匹配中,模型将待匹配的两个文本转化为字向量或词向量作为输入,通过深度神经网络进行特征提取,预测两个文本的语义关系。文本匹配方法可以分为基于表示、基于交互和基于预训练模型的方法,基于表示的文本匹配方法忽略句子间的语义特征交互;基于交互文本匹配方法引入注意力机制,以对两个文本进行单词级交互的方式进行建模,利用两个文本间的语义特征交互,提高了匹配的准确性,但是随着网络的加深,容易产生梯度消失问题;基于预训练模型的文本匹配方法在大规模语料上进行预训练,能够从不同角度更有效的获取文本特征,并取得了较好的效果,但是这些方法针对短文本匹配效果显著提升,对于序列较长的文本则不能很好的进行文本特征提取。对于同时存在短文本与长文本的文本匹配场景,如何实现对短短匹配、短长匹配和长长匹配的多任务文本匹配有较高的匹配准确率的同时,模型依然具有较高的效率,还有待进一步研究。
现有方法使用深度学习模型来解决文本匹配任务是,存在以下问题,(1)核电站维修记录的数据全部为非结构化数据,需要对这些宝贵数据处理为结构化数据,这样才能用于维修文档语义匹配任务;(2)核电站领域数据集较少,为了提高预训练模型的特征提取效果,需要对数据集进行数据增强;(3)不同长度的文本包含了不同的文本特征,现有的预训练模型忽视了不同长度文本特征对语义表示的影响,难以满足多任务语义匹配任务,不同长度的文本语义特征彼此存在语义上的交互。
针对这些问题,本发明提出将非结构化数据抽取为结构化数据,制作核电站维修经验领域的语义匹配数据库;对提取出来的数据集进行数据增强,扩充至原来数据集的十倍,针对短短匹配、短长匹配、长长匹配三大类的语义匹配任务,提出通过基于Roformer预训练模型进行特征提取,将上述分好类别的三大类数据作为条件标签,通过条件LayerNorm实现用一个模型完成这三个相关任务共同训练,不同任务之间能够相互补充和促进,从而获得单任务上更好的效果,提出的模型可以直接处理长文本,且不同任务之间共享一部分参数,实现参数的最大公用化的多任务文本匹配模型。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于预训练模型的核电站维修经验文本匹配方法,包括:
S1:获取用户查询的维修主题,对核电站维修文档非结构化数据进行清洗,得到标准维修主题和标准维修目的,组成原始数据集;
S2:在原始数据集的基础上,对数据进行增强,得到最终数据集,最终数据集中包含由第一文本和第二文本构成的数据对;
S3:在最终数据集上构建多任务的训练集、验证集和测试集,并对构建的数据集进行分词处理,多任务包括短短匹配、短长匹配、长长匹配三大类的语义匹配任务;
S4:通过预训练文本匹配模型对最终数据集中由第一文本和第二文本组成的数据对进行语义特征提取,生成文本数据对间的匹配权重矩阵,匹配权重矩阵包含多层次交互信息,预训练文本匹配模型为基于Roformer的预训练模型;
S5:将用户查询的维修主题输入到预训练文本匹配模型中,获得待查询维修主题文本向量,根据待查询维修主题文本向量与步骤S4生成的文本数据对间的匹配权重矩阵之间的相似度,获取相似度高于相似度阈值的维修主题,并将相似度高于相似度阈值的维修主题对应的维修文档返回给用户。
具体来说,S4得到的匹配权重矩阵包含了得两个文本进行多层次交互,进而可以获取多层次交互信息,最终分别得到两个文本的语义表示,融合不同维度的信息,学习句子内部的词依赖关系,捕获句子的内部结构,融合深层语义特征,之后对所有输入句子是否匹配的信息。
总体来说,本发明通过提出一个核电站维修经验文本匹配方法,检修人员可以在大量的核电站维修文档快速查询匹配到与本次维修内容相关的历史维修文档,本发明目的在短时间内快速判断故障,快速设计检修方案,提高检修效率,减少检修人员在现场停留的工作时间,减少辐射剂量。
在一种实施方式中,步骤S1包括:
S101:获取用户查询的维修主题;
S102:将不同类型的核电站维修文档文件转换为统一的核电站维修结构化数据;
S103:对S102得到的核电站维修结构化数据利用正则过滤原则提取有效内容,得到初步有效的维修关键数据;
S104:对S103中初步有效的维修关键数据进行语料清洗和过滤,得到结构化核电站维修文档有效数据,组成原始数据集,所述结构化核电站维修文档有效数据的结构为一个核电站维修主题对应一个维修目的。
具体来说,将不同类型的核电站维修文档文件有doc、docx、pdf等格式,此外,文档内容填写不统一,如目录划分结构不统一,对同一部分的填写方式统一,比如风险分析:有采用文本描述,有采用表格描述,采用表格描述的又分为表格列数不统一,例如:有的分为风险名称、风险内容两列;有的分为风险名称、风险类型、风险详情等等。通过S102可以将非结构化的数据转化为结构化数据。
S104中的过滤包括过滤敏感词等无效数据。结构化核电站维修文档有效数据的结构为一个核电站维修主题对应一个维修目的,针对核电站维修的结构化数据集包含有以下几种数据类型:
(1)标准维修主题source:核电站维修文档中的标准维修文档主题;
(2)标准维修主题目的target:核电站维修文档中标准维修主题对应的维修主题目的。
在一种实施方式中,S2中采用的数据增强策略包括基于规则的EDA增强数据方法、基于SimBERT模型的方法。
步骤S2,在原始数据集Doriginal的基础上,对标准维修主题source数据进行增强,生成相似维修主题source1、source2。
基于以上两种策略,将原始数据集Doriginal数据进行数据增强,将增强后的数据集中重复语句进行删除,最终保证数据集扩充至原来数据集规模的10倍,得到最终数据集Dfinal。最终数据集Dfinal为一个核电站维修主题集合对应一个维修目的,针对核电站维修的最终数据集Dfinal包含有以下几种数据类型:
(1)标准维修主题source:核电站维修文档中的标准维修文档主题;
(2)标准维修主题目的target:核电站维修文档中标准维修主题对应的维修主题目的;
(3)相似维修主题source1、source2:与标准维修主题source相似的通用维修主题,与标准维修主题source一样与标准维修主题目的target相对应。
其中,标准维修主题source、对应标准维修主题目的target以及该标准维修主题source对应的所有相似维修主题source1、source2,一起组成一个知识点。最终数据集Dfinal中的维修主题为第一文本,最终数据集Dfinal中的维修目的为第二文本,二者构成文本数据对。
具体实施过程中,采用基于规则的EDA增强数据方法,包括:(1)同义词替换:随机抽取清洗后的数据集句子中的N个单词,对其进行同义词替换;(2)随机替换:随机选择清洗后的数据集句子中两个单词,并交换其单词位置,可重复多次;(3)随机删除:指定数值概率ρ(ρ为参数),对清洗后的数据集句子中每个单词以概率ρ进行删除;(4)随机插入:从清洗后的数据集句子中抽取一个单词,并将其同义词插入句子中随机位置。
基于SimBERT模型的方法融合自然语言生成和自然语言理解的相似句子生成,SimBERT模型以BERT模型为基础,利用微软研究院提出的UniLM思想,通过一句话来预测另一个相似句子的生成,其训练步骤,包括:(1)取同一个训练batch中的一组相似句记为SENT_a和SENT_b,相似句对的不同句子以[SEP]标识符隔开,将[CLS]SENT_a[SEP]SENT_b[SEP]和[CLS]SENT_b[SEP]SENT_a[SEP]加入训练;(2)计算整个batch内的[CLS]向量,得到一个句向量矩阵
Figure BDA0003534012550000081
其中b为batch的大小,d为隐藏层层数;(3)在d维度上做L2正则化后得到正则矩阵
Figure BDA0003534012550000082
然后对正则矩阵
Figure BDA0003534012550000083
与其转置矩阵两两做内积,得到b×b的相似度矩阵
Figure BDA0003534012550000084
(4)对相似度矩阵
Figure BDA0003534012550000085
乘以一个scale,并使用遮蔽语言模型(MLM)将相似度矩阵
Figure BDA0003534012550000086
随机选择15%的字词,这些被选中的字词有80%的概率被替换成“[MASK]”令牌,10%的概率被随机字词取代,还有10%的概率使用原字词。然后,该模型试图根据序列中其他非蒙版单词提供的上下文来预测蒙版单词的原始值。最后每一行进行softmax回归。即对SimBERT模型而言,将batch内所有的非相似样本作为负样本,借助softmax来增加相似样本的相似度,降低其余样本的相似度。
在一种实施方式中,步骤S3包括:
对进行数据增强后的数据进行数据集进行划分,划分为短短文本匹配、短长文本匹配和长长文本匹配三大类文件,三大类文件内部按照预设比例划分为训练集、验证集以及测试集;
对划分后的数据集文本使用jieba分词进行分词,根据常用停顿词表,对文本去除停顿词。
具体来说,预设比例可以根据需要设置,例如7:2:1,划分后的数据集以txt文件格式进行保存。
在一种实施方式中,步骤S4中预训练文本匹配模型采用预训练的Roformer模型。
采用谷歌开源的Roformer模型中已训练的数据,用于本申请训练模型,减少本申请所需的训练数据与训练用时。
在一种实施方式中,Roformer模型包括嵌入层、位置编码层、多头注意力层、前馈神经网络层、交互注意力层和预测层,其中,嵌入层用于对第一文本和第二文本进行文本向量化表示,位置编码层用于对嵌入层得到文本向量化表示进行相对位置编码,多头注意力层用于根据相对位置编码的结果进行注意力计算,前馈神经网络层用于对多头注意力层的结果进行线性变换,交互注意力层用于对文本数据进行多层次的信息交互,预测层用于根据交互注意力层的结果得到匹配结果。
在一种实施方式中,多层多头注意力层和前馈神经网络层的周围都具有求和层和条件归一化层。
具体来说,预训练的文本匹配模型,采用DSSM为基础架构,结合旋转式位置编码ROPE(Rotary Position Embedding)的Roformer模型,配合Attention注意力机制,将待匹配的文本以绝对位置编码的方式实现相对位置编码,利用Roformer的多层编码器对文本数据对进行多层次交互。
在Roformer的归一化层(Layer Norm)改用条件归一化层(Conditional LayerNormalization,CLN),根据不同长度的维修主题条件输入c,动态生成控制模型输出结果规模的缩放参数γ和偏移参数β,实现使用同一模型处理短短匹配、短长匹配和长长匹配的多任务需求,多任务之间共享一部分参数;条件归一化过程如下:
Figure BDA0003534012550000101
Figure BDA0003534012550000102
Figure BDA0003534012550000103
其中,
Figure BDA0003534012550000104
为输入向量,h为单层所含有的隐藏单元,i为第i个隐藏单元,
Figure BDA0003534012550000105
为基于单层计算的样本均值,
Figure BDA0003534012550000106
为单层计算的样本方差,ε为避免除零错误常数,
Figure BDA0003534012550000107
为归一化输出将输入向量归一化到均值为0,方差为一的标准正态分布。γ(c)和β(c)是关于条件c作为输入的神经网络变换缩放参数和偏移参数。
第一文本和第二文本构成的数据对为第一文本、第二文本数据对正负样本,包括:(1)第一文本为最终数据集Dfinal中的维修主题,第二文本为同一维修文本的维修目的,第一文本与第二文本组成的文本匹配正样本;(2)第一文本为最终数据集Dfinal中的维修主题,第二文本为不同维修文本的维修目的,第一文本与第二文本组成的文本匹配负样本。
在一种实施方式中,嵌入层采用BERT模型,预测层包括最大池化、全连接层和softmax层,步骤S4包括:
S401:采用BERT模型分别对第一文本和第二文本进行文本向量化表示,得到嵌入矩阵A和嵌入矩阵B;
S402:通过位置编码层将嵌入矩阵A和嵌入矩阵B进行相对位置编码,得到第一向量和第二向量;
S403:对编码后获得的数值化第一向量和第二向量,通过Roformer模型的多头注意力层进行注意力计算、前馈神经网络层进行线性变换;
S404:通过Roformer的交互注意力层,对第一向量和第二向量之间进行信息交互,获得丰富的上下文信息和交互信息,得到包含两个文本多层次交互信息的第一交互矩阵和第二交互矩阵;
S405:对第一交互矩阵和第二交互矩阵分别进行最大池化操作,得到降维压缩后的第一预测向量和第二预测向量并计算第一预测向量和第一预测向量之间的匹配结果
Figure BDA0003534012550000111
其中,v1和v2分别为第一预测向量和第一预测向量,对应第一文本和第二文本,
Figure BDA0003534012550000112
表示v1和v2对应元素逐个相乘,强调两个文本之间相同之处,|v1-v2|表示v1和v2对应元素逐个相减,强调两个文本之间不同之处,F表示将获取的四个向量拼接,再输入到全连接层,最终通过分类器softmax输出匹配权重矩阵。
具体实施过程中,S401中采用的BERT模型相对于其他模型的向量化表示而言,能够解决一词多义的问题,采用BERT-Base中文模型,此模型有12个transformer编码层,每个transformer编码层有12个注意力头,隐藏层维度为768,最终得到嵌入矩阵A和嵌入矩阵B。
S402结合旋转式位置编码ROPE的Roformer模型将嵌入矩阵A和嵌入矩阵B以绝对位置编码的方式实现相对位置编码,得到第一向量和第二向量,用于后续模型计算,即,第一向量和第二向量构成后续的输入矩阵。
S403,对编码后获得的数值化第一向量和第二向量(构成输入矩阵X),分别经过Roformer的多层多头注意力层和前馈神经网络层,其中,多层多头注意力层和前馈神经网络层的周围都有求和层和条件归一化层;输入矩阵的维度为L×E,其中L为最大序列长度,E为向量的维数,维数为768。Roformer编码器的计算过程为:
(1)自注意力层依据输入矩阵X和权重矩阵
Figure BDA0003534012550000113
各自计算查询矩阵Q,键矩阵K以及值矩阵V。
Figure BDA0003534012550000114
Figure BDA0003534012550000115
Figure BDA0003534012550000116
(2)计算自注意力层的输出矩阵为Z
Figure BDA0003534012550000117
其中Q是一个包含查询的矩阵,表示了序列中每一个单词的矢量,K是所有单词的矢量表示,V是值矩阵,也是序列中所有单词的矢量表示。对于编码器和解码器、多头注意力模块,V由与Q具有相同的单词序列组成。然而,对于考虑编码器和解码器序列的注意模块,V与Q表示的序列不同。
(3)多头自注意力层的输出矩阵Zmul
Zmul=Concat(Zi)WO,i=0,1,…,H-1
其中H表示力头数,Zi为第(i+1)个注意力头,Concat函数表达将H个注意力头拼接起来,WO表示附加权重矩阵,Zmul与X的维度相同。
(4)接下来进行求和和条件层归一化
Zmul=LN(Zmul+X)
LN函数表示条件层归一化,再将Zmul传递給前馈神经网络之后再次进行求和与条件层归一化,前馈网络对每个位置都有相同的参数,为每个元素与给定序列进行了单独的线性变换。
S404,通过Roformer的交互注意力层,对第一向量和第二向量之间进行信息交互,依据编码器的数量可进行多层次的信息交互,获得丰富的上下文信息和交互信息,得到包含两个文本多层次交互信息的第一交互矩阵AS×E和第二交互矩阵BS×E,将其输入到条件归一化层中进一步嵌入编码。
S405使用第一预测向量v1和第二预测向量v2分别代表第一文本和第二文本。
具体实施过程中,步骤S5中,将用户查询的维修主题输入到文本匹配模型中,返回给用户相匹配的维修经验文档,包括:
将用户输入的待查询维修主题采用jieba分词进行分词,对文本去除停顿词,再使用BERT模型对文本进行向量化表示,得到待查询维修主题文本向量,然后采用cos余弦相似度算法计算待查询维修主题文本向量与步骤S4生成的文本数据对间的匹配权重矩阵计算出余弦值,取值范围为[0,1],所得余弦值越大代表待查询维修主题与已有的标准维修主题空间距离越近匹配度越高,将余弦值最大的前五个对应的历史维修文档返回給用户。
相似度阈值可以根据实际情况选取,例如0.5、0.7、0.8等等。
在一种实施方式中,所述方法还包括步骤S6:根据对推荐的核电站维修经验文档匹配度的反馈,优化文本匹配模型。
在一种实施方式中,步骤S6包括:
获取用户对返回的维修文档是否符合查询的维修主题的反馈结果,其中,反馈结果包括返回的维修文档与查询的维修主题相关和不相关,
如果反馈结果为不相关,则将查询维修主题与匹配的标准维修主题作为负样本,重复执行步骤S3步骤S4对匹配权重矩阵进行更新,根据更新后的匹配权重矩阵对文本匹配模型进行优化。
具体来说,根据工作人员对推荐的核电站维修经验文档匹配度判断反馈,更新检索历史,对于维修主题与维修目的之间的文本匹配度进行改进,对于维修主题的一词多义问题进一步的学习,进而优化文本匹配模型。
对步骤S5返回給用户的历史维修文档,用户进行点击反馈判定本申请的文本匹配模型匹配的历史维修文档是否符合本次查询的维修主题,若判定为不相关,则将此次查询维修主题与本次匹配的标准维修主题作为负样本,重复步骤S3步骤S4来更新权重矩阵,从而优化文本匹配模型,反之则不需要优化。
以下结合说明书附图和具体优选的实施例对本发明做进一步描述,但并不因此而限制本发明的保护范围。
如图1所示,本实例基于预训练模型的核电站维修经验文本匹配方法的步骤包括:
步骤S1:获取用户查询的维修主题,并对核电站维修文档非结构化数据进行清洗,得到标准维修主题和标准维修目的,组成原始数据集Doriginal
步骤S2:在原始数据集Doriginal的基础上,对数据进行增强,得到包含第一文本、第二文本数据对的最终的数据集Dfinal
步骤S3:在最终数据集Dfinal上构建多任务的训练集、验证集和测试集,并对数据进一步分词处理;
步骤S4:通过预训练文本匹配模型对第一文本、第二文本数据对进行语义特征提取,生成文本数据间包含多层次交互信息的匹配权重矩阵;
步骤S5:将用户查询的维修主题输入到文本匹配模型中,模型对维修经验主题进行语义分析,进而给出相匹配关联的维修经验文档;
步骤S6:根据工作人员对推荐的核电站维修经验文档匹配度判断反馈,更新检索历史,对于维修主题与维修目的之间的文本匹配度进行改进,对于维修主题的一词多义问题进一步的学习,进而优化文本匹配模型。
本实施实例基于文本匹配的理论框架,以核电站维修经验文本为例,展示了一种基于预训练模型的文本匹配方法,在具体实施实例中,对于步骤S1,得到标准维修主题和标准维修目的,组成原始数据集Doriginal,例:
(1):{"source":"MASH主盘车报警排查处理方案","target":"主控存在MASH主盘车故障报警,为彻底排查故障原因并解决问题,编制本方案,指导现场排查处理工作。","id":"ltt1_a"}
(2){"source":"轴流风机解体大修","target":"本规程适用于核电4、7、9号机组轴流风机解体维修工作。轴流风机主要类型是:穿墙轴流风机、屋顶轴流风机、应急柴油机散热器轴流风机、变压器散热器轴流风机、安装在风管内部的轴流风机。工作主要内容包括风机解体检查、清扫、电气试验以及回装等。","id":"ltt2_a"}
其中“source”为维修主题标签,“target”为维修目的标签。
如图2所示,在具体实施实例中,采用SimBERT模型的相似句子生成训练方式包括:
S201.在SimBERT的训练中,对清洗后的数据集中相似句对的不同句子以[SEP]标识符隔开,将[CLS]SENT_a[SEP]SENT_b[SEP]和[CLS]SENT_b[SEP]SENT_a[SEP]加入训练
S202.在S201的基础上,运用特殊的注意力掩码Attention MASK方式,即在[SEP]前半部分句子中每个tokens之间做双向Attention,后半句的tokens间做单向Attention操作,模型可以递归预测后半句,从而达到相似句生成的能力。
如图3所示,在具体实施实例中,本实例采用生成匹配权重矩阵的模型图,步骤如下:
S401,采用BERT模型分别对第一文本和第二文本进行文本向量化表示,得到嵌入矩阵A和嵌入矩阵B;
S402,结合旋转式位置编码ROPE的Roformer模型,将嵌入矩阵A和嵌入矩阵B以绝对位置编码的方式实现相对位置编码,得到第一向量和第二向量;
S403,对编码后的第一向量和第二向量,分别经过Roformer的多层多头注意力层和前馈神经网络层,其中多层多头注意力层和前馈神经网络层的周围都有求和层和条件归一化层;
S404,通过Roformer的交互注意力层,对第一向量和第二向量之间进行信息交互,依据编码器的数量可进行多层次的信息交互,获得丰富的上下文信息和交互信息,得到第一交互矩阵AS×E和第二交互矩阵BS×E
S405,对第一交互矩阵和第二交互矩阵分别进行最大池化操作,得到第一预测向量v1和第二预测向量v2,计算第一预测向量和第一预测向量之间的匹配结果
Figure BDA0003534012550000151
F表示将获取的四个向量拼接,输入到全连接层,最终通过分类器softmax输出匹配权重矩阵。
如图4所示,在具体实施实例中,本实例采用结合旋转式位置编码ROPE的Roformer模型,结构如下:
Roformer模型可大致分为嵌入层、位置编码层、多头注意力层、前馈神经网络层、交互注意力层和预测层。
优选的,本发明中的位置编码层采用了旋转式位置编码ROPE编码的方式,以绝对位置编码的方式实现相对位置编码,本发明中的多头注意力层由多头注意力Attention机制组成,所采用的多层多头注意力层中,设置的编码层数为2,注意力“头数”为2,隐藏层维数768,多头注意力的dropout为0.1,模型优化器为Adam,批大小batch-size为512。
如图5所示,在具体实施实例中,为了进一步优化文本匹配模型,步骤如下:将用户输入的待查询维修主题jieba工具库分词,对文本去除停顿词,再使用BERT模型对文本进行向量化表示,用cos余弦相似度算法计算待查询维修主题文本向量与步骤S4生成的文本数据对间的匹配权重矩阵计算出余弦值,取值范围为[0,1],所得余弦值越大代表待查询维修主题与已有的标准维修主题空间距离越近匹配度越高,将余弦值最大的前五个对应的历史维修文档返回給用户。对返回給用户的历史维修文档,用户进行点击反馈判定本申请的文本匹配模型匹配的历史维修文档是否符合本次查询的维修主题,若判定为不相关,则将此次查询维修主题与本次匹配的标准维修主题作为负样本,重复步骤S3和步骤S4的操作来更新权重矩阵,优化文本匹配模型,反之则不需要优化。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于预训练模型的核电站维修经验文本匹配方法,其特征在于,包括:
S1:获取用户查询的维修主题,对核电站维修文档非结构化数据进行清洗,得到标准维修主题和标准维修目的,组成原始数据集;
S2:在原始数据集的基础上,对数据进行增强,得到最终数据集,最终数据集中包含由第一文本和第二文本构成的数据对;
S3:在最终数据集上构建多任务的训练集、验证集和测试集,并对构建的数据集进行分词处理,多任务包括短短匹配、短长匹配、长长匹配三大类的语义匹配任务;
S4:通过预训练文本匹配模型对最终数据集中由第一文本和第二文本组成的数据对进行语义特征提取,生成文本数据对间的匹配权重矩阵,匹配权重矩阵包含多层次交互信息,预训练文本匹配模型为基于Roformer的预训练模型;
S5:将用户查询的维修主题输入到预训练文本匹配模型中,获得待查询维修主题文本向量,根据待查询维修主题文本向量与步骤S4生成的文本数据对间的匹配权重矩阵之间的相似度,获取相似度高于相似度阈值的维修主题,并将相似度高于相似度阈值的维修主题对应的维修文档返回给用户。
2.如权利要求1所述的基于预训练模型的核电站维修经验文本匹配方法,其特征在于,步骤S1包括:
S101:获取用户查询的维修主题;
S102:将不同类型的核电站维修文档文件转换为统一的核电站维修结构化数据;
S103:对S102得到的核电站维修结构化数据利用正则过滤原则提取有效内容,得到初步有效的维修关键数据;
S104:对S103中初步有效的维修关键数据进行语料清洗和过滤,得到结构化核电站维修文档有效数据,组成原始数据集,所述结构化核电站维修文档有效数据的结构为一个核电站维修主题对应一个维修目的。
3.如权利要求1所述的基于预训练模型的核电站维修经验文本匹配方法,其特征在于,S2中采用的数据增强策略包括基于规则的EDA增强数据方法、基于SimBERT模型的方法。
4.如权利要求1所述的基于预训练模型的核电站维修经验文本匹配方法,其特征在于,步骤S3包括:
对进行数据增强后的数据进行数据集进行划分,划分为短短文本匹配、短长文本匹配和长长文本匹配三大类文件,三大类文件内部按照预设比例划分为训练集、验证集以及测试集;
对划分后的数据集文本使用jieba分词进行分词,根据常用停顿词表,对文本去除停顿词。
5.如权利要求1所述的基于预训练模型的核电站维修经验文本匹配方法,其特征在于,步骤S4中预训练文本匹配模型采用预训练的Roformer模型。
6.如权利要求5所述的基于预训练模型的核电站维修经验文本匹配方法,其特征在于,Roformer模型包括嵌入层、位置编码层、多头注意力层、前馈神经网络层、交互注意力层和预测层,其中,嵌入层用于对第一文本和第二文本进行文本向量化表示,位置编码层用于对嵌入层得到文本向量化表示进行相对位置编码,多头注意力层用于根据相对位置编码的结果进行注意力计算,前馈神经网络层用于对多头注意力层的结果进行线性变换,交互注意力层用于对文本数据进行多层次的信息交互,预测层用于根据交互注意力层的结果得到匹配结果。
7.如权利要求6所述的基于预训练模型的核电站维修经验文本匹配方法,其特征在于,多层多头注意力层和前馈神经网络层的周围都具有求和层和条件归一化层。
8.如权利要求6所述的基于预训练模型的核电站维修经验文本匹配方法,其特征在于,嵌入层采用BERT模型,预测层包括最大池化、全连接层和softmax层,步骤S4包括:
S401:采用BERT模型分别对第一文本和第二文本进行文本向量化表示,得到嵌入矩阵A和嵌入矩阵B;
S402:通过位置编码层将嵌入矩阵A和嵌入矩阵B进行相对位置编码,得到第一向量和第二向量;
S403:对编码后获得的数值化第一向量和第二向量,通过Roformer模型的多头注意力层进行注意力计算、前馈神经网络层进行线性变换;
S404:通过Roformer的交互注意力层,对第一向量和第二向量之间进行信息交互,获得丰富的上下文信息和交互信息,得到包含两个文本多层次交互信息的第一交互矩阵和第二交互矩阵;
S405:对第一交互矩阵和第二交互矩阵分别进行最大池化操作,得到降维压缩后的第一预测向量和第二预测向量并计算第一预测向量和第一预测向量之间的匹配结果
Figure FDA0003534012540000031
其中,v1和v2分别为第一预测向量和第一预测向量,对应第一文本和第二文本,
Figure FDA0003534012540000032
表示v1和v2对应元素逐个相乘,强调两个文本之间相同之处,|v1-v2|表示v1和v2对应元素逐个相减,强调两个文本之间不同之处,F表示将获取的四个向量拼接,再输入到全连接层,最终通过分类器softmax输出匹配权重矩阵。
9.如权利要求1所述的基于预训练模型的核电站维修经验文本匹配方法,其特征在于,所述方法还包括步骤S6:根据对推荐的核电站维修经验文档匹配度的反馈,优化文本匹配模型。
10.如权利要求9所述的基于预训练模型的核电站维修经验文本匹配方法,其特征在于,步骤S6包括:
获取用户对返回的维修文档是否符合查询的维修主题的反馈结果,其中,反馈结果包括返回的维修文档与查询的维修主题相关和不相关,
如果反馈结果为不相关,则将查询维修主题与匹配的标准维修主题作为负样本,重复执行步骤S3步骤S4对匹配权重矩阵进行更新,根据更新后的匹配权重矩阵对文本匹配模型进行优化。
CN202210214810.1A 2022-03-07 2022-03-07 一种基于预训练模型的核电站维修经验文本匹配方法 Pending CN114925157A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210214810.1A CN114925157A (zh) 2022-03-07 2022-03-07 一种基于预训练模型的核电站维修经验文本匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210214810.1A CN114925157A (zh) 2022-03-07 2022-03-07 一种基于预训练模型的核电站维修经验文本匹配方法

Publications (1)

Publication Number Publication Date
CN114925157A true CN114925157A (zh) 2022-08-19

Family

ID=82805348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210214810.1A Pending CN114925157A (zh) 2022-03-07 2022-03-07 一种基于预训练模型的核电站维修经验文本匹配方法

Country Status (1)

Country Link
CN (1) CN114925157A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116186562A (zh) * 2023-04-27 2023-05-30 中南大学 基于编码器的长文本匹配方法
CN116934024A (zh) * 2023-07-18 2023-10-24 江苏德劭信息科技有限公司 一种基于行动策略生成的电力检修单兵装备工作方法
CN117115788A (zh) * 2023-10-19 2023-11-24 天津所托瑞安汽车科技有限公司 车用智能交互方法、后端服务器及前端设备
CN117540009A (zh) * 2024-01-09 2024-02-09 江西省科学院能源研究所 一种基于增强预训练文本匹配模型的文本匹配方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116186562A (zh) * 2023-04-27 2023-05-30 中南大学 基于编码器的长文本匹配方法
CN116934024A (zh) * 2023-07-18 2023-10-24 江苏德劭信息科技有限公司 一种基于行动策略生成的电力检修单兵装备工作方法
CN117115788A (zh) * 2023-10-19 2023-11-24 天津所托瑞安汽车科技有限公司 车用智能交互方法、后端服务器及前端设备
CN117115788B (zh) * 2023-10-19 2024-01-02 天津所托瑞安汽车科技有限公司 车用智能交互方法、后端服务器及前端设备
CN117540009A (zh) * 2024-01-09 2024-02-09 江西省科学院能源研究所 一种基于增强预训练文本匹配模型的文本匹配方法
CN117540009B (zh) * 2024-01-09 2024-03-26 江西省科学院能源研究所 一种基于增强预训练文本匹配模型的文本匹配方法

Similar Documents

Publication Publication Date Title
CN112307218B (zh) 基于知识图谱的智能电厂典型设备故障诊断知识库构建方法
CN107818138B (zh) 一种案件法律条例推荐方法及系统
CN111382565B (zh) 基于多标签的情绪-原因对抽取方法及系统
CN114925157A (zh) 一种基于预训练模型的核电站维修经验文本匹配方法
CN113011189A (zh) 开放式实体关系的抽取方法、装置、设备及存储介质
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
JP7139626B2 (ja) フレーズ生成関係性推定モデル学習装置、フレーズ生成装置、方法、及びプログラム
CN111339249B (zh) 一种联合多角度特征的深度智能文本匹配方法和装置
CN112883286A (zh) 基于bert的新冠肺炎疫情微博情感分析方法、设备、介质
CN111400492A (zh) 基于sfm-dcnn的层次特征文本分类方法和系统
CN113505583A (zh) 基于语义决策图神经网络的情感原因子句对提取方法
CN112463924A (zh) 面向智能问答基于内部相关性编码的文本意图匹配方法
CN116050352A (zh) 文本编码方法和装置、计算机设备及存储介质
CN117421595A (zh) 一种基于深度学习技术的系统日志异常检测方法及系统
CN112559741A (zh) 核电设备缺陷记录文本分类方法、系统、介质及电子设备
CN117009516A (zh) 换流站故障策略模型训练方法、推送方法及装置
CN116522165A (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN114580738B (zh) 一种社交媒体危机事件预测方法及系统
CN113705241B (zh) 面向高考咨询基于多视角注意力的智能语义匹配方法与装置
CN113342964B (zh) 一种基于移动业务的推荐类型确定方法及系统
CN115270746A (zh) 问题样本生成方法和装置、电子设备及存储介质
CN114298052A (zh) 一种基于概率图的实体联合标注关系抽取方法和系统
CN111199170B (zh) 配方文件识别方法及装置、电子设备、存储介质
CN117910460B (zh) 一种基于bge模型的电力科研知识关联性构建方法及系统
CN115455155B (zh) 一种政务文本的主题信息提取方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination