CN114881003A - 一种文本相似度识别方法、装置及应用 - Google Patents

一种文本相似度识别方法、装置及应用 Download PDF

Info

Publication number
CN114881003A
CN114881003A CN202210640094.3A CN202210640094A CN114881003A CN 114881003 A CN114881003 A CN 114881003A CN 202210640094 A CN202210640094 A CN 202210640094A CN 114881003 A CN114881003 A CN 114881003A
Authority
CN
China
Prior art keywords
text
texts
similarity
recognized
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210640094.3A
Other languages
English (en)
Inventor
毛云青
葛俊
王国梁
曹喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCI China Co Ltd
Original Assignee
CCI China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCI China Co Ltd filed Critical CCI China Co Ltd
Priority to CN202210640094.3A priority Critical patent/CN114881003A/zh
Publication of CN114881003A publication Critical patent/CN114881003A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种判断文本相似度的方法,基于预训练模型构建算法模型,采用主辅学习的方法进行学习;在所述算法模型的自注意计算过程中引入关键词掩码矩阵,关键词掩码矩阵和注意力权值矩阵求和后得到权值矩阵,提高关键词在句子中的注意力,得到文本的词汇权值,采用基于词汇权值的词匹配方法来计算两个句子的文本相似度,并依据短句与长句的比值进行排序,本方案不会因为句子描述长短的问题存在排序偏差,可以提高句子向量在相似度计算过程中的准确率。

Description

一种文本相似度识别方法、装置及应用
技术领域
本申请涉及数据处理领域,特别是涉及一种文本相似度识别方法、装置及应用。
背景技术
预训练模型是指在一个原始任务上预先训练一个初始模型,然后在目标任务上使用该模型,针对目标任务的特性,对该初始模型进行精调,从而达到提高目标任务的目的,在本质上,这是一种迁移学习的方法,在自己的目标任务上使用别人训练好的模型,对于文本语言来说,是有天然的标注特征存在的,原因就在于文本可以根据之前的输入词语进行预测,而且文本大多数是有很多词语,所以就可以构成很大的预训练数据,进而可以自监督(不是无监督,因为词语学习过程是依据之前词语的输出的,所以是自监督学习)的预训练。
在对文本数据处理的过程中,往往它的事件来源较多、数据量较大、内容表述杂乱,在分析处理的过程中,往往有挖掘出描述事件一致的案件文本数据的需求,通过文本处理算法挖掘出事件一致的文本并按照轻、重、缓、急进行分级治理,可以有效提高对大量文本数据快速处理的能力。
语义相似度算法是解决这一类问题的常用方法,然而这类算法更侧重解决文本之间语义上的理解能力,但是仅依靠语义分析的手段挖掘描述事件一致的案件并不能很好的解决该问题,例如:以城市治理领域为例,在城市治理中由于上报人描述事件的习惯不同,有的人喜欢言简意赅的描述一个案件,有的上报人则习惯详细的描述问题,长短句子之间计算相似度时语义分析很容易失败,这就给挖掘描述事件一致的案件任务带来极大的挑战,此外,描述较长的案件句子中存在着大量的信息冗余,这种冗余信息会影响模型对于句子主要内容的分析,这也是影响算法准确率的关键问题。
发明内容
本申请实施例提供了一种文本相似度识别方法,其特征在于获取至少两待识别文本,将至少两所述待识别文本输入已训练得到的算法模型中得到识别结果,基于所述识别结果计算所述待识别文本的相似度。
第一方面,本申请实施例提供了一种文本相似度识别方法,所述方法包括:获取至少两待识别文本,将至少两所述待识别文本输入已训练得到的算法模型中得到识别结果,基于所述识别结果判断所述待识别文本的相似度;
其中所述算法模型的构建过程如下:
获取训练样本:获取由至少两相似文本组成的文本数据对作为主任务训练样本,并提取每一所述相似文本的关键词及关键词在所述相似句子的关键词位置作为辅助任务训练样本;
将所述训练样本输入算法模型中进行训练,所述训练样本输入算法模型的roberta预训练模型中得到输出特征,所述输出特征作为句子向量,且所述输出特征全连接后经过全局池化处理并结合sigmoid函数得到词汇权值;所述输出特征全连接后通过分类处理后得到关键词位置,所述关键词位置、所述词汇权值和所述句子向量作为识别结果输出;其中所述roberta预训练模型的每一层特征提取层的自注意计算机制中增加关键词掩码矩阵,所述主任务训练样本输入到所述自注意力机制中输出注意力权值矩阵,所述关键词掩码矩阵由所述辅助任务训练样本转换得到,所述注意力权值矩阵和所述关键词掩码矩阵融合得到权值矩阵。
第二方面,本申请实施例提供了一种文本相似度识别装置,包括:
获取模块:获取由至少两相似文本组成的文本数据对作为主任务训练样本,并提取每一所述相似文本的关键词及关键词在所述相似句子的关键词位置作为辅助任务训练样本;
计算模块:将至少两所述待识别文本输入已训练得到的算法模型中得到识别结果,基于所述识别结果计算所述待识别文本的相似度。
第三方面,本申请实施例提供了一种基于文本相似度判断同事件的装置,包括:
获取模块:获取由至少两相似文本组成的文本数据对作为主任务训练样本,并提取每一所述相似文本的关键词及关键词在所述相似句子的关键词位置作为辅助任务训练样本;
计算模块:将至少两所述待识别文本输入已训练得到的算法模型中得到识别结果,基于所述识别结果计算所述待识别文本的相似度。
判断模块:自所述待识别文本中选定基准文本,基于和所述基准文本的相似度自高至低排序其他待识别文本,所述待识别文本选自同一来源地址;或者选择和所述基准文本来自于同一来源地址的排序靠前的所述待识别文本作为同事件文本。
第四方面,本申请实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行一种基于文本相似度判断同事件的方法。
第五方面,本申请实施例提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,以执行一种基于文本相似度判断同事件的方法。
本发明的主要贡献和创新点如下:
本发明提供了一种文本相似度识别方法、装置及应用基于文本相似度判断同事件的方法,其特征在于,采用主辅学习的方法,基于roberta预训练模型构建算法模型,采用主辅学习的方法:主学习任务是进行句子向量表达学习,辅助学习则是利用模型学习识别句子中关键词;在所述算法模型的自注意计算过程中引入关键词掩码矩阵,关键词掩码矩阵和注意力权值矩阵求和后得到权值矩阵,提高关键词在句子中的注意力,同时对训练过程中特征向量之间进行正则规范并预测文本中的关键词汇位置,且不同于以往在神经网络中通过增加各种计算的形式获取句子注意力的方式,该掩码矩阵方法操作简单,计算量小。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种文本相似度识别方法的方法流程图;
图2是根据本申请实施例的搭建的一种文本相似度识别算法模型的模型结构图;
图3是根据本申请实施例的数据增强的打乱词序向量的示意图;
图4是根据本申请实施例的结合关键词掩码矩阵的自注意力计算机制的结构示意图;
图5是根据本申请实施例的编码器层和解码器层的连接关系;
图6是根据本申请实施例的一种基于文本相似度判断同事件的判断方法的流程示意图;
图7是根据本申请实施例的一种文本相似度识别装置的结构框图;
图8是根据本申请实施例的一种基于文本相似度判断同事件装置的结构框图;
图9是根据本申请实施例的电子装置的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
为了方便理解本案,首先介绍本方案涉及的名词:
Roberta模型:Roberta模型是BERT的改进版,与BERT相比,在模型规模、算力和数据上有更大的模型参数量、更大的batch size和更多的训练数据;在训练方法上,BERT依赖掩码和预测token,原版的BERT实现在数据预处理期间执行一次掩码,得到一个静态掩码,而Roberta使用了动态掩码,每次向模型输入一个序列时都会生成新的掩码模式,这样,在大量数据不断输入的过程中,模型会逐渐适应不同的掩码策略,学习不同的语言表征;Roberta建立在BERT的语言掩蔽策略的基础上,修改BERT中的关键超参数,包括删除BERT的下一个句子训练前目标,以及使用更大的batch size和学习率进行训练,Roberta也接收了比BERT多一个数量级的训练,时间更长,这使得Roberta表示能够比BERT更好的推广下游任务。
实施例一
本申请旨在提出一种文本相似度识别方法,如图1所示,包括以下步骤:
获取至少两待识别文本,将至少两所述待识别文本输入已训练得到的算法模型中得到识别结果,基于所述识别结果判断所述待识别文本的相似度。
在一些实施例中,所述文本相似度识别算法模型的模型结构图如图2所示,
其中所述算法模型的构建过程如下:
获取训练样本:获取由至少两相似文本组成的文本数据对作为主任务训练样本,并提取每一所述相似文本的关键词及关键词在所述相似句子的关键词位置作为辅助任务训练样本;
将所述训练样本输入算法模型中进行训练,所述训练样本输入算法模型的roberta预训练模型中得到输出特征,所述输出特征作为句子向量,且所述输出特征全连接后经过全局池化处理并结合sigmoid函数得到词汇权值;所述输出特征全连接后通过分类处理后得到关键词位置,所述关键词位置、所述词汇权值和所述句子向量作为识别结果输出;其中所述roberta预训练模型的每一层特征提取层的自注意计算机制中增加关键词掩码矩阵,所述主任务训练样本输入到所述自注意力机制中输出注意力权值矩阵,所述关键词掩码矩阵由所述辅助任务训练样本转换得到,所述注意力权值矩阵和所述关键词掩码矩阵融合得到所述特征提取层的输出向量。
在“获取训练样本”步骤中,获取由至少两相似文本组成的文本数据对作为主任务训练样本,并提取每一所述相似文本的关键词及关键词在所述相似句子的关键词位置作为辅助任务训练样本。
具体的,本方案通过将所述主任务训练样本和辅助任务训练样本相结合的方式来对所述算法模型进行训练,所述主任务训练样本训练所述算法模型进行句子向量表达的能力,所述辅助任务训练模型训练所述算法模型识别句子中关键词汇的能力。
具体的,获取至少两相似文本,对每一所述相似文本去除停用词后提取关键词,并记录关键词的位置信息,将至少两相似文本组成文本数据对。
具体的,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据文本之前或之后自动过滤掉的某些字或词,这些字或词被称为停用词,在本方案中,处理每一所述相似文本之前要先去除停用词,如:啊、哎、按照、本着等词语。
示例性的,将至少两相似文本组成文本数据对,所述文本数据对的表示形式为{source:p1,target:p2},source字段数据p1为源文本数据,target字段表示为与source数据相似的文本数据,若两相似文本的相似度高的话,该文本数据对作为正样本对,相反地,若两相似文本的相似度低的话,该文本数据对作为负样本对。
另外,可人为地对所述关键词的位置信息进行校验,确认所述关键词及其位置信息是否正确,对错误信息进行修改,以确保输入到所述roberta预训练模型中的信息正确,提高句子向量在相似度计算过程中准确率。
在“将所述训练样本输入到算法模型进行训练”步骤中,输入的是所述训练样本编码后的词嵌入向量、字向量、位置编码向量,词嵌入向量是将每个所述训练样本中提取出的所述关键词用向量进行表示,字向量是将每个所述训练样本中的字用向量进行标识,位置编码向量是将所述训练样本中的关键字位置信息和字位置信息用向量进行标识。
在一些实施例中,所述算法模型采用对比学习的方式进行数据特征的学习。
具体的,选择相似高的文本数据对作为训练的正样本,选择相似度低的文本数据对作为训练的负样本,正样本和负样本输入到roberta预训练模型进行对比学习,对比学习的训练数据采用的是dropout操作输出的训练数据的文本向量,每个所述训练数据和所述训练数据的同事件经过两次dropout后输出的训练数据的文本向量作为该次训练的正样本,同批次内的其他训练数据的文本向量作为负样本,并且采用对抗学习的方式给训练数据的文本向量增加一定的噪声干扰。
具体的,dropout是一种随机按照一定比例丢弃神经元信息的操作,通过该操作使得生成的训练数据的文本向量存在细微不同但是又不影响向量对于原文本的表达,对抗学习是将对抗样本按照比例掺入训练样本集中,在新的训练样本集上训练得到的模型不再使用不鲁棒的特征,从而会使得模型的鲁棒性更强。
具体的,鲁棒性指的是一个系统或组织有抵御或克服不利条件的能力,在本方案中,鲁棒性可以理解为所述算法模型对数据变化的容忍度有多高。
在一些实施例中,对训练过程中的向量特征进行正则规范。
具体的,对训练过程中的向量特征进行正则规范的目的是保证对比学习过程中相似文本经过dropout操作后的向量特征间的距离尽可能的接近。
在一些实施例中,对所述训练样本进行数据增强。
具体地,为了增加训练样本的数据量,对训练样本进行数据增强操作,但考虑到本方案采用的是对比学习的方式,故需要保证训练样本不能有太大的语义变化,此时,本方案对训练样本进行数据增强包括步骤:
在至少一相似文本的关键词位置后的位置内插入相同的关键词,得到增强的辅助任务训练样本;对至少一相似文本进行字向量编码后,保持句首标志符、结尾标志符以及填充标志符在句向量中顺序不变,随机打乱所述相似文本的其他字向量的排序位置,得到新的主任务训练样本。
在一些实施例中,所述关键词掩码矩阵是根据关键词的位置信息给定的,在所述关键词掩码矩阵中关键词的位置信息参数值设置为1,其余位置信息参数值设置为0。
具体的,如图3所示,对“天气不错”这个句子进行数据增强,对所述句子进行字向量编码后,保持句首标志符“cls”、结尾标志符“sep”以及填充标志符“pad”位置在句向量中顺序不变,生成“不错气天”这个新句子,由于所述字向量已经在输入时就融合了位置编码的信息,打乱字向量并不会影响transformer对于上下文的推理。
如图5所示,本方案对所述roberta预训练模型进行了改进,本方案的所述roberta预训练模型性采用12个transformer的编码器层作为特征提取层,对应的,有12个解码器层作为特征输出层,每一个编码器层的输入是前一个编码器层的输出,最后一个编码器层的输出是第一个解码器层的输入,每一个小解码器层的输入是它的前一个解码器层的输出。
如图4所示,在每一所述transformer的编码器层的自注意计算机制中都增加一个所述关键词掩码矩阵,每一层都添加了关键词掩码矩阵后的自注意计算公式为:
Figure BDA0003683548950000081
其中,Q、K、V是输入所述待识别文本向量经过线性变换操作得到的自注意力公式的输入,d为Q、K、V的向量维度,用以维度上归一化Q*KT的值,防止经过softmax计算后的值太过离散化,影响注意力的实际分布效果,M为所述关键词掩码矩阵。
如图4所示,输入每一层特征提取层的向量进行不同层的线性变化分别得到第一特征向量,第二特征向量和第三特征向量;其中第一特征向量和第二特征向量的倒置矩阵点乘后被维度归一得到归一向量,所述归一向量和关键词掩码矩阵进行元素相加后并对相加后的特征值计算激活函数得到激活特征值,激活特征值和第三特征向量点乘得到该层特征输出层的输出向量。
在一些实施例中,预测所述训练样本中的关键词位置信息,通过计算预测的关键词位置信息与原训练样本的关键词位置信息的误差,来预测模型的损失。
具体的,所述算法模型的损失函数由关键词判别损失、对比学习的句向量的损失和同句子dropout的生成的不同向量之间的KL散度构成。
示例性的,用二元交叉熵来计算损失函数,其公式如下:
Figure BDA0003683548950000091
其中
Figure BDA0003683548950000092
表示交叉熵损失函数、
Figure BDA0003683548950000093
表示二元交叉熵,
Figure BDA0003683548950000094
表示KL散度。
值得一提的是,可以通过计算得出的所述损失函数的值来判断模型的好坏。
在一些实施例中,所述算法模型的三个输出结果中,其中一个输出结果是所述待识别文本的文本表示向量;另一个输出结果是利用全连接层通过全局池化结合sigmoid函数输出每个所述待识别文本的词汇的权值向量;最后一个输出结果是对所述待识别文本的输出特征经过全连接进行降维学习,再经过一个全连接分类器输出预测的待识别文本的关键词位置信息。
具体的,全连接层是一个比较特殊的结构,全连接层是连接卷积层和普通层的普通层,它将从父层(卷积层)那里得到的高维数据铺平以作为输入、进行一些非线性变换,然后将结果输进跟在它后面的各个普通层构成的系统中,在本方案中,全连接层起到全局池化和分类器的作用,通过所述全连接层的全局池化的作用结合sigmoid函数输出待识别文本的每个词汇的权值向量;通过所述全连接层的分类器的作用输出预测的待识别文本的关键词位置信息。
示例性的,由于通过余弦值计算向量相似度的方式进行相似语义的文本排序会因句子描述长短的问题存在一定的排序偏差,所以本方案的一些实施例通过采用词汇权值的词匹配方法来判断向量相似度。
在一些实施例中,采用词汇权值的词匹配方法来判断向量相似度,词汇权值为roberta预训练模型的最后隐藏层的输出特征,利用全连接层降到一维后结合sigmoid函数输出每个词汇的词汇权值;
对于给定的第一待识别文本Q,句子中每个词表示为{Q1,Q2,…,Qi},每个词的词汇权值表示为
Figure BDA0003683548950000101
向量相似度检索的第二识别文本T表示为{T1,T2,…,Tm},它的词权值
Figure BDA0003683548950000102
计算两个待识别文本的文本相似度,计算公式如下:
其中计算第一待识别文本Q相对于第二待识别文本T的文本相似度公式为:
Figure BDA0003683548950000103
计算第二待识别文本T相对于第一待识别文本Q的文本相似度公式为
Figure BDA0003683548950000104
最终综合衡量2个待识别文本的文本相似度,采用两者结合的方式:
sim=simq*simt
具体的,当计算长短句的相似度时,如果{短句Q:长句T}计算的相似度值比{长句T:短句Q}的相似度高时,最终将依据短句获取的相似度值进行排列顺序的调整。
具体的,计算所述待识别文本中的短句和长句的相对相似度,若短句相对长度的相似度大于长句相对短句的相对相似度高,则选用短句相对长度的相对相似度。
对应的,本方案提供一种基于文本相似度判断同事件的方法:
自所述待识别文本中选定基准文本,基于和所述基准文本的相似度自高至低排序其他待识别文本,选择排序靠前的所述待识别文本作为同事件文本。
在一些实施例中,所述待识别文本选自同一来源地址;或者选择和所述基准文本来自于同一来源地址的排序靠前的所述待识别文本作为同事件文本。
实施例二
基于相同的构思,本申请还提出了一种文本相似度识别装置,如图7所示,包括:
获取模块301:获取由至少两相似文本组成的文本数据对作为主任务训练样本,并提取每一所述相似文本的关键词及关键词在所述相似句子的关键词位置作为辅助任务训练样本;
计算模块302:将至少两所述待识别文本输入已训练得到的算法模型中得到识别结果,基于所述识别结果计算所述待识别文本的相似度。
值得一提的是,在判断文本相似度的装置的基础上,增加一个判断模块303,即可得到一种基于文本相似度判断同事件装置,如图8所示。
具体的,判断模块303:自所述待识别文本中选定基准文本,基于和所述基准文本的相似度自高至低排序其他待识别文本,所述待识别文本选自同一来源地址;或者选择和所述基准文本来自于同一来源地址的排序靠前的所述待识别文本作为同事件文本。
实施例三
本实施例还提供了一种电子装置,参考图9,包括存储器404和处理器402,该存储器404中存储有计算机程序,该处理器402被设置为运行计算机程序以执行上述任一项识别文本相似度实施例中的步骤。
具体地,上述处理器402可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecificIntegratedCircuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制,存储器404可包括硬盘驱动器(HardDiskDrive,简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器404可在数据处理装置的内部或外部。在特定实施例中,存储器404是非易失性(Non-Volatile)存储器。在特定实施例中,存储器404包括只读存储器(Read-OnlyMemory,简称为ROM)和随机存取存储器(RandomAccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory,简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory,简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory,简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory,简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器404(FastPageModeDynamicRandomAccessMemory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory,简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory,简称SDRAM)等。
存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器402所执行的可能的计算机程序指令。
处理器402通过读取并执行存储器404中存储的计算机程序指令,以实现上述实施例中的任意一种文本相似度识别方法。
可选地,上述电子装置还可以包括传输设备406以及输入输出设备408,其中,该传输设备406和上述处理器402连接,该输入输出设备408和上述处理器402连接。
传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备406可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
输入输出设备408用于输入或输出信息。在本实施例中,输入的信息可以是案件信息、编码后的词嵌入向量、字向量、位置编码向量等,输出的信息可以是文本表示向量、词汇权值、关键词起止位置索引、同事件的文本数据等。可选地,在本实施例中,上述处理器402可以被设置为通过计算机程序执行以下步骤:
S101、获取至少两待识别文本;
S102、至少两所述待识别文本输入已训练得到的算法模型中得到识别结果;
S103、基于所述识别结果判断判断待识别文本的相似度。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外,在这一点上,应当注意,如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (12)

1.一种文本相似度识别方法,其特征在于,包括以下步骤:
获取至少两待识别文本,将至少两所述待识别文本输入已训练得到的算法模型中得到识别结果,基于所述识别结果计算所述待识别文本的相似度;
其中所述算法模型的构建过程如下:
获取训练样本:获取由至少两相似文本组成的文本数据对作为主任务训练样本,并提取每一所述相似文本的关键词及关键词在所述相似文本的关键词位置作为辅助任务训练样本;
将所述训练样本输入算法模型中进行训练,所述训练样本输入算法模型的roberta预训练模型中得到输出特征,所述输出特征作为句子向量,且所述输出特征全连接后经过全局池化处理并结合sigmoid函数得到词汇权值;所述输出特征全连接后通过分类处理后得到关键词位置,所述关键词位置、所述词汇权值和所述句子向量作为识别结果输出;其中所述roberta预训练模型的每一层特征提取层的自注意计算机制中增加关键词掩码矩阵,所述主任务训练样本输入到所述自注意力机制中输出注意力权值矩阵,所述关键词掩码矩阵由所述辅助任务训练样本转换得到,所述注意力权值矩阵和所述关键词掩码矩阵融合得到所述特征提取层的输出向量。
2.根据权利要求1所述的文本相似度识别方法,其特征在于,在“获取训练样本”步骤中包括:对所述训练样本进行数据增强操作:在至少一相似文本的关键词位置后的位置内插入相同的关键词,得到增强的辅助任务训练样本;对至少一相似文本进行字向量编码后,保持句首标志符、结尾标志符以及填充标志符在句向量中顺序不变,随机打乱所述相似文本的其他字向量的排序位置,得到新的主任务训练样本。
3.根据权利要求1所述的文本相似度识别方法,其特征在于,所述关键词掩码矩阵是根据关键词的位置信息给定的,在所述关键词掩码矩阵中关键词的位置信息参数值设置为1,其余位置信息参数值设置为0。
4.根据权利要求1所述的文本相似度识别方法,其特征在于,“所述注意力权值矩阵和所述关键词掩码矩阵融合得到所述特征提取层的输出向量”包括步骤:主任务训练样本作为输入每一层特征提取层的输入向量,所述输入向量进行不同层的线性变化分别得到第一特征向量第二特征向量和第三特征向量;其中第一特征向量和第二特征向量的倒置矩阵点乘后被维度归一得到归一向量,所述归一向量和关键词掩码矩阵进行元素相加后并对相加后的特征值计算激活函数得到激活特征值,激活特征值和第三特征向量点乘得到该层特征输出层的输出向量。
5.根据权利要求1所述的文本相似度识别方法,其特征在于,所述roberta预训练模型性采用12个transformer的编码器层作为特征提取层,对应的,有12个解码器层作为特征输出层,每一个编码器层的输入是前一个编码器层的输出,每一个小解码器层的输入是它的前一个解码器层的输出和整个编码部分的输出。
6.基于权利要求1所述的文本相似度识别方法,其特征在于,“基于所述识别结果计算所述待识别文本的相似度”包括步骤:计算所述待识别文本中的短句和长句的相对相似度,若短句相对长句的相似度大于长句相对短句的相对相似度,则选用短句相对长度的相对相似度。
7.一种判断同事件的方法,包括以下步骤:自所述待识别文本中选定基准文本,基于和所述基准文本的相似度自高至低排序其他待识别文本,选择排序靠前的所述待识别文本作为同事件文本。
8.根据权利要求7所述的判断同事件的方法,所述待识别文本选自同一来源地址;或者选择和所述基准文本来自于同一来源地址的排序靠前的所述待识别文本作为同事件文本。
9.一种判断文本相似度的装置,其特征在于,包括:
获取模块:获取由至少两相似文本组成的文本数据对作为主任务训练样本,并提取每一所述相似文本的关键词及关键词在所述相似句子的关键词位置作为辅助任务训练样本;
计算模块:将至少两所述待识别文本输入已训练得到的算法模型中得到识别结果,基于所述识别结果计算所述待识别文本的相似度。
10.基于权利要求9所述的判断文本相似度的装置,其特征在于,在计算模块后添加一个判断模块,即可生成一个基于文本相似度判断同事件的装置,其判断模块作用为:
判断模块:自所述待识别文本中选定基准文本,基于和所述基准文本的相似度自高至低排序其他待识别文本,所述待识别文本选自同一来源地址;或者选择和所述基准文本来自于同一来源地址的排序靠前的所述待识别文本作为同事件文本。
11.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1-6任一所述的判断文本相似度方法或权利要求7、8任一所述的判断同事件的方法。
12.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据权利要求1-6任一所述的判断文本相似度方法或权利要求7、8任一所述的判断同事件的方法。
CN202210640094.3A 2022-06-08 2022-06-08 一种文本相似度识别方法、装置及应用 Pending CN114881003A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210640094.3A CN114881003A (zh) 2022-06-08 2022-06-08 一种文本相似度识别方法、装置及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210640094.3A CN114881003A (zh) 2022-06-08 2022-06-08 一种文本相似度识别方法、装置及应用

Publications (1)

Publication Number Publication Date
CN114881003A true CN114881003A (zh) 2022-08-09

Family

ID=82680233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210640094.3A Pending CN114881003A (zh) 2022-06-08 2022-06-08 一种文本相似度识别方法、装置及应用

Country Status (1)

Country Link
CN (1) CN114881003A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028631A (zh) * 2023-03-30 2023-04-28 粤港澳大湾区数字经济研究院(福田) 一种多事件检测方法及相关设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028631A (zh) * 2023-03-30 2023-04-28 粤港澳大湾区数字经济研究院(福田) 一种多事件检测方法及相关设备

Similar Documents

Publication Publication Date Title
CN112464641A (zh) 基于bert的机器阅读理解方法、装置、设备及存储介质
CN110598206A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN112287670A (zh) 文本纠错方法、系统、计算机设备及可读存储介质
CN115630640B (zh) 一种智能写作方法、装置、设备及介质
CN112464656B (zh) 关键词抽取方法、装置、电子设备和存储介质
CN112395875A (zh) 一种关键词提取方法、装置、终端以及存储介质
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN114970525B (zh) 一种文本同事件识别方法、装置及可读存储介质
JP2020512651A (ja) 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体
CN111143507A (zh) 一种基于复合式问题的阅读理解方法
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN116150306A (zh) 问答机器人的训练方法、问答方法及装置
CN114881003A (zh) 一种文本相似度识别方法、装置及应用
CN114676346A (zh) 新闻事件处理方法、装置、计算机设备和存储介质
CN115033683B (zh) 摘要生成方法、装置、设备及存储介质
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN112749530B (zh) 文本编码方法、装置、设备及计算机可读存储介质
CN115017260A (zh) 一种基于子主题建模的关键词生成方法
CN114254622A (zh) 一种意图识别方法和装置
CN114528383A (zh) 基于对比学习的预训练语言模型处理方法和智能问答系统
CN116991877B (zh) 一种结构化查询语句的生成方法、装置及应用
CN116701576B (zh) 无触发词的事件检测方法和系统
CN117574981B (zh) 一种信息分析模型的训练方法及信息分析方法
CN114548083B (zh) 标题生成方法、装置、设备及介质
CN117057355A (zh) 一种文本预测方法和装置、及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination