CN110929499A - 文本相似度获取方法、装置、介质及电子设备 - Google Patents
文本相似度获取方法、装置、介质及电子设备 Download PDFInfo
- Publication number
- CN110929499A CN110929499A CN201910980271.0A CN201910980271A CN110929499A CN 110929499 A CN110929499 A CN 110929499A CN 201910980271 A CN201910980271 A CN 201910980271A CN 110929499 A CN110929499 A CN 110929499A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- vector
- spliced
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及机器学习领域,揭示了一种文本相似度获取方法、装置、介质及电子设备。该方法包括:将要进行相似度比较的两文本进行拼接,形成拼接文本,所述两文本分别形成了所述拼接文本中的第一文本段和第二文本段;对所述拼接文本进行字符分割和向量化处理,获取拼接文本中每个字的字向量;针对所述拼接文本中的每个字,利用每个字的字向量,计算获取每个字的特征向量,每个字的特征向量表示每个字与所述拼接文本的相似特征;利用所述第一文本段中每个字的特征向量和第二文本段中每个字的特征向量,计算第一文本段和第二文本段的相似度,获取表示所述第一文本段与所述第二文本段相似度的相似值。采用该方法,能够提高文本相似度获取的准确性。
Description
技术领域
本申请涉及机器学习技术领域,特别涉及一种文本相似度获取方法、装置、介质及电子设备。
背景技术
在大数据处理过程中,为了分析不同文字内容之间的相似度,需要采集不同的文本,并对采集到的文本进行相似度处理,将内容相似的文本归为一类,从而对内容相似的文本所呈现的状况进行统一处理,提升突发状况的处理效率。
而现有的文本相似度处理技术,由于对句子的表征能力欠缺以及采用的处理方法简单,对文本相似的处理结果通常不准确,造成对文本的后续处理失当。
发明内容
在机器学习技术领域,为了解决上述技术问题,本申请的目的在于提供一种文本相似度获取方法、装置、介质及电子设备。
根据本申请的另一方面,提供了一种文本相似度获取方法,所述方法包括:
将要进行相似度比较的两文本进行拼接,形成拼接文本,所述两文本分别形成了所述拼接文本中的第一文本段和第二文本段;
对拼接形成的所述拼接文本进行字符分割和向量化处理,获取所述拼接文本中每个字的字向量;
针对所述拼接文本中的每个字,利用每个字的字向量,计算获取每个字的特征向量,每个字的特征向量表示每个字与所述拼接文本的相似特征;
利用所述第一文本段中每个字的特征向量和第二文本段中每个字的特征向量,计算第一文本段和第二文本段的相似度,获取表示所述第一文本段与所述第二文本段相似度的相似值。
根据本申请的一方面,提供了一种文本相似度获取装置,所述装置包括:
预处理模块,被配置为将要进行相似度比较的两文本进行拼接,形成拼接文本,所述两文本分别形成了所述拼接文本中的第一文本段和第二文本段;
向量化处理模块,被配置为对拼接形成的所述拼接文本进行字符分割和向量化处理,获取所述拼接文本中每个字的字向量;
第一计算模块,被配置为针对所述拼接文本中的每个字,利用每个字的字向量,计算获取每个字的特征向量,每个字的特征向量表示每个字与所述拼接文本的相似特征;
第二计算模块,被配置为利用所述第一文本段中每个字的特征向量和第二文本段中每个字的特征向量,计算第一文本段和第二文本段的相似度,获取表示所述第一文本段与所述第二文本段相似度的相似值。
根据本申请的一方面,提供了一种文本相似度获取装置的向量化处理模块包括:
分割子模块,被配置为对所述拼接文本进行字符分割,获取拼接文本中包含的各字;
处理子模块,被配置为针对所述拼接文本中的每个字,对每个字进行向量化处理,获取表征每个字特征的字向量。
根据本申请的一方面,提供了一种文本相似度获取装置的处理子模块包括:
字意向量单元,被配置为针对所述拼接文本中的每个字,利用Bert模型对每个字进行向量化处理,获得每个字的字意向量;
位置单元,被配置为将每个字意向量输入LSTM网络模型,获取同时表达每个字的字意和每个字在所述拼接文本中语序位置的字向量。
根据本申请的一方面,提供了一种文本相似度获取装置的第一计算模块包括:
权重计算子模块,被配置为针对所述拼接文本中的每个字,利用各字的字向量,计算获取分别表示每个字和所述拼接文本中各字的相似特征的若干每个字的正则权重,各每个字所述正则权重表示每个字和所述拼接文本中一个字的相似特征;
叉乘子模块,被配置为将所述拼接文本中的各字的字向量分别和其对应的所述每个字的正则权重叉乘,得到表示每个字与所述拼接文本中每一字相似特征的若干向量,各所述向量均表示每个字和所述拼接文本中一个字的相似特征;
相加子模块,被配置为将已得到所述若干向量相加,获取每个字的特征向量,每个字的特征向量表示每个字与所述拼接文本的相似特征。
根据本申请的一方面,提供了一种文本相似度获取装置的权重计算子模块包括:
第一叉乘单元,被配置为针对所述拼接文本中的每个字,将每个字的字向量和所述拼接文本中各字的字向量的转置向量分别进行叉乘,获取若干每个字的正则值,每个字的各所述正则值均表示每个字和所述拼接文本中一个字的相似特征;
相除单元,被配置为将每个字的所有所述正则值均除以一设定值,获取若干每个字的正则权重,每个字的各所述正则权重均表示每个字和非每个字所在拼接文本中一个字的相似特征,各所述正则权重之和为1。
根据本申请的一方面,提供了一种文本相似度获取装置的第二计算模块包括:
相似向量计算子模块,被配置为分别取所述第一文本段各字的特征向量中的特定值,形成第一相似向量和取所述第二文本段各字的特征向量中的特定值,形成第二相似向量;
相除子模块,被配置为将所述第一相似向量和所述第二相似向量的欧式距离与所述第一相似向量的模和所述第二相似向量的模之和相除,获取表示所述第一文本段与所述第二文本段相似度的相似值。
根据本申请的一方面,提供的所述文本相似度获取装置,还包括:
评估模块,被配置为在所述计算获取表示所述第一文本段与所述第二文本段的相似度的相似值之后,利用误差模型,将所述相似值输入所述误差模型得到相似值与表示第一文本段与第二文本段真实相似度的真实值之间的差值,以评估所述相似值的准确性。
根据本申请的一方面,提供的所述文本相似度获取装置中的评估模块,误差模型为:
其中:Y为设定值,在所述第一拼接文本与所述第二拼接文本相似时,Y值取1;所述第一拼接文本与所述第二拼接文本不相似时,Y值取0。m取1,DW为表示所述第一拼接文本与所述第二拼接文本相似度的相似值,为DW的平方。
根据本申请的另一方面,提供了一种计算机可读程序介质,其存储有计算机程序指令,当所述计算机程序指令被计算机执行时,使计算机执行如前所述的方法。
根据本申请的另一方面,提供了一种电子设备,所述电子设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如前所述的方法。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明所提供的文本相似度获取方法包括如下步骤:将要进行相似度比较的两文本进行拼接,形成拼接文本,所述两文本分别形成了所述拼接文本中的第一文本段和第二文本段;对拼接形成的所述拼接文本进行字符分割和向量化处理,获取所述拼接文本中每个字的字向量;针对所述拼接文本中的每个字,利用每个字的字向量,计算获取每个字的特征向量,每个字的特征向量表示每个字与所述拼接文本的相似特征;利用所述第一文本段中每个字的特征向量和第二文本段中每个字的特征向量,计算第一文本段和第二文本段的相似度,获取表示所述第一文本段与所述第二文本段相似度的相似值。
此方法下,采用该计算方法,通过计算获取的特征向量,能够表征拼接文本中每个字与拼接文本的相似特征,这使得利用特征向量计算获取的表示拼接文本中第一文本段和第二文本段之间相似度的相似值具有很高的准确度。
从而提高计算获得的表示第一拼接文本与第二拼接文本相似度的相似值的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种文本相似度获取方法的系统构架示意图;
图2是根据一示例性实施例示出的一种文本相似度获取方法的流程图;
图3是根据图2对应实施例示出的一实施例的步骤220的细节流程图;
图4是根据图2对应实施例示出的一实施例的步骤230的细节流程图;
图5是根据图4对应实施例示出的一实施例的步骤231的细节流程图;
图6是根据图2对应实施例示出的一实施例的步骤240的细节流程图;
图7是根据图2对应实施例示出的一实施例的步骤240之后的步骤流程图;
图8是根据一示例性实施例示出的一种文本相似度获取装置的框图;
图9是根据一示例性实施例示出的一种文本相似度获取装置的框图;
图10是根据一示例性实施例示出的一种实现上述文本相似度获取方法的电子设备示例框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
此外,附图仅为本申请的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
本申请首先提供了一种文本相似度获取方法。文本指由中文或外文文字组成的能够进行意思表示的文本段。由于文字表示的方式多种多样,当文本由不同的文字内容组成时,文本中的文字或许不同,而文本要表示的意思或内容可能相似或一致。随着互联网技术的高速发展,通过计算机提取文字内容,获得文本,为文本中特征相同或相近的字或字设置大小相同或大小接近的数据,对文本中的字或字进行特征数字化提取,根据文本的字特征数据或字特征数据,计算获取表示文本特征的数据,然后将分别表示两个文本特征的数据进行计算,能够获取衡量两个文本之间的相似度的相似值。这里的特征可以是文字,如字或字,要表示的意思。通过对文本进行相似度计算,能够将相同或相似的文本归为一类,从而对相似文本所呈现的同一状况进行统一处理。
本申请的实施终端可以是任何具有运算和处理功能的设备,该设备还可以与外部设备相连,用于传输数据,其可以是便携移动设备,例如智能手机、平板电脑、笔记本电脑、PDA(Personal Digital Assistant)等,也可以是固定式设备,例如,计算机设备、现场终端、台式电脑、服务器、工作站等,还可以是多个设备的集合,比如云计算的物理基础设施。
图1是根据一示例性实施例示出的一种文本相似度获取方法的系统构架示意图。如图1所示,包括数据库110、服务器120以及用户终端130,其中,在本实施例中服务器120是本申请的实施终端,服务器120与数据库110之间通过通信链路进行连接,从而使服务器120可以对数据库110中存储的数据进行存取操作,数据库110中存储着预先置于其中的文本及训练好的分字模型,服务器120与用户终端130之间也存在着通信链路的连接,用户终端130可以向服务器120发送网络请求,服务器120会根据接收到的该网络请求向用户终端130返回相应的响应,具体可以为:服务器120对该网络请求进行处理,获取该网络请求所需要的文本、分字模型,然后从数据库110获取文本、分字模型并向用户终端130返回,用户终端130上存储有程序代码,用户终端130包括处理器和存储器,存储器上存储有计算机可读指令,计算机可读指令被所述处理器执行时,能够实现步骤:将要进行相似度比较的两文本进行拼接,形成拼接文本,所述两文本分别形成了所述拼接文本中的第一文本段和第二文本段;对拼接形成的所述拼接文本进行字符分割和向量化处理,获取所述拼接文本中每个字的字向量;针对所述拼接文本中的每个字,利用每个字的字向量,计算获取每个字的特征向量,每个字的特征向量表示每个字与所述拼接文本的相似特征;利用所述第一文本段中每个字的特征向量和第二文本段中每个字的特征向量,计算第一文本段和第二文本段的相似度,获取表示所述第一文本段与所述第二文本段相似度的相似值。
值得一提的是,图1仅是本申请的一个实施例,虽然在图1示出的实施例中,文本、分字模型存储于与本申请的实施终端连接的数据库之中、本申请的实施终端为服务器、并且用户终端为台式电脑,但在实际应用中,文本、分字模型存储于各种位置,比如可以是本地存储空间,同时本申请的实施终端可以是上述的各种各样的设备,而用户终端也可以是各种终端设备,比如用户终端还可以是智能手机。因此本申请对此不作任何限定,本申请的保护范围也不应因此而受到任何限制。
图2是根据一示例性实施例示出的一种文本相似度获取方法的流程图。如图2所示,包括以下步骤:
步骤210,将要进行相似度比较的两文本进行拼接,形成拼接文本,所述两文本分别形成了所述拼接文本中的第一文本段和第二文本段。
文本段、文本、拼接文本均指能够进行意思表达的文字段。文本通常由多个能够进行意思表达的文字组成。文本的相似度分析,通常是在两个文本之间进行的,而对文本进行向量化处理的模型,如Bert模型等,通常只能够进行单文本输入。
为了能够将要进行相似度比较的两个文本输入向量化处理模型,进行向量化处理,需要将两个文本进行拼接,形成拼接文本。其中,拼接两个文本的方法可以将第一文本拼接在第二文本的前面,使得第二文本中第一个字连接在第一文本之后。也可以是,将第一文本拼接在第二文本之后。将两个文本进行拼接后,该两个文本分别形成了拼接后形成的拼接文本的第一文本段和第二文本段。
步骤220:对所述拼接文本进行字符分割和向量化处理,获取所述拼接文本中每个字的字向量。
拼接文本是由能够进行意思表达的文字组成的。在对拼接形成的拼接文本进行相似度处理,需要先对拼接文本中的各字进行向量化处理,形成表征拼接文本中每个字的字特征的字向量。
拼接文本所能够表达的意思与拼接文本中的每个字的字意和拼接文本中每个字的语序位置有关,进行拼接文本相似度处理,首先要对拼接文本中每个字的字意和拼接文本中每个字的语序位置进行向量化处理,形成表征拼接文本中每个字的字特征的字向量。因此拼接文本中每个字的字特征与每个字的字意和每个字在拼接文本中的语序位置有关。经过向量化处理,针对拼接文本中的每个字,获取的拼接文本中每个字的字向量与每个字的字特征有关,也就是与每个字的字意和每个字在拼接文本中的语序位置有关。
在对拼接文本中各字进行向量化处理之前,需要对拼接文本进行字符分割,获取拼接文本中包含的各字。
如图3所示,对拼接文本中的各字进行向量化处理,包括:
步骤221:针对所述拼接文本中的每个字,利用Bert模型对每个字进行向量化处理,获得每个字的字意向量。
Bert模型只能够进行单文本的输入。在利用Bert模型进行向量化处理时,需要将经过字符分割处理获取的各字分别输入Bert模型,获取各字的字意向量。
步骤222:将每个字意向量输入LSTM网络模型,获取同时包含每个字字意和每个字在其所在拼接文本中语序位置的字向量。
LSTM网络(Long Stort Term Memory,长短期记忆网络)是一种循环神经网络的改进模型,其通过遗忘门决定哪些信息需要被过滤掉,输入门确定当前输入信息和当前的状态,输出门决定输出。通过门的方法学习拼接文本的上下文信息,从而为已获得的拼接文本信息添加时序信息。
将经过Bert模型进行向量化处理后获得的字意向量输入LSTM网络模型,LSTM网络模型能够对输入的字意向量进行重新编码,从而为输入的字意向量添加时序信息,获取同时表达每个字的字意和每个字在拼接文本中语序位置的字向量。
各字的字向量能够分别表征各字的字特征。每个字的字特征与每个字的字意和每个字在拼接文本中的语序文字有关。
步骤230:针对所述拼接文本中的每个字,利用每个字的字向量,计算获取每个字的特征向量,每个字的特征向量表示每个字与所述拼接文本中各字的相似特征。
拼接文本中每个字的字向量均能够表征每个字的特征。利用拼接文本中各字的字向量进行计算,能够分别获得各字的特征向量。针对拼接文本中的每个字,每个字的特征向量表示每个字与拼接文本中各字的相似特征。每个字与拼接文本中各字的相似特征能够表示每个字与拼接文本的相似特征,因此拼接文本中每个字的特征向量均能够表示每个字与拼接文本的相似特征。
如图4所示,针对所述拼接文本中的每个字,利用每个字的字向量,计算获取每个字的特征向量,每个字的特征向量表示每个字与所述拼接文本中各字的相似特征,包括:
步骤231:针对所述拼接文本中的每个字,利用各字的字向量,计算获取分别表示每个字和所述拼接文本中各字的相似特征的若干正则权重,每一所述正则权重表示每个字和所述拼接文本中一个字的相似特征。
如图5所示,正则权重的计算步骤包括:
步骤2311:针对所述拼接文本中的每个字,将每个字的字向量和所述拼接文本中各字的字向量的转置向量分别进行叉乘,获取若干每个字的正则值,每个字的各所述正则值均表示每个字和所述拼接文本中一个字的相似特征。
针对文字中的每个字,将每个字的字向量与拼接文本中一个字字向量的转置向量进行叉乘,能够获取一个表示进行计算的两个字向量所分别对应的两个字之间相似特征的正则值。针对拼接文本中的每个字,将每个字的字向量与拼接文本中每个字的字向量的转置向量分别进行叉乘,能够获得若干每个字的正则值,每个字的各正则值均表示每个字和拼接文本中一个字的相似特征。
拼接文本中各字的字向量均表征每个字的特征。针对拼接文本中的每个字,将每个字的字向量与拼接文本中一个字字向量的转置向量进行叉乘后,能够将每个字与进行计算的拼接文本中的字的相似特征得到增强,不相似的特征被减弱,因此计算获得的每个字的正则值能够表示进行计算的两个字的相似特征。
步骤2312:将每个字的所有所述正则值均除以一设定值,获取若干正则权重,各所述正则权重均表示每个字和非每个字所在拼接文本中一个字的相似特征,各所述正则权重之和为1。
将已获得的每个字的所有正则值均除以一设定值,能够获取若干每个字的正则权重,获取的各正则权重之和为1。将已获得的每个字的所有正则值均除以一设定值是为了:将已获得的每个字的所有正则值均除以一设定值后,获取的若干正则权重之和为1。
由于每个字的正则值能够表示每个字与拼接文本中一个字的相似特征,根据每个字的正则值计算获取的每个字的正则权重也能够表示每个字与拼接文本中一个字的相似特征。
步骤232:将所述拼接文本中的各字的字向量分别和其对应的所述每个字的正则权重叉乘,得到表示每个字与所述拼接文本中每一字相似特征的若干向量,各所述向量均表示每个字和所述拼接文本中一个字的相似特征。
针对拼接文本中的每个字,由于一个每个字正则权重是由每个字的字向量和拼接文本中一个字的字向量计算得来的,因此每个字的每一正则权重都与拼接文本中的一个字相对应,与一个每个字的正则权重相对应的拼接文本中的字是:计算获取该正则权重的拼接文本中的字。针对拼接文本中的每个字,拼接文本中的各字也分别对应一个每个字的正则权重。
针对拼接文本中的每个字,将拼接文本中的各字的字向量分别和其对应的每个字的正则权重叉乘,得到表示每个字与拼接文本中每一字相似特征的若干向量,各向量均表示每个字和所述拼接文本中一个字的相似特征。
针对拼接文本中的每个字,由于每个字的正则权重能够表示每个字与拼接文本中各字的相似特征,每个字的正则权重和文字中一个字的字向量计算获取的向量,也能够表示每个字与一个字的相似特征。
步骤233:将已得到所述若干向量相加,获取每个字的特征向量,每个字的特征向量表示每个字与所述拼接文本的相似特征。
针对拼接文本中的每个字,由于每个字的特征向量是由分别表示每个字与拼接文本中各字之间相似特征的若干向量相加得到的,所以每个字的特征向量能够表示每个字与拼接文本中各字之间的相似特征。
针对拼接文本中每个字,由于每个字的特征向量能够表示每个字与拼接文本中各字的相似特征,而拼接文本中各字的特征的综合即为拼接文本的特征,因此每个字的特征向量能够表示每个字与拼接文本的相似特征。
针对拼接文本中的每个字,在计算获取的特征向量中,每个字与拼接文本中各字的相似特征得到增强,不相似的特征被减弱。
步骤240:利用所述第一文本段中每个字的特征向量和第二文本段每个字的特征向量,计算第一文本段和第二文本段的相似度,获取表示所述第一文本段与所述第二文本段相似度的相似值。
各字的特征向量均表示每个字与拼接文本的相似特征,拼接文本中各字与拼接文本的相似程度不同,各字的特征向量不同,利用拼接文本的第一文本段中每个字的特征向量和拼接文本的第二文本段中每个字的特征向量,能够计算第一文本段和第二文本段的相似度。
如图6所示,利用拼接文本的第一文本段中每个字的特征向量和拼接文本的第二文本段中每个字的特征向量,计算第一文本段和第二文本段的相似度,包括:
步骤241:分别取所述第一文本段各字的特征向量中的特定值,形成第一相似向量和分别取所述第二文本段各字的特征向量中的特定值,形成第二相似向量。
该特定值包括各字的特征向量中的最大值。针对第一文本段中的每个字和第二文本段中的每个字,由于计算每个字的增强向量的目的是使每个字和拼接文本的相似特征得到增强,不相似的特征被减弱,因此每个字的增强向量中的最大值,最能够代表每个字与拼接文本的相似特征。
在一种实施例中,将各字的增强向量中的所有数据的平均值,作为每个字的增强向量的特定值。
在一种实施例中,将各字的增强向量中的最大值和所有数据的平均值,均作为每个字的增强向量的特定值。
取所述第一文本段各字的特征向量中的特定值,形成第一相似向量;取所述第二文本段各字的特征向量中的特定值,形成第二相似向量。第一相似向量与第二相似向量中,分别将第一文本段和第二文本段相似的特征进行了加强,不相似的特征进行了减弱,因此第一相似向量与第二相似向量均能够表示第一文本和第二文本的相似度。
步骤242:将所述第一相似向量和所述第二相似向量的欧式距离与所述第一相似向量的模和所述第二相似向量的模之和相除,获取表示所述第一文本段与所述第二文本段的相似度的相似值。
将所述第一相似向量和所述第二相似向量的欧式距离与所述第一相似向量的模和所述第二相似向量的模之和相除,计算公式为:
DW=||A+B||/(||A||+||B||)
公式中,A为第一相似向量,B为第二相似向量,||A+B||为第一相似向量A和第二相似向量B的欧式距离,||A||为第一相似向量A的模,||B||为第二相似向量B的模,DW为表示第一文本段和第二文本段相似度的相似值。
由于第一相似向量与第二相似向量中,分别将第一文本段和第二文本段相似的特征进行了加强,不相似的特征进行了减弱,因此根据第一相似向量与第二相似向量计算获取的表示第一文本段和第二文本段相似度的相似值具有较高的准确度。
如图7所示,计算获取表示所述第一文本段与第二文本段的相似度的相似值之后,还包括:
步骤250:利用误差模型,将所述相似值输入所述误差模型得到相似值与表示第一文本段与第二文本段真实相似度的真实值之间的差值,以评估所述相似值的准确性。
误差模型为:
其中:Y为设定值,在所述第一文本段与所述第二文本段相似时,Y值取1;所述第一文本段与所述第二文本段不相似时,Y值取0。m取1,DW为表示所述第一文本段与所述第二文本段相似度的相似值,为DW的平方。表示相似值与表示第一文本段与第二文本段真实相似度的真实值之间的差值。
相似度值DW小于1。利用误差模型,能够对计算获取的表示第一文本段与第二文本段相似度的相似值的准确度进行评估。
已计算获得的相似值与表示第一文本段与第二文本段真实相似度的真实值之间的差值较大,表示上述计算步骤获取的表示第一文本段与第二文本段相似度的相似值不准确,无法真实反映第一文本段和第二文本段的相似度。
采用梯度下降法,对分字模型和向量化处理模型进行重新训练,并采用训练后的模型进行分字和获取每个字的字向量,采用各字的字向量再次运用步骤210-步骤240计算获取表示第一文本段和第二文本段相似度的相似值。并利用误差模型对相似值进行评估。如此,可进行数轮模型训练和相似值计算,直到通过误差模型得到的小于设定值,该设定值是一个接近零的数值。
本申请一实施例还提供了一种文本相似度获取装置,如图8所示,包括:
预处理模块310,被配置为将要进行相似度比较的两文本进行拼接,形成拼接文本,所述两文本分别形成了所述拼接文本中的第一文本段和第二文本段。
向量化处理模块320,被配置为对所述拼接文本进行字符分割和向量化处理,获取所述拼接文本中每个字的字向量。
第一计算模块330,被配置为针对所述拼接文本中的每个字,利用每个字的字向量,计算获取每个字的特征向量,每个字的特征向量表示每个字与所述拼接文本的相似特征。
第二计算模块340,被配置为利用所述第一文本段中每个字的特征向量和第二文本段中每个字的特征向量,计算第一文本段和第二文本段的相似度,获取表示所述第一文本段与所述第二文本段相似度的相似值。
如图9所示,在一种实施例中,向量化处理模块320包括:
分割子模块321,被配置为对所述拼接文本进行字符分割,获取拼接文本中包含的各字;
处理子模块322,被配置为针对所述拼接文本中的每个字,对每个字进行向量化处理,获取表征每个字特征的字向量。
在一种实施例中,处理子模块322包括:
字意向量单元3221,被配置为针对所述拼接文本中的每个字,利用Bert模型对每个字进行向量化处理,获得每个字的字意向量;
位置单元3222,被配置为将每个字意向量输入LSTM网络模型,获取同时表达每个字的字意和每个字在所述拼接文本中语序位置的字向量。
在一种实施例中,第一计算模块330包括:
权重计算子模块331,被配置为针对所述拼接文本中的每个字,利用各字的字向量,计算获取分别表示每个字和所述拼接文本中各字的相似特征的若干每个字的正则权重,各每个字所述正则权重表示每个字和所述拼接文本中一个字的相似特征;
叉乘子模块332,被配置为将所述拼接文本中的各字的字向量分别和其对应的所述每个字的正则权重叉乘,得到表示每个字与所述拼接文本中每一字相似特征的若干向量,各所述向量均表示每个字和所述拼接文本中一个字的相似特征;
相加子模块333,被配置为将已得到所述若干向量相加,获取每个字的特征向量,每个字的特征向量表示每个字与所述拼接文本的相似特征。
在一种实施例中,权重计算子模块331包括:
第一叉乘单元3311,被配置为针对所述拼接文本中的每个字,将每个字的字向量和所述拼接文本中各字的字向量的转置向量分别进行叉乘,获取若干每个字的正则值,每个字的各所述正则值均表示每个字和所述拼接文本中一个字的相似特征;
相除单元3312,被配置为将每个字的所有所述正则值均除以一设定值,获取若干每个字的正则权重,每个字的各所述正则权重均表示每个字和非每个字所在拼接文本中一个字的相似特征,各所述正则权重之和为1。
在一种实施例中,第二计算模块340包括:
相似向量计算子模块341,被配置为分别取所述第一文本段各字的特征向量中的特定值,形成第一相似向量和取所述第二文本段各字的特征向量中的特定值,形成第二相似向量;
相除子模块342,被配置为将所述第一相似向量和所述第二相似向量的欧式距离与所述第一相似向量的模和所述第二相似向量的模之和相除,获取表示所述第一文本段与所述第二文本段相似度的相似值。
在一种实施例中,所述文本相似度获取装置,还包括:
评估模块350,被配置为在所述计算获取表示所述第一文本段与所述第二文本段的相似度的相似值之后,利用误差模型,将所述相似值输入所述误差模型得到相似值与表示第一文本段与第二文本段真实相似度的真实值之间的差值,以评估所述相似值的准确性。
在一种实施例中,在评估模块350中,误差模型为:
其中:Y为设定值,在所述第一拼接文本与所述第二拼接文本相似时,Y值取1;所述第一拼接文本与所述第二拼接文本不相似时,Y值取0。m取1,DW为表示所述第一拼接文本与所述第二拼接文本相似度的相似值,为DW的平方。
以上实施例中的各模块执行的内容,与上述方法实施例中的内容相同,这里不再赘述。
下面参照图10来描述根据本发明的这种实施方式的电子设备700。图10显示的电子设备700仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于:上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元710执行,使得所述处理单元710执行本说明书上述“实施例方法”部分中描述的根据本发明各种示例性实施方式的步骤。
存储单元720可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)721和/或高速缓存存储单元722,还可以进一步包括只读存储单元(ROM)723。
存储单元720还可以包括具有一组(至少一个)程序模块725的程序/实用工具724,这样的程序模块725包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线730可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备700也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备700交互的设备通信,和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且,电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器760通过总线730与电子设备700的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。
根据本申请的第四方面,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
本申请一实施例提供了用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种文本相似度获取方法,其特征在于,所述方法包括:
将要进行相似度比较的两文本进行拼接,形成拼接文本,所述两文本分别形成了所述拼接文本中的第一文本段和第二文本段;
对所述拼接文本进行字符分割和向量化处理,获取所述拼接文本中每个字的字向量;
针对所述拼接文本中的每个字,利用每个字的字向量,计算获取每个字的特征向量,每个字的特征向量表示每个字与所述拼接文本的相似特征;
利用所述第一文本段中每个字的特征向量和第二文本段中每个字的特征向量,计算第一文本段和第二文本段的相似度,获取表示所述第一文本段与所述第二文本段相似度的相似值。
2.根据权利要求1所述的方法,其特征在于,所述对拼接形成的所述拼接文本进行字符分割和向量化处理,获取所述拼接文本中每个字的字向量,包括:
对所述拼接文本进行字符分割,获取拼接文本中包含的各字;
针对所述拼接文本中的每个字,对每个字进行向量化处理,获取表征每个字特征的字向量。
3.根据权利要求2所述的方法,其特征在于,所述针对所述拼接文本中的每个字,对每个字进行向量化处理,获取表示每个字特征的字向量,包括:
针对所述拼接文本中的每个字,利用Bert模型对每个字进行向量化处理,获得每个字的字意向量;
将每个字意向量输入LSTM网络模型,获取同时表达每个字的字意和每个字在所述拼接文本中语序位置的字向量。
4.根据权利要求1所述的方法,其特征在于,所述针对所述拼接文本中的每个字,利用每个字的字向量,计算获取每个字的特征向量,每个字的特征向量表示每个字与所述拼接文本中各字之间的相似特征,包括:
针对所述拼接文本中的每个字,利用各字的字向量,计算获取分别表示每个字和所述拼接文本中各字的相似特征的若干每个字的正则权重,各每个字所述正则权重表示每个字和所述拼接文本中一个字的相似特征;
将所述拼接文本中的各字的字向量分别和其对应的所述每个字的正则权重叉乘,得到表示每个字与所述拼接文本中每一字相似特征的若干向量,各所述向量均表示每个字和所述拼接文本中一个字的相似特征;
将已得到所述若干向量相加,获取每个字的特征向量,每个字的特征向量表示每个字与所述拼接文本的相似特征。
5.根据权利要求4所述的方法,其特征在于,所述针对所述拼接文本中的每个字,利用各字的字向量,计算获取分别表示每个字和所述拼接文本中各字的相似特征的若干正则权重,每一所述正则权重表示每个字和所述拼接文本中一个字的相似特征,包括:
针对所述拼接文本中的每个字,将每个字的字向量和所述拼接文本中各字的字向量的转置向量分别进行叉乘,获取若干每个字的正则值,每个字的各所述正则值均表示每个字和所述拼接文本中一个字的相似特征;
将每个字的所有所述正则值均除以一设定值,获取若干每个字的正则权重,每个字的各所述正则权重均表示每个字和非每个字所在拼接文本中一个字的相似特征,各所述正则权重之和为1。
6.根据权利要求1所述的方法,其特征在于,所述利用所述第一文本段中每个字的特征向量和第二文本段每个字的特征向量,计算第一文本段和第二文本段的相似度,获取表示所述第一文本段与所述第二文本段相似度的相似值,包括:
分别取所述第一文本段各字的特征向量中的特定值,形成第一相似向量和取所述第二文本段各字的特征向量中的特定值,形成第二相似向量,所述特定值包括特征向量中符合预定标准的值;
将所述第一相似向量和所述第二相似向量的欧式距离与所述第一相似向量的模和所述第二相似向量的模之和相除,获取表示所述第一文本段与所述第二文本段相似度的相似值。
7.根据权利要求1所述的方法,其特征在于,所述计算第一文本段和第二文本段的相似度,获取表示所述第一文本段与所述第二文本段相似度的相似值之后,还包括:
利用误差模型,将所述相似值输入所述误差模型得到相似值与表示第一文本段与第二文本段真实相似度的真实值之间的差值,以评估所述相似值的准确性。
8.一种文本相似度获取装置,其特征在于,所述装置包括:
预处理模块,被配置为将要进行相似度比较的两文本进行拼接,形成拼接文本,所述两文本分别形成了所述拼接文本中的第一文本段和第二文本段;
向量化处理模块,被配置为对所述拼接文本进行字符分割和向量化处理,获取所述拼接文本中每个字的字向量;
第一计算模块,被配置为针对拼接形成的所述拼接文本中的每个字,利用每个字的字向量,计算获取每个字的特征向量,每个字的特征向量表示每个字与所述拼接文本的相似特征;
第二计算模块,被配置为利用所述第一文本段中每个字的特征向量和第二文本段中每个字的特征向量,计算第一文本段和第二文本段的相似度,获取表示所述第一文本段与所述第二文本段相似度的相似值。
9.一种计算机可读程序介质,其特征在于,其存储有计算机程序指令,当所述计算机程序指令被计算机执行时,使计算机执行根据权利要求1至7中任一项所述的方法。
10.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1至7任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910980271.0A CN110929499B (zh) | 2019-10-15 | 2019-10-15 | 文本相似度获取方法、装置、介质及电子设备 |
PCT/CN2019/117670 WO2021072864A1 (zh) | 2019-10-15 | 2019-11-12 | 文本相似度获取方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910980271.0A CN110929499B (zh) | 2019-10-15 | 2019-10-15 | 文本相似度获取方法、装置、介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110929499A true CN110929499A (zh) | 2020-03-27 |
CN110929499B CN110929499B (zh) | 2022-02-11 |
Family
ID=69848997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910980271.0A Active CN110929499B (zh) | 2019-10-15 | 2019-10-15 | 文本相似度获取方法、装置、介质及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110929499B (zh) |
WO (1) | WO2021072864A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689923A (zh) * | 2020-05-19 | 2021-11-23 | 北京平安联想智慧医疗信息技术有限公司 | 医疗数据处理设备、系统和方法 |
CN114969257A (zh) * | 2022-05-26 | 2022-08-30 | 平安普惠企业管理有限公司 | 标准语音识别数据库的构建方法、装置、计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874258A (zh) * | 2017-02-16 | 2017-06-20 | 西南石油大学 | 一种基于汉字属性向量表示的文本相似性计算方法及系统 |
CN107729300A (zh) * | 2017-09-18 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 文本相似度的处理方法、装置、设备和计算机存储介质 |
CN109493977A (zh) * | 2018-11-09 | 2019-03-19 | 天津新开心生活科技有限公司 | 文本数据处理方法、装置、电子设备及计算机可读介质 |
CN109658938A (zh) * | 2018-12-07 | 2019-04-19 | 百度在线网络技术(北京)有限公司 | 语音与文本匹配的方法、装置、设备及计算机可读介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102200967B (zh) * | 2011-03-30 | 2012-10-24 | 中国人民解放军军事医学科学院放射与辐射医学研究所 | 一种基于dna序列的文本处理方法和系统 |
US9305082B2 (en) * | 2011-09-30 | 2016-04-05 | Thomson Reuters Global Resources | Systems, methods, and interfaces for analyzing conceptually-related portions of text |
CN109165291B (zh) * | 2018-06-29 | 2021-07-09 | 厦门快商通信息技术有限公司 | 一种文本匹配方法及电子设备 |
CN109214407B (zh) * | 2018-07-06 | 2022-04-19 | 创新先进技术有限公司 | 事件检测模型、方法、装置、计算设备及存储介质 |
CN109871540B (zh) * | 2019-02-21 | 2022-12-23 | 武汉斗鱼鱼乐网络科技有限公司 | 一种文本相似度的计算方法以及相关设备 |
-
2019
- 2019-10-15 CN CN201910980271.0A patent/CN110929499B/zh active Active
- 2019-11-12 WO PCT/CN2019/117670 patent/WO2021072864A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874258A (zh) * | 2017-02-16 | 2017-06-20 | 西南石油大学 | 一种基于汉字属性向量表示的文本相似性计算方法及系统 |
CN107729300A (zh) * | 2017-09-18 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 文本相似度的处理方法、装置、设备和计算机存储介质 |
CN109493977A (zh) * | 2018-11-09 | 2019-03-19 | 天津新开心生活科技有限公司 | 文本数据处理方法、装置、电子设备及计算机可读介质 |
CN109658938A (zh) * | 2018-12-07 | 2019-04-19 | 百度在线网络技术(北京)有限公司 | 语音与文本匹配的方法、装置、设备及计算机可读介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689923A (zh) * | 2020-05-19 | 2021-11-23 | 北京平安联想智慧医疗信息技术有限公司 | 医疗数据处理设备、系统和方法 |
CN114969257A (zh) * | 2022-05-26 | 2022-08-30 | 平安普惠企业管理有限公司 | 标准语音识别数据库的构建方法、装置、计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110929499B (zh) | 2022-02-11 |
WO2021072864A1 (zh) | 2021-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11455473B2 (en) | Vector representation based on context | |
US11501187B2 (en) | Opinion snippet detection for aspect-based sentiment analysis | |
CN107729300B (zh) | 文本相似度的处理方法、装置、设备和计算机存储介质 | |
CN110941951B (zh) | 文本相似度计算方法、装置、介质及电子设备 | |
US10984198B2 (en) | Automated testing of dialog systems | |
CN111930792B (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
CN111198939B (zh) | 语句相似度的分析方法、装置及计算机设备 | |
CN113064964A (zh) | 文本分类方法、模型训练方法、装置、设备以及存储介质 | |
WO2022174496A1 (zh) | 基于生成模型的数据标注方法、装置、设备及存储介质 | |
CN115063875A (zh) | 模型训练方法、图像处理方法、装置和电子设备 | |
CN111598122B (zh) | 数据校验方法、装置、电子设备和存储介质 | |
CN114861889A (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
CN110929499B (zh) | 文本相似度获取方法、装置、介质及电子设备 | |
CN112989050B (zh) | 一种表格分类方法、装置、设备及存储介质 | |
US20200110834A1 (en) | Dynamic Linguistic Assessment and Measurement | |
CN113723077A (zh) | 基于双向表征模型的句向量生成方法、装置及计算机设备 | |
CN111241273A (zh) | 文本数据分类方法、装置、电子设备及计算机可读介质 | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
WO2023093259A1 (en) | Iteratively updating a document structure to resolve disconnected text in element blocks | |
CN108733702B (zh) | 用户查询上下位关系提取的方法、装置、电子设备和介质 | |
CN113569578B (zh) | 一种用户意图识别方法、装置和计算机设备 | |
CN115470790A (zh) | 一种识别文件中的命名实体的方法和装置 | |
CN110929749B (zh) | 文本识别方法、装置、介质及电子设备 | |
CN110083807B (zh) | 合同的修改影响自动预测方法、装置、介质及电子设备 | |
CN113989562A (zh) | 模型训练、图像分类方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |