CN112765328A - 一种文本相似度确定方法、系统、存储介质以及设备 - Google Patents
一种文本相似度确定方法、系统、存储介质以及设备 Download PDFInfo
- Publication number
- CN112765328A CN112765328A CN202110117862.2A CN202110117862A CN112765328A CN 112765328 A CN112765328 A CN 112765328A CN 202110117862 A CN202110117862 A CN 202110117862A CN 112765328 A CN112765328 A CN 112765328A
- Authority
- CN
- China
- Prior art keywords
- text
- semantic feature
- feature vector
- vector
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000003062 neural network model Methods 0.000 claims abstract description 48
- 239000013598 vector Substances 0.000 claims description 351
- 230000015654 memory Effects 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004880 explosion Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本相似度确定方法、系统、存储介质以及设备,通过获取第一文本和第二文本中每个词的词嵌入向量,通过将第一文本和第二文本中每个词的词嵌入向量输入神经网络模型,获取第一文本的第一语义特征向量以及第二文本的第二语义特征向量,基于第一语义特征向量和第二语义特征向量,利用Tanimoto系数模型确定所述第一文本和所述第二文本的相似度。该方法通过神经网络模型结合Tanimoto系数模型确定第一文本和所述第二文本的相似度,有效提高了确定文本相似度的效率。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本相似度确定方法、系统、存储介质以及设备。
背景技术
文本语义相似度在不同的自然语言处理任务中扮演着重要角色。在信息爆炸时代,通常有大量的文本信息需要人们去阅读与理解,所以计算文本相似度对后续的文本处理起着非常关键的作用。文本相似度一般指文本在语义上的相似程度,被广泛应用于自然语言处理任务的各个领域。比如机器翻译领域、搜索引擎领域、自动问答领域、关键词抽取领域、文本聚类领域等,文本相似度计算主要可以帮助我们理解短文本间的语义相似程度。
文本语义相似度一般是给定两个句子作为输入,判断两个句子的语义是否相同,换句话说就是提出一个模型来学习和计算两个句子的相似程度。传统的方法一般是基于词袋模型的方法,比如有LSA和VSM等,这些方法虽然也可以进行相似度计算,当特征项较多时,产生的高维稀疏矩阵导致计算效率不高,而且不适用于大规模的文本。近年来基于深度学习的方法已经成为了主流,用深度学习做文本相似度计算,首先要对文本进行向量表征,然后计算两个文本的相似度。向量表征效果较好的模型有word2vec、glove、BERT等,其中BERT模型在文本向量的表征上的效果最好,然而现有相似度确定方法仍然存在着计算效率不高的问题。
发明内容
本发明要解决的技术问题是:如何提高确定文本相似度的效率。
为解决上述技术问题,本发明提供了一种文本相似度确定方法、系统、存储介质以及设备。
本发明的第一个方面提供了一种文本相似度确定方法,其包括:
获取第一文本和第二文本中每个词的词嵌入向量;
通过将所述第一文本和所述第二文本中每个词的词嵌入向量输入神经网络模型,获取所述第一文本的第一语义特征向量以及所述第二文本的第二语义特征向量;
基于所述第一语义特征向量和所述第二语义特征向量,利用Tanimoto系数模型确定所述第一文本和所述第二文本的相似度。
在一些实施例中,所述Tanimoto系数模型包括:
在一些实施例中,在所述获取第一文本和第二文本中每个词的词嵌入向量之前,所述方法还包括:
对所述第一文本和所述第二文本分别进行预处理,以获取长度相等的所述第一文本和所述第二文本。
在一些实施例中,对所述第一文本和所述第二文本分别进行预处理,以获取长度相等的所述第一文本和所述第二文本,包括:针对每个文本,去除文本中的停用词、标点符号和标签中的至少一种。
在一些实施例中,所述获取第一文本和第二文本中每个词的词嵌入向量,包括:
利用ELMo模型获取所述第一文本和所述第二文本中每个词的词嵌入向量。
在一些实施例中,所述通过将所述第一文本和所述第二文本中每个词的词嵌入向量输入神经网络模型,获取所述第一文本的第一语义特征向量以及所述第二文本的第二语义特征向量,包括:
通过将所述第一文本和所述第二文本中每个词的词嵌入向量输入ALBERT模型,获取所述第一文本的所述第一语义特征向量以及所述第二文本的所述第二语义特征向量。
在一些实施例中,所述通过将所述第一文本和所述第二文本中每个词的词嵌入向量输入神经网络模型,获取所述第一文本的第一语义特征向量以及所述第二文本的第二语义特征向量之后,还包括:
利用自注意机制模型对所述第一语义特征向量和所述第二语义特征向量进行学习,以获取与所述第一语义特征向量对应的第一注意力权重向量和与所述第二语义特征向量对应的第二注意力权重向量;
根据所述第一语义特征向量和所述第一注意力权重向量获得带权重的第一语义特征向量,根据所述第二语义特征向量和所述第二注意力权重向量获得带权重的第二语义特征向量;
基于所述第一语义特征向量和所述第二语义特征向量,利用Tanimoto系数模型确定所述第一文本和所述第二文本的相似度,包括:
基于所述带权重的第一语义特征向量和所述带权重的第二语义特征向量,利用Tanimoto系数模型确定所述第一文本和所述第二文本的相似度。
本发明的第二个方面,提供了一种文本相似度确定系统,其包括:
文本嵌入层,所述文本嵌入层用于获取第一文本和第二文本中每个词的词嵌入向量;
文本表征层,所述文本表征层用于通过将所述第一文本和所述第二文本中每个词的词嵌入向量输入神经网络模型,获取所述第一文本的第一语义特征向量以及所述第二文本的第二语义特征向量;
相似度确定层,所述相似度确定层用于基于所述第一语义特征向量和所述第二语义特征向量,利用Tanimoto系数模型确定所述第一文本和所述第二文本的相似度。
在一些实施例中,所述文本相似度确定系统还包括:
自注意力层,所述自注意力层用于利用自注意机制模型对所述第一语义特征向量和所述第二语义特征向量进行学习,以获取与所述第一语义特征向量对应的第一注意力权重向量和与所述第二语义特征向量对应的第二注意力权重向量;
根据所述第一语义特征向量和所述第一注意力权重向量获得带权重的第一语义特征向量,根据所述第二语义特征向量和所述第二注意力权重向量获得带权重的第二语义特征向量。
本发明的第三个方面,提供了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能够实现如上所述的文本相似度确定方法。
本发明的第四个方面,提供了一种设备,所述设备包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时能够实现如所述的文本相似度确定方法。
与现有技术相比,上述方案中的一个或多个实施例可以具有如下优点或有益效果:
应用本发明提供的文本相似度确定方法,通过获取第一文本和第二文本中每个词的词嵌入向量,通过将第一文本和第二文本中每个词的词嵌入向量输入神经网络模型,获取第一文本的第一语义特征向量以及第二文本的第二语义特征向量,基于第一语义特征向量和第二语义特征向量,利用Tanimoto系数模型确定所述第一文本和所述第二文本的相似度。该方法通过神经网络模型结合Tanimoto系数模型确定第一文本和所述第二文本的相似度,有效提高了确定文本相似度的效率。
附图说明
通过结合附图阅读下文示例性实施例的详细描述可更好地理解本公开的范围。其中所包括的附图是:
图1示出了本发明实施例一提供的一种文本相似度确定方法的流程示意图;
图2示出了本发明实施例二提供的一种文本相似度确定方法的流程示意图;
图3示出了本发明实施例三提供的一种文本相似度确定方法的流程示意图;
图4示出本发明实施例提供的一种文本相似度确定系统结构示意图;
图5示出了本发明实施例提供的一种设备结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下将结合附图及实施例来详细说明本发明的实施方法,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。
文本语义相似度在不同的自然语言处理任务中扮演着重要角色。在信息爆炸时代,通常有大量的文本信息需要人们去阅读与理解,所以计算文本相似度对后续的文本处理起着非常关键的作用。文本相似度一般指文本在语义上的相似程度,被广泛应用于自然语言处理任务的各个领域。比如机器翻译领域、搜索引擎领域、自动问答领域、关键词抽取领域、文本聚类领域等,文本相似度计算主要可以帮助我们理解短文本间的语义相似程度。
文本语义相似度一般是给定两个句子作为输入,判断两个句子的语义是否相同,换句话说就是提出一个模型来学习和计算两个句子的相似程度。传统的方法一般是基于词袋模型的方法,比如有LSA和VSM等,这些方法虽然也可以进行相似度计算,当特征项较多时,产生的高维稀疏矩阵导致计算效率不高,而且不适用于大规模的文本。近年来基于深度学习的方法已经成为了主流,用深度学习做文本相似度计算,首先要对文本进行向量表征,然后计算两个文本的相似度。向量表征效果较好的模型有word2vec、glove、BERT等,其中BERT模型在文本向量的表征上的效果最好,然而现有相似度确定方法仍然存在着计算效率不高的问题。
有鉴于此,本发明提供了一种文本相似度确定方法,通过获取第一文本和第二文本中每个词的词嵌入向量,通过将第一文本和第二文本中每个词的词嵌入向量输入神经网络模型,获取第一文本的第一语义特征向量以及第二文本的第二语义特征向量,基于第一语义特征向量和第二语义特征向量,利用Tanimoto系数模型确定所述第一文本和所述第二文本的相似度。该方法通过神经网络模型结合Tanimoto系数模型确定第一文本和所述第二文本的相似度,有效提高了确定文本相似度的效率。
实施例一
参见图1所示,图1示出了本发明实施例一提供的一种文本相似度确定方法的流程示意图,其包括:
步骤S101:获取第一文本和第二文本中每个词的词嵌入向量。
步骤S102:通过将第一文本和第二文本中每个词的词嵌入向量输入神经网络模型,获取第一文本的第一语义特征向量以及第二文本的第二语义特征向量。
步骤S103:基于第一语义特征向量和第二语义特征向量,利用Tanimoto系数模型确定第一文本和第二文本的相似度。
在本发明实施例中,步骤S101可以具体为采用ELMo模型获取第一文本和第二文本中每个词的词嵌入向量。在其他实施例中,也可以采用word2vec等预训练好的模型获取第一文本和第二文本中每个词的词嵌入向量。通过采用ELMo模型或word2vec模型,将文本中的每个词映射到词嵌入向量,以将词嵌入向量作为神经网络模型的输入。
在本发明实施例中,步骤S102可以具体为,通过将第一文本中每个词的词嵌入向量输入神经网络模型,获取第一文本的第一语义特征向量;将第二文本中每个词的词嵌入向量输入神经网络模型,获取第二文本的第二语义特征向量。
在一些实施例中,神经网络模型可以为卷积神经网络模型或BERT模型;在另一些实施例中,神经网络模型还可以为ALBERT模型,ALBERT模型可以学习文本更深层次的表征。另外,ALBERT模型利用词嵌入的参数因式分解和隐藏层间的参数共享两种方式,显著减少了模型的参数量,实现了模型轻量化,收敛速度更快,可以有效提高模型训练速度。
在本发明实施例中,步骤S103可以具体为,基于第一语义特征向量和第二语义特征向量,利用以下Tanimoto系数模型确定第一文本和第二文本的相似度:
其中,Ej代表相似度值,S1代表第一语义特征向量,S2代表第二语义特征向量。
以上为本发明实施例提供的一种文本相似度确定方法,通过获取第一文本和第二文本中每个词的词嵌入向量,将第一文本和第二文本中每个词的词嵌入向量输入神经网络模型,获取第一文本的第一语义特征向量以及第二文本的第二语义特征向量,基于第一语义特征向量和第二语义特征向量,再利用Tanimoto系数模型确定第一文本和第二文本的相似度。该方法通过神经网络模型结合Tanimoto系数模型确定第一文本和所述第二文本的相似度,有效提高了确定文本相似度的效率。
以上为本发明实施例提供的一种文本相似度确定方法,在进行文本相似度确定之前还可以对文本进行预处理,具体请参见以下实施例二中的描述。
实施例二
参见图2所示,图2示出了本发明实施例提供的另一种文本相似度确定方法的流程示意图,其包括:
步骤S201:对第一文本和第二文本分别进行预处理,以获取长度相等的第一文本和第二文本。
步骤S202:获取第一文本和第二文本中每个词的词嵌入向量。
步骤S203:通过将第一文本和第二文本中每个词的词嵌入向量输入神经网络模型,获取第一文本的第一语义特征向量以及第二文本的第二语义特征向量。
步骤S204:基于第一语义特征向量和第二语义特征向量,利用Tanimoto系数模型确定第一文本和第二文本的相似度。
在本发明实施例中,步骤S201可以具体为:针对每个文本,去除文本中的停用词、标点符号和标签中的至少一种,以去除文本中没有意义的符号或词语,得到长度相等的第一文本和第二文本,从而也有利于提高确定文本相似度的效率。
在本发明实施例中,步骤S202可以具体为采用ELMo模型获取经过预处理后的第一文本和第二文本中每个词的词嵌入向量。在其他实施例中,也可以采用word2vec等预训练好的模型获取预处理后的第一文本和第二文本中每个词的词嵌入向量。通过采用ELMo模型或word2vec模型,将文本中的每个词映射到词嵌入向量,以将词嵌入向量作为神经网络模型的输入。
在本发明实施例中,步骤S203可以具体为,通过将预处理后的第一文本中每个词的词嵌入向量输入神经网络模型,获取第一文本的第一语义特征向量;将预处理后的第二文本中每个词的词嵌入向量输入神经网络模型,获取第二文本的第二语义特征向量。
在一些实施例中,神经网络模型可以为卷积神经网络模型或BERT模型;在另一些实施例中,神经网络模型还可以为ALBERT模型,ALBERT模型可以学习文本更深层次的表征。另外,ALBERT模型利用词嵌入的参数因式分解和隐藏层间的参数共享两种方式,显著减少了模型的参数量,实现了模型轻量化,收敛速度更快,可以有效提高模型训练速度。
在本发明实施例中,步骤S204可以具体为,基于第一语义特征向量和第二语义特征向量,利用以下Tanimoto系数模型确定第一文本和第二文本的相似度:
其中,Ej代表相似度值,S1代表第一语义特征向量,S2代表第二语义特征向量。
以上为本发明实施例提供的另一种文本相似度确定方法,通过对第一文本和第二文本分别进行预处理,得到长度相等的第一文本和第二文本;获取经过预处理后的第一文本和第二文本中每个词的词嵌入向量,通过将第一文本和第二文本中每个词的词嵌入向量输入神经网络模型,获取第一文本的第一语义特征向量以及第二文本的第二语义特征向量,基于第一语义特征向量和第二语义特征向量,利用Tanimoto系数模型确定第一文本和第二文本的相似度。该方法通过神经网络模型结合Tanimoto系数模型确定第一文本和所述第二文本的相似度,有效提高了确定文本相似度的效率,另外,通过对文本进行预处理,进一步提高了确定文本相似度的效率。
以上为本发明实施例提供的一种文本相似度确定方法,为了学习到每个词对文本表征的权重,还可以获取表征关键词权重的语义特征向量,具体请参见以下实施施例三中的描述。
实施例三
需要说明的是,实施例三提供的方案可以基于以上实施例一或实施例二实现,在该实施例中,将以基于以上实施例二实现为例进行描述。
参见图3所示,图3示出了本发明实施例三提供的一种文本相似度确定方法的流程示意图,其包括:
步骤S301:对第一文本和第二文本分别进行预处理,以获取长度相等的第一文本和第二文本。
步骤S302:获取第一文本和第二文本中每个词的词嵌入向量。
步骤S303:通过将第一文本和第二文本中每个词的词嵌入向量输入神经网络模型,获取第一文本的第一语义特征向量以及第二文本的第二语义特征向量。
步骤S304:利用自注意机制模型对第一语义特征向量和第二语义特征向量进行学习,以获取与所述第一语义特征向量对应的第一注意力权重向量和与第二语义特征向量对应的第二注意力权重向量。
步骤S305:根据第一语义特征向量和第一注意力权重向量获得带权重的第一语义特征向量,根据第二语义特征向量和第二注意力权重向量获得带权重的第二语义特征向量。
步骤S306:基于带权重的第一语义特征向量和带权重的第二语义特征向量,利用Tanimoto系数模型确定第一文本和第二文本的相似度。
在本发明实施例中,步骤S301可以具体为:针对每个文本,去除文本中的停用词、标点符号和标签中的至少一种,以去除文本中没有意义的符号或词语,得到长度相等的第一文本和第二文本,从而也有利于提高确定文本相似度的效率。
在本发明实施例中,步骤S302可以具体为采用ELMo模型获取经过预处理后的第一文本和第二文本中每个词的词嵌入向量。在其他实施例中,也可以采用word2vec等预训练好的模型获取预处理后的第一文本和第二文本中每个词的词嵌入向量。通过采用ELMo模型或word2vec模型,将文本中的每个词映射到词嵌入向量,以将词嵌入向量作为神经网络模型的输入。
在本发明实施例中,步骤S303可以具体为,通过将预处理后的第一文本中每个词的词嵌入向量输入神经网络模型,获取第一文本的第一语义特征向量;将预处理后的第二文本中每个词的词嵌入向量输入神经网络模型,获取第二文本的第二语义特征向量。
在一些实施例中,神经网络模型可以为卷积神经网络模型或BERT模型;在另一些实施例中,神经网络模型还可以为ALBERT模型,ALBERT模型可以学习文本更深层次的表征。另外,ALBERT模型利用词嵌入的参数因式分解和隐藏层间的参数共享两种方式,显著减少了模型的参数量,实现了模型轻量化,收敛速度更快,可以有效提高模型训练速度。
在本发明实施例中,通过利用自注意力机制模型可以获取表征关键词权重的语义特征向量,即带权重的文本语义特征向量。
作为一示例,预处理后的第一文本的第一语义特征向量S1={w1,w2,w3,...,wn},其中,wn代表第n个词嵌入向量。利用自注意力机制模型对第一语义特征向量进行学习,针对每个词嵌入向量,可以得到词嵌入向量与第一语义特征向量中每个词嵌入向量的权重序列;通过对权重序列进行归一化,基于归一化后的权重序列和词嵌入向量进行权重求和可以得到每个词嵌入向量的注意力权重,从而可以获得与第一语义特征向量对应的第一注意力权重向量X1={α1,...,αn},其中,αn代表第n个词嵌入向量对应的注意力权重。根据第一语义特征向量和第一注意力权重向量的乘积,得到带权重的第一语义特征向量。针对第二语义特征向量可以采用相同的方法,获得带权重的第二语义特征向量。
利用自注意力机制可以将词级别的特征组合成句子级别的特征,且不用考虑词与词之间的距离而直接计算各个词之间的依赖关系,能够学习到文本的内部结构,有利于更准确的表征文本的语义。
在本发明实施例中,步骤S306可以具体为,基于带权重的第一语义特征向量和带权重的第二语义特征向量,利用以下Tanimoto系数模型确定第一文本和第二文本的相似度:
其中,Ej代表相似度值,S1代表第一语义特征向量,S2代表第二语义特征向量。
在该实施例中,可以将Tanimoto系数模型中的第一语义特征向量S1替换为带权重的第一语义特征向量,第二语义特征向量S2替换为带权重的第二语义特征向量。
以上为本发明实施例提供的另一种文本相似度确定方法,通过对第一文本和第二文本分别进行预处理,得到长度相等的第一文本和第二文本;获取经过预处理后的第一文本和第二文本中每个词的词嵌入向量,通过将第一文本和第二文本中每个词的词嵌入向量输入神经网络模型,获取第一文本的第一语义特征向量以及第二文本的第二语义特征向量,利用自注意机制模型对第一语义特征向量和第二语义特征向量进行学习,以获取与所述第一语义特征向量对应的第一注意力权重向量和与第二语义特征向量对应的第二注意力权重向量;根据第一语义特征向量和第一注意力权重向量获得带权重的第一语义特征向量,根据第二语义特征向量和第二注意力权重向量获得带权重的第二语义特征向量;基于带权重的第一语义特征向量和带权重的第二语义特征向量,利用Tanimoto系数模型确定第一文本和第二文本的相似度。该方法通过神经网络模型结合Tanimoto系数模型确定第一文本和所述第二文本的相似度,有效提高了确定文本相似度的效率,另外,通过对文本进行预处理,进一步提高了确定文本相似度的效率,通过采用自注意力机制模型提高了确定文本相似度的准确性。
实施例四
参见图4所示,图4示出本发明实施例提供的一种文本相似度确定系统结构示意图,其包括:
文本嵌入层41,文本嵌入层41用于获取第一文本和第二文本中每个词的词嵌入向量;
文本表征层42,文本表征层42用于通过将第一文本和第二文本中每个词的词嵌入向量输入神经网络模型,获取第一文本的第一语义特征向量以及第二文本的第二语义特征向量;
相似度确定层43,相似度确定层43用于基于第一语义特征向量和第二语义特征向量,利用Tanimoto系数模型确定第一文本和第二文本的相似度。
在本发明实施例中,文本嵌入层41可以具体为采用ELMo模型获取第一文本和第二文本中每个词的词嵌入向量。在其他实施例中,也可以采用word2vec等预训练好的模型获取第一文本和第二文本中每个词的词嵌入向量。通过采用ELMo模型或word2vec模型,将文本中的每个词映射到词嵌入向量,以将词嵌入向量作为神经网络模型的输入。
在本发明实施例中,文本表征层42可以通过将第一文本中每个词的词嵌入向量输入神经网络模型,获取第一文本的第一语义特征向量;将第二文本中每个词的词嵌入向量输入神经网络模型,获取第二文本的第二语义特征向量。
在一些实施例中,神经网络模型可以为卷积神经网络模型或BERT模型;在另一些实施例中,神经网络模型还可以为ALBERT模型,ALBERT模型可以学习文本更深层次的表征。另外,ALBERT模型利用词嵌入的参数因式分解和隐藏层间的参数共享两种方式,显著减少了模型的参数量,实现了模型轻量化,收敛速度更快,可以有效提高模型训练速度。
在本发明实施例中,相似度确定层43可以基于第一语义特征向量和第二语义特征向量,利用以下Tanimoto系数模型确定第一文本和第二文本的相似度:
其中,Ej代表相似度值,S1代表第一语义特征向量,S2代表第二语义特征向量。
在另一些实施例中,文本相似度确定系统还可以包括:
自注意力层44,自注意力层44用于利用自注意机制模型对第一语义特征向量和第二语义特征向量进行学习,以获取与第一语义特征向量对应的第一注意力权重向量和与第二语义特征向量对应的第二注意力权重向量;
根据第一语义特征向量和第一注意力权重向量获得带权重的第一语义特征向量,根据第二语义特征向量和第二注意力权重向量获得带权重的第二语义特征向量。
其中,通过利用自注意力机制模型可以获取表征关键词权重的语义特征向量,即带权重的文本语义特征向量。
作为一示例,预处理后的第一文本的第一语义特征向量S1={w1,w2,w3,...,wn},其中,wn代表第n个词嵌入向量。利用自注意力机制模型对第一语义特征向量进行学习,针对每个词嵌入向量,可以得到词嵌入向量与第一语义特征向量中每个词嵌入向量的权重序列;通过对权重序列进行归一化,基于归一化后的权重序列和词嵌入向量进行权重求和可以得到每个词嵌入向量的注意力权重,从而可以获得与第一语义特征向量对应的第一注意力权重向量X1={α1,...,αn},其中,αn代表第n个词嵌入向量对应的注意力权重。根据第一语义特征向量和第一注意力权重向量的乘积,得到带权重的第一语义特征向量。针对第二语义特征向量可以采用相同的方法,获得带权重的第二语义特征向量。
利用自注意力机制可以将词级别的特征组合成句子级别的特征,且不用考虑词与词之间的距离而直接计算各个词之间的依赖关系,能够学习到文本的内部结构,有利于更准确的表征文本的语义。
相应地,相似度确定层43基于带权重的第一语义特征向量和带权重的第二语义特征向量,将Tanimoto系数模型中的第一语义特征向量S1替换为带权重的第一语义特征向量,第二语义特征向量S2替换为带权重的第二语义特征向量后,利用Tanimoto系数模型确定第一文本和第二文本的相似度。
以上为本发明实施例提供的一种文本相似度确定系统,通过文本嵌入层41获取第一文本和第二文本中每个词的词嵌入向量,文本表征层42用于通过将第一文本和第二文本中每个词的词嵌入向量输入神经网络模型,获取第一文本的第一语义特征向量以及第二文本的第二语义特征向量,自注意力层44用于利用自注意机制模型对第一语义特征向量和第二语义特征向量进行学习,以获取与第一语义特征向量对应的第一注意力权重向量和与第二语义特征向量对应的第二注意力权重向量;根据第一语义特征向量和第一注意力权重向量获得带权重的第一语义特征向量,根据第二语义特征向量和第二注意力权重向量获得带权重的第二语义特征向量;相似度确定层43用于基于带权重的第一语义特征向量和带权重的第二语义特征向量,利用Tanimoto系数模型确定所述第一文本和所述第二文本的相似度。该系统通过神经网络模型结合Tanimoto系数模型确定第一文本和所述第二文本的相似度,有效提高了确定文本相似度的效率,另外,通过采用自注意力机制模型提高了确定文本相似度的准确性。
实施例五
本发明实施例还提供了一种存储介质,该存储介质中存储有计算机程序,计算机程序被处理器执行时,能够实现如上实施例一所述的文本相似度确定方法:
步骤S101:获取第一文本和第二文本中每个词的词嵌入向量。
步骤S102:通过将第一文本和第二文本中每个词的词嵌入向量输入神经网络模型,获取第一文本的第一语义特征向量以及第二文本的第二语义特征向量。
步骤S103:基于第一语义特征向量和第二语义特征向量,利用Tanimoto系数模型确定第一文本和第二文本的相似度。
和/或,还能够实现如上实施例二所述的文本相似度确定方法:
步骤S201:对第一文本和第二文本分别进行预处理,以获取长度相等的第一文本和第二文本。
步骤S202:获取第一文本和第二文本中每个词的词嵌入向量。
步骤S203:通过将第一文本和第二文本中每个词的词嵌入向量输入神经网络模型,获取第一文本的第一语义特征向量以及第二文本的第二语义特征向量。
步骤S204:基于第一语义特征向量和第二语义特征向量,利用Tanimoto系数模型确定第一文本和第二文本的相似度。
和/或,还能够实现如上实施例三所述的文本相似度确定方法:
步骤S301:对第一文本和第二文本分别进行预处理,以获取长度相等的第一文本和第二文本。
步骤S302:获取第一文本和第二文本中每个词的词嵌入向量。
步骤S303:通过将第一文本和第二文本中每个词的词嵌入向量输入神经网络模型,获取第一文本的第一语义特征向量以及第二文本的第二语义特征向量。
步骤S304:利用自注意机制模型对第一语义特征向量和第二语义特征向量进行学习,以获取与所述第一语义特征向量对应的第一注意力权重向量和与第二语义特征向量对应的第二注意力权重向量。
步骤S305:根据第一语义特征向量和第一注意力权重向量获得带权重的第一语义特征向量,根据第二语义特征向量和第二注意力权重向量获得带权重的第二语义特征向量。
步骤S306:基于带权重的第一语义特征向量和带权重的第二语义特征向量,利用Tanimoto系数模型确定第一文本和第二文本的相似度。
需要说明的是,以上描述的处理、功能、方法和/或软件可被记录、存储或固定在一个或多个计算机可读存储介质中,计算机可读存储介质包括程序指令,程序指令将被计算机实现,以使处理器执行程序指令。存储介质还可单独包括程序指令、数据文件、数据结构等,或者包括其组合。存储介质或程序指令可被计算机软件领域的技术人员具体设计和理解,存储介质或指令对计算机软件领域的技术人员而言可以是公知和可用的。计算机可读存储介质的示例包括:磁性介质,例如硬盘、软盘和磁带;光学介质,例如,CDROM盘和DVD;磁光介质,例如,光盘;和硬件装置,具体被配置为存储和执行程序指令,例如,只读存储器(ROM)、随机存取存储器(RAM)、闪存等。程序指令的示例包括机器代码(例如,由编译器产生的代码)和包含高级代码的文件,可由计算机通过使用解释器来执行所述高级代码。所描述的硬件装置可被配置为用作一个或多个软件模块,以执行以上描述的操作和方法,反之亦然。另外,计算机可读存储介质可分布在联网的计算机系统中,可以分散的方式存储和执行计算机可读代码或程序指令。
实施例六
参见图5所示,图5示出了本发明实施例提供的一种设备结构示意图,其包括:
存储器51和处理器52,存储器51中存储有计算机程序,计算机程序被处理器52执行时能够实现如上实施例一至实施例三中任意一个实施例所述的文本相似度确定方法。
需要说明的是,该设备可以包括一个或多个存储器51和处理器52,存储器51和处理器52可以通过总线或者其他方式连接。存储器51作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器52通过运行存储在存储器中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现如上所述的文本相似度确定方法。
虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (11)
1.一种文本相似度确定方法,其特征在于,包括:
获取第一文本和第二文本中每个词的词嵌入向量;
通过将所述第一文本和所述第二文本中每个词的词嵌入向量输入神经网络模型,获取所述第一文本的第一语义特征向量以及所述第二文本的第二语义特征向量;
基于所述第一语义特征向量和所述第二语义特征向量,利用Tanimoto系数模型确定所述第一文本和所述第二文本的相似度。
3.根据权利要求1所述的方法,其特征在于,在所述获取第一文本和第二文本中每个词的词嵌入向量之前,所述方法还包括:
对所述第一文本和所述第二文本分别进行预处理,以获取长度相等的所述第一文本和所述第二文本。
4.根据权利要求3所述的方法,其特征在于,对所述第一文本和所述第二文本分别进行预处理,以获取长度相等的所述第一文本和所述第二文本,包括:针对每个文本,去除文本中的停用词、标点符号和标签中的至少一种。
5.根据权利要求1所述的方法,其特征在于,所述获取第一文本和第二文本中每个词的词嵌入向量,包括:
利用ELMo模型获取所述第一文本和所述第二文本中每个词的词嵌入向量。
6.根据权利要求1所述的方法,其特征在于,所述通过将所述第一文本和所述第二文本中每个词的词嵌入向量输入神经网络模型,获取所述第一文本的第一语义特征向量以及所述第二文本的第二语义特征向量,包括:
通过将所述第一文本和所述第二文本中每个词的词嵌入向量输入ALBERT模型,获取所述第一文本的所述第一语义特征向量以及所述第二文本的所述第二语义特征向量。
7.根据权利要求1至6中任意一项所述的方法,其特征在于,所述通过将所述第一文本和所述第二文本中每个词的词嵌入向量输入神经网络模型,获取所述第一文本的第一语义特征向量以及所述第二文本的第二语义特征向量之后,还包括:
利用自注意机制模型对所述第一语义特征向量和所述第二语义特征向量进行学习,以获取与所述第一语义特征向量对应的第一注意力权重向量和与所述第二语义特征向量对应的第二注意力权重向量;
根据所述第一语义特征向量和所述第一注意力权重向量获得带权重的第一语义特征向量,根据所述第二语义特征向量和所述第二注意力权重向量获得带权重的第二语义特征向量;
基于所述第一语义特征向量和所述第二语义特征向量,利用Tanimoto系数模型确定所述第一文本和所述第二文本的相似度,包括:
基于所述带权重的第一语义特征向量和所述带权重的第二语义特征向量,利用Tanimoto系数模型确定所述第一文本和所述第二文本的相似度。
8.一种文本相似度确定系统,其特征在于,包括:
文本嵌入层,所述文本嵌入层用于获取第一文本和第二文本中每个词的词嵌入向量;
文本表征层,所述文本表征层用于通过将所述第一文本和所述第二文本中每个词的词嵌入向量输入神经网络模型,获取所述第一文本的第一语义特征向量以及所述第二文本的第二语义特征向量;
相似度确定层,所述相似度确定层用于基于所述第一语义特征向量和所述第二语义特征向量,利用Tanimoto系数模型确定所述第一文本和所述第二文本的相似度。
9.根据权利要求8所述的文本相似度确定系统,其特征在于,所述文本相似度确定系统还包括:
自注意力层,所述自注意力层用于利用自注意机制模型对所述第一语义特征向量和所述第二语义特征向量进行学习,以获取与所述第一语义特征向量对应的第一注意力权重向量和与所述第二语义特征向量对应的第二注意力权重向量;
根据所述第一语义特征向量和所述第一注意力权重向量获得带权重的第一语义特征向量,根据所述第二语义特征向量和所述第二注意力权重向量获得带权重的第二语义特征向量。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能够实现如上权利要求1至7中任意一项所述的文本相似度确定方法。
11.一种设备,其特征在于,所述设备包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时能够实现如上权利要求1至7中任意一项所述的文本相似度确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110117862.2A CN112765328B (zh) | 2021-01-28 | 一种文本相似度确定方法、系统、存储介质以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110117862.2A CN112765328B (zh) | 2021-01-28 | 一种文本相似度确定方法、系统、存储介质以及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112765328A true CN112765328A (zh) | 2021-05-07 |
CN112765328B CN112765328B (zh) | 2024-05-31 |
Family
ID=
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117172220A (zh) * | 2023-11-02 | 2023-12-05 | 北京国电通网络技术有限公司 | 文本相似信息生成方法、装置、设备和计算机可读介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101806151B1 (ko) * | 2016-07-21 | 2017-12-07 | 숭실대학교산학협력단 | 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체 |
CN110321558A (zh) * | 2019-06-18 | 2019-10-11 | 平安普惠企业管理有限公司 | 一种基于自然语义理解的反作弊方法及相关设备 |
CN110928997A (zh) * | 2019-12-04 | 2020-03-27 | 北京文思海辉金信软件有限公司 | 意图识别方法、装置、电子设备及可读存储介质 |
CN111209395A (zh) * | 2019-12-27 | 2020-05-29 | 铜陵中科汇联科技有限公司 | 一种短文本相似度计算系统及其训练方法 |
CN111460248A (zh) * | 2019-01-19 | 2020-07-28 | 北京嘀嘀无限科技发展有限公司 | 用于线上到线下服务的系统和方法 |
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101806151B1 (ko) * | 2016-07-21 | 2017-12-07 | 숭실대학교산학협력단 | 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체 |
CN111460248A (zh) * | 2019-01-19 | 2020-07-28 | 北京嘀嘀无限科技发展有限公司 | 用于线上到线下服务的系统和方法 |
CN110321558A (zh) * | 2019-06-18 | 2019-10-11 | 平安普惠企业管理有限公司 | 一种基于自然语义理解的反作弊方法及相关设备 |
CN110928997A (zh) * | 2019-12-04 | 2020-03-27 | 北京文思海辉金信软件有限公司 | 意图识别方法、装置、电子设备及可读存储介质 |
CN111209395A (zh) * | 2019-12-27 | 2020-05-29 | 铜陵中科汇联科技有限公司 | 一种短文本相似度计算系统及其训练方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117172220A (zh) * | 2023-11-02 | 2023-12-05 | 北京国电通网络技术有限公司 | 文本相似信息生成方法、装置、设备和计算机可读介质 |
CN117172220B (zh) * | 2023-11-02 | 2024-02-02 | 北京国电通网络技术有限公司 | 文本相似信息生成方法、装置、设备和计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11960519B2 (en) | Classifying data objects | |
CN109325108B (zh) | 查询处理方法、装置、服务器及存储介质 | |
CN111767408A (zh) | 一种基于多种神经网络集成的因果事理图谱构建方法 | |
US11010664B2 (en) | Augmenting neural networks with hierarchical external memory | |
CN110990555B (zh) | 端到端检索式对话方法与系统及计算机设备 | |
CN110678882B (zh) | 使用机器学习从电子文档选择回答跨距的方法及系统 | |
WO2019223362A1 (zh) | 自动问答方法及装置 | |
US20190057084A1 (en) | Method and device for identifying information | |
WO2021212601A1 (zh) | 一种基于图像的辅助写作方法、装置、介质及设备 | |
CN113761868B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
US20220230061A1 (en) | Modality adaptive information retrieval | |
US20230107409A1 (en) | Ensembling mixture-of-experts neural networks | |
US20230154161A1 (en) | Memory-optimized contrastive learning | |
CN117473053A (zh) | 基于大语言模型的自然语言问答方法、装置、介质及设备 | |
CN112307738A (zh) | 用于处理文本的方法和装置 | |
CN112084776A (zh) | 相似文章的检测方法、装置、服务器和计算机存储介质 | |
CN116186219A (zh) | 一种人机对话交互方法方法、系统及存储介质 | |
CN116483979A (zh) | 基于人工智能的对话模型训练方法、装置、设备及介质 | |
CN112765328B (zh) | 一种文本相似度确定方法、系统、存储介质以及设备 | |
CN112765328A (zh) | 一种文本相似度确定方法、系统、存储介质以及设备 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
CN115203388A (zh) | 机器阅读理解方法、装置、计算机设备和存储介质 | |
CN113157896B (zh) | 一种语音对话生成方法、装置、计算机设备及存储介质 | |
CN116975298B (zh) | 一种基于nlp的现代化社会治理调度系统及方法 | |
WO2023150355A1 (en) | Merging elements of sequences during neural network processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |