CN111553168A

CN111553168A - 一种双语短文本匹配方法

Info

Publication number: CN111553168A
Application number: CN202010386142.1A
Authority: CN
Inventors: 王春辉; 胡勇
Original assignee: Knowledge Intelligence Technology Beijing Co ltd
Current assignee: Knowledge Intelligence Technology Beijing Co ltd
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2020-08-18

Abstract

本发明公开一种双语短文本匹配方法。所述方法包括：建立双语LDA模型；将包含相同主题的不同语言的两个短文本，分别输入双语LDA模型，得到两个短文本的主题表示；将两个短文本分别经过embedding、双向LSTM，得到两个短文本的语义表示；将两个短文本的主题表示和语义表示分别串联起来，得到两个短文本向量；计算所述两个短文本向量的相似度，如果相似度大于设定的阈值，则所述两个短文本相似。本发明通过建立双语LDA模型，将获得的短文本的主题表示与语义表示串联，扩展了短文本的语义信息，缓解了跨语言短文本的语义鸿沟，提高了跨语言短文本匹配的准确度。

Description

一种双语短文本匹配方法

技术领域

本发明属于自然语言理解技术领域，具体涉及一种双语短文本匹配方法。

背景技术

文本匹配在自然语言理解中占有很重要的地位。文本匹配可以应用于大量的自然语言处理任务中，例如信息检索、问答系统、复述问题、对话系统、机器翻译等等。这些自然语言处理任务在很大程度上都可以抽象成文本匹配问题，比如，信息检索可以归结为搜索词和文档资源的匹配，问答系统可以归结为问题和候选答案的匹配，复述问题可以归结为两个同义句的匹配，对话系统可以归结为前一句话和回复的匹配，机器翻译则可以归结为两种语言的匹配。

传统的文本匹配技术包括话题模型、词匹配模型、VSM(Vector Space Model，向量空间模型)等方法，主要是基于关键词的匹配问题。这一类模型需要大量的人工定义和抽取的特征作为基础，而这些特征是任务相关的，无法直接应用于其它任务上。基于深度神经网络的方法可以自动抽取原始数据中的特征，节约了大量人工设计特征带来的人力物力开销。

深度文本匹配模型基于文本表示，抽取句子主要成分，将文本序列转化为向量表示。在此过程中，可以基于DNN、CNN或RNN模型对整个文本进行建模。通常使用基于双向LSTM模型捕获句子内的长距离依赖关系。还有一种基于CNN的交互式文本匹配模型，它的优势是可以很好地把握语义焦点，对上下文重要性合理建模，防止语义焦点出现偏差。目前基于深度神经网络的方法提取短文本向量表示，随后计算待匹配文本之间的向量相似度。这种方式存在一个明显的问题，即文本过短导致可提取的特征太少，简单套用深度神经网络模型很难取得良好的效果。

发明内容

为了解决现有技术中存在的上述问题，本发明提出一种引入双语主题知识的双语短文本匹配方法。

为实现上述目的，本发明采用如下技术方案：

一种双语短文本匹配方法，包括以下步骤：

步骤1，建立双语LDA(Latent Dirichlet Allocation，文档主题生成模型)模型；

步骤2，将包含相同主题的不同语言的两个短文本，分别输入双语LDA模型，得到两个短文本的主题表示；

步骤3，将两个短文本分别经过embedding、双向LSTM(Long Short-Term Memory，长短期记忆网络)，得到两个短文本的语义表示；

步骤4，将两个短文本的主题表示和语义表示分别串联起来，得到两个短文本向量；

步骤5，计算所述两个短文本向量的相似度，如果相似度大于设定的阈值，则所述两个短文本相似。

与现有技术相比，本发明具有以下有益效果：

本发明通过建立双语LDA模型，将包含相同主题的不同语言的两个短文本分别输入双语LDA模型，得到两个短文本的主题表示，将两个短文本分别经过embedding、双向LSTM，得到两个短文本的语义表示，将两个短文本的主题表示和语义表示分别串联起来，得到两个短文本向量，计算所述两个短文本向量的相似度，根据相似度的大小判断两个短文本是否相似。本发明通过建立双语LDA模型，将获得的短文本的主题表示与语义表示串联，扩展了短文本的语义信息，缓解了跨语言短文本的语义鸿沟，提高了跨语言短文本匹配的准确度。

附图说明

图1为双语短文本匹配的结构框图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明实施例一种双语短文本匹配方法，包括以下步骤：

S101、建立双语LDA模型；

S102、将包含相同主题的不同语言的两个短文本，分别输入双语LDA模型，得到两个短文本的主题表示；

S103、将两个短文本分别经过embedding、双向LSTM，得到两个短文本的语义表示；

S104、将两个短文本的主题表示和语义表示分别串联起来，得到两个短文本向量；

S105、计算所述两个短文本向量的相似度，如果相似度大于设定的阈值，则所述两个短文本相似。

在本实施例中，步骤S101用于建立双语LDA模型。本实施例利用双语LDA模型，从双语(两种不同语言，即源语言和目标语言)文档中挖掘双语主题信息，并将其映射到同一主题空间。双语LDA采用隐含Dirichlet分布对双语主题信息进行建模，并假设一个文档对中的两个文档尽管不属于同一种语言但共享相同的主题分布。

在本实施例中，步骤S102用于将两个待匹配的短文本分别输入双语LDA模型，得到两个短文本的主题表示。短文本是指由较少数量的单词构成的文本，如小于10个英文单词或20个汉字。两个短文本采用不同的语言，如英文和中文。当然，为了能够匹配成功，这两个短文本还须包含相同的主题分布。

在本实施例中，步骤S103用于得到两个短文本的语义表示。两个短文本首先经embedding向量化，然后经双向LSTM处理，得到两个短文本的语义表示。双向LSTM通过进行前向语义与后向语义融合，可得到很好的语义表示。

在本实施例中，步骤S104用于将两个短文本的主题表示和语义表示分别串联起来，得到两个短文本的向量表示。串联后的短文本向量，由于增加了主题表示，因此扩展了短文本的语义信息，解弥补了由于文本过短信息量小的不足。

在本实施例中，步骤S105用于匹配两个短文本。匹配方法是：先计算两个短文本向量的相似度，然后将所述相似度与设定的阈值进行比较，如相似度大于设定的阈值，则认为两个短文本相似。相似度一般采用cosine相似度，两个向量a、b的cosine相似度为：

作为一种可选实施例，所述步骤1以语料库中的文档为训练样本建立双语LDA模型，具体包括以下步骤：

S1011、给语料库中每个文档中的每个词随机地赋予一个主题序号k，1≤k≤K，K为主题总数；

S1012、针对每个词，根据文档中其它词的主题序号预测当前词的主题概率分布，然后根据所述主题概率分布采样一个主题序号作为当前词的主题；

S1013、重复步骤1.2，直至文档中所有词的主题序号不再变化为止；

S1014、统计所有词的主题，得到文档-主题概率分布θ，以及源语言短文本第t个词的词-主题概率分布

和目标语言短文本第t个词的词-主题概率分布

θ＝{θ₁,θ₂,…,θ_K}

式中，k为主题序号，1≤k≤K，K为主题总数；α、β^S、β^T分别为预设的文档-主题、源语言短文本的词-主题、目标语言短文本的词-主题的共轭先验概率，源语言和目标语言分别为两个短文本采用的语言；

为源语言短文本第t个词被分配为第k个主题的次数；

为目标语言短文本第t个词被分配为第k个主题的次数。

本实施例给出了一种建立双语LDA模型的技术方案。表1是应用双语LDA模型对输入的中文(拼音)短文本和英文短文本处理后的结果。由表1可以看出，双语LDA模型确实能将不同语言中主题相同的词归为同一主题下。

表1双语LDA模型的输出样例展示

作为一种可选实施例，所述阈值为0.5。

本实施例给出了根据两个短文本向量的相似度判定是否相似的阈值。值得说明的是，本实施例给出的阈值0.5只是一种较佳的实施例，并不排斥其它可行的阈值取值。