CN111553168A - 一种双语短文本匹配方法 - Google Patents

一种双语短文本匹配方法 Download PDF

Info

Publication number
CN111553168A
CN111553168A CN202010386142.1A CN202010386142A CN111553168A CN 111553168 A CN111553168 A CN 111553168A CN 202010386142 A CN202010386142 A CN 202010386142A CN 111553168 A CN111553168 A CN 111553168A
Authority
CN
China
Prior art keywords
short
bilingual
short text
word
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010386142.1A
Other languages
English (en)
Inventor
王春辉
胡勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Knowledge Intelligence Technology Beijing Co ltd
Original Assignee
Knowledge Intelligence Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Knowledge Intelligence Technology Beijing Co ltd filed Critical Knowledge Intelligence Technology Beijing Co ltd
Priority to CN202010386142.1A priority Critical patent/CN111553168A/zh
Publication of CN111553168A publication Critical patent/CN111553168A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种双语短文本匹配方法。所述方法包括:建立双语LDA模型;将包含相同主题的不同语言的两个短文本,分别输入双语LDA模型,得到两个短文本的主题表示;将两个短文本分别经过embedding、双向LSTM,得到两个短文本的语义表示;将两个短文本的主题表示和语义表示分别串联起来,得到两个短文本向量;计算所述两个短文本向量的相似度,如果相似度大于设定的阈值,则所述两个短文本相似。本发明通过建立双语LDA模型,将获得的短文本的主题表示与语义表示串联,扩展了短文本的语义信息,缓解了跨语言短文本的语义鸿沟,提高了跨语言短文本匹配的准确度。

Description

一种双语短文本匹配方法
技术领域
本发明属于自然语言理解技术领域,具体涉及一种双语短文本匹配方法。
背景技术
文本匹配在自然语言理解中占有很重要的地位。文本匹配可以应用于大量的自然语言处理任务中,例如信息检索、问答系统、复述问题、对话系统、机器翻译等等。这些自然语言处理任务在很大程度上都可以抽象成文本匹配问题,比如,信息检索可以归结为搜索词和文档资源的匹配,问答系统可以归结为问题和候选答案的匹配,复述问题可以归结为两个同义句的匹配,对话系统可以归结为前一句话和回复的匹配,机器翻译则可以归结为两种语言的匹配。
传统的文本匹配技术包括话题模型、词匹配模型、VSM(Vector Space Model,向量空间模型)等方法,主要是基于关键词的匹配问题。这一类模型需要大量的人工定义和抽取的特征作为基础,而这些特征是任务相关的,无法直接应用于其它任务上。基于深度神经网络的方法可以自动抽取原始数据中的特征,节约了大量人工设计特征带来的人力物力开销。
深度文本匹配模型基于文本表示,抽取句子主要成分,将文本序列转化为向量表示。在此过程中,可以基于DNN、CNN或RNN模型对整个文本进行建模。通常使用基于双向LSTM模型捕获句子内的长距离依赖关系。还有一种基于CNN的交互式文本匹配模型,它的优势是可以很好地把握语义焦点,对上下文重要性合理建模,防止语义焦点出现偏差。目前基于深度神经网络的方法提取短文本向量表示,随后计算待匹配文本之间的向量相似度。这种方式存在一个明显的问题,即文本过短导致可提取的特征太少,简单套用深度神经网络模型很难取得良好的效果。
发明内容
为了解决现有技术中存在的上述问题,本发明提出一种引入双语主题知识的双语短文本匹配方法。
为实现上述目的,本发明采用如下技术方案:
一种双语短文本匹配方法,包括以下步骤:
步骤1,建立双语LDA(Latent Dirichlet Allocation,文档主题生成模型)模型;
步骤2,将包含相同主题的不同语言的两个短文本,分别输入双语LDA模型,得到两个短文本的主题表示;
步骤3,将两个短文本分别经过embedding、双向LSTM(Long Short-Term Memory,长短期记忆网络),得到两个短文本的语义表示;
步骤4,将两个短文本的主题表示和语义表示分别串联起来,得到两个短文本向量;
步骤5,计算所述两个短文本向量的相似度,如果相似度大于设定的阈值,则所述两个短文本相似。
与现有技术相比,本发明具有以下有益效果:
本发明通过建立双语LDA模型,将包含相同主题的不同语言的两个短文本分别输入双语LDA模型,得到两个短文本的主题表示,将两个短文本分别经过embedding、双向LSTM,得到两个短文本的语义表示,将两个短文本的主题表示和语义表示分别串联起来,得到两个短文本向量,计算所述两个短文本向量的相似度,根据相似度的大小判断两个短文本是否相似。本发明通过建立双语LDA模型,将获得的短文本的主题表示与语义表示串联,扩展了短文本的语义信息,缓解了跨语言短文本的语义鸿沟,提高了跨语言短文本匹配的准确度。
附图说明
图1为双语短文本匹配的结构框图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明实施例一种双语短文本匹配方法,包括以下步骤:
S101、建立双语LDA模型;
S102、将包含相同主题的不同语言的两个短文本,分别输入双语LDA模型,得到两个短文本的主题表示;
S103、将两个短文本分别经过embedding、双向LSTM,得到两个短文本的语义表示;
S104、将两个短文本的主题表示和语义表示分别串联起来,得到两个短文本向量;
S105、计算所述两个短文本向量的相似度,如果相似度大于设定的阈值,则所述两个短文本相似。
在本实施例中,步骤S101用于建立双语LDA模型。本实施例利用双语LDA模型,从双语(两种不同语言,即源语言和目标语言)文档中挖掘双语主题信息,并将其映射到同一主题空间。双语LDA采用隐含Dirichlet分布对双语主题信息进行建模,并假设一个文档对中的两个文档尽管不属于同一种语言但共享相同的主题分布。
在本实施例中,步骤S102用于将两个待匹配的短文本分别输入双语LDA模型,得到两个短文本的主题表示。短文本是指由较少数量的单词构成的文本,如小于10个英文单词或20个汉字。两个短文本采用不同的语言,如英文和中文。当然,为了能够匹配成功,这两个短文本还须包含相同的主题分布。
在本实施例中,步骤S103用于得到两个短文本的语义表示。两个短文本首先经embedding向量化,然后经双向LSTM处理,得到两个短文本的语义表示。双向LSTM通过进行前向语义与后向语义融合,可得到很好的语义表示。
在本实施例中,步骤S104用于将两个短文本的主题表示和语义表示分别串联起来,得到两个短文本的向量表示。串联后的短文本向量,由于增加了主题表示,因此扩展了短文本的语义信息,解弥补了由于文本过短信息量小的不足。
在本实施例中,步骤S105用于匹配两个短文本。匹配方法是:先计算两个短文本向量的相似度,然后将所述相似度与设定的阈值进行比较,如相似度大于设定的阈值,则认为两个短文本相似。相似度一般采用cosine相似度,两个向量a、b的cosine相似度为:
Figure BDA0002483900660000041
作为一种可选实施例,所述步骤1以语料库中的文档为训练样本建立双语LDA模型,具体包括以下步骤:
S1011、给语料库中每个文档中的每个词随机地赋予一个主题序号k,1≤k≤K,K为主题总数;
S1012、针对每个词,根据文档中其它词的主题序号预测当前词的主题概率分布,然后根据所述主题概率分布采样一个主题序号作为当前词的主题;
S1013、重复步骤1.2,直至文档中所有词的主题序号不再变化为止;
S1014、统计所有词的主题,得到文档-主题概率分布θ,以及源语言短文本第t个词的词-主题概率分布
Figure BDA0002483900660000042
和目标语言短文本第t个词的词-主题概率分布
Figure BDA0002483900660000043
Figure BDA0002483900660000044
Figure BDA0002483900660000045
Figure BDA0002483900660000051
Figure BDA0002483900660000052
θ={θ12,…,θK}
Figure BDA0002483900660000053
式中,k为主题序号,1≤k≤K,K为主题总数;α、βS、βT分别为预设的文档-主题、源语言短文本的词-主题、目标语言短文本的词-主题的共轭先验概率,源语言和目标语言分别为两个短文本采用的语言;
Figure BDA0002483900660000054
为源语言短文本第t个词被分配为第k个主题的次数;
Figure BDA0002483900660000055
为目标语言短文本第t个词被分配为第k个主题的次数。
本实施例给出了一种建立双语LDA模型的技术方案。表1是应用双语LDA模型对输入的中文(拼音)短文本和英文短文本处理后的结果。由表1可以看出,双语LDA模型确实能将不同语言中主题相同的词归为同一主题下。
表1双语LDA模型的输出样例展示
Figure BDA0002483900660000056
作为一种可选实施例,所述阈值为0.5。
本实施例给出了根据两个短文本向量的相似度判定是否相似的阈值。值得说明的是,本实施例给出的阈值0.5只是一种较佳的实施例,并不排斥其它可行的阈值取值。

Claims (3)

1.一种双语短文本匹配方法,其特征在于,包括以下步骤:
步骤1,建立双语LDA模型;
步骤2,将包含相同主题的不同语言的两个短文本,分别输入双语LDA模型,得到两个短文本的主题表示;
步骤3,将两个短文本分别经过embedding、双向LSTM,得到两个短文本的语义表示;
步骤4,将两个短文本的主题表示和语义表示分别串联起来,得到两个短文本向量;
步骤5,计算所述两个短文本向量的相似度,如果相似度大于设定的阈值,则所述两个短文本相似。
2.根据权利要求1所述的双语短文本匹配方法,其特征在于,所述步骤1以语料库中的文档为训练样本建立双语LDA模型,具体包括以下步骤:
步骤1.1,给语料库中每个文档中的每个词随机地赋予一个主题序号k,1≤k≤K,K为主题总数;
步骤1.2,针对每个词,根据文档中其它词的主题序号预测当前词的主题概率分布,然后根据所述主题概率分布采样一个主题序号作为当前词的主题;
步骤1.3,重复步骤1.2,直至文档中所有词的主题序号不再变化为止;
步骤1.4,统计所有词的主题,得到文档-主题概率分布θ,以及源语言短文本第t个词的词-主题概率分布
Figure FDA0002483900650000011
和目标语言短文本第t个词的词-主题概率分布
Figure FDA0002483900650000012
Figure FDA0002483900650000013
Figure FDA0002483900650000014
Figure FDA0002483900650000015
Figure FDA0002483900650000021
θ={θ12,…,θK}
Figure FDA0002483900650000022
式中,k为主题序号,1≤k≤K,K为主题总数;α、βS、βT分别为预设的文档-主题、源语言短文本的词-主题、目标语言短文本的词-主题的共轭先验概率,源语言和目标语言分别为两个短文本采用的语言;
Figure FDA0002483900650000023
为源语言短文本第t个词被分配为第k个主题的次数;
Figure FDA0002483900650000024
为目标语言短文本第t个词被分配为第k个主题的次数。
3.根据权利要求1所述的双语短文本匹配方法,其特征在于,所述阈值为0.5。
CN202010386142.1A 2020-05-09 2020-05-09 一种双语短文本匹配方法 Pending CN111553168A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010386142.1A CN111553168A (zh) 2020-05-09 2020-05-09 一种双语短文本匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010386142.1A CN111553168A (zh) 2020-05-09 2020-05-09 一种双语短文本匹配方法

Publications (1)

Publication Number Publication Date
CN111553168A true CN111553168A (zh) 2020-08-18

Family

ID=72006076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010386142.1A Pending CN111553168A (zh) 2020-05-09 2020-05-09 一种双语短文本匹配方法

Country Status (1)

Country Link
CN (1) CN111553168A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022058882A1 (en) * 2020-09-16 2022-03-24 International Business Machines Corporation Zero-shot cross-lingual transfer learning

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015079591A1 (en) * 2013-11-27 2015-06-04 Nec Corporation Crosslingual text classification method using expected frequencies
CN108519971A (zh) * 2018-03-23 2018-09-11 中国传媒大学 一种基于平行语料库的跨语种新闻主题相似性对比方法
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015079591A1 (en) * 2013-11-27 2015-06-04 Nec Corporation Crosslingual text classification method using expected frequencies
CN108519971A (zh) * 2018-03-23 2018-09-11 中国传媒大学 一种基于平行语料库的跨语种新闻主题相似性对比方法
CN109213995A (zh) * 2018-08-02 2019-01-15 哈尔滨工程大学 一种基于双语词嵌入的跨语言文本相似度评估技术

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022058882A1 (en) * 2020-09-16 2022-03-24 International Business Machines Corporation Zero-shot cross-lingual transfer learning
GB2614654A (en) * 2020-09-16 2023-07-12 Ibm Zero-shot cross-lingual transfer learning
US11875131B2 (en) 2020-09-16 2024-01-16 International Business Machines Corporation Zero-shot cross-lingual transfer learning

Similar Documents

Publication Publication Date Title
Yoshikawa et al. STAIR captions: Constructing a large-scale Japanese image caption dataset
US20240054767A1 (en) Multi-modal Model Training Method, Apparatus and Device, and Storage Medium
CN109960804B (zh) 一种题目文本句子向量生成方法及装置
CN110083710A (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
CN107247751B (zh) 基于lda主题模型的内容推荐方法
CN110555206A (zh) 一种命名实体识别方法、装置、设备及存储介质
CN112487139A (zh) 基于文本的自动出题方法、装置及计算机设备
CN113723105A (zh) 语义特征提取模型的训练方法、装置、设备及存储介质
CN110929022A (zh) 一种文本摘要生成方法及系统
CN109145946B (zh) 一种智能图像识别和描述方法
CN117493513A (zh) 一种基于向量和大语言模型的问答系统及方法
CN117332789A (zh) 一种面向对话场景的语义分析方法及系统
CN110633456B (zh) 语种识别方法、装置、服务器及存储介质
CN112749556A (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN116341519A (zh) 基于背景知识的事件因果关系抽取方法、装置及存储介质
CN111859950A (zh) 一种自动化生成讲稿的方法
CN114461366A (zh) 多任务模型训练方法、处理方法、电子设备及存储介质
CN111191413A (zh) 一种基于图排序模型的事件核心内容自动标记方法、装置及系统
CN111553168A (zh) 一种双语短文本匹配方法
CN112765977A (zh) 一种基于跨语言数据增强的分词方法及装置
CN116304046A (zh) 对话数据的处理方法、装置、存储介质及电子设备
CN112949284A (zh) 一种基于Transformer模型的文本语义相似度预测方法
CN112085985B (zh) 一种面向英语考试翻译题目的学生答案自动评分方法
CN116186244A (zh) 生成文本摘要的方法、训练摘要生成模型的方法及装置
Maredia et al. Comparing approaches for automatic question identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200818