CN111125350A

CN111125350A - 基于双语平行语料生成lda主题模型的方法及装置

Info

Publication number: CN111125350A
Application number: CN201911303453.0A
Authority: CN
Inventors: 毛红保
Original assignee: Iol Wuhan Information Technology Co ltd
Current assignee: Transn Beijing Information Technology Co ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-05-08
Anticipated expiration: 2039-12-17
Also published as: CN111125350B

Abstract

本发明实施例提供一种基于双语平行语料生成LDA主题模型的方法及装置，所述方法包括：对第一语言文档库和与第一语言文档库平行对应的第二语言文档库分别进行LDA主题建模，获得第一语言主题模型和第二语言主题模型；对第一语言主题模型和第二语言主题模型进行词语对齐，获得词语对齐关系；基于所述词语对齐关系，对第一语言主题模型和第二语言主题模型进行主题对齐，获得所有对齐的第一语言主题和第二语言主题；对于所有对齐的第一语言主题和第二语言主题下的若干组对齐的词语，调整每组对齐的词语隶属于各自语言主题的概率值，并对所述概率值进行归一化处理，获得新的LDA主题模型。本发明实施例提高了主题模型的精度。

Description

基于双语平行语料生成LDA主题模型的方法及装置

技术领域

本发明涉及自然语言处理技术领域，更具体地，涉及一种基于双语平行语料生成LDA主题模型的方法及装置。

背景技术

LDA(Latent Dirichlet Allocation，隐式狄利克雷分配)主题模型可以将文档库中每篇文档的主题以概率分布的形式给出，是用来在文档库中发现抽象主题的一种统计模型。其基本思想是，一篇文档可以包含多个主题，每个主题以一定概率隶属于该文档；文档中每一个词都由其中的一个主题生成，并且每个词语以一定概率隶属于某个主题。

LDA主题模型产生的主题分布可以看作文档的语义表示，使用主题向量和文档主题分布生成文档的向量表示，能够用于文档分类、聚类、内容丰富度分析、CTR预估等多种任务。

LDA主题建模的结果，会根据用户指定的主题数量生成若干个主题模型，每个主题模型包含：隶属于该主题的一组词语，以及每个词语隶属于该主题的概率。因为LDA主题模型是一种无监督的算法，生成的主题模型是在文档库中原始文本的基础上，通过概率统计和推断的方法训练而来，主题模型的精度，取决于主题包含的词语及其概率。因为这种无监督训练获得的主题模型具有不可解释性，加上任何一种语言都具有一词多义、一义多词等现象，导致主题模型中词语概率值存在不准确的问题。

发明内容

为了解决利用无监督训练方法获得的主题模型中词语概率值不准确的问题，本发明实施例提供一种基于双语平行语料生成LDA主题模型的方法及装置。

第一方面，本发明实施例提供一种基于双语平行语料生成LDA主题模型的方法，包括：

对第一语言文档库和与所述第一语言文档库平行对应的第二语言文档库分别进行LDA主题建模，获得第一语言主题模型和第二语言主题模型；

对所述第一语言主题模型和第二语言主题模型进行词语对齐，获得词语对齐关系；

基于所述词语对齐关系，对所述第一语言主题模型和第二语言主题模型进行主题对齐，获得所有对齐的第一语言主题和第二语言主题；

对于所述所有对齐的第一语言主题和第二语言主题下的若干组对齐的词语，调整每组对齐的词语隶属于各自语言主题的概率值，并对所述概率值进行归一化处理，获得新的LDA主题模型。

其中，对所述第一语言主题模型和第二语言主题模型进行词语对齐，获得词语对齐关系，具体包括：

在所述第一语言主题模型中，取出每个主题所属的前N个词语，形成第一关键词集合，并对所述第一关键词集合去重；

在所述第二语言主题模型中，取出每个主题所属的前N个词语，形成第二关键词集合，并对所述第二关键词集合进行去重；

将去重后的所述第一关键词集合与去重后的所述第二关键词集合中的词语进行对齐处理，获得词语对齐关系；

其中，N为大于等于1的自然数。

其中，基于词语对齐关系，对所述第一语言主题模型和第二语言主题模型进行主题对齐，获得所有对齐的第一语言主题和第二语言主题，具体包括：

基于词语对齐关系，考虑第i个第一语言主题和第j个第二语言主题中对齐的词语在各自的主题中的重要度排序，计算所述第i个第一语言主题和第j个第二语言主题中各组对齐的词语之间的一致性得分；

根据所述第i个第一语言主题和第j个第二语言主题中各组对齐的词语之间的一致性得分，计算所述第i个第一语言主题和第j个第二语言主题之间的一致性得分；

根据所述第i个第一语言主题和第j个第二语言主题之间的一致性得分，获得所述第一语言主题模型与第二语言主题模型之间的匹配度矩阵；

确定所述匹配度矩阵中既是所在行的最大值也是所在列的最大值的元素，根据所述元素获得对齐的第一语言主题和第二语言主题；

其中，i，j均为大于等于1的自然数。

其中，对于所述所有对齐的第一语言主题和第二语言主题下的若干组对齐的词语，调整每组对齐的词语隶属于各自语言主题的概率值，具体为：

对于所述所有对齐的第一语言主题和第二语言主题中的若干组对齐的词语，采用均值化处理方法调整每组对齐的词语隶属于各自语言主题的概率值。

其中，对第一语言文档库和与所述第一语言文档库平行对应的第二语言文档库分别进行LDA主题建模，获得第一语言主题模型和第二语言主题模型，具体包括：

使用基于python语言的gensim工具，对所述第一语言文档库和第二语言文档库分别进行LDA主题建模，获得第一语言主题模型和第二语言主题模型；

其中，建模时设置相同的主题数量M。

其中，根据所述第i个第一语言主题和第j个第二语言主题中各组对齐的词语之间的一致性得分，计算所述第i个第一语言主题和第j个第二语言主题之间的一致性得分，具体为：

将所述第i个第一语言主题和第j个第二语言主题中各组对齐的词语之间的一致性得分进行相加，获得所述第i个第一语言主题和第j个第二语言主题之间的一致性得分。

第二方面，本发明实施例提供一种基于双语平行语料生成LDA主题模型的装置，包括：

主题建模模块，用于对第一语言文档库和与所述第一语言文档库平行对应的第二语言文档库分别进行LDA主题建模，获得第一语言主题模型和第二语言主题模型；

词语对齐模块，用于对所述第一语言主题模型和第二语言主题模型进行词语对齐，获得词语对齐关系；

主题对齐模块，用于基于所述词语对齐关系，对所述第一语言主题模型和第二语言主题模型进行主题对齐，获得所有对齐的第一语言主题和第二语言主题；

调整模块，用于对于所述所有对齐的第一语言主题和第二语言主题下的若干组对齐的词语，调整每组对齐的词语隶属于各自语言主题的概率值，并对所述概率值进行归一化处理，获得新的LDA主题模型。

其中，所述主题对齐模块具体用于：

其中，i，j均为大于等于1且小于等于N的自然数。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的基于双语平行语料生成LDA主题模型的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的基于双语平行语料生成LDA主题模型的方法的步骤。

本发明实施例提供的基于双语平行语料生成LDA主题模型的方法及装置，通过结合双语语料，同时对文档库中两种语言的文档分别进行主题建模，通过词语对齐将每个主题下的词语概率值进行均衡和调整，从而达到提高主题模型精度的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于双语平行语料生成LDA主题模型的方法的流程示意图；

图2为本发明实施例提供的词语对齐关系的示意图；

图3为本发明实施例提供的基于双语平行语料生成LDA主题模型的装置的结构示意图；

图4为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明实施例提供的基于双语平行语料生成LDA主题模型的方法的流程示意图，包括：

步骤100、对第一语言文档库和与所述第一语言文档库平行对应的第二语言文档库分别进行LDA主题建模，获得第一语言主题模型和第二语言主题模型；

具体地，建立双语平行文档库，所述双语平行文档库包括第一语言文档库和与所述第一语言文档库平行对应的第二语言文档库，例如，建立中、英双语平行语料的文档库，确保双语语料的质量。

对第一语言文档库进行LDA主题建模，对第二语言文档库进行LDA主题建模，在一个实施例中，对第一语言文档库和与所述第一语言文档库平行对应的第二语言文档库分别进行LDA主题建模，获得第一语言主题模型和第二语言主题模型，具体包括：

其中，建模时设置相同的主题数量M。

步骤101、对所述第一语言主题模型和第二语言主题模型进行词语对齐，获得词语对齐关系；

具体地，在所述第一语言主题模型中，取出每个主题所属的前N个词语，形成第一关键词集合，并对所述第一关键词集合去重；

其中，N为大于等于1的自然数。

例如，在中文主题模型中，取出每个主题所属的主要词语(前N个词语)，形成中文主题模型的关键词集合Words_ch，并对集合Words_ch中的词语去掉重复；在英文主题模型中，取出每个主题所属的主要词语(前N个词语)，形成英文主题模型的关键词集合Words_en，并对集合Words_en中的词语去掉重复。

将Words_ch与Words_en中的词语进行对齐处理，可以通过人工对齐或在翻译工具的辅助下进行人工对齐，最终获得词语对齐关系。

步骤102、基于所述词语对齐关系，对所述第一语言主题模型和第二语言主题模型进行主题对齐，获得所有对齐的第一语言主题和第二语言主题；

具体地，利用词语对齐关系，进行主题对齐，获得所有对齐的第一语言主题和第二语言主题。

基于词语对齐关系，对所述第一语言主题模型和第二语言主题模型进行主题对齐，获得所有对齐的第一语言主题和第二语言主题，具体包括：

其中，i，j均为大于等于1的自然数。

具体地，对第i个第一语言主题Topic_ch(i)和第j个第二语言主题Topic_en(j)，分别计算主题匹配度m_ij。计算的方法是，基于词语对齐关系，考虑Topic_ch(i)和Topic_en(j)中对齐的词语在各自的主题中的重要度排序，若对齐的词语在各自主题中的重要度排序越趋于一致，则两个主题一致的可能性越大。因为每个主题中的词语是按重要度降序排列的，故重要度的一致性可通过相互对齐的词语在主题中位置下标的一致性来衡量，通过计算每组对齐的词语的一致性得分，获得两个主题的一致性得分，如图2所示，为本发明实施例提供的词语对齐关系的示意图。图2中，word_ch和p_ch分别为中文主题的词语和该词语隶属于主题的概率值；word_en和p_en分别为英文主题的词语和该词语隶属于主题的概率值。

若这两个主题有三组对齐的词语，则这三组词语的一致性得分分别为：

N-abs(0-0)＝N

N-abs(1-2)＝N-1

N-abs(2-1)＝N-1

其中，abs表示求绝对值。

然后，根据所述第i个第一语言主题和第j个第二语言主题中各组对齐的词语之间的一致性得分，计算所述第i个第一语言主题和第j个第二语言主题之间的一致性得分；

具体地，将所述第i个第一语言主题和第j个第二语言主题中各组对齐的词语之间的一致性得分进行相加，获得所述第i个第一语言主题和第j个第二语言主题之间的一致性得分。

接着上述例子，两个主题的一致性得分为三组词语的一致性得分之和，即3N-2。

可以理解的是，通过上述方法即可获得任意两个主题之间的一致性得分，形成所述第一语言主题模型与第二语言主题模型之间的匹配度矩阵mat(M×M)，矩阵中的每个元素表示为m_ij。

在矩阵mat中，若其中的某个元素m_ij既是所在行的最大值，也是所在列的最大值，则表示Topic_ch(i)和Topic_en(j)是对齐关系。通过这种方法找出所有对齐的第一语言主题和第二语言主题。

步骤103、对于所述所有对齐的第一语言主题和第二语言主题下的若干组对齐的词语，调整每组对齐的词语隶属于各自语言主题的概率值，并对所述概率值进行归一化处理，获得新的LDA主题模型。

具体地，基于所有对齐的第一语言主题和第二语言主题下的若干组对齐的词语，调整每组对齐的词语隶属于各自语言主题的概率值，并进行归一化处理，得到新的LDA主题模型。

在一个实施例中，对于所述所有对齐的第一语言主题和第二语言主题下的若干组对齐的词语，调整每组对齐的词语隶属于各自语言主题的概率值，具体为：

例如，针对已经对齐的中、英两个主题，存在若干组对齐的词语，调整每组对齐的词语的概率值，调整方法为均值化处理。如图2所示，图2中三组词语的概率调整方法为：

p1_ch’＝p1_en’＝(p1_ch+p1_en)/2

p2_ch’＝p3_en’＝(p2_ch+p3_en)/2

p3_ch’＝p2_en’＝(p3_ch+p2_en)/2

最后，对调整后的每组对齐的词语隶属于各自语言主题的概率值，进行归一化处理。

本发明实施例提供的基于双语平行语料生成LDA主题模型的方法，通过结合双语语料，同时对两种语言的文档分别进行主题建模，通过词语对齐将每个主题下的词语概率值进行均衡和调整，从而达到提高主题模型精度的目的。

如图3所示，为本发明实施例提供的基于双语平行语料生成LDA主题模型的装置的结构示意图，包括：主题建模模块310、词语对齐模块320、主题对齐模块330和调整模块340，其中，

主题建模模块310，用于对第一语言文档库和与所述第一语言文档库平行对应的第二语言文档库分别进行LDA主题建模，获得第一语言主题模型和第二语言主题模型；

具体地，主题建模模块310建立双语平行文档库，所述双语平行文档库包括第一语言文档库和与所述第一语言文档库平行对应的第二语言文档库，例如，建立中、英双语平行语料的文档库，确保双语语料的质量。

主题建模模块310对第一语言文档库进行LDA主题建模，对第二语言文档库进行LDA主题建模，在一个实施例中，主题建模模块310对第一语言文档库和与所述第一语言文档库平行对应的第二语言文档库分别进行LDA主题建模，获得第一语言主题模型和第二语言主题模型，具体包括：

其中，建模时设置相同的主题数量M。

词语对齐模块320，用于对所述第一语言主题模型和第二语言主题模型进行词语对齐，获得词语对齐关系；

具体地，词语对齐模块320在所述第一语言主题模型中，取出每个主题所属的前N个词语，形成第一关键词集合，并对所述第一关键词集合去重；

然后，词语对齐模块320在所述第二语言主题模型中，取出每个主题所属的前N个词语，形成第二关键词集合，并对所述第二关键词集合进行去重；

词语对齐模块320将去重后的所述第一关键词集合与去重后的所述第二关键词集合中的词语进行对齐处理，获得词语对齐关系；

其中，N为大于等于1的自然数。

词语对齐模块320将Words_ch与Words_en中的词语进行对齐处理，最终获得词语对齐关系。

主题对齐模块330，用于基于所述词语对齐关系，对所述第一语言主题模型和第二语言主题模型进行主题对齐，获得所有对齐的第一语言主题和第二语言主题；

主题对齐模块330具体用于：

其中，i，j均为大于等于1的自然数。

调整模块340，用于对于所述所有对齐的第一语言主题和第二语言主题下的若干组对齐的词语，调整每组对齐的词语隶属于各自语言主题的概率值，并对所述概率值进行归一化处理，获得新的LDA主题模型。

具体地，调整模块340，基于所有对齐的第一语言主题和第二语言主题下的若干组对齐的词语，调整每组对齐的词语隶属于各自语言主题的概率值，并进行归一化处理，得到新的LDA主题模型。

在一个实施例中，调整模块340具体用于：

例如，针对已经对齐的中、英两个主题，存在若干组对齐的词语，调整每组对齐的词语的概率值，调整方法为均值化处理。最后，对调整后的每组对齐的词语隶属于各自语言主题的概率值，进行归一化处理。

本发明实施例提供的基于双语平行语料生成LDA主题模型的装置，通过结合双语语料，同时对两种语言的文档分别进行主题建模，通过词语对齐将每个主题下的词语概率值进行均衡和调整，从而达到提高主题模型精度的目的。

图4为本发明实施例提供的电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储在存储器430上并可在处理器410上运行的计算机程序，以执行上述各方法实施例所提供的基于双语平行语料生成LDA主题模型的方法，例如包括：对第一语言文档库和与所述第一语言文档库平行对应的第二语言文档库分别进行LDA主题建模，获得第一语言主题模型和第二语言主题模型；对所述第一语言主题模型和第二语言主题模型进行词语对齐，获得词语对齐关系；基于所述词语对齐关系，对所述第一语言主题模型和第二语言主题模型进行主题对齐，获得所有对齐的第一语言主题和第二语言主题；对于所述所有对齐的第一语言主题和第二语言主题下的若干组对齐的词语，调整每组对齐的词语隶属于各自语言主题的概率值，并对所述概率值进行归一化处理，获得新的LDA主题模型。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例提供的基于双语平行语料生成LDA主题模型的方法，例如包括：对第一语言文档库和与所述第一语言文档库平行对应的第二语言文档库分别进行LDA主题建模，获得第一语言主题模型和第二语言主题模型；对所述第一语言主题模型和第二语言主题模型进行词语对齐，获得词语对齐关系；基于所述词语对齐关系，对所述第一语言主题模型和第二语言主题模型进行主题对齐，获得所有对齐的第一语言主题和第二语言主题；对于所述所有对齐的第一语言主题和第二语言主题下的若干组对齐的词语，调整每组对齐的词语隶属于各自语言主题的概率值，并对所述概率值进行归一化处理，获得新的LDA主题模型。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于双语平行语料生成LDA主题模型的方法，其特征在于，包括：

2.根据权利要求1所述的基于双语平行语料生成LDA主题模型的方法，对所述第一语言主题模型和第二语言主题模型进行词语对齐，获得词语对齐关系，具体包括：

其中，N为大于等于1的自然数。

3.根据权利要求1所述的基于双语平行语料生成LDA主题模型的方法，其特征在于，基于词语对齐关系，对所述第一语言主题模型和第二语言主题模型进行主题对齐，获得所有对齐的第一语言主题和第二语言主题，具体包括：

其中，i，j均为大于等于1的自然数。

4.根据权利要求1所述的基于双语平行语料生成LDA主题模型的方法，其特征在于，对于所述所有对齐的第一语言主题和第二语言主题下的若干组对齐的词语，调整每组对齐的词语隶属于各自语言主题的概率值，具体为：

5.根据权利要求1所述的基于双语平行语料生成LDA主题模型的方法，其特征在于，对第一语言文档库和与所述第一语言文档库平行对应的第二语言文档库分别进行LDA主题建模，获得第一语言主题模型和第二语言主题模型，具体包括：

其中，建模时设置相同的主题数量M。

6.根据权利要求3所述的基于双语平行语料生成LDA主题模型的方法，其特征在于，根据所述第i个第一语言主题和第j个第二语言主题中各组对齐的词语之间的一致性得分，计算所述第i个第一语言主题和第j个第二语言主题之间的一致性得分，具体为：

7.一种基于双语平行语料生成LDA主题模型的装置，其特征在于，包括：

8.根据权利要求7所述的基于双语平行语料生成LDA主题模型的装置，其特征在于，所述主题对齐模块具体用于：

其中，i，j均为大于等于1的自然数。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述基于双语平行语料生成LDA主题模型的方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述基于双语平行语料生成LDA主题模型的方法的步骤。