CN107391565A

CN107391565A - 一种基于主题模型的跨语言层次分类体系匹配方法

Info

Publication number: CN107391565A
Application number: CN201710441927.2A
Authority: CN
Inventors: 漆桂林; 崔轩; 吴天星
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2017-06-13
Filing date: 2017-06-13
Publication date: 2017-11-24
Anticipated expiration: 2037-06-13
Also published as: CN107391565B

Abstract

本发明公开一种基于主题模型的跨语言层次分类体系匹配方法，首先根据给定的两个不同语言层次分类体系产生相对应的背景文本，并对每个分类候选值进行预筛选；然后使用先前产生的背景文本作为语料库，使用一种基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布，接下来采用典型关联分析算法对两种不同语言的语料库对应的高维主题分布进行空间向量映射，最后对映射后每个分类的每个预筛选候选值进行计算其余弦相似度，并判断该候选值是否可以作为该分类的一个最相关分类。本发明能够为一种语言的层次分类体系中的每个分类识别其在另一种语言的层次分类体系中最相关的分类。

Description

一种基于主题模型的跨语言层次分类体系匹配方法

技术领域

本发明涉及跨语言信息匹配领域，具体涉及一种基于主题模型的跨语言层次分类体系匹配方法。

背景技术

近年来，随着语义Web和信息技术的飞速发展，网络上的数据量呈指数级增长，这些数据也已经广泛应用到了信息社会的各行各业，包括生物、医疗、交通、金融、旅游等。为了能够对网络资源进行更加充分地分类利用，提高对网络资源的管理，方便用户快速识别与检索到所需的资源，大量随之而生的层次分类体系也先后出现。层次分类体系是指根据一定规则和标准对某一领域数据经过层次化分类构建出来的具有相互关联关系的层次化结构。但是由于构建者行为习惯、语言地域乃至于文化上的差异，造成很多层次分类体系虽然构建的是同样的领域，但是却不能相互之间进行知识的共享与融合。

跨语言层次分类体系匹配的目的是为一种语言的层次分类体系中的每个分类识别其在另一种语言的层次分类体系中最相关分类，目前针对此已经有一些相关工作，更有一些已经形成了相对应的工具系统，取得了一定的进展。CC-BiBTM提出采用主题模型的方法来解决这些问题，首先将分类的标签放入Google搜索引擎中进行处理，以此得到分类的背景文本，然后对得到的背景文本进行翻译，分别得到中英文的对照文档。

然而由于其只是在背景文本抽取的过程中应用到了分类结点与其父类结点之间的关系来消除歧义，其余过程均未利用到层次分类体系的结构，而分类结构对跨语言层次分类体系的匹配具有重要作用，而且其采用了Google翻译来获取得到中英文对照文档，翻译得到的文档会引入较大噪声数据，因此会影响到匹配的结果。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种基于主题模型的跨语言层次分类体系匹配方法，能够为一种语言的层次分类体系中的每个分类识别其在另一种语言的层次分类体系中最相关分类。

技术方案：本发明所述的一种基于主题模型的跨语言层次分类体系匹配方法，依次包括以下步骤：

(1)据给定的两个层次分类体系T^s＝{V^s,E^s}和T^t＝{V^t,E^t}，其中s和t分别表示两种不同的语言，V表示层次分类体系中的分类结点，E表示分类结点之间的包含关系，使用谷歌搜索引擎获取背景文本；同时对于给定的一个语言的层次分类体系在另一个语言的层次分类体系中筛选出待匹配的候选值：

(2)使用所述步骤(1)中产生的背景文本作为语料库使用基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布，然后采用典型关联分析算法对两个向量空间的高维主题分布进行空间映射，统一映射到一个向量空间中；

(3)采用余弦相似度的方法为步骤(1)中筛选出的候选值为每一个分类和其对应的每个候选值计算其之间的相似度，最终可判定为最相关的分类之间可以作为一个分类对结果。

进一步的，所述步骤(1)中获取背景文本的步骤如下：

对于一个给定的分类，为了获取代表分类语义信息的背景文本，将分类本身标签与其父类标签一起放入Google搜索引擎中，搜索引擎会返回一个以摘要构成的网页列表，取前10个摘要组成的文档作为该分类的背景文本，并得到网页中的摘要列表，将摘要列表聚合即为该分类结点英文原始背景文本，然后将此文本翻译得到中文的对照文本，对于上述得到的文本首先进行分词和去停用词操作，然后对英文文本进行单词的词根化处理。

进一步的，所述步骤(1)中候选值的筛选流程为：

为了避免层次分类体系之间不必要的比较，提高算法的匹配效率，采用候选值筛选的方法来尽可能减少分类结点之间的匹配次数。一般来说，如果两个分类能够进行匹配，那么这两个分类的标签会具有语义上的相似性，因此对分类标签进行分析能够取得一定的效果。对一对待筛选的分类对(C^s,C^t)，首先将C^s的分类标签进行分词，然后通过BabelNet对分词后的每一个单词抽取其同义词集合，一起构成C^s分类的同义词集合，同样的方法也可以得到C^t的同义词集合；如果两个同义词集合的交集不为空，说明两个分类具有语义上的近似性，那么(C^s,C^t)则可以作为一个候选值对。C^s和C^t分别表示层次分类体系T^s＝{V^s,E^s}和T^t＝{V^t,E^t}中的两个分类。

进一步的，所述步骤(2)中高维主题分布的生成方法具体为：

给定某一种语言的语料库其中包含有C个分类，W个词汇，|D|篇文档，d_i表示第i篇文档，语料库对应的双词文档令z_i∈[1,K]表示双词b_i的主题，C×K维矩阵表示语料库中C个分类的主题分布，其中θ_i,j＝P(x＝i,z＝j)表示分类i下主题j的概率，K×W维矩阵表示语料库中K个主题的词分布，其中表示主题k下单词w出现的概率，|B|×C维矩阵π表示双词关于分类的关系分布，其中π_b,c＝P(b,c)表示双词b下分类c出现的概率，x_i表示双词b_i所属的分类，那么主题模型的生成过程如下：

对每一个分类c∈[1,C]采样其主题分布：θ_c～Dir(α)；

对每一个主题k∈[1,K]采样其词分布：

给定双词关于分类的关系分布π，对语料库中每一个双词b_i∈B，都有：

采样双词b_i的分类x_i～Multi(π_i)；

采样双词b_i的主题

分别采样b_i中的两个单词

为了得到未知变量θ和的值，对模型采用吉布斯采样的方法进行近似推导。给定语料库和去除双词b_i之后其余双词的主题与分类，双词b_i的分类为c，主题为k的概率为：

其中表示去除双词b_i以外单词w_i,1主题为k的次数，并且有表示去除双词b_i以外单词w_i,2主题为k的次数，并且表示去除双词b_i以外主题为k、分类为c的双词的个数，并且表示双词b_i对分类c的关系分布。通过吉布斯采样可以得到隐变量的值为：

其中n_c,k表示主题为k分类为c的单词的个数，并且n_c＝∑_cn_c,k，n_w|k表示主题为k的单词w的个数，并且n._|k＝∑_wn_w|k。

吉布斯采样算法如下所示：

进一步的，所述步骤(2)中两个向量空间的高维主题分布的空间映射方法为：

给定两个待筛选的分类映射对其中表示s语言的分类结点，表示t语言的分类结点，其中的父类为的父类为对于分类和首先通过Google翻译将其分类标签和分别翻译为语言t的标签和语言s的标签并且同样将分类的父类的标签翻译为t语言的标签分类的父类的标签翻译为s语言的标签然后对其中的英文标签进行词根化处理，那么给定两个分类结点c_a和c_b，对其之间的关系定义如下：

其中表示两个相同语言的标签能够进行字符串的匹配；

对于给定的两个候选分类结点它们之间的映射关系定义如下：

如果等于1，则表示分类结点和分类结点可以形成一对候选映射对，最终汇总所有候选映射对形成两个向量空间的部分标注数据作为典型相关分析算法的输入；

给定两个待匹配的向量空间X、Y和两个向量空间的部分标注数据，向量空间X中一共有m个点，向量空间Y中一共有n个点，首先通过最大化X和Y之间的相关性分别得到两个向量空间X和Y对应的映射矩阵X^a和Y^b，通过映射矩阵X和Y从不同的向量空间映射到新的向量空间Z中。

进一步的，所述步骤(3)具体包含如下步骤：

对于给定的两个分类C₁和C₂，其对应的映射后的向量空间中的向量分别为和分类C₁和C₂之间的相似度计算方法如下：

对步骤(1)中筛选出的每一对候选值C^s和C^t，均计算其之间的相似度，如果相似于大于规定阈值0.7，那么C^s即为C^t的跨语言层次分类体系中最相关分类。

有益效果：相对于现有的CC-BiBTM模型而言，本发明不依赖于平行语料库，因此获得某一种语言的背景文本之后不需要使用翻译工具比如Google翻译来获得另一种语言的背景文本，从而避免翻译工具带来的噪声数据，并且本发明可以有效地融入层次分类体系的结构信息到模型中。

经过实例分析证明，本发明大大有效的对不同语言的分类之间的最相关分类进行识别，该方法的召回率与P@1值均超过现有的层次分类体系匹配方法。

附图说明

图1为本发明的整体流程示意图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

实施例1：

如图1所示，本实施例的一种基于主题模型的跨语言层次分类体系匹配方法，发明首先根据给定的两个不同语言层次分类体系产生相对应的背景文本，并对每个分类候选值进行预筛选；然后使用先前产生的背景文本作为语料库，使用一种基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布，接下来采用典型关联分析算法对两种不同语言的语料库对应的高维主题分布进行空间向量映射，最后对映射后每个分类的每个预筛选候选值进行计算其余弦相似度，并判断该候选值是否可以作为该分类的一个最相关分类。具体依次包括以下3个步骤：

1)根据给定的两个层次分类体系使用谷歌搜索引擎获取背景文本；同时对于给定的一个语言的层次分类体系在另一个语言的层次分类体系中筛选出候选值；

这里指定待匹配的两种不同语言的两个层次分类体系分别为：T^s＝{V^s,E^s}和T^t＝{V^t,E^t}。这里所述的每一个分类结构都是由若干分类构成的一个树状层次结构，其中V表示层次分类体系中的分类结点，E则代表分类与分类之间的所属关系，s和t分别代表两种待匹配的不同语言。例如，从某英文电子商务站点中提取出来的层次分类体系中可能会包含“Sports”，“Athlete Apparel”等类别，“Sports”类别中又包含很多运动类商品作为分类结点出现，并且每一个分类商品都有子分类，从某中文电子商务站点中提取出来的层次分类体系中可能会包含“运动”，“运动服”等类别，“运动”类别中又包含有很多的子分类商品。

首先根据给定的两个层次分类体系使用谷歌搜索引擎获取背景文本，同时对于给定的一个语言的层次分类体系在另一个语言的层次分类体系中筛选出候选值，具体包含如下步骤：

对于一个给定的分类，为了获取代表分类语义信息的背景文本，将分类本身标签与其父类标签一起放入Google搜索引擎中，搜索引擎会返回一个以摘要构成的网页列表，本发明取前K个摘要组成的文档作为该分类的背景文本，并且将得到的背景文本放入Google翻译中以此得到两种语言的对照文本，对于上述得到的文本首先进行分词和去停用词操作，然后对英文文本进行单词的词根化处理。比如，如果要获取“Athlete Apparel”分类结点的背景文本，首先将其父类“Sports”与“Athlete Apparel”一起作为关键词输入搜索引擎进行搜索，得到网页中的摘要列表，将摘要列表聚合即为该分类结点英文原始背景文本。

2)使用所述步骤1)中产生的背景文本作为语料库，使用一种基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布，然后采用典型关联分析算法对两个向量空间的高维主题分布进行空间映射，统一映射到一个向量空间中。

对每一个分类c∈[1,C]采样其主题分布：θ_c～Dir(α)；

对每一个主题k∈[1,K]采样其词分布：

采样双词b_i的分类x_i～Multi(π_i)；

采样双词b_i的主题

分别采样b_i中的两个单词

吉布斯采样算法如下所示：

3)采用典型关联分析算法对两个向量空间的高维主题分布进行空间映射，统一映射到一个向量空间中，具体包含如下步骤：

给定两个待匹配的向量空间X和Y(假设X表示中文语言语料库获得的主题向量，Y表示英文语言语料库获得的主题向量)和两个向量空间的部分标注数据，向量空间X中一共有m个点，向量空间Y中一共有n个点。典型相关分析算法首先通过最大化X和Y之间的相关性分别得到两个向量空间X和Y对应的映射矩阵X^a和Y^b，通过映射矩阵，X和Y可以从不同的向量空间映射到新的向量空间Z中，从而实现向量空间的一致性，解决了不同主题向量空间之间不能直接进行比较的问题。

所述采用余弦相似度的方法为步骤1)中筛选出的候选值为每一个分类和其对应的每个候选值计算其之间的相似度，最终可判定为最相关的分类之间可以作为一个分类对结果，具体包含如下步骤：

例如上文得到的“Athlete Apparel”与“运动服”之间相似度为0.8599，“Sports”与“运动”之间相似度为0.9330。

Claims

1.一种基于主题模型的跨语言层次分类体系匹配方法，其特征在于：依次包括以下步骤：

(1)根据给定的两个层次分类体系T^s＝{V^s,E^s}和T^t＝{V^t,E^t}，其中s和t分别表示两种不同的语言，V表示层次分类体系中的分类结点，E表示分类结点之间的包含关系,使用谷歌搜索引擎获取背景文本；同时对于给定的一个语言的层次分类体系在另一个语言的层次分类体系中筛选出待匹配的候选值：

2.根据权利要求1所述的基于主题模型的跨语言层次分类体系匹配方法，其特征在于：所述步骤(1)中获取背景文本的步骤如下：

3.根据权利要求1所述的基于主题模型的跨语言层次分类体系匹配方法，其特征在于：所述步骤(1)中候选值的筛选流程为：

对一对待筛选的分类对(C^s,C^t)，其中s和t分别表示两种不同的语言，C表示层次分类体系中的分类结点，首先将C^s的分类标签进行分词，然后通过BabelNet对分词后的每一个单词抽取其同义词集合，一起构成C^s分类的同义词集合，同样的方法也可以得到C^t的同义词集合；如果两个同义词集合的交集不为空，说明两个分类具有语义上的近似性，那么(C^s,C^t)则可以作为一个候选值对，C^s和C^t分别表示层次分类体系T^s＝{V^s,E^s}和T^t＝{V^t,E^t}中的两个分类。

4.根据权利要求1所述的基于主题模型的跨语言层次分类体系匹配方法，其特征在于：所述步骤(2)中高维主题分布的生成方法具体为：

给定某一种语言的语料库其中包含有C个分类，W个词汇，|D|篇文档，d_i表示第i篇文档，语料库对应的双词文档令z_i∈[1,K]表示双词b_i的主题，C×K维矩阵表示语料库中C个分类的主题分布，其中θ_i，j＝P(x＝i,z＝j)表示分类i下主题j的概率，K×W维矩阵表示语料库中K个主题的词分布，其中表示主题k下单词w出现的概率，|B|×C维矩阵π表示双词关于分类的关系分布，其中π_b,c＝P(b,c)表示双词b下分类c出现的概率，x_i表示双词b_i所属的分类，那么主题模型的生成过程如下：

对每一个分类c∈[1,C]采样其主题分布：θ_c～Dir(α)；

对每一个主题k∈[1,K]采样其词分布：

采样双词b_i的分类x_i～Multi(π_i)；

采样双词b_i的主题

分别采样b_i中的两个单词

为了得到未知变量θ和的值，对模型采用吉布斯采样的方法进行近似推导，给定语料库和去除双词b_i之后其余双词的主题与分类，双词b_i的分类为c，主题为k的概率为：

其中表示去除双词b_i以外单词w_i,1主题为k的次数，并且有表示去除双词b_i以外单词w_i,2主题为k的次数，并且表示去除双词b_i以外主题为k、分类为c的双词的个数，并且表示双词b_i对分类c的关系分布，通过吉布斯采样可以得到隐变量的值为：

<mrow> <msub> <mi>&theta;</mi> <mrow> <mi>c</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>&alpha;</mi> <mo>+</mo> <msub> <mi>n</mi> <mrow> <mi>c</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> </mrow> <mrow> <mi>K</mi> <mi>&alpha;</mi> <mo>+</mo> <msub> <mi>n</mi> <mi>c</mi> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

其中n_c,k表示主题为k分类为c的单词的个数，并且n_c＝∑_cn_c,k，n_w|k表示主题为k的单词w的个数，并且n_·|k＝∑_wn_w|k；

吉布斯采样算法如下所示：

5.根据权利要求4所述的基于主题模型的跨语言层次分类体系匹配方法，其特征在于：所述步骤(2)中两个向量空间的高维主题分布的空间映射方法为：

其中表示两个相同语言的标签能够进行字符串的匹配；

6.根据权利要求1所述的基于主题模型的跨语言层次分类体系匹配方法，其特征在于：所述步骤(3)具体包含如下步骤：

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>V</mi> <msub> <mi>C</mi> <mn>1</mn> </msub> </msub> <mo>,</mo> <msub> <mi>V</mi> <msub> <mi>C</mi> <mn>2</mn> </msub> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>V</mi> <msub> <mi>C</mi> <mn>1</mn> </msub> </msub> <mo>&CenterDot;</mo> <msub> <mi>V</mi> <msub> <mi>C</mi> <mn>2</mn> </msub> </msub> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>V</mi> <msub> <mi>C</mi> <mn>1</mn> </msub> </msub> <mo>|</mo> <mo>|</mo> <mo>&CenterDot;</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>V</mi> <msub> <mi>C</mi> <mn>2</mn> </msub> </msub> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> </mrow>