CN107391565B - 一种基于主题模型的跨语言层次分类体系匹配方法 - Google Patents

一种基于主题模型的跨语言层次分类体系匹配方法 Download PDF

Info

Publication number
CN107391565B
CN107391565B CN201710441927.2A CN201710441927A CN107391565B CN 107391565 B CN107391565 B CN 107391565B CN 201710441927 A CN201710441927 A CN 201710441927A CN 107391565 B CN107391565 B CN 107391565B
Authority
CN
China
Prior art keywords
classification
language
class
representing
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710441927.2A
Other languages
English (en)
Other versions
CN107391565A (zh
Inventor
漆桂林
崔轩
吴天星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201710441927.2A priority Critical patent/CN107391565B/zh
Publication of CN107391565A publication Critical patent/CN107391565A/zh
Application granted granted Critical
Publication of CN107391565B publication Critical patent/CN107391565B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Abstract

本发明公开一种基于主题模型的跨语言层次分类体系匹配方法,首先根据给定的两个不同语言层次分类体系产生相对应的背景文本,并对每个分类候选值进行预筛选;然后使用先前产生的背景文本作为语料库,使用一种基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布,接下来采用典型关联分析算法对两种不同语言的语料库对应的高维主题分布进行空间向量映射,最后对映射后每个分类的每个预筛选候选值进行计算其余弦相似度,并判断该候选值是否可以作为该分类的一个最相关分类。本发明能够为一种语言的层次分类体系中的每个分类识别其在另一种语言的层次分类体系中最相关的分类。

Description

一种基于主题模型的跨语言层次分类体系匹配方法
技术领域
本发明涉及跨语言信息匹配领域,具体涉及一种基于主题模型的跨语言层次分类体系匹配方法。
背景技术
近年来,随着语义Web和信息技术的飞速发展,网络上的数据量呈指数级增长,这些数据也已经广泛应用到了信息社会的各行各业,包括生物、医疗、交通、金融、旅游等。为了能够对网络资源进行更加充分地分类利用,提高对网络资源的管理,方便用户快速识别与检索到所需的资源,大量随之而生的层次分类体系也先后出现。层次分类体系是指根据一定规则和标准对某一领域数据经过层次化分类构建出来的具有相互关联关系的层次化结构。但是由于构建者行为习惯、语言地域乃至于文化上的差异,造成很多层次分类体系虽然构建的是同样的领域,但是却不能相互之间进行知识的共享与融合。
跨语言层次分类体系匹配的目的是为一种语言的层次分类体系中的每个分类识别其在另一种语言的层次分类体系中最相关分类,目前针对此已经有一些相关工作,更有一些已经形成了相对应的工具系统,取得了一定的进展。CC-BiBTM提出采用主题模型的方法来解决这些问题,首先将分类的标签放入Google搜索引擎中进行处理,以此得到分类的背景文本,然后对得到的背景文本进行翻译,分别得到中英文的对照文档。
然而由于其只是在背景文本抽取的过程中应用到了分类结点与其父类结点之间的关系来消除歧义,其余过程均未利用到层次分类体系的结构,而分类结构对跨语言层次分类体系的匹配具有重要作用,而且其采用了Google翻译来获取得到中英文对照文档,翻译得到的文档会引入较大噪声数据,因此会影响到匹配的结果。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于主题模型的跨语言层次分类体系匹配方法,能够为一种语言的层次分类体系中的每个分类识别其在另一种语言的层次分类体系中最相关分类。
技术方案:本发明所述的一种基于主题模型的跨语言层次分类体系匹配方法,依次包括以下步骤:
(1)据给定的两个层次分类体系Ts={Vs,Es}和Tt={Vt,Et},其中s和t分别表示两种不同的语言,V表示层次分类体系中的分类结点,E表示分类结点之间的包含关系,使用谷歌搜索引擎获取背景文本;同时对于给定的一个语言的层次分类体系在另一个语言的层次分类体系中筛选出待匹配的候选值:
(2)使用所述步骤(1)中产生的背景文本作为语料库
Figure BDA0001320211750000021
使用基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布,然后采用典型关联分析算法对两个向量空间的高维主题分布进行空间映射,统一映射到一个向量空间中;
(3)采用余弦相似度的方法为步骤(1)中筛选出的候选值为每一个分类和其对应的每个候选值计算其之间的相似度,最终可判定为最相关的分类之间可以作为一个分类对结果。
进一步的,所述步骤(1)中获取背景文本的步骤如下:
对于一个给定的分类,为了获取代表分类语义信息的背景文本,将分类本身标签与其父类标签一起放入Google搜索引擎中,搜索引擎会返回一个以摘要构成的网页列表,取前10个摘要组成的文档作为该分类的背景文本,并得到网页中的摘要列表,将摘要列表聚合即为该分类结点英文原始背景文本,然后将此文本翻译得到中文的对照文本,对于上述得到的文本首先进行分词和去停用词操作,然后对英文文本进行单词的词根化处理。
进一步的,所述步骤(1)中候选值的筛选流程为:
为了避免层次分类体系之间不必要的比较,提高算法的匹配效率,采用候选值筛选的方法来尽可能减少分类结点之间的匹配次数。一般来说,如果两个分类能够进行匹配,那么这两个分类的标签会具有语义上的相似性,因此对分类标签进行分析能够取得一定的效果。对一对待筛选的分类对(Cs,Ct),首先将Cs的分类标签进行分词,然后通过BabelNet对分词后的每一个单词抽取其同义词集合,一起构成Cs分类的同义词集合,同样的方法也可以得到Ct的同义词集合;如果两个同义词集合的交集不为空,说明两个分类具有语义上的近似性,那么(Cs,Ct)则可以作为一个候选值对。Cs和Ct分别表示层次分类体系Ts={Vs,Es}和Tt={Vt,Et}中的两个分类。
进一步的,所述步骤(2)中高维主题分布的生成方法具体为:
给定某一种语言的语料库
Figure BDA0001320211750000031
其中包含有C个分类,W个词汇,|D|篇文档,di表示第i篇文档,语料库对应的双词文档
Figure BDA0001320211750000032
令zi∈[1,K]表示双词bi的主题,C×K维矩阵
Figure BDA0001320211750000033
表示语料库中C个分类的主题分布,其中θi,j=P(x=i,z=j)表示分类i下主题j的概率,K×W维矩阵
Figure BDA0001320211750000034
表示语料库中K个主题的词分布,其中
Figure BDA0001320211750000035
表示主题k下单词w出现的概率,|B|×C维矩阵π表示双词关于分类的关系分布,其中πb,c=P(b,c)表示双词b下分类c出现的概率,xi表示双词bi所属的分类,那么主题模型的生成过程如下:
对每一个分类c∈[1,C]采样其主题分布:θc~Dir(α);
对每一个主题k∈[1,K]采样其词分布:
Figure BDA0001320211750000036
给定双词关于分类的关系分布π,对语料库中每一个双词bi∈B,都有:
采样双词bi的分类xi~Multi(πi);
采样双词bi的主题
Figure BDA0001320211750000037
分别采样bi中的两个单词
Figure BDA0001320211750000038
为了得到未知变量θ和
Figure BDA0001320211750000039
的值,对模型采用吉布斯采样的方法进行近似推导。给定语料库
Figure BDA00013202117500000310
和去除双词bi之后其余双词的主题与分类,双词bi的分类为c,主题为k的概率为:
Figure BDA00013202117500000311
其中
Figure BDA00013202117500000312
表示去除双词bi以外单词wi,1主题为k的次数,并且有
Figure BDA00013202117500000313
表示去除双词bi以外单词wi,2主题为k的次数,并且
Figure BDA00013202117500000314
表示去除双词bi以外主题为k、分类为c的双词的个数,并且
Figure BDA00013202117500000315
表示双词bi对分类c的关系分布。通过吉布斯采样可以得到隐变量的值为:
Figure BDA0001320211750000041
Figure BDA0001320211750000042
其中nc,k表示主题为k分类为c的单词的个数,并且nc=∑cnc,k,nw|k表示主题为k的单词w的个数,并且n.|k=∑wnw|k
吉布斯采样算法如下所示:
Figure BDA0001320211750000043
进一步的,所述步骤(2)中两个向量空间的高维主题分布的空间映射方法为:
给定两个待筛选的分类映射对
Figure BDA0001320211750000044
其中
Figure BDA0001320211750000045
表示s语言的分类结点,
Figure BDA0001320211750000046
表示t语言的分类结点,其中
Figure BDA0001320211750000047
的父类为
Figure BDA0001320211750000048
Figure BDA00013202117500000424
的父类为
Figure BDA0001320211750000049
对于分类
Figure BDA00013202117500000410
Figure BDA00013202117500000411
首先通过Google翻译将其分类标签
Figure BDA00013202117500000412
Figure BDA00013202117500000413
分别翻译为语言t的标签
Figure BDA00013202117500000414
和语言s的标签
Figure BDA00013202117500000415
并且同样将分类
Figure BDA00013202117500000416
的父类
Figure BDA00013202117500000417
的标签
Figure BDA00013202117500000418
翻译为t语言的标签
Figure BDA00013202117500000419
分类
Figure BDA00013202117500000420
的父类
Figure BDA00013202117500000421
的标签
Figure BDA00013202117500000422
翻译为s语言的标签
Figure BDA00013202117500000423
然后对其中的英文标签进行词根化处理,那么给定两个分类结点ca和cb,对其之间的关系定义如下:
Figure BDA0001320211750000051
其中
Figure BDA0001320211750000052
表示两个相同语言的标签能够进行字符串的匹配;
对于给定的两个候选分类结点
Figure BDA0001320211750000053
它们之间的映射关系定义如下:
Figure BDA0001320211750000054
如果
Figure BDA0001320211750000055
等于1,则表示分类结点
Figure BDA0001320211750000056
和分类结点
Figure BDA0001320211750000057
可以形成一对候选映射对,最终汇总所有候选映射对形成两个向量空间的部分标注数据作为典型相关分析算法的输入;
给定两个待匹配的向量空间X、Y和两个向量空间的部分标注数据,向量空间X中一共有m个点,向量空间Y中一共有n个点,首先通过最大化X和Y之间的相关性分别得到两个向量空间X和Y对应的映射矩阵Xa和Yb,通过映射矩阵X和Y从不同的向量空间映射到新的向量空间Z中。
进一步的,所述步骤(3)具体包含如下步骤:
对于给定的两个分类C1和C2,其对应的映射后的向量空间中的向量分别为
Figure BDA0001320211750000058
Figure BDA0001320211750000059
分类C1和C2之间的相似度计算方法如下:
Figure BDA00013202117500000510
对步骤(1)中筛选出的每一对候选值Cs和Ct,均计算其之间的相似度,如果相似于大于规定阈值0.7,那么Cs即为Ct的跨语言层次分类体系中最相关分类。
有益效果:相对于现有的CC-BiBTM模型而言,本发明不依赖于平行语料库,因此获得某一种语言的背景文本之后不需要使用翻译工具比如Google翻译来获得另一种语言的背景文本,从而避免翻译工具带来的噪声数据,并且本发明可以有效地融入层次分类体系的结构信息到模型中。
经过实例分析证明,本发明大大有效的对不同语言的分类之间的最相关分类进行识别,该方法的召回率与P@1值均超过现有的层次分类体系匹配方法。
附图说明
图1为本发明的整体流程示意图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
实施例1:
如图1所示,本实施例的一种基于主题模型的跨语言层次分类体系匹配方法,发明首先根据给定的两个不同语言层次分类体系产生相对应的背景文本,并对每个分类候选值进行预筛选;然后使用先前产生的背景文本作为语料库,使用一种基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布,接下来采用典型关联分析算法对两种不同语言的语料库对应的高维主题分布进行空间向量映射,最后对映射后每个分类的每个预筛选候选值进行计算其余弦相似度,并判断该候选值是否可以作为该分类的一个最相关分类。具体依次包括以下3个步骤:
1)根据给定的两个层次分类体系使用谷歌搜索引擎获取背景文本;同时对于给定的一个语言的层次分类体系在另一个语言的层次分类体系中筛选出候选值;
这里指定待匹配的两种不同语言的两个层次分类体系分别为:Ts={Vs,Es}和Tt={Vt,Et}。这里所述的每一个分类结构都是由若干分类构成的一个树状层次结构,其中V表示层次分类体系中的分类结点,E则代表分类与分类之间的所属关系,s和t分别代表两种待匹配的不同语言。例如,从某英文电子商务站点中提取出来的层次分类体系中可能会包含“Sports”,“Athlete Apparel”等类别,“Sports”类别中又包含很多运动类商品作为分类结点出现,并且每一个分类商品都有子分类,从某中文电子商务站点中提取出来的层次分类体系中可能会包含“运动”,“运动服”等类别,“运动”类别中又包含有很多的子分类商品。
首先根据给定的两个层次分类体系使用谷歌搜索引擎获取背景文本,同时对于给定的一个语言的层次分类体系在另一个语言的层次分类体系中筛选出候选值,具体包含如下步骤:
对于一个给定的分类,为了获取代表分类语义信息的背景文本,将分类本身标签与其父类标签一起放入Google搜索引擎中,搜索引擎会返回一个以摘要构成的网页列表,本发明取前K个摘要组成的文档作为该分类的背景文本,并且将得到的背景文本放入Google翻译中以此得到两种语言的对照文本,对于上述得到的文本首先进行分词和去停用词操作,然后对英文文本进行单词的词根化处理。比如,如果要获取“Athlete Apparel”分类结点的背景文本,首先将其父类“Sports”与“Athlete Apparel”一起作为关键词输入搜索引擎进行搜索,得到网页中的摘要列表,将摘要列表聚合即为该分类结点英文原始背景文本。
2)使用所述步骤1)中产生的背景文本作为语料库,使用一种基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布,然后采用典型关联分析算法对两个向量空间的高维主题分布进行空间映射,统一映射到一个向量空间中。
给定某一种语言的语料库
Figure BDA0001320211750000071
其中包含有C个分类,W个词汇,|D|篇文档,di表示第i篇文档,语料库对应的双词文档
Figure BDA0001320211750000072
令zi∈[1,K]表示双词bi的主题,C×K维矩阵
Figure BDA0001320211750000073
表示语料库中C个分类的主题分布,其中θi,j=P(x=i,z=j)表示分类i下主题j的概率,K×W维矩阵
Figure BDA0001320211750000074
表示语料库中K个主题的词分布,其中
Figure BDA0001320211750000075
表示主题k下单词w出现的概率,|B|×C维矩阵π表示双词关于分类的关系分布,其中πb,c=P(b,c)表示双词b下分类c出现的概率,xi表示双词bi所属的分类,那么主题模型的生成过程如下:
对每一个分类c∈[1,C]采样其主题分布:θc~Dir(α);
对每一个主题k∈[1,K]采样其词分布:
Figure BDA0001320211750000076
给定双词关于分类的关系分布π,对语料库中每一个双词bi∈B,都有:
采样双词bi的分类xi~Multi(πi);
采样双词bi的主题
Figure BDA0001320211750000077
分别采样bi中的两个单词
Figure BDA0001320211750000078
为了得到未知变量θ和
Figure BDA0001320211750000079
的值,对模型采用吉布斯采样的方法进行近似推导。给定语料库
Figure BDA00013202117500000710
和去除双词bi之后其余双词的主题与分类,双词bi的分类为c,主题为k的概率为:
Figure BDA0001320211750000081
其中
Figure BDA0001320211750000082
表示去除双词bi以外单词wi,1主题为k的次数,并且有
Figure BDA0001320211750000083
表示去除双词bi以外单词wi,2主题为k的次数,并且
Figure BDA0001320211750000084
表示去除双词bi以外主题为k、分类为c的双词的个数,并且
Figure BDA0001320211750000085
表示双词bi对分类c的关系分布。通过吉布斯采样可以得到隐变量的值为:
Figure BDA0001320211750000086
Figure BDA0001320211750000087
其中nc,k表示主题为k分类为c的单词的个数,并且nc=∑cnc,k,nw|k表示主题为k的单词w的个数,并且n.|k=∑wnw|k
吉布斯采样算法如下所示:
Figure BDA0001320211750000088
3)采用典型关联分析算法对两个向量空间的高维主题分布进行空间映射,统一映射到一个向量空间中,具体包含如下步骤:
给定两个待匹配的向量空间X和Y(假设X表示中文语言语料库获得的主题向量,Y表示英文语言语料库获得的主题向量)和两个向量空间的部分标注数据,向量空间X中一共有m个点,向量空间Y中一共有n个点。典型相关分析算法首先通过最大化X和Y之间的相关性分别得到两个向量空间X和Y对应的映射矩阵Xa和Yb,通过映射矩阵,X和Y可以从不同的向量空间映射到新的向量空间Z中,从而实现向量空间的一致性,解决了不同主题向量空间之间不能直接进行比较的问题。
所述采用余弦相似度的方法为步骤1)中筛选出的候选值为每一个分类和其对应的每个候选值计算其之间的相似度,最终可判定为最相关的分类之间可以作为一个分类对结果,具体包含如下步骤:
对于给定的两个分类C1和C2,其对应的映射后的向量空间中的向量分别为
Figure BDA0001320211750000091
Figure BDA0001320211750000092
分类C1和C2之间的相似度计算方法如下:
Figure BDA0001320211750000093
例如上文得到的“Athlete Apparel”与“运动服”之间相似度为0.8599,“Sports”与“运动”之间相似度为0.9330。

Claims (5)

1.一种基于主题模型的跨语言层次分类体系匹配方法,其特征在于:依次包括以下步骤:
(1)根据给定的两个层次分类体系Ts={Vs,Es}和Tt={Vt,Et},其中s和t分别表示两种不同的语言,V表示层次分类体系中的分类结点,E表示分类结点之间的包含关系,使用谷歌搜索引擎获取背景文本;同时对于给定的一个语言的层次分类体系在另一个语言的层次分类体系中筛选出待匹配的候选值:
(2)使用所述步骤(1)中产生的背景文本作为语料库
Figure FDA0002661949970000011
使用基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布,然后采用典型关联分析算法对两个向量空间的高维主题分布进行空间映射,统一映射到一个向量空间中;
(3)采用余弦相似度的方法为步骤(1)中筛选出的候选值为每一个分类和其对应的每个候选值计算其之间的相似度,最终可判定为最相关的分类之间可以作为一个分类对结果;
其中,所述步骤(2)中高维主题分布的生成方法具体为:
给定某一种语言的语料库
Figure FDA0002661949970000012
其中包含有C个分类,W个词汇,|D|篇文档,di表示第i篇文档,语料库对应的双词文档
Figure FDA0002661949970000013
令zi∈[1,K]表示双词bi的主题,C×K维矩阵
Figure FDA0002661949970000014
表示语料库中C个分类的主题分布,其中θi,j=P(x=i,z=j)表示分类i下主题j的概率,K×W维矩阵
Figure FDA0002661949970000015
表示语料库中K个主题的词分布,其中
Figure FDA0002661949970000016
表示主题k下单词w出现的概率,|B|×C维矩阵π表示双词关于分类的关系分布,其中πb,c=P(b,c)表示双词b下分类c出现的概率,xi表示双词bi所属的分类,那么主题模型的生成过程如下:
对每一个分类c∈[1,C]采样其主题分布:θc~Dir(α);
对每一个主题k∈[1,K]采样其词分布:
Figure FDA0002661949970000017
给定双词关于分类的关系分布π,对语料库中每一个双词bi∈B,都有:
采样双词bi的分类xi~Multi(πi);
采样双词bi的主题
Figure FDA00026619499700000213
分别采样bi中的两个单词
Figure FDA00026619499700000214
为了得到未知变量θ和
Figure FDA0002661949970000021
的值,对模型采用吉布斯采样的方法进行近似推导,给定语料库
Figure FDA0002661949970000022
和去除双词bi之后其余双词的主题与分类,双词bi的分类为c,主题为k的概率为:
Figure FDA0002661949970000023
其中
Figure FDA0002661949970000024
表示去除双词bi以外单词wi,1主题为k的次数,并且有
Figure FDA0002661949970000025
Figure FDA0002661949970000026
表示去除双词bi以外单词wi,2主题为k的次数,并且
Figure FDA0002661949970000027
Figure FDA0002661949970000028
表示去除双词bi以外主题为k、分类为c的双词的个数,并且
Figure FDA0002661949970000029
Figure FDA00026619499700000210
表示双词bi对分类c的关系分布,通过吉布斯采样可以得到隐变量的值为:
Figure FDA00026619499700000211
Figure FDA00026619499700000212
其中nc,k表示主题为k分类为c的单词的个数,并且nc=∑cnc,k,nw|k表示主题为k的单词w的个数,并且n·|k=∑wnw|k
2.根据权利要求1所述的基于主题模型的跨语言层次分类体系匹配方法,其特征在于:所述步骤(1)中获取背景文本的步骤如下:
对于一个给定的分类,为了获取代表分类语义信息的背景文本,将分类本身标签与其父类标签一起放入Google搜索引擎中,搜索引擎会返回一个以摘要构成的网页列表,取前10个摘要组成的文档作为该分类的背景文本,并得到网页中的摘要列表,将摘要列表聚合即为该分类结点英文原始背景文本,然后将此文本翻译得到中文的对照文本,对于上述得到的文本首先进行分词和去停用词操作,然后对英文文本进行单词的词根化处理。
3.根据权利要求1所述的基于主题模型的跨语言层次分类体系匹配方法,其特征在于:所述步骤(1)中候选值的筛选流程为:
对一对待筛选的分类对(Cs,Ct),其中s和t分别表示两种不同的语言,C表示层次分类体系中的分类结点,首先将Cs的分类标签进行分词,然后通过BabelNet对分词后的每一个单词抽取其同义词集合,一起构成Cs分类的同义词集合,同样的方法也可以得到Ct的同义词集合;如果两个同义词集合的交集不为空,说明两个分类具有语义上的近似性,那么(Cs,Ct)则可以作为一个候选值对,Cs和Ct分别表示层次分类体系Ts={Vs,Es}和Tt={Vt,Et}中的两个分类。
4.根据权利要求1所述的基于主题模型的跨语言层次分类体系匹配方法,其特征在于:所述步骤(2)中两个向量空间的高维主题分布的空间映射方法为:
给定两个待筛选的分类映射对
Figure FDA0002661949970000031
其中
Figure FDA0002661949970000032
表示s语言的分类结点,
Figure FDA0002661949970000033
表示t语言的分类结点,其中
Figure FDA0002661949970000034
的父类为
Figure FDA0002661949970000035
Figure FDA0002661949970000036
的父类为
Figure FDA0002661949970000037
对于分类
Figure FDA0002661949970000038
Figure FDA0002661949970000039
首先通过Google翻译将其分类标签
Figure FDA00026619499700000310
Figure FDA00026619499700000311
分别翻译为语言t的标签
Figure FDA00026619499700000312
和语言s的标签
Figure FDA00026619499700000313
并且同样将分类
Figure FDA00026619499700000314
的父类
Figure FDA00026619499700000315
的标签
Figure FDA00026619499700000316
翻译为t语言的标签
Figure FDA00026619499700000317
分类
Figure FDA00026619499700000318
的父类
Figure FDA00026619499700000319
的标签
Figure FDA00026619499700000320
翻译为s语言的标签
Figure FDA00026619499700000321
然后对其中的英文标签进行词根化处理,那么给定两个分类结点ca和cb,对其之间的关系定义如下:
Figure FDA00026619499700000322
其中
Figure FDA00026619499700000323
表示两个相同语言的标签能够进行字符串的匹配;
对于给定的两个候选分类结点
Figure FDA00026619499700000324
它们之间的映射关系定义如下:
Figure FDA00026619499700000325
如果
Figure FDA00026619499700000326
等于1,则表示分类结点
Figure FDA00026619499700000327
和分类结点
Figure FDA00026619499700000328
可以形成一对候选映射对,最终汇总所有候选映射对形成两个向量空间的部分标注数据作为典型相关分析算法的输入;
给定两个待匹配的向量空间X、Y和两个向量空间的部分标注数据,向量空间X中一共有m个点,向量空间Y中一共有n个点,首先通过最大化X和Y之间的相关性分别得到两个向量空间X和Y对应的映射矩阵Xa和Yb,通过映射矩阵X和Y从不同的向量空间映射到新的向量空间Z中。
5.根据权利要求1所述的基于主题模型的跨语言层次分类体系匹配方法,其特征在于:所述步骤(3)具体包含如下步骤:
对于给定的两个分类C1和C2,其对应的映射后的向量空间中的向量分别为
Figure FDA0002661949970000042
Figure FDA0002661949970000043
分类C1和C2之间的相似度计算方法如下:
Figure FDA0002661949970000041
对步骤(1)中筛选出的每一对候选值Cs和Ct,均计算其之间的相似度,如果相似于大于规定阈值0.7,那么Cs即为Ct的跨语言层次分类体系中最相关分类。
CN201710441927.2A 2017-06-13 2017-06-13 一种基于主题模型的跨语言层次分类体系匹配方法 Active CN107391565B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710441927.2A CN107391565B (zh) 2017-06-13 2017-06-13 一种基于主题模型的跨语言层次分类体系匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710441927.2A CN107391565B (zh) 2017-06-13 2017-06-13 一种基于主题模型的跨语言层次分类体系匹配方法

Publications (2)

Publication Number Publication Date
CN107391565A CN107391565A (zh) 2017-11-24
CN107391565B true CN107391565B (zh) 2020-11-03

Family

ID=60333262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710441927.2A Active CN107391565B (zh) 2017-06-13 2017-06-13 一种基于主题模型的跨语言层次分类体系匹配方法

Country Status (1)

Country Link
CN (1) CN107391565B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857957B (zh) * 2019-01-29 2021-06-15 掌阅科技股份有限公司 建立标签库的方法、电子设备及计算机存储介质
CN112328798A (zh) * 2020-11-27 2021-02-05 中国银联股份有限公司 文本分类方法以及装置
CN112784613A (zh) * 2021-01-29 2021-05-11 语联网(武汉)信息技术有限公司 文档批量翻译方法、装置、电子设备及存储介质
CN113076467A (zh) * 2021-03-26 2021-07-06 昆明理工大学 基于跨语言神经主题模型的汉越新闻话题发现方法
CN114626340B (zh) * 2022-03-17 2023-02-03 智慧足迹数据科技有限公司 基于手机信令的行为特征提取方法及相关装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140114496A (ko) * 2013-03-14 2014-09-29 한국과학기술원 워드 클라우드 기반 텍스트 문서의 이미지화 요약 방법 및 이를 이용한 정보 제공 시스템
CN105447505A (zh) * 2015-11-09 2016-03-30 成都数之联科技有限公司 一种多层次重要邮件检测方法
CN105608217A (zh) * 2015-12-31 2016-05-25 中国科学院电子学研究所 一种基于遥感数据的热点主题展示方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140114496A (ko) * 2013-03-14 2014-09-29 한국과학기술원 워드 클라우드 기반 텍스트 문서의 이미지화 요약 방법 및 이를 이용한 정보 제공 시스템
CN105447505A (zh) * 2015-11-09 2016-03-30 成都数之联科技有限公司 一种多层次重要邮件检测方法
CN105608217A (zh) * 2015-12-31 2016-05-25 中国科学院电子学研究所 一种基于遥感数据的热点主题展示方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多层类别主题图模型的教育文本分类方法;李全;《计算机与现代化》;20160731;第55-59、67页 *

Also Published As

Publication number Publication date
CN107391565A (zh) 2017-11-24

Similar Documents

Publication Publication Date Title
Mathur et al. Detecting offensive tweets in hindi-english code-switched language
CN107391565B (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
JP5936698B2 (ja) 単語意味関係抽出装置
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN111914097A (zh) 基于注意力机制和多层级特征融合的实体抽取方法与装置
CN107506472B (zh) 一种学生浏览网页分类方法
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN113033183B (zh) 一种基于统计量与相似性的网络新词发现方法及系统
CN113962293A (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
CN111782804B (zh) 基于TextCNN同分布文本数据选择方法、系统及存储介质
Alqahtani et al. A survey of text matching techniques
CN113779246A (zh) 基于句子向量的文本聚类分析方法及系统
Sousa et al. Word sense disambiguation: an evaluation study of semi-supervised approaches with word embeddings
Shahbazi et al. Toward representing automatic knowledge discovery from social media contents based on document classification
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
Vidyadhari et al. Particle grey wolf optimizer (pgwo) algorithm and semantic word processing for automatic text clustering
Oh et al. Bilingual co-training for monolingual hyponymy-relation acquisition
CN110597982A (zh) 一种基于词共现网络的短文本主题聚类算法
CN115730232A (zh) 基于主题相关的异构图神经网络跨语言文本分类方法
CN115952794A (zh) 融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法
Chakma et al. 5W1H-Based semantic segmentation of tweets for event detection using BERT
Mu et al. Synonym recognition from short texts: A self-supervised learning approach
Saeed et al. An abstractive summarization technique with variable length keywords as per document diversity
CN110275957B (zh) 姓名消歧方法、装置、电子设备及计算机可读存储介质
CN114298020A (zh) 一种基于主题语义信息的关键词向量化方法及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant