CN107391565A - 一种基于主题模型的跨语言层次分类体系匹配方法 - Google Patents

一种基于主题模型的跨语言层次分类体系匹配方法 Download PDF

Info

Publication number
CN107391565A
CN107391565A CN201710441927.2A CN201710441927A CN107391565A CN 107391565 A CN107391565 A CN 107391565A CN 201710441927 A CN201710441927 A CN 201710441927A CN 107391565 A CN107391565 A CN 107391565A
Authority
CN
China
Prior art keywords
classification
msub
language
theme
mrow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710441927.2A
Other languages
English (en)
Other versions
CN107391565B (zh
Inventor
漆桂林
崔轩
吴天星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201710441927.2A priority Critical patent/CN107391565B/zh
Publication of CN107391565A publication Critical patent/CN107391565A/zh
Application granted granted Critical
Publication of CN107391565B publication Critical patent/CN107391565B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于主题模型的跨语言层次分类体系匹配方法,首先根据给定的两个不同语言层次分类体系产生相对应的背景文本,并对每个分类候选值进行预筛选;然后使用先前产生的背景文本作为语料库,使用一种基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布,接下来采用典型关联分析算法对两种不同语言的语料库对应的高维主题分布进行空间向量映射,最后对映射后每个分类的每个预筛选候选值进行计算其余弦相似度,并判断该候选值是否可以作为该分类的一个最相关分类。本发明能够为一种语言的层次分类体系中的每个分类识别其在另一种语言的层次分类体系中最相关的分类。

Description

一种基于主题模型的跨语言层次分类体系匹配方法
技术领域
本发明涉及跨语言信息匹配领域,具体涉及一种基于主题模型的跨语言层次分类体系匹配方法。
背景技术
近年来,随着语义Web和信息技术的飞速发展,网络上的数据量呈指数级增长,这些数据也已经广泛应用到了信息社会的各行各业,包括生物、医疗、交通、金融、旅游等。为了能够对网络资源进行更加充分地分类利用,提高对网络资源的管理,方便用户快速识别与检索到所需的资源,大量随之而生的层次分类体系也先后出现。层次分类体系是指根据一定规则和标准对某一领域数据经过层次化分类构建出来的具有相互关联关系的层次化结构。但是由于构建者行为习惯、语言地域乃至于文化上的差异,造成很多层次分类体系虽然构建的是同样的领域,但是却不能相互之间进行知识的共享与融合。
跨语言层次分类体系匹配的目的是为一种语言的层次分类体系中的每个分类识别其在另一种语言的层次分类体系中最相关分类,目前针对此已经有一些相关工作,更有一些已经形成了相对应的工具系统,取得了一定的进展。CC-BiBTM提出采用主题模型的方法来解决这些问题,首先将分类的标签放入Google搜索引擎中进行处理,以此得到分类的背景文本,然后对得到的背景文本进行翻译,分别得到中英文的对照文档。
然而由于其只是在背景文本抽取的过程中应用到了分类结点与其父类结点之间的关系来消除歧义,其余过程均未利用到层次分类体系的结构,而分类结构对跨语言层次分类体系的匹配具有重要作用,而且其采用了Google翻译来获取得到中英文对照文档,翻译得到的文档会引入较大噪声数据,因此会影响到匹配的结果。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于主题模型的跨语言层次分类体系匹配方法,能够为一种语言的层次分类体系中的每个分类识别其在另一种语言的层次分类体系中最相关分类。
技术方案:本发明所述的一种基于主题模型的跨语言层次分类体系匹配方法,依次包括以下步骤:
(1)据给定的两个层次分类体系Ts={Vs,Es}和Tt={Vt,Et},其中s和t分别表示两种不同的语言,V表示层次分类体系中的分类结点,E表示分类结点之间的包含关系,使用谷歌搜索引擎获取背景文本;同时对于给定的一个语言的层次分类体系在另一个语言的层次分类体系中筛选出待匹配的候选值:
(2)使用所述步骤(1)中产生的背景文本作为语料库使用基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布,然后采用典型关联分析算法对两个向量空间的高维主题分布进行空间映射,统一映射到一个向量空间中;
(3)采用余弦相似度的方法为步骤(1)中筛选出的候选值为每一个分类和其对应的每个候选值计算其之间的相似度,最终可判定为最相关的分类之间可以作为一个分类对结果。
进一步的,所述步骤(1)中获取背景文本的步骤如下:
对于一个给定的分类,为了获取代表分类语义信息的背景文本,将分类本身标签与其父类标签一起放入Google搜索引擎中,搜索引擎会返回一个以摘要构成的网页列表,取前10个摘要组成的文档作为该分类的背景文本,并得到网页中的摘要列表,将摘要列表聚合即为该分类结点英文原始背景文本,然后将此文本翻译得到中文的对照文本,对于上述得到的文本首先进行分词和去停用词操作,然后对英文文本进行单词的词根化处理。
进一步的,所述步骤(1)中候选值的筛选流程为:
为了避免层次分类体系之间不必要的比较,提高算法的匹配效率,采用候选值筛选的方法来尽可能减少分类结点之间的匹配次数。一般来说,如果两个分类能够进行匹配,那么这两个分类的标签会具有语义上的相似性,因此对分类标签进行分析能够取得一定的效果。对一对待筛选的分类对(Cs,Ct),首先将Cs的分类标签进行分词,然后通过BabelNet对分词后的每一个单词抽取其同义词集合,一起构成Cs分类的同义词集合,同样的方法也可以得到Ct的同义词集合;如果两个同义词集合的交集不为空,说明两个分类具有语义上的近似性,那么(Cs,Ct)则可以作为一个候选值对。Cs和Ct分别表示层次分类体系Ts={Vs,Es}和Tt={Vt,Et}中的两个分类。
进一步的,所述步骤(2)中高维主题分布的生成方法具体为:
给定某一种语言的语料库其中包含有C个分类,W个词汇,|D|篇文档,di表示第i篇文档,语料库对应的双词文档令zi∈[1,K]表示双词bi的主题,C×K维矩阵表示语料库中C个分类的主题分布,其中θi,j=P(x=i,z=j)表示分类i下主题j的概率,K×W维矩阵表示语料库中K个主题的词分布,其中表示主题k下单词w出现的概率,|B|×C维矩阵π表示双词关于分类的关系分布,其中πb,c=P(b,c)表示双词b下分类c出现的概率,xi表示双词bi所属的分类,那么主题模型的生成过程如下:
对每一个分类c∈[1,C]采样其主题分布:θc~Dir(α);
对每一个主题k∈[1,K]采样其词分布:
给定双词关于分类的关系分布π,对语料库中每一个双词bi∈B,都有:
采样双词bi的分类xi~Multi(πi);
采样双词bi的主题
分别采样bi中的两个单词
为了得到未知变量θ和的值,对模型采用吉布斯采样的方法进行近似推导。给定语料库和去除双词bi之后其余双词的主题与分类,双词bi的分类为c,主题为k的概率为:
其中表示去除双词bi以外单词wi,1主题为k的次数,并且有表示去除双词bi以外单词wi,2主题为k的次数,并且表示去除双词bi以外主题为k、分类为c的双词的个数,并且表示双词bi对分类c的关系分布。通过吉布斯采样可以得到隐变量的值为:
其中nc,k表示主题为k分类为c的单词的个数,并且nc=∑cnc,k,nw|k表示主题为k的单词w的个数,并且n.|k=∑wnw|k
吉布斯采样算法如下所示:
进一步的,所述步骤(2)中两个向量空间的高维主题分布的空间映射方法为:
给定两个待筛选的分类映射对其中表示s语言的分类结点,表示t语言的分类结点,其中的父类为 的父类为对于分类首先通过Google翻译将其分类标签分别翻译为语言t的标签和语言s的标签并且同样将分类的父类的标签翻译为t语言的标签分类的父类的标签翻译为s语言的标签然后对其中的英文标签进行词根化处理,那么给定两个分类结点ca和cb,对其之间的关系定义如下:
其中表示两个相同语言的标签能够进行字符串的匹配;
对于给定的两个候选分类结点它们之间的映射关系定义如下:
如果等于1,则表示分类结点和分类结点可以形成一对候选映射对,最终汇总所有候选映射对形成两个向量空间的部分标注数据作为典型相关分析算法的输入;
给定两个待匹配的向量空间X、Y和两个向量空间的部分标注数据,向量空间X中一共有m个点,向量空间Y中一共有n个点,首先通过最大化X和Y之间的相关性分别得到两个向量空间X和Y对应的映射矩阵Xa和Yb,通过映射矩阵X和Y从不同的向量空间映射到新的向量空间Z中。
进一步的,所述步骤(3)具体包含如下步骤:
对于给定的两个分类C1和C2,其对应的映射后的向量空间中的向量分别为分类C1和C2之间的相似度计算方法如下:
对步骤(1)中筛选出的每一对候选值Cs和Ct,均计算其之间的相似度,如果相似于大于规定阈值0.7,那么Cs即为Ct的跨语言层次分类体系中最相关分类。
有益效果:相对于现有的CC-BiBTM模型而言,本发明不依赖于平行语料库,因此获得某一种语言的背景文本之后不需要使用翻译工具比如Google翻译来获得另一种语言的背景文本,从而避免翻译工具带来的噪声数据,并且本发明可以有效地融入层次分类体系的结构信息到模型中。
经过实例分析证明,本发明大大有效的对不同语言的分类之间的最相关分类进行识别,该方法的召回率与P@1值均超过现有的层次分类体系匹配方法。
附图说明
图1为本发明的整体流程示意图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
实施例1:
如图1所示,本实施例的一种基于主题模型的跨语言层次分类体系匹配方法,发明首先根据给定的两个不同语言层次分类体系产生相对应的背景文本,并对每个分类候选值进行预筛选;然后使用先前产生的背景文本作为语料库,使用一种基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布,接下来采用典型关联分析算法对两种不同语言的语料库对应的高维主题分布进行空间向量映射,最后对映射后每个分类的每个预筛选候选值进行计算其余弦相似度,并判断该候选值是否可以作为该分类的一个最相关分类。具体依次包括以下3个步骤:
1)根据给定的两个层次分类体系使用谷歌搜索引擎获取背景文本;同时对于给定的一个语言的层次分类体系在另一个语言的层次分类体系中筛选出候选值;
这里指定待匹配的两种不同语言的两个层次分类体系分别为:Ts={Vs,Es}和Tt={Vt,Et}。这里所述的每一个分类结构都是由若干分类构成的一个树状层次结构,其中V表示层次分类体系中的分类结点,E则代表分类与分类之间的所属关系,s和t分别代表两种待匹配的不同语言。例如,从某英文电子商务站点中提取出来的层次分类体系中可能会包含“Sports”,“Athlete Apparel”等类别,“Sports”类别中又包含很多运动类商品作为分类结点出现,并且每一个分类商品都有子分类,从某中文电子商务站点中提取出来的层次分类体系中可能会包含“运动”,“运动服”等类别,“运动”类别中又包含有很多的子分类商品。
首先根据给定的两个层次分类体系使用谷歌搜索引擎获取背景文本,同时对于给定的一个语言的层次分类体系在另一个语言的层次分类体系中筛选出候选值,具体包含如下步骤:
对于一个给定的分类,为了获取代表分类语义信息的背景文本,将分类本身标签与其父类标签一起放入Google搜索引擎中,搜索引擎会返回一个以摘要构成的网页列表,本发明取前K个摘要组成的文档作为该分类的背景文本,并且将得到的背景文本放入Google翻译中以此得到两种语言的对照文本,对于上述得到的文本首先进行分词和去停用词操作,然后对英文文本进行单词的词根化处理。比如,如果要获取“Athlete Apparel”分类结点的背景文本,首先将其父类“Sports”与“Athlete Apparel”一起作为关键词输入搜索引擎进行搜索,得到网页中的摘要列表,将摘要列表聚合即为该分类结点英文原始背景文本。
2)使用所述步骤1)中产生的背景文本作为语料库,使用一种基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布,然后采用典型关联分析算法对两个向量空间的高维主题分布进行空间映射,统一映射到一个向量空间中。
给定某一种语言的语料库其中包含有C个分类,W个词汇,|D|篇文档,di表示第i篇文档,语料库对应的双词文档令zi∈[1,K]表示双词bi的主题,C×K维矩阵表示语料库中C个分类的主题分布,其中θi,j=P(x=i,z=j)表示分类i下主题j的概率,K×W维矩阵表示语料库中K个主题的词分布,其中表示主题k下单词w出现的概率,|B|×C维矩阵π表示双词关于分类的关系分布,其中πb,c=P(b,c)表示双词b下分类c出现的概率,xi表示双词bi所属的分类,那么主题模型的生成过程如下:
对每一个分类c∈[1,C]采样其主题分布:θc~Dir(α);
对每一个主题k∈[1,K]采样其词分布:
给定双词关于分类的关系分布π,对语料库中每一个双词bi∈B,都有:
采样双词bi的分类xi~Multi(πi);
采样双词bi的主题
分别采样bi中的两个单词
为了得到未知变量θ和的值,对模型采用吉布斯采样的方法进行近似推导。给定语料库和去除双词bi之后其余双词的主题与分类,双词bi的分类为c,主题为k的概率为:
其中表示去除双词bi以外单词wi,1主题为k的次数,并且有表示去除双词bi以外单词wi,2主题为k的次数,并且表示去除双词bi以外主题为k、分类为c的双词的个数,并且表示双词bi对分类c的关系分布。通过吉布斯采样可以得到隐变量的值为:
其中nc,k表示主题为k分类为c的单词的个数,并且nc=∑cnc,k,nw|k表示主题为k的单词w的个数,并且n.|k=∑wnw|k
吉布斯采样算法如下所示:
3)采用典型关联分析算法对两个向量空间的高维主题分布进行空间映射,统一映射到一个向量空间中,具体包含如下步骤:
给定两个待匹配的向量空间X和Y(假设X表示中文语言语料库获得的主题向量,Y表示英文语言语料库获得的主题向量)和两个向量空间的部分标注数据,向量空间X中一共有m个点,向量空间Y中一共有n个点。典型相关分析算法首先通过最大化X和Y之间的相关性分别得到两个向量空间X和Y对应的映射矩阵Xa和Yb,通过映射矩阵,X和Y可以从不同的向量空间映射到新的向量空间Z中,从而实现向量空间的一致性,解决了不同主题向量空间之间不能直接进行比较的问题。
所述采用余弦相似度的方法为步骤1)中筛选出的候选值为每一个分类和其对应的每个候选值计算其之间的相似度,最终可判定为最相关的分类之间可以作为一个分类对结果,具体包含如下步骤:
对于给定的两个分类C1和C2,其对应的映射后的向量空间中的向量分别为分类C1和C2之间的相似度计算方法如下:
例如上文得到的“Athlete Apparel”与“运动服”之间相似度为0.8599,“Sports”与“运动”之间相似度为0.9330。

Claims (6)

1.一种基于主题模型的跨语言层次分类体系匹配方法,其特征在于:依次包括以下步骤:
(1)根据给定的两个层次分类体系Ts={Vs,Es}和Tt={Vt,Et},其中s和t分别表示两种不同的语言,V表示层次分类体系中的分类结点,E表示分类结点之间的包含关系,使用谷歌搜索引擎获取背景文本;同时对于给定的一个语言的层次分类体系在另一个语言的层次分类体系中筛选出待匹配的候选值:
(2)使用所述步骤(1)中产生的背景文本作为语料库使用基于主题模型的训练方法对每个分类生成其在语料库中对应的高维主题分布,然后采用典型关联分析算法对两个向量空间的高维主题分布进行空间映射,统一映射到一个向量空间中;
(3)采用余弦相似度的方法为步骤(1)中筛选出的候选值为每一个分类和其对应的每个候选值计算其之间的相似度,最终可判定为最相关的分类之间可以作为一个分类对结果。
2.根据权利要求1所述的基于主题模型的跨语言层次分类体系匹配方法,其特征在于:所述步骤(1)中获取背景文本的步骤如下:
对于一个给定的分类,为了获取代表分类语义信息的背景文本,将分类本身标签与其父类标签一起放入Google搜索引擎中,搜索引擎会返回一个以摘要构成的网页列表,取前10个摘要组成的文档作为该分类的背景文本,并得到网页中的摘要列表,将摘要列表聚合即为该分类结点英文原始背景文本,然后将此文本翻译得到中文的对照文本,对于上述得到的文本首先进行分词和去停用词操作,然后对英文文本进行单词的词根化处理。
3.根据权利要求1所述的基于主题模型的跨语言层次分类体系匹配方法,其特征在于:所述步骤(1)中候选值的筛选流程为:
对一对待筛选的分类对(Cs,Ct),其中s和t分别表示两种不同的语言,C表示层次分类体系中的分类结点,首先将Cs的分类标签进行分词,然后通过BabelNet对分词后的每一个单词抽取其同义词集合,一起构成Cs分类的同义词集合,同样的方法也可以得到Ct的同义词集合;如果两个同义词集合的交集不为空,说明两个分类具有语义上的近似性,那么(Cs,Ct)则可以作为一个候选值对,Cs和Ct分别表示层次分类体系Ts={Vs,Es}和Tt={Vt,Et}中的两个分类。
4.根据权利要求1所述的基于主题模型的跨语言层次分类体系匹配方法,其特征在于:所述步骤(2)中高维主题分布的生成方法具体为:
给定某一种语言的语料库其中包含有C个分类,W个词汇,|D|篇文档,di表示第i篇文档,语料库对应的双词文档令zi∈[1,K]表示双词bi的主题,C×K维矩阵表示语料库中C个分类的主题分布,其中θi,j=P(x=i,z=j)表示分类i下主题j的概率,K×W维矩阵表示语料库中K个主题的词分布,其中表示主题k下单词w出现的概率,|B|×C维矩阵π表示双词关于分类的关系分布,其中πb,c=P(b,c)表示双词b下分类c出现的概率,xi表示双词bi所属的分类,那么主题模型的生成过程如下:
对每一个分类c∈[1,C]采样其主题分布:θc~Dir(α);
对每一个主题k∈[1,K]采样其词分布:
给定双词关于分类的关系分布π,对语料库中每一个双词bi∈B,都有:
采样双词bi的分类xi~Multi(πi);
采样双词bi的主题
分别采样bi中的两个单词
为了得到未知变量θ和的值,对模型采用吉布斯采样的方法进行近似推导,给定语料库和去除双词bi之后其余双词的主题与分类,双词bi的分类为c,主题为k的概率为:
其中表示去除双词bi以外单词wi,1主题为k的次数,并且有 表示去除双词bi以外单词wi,2主题为k的次数,并且 表示去除双词bi以外主题为k、分类为c的双词的个数,并且 表示双词bi对分类c的关系分布,通过吉布斯采样可以得到隐变量的值为:
<mrow> <msub> <mi>&amp;theta;</mi> <mrow> <mi>c</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <mi>&amp;alpha;</mi> <mo>+</mo> <msub> <mi>n</mi> <mrow> <mi>c</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> </mrow> <mrow> <mi>K</mi> <mi>&amp;alpha;</mi> <mo>+</mo> <msub> <mi>n</mi> <mi>c</mi> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
其中nc,k表示主题为k分类为c的单词的个数,并且nc=∑cnc,k,nw|k表示主题为k的单词w的个数,并且n·|k=∑wnw|k
吉布斯采样算法如下所示:
5.根据权利要求4所述的基于主题模型的跨语言层次分类体系匹配方法,其特征在于:所述步骤(2)中两个向量空间的高维主题分布的空间映射方法为:
给定两个待筛选的分类映射对其中表示s语言的分类结点,表示t语言的分类结点,其中的父类为 的父类为对于分类首先通过Google翻译将其分类标签分别翻译为语言t的标签和语言s的标签并且同样将分类的父类的标签翻译为t语言的标签分类的父类的标签翻译为s语言的标签然后对其中的英文标签进行词根化处理,那么给定两个分类结点ca和cb,对其之间的关系定义如下:
其中表示两个相同语言的标签能够进行字符串的匹配;
对于给定的两个候选分类结点它们之间的映射关系定义如下:
如果等于1,则表示分类结点和分类结点可以形成一对候选映射对,最终汇总所有候选映射对形成两个向量空间的部分标注数据作为典型相关分析算法的输入;
给定两个待匹配的向量空间X、Y和两个向量空间的部分标注数据,向量空间X中一共有m个点,向量空间Y中一共有n个点,首先通过最大化X和Y之间的相关性分别得到两个向量空间X和Y对应的映射矩阵Xa和Yb,通过映射矩阵X和Y从不同的向量空间映射到新的向量空间Z中。
6.根据权利要求1所述的基于主题模型的跨语言层次分类体系匹配方法,其特征在于:所述步骤(3)具体包含如下步骤:
对于给定的两个分类C1和C2,其对应的映射后的向量空间中的向量分别为分类C1和C2之间的相似度计算方法如下:
<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>V</mi> <msub> <mi>C</mi> <mn>1</mn> </msub> </msub> <mo>,</mo> <msub> <mi>V</mi> <msub> <mi>C</mi> <mn>2</mn> </msub> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>V</mi> <msub> <mi>C</mi> <mn>1</mn> </msub> </msub> <mo>&amp;CenterDot;</mo> <msub> <mi>V</mi> <msub> <mi>C</mi> <mn>2</mn> </msub> </msub> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>V</mi> <msub> <mi>C</mi> <mn>1</mn> </msub> </msub> <mo>|</mo> <mo>|</mo> <mo>&amp;CenterDot;</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>V</mi> <msub> <mi>C</mi> <mn>2</mn> </msub> </msub> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> </mrow>
对步骤(1)中筛选出的每一对候选值Cs和Ct,均计算其之间的相似度,如果相似于大于规定阈值0.7,那么Cs即为Ct的跨语言层次分类体系中最相关分类。
CN201710441927.2A 2017-06-13 2017-06-13 一种基于主题模型的跨语言层次分类体系匹配方法 Active CN107391565B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710441927.2A CN107391565B (zh) 2017-06-13 2017-06-13 一种基于主题模型的跨语言层次分类体系匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710441927.2A CN107391565B (zh) 2017-06-13 2017-06-13 一种基于主题模型的跨语言层次分类体系匹配方法

Publications (2)

Publication Number Publication Date
CN107391565A true CN107391565A (zh) 2017-11-24
CN107391565B CN107391565B (zh) 2020-11-03

Family

ID=60333262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710441927.2A Active CN107391565B (zh) 2017-06-13 2017-06-13 一种基于主题模型的跨语言层次分类体系匹配方法

Country Status (1)

Country Link
CN (1) CN107391565B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857957A (zh) * 2019-01-29 2019-06-07 掌阅科技股份有限公司 建立标签库的方法、电子设备及计算机存储介质
CN112328798A (zh) * 2020-11-27 2021-02-05 中国银联股份有限公司 文本分类方法以及装置
CN112784613A (zh) * 2021-01-29 2021-05-11 语联网(武汉)信息技术有限公司 文档批量翻译方法、装置、电子设备及存储介质
CN113076467A (zh) * 2021-03-26 2021-07-06 昆明理工大学 基于跨语言神经主题模型的汉越新闻话题发现方法
CN114626340A (zh) * 2022-03-17 2022-06-14 智慧足迹数据科技有限公司 基于手机信令的行为特征提取方法及相关装置
CN117391191A (zh) * 2023-10-25 2024-01-12 山东高速信息集团有限公司 用于高速公路应急领域的知识图谱扩充方法、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140114496A (ko) * 2013-03-14 2014-09-29 한국과학기술원 워드 클라우드 기반 텍스트 문서의 이미지화 요약 방법 및 이를 이용한 정보 제공 시스템
CN105447505A (zh) * 2015-11-09 2016-03-30 成都数之联科技有限公司 一种多层次重要邮件检测方法
CN105608217A (zh) * 2015-12-31 2016-05-25 中国科学院电子学研究所 一种基于遥感数据的热点主题展示方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140114496A (ko) * 2013-03-14 2014-09-29 한국과학기술원 워드 클라우드 기반 텍스트 문서의 이미지화 요약 방법 및 이를 이용한 정보 제공 시스템
CN105447505A (zh) * 2015-11-09 2016-03-30 成都数之联科技有限公司 一种多层次重要邮件检测方法
CN105608217A (zh) * 2015-12-31 2016-05-25 中国科学院电子学研究所 一种基于遥感数据的热点主题展示方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李全: "基于多层类别主题图模型的教育文本分类方法", 《计算机与现代化》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857957A (zh) * 2019-01-29 2019-06-07 掌阅科技股份有限公司 建立标签库的方法、电子设备及计算机存储介质
CN109857957B (zh) * 2019-01-29 2021-06-15 掌阅科技股份有限公司 建立标签库的方法、电子设备及计算机存储介质
CN112328798A (zh) * 2020-11-27 2021-02-05 中国银联股份有限公司 文本分类方法以及装置
CN112784613A (zh) * 2021-01-29 2021-05-11 语联网(武汉)信息技术有限公司 文档批量翻译方法、装置、电子设备及存储介质
CN113076467A (zh) * 2021-03-26 2021-07-06 昆明理工大学 基于跨语言神经主题模型的汉越新闻话题发现方法
CN114626340A (zh) * 2022-03-17 2022-06-14 智慧足迹数据科技有限公司 基于手机信令的行为特征提取方法及相关装置
CN117391191A (zh) * 2023-10-25 2024-01-12 山东高速信息集团有限公司 用于高速公路应急领域的知识图谱扩充方法、设备及介质
CN117391191B (zh) * 2023-10-25 2024-10-15 山东高速信息集团有限公司 用于高速公路应急领域的知识图谱扩充方法、设备及介质

Also Published As

Publication number Publication date
CN107391565B (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
Khan et al. Abstractive text summarization based on improved semantic graph approach
CN107391565A (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
KR102055656B1 (ko) 텍스트의 의미 처리를 위한 방법, 장치 및 제품
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
Paul et al. Lesicin: A heterogeneous graph-based approach for automatic legal statute identification from indian legal documents
Bouaziz et al. Short text classification using semantic random forest
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
JP5216063B2 (ja) 未登録語のカテゴリを決定する方法と装置
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
CN102779135B (zh) 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN113033183B (zh) 一种基于统计量与相似性的网络新词发现方法及系统
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
Selamat et al. Arabic script web page language identifications using decision tree neural networks
CN111061939A (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN114997288A (zh) 一种设计资源关联方法
CN108021682A (zh) 开放式信息抽取背景下一种基于维基百科的实体语义化方法
Dourado et al. Bag of textual graphs (BoTG): A general graph‐based text representation model
Sousa et al. Word sense disambiguation: an evaluation study of semi-supervised approaches with word embeddings
Jinarat et al. Short text clustering based on word semantic graph with word embedding model
CN109359299A (zh) 一种基于商品数据的物联网设备能力本体自构建方法
Wang et al. Multi-modal transformer using two-level visual features for fake news detection
Saha et al. Sentiment Classification in Bengali News Comments using a hybrid approach with Glove
Hassan et al. Automatic document topic identification using wikipedia hierarchical ontology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant