CN108701126A - 主题推定装置、主题推定方法以及存储介质 - Google Patents
主题推定装置、主题推定方法以及存储介质 Download PDFInfo
- Publication number
- CN108701126A CN108701126A CN201780011714.4A CN201780011714A CN108701126A CN 108701126 A CN108701126 A CN 108701126A CN 201780011714 A CN201780011714 A CN 201780011714A CN 108701126 A CN108701126 A CN 108701126A
- Authority
- CN
- China
- Prior art keywords
- document
- theme
- segment
- word
- intersegmental
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Software Systems (AREA)
- Mathematical Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明所要解决的技术问题为,对以文档单位相对应的非对译语料库的各文档或者各单词进行跨语言的主题推定的精度不高。用于解决技术问题的方案为,通过主题推定装置来提高主题推定的精度,所述主题推定装置具备:单词分布信息保存部,与2个以上的各语言相对应地保存单词分布信息;文档主题分布生成部,取得多语言文档集合的文档主题分布信息;片段主题分布生成部,使用文档主题分布信息,取得各片段的片段主题分布信息;以及单词主题确定部,对于多语言文档集合具有的2个以上的各文档中包含的各单词,使用片段主题分布信息,确定并输出各单词的主题。
Description
技术领域
本发明涉及主题(topic)推定装置等,其对于以文档单位相对应的非对译语料库的各文档或者各单词,分配跨语言的主题。
背景技术
以往,提出了很多以无教师的方式对隐藏在文档中的潜在主题进行解析的主题模型。主题模型最初是以单一语言文档集合为对象,但是近年来,提出了相对于多语言文档集合解析语言共同的主题的多语言主题模式,应用于跨语言文档分类或对译对抽取等许多的多语言处理任务(参照非专利文献1)。
而且,以Bilingual Latent Dirichlet Allocation(BiLDA:双语潜在狄利克雷分布)(参照非专利文献2、3)为主,多数多语言主题模型使用维基百科的文章集合等、无直接对译关系但以文档单位共有话题与领域的多语言文档集合(以下或称为可对照语料库),推定主题。具体而言,通过利用可对照语料库的特征,使存在对应关系的文档的主题分布共同化,来进行反映出文档间的对应关系的主题推定。
此外,在BiLDA中,通过使存在对应关系的文档的主题分布共同化,来解析隐藏在多语言文档中的语言共同的主题。
详细而言,在BiLDA中,通过图14所示的模型,按照图15所示的算法取得文档的主题分布。
图14示出通过BiLDA生成由用语言e与f记述的D个文档对构成的可对照语料库的生成过程与图形化模型。以下,将各文档对di(i∈{1,……,D})中的语言e的文档表述为di e、语言f的文档表述为di f。在BiLDA中,各主题k∈{1,……,K})具有语言e的单词分布φk e与语言f的单词分布φk f。而且,各单词分布φk l(l∈{e,f})是通过以βl为参数的狄利克雷分布生成的(参照图15的步骤1至5)。在文档对di的生成过程中,首先,通过以α为参数的狄利克雷分布生成相对于di的主题分布θi(图15的步骤7)。由此,存在对应关系的di e与di f具有共同的主题分布θi。之后,相对于文档di l的各单词位置m∈{1,……,Ni l},根据以θi为参数的多项分布(Multinomial(θi))生成潜在主题zim l(图15的步骤10)。然后,基于具体化的潜在主题zim l与语言l的单词分布φl,根据概率分布p(wim l|zim l,φl)生成单词wim l的主题(图15的步骤11)。
在先技术文献
非专利文献
非专利文献1:Ivan Vuli′c,Wim De Smet,Jie Tang,and Marie-FrancineMoens.Probabilistic Topic Modeling in Multilingual Settings:An Short Overviewof Its Methodology and Applications.Information Processing&Management,Vol.51,No.1,pp.111–147,2015.
非专利文献2:David Mimno,Hanna M.Wallach,Jason Naradowsky,DavidA.Smith,and Andrew McCallum.Polylingual Topic Models.In Proc.EMNLP2009,pp.880–889,2009.
非专利文献3:Xiaochuan Ni,Jian-Tao Sun,Jian Hu,and Zheng Chen.MiningMultilingual Topics from Wikipedia.In Proc.WWW 2009,pp.1155–1156,2009.
发明内容
发明所要解决的技术问题
另一方面,大多数文档具有“文档—片段(segement)—单词”的层次结构,在可对照语料库的情况下,以比文档小的单位相对应的情况较多。此外,片段是指,例如段落或章节,是构成文档的部分的部分文档,比单词大。
但是,在以往技术中,在对以文档单位相对应的非对译语料库的各文档或者各单词进行跨语言的主题推定的情况下,由于未考虑片段,因此主题推定的精度不高。
因此,本发明的目的在于,通过掌握可对照语料库中的片段间的对应关系的新的多语言主题模型来进行主题的推定,由此提高主题推定的精度。
用于解决技术问题的方案
本第一发明的主题推定装置具备:文档集合保存部,保存多语言文档集合,所述多语言文档集合为语言不同的2个以上的文档,且是分别具有作为文档的部分的2个以上的片段的、2个以上的文档的集合;对应管理部,管理1个以上的片段间对应关系,所述1个以上的片段间对应关系为构成多语言文档集合具有的2个以上的文档的2个以上的各片段间的对应,且是不同文档中包含的2个以上的片段间的对应;单词分布信息保存部,与2个以上的各语言相对应地保存表示2个以上的各主题的单词分布的单词分布信息;文档主题分布生成部,概率性地取得文档主题分布信息,所述文档主题分布信息表示主题分布,该主题分布是相对于多语言文档集合的主题分布、且是在2个以上的语言的各文档中共同的主题分布;片段主题分布生成部,对于具有通过1个以上的各片段间对应关系相互对应的2个以上的片段的1个以上的各片段集合,或者对于1个以上的片段集合以及未通过1个以上的各片段间对应关系相互对应的1个以上的各片段,使用包含各片段在内的文档的文档主题分布信息,概率性地取得片段主题分布信息,所述片段主题分布信息表示主题分布,且相对于构成片段集合的2个以上的各片段表示相同的主题分布;以及单词主题确定部,对于多语言文档集合具有的2个以上的各文档中包含的各单词,使用包含单词在内的片段的片段主题分布信息,概率性地确定并输出各单词的主题。
根据该结构,通过还考虑比文档小的片段单位的对应关系,能够提高跨语言的主题推定的精度。
另外,相对于第一发明,本第二发明的主题推定装置进一步具备单词分布信息取得部,所述单词分布信息取得部按照2个以上的各语言的每个语言、2个以上的各主题的每个主题,基于赋予了预先决定的第一超参数的狄利克雷分布,取得表示单词分布的单词分布信息;保存在单词分布信息保存部中的单词分布信息为单词分布信息取得部取得的单词分布信息;文档主题分布生成部相对于多语言文档集合,根据赋予了预先决定的第二超参数的狄利克雷分布生成文档主题分布信息;进一步具备片段集合取得部,所述片段集合取得部使用片段间对应关系,取得存在对应关系的1个以上的片段集合;片段主题分布生成部对于片段集合取得部取得的1个以上的各片段集合,或者对于片段集合取得部取得的1个以上的片段集合以及未通过1个以上的各片段间对应关系相互对应的1个以上的各片段,通过使用了基底测度、预先决定的集中度参数、以及预先决定的折扣参数(discountparameter)的Pitman-Yor过程,生成片段主题分布信息,所述基底测度是包含1个以上的各片段在内的文档的文档主题分布信息;单词主题确定部按照2个以上的各语言的每个文档以及各文档中包含的每个片段,相对于各片段中包含的各单词的位置,从以片段的片段主题分布信息为参数的多项分布中取得隐藏变量即潜在主题,使用潜在主题和与文档相对应的单词分布信息,概率性地确定并输出各单词的主题。
根据该结构,通过还考虑比文档小的片段单位的对应关系,能够提高跨语言的主题推定的精度。
另外,相对于第一或者第二发明,本第三发明的主题推定装置进一步具备片段间对应关系取得部,所述片段间对应关系取得部计算多语言文档集合具有的、语言不同的2个以上的各文档所具有的片段间的相似度,使用相似度,取得1个以上的片段间对应关系;对应管理部的1个以上的片段间对应关系为片段间对应关系取得部取得的片段间对应关系。
根据该结构,在对以文档单位相对应的非对译语料库的各文档或者各单词高精度地进行跨语言的主题推定的情况下,由于能够自动推定片段间的对应关系,因此无需预先提供片段间的对应关系。
另外,相对于第三发明,本第四发明的主题推定装置中,片段间对应关系取得部使用以片段间的相似度为参数的伯努利分布,取得1个以上的片段间对应关系。
根据该结构,在对以文档单位相对应的非对译语料库的各文档或者各单词高精度地进行跨语言的主题推定的情况下,由于能够自动推定片段间的对应关系,因此无需预先提供片段间的对应关系。
另外,相对于第三或者第四发明,本第五发明的主题推定装置进一步具备边界推定部,所述边界推定部按照多语言文档集合具有的2个以上的各文档的每个文档,相对于各文档具有的各句子,判断是否为片段的段尾句;片段间对应关系取得部计算出以由边界推定部判断为片段的段尾句的句子作为片段的最后的句子的片段间的相似度,使用相似度,取得1个以上的片段间对应关系。
根据该结构,在对以文档单位相对应的非对译语料库的各文档或者各单词高精度地进行跨语言的主题推定的情况下,还能够自动推定片段的边界,
另外,相对于第五发明,本第六发明的主题推定装置中,边界推定部通过基于使用了第三超参数与第四超参数的贝塔分布取得的参数的伯努利分布,相对于各文档具有的各句子,判断是否为片段的段尾句。
根据该结构,在对以文档单位相对应的非对译语料库的各文档或者各单词高精度地进行跨语言的主题推定的情况下,还能够自动推定片段的边界。
发明的效果
根据本发明的主题推定装置,通过还考虑比文档小的片段单位的对应关系,能够提高跨语言的主题推定的精度。
附图说明
图1是第一实施方式中的主题推定装置1的框图。
图2是其他主题推定装置1的框图。
图3是说明该主题推定装置1的动作的流程图。
图4是说明检测该文档的片段的段尾句的动作的流程图。
图5是该主题推定装置1的动作的示意图。
图6是示出该主题推定装置1的图形化模型的图。
图7是示出该主题推定装置1的算法的图。
图8是示出该实验结果的图。
图9是示出该实验结果的图。
图10是示出该实验结果的图。
图11是示出该实验结果的图。
图12是该计算机系统的概略图。
图13是示出该计算机系统的内部结构的框图。
图14是示出该以往技术的图形化模型的图。
图15是示出该以往技术的算法的图。
具体实施方式
下面,参照附图,对主题推定装置等的实施方式进行说明。此外,在本实施方式中,赋予相同的附图标记的结构要素进行相同的动作,因此,有时省略重复说明。
(第一实施方式)
在本实施方式中,对通过使用多语言文档集合的片段间的对应关系来推定单词的主题与文档集合的主题分布的主题推定装置进行说明。
另外,在本实施方式中,对自动推定构成多语言文档集合的文档的片段间的对应关系的主题推定装置进行说明。
进一步,在本实施方式中,对自动推定片段边界的主题推定装置进行说明。
图1是本实施方式中的主题推定装置1的框图。
主题推定装置1具备文档集合保存部10、对应管理部11、单词分布信息保存部12、单词分布信息取得部13、文档主题分布生成部14、片段集合取得部15、片段主题分布生成部16、单词主题确定部17、片段间对应关系取得部18以及边界推定部19。
在文档集合保存部10中保存1个或者2个以上的多语言文档集合。多语言文档集合为语言不同的2个以上的文档的集合。构成多语言文档集合的2个以上的文档是虽然没有直接对译关系,但是话题与领域共同或者共有话题与领域的文档。另外,语言不同的2个以上的各文档通常具有2个以上的片段。片段为文档的一部分。片段比单词大而比文档小。多语言文档集合也可以为至少1个以上的文档具有2个以上的片段的2个以上的文档。
在对应管理部11中管理1个以上的片段间对应关系。片段间对应关系通常是指,表示2个以上的各片段间的对应的信息。片段间对应关系为构成多语言文档集合具有的2个以上的文档的2个以上的各片段间的对应,是表示不同文档中包含的2个以上的片段间的对应的信息。片段间对应关系例如为存在对应关系的2个以上的片段的标识符或者存在对应关系的2个以上的片段间的链接信息等。此外,通过片段间对应关系相互对应的2个以上的片段为不同语言的片段。对应管理部11的1个以上的片段间对应关系例如为由片段间对应关系取得部18取得的片段间对应关系。但是,对应管理部11的1个以上的片段间对应关系也可以为由人工输入的信息。
单词分布信息保存部12与2个以上的各语言相对应地保存表示2个以上的各主题的单词分布的单词分布信息。此外,主题的数量是任意的。保存在单词分布信息保存部12中的单词分布信息例如为将在后面进行说明的单词分布信息取得部13取得的单词分布信息。但是,保存在单词分布信息保存部12中的单词分布信息也可以预先保存。保存在单词分布信息保存部12中的单词分布信息通常为4个以上。
单词分布信息取得部13按照2个以上的各语言的每个语言、2个以上的各主题的每个主题,取得表示单词分布的单词分布信息。单词分布信息取得部13按照2个以上的各语言的每个语言、2个以上的各主题的每个主题,通常概率性地取得表示单词分布的单词分布信息。
单词分布信息取得部13按照2个以上的各语言的每个语言、2个以上的各主题的每个主题,例如基于赋予了预先决定的第一超参数的狄利克雷分布,取得表示单词分布的单词分布信息。单词分布信息取得部13根据赋予了第一超参数β的狄利克雷分布生成单词分布信息。第一超参数β是任意的。β为例如全部要素为0.1、维度为单词数的矢量。此外,狄利克雷分布为公知技术,省略详细说明。
此外,单词分布信息取得部13也可以通过其他方法来按照2个以上的各语言的每个语言、2个以上的各主题的每个主题取得单词分布信息。单词分布信息取得部13例如也可以使用狄利克雷分布以外的其他分布(例如多项分布),概率性地取得单词分布信息。
文档主题分布生成部14取得文档主题分布信息。文档主题分布信息为表示主题分布的信息,该主题分布是相对于多语言文档集合的主题分布、且是在2个以上的语言的各文档中共同的主题分布。文档主题分布生成部14通常概率性地取得文档主题分布信息。
文档主题分布生成部14相对于多语言文档集合,根据赋予了预先决定的第二超参数的狄利克雷分布生成文档主题分布信息。在此,第二超参数α为例如全部要素为0.1的K(主题数)维矢量。但是,α也可是任意的。
此外,文档主题分布生成部14也可以通过其他方法取得文档主题分布信息。文档主题分布生成部14例如也可以使用狄利克雷分布以外的其他分布(例如多项分布),概率性地取得文档主题分布信息。
片段集合取得部15使用片段间对应关系,取得存在对应关系的1个以上的片段集合。片段集合取得部15也可以取得不存在对应关系的片段。
在此,例如,假设存在对应关系的文档di e与文档di f保存在文档集合保存部10中。此外,假设文档di e为语言e的文档,文档di f为语言f的文档。而且,假设文档di e具有片段{si1 e,si2 e},文档di f具有片段{si1 f,si2 f,si3 f}。而且,假设在对应管理部11中保存有表示{si1 e}与{si1 f}与{si2 f}相互对应的片段间对应关系(yi11与yi12为1)。此外,在对应管理部11中也可以保存有表示其他片段间的对应的片段间对应关系“0”。在这种情况下,片段集合取得部15生成ASi={ASi1={si1 e,si1 f,si2 f},ASi2={si2 e},ASi3={si3 f}}。此外,也可以将未通过片段间对应关系来相互对应的1个以上的各片段即ASi2={si2 e},ASi3={si3 f}也称为片段集合。也就是说,片段集合通常为2个以上的片段的集合,但是也可以认为还包含1个片段。
片段主题分布生成部16相对于具有通过1个以上的各片段间对应关系相互对应的2个以上的片段的1个以上的各片段集合,使用包含各片段在内的文档的文档主题分布信息,取得片段主题分布信息,所述片段主题分布信息表示主题分布,且相对于构成片段集合的2个以上的各片段表示相同的主题分布。片段主题分布生成部16通常概率性地生成片段主题分布信息。
另外,片段主题分布生成部16相对于1个以上的片段集合以及未通过1个以上的各片段间对应关系相互对应的1个以上的各片段,使用包含各片段在内的文档的文档主题分布信息,取得片段主题分布信息,所述片段主题分布信息表示主题分布,且相对于构成片段集合的2个以上的各片段表示相同的主题分布。
片段主题分布生成部16相对于片段集合取得部15取得的1个以上的各片段集合,使用包含片段在内的文档的文档主题分布信息,取得片段主题分布信息。
片段主题分布生成部16例如相对于1个以上的各片段集合(也可以包含未通过片段间对应关系来相互对应的片段),通过使用了作为包含1个以上的各片段在内的文档的文档主题分布信息的基底测度、预先决定的集中度参数、以及预先决定的折扣参数的Pitman-Yor过程,生成片段主题分布信息。此外,通过片段间对应关系相互对应的片段具有共同的片段主题分布信息。
片段主题分布生成部16例如通过基底测度θi、集中度参数a、折扣参数b的Pitman-Yor过程生成片段主题分布信息νig。此外,θi为包含有片段集合中所包含的1个以上的片段在内的1个以上的文档的文档主题分布信息。另外,片段主题分布生成部16也可以通过其他方法生成片段主题分布信息。其他方法例如是指,通过基底测度θi、集中度参数a的狄利克雷过程生成片段主题分布信息νig的方法。
单词主题确定部17相对于多语言文档集合具有的2个以上的各文档中包含的各单词,使用包含单词在内的片段的片段主题分布信息,确定并输出各单词的主题。
单词主题确定部17例如按照2个以上的各语言的每个文档以及各文档中包含的每个片段,相对于各片段中包含的各单词的位置m∈{1,……Nij l},从以片段的片段主题分布信息νig为参数的多项分布中取得隐藏变量即潜在主题zijm l。而且,单词主题确定部17例如使用该潜在主题zijm l和与文档相对应的单词分布信息φl,概率性地确定各单词的主题并输出。此外,g为含有片段sij l的片段集合的索引。此外,单词主题确定部17也可以使用片段主题分布信息,概率性地确定单词的主题。单词主题确定部17也可以通过使用片段主题分布信息的其他方法,概率性地确定各单词的主题。其他方法是指,例如取代上述多项分布使用其他分布(例如,狄利克雷分布)。
在此,输出是指包含显示在显示器上、使用投影仪投影、用打印机打印、输出声音、发送到外部装置、存储到存储介质、向其他处理装置或其他程序等传递处理结果等在内的概念。
片段间对应关系取得部18计算多语言文档集合具有的、语言不同的2个以上的各文档所具有的片段间的相似度,使用该相似度,取得1个以上的片段间对应关系。
片段间对应关系取得部18例如使用以片段间的相似度为参数的伯努利分布,取得1个以上的片段间对应关系。此外,片段间对应关系取得部18例如将2个片段的TF-IDF主题矢量的余弦相似度用作片段间的相似度。此外,在此,片段间对应关系取得部18例如不同于通常的单词TF-IDF,将语料库作为片段集合而非文档集合,将各片段视为潜在主题列而非单词列,来计算矢量的各权重。但是,片段间的相似度也可以为由片段的单词集合构成的文档矢量的余弦相似度等。该相似度的计算方法为公知技术,因此省略详细说明。
此外,片段间对应关系取得部18例如基于以下数学式1取得片段间对应关系(yijj’)。此外,“yijj’”为表示2个片段间是否存在对应关系的信息。另外,片段间对应关系(yijj’)例如能够采用“0(无对应关系)”或者“1(有对应关系)”的值。
[数学式1]
在数学式1中,x为片段间对应关系(yijj’)的值。z为表示各单词的主题的隐藏变量。w为单词。在此,对依存于语言的变量省略上标文字来表示e与f两语言的变量(例如z={ze,zf})。t为与中餐馆过程的桌子相关的变量。α为第二超参数。β为第一超参数。a为集中度参数。b为折扣参数。y-yijj’为从全部片段间对应关系(y)中除去了y_{ijj’}的片段间对应关系的集合。Sij e为语言e的文档i的第j个片段。Sij’ f为语言f的文档i的第j’个片段。进一步,Cos(Sij e,Sij’ f)为2个片段间的余弦相似度。
此外,片段间对应关系取得部18等无法直接计算隐藏变量的后验概率p(θ、ν、z、φ|α、β、w、y)。因此,片段间对应关系取得部18等通过吉布斯采样法来推定各隐藏变量。在此,片段间对应关系取得部18等用中餐馆过程表现层次性(ν与z的生成过程)。通过这个过程,积分消去θ、ν、φ,取而代之地导入与中餐馆过程的桌子相关的变量t。因此,片段间对应关系取得部18等通过交替反复进行z与t两种变量的采样来进行推定。但是,在y未作为观测数据被提供的情况下,还通过采样来推定y。
此外,吉布斯采样法为公知技术,记载于“David Mimno,Hanna M.Wallach,JasonNaradowsky,David A.Smith,and Andrew McCallum.Polylingual Topic Models.InProc.EMNLP 2009,pp.880–889,2009.”、“Xiaochuan Ni,Jian-Tao Sun,Jian Hu,andZheng Chen.Mining Multilingual Topics from Wikipedia.In Proc.WWW 2009,pp.1155–1156,2009.”、“Ivan Vulic’,Wim De Smet,Jie Tang,and Marie FrancineMoens.Probabilistic Topic Modeling in Multilingual Settings:An Overview ofIts Methodology and Applications.Information Processing&Management,Vol.51,No.1,pp.111–147,2015.”等中。
片段间对应关系取得部18等例如使用吉布斯采样法,使用数学式2所示的后验概率,取得θ、ν、φ。
[数学式2]
其中,Σ*N表示
在此,在用于数学式2等的推定的统计量中,tijk l为与片段sij l的主题k相关的桌子数。另外,Tij l为片段sij l的总桌子数(Σktijk l)。另外,nijk l为片段sij l中的主题k的单词数。另外,Nij l为片段sij l中的总单词数(Σknijk l)。另外,Mkw l为主题是k的语言l的单词w的数量。另外,Mk l为第w个要素是Mkw l的|wl|维矢量。
另外,与上述相同地,如数学式3所示,通过吉布斯采样法计算zijm l的后验分布。
[数学式3]
另外,与上述相同地,如数学式4所示,通过吉布斯采样法计算tijk l的后验分布。
[数学式4]
其中,Σ**t与Σ*t/T/n分别表示与
片段间对应关系取得部18例如也可以计算以边界推定部19判断为片段的段尾句的句子作为片段的最后的句子的片段间的相似度,使用相似度,取得1个以上的片段间对应关系。
边界推定部19按照多语言文档集合具有的2个以上的各文档的每个文档,相对于各文档具有的各句子判断是否为片段的段尾句。边界推定部19也可以相对于各文档具有的各句子,取得表示是否为片段的段尾的分段信息。此外,分段信息例如为“1”或者“0”。例如,分段信息“1”表示是片段的分段,“0”表示不是分段。另外,段尾与分段意思相同。
边界推定部19例如通过基于使用了第三超参数与第四超参数的贝塔分布取得的参数的伯努利分布,相对于各文档具有的各句子,判断是否为片段的段尾句。
例如,假设边界推定部19相对于具有5个句子{ui1 l,ui2 l,ui3 l,ui4 l,ui5 l}的文档的各句子,取得分段信息,例如得到分段信息的矢量ρi l=(0,1,0,0,1)。此外,ρi l=(0,1,0,0,1)表示5个句子中的第2句与第5句为分段。在这种情况下,本文档di l具有2个片段。片段1为{ui1 l,ui2 l}(第1句与第2句),片段2为{ui3 l,ui4 l,ui5 l}(第3句与第4句与第5句)。此外,在此,分段信息“1”表示是片段的分段,“0”表示不是分段。
边界推定部19也可以例如如数学式5所示,通过吉布斯采样法推定各句子的分段信息(ρih l)。
[数学式5]
在数学式5中,ρih l为语言l的文档i的句子h分段信息。上面的数学式表示通过设ρih l为1来将s_{m}分割为s_{r}与s_{l}的情况,下面的数学式表示通过设ρih l为0来将s_{r}与s_{l}结合成s_{m}的情况。另外,Τ(数学式5的倒数第2行的Σ的下面的T)为s_{r}或者s_{l},或者其两者的tijk l为1的tijk l的集合。另外,ci1 l为语言l的文档i中的分段信息“1”的句子总数。ci0 l为语言l的文档i中的分段信息“0”的句子总数。
此外,边界推定部19也可以通过其他方法来相对于各文档具有的各句子判断是否为片段的段尾句。边界推定部19也可以使用其他常规的边界推定方法来相对于各文档具有的各句子判断是否为片段的段尾句。其他常规的边界推定方法例如为使用词汇整合性的方法、使用线索句的方法等。
此外,在主题推定装置1中,也可以由未图示的输出部输出文档主题信息、片段主题信息、单词主题等。
另外,在主题推定装置1中,也可以在文档集合保存部10的多语言文档集合具有的2个以上的文档中预先提供片段。在这种情况下,不需要边界推定部19。
另外,在主题推定装置1中,也可以预先提供表示片段间的对应关系的1个以上的片段间对应关系。在这种情况下,不需要片段间对应关系取得部18。而且,这种情况的主题推定装置1的框图为图2。
进一步,例如,单词分布信息取得部13的处理也可以通过其他装置进行。在图2中,不需要单词分布信息取得部13。
文档集合保存部10、对应管理部11以及单词分布信息保存部12优选为非易失性存储介质,但是也能够通过易失性存储介质实现。
将多语言文档集合等存储到文档集合保存部10等中的过程是任意的。例如,既可以借助存储介质将多语言文档集合等存储在文档集合保存部10等中,也可以将经由通信线路等发送的多语言文档集合等存储在文档集合保存部10等中,或者也可以将通过输入设备输入的多语言文档集合等存储在文档集合保存部10等中。
单词分布信息取得部13、文档主题分布生成部14、片段集合取得部15、片段主题分布生成部16、单词主题确定部17、片段间对应关系取得部18以及边界推定部19通常能够由MPU和存储器等实现。单词分布信息取得部13等的处理步骤通常通过软件实现,该软件存储在ROM等存储介质中。但是,也可以通过硬件(专用电路)实现。
接下来,使用图3的流程图,对图1的主题推定装置1的动作进行说明。此外,在图3的流程图中,假设在文档集合保存部10中保存有2个多语言文档集合。
(步骤S301)单词分布信息取得部13将1代入计数器k。
(步骤S302)单词分布信息取得部13判断是否存在第k个主题。在存在第k个主题的情况下,进入步骤S303,在不存在第k个主题的情况下,进入步骤S308。此外,主题的信息通常预先保存在未图示的保存部中。另外,主题的信息是指,主题的数量、识别主题的信息等中的1种以上的信息。
(步骤S303)单词分布信息取得部13将1代入计数器l。
(步骤S304)单词分布信息取得部13判断是否存在第l个语言。在存在第l个语言的情况下,进入步骤S305,在不存在第l个语言的情况下,进入步骤S307。此外,也可以检查文档集合保存部10的多语言文档集合,判断是否存在多个语言的文档,也可以预先将存在的语言的信息保存在未图示的保存部中。此外,存在的语言的信息是指,构成多语言文档集合的文档的语言的数量、识别构成多语言文档集合的文档的语言的信息等。
(步骤S305)单词分布信息取得部13取得第k个主题的第l个语言(也可以称为第l个语言的文档)的单词分布信息。单词分布信息取得部13例如基于赋予了预先决定的第一超参数的狄利克雷分布,取得单词分布信息。
(步骤S306)单词分布信息取得部13使计数器l加1,返回步骤S304。
(步骤S307)单词分布信息取得部13使计数器k加1,返回步骤S302。
(步骤S308)文档主题分布生成部14将1代入计数器i。
(步骤S309)文档主题分布生成部14判断文档集合保存部10中是否存在第i个多语言文档集合。在存在第i个多语言文档集合的情况下,进入步骤S310,在不存在的情况下,结束处理。此外,在结束处理之前,也可以由未图示的输出部输出文档主题信息、片段主题信息、单词主题等。
(步骤S310)文档主题分布生成部14取得第i个多语言文档集合的文档主题分布信息。文档主题分布生成部14例如相对于第i个多语言文档集合,根据赋予了预先决定的第二超参数的狄利克雷分布生成文档主题分布信息。
(步骤S311)片段间对应关系取得部18判断在对应管理部11中是否存在1个以上的片段间对应关系。在存在1个以上的片段间对应关系的情况下,进入步骤S313,在不存在的情况下,进入步骤S312。
(步骤S312)片段间对应关系取得部18计算片段间的相似度,使用该相似度,取得1个以上的片段间对应关系。片段间对应关系取得部18例如使用以片段间的相似度为参数的伯努利分布,取得1个以上的片段间对应关系。此外,片段间的相似度是指,第i个多语言文档集合具有的、语言不同的2个以上的各文档所具有的片段间的相似度。
(步骤S313)片段集合取得部15使用1个以上的片段间对应关系,确定存在对应关系的1个以上的片段集合。此外,此处的1个以上的片段集合也包括与其他片段无对应关系的1个片段。
(步骤S314)片段主题分布生成部16将1代入计数器g。
(步骤S315)片段主题分布生成部16判断在步骤S313中取得的片段集合中是否存在第g个片段集合。如果存在第g个片段集合,则进入步骤S316,如果不存在,则进入步骤S318。
(步骤S316)片段主题分布生成部16相对于第g个片段集合,使用包含该片段集合在内的1个或者2个以上的文档的1个或者2个以上的文档主题分布信息,取得片段主题分布信息。此外,片段主题分布生成部16例如通过基底测度θi、集中度参数a、以及折扣参数b的Pitman-Yor过程生成片段主题分布信息。
(步骤S317)片段主题分布生成部16使计数器g加1,返回步骤S315。
(步骤S318)单词主题确定部17将1代入计数器l。
(步骤S319)单词主题确定部17判断在第i个多语言文档集合的文档中是否存在第l个语言的文档。如果存在第l个语言的文档,则进入步骤S320,如果不存在,则进入步骤S329。
(步骤S320)单词主题确定部17将1代入计数器j。
(步骤S321)单词主题确定部17判断在第i个多语言文档集合的第l个语言的文档中是否存在第j个片段。在存在第j个片段的情况下,进入步骤S322,在不存在的情况下,进入步骤S328。
(步骤S322)单词主题确定部17取得第l个语言的文档中的第j个片段的索引。第j个片段的索引只要是识别第j个片段的信息即可,可以是任意的。
(步骤S323)单词主题确定部17将1代入计数器m。
(步骤S324)单词主题确定部17判断在第j个片段中是否存在第m个单词位置。在存在第m个单词位置的情况下,进入步骤S325,在不存在的情况下,进入步骤S327。
(步骤S325)单词主题确定部17使用第j个片段的片段主题分布信息,取得第m个单词位置的单词的主题。此外,在此,单词主题确定部17也可以以能够目视识别的方式输出第m个单词位置的单词的主题。另外,单词主题确定部17例如也可以从以第j个片段的片段主题分布信息为参数的多项分布中取得隐藏变量即潜在主题,使用该潜在主题和与文档相对应的单词分布信息,概率性地取得各单词的主题。
(步骤S326)单词主题确定部17使计数器m加1,返回步骤S324。
(步骤S327)单词主题确定部17使计数器j加1,返回步骤S321。
(步骤S328)单词主题确定部17使计数器l加1,返回步骤S319。
(步骤S329)文档主题分布生成部14使计数器i加1,返回步骤S309。
此外,在图3的流程图中,在不存在各文档的片段的分段的信息的情况下,也可以由边界推定部19相对于各文档具有的各句子,判断是否为片段的段尾句,取得各文档的片段的分段的信息。
另外,使用图4的流程图,对边界推定部19检测不具有片段的分段的信息的、各文档的片段的段尾句的动作进行说明。
(步骤S401)边界推定部19将1代入计数器i。
(步骤S402)边界推定部19判断在文档集合保存部10中是否存在未分割为片段的第i个文档。在存在第i个文档的情况下,进入步骤S403,在不存在的情况下,结束处理。
(步骤S403)边界推定部19取得第i个文档的主题转换(topic shift)概率。此外,取得主题转换概率的处理为公知技术,省略详细说明。取得主题转换概率的技术与记载于“Lan Du,Wray Buntine,and Mark Johnson.2013.Topic Segmentation with aStructured Topic Model.In Proceedings of the 2013Conference of the NorthAmerican Chapter of the Association for Computational Linguistics:HumanLanguage Technologies,pages 190–200.”中的技术相同。
(步骤S404)边界推定部19将1代入计数器h。
(步骤S405)边界推定部19判断在第i个文档中是否存在第h个句子。在存在第h个句子的情况下,进入步骤S406,在不存在第h个句子的情况下,进入步骤S408。
(步骤S406)边界推定部19使用第i个文档的主题转换概率,取得第h个句子的分段信息。边界推定部19例如将第i个文档的主题转换概率提供给伯努利分布,取得第h个句子的分段信息。
(步骤S407)边界推定部19使计数器h加1。返回步骤S405。
(步骤S408)边界推定部19使用构成第i个文档的各句子的分段信息,取得1个或者2个以上的片段。
(步骤S409)边界推定部19使计数器i加1。返回步骤S402。
下面,对本实施方式中的主题推定装置1的具体动作进行说明。主题推定装置1的动作的示意图为图5。在图5中,主题推定装置1的关注点在于,文档具有层次结构,并且以片段单位相对应。此外,文档的层次结构是指,例如文档→片段(例:章节、段落)→单词。在图5中,英文的“Association football”的文档与日文的“サッカー(football)”的文档相对应。另外,章节“History”与章节“歴史(History)”相对应。另外,章节“Etymology and names”与章节“名称(name)”相对应。另外,章节“Gameplay”与章节“試合(game)”相对应。进一步,章节“Laws”与章节“ルール(rule)”相对应。而且,在这种情况下,主题推定装置1在存在对应关系的文档的主题分布相同的基础上,设为存在对应关系的片段的主题分布也相同,从而进行主题推定。此处的主题推定是指,例如取得文档主题分布信息、片段主题分布信息、各单词的主题中的1种以上的信息。
另外,图6示出主题推定装置1的图形化模型。在图6中,α为超参数,θ为文档主题分布,y为表示片段间是否存在对应关系的二进制变量,νe、νf为各语言(e或者f)的片段的主题分布,φk l(l∈{e,f})为单词分布,βl(l∈{e,f})为超参数,zl(l∈{e,f})为各语言(e或者f)的潜在主题,wl(l∈{e,f})为各语言(e或者f)的单词wim l的主题,Nl(l∈{e,f})为各语言(e或者f)的单词的单词位置,sl(l∈{e,f})为各语言(e或者f)的片段。
另外,图7中示出主题推定装置1的算法。主题推定装置1的算法优选“BiSTM”(Bilingual Segmented Topic Model:双语分段主题模型)。
BiSTM考虑片段间的对应关系。在此,假设各文档di l由si l个片段构成。在BiSTM中,按照各语言将片段的主题分布(νe,νf)插入到文档的主题分布(θ)与单词的主题(ze,zf)之间,层次性地生成文档。此外,主题分布(νe,νf)为上述主题分布信息,主题分布(θ)为上述文档主题分布信息。另外,通过导入表示片段间是否存在对应关系的二进制变量y(片段间对应关系),进行反映出片段间的对应关系的模型化。主题推定装置1首先根据狄利克雷分布相对于各主题生成语言固有的单词分布φk l(单词分布信息)(图7的步骤1至5)。然后,在文档对di的生成过程中,最初生成相对于di的主题分布θi(步骤7)。因此,在BiSTM中,各文档对具有共同的主题分布。之后,基于yi,生成存在对应关系的片段集合的集合ASi(步骤8)。在此,yijj’=1表示片段sij e与sij’ f存在对应关系,yijj’=0表示不存在对应关系。接下来,相对于ASi中的各片段集合ASig(g∈{1,……,|ASi|}),通过基底测度θi、集中度参数a、以及折扣参数b的Pitman-Yor过程生成主题分布νig(步骤10)。通过步骤8至11,由y示意的存在对应关系的片段具有共同的主题分布。最后,相对于片段sij l的各单词位置m∈{1,……,Nij l},根据以νig为参数的多项分布生成潜在主题zijm l(步骤16),基于具体化的zijm l与单词分布φl生成单词wijm l(步骤17)。在此,g为包含片段sij l在内的片段集合的索引,在图7的步骤14中被具体化。
(实验1)
下面,对主题推定装置1的实验结果进行说明。在本实验中,以困惑度(perplexity)与对译对抽取中的性能的观点来评价主题推定装置1的算法的有效性。
在本实验中,将由3995文档对构成的日英可对照语料库用作实验数据。实验数据通过相对于维基百科(Wikipedia)日英京都关联文档对译语料库(互联网URL:https://alaginrc.nict.go.jp/WikiCorpus/)的日文文章,基于维基百科的语言间链接来收集相对应的英文文章来做成。此外,不存在相对应的英文文章的日文文章除外。在此,维基百科日英京都关联文档对译语料库原本为通过人工将日文文章的各句子翻译为英文的对译语料库,但实验数据中不包括该翻译后的英文文章。通过MeCab(互联网URL:http://taku910.github.io/mecab/)对日文文本进行语素解析,通过TreeTagger(互联网URL:http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/)对英文文本进行语素解析,之后除去虚词,还原其他单词。
为了进行对译对抽取实验,使用“Xiaodong Liu,Kevin Duh,and YujiMatsumoto.Topic Models+Word Alignment=A FlexibleFramework forExtractingBilingual Dictionary fromComparable Corpus.In Proc.CoNLL 2013,pp.212–221,2013.”中记载的技术自动地作成对译对的正解组合。首先,最初相对于原本的维基百科日英京都关联文档对译语料库,通过IBM模型4计算p(we|wf)以及p(wf|we),抽取出满足w^e=argmaxwep(we|wf=w^f)并且w^f=argmaxwfp(wf|we=w^e)的单词组(w^e,w^f)。之后,除去可对照语料库的文档对中未出现的单词组,将剩下的单词对作为正解组合。在对译对抽取实验中,进行了相对于正解组合中的全部日文单词7930的对译词获取。
而且,在本实验中,对主题推定装置1的模型即BiSTM以及BiSTM+TS与非专利文献2、3所记载的以往模型BiLDA进行对比。BiSTM为主题推定装置1的算法,为不进行基于边界推定部19的片段的边界的推定处理的情况。BiSTM+TS为主题推定装置1的算法,为进行基于边界推定部19的片段的边界的推定处理的情况。另外,在BiSTM中,将维基百科文章中的各章节作为片段。另外,由于实验数据中未赋予章节间的对应关系,因此在BiSTM与BiSTM+TS中,通过上述方法推定出y。另外,BiLDA的推定与BiSTM相同地,通过吉布斯采样法(参照“Mimno et al.,2009;Ni et al.,2009;Vulic’et al.,2015.”)进行。在各模型的推定中,随机初始化各变量后,重复10000次一系列的吉布斯采样法。此外,z随机地初始化为从1至K之间的整数,tijk l随机地初始化为0与nijk l之间的整数,y以及ρ随机地初始化为0或者1。而且,超参数α与βl分别使用对称的参数αk=50/K、βw l=0.01,将超参数a与b与λ1与λ2分别设为0.2、10、0.1、0.1。另外,为了调查主题数量的影响,K尝试了100、400、2000三种。此外,对于BiSTM+TS,未进行“K=2000”的实验。
在对译对抽取实验中,使用2个对译对抽取方法(Cue与Liu)。Cue参照“IvanVulic’,Wim De Smet,and Marie-Francine Moens.2011.Identifying WordTranslations from Comparable Corpora Using Latent Topic Models.In Proceedingsof the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies,pages 479–484.”。Liu参照“Xiaodong Liu,Kevin Duh,and Yuji Matsumoto.Topic Models+Word Alignment=A Flexible Framework forExtracting Bilingual Dictionary from Comparable Corpus.In Proc.CoNLL 2013,pp.212–221,2013.”。在这些方法中,首先,通过多语言主题模型(BiLDA或者BiSTM或者BiSTM+TS)来推定各单词的主题。接下来,基于推定出的主题,抽取概率p(we|wf)较高的单词对(we,wf)。
在此,在Cue中,根据以下的数学式6,计算概率p(we|wf)。
[数学式6]
另外,在Liu中,基于推定出的主题,将可对照语料库转换成以主题相互对应的对译语料库,相对于转换后的对译语料库,通过IBM模型1,计算p(we|wf,k)。而且,将概率p(we|wf)=Σk=1 Kp(we|wf,k)p(k|wf)较高的单词对(we,wf)作为对译对。
作为上述实验的结果,在图8中示出各模型的试验组合困惑度。该困惑度通过5分割交叉验证求得。困惑度越低,表示越优异。根据图8可知,以困惑度的观点来看,BiSTM为比BiLDA更优异的模型。另外,以困惑度的观点来看,BiSTM+TS也为比BiLDA更优异的模型。
另外,在图9中示出使用各模型抽取出的对译对的正解率。正解率使用上位N的翻译候补中包含有正确的翻译语时作为正解的上位N正解率(N=1以及10)。
由图9可知,在Cue与Liu的两种方法中,使用BiSTM比使用BiLDA的情况正解率高。该差通过符号验证有意差为1%,是有意义的。由此可知,BiSTM通过向单词分配更加适当的主题,能够改善对译对抽取性能。另外,可知BiSTM+TS也比BiLDA正解率高。
另外,在本实验中,从K=100以及400中的BiSTM+TS与BiSTM的结果的对比可知,在主题推定装置1的方法中,即使片段的边界未知,也能够得到优异的评价结果。
另外,从图9可知,与Cue相比,使用了Liu结果更好。
综上,通过实验可确认通过掌握片段间的对应关系能够改善多语言语料库的模型化性能。此外,可知主题数越多,性能越好。
(实验2)
另外,进行了取得主题推定装置1的片段间对应关系取得部18中的片段间对应关系的实验。
在本实验中,通过BiSTM(K=2000)推定片段间对应y。在本实验中,从可对照语料库中随机选择了100个文档对。而且,通过人工进行语言间的章节间(片段间)的对应,并且通过本方法推定出y。在图10中,“Reference y=1”为通过人工作成的片段间对应y是“1”的情况,“Reference y=0”为通过人工作成的片段间对应y是“0”的情况,“Inference y=1”为通过本方法推定出的片段间对应y是“1”的情况,“Inference y=0”为通过本方法推定出的片段间对应y是“0”的情况。也就是说,图10示出正解率为0.858(1325/1544)。此外,正解的情况为,“1325=186+1139”、“Reference y=1”并且“Inference y=1”、或者“Referencey=0”并且“Inference y=0”。另外,“167”、“52”为非正解的情况。
(实验3)
进一步,进行了针对主题推定装置1的边界推定部19中的片段的边界的推定的实验。
在本实验中,对基于BiSTM+TS(K=400)的片段边界的推定与原本的章节(片段)的边界进行了对比。BiSTM+TS的重现率为0.724。
在图11中,示出实验3的实验结果。在本实验中,使用了日文文章以及英文文章两种文章。另外,图11示出各模型(BiSTM,BiSTM+TS)中的每个文章的平均片段数。如图11所示可知,在BiSTM+TS中,与原本的章节相比,将文章分割成了更小的片段。但是,原本的章节包含多个主题,因此认为该结果是合适的。此外,根据图11可知,BiSTM+TS使语言间的差异增大。这表示对于本方法(BiSTM+TS)来说优选以语言间的同等粒度进行分段。
以上,根据本实施方式,通过还考虑比文档小的片段单位的对应关系,能够提高跨语言的主题推定的精度。
另外,根据本实施方式,在对以文档单位相对应的非对译语料库的各文档或者各单词高精度地进行跨语言的主题推定的情况下,由于能够自动推定片段间的对应关系,因此无需预先提供片段间的对应关系。
进一步,根据本实施方式,在对以文档单位相对应的非对译语料库的各文档或者各单词高精度地进行跨语言的主题推定的情况下,还能够自动推定片段的边界。
此外,本实施方式中的处理也可以通过软件来实现。而且,也可以通过软件下载等来发布该软件。另外,也能够将该软件存储在CD-ROM等的存储介质中发行。此外,这也适用于本说明书中的其他实施方式。此外,实现本实施方式中的主题推定装置的软件为如下程序。也就是说,该程序的特征在于,计算机能够访问的存储介质具备:文档集合保存部,保存多语言文档集合,所述多语言文档集合为语言不同的2个以上的文档,且是分别具有作为文档的部分的2个以上的片段的、2个以上的文档的集合;对应管理部,管理1个以上的片段间对应关系,所述1个以上的片段间对应关系为构成所述多语言文档集合具有的2个以上的文档的2个以上的各片段间的对应,且是不同文档中包含的2个以上的片段间的对应;以及单词分布信息保存部,与2个以上的各语言相对应地保存表示2个以上的各主题的单词分布的单词分布信息;使计算机作为以下各部发挥其功能:文档主题分布生成部,概率性地取得文档主题分布信息,所述文档主题分布信息表示主题分布,该主题分布是相对于所述多语言文档集合的主题分布、且是在2个以上的语言的各文档中共同的主题分布;片段主题分布生成部,对于具有通过所述1个以上的各片段间对应关系相互对应的2个以上的片段的1个以上的各片段集合,或者对于1个以上的片段集合以及未通过所述1个以上的各片段间对应关系相互对应的1个以上的各片段,使用包含各片段在内的文档的文档主题分布信息,概率性地取得片段主题分布信息,所述片段主题分布信息表示主题分布,且相对于构成所述片段集合的2个以上的各片段表示相同的主题分布;以及单词主题确定部,对于所述多语言文档集合具有的2个以上的各文档中包含的各单词,使用包含该单词在内的片段的片段主题分布信息,概率性地确定并输出各单词的主题。
以下的程序为优选:在上述程序中,使计算机进一步作为单词分布信息取得部发挥其功能,所述单词分布信息取得部按照2个以上的各语言的每个语言、2个以上的各主题的每个主题,基于赋予了预先决定的第一超参数的狄利克雷分布,取得表示单词分布的单词分布信息;并且使计算机发挥如下功能,即,保存在所述单词分布信息保存部中的单词分布信息为所述单词分布信息取得部取得的单词分布信息;所述文档主题分布生成部相对于所述多语言文档集合,根据赋予了预先决定的第二超参数的狄利克雷分布生成所述文档主题分布信息;进一步具备片段集合取得部,所述片段集合取得部使用所述片段间对应关系,取得存在对应关系的1个以上的片段集合;所述片段主题分布生成部对于所述片段集合取得部取得的1个以上的各片段集合,或者对于所述片段集合取得部取得的1个以上的片段集合以及未通过所述1个以上的各片段间对应关系相互对应的1个以上的各片段,通过使用了基底测度、预先决定的集中度参数、以及预先决定的折扣参数的Pitman-Yor过程,生成片段主题分布信息,所述基底测度是包含1个以上的各片段在内的文档的文档主题分布信息;所述单词主题确定部按照2个以上的各语言的每个文档以及各文档中包含的每个片段,相对于各片段中包含的各单词的位置,从以该片段的片段主题分布信息为参数的多项分布中取得隐藏变量即潜在主题,使用该潜在主题和与所述文档相对应的单词分布信息,概率性地确定并输出各单词的主题。
以下的程序为优选:在上述程序中,使计算机进一步作为片段间对应关系取得部发挥其功能,所述片段间对应关系取得部计算所述多语言文档集合具有的、语言不同的2个以上的各文档所具有的片段间的相似度,使用该相似度,取得1个以上的片段间对应关系;并且使计算机发挥如下功能,即,所述对应管理部的1个以上的片段间对应关系为所述片段间对应关系取得部取得的片段间对应关系。
以下的程序为优选:在上述程序中,使计算机发挥如下功能,即,所述片段间对应关系取得部使用以所述片段间的相似度为参数的伯努利分布,取得1个以上的片段间对应关系。
以下的程序为优选:在上述程序中,使计算机进一步作为边界推定部发挥其功能,所述边界推定部按照所述多语言文档集合具有的2个以上的各文档的每个文档,相对于各文档具有的各句子,判断是否为片段的段尾句;并且使计算机发挥如下功能,即,所述片段间对应关系取得部计算出以所述边界推定部判断为片段的段尾句的句子作为片段的最后的句子的片段间的相似度,使用该相似度,取得1个以上的片段间对应关系。
以下的程序为优选:在上述程序中,使计算机发挥如下功能,即,所述边界推定部通过基于使用了第三超参数与第四超参数的贝塔分布取得的参数的伯努利分布,相对于各文档具有的各句子,判断是否为片段的段尾句。
另外,图12示出执行在本说明书中所述的程序并实现上述各种实施方式的主题推定装置1等的计算机的外观。上述实施方式可以通过计算机硬件以及在其中执行的计算机程序来实现。图12为该计算机系统300的概略图,图13为示出系统300的内部结构的框图。
在图12中,计算机系统300包括含有CD-ROM驱动器3012的计算机301、键盘302、鼠标303以及监视器304。
在图13中,计算机301除了包括CD-ROM驱动器3012之外,还包括:MPU3013;总线3014,连接到MPU3013、CD-ROM驱动器3012;ROM3015,用于存储启动程序等程序;RAM3016,连接到MPU3013,用于临时存储应用程序的命令并且提供临时存储空间;以及硬盘3017,用于存储应用程序、系统程序以及数据。在此,虽然未进行图示,但是计算机301也可以进一步包括提供连接至LAN的网卡。
在计算机系统300中,执行上述实施方式的主题推定装置1等的功能的程序也可以存储于CD-ROM3101并插入到CD-ROM驱动器3012中,进一步传送至硬盘3017。取而代之地,程序也可以经由未图示的网络被发送到计算机301,并存储于硬盘3017。程序在执行时载入到RAM3016。程序也可以从CD-ROM3101或者网络直接载入。
程序也可以不必包括使计算机301执行上述实施方式的主题推定装置1等的功能的操作系统(OS),或者第三方程序等。程序也可以仅包括命令部分,所述命令部分在被控制的状态下读取适当的功能(模块),得到预期结果。计算机系统300如何进行动作是周知的,省略详细说明。
另外,执行上述程序的计算机既可以为单个,也可以为多个。即,既可以进行集中处理,或者也可以进行分散处理。
另外,在上述各实施方式中,各处理既可以通过由单一的装置进行集中处理来实现,或者也可以通过由多个装置进行分散处理来实现。
本发明不局限于上述实施方式,能够进行各种变更,当然,这些变更也包含在本发明的保护范围内。
产业上的利用可能性
如上所述,本发明所涉及的主题推定装置通过还考虑比文档小的片段单位的对应关系,具有提高跨语言的主题推定的精度的效果,例如作为进行跨语言文档分类的装置等是有用的。
附图标记说明
1:主题推定装置
10:文档集合保存部
11:对应管理部
12:单词分布信息保存部
13:单词分布信息取得部
14:文档主题分布生成部
15:片段集合取得部
16:片段主题分布生成部
17:单词主题确定部
18:片段间对应关系取得部
19:边界推定部
Claims (6)
1.一种主题推定装置,具备:
文档集合保存部,保存多语言文档集合,所述多语言文档集合为语言不同的2个以上的文档,且是分别具有作为文档的部分的2个以上的片段的、2个以上的文档的集合;
对应管理部,管理1个以上的片段间对应关系,所述1个以上的片段间对应关系为构成所述多语言文档集合具有的2个以上的文档的2个以上的各片段间的对应,且是不同文档中包含的2个以上的片段间的对应;
单词分布信息保存部,与2个以上的各语言相对应地保存表示2个以上的各主题的单词分布的单词分布信息;
文档主题分布生成部,概率性地取得文档主题分布信息,所述文档主题分布信息表示主题分布,该主题分布是相对于所述多语言文档集合的主题分布、且是在2个以上的语言的各文档中共同的主题分布;
片段主题分布生成部,对于具有通过所述1个以上的各片段间对应关系相互对应的2个以上的片段的1个以上的各片段集合,或者对于1个以上的片段集合以及未通过所述1个以上的各片段间对应关系相互对应的1个以上的各片段,使用包含各片段在内的文档的文档主题分布信息,概率性地取得片段主题分布信息,所述片段主题分布信息表示主题分布,且相对于构成所述片段集合的2个以上的各片段表示相同的主题分布;以及
单词主题确定部,对于所述多语言文档集合具有的2个以上的各文档中包含的各单词,使用包含该单词在内的片段的片段主题分布信息,概率性地确定并输出各单词的主题。
2.根据权利要求1所述的主题推定装置,其中,
进一步具备片段集合取得部,所述片段集合取得部使用所述片段间对应关系,取得存在对应关系的1个以上的片段集合,
所述片段主题分布生成部对于所述片段集合取得部取得的1个以上的各片段集合,或者对于所述片段集合取得部取得的1个以上的片段集合以及未通过所述1个以上的各片段间对应关系相互对应的1个以上的各片段,通过使用了基底测度、预先决定的集中度参数、以及预先决定的折扣参数的Pitman-Yor过程,生成片段主题分布信息,所述基底测度是包含1个以上的各片段在内的文档的文档主题分布信息。
3.根据权利要求1所述的主题推定装置,其中,
所述单词主题确定部按照2个以上的各语言的每个文档以及各文档中包含的每个片段,相对于各片段中包含的各单词的位置,从以该片段的片段主题分布信息为参数的多项分布中取得隐藏变量即潜在主题,使用该潜在主题和与所述文档相对应的单词分布信息,概率性地确定并输出各单词的主题。
4.根据权利要求1所述的主题推定装置,其中,
进一步具备片段间对应关系取得部,所述片段间对应关系取得部计算所述多语言文档集合具有的、语言不同的2个以上的各文档所具有的片段间的相似度,使用该相似度,取得1个以上的片段间对应关系,
所述对应管理部的1个以上的片段间对应关系为所述片段间对应关系取得部取得的片段间对应关系。
5.一种主题推定方法,其中,
存储介质具备:
文档集合保存部,保存多语言文档集合,所述多语言文档集合为语言不同的2个以上的文档,且是分别具有作为文档的部分的2个以上的片段的、2个以上的文档的集合;
对应管理部,管理1个以上的片段间对应关系,所述1个以上的片段间对应关系为构成所述多语言文档集合具有的2个以上的文档的2个以上的各片段间的对应,且是不同文档中包含的2个以上的片段间的对应;以及
单词分布信息保存部,与2个以上的各语言相对应地保存表示2个以上的各主题的单词分布的单词分布信息;
该主题推定方法通过文档主题分布生成部、片段主题分布生成部以及单词主题确定部来实现,其中,具备:
文档主题分布生成步骤,由所述文档主题分布生成部概率性地取得文档主题分布信息,所述文档主题分布信息表示主题分布,该主题分布是相对于所述多语言文档集合的主题分布、且是在2个以上的语言的各文档中共同的主题分布;
片段主题分布生成步骤,由所述片段主题分布生成部对于具有通过所述1个以上的各片段间对应关系相互对应的2个以上的片段的1个以上的各片段集合,或者对于1个以上的片段集合以及未通过所述1个以上的各片段间对应关系相互对应的1个以上的各片段,使用包含各片段在内的文档的文档主题分布信息,概率性地取得片段主题分布信息,所述片段主题分布信息表示主题分布,且相对于构成所述片段集合的2个以上的各片段表示相同的主题分布;以及
单词主题确定步骤,由所述单词主题确定部对于所述多语言文档集合具有的2个以上的各文档中包含的各单词,使用包含该单词在内的片段的片段主题分布信息,概率性地确定并输出各单词的主题。
6.一种存储介质,具备:
文档集合保存部,保存多语言文档集合,所述多语言文档集合为语言不同的2个以上的文档,且是分别具有作为文档的部分的2个以上的片段的、2个以上的文档的集合;
对应管理部,管理1个以上的片段间对应关系,所述1个以上的片段间对应关系为构成所述多语言文档集合具有的2个以上的文档的2个以上的各片段间的对应,且是不同文档中包含的2个以上的片段间的对应;以及
单词分布信息保存部,与2个以上的各语言相对应地保存表示2个以上的各主题的单词分布的单词分布信息;
该存储介质存储有执行以下步骤的程序:
文档主题分布生成步骤,概率性地取得文档主题分布信息,所述文档主题分布信息表示主题分布,该主题分布是相对于所述多语言文档集合的主题分布、且是在2个以上的语言的各文档中共同的主题分布;
片段主题分布生成步骤,对于具有通过所述1个以上的各片段间对应关系相互对应的2个以上的片段的1个以上的各片段集合,或者对于1个以上的片段集合以及未通过所述1个以上的各片段间对应关系相互对应的1个以上的各片段,使用包含各片段在内的文档的文档主题分布信息,概率性地取得片段主题分布信息,所述片段主题分布信息表示主题分布,且相对于构成所述片段集合的2个以上的各片段表示相同的主题分布;以及
单词主题确定步骤,对于所述多语言文档集合具有的2个以上的各文档中包含的各单词,使用包含该单词在内的片段的片段主题分布信息,概率性地确定并输出各单词的主题。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016-032931 | 2016-02-24 | ||
JP2016032931A JP6674172B2 (ja) | 2016-02-24 | 2016-02-24 | トピック推定装置、トピック推定方法、およびプログラム |
PCT/JP2017/004935 WO2017145811A1 (ja) | 2016-02-24 | 2017-02-10 | トピック推定装置、トピック推定方法、および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108701126A true CN108701126A (zh) | 2018-10-23 |
CN108701126B CN108701126B (zh) | 2022-03-04 |
Family
ID=59686410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780011714.4A Active CN108701126B (zh) | 2016-02-24 | 2017-02-10 | 主题推定装置、主题推定方法以及存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11301624B2 (zh) |
JP (1) | JP6674172B2 (zh) |
CN (1) | CN108701126B (zh) |
WO (1) | WO2017145811A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111125350A (zh) * | 2019-12-17 | 2020-05-08 | 语联网(武汉)信息技术有限公司 | 基于双语平行语料生成lda主题模型的方法及装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102181744B1 (ko) * | 2018-08-29 | 2020-11-25 | 동국대학교 산학협력단 | 향상된 잠재 디리클레 할당 모델을 이용한 토픽 분석 장치 및 방법 |
KR102519955B1 (ko) * | 2020-05-27 | 2023-04-10 | 정치훈 | 토픽 키워드의 추출 장치 및 방법 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010013047A1 (en) * | 1997-11-26 | 2001-08-09 | Joaquin M. Marques | Content filtering for electronic documents generated in multiple foreign languages |
CN102129446A (zh) * | 2010-01-20 | 2011-07-20 | 索尼公司 | 信息处理器、处理信息的方法以及程序 |
US20110258229A1 (en) * | 2010-04-15 | 2011-10-20 | Microsoft Corporation | Mining Multilingual Topics |
CN103559193A (zh) * | 2013-09-10 | 2014-02-05 | 浙江大学 | 一种基于选择单元的主题建模方法 |
CN104572634A (zh) * | 2014-12-25 | 2015-04-29 | 中国科学院合肥物质科学研究院 | 一种交互式抽取可比语料与双语词典的方法及其装置 |
CN105095229A (zh) * | 2014-04-29 | 2015-11-25 | 国际商业机器公司 | 训练主题模型的方法,对比文档内容的方法和相应的装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8510257B2 (en) * | 2010-10-19 | 2013-08-13 | Xerox Corporation | Collapsed gibbs sampler for sparse topic models and discrete matrix factorization |
US8458197B1 (en) * | 2012-01-31 | 2013-06-04 | Google Inc. | System and method for determining similar topics |
US9069798B2 (en) * | 2012-05-24 | 2015-06-30 | Mitsubishi Electric Research Laboratories, Inc. | Method of text classification using discriminative topic transformation |
US10204100B2 (en) * | 2017-03-28 | 2019-02-12 | International Business Machines Corporation | Lexicon extraction from non-parallel data |
-
2016
- 2016-02-24 JP JP2016032931A patent/JP6674172B2/ja active Active
-
2017
- 2017-02-10 CN CN201780011714.4A patent/CN108701126B/zh active Active
- 2017-02-10 US US16/079,221 patent/US11301624B2/en active Active
- 2017-02-10 WO PCT/JP2017/004935 patent/WO2017145811A1/ja active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010013047A1 (en) * | 1997-11-26 | 2001-08-09 | Joaquin M. Marques | Content filtering for electronic documents generated in multiple foreign languages |
CN102129446A (zh) * | 2010-01-20 | 2011-07-20 | 索尼公司 | 信息处理器、处理信息的方法以及程序 |
US20110258229A1 (en) * | 2010-04-15 | 2011-10-20 | Microsoft Corporation | Mining Multilingual Topics |
CN103559193A (zh) * | 2013-09-10 | 2014-02-05 | 浙江大学 | 一种基于选择单元的主题建模方法 |
CN105095229A (zh) * | 2014-04-29 | 2015-11-25 | 国际商业机器公司 | 训练主题模型的方法,对比文档内容的方法和相应的装置 |
CN104572634A (zh) * | 2014-12-25 | 2015-04-29 | 中国科学院合肥物质科学研究院 | 一种交互式抽取可比语料与双语词典的方法及其装置 |
Non-Patent Citations (4)
Title |
---|
AKIHIRO TAMURA ET AL.: "Bilingual Segmented Topic Model", 《PROCEEDINGS OF THE 54TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
LAN DU ET AL: "Topic Segmentation with a Structured Topic Model", 《PROCEEDINGS OF NAACL-HLT 2013》 * |
XIAOCHUAN NI ET AL: "Mining Multilingual Topics from Wikipedia", 《WWW 2009》 * |
石晶 等: "基于LDA模型的文本分割", 《计算机学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111125350A (zh) * | 2019-12-17 | 2020-05-08 | 语联网(武汉)信息技术有限公司 | 基于双语平行语料生成lda主题模型的方法及装置 |
CN111125350B (zh) * | 2019-12-17 | 2023-05-12 | 传神联合(北京)信息技术有限公司 | 基于双语平行语料生成lda主题模型的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2017145811A1 (ja) | 2017-08-31 |
CN108701126B (zh) | 2022-03-04 |
US11301624B2 (en) | 2022-04-12 |
US20210166135A1 (en) | 2021-06-03 |
JP6674172B2 (ja) | 2020-04-01 |
JP2017151678A (ja) | 2017-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9779085B2 (en) | Multilingual embeddings for natural language processing | |
US20200073996A1 (en) | Methods and Systems for Domain-Specific Disambiguation of Acronyms or Homonyms | |
US20210124876A1 (en) | Evaluating the Factual Consistency of Abstractive Text Summarization | |
US9224103B1 (en) | Automatic annotation for training and evaluation of semantic analysis engines | |
Matsuyoshi et al. | Overview of the NTCIR-11 Recognizing Inference in TExt and Validation (RITE-VAL) Task. | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
KR102078627B1 (ko) | 사용자-입력 컨텐츠와 연관된 실시간 피드백 정보 제공 방법 및 시스템 | |
US10210251B2 (en) | System and method for creating labels for clusters | |
Lepage | Analogies between binary images: Application to chinese characters | |
Zamora et al. | Tweets Language Identification using Feature Weighting. | |
CN108701126A (zh) | 主题推定装置、主题推定方法以及存储介质 | |
Hecht | The mining and application of diverse cultural perspectives in user-generated content | |
Kumari | NoFake at CheckThat! 2021: fake news detection using BERT | |
Panchenko et al. | Ukrainian news corpus as text classification benchmark | |
Abedissa et al. | Amqa: amharic question answering dataset | |
Ho et al. | Concept evolution modeling using semantic vectors | |
Lin et al. | Sentiment–topic modeling in text mining | |
Panchenko et al. | Evaluation and Analysis of the NLP Model Zoo for Ukrainian Text Classification | |
Al-Sultany et al. | Enriching tweets for topic modeling via linking to the wikipedia | |
Murauer et al. | Generating cross-domain text classification corpora from social media comments | |
Shams et al. | Reflection of Translation Strategies and Translation Norms in the Translation of Persian into English tourism-related websites | |
Aroonmanakun et al. | Thai monitor corpus: Challenges and contribution to thai nlp | |
Zhang et al. | Semantic annotation, analysis and comparison: A multilingual and cross-lingual text analytics toolkit | |
Wu et al. | Evaluating image-inspired poetry generation | |
Barzokas et al. | Studying the Evolution of Greek Words via Word Embeddings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |