CN105677913B - 一种基于机器翻译的中文语义知识库的构建方法 - Google Patents

一种基于机器翻译的中文语义知识库的构建方法 Download PDF

Info

Publication number
CN105677913B
CN105677913B CN201610111365.0A CN201610111365A CN105677913B CN 105677913 B CN105677913 B CN 105677913B CN 201610111365 A CN201610111365 A CN 201610111365A CN 105677913 B CN105677913 B CN 105677913B
Authority
CN
China
Prior art keywords
entity
original language
base
semantic knowledge
language end
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610111365.0A
Other languages
English (en)
Other versions
CN105677913A (zh
Inventor
曹海龙
李晓倩
赵铁军
杨沐昀
徐冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heilongjiang Industrial Technology Research Institute Asset Management Co ltd
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201610111365.0A priority Critical patent/CN105677913B/zh
Publication of CN105677913A publication Critical patent/CN105677913A/zh
Application granted granted Critical
Publication of CN105677913B publication Critical patent/CN105677913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/01Automatic library building

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

一种基于机器翻译的中文语义知识库的构建方法,本发明涉及中文语义知识库的构建的方法。本发明是要解决中文语义知识库匮乏的问题、现有技术昂贵的人力及时间的问题,和提高基于跨语言映射的语义知识库翻译的性能的问题,而提出的一种基于机器翻译的中文语义知识库的构建方法。该方法是通过一、得到标注了实体的源语言端语料;二、根据主题模型计算得到实体的主题分布;三、根据源语言端实体词表从短语翻译表中抽取源语言端语义知识库中实体的翻译概率,记为p(tj|si);四、构建基于源语言端语义知识库图结构信息的实体翻译模型等步骤实现的。本发明应用于中文语义知识库的构建领域。

Description

一种基于机器翻译的中文语义知识库的构建方法
技术领域
本发明涉及中文语义知识库构建的方法,特别涉及一种基于机器翻译的中文语义知识库的构建方法。
背景技术
知识库汇集一系列的概念、实例以及关系,在自然语言处理领域的应用越来越广泛,比如自动问答、事件检测、理解用户query等方面。目前较出名的知识库包括WordNet、HowNet、FrameNet、YAGO、Freebase、DBpedia等,分别在搜索、问答等方面发挥了很好的作用。知识库根据构建方法主要分为两种,一种是依赖语言学基础知识以及语言学专家进行的人工构建的知识库,比如WordNet、HowNet等;另外一种是基于大规模现实语料的自动构建的知识库,比如DBpedia、YAGO等。目前人工构建知识库的方法已经很成熟,但是完全依赖于昂贵的人力及时间,而自动构建语义知识库可以节省这方面的消耗。
Freebase是一个由元数据组成的大型合作知识库,内容主要来自其社区成员的贡献,它整合了许多网上的资源,包括部分私人wiki站点中的内容,包含3900万个实体和18亿条实体关系,被谷歌收购并将其全部数据迁移至维基数据;DBpedia是德国莱比锡大学等机构发起的项目,从维基百科中抽取实体关系,包括1千万个实体和14亿条实体关系;YAGO则是德国马克斯·普朗克研究所发起的项目,也是从维基百科和WordNet等知识库中抽取实体,到2010年该项目已包含1千万个实体和1.2亿条实体关系。
在汉语语义知识库方面,董振东构建了知网(HowNet),知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库;张潮生构建的中文词语库CWB(Chinese Word Base)是一个规模较大的中文词库,该词库目前收入了13万以上的书面形式的词条,包括单词、固定词组、成语、等等,包含大量的同义、分类等语义信息。
语义知识库构建的巨大推动力是其可以应用于语义搜索、机器问答等实际的应用中。然而现有中文知识库相对匮乏,规模也较小。因此中文语义知识库的构建对中文信息处理和中文信息检索具有重要的价值。
目前语义知识库的构建方法主要有三种:
(1)是依赖语言学基础知识以及语言学专家进行的人工构建的知识库,比如WordNet、HowNet等。目前人工构建知识库的方法已经很成熟,但是完全依赖于昂贵的 人力及时间。
(2)是基于大规模语料的自动构建的知识库,比如DBpedia、YAGO等。该方法可以抽取大量的实体及属性关联,然而存在严重的冗余问题需要处理。
(3)是基于跨语言映射的语义知识库翻译,利用现有的大型外文知识库,如freebase,通过一定的翻译技术得到中文的语义知识库。
发明内容
本发明的目的是为了解决中文语义知识库匮乏的问题、现有技术昂贵的人力及时间的问题,和提高基于跨语言映射的语义知识库翻译的性能的问题,而提出的一种基于机器翻译的中文语义知识库的构建方法。
上述的发明目的是通过以下技术方案实现的:
步骤一、利用源语言语义知识库中实体对原双语语料中源语言端语料进行命名实体识别,得到标注了实体的源语言端语料;
步骤二、利用步骤一得到的标注了实体的源语言端语料构建主题模型,根据主题模型计算得到实体的主题分布;
步骤三、将标注了实体的源语言端语料和原双语语料的目的语言端语料构成源语言端标注了实体的双语语料,利用源语言端标注了实体的双语语料构建基于短语的统计机器翻译模型,利用基于短语的统计机器翻译模型生成短语翻译表,根据源语言端实体词表从短语翻译表中抽取源语言端语义知识库中实体的翻译概率,记为p(tj|si),其中tj属于si的候选翻译集;
步骤四、根据步骤二建立的源语言端主题模型和步骤三建立的p(tj|si)构建基于源语言端语义知识库图结构信息的实体翻译模型,其中,源语言端语义知识库图结构信息即实体的上下文信息。
发明效果
本发明相关研究不仅是对信息学、语言学相关理论的佐证,同时对自然语言理解有促进作用。本发明称语义知识库中每个节点为实体。为了提高实体翻译的性能,本发明利用了源语言端实体在源语言端语义知识库中的图结构信息。为了解决中文语义知识库匮乏的问题,本发明提出了一种基于机器翻译的中文语义知识库的构建方法。这种方法易于实现,不仅减少了人力物力的消耗,且能提高翻译得到的中文语义知识库的质量。总的来说,该方法提出了一种基于机器翻译的自动构建中文语义知识库的方法。
在本发明提出了一种基于机器翻译的中文语义知识库的构建方法。通过分析语义知识 库中的实体主题分布与该实体的上下文信息的相关性,利用机器翻译框架构建基于语义知识库的翻译模型,进而实现中文语义知识库的自动化构建。本发明旨在基于现有的语义知识库,比如Freebase、DBpedia等,利用机器翻译模型构建中文语义知识库。
本发明在机器翻译模型及主题模型中,一般对原始数据进行分词处理,本发明机器翻译技术应用于特定领域即知识图谱自动构建,由于源语言语义知识库中的所有实体的已知,在数据预处理时,本发明以源语言实体为词表添加到源语言单语语料分词及命名实体识别;为提高由源语言语义知识库中实体翻译得到中文语义知识库的质量,考虑了源语言端实体在源语言端语义知识库中的图结构信息。
本发明中使用源语言单语语料构建主题模型,并根据实体在源语言语义知识库的图结构信息重新计算实体的主题分布,再利用该主题分布构建基于源语言语义知识库上下文的机器翻译模型;
由于本发明是利用机器翻译技术从源语言语义知识库翻译得到中文语义知识库,本方法在对源语言语言进行预处理过程,将源语言语义知识库中的实体作为词表添加到源语言端分词及命名实体识别模型中。语义知识库以图结构进行存储,实体在语义知识库中的图结构信息包括通过属性节点和其他实体相连,因此不仅考虑与源语言实体相连的实体,也考虑属性节点对实体翻译的影响。
如在知识图谱(一种语义知识库)中,“Heat”作为实体名称时,可能对应不同的实体:Heat(盗火线,电影)、Heat(热能,物理术语)、Heat(灼热,动漫)、Heat(热度,杂志),等等。如图一所示当“Heat”实体与导演Michael Mann,主演Al Pacino等相连时,“Heat”对应的翻译结果为“盗火线”,其中Michael Mann和Al Pacino为相连实体,导演和主演为连接实体的边;当“Heat”与热能相关实体相连时,对应的翻译结果为“热能”。在本方法考虑了源语言语义知识库中的上下文信息,以期提高通过基于跨语言映射的语义知识库翻译技术自动构建的中文语义知识库的准确性。
附图说明
图1为具体实施方式一提出的一种基于机器翻译的中文语义知识库的构建方法的主要过程流程图;
图2为具体实施方式四提出的两个Heat实体在语义知识库中的示例说明;其中,热火线、Heat热能为两个heat实体对应的中文释义。
具体实施方式
具体实施方式一:本实施方式的一种基于机器翻译的中文语义知识库的构建方法,具体是按照以下步骤制备的:
基于源语言语义知识库中实体对源语言端单语语料进行分词及命名实体识别和基于源语言端语义知识库图结构信息的机器翻译模型;
步骤一、利用源语言语义知识库中实体对原双语语料中源语言端语料进行命名实体识别,得到标注了实体的源语言端语料;
步骤二、利用步骤一得到的标注了实体的源语言端语料构建主题模型,根据主题模型计算得到实体的主题分布;
步骤三、将标注了实体的源语言端语料和原双语语料的目的语言端语料构成源语言端标注了实体的双语语料,利用源语言端标注了实体的双语语料构建基于短语的统计机器翻译模型,利用基于短语的统计机器翻译模型生成短语翻译表,根据源语言端实体词表从短语翻译表中抽取源语言端语义知识库中实体的翻译概率,记为p(tj|si),其中tj属于si的候选翻译集;
步骤四、根据步骤二建立的源语言端主题模型和步骤三建立的p(tj|si)构建基于源语言端语义知识库图结构信息的实体翻译模型,其中,源语言端语义知识库图结构信息即实体的上下文信息如图1。
本实施方式效果:
本实施方式相关研究不仅是对信息学、语言学相关理论的佐证,同时对自然语言理解有促进作用。本实施方式称语义知识库中每个节点为实体。为了提高实体翻译的性能,本实施方式利用了源语言端实体在源语言端语义知识库中的图结构信息。为了解决中文语义知识库匮乏的问题,本实施方式提出了一种基于机器翻译的中文语义知识库的构建方法。这种方法易于实现,不仅减少了人力物力的消耗,且能提高翻译得到的中文语义知识库的质量。总的来说,该方法提出了一种基于机器翻译的自动构建中文语义知识库的方法。
在本实施方式提出了一种基于机器翻译的中文语义知识库的构建方法。通过分析语义知识库中的实体主题分布与该实体的上下文信息的相关性,利用机器翻译框架构建基于语义知识库的翻译模型,进而实现中文语义知识库的自动化构建。本实施方式旨在基于现有的语义知识库,比如Freebase、DBpedia等,利用机器翻译模型构建中文语义知识库。
本实施方式在机器翻译模型及主题模型中,一般对原始数据进行分词处理,本实施方式机器翻译技术应用于特定领域即知识图谱自动构建,由于源语言语义知识库中的所有实体的已知,在数据预处理时,本实施方式以源语言实体为词表添加到源语言单语语料分词及命名实体识别;为提高由源语言语义知识库中实体翻译得到中文语义知识库的质量,考虑了源语言端实体在源语言端语义知识库中的图结构信息。
本实施方式中使用源语言单语语料构建主题模型,并根据实体在源语言语义知识库的图结构信息重新计算实体的主题分布,再利用该主题分布构建基于源语言语义知识库上下文的机器翻译模型;
由于本实施方式是利用机器翻译技术从源语言语义知识库翻译得到中文语义知识库,本方法在对源语言语言进行预处理过程,将源语言语义知识库中的实体作为词表添加到源语言端分词及命名实体识别模型中。语义知识库以图结构进行存储,实体在语义知识库中的图结构信息包括通过属性节点和其他实体相连,因此不仅考虑与源语言实体相连的实体,也考虑属性节点对实体翻译的影响。
如在知识图谱(一种语义知识库)中,“Heat”作为实体名称时,可能对应不同的实体:Heat(盗火线,电影)、Heat(热能,物理术语)、Heat(灼热,动漫)、Heat(热度,杂志),等等。如图1所示当“Heat”实体与导演Michael Mann,主演Al Pacino等相连时,“Heat”对应的翻译结果为“盗火线”,其中Michael Mann和Al Pacino为相连实体,导演和主演为连接实体的边;当“Heat”与热能相关实体相连时,对应的翻译结果为“热能”。在本方法考虑了源语言语义知识库中的上下文信息,以期提高通过基于跨语言映射的语义知识库翻译技术自动构建的中文语义知识库的准确性。
具体实施方式二:本实施方式与具体实施方式一不同的是:在对源语言端语料进行预处理时,将对原始语料进行分词等预处理;现今的分词技术虽然能很好的实现分词,然而,由于很多词汇是新词,因此分词技术仍有不足;命名实体识别技术也正遇到相似的问题;然而对于本发明,由于源语言端语义知识库已知,因此
步骤一一、利用源语言端语义知识库构建源语言端实体词表,其中,源语言端实体词表包括源语言端语义知识库中所有实体的名称(实体具体为一般为具体的一个人一个实物一个单词);
步骤一二、将步骤一一得到的源语言端实体词表作为词表添加到命名实体识别模型,即对双语语料中源语言端语料进行命名实体识别。其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是:步骤二中利用步骤一得到的标注了实体的源语言端语料构建主题模型,根据主题模型计算得到实体的主题分布的具体过程:
步骤二一、利用步骤一得到的标注了实体的源语言端语料训练主题模型得到单词-主题分布:
其中,si表示标注了实体的源语言端语料中的单词,i∈{1,2....,Vs},Vs是标注了实体的源语言端语料中词表的大小;zk是第k个主题,k∈{1,2,...,K},K是主题的总个数;
步骤二二、利用步骤二一得到的单词-主题分布得到每个实体的主题分布:
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是:步骤四中根据步骤二建立的源语言端主题模型和步骤三建立的p(tj|si)构建基于源语言端语义知识库图结构信息的实体翻译模型具体过程:
步骤四一、利用步骤二得到的源语言端的主题模型,得到上下文下的实体主题分布:
其中,C是实体si的上下文信息,即其相连节点和边的集合;
步骤四二、利用步骤三得到的源语言端语义知识库中实体的翻译概率及步骤四一得到的上下文的实体主题分布,计算上下文信息的实体翻译概率:
步骤四三、利用步骤四二得到的上下文下的实体翻译概率,计算上下文信息下的 实体翻译结果;
基于源语言端语义知识库图结构信息的机器翻译模型
语义知识库是由实体以及实体与实体之间的连接所组成;传统的概率统计针对的是词语之间的对等翻译,但其未能兼顾语义知识库中实体之间的关联性;因此本发明在借助传统机器翻译中的基本特征之外,进一步分析语义知识库中的实体主题以及实体的图结构信息,利用自然语言处理中的主题模型对其进行建模,对语义知识库中的实体主题进行识别和判断;如,在知识图谱中,“Heat”作为实体名称时,可能对应不同的实体:Heat(盗火线,电影)、Heat(热能,物理术语)、Heat(灼热,动漫)、Heat(热度,杂志),等等;如图2所示当“Heat”实体与导演Michael Mann,主演Al Pacino等相连时,“Heat”对应的翻译结果为“盗火线”,其中Michael Mann和Al Pacino为相连实体,导演和主演为连接实体的边;当“Heat”与热能相关实体相连时,对应的翻译结果为“热能”;从中我们可以看出实体在语义知识库中的图结构信息,包括相连实体及边,对其翻译结果有重要的影响,因此本方法考虑源语言语义知识库中的上下文信息来提高基于命令实体翻译技术自动构建中文 语义知识库的准确性。其它步骤及参数与具体实施方式一至三之一相同。

Claims (3)

1.一种基于机器翻译的中文语义知识库的构建方法,其特征在于一种基于机器翻译的中文语义知识库的构建方法具体是按照以下步骤进行的:
步骤一、利用源语言语义知识库中实体对源双语语料中源语言端语料进行命名实体识别,得到标注了实体的源语言端语料;
步骤二、利用步骤一得到的标注了实体的源语言端语料构建主题模型,根据主题模型计算得到实体的主题分布;
步骤三、将标注了实体的源语言端语料和源双语语料的目的语言端语料构成源语言端标注了实体的双语语料,利用源语言端标注了实体的双语语料构建基于短语的统计机器翻译模型,利用基于短语的统计机器翻译模型生成短语翻译表,根据源语言端实体词表从短语翻译表中抽取源语言端语义知识库中实体的翻译概率,记为p(tj|si),其中tj属于si的候选翻译集,si表示标注了实体的源语言端语料中的单词;
步骤四、根据步骤二建立的源语言端主题模型和步骤三建立的p(tj|si)构建基于源语言端语义知识库图结构信息的实体翻译模型,其中,源语言端语义知识库图结构信息即实体的上下文信息,其具体过程为;
步骤四一、利用步骤二得到的源语言端的主题模型,得到上下文下的实体主题分布:
其中,C是实体si的上下文信息,即其相连节点和边的集合;p(zk|si)代表每个实体的主题分布;zk是第k个主题;K是主题的总个数;
步骤四二、利用步骤三得到的源语言端语义知识库中实体的翻译概率及步骤四一得到的上下文的实体主题分布,计算上下文信息的实体翻译概率:
步骤四三、利用步骤四二得到的上下文下的实体翻译概率,计算上下文信息下的实体翻译结果;
2.根据权利要求1所述一种基于机器翻译的中文语义知识库的构建方法,其特征在于:步骤一中利用源语言语义知识库中实体对源双语语料中源语言端语料进行命名实体识别具体过程:
步骤一一、利用源语言端语义知识库构建源语言端实体词表,其中,源语言端实体词表包括源语言端语义知识库中所有实体的名称;
步骤一二、将步骤一一得到的源语言端实体词表作为词表添加到命名实体识别模型,即对双语语料中源语言端语料进行命名实体识别。
3.根据权利要求2所述一种基于机器翻译的中文语义知识库的构建方法,其特征在于:步骤二中利用步骤一得到的标注了实体的源语言端语料构建主题模型,根据主题模型计算得到实体的主题分布的具体过程:
步骤二一、利用步骤一得到的标注了实体的源语言端语料训练主题模型得到单词-主题分布:
其中,i∈{1,2....,Vs},Vs是标注了实体的源语言端语料中词表的大小;zk是第k个主题,k∈{1,2,...,K},K是主题的总个数;
步骤二二、利用步骤二一得到的单词-主题分布得到每个实体的主题分布:
CN201610111365.0A 2016-02-29 2016-02-29 一种基于机器翻译的中文语义知识库的构建方法 Active CN105677913B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610111365.0A CN105677913B (zh) 2016-02-29 2016-02-29 一种基于机器翻译的中文语义知识库的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610111365.0A CN105677913B (zh) 2016-02-29 2016-02-29 一种基于机器翻译的中文语义知识库的构建方法

Publications (2)

Publication Number Publication Date
CN105677913A CN105677913A (zh) 2016-06-15
CN105677913B true CN105677913B (zh) 2019-04-26

Family

ID=56306218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610111365.0A Active CN105677913B (zh) 2016-02-29 2016-02-29 一种基于机器翻译的中文语义知识库的构建方法

Country Status (1)

Country Link
CN (1) CN105677913B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202301B (zh) * 2016-07-01 2019-10-08 武汉泰迪智慧科技有限公司 一种基于深度学习的智能应答系统
CN106919689B (zh) * 2017-03-03 2018-05-11 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN106951499B (zh) * 2017-03-16 2019-09-20 中国人民解放军国防科学技术大学 一种基于翻译模型的知识图谱表示方法
US10956487B2 (en) 2018-12-26 2021-03-23 Industrial Technology Research Institute Method for establishing and processing cross-language information and cross-language information system
CN110580339B (zh) * 2019-08-21 2023-04-07 华东理工大学 一种医疗术语知识库完善的方法和装置
CN112836057B (zh) * 2019-11-22 2024-03-26 华为技术有限公司 知识图谱的生成方法、装置、终端以及存储介质
CN111368091B (zh) * 2020-02-13 2023-09-22 中国工商银行股份有限公司 文档翻译方法及装置
CN111488741A (zh) * 2020-04-14 2020-08-04 税友软件集团股份有限公司 一种税收知识数据语义标注方法及相关装置
CN111859998A (zh) * 2020-06-18 2020-10-30 北京百度网讯科技有限公司 篇章翻译的方法、装置、电子设备和可读存储介质
CN114065770B (zh) * 2022-01-17 2022-04-15 江苏联著实业股份有限公司 一种基于图神经网络构建语义知识库的方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117270A (zh) * 2011-03-29 2011-07-06 中国科学院自动化研究所 一种基于模糊树到精确树的统计机器翻译方法
CN103473280A (zh) * 2013-08-28 2013-12-25 中国科学院合肥物质科学研究院 一种网络可比语料的挖掘方法及装置
CN104298663A (zh) * 2014-09-30 2015-01-21 中国科学院计算技术研究所 评价术语领域翻译一致性的方法及统计机器翻译方法
CN104615687A (zh) * 2015-01-22 2015-05-13 中国科学院计算技术研究所 一种面向知识库更新的实体细粒度分类方法与系统
CN104933039A (zh) * 2015-06-04 2015-09-23 中国科学院新疆理化技术研究所 面向资源缺乏语言的实体链接系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117270A (zh) * 2011-03-29 2011-07-06 中国科学院自动化研究所 一种基于模糊树到精确树的统计机器翻译方法
CN103473280A (zh) * 2013-08-28 2013-12-25 中国科学院合肥物质科学研究院 一种网络可比语料的挖掘方法及装置
CN104298663A (zh) * 2014-09-30 2015-01-21 中国科学院计算技术研究所 评价术语领域翻译一致性的方法及统计机器翻译方法
CN104615687A (zh) * 2015-01-22 2015-05-13 中国科学院计算技术研究所 一种面向知识库更新的实体细粒度分类方法与系统
CN104933039A (zh) * 2015-06-04 2015-09-23 中国科学院新疆理化技术研究所 面向资源缺乏语言的实体链接系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Polylingual tree-based topic models for translation domain adaptation;Hu Y等;《ACM》;20141231;第1166-1176页
Topic models for dynamic translation model adaptation;Eidelman V等;《ACM》;20121231;第115-119页
基于双语依存关系映射的中英文词表构建;吴玥;《万方数据》;20140424;第1-62页

Also Published As

Publication number Publication date
CN105677913A (zh) 2016-06-15

Similar Documents

Publication Publication Date Title
CN105677913B (zh) 一种基于机器翻译的中文语义知识库的构建方法
Wang et al. Combining Knowledge with Deep Convolutional Neural Networks for Short Text Classification.
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN105808525B (zh) 一种基于相似概念对的领域概念上下位关系抽取方法
CN104050256B (zh) 基于主动学习的问答方法及采用该方法的问答系统
CN109408642A (zh) 一种基于距离监督的领域实体属性关系抽取方法
CN106649282A (zh) 基于统计的机器翻译方法、装置及电子设备
Zhang et al. Learning distributed representations of data in community question answering for question retrieval
CN110598219A (zh) 一种面向豆瓣网电影评论的情感分析方法
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN107480200A (zh) 基于词标签的词语标注方法、装置、服务器及存储介质
Gupta et al. Distributed representations of words to guide bootstrapped entity classifiers
Fu et al. A convolutional neural network for clickbait detection
CN107391565B (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
CN106649250A (zh) 一种情感新词的识别方法及装置
CN106570120A (zh) 一种改进的关键词优化实现搜索引擎优化技术
CN106776555A (zh) 一种基于字模型的评论文本实体识别方法及装置
CN109086443A (zh) 基于主题的社交媒体短文本在线聚类方法
CN110750646A (zh) 一种旅店评论文本的属性描述提取方法
CN106610949A (zh) 一种基于语义分析的文本特征提取方法
Wang et al. Named entity recognition method of brazilian legal text based on pre-training model
Nararatwong et al. Improving Thai word and sentence segmentation using linguistic knowledge
Xu et al. Product feature mining: Semantic clues versus syntactic constituents
CN107423281A (zh) 改进的小世界模型提取文本特征的算法
Geng et al. Implicit discourse relation identification based on tree structure neural network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210118

Address after: Building 9, accelerator, 14955 Zhongyuan Avenue, Songbei District, Harbin City, Heilongjiang Province

Patentee after: INDUSTRIAL TECHNOLOGY Research Institute OF HEILONGJIANG PROVINCE

Address before: 150001 No. 92 West straight street, Nangang District, Heilongjiang, Harbin

Patentee before: HARBIN INSTITUTE OF TECHNOLOGY

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230223

Address after: 150027 Room 412, Unit 1, No. 14955, Zhongyuan Avenue, Building 9, Innovation and Entrepreneurship Plaza, Science and Technology Innovation City, Harbin Hi tech Industrial Development Zone, Heilongjiang Province

Patentee after: Heilongjiang Industrial Technology Research Institute Asset Management Co.,Ltd.

Address before: Building 9, accelerator, 14955 Zhongyuan Avenue, Songbei District, Harbin City, Heilongjiang Province

Patentee before: INDUSTRIAL TECHNOLOGY Research Institute OF HEILONGJIANG PROVINCE