CN101770453A - 基于领域本体结合机器学习模型的汉语文本共指消解方法 - Google Patents

基于领域本体结合机器学习模型的汉语文本共指消解方法 Download PDF

Info

Publication number
CN101770453A
CN101770453A CN200810246639A CN200810246639A CN101770453A CN 101770453 A CN101770453 A CN 101770453A CN 200810246639 A CN200810246639 A CN 200810246639A CN 200810246639 A CN200810246639 A CN 200810246639A CN 101770453 A CN101770453 A CN 101770453A
Authority
CN
China
Prior art keywords
domain body
domain
coreference resolution
machine learning
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200810246639A
Other languages
English (en)
Inventor
黄河燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUAJIAN MACHINE TRANSLATION CO Ltd
Original Assignee
HUAJIAN MACHINE TRANSLATION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HUAJIAN MACHINE TRANSLATION CO Ltd filed Critical HUAJIAN MACHINE TRANSLATION CO Ltd
Priority to CN200810246639A priority Critical patent/CN101770453A/zh
Publication of CN101770453A publication Critical patent/CN101770453A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了一种基于领域本体结合机器学习模型的汉语文本共指消解方法,包括如下步骤:(1)构建完成领域本体;(2)输入待处理的汉语文本;(3)对步骤(2)中的汉语文本进行分词与词性标注处理;(4)将汉语文本中的命名实体分为常规命名实体和领域命名实体两类,利用步骤(1)中构建的领域本体通过形式化实例获取词性规则模板,结合CRF模型,针对领域命名实体进行识别处理;(5)针对领域命名实体之外的普通名词短语进行归并处理;(6)利用步骤(1)中构建的领域本体,获取语义类特征,结合机器学习模型,针对领域命名实体及普通名词短语进行共指消解处理。本汉语文本共指消解方法对人工成本要求较低,能够在短时间内获取高准确率的共指消解处理结果。

Description

基于领域本体结合机器学习模型的汉语文本共指消解方法
技术领域
本发明涉及一种针对汉语文本的共指消解方法,尤其涉及一种基于领域本体(Domain Ontology)、并结合机器学习模型的汉语文本共指消解方法,属于自然语言处理技术领域。
背景技术
众所周知,人们为了避免重复,习惯用代词、称谓和缩略语来指代前面提到的实体全称。例如,在文章开始处会写“华建机器翻译公司”(即一般意义上的组织机构名实体),后面可能会说“华建机译”、“华建”等称谓(即组织机构名实体的等价表示)。这种指代现象被称为共指现象。共指现象在自然语言中起到了超链接的作用,使篇章主题更加突出,表述更加连贯与简洁;但它也在自然语言理解机制中增加了一种新的模糊成分,给自然语言处理带来了不确定性。虽然人们可以毫无困难地区分文章中实体的不同称谓,但是对于计算机来说,处理共指现象仍旧是一项非常困难的问题。
所谓共指消解是将现实世界中同一实体的不同描述合并到一起的过程。所涉及到的实体包括多种类型,可以是人名、地名、组织机构名等常规命名实体,例如:“张三”、“北京海淀区”、“华建机器翻译公司”,也可以是特定领域的领域实体,例如:“诺基亚6300”,表示电子产品领域中的一款手机(型号)。共指消解可以消除各同类实体间指代形式带来的不确定性,为计算机处理提供完整和正确的,特别是可读可操作的信息,避免上下文理解和关系关联错误,是自然语言处理、机器翻译、信息抽取、信息检索等领域的关键技术之一。随着大量涌现的基于篇章和真实文本处理的需求,共指消解在机器翻译、信息抽取等语言工程应用系统中作为关键的基础环节,发挥着非常重要的作用。
针对汉语文本的共指消解研究开始较晚。一般认为,汉语文本共指消解研究开始于二十世纪末,最早针对汉语文本的共指消解评测开始于2003年10月的ACE Phase3。目前,汉语文本共指消解技术仍然很不成熟,亟需进一步改进和提高。
另一方面,领域本体(Domain Ontology)是用于描述指定领域知识的一种专门本体。它给出了领域实体概念及相互关系、领域活动以及该领域所具有的特性和规律的一种形式化描述。简单地说,领域本体是一个由“本质知识”构成的知识库。领域本体在一个特定的领域中可以重用。
本体已经成为知识工程、人工智能以及信息系统等领域中一种重要的工具和方法论体系。它在知识的获取、表示、共享和应用等各个环节都具有重要的意义。本体是概念的形式化表达,因此共指关系的识别是与本体有着“天然”联系的任务,它潜在地能够为共指消解提供概念本质层面的支持。
但就申请人所知,目前尚没有基于领域本体再结合机器学习模型用于共指消解处理的成熟技术方案。
发明内容
本发明所要解决的技术问题在于提供一种基于领域本体结合机器学习模型的汉语文本共指消解方法。该方法利用了领域本体的特征以及对采用的机器学习模型没有特殊限定的特点,具有很好的可扩展性和可移植能力。
为实现上述的发明目的,本发明采用下述的技术方案:
一种基于领域本体结合机器学习模型的汉语文本共指消解方法,其特征在于:
(1)构建完成领域本体;
(2)输入待处理的汉语文本;
(3)对步骤(2)中的汉语文本进行分词与词性标注处理;
(4)将汉语文本中的命名实体分为常规命名实体和领域命名实体两类,利用步骤(1)中构建的领域本体通过形式化实例获取词性规则模板,结合CRF模型,针对领域命名实体进行识别处理;
(5)针对领域命名实体之外的普通名词短语进行归并处理;
(6)利用步骤(1)中构建的领域本体,获取语义类特征,结合机器学习模型,针对领域命名实体及普通名词短语进行共指消解处理。
其中,在所述步骤(1)中,所述领域本体通过阶段性层进法构建,所述阶段性层进法分为原型期阶段和进化期阶段。
所述原型期阶段分为四个步骤,依次完成领域本体构建工具选择及复用性分析,领域本体知识源选择及确定,领域本体知识分析,领域本体生成及表示工作。
所述进化期阶段分为两个步骤,分别完成领域本体的评价,领域本体的修正与完善工作。
所述步骤(4)中,所述词性规则模板通过领域本体的有限实例的形式化,再对形式化后的实例进行词性标注得到的,其中有限的实例作为领域本体种子,用来产生具有共性的词性组合规则。
所述步骤(4)中,CRF模型通过如下的步骤获得:首先在标注语料的基础上,采用L-BFGS算法进行模型的训练,获得CRF模型的参数;在训练获得的CRF模型的参数基础上,使用Viterbi动态规划算法进行解码。
所述步骤(6)中,所述语义类特征是指通过对领域本体实例进行特定标记标注获得的特征。
所述步骤(6)中,将所述语义类特征作为指代语和先行语的特征属性,生成特征向量,结合决策树模型,识别领域命名实体的共指关系。
更具体地,将指代语之前三个自然句内出现的名词短语作为先行语的候选集,根据先行语的候选集中候选项与指代语的特征属性构成的特征向量,判断两者是否存在共指关系。
本发明所提供的汉语文本共指消解方法在目前有效用于汉语共指消解处理标注语料严重匮乏的情况下,只需要较低的人工成本,通过利用极为有限的领域本体种子,经过简单的本体实例统计就可以获取词性规则模板与领域语义类特征;采用通用的机器学习模型,能够在短时间内获取高准确率的共指消解处理结果。同时,生成的领域本体能够为信息抽取语言工程应用提供抽取模式。
附图说明
下面结合附图和具体实施方式对本发明作进一步的说明。
图1是一个领域本体构建层次结构方框图,用来表示本发明所述方法中生成领域本体的不同阶段。
图2是一个流程示意图,用来表示本发明所述方法中实现领域命名实体识别处理的整个线性流程。
图3是一个流程示意图,用来表示本发明所述方法实现共指消解处理的整个线性流程。
其中,图1中,
1a说明领域本体生成原型期阶段中的前期准备步骤;
1b说明领域本体生成原型期阶段中的领域知识源的选择与确定步骤;
1c说明领域本体生成原型期阶段中的领域知识分析步骤;
1d说明领域本体生成原型期阶段中的本体构建与表示步骤;
1e说明领域本体生成进化期阶段中的本体评价步骤;
1f说明领域本体生成进化期阶段中的本体修正与改进步骤。
图2中,
2a表示真实源文本的输入处理;
2b表示针对全部文本的分词和词性标注处理;
2c表示主要针对分词和词性标注不一致性问题进行的校正处理;
2d表示结合机器学习模型的命名实体识别处理;
2e表示领域本体引入处理;
2f表示基于领域本体实例获取词性规则模板集处理;
2g表示结合获取的词性规则模板,针对领域命名实体,进行修正2d步骤识别结果的处理;
2h表示完成全部实体最终识别结果处理。
图3中,
3a表示真实源文本的输入处理;
3b表示针对真实文本的分词与词性标注处理;
3c表示针对领域命名实体进行的识别处理;
3d表示针对领域命名实体之外的其他名词短语进行的后处理;
3e表示面向领域命名实体及普通名词短语的共指消解处理。
具体实施方式
本发明的基本思路在于把语言学标注问题看作是关于本体的语义标注问题的特殊情况来看待。在共指消解中,将共指关系的标注形式转化为一项确定两个用特定本体概念表示的语言表达之间的语义关系的任务。通过建立领域本体,统计实例获取领域实体语义类特征,进而建立一种等价关联,实现实体间的共指消解处理。在进行共指消解处理前期,直接利用有限的领域本体种子获取词性规则模板完成领域命名实体的识别,为共指消解处理提供高性能的候选实体短语。
在本发明中,将命名实体分为常规命名实体和领域命名实体两类。其中常规命名实体是指包括人名、地名、组织机构名、时间、日期、数字等在内的命名实体,领域命名实体在一般的共指消解处理中被作为普通名词短语来对待,但在本发明中,领域命名实体直接作为候选名词短语,不再执行类似常规命名实体的名词短语识别步骤。根据应用领域要求,建立领域本体,通过对有限的领域本体实例(在本发明中称作“领域本体种子”)进行直接的词性规律统计,抽取词性规则模板,并标注领域实体语义类特征标记DNE。结合机器学习模型,完成融合词性规则模板的命名实体识别。利用已经标注了领域语义类特征的领域本体种子,动态完成真实文本中的全部领域命名实体的语义类特征标注。结合统计机器学习模型引入领域语义类特征,完成领域命名实体的共指消解训练,结合决策树模型生成一颗分类能力强的决策树,最终完成面向领域的真实文本的共指消解处理。此处的领域语义类特征是指通过对领域本体种子,进行特定标记标注获得的特征。
具体而言,本发明首先通过一种称为领域本体阶段性层进法(Two-Phase and Step-Up,简称为TPSU)的方法,借助本体构建工具构建完成一个面向特定应用领域的领域本体。下面详细说明TPSU法的具体实现步骤。
如图1所示,TPSU方法总体上分为两个阶段和六个步骤,其中两个阶段分别是原型期阶段与进化期阶段。六个步骤分别如下:
1a步骤用以进行前期准备,主要完成当前本体开发工具与环境、本体生成方法以及本体复用性考察的工作。
1b步骤用以确定知识来源。本发明主要依据数字化资源,因此这一步骤的工作,通过常规的词典、图书资源也能够有效获取。
1c步骤用于进行领域知识分析,完成实质上的领域概念化工作,主要包含对领域内类、属性的识别,同时包括领域内一般关系与特殊关系等明确化的工作内容。
1d用以在1c所确立的领域内类、属性以及对应实例上,进行本体生成和表示,主要通过本体开发工具逐一的完成本体所需各个成分要素的创建任务。
1e步骤完成生成领域本体评价,在本体构建达到一定规模之后,特别是进行了生成本体的应用之后,根据使用情况对本体进行评价。评价主要集中在本体实例的整体一致性、正确性、类属性冗余性上。
1f步骤完成本体修正与改进,根据1e步骤之评价结论,重复1c~1d的步骤,完成领域本体的更新与调整。主要集中在类层次属性的层级调整与类实例的归属调整上。
上述的1a~1f步骤中,1a~1d步骤属于原型期阶段,1e~1f步骤属于进化期阶段。
在领域本体的具体利用上,要通过形式化实例获取词性规则模板和语义类特征。具体而言,包括两个方面:第一个方面是将生成领域本体中有限的本体实例,直接形式化成为XML风格的独立文档,通过简单词频统计归类,获得不同本体核心概念类的实例集,然后用词性标注工具直接进行实例集中有限实例的词性,进而产生一个词性规则模板集。因为领域本体是领域知识的高度抽象,因此通过领域本体实例直接获取的词性规则模板集中的各个模板,具有全部领域命名实体的词性构成共性特征,再结合CRF模型,进行识别处理。第二个方面是先通过对有限的领域本体种子进行语义类特征的DNE特征标注,之后动态完成真实文本中的全部领域实体的语义类特征标注,结合决策树模型,引入该领域的语义类特征作为指代语和先行语的特征属性,生成特征向量,最终完成面向领域的真实文本的共指消解处理。
本发明描述的方法是将词性特征作为外部特征引入的,而通过领域本体获取外部特征的计算要远比人名、地名识别时定义外部词典容易得多,因为本发明在图1所示的阶段,生成的领域本体实例可以直接以各种形式从领域本体中导出,并根据限制条件任意组合。
图2显示了实现领域命名实体识别处理的整个线性流程。该过程的核心是引入词性规则模板,结合CRF模型,识别领域命名实体。其中图2中2a、2b和2c所示的步骤基本上是本领域的常规技术手段,在此就不详细赘述了。
在图2中2d所示的步骤中,针对除人名、地名、组织机构名外的领域命名实体,如电子类产品实体“Nokia6300”,本发明是基于改进的CRF(Conditional Random Fields,条件随机场)模型完成的。
传统的CRF模型是一种无向图模型,对于指定的节点输入值,它能够计算指定的节点输出值上的条件概率,其训练目标是使得条件概率最大化。线性链是CRF模型中常见的特定图结构之一,它由指定的输出节点顺序链接而成。一个线性链与一个有限状态机相对应,可用于解决序列数据的标注问题。
本发明在具体改进CRF模型的过程中,没有采取一般的一次性标注策略,而是通过引入三个粗分类标注符:B、I、O,先将领域实体的识别工作转变为一个分类问题,其中各个标注符的含义为,B:可能的领域实体开始;I:可能的领域实体内部;O非领域实体成分。作为一个示例,一个典型的标注结果是:索爱/nz/MPB  K810/nx/MPI,其中MPB表示本发明涉及的手机类电子产品的领域实体开始;MPI表示本发明涉及的手机类电子产品的领域实体内部。类似的标注,还有例如DCB、DCI等表示数码相机类电子产品领域实体开始及内部。
在2d步骤中,本发明将CRF模型作为领域命名实体识别的机器学习模型。这是因为最大熵Markov模型和CRF模型能够综合利用字、词、词性等多层次的资源。同时,对于长程关联有很好的描述能力。这些特点对于像侧重较长范围内处理的领域实体的识别任务相当重要,同时也是隐马尔可夫等生成模型所不具备的。本发明考虑到最大熵Markov模型中尚存在着标注偏置问题,所以选择了能避免该问题的CRF模型。
在模型训练中,首先在标注语料的基础上,采用L-BFGS算法进行模型的训练,获得了CRF模型的参数;在训练获得的CRF模型的参数基础上,使用Viterbi动态规划算法进行解码。
另一方面,如图2所示,引入领域本体进行处理,基于领域本体实例获取词性规则模板集,结合获取的词性规则模板,针对领域命名实体,进行修正2d步骤识别结果的处理,然后完成全部领域命名实体最终识别结果的处理。此处的词性规则模板的获取是通过领域本体的有限实例的形式化,再对形式化后的实例进行词性标注得到的,其中有限的实例作为领域本体种子,以便用来产生具有共性的词性组合规则。
图3显示了针对领域实体进行共指消解识别处理的具体步骤。其中,3a和3b都是常规的步骤,在此就不详细说明了。
本发明在命名实体步骤生成的两类实体一常规命名实体和领域命名实体的标记形式上是各自独立的。也就是说,图3描述3c步骤是处理传统意义上的名词短语识别工作,与一般共指消解名词短语生成方法的区别在于,这一识别是建立在命名实体识别基础之上,起点更高。领域命名实体直接作为候选名词短语,不再执行类似常规命名实体的名词短语识别步骤。
因此,本发明处理的名词短语主要有以下三种表现形式:一种是形式完整的领域实体(作为示例,如手机类电子产品“多普达P860”);一种是形式不完整的领域实体(作为示例,如手机类电子产品“P860”);一种是普通名词(短语)及其并列形式。
根据存在共指关系的实体情况,本发明定义了八种名词短语的语义类别:分别为DNE、PER、LOC、ORG、TIM、PRO、GEN、OTH,含义依次是领域实体类、人名实体类、地名实体类、组织机构名实体类、时间日期实体类、代词形式实体类、普通名词类、其他非上述实体类。其中,DNE语义类的获取是通过对领域本体种子的先行标注,后再利用词频及词性规则模板组合规律,动态标注生成的。作为一个示例,一个典型的语义类标注文本为:“{索尼/nz/MPB爱立信/nz/MPI K810/nx/MPI}DNE{延续/v/O}OTH{了/u/O}OTH{索尼/nz/MPB爱立信/nz/MPI K800/nx/MPI}DNE{的/u/O}OTH{经典/n/O}GEN{直/a/O}/OTH{板/ng/O}OTH{造型/n /o}/GEN”。
3d步骤用于完成图2所示的命名实体中,其他类型名词短语的归并处理,将包括人名、地名、组织机构名、领域实体名完成不同语义类标注,并根据设定的规则进行同语义类实体或者符合规则标记的名词(短语)的归并。
在图3中,3e步骤采用决策树模型进行针对领域命名实体的共指消解。决策树(Decision Tree)模型是督导机器学习模型中常用的一种,对噪声数据有很好的健壮性且能够学习析取表达式。用决策树表达知识,具有描述简单、分类速度快的特点,很擅长处理非数值型数据,不需要假设先验概率分布。决策树是一个类似于流程图的树状结构。树的最顶层的节点称为根节点。每个内部节点都包含一个父节点,一个或者几个子节点。若节点没有子节点,则称其为叶子节点。每个节点对应一个类别标识,每个内部节点都对应一个用于划分数据集的属性Xi称为判定属性或者划分属性。每个内部节点都有一个划分的判断规则qj,如果Xi是连续属性,则qj的形式为Xi<xi,其中xi∈Xi,xi就是节点n的划分点;如果Xi是离散属性,则qj的形式为xi∈Yi,其中
Figure G2008102466392D0000091
Yi成为节点的n的划分子集,节点n的判定属性和判定规则构成了节点n的划分标准。
在本发明中,采用决策树模型进行共指消解,具体流程是:
把指代语之前一定范围内(本发明限定在三个自然句内)出现的名词短语作为先行语的候选集,根据先行语候选集中候选项A与指代语B的特征属性构成的特征向量,判断两者是否存在共指关系。A和B的特征向量x∈X构成一个实例,其中X为所有向量构成的集合空间;设y∈Y={+,-}为实例的类别,其中“+”表示正例,即:A和B存在共指关系;“-”表示反例,即A和B不存在共指关系。(x,y)表示所有标注结果的实例,N={(x1,y1),…,(xn,yn)}表示所有训练实例,决策树模型根据训练集S产生分类器c:X→Y,实现共指关系判断。
采用决策树模型进行共指消解处理,构建性能良好的分类器是关键,而这其中选择合理的特征属性构成特征向量是一个首要问题。本发明针对三个自然句范围内的先行语及候选语,分别选取了包括语义类、短语信息、人称、性、数特征等在内的15个特征属性,用于生成特征向量。
需要说明的是,上述的机器学习模型仅仅作为一个示例。在不脱离本发明的范围和精神的条件下可以根据实际需要使用其他机器学习模型。

Claims (9)

1.一种基于领域本体结合机器学习模型的汉语文本共指消解方法,其特征在于:
(1)构建完成领域本体;
(2)输入待处理的汉语文本;
(3)对步骤(2)中的汉语文本进行分词与词性标注处理;
(4)将汉语文本中的命名实体分为常规命名实体和领域命名实体两类,利用步骤(1)中构建的领域本体通过形式化实例获取词性规则模板,结合条件随机场模型,针对领域命名实体进行识别处理;
(5)针对领域命名实体之外的普通名词短语进行归并处理;
(6)利用步骤(1)中构建的领域本体,获取语义类特征,结合机器学习模型,针对领域命名实体及普通名词短语进行共指消解处理。
2.如权利要求1所述的基于领域本体结合机器学习模型的汉语文本共指消解方法,其特征在于:
所述步骤(1)中,所述领域本体通过阶段性层进法构建,所述阶段性层进法分为原型期阶段和进化期阶段。
3.如权利要求2所述的基于领域本体结合机器学习模型的汉语文本共指消解方法,其特征在于:
所述原型期阶段分为四个步骤,依次完成领域本体构建工具选择及复用性分析,领域本体知识源选择及确定,领域本体知识分析,领域本体生成及表示工作。
4.如权利要求2所述的基于领域本体结合机器学习模型的汉语文本共指消解方法,其特征在于:
所述进化期阶段分为两个步骤,分别完成领域本体的评价,领域本体的修正与完善工作。
5.如权利要求1所述的基于领域本体结合机器学习模型的汉语文本共指消解方法,其特征在于:
所述步骤(4)中,所述词性规则模板通过领域本体的有限实例的形式化,再对形式化后的实例进行词性标注得到的,其中有限的实例作为领域本体种子,用来产生具有共性的词性组合规则。
6.如权利要求1所述的基于领域本体结合机器学习模型的汉语文本共指消解方法,其特征在于:
所述步骤(4)中,所述条件随机场模型通过如下的步骤获得:首先在标注语料的基础上,采用L-BFGS算法进行模型的训练,获得条件随机场模型的参数;在训练获得的条件随机场模型的参数基础上,使用Vit erb i动态规划算法进行解码。
7.如权利要求1所述的基于领域本体结合机器学习模型的汉语文本共指消解方法,其特征在于:
所述步骤(6)中,所述语义类特征是指通过对领域本体实例进行特定标记标注获得的特征。
8.如权利要求1所述的基于领域本体结合机器学习模型的汉语文本共指消解方法,其特征在于:
所述步骤(6)中,将所述语义类特征作为指代语和先行语的特征属性,生成特征向量,结合决策树模型,识别领域命名实体的共指关系。
9.如权利要求8所述的基于领域本体结合机器学习模型的汉语文本共指消解方法,其特征在于:
将指代语之前三个自然句内出现的名词短语作为先行语的候选集,根据先行语的候选集中候选项与指代语的特征属性构成的特征向量,判断两者是否存在共指关系。
CN200810246639A 2008-12-31 2008-12-31 基于领域本体结合机器学习模型的汉语文本共指消解方法 Pending CN101770453A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810246639A CN101770453A (zh) 2008-12-31 2008-12-31 基于领域本体结合机器学习模型的汉语文本共指消解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810246639A CN101770453A (zh) 2008-12-31 2008-12-31 基于领域本体结合机器学习模型的汉语文本共指消解方法

Publications (1)

Publication Number Publication Date
CN101770453A true CN101770453A (zh) 2010-07-07

Family

ID=42503320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810246639A Pending CN101770453A (zh) 2008-12-31 2008-12-31 基于领域本体结合机器学习模型的汉语文本共指消解方法

Country Status (1)

Country Link
CN (1) CN101770453A (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314507A (zh) * 2011-09-08 2012-01-11 北京航空航天大学 一种中文命名实体识别歧义消解方法
CN102567529A (zh) * 2011-12-30 2012-07-11 北京理工大学 一种基于双视图主动学习技术的跨语言文本分类方法
CN103020230A (zh) * 2012-12-14 2013-04-03 中国科学院声学研究所 一种语义模糊匹配方法
CN103678281A (zh) * 2013-12-31 2014-03-26 北京百度网讯科技有限公司 对文本进行自动标注的方法和装置
CN104572625A (zh) * 2015-01-21 2015-04-29 北京云知声信息技术有限公司 命名实体的识别方法
CN104885099A (zh) * 2013-01-02 2015-09-02 高通股份有限公司 使用推升式决策树桩和联合特征选择及剔选算法来对移动设备行为进行高效分类的方法和系统
CN104903917A (zh) * 2012-03-06 2015-09-09 克德比有限公司 预测处理系统和使用方法以及执行业务的方法
CN105654144A (zh) * 2016-02-29 2016-06-08 东南大学 一种基于机器学习的社交网络本体构建方法
CN106062791A (zh) * 2014-01-30 2016-10-26 谷歌公司 使电子消息的分段与一个或多个分段收信人相关联
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN106445911A (zh) * 2016-03-18 2017-02-22 苏州大学 一种基于微观话题结构的指代消解方法及系统
US9609456B2 (en) 2012-05-14 2017-03-28 Qualcomm Incorporated Methods, devices, and systems for communicating behavioral analysis information
CN106776570A (zh) * 2016-12-27 2017-05-31 竹间智能科技(上海)有限公司 一种人称标注方法
US9686023B2 (en) 2013-01-02 2017-06-20 Qualcomm Incorporated Methods and systems of dynamically generating and using device-specific and device-state-specific classifier models for the efficient classification of mobile device behaviors
US9690635B2 (en) 2012-05-14 2017-06-27 Qualcomm Incorporated Communicating behavior information in a mobile computing device
US9742559B2 (en) 2013-01-22 2017-08-22 Qualcomm Incorporated Inter-module authentication for securing application execution integrity within a computing device
US9747440B2 (en) 2012-08-15 2017-08-29 Qualcomm Incorporated On-line behavioral analysis engine in mobile device with multiple analyzer model providers
US9756066B2 (en) 2012-08-15 2017-09-05 Qualcomm Incorporated Secure behavior analysis over trusted execution environment
CN107145947A (zh) * 2017-04-26 2017-09-08 北京汉王数字科技有限公司 一种信息处理方法、装置及电子设备
CN107168947A (zh) * 2017-04-19 2017-09-15 成都准星云学科技有限公司 一种新型实体指代消解的方法及其系统
US9898602B2 (en) 2012-05-14 2018-02-20 Qualcomm Incorporated System, apparatus, and method for adaptive observation of mobile device behavior
CN107832296A (zh) * 2017-11-09 2018-03-23 南京邮电大学 一种基于条件随机场的电信领域命名实体识别方法
CN108415906A (zh) * 2018-03-28 2018-08-17 中译语通科技股份有限公司 基于领域自动识别篇章机器翻译方法、机器翻译系统
CN108549694A (zh) * 2018-04-16 2018-09-18 南京云问网络技术有限公司 一种文本中时间信息的处理方法
US10089582B2 (en) 2013-01-02 2018-10-02 Qualcomm Incorporated Using normalized confidence values for classifying mobile device behaviors
CN109063221A (zh) * 2018-11-02 2018-12-21 北京百度网讯科技有限公司 基于混合策略的查询意图识别方法和装置
CN109697292A (zh) * 2018-12-17 2019-04-30 北京百度网讯科技有限公司 一种机器翻译方法、装置、电子设备和介质
WO2019095899A1 (zh) * 2017-11-17 2019-05-23 中兴通讯股份有限公司 素材标注方法以及装置、终端和计算机可读存储介质
CN109902298A (zh) * 2019-02-13 2019-06-18 东北师范大学 一种自适应学习系统中领域知识建模及知识水平估测方法
CN110134959A (zh) * 2019-05-15 2019-08-16 第四范式(北京)技术有限公司 命名实体识别模型训练方法及设备、信息抽取方法及设备
CN110188168A (zh) * 2019-05-24 2019-08-30 北京邮电大学 语义关系识别方法和装置
CN110245239A (zh) * 2019-05-13 2019-09-17 吉林大学 一种面向汽车领域知识图谱的构建方法及系统
CN110362682A (zh) * 2019-06-21 2019-10-22 厦门美域中央信息科技有限公司 一种基于统计机器学习算法的实体共指消解方法
CN110929523A (zh) * 2018-09-19 2020-03-27 国际商业机器公司 共指解析和实体链接
CN111339780A (zh) * 2020-05-14 2020-06-26 北京金山数字娱乐科技有限公司 一种基于多任务模型的词语处理方法及装置
CN112307764A (zh) * 2019-07-30 2021-02-02 百度(美国)有限责任公司 用于神经命名实体识别的共指感知表示学习
CN112740200A (zh) * 2019-07-25 2021-04-30 百度时代网络技术(北京)有限公司 用于基于共指消解的端到端深度强化学习的系统和方法
CN113190689A (zh) * 2021-05-25 2021-07-30 广东电网有限责任公司广州供电局 一种电力安全知识图谱的构建方法、装置、设备和介质
CN112740200B (zh) * 2019-07-25 2024-05-03 百度时代网络技术(北京)有限公司 用于基于共指消解的端到端深度强化学习的系统和方法

Cited By (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314507A (zh) * 2011-09-08 2012-01-11 北京航空航天大学 一种中文命名实体识别歧义消解方法
CN102567529A (zh) * 2011-12-30 2012-07-11 北京理工大学 一种基于双视图主动学习技术的跨语言文本分类方法
CN102567529B (zh) * 2011-12-30 2013-11-06 北京理工大学 一种基于双视图主动学习技术的跨语言文本分类方法
CN104903917A (zh) * 2012-03-06 2015-09-09 克德比有限公司 预测处理系统和使用方法以及执行业务的方法
US9898602B2 (en) 2012-05-14 2018-02-20 Qualcomm Incorporated System, apparatus, and method for adaptive observation of mobile device behavior
US9609456B2 (en) 2012-05-14 2017-03-28 Qualcomm Incorporated Methods, devices, and systems for communicating behavioral analysis information
US9690635B2 (en) 2012-05-14 2017-06-27 Qualcomm Incorporated Communicating behavior information in a mobile computing device
US9756066B2 (en) 2012-08-15 2017-09-05 Qualcomm Incorporated Secure behavior analysis over trusted execution environment
US9747440B2 (en) 2012-08-15 2017-08-29 Qualcomm Incorporated On-line behavioral analysis engine in mobile device with multiple analyzer model providers
CN103020230A (zh) * 2012-12-14 2013-04-03 中国科学院声学研究所 一种语义模糊匹配方法
CN104885099A (zh) * 2013-01-02 2015-09-02 高通股份有限公司 使用推升式决策树桩和联合特征选择及剔选算法来对移动设备行为进行高效分类的方法和系统
US9686023B2 (en) 2013-01-02 2017-06-20 Qualcomm Incorporated Methods and systems of dynamically generating and using device-specific and device-state-specific classifier models for the efficient classification of mobile device behaviors
US10089582B2 (en) 2013-01-02 2018-10-02 Qualcomm Incorporated Using normalized confidence values for classifying mobile device behaviors
US9684870B2 (en) 2013-01-02 2017-06-20 Qualcomm Incorporated Methods and systems of using boosted decision stumps and joint feature selection and culling algorithms for the efficient classification of mobile device behaviors
US9742559B2 (en) 2013-01-22 2017-08-22 Qualcomm Incorporated Inter-module authentication for securing application execution integrity within a computing device
CN103678281B (zh) * 2013-12-31 2016-10-19 北京百度网讯科技有限公司 对文本进行自动标注的方法和装置
CN103678281A (zh) * 2013-12-31 2014-03-26 北京百度网讯科技有限公司 对文本进行自动标注的方法和装置
CN106062791A (zh) * 2014-01-30 2016-10-26 谷歌公司 使电子消息的分段与一个或多个分段收信人相关联
CN106062791B (zh) * 2014-01-30 2019-12-24 谷歌有限责任公司 使电子消息的分段与一个或多个分段收信人相关联
CN104572625A (zh) * 2015-01-21 2015-04-29 北京云知声信息技术有限公司 命名实体的识别方法
CN106355628B (zh) * 2015-07-16 2019-07-05 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN105654144B (zh) * 2016-02-29 2019-01-29 东南大学 一种基于机器学习的社交网络本体构建方法
CN105654144A (zh) * 2016-02-29 2016-06-08 东南大学 一种基于机器学习的社交网络本体构建方法
CN106445911B (zh) * 2016-03-18 2022-02-22 苏州大学 一种基于微观话题结构的指代消解方法及系统
CN106445911A (zh) * 2016-03-18 2017-02-22 苏州大学 一种基于微观话题结构的指代消解方法及系统
CN106776570A (zh) * 2016-12-27 2017-05-31 竹间智能科技(上海)有限公司 一种人称标注方法
CN107168947A (zh) * 2017-04-19 2017-09-15 成都准星云学科技有限公司 一种新型实体指代消解的方法及其系统
CN107145947A (zh) * 2017-04-26 2017-09-08 北京汉王数字科技有限公司 一种信息处理方法、装置及电子设备
CN107145947B (zh) * 2017-04-26 2020-08-07 北京汉王数字科技有限公司 一种信息处理方法、装置及电子设备
CN107832296A (zh) * 2017-11-09 2018-03-23 南京邮电大学 一种基于条件随机场的电信领域命名实体识别方法
WO2019095899A1 (zh) * 2017-11-17 2019-05-23 中兴通讯股份有限公司 素材标注方法以及装置、终端和计算机可读存储介质
CN108415906A (zh) * 2018-03-28 2018-08-17 中译语通科技股份有限公司 基于领域自动识别篇章机器翻译方法、机器翻译系统
CN108415906B (zh) * 2018-03-28 2021-08-17 中译语通科技股份有限公司 基于领域自动识别篇章机器翻译方法、机器翻译系统
CN108549694B (zh) * 2018-04-16 2021-11-23 南京云问网络技术有限公司 一种文本中时间信息的处理方法
CN108549694A (zh) * 2018-04-16 2018-09-18 南京云问网络技术有限公司 一种文本中时间信息的处理方法
CN110929523A (zh) * 2018-09-19 2020-03-27 国际商业机器公司 共指解析和实体链接
CN110929523B (zh) * 2018-09-19 2023-09-29 国际商业机器公司 共指解析和实体链接
CN109063221A (zh) * 2018-11-02 2018-12-21 北京百度网讯科技有限公司 基于混合策略的查询意图识别方法和装置
CN109697292B (zh) * 2018-12-17 2023-04-21 北京百度网讯科技有限公司 一种机器翻译方法、装置、电子设备和介质
CN109697292A (zh) * 2018-12-17 2019-04-30 北京百度网讯科技有限公司 一种机器翻译方法、装置、电子设备和介质
CN109902298A (zh) * 2019-02-13 2019-06-18 东北师范大学 一种自适应学习系统中领域知识建模及知识水平估测方法
CN109902298B (zh) * 2019-02-13 2023-04-18 东北师范大学 一种自适应学习系统中领域知识建模及知识水平估测方法
CN110245239A (zh) * 2019-05-13 2019-09-17 吉林大学 一种面向汽车领域知识图谱的构建方法及系统
CN110134959A (zh) * 2019-05-15 2019-08-16 第四范式(北京)技术有限公司 命名实体识别模型训练方法及设备、信息抽取方法及设备
CN110134959B (zh) * 2019-05-15 2023-10-20 第四范式(北京)技术有限公司 命名实体识别模型训练方法及设备、信息抽取方法及设备
CN110188168A (zh) * 2019-05-24 2019-08-30 北京邮电大学 语义关系识别方法和装置
CN110188168B (zh) * 2019-05-24 2021-09-03 北京邮电大学 语义关系识别方法和装置
CN110362682A (zh) * 2019-06-21 2019-10-22 厦门美域中央信息科技有限公司 一种基于统计机器学习算法的实体共指消解方法
CN112740200B (zh) * 2019-07-25 2024-05-03 百度时代网络技术(北京)有限公司 用于基于共指消解的端到端深度强化学习的系统和方法
CN112740200A (zh) * 2019-07-25 2021-04-30 百度时代网络技术(北京)有限公司 用于基于共指消解的端到端深度强化学习的系统和方法
CN112307764B (zh) * 2019-07-30 2024-01-19 百度(美国)有限责任公司 用于神经命名实体识别的共指感知表示学习
CN112307764A (zh) * 2019-07-30 2021-02-02 百度(美国)有限责任公司 用于神经命名实体识别的共指感知表示学习
CN111339780A (zh) * 2020-05-14 2020-06-26 北京金山数字娱乐科技有限公司 一种基于多任务模型的词语处理方法及装置
CN113190689B (zh) * 2021-05-25 2023-04-18 广东电网有限责任公司广州供电局 一种电力安全知识图谱的构建方法、装置、设备和介质
CN113190689A (zh) * 2021-05-25 2021-07-30 广东电网有限责任公司广州供电局 一种电力安全知识图谱的构建方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN101770453A (zh) 基于领域本体结合机器学习模型的汉语文本共指消解方法
Cao et al. A joint model for word embedding and word morphology
Simard et al. Bilingual sentence alignment: Balancing robustness and accuracy
Mansouri et al. Named entity recognition approaches
CN107273913B (zh) 一种基于多特征融合的短文本相似度计算方法
US20070174040A1 (en) Word alignment apparatus, example sentence bilingual dictionary, word alignment method, and program product for word alignment
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN106855853A (zh) 基于深度神经网络的实体关系抽取系统
CN111241294A (zh) 基于依赖解析和关键词的图卷积网络的关系抽取方法
WO2015043075A1 (zh) 面向微博的情感实体搜索系统
CN111767325B (zh) 基于深度学习的多源数据深度融合方法
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN109063147A (zh) 基于文本相似度的在线课程论坛内容推荐方法及系统
Botha et al. Adaptor Grammars for Learning Non− Concatenative Morphology
CN113283236A (zh) 一种复杂中文文本中的实体消歧方法
CN113535897A (zh) 一种基于句法关系和意见词分布的细粒度情感分析方法
CN113312922A (zh) 一种改进的篇章级三元组信息抽取方法
CN112417170B (zh) 面向不完备知识图谱的关系链接方法
CN110110137A (zh) 一种确定音乐特征的方法、装置、电子设备及存储介质
CN111339258B (zh) 基于知识图谱的大学计算机基础习题推荐方法
CN111382333B (zh) 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法
Bhat Morpheme segmentation for kannada standing on the shoulder of giants
CN110765781A (zh) 一种领域术语语义知识库人机协同构建方法
Cornell et al. Challenging the assumption of structure-based embeddings in few-and zero-shot knowledge graph completion
Desikan et al. Aggregate, integrate and align to embed everything: a multi-modal framework for measuring cultural dynamics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20100707