CN106156340A - 一种命名实体链接方法 - Google Patents

一种命名实体链接方法 Download PDF

Info

Publication number
CN106156340A
CN106156340A CN201610547386.7A CN201610547386A CN106156340A CN 106156340 A CN106156340 A CN 106156340A CN 201610547386 A CN201610547386 A CN 201610547386A CN 106156340 A CN106156340 A CN 106156340A
Authority
CN
China
Prior art keywords
candidate documents
query word
list
candidate
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610547386.7A
Other languages
English (en)
Inventor
李韩
李一韩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201610547386.7A priority Critical patent/CN106156340A/zh
Publication of CN106156340A publication Critical patent/CN106156340A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明公开了一种命名实体链接方法,该方法包括:对命名实体进行词法分析,生成命名实体的候选文档列表;所述命名实体包含一个查询词及一个描述所述查询词的描述文档;采用基于主题模型的语义分析方法并结合机器学习分类算法,对所述候选文档列表中的所有候选文档进行消歧,得到最贴切描述所述查询词的一个候选文档。该方法实现提高链接准确性。

Description

一种命名实体链接方法
技术领域
本发明涉及计算机技术领域,特别是涉及一种命名实体链接方法。
背景技术
命名实体链接(Named Entity Linking,NEL)任务是把给定的命名实体链接到知识库中一个无歧义文档的过程。知识库中通常包括成千上万个文档。一个命名实体通常包括一个查询词及一小段描述查询词的句子。命名实体链接任务本质上是将给定的一个查询词映射到知识库中与之相关联能够详细描述查询词的一个文档。知识库中通常会存在许多个与查询词可能存在相关的文档,因而需要通过一定的技术将最相关文档找出来,去除其它存在歧义的文档。命名实体链接技术可以提升在线推荐系统、互联网搜索引擎等实际应用的信息过滤能力。然而,知识库中实体数量的激增给文档消歧等带来了巨大挑战,使得当前的命名实体链接越来越难以满足人们对链接准确率的要求,链接准确率较低。
发明内容
本发明的目的是提供一种命名实体链接方法,以实现提高链接准确性。
为解决上述技术问题,本发明提供一种命名实体链接方法,该方法包括:
对命名实体进行词法分析,生成命名实体的候选文档列表;所述命名实体包含一个查询词及一个描述所述查询词的描述文档;
采用基于主题模型的语义分析方法并结合机器学习分类算法,对所述候选文档列表中的所有候选文档进行消歧,得到最贴切描述所述查询词的一个候选文档。
优选的,所述对命名实体进行词法分析,生成命名实体的候选文档列表,包括:
建立词法关联规则,采用所述词法关联规则对命名实体进行词法分析,生成与所述命名实体的查询词相关的候选文档列表。
优选的,所述采用基于主题模型的语义分析方法并结合机器学习分类算法,对所述候选文档列表中的所有候选文档进行消歧,得到最贴切描述所述查询词的一个候选文档,包括:
采用主题模型对所述候选文档列表中每一个候选文档分别进行语义分析,得到每个候选文档的关联评分;
从所有的候选文档中选择出关联评分最低的候选文档;
采用机器学习中的分类算法判断所述关联评分最低的候选文档与所述查询词之间是否存在链接关系,若是,则确定所述关联评分最低的候选文档为最贴切描述所述查询词的一个候选文档。
优选的,所述采用主题模型对所述候选文档列表中每一个候选文档进行语义分析,得到每个候选文档的关联评分,包括:
将所述描述文档和所述候选文档列表中每一个候选文档分别进行语义分析,提取每一个候选文档的关键词;
采用主题模型对每一个关键词分别进行相似度估量,得出每一个关键词的相似度评分;
对于每一个候选文档,依据候选文档的关键词的相似度评分得到候选文档的关联评分;其中,关键词的相似度评分越高,候选文档的关联评分越低。
优选的,所述采用机器学习中的分类算法判断所述关联评分最低的候选文档与所述查询词之间是否存在链接关系,包括:
对相似度评分最高的候选文档进行特征提取,采用机器学习中的分类算法对提取的特征进行分析,判断相似度评分最高的候选文档是否与所述查询词存在链接关系。
优选的,所述将所述描述文档和所述候选文档列表中每一个候选文档分别进行语义分析,提取每一个候选文档的关键词,包括:
对于所述候选文档列表中每一个候选文档,通过主题模型工具LDA对候选文档和所述描述文档进行语义分析,得到主题概率分布,将概率值较大的前五个词作为候选文档的关键词。
优选的,所述词法关联规则包括归一化处理规则,描文本匹配规则,首字母匹配规则、名称匹配规则和编辑距离分析规则。
本发明所提供的一种命名实体链接方法,对命名实体进行词法分析,生成命名实体的候选文档列表;所述命名实体包含一个查询词及一个描述所述查询词的描述文档;采用基于主题模型的语义分析方法并结合机器学习分类算法,对所述候选文档列表中的所有候选文档进行消歧,得到最贴切描述所述查询词的一个候选文档。可见,首先通过词法分析生成命名实体的候选文档列表,接着采用基于主题模型的语义分析方法结合机器学习分类算法对候选文档进行消歧,从而得到能够最贴切描述查询词的一个文档,由于考虑到文档中每个段落通常拥有一些能够代表语义主题的关键词和实体,而描述同一主题的段落在关键词上往往表现出相似性,因而该方法从语义层面结合了主题模型和分类预测来进行命名实体链接,提高了链接准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明所提供的一种命名实体链接方法的流程图;
图2为命令实体链接的简要流程图。
具体实施方式
本发明的核心是提供一种命名实体链接方法,以实现提高链接准确性。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明所提供的一种命名实体链接方法的流程图,该方法包括:
S11:对命名实体进行词法分析,生成命名实体的候选文档列表;
其中,命名实体包含一个查询词及一个描述查询词的描述文档;
S12:采用基于主题模型的语义分析方法并结合机器学习分类算法,对候选文档列表中的所有候选文档进行消歧,得到最贴切描述查询词的一个候选文档。
可见,首先通过词法分析生成命名实体的候选文档列表,接着采用基于主题模型的语义分析方法结合机器学习分类算法对候选文档进行消歧,从而得到能够最贴切描述查询词的一个文档,由于考虑到文档中每个段落通常拥有一些能够代表语义主题的关键词和实体,而描述同一主题的段落在关键词上往往表现出相似性,因而该方法从语义层面结合了主题模型和分类预测来进行命名实体链接,提高了链接准确性。
图2为命令实体链接的简要流程图。本发明的方法简要包括:候选文档生成;候选文档评分;预测链接关系。
其中,候选文档生成的过程为:根据分析文档实体的词法特性,采用一定规则筛选出可能与查询词存在关联的候选文档。
候选文档评分的过程为:分别对描述文档及候选文档进行语义分析,提取关键词,并采用模型进行相似度估量,得出评分。
预测链接关系的过程为:对评分最高的候选文档进行特征提取,采用分类算法预测该候选文档是否与查询存在链接关系。
基于上述方法,进一步的,步骤S11的过程具体为:建立词法关联规则,采用词法关联规则对命名实体进行词法分析,生成与命名实体的查询词相关的候选文档列表。
词法关联规则包括归一化处理规则,描文本匹配规则,首字母匹配规则、名称匹配规则和编辑距离分析规则。
具体的,采用如下词法关联规则生成候选文档:
(1)对文档名称进行归一化处理,包括将所有字母转化为小写,去除下划线和多余的空格。如果归一化后的文档名称与查询词完全匹配,则将该文档实体加入候选文档列表;
(2)分析所有文档中的锚文本,如果锚文本与查询词完全匹配,则将锚文本指向的文档加入候选文档列表;
(3)如果文档名称的首字母缩写词与查询词完全匹配,则将该文档加入候选文档列表;
(4)如果文档名称是查询词的一个子串,则将该文档加入候选文档列表;
(5)如果文档名称与查询词的编辑距离小于查询词大小的十分之一,则将该文档加入候选文档列表。
通过上述词法关联规则可生成与查询词可能存在关联的文档列表。
进一步的,步骤S12优选采用以下步骤实现:
S21:采用主题模型对候选文档列表中每一个候选文档分别进行语义分析,得到每个候选文档的关联评分;
S22:从所有的候选文档中选择出关联评分最低的候选文档;
S23:采用机器学习中的分类算法判断关联评分最低的候选文档与查询词之间是否存在链接关系,若是,则确定关联评分最低的候选文档为最贴切描述查询词的一个候选文档。
进一步的,步骤S13的过程具体为:对于候选文档列表中每一个候选文档,通过主题模型工具LDA对候选文档和描述文档进行语义分析,得到主题概率分布,将概率值较大的前五个词作为候选文档的关键词。
具体的,通过主题模型工具LDA对候选文档及查询词关联的文档即描述文档进行语义分析,求出主题概率分布,把概率值较大的前5个词作为相应文档的关键词。这里假设A是查询词对应的文档,B是一个候选文档,则采用如下公式计算A与B的相似度:
S i m ( A , B ) = l o g ( max ( | A | , | B | ) ) - l o g ( | A ∩ B | ) l o g ( | W | ) - l o g ( min ( | A | , | B | ) )
其中,|A|和|B|表示文档的关键词个数,|A∩B|表示文档A和B中关键词相同的个数,|W|表示所有的候选文档个数。Sim越小,两个文档越相似。
采用上述方法,对一个查询词Q及其对应的候选文档列表L={d1,d2,…,dm},计算得出查询词与候选文档之间的相似度,得到S={Sim1,Sim2,…,Simm},同时将相似度最大即Sim最小的候选文档选出,记为T。
进一步的,步骤S21优选采用以下步骤实现:
S31:将描述文档和候选文档列表中每一个候选文档分别进行语义分析,提取每一个候选文档的关键词;
S32:采用主题模型对每一个关键词分别进行相似度估量,得出每一个关键词的相似度评分;
S33:对于每一个候选文档,依据候选文档的关键词的相似度评分得到候选文档的关联评分;
其中,关键词的相似度评分越高,候选文档的关联评分越低。
具体的,候选文档评分过程是分别对描述文档及候选文档进行语义分析,提取关键词,并采用模型进行相似度估量,得出评分,描述文档也称为查询文档。
进一步的,步骤S23中采用机器学习中的分类算法判断关联评分最低的候选文档与查询词之间是否存在链接关系的过程具体为:对相似度评分最高的候选文档进行特征提取,采用机器学习中的分类算法对提取的特征进行分析,判断相似度评分最高的候选文档是否与查询词存在链接关系。
具体的,对评分最高的候选文档进行特征提取,采用分类算法预测该候选文档是否与查询存在链接关系。
其中,对候选文档进行特征提取,提取如下特征:
(1)采用向量空间模型衡量候选文档与查询词关联文档的相似度值;
(2)所有文档实体中的锚文本链接到候选文档的百分比;
(3)链接到候选文档的锚文本在其它文档中是否链接到不同的文档中;
(4)文档名称是否与查询词完全匹配;
(5)文档名称是否通过编辑距离与查询词部分匹配;
(6)文档名称是否是查询词的子串;
(7)候选文档实体的类别。根据类别的种类,采用数值编码;
(8)候选文档中的关键词个数;
提取完上述特征之后,采用机器学习分类算法对候选文档T是否是查询词Q的链接进行预测,具体过程如下:
(1)针对已知链接关系的命名实体,提取对应文档的特征,形成正样本训练数据;同时对于与命名实体不存在链接关系的命名实体,提取对应文档的特征,形成负样本训练数据。由于负样本训练数据通常要远多余正样本数据,为保证训练数据的平衡,选取1:5左右的正负样本比例作为训练数据;
(2)将上述训练数据形成特征向量作为分类算法—logistic回归算法的输入,对该算法进行分类,从而得到分类模型L;
(3)将候选文档T的特征向量作为L的输入,得到P值,P值即表示T与Q存在链接关系的概率值;
(4)如果P大于设定的阈值(0.9),则认为候选文档与查询词存在链接关系,否则查询词在当前知识库中不存在对应的链接文档。
本发明提出的是结合主题模型和分类预测的命名实体链接方法,首先通过词法分析生成命名实体的候选文档列表,命名实体包含一个查询词及一个描述查询词的描述文档,接着采用基于主题模型的语义分析方法结合机器学习分类算法对候选文档进行消歧,从而得到能够最贴切描述查询词的一个文档。具体地,首先建立词法关联规则,通过规则生成与查询词相关的候选文档列表,缩小后续分析处理的规模。接着,采用主题模型分别对候选文档进行语义分析,进而得到每个候选文档的关联评分,最后,采用机器学习中的分类算法预测评分最低即相似度最大的候选文档与查询词之间是否存在链接关系,由于结合了主题模型和分类预测来进行命名实体链接,提高了链接准确性。
综上,本发明所提供的一种命名实体链接方法,对命名实体进行词法分析,生成命名实体的候选文档列表;命名实体包含一个查询词及一个描述查询词的描述文档;采用基于主题模型的语义分析方法并结合机器学习分类算法,对候选文档列表中的所有候选文档进行消歧,得到最贴切描述查询词的一个候选文档。可见,首先通过词法分析生成命名实体的候选文档列表,接着采用基于主题模型的语义分析方法结合机器学习分类算法对候选文档进行消歧,从而得到能够最贴切描述查询词的一个文档,由于考虑到文档中每个段落通常拥有一些能够代表语义主题的关键词和实体,而描述同一主题的段落在关键词上往往表现出相似性,因而该方法从语义层面结合了主题模型和分类预测来进行命名实体链接,提高了链接准确性。
以上对本发明所提供的一种命名实体链接方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (7)

1.一种命名实体链接方法,其特征在于,包括:
对命名实体进行词法分析,生成命名实体的候选文档列表;所述命名实体包含一个查询词及一个描述所述查询词的描述文档;
采用基于主题模型的语义分析方法并结合机器学习分类算法,对所述候选文档列表中的所有候选文档进行消歧,得到最贴切描述所述查询词的一个候选文档。
2.如权利要求1所述的方法,其特征在于,所述对命名实体进行词法分析,生成命名实体的候选文档列表,包括:
建立词法关联规则,采用所述词法关联规则对命名实体进行词法分析,生成与所述命名实体的查询词相关的候选文档列表。
3.如权利要求2所述的方法,其特征在于,所述采用基于主题模型的语义分析方法并结合机器学习分类算法,对所述候选文档列表中的所有候选文档进行消歧,得到最贴切描述所述查询词的一个候选文档,包括:
采用主题模型对所述候选文档列表中每一个候选文档分别进行语义分析,得到每个候选文档的关联评分;
从所有的候选文档中选择出关联评分最低的候选文档;
采用机器学习中的分类算法判断所述关联评分最低的候选文档与所述查询词之间是否存在链接关系,若是,则确定所述关联评分最低的候选文档为最贴切描述所述查询词的一个候选文档。
4.如权利要求3所述的方法,其特征在于,所述采用主题模型对所述候选文档列表中每一个候选文档进行语义分析,得到每个候选文档的关联评分,包括:
将所述描述文档和所述候选文档列表中每一个候选文档分别进行语义分析,提取每一个候选文档的关键词;
采用主题模型对每一个关键词分别进行相似度估量,得出每一个关键词的相似度评分;
对于每一个候选文档,依据候选文档的关键词的相似度评分得到候选文档的关联评分;其中,关键词的相似度评分越高,候选文档的关联评分越低。
5.如权利要求4所述的方法,其特征在于,所述采用机器学习中的分类算法判断所述关联评分最低的候选文档与所述查询词之间是否存在链接关系,包括:
对相似度评分最高的候选文档进行特征提取,采用机器学习中的分类算法对提取的特征进行分析,判断相似度评分最高的候选文档是否与所述查询词存在链接关系。
6.如权利要求4所述的方法,其特征在于,所述将所述描述文档和所述候选文档列表中每一个候选文档分别进行语义分析,提取每一个候选文档的关键词,包括:
对于所述候选文档列表中每一个候选文档,通过主题模型工具LDA对候选文档和所述描述文档进行语义分析,得到主题概率分布,将概率值较大的前五个词作为候选文档的关键词。
7.如权利要求2至6中任意一项所述的方法,其特征在于,所述词法关联规则包括归一化处理规则,描文本匹配规则,首字母匹配规则、名称匹配规则和编辑距离分析规则。
CN201610547386.7A 2016-07-12 2016-07-12 一种命名实体链接方法 Pending CN106156340A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610547386.7A CN106156340A (zh) 2016-07-12 2016-07-12 一种命名实体链接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610547386.7A CN106156340A (zh) 2016-07-12 2016-07-12 一种命名实体链接方法

Publications (1)

Publication Number Publication Date
CN106156340A true CN106156340A (zh) 2016-11-23

Family

ID=58062557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610547386.7A Pending CN106156340A (zh) 2016-07-12 2016-07-12 一种命名实体链接方法

Country Status (1)

Country Link
CN (1) CN106156340A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608960A (zh) * 2017-09-08 2018-01-19 北京奇艺世纪科技有限公司 一种命名实体链接的方法和装置
CN108874772A (zh) * 2018-05-25 2018-11-23 太原理工大学 一种多义词词向量消歧方法
CN109522551A (zh) * 2018-11-09 2019-03-26 天津新开心生活科技有限公司 实体链接方法、装置、存储介质及电子设备
CN112837771A (zh) * 2021-01-25 2021-05-25 山东健康医疗大数据有限公司 一种融合文本分类与词法分析的体检异常项归一化方法
CN113656556A (zh) * 2021-08-20 2021-11-16 上海大参林医疗健康科技有限公司 一种文本特征抽取方法及知识图谱构建方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070233656A1 (en) * 2006-03-31 2007-10-04 Bunescu Razvan C Disambiguation of Named Entities
CN101344890A (zh) * 2008-08-22 2009-01-14 清华大学 一种基于观点检索的信息检索文档的评分方法
CN101901235A (zh) * 2009-05-27 2010-12-01 国际商业机器公司 文档处理方法和系统
CN102081642A (zh) * 2010-10-28 2011-06-01 华南理工大学 搜索引擎检索结果聚类的中文标签提取方法
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070233656A1 (en) * 2006-03-31 2007-10-04 Bunescu Razvan C Disambiguation of Named Entities
CN101344890A (zh) * 2008-08-22 2009-01-14 清华大学 一种基于观点检索的信息检索文档的评分方法
CN101901235A (zh) * 2009-05-27 2010-12-01 国际商业机器公司 文档处理方法和系统
CN102081642A (zh) * 2010-10-28 2011-06-01 华南理工大学 搜索引擎检索结果聚类的中文标签提取方法
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
FREDRIC C.GEY: "Inferring Probability of Relevance Using the Method of Logistic Regression", 《RESEARCHGATE》 *
WILLIAM S.COOPER等: "Probabilistic Retrieval Based on Staged Logistic Regression", 《PROCEEDINGS OF THE 15TH ANNUAL INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》 *
怀宝兴等: "一种基于概率主题模型的命名实体链接方法", 《软件学报》 *
李新福等: "使用Logistic回归模型进行中文文本分类", 《计算机工程与应用》 *
汪沛等: "一种结合词向量和图模型的特定领域实体消歧方法", 《智能系统学报》 *
焦斌星: "用于搜索的网页可视化摘要技术研究", 《中国博士学位论文全文数据库 信息科技辑》 *
王燕霞等: "CTM与SVM相结合的文本分类方法", 《计算机工程》 *
胥桂仙: "《文本分类技术研究》", 30 June 2010 *
陈万礼等: "基于多源知识和Ranking SVM的中文微博命名实体链接", 《中文信息学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608960A (zh) * 2017-09-08 2018-01-19 北京奇艺世纪科技有限公司 一种命名实体链接的方法和装置
CN107608960B (zh) * 2017-09-08 2021-01-08 北京奇艺世纪科技有限公司 一种命名实体链接的方法和装置
CN108874772A (zh) * 2018-05-25 2018-11-23 太原理工大学 一种多义词词向量消歧方法
CN109522551A (zh) * 2018-11-09 2019-03-26 天津新开心生活科技有限公司 实体链接方法、装置、存储介质及电子设备
CN109522551B (zh) * 2018-11-09 2024-02-20 天津新开心生活科技有限公司 实体链接方法、装置、存储介质及电子设备
CN112837771A (zh) * 2021-01-25 2021-05-25 山东健康医疗大数据有限公司 一种融合文本分类与词法分析的体检异常项归一化方法
CN113656556A (zh) * 2021-08-20 2021-11-16 上海大参林医疗健康科技有限公司 一种文本特征抽取方法及知识图谱构建方法
CN113656556B (zh) * 2021-08-20 2023-08-15 广州天宸健康科技有限公司 一种文本特征抽取方法及知识图谱构建方法

Similar Documents

Publication Publication Date Title
CN109241258B (zh) 一种应用税务领域的深度学习智能问答系统
CN107291783B (zh) 一种语义匹配方法及智能设备
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN106156340A (zh) 一种命名实体链接方法
CN106601237B (zh) 交互式语音应答系统及其语音识别方法
CN106776538A (zh) 企业非标准格式文档的信息提取方法
Shrivastava et al. Hindi POS tagger using naive stemming: harnessing morphological information without extensive linguistic knowledge
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN104598535A (zh) 一种基于最大熵的事件抽取方法
CN105912625A (zh) 一种面向链接数据的实体分类方法和系统
CN104572958A (zh) 一种基于事件抽取的敏感信息监控方法
CN103455562A (zh) 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN105787134B (zh) 智能问答方法、装置及系统
CN110825949A (zh) 基于卷积神经网络的信息检索方法、及其相关设备
CN107885883A (zh) 一种基于社会媒体的宏观经济领域情感分析方法及系统
CN104778283B (zh) 一种基于微博的用户职业分类方法及系统
CN106933800A (zh) 一种金融领域的事件句抽取方法
CN110765761A (zh) 基于人工智能的合同敏感词校验方法、装置及存储介质
CN106257455A (zh) 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法
CN104485107A (zh) 名称的语音识别方法、语音识别系统和语音识别设备
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
CN106503256B (zh) 一种基于社交网络文档的热点信息挖掘方法
CN107301167A (zh) 一种功性能描述信息识别方法及装置
CN106547732A (zh) 近义词识别方法和近义词识别系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161123

RJ01 Rejection of invention patent application after publication