CN103678316A - 实体关系分类装置和实体关系分类方法 - Google Patents
实体关系分类装置和实体关系分类方法 Download PDFInfo
- Publication number
- CN103678316A CN103678316A CN201210320607.9A CN201210320607A CN103678316A CN 103678316 A CN103678316 A CN 103678316A CN 201210320607 A CN201210320607 A CN 201210320607A CN 103678316 A CN103678316 A CN 103678316A
- Authority
- CN
- China
- Prior art keywords
- entity
- feature
- probability
- context
- sorter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种实体关系分类装置和实体关系分类方法,所述实体关系分类装置包括特征抽取单元,被配置为抽取输入样本中的实体的特征和实体上下文的特征;分类器,被配置为基于所述特征进行分类,得到以下概率中的至少一部分:所述实体及其特征、所述实体上下文及其特征、各种实体关系的概率,或者前述各项的各种组合的条件概率,其中,所述分类器是基于实体和实体上下文的预定模式构建的;以及实体关系概率计算单元,被配置为基于所得到的各个概率计算在所述实体和所述实体上下文的前提下各种实体关系的概率。
Description
技术领域
本发明涉及人工智能领域,具体地,涉及自然语言处理领域,更具体地,本发明涉及一种对实体关系进行分类的装置和方法。
背景技术
随着互联网的发展,网络信息飞速增长,如何从海量、非结构化的网络信息中抽取实体之间的关系,并识别实体之间的关系的类别,从而更有效地进行知识挖掘、本体构建与扩展、科学假设产生,已经成为本领域中亟待解决的问题。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于背景技术部分所述的需求,本发明关注于对未知关系类别样本进行分类。具体地,本发明提出了一种基于训练语料库构建基于预定模式的关系分类模型,并利用该模型对未知关系类别样本进行分类的装置和方法。
根据本发明的一个方面,提供了一种实体关系分类装置,包括:特征抽取单元,被配置为抽取输入样本中的实体的特征和实体上下文的特征;分类器,被配置为基于所述特征进行分类,得到以下概率中的至少一部分:所述实体及其特征、所述实体上下文及其特征、各种实体关系的概率,或者前述各项的各种组合的条件概率,其中,所述分类器是基于实体和实体上下文的预定模式构建的;以及实体关系概率计算单元,被配置为基于所得到的各个概率计算在所述实体和所述实体上下文的前提下各种实体关系的概率。
根据本发明的另一个方面,提供了一种实体关系分类方法,包括:抽取输入样本中的实体的特征和实体上下文的特征;以及使用分类器利用所述特征进行分类,得到以下概率中的至少一部分:所述实体及其特征、所述实体上下文及其特征、各种实体关系的概率,或者前述各项的各种组合的条件概率,其中,所述分类器是基于实体和实体上下文的预定模式构建的;基于所得到的各个概率计算在所述实体和所述实体上下文的前提下各种实体关系的概率。
根据本发明的又一个方面,提供了一种利用训练语料库训练实体关系分类器的方法,包括:抽取训练语料库中的样本中的实体的特征和实体上下文的特征;以及采用最大似然估计方法计算如下概率中的至少一个:各个实体关系的概率;以每个实体关系、和/或一个实体或实体上下文为前提的另一个实体或实体上下文的概率;以及以实体为前提的实体特征的概率,以实体上下文为前提的实体上下文特征的概率,以及以实体关系为前提的关键特征的概率,其中,所述分类器是基于实体和实体上下文的预定模式构建的。
依据本发明的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。
通过以下结合附图对本发明的优选实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
为了进一步阐述本发明的以上和其它优点和特征,下面结合附图对本发明的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解,这些附图仅描述本发明的典型示例,而不应看作是对本发明的范围的限定。在附图中:
图1示出了根据本发明的一个实施例的实体关系分类装置的结构;
图2示出了根据本发明的一个实施例的分类器的模型的示例;
图3示出了根据本发明的一个实施例的自动构建训练语料库的方法的流程图;
图4示出了根据本发明的一个实施例的利用训练语料库训练实体关系分类器的方法的流程图;
图5示出了根据本发明的一个实施例的实体关系分类方法的流程图;以及
图6是其中可以实现根据本发明的实施例的方法和/或装置的通用个人计算机的示例性结构的框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
下文中的描述按如下顺序进行:
1.实体关系分类装置
1.1特征抽取单元
1.2分类器
i)分类器的模型
ii)训练语料库的自动构建
iii)分类器的训练
1.3实体关系概率计算单元
2.实体关系分类方法
3.用以实施本申请的装置和方法的计算设备
[1.实体关系分类装置]
首先参照图1描述根据本发明的一个实施例的实体关系分类装置100的结构。如图1所示,实体关系分类装置100包括:特征抽取单元101,被配置为抽取输入样本中的实体的特征和实体上下文的特征;分类器102,被配置为基于所述特征进行分类,得到以下概率中的至少一部分:所述实体及其特征、所述实体上下文及其特征、各种实体关系的概率,或者前述各项的各种组合的条件概率,其中,分类器102是基于实体和实体上下文的预定模式构建的;以及实体关系概率计算单元103,被配置为基于所得到的各个概率计算在所述实体和所述实体上下文的前提下各种实体关系的概率。
当向实体关系分类装置100输入一个未知关系类别的样本时,经过上述各个部件的处理,可以获得该样本的实体之间的关系的类别。该输入的样本包括要抽取其之间的关系的两个实体和实体在样本中的至少一个前、中、后上下文。
下面详细描述实体关系分类装置100各个部件的结构和功能。
<1.1特征抽取单元>
首先,特征抽取单元101对输入的样本进行分析,抽取样本中的实体的特征和实体上下文的特征,并将所抽取的特征提供给分类器102。其中,样本中的实体和实体上下文可以预先指定,也可以通过各种分词方法获得。
<1.2分类器>
分类器102针对预定模式的样本构建,例如,认为样本包括实体和实体上下文,各个实体和实体上下文分别具有各自的特征。分类器102基于这些特征对输入的样本进行分类,具体地,获得以下概率中的至少一部分:各个实体及其特征、实体上下文及其特征、各种实体关系的概率,或者前述各项的各种组合的条件概率。
i)分类器的模型
图2示出了分类器102的模型的示例。如图2所示,该模型基于生成图模型(Generative graphical model)。具体地,该模型分为3层,最上层为关系层,用R表示实体之间的关系的类别;第二层为中间层,包括实体和实体上下文,其中,E1、E2分别代表实体,C1、C2、C3分别表示实体E1、E2在语句样本中的前、中、后上下文;第三层为特征层,其中,fc11、…、fc1n为C1的特征,fc21、…、fc2n为C2的特征,fc31、…、fc3n为C3的特征,fe11、…、fe1n为E1的特征,fe21…fe2n为E2的特征,且用正方形表示的特征为关键特征,用圆形表示的特征为一般特征。在下文中将会对这些特征进行具体描述。
另外,在图2中,带有箭头的线表示生成关系,例如,关系类别R与实体E1、E2之间的连线,表示关系类别R决定实体E1、E2的类型和位置关系,同时,关系类别R与实体上下文C1、C2、C3之间的连线表示关系类别R又与实体的前、中、后上下文有关系,决定了实体E1、E2的上下文信息。
虽然图2示出了分类器102的构建的一种模型,但是本领域的技术人员应该理解,该模型并不限于图2所示的具体形式,而是可以进行各种修改和改变,例如,实体和实体上下文的个数和位置、特征的构成以及各个元素之间的生成关系均可以改变。相应地,要获取的概率的具体形式也发生改变。
ii)训练语料库的自动构建
分类器102在使用之前要预先进行训练,该训练过程是利用训练语料库预先进行的。因此,首先参照图3描述如何自动构建该训练语料库。
在一个实施例中,训练语料库是基于Bootstrapping方法、利用种子词和海量的互联网信息构建的,其具体步骤如图3所示。
在图3的步骤S101中,获取种子词集合,所述种子词集合中的每个种子词组包括至少两个实体词和表达所述至少两个实体词之间的关系的关系词。在步骤S102中,使用每个种子词组中的至少两个种子词构建查询语句,用搜索引擎获得搜索结果。在步骤S103中,将搜索结果加到所述训练语料库中。最后,在步骤S104中,从所述搜索结果中抽取新的种子词加到种子词集合中,基于新的种子词重复以上步骤。
重复上述处理直到满足以下条件中的至少一个为止:所述种子词集合中的种子词个数达到预定值;搜索时间达到预定时间;所述训练语料库达到预定规模;找不到新的种子词;搜索不到新的语料。
其中,在步骤S101中,获取种子词集合还包括利用语义词典扩展所述种子词集合。具体地,用三元组的形式表示种子词集合中的{实体词1,关系词,实体词2},利用语义词典将关系词扩展为关系词集,从而扩展种子词集合。
另外,在步骤S102中,通过搜索引擎搜索查询语句,返回的原始搜索结果可以为HTML(超文本标记语言)文本,对其进行解析获得正文文本,其中解析方法例如可以采用正则表达式。这些方法是现有技术中已知的,在此不再详细描述。
在步骤S103中,在将搜索结果加到所述训练语料库中时,还可以对所述搜索结果的句子进行过滤,得到同时包括至少一个实体词和关系词的句子。在过滤之前还可以对正文文本进行预处理,例如分句等。
最后,在步骤S104中,从所述搜索结果中抽取新的种子词加到种子词集合中时,可以利用关联规则挖掘算法基于出现频率计算种子词的置信度,将置信度高于预定值的种子词加到种子词集合中。
通过以上过程,自动构建了包括具有各种关系类别的样本的训练预料库。在该训练语料库的基础上,可以进行分类器102的训练。
iii)分类器的训练
如图4所示,根据本发明的利用训练语料库训练实体关系分类器102的方法包括:抽取训练语料库中的样本中的实体的特征和实体上下文的特征(S201);以及采用最大似然估计方法计算如下概率中的至少一个:各个实体关系的概率;以每个实体关系、和/或一个实体或实体上下文为前提的另一个实体或实体上下文的概率;以及以实体为前提的实体特征的概率,以实体上下文为前提的实体上下文特征的概率,以及以实体关系为前提的关键特征的概率(S202),其中,所述分类器是基于实体和实体上下文的预定模式构建的。
在步骤S201中,基于图2所设定的预定模式对训练语料库中的各个样本进行分析,获取实体如E1、E2的特征和实体上下文如C1、C2、C3的特征。如上所述,实体和实体上下文可以预先指定,也可以通过各种分词方法获得。
在步骤S202中,基于图2所示的模型,针对各个实体和实体上下文以及关系类别,采用最大似然估计方法对训练语料库中的样本进行统计,得到如下概率中的至少一个:各个实体关系R的概率P(R);以每个实体关系、和/或一个实体或实体上下文为前提的另一个实体或实体上下文的概率,例如P(C1|R)、P(E1|C1,R)等;以实体为前提的实体特征的概率P(fEqi|Eq),以实体上下文为前提的实体上下文特征的概率P(fCpi|Cp)以及以实体关系为前提的关键特征的概率P(fk|R)。如后所述,这些概率将用于未知关系类别样本的分类。
虽然以上基于图2所示的模型对分类器的训练进行了描述,但是本领域的技术人员应该理解,该训练方法对于分类器的其他模型同样适用。
以上参照图4描述了分类器102的训练方法,下面将具体描述如何利用分类器102对输入的未知关系类别的样本进行分类。
<1.3实体关系概率计算单元>
首先,已经训练好的分类器102在通过最大似然估计方法计算的各个概率中查找与输入样本的实体和实体上下文所对应的各概率项,并将其传递给实体关系概率计算单元103,实体关系概率计算单元103基于所得到的各个概率项计算在输入样本的实体和实体上下文的前提下各种实体关系的概率P(R|C1,E1,C2,E2,C3)。最后,例如可以将概率P(R|C1,E1,C2,E2,C3)取最大值时所对应的关系类别R作为输入样本的实体之间的关系。
在一个实施例中,根据关系式 由于分母中的概率对于各种实体关系而言是相同的,因此可以仅通过比较分子中的概率P(R,C1,E1,C2,E2,C3)来获得实体的关系类别。
在一个实施例中,基于图2的模型中的各元素之间的生成关系,通过下式(1)来计算概率P(R,C1,E1,C2,E2,C3)。
其中, n代表相应实体或实体上下文的特征数目,fEqk和fCpk代表相应实体或实体上下文的关键特征。
应该理解,上述分类器和公式(1)仅是示例性的而不是限制性的。取决于预定模式和生成模型的改变,上述分类器的构建方式可以改变,相应地,公式(1)的构成项也可以改变。对于本领域的技术人员而言,基于本发明的教导,这种改变是容易想到的。
上述计算中利用了实体和实体上下文的特征,在一个优选实施例中,所述特征包括词特征、词性特征、实体类型特征、实体对位置特征、关键词的词典特征、关键词语义相似度特征和否定词特征中的至少一个。
具体地,所述词特征表示该词本身;所述词性特征表示该词的词性,如名词、动词、介词等;所述实体类型特征表示该实体的类别,如实体属于食物还是疾病类别;所述实体对位置特征表示该实体中的两个实体出现的先后关系,例如,<食物,疾病>=1,<疾病,食物>=0;所述关键词的词典特征表示该关键词是否在训练语料词典中出现;所述关键词语义相似度特征表示该关键词不在训练语料词典中出现时与词典中的词语的语义相似度;所述否定词特征表示包含该关键词的预定大小的窗口中是否存在否定词。
另外,从公式(1)可以看出,实体和实体上下文的关键特征对于概率P(R,C1,E1,C2,E2,C3)的计算有特别重要的作用。其中,实体和实体上下文的关键特征为其关键词的特征,例如词本身。具体地,实体上下文C1、C2、C3中的关键词为能够表示关系类型的词或词组,如“抑制”、“防止”、“治疗”等等,当C1、C2、C3中不存在关键词时,只保留一般特征。实体E1、E2中的关键词为能够表示实体的核心词,不包括修饰词,例如实体词“良性乳腺疾病”的关键词为“乳腺疾病”。
通过采用上述特征集,可以提高实体关系分类的准确率。但是,本发明所采用的特征集不限于以上所述的特征,而是可以包括本领域的技术人员可以想到的其他任何特征。
另外,在一个实施例中,分类器102还被配置为在所述输入样本缺失所述预定模式中的所述实体上下文之一的情况下,对与缺失实体上下文有关的条件概率项进行平滑处理。具体地,输入样本中可能缺少实体上下文之一,例如C1或C3,此时需要对与缺失的C1或C3有关的条件概率项进行平滑处理。
优选地,所述平滑处理包括取所述分类器中与所述缺失的实体上下文有关的条件概率在所述分类器中的样本的总数上的平均,如公式(2)所示。
其中,Cpk表示不存在Cp的情况,j≠k表示存在Cp的样本,N为分类器中所有的样本的总数。
另外,由于训练语料库的限制,可能存在所述分类器不包括所述输入样本中的某个实体或某个实体上下文的情况,在这种情况下,在一个实施例中,所述分类器被配置为在计算所述实体及其特征、所述实体上下文及其特征、各种实体关系的概率,或者前述各项的各种组合的条件概率时,使用所述分类器中相似的实体或实体上下文替代所述实体或实体上下文。
其中,相似的实体或实体上下文可以通过各种相似度计算方法获得。
在一个优选实施例中,存在多个所述相似的实体或实体上下文,并且使用与多个所述相似的实体或实体上下文有关的概率的平均值作为所述实体或实体上下文的相应的概率值。
虽然以上以图2的生成模型作为示例描述了本发明的实体关系分类装置的结构和功能,但是本发明的实体关系分类装置不限于采用图2所示的生成模型,而是可以应用于任何基于实体和实体上下文的预定模式构建的样本中的实体关系的分类。
综上所述,使用根据本发明的实体关系分类装置100,可以对未知关系类别的输入样本进行准确的分类。
[2.实体关系分类方法]
以上结合附图描述了根据本发明的实体关系分类装置的实施方式,在此过程中事实上也描述了一种实体关系分类方法。下面对所述方法结合附图5予以简要描述,其中的细节可参见前文对实体关系分类装置的描述。
如图5所述,该实体关系分类方法包括:抽取输入样本中的实体的特征和实体上下文的特征(S301);以及使用分类器利用所述特征进行分类,得到以下概率中的至少一部分:所述实体及其特征、所述实体上下文及其特征、各种实体关系的概率,或者前述各项的各种组合的条件概率,其中,所述分类器是基于实体和实体上下文的预定模式构建的(S302);基于所得到的各个概率计算在所述实体和实体上下文的前提下各种实体关系的概率(S303)。
根据本发明的一个实施例,所述实体及其特征、所述实体上下文及其特征、各种实体关系的概率,或者前述各项的各种组合的条件概率包括以下概率中的至少一个:各个实体关系的概率;以每个实体关系、和/或一个实体或实体上下文为前提的另一个实体或实体上下文的概率;以及以实体为前提的实体特征的概率,以实体上下文为前提的实体上下文特征的概率,以及以实体关系为前提的关键特征的概率。
在一个实施例中,所述特征包括词特征、词性特征、实体类型特征、实体对位置特征、关键词的词典特征、关键词语义相似度特征和否定词特征中的至少一个。
优选地,所述词特征表示该词本身,所述词性特征表示该词的词性,所述实体类型特征表示该实体的类别,所述实体对位置特征表示该实体中的两个实体出现的先后关系,所述关键词的词典特征表示该关键词是否在训练语料词典中出现,所述关键词语义相似度特征表示该关键词不在训练语料词典中出现时与词典中的词语的语义相似度,所述否定词特征表示包含该关键词的预定大小的窗口中是否存在否定词。
在一个优选实施例中,在所述输入样本缺失所述预定模式中的所述实体上下文之一的情况下,对与缺失的实体上下文有关的条件概率项进行平滑处理。
优选地,所述平滑处理包括取所述分类器中与所述缺失的实体上下文有关的条件概率在所述分类器中的样本的总数上的平均。
在另一个实施例中,在所述分类器不包括所述输入样本中的某个实体或某个实体上下文的情况下,在计算所述实体及其特征、所述实体上下文及其特征、各种实体关系的概率,或者前述各项的各种组合的条件概率时,使用所述分类器中相似的实体或实体上下文替代所述实体或实体上下文。
优选地,存在多个所述相似的实体或实体上下文,并且使用与多个所述相似的实体或实体上下文有关的概率的平均值作为所述实体或实体上下文的相应的概率值。
[3.用以实施本申请的装置和方法的计算设备]
上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图6所示的通用计算机1100)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在图6中,中央处理单元(CPU)1101根据只读存储器(ROM)1102中存储的程序或从存储部分1108加载到随机存取存储器(RAM)1103的程序执行各种处理。在RAM 1103中,也根据需要存储当CPU 1101执行各种处理等等时所需的数据。CPU 1101、ROM 1102和RAM 1103经由总线1104彼此连接。输入/输出接口1105也连接到总线1104。
下述部件连接到输入/输出接口1105:输入部分1106(包括键盘、鼠标等等)、输出部分1107(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1108(包括硬盘等)、通信部分1109(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1109经由网络比如因特网执行通信处理。根据需要,驱动器1110也可连接到输入/输出接口1105。可拆卸介质1111比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1110上,使得从中读出的计算机程序根据需要被安装到存储部分1108中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1111安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1111。可拆卸介质1111的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1102、存储部分1108中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。
通过上述的描述,本发明的实施例提供了以下的技术方案。
附记1.一种实体关系分类装置,包括:
特征抽取单元,被配置为抽取输入样本中的实体的特征和实体上下文的特征;
分类器,被配置为基于所述特征进行分类,得到以下概率中的至少一部分:所述实体及其特征、所述实体上下文及其特征、各种实体关系的概率,或者前述各项的各种组合的条件概率,其中,所述分类器是基于实体和实体上下文的预定模式构建的;以及
实体关系概率计算单元,被配置为基于所得到的各个概率计算在所述实体和所述实体上下文的前提下各种实体关系的概率。
附记2.根据附记1所述的装置,其中,所述分类器被配置为基于所述特征进行分类,得到以下概率中的至少一个:
各个实体关系的概率;
以每个实体关系、和/或一个实体或实体上下文为前提的另一个实体或实体上下文的概率;以及
以实体为前提的实体特征的概率,以实体上下文为前提的实体上下文特征的概率,以及以实体关系为前提的关键特征的概率。
附记3.根据附记1所述的装置,其中所述特征包括词特征、词性特征、实体类型特征、实体对位置特征、关键词的词典特征、关键词语义相似度特征和否定词特征中的至少一个。
附记4.根据附记3所述的装置,其中所述词特征表示该词本身,所述词性特征表示该词的词性,所述实体类型特征表示该实体的类别,所述实体对位置特征表示该实体中的两个实体出现的先后关系,所述关键词的词典特征表示该关键词是否在训练语料词典中出现,所述关键词语义相似度特征表示该关键词不在训练语料词典中出现时与词典中的词语的语义相似度,所述否定词特征表示包含该关键词的预定大小的窗口中是否存在否定词。
附记5.根据附记1-4中任意一项所述的装置,所述分类器被配置为在所述输入样本缺失所述预定模式中的所述实体上下文之一的情况下,对与缺失的实体上下文有关的条件概率项进行平滑处理。
附记6.根据附记5所述的装置,所述平滑处理包括取所述分类器中与所述缺失的实体上下文有关的条件概率在所述分类器中的样本的总数上的平均。
附记7.根据附记1-4中的任意一项所述的装置,所述分类器被配置为在所述分类器不包括所述输入样本中的某个实体或某个实体上下文的情况下,在计算所述实体及其特征、所述实体上下文及其特征、各种实体关系的概率,或者前述各项的各种组合的条件概率时,使用所述分类器中相似的实体或实体上下文替代所述实体或所述实体上下文。
附记8.根据附记7所述的装置,其中,存在多个所述相似的实体或实体上下文,并且使用与多个所述相似的实体或实体上下文有关的概率的平均值作为所述实体或所述实体上下文的相应的概率值。
附记9.一种实体关系分类方法,包括:
抽取输入样本中的实体的特征和实体上下文的特征;以及
使用分类器利用所述特征进行分类,得到以下概率中的至少一部分:所述实体及其特征、所述实体上下文及其特征、各种实体关系的概率,或者前述各项的各种组合的条件概率,其中,所述分类器是基于实体和实体上下文的预定模式构建的;
基于所得到的各个概率计算在所述实体和所述实体上下文的前提下各种实体关系的概率。
附记10.根据附记9所述的方法,其中,所述实体及其特征、所述实体上下文及其特征、各种实体关系的概率,或者前述各项的各种组合的条件概率包括以下概率中的至少一个:
各个实体关系的概率;
以每个实体关系、和/或一个实体或实体上下文为前提的另一个实体或实体上下文的概率;以及
以实体为前提的实体特征的概率,以实体上下文为前提的上下文特征的概率,以及以实体关系为前提的关键特征的概率。
附记11.根据附记9所述的方法,其中所述特征包括词特征、词性特征、实体类型特征、实体对位置特征、关键词的词典特征、关键词语义相似度特征和否定词特征中的至少一个。
附记12.根据附记11所述的方法,其中所述词特征表示该词本身,所述词性特征表示该词的词性,所述实体类型特征表示该实体的类别,所述实体对位置特征表示该实体中的两个实体出现的先后关系,所述关键词的词典特征表示该关键词是否在训练语料词典中出现,所述关键词语义相似度特征表示该关键词不在训练语料词典中出现时与词典中的词语的语义相似度,所述否定词特征表示包含该关键词的预定大小的窗口中是否存在否定词。
附记13.根据附记9-12中任意一项所述的方法,在所述输入样本缺失所述预定模式中的所述实体上下文之一的情况下,对与缺失的实体上下文有关的条件概率项进行平滑处理。
附记14.根据附记13所述的方法,所述平滑处理包括取所述分类器中与所述缺失的实体上下文有关的条件概率在所述分类器中的样本的总数上的平均。
附记15.根据附记9-12中的任意一项所述的方法,在所述分类器不包括所述输入样本中的某个实体或某个实体上下文的情况下,在计算所述实体及其特征、所述实体上下文及其特征、各种实体关系的概率,或者前述各项的各种组合的条件概率时,使用所述分类器中相似的实体或实体上下文替代所述实体或所述实体上下文。
附记16.根据附记15所述的方法,其中,存在多个所述相似的实体或实体上下文,并且使用与多个所述相似的实体或实体上下文有关的概率的平均值作为所述实体或所述实体上下文的相应的概率值。
附记17.一种利用训练语料库训练实体关系分类器的方法,包括:
抽取训练语料库中的样本中的实体的特征和实体上下文的特征;以及
采用最大似然估计方法计算如下概率中的至少一个:
各个实体关系的概率;
以每个实体关系、和/或一个实体或实体上下文为前提的另一个
实体或实体上下文的概率;以及
以实体为前提的实体特征的概率,以实体上下文为前提的实体上
下文特征的概率,以及以实体关系为前提的关键特征的概率,
其中,所述分类器是基于实体和实体上下文的预定模式构建的。
附记18.根据附记17所述的方法,其中所述特征包括词特征、词性特征、实体类型特征、实体对位置特征、关键词的词典特征、关键词语义相似度特征和否定词特征中的至少一个。
附记19.根据附记17或18所述的方法,其中,所述训练语料库通过如下方法构建:
获取种子词集合,所述种子词集合中的每个种子词组包括至少两个实体词和表达所述至少两个实体词之间的关系的关系词;
使用每个种子词组中的至少两个种子词构建查询语句,用搜索引擎获得搜索结果;
将搜索结果加到所述训练语料库中;
从所述搜索结果中抽取新的种子词加到种子词集合中,基于新的种子词重复以上步骤。
附记20.根据附记19所述的方法,其中,获取种子词集合包括利用语义词典扩展所述种子词集合。
Claims (10)
1.一种实体关系分类装置,包括:
特征抽取单元,被配置为抽取输入样本中的实体的特征和实体上下文的特征;
分类器,被配置为基于所述特征进行分类,得到以下概率中的至少一部分:所述实体及其特征、所述实体上下文及其特征、各种实体关系的概率,或者前述各项的各种组合的条件概率,其中,所述分类器是基于实体和实体上下文的预定模式构建的;以及
实体关系概率计算单元,被配置为基于所得到的各个概率计算在所述实体和所述实体上下文的前提下各种实体关系的概率。
2.根据权利要求1所述的装置,其中,所述分类器被配置为基于所述特征进行分类,得到以下概率中的至少一个:
各个实体关系的概率;
以每个实体关系、和/或一个实体或实体上下文为前提的另一个实体或实体上下文的概率;以及
以实体为前提的实体特征的概率,以实体上下文为前提的实体上下文特征的概率,以及以实体关系为前提的关键特征的概率。
3.根据权利要求1所述的装置,其中所述特征包括词特征、词性特征、实体类型特征、实体对位置特征、关键词的词典特征、关键词语义相似度特征和否定词特征中的至少一个。
4.根据权利要求3所述的装置,其中所述词特征表示该词本身,所述词性特征表示该词的词性,所述实体类型特征表示该实体的类别,所述实体对位置特征表示该实体中的两个实体出现的先后关系,所述关键词的词典特征表示该关键词是否在训练语料词典中出现,所述关键词语义相似度特征表示该关键词不在训练语料词典中出现时与词典中的词语的语义相似度,所述否定词特征表示包含该关键词的预定大小的窗口中是否存在否定词。
5.根据权利要求1-4中任意一项所述的装置,所述分类器被配置为在所述输入样本缺失所述预定模式中的所述实体上下文之一的情况下,对与缺失的实体上下文有关的条件概率项进行平滑处理。
6.根据权利要求5所述的装置,所述平滑处理包括取所述分类器中与所述缺失的实体上下文有关的条件概率在所述分类器中的样本的总数上的平均。
7.根据权利要求1-4中的任意一项所述的装置,所述分类器被配置为在所述分类器不包括所述输入样本中的某个实体或某个实体上下文的情况下,在计算所述实体及其特征、所述实体上下文及其特征、各种实体关系的概率,或者前述各项的各种组合的条件概率时,使用所述分类器中相似的实体或实体上下文替代所述实体或所述实体上下文。
8.根据权利要求7所述的装置,其中,存在多个所述相似的实体或实体上下文,并且使用与多个所述相似的实体或实体上下文有关的概率的平均值作为所述实体或所述实体上下文的相应的概率值。
9.一种实体关系分类方法,包括:
抽取输入样本中的实体的特征和实体上下文的特征;以及
使用分类器利用所述特征进行分类,得到以下概率中的至少一部分:所述实体及其特征、所述实体上下文及其特征、各种实体关系的概率,或者前述各项的各种组合的条件概率,其中,所述分类器是基于实体和实体上下文的预定模式构建的;
基于所得到的各个概率计算在所述实体和所述实体上下文的前提下各种实体关系的概率。
10.一种利用训练语料库训练实体关系分类器的方法,包括:
抽取训练语料库中的样本中的实体的特征和实体上下文的特征;以及采用最大似然估计方法计算如下概率中的至少一个:
各个实体关系的概率;
以每个实体关系、和/或一个实体或实体上下文为前提的另一个实体或实体上下文的概率;以及
以实体为前提的实体特征的概率,以实体上下文为前提的实体上下文特征的概率,以及以实体关系为前提的关键特征的概率,其中,所述分类器是基于实体和实体上下文的预定模式构建的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210320607.9A CN103678316B (zh) | 2012-08-31 | 2012-08-31 | 实体关系分类装置和实体关系分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210320607.9A CN103678316B (zh) | 2012-08-31 | 2012-08-31 | 实体关系分类装置和实体关系分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103678316A true CN103678316A (zh) | 2014-03-26 |
CN103678316B CN103678316B (zh) | 2017-03-01 |
Family
ID=50315919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210320607.9A Expired - Fee Related CN103678316B (zh) | 2012-08-31 | 2012-08-31 | 实体关系分类装置和实体关系分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103678316B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615687A (zh) * | 2015-01-22 | 2015-05-13 | 中国科学院计算技术研究所 | 一种面向知识库更新的实体细粒度分类方法与系统 |
CN105022733A (zh) * | 2014-04-18 | 2015-11-04 | 中科鼎富(北京)科技发展有限公司 | Dinfo-oec文本分析挖掘方法与设备 |
CN107220237A (zh) * | 2017-05-24 | 2017-09-29 | 南京大学 | 一种基于卷积神经网络的企业实体关系抽取的方法 |
CN107622126A (zh) * | 2017-09-28 | 2018-01-23 | 联想(北京)有限公司 | 对数据集合中的实体数据进行归类的方法和装置 |
CN107977379A (zh) * | 2016-10-25 | 2018-05-01 | 百度国际科技(深圳)有限公司 | 用于挖掘信息的方法和装置 |
CN108280063A (zh) * | 2018-01-19 | 2018-07-13 | 中国科学院软件研究所 | 基于半监督学习的语义分析方法及系统 |
CN109800879A (zh) * | 2018-12-21 | 2019-05-24 | 科大讯飞股份有限公司 | 知识库构建方法和装置 |
CN109919175A (zh) * | 2019-01-16 | 2019-06-21 | 浙江大学 | 一种结合属性信息的实体多分类方法 |
CN110888991A (zh) * | 2019-11-28 | 2020-03-17 | 哈尔滨工程大学 | 一种弱标注环境下的分段式语义标注方法 |
CN111291838A (zh) * | 2020-05-09 | 2020-06-16 | 支付宝(杭州)信息技术有限公司 | 实体对象分类结果的解释方法和装置 |
CN111339314A (zh) * | 2020-02-19 | 2020-06-26 | 北京百度网讯科技有限公司 | 一种三元组数据的生成方法、装置和电子设备 |
CN112017638A (zh) * | 2020-09-08 | 2020-12-01 | 北京奇艺世纪科技有限公司 | 语音语义识别模型构建方法、语义识别方法、装置及设备 |
CN113191118A (zh) * | 2021-05-08 | 2021-07-30 | 山东省计算中心(国家超级计算济南中心) | 一种基于序列标注的文本关系抽取方法 |
CN114647734A (zh) * | 2020-12-18 | 2022-06-21 | 同方威视科技江苏有限公司 | 舆情文本的事件图谱生成方法、装置、电子设备和介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1352774A (zh) * | 1999-04-08 | 2002-06-05 | 肯特里奇数字实验公司 | 用于中文的标记和命名实体识别的系统 |
US20100299372A1 (en) * | 2004-07-29 | 2010-11-25 | Djugash Judy I | Method and system for reconstruction of object model data in a relational database |
-
2012
- 2012-08-31 CN CN201210320607.9A patent/CN103678316B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1352774A (zh) * | 1999-04-08 | 2002-06-05 | 肯特里奇数字实验公司 | 用于中文的标记和命名实体识别的系统 |
US20100299372A1 (en) * | 2004-07-29 | 2010-11-25 | Djugash Judy I | Method and system for reconstruction of object model data in a relational database |
Non-Patent Citations (2)
Title |
---|
牟晋娟等: "中文实体关系抽取研究", 《计算机工程与设计》 * |
车万翔等: "实体关系自动抽取", 《中文信息学报》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105022733A (zh) * | 2014-04-18 | 2015-11-04 | 中科鼎富(北京)科技发展有限公司 | Dinfo-oec文本分析挖掘方法与设备 |
CN105022733B (zh) * | 2014-04-18 | 2018-03-23 | 中科鼎富(北京)科技发展有限公司 | Dinfo‑oec文本分析挖掘方法与设备 |
CN104615687A (zh) * | 2015-01-22 | 2015-05-13 | 中国科学院计算技术研究所 | 一种面向知识库更新的实体细粒度分类方法与系统 |
CN104615687B (zh) * | 2015-01-22 | 2018-05-22 | 中国科学院计算技术研究所 | 一种面向知识库更新的实体细粒度分类方法与系统 |
CN107977379B (zh) * | 2016-10-25 | 2022-06-28 | 百度国际科技(深圳)有限公司 | 用于挖掘信息的方法和装置 |
CN107977379A (zh) * | 2016-10-25 | 2018-05-01 | 百度国际科技(深圳)有限公司 | 用于挖掘信息的方法和装置 |
CN107220237A (zh) * | 2017-05-24 | 2017-09-29 | 南京大学 | 一种基于卷积神经网络的企业实体关系抽取的方法 |
CN107622126A (zh) * | 2017-09-28 | 2018-01-23 | 联想(北京)有限公司 | 对数据集合中的实体数据进行归类的方法和装置 |
CN108280063A (zh) * | 2018-01-19 | 2018-07-13 | 中国科学院软件研究所 | 基于半监督学习的语义分析方法及系统 |
CN109800879A (zh) * | 2018-12-21 | 2019-05-24 | 科大讯飞股份有限公司 | 知识库构建方法和装置 |
CN109800879B (zh) * | 2018-12-21 | 2022-02-01 | 科大讯飞股份有限公司 | 知识库构建方法和装置 |
CN109919175A (zh) * | 2019-01-16 | 2019-06-21 | 浙江大学 | 一种结合属性信息的实体多分类方法 |
CN109919175B (zh) * | 2019-01-16 | 2020-10-23 | 浙江大学 | 一种结合属性信息的实体多分类方法 |
CN110888991A (zh) * | 2019-11-28 | 2020-03-17 | 哈尔滨工程大学 | 一种弱标注环境下的分段式语义标注方法 |
CN110888991B (zh) * | 2019-11-28 | 2023-12-01 | 哈尔滨工程大学 | 一种弱标注环境下的分段式语义标注方法 |
CN111339314A (zh) * | 2020-02-19 | 2020-06-26 | 北京百度网讯科技有限公司 | 一种三元组数据的生成方法、装置和电子设备 |
CN111291838B (zh) * | 2020-05-09 | 2020-09-01 | 支付宝(杭州)信息技术有限公司 | 实体对象分类结果的解释方法和装置 |
CN111291838A (zh) * | 2020-05-09 | 2020-06-16 | 支付宝(杭州)信息技术有限公司 | 实体对象分类结果的解释方法和装置 |
CN112017638A (zh) * | 2020-09-08 | 2020-12-01 | 北京奇艺世纪科技有限公司 | 语音语义识别模型构建方法、语义识别方法、装置及设备 |
CN114647734A (zh) * | 2020-12-18 | 2022-06-21 | 同方威视科技江苏有限公司 | 舆情文本的事件图谱生成方法、装置、电子设备和介质 |
CN113191118A (zh) * | 2021-05-08 | 2021-07-30 | 山东省计算中心(国家超级计算济南中心) | 一种基于序列标注的文本关系抽取方法 |
CN113191118B (zh) * | 2021-05-08 | 2023-07-18 | 山东省计算中心(国家超级计算济南中心) | 一种基于序列标注的文本关系抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103678316B (zh) | 2017-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103678316A (zh) | 实体关系分类装置和实体关系分类方法 | |
US20210358601A1 (en) | Artificial intelligence system for clinical data semantic interoperability | |
CA2536262A1 (en) | System and method for processing text utilizing a suite of disambiguation techniques | |
CN107562919B (zh) | 一种基于信息检索的多索引集成软件构件检索方法及系统 | |
CN104834747A (zh) | 基于卷积神经网络的短文本分类方法 | |
CN103678418A (zh) | 信息处理方法和信息处理设备 | |
CN103049569A (zh) | 基于向量空间模型的文本相似性匹配方法 | |
CN103365849B (zh) | 关键词检索方法和设备 | |
CN105224682A (zh) | 新词发现方法及装置 | |
EP3086240A1 (en) | Complex predicate template gathering device, and computer program therefor | |
CN107609113A (zh) | 一种文本自动分类方法 | |
CN105955975A (zh) | 一种面向学术文献的知识推荐方法 | |
CN103885933A (zh) | 用于评价文本的情感度的方法和设备 | |
CN107526721A (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN111611404A (zh) | 一种基于地质文本语料预测目标区矿产的方法 | |
CN112215629B (zh) | 基于构造对抗样本的多目标广告生成系统及其方法 | |
CN115578137A (zh) | 一种基于文本挖掘与深度学习模型的农产品期货价格预测方法及系统 | |
CN105068986A (zh) | 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法 | |
US10719663B2 (en) | Assisted free form decision definition using rules vocabulary | |
CN114202443A (zh) | 政策分类方法、装置、设备及存储介质 | |
CN108009187A (zh) | 一种增强文本特征表示的短文本主题挖掘方法 | |
CN103514168A (zh) | 数据处理方法和设备 | |
CN104750484A (zh) | 一种基于最大熵模型的代码摘要生成方法 | |
CN108733702B (zh) | 用户查询上下位关系提取的方法、装置、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170301 Termination date: 20180831 |
|
CF01 | Termination of patent right due to non-payment of annual fee |