CN102682042A - 概念识别设备和方法 - Google Patents

概念识别设备和方法 Download PDF

Info

Publication number
CN102682042A
CN102682042A CN2011100776057A CN201110077605A CN102682042A CN 102682042 A CN102682042 A CN 102682042A CN 2011100776057 A CN2011100776057 A CN 2011100776057A CN 201110077605 A CN201110077605 A CN 201110077605A CN 102682042 A CN102682042 A CN 102682042A
Authority
CN
China
Prior art keywords
notion
confidence level
concept
mark
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100776057A
Other languages
English (en)
Other versions
CN102682042B (zh
Inventor
李建强
赵彧
刘博�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Data Hall (Beijing) Polytron Technologies Inc
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Priority to CN201110077605.7A priority Critical patent/CN102682042B/zh
Publication of CN102682042A publication Critical patent/CN102682042A/zh
Application granted granted Critical
Publication of CN102682042B publication Critical patent/CN102682042B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种概念识别设备,包括:概念匹配单元,对文档中的概念进行初步匹配,产生具有可信度分数的候选概念;概念分类单元,将概念匹配单元产生的候选概念按照其可信度分数归类为高可信度概念集合和低可信度概念集合;以及概念匹配改进单元,利用高可信度概念集合中的元素对低可信度概念集合中的元素执行消除歧义处理。本发明还提供了一种概念识别方法。本发明提高了对文档中的概念(特别是低可信度概念)进行识别的精确度,从而能够对文档进行增强的语义分析。

Description

概念识别设备和方法
技术领域
本发明涉及信息处理领域,具体涉及一种概念识别设备和方法。
背景技术
随着电子信息量的不断增长,大量的多样化信息存在于不同的分布式系统中,使得用户从中查找有用信息变得非常困难。
信息检索(Infrmation Retrieval,IR)技术可用于在文档集合中搜索特定信息,其可被进一步细分为:搜索文档中包含的信息、搜索文档本身、搜索描述文档的元数据、在数据库中搜索文本、声音、图像或数据(无论是关系型单机数据库还是超文本联网数据库,例如以太网或内容/文档管理系统)。
语义信息检索能够对传统的基于关键字的信息检索方案做出改进,其中,概念识别与消除歧义在语义信息检索的实现中扮演了重要的角色。在现有技术中,从文档中查找候选概念的技术方案主要采用了一步匹配技术,即,一次找到所有潜在的概念并对这些概念进行评分。
参考文献1(“Graphed based concept identification anddisambiguation for enterprise search”,Falk Brauer,et.al.,Proceeding ofWWW 2010)描述了一种用于从文档中识别潜在概念的一步方法,该方法包括如下步骤:对文档进行预处理,以标记句子中的名词短语;对企业本体进行索引化;查找名词短语和来自企业本体的索引概念之间的匹配,并进行加权。
参考文献2(“Building semantic kernels for text classification usingWikipedia”,Pu Wang and Carlotta Domeniconi,Proceeding of KDD2008)提出了另一种一步方法,用于在文档中查找Wikipedia概念。与参考文献1中使用标记的名词短语进行概念匹配不同,参考文献2中的方法通过滑动窗口来查找每一个术语序列中的候选概念。
然而,一步方法忽视了这样的事实:该过程中的中间结果,特别是已识别的高可信度的概念,能够潜在地改进具有低可信度的概念的识别和消除歧义。此外,一步匹配技术不能利用相同文档中出现的多个概念的共现信息进行概念识别和消除歧义,这使得产生的候选概念的质量不高。
发明内容
为了解决上述技术问题,本发明将已识别的高可信度的概念作为附加知识,通过使用多个概念的共现信息来提高低可信度概念的识别精确度。
根据本发明的一个方面,提供了一种概念识别设备,包括:概念匹配单元,对文档中的概念进行初步匹配,产生具有可信度分数的候选概念;概念分类单元,将概念匹配单元产生的候选概念按照其可信度分数归类为高可信度概念集合和低可信度概念集合;以及概念匹配改进单元,利用高可信度概念集合中的元素对低可信度概念集合中的元素执行消除歧义处理。
优选地,概念匹配单元将文档分成多个块,并且参照概念本体对每一个块进行匹配,以产生具有可信度分数的候选概念。
优选地,概念匹配单元使窗口在文档中的文本上滑动,然后通过对窗口中所包含的词或者词组与概念本体中的每个概念所包含的词或者词组进行比对来获得对窗口的评分,以产生具有可信度分数的候选概念。
优选地,概念分类单元通过设定可信度分数阈值,把具有高于所述阈值的可信度分数的概念归类到高可信度概念集合中,而把具有低于所述阈值的可信度分数的概念归类到低可信度概念集合中。
优选地,概念分类单元通过设定百分数阈值t%并且按照可信度分数的高低对所有候选概念进行排序,把所有候选概念中具有属于前t%的可信度分数的概念归类到高可信度概念集合中,而把余下的概念归类到低可信度概念集合中。
优选地,概念匹配改进单元执行如下操作:选择高可信度概念集合中的高可信度概念子集作为特定的低可信度概念的上下文概念,利用所述上下文概念重新计算所述特定的低可信度概念的可信度分数,并且基于重新计算的可信度分数把所述特定的低可信度概念重新归类到高可信度概念集合或低可信度概念集合中。
优选地,概念匹配改进单元按照迭代的方式执行所述操作,直到低可信度概念集合中的元素不再发生变化为止。
优选地,概念匹配改进单元按照迭代的方式执行所述操作预定次数。
根据本发明的另一个方面,提供了一种概念识别方法,包括:对文档中的概念进行初步匹配,产生具有可信度分数的候选概念;将概念匹配单元产生的候选概念按照其可信度分数归类为高可信度概念集合和低可信度概念集合;以及利用高可信度概念集合中的元素对低可信度概念集合中的元素执行消除歧义处理。
优选地,通过将文档分成多个块并参照概念本体对每一个块进行匹配,来产生具有可信度分数的候选概念。
优选地,通过使窗口在文档中的文本上滑动,然后通过对窗口中所包含的词或者词组与概念本体中的每个概念所包含的词或者词组进行比对来获得对窗口的评分,来产生具有可信度分数的候选概念。
优选地,通过设定可信度分数阈值,把具有高于所述阈值的可信度分数的概念归类到高可信度概念集合中,而把具有低于所述阈值的可信度分数的概念归类到低可信度概念集合中。
优选地,通过设定百分数阈值t%并按照可信度分数的高低对所有候选概念进行排序,把所有候选概念中具有属于前t%的可信度分数的概念归类到高可信度概念集合中,而把余下的概念归类到低可信度概念集合中。
优选地,消除歧义处理包括如下操作:选择高可信度概念集合中的高可信度概念子集作为特定的低可信度概念的上下文概念,利用所述上下文概念重新计算所述特定的低可信度概念的可信度分数,并且基于重新计算的可信度分数把所述特定的低可信度概念重新归类到高可信度概念集合或低可信度概念集合中。
优选地,按照迭代的方式执行消除歧义处理,直到低可信度概念集合中的元素不再发生变化为止。
优选地,按照迭代的方式执行消除歧义处理预定次数。
本发明提高了对文档中的概念(特别是低可信度概念)进行识别的精确度,从而能够对文档进行增强的语义分析,例如语义文档检索。
附图说明
通过下文结合附图的详细描述,本发明的上述和其它特征将会变得更加明显,其中:
图1是示出了根据本发明一个实施例的概念识别系统的示意图;
图2是示出了根据本发明一个实施例的概念识别设备的框图;
图3是示出了根据本发明一个实施例的概念本体的示意图;
图4是示出了根据本发明另一个实施例的概念识别设备的框图;
图5是示出了根据本发明一个实施例的概念识别方法的流程图;以及
图6是示出了根据本发明一个实施例用于执行消除歧义处理的方法的流程图。
具体实施方式
下面,通过结合附图对本发明的具体实施例的描述,本发明的原理和实现将会变得明显。应当注意的是,本发明不应局限于下文所述的具体实施例。另外,为了简便起见,省略了与本发明无关的公知技术的详细描述。
首先,通过下表1对本说明书中的几个术语的含义做出如下说明:
Figure BSA00000462949200041
Figure BSA00000462949200051
表1
图1是示出了根据本发明一个实施例的概念识别系统10的示意图。如图1所示,概念识别系统10包括:概念本体存储设备100、概念本体索引设备110、倒排索引存储设备120、文档存储设备130、文本预处理器140、名词短语/滑动窗口存储设备150、概念识别设备160和概念存储设备170。
概念本体存储设备100用于存储概念本体或受控制的词汇。例如,可按照如下格式来存储:[概念编号、父概念编号,子概念编号,......]。概念本体索引设备110将概念本体存储设备100中存储的每个概念看作文档,以实现倒排概念的索引化。倒排索引存储设备120用于存储由概念本体索引设备110产生的倒排概念索引。
文档存储设备130用于存储待检索的文档集合。文本预处理器140用于将文档存储设备130中存储的文档分为句子,并检测句子中的名词短语或滑动窗口。名词短语/滑动窗口存储设备150用于存储文本预处理器140检测到的名词短语/滑动窗口。
概念识别设备160使用倒排索引存储设备120中存储的倒排索引和名词短语/滑动窗口存储设备150中存储的名词短语/滑动窗口,首先执行文档中的概念和名词短语/滑动窗口之间的初步匹配,并将产生的候选概念按照其可信度分数分为两组,即具有高可信度分数的高可信度概念和具有低可信度分数的低可信度概念。然后,概念识别设备160利用高可信度概念作为附加知识,对低可信度概念进行消除歧义处理,获得低可信度概念的最终的可信度分数。
概念存储设备170用于存储由概念识别设备160得到的每一个识别的概念的可信度分数。
下面,结合附图2来详细描述图1中所示的概念识别设备160的结构和具体操作。
图2示出了根据本发明一个实施例的概念识别设备160的框图。如图2所示,概念识别设备160包括概念匹配单元1610、概念分类单元1620和概念匹配改进单元1630。
概念匹配单元1610用于执行概念和名词短语/滑动窗口之间的初步匹配。具体地,概念匹配单元1610首先搜索文档中的候选概念,然后对已识别的概念的可信度进行评分,以此实现初步匹配。下面给出概念匹配单元1610的两个具体实现方式。
根据第一个示例实现方式,概念匹配单元1610执行基于名词短语的初步匹配。首先,概念匹配单元1610将文档分成多个块(例如动词短语或名词短语),然后参照概念本体对每一个块(短语)进行匹配,以获得这些块的可信度分数,从而产生具有可信度分数的候选概念。
根据第二个示例实现方式,概念匹配单元1610执行基于滑动窗口的初步匹配。首先,概念匹配单元1610使窗口在文档中的文本上滑动,然后通过对窗口中所包含的词或者词组与概念本体中的每个概念所包含的词或者词组进行比对来获得对窗口的评分,从而产生具有可信度分数的候选概念。
概念分类单元1620将概念匹配单元1610产生的候选概念按照其可信度分数分为两组,即具有高可信度的概念和具有低可信度的概念。下面给出概念分类单元1620的两个具体实现方式。
根据第一个示例实现方式,概念分类单元1620按照绝对可信度分数进行分类。例如,概念分类单元1620首先设定一个可信度分数阈值,然后把具有高于该阈值的可信度分数的概念归类为高可信度概念,而把具有低于该阈值的可信度分数的概念归类为低可信度概念。
根据第二个示例实现方式,概念分类单元1620按照相对可信度分数进行分类。例如,概念分类单元1620首先设定一个百分数阈值t%并按照可信度分数的高低进行排序,然后把具有属于前t%的可信度分数的概念归类为高可信度概念,而把余下的概念归类为低可信度概念。
概念匹配改进单元1630利用高可信度概念(附加知识)对低可信度概念进行消除歧义处理,以提高低可信度概念识别的精确度。
根据一个示例实现方式,概念匹配改进单元1630采用迭代过程来执行消除歧义处理。具体地,概念匹配改进单元1630首先得到高可信度概念的集合H和低可信度概念的集合L,然后以迭代的方式执行下面的处理过程,直到集合H或者L中的元素不再发生变化为止:
首先,对于概念c∈L,将集合H中能够对概念c的消除歧义提供贡献的概念提取出来并构成子集SC(c)。子集SC(c)的获得可以在形式上表示为
SC(c)=f(H,c)={ci|st(ci,c)+se(ci,c)≥α并且ci∈H},
其中st(ci,c)和se(ci,c)分别表示概念ci和c的结构相似度和内容相似度,而α表示一个预设的相似度的阈值参数,用来约束所获取的相关概念集合SC(c)的范围大小。另外,st(ci,c)可以实现为概念ci和c在概念本体中相应路径长度的倒数,而se(ci,c)可以实现为概念ci和c的文本向量的基于余弦函数的相似度。
其次,把SC(c)包含的所有概念看作概念c的上下文信息,对概念c可信度分数进行重新计算以达到消除歧义的目的。具体计算如下:
WC(ec,c)=W(∪q(ci\ci∈SC),q(c),q(ec))*Sim({ec},{c}∪SC),
其中q(c)表示给定概念c的q元空间模型(ec为概念本体中的概念,c为在文本中识别出来的候选概念),W(x,y,z)表示出现在q(x)和q(y)的并集中的元素覆盖q(z)中不同元素的百分比,Sim(x,y)表示x和y的内容语义相似度。
然后,把针对不同的ec而获得的WC(ec,c)在多个ec上进行归一化处理。
最后,基于更新的可信度分数,把概念c重新分类为高可信度概念的集合H或者低可信度概念的集合L。
备选地,根据实际情况,可以设定最大迭代次数。这样,上文描述的迭代处理过程仅执行该最大迭代次数,便获得针对低可信度概念的更新后的可信度分数,从而能够对低可信度概念重新分类。这样做的优点是,可以获得识别精确度与计算负荷之间的良好折衷。
图3是示出了根据本发明一个实施例的概念本体的示意图。下面结合图3详细描述图2所示的概念识别设备160的一个具体应用示例。
假设概念匹配单元1610执行初步匹配后获得三个侯选概念:(c1,“前车门”)、(c2,“窗玻璃”)和(c3,“前车灯”)。从图3所示的概念本体(受控词汇表)中可以看出,侯选概念(c1,“前车门”)和(c3,“前车灯”)是确定的,其可信度分数为1。而侯选概念(c2,“窗玻璃”)无法确定是前车窗玻璃还是后车窗玻璃,因此,其包含两个子概念(c21,“前车窗玻璃”)和(c22,“后车窗玻璃”),它们的可信度分数都是0.5。
基于概念匹配单元1610的初步匹配结果,概念分类单元1620将上述三个候选概念分为如下两组:
H={[(c1,“前车门”),1.0],[(c3,“前车灯”)],1.0}
L={[(c21,“前车窗玻璃”),0.5],[(c22,“后车窗玻璃”),0.5]}
接下来,概念匹配改进单元1630执行如下操作:
首先,从集合H中选出能够对L中的概念的消除歧义提供贡献的概念。在本示例中,H中包含两个概念[(c1,“前车门”),1.0]和[(c3,“前车灯”),1.0]。通过计算可得到如下结果:st(c1,c21)=1,st(c1,c22)=1/3。
为了计算se,需要分别构建c1,c21,c22的向量:
V(c1)=[前:1,车:1,门:1];
V(c21)=[前:1,车:1,窗:1,玻璃:1];
V(c22)=[后:1,车:1,窗:1,玻璃:1]。
基于向量空间模型,可以利用余弦相似性计算得到:
se(c1,c21)=0.57,se(c1,c22)=0.29。
st(c1,c2)+se(c1,c2)=st(c1,c21)+st(c1,c22)+se(c1,c21)+se(c1,c22)=2.19
st(c3,c21)=1/5,st(c3,c22)=1/5。
为了计算se,需要分别构建c3,c21,c22的向量:
v(c3)=[前:1,车:1,灯:1];
v(c21)=[前:1,车:1,窗:1,玻璃:1];
v(c22)=[后:1,车:1,窗:1,玻璃:1]。
基于向量空间模型,可以利用余弦相似性计算得到:
se(c1,c21)=0.57,se(c1,c22)=0.29
st(c3,c2)+se(c3,c2)=st(c3,c21)+st(c3,c22)+se(c3,c21)+se(c3,c22)=1.26
假设α为1.5,由于2.19≥1.5≥1.26,故[(c1,“前车门”),1.0]被选为对L中的概念(c2,“窗玻璃”)进行消除歧义处理的上下文概念,即上下文概念子集SC(c)={[(c1,“前车门”),1.0]}。
接下来,概念匹配改进单元1630利用上下文概念子集SC(c)={[(c1,“前车门”),1.0]}对L中的概念c进行消除歧义处理。具体过程如下:
q(c1)=(“前”,“车”,“门”)
q(c2)=(“窗”,“玻璃”)
q(ec1)=(“前”,“车”,“窗”,“玻璃”)
q(ec2)=(“后”,“车”,“窗”,“玻璃”)
q(c1)∪q(c2)=(“前”,“车”,“门”,“窗”,“玻璃”)
W(q(c1),q(c2),q(ec1))=4/4=1
W(q(c1),q(c2),q(ec2))=3/4=0.75
v(ec1)=(前:1,车:1,窗:1,玻璃:1)
v(ec2)=(后:1,车:1,窗:1,玻璃:1)
v({c2}∪{c1})=(前:1,车:1,门:1,窗:1,玻璃:1)
基于向量空间模型,可以利用余弦相似性计算得到:
Sim({ec1},{c2}∪{c1})=0.89
Sim({ec2},{c2}∪{c1})=0.77
因此,可得到如下结果
WC((ec1,“前车窗玻璃”),(c2,“窗玻璃”))=0.89
WC((ec2,“前车窗玻璃”),(c2,“窗玻璃”))=0.57
经过归一化处理可以得出:[[(c21,“前车窗玻璃”),0.6],[(c22,“后车窗玻璃”,0.4)]。
如果分类阈值被预先设置为0.6,由于(c21,“前车窗玻璃”)的分数已经大于等于该阈值,因此一次迭代就完成了低可信度概念的消除歧义处理。经过消除歧义处理,“窗玻璃”属于“前车窗玻璃”的可信度分数变为0.6,而属于“后车窗玻璃”的可信度分数变为0.4。即,通过考虑文档中出现的高可信度分数的概念“前车门”,低可信度概念“窗玻璃”更有可能是指“前车窗玻璃”。
因此,通过把高可信度概念作为附加知识对低可信度概念进行消除歧义处理,提高了低可信度概念的识别精确度。
图4示出了根据本发明另一个实施例的概念识别设备260的框图。如图4所示,概念识别设备260包括概念匹配单元2610、概念分类单元2620、概念匹配改进单元2630和概念存储单元2640。其中,概念匹配单元2610、概念分类单元2620和概念匹配改进单元2630分别与图2所示的概念匹配单元1610、概念分类单元1620和概念匹配改进单元1630相似,此处不再详细描述。
概念存储单元2640用于存储由概念分类单元2620分类的高可信度概念和低可信度概念以及它们的可信度分数。这样,当再次执行相同的概念识别时,概念匹配改进单元2630可以直接从概念存储单元2640中获取已存储的高可信度概念和低可信度概念及其可信度分数,并基于此来执行对低可信度概念的消除歧义处理。因此,采用概念存储单元2640能够减小相当大的计算负荷。
本领域的技术人员可以理解,概念存储单元2640能够以多种方式来实现。例如但不限于:随机存取存储器(RAM)、闪存或磁盘存储器,等等。
图5示出了根据本发明一个实施例的概念识别方法50的流程图。该方法50在步骤S500处开始。
在步骤S520,首先执行文档中的概念和名词短语/滑动窗口之间的初步匹配。具体地,首先搜索文档中的候选概念,然后对已识别的概念的可信度进行评分,以此实现初步匹配。
根据一个示例实现方式,可按照如下方式执行初步匹配:将文档分成多个块(例如动词短语或名词短语),然后参照概念本体对每一个块(短语)进行匹配,以获得这些块的可信度分数。
根据另一个示例实现方式,可按照如下方式执行初步匹配:首先使窗口在文档中的文本上滑动,然后通过对窗口中所包含的词或者词组与概念本体中的每个概念所包含的词或者词组进行比对来获得对窗口的评分。
然后,在步骤S540,将步骤S520中产生的候选概念按照其可信度分数分为两组,即具有高可信度的概念和具有低可信度的概念。例如,可以按照绝对可信度分数进行分类。既,首先设定一个可信度分数阈值,然后把具有高于该阈值的可信度分数的概念归类为高可信度概念,而把具有低于该阈值的可信度分数的概念归类为低可信度概念。
备选地,也可以按照相对可信度分数进行分类。既,首先设定一个百分数阈值t%并按照可信度分数的高低进行排序,然后把具有属于前t%的可信度分数的概念归类为高可信度概念,而把余下的概念归类为低可信度概念。
接下来,在步骤S560,利用高可信度概念作为附加知识,对低可信度概念进行消除歧义处理,以提高低可信度概念识别的精确度。
根据一种示例实现方式,首先得到高可信度概念的集合H和低可信度概念的集合L,然后通过图6所示的迭代过程来执行消除歧义处理。
如图6所示,在步骤S5620,对于概念c∈L,将集合H中能够对概念c的消除歧义提供贡献的概念提取出来并构成上下文概念子集SC(c)。SC(c)的获得可以在形式上表示为
SC(c)=f(H,c)={ci|st(ci,c)+se(ci,c)≥α并且ci∈H},
其中st(ci,c)和se(ci,c)分别表示概念ci和c的结构相似度和内容相似度,而α表示一个预设的相似度的阈值参数,用来约束所获取的子集SC(c)的范围大小。另外,st(ci,c)可以实现为概念ci和c在概念本体中相应路径长度的倒数,而se(ci,c)可以实现为概念ci和c的文本向量的基于余弦函数的相似度。
在步骤S5640,把SC(c)包含的所有概念看作概念c的上下文信息,对概念c的可信度分数进行重新计算以达到消除歧义的目的。具体计算如下:
WC(ec,c)=W(∪q(ci\ci∈SC),q(c),q(ec))*Sim({ec},{c}∪SC),
其中q(c)表示给定概念c的q元空间模型(ec为概念本体中的概念,c为在文本中识别出来的候选概念),W(x,y,z)表示出现在q(x)和q(y)的并集中的元素覆盖q(z)中不同元素的百分比,Sim(x,y)表示x和y的内容语义相似度。然后,把针对不同的ec而获得的WC(ec,c)在多个ec上进行归一化处理。
在步骤S5660,基于更新的可信度分数,把概念c重新分类为高可信度概念的集合H或者低可信度概念的集合L。
在步骤S5680,判断是否满足终止条件。例如,该终止条件可以是集合H或者L中的元素不再发生变化为止。备选地,根据实际情况,可以设定最大迭代次数作为终止条件。这样,上述迭代过程仅执行该最大迭代次数,以获得针对低可信度概念的更新后的可信度分数。
如果满足终止条件,则在步骤S5680之后处理返回图5中所示的方法50。如图5所示,在步骤S560之后,方法50在步骤S580结束。
本发明将已识别的高可信度的概念作为附加知识,提高了对文档中的概念(特别是低可信度概念)的识别精确度,从而能够对文档进行增强的语义分析,例如语义文档检索。
尽管以上已经结合本发明的优选实施例示出了本发明,但是本领域的技术人员将会理解,在不脱离本发明的精神和范围的情况下,可以对本发明进行各种修改、替换和改变。因此,本发明不应由上述实施例来限定,而应由所附权利要求及其等价物来限定。

Claims (16)

1.一种概念识别设备,包括:
概念匹配单元,对文档中的概念进行初步匹配,产生具有可信度分数的候选概念;
概念分类单元,将概念匹配单元产生的候选概念按照其可信度分数归类为高可信度概念集合和低可信度概念集合;以及
概念匹配改进单元,利用高可信度概念集合中的元素对低可信度概念集合中的元素执行消除歧义处理。
2.根据权利要求1所述的概念识别设备,其中,所述概念匹配单元将文档分成多个块,并且参照概念本体对每一个块进行匹配,以产生具有可信度分数的候选概念。
3.根据权利要求1所述的概念识别设备,其中,所述概念匹配单元使窗口在文档中的文本上滑动,然后通过对窗口中所包含的词或者词组以及概念本体中的每个概念所包含的词或者词组进行比对而获得对窗口的评分,以产生具有可信度分数的候选概念。
4.根据权利要求1所述的概念识别设备,其中,所述概念分类单元通过设定可信度分数阈值,把具有高于所述阈值的可信度分数的概念归类到高可信度概念集合中,而把具有低于所述阈值的可信度分数的概念归类到低可信度概念集合中。
5.根据权利要求1所述的概念识别设备,其中,所述概念分类单元通过设定百分数阈值t%并且按照可信度分数的高低对所有候选概念进行排序,把所有候选概念中具有属于前t%的可信度分数的概念归类到高可信度概念集合中,而把余下的概念归类到低可信度概念集合中。
6.根据权利要求1所述的概念识别设备,其中,所述概念匹配改进单元执行如下操作:选择高可信度概念集合中的高可信度概念子集作为特定的低可信度概念的上下文概念,利用所述上下文概念重新计算所述特定的低可信度概念的可信度分数,并且基于重新计算的可信度分数把所述特定的低可信度概念重新归类到高可信度概念集合或低可信度概念集合中。
7.根据权利要求6所述的概念识别设备,其中,所述概念匹配改进单元按照迭代的方式执行所述操作,直到低可信度概念集合中的元素不再发生变化为止。
8.根据权利要求6所述的概念识别设备,其中,所述概念匹配改进单元按照迭代的方式执行所述操作预定次数。
9.一种概念识别方法,包括:
对文档中的概念进行初步匹配,产生具有可信度分数的候选概念;
将概念匹配单元产生的候选概念按照其可信度分数归类为高可信度概念集合和低可信度概念集合;以及
利用高可信度概念集合中的元素对低可信度概念集合中的元素执行消除歧义处理。
10.根据权利要求9所述的概念识别方法,其中,通过将文档分成多个块并参照概念本体对每一个块进行匹配,来产生具有可信度分数的候选概念。
11.根据权利要求9所述的概念识别方法,其中,通过使窗口在文档中的文本上滑动,然后通过对窗口中所包含的词或词组与概念本体中每个概念所包含的词或者词组进行比对而获得对窗口的评分,来产生具有可信度分数的候选概念。
12.根据权利要求9所述的概念识别方法,其中,通过设定可信度分数阈值,把具有高于所述阈值的可信度分数的概念归类到高可信度概念集合中,而把具有低于所述阈值的可信度分数的概念归类到低可信度概念集合中。
13.根据权利要求9所述的概念识别方法,其中,通过设定百分数阈值t%并按照可信度分数的高低对所有候选概念进行排序,把所有候选概念中具有属于前t%的可信度分数的概念归类到高可信度概念集合中,而把余下的概念归类到低可信度概念集合中。
14.根据权利要求9所述的概念识别方法,其中,所述消除歧义处理包括如下操作:选择高可信度概念集合中的高可信度概念子集作为特定的低可信度概念的上下文概念,利用所述上下文概念重新计算所述特定的低可信度概念的可信度分数,并且基于重新计算的可信度分数把所述特定的低可信度概念重新归类到高可信度概念集合或低可信度概念集合中。
15.根据权利要求14所述的概念识别方法,其中,按照迭代的方式执行所述消除歧义处理,直到低可信度概念集合中的元素不再发生变化为止。
16.根据权利要求14所述的概念识别方法,其中,按照迭代的方式执行所述消除歧义处理预定次数。
CN201110077605.7A 2011-03-18 2011-03-18 概念识别设备和方法 Active CN102682042B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110077605.7A CN102682042B (zh) 2011-03-18 2011-03-18 概念识别设备和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110077605.7A CN102682042B (zh) 2011-03-18 2011-03-18 概念识别设备和方法

Publications (2)

Publication Number Publication Date
CN102682042A true CN102682042A (zh) 2012-09-19
CN102682042B CN102682042B (zh) 2014-07-02

Family

ID=46813988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110077605.7A Active CN102682042B (zh) 2011-03-18 2011-03-18 概念识别设备和方法

Country Status (1)

Country Link
CN (1) CN102682042B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608996A (zh) * 2016-07-11 2018-01-19 百度(美国)有限责任公司 用于数据和信息源可靠性估计的系统和方法
CN109564589A (zh) * 2016-05-13 2019-04-02 通用电气公司 使用手动用户反馈进行实体识别和链接系统和方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050080613A1 (en) * 2003-08-21 2005-04-14 Matthew Colledge System and method for processing text utilizing a suite of disambiguation techniques
CN1669029A (zh) * 2002-05-17 2005-09-14 威乐提公司 自文件集合中自动搜寻概念层次结构的方法及系统
CN101840397A (zh) * 2009-03-20 2010-09-22 日电(中国)有限公司 词义消歧方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1669029A (zh) * 2002-05-17 2005-09-14 威乐提公司 自文件集合中自动搜寻概念层次结构的方法及系统
US20050080613A1 (en) * 2003-08-21 2005-04-14 Matthew Colledge System and method for processing text utilizing a suite of disambiguation techniques
CN101840397A (zh) * 2009-03-20 2010-09-22 日电(中国)有限公司 词义消歧方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109564589A (zh) * 2016-05-13 2019-04-02 通用电气公司 使用手动用户反馈进行实体识别和链接系统和方法
CN109564589B (zh) * 2016-05-13 2023-08-04 通用电气公司 使用手动用户反馈进行实体识别和链接系统和方法
CN107608996A (zh) * 2016-07-11 2018-01-19 百度(美国)有限责任公司 用于数据和信息源可靠性估计的系统和方法
CN107608996B (zh) * 2016-07-11 2021-01-01 百度(美国)有限责任公司 用于数据和信息源可靠性估计的系统和方法

Also Published As

Publication number Publication date
CN102682042B (zh) 2014-07-02

Similar Documents

Publication Publication Date Title
CN107861939B (zh) 一种融合词向量和主题模型的领域实体消歧方法
CN108491462B (zh) 一种基于word2vec的语义查询扩展方法及装置
CN103631834B (zh) 发掘可疑帐号的分身群组的方法与系统
CN108536677A (zh) 一种专利文本相似度计算方法
US20170091318A1 (en) Apparatus and method for extracting keywords from a single document
CN101021838A (zh) 文本处理方法和系统
CN114065758B (zh) 一种基于超图随机游走的文档关键词抽取方法
WO2015043066A1 (zh) 关键词扩展方法及系统、及分类语料标注方法及系统
CN109885675B (zh) 基于改进lda的文本子话题发现方法
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
Lawrence et al. Mining argumentative structure from natural language text using automatically generated premise-conclusion topic models
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN113268995A (zh) 中文学术关键词抽取方法、装置和存储介质
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN110705292B (zh) 一种基于知识库和深度学习的实体名称提取方法
Man Feature extension for short text categorization using frequent term sets
CN103324626A (zh) 一种建立多粒度词典的方法、分词的方法及其装置
Duarte et al. Sign language video retrieval with free-form textual queries
CN112256861A (zh) 一种基于搜索引擎返回结果的谣言检测方法及电子装置
CN108846033B (zh) 特定领域词汇的发现及分类器训练方法和装置
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
Gong et al. A semantic similarity language model to improve automatic image annotation
CN102722526B (zh) 基于词性分类统计的重复网页和近似网页的识别方法
CN103377224A (zh) 识别问题类型的方法及装置、建立识别模型的方法及装置
Sheikh et al. Document level semantic context for retrieving OOV proper names

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180103

Address after: 100190 Zhongguancun street, Haidian District, Beijing, No. 18, block B, block 18

Patentee after: Data Hall (Beijing) Polytron Technologies Inc

Address before: 100191 Haidian District, Xueyuan Road, No. 35, the world building, the second floor of the building on the ground floor, No. 20

Patentee before: NEC (China) Co., Ltd.