CN103392177B - 本体扩展 - Google Patents

本体扩展 Download PDF

Info

Publication number
CN103392177B
CN103392177B CN201180068468.9A CN201180068468A CN103392177B CN 103392177 B CN103392177 B CN 103392177B CN 201180068468 A CN201180068468 A CN 201180068468A CN 103392177 B CN103392177 B CN 103392177B
Authority
CN
China
Prior art keywords
connotation
lexical item
disambiguation
lexical
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201180068468.9A
Other languages
English (en)
Other versions
CN103392177A (zh
Inventor
方俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Empire Technology Development LLC
Original Assignee
Empire Technology Development LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Empire Technology Development LLC filed Critical Empire Technology Development LLC
Publication of CN103392177A publication Critical patent/CN103392177A/zh
Application granted granted Critical
Publication of CN103392177B publication Critical patent/CN103392177B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Abstract

提供了用于本体扩展的技术。在一个公开的方法中,首先标识本体。所述本体中的词项被消歧以标识词项涵义。利用词汇数据库来标识附加涵义。然后将附加涵义添加到所述本体,以生成扩张的本体或扩展的本体。

Description

本体扩展
背景技术
万维网(“网络(Web)”)向全世界的人们提供了丰富的信息和服务。从世界范围发现信息的能力通常仅需要点击鼠标。同时,网络最适合人们使用。例如,诸如发现词的特定翻译、搜索出售的物品的最低价格或者预定餐厅或航班的任务对于机器而言在没有人为帮助下通常难以实现。
结果,正在进行工作以使得网络更易懂。语义网络例如尝试通过定义在网络上可用的信息和服务的含义来提供框架以使得网络对于人和机器二者而言更易懂。目标是为了使得能够理解和满足来自各种源的请求。语义网络旨在使得机器例如能够执行现在由人执行的任务中的一些。
使得网络更易懂具有许多应用,包括数据集成、数据分类、搜索、内容分级、数据描述等。然而,为了实现这些应用,必须标识网络上的数据和/或服务的含义或语义。
用于确定网络上的数据和服务的语义的多个工具中的一个是本体(ontology)。本体被用于表示资源之间的关系。例如,存在可以用于描述各种数据集合中的相同事物的许多不同的词项。本体可以标识这些关系,并且使得更容易确定这些数据集合的语义。可惜的是,构造本体是劳动密集型和高成本的处理。另外,本体通常不完整并且重点不突出。
发明内容
实施方式涉及本体构造,更具体地,涉及扩展本体。在一个实施方式中,一种扩展本体的方法包括以下步骤:标识或选择所述本体。所述本体可以是现有的本体的一部分。在选择了本体之后,对所选择的本体进行消歧,所述消歧可以包括以下步骤:对所述本体中的词项进行消歧,以标识词项涵义。词项的消歧可以包括使用上下文来标识要被包括在本体的扩展中的附加涵义。然后,利用与所标识出的涵义相关的附加涵义来扩展所述本体。
在另一实施方式中,一种用于扩展本体的方法包括以下步骤:标识所述本体中的各个词项的最近词集合和/或上下文。各个词项的词项涵义被确定,并且利用多个涵义集合以及最近词集合和/或上下文来对词项涵义进行消歧,以标识附加涵义。然后,通过利用附加涵义扩展本体来生成扩张的(augmented)本体。在一些实例中,可以例如通过合并和/或去除不必要的链接来提炼本体。
在另一实施方式中,一种用于从本体生成扩展的或扩张的本体的系统包括词汇数据库和消歧部件。词汇数据库在涵义集合中存储多个元素。消歧部件利用词汇数据库中的涵义集合扩展本体以生成扩张的本体。消歧部件标识涵义集合,并且确定本体中的各个词项涵义与涵义集合中的各个元素之间的关联性分数。在一个示例中,从涵义集合标识或生成候选。各个候选可以包括来自涵义集合中的一个的元素。具有最佳或最大关联性分数的候选中的元素被添加到本体。更通常地,关联性分数超过阈值关联性分数的元素被添加到本体,以生成扩张的本体。
在另一个示例中,一种用于扩张本体的方法包括以下步骤:标识本体以进行扩张;对本体进行消歧,以生成经消歧的本体;扩张经消歧的本体,以生成扩张的本体;以及提炼经扩张的本体。例如可以利用涵义之间的关联和/或涵义之间的注释来扩张经消歧的本体。
以上发明内容仅为例示性的,并非旨在以任何方式进行限制。除了上述例示性方面、实施方式和特征以外,其它方面、实施方式和特征通过参照附图和以下详细描述将变得明显。
附图说明
图1例示本体的示例。
图2例示词项被消歧之后图1的本体的示例。
图3A示出用于扩展本体的系统的例示性实施方式。
图3B示出扩展的本体的例示性实施方式。
图3C示出提炼之后的图3B所示的扩展的本体的例示性实施方式。
图4示出用于扩展本体的方法的例示性示例。
图5示出用于扩展本体的方法的例示性实施方式的流程图。
图6是针对扩展本体设置的计算装置的例示性实施方式的框图。
具体实施方式
在下面的详细说明书中,参照构成说明书的一部分的附图。在附图中,除非上下文另外指出,否则类似的符号通常表示类似的部件。详细说明书、附图和权利要求书中描述的例示性实施方式不旨在进行限制。可以采用其它实施方式,并且在不脱离这里呈现的主题的精神或范围的情况下可以做出其它改变。将容易理解,如这里一般描述和附图中例示的本公开的多个方面可以在各种不同的配置中被设置、替换、组合、分开和设计,所有这些在这里被明确地设想到。
这里公开的实施方式涉及包括本体扩展的本体构造。本体可以定义例如在知识范围内的概念(例如,词、词项)和作用(role)。本体可以提供与在知识范围中使用的词或词项相关联所需的信息(例如,公理)。通过提供词或词项之间的关系,本体可用于使得网络对于人和机器二者而言更易懂。本体扩展通过提炼现有本体中的关系和/或将关系添加到现有的本体中来改进例如语义网络。
通常,本体扩展或本体扩张可以包括标识或选择本体或本体的片段。接着,所标识出的本体中的各个词项被消歧和澄清为词项涵义(sense)。消歧处理使用来自各个词项的上下文的信息来确定在本体中正在使用给定词项的哪个涵义(或哪些涵义)。然后,可以通过附加与澄清的本体中的词项涵义相关联的词项来扩展本体。
图1例示本体100的示例。本体100在该示例中包括概念和作用。概念和作用是本体100的术语方面的示例(例如,TBox和/或ABox)。可以按照各种方式表示概念和作用。图1以图形方式例示概念和作用。然而,还可以利用陈述将本体100表示为为一组类和属性等。
本体100可以是更大的本体的一部分或一个片段。在该示例中,本体100可以对应于艺术本体的片段或部分。本体100可以包含两种类型的词项:概念词项和作用词项。本体100中的各个节点标识词项,并且如图1所述,本体100包括概念词项102、104、106、108、110、112和作用词项114。在图1中,词项102是艺术。如这里进一步描述的,在该示例中,对词项102进行消歧基本上与对词或词项“艺术”进行消歧相同。因而,本体100中的词或词项是概念的示例。
词项102包括艺术概念,并且词项104、106和108分别包括电影、音乐和文学概念。在该示例中,词项104、106和108各自为词项102的子类。词项102是词项104、106和108的超类。词项110和112分别包括歌曲和故事。词项110和112分别是词项104和108的子类。
本体100还包括词项116(人物)。在该示例中,词项102和116通过作用词项114(在该示例中是创作)相关联。作用词项114可以指示词项102的一些实例,并且词项116的一些实例与作用词项114(创作)具有关联(relation)。如前所述,本体100可以包括标识图1中以图形方式例示的概念和/或作用的ABox、TBox、公理等。
本体100可以从现有的本体中选择,或者不参照现有的本体来创建。在本体100针对扩展被标识或选择之后,本体100中的词项102、104、106、108、110、112、114和/或116被澄清。本体100的澄清通常包括标识与本体100中的词项或词相对应的词项涵义。标识词项涵义包括通过采用本体中的其它词项作为上下文来对词项涵义进行消歧。换句话讲,本体100中的其它词项可以提供用于对词项涵义进行消歧的上下文。
当对词(或更通常的,词项)进行消歧时,可以从涵义可能性的选择中选择出词的含义。涵义可能性可以被预先确定,并且可以存储在词汇数据库中。换句话讲,词汇数据库可以存储词项涵义。词汇数据库可以将词或词项涵义分组成多组或多个涵义集合。例如,词汇数据库中的词可以被分组为涵义集合。涵义集合还可以提供定义,并且提供集合中的词之间以及不同集合之间的关系。词汇数据库可以用于对概念词项和作用词项二者进行消歧。
词汇数据库中的涵义集合可以反映词项涵义与其它词项涵义之间的关系。词汇数据库中的名词的涵义集合的示例可以包括(仅通过举例的方式)上位词、下位词、整体词、部分词等。动词的关系或涵义集合可以包括上位词、方式词等。形容词的关系或涵义集合可以包括相关联的名词、分词等。副词的关系或涵义集合可以包括词根形容词。词还可以通过其它的词汇关系(包括反义词)进行连接。
更通常地,词汇数据库典型地存储关于词的词汇信息和关于词的含义的信息。词汇数据库可以在不同类型的语音(名词、动词、形容词、副词)之间进行区分,标识连用,提供定义等。词汇数据库提供用于在上下文中对词分配涵义的数据。词汇数据库可以包括语素、词性指定、样本使用、文化注释、与其它词和语素的语义关系。
当提供有上下文时,词汇数据库可以用于标识与测试词或测试词项类似的词项涵义。在本体中(例如,在本体100)一起出现的词通常一定程度上相关,对词或词项进行消歧要考虑本体100中的其它词或词项。通过使可以从本体100获得的目标词及其上下文之间的关联性最大来将正确的涵义赋予目标词或目标词项。
对本体进行消歧可以同时或者基本上同时对本体中的所有词项进行消歧。当针对本体中的词或词项获得正确的词或词项涵义时,使得词集合T={t1,…,ti,…,tn}为本体中的所有词,并且使ST={st1,…,stj,…stm}为针对这些词的所有可能的涵义组合。ST的基数(cardinality)是所有涵义集合Sense(ti)的基数的乘积。Sense(ti)表示词ti的所有可能的涵义。在该示例中,stj={sj,1,…,sj,i,…,sj,n}是所有涵义的一个可能的组合。具有最大关联性分数的涵义集合st被选择为本体中的所有词的正确涵义。在一个示例中,以下公式确定所有涵义sj,i之间的总关联性。
例如,本体可以包含三个词项:a、b和c。词项a、b和c中的每一个在词汇数据库中具有可以用于对本体中的词项进行消歧的可能的词项涵义a1、a2、b1、b2以及c1、c2、c3
仅作为示例,词项的消歧可如下进行。首先,潜在的消歧结果或候选是{a1,b1,c1}、{a1,b1,c2}、{a1,b1,c3}、{a1,b2,c1}...{a2,b2,c3}。在该示例中可以存在12个候选。
接着,针对各个候选确定或计算关联性分数。最终或最后的关联性分数可以包括候选中的所有对之间的关联性分数的和。例如,针对候选{a1,b1,c1}的关联性分数是Rel(a1,b1)+Rel(a1,c1)+Rel(b1,c1);
具有最大关联性分数或最佳关联性分数的候选是消歧的结果。具有最大或最佳关联性分数的候选可以表示为{ai,bj,ck}。词项a、b、c的期望涵义是ai,bj和ck
给出两个涵义sj,i和sj,k,可以如“S.Banerjee,T.Pedersen,Extended glossoverlaps as a measure of semantic relatedness(Proceedings of the EighteenthInternational Joint Conference on Artificial Intelligence,Acapulco,2003,pp.805–810)”(通过引用将其全部内容合并于此)所述获得关联性分数Rel(sj,i,sj,k)。
关联性分数可以用于标识语义关联性,以获得本体中的每个词的涵义。在一个实施方式中,可以利用扩展的注释重叠方法来测量关联性分数。扩展的注释重叠方法通过词汇数据库中提供的关联将与两个输入涵义A和B相关联的涵义的注释进行比较来计算A与B之间的关联性。
使得RELS(A)为包括词汇数据库中针对涵义A定义的一个或更多个关联的关联的集合,即,RELS(A)={r|r是词汇数据库中针对A定义的关联}。RELS中的各个关联r具有相同名称的功能,其接受涵义作为输入,并且通过指定的关联来返回与输入涵义相关联的涵义的注释。例如,假设r代表上位词关联,则r(A)返回A的上位词同义词集合的注释。
score()是这样的函数,其接收两个注释作为输入,找到在它们之间重叠词的短语,并返回分数。当将两个注释进行比较时,通常会丢弃代词、介词、冠词和/或连词。将发现的重叠的大小相加在一起,以获得针对给定对的注释的分数。
可以如下确定输入涵义A与B之间的关联性分数,其中,gloss(A)表示A的注释。
图2是在词项被消歧之后的本体的示例。换句话讲,图2示出由涵义或词项涵义表示的本体200,而图1示出由词项表示的本体100。因为本体200示出词项涵义而不是词项,所以本体200被部分澄清。例如,在一个实施方式中,艺术词项涵义202对应于消歧之后的艺术词项102。图2中示出的各个词项涵义包括涵义集合220以及/或者与涵义集合220相关联。涵义集合220可以针对各个词项涵义而不同,并且可以被分开,使得特定词项涵义的涵义集合仅与词项涵义相关联。类似地,本体200中的其它节点包括或表示词项涵义,所述词项涵义在一个实施方式中还可以表示为词,并且还包括它们本身的涵义集合或者与它们本身的涵义集合相关联。箭头250标识各个词项涵义的子类和/或超类。例如,词项涵义208是词项涵义202的子类和词项涵义212的超类。
当本体200被澄清时,可以使用词汇数据库和关联性分数测量值来扩张这些词项涵义。如前所述,词汇数据库可以包括词涵义之间的关系或涵义集合(例如,上位关系涵义集合、下位关系涵义集合、反义关系涵义集合、同义关系涵义集合、部分关系涵义集合、整体关系涵义集合等)。
在本体扩展的一个示例中,使用这些关系的子集来执行词或词项扩张:hypernym(X)、hyponym(X)和synonym(X),其中,X是涵义。可以使用词汇数据库来标识以下涵义集合:
hypernym(X)={a1,a2,…};
hyponym(X)={b1,b2,…};以及
synonym(X)={c1,c2,…}。
这些涵义集合包括作为候选以生成本体扩张的元素。通常,当一个涵义集合中的元素的关联性分数超过阈值或预定值时,可以将对应的元素添加到涵义的类。在一个示例中,对应的元素可以被添加到超类、子类或等同类。在一个示例中,对应的元素可以被添加为被扩张的本体中的词项涵义。
上位词通常对具有比涵义更宽含义的涵义进行标识。结果,来自上位词涵义集合的元素通常被添加到被评估的涵义的超类,或被添加为与被评估的涵义具有超类关系的涵义。下位词通常对具有更具体含义的涵义进行标识,并且来自下位词涵义集合的元素通常被添加到被评估的涵义的子类。同义词通常对语义上具有与被消歧的涵义类似的词进行标识。结果,来自同义词涵义集合的元素可以被添加到本体中作为涵义的同胞或等同类或同胞涵义。
如先前提到的,从涵义集合选择出的元素是基于诸如关联性分数的一些测量值具有足够关联性的那些元素。更具体地,可以在X与各个元素{a1,a2,…}之间获得上位词关联性分数。当上位词关联性分数大于预定的上位词值时,对应的元素被附加到X的超类集合。也可以在X与各个元素{b1,b2,…}之间获得下位词关联性分数。当下位词关联性分数大于预定的下位词值时,将对应的元素附加到X的子类。因为同义词最相关联,所以synonym(X)中的各个元素被直接放置到X的同胞集合或等同类。
如之前所讨论的,本体扩展可以从本体消歧开始。在本体被消歧之后,利用与词汇数据库中的涵义相关联的信息来扩张经消歧的本体中的各个涵义。如这里更详细地描述的,扩张可以包括一个或更多个步骤。
可以利用关联来扩张本体。针对每个涵义,仅作为举例,利用上位关联、下位关联和同义关联来扩张涵义。在这种情况下,hypernym(X)、hyponym(X)和synonym(X)表示与词涵义X相关联的结果涵义集合-hypernym(X)={a1,a2,…}、hyponym(X)={b1,b2,…}和synonym(X)={s1,s2,…}。
如果X与涵义集合{a1,a2,…}中的元素之间的关联性分数大于上位词值,则该元素被添加到X的超类集合。如果X与涵义集合{b1,b2,…}中的元素之间的关联性分数大于下位词值,则该元素被添加到X的子类集合;并且涵义集合{s1,s2,…}中的元素被放置到X的等同类集合中。另外,还可以使用注释来扩张本体。
在扩张本体之后,提炼(refine)本体。如这里更详细地描述的,提炼本体时,合并和去除经扩张的本体中的一些不必要的链接,以提炼本体。
在一个示例中,先前描述的关联性分数计算方法在两个步骤中使用:在本体消歧中,Rel(sj,i,sj,k);以及当利用关联扩张本体时,计算扩张的涵义与诸如hypernym(X)中的ai的相关联元素之间的关联性分数。
图3A示出扩展或扩张本体的系统的例示性实施方式。图3A示出被扩展以生成扩展的或扩张的本体300的本体100。在一个示例中可以是计算机或多个计算机的网络或者被配置为在计算机或多个计算机的网络上操作的消歧部件368使用词汇数据库364来对本体100进行消歧并且生成经扩张的本体300。结合消歧部件368使用的显示器360和用户接口362可以用于观看本体100和/或扩张的本体300以及在生成扩张的本体300期间从用户或其它源接收输入。
图3B示出扩张的本体300的例示性实施方式。更具体地,继续参照图1至图2,图1中的本体100的扩展导致图3A和图3B中示出的扩张的本体300。可以通过如本体200中所示的针对各个词项涵义确定相关联涵义集合,然后将词项涵义(或词)添加到本体200来扩展本体100,以生成扩展的本体300。更具体地,可以将相关联的涵义集合中的充分关联的词项涵义或词包括在扩展的本体300中。
在一个示例中,还可以使用注释来扩展本体。在该示例中,从注释中丢弃所有停用词。停用词可以包括冠词、形容词、副词、介词等。在丢弃停用词之后,注释可以仅包含名词、动词和代词。针对概念词项涵义cs,找到cs的注释中的与模式(cs,verb,word)或(word,verb,cs)匹配的所有对(verb,word)(在这种情况下,词是名词或代词)。在一个示例中,动词(verb)是个假设,并且将在下面的处理中被验证。当词是代词时,该词可以被缩减为名词。接着,利用涵义cs作为上下文来对(verb,con)进行消歧。如果动词的消歧结果不是动词涵义,则表示以上针对(cs,verb,word)的假设不准确,去除或丢弃该对。最后,如果关联性(cs,verb)、关联性(cs,con)和关联性(verb,con)大于注释值,则将(verb,con)附加到概念词项涵义cs。
针对作用词项涵义rs,找到rs的注释中的与模式(w1,rs,w2)匹配的所有对(w1,w2)。在该示例中,w1和w2是名词或代词。然后,如果需要,则将词缩减成通用的概念con1和con2。接着,利用涵义rs作为上下文来对(con1,con2)进行消歧。最后,如果关联性(con1,rs)、关联性(rs,con2)和关联性(con1,con2)大于注释值,则将(verb,noun)附加到作用词项涵义rs。
例如,在经消歧的示例本体中,概念词项涵义212(故事#n#2)的注释可以包含“hewrites stories for the magazines”。通过丢弃停用词(for和the),注释改变为“hewrites stories magazines”,并且获得对(write,he)。代词“he”被缩减成概念“人物”。利用故事#n#2作为消歧上下文来获得对(写作#v#1,人物#n#1)。通过将注释值设置为0.6,关联性(人物#n#1,写作#v#1)、关联性(人物#n#1,故事#n#2)和关联性(故事#n#2,写作#v#1)大于0.6。结果,将(写作#v#1,人物#n#1)附加到故事概念词项涵义212,如通过作用词项涵义316和人物概念词项涵义318在图3B中描述的。
在另一示例中,艺术词项涵义202的相关联的涵义集合可以包括:
hypernym(艺术)={创作};
hyponym(艺术)={艺术和工艺,贴花,绘图,绘画,香水,折纸,雕塑};
synonym(艺术)={艺术创作}。
在该示例中,上位词、下位词和同义词关联性分数中的每一个的预定值可以被设置为0.9。然后,通过生成各个涵义集合中的各个元素的关联性分数,来对要从涵义集合添加到扩展的本体300的词进行标识。艺术与绘画之间的关联性分数(relatedness(arts,painting))可以是0.933。艺术概念词项涵义202与绘图(来自在hyponym(艺术)中标识出的元素)之间的关联性分数可以是0.923。
本领域技术人员能够理解,仅通过举例的方式公开了这些关联性分数。对本体200中的各个词项涵义执行类似处理。在针对涵义集合中的元素确定关联性分数的处理之后或在此期间,将超过或满足关联性要求的元素添加到扩张的本体300。
图3B中示出的扩张的本体300描述了本体扩展的结果。本体300中示出的添加反映关联性分数满足(在一个示例中超过)相关阈值关联性分数的词或词项涵义。
在图3B中,绘画概念词项涵义302已经被添加为艺术概念词项涵义202的子类。吹哨概念词项涵义306被添加为音乐概念词项涵义204的子类。表演概念词项涵义310已经被添加为电影概念词项涵义206的超类。影片概念词项涵义308已经被添加为电影概念词项涵义206的等同物。概念词项涵义312、314和318以及作用词项涵义304和316已经被类似地添加有类似关系(例如,子类、超类、等同类等)。
添加到本体以生成扩展的本体300的概念或作用词项涵义可以如前所述被添加为超类、子类和/或等同类。扩张的本体300通过提供可以用于获得对从网络可用的数据和服务的更好理解的本体来改进语义网络。
图3C示出提炼之后图3B中示出的扩张的本体的例示性实施方式。本体300的提炼导致经提炼的本体300。提炼本体350时,合并链接并且去除不必要的链接。例如,相同的概念词项涵义和作用词项涵义被合并。图3B例如示出两个小说概念词项涵义312和314、两个写作作用词项涵义304和316以及两个人物概念词项涵义216和318。当这些相同时,它们被合并为人物概念词项涵义352、小说概念词项涵义356和作用词项涵义354。
可以利用特定作用来执行不必要的链接的去除。举例来说,如果一个链接可以从其它链接推断出,则省略该链接。例如,在图3B中,故事概念词项涵义212是文学概念词项涵义208的子类。该关系可以从小说概念词项涵义312是文学概念词项涵义208的子类以及小说概念词项涵义314是故事概念词项涵义212的超类这样的关系推断出。因为小说概念词项涵义312和314被合并,所以图3C中示出了推断出的关系,其中,故事概念词项涵义212是小说概念词项涵义356的子类,小说概念词项涵义356是文学概念词项涵义208的子类。图3C因此示出通过将相同的概念词项涵义或作用词项涵义合并并且去除不必要的链接来提炼扩张的本体的示例。
图4示出扩展本体的例示性方法的流程图。在框402(“标识本体”)中,标识本体100。如先前所陈述的,本体100可以是现有的本体或者新生成的本体的一部分或者这二者的组合。
在框404(“对本体进行消歧”)中,对本体100进行消歧以生成经消歧的本体200。可以使用词汇数据库364来对本体100进行消歧,如这里所描述的。这可以包括例如标识最近的词集合、标识词涵义集合、标识各个涵义的上下文等。
在框406(“扩张本体”)中,扩展的本体200被扩张以生成扩张的本体300。可以在框408(“利用关联进行本体扩张”)中使用关联和/或在框410(“利用注释进行本体扩张”)中使用注释来扩张经扩展的本体200。
在框412(“提炼扩张的本体”)中,扩张的本体300被提炼以生成经提炼的本体350。如先前所描述的,例如可以通过组合概念词项涵义、作用词项涵义等来提炼经扩张的本体。
图5示出扩展本体的方法500的例示性实施方式的流程图。在框502(“标识本体”)中,标识本体。例如可以通过在现有的本体中搜索知识或特定概念的范围来标识本体。可以通过选择在特定概念周围或知识的范围内的一些节点来标识本体。在一些示例中,可以预先确定被标识的本体的范围或大小。在一些示例中,对现有的本体执行扩展本体的处理,并且当特定本体或者本体的一部分被标识或者被选择时,执行扩展。
当扩展本体时,要被扩展的本体可以已经被标识出或被预先确定,本体扩展的实施方式可以从现有的或预定的本体开始。结果,可以不需要搜索本体或者选择本体。此外,被扩展的本体可以是更大的本体的一个片段或一部分。
在框504(“对标识的本体中的各个词项进行消歧”)中,对标识的或预定的本体中的各个词项进行消歧。对本体中的各个词项进行消歧可以包括对具有最大关联性分数的本体中的各个词项的正确或准确的词项涵义进行标识。本体中的词项的消歧可以澄清词项。
可以使用例如WordNet的词汇数据库来标识相关的涵义集合。相关的涵义集合可以包括上位词的集合、下位词的集合、同义词的集合等。相关的涵义集合不限于这些示例,而是可以包括如先前所陈述的其它。
在标识了相关涵义集合之后,仅通过举例的方式,利用例如候选针对各个相关涵义集合中的各个元素确定关联性分数,如先前所描述的。用于扩展本体的元素是关联性分数超过预定关联性分数的那些元素。所述元素可以作为超类、子类或等同类被添加到被扩展的词项涵义。
在框506(“扩展本体”)中,利用消歧处理期间标识的元素扩展本体。这可以包括将合格的元素作为超类、子类、等同类或一些相关类添加到本体中的词项涵义。
可以自动或半自动地执行本体扩展。在本体被标识或构造之后,可以根据这里描述的本体扩展来修改或扩展本体。例如,可以自动遍历本体(因为本体通常具有类似树的组织),以标识最近的词集合或者标识上下文等。可以从本体中的其它词项或词项涵义来确定上下文。此外,还可以无需用户输入而自动地获得相关的涵义集合和关联性分数。最后,可以通过将节点添加到本体来扩展本体。可以自动保存扩展的本体以供人使用、查阅等。
本领域技术人员将理解,针对这里公开的这个处理和其它处理以及方法,可以按不同的顺序实现在处理和方法中执行的功能。此外,概括的步骤和操作仅作为示例提供,在不偏离公开的实施方式的本质的情况下,一些步骤和操作可以是可选的,组成为更少的步骤和操作,或者扩展成附加步骤和操作。
本公开不被本申请中描述的具体实施方式限制,这些实施方式旨在作为各个方面的例示。对于本领域的技术人员来说明显的是,可以在不脱离本发明的精神和范围的情况下进行许多修改和变型。除了这里列举的那些外,对本领域的技术人员来说,根据上面的描述,本公开范围内的功能等效的方法和装置将是明显的。这类修改和变形旨在落入所附权利要求书的范围内。仅通过所附权利要求书的条款连同授权的所述权利要求的等同物的整个范围来限制本公开。将要理解的是,本发明不限于特定的方法、试剂、化合物、组合物或生物系统,当然这些是可以改变的。还将理解的是,这里使用的词项仅用于描述特定实施方式,不旨在进行限制。
在例示性实施方式中,这里描述的任何操作、处理等可以被实现为存储在计算机可读介质上的计算机可读指令。可以通过移动单元、网络元件和/或任何其它计算装置的处理器执行计算机可读指令。
系统方面的硬件实现方式和软件实现方式之间几乎没有区别;使用硬件或者软件一般(但并非总是,在特定环境中硬件和软件之间的选择可能非常重要)是设计选择,代表成本-效率折衷。存在可以实现这里描述的处理和/或系统和/或其它技术的各种载体(例如,硬件、软件和/或固件),并且优选的是,载体将随着实施处理和/或系统和/或其它技术的环境而变化。例如,如果实施者确定速度和准确性是重要的,则实施者可以选择主要的硬件和/或固件载体;如果灵活性是重要的,则实施者可以选择主要的软件实现方式;或者再次另选地,实施者可以选择硬件、软件和/或固件的一些组合。
上述详细描述已经通过使用框图、流程图和/或示例阐述了装置和/或处理的各种实施方式。在这样的框图、流程图和/或示例包含一个或更多个功能和/或操作的情况下,本领域技术人员将要理解的是,这样的框图、流程图和/或示例内的每个功能和/或操作可以由范围广泛的硬件、软件、固件或几乎其任何组合单独地和/或共同地实现。在一个实施方式中,这里所描述的主题的多个部分可以经由专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其它集成形式来实现。然而,本领域技术人员将认识到,这里所公开的实施方式的一些方面可以全部或部分地在集成电路中等效地实现为在一个或更多个计算机上运行的一个或更多个计算机程序(例如,在一个或更多个计算机系统上运行的一个或更多个程序)、实现为在一个或更多个处理器上运行的一个或更多个程序(例如,在一个或更多个微处理器上运行的一个或更多个程序)、实现为固件、或者实现为几乎它们的任何组合,并且将认识到,根据该公开,设计电路和/或针对软件或固件编写代码完全属于本领域技术人员的技术之内。此外,在本领域中的技术人员将会理解,这里描述的主题的机制能够分配为各种形式的程序产品,并且,这里描述的主题的例示性实施方式的应用与用于实际进行分配的信号承载介质的特定类型无关。信号承载介质的示例包括但不限于:诸如软盘、硬盘驱动器、CD、DVD、数字磁带、计算机存储器等的可记录型介质,以及诸如数字和/或模拟通信介质(例如,光纤线缆、波导、有线通信链路、无线通信链路等)的传输型介质。
本领域技术人员将认识到,按照这里阐述的方式描述装置和/或处理,并此后使用工程实践来将这样描述的装置和/或处理集成到数据处理系统中在本领域是常见的。即,这里描述的装置和/或处理中的至少一部分可以经由合理数量的实验集成到数据处理系统中。本领域技术人员将认识到,典型的数据处理系统通常包括系统单元外壳、视频显示装置、诸如易失性和非易失性存储器的存储器、诸如微处理器和数字信号处理器的处理器、诸如操作系统、驱动器、图形用户界面和应用的计算实体、诸如触摸板或屏幕的一个或更多个交互装置、和/或包括反馈回路和控制电机(例如感测位置和/或速度的反馈;移动和/或调节部件和/或数量的控制电机)的控制系统中的一个或更多个。典型的数据处理系统可以采用任何适当的商业可用部件(例如,那些通常出现在数据计算/通信和/或网络计算/通信系统中的可用部件)来实现。
图6是为扩展本体设置的计算装置600的例示性实施方式的框图。在非常基本的配置602中,计算装置600典型地包括一个或更多个处理器604和系统存储器606。存储器总线608可用于处理器604与系统存储器606之间的通信。
根据所期望的配置,处理器604可以是包括但不限于以下各项的任何类型:微处理器(μP)、微控制器(μC)、数字信号处理器(DSP)或其任何组合。处理器604可以包括一级或更多级缓存,诸如一级缓存612、处理器核614和寄存器616。示例性处理器核614可以包括算术逻辑单元(ALU)、浮点单元(FPU)、数字信号处理核(DSP核)或其任何组合。示例性存储器控制器618也可以与处理器604一起使用,或在某些实现方式中,存储器控制器618可以是处理器604的内部一部分。
根据期望的配置,系统存储器606可以是包括但不限于以下各项的任何类型:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或其任何组合。系统存储器606可以包括操作系统620、一个或更多个应用622和程序数据624。应用622可以包括被设置或配置为扩展本体的本体扩展应用626。程序数据624可以包括用于分析本体和/或扩展本体的扩展数据628。在一些实施方式中,应用622可以被设置为在操作系统620上利用程序数据624进行操作,使得生成扩展的本体。在图6中通过内部虚线内的那些部件示出了所述的基本配置602。
计算装置600可具有附加的特征或功能以及便于在基本配置602与任何需要的装置和接口之间进行通信的附加的接口。例如,总线/接口控制器630可以用于促进基本配置602与一个或更多个数据存储装置632之间经由存储装置接口总线634进行通信。数据存储装置632可以是可移除存储装置636、不可移除存储装置638或其组合。可移除存储装置和不可移除存储装置的示例包括诸如软盘驱动器和硬盘驱动器(HDD)这样的磁盘装置、诸如光盘(CD)驱动器或数字通用光盘(DVD)驱动器这样的光盘驱动器、固态硬盘(SSD)和磁带驱动器等。示例性计算机存储介质可以包括按照用于存储诸如计算机可读指令、数据结构、程序模块或其它数据这样的信息的任何方法或技术实现的易失性和非易失性介质、可移除和不可移除介质。
系统存储器606、可移除存储装置636和不可移除存储装置638是计算机存储介质的示例。计算机存储介质包括但不限于以下各项:RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用光盘(DVD)或其它光存储、卡式磁带、磁带、磁盘存储或其它磁性存储装置或者可用于存储期望的信息并且可被计算装置600访问的任何其它介质。任何这样的计算机存储介质可以是计算装置600的一部分。
计算装置600还可以包括接口总线640,用以促进经由总线/接口控制器630进行从各种接口装置(例如,输出装置642、外围接口644和通信装置646)到基本配置602的通信。示例性输出装置642包括图形处理单元648和音频处理单元650,其可以被配置为经由一个或更多个A/V端口652与诸如显示器或扬声器这样的各种外部装置进行通信。示例性外围接口644包括串行接口控制器654或并行接口控制器656,其可被配置为经由一个或更多个I/O端口658与诸如输入装置(例如,键盘、鼠标、笔、语音输入装置、触摸输入装置等)或其它外围装置(例如,打印机、扫描仪等)这样的外部装置进行通信。示例性通信装置646包括网络控制器660,其可以被布置为促进经由一个或更多个通信端口664通过网络通信链路与一个或更多个其它计算装置562进行通信。
网络通信链路可以是通信介质的一种示例。通信介质通常可以实现为计算机可读指令、数据结构、程序模块或在经调制的数据信号中的其它数据(诸如载波或其它传输机制),并且可以包括任何信息传输介质。“经调制的数据信号”可以是这样的信号,即,使其一个或更多个特性按照对该信号中的信息进行编码的方式来设置或改变。作为示例而非限制,通信介质可以包括:诸如有线网络或直接有线连接的有线介质;以及诸如声学、射频(RF)、微波、红外(IR)和其它无线介质这样的无线介质。这里使用的词项计算机可读介质可以包括存储介质和通信介质二者。
计算装置600可以被实现为小型的便携式(或移动)电子装置的一部分,诸如,蜂窝电话、个人数据助理(PDA)、个人媒体播放装置、无线网络收看装置、个人耳机装置、专用装置或者包括任何上述功能的混合装置。计算装置600也可以被实现为包括膝上型计算机和非膝上型计算机装置在内的个人计算机。
关于这里的实质上任意复数和/或单数词项的使用,为适于上下文和/或应用,本领域技术人员可以将复数转换为单数和/或将单数转换为复数。为了清楚起见,这里可以明确地阐述各种单数/复数置换。
这里所描述的主题通常示出了包含在不同的其它部件中的或与不同的其它部件相连接的不同的部件。应理解的是,所描述的这种架构仅是示例性的,并且实际上,可以实现获得了相同的功能的许多其它架构。在概念涵义上,用于实现相同功能的部件的任何配置都是有效地“关联”的,使得获得期望的功能。因此,不考虑架构或中间部件,可以将这里被组合以获得特定的功能的任何两个部件视为是彼此“相关联”的,使得期望的功能被实现。同样,如此相关联的任何两个部件也可以被视为彼此“可操作地连接”或“可操作地耦合”,以实现期望的功能,并且能够如此关联的任何两个部件也可以被视为彼此“可操作地可耦合”,以实现期望的功能。可操作地可耦合的具体示例包括但不限于物理上可连接和/或物理上交互的部件和/或可无线地交互和/或无线地交互的部件和/或逻辑上交互和/或可逻辑上交互的部件。
针对在这里基本上任何复数和/或单数词项的使用,本技术领域技术人员可以从复数转化为单数和/或从单数转化为复数以适合于上下文和/或应用。为了清楚起见,可以在此明确地阐述各种单数/复数的置换。
本领域技术人员将理解的是,一般来说,这里所使用的措辞,特别是在所附权利要求(例如,所附权利要求的主体)中使用的措辞,通常旨在是“开放式”措辞(例如,措辞“包括”应被理解为“包括但不限于”,措辞“具有”应被理解为“至少具有”,措辞“包含”应被理解为“包含但不限于”等)。本领域技术人员将进一步理解的是,如果所引入的权利要求记载中的特定的数目是有意图的,则这样的意图将在权利要求中明确地记载,并且在没有这样的记载时,不存在这样的意图。例如,作为对理解的辅助,下面所附的权利要求可以包含对“至少一个”和“一个或更多个”的引入性用语的使用,以引入权利要求记载。然而,即使当相同的权利要求包括引入性用语“一个或更多个”或者“至少一个”以及诸如“一”或“一个”的不定冠词(例如,“一”和/或“一个”应被解释为表示“至少一个”或“一个或更多个”)时,使用这样的用语也不应被解释为暗示由不定冠词“一”或“一个”所引入的权利要求记载将包含这种所引入的权利要求记载的任何特定的权利要求限制到仅包含一个这样的记载的实施方式;对于使用用于引入权利要求记载的定冠词来说也是如此。另外,即使明确地记载了所引入的权利要求记载的特定数目,本领域技术人员将理解的是,这样的记载也应该被理解为至少表示所记载的数目(例如,在没有其它修饰的情况下,“两个记载”的无修饰的记载表示至少两个记载或者两个或更多个记载)。此外,在使用与“A、B和C中的至少一个等”类似的常规表述的情况下,一般来说,这种结构旨在表示本领域技术人员将理解的该常规表述的含义(例如,“具有A、B和C中的至少一个的系统”将包括但不限于仅具有A的系统、仅具有B的系统、仅具有C的系统、具有A和B的系统、具有A和C的系统、具有B和C的系统和/或具有A、B和C的系统等)。在使用与“A、B或C中的至少一个等”类似的常规表述的情况下,一般来说,这种结构旨在表示本领域技术人员将理解的该常规表述的含义(例如,“具有A、B或C中的至少一个的系统”将包括但不限于仅具有A的系统、仅具有B的系统、仅具有C的系统、具有A和B的系统、具有A和C的系统、具有B和C的系统和/或具有A、B和C的系统等)。本领域技术人员将进一步理解的是,示出两个或更多个替代性措辞的几乎任何转折词和/或短语,无论是在说明书、权利要求或附图中,都应被理解为考虑可能包括措辞中的一个、措辞中任一个或全部措辞。例如,短语“A或B”将被理解为可能包括“A”或“B”或“A和B”。
此外,当本公开的特征或方面被描述为马库什(Markush)组合的措辞时,本领域技术人员将认识到,本公开因此还可按照该马库什组合中任意独立构件或构件的子组合来描述。
根据以上,将明白的是,这里为了说明的目的已经描述了本公开的各种实施方式,并且在不脱离本公开的范围和精神的情况下,可以进行各种修改。因此,这里公开的各种实施方式不是限制性的,本发明真正的范围和精神由下面的权利要求来指示。

Claims (17)

1.一种用于扩展本体的方法,该方法包括以下步骤:
标识所述本体,所述本体包括多个词项,所述多个词项包括概念词项和作用词项;
利用词汇数据库对所述本体中的所述词项进行消歧,以标识附加涵义;以及
利用所述附加涵义来扩展所述本体,
其中,对所述本体中的所述词项进行消歧的步骤还包括以下步骤:标识针对所述多个词项中的每一个的词项涵义,
其中,标识针对所述多个词项中的每一个的词项涵义的步骤还包括以下步骤:标识针对所述多个词项中的每一个的上下文,
该方法还包括以下步骤:从所述词汇数据库确定多个涵义集合,其中,各个涵义集合包括至少一个元素,
其中,所述多个涵义集合包括以下项中的一个或更多个:
上位词涵义集合;
下位词涵义集合;
整体词涵义集合;
部分词涵义集合;
方式词涵义集合;
分词涵义集合;或者
词根形容词涵义集合,并且
该方法还包括以下步骤:标识所述本体中的各个词项与所述多个涵义集合中的各个元素之间的关联性分数,其中,将所述多个涵义集合中的关联性分数超过预定关联性分数的元素包括在所述附加涵义中,
确定针对各个词项的注释,其中,所述注释和所述关联性分数被用于扩张所述本体。
2.根据权利要求1所述的方法,其中,标识所述本体的步骤还包括以下步骤:标识所述本体的一部分。
3.根据权利要求1所述的方法,其中,标识针对所述多个词项中的每一个的词项涵义的步骤还包括以下步骤:标识针对所述多个词项中的每一个的最近词集合。
4.根据权利要求1所述的方法,其中,利用所述词项的涵义来确定各个关联性分数,以提供针对所述多个涵义集合中的所述元素的上下文。
5.根据权利要求1所述的方法,其中,将各个附加涵义添加到所述本体作为超类、子类或等同类。
6.一种用于扩展本体的方法,该方法包括以下步骤:
标识针对所述本体中的各个词项的上下文;
利用各个词项的所述上下文确定针对各个词项的词项涵义;
至少利用多个涵义集合和所述上下文来对各个词项的所述词项涵义进行消歧,以标识附加涵义;以及
利用所述附加涵义来扩展所述本体,
其中,所述多个涵义集合包括以下项中的一个或更多个:
上位词涵义集合;
下位词涵义集合;
整体词涵义集合;
部分词涵义集合;
方式词涵义集合;
分词涵义集合;或者
词根形容词涵义集合,
该方法还包括以下步骤:
针对所述多个涵义集合中的至少一些涵义集合中的至少一些元素确定关联性分数;
标识所述多个涵义集合中的关联性分数超过阈值的第一元素,并将所述第一元素添加到所述本体;以及
确定针对各个词项的注释,其中,所述注释和所述关联性分数被用于扩张所述本体。
7.根据权利要求6所述的方法,其中,标识针对所述本体中的各个词项的上下文的步骤包括:当标识针对所述本体中的一个词项的上下文时,所述本体中的除了该一个词项之外的其它词项提供该一个词项的上下文。
8.根据权利要求6所述的方法,该方法还包括以下步骤:将所述第一元素添加到所述本体,以生成扩展的本体。
9.根据权利要求8所述的方法,其中,所述第一元素被添加到所述本体作为以下项中的一个:相关联的词项涵义的超类;相关联的词项涵义的子类;或者相关联的词项涵义的等同类。
10.一种用于从本体生成扩展的本体的系统,该系统包括:
词汇数据库,该词汇数据库在一个或更多个涵义集合中存储多个元素,各个元素包括词项涵义;
消歧部件,该消歧部件利用所述词汇数据库中的所述一个或更多个涵义集合来扩展所述本体以生成经扩展的本体,其中,所述消歧部件确定针对所述本体中的各个词项涵义的上下文,并且确定所述本体中的各个词项与所述一个或更多个涵义集合中的各个元素之间的关联性分数,其中,所述消歧部件通过添加所述一个或更多个涵义集合中的关联性分数超过阈值关联性分数的元素来生成所述扩展的本体,其中,该消歧部件还确定针对各个词项涵义的注释,
其中,所述一个或更多个涵义集合包括以下项中的一个或更多个:
上位词涵义集合;
下位词涵义集合;
整体词涵义集合;
部分词涵义集合;
方式词涵义集合;
分词涵义集合;或者
词根形容词涵义集合。
11.根据权利要求10所述的系统,其中,所述消歧部件利用所述本体中的所述词项涵义的上下文来确定所述关联性分数,其中,当所述消歧部件确定针对所述本体中的一个词项的上下文时,通过所述本体中的除了该一个词项之外的其它词项涵义来提供该一个词项的上下文。
12.根据权利要求10所述的系统,其中,所述消歧部件添加关联性分数超过所述阈值关联性分数的各个元素作为超类、子类或等同类中的一个。
13.根据权利要求10所述的系统,其中,所述消歧部件在没有人为帮助的情况下自动地生成所述扩展的本体。
14.一种用于扩张本体的方法,该方法包括以下步骤:
标识本体以进行扩张;
对所述本体进行消歧以生成经消歧的本体;
扩张所述经消歧的本体以生成扩张的本体;以及
提炼所述扩张的本体,
其中,对所述本体进行消歧以生成经消歧的本体的步骤包括以下步骤:
向所述本体中的各个词项分配涵义集合;以及
确定所述本体中的各个词项与所述涵义集合中的词之间的关联性,其中,所述涵义集合中的具有关联性的词被用于标识针对所述本体中的各个词项的词项涵义,
其中,扩张所述经消歧的本体以生成扩张的本体的步骤还包括以下步骤:
利用关联来扩张所述经消歧的本体;以及
利用注释来扩张所述经消歧的本体。
15.根据权利要求14所述的方法,其中,
利用关联来扩张所述经消歧的本体的步骤包括以下步骤:
确定针对各个词项涵义的类似涵义集合,并且基于各个类似涵义集合来向所述扩张的本体添加新的词项涵义;以及
将类似的词项涵义包括到所述扩张的本体中,其中,包括在所述扩张的本体中的词项涵义具有大于预定值的关联性分数。
16.根据权利要求14所述的方法,其中,提炼所述本体的步骤还包括以下步骤:
合并所述扩张的本体中的相同的词项涵义;以及
推断词项涵义之间的关系,其中,所述关系被作为关联添加到所述扩张的本体中,所述关联包括超类、子类或等同类中的一个。
17.根据权利要求14所述的方法,其中,对所述本体进行消歧以生成经消歧的本体的步骤还包括以下步骤:
从所述本体中的词项生成消歧候选;
确定针对各个候选的关联性分数,其中,至少具有最佳关联性分数的候选是所述本体中的所述词项的期望的涵义。
CN201180068468.9A 2011-02-25 2011-02-25 本体扩展 Expired - Fee Related CN103392177B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2011/071298 WO2012113150A1 (en) 2011-02-25 2011-02-25 Ontology expansion

Publications (2)

Publication Number Publication Date
CN103392177A CN103392177A (zh) 2013-11-13
CN103392177B true CN103392177B (zh) 2018-01-05

Family

ID=46720095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180068468.9A Expired - Fee Related CN103392177B (zh) 2011-02-25 2011-02-25 本体扩展

Country Status (4)

Country Link
US (1) US8566363B2 (zh)
JP (1) JP5730413B2 (zh)
CN (1) CN103392177B (zh)
WO (1) WO2012113150A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8798988B1 (en) * 2006-10-24 2014-08-05 Google Inc. Identifying related terms in different languages
KR20130059195A (ko) * 2011-11-28 2013-06-05 삼성전자주식회사 Assertion 관리방법 및 장치, 그를 포함하는 추론장치
US20140280008A1 (en) * 2013-03-15 2014-09-18 International Business Machines Corporation Axiomatic Approach for Entity Attribution in Unstructured Data
KR101786987B1 (ko) * 2013-04-19 2017-10-18 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 추론화 태스크를 위한 조잡한 시맨틱 데이터 세트 개선
US20150199607A1 (en) * 2013-05-31 2015-07-16 Empire Technology Development Llc Incremental reasoning based on scalable and dynamical semantic data
USD802609S1 (en) 2013-06-04 2017-11-14 Abbyy Production Llc Display screen with graphical user interface
USD805535S1 (en) 2013-06-04 2017-12-19 Abbyy Production Llc Display screen or portion thereof with a transitional graphical user interface
KR101488356B1 (ko) * 2013-11-08 2015-02-02 아주대학교산학협력단 개념 구조 기반으로 재구조화된 온톨로지를 생성하는 장치 및 방법
RU2665239C2 (ru) 2014-01-15 2018-08-28 Общество с ограниченной ответственностью "Аби Продакшн" Автоматическое извлечение именованных сущностей из текста
RU2596599C2 (ru) 2015-02-03 2016-09-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Система и способ создания и использования пользовательских онтологических моделей для обработки пользовательского текста на естественном языке
RU2592396C1 (ru) 2015-02-03 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система для машинного извлечения и интерпретации текстовой информации
RU2610241C2 (ru) 2015-03-19 2017-02-08 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов
US10157220B2 (en) 2015-07-23 2018-12-18 International Business Machines Corporation Context sensitive query expansion
US10878191B2 (en) * 2016-05-10 2020-12-29 Nuance Communications, Inc. Iterative ontology discovery
US10572576B1 (en) * 2017-04-06 2020-02-25 Palantir Technologies Inc. Systems and methods for facilitating data object extraction from unstructured documents
US10803108B2 (en) * 2017-12-20 2020-10-13 International Business Machines Corporation Facilitation of domain and client-specific application program interface recommendations
CN110377700A (zh) * 2019-07-01 2019-10-25 厦门美域中央信息科技有限公司 一种专业知识语义检索系统
US11093690B1 (en) 2019-07-22 2021-08-17 Palantir Technologies Inc. Synchronization and tagging of image and text data
US20220253473A1 (en) * 2021-02-05 2022-08-11 Mercari, Inc. Machine generated ontology

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1774713A (zh) * 2002-03-12 2006-05-17 威乐提公司 使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法、系统和计算机程序
CN1877566A (zh) * 2005-06-09 2006-12-13 国际商业机器公司 基于现有本体产生新概念的系统和方法
KR20090080823A (ko) * 2008-01-22 2009-07-27 주식회사 케이티프리텔 Ims 기반 유무선 복합망에서의 지능형 웹 검색 서비스제공 방법 및 장치
CN101819583A (zh) * 2009-02-26 2010-09-01 富士通株式会社 针对自动化本体生成领域语料库和字典
CN101944099A (zh) * 2010-06-24 2011-01-12 西北工业大学 一种使用本体进行文本文档自动分类的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080172360A1 (en) * 2007-01-17 2008-07-17 Lipyeow Lim Querying data and an associated ontology in a database management system
JP5392077B2 (ja) * 2007-05-31 2014-01-22 日本電気株式会社 オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム
US9081852B2 (en) * 2007-10-05 2015-07-14 Fujitsu Limited Recommending terms to specify ontology space
US8332434B2 (en) * 2009-09-30 2012-12-11 Business Objects Software Limited Method and system for finding appropriate semantic web ontology terms from words

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1774713A (zh) * 2002-03-12 2006-05-17 威乐提公司 使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法、系统和计算机程序
CN1877566A (zh) * 2005-06-09 2006-12-13 国际商业机器公司 基于现有本体产生新概念的系统和方法
KR20090080823A (ko) * 2008-01-22 2009-07-27 주식회사 케이티프리텔 Ims 기반 유무선 복합망에서의 지능형 웹 검색 서비스제공 방법 및 장치
CN101819583A (zh) * 2009-02-26 2010-09-01 富士通株式会社 针对自动化本体生成领域语料库和字典
CN101944099A (zh) * 2010-06-24 2011-01-12 西北工业大学 一种使用本体进行文本文档自动分类的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"一种汉语词义消歧方法的研究";但汉辉;《中国优秀硕士学位论文全文数据库 信息科技辑》;20091215(第12期);第I138-964页 *

Also Published As

Publication number Publication date
JP5730413B2 (ja) 2015-06-10
CN103392177A (zh) 2013-11-13
US20120278363A1 (en) 2012-11-01
US8566363B2 (en) 2013-10-22
JP2014506702A (ja) 2014-03-17
WO2012113150A1 (en) 2012-08-30

Similar Documents

Publication Publication Date Title
CN103392177B (zh) 本体扩展
Ray ChatGPT: A comprehensive review on background, applications, key challenges, bias, ethics, limitations and future scope
Bos et al. The groningen meaning bank
Mohit Named entity recognition
Whitelock Shake-and-bake translation
Song Word order
US20150100524A1 (en) Smart selection of text spans
CN109670029A (zh) 用于确定问题答案的方法、装置、计算机设备及存储介质
JP6862895B2 (ja) テキスト感情検出
US9734238B2 (en) Context based passage retreival and scoring in a question answering system
Han Machine translation evaluation resources and methods: A survey
Şahin To augment or not to augment? A comparative study on text augmentation techniques for low-resource NLP
Yıldırım et al. Mastering Transformers: Build state-of-the-art models from scratch with advanced natural language processing techniques
Wang et al. Improving skip-gram embeddings using BERT
Wang et al. Data set and evaluation of automated construction of financial knowledge graph
Alqahtani et al. Emotion analysis of Arabic tweets: Language models and available resources
Rizou et al. Efficient intent classification and entity recognition for university administrative services employing deep learning models
Chauhan et al. A mixed unsupervised method for aspect extraction using BERT
Liu et al. Evaluating semantic rationality of a sentence: A sememe-word-matching neural network based on hownet
Balodis et al. Intent detection system based on word embeddings
Bonial et al. Current directions in english and arabic propbank
Bialy et al. Single Arabic document summarization using natural language processing technique
Zhou et al. Chinese word sense embedding with sememewsd and synonym set
Ulčar et al. Training dataset and dictionary sizes matter in bert models: the case of baltic languages
Adamu et al. A framework for enhancing the retrieval of UML diagrams

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180105

Termination date: 20200225