CN1591416A

CN1591416A - 中文本体库自动建构系统及方法以及储存媒体

Info

Publication number: CN1591416A
Application number: CN 03156068
Authority: CN
Inventors: 高苑芳; 李健兴; 郭耀煌; 蒙以亨
Original assignee: Institute for Information Industry
Current assignee: Institute for Information Industry
Priority date: 2003-08-29
Filing date: 2003-08-29
Publication date: 2005-03-09

Abstract

一种中文本体库自动建构系统及方法，包含一句断处理单元以及一本体库产生单元。句断处理单元用以接收一中文词串流中所包含的多个中文词以及其词性，由其中文词得到多个强二词顺序组合，每一个强二词顺序组合包含存在于多个中文词中具前后紧邻关连的一第一中文词与一第二中文词，并且此强二词顺序组合出现于该中文词串流的次数大于一第一最小支持度。本体库产生单元，耦接于句断处理单元，用以接收多个强二词顺序组合，依据强二词顺序组合中第一中文词所对应的第一概念以及第二中文词所对应的词性，得第一概念的属性或操作。

Description

中文本体库自动建构系统及方法以及储存媒体

技术领域

此发明是一种本体库自动建构系统及方法，特别是一种中文本体库自动建构系统及方法。

背景技术

本体库(ontology)是一种描述物与物之间关联的概念架构，为一可由计算机所分享与理解的知识表达规格(specification)，图1是表示习知技术的本体库架构示意图。资源描述架构(resource descriptiveframework；RDF)以及由因特网论坛(W3C)所提出之DAML+OIL标准为目前实际应用的两个重大标准。在此架构中包含了几个主要的元素，领域11、类别12、概念131、属性132、操作133、关系R1、R2、R3。领域11代表本体库所要描述的特定领域，每个领域11中又可分为多个类别12，存在本体库中的概念13会包含概念名称131、属性132和操作133。关系可分成三种，关连(association)R1、概括(generalization)R2与组合(aggregation)R3。关联R1就是一般表示概念13间的语意关连，概括R2是一种抽象层次不同的阶层式关系，越上层的概念越抽象，组合R3是一种群组关联，用以表示概念的集合关系。

一个建构完善的本体库通常可被搜寻引擎、知识管理、电子商务等应用软件所运用，用以增加搜寻的效率，或增进文件处理能力。目前有几个常见英文本体库，例如Wordnet、Cyc，以及中文本体库，例如知网(Hownet)，可被使用者下载与使用。

目前，有几个已经建立好的本体库可以使用，如Wordnet、Cyc、知网，但是，其所建立的因为领域的关系，其所提供的概念13、属性132、操作133、关系R1、R2、R3不见得可完全满足使用者的需求，因为使用本体库的应用系统所需要的本体库，大多需要会因领域不同而有所不同，因此，各应用系统必须要自行发展各自的本体库才能满足其需要。

传统上，建构本体库的方法为人工建构，使用大量的人力去构想一领域中所有的概念13、属性132、操作133、关系R1、R2、R3。利用此方式建构本体库存在有若干缺点，首先，其耗费大量人力，再者，当使用两人以上建构本体库时，常会因为个人观点不同，需要花费大量的时间进行讨论，消弭歧异，最后，由于知识的演进日新月异，单使用人工来建构本体库，常会因为更新速度慢，以致于无法满足应用系统当下的需要。

为避免上述缺点，另外一种可行的建构方法是使用大量文件来建构雏型本体库(简称为本体库自动建构技术)，再辅以专业人士进行修改，从而建构出一可用的本体库，可减少使用人力并可更有效率地更新本体库。

在英文本体库自动建构技术上，大多使用一英文文法剖析器(grammarparser)由大量文件中萃取出概念13、属性132、操作133、关系R1、R2、R3，进而建构一本体库。然而，由于中文文法规则复杂，且缺乏一个正确性高的中文文法剖析器，因此，在中文本体库自动建构技术上，并不能够直接套用一文法剖析器来自动建构本体库。因此，需要一系统与方法来自动建构中文本体库。

发明内容

本发明的目的为提供一种中文本体库自动建构系统及方法，除可用以自动建构本体库外，亦可减少人力使用并可更有效率地更新本体库。

依据上述目的，本发明的中文本体库自动建构系统及方法，首先设置一文件、中文字典、文件处理单元、概念处理单元、句断处理单元、本体库产生单元以及本体库。

文件处理单元，用以输入至少一份文件，找出文件中所包含有意义的名词以及动词，成为一中文词串流，此串流包含多个具顺序性的中文词及其词性。概念处理单元输入由文件处理单元所得到的名词，分析任两名词间的关系强度，将属于同一概念的实体丛集(cluster)在一起。句断处理单元用以输入由文件处理单元所得到的中文词串流，产生多个句断(episode)，一个句断为在一句断词量(window size)下的多个词的顺序性组合。本体库产生单元在输入由句断处理单元所产生的句断集合后，会将每一句断与概念处理单元所产生的概念进行比对，若句断中的词是某个概念的实体，则在其后标注上概念名称。在进行完概念标注后，本体库产生单元会利用句型基模(pattern)规则，从上述已标注概念名称的句断中，撷取出属性、操作与关联。本体库产生单元在撷取出属性、操作与关联之后，据以建构出一个领域本体库。

附图说明

图1是表示习知技术的本体库架构示意图；

图2是为表示依据本发明实施例的中文本体库自动建构系统的系统示意图；

图3a、3b、3c是表示依据本发明实施例的范例数据示意图；

图4是表示依据本发明实施例的句断处理算法示意图；

图5a是表示依据本发明实施例的中文动词词性示意图；

图5b是表示依据本发明实施例的中文名词词性示意图；

图6是表示依据本发明实施例的本体库架构示意图；

图7是表示依据本发明实施例的中文本体库自动建构方法的方法流程图；

图8是表示依据本发明实施例的中文本体库自动建构方法的计算机可读取储存媒体示意图。

符号说明：

11～领域

12～类别

13～概念

131～概念名称

132～属性

133～操作

21～文件

22～中文字典

23～文件处理单元

24～概念处理单元

25～句断处理单元

26～本体库产生单元

27～本体库

511、512、...、515～中文动词词性

521、522、...、531～中文名词词性

80～储存媒体

820～中文本体库自动建构计算机程序

821～断词及标注词性逻辑

822～删除无意义词逻辑

823～丛集概念逻辑

824～建构句断逻辑

825～标注实体逻辑

826～撷取属性及操作以及关连逻辑

827～产生本体库逻辑

具体实施方式

图2是为表示依据本发明实施例的中文本体库自动建构系统的系统示意图。

依据本发明实施例的中文本体库自动建构系统2包括文件21、中文字典22、文件处理单元23、概念处理单元24、句断处理单元25、本体库产生单元26以及本体库27。

文件21是为中文本体库自动建构系统的输入数据，为电子中文文件，档案格式可为Word、HTML、Power Point或其它可用以储存中文文件的电子格式。

中文字典22系统电子中文字典，包含多个中文词，每一个中文辞包含至少一个中文字。

图3a、3b、3c是表示依据本发明实施例的范例数据示意图。文件处理单元23用以输入至少一份文件21，找出文件中所包含有意义的名词以及动词。首先，使用中央研究院所(Academia Sinica)提出中文断词系统(CKIP)进行中文句子的断词并词性标注，之后，辅以无义字筛选(stopword filter)方法来找出有意义的名词及动词。以下以实际数据说明上述处理，设存在一段文字为“阿根廷战神马拉度纳以一记「上帝之手」使阿根廷击败英格兰。”。文件处理单元23使用中文断词系统进行中文句子的断词并词性标注后，如图3a所示，此句子会被切分成“阿根廷”、“战神”、“马拉度纳”等14个词，每个词之后会以一括号描述其词性，以N为首的代表名词，以V为首代表动词，P代表介词，PARENTHESISCATEGORY代表括号，PERIODCATEGORY代表句号。文件处理单元23接着依据上述的词与词性，使用无义字筛选(stop word filter)方法，留下限定型态的名词及动词，例如，Na、Nb、Nc、Vc等词性的词，如图3b所示，成为一中文词串流。

概念处理单元24会输入由文件处理单元23所得到的名词，先选取词频(term frequency)乘以文件频率倒数(inverse document frequency)较高的名词，接着，使用类神经网络技术中的非监督式学习的自我聚类(self organization map，SOM)模式，分析任两名词间的关系强度，将属于同一概念的实体(instance)聚在一起。

句断处理单元25用以输入由文件处理单元23所得到的中文词串流，得到多个句断(episode)。一个句断为在一句断词量(window size)下的多个词的顺序性组合，如图3c所示，其中包含两个句断词量为3的两个句断，包括“阿根廷(Nc)_战神(Na)_马拉度纳(Nb)”以及“阿根廷(Nc)_击败(Vc)_英格兰(Nc)”。

图4是表示依据本发明实施例的句断处理算法示意图，此图中包含400到420的伪码。算法中所需的变量、参数及数据结构说明如下：

(1)WindowSize称为句断词量，为算法的输入参数，限定每一句断所包含的词数；

(2)minimum-support称为最小支持量，为算法的输入参数，限定每一句断的最少出现次数；

(3)υ<t₁，t₂，...，t_k>为一数据结构是用以记录t₁，t₂，...，t_k的词顺序组合(term sequence)出现于哪些句子(sentence)中。

(4)υ<t₁，t₂，...，t_k>.cardinality变量是用以记录t₁，t₂，...，t_k的词顺序组合一共出现几次。

(5)t_i.position变量是用以记录t_i在句子中出现的位置。

由于此算法的复杂度很高加上数据量很庞大，所以所需的时间复杂度也很高，为了加快算法执行的效能，在第一次读取数据时，会将每一词出现过的句子编号(sen tence_num)，记录于υ<t_i>中，如401所示，可防止后续计算时，需要重新扫描所有的句子。若υ<t₁，t₂，...，t_k>.cardinality大于最小支持量(minimum_support)，则此词为一强单词，必须纪录到强单词(large-1-sequence)集合中，如402所示。接下来，依据强单词集合所包含的所有单词进行两两排列组合，如403所示，候选双词顺序组合中的任一双词顺序组合<t_a，t_b>必须满足t_b出现在t_a之后，且t_a与t_b的间距不超过句断词量(WindowSize)。当候选双词顺序组合中的υ<t₁，t₂，...，t_k>.cardinality大于最小支持量，则此候选双词顺序组合会纪录到强双词顺序(large-2-sequence)集合中，如406所示。当找出强双词顺序(large-2-sequence)集合，接下来要找强k词顺序(large-k-sequence)集合，皆依据强双词顺序集合来找，而每个强k词顺序集合的最小支持量都可利用υ<t₁，t₂，...，t_k-1>∩υ<t_k-1，t_k>的方式求得。

算法会一直找下去，直到没有新的强k词顺序，最后将被包含于其它顺序集合中的强k词顺序删除，遗留下的强k词顺序就是我们所要找的句断(episode)。依建构本体库的需要，只需找到强三词顺序(large-3-sequence)集合就足够了，因为含有两个或三个词的强词顺序(large-sequence)集合就足够包含要建构本体库所需的信息。

一般而言，经常一起出现的词代表该等词在语意上有关连性，以简单的中文文法举例来说，可于句子中找出“主词+动词+受词”或“主词+动词+补语”等简单的句型关连。但就本发明而言，并非希望利用文法的句型关连来自动建构本体库，而希望能由大量的文件中，大体上会透过“实体-属性-属性值(instance-attribute-value)”、“实体-关连-实体(concept-association-concept)”或“实体-操作(instance-operation)”等形式的基模(pattern)，由上述所得到的句断(episode)的顺序关系，找出本体库中的属性、操作与关连。

在进行完概念标注后，本体库产生单元26会利用以下的句型基模规则，从上述已标注概念名称的句断中，撷取出属性、操作与关联。图5a是表示依据本发明实施例的中文动词词性示意图，包含511到515的动词词性。图5b是表示依据本发明实施例的中文名词词性示意图，包含521到531的名词词性。

属性132的撷取规则有三，(1)句断的句断词量为2；(2)句断中的第一个词为一实体(instance)；(3)句断中的第二个词的中文词性标注为个体名词522、可属抽象名词523、抽象名词524、集合名词525、普通地方名词528或状态不及物述词514。例如：一句断为“巴西(Nca|球队)，球风(Nad)”，可撷取出“球风”是“巴西”的属性。

操作133的撷取规则有三，(1)句断的句断词量为2；(2)句断中的第一个词为一实体(instance)；(3)句断中的第二个词的中文词性标注为动作不及物述词511。例如：一句断为“巴西(Nca|球队)，夺标(VA)”，可撷取出“夺标”是“巴西”的操作。

关联R3的撷取规则有三，(1)句断的句断词量为3；(2)句断中的第一个词与第三个词为一实体(instance)；(3)句断中的第二个词的中文词性标注为及物动词(VB、VC、VD、VE、VF)512、状态及物动词(VI、VJ、VK、VL)515、个体名词522、可属抽象名词523、抽象名词524、集合名词525或普通地方名词528。例如：一句断为“巴西(Nca|球队)，赢得(VJ3)，冠军(Nad|奖项)”，可撷取出“赢得”是“巴西”与“冠军”间的关连。

本体库产生单元26在撷取出属性132、操作133与关联R3之后就可以使用描述本体库之标准规格，诸如RDF、DAML+OIL，建构出一个领域本体库。图6是表示依据本发明实施例的本体库架构示意图，此本体库依据2002世界杯足球赛相关新闻440篇经本发明建构而得。

图7是表示依据本发明实施例的中文本体库自动建构方法的方法流程图。

首先，如步骤S71，输入至少一份文件21，使用中文断词系统(CKIP)进行中文句子断词并词性标注。如步骤S72，使用无义字筛选(stop wordfilter)方法，删除步骤S71所产生的无意义的词，例如，标点符号、补语等，留下限定型态的名词及动词。

之后，如步骤S73，输入经步骤s72所得到的名词，先选取词频(termfrequency)乘以文件频率倒数(inverse document frequency)较高的名词，接着，使用类神经网络技术中的非监督式学习的自我聚类(selforganization map，SOM)模式，分析任两名词间的关系强度，将属于同一概念的实体(instance)聚在一起。

如步骤S74所示，输入由步骤S72所得到的词及其词性，产生多个句断(episode)，其算法如图4所示。一个句断为在一句断词量(window size)下的多个词的顺序性组合，如图3c所示，其中包含两个句断词量为3的两个句断，包括“阿根廷(Nc)_战神(Na)_马拉度纳(Nb)”以及“阿根廷(Nc)_击败(Vc)_英格兰(Nc)”。接下来，如步骤S75所示，输入由步骤S74所产生的句断集合，将每一句断与步骤S73所产生的概念进行比对，若句断中的词是某个概念的实体，则在其后标注上概念名称。

如步骤S76所示，使用上述的属性、操作与关连句型基模规则，从上述已标注概念名称的句断中，撷取出可用来建构本体库的属性132、操作133与关联R3。最后，如步骤S77，整合步骤S76所产生的实体、属性132、操作133与关联R3之后，就可以使用描述本体库之标准规格，诸如RDF、DAML+OIL，建构领域本体库。

再者，本发明提出一种计算机可读取储存媒体，用以储存一计算机程序，上述计算机程序用以实现中文本体库自动建构方法，此方法会执行如上所述的步骤。

图8是表示依据本发明实施例的中文本体库自动建构方法的计算机可读取储存媒体示意图。此储存媒体80，用以储存一计算机程序820，用以实现中文本体库自动建构方法。其计算机程序包含七个逻辑，分别为断词及标注词性逻辑821、删除无意义词逻辑822、丛集概念逻辑823、建构句断逻辑824、标注实体逻辑825、撷取属性及操作以及关连逻辑826与产生本体库逻辑827。

因此，借由本发明所提供的中文本体库自动建构系统及方法，除可用以自动建构本体库外，亦可减少人力使用并可更有效率地更新本体库。

Claims

1.一种中文本体库自动建构系统，适用于输入一中文词串流，上述中文词串流包含具顺序性的复数中文词以及相应于每一上述中文词的一词性，用以产生一中文本体库，包括：

一句断处理单元，用以接收上述中文词串流，上述中文词串流包含具顺序性的上述中文词以及相应于每一上述中文词的上述词性，从上述中文词串流中检索出存在于上述中文词中复数具前后紧邻关连的一第一中文词与一第二中文词，计算上述具前后紧邻关连的上述第一中文词与上述第二中文词出现于上述中文词串流的次数或比率，判断上述具前后紧邻关连的上述第一中文词与上述第二中文词出现于上述中文词串流的次数或比率是否大于一第一最小支持度，若是，则将上述具前后紧邻关连的上述第一中文词与上述第二中文词标记为一强双词顺序组合，上述第一最小支持度为整数或比率中之一；以及

一本体库产生单元，耦接于该句断处理单元，用以接收上述强双词顺序组合，依据每一上述强双词顺序组合中的上述第一中文词所相应的一第一概念以及每一上述强二词顺序组合中的上述第二中文词所相应的上述词性，得到相应于上述第一概念的一属性或一操作，依据上述第一概念的上述属性或上述操作，建立上述中文本体库。

2.根据权利要求1所述的中文本体库自动建构系统，其中上述本体库产生单元中，若上述强双词顺序组合中的上述第一中文词为相应于上述第一概念的一第一实体以及上述强双词顺序组合中的上述第二中文词的上述词性为一名词或一状态不及物述词，则上述第二中文词为相应上述第一概念的上述属性。

3.根据权利要求2所述的中文本体库自动建构系统，其中上述本体库产生单元中，上述名词为一物质名词、一可属抽象名词、一抽象名词、一集合名词或一普通地方名词。

4.根据权利要求1所述的中文本体库自动建构系统，其中上述本体库产生单元中，若上述强双词顺序组合中的上述第一中文词为相应于上述第一概念的一第一实体以及上述强双词顺序组合中的上述第二中文词的上述词性为一动作不及物述词，则上述第二中文词为相应于上述第一概念的上述操作。

5.根据权利要求1所述的中文本体库自动建构系统，其中上述句断处理单元，从上述中文词串流中检索出存在于上述中文词中复数具前后紧邻关连的一第三中文词、一第四中文词以及一第五中文词，计算上述具前后紧邻关连的上述第三中文词、上述第四中文词以及上述第五中文词出现于上述中文词串流的次数或比率，判断上述具前后紧邻关连的上述第三中文词、上述第四中文词以及上述第五中文词出现于上述中文词串流的次数或比率是否大于一第二最小支持度，若是，则将上述具前后紧邻关连的上述第三中文词、上述第四中文词以及上述第五中文词标记为一强三词顺序组合，上述第二最小支持度为整数或比率中之一。

6.根据权利要求5所述的中文本体库自动建构系统，其中上述本体库产生单元中，接收上述强三词顺序组合，依据上述强三词顺序组合中上述第三中文词所相应的一第二概念，上述强三词顺序组合中上述第五中文词所相应的一第三概念，以及上述强三词顺序组合中上述第四中文词所相应的一词性，得到相应于上述第二概念以及上述第三概念的一关连。

7.根据权利要求6所述的中文本体库自动建构系统，其中上述本体库产生单元中，若上述强三词顺序组合中的上述第三中文词为相应于上述第二概念的一第二实体，上述强三词顺序组合的上述第五中文词为相应于上述第三概念的一第三实体，以及上述强三词顺序组合的上述第四中文词的上述词性为一动作及物述词，则上述第四中文词为相应于上述第二概念以及上述第三概念之间的上述关连。

8.根据权利要求6所述的中文本体库自动建构系统，其中上述本体库产生单元中，输入相应于上述第二概念以及上述第三概念的上述关连，建立上述中文本体库。

9.一种中文本体库自动建构方法，适用于输入一中文词串流，上述中文词串流包含具顺序性的复数中文词以及相应于每一上述中文词的一词性，用以产生一中文本体库，其方法包括下列步骤：

接收上述中文词串流，上述中文词串流包含具顺序性的上述中文词以及相应于每一上述中文词的上述词性；

从上述中文词串流中检索出存在于上述中文词中复数具前后紧邻关连的一第一中文词与一第二中文词；

计算上述具前后紧邻关连的上述第一中文词与上述第二中文词出现于上述中文词串流的次数或比率；

判断上述具前后紧邻关连的上述第一中文词与上述第二中文词出现于上述中文词串流的次数或比率是否大于一第一最小支持度，若是，则将上述具前后紧邻关连的上述第一中文词与上述第二中文词标记为一强双词顺序组合，上述第一最小支持度为整数或比率中之一；

依据每一上述强双词顺序组合中上述第一中文词所相应的一第一概念以及上述强双词顺序组合中上述第二中文词所相应的上述词性，得到相应于上述第一概念的一属性或一操作；以及

依据相应于上述第一概念的上述属性或上述操作，建立上述中文本体库。

10.根据权利要求9所述的中文本体库自动建构方法，于得到相应于上述第一概念的上述属性或上述操作步骤中，若上述强双词顺序组合的上述第一中文词为相应于上述第一概念的一第一实体以及上述强二词顺序组合的上述第二中文词的上述词性为一名词或一状态不及物述词，则上述第二中文词为相应于上述第一概念的上述属性。

11.根据权利要求10所述的中文本体库自动建构方法，其中上述名词为一物质名词、一可属抽象名词、一抽象名词、一集合名词或一普通地方名词。

12.根据权利要求9所述的中文本体库自动建构方法，于得到相应于上述第一概念的上述属性或上述操作步骤中，若上述强双词顺序组合中的上述第一中文词为相应于上述第一概念的一第一实体以及上述强双词顺序组合的上述第二中文词的上述词性为一动作不及物述词，则上述第二中文词为相应于上述第一概念的上述操作。

13.根据权利要求9所述的中文本体库自动建构方法，更包括下列步骤：

从上述中文词串流中检索出存在于上述中文词中复数具前后紧邻关连的一第三中文词、一第四中文词以及一第五中文词；

计算上述具前后紧邻关连的上述第三中文词、上述第四中文词以及上述第五中文词出现于上述中文词串流的次数或比率；以及

判断上述具前后紧邻关连的上述第三中文词、上述第四中文词以及上述第五中文词出现于上述中文词串流的次数或比率是否大于一第二最小支持度，若是，则将上述具前后紧邻关连的上述第三中文词、上述第四中文词以及上述第五中文词标记为一强三词顺序组合，上述第二最小支持度为整数或比率中之一。

14.根据权利要求13所述的中文本体库自动建构方法，更包括下列步骤：

接收上述强三词顺序组合，依据上述强三词顺序组合中上述第三中文词所相应的一第二概念，上述强三词顺序组合中上述第五中文词所相应的一第三概念，以及上述强三词顺序组合中上述第四中文词所相应的一词性，得到相应于上述第二概念以及上述第三概念的一关连。

15.根据权利要求14所述的中文本体库自动建构方法，于得到相应于上述第二概念以及上述第三概念的上述关连步骤中，若上述强三词顺序组合的上述第三中文词为相应于上述第二概念的一第二实体，上述强三词顺序组合的上述第五中文词为相应于上述第三概念的一第三实体，以及上述强三词顺序组合的上述第四中文词的上述词性为一动作及物述词，则上述第四中文词为相应于上述第二概念以及上述第三概念之间的上述关连。

16.根据权利要求14所述的中文本体库自动建构方法，更包括下列步骤：

输入相应于上述第二概念以及上述第三概念的上述关连，建立上述中文本体库。

17.一种计算机可读取储存媒体，其特征在于所述可读取储存媒体用以储存一计算机程序，该计算机程序用以加载至一计算机系统中并且使得该计算机系统执行如权利要求9至16中任一者所述的方法。