CN106446162A

CN106446162A - 一种面向领域的本体知识库文本检索方法

Info

Publication number: CN106446162A
Application number: CN201610848223.2A
Authority: CN
Inventors: 李莹; 林博; 黄杨; 尹建伟; 邓水光; 吴健; 吴朝晖
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2016-09-26
Filing date: 2016-09-26
Publication date: 2017-02-22

Abstract

本发明公开了一种面向领域的本体知识库文本检索方法，该方法根据对应领域所涉及的专业术语建立一个领域词库；对领域词库采用中文字典树的结构进行索引；获取用户输入的查询文本，根据领域词库，对查询文本进行分词和过滤，得到查询核心；对查询核心进行关键词转换，得到知识需求；根据知识需求，在本体知识库中检索对应的知识信息。本发明通过为对应领域知识信息建立一个领域词库，根据这个领域词库和一系列算法对用户所描述的文本进行解析，从而得到的用户的知识需求，并在本体知识库中获取相应知识信息，提高了检索质量。

Description

一种面向领域的本体知识库文本检索方法

技术领域

本发明属于信息技术领域，具体涉及一种面向领域的本体知识库文本检索方法。

背景技术

知识库是针对特定领域的问题，将知识片段相互联系并求解问题的相对独立的程序实体。在此之上，本体知识库利用本体的特点来描述知识之间的内在联系，解决了信息共享时的语义问题，使得计算机可以理解和利用知识，来提供语义级别的知识服务。

虽然本体知识库能很好的表示知识，但如何理解用户的需求并提供相应的知识服务却是一个问题。现有的技术通常根据用户输入的关键字，在知识库中匹配相关内容并返回，这种情况往往要求用户对自身需求进行明确分析并抽象出相应的关键字，而无法直接针对描述用户需求的文本进行直接检索，因此检索质量较差。

发明内容

鉴于上述，本发明提供了一种面向领域的本体知识库文本检索方法，用以解决现有技术中直接对文本检索质量较差的问题。

一种面向领域的本体知识库文本检索方法，包括如下步骤：

(1)对于任一领域，根据该领域的本体知识库以及该领域所涉及的专业术语建立领域词库；

(2)采用中文字典树对所述领域词库进行索引；

(3)获取用户输入的查询文本，根据领域词库对查询文本进行分词和过滤，得到查询核心；

(4)对查询核心中的模糊词进行替换，进而在所述本体知识库中检索出与知识需求中各词语对应的知识信息，并展现提供给用户。

所述步骤(1)中建立领域词库的过程如下：

1.1对该领域本体知识库中包含的所有知识信息进行词汇抽取，得到该领域的知识词库；

1.2采集该领域所涉及的专业术语，得到该领域的术语词库；

1.3获取已开源的至少一个公共词库；

1.4集成所述的知识词库、术语词库和公共词库并去除重复部分，得到所述的领域词库。

所述步骤(2)中对领域词库进行索引，即先要建立中文字典树，进而通过中文字典树的索引结构映射至领域词库的物理存储地址。

建立中文字典树即采用传统字典树的构建方式，区别在于：需预先设定一个存储阈值，在创建节点时对应建立容量为所述存储阈值的索引数组；当节点的链接数大于存储阈值时，则将所述索引数组替换为关联数组，并复制索引数组中的内容至所述关联数组中。

所述索引数组中内容的查找采用折半查找法，所述关联数组中内容的查找采用映射法。

所述步骤(3)中对查询文本进行分词和过滤，具体过程如下：

3.1初始查找起始位置和查找终止位置均为查询文本的第一个字；

3.2执行一次扩展查找：移动所述查找终止位置至当前位置的下一个字，将查找起始位置至查找终止位置之间的词语与中文字典树进行配对，若配对成功则将该词语加入至分词备选集，并再次执行扩展查找；若配对失败则执行步骤3.3；

3.3移动所述查找起始位置至当前位置的下一个字，重置所述查找终止位置为当前的查找起始位置，并返回执行步骤3.2，直至查找起始位置移动到查询文本的最后一个字；

3.4根据在知识词库中的出现频次、词长以及词长与分词备选集平均词长的差值大小，对分词备选集中的所有词语进行三级过滤，得到所述查询核心。

所述步骤3.4的具体实现方法为：根据以下公式计算分词备选集中每个词语的综合指标Q，取综合指标Q最高的若干词语组成所述查询核心；

Q＝α₁F+α₂D-α₃ΔD

其中，对于分词备选集中的任一词语，F为该词语在知识词库中的出现频次，D为该词语的词长，ΔD为该词语词长与分词备选集平均词长的差值大小，α₁～α₃均为预设的权重系数。

所述步骤(4)中对查询核心中的模糊词进行替换的具体方法为：对于查询核心中的任一模糊词，计算该模糊词与知识词库中每个词的匹配度，使知识词库中与该模糊词匹配度最高的词替换掉该模糊词；所述的模糊词为属于查询核心中的词语但不属于知识词库中的词。

所述匹配度的计算公式如下：

其中：c表示知识词库中的任一个词，k表示查询核心中的任一模糊词，Match(c，k)为c与k的匹配度，ComLen(c，k)为c与k的最长公共连续子串所包含的字符个数，Len(c)为c包含的字符个数，Len(k)为k包含的字符个数。

本发明文本检索方法通过为对应领域知识信息建立一个领域词库，根据这个领域词库和一系列算法对用户所描述的文本进行解析，从而得到的用户的知识需求，并在本体知识库中获取相应知识信息，提高了检索质量。

附图说明

图1为本发明文本检索方法的步骤流程示意图。

图2为本发明文本检索方法中的领域词库的构建流程示意图。

图3为本发明文本检索方法实现装置的结构示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

本发明本体知识库文本检索方法的主要流程涉及用户与系统之间的交互，其中系统部分主要提供对应领域的本体知识库和文本检索方法，并向外部提供访问入口，用户可以通过任意能访问系统的设备进行连接并检索。如图1所示，该文本检索方法的具体流程包括：

(1)输入查询内容，用户通过设备连接系统并输入描述知识需求的文本后向系统提交检索请求。

(2)文本分词，在领域词库所映射的字典树中，对查询文本的所有子串逐个匹配，得到分词备选集，其中包括完全匹配结果与部分匹配结果，完全匹配结果中的每个词都能映射到领域词库中的某个词，部分匹配结果中的每个词都能映射到领域词库中某个词的子串。

(3)分词结果过滤，根据在本体知识库中出现的频次，词自身路径跨度大小和词长与平均词长的差值大小，对分词备选集中的所有词进行三级过滤，得到查询核心。

(4)关键词转换，把模糊词与本体知识库中的每个词两两计算匹配度，选取匹配度最高的词替换模糊词，模糊词为在查询核心中出现但是没有在本体知识库中出现的词，把处理后的查询核心包含的所有词作为知识需求，知识需求中的每个词都能映射到对应领域的本体知识库中的一个本体、实例或属性。

(5)信息查询，根据知识需求，在本体知识库中检索对应的知识信息。

(6)展示结果，向用户返回检索出的相关知识信息，并询问用户是否需要继续查询，如果需要继续查询则重复上述步骤，否则完成所有检索步骤并断开连接。

在用户访问系统之前，系统管理员应当启动系统，让系统载入已构建的领域词库并建立一个中文字典树对领域词库进行索引。

图2为领域词库建立流程，该流程主要涉及系统管理员对领域词库的建立以或更新，具体包括：

1.载入开源词库，如果系统管理员选择创建领域词库，系统首先会载入预收集的开源词库。

2.提取知识库关键字，如果当前系统不存在知识词库，系统会首先访问本体知识库并把其中的本体、实例和属性的关键词提取出来，并生成知识词库。

3.载入知识词库，系统载入已生成的知识词库。

4.载入术语词库，系统载入预收集的对应领域的专业术语词库。

5.生成领域词库，系统集成开源词库、知识词库和术语词库，过滤重复单词后形成领域词库。

6.更新本体知识库，如果系统管理员选择更新词库，系统首先根据新提供的本体知识库替换已有的本体知识库，然后再次执行提取知识库关键字以及后续步骤。

结合图1和图2的详细流程，本实施例提供了面向高血压诊断预防领域本体知识库文本检索方法的实现装置，通过为高血压诊断预防领域知识信息建立一个领域词库，根据这个领域词库和一系列算法对用户所描述的文本进行解析，从而得到的用户的知识需求，并在本体知识库中获取相应知识信息，提高了检索质量。该领域本体知识库包括：血压分级概念中的本体对血压概念中的多个本体的关联关系、危险因素概念中的本体对个人状态概念中的多个本体的关联关系、干预措施概念中的本体对膳食推荐概念或生活习惯概念中的多个本体的关联关系。如图3所示，该实现装置具体包括：本体构建模块、概念关联模块、词库模块、获取模块、分词模块、查询模块，其中：

本体构建模块用于创建对应领域中的基本概念、基本属性和实例，对应领域中的基本概念包括多个本体，基本属性包括对象属性和数据属性。

概念关联模块用于根据基本属性，构建本体之间和本体与实例之间的关联关系。

词库模块用于根据对应领域所涉及的专业术语建立一个领域词库；具体的，对本体知识库中包含的所有知识信息进行抽取，得到对应领域的知识词库；采集对应领域所涉及的专业术语，得到对应领域的术语词库；采集已开源的公共词库，公共词库的数量至少为一个；集成知识词库、术语词库和公共词库并去除重复部分，得到领域词库。

索引模块用于对领域词库采用中文字典树的结构进行索引；具体的，通过中文字典树的索引结构映射到领域词库的物理存储地址，加快检索过程；为中文字典树设定一个节点存储阈值，中文字典树在创建节点时建立一个容量为节点存储阈值的索引数组，当节点的链接数大于节点存储阈值时，索引数组被替换为关联数组，并复制索引数组的内容到关联数组中，剩余构建过程采用传统字典树的构建方式，索引数组中元素的查找采用折半查找法，关联数组中元素的查找采用映射法。

获取模块用于获取用户输入的查询文本，查询文本包括关键词、语句和任意形式的文本。

分词模块用于根据领域词库，对查询文本进行分词和过滤，得到查询核心；具体的，建立查找起始位置和查找终止位置，查找起始位置和查找终止位置的初始值均为查询文本的第一个字；执行一次扩展查找，每次扩展查找为移动查找终止位置至当前位置的下一个字，将查找起始位置到查找终止位置之间的语句与中文字典树配对，把配对成功的语句加入分词备选集，重复这一过程直至配对第一次失败；移动查找起始位置至当前位置的下一个字，重置查找终止位置为当前查找起始位置，执行一次扩展查找，重复这一过程直至查找起始位置移动到查询文本的最后一个字；分词备选集包含完全匹配结果与部分匹配结果，完全匹配结果中的每个词都能映射到领域词库中的某个词，部分匹配结果中的每个词都能映射到领域词库中某个词的子串；根据在知识词库中出现的频次，词自身路径跨度大小和词长与平均词长的差值大小，对分词备选集中的所有词进行三级过滤，得到查询核心。

转换模块用于根据本体知识库，对查询核心进行关键词转换，得到知识需求；具体的，关键词转换是把模糊词与知识词库中的每个词两两计算匹配度，选取匹配度最高的词替换模糊词，模糊词为在查询核心中出现但是没有在知识词库中出现的词；匹配度的计算公式为其中c为知识词库中的某个词，k为模糊词，ComLen(c，k)为c和k的最长公共子串所包含字符的个数，Len(c)为c包含字符的个数，Len(k)为k包含字符的个数，Max函数的输出为两个实数的较大者；把处理后的查询核心包含的所有词添加到知识需求，知识需求中的每个词都能映射到对应领域的本体知识库中的一个本体、实例或属性。

查询模块用于根据知识需求，在本体知识库中检索对应的知识信息。

在上述模块中，本体构建模块和概念关联模块可以组成一个独立的子模块，其作用为生成一个对应领域的本体知识库，作为后续模块的输入；该子模块为所提供的装置中不可缺少的一部分，但后续模块的输入也可以用已有的本体知识库替换。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种面向领域的本体知识库文本检索方法，包括如下步骤：

(2)采用中文字典树对所述领域词库进行索引；

2.根据权利要求1所述的本体知识库文本检索方法，其特征在于：所述步骤(1)中建立领域词库的过程如下：

1.2采集该领域所涉及的专业术语，得到该领域的术语词库；

1.3获取已开源的至少一个公共词库；

3.根据权利要求1所述的本体知识库文本检索方法，其特征在于：所述步骤(2)中对领域词库进行索引，即先要建立中文字典树，进而通过中文字典树的索引结构映射至领域词库的物理存储地址。

4.根据权利要求3所述的本体知识库文本检索方法，其特征在于：建立中文字典树即采用传统字典树的构建方式，区别在于：需预先设定一个存储阈值，在创建节点时对应建立容量为所述存储阈值的索引数组；当节点的链接数大于存储阈值时，则将所述索引数组替换为关联数组，并复制索引数组中的内容至所述关联数组中。

5.根据权利要求4所述的本体知识库文本检索方法，其特征在于：所述索引数组中内容的查找采用折半查找法，所述关联数组中内容的查找采用映射法。

6.根据权利要求2所述的本体知识库文本检索方法，其特征在于：所述步骤(3)中对查询文本进行分词和过滤，具体过程如下：

7.根据权利要求6所述的本体知识库文本检索方法，其特征在于：所述步骤3.4的具体实现方法为：根据以下公式计算分词备选集中每个词语的综合指标Q，取综合指标Q最高的若干词语组成所述查询核心；

Q＝α₁F+α₂D-α₃ΔD

8.根据权利要求2所述的本体知识库文本检索方法，其特征在于：所述步骤(4)中对查询核心中的模糊词进行替换的具体方法为：对于查询核心中的任一模糊词，计算该模糊词与知识词库中每个词的匹配度，使知识词库中与该模糊词匹配度最高的词替换掉该模糊词；所述的模糊词为属于查询核心中的词语但不属于知识词库中的词。

9.根据权利要求8所述的本体知识库文本检索方法，其特征在于：所述匹配度的计算公式如下：

M a t c h (c, k) = \frac{C o m L e n (c, k)}{M a x (L e n (c), L e n (k))}