CN107783957B

CN107783957B - 本体创建方法和装置

Info

Publication number: CN107783957B
Application number: CN201610767282.7A
Authority: CN
Inventors: 封顺天; 周开宇; 云亮; 冯明
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2016-08-30
Filing date: 2016-08-30
Publication date: 2021-05-18
Anticipated expiration: 2036-08-30
Also published as: CN107783957A

Abstract

本发明公开了一种本体创建方法和装置，涉及数据处理领域。其中的本体创建方法包括：对文本数据进行分词处理；标记各个分词的词序和词性；按照词序从文本数据中依次提取第一描述词的预设词性对应的词语作为第一描述词、提取关系词的词性对应的词语作为关系词以及提取第二描述词的词性对应的词语作为第二描述词，采用提取的第一描述词、关系词和第二描述词形成三元组；根据提取的若干三元组形成本体。通过基于标记词序和词性的文本数据提取三元组并创建本体，能够考虑文本数据中上下文之间的关系，使提取的三元组中的词语之间关联性更强，层次性更好，提高了本体的准确性和可用性。

Description

本体创建方法和装置

技术领域

本发明涉及数据处理领域，特别涉及一种本体创建方法和装置。

背景技术

目前，物联网设备的互通仅通过开放系统API(Application ProgrammingInterface，应用程序编程接口)的方式实现，尚无统一的标准。

本体近年来已被应用于物联网领域，通过对领域概念和关系的语义化表示，一方面实现了领域概念的规范化标识，另一方面全面地描述了本领域内知识，为计算机理解提供了基础。

然而，在现有的本体创建过程中，针对文本数据进行知识提取时存在忽略上下文内容的问题，造成本体中词语之间的关联度低，本体的可用性差。

发明内容

本发明实施例所要解决的一个技术问题是：提供一种能够加强本体中词语关联度的本体创建方法。

根据本发明实施例的一个方面，提供一种本体创建方法，包括：对文本数据进行分词处理；标记各个分词的词序和词性；按照词序从文本数据中依次提取第一描述词的预设词性对应的词语作为第一描述词、提取关系词的词性对应的词语作为关系词以及提取第二描述词的词性对应的词语作为第二描述词，采用提取的第一描述词、关系词和第二描述词形成三元组；根据提取的若干三元组形成本体。

在一个实施例中，按照词序从文本数据中依次提取第一描述词的预设词性对应的词语作为第一描述词、提取关系词的词性对应的词语作为关系词以及提取第二描述词的词性对应的词语作为第二描述词，采用提取的第一描述词、关系词和第二描述词形成三元组包括：按照词序寻找首个符合第一描述词的预设词性的词语，作为三元组的第一描述词；从第一描述词对应的词语在文本数据中的位置开始，按照词序寻找首个符合关系词的预设词性的词语，作为三元组的关系词；从关系词对应的词语在文本数据中的位置开始，按照词序寻找首个符合第二描述词的预设词性的词语，作为三元组的第二描述词。

在一个实施例中，采用最短路径分词法对文本数据进行分词。

在一个实施例中，在采用提取的若干三元组形成本体之前，方法还包括：根据词库中具有相近意义的词语和标准词的对应关系，将三元组中的词语替换为标准词。

在一个实施例中，方法还包括：从结构化数据中提取元素作为第一描述词、提取元素的属性作为关系词以及提取元素的属性值作为第二描述词，采用提取的第一描述词、关系词和第二描述词形成三元组；采用从文本数据中提取的三元组和从结构化数据中提取的三元组形成本体。

在一个实施例中，根据提取的若干三元组形成本体包括：将具有相同描述词的不同三元组进行融合，形成采用关系词连接描述词的本体片段；将具有相同描述词的本体片段进行融合，形成本体；其中，描述词包括第一描述词和/或第二描述词。在一个实施例中，文本数据为与物联网系统相关联的文本数据，本体为物联网本体。

根据本发明实施例的另一个方面，提供一种本体创建装置，包括：分词模块，用于对文本数据进行分词处理；词语标记模块，用于标记各个分词的词序和词性；文本数据三元组形成模块，用于按照词序从文本数据中依次提取第一描述词的预设词性对应的词语作为第一描述词、提取关系词的词性对应的词语作为关系词以及提取第二描述词的词性对应的词语作为第二描述词，采用提取的第一描述词、关系词和第二描述词形成三元组；本体形成模块，用于根据提取的若干三元组形成本体。

在一个实施例中，文本数据三元组形成模块包括：第一描述词提取单元，用于按照词序寻找首个符合第一描述词的预设词性的词语，作为三元组的第一描述词；关系词提取单元，用于从第一描述词对应的词语在文本数据中的位置开始，按照词序寻找首个符合关系词的预设词性的词语，作为三元组的关系词；第二描述词提取单元，用于从关系词对应的词语在文本数据中的位置开始，按照词序寻找首个符合第二描述词的预设词性的词语，作为三元组的第二描述词。

在一个实施例中，分词模块进一步用于采用最短路径分词法对文本数据进行分词。

在一个实施例中，装置还包括：标准化模块，用于根据词库中具有相近意义的词语和标准词的对应关系，将三元组中的词语替换为标准词。

在一个实施例中，装置还包括：结构化数据三元组提取模块，用于从结构化数据中提取元素作为第一描述词、提取元素的属性作为关系词以及提取元素的属性值作为第二描述词，采用提取的第一描述词、关系词和第二描述词形成三元组；本体形成模块进一步用于采用从文本数据中提取的三元组和从结构化数据中提取的三元组形成本体。

在一个实施例中，本体形成模块包括：三元组融合单元，用于将具有相同描述词的不同三元组进行融合，形成采用关系词连接描述词的本体片段；本体片段融合单元，用于将具有相同描述词的本体片段进行融合，形成本体；其中，描述词包括第一描述词和/或第二描述词。

在一个实施例中，文本数据为与物联网系统相关联的文本数据，本体为物联网本体。

本发明通过基于标记词序和词性的文本数据提取三元组并创建本体，能够考虑文本数据中上下文之间的关系，使提取的三元组中的词语之间关联性更强，层次性更好，提高了本体的准确性和可用性。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A为本发明本体创建方法一个实施例的流程图。

图1B为融合三元组所产生的本体片段的示意图。

图2为本发明本体创建方法另一个实施例的流程图。

图3为本发明本体创建装置一个实施例的结构图。

图4为本发明本体创建装置另一个实施例的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明中，本体为一种信息系统的概念，是指构成相关领域词汇的基本术语和关系，以及利用这些术语和关系构成的规定这些词汇外延的规则的定义。

图1A为本发明本体创建方法一个实施例的流程图。如图1所示，该实施例的方法包括：

步骤S102，对文本数据进行分词处理。

其中，文本数据可以为市场分析文档、产品介绍文档等。

分词是指将文本数据中的汉字序列切分成为若干单独的词。

分词处理可以采用多种方法。例如，可以采用逐词遍历的方法，即将词典中的所有词按由长到短的顺序在文本数据中逐个搜索,直至文本数据的末尾；还可以采用基于词频统计的分词方法，即将文本数据中任意两个字同时出现的频率进行统计，频率越高，则这两个字是一个词的可能性越大。

优选地，本发明可以采用最短路径分词法。最短路径分词法旨在对于给定的文本数据，找出包含的词语数量最少的分词结果。

例如，“开启智能电表”的分词结果可以为“开启/智能电表”、“开启/智能/电表”或者“开启/智能/电/表”。然而对于物联网领域，“智能电表”是一种常用的、并且具有特定含义的表述，如果被拆解为“开启/智能/电/表”，其中的“电”和“表”无法反映出语句的原义。

通过采用最短路径分词法，可以避免分词的结果粒度过细，能够使本体中的词语更准确、可用性更强。

步骤S104，标记各个分词的词序和词性。

对于一段独立的文本数据，可以按照文本数据的起始位置到结尾的顺序，依次标记词语。

标记的词性可以包括名词、动词、形容词等等。由于本体中包含的是领域内的基本术语和关系，因此，部分助词、符号的意义并不大，可以考虑删除，以减少计算的复杂度以及本体的冗余。

步骤S106，按照词序从文本数据中依次提取第一描述词的预设词性对应的词语、关系词的词性对应的词语和第二描述词的词性对应的词语，获得由第一描述词、关系词和第二描述词组成的三元组。

三元组由第一描述词、关系词和第二描述词构成，其中，关系词用于表示第一描述词和第二描述词之间的关系。例如，三元组为“{智能电表，采集，当前电压}”，“采集”即表明“智能电表”和“当前电压”之间的关系。

一般地，第一描述词和第二描述词为名词，关系词为动词。根据需要，也可以设定其他词性。

形成三元组的一个实施例为：首先，按照词序寻找首个符合第一描述词的预设词性的词语，作为三元组的第一描述词；然后，从第一描述词对应的词语在文本数据中的位置开始，按照词序寻找首个符合关系词的预设词性的词语，作为三元组的关系词；最后，从关系词对应的词语在文本数据中的位置开始，按照词序寻找首个符合第二描述词的预设词性的词语，作为三元组的第二描述词。

例如，对于文本数据“在楼宇中部署智能电表，用于采集当前电压”。忽略无意义的“在”、“中”和“用于”，如果三元组中，第一描述词、关系词和第二描述词分别为名词、动词和名词，则从文本数据的起始位置开始，首次出现的符合上述提取规则的三元组为{楼宇，部署，智能电表}；再从“智能电表”开始，提取出的三元组为{智能电表，采集，当前电压}。以此类推。

按照词序提取的方式能够参考词语之间的上下文关系，进一步使三元组中的三个词语具有紧密的关系，从而令创建出的本体更准确。

可以按照步骤S106的方法逐步提取若干三元组。在若干三元组中，可能包含具有相近或相同含义的词语，例如冰箱和冰柜，风扇和电风扇等等。

在这种情况下，可以根据词库中具有相近意义的词语和标准词的对应关系，将三元组中的词语替换为标准词。从而，可以对本体进行精简，减少冗余。

步骤S108，根据提取的若干三元组形成本体。

可以将三元组导入已有的本体创建系统，形成本体，也可以采用手动建立本体的方式。

采用三元组建立本体的一个实施例为：首先，将具有相同描述词的不同三元组进行融合，形成采用关系词连接描述词的本体片段；然后，将具有相同描述词的本体片段进行融合，形成本体；其中，描述词包括第一描述词和/或第二描述词。

例如，有以下三元组：{楼宇系统，包括，智能家庭}，{智能家庭，包括，智能电表}，{智能家庭，包括，智能水表}，{智能家庭，包括，新风系统}，{智能电表，包括，电压}，则上述三元组融合形成的本体片段可以如图1B所示。

提取三元组的文本数据可以是与物联网相关的文本数据，例如物联网设备产品介绍、物联网系统说明，或者是部署物联网设备的场所的说明文档，例如施工报告等等。从而，根据此类文本数据，可以生成适用于物联网领域的本体。

通过基于标记词序和词性的文本数据提取三元组并创建本体，能够考虑文本数据中上下文之间的关系，使提取的三元组中的词语之间关联性更强，层次性更好，提高了本体的准确性和可用性。

除了文本数据外，提取三元组的数据源还可以为结构化数据。下面结合图2描述本发明另一个实施例的本体创建方法。

图2为本发明本体创建方法另一个实施例的流程图。如图2所示，除了步骤S102～S106以外，该实施例的方法还包括：

步骤S206，从结构化数据中提取元素作为第一描述词、提取元素的属性作为关系词以及提取元素的属性值作为第二描述词，采用提取的第一描述词、关系词和第二描述词形成三元组。

结构化数据是指具有一定构成规则的数据，例如数据库文件、XML(ExtensibleMarkup Language，可扩展标记语言)文件、系统API文档等等。

结构化数据往往由多个元素组成，每个元素具有元素的固有属性，或者包括下一层级的元素。在本实施例中，将元素的固有属性和元素包含的下一层级的元素同城为元素的属性。

以下述XML文件片段为例：<title color＝"red">管理平台<section>楼宇系统</section></title>。“color”(颜色)为“管理平台”的固有属性，值为“red”(红色)，“楼宇系统”为“管理平台”的子元素。因此，可以提取下述两个三元组：{管理平台，color，red}以及{管理平台，包括，楼宇系统}。

以数据库文件为例。设数据表Y为数据表X的子表，数据表X的示例如表1所示，数据表Y的示例如表2所示。

表1

位置[主键]	单位	……
			7层	A公司	……
7层	B公司	……
			8层	C公司	……
……	……	……

表2

从而，可以生成三元组{7层，包含，A公司}、{7层，包含，B公司}和{8层，包含，C公司}等等。

步骤S208，采用从文本数据中提取的三元组和从结构化数据中提取的三元组形成本体。

通过采用上述方法，可以结合结构化数据和非结构化的文本数据共同生成本体，使本体的数据源更广泛，创建的本体更全面。

下面结合图3描述本发明一个实施例的本体创建装置。

图3为本发明本体创建装置一个实施例的结构图。如图3所示，该实施例的装置包括：分词模块32，用于对文本数据进行分词处理；词语标记模块34，用于标记各个分词的词序和词性；文本数据三元组形成模块36，用于按照词序从文本数据中依次提取第一描述词的预设词性对应的词语作为第一描述词、提取关系词的词性对应的词语作为关系词以及提取第二描述词的词性对应的词语作为第二描述词，采用提取的第一描述词、关系词和第二描述词形成三元组；本体形成模块38，用于根据提取的若干三元组形成本体。

其中，文本数据可以为与物联网系统相关联的文本数据，本体为物联网本体。

其中，分词模块32可以进一步用于采用最短路径分词法对文本数据进行分词。

下面结合图4描述本发明另一个实施例的本体创建装置。

图4为本发明本体创建装置另一个实施例的结构图。如图4所示，该实施例的文本数据三元组形成模块36包括：第一描述词提取单元462，用于按照词序寻找首个符合第一描述词的预设词性的词语，作为三元组的第一描述词；关系词提取单元464，用于从第一描述词对应的词语在文本数据中的位置开始，按照词序寻找首个符合关系词的预设词性的词语，作为三元组的关系词；第二描述词提取单元466，用于从关系词对应的词语在文本数据中的位置开始，按照词序寻找首个符合第二描述词的预设词性的词语，作为三元组的第二描述词。

其中，本体形成模块38可以包括：三元组融合单元482，用于将具有相同描述词的不同三元组进行融合，形成采用关系词连接描述词的本体片段；本体片段融合单元484，用于将具有相同描述词的本体片段进行融合，形成本体；其中，描述词包括第一描述词和/或第二描述词。

此外，装置还可以包括：标准化模块47，用于根据词库中具有相近意义的词语和标准词的对应关系，将三元组中的词语替换为标准词。

此外，装置还可以包括：结构化数据三元组提取模块46，用于从结构化数据中提取元素作为第一描述词、提取元素的属性作为关系词以及提取元素的属性值作为第二描述词，采用提取的第一描述词、关系词和第二描述词形成三元组；本体形成模块38进一步用于采用从文本数据中提取的三元组和从结构化数据中提取的三元组形成本体。

本领域内的技术人员应当明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种本体创建方法，其特征在于，包括：

对文本数据进行分词处理；

标记各个分词的词序和词性；

按照词序从所述文本数据中依次提取第一描述词的预设词性对应的词语作为第一描述词、提取关系词的词性对应的词语作为关系词以及提取第二描述词的词性对应的词语作为第二描述词，采用提取的第一描述词、关系词和第二描述词形成三元组，包括：

按照词序寻找首个符合第一描述词的预设词性的词语，作为三元组的第一描述词；

从第一描述词对应的词语在文本数据中的位置开始，按照词序寻找首个符合关系词的预设词性的词语，作为三元组的关系词；

以及，

从关系词对应的词语在文本数据中的位置开始，按照词序寻找首个符合第二描述词的预设词性的词语，作为三元组的第二描述词；以及

根据提取的若干三元组形成本体。

2.根据权利要求1所述的方法，其特征在于，采用最短路径分词法对文本数据进行分词。

3.根据权利要求1所述的方法，其特征在于，在采用提取的若干三元组形成本体之前，所述方法还包括：

根据词库中具有相近意义的词语和标准词的对应关系，将三元组中的词语替换为标准词。

4.根据权利要求1所述的方法，其特征在于，还包括：

从结构化数据中提取元素作为第一描述词、提取所述元素的属性作为关系词以及提取所述元素的属性值作为第二描述词，采用提取的第一描述词、关系词和第二描述词形成三元组；

采用从文本数据中提取的三元组和从结构化数据中提取的三元组形成本体。

5.根据权利要求1所述的方法，其特征在于，所述根据提取的若干三元组形成本体包括：

将具有相同描述词的不同三元组进行融合，形成采用关系词连接描述词的本体片段；

将具有相同描述词的本体片段进行融合，形成本体；

其中，所述描述词包括第一描述词和/或第二描述词。

6.根据权利要求1所述的方法，其特征在于，所述文本数据为与物联网系统相关联的文本数据，所述本体为物联网本体。

7.一种本体创建装置，其特征在于，包括：

分词模块，用于对文本数据进行分词处理；

词语标记模块，用于标记各个分词的词序和词性；

文本数据三元组形成模块，用于按照词序从所述文本数据中依次提取第一描述词的预设词性对应的词语作为第一描述词、提取关系词的词性对应的词语作为关系词以及提取第二描述词的词性对应的词语作为第二描述词，采用提取的第一描述词、关系词和第二描述词形成三元组，其中，所述文本数据三元组形成模块包括：

第一描述词提取单元，用于按照词序寻找首个符合第一描述词的预设词性的词语，作为三元组的第一描述词；

关系词提取单元，用于从第一描述词对应的词语在文本数据中的位置开始，按照词序寻找首个符合关系词的预设词性的词语，作为三元组的关系词；以及

第二描述词提取单元，用于从关系词对应的词语在文本数据中的位置开始，按照词序寻找首个符合第二描述词的预设词性的词语，作为三元组的第二描述词；以及

本体形成模块，用于根据提取的若干三元组形成本体。

8.根据权利要求7所述的装置，其特征在于，所述分词模块进一步用于采用最短路径分词法对文本数据进行分词。

9.根据权利要求7所述的装置，其特征在于，还包括：

标准化模块，用于根据词库中具有相近意义的词语和标准词的对应关系，将三元组中的词语替换为标准词。

10.根据权利要求7所述的装置，其特征在于，还包括：

结构化数据三元组提取模块，用于从结构化数据中提取元素作为第一描述词、提取所述元素的属性作为关系词以及提取所述元素的属性值作为第二描述词，采用提取的第一描述词、关系词和第二描述词形成三元组；

所述本体形成模块进一步用于采用从文本数据中提取的三元组和从结构化数据中提取的三元组形成本体。

11.根据权利要求7所述的装置，其特征在于，所述本体形成模块包括：

三元组融合单元，用于将具有相同描述词的不同三元组进行融合，形成采用关系词连接描述词的本体片段；

本体片段融合单元，用于将具有相同描述词的本体片段进行融合，形成本体；

其中，所述描述词包括第一描述词和/或第二描述词。

12.根据权利要求7所述的装置，其特征在于，所述文本数据为与物联网系统相关联的文本数据，所述本体为物联网本体。