CN112100396A

CN112100396A - 一种数据处理方法和装置

Info

Publication number: CN112100396A
Application number: CN202010884964.2A
Authority: CN
Inventors: 杨帆; 刘岩
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-12-18
Anticipated expiration: 2040-08-28
Also published as: CN112100396B

Abstract

本发明公开了数据处理方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括通过外部存储器和外部存储器接口获取领域文件文本，生成文件文本集合，以将文件文本中的词添加到词列表中，计算每个词的权重，提取关键词，进而调用聚类引擎，计算得到类别主题，根据所述类别主题构建主题实体以形成主题子图谱；根据领域文件在数据库中的数据表，构建信息子图谱；调用外部存储器接口，获取预设的通用知识图谱，根据关键词生成概念子图谱；将主题子图谱、信息子图谱、概念子图谱进行融合，生成领域知识图谱并通过系统接口输出。从而，本发明的实施方式能够解决现有领域知识图谱构建效率低、成本高的问题。

Description

一种数据处理方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据处理方法和装置。

背景技术

领域知识图谱服务对象是领域相关人员，具有很强的针对性和专业性，在图谱质量方面的要求较高。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

与通用知识图谱不同，领域知识图谱因为使用价值高，构建成本高，需要定制化，很少领域有开源的领域知识图谱，一般都依赖于使用者自行构建，缺乏统一构建方法。目前领域知识图谱的自动构建大多数基于结构化数据库，根据数据库现有的数据批量产生实体和实体间关系。对于数据库外的非结构化知识，则重度依赖专家参与，进行规则梳理和手动添加等工作，易出错漏，效率较低，成本较高。

发明内容

有鉴于此，本发明实施例提供一种数据处理方法和装置，能够解决现有领域知识图谱构建效率低、成本高的问题。

为实现上述目的，根据本发明实施例的一个方面，提供了一种数据处理方法，应用于包括处理器的计算平台中，包括：通过外部存储器和外部存储器接口获取领域文件文本，生成文件文本集合，以将文件文本中的词添加到词列表中，计算每个词的权重并从大到小排序，根据所述排序提取预设数量的词作为关键词，进而调用聚类引擎，计算得到类别主题，根据所述类别主题构建主题实体以形成主题子图谱；根据领域文件在已有数据库中的数据表，通过查询语言抽取结构化数据，构建信息子图谱；调用外部存储器接口，获取预设的通用知识图谱，根据所述关键词从中抽取相关实体及所述实体对应的上下位关系数据，生成概念子图谱；将所述的主题子图谱、所述信息子图谱以及所述概念子图谱进行融合，生成领域知识图谱并通过系统接口输出，以供不同角色用户查阅和获取相应数据。

可选地，将文件文本中的词添加到词列表中，计算每个词的权重并从大到小排序，根据所述排序提取预设数量的词作为关键词，进而调用聚类引擎，计算得到类别主题，根据所述类别主题构建主题实体以形成主题子图谱，包括：

获取文件文本，将文件文本中的词添加到词列表中并去重，调用统计引擎计算每个词的权重并从大到小排序，根据所述排序提取预设数量的词作为关键词，将词列表权重向量作为关键词的文本特征向量；

调用聚类引擎，采用无监督聚类算法，对文件文本进行聚类，以从每个聚类中的各个文本特征向量为依据，提取每个聚类的主题词；

对各个聚类后的文件文本再聚类，以从子类别中的各个文本特征向量为依据，获取二级主题词；

创建文件实体和二级主题实体，进而构建二级主题实体到文件实体的包含关系；

创建一级主题实体，进而构建一级主题实体到二级主题实体的包含关系；

将文件实体、二级主题实体以及一级主题实体，二级主题实体到文件实体的包含关系和一级主题实体到二级主题实体的包含关系转换为图数据库要求的格式，存入图数据库；通过图数据库操作语言进行图谱的节点和逻辑的整体校验，得到主题子图谱。

可选地，根据领域文件在已有数据库中的数据表，通过查询语言抽取的结构化数据，构建信息子图谱，包括：

获取领域文件在已有数据库中的数据表，通过查询语言抽取相应数据；

调用预设的图谱数据模型，将所述数据转化为符合图数据库要求的格式，再通过图数据库操作语言进行校验以删除孤立节点，生成信息子图谱。

可选地，调用预设的图谱数据模型，将所述数据转化为符合图数据库要求的格式，包括：

定义图谱数据模型，所述图谱数据模型包括实体和实体间的关系类型；

将抽出得到的数据所属的类表的主键列作为实体列，所述实体列中的每一元素对应一个实体；将所属类的其它表中具有所述实体的列也标记为实体列，其它列标记为属性列；其中，所述属性列中的每一个值为对应实体的一个属性，列名称作为属性名。

可选地，调用外部存储器接口，获取预设的通用知识图谱，根据所述关键词从中抽取相关实体及所述实体对应的上下位关系数据，生成概念子图谱，包括：

获取文件文本，将文件文本中的词添加到词列表中并去重，调用统计引擎计算每个词的权重并从大到小排序，根据所述排序提取预设数量的词作为关键词，创建文件实体，将所述关键词作为所述文件实体的属性；

根据领域术语、词典以及所述关键词，对所述文件实体进行合并去重得到领域概念实体待选集合；

以领域概念实体待选集合为搜索对象，获取开源通用知识图谱中相关实体及所述实体对应的上下位关系数据，生成概念子图谱。

可选地，获取开源通用知识图谱中相关实体及所述实体对应的上下位关系数据，包括：

获取开源通用知识图谱的离线数据包，以领域概念实体待选集合为搜索对象搜索相关实体及所述实体对应的上下位关系数据；或者

通过调用通用知识图谱提供的API接口，以领域概念实体待选集合为搜索对象搜索相关实体及所述实体对应的上下位关系数据。

可选地，将所述的主题子图谱、所述信息子图谱以及所述概念子图谱进行融合，生成领域知识图谱并通过系统接口输出，包括：

基于文件文本实体ID作为实体对齐的依据，将所述的主题子图谱、所述信息子图谱以及所述概念子图谱进行融合，生成领域知识图谱并通过系统接口输出。

另外，本发明还提供了一种数据处理装置，应用于包括处理器的计算平台中，包括：获取模块，用于通过外部存储器和外部存储器接口获取领域文件文本，生成文件文本集合，以将文件文本中的词添加到词列表中，计算每个词的权重并从大到小排序，根据所述排序提取预设数量的词作为关键词，进而调用聚类引擎，计算得到类别主题，根据所述类别主题构建主题实体以形成主题子图谱；根据领域文件在已有数据库中的数据表，通过查询语言抽取的结构化数据，构建信息子图谱；调用外部存储器接口，获取预设的通用知识图谱，根据所述关键词从中抽取相关实体及所述实体对应的上下位关系数据，生成概念子图谱；

处理模块，用于将所述的主题子图谱、所述信息子图谱以及所述概念子图谱进行融合，生成领域知识图谱并通过系统接口输出，以供不同角色用户查阅和获取相应数据。

上述发明中的一个实施例具有如下优点或有益效果：本发明提供了一种基于关键词的领域知识图谱构建方法，构建出来的知识图谱包括专业背景常识，公司内部机构化数据信息以及从领域文本中的主题信息，可以为图谱使用者提供多维度、清晰的可视化的领域知识架构展示。基于此，用户可以通过图谱可视化数据视图了解培训间的关系，快速定位相关培训文件，并能完成下载，在线浏览其全文内容。并为领域信息的搜索和推荐提供背景知识，提升搜索和推荐的准确性，多样性和可解释性，提升用户体验，提升培训效果。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明第一实施例的数据处理方法的主要流程的示意图；

图2是根据本发明实施例的二级主题和文件之间的关系的示意图；

图3是根据本发明实施例的一级主题和二级主题之间的关系的示意图；

图4是根据本发明实施例的领域文件的关键词属性的示意图；

图5是根据本发明实施例的通用知识图谱中的概念实体与领域文件之间关系的示意图；

图6是根据本发明实施例的培训保险领域知识图谱的数据模型示意图；

图7是根据本发明实施例的数据处理装置的主要模块的示意图；

图8是本发明实施例可以应用于其中的示例性系统架构图；

图9是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明第一实施例的数据处理方法的主要流程的示意图，应用于包括处理器的计算平台中，如图1所示，所述数据处理方法包括：

步骤S101，通过外部存储器和外部存储器接口获取领域文件文本，生成文件文本集合，以将文件文本中的词添加到词列表中，计算每个词的权重并从大到小排序，根据所述排序提取预设数量的词作为关键词，进而调用聚类引擎，计算得到类别主题，根据所述类别主题构建主题实体以形成主题子图谱。

在一些实施例中，所述领域文件的的主题子图谱主要提供文件与主题之间的关系。基于文件的文本内容，通过两次文本聚类，对聚类出的各类别文本分别进行主题词提取，完成主题子图谱构建。

较佳地，调用聚类引擎，基于关键词通过聚类计算得到类别主题，根据所述类别主题构建主题实体以形成主题子图谱，具体地实施过程包括：

步骤一：获取文件文本，将文件文本中的词添加到词列表中并去重，通过统计方法计算每个词的权重并从大到小排序，根据所述排序提取预设数量的词作为关键词，将词列表权重向量作为关键词的文本特征向量。

优选地，提取文件文本的关键词之前可以先对文件文本进行分词、去停用词等等的预处理，之后可以根据本领域特征提取关键词。

步骤二：调用聚类引擎，采用无监督聚类算法，对文件文本进行聚类，以从每个聚类中的各个文本特征向量为依据，提取每个聚类的主题词。

从而，此时完成了第一次聚类，通过在合理范围内遍历聚类数目，选择聚类效果最好的聚类数目及其对应的聚类结果，即一级主题词。

步骤三：对各个聚类后的文件文本再聚类，以从子类别中的各个文本特征向量为依据，获取二级主题词。

从而，此时完成了第二次聚类，，获取第二次聚类结果和二级主题词。

步骤四：根据二级主题词和对应的聚类文件文本，创建文件实体和二级主题实体，进而构建二级主题实体到文件实体的包含关系，如图2所示，为二级主题和文件之间的关系。

步骤五：根据一级主题词创建一级主题实体，进而构建一级主题实体到二级主题实体的包含关系，如图3所示，为一级主题和二级主题之间的关系。

步骤六：将文件实体、二级主题实体以及一级主题实体，二级主题实体到文件实体的包含关系和一级主题实体到二级主题实体的包含关系转换为图数据库要求的格式，存入图数据库；通过图数据库操作语言进行图谱的节点和逻辑的整体校验，得到主题子图谱。

步骤S102，根据领域文件在已有数据库中的数据表，通过查询语言抽取的结构化数据，构建信息子图谱。

在一些实施例中，领域文件的信息子图谱主要用于提供图谱中领域文件实体及其属性信息，领域文件实体与领域其他实体的关系。其中，领域其他实体是指除领域文件实体外的领域其他类型实体，如领域文件的作者，服务对象类别等。值得说明的是，如图6所示，所述的培训文件为领域文件实体，而所述的培训对象、培训体系、培训系列以及课程为领域其他实体。

较佳地，根据领域文件文本的结构化数据，构建信息子图谱，具体的实施过程包括：

步骤一：获取领域文件在已有数据库中的数据表，通过数据查询语言抽取相应数据。

步骤二：根据预设的图谱数据模型，将所述数据转化为符合图数据库要求的格式。

进一步地实施例，将所述数据转化为符合图数据库要求的格式的时候，可以先定义图谱数据模型，所述图谱数据模型包括实体和实体间的关系类型。然后，将抽出得到的数据所属的类表的主键列作为实体列，所述实体列中的每一元素对应一个实体；将所属类的其它表中具有所述实体的列也标记为实体列，其它列标记为属性列。其中，所述属性列中的每一个值为对应实体的一个属性，列名称作为属性名。

也就是说，步骤二能够根据图谱数据模型，建立各个实体及其间关系，将数据转化符合图数据库要求的格式。

步骤三：通过图数据库操作语言进行校验以删除孤立节点，生成信息子图谱。

较佳地，将转化后的数据导入图数据库，通过图数据库操作语言进行图谱的节点和逻辑的整体校验，删除孤立节点。

步骤S103，调用外部存储器接口，获取预设的通用知识图谱，根据所述关键词从中抽取相关实体及所述实体对应的上下位关系数据，生成概念子图谱。

在一些实施例中，领域文件的概念子图谱提供整个领域知识图谱图谱的概念结构、概念联系及相关的常识性知识。构建方法为从现有领域文件中提取关键词，结合领域术语、词典与领域文件关键词，构成领域待选概念实体集合。根据此待选集合，从外部通用知识图谱中抽取相关实体及其上下位关系数据。最后，将获取的数据导入图数据库并对图谱作整体校验。

较佳地，调用外部存储器接口，获取预设的通用知识图谱，根据关键词从中抽取相关实体及所述实体对应的上下位关系数据，生成概念子图谱，具体的实施过程可以包括：

步骤一：提取文件文本的关键词，创建文件实体，将所述关键词作为所述文件实体的属性。

优选地，如图4所示，为领域文件的关键词属性示意图，根据步骤S101计算过程中得到的权重反应了词对此文本的重要性，将词按权重从大到小排序，取前n个作为关键词，n为可调参数。

步骤二：根据领域术语、词典以及所述关键词，对所述文件实体进行合并去重得到领域概念实体待选集合。

也就是说，根据领域术语、词典以及作为文件实体属性的关键词，对文件实体进行合并去重处理，例如具有相同关键词的文件实体可以进行合并。

步骤三：以领域概念实体待选集合为搜索对象，获取开源通用知识图谱中相关实体及所述实体对应的上下位关系数据。

进一步地实施例，在获取开源通用知识图谱中相关实体及所述实体对应的上下位关系数据的时候，可以获取开源通用知识图谱的离线数据包，以领域概念实体待选集合为搜索对象搜索相关实体及所述实体对应的上下位关系数据；或者通过调用通用知识图谱提供的API接口，以领域概念实体待选集合为搜索对象搜索相关实体及所述实体对应的上下位关系数据。

需要说明的是，如果在通用知识图谱中未找到匹配关系的相关实体，则删除领域概念实体待选集合中的该文件实体。例如：如图5所示建立通过关键词匹配到的通用知识图谱中的概念实体与领域文件(即文件实体)的“包含”关系。

步骤四：将所述相关实体及所述实体对应的上下位关系数据导入图数据库，生成概念子图谱。

优选地，将实体及其关系数据转换为图数据库要求的格式，存入图数据库。通过图数据库操作语言进行图谱的节点和逻辑的整体校验，删除孤立节点。

步骤S104，将所述的主题子图谱、所述信息子图谱以及所述概念子图谱进行融合，生成领域知识图谱并通过系统接口输出，以供不同角色用户查阅和获取相应数据。

在一些实施例中，基于文件文本实体ID作为实体对齐的依据，将所述的主题子图谱、所述信息子图谱以及所述概念子图谱进行融合，生成领域知识图谱并通过系统接口输出。

值得说明的是，本发明可以应用于构建保险培训领域知识图谱，根据用户需要，可以为线上培训提供服务，涉及培训讲师和代理人培训的业务场景(即不同角色用户查阅和获取相应数据)，提供领域的整体知识架构，对培训资料呈内容级别的管理。

综上所述，本发明提供的数据处理方法，可以构建基于关键词的领域知识图谱，且融合了内部非结构化文本、内部结构化数据及外部通用知识图谱，实现了多维度知识内容的融合，降低了对领域专家的依赖，可以实现较高程度的自动化，降低了领域知识图谱的构建成本。构建的领域知识图谱可为知识架构的可视化提供数据支持，并为领域信息的搜索和推荐提供背景知识，提升搜索和推荐的准确性，多样性和可解释性。

其中，通过文本主题的聚类和提取，提供一种非结构化文本在图谱中的使用方法：通过提取领域文本关键词，将领域主题从领域相关文件的文本中自动提出，通过聚类构建主题间结构关系，形成两层的主题子图谱。同时，有效利用现有结构化数据：以领域相关文件为核心，使用基于规则的方法，对数据库中现存的结构化数据进行分析，抽取相关信息，确定有价值实体和实体间关系，构建信息子图谱。另外，有效利用外部通用知识图谱：将领域文件文本关键词、领域术语和词典相结合，借助通用知识图谱，从中提取领域相关的知识内容，构建领域概念子图谱。在三部分子图谱构建完成后，以领域文件作为实体对齐的依据，将三个子图谱融合成完整的领域知识图谱。

值得说明的是，领域文本关键词的使用降低图谱构建对领域专家的依赖。并且，构建生成的图谱可借助可视化工具，帮助领域图谱服务对象理解领域知识框架，同时可为领域信息的搜索和推荐提供多维度背景知识。

作为本发明的第二实施例，所述的数据处理方法应用于智能搜索引擎平台的培训文件数据视图模块而构建的保险培训领域知识图谱，具体实施过程包括：

首先，构建培训文件主题子图谱，培训文件主题子图谱包含本体类型有：一级主题，二级主题和培训文件，关系类型均为“包含”，构建的具体步骤包括：

步骤一：计算培训文件文本特征向量：获取培训文件文本集后，对每个文本进行分词、去停用词，将各个文件所有词添加到列表中去重后构成文本向量。以整个培训文档文本集为背景，通过计算文档中每个词的TF-IDF(词频-倒排文档频次)值获取各个文档文本向量相应的权值向量作为文本的特征向量。TF-IDF计算公式为：

其中，i为词序号，j为文档序号，TFi,j代表第i个词在第j个文档中的词频；DFi代表多少篇章文档包含第i个词。IDFi为DFi的倒数。

值得说明的是，除文本内容本身的关键词外，文本标题的关键词往往更重要，在计算时将其加权计算，合并到词频统计中去。词频TFi,j计算公式为：

其中，ni,j代表第i个词在第j个文档正文中的次数，a为第j个文档正文中包含的不同词的总个数，

代表第j个文档中包含全部词出现次数的总和。mi,j代表第i个词在第j个文档标题中的次数，b为第j个文档标题中包含的不同词的总个数，

代表第j个文档标题中包含全部词出现次数的总和，μ为标题的加权系数，μ>1。

倒排文档频次IDF_i计算公式为：

其中，|D|代表培训文件的总个数，|{j:t_i∈d_j}|代表包含第i个词ti的文档个数(即ni,j≠0的个数)。

步骤二：第一次聚类，获取第一次聚类结果和一级主题词，包括：

第一步：基于K-means++算法对文本进行聚类，设聚类数为k，K-means++具体算法如下：

1)选定初始聚类中心点

i)首先在数据集中随机选出一个样本点作为第一个聚类中心C1

ii)计算每个样本xi与已有聚类中心的距离，最小值为D(xi)。每个样本点被选为下一个聚类中心点的概率为：

n为样本数。通过轮盘法选出下一个聚类中心。

iii)重复ii)直到选出k个点。

2)计算各个点到中心点的距离，将各个样本添加到距离最近的聚类中。

3)重新计算聚类中心点。

4)重复(2)、(3)直至全部的聚类中心变化小于阈值θ。

类别数k在[2,min(n,12)]之间遍历(n为样本数,n>2)，分别完成上述K-means++聚类。计算在各类别数k下聚类结果的平均轮廓系数。单个点Xi的(1≤i≤n)轮廓系数计算公式如下：

其中，a为该点与本类其他点的平均距离，b为该点与非本类点的平均距离。在类别数为k时，聚类结果的平均轮廓系数即为：

将sk排序，选取拥有最大轮廓系数的聚类结果作为最终结果。

第二步：基于聚类结果，获取主题词：通过计算同一类别中文本特征向量的加权平均值，得到加权平均文本向量

单个词的文本向量为Xi(1≤i≤n，n为本类别样本数)。

其中，

q_i为第i个文件的重要性得分，为文件的创建时间长短t，浏览次数c，下载次数d的函数:q_i＝f(t,c,d)＝(c+d)e^-t。选取

中权值最高的词作为此类别的主题词。在主题词后加“_L1”,由此生成一级主题词ID。

步骤二：第二次聚类，获取二级主题词：完成步骤一后，在各个聚类后的子类别样本中重复步骤一，获取二级主题词。在主题词后加“_L2”，由此生成二级主题词ID。

步骤三：创建培训文件和二级主题实体，构建二级主题实体到文件实体的包含关系。

步骤四：创建一级主题实体，构建一级主题实体到二级主题实体的包含关系。

步骤五：数据入库及图谱校验：将实体及其关系数据转换为图数据库要求的格式，存入neo4j图数据库。通过Cypher语言进行图谱的节点和逻辑的整体校验，删除孤立节点。Neo4j数据导入格式举例如下：

一级主题实体属性表：

LEVELONE:ID	name	:LABEL
			客户_L1	客户	一级主题

LEVELONE:ID为实体ID，LABEL为标签名，name为属性。

一级主题与二级主题关系表：

:START_ID	:TYPE	:END_ID
			客户_L1	包含	客户服务_L2

START_ID为起始节点，END_ID为终止节点，TYPE为关系类型。

其次，构建培训文件信息子图谱，所述培训文件信息子图谱包含本体类型有：培训文件、培训体系、培训系列、课程、培训对像，关系类型均为“包含”。具体步骤如下：

步骤一：获取培训文件相关数据表，具体地：从培训文件的相关信息存储在新培训系统MYSQL数据库中，找到包含文件、课程、培训体系、培训系列、培训对象等内容的相关数据表，过滤出本子图谱中包含的这些本体的相关数据。

步骤二：定义数据模型，将多列表结构数据转化neo4j图数据库要求的格式。例如图6所示，定义培训保险领域知识图谱的数据模型，包括实体和实体间的关系类型。

其中，将各类表的主键所在列标记为实体列，实体列中的每一个值对应一个实体。将其他表中涉及这些实体的列也标为实体列。主键实体作为图谱中关系的起始节点，表中其他列实体作为关系的终止节点，关系定义从其他列实体指向主键实体的“包含”关系。关系抽取完成后去重。表中除实体列外，其他列标记为属性列，属性列中的每一个值为对应主键实体的一个属性值，列名称作为属性名。如此将文件多列信息表处理为符合图数据库要求的导入格式。数据格式举例如下：

培训文件实体属性表：

FILE:ID为文件实体ID，:LABEL为标签名，name、date、uploader、path为属性。

培训文件与课程关系表：

START_ID	TYPE	END_ID
			4704	包含	新人必备

步骤三：数据入库及图校验，具体地：将数据导入图数据库，通过图数据库操作语言进行图谱的节点和逻辑的整体校验，删除孤立节点。

再者，构建保险培训领域概念子图谱，所述保险培训领域概念子图谱包含本体类型有：培训文件、概念、培训文件，其中培训文件具有关键词属性，由关键词形成的概念实体与培训文件具有包含关系，其他的关系取决与通用知识图谱的抽取结果。保险培训领域概念子图谱构建的具体步骤如下：

步骤一：提取培训文件关键词：利用文本向量中通过TF-IDF方法计算的词列表的权重反应了词对此文本的重要性。将词按权重排序，取前n个词作为关键词，n为可调参数。

步骤二：构成保险培训领域概念实体待选集合，例如从《保险术语(GB/T 36687-2018)》中抽取出相关的术语。从网上利用爬虫爬取保险领域词典。合并术语、词典和上一步提取的关键词，去重后构成保险培训领域概念实体待选集合。

步骤三：抽取中文通用知识图谱中相关数据，例如下载ownthink通用知识图谱的离线数据包，以待选概念实体集合为搜索目标，从数据包中搜索出待选概念的上下位关系。未找到匹配关系的概念，删除该培训文件实体。其中如果搜索到与文件关键词形成的概念实体匹配结果，需要将其与对应的培训文件实体构建包含关系。

步骤四：数据入库及图校验，具体地：将培训文件实体及其关系数据转换为图数据库要求的格式，存入图数据库。通过图数据库操作语言进行图谱的节点和逻辑的整体校验，删除孤立节点。

最后，融合如上构建的三个子图谱，具体地：通过培训文件实体ID实现实体对齐，将三个子图谱融合成一个完整的保险培训领域知识图谱。

作为本发明的第三实施例，所述的数据处理方法应用于智能搜索引擎平台的培训文件数据视图模块而构建的医疗养老培训领域知识图谱，具体实施过程包括：

倒排文档频次IDF_i计算公式为：

1)选定初始聚类中心点

i)首先在数据集中随机选出一个样本点作为第一个聚类中心C1

ii)计算每个样本xi与已有聚类中心的距离，最小值为D(xi)。每个样本点被选为下一个聚类中心点的概率为

n为样本数，通过轮盘法选出下一个聚类中心。

iii)重复ii)直到选出k个点。

3)重新计算聚类中心点。

4)重复(2)、(3)直至全部的聚类中心变化小于阈值θ。

其中，a为该点与本类其他点的平均距离，b为该点与非本类点的平均距离。在类别数为k时，聚类结果的平均轮廓系数即为

单个词的文本向量为Xi(1≤i≤n，n为本类别样本数)。

其中，

一级主题实体属性表：

LEVELONE:ID	name	:LABEL
			医疗_L1	客户	一级主题

LEVELONE:ID为实体ID，LABEL为标签名，name为属性。

一级主题与二级主题关系表：

:START_ID	:TYPE	:END_ID
			医疗_L1	包含	护理_L2

START_ID为起始节点，END_ID为终止节点，TYPE为关系类型。

步骤二：定义数据模型，将多列表结构数据转化neo4j图数据库要求的格式。定义医疗养老培训领域知识图谱的数据模型，包括实体和实体间的关系类型。

其中，将各类表的主键所在列标记为实体列，实体列中的每一个值对应一个实体。将其他表中涉及这些实体的列也标为实体列。主键实体作为图谱中关系的起始节点，表中其他列实体作为关系的终止节点，关系定义从其他列实体指向主键实体的“包含”关系。关系抽取完成后去重。表中除实体列外，其他列标记为属性列，属性列中的每一个值为对应主键实体的一个属性值，列名称作为属性名。如此将文件多列信息表处理为符合图数据库要求的导入格式。

再者，构建医疗养老培训领域概念子图谱，所述医疗养老培训领域概念子图谱包含本体类型有：培训文件、概念、培训文件，其中培训文件具有关键词属性，由关键词形成的概念实体与培训文件具有包含关系，其他的关系取决与通用知识图谱的抽取结果。医疗养老培训领域概念子图谱构建的具体步骤如下：

步骤二：构成医疗养老培训领域概念实体待选集合，例如从医学系统命名法—临床术语(systematized nomenclature of medicine--clinical terms，SNOMED CT)中抽取出相关的医学术语，从居家养老服务规范术语(团体标准T/DSFX 12001—2017)及养老机构基本规范(中华人民共和国国家标准GB/T 29353—2012)中抽取的相关养老术语。从网上利用爬虫爬取医学养老领域词典。合并术语、词典和上一步提取的关键词，去重后构成医学养老培训领域概念实体待选集合。

图7是根据本发明实施例的数据处理装置的主要模块的示意图，如图7所示，所述数据处理装置700包括获取模块701和处理模块702。其中，获取模块701获取领域文件文本，生成文件文本集合，以将文件文本中的词添加到词列表中，计算每个词的权重并从大到小排序，根据所述排序提取预设数量的词作为关键词，进而通过聚类计算得到类别主题，根据所述类别主题构建主题实体以形成主题子图谱；根据领域文件在已有数据库中的数据表，通过查询语言抽取结构化数据，构建信息子图谱；基于预设的通用知识图谱，根据关键词从中抽取相关实体及所述实体对应的上下位关系数据，生成概念子图谱；处理模块702将所述的主题子图谱、所述信息子图谱以及所述概念子图谱进行融合，生成领域知识图谱以供不同角色用户查阅和获取相应数据。

在一些实施例中，获取模块701将文件文本中的词添加到词列表中，计算每个词的权重并从大到小排序，根据所述排序提取预设数量的词作为关键词，进而通过聚类计算得到类别主题，根据所述类别主题构建主题实体以形成主题子图谱，包括：

获取文件文本，将文件文本中的词添加到词列表中并去重，通过统计方法计算每个词的权重并从大到小排序，根据所述排序提取预设数量的词作为关键词，将词列表权重向量作为关键词的文本特征向量；

采用无监督聚类算法，对文件文本进行聚类，以从每个聚类中的各个文本特征向量为依据，提取每个聚类的主题词；

在一些实施例中，获取模块701根据领域文件在已有数据库中的数据表，通过查询语言抽取的结构化数据，构建信息子图谱，包括：

根据预设的图谱数据模型，将所述数据转化为符合图数据库要求的格式，再通过图数据库操作语言进行校验以删除孤立节点，生成信息子图谱。

在一些实施例中，获取模块701根据预设的图谱数据模型，将所述数据转化为符合图数据库要求的格式，包括：

在一些实施例中，获取模块701基于预设的通用知识图谱，根据关键词从中抽取相关实体及所述实体对应的上下位关系数据，生成概念子图谱，包括：

获取文件文本，将文件文本中的词添加到词列表中并去重，通过统计方法计算每个词的权重并从大到小排序，根据所述排序提取预设数量的词作为关键词，创建文件实体，将所述关键词作为所述文件实体的属性；

在一些实施例中，获取模块701获取开源通用知识图谱中相关实体及所述实体对应的上下位关系数据，包括：

在一些实施例中，处理模块702将所述的主题子图谱、所述信息子图谱以及所述概念子图谱进行融合，生成领域知识图谱，包括：

基于文件文本实体ID作为实体对齐的依据，将所述的主题子图谱、所述信息子图谱以及所述概念子图谱进行融合，生成领域知识图谱。

需要说明的是，在本发明所述数据处理方法和所述数据处理装置在具体实施内容上具有相应关系，故重复内容不再说明。

图8示出了可以应用本发明实施例的数据处理方法或数据处理装置的示例性系统架构800。

如图8所示，系统架构800可以包括终端设备801、802、803，网络804和服务器805。网络804用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备801、802、803通过网络804与服务器805交互，以接收或发送消息等。终端设备801、802、803上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备801、802、803可以是具有数据处理屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器805可以是提供各种服务的服务器，例如对用户利用终端设备801、802、803所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的数据处理方法一般由服务器805执行，相应地，计算装置一般设置于服务器805中。

应该理解，图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图9，其示出了适于用来实现本发明实施例的终端设备的计算机系统900的结构示意图。图9示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分808加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM903中，还存储有计算机系统900操作所需的各种程序和数据。CPU901、ROM902以及RAM903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶数据处理器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括获取模块和处理模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括获取领域文件文本，生成文件文本集合，以将文件文本中的词添加到词列表中，计算每个词的权重并从大到小排序，根据所述排序提取预设数量的词作为关键词，进而通过聚类计算得到类别主题，根据所述类别主题构建主题实体以形成主题子图谱；根据领域文件在已有数据库中的数据表，通过查询语言抽取结构化数据，构建信息子图谱；基于预设的通用知识图谱，根据关键词从中抽取相关实体及所述实体对应的上下位关系数据，生成概念子图谱；将所述的主题子图谱、所述信息子图谱以及所述概念子图谱进行融合，生成领域知识图谱以供不同角色用户查阅和获取相应数据。

根据本发明实施例的技术方案，能够解决现有领域知识图谱构建效率低、成本高的问题。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种数据处理方法，其特征在于，应用于包括处理器的计算平台中，包括：

通过外部存储器和外部存储器接口获取领域文件文本，生成文件文本集合，以将文件文本中的词添加到词列表中，计算每个词的权重并从大到小排序，根据所述排序提取预设数量的词作为关键词，进而调用聚类引擎，计算得到类别主题，根据所述类别主题构建主题实体以形成主题子图谱；

根据领域文件在已有数据库中的数据表，通过查询语言抽取结构化数据，构建信息子图谱；

调用外部存储器接口，获取预设的通用知识图谱，根据所述关键词从中抽取相关实体及所述实体对应的上下位关系数据，生成概念子图谱；

将所述的主题子图谱、所述信息子图谱以及所述概念子图谱进行融合，生成领域知识图谱并通过系统接口输出，以供不同角色用户查阅和获取相应数据。

2.根据权利要求1所述的方法，其特征在于，将文件文本中的词添加到词列表中，计算每个词的权重并从大到小排序，根据所述排序提取预设数量的词作为关键词，进而调用聚类引擎，计算得到类别主题，根据所述类别主题构建主题实体以形成主题子图谱，包括：

3.根据权利要求1所述的方法，其特征在于，根据领域文件在已有数据库中的数据表，通过查询语言抽取的结构化数据，构建信息子图谱，包括：

4.根据权利要求3所述的方法，其特征在于，调用预设的图谱数据模型，将所述数据转化为符合图数据库要求的格式，包括：

5.根据权利要求1所述的方法，其特征在于，调用外部存储器接口，获取预设的通用知识图谱，根据所述关键词从中抽取相关实体及所述实体对应的上下位关系数据，生成概念子图谱，包括：

6.根据权利要求5所述的方法，其特征在于，获取开源通用知识图谱中相关实体及所述实体对应的上下位关系数据，包括：

7.根据权利要求1-6任一所述的方法，其特征在于，将所述的主题子图谱、所述信息子图谱以及所述概念子图谱进行融合，生成领域知识图谱并通过系统接口输出，包括：

8.一种数据处理装置，其特征在于，应用于包括处理器的计算平台中，包括：

获取模块，用于通过外部存储器和外部存储器接口获取领域文件文本，生成文件文本集合，以将文件文本中的词添加到词列表中，计算每个词的权重并从大到小排序，根据所述排序提取预设数量的词作为关键词，进而调用聚类引擎，计算得到类别主题，根据所述类别主题构建主题实体以形成主题子图谱；根据领域文件在已有数据库中的数据表，通过查询语言抽取的结构化数据，构建信息子图谱；调用外部存储器接口，获取预设的通用知识图谱，根据所述关键词从中抽取相关实体及所述实体对应的上下位关系数据，生成概念子图谱；

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。