CN110688488A

CN110688488A - 一种通用的知识图谱云服务系统

Info

Publication number: CN110688488A
Application number: CN201810636492.1A
Authority: CN
Inventors: 孟涛; 李佳静
Original assignee: Nanjing Network Sense To Inspect Mdt Infotech Ltd
Current assignee: Nanjing Network Sense To Inspect Mdt Infotech Ltd
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2020-01-14

Abstract

本发明涉及一种通用的知识图谱云服务系统，包括领域专家终端、企业用户终端和云端服务器。所述的领域专家终端与云端服务器网络连接；所述的企业用户终端与云端服务器网络连接。领域专家终端用于领域专家将使用包含上下文运算符的生成文法描述的知识图谱定义上传到云端服务器；企业用户终端包括服务定制模块和结果展示模块，用于不同领域的企业向云服务器提交定制的文本分析服务请求，以及查看文本与知识图谱匹配的分析结果。使用该系统能够针对任何一个领域和行业快速建立知识图谱，然后基于此识别该行业的文本语义并进行多种计算。

Description

一种通用的知识图谱云服务系统

技术领域

本发明属于知识图谱技术领域，具体地涉及到一种通用的知识图谱云服务系统。

背景技术

知识图谱(Knowledge Graph/Vault)又称为科学知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

国际万维网组织W3C在2007年发起了开放互联数据项目(Linked Open Data，LOD)。该项目旨在将由互联文档组成的万维网(Web of documents)扩展成由互联数据组成的知识空间(Web of data)。LOD以RDF(Resource Description Framework)形式在Web上发布各种开放数据集，RDF是一种描述结构化知识的框架，它将实体间的关系表示为(实体1，关系，实体2)的三元组。LOD还允许在不同来源的数据项之间设置RDF链接，实现语义Web知识库。目前世界各机构已经基于LOD标准发布了数千个数据集，包含数千亿RDF三元组。

目前仍然缺少通用的知识图谱云服务系统，对于任何一个领域和行业，缺乏快速建立知识图谱，然后基于此识别该行业的文本语义并进行计算的方法。其原因一方面在于对于大多数行业缺乏大量的标注语料数据，难以解决机器学方法的冷启动问题；另一方面在于领域专家编写的规则，虽然精确率较高，但通常存在召回率较低的问题。

发明内容

1、所要解决的技术问题：

针对上述存在的问题，本方法提出一种通用的知识图谱云服务系统。本方法能够针对任何一个领域和行业快速建立知识图谱，然后基于此识别该行业的文本语义并进行计算。同时它能够将包含海量语义目标的巨大知识图谱与网上的海量自由文本高效匹配。基于该认知计算平台建立的行业知识图谱往往高达数百兆字节，能基于它们识别和理解数以百万计的品牌、产品、人物、症状和厂商等目标。

2、技术方案：

一种通用的知识图谱云服务系统，包括领域专家终端、企业用户终端和云端服务器，其特征在于：所述的领域专家终端与云端服务器网络连接；所述的企业用户终端与云端服务器网络连接。

领域专家通过领域专家终端定义本领域知识图谱上传至云端服务器；所述知识图谱为使用包含上下文运算符的生成文法描述的知识图谱。

企业用户通过企业用户终端向云端服务器提交定制的文本分析服务请求，以及查看文本与知识图谱的匹配结果请求；所述企业用户终端包括服务定制模块和结果展示模块；所述服务定制模块为企业用户定制的文本分析服务请求的类型；所述结果展示模块将云端服务器的分析结果进行可视化展示。

所述云端服务器包括数据采集模块、文本预处理模块、知识抽取引擎、知识学习模块、知识推理模块、领域知识图谱库。

所述数据采集模块采集WEB外部数据和企业内部数据。

所述文本预处理模块对数据采集模块采集的数据进行处理；处理的方法包括自然语言处理的基本手段；所述自然语言处理的基本手段为中文分词、词性标注、命名实体抽取、通用概念与关系抽取中的一种或者多种。

所述知识抽取引擎将经过文本预处理模块的数据和信息进行提炼出各种有价值的知识。

所述知识学习模块将经过知识抽取引擎的数据和信息进行半自动或自动的去定义知识，积累和扩大概念、关系和推理规则集合。

所述知识推理模块将经过知识抽取引擎的数据和信息进行本领域内的各种数据和标注结果经由深度神经网络技术以及机器学习转化为可以对新数据进行分类、推理和预测的模型。

所述领域知识图谱库描述各个领域和行业内中存在的各种实体或概念及其关系,并构成一张巨大的语义网络图，其中节点表示实体或概念，其中节点表示实体或概念，边表示属性或关系构成。

进一步地，所述上下文环境计算符号包括但不限于：

“SENT”：作用域内的所有概念必须出现在一条语句中；

“DIST_n”：作用域内的任何两个相邻概念之间的距离不能大于n；

“ORD”：作用域内的所有概念顺序出现；

“CONT”：作用域内的所有概念相邻；

“AND”：作用域中的所有字句必须同时在输入文本中出现

“OR”：作用域中的所有字句至少有有一个在输入文本中出现

“NOT”：作用域中的字句不能出现，否则输入文本不匹配。

进一步地，

所述概念及概念之间的关系是使用一种包含一组上下文环境计算符号的生成文法来定义的；其中待抽取的概念和关系以非终结符形式体现在程序中，字符串、正则表达式和计算符号以终结符形式体现；使用包含上下文计算符的生成文法是基于TML语言实现。

进一步地，企业用户向云端服务器提交定制的文本分析服务请求的类型包括但不限于知识抽取、类目标签、情感识别、关系挖掘。

所述知识抽取为对行业领域的文本段落，自动将实体、对象抽取出来，形成结构化的可移植信息。

所述类目标签为对行业领域的文本段落，进行信息分类，同时为各类信息打上标签。

所述情感识别为对行业领域文本段落，进行智能化的正负面情感判别，同时基于判别结果输出足够细粒度的详情信息。

关系挖掘为任意搜索特定领域内的实体概念，系统将会就该概念通过网络爬虫，获取到更多与之相关的概念、关系等信息，同时将这些信息赋予不同的权重。

进一步地，所述知识抽取引擎包括编译器和运行处理机。

所述编译器将由领域专家编写大量的知识进行推理规则编译优化，以及基于标注语料训练机器学习模型。

所述运行处理机将训练好的模型和引擎应用于分析数据的工作；其分析数据的工作在运行虚拟机中完成；其分析数据实现的算法包括机器学习算法、认知计算的模块、自然语言理解、知识图谱与web搜索。

进一步地，所述知识学习模块包括概念学习子模块和概念关系学习子模块。

所述概念学习子模块：利用对概念的内部组成的学习方法和对概念的外部环境的学习方法扩大知识；概念的内部组成的学习方法利用概念的语义相似性来进行学习；对概念的外部环境的学习方法利用概念的上下文环境特征来进行学习；并根据标注结果识别新概念。

所述概念关系学习子模块：将匹配了概念关系的文本作为训练语料，将关系抽取作为深度学习的分类问题，学习特定的上下文关系可以确定此种关系。

进一步地，所述知识推理模块包括逻辑推理子模块和关系推理子模块。

所述逻辑推理子模块：区分事实要素和结果要素，然后基于历史数据预测新案例结果。

所述关系推理子模块：基于语义理解文本匹配建立得到的关系网，判断新的关系是否能成立。

进一步地，所述数据采集模块、所述文本预处理模块、所述知识抽取引擎是基于TML语言实现。

3、有益效果：

本发明提供的一种通用的知识图谱云服务系统具有能够在任何行业或应用领域快速建立基于大规模语义知识图谱的认知计算能力，并且结合了领域内的数据优化领域内人工智能，可以帮助不同行业对海量的非结构化文本做语义理解，抽取其中的知识，并进行学习和推理，以开展类似于辅助决策的工作。

附图说明

图1为本发明的系统结构图；

图2为本发明中的知识抽取引擎模块结构图；

图3为本发明中的知识学习模块结构图；

图4为本发明中的知识推理模块结构图；

图5为本发明中的关系推理示例图。

具体实施方式

下面结合附图对本发明进行进一步的说明。

如附图1所示一种通用的知识图谱云服务系统，包括云端服务器、领域专家终端和企业用户终端。所述的领域专家终端与云端服务器网络连接；所述的企业用户终端与云端服务器网络连接。

领域专家通过领域专家终端定义本领域知识图谱上传至云端服务器；所述知识图谱为使用包含上下文运算符的生成文法描述的知识图谱。由图中可以看出领域专家终端包括规则编辑模块100。通过规则编辑模块可以进行定义本领域知识图谱。

企业用户通过企业用户终端向云端服务器提交定制的文本分析服务请求，以及查看文本与知识图谱的匹配结果请求；所述企业用户终端包括服务定制模块201和结果展示模块202；所述服务定制模块为企业用户定制知识图谱分析的类型；所述结果展示模块将云端服务器的分析结果进行可视化展示。

所述云端服务器包括数据采集模块301、文本预处理模块302、知识抽取引擎303、知识学习模块304、知识推理模块305、领域知识图谱库306。

所述数据采集模块采集WEB外部数据和企业内部数据。例如从企业用户指定的网站、论坛或者社交网络中收集文本信息。

所述领域知识图谱库描述各个领域和行业内中存在的各种实体或概念及其关系,并构成一张巨大的语义网络图，其中节点表示实体或概念，边则示实由属性或关系构成。

上述，上下文环境计算符号包括但不限于：

“SENT”：作用域内的所有概念必须出现在一条语句中；

“ORD”：作用域内的所有概念顺序出现；

“CONT”：作用域内的所有概念相邻；

“AND”：作用域中的所有字句必须同时在输入文本中出现

“NOT”：作用域中的字句不能出现，否则输入文本不匹配。

在上述的过程中，本领域专家使用一种包含一组上下文环境计算符号的生成文法来定义概念及概念之间的关系，其中待抽取的概念和关系以非终结符形式体现在程序中，字符串、正则表达式和计算符号以终结符形式体现，使用包含上下文计算符的生成文法是基于TML语言实现。

其中，使用包含上下文计算符的生成文法是基于TML语言实现。TML语言的文法具体参见论文：李佳静*,李晓明,孟涛，TML：一种通用高效的文本挖掘语言,计算机研究与发展,2015，52(3)：553-560。

下表给出了正则表达式的例子：

正则表达式LAW-MARRIAGE-FACTOR-EMOTION定义了“被告具有赌博、酗酒或家暴”等不良习惯的事实要素。

下表给出概念举例的例子：

概念ACCUSER-DEFENDANT定义了案件中的角色，OR("被告","原告")中"被告","原告"为字符串常量，OR是计算符。简单概念AGREE-DIVOICE定义了对离婚的认同情况。

下表给出概念的关系的示例：

上表中首先定义了概念SOLDIER，它由字符串“军人”组成；然后定义关系SOLDIERCONSENTDIVORCE。当SOLDIER和顺序出现的“同意”“离婚”的距离不超过15时，认为满足“军人同意离婚”这个关系。

所述知识抽取为对行业领域的文本段落，自动将实体、对象抽取出来，形成结构化的可移植信息。下表为已经涵盖的行业示例：

所述类目标签为对行业领域的文本段落，进行信息分类，同时为各类信息打上标签。目前在政府舆情，公共安全，人类行为和商情实体关系挖掘方面，都有丰富的知识储备，每个领域均提供50多项预设标签，如下表所示：

情感识别为对行业领域文本段落，进行智能化的正负面情感判别，同时基于判别结果输出足够细粒度的详情信息。

例如，可以指定一个品牌某款产品，进而收集与之相关的消费者评价，分析后的结果，包括：分别在使用功效、质量、价格等维度上，进行细分的正负面评价统计。

又例如,可以指定一个公司或股票名称,进而收集与之相关的新闻报道,分析后的结果,包括:分别在人事变动、市场合作、投融资、技术研发等维度上,进行细分的正负面评价.如果一篇报道涉及多家公司,则分别计算每一家公司的相应情感。

关系挖掘为任意搜索特定领域内的实体概念，系统将会就该概念通过网络爬虫，获取到更多与之相关的概念、关系等信息，同时将这些信息赋予不同的权重。如图5给出的是针对IBM的关系挖掘结果示意图。

如附图2所述知识抽取引擎包括编译器和运行处理机。

所述编译器将由领域专家编写大量的知识进行推理规则编译优化，以及基于标注语料训练机器学习模型。所述运行处理机将训练好的模型和引擎应用于分析数据的工作；其分析数据的工作在运行虚拟机中完成；其分析数据实现的算法包括机器学习算法、认知计算的模块、自然语言理解、知识图谱与web搜索。

其中由领域专家编写大量的知识推理规则编译优化，以及基于标注语料训练机器学习模型的工作，在编译器子模块3031中完成；在将TML代码编译成字节码时，对于不包含计算符的语句，可以将它们直接合并转化为有穷状态自动机来进行匹配；而对于使用了上下文计算符的抽取语句，需要将其转化为一组运行虚拟机指令加操作数以便执行。

而将训练好的模型和引擎应用于分析数据的工作，则在运行虚拟机子模块3032中完成。虚拟机将采集到的文本表示为概念标注图形式(称之为文本图),然后与3031生成的编译结果进行匹配。在匹配过程中，需要记录每一步的相关信息，在匹配结束时将所有非终结符的匹配轨迹导出。

如附图3所述知识学习模块304包括概念学习子模块3041和概念关系学习子模块3042。

概念学习子模块：利用对概念的内部组成的学习方法和对概念的外部环境的学习方法扩大知识。概念的内部组成的学习方法利用概念的语义相似性来进行学习。例如经过word2vec模型学习将“呼吸困难”，“窒息”，“气紧”的同义词扩展为“OR(呼吸困难，气来,气紧,窒息,大气,透不过气,出不上,濒死,粗气,压气,心律不齐)”。其中“OR”运算符如前定义。

对概念的外部环境的学习方法利用概念的上下文环境特征来进行学习；并根据标注结果识别新概念。例如将概念抽取转变为BMES式的序列标注，训练结合LSTM和链式CRF的方法来进行自动序列标注。根据标注结果识别新概念。例如在语句“健肾平喘汤联合硫酸沙丁胺醇气雾剂吸入治疗慢性持续期哮喘”中，可以通过自动标注发现“硫酸沙丁胺醇”是概念“药品”的实例。

概念关系学习子模块：将匹配了概念关系的文本作为训练语料，将关系抽取作为深度学习的分类问题，学习特定的上下文关系可以确定此种关系。例如“服用氟氧沙星导致腹部不适、纳减和腹泻”中，确定了药物“氟氧沙星”与症状“腹部不适、纳减和腹泻”具有关系“不良反应”。将匹配了该关系的作为训练预料中的正例，不匹配该关系的文本作为反例，将关系抽取任务当做分类问题，从而学习各种分类模型，然后使用训练好的分类器预测关系。例如使用卷积网络(CNN)完成概念关系学习。

如附图4所述知识推理模块306包括逻辑推理子模块3061和关系推理子模块3062。

所述逻辑推理子模块：区分事实要素和结果要素，然后基于历史数据预测新案例结果。例如基于裁判文书库，建立推理模型，并对用户描述的法律事件进行预判。

所述关系推理子模块：基于语义理解文本匹配建立得到的关系网，判断新的关系是否能成立。；例如利用两个作者发表的论文，推断其是否为领域小同行。

所述数据采集模块、所述文本预处理模块、所述知识抽取引擎是基于TML系统F实现。TML实现了网络爬虫、中文分词、词性标注、命名实体抽取、通用概念与关系抽取、文本分类、关键词抽取等常见技术，并将它们形成一个分析流水线，并与Hadoop相结合以处理海量的数据。关于TML系统的实现方法具体参见论文：李佳静*,李晓明,孟涛，TML：一种通用高效的文本挖掘语言,计算机研究与发展,2015，52(3)：553-560。

虽然本发明已以较佳实施例公开如上，但它们并不是用来限定本发明的，任何熟习此技艺者，在不脱离本发明之精神和范围内，自当可作各种变化或润饰，因此本发明的保护范围应当以本申请的权利要求保护范围所界定的为准。

Claims

1.一种通用的知识图谱云服务系统，包括领域专家终端、企业用户终端和云端服务器，其特征在于：所述的领域专家终端与云端服务器网络连接；所述的企业用户终端与云端服务器网络连接；

领域专家通过领域专家终端定义本领域知识图谱上传至云端服务器；所述知识图谱为使用包含上下文运算符的生成文法描述的知识图谱；

企业用户通过企业用户终端向云端服务器提交定制的文本分析服务请求，以及查看文本与知识图谱的匹配结果请求；所述企业用户终端包括服务定制模块和结果展示模块；所述服务定制模块为企业用户定制的文本分析服务请求的类型；所述结果展示模块将云端服务器的分析结果进行可视化展示；

所述云端服务器包括数据采集模块、文本预处理模块、知识抽取引擎、知识学习模块、知识推理模块、领域知识图谱库；

所述数据采集模块采集WEB外部数据和企业内部数据；

所述文本预处理模块对数据采集模块采集的数据进行处理；处理的方法包括自然语言处理的基本手段；所述自然语言处理的基本手段为中文分词、词性标注、命名实体抽取、通用概念与关系抽取中的一种或者多种；

所述知识抽取引擎将经过文本预处理模块的数据和信息进行提炼出各种有价值的知识；

所述知识学习模块将经过知识抽取引擎的数据和信息进行半自动或自动的定义知识，积累和扩大概念、关系和推理规则集合；

所述知识推理模块将经过知识抽取引擎处理的数据和信息进行本领域内的各种数据和标注结果，并经由深度神经网络技术以及机器学习转化为可以对新数据进行分类、推理和预测的模型；

所述领域知识图谱库描述各个领域和行业内中存在的各种实体或概念及其关系,并构成一张巨大的语义网络图，其中节点表示实体或概念，边表示属性或关系构成。

2.根据权利要求1所述的一种通用的知识图谱云服务系统，其特征在于：所述上下文环境计算符号包括但不限于：

“SENT”：作用域内的所有概念必须出现在一条语句中；

“ORD”：作用域内的所有概念顺序出现；

“CONT”：作用域内的所有概念相邻；

“AND”：作用域中的所有字句必须同时在输入文本中出现

“NOT”：作用域中的字句不能出现，否则输入文本不匹配。

3.根据权利要求1所述的一种通用的知识图谱云服务系统，其特征在于：

4.根据权利要求1所述的一种通用的知识图谱云服务系统，其特征在于：企业用户向云端服务器提交定制的文本分析服务请求的类型包括但不限于知识抽取、类目标签、情感识别、关系挖掘：

所述知识抽取为对行业领域的文本段落，自动将实体、对象抽取出来，形成结构化的可移植信息；

所述类目标签为对行业领域的文本段落，进行信息分类，同时为各类信息打上标签；

所述情感识别为对行业领域文本段落，进行智能化的正负面情感判别，同时基于判别结果输出足够细粒度的详情信息；

关系挖掘为任意搜索特定领域内的实体概念，系统将会就该概念通过网络爬虫，获取到更多与之相关的概念、关系的信息，同时将这些信息赋予不同的权重。

5.根据权利要求1所述的一种通用的知识图谱云服务系统，其特征在于：所述知识抽取引擎包括编译器和运行处理机；

所述编译器将由领域专家编写大量的知识进行推理规则编译优化，以及基于标注语料训练机器学习模型；

6.根据权利要求1所述的一种通用的知识图谱云服务系统，其特征在于：

所述知识学习模块包括概念学习子模块和概念关系学习子模块：

所述概念学习子模块：利用对概念的内部组成的学习方法和对概念的外部环境的学习方法扩大知识；概念的内部组成的学习方法利用概念的语义相似性来进行学习；对概念的外部环境的学习方法利用概念的上下文环境特征来进行学习；并根据标注结果识别新概念；

7.根据权利要求1所述的一种通用的知识图谱云服务系统，其特征在于：所述知识推理模块包括逻辑推理子模块和关系推理子模块：

所述逻辑推理子模块：区分事实要素和结果要素，然后基于历史数据预测新案例结果；

8.根据权利要求1所述的一种通用的知识图谱云服务系统，其特征在于：所述数据采集模块、所述文本预处理模块、所述知识抽取引擎是基于TML系统实现。