CN107967267A - 一种知识图谱构建方法、装置及系统 - Google Patents
一种知识图谱构建方法、装置及系统 Download PDFInfo
- Publication number
- CN107967267A CN107967267A CN201610908410.5A CN201610908410A CN107967267A CN 107967267 A CN107967267 A CN 107967267A CN 201610908410 A CN201610908410 A CN 201610908410A CN 107967267 A CN107967267 A CN 107967267A
- Authority
- CN
- China
- Prior art keywords
- entity
- data
- knowledge mapping
- extraction
- collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 86
- 238000010276 construction Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 79
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000000605 extraction Methods 0.000 claims description 68
- 239000000463 material Substances 0.000 claims description 32
- 239000003607 modifier Substances 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 41
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 235000012054 meals Nutrition 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 241000270322 Lepidosauria Species 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 230000008713 feedback mechanism Effects 0.000 description 4
- 238000004092 self-diagnosis Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000003936 working memory Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种知识图谱构建方法、装置及系统,涉及人工智能技术领域,用以解决现有技术中知识采集系统定制化程度高,灵活度差,耗费人力成本且效率低下的问题。所述方法包括:根据预设的数据源规则采集相应数据;通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱。
Description
技术领域
本发明涉及人工智能技术领域,特别是涉及一种知识图谱构建方法、装置及系统。
背景技术
在互联网时代,搜索引擎是人们在线获取信息和知识的重要工具。当用户输入一个查询词,搜索引擎会返回它认为与这个关键词最相关的网页以及查询词相关的知识图谱。
例如,如果想知道“泰山”的相关信息,可以通过搜索引擎搜索“泰山”,搜索引擎会尝试将这个字符串与抓取的大规模网页做比对,根据网页与这个查询词的相关程度,以及网页本身的重要性,对网页进行排序,作为搜索结果返回给用户。而知识图谱则会将“泰山”理解为一个“实体”(entity),也就是一个现实世界中的事物。这样,搜索引擎会在搜索结果中显示它的基本资料,例如地理位置、海拔高度、别名,以及百科链接等等,此外甚至还会告诉你一些相关的“实体”,如嵩山、华山、衡山和恒山等其他三山五岳等。
知识图谱为查询词赋予丰富的语义信息,建立与现实世界实体的关系,从而帮助用户更快找到所需的信息,可见知识图谱具有重要的现实意义,但是如何快速有效地构建知识图谱一直是业界的一大挑战。现有技术中的知识图谱的构建数据来源复杂多样,知识采集系统定制化程度高,灵活度差,耗费人力成本且效率低下。
发明内容
本发明要解决的技术问题是提供一种知识图谱构建方法、装置及系统,用以解决现有技术中知识采集系统定制化程度高,灵活度差,耗费人力成本且效率低下的问题。
一方面,本发明提供一种知识图谱构建方法,包括:根据预设的数据源规则采集相应数据;通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱。
可选的,所述数据源规则包括以下至少一种:要采集的数据的数据源种类、数据格式和采集策略。
可选的,所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱包括:通过训练模型对采集的数据抽取实体关系实例语料;对抽取的所述实体关系实例语料分别进行实体识别、类别提取、关系提取以及属性提取;根据识别出的实体,提取出的所述实体的类别和属性,以及所述实体与其他实体之间的关系,形成相应的知识图谱。
可选的,所述实体识别包括:根据已标注的语料训练实体识别模型;通过所述实体识别模型,对生文本语料进行实体识别;所述类别提取、所述关系提取以及所述属性提取包括:通过模板匹配的方式,分别进行类别提取、关系提取以及属性提取。
进一步的,在所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱之后,所述方法还包括:对所述知识图谱的正确性进行评价及标注。
进一步的,在所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱之后,所述方法还包括:根据用户对所述知识图谱的反馈修正所述训练模型。
另一方面,本发明还提供一种知识图谱构建装置,包括:采集单元,用于根据预设的数据源规则采集相应数据;抽取单元,用于通过训练模型对所述采集单元采集的数据抽取实体关系,以形成相应的知识图谱。
可选的,所述数据源规则包括以下至少一种:要采集的数据的数据源种类、数据格式和采集策略。
可选的,所述抽取单元包括:抽取模块,用于通过训练模型对采集的数据抽取实体关系实例语料;识别和提取模块,用于对抽取的所述实体关系实例语料分别进行实体识别、类别提取、关系提取以及属性提取;形成模块,用于根据所述识别和提取模块识别出的实体,提取出的所述实体的类别和属性,以及所述实体与其他实体之间的关系,形成相应的知识图谱。
可选的,所述识别和提取模块,具体用于:根据已标注的语料训练实体识别模型;通过训练后的所述实体识别模型,对生文本语料进行实体识别;通过模板匹配的方式,分别进行类别提取、关系提取以及属性提取。
进一步的,所述装置还包括:监督单元,用于在所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱之后,对所述知识图谱的正确性进行评价及标注。
进一步的,所述装置还包括:修正单元,用于根据用户对所述知识图谱的反馈修正所述训练模型。
另一方面,本发明还提供一种智能互动系统,包括前述实施例提供的任一种知识图谱构建装置。
可选的,所述系统包括智能客服系统、聊天机器人系统、搜索服务系统以及语音助手系统中的至少一种。
本发明实施例提供的知识图谱构建方法、装置及系统,能够根据预设的数据源规则采集相应数据,通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱。这样,当面对复杂多变的数据源时,无需修改各个具体应用,只需直接修改相应的数据源规则,即可采集到所需的数据,通过数据源规则的设置和修改将数据源与数据采集松耦合,因此大大提高了系统的灵活度,为海量数据的采集提供了有效保障。
附图说明
图1是本发明实施例提供的知识图谱构建方法的一种流程图;
图2是本发明实施例中数据源规则引擎的一种结构示意图;
图3是本发明实施例中分类页面的一种结构示意图;
图4是本发明实施例中实体识别过程示意图;
图5是本发明实施例中使用开放域实体上位词获取算法的一种示意图;
图6是本发明实施例中知识图谱形成和反馈过程对应的系统的一种示意图;
图7是本发明实施例提供的知识图谱构建方法所基于的系统的一种结构示意图;
图8是图7所示的系统作为智能客服系统知识库实施的一种示意图;
图9是图7所示系统作为聊天机器人语料库实施的一种示意图;
图10是图7所示系统作为搜索服务知识库实施的一种示意图;
图11是图7所示系统作为语音助手语料库实施的一种示意图。
具体实施方式
以下结合附图对本发明进行详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
如图1所示,本发明实施例提供一种知识图谱构建方法,包括:
S11,根据预设的数据源规则采集相应数据;
S12,通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱。
本发明实施例提供的知识图谱构建方法,能够根据预设的数据源规则采集相应数据,通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱。这样,当面对复杂多变的数据源时,无需修改各个具体应用,只需直接修改相应的数据源规则,即可采集到所需的数据,通过数据源规则的设置和修改将数据源与数据采集松耦合,因此大大提高了系统的灵活度,为海量数据的采集提供了有效保障。
可选的,步骤S11中,数据源规则可以包括以下一种或多种:要采集的数据的数据源种类、数据格式和采集策略。在本发明的一个实施例中,可以将数据采集过程设置成一种数据源规则引擎。数据源规则引擎类似于一个IF/THEN的高级解释器,能够将数据源中的数据与规则库里的规则进行对比,激活相符合的规则,再根据规则中声明的执行逻辑进行相应操作。
具体而言,数据源规则引擎可以是一个易于访问、易于调整以及易于管理的多态数据源规则引擎,主要包括三部分:规则库(Rules)、匹配引擎(Inference Engine)和事实工作内存(Working Memory),如图2所示。其中,数据源采集规则存储在规则库(ProductionMemory)中,要匹配的事实(facts)存储在工作内存(Working Memory)中。事实被插入到工作内存后,可能被修改或者删除。一个有大量规则和事实的系统可能会有很多规则被满足,这些规则被称为具有冲突性。议程(Agenda)可以通过冲突决策策略管理这些冲突规则的执行顺序。
数据源规则引擎可以采用RETE算法实现,包括:规则编译(rule compilation)和运行时执行(runtime execution)。其中,规则编译是指根据规则集生成推理网络的过程,运行时执行指将数据送入推理网络进行筛选的过程。当进行多态数据源的采集时,从规则集{规则1,规则2……..}中拿出一条来,根据一定算法,变成RETE推理网络的节点。不断循环将所有规则都处理完,RETE推理网络就生成了。
形成了具体的数据源规则后,具体的数据采集操作可以由爬虫集群来执行。具体的,爬虫集群可以采用多源规则引擎作为抓取逻辑,确定抓取什么样的数据源、数据源格式、抓取策略等。进一步的,为了保障爬虫集群爬取数据的质量,可以对爬取数据进行预处理,例如可以进行数据清洗、转换等。
根据预设的数据源采集规则采集数据后,即可进行步骤S12,通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱。可选的,所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱具体可包括:
通过训练模型对采集的数据抽取实体关系实例语料;
对抽取的所述实体关系实例语料分别进行实体识别、类别提取、关系提取以及属性提取;
根据识别出的实体,提取出的所述实体的类别和属性,以及所述实体与其他实体之间的关系,形成相应的知识图谱。
具体的,知识图谱可包含两类页面:词条文章页面和类别页面。一个词条文章页面描述了一个实例,一个分类页面描述了一个概念。如图3所示,在分类页面中,可以列出子类、父类以及相关的孩子节点(即具体的词条)。通过解析这些页面来构建一张图,图中的每个节点指的是某个词条或某个类别,而图中的每一条边指的就是类别X至其某个子类或者从某个类别X至一篇X类别下的词条文章。这样,词条文章(实例)和类别(概念)就可以形成一个分类树系统。
一个知识库往往拥有着预先定义好的关系,例如“居住“(人,地点)和”写作“(作者,书)。这样的一个关系的实例包含了概念的实例,彼此之间存在着一种概念的映射关系。例如,“居住”(姚明,上海)就是关系“居住”(人,地点)的一个实例。理论上,可以试图去定义这样的一系列关系,之后再去抽取他们的实例。但是这样做会引起两个问题。首先,海量知识数据中包含着上亿条可能感兴趣的潜在关系,并且这个关系集合每天都在发生着变化,因此,想要快速定义大量有价值的关系是不切实际的。其次,一个更为严重的问题是,从任何非结构化的纯文本中抽取关系实例是非常困难的,并且所消耗的计算代价也十分巨大。
由于上述原因,本实施例中不是预先定义一系列的关系,也不尝试去抽取这些关系的实例,而是直接抓取两个概念在词条页面里所存在的任意关系实例。例如,假设“姚明”这一词条中有一个节标题称作”个人生活“,这其中提到了另一个词条页面—“叶莉”。那么接下来就可以创建一个关系实例--(姚明,叶莉,个人生活),其表示姚明和叶莉直接有一个关系称作“个人生活”。可选的,抽取的关系实例具有以下形式:概念实例1的名字,概念实例2的名字,表达两个实例间某种关系的文本。
通过训练模型对采集的数据抽取实体关系实例语料之后,可以对训练模型输出的语料进行分词处理、语义分析、实体识别、类别提取、关系提取以及属性提取等自主学习过程。其中,语义分析是自主学习的一个逻辑阶段,语义分析的任务是对结构上正确的语料进行上下文有关性质的审查,进行类型审查。语义分析是审查语料有无语义错误,为知识图谱生成阶段收集类型信息。实体识别是信息提取、问答系统、句法分析、机器翻译、面向语义网元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。实体识别(NER)的目的为从语料中抽取出特定领域相关实体。例如,“如何 办理 酒店 留言灯 优惠 套餐?答:…”,其中加粗部分即为电信领域相关实体。
可选的,本实施例中,实体识别可包括:
根据已标注的语料训练实体识别模型;
通过所述实体识别模型,对生文本语料进行实体识别;
如图4所示,可以首先通过标注语料获得一定数量的已标注的NER数据,用于训练NER模型。然后对于给定的生文本语料,先进行文本预处理(分词、词性标注等),然后使用训练好的NER模型进行NER识别,最终得到NER识别结果。可选的,可以使用在线学习算法实现NER模块核心算法。将实体识别建模为基于词的序列标注问题。对于输入句子的词序列,模型给句子中的每个词标注一个标识命名实体边界和实体类别的标记。在本发明的一个实施例中,定义的NER类型有4种。见表1所示。
表1
NER类型 | NER标记 |
业务 | SER |
套餐 | PACK |
机构 | ORG |
其他电信领域实体 | NER |
基于上述实体识别的步骤,所述类别提取、所述关系提取以及所述属性提取可包括:通过模板匹配的方式,分别进行类别提取、关系提取以及属性提取。下面分别对类别提取、关系提取以及属性提取进行详细说明。
具体的,对于类别提取,其目的为从语料中抽取出实体的类别。例:“飞 young 套餐 校园 T9 套餐 是中国电信面向校园内大中专学生推出的3G 手机 套餐”,其中斜体加粗部分为电信领域相关实体,非斜体加粗部分为实体对应的类别。
可选的,对于生文本语料的输入,先进行文本预处理(分词、词性标注、NER识别等),然后可以通过NER信息或者模板匹配的方式获得实体的类别:
对于NER信息方式,经过NER识别后,可以发现语料中的电信领域相关实体,而对于“SER”、“PACK”、“ORG”,显然是可以得到其对应的类别为“业务”、“套餐”、“机构”。
对于模板匹配方式,可以使用以下模板来获得实体类别:
1、x是[一个|一种]y
2、x[、]等y
3、y[,]特别是x
其中x为电信领域相关实体,y为对应的实体类别,例:“天翼手机套餐是3G套餐。”经过模板匹配以后,再进行相应的候选过滤,主要体现为设定过滤词表,并去除特定前后缀的词。
可选的,如图5所示,也可以使用开放域实体上位词获取算法,例如可以通过利用百度搜索页面、百度百科页面、互动百科页面中的信息,获取上位词候选,再通过一个LR模型,输出有序上位词列表。
具体的,对于实体关系抽取而言,其目的为从语料中抽取出实体的关系。例:“天翼领航 A8 信息版 套餐 如何 办理?答:…”,其中斜体加粗部分为电信领域相关实体,非斜体加粗部分为实体对应的关系。
对于生文本语料的输入,先进行文本预处理(分词、词性标注、NER识别等),然后通过模板匹配的方式获得实体关系。可选的,模板匹配主要可以使用如下5个模板:
1、什么是x
2、x是什么
3、x怎么|如何y
4、怎么|如何y x
5、x适用于什么|哪些用户
其中x为电信领域相关实体,y为对应的实体关系。
具体的,对于实体属性抽取而言,其目的为从语料中抽取出实体的属性。例:“加密通信 业务 有 哪些 功能?答:…”,其中斜体加粗部分为电信领域相关实体,非斜体加粗部分为实体对应的属性。
对于生文本语料的输入,先进行文本预处理(分词、词性标注、NER识别等),然后通过模板匹配的方式获得实体属性。可选的,模板匹配主要使用2个模板:
1、x有什么|哪些y
2、x[的]y是什么|多少
进一步的,为了对上述自主学习过程进行有效监控和动态反馈,可以对训练学习效果进行自我诊断测评。自我诊断测评在初次训练时,系统的认知基础判断要通过诊断性评价获取数据,训练完成后的评价是下一步学习内容适应性的依据,也是调整训练目标的基础,可见自我诊断测评是动态反馈机制的重要组成部分。
进一步的,在所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱之后,本发明实施例提供的知识图谱构建方法还可包括:根据用户对所述知识图谱的反馈修正所述训练模型。通过跟踪训练过程,分析推导训练行为规律,及时将信息反馈来修正训练模型。
如图6所示,将上述知识图谱的形成过程和反馈过程分别抽象成训练子系统和反馈子系统。训练子系统既是采集子系统语料数据的输入者,也是训练后知识图谱数据的输出者,输出到监督子系统中,反馈子系统从存储及应用子系统中采集评价及反馈数据,然后对训练模型进行动态修正,进而调整训练子系统中的训练模型,形成一个动态的训练及反馈系统。训练子系统在训练时需要经过确定训练目标、自主学习以及自我诊断测评三个过程。训练目标是构建分类树及抽取实体关系。反馈子系统能够跟踪训练过程,分析推导训练行为规律,及时将信息反馈至训练子系统指定训练。动态反馈模块是反馈子系统的调度中心,是将行为分析评价数据以定量的方式动态修正训练子系统的训练模型。其中学习模型库、绩效评测库的设计和构建是动态反馈机制有效运行的重要基础。学习模型库是自主学习支持系统实现训练过程有效监控与动态反馈机制的核心模块,学习模型既要描述学习者的静态学习特性也要记录动态学习的过程信息。绩效评测库则是一个以多元智能理论为基础的质量评价数据系统,数据来自于自评模式和他评模式,同时在学习模型库中设置动态标记,以修正和维护学习模块,建立学习评价模式,实现训练过程的动态评价。
进一步的,在所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱之后,本发明实施例提供的知识图谱构建方法还可包括:对所述知识图谱的正确性进行评价及标注,也就是可以对步骤S12中的知识图谱数据进行评价及标注,保证知识图谱数据的准确性。为了保证系统的运行效率尽量避免人工参与,对于重要的实体类数据可以由人工进行标注,对于一般领域的信息可以根据规则减少人工参与度,由程序完成监督。监督结果可以以三元组的方式存储起来。
下面通过具体实施例对本发明实施例提供的知识图谱构建方法进行详细说明。
本发明实施例提供的知识图谱构建方法所基于的系统可如图7所示。图8是图7所示的系统作为智能客服系统知识库的示意图。结合图7和图8,本发明提供的知识图谱构建方法具体可包括如下步骤:
步骤801,采集子系统根据数据源规则引擎配置客服系统的数据采集规则,客服系统一般是特定领域,采集规则需要针对该特定领域的知识数据进行采集。
步骤802,训练子系统根据客服系统的知识模型进行训练、学习,客服系统训练输出的数据包含实体、实体关系及属性等(问答对)。
步骤803,监督子系统是对训练子系统训练的结果数据进行评价及标注,保证知识图谱数据的准确性。为了保证系统的运行效率尽量避免人工参与,例如对于重要的实体类数据由人工进行标注,对于一般领域的信息根据规则减少人工参与度。
步骤804,监督子系统输出的数据由存储与应用子系统以三元组的方式存储起来。
步骤805,用户登录客服系统,咨询或者办理相关业务。
步骤806,智能客服系统对用户的输入问句进行语义分析。
步骤807,智能客服系统对用户进行意图识别、语境识别。
步骤808,智能客服系统根据上述自然语言处理的结果生成检索或者推理请求。
步骤809,本方案知识图谱存储与应用子系统解析智能客服系统的检索或者推理请求。
步骤810,本方案知识图谱存储与应用子系统返回相应的知识数据。
步骤811,智能客服系统对知识数据进一步处理,生成相应的答案或者推理答案。
步骤812,用户收到相应问题的答案。
步骤813,用户对收到问题的答案进行评价。
步骤814,评价数据发给反馈子系统。
步骤815,反馈子系统对评价数据进行训练,动态调整训练子系统的训练模型。
步骤816,训练子系统根据动态修正后的训练模型重新训练学习。
步骤817,训练学习后的数据经过监督子系统处理后,更新到存储与应用子系统。
图9为图7所示系统作为聊天机器人语料库实施的示意图。本方案首先完成聊天机器人语料库的自学习及构建,另外提供知识图谱应用服务,聊天机器人与本方案交互,本方案作为服务端,并把知识图谱数据传递给聊天机器人。数据流程与图8所示的实施例大致相同,不同点如下:
首先,聊天机器人的语料与智能客服不同,不仅包含实体、实体类别、实体属性等基本的知识结构,还包含基本对话的规则等,本方案采集子系统的数据源规则引擎主要面向对话的数据进行采集。
其次,聊天机器人与本方案交互时,需要根据知识图谱应用服务响应的数据进行包装加工,以便响应更符合实际对话的应用场景。
图10为作为搜索服务知识库实施例的示意图。本方案首先完成搜索引擎知识及网页内容的自学习及构建,另外提供知识图谱应用服务,搜索引擎与本方案交互,本方案作为服务端,并把知识图谱数据传递给搜索引擎。数据流程与图8大致相同,不同点如下:
首先,搜索引擎的语料与智能客服不同,不仅包含实体、实体类别、实体属性等基本的知识结构,还网站地址及分类等,本方案采集子系统的数据源规则引擎主要面向搜索的数据进行采集。
其次,本方案的知识图谱构建完成后,搜索引擎的索引子系统需要对本方案的数据进行采集,采集的结果存储在索引子系统中,并通过检索子系统对外提供服务。搜索引擎的管理子系统管理搜索引擎及本方案的关联关系。
图11为作为语音助手语料库实施的示意图。本方案首先完成语音助手语料库的自学习及构建,然后提供知识图谱应用服务,语音与本方案交互,本方案作为服务端,并把知识图谱数据传递给语音助手。数据流程与图8大致相同,不同点如下:
首先,语音助手的语料与智能客服不同,不仅包含实体、实体类别、实体属性等基本的知识结构,还包含口语咨询、业务办理等,本方案采集子系统的数据源规则引擎主要口语咨询、业务办理的数据进行采集。
其次,语音助手与本方案交互时,需要先对语音的输入进行处理,转换为相应文字,知识图谱应用服务对转换后的文字进行语义理解,然后包装加工相应的语料进行响应,对于需要调用应用的服务转给第三方的应用系统进行处理。
本发明实施例提供的知识图谱构建的方案,实现一个基于分布式爬虫的数据采集集群,数据源可以由规则引擎灵活配置,大大提高数据采集的广度与深度;实现一个知识图谱正反双向训练模型,通过正向训练模型对采集的数据进行训练,从中学习实体、关系以及属性等特征,通过反向模型对反馈或者专家标注的数据进行训练,对训练模型进行修正;实现了知识图谱质量管控体系,对于核心领域的知识可以选择监督或者半监督的方式进行管理,同时引入反馈机制,由知识图谱的上层应用对知识的质量进行反向评价,动态修正训练模型,逐步提高训练模型的成熟度。为智能客服、聊天机器人以及搜索引擎等知识图谱相关应用提供了高质量的知识图谱智能化构建方法。
相应的,本发明的实施例还提供一种知识图谱构建装置,包括:
采集单元,用于根据预设的数据源规则采集相应数据;
抽取单元,用于通过训练模型对所述采集单元采集的数据抽取实体关系,以形成相应的知识图谱。
本发明实施例提供的知识图谱构建装置,采集单元能够根据预设的数据源规则采集相应数据,抽取单元能够通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱。这样,当面对复杂多变的数据源时,无需修改各个具体应用,只需直接修改相应的数据源规则,即可采集到所需的数据,通过数据源规则的设置和修改将数据源与数据采集松耦合,因此大大提高了系统的灵活度,为海量数据的采集提供了有效保障。
可选的,所述数据源规则包括以下至少一种:要采集的数据的数据源种类、数据格式和采集策略。
可选的,抽取单元可包括:
抽取模块,用于通过训练模型对采集的数据抽取实体关系实例语料;
识别和提取模块,用于对抽取的所述实体关系实例语料分别进行实体识别、类别提取、关系提取以及属性提取;
形成模块,用于根据所述识别和提取模块识别出的实体,提取出的所述实体的类别和属性,以及所述实体与其他实体之间的关系,形成相应的知识图谱。
可选的,所述识别和提取模块,具体可用于:根据已标注的语料训练实体识别模型;通过训练后的所述实体识别模型,对生文本语料进行实体识别;通过模板匹配的方式,分别进行类别提取、关系提取以及属性提取。
进一步的,本发明实施例提供的知识图谱构建装置还可包括:监督单元,用于在所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱之后,对所述知识图谱的正确性进行评价及标注。
进一步的,本发明实施例提供的知识图谱构建装置还可包括:修正单元,用于根据用户对所述知识图谱的反馈修正所述训练模型。
相应的,本发明还提供一种智能互动系统,包括前述实施例提供的任一种知识图谱构建装置,因此也能实现相应的效果,前文已经进行了详细说明,此处不再赘述。
可选的,所述智能互动系统,可包括智能客服系统、聊天机器人系统、搜索服务系统以及语音助手系统中的一种或多种。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (14)
1.一种知识图谱构建方法,其特征在于,包括:
根据预设的数据源规则采集相应数据;
通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述数据源规则包括以下至少一种:要采集的数据的数据源种类、数据格式和采集策略。
3.根据权利要求1所述的方法,其特征在于,所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱包括:
通过训练模型对采集的数据抽取实体关系实例语料;
对抽取的所述实体关系实例语料分别进行实体识别、类别提取、关系提取以及属性提取;
根据识别出的实体,提取出的所述实体的类别和属性,以及所述实体与其他实体之间的关系,形成相应的知识图谱。
4.根据权利要求3所述的方法,其特征在于,所述实体识别包括:
根据已标注的语料训练实体识别模型;
通过所述实体识别模型,对生文本语料进行实体识别;
所述类别提取、所述关系提取以及所述属性提取包括:
通过模板匹配的方式,分别进行类别提取、关系提取以及属性提取。
5.根据权利要求1所述的方法,其特征在于,在所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱之后,所述方法还包括:
对所述知识图谱的正确性进行评价及标注。
6.根据权利要求1至5中任一项所述的方法,其特征在于,在所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱之后,所述方法还包括:
根据用户对所述知识图谱的反馈修正所述训练模型。
7.一种知识图谱构建装置,其特征在于,包括:
采集单元,用于根据预设的数据源规则采集相应数据;
抽取单元,用于通过训练模型对所述采集单元采集的数据抽取实体关系,以形成相应的知识图谱。
8.根据权利要求7所述的装置,其特征在于,所述数据源规则包括以下至少一种:要采集的数据的数据源种类、数据格式和采集策略。
9.根据权利要求7所述的装置,其特征在于,所述抽取单元包括:
抽取模块,用于通过训练模型对采集的数据抽取实体关系实例语料;
识别和提取模块,用于对抽取的所述实体关系实例语料分别进行实体识别、类别提取、关系提取以及属性提取;
形成模块,用于根据所述识别和提取模块识别出的实体,提取出的所述实体的类别和属性,以及所述实体与其他实体之间的关系,形成相应的知识图谱。
10.根据权利要求9所述的装置,其特征在于,所述识别和提取模块,具体用于:
根据已标注的语料训练实体识别模型;
通过训练后的所述实体识别模型,对生文本语料进行实体识别;
通过模板匹配的方式,分别进行类别提取、关系提取以及属性提取。
11.根据权利要求7所述的装置,其特征在于,还包括:监督单元,用于在所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱之后,对所述知识图谱的正确性进行评价及标注。
12.根据权利要求7至11中任一项所述的装置,其特征在于,还包括:修正单元,用于根据用户对所述知识图谱的反馈修正所述训练模型。
13.一种智能互动系统,其特征在于,包括权利要求7至12中任一项所述的知识图谱构建装置。
14.根据权利要求13所述的系统,其特征在于,包括智能客服系统、聊天机器人系统、搜索服务系统以及语音助手系统中的至少一种。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610908410.5A CN107967267A (zh) | 2016-10-18 | 2016-10-18 | 一种知识图谱构建方法、装置及系统 |
PCT/CN2017/100148 WO2018072563A1 (zh) | 2016-10-18 | 2017-09-01 | 一种知识图谱构建方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610908410.5A CN107967267A (zh) | 2016-10-18 | 2016-10-18 | 一种知识图谱构建方法、装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107967267A true CN107967267A (zh) | 2018-04-27 |
Family
ID=61996189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610908410.5A Pending CN107967267A (zh) | 2016-10-18 | 2016-10-18 | 一种知识图谱构建方法、装置及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107967267A (zh) |
WO (1) | WO2018072563A1 (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763555A (zh) * | 2018-06-01 | 2018-11-06 | 北京奇虎科技有限公司 | 基于需求词的画像数据获取方法及装置 |
CN108776900A (zh) * | 2018-07-02 | 2018-11-09 | 北京市天元网络技术股份有限公司 | 网络投诉智能定界方法及系统 |
CN109189942A (zh) * | 2018-09-12 | 2019-01-11 | 山东大学 | 一种专利数据知识图谱的构建方法及装置 |
CN109241062A (zh) * | 2018-09-27 | 2019-01-18 | 国信优易数据有限公司 | 一种政务数据目录的生成方法及装置 |
CN109299289A (zh) * | 2018-11-30 | 2019-02-01 | 国信优易数据有限公司 | 一种查询图构建方法、装置、电子设备及计算机存储介质 |
CN109347801A (zh) * | 2018-09-17 | 2019-02-15 | 武汉大学 | 一种基于多源词嵌入和知识图谱的漏洞利用风险评估方法 |
CN109492112A (zh) * | 2018-10-24 | 2019-03-19 | 北京百科康讯科技有限公司 | 一种基于知识图谱的计算机辅助写作科普文章的方法 |
CN109582800A (zh) * | 2018-11-13 | 2019-04-05 | 北京合享智慧科技有限公司 | 一种训练结构化模型、文本结构化的方法及相关装置 |
CN109597894A (zh) * | 2018-09-30 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 一种关联模型生成方法及装置、一种数据关联方法及装置 |
CN109684313A (zh) * | 2018-12-14 | 2019-04-26 | 浪潮软件集团有限公司 | 一种数据清洗加工方法及系统 |
CN109726253A (zh) * | 2018-12-21 | 2019-05-07 | 义橙网络科技(上海)有限公司 | 人才图谱及人才画像的构建方法、装置、设备及介质 |
CN110232130A (zh) * | 2019-05-20 | 2019-09-13 | 平安科技(深圳)有限公司 | 元数据管理谱系生成方法、装置、计算机设备和存储介质 |
CN110533343A (zh) * | 2019-09-04 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 智能客服系统的数据处理方法、装置及电子设备 |
CN110705710A (zh) * | 2019-04-17 | 2020-01-17 | 中国石油大学(华东) | 一种基于知识图谱的工业故障分析专家系统 |
WO2020057175A1 (en) * | 2018-09-20 | 2020-03-26 | Huawei Technologies Co., Ltd. | Knowledge-based management of recognition models in artificial intelligence systems |
CN110970112A (zh) * | 2018-09-29 | 2020-04-07 | 九阳股份有限公司 | 一种面向营养健康的知识图谱构建方法和系统 |
CN111026815A (zh) * | 2019-12-05 | 2020-04-17 | 电子科技大学广东电子信息工程研究院 | 基于用户辅助修正下的实体对特定关系抽取方法 |
CN111090736A (zh) * | 2018-10-24 | 2020-05-01 | 马上消费金融股份有限公司 | 问答模型的训练方法、问答方法、装置及计算机存储介质 |
CN111392538A (zh) * | 2020-03-17 | 2020-07-10 | 浙江新再灵科技股份有限公司 | 一种基于多维物联网图谱大数据的电梯综合故障预警方法 |
CN111475503A (zh) * | 2019-12-27 | 2020-07-31 | 北京国双科技有限公司 | 一种虚拟知识图谱构建方法及装置 |
WO2020155749A1 (zh) * | 2019-01-31 | 2020-08-06 | 平安科技(深圳)有限公司 | 构建个人知识图谱的方法、装置、计算机设备和存储介质 |
CN111914569A (zh) * | 2020-08-10 | 2020-11-10 | 哈尔滨安天科技集团股份有限公司 | 基于融合图谱的预测方法、装置、电子设备及存储介质 |
CN111913563A (zh) * | 2019-05-07 | 2020-11-10 | 广东小天才科技有限公司 | 一种基于半监督学习的人机交互方法及装置 |
CN112905884A (zh) * | 2021-02-10 | 2021-06-04 | 北京百度网讯科技有限公司 | 生成序列标注模型的方法、设备、介质及程序产品 |
CN113408690A (zh) * | 2021-07-01 | 2021-09-17 | 之江实验室 | 基于多模态知识图谱的机器人个性化情感互动装置及方法 |
CN116028593A (zh) * | 2022-12-14 | 2023-04-28 | 北京百度网讯科技有限公司 | 文本中的人物身份信息识别方法及装置、电子设备和介质 |
Families Citing this family (77)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190295001A1 (en) * | 2018-03-21 | 2019-09-26 | International Business Machines Corporation | Cognitive data curation in a computing environment |
CN110728147B (zh) * | 2018-06-28 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 一种模型训练方法及命名实体识别方法 |
CN109271459B (zh) * | 2018-09-18 | 2021-12-21 | 四川长虹电器股份有限公司 | 基于Lucene和文法网络的聊天机器人及其实现方法 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
TWI682287B (zh) * | 2018-10-25 | 2020-01-11 | 財團法人資訊工業策進會 | 知識圖譜產生裝置、方法及其電腦程式產品 |
CN109522420B (zh) * | 2018-11-16 | 2022-04-22 | 广东小天才科技有限公司 | 一种获取学习需求的方法及系统 |
CN111209348B (zh) * | 2018-11-21 | 2023-09-29 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN109766445B (zh) * | 2018-12-13 | 2024-03-26 | 平安科技(深圳)有限公司 | 一种知识图谱构建方法及数据处理装置 |
CN109710942B (zh) * | 2018-12-28 | 2022-11-18 | 零犀(北京)科技有限公司 | 图谱的构建方法及装置、电子设备 |
CN109589616A (zh) * | 2019-01-29 | 2019-04-09 | 凌曙阳 | 一种智能玩具、应用程序、控制器工作方法及装置 |
CN110807091B (zh) * | 2019-03-01 | 2023-08-18 | 王涵 | 一种酒店智能问答推荐与决策支持分析方法及系统 |
CN112784062B (zh) * | 2019-03-15 | 2024-06-04 | 北京金山数字娱乐科技有限公司 | 一种成语知识图谱构建方法及装置 |
US11227018B2 (en) | 2019-06-27 | 2022-01-18 | International Business Machines Corporation | Auto generating reasoning query on a knowledge graph |
CN110598000B (zh) * | 2019-08-01 | 2023-06-09 | 达而观信息科技(上海)有限公司 | 一种基于深度学习模型的关系抽取及知识图谱构建方法 |
CN110489565B (zh) * | 2019-08-15 | 2023-05-16 | 广州拓尔思大数据有限公司 | 基于领域知识图谱本体中的对象根类型设计方法及系统 |
CN112434811A (zh) * | 2019-08-26 | 2021-03-02 | 华为技术有限公司 | 知识图谱构建方法及装置、计算设备、存储介质 |
CN110674637B (zh) * | 2019-09-06 | 2023-07-11 | 腾讯科技(深圳)有限公司 | 一种人物关系识别模型训练方法、装置、设备及介质 |
CN110765235B (zh) * | 2019-09-09 | 2023-09-05 | 深圳市人马互动科技有限公司 | 训练数据的生成方法、装置、终端及可读介质 |
CN110781311B (zh) * | 2019-09-18 | 2024-02-27 | 上海合合信息科技股份有限公司 | 一种企业一致行动人运算系统及方法 |
CN110674312B (zh) * | 2019-09-18 | 2022-05-17 | 泰康保险集团股份有限公司 | 构建知识图谱方法、装置、介质及电子设备 |
CN110766787A (zh) * | 2019-10-11 | 2020-02-07 | 南京摄星智能科技有限公司 | 一种基于语义驱动的3d态势场景智能构建技术 |
CN110795923B (zh) * | 2019-11-01 | 2024-03-22 | 达观数据有限公司 | 基于自然语言处理的技术文档自动生成系统及生成方法 |
CN110852109A (zh) * | 2019-11-11 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 语料生成方法、语料生成装置、和存储介质 |
CN111026874A (zh) * | 2019-11-22 | 2020-04-17 | 海信集团有限公司 | 知识图谱的数据处理方法及服务器 |
CN111177335B (zh) * | 2019-11-29 | 2023-11-21 | 广东轩辕网络科技股份有限公司 | 一种基于知识图谱的智能助理的信息处理方法及装置 |
CN111061841B (zh) * | 2019-12-19 | 2023-10-27 | 京东方科技集团股份有限公司 | 知识图谱的构建方法及装置 |
CN110765753B (zh) * | 2019-12-27 | 2023-07-14 | 广东博智林机器人有限公司 | 文案生成方法、系统、计算机设备和存储介质 |
CN111309925B (zh) * | 2020-02-10 | 2023-06-30 | 同方知网数字出版技术股份有限公司 | 一种军事装备的知识图谱构建方法 |
CN113360751B (zh) * | 2020-03-06 | 2024-07-09 | 百度在线网络技术(北京)有限公司 | 意图识别方法、装置、设备和介质 |
CN111428018B (zh) * | 2020-03-26 | 2024-02-06 | 中国建设银行股份有限公司 | 智能问答方法及装置 |
CN111368097B (zh) * | 2020-03-30 | 2024-07-30 | 中国建设银行股份有限公司 | 一种知识图谱抽取方法及装置 |
CN111476034B (zh) * | 2020-04-07 | 2023-05-12 | 同方赛威讯信息技术有限公司 | 基于规则和模型结合的法律文书信息抽取方法及系统 |
CN111581376B (zh) * | 2020-04-17 | 2024-04-19 | 中国船舶重工集团公司第七一四研究所 | 一种知识图谱自动构建系统及方法 |
CN113569051A (zh) * | 2020-04-29 | 2021-10-29 | 北京金山数字娱乐科技有限公司 | 一种知识图谱构建方法及装置 |
CN111585809A (zh) * | 2020-04-29 | 2020-08-25 | 北京润通丰华科技有限公司 | 一种利用大数据统计分析进行网络设备配置稽核的方法 |
CN111488468B (zh) * | 2020-04-30 | 2021-12-14 | 北京建筑大学 | 地理信息知识点抽取方法、装置、存储介质及计算机设备 |
CN111639196B (zh) * | 2020-06-03 | 2022-03-15 | 核工业湖州勘测规划设计研究院股份有限公司 | 一种多层渐进增强的地灾知识图谱及其自动补全方法 |
CN111930793A (zh) * | 2020-06-26 | 2020-11-13 | 西安电子科技大学 | 目标行为挖掘与检索分析方法、系统、计算机设备及应用 |
CN111753100B (zh) * | 2020-06-30 | 2024-07-19 | 北京小鹏汽车有限公司 | 一种针对车载应用的知识图谱生成方法和服务器 |
CN111814487B (zh) * | 2020-07-17 | 2024-05-31 | 科大讯飞股份有限公司 | 一种语义理解方法、装置、设备及存储介质 |
CN111858964A (zh) * | 2020-07-30 | 2020-10-30 | 浙江萃文科技有限公司 | 一种基于知识图谱的三维智能定位方法 |
CN111950285B (zh) * | 2020-07-31 | 2024-01-23 | 合肥工业大学 | 多模态数据融合的医疗知识图谱智能自动构建系统和方法 |
CN112131392A (zh) * | 2020-08-01 | 2020-12-25 | 赛飞特工程技术集团有限公司 | 基于知识图谱的公共卫生疫情预警方法及系统 |
CN111897781B (zh) * | 2020-08-03 | 2023-12-26 | 厦门渊亭信息科技有限公司 | 一种知识图谱数据抽取方法和系统 |
CN112084339B (zh) * | 2020-08-11 | 2023-11-24 | 同济大学 | 一种基于跨媒体数据的交通知识图谱构建方法 |
CN111949390A (zh) * | 2020-08-13 | 2020-11-17 | 深圳市极限网络科技有限公司 | 基于事理图谱的多种类大规模任务自动化调度方法及系统 |
CN111967761B (zh) * | 2020-08-14 | 2024-04-02 | 国网数字科技控股有限公司 | 一种基于知识图谱的监控预警方法、装置及电子设备 |
CN111813874B (zh) * | 2020-09-03 | 2023-09-15 | 中国传媒大学 | 太赫兹知识图谱构建方法及系统 |
CN112364172A (zh) * | 2020-10-16 | 2021-02-12 | 上海晏鼠计算机技术股份有限公司 | 一种政务公文领域知识图谱构建方法 |
CN112231460B (zh) * | 2020-10-27 | 2022-07-12 | 中国科学院合肥物质科学研究院 | 一种基于农业百科知识图谱的问答系统的构建方法 |
CN112199488B (zh) * | 2020-11-04 | 2023-09-26 | 国网江苏省电力有限公司营销服务中心 | 面向电力客服问答的渐增式知识图谱实体抽取方法和系统 |
CN112487814B (zh) * | 2020-11-27 | 2024-04-02 | 北京百度网讯科技有限公司 | 实体分类模型训练方法、实体分类方法、装置及电子设备 |
CN113051365A (zh) * | 2020-12-10 | 2021-06-29 | 深圳证券信息有限公司 | 一种产业链图谱构建方法及相关设备 |
CN112541087A (zh) * | 2020-12-18 | 2021-03-23 | 清华大学 | 基于百科的跨语言知识图谱构建方法及装置 |
CN112528046B (zh) * | 2020-12-25 | 2023-09-15 | 网易(杭州)网络有限公司 | 新的知识图谱的构建方法、装置和信息检索方法、装置 |
CN112833942A (zh) * | 2020-12-28 | 2021-05-25 | 航天南洋(浙江)科技有限公司 | 一种系统健康状态监控设备及方法 |
CN112328812B (zh) * | 2021-01-05 | 2021-03-26 | 成都数联铭品科技有限公司 | 基于自调参数的领域知识抽取方法与系统、电子设备 |
CN113269331B (zh) * | 2021-04-25 | 2023-07-25 | 云南电网有限责任公司信息中心 | 一种变压器检修作业的知识库构建方法 |
CN113094516A (zh) * | 2021-04-27 | 2021-07-09 | 东南大学 | 一种基于多源数据融合的电网监控领域知识图谱构建方法 |
CN113392223A (zh) * | 2021-05-12 | 2021-09-14 | 同方知网数字出版技术股份有限公司 | 一种基于气象领域的知识图谱构建方法 |
CN113268604B (zh) * | 2021-05-19 | 2024-06-07 | 国网辽宁省电力有限公司 | 知识库自适应扩展方法及系统 |
CN113268605B (zh) * | 2021-05-26 | 2024-01-02 | 深圳晶泰科技有限公司 | 一种小分子药物晶型知识图谱的构建方法及系统 |
CN113378570B (zh) * | 2021-06-01 | 2023-12-12 | 车智互联(北京)科技有限公司 | 一种实体识别模型的生成方法、计算设备及可读存储介质 |
CN115510196B (zh) * | 2021-06-07 | 2024-07-23 | 马上消费金融股份有限公司 | 知识图谱的构建方法、问答方法、装置和存储介质 |
CN113761208A (zh) * | 2021-09-17 | 2021-12-07 | 福州数据技术研究院有限公司 | 一种基于知识图谱的科技创新资讯分类方法和存储设备 |
CN114077194A (zh) * | 2021-10-25 | 2022-02-22 | 海南大学 | 面向不完整、不精确、动态优化决策目标的dikw资源构建与处理系统 |
CN114066223A (zh) * | 2021-11-15 | 2022-02-18 | 福建正孚软件有限公司 | 基于知识图谱的国资国企可配置规则监控方法及存储介质 |
CN113918732A (zh) * | 2021-11-19 | 2022-01-11 | 北京明略软件系统有限公司 | 多模态知识图谱构建方法、系统、存储介质及电子设备 |
CN114444116B (zh) * | 2021-12-20 | 2024-08-30 | 西安理工大学 | 基于安全访问控制知识图谱的授权鉴权引擎生成方法 |
CN114064939A (zh) * | 2022-01-17 | 2022-02-18 | 中证信息技术服务有限责任公司 | 一种知识图谱生成方法、装置、电子设备及存储介质 |
CN114925210B (zh) * | 2022-03-21 | 2023-12-08 | 中国电信股份有限公司 | 知识图谱的构建方法、装置、介质及设备 |
CN114925833B (zh) * | 2022-04-20 | 2023-07-21 | 中国人民解放军91977部队 | 一种基于能力数据底图的目标状态规律知识挖掘方法 |
CN115098755A (zh) * | 2022-06-20 | 2022-09-23 | 国网甘肃省电力公司电力科学研究院 | 一种科技信息服务平台构建方法及科技信息服务平台 |
CN115309915B (zh) * | 2022-09-29 | 2022-12-09 | 北京如炬科技有限公司 | 知识图谱构建方法、装置、设备和存储介质 |
CN117094394B (zh) * | 2023-10-16 | 2024-01-30 | 之江实验室 | 基于论文pdf的天文多模态知识图谱构建方法和系统 |
CN118036577B (zh) * | 2024-04-11 | 2024-06-14 | 一百分信息技术有限公司 | 一种自然语言处理中的序列标注方法 |
CN118396122B (zh) * | 2024-06-25 | 2024-09-03 | 湖南省第二测绘院 | 一种针对不同自然资源的知识推理方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130226846A1 (en) * | 2012-02-24 | 2013-08-29 | Ming Li | System and Method for Universal Translating From Natural Language Questions to Structured Queries |
CN105183869A (zh) * | 2015-09-16 | 2015-12-23 | 分众(中国)信息技术有限公司 | 楼宇知识图谱数据库及其构建方法 |
CN105468605A (zh) * | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
CN105550190A (zh) * | 2015-06-26 | 2016-05-04 | 许昌学院 | 面向知识图谱的跨媒体检索系统 |
CN106021281A (zh) * | 2016-04-29 | 2016-10-12 | 京东方科技集团股份有限公司 | 医学知识图谱的构建方法、其装置及其查询方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101306667B1 (ko) * | 2009-12-09 | 2013-09-10 | 한국전자통신연구원 | 지식 그래프 정제 장치 및 방법 |
CN104199956B (zh) * | 2014-09-16 | 2018-01-16 | 成都博智维讯信息技术有限公司 | 一种erp数据语音搜索方法 |
-
2016
- 2016-10-18 CN CN201610908410.5A patent/CN107967267A/zh active Pending
-
2017
- 2017-09-01 WO PCT/CN2017/100148 patent/WO2018072563A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130226846A1 (en) * | 2012-02-24 | 2013-08-29 | Ming Li | System and Method for Universal Translating From Natural Language Questions to Structured Queries |
CN105468605A (zh) * | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
CN105550190A (zh) * | 2015-06-26 | 2016-05-04 | 许昌学院 | 面向知识图谱的跨媒体检索系统 |
CN105183869A (zh) * | 2015-09-16 | 2015-12-23 | 分众(中国)信息技术有限公司 | 楼宇知识图谱数据库及其构建方法 |
CN106021281A (zh) * | 2016-04-29 | 2016-10-12 | 京东方科技集团股份有限公司 | 医学知识图谱的构建方法、其装置及其查询方法 |
Non-Patent Citations (3)
Title |
---|
刘峤等: "知识图谱构建技术综述", 《计算机研究与发展》 * |
王仁武等: "基于深度学习与图数据库构建中文商业知识图谱的探索研究", 《图书与情报》 * |
陆晓华等: "基于图数据库的电影知识图谱应用研究", 《现代计算机(专业版)》 * |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763555A (zh) * | 2018-06-01 | 2018-11-06 | 北京奇虎科技有限公司 | 基于需求词的画像数据获取方法及装置 |
CN108776900A (zh) * | 2018-07-02 | 2018-11-09 | 北京市天元网络技术股份有限公司 | 网络投诉智能定界方法及系统 |
CN109189942A (zh) * | 2018-09-12 | 2019-01-11 | 山东大学 | 一种专利数据知识图谱的构建方法及装置 |
CN109347801A (zh) * | 2018-09-17 | 2019-02-15 | 武汉大学 | 一种基于多源词嵌入和知识图谱的漏洞利用风险评估方法 |
CN109347801B (zh) * | 2018-09-17 | 2021-03-16 | 武汉大学 | 一种基于多源词嵌入和知识图谱的漏洞利用风险评估方法 |
WO2020057175A1 (en) * | 2018-09-20 | 2020-03-26 | Huawei Technologies Co., Ltd. | Knowledge-based management of recognition models in artificial intelligence systems |
CN109241062A (zh) * | 2018-09-27 | 2019-01-18 | 国信优易数据有限公司 | 一种政务数据目录的生成方法及装置 |
CN110970112B (zh) * | 2018-09-29 | 2024-03-12 | 九阳股份有限公司 | 一种面向营养健康的知识图谱构建方法和系统 |
CN110970112A (zh) * | 2018-09-29 | 2020-04-07 | 九阳股份有限公司 | 一种面向营养健康的知识图谱构建方法和系统 |
CN109597894B (zh) * | 2018-09-30 | 2023-10-03 | 创新先进技术有限公司 | 一种关联模型生成方法及装置、一种数据关联方法及装置 |
CN109597894A (zh) * | 2018-09-30 | 2019-04-09 | 阿里巴巴集团控股有限公司 | 一种关联模型生成方法及装置、一种数据关联方法及装置 |
CN111090736A (zh) * | 2018-10-24 | 2020-05-01 | 马上消费金融股份有限公司 | 问答模型的训练方法、问答方法、装置及计算机存储介质 |
CN109492112A (zh) * | 2018-10-24 | 2019-03-19 | 北京百科康讯科技有限公司 | 一种基于知识图谱的计算机辅助写作科普文章的方法 |
CN109582800A (zh) * | 2018-11-13 | 2019-04-05 | 北京合享智慧科技有限公司 | 一种训练结构化模型、文本结构化的方法及相关装置 |
CN109299289B (zh) * | 2018-11-30 | 2021-04-06 | 国信优易数据股份有限公司 | 一种查询图构建方法、装置、电子设备及计算机存储介质 |
CN109299289A (zh) * | 2018-11-30 | 2019-02-01 | 国信优易数据有限公司 | 一种查询图构建方法、装置、电子设备及计算机存储介质 |
CN109684313A (zh) * | 2018-12-14 | 2019-04-26 | 浪潮软件集团有限公司 | 一种数据清洗加工方法及系统 |
CN109726253A (zh) * | 2018-12-21 | 2019-05-07 | 义橙网络科技(上海)有限公司 | 人才图谱及人才画像的构建方法、装置、设备及介质 |
WO2020155749A1 (zh) * | 2019-01-31 | 2020-08-06 | 平安科技(深圳)有限公司 | 构建个人知识图谱的方法、装置、计算机设备和存储介质 |
CN110705710A (zh) * | 2019-04-17 | 2020-01-17 | 中国石油大学(华东) | 一种基于知识图谱的工业故障分析专家系统 |
CN111913563A (zh) * | 2019-05-07 | 2020-11-10 | 广东小天才科技有限公司 | 一种基于半监督学习的人机交互方法及装置 |
CN110232130A (zh) * | 2019-05-20 | 2019-09-13 | 平安科技(深圳)有限公司 | 元数据管理谱系生成方法、装置、计算机设备和存储介质 |
CN110232130B (zh) * | 2019-05-20 | 2024-02-02 | 平安科技(深圳)有限公司 | 元数据管理谱系生成方法、装置、计算机设备和存储介质 |
CN110533343A (zh) * | 2019-09-04 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 智能客服系统的数据处理方法、装置及电子设备 |
CN110533343B (zh) * | 2019-09-04 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 智能客服系统的数据处理方法、装置及电子设备 |
CN111026815A (zh) * | 2019-12-05 | 2020-04-17 | 电子科技大学广东电子信息工程研究院 | 基于用户辅助修正下的实体对特定关系抽取方法 |
CN111026815B (zh) * | 2019-12-05 | 2024-02-06 | 电子科技大学广东电子信息工程研究院 | 基于用户辅助修正下的实体对特定关系抽取方法 |
CN111475503A (zh) * | 2019-12-27 | 2020-07-31 | 北京国双科技有限公司 | 一种虚拟知识图谱构建方法及装置 |
CN111392538A (zh) * | 2020-03-17 | 2020-07-10 | 浙江新再灵科技股份有限公司 | 一种基于多维物联网图谱大数据的电梯综合故障预警方法 |
CN111914569A (zh) * | 2020-08-10 | 2020-11-10 | 哈尔滨安天科技集团股份有限公司 | 基于融合图谱的预测方法、装置、电子设备及存储介质 |
CN112905884A (zh) * | 2021-02-10 | 2021-06-04 | 北京百度网讯科技有限公司 | 生成序列标注模型的方法、设备、介质及程序产品 |
CN112905884B (zh) * | 2021-02-10 | 2024-05-31 | 北京百度网讯科技有限公司 | 生成序列标注模型的方法、设备、介质及程序产品 |
CN113408690A (zh) * | 2021-07-01 | 2021-09-17 | 之江实验室 | 基于多模态知识图谱的机器人个性化情感互动装置及方法 |
CN116028593A (zh) * | 2022-12-14 | 2023-04-28 | 北京百度网讯科技有限公司 | 文本中的人物身份信息识别方法及装置、电子设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2018072563A1 (zh) | 2018-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107967267A (zh) | 一种知识图谱构建方法、装置及系统 | |
CN112579707B (zh) | 一种日志数据的知识图谱构建方法 | |
CN105808590B (zh) | 搜索引擎实现方法、搜索方法以及装置 | |
CN106991161B (zh) | 一种自动生成开放式问题答案的方法 | |
CN113886567A (zh) | 一种基于知识图谱的教学方法及系统 | |
CN108052605A (zh) | 一种基于客户特征库的智能问答系统 | |
CN107291715A (zh) | 简历评估方法和装置 | |
CN109460459A (zh) | 一种基于日志学习的对话系统自动优化方法 | |
CN112069327B (zh) | 一种在线教育课堂教学资源的知识图谱构建方法及系统 | |
Sekkal et al. | Knowledge management and reuse in virtual learning communities | |
CN117196042B (zh) | 一种教育元宇宙中学习目标的语义推理方法及终端 | |
WO2014036386A1 (en) | Mental modeling method and system | |
CN110321918A (zh) | 基于微博的舆论机器人系统情感分析和图像标注的方法 | |
CN113723853A (zh) | 岗位胜任力需求数据处理方法及装置 | |
CN116595191A (zh) | 一种交互式低代码知识图谱的构建方法及装置 | |
CN116010564A (zh) | 一种基于多模态知识图谱的水稻病虫害问答系统的构建方法 | |
CN114911893A (zh) | 基于知识图谱的自动化构建知识库的方法及系统 | |
CN109885288A (zh) | 一种按照学科语义网络以及相应语义规则自动化生成题目的系统 | |
CN117171350A (zh) | 一种基于知识图谱的个性化课程学习环境构建方法与装置 | |
CN112784899B (zh) | 变电运维知识频繁模式挖掘方法、装置、设备及存储介质 | |
CN116091045B (zh) | 一种基于知识图谱的通信网络运维方法和运维装置 | |
CN114647719A (zh) | 一种基于知识图谱的问答方法及装置 | |
Leible et al. | Towards employee-driven idea mining: Concept, benefits, and challenges | |
Nguyen et al. | An approach to constructing a graph data repository for course recommendation based on IT career goals in the context of big data | |
CN106407271B (zh) | 一种智能客服系统及其智能客服知识库的更新方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180427 |