CN111522934A - 一种基于化学品知识库的知识问答系统和方法 - Google Patents
一种基于化学品知识库的知识问答系统和方法 Download PDFInfo
- Publication number
- CN111522934A CN111522934A CN202010328237.8A CN202010328237A CN111522934A CN 111522934 A CN111522934 A CN 111522934A CN 202010328237 A CN202010328237 A CN 202010328237A CN 111522934 A CN111522934 A CN 111522934A
- Authority
- CN
- China
- Prior art keywords
- chemical
- knowledge
- question
- entity
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000126 substance Substances 0.000 title claims abstract description 243
- 238000000034 method Methods 0.000 title claims abstract description 59
- 150000005829 chemical entities Chemical class 0.000 claims abstract description 73
- 238000007781 pre-processing Methods 0.000 claims abstract description 34
- 238000013507 mapping Methods 0.000 claims abstract description 25
- 238000012795 verification Methods 0.000 claims abstract description 15
- 238000009411 base construction Methods 0.000 claims abstract description 12
- 230000008676 import Effects 0.000 claims abstract description 6
- 230000008569 process Effects 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 21
- 238000005516 engineering process Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000003058 natural language processing Methods 0.000 claims description 8
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000013441 quality evaluation Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 abstract description 4
- QAOWNCQODCNURD-UHFFFAOYSA-N Sulfuric acid Chemical compound OS(O)(=O)=O QAOWNCQODCNURD-UHFFFAOYSA-N 0.000 description 72
- OKKJLVBELUTLKV-UHFFFAOYSA-N Methanol Chemical compound OC OKKJLVBELUTLKV-UHFFFAOYSA-N 0.000 description 18
- 238000009835 boiling Methods 0.000 description 14
- QGZKDVFQNNGYKY-UHFFFAOYSA-N Ammonia Chemical compound N QGZKDVFQNNGYKY-UHFFFAOYSA-N 0.000 description 10
- NLKNQRATVPKPDG-UHFFFAOYSA-M potassium iodide Chemical compound [K+].[I-] NLKNQRATVPKPDG-UHFFFAOYSA-M 0.000 description 10
- 235000011149 sulphuric acid Nutrition 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 239000000383 hazardous chemical Substances 0.000 description 4
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000001105 regulatory effect Effects 0.000 description 4
- HIFJUMGIHIZEPX-UHFFFAOYSA-N sulfuric acid;sulfur trioxide Chemical compound O=S(=O)=O.OS(O)(=O)=O HIFJUMGIHIZEPX-UHFFFAOYSA-N 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 208000021251 Methanol poisoning Diseases 0.000 description 2
- 239000008896 Opium Substances 0.000 description 2
- 239000002253 acid Substances 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 229910021529 ammonia Inorganic materials 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 229960001027 opium Drugs 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于化学品知识库的知识问答系统和方法,填补知识问答在化学品领域的空白,挖掘化学品数据价值,保障国家和社会安全。其技术方案为:系统包括数据预处理模块、知识库构建模块、知识问答模块,以化学品领域数据为基础,建立化学品知识库,回答有关化学品领域方面问题。数据预处理模块对化学品领域数据进行预处理,提取数据中的化学品知识,并对其进行知识关联和知识校验,得到化学品数据集;知识库构建模块先建立化学品知识库的索引和映射,再将输入的化学品实体的实体属性数据集导入数据库中,得到化学品知识库;知识问答模块解析输入的化学品领域问题,模板匹配生成数据库查询语句,查询知识库得到并给出问题的答案。
Description
技术领域
本发明涉及知识图谱智能问答领域,具体涉及一种基于化学品知识库的知识问答系统和方法。
背景技术
化工是中国国民经济的一个重要支柱产业,经过70多年的发展,中国化工行业已经形成配套比较齐全的化学工业体系。但是,随着经济的快速发展,化工企业的发展也加速了化学品安全技术的需求和发展要求,近年来,出现了很多起化学品安全事故,一是危险化学品种类越来越多,二是化学品的属性繁多,另外,专业从事这方面技术的人才也比较稀缺。这就造成了行业人员的工作效率低、企业额外费用加大、群众不能全面了解危险化学品等现象,所以,急需一种基于化学品知识库的知识问答方法,来辅助行业人员及时地解决问题,更好地保障国家和社会安全。
目前,随着人工智能的快速发展,知识图谱作为人工智能的一个重要分支,智能问答作为知识图谱的核心,近年来在互联网领域迅速发展,已经比较成熟。在化学品信息检索方面,目前比较完善的是化工词典,已经能够满足人们的检索需求,但是在问答方面,该领域比较薄弱,展示内容太多,不能够真正地理解用户需求,很难解决用户化学品方面的问题,实用性比较差。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
本发明的目的在于解决上述技术问题,提供了一种基于化学品知识库的知识问答系统和方法,能够较好地理解用户的真实需求,切实解决用户化学品方面的问题,还可以大幅度提升化学品知识库的构建速度,降低成本。
本发明的技术方案为:本发明揭示了一种基于化学品知识库的知识问答系统,包括:
数据预处理模块,以化学品领域的源数据作为输入,先对输入数据做预处理,抽取出化学品的实体属性数据集的原始数据,再将原始数据转为数据库指定格式的数据,通过对抽取的化学品知识进行知识关联和知识校验,得到化学品实体的实体属性数据集;
知识库构建模块,以化学品实体的实体属性数据集作为输入,先创建索引和映射,再将所输入的化学品实体的实体属性数据集导入到数据库指定索引中,得到化学品知识库;以及
知识问答模块,以用户提出的化工领域问题为输入,将问题解析成数据库查询语句,在化学品知识库中进行数据查询得到问题答案,并返回给用户。
根据本发明的基于化学品知识库的知识问答系统的一实施例,数据预处理模块配置为进行以下的处理:
信息抽取:从化学品领域的源数据中提取化学品的实体名称、属性以及属性值,形成本体化的知识表达;
知识关联:针对信息抽取所得到的化学品新知识进行融合以消除矛盾和歧义,将融合后的数据关联形成关联后的化学品新知识;
知识校验:对经过知识关联得到的化学品新知识进行质量评估,再将质量合格的化学品新知识加入到化学品实体的实体属性数据集中。
根据本发明的基于化学品知识库的知识问答系统的一实施例,在数据预处理模块的知识关联的处理中,包括实体链接和知识合并的处理,其中实体链接是将信息抽取得到的化学品实体对象链接到化学品知识库中对应正确的实体对象,知识合并用于处理结构化的数据,包括化学品领域相同知识合并、异常知识消岐和不同知识新增。
根据本发明的基于化学品知识库的知识问答系统的一实施例,知识库构建模块配置为进行以下的处理:
创建索引:为化学品知识库创建一个单独索引的数据库,存储结构相似的文档;
创建映射:根据化学品属性创建一个映射,用来描述文档可能具有的字段或属性;
数据导入:将化学品实体的实体属性数据集导入到数据库中,得到化学品知识库。
根据本发明的基于化学品知识库的知识问答系统的一实施例,知识问答模块配置为进行以下的处理:
问题类型模板预定义:针对化学品领域的问题定义不同类型的问题模板;
自然语言解析:对于输入的化学品领域的问句,利用自然语言处理技术识别问句中的化学品实体、属性、属性值和特征词,并完成问句中的化学品实体名称、属性到化学品知识库中的实体名称和属性名的映射;
语句重构:对于自然语言解析得到的化学品实体名称、属性、属性值和特征词的参数,据各参数在问句中的位置,对问句进行逻辑重构,得到对应的逻辑语言;
查询语言模板填充:针对不同类型的问题模板,将语句重构得到的逻辑语言,填充至预先定义的模板查询语言中,得到对应的查询语句;
答案检索返回:执行填充完毕的模板查询语言,搜索数据库得到问句答案,并返回给用户。
根据本发明的基于化学品知识库的知识问答系统的一实施例,知识问答模块中的自然语言解析的处理过程包括:对问句进行分词处理,在处理后的分词中年进行化学品实体识别、化学品属性识别、化学品属性值识别、特征词识别,以提取用户问句中的化学品实体、属性、属性值、特征词的操作。
本发明还揭示了一种基于化学品知识库的知识问答方法,方法包括:
数据预处理:以化学品领域的源数据作为输入,先对输入数据做预处理,抽取出化学品的实体属性数据集的原始数据,再将原始数据转为数据库指定格式的数据,通过对抽取的化学品知识进行知识关联和知识校验,得到化学品实体的实体属性数据集;
知识库构建:以化学品实体的实体属性数据集作为输入,先创建索引和映射,再将所输入的化学品实体的实体属性数据集导入到数据库指定索引中,得到化学品知识库;以及
知识问答:以用户提出的化工领域问题为输入,将问题解析成数据库查询语句,在化学品知识库中进行数据查询得到问题答案,并返回给用户。
根据本发明的基于化学品知识库的知识问答方法的一实施例,数据预处理的步骤进一步包括以下的处理:
信息抽取:从化学品领域的源数据中提取化学品的实体名称、属性以及属性值,形成本体化的知识表达;
知识关联:针对信息抽取所得到的化学品新知识进行融合以消除矛盾和歧义,将融合后的数据关联形成关联后的化学品新知识;
知识校验:对经过知识关联得到的化学品新知识进行质量评估,再将质量合格的化学品新知识加入到化学品实体的实体属性数据集中。
根据本发明的基于化学品知识库的知识问答方法的一实施例,在数据预处理步骤中的知识关联的处理中,包括实体链接和知识合并的处理,其中实体链接是将信息抽取得到的化学品实体对象链接到化学品知识库中对应正确的实体对象,知识合并用于处理结构化的数据,包括化学品领域相同知识合并、异常知识消岐和不同知识新增。
根据本发明的基于化学品知识库的知识问答方法的一实施例,知识库构建的步骤进一步包括以下的处理:
创建索引:为化学品知识库创建一个单独索引的数据库,存储结构相似的文档;
创建映射:根据化学品属性创建一个映射,用来描述文档可能具有的字段或属性;
数据导入:将化学品实体的实体属性数据集导入到数据库中,得到化学品知识库。
根据本发明的基于化学品知识库的知识问答方法的一实施例,知识问答的步骤进一步包括以下的处理:
问题类型模板预定义:针对化学品领域的问题定义不同类型的问题模板;
自然语言解析:对于输入的化学品领域的问句,利用自然语言处理技术识别问句中的化学品实体、属性、属性值和特征词,并完成问句中的化学品实体名称、属性到化学品知识库中的实体名称和属性名的映射;
语句重构:对于自然语言解析得到的化学品实体名称、属性、属性值和特征词的参数,据各参数在问句中的位置,对问句进行逻辑重构,得到对应的逻辑语言;
查询语言模板填充:针对不同类型的问题模板,将语句重构得到的逻辑语言,填充至预先定义的模板查询语言中,得到对应的查询语句;
答案检索返回:执行填充完毕的模板查询语言,搜索数据库得到问句答案,并返回给用户。
根据本发明的基于化学品知识库的知识问答方法的一实施例,知识问答步骤中的自然语言解析的处理过程进一步包括:对问句进行分词处理,在处理后的分词中年进行化学品实体识别、化学品属性识别、化学品属性值识别、特征词识别,以提取用户问句中的化学品实体、属性、属性值、特征词的操作。
本发明对比现有技术有如下的有益效果:本发明将互联网方面较为成熟的知识图谱相关技术应用到化学品行业,对化学品领域的数据进行融合,构建化学品知识库,开发一种基于化学品知识库的知识问答方法和系统。本发明的系统和方法采用自然语言处理、知识图谱和深度学习等领域的技术,通过预定义问题类型模板,构建化学品知识库,解析用户提出的问句并检索知识库给出准确的答案,能够实际解决用户的化学品领域问题。
详细而言,本发明具有的优点如下:
(1)将知识图谱和自然语言处理技术应用在化学品领域,有效填补了知识问答在化学品领域的空白;
(2)能够有效识别用户的真实需求,给出精确的答案,实际解决用户的化学品方面问题。
总的来说,本发明能够提高知识的可用性,挖掘化学品数据的价值,提升行业人员的专业水平,及时地帮助行业人员采取相应措施,为风险分析,隐患排查提供决策支持,提升风险管理能力,更好地保障国家和社会安全。
附图说明
在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
图1示出了本发明的基于化学品知识库的知识问答系统的一实施例的原理图。
图2示出了本发明中的自然语言解析处理的流程图。
图3示出了本发明中的知识问答模块的处理流程。
图4示出了本发明的基于化学品知识库的知识问答方法的一实施例的流程图。
具体实施方式
以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。
图1示出了本发明的基于化学品知识库的知识问答系统的一实施例的原理。请参见图1,本实施例的知识问答系统包括以下的模块:数据预处理模块、知识库构建模块和知识问答模块。
这三个模块之间的数据传输关系为:数据预处理模块输出数据至知识库构建模块,知识库构建模块和知识问答模块之间建立双向的数据传输。
数据预处理模块配置为以化学品领域的相关源数据作为输入,先对输入数据做预处理,抽取出化学品的实体属性数据集的原始数据,再将其转为数据库指定格式的数据,通过对抽取的化学品知识进行知识关联和知识校验,进而得到化学品实体的实体属性数据集。
以下详细说明数据预处理模块的处理过程。数据预处理模块的数据预处理是一个更新迭代的过程,一次迭代包括了信息抽取、知识关联和知识校验三个阶段,以下分别对这三个阶段进行说明。
首先,例如,化学品知识库中所要收集的源化学品数据集的存储格式为csv格式,源化学品数据集的数据为结构化数据,部分数据具体样式如下:
数据样式一:
"中文名","中文别名","英文名","英文别名","分子式","CAS Number","site"
"硫酸","","Sulfuric acid","Sulfuric acid,fuming","H2SO4","7664-93-9","中国现有化学物质名录"
"碘化钾","","Potassium iodide","","IK","7681-11-0","中国现有化学物质名录"
…
数据样式二:
"id","name","o_name","cas_num","remark","chemId","site"
"1","阿片","鸦片","8008-60-4","","1","危险化学品目录2015"
"2","氨","液氨;氨气","7664-41-7","","2","危险化学品目录2015"
…
数据预处理模块第一步进行信息抽取,在本实施例中是基于python语言程序编程实现提取化学品数据源中的实体名称、属性以及属性值,在此基础上形成本体化的知识表达。
以上述的源化学品数据集的格式为例,部分本体化的知识表达示例如下:
{“中文名”:"硫酸",“中文别名”:“”,“英文名”:“Sulfuric acid”,“英文别名”:“Sulfuric acid,fuming”,“分子式”:“H2SO4”,“CAS Number”:"7664-93-9",“site”:“中国现有化学物质名录”}
…
{“name”:"甲醇","ZYB":"1",“ZYBMC”:"甲醇中毒"}
…
数据预处理模块第二步进行知识关联,对与第一步得到的化学品新知识,通过对其的融合消除矛盾和歧义,将其关联形成一些有用的信息。本实施例中是使用化学品中文名、CAS号等特征来实现知识关联。
这里的知识关联包括了实体链接和知识合并,本实施例中的实体链接是指对于从化学品数据源中抽取得到的化学品实体对象,将抽取得到的化学品实体对象链接到化学品知识库中对应正确的实体对象。
本实施例中的知识合并用于处理结构化的数据,包括化学品领域相同知识合并、异常知识消岐和不同知识新增。
数据预处理模块第三步进行知识校验,对于经过第二步的知识关联得到的化学品新知识,先对其进行质量评估,再将质量合格的化学品知识加入到化学品实体的实体属性数据集中。
本实施例中可以对化学品知识的可信度进行量化,通过舍弃置信度较低的化学品知识来保障数据集的质量。
数据预处理模块最终得到的一个化学品知识示例如下:
{“中文名”:"硫酸",“中文别名”:“”,“英文名”:“Sulfuric acid”,“英文别名”:“Sulfuric acid,fuming”,“分子式”:“H2SO4”,“CAS Number”:“7664-93-9”,“UN”:“1830”,…,“CHName2”:“镪水;漒水”,“site”:“中国现有化学物质名录”}
知识库构建模块配置为以化学品实体的实体属性数据集作为输入,先创建索引和映射,再将所输入的化学品实体的实体属性数据集导入到数据库指定索引中,进而得到化学品知识库。
化学品知识库具有智能性,用于迅速描述物理世界中的概念及其关系,且其存储的大量化学品知识可用于实现知识的快速响应和问答。
知识库构建模块的一个实施例的处理过程如下。
首先,创建索引:为化学品知识库创建一个单独索引的数据库,存储结构相似的文档。例如,编程实现数据库创建化学品知识库索引为A,类型B。
接着,创建映射:根据化学品属性创建一个映射,用来描述文档可能具有的字段或属性。例如,根据知识类型,在数据库中为化学品文档创建映射,映射类型为C。
最后,数据导入:将标准的化学品实体的实体属性数据集导入到数据库中,得到化学品知识库。例如,编程实现知识自动导入数据库A/B中,形成化学品知识库。
知识问答模块配置为以用户提出的化工领域问题为输入,通过问题模板类型预定义(如图3所示的SA5)、自然语言解析(如图3所示的SA3)、语句重构(如图3所示的SA4)、查询语言模板填充(如图3所示的SA6)和答案检索返回(如图3所示的SA7-SA9)这五步,通过将问题经模板匹配解析成数据库查询语句,在化学品知识库中进行数据查询得到问题答案,并返回给用户。
举例来说,用户在知识问答模块中进行操作并得到反馈的例子如下。
示例:
用户输入事实型示例:“硫酸的沸点是多少?”
结果返回:Answer:290
用户输入统计型示例:“重点监管的化学品有多少种?”
结果返回:Answer:74
用户输入对错型示例:“甲烷是重点监管化学品吗?”
结果返回:Answer:1(是)
知识问答模块第一步进行问题类型模板预定义,此步骤是根据化学品属性特点而建立,即,针对化学品问题定义不同类型的问题模板。例如,请参照表1,本实施例就化学品问题建立的模板类型共分为事实型、列表型、统计型等8种类型问题模板。
表1问题类型模板预定义示例
知识问答模块第二步进行自然语言解析。在这一步骤中,对于输入的化学品领域的问句,利用自然语言处理技术识别问句中的化学品实体、属性、属性值和特征词,并完成问句化学品实体名称、属性到化学品知识库中的实体名称和属性名的映射。
图2示出了自然语言解析处理的流程。
本实施例中通过对用户问句进行分词处理(图2所示的S1)、在处理后的分词中进行化学品实体识别(图2所示的S2)、化学品属性识别(图2所示的S3)、化学品属性值识别(图2所示的S4)、特征词识别(图2所示的S5)的步骤,完成提取用户问句中的化学品实体、属性、属性值、特征词的操作。
示例如下:
用户输入示例:“硫酸的沸点是多少?”。
实体识别:“硫酸”。
属性识别:“沸点”。
属性映射:“boiling”。
属性值识别:“”
特征词识别:“”
输出结果:[‘硫酸’,‘boiling’]
知识问答模块第三步进行问句重构,对于自然语言解析得到的化学品实体名称、属性、属性值和特征词的参数,根据各参数在问句中的位置,对问句进行逻辑重构,得到问句对应的逻辑语言。
问句重构的几个示例如下:
示例一:问句为“硫酸的沸点是多少?”,重构结果为“硫酸:boiling”。
示例二:问句为“沸点大于200的化学品有哪些?”,重构结果为“沸点:>:200:哪些?”。
示例三:问句为“甲醇是重点监管化学品吗?”,重构结果为“甲醇:是:重点监管”。
知识问答模块第四步进行查询语言模板填充,针对不同类型的问题模板(例如前述表1中的八种),将重构得到的逻辑语言,填充至预先定义模板查询语言中,得到对应查询语句。
部分填充规则及示例如下:
事实型:化学品实体+属性;
列表型:属性名+属性值+列表词或属性名+比较词+属性值+列表词;
统计型:属性名+属性值+统计词或属性名+比较词+属性值+统计词;
比较型:化学品实体+化学品实体+属性名+比较词。
示例:
用户输入示例:“硫酸的沸点是多少?”。
重构结果:“硫酸:boiling”。
问题类型:“事实型”。
模板查询语言填充:“中文名”:“硫酸”,answer=dict[‘boiling’]。
知识问答模块第五步进行答案检索返回,程序执行填充完毕的模板查询语言,搜索数据库得到问句答案,并返回给用户。
图4示出了本发明的基于化学品知识库的知识问答方法的一实施例的流程。请参见图4,本实施例的知识问答方法的实施步骤详述如下。
步骤一:以化学品领域的相关源数据作为输入,先对输入数据做预处理,抽取出化学品的实体属性数据集的原始数据,再将其转为数据库指定格式的数据,通过对抽取的化学品知识进行知识关联和知识校验,进而得到化学品实体的实体属性数据集。
步骤一的数据预处理是一个更新迭代的过程,一次迭代包括了信息抽取、知识关联和知识校验三个阶段,以下分别对这三个阶段进行说明。
首先,例如,化学品知识库中所要收集的源化学品数据集的存储格式为csv格式,源化学品数据集的数据为结构化数据,部分数据具体样式如下:
数据样式一:
"中文名","中文别名","英文名","英文别名","分子式","CAS Number","site"
"硫酸","","Sulfuric acid","Sulfuric acid,fuming","H2SO4","7664-93-9","中国现有化学物质名录"
"碘化钾","","Potassium iodide","","IK","7681-11-0","中国现有化学物质名录"
…
数据样式二:
"id","name","o_name","cas_num","remark","chemId","site"
"1","阿片","鸦片","8008-60-4","","1","危险化学品目录2015"
"2","氨","液氨;氨气","7664-41-7","","2","危险化学品目录2015"
…
数据预处理模块第一步进行信息抽取,在本实施例中是基于python语言程序编程实现提取化学品数据源中的实体名称、属性以及属性值,在此基础上形成本体化的知识表达。
以上述的源化学品数据集的格式为例,部分本体化的知识表达示例如下:
{“中文名”:"硫酸",“中文别名”:“”,“英文名”:“Sulfuric acid”,“英文别名”:“Sulfuric acid,fuming”,“分子式”:“H2SO4”,“CAS Number”:"7664-93-9",“site”:“中国现有化学物质名录”}
…
{“name”:"甲醇","ZYB":"1",“ZYBMC”:"甲醇中毒"}
…
数据预处理模块第二步进行知识关联,对与第一步得到的化学品新知识,通过对其的融合消除矛盾和歧义,将其关联形成一些有用的信息。本实施例中是使用化学品中文名、CAS号等特征来实现知识关联。
这里的知识关联包括了实体链接和知识合并,本实施例中的实体链接是指对于从化学品数据源中抽取得到的化学品实体对象,将抽取得到的化学品实体对象链接到化学品知识库中对应正确的实体对象。
本实施例中的知识合并用于处理结构化的数据,包括化学品领域相同知识合并、异常知识消岐和不同知识新增。
数据预处理模块第三步进行知识校验,对于经过第二步的知识关联得到的化学品新知识,先对其进行质量评估,再将质量合格的化学品知识加入到化学品实体的实体属性数据集中。
本实施例中可以对化学品知识的可信度进行量化,通过舍弃置信度较低的化学品知识来保障数据集的质量。
数据预处理模块最终得到的一个化学品知识示例如下:
{“中文名”:"硫酸",“中文别名”:“”,“英文名”:“Sulfuric acid”,“英文别名”:“Sulfuric acid,fuming”,“分子式”:“H2SO4”,“CAS Number”:“7664-93-9”,“UN”:“1830”,…,“CHName2”:“镪水;漒水”,“site”:“中国现有化学物质名录”}
步骤二:知识库构建,即,以化学品实体的实体属性数据集作为输入,先创建索引和映射,再将所输入的化学品实体的实体属性数据集导入到数据库指定索引中,进而得到化学品知识库。
化学品知识库具有智能性,用于迅速描述物理世界中的概念及其关系,且其存储的大量化学品知识可用于实现知识的快速响应和问答。
步骤二的知识库构建处理的一个实施例的过程如下。
首先,创建索引:为化学品知识库创建一个单独索引的数据库,存储结构相似的文档。例如,编程实现数据库创建化学品知识库索引为A,类型B。
接着,创建映射:根据化学品属性创建一个映射,用来描述文档可能具有的字段或属性。例如,根据知识类型,在数据库中为化学品文档创建映射,映射类型为C。
最后,数据导入:将标准的化学品实体的实体属性数据集导入到数据库中,得到化学品知识库。例如,编程实现知识自动导入数据库A/B中,形成化学品知识库。
步骤三:知识问答,即,以用户提出的化工领域问题为输入,通过问题模板类型预定义(如图3所示的SA5)、自然语言解析(如图3所示的SA3)、语句重构(如图3所示的SA4)、查询语言模板填充(如图3所示的SA6)和答案检索返回(如图3所示的SA7-SA9)这五步,通过将问题经模板匹配解析成数据库查询语句,在化学品知识库中进行数据查询得到问题答案,并返回给用户。
举例来说,用户在知识问答中进行操作并得到反馈的例子如下。
示例:
用户输入事实型示例:“硫酸的沸点是多少?”
结果返回:Answer:290
用户输入统计型示例:“重点监管的化学品有多少种?”
结果返回:Answer:74
用户输入对错型示例:“甲烷是重点监管化学品吗?”
结果返回:Answer:1(是)
知识问答的步骤三中的第一步进行问题类型模板预定义,此步骤是根据化学品属性特点而建立,即,针对化学品问题定义不同类型的问题模板。例如,请参照表1,本实施例就化学品问题建立的模板类型共分为事实型、列表型、统计型等8种类型问题模板。
表1问题类型模板预定义示例
知识问答的步骤三的第二步进行自然语言解析。在这一步骤中,对于输入的化学品领域的问句,利用自然语言处理技术识别问句中的化学品实体、属性、属性值和特征词,并完成问句化学品实体名称、属性到化学品知识库中的实体名称和属性名的映射。
图2示出了自然语言解析处理的流程。
本实施例中通过对用户问句进行分词处理(图2所示的S1)、在处理后的分词中进行化学品实体识别(图2所示的S2)、化学品属性识别(图2所示的S3)、化学品属性值识别(图2所示的S4)、特征词识别(图2所示的S5)的步骤,完成提取用户问句中的化学品实体、属性、属性值、特征词的操作。
示例如下:
用户输入示例:“硫酸的沸点是多少?”。
实体识别:“硫酸”。
属性识别:“沸点”。
属性映射:“boiling”。
属性值识别:“”
特征词识别:“”
输出结果:[‘硫酸’,‘boiling’]
知识问答的步骤三的第三步进行问句重构,对于自然语言解析得到的化学品实体名称、属性、属性值和特征词的参数,据各参数在问句中的位置,对问句进行逻辑重构,得到问句对应的逻辑语言。
问句重构的几个示例如下:
示例一:问句为“硫酸的沸点是多少?”,重构结果为“硫酸:boiling”。
示例二:问句为“沸点大于200的化学品有哪些?”,重构结果为“沸点:>:200:哪些?”。
示例三:问句为“甲醇是重点监管化学品吗?”,重构结果为“甲醇:是:重点监管”。
知识问答的步骤三的第四步进行查询语言模板填充,针对不同类型的问题模板(例如前述表1中的八种),将重构得到的逻辑语言,填充至预先定义模板查询语言中,得到对应查询语句。
部分填充规则及示例如下:
事实型:化学品实体+属性;
列表型:属性名+属性值+列表词或属性名+比较词+属性值+列表词;
统计型:属性名+属性值+统计词或属性名+比较词+属性值+统计词;
比较型:化学品实体+化学品实体+属性名+比较词。
示例:
用户输入示例:“硫酸的沸点是多少?”。
重构结果:“硫酸:boiling”。
问题类型:“事实型”。
模板查询语言填充:“中文名”:“硫酸”,answer=dict[‘boiling’]。
知识问答的步骤三的第五步进行答案检索返回,程序执行填充完毕的模板查询语言,搜索数据库得到问句答案,并返回给用户。
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。
Claims (12)
1.一种基于化学品知识库的知识问答系统,其特征在于,包括:
数据预处理模块,以化学品领域的源数据作为输入,先对输入数据做预处理,抽取出化学品的实体属性数据集的原始数据,再将原始数据转为数据库指定格式的数据,通过对抽取的化学品知识进行知识关联和知识校验,得到化学品实体的实体属性数据集;
知识库构建模块,以化学品实体的实体属性数据集作为输入,先创建索引和映射,再将所输入的化学品实体的实体属性数据集导入到数据库指定索引中,得到化学品知识库;以及
知识问答模块,以用户提出的化工领域问题为输入,将问题解析成数据库查询语句,在化学品知识库中进行数据查询得到问题答案,并返回给用户。
2.根据权利要求1所述的基于化学品知识库的知识问答系统,其特征在于,数据预处理模块配置为进行以下的处理:
信息抽取:从化学品领域的源数据中提取化学品的实体名称、属性以及属性值,形成本体化的知识表达;
知识关联:针对信息抽取所得到的化学品新知识进行融合以消除矛盾和歧义,将融合后的数据关联形成关联后的化学品新知识;
知识校验:对经过知识关联得到的化学品新知识进行质量评估,再将质量合格的化学品新知识加入到化学品实体的实体属性数据集中。
3.根据权利要求2所述的基于化学品知识库的知识问答系统,其特征在于,在数据预处理模块的知识关联的处理中,包括实体链接和知识合并的处理,其中实体链接是将信息抽取得到的化学品实体对象链接到化学品知识库中对应正确的实体对象,知识合并用于处理结构化的数据,包括化学品领域相同知识合并、异常知识消岐和不同知识新增。
4.根据权利要求1所述的基于化学品知识库的知识问答系统,其特征在于,知识库构建模块配置为进行以下的处理:
创建索引:为化学品知识库创建一个单独索引的数据库,存储结构相似的文档;
创建映射:根据化学品属性创建一个映射,用来描述文档可能具有的字段或属性;
数据导入:将化学品实体的实体属性数据集导入到数据库中,得到化学品知识库。
5.根据权利要求1所述的基于化学品知识库的知识问答系统,其特征在于,知识问答模块配置为进行以下的处理:
问题类型模板预定义:针对化学品领域的问题定义不同类型的问题模板;
自然语言解析:对于输入的化学品领域的问句,利用自然语言处理技术识别问句中的化学品实体、属性、属性值和特征词,并完成问句中的化学品实体名称、属性到化学品知识库中的实体名称和属性名的映射;
语句重构:对于自然语言解析得到的化学品实体名称、属性、属性值和特征词的参数,据各参数在问句中的位置,对问句进行逻辑重构,得到对应的逻辑语言;
查询语言模板填充:针对不同类型的问题模板,将语句重构得到的逻辑语言,填充至预先定义的模板查询语言中,得到对应的查询语句;
答案检索返回:执行填充完毕的模板查询语言,搜索数据库得到问句答案,并返回给用户。
6.根据权利要求5所述的基于化学品知识库的知识问答系统,其特征在于,知识问答模块中的自然语言解析的处理过程包括:对问句进行分词处理,在处理后的分词中年进行化学品实体识别、化学品属性识别、化学品属性值识别、特征词识别,以提取用户问句中的化学品实体、属性、属性值、特征词的操作。
7.一种基于化学品知识库的知识问答方法,其特征在于,方法包括:
数据预处理:以化学品领域的源数据作为输入,先对输入数据做预处理,抽取出化学品的实体属性数据集的原始数据,再将原始数据转为数据库指定格式的数据,通过对抽取的化学品知识进行知识关联和知识校验,得到化学品实体的实体属性数据集;
知识库构建:以化学品实体的实体属性数据集作为输入,先创建索引和映射,再将所输入的化学品实体的实体属性数据集导入到数据库指定索引中,得到化学品知识库;以及
知识问答:以用户提出的化工领域问题为输入,将问题解析成数据库查询语句,在化学品知识库中进行数据查询得到问题答案,并返回给用户。
8.根据权利要求7所述的基于化学品知识库的知识问答方法,其特征在于,数据预处理的步骤进一步包括以下的处理:
信息抽取:从化学品领域的源数据中提取化学品的实体名称、属性以及属性值,形成本体化的知识表达;
知识关联:针对信息抽取所得到的化学品新知识进行融合以消除矛盾和歧义,将融合后的数据关联形成关联后的化学品新知识;
知识校验:对经过知识关联得到的化学品新知识进行质量评估,再将质量合格的化学品新知识加入到化学品实体的实体属性数据集中。
9.根据权利要求8所述的基于化学品知识库的知识问答方法,其特征在于,在数据预处理步骤中的知识关联的处理中,包括实体链接和知识合并的处理,其中实体链接是将信息抽取得到的化学品实体对象链接到化学品知识库中对应正确的实体对象,知识合并用于处理结构化的数据,包括化学品领域相同知识合并、异常知识消岐和不同知识新增。
10.根据权利要求7所述的基于化学品知识库的知识问答方法,其特征在于,知识库构建的步骤进一步包括以下的处理:
创建索引:为化学品知识库创建一个单独索引的数据库,存储结构相似的文档;
创建映射:根据化学品属性创建一个映射,用来描述文档可能具有的字段或属性;
数据导入:将化学品实体的实体属性数据集导入到数据库中,得到化学品知识库。
11.根据权利要求7所述的基于化学品知识库的知识问答方法,其特征在于,知识问答的步骤进一步包括以下的处理:
问题类型模板预定义:针对化学品领域的问题定义不同类型的问题模板;
自然语言解析:对于输入的化学品领域的问句,利用自然语言处理技术识别问句中的化学品实体、属性、属性值和特征词,并完成问句中的化学品实体名称、属性到化学品知识库中的实体名称和属性名的映射;
语句重构:对于自然语言解析得到的化学品实体名称、属性、属性值和特征词的参数,据各参数在问句中的位置,对问句进行逻辑重构,得到对应的逻辑语言;
查询语言模板填充:针对不同类型的问题模板,将语句重构得到的逻辑语言,填充至预先定义的模板查询语言中,得到对应的查询语句;
答案检索返回:执行填充完毕的模板查询语言,搜索数据库得到问句答案,并返回给用户。
12.根据权利要求11所述的基于化学品知识库的知识问答方法,其特征在于,知识问答步骤中的自然语言解析的处理过程进一步包括:对问句进行分词处理,在处理后的分词中年进行化学品实体识别、化学品属性识别、化学品属性值识别、特征词识别,以提取用户问句中的化学品实体、属性、属性值、特征词的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010328237.8A CN111522934A (zh) | 2020-04-23 | 2020-04-23 | 一种基于化学品知识库的知识问答系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010328237.8A CN111522934A (zh) | 2020-04-23 | 2020-04-23 | 一种基于化学品知识库的知识问答系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111522934A true CN111522934A (zh) | 2020-08-11 |
Family
ID=71903744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010328237.8A Pending CN111522934A (zh) | 2020-04-23 | 2020-04-23 | 一种基于化学品知识库的知识问答系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111522934A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022156450A1 (zh) * | 2021-01-20 | 2022-07-28 | 京东科技控股股份有限公司 | 知识库的查询方法、装置、计算机设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105335488A (zh) * | 2015-10-16 | 2016-02-17 | 中国南方电网有限责任公司电网技术研究中心 | 一种知识库构建方法 |
WO2017076263A1 (zh) * | 2015-11-03 | 2017-05-11 | 中兴通讯股份有限公司 | 融合知识库处理方法和装置及知识库管理系统、存储介质 |
CN109492077A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于知识图谱的石化领域问答方法及系统 |
-
2020
- 2020-04-23 CN CN202010328237.8A patent/CN111522934A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105335488A (zh) * | 2015-10-16 | 2016-02-17 | 中国南方电网有限责任公司电网技术研究中心 | 一种知识库构建方法 |
WO2017076263A1 (zh) * | 2015-11-03 | 2017-05-11 | 中兴通讯股份有限公司 | 融合知识库处理方法和装置及知识库管理系统、存储介质 |
CN109492077A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于知识图谱的石化领域问答方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022156450A1 (zh) * | 2021-01-20 | 2022-07-28 | 京东科技控股股份有限公司 | 知识库的查询方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804521B (zh) | 一种基于知识图谱的问答方法及农业百科问答系统 | |
CN108959433B (zh) | 一种从软件项目数据中提取知识图谱并问答的方法与系统 | |
US11151179B2 (en) | Method, apparatus and electronic device for determining knowledge sample data set | |
CN108052547A (zh) | 基于问句和知识图结构分析的自然语言问答方法及系统 | |
CN104657439A (zh) | 用于自然语言精准检索的结构化查询语句生成系统及方法 | |
CN111897968A (zh) | 一种工业信息安全知识图谱构建方法和系统 | |
CN107656921B (zh) | 一种基于深度学习的短文本依存分析方法 | |
CN109062904B (zh) | 逻辑谓词提取方法和装置 | |
CN112417891B (zh) | 一种基于开放式信息抽取的文本关系自动标注方法 | |
CN114218472A (zh) | 基于知识图谱的智能搜索系统 | |
CN110427471B (zh) | 一种基于知识图谱的自然语言问答方法及系统 | |
CN107436955A (zh) | 一种基于Wikipedia概念向量的英文词语相关度计算方法和装置 | |
CN118410175A (zh) | 基于大语言模型和知识图谱智能制造能力诊断方法及装置 | |
CN116244448A (zh) | 基于多源数据信息的知识图谱构建方法、设备及系统 | |
CN116561264A (zh) | 一种基于知识图谱的智能问答系统的构建方法 | |
CN117312531A (zh) | 知识图谱增强的基于大语言模型配电网故障归因分析方法 | |
CN118377881A (zh) | 智能问答方法、系统、装置、计算机设备和可读存储介质 | |
CN117875307A (zh) | 一种用于智能问答的文本解析方法和装置 | |
CN113610626A (zh) | 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质 | |
CN111522934A (zh) | 一种基于化学品知识库的知识问答系统和方法 | |
CN118132669A (zh) | 一种基于大语言模型的智能索引方法 | |
CN117473054A (zh) | 基于知识图谱的通用智能问答方法及装置 | |
CN115878814A (zh) | 一种基于机器阅读理解的知识图谱问答方法及其系统 | |
CN115827885A (zh) | 一种运维知识图谱的构建方法、装置及电子设备 | |
CN115658919A (zh) | 一种文化信息数字化存储方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |