CN113449038B

CN113449038B - 一种基于自编码器的矿山智能问答系统及方法

Info

Publication number: CN113449038B
Application number: CN202110727782.9A
Authority: CN
Inventors: 马连博; 孙鹏; 缪立杰; 王兴伟; 黄敏
Original assignee: 东北大学
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2024-04-26
Anticipated expiration: 2041-06-29
Also published as: CN113449038A

Abstract

本发明提供一种基于自编码器的矿山智能问答系统及方法，涉及矿山智能问答技术领域。本系统包括矿山数据处理模块，知识图谱表示学习模块，智能问答应用模块；通过对矿山工程实施过程中获得的多源、异构且非结构文本数据较多的信息进行整理和学习，深入挖掘数据之间的内在联系，从而构建出融合了多方信息的知识图谱。通过本发明可以高效的利用原本难以发挥价值的矿山数据。用户可以通过此应用通过提出自然语言问题的形式，快速获取矿山的相关知识。

Description

一种基于自编码器的矿山智能问答系统及方法

技术领域

本发明涉及矿山智能问答技术领域，尤其涉及一种基于自编码器的矿山智能问答系统及方法。

背景技术

智能问答在自然语言处理领域中占有很重要的地位，其主要内容是计算机通过对自然语言中的文本进行自动分析，并回复用户所需要咨询的问题。但是传统的基于规则的方法，已经不能满足当前用户的需求。现在通常采用对用户的问题进行深层次语义分析的方法，来获取用户问题中的深层信息，再通过深层信息的分析反馈给用户需要的答案。

目前深层次语义分析的方法中有一类使用知识图谱的方法，该方法不再是反馈简单排序的文档结果，而是通过使用低维稠密空间中的向量表示用户的问题和知识图谱中丰富的语义信息(实体和关系)，再设计相应的得分机制衡量向量之间的相似性。最终按照得分获得候选排序。

知识图谱(Knowledge Graph)是一种将现实世界中的各类知识表达成计算机可存储和计算的结构。知识图谱通常被表示成一个有向图，图中主要包含节点和有向边，其中节点表示实体(entity)，连接各个节点之间的边，被称为关系(relation)。如何将现实世界中的非结构化数据转换成计算机能够存储和计算的知识图谱则是知识图谱技术中的一个关键的问题，而知识表示正是解决这个问题的关键技术。随着深度学习在自然语言处理领域的不断普及和发展以及词向量嵌入(Embedding)等技术手段的出现，采用稠密低维的向量表示知识图谱中的实体和关系这种方式已经逐渐成为目前表示学习的主流方法。

随着科技水平的日益提高，矿山中智能感知技术的装备也在不断的升级，测量系统也在不断的集成化、自动化和智能化。这使得我们可以有效的检测、获取矿山采矿工程中的各种数据，但是由于矿山采矿工艺的复杂性，在工程实施中获取的数据往往具有多源、异构性，这样的数据不能有机融合，难以有效利用。且数据中的非结构化文本较多，大量的案例没有形成数据库，使得计算机处理效率低下，数据可移植性差，难以进行深度分析归纳。由于以上种种问题的存在，矿山工程实践中获取的各种数据，难以发挥其价值。而基于知识图谱的智能问答方法可以充分利用已有矿山数据中的多源异构性数据以及非结构化文本中的丰富语义。因此，如何能够将多源异构信息进行有机融合，更好的进行深层次语义分析，构建矿山智能问答系统，成为智能问答矿山信息的关键技术。

现有的智能问答方法存在无法进行深层次语义分析的问题。现有的知识图谱表示学习中的大多模型在一定程度上不能满足对于矿山数据中实体和关系之间复杂关系的模拟，所以需要更加复杂的模型来处理这些复杂的关系。因此在表示学习的过程中结合自编码器的思想，赋予模型更强的关系处理能力。

发明内容

为解决上述技术问题，本发明提出一种基于自编码器的矿山智能问答系统及方法，通过对矿山工程实施过程中获得的多源、异构且非结构文本数据较多的信息进行整理和学习，深入挖掘数据之间的内在联系，从而构建出融合了多方信息的知识图谱。通过本发明可以高效的利用原本难以发挥价值的矿山数据。

一方面，一种基于自编码器的矿山智能问答系统，包括矿山数据处理模块，知识图谱表示学习模块，智能问答应用模块；

所述的矿山数据处理模块，对矿山数据中的结构化数据以及非结构化文档进行处理，将矿山数据处理成进行表示学习的三元组，三元组数据会被整理知识库文件，并以文档的形式保存，并传送至知识图谱表示学习模块。

所述知识图谱表示学习模块以矿山数据处理模块传输过来的知识库文件为输入，通过知识表示学习方法学习知识库文件中三元组中的实体和关系之间的潜在联系，获取数据的分布式结构化信息。

所述的智能问答应用模块为用户提供一种与矿山数据进行自然交互的服务，用户通过智能问答的方式获取想要了解的矿山数据，系统为用户提供交互界面，用户在交互界面中输入关于矿山的问题，智能问答应用模块分析问题的结构，并进行拆解，调用事先建立好的矿山数据知识图谱检索用户所提问题的答案；如果用户需要了解问题拆解的过程，以及问题拆解过程中产生的中间答案，点击交互界面上相应的按钮，系统会将问题拆解的过程展示出来，以便于用户了解问题的推理过程，获取问题相关信息。

所述后台算法为一个推理网络，包含输入模块，推理模块和回答模块。所述输入模块将自然语言问句编码成分布式的形式，再将先前通过命名实体识别得到的主题实体的分布式表示编码，输入到推理模块中。所述推理模块通过从输入模块获得的信息推断出本次推理需要关注的关系，并将推理结果反馈给输入模型，让其调整输入以便进行下一次推理，同时将结果传输给回答模块，所述回答模块通过获取的实体和关系，在知识图谱中检索这个本次推理分解出的问题的答案，通过不断的迭代，得到问题的答案，回答模块将推理过程中产生的中间信息以及得到的最终答案按照规则整理成文本反馈给用户。

另一方面，一种基于自编码器的矿山智能问答方法，基于前述一种基于自编码器的矿山智能问答系统实现，具体包括以下步骤：

步骤1：矿山信息预处理，将多源异构的矿山数据整理成结构化的文档并存储于数据库中；

对于数据中存在的非结构化文本，首先使用自然语言处理的方式，进行初步处理：使用命名实体识别，对文本句子中的实体进行标注，得到相应的实体；再通过关系抽取的方式，获取实体与实体之间的关系，最终将非结构化的文本转换成(实体，关系，实体)的形式。

步骤2：将矿山信息整理为供知识图谱进行表示学习的三元组形式；

对于存储于数据库中的数据，将存储于数据库表中的每一条数据(名词，属性，属性值)按照(实体，关系，实体)的方式重新构建，若是从非结构化文档中提取的信息则直接按照(实体，关系，实体)的形式将内容保存为知识库文档；通过对结构化数据和非结构化文档的处理构建知识库文档，文档中的内容按照统一的形式(实体，关系，实体)进行保存，并制作实体列表和关系列表。

所述制作实体列表和关系列表，将知识库文档中出现过的所有实体的集合定义为E，实体之间的关系集合定义为R，出现在知识库文档中第一个位置的实体定义为头实体H，出现在知识库文档中第三个位置的实体定义为尾实体T，其中H，T∈E；此时知识库文档中出现的内容定义为(h,r,t)，称为三元组，h∈H，r∈R，t∈T，通过所有实体的集合E和所有实体的集合R，分别制作实体列表和关系列表。

步骤3：基于自编码器，构造知识图谱；

对于一个三元组(h,r,t)，首先使用编码器进行编码，将其映射到关系r所处的空间中，得到头实体h在关系r所处空间中的映射h’，再在r所处的空间中使用关系r对h’进行翻译，得到翻译后的结果h’+r，然后使用解码器将翻译后的结果映射回实体E的空间中，得到结果t’；最后计算使用自编码器进行t’和三元组中原有的t的比较，计算它们之间的距离||t-t’||_l1/2，将三元组(h,r,t)的得分函数定义为score＝D_r(E_r(h)+r)–t，其中E_r(x)表示的是使用r对x进行编码的过程，即获得x在r空间中的投影的过程；D_r(x)表示的是使用r对x进行解码的过程，即将x从r空间映射回原空间的过程，将关系r视为是h和t之间的翻译，score视为是头实体h经过r的翻译之后和其对应的尾实体t之间的距离，并使用梯度下降的方法，不断的降低正确的三元组的得分，在降低正确三元组的得分的同时，也给错误的三元组一个更高的得分，为此最终的损失函数L定义成如下的形式：

其中，γ为超参数，△表示知识库文档中保存的三元组(h,r,t)的集合，△’表示通过随机替换知识库文档中三元组(h,r,t)的头实体为h’∈E或者尾实体为t’∈E而得到的不正确的三元组(h’,r,t’)的集合，且(h’,r,t’)∈△，l_1/2表示的是计算h，r和t三个向量的第一范数或第二范数的数值，ξ是△中正确的三元组(h,r,t),ξ’是△’中不正确的三元组(h’,r,t’)，f_r(ξ)是指三元组的得分，f_r(h,r,t)＝D_r(E_r(h)+r)–t。

步骤4：问句解析与答案检索。

将非结构化文本的问句转换成图结构的查询，将文本中的实体和关系映射到知识图谱的点与边中，再根据知识图谱中已经结构化的知识，通过检索的方式匹配对应的实体，将检索的结果进行聚合，整理成最终的答案反馈给用户。

本发明所产生的有益效果在于：

本发明提供一种基于自编码器的矿山智能问答系统及方法，将通常方法难以处理的矿山数据，通过基于自编码器的知识图谱构建的方式进行深度分析和归纳，有效整合。解决了矿山数据多源、异质，非结构化文本多，计算机处理效率底下，数据可移植性差，难以有效利用等问题。并且提供了智能问答系统应用，用户可以通过此应用通过提出自然语言问题的形式，快速获取矿山的相关知识。

附图说明

图1为本发明实施例中的矿山智能问答系统结构图；

图2为本发明实施例中用户使用矿山智能问答过程的流程图；

图3为本发明实施例中矿山智能问答系统中推理网络算法流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

一方面，一种基于自编码器的矿山智能问答系统，如图1所示，包括矿山数据处理模块，知识图谱表示学习模块，智能问答应用模块；

所述知识图谱表示学习模块以矿山数据处理模块传输过来的知识库文件为输入，通过知识表示学习方法学习知识库文件中三元组中的实体和关系之间的潜在联系，实现信息的分布式结构化数据。

所述后台算法为一个推理网络，如图3所示，包含输入模块，推理模块和回答模块。所述输入模块将自然语言问句编码成分布式的形式，再将先前通过命名实体识别得到的主题实体的分布式表示编码，输入到推理模块中。所述推理模块通过从输入模块获得的信息推断出本次推理需要关注的关系，并将推理结果反馈给输入模型，让其调整输入以便进行下一次推理，同时将结果传输给回答模块，所述回答模块通过获取的实体和关系，在知识图谱中检索这个本次推理分解出的问题的答案，通过不断的迭代，得到问题的答案，回答模块将推理过程中产生的中间信息以及得到的最终答案按照规则整理成文本反馈给用户。

要处理的数据主要由两种类型构成：

一、原本就存储于数据库中，但是由于来源不同，难以融合的数据，则将存储于数据库表中的每一条数据重构为(实体，关系，实体)的形式，再添加到结构化文档中。如针对如下表格中中国人口的这条数据，将表格中的数据的内容转化为(西南帮，斜角为，45)、(西南帮，应力为，-10.5)这样的三元组(h,r,t)形式。再使用整理出来的实体和关系构建关系列表。

位置	西南帮	东南帮	...
				斜角	45	30
应力	-10.5	-5

二、对于非结构化的文本，则需要使用自然语言处理的方式先对文本进行处理。首先使用命名实体识别，对文本中的实体进行标注，在通过关系抽取，结合文本以及实体信息抽取实体之间的关系。以文本“西北帮发生滑坡”为例，通过命名实体识别的方式，我们可以将文本中的“西北帮”，“滑坡”等信息标注为实体，在抽取这两个实体之间的关系，“西北帮”和“滑坡”存在一个发生事故的关系，所以原来的文本可以提取的结构化信息为(西北帮，发生事故，滑坡)，并通过结构化的方式进行存储。将结构化文档进行处理，整理成为知识库。

步骤3：基于自编码器，构造知识图谱；

2013年，Bordes等人提出了第一个基于翻译的知识表示模型，TransE。模型在通过简单直观的方式去模拟实体与实体之间的关系，因为其简单直接的思路，TransE能够高效的应用于大规模知识图谱，但在处理复杂关系时就显得力不从心。随后又有研究员不断的提出新的方案试图解决这个问题，如：TransH，ConvE，R-GCN，rotatE，ComplEx等翻译模型和张量分解模型等在一定程度上提高处理复杂关系的能力。更复杂的关系需要更加的复杂的机制来模拟。所以，本发明引入自编码器先编码后解码的思想，帮助模型获得更强的处理复杂关系的能力。

通过pytorch中的词嵌入层，为实体列表和关系列表中所有的词分配一个词向量，每一个词向量表示的就是实体或者关系在多维连续空间中的分布。本发明提供了一种基于自编码的词向量训练方式，来帮助发掘实体与实体之间以及实体和关系之间的潜在联系。对于三元组(西南帮,斜角为,45)，使用词嵌入层获取其词向量，分别为e_h，e_r，e_t。使用编码器将“西南帮”的词向量e_h进行编码，将其映射到关系“斜角为”的空间中，得到E_h在关系“斜角为”上的映射h’。再在关系空间上使用关系e_r进行翻译，得到h’+r。最后使用解码器将关系r空间上的翻译结构映射回实体E的空间，得到t’，并将结果和三元组中原本的t进行比较，计算它们之间的距离||t-t’||_l1/2，将其视为是三元组的得分score。通过降低正确三元组的得分并且提高错误三元组的得分来实现对于实体与实体以及实体与关系之间潜在联系的挖掘。

步骤4：通过上述步骤，使用发明中提出的自编码器训练方式可以有效的挖掘实体和关系之间的潜在关系，将三元组信息转换成实体和关系的分布式结构化数据，进一步生成计算机可以理解并且有效处理的知识图谱库。对于基于知识图谱实现的智能问答系统，首要的工作是将非结构化文本的问句转换成图结构的查询，将文本中的实体和关系映射到知识图谱的点与边中，再根据知识图谱中已经结构化的知识，通过检索的方式匹配对应的实体，将检索的结果进行聚合，整理成最终的答案反馈给用户。

对于用户给出的自然语言问句，首先需要使用命名实体识别对句子中的成分进行标注，并从中筛选出整个问句的主题实体。再使用推理网络对整个问句进行解析，逐步分析并检索整理出用户想要的答案。

用户使用智能问答系统运行的步骤如图2所示:

步骤4.1，用户通过自然语言问题的方式，输入想要的获取的矿山知识。系统将调用后台算法，结合知识图谱中的知识，对问题进行解析并给出回答。如下例，如果用户输入：“大孤山铁矿西北边的山坡的斜角为多少？”对于这样的自然语言问题，后台会先调用输入模块使用矿山知识图谱学习到的知识表示，将整个句子转换成低维稠密空间的表示q，称之为问题向量q₀。并使用命名实体识别，识别出整个句子的主题实体e_s，大孤山。使用e_s初始化推理模块的状态向量s为s₀。推理模块通过问题向量q₀和当前的状态向量s₀，识别出本次推理需要注意的关系：r₀，西北边的山坡。使用关系向量r₀来更新推理模块的状态向量为s₁，以及输入模块的输入向量为q₁，为下一次问题的分析和推理做好准备。回答模块则可以根据本次推理的实体和关系分析出本次推理的结果：a₁，西北帮。在第二次迭代中，则会关注于关系r₁：斜角，并推理出最终的答案a₂，45度。

步骤4.2，系统将通过矿山知识图谱检索出的答案整理成文本返回给用户。如“大孤山铁矿西北边的山坡：西北帮，的斜角为45度。”

步骤4.3：系统会向用户展示矿山知识智能问答推理过程中的相关信息。大孤山铁矿—(西北边的山坡)—>西北帮—(斜角)—>45度。

由以上描述可以看出，本发明将多源、异质的矿山信息进行有机融合，通过分析实体和实体以及实体和关系之间的潜在关系，将矿山信息整理成计算机可以处理的知识图谱，从而解决了矿山数据中非结构化文本较多，计算机处理效率底下，数据可移植性差的问题。同时还利用构建的矿山知识图谱为基础，搭建了一个矿山知识问答系统，为用户提供了一种更自然的人机交互方式，用户可以通过自然语言问句来获取想要的矿山知识。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于自编码器的矿山智能问答系统，其特征在于，包括：矿山数据处理模块，知识图谱表示学习模块，智能问答应用模块；

所述的矿山数据处理模块，对矿山数据中的结构化数据以及非结构化文档进行处理，将矿山数据处理成进行表示学习的三元组，数据被整理知识库文件，并以文档的形式保存，并传送至知识图谱表示学习模块；

所述知识图谱表示学习模块以矿山数据处理模块传入的知识库文件为输入，通过知识表示学习方法学习知识库文件中三元组中的实体和关系之间的潜在联系，获取数据的分布式结构化信息；

所述的智能问答应用模块为，用户通过智能问答的方式获取矿山数据；

所述通过智能问答的方式获取矿山数据，智能问答应用模块为用户提供交互界面，用户在交互界面中输入关于矿山的问题，智能问答应用模块后台算法分析问题的结构，并进行拆解，调用事先建立好的矿山数据知识图谱检索用户所提问题的答案；如果用户需要了解问题拆解的过程，以及问题拆解过程中产生的中间答案，点击交互界面上相应的按钮，系统会将问题拆解的过程展示出来，以便于用户了解问题的推理过程，获取问题相关信息；

所述后台算法为一个推理网络，包含输入模块，推理模块和回答模块；所述输入模块将自然语言问句编码成分布式的形式，再将先前通过命名实体识别得到的主题实体的分布式表示编码，输入到推理模块中；所述推理模块通过从输入模块获得的信息推断出本次推理需要关注的关系，并将推理结果反馈给输入模型，让其调整输入以便进行下一次推理，同时将结果传输给回答模块，所述回答模块通过获取的实体和关系，在知识图谱中检索这个本次推理分解出的问题的答案，通过不断的迭代，得到问题的答案，回答模块将推理过程中产生的中间信息以及得到的最终答案按照规则整理成文本反馈给用户；

所述的一种基于自编码器的矿山智能问答系统，实现基于自编码器的矿山智能问答方法，包括以下步骤：

步骤2：将矿山信息整理为供知识图谱进行表示学习的三元组形式；对于存储于数据库中的数据，将存储于数据库表中的每一条数据(名词，属性，属性值)按照(实体，关系，实体)的方式重新构建，若是从非结构化文档中提取的信息则直接按照(实体，关系，实体)的形式将内容保存为知识库文档；通过对结构化数据和非结构化文档的处理构建知识库文档，文档中的内容按照统一的形式(实体，关系，实体)进行保存，并制作实体列表和关系列表；

步骤3：基于自编码器，构造知识图谱；

步骤4：问句解析与答案检索；

将非结构化文本的问句转换成图结构的查询，将文本中的实体和关系映射到知识图谱的点与边中，再根据知识图谱中已经结构化的知识，通过检索的方式匹配对应的实体，将检索的结果进行聚合，整理成最终的答案反馈给用户；

步骤1中所述预处理过程中，对于数据中存在的非结构化文本，首先使用自然语言处理的方式，进行初步处理：使用命名实体识别，对文本句子中的实体进行标注，得到相应的实体；再通过关系抽取的方式，获取实体与实体之间的关系，最终将非结构化的文本转换成(实体，关系，实体)的形式；

步骤2中所述制作实体列表和关系列表，将知识库文档中出现过的所有实体的集合定义为E，实体之间的关系集合定义为R，出现在知识库文档中第一个位置的实体定义为头实体H，出现在知识库文档中第三个位置的实体定义为尾实体T，其中H，T∈E；此时知识库文档中出现的内容定义为(h,r,t)，称为三元组，h∈H，r∈R，t∈T，通过所有实体的集合E和所有实体的集合R，分别制作实体列表和关系列表；

步骤3中所述知识图谱，对于一个三元组(h,r,t)，首先使用编码器进行编码，将其映射到关系r所处的空间中，得到头实体h在关系r所处空间中的映射h’，再在r所处的空间中使用关系r对h’进行翻译，得到翻译后的结果h’+r，然后使用解码器将翻译后的结果映射回实体E的空间中，得到结果t’；最后计算使用自编码器进行t’和三元组中原有的t的比较，计算它们之间的距离||t-t’||_l1/2，将三元组(h,r,t)的得分函数定义为score＝D_r(E_r(h)+r)-t，其中E_r(x)表示的是使用r对x进行编码的过程，即获得x在r空间中的投影的过程；D_r(x)表示的是使用r对x进行解码的过程，即将x从r空间映射回原空间的过程，将关系r视为是h和t之间的翻译，score视为是头实体h经过r的翻译之后和其对应的尾实体t之间的距离，并使用梯度下降的方法，不断的降低正确的三元组的得分，在降低正确三元组的得分的同时，也给错误的三元组一个更高的得分，最终生成损失函数；

所述损失函数L定义成如下的形式：

其中，γ为超参数，△表示知识库文档中保存的三元组(h,r,t)的集合，△’表示通过随机替换知识库文档中三元组(h,r,t)的头实体为h’∈E或者尾实体为t’∈E而得到的不正确的三元组(h’,r,t’)的集合，且(h’,r,t’)∈△，l_1/2表示的是计算h，r和t三个向量的第一范数或第二范数的数值，ξ是△中正确的三元组(h,r,t),ξ’是△’中不正确的三元组(h’,r,t’)，f_r(ξ)是指三元组的得分，f_r(h,r,t)＝D_r(E_r(h)+r)–t；

步骤4中对于用户给出的自然语言问句，首先需要使用命名实体识别对句子中的成分进行标注，并从中筛选出整个问句的主题实体；再使用推理网络对整个问句进行解析，逐步分析并检索整理出用户想要的答案。