CN112527999A

CN112527999A - 引入农业领域知识的抽取式智能问答方法及系统

Info

Publication number: CN112527999A
Application number: CN202011529017.8A
Authority: CN
Inventors: 任妮; 沈耕宇; 郭婷; 鲍彤; 刘家祥; 王坚强
Original assignee: Jiangsu Academy of Agricultural Sciences
Current assignee: Jiangsu Academy of Agricultural Sciences
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-03-19
Anticipated expiration: 2040-12-22
Also published as: CN112527999B

Abstract

本发明公开了一种引入农业领域知识的抽取式智能问答方法及系统，抽取式智能问答方法包括以下步骤：S1、获取技术文章，构建文档资源库；S2、检索文档资源库中与问题相关的关联文档，并构建问题文章组合对数据；S3、根据问题文章对进行问句与文章预训练语言模型Bert编码；S4、将知识图谱数据嵌入Bert模型；S5、将问句与文章编码向量进行自注意力交互层运算，并将问句与文章编码向量与自注意力交互向量进行拼接，得到拼接后的关系向量；S6、将拼接后的关系向量作为答案预测层的输入向量，进行答案位置的预测，并将答案输出给用户。本发明的抽取式智能问答方法，有效提高了抽取式机器阅读理解模型在智能问答过程中答案抽取的准确率。

Description

引入农业领域知识的抽取式智能问答方法及系统

技术领域

本申请涉及农业技术中的机器阅读理解领域，更具体地，涉及一种引入农业领域知识的引入农业领域知识的抽取式智能问答方法及系统。

背景技术

机器阅读理解技术伴随着机器学习和深度学习技术的发展，取得了广泛的关注和投入，随着研究的深入出现了各种类型的机器阅读理解研究任务，从简单的完形填空式，再到复杂的抽取式问答任务，衡量机器阅读理解模型性能的各类评测数据集也被不断发布。

抽取式机器阅读理解问答的形式是根据给定的一篇文章，和针对文章提出一个问题，经过机器阅读理解模型的分析，返回文章内的一段文本作为所提问题的答案。因为问题的答案抽取自给定的文章内，因此称为抽取式机器阅读理解问答。智能问答研究是信息检索领域的一种更新颖和更智能的研究方向，它可以解决搜索引擎这类检索式问答无法获取更直接和精准信息的问题。机器阅读理解技术与智能问答相结合，是未来智能问答技术发展的主要研究方向。

目前随着互联网技术与农业相结合的越来越密切，互联网上产生了大量的农业领域知识，例如农业病虫害防治、农事操作等方面信息很容易通过搜索引擎检索到。面对这些分散在互联网各个角落的信息，研究人员通过深度学习技术和知识图谱技术，按照领域分别挖掘和整理出了相关农业领域的知识，并构建出了各种农业领域的知识图谱，比如番茄领域知识图谱、甘薯领域知识图谱等等。

在农业领域智能问答技术研究方面，领域知识图谱的应用还未成熟，而且那些已有的应用研究往往是在建立好的农业领域知识图谱基础上，直接利用基于知识库检索问答的方法去解决农业领域的智能问答。这种知识检索问答的形式返回给用户的答案由于是来源于知识图谱中整理好的结构化知识，虽然在答案准确性上有一定的保证，但是在农业领域的问答过程，用户大多会提出一些需要知道原因和办法的描述性的问题。这时仅仅通过知识库问答的方法很难实现对这种问题的准确回答。

在开放领域智能问答研究中抽取式机器阅读理解技术依托大量的人工标注生成了大量的问答对数据，从而为模型训练提供了充分的训练数据，能够轻松的在开放领域问答测评任务中取得较高得分。但是在农业领域，限于专业性的要求和领域文本资源的限制，首先很难开展类似的海量问答对数据标注工作，其次，针对某一具体农业领域有限的训练数据情况下，通过单一的阅读理解问答模型实现较好的效果是不可能的，必须依赖领域知识的引入，才能为农业领域智能问答模型提供较高的准确率。

发明内容

本申请的一个目的是提供一种引入农业领域知识的抽取式智能问答方法的新技术方案，能够解决现有的智能问答技术中存在准确率不高的问题。

根据本发明第一方面实施例，提供了一种引入农业领域知识的抽取式智能问答方法，包括以下步骤：

S1、获取技术文章，构建基于所述技术文章的文档资源库；

S2、针对用户提出的问题，检索所述文档资源库中与所述问题相关的关联文档，并构建问题文章组合对数据；

S3、根据所述问题文章组合对数据进行问句与文章预训练语言模型Bert编码，得到编码后的隐藏层编码向量，并将所述隐藏层编码作为问题文章组合对数据的初始编码；

S4、构建知识图谱数据，将所述知识图谱数据嵌入Bert模型，获得知识表示向量，并将所述知识表示向量与所述初始编码合并后输出问句与文章编码向量；

S5、将所述问句与文章编码向量进行自注意力交互层运算，得到自注意力交互向量，并将所述问句与文章编码向量与所述自注意力交互向量进行拼接，得到拼接后的关系向量；

S6、将拼接后的所述关系向量作为答案预测层的输入向量，进行答案位置的预测，并将答案输出给用户。

进一步地，所述步骤S2包括以下子步骤：

S21、对用户提出问题的问题文本进行分词处理和去除停用词处理；

S22、根据处理后的所述问题文本，检索所述文档资源库，并得到与所述问题文本相关的关联文档；

S23、根据所述关联文档与所述问题文本的相关度对所述关联文档排序，构建所述问题文章组合对数据，并形成问题文章排序组合对。

进一步地，所述步骤S3包括以下子步骤：

S31、将所述问题文章组合对数据拆分成可输入到Bert模型中的符合输入文本序列长度限制的段落，并与问句组合拼接形成输入序列；

S32、将拼接后的所述问题文章组合对数据的输入序列经过向量化的转换后，输入到Bert模型中进行编码模块处理；

S33、经所述编码模块处理后输出，并经过Transformer框架编码后的隐藏层编码向量作为问题文章段落组合的输入序列的初始编码。

进一步地，所述输入序列的格式如下：

S＝[<CLS>Q<SEP>P<SEP>]

其中，S为所述输入序列，P为所述段落，Q为所述问句，所述输入序列中的<CLS>为Bert模型序列的分类标记，所述输入序列中的<SEP>在序列中起分隔符的作用。

进一步地，所述步骤S4包括：

S41、基于深度学习的实体关系抽取技术，将知识图谱以知识三元组的形式存储，构建成所述知识图谱数据；

S42、对所述知识图谱数据进行训练，将知识图谱中的实体和关系数据转换为稠密低维的分布式表示向量；

S43、对所述问题文章组合对数据进行实体识别，获得与实体对应的知识表示向量；

S44、将所述知识表示向量与Bert模型输出的所述隐藏层编码向量合并，并将合并后的向量输入到Bert模型中编码运算，得到所述问句与文章编码向量。

进一步地，在所述自注意力交互层运算中，所述问题文章组合对数据中任意两个实体的交互矩阵的计算公式为：

R_ij＝W^T[u_i,u_j,u_i⊙u_j]

其中，i和j分别表示所述问题文章组合对数据中的两个命名实体，u_i和u_j分别表示所述知识图谱数据嵌入Bert模型后获得的相应知识表示向量，R_ij表示矩阵R中第i行第j列的值，W^T表示参数矩阵。

进一步地，所述矩阵R的每一行执行softmax函数计算得到矩阵A，得到所述矩阵A的计算公式为：

其中，a_ij是矩阵A中的第i行和第j列的值，r_ij是矩阵R中第i行和第j列的值。

进一步地，根据所述矩阵A得到自注意力交互向量的公式为：

v_i＝∑_ja_iju_j

其中，a_ij是矩阵A中的第i行和第j列的值，u_j表示所述知识图谱数据嵌入Bert模型后获得的相应知识表示向量，v_i表示自注意力交互向量。

进一步地，将所述知识表示向量和所述自注意力交互向量拼接的公式为：

O_i＝[u_i,v_i,u_i-v_i,u_i⊙v_i]

其中，u_i和u_j分别表示所述知识图谱数据嵌入Bert模型后获得的相应知识表示向量，v_i表示自注意力交互向量，O_i表示拼接后的关系向量。

进一步地，在所述步骤S5中，将拼接后的所述关系向量继续输入一个线性输出层，并跟随Softmax函数计算操作，获得所述问题文章组合对数据的序列中每个字作为答案起始位置的概率，每个序列计算答案位置起始概率的公式为：

其中，

和

分别表示了文章序列中起始位置的概率，{O_i}向量序列代表了拼接后的关系向量，W₁和W₂表示可初始化并训练的参数矩阵。

根据本发明第二方面实施例，提供一种基于抽取式机器阅读理解模型的智能问答系统，包括：

获取模块，用于获取技术文章；

存储模块，用于将所述技术文章存储为文档资源库；

检索模块，用于检索所述文档资源库中与用户提出的问题相关的关联文档，以构建问题文章组合对数据；

Bert模型编码模块，用于对所述问题文章组合对数据进行问句与文章预训练语言模型Bert编码，得到编码后的隐藏层编码向量作为所述问题文章组合对数据的初始编码；

嵌入模块，用于将知识图谱数据嵌入Bert模型，得到知识表示向量，并将所述知识表示向量与所述初始编码合并后输出问句与文章编码向量；

计算模块，用于将所述问句与文章编码向量进行自注意力交互层运算，得到自注意力交互向量；

拼接模块，用于将所述问句与文章编码向量与所述自注意力交互向量进行拼接，得到拼接后的关系向量；

答案生成模块，用于将拼接后的所述关系向量作为答案预测层的输入向量，进行答案位置的预测，生成答案并输出给用户。

根据本发明第三方面实施例，提供一种电子设备，包括：处理器和存储器，在所述存储器中存储有计算机程序指令，其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行上述实施例中的引入农业领域知识的抽取式智能问答方法的步骤。

根据本发明第四方面实施例，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器运行时，使得所述处理器执行上述实施例中的引入农业领域知识的抽取式智能问答方法的步骤。

根据本发明实施例的引入农业领域知识的抽取式智能问答方法，通过将构建的知识图谱数据嵌入Bert模型，得到知识表示向量，并将知识表示向量与Bert模型初步编码后的隐藏层编码向量合并后输出问句与文章编码向量，并将问句与文章编码向量输入至Bert模型的自注意力交互层中进一步编码运算，得到拼接后的关系向量。同时将拼接后的关系向量作为答案预测层的输入向量，进行答案位置的预测，最后将预测的得分最高的答案输出给用户。该引入农业领域知识的抽取式智能问答方法，有效提高了抽取式机器阅读理解模型在智能问答过程中答案抽取的准确率。

通过以下参照附图对本申请的示例性实施例的详细描述，本申请的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本申请的实施例，并且连同其说明一起用于解释本申请的原理。

图1是本发明的抽取式智能问答方法的一个流程图。

图2是本发明的抽取式智能问答方法的另一个流程图。

图3是本发明的抽取式智能问答方法的Bert模型嵌入知识图谱数据的模型框架流程图。

图4是本发明的智能问答系统的工作框图。

图5是本发明的用于抽取式智能问答方法的电子设备的工作原理图。

附图标记：

智能问答系统100；

获取模块10；

存储模块20；

检索模块30；

Bert模型编码模块40；

嵌入模块50；

计算模块60；

拼接模块70；

答案生成模块80；

电子设备200；

处理器201；

存储器202；操作系统2021；应用程序2022；

网络接口203；

输入设备204；

硬盘205；

显示设备206。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

下面首先结合附图具体描述根据本发明实施例的引入农业领域知识的抽取式智能问答方法。

如图1所示，根据本发明实施例的引入农业领域知识的抽取式智能问答方法，包括以下步骤：

S1、获取技术文章，构建基于技术文章的文档资源库；

S2、针对用户提出的问题，检索文档资源库中与问题相关的关联文档，并构建问题文章组合对数据；

S3、根据问题文章组合对数据进行问句与文章预训练语言模型Bert编码，得到编码后的隐藏层编码向量，并将隐藏层编码向量作为问题文章组合对数据的初始编码；

S4、构建知识图谱数据，将知识图谱数据嵌入Bert模型，获得知识表示向量，并将知识表示向量与初始编码合并后输出问句与文章编码向量；

S5、将问句与文章编码向量进行自注意力交互层运算，得到自注意力交互向量，并将问句与文章编码向量与自注意力交互向量进行拼接，得到拼接后的关系向量；

S6、将拼接后的关系向量作为答案预测层的输入向量，进行答案位置的预测，并将答案输出给用户。

具体地，如图1所示，根据本发明实施例的引入农业领域知识的抽取式智能问答方法主要应用于农业领域，在本申请中，可以选择一个具体的农业领域作为抽取式智能问答方法的应用实现目标，该具体的农业领域可以为番茄栽培技术领域，可以涉及番茄栽培相关的育苗、病虫害防治、田间管理等具体的栽培技术领域。因此，在本申请的下述实施例中，可以以番茄栽培技术领域为例进行具体说明。当然，本领域技术人员可以理解，引入农业领域知识的抽取式智能问答方法还可以应用于其他农业领域，例如：甘薯种植领域等。并且引入农业领域知识的抽取式智能问答方法也可以应用于其他非农业领域，在本申请中不再详细赘述。

在本发明的引入农业领域知识的抽取式智能问答方法中，如图1和图2所示，首先，可以通过网络爬虫工具爬取互联网上的有关农业种植栽培网站上的各类农业技术文章。将爬取的各类技术文章经过初步的解析、数据清洗和预处理后，在利用全文搜索的工具，分别对这些文章进行全文索引构建，然后存入全文搜索工具的文档资源库中，构建成基于技术文章的文档资源库，以便后续问答模型检索分析使用。

在获取技术文章的过程中，可以根据实际需要爬取相应类型的技术文章，例如，在本申请中，可以选择农业技术网站中番茄栽培相关文章作为爬取目标，经过网络爬虫工具爬取后的番茄栽培技术文档，使用全文检索工具ElasticSearch分词和构建倒排索引等处理，构建了番茄领域相关文档资源库。

然后，针对用户提出的问题，可以利用全文检索工具中的BM25检索算法检索文档资源库中与问题相关的关联文档，并将检索出的相关文档构建成问题文章组合对数据。

在构建问题文章组合对数据的过程中，可以针对用户提出的有关问题，对问题文本进行分词处理和去除停用词等处理。根据处理后的问题文本，从构建的番茄领域相关的文档资源库中检索与问句(或问题文本)相关的N篇关联文档。例如，检索出5篇与问句最相关的关联文档。将检索出的5篇关联文档根据与问句的相关度进行得分排序，构建成问题文章排序组合对。问题文章排序组合对可以指检索出的与用户提出的问题相关的关联文档的总和。

如图1和图2所示，根据检索出的与问题相关的问题文章组合对数据进行问句与文章预训练语言模型Bert编码，得到编码后的隐藏层编码向量。并将隐藏层编码向量作为问题文章组合对数据的初始编码。在此过程中，可以构建关联文档的问题答案抽取模块。在构建关联文档的问题答案抽取模块的过程中，可以利用人工标注的农业领域问答对数据(文章和问题答案标注数据)和开放领域抽取式问答对数据联合训练机器阅读理解模型。

利用深度学习技术构建的预训练语言模型Bert，Bert模型首先使用的语料可以来自开放领域中文机器阅读理解问答任务数据集CMRC2018的数据，随后在训练的基础上再使用本方法标注的农业栽培技术领域问答对数据集进行训练。因为条件的限制，此处使用的农业领域问答对数据集的规模相比开放领域的数据集规模较小，因此后续引入农业领域知识(例如：引入番茄领域知识图谱数据)，能够弥补领域数据集规模不足，减少对阅读理解问答方法模型训练的性能影响。

参见图3，在问句与文章预训练语言模型编码的过程中，首先可以将上述检索出的5篇与问句最相关的关联文档构成的问题文章组合对数据进行拆分，将每一篇关联文档拆分成可以输入到Bert模型中的符合输入文本序列长度限制的段落，每一个段落可以记为段落P。并与问句组合拼接形成输入序列，此处每一个问句可以记为问句Q。输入序列可以记为输入序列S，段落P与问句Q可以组合拼接形成如下格式的输入序列S：

S＝[<CLS>Q<SEP>P<SEP>]

其中，S为输入序列，P为段落，Q为问句，输入序列中的<CLS>为Bert模型序列的分类标记，本方法任务重不对<CLS>标签设定分类值，输入序列中的<SEP>在序列中起分隔符的作用。

然后可以将拼接好的问题文章组合对数据的输入序列(或称为问题文章段序列)经过向量化的转换后，输入到Bert模型中进行编码模块处理。经编码模块处理后输出，并经过Transformer框架编码后的隐藏层编码向量可以作为问题文章段落组合的初始编码。

在本申请中，可以以具体的番茄领域知识图谱为例进行具体说明，当然，也可以是其他农作物的领域知识图谱。技术人员可以利用深度学习技术构建出番茄领域的知识图谱数据，并将构建的番茄领域知识图谱数据嵌入Bert模型，获得知识表示向量。嵌入知识图谱数据后得到的知识表示向量与之前Bert模型输出经过Transformer框架编码后的隐藏层编码向量(即问题文章段的初始编码)合并后输出问句与文章编码向量。

本发明实施例的引入农业领域知识的抽取式智能问答方法，如图1至图3所示，在构建知识图谱数据的过程中，这些领域知识图谱的构建可以采用基于深度学习的实体关系抽取技术，从农业领域文章中自动抽取各种类型的农业领域命名实体和实体间的关系，然后以(实体1，关系，实体2)这种知识三元组的形式存储在知识图谱关系数据库中，构成知识图谱数据。然后，通过选择领域知识图谱，例如，番茄领域知识图谱，并使用知识表示算法工具对知识图谱数据进行训练。通过对知识图谱中的三元组数据训练后，可以将知识图谱中的实体和关系数据转换为低维稠密的分布式表示向量。训练得到农业领域知识图谱的分布式表示向量后，可以对问题文章组合对数据进行番茄领域命名实体的识别工作，识别出检索到的问题文章(多个关联文档)中番茄栽培相关的各类实体名词和属性。根据这些实体名词和实体属性词从番茄领域知识图谱中再查询得到对应的知识表示向量。为了提高Bert模型与测文章内答案的准确率，可以在获取到问题文章中出现的领域实体表示向量后，将其与之前Bert模型输出的问题文章组合对数据对隐藏层向量进行合并，再将合并后的向量输入到Bert模型中进一步编码运算，得到问句与文章编码向量。

接着，如图3所示，可以将问句与文章编码向量输入Bert模型的下一层进行自注意力交互层运算，得到自注意力交互向量。并将问句与文章编码向量与自注意力交互向量进行拼接，得到拼接后的关系向量。也就是说，经过嵌入外部知识图谱的问句与文章编码向量，还可以经过自注意力交互层的运算，从而获得自注意力交互向量，自注意力交互向量为问句与文章段落的输入词序列相互间的作用关系向量。在此阶段，首先计算的问题文章序列的实体词1与实体词2的直接关系，给定两个问题文章组合对数据中的命名实体词序列，标记为Si和Sj，他们嵌入知识图谱数据后的知识表示向量表示分别为u_i和u_j，可以使用如下公式计算他们交互矩阵R。

R_ij＝W^T[u_i,u_j,u_i⊙u_j]

其中，i和j分别表示问题文章组合对数据中的两个命名实体，u_i和u_j分别表示知识图谱数据嵌入Bert模型后获得的相应知识表示向量，R_ij表示矩阵R中第i行第j列的值，W^T表示参数矩阵。

然后，矩阵R的每一行执行softmax函数计算得到矩阵A，再用于计算问题文章组合对数据序列中每一个命名实体词序列的自注意力向量v_i。

其中，得到矩阵A的计算公式为：

根据矩阵A得到自注意力交互向量的公式为：

v_i＝∑_ja_iju_j

其中，a_ij是矩阵A中的第i行和第j列的值，u_j表示知识图谱数据嵌入Bert模型后获得的相应知识表示向量，v_i表示自注意力交互向量。

最后可以将问题文章组合对序列中每个嵌入知识图谱后得到的知识表示向量和自注意力交互向量进行拼接，拼接后的关系向量可以作为答案预测层的输入向量。其中，拼接的公式为：

O_i＝[u_i,v_i,u_i-v_i,u_i⊙v_i]

其中，u_i和u_j分别表示知识图谱数据嵌入Bert模型后获得的相应知识表示向量，v_i表示自注意力交互向量，O_i表示拼接后的关系向量。

在本发明的抽取式智能问答方法中，最后可以将拼接后的关系向量作为答案预测层的输入向量，进行答案位置的预测，并将答案输出给用户。具体来说，可以将拼接后的关系向量继续输入一个线性输出层，并跟随Softmax函数计算操作，获得问题文章组合对数据的序列中每个字作为答案起始位置的概率。其中，每个序列计算答案位置起始概率的公式为：

其中，

和

通过获得问题文章组合对数据的答案出现在文章段落中的起始位置概率，可以得到一个答案预测的分值。同时根据之前检索关联文档时获得相关度分值加权计算，获得每一篇文章及其内部预测的答案相关度分值，进行答案的合并与筛选，最后联合对文章和答案进行打分排序，形成答案列表，输出排名第一(得分最高)的答案返回给提问的用户。

总而言之，根据本发明实施例的引入农业领域知识的抽取式智能问答方法，通过将构建的知识图谱数据嵌入Bert模型，得到知识表示向量，并将知识表示向量与Bert模型初步编码后的隐藏层编码向量合并后输出问句与文章编码向量，并将问句与文章编码向量输入至Bert模型的自注意力交互层中进一步编码运算，得到拼接后的关系向量。同时将拼接后的关系向量作为答案预测层的输入向量，进行答案位置的预测，最后将预测的得分最高的答案输出给用户。该引入农业领域知识的抽取式智能问答方法，有效提高了抽取式机器阅读理解模型在智能问答过程中答案抽取的准确率。

本发明第二方面实施例，提供一种基于抽取式机器阅读理解模型的智能问答系统100，该智能问答系统100包括获取模块10、存储模块20、检索模块30、Bert模型编码模块40、嵌入模块50、计算模块60、拼接模块70和答案生成模块80。

具体而言，获取模块10用于获取技术文章，存储模块20用于将技术文章存储为文档资源库。检索模块30用于检索文档资源库中与用户提出的问题相关的关联文档，以构建问题文章组合对数据。Bert模型编码模块40用于对问题文章组合对数据进行问句与文章预训练语言模型Bert编码，得到编码后的隐藏层编码向量作为问题文章组合对数据的初始编码。嵌入模块50用于将知识图谱数据嵌入Bert模型，得到知识表示向量，并将知识表示向量与初始编码合并后输出问句与文章编码向量。计算模块60用于将问句与文章编码向量进行自注意力交互层运算，得到自注意力交互向量。拼接模块70用于将问句与文章编码向量与自注意力交互向量进行拼接，得到拼接后的关系向量。答案生成模块80用于将拼接后的关系向量作为答案预测层的输入向量，进行答案位置的预测，生成答案并输出给用户。

换言之，参见图4，本发明实施例的智能问答系统100主要由获取模块10、存储模块20、检索模块30、Bert模型编码模块40、嵌入模块50、计算模块60、拼接模块70和答案生成模块80组成。其中，获取模块10可以用于获取技术文章，获取模块10可以为网络爬虫工具。通过获取模块10可以爬取互联网上的有关农业种植栽培网站上的各类农业技术文章。存储模块20用于将获取的技术文章存储到文档资源库。检索模块30用于检索文档资源库中与用户提出的问题相关的关联文档，以构建问题文章组合对数据。检索模块30可以为全文检索工具，通过使用全文检索工具ElasticSearch分词和构建倒排索引等处理，构建番茄领域相关文档资源库。

Bert模型编码模块40可以用于对问题文章组合对数据进行问句与文章预训练语言模型Bert编码，得到编码后的隐藏层编码向量，并将隐藏层编码向量作为问题文章组合对数据的初始编码。在此过程中，可以利用人工标注的农业领域问答对数据和开放领域抽取式问答对数据联合训练机器阅读理解模型。利用深度学习技术构建的预训练语言模型Bert，Bert模型首先使用的语料可以来自开放领域中文机器阅读理解问答任务数据集CMRC2018的数据，随后在训练的基础上再使用本方法标注的农业栽培技术领域问答对数据集进行训练。因为条件的限制，此处使用的农业领域问答对数据集的规模相比开放领域的数据集规模较小，因此后续引入农业领域知识(例如：引入番茄领域知识图谱数据)，能够弥补领域数据集规模不足，减少对阅读理解问答方法模型训练的性能影响。

嵌入模块50可以用于将知识图谱数据嵌入Bert模型，得到知识表示向量，并将知识表示向量与初始编码合并后输出问句与文章编码向量。这些领域知识图谱的构建可以采用基于深度学习的实体关系抽取技术，从农业领域文章中自动抽取各种类型的农业领域命名实体和实体间的关系，然后以(实体1，关系，实体2)这种知识三元组的形式存储在知识图谱关系数据库中，构成知识图谱数据。然后，通过选择领域知识图谱，例如，番茄领域知识图谱，并使用知识表示算法工具对知识图谱数据进行训练。通过对知识图谱中的三元组数据训练后，可以将知识图谱中的实体和关系数据转换为低的分布式表示向量。训练得到农业领域知识图谱的分布式表示向量后，可以对问题文章组合对数据进行番茄领域命名实体的识别工作，识别出检索到的问题文章组合对数据(多个关联文档)中番茄栽培相关的各类实体名词和属性。根据这些实体名词和实体属性词从番茄领域知识图谱中再查询得到对应的知识表示向量。为了提高Bert模型与测文章内答案的准确率，可以在获取到问题文章中出现的领域实体表示向量后，将其与之前Bert模型输出的问题文章组合对数据对隐藏层向量进行合并，再将合并后的向量输入到Bert模型中进一步编码运算，得到问句与文章编码向量。

计算模块60用于将问句与文章编码向量进行自注意力交互层运算，得到自注意力交互向量。经过嵌入外部知识图谱的问句与文章编码向量，还可以经过自注意力交互层的运算，从而获得自注意力交互向量，自注意力交互向量为问句与文章段落的输入词序列相互间的作用关系向量。拼接模块70可以用于将问句与文章编码向量与自注意力交互向量进行拼接，得到拼接后的关系向量。答案生成模块80用于将拼接后的关系向量作为答案预测层的输入向量，进行答案位置的预测，生成答案并输出给用户。通过获得问题文章组合对数据的答案出现在文章段落中的起始位置概率，可以得到一个答案预测的分值。同时根据之前检索关联文档时获得相关度分值加权计算，获得每一篇文章及其内部预测的答案相关度分值，最后联合对文章和答案进行打分排序，输出排名第一(得分最高)的答案返回给提问的用户。

本发明实施例的基于抽取式机器阅读理解模型的智能问答系统100，可以根据用户提问的问题，给用户提供一个最准确的答案，有效提高抽取式机器阅读理解模型在智能问答过程中答案抽取的准确率。

本发明第三方面实施例，提供一种电子设备200，包括：处理器201和存储器202，在存储器202中存储有计算机程序指令，其中，在计算机程序指令被处理器201运行时，使得处理器201执行上述实施例中的引入农业领域知识的抽取式智能问答方法的步骤。

进一步地，如图5所示，电子设备200还包括网络接口203、输入设备204、硬盘205、和显示设备206。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以包括任意数量的互联的总线和桥。具体由处理器201代表的一个或者多个中央处理器201(CPU)，以及由存储器202代表的一个或者多个存储器202的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

网络接口203，可以连接至网络(如因特网、局域网等)，从网络中获取相关数据，并可以保存在硬盘205中。

输入设备204，可以接收操作人员输入的各种指令，并发送给处理器201以供执行。输入设备204可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

显示设备206，可以将处理器201执行指令获得的结果进行显示。

存储器202，用于存储操作系统2021运行所必须的程序和数据，以及处理器201计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器202可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器202旨在包括但不限于这些和任意其它适合类型的存储器202。

在一些实施方式中，存储器202存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统2021和应用程序2022。

其中，操作系统2021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序2022，包含各种应用程序2022，例如浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序2022中。

上述处理器201，当调用并执行存储器202中所存储的应用程序2022和数据，具体的，可以是应用程序2022中存储的程序或指令时，执行根据上述实施例的引入农业领域知识的抽取式智能问答方法的步骤。

本发明上述实施例揭示的方法可以应用于处理器201中，或者由处理器201实现。处理器201可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器201中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器201可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器201也可以是任何常规的处理器201等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器202，处理器201读取存储器202中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文功能的模块(例如过程、函数等)来实现本文的技术。软件代码可存储在存储器202中并通过处理器201执行。存储器202可以在处理器201中或在处理器201外部实现。

具体地，处理器201还用于读取计算机程序，执行如下步骤:引入农业领域知识的抽取式智能问答方法预测并输出用户提问的问题答案。

本发明第四方面实施例，还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器201运行时，使得处理器201执行上述实施例的引入农业领域知识的抽取式智能问答方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

虽然已经通过例子对本申请的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上例子仅是为了进行说明，而不是为了限制本申请的范围。本领域的技术人员应该理解，可在不脱离本申请的范围和精神的情况下，对以上实施例进行修改。本申请的范围由所附权利要求来限定。