CN108932350A

CN108932350A - 基于多策略的水稻病虫害智能问答方法

Info

Publication number: CN108932350A
Application number: CN201810940715.3A
Authority: CN
Inventors: 许童羽; 冯帅; 赵冬雪; 周云成; 于丰华
Original assignee: Shenyang Agricultural University
Current assignee: Shenyang Agricultural University
Priority date: 2018-08-17
Filing date: 2018-08-17
Publication date: 2018-12-04

Abstract

本发明公开了基于多策略的水稻病虫害智能问答方法，包括智能算法和智能系统，智能算法采用序列到序列模型(Seq2Seq)，基础的Seq2Seq模型包含三个部分，即编码(Encoder)、解码(Decoder)以及连接两者的中间状态向量，智能系统包括数据部分、问句整理与分析模块、数据检索模块和问句输入与答案展示模块，本发明将目前线上应用中较为普遍的FAQ检索方法，与基于深度学习的方法相结合的方式来进行实现，既能具有FAQ检索方式的高效、快捷的优点，也具有深度学习的智能、不断提高准确率的优点。

Description

基于多策略的水稻病虫害智能问答方法

技术领域

本发明涉及智能领域，特别是涉及基于多策略的水稻病虫害智能问答方法。

背景技术

国外在问答系统技术上的研究起步比较早，WU等利用Mashup技术将网络资源的广泛传播结合起来，实现某些练习答题，词汇解释等功能。Liu等采用自然语言、全文搜索等技术，设立了一个全网智能问答系统，效果较好。目前在工业界或者学术界已经产出了一些比较成熟的问答系统和聊天机器人系统，例如，苹果公司的Siri，谷歌的Google Now，MIT大学的Start系统^[7]，还有AskJeeves、AnswerBus、MULDER、LAMP等。与智能问答系统的发展密不可分，深度学习的发展同样如火如荼。2012年美国谷歌公司成立有关深度学习的GoogleBrain计划。2013年百度公司开始成立深度学习技术研究所。2016年基于深度学习算法的谷歌机器人AlphaGo战胜众多围棋界棋手，让世界震惊。从上述可以看，深度学习已经开始走向实用，进入了人们的生活。

国内研究情况与国外研究情况相比，中国国内在问答系统和聊天机器人系统方面的研究无论在规模还是研究水平上都有不少的差距。国内在问答系统领域走得比较靠前的研究机构主要有清华大学、北京大学、中科院计算所、哈工大、北京语言大学等，另外研究汉语问答系统的还有香港大学、香港中文大学、National Defense Management College等单位。哈尔滨工业大学开发的HIT相关自然语言处理工具，可以对句子进行句法分析，语法分析和分词等操作，这无疑为汉语的问答系统研究奠定了基础。科大讯飞信息科技股份有限公司开发的语音识别相关工具已促进了国内很多的聊天机器人发展，包括讯飞语点、搜狗语音助手等。

目前，现有的问答系统，比如百度知道、京东售后问答等，都是基于已有问题集合进行数据挖掘或者指定规定范围内的问题进行回答。而对于新的问题均必须采用人工来进行解答。在灵活性、高效性和智能性上较差。

对于现有技术，大多采用中文自动问答系统(FAQ)方式来进行智能问答系统的构建，其是基于常见问题集的问答系统。该方式的流程如下：首先，接收用户提出的问题(输入的问句)，将其作为系统的输入，即问答对中的问。之后，根据用户输入的问题，从数据库中筛选出与用户提出的问题相似度较好的问题集。对筛选出的问题集中的句子或者是词语与用户提出的问题进行相似度计算排序，并根据相似度的排序，找到与用户输入的问题相似度最高的句子。如果在问题集中找到与用户输入的问题相似的问句，就直接将该问句所对应的答案返回给用户。如果没有找到与用户输入的问句相似的句子，那么就将一个固定的句子返回给用户(比如：没有找到您问的答案)或者利用网络检索等方式寻求答案返回给用户。并将用户输入的问句与检索的答案作为问答对存入数据库，对数据库进行更新。

而如今，上线应用的问答系统大多都是基于问答集来进行检索答案回复给用户，但若问答集中没有用户输入的问题，那么将很难回复给用户一个较为准确的答案。

发明内容

为解决上述技术问题，本发明提供基于多策略的水稻病虫害智能问答方法。

本发明的基于多策略的水稻病虫害智能问答方法，包括智能算法和智能系统，智能算法采用序列到序列模型(Seq2Seq),基础的Seq2Seq模型包含了三个部分，即编码(Encoder)、解码(Decoder)以及连接两者的中间状态向量，Encoder通过学习输入，将其编码成一个固定大小的状态向量A，继而将A传给Decoder，Decoder再通过对状态向量A的学习来进行输出，简单的说，就是根据一个输入序列x，来生成另一个输出序列y；在问答系统中，输入序列是提出的问题，而输出序列是答案。所谓编码，就是将输入序列转化成一个固定长度的向量；解码，就是将之前生成的固定向量再转化成输出序列；首先Encoder将输入编码为固定大小状态向量的过程实际上是一个信息“信息有损压缩”的过程，如果信息量越大，那么这个转化向量的过程对信息的损失就越大，同时，随着序列长度的增加，意味着时间维度上的序列很长，RNN模型也会出现梯度弥散，因此利用LSTM来替换RNN在该模型中的RNN编码与解码部分；智能系统包括数据部分、问句整理与分析模块、数据检索模块和问句输入与答案展示模块，数据部分主要包括：数据整理与分析、语料库构建模块、数据存储模块；问句整理与分析模块主要包含对问句的分词和提取特征文字并筛选词语；数据检索模块主要包括FAQ数据检索功能和基于深度学习的智能回答模块；问句输入与答案展示模块包含问句的输入和答案的展示功能。

数据获取模块的功能主要是采用Python爬虫技术爬取指定网站或论坛的数据，并将爬取的数据进行一定的整理和分析，将数据进行过滤，删除无用数据；整理过后将数据存入MySQL数据库中；语料库的构建模块的功能主要是将MySQL关系型数据库中原始数据使用编写的程序进行问答分类，筛选出问句与答案；将问句与答案一一对应存入数据库中；问句输入模块中主要功能是将用户输入的问句进行过滤、分词等操作，筛选出较为关键的特征文字，以便后续的检索答案；数据检索模块的主要包括两部分，分别为FAQ数据检索和基于深度学习的智能问答，其中FAQ数据检索式将分词过后的问句采用TF-IDF和TextRank算法进行词语权重排序和筛选关键特征词语，比如水稻、防治和病虫害；在深度学习智能问答功能中，首先对语料库中的数据进行深度学习训练，之后将整个问句作为输入对深度学习模型进行验证，得到最终的答案；答案展示模块的主要功能就是将FAQ检索或深度学习模型的答案用过界面展示给用户；用户可以在软件界面上更加直观地查看查询结果。

与现有技术相比本发明的有益效果为：

本发明将目前线上应用中较为普遍的FAQ检索方法，与基于深度学习的方法相结合的方式来进行实现，既能具有FAQ检索方式的高效、快捷的优点，也具有深度学习的智能、不断提高准确率的优点，能够较快速地将较为准确的答案回复给用户，并且本发明采用深度学习与FAQ相结合的方式，这样将具有一定的智能性，同时，本发明也能够解决单一FAQ方式的无法解决的问题，可以不断进行自主学习完善系统的知识库，便于实现。

附图说明

图1是Seq2Seq模型结构图；

图2是智能系统结构图；

图3是数据爬虫框图；

图4是语料库构建模块框图；

图5是DAO设计模式的拓扑结构图；

图6是问句输入处理流程图；

图7是信息检索模块流程图；

图8是智能问答系统查询界面；

图9是FAQ检索系统界面；

图10是深度学习检索系统界面。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1和图2所示，包括智能算法和智能系统，智能算法采用序列到序列模型(Seq2Seq)，基础的Seq2Seq模型包含了三个部分，即编码(Encoder)、解码(Decoder)以及连接两者的中间状态向量，Encoder通过学习输入，将其编码成一个固定大小的状态向量A，继而将A传给Decoder，Decoder再通过对状态向量A的学习来进行输出，简单的说，就是根据一个输入序列x，来生成另一个输出序列y；在问答系统中，输入序列是提出的问题，而输出序列是答案。所谓编码，就是将输入序列转化成一个固定长度的向量；解码，就是将之前生成的固定向量再转化成输出序列；首先Encoder将输入编码为固定大小状态向量的过程实际上是一个信息“信息有损压缩”的过程，如果信息量越大，那么这个转化向量的过程对信息的损失就越大，同时，随着序列长度的增加，意味着时间维度上的序列很长，RNN模型也会出现梯度弥散，因此利用LSTM来替换RNN在该模型中的RNN编码与解码部分；智能系统包括数据部分、问句整理与分析模块、数据检索模块和问句输入与答案展示模块，数据部分主要包括：数据整理与分析、语料库构建模块、数据存储模块；问句整理与分析模块主要包含对问句的分词和提取特征文字并筛选词语；数据检索模块主要包括FAQ数据检索功能和基于深度学习的智能回答模块；问句输入与答案展示模块包含问句的输入和答案的展示功能。

选取农业科技网络书屋专家在线系统的数据作为本文的数据来源；对该网站上相关的农业数据信息进行爬取，并存入MySQL数据库中。但由于该网站对数据的爬取做了相应的限制策略。因此，针对该网站开发了基于Python语言的网络爬虫。该系统采用多线程爬取策略，以用于提高爬取效率。本系统中数据爬虫框图如图3所示。基于Python语言为开发工具，开启线程池进行线程管理，同时采用第三方包selenium和正则表达式进行数据爬取。selenium可用来做自动化测试，并支持多种浏览器，而在爬虫中主要用来解决JavaScript渲染干扰问题，并能模拟浏览器进行网页加载。将爬取下来的网站中的数据信息存入MySQL数据库中。

网络爬虫策略如下：首先，通过浏览器开发者工具得到目标页的URL，比如http://nongyewen.com/question/1076。通过动态设置URL的开始页码从而动态地选择爬取的页码。对于每一页，本文将URL路径存入程序变量中，等待程序运行，进行爬取数据。同时，多线程池将从变量中获取特定的URL。通过特定的URL可以获取相应的问答数据内容。最终，将获取到的数据信息存入MySQL数据库中等待下一步处理。

语料库构建模块：模块框架：语料库构建模块采取将自有文本进行分类，将其分为问句与答案两个部分，并将其分别存入数据库中，使之更适应本文农业知识问答系统。模块的架构图如图4所示。将数据库中爬取的网络数据提取，首先，本问对自由文本进行分类处理，将每条数据进行整理分析，分成问句与答案，并设置标志位，标志问句与答案。同时，将数据中问句与答案一一对应，使每个问句对应一个答案。之后将问句与答案进行数据格式化处理，将每一个问句与答案整理为一个单元，并使其与下一个问句答案进行区分开来。最终将MySQL数据库中的原始数据整理成为每个一问一答自成为一个单元的数据格式，同时，这样处理也为后续的深度学习的训练与验证提供数据支撑。

数据存储模块：模块框架：本系统的数据存储模块主要采用MySQL数据库进行数据存储。该数据库为关系型数据库较为适合于存储结构化数据，利用关系型数据库强大的索引机制能够提高系统的检索速度。操作数据库编码采取DAO模式和工厂模式编码，该模式能够隔离数据访问代码和业务逻辑代码，并且隔离了不同数据库的实现。便于后期对数据库操作的整理。因此本文对操作数据库编码采用接口、实现、代理和工厂等4个程序来实现数据库操作。编写的代码清晰易懂，便于维护，利于开发与后期修改。

功能实现：MySQL数据库主要用于存储网络爬虫爬取下来的原始语料数据。本文通过DAO模式将爬取下来的数据存储到数据库中，将数据存入MySQL数据库时，本文采取批量插入的模式，批量插入方式能够较好地提高数据库的吞吐量。同时，本文在批量插入数据时，本文会对数据库进行搜索查重操作，该操作能够较少冗余数据，其意义首先在于能够减少磁盘空间浪费，也有利于减少无用数据对构建语料库的影响。其次有利于提高爬取数据效率。

同时，该模块中采用了第三方数据库连接池包DBUtils，而这种数据库连接池的使用能够较好地帮助系统创建、回收数据库连接，并允许对非线程安全的数据库接口进行线程安全包装，对数据库连接的安全性有了保障。同时，由于本文采用DAO设计模式，因此该模块基于代理模式实现了数据库的读写操作，这样就可缓解数据库读写压力。DAO设计模式的拓扑结构如图5所示。将数据请求集中到单一的数据代理来进行处理，接着数据操作代理根据读与写请求不同，来分别进行数据库的读写操作。

问句输入模块：模块框架：问句输入模块分别两种，其中一种针对于FAQ检索系统，另一种针对于深度学习智能问答系统。下面主要介绍针对于前阵的问句输入模块。本文中问句输入模块不仅具有输入功能，还具有凝练语句的功能。其中对于凝练语句功能利用计算机技术与自然语言处理技术进行处理。由于用户在输入问句的时候往往会存在口语化、疑问词、语气词和标点符号等情况，为了精炼语句，本文对用户输入的语句进行过滤、分词和词语权重排序。具体流程如图6所示。

功能实现：本部分采用了Jieba、TF-IDF、TextRank等算法进行对问句的处理。其原理主要是将输入语句进行Jieba分词，将一句话中的关键词进行分离，得到这句话中较为关键的特征词语。比如：“水稻机/插秧/每亩/田/的/用/种量/在/多少/斤/？”从上例可看出，本文采用的Jieba分词能够将整个问句进行分析，并将句子分离出单个词语。然后，将分离好的词语输入TF-IDF和TextRank算法中，对分离好的句子进行进一步分析。并得到每个词语的权重。根据权重值进行排序。同时，根据问句的长短不同，进行关键词选择。

信息检索模块：模块框架：本系统主要面向农业知识领域，系统采用C/S架构，运行在PC端，系统兼容Win8、Win10等多个版本Windows系统。系统可以及时地处理用户问题，用户体验良好。信息检索模块使用了上文提到的FAQ检索系统和Seq2Seq-LSTM模型，其中对FAQ检索系统的测试与Seq2Seq-LSTM模型的训练与验证，基本满足了多策略农业问答系统的使用需求。如图7所示，为本系统信息检索模块流程图。

在用户使用界面，为了能够更快与流畅的运行，同时为了给用户更好使用体验，本系统采用以Python为编程语言，采用PyQT为界面开发工具包。在信息检索模块中，采用多策略方式进行问题答案的检索，包括FAQ检索模式与深度学习模式等两种检索模式。这种多策略系统能够比较精准地为用户提供较为准确的答案。采用网络爬虫技术将网络数据存储在MySQL数据库中，并构建了针对于深度学习模式的语料库。为信息检索模块的实现提供了数据基础。

在FAQ检索模式中，系统将用户输入的问题进行处理与分析，分别采用Jieba分析、TF-IDF和TextRank算法对问题进行处理，筛选出问题中较为关键的特征词语，最后利用DAO设计模式对MySQL数据库进行模糊查询操作，检索出该问题的答案。比如：水稻机插秧每亩田的用种量在多少斤？/杂交水稻种子一亩需种量为2.5-3斤。

在深度学习模式中，采用LSTM与Seq2Seq结合的形式建立深度学习模型。该模型具有非常广泛的应用场景，比如机器翻译、自动对话机器人，文档摘要自动生成等等。同时，由于该模型采用端到端的设计模式，它能够减少很多人工处理和规则制定的步骤，对于答案预测方面具有较好能力。因此本文采用对话模式，使用的语料库形式是input-output(你问我答)，并将该模型应用于智能问答系统的构建。本文采用LSTM的结构设计，将模型设置成两个前后LSTM结构，在前一个LSTM中，将语料库中的对话编码成一个实数向量A。同时，后一个LSTM结构根据这个实数向量A不停地预测后面的输出并将输出结果进行解码，得到最终答案，LSTM-Seq2Seq模型参数如下表1所示。

功能实现如图8所示，用户可以在问题输入框中输入想查询的农业相关知识，包括：种植、产量和病虫害等问题，使用简单方便。

FAQ检索模式：如查询“水稻机插秧每亩田的用种量在多少斤？”，如图9所示，本系统会直接给出该问题的具体答案。同时，可点击返回，选择其他信息检索模式。

深度学习模式：如查询“怎样预防水稻苗期多磷症？”，如图10所示，系统现将问句作为输入参数传递给训练好的深度学习模型，让深度学习模型得出具体的问题答案。同样，可点击返回，选择其他信息检索模式。

表1 LSTM-Seq2Seq模型参数

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.基于多策略的水稻病虫害智能问答方法，其特征在于，包括智能算法和智能系统，智能算法采用序列到序列模型(Seq2Seq),基础的Seq2Seq模型包含了三个部分，即编码(Encoder)、解码(Decoder)以及连接两者的中间状态向量，Encoder通过学习输入，将其编码成一个固定大小的状态向量A，继而将A传给Decoder，Decoder再通过对状态向量A的学习来进行输出，简单的说，就是根据一个输入序列x，来生成另一个输出序列y；在问答系统中，输入序列是提出的问题，而输出序列是答案。所谓编码，就是将输入序列转化成一个固定长度的向量；解码，就是将之前生成的固定向量再转化成输出序列；首先Encoder将输入编码为固定大小状态向量的过程实际上是一个信息“信息有损压缩”的过程，如果信息量越大，那么这个转化向量的过程对信息的损失就越大，同时，随着序列长度的增加，意味着时间维度上的序列很长，RNN模型也会出现梯度弥散，因此利用LSTM来替换RNN在该模型中的RNN编码与解码部分；智能系统包括数据部分、问句整理与分析模块、数据检索模块和问句输入与答案展示模块，数据部分主要包括：数据整理与分析、语料库构建模块、数据存储模块；问句整理与分析模块主要包含对问句的分词和提取特征文字并筛选词语；数据检索模块主要包括FAQ数据检索功能和基于深度学习的智能回答模块；问句输入与答案展示模块包含问句的输入和答案的展示功能。

2.如权利要求1所述的基于多策略的水稻病虫害智能问答方法，其特征在于，所述的数据获取模块的功能主要是采用Python爬虫技术爬取指定网站或论坛的数据，并将爬取的数据进行一定的整理和分析，将数据进行过滤，删除无用数据；整理过后将数据存入MySQL数据库中；语料库的构建模块的功能主要是将MySQL关系型数据库中原始数据使用编写的程序进行问答分类，筛选出问句与答案；将问句与答案一一对应存入数据库中；问句输入模块中主要功能是将用户输入的问句进行过滤、分词等操作，筛选出较为关键的特征文字，以便后续的检索答案；数据检索模块的主要包括两部分，分别为FAQ数据检索和基于深度学习的智能问答，其中FAQ数据检索式将分词过后的问句采用TF-IDF和TextRank算法进行词语权重排序和筛选关键特征词语，比如水稻、防治和病虫害；在深度学习智能问答功能中，首先对语料库中的数据进行深度学习训练，之后将整个问句作为输入对深度学习模型进行验证，得到最终的答案；答案展示模块的主要功能就是将FAQ检索或深度学习模型的答案用过界面展示给用户；用户可以在软件界面上更加直观地查看查询结果。