CN114036281B

CN114036281B - 基于知识图谱的柑橘管控问答模块构建方法及问答系统

Info

Publication number: CN114036281B
Application number: CN202111387891.7A
Authority: CN
Inventors: 邓小玲; 林晓晴; 郭雅琦; 兰玉彬
Original assignee: South China Agricultural University
Current assignee: South China Agricultural University
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2024-04-16
Anticipated expiration: 2041-11-22
Also published as: CN114036281A

Abstract

本发明涉及的技术领域，更具体地，涉及一种基于知识图谱的柑橘管控问答模块构建方法及问答系统，通过构建知识图谱、问答对数据库、柑橘问题文本分类语料库、分词词典、谓词词典和谓词索引词典，对命名实体识别模型、候选词集合排序模型、文本匹配模型和路径排序模型进行训练，构建用于柑橘种植管理的问答模块，可自动化理解用户的问题语句，筛选候选词集合到知识图谱生成候选路径，对候选路径进行打分排序后，快速准确地获得答案，帮助高效获取有价值的信息，解决用户在种植柑橘时的问题。

Description

基于知识图谱的柑橘管控问答模块构建方法及问答系统

技术领域

本发明涉及基于人工智能的问答方法的技术领域，更具体地，涉及基于知识图谱的柑橘管控问答模块构建方法及问答系统。

背景技术

柑橘是我国重要的经济林果之一，近年来，我国高度重视农业信息化发展，使用传统搜索引擎获取的答案不能保证准确性及时效性，而柑橘精准管控知识以书籍文献形式存在，柑橘种植人员无法快速获取到例如柑橘病虫害防控之类的管理知识。相较而言，问答系统的出现，旨在快速得到领域内的高质量信息或答案。其中，基于知识图谱的智能问答系统，利用人工智能模型理解自然语言问句语义信息，从领域知识图谱中搜索相关答案，节约了从海量的互联网信息中寻找问题答案的时间，帮助种植从业者高效准确地获取到有价值的信息。

将数据存储为关系型数据，将意图识别视为分类任务，这种方式将用户的问题强行划分为固定有限的类别，实际上，不同于关系型数据库，知识图谱中的数据普遍存在不规范性，传统的构建问题模板的方式费时费力，且无法全部覆盖所有的问题类型，将这种分类模板化的问答模式应用在基于知识图谱的问答系统存在一定的局限性。

中国专利CN108804521A公开了一种基于知识图谱的问答方法及农业百科问答系统，可以自动分析用户提出的自然语言问题，并形成基于句法树的拓扑结构，通过拓扑结构与语法库中的问题模板进行检索和比对，根据所述的拓扑结构与谓词指称的映射关系、以及同义词集合与知识图谱中关系或属性的映射关系，得到问题映射的谓词，并结合问题中识别的实体，生成最终的结构化的知识图谱查询语句，根据该查询语句到知识图谱中进行检索，返回最终的结果。当在问题模板库中无法检索到相关拓扑结构时，会调用FAQ问题库的问答对，进行问题的回答，但是该方案将实体识别和谓词检测当作两个独立的子任务，分别识别问题对应的实体和谓词，忽略了子任务之间的相关性，实际上，不同于关系型数据库，知识图谱中的数据普遍存在不规范性，不同实体在知识图谱中对应的关系是不一样的，当实体在知识图谱中并没有由谓词相连的路径时，生成的结构化查询语句是查询不到结果的，用于柑橘管理时，存在知识图谱中存在正确答案而获取不到的情况。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于知识图谱的柑橘管控问答模块的构建方法及问答系统，能够自动化理解用户的问题语句并快速准确地获得答案，帮助高效获取有价值的信息，解决用户在种植柑橘时的问题。

为解决上述技术问题，本发明采用的技术方案是：

提供一种基于知识图谱的柑橘管控问答模块构建方法，包括以下步骤：

S1：构建柑橘种植管理的知识图谱和问答对数据库，并根据问答对数据库中的问题语句构建柑橘问题文本分类语料库；

S2：根据知识图谱构建分词词典、谓词词典，并根据谓词词典构建谓词索引词典；

S3：根据问答对数据库中的问题语句，构建命名实体识别模型；

S4：根据命名实体识别模型与分词词典，并对问题语句进行处理，获得包含若干候选词的候选词集合，将若干候选词链接到知识图谱，并为每个候选词生成特征，训练候选词集合排序模型，对候选词集合进行筛选；

S5：根据柑橘问题文本分类语料库，微调预训练的Bert文本匹配模型，生成文本匹配模型；

S6：获取筛选后的候选词集合在知识图谱内直接相连的所有路径，并生成为人工问题，将所有生成的人工问题与问题语句输入文本匹配模型，为每个路径打分，将路径分数与候选词集合在筛选过程中生成的特征拼接成路径的新特征，训练路径排序模型。

本发明的基于知识图谱的柑橘管控问答模块构建方法，通过构建知识图谱、问答对数据库、柑橘问题文本分类语料库、分词词典、谓词词典和谓词索引词典，对命名实体识别模型、候选词集合排序模型、文本匹配模型和路径排序模型进行训练，构建用于柑橘种植管理的问答模块，可自动化理解用户的问题语句，筛选候选词集合到知识图谱生成候选路径，对候选路径进行打分排序后，快速准确地获得答案，帮助高效获取有价值的信息，解决用户在种植柑橘时的问题。

优选地，步骤S1中，问答对数据库包含若干问答对数据，每条所述问答对数据包含三行数据，第一行为柑橘精准管控中用户可能出现的问题语句，第二行为所述问题语句在知识图谱中检索对应答案所使用的查询语句，第三行为在知识图谱中检索后得到的答案，每条问答对数据之间以空行隔开。

优选地，步骤S1中，柑橘问题文本分类语料库的构建方法为：当问题语句对应的实体或谓词在知识图谱中相连的路径不小于三个时，从路径中随机选择三个候选查询路径作为负例，标签为0；当问题语句对应的实体或关系相连的路径不足三个时，由知识图谱中随机生成候选查询路径补齐，并将候选查询路径还原为人工问题，标签为1。

优选地，步骤S2中，所述分词词典根据知识图谱中的实体节点生成，所述谓词词典根据知识图谱的关系值生成，所述谓词索引词典构建字到词的映射，用于谓词的模糊匹配。

优选地，步骤S3中，构建命名实体识别模型的方法为：反向标注问答对数据库中的问题语句，生成训练数据，采用Bert-BiLstm模型来进行命名实体识别，将问题字符串与对应的实体字符串的最长公共子序列标注为问题语句的命名实体部分，由分词器Tokenizer生成问题的词索引序列x₁及分块索引序列x₂，将x₁、x₂输入命名实体识别模型，问题字符串与对应实体字符串的最长公共子序列部分标签为1，其余为0，生成对应的命名实体识别模型标签序列y＝(y₁，y₂，y₃，......，y_N)(N为最大字符)；

根据命名实体识别模型交叉熵建立命名实体识别模型损失函数：

p(y)＝(p(y₁)，p(y₂)，p(y₃)，......，p(y_N))

式中，H_1P(q₁)为命名实体识别模型交叉熵，p(y)为命名实体预测序列，p(y_i)为第i个词为实体的概率；

对命名实体识别模型进行迭代训练，使H_1P(q₁)最小，根据训练好的命名实体识别模型计算p(y)，预设阈值为0.5，当p(y_i)≥0.5时，输出为1；当p(y_i)＜0.5时，输出为0；保存训练好的命名实体识别模型。

优选地，步骤S4中，构建候选词集合排序模型的过程为：

(41)将命名实体识别模型与分词词典结合，共同提取出问题语句中的候选实体，并将抽取出的候选实体与分词词典匹配，以对齐知识图谱，获得匹配后的实体；对问题语句进行分词及词性标注，过滤掉问题语句中词性不能作为谓词的词汇，根据停用词表去除问题语句中的停用词，根据谓词索引词典抽取出所有相关的谓词；将匹配后的实体和相关的谓词加入候选词集合中；

(42)将候选词集合中的实体和谓词链接到知识图谱，并为候选词集合中的每个实体和谓词生成特征；

(43)根据特征，将候选词集合中正确对应查询语句的词汇标注为1，反之为0，生成候选词集合排序模型标签z＝(z₁，z₂，z₃，......，z_M)(M为候选词数量)；根据候选词集合排序模型交叉熵建立候选词集合排序模型损失函数：

式中，H_2P(q)为候选词集合排序模型交叉熵，p(z_i)为第i个词正确的概率；

保存训练好的候选词集合排序模型，对候选词集合进行筛选。

优选地，所述特征包括词汇本身的特征、词汇与问题语句的相似度特征、词汇的流行度特征。

优选地，步骤S6中，为路径打分的过程为：

将所有生成的人工问题与问题语句输入文本匹配模型，将对应问题语句的人工问题标注为1，反之为0，生成文本匹配模型标签θ＝(θ₁，θ₂，θ₃，......，θ_n)(n为人工问题数量)；

根据文本匹配模型交叉熵建立文本匹配模型损失函数：

式中，H_3P(q)为文本匹配模型交叉熵；p(θ_i)为第i个人工问题与问题语句的相似度，即第i条路径的路径分数；

保存训练好的文本匹配模型；

路径排序模型的训练过程为：

将路径分数与候选词集合在筛选过程中生成的特征拼接成路径的新特征，输入路径排序模型，判断路径是否为正确路径，若是，将对应路径标注为1，反之为0，生成路径排序模型标签(n为路径数量)；

根据路径排序模型交叉熵建立路径排序模型损失函数：

式中，H_4P(q)为路径排序模型交叉熵；为第i个路径正确的概率；

保存训练好的路径排序模型。

本发明还提供一种问答系统，包括显示屏及上述基于知识图谱的柑橘管控问答模块构建方法构建的问答模块，所述显示屏与所述问答模块双向连接。

本发明的问答系统，使用时，用户从显示屏输入问题，且显示屏将问题传输至问答模块进行处理，最终返回结果并显示在显示屏。

进一步地，还包括用于自动推送柑橘种植管理信息的自动推送模块，所述显示屏与所述自动推送模块连接，所述问答模块与所述自动推送模块连接。

本发明的基于知识图谱的柑橘管控问答模块构建方法及问答系统与背景技术相比，产生的有益效果为：

能够自动化理解用户的问题语句并快速准确地获得答案，帮助高效获取有价值的信息，解决用户在种植柑橘时的问题；通过自动推送模块实现柑橘种植管理的科学指导。

附图说明

图1为本发明实施例一中问答模块构建方法流程图；

图2为本发明实施例中问答系统的原理框图；

图3为本发明实施例二中问答模块的运算逻辑图。

具体实施方式

下面结合具体实施方式对本发明作进一步的说明。

实施例一

如图1所示，一种基于知识图谱的柑橘管控问答模块构建方法，包括以下步骤：

上述的基于知识图谱的柑橘管控问答模块构建方法，通过构建知识图谱、问答对数据库、柑橘问题文本分类语料库、分词词典、谓词词典和谓词索引词典，对命名实体识别模型、候选词集合排序模型、文本匹配模型和路径排序模型进行训练，构建用于柑橘种植管理的问答模块，可自动化理解用户的问题语句，筛选候选词集合到知识图谱生成候选路径，对候选路径进行打分排序后，快速准确地获得答案，帮助高效获取有价值的信息，解决用户在种植柑橘时的问题。

步骤S1中，知识图谱的构建方法为：根据农业专家知识及相关资料，以柑橘全年各物候期为时间节点，将各月份中心工作、病虫害情况、农事措施以及柑橘精准管控需要的知识，构建成柑橘种植管理的知识图谱，存入Neo4j数据库，Neo4j数据库是一个高性能的NOSQL图形数据库，可将结构化数据存储在网络上而不是在表中。

问答对数据库包含若干问答对数据，每条问答对数据包含三行数据，第一行为柑橘精准管控中用户可能出现的问题语句，第二行为问题语句在知识图谱中检索对应答案所使用的查询语句，第三行为在知识图谱中检索后得到的答案，每条问答对数据之间以空行隔开。

柑橘问题文本分类语料库的构建方法为：当问题语句对应的实体或谓词在知识图谱中相连的路径不小于三个时，从路径中随机选择三个候选查询路径作为负例，标注的候选查询路径标签为0；当问题语句对应的实体或关系相连的路径不足三个时，由知识图谱中随机生成候选查询路径补齐，此时，生成的候选查询路径是不符合自然语言逻辑的，因此，将候选查询路径还原为人工问题，将自然语言问题和人工问题拼接，令标注的候选查询路径标签为1。

步骤S2中，分词词典根据知识图谱中的实体节点生成，用于后续对问题语句的实体提取，谓词词典根据知识图谱的关系值生成，谓词索引词典构建字到词的映射，用于谓词的模糊匹配。

步骤S3中，构建命名实体识别模型的方法为：反向标注问答对数据库中的问题语句，生成训练数据，采用Bert-BiLstm模型来进行命名实体识别，将问题字符串与对应的实体字符串的最长公共子序列标注为问题语句的命名实体部分，由分词器Tokenizer生成问题的词索引序列x₁及分块索引序列x₂，将x₁、x₂输入命名实体识别模型，问题字符串与对应实体字符串的最长公共子序列部分标签为1，其余为0，生成对应的命名实体识别模型标签序列y＝(y₁，y₂，y₃，......，y_N)(N为最大字符)；

p(y)＝(p(y₁)，p(y₂)，p(y₃)，......，p(y_N))

对命名实体识别模型进行迭代训练，使H_1P(q₁)最小，根据训练好的命名实体识别模型计算p(y)，预设阈值为0.5，当p(y_i)≥0.5时，输出为1；当p(y_i)＜0.5时，输出为0；

保存训练好的命名实体识别模型。

步骤S4中，构建候选词集合排序模型的过程为：

(41)将命名实体识别模型与分词词典结合，共同提取出问题语句中的候选实体，问题语句中的实体并不一定与知识图谱中的实体完全对应，需要将抽取出的候选实体与分词词典匹配，以对齐知识图谱，获得匹配后的实体；

其中，抽取出的候选实体与分词词典匹配的具体过程为：计算抽取出的候选实体与分词词典中每个词汇的最长连续公共字符串长度，将候选实体链接到公共字符串最长的词汇，知识图谱存在的长词汇多为解释说明语句，因而出现多个词汇公共字符串长度一致时，选择词汇更短的实体；

对问题语句进行分词及词性标注，过滤掉问题语句中词性不能作为谓词的词汇，根据停用词表去除问题语句中的停用词，根据谓词索引词典抽取出所有相关的谓词；将匹配后的实体和相关的谓词加入候选词集合中；

(42)将候选词集合中的实体和谓词链接到知识图谱，并为候选词集合中的每个实体和谓词生成特征，特征包括词汇本身的特征、词汇与问题语句的相似度特征、词汇的流行度特征；

其中，词汇本身的特征由词汇长度、词汇在开源词频词典中的频率、词汇在问题语句中的启示位置组成；

词汇与问题语句的相似度特征有：词汇在知识图谱内的直接相连的所有实体集合与问题语句分词集合之间的重叠字、字数量及集合距离，词汇在知识图谱内直接相连的所有关系集合与问题语句分词集合之间的重叠字、字数量及集合距离；集合距离为两个集合的交集元素数量除以并集元素数量。

词汇的流行度特征即在知识图谱中与词汇之间相连的节点数量；

(43)根据特征，采用逻辑回归模型，将候选词集合中正确对应查询语句的词汇标注为1，反之为0，生成候选词集合排序模型标签z＝(z₁，z₂，z₃，......，z_M)(M为候选词数量)；

根据候选词集合排序模型交叉熵建立候选词集合排序模型损失函数：

保存训练好的候选词集合排序模型，对候选词集合进行逻辑回归筛选。步骤S6中，为路径打分的过程为：

根据文本匹配模型交叉熵建立文本匹配模型损失函数：

保存训练好的文本匹配模型；

路径排序模型的训练过程为：

根据路径排序模型交叉熵建立路径排序模型损失函数：

保存训练好的路径排序模型。

实施例二

一种问答系统，如图2所示，包括显示屏及实施例一中基于知识图谱的柑橘管控问答模块构建方法构建的问答模块，显示屏与问答模块双向连接。

上述的问答系统，使用时，用户从显示屏输入问题，且显示屏将问题传输至问答模块进行处理，最终返回结果并显示在显示屏。

其中，问答模块对问题进行处理的过程为：识别问题中与月份有关的词汇，将数字部分统一转换为中文，便于对齐数据库；将命名实体识别模型与分词词典结合，抽取出问题中的候选实体，加入候选词集合；去除问题中的停用词以及词性不可能为谓词的词汇，根据谓词索引词典，模糊匹配所有可能的谓词，加入候选词集合；将候选词集合中的实体和谓词链接到知识图谱，生成特征，利用候选词集合排序模型筛选实体及谓词；将筛选后的实体和谓词链接到知识图谱，生成所有直接相连的查询路径，利用文本匹配模型对各路径进行打分；将各路径的分值与实体或谓词本身的特征作为输入，利用路径排序模型选择排序最前的路径；当最优路径概率值大于阈值时，将该路径作为问题最终的检索路径，生成最终的结构化的知识图谱查询语句，根据该查询语句到知识图谱中进行检索，返回最终的结果，反之，返回“暂无结果”的回复语句模板，并传输至显示屏进行显示。

实施例三

本实施例与实施例二类似，所不同之处在于，如图2所示，还包括用于自动推送柑橘种植管理信息的自动推送模块，显示屏与自动推送模块连接，问答模块与自动推送模块连接。根据时间节点，自动推送模块自动推送从知识图谱中得到的当前柑橘物候期，建议的农事措施以及病虫害预警等内容，实现柑橘种植管理的科学指导。

在上述具体实施方式的具体内容中，各技术特征可以进行任意不矛盾的组合，为使描述简洁，未对上述各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于知识图谱的柑橘管控问答模块构建方法，其特征在于，包括以下步骤：

S6：获取筛选后的候选词集合在知识图谱内直接相连的所有路径，并生成为人工问题，将所有生成的人工问题与问题语句输入文本匹配模型，为每个路径打分，将路径分数与候选词集合在筛选过程中生成的特征拼接成路径的新特征，训练路径排序模型；

步骤S1中，问答对数据库包含若干问答对数据，每条所述问答对数据包含三行数据，第一行为柑橘精准管控中用户可能出现的问题语句，第二行为所述问题语句在知识图谱中检索对应答案所使用的查询语句，第三行为在知识图谱中检索后得到的答案，每条问答对数据之间以空行隔开；

步骤S3中，构建命名实体识别模型的方法为：

反向标注问答对数据库中的问题语句，生成训练数据，采用Bert-BiLstm模型来进行命名实体识别，将问题字符串与对应的实体字符串的最长公共子序列标注为问题语句的命名实体部分，由分词器Tokenizer生成问题的词索引序列x₁及分块索引序列x₂，将x₁、x₂输入命名实体识别模型，问题字符串与对应实体字符串的最长公共子序列部分标签为1，其余为0，生成对应的命名实体识别模型标签序列y＝(y₁,y₂,y₃,……,y_N)，N为最大字符；

p(y)＝(p(y₁),p(y₂),p(y₃),……,p(y_N))

对命名实体识别模型进行迭代训练，使H_1P(q₁)最小，根据训练好的命名实体识别模型计算p(y)，预设阈值为0.5，当p(y_i)≥0.5时，输出为1；当p(y_i)<0.5时，输出为0；

保存训练好的命名实体识别模型；

步骤S6中，为路径打分的过程为：

将所有生成的人工问题与问题语句输入文本匹配模型，将对应问题语句的人工问题标注为1，反之为0，生成文本匹配模型标签θ＝(θ₁,θ₂,θ₃,……,θ_n)，n为人工问题数量；

根据文本匹配模型交叉熵建立文本匹配模型损失函数：

保存训练好的文本匹配模型；

路径排序模型的训练过程为：

将路径分数与候选词集合在筛选过程中生成的特征拼接成路径的新特征，输入路径排序模型，判断路径是否为正确路径，若是，将对应路径标注为1，反之为0，生成路径排序模型标签n为路径数量；

根据路径排序模型交叉熵建立路径排序模型损失函数：

保存训练好的路径排序模型。

2.根据权利要求1所述的基于知识图谱的柑橘管控问答模块构建方法，其特征在于，步骤S1中，柑橘问题文本分类语料库的构建方法为：当问题语句对应的实体或谓词在知识图谱中相连的路径不小于三个时，从路径中随机选择三个候选查询路径作为负例，标签为0；当问题语句对应的实体或关系相连的路径不足三个时，由知识图谱中随机生成候选查询路径补齐，并将候选查询路径还原为人工问题，标签为1。

3.根据权利要求1所述的基于知识图谱的柑橘管控问答模块构建方法，其特征在于，步骤S2中，所述分词词典根据知识图谱中的实体节点生成，所述谓词词典根据知识图谱的关系值生成，所述谓词索引词典构建字到词的映射，用于谓词的模糊匹配。

4.根据权利要求1所述的基于知识图谱的柑橘管控问答模块构建方法，其特征在于，步骤S4中，构建候选词集合排序模型的过程为：

(43)根据特征，将候选词集合中正确对应查询语句的词汇标注为1，反之为0，生成候选词集合排序模型标签z＝(z₁,z₂,z₃,……,z_M)，M为候选词数量；

5.根据权利要求4所述的基于知识图谱的柑橘管控问答模块构建方法，其特征在于，所述特征包括词汇本身的特征、词汇与问题语句的相似度特征、词汇的流行度特征。

6.一种问答系统，其特征在于，包括显示屏及权利要求1至5任一项所述的基于知识图谱的柑橘管控问答模块构建方法构建的问答模块，所述显示屏与所述问答模块双向连接。

7.根据权利要求6所述的问答系统，其特征在于，还包括用于自动推送柑橘种植管理信息的自动推送模块，所述显示屏与所述自动推送模块连接，所述问答模块与所述自动推送模块连接。