CN113157884A

CN113157884A - 一种基于校园业务的问答检索方法

Info

Publication number: CN113157884A
Application number: CN202110381489.1A
Authority: CN
Inventors: 毛佳豪; 傅啸; 周春珂; 廖泽平
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2021-07-23

Abstract

本发明公开了一种基于校园业务的问答检索方法。本发明具体步骤如下：步骤1、学生进入用户界面；步骤2、学生输入并触发输入机制；步骤3、执行检索流程，系统针对学生查询中的关键句/关键词，利用BM25算法计算各文档得分；步骤4、将分数最高的文档作为答案反馈给学生。本发明引入了离线流程，形成了反馈机制，加快对知识库的更新，为学生提供更好的用户体验。在学生输入时，引入了四大输入机制，将“输入”变为“点击”，降低负荷率和出错率。基于校园背景知识，对BM25检索算法进行了改进，对各部门对应文档赋予权重，能够更加高效、准确地筛选出答案。

Description

一种基于校园业务的问答检索方法

技术领域：

本发明涉及信息检索(Information Retrieval)方法技术领域，具体为一种基于校园业务的问答检索方法。

背景技术：

随着深度学习技术的快速发展,人工智能已经普遍被使用在生活以及工作中,致力于改善人们的生活。自然语言问答系统便是人工智能的产物之一，问答系统在各领域普及，如金融、司法等等，校园里同样有问答系统的身影，学生经常通过问答系统来快速地解决问题。

问答系统中，包含了多种自然语言处理技术，其中问答检索是至关重要的一项技术。

目前，许多应用于校园的问答检索算法或模型相较于传统算法，在准确度方面已有大幅度提升，但这些算法或模型都仅仅关注问题和答案文本本身所能提供的信息，忽视了基于校园的背景知识，而仅从问题和答案的文本信息中只能获取部分背景知识，导致算法并不是完全“了解”校园背景知识，这就使得问题和各个答案之间的匹配性差,问答系统的准确率低。如此,导致学生往往不能通过问答系统获得所需要的答案,实际体验性差。

结合学校背景知识，运用了信息抽取技术、信息检索技术，对学生提出的问题进行更加快速、准确地解答，是本发明的主要目的及重点。

基于此，本发明设计了一种基于校园业务的问答检索方法，以解决上述问题。

发明内容：

本发明旨在结合学校背景知识，运用信息抽取技术、信息检索技术，对学生提出的问题进行更加快速、准确地解答，帮助学生高效、精准地解决问题。本发明针对BM25检索算法进行了改进，融入了校园背景知识，对学生查询内容进行意图解读，再对各部门赋予权值，让算法能够能加精确、快速地定位对应文档，并反馈给学生。

本发明解决其技术问题所采用的技术方案如下：

步骤1、学生进入用户界面；

步骤2、学生输入并触发输入机制；

步骤3、执行检索流程，系统针对学生查询中的关键句/关键词，利用BM25算法计算各文档得分；

步骤4、将分数最高的文档作为答案反馈给学生。

进一步的，步骤2具体实现如下：

根据学生输入触发输入机制：学生需要输入关键句/关键词，并点击输入文本框时，触发输入机制，当输入条件关键字时需要注意四个规则：推荐、补全、容错、纠错；

2-1推荐:系统会根据搜索历史遗迹中的热搜关键词，作为辅助关键项，尽量用选择代替输入，降低负荷和输入错误几率；

2-2补全:当用户输入检索词时，若检索词存在多级节点词时，搜索框下会显示系统补全的关键词；

2-3容错：允许用户在一定范围内输入错误内容，智能为用户匹配正确的内容；；

2-4纠错：识别输入文本中的错误片段，并给出正确推荐；

进一步的，所述的步骤3具体实现如下：

3-1若学生输入的是关键句，则使用关键词提取技术，将学生查询中的关键词提取出来，记为q_i，i＝1,2,…,m,m为学生查询中关键句的关键词个数；

若学生输入的是关键词，则跳转到步骤3-3；

3-2使用依存句法对关键词进行解读：对学生查询内容中所有关键词进行权重赋值，并将关键词对应的权重同步赋值给该关键词所属的部门；权重w₁,w₂,…,w_m分别代表不同关键词对应所属部门中的文档在该查询中的偏重；

3-3根据离线流程建立倒排索引，计算相关参数；

3-4对于文档D_j，将关键词与相应的权值相乘并累加后就是文档D_j与输入查询的关键句Q的相关性得分。

进一步的，步骤3-2具体解读实现如下：

3-2-1根据依存句法分析算法，将学生输入的关键句中的每个词进行属性的标注：词、词序号、词性、父节点、与父节点的关系；

3-2-2将3-1中提取出来的关键词及其对应的属性，作为该关键词在树中的节点属性，并将节点属性存放在对应的数据结构中；

3-2-3构建依存句法树：将每个关键词作为一个节点，标注每个节点的父节点和子节点集合，以及每个节点的层数，即每个节点到根节点的距离；

3-2-4根据节点所在层，将节点赋予相对应的权重，具体权重计算如下：

其中C为依存句法树的总层数，N_s为该节点所在层数。

进一步的，步骤3-3具体实现如下：

对于关键词q_i，假设包含该关键词q_i的文档数量共有n_i个，而其中相关文档有r_i个，则不相关文档中包含这个关键词q_i的文档数量则为n_i-ri；同时还需计算关键词在输入的关键句/关键词中的词频qf_i；

对于任意文档D_j，关键词q_i在文档D_j中的词频为f_i；除此之外还需统计任意相关文档总数R、所有文档总数N、每个文档的长度dl、所有文档的平均长度avdl；

所述的任意相关文档是指与该关键词相关的所有文档，不一定包含该关键词。

进一步的，步骤3-4的相关性得分计算如下：

其中，

最后得到文档D_j的得分为：

Score(Q，D_j)＝w_j·Corr(Q，D_j) (3)

当公式(2)中m＝1时，表示输入的关键句实际是一个关键词。

进一步的，所述的离线流程的执行是智能检索的前提，其中实现包括：

5-1.整理校园问答数据以及学生输入数据；

将非结构化、半结构化、结构化的学校业务数据以及学生输入数据进行整理，利用自然语言处理相关技术去除掉“停用词、虚词、量词、代词”，得到预处理后的数据；

5-2对预处理后的数据提取业务关键词，并进行结构化储存；

5-2-1将文本进行句法分析，再进行关键词提取，最后提取出“学生培养”、“学籍”、“毕业”、“竞赛”等10个一级业务关键词以及“交换项目”、“成绩”、“就业”、“学分”等120个二级业务关键词，并将二级业务关键词按照一级业务关键词进行归类；

5-2-2将一级业务关键词、一级业务关键词所含的二级业务关键词以及每个关键词对应的回答文本，分别存入数据存储模块；

5-3建立倒排索引，为在线流程提供知识基础；

5-3-1使用关键词提取技术将学生再次输入数据的关键词提取出来，建立一份包含学校业务的学生关键词词表；

5-3-2根据关键词表建立倒排文件，形成倒排索引，用于在线流程的使用。

发明的有益效果如下：

1.引入了离线流程，形成了反馈机制，加快对知识库的更新，为学生提供更好的用户体验。

2.在学生输入时，引入了四大输入机制，将“输入”变为“点击”，降低负荷率和出错率。

3.基于校园背景知识，对BM25检索算法进行了改进，对各部门对应文档赋予权重，能够更加高效、准确地筛选出答案。

附图说明：

图1为本发明流程图。

图2为本发明在线流程图。

图3为本发明离线流程图。

具体实施方式：

下面结合附图和实施例对本发明作进一步说明。

如图1所示，一种基于校园业务的问答检索方法，具体包括如下步骤：

步骤1、学生进入用户界面；

步骤2、学生输入并触发输入机制；

根据学生输入触发输入机制：学生需要输入关键句/关键词，并点击输入文本框时，触发输入机制，当输入条件关键字时需要注意四个规则：推荐、补全、容错、纠错。

2-1推荐:系统会根据搜索历史遗迹中的热搜关键词，作为辅助关键项，尽量用选择代替输入，降低负荷和输入错误几率。如3月是学生选课阶段，学生会频繁提问选课相关问题，此时系统会推荐相关关键词如“退课”、“签课”、“扩学分”等等。

2-2补全:当用户输入检索词时，若检索词存在多级节点词时，搜索框下会显示系统补全的关键词。比如当用户输入“奖学金”时，搜索框会出现“省政府奖学金”、“国家励志奖学金”、“国家奖学金”等节点词拱用户选择，帮助用户快速定位。

2-3容错：允许用户在一定范围内输入错误内容，智能为用户匹配正确的内容。如用户输入“jidian”时，服务端快速解析，将拼音转化为“绩点”作为搜索词。

2-4纠错：识别输入文本中的错误片段，并给出正确推荐。如当用户输入关键词“凡卡”时，推荐端会纠正为“饭卡”。

如图2所示，步骤3、执行检索流程，系统针对学生查询中的关键句/关键词，利用BM25算法计算各文档得分。

3-1若学生输入的是关键句，则使用关键词提取技术，将学生查询中的关键词提取出来，记为q_i(i＝1,2,…,m)，m为学生查询中关键句的关键词个数。如学生输入“清明节放假安排”，则关键词为“清明节”、“放假”、“安排”，并分别记为q₁、q₂、q₃。

若学生输入的是关键词，如“放假”，则跳转到步骤3-3。

3-2使用依存句法对关键词进行解读：对学生查询内容中所有关键词进行权重赋值，并将关键词对应的权重同步赋值给该关键词所属的部门；权重w₁，w₂，...，w_m分别代表不同关键词对应所属部门中的文档在该查询中的偏重。

具体解读实现如下：

3-2-1根据依存句法分析算法，将学生输入的关键句中的每个词进行属性的标注：词、词序号、词性、父节点、与父节点的关系。

3-2-2将3-1中提取出来的关键词及其对应的属性，作为该关键词在树中的节点属性，并将节点属性存放在对应的数据结构中。

3-2-3构建依存句法树：将每个关键词作为一个节点，标注每个节点的父节点和子节点集合，以及每个节点的层数(即每个节点到根节点的距离)。

其中C为依存句法树的总层数，N_s为该节点所在层数。

3-3根据离线流程建立倒排索引，计算相关参数，如图3所示。

对于关键词q_i，假设包含该关键词q_i的文档数量共有n_i个，而其中相关文档有r_i个，则不相关文档中包含这个关键词q_i的文档数量则为n_i-r_i。同时还需计算关键词在输入的关键句/关键词中的词频qf_i。

对于任意文档D_j，关键词q_i在文档D_j中的词频为f_i。除此之外还需统计任意相关文档总数R、所有文档总数N、每个文档的长度dl、所有文档的平均长度avdl。

3-4对于文档D_j，将关键词与相应的权值相乘并累加后就是文档D_j与输入查询的关键句Q的相关性得分，即：

其中，

最后得到文档D_j的得分为：

Score(Q,D_j)＝w_j·Corr(Q,D_j) (3)

进一步的，当m＝1时，表示输入的关键句实际是一个关键词。

步骤4，将分数最高的文档作为答案反馈给学生。

作为本发明进一步的技术方案，所述的离线流程的执行是智能检索的前提，其中方法步骤如图3所示：

5-1.整理校园问答数据以及学生输入数据；

将非结构化、半结构化、结构化的学校业务数据以及学生输入数据进行整理，利用自然语言处理相关技术去除掉“停用词、虚词、量词、代词”等无用的词，得到预处理后的数据。

5-2对预处理后的数据提取业务关键词，并进行结构化储存；

5-2-1将文本进行句法分析，再进行关键词提取，最后提取出“学生培养”、“学籍”、“毕业”、“竞赛”等10个一级业务关键词以及“交换项目”、“成绩”、“就业”、“学分”等120个二级业务关键词，并将二级业务关键词按照一级业务关键词进行归类。

5-2-2将一级业务关键词、一级业务关键词所含的二级业务关键词以及每个关键词对应的回答文本，分别存入数据存储模块。

5-4建立倒排索引，为在线流程提供知识基础；

5-3-1使用关键词提取技术将学生再次输入数据的关键词提取出来，建立一份包含学校业务的学生关键词词表。

Claims

1.一种基于校园业务的问答检索方法，其特征在于具体包括如下步骤：

步骤1、学生进入用户界面；

步骤2、学生输入并触发输入机制；

步骤4、将分数最高的文档作为答案反馈给学生。

2.根据权利要求1所述的一种基于校园业务的问答检索方法，其特征在于步骤2具体实现如下：

2-1推荐：系统会根据搜索历史遗迹中的热搜关键词，作为辅助关键项，尽量用选择代替输入，降低负荷和输入错误几率；

2-2补全：当用户输入检索词时，若检索词存在多级节点词时，搜索框下会显示系统补全的关键词；

2-4纠错：识别输入文本中的错误片段，并给出正确推荐。

3.根据权利要求或2所述的一种基于校园业务的问答检索方法，其特征在于步骤3具体实现如下：

3-1若学生输入的是关键句，则使用关键词提取技术，将学生查询中的关键词提取出来，记为q_i，i＝1，2，...，m，m为学生查询中关键句的关键词个数；

若学生输入的是关键词，则跳转到步骤3-3；

3-2使用依存句法对关键词进行解读：对学生查询内容中所有关键词进行权重赋值，并将关键词对应的权重同步赋值给该关键词所属的部门；权重w₁，w₂，...，w_m分别代表不同关键词对应所属部门中的文档在该查询中的偏重；

3-3根据离线流程建立倒排索引，计算相关参数；

3-4对于文档D_j，将关键词与相应的权值相乘并累加后就是文档D_i与输入查询的关键句Q的相关性得分。

4.根据权利要求或3所述的一种基于校园业务的问答检索方法，其特征在于步骤3-2具体解读实现如下：

其中C为依存句法树的总层数，N_s为该节点所在层数。

5.根据权利要求或4所述的一种基于校园业务的问答检索方法，其特征在于步骤3-3具体实现如下：

对于关键词q_i，假设包含该关键词q_i的文档数量共有n_i个，而其中相关文档有r_i个，则不相关文档中包含这个关键词q_i的文档数量则为n_i-r_i；同时还需计算关键词在输入的关键句/关键词中的词频qf_i；

6.根据权利要求或5所述的一种基于校园业务的问答检索方法，其特征在于步骤3-4的相关性得分计算如下：

其中，

k₁＝1.2、k₂＝100、b＝0.75；最后得到文档D_j的得分为：

Score(Q，D_j)＝w_j·Corr(Q，D_j) (3)

当公式(2)中m＝1时，表示输入的关键句实际是一个关键词。

7.根据权利要求或6所述的一种基于校园业务的问答检索方法，其特征在于所述的离线流程的执行是智能检索的前提，其中实现包括：

5-1.整理校园问答数据以及学生输入数据；

5-2对预处理后的数据提取业务关键词，并进行结构化储存；

5-3建立倒排索引，为在线流程提供知识基础；