CN113157884A - 一种基于校园业务的问答检索方法 - Google Patents
一种基于校园业务的问答检索方法 Download PDFInfo
- Publication number
- CN113157884A CN113157884A CN202110381489.1A CN202110381489A CN113157884A CN 113157884 A CN113157884 A CN 113157884A CN 202110381489 A CN202110381489 A CN 202110381489A CN 113157884 A CN113157884 A CN 113157884A
- Authority
- CN
- China
- Prior art keywords
- keywords
- input
- student
- key
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
Abstract
本发明公开了一种基于校园业务的问答检索方法。本发明具体步骤如下:步骤1、学生进入用户界面;步骤2、学生输入并触发输入机制;步骤3、执行检索流程,系统针对学生查询中的关键句/关键词,利用BM25算法计算各文档得分;步骤4、将分数最高的文档作为答案反馈给学生。本发明引入了离线流程,形成了反馈机制,加快对知识库的更新,为学生提供更好的用户体验。在学生输入时,引入了四大输入机制,将“输入”变为“点击”,降低负荷率和出错率。基于校园背景知识,对BM25检索算法进行了改进,对各部门对应文档赋予权重,能够更加高效、准确地筛选出答案。
Description
技术领域:
本发明涉及信息检索(Information Retrieval)方法技术领域,具体为一种基于校园业务的问答检索方法。
背景技术:
随着深度学习技术的快速发展,人工智能已经普遍被使用在生活以及工作中,致力于改善人们的生活。自然语言问答系统便是人工智能的产物之一,问答系统在各领域普及,如金融、司法等等,校园里同样有问答系统的身影,学生经常通过问答系统来快速地解决问题。
问答系统中,包含了多种自然语言处理技术,其中问答检索是至关重要的一项技术。
目前,许多应用于校园的问答检索算法或模型相较于传统算法,在准确度方面已有大幅度提升,但这些算法或模型都仅仅关注问题和答案文本本身所能提供的信息,忽视了基于校园的背景知识,而仅从问题和答案的文本信息中只能获取部分背景知识,导致算法并不是完全“了解”校园背景知识,这就使得问题和各个答案之间的匹配性差,问答系统的准确率低。如此,导致学生往往不能通过问答系统获得所需要的答案,实际体验性差。
结合学校背景知识,运用了信息抽取技术、信息检索技术,对学生提出的问题进行更加快速、准确地解答,是本发明的主要目的及重点。
基于此,本发明设计了一种基于校园业务的问答检索方法,以解决上述问题。
发明内容:
本发明旨在结合学校背景知识,运用信息抽取技术、信息检索技术,对学生提出的问题进行更加快速、准确地解答,帮助学生高效、精准地解决问题。本发明针对BM25检索算法进行了改进,融入了校园背景知识,对学生查询内容进行意图解读,再对各部门赋予权值,让算法能够能加精确、快速地定位对应文档,并反馈给学生。
本发明解决其技术问题所采用的技术方案如下:
步骤1、学生进入用户界面;
步骤2、学生输入并触发输入机制;
步骤3、执行检索流程,系统针对学生查询中的关键句/关键词,利用BM25算法计算各文档得分;
步骤4、将分数最高的文档作为答案反馈给学生。
进一步的,步骤2具体实现如下:
根据学生输入触发输入机制:学生需要输入关键句/关键词,并点击输入文本框时,触发输入机制,当输入条件关键字时需要注意四个规则:推荐、补全、容错、纠错;
2-1推荐:系统会根据搜索历史遗迹中的热搜关键词,作为辅助关键项,尽量用选择代替输入,降低负荷和输入错误几率;
2-2补全:当用户输入检索词时,若检索词存在多级节点词时,搜索框下会显示系统补全的关键词;
2-3容错:允许用户在一定范围内输入错误内容,智能为用户匹配正确的内容;;
2-4纠错:识别输入文本中的错误片段,并给出正确推荐;
进一步的,所述的步骤3具体实现如下:
3-1若学生输入的是关键句,则使用关键词提取技术,将学生查询中的关键词提取出来,记为qi,i=1,2,…,m,m为学生查询中关键句的关键词个数;
若学生输入的是关键词,则跳转到步骤3-3;
3-2使用依存句法对关键词进行解读:对学生查询内容中所有关键词进行权重赋值,并将关键词对应的权重同步赋值给该关键词所属的部门;权重w1,w2,…,wm分别代表不同关键词对应所属部门中的文档在该查询中的偏重;
3-3根据离线流程建立倒排索引,计算相关参数;
3-4对于文档Dj,将关键词与相应的权值相乘并累加后就是文档Dj与输入查询的关键句Q的相关性得分。
进一步的,步骤3-2具体解读实现如下:
3-2-1根据依存句法分析算法,将学生输入的关键句中的每个词进行属性的标注:词、词序号、词性、父节点、与父节点的关系;
3-2-2将3-1中提取出来的关键词及其对应的属性,作为该关键词在树中的节点属性,并将节点属性存放在对应的数据结构中;
3-2-3构建依存句法树:将每个关键词作为一个节点,标注每个节点的父节点和子节点集合,以及每个节点的层数,即每个节点到根节点的距离;
3-2-4根据节点所在层,将节点赋予相对应的权重,具体权重计算如下:
其中C为依存句法树的总层数,Ns为该节点所在层数。
进一步的,步骤3-3具体实现如下:
对于关键词qi,假设包含该关键词qi的文档数量共有ni个,而其中相关文档有ri个,则不相关文档中包含这个关键词qi的文档数量则为ni-ri;同时还需计算关键词在输入的关键句/关键词中的词频qfi;
对于任意文档Dj,关键词qi在文档Dj中的词频为fi;除此之外还需统计任意相关文档总数R、所有文档总数N、每个文档的长度dl、所有文档的平均长度avdl;
所述的任意相关文档是指与该关键词相关的所有文档,不一定包含该关键词。
进一步的,步骤3-4的相关性得分计算如下:
最后得到文档Dj的得分为:
Score(Q,Dj)=wj·Corr(Q,Dj) (3)
当公式(2)中m=1时,表示输入的关键句实际是一个关键词。
进一步的,所述的离线流程的执行是智能检索的前提,其中实现包括:
5-1.整理校园问答数据以及学生输入数据;
将非结构化、半结构化、结构化的学校业务数据以及学生输入数据进行整理,利用自然语言处理相关技术去除掉“停用词、虚词、量词、代词”,得到预处理后的数据;
5-2对预处理后的数据提取业务关键词,并进行结构化储存;
5-2-1将文本进行句法分析,再进行关键词提取,最后提取出“学生培养”、“学籍”、“毕业”、“竞赛”等10个一级业务关键词以及“交换项目”、“成绩”、“就业”、“学分”等120个二级业务关键词,并将二级业务关键词按照一级业务关键词进行归类;
5-2-2将一级业务关键词、一级业务关键词所含的二级业务关键词以及每个关键词对应的回答文本,分别存入数据存储模块;
5-3建立倒排索引,为在线流程提供知识基础;
5-3-1使用关键词提取技术将学生再次输入数据的关键词提取出来,建立一份包含学校业务的学生关键词词表;
5-3-2根据关键词表建立倒排文件,形成倒排索引,用于在线流程的使用。
发明的有益效果如下:
1.引入了离线流程,形成了反馈机制,加快对知识库的更新,为学生提供更好的用户体验。
2.在学生输入时,引入了四大输入机制,将“输入”变为“点击”,降低负荷率和出错率。
3.基于校园背景知识,对BM25检索算法进行了改进,对各部门对应文档赋予权重,能够更加高效、准确地筛选出答案。
附图说明:
图1为本发明流程图。
图2为本发明在线流程图。
图3为本发明离线流程图。
具体实施方式:
下面结合附图和实施例对本发明作进一步说明。
如图1所示,一种基于校园业务的问答检索方法,具体包括如下步骤:
步骤1、学生进入用户界面;
步骤2、学生输入并触发输入机制;
根据学生输入触发输入机制:学生需要输入关键句/关键词,并点击输入文本框时,触发输入机制,当输入条件关键字时需要注意四个规则:推荐、补全、容错、纠错。
2-1推荐:系统会根据搜索历史遗迹中的热搜关键词,作为辅助关键项,尽量用选择代替输入,降低负荷和输入错误几率。如3月是学生选课阶段,学生会频繁提问选课相关问题,此时系统会推荐相关关键词如“退课”、“签课”、“扩学分”等等。
2-2补全:当用户输入检索词时,若检索词存在多级节点词时,搜索框下会显示系统补全的关键词。比如当用户输入“奖学金”时,搜索框会出现“省政府奖学金”、“国家励志奖学金”、“国家奖学金”等节点词拱用户选择,帮助用户快速定位。
2-3容错:允许用户在一定范围内输入错误内容,智能为用户匹配正确的内容。如用户输入“jidian”时,服务端快速解析,将拼音转化为“绩点”作为搜索词。
2-4纠错:识别输入文本中的错误片段,并给出正确推荐。如当用户输入关键词“凡卡”时,推荐端会纠正为“饭卡”。
如图2所示,步骤3、执行检索流程,系统针对学生查询中的关键句/关键词,利用BM25算法计算各文档得分。
3-1若学生输入的是关键句,则使用关键词提取技术,将学生查询中的关键词提取出来,记为qi(i=1,2,…,m),m为学生查询中关键句的关键词个数。如学生输入“清明节放假安排”,则关键词为“清明节”、“放假”、“安排”,并分别记为q1、q2、q3。
若学生输入的是关键词,如“放假”,则跳转到步骤3-3。
3-2使用依存句法对关键词进行解读:对学生查询内容中所有关键词进行权重赋值,并将关键词对应的权重同步赋值给该关键词所属的部门;权重w1,w2,...,wm分别代表不同关键词对应所属部门中的文档在该查询中的偏重。
具体解读实现如下:
3-2-1根据依存句法分析算法,将学生输入的关键句中的每个词进行属性的标注:词、词序号、词性、父节点、与父节点的关系。
3-2-2将3-1中提取出来的关键词及其对应的属性,作为该关键词在树中的节点属性,并将节点属性存放在对应的数据结构中。
3-2-3构建依存句法树:将每个关键词作为一个节点,标注每个节点的父节点和子节点集合,以及每个节点的层数(即每个节点到根节点的距离)。
3-2-4根据节点所在层,将节点赋予相对应的权重,具体权重计算如下:
其中C为依存句法树的总层数,Ns为该节点所在层数。
3-3根据离线流程建立倒排索引,计算相关参数,如图3所示。
对于关键词qi,假设包含该关键词qi的文档数量共有ni个,而其中相关文档有ri个,则不相关文档中包含这个关键词qi的文档数量则为ni-ri。同时还需计算关键词在输入的关键句/关键词中的词频qfi。
对于任意文档Dj,关键词qi在文档Dj中的词频为fi。除此之外还需统计任意相关文档总数R、所有文档总数N、每个文档的长度dl、所有文档的平均长度avdl。
所述的任意相关文档是指与该关键词相关的所有文档,不一定包含该关键词。
3-4对于文档Dj,将关键词与相应的权值相乘并累加后就是文档Dj与输入查询的关键句Q的相关性得分,即:
Score(Q,Dj)=wj·Corr(Q,Dj) (3)
进一步的,当m=1时,表示输入的关键句实际是一个关键词。
步骤4,将分数最高的文档作为答案反馈给学生。
作为本发明进一步的技术方案,所述的离线流程的执行是智能检索的前提,其中方法步骤如图3所示:
5-1.整理校园问答数据以及学生输入数据;
将非结构化、半结构化、结构化的学校业务数据以及学生输入数据进行整理,利用自然语言处理相关技术去除掉“停用词、虚词、量词、代词”等无用的词,得到预处理后的数据。
5-2对预处理后的数据提取业务关键词,并进行结构化储存;
5-2-1将文本进行句法分析,再进行关键词提取,最后提取出“学生培养”、“学籍”、“毕业”、“竞赛”等10个一级业务关键词以及“交换项目”、“成绩”、“就业”、“学分”等120个二级业务关键词,并将二级业务关键词按照一级业务关键词进行归类。
5-2-2将一级业务关键词、一级业务关键词所含的二级业务关键词以及每个关键词对应的回答文本,分别存入数据存储模块。
5-4建立倒排索引,为在线流程提供知识基础;
5-3-1使用关键词提取技术将学生再次输入数据的关键词提取出来,建立一份包含学校业务的学生关键词词表。
5-3-2根据关键词表建立倒排文件,形成倒排索引,用于在线流程的使用。
Claims (7)
1.一种基于校园业务的问答检索方法,其特征在于具体包括如下步骤:
步骤1、学生进入用户界面;
步骤2、学生输入并触发输入机制;
步骤3、执行检索流程,系统针对学生查询中的关键句/关键词,利用BM25算法计算各文档得分;
步骤4、将分数最高的文档作为答案反馈给学生。
2.根据权利要求1所述的一种基于校园业务的问答检索方法,其特征在于步骤2具体实现如下:
根据学生输入触发输入机制:学生需要输入关键句/关键词,并点击输入文本框时,触发输入机制,当输入条件关键字时需要注意四个规则:推荐、补全、容错、纠错;
2-1推荐:系统会根据搜索历史遗迹中的热搜关键词,作为辅助关键项,尽量用选择代替输入,降低负荷和输入错误几率;
2-2补全:当用户输入检索词时,若检索词存在多级节点词时,搜索框下会显示系统补全的关键词;
2-3容错:允许用户在一定范围内输入错误内容,智能为用户匹配正确的内容;;
2-4纠错:识别输入文本中的错误片段,并给出正确推荐。
3.根据权利要求或2所述的一种基于校园业务的问答检索方法,其特征在于步骤3具体实现如下:
3-1若学生输入的是关键句,则使用关键词提取技术,将学生查询中的关键词提取出来,记为qi,i=1,2,...,m,m为学生查询中关键句的关键词个数;
若学生输入的是关键词,则跳转到步骤3-3;
3-2使用依存句法对关键词进行解读:对学生查询内容中所有关键词进行权重赋值,并将关键词对应的权重同步赋值给该关键词所属的部门;权重w1,w2,...,wm分别代表不同关键词对应所属部门中的文档在该查询中的偏重;
3-3根据离线流程建立倒排索引,计算相关参数;
3-4对于文档Dj,将关键词与相应的权值相乘并累加后就是文档Di与输入查询的关键句Q的相关性得分。
5.根据权利要求或4所述的一种基于校园业务的问答检索方法,其特征在于步骤3-3具体实现如下:
对于关键词qi,假设包含该关键词qi的文档数量共有ni个,而其中相关文档有ri个,则不相关文档中包含这个关键词qi的文档数量则为ni-ri;同时还需计算关键词在输入的关键句/关键词中的词频qfi;
对于任意文档Dj,关键词qi在文档Dj中的词频为fi;除此之外还需统计任意相关文档总数R、所有文档总数N、每个文档的长度dl、所有文档的平均长度avdl;
所述的任意相关文档是指与该关键词相关的所有文档,不一定包含该关键词。
7.根据权利要求或6所述的一种基于校园业务的问答检索方法,其特征在于所述的离线流程的执行是智能检索的前提,其中实现包括:
5-1.整理校园问答数据以及学生输入数据;
将非结构化、半结构化、结构化的学校业务数据以及学生输入数据进行整理,利用自然语言处理相关技术去除掉“停用词、虚词、量词、代词”,得到预处理后的数据;
5-2对预处理后的数据提取业务关键词,并进行结构化储存;
5-2-1将文本进行句法分析,再进行关键词提取,最后提取出“学生培养”、“学籍”、“毕业”、“竞赛”等10个一级业务关键词以及“交换项目”、“成绩”、“就业”、“学分”等120个二级业务关键词,并将二级业务关键词按照一级业务关键词进行归类;
5-2-2将一级业务关键词、一级业务关键词所含的二级业务关键词以及每个关键词对应的回答文本,分别存入数据存储模块;
5-3建立倒排索引,为在线流程提供知识基础;
5-3-1使用关键词提取技术将学生再次输入数据的关键词提取出来,建立一份包含学校业务的学生关键词词表;
5-3-2根据关键词表建立倒排文件,形成倒排索引,用于在线流程的使用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110381489.1A CN113157884A (zh) | 2021-04-09 | 2021-04-09 | 一种基于校园业务的问答检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110381489.1A CN113157884A (zh) | 2021-04-09 | 2021-04-09 | 一种基于校园业务的问答检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113157884A true CN113157884A (zh) | 2021-07-23 |
Family
ID=76888963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110381489.1A Withdrawn CN113157884A (zh) | 2021-04-09 | 2021-04-09 | 一种基于校园业务的问答检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113157884A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160247068A1 (en) * | 2013-11-01 | 2016-08-25 | Tencent Technology (Shenzhen) Company Limited | System and method for automatic question answering |
CN106095778A (zh) * | 2016-05-26 | 2016-11-09 | 达而观信息科技(上海)有限公司 | 搜索引擎的中文搜索词自动纠错方法 |
CN109635177A (zh) * | 2018-11-19 | 2019-04-16 | 广州搜料信息技术有限公司 | 基于分词加字符的物料检索方法 |
CN109885672A (zh) * | 2019-03-04 | 2019-06-14 | 中国科学院软件研究所 | 一种面向在线教育的问答式智能检索系统及方法 |
CN111694985A (zh) * | 2020-06-17 | 2020-09-22 | 北京字节跳动网络技术有限公司 | 搜索方法、装置、电子设备及计算机可读存储介质 |
CN111708874A (zh) * | 2020-08-24 | 2020-09-25 | 湖南大学 | 基于复杂意图智能识别的人机交互问答方法与系统 |
-
2021
- 2021-04-09 CN CN202110381489.1A patent/CN113157884A/zh not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160247068A1 (en) * | 2013-11-01 | 2016-08-25 | Tencent Technology (Shenzhen) Company Limited | System and method for automatic question answering |
CN106095778A (zh) * | 2016-05-26 | 2016-11-09 | 达而观信息科技(上海)有限公司 | 搜索引擎的中文搜索词自动纠错方法 |
CN109635177A (zh) * | 2018-11-19 | 2019-04-16 | 广州搜料信息技术有限公司 | 基于分词加字符的物料检索方法 |
CN109885672A (zh) * | 2019-03-04 | 2019-06-14 | 中国科学院软件研究所 | 一种面向在线教育的问答式智能检索系统及方法 |
CN111694985A (zh) * | 2020-06-17 | 2020-09-22 | 北京字节跳动网络技术有限公司 | 搜索方法、装置、电子设备及计算机可读存储介质 |
CN111708874A (zh) * | 2020-08-24 | 2020-09-25 | 湖南大学 | 基于复杂意图智能识别的人机交互问答方法与系统 |
Non-Patent Citations (3)
Title |
---|
BECK_ZHOU: "BM25算法", 《HTTPS://BLOG.CSDN.NET/ZHOUBL668/ARTICLE/DETAILS/7321012》, 5 March 2012 (2012-03-05), pages 1 - 2 * |
JLAN: "文本相似度-bm25算法原理及实现", 《HTTPS://WWW.JIANSHU.COM/P/1E498888F505》, 4 June 2017 (2017-06-04), pages 1 - 2 * |
STINK1995: "史上最小白之BM25详解与实现", 《HTTPS://BLOG.CSDN.NET/TINK1995/ARTICLE/DETAILS/104745144/》, 9 March 2020 (2020-03-09), pages 1 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Min et al. | Recent advances in natural language processing via large pre-trained language models: A survey | |
Zong et al. | Text data mining | |
Neculoiu et al. | Learning text similarity with siamese recurrent networks | |
Zubrinic et al. | The automatic creation of concept maps from documents written using morphologically rich languages | |
Chau et al. | Automatic concept extraction for domain and student modeling in adaptive textbooks | |
Al-Hroob et al. | The use of artificial neural networks for extracting actions and actors from requirements document | |
CN112883175B (zh) | 结合预训练模型及模板生成的气象服务交互方法及系统 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN111666374A (zh) | 一种在深度语言模型中融入额外知识信息的方法 | |
Chernova | Occupational skills extraction with FinBERT | |
Atapattu et al. | Automated extraction of semantic concepts from semi-structured data: Supporting computer-based education through the analysis of lecture notes | |
Chuang et al. | Conversational AI over military scenarios using intent detection and response generation | |
Klochikhin et al. | Text analysis | |
Kumar et al. | An abstractive text summarization technique using transformer model with self-attention mechanism | |
Hassan et al. | Learning to identify educational materials | |
Kondurkar et al. | Modern Applications With a Focus on Training ChatGPT and GPT Models: Exploring Generative AI and NLP | |
Žitko et al. | Automatic question generation using semantic role labeling for morphologically rich languages | |
Das et al. | An improvement of Bengali factoid question answering system using unsupervised statistical methods | |
CN113157884A (zh) | 一种基于校园业务的问答检索方法 | |
Drury | A Text Mining System for Evaluating the Stock Market's Response To News | |
Lee | Natural Language Processing: A Textbook with Python Implementation | |
Kumar et al. | Augmenting textbooks with CQA question-answers and annotated YouTube videos to increase its relevance | |
Arbizu | Extracting knowledge from documents to construct concept maps | |
Singh et al. | Computer Application for Assessing Subjective Answers using AI | |
Severyn | Modelling input texts: from Tree Kernels to Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210723 |