CN103902733B

CN103902733B - 基于疑问词扩展的信息检索方法

Info

Publication number: CN103902733B
Application number: CN201410156424.7A
Authority: CN
Inventors: 邹艳珍; 叶挺; 陈秀招
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2014-04-18
Filing date: 2014-04-18
Publication date: 2017-02-01
Anticipated expiration: 2034-04-18
Also published as: CN103902733A

Abstract

本发明涉及一种信息检索方法，尤其是涉及一种基于疑问词扩展的软件信息检索方法。包括：统计步骤：对问答网站已有的问题答案对进行分类，然后提取各类型答案对的特征，再利用机器学习得出各类型答案对间的区分性特征；分析步骤：利用自然语言对检索问题进行处理以得到疑问词，再将检索向量与区分性特征合并组成新的检索向量；检索步骤：利用检索向量在软件知识库中进行检索。因此，本发明具有如下优点：1.能够利用问答中疑问词和答案之间的联系提高软件信息检索精度；2.能够利用问答中疑问词和答案之间的联系来对检索结果进行过滤和重排序，加快用户筛选速率。

Description

基于疑问词扩展的信息检索方法

技术领域

本发明涉及一种信息检索方法，尤其是涉及一种基于疑问词扩展的软件信息检索方法。

背景技术

软件知识库是用于软件知识管理的一种特殊的数据库，其存储了和软件相关的代码、文档，以及问答等信息，以便于有关软件知识的采集、整理以及提取。

检索是软件知识库提供的一项重要的功能。针对用户输入的一个查询语句，检索系统进行提取查询词并进行相似度匹配，将检索结果排序以后返回给用户。

目前的软件信息检索工具主要采用关键词匹配，词频统计(TF-IDF)等技术，这些简单的关键词组合忽略了人们提问时的潜在语义信息，而且人们很难通过简单的关键词组合来准确定义自己的搜索意图，导致人们经常花大量的时间对结果列表进行人工辨识来寻找理想的答案。

发明内容

本发明主要是解决现有技术所存在的检索效率低，检索结果与检索意图不匹配的问题，提供了一种基于疑问词扩展的软件信息检索方法。该方法在检索时综合考虑了代码特征、链接特征，以及不同疑问词提问类别的文本特征等，在对软件问答网站的问题答案对进行学习的基础上进行检索，使系统能够返回更高准确度的回答，优化用户的检索体验。

本发明的上述技术问题主要是通过下述技术方案得以解决的：

一种基于疑问词扩展的信息检索方法，其特征在于，包括：

统计步骤：对问答网站已有的问题答案对进行分类，然后提取各类型答案对的特征，再利用机器学习得出各类型答案对间的区分性特征；

分析步骤：利用自然语言对检索问题进行处理以得到疑问词，再将检索向量与统计步骤中得到的区分性特征合并组成新的检索向量；

检索步骤：利用分析步骤中得到的检索向量在软件知识库中进行检索，得到候选结果列表；

优化的，上述的一种基于疑问词扩展的信息检索方法，所述统计步骤进一步包括以下子步骤：

步骤2.1：利用爬虫程序抓取真实问答网站的问题答案对；

步骤2.2：将步骤2.1中所抓取的答案对进行词性标注，然后根据词性标注得到的疑问词将问题答案对进行分类；

步骤2.3：通过机器学习提取步骤2.2中同一类别答案对的各个答案特征；

步骤2.4：通过主要成分分析从步骤2.3得到答案特征中提取能区别不同类别答案对的答案特征作为该类别答案对的区分性特征，将区分特征以外的答案特征作为非区分性特征。

优化的，上述的一种基于疑问词扩展的信息检索方法，步骤2.3中所述的答案特征是文本特征、代码特征，以及链接特征中的一种或几种的组合。

优化的，上述的一种基于疑问词扩展的信息检索方法，所述分析步骤进一步包括以下子步骤：

步骤4.1：通过对检索问题的词性标注分析，取得用户检索问题的疑问词；

步骤4.2：查找在统计步骤中得到的与步骤4.1中的疑问词相对应的区分性特征；

步骤4.3：去除检索问题中的停用词和词根，将得到的词向量与步骤2中得到的区分性特征合并组成新的检索向量；

优化的，上述的一种基于疑问词扩展的软件信息检索方法，所述检索步骤中在得到候选结果列表后，还包括对候选结果进行过滤和重排序的步骤，该步骤进一步包括以下子步骤：

步骤5.1：用检索向量在软件知识库中进行检索，得到候选结果列表；

步骤5.2：分析候选结果列表中的每个备选答案特征，并将备选答案特征与非区分性特征进行模式匹配，按照匹配度排序，并返回最终结果。

因此，本发明具有如下优点：1.能够利用问答中疑问词和答案之间的联系提高软件信息检索精度；2.能够利用问答中疑问词和答案之间的联系来对检索结果进行过滤和重排序，加快用户筛选速率。

附图说明

附图1是实施例1的统计步骤流程图。

附图2是实施例1的分析步骤流程图。

具体实施方式

实施例1：

在统计步骤之前，先在特定于编程的问答网站stackoverflow上爬取了所有的问题答案对，随机选取了部分问题答案对作为统计对象。

首先对根据问题答案对中问题的词性标注进行分类，根据问题的疑问词分为how,where,why,what,which等类别，经分析发现who,when的问题在本领域不存在，所以不考虑who,when类别。

再将将答案中的文本看成由一个个词组成，对这些词作词根化处理，并提取文本的词性特征。将答案中的代码看成由一句句的代码语句组成的代码片段，判断答案中是否存在代码，若存在，则考虑是否有判断语句，循环语句，函数调用语句等特征。此外，还考虑答案中是否存在链接，答案文本长度等特征。对每一种类别问题的答案，我们将其作为正样本，其他类别问题的答案作为负样本。通过主要成分分析提取能区别该类别与其他类别答案的特征作为区分特征，将区分特征以外的答案特征作为非区分特征。

其中对文本使用了如下特征：

W1……Wn:每一个特征都代表答案里每一个词根化后的单词。每个特征都有个表示词频的值。

P1……Pm:每一个特征都代码一个POS特性。每个特征都有个关于答案里出现该POS标签的次数的值。

VN1……VNk:答案中的动词+名词结构

NV1……NVx:答案中的名词+动词结构

对于代码使用如下特征:

F1	答案包含代码
		F2	问题不包含代码，答案包含代码
F3	问题和答案都不包含代码
		F4	问题包含代码，答案不包含代码
F5	问题和答案都不包含代码
		F6	答案里的代码包含循环
F7	答案里的代码包含条件判断
		F8	答案里的代码包含大块的代码
F9	答案里的代码包含顺序语句
		F10	答案里的代码包含字符串
F11	答案里的代码包含括号表达式

F12	答案里的代码包含表达式
		F13	答案里的代码包含逻辑操作
F14	答案里的代码包含赋值语句
		F15	答案里的代码包含函数调用
F16	图片数
		F17	一级标题数
F18	二级标题数
		F19	三级标题数
F20	平均章节长度
		F21	最长章节长度
F22	最短章节长度
		F23	章节长度标准差
F24	斜体和加粗标签数
		F25	段落数
F26	引用数
		F27	代码片段数
F28	列表数
		F29	列表表项数
F30	平均代码长度
		F31	最长代码长度
F32	最短代码长度
		F33	答案长度标准差
F34	答案长度
		F35	平均引用文本长度
F36	最长引用文本长度
		F37	最短引用文本长度
F38	引用文本长度标准差
		F39	外部链接数
F40	内部链接数

F41

链接总数

我们识别用户输入的疑问句中的疑问词，并标明类别。对疑问句进行停用词过滤和词根化的操作。那些最能区分该类别的词，将作为特征添加到该类疑问句中。将得到的词向量在内容数据库中进行检索，得到答案列表。将答案列表中的回答，与能区分这个问题的其它特征进行代码、链接、结果长度等的模式匹配，按照匹配度排序，并返回最终结果。

在此，假定stackoverflow上一个关于lucene的问题“How to get a Token froma Lucene TokenStream?”，首先识别问题中的疑问词为“How”，过滤停用词to、a、from，词根化得到<how,get,token,lucene tokenstream>，然后我们将之前训练出的how类别的文本特征(first、step)也引入，组成新的向量，以此在知识库中进行检索，得到一系列文本列表。然后我们此时考察备选答案列表中每个答案的文本词性特征、代码特征及链接特征等，根据how类问题的特征(例如答案中往往含有代码)进行回归处理得到得分,与检索得分进行线性组合并将结果列表重排序，得到重新排序后的文本列表，返回给用户。

以上实施例为本发明中的方法进行信息检索的一般过程，该实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于疑问词扩展的信息检索方法，其特征在于，包括：

所述检索步骤中在得到候选结果列表后，还包括对候选结果进行过滤和重排序的步骤，该步骤进一步包括以下子步骤：

2.根据权利要求1所述的一种基于疑问词扩展的信息检索方法，其特征在于，所述统计步骤进一步包括以下子步骤：

步骤2.1：利用爬虫程序抓取真实问答网站的问题答案对；

3.根据权利要求2所述的一种基于疑问词扩展的信息检索方法，其特征在于，步骤2.3中所述的答案特征是文本特征、代码特征，以及链接特征中的一种或几种的组合。

4.根据权利要求1所述的一种基于疑问词扩展的信息检索方法，其特征在于，所述分析步骤进一步包括以下子步骤：

步骤4.3：去除检索问题中的停用词和词根，将得到的词向量与区分性特征合并组成新的检索向量。