CN103902733B - 基于疑问词扩展的信息检索方法 - Google Patents
基于疑问词扩展的信息检索方法 Download PDFInfo
- Publication number
- CN103902733B CN103902733B CN201410156424.7A CN201410156424A CN103902733B CN 103902733 B CN103902733 B CN 103902733B CN 201410156424 A CN201410156424 A CN 201410156424A CN 103902733 B CN103902733 B CN 103902733B
- Authority
- CN
- China
- Prior art keywords
- answer
- feature
- retrieval
- interrogative
- answers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种信息检索方法,尤其是涉及一种基于疑问词扩展的软件信息检索方法。包括:统计步骤:对问答网站已有的问题答案对进行分类,然后提取各类型答案对的特征,再利用机器学习得出各类型答案对间的区分性特征;分析步骤:利用自然语言对检索问题进行处理以得到疑问词,再将检索向量与区分性特征合并组成新的检索向量;检索步骤:利用检索向量在软件知识库中进行检索。因此,本发明具有如下优点:1.能够利用问答中疑问词和答案之间的联系提高软件信息检索精度;2.能够利用问答中疑问词和答案之间的联系来对检索结果进行过滤和重排序,加快用户筛选速率。
Description
技术领域
本发明涉及一种信息检索方法,尤其是涉及一种基于疑问词扩展的软件信息检索方法。
背景技术
软件知识库是用于软件知识管理的一种特殊的数据库,其存储了和软件相关的代码、文档,以及问答等信息,以便于有关软件知识的采集、整理以及提取。
检索是软件知识库提供的一项重要的功能。针对用户输入的一个查询语句,检索系统进行提取查询词并进行相似度匹配,将检索结果排序以后返回给用户。
目前的软件信息检索工具主要采用关键词匹配,词频统计(TF-IDF)等技术,这些简单的关键词组合忽略了人们提问时的潜在语义信息,而且人们很难通过简单的关键词组合来准确定义自己的搜索意图,导致人们经常花大量的时间对结果列表进行人工辨识来寻找理想的答案。
发明内容
本发明主要是解决现有技术所存在的检索效率低,检索结果与检索意图不匹配的问题,提供了一种基于疑问词扩展的软件信息检索方法。该方法在检索时综合考虑了代码特征、链接特征,以及不同疑问词提问类别的文本特征等,在对软件问答网站的问题答案对进行学习的基础上进行检索,使系统能够返回更高准确度的回答,优化用户的检索体验。
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种基于疑问词扩展的信息检索方法,其特征在于,包括:
统计步骤:对问答网站已有的问题答案对进行分类,然后提取各类型答案对的特征,再利用机器学习得出各类型答案对间的区分性特征;
分析步骤:利用自然语言对检索问题进行处理以得到疑问词,再将检索向量与统计步骤中得到的区分性特征合并组成新的检索向量;
检索步骤:利用分析步骤中得到的检索向量在软件知识库中进行检索,得到候选结果列表;
优化的,上述的一种基于疑问词扩展的信息检索方法,所述统计步骤进一步包括以下子步骤:
步骤2.1:利用爬虫程序抓取真实问答网站的问题答案对;
步骤2.2:将步骤2.1中所抓取的答案对进行词性标注,然后根据词性标注得到的疑问词将问题答案对进行分类;
步骤2.3:通过机器学习提取步骤2.2中同一类别答案对的各个答案特征;
步骤2.4:通过主要成分分析从步骤2.3得到答案特征中提取能区别不同类别答案对的答案特征作为该类别答案对的区分性特征,将区分特征以外的答案特征作为非区分性特征。
优化的,上述的一种基于疑问词扩展的信息检索方法,步骤2.3中所述的答案特征是文本特征、代码特征,以及链接特征中的一种或几种的组合。
优化的,上述的一种基于疑问词扩展的信息检索方法,所述分析步骤进一步包括以下子步骤:
步骤4.1:通过对检索问题的词性标注分析,取得用户检索问题的疑问词;
步骤4.2:查找在统计步骤中得到的与步骤4.1中的疑问词相对应的区分性特征;
步骤4.3:去除检索问题中的停用词和词根,将得到的词向量与步骤2中得到的区分性特征合并组成新的检索向量;
优化的,上述的一种基于疑问词扩展的软件信息检索方法,所述检索步骤中在得到候选结果列表后,还包括对候选结果进行过滤和重排序的步骤,该步骤进一步包括以下子步骤:
步骤5.1:用检索向量在软件知识库中进行检索,得到候选结果列表;
步骤5.2:分析候选结果列表中的每个备选答案特征,并将备选答案特征与非区分性特征进行模式匹配,按照匹配度排序,并返回最终结果。
因此,本发明具有如下优点:1.能够利用问答中疑问词和答案之间的联系提高软件信息检索精度;2.能够利用问答中疑问词和答案之间的联系来对检索结果进行过滤和重排序,加快用户筛选速率。
附图说明
附图1是实施例1的统计步骤流程图。
附图2是实施例1的分析步骤流程图。
具体实施方式
实施例1:
在统计步骤之前,先在特定于编程的问答网站stackoverflow上爬取了所有的问题答案对,随机选取了部分问题答案对作为统计对象。
首先对根据问题答案对中问题的词性标注进行分类,根据问题的疑问词分为how,where,why,what,which等类别,经分析发现who,when的问题在本领域不存在,所以不考虑who,when类别。
再将将答案中的文本看成由一个个词组成,对这些词作词根化处理,并提取文本的词性特征。将答案中的代码看成由一句句的代码语句组成的代码片段,判断答案中是否存在代码,若存在,则考虑是否有判断语句,循环语句,函数调用语句等特征。此外,还考虑答案中是否存在链接,答案文本长度等特征。对每一种类别问题的答案,我们将其作为正样本,其他类别问题的答案作为负样本。通过主要成分分析提取能区别该类别与其他类别答案的特征作为区分特征,将区分特征以外的答案特征作为非区分特征。
其中对文本使用了如下特征:
W1……Wn:每一个特征都代表答案里每一个词根化后的单词。每个特征都有个表示词频的值。
P1……Pm:每一个特征都代码一个POS特性。每个特征都有个关于答案里出现该POS标签的次数的值。
VN1……VNk:答案中的动词+名词结构
NV1……NVx:答案中的名词+动词结构
对于代码使用如下特征:
F1 | 答案包含代码 |
F2 | 问题不包含代码,答案包含代码 |
F3 | 问题和答案都不包含代码 |
F4 | 问题包含代码,答案不包含代码 |
F5 | 问题和答案都不包含代码 |
F6 | 答案里的代码包含循环 |
F7 | 答案里的代码包含条件判断 |
F8 | 答案里的代码包含大块的代码 |
F9 | 答案里的代码包含顺序语句 |
F10 | 答案里的代码包含字符串 |
F11 | 答案里的代码包含括号表达式 |
F12 | 答案里的代码包含表达式 |
F13 | 答案里的代码包含逻辑操作 |
F14 | 答案里的代码包含赋值语句 |
F15 | 答案里的代码包含函数调用 |
F16 | 图片数 |
F17 | 一级标题数 |
F18 | 二级标题数 |
F19 | 三级标题数 |
F20 | 平均章节长度 |
F21 | 最长章节长度 |
F22 | 最短章节长度 |
F23 | 章节长度标准差 |
F24 | 斜体和加粗标签数 |
F25 | 段落数 |
F26 | 引用数 |
F27 | 代码片段数 |
F28 | 列表数 |
F29 | 列表表项数 |
F30 | 平均代码长度 |
F31 | 最长代码长度 |
F32 | 最短代码长度 |
F33 | 答案长度标准差 |
F34 | 答案长度 |
F35 | 平均引用文本长度 |
F36 | 最长引用文本长度 |
F37 | 最短引用文本长度 |
F38 | 引用文本长度标准差 |
F39 | 外部链接数 |
F40 | 内部链接数 |
F41 | 链接总数 |
我们识别用户输入的疑问句中的疑问词,并标明类别。对疑问句进行停用词过滤和词根化的操作。那些最能区分该类别的词,将作为特征添加到该类疑问句中。将得到的词向量在内容数据库中进行检索,得到答案列表。将答案列表中的回答,与能区分这个问题的其它特征进行代码、链接、结果长度等的模式匹配,按照匹配度排序,并返回最终结果。
在此,假定stackoverflow上一个关于lucene的问题“How to get a Token froma Lucene TokenStream?”,首先识别问题中的疑问词为“How”,过滤停用词to、a、from,词根化得到<how,get,token,lucene tokenstream>,然后我们将之前训练出的how类别的文本特征(first、step)也引入,组成新的向量,以此在知识库中进行检索,得到一系列文本列表。然后我们此时考察备选答案列表中每个答案的文本词性特征、代码特征及链接特征等,根据how类问题的特征(例如答案中往往含有代码)进行回归处理得到得分,与检索得分进行线性组合并将结果列表重排序,得到重新排序后的文本列表,返回给用户。
以上实施例为本发明中的方法进行信息检索的一般过程,该实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (4)
1.一种基于疑问词扩展的信息检索方法,其特征在于,包括:
统计步骤:对问答网站已有的问题答案对进行分类,然后提取各类型答案对的特征,再利用机器学习得出各类型答案对间的区分性特征;
分析步骤:利用自然语言对检索问题进行处理以得到疑问词,再将检索向量与统计步骤中得到的区分性特征合并组成新的检索向量;
检索步骤:利用分析步骤中得到的检索向量在软件知识库中进行检索,得到候选结果列表;
所述检索步骤中在得到候选结果列表后,还包括对候选结果进行过滤和重排序的步骤,该步骤进一步包括以下子步骤:
步骤5.1:用检索向量在软件知识库中进行检索,得到候选结果列表;
步骤5.2:分析候选结果列表中的每个备选答案特征,并将备选答案特征与非区分性特征进行模式匹配,按照匹配度排序,并返回最终结果。
2.根据权利要求1所述的一种基于疑问词扩展的信息检索方法,其特征在于,所述统计步骤进一步包括以下子步骤:
步骤2.1:利用爬虫程序抓取真实问答网站的问题答案对;
步骤2.2:将步骤2.1中所抓取的答案对进行词性标注,然后根据词性标注得到的疑问词将问题答案对进行分类;
步骤2.3:通过机器学习提取步骤2.2中同一类别答案对的各个答案特征;
步骤2.4:通过主要成分分析从步骤2.3得到答案特征中提取能区别不同类别答案对的答案特征作为该类别答案对的区分性特征,将区分特征以外的答案特征作为非区分性特征。
3.根据权利要求2所述的一种基于疑问词扩展的信息检索方法,其特征在于,步骤2.3中所述的答案特征是文本特征、代码特征,以及链接特征中的一种或几种的组合。
4.根据权利要求1所述的一种基于疑问词扩展的信息检索方法,其特征在于,所述分析步骤进一步包括以下子步骤:
步骤4.1:通过对检索问题的词性标注分析,取得用户检索问题的疑问词;
步骤4.2:查找在统计步骤中得到的与步骤4.1中的疑问词相对应的区分性特征;
步骤4.3:去除检索问题中的停用词和词根,将得到的词向量与区分性特征合并组成新的检索向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410156424.7A CN103902733B (zh) | 2014-04-18 | 2014-04-18 | 基于疑问词扩展的信息检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410156424.7A CN103902733B (zh) | 2014-04-18 | 2014-04-18 | 基于疑问词扩展的信息检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103902733A CN103902733A (zh) | 2014-07-02 |
CN103902733B true CN103902733B (zh) | 2017-02-01 |
Family
ID=50994055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410156424.7A Expired - Fee Related CN103902733B (zh) | 2014-04-18 | 2014-04-18 | 基于疑问词扩展的信息检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103902733B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268134B (zh) * | 2014-09-28 | 2017-04-19 | 苏州大学 | 一种主客观分类器构建方法和系统 |
JP6551968B2 (ja) * | 2015-03-06 | 2019-07-31 | 国立研究開発法人情報通信研究機構 | 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム |
CN105893465B (zh) * | 2016-03-28 | 2019-12-27 | 北京京东尚科信息技术有限公司 | 自动问答方法和装置 |
CN109460453B (zh) * | 2018-10-09 | 2021-08-17 | 北京来也网络科技有限公司 | 用于正负样本的数据处理方法及装置 |
CN109284383A (zh) * | 2018-10-09 | 2019-01-29 | 北京来也网络科技有限公司 | 文本处理方法及装置 |
CN109582773B (zh) * | 2018-11-29 | 2020-11-27 | 深圳爱问科技股份有限公司 | 智能问答匹配方法及装置 |
CN110727765B (zh) * | 2019-10-10 | 2021-12-07 | 合肥工业大学 | 基于多注意力机制的问题分类方法、系统及存储介质 |
CN111428019B (zh) * | 2020-04-02 | 2023-07-28 | 出门问问信息科技有限公司 | 用于知识库问答的数据处理方法及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004348239A (ja) * | 2003-05-20 | 2004-12-09 | Fujitsu Ltd | テキスト分類プログラム |
CN101609472A (zh) * | 2009-08-13 | 2009-12-23 | 腾讯科技(深圳)有限公司 | 一种基于问答平台的关键词评价方法和装置 |
CN102184225A (zh) * | 2011-05-09 | 2011-09-14 | 北京奥米时代生物技术有限公司 | 一种在问答系统中搜索优选专家信息的方法 |
CN103049455A (zh) * | 2011-10-14 | 2013-04-17 | 中兴通讯股份有限公司 | 基于分级式搜索的呼叫中心服务方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1156430A2 (en) * | 2000-05-17 | 2001-11-21 | Matsushita Electric Industrial Co., Ltd. | Information retrieval system |
-
2014
- 2014-04-18 CN CN201410156424.7A patent/CN103902733B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004348239A (ja) * | 2003-05-20 | 2004-12-09 | Fujitsu Ltd | テキスト分類プログラム |
CN101609472A (zh) * | 2009-08-13 | 2009-12-23 | 腾讯科技(深圳)有限公司 | 一种基于问答平台的关键词评价方法和装置 |
CN102184225A (zh) * | 2011-05-09 | 2011-09-14 | 北京奥米时代生物技术有限公司 | 一种在问答系统中搜索优选专家信息的方法 |
CN103049455A (zh) * | 2011-10-14 | 2013-04-17 | 中兴通讯股份有限公司 | 基于分级式搜索的呼叫中心服务方法及系统 |
Non-Patent Citations (1)
Title |
---|
中文问答系统中问题分类及答案候选句抽取的研究;文勖;《中国优秀硕士学位论文全文数据库信息科技辑》;20061215;第14-18页3.1节,第25-26页3.4节,第32-36页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103902733A (zh) | 2014-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103902733B (zh) | 基于疑问词扩展的信息检索方法 | |
Vidgen et al. | Introducing CAD: the contextual abuse dataset | |
US9424524B2 (en) | Extracting facts from unstructured text | |
CN106776574B (zh) | 用户评论文本挖掘方法及装置 | |
CN109376251A (zh) | 一种基于词向量学习模型的微博中文情感词典构建方法 | |
Wu et al. | Bnu-hkbu uic nlp team 2 at semeval-2019 task 6: Detecting offensive language using bert model | |
Khatri et al. | Detecting offensive content in open-domain conversations using two stage semi-supervision | |
Chumwatana | Using sentiment analysis technique for analyzing Thai customer satisfaction from social media | |
CN110019776A (zh) | 文章分类方法及装置、存储介质 | |
Tsapatsoulis et al. | Feature extraction for tweet classification: Do the humans perform better? | |
CN106294398A (zh) | 信息处理装置和信息处理方法 | |
CN111460100A (zh) | 一种刑事法律文书罪名的推荐方法和系统 | |
Rajesh et al. | Fraudulent news detection using machine learning approaches | |
Fernando et al. | Sinhala hate speech detection in social media using machine learning and deep learning | |
Chaurasia et al. | Predicting mental health of scholars using contextual word embedding | |
Oriola et al. | Improved semi-supervised learning technique for automatic detection of South African abusive language on Twitter | |
CN113704472B (zh) | 基于主题记忆网络的仇恨和攻击性言论识别方法及系统 | |
Yin et al. | Research of integrated algorithm establishment of a spam detection system | |
Sorato et al. | Short Semantic Patterns: A Linguistic Pattern Mining Approach for Content Analysis Applied to Hate Speech | |
Ramachandran et al. | A Factual Sentiment Analysis on Instagram Data–A Comparative Study Using Machine Learning Algorithms | |
Bose et al. | Enhancing Fake News Detection with Sentiment Analysis Using Machine Learning | |
CN113988059A (zh) | 一种会话数据类型识别方法、系统、设备及存储介质 | |
Singh et al. | Text analytics of web posts' comments using sentiment analysis | |
Althabiti et al. | Google Snippets and Twitter Posts; Examining Similarities to Identify Misinformation | |
Siddiqui et al. | An ensemble approach for the identification and classification of crime tweets in the English language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C53 | Correction of patent for invention or patent application | ||
CB03 | Change of inventor or designer information |
Inventor after: Zou Yanzhen Inventor after: Ye Ting Inventor after: Chen Xiuzhao Inventor before: Zou Yanzhen Inventor before: Zhang Lingxiao |
|
COR | Change of bibliographic data |
Free format text: CORRECT: INVENTOR; FROM: ZOU YANZHEN ZHANG LINGXIAO TO: ZOU YANZHEN YE TING CHEN XIUZHAO |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170201 Termination date: 20170418 |