CN101071432A - 一种相关问题检索方法及系统 - Google Patents

一种相关问题检索方法及系统 Download PDF

Info

Publication number
CN101071432A
CN101071432A CN 200710074264 CN200710074264A CN101071432A CN 101071432 A CN101071432 A CN 101071432A CN 200710074264 CN200710074264 CN 200710074264 CN 200710074264 A CN200710074264 A CN 200710074264A CN 101071432 A CN101071432 A CN 101071432A
Authority
CN
China
Prior art keywords
relevant
word
centre
related term
issues
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200710074264
Other languages
English (en)
Inventor
田密
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN 200710074264 priority Critical patent/CN101071432A/zh
Publication of CN101071432A publication Critical patent/CN101071432A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于计算机网络技术领域,提供了一种相关问题检索方法及系统,所述方法包括下述步骤:选取用户输入问题中的一个或多个中心词,并从相关词库中查找每个所述中心词的相关词集合;对所述相关词集合进行组合,并根据所述相关词集合的组合从问题库中检索与所述相关词集合的组合对应的相关问题;将所述相关问题返回给用户。本发明实施例提供的相关问题检索方法采用问题中心词的相关词集合的组合检索相关问题并将检索结果返回给用户,真正实现了知识搜索中的相关问题检索,使检索结果更准确、更快速、更接近用户对相关问题检索的需求。

Description

一种相关问题检索方法及系统
技术领域
本发明属于计算机网络技术领域,尤其涉及一种相关问题检索方法及系统。
背景技术
随着网络的高速发展和普及,上网的人数呈现高速增长的趋势。网络作为最大最便利的信息载体,已成为大多数人获取知识的途径。通过网络获取知识的途径有多种,其中通过大型搜索引擎提供的知识搜索获取知识不仅方便快捷,同时多数搜索引擎在提供知识搜索的同时,还提供相关问题检索,以方便用户了解相关知识。其中知识搜索是指用户输入一个提问句,搜索引擎检索该提问句对应的答案同时将该提问句搜集形成问题库,如果没有找到答案,可以将该问题提交并进行发布,等待其他用户进行解决,以达到知识共享。相关问题检索是指在进行知识搜索并返回用户检索结果的同时,提供一些与用户输入的问题相关的检索链接,供用户选择。
目前现有技术中相关问题检索的其中一种方法如下所述:选取用户输入问题中的一个或多个中心词,在问题库中进行查询,检索到与中心词相关的问题并返回给用户。例如:用户通过浏览器输入问题“我的显卡坏了,怎么办”,进行相关问题检索后将返回“显卡过热怎么办”、“显卡有问题怎么办”等相关问题。这种相关问题检索方法的不足之处在于其根据用户输入问题的中心词进行检索,相关问题检索结果与知识搜索结果相似,不能满足用户对相关问题检索的需求。
目前现有技术中相关问题检索的另一种方法如下所述:选取用户输入问题中的一个或多个中心词,返回该中心词所属的知识范畴给用户。例如:用户通过浏览器输入问题“我的显卡坏了,怎么办”,进行相关问题检索后将返回“检索特定分类:硬件(90)、操作系统(35)、软件(4)、互联网(4)、数码(2)”等相关问题。这种相关问题检索方法的不足之处在于其只能返回用户输入问题的中心词所属的范畴,需要用户进入返回的某个分类中浏览获取相关知识,这种相关问题检索属于中心词分类导航,无法满足用户对相关问题检索的需求。
发明内容
本发明实施例的目的在于提供一种相关问题检索方法,旨在解决现有技术中在进行相关问题检索过程中,由于直接通过用户输入问题中的一个或多个中心词检索相关问题而导致相关问题检索结果难以满足用户需求的问题。
本发明实施例是这样实现的,一种相关问题检索方法,所述方法包括下述步骤:
选取用户输入问题中的一个或多个中心词,并从相关词库中查找每个所述中心词的相关词集合;
对所述相关词集合进行组合,并根据所述相关词集合的组合从问题库中检索与所述相关词集合的组合对应的相关问题;
将所述相关问题返回给用户。
本发明实施例的另一目的在于提供一种相关问题检索系统,所述系统包括:
相关词库,用于存储相关词;
问题库,用于存储问题;
中心词选取单元,用于选取用户输入问题中的一个或多个中心词;
相关词查找单元,用于从所述相关词库中查找所述中心词的相关词集合,并将查找的相关词集合与中心词形成相关词集合;
相关词组合单元,用于将所述相关词集合进行组合;
相关问题检索单元,用于根据所述相关词集合的组合在所述问题库中检索与所述相关词集合的组合对应的相关问题;以及
相关问题返回单元,用于将所述相关问题返回给用户。
在本发明实施例中,在进行相关问题检索时,通过采用问题的中心词的相关词集合的组合检索相关问题并将检索结果返回给用户,真正实现了知识搜索中的相关问题检索,使检索结果更准确、更快速、更接近用户对相关问题检索的需求。
附图说明
图1是本发明实施例提供的相关问题检索的系统框架图;
图2是本发明实施例提供的相关词库的建立流程图;
图3是本发明实施例提供的相关问题检索方法的实现流程图;
图4是本发明实施例提供的相关问题检索系统的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明实施例中,通过选取用户输入问题中的一个或多个中心词,针对每个中心词在相关词库中查询该中心词的相关词集合,对由中心词的相关词形成的集合进行组合,针对每个中心词的相关词集合的组合在问题库中查找相关问题,将查找到的相关问题返回给用户。
图1示出了本发明实施例提供的相关问题检索的系统框架。
用户通过浏览器输入需要检索的问题,由前台公共网关接口(CommonGateway Interface,CGI)同时转发给搜索引擎和相关问题搜索引擎,搜索引擎根据自身的检索方式返回最接近该问题的答案给前台CGI;相关问题搜索引擎根据用户输入问题的一个或多个中心词在相关词库中检索该中心词的相关词集合,并将该相关词集合进行组合,然后根据该相关词集合的组合在问题库中检索与该相关词集合的组合对应的相关问题,将检索的相关问题返回前台CGI,由前台CGI解析搜索引擎以及相关问题搜索引擎返回的检索结果并呈现给用户。
图2示出了本发明实施例提供的相关词库的建立流程,详述如下:
在本发明实施例中,问题库是通过搜集用户提出过的所有问题所建立的一个问题集合,相关词库是根据问题库建立的,其建立过程如下所述:
在步骤S201中,选取问题库中每个问题,对该问题进行语法分析,得到该问题的一个或多个(如M个)中心词,其中M的数值可以根据现有技术中各搜索引擎采用的通过对该问题进行语法分析,而确定的该问题的中心词的个数确定,在本发明实施例中提到的M的数值均可以根据此确定。例如:针对问题库中的问题“我的显卡坏了,怎么办”,对该问题进行语法分析,得到该问题的两个中心词{显卡,坏}。
在步骤S202中,运用现有技术中的关联数据挖掘技术得到与上述每个中心词对应的关联词,针对每个中心词选取其关联词形成关联词集合,对于问题库中的每个问题,当其有M个中心词时,则有M个这样的关联词集合,由多个这样的关联词集合形成相关词库。例如:针对上述中心词“显卡”运用关联数据挖掘技术得到与该中心词“显卡”对应的关联词包括{光驱,电脑风扇,机箱,光电,驱动器,...},从与该中心词“显卡”对应的关联词中选取前面N个(在此选取前面5个)最相关的关联词形成关联词集合{光驱,电脑风扇,机箱,光电,驱动器},其中N的数值可以根据现有技术中各搜索引擎的多次实践,由搜索结果中真正与该中心词相关的关联词的个数确定,在本发明实施例中提到的N的数值均可以根据此确定。由多个这样的关联词集合形成相关词库。作为本发明的一个实施例,为了达到更好的相关问题检索结果,相关词库的建立还包括下述步骤:
在步骤S203中,针对上述各中心词的关联词集合进行编辑和审核,从关联词集合中删除某些形式相关,其实质不相关的关联词,留下真正相关的关联词,以使相关问题检索结果更准确、更快速。此步骤可以通过程序完成,但为了达到更好的相关问题检索效果,此步骤也可以由人工完成。例如:对上述关联词集合{光驱,电脑风扇,机箱,光电,驱动器},删除该集合中不相关的关联词“驱动器”以及“光电”,留下的关联词集合为{光驱,电脑风扇,机箱}。
在步骤S204中,将包含相同词的多个关联词集合合并为一个关联词集合,由多个合并后的关联词集合形成相关词库。例如:针对上述关联词集合{光驱,电脑风扇,机箱},如果依据上述方法还得到一个关联词集合为{光驱,声卡,主板,电源},则将上述两个含有相同关联词“光驱”的关联词结合合并为一个关联词集合{光驱,电脑风扇,机箱,声卡,主板,电源}。由多个这样的关联词集合形成相关词库。
图3示出了本发明实施例提供的相关问题检索方法的实现流程,详述如下:
在步骤S301中,选取用户输入问题中的一个或多个中心词。对用户输入的问题进行语法分析,并提取一个或多个(如M个)中心词{W1,W2,...,Wi,...,Wm}。作为本发明的一个实施例,根据该中心词集合{W1,W2,...,Wi,...,Wm},搜索引擎将返回与用户输入问题的对应的最接近的答案。例如:当用户输入的问题为“我的显卡坏了,怎么办”,则对该问题进行语法分析,提取两个中心词{显卡,坏}。
在步骤S302中,从相关词库中查找每个中心词的相关词并与中心词本身组成相关词集合。针对每个中心词Wi,在相关词库中查找该中心词Wi的相关词集合,并与该中心词Wi自身形成一个相关词集合{Wi,Wi1,Wi2,...,Win}。在此过程中将形成M个这样的相关词集合。例如:对于中心词“显卡”经步骤S302后,查找到相关词集合{显卡,光驱,电脑风扇,机箱,声卡,主板,电源},在此假设对于中心词“坏”查找到的相关词集合为{坏}。
在步骤S303中,对查找到的相关词集合进行组合。在此步骤中对步骤S302中形成的M个相关词集合进行笛卡儿组合或者以其它方式组合,同时去除原始组合{W1,W2,...,Wi,...,Wm}。例如上述相关词结合进行组合后,得到相关词集合的组合{光驱,坏}、{电脑风扇,坏}、{机箱,坏}、{声卡,坏}、{主板,坏}以及{电源,坏},多个相关词集合的组合。
在步骤S304中,根据每个相关词集合的组合从问题库中检索与该相关词集合的组合对应的相关问题。在本发明实施例中,根据相关词集合的组合在问题库中检索相关问题时,由于查找到的相关问题数量比较多,因此针对每个根据相关词集合的组合的相关问题检索结果,只选择最相关的一个问题。例如:对于上述相关词集合的组合{光驱,坏}经步骤S304后,得到相关问题“光驱噪声好大,坏了吗”等多个这样的相关问题,在此例中只选择检索结果中上述一个相关问题。同样的对于上述多个相关词集合的组合经步骤S304后,将得到相关问题“电脑风扇坏了,应该怎么办”、“机箱磨损了,坏了吗”、“声卡不响了,怎么办呢”等相关问题
在步骤S305中,将查找到的相关问题返回给用户。当步骤S304检索的相关问题无法穷尽时,从检索结果中选取前面N条最相关的相关问题返回给用户。例如只选择上述相关问题中的“光驱噪声好大,坏了吗”、“电脑风扇坏了,应该怎么办”“声卡不响了,怎么办呢”返回给用户。
综上所述,当用户输入的问题是“我的显卡坏了,怎么办”,经本发明实施例提供的相关问题检索方法后的结果为:“光驱噪声好大,坏了吗”、“电脑风扇坏了,应该怎么办”“声卡不响了,怎么办呢”。
图4示出了本发明实施例提供的相关问题检索系统的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
中心词选取单元41选取用户输入问题(我的显卡坏了,怎么办)中的一个或者多个(如M个)中心词构成中心词集合{W1,W2,...,Wi,...,Wm}({显卡,坏})。相关词查找单元42从相关词库43中查找与该中心词Wi(显卡,坏)对应的相关词集合并与中心词本身形成相关词集合{Wi,Wi1,Wi2,...,Win}({显卡,光驱,电脑风扇,机箱,声卡,主板,电源},{坏}),这样的相关词集合共有M个,其中M的确定如上所述,在此不再赘述。
其中相关词库43中存储有与中心词相关联的词,其是由相关词库创建单元48根据问题库46创建的。相关词库创建单元48包括关联词获取单元481,其针对中心词选取单元41选取的问题库46中的每个问题的一个或多个中心词(显卡),运用关联数据挖掘技术,获取与每个中心词相关的关联词,选取最相关的关联词组成关联词集合({光驱,电脑风扇,机箱,光电,驱动器}),由多个这样的关联词集合形成相关词库43。
为了达到更好的相关问题检索结果,可以由人工对每个关联词集合进行编辑、审核,删除每个关联词集合中某些形式相关,其实质不相关的关联词,留下关联词集合中与中心词真正相关的关联词({光驱,电脑风扇,机箱});也可以由关联词编辑单元482对每个关联词集合进行编辑、审核,删除关联词集合中某些形式相关,其实质不相关的关联词,留下关联词集合中与中心词真正相关的关联词({光驱,电脑风扇,机箱})。同时为了更准确、更快速进行相关问题的检索,关联词合并单元483把包含相同词的多个关联词集合({光驱,电脑风扇,机箱}以及{光驱,声卡,主板,电源})合并为一个关联词集合({光驱,电脑风扇,机箱,声卡,主板,电源}),由多个这样的合并后的关联词集合形成相关词库43。
相关词组合单元44对相关词查找单元42查找到的M个相关词集合({显卡,光驱,电脑风扇,机箱,声卡,主板,电源},{坏})进行组合({显卡,坏}、{光驱,坏}、{电脑风扇,坏}、{机箱,坏}、{声卡,坏}...),其组合方式可以为笛卡儿组合方式或其它方式。同时去除原始的中心词集合{W1,W2,...,Wi,...,Wm}({显卡,坏}。相关问题检索单元45根据每个相关词集合的组合({光驱,坏}、{电脑风扇,坏}、{声卡,坏}、...)在问题库46中检索与该相关词集合的组合对应的相关问题,选取检索结果中一个最相关的问题(“光驱噪声好大,坏了吗”、“电脑风扇坏了,应该怎么办”、“声卡坏了,怎么办呢”)。相关问题返回单元47选取相关问题检索结果中的前面N条最相关的相关问题(“光驱噪声好大,坏了吗”、“电脑风扇坏了,应该怎么办”、“声卡坏了,怎么办呢”)返回给用户。综上所述,采用本发明实施例提供的相关问题检索系统,当用户输入的问题为“我的显卡坏了,怎么办”时,其相关问题检索的结果为“声卡坏了,怎么办呢”、“光驱噪声好大,坏了吗”、“电脑风扇坏了,应该怎么办”等相关问题。
综上所述,通过本发明实施例提供的相关问题检索系统采用本发明实施例提供的相关问题检索方法进行相关问题检索时,由于在检索过程中,采用中心词的相关词集合的组合进行相关问题检索,真正实现了知识搜索中的相关问题检索,使检索结果更准确、更快速,同时返回给用户的相关问题更接近用户对相关问题检索的需求。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1、一种相关问题检索方法,其特征在于,所述方法包括下述步骤:
选取用户输入问题中的一个或多个中心词,并从相关词库中查找每个所述中心词的相关词集合;
对所述相关词集合进行组合,并根据所述相关词集合的组合从问题库中检索与所述相关词集合的组合对应的相关问题;
将所述相关问题返回给用户。
2、如权利要求1所述的相关问题检索方法,其特征在于,所述相关词库的建立包括下述步骤:
选取问题库中的每个问题的一个或多个中心词;
查找出与所述中心词相关的关联词集合建立相关词库。
3、如权利要求2所述的相关问题检索方法,其特征在于,所述相关词库的建立进一步包括下述步骤:
对所述关联词集合进行编辑和审核,选取真正相关的关联词集合;
将包含相同词的多个关联词集合合并为一个关联词集合。
4、一种相关问题检索系统,其特征在于,所述系统包括:
相关词库,用于存储相关词;
问题库,用于存储问题;
中心词选取单元,用于选取用户输入问题中的一个或多个中心词;
相关词查找单元,用于从所述相关词库中查找所述中心词的相关词集合,并将查找的相关词集合与中心词形成相关词集合;
相关词组合单元,用于将所述相关词集合进行组合;
相关问题检索单元,用于根据所述相关词集合的组合在所述问题库中检索与所述相关词集合的组合对应的相关问题;以及
相关问题返回单元,用于将所述相关问题返回给用户。
5、如权利要求4所述的相关问题检索系统,其特征在于,所述系统进一步包括:
相关词库创建单元,用于选取所述问题库中的每个问题的一个或多个中心词,查找与所述中心词相关的关联词集合建立相关词库。
6、如权利要求5所述的相关问题检索系统,其特征在于,相关词库创建单元包括:
关联词获取单元,根据所述中心词选取单元选取的中心词,采用关联数据挖掘的方式获取该中心词的关联词集合;
关联词编辑单元,用于对每个所述关联词集合进行编辑、审核,删除关联词集合中不相关的关联词;以及
关联词合并单元,用于将包含相同词的多个关联词集合合并为一个关联词集合。
CN 200710074264 2007-04-29 2007-04-29 一种相关问题检索方法及系统 Pending CN101071432A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200710074264 CN101071432A (zh) 2007-04-29 2007-04-29 一种相关问题检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200710074264 CN101071432A (zh) 2007-04-29 2007-04-29 一种相关问题检索方法及系统

Publications (1)

Publication Number Publication Date
CN101071432A true CN101071432A (zh) 2007-11-14

Family

ID=38898656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200710074264 Pending CN101071432A (zh) 2007-04-29 2007-04-29 一种相关问题检索方法及系统

Country Status (1)

Country Link
CN (1) CN101071432A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218436A (zh) * 2013-04-17 2013-07-24 中国科学院自动化研究所 一种融合用户类别标签的相似问题检索方法及装置
CN109446409A (zh) * 2018-09-19 2019-03-08 杭州安恒信息技术股份有限公司 一种疑似传销行为的目标对象的识别方法
CN101266620B (zh) * 2008-04-07 2021-04-16 北京大学 向用户提供目标信息的方法及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101266620B (zh) * 2008-04-07 2021-04-16 北京大学 向用户提供目标信息的方法及设备
CN103218436A (zh) * 2013-04-17 2013-07-24 中国科学院自动化研究所 一种融合用户类别标签的相似问题检索方法及装置
CN103218436B (zh) * 2013-04-17 2016-05-18 中国科学院自动化研究所 一种融合用户类别标签的相似问题检索方法及装置
CN109446409A (zh) * 2018-09-19 2019-03-08 杭州安恒信息技术股份有限公司 一种疑似传销行为的目标对象的识别方法

Similar Documents

Publication Publication Date Title
US9361385B2 (en) Generating content for topics based on user demand
CN102096717B (zh) 搜索方法及搜索引擎
US8244750B2 (en) Related search queries for a webpage and their applications
CN102088419B (zh) 一种在社交网络中查找好友信息的方法和系统
CN101079064B (zh) 一种网页排序方法及装置
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析系统
CN103870461B (zh) 主题推荐方法、装置和服务器
CN102314443B (zh) 搜索引擎的修正方法和系统
US20110078140A1 (en) Method and system for user guided search navigation
CN102725759A (zh) 用于搜索结果的语义目录
CN102722499B (zh) 搜索引擎及其实现方法
CN103020212A (zh) 一种基于用户查询日志实时发现热点视频的方法和装置
Tseng et al. Tomographic clustering to visualize blog communities as mountain views
CN102737021B (zh) 搜索引擎及其实现方法
CN102722498A (zh) 搜索引擎及其实现方法
CN101395605A (zh) 比较性web搜索
CN105183884A (zh) 一种基于大数据技术的搜索引擎系统及搜索引擎方法
CN102968417A (zh) 一种应用于计算机网络中的搜索方法和系统
US20160085870A1 (en) Personalized deeplinks for search results
CN101241506A (zh) 一种多维检索方法和装置以及系统
CN103324631A (zh) 提供数据搜索的方法及装置
CN105095175A (zh) 获取截短的网页标题的方法及装置
CN100477593C (zh) 网络社区中相关讨论区的选取方法及选取装置
CN102231152A (zh) 基于移动终端ip地址进行精确查询的搜索方法
JP5221664B2 (ja) 情報マップ管理システムおよび情報マップ管理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20071114