CN102737022A - 获取和搜索相关知识信息的方法及装置 - Google Patents
获取和搜索相关知识信息的方法及装置 Download PDFInfo
- Publication number
- CN102737022A CN102737022A CN2011100812744A CN201110081274A CN102737022A CN 102737022 A CN102737022 A CN 102737022A CN 2011100812744 A CN2011100812744 A CN 2011100812744A CN 201110081274 A CN201110081274 A CN 201110081274A CN 102737022 A CN102737022 A CN 102737022A
- Authority
- CN
- China
- Prior art keywords
- query
- focus
- word
- enquirement
- demand
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3349—Reuse of stored results of previous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9574—Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种获取和搜索相关知识信息的方法及装置,其中方法包括:分析搜索日志,挖掘出具有疑问需求的热点搜索请求(query);利用挖掘出的query形成提问并发布在知识问答平台的页面上;通过所述知识问答平台的页面获取所述提问的相关知识信息。当接收到用户输入的query后,搜索与该query的关键词相匹配的页面,如果搜索到所述知识问答平台上与该query的关键词相匹配的页面,则将所述知识问答平台上与该query的关键词相匹配的页面包含在该query的搜索结果中返回给用户。通过本发明能够快速且准确地向用户提供相关知识信息,而不必用户登陆知识问答平台发布提问,且等待提问被解答才能获取相关知识信息。
Description
【技术领域】
本发明涉及互联网通信技术领域,特别涉及一种获取和搜索相关知识信息的方法及装置。
【背景技术】
随着互联网技术的迅速发展,通过互联网获取信息以及进行相互通讯已经成为人们每天生活的一部分。知识问答系统就是一种利用通讯功能实现信息获取的系统,用户可以通过网页在知识问答系统提交各种问题,查询所提交问题的状态,根据问题回答的状况决定采用哪个答案。其他用户可以通过访问该网页查看问题,并根据自己的喜好和知识进行回答。
然而,用户在知识问答系统上提问后,需要等待其他用户对该问题进行回答才能获取到需要的知识信息,这就会造成用户存在急需解答的紧迫性问题时,无法快速且准确地提供相关知识信息。
【发明内容】
本发明提供了一种获取和搜索相关知识信息的方法及装置,以便于快速且准确地提供相关知识信息。
具体技术方案如下:
一种获取相关知识信息的方法,其特征在于,该方法包括:
A、分析搜索日志,挖掘出具有疑问需求的热点搜索请求query;
B、利用步骤A挖掘出的query形成提问并发布在知识问答平台的页面上;
C、通过所述知识问答平台的页面获取所述提问的相关知识信息。
其中,所述步骤A具体包括:
在所述搜索日志中识别出具有疑问需求的query,在具有疑问需求的query中确定热点query;或者,
在所述搜索日志中确定热点query,在确定出的热点query中识别出具有疑问需求的query;或者,
在所述搜索日志中识别出具有疑问需求的query,并且在所述搜索日志中确定热点query,将识别出的具有疑问需求的query和确定的热点query取交集。
另外,所述识别出具有疑问需求的query具体包括:
将query进行基于语义的分词处理;
将分词处理后得到的各词语分别在疑问属性数据库中进行匹配,确定各词语的疑问倾向分值;
将所述各词语的疑问倾向分值相加后,得到query的疑问倾向分值;
判断所述query的疑问倾向分值是否超过预设的疑问需求阈值,如果是,则确定该query具有疑问需求;否则确定该query没有疑问需求;
其中,所述疑问属性数据库中存储经过数据挖掘方式或者人工配置方式得到的各词语以及各词语对应的疑问倾向分值。
所述词语对应的疑问倾向分值由以下因素决定:
词语是否为疑问词,或者,词语与疑问词之间的关联关系。
具体地,所述确定热点query可以包括:
对query进行基于相关性的聚类得到各query组;
将每一个query组中各query的搜索频次进行相加,确定每一个query组的搜索频次;
将搜索频次超过预设的热点频次的query组确定为热点query组;
从所述热点query组中选择一个query作为热点query。
步骤B中所述利用步骤A挖掘出的query形成提问具体包括:
将挖掘出的query进行基于语义的分词处理后的词语,打上词性标签;
按照打上的词性标签,将所述分词处理后的词语与预先设置的提问句子语法进行比较,针对分词处理后的词语添加缺少的词语,组装成满足所述提问句子语法的提问。
其中,将所述提问发布在知识问答平台的页面上具体包括:
从预先设置的模拟提问ID集合中选择一个ID,利用该ID模拟用户将所述提问发布在知识问答平台的页面上;所述模拟提问ID集合中的ID被所述知识问答平台默认为注册用户的ID。
较优地,所述步骤C具体包括:
从所述知识问答平台的页面上获取回答用户针对所述提问回答的相关知识信息,并从所述相关知识信息中确定出优质答案。
具体地,所述优质答案由管理员参与确定;或者,
由所述知识问答平台根据回答所述提问的用户等级、回答所述提问的用户的问题采纳率、相关知识信息的长度中的一种或组合确定。
更进一步地,该方法还包括:
如果所述提问在所述知识问答平台的页面上的发布时长达到预设的关闭时长时,尚未出现所述提问的任何相关知识信息,或者尚未出现所述提问的优质答案,则关闭所述知识问答平台上所述提问所在的页面。
一种搜索相关知识信息的方法,该方法基于上述获取相关知识信息的方法,所述搜索相关知识信息的方法包括:
接收用户输入的query;
搜索与所述query的关键词相匹配的页面;其中如果搜索到所述知识问答平台上与所述query的关键词相匹配的页面,则将所述知识问答平台上与所述query的关键词相匹配的页面包含在所述query的搜索结果中返回给用户。
一种获取相关知识信息的装置,该装置包括:搜索请求query挖掘单元、提问形成单元、提问发布单元和知识获取单元;
所述query挖掘单元,用于分析搜索日志,挖掘出具有疑问需求的热点query;
所述提问形成单元,用于利用所述query挖掘单元挖掘出的query形成提问;
所述提问发布单元,用于将所述提问发布在知识问答平台的页面上;
所述知识获取单元,用于通过所述知识问答平台的页面获取所述提问的相关知识信息。
其中,所述query挖掘单元具体包括:需求识别子单元和热点确定子单元;
所述需求识别子单元,用于从输入的query中识别出并输出具有疑问需求的query;
所述热点确定子单元,用于从输入的query中确定并输出热点query;
其中,所述需求识别子单元的输入为搜索日志中的query,所述热点确定子单元的输入为所述需求识别子单元的输出,所述热点确定子单元的输出为所述具有疑问需求的热点query;
或者,热点确定子单元的输入为搜索日志的query,所述需求识别子单元的输入为所述热点确定子单元的输出,所述需求识别子单元的输出为所述具有疑问需求的热点query;或者,
所述需求识别子单元的输入为搜索日志中的query,所述热点确定子单元的输入也为搜索日志中的query,此时该装置还包括:交集处理子单元,用于将所述热点确定子单元和所述需求识别子单元取交集,输出具有疑问需求的热点query。
所述需求识别子单元具体包括:分词处理模块、词语打分模块、query打分模块和需求判断模块;
所述分词处理模块,用于将输入的query进行基于语义的分词处理;
所述词语打分模块,用于将分词处理后得到的各词语分别在疑问属性数据库中进行匹配,确定各词语的疑问倾向分值;
所述query打分模块,用于将所述各词语的疑问倾向分值相加后,得到所述输入的query的疑问倾向分值;
所述需求判断模块,用于判断所述输入的query的疑问倾向分值是否超过预设的疑问需求阈值,如果是,则确定所述输入的query具有疑问需求;否则确定所述输入的query没有疑问需求;
其中,所述疑问属性数据库中存储经过数据挖掘方式或者人工配置方式得到的各词语以及各词语对应的疑问倾向分值。
具体地,所述词语对应的疑问倾向分值由以下因素决定:
词语是否为疑问词,或者,词语与疑问词之间的关联关系。
另外,所述热点确定子单元具体包括:聚类处理模块、频次统计模块、热点组确定模块和热点query确定模块;
所述聚类处理模块,用于对query进行基于相关性的聚类得到各query组;
所述频次统计模块,用于将每一个query组中各query的搜索频次进行相加,确定每一个query组的搜索频次;
所述热点组确定模块,用于将搜索频次超过预设的热点频次的query组确定为热点query组;
所述热点query确定模块,用于从每一个热点query组中选择一个query作为热点query。
具体地,所述提问形成单元可以包括:词性标识子单元和句子组装子单元;
所述词性标识子单元,用于将所述query挖掘单元挖掘出的query进行基于语义的分词处理后的词语,打上词性标签;
所述句子组装子单元,用于按照打上的词性标签,将所述分词处理后的词语与预先设置的提问句子语法进行比较,针对所述分词处理后的词语添加缺少的词语,组装成满足所述提问句子语法的提问。
所述提问发布单元具体从预先设置的模拟提问ID集合中选择一个ID,利用选择的ID模拟用户将所述提问形成单元形成的提问发布在知识问答平台的页面上;
所述模拟提问ID集合中的ID被所述知识问答平台默认为注册用户的ID。
所述知识获取单元具体从所述知识问答平台的页面上获取回答用户针对所述提问回答的相关知识信息,并从所述相关知识信息中确定出优质答案。
其中,所述优质答案由管理员参与确定;或者,
由所述知识问答平台根据回答所述提问的用户等级、回答所述提问的用户的问题采纳率、相关知识信息的长度中的一种或组合确定。
更进一步地,该装置还包括:
页面维护单元,用于在所述提问在所述知识问答平台的页面上的发布时长达到预设的关闭时长时,如果尚未出现所述提问的任何相关知识信息,或者尚未出现所述提问的优质答案,则关闭所述知识问答平台上所述提问所在的页面。
一种搜索相关知识信息的装置,该装置包括:上述获取相关知识信息的装置、用户交互单元和页面搜索单元;
所述用户交互单元,用于接收用户输入的query;
所述页面搜索单元,用于搜索与所述query的关键词相匹配的页面,如果从上述获取相关知识信息的装置在所述知识问答平台上发布提问所在的页面中,搜索到与所述query的关键词相匹配的页面,则将搜索到的页面包含在所述query的搜索结果中返回给用户。
由以上技术方案可以看出,本发明通过分析搜索日志挖掘出具有疑问需求的热点query,利用挖掘出的query形成提问并发布在知识问答平台的页面上,从而使得用户存在相关提问时,搜索引擎能够将知识问答平台上该提问所在的页面返回给用户,从而使得用户能够从该页面获取提问的相关知识信息。也就是说,通过本发明能够通过搜索引擎快速且准确地向提供知识问答平台上已有的相关知识信息,用户不必登陆知识问答平台发布提问,且等待该提问被解答才能获取相关知识信息。
【附图说明】
图1为本发明实施例一提供的获取相关知识信息的方法流程图;
图2为本发明实施例二提供的确定热点query的方法流程图;
图3为本发明实施例三提供的搜索相关知识信息的方法流程图;
图4为本发明实施例四提供的获取相关知识信息的装置结构图;
图5中的(a)、(b)和(c)为本发明实施例四提供的query挖掘单元的三种结构图;
图6为本发明实施例四提供的需求识别子单元的结构图;
图7为本发明实施例四提供的热点确定子单元的结构图;以及,
图8为本发明实施例五提供的搜索相关知识信息的装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、
图1为本发明实施例一提供的获取相关知识信息的方法流程图,如图1所示,该方法可以包括以下步骤:
步骤101:分析搜索日志,挖掘出具有疑问需求的热点query。
可以对搜索日志进行周期性地分析,抓取当前周期内的搜索日志;然后利用抓取到的当前周期内的搜索日志挖掘具有疑问需求的热点query。其中,对搜索日志进行分析的周期可以灵活设置,例如,以天为周期,从当天的搜索日志中挖掘出具有疑问需求的热点query。
本步骤实际上分为两部分:一部分是识别出搜索日志中的query是否具有疑问需求;另一部分是确定热点query。这两部分的操作可以以任意的先后顺序执行,也可以并行同步执行,最终挖掘出具有疑问需求的热点query。即可以先识别出搜索日志中具有疑问需求的query,然后在具有疑问需求的query中确定热点query;也可以先确定出热点query,然后在热点query中识别出具有疑问需求的query;也可以分别同步确定出具有疑问需求的query和热点query,然后取两者的交集。
对query是否具有疑问需求进行识别的过程可以包括:将query进行基于语义的分词处理,将分词处理后得到的各词语分别在疑问属性数据库中进行匹配,确定各词语的疑问倾向分值;将各词语的疑问倾向分值相加后得到query的疑问倾向分值;如果query的疑问倾向分值超过预设的疑问需求阈值,则确定该query具有疑问需求;否则确定该query没有疑问需求。
其中,上述疑问属性数据库中存储有经过数据挖掘方式或者人工配置方式得到的各词语及其对应的疑问倾向分值。
疑问属性数据库中各词语对应的疑问倾向分值可以由但不限于以下因素决定:该词语是否为疑问词,该词语与疑问词之间的关联关系。例如,对于“哪些”、“什么”、“怎么”、“如何”、“为何”等疑问词,可以设定最高的疑问倾向分值;对于经常作为疑问词上下文的词语,例如“做法”、“方法”、“方式”等可以认为与疑问词具备较强的关联关系,可以设定较高的疑问倾向分值;对于其他与疑问词关联较小的词语,可以设定较小的疑问倾向分值。
举一个例子,对于用户输入的“鱼香肉丝做法”的query,对其进行基于语义的分词处理后,得到“鱼香肉丝”和“做法”两个词语,将这两个词语在疑问属性数据库中进行匹配后,确定“鱼香肉丝”在疑问属性数据库中不存在匹配的词语,认为其疑问倾向分值为0,“做法”在疑问属性数据库中进行匹配后,确定其疑问倾向分值为70。将两者的疑问倾向分值相加后,确定query的疑问倾向分值为70,如果设定的疑问需求阈值为60分,则可以认为该query具有疑问需求。
确定热点query的过程将在实施例二中进行具体描述。
最终挖掘到的具有疑问需求的热点query可以在数据库中存储为一个文件。
步骤102:利用挖掘出的query形成提问并发布在知识问答平台的页面上。
本步骤中可以对挖掘出的query分别进行基于语义的分析和拼装,形成提问。
具体包括以下过程:
首先,将挖掘出的query进行基于语义的分词处理后的词语,打上词性标签。
然后,将这些词语与预先设置的提问句子语法进行比较,添加缺少的词语,从而形成满足提问句子语法的提问。
其中,提问句子语法可以灵活设置,只要满足常用的提问句法的要求即可。例如,设定提问的句子语法为:[形容词/名词+虚词]+名词+动词+疑问助词+疑问符号,其中[]表示可选项。如果某个query经过分词处理后得到的词语为名词和动词,则可以补上合适的疑问助词和疑问符号,最终拼装提问。
仍以“鱼香肉丝做法”为例,对其进行分词处理后,将“鱼香肉丝”打上名词的标签,将“做法”打上名词的标签,然后,将其与预先定义的提问句子语法进行比较,添加上缺少的虚词、疑问助词和符号,形成的提问可以为“鱼香肉丝的做法是怎样的?”。
再例如,如果设定提问的句子语法为:名词+动词+疑问助词+名词+疑问符号,则上述“鱼香肉丝做法”的query最终形成的提问可以是“鱼香肉丝具有哪些做法?”。
另外,由于某些现有的知识问答平台必须其注册用户才能够进行提问,知识问答平台通过ID对注册用户进行管理,为了适应于这种情况,可以提前预置模拟提问ID集合,该模拟提问ID集合中的ID都被知识问答平台默认为注册用户的ID,在将采用本发明实施例中方法形成的提问发布在知识问答平台的页面上时,可以从预置的模拟提问ID集合中选取未使用的ID进行发布,以模拟知识问答平台上的注册用户进行提问。
本发明中所涉及的提问并不限于普通的问题,也可以适用于其他形式的提问,例如:可以是询求某个文档的提问,此时该提问的相关知识信息可以是其他用户上传的文档。
步骤103:通过知识问答平台上的页面获取该提问的相关知识信息。
当提问在知识问答平台上发布后,由知识问答平台上的注册用户在提问的页面上进行回答来提供相关知识信息。
较优地,可以在页面上回答的相关知识信息中确定出优质答案,其中优质答案可以由知识问答平台的管理员参与确定,也可以由知识问答平台根据预设的优质答案选取策略自动确定。其中,优质答案选取策略可以由以下因素中的一种或任意组合决定:回答该提问的用户等级、用户所回答问题的采纳率、相关知识信息的长度等。
另外,提问在知识问答平台的页面发布后,如果发布时长达到预设的关闭时长尚未出现该提问的任何相关信息,或者尚未出现该提问的优质答案,则可以在知识问答平台上关闭该提问所在的页面。
至此实施例一所述的流程结束,下面结合实施例二对确定热点query的过程进行描述。
实施例二、
图2为本发明实施例二提供的确定热点query的流程图,如图2所示,该流程可以包括以下步骤:
步骤201:对query进行基于相关性的聚类得到各query组。
如果在搜索日志中识别具有疑问需求的query与确定热点query并行执行,或者,先确定热点query再从热点query中识别具有疑问需求的query,则本步骤的聚类对象为:抓取到的搜索日志中的query。
如果在搜索日志中先识别具有疑问需求的query,再在具有热点需求的query中确定热点query,则本步骤的聚类对象为:在搜索日志中识别出的具有疑问需求的query。
在进行聚类后,每一个query组中包含的各query具有较高的相关性,例如,对于“世界博览会”、“世博会”、“世博”这些query之间的相关性很高,满足聚类要求,则将这些query聚类为一个query中。
针对每一个query执行以下步骤202至步骤203。
步骤202:将query组中各query的搜索频次进行相加,确定整个query组的搜索频次。
根据搜索日志可以统计出各query的搜索频次,将每一个query组中各query的搜索频次相加,可以作为整个query组的搜索频次,反映出整个query组的热度。
步骤203:判断query组的搜索频次超过预设的热点频次,如果是,则执行步骤204;否则,确定该query组不是热点query组。
例如,对于“世界博览会”、“世博会”、“世博”构成的query组,假设“世界博览会”在设定时间内的搜索频次为1万次,“世博会”在设定时间内的搜索频次为2万次、“世博”在设定时间内的搜索频次为3万次,那么整个query组对应的设定时间内的搜索频次为6万次。如果预设的热点频次为5万次,则可以确定该query组是热点query组。
步骤204:确定该query组为热点query组,从该热点query组中选择一个query作为热点query。
从热点query组中选择一个热点query的策略可以包括但不限于以下策略:选择搜索频次最高的query,选择任意一个query,选择语义完整性最好的query等。
至此实施例二所示流程结束。下面结合实施例三对在图1所示方法的基础上,实现搜索相关知识信息的方法进行描述。
实施例三、
图3为本发明实施例三提供的搜索相关知识信息的方法流程图,如图3所示,搜索相关知识信息的方法可以包括以下步骤:
步骤301:接收用户输入的query。
步骤302:搜索与所述query的关键词相匹配的页面;其中如果搜索到所述知识问答平台上与所述query的关键词相匹配的页面,则将所述知识问答平台上与所述query的关键词相匹配的页面包含在所述query的搜索结果中返回给用户。
基于图1所示的流程,当搜索引擎接收到浏览器发送的用户输入的query后,在根据用户输入的query搜索页面时,由于后台已经预先按照图1所示的流程模拟用户提问并发布在知识问答平台的页面上,因此,搜索引擎从抓取到的页面中搜索与该query的关键词相匹配的页面时,能够匹配到知识问答平台上与该query的关键词相匹配的页面,该页面中已经包含相关的提问和针对该提问回答的相关知识信息。
也就是说,由于后台预先已经针对具有疑问需求的热点query进行了挖掘并形成提问在知识问答平台的页面上获取到了相关知识信息,因此,当用户通过在搜索引擎中输入query,搜索引擎就能够快速且准确地在搜索结果中反馈知识问答平台上已有的相关知识信息。
另外,还可以对知识问答平台的页面进行特殊处理,即允许搜索引擎抓取到知识问答平台上已经存在优质答案的页面,即如果在知识问答平台上的提问页面上尚未存在优质答案,则反馈给用户的搜索结果中则不会包含该提问页面。
以上是对本发明所提供的方法进行的详细描述,下面通过实施例四对本发明所提供的获取相关知识信息的装置进行详细描述。
实施例四、
图4为本发明实施例四提供的获取相关知识信息的装置结构图,如图4所示,该装置可以包括:query挖掘单元400、提问形成单元410、提问发布单元420和知识获取单元430。
query挖掘单元400,用于分析搜索日志,挖掘出具有疑问需求的热点query。
query挖掘单元400分析的搜索日志可以是周期性抓取到的搜索日志。
提问形成单元410,用于利用query挖掘单元400挖掘出的热点query形成提问。
提问发布单元420,用于将提问发布在知识问答平台的页面上。
知识获取单元430,用于通过知识问答平台的页面获取提问的相关知识信息。
其中,提问发布单元420和知识获取单元430可以是独立于知识问答平台的单元,也可以是设置在知识问答平台中的单元。
其中,query挖掘单元400的结构可以如图5所示,具体包括:需求识别子单元401和热点确定子单元402。
需求识别子单元401,用于从输入的query中识别出并输出具有疑问需求的query。
热点确定子单元402,用于从输入的query中确定并输出热点query。
其中,需求识别子单元401的输入可以为抓取到的搜索日志中的query,热点确定子单元402的输入为需求识别子单元401的输出,此时,热点确定子单元402的输出就是具有疑问需求的热点query。这种情况下需求识别子单元401和热点确定子单元402的连接关系如图5中的(a)所示。
或者,热点确定子单元402的输入为搜索日志的query,需求识别子单元401的输入为热点确定子单元402的输出,此时,需求识别子单元401的输出就是具有疑问需求的热点query。这种情况下需求识别子单元401和热点确定子单元402的连接关系如图5中的(b)所示。
再或者,需求识别子单元401的输入为抓取到的搜索日志中的query,热点确定子单元402的输入也为抓取到的搜索日志中的query,这种情况下需求识别子单元401和热点确定子单元402的连接关系如图5中的(c)所示,此时该装置还可以包括,将热点确定子单元402和需求识别子单元401取交集的子单元,即图5中(c)所示的交集处理子单元403,其输出就是具有疑问需求的热点query。
其中,需求识别子单元401的结构可以如图6所示,具体包括:分词处理模块601、词语打分模块602、query打分模块603和需求判断模块604。
分词处理模块601,用于将输入的query进行基于语义的分词处理。
词语打分模块602,用于将分词处理后的各词语分别在疑问属性数据库中进行匹配,确定各词语的疑问倾向分值。其中,疑问属性数据库中存储经过数据挖掘方式或者人工配置方式得到的各词语以及各词语对应的疑问倾向分值。
query打分模块603,用于将各词语的疑问倾向分值相加后,得到输入的query的疑问倾向分值。
需求判断模块,604用于判断输入的query的疑问倾向分值是否超过预设的疑问需求阈值,如果是,则确定输入的query具有疑问需求;否则确定输入的query没有疑问需求。
上述的词语对应的疑问倾向分值可以由但不限于以下因素决定:词语是否为疑问词,或者,词语与疑问词之间的关联关系。
另外,热点确定子单元402的结构可以如图7所示,具体包括:聚类处理模块701、频次统计模块702、热点组确定模块703和热点query确定模块704。
聚类处理模块701,用于对query进行基于相关性的聚类得到各query组。
频次统计模块702,用于将每一个query组中各query的搜索频次进行相加,确定每一个query组的搜索频次。
每一个query组的搜索频次,实际上体现了该query组的搜索热度,因此,热点组确定模块703,用于将搜索频次超过预设的热点频次的query组确定为热点query组。
热点query确定模块704,用于从每一个热点query组中选择一个query作为热点query。其中,从热点query组中选择热点query的策略可以包括但不限于:选择搜索频次最高的query,选择任意一个query,或者选择语义完整性最好的query等。
如图4所示,提问形成单元410可以具体包括:词性标识子单元411和句子组装子单元412。
词性标识子单元411,用于将query挖掘单元400挖掘出的热点query进行基于语义的分词处理后的词语,打上词性标签。
在此,词性标识子单元411可以本身具备分词处理的功能,即词性标识子单元411对query挖掘单元400挖掘出的热点query首先进行基于语义的分词处理,然后将分词处理后得到的词语打上词性标签。或者,词性标识子单元411可以不具备分词处理的功能,直接利用需求识别子单元401中分词处理模块601对该热点query的分词处理结果,将分词处理后得到的词语打上词性标签。
句子组装子单元412,用于按照打上的词性标签,将分词处理后得到的词语与预先设置的提问句子语法进行比较,针对分词处理后的词语添加缺少的词语,组装成满足提问句子语法的提问。
由于某些现有的知识问答平台必须其注册用户才能够进行提问,知识问答平台通过ID对注册用户进行管理,为了适应于这种情况,可以预先设置模拟提问ID集合,模拟提问ID集合中的ID被知识问答平台默认为注册用户的ID。此时的提问发布单元420可以从预先设置的模拟提问ID集合中选择一个ID,利用选择的ID模拟用户将提问形成单元410形成的提问发布在知识问答平台的页面上。
较优地,知识获取单元430可以从知识问答平台的页面上获取回答用户针对提问回答的相关知识信息,并进一步从相关知识信息中确定出优质答案。其中,优质答案可以由管理员参与确定,也可以由知识问答平台根据回答提问的用户等级、回答提问的用户的问题采纳率、相关知识信息的长度中的一种或组合确定。
另外,为了保证某些提问长时间没有被回答或者长时间没有出现优质答案而成为无效页面,该装置还包括:页面维护单元440,用于在提问在知识问答平台的页面上的发布时长达到预设的关闭时长时,如果尚未出现提问的任何相关知识信息,或者尚未出现提问的优质答案,则关闭知识问答平台上提问所在的页面。
实施例五、
图8为本发明实施例五提供的搜索相关知识信息的装置结构图,该装置包括:图4所示的装置、用户交互单元801和页面搜索单元802。
用户交互单元801,用于接收用户输入的query。
页面搜索单元802,用于搜索与query的关键词相匹配的页面,如果图4所示的装置在知识问答平台上发布提问所在的页面中,搜索到与query的关键词相匹配的页面,则将搜索到的页面包含在query的搜索结果中返回给用户。
也就是说,搜索引擎抓取的页面中也包含知识问答平台上提问所在的页面。
另外,还可以对知识问答平台的页面进行特殊处理,即允许页面搜索单元802搜索到知识问答平台上已经存在优质答案的页面,如果在知识问答平台上的提问页面尚未存在优质答案,则返回给用户的搜索结果中则不会包含该提问页面,即设置搜索引擎抓取不到知识问答平台上针对提问尚未出现优质答案的页面。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (22)
1.一种获取相关知识信息的方法,其特征在于,该方法包括:
A、分析搜索日志,挖掘出具有疑问需求的热点搜索请求query;
B、利用步骤A挖掘出的query形成提问并发布在知识问答平台的页面上;
C、通过所述知识问答平台的页面获取所述提问的相关知识信息。
2.根据权利要求1所述的方法,其特征在于,所述步骤A具体包括:
在所述搜索日志中识别出具有疑问需求的query,在具有疑问需求的query中确定热点query;或者,
在所述搜索日志中确定热点query,在确定出的热点query中识别出具有疑问需求的query;或者,
在所述搜索日志中识别出具有疑问需求的query,并且在所述搜索日志中确定热点query,将识别出的具有疑问需求的query和确定的热点query取交集。
3.根据权利要求1或2所述的方法,其特征在于,所述识别出具有疑问需求的query具体包括:
将query进行基于语义的分词处理;
将分词处理后得到的各词语分别在疑问属性数据库中进行匹配,确定各词语的疑问倾向分值;
将所述各词语的疑问倾向分值相加后,得到query的疑问倾向分值;
判断所述query的疑问倾向分值是否超过预设的疑问需求阈值,如果是,则确定该query具有疑问需求;否则确定该query没有疑问需求;
其中,所述疑问属性数据库中存储经过数据挖掘方式或者人工配置方式得到的各词语以及各词语对应的疑问倾向分值。
4.根据权利要求3所述的方法,其特征在于,所述词语对应的疑问倾向分值由以下因素决定:
词语是否为疑问词,或者,词语与疑问词之间的关联关系。
5.根据权利要求2所述的方法,其特征在于,所述确定热点query具体包括:
对query进行基于相关性的聚类得到各query组;
将每一个query组中各query的搜索频次进行相加,确定每一个query组的搜索频次;
将搜索频次超过预设的热点频次的query组确定为热点query组;
从所述热点query组中选择一个query作为热点query。
6.根据权利要求1所述的方法,其特征在于,步骤B中所述利用步骤A挖掘出的query形成提问具体包括:
将挖掘出的query进行基于语义的分词处理后的词语,打上词性标签;
按照打上的词性标签,将所述分词处理后的词语与预先设置的提问句子语法进行比较,针对分词处理后的词语添加缺少的词语,组装成满足所述提问句子语法的提问。
7.根据权利要求1所述的方法,其特征在于,将所述提问发布在知识问答平台的页面上具体包括:
从预先设置的模拟提问ID集合中选择一个ID,利用该ID模拟用户将所述提问发布在知识问答平台的页面上;所述模拟提问ID集合中的ID被所述知识问答平台默认为注册用户的ID。
8.根据权利要求1所述的方法,其特征在于,所述步骤C具体包括:
从所述知识问答平台的页面上获取回答用户针对所述提问回答的相关知识信息,并从所述相关知识信息中确定出优质答案。
9.根据权利要求8所述的方法,其特征在于,所述优质答案由管理员参与确定;或者,
由所述知识问答平台根据回答所述提问的用户等级、回答所述提问的用户的问题采纳率、相关知识信息的长度中的一种或组合确定。
10.根据权利要求8所述的方法,其特征在于,该方法还包括:
如果所述提问在所述知识问答平台的页面上的发布时长达到预设的关闭时长时,尚未出现所述提问的任何相关知识信息,或者尚未出现所述提问的优质答案,则关闭所述知识问答平台上所述提问所在的页面。
11.一种搜索相关知识信息的方法,其特征在于,该方法基于权利要求1所述的获取相关知识信息的方法,所述搜索相关知识信息的方法包括:
接收用户输入的query;
搜索与所述query的关键词相匹配的页面;其中如果搜索到所述知识问答平台上与所述query的关键词相匹配的页面,则将所述知识问答平台上与所述query的关键词相匹配的页面包含在所述query的搜索结果中返回给用户。
12.一种获取相关知识信息的装置,其特征在于,该装置包括:搜索请求query挖掘单元、提问形成单元、提问发布单元和知识获取单元;
所述query挖掘单元,用于分析搜索日志,挖掘出具有疑问需求的热点query;
所述提问形成单元,用于利用所述query挖掘单元挖掘出的热点query形成提问;
所述提问发布单元,用于将所述提问发布在知识问答平台的页面上;
所述知识获取单元,用于通过所述知识问答平台的页面获取所述提问的相关知识信息。
13.根据权利要求12所述的装置,其特征在于,所述query挖掘单元具体包括:需求识别子单元和热点确定子单元;
所述需求识别子单元,用于从输入的query中识别出并输出具有疑问需求的query;
所述热点确定子单元,用于从输入的query中确定并输出热点query;
其中,所述需求识别子单元的输入为搜索日志中的query,所述热点确定子单元的输入为所述需求识别子单元的输出,所述热点确定子单元的输出为所述具有疑问需求的热点query;
或者,热点确定子单元的输入为搜索日志的query,所述需求识别子单元的输入为所述热点确定子单元的输出,所述需求识别子单元的输出为所述具有疑问需求的热点query;或者,
所述需求识别子单元的输入为搜索日志中的query,所述热点确定子单元的输入也为搜索日志中的query,此时该装置还包括:交集处理子单元,用于将所述热点确定子单元和所述需求识别子单元取交集,输出具有疑问需求的热点query。
14.根据权利要求13所述的装置,其特征在于,所述需求识别子单元具体包括:分词处理模块、词语打分模块、query打分模块和需求判断模块;
所述分词处理模块,用于将输入的query进行基于语义的分词处理;
所述词语打分模块,用于将分词处理后得到的各词语分别在疑问属性数据库中进行匹配,确定各词语的疑问倾向分值;
所述query打分模块,用于将所述各词语的疑问倾向分值相加后,得到所述输入的query的疑问倾向分值;
所述需求判断模块,用于判断所述输入的query的疑问倾向分值是否超过预设的疑问需求阈值,如果是,则确定所述输入的query具有疑问需求;否则确定所述输入的query没有疑问需求;
其中,所述疑问属性数据库中存储经过数据挖掘方式或者人工配置方式得到的各词语以及各词语对应的疑问倾向分值。
15.根据权利要求14所述的装置,其特征在于,所述词语对应的疑问倾向分值由以下因素决定:
词语是否为疑问词,或者,词语与疑问词之间的关联关系。
16.根据权利要求13所述的装置,其特征在于,所述热点确定子单元具体包括:聚类处理模块、频次统计模块、热点组确定模块和热点query确定模块;
所述聚类处理模块,用于对query进行基于相关性的聚类得到各query组;
所述频次统计模块,用于将每一个query组中各query的搜索频次进行相加,确定每一个query组的搜索频次;
所述热点组确定模块,用于将搜索频次超过预设的热点频次的query组确定为热点query组;
所述热点query确定模块,用于从每一个热点query组中选择一个query作为热点query。
17.根据权利要求12所述的装置,其特征在于,所述提问形成单元具体包括:词性标识子单元和句子组装子单元;
所述词性标识子单元,用于将所述query挖掘单元挖掘出的query进行基于语义的分词处理后的词语,打上词性标签;
所述句子组装子单元,用于按照打上的词性标签,将所述分词处理后的词语与预先设置的提问句子语法进行比较,针对所述分词处理后的词语添加缺少的词语,组装成满足所述提问句子语法的提问。
18.根据权利要求12所述的装置,其特征在于,所述提问发布单元具体从预先设置的模拟提问ID集合中选择一个ID,利用选择的ID模拟用户将所述提问形成单元形成的提问发布在知识问答平台的页面上;
所述模拟提问ID集合中的ID被所述知识问答平台默认为注册用户的ID。
19.根据权利要求12所述的装置,其特征在于,所述知识获取单元具体从所述知识问答平台的页面上获取回答用户针对所述提问回答的相关知识信息,并从所述相关知识信息中确定出优质答案。
20.根据权利要求19所述的装置,其特征在于,所述优质答案由管理员参与确定;或者,
由所述知识问答平台根据回答所述提问的用户等级、回答所述提问的用户的问题采纳率、相关知识信息的长度中的一种或组合确定。
21.根据权利要求19所述的装置,其特征在于,该装置还包括:
页面维护单元,用于在所述提问在所述知识问答平台的页面上的发布时长达到预设的关闭时长时,如果尚未出现所述提问的任何相关知识信息,或者尚未出现所述提问的优质答案,则关闭所述知识问答平台上所述提问所在的页面。
22.一种搜索相关知识信息的装置,其特征在于,该装置包括:权利要求1所述的装置、用户交互单元和页面搜索单元;
所述用户交互单元,用于接收用户输入的query;
所述页面搜索单元,用于搜索与所述query的关键词相匹配的页面,如果从权利要求1所述的装置在所述知识问答平台上发布提问所在的页面中,搜索到与所述query的关键词相匹配的页面,则将搜索到的页面包含在所述query的搜索结果中返回给用户。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110081274.4A CN102737022B (zh) | 2011-03-31 | 2011-03-31 | 获取和搜索相关知识信息的方法及装置 |
JP2014501426A JP5780617B2 (ja) | 2011-03-31 | 2012-03-29 | 関連知識情報を獲得・検索する方法及び装置 |
PCT/CN2012/073234 WO2012130145A1 (zh) | 2011-03-31 | 2012-03-29 | 获取和搜索相关知识信息的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110081274.4A CN102737022B (zh) | 2011-03-31 | 2011-03-31 | 获取和搜索相关知识信息的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102737022A true CN102737022A (zh) | 2012-10-17 |
CN102737022B CN102737022B (zh) | 2015-01-07 |
Family
ID=46929469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110081274.4A Active CN102737022B (zh) | 2011-03-31 | 2011-03-31 | 获取和搜索相关知识信息的方法及装置 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP5780617B2 (zh) |
CN (1) | CN102737022B (zh) |
WO (1) | WO2012130145A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870457A (zh) * | 2012-12-07 | 2014-06-18 | 北京百度网讯科技有限公司 | 一种确定问答平台中的未回答问题优先级的方法及装置 |
WO2015063783A1 (en) * | 2013-10-31 | 2015-05-07 | Longsand Limited | Topic-wise collaboration integration |
CN105991399A (zh) * | 2015-02-05 | 2016-10-05 | 天脉聚源(北京)科技有限公司 | 一种实现网络提问的方法和系统 |
CN106547812A (zh) * | 2015-09-18 | 2017-03-29 | 环球娱乐株式会社 | 商业信息提供系统以及商业信息提供方法 |
CN107688641A (zh) * | 2017-08-28 | 2018-02-13 | 江西博瑞彤芸科技有限公司 | 一种提问管理方法及系统 |
CN109886733A (zh) * | 2019-01-25 | 2019-06-14 | 平安科技(深圳)有限公司 | 信息推荐方法、存储介质及计算机设备 |
CN117235242A (zh) * | 2023-11-15 | 2023-12-15 | 浙江力石科技股份有限公司 | 一种基于智能问答数据库的热点信息筛选方法及系统 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104899322B (zh) * | 2015-06-18 | 2021-09-17 | 百度在线网络技术(北京)有限公司 | 搜索引擎及其实现方法 |
CN112182193B (zh) * | 2020-10-19 | 2023-01-13 | 山东旗帜信息有限公司 | 一种交通行业中日志获取方法、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101093509A (zh) * | 2007-07-18 | 2007-12-26 | 中国科学院计算技术研究所 | 一种查询交互系统和方法 |
CN101261690A (zh) * | 2008-04-18 | 2008-09-10 | 北京百问百答网络技术有限公司 | 一种问题自动生成的系统及其方法 |
US20090012926A1 (en) * | 2006-03-01 | 2009-01-08 | Nec Corporation | Question answering device, question answering method, and question answering program |
CN101751454A (zh) * | 2009-12-12 | 2010-06-23 | 浙江大学 | 一种基于概率潜在语义分析的网络答案选择方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06301577A (ja) * | 1993-04-12 | 1994-10-28 | Fujitsu Ltd | データベース装置 |
JP3908634B2 (ja) * | 2002-09-11 | 2007-04-25 | 株式会社東芝 | 検索支援方法および検索支援装置 |
JP4512826B2 (ja) * | 2005-03-03 | 2010-07-28 | 国立大学法人 筑波大学 | 質問応答システム |
US20080104065A1 (en) * | 2006-10-26 | 2008-05-01 | Microsoft Corporation | Automatic generator and updater of faqs |
JP4860439B2 (ja) * | 2006-11-08 | 2012-01-25 | ヤフー株式会社 | 質問文の自動生成システム |
JP2010282403A (ja) * | 2009-06-04 | 2010-12-16 | Kansai Electric Power Co Inc:The | 文書検索方法 |
-
2011
- 2011-03-31 CN CN201110081274.4A patent/CN102737022B/zh active Active
-
2012
- 2012-03-29 WO PCT/CN2012/073234 patent/WO2012130145A1/zh active Application Filing
- 2012-03-29 JP JP2014501426A patent/JP5780617B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090012926A1 (en) * | 2006-03-01 | 2009-01-08 | Nec Corporation | Question answering device, question answering method, and question answering program |
CN101093509A (zh) * | 2007-07-18 | 2007-12-26 | 中国科学院计算技术研究所 | 一种查询交互系统和方法 |
CN101261690A (zh) * | 2008-04-18 | 2008-09-10 | 北京百问百答网络技术有限公司 | 一种问题自动生成的系统及其方法 |
CN101751454A (zh) * | 2009-12-12 | 2010-06-23 | 浙江大学 | 一种基于概率潜在语义分析的网络答案选择方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870457A (zh) * | 2012-12-07 | 2014-06-18 | 北京百度网讯科技有限公司 | 一种确定问答平台中的未回答问题优先级的方法及装置 |
WO2015063783A1 (en) * | 2013-10-31 | 2015-05-07 | Longsand Limited | Topic-wise collaboration integration |
CN105706079A (zh) * | 2013-10-31 | 2016-06-22 | 隆沙有限公司 | 主题方面的协作集成 |
CN105991399A (zh) * | 2015-02-05 | 2016-10-05 | 天脉聚源(北京)科技有限公司 | 一种实现网络提问的方法和系统 |
CN106547812A (zh) * | 2015-09-18 | 2017-03-29 | 环球娱乐株式会社 | 商业信息提供系统以及商业信息提供方法 |
CN106547812B (zh) * | 2015-09-18 | 2021-01-15 | 环球娱乐株式会社 | 商业信息提供系统以及商业信息提供方法 |
CN107688641A (zh) * | 2017-08-28 | 2018-02-13 | 江西博瑞彤芸科技有限公司 | 一种提问管理方法及系统 |
CN107688641B (zh) * | 2017-08-28 | 2021-12-28 | 江西博瑞彤芸科技有限公司 | 一种提问管理方法及系统 |
CN109886733A (zh) * | 2019-01-25 | 2019-06-14 | 平安科技(深圳)有限公司 | 信息推荐方法、存储介质及计算机设备 |
CN117235242A (zh) * | 2023-11-15 | 2023-12-15 | 浙江力石科技股份有限公司 | 一种基于智能问答数据库的热点信息筛选方法及系统 |
CN117235242B (zh) * | 2023-11-15 | 2024-02-06 | 浙江力石科技股份有限公司 | 一种基于智能问答数据库的热点信息筛选方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102737022B (zh) | 2015-01-07 |
JP5780617B2 (ja) | 2015-09-16 |
WO2012130145A1 (zh) | 2012-10-04 |
JP2014512600A (ja) | 2014-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102737022A (zh) | 获取和搜索相关知识信息的方法及装置 | |
CN110147437B (zh) | 一种基于知识图谱的搜索方法及装置 | |
CN102096717B (zh) | 搜索方法及搜索引擎 | |
CN110955762B (zh) | 一种智能问答平台 | |
CN110990544B (zh) | 一种用于法务咨询的智能问答平台 | |
CN102880649B (zh) | 一种个性化信息处理方法和系统 | |
CN102110170B (zh) | 一种具有信息发布和搜索功能的系统及信息发布方法 | |
CN106357942A (zh) | 基于上下文对话语义识别的智能应答方法及系统 | |
CN102456054B (zh) | 一种搜索方法及系统 | |
CN101231636A (zh) | 一种便捷的信息搜索方法、系统及一种输入法系统 | |
CN103220412B (zh) | 移动终端的日程表管理方法及系统 | |
EP3732587B1 (en) | Systems and methods for context-independent database search paths | |
CN104991943A (zh) | 音乐搜索方法及装置 | |
CN102999513B (zh) | 基于地理位置服务搜索的信息展示方法和装置 | |
CN102929902A (zh) | 一种基于中文检索的分词方法及装置 | |
CN106471502A (zh) | 基于导流的意图识别方法和系统 | |
CN101339560B (zh) | 一种搜索系列性数据的方法、装置及一种搜索引擎系统 | |
CN116303558A (zh) | 查询语句生成方法、数据查询方法及生成模型训练方法 | |
CN102902768A (zh) | 文件内容搜索显示方法及系统 | |
CN103377052B (zh) | 基于文件同步服务的自动下载适配应用程序的方法和系统 | |
CN104778232A (zh) | 一种基于长查询的搜索结果的优化方法和装置 | |
CN103699590A (zh) | 提供图文教程类问题解决方案的方法和服务器 | |
CN112445902A (zh) | 一种多轮对话中用户意图的识别方法及相关设备 | |
CN104462519A (zh) | 搜索查询方法和装置 | |
CN114780700A (zh) | 基于机器阅读理解的智能问答方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |