CN104123320A - 一种获取与输入问题相对应的相关问题的方法与设备 - Google Patents

一种获取与输入问题相对应的相关问题的方法与设备 Download PDF

Info

Publication number
CN104123320A
CN104123320A CN201310156783.8A CN201310156783A CN104123320A CN 104123320 A CN104123320 A CN 104123320A CN 201310156783 A CN201310156783 A CN 201310156783A CN 104123320 A CN104123320 A CN 104123320A
Authority
CN
China
Prior art keywords
phrase
merger
index
pending
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310156783.8A
Other languages
English (en)
Other versions
CN104123320B (zh
Inventor
谢双宾
梁龙军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310156783.8A priority Critical patent/CN104123320B/zh
Publication of CN104123320A publication Critical patent/CN104123320A/zh
Application granted granted Critical
Publication of CN104123320B publication Critical patent/CN104123320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是提供一种用于获取与输入问题相对应的相关问题的方法与设备;获取用户输入的输入问题;对所述输入问题进行分词处理,以确定待处理词组;根据所述待处理词组所对应的索引拉链及权重值,确定其中的归并词组;对所述归并词组所对应的索引问题进行归并处理,确定与所述输入问题相对应的相关问题。与现有技术相比,本发明对输入问题进行分词处理,确定待处理的词组,并结合其对应的索引拉链和权重值,确定其中的归并词组,进而,对该归并词组对应的索引问题进行归并处理,获得与用户输入问题对应的相关问题,在保证问题的相关性的前提下同时极大提高了检索速度,提升了用户使用体验。

Description

一种获取与输入问题相对应的相关问题的方法与设备
技术领域
本发明涉及搜索技术领域,尤其涉及一种用于获取与输入问题相对应的相关问题的技术。
背景技术
现有技术提供了这样一种供用户检索的方式,用户输入一个问题,检索设备提供其相应的答案,并且,在呈现该答案的结果页面,显示与该用户的输入问题相关的相关问题,以供用户进一步点击查看。这种较为特殊的检索系统只关注问题标题间的相似度,对于问题的内容本身或其他因素不作考虑。
现有的检索方案是采用传统的方法,通过遍历的方式进行逐个比较,以确定和用户的输入问题相关的相关问题。然而,这种检索方式效率低下,导致检索速度太慢,影响了用户的使用体验。
因此,如何准确、高效地确定与用户的输入问题相对应的相关问题,成为本领域技术人员亟需解决的问题之一。
发明内容
本发明的目的是提供一种用于获取与输入问题相对应的相关问题的方法与设备。
根据本发明的一个方面,提供了一种用于获取与输入问题相对应的相关问题的方法,其中,该方法包括以下步骤:
a获取用户输入的输入问题;
b对所述输入问题进行分词处理,以确定待处理词组;
c根据所述待处理词组所对应的索引拉链及权重值,确定其中的归并词组;
d对所述归并词组所对应的索引问题进行归并处理,确定与所述输入问题相对应的相关问题。
根据本发明的另一方面,还提供了一种用于获取与输入问题相对应的相关问题的检索设备,其中,该设备包括:
获取装置,用于获取用户输入的输入问题;
分词装置,用于对所述输入问题进行分词处理,以确定待处理词组;
归并确定装置,用于根据所述待处理词组所对应的索引拉链及权重值,确定其中的归并词组;
归并处理装置,用于对所述归并词组所对应的索引问题进行归并处理,确定与所述输入问题相对应的相关问题。
与现有技术相比,本发明对输入问题进行分词处理,确定待处理的词组,并结合其对应的索引拉链和权重值,确定其中的归并词组,进而,对该归并词组对应的索引问题进行归并处理,获得与用户输入问题对应的相关问题,在保证问题的相关性的前提下同时极大提高了检索速度,提升了用户使用体验。
进一步地,本发明采用哈希算法,基于位计算,准确、高效地确定与用户的输入问题相对应的相关问题,同时保证问题的相关性,进一步提高了检索速度,提升了用户的使用体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于获取与输入问题相对应的相关问题的设备示意图;
图2示出根据本发明一个优选实施例的用于获取与输入问题相对应的相关问题的设备示意图;
图3示出根据本发明另一个优选实施例的用于获取与输入问题相对应的相关问题的示意图;
图4示出根据本发明另一个方面的用于获取与输入问题相对应的相关问题的方法流程图;
图5示出根据本发明一个优选实施例的用于获取与输入问题相对应的相关问题的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的用于获取与输入问题相对应的相关问题的设备示意图。检索设备1包括获取装置101、分词装置102、归并确定装置103和归并处理装置104。
其中,获取装置101获取用户输入的输入问题。具体地,用户通过与用户设备的交互,例如通过在页面检索框内输入了输入问题,获取装置101通过一次或多次调用该用户设备所提供的页面接口程序(API),或者,通过调用诸如ASP、JSP或PHP等页面技术,或通过其他约定的获取方式,获取了该用户输入的输入问题。
本领域技术人员应能理解上述获取输入问题的方式仅为举例,其他现有的或今后可能出现的获取输入问题的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
分词装置102对所述输入问题进行分词处理,以确定待处理词组。具体地,分词装置102根据获取装置101所获取的输入问题,对该输入问题进行分词处理,例如,按照自然语言处理,将该输入问题切分成短语或字词,将这些切词处理后获得的短语或字词作为待处理词组;进一步地,该分词装置102还可对该切词处理后获得的短语或字词进一步处理,如去除其中的无效词,将剩余的短语或字词作为待处理词组,或者,按照该切词处理后获得的短语或字词的权重相关信息,对这些短语或字词进行筛选处理,以确定待处理词组。
本领域技术人员应能理解上述确定待处理词组的方式仅为举例,其他现有的或今后可能出现的确定待处理词组的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
归并确定装置103根据所述待处理词组所对应的索引拉链及权重值,确定其中的归并词组。具体地,归并确定装置103根据由分词装置102所确定的待处理词组,通过在问题索引库中进行匹配查询等方式,确定该待处理词组所对应的索引拉链,在此,索引拉链是按降序排列的问题标识列表,每个索引问题唯一对应一个问题标识;并且,该归并确定装置103通过匹配查询或直接计算等方式,确定该待处理词组的权重值,进而,根据该待处理词组所对应的索引拉链及权重值,确定其中的归并词组。
例如,该归并确定装置103将由分词装置102所确定的待处理词组按照其权重相关信息由高到低排序,保留权重相关信息最高的8个待处理词组,其余的词组则放弃,若总数没有8个,则全部保留;接着,该归并确定装置103通过匹配查询或直接计算等方式,确定这些保留下来的待处理词组的权重值,例如对保留下来的这些待处理词组的权重值进行归一化,使得它们的权重值总和为1;再通过在问题索引库中进行匹配查询等方式,确定该待处理词组所对应的索引拉链,接着,按顺序遍历,将各个待处理词组的索引拉链的长度相加,直到累加的和大于预置结果数,例如检索所需的最大结果数,如2000为止,记录下此时的待处理词组的编号u;随后,该归并确定装置103将待处理词组按照权重值由低到高遍历,顺序累加每个待处理词组的权重值,直到第一次大于该编号为u的待处理词组的权重值为止,当前的待处理词组及未遍历的待处理词组即为归并词组。
在此,该问题索引库中存储有问题标识与索引问题的映射关系,每个索引问题唯一对应一个问题标识,该问题索引库既可以位于该检索设备1中,也可以位于与该检索设备1通过网络相连接的第三方设备中。
本领域技术人员应能理解上述确定归并词组的方式仅为举例,其他现有的或今后可能出现的确定归并词组的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
归并处理装置104对所述归并词组所对应的索引问题进行归并处理,确定与所述输入问题相对应的相关问题。具体地,由于归并词组对应的索引问题数量庞大,且其中包括相互重复的问题,例如归并词组A对应的索引问题可能也对应归并词组B,因此,需要对这些归并词组所对应的索引问题进行归并处理,再从归并处理后的索引问题中确定与该输入问题最相关的相关问题。在此,归并处理装置104根据归并确定装置103所确定的归并词组,对该归并词组对应的索引问题进行归并处理,该索引问题例如是索引拉链所对应的索引问题。该归并处理装置104例如根据该归并词组的排列组合结果,建立权重桶,其中,该权重桶对应该排列组合结果的权重值;将与该排列组合结果相对应的索引问题归并入该权重桶,以确定与该输入问题相对应的相关问题;较佳地,该归并处理装置104基于哈希算法,将与该排列组合结果相对应的索引问题归并入该权重桶,以确定与该输入问题相对应的相关问题。
本领域技术人员应能理解上述对索引问题进行归并处理的方式仅为举例,其他现有的或今后可能出现的对索引问题进行归并处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,检索设备1的各个装置之间是持续不断工作的。具体地,获取装置101获取用户输入的输入问题;分词装置102对所述输入问题进行分词处理,以确定待处理词组;归并确定装置103根据所述待处理词组所对应的索引拉链及权重值,确定其中的归并词组;归并处理装置104对所述归并词组所对应的索引问题进行归并处理,确定与所述输入问题相对应的相关问题。在此,本领域技术人员应理解“持续”是指检索设备1的各装置分别按照设定的或实时调整的工作模式要求进行输入问题的获取、分词处理、归并词组的确定、索引问题的归并处理,直至该检索设备1在较长时间内停止获取用户输入的输入问题。
在此,检索设备1对输入问题进行分词处理,确定待处理的词组,并结合其对应的索引拉链和权重值,确定其中的归并词组,进而,对该归并词组对应的索引问题进行归并处理,获得与用户输入问题对应的相关问题,在保证问题的相关性的前提下同时极大提高了检索速度,提升了用户使用体验。
优选地,所述分词装置102对所述输入问题进行分词处理,并结合分词处理后获得的词组所对应的权重相关信息,确定所述待处理词组。具体的,分词装置102对获取装置101所获取的输入问题进行分词处理,获得分词处理后的词组,再按照该分词处理后获得的词组的权重相关信息,取权重相关信息高于预定阈值的词组,作为待处理词组;或者,按照该分词处理后获得的词组的权重相关信息,将该分词处理后的词组进行降序排列,再取排在前面的预定数量的词组作为待处理词组,如将权重相关信息最高的8个词组作为待处理词组。
在此,权重相关信息例如IDF值,IDF为逆向文件频率(InverseDocument Frequency),IDF的主要思想是,如果包含词组t的文档越少,则该词组t的IDF值越大,说明该词组t具有很好的类别区分能力。
例如,分词装置102对获取装置101所获取的输入问题进行分词处理,获得分词处理后的词组,接着,该分词装置102按照该分词处理后获得的词组的IDF值,取IDF值高于预定阈值的词组,作为待处理词组;或者,按照该分词处理后获得的词组的IDF值,将该分词处理后的词组进行降序排列,再取排在前面的预定数量的词组作为待处理词组,如将IDF值最高的8个词组作为待处理词组,或者,当该分词处理后的词组数量不满8个,则全部予以保留,以作为待处理词组。
在此,检索设备1结合词组对应的权重相关信息,如IDF值,确定待处理词组,进一步提升了待处理词组的准确性,保证了相关问题的相关性,提高了检索的效率。
更优选地,所述分词装置102对所述输入问题进行分词处理,以获得分词处理后的词组;基于无效词库,对所述分词处理后的词组进行过滤处理,以确定所述待处理词组。具体地,分词装置102根据获取装置101所获取的输入问题,通过自然语言处理等方式,对该输入问题进行分词处理,获得分词处理后的词组;接着,该分词装置102再基于无效词库,对所述分词处理后的词组进行过滤处理,过滤掉其中无实际意义的功能字词,如过滤掉该无效词库中所包括的“的、了、得、在”等字词,并将经过滤处理后的词组作为待处理词组。
在此,该无效词库中存储有无实际意义的功能字词,可以是预设的无效词库,也可通过用户反馈建立或更新,该无效词库可位于该检索设备1中,也可位于与该检索设备1具有网络连接的第三方设备中。
在此,检索设备1基于无效词库,对分词处理后的词组进行过滤处理,再确定待处理词组,进一步提升了待处理词组的准确性,保证了相关问题的相关性,提高了检索的效率。
更优选地,分词装置102对获取装置101所获取的输入问题进行分词处理,以获得分词处理后的词组;再基于无效词库,对该分词处理后的词组进行过滤处理,以获得经过滤处理的词组;进而,再结合过滤处理后所获得的词组对应的权重相关信息,确定待处理词组。
例如,用户通过与用户设备的交互,在搜索引擎的检索框内输入了输入问题“国际金价大跌,现在我国的黄金价格如何?下降趋势如何?请专家赐教”,获取装置101通过调用诸如ASP、JSP或PHP等页面技术,获取了该输入问题;分词装置102通过自然语言处理或其他现有的分词方式,对该输入问题进行分词处理,获得分词处理后的词组“国际”、“金价”、“大跌”、“现在”、“我国”、“的”、“黄金”、“价格”、“如何”、“下降”、“趋势”、“请”、“专家”、“赐教”,接着,该分词装置102基于无效词库,对上述词组进行过滤处理,如过滤掉“的”、“如何”、“请”、“专家”、“赐教”这些无实际意义的功能字词,保留经过滤处理的词组“国际”、“金价”、“大跌”、“现在”、“我国”、“黄金”、“价格”、“下降”、“趋势”;进而,该分词装置102再结合这些过滤处理后所获得的词组对应的权重相关信息,确定待处理词组,如保留IDF值最高的8个待处理词组“国际”、“金价”、“大跌”、“我国”、“黄金”、“价格”、“下降”、“趋势”,作为待处理词组。
本领域技术人员应能理解上述输入问题、分词处理、过滤处理等仅为举例,其他现有的或今后可能出现的输入问题、分词处理或过滤处理等如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在此,检索设备1基于无效词库,对分词处理后的词组进行过滤处理,再结合过滤处理后所获得的词组对应的权重相关信息,确定待处理词组,进一步提升了待处理词组的准确性,保证了相关问题的相关性,提高了检索的效率。
优选地,该检索设备1还包括权重确定装置(未示出),该权重确定装置根据所述待处理词组所对应的权重相关信息,确定所述待处理词组的权重值。具体地,权重确定装置根据分词装置102所确定的待处理词组,通过匹配查询等方式,获取了这些待处理词组的权重相关信息,如IDF值,进而,根据该输入问题中每个待处理词组的权重相关信息,与该输入问题中所有待处理词组的权重相关信息的总和,确定其中每个待处理词组的权重值。以IDF值为例,假设分词装置102对输入问题进行分词处理,共获得了8个待处理词组,则权重确定装置通过匹配查询等方式,获得了这8个待处理词组的IDF值,进而,将每个待处理词组的IDF值分别除以所有8个待处理词组的IDF值的总和,分别得到这8个待处理词组的权重值。
优选地,该检索设备1还包括匹配装置(未示出),该匹配装置根据所述待处理词组,在问题索引库中进行匹配查询,以获得与所述待处理词组对应的索引拉链。具体地,匹配装置根据分词装置102所确定的待处理词组,分别根据这些待处理词组,在问题索引库中进行匹配查找,获取这些待处理词组所分别对应的索引问题,在此,该索引问题中包含该待处理词组,由于每个待处理词组所对应的索引问题不止一个,且在问题索引库中每一索引问题都唯一对应有一个问题标识,因此,匹配装置将每个待处理词组所对应的至少一个索引问题按照问题标识进行倒序排列,所分别获得的索引问题列表即为每个待处理词组所分别对应的索引拉链。
在此,该问题索引库中存储有问题标识与索引问题的映射关系,每个索引问题唯一对应一个问题标识,该问题索引库既可以位于该检索设备1中,也可以位于与该检索设备1通过网络相连接的第三方设备中。
优选地,所述归并确定装置103根据所述待处理词组所对应的索引拉链及权重值,并结合所述相关问题对应的预置结果数,确定其中的归并词组。在此,引入预置结果数来确定归并词组,该预置结果数例如一次检索所需要的检索结果的最大结果数,如2000,则当用户输入一输入问题,检索设备1检索到的与该输入问题相关的相关问题的数量小于2000,则全部提供给该用户,如按照预定规则排序后分页提供给该用户;若检索设备1检索到的相关问题的数量大于2000,则按照预定规则从其中筛选出2000个检索结果,再排序后分页提供给该用户。此处的预置结果数可以是预设的、也可根据实际检索情况进行调整。
例如,对于具有索引拉链及权重值的待处理词组,如权重确定装置已对待处理词组进行计算,确定了对应的权重值,而匹配装置已根据这些待处理词组,匹配获得了其对应的索引拉链;则归并确定装置103将这些待处理词组按照其权重值由高到低进行排序,接着,按顺序遍历,将各个待处理词组的索引拉链的长度相加,直到累加的和大于预置结果数,例如检索所需的最大结果数,如2000为止,记录下此时的待处理词组的编号u;随后,该归并确定装置103将待处理词组按照权重值由低到高遍历,顺序累加每个待处理词组的权重值,直到第一次大于该编号为u的待处理词组的权重值为止,当前的待处理词组及未遍历的待处理词组即为归并词组。
优选地,所述归并处理装置104包括桶建立单元(未示出)和归并处理单元(未示出)。其中,桶建立单元根据所述归并词组的排列组合结果,建立权重桶,其中,所述权重桶对应所述排列组合结果的权重值;归并处理单元将与所述排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问题。具体地,桶建立单元根据归并确定装置103所确定的归并词组,对这些归并词组进行排列组合,获得排列组合结果,进而,根据排列组合结果,建立权重桶,如根据每一种排列组合结果建立一个权重桶,或者,将排列组合结果的权重值相同的,建立一个权重桶。在此,该权重桶对应所述排列组合结果的权重值。
例如,假设由归并确定装置103所确定的归并词组为A、B、C,其中,归并词组A的权重值为0.5、B的权重值为0.3、C的权重值为0.2,则该3个归并词组共有8种排列组合结果,这里将既不包括A也不包括B也不包括C的情况也作为一种排列组合结果,即,排列组合结果有空、A、B、C、AB、AC、BC、ABC,这些排列组合结果所对应的权重值分别为0、0.5、0.3、0.2、0.8、0.7、0.5、1,在此,排列组合结果所对应的权重值由其中包含的归并词组的权重值相加而得。假设将排列组合结果的权重值相同的,建立一个权重桶,则桶建立单元根据这些归并词组的排列组合结果,建立7个权重桶,每个权重桶对应一个权重值。较佳地,桶建立单元还可按照权重值的大小,对该权重桶进行降序排列,如图3所示,其中,每个归并词组对应位图中的其中一位。
接着,归并处理单元将与该排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问题。例如,对于索引问题x,其仅包含归并词组A,则将其归并入与A对应的权重桶中,如图3中的3号权重桶;对于索引问题y,假设其既包含归并词组A也包含归并词组B,则将其归并入与排列组合结果AB相对应的权重桶中,如图3中的1号权重桶。这样,归并处理单元即可将对应的索引问题归并入对应的权重桶中。例如,对于由匹配装置所匹配得到的归并词组的索引拉链,归并处理单元将该索引拉链对应的索引问题归并入对应的权重桶中,如对于归并词组A的索引拉链,其中的索引问题必然包含该归并词组A,归并处理单元再判断该索引问题是否还包括其他归并词组,以将其归并入准确的权重桶中。
在此,检索设备1通过建立权重桶的方式,进一步提升了对索引问题进行归并处理的效率,进而提高了检索速度,提升了用户的使用体验。
更优选地,所述归并处理单元基于哈希算法,将与所述排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问题。较佳地,由于索引拉链的长度太大,归并处理单元可以采用分段处理的方式,顺序处理每个分段,每段的长度为1<<14=16K,其处理的问题标识的范围为[i*16K,(i+1)*16K)。归并处理单元通过字典映射,将每一个问题标识(qid)映射到权重桶中,在此,字典是一个用哈希表实现的数据结构,目的是建立键与值之间的映射关系。键在这里就是qid&((1<<14)-1),而值是问题标识的命中位图。其中哈希表是根据关键码值而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。具体地,归并处理单元循环处理每个索引拉链,对当前索引拉链的问题标识,只需通过问题标识找到哈希表中对应的命中位图,将当前归并词组对应的位置为1即可。其中,映射过程如下:
1)计算:MASK=(1<<14)-1;
2)做与运算,相当于对2的14次方取模,得到key:Key=qid&MASK;
3)通过key更新哈希表(哈希表在这里是一个数组)中对应的位图:hash[key]|=flag,其中flag是当前词组对应的位。
在此,检索设备1采用哈希算法,基于位计算,准确、高效地确定与用户的输入问题相对应的相关问题,同时保证问题的相关性,进一步提高了检索速度,提升了用户的使用体验。
优选地,该检索设备1还包括调权确定装置(未示出),该调权确定装置根据所述归并词组,确定所述待处理词组中的调权词组;其中,所述归并处理单元根据所述调权词组,将与所述排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问题。由于有些索引问题只命中了权重值很低的一些待处理词组,对于这样的索引问题并不需要进行归并处理,因此,将待处理词组划分为归并词组和调权词组,在此,调权词组为需要重新调整权重的词组。其中,归并词组对应的索引问题需要进行全或归并处理,而调权词组对应的索引问题则只用来调权,不加入归并。具体地,对于由分词装置102所确定的待处理词组,归并确定装置103确定了其中的归并词组,则调权确定装置将该待处理词组中除归并词组以外的词组,作为调权词组。
例如,对于由分词装置102所确定的待处理词组,归并确定装置103将这些待处理词组按照其权重值由高到低进行排序,接着,按顺序遍历,将各个待处理词组的索引拉链的长度相加,直到累加的和大于预置结果数,例如检索所需的最大结果数,如2000为止,记录下此时的待处理词组的编号u;随后,该调权确定装置将待处理词组按照权重值由低到高遍历,顺序累加每个待处理词组的权重值,直到第一次大于该编号为u的待处理词组的权重值为止,已遍历的待处理词组即为调权词组。
随后,归并处理单元根据所述调权词组,将与所述排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问题。该调权词组的处理是在字典映射之后、结果统计输出之前,过程如下:遍历每个调权词组的索引拉链,得到每一个问题标识,通过问题标识找到哈希表中对应的命中位图,若其值为0则不作任何处理,否则将调权词组对应的位置为1。
在此,检索设备1综合考虑待处理词组中的调权词组,进一步提升了对索引问题进行归并处理的准确率与效率,进而提高了检索速度,保证了相关问题的相关性,提升了用户的使用体验。
图2示出根据本发明一个优选实施例的用于获取与输入问题相对应的相关问题的设备示意图。检索设备1还包括优先级确定装置205和提供装置206。以下参照图2对该优选实施例进行描述:具体地,获取装置201获取用户输入的输入问题;分词装置202对所述输入问题进行分词处理,以确定待处理词组;归并确定装置203根据所述归并词组的排列组合结果,建立权重桶,其中,所述权重桶对应所述排列组合结果的权重值;将与所述排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问题;归并处理装置204对所述归并词组所对应的索引问题进行归并处理,确定与所述输入问题相对应的相关问题;优先级确定装置205根据所述权重桶所对应的权重值,确定所述权重桶的优先级;提供装置206按照所述优先级,自所述权重桶中确定所述索引问题,以作为所述相关问题提供给所述用户。其中,获取装置201、分词装置202、归并确定装置203和归并处理装置204与图1所示对应装置相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
其中,优先级确定装置205根据所述权重桶所对应的权重值,确定所述权重桶的优先级。具体地,由于每个权重桶对应一定的权重值,优先级确定装置205根据该权重桶所对应的权重值,确定其优先级,如对应权重值越大的权重桶的优先级越高,即,若该权重桶所对应的排列组合结果的权重值越大,则该权重桶的优先级越高。如图3中所示,0号权重桶对应的权重值最大,其优先级最高;6号权重桶对应的权重值最小,其优先级最低。
提供装置206按照所述优先级,自所述权重桶中确定所述索引问题,以作为所述相关问题提供给所述用户。具体地,提供装置206按照该权重桶的优先级,顺序自优先级最高的权重桶中读出其所包括的索引问题,其中,每个权重桶中的索引问题按照问题标识降序排列,作为相关问题提供给用户。例如如图3中所示,权重桶按照权重值由高到低的顺序排列,提供装置206按照这些权重桶的优先级,顺序从0号权重桶开始,读出其中的索引问题,作为与用户的输入问题相对应的相关问题,进而,通过调用JSP、ASP或PHP等网页技术,或其他约定的展现方式,提供给该用户。
在此,检索设备1根据权重桶的优先级,将其中的索引问题作为相关问题提供给用户,提高了相关问题的相关性,提升了用户的使用体验。
图4示出根据本发明另一个方面的用于获取与输入问题相对应的相关问题的方法流程图。
在步骤S401中,检索设备1获取用户输入的输入问题。具体地,用户通过与用户设备的交互,例如通过在页面检索框内输入了输入问题,在步骤S401中,检索设备1通过一次或多次调用该用户设备所提供的页面接口程序(API),或者,通过调用诸如ASP、JSP或PHP等页面技术,或通过其他约定的获取方式,获取了该用户输入的输入问题。
本领域技术人员应能理解上述获取输入问题的方式仅为举例,其他现有的或今后可能出现的获取输入问题的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S402中,检索设备1对所述输入问题进行分词处理,以确定待处理词组。具体地,在步骤S402中,检索设备1根据在步骤S401中所获取的输入问题,对该输入问题进行分词处理,例如,按照自然语言处理,将该输入问题切分成短语或字词,将这些切词处理后获得的短语或字词作为待处理词组;进一步地,该检索设备1还可对该切词处理后获得的短语或字词进一步处理,如去除其中的无效词,将剩余的短语或字词作为待处理词组,或者,按照该切词处理后获得的短语或字词的权重相关信息,对这些短语或字词进行筛选处理,以确定待处理词组。
本领域技术人员应能理解上述确定待处理词组的方式仅为举例,其他现有的或今后可能出现的确定待处理词组的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S403中,检索设备1根据所述待处理词组所对应的索引拉链及权重值,确定其中的归并词组。具体地,在步骤S403中,检索设备1根据在步骤S402中所确定的待处理词组,通过在问题索引库中进行匹配查询等方式,确定该待处理词组所对应的索引拉链,在此,索引拉链是按降序排列的问题标识列表,每个索引问题唯一对应一个问题标识;并且,在步骤S403中,检索设备1通过匹配查询或直接计算等方式,确定该待处理词组的权重值,进而,根据该待处理词组所对应的索引拉链及权重值,确定其中的归并词组。
例如,在步骤S403中,检索设备1将在步骤S402中所确定的待处理词组按照其权重相关信息由高到低排序,保留权重相关信息最高的8个待处理词组,其余的词组则放弃,若总数没有8个,则全部保留;接着,在步骤S403中,检索设备1通过匹配查询或直接计算等方式,确定这些保留下来的待处理词组的权重值,例如对保留下来的这些待处理词组的权重值进行归一化,使得它们的权重值总和为1;再通过在问题索引库中进行匹配查询等方式,确定该待处理词组所对应的索引拉链,接着,按顺序遍历,将各个待处理词组的索引拉链的长度相加,直到累加的和大于预置结果数,例如检索所需的最大结果数,如2000为止,记录下此时的待处理词组的编号u;随后,在步骤S403中,检索设备1将待处理词组按照权重值由低到高遍历,顺序累加每个待处理词组的权重值,直到第一次大于该编号为u的待处理词组的权重值为止,当前的待处理词组及未遍历的待处理词组即为归并词组。
在此,该问题索引库中存储有问题标识与索引问题的映射关系,每个索引问题唯一对应一个问题标识,该问题索引库既可以位于该检索设备1中,也可以位于与该检索设备1通过网络相连接的第三方设备中。
本领域技术人员应能理解上述确定归并词组的方式仅为举例,其他现有的或今后可能出现的确定归并词组的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S404中,检索设备1对所述归并词组所对应的索引问题进行归并处理,确定与所述输入问题相对应的相关问题。具体地,由于归并词组对应的索引问题数量庞大,且其中包括相互重复的问题,例如归并词组A对应的索引问题可能也对应归并词组B,因此,需要对这些归并词组所对应的索引问题进行归并处理,再从归并处理后的索引问题中确定与该输入问题最相关的相关问题。在此,在步骤S404中,检索设备1根据在步骤S403中所确定的归并词组,对该归并词组对应的索引问题进行归并处理,该索引问题例如是索引拉链所对应的索引问题。在步骤S404中,检索设备1例如根据该归并词组的排列组合结果,建立权重桶,其中,该权重桶对应该排列组合结果的权重值;将与该排列组合结果相对应的索引问题归并入该权重桶,以确定与该输入问题相对应的相关问题;较佳地,在步骤S404中,检索设备1基于哈希算法,将与该排列组合结果相对应的索引问题归并入该权重桶,以确定与该输入问题相对应的相关问题。
本领域技术人员应能理解上述对索引问题进行归并处理的方式仅为举例,其他现有的或今后可能出现的对索引问题进行归并处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,检索设备1的各个步骤之间是持续不断工作的。具体地,在步骤S401中,检索设备1获取用户输入的输入问题;在步骤S402中,检索设备1对所述输入问题进行分词处理,以确定待处理词组;在步骤S403中,检索设备1根据所述待处理词组所对应的索引拉链及权重值,确定其中的归并词组;在步骤S404中,检索设备1对所述归并词组所对应的索引问题进行归并处理,确定与所述输入问题相对应的相关问题。在此,本领域技术人员应理解“持续”是指检索设备1的各步骤分别按照设定的或实时调整的工作模式要求进行输入问题的获取、分词处理、归并词组的确定、索引问题的归并处理,直至该检索设备1在较长时间内停止获取用户输入的输入问题。
在此,检索设备1对输入问题进行分词处理,确定待处理的词组,并结合其对应的索引拉链和权重值,确定其中的归并词组,进而,对该归并词组对应的索引问题进行归并处理,获得与用户输入问题对应的相关问题,在保证问题的相关性的前提下同时极大提高了检索速度,提升了用户使用体验。
优选地,在步骤S402中,检索设备1对所述输入问题进行分词处理,并结合分词处理后获得的词组所对应的权重相关信息,确定所述待处理词组。具体的,在步骤S402中,检索设备1对在步骤S401中所获取的输入问题进行分词处理,获得分词处理后的词组,再按照该分词处理后获得的词组的权重相关信息,取权重相关信息高于预定阈值的词组,作为待处理词组;或者,按照该分词处理后获得的词组的权重相关信息,将该分词处理后的词组进行降序排列,再取排在前面的预定数量的词组作为待处理词组,如将权重相关信息最高的8个词组作为待处理词组。
在此,权重相关信息例如IDF值,IDF为逆向文件频率(InverseDocument Frequency),IDF的主要思想是,如果包含词组t的文档越少,则该词组t的IDF值越大,说明该词组t具有很好的类别区分能力。
例如,在步骤S402中,检索设备1对在步骤S401中所获取的输入问题进行分词处理,获得分词处理后的词组,接着,在步骤S402中,检索设备1按照该分词处理后获得的词组的IDF值,取IDF值高于预定阈值的词组,作为待处理词组;或者,按照该分词处理后获得的词组的IDF值,将该分词处理后的词组进行降序排列,再取排在前面的预定数量的词组作为待处理词组,如将IDF值最高的8个词组作为待处理词组,或者,当该分词处理后的词组数量不满8个,则全部予以保留,以作为待处理词组。
在此,检索设备1结合词组对应的权重相关信息,如IDF值,确定待处理词组,进一步提升了待处理词组的准确性,保证了相关问题的相关性,提高了检索的效率。
更优选地,在步骤S402中,检索设备1对所述输入问题进行分词处理,以获得分词处理后的词组;基于无效词库,对所述分词处理后的词组进行过滤处理,以确定所述待处理词组。具体地,在步骤S402中,检索设备1根据在步骤S401中所获取的输入问题,通过自然语言处理等方式,对该输入问题进行分词处理,获得分词处理后的词组;接着,在步骤S402中,检索设备1再基于无效词库,对所述分词处理后的词组进行过滤处理,过滤掉其中无实际意义的功能字词,如过滤掉该无效词库中所包括的“的、了、得、在”等字词,并将经过滤处理后的词组作为待处理词组。
在此,该无效词库中存储有无实际意义的功能字词,可以是预设的无效词库,也可通过用户反馈建立或更新,该无效词库可位于该检索设备1中,也可位于与该检索设备1具有网络连接的第三方设备中。
在此,检索设备1基于无效词库,对分词处理后的词组进行过滤处理,再确定待处理词组,进一步提升了待处理词组的准确性,保证了相关问题的相关性,提高了检索的效率。
更优选地,在步骤S402中,检索设备1对在步骤S401中所获取的输入问题进行分词处理,以获得分词处理后的词组;再基于无效词库,对该分词处理后的词组进行过滤处理,以获得经过滤处理的词组;进而,再结合过滤处理后所获得的词组对应的权重相关信息,确定待处理词组。
例如,用户通过与用户设备的交互,在搜索引擎的检索框内输入了输入问题“国际金价大跌,现在我国的黄金价格如何?下降趋势如何?请专家赐教”,在步骤S401中,检索设备1通过调用诸如ASP、JSP或PHP等页面技术,获取了该输入问题;在步骤S402中,检索设备1通过自然语言处理或其他现有的分词方式,对该输入问题进行分词处理,获得分词处理后的词组“国际”、“金价”、“大跌”、“现在”、“我国”、“的”、“黄金”、“价格”、“如何”、“下降”、“趋势”、“请”、“专家”、“赐教”,接着,在步骤S402中,检索设备1基于无效词库,对上述词组进行过滤处理,如过滤掉“的”、“如何”、“请”、“专家”、“赐教”这些无实际意义的功能字词,保留经过滤处理的词组“国际”、“金价”、“大跌”、“现在”、“我国”、“黄金”、“价格”、“下降”、“趋势”;进而,在步骤S402中,检索设备1再结合这些过滤处理后所获得的词组对应的权重相关信息,确定待处理词组,如保留IDF值最高的8个待处理词组“国际”、“金价”、“大跌”、“我国”、“黄金”、“价格”、“下降”、“趋势”,作为待处理词组。
本领域技术人员应能理解上述输入问题、分词处理、过滤处理等仅为举例,其他现有的或今后可能出现的输入问题、分词处理或过滤处理等如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在此,检索设备1基于无效词库,对分词处理后的词组进行过滤处理,再结合过滤处理后所获得的词组对应的权重相关信息,确定待处理词组,进一步提升了待处理词组的准确性,保证了相关问题的相关性,提高了检索的效率。
优选地,该方法还包括步骤S407(未示出),该在步骤S407中,检索设备1根据所述待处理词组所对应的权重相关信息,确定所述待处理词组的权重值。具体地,在步骤S407中,检索设备1根据在步骤S402中所确定的待处理词组,通过匹配查询等方式,获取了这些待处理词组的权重相关信息,如IDF值,进而,根据该输入问题中每个待处理词组的权重相关信息,与该输入问题中所有待处理词组的权重相关信息的总和,确定其中每个待处理词组的权重值。以IDF值为例,假设在步骤S402中,检索设备1对输入问题进行分词处理,共获得了8个待处理词组,则在步骤S407中,检索设备1通过匹配查询等方式,获得了这8个待处理词组的IDF值,进而,将每个待处理词组的IDF值分别除以所有8个待处理词组的IDF值的总和,分别得到这8个待处理词组的权重值。
优选地,该方法还包括步骤S408(未示出),在步骤S408中,检索设备1根据所述待处理词组,在问题索引库中进行匹配查询,以获得与所述待处理词组对应的索引拉链。具体地,在步骤S408中,检索设备1根据在步骤S402中所确定的待处理词组,分别根据这些待处理词组,在问题索引库中进行匹配查找,获取这些待处理词组所分别对应的索引问题,在此,该索引问题中包含该待处理词组,由于每个待处理词组所对应的索引问题不止一个,且在问题索引库中每一索引问题都唯一对应有一个问题标识,因此,在步骤S408中,检索设备1将每个待处理词组所对应的至少一个索引问题按照问题标识进行倒序排列,所分别获得的索引问题列表即为每个待处理词组所分别对应的索引拉链。
在此,该问题索引库中存储有问题标识与索引问题的映射关系,每个索引问题唯一对应一个问题标识,该问题索引库既可以位于该检索设备1中,也可以位于与该检索设备1通过网络相连接的第三方设备中。
优选地,在步骤S403中,检索设备1根据所述待处理词组所对应的索引拉链及权重值,并结合所述相关问题对应的预置结果数,确定其中的归并词组。在此,引入预置结果数来确定归并词组,该预置结果数例如一次检索所需要的检索结果的最大结果数,如2000,则当用户输入一输入问题,检索设备1检索到的与该输入问题相关的相关问题的数量小于2000,则全部提供给该用户,如按照预定规则排序后分页提供给该用户;若检索设备1检索到的相关问题的数量大于2000,则按照预定规则从其中筛选出2000个检索结果,再排序后分页提供给该用户。此处的预置结果数可以是预设的、也可根据实际检索情况进行调整。
例如,对于具有索引拉链及权重值的待处理词组,如在步骤S407中,检索设备1已对待处理词组进行计算,确定了对应的权重值,而在步骤S408中,检索设备1已根据这些待处理词组,匹配获得了其对应的索引拉链;则在步骤S403中,检索设备1将这些待处理词组按照其权重值由高到低进行排序,接着,按顺序遍历,将各个待处理词组的索引拉链的长度相加,直到累加的和大于预置结果数,例如检索所需的最大结果数,如2000为止,记录下此时的待处理词组的编号u;随后,在步骤S403中,检索设备1将待处理词组按照权重值由低到高遍历,顺序累加每个待处理词组的权重值,直到第一次大于该编号为u的待处理词组的权重值为止,当前的待处理词组及未遍历的待处理词组即为归并词组。
优选地,所述步骤S404包括子步骤S404a(未示出)和子步骤S404b(未示出)。其中,在子步骤S404a中,检索设备1根据所述归并词组的排列组合结果,建立权重桶,其中,所述权重桶对应所述排列组合结果的权重值;在子步骤S404b中,检索设备1将与所述排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问题。具体地,在子步骤S404a中,检索设备1根据在步骤S403中所确定的归并词组,对这些归并词组进行排列组合,获得排列组合结果,进而,根据排列组合结果,建立权重桶,如根据每一种排列组合结果建立一个权重桶,或者,将排列组合结果的权重值相同的,建立一个权重桶。在此,该权重桶对应所述排列组合结果的权重值。
例如,假设在步骤S403中,检索设备1所确定的归并词组为A、B、C,其中,归并词组A的权重值为0.5、B的权重值为0.3、C的权重值为0.2,则该3个归并词组共有8种排列组合结果,这里将既不包括A也不包括B也不包括C的情况也作为一种排列组合结果,即,排列组合结果有空、A、B、C、AB、AC、BC、ABC,这些排列组合结果所对应的权重值分别为0、0.5、0.3、0.2、0.8、0.7、0.5、1,在此,排列组合结果所对应的权重值由其中包含的归并词组的权重值相加而得。假设将排列组合结果的权重值相同的,建立一个权重桶,则在子步骤S404a中,检索设备1根据这些归并词组的排列组合结果,建立7个权重桶,每个权重桶对应一个权重值。较佳地,在子步骤S404a中,检索设备1还可按照权重值的大小,对该权重桶进行降序排列,如图3所示,其中,每个归并词组对应位图中的其中一位。
接着,在子步骤S404b中,检索设备1将与该排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问题。例如,对于索引问题x,其仅包含归并词组A,则将其归并入与A对应的权重桶中,如图3中的3号权重桶;对于索引问题y,假设其既包含归并词组A也包含归并词组B,则将其归并入与排列组合结果AB相对应的权重桶中,如图3中的1号权重桶。这样,在子步骤S404b中,检索设备1即可将对应的索引问题归并入对应的权重桶中。例如,对于在步骤S408中,检索设备1所匹配得到的归并词组的索引拉链,在子步骤S404b中,检索设备1将该索引拉链对应的索引问题归并入对应的权重桶中,如对于归并词组A的索引拉链,其中的索引问题必然包含该归并词组A,在子步骤S404b中,检索设备1再判断该索引问题是否还包括其他归并词组,以将其归并入准确的权重桶中。
在此,检索设备1通过建立权重桶的方式,进一步提升了对索引问题进行归并处理的效率,进而提高了检索速度,提升了用户的使用体验。
更优选地,在子步骤S404b中,检索设备1基于哈希算法,将与所述排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问题。较佳地,由于索引拉链的长度太大,在子步骤S404b中,检索设备1可以采用分段处理的方式,顺序处理每个分段,每段的长度为1<<14=16K,其处理的问题标识的范围为[i*16K,(i+1)*16K)。在子步骤S404b中,检索设备1通过字典映射,将每一个问题标识(qid)映射到权重桶中,在此,字典是一个用哈希表实现的数据结构,目的是建立键与值之间的映射关系。键在这里就是qid&((1<<14)-1),而值是问题标识的命中位图。其中哈希表是根据关键码值而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。具体地,在子步骤S404b中,检索设备1循环处理每个索引拉链,对当前索引拉链的问题标识,只需通过问题标识找到哈希表中对应的命中位图,将当前归并词组对应的位置为1即可。其中,映射过程如下:
1)计算:MASK=(1<<14)-1;
2)做与运算,相当于对2的14次方取模,得到key:Key=qid&MASK;
3)通过key更新哈希表(哈希表在这里是一个数组)中对应的位图:hash[key]|=flag,其中flag是当前词组对应的位。
在此,检索设备1采用哈希算法,基于位计算,准确、高效地确定与用户的输入问题相对应的相关问题,同时保证问题的相关性,进一步提高了检索速度,提升了用户的使用体验。
优选地,该方法还包括步骤S409(未示出),在步骤S409中,检索设备1根据所述归并词组,确定所述待处理词组中的调权词组;其中,在子步骤S404b中,检索设备1根据所述调权词组,将与所述排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问题。由于有些索引问题只命中了权重值很低的一些待处理词组,对于这样的索引问题并不需要进行归并处理,因此,将待处理词组划分为归并词组和调权词组,在此,调权词组为需要重新调整权重的词组。其中,归并词组对应的索引问题需要进行全或归并处理,而调权词组对应的索引问题则只用来调权,不加入归并。具体地,对于在步骤S402中所确定的待处理词组,在步骤S403中,检索设备1确定了其中的归并词组,则在步骤S409中,检索设备1将该待处理词组中除归并词组以外的词组,作为调权词组。
例如,对于在步骤S402中,检索设备1所确定的待处理词组,在步骤S403中,检索设备1将这些待处理词组按照其权重值由高到低进行排序,接着,按顺序遍历,将各个待处理词组的索引拉链的长度相加,直到累加的和大于预置结果数,例如检索所需的最大结果数,如2000为止,记录下此时的待处理词组的编号u;随后,在步骤S409中,检索设备1将待处理词组按照权重值由低到高遍历,顺序累加每个待处理词组的权重值,直到第一次大于该编号为u的待处理词组的权重值为止,已遍历的待处理词组即为调权词组。
随后,在子步骤S404b中,检索设备1根据所述调权词组,将与所述排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问题。该调权词组的处理是在字典映射之后、结果统计输出之前,过程如下:遍历每个调权词组的索引拉链,得到每一个问题标识,通过问题标识找到哈希表中对应的命中位图,若其值为0则不作任何处理,否则将调权词组对应的位置为1。
在此,检索设备1综合考虑待处理词组中的调权词组,进一步提升了对索引问题进行归并处理的准确率与效率,进而提高了检索速度,保证了相关问题的相关性,提升了用户的使用体验。
图5示出根据本发明一个优选实施例的用于获取与输入问题相对应的相关问题的方法流程图。以下参照图5对该优选实施例进行描述:具体地,在步骤S501中,检索设备1获取用户输入的输入问题;在步骤S502中,检索设备1对所述输入问题进行分词处理,以确定待处理词组;在步骤S503中,检索设备1根据所述归并词组的排列组合结果,建立权重桶,其中,所述权重桶对应所述排列组合结果的权重值;将与所述排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问题;在步骤S504中,检索设备1对所述归并词组所对应的索引问题进行归并处理,确定与所述输入问题相对应的相关问题;在步骤S505中,检索设备1根据所述权重桶所对应的权重值,确定所述权重桶的优先级;在步骤S506中,检索设备1按照所述优先级,自所述权重桶中确定所述索引问题,以作为所述相关问题提供给所述用户。其中,步骤S501-S504与图4所示对应步骤相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
其中,在步骤S505中,检索设备1根据所述权重桶所对应的权重值,确定所述权重桶的优先级。具体地,由于每个权重桶对应一定的权重值,在步骤S505中,检索设备1根据该权重桶所对应的权重值,确定其优先级,如对应权重值越大的权重桶的优先级越高,即,若该权重桶所对应的排列组合结果的权重值越大,则该权重桶的优先级越高。如图3中所示,0号权重桶对应的权重值最大,其优先级最高;6号权重桶对应的权重值最小,其优先级最低。
在步骤S506中,检索设备1按照所述优先级,自所述权重桶中确定所述索引问题,以作为所述相关问题提供给所述用户。具体地,在步骤S506中,检索设备1按照该权重桶的优先级,顺序自优先级最高的权重桶中读出其所包括的索引问题,其中,每个权重桶中的索引问题按照问题标识降序排列,作为相关问题提供给用户。例如如图3中所示,权重桶按照权重值由高到低的顺序排列,在步骤S506中,检索设备1按照这些权重桶的优先级,顺序从0号权重桶开始,读出其中的索引问题,作为与用户的输入问题相对应的相关问题,进而,通过调用JSP、ASP或PHP等网页技术,或其他约定的展现方式,提供给该用户。
在此,检索设备1根据权重桶的优先级,将其中的索引问题作为相关问题提供给用户,提高了相关问题的相关性,提升了用户的使用体验。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (20)

1.一种用于获取与输入问题相对应的相关问题的方法,其中,该方法包括以下步骤:
a获取用户输入的输入问题;
b对所述输入问题进行分词处理,以确定待处理词组;
c根据所述待处理词组所对应的索引拉链及权重值,确定其中的归并词组;
d对所述归并词组所对应的索引问题进行归并处理,确定与所述输入问题相对应的相关问题。
2.根据权利要求1所述的方法,其中,所述步骤b包括:
-对所述输入问题进行分词处理,并结合分词处理后获得的词组所对应的权重相关信息,确定所述待处理词组。
3.根据权利要求1或2所述的方法,其中,所述步骤b包括:
-对所述输入问题进行分词处理,以获得分词处理后的词组;
-基于无效词库,对所述分词处理后的词组进行过滤处理,以确定所述待处理词组。
4.根据权利要求1至3中任一项所述的方法,其中,该方法还包括:
-根据所述待处理词组所对应的权重相关信息,确定所述待处理词组的权重值。
5.根据权利要求1至4中任一项所述的方法,其中,该方法还包括:
-根据所述待处理词组,在问题索引库中进行匹配查询,以获得与所述待处理词组对应的索引拉链。
6.根据权利要求1至5中任一项所述的方法,其中,所述步骤c包括:
-根据所述待处理词组所对应的索引拉链及权重值,并结合所述相关问题对应的预置结果数,确定其中的归并词组。
7.根据权利要求1至6中任一项所述的方法,其中,所述步骤d包括:
d1根据所述归并词组的排列组合结果,建立权重桶,其中,所述权重桶对应所述排列组合结果的权重值;
d2将与所述排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问题。
8.根据权利要求7所述的方法,其中,所述步骤d2包括:
-基于哈希算法,将与所述排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问题。
9.根据权利要求7或8所述的方法,其中,该方法还包括:
-根据所述归并词组,确定所述待处理词组中的调权词组;
其中,所述步骤d2包括:
-根据所述调权词组,将与所述排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问题。
10.根据权利要求7至9中任一项所述的方法,其中,该方法还包括:
-根据所述权重桶所对应的权重值,确定所述权重桶的优先级;
-按照所述优先级,自所述权重桶中确定所述索引问题,以作为所述相关问题提供给所述用户。
11.一种用于获取与输入问题相对应的相关问题的检索设备,其中,该设备包括:
获取装置,用于获取用户输入的输入问题;
分词装置,用于对所述输入问题进行分词处理,以确定待处理词组;
归并确定装置,用于根据所述待处理词组所对应的索引拉链及权重值,确定其中的归并词组;
归并处理装置,用于对所述归并词组所对应的索引问题进行归并处理,确定与所述输入问题相对应的相关问题。
12.根据权利要求11所述的检索设备,其中,所述分词装置用于:
-对所述输入问题进行分词处理,并结合分词处理后获得的词组所对应的权重相关信息,确定所述待处理词组。
13.根据权利要求11或12所述的检索设备,其中,所述分词装置用于:
-对所述输入问题进行分词处理,以获得分词处理后的词组;
-基于无效词库,对所述分词处理后的词组进行过滤处理,以确定所述待处理词组。
14.根据权利要求11至13中任一项所述的检索设备,其中,该设备还包括:
权重确定装置,用于根据所述待处理词组所对应的权重相关信息,确定所述待处理词组的权重值。
15.根据权利要求11至14中任一项所述的检索设备,其中,该设备还包括:
匹配装置,用于根据所述待处理词组,在问题索引库中进行匹配查询,以获得与所述待处理词组对应的索引拉链。
16.根据权利要求11至15中任一项所述的检索设备,其中,所述归并确定装置用于:
-根据所述待处理词组所对应的索引拉链及权重值,并结合所述相关问题对应的预置结果数,确定其中的归并词组。
17.根据权利要求11至16中任一项所述的检索设备,其中,所述归并处理装置包括:
桶建立单元,用于根据所述归并词组的排列组合结果,建立权重桶,其中,所述权重桶对应所述排列组合结果的权重值;
归并处理单元,用于将与所述排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问题。
18.根据权利要求17所述的检索设备,其中,所述归并处理单元用于:
-基于哈希算法,将与所述排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问题。
19.根据权利要求17或18所述的检索设备,其中,该设备还包括:
调权确定装置,用于根据所述归并词组,确定所述待处理词组中的调权词组;
其中,所述归并处理单元用于:
-根据所述调权词组,将与所述排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问题。
20.根据权利要求17至19中任一项所述的检索设备,其中,该设备还包括:
优先级确定装置,用于根据所述权重桶所对应的权重值,确定所述权重桶的优先级;
提供装置,用于按照所述优先级,自所述权重桶中确定所述索引问题,以作为所述相关问题提供给所述用户。
CN201310156783.8A 2013-04-28 2013-04-28 一种获取与输入问题相对应的相关问题的方法与设备 Active CN104123320B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310156783.8A CN104123320B (zh) 2013-04-28 2013-04-28 一种获取与输入问题相对应的相关问题的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310156783.8A CN104123320B (zh) 2013-04-28 2013-04-28 一种获取与输入问题相对应的相关问题的方法与设备

Publications (2)

Publication Number Publication Date
CN104123320A true CN104123320A (zh) 2014-10-29
CN104123320B CN104123320B (zh) 2019-06-28

Family

ID=51768732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310156783.8A Active CN104123320B (zh) 2013-04-28 2013-04-28 一种获取与输入问题相对应的相关问题的方法与设备

Country Status (1)

Country Link
CN (1) CN104123320B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846011A (zh) * 2018-05-04 2018-11-20 中国信息安全研究院有限公司 一种检索词调整方法
CN111309846A (zh) * 2018-12-12 2020-06-19 中国移动通信集团四川有限公司 索引处理方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246501A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 一种聚合相同主题网络文档的方法及系统
US20090234825A1 (en) * 2008-02-28 2009-09-17 Fujitsu Limited Information distribution system and information distribution method
CN102279889A (zh) * 2011-08-29 2011-12-14 百度在线网络技术(北京)有限公司 一种基于地理信息的问题推送方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090234825A1 (en) * 2008-02-28 2009-09-17 Fujitsu Limited Information distribution system and information distribution method
CN101246501A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 一种聚合相同主题网络文档的方法及系统
CN102279889A (zh) * 2011-08-29 2011-12-14 百度在线网络技术(北京)有限公司 一种基于地理信息的问题推送方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846011A (zh) * 2018-05-04 2018-11-20 中国信息安全研究院有限公司 一种检索词调整方法
CN111309846A (zh) * 2018-12-12 2020-06-19 中国移动通信集团四川有限公司 索引处理方法、装置、设备及介质
CN111309846B (zh) * 2018-12-12 2023-09-05 中国移动通信集团四川有限公司 索引处理方法、装置、设备及介质

Also Published As

Publication number Publication date
CN104123320B (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
CN109101620B (zh) 相似度计算方法、聚类方法、装置、存储介质及电子设备
CN110457672B (zh) 关键词确定方法、装置、电子设备及存储介质
CN103593418B (zh) 一种面向大数据的分布式主题发现方法及系统
CN107844559A (zh) 一种文件分类方法、装置及电子设备
CN110532352B (zh) 文本查重方法及装置、计算机可读存储介质、电子设备
CN111382255A (zh) 用于问答处理的方法、装置、设备和介质
CN111538903B (zh) 搜索推荐词确定方法、装置、电子设备及计算机可读介质
CN106469097B (zh) 一种基于人工智能的召回纠错候选的方法和装置
CN103902597A (zh) 确定目标关键词所对应的搜索相关性类别的方法和设备
CN104462553A (zh) 问答页面相关问题推荐方法及装置
CN110543595A (zh) 一种站内搜索系统及方法
CN110969517B (zh) 一种招投标生命周期关联方法、系统、存储介质及计算机设备
EP4109293A1 (en) Data query method and apparatus, electronic device, storage medium, and program product
CN113407814B (zh) 文本搜索方法、装置、可读介质及电子设备
CN103309984A (zh) 数据处理的方法和装置
CN114817575B (zh) 基于扩展模型的大规模电力事理图谱处理方法
CN108388556B (zh) 同类实体的挖掘方法及系统
CN114330329A (zh) 一种业务内容搜索方法、装置、电子设备及存储介质
CN109597926A (zh) 一种基于社交媒体突发事件的信息获取方法及系统
CN104123320A (zh) 一种获取与输入问题相对应的相关问题的方法与设备
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备
CN104123322A (zh) 基于同义处理获取与输入问题对应的相关问题的方法、设备
CN109614535B (zh) 一种基于Scrapy框架的网络数据的采集方法及装置
CN116628162A (zh) 语义问答方法、装置、设备及存储介质
CN106682107B (zh) 数据库表关联关系确定方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant