CN104123322A - 基于同义处理获取与输入问题对应的相关问题的方法、设备 - Google Patents
基于同义处理获取与输入问题对应的相关问题的方法、设备 Download PDFInfo
- Publication number
- CN104123322A CN104123322A CN201310156975.9A CN201310156975A CN104123322A CN 104123322 A CN104123322 A CN 104123322A CN 201310156975 A CN201310156975 A CN 201310156975A CN 104123322 A CN104123322 A CN 104123322A
- Authority
- CN
- China
- Prior art keywords
- phrase
- synonym
- index
- pending
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
- G06F16/2448—Query languages for particular applications; for extensibility, e.g. user defined types
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明的目的是提供一种用于基于同义处理获取与输入问题对应的相关问题的方法与设备;对用户输入的输入问题进行分词处理,以获得待处理词组;根据所述待处理词组,确定与所述待处理词组同义的同义词组;根据所述待处理词组及对应的同义词组,在问题索引库中进行匹配查找,确定与所述待处理词组或所述同义词组相对应的索引问题;根据所述索引问题的相关性得分,确定与所述输入问题相对应的相关问题并提供给所述用户。与现有技术相比,本发明由于在相关问题计算过程中引入了同义处理,提升了相关问题的相关性,提高了检索的效率,提升了用户的搜索使用体验。
Description
技术领域
本发明涉及搜索技术领域,尤其涉及一种用于基于同义处理获取与输入问题对应的相关问题的技术。
背景技术
现有技术提供了这样一种供用户检索的方式,用户输入一个问题,检索设备提供其相应的答案,并且,在呈现该答案的结果页面,显示与该用户的输入问题相关的相关问题,以供用户进一步点击查看。这种较为特殊的检索系统只关注问题标题间的相似度,对于问题的内容本身或其他因素不作考虑。
现有的检索方案是采用传统的方法,使用当前的输入问题去问题索引中检索得到字面趋近一致的问题,作为该问题的相关问题。然而,由于问题索引库中的问题数据极为庞大,存在很多同义问题,现有的检索方案的缺点是缺乏对同义词的处理,导致很多字面不一样但语义一致的更相关的问题无法被计算得到,影响了用户的使用体验。
因此,如何基于同义处理获取与输入问题对应的相关问题,成为本领域技术人员亟需解决的问题之一。
发明内容
本发明的目的是提供一种用于基于同义处理获取与输入问题对应的相关问题的方法与设备。
根据本发明的一个方面,提供了一种基于同义处理获取与输入问题相对应的相关问题的方法,其中,该方法包括以下步骤:
a对用户输入的输入问题进行分词处理,以获得待处理词组;
b根据所述待处理词组,确定与所述待处理词组同义的同义词组;
c根据所述待处理词组及对应的同义词组,在问题索引库中进行匹配查找,确定与所述待处理词组或所述同义词组相对应的索引问题;
d根据所述索引问题的相关性得分,确定与所述输入问题相对应的相关问题并提供给所述用户。
根据本发明的另一方面,还提供了一种基于同义处理获取与输入问题相对应的相关问题的检索设备,其中,该设备包括:
分词装置,用于对用户输入的输入问题进行分词处理,以获得待处理词组;
同义确定装置,用于根据所述待处理词组,确定与所述待处理词组同义的同义词组;
匹配装置,用于根据所述待处理词组及对应的同义词组,在问题索引库中进行匹配查询,确定与所述待处理词组或所述同义词组相对应的索引问题;
提供装置,用于根据所述索引问题的相关性得分,确定与所述输入问题相对应的相关问题并提供给所述用户。
与现有技术相比,本发明对用户的输入问题进行分词处理,得到待处理词组及对应的同义词组,进而,匹配得到对应的索引问题,按照索引问题的相关性得分,确定与用户的输入问题相对应的相关问题并提供给该用户,由于在相关问题计算过程中引入了同义处理,提升了相关问题的相关性,提高了检索的效率,提升了用户的搜索使用体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于基于同义处理获取与输入问题对应的相关问题的设备示意图;
图2示出根据本发明一个优选实施例的用于基于同义处理获取与输入问题对应的相关问题的设备示意图;
图3示出根据本发明另一个方面的用于基于同义处理获取与输入问题对应的相关问题的方法流程图;
图4示出根据本发明一个优选实施例的用于基于同义处理获取与输入问题对应的相关问题的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的用于基于同义处理获取与输入问题对应的相关问题的设备示意图。检索设备1包括分词装置101、同义确定装置102、匹配装置103和提供装置104。
其中,分词装置101对用户输入的输入问题进行分词处理,以获得待处理词组。具体地,用户通过与用户设备的交互,例如通过在页面检索框内输入了输入问题,分词装置101通过一次或多次调用该用户设备所提供的页面接口程序(API),或者,通过调用诸如ASP、JSP或PHP等页面技术,或通过其他约定的获取方式,获取了该用户输入的输入问题;进而,该分词装置101对该输入问题进行分词处理,例如,按照自然语言处理,将该输入问题切分成短语或字词,将这些切词处理后获得的短语或字词作为待处理词组;进一步地,该分词装置101还可对该切词处理后获得的短语或字词进一步处理,如去除其中的无效词,将剩余的短语或字词作为待处理词组,或者,按照该切词处理后获得的短语或字词的权重相关信息,对这些短语或字词进行筛选处理,以确定待处理词组。
在此,权重相关信息例如IDF值,IDF为逆向文件频率(InverseDocument Frequency),IDF的主要思想是,如果包含词组t的文档越少,则该词组t的IDF值越大,说明该词组t具有很好的类别区分能力。
例如,分词装置101对所获取的输入问题进行分词处理,获得分词处理后的词组,接着,该分词装置101按照该分词处理后获得的词组的IDF值,取IDF值高于预定阈值的词组,作为待处理词组;或者,按照该分词处理后获得的词组的IDF值,将该分词处理后的词组进行降序排列,再取排在前面的预定数量的词组作为待处理词组,如将IDF值最高的8个词组作为待处理词组,或者,当该分词处理后的词组数量不满8个,则全部予以保留,以作为待处理词组。
本领域技术人员应能理解上述对输入问题进行分词处理的方式仅为举例,其他现有的或今后可能出现的对输入问题进行分词处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
同义确定装置102根据所述待处理词组,确定与所述待处理词组同义的同义词组。具体地,同义确定装置102根据分词装置101所确定的待处理词组,通过在同义词表或者其他存储有同义词映射关系的词表或词库中进行匹配查询,确定与该待处理词组同义的同义词组。例如,用户通过与用户设备的交互,例如通过在页面检索框内输入了输入问题“为什么最近黄金价格下跌”,分词装置101获取了该输入问题,并对该输入问题进行了分词处理,获得待处理词组“为什么”、“最近”、“黄金价格”、“下跌”;同义确定装置102根据这些待处理词组,在同义词表或者其他存储有同义词映射关系的词表或词库中进行匹配查询,分别确定与待处理词组“为什么”同义的同义词组,如“为何”、“怎么会”等,与“最近”同义的同义词组,如“如今”、“现在”、“当前”等,与“黄金价格”同义的同义词组,如“金价”、“黄金价钱”、“金子价格”等,该输入问题中的其余待处理词组也可以同样的方式确定其同义词组。
本领域技术人员应能理解上述确定同义词组的方式仅为举例,其他现有的或今后可能出现的确定同义词组的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
匹配装置103根据所述待处理词组及对应的同义词组,在问题索引库中进行匹配查询,确定与所述待处理词组或所述同义词组相对应的索引问题。具体地,匹配装置103根据分词装置101所确定的待处理词组及同义确定装置102所确定的这些待处理词组对应的同义词组,在问题索引库中进行匹配查询,确定与所述待处理词组或所述同义词组相对应的索引问题,在此,该索引问题中包含该待处理词组和/或该同义词组。
本领域技术人员应能理解上述确定索引问题的方式仅为举例,其他现有的或今后可能出现的确定索引问题的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
提供装置104根据所述索引问题的相关性得分,确定与所述输入问题相对应的相关问题并提供给所述用户。具体地,提供装置104根据匹配装置103所匹配获得的索引问题,通过匹配查询、实时计算等方式,确定这些索引问题的相关性得分,进而,按照这些索引问题的相关性得分,确定与所述输入问题相对应的相关问题并提供给所述用户,如将相关性得分高于预定阈值的索引问题作为与用户的输入问题相对应的相关问题,或者,按照这些索引问题的相关性得分进行排序,如按照相关性得分从高到低进行排列,将排在前列的预定数量的索引问题作为与该输入问题相对应的相关问题,进而,该提供装置104例如通过调用JSP、ASP或PHP等网页技术,将这些相关问题提供给该用户。
本领域技术人员应能理解上述提供索引问题的方式仅为举例,其他现有的或今后可能出现的提供索引问题的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,检索设备1的各个装置之间是持续不断工作的。具体地,分词装置101对用户输入的输入问题进行分词处理,以获得待处理词组;同义确定装置102根据所述待处理词组,确定与所述待处理词组同义的同义词组;匹配装置103根据所述待处理词组及对应的同义词组,在问题索引库中进行匹配查询,确定与所述待处理词组或所述同义词组相对应的索引问题;提供装置104根据所述索引问题的相关性得分,确定与所述输入问题相对应的相关问题并提供给所述用户。在此,本领域技术人员应理解“持续”是指检索设备1的各装置分别按照设定的或实时调整的工作模式要求进行输入问题的分词处理、同义词组的确定、索引问题的确定与提供,直至该检索设备1在较长时间内停止获取用户输入的输入问题。
在此,检索设备1对用户的输入问题进行分词处理,得到待处理词组及对应的同义词组,进而,匹配得到对应的索引问题,按照索引问题的相关性得分,确定与用户的输入问题相对应的相关问题并提供给该用户,由于在相关问题计算过程中引入了同义处理,提升了相关问题的相关性,提高了检索的效率,提升了用户的搜索使用体验。
优选地,所述分词装置101对所述用户输入的输入问题进行分词处理,以获得分词处理后的词组;基于无效词库,对所述分词处理后的词组进行过滤处理,以确定所述待处理词组。具体地,分词装置101根据所获取的输入问题,通过自然语言处理等方式,对该输入问题进行分词处理,获得分词处理后的词组;接着,该分词装置101再基于无效词库,对所述分词处理后的词组进行过滤处理,过滤掉其中无实际意义的功能字词,如过滤掉该无效词库中所包括的“的、了、得、在”,或者如“加分”、“帮帮忙”、“谢谢”、“大侠”、“前辈”等字词,并将经过滤处理后的词组作为待处理词组。
在此,该无效词库中存储有无实际意义的功能字词,可以是预设的无效词库,也可通过用户反馈建立或更新,该无效词库可位于该检索设备1中,也可位于与该检索设备1具有网络连接的第三方设备中。
例如,用户通过与用户设备的交互,例如通过在页面检索框内输入了输入问题“为什么最近黄金价格下跌”,分词装置101获取了该输入问题,并对该输入问题进行了分词处理,获得分词处理后的词组“为什么”、“最近”、“黄金价格”、“下跌”;接着,该分词装置101基于无效词库,对上述经分词处理后的词组进行过滤处理,如过滤掉词组为什么”、“最近”,并将剩余的词组“黄金价格”、“下跌”确定为待处理词组;同义确定装置102根据这些待处理词组,在同义词表或者其他存储有同义词映射关系的词表或词库中进行匹配查询,分别确定与待处理词组“黄金价格”同义的同义词组,如“金价”、“黄金价钱”、“金子价格”等,与待处理词组“下跌”同义的同义词组,如“下降”、“跌价”、“大跌”等;随后,匹配装置103根据上述待处理词组及与其对应的同义词组,在问题索引库中进行匹配查询,确定与上述待处理词组或上述同义词组相对应的索引问题,如“黄金价格下跌原因”、“黄金价格最近为什么大跌”、“为什么最近金价在跌”等。在此,该索引问题中包含该待处理词组和/或该同义词组。
在此,检索设备1基于无效词库,对分词处理后的词组进行过滤处理,再确定待处理词组,进一步提升了待处理词组的准确性,提高了相关问题的相关性,提升了用户的搜索使用体验。
优选地,所述同义确定装置102根据所述待处理词组,结合同义词表,确定与所述待处理词组同义的同义词组。具体地,同义确定装置102根据分词装置101所确定的待处理词组,在同义词表中进行匹配查询,如根据该同义词表中所存储的与该待处理词组具有同义映射关系的词组,确定与该待处理词组同义的同义词组。
在此,该同义词表中存储有相互具有同义映射关系的词组,其可以是预定的,也可根据用户反馈进行建立或更新,该同义词表既可以位于该检索设备1中,也可位于与该检索设备1通过网络相连接的第三方设备中。
更优选地,所述匹配装置103包括匹配单元(未示出)和归并单元(未示出)。其中,匹配单元根据所述待处理词组及对应的同义词组,在问题索引库中进行匹配查找,以获得候选问题;归并单元对所述候选问题进行归并处理,将经归并处理后的候选问题作为所述索引问题。具体地,匹配单元根据分词装置101所确定的待处理词组及同义确定装置102所确定的该待处理词组对应的同义词组,在问题索引库中进行匹配查找,获得候选问题,如分别获得这些待处理词组或同义词组所对应的索引拉链,在此,索引拉链是按降序排列的问题标识列表,每个索引问题唯一对应一个问题标识,将这些索引拉链,或者索引拉链中包括的索引问题作为候选问题。
由于待处理词组或同义词组所对应的索引拉链数量庞大,且其中包括相互重复的问题,例如待处理词组A对应的候选问题可能也对应待处理词组B,或者,该待处理词组A对应的候选问题还可能对应与待处理词组B同义的同义词组;因此,需要对这些候选问题,进行归并处理,再从归并处理后的候选问题中确定与该输入问题最相关的相关问题。在此,归并单元对匹配单元所匹配得到的候选问题进行归并处理,将经归并处理后的候选问题作为与该待处理词组或同义词组相对应的索引问题。
在此,该问题索引库中存储有问题标识与索引问题的映射关系,每个索引问题唯一对应一个问题标识,该问题索引库既可以位于该检索设备1中,也可以位于与该检索设备1通过网络相连接的第三方设备中。
在此,检索设备1对用户的输入问题进行分词处理,得到待处理词组及对应的同义词组,进而,匹配得到对应的候选问题,并对该候选问题进行了归并处理,将归并后的候选问题作为索引问题,再按照索引问题的相关性得分,确定与用户的输入问题相对应的相关问题并提供给该用户,进一步提升了相关问题的相关性,提高了检索的效率,提升了用户的搜索使用体验。
优选地,所述归并单元对所述候选问题进行归并处理,以获得经归并处理后的候选问题;根据所述候选问题的相关权值,确定所述索引问题。具体地,归并单元根据由匹配单元所确定的候选问题,对这些候选问题进行归并处理,获得经归并处理后的候选问题;接着,该归并单元通过匹配查询或直接计算等方式,确定这些经归并处理后的候选问题的相关权值,并根据这些候选问题的相关权值确定待提供给用户的索引问题。例如,该归并单元将相关权值高于预定阈值的经归并处理后的候选问题作为索引问题,或者,按照相关权值降序排列,取排在前列的预定数量的候选问题作为索引问题,例如,将前N个候选问题作为索引问题。在此,该N的值可以是预定的也可根据实际情况进行调整。
在此,检索设备1对用户的输入问题进行分词处理,得到待处理词组及对应的同义词组,进而,匹配得到对应的候选问题,并对该候选问题进行了归并处理,并结合归并后的候选问题的相关权值,确定索引问题,再按照索引问题的相关性得分,确定与用户的输入问题相对应的相关问题并提供给该用户,进一步提升了相关问题的相关性,提高了检索的效率,提升了用户的搜索使用体验。
优选地,该检索设备1还包括权值确定装置(未示出),该权值确定装置根据所述候选问题所命中的待处理词组和/或同义词组的权重值,确定所述索引问题的相关权值。具体地,该权值确定装置通过匹配查询或直接计算等方式,确定候选问题所命中的待处理词组和/或同义词组的权重值,例如,该权值确定装置通过匹配查询等方式,获取了这些待处理词组的权重相关信息,如IDF值,进而,根据该输入问题中每个待处理词组的权重相关信息,与该输入问题中所有待处理词组的权重相关信息的总和,确定其中每个待处理词组的权重值。以IDF值为例,假设分词装置101对输入问题进行分词处理,共获得了8个待处理词组,则权重确定装置通过匹配查询等方式,获得了这8个待处理词组的IDF值,进而,将每个待处理词组的IDF值分别除以所有8个待处理词组的IDF值的总和,分别得到这8个待处理词组的权重值。在此,该待处理词组的同义词组与该待处理词组的权重值一致。
随后,该权值确定装置根据经归并处理后的所述候选问题所命中的待处理词组和/或同义词组的权重值,通过预定的计算方式,确定该索引问题的相关权值,例如,该权值确定装置通过累加每个待处理词组或同义词组的命中得分,对归并得到的每个候选问题计算其相关权值,若某个待处理词组或其对应的某个同义词组命中该候选问题,则命中得分为该待处理词组对应的权重,否则命中得分为零。
例如,对于分词装置101所确定的待处理词组“黄金价格”、“下跌”,权值确定装置确定该待处理词组“黄金价格”的权重值为0.7,“下跌”的权重值为0.3,则对于匹配单元所匹配得到的候选问题,如“黄金价格下跌原因”、“金价现在是多少”等,前者命中了待处理词组“黄金价格”、“下跌”,其命中得分分别为待处理词组“黄金价格”、“下跌”的权重值,即0.7和0.3,则权值确定装置通过累加该命中得分,确定其相关权值为1.0;后者命中了待处理词组“黄金价格”的同义词组“金价”,其命中得分为待处理词组“黄金价格”的权重值,即0.7,权值确定装置确定该候选问题的相关权值为0.7。
在此,检索设备1通过累加每个索引问题中命中的待处理词组和/或同义词组的权重值,确定索引问题的相关权值,进一步提升了相关问题的相关性,提高了检索的效率,提升了用户的搜索使用体验。
图2示出根据本发明一个优选实施例的用于基于同义处理获取与输入问题对应的相关问题的设备示意图。检索设备1还包括得分确定装置205。以下参照图2对该优选实施例进行描述:具体地,分词装置201对用户输入的输入问题进行分词处理,以获得待处理词组;同义确定装置202根据所述待处理词组,确定与所述待处理词组同义的同义词组;匹配装置203根据所述待处理词组及对应的同义词组,在问题索引库中进行匹配查询,确定与所述待处理词组或所述同义词组相对应的索引问题;得分确定装置205根据所述索引问题的问题属性,确定所述索引问题的相关性得分;提供装置204根据所述索引问题的相关性得分,确定与所述输入问题相对应的相关问题并提供给所述用户。其中,分词装置201、同义确定装置202、匹配装置203和提供装置204与图1所示对应装置相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
其中,得分确定装置205根据所述索引问题的问题属性,确定所述索引问题的相关性得分;其中,所述问题属性包括以下至少任一项:
-所述索引问题的同义相关属性;
-所述索引问题的质量属性;
-所述索引问题的可读属性。
具体地,得分确定装置205根据匹配装置203所确定的索引问题,通过在数据库中进行匹配查找或者实时计算等方式,确定这些索引问题的问题属性,进而,根据这些索引问题的问题属性,通过预定的计算方式,确定这些索引问题的相关性得分。
在此,所述索引问题的同义相关属性用于衡量问题与问题的相关性因素,该同义相关属性的值例如可以是检索系统返回的,其值等于命中的待处理词组的权重值之和/输入问题的所有待处理词组的权重值之和,其可用Srel表示。
所述索引问题的质量属性用于衡量问题的质量因素,其可用Squality表示,并可由如下公式计算得出:
Squality=[log2(g+1.0)]/10
其中,g为从问题元数据库中得到当前索引问题的好评数。
若Squality大于1,则置为1。
所述索引问题的可读属性用于衡量问题的相对于主题的可读性,其可用Sformat表示,并可由如下公式计算得出:
Sformat=(100-问题长度)/问题最长字节数
即,长度越短的索引问题的可读性越好。
在此,该问题最长字节数可以是预定的也可根据实际情况进行调整。
该得分确定装置205例如通过将索引问题的问题属性简单相加,或再结合问题属性对应权值确定加权和等预定的计算方式,确定这些索引问题的相关性得分。
本领域技术人员应能理解上述问题属性及计算索引问题的相关性得分的方式仅为举例,其他现有的或今后可能出现的问题属性或计算索引问题的相关性得分的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在此,检索设备1根据索引问题的问题属性,确定索引问题的相关性得分,进一步提升了相关问题的相关性,提高了检索的效率,提升了用户的搜索使用体验。
优选地,所述得分确定装置205根据所述索引问题的问题属性,并结合所述问题属性所对应的权值,确定所述索引问题的相关性得分。具体地,上述问题属性还可对应一定的权值,该权值代表了上述问题属性的重要程度,如Wrel为同义相关属性对应的权值,Wquality为同义相关属性对应的权值、Wformat为同义相关属性对应的权值,上述权值可以是预设的也可根据实际情况进行调整。得分确定装置205根据匹配装置203所确定的索引问题的问题属性,并结合所述问题属性所对应的权值,通过加权计算等方式,确定该索引问题的相关性得分。
例如,该得分确定装置205根据下式,计算得到索引问题的相关性得分,该索引问题的相关性得分以Sfinal表示:
Sfinal=Srel*Wrel+Squality*Wquality+Sformat*Wformat
其中,Srel为该索引问题的同义相关属性、Squality为该索引问题的质量属性、Sformat为该索引问题的可读属性。
其中,Wrel为同义相关属性对应的权值,Wquality为同义相关属性对应的权值、Wformat为同义相关属性对应的权值,例如其分别为0.8、0.1、0.1,代表同义相关属性、质量属性、可读属性三个特征的重要程度。
在此,检索设备1进一步结合索引问题的问题属性对应的权值,确定索引问题的相关性得分,进一步提升了相关问题的相关性,提高了检索的效率,提升了用户的搜索使用体验。
优选地,所述得分确定装置205根据所述索引问题的问题属性,并结合所述索引问题的同义调权值及所述同义词组的命中次数,确定所述索引问题的相关性得分。由于同义替换存在一定误差,因此,需要对同义处理进行降权处理,在此引入同义调权值Wsyn。具体地,该得分确定装置205根据匹配装置203所确定的索引问题的问题属性,并结合所述索引问题的同义调权值及所述同义词组的命中次数,确定所述索引问题的相关性得分,如统计在索引问题中以同义词组命中的次数,每命中一次则乘以该同义调权值Wsyn。在此,该同义调权值Wsyn的值可以是预设的也可根据实际情况进行调整,该同义调权值Wsyn的值小于1。
较佳地,该得分确定装置205根据所述索引问题的问题属性,并结合所述问题属性所对应的权值,及所述索引问题的同义调权值与所述同义词组的命中次数,确定所述索引问题的相关性得分。
则该索引问题的相关性得分Sfinal的计算方式可调整如下:
Sfinal=(Srel*Wrel+Squality*Wquality+Sformat*Wformat)*(Wsyn)n
在此,n为在索引问题中以同义词组命中的次数,Srel为该索引问题的同义相关属性、Squality为该索引问题的质量属性、Sformat为该索引问题的可读属性,Wrel为同义相关属性对应的权值,Wquality为同义相关属性对应的权值、Wformat为同义相关属性对应的权值。
在此,检索设备1进一步结合索引问题的同义调权值与同义词组的命中次数,确定索引问题的相关性得分,进一步提升了相关问题的相关性,提高了检索的效率,提升了用户的搜索使用体验。
优选地,所述提供装置204包括优先级确定单元(未示出)和提供单元(未示出)。该优先级确定单元根据所述索引问题的相关性得分,确定所述索引问题的优先级;提供单元按照所述优先级,确定与所述输入问题相对应的相关问题并提供给所述用户。具体地,优先级确定单元根据索引问题的相关性得分,确定所述索引问题的优先级,例如索引问题的相关性得分越高,则优先级越高;随后,提供单元按照这些索引问题的优先级的高低,确定与该用户的输入问题相对应的相关问题,如按照这些索引问题的优先级从高到低进行排序,将排在前列的预定数量的索引问题作为与该输入问题相对应的相关问题,进而,例如通过调用JSP、ASP或PHP等网页技术,将这些索引问题提供给该用户。
更优选地,所述提供单元按照所述优先级,并结合预置问题数,确定与所述输入问题相对应的相关问题;对所述相关问题进行去重处理,以将经去重处理后的相关问题提供给所述用户。具体地,提供单元按照索引问题的优先级的高低,将预置问题数的索引问题作为与用户的输入问题相对应的相关问题,例如,按照索引问题的优先级从高到低进行排列,将排在前列的预置问题数的索引问题作为与用户的输入问题相对应的相关问题。在此,预置问题数的值可以是预设的也可根据实际情况进行调整。较佳地,该提供单元还可对待提供给用户的相关问题进行去重处理,若去重处理对待提供给用户的某个相关问题进行了删除,则顺序将排在后面的索引问题提前,并最终将预置问题数的相关问题,通过调用JSP、ASP或PHP等网页技术,提供给该用户。
在此,检索设备1按照索引问题的优先级,并结合预置问题数,确定与输入问题相对应的相关问题;进而,对相关问题进行去重处理,以将经去重处理后的相关问题提供给所述用户,进一步提升了相关问题的相关性,提高了检索的效率,提升了用户的搜索使用体验。
图3示出根据本发明另一个方面的用于基于同义处理获取与输入问题对应的相关问题的方法流程图。
其中,在步骤S301中,检索设备1对用户输入的输入问题进行分词处理,以获得待处理词组。具体地,用户通过与用户设备的交互,例如通过在页面检索框内输入了输入问题,在步骤S301中,检索设备1通过一次或多次调用该用户设备所提供的页面接口程序(API),或者,通过调用诸如ASP、JSP或PHP等页面技术,或通过其他约定的获取方式,获取了该用户输入的输入问题;进而,在步骤S301中,检索设备1对该输入问题进行分词处理,例如,按照自然语言处理,将该输入问题切分成短语或字词,将这些切词处理后获得的短语或字词作为待处理词组;进一步地,在步骤S301中,检索设备1还可对该切词处理后获得的短语或字词进一步处理,如去除其中的无效词,将剩余的短语或字词作为待处理词组,或者,按照该切词处理后获得的短语或字词的权重相关信息,对这些短语或字词进行筛选处理,以确定待处理词组。
在此,权重相关信息例如IDF值,IDF为逆向文件频率(InverseDocument Frequency),IDF的主要思想是,如果包含词组t的文档越少,则该词组t的IDF值越大,说明该词组t具有很好的类别区分能力。
例如,在步骤S301中,检索设备1对所获取的输入问题进行分词处理,获得分词处理后的词组,接着,在步骤S301中,检索设备1按照该分词处理后获得的词组的IDF值,取IDF值高于预定阈值的词组,作为待处理词组;或者,按照该分词处理后获得的词组的IDF值,将该分词处理后的词组进行降序排列,再取排在前面的预定数量的词组作为待处理词组,如将IDF值最高的8个词组作为待处理词组,或者,当该分词处理后的词组数量不满8个,则全部予以保留,以作为待处理词组。
本领域技术人员应能理解上述对输入问题进行分词处理的方式仅为举例,其他现有的或今后可能出现的对输入问题进行分词处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S302中,检索设备1根据所述待处理词组,确定与所述待处理词组同义的同义词组。具体地,在步骤S302中,检索设备1根据在步骤S301中所确定的待处理词组,通过在同义词表或者其他存储有同义词映射关系的词表或词库中进行匹配查询,确定与该待处理词组同义的同义词组。例如,用户通过与用户设备的交互,例如通过在页面检索框内输入了输入问题“为什么最近黄金价格下跌”,在步骤S301中,检索设备1获取了该输入问题,并对该输入问题进行了分词处理,获得待处理词组“为什么”、“最近”、“黄金价格”、“下跌”;在步骤S302中,检索设备1根据这些待处理词组,在同义词表或者其他存储有同义词映射关系的词表或词库中进行匹配查询,分别确定与待处理词组“为什么”同义的同义词组,如“为何”、“怎么会”等,与“最近”同义的同义词组,如“如今”、“现在”、“当前”等,与“黄金价格”同义的同义词组,如“金价”、“黄金价钱”、“金子价格”等,该输入问题中的其余待处理词组也可以同样的方式确定其同义词组。
本领域技术人员应能理解上述确定同义词组的方式仅为举例,其他现有的或今后可能出现的确定同义词组的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S303中,检索设备1根据所述待处理词组及对应的同义词组,在问题索引库中进行匹配查询,确定与所述待处理词组或所述同义词组相对应的索引问题。具体地,在步骤S303中,检索设备1根据在步骤S301中所确定的待处理词组及在步骤S302中所确定的这些待处理词组对应的同义词组,在问题索引库中进行匹配查询,确定与所述待处理词组或所述同义词组相对应的索引问题,在此,该索引问题中包含该待处理词组和/或该同义词组。
本领域技术人员应能理解上述确定索引问题的方式仅为举例,其他现有的或今后可能出现的确定索引问题的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S304中,检索设备1根据所述索引问题的相关性得分,确定与所述输入问题相对应的相关问题并提供给所述用户。具体地,在步骤S304中,检索设备1根据在步骤S303中所匹配获得的索引问题,通过匹配查询、实时计算等方式,确定这些索引问题的相关性得分,进而,按照这些索引问题的相关性得分,确定与所述输入问题相对应的相关问题并提供给所述用户,如将相关性得分高于预定阈值的索引问题作为与用户的输入问题相对应的相关问题,或者,按照这些索引问题的相关性得分进行排序,如按照相关性得分从高到低进行排列,将排在前列的预定数量的索引问题作为与该输入问题相对应的相关问题,进而,在步骤S304中,检索设备1例如通过调用JSP、ASP或PHP等网页技术,将这些相关问题提供给该用户。
本领域技术人员应能理解上述提供索引问题的方式仅为举例,其他现有的或今后可能出现的提供索引问题的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,检索设备1的各个步骤之间是持续不断工作的。具体地,在步骤S301中,检索设备1对用户输入的输入问题进行分词处理,以获得待处理词组;在步骤S302中,检索设备1根据所述待处理词组,确定与所述待处理词组同义的同义词组;在步骤S303中,检索设备1根据所述待处理词组及对应的同义词组,在问题索引库中进行匹配查询,确定与所述待处理词组或所述同义词组相对应的索引问题;在步骤S304中,检索设备1根据所述索引问题的相关性得分,确定与所述输入问题相对应的相关问题并提供给所述用户。在此,本领域技术人员应理解“持续”是指检索设备1的各步骤分别按照设定的或实时调整的工作模式要求进行输入问题的分词处理、同义词组的确定、索引问题的确定与提供,直至该检索设备1在较长时间内停止获取用户输入的输入问题。
在此,检索设备1对用户的输入问题进行分词处理,得到待处理词组及对应的同义词组,进而,匹配得到对应的索引问题,按照索引问题的相关性得分,确定与用户的输入问题相对应的相关问题并提供给该用户,由于在相关问题计算过程中引入了同义处理,提升了相关问题的相关性,提高了检索的效率,提升了用户的搜索使用体验。
优选地,在步骤S301中,检索设备1对所述用户输入的输入问题进行分词处理,以获得分词处理后的词组;基于无效词库,对所述分词处理后的词组进行过滤处理,以确定所述待处理词组。具体地,在步骤S301中,检索设备1根据所获取的输入问题,通过自然语言处理等方式,对该输入问题进行分词处理,获得分词处理后的词组;接着,在步骤S301中,检索设备1再基于无效词库,对所述分词处理后的词组进行过滤处理,过滤掉其中无实际意义的功能字词,如过滤掉该无效词库中所包括的“的、了、得、在”,或者如“加分”、“帮帮忙”、“谢谢”、“大侠”、“前辈”等字词,并将经过滤处理后的词组作为待处理词组。
在此,该无效词库中存储有无实际意义的功能字词,可以是预设的无效词库,也可通过用户反馈建立或更新,该无效词库可位于该检索设备1中,也可位于与该检索设备1具有网络连接的第三方设备中。
例如,用户通过与用户设备的交互,例如通过在页面检索框内输入了输入问题“为什么最近黄金价格下跌”,在步骤S301中,检索设备1获取了该输入问题,并对该输入问题进行了分词处理,获得分词处理后的词组“为什么”、“最近”、“黄金价格”、“下跌”;接着,在步骤S301中,检索设备1基于无效词库,对上述经分词处理后的词组进行过滤处理,如过滤掉词组为什么”、“最近”,并将剩余的词组“黄金价格”、“下跌”确定为待处理词组;在步骤S302中,检索设备1根据这些待处理词组,在同义词表或者其他存储有同义词映射关系的词表或词库中进行匹配查询,分别确定与待处理词组“黄金价格”同义的同义词组,如“金价”、“黄金价钱”、“金子价格”等,与待处理词组“下跌”同义的同义词组,如“下降”、“跌价”、“大跌”等;随后,在步骤S303中,检索设备1根据上述待处理词组及与其对应的同义词组,在问题索引库中进行匹配查询,确定与上述待处理词组或上述同义词组相对应的索引问题,如“黄金价格下跌原因”、“黄金价格最近为什么大跌”、“为什么最近金价在跌”等。在此,该索引问题中包含该待处理词组和/或该同义词组。
在此,检索设备1基于无效词库,对分词处理后的词组进行过滤处理,再确定待处理词组,进一步提升了待处理词组的准确性,提高了相关问题的相关性,提升了用户的搜索使用体验。
优选地,在步骤S302中,检索设备1根据所述待处理词组,结合同义词表,确定与所述待处理词组同义的同义词组。具体地,在步骤S302中,检索设备1根据在步骤S301中所确定的待处理词组,在同义词表中进行匹配查询,如根据该同义词表中所存储的与该待处理词组具有同义映射关系的词组,确定与该待处理词组同义的同义词组。
在此,该同义词表中存储有相互具有同义映射关系的词组,其可以是预定的,也可根据用户反馈进行建立或更新,该同义词表既可以位于该检索设备1中,也可位于与该检索设备1通过网络相连接的第三方设备中。
更优选地,步骤S303包括子步骤S303a(未示出)和子步骤S303b(未示出)。其中,在子步骤S303a中,检索设备1根据所述待处理词组及对应的同义词组,在问题索引库中进行匹配查找,以获得候选问题;在子步骤S303b中,检索设备1对所述候选问题进行归并处理,将经归并处理后的候选问题作为所述索引问题。具体地,在子步骤S303a中,检索设备1根据在步骤S301中所确定的待处理词组及在步骤S302中所确定的该待处理词组对应的同义词组,在问题索引库中进行匹配查找,获得候选问题,如分别获得这些待处理词组或同义词组所对应的索引拉链,在此,索引拉链是按降序排列的问题标识列表,每个索引问题唯一对应一个问题标识,将这些索引拉链,或者索引拉链中包括的索引问题作为候选问题。
由于待处理词组或同义词组所对应的索引拉链数量庞大,且其中包括相互重复的问题,例如待处理词组A对应的候选问题可能也对应待处理词组B,或者,该待处理词组A对应的候选问题还可能对应与待处理词组B同义的同义词组;因此,需要对这些候选问题,进行归并处理,再从归并处理后的候选问题中确定与该输入问题最相关的相关问题。在此,在子步骤S303b中,检索设备1对在子步骤S303a中所匹配得到的候选问题进行归并处理,将经归并处理后的候选问题作为与该待处理词组或同义词组相对应的索引问题。
在此,该问题索引库中存储有问题标识与索引问题的映射关系,每个索引问题唯一对应一个问题标识,该问题索引库既可以位于该检索设备1中,也可以位于与该检索设备1通过网络相连接的第三方设备中。
在此,检索设备1对用户的输入问题进行分词处理,得到待处理词组及对应的同义词组,进而,匹配得到对应的候选问题,并对该候选问题进行了归并处理,将归并后的候选问题作为索引问题,再按照索引问题的相关性得分,确定与用户的输入问题相对应的相关问题并提供给该用户,进一步提升了相关问题的相关性,提高了检索的效率,提升了用户的搜索使用体验。
优选地,在子步骤S303b中,检索设备1对所述候选问题进行归并处理,以获得经归并处理后的候选问题;根据所述候选问题的相关权值,确定所述索引问题。具体地,在子步骤S303b中,检索设备1根据由在子步骤S303a中所确定的候选问题,对这些候选问题进行归并处理,获得经归并处理后的候选问题;接着,在子步骤S303b中,检索设备1通过匹配查询或直接计算等方式,确定这些经归并处理后的候选问题的相关权值,并根据这些候选问题的相关权值确定待提供给用户的索引问题。例如,在子步骤S303b中,检索设备1将相关权值高于预定阈值的经归并处理后的候选问题作为索引问题,或者,按照相关权值降序排列,取排在前列的预定数量的候选问题作为索引问题,例如,将前N个候选问题作为索引问题。在此,该N的值可以是预定的也可根据实际情况进行调整。
在此,检索设备1对用户的输入问题进行分词处理,得到待处理词组及对应的同义词组,进而,匹配得到对应的候选问题,并对该候选问题进行了归并处理,并结合归并后的候选问题的相关权值,确定索引问题,再按照索引问题的相关性得分,确定与用户的输入问题相对应的相关问题并提供给该用户,进一步提升了相关问题的相关性,提高了检索的效率,提升了用户的搜索使用体验。
优选地,该检索设备1还包括步骤S306(未示出),在步骤S306中,检索设备1根据所述候选问题所命中的待处理词组和/或同义词组的权重值,确定所述索引问题的相关权值。具体地,在步骤S306中,检索设备1通过匹配查询或直接计算等方式,确定候选问题所命中的待处理词组和/或同义词组的权重值,例如,在步骤S306中,检索设备1通过匹配查询等方式,获取了这些待处理词组的权重相关信息,如IDF值,进而,根据该输入问题中每个待处理词组的权重相关信息,与该输入问题中所有待处理词组的权重相关信息的总和,确定其中每个待处理词组的权重值。以IDF值为例,假设在步骤S301中,检索设备1对输入问题进行分词处理,共获得了8个待处理词组,则在步骤S306中,检索设备1通过匹配查询等方式,获得了这8个待处理词组的IDF值,进而,将每个待处理词组的IDF值分别除以所有8个待处理词组的IDF值的总和,分别得到这8个待处理词组的权重值。在此,该待处理词组的同义词组与该待处理词组的权重值一致。
随后,在步骤S306中,检索设备1根据经归并处理后的所述候选问题所命中的待处理词组和/或同义词组的权重值,通过预定的计算方式,确定该索引问题的相关权值,例如,在步骤S306中,检索设备1通过累加每个待处理词组或同义词组的命中得分,对归并得到的每个候选问题计算其相关权值,若某个待处理词组或其对应的某个同义词组命中该候选问题,则命中得分为该待处理词组对应的权重,否则命中得分为零。
例如,对于在步骤S301中所确定的待处理词组“黄金价格”、“下跌”,在步骤S306中,检索设备1确定该待处理词组“黄金价格”的权重值为0.7,“下跌”的权重值为0.3,则对于在子步骤S303a中所匹配得到的候选问题,如“黄金价格下跌原因”、“金价现在是多少”等,前者命中了待处理词组“黄金价格”、“下跌”,其命中得分分别为待处理词组“黄金价格”、“下跌”的权重值,即0.7和0.3,则在步骤S306中,检索设备1通过累加该命中得分,确定其相关权值为1.0;后者命中了待处理词组“黄金价格”的同义词组“金价”,其命中得分为待处理词组“黄金价格”的权重值,即0.7,在步骤S306中,检索设备1确定该候选问题的相关权值为0.7。
在此,检索设备1通过累加每个索引问题中命中的待处理词组和/或同义词组的权重值,确定索引问题的相关权值,进一步提升了相关问题的相关性,提高了检索的效率,提升了用户的搜索使用体验。
图4示出根据本发明一个优选实施例的用于基于同义处理获取与输入问题对应的相关问题的方法流程图。以下参照图4对该优选实施例进行描述:具体地,在步骤S401中,检索设备1对用户输入的输入问题进行分词处理,以获得待处理词组;在步骤S402中,检索设备1根据所述待处理词组,确定与所述待处理词组同义的同义词组;在步骤S403中,检索设备1根据所述待处理词组及对应的同义词组,在问题索引库中进行匹配查询,确定与所述待处理词组或所述同义词组相对应的索引问题;在步骤S405中,检索设备1根据所述索引问题的问题属性,确定所述索引问题的相关性得分;在步骤S404中,检索设备1根据所述索引问题的相关性得分,确定与所述输入问题相对应的相关问题并提供给所述用户。其中,步骤S401-S404与图3所示对应步骤相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
其中,在步骤S405中,检索设备1根据所述索引问题的问题属性,确定所述索引问题的相关性得分;其中,所述问题属性包括以下至少任一项:
-所述索引问题的同义相关属性;
-所述索引问题的质量属性;
-所述索引问题的可读属性。
具体地,在步骤S405中,检索设备1根据在步骤S403中所确定的索引问题,通过在数据库中进行匹配查找或者实时计算等方式,确定这些索引问题的问题属性,进而,根据这些索引问题的问题属性,通过预定的计算方式,确定这些索引问题的相关性得分。
在此,所述索引问题的同义相关属性用于衡量问题与问题的相关性因素,该同义相关属性的值例如可以是检索系统返回的,其值等于命中的待处理词组的权重值之和/输入问题的所有待处理词组的权重值之和,其可用Srel表示。
所述索引问题的质量属性用于衡量问题的质量因素,其可用Squality表示,并可由如下公式计算得出:
Squality=[log2(g+1.0)]/10
其中,g为从问题元数据库中得到当前索引问题的好评数。
若Squality大于1,则置为1。
所述索引问题的可读属性用于衡量问题的相对于主题的可读性,其可用Sformat表示,并可由如下公式计算得出:
Sformat=(100-问题长度)/问题最长字节数
即,长度越短的索引问题的可读性越好。
在此,该问题最长字节数可以是预定的也可根据实际情况进行调整。
在步骤S405中,检索设备1例如通过将索引问题的问题属性简单相加,或再结合问题属性对应权值确定加权和等预定的计算方式,确定这些索引问题的相关性得分。
本领域技术人员应能理解上述问题属性及计算索引问题的相关性得分的方式仅为举例,其他现有的或今后可能出现的问题属性或计算索引问题的相关性得分的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在此,检索设备1根据索引问题的问题属性,确定索引问题的相关性得分,进一步提升了相关问题的相关性,提高了检索的效率,提升了用户的搜索使用体验。
优选地,在步骤S405中,检索设备1根据所述索引问题的问题属性,并结合所述问题属性所对应的权值,确定所述索引问题的相关性得分。具体地,上述问题属性还可对应一定的权值,该权值代表了上述问题属性的重要程度,如Wrel为同义相关属性对应的权值,Wquality为同义相关属性对应的权值、Wformat为同义相关属性对应的权值,上述权值可以是预设的也可根据实际情况进行调整。在步骤S405中,检索设备1根据在步骤S403中所确定的索引问题的问题属性,并结合所述问题属性所对应的权值,通过加权计算等方式,确定该索引问题的相关性得分。
例如,在步骤S405中,检索设备1根据下式,计算得到索引问题的相关性得分,该索引问题的相关性得分以Sfinal表示:
Sfinal=Srel*Wrel+Squality*Wquality+Sformat*Wformat
其中,Srel为该索引问题的同义相关属性、Squality为该索引问题的质量属性、Sformat为该索引问题的可读属性。
其中,Wrel为同义相关属性对应的权值,Wquality为同义相关属性对应的权值、Wformat为同义相关属性对应的权值,例如其分别为0.8、0.1、0.1,代表同义相关属性、质量属性、可读属性三个特征的重要程度。
在此,检索设备1进一步结合索引问题的问题属性对应的权值,确定索引问题的相关性得分,进一步提升了相关问题的相关性,提高了检索的效率,提升了用户的搜索使用体验。
优选地,在步骤S405中,检索设备1根据所述索引问题的问题属性,并结合所述索引问题的同义调权值及所述同义词组的命中次数,确定所述索引问题的相关性得分。由于同义替换存在一定误差,因此,需要对同义处理进行降权处理,在此引入同义调权值Wsyn。具体地,在步骤S405中,检索设备1根据在步骤S403中所确定的索引问题的问题属性,并结合所述索引问题的同义调权值及所述同义词组的命中次数,确定所述索引问题的相关性得分,如统计在索引问题中以同义词组命中的次数,每命中一次则乘以该同义调权值Wsyn。在此,该同义调权值Wsyn的值可以是预设的也可根据实际情况进行调整,该同义调权值Wsyn的值小于1。
较佳地,在步骤S405中,检索设备1根据所述索引问题的问题属性,并结合所述问题属性所对应的权值,及所述索引问题的同义调权值与所述同义词组的命中次数,确定所述索引问题的相关性得分。
则该索引问题的相关性得分Sfinal的计算方式可调整如下:
Sfinal=(Srel*Wrel+Squality*Wquality+Sformat*Wformat)*(Wsyn)n
在此,n为在索引问题中以同义词组命中的次数,Srel为该索引问题的同义相关属性、Squality为该索引问题的质量属性、Sformat为该索引问题的可读属性,Wrel为同义相关属性对应的权值,Wquality为同义相关属性对应的权值、Wformat为同义相关属性对应的权值。
在此,检索设备1进一步结合索引问题的同义调权值与同义词组的命中次数,确定索引问题的相关性得分,进一步提升了相关问题的相关性,提高了检索的效率,提升了用户的搜索使用体验。
优选地,步骤S404包括子步骤S404a(未示出)和子步骤S404b(未示出)。在子步骤S404a中,检索设备1根据所述索引问题的相关性得分,确定所述索引问题的优先级;在子步骤S404b中,检索设备1按照所述优先级,确定与所述输入问题相对应的相关问题并提供给所述用户。具体地,在子步骤S404a中,检索设备1根据索引问题的相关性得分,确定所述索引问题的优先级,例如索引问题的相关性得分越高,则优先级越高;随后,在子步骤S404b中,检索设备1按照这些索引问题的优先级的高低,确定与该用户的输入问题相对应的相关问题,如按照这些索引问题的优先级从高到低进行排序,将排在前列的预定数量的索引问题作为与该输入问题相对应的相关问题,进而,例如通过调用JSP、ASP或PHP等网页技术,将这些索引问题提供给该用户。
更优选地,在子步骤S404b中,检索设备1按照所述优先级,并结合预置问题数,确定与所述输入问题相对应的相关问题;对所述相关问题进行去重处理,以将经去重处理后的相关问题提供给所述用户。具体地,在子步骤S404b中,检索设备1按照索引问题的优先级的高低,将预置问题数的索引问题作为与用户的输入问题相对应的相关问题,例如,按照索引问题的优先级从高到低进行排列,将排在前列的预置问题数的索引问题作为与用户的输入问题相对应的相关问题。在此,预置问题数的值可以是预设的也可根据实际情况进行调整。较佳地,在子步骤S404b中,检索设备1还可对待提供给用户的相关问题进行去重处理,若去重处理对待提供给用户的某个相关问题进行了删除,则顺序将排在后面的索引问题提前,并最终将预置问题数的相关问题,通过调用JSP、ASP或PHP等网页技术,提供给该用户。
在此,检索设备1按照索引问题的优先级,并结合预置问题数,确定与输入问题相对应的相关问题;进而,对相关问题进行去重处理,以将经去重处理后的相关问题提供给所述用户,进一步提升了相关问题的相关性,提高了检索的效率,提升了用户的搜索使用体验。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (22)
1.一种基于同义处理获取与输入问题相对应的相关问题的方法,其中,该方法包括以下步骤:
a对用户输入的输入问题进行分词处理,以获得待处理词组;
b根据所述待处理词组,确定与所述待处理词组同义的同义词组;
c根据所述待处理词组及对应的同义词组,在问题索引库中进行匹配查找,确定与所述待处理词组或所述同义词组相对应的索引问题;
d根据所述索引问题的相关性得分,确定与所述输入问题相对应的相关问题并提供给所述用户。
2.根据权利要求1所述的方法,其中,所述步骤a包括:
-对所述用户输入的输入问题进行分词处理,以获得分词处理后的词组;
-基于无效词库,对所述分词处理后的词组进行过滤处理,以确定所述待处理词组。
3.根据权利要求1或2所述的方法,其中,所述步骤b包括:
-根据所述待处理词组,结合同义词表,确定与所述待处理词组同义的同义词组。
4.根据权利要求3所述的方法,其中,所述步骤c包括:
c1根据所述待处理词组及对应的同义词组,在问题索引库中进行匹配查找,以获得候选问题;
c2对所述候选问题进行归并处理,将经归并处理后的候选问题作为所述索引问题。
5.根据权利要求4所述的方法,其中,所述步骤c2包括:
-对所述候选问题进行归并处理,以获得经归并处理后的候选问题;
-根据所述候选问题的相关权值,确定所述索引问题。
6.根据权利要求5所述的方法,其中,该方法还包括:
-根据所述候选问题所命中的待处理词组和/或同义词组的权重值,确定所述索引问题的相关权值。
7.根据权利要求1至6中任一项所述的方法,其中,该方法还包括:
x根据所述索引问题的问题属性,确定所述索引问题的相关性得分;
其中,所述问题属性包括以下至少任一项:
-所述索引问题的同义相关属性;
-所述索引问题的质量属性;
-所述索引问题的可读属性。
8.根据权利要求7所述的方法,其中,所述步骤x包括:
-根据所述索引问题的问题属性,并结合所述问题属性所对应的权值,确定所述索引问题的相关性得分。
9.根据权利要求7或8所述的方法,其中,所述步骤x包括:
-根据所述索引问题的问题属性,并结合所述索引问题的同义调权值及所述同义词组的命中次数,确定所述索引问题的相关性得分。
10.根据权利要求1至9中任一项所述的方法,其中,所述步骤d包括:
d1根据所述索引问题的相关性得分,确定所述索引问题的优先级;
d2按照所述优先级,确定与所述输入问题相对应的相关问题并提供给所述用户。
11.根据权利要求10所述的方法,其中,所述步骤d2包括:
-按照所述优先级,并结合预置问题数,确定与所述输入问题相对应的相关问题;
-对所述相关问题进行去重处理,以将经去重处理后的相关问题提供给所述用户。
12.一种基于同义处理获取与输入问题相对应的相关问题的检索设备,其中,该设备包括:
分词装置,用于对用户输入的输入问题进行分词处理,以获得待处理词组;
同义确定装置,用于根据所述待处理词组,确定与所述待处理词组同义的同义词组;
匹配装置,用于根据所述待处理词组及对应的同义词组,在问题索引库中进行匹配查询,确定与所述待处理词组或所述同义词组相对应的索引问题;
提供装置,用于根据所述索引问题的相关性得分,确定与所述输入问题相对应的相关问题并提供给所述用户。
13.根据权利要求12所述的检索设备,其中,所述分词装置用于:
-对所述用户输入的输入问题进行分词处理,以获得分词处理后的词组;
-基于无效词库,对所述分词处理后的词组进行过滤处理,以确定所述待处理词组。
14.根据权利要求12或13所述的检索设备,其中,所述同义确定装置用于:
-根据所述待处理词组,结合同义词表,确定与所述待处理词组同义的同义词组。
15.根据权利要求14所述的检索设备,其中,所述匹配装置包括:
匹配单元,用于根据所述待处理词组及对应的同义词组,在问题索引库中进行匹配查找,以获得候选问题;
归并单元,用于对所述候选问题进行归并处理,将经归并处理后的候选问题作为所述索引问题。
16.根据权利要求15所述的检索设备,其中,所述归并单元用于:
-对所述候选问题进行归并处理,以获得经归并处理后的候选问题;
-根据所述候选问题的相关权值,确定所述索引问题。
17.根据权利要求16所述的检索设备,其中,该设备还包括:
权值确定装置,用于根据所述候选问题所命中的待处理词组和/或同义词组的权重值,确定所述索引问题的相关权值。
18.根据权利要求12至17中任一项所述的检索设备,其中,该设备还包括:
得分确定装置,用于根据所述索引问题的问题属性,确定所述索引问题的相关性得分;
其中,所述问题属性包括以下至少任一项:
-所述索引问题的同义相关属性;
-所述索引问题的质量属性;
-所述索引问题的可读属性。
19.根据权利要求18所述的检索设备,其中,所述得分确定装置用于:
-根据所述索引问题的问题属性,并结合所述问题属性所对应的权值,确定所述索引问题的相关性得分。
20.根据权利要求18或19所述的检索设备,其中,所述得分确定装置用于:
-根据所述索引问题的问题属性,并结合所述索引问题的同义调权值及所述同义词组的命中次数,确定所述索引问题的相关性得分。
21.根据权利要求12至20中任一项所述的检索设备,其中,所述提供装置包括:
优先级确定单元,用于根据所述索引问题的相关性得分,确定所述索引问题的优先级;
提供单元,用于按照所述优先级,确定与所述输入问题相对应的相关问题并提供给所述用户。
22.根据权利要求21所述的检索设备,其中,所述提供单元用于:
-按照所述优先级,并结合预置问题数,确定与所述输入问题相对应的相关问题;
-对所述相关问题进行去重处理,以将经去重处理后的相关问题提供给所述用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310156975.9A CN104123322A (zh) | 2013-04-28 | 2013-04-28 | 基于同义处理获取与输入问题对应的相关问题的方法、设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310156975.9A CN104123322A (zh) | 2013-04-28 | 2013-04-28 | 基于同义处理获取与输入问题对应的相关问题的方法、设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104123322A true CN104123322A (zh) | 2014-10-29 |
Family
ID=51768734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310156975.9A Pending CN104123322A (zh) | 2013-04-28 | 2013-04-28 | 基于同义处理获取与输入问题对应的相关问题的方法、设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104123322A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447080A (zh) * | 2015-11-05 | 2016-03-30 | 华建宇通科技(北京)有限责任公司 | 一种社区问答搜索中的查询补全方法 |
WO2017117806A1 (zh) * | 2016-01-08 | 2017-07-13 | 马岩 | 网络信息的搜词方法及系统 |
CN113326420A (zh) * | 2021-06-15 | 2021-08-31 | 北京百度网讯科技有限公司 | 问题检索方法、装置、电子设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101286161A (zh) * | 2008-05-28 | 2008-10-15 | 华中科技大学 | 一种基于概念的智能中文问答系统 |
CN102722498A (zh) * | 2011-03-31 | 2012-10-10 | 北京百度网讯科技有限公司 | 搜索引擎及其实现方法 |
US20130031122A1 (en) * | 2007-06-22 | 2013-01-31 | Google Inc. | Machine Translation for Query Expansion |
CN103049548A (zh) * | 2012-12-27 | 2013-04-17 | 安徽科大讯飞信息科技股份有限公司 | 电子渠道应用上的faq识别系统及方法 |
-
2013
- 2013-04-28 CN CN201310156975.9A patent/CN104123322A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130031122A1 (en) * | 2007-06-22 | 2013-01-31 | Google Inc. | Machine Translation for Query Expansion |
CN101286161A (zh) * | 2008-05-28 | 2008-10-15 | 华中科技大学 | 一种基于概念的智能中文问答系统 |
CN102722498A (zh) * | 2011-03-31 | 2012-10-10 | 北京百度网讯科技有限公司 | 搜索引擎及其实现方法 |
CN103049548A (zh) * | 2012-12-27 | 2013-04-17 | 安徽科大讯飞信息科技股份有限公司 | 电子渠道应用上的faq识别系统及方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447080A (zh) * | 2015-11-05 | 2016-03-30 | 华建宇通科技(北京)有限责任公司 | 一种社区问答搜索中的查询补全方法 |
CN105447080B (zh) * | 2015-11-05 | 2018-10-26 | 华建宇通科技(北京)有限责任公司 | 一种社区问答搜索中的查询补全方法 |
WO2017117806A1 (zh) * | 2016-01-08 | 2017-07-13 | 马岩 | 网络信息的搜词方法及系统 |
CN113326420A (zh) * | 2021-06-15 | 2021-08-31 | 北京百度网讯科技有限公司 | 问题检索方法、装置、电子设备和介质 |
CN113326420B (zh) * | 2021-06-15 | 2023-10-27 | 北京百度网讯科技有限公司 | 问题检索方法、装置、电子设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112988969B (zh) | 用于文本检索的方法、装置、设备以及存储介质 | |
CN108319627B (zh) | 关键词提取方法以及关键词提取装置 | |
WO2020164276A1 (zh) | 网页数据爬取方法、装置、系统及计算机可读存储介质 | |
CN101609472B (zh) | 一种基于问答平台的关键词评价方法和装置 | |
CN110532352B (zh) | 文本查重方法及装置、计算机可读存储介质、电子设备 | |
JP2009516307A (ja) | ランクベースの応答セットのクラスタ化のための方法および装置 | |
US10528662B2 (en) | Automated discovery using textual analysis | |
US10565253B2 (en) | Model generation method, word weighting method, device, apparatus, and computer storage medium | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN103744889A (zh) | 一种用于对问题进行聚类处理的方法与装置 | |
CN105550359A (zh) | 一种基于垂直搜索的网页排序方法、装置及服务器 | |
CN111538903B (zh) | 搜索推荐词确定方法、装置、电子设备及计算机可读介质 | |
CN113660541A (zh) | 新闻视频的摘要生成方法及装置 | |
CN117539990A (zh) | 一种问题处理方法、装置、电子设备和存储介质 | |
CN104123322A (zh) | 基于同义处理获取与输入问题对应的相关问题的方法、设备 | |
CN110750981A (zh) | 一种基于机器学习的高准确度网站敏感词检测方法 | |
CN113836918A (zh) | 文档搜索方法、装置、计算机设备及计算机可读存储介质 | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
CN102760127A (zh) | 基于扩展文本信息来确定资源类型的方法、装置及设备 | |
WO2009155292A1 (en) | Systems and methods for document searching | |
CN104123320A (zh) | 一种获取与输入问题相对应的相关问题的方法与设备 | |
CN106951548B (zh) | 基于rm算法提升特写词语搜索精度的方法及系统 | |
CN114547233A (zh) | 数据查重方法、装置及电子设备 | |
CN114780712A (zh) | 一种基于质量评价的新闻专题生成方法及装置 | |
JP2008282111A (ja) | 類似文書検索方法、プログラムおよび装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20141029 |
|
RJ01 | Rejection of invention patent application after publication |