CN103678513A - 一种交互式的检索式生成方法及系统 - Google Patents

一种交互式的检索式生成方法及系统 Download PDF

Info

Publication number
CN103678513A
CN103678513A CN201310611470.7A CN201310611470A CN103678513A CN 103678513 A CN103678513 A CN 103678513A CN 201310611470 A CN201310611470 A CN 201310611470A CN 103678513 A CN103678513 A CN 103678513A
Authority
CN
China
Prior art keywords
document
retrieval
word
binary phrase
descriptor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310611470.7A
Other languages
English (en)
Other versions
CN103678513B (zh
Inventor
吴及
侯晋峰
吕萍
何婷婷
胡国平
胡郁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iflytek Medical Technology Co ltd
Tsinghua University
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201310611470.7A priority Critical patent/CN103678513B/zh
Publication of CN103678513A publication Critical patent/CN103678513A/zh
Application granted granted Critical
Publication of CN103678513B publication Critical patent/CN103678513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明公开了一种交互式的检索式生成方法及系统,该方法包括:在接收到用户输入的一级检索式后获取与所述一级检索式相对应的一级检索文档集;对一级检索文档集进行主题聚类,获取与各主题一一对应的一级检索文档子集;提取所述一级检索文档子集中的主题词;将主题词及其对应的主题提供给用户,并提示用户利用所述主题词确定与其对应的主题相关的二级检索式。本发明的交互式的检索式生成方法及系统可以辅助用户生成复杂检索式,帮助专业检索领域的专业检索人员生成更为精确的检索式。

Description

一种交互式的检索式生成方法及系统
技术领域
本发明涉及文本检索领域,尤其涉及一种交互式的检索式生成方法及系统。
背景技术
随着现代社会各种信息量的高速增长以及存储技术的不断进步,从海量数据中快速有效的获取有用信息也越来越困难,大量的数据得不到有效的利用。检索是一种实现海量数据中有用信息快速获取的技术手段,其接收用户检索式输入,在数据库中搜索与所述检索式相关的内容。检索式即理解和运算的查词串,至少包括关键词,对于复杂的检索,通常还包括逻辑运算符、搜索指令(搜索语法)等,其中关键词是检索式的主体,逻辑运算符和搜索指令根据具体的查询要求从不同的角度对关键词进行搜索限定。
显然构建更加高效的检索式可以提高检索的精确性,对一些专业检索领域尤其具有重要意义。如电话服务行业的录音数据,通过语音识别转化为文本以后,由语音识别带来的一些错误容易导致精确信息获取的困难,而通过构建更加专业鲁棒的检索式则可以帮助我们对数据进行更加精确的定位,获取更多的信息。
用户在使用检索系统时通常需要人工生成检索式,然而即使是一些专业领域的专业检索人员,也只是靠自己多年的从业经验来生成比较好的检索式,且个体差异很大。对此,为了改善和提高信息检索的性能,目前在检索领域一般采用查询扩展的方法,以用户原查询为基础,把与原查询相关的词或者词组自动添加到原查询,得到比原查询更长的新查询,以便更完整地描述原查询所隐含的语义或者主题,帮助信息检索系统提供更多有利于判断文档相关性的信息。其具体流程如下所示:
步骤1:接收用户输入的检索式;
步骤2:根据所述检索式在数据库中搜索得到相关文档,作为初检结果;
步骤3:从所述初检结果中获取原检索式的扩展词,具体可以利用聚类技术、文本挖掘技术、关联规则等,从文本集或者用户查询日志中获取;
步骤4:根据所述扩展词以及原检索式,生成新的检索式;
步骤5:根据所述新的检索式重新检索。
基于查询扩展的检索式生成方法,以全自动的方式获得扩展词,得到比原查询更完备的新查询,实现了对原查询所隐含的语义或者主题的更完整的描述,从而帮助信息检索系统提供更多有利于判断文档相关性的信息。然而该方法生成的检索式对用户完全不透明,因此,所产生的结果是无法预料的;其次,扩展词之间通常采用“或”的逻辑进行连接,对检索结果的性能提升有限,且对于检索结果没有有效的快速评估的方法,需要检索人员一条一条的浏览;再次,生成的检索式也无法重复利用,如果用户想在不同的数据集上检索得到该类数据,则需要重新进行构建检索式。
发明内容
本发明的一个目的在于克服现有技术中的不足,提供了一种交互式的检索式生成方法,以辅助用户生成复杂检索式,帮助专业检索领域的专业检索人员生成更为精确的检索式。
为了实现上述目的,本发明采用的技术方案为:一种交互式的检索式生成方法,包括:
在接收到用户输入的一级检索式后获取与所述一级检索式相对应的一级检索文档集;
对所述一级检索文档集进行主题聚类,获取与各主题一一对应的一级检索文档子集;
提取所述一级检索文档子集中的主题词;
将所述主题词及其对应的主题提供给用户,并提示用户利用所述主题词确定与其对应的主题相关的二级检索式。
优选的是,所述方法还包括:
在接收到用户输入的二级检索式后,获取与各二级检索式一一对应的二级检索文档集;
对二级检索式进行两两组合,使每组两个二级检索式成为两个待验证检索式;
对两个待验证检索式进行交叉验证,获取与两个待验证检索式一一对应的两个检索文档集的交叉文档集,若所述交叉文档集中文档的数目大于设定阈值,则对两个待验证检索式进行优化。
优选的是,所述对两个待验证检索式进行优化包括:
对所述交叉文档集进行主题聚类,获取与所述交叉文档集的各主题一一对应的交叉文档子集;
提取交叉文档子集中的主题词,并将交叉文档子集的主题词及其对应的主题提供给用户,同时提示用户利用交叉文档子集的主题词优化两个待验证检索式,确定两个优化检索式。
优选的是,所述方法还包括:
在接收到用户输入的两个优化检索式后,获取与两个优化检索式一一对应的两个检索文档集;
使两个优化检索式作为两个待验证检索式进行所述交叉验证。
优选的是,所述方法还包括:
为用户提供用于确定检索式的逻辑运算符,所述逻辑运算符包括“邻近”,所述“邻近”表示相“邻近”的两个关键词在文档中的距离在预设字数以内。
优选的是,所述主题聚类的方法包括:
步骤a1:设定待聚类文档集为被拆分类,提取被拆分类中文档的聚类特征,获取与文档一一对应的特征向量;
步骤a2:在被拆分类中选择两个密度最大的文档作为种子文档,文档的密度为在被拆分类中与文档的余弦距离小于0.5的文档的个数,其中,文档间的余弦距离为文档的特征向量间的余弦距离;
步骤a3:以两个所述种子文档作为种子,用K均值聚类算法将所述被拆分类拆分为两个主题;
步骤a4:判断两个主题中是否有一个主题的文档数量小于被拆分类的预设百分比,如是则主题聚类结束,否则将两个主题中数量较多的一个主题作为被拆分类,继续执行步骤a2。
优选的是,在步骤a1中,对每篇文档计算特征词典中每个词的TF-IDF值作为聚类特征,获取k维的特征向量,其中,k等于特征词典中词的数量。
优选的是,所述方法还包括:获取所述特征词典的方法为:
统计整个检索库中所有文档所包含的词及对应的词频,作为背景特征;
统计一级检索文档集中所有文档所包含的词及对应的词频,作为候选特征;
计算候选特征与背景特征之间的词的词频的差异度,选择差异度最大的预设数量的词构成所述特征词典。
优选的是,提取经主题聚类得到的各文档子集的主题词包括:
提取各文档子集的候选主题词;
将同一候选主题词分配给词频最高的文档子集;
针对每个文档子集选择词频最高的6至12个候选主题词作为主题词;
优选的是,所述提取各文档子集的候选主题词包括:
查找文档子集中距离在m个词以内的二元词组,在二元词组表中列出查找到的二元词组及对应的词频,其中m取0至5的整数;
查找二元词组表中的等同二元词组,所述等同二元词组由两个词相同、但语序不同的二元词组构成;在二元词组表中删除等同二元词组中词频较低的二元词组,并将词频较高的二元词组的词频更新为等同二元词组的词频;
在二元词组表中删除具有停词表中的停词的二元词组;
提取二元词组表中词频最高的n个二元词组作为文档子集的候选主题词,n取10至100的整数。
本发明的另一个目的在于克服现有技术中的不足,提供了一种交互式的检索式生成系统,以辅助用户生成复杂检索式,帮助专业检索领域的专业检索人员生成更为精确的检索式。
为实现上述目的,本发明采用的技术方案为:一种交互式的检索式生成系统,包括:
第一输入模块,用于接收用户输入的一级检索式;
第一检索模块,用于在接收到所述第一输入模块提供的一级检索式后获取与所述一级检索式相对应的一级检索文档集;
聚类模块,用于对所述一级检索文档集进行主题聚类,获取与各主题一一对应的一级检索文档子集;
主题词提取模块,用于提取所述一级检索文档子集中的主题词;
第一输出模块,用于将所述主题词及其对应的主题提供给用户,并提示用户利用所述主题词确定与其对应的主题相关的二级检索式。
优选的是,所述系统还包括:
第二输入模块,用于接收用户输入的二级检索式;
第二检索模块,用于在接收到所述第二输入模块提供的二级检索式后,获取与各二级检索式一一对应的二级检索文档集;
组合模块,用于对二级检索式进行两两组合,使每组两个二级检索式成为两个待验证检索式;以及,
交叉验证模块,用于对两个待验证检索式进行交叉验证,所述交叉验证模块包括:
统计单元,用于获取与两个待验证检索式一一对应的两个检索文档集的交叉文档集;
比较单元,用于将所述交叉文档集中文档的数目与设定阈值进行比较,如果交叉文档集中文档的数目大于设定阈值,则确定对两个待验证检索式进行优化。
优选的是,所述比较单元还用于在确定对两个待验证检索式进行优化后,将所述交叉文档集输入至所述聚类模块;所述聚类模块还用于获取与所述交叉文档集的各主题一一对应的交叉文档子集;所述主题词提取模块还用于提取交叉文档子集的主题词;所述系统还包括:
第二输出模块,用于将交叉文档子集的主题词及其对应的主题提供给用户,同时提示用户利用交叉文档子集的主题词优化两个待验证检索式,确定两个优化检索式。
优选的是,所述系统还包括:
第三输入模块,用于接收用户输入的两个优化检索式,以及用于将两个优化检索式作为两个待验证检索式输入至所述交叉验证模块;
第三检索模块,用于在接收到所述第三输入模块提供的两个优化检索式后,获取与两个优化检索式一一对应的两个优化检索文档集。
优选的是,所述聚类模块包括:
特征向量计算单元,用于设定待聚类文档集为被拆分类,提取被拆分类中各文档的聚类特征,获取与各文档一一对应的特征向量;
种子文档确定单元,用于在被拆分类中选择两个密度最大的文档作为种子文档,文档的密度为在被拆分类中与文档的余弦距离小于0.5的文档的个数,其中,文档间的余弦距离为文档的特征向量间的余弦距离;
K均值聚类单元,用于以两个所述种子文档作为种子,用K均值聚类算法将所述被拆分类拆分为两个主题;以及,
判断单元,用于判断两个主题中是否有一个主题的文档数量小于被拆分类的预设百分比,如是则主题聚类结束,否则将两个主题中数量较多的一个主题作为被拆分类输入至种子文档确定单元。
优选的是,所述特征向量计算单元用于对每篇文档计算特征词典中每个词的TF-IDF值作为聚类特征,获取k维的特征向量,其中,k等于特征词典中词的数量。
优选的是,所述聚类模块还包括特征词典获取模块,所述特征词典生成模块包括:
背景特征统计单元,用于统计整个检索库中所有文档所包含的词及对应的词频,作为背景特征;
候选特征统计单元,用于统计一级检索文档集中所有文档所包含的词及对应的词频,作为候选特征;
差异度计算单元,用于计算候选特征与背景特征之间的词的词频的差异度,选择差异度最大的预设数量的词构成所述特征词典。
优选的是,所述主题词提取模块包括:
候选主题词提取单元,用于提取各文档子集的候选主题词;
分配单元,用于将同一候选主题词分配给词频最高的文档子集;
主题词选择单元,用于针对每个文档子集选择词频最高的6至12个候选主题词作为主题词。
优选的是,所述候选主题词提取单元包括:
二元词组查找子单元,用于查找文档子集中距离在m个词以内的二元词组,在二元词组表中列出查找到的二元词组及对应的词频,其中m取0至5的整数;
合并子单元,用于查找二元词组表中的等同二元词组,所述等同二元词组由两个词相同、但语序不同的二元词组构成;在二元词组表中删除等同二元词组中词频较低的二元词组,并将词频较高的二元词组的词频更新为等同二元词组的词频;
删除子单元,用于在二元词组表中删除具有停词表中的停词的二元词组;
候选主题词选择子单元,用于提取二元词组表中词频最高的n个二元词组作为文档子集的候选主题词,n取10至100的整数。
本发明的有益效果在于,本发明提出的交互式的检索式生成方法及系统,可以辅助用户生成复杂检索式,帮助专业检索领域的专业检索人员生成更为精确的检索式;可让计算机等参与到检索式的生成过程中,通过文本挖掘的技术为检索人员提供作为候选检索词的主题词,辅助检索人员生成更加复杂及精确的检索式;还可以辅助检索人员对检索结果进行验证,快速对检索性能进行有效评估,获得更加精确的检索结果;进一步地,通过本发明的方法生成的检索式在同一类数据上可以重复利用,大大减轻了检索人员的负担,提高了检索的准确率。
附图说明
图1示出了根据本发明所述交互式的检索式生成方法的一种实施方式的流程图;
图2示出了根据本发明所述交互式的检索式生成方法的另一种实施方式的流程图;
图3示出了进行图2中所示交叉验证的方法;
图4示出了根据本发明所述交互式的检索式生成方法的第三种实施方式的流程图;
图5示出了实现图4所示第三种实施方式的一个具体实施步骤;
图6示出了根据本发明所述交互式的检索式生成系统的一种实施结构;
图7示出了根据本发明所述交互式的检索式生成系统的另一种实施结构;
图8示出了根据本发明所述交互式的检索式生成系统的第三种实施结构;
图9示出了根据本发明所述交互式的检索式生成系统的第四种实施结构。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
如图1所示,本发明的交互式的检索式生成方法包括:
步骤S1:在接收到用户输入的一级检索式后获取与所述一级检索式相对应的一级检索文档集。
步骤S2:对所述一级检索文档集进行主题聚类,获取与各主题一一对应的一级检索文档子集,即按照确定的各主题将一级检索文档集拆分成各一级检索文档子集;该主题聚类可采用现有的主题聚类方法。
步骤S3:提取所述一级检索文档子集中的主题词。
步骤S4:将所述主题词及其对应的主题提供给用户,并提示用户利用所述主题词确定与其对应的主题相关的二级检索式。在此,用户可对每一个其认为有意义的主题提供一个二级检索式,用户可以选取该主题下的与自身的检索目的相关的主题词,以“与”、“或”、“非”、“near”(即“邻近”)等逻辑运算符进行组合,获取该主题的二级检索式;以上的逻辑运算符“near”表示相“near”的两个关键词在文档中的距离在预设字数以内,该预定字数通常选择为0至5间的整数,最常用的选择是3。
在此,主题词的提取不仅可以告诉用户各主题(或者称为子类)中的文档内容,而且可以帮助用户生成与各主题相关的检索式。在人类语言中,二元词组比单个词表达意思更加明确,比如“开通-流量”比单独的“流量”更加清晰,但是如果用“开通&流量”这样的检索式在检索库中进行检索,将会产生很多的虚警,比如一个文档中出现了“开通来电显示”,同时“取消流量”,就会被误检到,如果限定“开通”和“流量”两个词之间的距离,则可以大大的提高准确率,因此,本发明为用户提供了“near”这个逻辑运算符,用以限定两个词之间的距离。
本发明的方法还可在以上提供的一次交互的基础上进行更深层次的交互,为此,如图2所示,该方法还包括:
步骤S5:在接收到用户输入的二级检索式后,获取与各二级检索式一一对应的二级检索文档集。
步骤S6:对二级检索式进行两两组合,使每组两个二级检索式成为两个待验证检索式,以依次对各组二级检索式进行交叉验证;举例说明该处所指的两两组合的含义,例如用户输入三个二级检索式,分别为二级检索式a、b、c,则组合形式为:第一组:二级检索式a、b;第二组:二级检索式a、c;第三组:二级检索式b、c。
步骤S7:对两个待验证检索式进行交叉验证,其中,如图3所示,对两个待验证检索式进行交叉验证的方法包括:
步骤S71:获取与两个待验证检索式一一对应的两个检索文档集的交叉文档集,其中,如果待验证检索式为二级检索式,则与其对应的检索文档集则为二级检索文档集,如果待验证检索式为在二级检索式基础上优化得到的优化检索式,则与其对应的检索文档集则为优化检索文档集。
步骤S72:判断所述交叉文档集中文档的数目是否大于设定阈值,如是则执行步骤S73,如否则执行步骤S74,在此,该设定阈值通常为与两个待验证检索式一一对应的两个检索文档集的总文档数的百分比,例如总文档数的10%至50%,设定阈值的比例越低,检索结果越准确,最终提供的检索结果中的文档数量也会越少,但相应地检索优化速度也会降低,本实施例选择总文档数的30%。
步骤S73:对两个待验证检索式进行优化。
步骤S74:告知用户无需对两个待验证检索式作进一步优化。
如图4所示,步骤S73中对两个待验证检索式进行优化的方法可包括:
步骤S731:对交叉文档集进行主题聚类,获取与所述交叉文档集的各主题一一对应的交叉文档子集。
步骤S732:提取交叉文档子集的主题词。
步骤S733:将交叉文档子集的主题词及其对应的主题提供给用户,同时提示用户利用交叉文档子集的主题词优化两个待验证检索式,确定两个优化检索式,用户可以根据自身的检索需求将所提供的主题词通过适当的逻辑运算符加入两个待验证检索式中,以尽量降低两个优化检索式的交叉文档集中的文档的数目。例如,用户可根据交叉文档子集的各主题的主题词判断交叉文档子集的内容,如果两个待验证检索式所代表的主题分别出现在为交叉文档子集确定的两个主题中,则用户可将交叉文档子集的主题词通过各种逻辑运算符加入到两个待验证检索式,形成两个优化检索式。
步骤S734:判断用户是否输入两个优化检索式,如是则执行步骤S745;如否则结束对两个待验证检索式作进一步优化;
步骤S735:获取与两个优化检索式一一对应的两个优化检索文档集,两个优化检索式作为两个待验证检索式执行步骤S71。
以下给出一种对步骤S6确定的一组两个二级检索式进行交叉验证的实施方法,以便于更好地理解以上的交叉验证步骤,如图5所示,在步骤S6后,赋值i=0,之后执行以下各步骤:
步骤S7a:获取两个二级检索式的交叉文档集。
步骤S7b:判断所述交叉文档集中文档的数目是否大于设定阈值,如是则执行步骤S7c,如否则告知用户无需对两个二级检索式作进一步优化。步骤S7c:对交叉文档集进行主题聚类,获取与所述交叉文档集的各主题一一对应的交叉文档子集。
步骤S7d:提取交叉文档子集的主题词。
步骤S7e:赋值i=i+1。
步骤S7f:将交叉文档子集的主题词及其对应的主题提供给用户,同时提示用户利用交叉文档子集的主题词优化两个二级检索式,确定两个i级优化检索式,在此,由于各级优化检索式均是在二级检索式的基础上进行优化得到的,因此,对各级检索式的优化均被认为是对两个二级检索式的进一步优化。
步骤S7g:判断用户是否输入两个i级优化检索式,如是则执行步骤S7h;如否则结束对两个二级检索式作进一步优化;
步骤S7h:获取与两个i级优化检索式一一对应的两个i级优化检索文档集。
步骤S7i:获取两个i级优化检索式的交叉文档集,之后继续执行步骤S7b。
以下提供一种进行上述主题聚类的方法,其可包括:
步骤a1:设定待聚类文档集为被拆分类,提取被拆分类中文档的聚类特征,获取与文档一一对应的特征向量;
步骤a2:在被拆分类中选择两个密度最大的文档作为种子文档,文档的密度为在被拆分类中与文档的余弦距离小于0.5的文档的个数,其中,文档间的余弦距离为文档的特征向量间的余弦距离;
步骤a3:以两个所述种子文档作为种子,用K均值聚类算法将所述被拆分类分成两个主题;
步骤a4:判断两个主题中是否有一个主题的文档数量小于被拆分类的预设百分比,如是则主题聚类结束,否则将两个主题中数量较多的一个主题作为被拆分类,继续执行步骤a2。该预设百分比可根据聚类要求进行选择,本实施例选择为10%。
在上述步骤a1中,对每篇文档计算特征词典中每个词的TF-IDF(termfrequency–inverse document frequency,词频-逆向文档频率)值作为聚类特征,获取k维的特征向量,其中,k等于特征词典中词的数量。
本发明还提供了一种获取上述特征词典的方法,具体包括:
步骤b1:统计整个检索库中所有文档所包含的词及对应的词频,作为背景特征。
步骤b2:统计一级检索文档集中所有文档所包含的词及对应的词频,作为候选特征。
步骤b3:计算候选特征与背景特征之间的词的词频的差异度,选择差异度最大的预设数量的词构成所述特征词典,该预设数量通常为300至500间的整数。
本发明还提供了一种提取经主题聚类得到的各文档子集的主题词的方法,具体包括:
步骤c1:提取各文档子集的候选主题词。
步骤c2:将同一候选主题词分配给词频最高的文档子集,即在步骤c1中可能存在不同的文档子集具有相同候选主题词的情况,步骤c2即是对该种情况的处理。
步骤c3:针对每个文档子集选择词频最高的6至12个候选主题词作为主题词。
以上的提取各文档子集的候选主题词可包括:
步骤c11:查找文档子集中距离在m个词以内的二元词组,在二元词组表中列出查找到的二元词组及对应的词频,其中m取0至5的整数,本实施例选为3。
步骤c12:查找二元词组表中的等同二元词组,所述等同二元词组由两个词相同、但语序不同的二元词组构成,例如“开通—流量”与“流量—开通”即为等同二元词组;在二元词组表中删除等同二元词组中词频较低的二元词组,并将等同二元词组中词频较高的二元词组的词频更新为等同二元词组的词频。
步骤c13:在二元词组表中删除具有停词表中的停词的二元词组,该停词表可以是人工获得的词典,词典中通常包含了一些无意义的词,例如“嗯”,“啊”等。
步骤c14:提取二元词组表中词频最高的n个二元词组作为文档子集的候选主题词,n取10至100的整数,本实施例中n取50个。
本发明还提供了一种可以实现上述方法的一种交互式的检索式生成系统,如图6所示,该系统包括第一输入模块1、第一检索模块2、聚类模块3、主题词提取模块4和第一输出模块5,其中,第一输入模块1用于接收用户输入的一级检索式;第一检索模块2用于在接收到第一输入模块1提供的一级检索式后获取与一级检索式相对应的一级检索文档集;聚类模块3用于对一级检索文档集进行主题聚类获取与各主题一一对应的一级检索文档子集;主题词提取模块4用于提取一级检索文档子集中的主题词;第一输出模块5用于将主题词及其对应的主题提供给用户,并提示用户利用所述主题词确定与其对应的主题相关的二级检索式。
如图7所示,本发明的系统还可以包括第二输入模块6、第二检索模块12、组合模块8和交叉验证模块7,其中,第二输入模块6用于接收用户输入的二级检索式;第二检索模块12用于在接收到第二输入模块6提供的二级检索式后,获取与各二级检索式一一对应的二级检索文档集;组合模块8用于对二级检索式进行两两组合,使每组两个二级检索式成为两个待验证检索式;交叉验证模块7用于对两个待验证检索式进行交叉验证,该交叉验证模块7包括统计单元71和比较单元72,其中,统计单元71用于获取与两个待验证检索式一一对应的两个检索文档集的交叉文档集;比较单元72用于将交叉文档集中文档的数目与设定阈值进行比较,如果交叉文档集中文档的数目大于设定阈值,则确定对两个待验证检索式进行优化。
图8所示的系统提供了一种对两个待验证检索式进行优化的具体结构,在该结构下,以上比较单元72还用于在确定对两个待验证检索式进行优化后,将交叉文档集输入至聚类模块3;聚类模块3还用于获取与交叉文档集的各主题一一对应的交叉文档子集;主题词提取模块4还用于提取交叉文档子集的主题词;对于如图8所示的实施方式,本发明的系统还包括第二输出模块9,第二输出模块9用于将交叉文档子集的主题词及其对应的主题提供给用户,同时提示用户利用交叉文档子集的主题词优化两个待验证检索式,确定两个优化检索式。
如图9所示的可与用户进行进一步交互的实施方式,本发明的系统还包括:
第三输入模块10,用于接收用户输入的两个优化检索式,以及用于将两个优化检索式作为两个待验证检索式输入至所述交叉验证模块;
第三检索模块11,用于在接收到第三输入模块10提供的两个优化检索式后,获取与两个优化检索式一一对应的两个优化检索文档集。
以上聚类模块可包括特征向量计算单元、种子文档确定单元、K均值聚类单元和判断单元,其中,特征向量计算单元用于设定待聚类文档集为被拆分类,提取被拆分类中各文档的聚类特征,获取与各文档一一对应的特征向量;种子文档确定单元用于在被拆分类中选择两个密度最大的文档作为种子文档,文档的密度为在被拆分类中与文档的余弦距离小于0.5的文档的个数,其中,文档间的余弦距离为文档的特征向量间的余弦距离;K均值聚类单元用于根据K均值聚类算法将所述被拆分类分成由种子文档决定的两个主题;判断单元用于判断两个主题中是否有一个主题的文档数量小于被拆分类的预设百分比,如是则主题聚类结束,如否,则将两个主题中数量较多的一个主题作为被拆分类输入至种子文档确定单元。
以上特征向量计算单元具体用于对每篇文档计算特征词典中每个词的TF-IDF值作为聚类特征,获取k维的特征向量,其中,k等于特征词典中词的数量。
以上聚类模块还可包括特征词典获取模块,以便于获取满足用户使用要求的特征词典,该特征词典生成模块包括背景特征统计单元、候选特征统计单元和差异度计算单元,其中,背景特征统计单元用于统计整个检索库中所有文档所包含的词及对应的词频,作为背景特征;候选特征统计单元用于统计一级检索文档集中所有文档所包含的词及对应的词频,作为候选特征;差异度计算单元用于计算候选特征与背景特征之间的词的词频的差异度,选择差异度最大的预设数量的词构成所述特征词典。
以上主题词提取模块可包括候选主题词提取单元、分配单元和主题词选择单元,其中,候选主题词提取单元用于提取各文档子集的候选主题词;分配单元用于将同一候选主题词分配给词频最高的文档子集;主题词选择单元用于针对每个文档子集选择词频最高的6至12个候选主题词作为主题词。
以上候选主题词提取单元可包括二元词组查找子单元、合并子单元、删除子单元和候选主题词选择子单元,其中,二元词组查找子单元用于查找文档子集中距离在m个词以内的二元词组,在二元词组表中列出查找到的二元词组及对应的词频,其中m取0至5的整数;合并子单元用于查找二元词组表中的等同二元词组(定义请参见上述说明),在二元词组表中删除等同二元词组中词频较低的二元词组,并将等同二元词组中词频较高的二元词组的词频更新为等同二元词组的词频;删除子单元用于在二元词组表中删除具有停词表中的停词的二元词组;候选主题词选择子单元用于提取二元词组表中词频最高的n个二元词组作为文档子集的候选主题词,n取10至100的整数。
以上第一输入模块1、第二输入模块6和第三输入模块10可为同一输入模块,也可为单独设置的不同模块,这些输入模块为用户提供用于确定检索式的逻辑运算符,该逻辑运算符包括“邻近”(其定义请参见上述说明)。
同理,第一输出模块5和第二输出模块9可为同一输出模块;第一检索模块2、第二检索模块12和第三检索模块11也可为同一检索模块。
以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果,以上所述仅为本发明的较佳实施例,但本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时,均应在本发明的保护范围内。

Claims (19)

1.一种交互式的检索式生成方法,其特征在于,包括: 
在接收到用户输入的一级检索式后获取与所述一级检索式相对应的一级检索文档集; 
对所述一级检索文档集进行主题聚类,获取与各主题一一对应的一级检索文档子集; 
提取所述一级检索文档子集中的主题词; 
将所述主题词及其对应的主题提供给用户,并提示用户利用所述主题词确定与其对应的主题相关的二级检索式。 
2.根据权利要求1所述的方法,其特征在于,所述方法还包括: 
在接收到用户输入的二级检索式后,获取与各二级检索式一一对应的二级检索文档集; 
对二级检索式进行两两组合,使每组两个二级检索式成为两个待验证检索式; 
对两个待验证检索式进行交叉验证,获取与两个待验证检索式一一对应的两个检索文档集的交叉文档集,若所述交叉文档集中文档的数目大于设定阈值,则对两个待验证检索式进行优化。 
3.根据权利要求2所述的方法,其特征在于,所述对两个待验证检索式进行优化包括: 
对所述交叉文档集进行主题聚类,获取与所述交叉文档集的各主题一一对应的交叉文档子集; 
提取交叉文档子集中的主题词,并将交叉文档子集的主题词及其对应的主题提供给用户,同时提示用户利用交叉文档子集的主题词优化两个待验证检索式,确定两个优化检索式。 
4.根据权利要求3所述的方法,其特征在于,所述方法还包括: 
在接收到用户输入的两个优化检索式后,获取与两个优化检索式一一 对应的两个优化检索文档集; 
使两个优化检索式作为两个待验证检索式进行所述交叉验证。 
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括: 
为用户提供用于确定检索式的逻辑运算符,所述逻辑运算符包括“邻近”,所述“邻近”表示相“邻近”的两个关键词在文档中的距离在预设字数以内。 
6.根据权利要求1至4中任一项所述的方法,其特征在于,所述主题聚类的方法包括: 
步骤a1:设定待聚类文档集为被拆分类,提取被拆分类中文档的聚类特征,获取与文档一一对应的特征向量; 
步骤a2:在被拆分类中选择两个密度最大的文档作为种子文档,文档的密度为在被拆分类中与文档的余弦距离小于0.5的文档的个数,其中,文档间的余弦距离为文档的特征向量间的余弦距离; 
步骤a3:以两个所述种子文档作为种子,用K均值聚类算法将所述被拆分类拆分为两个主题; 
步骤a4:判断两个主题中是否有一个主题的文档数量小于被拆分类的预设百分比,如是则主题聚类结束,否则将两个主题中数量较多的一个主题作为被拆分类,继续执行步骤a2。 
7.根据权利要求6所述的方法,其特征在于,在步骤a1中,对每篇文档计算特征词典中每个词的TF-IDF值作为聚类特征,获取k维的特征向量,其中,k等于特征词典中词的数量。 
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:获取所述特征词典的方法为: 
统计整个检索库中所有文档所包含的词及对应的词频,作为背景特征; 
统计一级检索文档集中所有文档所包含的词及对应的词频,作为候选特征; 
计算候选特征与背景特征之间的词的词频的差异度,选择差异度最大的预设数量的词构成所述特征词典。 
9.根据权利要求1至4中任一项所述的方法,其特征在于,提取经主题聚类得到的各文档子集的主题词包括: 
提取各文档子集的候选主题词; 
将同一候选主题词分配给词频最高的文档子集; 
针对每个文档子集选择词频最高的6至12个候选主题词作为主题词。 
10.根据权利要求9所述的方法,其特征在于,所述提取各文档子集的候选主题词包括: 
查找文档子集中距离在m个词以内的二元词组,在二元词组表中列出查找到的二元词组及对应的词频,其中m取0至5的整数; 
查找二元词组表中的等同二元词组,所述等同二元词组由两个词相同、但语序不同的二元词组构成;在二元词组表中删除等同二元词组中词频较低的二元词组,并将词频较高的二元词组的词频更新为等同二元词组的词频; 
在二元词组表中删除具有停词表中的停词的二元词组; 
提取二元词组表中词频最高的n个二元词组作为文档子集的候选主题词,n取10至100的整数。 
11.一种交互式的检索式生成系统,其特征在于,包括: 
第一输入模块,用于接收用户输入的一级检索式; 
第一检索模块,用于在接收到所述第一输入模块提供的一级检索式后获取与所述一级检索式相对应的一级检索文档集; 
聚类模块,用于对所述一级检索文档集进行主题聚类,获取与各主题一一对应的一级检索文档子集; 
主题词提取模块,用于提取所述一级检索文档子集中的主题词; 
第一输出模块,用于将所述主题词及其对应的主题提供给用户,并提示用户利用所述主题词确定与其对应的主题相关的二级检索式。 
12.根据权利要求11所述的系统,其特征在于,所述系统还包括: 
第二输入模块,用于接收用户输入的二级检索式; 
第二检索模块,用于在接收到所述第二输入模块提供的二级检索式后, 获取与各二级检索式一一对应的二级检索文档集; 
组合模块,用于对二级检索式进行两两组合,使每组两个二级检索式成为两个待验证检索式;以及, 
交叉验证模块,用于对两个待验证检索式进行交叉验证,所述交叉验证模块包括: 
统计单元,用于获取与两个待验证检索式一一对应的两个检索文档集的交叉文档集; 
比较单元,用于将所述交叉文档集中文档的数目与设定阈值进行比较,如果交叉文档集中文档的数目大于设定阈值,则确定对两个待验证检索式进行优化。 
13.根据权利要求12所述的系统,其特征在于, 
所述比较单元还用于在确定对两个待验证检索式进行优化后,将所述交叉文档集输入至所述聚类模块; 
所述聚类模块还用于获取与所述交叉文档集的各主题一一对应的交叉文档子集;所述主题词提取模块还用于提取交叉文档子集的主题词; 
所述系统还包括: 
第二输出模块,用于将交叉文档子集的主题词及其对应的主题提供给用户,同时提示用户利用交叉文档子集的主题词优化两个待验证检索式,确定两个优化检索式。 
14.根据权利要求13所述的系统,其特征在于,所述系统还包括: 
第三输入模块,用于接收用户输入的两个优化检索式,以及用于将两个优化检索式作为两个待验证检索式输入至所述交叉验证模块; 
第三检索模块,用于在接收到所述第三输入模块提供的两个优化检索式后,获取与两个优化检索式一一对应的两个优化检索文档集。 
15.根据权利要求11至14中任一项所述的系统,其特征在于,所述聚类模块包括: 
特征向量计算单元,用于设定待聚类文档集为被拆分类,提取被拆分类中各文档的聚类特征,获取与各文档一一对应的特征向量; 
种子文档确定单元,用于在被拆分类中选择两个密度最大的文档作为种子文档,文档的密度为在被拆分类中与文档的余弦距离小于0.5的文档的个数,其中,文档间的余弦距离为文档的特征向量间的余弦距离; 
K均值聚类单元,用于以两个所述种子文档作为种子,用K均值聚类算法将所述被拆分类拆分为两个主题;以及, 
判断单元,用于判断两个主题中是否有一个主题的文档数量小于被拆分类的预设百分比,如是则主题聚类结束,否则将两个主题中数量较多的一个主题作为被拆分类输入至种子文档确定单元。 
16.根据权利要求15所述的系统,其特征在于,所述特征向量计算单元用于对每篇文档计算特征词典中每个词的TF-IDF值作为聚类特征,获取k维的特征向量,其中,k等于特征词典中词的数量。 
17.根据权利要求16所述的系统,其特征在于,所述聚类模块还包括特征词典获取模块,所述特征词典生成模块包括: 
背景特征统计单元,用于统计整个检索库中所有文档所包含的词及对应的词频,作为背景特征; 
候选特征统计单元,用于统计一级检索文档集中所有文档所包含的词及对应的词频,作为候选特征; 
差异度计算单元,用于计算候选特征与背景特征之间的词的词频的差异度,选择差异度最大的预设数量的词构成所述特征词典。 
18.根据权利要求11至14中任一项所述的系统,其特征在于,所述主题词提取模块包括: 
候选主题词提取单元,用于提取各文档子集的候选主题词; 
分配单元,用于将同一候选主题词分配给词频最高的文档子集; 
主题词选择单元,用于针对每个文档子集选择词频最高的6至12个候选主题词作为主题词。 
19.根据权利要求18所述的系统,其特征在于,所述候选主题词提取单元包括: 
二元词组查找子单元,用于查找文档子集中距离在m个词以内的二元词组,在二元词组表中列出查找到的二元词组及对应的词频,其中m取0至5的整数; 
合并子单元,用于查找二元词组表中的等同二元词组,所述等同二元词组由两个词相同、但语序不同的二元词组构成;在二元词组表中删除等同二元词组中词频较低的二元词组,并将词频较高的二元词组的词频更新为等同二元词组的词频; 
删除子单元,用于在二元词组表中删除具有停词表中的停词的二元词组; 
候选主题词选择子单元,用于提取二元词组表中词频最高的n个二元词组作为文档子集的候选主题词,n取10至100的整数。 
CN201310611470.7A 2013-11-26 2013-11-26 一种交互式的检索式生成方法及系统 Active CN103678513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310611470.7A CN103678513B (zh) 2013-11-26 2013-11-26 一种交互式的检索式生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310611470.7A CN103678513B (zh) 2013-11-26 2013-11-26 一种交互式的检索式生成方法及系统

Publications (2)

Publication Number Publication Date
CN103678513A true CN103678513A (zh) 2014-03-26
CN103678513B CN103678513B (zh) 2016-08-31

Family

ID=50316058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310611470.7A Active CN103678513B (zh) 2013-11-26 2013-11-26 一种交互式的检索式生成方法及系统

Country Status (1)

Country Link
CN (1) CN103678513B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480428A (zh) * 2017-07-20 2017-12-15 广州慧扬健康科技有限公司 基于多元向量空间扭曲概念的电子病历检索优化系统
CN107767922A (zh) * 2017-10-25 2018-03-06 医渡云(北京)技术有限公司 医疗数据纳排方法及装置、电子设备、存储介质
CN108255920A (zh) * 2017-09-22 2018-07-06 平安科技(深圳)有限公司 机构名称检索式的显示方法、装置、设备及存储介质
CN110781285A (zh) * 2019-10-30 2020-02-11 中国农业科学院农业信息研究所 一种科技文献检索意图构建方法
CN111651580A (zh) * 2020-06-04 2020-09-11 天启黑马信息科技(北京)有限公司 一种用于文献检索的方法与设备
CN111651580B (zh) * 2020-06-04 2024-05-03 天启黑马信息科技(北京)有限公司 一种用于文献检索的方法与设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1535433A (zh) * 2001-07-04 2004-10-06 库吉萨姆媒介公司 基于分类的可扩展交互式文档检索系统
US20050144158A1 (en) * 2003-11-18 2005-06-30 Capper Liesl J. Computer network search engine
CN101271462A (zh) * 2007-03-20 2008-09-24 株式会社东芝 修正检索式和文档检索的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1535433A (zh) * 2001-07-04 2004-10-06 库吉萨姆媒介公司 基于分类的可扩展交互式文档检索系统
US20050144158A1 (en) * 2003-11-18 2005-06-30 Capper Liesl J. Computer network search engine
CN101271462A (zh) * 2007-03-20 2008-09-24 株式会社东芝 修正检索式和文档检索的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
包颖: "基于划分的聚类算法研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
曹红兵: "搜索引擎的个性化检索研究", 《图书情报工作》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480428A (zh) * 2017-07-20 2017-12-15 广州慧扬健康科技有限公司 基于多元向量空间扭曲概念的电子病历检索优化系统
CN107480428B (zh) * 2017-07-20 2020-07-28 广州慧扬健康科技有限公司 基于多元向量空间扭曲概念的电子病历检索优化系统
CN108255920A (zh) * 2017-09-22 2018-07-06 平安科技(深圳)有限公司 机构名称检索式的显示方法、装置、设备及存储介质
CN107767922A (zh) * 2017-10-25 2018-03-06 医渡云(北京)技术有限公司 医疗数据纳排方法及装置、电子设备、存储介质
CN110781285A (zh) * 2019-10-30 2020-02-11 中国农业科学院农业信息研究所 一种科技文献检索意图构建方法
CN111651580A (zh) * 2020-06-04 2020-09-11 天启黑马信息科技(北京)有限公司 一种用于文献检索的方法与设备
CN111651580B (zh) * 2020-06-04 2024-05-03 天启黑马信息科技(北京)有限公司 一种用于文献检索的方法与设备

Also Published As

Publication number Publication date
CN103678513B (zh) 2016-08-31

Similar Documents

Publication Publication Date Title
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN101055585B (zh) 文档聚类系统和方法
CN103970729A (zh) 一种基于语义类的多主题提取方法
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN101916382A (zh) 一种植物叶片的图像识别方法
EP2631815A1 (en) Method and device for ordering search results, method and device for providing information
CN104199833A (zh) 一种网络搜索词的聚类方法和聚类装置
CN103425727A (zh) 上下文语音查询扩大方法和系统
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
KR100835290B1 (ko) 문서 분류 시스템 및 문서 분류 방법
CN103678513A (zh) 一种交互式的检索式生成方法及系统
Gulzar et al. Optimizing skyline query processing in incomplete data
Ruambo et al. Towards enhancing information retrieval systems: A brief survey of strategies and challenges
CN103942232A (zh) 用于挖掘意图的方法和设备
Esmaeili et al. Feature selection as an improving step for decision tree construction
CN109657060B (zh) 安全生产事故案例推送方法及系统
CN104778202B (zh) 基于关键词的事件演化过程的分析方法及系统
CN109918661A (zh) 同义词获取方法及装置
Sharma et al. Soft computing techniques based automatic query expansion approach for improving document retrieval
US20220083879A1 (en) Inferring a comparative advantage of multi-knowledge representations
CN115982316A (zh) 一种基于多模态的文本检索方法、系统及介质
CN115617978A (zh) 指标名称检索方法、装置、电子设备及存储介质
CN104572868A (zh) 基于问答系统的信息匹配的方法和装置
KR101592670B1 (ko) 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant after: IFLYTEK Co.,Ltd.

Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant before: ANHUI USTC IFLYTEK Co.,Ltd.

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190315

Address after: 230088 18 Floor, A5 Building, 666 Wangjiangxi Road, Hefei High-tech Zone, Anhui Province

Patentee after: ANHUI IFLYTEK MEDICAL INFORMATION TECHNOLOGY CO.,LTD.

Address before: 230088 666 Wangjiang West Road, Hefei hi tech Development Zone, Anhui

Patentee before: IFLYTEK Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190522

Address after: 100084 Tsinghua Yuan, Beijing, Haidian District

Co-patentee after: ANHUI IFLYTEK MEDICAL INFORMATION TECHNOLOGY CO.,LTD.

Patentee after: TSINGHUA University

Address before: 230088 18 Floor, A5 Building, 666 Wangjiangxi Road, Hefei High-tech Zone, Anhui Province

Patentee before: ANHUI IFLYTEK MEDICAL INFORMATION TECHNOLOGY CO.,LTD.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100084 Tsinghua Yuan, Beijing, Haidian District

Patentee after: TSINGHUA University

Patentee after: Anhui Xunfei Medical Co.,Ltd.

Address before: 100084 Tsinghua Yuan, Beijing, Haidian District

Patentee before: TSINGHUA University

Patentee before: ANHUI IFLYTEK MEDICAL INFORMATION TECHNOLOGY CO.,LTD.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100084 Tsinghua Yuan, Beijing, Haidian District

Patentee after: TSINGHUA University

Patentee after: IFLYTEK Medical Technology Co.,Ltd.

Address before: 100084 Tsinghua Yuan, Beijing, Haidian District

Patentee before: TSINGHUA University

Patentee before: Anhui Xunfei Medical Co.,Ltd.