CN104361042B - 一种信息检索方法及装置 - Google Patents
一种信息检索方法及装置 Download PDFInfo
- Publication number
- CN104361042B CN104361042B CN201410594352.4A CN201410594352A CN104361042B CN 104361042 B CN104361042 B CN 104361042B CN 201410594352 A CN201410594352 A CN 201410594352A CN 104361042 B CN104361042 B CN 104361042B
- Authority
- CN
- China
- Prior art keywords
- keyword
- information
- primary election
- document
- text chunk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Abstract
本发明公开了一种信息检索方法及装置,其中方法包括:根据用户提交的检索请求获取关键词信息;根据所述各关键词的优先级信息选择所述关键词集合中优先级最高的关键词作为优先关键词;根据所述优先关键词确定待检文档中的初选文本段;获取所述初选文本段中的关键词数量和/或去重关键词数量;根据所述关键词数量和/或去重关键词数量计算所述初选文本段的权重参考值;根据所述权重参考值选择权重参考值最高的初选文本段作为所述初选文本段中的最优文本段;将所述最优文本段内包含的关键词进行高亮显示。采用本发明可提高信息检索准确性并具有可定制性。
Description
技术领域
本发明涉及信息处理领域,尤其涉及一种信息检索方法及装置。
背景技术
在浏览信息时检索并高亮用户关注的关键词信息有利于迅速定位到用户感兴趣的内容段,提高用户的信息获取效率。现有的技术中常采用开源搜索引擎Lucene实现搜索关键词并高亮显示,其实现过程为:首先预处理文本及要显示的关键词信息得到文本分词信息及关键词列表;然后根据关键词列表遍历分词结果信息并通过二分查找获取与关键词列表相应的分词结果;最后根据分词结果及关键词列表综合计算得到高亮显示的内容段并将高亮显示内容段中的关键词高亮显示。Lucene是根据关键词列表中所有关键词综合计算需要显示的内容段不能实现根据用户选择实现最优内容段高亮显示不具灵活性和可定制性,并且,对于超长文本预处理文本后得到的分词信息较大,遍历分词结果信息并通过二分查找获取需要高亮的关键词计算成本大效率低,对系统资源造成一定的占用和浪费。
发明内容
为了克服现有技术的不足,本发明提供了一种信息检索方法及装置用于实现指定关键词的最优检索段落的高亮显示。
第一方面,本发明提供了一种信息检索方法,该方法包括:
根据用户提交的检索请求获取关键词信息,所述关键词信息包括关键词集合和所述关键词集合中各关键词的优先级信息,其中所述关键词集合至少包括一个关键词;
根据所述各关键词的优先级信息选择所述关键词集合中优先级最高的关键词作为优先关键词;
根据所述优先关键词确定待检文档中的初选文本段;
获取所述初选文本段中的关键词数量和/或去重关键词数量;
根据所述关键词数量和/或去重关键词数量计算所述初选文本段的权重参考值;
根据所述权重参考值选择权重参考值最高的初选文本段作为所述初选文本段中的最优文本段;
将所述最优文本段内包含的关键词进行高亮显示。
另一方面,本发明提供一种信息检索装置,所述装置包括:
接收单元,用于根据用户提交的检索请求获取关键词信息,所述关键词信息包括关键词集合和所述关键词集合中各关键词的优先级信息,其中所述关键词集合至少包括一个关键词;
选择单元,用于根据所述各关键词的优先级信息选择所述关键词集合中优先级最高的关键词作为优先关键词;
确定单元,用于根据所述优先关键词确定待检文档中的初选文本段;
获取单元,用于获取所述初选文本段中的关键词数量和/或去重关键词数量;
计算单元,还用于根据所述关键词数量和/或去重关键词数量计算所述初选文本段的权重参考值;
所述选择单元,还用于根据所述权重参考值选择权重参考值最高的初选文本段作为所述初选文本段中的最优文本段;
显示单元,用于将所述最优文本段内包含的关键词进行高亮显示。
本发明首先通过指定优先关键词获取初选文本段,再通过初选文本段权重参考值选择最优文本段进行高亮显示,与现有技术相比,本发明能实现指定关键词的关键段落高亮显示,易于用户迅速定位到关注的信息模块,提高用户检索信息的准确性,提高了用户获取关注信息的效率,并且具有可定制性和灵活性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种信息检索方法流程图;
图2是本发明实施例提供的另一种信息检索方法流程图;
图3是本发明实施例提供的一种信息检索装置示意图;
图4为本发明实施例提供的获取单元的一个实施例的结构示意图;
图5为本发明实施例提供的确定单元的一个实施例的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚,下面将结合附图对本发明进行详细的介绍,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种信息检索方法流程图,如图所示的信息检索方法可以包括以下步骤:
S101,根据用户提交的检索请求获取关键词信息,所述关键词信息包括关键词集合和所述关键词集合中各关键词的优先级信息,其中所述关键词集合至少包括一个关键词。
具体实现中,所述检索请求携带用户欲检索的目标检索信息,用户欲检索目标检索信息时可以通过检索装置提供的信息检索界面提出检索请求,该界面可为用户提供输入目标检索信息及提交目标检索信息的操作命令,其中,检索装置包括如:谷歌、百度、雅虎、Lucene、Sphinx等搜索引擎,还包括其他信息检索显示应用如:word查找应用。例如在百度搜索主页面的输入框中输入目标检索信息然后点击百度搜索提供的搜索项完成检索请求的提交。所述关键词信息包括关键词集合和所述关键词集合中各关键词的优先级信息,其中所述关键词集合至少包括一个关键词。关键词集合为对目标检索信息处理得到的结果,所述处理包括了不规则字符过滤及分词处理两个步骤,而各关键词的优先级信息是对关键词集合中各关键词进行优先级设置得到的结果。例如用户提交的检索请求携带的目标检索信息为“数?据库性能”,而检索装置默认为根据历史检索次数进行优先级设置并且历史检索次数越多优先级越高。首先对目标检索信息“数?据库性能”进行不规则字符过滤处理过滤掉不规则字符“?”得到的目标检索信息为“数据库性能”,然后对目标检索信息进行分词处理得到关键词集合为:数据,数据库,性能;若“数据”的检索次数为10次,“数据库”的检索次数为20次,“性能”的检索次数为5次,则经过优先级设置处理的关键词集合中关键词“数据”的优先级为2级,“数据库”优先级为1级,“性能”优先级为3级。
S102,根据各关键词的优先级信息选择所述关键词集合中优先级最高的关键词作为优先关键词。
具体实现中,如步骤S101中所述经过优先级设置处理的关键词集合中关键词“数据”的优先级为2级,“数据库”优先级为1级,“性能”优先级为3级,“数据库”的优先级最高,则选择“数据库”作为优先关键词。
S103,根据所述优先关键词确定待检文档中的初选文本段。
具体实现中,所述初选文本段为包含优先关键词的文字段,该文字段长度可以通过从检索装置内部预设的高亮文本长度信息获取,也可以根据用户提交的高亮文本长度信息获取,所述高亮文本信息为高亮文本长度值。例如用户进行检索时不指定高亮文本长度值,且检索装置默认为高亮长度值为一个自然段落,那么初选文本段为文档中包含有优先关键词的每个自然段落。
S104,获取所述初选文本段中的关键词数量和/或去重关键词数量。
具体实现中,所述关键词数量为初选文本段中包含的所有关键词的数量,所述去重关键词数量为所述初选文本段中包含的关键词种类,即为包含不同关键词的数量。获取所述初选文本段中的关键词数量和/或去重关键词数量需要确定初选文本段内包含的关键词。确定初选文本段内包含的关键词可以通过比较初选文本段在文档中的开始位置和结束位置及关键词在文档中出现的开始位置和结束位置实现,若关键词在文档的开始位置大于或等于初选文本段在文档中的开始位置并且关键词在文档中的结束位置小于或者等于初选文本段在文档中的结束位置则初选文本段包含该关键词。例如若关键词“数据库”在文档中出现的频率为5,在文档中的出现的开始位置及结束位置分别为:[7,9]、[23,25]、[31,33]、[58,60]、[80,82];关键词“性能”在文档中出现的频率为2,在文档中出现的开始位置及结束位置分别为:[2,3]、[51,52];初选文本段其中之一为“在设计数据库时,必须确保数据库快速而正确地执行所有重要的函数,某些性能问题可以在数据库投入使用之后进行解决”在文档中的开始位置和结束位置为[20,70],则在比较了关键词“数据库”和“性能”在文档在中出现的开始位置和结束位置及该初选文本段在文档中的开始位置和结束位置之后,检索装置可判断此初选文本段中包含关键词“数据库”和关键词“性能”,“数据库”出现位置分别为[23,25]、[31,33]、[58,60],统计关键词“数据库”在该初选文本段中出现的频率为3,“性能”出现位置为[51,52],统计关键词“性能”在该初选文本段中出现的频率为1,因此该初选文本段包含的关键词数量为4,去重关键词数量为2。
S105,根据所述关键词数量和/或去重关键词数量计算所述初选文本段的权重参考值。
具体实现中,所述初选文本段的权重参考值可以根据:value=Keywords_Size+Keywords_Num/Keyword_Num计算,其中Keyword_Size为初选文本段内包含的去重关键词数量,Keywords_Num为初选文本段内包含的关键词数量,Keyword_Num为关键词集合包含的关键词数量;Keywords_Size代表了初选文本段包含的关键词的广度值,Keywords_Num/Keyword_Num为初选文本段包含的关键词的深度值,初选文本段的权重参考值由其包含关键词的广度值和深度值共同决定。
S106,根据所述权重参考值选择权重参考值最高的初选文本段作为所述初选文本段中的最优文本段。
具体实现中,检索装置获取初选文本段的权重参考值,通过比较判断出权重参考值最高的初选文本段作为最优文本段。例如默认为高亮长度信息为一个自然段落,则初选文本段为包含关键词的每个自然段,假设优先关键词为“数据库”,关键词集合为“数据库,数据,性能”,初选文本段分别为“在设计数据库时,必须确保数据库快速而正确地执行所有重要的函数。某些性能问题可以在数据库投入使用之后进行解决。”和“但是,其他性能问题则可能是由于数据库设计较差导致的,并且只能通过更改数据库的结构和设计来解决。”经过步骤S104统计出包含的关键词数量分别为7和5,去重关键词数量分别为3和3,关键词集合包含的关键词数量为;则经过步骤S105计算初选文本度段的权重参考值分别为16/3和14/3,则可判断出在此例中前者的权重值最高,选择相应的初选文本段“在设计数据库时,必须确保数据库快速而正确地执行所有重要的函数。某些性能问题可以在数据库投入使用之后进行解决。”作为最优文本段。若出现并列最高权重参考值,优先选择广度值高的初选文本段作为最有文本段,例如,初选文本段1和初选文本段2的权重参考值都为4,初选文段1的广度值和深度值分别为3和1,而初选文本段2的广度值和深度值分别为2和2,则选择初选文本段1作为最优文本段。若并列最高权重参考值的初选文本段广度值也相同,可随机选择其中之一作为最优文本段,也可将并列最高权重参考值的全部初选文本段最为最优文本段。
S107,将所述最优文本段内包含的关键词进行高亮显示。
具体实现中,将所述最优文本段内包含的关键词进行高亮显示包括但不限于:对关键词进行标红,对关键词加上背景颜色,对关键词突出显示等易于用户迅速定位关注文档内容及关键词的显示方式。
作为一种可选的实施方式,在图1所示的方法中,在执行S101步骤中获取关键词信息之前,可执行以下步骤:
11).接收用户提交的检索请求,所述检索请求携带目标检索信息。
具体实现中,用户欲检索目标检索信息时可以通过检索装置提供的信息检索界面提出检索请求,该界面可为用户提供输入目标检索信息及提交目标检索信息的操作命令,其中,检索装置包括如:谷歌、百度、雅虎、Lucene、Sphinx等搜索引擎,还包括其他信息检索显示应用如:word查找应用。例如在百度搜索主页面的输入框中输入目标检索信息然后点击百度搜索提供的搜索项完成检索请求的提交。
12).处理目标检索信息得到所述关键词集合。
具体实现中,所述处理目标检索信息得到所述关键词集合包括了不规则字符过滤及分词处理两个步骤,例如用户提交的检索请求携带的目标检索信息为“数?据库性能”,首先对目标检索信息“数?据库性能”进行不规则字符过滤处理过滤掉不规则字符“?”得到的目标检索信息为“数据库性能”,然后对目标检索信息进行分词处理得到关键词集合:数据,数据库,性能。
13).根据所述关键词集合中各关键词的历史检索次数对所述各关键词进行优先级设置或根据用户指定所述关键词集合中各关键词优先级对所述各关键词进行优先级设置得到所述关键词集合中各关键词的优先级信息。
具体实现中,所述根据所述关键词集合中各关键词的历史检索次数对所述各关键词进行优先级设置,关键词的历史检索次数越多优先级越高,例如关键词集合为:数据,数据库,性能;“数据”的检索次数为10次,“数据库”的检索次数为20次,“性能”的检索次数为5次,则经过优先级设置处理的关键词集合中关键词“数据”的优先级为2级,“数据库”优先级为1级,“性能”优先级为3级。所述根据用户指定所述关键词集合中各关键词优先级对所述各关键词进行优先级设置得到所述关键词集合中各关键词的优先级信息,可以通过对关键词集合中的各关键词进行排序实现,例如将上述关键词集合进行排序将关注的关键词位置放前得到带有排序的关键词集合:数据库,性能,数据,则在此关键词集合中“数据库”的优先级最高为1级,“性能”的优先级次之为2级,“数据”的优先级最低为3级。
通过步骤11)~13)得到步骤S101所提及的关键词信息。
本发明实施例描述的是本发明实施例描述的是一种实现包含优先关键词的最优文本段检索与高亮显示的过程,通过指定优先关键词寻找最优文本段包含的关键词进行高亮显示,易于用户迅速定位到关注的信息模块,提高用户检索信息的准确性,提高了用户获取关注信息的效率,并且具有可定制性和灵活性。
图2为本发明实施例提供的另一种信息检索方法示意图,如图2所示的信息检索方法可以包括以下步骤:
S201,接收用户提交的检索请求,所述检索请求携带目标检索信息与高亮文本长度信息。
具体实现中,目标检索信息为用户欲检索的信息,高亮文本长度信息包括高亮文本长度值,即为用户指定的高亮显示的文本段的长度值,所述长度值为具体数字。用户欲检索目标检索信息时可以通过检索装置提供的信息检索界面提出检索请求,该界面可为用户提供输入目标检索信息及提交目标检索信息的操作命令,其中,检索装置包括如:谷歌、百度、雅虎、Lucene、Sphinx等搜索引擎,还包括其他信息检索显示应用如:word查找应用。例如在搜索主引擎页面的信息检索输入框中输入目标检索信息和高亮文本长度信息“数?据库性能100”点击百度搜索提供的搜索项完成检索请求的提交,其中目标检索信息和高亮文本长度信息以空格或者a,&,and等特殊字符进行隔断以便于检索装置进行区别。可选的,高亮文本长度信息和目标检索信息可分别通过专项的高亮文本长度值输入框及检索信息输入框输入,提高用户输入效率便于检索装置区分高亮文本长度信息和目标检索信息。
S202,根据用户提交的检索请求获取关键词信息,所述关键词信息包括关键词集合和所述关键词集合中各关键词的优先级信息,其中所述关键词集合至少包括一个关键词。
具体实现中,关键词集合为对目标检索信息预处理得到的结果,所述预处理包括了不规则字符过滤及分词处理两个步骤,而各关键词的优先级信息是对关键词集合中各关键词进行优先级设置得到的结果。例如用户提交的检索请求携带的目标检索信息为“数?据库性能”,而检索装置默认为根据历史检索次数进行优先级设置并且历史检索次数越多优先级越高。首先对目标检索信息“数?据库性能”进行不规则字符过滤处理过滤掉不规则字符“?”得到的目标检索信息为“数据库性能”,然后对目标检索信息进行分词处理得到关键词集合:数据,数据库,性能;若“数据”的检索次数为10次,“数据库”的检索次数为20次,“性能”的检索次数为5次,则经过优先级设置处理的关键词集合中关键词“数据”的优先级为2级,“数据库”优先级为1级,“性能”优先级为3级。
S203,根据所述各关键词的优先级信息选择所述关键词集合中优先级最高的关键词作为优先关键词。
具体实现中,如步骤S201中所述经过优先级设置处理的关键词集合中关键词“数据”的优先级为2级,“数据库”优先级为1级,“性能”优先级为3级,“数据库”的优先级最高,则选择“数据库”作为优先关键词。
S204,根据所述优先关键词和高亮文本长度信息确定待检文档中的初选文本段。
具体实现中,所述初选文本段为根据高亮文本长度信息确定的指定长度且包含优先关键词的文字段。例如优先关键词为“数据库”,高亮文本长度信息包含的高亮文本长度值为10,则在待检文档“我们在设计数据库时,必须确保快速而正确地执行所有重要的函数,某些性能问题可以在投入使用之后进行解决”中初选文段为“我们在设计数据库时,必”,“们在设计数据库时,必须”,“在设计数据库时,必须确”,“设计数据库时,必须确保”,“计数据库时,必须确保快”和“数据库时,必须确保快速”。进一步的,根据所述优先关键词和高亮文本长度信息确定待检文档中的初选文本段时,可预设初选文本段开始位置确定方式,例如初选文本段的开始位置确定方式为以优先关键词开始位置为初选文本段的开始位置,则在上述待检文档中初选文本段为“数据库时,必须确保快速”,又例如初选文本段的开始位置确定方式为以关键词为中心确定初选文本段的开始位置,则在上述待检文档中初选文本段为“在设计数据库时,必须确”或者“们在设计数据库时,必须”,在此例中若高亮长度值为9,则易于判断上述待检文档中初选文本段为“在设计数据库时,必须”。
在可选实施例中,步骤S204包括以下步骤2041)~2043):
2041).以所述待检文档ID为关键字在预存文档信息库中哈希查询所述待检文档分词信息,所述待检文档分词信息携带待检文档分词的位置信息。
具体实现中,所述文档ID为文档编号或者其他可对文档进行唯一标识的文档标识。所述待检文档分词信息为待检文档分词结果的倒排索引,所述分词结果包括待检文档分词之后包含的所有分词及各分词在该文档中的位置信息。所述倒排索引为根据属性值查找记录的索引方式,在本实施例中的分词结果的倒排索引中可以根据跟分词查找该分词在文档中的位置信息。哈希表是根据关键字直接进行访问的数据结构,它通过把关键字映射到表中一个位置来访问记录,以加快查找的速度。本实施例中所述预存文档信息库是以双哈希表的方式存储在服务器中,第一个哈希表是以文档ID为关键字以文档分词结果的倒排索引为记录建立的哈希表,第二个哈希表是以分词为关键字以该分词的倒排索引为目记录建立的哈希表。在实际应用中,例如以Java语言为基础实现的搜索引擎中,以待检文档ID为关键字,调用Java工具包自带函数hashcode()即可将待检文档ID映射到哈希表的某一位置,以此位置为存储地址存储待检文档分词结果的倒排索引并将其加入哈希表中,在哈希查询过程中以待检文档ID为关键字,调用hashcode()即可计算出待检文档分词结果的倒排索引存储地址对其进行直接访问。
2042).以所述优先关键词为关键字在所述待检文档分词信息中哈希查询所述优先关键词位置信息。
具体实现中,所述优先关键词为关键词集合中优先级最高的关键词,所述待检文档分词信息为待检文档分词结果的倒排索引,所述分词结果包括待检文档分词之后包含的所有分词及各分词在该文档中的位置信息。所述倒排索引为根据属性值查找记录的索引方式,在本实施例中的分词结果的倒排索引中可以根据分词查找该分词在文档中的位置信息。在实际应用中,例如以Java语言为基础实现的搜索引擎中,以优先关键词为关键字调用Java工具包自带的函数hashcode()即可将优先关键词映射到哈希表的某一位置,以此位置为存储地址存储优先关键词的倒排索引并将其加入哈希表中,在哈希查询过程中以优先关键词为关键字,调用hashcode()即可计算出优先关键词的倒排索引的存储地址进行直接访问,进而根据优先关键词的倒排索引查找到优先关键词在待检文档中的位置信息。
2043).根据所述优先关键词位置信息和高亮文本长度信息确定所述待检文档中的初选文本段。
具体实现中,所述初选文本段为根据高亮文本长度信息确定的指定长度且包含优先关键词的文字段。例如高亮文本长度信息包含的高亮长度值为10,待检文档ID为文档编号4且内容为“我们在设计数据库时,必须确保快速而正确地执行所有重要的函数,某些性能问题可以在投入使用之后进行解决”,优先关键词为“数据库”,根据步骤2041)和2042)查询到优先关键词的倒排索引为“数据库[6,8]”,则初选文段可确定为在待检文档位置为[1,10]、[2,11]、[3,12]、[4,13]、[5,14]和[6,15]的内容段,分别对应的内容段为“我们在设计数据库时,必”,“们在设计数据库时,必须”,“在设计数据库时,必须确”,“设计数据库时,必须确保”,“计数据库时,必须确保快”和“数据库时,必须确保快速”。进一步的,根据所述优先关键词位置信息和高亮文本长度信息确定待检文档中的初选文本段时,可预设初选文本段开始位置确定方式,例如初选文本段的开始位置确定方式为以优先关键词开始位置为初选文本段的开始位置,则在上述待检文档中初选文本段为“数据库时,必须确保快速”,又例如初选文本段的开始位置确定方式为以关键词为中心确定初选文本段的开始位置,则在上述待检文档中初选文本段为“在设计数据库时,必须确”或者“们在设计数据库时,必须”,在此例中若高亮长度值为9,则易于判断上述待检文档中初选文本段为“在设计数据库时,必须”。
S205,获取所述初选文本段中的关键词数量和/或去重关键词数量。
本步骤可参见图1所示的步骤S104。
可选的,步骤S205包括以下步骤2051)~2055):
2051).以待检文档ID为关键字在预存文档信息库中哈希查询待检文档分词信息,所述待检文档分词信息携带待检文档分词的位置信息。
本步骤可参见上述步骤2041),在此不再赘述。
2052).以所述关键词集合中的各关键词为关键字在所述待检文档分词信息中哈希查询所述各关键词的位置信息。
具体实现中,所述待检文档分词信息为待检文档分词结果的倒排索引,所述分词结果包括待检文档分词之后包含的所有分词及各分词在该文档中的位置信息。所述倒排索引为根据属性值查找记录的索引方式,在本实施例中的分词结果的倒排索引中可以根据分词查找该分词在文档中的位置信息。在实际应用中,例如以Java语言为基础实现的搜索引擎中,分别以各关键词为关键字调用Java工具包自带函数hashcode()即可将各关键词映射到哈希表的某一位置,以此位置为存储地址存储各关键词的倒排索引并将其加入哈希表中,在哈希查询过程中分别以各先关键词为关键字,调用hashcode()即可计算出各关键词的倒排索引的存储地址进行直接访问,进而根据各关键词的倒排索引查找到各关键词在待检文档中的位置信息。
2053).根据优先关键词位置信息和高亮文本长度信息确定所述初选文本段的起止位置信息,所述起止位置信息包括初选文本段的开始位置信息和结束位置信息。
具体实现中,例如优先关键词为“数据库”,高亮文本长度信息包含的高亮长度值为10,根据步骤2051)和2052)查询到优先关键词的倒排索引为“数据库[4,6]”,则初选文段可确定为在待检文档位置为[1,10]、[2,11]、[3,12]及[4,13]的内容段,初选文本段的起止信息分别为:[1,10]、[2,11]、[3,12]及[4,13]。
2054).根据所述各关键词的位置信息和所述初选文本段的起止位置信息确定所述初选文本段内包含的关键词。
具体实现中,确定初选文本段内包含的关键词可以通过比较初选文本段在文档中的开始位置和结束位置及关键词在文档中出现的开始位置和结束位置实现,若关键词在文档的开始位置大于或等于初选文本段在文档中的开始位置并且关键词在文档中的结束位置小于或者等于初选文本段在文档中的结束位置则初选文本段包含该关键词。例如若关键词“数据库”在文档中出现的频率为5,在文档中的出现的开始位置及结束位置分别为:[7,9]、[23,25]、[31,33]、[58,60]、[80,82];关键词“性能”在文档中出现的频率为2,在文档中出现的开始位置及结束位置分别为:[2,3]、[51,52];初选文本段其中之一为“在设计数据库时,必须确保数据库快速而正确地执行所有重要的函数,某些性能问题可以在数据库投入使用之后进行解决”在文档中的开始位置和结束位置为[2070],则在比较了关键词“数据库”和“性能”在文档在中出现的开始位置和结束位置及该初选文本段在文档中的开始位置和结束位置之后,检索装置可判断此初选文本段中包含关键词“数据库”和关键词“性能”,“数据库”出现位置分别为[23,25]、[31,33]、[58,60],统计关键词“数据库”在该初选文本段中出现的频率为3,“性能”出现位置为[51,52]。
2055).根据所述初选文本段内包含的关键词统计所述关键词数量和所述去重关键词的数量。
具体实现中,在执行步骤2054)之后则可根据所述初选文本段内包含的关键词统计所述关键词数量和所述去重关键词的数量,例如在步骤2054)所举实例中可统计关键词“数据库”在该初选文本段中出现的频率为3,关键词“性能”在该初选文本段中出现的频率为1,因此该初选文本段包含的关键词数量为4,去重关键词数量为2。
S206,根据所述关键词数量和/或去重关键词数量计算所述初选文本段的权重参考值。
此步骤可参见图1中步骤S105,在此不再赘述。
S207,根据所述权重参考值选择权重参考值最高的初选文本段作为所述初选文本段中的最优文本段。
此步骤可参见图1中步骤S106,在此不再赘述。
S208,将所述最优文本段进行高亮显示。
具体实现中,将所述最优文本段进行高亮显示包括但不限于:对最优文本段内的文字进行标红,对最优文本段加上背景颜色,等易于用户迅速定位到关注文档内容的显示方式。
本发明实施例描述的是一种实现包含优先关键词的最优文本段检索与高亮显示的过程,指定优先关键词后首先通过哈希查询查找到优先关键词位置信息,根据优先关键词位置信息和高亮文本长度信息定位初选文本段;然后通过哈希查询统计到初选文本段中包含的关键词数量和去重关键词数量,根据关键词数量和去重关键词数量计算初选文本段的权重参考值;最后通过初选文本段的权重参考值选择出权重参考值最高的初选文本段作为最优文本段进行高亮显示,易于用户迅速定位到关注的信息模块,提高用户检索信息的准确性,提高了用户获取关注信息的效率,并且具有可定制性和灵活性。
图3为本发明提供一种信息检索装置示意图,本发明实施例中的信息检索装置可以为搜索引擎例如:谷歌,百度,雅虎,Lucene、Sphinx或者其他应用信息检索并显示的应用如:word的查找应用。如图3所示信息检索装置至少包括:接收单元101,选择单元102,确定单元103,获取单元104,计算单元105,显示单元106。
接收单元101,用于根据用户提交的检索请求获取关键词信息,所述关键词信息包括关键词集合和所述关键词集合中各关键词的优先级信息,其中所述关键词集合至少包括一个关键词。
所述检索请求携带用户欲检索的目标检索信息,用户欲检索目标检索信息时可以通过检索装置提供的信息检索界面提出检索请求,该界面可为用户提供输入目标检索信息及提交目标检索信息的操作命令,例如在百度搜索主页面的输入框中输入目标检索信息然后点击百度搜索提供的搜索项完成检索请求的提交。其中,关键词集合为对目标检索信息处理得到的结果,所述处理包括了不规则字符过滤及分词处理两个步骤,而各关键词的优先级信息是对关键词集合中各关键词进行优先级设置得到的结果。例如用户提交的检索请求携带的目标检索信息为“数?据库性能”,而检索装置默认为根据历史检索次数进行优先级设置并且历史检索次数越多优先级越高。首先对目标检索信息“数?据库性能”进行不规则字符过滤处理过滤掉不规则字符“?”得到的目标检索信息为“数据库性能”,然后对目标检索信息进行分词处理得到关键词集合为:数据,数据库,性能;若“数据”的检索次数为10次,“数据库”的检索次数为20次,“性能”的检索次数为5次,则经过优先级设置处理的关键词集合中关键词“数据”的优先级为2级,“数据库”优先级为1级,“性能”优先级为3级。在检索装置接收到用户提交的检索请求之后,接收单元101则可以根据用户提交的检索请求获取关键词信息。
选择单元102,用于根据所述各关键词的优先级信息选择所述关键词集合中优先级最高的关键词作为优先关键词。
具体实现中,如步骤S101中所述经过优先级设置处理的关键词集合中关键词“数据”的优先级为2级,“数据库”优先级为1级,“性能”优先级为3级,选择单元102首先通过比较各关键词的优先级信息得出“数据库”的优先级最高的结论,然后选择“数据库”作为优先关键词。
确定单元103,用于根据所述优先关键词确定待检文档中的初选文本段。
具体实现中,所述初选文本段为包含优先关键的文字段,该文字段长度可以通过从检索装置内部预设的高亮文本长度信息获取,也可以根据用户提交的高亮文本长度信息获取,所述高亮文本长度信息为高亮文本长度值。例如用户进行检索时不指定高亮文本长度值,且检索装置默认为高亮长度值为一个自然段落,那么初选文本段可以通过确定单元103确定为文档中包含有优先关键词的每个自然段落。
获取单元104,用于获取所述初选文本段中的关键词数量和/或去重关键词数量。
具体实现中,所述关键词数量为初选文本段中包含的所有关键词的数量,所述去重关键词数量为所述初选文本段中包含的关键词种类,即为包含不同关键词的数量。获取单元104获取所述初选文本段中的关键词数量和/或去重关键词数量需要确定初选文本段内包含的关键词。确定初选文本段内包含的关键词可以通过比较初选文本段在文档中的开始位置和结束位置及关键词在文档中出现的开始位置和结束位置实现,若关键词在文档的开始位置大于或等于初选文本段在文档中的开始位置并且关键词在文档中的结束位置小于或者等于初选文本段在文档中的结束位置则初选文本段包含该关键词。例如,通过第一查询子单元1041和第二查询子单元1042查询到优先关键词“数据库”在文档中的出现的开始位置及结束位置分别为:[7,9]、[23,25]、[31,33]、[58,60]、[80,82];关键词“性能”在文档中出现的开始位置及结束位置分别为:[2,3]、[51,52];若上述高亮文本长度值为51,则通过第一确定子单元1043确定初选文本段其中之一在文档中的开始位置和结束位置为[20,70],则在比较了关键词“数据库”和“性能”在文档在中出现的开始位置和结束位置及该初选文本段在文档中的开始位置和结束位置之后,统计子单元1045可判断此初选文本段中包含关键词“数据库”和关键词“性能”,“数据库”出现位置分别为[23,25]、[31,33]、[58,60],统计关键词“数据库”在该初选文本段中出现的频率为3,“性能”出现位置为[51,52],统计关键词“性能”在该初选文本段中出现的频率为1,因此该初选文本段包含的关键词数量为4,去重关键词数量为2,获取单元104获取关键词数量和去重关键词数量。
计算单元105,还用于根据所述关键词数量和/或去重关键词数量计算所述初选文本段的权重参考值。
具体实现中,计算单元105可以根据:value=Keywords_Size+Keywords_Num/Keyword_Num计算所述初选文本段的权重参考值,其中Keyword_Size为初选文本段内包含的去重关键词数量,Keywords_Num为初选文本段内包含的关键词数量,Keyword_Num为关键词集合包含的关键词数量,Keywords_Size代表了初选文本段包含的关键词的广度值,Keywords_Num/Keyword_Num为初选文本段包含的关键词的深度值,初选文本段的权重参考值由其包含关键词的广度值和深度值共同决定。
所述选择单元102,还用于根据所述权重参考值选择权重参考值最高的初选文本段作为所述初选文本段中的最优文本段。
具体实现中,检索装置获取初选文本段的权重参考值,选择单元102通过比较判断出权重参考值最高的初选文本段作为最优文本段。例如检索装置默认为高亮长度值为一个自然段落,则初选文本段为包含关键词的每个自然段,假设优先关键词为“数据库”,关键词集合为“数据库,数据,性能”,初选文本段分别为“在设计数据库时,必须确保数据库快速而正确地执行所有重要的函数。某些性能问题可以在数据库投入使用之后进行解决。”和“但是,其他性能问题则可能是由于数据库设计较差导致的,并且只能通过更改数据库的结构和设计来解决。”经过步骤S104统计出包含的关键词数量分别为7和5,去重关键词数量分别为3和3;则经过步骤S105计算初选文本度段的权重参考值分别为13/3和11/3,则可判断出在此例中前者的权重值最高,选择相应的初选文本段“在设计数据库时,必须确保数据库快速而正确地执行所有重要的函数。某些性能问题可以在数据库投入使用之后进行解决。”作为最优文本段。若出现并列最高权重参考值,优先选择广度值高的初选文本段作为最有文本段,例如,初选文本段1和初选文本段2的权重参考值都为4,初选文段1的广度值和深度值分别为3和1,而初选文本段2的广度值和深度值分别为2和2,则选择初选文本段1作为最优文本段。若并列最高权重参考值的初选文本段广度值也相同,可随机选择其中之一作为最优文本段,也可将并列最高权重参考值的全部初选文本段最为最优文本段。
显示单元106,用于将所述最优文本段内包含的关键词进行高亮显示。
具体实现中,显示单元106将所述最优文本段内包含的关键词进行高亮显示包括但不限于:对关键词进行标红,对关键词加上背景颜色,对关键词突出显示等易于用户迅速定位关注文档内容及关键词的显示方式。可选的,显示单元106将所述最优文本段进行高亮显示包括但不限于:对最优文本段内的文字进行标红,对最优文本段加上背景颜色,等易于用户迅速定位到关注文档内容的显示方式。
作为一种可选的实施方式,接收单元101在根据用户提交的检索请求获取关键词信息之前,还用于接收用户提交的检索请求,所述检索请求携带目标检索信息。
具体实现中,用户欲检索目标检索信息时可以通过检索装置提供的信息检索界面提出检索请求,该界面可为用户提供输入目标检索信息及提交目标检索信息的操作命令,其中,检索装置包括如:谷歌、百度、雅虎、Lucene、Sphinx等搜索引擎,还包括其他信息检索显示应用如:word查找应用。例如在百度搜索主页面的输入框中输入目标检索信息然后点击百度搜索提供的搜索项完成检索请求的提交。
所述信息检索装置还包括:
处理单元107,用于处理目标检索信息得到所述关键词集合。
具体实现中,处理单元107处理目标检索信息得到所述关键词集合包括了不规则字符过滤及分词处理两个步骤,例如用户提交的检索请求携带的目标检索信息为“数?据库性能”,处理单元107首先对目标检索信息“数?据库性能”进行不规则字符过滤处理过滤掉不规则字符“?”得到的目标检索信息为“数据库性能”,然后对目标检索信息进行分词处理得到关键词集合:数据,数据库,性能。
优先级设置单元108,用于根据所述关键词集合中各关键词的历史检索次数对所述各关键词进行优先级设置或根据用户指定所述关键词集合中各关键词优先级对所述各关键词进行优先级设置得到所述关键词集合中各关键词的优先级信息。
具体实现中,优先级设置单元108根据所述关键词集合中各关键词的历史检索次数对所述各关键词进行优先级设置,关键词的历史检索次数越多优先级越高,例如关键词集合为:数据,数据库,性能;“数据”的检索次数为10次,“数据库”的检索次数为20次,“性能”的检索次数为5次,则经过优先级设置处理的关键词集合中关键词“数据”的优先级为2级,“数据库”优先级为1级,“性能”优先级为3级。优先级设置单元108根据用户指定所述关键词集合中各关键词优先级对所述各关键词进行优先级设置得到所述关键词集合中各关键词的优先级信息,可以通过对关键词集合中的各关键词进行排序实现,例如将上述关键词集合进行排序将关注的关键词位置放前得到带有排序的关键词集合:数据库,性能,数据,则在此关键词集合中“数据库”的优先级最高为1级,“性能”的优先级次之为2级,“数据”的优先级最低为3级。
进一步的参见图4,本发明实施例提供的获取模块的一个实施例结构示意图;所述获取单元104可包括:第一查询子单元1041,第二查询子单元1042,第一确定子单元1043,第二确定子单元1044和统计子单元1045。
第一查询子单元1041,用于以待检文档ID为关键字在预存文档信息库中哈希查询待检文档分词信息,所述待检文档分词信息携带待检文档分词的位置信息。
具体实现中,所述文档ID为文档编号或者其他可对文档进行唯一标识的文档标识。所述待检文档分词信息为待检文档分词结果的倒排索引,所述分词结果包括待检文档分词之后包含的所有分词及各分词在该文档中的位置信息。所述倒排索引为根据属性值查找记录的索引方式,在本实施例中的分词结果的倒排索引中可以根据跟分词查找该分词在文档中的位置信息。哈希表是根据关键字直接进行访问的数据结构,它通过把关键字映射到表中一个位置来访问记录,以加快查找的速度。本实施例中所述预存文档信息库是以双哈希表的方式存储在服务器中,第一个哈希表是以文档ID为关键字以文档分词结果的倒排索引为记录建立的哈希表,第二个哈希表是以分词为关键字以该分词的倒排索引为目记录建立的哈希表。在实际应用中,例如以Java语言为基础实现的搜索引擎中,以待检文档ID为关键字,调用Java工具包自带函数hashcode()即可将待检文档ID映射到哈希表的某一位置,以此位置为存储地址存储待检文档分词结果的倒排索引并将其加入哈希表中,在哈希查询过程中第一查询子单元1041以待检文档ID为关键字,调用hashcode()即可计算出待检文档分词结果的倒排索引存储地址对其进行直接访问。
第二查询子单元1042,用于以所述关键词集合中的各关键词为关键字在所述待检文档分词信息中哈希查询所述各关键词的位置信息。
具体实现中,所述待检文档分词信息为待检文档分词结果的倒排索引,所述分词结果包括待检文档分词之后包含的所有分词及各分词在该文档中的位置信息。所述倒排索引为根据属性值查找记录的索引方式,在本实施例中的分词结果的倒排索引中可以根据分词查找该分词在文档中的位置信息。在实际应用中,例如以Java语言为基础实现的搜索引擎中,分别以各关键词为关键字调用Java工具包自带函数hashcode()即可将各关键词映射到哈希表的某一位置,以此位置为存储地址存储各关键词的倒排索引并将其加入哈希表中,在哈希查询过程中第二查询子单元1042分别以各先关键词为关键字,调用hashcode()即可计算出各关键词的倒排索引的存储地址进行直接访问,进而根据各关键词的倒排索引查找到各关键词在待检文档中的位置信息。
第一确定子单元1043,用于根据优先关键词位置信息和预设高亮文本长度信息确定所述初选文本段的起止位置信息,所述起止位置信息包括初选文本段的开始位置信息和结束位置信息。
具体实现中,例如优先关键词为“数据库”,高亮文本长度信息包含的高亮长度值为10,根据第一查询子单元1041和第二查询子单元1042查询到优先关键词的倒排索引为“数据库[4,6]”,则初选文段可确定为在待检文档位置为[1,10]、[2,11]、[3,12]及[4,13]的内容段,初选文本段的起止信息分别为:[1,10]、[2,11]、[3,12]及[4,13]。
第二确定子单元1044,用于根据所述各关键词的位置信息和所述初选文本段的起止位置信息确定所述初选文本段内包含的关键词。
具体实现中,确定初选文本段内包含的关键词可以通过比较初选文本段在文档中的开始位置和结束位置及关键词在文档中出现的开始位置和结束位置实现,若关键词在文档的开始位置大于或等于初选文本段在文档中的开始位置并且关键词在文档中的结束位置小于或者等于初选文本段在文档中的结束位置则初选文本段包含该关键词。例如,通过第一查询子单元1041和第二查询子单元1042查询到优先关键词“数据库”在文档中的出现的开始位置及结束位置分别为:[7,9]、[23,25]、[31,33]、[58,60]、[80,82];关键词“性能”在文档中出现的开始位置及结束位置分别为:[2,3]、[51,52];通过第一确定子单元1043确定初选文本段其中之一在文档中的开始位置和结束位置为[20,70],则在比较了关键词“数据库”和“性能”在文档在中出现的开始位置和结束位置及该初选文本段在文档中的开始位置和结束位置之后,可确定该初选文本段中包含关键词“数据库”和关键词“性能”,“数据库”出现位置分别为[23,25]、[31,33]、[58,60],“性能”出现的位置为[51,52]。
统计子单元1045,用于根据所述初选文本段内包含的关键词统计所述关键词数量和所述去重关键词的数量。
具体实现中,第二确定子单元1044根据所述各关键词的位置信息和所述初选文本段的起止位置信息确定所述初选文本段内包含的关键词之后统计子单元1045可根据所述初选文本段内包含的关键词统计所述关键词数量和所述去重关键词的数量,例如在第二确定子单元1044所举实例中可统计关键词“数据库”在该初选文本段中出现的频率为3,关键词“性能”在该初选文本段中出现的频率为1,因此该初选文本段包含的关键词数量为4,去重关键词数量为2。
进一步的参见图5,本发明实施例提供的确定单元103的一个实施例结构示意图;所述确定单元103可以包括:第三查询子单元1031,第四查询子单元1032和确定子单元1033,其中第三查询子单元1031结构参见图4中第一查询子单元1041描述,在此不再赘述。
第四查询子单元1032,用于以所述优先关键词为关键字在所述待检文档分词信息中哈希查询所述优先关键词位置信息。
具体实现中,所述优先关键词为关键词集合中优先级最高的关键词,所述待检文档分词信息为待检文档分词结果的倒排索引,所述分词结果包括待检文档分词之后包含的所有分词及各分词在该文档中的位置信息。所述倒排索引为根据属性值查找记录的索引方式,在本实施例中的分词结果的倒排索引中可以根据分词查找该分词在文档中的位置信息。在实际应用中,例如以Java语言为基础实现的搜索引擎中,以优先关键词为关键字调用Java工具包自带函数hashcode()即可将优先关键词映射到哈希表的某一位置,以此位置为存储地址存储优先关键词的倒排索引并将其加入哈希表中,在哈希查询过程中第四查询子单元1032以优先关键词为关键字,调用hashcode()即可计算出优先关键词的倒排索引的存储地址进行直接访问,进而根据优先关键词的倒排索引查找到优先关键词在待检文档中的位置信息。
确定子单元1033,根据所述优先关键词位置信息和高亮文本长度信息确定所述待检文档中的初选文本段。
具体实现中,所述初选文本段为根据高亮文本长度信息确定的指定长度且包含优先关键词的文字段。例如高亮文本长度信息包含的高亮长度值为10,待检文档ID为文档编号4且内容为“我们在设计数据库时,必须确保快速而正确地执行所有重要的函数,某些性能问题可以在投入使用之后进行解决”,优先关键词为“数据库”,通过第三查询单元1031和第四查询单元1032查询到优先关键词的倒排索引为“数据库[6,8]”,则初选文段可确定为在待检文档位置为[1,10]、[2,11]、[3,12]、[4,13]、[5,14]和[6,15]的内容段,分别对应的内容段为“我们在设计数据库时,必”,“们在设计数据库时,必须”,“在设计数据库时,必须确”,“设计数据库时,必须确保”,“计数据库时,必须确保快”和“数据库时,必须确保快速”。进一步的,根据所述优先关键词位置信息和高亮文本长度信息确定待检文档中的初选文本段时,可预设初选文本段开始位置确定方式,例如初选文本段的开始位置确定方式为以优先关键词开始位置为初选文本段的开始位置,则在上述待检文档中初选文本段为“数据库时,必须确保快速”,又例如初选文本段的开始位置确定方式为以关键词为中心确定初选文本段的开始位置,则在上述待检文档中初选文本段为“在设计数据库时,必须确”或者“们在设计数据库时,必须”,在此例中若高亮长度值为9,则易于判断上述待检文档中初选文本段为“在设计数据库时,必须”。
本发明实施例描述的是一种实现包含优先关键词的最优文本段检索与高亮显示的过程,指定优先关键词后首先根据优先关键词位置信息和高亮文本长度信息定位初选文本段;然后通过初选文本段中包含的关键词数量和去重关键词计算初选文本段的权重参考值;最后通过初选文本段的权重参考值选择出权重参考值最高的初选文本段作为最优文本段进行高亮显示,易于用户迅速定位到关注的信息模块,提高用户检索信息的准确性,提高了用户获取关注信息的效率,并且具有可定制性和灵活性。
以上对本发明实施例公开的一种信息检索方法及装置进行了详细介绍,以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (12)
1.一种信息检索方法,其特征在于,包括:
根据用户提交的检索请求获取关键词信息,所述关键词信息包括关键词集合和所述关键词集合中各关键词的优先级信息,其中所述关键词集合至少包括一个关键词;
根据所述各关键词的优先级信息选择所述关键词集合中优先级最高的关键词作为优先关键词;
根据所述优先关键词确定待检文档中的初选文本段;
获取所述初选文本段中的关键词数量和/或去重关键词数量;
根据所述关键词数量和/或去重关键词数量计算所述初选文本段的权重参考值;
根据所述权重参考值选择权重参考值最高的初选文本段作为所述初选文本段中的最优文本段;
将所述最优文本段内包含的关键词进行高亮显示。
2.根据权利要求1所述的方法,其特征在于,根据用户提交的检索请求获取关键词信息之前还包括:
接收用户提交的检索请求,所述检索请求携带目标检索信息;
处理目标检索信息得到所述关键词集合;
根据所述关键词集合中各关键词的历史检索次数对所述各关键词进行优先级设置或根据用户指定所述关键词集合中各关键词优先级对所述各关键词进行优先级设置得到所述关键词集合中各关键词的优先级信息。
3.根据权利要求1所述的方法,其特征在于,所述获取所述初选文本段中的关键词数量和/或去重关键词数量包括:
以待检文档ID为关键字在预存文档信息库中哈希查询待检文档分词信息,所述待检文档分词信息携带待检文档分词的位置信息;
以所述关键词集合中的各关键词为关键字在所述待检文档分词信息中哈希查询所述各关键词的位置信息;
根据优先关键词位置信息和预设高亮文本长度信息确定所述初选文本段的起止位置信息,所述起止位置信息包括初选文本段的开始位置信息和结束位置信息;
根据所述各关键词的位置信息和所述初选文本段的起止位置信息确定所述初选文本段内包含的关键词;
根据所述初选文本段内包含的关键词统计所述关键词数量和所述去重关键词的数量。
4.根据权利要求1所述的方法,其特征在于,
所述权重参考值根据value=Keywords_Size+Keywords_Num/Keyword_Num计算,其中Keyword_Size为初选文本段内包含的去重关键词数量,Keywords_Num为初选文本段内包含的关键词数量,Keyword_Num为关键词集合包含的关键词数量。
5.根据权利要求1所述的方法,其特征在于,所述检索请求携带目标检索信息和高亮文本长度信息,所述高亮文本长度信息用于表示所述初选文本段的长度;
所述根据所述优先关键词确定待检文档中的初选文本段包括:
根据所述优先关键词和所述高亮文本长度信息确定待检文档中的初选文本段。
6.根据权利要求5所述的方法,其特征在于,所述根据所述优先关键词和所述高亮文本长度信息确定待检文档中的初选文本段包括:
以所述待检文档ID为关键字在预存文档信息库中哈希查询所述待检文档分词信息,所述待检文档分词信息携带待检文档分词的位置信息;
以所述优先关键词为关键字在所述待检文档分词信息中哈希查询所述优先关键词位置信息;
根据所述优先关键词位置信息和高亮文本长度信息确定所述待检文档中的初选文本段。
7.一种信息检索装置,其特征在于,包括:
接收单元,用于根据用户提交的检索请求获取关键词信息,所述关键词信息包括关键词集合和所述关键词集合中各关键词的优先级信息,其中所述关键词集合至少包括一个关键词;
选择单元,用于根据所述各关键词的优先级信息选择所述关键词集合中优先级最高的关键词作为优先关键词;
确定单元,用于根据所述优先关键词确定待检文档中的初选文本段;
获取单元,用于获取所述初选文本段中的关键词数量和/或去重关键词数量;
计算单元,用于根据所述关键词数量和/或去重关键词数量计算所述初选文本段的权重参考值;
所述选择单元,还用于根据所述权重参考值选择权重参考值最高的初选文本段作为所述初选文本段中的最优文本段;
显示单元,用于将所述最优文本段内包含的关键词进行高亮显示。
8.根据权利要求7所述的信息检索装置,其特征在于,
所述接收单元,在根据用户提交的检索请求获取关键词信息之前,还用于获取用户提交的检索请求,所述检索请求携带目标检索信息;
所述信息检索装置还包括:
处理单元,用于处理目标检索信息得到所述关键词集合;
优先级设置单元,用于根据所述关键词集合中各关键词的历史检索次数对所述各关键词进行优先级设置或根据用户指定所述关键词集合中各关键词优先级对所述各关键词进行优先级设置得到所述关键词集合中各关键词的优先级信息。
9.根据权利要求7所述的信息检索装置,其特征在于,所述获取单元包括:
第一查询子单元,用于以待检文档ID为关键字在预存文档信息库中哈希查询待检文档分词信息,所述待检文档分词信息携带待检文档分词的位置信息;
第二查询子单元,用于以所述关键词集合中的各关键词为关键字在所述待检文档分词信息中哈希查询所述各关键词的位置信息;
第一确定子单元,用于根据优先关键词位置信息和预设高亮文本长度信息确定所述初选文本段的起止位置信息,所述起止位置信息包括初选文本段的开始位置信息和结束位置信息;
第二确定子单元,用于根据所述各关键词的位置信息和所述初选文本段的起止位置信息确定所述初选文本段内包含的关键词;
统计子单元,用于根据所述初选文本段内包含的关键词统计所述关键词数量和所述去重关键词的数量。
10.根据权利要求7所述的信息检索装置,其特征在于,所述计算单元用于
根据value=Keywords_Size+Keywords_Num/Keyword_Num计算所述权重参考值,其中Keyword_Size为初选文本段内包含的去重关键词数量,Keywords_Num为初选文本段内包含的关键词数量,Keyword_Num为关键词集合包含的关键词数量。
11.根据权利要求7所述的信息检索装置,其特征在于,所述检索请求携带目标检索信息和高亮文本长度信息,所述高亮文本长度信息用于表示所述初选文本段的长度;
所述确定单元,还用于根据所述优先关键词和所述高亮文本长度信息确定待检文档中的初选文本段。
12.根据权利要求11所述的信息检索装置,其特征在于,所述确定单元包括:
第三查询子单元,用于以所述待检文档ID为关键字在预存文档信息库中哈希查询所述待检文档分词信息;
第四查询子单元,用于以所述优先关键词为关键字在所述待检文档分词信息中哈希查询所述优先关键词位置信息;
确定子单元,用于根据所述优先关键词位置信息和高亮文本长度信息确定所述待检文档中的初选文本段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410594352.4A CN104361042B (zh) | 2014-10-29 | 2014-10-29 | 一种信息检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410594352.4A CN104361042B (zh) | 2014-10-29 | 2014-10-29 | 一种信息检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104361042A CN104361042A (zh) | 2015-02-18 |
CN104361042B true CN104361042B (zh) | 2019-02-12 |
Family
ID=52528303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410594352.4A Active CN104361042B (zh) | 2014-10-29 | 2014-10-29 | 一种信息检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104361042B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104715065B (zh) * | 2015-03-31 | 2017-04-19 | 北京奇元科技有限公司 | 一种长查询词的搜索方法和装置 |
CN107153516B (zh) * | 2016-03-04 | 2020-07-14 | 富士施乐实业发展(中国)有限公司 | 智能打印方法及系统 |
CN107229559B (zh) * | 2016-03-23 | 2020-06-02 | 阿里巴巴集团控股有限公司 | 针对业务系统的测试完整度的检测方法和装置 |
CN106021404B (zh) * | 2016-05-12 | 2019-09-03 | 北京北大英华科技有限公司 | 检索方法 |
CN106126616B (zh) * | 2016-06-21 | 2020-01-10 | 东软集团股份有限公司 | 汇聚网络素材的方法和装置 |
CN106294768A (zh) * | 2016-08-11 | 2017-01-04 | 深圳市宜搜科技发展有限公司 | 信息搜索方法及信息搜索引擎 |
CN106960047A (zh) * | 2017-03-30 | 2017-07-18 | 联想(北京)有限公司 | 一种信息处理方法、装置和电子设备 |
CN107707487B (zh) * | 2017-09-20 | 2020-10-27 | 杭州安恒信息技术股份有限公司 | 一种网络业务流量的实时检索系统及实时检索方法 |
CN110309387A (zh) * | 2018-03-07 | 2019-10-08 | 苏州猫耳网络科技有限公司 | 一种大数据资讯聚合阅读推荐方法 |
CN109933702B (zh) * | 2019-03-11 | 2022-12-16 | 智慧芽信息科技(苏州)有限公司 | 一种检索展示方法、装置、设备及存储介质 |
CN110188178A (zh) * | 2019-05-30 | 2019-08-30 | 深圳龙图腾创新设计有限公司 | 一种跨文档信息查找方法、装置、计算机设备和存储介质 |
CN110727663A (zh) * | 2019-09-09 | 2020-01-24 | 光通天下网络科技股份有限公司 | 数据清洗方法、装置、设备及介质 |
CN111223533B (zh) * | 2019-12-24 | 2024-02-13 | 深圳市联影医疗数据服务有限公司 | 一种医疗数据检索方法及系统 |
CN111723571A (zh) * | 2020-06-12 | 2020-09-29 | 上海极链网络科技有限公司 | 一种文本信息审核方法及系统 |
CN112612815B (zh) * | 2020-12-29 | 2024-04-19 | 鲁班(北京)电子商务科技有限公司 | 一种对评标文件进行定位的方法、装置及电子设备 |
CN113641815B (zh) * | 2021-07-26 | 2023-06-13 | 武汉理工大学 | 一种基于大数据的数据筛选方法、装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5950187A (en) * | 1995-11-30 | 1999-09-07 | Fujitsu Limited | Document retrieving apparatus and method thereof for outputting result corresponding to highlight level of inputted retrieval key |
CN101110077A (zh) * | 2007-08-24 | 2008-01-23 | 新诺亚舟科技(深圳)有限公司 | 在手持学习终端上实现的联合搜索的方法 |
CN102087669A (zh) * | 2011-03-11 | 2011-06-08 | 北京汇智卓成科技有限公司 | 基于语义关联的智能搜索引擎系统 |
CN102122286A (zh) * | 2010-04-01 | 2011-07-13 | 武汉福来尔科技有限公司 | 在手持学习终端上实现的聚合式搜索的方法 |
CN104090981A (zh) * | 2014-07-24 | 2014-10-08 | 山东大学 | 一种对php变量关键词快速搜索及感兴趣内容推送方法 |
-
2014
- 2014-10-29 CN CN201410594352.4A patent/CN104361042B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5950187A (en) * | 1995-11-30 | 1999-09-07 | Fujitsu Limited | Document retrieving apparatus and method thereof for outputting result corresponding to highlight level of inputted retrieval key |
CN101110077A (zh) * | 2007-08-24 | 2008-01-23 | 新诺亚舟科技(深圳)有限公司 | 在手持学习终端上实现的联合搜索的方法 |
CN102122286A (zh) * | 2010-04-01 | 2011-07-13 | 武汉福来尔科技有限公司 | 在手持学习终端上实现的聚合式搜索的方法 |
CN102087669A (zh) * | 2011-03-11 | 2011-06-08 | 北京汇智卓成科技有限公司 | 基于语义关联的智能搜索引擎系统 |
CN104090981A (zh) * | 2014-07-24 | 2014-10-08 | 山东大学 | 一种对php变量关键词快速搜索及感兴趣内容推送方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104361042A (zh) | 2015-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104361042B (zh) | 一种信息检索方法及装置 | |
US10997678B2 (en) | Systems and methods for image searching of patent-related documents | |
CN101819578B (zh) | 检索方法、索引建立方法和装置及检索系统 | |
RU2011130218A (ru) | Система и способ агрегации данных с множества веб-сайтов | |
CN102184222B (zh) | 一种在大数据量存储中快速检索的方法 | |
CN108491438A (zh) | 一种科技政策检索分析方法 | |
CN103631948A (zh) | 命名实体的识别方法 | |
CN106682147A (zh) | 一种基于海量数据的查询方法及装置 | |
WO2009039392A1 (en) | A system for entity search and a method for entity scoring in a linked document database | |
CN105159938B (zh) | 检索方法和装置 | |
JP2002041546A (ja) | 階層的統計分析のシステム及び方法 | |
CN108304444A (zh) | 信息查询方法及装置 | |
US20100228714A1 (en) | Analysing search results in a data retrieval system | |
US11232137B2 (en) | Methods for evaluating term support in patent-related documents | |
CN106227788A (zh) | 一种以Lucene为基础的数据库查询方法 | |
US9971782B2 (en) | Document tagging and retrieval using entity specifiers | |
CN102314464B (zh) | 歌词搜索方法及搜索引擎 | |
CN109284441B (zh) | 动态自适应网络敏感信息检测方法及装置 | |
CN103034656A (zh) | 章节内容分层方法和装置、文章内容分层方法和装置 | |
CN105653546A (zh) | 一种目标主题的检索方法和系统 | |
CN109388690A (zh) | 文本检索方法、用于文本检索的倒排表生成方法以及系统 | |
JP5943756B2 (ja) | データ中のあいまいな箇所の検索 | |
CN107729518A (zh) | 一种关系型数据库的全文检索方法及装置 | |
CN110633430B (zh) | 事件发现方法、装置、设备和计算机可读存储介质 | |
CN113326291A (zh) | 一种数据检索的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |