CN116775828A - 基于动态词典的搜索方法、装置、设备及存储介质 - Google Patents

基于动态词典的搜索方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116775828A
CN116775828A CN202310706423.4A CN202310706423A CN116775828A CN 116775828 A CN116775828 A CN 116775828A CN 202310706423 A CN202310706423 A CN 202310706423A CN 116775828 A CN116775828 A CN 116775828A
Authority
CN
China
Prior art keywords
query
keyword
dynamic dictionary
buffer area
based search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310706423.4A
Other languages
English (en)
Inventor
邵锐
刘言军
胡楠
徐丽华
胡翔
尹曦宇
郭兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Fiberhome Information Integration Technologies Co ltd
Original Assignee
Wuhan Fiberhome Information Integration Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Fiberhome Information Integration Technologies Co ltd filed Critical Wuhan Fiberhome Information Integration Technologies Co ltd
Priority to CN202310706423.4A priority Critical patent/CN116775828A/zh
Publication of CN116775828A publication Critical patent/CN116775828A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种基于动态词典的搜索方法、装置、设备及存储介质,所述方法通过获取各信息数据元对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区;检测到用户查询输入的目标关键词时,选取权重前N的词语组合构成初始查询扩展后的查询词语集合;根据所述磁盘索引文件检索所述查询词语集合对应的目标信息文档,输出所述目标信息文档,能够根据用户查询行为进行信息筛选,简化了检索过程,提高了信息匹配度,保证了检索精度,降低了检索计算成本,提升了基于动态词典的搜索的速度和效率。

Description

基于动态词典的搜索方法、装置、设备及存储介质
技术领域
本发明涉及计算机信息检索应用技术领域,尤其涉及一种基于动态词典的搜索方法、装置、设备及存储介质。
背景技术
随着互联网和计算机应用相关技术的发展,web网络信息资源急剧增长,为了在海量数据中搜索用户需要的信息,各种检索技术不断涌现,信息检索已经成为用户查找信息的重要手段,在计算机领域的应用非常广泛,使用频率非常高;信息检索作为一种搜索技术,重要的衡量标准就是查询结果与用户期待结果的匹配度,用户在提交查询条件本身存在表达模糊的特性,有时候一些简单查询词语难以表达出明确的查询需求,会影响查询的结果,再加上每个用户对与整体信息库的敏感度和理解存在差异,信息与信息之间存在复杂的交集网络,同一概念在不同的领域可能使用相同词语表达,这也会极大程度影响查询结果;为了解决查询与信息的匹配问题,传统的检索方案有根据不同领域的组织结构来构建静态知识关联库来扩充用户提交的查询语义,但是静态知识库本身需要反应出人对于信息认知规律,所以构建和维护知识库需要巨大的人力和知识来源;另外也有通过用查询结果来完善拓展用户的原本查询,用多次查询的结果来拓展语义表达让简单的词语更加接近信息内容,但是这种方案依赖于扩展规则的合理性,而且检索的过程会变得更加复杂,检索速度也会变慢。
发明内容
本发明的主要目的在于提供一种基于动态词典的搜索方法、装置、设备及存储介质,旨在解决现有技术中检索依赖扩展规则的合理性,检索过程复杂,检索速度较慢,检索精度和效率较低的技术问题。
第一方面,本发明提供一种基于动态词典的搜索方法,所述基于动态词典的搜索方法包括以下步骤:
获取各信息数据元对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区;
检测到用户查询输入的目标关键词时,选取权重前N的词语组合构成初始查询扩展后的查询词语集合;
根据所述磁盘索引文件检索所述查询词语集合对应的目标信息文档,输出所述目标信息文档。
可选地,所述获取各信息数据元对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区,包括:
获取各信息数据元中不同关键词出现的频率,根据所述频率确定各关键词和各信息数据元的关联关系;
根据所述关联关系对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区。
可选地,所述根据所述关联关系对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区,包括:
将所述关联关系存储在固定内存中,并统计所述关联关系对应的关系三元组的大小;
在所述关系三元组的大小达到所述固定内存的预设存储阈值时,对所述关系三元组组成的集合按照关键词进行排序,并将排序后的集合写入内存缓冲区;
对所述内存缓冲区进行合并,获得合并缓冲区,写入磁盘索引文件至所述合并缓冲区,并清理所述合并缓冲区中的缓冲区数据以等待下一次合并。
可选地,所述检测到用户查询输入的目标关键词时,选取权重前N的词语组合构成初始查询扩展后的查询词语集合,包括:
检测到用户查询输入的目标关键词时,根据所述目标关键词搜索扩展词库匹配的关键词ID,根据所述关键词ID选取权重前N的词语组合构成初始查询扩展后的查询词语集合。
可选地,所述获取各信息数据元对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区之后,所述基于动态词典的搜索方法还包括:
获取查询关键词集合和用户选择信息集合,根据所述查询关键词集合和所述用户选择信息集合构成关键词矩阵组合;
将所述关键词矩阵组合按权重过滤,并排序写入扩展词库。
可选地,所述获取查询关键词集合和用户选择信息集合,根据所述查询关键词集合和所述用户选择信息集合构成关键词矩阵组合,包括:
获取查询关键词集合和用户选择信息集合,根据用户选择信息和查询关键词的关系构建所述查询关键词集合和所述用户选择信息集合的关键词矩阵组合。
可选地,所述根据所述磁盘索引文件检索所述查询词语集合对应的目标信息文档,输出所述目标信息文档之后,所述基于动态词典的搜索方法还包括:
记录用户选择浏览的搜索结果,将所述搜索结果存入日志文件;
当所述日志文件的大小达到预设大小时,重新构造所述关键词矩阵组合,并重新更新扩展词库。
第二方面,为实现上述目的,本发明还提出一种基于动态词典的搜索装置,所述基于动态词典的搜索装置包括:
数据获取模块,用于获取各信息数据元对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区;
集合构成模块,用于检测到用户查询输入的目标关键词时,选取权重前N的词语组合构成初始查询扩展后的查询词语集合;
文档检索模块,用于根据所述磁盘索引文件检索所述查询词语集合对应的目标信息文档,输出所述目标信息文档。
第三方面,为实现上述目的,本发明还提出一种基于动态词典的搜索设备,所述基于动态词典的搜索设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于动态词典的搜索程序,所述基于动态词典的搜索程序配置为实现如上文所述的基于动态词典的搜索方法的步骤。
第四方面,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有基于动态词典的搜索程序,所述基于动态词典的搜索程序被处理器执行时实现如上文所述的基于动态词典的搜索方法的步骤。
本发明提出的基于动态词典的搜索方法,通过获取各信息数据元对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区;检测到用户查询输入的目标关键词时,选取权重前N的词语组合构成初始查询扩展后的查询词语集合;根据所述磁盘索引文件检索所述查询词语集合对应的目标信息文档,输出所述目标信息文档,能够根据用户查询行为进行信息筛选,简化了检索过程,提高了信息匹配度,保证了检索精度,降低了检索计算成本,提升了基于动态词典的搜索的速度和效率。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明基于动态词典的搜索方法第一实施例的流程示意图;
图3为本发明基于动态词典的搜索方法第二实施例的流程示意图;
图4为本发明基于动态词典的搜索方法第三实施例的流程示意图;
图5为本发明基于动态词典的搜索方法第四实施例的流程示意图;
图6为本发明基于动态词典的搜索方法第五实施例的流程示意图;
图7为本发明基于动态词典的搜索方法第六实施例的流程示意图;
图8为本发明基于动态词典的搜索装置第一实施例的功能模块图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的解决方案主要是:通过获取各信息数据元对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区;检测到用户查询输入的目标关键词时,选取权重前N的词语组合构成初始查询扩展后的查询词语集合;根据所述磁盘索引文件检索所述查询词语集合对应的目标信息文档,输出所述目标信息文档,能够根据用户查询行为进行信息筛选,简化了检索过程,提高了信息匹配度,保证了检索精度,降低了检索计算成本,提升了基于动态词典的搜索的速度和效率,解决了现有技术中检索依赖扩展规则的合理性,检索过程复杂,检索速度较慢,检索精度和效率较低的技术问题。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
如图1所示,该设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(Non-Volatile Memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对该设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作装置、网络通信模块、用户接口模块以及基于动态词典的搜索程序。
本发明设备通过处理器1001调用存储器1005中存储的基于动态词典的搜索程序,并执行以下操作:
获取各信息数据元对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区;
检测到用户查询输入的目标关键词时,选取权重前N的词语组合构成初始查询扩展后的查询词语集合;
根据所述磁盘索引文件检索所述查询词语集合对应的目标信息文档,输出所述目标信息文档。
本发明设备通过处理器1001调用存储器1005中存储的基于动态词典的搜索程序,还执行以下操作:
获取各信息数据元中不同关键词出现的频率,根据所述频率确定各关键词和各信息数据元的关联关系;
根据所述关联关系对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区。
本发明设备通过处理器1001调用存储器1005中存储的基于动态词典的搜索程序,还执行以下操作:
将所述关联关系存储在固定内存中,并统计所述关联关系对应的关系三元组的大小;
在所述关系三元组的大小达到所述固定内存的预设存储阈值时,对所述关系三元组组成的集合按照关键词进行排序,并将排序后的集合写入内存缓冲区;
对所述内存缓冲区进行合并,获得合并缓冲区,写入磁盘索引文件至所述合并缓冲区,并清理所述合并缓冲区中的缓冲区数据以等待下一次合并。
本发明设备通过处理器1001调用存储器1005中存储的基于动态词典的搜索程序,还执行以下操作:
检测到用户查询输入的目标关键词时,根据所述目标关键词搜索扩展词库匹配的关键词ID,根据所述关键词ID选取权重前N的词语组合构成初始查询扩展后的查询词语集合。
本发明设备通过处理器1001调用存储器1005中存储的基于动态词典的搜索程序,还执行以下操作:
获取查询关键词集合和用户选择信息集合,根据所述查询关键词集合和所述用户选择信息集合构成关键词矩阵组合;
将所述关键词矩阵组合按权重过滤,并排序写入扩展词库。
本发明设备通过处理器1001调用存储器1005中存储的基于动态词典的搜索程序,还执行以下操作:
获取查询关键词集合和用户选择信息集合,根据用户选择信息和查询关键词的关系构建所述查询关键词集合和所述用户选择信息集合的关键词矩阵组合。
本发明设备通过处理器1001调用存储器1005中存储的基于动态词典的搜索程序,还执行以下操作:
记录用户选择浏览的搜索结果,将所述搜索结果存入日志文件;
当所述日志文件的大小达到预设大小时,重新构造所述关键词矩阵组合,并重新更新扩展词库。
本实施例通过上述方案,通过获取各信息数据元对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区;检测到用户查询输入的目标关键词时,选取权重前N的词语组合构成初始查询扩展后的查询词语集合;根据所述磁盘索引文件检索所述查询词语集合对应的目标信息文档,输出所述目标信息文档,能够根据用户查询行为进行信息筛选,简化了检索过程,提高了信息匹配度,保证了检索精度,降低了检索计算成本,提升了基于动态词典的搜索的速度和效率。
基于上述硬件结构,提出本发明基于动态词典的搜索方法实施例。
参照图2,图2为本发明基于动态词典的搜索方法第一实施例的流程示意图。
在第一实施例中,所述基于动态词典的搜索方法包括以下步骤:
步骤S10、获取各信息数据元对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区。
需要说明的是,各信息数据元为信息数据集中的信息数据元,信息数据元对应有合并缓冲区,确定合并缓冲区后可以写入磁盘索引文件至所述合并缓冲区。
步骤S20、检测到用户查询输入的目标关键词时,选取权重前N的词语组合构成初始查询扩展后的查询词语集合。
可以理解的是,在检测到用户查询输入的关键词时,可以选取权重前N的词语组合构成初始查询扩展后的查询词语集合,一般可以选取权重前五的词语组合构成查询词语集合,当然也可以选取其他数量的词语组合。
步骤S30、根据所述磁盘索引文件检索所述查询词语集合对应的目标信息文档,输出所述目标信息文档。
应当理解的是,通过所述磁盘索引文件可以检索所述查询词语集合对应的信息文档,进而可以输出检索得到的目标信息文档对应的集合。
在具体实现中,根据扩展后的词语集合和索引文件,得到词语与信息的映射,搜索得到目标信息文档,进而输出检索得到的目标信息集。
本实施例通过上述方案,通过获取各信息数据元对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区;检测到用户查询输入的目标关键词时,选取权重前N的词语组合构成初始查询扩展后的查询词语集合;根据所述磁盘索引文件检索所述查询词语集合对应的目标信息文档,输出所述目标信息文档,能够根据用户查询行为进行信息筛选,简化了检索过程,提高了信息匹配度,保证了检索精度,降低了检索计算成本,提升了基于动态词典的搜索的速度和效率。
进一步地,图3为本发明基于动态词典的搜索方法第二实施例的流程示意图,如图3所示,基于第一实施例提出本发明基于动态词典的搜索方法第二实施例,在本实施例中,所述步骤S11具体包括以下步骤:
步骤S11、获取各信息数据元中不同关键词出现的频率,根据所述频率确定各关键词和各信息数据元的关联关系。
需要说明的是,获取各信息数据元中不同关键词出现的频率后,可以根据所述频率确定各关键词和各信息数据元的关联关系。
在具体实现中,初始化数据集W={w1,w2,...,wn}表示系统的信息数据集,K={k1,k2,...,kn}表示信息数据集出现的单词集合;根据每个信息数据元wi中不同关键词ki出现的频率,可以得到三元组r(k,w,n)用来表示关键字和数据元的关联关系。
步骤S12、根据所述关联关系对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区。
可以理解的是,通过所述关联关系可以确定对应的合并缓冲区,进而可以写入磁盘索引文件至所述合并缓冲区。
本实施例通过上述方案,通过获取各信息数据元中不同关键词出现的频率,根据所述频率确定各关键词和各信息数据元的关联关系;根据所述关联关系对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区,能够快速确定合并缓冲区,提升了基于动态词典的搜索的速度和效率。
进一步地,图4为本发明基于动态词典的搜索方法第三实施例的流程示意图,如图4所示,基于第二实施例提出本发明基于动态词典的搜索方法第三实施例,在本实施例中,所述步骤S12具体包括以下步骤:
步骤S121、将所述关联关系存储在固定内存中,并统计所述关联关系对应的关系三元组的大小。
需要说明的是,将所述关联关系存储在固定内存中,可以统计所述关联关系对应的关系三元组的大小。
在具体实现中,定义三元组集合p={r1,r2,...,rn},将所述关联关系对应的关系三元组r存储在固定大小的内存中。
步骤S122、在所述关系三元组的大小达到所述固定内存的预设存储阈值时,对所述关系三元组组成的集合按照关键词进行排序,并将排序后的集合写入内存缓冲区。
可以理解的是,在所述关系三元组的大小达到所述固定内存的预设存储阈值时,可以进行关系三元组排序,进而将排序后的集合写入内存缓冲区。
在具体实现中,当累计r达到固定内存的大小时,对r组成的集合p按照关键词k进行排序并且写入内存缓冲区。
步骤S123、对所述内存缓冲区进行合并,获得合并缓冲区,写入磁盘索引文件至所述合并缓冲区,并清理所述合并缓冲区中的缓冲区数据以等待下一次合并。
应当理解的是,对所述内存缓冲区进行合并,可以获得合并缓冲区,进而可以写入磁盘索引文件至所述合并缓冲区,并且可以清理所述合并缓冲区中的数据以等待下一次合并。
可以理解的是,合并缓冲区,把不同缓冲区相同关键词id的三元组进行合并,写入磁盘索引文件,并清理缓冲区数据等待下一次合并。
本实施例通过上述方案,通过将所述关联关系存储在固定内存中,并统计所述关联关系对应的关系三元组的大小;在所述关系三元组的大小达到所述固定内存的预设存储阈值时,对所述关系三元组组成的集合按照关键词进行排序,并将排序后的集合写入内存缓冲区;对所述内存缓冲区进行合并,获得合并缓冲区,写入磁盘索引文件至所述合并缓冲区,并清理所述合并缓冲区中的缓冲区数据以等待下一次合并,能够快速确定合并缓冲区,提升了基于动态词典的搜索的速度和效率。
进一步地,图5为本发明基于动态词典的搜索方法第四实施例的流程示意图,如图5所示,基于第一实施例提出本发明基于动态词典的搜索方法第四实施例,在本实施例中,所述步骤S20具体包括以下步骤:
步骤S21、检测到用户查询输入的目标关键词时,根据所述目标关键词搜索扩展词库匹配的关键词ID,根据所述关键词ID选取权重前N的词语组合构成初始查询扩展后的查询词语集合。
需要说明的是,检测到用户查询输入的目标关键词时,可以根据所述目标关键词搜索扩展词库匹配的关键词ID,进而可以根据所述关键词ID选取权重前N的词语组合构成初始查询扩展后的查询词语集合。
在具体实现中,用户提交查询输入,提取提交的关键词,搜索扩展词库相匹配的关键词ID,选取权重前五的词语组合构成初始查询扩展后的查询词语集合。
本实施例通过上述方案,通过检测到用户查询输入的目标关键词时,根据所述目标关键词搜索扩展词库匹配的关键词ID,根据所述关键词ID选取权重前N的词语组合构成初始查询扩展后的查询词语集合,能够快速构成查询词语集合,保证了检索精度,降低了检索计算成本,提升了基于动态词典的搜索的速度和效率。
进一步地,图6为本发明基于动态词典的搜索方法第五实施例的流程示意图,如图6所示,基于第一实施例提出本发明基于动态词典的搜索方法第五实施例,在本实施例中,所述步骤S10之后,所述基于动态词典的搜索方法具体包括以下步骤:
步骤S101、获取查询关键词集合和用户选择信息集合,根据所述查询关键词集合和所述用户选择信息集合构成关键词矩阵组合。
需要说明的是,获取查询关键词集合和用户选择信息集合后,可以根据所述查询关键词集合和所述用户选择信息集合构成关键词矩阵组合。
进一步的,所述步骤S101具体包括以下步骤:
获取查询关键词集合和用户选择信息集合,根据用户选择信息和查询关键词的关系构建所述查询关键词集合和所述用户选择信息集合的关键词矩阵组合。
在具体实现中,可以定义查询关键词集合U={key1,key2,...,keyn},用户选择信息集合D={d1,d2,...,dn},U与D之间构成的矩阵表示为用户选择和信息的关系,矩阵的每一列构成的关键词集合可以表示为同一类检索,矩阵值为1的关键词次数,为集合的权重。
步骤S102、将所述关键词矩阵组合按权重过滤,并排序写入扩展词库。
可以理解的是,将所述关键词矩阵组合按权重过滤后,可以对过滤后的关键词矩阵组合进行排序,进而可以将排序写入扩展词库。
在具体实现中,可以对关键词组合按预先设置的权重(低于设置阈值)过滤并排序写入扩展词库。
应当理解的是,扩充词典的构建是为了提取用户对整个信息数据集的认知特征,通过记录用于提交查询的关键词集合和最终点击浏览的数据集,并且计算两者的矩阵,分析查询关键词之间的关系,形成查询单词聚簇,矩阵为一的部分代表单词聚簇的中心,将这些主题相同的聚簇设置权重,随着用户的每一次搜索积累用户认知知识,使得关键词之间的关系不单单是与数据集的关系判定,还有用户认知判定。
本实施例通过上述方案,通过获取查询关键词集合和用户选择信息集合,根据所述查询关键词集合和所述用户选择信息集合构成关键词矩阵组合;将所述关键词矩阵组合按权重过滤,并排序写入扩展词库;能够根据用户查询行为进行信息筛选,简化了检索过程,提高了信息匹配度,显著提升了查询性能。
进一步地,图7为本发明基于动态词典的搜索方法第六实施例的流程示意图,如图7所示,基于第一实施例提出本发明基于动态词典的搜索方法第六实施例,在本实施例中,所述步骤S30之后,所述基于动态词典的搜索方法还包括以下步骤:
步骤S40、记录用户选择浏览的搜索结果,将所述搜索结果存入日志文件。
需要说明的是,在获得了用户选择浏览的搜索结果后,可以进行记录,并且将所述搜索结果存入日志文件。
步骤S50、当所述日志文件的大小达到预设大小时,重新构造所述关键词矩阵组合,并重新更新扩展词库。
可以理解的是,当所述日志文件的大小达到预设大小时,可以重新构造所述关键词矩阵组合,并且可以重新更新扩展词库。
在具体实现中,当日志文件达到指定预设大小max(max大小由用户对检索结果的敏感度决定),可以重新构造查询关键字集合U和文档集合D的矩阵,计算关键字集合权重并排序,更新扩展词库。
本实施例通过上述方案,通过获取各信息数据元对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区;检测到用户查询输入的目标关键词时,选取权重前N的词语组合构成初始查询扩展后的查询词语集合;根据所述磁盘索引文件检索所述查询词语集合对应的目标信息文档,输出所述目标信息文档,能够根据用户查询行为进行信息筛选,简化了检索过程,提高了信息匹配度,保证了检索精度,降低了检索计算成本,提升了基于动态词典的搜索的速度和效率。
相应地,本发明进一步提供一种基于动态词典的搜索装置。
参照图8,图8为本发明基于动态词典的搜索装置第一实施例的功能模块图。
本发明基于动态词典的搜索装置第一实施例中,该基于动态词典的搜索装置包括:
数据获取模块10,用于获取各信息数据元对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区。
集合构成模块20,用于检测到用户查询输入的目标关键词时,选取权重前N的词语组合构成初始查询扩展后的查询词语集合。
文档检索模块30,用于根据所述磁盘索引文件检索所述查询词语集合对应的目标信息文档,输出所述目标信息文档。
所述数据获取模块10,还用于获取各信息数据元中不同关键词出现的频率,根据所述频率确定各关键词和各信息数据元的关联关系;根据所述关联关系对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区。
所述数据获取模块10,还用于将所述关联关系存储在固定内存中,并统计所述关联关系对应的关系三元组的大小;在所述关系三元组的大小达到所述固定内存的预设存储阈值时,对所述关系三元组组成的集合按照关键词进行排序,并将排序后的集合写入内存缓冲区;对所述内存缓冲区进行合并,获得合并缓冲区,写入磁盘索引文件至所述合并缓冲区,并清理所述合并缓冲区中的缓冲区数据以等待下一次合并。
所述集合构成模块20,还用于检测到用户查询输入的目标关键词时,根据所述目标关键词搜索扩展词库匹配的关键词ID,根据所述关键词ID选取权重前N的词语组合构成初始查询扩展后的查询词语集合。
所述集合构成模块20,还用于获取查询关键词集合和用户选择信息集合,根据所述查询关键词集合和所述用户选择信息集合构成关键词矩阵组合;将所述关键词矩阵组合按权重过滤,并排序写入扩展词库。
所述集合构成模块20,还用于获取查询关键词集合和用户选择信息集合,根据用户选择信息和查询关键词的关系构建所述查询关键词集合和所述用户选择信息集合的关键词矩阵组合。
所述文档检索模块30,还用于记录用户选择浏览的搜索结果,将所述搜索结果存入日志文件;当所述日志文件的大小达到预设大小时,重新构造所述关键词矩阵组合,并重新更新扩展词库。
其中,基于动态词典的搜索装置的各个功能模块实现的步骤可参照本发明基于动态词典的搜索方法的各个实施例,此处不再赘述。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于动态词典的搜索程序,所述基于动态词典的搜索程序被处理器执行时实现如下操作:
获取各信息数据元对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区;
检测到用户查询输入的目标关键词时,选取权重前N的词语组合构成初始查询扩展后的查询词语集合;
根据所述磁盘索引文件检索所述查询词语集合对应的目标信息文档,输出所述目标信息文档。
进一步地,所述基于动态词典的搜索程序被处理器执行时还实现如下操作:
获取各信息数据元中不同关键词出现的频率,根据所述频率确定各关键词和各信息数据元的关联关系;
根据所述关联关系对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区。
进一步地,所述基于动态词典的搜索程序被处理器执行时还实现如下操作:
将所述关联关系存储在固定内存中,并统计所述关联关系对应的关系三元组的大小;
在所述关系三元组的大小达到所述固定内存的预设存储阈值时,对所述关系三元组组成的集合按照关键词进行排序,并将排序后的集合写入内存缓冲区;
对所述内存缓冲区进行合并,获得合并缓冲区,写入磁盘索引文件至所述合并缓冲区,并清理所述合并缓冲区中的缓冲区数据以等待下一次合并。
进一步地,所述基于动态词典的搜索程序被处理器执行时还实现如下操作:
检测到用户查询输入的目标关键词时,根据所述目标关键词搜索扩展词库匹配的关键词ID,根据所述关键词ID选取权重前N的词语组合构成初始查询扩展后的查询词语集合。
进一步地,所述基于动态词典的搜索程序被处理器执行时还实现如下操作:
获取查询关键词集合和用户选择信息集合,根据所述查询关键词集合和所述用户选择信息集合构成关键词矩阵组合;
将所述关键词矩阵组合按权重过滤,并排序写入扩展词库。
进一步地,所述基于动态词典的搜索程序被处理器执行时还实现如下操作:
获取查询关键词集合和用户选择信息集合,根据用户选择信息和查询关键词的关系构建所述查询关键词集合和所述用户选择信息集合的关键词矩阵组合。
进一步地,所述基于动态词典的搜索程序被处理器执行时还实现如下操作:
记录用户选择浏览的搜索结果,将所述搜索结果存入日志文件;
当所述日志文件的大小达到预设大小时,重新构造所述关键词矩阵组合,并重新更新扩展词库。
本实施例通过上述方案,通过获取各信息数据元对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区;检测到用户查询输入的目标关键词时,选取权重前N的词语组合构成初始查询扩展后的查询词语集合;根据所述磁盘索引文件检索所述查询词语集合对应的目标信息文档,输出所述目标信息文档,能够根据用户查询行为进行信息筛选,简化了检索过程,提高了信息匹配度,保证了检索精度,降低了检索计算成本,提升了基于动态词典的搜索的速度和效率。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于动态词典的搜索方法,其特征在于,所述基于动态词典的搜索方法包括:
获取各信息数据元对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区;
检测到用户查询输入的目标关键词时,选取权重前N的词语组合构成初始查询扩展后的查询词语集合;
根据所述磁盘索引文件检索所述查询词语集合对应的目标信息文档,输出所述目标信息文档。
2.如权利要求1所述的基于动态词典的搜索方法,其特征在于,所述获取各信息数据元对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区,包括:
获取各信息数据元中不同关键词出现的频率,根据所述频率确定各关键词和各信息数据元的关联关系;
根据所述关联关系对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区。
3.如权利要求2所述的基于动态词典的搜索方法,其特征在于,所述根据所述关联关系对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区,包括:
将所述关联关系存储在固定内存中,并统计所述关联关系对应的关系三元组的大小;
在所述关系三元组的大小达到所述固定内存的预设存储阈值时,对所述关系三元组组成的集合按照关键词进行排序,并将排序后的集合写入内存缓冲区;
对所述内存缓冲区进行合并,获得合并缓冲区,写入磁盘索引文件至所述合并缓冲区,并清理所述合并缓冲区中的缓冲区数据以等待下一次合并。
4.如权利要求1所述的基于动态词典的搜索方法,其特征在于,所述检测到用户查询输入的目标关键词时,选取权重前N的词语组合构成初始查询扩展后的查询词语集合,包括:
检测到用户查询输入的目标关键词时,根据所述目标关键词搜索扩展词库匹配的关键词ID,根据所述关键词ID选取权重前N的词语组合构成初始查询扩展后的查询词语集合。
5.如权利要求1所述的基于动态词典的搜索方法,其特征在于,所述获取各信息数据元对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区之后,所述基于动态词典的搜索方法还包括:
获取查询关键词集合和用户选择信息集合,根据所述查询关键词集合和所述用户选择信息集合构成关键词矩阵组合;
将所述关键词矩阵组合按权重过滤,并排序写入扩展词库。
6.如权利要求5所述的基于动态词典的搜索方法,其特征在于,所述获取查询关键词集合和用户选择信息集合,根据所述查询关键词集合和所述用户选择信息集合构成关键词矩阵组合,包括:
获取查询关键词集合和用户选择信息集合,根据用户选择信息和查询关键词的关系构建所述查询关键词集合和所述用户选择信息集合的关键词矩阵组合。
7.如权利要求1所述的基于动态词典的搜索方法,其特征在于,所述根据所述磁盘索引文件检索所述查询词语集合对应的目标信息文档,输出所述目标信息文档之后,所述基于动态词典的搜索方法还包括:
记录用户选择浏览的搜索结果,将所述搜索结果存入日志文件;
当所述日志文件的大小达到预设大小时,重新构造所述关键词矩阵组合,并重新更新扩展词库。
8.一种基于动态词典的搜索装置,其特征在于,所述基于动态词典的搜索装置包括:
数据获取模块,用于获取各信息数据元对应的合并缓冲区,写入磁盘索引文件至所述合并缓冲区;
集合构成模块,用于检测到用户查询输入的目标关键词时,选取权重前N的词语组合构成初始查询扩展后的查询词语集合;
文档检索模块,用于根据所述磁盘索引文件检索所述查询词语集合对应的目标信息文档,输出所述目标信息文档。
9.一种基于动态词典的搜索设备,其特征在于,所述基于动态词典的搜索设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于动态词典的搜索程序,所述基于动态词典的搜索程序配置为实现如权利要求1至7中任一项所述的基于动态词典的搜索方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有基于动态词典的搜索程序,所述基于动态词典的搜索程序被处理器执行时实现如权利要求1至7中任一项所述的基于动态词典的搜索方法的步骤。
CN202310706423.4A 2023-06-13 2023-06-13 基于动态词典的搜索方法、装置、设备及存储介质 Pending CN116775828A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310706423.4A CN116775828A (zh) 2023-06-13 2023-06-13 基于动态词典的搜索方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310706423.4A CN116775828A (zh) 2023-06-13 2023-06-13 基于动态词典的搜索方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116775828A true CN116775828A (zh) 2023-09-19

Family

ID=88009243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310706423.4A Pending CN116775828A (zh) 2023-06-13 2023-06-13 基于动态词典的搜索方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116775828A (zh)

Similar Documents

Publication Publication Date Title
US8290975B2 (en) Graph-based keyword expansion
CA2618854C (en) Ranking search results using biased click distance
CN100458779C (zh) 扩展索引的方法
US9305100B2 (en) Object oriented data and metadata based search
KR100672277B1 (ko) 개인화 검색 방법 및 검색 서버
JP2004528660A (ja) パーティションが設けられたデータベースオブジェクトに対する照会の応答時間を改善するための方法およびシステム
US20230109772A1 (en) System and method for value based region searching and associated search operators
CN111752955A (zh) 数据处理方法、装置、设备及计算机可读存储介质
JP4074564B2 (ja) コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン装置
CN110546633A (zh) 文档的基于命名实体的类别标签添加
Kaur et al. SIMHAR-smart distributed web crawler for the hidden web using SIM+ hash and redis server
US11520763B2 (en) Automated optimization for in-memory data structures of column store databases
KR100672278B1 (ko) 웹 브라우저의 즐겨찾기 리스트를 이용한 개인화 검색 방법및 검색 서버
Jia et al. Handling big data of online social networks on a small machine
JP5179564B2 (ja) クエリセグメント位置決定装置
JP4219122B2 (ja) 特徴語抽出システム
CN116775828A (zh) 基于动态词典的搜索方法、装置、设备及存储介质
JP4073734B2 (ja) 入力単語候補を推薦する情報検索システム
CN114911826A (zh) 一种关联数据检索方法和系统
US20200117735A1 (en) Method for identifying complex textual patterns containing keywords within data records
CN101048777B (zh) 数据处理系统和方法
Khan et al. Model-based diversification for sequential exploratory queries
JP5505207B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
KR101311409B1 (ko) 부분적인 인덱스 rid 정렬을 통한 파티션 스캔 방법 및 장치, 메모리 시스템, 및 데이터 정렬 방법
KR100645711B1 (ko) 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보검색 서비스 제공 서버, 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination