CN118035385A - 信息搜索方法、装置、电子设备及计算机可读存储介质 - Google Patents
信息搜索方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN118035385A CN118035385A CN202410213639.1A CN202410213639A CN118035385A CN 118035385 A CN118035385 A CN 118035385A CN 202410213639 A CN202410213639 A CN 202410213639A CN 118035385 A CN118035385 A CN 118035385A
- Authority
- CN
- China
- Prior art keywords
- data
- initial
- query
- classification
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 239000013598 vector Substances 0.000 claims abstract description 105
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 238000002372 labelling Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims description 26
- 238000004458 analytical method Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 description 13
- 230000009193 crawling Effects 0.000 description 11
- 238000003058 natural language processing Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及信息检索技术领域,提供了一种信息搜索方法、装置、电子设备及计算机可读存储介质。该方法包括:获取目标数据接口的初始数据;对初始数据进行数据分类、特征提取得到初始特征向量,对分类后的初始数据及初始特征向量标注对应的初始关键词;将分类后的初始数据、初始特征向量和初始关键词存储至预设数据库;当获取到查询请求,对查询请求中的查询数据进行数据分类、特征提取得到查询特征向量,对查询数据及查询特征向量标注对应的查询关键词;在预设数据库中执行匹配操作,得到匹配结果;基于匹配结果,从初始数据中确定目标初始数据作为查询结果。本申请在所有初始数据中确定出多维度匹配的目标初始数据作为查询结果,准确度明显提高。
Description
技术领域
本申请涉及信息检索技术领域,尤其涉及一种信息搜索方法、装置、电子设备及计算机可读存储介质。
背景技术
随着互联网的发展,互联网中网络数据的数量已经达到惊人级别。传统的搜索引擎,在提供搜索服务时,预先爬取互联网上大量网页中的信息建立索引,在收到用户的查询请求时基于查询关键词在索引中进行匹配,从而返回对应的结果。
然而随着网络数据、信息数量级的爆发式增长,搜索引擎基于用户的查询请求返回的匹配结果较多,难以准确满足用户需求,用户需要从返回的匹配结果中主动分辨和查找自己需要的内容,耗费时间和较多。
因此,如何提供一种解决上述技术问题的方案是目前本领域技术人员需要解决的问题。
发明内容
有鉴于此,本申请实施例提供了一种信息搜索方法、装置、电子设备及计算机可读存储介质,以解决现有技术中搜索引擎无法精准满足用户查询需求的问题。
本申请实施例的第一方面,提供了一种信息搜索方法,包括:
获取一个或多个目标数据接口的初始数据;
基于数据结构类型的分类,对初始数据进行数据分类,对数据分类后的初始数据进行特征提取得到初始特征向量,对分类后的初始数据及初始特征向量标注对应的初始关键词;
将分类后的初始数据、初始特征向量和初始关键词存储至预设数据库中;
当获取到查询请求,基于数据结构类型的分类,对查询请求中的查询数据进行数据分类,对数据分类后的查询数据进行特征提取得到查询特征向量,对查询数据及查询特征向量标注对应的查询关键词;
在预设数据库中执行匹配操作,得到匹配结果;
基于匹配结果,从初始数据中确定对应查询请求的目标初始数据作为查询结果返回;
其中,匹配操作包括以下多种:
基于分类后的查询数据对初始数据进行匹配;
基于查询特征向量对初始特征向量进行匹配;
基于查询关键词对初始关键词进行匹配。
本申请实施例的第二方面,提供了一种信息搜索装置,包括:
获取模块,用于获取一个或多个目标数据接口的初始数据;
处理模块,用于基于数据结构类型的分类,对初始数据进行数据分类,对数据分类后的初始数据进行特征提取得到初始特征向量,对分类后的初始数据及初始特征向量标注对应的初始关键词;
存储模块,用于将分类后的初始数据、初始特征向量和初始关键词存储至预设数据库中;
处理模块,还用于当获取到查询请求,基于数据结构类型的分类,对查询请求中的查询数据进行数据分类,对数据分类后的查询数据进行特征提取得到查询特征向量,对查询数据及查询特征向量标注对应的查询关键词;
匹配模块,用于在预设数据库中执行匹配操作,得到匹配结果,并基于匹配结果,从初始数据中确定对应查询请求的目标初始数据作为查询结果返回;
其中,匹配操作包括以下多种:
基于分类后的查询数据对初始数据进行匹配;
基于查询特征向量对初始特征向量进行匹配;
基于查询关键词对初始关键词进行匹配。
本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本申请实施例的第四方面,提供了一种可读存储介质,该可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本申请实施例与现有技术相比存在的有益效果至少包括:本申请实施例通过对初始数据、查询数据进行数据分类、特征提取和关键词标注,从而能够在收到查询请求时进行数据、特征向量和关键词多维度的匹配,以在所有初始数据中确定出多维度匹配、更符合查询请求的目标初始数据作为查询结果返回,查询结果的准确度明显提高,节省用户的精力和时间成本,提升用户使用体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例的一种应用场景的场景示意图;
图2是本申请实施例提供的一种信息搜索方法的流程示意图;
图3是本申请实施例提供的一种信息搜索装置的结构示意图;
图4是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
下面将结合附图详细说明根据本申请实施例的一种信息搜索方法、装置、电子设备及计算机可读存储介质。
图1是本申请实施例的应用场景的场景示意图。该应用场景可以包括第一终端设备101、第二终端设备102、第三终端设备103、服务器104以及网络105。
第一终端设备101、第二终端设备102或第三终端设备103可以是硬件,也可以是软件。当第一终端设备101、第二终端设备102或第三终端设备103为硬件时,其可以是具有显示屏且支持与服务器104通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等;当第一终端设备101、第二终端设备102或第三终端设备103为软件时,其可以安装在如上的电子设备中。第一终端设备101、第二终端设备102或第三终端设备103可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本申请实施例对此不作限制。进一步地,第一终端设备101、第二终端设备102或第三终端设备103上可以安装有各种应用,例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。
服务器104可以是提供各种服务的服务器,例如,对与其建立通信连接的终端设备发送的请求进行接收的后台服务器,该后台服务器可以对终端设备发送的请求进行接收和分析等处理,并生成处理结果。服务器104可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者还可以是一个云计算服务中心,本申请实施例对此不作限制。
需要说明的是,服务器104可以是硬件,也可以是软件。当服务器104为硬件时,其可以是为第一终端设备101、第二终端设备102和第三终端设备103提供各种服务的各种电子设备。当服务器104为软件时,其可以是为第一终端设备101、第二终端设备102和第三终端设备103提供各种服务的多个软件或软件模块,也可以是为第一终端设备101、第二终端设备102和第三终端设备103提供各种服务的单个软件或软件模块,本申请实施例对此不作限制。
网络105可以是采用同轴电缆、双绞线和光纤连接的有线网络,也可以是无需布线就能实现各种通信设备互联的无线网络,例如,蓝牙(Bluetooth)、近场通信(Near FieldCommunication,NFC)、红外(Infrared)等,本申请实施例对此不作限制。
需要说明的是,第一终端设备101、第二终端设备102、第三终端设备103、服务器104以及网络105的具体类型、数量和组合可以根据应用场景的实际需求进行调整,本申请实施例对此不作限制。
图2是本申请实施例提供的一种信息搜索方法的流程示意图。图2的信息搜索方法可以由图1的第一终端设备或第二终端设备或第三终端设备或服务器执行。如图2所示,该信息搜索方法包括:
S201:获取一个或多个目标数据接口的初始数据;
S202:基于数据结构类型的分类,对初始数据进行数据分类,对数据分类后的初始数据进行特征提取得到初始特征向量,对分类后的初始数据及初始特征向量标注对应的初始关键词;
S203:将分类后的初始数据、初始特征向量和初始关键词存储至预设数据库中;
S204:当获取到查询请求,基于数据结构类型的分类,对查询请求中的查询数据进行数据分类,对数据分类后的查询数据进行特征提取得到查询特征向量,对查询数据及查询特征向量标注对应的查询关键词;
S205:在预设数据库中执行匹配操作,得到匹配结果;
S206:基于匹配结果,从初始数据中确定对应查询请求的目标初始数据作为查询结果返回;
其中,匹配操作包括以下多种:
基于分类后的查询数据对初始数据进行匹配;
基于查询特征向量对初始特征向量进行匹配;
基于查询关键词对初始关键词进行匹配。
可以理解的是,步骤S201-S203属于对目标数据接口中所有初始数据的整理和记录,当目标数据接口中的所有初始数据均完成整理并存储到数据库中,基于数据库,可实现后续步骤S204-S206关于查询请求的响应。
具体的,目标数据接口通常为目标网站的数据链接接口,通过该目标数据接口可获取到目标网站的各类数据作为初始数据。其中,目标数据网站接口可通过用户手动输入的目标网站的信息如URL(Universal Resource Locator,统一资源定位符)获取,或通过一定的算法自动识别如搜索引擎的API(Application Programming Interface,应用程序接口)来实现。
在确定了目标数据接口后,可通过向目标网站发送HTTP(Hypertext TransferProtocol,超文本传输协议)请求并获取响应来获取目标网站中的初始数据,由于初始数据的数据量庞大,可使用高效的爬虫算法实现对大规模网页的初始数据的高效获取。具体的,高效的爬虫算法既要确保爬取速度和效率,同时还要避免被目标网站是为恶意行为而封锁的情况发生,爬虫算法的高效性可通过以下几个方面表现:
基于优先级调度算法的爬虫系统,通过分析目标数据接口的网页链接的拓扑结构和重要性,为每个链接分配一个优先级,优先爬取优先级高的网页,从而提高爬取效率;
基于分布式爬虫算法的爬虫系统,将爬虫任务分配给多个爬虫节点,每个爬虫节点负责爬取一个特定的子任务,最后将多个子任务的结果合并,这样可以并行处理多个网页的爬取,提高爬取效率;
基于增量式爬虫算法的爬虫系统,只爬取新增加或发生变化的初始数据,避免重复爬取,减少不必要的计算和存储。
可以理解的是,初始数据的获取过程中,需要设置一定的资源管理策略,例如:合理分配内存和CPU资源,即在爬取网页数据时,需要合理分配内存和CPU资源,避免因为资源不足而影响爬取速度和效率;利用缓存技术,即将已经爬取过的网页数据缓存到本地,避免重复爬取,提高爬取效率;限制并发请求数量,即避免因为并发请求过多而引起目标网站的拒绝服务攻击,影响爬取效率;动态调整爬虫策略,即根据网络带宽、服务器负载等因素动态调整爬虫策略,以实现最佳的爬取效果。
可以理解的是,在获取到初始数据后,需要对初始数据进行步骤S202的处理,然后才能存入到预设数据库中。在步骤S202之前,可对初始数据进行清洗和去重,以消除重复和无效的数据,提高数据的质量和精度。具体包括去除广告、去除重复内容、对数据进行归一化处理等。
具体的,步骤S202的处理包括针对数据结构类型的数据分类、获取初始特征向量、获取初始关键词,其中数据结构类型的分类包括文本、图片、视频、音频等不同类型的数据,根据不同的数据类型,需要选择相应的算法和程序执行步骤S202。具体的,基于数据结构类型的分类,对初始数据进行数据分类,对数据分类后的初始数据进行特征提取得到初始特征向量,包括:
基于数据结构类型的分类,对初始数据进行数据分类,得到文本数据、图像数据、音频数据和视频数据中的一种或多种;
将视频数据处理为存在关联关系的音频数据和图像数据;
基于音频结构类型的分类,对音频数据进行内容识别和分类,基于分类结果对音频数据进行相应的音频特征提取,得到对应音频数据的初始特征向量;
对文本数据进行字段提取和语义分析,得到对应文本数据的初始特征向量;
对图像数据进行图像识别和分类,得到对应图像数据的初始特征向量。
进一步的,基于音频结构类型的分类,对音频数据进行内容识别和分类,基于分类结果对音频数据进行相应的音频特征提取,得到对应音频数据的初始特征向量的过程,包括:
基于音频结构类型的分类,对音频数据进行内容识别和分类,得到对应预设语言的语音数据和不包括语音数据的非语音数据中的一种或多种;
对语音数据进行语音文字转换,得到对应语音数据的转换文本数据,对转换文本数据进行字段提取和语义分析,得到对应语音数据的初始特征向量;
对语音数据和非语音数据进行音频特征分析,得到对应的初始特征向量。
可以理解的是,文本数据的初始特征向量,主要利用NLP(Natural LanguageProcessing,自然语言处理)实现字段提取和语义分析,其中NLP的字段提取包括以下几种方案,选择一种或多种实现即可:
基于规则的文本抽取方法:通过分析网页结构化信息,制定规则来提取特定文本字段,例如标题、正文、作者等;
基于模板的文本抽取方法:通过模板匹配的方式,将网页中的特定文本与预先设定的模板进行匹配,从而提取所需信息;
基于机器学习的文本抽取方法:利用机器学习算法对大量样本进行训练,从而自动识别和提取网页中的特定文本字段。
进一步的,NLP可根据字段提取的结果进行语义分析,确定更准确的文本语义。
可以理解的是,图像数据的初始向量特征主要通过图像识别算法或深度学习算法获取,以上算法对图像数据进行图像识别和分类,以确定图像数据的内容和其他图像参数作为初始特征向量。
进一步的,音频结构类型分为语音数据和非语音数据两部分,基于音频结构类型的分类对音频数据进行内容识别和分类,音频数据存在以下三种情况:仅包括语音数据、仅包括非语音数据、既包括语音数据又包括非语音数据,最后一种情况在分类时通过技术手段将音频数据分离为语音数据和非语音数据两部分。语音数据和非语音数据的处理方式存在差异,其中语音数据中包含语言信息内容,通过语音文字转换得到对应的转换文本数据,转换文本数据采取与上文中文本数据相同的处理手段;此外对语音数据和非语音数据则进行音频特征分析,得到音频相关的初始特征向量,如节奏信息、频谱信息等。
类似的,视频信息被分离为存在关联关系的音频数据和图像数据,音频数据和图像数据可按照上文中相应的处理方式进行处理。除了不同数据结构类型的针对性处理外,还可结合以上文本数据、图像数据、音频数据、视频数据等存在关联性的多种模态的数据信息,进行综合全面分析,从而得到更为准确的初始特征向量。
进一步的,步骤S202中还包括对分类后的初始数据及初始特征数据标注对应的初始关键词,可通过NLP以及预设背景知识图谱实现,预设知识背景图谱为包括各类背景知识节点以各类背景知识节点的关联关系的图谱,提供基础的背景知识参考,该初始关键词是基于预设知识背景图谱对初始数据和初始特征数据进行数据权重分析、内容分析后确定出的具有强关联度和高概括性的关键词。
在执行步骤S202后,执行步骤S203将分类后的初始数据、初始特征向量和初始关键词存储至预设数据库中,该预设数据库可选择分布式数据库、MySQL(一种具体的关系型数据库)数据库、NoSQL(Not Only SQL,非关系型的数据库)数据库等,具体可根据数据特点和使用需求进行选择,预设数据库中数据库表结构可根据数据特点和使用需求设计,以提高存储效率和查询效率。
当完成步骤S201-S203的内容,在收到查询请求时即可执行步骤S204-S206。其中,步骤S204的处理包括对查询数据的数据分类、特征提取、标注查询关键词,具体可按照与上文中初始数据相同的方式实现。
执行步骤S205的匹配操作时,以查询请求所对应的查询数据、查询特征向量或查询关键词作为匹配参照物,对应计算预设数据库中各初始数据、初始特征向量或初始关键词的匹配度,得到匹配结果,该匹配结果既可以是单维度即数据维度、特征向量维度或关键词维度的匹配度最高的预设数量的初始数据,也可以是综合多个维度的匹配度、通过权重计算确定出初始数据在多个维度与查询数据的综合匹配度后,综合匹配度最高的预设数量的初始数据。具体可根据实际情况和用户需求进行设置,此处不作限制。
除此外,考虑到查询请求由用户输入,用户输入的查询请求中的查询数据,可能是零碎的多个词语或连续的一句话,因此可基于查询数据进行语义分析来确定其查询意图、逻辑关系。具体的,对数据分类后的查询数据进行特征提取得到查询特征向量的过程,包括:
对数据分类后的查询数据进行语义分析,确定查新请求所对应的查询意图;
对分类后的查询数据和查询意图进行特征提取,得到查询特征向量以及各查询特征向量之间的逻辑关系;
在预设数据库中执行匹配操作,得到匹配结果的过程,包括:
在预设数据库中执行匹配操作,得到符合逻辑关系的匹配结果。
其中语义分析前查询数据可进行去除停用词、词干提取、分词等预处理。查询意图即为用户的查询目的,例如查询天气、股票、特定网站的信息等,查询意图的确认能够更准确地缩小预设数据库中的待匹配数据的数据范围。逻辑关系包括且、或、非这三种基础逻辑关系,以及这三种基础逻辑关系之间的多层叠加,此处不作限制。
可以理解的是,步骤S206中基于匹配结果从预设数据库中提取目标初始数据作为查询结果返回,每个目标初始对象对应一个网页链接,返回的查询结果除了显示网页链接外,还可显示网页标题、摘要、URL等网页信息,以便用户浏览并判断是否需要打开该网页链接。
可以理解的是,查询结果一般包括多个目标初始对象,根据不同的排序逻辑对目标初始对象进行排序,排序逻辑包括内容相关度、权威性、新鲜度等。
其中内容相关度也即匹配度,是指目标初始数据与查询数据之间的匹配程度,通过步骤S205即可获得,匹配度越高,目标初始数据在查询结果中的顺序越靠前。常用的相关度计算方法有基于词项的TF-IDF方法、余弦相似度方法、BM25方法等。因此从初始数据中确定对应查询请求的目标初始数据作为查询结果返回的过程,包括:
基于匹配结果,从初始数据中确定对应查询请求的多个目标初始数据;
基于匹配结果中的匹配度,对所有的目标初始数据进行排序,将排序后的目标初始数据作为查询结果返回。
具体的,新鲜度是指目标初始数据中网页内容的更新时间或发布时间,将最新发布的网页排在前面可以提高用户的满意度。
具体的,权威性是指目标初始数据所对应的网页连接的信誉度和知名度,将权威性高的网页排在前面可以提高搜索结果的可靠性和可信度。常用的权威性的计算方法包括基于链接数量的计算方法、基于PageRank算法的计算方法等。
具体的,个性化是指根据用户的历史搜索记录、兴趣爱好等信息,对查询结果进行定制化排序。通过个性化排序,可以满足用户的个性化需求,提高用户满意度。常用的个性化排序方法有基于用户历史搜索记录的方法、基于协同过滤的方法等。
在实际应用中,通常会将多种指标结合起来对搜索结果进行综合排序。例如,可以将相关度、新鲜度和权威性等指标结合起来,根据它们的加权平均值对搜索结果进行排序;也可以将个性化指标和通用指标(如相关度、新鲜度和权威性)结合起来,对搜索结果进行个性化排序和通用排序。具体的查询结果中目标初始数据的排序依据,可根据实际情况或用户需求进行设置,此处不做限制。
进一步的,为了提高查询的准确度和可靠性,本实施例可引入预设背景知识图谱,预设知识背景图谱为包括各类背景知识节点以各类背景知识节点的关联关系的图谱,提供基础的背景知识参考,具体的,对分类后的初始数据及初始特征向量标注对应的初始关键词的过程,包括:
基于预设背景知识图谱,对分类后的初始数据及初始特征向量标注对应的初始关键词;
对查询数据及查询特征向量标注对应的查询关键词的过程,包括:
基于预设背景知识图谱,对查询数据及查询特征向量标注对应的查询关键词;
在预设数据库中执行匹配操作,得到匹配结果的过程,包括:
基于预设背景知识图谱,在预设数据库中执行匹配操作,得到匹配结果。
进一步的,为了便于查询时能够在预设数据库中快速查找和匹配到目标初始数据,需要在预设数据库中建立对应初始数据的索引关系,具体可通过使用倒排索引或正排索引来存储关键词和对应的文档编号来实现。具体的,以倒排索引为例,有以下三种基础的建立方式:
(1)基于词典构建倒排索引:将网页中的文本进行分词,并建立倒排索引,将每个词与包含该词的文档列表相关联。
(2)基于TF-IDF加权倒排索引:在倒排索引中加入TF-IDF(Term Frequency-Inverse Document Frequency)加权,可以反映每个词在文档中的重要性,从而提高搜索准确度。
(3)基于BM25加权倒排索引:BM25(Best Match 25)是一种基于概率的信息检索模型,通过考虑文档长度、词频、文档频率等因子,对每个词进行加权,从而更准确地反映文档与查询的相关性。
利用人工智能,还可对倒排索引进行优化,优化有以下三种方式:
(1)基于神经网络的模型优化:利用神经网络模型对倒排索引进行训练和优化,可以自动学习文本特征,提高搜索准确度和效率。
(2)基于深度学习的模型优化:利用深度学习模型对文本进行自动特征提取和选择,并对倒排索引进行训练和优化,可以提高搜索准确度和效率。
(3)基于强化学习的模型优化:利用强化学习算法对倒排索引进行训练和优化,可以自动调整模型参数,提高搜索准确度和效率。
在设置索引关系后,本实施例方法中各步骤有相应的调整,其中将分类后的初始数据、初始特征向量和初始关键词存储至预设数据库中的过程,包括:
建立分类后的初始数据、初始特征向量和初始关键词的索引关系;
将分类后的初始数据、初始特征向量、初始关键词及索引关系存储至预设数据库中;
在预设数据库中执行匹配操作,得到匹配结果的过程,包括:
根据索引关系在预设数据库中执行匹配操作,得到匹配结果。
本申请实施例的方法通过对初始数据、查询数据进行数据分类、特征提取和关键词标注,从而能够在收到查询请求时进行数据、特征向量和关键词多维度的匹配,以在所有初始数据中确定出多维度匹配、更符合查询请求的目标初始数据作为查询结果返回,查询结果的准确度明显提高,节省用户的精力和时间成本,提升用户使用体验。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图3是本申请实施例提供的一种信息搜索装置的示意图。如图3所示,该信息搜索装置包括:
获取模块301,用于获取一个或多个目标数据接口的初始数据;
处理模块302,用于基于数据结构类型的分类,对初始数据进行数据分类,对数据分类后的初始数据进行特征提取得到初始特征向量,对分类后的初始数据及初始特征向量标注对应的初始关键词;
存储模块303,用于将分类后的初始数据、初始特征向量和初始关键词存储至预设数据库中;
处理模块302,还用于当获取到查询请求,基于数据结构类型的分类,对查询请求中的查询数据进行数据分类,对数据分类后的查询数据进行特征提取得到查询特征向量,对查询数据及查询特征向量标注对应的查询关键词;
匹配模块304,用于在预设数据库中执行匹配操作,得到匹配结果,并基于匹配结果,从初始数据中确定对应查询请求的目标初始数据作为查询结果返回;
其中,匹配操作包括以下多种:
基于分类后的查询数据对初始数据进行匹配;
基于查询特征向量对初始特征向量进行匹配;
基于查询关键词对初始关键词进行匹配。
本申请实施例的装置通过对初始数据、查询数据进行数据分类、特征提取和关键词标注,从而能够在收到查询请求时进行数据、特征向量和关键词多维度的匹配,以在所有初始数据中确定出多维度匹配、更符合查询请求的目标初始数据作为查询结果返回,查询结果的准确度明显提高,节省用户的精力和时间成本,提升用户使用体验。
在一示例性实施例中,存储模块303具体用于:
建立分类后的初始数据、初始特征向量和初始关键词的索引关系;
将分类后的初始数据、初始特征向量、初始关键词及索引关系存储至预设数据库中;
匹配模块304具体用于:
根据索引关系在预设数据库中执行匹配操作,得到匹配结果。
在一示例性实施例中,匹配模块304具体用于:
基于匹配结果,从初始数据中确定对应查询请求的多个目标初始数据;
基于匹配结果中的匹配度,对所有的目标初始数据进行排序,将排序后的目标初始数据作为查询结果返回。
在一示例性实施例中,处理模块302具体用于:
基于数据结构类型的分类,对初始数据进行数据分类,得到文本数据、图像数据、音频数据和视频数据中的一种或多种;
将视频数据处理为存在关联关系的音频数据和图像数据;
基于音频结构类型的分类,对音频数据进行内容识别和分类,基于分类结果对音频数据进行相应的音频特征提取,得到对应音频数据的初始特征向量;
对文本数据进行字段提取和语义分析,得到对应文本数据的初始特征向量;
对图像数据进行图像识别和分类,得到对应图像数据的初始特征向量。
在一示例性实施例中,处理模块302具体用于:
基于音频结构类型的分类,对音频数据进行内容识别和分类,得到对应预设语言的语音数据和不包括语音数据的非语音数据中的一种或多种;
对语音数据进行语音文字转换,得到对应语音数据的转换文本数据,对转换文本数据进行字段提取和语义分析,得到对应语音数据的初始特征向量;
对语音数据和非语音数据进行音频特征分析,得到对应的初始特征向量。
在一示例性实施例中,处理模块302具体用于:
基于预设背景知识图谱,对分类后的初始数据及初始特征向量标注对应的初始关键词;
基于预设背景知识图谱,对查询数据及查询特征向量标注对应的查询关键词;
匹配模块304具体用于:
基于预设背景知识图谱,在预设数据库中执行匹配操作,得到匹配结果。
在一示例性实施例中,处理模块302具体用于:
对数据分类后的查询数据进行语义分析,确定查新请求所对应的查询意图;
对分类后的查询数据和查询意图进行特征提取,得到查询特征向量以及各查询特征向量之间的逻辑关系;
匹配模块304具体用于:
在预设数据库中执行匹配操作,得到符合逻辑关系的匹配结果。
图4是本申请实施例提供的电子设备4的示意图。如图4所示,该实施例的电子设备4包括:处理器401、存储器402以及存储在该存储器402中并且可在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者,处理器401执行计算机程序403时实现上述各装置实施例中各模块/单元的功能。
电子设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备4可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解,图4仅仅是电子设备4的示例,并不构成对电子设备4的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器401可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器402可以是电子设备4的内部存储单元,例如,电子设备4的硬盘或内存。存储器402也可以是电子设备4的外部存储设备,例如,电子设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器402还可以既包括电子设备4的内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读存储介质中,例如计算机可读存储介质。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种信息搜索方法,其特征在于,包括:
获取一个或多个目标数据接口的初始数据;
基于数据结构类型的分类,对所述初始数据进行数据分类,对数据分类后的所述初始数据进行特征提取得到初始特征向量,对分类后的所述初始数据及所述初始特征向量标注对应的初始关键词;
将分类后的所述初始数据、所述初始特征向量和所述初始关键词存储至预设数据库中;
当获取到查询请求,基于数据结构类型的分类,对所述查询请求中的查询数据进行数据分类,对数据分类后的所述查询数据进行特征提取得到查询特征向量,对所述查询数据及所述查询特征向量标注对应的查询关键词;
在所述预设数据库中执行匹配操作,得到匹配结果;
基于所述匹配结果,从所述初始数据中确定对应所述查询请求的目标初始数据作为查询结果返回;
其中,所述匹配操作包括以下多种:
基于分类后的所述查询数据对所述初始数据进行匹配;
基于所述查询特征向量对所述初始特征向量进行匹配;
基于所述查询关键词对所述初始关键词进行匹配。
2.根据权利要求1所述的方法,其特征在于,将分类后的所述初始数据、所述初始特征向量和所述初始关键词存储至预设数据库中的过程,包括:
建立分类后的所述初始数据、所述初始特征向量和所述初始关键词的索引关系;
将分类后的所述初始数据、所述初始特征向量、所述初始关键词及所述索引关系存储至预设数据库中;
在所述预设数据库中执行匹配操作,得到匹配结果的过程,包括:
根据所述索引关系在所述预设数据库中执行匹配操作,得到匹配结果。
3.根据权利要求1所述的方法,其特征在于,基于所述匹配结果,从所述初始数据中确定对应所述查询请求的目标初始数据作为查询结果返回的过程,包括:
基于所述匹配结果,从所述初始数据中确定对应所述查询请求的多个目标初始数据;
基于所述匹配结果中的匹配度,对所有的所述目标初始数据进行排序,将排序后的所述目标初始数据作为查询结果返回。
4.根据权利要求1所述的方法,其特征在于,基于数据结构类型的分类,对所述初始数据进行数据分类,对数据分类后的所述初始数据进行特征提取得到初始特征向量,包括:
基于数据结构类型的分类,对所述初始数据进行数据分类,得到文本数据、图像数据、音频数据和视频数据中的一种或多种;
将所述视频数据处理为存在关联关系的所述音频数据和所述图像数据;
基于音频结构类型的分类,对所述音频数据进行内容识别和分类,基于分类结果对所述音频数据进行相应的音频特征提取,得到对应所述音频数据的初始特征向量;
对所述文本数据进行字段提取和语义分析,得到对应所述文本数据的所述初始特征向量;
对所述图像数据进行图像识别和分类,得到对应所述图像数据的所述初始特征向量。
5.根据权利要求4所述的方法,其特征在于,基于音频结构类型的分类,对所述音频数据进行内容识别和分类,基于分类结果对所述音频数据进行相应的音频特征提取,得到对应所述音频数据的初始特征向量的过程,包括:
基于音频结构类型的分类,对所述音频数据进行内容识别和分类,得到对应预设语言的语音数据和不包括所述语音数据的非语音数据中的一种或多种;
对所述语音数据进行语音文字转换,得到对应所述语音数据的转换文本数据,对所述转换文本数据进行字段提取和语义分析,得到对应所述语音数据的所述初始特征向量;
对所述语音数据和所述非语音数据进行音频特征分析,得到对应的初始特征向量。
6.根据权利要求1所述的方法,其特征在于,对分类后的所述初始数据及所述初始特征向量标注对应的初始关键词的过程,包括:
基于预设背景知识图谱,对分类后的所述初始数据及所述初始特征向量标注对应的初始关键词;
对所述查询数据及所述查询特征向量标注对应的查询关键词的过程,包括:
基于所述预设背景知识图谱,对所述查询数据及所述查询特征向量标注对应的查询关键词;
在所述预设数据库中执行匹配操作,得到匹配结果的过程,包括:
基于所述预设背景知识图谱,在所述预设数据库中执行匹配操作,得到匹配结果。
7.根据权利要求1至6中任一项所述的方法,其特征在于,对数据分类后的所述查询数据进行特征提取得到查询特征向量的过程,包括:
对数据分类后的所述查询数据进行语义分析,确定所述查新请求所对应的查询意图;
对分类后的所述查询数据和所述查询意图进行特征提取,得到查询特征向量以及各所述查询特征向量之间的逻辑关系;
在所述预设数据库中执行匹配操作,得到匹配结果的过程,包括:
在所述预设数据库中执行匹配操作,得到符合所述逻辑关系的匹配结果。
8.一种信息搜索装置,其特征在于,包括:
获取模块,用于获取一个或多个目标数据接口的初始数据;
处理模块,用于基于数据结构类型的分类,对所述初始数据进行数据分类,对数据分类后的所述初始数据进行特征提取得到初始特征向量,对分类后的所述初始数据及所述初始特征向量标注对应的初始关键词;
存储模块,用于将分类后的所述初始数据、所述初始特征向量和所述初始关键词存储至预设数据库中;
处理模块,还用于当获取到查询请求,基于数据结构类型的分类,对所述查询请求中的查询数据进行数据分类,对数据分类后的所述查询数据进行特征提取得到查询特征向量,对所述查询数据及所述查询特征向量标注对应的查询关键词;
匹配模块,用于在所述预设数据库中执行匹配操作,得到匹配结果,并基于所述匹配结果,从所述初始数据中确定对应所述查询请求的目标初始数据作为查询结果返回;
其中,所述匹配操作包括以下多种:
基于分类后的所述查询数据对所述初始数据进行匹配;
基于所述查询特征向量对所述初始特征向量进行匹配;
基于所述查询关键词对所述初始关键词进行匹配。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种可读存储介质,所述可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410213639.1A CN118035385A (zh) | 2024-02-27 | 2024-02-27 | 信息搜索方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410213639.1A CN118035385A (zh) | 2024-02-27 | 2024-02-27 | 信息搜索方法、装置、电子设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118035385A true CN118035385A (zh) | 2024-05-14 |
Family
ID=91003711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410213639.1A Pending CN118035385A (zh) | 2024-02-27 | 2024-02-27 | 信息搜索方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118035385A (zh) |
-
2024
- 2024-02-27 CN CN202410213639.1A patent/CN118035385A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11176124B2 (en) | Managing a search | |
US9449271B2 (en) | Classifying resources using a deep network | |
CN107368515B (zh) | 应用程序页面推荐方法及系统 | |
CA2865187C (en) | Method and system relating to salient content extraction for electronic content | |
US9092504B2 (en) | Clustered information processing and searching with structured-unstructured database bridge | |
US8332393B2 (en) | Search session with refinement | |
US9767198B2 (en) | Method and system for presenting content summary of search results | |
US9860337B1 (en) | Machine-based identification of content with differing opinions | |
US20120102018A1 (en) | Ranking Model Adaptation for Domain-Specific Search | |
US20180101617A1 (en) | Ranking Search Results using Machine Learning Based Models | |
WO2020056154A1 (en) | Systems and methods for generating and using knowledge graphs | |
CN111259220B (zh) | 一种基于大数据的数据采集方法和系统 | |
CN113836131A (zh) | 一种大数据清洗方法、装置、计算机设备及存储介质 | |
CA2956627A1 (en) | System and engine for seeded clustering of news events | |
CN104615723B (zh) | 查询词权重值的确定方法和装置 | |
CN110390011B (zh) | 数据分类的方法和装置 | |
CN111737607B (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
Ben Djemaa et al. | Enhanced semantic similarity measure based on two‐level retrieval model | |
CN106294417A (zh) | 一种数据排序方法、装置及电子设备 | |
CN118035385A (zh) | 信息搜索方法、装置、电子设备及计算机可读存储介质 | |
US11657304B2 (en) | Assessing similarity between items using embeddings produced using a distributed training framework | |
CN116610853A (zh) | 搜索推荐方法、搜索推荐系统、计算机设备及存储介质 | |
CN113325959A (zh) | 一种输入语料的推荐方法和装置 | |
Hung et al. | OGIR: an ontology‐based grid information retrieval framework | |
CN112016017A (zh) | 确定特征数据的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |