CN115495589A - 数据检索方法、装置、设备及存储介质 - Google Patents
数据检索方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115495589A CN115495589A CN202211152697.5A CN202211152697A CN115495589A CN 115495589 A CN115495589 A CN 115495589A CN 202211152697 A CN202211152697 A CN 202211152697A CN 115495589 A CN115495589 A CN 115495589A
- Authority
- CN
- China
- Prior art keywords
- data
- retrieval
- exogenous
- service system
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种数据检索方法、装置、设备及存储介质,涉及数据分析技术领域。该方法包括:响应于获取到的检索请求,确定对应目标检索词和请求对象;基于请求对象对应的对象检索词库和预先构建的业务系统检索词库,分别对目标检索词进行分词处理,基于业务系统检索词库对应的分词处理结果和预先设置的优先级标签,建立对应的检索索引;基于请求对象对应的业务系统、基于对象检索词库得到的分词结果和检索索引,得到检索结果。本申请实施例解决了现有技术中搜索引擎在搜索多元化数据时,搜索结果无法满足用户期望的问题。
Description
技术领域
本申请实施例涉及数据分析技术领域,尤其涉及一种数据检索方法、装置、设备及存储介质。
背景技术
现有的企业自行建立的搜索引擎大多是使用传统的检索方法构建,功能代码集成于企业业务系统本身,且索引文件的数据来源通常也局限于业务系统内的数据,并通过构建专属业务词库,分配相关域的计算权重,来调节搜索结果的命中排序,当需要搜索的数据不仅限于本业务系统,而是包含外源性数据在内的多元化数据时,难以保证检索结果满足用户期望。
发明内容
本申请实施例提供了一种数据检索方法、装置、设备及存储介质,以解决现有技术中搜索引擎在搜索多元化数据时,搜索结果无法满足用户期望的问题。
第一方面,本申请实施例提供了一种数据检索方法,该数据检索方法包括:
响应于获取到的检索请求,确定对应目标检索词和请求对象;
基于请求对象对应的对象检索词库和预先构建的业务系统检索词库,分别对目标检索词进行分词处理,请求对象对应的对象检索词库基于请求对象的检索历史构建,业务系统检索词库基于本地业务系统中的数据和外源数据库中的数据构建;
基于业务系统检索词库对应的分词处理结果和预先设置的优先级标签,建立对应的检索索引;
基于请求对象对应的业务系统、基于对象检索词库得到的分词结果和检索索引,得到检索结果。
可选地,业务系统检索词库通过如下方式得到:获取本地业务系统数据和采集的外源数据库中的外源性数据;基于本地业务系统数据和外源性数据中的结构化数据,得到对应的结构化数据副本;基于本地业务系统数据和外源性数据中的非结构化数据,得到对应的实体图谱,实体图谱用于表示本地业务系统数据与外源性数据间的关联关系;基于本地业务系统数据和外源性数据的具体来源,对结构化数据和非结构化数据分别添加对应的来源标签;基于非结构化数据的文件格式,对非结构化数据添加格式标签,并基于所述结构化数据副本、实体图谱、来源标签和格式标签,得到所述业务系统检索词库。
可选地,基于本地业务系统数据和外源性数据中的结构化数据,得到对应的结构化数据副本,包括:建立结构化数据与本地业务系统数据对应的数据库的主键关联;基于主键关联,对外源性数据进行整合;将整合结果和基于主键关联的本地业务系统数据结合,生成结构化数据副本。
可选地,基于本地业务系统数据和外源性数据中的非结构化数据,得到对应的实体图谱,包括:提取非结构化数据的目标信息,目标信息包括实体、实体属性和分类标签;基于目标信息,通过相关性分析,得到非结构化数据间的匹配度;抽取目标信息中的实体对应词条,并在词条上标注匹配度;基于匹配度,建立目标信息中的实体对应的图数据库,并生成实体图谱。
可选地,基于本地业务系统数据和外源性数据的具体来源,对结构化数据和非结构化数据分别添加对应的来源标签,包括:在结构化数据副本中添加结构化数据对应的来源性标注;在同一结构化数据副本中的子数据中,根据数据来源设置对应的优先级标签;在非结构化数据的图数据库中,添加每个实体对应的来源标签。
可选地,外源性数据通过如下方式采集得到:若外源性数据为结构化数据,实时监听外源性数据对应外源业务系统的外源数据库的数据变化;根据数据变化对应的数据内容的类型,采集外源性数据中的结构化数据;若外源性数据为非结构化数据,获取外源业务系统的推送请求;基于推送请求,获取外源业务系统对应的外源性数据。
可选地,根据数据变化对应的数据内容的类型,采集外源性数据中的结构化数据,包括:若数据内容为单表数据变化,向外源业务系统发送拉取任务,以提取数据信息的单表;若数据内容为持续增量变更信息,向外源业务系统发送订阅任务,以通过订阅增量持续获取实时的增量变更信息;若数据内容为未采集过的存量数据,全量拉取外源性数据信息。
可选地,基于推送请求,获取外源性数据,包括:基于设定传输方式采集外源性数据中的非结构化数据至本地存储位置;通过设定采集方式从本地存储位置的非结构化数据中抽取结构化的数据信息。
可选地,基于推送请求,获取外源性数据之后,还包括:对获取到的外源性数据进行合法性校验;对通过合法性校验的外源性数据中的业务敏感数据进行脱敏处理;基于脱敏处理后外源性数据对应的外源业务系统,将外源性数据保存至对应的数据库分库或分表中。
可选地,基于业务系统检索词库对应的分词处理结果和预先设置的优先级标签,建立对应的检索索引,包括:基于业务系统检索词库对应的分词处理结果,对库存数据进行倒排索引;基于库存数据中结构化数据副本包含的优先级标签和业务系统检索词库对应的分词处理结果,得到分词域优先级;基于倒排索引和分词域优先级,建立检索索引。
可选地,基于请求对象对应的业务系统、基于对象检索词库得到的分词结果和检索索引,得到检索结果,包括:基于对象检索词库得到的分词结果,确定请求对象的检索偏好;确定对象对应业务系统中的数据为主检索数据;基于检索偏好和实体图谱,确定与对象对应业务系统关联的外源业务系统中的数据为相关检索数据;基于检索索引,对主检索数据和相关检索数据进行检索,并对主检索数据和相关检索数据对应的检索得到的数据分别进行检索展示,得到检索结果。
可选地,基于请求对象对应的业务系统、基于对象检索词库得到的分词结果和检索索引,得到检索结果,包括:获取用户自定义的检索配置;基于检索配置和检索索引,对本地业务系统数据和外源性数据进行检索,得到检索结果。
第二方面,本申请实施例提供了一种数据检索装置,该数据检索装置包括:
获取模块,用于响应于获取到的检索请求,确定对应目标检索词和请求对象;
分词模块,用于基于请求对象对应的检索词库和预先构建的业务系统检索词库,分别对目标检索词进行分词处理,请求对象对应的检索词库基于请求对象的检索历史构建,业务系统检索词库基于本地业务系统中的数据和外源数据库中的数据构建;
索引模块,用于基于业务系统检索词库对应的分词处理结果和预先设置的优先级标签,建立对应的检索索引;
输出模块,用于基于业务系统检索词库对应的分词处理结果和预先设置的优先级标签,建立对应的检索索引。
可选地,分词模块包括,通过如下方式得到业务系统检索词库:获取本地业务系统数据和采集的外源数据库中的外源性数据;基于本地业务系统数据和外源性数据中的结构化数据,得到对应的结构化数据副本;基于本地业务系统数据和外源性数据中的非结构化数据,得到对应的实体图谱,实体图谱用于表示本地业务系统数据与外源性数据间的关联关系;基于本地业务系统数据和外源性数据的具体来源,对结构化数据和非结构化数据分别添加对应的来源标签;基于非结构化数据的文件格式,对非结构化数据添加格式标签,并基于所述结构化数据副本、实体图谱、来源标签和格式标签,得到所述业务系统检索词库。
可选地,分词模块具体用于,建立结构化数据与本地业务系统数据对应的数据库的主键关联;基于主键关联,对外源性数据进行整合;将整合结果和基于主键关联的本地业务系统数据结合,生成结构化数据副本。
可选地,分词模块具体用于,提取非结构化数据的目标信息,目标信息包括实体、实体属性和分类标签;基于目标信息,通过相关性分析,得到非结构化数据间的匹配度;抽取目标信息中的实体对应词条,并在词条上标注匹配度;基于匹配度,建立目标信息中的实体对应的图数据库,并生成实体图谱。
可选地,分词模块具体用于,在结构化数据副本中添加结构化数据对应的来源性标注;在同一结构化数据副本中的子数据中,根据数据来源设置对应的优先级标签;在非结构化数据的图数据库中,添加每个实体对应的来源标签。
可选地,分词模块包括,通过如下方式采集得到外源性数据:若外源性数据为结构化数据,实时监听外源性数据对应外源业务系统的外源数据库的数据变化;根据数据变化对应的数据内容的类型,采集外源性数据中的结构化数据;若外源性数据为非结构化数据,获取外源业务系统的推送请求;基于推送请求,获取外源业务系统对应的外源性数据。
可选地,分词模块具体用于,若数据内容为单表数据变化,向外源业务系统发送拉取任务,以提取数据信息的单表;若数据内容为持续增量变更信息,向外源业务系统发送订阅任务,以通过订阅增量持续获取实时的增量变更信息;若数据内容为未采集过的存量数据,全量拉取外源性数据信息。
可选地,分词模块具体用于,于设定传输方式采集外源性数据中的非结构化数据至本地存储位置;通过设定采集方式从本地存储位置的非结构化数据中抽取结构化的数据信息。
可选地,分词模块还用于,基于推送请求,获取外源性数据之后,对获取到的外源性数据进行合法性校验;对通过合法性校验的外源性数据中的业务敏感数据进行脱敏处理;基于脱敏处理后外源性数据对应的外源业务系统,将外源性数据保存至对应的数据库分库或分表中。
可选地,索引模块具体用于,基于业务系统检索词库对应的分词处理结果,对库存数据进行倒排索引;基于库存数据中结构化数据副本包含的优先级标签和业务系统检索词库对应的分词处理结果,得到分词域优先级;基于倒排索引和分词域优先级,建立检索索引。
可选地,输出模块具体用于,基于对象检索词库得到的分词结果,确定请求对象的检索偏好;确定对象对应业务系统中的数据为主检索数据;基于检索偏好和实体图谱,确定与对象对应业务系统关联的外源业务系统中的数据为相关检索数据;基于检索索引,对主检索数据和相关检索数据进行检索,并对主检索数据和相关检索数据对应的检索得到的数据分别进行检索展示,得到检索结果。
可选地,输出模块具体用于,获取用户自定义的检索配置;基于检索配置和检索索引,对本地业务系统数据和外源性数据进行检索,得到检索结果。
第三方面,本申请实施例还提供了一种控制设备,该控制设备包括:
至少一个处理器;
以及与至少一个处理器通信连接的存储器;
其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使控制设备执行如本申请实施例第一方面中任一实施例对应的数据检索方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如本申请实施例第一方面任一的数据检索方法。
第五方面,本申请实施例还提供了一种计算机程序产品,计算机程序产品包含计算机执行指令,该计算机执行指令被处理器执行时用于实现如本申请实施例第一方面任一的数据检索方法。
本申请实施例提供的数据检索方法、装置、设备及存储介质,通过响应于获取到的检索请求,确定对应检索词和请求对象;基于请求对象对应的检索词库和预先构建的业务系统检索词库,分别对目标检索词进行分词处理,基于业务系统检索词库对应的分词处理结果和预先设置的优先级标签,建立对应的检索索引,基于请求对象对应的业务系统、基于对象检索词库得到的分词结果和检索索引,得到检索结果。由此,得到的检索结果能够同时整合本地业务系统中的自有数据和外源数据库中的数据,提高对外源数据库中数据的检索效率和命中准确度,进而提高检索结果的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本申请实施例提供的数据检索方法的一种应用场景图;
图2为本申请实施例一个实施例提供的数据检索方法的流程图;
图3a为本申请实施例又一个实施例提供的数据检索方法的流程图;
图3b为图3a所示实施例中的外源性数据的采集方法流程图;
图3c为图3a所示实施例中的生成结构化数据副本的方法流程图;
图3d为图3a所示实施例中的得到非结构化数据对应实体图谱的方法流程图;
图3e为图3a所示实施例中的添加数据来源标签的方法流程图;
图4为本申请实施例又一个实施例提供的数据检索装置的结构示意图;
图5为本申请实施例又一个实施例提供的控制设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式仅是与如所附权利要求书中所详述的、本申请实施例的一些方面相一致的装置和方法的例子。
下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请实施例的实施例进行描述。
随着大数据时代的到来,业务信息(如医药企业中的药品信息、建筑企业的材料采购信息)呈现多元级、多量级的趋势,用户对信息检索的需求也日益增加。面对数据内容多元化,传统的检索技术构建的搜索引擎,存在信息过载,返回的检索结果过多,检索结果形式单一的问题,无法把垂直领域中多类多结构的相关数据都检索出来,导致用户二次搜索的频率较高。并且随着索引数据量的增多,传统检索技术构建的搜索引擎不可避免的会出现检索时间延长的问题,从而增长了响应请求的时间,影响用户使用体验。
而现有的企业自行建立的搜索引擎大多是使用传统的检索方法构建,功能代码集成于企业业务系统本身,且索引文件的数据来源通常也局限于业务系统内的数据,并通过构建专属业务词库,分配相关域的计算权重,来调节搜索结果的命中排序,当需要搜索的数据不仅限于本业务系统,而是包含外源性数据在内的多元化数据时,通常只能采用批量推送数据的方式(如显示相关数据的条数,而不显示具体内容),难以有效地对数据进行分门别类的分析,且由于无法对外源性数据进行实时的收集存储,这就导致使用现有技术构建的搜索引擎难对多元数据进行检索时会有T+1的时效性限制。
为了解决这一问题,本公开实施例提供一种数据检索方法,通过预先建立包含外源数据库和本地业务系统中数据的业务系统检索词库,使得检索结果能够覆盖本地业务系统中的数据和外源数据库中的数据,由此有效保证检索结果能同时整合本地业务系统中的数据和外源数据库中的数据,从而提高检索结果的准确性。
下面对本公开实施例的应用场景进行解释:
图1为本公开实施例提供的数据检索方法的一种应用场景图。如图1所示,检索系统100实时采集本地业务系统110中数据和外源业务系统120中数据,并对采集的数据进行整合,在接收到请求对象130的检索请求时,通过聚合检索,向请求对象130输出对应的检索结果,完成数据检索。
需说明的是,图1所示场景中检索系统、本地业务系统、外源业务系统和请求对象仅以一个为例进行示例说明,但本申请实施例不以此为限制,也就是说,检索系统、本地业务系统、外源业务系统和请求对象的个数可以是任意的。
以下通过具体实施例详细说明本申请实施例提供的数据检索方法。需要说明的是,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
图2为本公开一个实施例提供的数据检索方法的流程图。如图2所示,本实施例提供的数据检索方法包括以下步骤:
步骤S201、响应于获取到的检索请求,确定对应目标检索词和请求对象。
具体的,请求对象即发出检索请求的用户,用户通常为使用业务系统的使用者,而非常规检索引擎的使用者(这类使用者所使用的的常规检索引擎一般不与业务系统对应)。根据用户不同,检索系统中会保存的用户检索历史和用户所属于的业务系统不同,而这些均会影响检索结果。因此,在确定检索请求时,会对应确定请求对象,并进一步确定其检索历史、所对应的业务系统等信息。
步骤S202、基于请求对象对应的检索词库和预先构建的业务系统检索词库,分别对目标检索词进行分词处理。
其中,请求对象对应的检索词库基于请求对象的检索历史构建,业务系统检索词库基于本地业务系统中的数据和外源数据库中的数据构建。
具体的,请求对象的检索历史会保存在检索系统中,从而根据检索历史,能够建立用户对应的对象检索词库。
通过对象检索词库对检索词进行分词,能够快速确定用户可能感兴趣的检索目标,进而准确推送检索结果。
业务系统检索词库同时包含本地业务系统中的数据,也包含外源数据库中的数据,并对这两种数据中的实体添加对应标签,如在仓储领域的业务系统中,本地业务系统记录在库存中的货物即为实体,外源数据库中记录可以添加到库存中的货物也为实体,而这些货物的种类、数量、所在位置就是其对应的标签或相关信息,也就是检索词库中的检索词。
通过业务系统检索词库对目标检索词进行分词,能够快速确定业务系统中与目标检索词对应是实体及实体相关的信息,进而确定可以推送给用户的检索结果。
通过对象检索词库和业务系统检索词库结合,从用户偏好和系统库存数据两个角度,共同确定可以推送给用户的数据,同时覆盖本地业务系统中的数据和外源数据库中的数据,提高检索结果的准确性。
步骤S203、基于业务系统检索词库对应的分词处理结果和预先设置的优先级标签,建立对应的检索索引。
具体的,预设的优先级标签,主要用于区分通过分词处理结果确定的可以推送的数据间的优先级。如医药领域,检索某种药物时,可能同时检索到在药房库存量大的常用种类,也可能检索到与其相关的非常用种类,还可能检索到外部相关企业可以补货的种类(即外源数据库中的数据),通过对其所属的来源种类分配不同的优先级,可以得到其对应的优先权标签。
基于优先级标签,和分词处理结果,可以确定业务系统中与目标检索词相对应的数据,及其推送的优先级,这里确定的数据及其优先级,即为检索索引。通过检索索引,能够根据优先级,推送对应数据作为检索结果。
步骤S204、基于请求对象对应的业务系统、基于对象检索词库得到的分词结果和检索索引,得到检索结果。
具体的,在确定检索结果时,除了基于检索索引,还需要考虑请求对象对应的业务系统,如科研企业的不同部门,可能涉及不同领域的研发工作,因此,在向其推送检索结果时,优先将检索索引中对应同领域(即同业务系统)的数据作为推送数据,类似的,也会优先将对象检索词库得到的分词结果在检索索引对应的数据作为推送结果,由此,能够使检索结果与用户行为相结合,使推送给用户的数据具有更高的准确度。
本公开实施例提供的数据检索方法,通过响应于获取到的检索请求,确定对应检索词和请求对象;基于请求对象对应的检索词库和预先构建的业务系统检索词库,分别对目标检索词进行分词处理,基于业务系统检索词库对应的分词处理结果和预先设置的优先级标签,建立对应的检索索引,基于请求对象对应的业务系统、基于对象检索词库得到的分词结果和检索索引,得到检索结果。由此,得到的检索结果能够同时整合本地业务系统中的自有数据和外源数据库中的数据,提高对外源数据库中数据的检索效率和命中准确度,进而提高检索结果的准确性。
图3a为本公开一个实施例提供的数据检索方法的流程图。如图3a所示,本实施例提供的数据检索方法包括以下步骤:
步骤S301、获取本地业务系统数据和采集的外源数据库中的外源性数据。
具体的,检索系统会实时获取本地业务系统中的数据,并采集外源数据库中的外源性数据。也可以通过专门配置数据采集模块或数据采集平台(本文后续以数据采集平台来描述数据采集部分的实现),来采集并存储这两种数据。通过实时采集,有效保证获得的外源性数据的实时性,提高数据时效性和可用性(由于本地业务系统中的数据可以直接获取,所以本身就能保证时效性)。
进一步地,如图3b所示,其为外源性数据的采集方法流程图,外源性数据通过如下方式采集得到:
步骤S3011、若外源性数据为结构化数据,实时监听外源性数据对应外源业务系统的外源数据库的数据变化。
具体的,外源性数据包括结构化数据和非结构化数据,结构化数据,如表单、在固定页面或固定地址中更新的文本等,非结构化数据,如外源数据库提供的随机生成地址对应的下载附件等。非结构化数据通常地址、格式、大小都是随机的,因此无法通过结构化的方法,快速批量获取其中的内容,并批量导入到数据采集平台中。
另外,数据采集平台也并非实时不断采集(如每秒采集一次)每个外源数据库中的数据,因为部分外源数据库中可能在一段时间内并没有更新其中的数据,因此,数据采集平台通常通过监听外源数据库的数据变化,来判断是否需要采集外源数据库中的数据。如外源数据库发生数据变化,则可以采集变化部分的外源性数据,从而减小数据采集量。
一些实施例中,数据采集平台会与需要采集数据的外源业务系统建立关联关系,以确定需要采集哪些外院业务系统对应的外源数据库数据。如医药类的数据采集平台,只需要采集医药类的外源业务系统对应的外源数据库数据,而不需要采集其他领域(如装修领域)的外源业务系统对应的数据。
一些实施例中,数据采集平台会向建立了关联关系的外源业务系统对应外源数据库发送监听任务,以通过监听任务,实时监听数据库的数据变化。
步骤S3012、根据数据变化对应的数据内容的类型,采集外源性数据中的结构化数据。
具体的,外源数据库中发生变化的数据部分(即数据内容)的类型,会影响具体的采集方式和采集到的具体数据内容,因此,需要分别讨论。
进一步地,对应数据内容类型的采集方式,具体包括:
情况一(未示出)、若数据内容为单表数据变化,向外源业务系统发送拉取任务,以提取数据信息的单表。
具体的,数据内容为某个表单(即单表)中的数据,则直接提取该表单中的数据信息即可。
情况二(未示出)、若数据内容为持续增量变更信息,向外源业务系统发送订阅任务,以通过订阅增量持续获取实时的增量变更信息。
具体的,数据内容为同一地址,或具有固定规律的地址中持续变更的信息,或由同一发布者发布的持续更新的信息,此时,可以直接订阅或获取更新的内容(即增量变更信息)即可。
情况三(未示出)、若数据内容为未采集过的存量数据,全量拉取外源性数据信息。
具体的,若数据内容本身为数据采集平台未采集过的内容,则不需要等待其再次更新或确认哪些是发生数据变化的部分,而是直接获取全部数据内容即可。如某部门对应业务系统新建立了一套设备系统,其数据均为新配置的,则可以直接获取该设备系统对应的配置数据即可。
步骤S3013、若外源性数据为非结构化数据,获取外源业务系统的推送请求。
具体的,由于非结构化数据无法直接像结构化数据一样快速获取对应内容,因此,通常根据外源业务系统的推送请求来获取其对应地址,而非直接拉取。
步骤S3014、基于推送请求,获取外源业务系统对应的外源性数据。
具体的,由于外源性数据的无法预先确定地址并直接拉取,因此,需要在接收到推送请求后,基于推送请求来获取对应数据。
进一步地,由于外源性数据为非结构化数据,其具体获取方式包括:
步骤一(未示出)、基于设定传输方式采集外源性数据中的非结构化数据至本地存储位置。
具体的,采集非结构化数据的方式可以通过FTP方式(英文全称FileTransferProtocol,文件传输协议)获取。
步骤二(未示出)、通过设定采集方式从本地存储位置的非结构化数据中抽取结构化的数据信息。
具体的,由于非结构化数据的格式可能不同,具体采集方式可以是POI(即ApachePOI,一种进行非结构化文档文本抽取的开源包)、ICR(IntelligentCharacterRecognition,智能字符识别)、OCR(optical character recognition,视觉文字识别)等方式。
步骤S3015、对获取到的外源性数据进行合法性校验。
具体的,在得到外源性数据后,还需要对其进行合法性校验,确定数据合法性。
步骤S3016、对通过合法性校验的外源性数据中的业务敏感数据进行脱敏处理。
具体的,由于业务系统中的数据很可能会包含敏感数据,如涉及保密要求的具体参数,因此,需要基于配置的保密要求,对这些敏感数据进行脱敏处理。
步骤S3017、基于脱敏处理后外源性数据对应的外源业务系统,将外源性数据保存至对应的数据库分库或分表中。
具体的,数据采集平台通常以数据库的方式存储采集到的外源性数据,并根据外源性数据来源的外源业务系统,分库或分表保存这些外源性数据,以便检索。
步骤S302、基于本地业务系统数据和外源性数据中的结构化数据,得到对应的结构化数据副本。
具体的,在采集得到本地业务系统数据和外源性数据之后,需要根据其是否为结构化数据,进一步对数据进行整合,以提高数据关联性,进而提高检索时的聚合程度,增强检索结果的可靠性。
一些实施例中,检索系统中对数据的整合的功能可以通过专门的整合模块,或数据聚合平台完成(本实施例中,后续整合部分的描述,用数据聚合平台来替代检索系统进行描述)。
进一步地,如图3c所示,其为生成结构化数据副本的方法流程图,本方法具体包括:
步骤S3021、建立结构化数据与本地业务系统数据对应的数据库的主键关联。
具体的,由于无论是本地业务系统中的结构化数据还是外源性数据中的结构化数据,都保存在数据库中,并且由于其结构化的特征,可以通过主键的键值实现快速定位,因此,首先需要建立结构化数据与本地业务系统数据间主键的关联,即确定本地业务系统中的结构化数据与本地业务系统对应数据库中主键的对应关系,如某个数据的主键为哪一个,其键值为多少,通过这一对应关系,能够快速通过主键及其键值确定对应的数据。
步骤S3022、基于主键关联,对外源性数据进行整合。
具体的,在建立本地业务系统中结构化数据的对应主键关联后,还需要建立外源性数据(中的结构化数据)在数据采集平台的数据库中对应的主键关联。其方式与本地业务系统中结构化数据的整合类似,此处不再赘述。
步骤S3023、将整合结果和基于主键关联的本地业务系统数据结合,生成结构化数据副本。
具体的,结构化数据副本,即本地业务系统中的结构化数据和外源性数据中的结构化数据与数据采集平台中数据库的主键的对应关系保存的单独副本文件。以根据该副本文件,快速确定对应结构化数据的位置,进而读取该结构化数据。
步骤S303、基于本地业务系统数据和外源性数据中的非结构化数据,得到对应的实体图谱。
其中,实体图谱用于表示本地业务系统数据与外源性数据间的关联关系。
具体的,而非结构化数据,由于其通常无法通过主键建立关联(由于这类数据格式、大小、来源等都不同,因此其保存路径和位置通常也没办法统一化),因此,可以通过图数据库的方式来建立数据间的联系,并基于该联系得到非结构化数据的实体图谱,与结构化副本类似,通过实体图谱能够快速定位非结构化数据的位置,进而读取该非结构化数据。
进一步地,如图3d所示,其为得到非结构化数据对应实体图谱的方法流程图,得到实体图谱的具体方法包括:
步骤S3031、提取非结构化数据的目标信息。
其中,目标信息包括实体、实体属性和分类标签。
具体的,非结构化数据一般都包含有属性信息或配置信息等能够表明其对应实体相关的信息,如压缩文件的文件名、格式扩展名,音频文件的具体属性等,这些信息中,包含实体、实体属性和其对应分类标签的部分即属于检索时需要的目标信息。
其中,分类标签可以是实体所属于的业务领域分类,也可以是具体的技术、格式分类,如同时包含“音频”、“骨科手术”,分别对应格式分类和技术分类。一个实体可以包含多个分类标签,以方便检索。
步骤S3032、基于目标信息,通过相关性分析,得到非结构化数据间的匹配度。
具体的,在得到非结构化数据的目标信息后,可以计算每个实体间的匹配度,如两个实体均为相同格式、相同领域的文件,则其匹配度可以较高,而不同领域、不同格式的文件,其匹配度可能较低。
具体计算匹配度的方法,可以采用现有相关性分析的计算方法,此处不做限制。
步骤S3033、抽取目标信息中的实体对应词条,并在词条上标注匹配度。
具体的,实体的名称可能很长,其中可能包含检索需要的信息,也可能包含检索不需要的信息,如命名中的乱码或者格式符号等,因此,将实体中检所需要的信息抽取出来,即得到实体对应的词条。通过在词条上标注前述步骤计算出来的实体与实体之间的匹配度,得到词条之间的匹配度,进而可以根据这一匹配度,直接确定对应实体之间的匹配度。
步骤S3034、基于匹配度,建立目标信息中的实体对应的图数据库,并生成实体图谱。
具体的,通过各个实体间的(或词条间的)匹配度,就可以建立实体对应的图数据库,进而得到对应是实体图谱(或知识图谱)。通过实体图谱,能够快速建立非结构化数据间的联系,进而在检索时,确定与目标检索词相对应的非结构化数据的词条,并根据实体图谱,确定相关联的词条。
步骤S304、基于本地业务系统数据和外源性数据的具体来源,对结构化数据和非结构化数据分别添加对应的来源标签。
具体的,在建立结构化数据副本和非结构化数据实体图谱的基础上,还可以基于其来源做进一步整理和区分,以进一步提高检索的准确性。
进一步地,如图3e所示,其为添加数据来源标签的方法流程图,添加来源标签的方法具体包括:
步骤S3041、在结构化数据副本中添加结构化数据对应的来源性标注。
具体的,结构化数据通常能够比较方便的确定其来源是本地业务系统还是外源业务系统(通过其所保存的分库和分表就能直接确定),因此,直接将其来源以标签形式添加在结构化数据副本中。
步骤S3042、在同一结构化数据副本中的子数据中,根据数据来源设置对应的优先级标签。
具体的,同时,根据结构化数据所对应的来源不同,可以预设对应的优先级,以在检索时,优先推送高优先级的来源对应的数据。具体优先级的设置,一般根据开发人员预先配置的优先级。
在确定优先级后,将优先级添加到对应的结构化副本的对应数据中(或子数据中)。
步骤S3043、在非结构化数据的图数据库中,添加每个实体对应的来源标签。
具体的,图数据库中,非结构化数据也可以根据其获取时推送其的外源业务系统,确定其对应来源,然后将来源作为标签,添加在实体图谱的词条中。
步骤S305、基于非结构化数据的文件格式,对非结构化数据添加格式标签,并基于结构化数据副本、实体图谱、来源标签和格式标签,得到业务系统检索词库。
具体的,对于非结构化数据,还以根据其具体为文本文件、电子邮件、移动数据或媒体文件等不同的格式,进一步添加格式标签,以便在需要时,准确检索出对应的文件和数据。
通过步骤S302至步骤S305,为本地业务系统中的数据和外源性数据添加不同的标签,并通过结构化数据副本和实体图谱的方式进行高度整合,得到业务系统检索词库,从而加强了数据之间的关联性,有效保证在检索时,获取对应的数据准确性和效率。
步骤S306、响应于获取到的检索请求,确定对应目标检索词和请求对象。
步骤S307、基于请求对象对应的检索词库和预先构建的业务系统检索词库,分别对目标检索词进行分词处理。
其中,请求对象对应的检索词库基于请求对象的检索历史构建,业务系统检索词库基于本地业务系统中的数据和外源数据库中的数据构建。
具体的,步骤S306至本步骤与图2所示实施例中的步骤S201至步骤S202内容相同,此处不再赘述。
步骤S308、基于业务系统检索词库对应的分词处理结果,对库存数据进行倒排索引。
具体的,通过业务系统检索词库对目标检索词进行分词处理,即从前述数据聚合平台整理得到的标签、结构化数据副本和实体图谱中,匹配出与目标检索词相对应的词条或标签,基于这些词条或标签对目标检索词进行拆分,即得到分词处理结果。
而这些词条或标签对应的实体,即可能是检索需要得到的数据。由于这类数据通常数量较多,因此,需要建立这些数据对应的倒排索引,以根据倒排索引,快速定位和获取这些实体对应的数据。如在建筑领域的业务系统中检索“钢材”,可能得到的数据有数千条,因此,需要建立它们对应的倒排索引,以便根据后续进一步配置,选择需要推送(或返回)的数据,作为检索结果。
步骤S309、基于库存数据中结构化数据副本包含的优先级标签和业务系统检索词库对应的分词处理结果,得到分词域优先级。
具体的,单纯的倒排索引可能包含大量的数据,远超请求对象需求的数据量,因此,需要从中挑选出优先推送的部分。这里就可以利用前述步骤中得到的优先级标签,将分词处理时匹配得到的词条或标签中分为不同的优先级,即分词域优先级,以结合倒排索引,确定推送的优先级。
步骤S310、基于倒排索引和分词域优先级,建立检索索引。
具体的,将倒排索引与分词域优先级结合,可以得到统一的聚合索引库,即检索索引。通过检索索引,能够确定与目标检索词匹配的数据在检索系统中保存的地址,并能确定向用户推送的优先级,以优先根据高优先级的数据的地址,向请求对象推送数据,作为检索结果。
步骤S311、基于对象检索词库得到的分词结果,确定请求对象的检索偏好。
具体的,除了检索索引,在确定检索结果时,还可以考虑请求对象的检索偏好。
通过目标检索词与对象检索词库匹配得到的在对象检索词库中存在的词条或标签(和不存在的词条或标签),即基于对象检索词库对应的分词结果。若目标检索词中存在对象检索词库对应的词条或标签,这这一词条或标签为请求对象检索时偏好得到的词条或标签,即检索偏好。
通过检索偏好与检索索引结合,能进一步优化向请求对象推送的检索结果,使之更满足用户需求。
步骤S312、确定对象对应业务系统中的数据为主检索数据。
具体的,除请求对象的检索偏好外,还可以考虑其对应的业务系统,优先检索其对应的业务系统中的数据,以更好的符合用户需求。
请求对象对应的业务系统可以是本地业务系统,也可以是本地业务系统之一(如同时存在多个本地业务系统)。如某企业同时涉及多个领域,则多个领域的数据均属于本地业务系统中的数据,则某领域人员在检索时,优先将其对应领域的数据作为主检索数据,而不是将所有本地业务系统中的数据均作为主检索数据。
步骤S313、基于检索偏好和实体图谱,确定与对象对应业务系统关联的外源业务系统中的数据为相关检索数据。
具体的,考虑主检索数据之后,对于外源业务系统中的数据,可以通过倒排索引中的结构化数据副本中的主键关联,得到外源业务系统中结构化数据,并通过实体图谱,得到外源业务系统中非结构化数据,将这些数据作为相关检索数据。
步骤S314、基于检索索引,对主检索数据和相关检索数据进行检索,并对主检索数据和相关检索数据对应的检索得到的数据分别进行检索展示,得到检索结果。
具体的,基于检索索引和检索偏好,分别从主检索数据、相关检索数据进行检索,得到的结果即为检索结果。由此,能够确保覆盖本地业务系统和外源业务系统中的数据,并能够有针对性地将业务系统内的关键词(即词条)进行区分(通过分词处理实现),并且与用户行为相结合(即检索偏好),反馈给用户具有高准确度的聚合检索结果。
一些实施例中,在具体检索处理时,可以使用Elasticsearch(一种基于Lucene的分布式全文搜索引擎)来实现具体检索过程。
步骤S315、获取用户自定义的检索配置。
具体的,也可以通过用户自定义的配置进行检索,如请求对象设定仅针对某个业务系统进行检索,则不需要进一步拓展或聚合。
步骤S316、基于检索配置和检索索引,对本地业务系统数据和外源性数据进行检索,得到检索结果。
具体的,根据用户自定义的检索配置与前述步骤得到的检索索引结合,同样能够针对性的得到对应检索结果。
步骤S315至步骤S316为与步骤S311至步骤S314相平行的可选步骤,本领域技术人员可根据需求,选择任意步骤执行。
本公开实施例提供的数据检索方法,通过实时采集本地业务系统和外源业务系统的数据,并对数据进行整合处理,再根据请求对象的检索需求,结合其检索历史,确定检索结果。由此,能够实现对本地业务数据和外源性数据的准确检索,有效保证检索结果的准确性和可靠性,同时保证检索的外援数据的时效性,并通过与用户行为结合,提高检索结果的满意度。
图4为本公开一个实施例提供的数据检索装置的结构示意图。如图4所示,该数据检索装置400包括:获取模块410、分词模块420、索引模块430和输出模块440。其中:
获取模块410,用于响应于获取到的检索请求,确定对应目标检索词和请求对象;
分词模块420,用于基于请求对象对应的检索词库和预先构建的业务系统检索词库,分别对目标检索词进行分词处理,请求对象对应的检索词库基于请求对象的检索历史构建,业务系统检索词库基于本地业务系统中的数据和外源数据库中的数据构建;
索引模块430,用于基于业务系统检索词库对应的分词处理结果和预先设置的优先级标签,建立对应的检索索引;
输出模块440,用于基于业务系统检索词库对应的分词处理结果和预先设置的优先级标签,建立对应的检索索引。
可选地,分词模块420包括,通过如下方式得到业务系统检索词库:获取本地业务系统数据和采集的外源数据库中的外源性数据;基于本地业务系统数据和外源性数据中的结构化数据,得到对应的结构化数据副本;基于本地业务系统数据和外源性数据中的非结构化数据,得到对应的实体图谱,实体图谱用于表示本地业务系统数据与外源性数据间的关联关系;基于本地业务系统数据和外源性数据的具体来源,对结构化数据和非结构化数据分别添加对应的来源标签;基于非结构化数据的文件格式,对非结构化数据添加格式标签。
可选地,分词模块420具体用于,建立结构化数据与本地业务系统数据对应的数据库的主键关联;基于主键关联,对外源性数据进行整合;将整合结果和基于主键关联的本地业务系统数据结合,生成结构化数据副本。
可选地,分词模块420具体用于,提取非结构化数据的目标信息,目标信息包括实体、实体属性和分类标签;基于目标信息,通过相关性分析,得到非结构化数据间的匹配度;抽取目标信息中的实体对应词条,并在词条上标注匹配度;基于匹配度,建立目标信息中的实体对应的图数据库,并生成实体图谱。
可选地,分词模块420具体用于,在结构化数据副本中添加结构化数据对应的来源性标注;在同一结构化数据副本中的子数据中,根据数据来源设置对应的优先级标签;在非结构化数据的图数据库中,添加每个实体对应的来源标签。
可选地,分词模块420包括,通过如下方式采集得到外源性数据:若外源性数据为结构化数据,实时监听外源性数据对应外源业务系统的外源数据库的数据变化;根据数据变化对应的数据内容的类型,采集外源性数据中的结构化数据;若外源性数据为非结构化数据,获取外源业务系统的推送请求;基于推送请求,获取外源业务系统对应的外源性数据。
可选地,分词模块420具体用于,若数据内容为单表数据变化,向外源业务系统发送拉取任务,以提取数据信息的单表;若数据内容为持续增量变更信息,向外源业务系统发送订阅任务,以通过订阅增量持续获取实时的增量变更信息;若数据内容为未采集过的存量数据,全量拉取外源性数据信息。
可选地,分词模块420具体用于,于设定传输方式采集外源性数据中的非结构化数据至本地存储位置;通过设定采集方式从本地存储位置的非结构化数据中抽取结构化的数据信息。
可选地,分词模块420还用于,基于推送请求,获取外源性数据之后,对获取到的外源性数据进行合法性校验;对通过合法性校验的外源性数据中的业务敏感数据进行脱敏处理;基于脱敏处理后外源性数据对应的外源业务系统,将外源性数据保存至对应的数据库分库或分表中。
可选地,索引模块430具体用于,基于业务系统检索词库对应的分词处理结果,对库存数据进行倒排索引;基于库存数据中结构化数据副本包含的优先级标签和业务系统检索词库对应的分词处理结果,得到分词域优先级;基于倒排索引和分词域优先级,建立检索索引。
可选地,输出模块440具体用于,基于对象检索词库得到的分词结果,确定请求对象的检索偏好;确定对象对应业务系统中的数据为主检索数据;基于检索偏好和实体图谱,确定与对象对应业务系统关联的外源业务系统中的数据为相关检索数据;基于检索索引,对主检索数据和相关检索数据进行检索,并对主检索数据和相关检索数据对应的检索得到的数据分别进行检索展示,得到检索结果。
可选地,输出模块440具体用于,获取用户自定义的检索配置;基于检索配置和检索索引,对本地业务系统数据和外源性数据进行检索,得到检索结果。
在本实施例中,数据检索装置通过各模块的结合,能够解决现有技术中搜索引擎在搜索多元化数据时,搜索结果无法满足用户期望的问题,得到的检索结果能够同时整合本地业务系统中的自有数据和外源数据库中的数据,提高对外源数据库中数据的检索效率和命中准确度,进而提高检索结果的准确性。
图5为本公开一个实施例提供的控制设备的结构示意图,如图5所示,该控制设备500包括:存储器510和处理器520。
其中,存储器510存储有可被至少一个处理器520执行的计算机程序。该算机程序被至少一个处理器520执行,以使控制设备实现如上任一实施例中提供的数据检索方法。
其中,存储器510和处理器520可以通过总线530连接。
相关说明可以对应参见方法实施例所对应的相关描述和效果进行理解,此处不予赘述。
本公开一个实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现如上任一方法实施例提供的数据检索方法。
其中,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本公开一个实施例提供了一种计算机程序产品,其包含计算机执行指令,该计算机执行指令被处理器执行时用于实现如上任一实施例中提供的数据检索方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围由权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
Claims (16)
1.一种数据检索方法,其特征在于,所述数据检索方法包括:
响应于获取到的检索请求,确定对应目标检索词和请求对象;
基于所述请求对象对应的对象检索词库和预先构建的业务系统检索词库,分别对所述目标检索词进行分词处理,所述请求对象对应的对象检索词库基于请求对象的检索历史构建,所述业务系统检索词库基于本地业务系统中的数据和外源数据库中的数据构建;
基于业务系统检索词库对应的分词处理结果和预先设置的优先级标签,建立对应的检索索引;
基于所述请求对象对应的业务系统、基于对象检索词库得到的分词结果和所述检索索引,得到检索结果。
2.根据权利要求1所述的数据检索方法,其特征在于,所述业务系统检索词库通过如下方式得到:
获取本地业务系统数据和采集的外源数据库中的外源性数据;
基于所述本地业务系统数据和外源性数据中的结构化数据,得到对应的结构化数据副本;
基于所述本地业务系统数据和外源性数据中的非结构化数据,得到对应的实体图谱,所述实体图谱用于表示本地业务系统数据与外源性数据间的关联关系;
基于所述本地业务系统数据和外源性数据的具体来源,对所述结构化数据和非结构化数据分别添加对应的来源标签;
基于非结构化数据的文件格式,对所述非结构化数据添加格式标签,并基于所述结构化数据副本、实体图谱、来源标签和格式标签,得到所述业务系统检索词库。
3.根据权利要求2所述的数据检索方法,其特征在于,所述基于所述本地业务系统数据和外源性数据中的结构化数据,得到对应的结构化数据副本,包括:
建立所述结构化数据与所述本地业务系统数据对应的数据库的主键关联;
基于所述主键关联,对所述外源性数据进行整合;
将所述整合结果和基于主键关联的本地业务系统数据结合,生成所述结构化数据副本。
4.根据权利要求2所述的数据检索方法,其特征在于,所述基于所述本地业务系统数据和外源性数据中的非结构化数据,得到对应的实体图谱,包括:
提取所述非结构化数据的目标信息,所述目标信息包括实体、实体属性和分类标签;
基于所述目标信息,通过相关性分析,得到所述非结构化数据间的匹配度;
抽取所述目标信息中的实体对应词条,并在所述词条上标注所述匹配度;
基于所述匹配度,建立所述目标信息中的实体对应的图数据库,并生成所述实体图谱。
5.根据权利要求4所述的数据检索方法,其特征在于,所述基于所述本地业务系统数据和外源性数据的具体来源,对所述结构化数据和非结构化数据分别添加对应的来源标签,包括:
在所述结构化数据副本中添加所述结构化数据对应的来源性标注;
在同一结构化数据副本中的子数据中,根据数据来源设置对应的优先级标签;
在所述非结构化数据的图数据库中,添加每个实体对应的来源标签。
6.根据权利要求2至5中任一项所述的数据检索方法,其特征在于,所述外源性数据通过如下方式采集得到:
若所述外源性数据为结构化数据,实时监听所述外源性数据对应外源业务系统的外源数据库的数据变化;
根据数据变化对应的数据内容的类型,采集外源性数据中的结构化数据;
若所述外源性数据为非结构化数据,获取所述外源业务系统的推送请求;
基于所述推送请求,获取所述外源业务系统对应的外源性数据。
7.根据权利要求6所述的数据检索方法,其特征在于,所述根据数据变化对应的数据内容的类型,采集外源性数据中的结构化数据,包括:
若所述数据内容为单表数据变化,向外源业务系统发送拉取任务,以提取数据信息的单表;
若所述数据内容为持续增量变更信息,向外源业务系统发送订阅任务,以通过订阅增量持续获取实时的增量变更信息;
若所述数据内容为未采集过的存量数据,全量拉取所述外源性数据信息。
8.根据权利要求6所述的数据检索方法,其特征在于,所述基于所述推送请求,获取所述外源性数据,包括:
基于设定传输方式采集外源性数据中的非结构化数据至本地存储位置;
通过设定采集方式从所述本地存储位置的非结构化数据中抽取结构化的数据信息。
9.根据权利要求6所述的数据检索方法,其特征在于,所述基于所述推送请求,获取所述外源性数据之后,还包括:
对获取到的外源性数据进行合法性校验;
对通过合法性校验的外源性数据中的业务敏感数据进行脱敏处理;
基于脱敏处理后外源性数据对应的外源业务系统,将所述外源性数据保存至对应的数据库分库或分表中。
10.根据权利要求2至5中任一项所述的数据检索方法,其特征在于,所述基于业务系统检索词库对应的分词处理结果和预先设置的优先级标签,建立对应的检索索引,包括:
基于所述业务系统检索词库对应的分词处理结果,对库存数据进行倒排索引;
基于所述库存数据中结构化数据副本包含的优先级标签和所述业务系统检索词库对应的分词处理结果,得到分词域优先级;
基于所述倒排索引和所述分词域优先级,建立所述检索索引。
11.根据权利要求2至5中任一项所述的数据检索方法,其特征在于,所述基于所述请求对象对应的业务系统、基于对象检索词库得到的分词结果和所述检索索引,得到检索结果,包括:
基于所述对象检索词库得到的分词结果,确定所述请求对象的检索偏好;
确定所述对象对应业务系统中的数据为主检索数据;
基于所述检索偏好和所述实体图谱,确定与所述对象对应业务系统关联的外源业务系统中的数据为相关检索数据;
基于所述检索索引,对所述主检索数据库和所述相关检索数据库进行检索,并对所述主检索数据库和所述相关检索数据库对应的检索得到的数据分别进行检索展示,得到所述检索结果。
12.根据权利要求2至5中任一项所述的数据检索方法,其特征在于,所述基于所述请求对象对应的业务系统、基于对象检索词库得到的分词结果和所述检索索引,得到检索结果,包括:
获取用户自定义的检索配置;
基于所述检索配置和所述检索索引,对本地业务系统数据和外源性数据进行检索,得到所述检索结果。
13.一种数据检索装置,其特征在于,数据检索装置包括:
获取模块,用于响应于获取到的检索请求,确定对应目标检索词和请求对象;
分词模块,用于基于所述请求对象对应的对象检索词库和预先构建的业务系统检索词库,分别对所述目标检索词进行分词处理,所述请求对象对应的对象检索词库基于请求对象的检索历史构建,所述业务系统检索词库基于本地业务系统中的数据和外源数据库中的数据构建;
索引模块,用于基于业务系统检索词库对应的分词处理结果和预先设置的优先级标签,建立对应的检索索引;
输出模块,用于基于业务系统检索词库对应的分词处理结果和预先设置的优先级标签,建立对应的检索索引。
14.一种控制设备,其特征在于,包括:
至少一个处理器;
以及与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述控制设备执行如权利要求1至12中任一项所述的数据检索方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至12中任一项所述的数据检索方法。
16.一种计算机程序产品,其特征在于,所述计算机程序产品包含计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至12中任一项所述的数据检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211152697.5A CN115495589A (zh) | 2022-09-21 | 2022-09-21 | 数据检索方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211152697.5A CN115495589A (zh) | 2022-09-21 | 2022-09-21 | 数据检索方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115495589A true CN115495589A (zh) | 2022-12-20 |
Family
ID=84470370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211152697.5A Pending CN115495589A (zh) | 2022-09-21 | 2022-09-21 | 数据检索方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115495589A (zh) |
-
2022
- 2022-09-21 CN CN202211152697.5A patent/CN115495589A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9256422B2 (en) | Systems and methods for finding project-related information by clustering applications into related concept categories | |
AU2022201654A1 (en) | System and engine for seeded clustering of news events | |
US20020038299A1 (en) | Interface for presenting information | |
US20120166319A1 (en) | Method and system for language-independent search within scanned documents | |
CN107085583B (zh) | 一种基于内容的电子文档管理方法及装置 | |
JP2013541793A (ja) | マルチモード検索クエリー入力手法 | |
CN107870915B (zh) | 对搜索结果的指示 | |
CN111191111B (zh) | 内容推荐方法、装置及存储介质 | |
CN111913954B (zh) | 智能数据标准目录生成方法和装置 | |
CN110737824B (zh) | 内容查询方法和装置 | |
JP2008117010A (ja) | 文書作成支援装置、文書作成支援システム | |
CN111737443B (zh) | 答案文本的处理方法和装置、关键文本的确定方法 | |
US20150294005A1 (en) | Method and device for acquiring information | |
US8799314B2 (en) | System and method for managing information map | |
CN114564930A (zh) | 文档信息整合方法、装置、设备、介质和程序产品 | |
CN116594683A (zh) | 一种代码注释信息生成方法、装置、设备及存储介质 | |
CN110895587B (zh) | 用于确定目标用户的方法和装置 | |
CN112100216A (zh) | 创意关键词的处理方法和装置 | |
CN117033744A (zh) | 数据查询方法、装置、存储介质以及电子设备 | |
CN111400464B (zh) | 一种文本生成方法、装置、服务器及存储介质 | |
CN111737607A (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
CN110688559A (zh) | 一种检索方法及装置 | |
US20140201193A1 (en) | Intellectual property asset information retrieval system | |
KR20100038344A (ko) | 위치정보를 기반으로 한 지역정보 광고 방법과 상기 방법을 수행하기 위한 시스템 | |
CN115495589A (zh) | 数据检索方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |