CN114238588B - 数据检索方法、系统、可读存储介质及计算机设备 - Google Patents

数据检索方法、系统、可读存储介质及计算机设备 Download PDF

Info

Publication number
CN114238588B
CN114238588B CN202210168978.3A CN202210168978A CN114238588B CN 114238588 B CN114238588 B CN 114238588B CN 202210168978 A CN202210168978 A CN 202210168978A CN 114238588 B CN114238588 B CN 114238588B
Authority
CN
China
Prior art keywords
retrieval
data
information
database
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210168978.3A
Other languages
English (en)
Other versions
CN114238588A (zh
Inventor
杨增平
戴隆星
杨历
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Yizhijian Technology Co ltd
Original Assignee
Jiangxi Yizhijian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Yizhijian Technology Co ltd filed Critical Jiangxi Yizhijian Technology Co ltd
Priority to CN202210168978.3A priority Critical patent/CN114238588B/zh
Publication of CN114238588A publication Critical patent/CN114238588A/zh
Application granted granted Critical
Publication of CN114238588B publication Critical patent/CN114238588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明提供一种数据检索方法、系统、可读存储介质及计算机设备,方法包括:当接收到信息检索任务时,获取对应的检索信息;对检索信息进行分析处理,得到各项检索数据及检索条件;查找出与检索条件对应的数据文件,并对数据文件进行分表处理,得到数据文件表;将各项检索数据划分为基础检索数据及特征检索数据,并计算出基础检索数据和特征检索数据在数据文件表中的权重;当特征检索数据的权重大于第一预设阈值时,则根据特征检索数据在检索数据库中进行检索,以使检索数据库生成检索结果。本发明通过利用权重来分析基础检索数据和特征检索数据的重要程度,并且通过权重来减小检索的误差,保证检索报告的精准度,有效存储及高效利用信息。

Description

数据检索方法、系统、可读存储介质及计算机设备
技术领域
本发明涉及数据处理技术领域,特别涉及一种数据检索方法、系统、可读存储介质及计算机设备。
背景技术
随着科技的飞速发展和人们生活水平的提高,人们对于数据信息的检索也越来越频繁,也使得人们对各类信息的了解也更加迅速。
在对数据信息进行检索时,通常是在检索框中创建信息检索任务,检索引擎会对信息检索任务中所有信息进行全方面检索,并将检索的所有结果展示出来,而当信息检索任务较为复杂时,检索引擎无法辨别信息检索任务中的非关键词,则会导致信息检索任务中的重要信息利用较少、检索耗时较长。同时,信息检索任务中所有信息均会被检索引擎进行检索,并产生相应的检索结果,而由于检索引擎会直接将检索结果展示,导致检索结果的相对杂乱,影响检索报告的精准度。
发明内容
基于此,本发明的目的是提供一种数据检索方法、系统、可读存储介质及计算机设备,以至少解决上述技术中的不足。
本发明提出一种数据检索方法,包括:
当接收到用户输入的信息检索任务时,获取所述信息检索任务的检索信息;
按照预设的关键信息分析逻辑对所述检索信息进行分析处理,得到对应的各项检索数据及检索条件;
在预设的标准数据库中查找出与各项所述检索条件对应的数据文件,并对所述数据文件按照预设的分表逻辑进行分表处理,得到对应的数据文件表;
将各项所述检索数据划分为基础检索数据以及特征检索数据,并分别计算出所述基础检索数据和所述特征检索数据在所述数据文件表中的权重;
当所述特征检索数据在所述数据文件表中的权重大于第一预设阈值时,则根据所述特征检索数据在预设的检索数据库中进行检索,以使所述检索数据库生成检索结果。
进一步的,所述当接收到用户输入的信息检索任务时的步骤之前,所述方法还包括:
获取若干个专业平台提供的数据,并将所述数据按数据层次进行处理,得到对应的标准数据;
根据预设的分词分表逻辑对所述标准数据进行分词处理,并根据分词处理后的标准数据构建标准数据库。
进一步的,所述分别计算出所述基础检索数据和所述特征检索数据在所述数据文件表中的权重的步骤之后,所述方法还包括:
当所述特征检索数据在所述数据文件表中的权重不大于第一预设阈值时,则在所述检索数据库中依次对所述基础检索数据和所述特征检索数据进行检索,以使所述检索数据库依次生成基础检索结果和特征检索结果;
将所述基础检索结果和所述特征检索结果按预设标准进行组合形成组合检索结果,并判断所述组合检索结果是否构成完整数据;
当所述组合检索结果构成完整数据时,将所述组合检索结果作为最终检索结果推送。
进一步的,根据所述特征检索数据在预设的检索数据库中进行检索,以使所述检索数据库生成检索结果的步骤包括:
解析出所述特征检索数据的关键字属性以及图像属性,并根据所述关键字属性在所述检索数据库中进行文本匹配,以得到对应的第一相似度以及文本检索结果;
利用所述检索数据库对所述图像属性进行特征相似度匹配,以得到对应的第二相似度以及相似度检索结果;
根据所述第一相似度和所述第二相似度计算出总相似度,并判断所述总相似度是否大于第二预设阈值;
若所述总相似度大于第二预设阈值,则根据所述文本检索结果和所述相似度检索结果生成检索报告。
进一步的,所述方法还包括:
将所述检索结果经数据脱敏处理后,转换成对应的检索报告以及信息;
分别将所述检索报告和信息对应上传至所述标准数据库和所述检索数据库,以使所述标准数据库和所述检索数据库进行更新。
本发明还提出一种数据检索系统,包括:
获取模块,用于当接收到用户输入的信息检索任务时,获取所述信息检索任务的检索信息;
分析模块,用于按照预设的关键信息分析逻辑对所述检索信息进行分析处理,得到对应的各项检索数据及检索条件;
第一处理模块,用于在预设的标准数据库中查找出与各项所述检索条件对应的数据文件,并对所述数据文件按照预设的分表逻辑进行分表处理,得到对应的数据文件表;
计算模块,用于将各项所述检索数据划分为基础检索数据以及特征检索数据,并分别计算出所述基础检索数据和所述特征检索数据在所述数据文件表中的权重;
第一检索模块,用于当所述特征检索数据在所述数据文件表中的权重大于第一预设阈值时,则根据所述特征检索数据在预设的检索数据库中进行检索,以使所述检索数据库生成检索结果。
进一步的,所述系统还包括:
第二处理模块,用于获取若干个专业平台提供的数据,并将所述数据按数据层次进行处理,得到对应的标准数据;
第三处理模块,用于根据预设的分词分表逻辑对所述标准数据进行分词处理,并根据分词处理后的标准数据构建标准数据库。
进一步的,所述系统还包括:
第四处理模块,用于当所述特征检索数据在所述数据文件表中的权重不大于第一预设阈值时,则在所述检索数据库中依次对所述基础检索数据和所述特征检索数据进行检索,以使所述检索数据库依次生成基础检索结果和特征检索结果;
第二检索模块,用于将所述基础检索结果和所述特征检索结果按预设标准进行组合形成组合检索结果,并判断所述组合检索结果是否构成完整数据;
第五处理模块,用于当所述组合检索结果构成完整数据时,将所述组合检索结果作为最终检索结果推送。
进一步的,所述第一检索模块包括:
第一检索单元,用于解析出所述特征检索数据的关键字属性以及图像属性,并根据所述关键字属性在所述检索数据库中进行文本匹配,以得到对应的第一相似度以及文本检索结果;
第二检索单元,用于利用所述检索数据库对所述图像属性进行特征相似度匹配,以得到对应的第二相似度以及相似度检索结果;
计算单元,用于根据所述第一相似度和所述第二相似度计算出总相似度,并判断所述总相似度是否大于第二预设阈值;
处理单元,用于若所述总相似度大于第二预设阈值,则根据所述文本检索结果和所述相似度检索结果生成检索报告。
进一步的,所述系统还包括:
转换模块,用于将所述检索结果经数据脱敏处理后,转换成对应的检索报告以及信息;
更新模块,用于分别将所述检索报告和信息对应上传至所述标准数据库和所述检索数据库,以使所述标准数据库和所述检索数据库进行更新。
本发明还提出一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的数据检索方法。
本发明还提出一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的数据检索方法。
本发明当中的数据检索方法、系统、可读存储介质及计算机设备,通过分析出信息检索任务的检索信息中的各项检索数据以及检索条件,并在标准数据库中查找出与检索条件对应的数据文件,并对数据文件按照预设的分表逻辑进行分表处理,得到对应的数据文件表,将各项检索数据划分为基础检索数据和特征检索数据,并根据基础检索数据和特征检索数据的权重来得到对应的检索报告。使得用户能够根据自身输入的信息检索出相应的检索报告,并且利用权重来分析基础检索数据和特征检索数据的重要程度,并且通过权重来减小检索的误差,进一步保证检索报告的精准度,还能够有效存储以及高效利用检索信息。
附图说明
图1为本发明第一实施例中的数据检索方法的流程图;
图2为本发明第二实施例中的数据检索方法的流程图;
图3为本发明第三实施例中的数据检索系统的结构框图;
图4为本发明第四实施例中的计算机设备的结构框图。
主要元件符号说明:
存储器 10 分析模块 12
处理器 20 第一处理模块 13
计算机程序 30 计算模块 14
获取模块 11 第一检索模块 15
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
首先,需要说明的是,本申请提出一种数据检索方法,该方法运用于数据检索平台,在该数据检索平台中记载有健康知识、疾病知识、就医知识以及药品知识等相关知识,当用户存在健康或等相关疑问时,可以通过该数据检索平台检索相关知识,检索平台对用户输入的检索信息进行动态分析,并筛选出该检索信息的基础信息和特征信息,并根据相应的结果输出对应的检索报告。
实施例一
请参阅图1,所示为本发明第一实施例中的数据检索方法,所述方法具体包括步骤S101至S105:
S101,当接收到用户输入的信息检索任务时,获取所述信息检索任务的检索信息;
在具体实施时,用户在目标区域中创建信息检索任务,检索平台会提取所述信息检索任务中用户所输入的检索信息,并根据检索信息进行相应的处理。
S102,按照预设的关键信息分析逻辑对所述检索信息进行分析处理,得到对应的各项检索数据及检索条件;
在具体实施时,对所述检索信息按照关键信息分析逻辑进行分析,提取出检索信息中的关键信息,并将各关键信息进行组合,得到该用户需要检索的各项检索数据以及各项检索条件。
例如:当用户创建的信息检索任务为“2022年2月1日,我国大学生就业情况”,检索平台先判断所述信息检索任务中是否存在图片或数据图表等相关信息,若该信息检索任务中只存在有文字数据,则将所述信息检索任务的检索条件划分为文字检索、且将“2022年2月1日”作为本次检索任务的检索条件,检索平台内部预设的关键信息标准数据库对信息检索任务进行关键信息提取,所述关键信息标准数据库将“我国大学生就业情况”作为本次检索任务的检索数据。
需要说明的是,示例而非限定,在一些可选实施例中,在检索平台确定检索条件和检索数据之后,检索平台还会根据检索条件以及检索数据在历史检索数据中查找出含有该用户的用户标识的检索历史,并查看该用户所有的检索历史中是否存在与该检索条件以及检索数据相似的检索历史,根据相似的检索历史作为参考,以便于检索平台根据相似的检索历史和自身检索的结果生成对应的检索报告。
S103,在预设的标准数据库中查找出与各项所述检索条件对应的数据文件,并对所述数据文件按照预设的分表逻辑进行分表处理,得到对应的数据文件表;
在具体实施时,根据各检索条件在标准数据库中查找出对应的数据文件,创建分表逻辑,读取所有数据文件的源数据,并将源数据中具有标识作用的文件头数据导出,并根据文件头数据作为表头数据生成对应的数据文件表。
S104,将各项所述检索数据划分为基础检索数据以及特征检索数据,并分别计算出所述基础检索数据和所述特征检索数据在所述数据文件表中的权重;
在具体实施时,利用预设的检索模板将各项所述检索数据划分为基础检索数据及特征检索数据,并且计算出所述基础检索数据和特征检索数据在整个数据文件表中的权重。
在本申请中,根据各平台提供的数据构建数据集,并在数据集内建立一个或多个学习模型,当获取到信息检索任务时,将该信息检索任务解析成若干字段A1、A2、A3,并依次抓取包含字段A1、包含字段A 2以及字段A3的领域分区,其中,当通过字段A1和字段A 2已经能够确定领域分区时,无需对字段A3进行抓取,当确认领域分区后,计算出各字段(A1、A2、A3)在该领域分区的数据集中的检索频次γ1、γ2、γ3,若所有检索频次(频次γ1、γ2、γ3)中存在大于预设检索频次(85次),则将该大于预设检索频次的检索频次所对应的字段划分为基础检索字段,将小于预设检索频次的检索频次所对应的字段划分为特征检索字段。
需要说明的是,示例而非限定,在一些可选实施例中,预先构建基础检索数据库和特征检索数据库,通过将信息检索任务中的信息解析成多个字符串,并利用字符串在该基础检索数据库和特征检索数据库中进行检索,得到该信息检索任务中对应的基础检索数据和特征检索数据。
S105,当所述特征检索数据在所述数据文件表中的权重大于第一预设阈值时,则根据所述特征检索数据在预设的检索数据库中进行检索,以使所述检索数据库生成检索结果。
在具体实施时,当特征检索数据在数据文件表中的权重大于第一阈值(80%)时,意味着利用该信息检索任务中特征检索数据即可检索到相关情况,则根据该特征检索数据在检索数据库中进行检索,以使检索数据库根据特征检索数据生成检索结果。
综上,本发明上述实施例当中的数据检索方法,通过分析出信息检索任务的检索信息中的各项检索数据以及检索条件,并在标准数据库中查找出与检索条件对应的数据文件,并对数据文件按照预设的分表逻辑进行分表处理,得到对应的数据文件表,将各项检索数据划分为基础检索数据和特征检索数据,并根据基础检索数据和特征检索数据的权重来得到对应的检索报告。使得用户能够根据自身输入的信息检索出相应的检索报告,并且利用权重来分析基础检索数据和特征检索数据的重要程度,并且通过权重来减小检索的误差,进一步保证检索报告的精准度,还能够有效存储以及高效利用检索信息。
实施例二
请参阅图2,所示为本发明第二实施例中的数据检索方法,所述方法具体包括步骤S201至S215:
S201,获取若干个专业平台提供的数据,并将所述数据按数据层次进行处理,得到对应的标准数据;
S202,根据预设的分词分表逻辑对所述标准数据进行分词处理,并根据分词处理后的标准数据构建标准数据库;
在具体实施时,获取各专业平台(检索平台、检测平台等具有记录功能的专业平台)所提供的数据,并将数据按照数据层次进行处理、解构,得到标准数据,将所得到的标准数据进行分词分表处理,创建关联以及构建相应的映射关系,以生成标准数据库。
举例说明:若用户创建的信息检索任务为“2022年2月1日,我国大学生就业情况”,在本申请中,获取工信部等平台所提供的数据,在该数据中记录有所有国家所有时间段内的大学生就业数据的情况信息,并通过将该情况信息按照数据层次进行处理,例如:将该情况信息中时间、国家、省区域、就业数据信息(就业、创业以及待业等)进行解构,得到标准数据,将所得到的标准数据进行分词分表处理,创建关联以及构建相应的映射关系,以生成标准数据库。
S203,当接收到用户输入的信息检索任务时,获取所述信息检索任务的检索信息;
在具体实施时,用户在目标区域中创建信息检索任务,检索平台会提取所述信息检索任务中用户所输入的检索信息,并根据检索信息进行相应的处理。
S204,按照预设的关键信息分析逻辑对所述检索信息进行分析处理,得到对应的各项检索数据及检索条件;
在具体实施时,对所述检索信息按照关键信息分析逻辑进行分析,提取出检索信息中的关键信息,并将各关键信息进行组合,得到该用户需要检索的各项检索数据以及各项检索条件。
例如:当用户创建的信息检索任务为“2022年2月1日,我国大学生就业情况”,检索平台先判断所述信息检索任务中是否存在图片或数据图表等相关信息,若该信息检索任务中只存在有文字数据,则将所述信息检索任务的检索条件划分为文字检索、且将“2022年2月1日”作为本次检索任务的检索条件,检索平台内部预设的关键信息标准数据库对信息检索任务进行关键信息提取,所述关键信息标准数据库将“我国大学生就业情况”作为本次检索任务的检索数据。
需要说明的是,示例而非限定,在一些可选实施例中,在检索平台确定检索条件和检索数据之后,检索平台还会根据检索条件以及检索数据在历史检索数据中查找出含有该用户的用户标识的检索历史,并查看该用户所有的检索历史中是否存在与该检索条件以及检索数据相似的检索历史,根据相似的检索历史作为参考,以便于检索平台根据相似的检索历史和自身检索的结果生成对应的检索报告。
S205,在预设的标准数据库中查找出与各项所述检索条件对应的数据文件,并对所述数据文件按照预设的分表逻辑进行分表处理,得到对应的数据文件表;
在具体实施时,根据各检索条件在标准数据库中查找出对应的数据文件,创建分表逻辑,读取所有数据文件的源数据,并将源数据中具有标识作用的文件头数据导出,并根据文件头数据作为表头数据生成对应的数据文件表。
S206,将各项所述检索数据划分为基础检索数据以及特征检索数据,并分别计算出所述基础检索数据和所述特征检索数据在所述数据文件表中的权重;
在具体实施时,利用预设的检索模板将各项所述检索数据划分为基础检索数据及特征检索数据,并且计算出所述基础检索数据和特征检索数据在整个数据文件表中的权重。
在本申请中,根据各平台提供的数据构建数据集,并在数据集内建立一个或多个学习模型,当获取到信息检索任务时,将该信息检索任务解析成若干字段A1、A2、A3,并依次抓取包含字段A1、包含字段A 2以及字段A3的领域分区,其中,当通过字段A1和字段A 2已经能够确定领域分区时,无需对字段A3进行抓取,当确认领域分区后,计算出各字段(A1、A2、A3)在该领域分区的数据集中的检索频次γ1、γ2、γ3,若所有检索频次(频次γ1、γ2、γ3)中存在大于预设检索频次(85次),则将该大于预设检索频次的检索频次所对应的字段划分为基础检索字段,将小于预设检索频次的检索频次所对应的字段划分为特征检索字段。
需要说明的是,示例而非限定,在一些可选实施例中,预先构建基础检索数据库和特征检索数据库,通过将信息检索任务中的信息解析成多个字符串,并利用字符串在该基础检索数据库和特征检索数据库中进行检索,得到该信息检索任务中对应的基础检索数据和特征检索数据。
S207,当所述特征检索数据在所述数据文件表中的权重大于第一预设阈值时,则解析出所述特征检索数据的关键字属性以及图像属性,并根据所述关键字属性在所述检索数据库中进行文本匹配,以得到对应的第一相似度以及文本检索结果;
S208,利用所述检索数据库对所述图像属性进行特征相似度匹配,以得到对应的第二相似度以及相似度检索结果;
S209,根据所述第一相似度和所述第二相似度计算出总相似度,并判断所述总相似度是否大于第二预设阈值;
S210,若所述总相似度大于第二预设阈值,则根据所述文本检索结果和所述相似度检索结果生成检索报告;
在具体实施时,当特征检索数据在数据文件表中的权重大于第一阈值(80%)时,意味着利用该信息检索任务中特征检索数据即可检索到相关情况,则根据该特征检索数据在检索数据库中进行检索,并需要解析出所述特征检索数据中的属性,在本申请中,特征检索数据中所解析出的属性可以只是关键字属性,也可以只是图像属性,也可以是关键字属性以及图像属性,其主要根据用户所创建的信息检索任务中所输入的信息来决定。
若特征检索数据中所解析出的属性为关键字属性以及图像属性,则根据关键字属性在所述检索数据库中进行文本匹配,以得到对应的第一相似度S1以及文本检索结果;
利用所述检索数据库对所述图像属性进行特征相似度匹配,以得到对应的第二相似度S2以及相似度检索结果;
根据所述第一相似度S1和所述第二相似度S2计算出总相似度S,S=X*S1+Y*S2,其中,X和Y分三种情况:
(1)、特征检索数据中所解析出的属性为关键字属性,则X=0,总相似度S=Y*S2,信息检索任务实际是基于文本匹配的检索。
(2)、特征检索数据中所解析出的属性为图像属性,则Y=0,总相似度S=X*S1,信息检索任务实际是基于特征相似度匹配的检索。
(3)、特征检索数据中所解析出的属性为关键字属性和图像属性,则X≠0、且Y≠0,信息检索任务实际是基于特征相似度匹配和基于文本匹配相结合的综合检索。
在计算出总相似度后,判断所述总相似度是否大于第二预设阈值(85~180),若总相似度大于第二预设阈值,则意味着文本检索结果和相似度检索结果基本符合检索要求,利用文本检索结果和相似度检索结果生成对应的检索报告;
若总相似度不大于第二预设阈值,则意味着文本检索结果和相似度检索结果中存在异常,则先以本次的文本检索结果和相似度检索结果生成初步检索报告以使用户进行阅览,同时提醒用户本次检索结果的情况,并在后台检测文本匹配和特征相似度匹配哪个存在异常,重新计算出总相似度,待总相似度符合要求后,重新推送新的检索报告。
S211,当所述特征检索数据在所述数据文件表中的权重不大于第一预设阈值时,则在所述检索数据库中依次对所述基础检索数据和所述特征检索数据进行检索,以使所述检索数据库依次生成基础检索结果和特征检索结果;
在具体实施时,当特征检索数据在数据文件表中的权重不大于第一阈值(80%)时,意味着该信息检索任务需要根据基础检索数据和特征检索数据来完成检索,因此需要依次解析出该特征检索数据以及基础检索数据的关键字属性(若该信息检索任务的检索条件为文字和图像检索,则需要解析出该特征检索数据和基础检索数据的关键字属性和图像属性),利用关键字属性在检索数据库中检索,依次生成基础检索结果和特征检索结果。
S212,将所述基础检索结果和所述特征检索结果按预设标准进行组合形成组合检索结果,并判断所述组合检索结果是否构成完整数据;
S213,当所述组合检索结果构成完整数据时,将所述组合检索结果作为最终检索结果推送;
在具体实施时,根据检索任务的检索数据源信息和时间段信息生成跟踪编码;根据跟踪编码来判断组合检索结果的数据结构,若数据结构为完整数据,则意味着组合检索结果即为本次信息检索任务的最终检索结果。
S214,将所述检索结果经数据脱敏处理后,转换成对应的检索报告以及信息;
在具体实施时,将最终的检索结果中的相关数据信息(例如:用户标识)进行数据脱敏,以使数据变形,实现对隐私数据的可靠保护,转换成对应的检索报告以及信息,该相关数据在需要被利用时,需要进行解密等处理才可被识别。
S215,分别将所述检索报告和信息对应上传至所述标准数据库和所述检索数据库,以使所述标准数据库和所述检索数据库进行更新。
在具体实施时,将检索报告和信息对应上传至标准数据库和检索数据库,以使标准数据库和检索数据库进行更新,进而对信息检索任务进行有效的记录以及用户根据更新后的标准数据库和检索数据库来检索。
综上,本发明上述实施例当中的数据检索方法与实施例一相比,通过判断组合检索结果的数据完整性,避免出现检索错误,增加检索的精准度,并且利用每次的信息检索任务来更新标准数据库和检索数据库,进而使得标准数据库和检索数据库中的数据更加详细和精准,以提高检索的精确性。
实施例三
本发明另一方面还提出一种数据检索系统,请查阅图3,所示为本发明第三实施例中的数据检索系统,所述系统包括:
获取模块11,用于当接收到用户输入的信息检索任务时,获取所述信息检索任务的检索信息;
分析模块12,用于按照预设的关键信息分析逻辑对所述检索信息进行分析处理,得到对应的各项检索数据及检索条件;
第一处理模块13,用于在预设的标准数据库中查找出与各项所述检索条件对应的数据文件,并对所述数据文件按照预设的分表逻辑进行分表处理,得到对应的数据文件表;
计算模块14,用于将各项所述检索数据划分为基础检索数据以及特征检索数据,并分别计算出所述基础检索数据和所述特征检索数据在所述数据文件表中的权重;
第一检索模块15,用于当所述特征检索数据在所述数据文件表中的权重大于第一预设阈值时,则根据所述特征检索数据在预设的检索数据库中进行检索,以使所述检索数据库生成检索结果。
进一步的,所述第一检索模块15包括:
第一检索单元,用于解析出所述特征检索数据的关键字属性以及图像属性,并根据所述关键字属性在所述检索数据库中进行文本匹配,以得到对应的第一相似度以及文本检索结果;
第二检索单元,用于利用所述检索数据库对所述图像属性进行特征相似度匹配,以得到对应的第二相似度以及相似度检索结果;
计算单元,用于根据所述第一相似度和所述第二相似度计算出总相似度,并判断所述总相似度是否大于第二预设阈值;
处理单元,用于若所述总相似度大于第二预设阈值,则根据所述文本检索结果和所述相似度检索结果生成检索报告。
在一些可选实施例中,所述系统还包括:
第二处理模块,用于获取若干个专业平台提供的数据,并将所述数据按数据层次进行处理,得到对应的标准数据;
第三处理模块,用于根据预设的分词分表逻辑对所述标准数据进行分词处理,并根据分词处理后的标准数据构建标准数据库。
在一些可选实施例中,所述系统还包括:
第四处理模块,用于当所述特征检索数据在所述数据文件表中的权重不大于第一预设阈值时,则在所述检索数据库中依次对所述基础检索数据和所述特征检索数据进行检索,以使所述检索数据库依次生成基础检索结果和特征检索结果;
第二检索模块,用于将所述基础检索结果和所述特征检索结果按预设标准进行组合形成组合检索结果,并判断所述组合检索结果是否构成完整数据;
第五处理模块,用于当所述组合检索结果构成完整数据时,将所述组合检索结果作为最终检索结果推送。
在一些可选实施例中,所述系统还包括:
转换模块,用于将所述检索结果经数据脱敏处理后,转换成对应的检索报告以及信息;
更新模块,用于分别将所述检索报告和信息对应上传至所述标准数据库和所述检索数据库,以使所述标准数据库和所述检索数据库进行更新。
上述各模块、单元被执行时所实现的功能或操作步骤与上述方法实施例大体相同,在此不再赘述。
本发明实施例所提供的数据检索系统,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,系统实施例部分未提及之处,可参考前述方法实施例中相应内容。
实施例四
本发明还提出一种计算机设备,请参阅图4,所示为本发明第四实施例中的计算机设备,包括存储器10、处理器20以及存储在所述存储器10上并可在所述处理器20上运行的计算机程序30,所述处理器20执行所述计算机程序30时实现上述的数据检索方法。
其中,存储器10至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器10在一些实施例中可以是计算机设备的内部存储单元,例如该计算机设备的硬盘。存储器10在另一些实施例中也可以是外部存储装置,例如插接式硬盘,智能存储卡(Smart MediaCard, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,存储器10还可以既包括计算机设备的内部存储单元也包括外部存储装置。存储器10不仅可以用于存储安装于计算机设备的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
其中,处理器20在一些实施例中可以是电子控制单元 (Electronic ControlUnit,简称ECU,又称行车电脑)、中央处理器(Central Processing Unit, CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器10中存储的程序代码或处理数据,例如执行访问限制程序等。
需要指出的是,图4示出的结构并不构成对计算机设备的限定,在其它实施例当中,该计算机设备可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
本发明实施例还提出一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述的数据检索方法。
本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种数据检索方法,其特征在于,包括:
获取若干个专业平台提供的数据,并将所述数据按数据层次进行处理,得到对应的标准数据;
根据预设的分词分表逻辑对所述标准数据进行分词处理,并根据分词处理后的标准数据构建标准数据库;
当接收到用户输入的信息检索任务时,获取所述信息检索任务的检索信息;
按照预设的关键信息分析逻辑对所述检索信息进行分析处理,得到对应的各项检索数据及检索条件;
在所述标准数据库中查找出与各项所述检索条件对应的数据文件,并对所述数据文件按照预设的分表逻辑进行分表处理,得到对应的数据文件表;
将各项所述检索数据划分为基础检索数据以及特征检索数据,并分别计算出所述基础检索数据和所述特征检索数据在所述数据文件表中的权重;
当所述特征检索数据在所述数据文件表中的权重大于第一预设阈值时,则根据所述特征检索数据在预设的检索数据库中进行检索,以使所述检索数据库生成检索结果;
当所述特征检索数据在所述数据文件表中的权重不大于第一预设阈值时,则在所述检索数据库中依次对所述基础检索数据和所述特征检索数据进行检索,以使所述检索数据库依次生成基础检索结果和特征检索结果;
将所述基础检索结果和所述特征检索结果按预设标准进行组合形成组合检索结果,根据检索任务的检索数据源信息和时间段信息生成跟踪编码;根据跟踪编码来判断组合检索结果是否构成完整数据;
当所述组合检索结果构成完整数据时,将所述组合检索结果作为最终检索结果推送;
其中,将各项所述检索数据划分为基础检索数据以及特征检索数据的步骤包括:
根据各所述专业平台提供的数据构建数据集,并在数据集内建立一个或多个学习模型,将该信息检索任务解析成若干字段,并依次抓取包含各字段的领域分区;
当确认各字段的领域分区后,计算出各字段在该领域分区的数据集中的检索频次,若所有检索频次中存在大于预设检索频次,则将该大于预设检索频次的检索频次所对应的字段划分为基础检索字段,将小于预设检索频次的检索频次所对应的字段划分为特征检索字段。
2.根据权利要求1所述的数据检索方法,其特征在于,根据所述特征检索数据在预设的检索数据库中进行检索,以使所述检索数据库生成检索结果的步骤包括:
解析出所述特征检索数据的关键字属性以及图像属性,并根据所述关键字属性在所述检索数据库中进行文本匹配,以得到对应的第一相似度以及文本检索结果;
利用所述检索数据库对所述图像属性进行特征相似度匹配,以得到对应的第二相似度以及相似度检索结果;
根据所述第一相似度和所述第二相似度计算出总相似度,并判断所述总相似度是否大于第二预设阈值;
若所述总相似度大于第二预设阈值,则根据所述文本检索结果和所述相似度检索结果生成检索报告。
3.根据权利要求1所述的数据检索方法,其特征在于,所述方法还包括:
将所述检索结果经数据脱敏处理后,转换成对应的检索报告以及信息;
分别将所述检索报告和信息对应上传至所述标准数据库和所述检索数据库,以使所述标准数据库和所述检索数据库进行更新。
4.一种数据检索系统,其特征在于,包括:
第二处理模块,用于获取若干个专业平台提供的数据,并将所述数据按数据层次进行处理,得到对应的标准数据;
第三处理模块,用于根据预设的分词分表逻辑对所述标准数据进行分词处理,并根据分词处理后的标准数据构建标准数据库;
获取模块,用于当接收到用户输入的信息检索任务时,获取所述信息检索任务的检索信息;
分析模块,用于按照预设的关键信息分析逻辑对所述检索信息进行分析处理,得到对应的各项检索数据及检索条件;
第一处理模块,用于在所述标准数据库中查找出与各项所述检索条件对应的数据文件,并对所述数据文件按照预设的分表逻辑进行分表处理,得到对应的数据文件表;
计算模块,用于将各项所述检索数据划分为基础检索数据以及特征检索数据,并分别计算出所述基础检索数据和所述特征检索数据在所述数据文件表中的权重;
第一检索模块,用于当所述特征检索数据在所述数据文件表中的权重大于第一预设阈值时,则根据所述特征检索数据在预设的检索数据库中进行检索,以使所述检索数据库生成检索结果;
第四处理模块,用于当所述特征检索数据在所述数据文件表中的权重不大于第一预设阈值时,则在所述检索数据库中依次对所述基础检索数据和所述特征检索数据进行检索,以使所述检索数据库依次生成基础检索结果和特征检索结果;
第二检索模块,用于将所述基础检索结果和所述特征检索结果按预设标准进行组合形成组合检索结果,根据检索任务的检索数据源信息和时间段信息生成跟踪编码;根据跟踪编码来判断组合检索结果是否构成完整数据;
第五处理模块,用于当所述组合检索结果构成完整数据时,将所述组合检索结果作为最终检索结果推送;
其中,所述计算模块还用于根据各所述专业平台提供的数据构建数据集,并在数据集内建立一个或多个学习模型,将该信息检索任务解析成若干字段,并依次抓取包含各字段的领域分区;
当确认各字段的领域分区后,计算出各字段在该领域分区的数据集中的检索频次,若所有检索频次中存在大于预设检索频次,则将该大于预设检索频次的检索频次所对应的字段划分为基础检索字段,将小于预设检索频次的检索频次所对应的字段划分为特征检索字段。
5.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至3任一所述的数据检索方法。
6.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一所述的数据检索方法。
CN202210168978.3A 2022-02-24 2022-02-24 数据检索方法、系统、可读存储介质及计算机设备 Active CN114238588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210168978.3A CN114238588B (zh) 2022-02-24 2022-02-24 数据检索方法、系统、可读存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210168978.3A CN114238588B (zh) 2022-02-24 2022-02-24 数据检索方法、系统、可读存储介质及计算机设备

Publications (2)

Publication Number Publication Date
CN114238588A CN114238588A (zh) 2022-03-25
CN114238588B true CN114238588B (zh) 2022-06-17

Family

ID=80747934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210168978.3A Active CN114238588B (zh) 2022-02-24 2022-02-24 数据检索方法、系统、可读存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN114238588B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582852A (zh) * 2018-12-05 2019-04-05 中国银行股份有限公司 一种全文检索结果的排序方法及系统
CN112667701A (zh) * 2019-10-16 2021-04-16 北京航天长峰科技工业集团有限公司 一种政务大数据超级搜索方法
CN113868235A (zh) * 2021-09-29 2021-12-31 深圳市联银互通信息有限公司 一种基于大数据的信息检索分析系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1845104B (zh) * 2006-05-22 2012-04-25 赵开灏 信息智能检索加工的系统和方法
US20130124531A1 (en) * 2010-09-08 2013-05-16 Walter Bachtiger Systems for extracting relevant and frequent key words from texts and their presentation in an auto-complete function of a search service
CN103473327A (zh) * 2013-09-13 2013-12-25 广东图图搜网络科技有限公司 图像检索方法与系统
CN106777177A (zh) * 2016-12-22 2017-05-31 百度在线网络技术(北京)有限公司 检索方法和装置
EP3531303A1 (en) * 2018-02-27 2019-08-28 Micware Co., Ltd. Information retrieval apparatus, information retrieval system, information retrieval method, and program
CN108416019A (zh) * 2018-03-06 2018-08-17 王海泉 关联词调整方法及调整系统
CN113495984A (zh) * 2020-03-20 2021-10-12 华为技术有限公司 一种语句检索方法以及相关装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582852A (zh) * 2018-12-05 2019-04-05 中国银行股份有限公司 一种全文检索结果的排序方法及系统
CN112667701A (zh) * 2019-10-16 2021-04-16 北京航天长峰科技工业集团有限公司 一种政务大数据超级搜索方法
CN113868235A (zh) * 2021-09-29 2021-12-31 深圳市联银互通信息有限公司 一种基于大数据的信息检索分析系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Joint Learning of Distance Metric and Query Model for Posteriorgram-Based Keyword Search》;Batuhan Gündoğdu 等;《IEEE》;20171011;第1-11页 *
《一种语音识别中核心词快速模型优化方法》;杨维 等;《电子技术应用》;20190228;第9-11页 *

Also Published As

Publication number Publication date
CN114238588A (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
US11221832B2 (en) Pruning engine
CN107833603B (zh) 电子病历文档分类方法、装置、电子设备及存储介质
CN108108426B (zh) 自然语言提问的理解方法、装置及电子设备
US11397855B2 (en) Data standardization rules generation
CN110162786B (zh) 构建配置文件以及抽取结构化信息的方法、装置
US20160379011A1 (en) Anonymization apparatus, and program
CN110674360B (zh) 一种用于数据的溯源方法和系统
CN110598204B (zh) 基于知识图谱的实体识别数据增强方法及系统
CN111930962A (zh) 文献数据价值评估方法、装置、电子设备及存储介质
Pita et al. A Spark-based Workflow for Probabilistic Record Linkage of Healthcare Data.
CN113254354A (zh) 测试用例推荐方法、装置、可读存储介质及电子设备
CN108304381B (zh) 基于人工智能的实体建边方法、装置、设备及存储介质
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN111949798A (zh) 图谱的构建方法、装置、计算机设备和存储介质
CN107844531B (zh) 答案输出方法、装置和计算机设备
CN111785383A (zh) 数据处理方法及相关设备
CN111506595A (zh) 一种数据查询方法、系统及相关设备
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN113065947A (zh) 数据处理方法、装置、设备及存储介质
CN114238588B (zh) 数据检索方法、系统、可读存储介质及计算机设备
CN112395401A (zh) 自适应负样本对采样方法、装置、电子设备及存储介质
CN110263083B (zh) 知识图谱的处理方法、装置、设备和介质
CN116097242A (zh) 知识图谱构建方法和装置
CN116881430A (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN109710626B (zh) 数据入库管理方法、装置、电子设备,及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant