CN117171400A - 数据搜索方法、设备以及存储介质 - Google Patents
数据搜索方法、设备以及存储介质 Download PDFInfo
- Publication number
- CN117171400A CN117171400A CN202311241312.7A CN202311241312A CN117171400A CN 117171400 A CN117171400 A CN 117171400A CN 202311241312 A CN202311241312 A CN 202311241312A CN 117171400 A CN117171400 A CN 117171400A
- Authority
- CN
- China
- Prior art keywords
- recall
- data
- search
- user
- assets
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 238000012545 processing Methods 0.000 claims description 92
- 239000013598 vector Substances 0.000 claims description 61
- 230000011218 segmentation Effects 0.000 claims description 51
- 239000008280 blood Substances 0.000 claims description 35
- 210000004369 blood Anatomy 0.000 claims description 35
- 238000007781 pre-processing Methods 0.000 claims description 25
- 238000011144 upstream manufacturing Methods 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims 2
- 230000002829 reductive effect Effects 0.000 description 11
- 238000013475 authorization Methods 0.000 description 8
- 238000001914 filtration Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003754 machining Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据搜索方法、设备以及存储介质,涉及信息检索技术领域,其方法包括:获取用户的搜索内容;基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果,所述搜索策略是结合若干个维度设置得到。本发明能够满足特定使用场景下的用户需求。
Description
技术领域
本发明涉及信息检索技术领域,尤其涉及一种数据搜索方法、设备以及存储介质。
背景技术
数据资产搜索为人类提供了一种便捷的方式来获取信息并解决各种问题。通过数据资产搜索,人们可以访问大量的数据资源,包括企业内部和外部的数据、学术研究中的论文和数据集、市场调研的报告与数据、政府发布的公开数据等等。这些数据资源可以帮助人们获得深刻的洞见,有效地支持人们在各种领域中进行决策制定、研究分析、市场调研等方面的工作。
目前,数据资产搜索场景通常采用将用户输入内容和数据资产名称进行匹配的方式召回结果,然后将结果返回给用户。这类策略通常只考虑了搜索内容与数据资产候选集合之间文本匹配的单一维度,对于大众化的搜索场景,这类策略基本上能够满足用户的搜索需求。然而在特定的使用场景下,如公司员工搜索公司数据仓库中的数据资产场景等,单单考虑文本匹配维度不够全面,上述搜索策略难以满足用户需求。
发明内容
本发明的主要目的在于提供一种数据搜索方法、设备以及存储介质,旨在解决目前数据资产搜索方法仅考虑文本匹配维度,无法满足特定使用场景下的用户需求的问题。
为实现上述目的,本发明提供一种数据搜索方法,所述方法包括:
获取用户的搜索内容;
基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果,所述搜索策略是结合若干个维度设置得到。
可选地,所述基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果的步骤之后包括:
基于预设的权重分配策略计算所述若干个召回结果的数据资产得分值;
基于所述若干个召回结果的数据资产得分值对所述若干个召回结果进行排序,向所述用户返回排序后的若干个召回结果。
可选地,所述获取用户的搜索内容的步骤之后包括:
对所述搜索内容进行预处理,得到处理文本;
所述基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果,所述搜索策略是结合若干个维度设置得到的步骤包括:
基于所述预设的搜索策略对与所述处理文本对应的数据资产进行召回,得到所述若干个召回结果,所述搜索策略是结合所述若干个维度设置得到。
可选地,所述对所述搜索内容进行预处理,得到处理文本的步骤包括:
判断所述搜索内容是否包含空格;
若所述搜索内容不包含空格,则对所述搜索内容进行分词处理,得到所述处理文本;
若所述搜索内容包含所述空格,则基于所述空格将所述搜索内容划分成多个关键词;
将所述关键词进行分词处理,将所述关键词和进行分词处理后的关键词作为所述处理文本。
可选地,所述基于预设的搜索策略对与所述处理文本对应的数据资产进行召回,得到若干个召回结果的步骤包括:
将所述处理文本与各数据资产的名称进行匹配,得到第一召回结果;
和/或,判断所述处理文本是否包含中文名,若所述处理文本包含中文名,则对所述处理文本和各所述数据资产进行语义相似度检索,得到第二召回结果;
和/或,对所述用户的部门同事的历史浏览资产进行召回,得到第三召回结果;
和/或,对与所述用户的历史浏览资产有血缘关系的数据资产进行召回,得到第四召回结果;
和/或,对浏览量大于预设浏览量阈值和/或授权量大于预设授权量阈值的数据资产进行召回,得到第五召回结果。
可选地,所述对所述处理文本和各所述数据资产进行语义相似度检索,得到第二召回结果的步骤包括:
将所述处理文本转换成处理文本向量;
将各所述数据资产的名称转换成各所述数据资产的名称向量;
计算所述处理文本向量与各所述数据资产的名称向量的余弦相似度,得到各所述数据资产的第一相似度;
计算得到所述处理文本向量与各所述数据资产中各字段的相似度;
将所述处理文本向量与各所述数据资产中各字段的相似度的最大值作为各所述数据资产的第二相似度;
将所述数据资产的所述第一相似度和所述第二相似度进行比较,取较大值作为所述数据资产的最终相似度;
对各所述数据资产的所述最终相似度进行排序,得到排序结果;
基于预设的排序结果选取策略对所述排序结果进行选取并召回,得到所述第二召回结果。
可选地,所述对所述用户的部门同事的历史浏览资产进行召回,得到第三召回结果的步骤包括:
获取所述用户的员工ID;
基于所述用户的员工ID查询得到所述用户的部门同事的员工ID;
基于所述部门同事的员工ID查询得到所述部门同事的历史浏览资产,召回得到所述第三召回结果。
可选地,所述对与所述用户的历史浏览资产有血缘关系的数据资产进行召回,得到第四召回结果的步骤包括:
获取所述用户的员工ID;
基于所述用户的员工ID查找得到所述用户的历史浏览资产;
基于所述用户的历史浏览资产查找所述用户的历史浏览资产的血缘关系上下游资产;
将所述血缘关系上下游资产进行召回,得到所述第四召回结果。
本发明实施例还提出一种设备,所述设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据搜索程序,所述数据搜索程序被所述处理器执行时实现如上所述的数据搜索方法。
本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有数据搜索程序,所述数据搜索程序被处理器执行时实现如上所述的数据搜索方法。
本发明实施例提出的数据搜索方法、设备以及存储介质,获取用户的搜索内容;基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果,所述搜索策略是结合若干个维度设置得到。本发明实施例基于预设的结合若干个维度设置得到的搜索策略对搜索内容对应的数据资产进行召回,得到召回结果,通过结合多个维度优化召回内容,能够让召回结果更加符合用户意图,满足特定使用场景下的用户需求。
附图说明
图1为本发明数据搜索装置所属设备的功能模块示意图;
图2为本发明数据搜索方法一示例性实施例的流程示意图;
图3为本发明数据搜索方法另一示例性实施例的流程示意图;
图4为本发明数据搜索方法另一示例性实施例的流程示意图;
图5为本发明数据搜索方法另一示例性实施例的流程示意图;
图6为本发明数据搜索方法另一示例性实施例的流程示意图;
图7为本发明数据搜索方法另一示例性实施例的流程示意图;
图8为本发明数据搜索方法另一示例性实施例的流程示意图;
图9为本发明数据搜索方法另一示例性实施例的流程示意图;
图10为本发明实施例进行数据搜索的整体流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:获取用户的搜索内容;基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果,所述搜索策略是结合若干个维度设置得到。本发明实施例基于预设的结合若干个维度设置得到的搜索策略对搜索内容对应的数据资产进行召回,得到召回结果,通过结合多个维度优化召回内容,能够让召回结果更加符合用户意图,满足特定使用场景下的用户需求。
本发明实施例涉及的技术术语:
数据资产:数据资产是指组织或企业拥有、创造、存储和管理的数据资源,是一种重要的商业资产和竞争优势。
召回:召回是指在一组相关文本中,有多少个文本与用户的搜索请求匹配。简单来说,召回率就是检索到的与用户搜索请求相关的文本数量占全部相关文本数量的比例。
语义相似度检索:语义相似度检索是指通过理解文本的语义含义来进行相似性匹配。在这种情况下,通常会利用自然语言处理技术,如词向量模型(如Word2Vec、BERT等)来表示文本的语义信息,然后计算文本之间的相似度。并且,语义相似度检索考虑了词语的语义含义和上下文信息。
余弦相似度:余弦相似度是一种用于度量两个向量之间相似程度的方法,它通过计算两个向量在多维空间中的夹角余弦值来衡量它们之间的相关性。它可以用来比较任意两个向量之间的相似性,常被应用于信息检索、数据挖掘、推荐系统和自然语言处理等领域。
词向量平均得到句向量:词向量平均得到句向量是一种简单而常见的文本向量表示方法。在这种方法中,将一个句子中的每个词的词向量相加,并取平均值作为整个句子的表示向量。
血缘关系:在数据管理和使用中,血缘关系通常指的是不同数据资产之间的关联或联系。这些关联或联系可以是因为它们共享相同的数据源、共同被使用于同一项目或任务中、通过转换或加工等操作相互关联,或者是因为它们在某个过程中相互依存等。
本发明实施例考虑到:目前,数据资产搜索场景通常采用将用户输入内容和数据资产名称进行匹配的方式召回结果,然后将结果返回给用户,该过程也会分别对用户输入内容及数据资产名称进行预处理,如分词,删除停顿词等操作,将预处理之后的内容根据一定的规则计算出搜索内容和候选资产的相似度。这类策略通常只考虑了搜索内容与数据资产候选集合之间文本匹配的单一维度,对于大众化的搜索场景,这类策略基本上能够满足用户的搜索需求。然而在特定的使用场景下,如公司员工搜索公司数据仓库中的数据资产场景等,单单考虑文本匹配维度不够全面,上述搜索策略难以满足用户需求。
由此,本发明实施例提出解决方案,基于预设的结合若干个维度设置得到的搜索策略对搜索内容对应的数据资产进行召回,得到召回结果,通过结合多个维度优化召回内容,能够让召回结果更加符合用户意图,满足特定使用场景下的用户需求。
具体地,参照图1,图1是本发明数据搜索装置所属设备的功能模块示意图。该数据搜索装置可以为独立于设备的、能够进行数据处理的装置,其可以通过硬件或软件的形式承载于设备上。该设备可以为手机、平板电脑等具有数据处理功能的智能移动终端,还可以为具有数据处理功能的固定设备或服务器等。
在本实施例中,该数据搜索装置所属设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
存储器130中存储有操作系统以及数据搜索程序;输出模块110可为显示屏等。通信模块140可以包括WIFI模块以及蓝牙模块等,通过通信模块140与外部设备或服务器进行通信。
其中,存储器130中的数据搜索程序被处理器执行时实现以下步骤:
获取用户的搜索内容;
基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果,所述搜索策略是结合若干个维度设置得到。
进一步地,存储器130中的数据搜索程序被处理器执行时还实现以下步骤:
基于预设的权重分配策略计算所述若干个召回结果的数据资产得分值;
基于所述若干个召回结果的数据资产得分值对所述若干个召回结果进行排序,向所述用户返回排序后的若干个召回结果。
进一步地,存储器130中的数据搜索程序被处理器执行时还实现以下步骤:
对所述搜索内容进行预处理,得到处理文本;
基于所述预设的搜索策略对与所述处理文本对应的数据资产进行召回,得到所述若干个召回结果,所述搜索策略是结合所述若干个维度设置得到。
进一步地,存储器130中的数据搜索程序被处理器执行时还实现以下步骤:
判断所述搜索内容是否包含空格;
若所述搜索内容不包含空格,则对所述搜索内容进行分词处理,得到所述处理文本;
若所述搜索内容包含所述空格,则基于所述空格将所述搜索内容划分成多个关键词;
将所述关键词进行分词处理,将所述关键词和进行分词处理后的关键词作为所述处理文本。
进一步地,存储器130中的数据搜索程序被处理器执行时还实现以下步骤:
将所述处理文本与各数据资产的名称进行匹配,得到第一召回结果;
和/或,判断所述处理文本是否包含中文名,若所述处理文本包含中文名,则对所述处理文本和各所述数据资产进行语义相似度检索,得到第二召回结果;
和/或,对所述用户的部门同事的历史浏览资产进行召回,得到第三召回结果;
和/或,对与所述用户的历史浏览资产有血缘关系的数据资产进行召回,得到第四召回结果;
和/或,对浏览量大于预设浏览量阈值和/或授权量大于预设授权量阈值的数据资产进行召回,得到第五召回结果。
进一步地,存储器130中的数据搜索程序被处理器执行时还实现以下步骤:
将所述处理文本转换成处理文本向量;
将各所述数据资产的名称转换成各所述数据资产的名称向量;
计算所述处理文本向量与各所述数据资产的名称向量的余弦相似度,得到各所述数据资产的第一相似度;
计算得到所述处理文本向量与各所述数据资产中各字段的相似度;
将所述处理文本向量与各所述数据资产中各字段的相似度的最大值作为各所述数据资产的第二相似度;
将所述数据资产的所述第一相似度和所述第二相似度进行比较,取较大值作为所述数据资产的最终相似度;
对各所述数据资产的所述最终相似度进行排序,得到排序结果;
基于预设的排序结果选取策略对所述排序结果进行选取并召回,得到所述第二召回结果。
进一步地,存储器130中的数据搜索程序被处理器执行时还实现以下步骤:
获取所述用户的员工ID;
基于所述用户的员工ID查询得到所述用户的部门同事的员工ID;
基于所述部门同事的员工ID查询得到所述部门同事的历史浏览资产,召回得到所述第三召回结果。
进一步地,存储器130中的数据搜索程序被处理器执行时还实现以下步骤:
获取所述用户的员工ID;
基于所述用户的员工ID查找得到所述用户的历史浏览资产;
基于所述用户的历史浏览资产查找所述用户的历史浏览资产的血缘关系上下游资产;
将所述血缘关系上下游资产进行召回,得到所述第四召回结果。
本实施例通过上述方案,具体通过获取用户的搜索内容;基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果,所述搜索策略是结合若干个维度设置得到。本发明实施例基于预设的结合若干个维度设置得到的搜索策略对搜索内容对应的数据资产进行召回,得到召回结果,通过结合多个维度优化召回内容,能够让召回结果更加符合用户意图,满足特定使用场景下的用户需求。
基于上述设备架构但不限于上述架构,提出本发明方法实施例。
本实施例方法的执行主体可以是一种数据搜索装置,该数据搜索装置可以为独立于设备的、能够进行数据处理的装置,其可以通过硬件或软件的形式承载于设备上。
参照图2,图2为本发明数据搜索方法一示例性实施例的流程示意图。所述数据搜索方法包括:
步骤S10,获取用户的搜索内容。
其中,作为一种实施方式,用户可以在交互页面的输入框中输入搜索内容,然后,本发明数据搜索方法获取用户的搜索内容。
步骤S30,基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果,所述搜索策略是结合若干个维度设置得到。
其中,针对用户输入的搜索内容,基于预设的搜索策略搜索得到搜索内容对应的数据资产,然后将搜索内容对应的数据资产进行召回,得到若干个召回结果。
具体地,作为一种实施方式,以下列举几种搜索策略:
1、时间范围策略:该策略根据用户指定的时间范围,在数据资产中筛选符合时间条件的资产,例如按照创建时间或发布时间进行筛选。
2、地理位置策略:该策略基于地理位置信息,在数据资产中进行地理位置匹配,找到与用户指定位置相关的资产。这可以用于根据地理位置进行搜索和筛选,例如搜索特定城市或附近的资产。
3、层级结构策略:该策略在具有层级结构的数据资产中,根据用户选择的层级关系,进行资产的逐级搜索与召回。比如在组织结构中按上下级关系搜索或从整体到细分的搜索。
4、标签过滤策略:该策略根据预先定义的标签或属性,在数据资产中进行标签匹配,筛选出符合用户要求的资产。这可以用于对数据资产进行分类、标注和过滤。
5、过滤策略:该策略根据指定过滤条件,在召回结果中进行过滤,以提供更精准的搜索结果。
6、文本匹配策略:通过将用户输入的搜索文本内容及对输入的文本按照一定规则分词之后,分别与数据资产名称匹配的方式进行召回。
7、语义相似度策略:若搜索内容中含有中文名,则进行语义相似度检索召回。
8、协同过滤策略:对用户部门同事的历史浏览资产进行召回。
9、血缘推荐策略:对用户历史浏览资产有血缘关系的上下游资产进行召回。
10、热门推荐策略:结合数据资产的浏览量、访问量、授权量进行召回。
需要说明的是,预设的搜索策略不仅限于上述列举的几种搜索策略,还可以根据业务需求和用户习惯对搜索策略进行设置。
其中,可以根据业务需求和实际情况选择一种或多种搜索策略对与搜索内容对应的数据资产进行召回。
其中,每一种搜索策略对应一个召回结果。
进一步地,作为一种实施方式,在得到若干个召回结果之后,可以基于预设的权重分配策略计算所述若干个召回结果的数据资产得分值。
然后,基于所述若干个召回结果的数据资产得分值对所述若干个召回结果进行排序,向所述用户返回排序后的若干个召回结果。
本实施例通过上述方案,通过获取用户的搜索内容;基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果,所述搜索策略是结合若干个维度设置得到。本发明实施例基于预设的结合若干个维度设置得到的搜索策略对搜索内容对应的数据资产进行召回,得到召回结果,通过结合多个维度优化召回内容,能够让召回结果更加符合用户意图,满足特定使用场景下的用户需求。
参照图3,图3为本发明数据搜索方法另一示例性实施例的流程示意图。
基于上述图2所示的实施例,所述步骤S30,基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果之后包括:
步骤S40,基于预设的权重分配策略计算所述若干个召回结果的数据资产得分值。
其中,针对不同维度的搜索策略分配不同的权重,对不同维度的搜索策略得到的不同召回结果进行数据资产得分值计算。
然后,根据数据资产得分值对不同召回结果进行排序,比如从大到小进行排序,返回给用户。
可选地,可以针对用户的反馈灵活调整不同维度的搜索策略的权重,由此使得用户可以优先浏览用户感兴趣的召回结果,满足个性化搜索需求,优化用户体验。例如,若用户侧重于搜索内容直接与数据资产名称匹配的情况,那么可以适当增大文本匹配策略的权重;若用户侧重于搜索内容与数据资产名称的语义相似度情况,那么可以适当增大语义相似度策略的权重。
具体地,假设有5种搜索策略,对应5个召回结果,5个召回结果的数据资产得分值之和可以表示如下:
score=d1+d2+d3+d4+d5
步骤S50,基于所述若干个召回结果的数据资产得分值对所述若干个召回结果进行排序,向所述用户返回排序后的若干个召回结果。
其中,基于不同维度的搜索策略得到的不同召回结果会全部对用户显示,针对不同维度的搜索策略分配不同的权重使得不同召回结果的显示顺序不同。
本实施例通过上述方案,通过获取用户的搜索内容;基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果,所述搜索策略是结合若干个维度设置得到。其中,基于预设的权重分配策略计算所述若干个召回结果的数据资产得分值;基于所述若干个召回结果的数据资产得分值对所述若干个召回结果进行排序,向所述用户返回排序后的若干个召回结果。
本发明实施例基于预设的结合若干个维度设置得到的搜索策略对搜索内容对应的数据资产进行召回,得到召回结果,通过结合多个维度优化召回内容,能够让召回结果更加符合用户意图,满足特定使用场景下的用户需求。其中,本发明实施例通基于预设的权重分配策略计算若干个召回结果的数据资产得分值,然后基于若干个召回结果的数据资产得分值对若干个召回结果进行排序,可以针对用户反馈,灵活地设置权重分配策略以调整不同维度得到的召回结果的权重,由此使得用户可以优先浏览用户感兴趣的召回结果,满足个性化搜索需求,优化用户体验。
参照图4,图4为本发明数据搜索方法另一示例性实施例的流程示意图。
基于上述图2所示的实施例,所述步骤S10,获取用户的搜索内容之后包括:
步骤S20,对所述搜索内容进行预处理,得到处理文本。
其中,对搜索内容进行预处理可以减少干扰和噪音,从而提高召回结果的准确性;并且通过对搜索内容进行预处理,可以对搜索内容进行简化,去除冗余信息和复杂结构,从而降低搜索的复杂度,提高搜索效率。
具体地,作为一种实施方式,以下列举几种对搜索内容进行预处理的方式:
1、分词:根据用户搜索习惯,在搜索内容含有多个关键词时,一般会用空格分隔,所以将空格作为一个重要的分隔标志。判断搜索内容是否包含空格,述搜索内容包含空格,则基于空格将搜索内容划分成多个关键词,然后将关键词进一步进行分词处理,如将基金固收分词,变为基金和固收两个词,将关键词和进行分词处理后的关键词作为处理文本;若搜索内容不包含空格,则对搜索内容进行分词处理,得到处理文本。
2、去除停用词:停用词是指在搜索中没有实际含义,且频繁出现的常见词语,如“的”,“是”,“在”等。去除这些停用词可以减少干扰,并提高搜索结果的质量。
3、缩写展开:如果搜索内容中包含缩写词或简写形式,可以将其展开为完整的词语,以增加匹配的准确性。
4、删除特殊字符:删除搜索内容中的特殊字符,如标点符号、特殊符号或表情符号,以避免对搜索结果造成干扰。
5、标准化和规范化:对于特殊领域或特定需求的搜索,可以进行特定的标准化和规范化处理,如将日期、时间、单位等进行统一格式化。
需要说明的是,对搜索内容进行预处理的方法并不仅限于上述列举的几种方法,有助于清理和规范搜索内容,提高匹配效果和搜索准确性的搜索内容处理方法都可以是对搜索内容进行预处理的方法。
其中,可以选择一种或多种预处理方法对搜索内容进行预处理。
参照图5,图5为本发明数据搜索方法另一示例性实施例的流程示意图。
基于上述图2所示的实施例,所述步骤S30,基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果,所述搜索策略是结合若干个维度设置得到的包括:
步骤S31,基于所述预设的搜索策略对与所述处理文本对应的数据资产进行召回,得到所述若干个召回结果,所述搜索策略是结合所述若干个维度设置得到。
其中,针对预处理后得到的处理文本,基于预设的搜索策略搜索得到处理文本对应的数据资产,然后将处理文本对应的数据资产进行召回,得到若干个召回结果。
本实施例通过上述方案,通过获取用户的搜索内容;基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果,所述搜索策略是结合若干个维度设置得到。其中,对所述搜索内容进行预处理,得到处理文本;基于所述预设的搜索策略对与所述处理文本对应的数据资产进行召回,得到所述若干个召回结果,所述搜索策略是结合所述若干个维度设置得到。
本发明实施例基于预设的结合若干个维度设置得到的搜索策略对搜索内容对应的数据资产进行召回,得到召回结果,通过结合多个维度优化召回内容,能够让召回结果更加符合用户意图,满足特定使用场景下的用户需求。其中,本发明实施例通过对搜索内容进行预处理,可以减少干扰和噪音,从而提高召回结果的准确性;并且通过对搜索内容进行预处理,可以对搜索内容进行简化,去除冗余信息和复杂结构,从而降低搜索的复杂度,提高搜索效率。
参照图6,图6为本发明数据搜索方法另一示例性实施例的流程示意图。
基于上述图4、5所示的实施例,所述步骤S20,对所述搜索内容进行预处理,得到处理文本包括:
步骤S21,判断所述搜索内容是否包含空格。
其中,根据用户搜索习惯,在搜索内容含有多个关键词时,一般会用空格分隔,所以将空格作为一个重要的分隔标志。
步骤S22,若所述搜索内容不包含空格,则对所述搜索内容进行分词处理,得到所述处理文本。
其中,若所述搜索内容不包含空格,则直接对所述搜索内容进行分词处理。
步骤S23,若所述搜索内容包含所述空格,则基于所述空格将所述搜索内容划分成多个关键词。
步骤S24,将所述关键词进行分词处理,将所述关键词和进行分词处理后的关键词作为所述处理文本。
其中,对用户输入的搜索内容按照空格进行划分之后,划分之后的内容还可以进一步进行分词,如将基金固收分词,变为基金和固收两个词。
其中,通过将搜索内容进行分词处理可以将长字符串切分为更具代表性的词语,从而更精确地匹配相关的数据资产,提高搜索结果的准确性。并且,对于包含空格的搜索内容,通过基于空格进行划分,并对划分后的关键词进行分词处理,可以将其转化为更易理解和处理的处理文本,从而能够提供更具灵活性的搜索结果。
进一步地,在得到处理文本之后,可以将处理文本和数据资产名称进行匹配,当数据资产名称中包含处理文本中的任意词时,即进行召回。
本实施例通过上述方案,通过获取用户的搜索内容;基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果,所述搜索策略是结合若干个维度设置得到。其中,对所述搜索内容进行预处理,得到处理文本;基于所述预设的搜索策略对与所述处理文本对应的数据资产进行召回,得到所述若干个召回结果,所述搜索策略是结合所述若干个维度设置得到。其中,判断所述搜索内容是否包含空格;若所述搜索内容不包含空格,则对所述搜索内容进行分词处理,得到所述处理文本;若所述搜索内容包含所述空格,则基于所述空格将所述搜索内容划分成多个关键词;将所述关键词进行分词处理,将所述关键词和进行分词处理后的关键词作为所述处理文本。
本发明实施例基于预设的结合若干个维度设置得到的搜索策略对搜索内容对应的数据资产进行召回,得到召回结果,通过结合多个维度优化召回内容,能够让召回结果更加符合用户意图,满足特定使用场景下的用户需求。其中,本发明实施例通过对搜索内容进行预处理,可以减少干扰和噪音,从而提高召回结果的准确性;并且通过对搜索内容进行预处理,可以对搜索内容进行简化,去除冗余信息和复杂结构,从而降低搜索的复杂度,提高搜索效率。其中,本发明实施例通过将搜索内容进行分词处理可以将长字符串切分为更具代表性的词语,从而更精确地匹配相关的数据资产,提高搜索结果的准确性。并且,对于包含空格的搜索内容,通过基于空格进行划分,并对划分后的关键词进行分词处理,可以将其转化为更易理解和处理的处理文本,从而能够提供更具灵活性的搜索结果。
基于上述图6所示的实施例,所述步骤S31,基于预设的搜索策略对与所述处理文本对应的数据资产进行召回,得到若干个召回结果包括:
步骤S311,将所述处理文本与各数据资产的名称进行匹配,得到第一召回结果。
具体地,作为一种实施方式,可以在判断搜索内容是否包含空格的时候,将处理文本与各数据资产的名称进行匹配,得到第一召回结果。
其中,若所述搜索内容不包含空格,则对所述搜索内容进行分词处理,得到所述处理文本,将处理文本与各数据资产的名称进行匹配,如果某一个数据资产的名称包含处理文本中的任一关键词,则召回该数据资产。
其中,若所述搜索内容包含所述空格,则基于所述空格将所述搜索内容划分成多个关键词,然后,将多个关键词与各数据资产的名称进行匹配,如果某一个数据资产的名称包含任一关键词,则召回该数据资产。
然后,将所述关键词进行分词处理,将所述关键词和进行分词处理后的关键词作为所述处理文本,再将处理文本与各数据资产的名称进行匹配,如果某一个数据资产的名称包含处理文本中的任一关键词或者任一进行分词处理后的关键词,则召回该数据资产。
具体地,以下通过举例来阐述如何将所述处理文本与各数据资产的名称进行匹配,得到第一召回结果:
首先,对搜索内容按空格切分后得到多个关键词,对每一个关键词,若数据资产名直接包含该关键词,计算该关键词分词后的单词个数,作为指标1,记为k1。
若数据资产的其他信息(如字段名、描述等)直接包含该关键词,计算该关键词分词后的单词个数,作为指标2,记为k2(上一次计算过的关键词这里不再被计算)。
若以上指标1和2都为零,说明关键词没有在资产信息中直接出现,需要对该关键词进一步分词,关键词分词后得到多个单词,计算数据资产名包含的单词个数,作为指标3,记为k3,计算数据资产的其他信息包含的单词个数,作为指标4,记为k4(上一次计算过的单词这里不再被计算),以上四个指标的权重,从上往下依次递减,累加计算出文本直接匹配该维度下的得分值d1,d1可以表示如下:
d1=k1+k2+k3+k4
步骤S312,和/或,判断所述处理文本是否包含中文名,若所述处理文本包含中文名,则对所述处理文本和各所述数据资产进行语义相似度检索,得到第二召回结果。
其中,作为一种实施方式,首先,将所述处理文本转换成处理文本向量。
然后,将各所述数据资产的名称转换成各所述数据资产的名称向量。
然后,计算所述处理文本向量与各所述数据资产的名称向量的余弦相似度,得到各所述数据资产的第一相似度。
然后,计算得到所述处理文本向量与各所述数据资产中各字段的相似度。
然后,将所述处理文本向量与各所述数据资产中各字段的相似度的最大值作为各所述数据资产的第二相似度。
然后,将所述数据资产的所述第一相似度和所述第二相似度进行比较,取较大值作为所述数据资产的最终相似度。
然后,对各所述数据资产的所述最终相似度进行排序,得到排序结果。
最后,基于预设的排序结果选取策略对所述排序结果进行选取并召回,得到所述第二召回结果。
步骤S313,和/或,对所述用户的部门同事的历史浏览资产进行召回,得到第三召回结果。
其中,部门同事的历史浏览资产即为部门同事曾经浏览过的数据资产。
其中,同部门的同事之间的业务关联性较强,用户的目标数据资产会以较大的概率也被部门的其他同事使用浏览过,通过部门同事历史浏览对搜索结果进行召回也能在一定程度上优化召回结果。
其中,作为一种实施方式,首先,获取所述用户的员工ID。
然后,基于所述用户的员工ID查询得到所述用户的部门同事的员工ID。
最后,基于所述部门同事的员工ID查询得到所述部门同事的历史浏览资产,召回得到所述第三召回结果。
步骤S314,和/或,对与所述用户的历史浏览资产有血缘关系的数据资产进行召回,得到第四召回结果。
其中,与所述用户的历史浏览资产有血缘关系的数据资产即为与用户的历史浏览资产有关联或联系的数据资产。这些关联或联系可以是因为它们共享相同的数据源、共同被使用于同一项目或任务中、通过转换或加工等操作相互关联,或者是因为它们在某个过程中相互依存等。
其中,数据资产名称繁多且复杂,且数据资产的命名跟项目名称及个人命名习惯有很大相关性,导致数据资产名称很难被用户完整记下,通过结合用户历史浏览资产的相关性,可以减轻用户记忆的负担,使其更容易找到并重新访问之前浏览过的相关资产。并且有些数据资产比较重要,用户在不同的项目中都会使用到,故会存在同一个数据资产被用户反复搜索的情况,此外有血缘关系的数据资产关联性较强,所以对用户历史浏览及有血缘关系的资产进行召回,达到优化召回结果的目的。
其中,作为一种实施方式,首先,获取所述用户的员工ID。
然后,基于所述用户的员工ID查找得到所述用户的历史浏览资产。
然后,基于所述用户的历史浏览资产查找所述用户的历史浏览资产的血缘关系上下游资产。
最后,将所述血缘关系上下游资产进行召回,得到所述第四召回结果。
步骤S315,和/或,对浏览量大于预设浏览量阈值和/或授权量大于预设授权量阈值的数据资产进行召回,得到第五召回结果。
具体地,以下通过举例阐述如何得到第五召回结果:
当数据资产浏览量,授权量数值越大说明该资产被越多的人搜索访问,往往也比较重要,故对该部分内容进行召回,其中v是浏览量,a是授权量,可以列出以下等式:
d5=log(v+a+1);
需要说明的是,本实施例不对上述列举的使用五种搜索策略得到五种召回结果的顺序进行限定。
此外,通过从文本匹配,文本相似度,同部门同事浏览,用户历史搜索内容五个维度出发,能够增加所召回结果的覆盖面,提高召回率,这有助于用户找到更多相关的数据资产。还能够优化召回内容,达到让搜索结果更加符合用户意图的目的。
本实施例通过上述方案,通过获取用户的搜索内容;基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果,所述搜索策略是结合若干个维度设置得到。其中,对所述搜索内容进行预处理,得到处理文本;基于所述预设的搜索策略对与所述处理文本对应的数据资产进行召回,得到所述若干个召回结果,所述搜索策略是结合所述若干个维度设置得到。其中,判断所述搜索内容是否包含空格;若所述搜索内容不包含空格,则对所述搜索内容进行分词处理,得到所述处理文本;若所述搜索内容包含所述空格,则基于所述空格将所述搜索内容划分成多个关键词;将所述关键词进行分词处理,将所述关键词和进行分词处理后的关键词作为所述处理文本。其中,将所述处理文本与各数据资产的名称进行匹配,得到第一召回结果;和/或,判断所述处理文本是否包含中文名,若所述处理文本包含中文名,则对所述处理文本和各所述数据资产进行语义相似度检索,得到第二召回结果;和/或,对所述用户的部门同事的历史浏览资产进行召回,得到第三召回结果;和/或,对与所述用户的历史浏览资产有血缘关系的数据资产进行召回,得到第四召回结果;和/或,对浏览量大于预设浏览量阈值和/或授权量大于预设授权量阈值的数据资产进行召回,得到第五召回结果。
本发明实施例基于预设的结合若干个维度设置得到的搜索策略对搜索内容对应的数据资产进行召回,得到召回结果,通过结合多个维度优化召回内容,能够让召回结果更加符合用户意图,满足特定使用场景下的用户需求。其中,本发明实施例通过对搜索内容进行预处理,可以减少干扰和噪音,从而提高召回结果的准确性;并且通过对搜索内容进行预处理,可以对搜索内容进行简化,去除冗余信息和复杂结构,从而降低搜索的复杂度,提高搜索效率。其中,本发明实施例通过将搜索内容进行分词处理可以将长字符串切分为更具代表性的词语,从而更精确地匹配相关的数据资产,提高搜索结果的准确性。并且,对于包含空格的搜索内容,通过基于空格进行划分,并对划分后的关键词进行分词处理,可以将其转化为更易理解和处理的处理文本,从而能够提供更具灵活性的搜索结果。其中,本发明实施例通过从文本匹配,文本相似度,同部门同事浏览,用户历史搜索内容五个维度出发,能够增加所召回结果的覆盖面,提高召回率,这有助于用户找到更多相关的数据资产。还能够优化召回内容,达到让搜索结果更加符合用户意图的目的。此外,数据资产浏览量、授权量数值越大,说明该资产被越多的人搜索访问,该资产属于重要资产,故对该部分数据资产进行召回,能够优化召回结果。
参照图7,图7为本发明数据搜索方法另一示例性实施例的流程示意图。
作为一种实施例,所述步骤S312,和/或,判断所述处理文本是否包含中文名,若所述处理文本包含中文名,则对所述处理文本和各所述数据资产进行语义相似度检索,得到第二召回结果包括:
步骤S3121,将所述处理文本转换成处理文本向量。
步骤S3122,将各所述数据资产的名称转换成各所述数据资产的名称向量。
其中,对于各数据资产的中文名称,可以按照词向量平均得到句向量的方法,计算各数据资产的名称向量。
步骤S3123,计算所述处理文本向量与各所述数据资产的名称向量的余弦相似度,得到各所述数据资产的第一相似度。
步骤S3124,计算得到所述处理文本向量与各所述数据资产中各字段的相似度。
其中,对于各数据资产中的中文字段,可以将同一数据资产中的所有中文字段名拼接起来,得到拼接词。
然后,通过将拼接词进行分词处理,得到多个代表字段信息的单词,将每个单词转换成单词向量。
然后,计算每个单次向量和处理文本向量的余弦相似度。
步骤S3125,将所述处理文本向量与各所述数据资产中各字段的相似度的最大值作为各所述数据资产的第二相似度。
步骤S3126,将所述数据资产的所述第一相似度和所述第二相似度进行比较,取较大值作为所述数据资产的最终相似度。
步骤S3127,对各所述数据资产的所述最终相似度进行排序,得到排序结果。
其中,作为一种实施方式,可以对各所述数据资产的所述最终相似度从大到小进行排序,得到排序结果。
步骤S3128,基于预设的排序结果选取策略对所述排序结果进行选取并召回,得到所述第二召回结果。
其中,作为一种实施方式,可以根据最终相似度从大到小排序,选取前k个最相似的数据资产作为第二召回结果。
具体地,以下通过举例来阐述如何获得第二召回结果:
对数据资产的名称进行分词,对分词后的单词累加平均计算得到数据资产名称向量wL,将处理文本词向量记为ws,将计算得到的数据资产名称与处理文本词向量相似度记为d21,将计算得到的处理文本词向量和数据资产各个字段wk相似度最大值记为d22,取d21和d22最大的一个作为处理文本与数据资产的最终相似度得分d2,对所有候选资产的最终相似度得分d2进行从大到小排序,取前k个,进行召回。
其中,wL可以表示如下:
wL=1/nsum(wi),i=1,...,n;
其中,wi为分词后的各单词向量。
d21可以表示如下:
d21=cos(wL,ws);
d22可以表示如下:
d22=max(cos(wk,ws)),k=1,2...,n;
d2可以表示如下:
d2=max(d21,d22);
其中,通过将处理文本和数据资产转换为向量,并计算它们之间的余弦相似度,可以更准确地度量它们之间的语义相关性。并且,通过将数据资产的最终相似度进行排序,可以将最相关的结果排在前面,有助于用户更快地找到他们需要的信息。
本实施例通过上述方案,通过获取用户的搜索内容;基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果,所述搜索策略是结合若干个维度设置得到。其中,对所述搜索内容进行预处理,得到处理文本;基于所述预设的搜索策略对与所述处理文本对应的数据资产进行召回,得到所述若干个召回结果,所述搜索策略是结合所述若干个维度设置得到。其中,判断所述搜索内容是否包含空格;若所述搜索内容不包含空格,则对所述搜索内容进行分词处理,得到所述处理文本;若所述搜索内容包含所述空格,则基于所述空格将所述搜索内容划分成多个关键词;将所述关键词进行分词处理,将所述关键词和进行分词处理后的关键词作为所述处理文本。其中,将所述处理文本与各数据资产的名称进行匹配,得到第一召回结果;和/或,判断所述处理文本是否包含中文名,若所述处理文本包含中文名,则对所述处理文本和各所述数据资产进行语义相似度检索,得到第二召回结果;和/或,对所述用户的部门同事的历史浏览资产进行召回,得到第三召回结果;和/或,对与所述用户的历史浏览资产有血缘关系的数据资产进行召回,得到第四召回结果;和/或,对浏览量大于预设浏览量阈值和/或授权量大于预设授权量阈值的数据资产进行召回,得到第五召回结果。进一步地,将所述处理文本转换成处理文本向量;将各所述数据资产的名称转换成各所述数据资产的名称向量;计算所述处理文本向量与各所述数据资产的名称向量的余弦相似度,得到各所述数据资产的第一相似度;计算得到所述处理文本向量与各所述数据资产中各字段的相似度;将所述处理文本向量与各所述数据资产中各字段的相似度的最大值作为各所述数据资产的第二相似度;将所述数据资产的所述第一相似度和所述第二相似度进行比较,取较大值作为所述数据资产的最终相似度;对各所述数据资产的所述最终相似度进行排序,得到排序结果;基于预设的排序结果选取策略对所述排序结果进行选取并召回,得到所述第二召回结果。
本发明实施例基于预设的结合若干个维度设置得到的搜索策略对搜索内容对应的数据资产进行召回,得到召回结果,通过结合多个维度优化召回内容,能够让召回结果更加符合用户意图,满足特定使用场景下的用户需求。其中,本发明实施例通过对搜索内容进行预处理,可以减少干扰和噪音,从而提高召回结果的准确性;并且通过对搜索内容进行预处理,可以对搜索内容进行简化,去除冗余信息和复杂结构,从而降低搜索的复杂度,提高搜索效率。其中,本发明实施例通过将搜索内容进行分词处理可以将长字符串切分为更具代表性的词语,从而更精确地匹配相关的数据资产,提高搜索结果的准确性。并且,对于包含空格的搜索内容,通过基于空格进行划分,并对划分后的关键词进行分词处理,可以将其转化为更易理解和处理的处理文本,从而能够提供更具灵活性的搜索结果。其中,本发明实施例通过从文本匹配,文本相似度,同部门同事浏览,用户历史搜索内容五个维度出发,能够增加所召回结果的覆盖面,提高召回率,这有助于用户找到更多相关的数据资产。还能够优化召回内容,达到让搜索结果更加符合用户意图的目的。此外,数据资产浏览量、授权量数值越大,说明该资产被越多的人搜索访问,该资产属于重要资产,故对该部分数据资产进行召回,能够优化召回结果。进一步地,本发明实施例通过将处理文本和数据资产转换为向量,并计算它们之间的余弦相似度,可以更准确地度量它们之间的语义相关性。并且,通过将数据资产的最终相似度进行排序,可以将最相关的结果排在前面,有助于用户更快地找到他们需要的信息。
参照图8,图8为本发明数据搜索方法另一示例性实施例的流程示意图。
作为一种实施例,所述步骤S313,述和/或,对所述用户的部门同事的历史浏览资产进行召回,得到第三召回结果包括:
步骤S3131,获取所述用户的员工ID。
步骤S3132,基于所述用户的员工ID查询得到所述用户的部门同事的员工ID。
其中,作为一种实施方式,可以使用用户总表存储所有员工的信息,包括员工ID信息和所述部门信息。
然后,可以根据员工ID在用户总表中查询该员工所述部门的ID。
然后,根据该员工所述部门的ID查询得到该员工的所有部门同事的ID。
步骤S3133,基于所述部门同事的员工ID查询得到所述部门同事的历史浏览资产,召回得到所述第三召回结果。
其中,员工的历史浏览资产可以在浏览记录中查询得到。
所以,可以根据部门同事的ID在浏览记录中查询得到部门同事的历史浏览资产,对这些资产进行召回。
其中,由于同部门的同事之间的业务关联性较强,用户的目标数据资产大概率也被部门的其他同事使用浏览过,所以通过对部门同事的历史浏览资产进行召回,能够在一定程度上优化召回结果。该部分分值d3计算公式如下,v是部门同事近1个月的访问次数:
d3=log(v+1);
本实施例通过上述方案,通过获取用户的搜索内容;基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果,所述搜索策略是结合若干个维度设置得到。其中,对所述搜索内容进行预处理,得到处理文本;基于所述预设的搜索策略对与所述处理文本对应的数据资产进行召回,得到所述若干个召回结果,所述搜索策略是结合所述若干个维度设置得到。其中,判断所述搜索内容是否包含空格;若所述搜索内容不包含空格,则对所述搜索内容进行分词处理,得到所述处理文本;若所述搜索内容包含所述空格,则基于所述空格将所述搜索内容划分成多个关键词;将所述关键词进行分词处理,将所述关键词和进行分词处理后的关键词作为所述处理文本。其中,将所述处理文本与各数据资产的名称进行匹配,得到第一召回结果;和/或,判断所述处理文本是否包含中文名,若所述处理文本包含中文名,则对所述处理文本和各所述数据资产进行语义相似度检索,得到第二召回结果;和/或,对所述用户的部门同事的历史浏览资产进行召回,得到第三召回结果;和/或,对与所述用户的历史浏览资产有血缘关系的数据资产进行召回,得到第四召回结果;和/或,对浏览量大于预设浏览量阈值和/或授权量大于预设授权量阈值的数据资产进行召回,得到第五召回结果。其中,获取所述用户的员工ID;基于所述用户的员工ID查询得到所述用户的部门同事的员工ID;基于所述部门同事的员工ID查询得到所述部门同事的历史浏览资产,召回得到所述第三召回结果。
本发明实施例基于预设的结合若干个维度设置得到的搜索策略对搜索内容对应的数据资产进行召回,得到召回结果,通过结合多个维度优化召回内容,能够让召回结果更加符合用户意图,满足特定使用场景下的用户需求。其中,本发明实施例通过对搜索内容进行预处理,可以减少干扰和噪音,从而提高召回结果的准确性;并且通过对搜索内容进行预处理,可以对搜索内容进行简化,去除冗余信息和复杂结构,从而降低搜索的复杂度,提高搜索效率。其中,本发明实施例通过将搜索内容进行分词处理可以将长字符串切分为更具代表性的词语,从而更精确地匹配相关的数据资产,提高搜索结果的准确性。并且,对于包含空格的搜索内容,通过基于空格进行划分,并对划分后的关键词进行分词处理,可以将其转化为更易理解和处理的处理文本,从而能够提供更具灵活性的搜索结果。其中,本发明实施例通过从文本匹配,文本相似度,同部门同事浏览,用户历史搜索内容五个维度出发,能够增加所召回结果的覆盖面,提高召回率,这有助于用户找到更多相关的数据资产。还能够优化召回内容,达到让搜索结果更加符合用户意图的目的。此外,数据资产浏览量、授权量数值越大,说明该资产被越多的人搜索访问,该资产属于重要资产,故对该部分数据资产进行召回,能够优化召回结果。其中,由于同部门的同事之间的业务关联性较强,用户的目标数据资产大概率也被部门的其他同事使用浏览过,所以通过对部门同事的历史浏览资产进行召回,能够在一定程度上优化召回结果。
参照图9,图9为本发明数据搜索方法另一示例性实施例的流程示意图。
作为一种实施例,所述步骤S314,和/或,对与所述用户的历史浏览资产有血缘关系的数据资产进行召回,得到第四召回结果包括:
步骤S3141,获取所述用户的员工ID。
步骤S3142,基于所述用户的员工ID查找得到所述用户的历史浏览资产。
其中,可以根据用户的员工ID在浏览记录中查询该用户的历史浏览资产。
步骤S3143,基于所述用户的历史浏览资产查找所述用户的历史浏览资产的血缘关系上下游资产。
其中,作为一种实施方式,可以只查找一层血缘关系。
其中,仅查找一层血缘关系意味着只在直接相关的资产中进行搜索,而不进一步扩展到更深层次的关联关系。
步骤S3144,将所述血缘关系上下游资产进行召回,得到所述第四召回结果。
其中,由于数据资产名称繁多且复杂,且数据资产的命名跟项目名称及个人命名习惯有很大相关性,导致数据资产名称很难被用户完整记下,通过结合用户历史浏览资产的相关性,可以减轻用户记忆的负担,使其更容易找到并重新访问之前浏览过的相关资产。并且有些数据资产比较重要,用户在不同的项目中都会使用到,故会存在同一个数据资产被用户反复搜索的情况,此外,有血缘关系的数据资产关联性较强,所以对用户历史浏览及有血缘关系的资产进行召回,达到优化召回结果的目的。其中b是数据资产与用户历史浏览资产有血缘关系的次数。
d4=log(b+1)
本实施例通过上述方案,通过获取用户的搜索内容;基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果,所述搜索策略是结合若干个维度设置得到。其中,对所述搜索内容进行预处理,得到处理文本;基于所述预设的搜索策略对与所述处理文本对应的数据资产进行召回,得到所述若干个召回结果,所述搜索策略是结合所述若干个维度设置得到。其中,判断所述搜索内容是否包含空格;若所述搜索内容不包含空格,则对所述搜索内容进行分词处理,得到所述处理文本;若所述搜索内容包含所述空格,则基于所述空格将所述搜索内容划分成多个关键词;将所述关键词进行分词处理,将所述关键词和进行分词处理后的关键词作为所述处理文本。其中,将所述处理文本与各数据资产的名称进行匹配,得到第一召回结果;和/或,判断所述处理文本是否包含中文名,若所述处理文本包含中文名,则对所述处理文本和各所述数据资产进行语义相似度检索,得到第二召回结果;和/或,对所述用户的部门同事的历史浏览资产进行召回,得到第三召回结果;和/或,对与所述用户的历史浏览资产有血缘关系的数据资产进行召回,得到第四召回结果;和/或,对浏览量大于预设浏览量阈值和/或授权量大于预设授权量阈值的数据资产进行召回,得到第五召回结果。其中,获取所述用户的员工ID;基于所述用户的员工ID查找得到所述用户的历史浏览资产;基于所述用户的历史浏览资产查找所述用户的历史浏览资产的血缘关系上下游资产;将所述血缘关系上下游资产进行召回,得到所述第四召回结果。
本发明实施例基于预设的结合若干个维度设置得到的搜索策略对搜索内容对应的数据资产进行召回,得到召回结果,通过结合多个维度优化召回内容,能够让召回结果更加符合用户意图,满足特定使用场景下的用户需求。其中,本发明实施例通过对搜索内容进行预处理,可以减少干扰和噪音,从而提高召回结果的准确性;并且通过对搜索内容进行预处理,可以对搜索内容进行简化,去除冗余信息和复杂结构,从而降低搜索的复杂度,提高搜索效率。其中,本发明实施例通过将搜索内容进行分词处理可以将长字符串切分为更具代表性的词语,从而更精确地匹配相关的数据资产,提高搜索结果的准确性。并且,对于包含空格的搜索内容,通过基于空格进行划分,并对划分后的关键词进行分词处理,可以将其转化为更易理解和处理的处理文本,从而能够提供更具灵活性的搜索结果。其中,本发明实施例通过从文本匹配,文本相似度,同部门同事浏览,用户历史搜索内容五个维度出发,能够增加所召回结果的覆盖面,提高召回率,这有助于用户找到更多相关的数据资产。还能够优化召回内容,达到让搜索结果更加符合用户意图的目的。此外,数据资产浏览量、授权量数值越大,说明该资产被越多的人搜索访问,该资产属于重要资产,故对该部分数据资产进行召回,能够优化召回结果。其中,由于数据资产名称繁多且复杂,且数据资产的命名跟项目名称及个人命名习惯有很大相关性,导致数据资产名称很难被用户完整记下,通过结合用户历史浏览资产的相关性,可以减轻用户记忆的负担,使其更容易找到并重新访问之前浏览过的相关资产。并且有些数据资产比较重要,用户在不同的项目中都会使用到,故会存在同一个数据资产被用户反复搜索的情况,此外,有血缘关系的数据资产关联性较强,所以对用户历史浏览及有血缘关系的资产进行召回,达到优化召回结果的目的。
参照图10,图10为本发明实施例进行数据搜索的整体流程示意图。
步骤S10001,用户输入内容;
步骤S10002,对用户输入内容进行预处理,得到处理文本;
步骤S10003,使用第一搜索策略根据处理文本对数据资产进行搜索,具体为将处理文本与数据资产进行文本匹配(直接匹配、间接匹配),得到第一召回结果;
步骤S10004,使用第二搜索策略根据处理文本对数据资产进行搜索,具体为比较处理文本与数据资产的相似度(资产名相似度、字段相似度),得到第二召回结果;
步骤S10005,使用第三搜索策略对数据资产进行搜索,具体为将资产历史搜索量大于预设阈值的数据资产进行召回,对部门同事浏览量大于预设阈值的数据资产进行召回,得到第三召回结果;
步骤S10006,使用第四搜索策略对数据资产进行搜索,具体为对用户的历史浏览资产一级父系进行召回,对用户的历史浏览资产一级子系进行召回,得到第四召回结果;
步骤S10007,使用第五搜索策略对数据资产进行搜索,具体为将浏览量大于预设阈值和授权量大于预设阈值的数据资产进行召回,得到第五召回结果;
步骤S10008,将上述若干个召回结果输入权重层,为不同的召回结果分配不同的权重;
步骤S10009,在输出层中,根据不同的权重设置召回结果的显示顺序。
本实施例通过上述方案,通过获取用户的搜索内容;基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果,所述搜索策略是结合若干个维度设置得到。本发明实施例基于预设的结合若干个维度设置得到的搜索策略对搜索内容对应的数据资产进行召回,得到召回结果,通过结合多个维度优化召回内容,能够让召回结果更加符合用户意图,满足特定使用场景下的用户需求。
此外,本申请实施例还提出一种设备,所述设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据搜索程序,所述数据搜索程序被所述处理器执行时实现如上所述的数据搜索方法的步骤。
由于本数据搜索程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有数据搜索程序,所述数据搜索程序被处理器执行时实现如上所述的数据搜索方法的步骤。
由于本数据搜索程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
本实施例通过上述方案,具体通过获取用户的搜索内容;基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果,所述搜索策略是结合若干个维度设置得到。本发明实施例基于预设的结合若干个维度设置得到的搜索策略对搜索内容对应的数据资产进行召回,得到召回结果,通过结合多个维度优化召回内容,能够让召回结果更加符合用户意图,满足特定使用场景下的用户需求。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本发明每个实施例的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种数据搜索方法,其特征在于,所述方法包括以下步骤:
获取用户的搜索内容;
基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果,所述搜索策略是结合若干个维度设置得到。
2.根据权利要求1所述的方法,其特征在于,所述基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果的步骤之后还包括:
基于预设的权重分配策略计算所述若干个召回结果的数据资产得分值;
基于所述若干个召回结果的数据资产得分值对所述若干个召回结果进行排序,向所述用户返回排序后的若干个召回结果。
3.根据权利要求2所述的方法,其特征在于,所述获取用户的搜索内容的步骤之后包括:
对所述搜索内容进行预处理,得到处理文本;
所述基于预设的搜索策略对与所述搜索内容对应的数据资产进行召回,得到若干个召回结果,所述搜索策略是结合若干个维度设置得到的步骤包括:
基于所述预设的搜索策略对与所述处理文本对应的数据资产进行召回,得到所述若干个召回结果,所述搜索策略是结合所述若干个维度设置得到。
4.根据权利要求3所述的方法,其特征在于,所述对所述搜索内容进行预处理,得到处理文本的步骤包括:
判断所述搜索内容是否包含空格;
若所述搜索内容不包含空格,则对所述搜索内容进行分词处理,得到所述处理文本;
若所述搜索内容包含所述空格,则基于所述空格将所述搜索内容划分成多个关键词;
将所述关键词进行分词处理,将所述关键词和进行分词处理后的关键词作为所述处理文本。
5.根据权利要求4所述的方法,其特征在于,所述基于预设的搜索策略对与所述处理文本对应的数据资产进行召回,得到若干个召回结果的步骤包括:
将所述处理文本与各数据资产的名称进行匹配,得到第一召回结果;
和/或,判断所述处理文本是否包含中文名,若所述处理文本包含中文名,则对所述处理文本和各所述数据资产进行语义相似度检索,得到第二召回结果;
和/或,对所述用户的部门同事的历史浏览资产进行召回,得到第三召回结果;
和/或,对与所述用户的历史浏览资产有血缘关系的数据资产进行召回,得到第四召回结果;
和/或,对浏览量大于预设浏览量阈值和/或授权量大于预设授权量阈值的数据资产进行召回,得到第五召回结果。
6.根据权利要求5所述的方法,其特征在于,所述对所述处理文本和各所述数据资产进行语义相似度检索,得到第二召回结果的步骤包括:
将所述处理文本转换成处理文本向量;
将各所述数据资产的名称转换成各所述数据资产的名称向量;
计算所述处理文本向量与各所述数据资产的名称向量的余弦相似度,得到各所述数据资产的第一相似度;
计算得到所述处理文本向量与各所述数据资产中各字段的相似度;
将所述处理文本向量与各所述数据资产中各字段的相似度的最大值作为各所述数据资产的第二相似度;
将所述数据资产的所述第一相似度和所述第二相似度进行比较,取较大值作为所述数据资产的最终相似度;
对各所述数据资产的所述最终相似度进行排序,得到排序结果;
基于预设的排序结果选取策略对所述排序结果进行选取并召回,得到所述第二召回结果。
7.根据权利要求5所述的方法,其特征在于,所述对所述用户的部门同事的历史浏览资产进行召回,得到第三召回结果的步骤包括:
获取所述用户的员工ID;
基于所述用户的员工ID查询得到所述用户的部门同事的员工ID;
基于所述部门同事的员工ID查询得到所述部门同事的历史浏览资产,召回得到所述第三召回结果。
8.根据权利要求5所述的方法,其特征在于,所述对与所述用户的历史浏览资产有血缘关系的数据资产进行召回,得到第四召回结果的步骤包括:
获取所述用户的员工ID;
基于所述用户的员工ID查找得到所述用户的历史浏览资产;
基于所述用户的历史浏览资产查找所述用户的历史浏览资产的血缘关系上下游资产;
将所述血缘关系上下游资产进行召回,得到所述第四召回结果。
9.一种数据搜索设备,其特征在于,所述数据搜索设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-8中任一项所述的数据搜索方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的数据搜索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311241312.7A CN117171400A (zh) | 2023-09-22 | 2023-09-22 | 数据搜索方法、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311241312.7A CN117171400A (zh) | 2023-09-22 | 2023-09-22 | 数据搜索方法、设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117171400A true CN117171400A (zh) | 2023-12-05 |
Family
ID=88929786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311241312.7A Pending CN117171400A (zh) | 2023-09-22 | 2023-09-22 | 数据搜索方法、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117171400A (zh) |
-
2023
- 2023-09-22 CN CN202311241312.7A patent/CN117171400A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8886589B2 (en) | Providing knowledge content to users | |
US8965872B2 (en) | Identifying query formulation suggestions for low-match queries | |
US8037068B2 (en) | Searching through content which is accessible through web-based forms | |
US20080270380A1 (en) | Method for Determining Contextual Summary Information Across Documents | |
US20120254143A1 (en) | Natural language querying with cascaded conditional random fields | |
US20050289102A1 (en) | Ranking database query results | |
US9720979B2 (en) | Method and system of identifying relevant content snippets that include additional information | |
CN105426550B (zh) | 一种基于用户质量模型的协同过滤标签推荐方法及系统 | |
US11023503B2 (en) | Suggesting text in an electronic document | |
US20110307432A1 (en) | Relevance for name segment searches | |
CN110390094B (zh) | 对文档进行分类的方法、电子设备和计算机程序产品 | |
CN115270738B (zh) | 一种研报生成方法、系统及计算机存储介质 | |
Ionescu et al. | Result diversification in social image retrieval: a benchmarking framework | |
US9971828B2 (en) | Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries | |
US20160283564A1 (en) | Predictive visual search enginge | |
CN110110218B (zh) | 一种身份关联方法及终端 | |
US20120130972A1 (en) | Concept disambiguation via search engine search results | |
CN117708270A (zh) | 企业数据查询方法、装置、设备及存储介质 | |
CN107103023B (zh) | 使用自动生成的存储层级组织电子存储的文件 | |
CN109460467B (zh) | 一种网络信息分类体系构建方法 | |
CN117171400A (zh) | 数据搜索方法、设备以及存储介质 | |
Li et al. | Research on hot news discovery model based on user interest and topic discovery | |
Ji et al. | Vocabulary hierarchy optimization and transfer for scalable image search | |
Zhu et al. | New query refinement and semantics integrated image retrieval system with semiautomatic annotation scheme | |
US20180121502A1 (en) | User Search Query Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |