CN111125086B - 获取数据资源的方法、装置、存储介质及处理器 - Google Patents

获取数据资源的方法、装置、存储介质及处理器 Download PDF

Info

Publication number
CN111125086B
CN111125086B CN201811285597.3A CN201811285597A CN111125086B CN 111125086 B CN111125086 B CN 111125086B CN 201811285597 A CN201811285597 A CN 201811285597A CN 111125086 B CN111125086 B CN 111125086B
Authority
CN
China
Prior art keywords
data resource
target data
dimension information
dimension
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811285597.3A
Other languages
English (en)
Other versions
CN111125086A (zh
Inventor
张力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201811285597.3A priority Critical patent/CN111125086B/zh
Publication of CN111125086A publication Critical patent/CN111125086A/zh
Application granted granted Critical
Publication of CN111125086B publication Critical patent/CN111125086B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种获取数据资源的方法、装置、存储介质及处理器,属于计算机技术领域。所述方法包括:获取关键词和检索标签;根据所述关键词和检索标签在数据资源管理系统中进行检索,得到待排序的目标数据资源以及各目标数据资源对应的维度信息;对所述目标数据资源对应的维度信息中非数值化的维度信息进行预处理,得到该维度信息对应的维度数值;根据所述目标数据资源各维度信息所对应的维度数值和各维度信息所对应的预设权重进行加权平均,得到每个目标数据资源的平均值,并根据所述平均值对相应的目标数据资源进行排序。本发明实施例适用于在数据资源管理系统中获取数据资源的过程。

Description

获取数据资源的方法、装置、存储介质及处理器
技术领域
本发明涉及计算机技术领域,具体地涉及一种获取数据资源的方法、装置、存储介质及处理器。
背景技术
在数据资源管理系统中,数据资源按照一定标准存储,并按照一定标准进行分类且通过界面展示每一类的数据资源。当用户在数据资源管理系统中检索数据资源时,往往由于种类繁多难以寻找到对自己有用的数据资源。
对于现有技术中的网站搜索引擎,由于其更加侧重于文字匹配的检索,无法适用于数据资源管理系统中的检索。
发明内容
本发明实施例的目的是提供一种获取数据资源的方法、装置、存储介质及处理器,提供了针对于数据资源管理系统中的检索方式,且在提供检索结果时进行推荐排序,提高用户获取目标数据资源的效率。
为了实现上述目的,第一方面,本发明实施例提供一种获取数据资源的方法,所述方法包括:获取关键词和检索标签;根据所述关键词和检索标签在数据资源管理系统中进行检索,得到待排序的目标数据资源以及各目标数据资源对应的维度信息;对所述目标数据资源对应的维度信息中非数值化的维度信息进行预处理,得到该维度信息对应的维度数值;根据所述目标数据资源各维度信息所对应的维度数值和各维度信息所对应的预设权重进行加权平均,得到每个目标数据资源的平均值,并根据所述平均值对相应的目标数据资源进行排序。
进一步地,所述数据资源管理系统中包括多个数据资源、以及每个数据资源所对应的名称、描述和标签;并且,所述根据所述关键词和检索标签在数据资源管理系统中进行检索,得到待排序的目标数据资源以及各目标数据资源对应的维度信息包括:将所述数据资源管理系统中数据资源的名称和/或描述与所述关键词匹配、且标签与所述检索标签匹配的数据资源,确定为所述待排序的目标数据资源;所述维度信息中包括名称相关性和描述相关性,通过下述方式确定所述目标数据资源的所述名称相关性以及描述相关性所对应的维度数值:将所述目标数据资源的名称和描述与所述关键词进行匹配,分别得到所述目标数据资源的名称相似值和描述相似值。
进一步地,在所述根据所述目标数据资源各维度信息所对应的维度数值和各维度信息所对应的预设权重进行加权平均时,其中所述维度信息所对应的维度数值包括所述名称相关性所对应的所述名称相似值以及所述描述相关性所对应的描述相似值,或所述名称相关性和描述相关性所对应的综合相似值,其中所述综合相似值由所述名称相似值和所述描述相似值得到。
进一步地,所述维度信息还包括数据质量、最近更新时间、点击数、收藏数、评论数、评论情感、版本迭代频率或关联关系总数量中的至少一个,其中所述关联关系总数量为数据资源与其它数据资源关联的次数。
进一步地,所述对所述目标数据资源对应的维度信息中非数值化的维度信息进行预处理,得到该维度信息对应的维度数值包括:当所述维度信息中包括数据质量时,根据所述目标数据资源的数据质量对应的文字标签以及预设文字与数值的对应关系,将所述目标数据资源的数据质量对应的文字标签转换为质量数值,所述数据质量表示数据资源的质量;和/或当所述维度信息中包括最近更新时间时,通过unix时间戳转换器,将所述目标数据资源的最近更新时间转换为更新时间数值;和/或当所述维度信息中包括评论情感时,通过情感识别工具,将所述目标数据资源的评论情感转换为评论情感比例。
进一步地,所述根据所述目标数据资源各维度信息所对应的维度数值和各维度信息所对应的预设权重进行加权平均,得到每个目标数据资源的平均值包括:根据
Figure BDA0001848963650000031
得到每个目标数据资源的平均值,其中,K为每个目标数据资源的平均值,n为每个目标数据资源的维度信息的数量,wi为每个目标数据资源第i个维度信息所对应的预设权重,ai为每个目标数据资源第i个维度信息所对应的维度数值。
进一步地,在所述得到待排序的目标数据资源以及各目标数据资源对应的维度信息之后,所述方法还包括:根据各目标数据资源的名称、描述、全文以及标签,检索得到与各目标数据资源相关的其它数据资源以及所述其它数据资源对应的维度信息;对所述其它数据资源对应的维度信息中非数值化的维度信息进行预处理,得到该维度信息对应的维度数值;根据所述其它数据资源各维度信息所对应的维度数值和各维度信息所对应的预设权重进行加权平均,得到所述其它数据资源的平均值,并根据所述平均值对相应的其它数据资源进行排序。
第二方面,本发明实施例提供一种获取数据资源的装置,所述装置包括:获取单元,用于获取关键词和检索标签;检索单元,用于根据所述关键词和检索标签在数据资源管理系统中进行检索,得到待排序的目标数据资源以及各目标数据资源对应的维度信息;预处理单元,用于对所述目标数据资源对应的维度信息中非数值化的维度信息进行预处理,得到该维度信息对应的维度数值;排序单元,用于根据所述目标数据资源各维度信息所对应的维度数值和各维度信息所对应的预设权重进行加权平均,得到每个目标数据资源的平均值,并根据所述平均值对相应的目标数据资源进行排序。
第三方面,本发明实施例提供一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如上所述的获取数据资源的方法。
第四方面,本发明实施例提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行如上所述的获取数据资源的方法。
通过上述技术方案,获取到关键词和检索标签之后,根据所述关键词和检测标签在数据资源管理系统中进行检索,得到待排序的目标数据资源以及各目标数据资源对应的维度信息,在对所述目标数据资源对应的维度信息中非数值化的维度信息进行预处理后,得到该维度信息对应的维度数值,然后根据所述目标数据资源各维度信息所对应的维度数值和各维度信息所对应的预设权重进行加权平均,得到每个目标数据资源的平均值,并根据所述平均值对相应的目标数据资源进行排序。本发明实施例提供了针对于数据资源管理系统中的检索方式,利用多维度信息推荐的排序方式,提高用户获取目标数据资源的效率。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1是本发明实施例提供的字段表的示例;
图2是本发明实施例提供的数据资源管理系统的示例;
图3是本发明实施例提供的一种获取数据资源的方法的流程示意图;
图4是本发明实施例提供的利用elasticsearch数据库以及检索标签得到数据资源的代码示例;
图5是本发明实施例提供的利用elasticsearch数据库检索得到目标数据资源的代码示例;
图6是本发明实施例提供的一种获取数据资源的装置的结构示意图。
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
本申请中涉及的术语解释:
数据资源管理系统是一种收集、存储、展示、关联、推荐数据资源的公共平台,其对应组织内的任意用户均可以使用。
数据资源是一个可以用计算机保存、读取和操作的对象,这里包括字段表、数据样本、项目、产品、文件、API(Application Program Interface,应用程序接口)。
字段表是一个结构化或者半结构化数据库里的一个表内,所有字段名称形成的列表。如图1所示,其中ad是表名称,下面是各个字段名称组成的字段表。
数据样本是一个结构化或者半结构化数据库里的一个表内,一批数据。
产品包括对产品的文字描述,产品里各个功能的描述。
项目包括项目的文字描述,项目里各个功能文字描述。
文件是计算机内可存储的任意格式文件。
本发明实施例应用于数据资源可以按照一定标准存储的数据资源管理系统(数据资源管理平台)中,如图2所示,数据资源可以按照一定标准进行分类,并在界面展示每一类的数据资源,而本申请要解决的问题就是对如图2所示的列表上的数据资源进行排序。
图3是本发明实施例提供的一种获取数据资源的方法的流程示意图。如图3所示,所述方法包括如下步骤:
步骤301,获取关键词和检索标签;
步骤302,根据所述关键词和检索标签在数据资源管理系统中进行检索,得到待排序的目标数据资源以及各目标数据资源对应的维度信息;
步骤303,对所述目标数据资源对应的维度信息中非数值化的维度信息进行预处理,得到该维度信息对应的维度数值;
步骤304,根据所述目标数据资源各维度信息所对应的维度数值和各维度信息所对应的预设权重进行加权平均,得到每个目标数据资源的平均值,并根据所述平均值对相应的目标数据资源进行排序。
其中,每个数据资源均有对应的维度信息,本发明实施例正是利用了多维度信息推荐的排序方式,提高用户获取目标数据资源的效率。而维度信息可以包括以下几种:
数据质量:用于表示数据资源的好坏等质量,例如表示其质量好坏的标签可以定义为【高质量】、【一般质量】和【低质量】等等。具体的定义方式并不限于上述三种,还可以进行细化,或者定义为两种,本发明实施例中并不具体限定。
最近更新时间:用于表示数据资源的最近更新时间。
点击数:用于表示数据资源被不同用户查看的次数。
收藏数:用于表示数据资源被不同用户收藏的次数。
评论数:用于表示数据资源被评论的次数。
评论情感:用于表示数据资源的所有文字评论中的正面评论和负面评论。
版本迭代频率:用于表示数据资源在一段时间内的版本数量。
关联关系总数量:用于表示数据资源与其它数据资源关联的次数。
全文相关性:用于表示数据资源的全部信息和其他数据资源的全部信息匹配得到的相关性。
名称相关性:用于表示关键词或数据资源的名称,与所有数据资源的名称匹配得到的相关性。
描述相关性:用于表示关键词或数据资源的名称,与所有数据资源的描述匹配得到的相关性。
标签:用于标记数据资源,每个数据资源可有多个标签进行标记。
其中,在本发明实施例中,所述数据资源管理系统中包括多个数据资源,并且每个数据资源对应有名称、描述和标签。在接收到用户输入的关键词和检索标签之后,在所述数据资源管理系统中的所有数据资源对应的名称、描述和标签中进行检索,将所述数据资源管理系统中数据资源的名称和/或描述与所述关键词匹配、且标签与所述检索标签匹配的数据资源,确定为所述待排序的目标数据资源。其中,用户输入的检索标签和关键词的个数不做限定,可以是一个检索标签和一个关键词,也可以是多个检索标签和一个关键词,或者是一个检索标签和多个关键词,或者是多个检索标签和多个关键词。
其中,在所述检索标签与数据资源的标签进行匹配时,由于标签是分种类的,例如有A类,A类中包括A1和A2两个标签,B类中包括B1、B2和B3三个标签。在进行检索时,同类检索标签是“或or”的关系,不同类的检索标签是“和and”的关系。如果用户输入的检索标签为A1、B2和B3,则在检索时,就需要找到满足“A1and(B2or B3)”这个关系的所有数据资源。如图4所示,实现方式可利用elasticsearch数据库中的bool条件底下的should和must做文本匹配条件,其中should表示or,must表示and。图4的检索结果为返回标签符合happy and(wow or sad)的所有数据资源。
同时,由于所述维度信息中包括名称相关性和描述相关性,利用elasticsearch数据库,将所述目标数据资源的名称和描述与所述关键词进行匹配,分别得到所述目标数据资源的名称相似值和描述相似值。
例如,利用elasticsearch数据库将检索标签与关键词结合起来,得到目标数据资源以及所述目标数据资源的名称相似值和描述相似值。在另一种实施方式中,还可以利用TFIDF算法,得到综合了名称相似值和描述相似值的综合相似值,从而目标数据资源的维度信息名称相关性和描述相关性所对应的维度数值就为一个综合相似值。
如图5所示,match下的条件为检索标签查询,more_like_this为相关性匹配,并得到相似值,title为名称,description为描述。图5所示的检索条件为名称和/或描述中与关键词“Once upon a time”相关的数据资源,且这些数据资源的标签必须要有检索标签happy和(wow或sad)。其中,返回的结果为待排序的目标数据资源,且每个目标数据资源对应的相似值为综合相似值。
在得到名称相似值和描述相似值,或者综合相似值之后,由于上述相似值比较大,可以将上述得到的相似值除以预设常量进行标准化处理,从而将标准化的名称相似值和描述相似值作为名称相关性对应的维度数值和描述相关性对应的维度数值,或者将标准化的综合相似值作为名称相关性与描述相关性对应的维度数值。
由于检索得到的所述待排序的目标数据资源对应的维度信息中还包括数据质量、最近更新时间、点击数、收藏数、评论数、评论情感、版本迭代频率或关联关系总数量中的至少一个。由于上述维度信息中存在非数值化的维度信息,且计算机运算只能理解数字,要对目标数据资源通过标准化数值进行排序,就要对所述目标数据资源对应的维度信息中非数值化的维度信息进行预处理,得到该维度信息对应的维度数值。
上述维度信息中,点击数、收藏数、评论数、版本迭代频率和关联关系总数量均属于数值化维度信息,其均有对应的维度数值,可以不进行预处理。而数据质量、最近更新时间和评论情感为非数值化的维度信息,若是检索得到的目标数据资源所对应的维度信息中包括上述三种非数值化的维度信息,则要进行预处理,得到对应的维度数值。
例如,当所述维度信息中包括数据质量时,根据所述目标数据资源的数据质量对应的文字标签以及预设文字与数值的对应关系,将所述目标数据资源的数据质量对应的文字标签转换为质量数值,所述数据质量表示数据资源的质量。通过遍历每个目标数据资源的数据质量对应的文字标签,以及预设文字与数值的对应关系,得到每个目标数据资源的数据质量对应的质量数值,值越高表示数据质量越高。例如,【高质量】对应数值为9,【一般质量】对应数值为5,【低质量】对应数值为1。
例如,当所述维度信息中包括最近更新时间时,通过unix时间戳转换器,将所述目标数据资源的最近更新时间转换为更新时间数值。通过遍历每个目标数据资源的最近更新时间,通过现有技术中的unix时间戳转换器,将最近更新时间转换为更新时间数值。另外,作为本发明实施例的一种实施方式,可以将得到的更新时间数值除以一个预设常量做标准化处理,从而将标准化处理后的更新时间数值确定为最近更新时间对应的维度数值。
例如,当所述维度信息中包括评论情感时,通过情感识别工具,将所述目标数据资源的评论情感转换为评论情感比例。通过遍历每个目标数据资源的评论列表,利用现有技术中任意情感识别工具,可以将每个目标数据资源的评论转换为概率值,然后定义正面评论对应的概率范围,负面评论对应的概率范围,然后将正面评论数量与负面评论数量的比值确定为评论情感对应的维度数值。
在对所述目标数据资源对应的维度信息中非数值化的维度信息进行预处理之后,所述目标数据资源对应的维度信息均对应维度数值,则可以根据所述目标数据资源各维度信息所对应的维度数值和各维度信息所对应的预设权重进行加权平均,得到每个目标数据资源的平均值,并根据所述平均值对相应的目标数据资源进行排序。
其中,可以根据平均值由高到低的顺序,对目标数据资源进行排序,从而得到与用户检索条件最相关的数据资源排在最上面,提高用户获取目标数据的效率。
例如,根据
Figure BDA0001848963650000101
得到每个目标数据资源的平均值,其中,K为每个目标数据资源的平均值,n为每个目标数据资源的维度信息的数量,wi为每个目标数据资源第i个维度信息所对应的预设权重,ai为每个目标数据资源第i个维度信息所对应的维度数值。通过上述公式,将每个维度信息对应的维度数值以及预设权重代入,并得到每个目标数据资源的平均值。其中,预设权重可以人为定义为固定值,每个维度信息对应的预设权重可以相同也可以不同,可根据具体需要来设定。或者预设权重也可以通过现有技术中的任意机器学习的方式来确定。例如,名称相关性和描述相关性对应的综合相似值的预设权重可通过机器学习单独训练得到,该方式可以用来扩展到其它维度信息对应的预设权重,也就是说目标数据资源的每个维度信息的预设权重都是可以单独通过机器学习中的排序算法训练得到或者人工定义的,这样极大的提高的灵活性。如果有N个维度信息的话,理论上可以用N个排序模型的加权平均得到排序结果。
在本发明的一种实施方式中,在得到所述待排序的目标数据资源以及各目标数据资源对应的维度信息之后,还可以通过每个目标数据资源推荐其它数据资源。
例如,根据各目标数据资源的名称、描述、全文以及标签,检索得到与各目标数据资源相关的其它数据资源以及所述其它数据资源对应的维度信息。然后,对所述其它数据资源对应的维度信息中非数值化的维度信息进行预处理,得到该维度信息对应的维度数值。之后,根据所述其它数据资源各维度信息所对应的维度数值和各维度信息所对应的预设权重进行加权平均,得到所述其它数据资源的平均值,并根据所述平均值对相应的其它数据资源进行排序。
其中,将步骤301中的关键词替换为目标数据资源的名称、描述和全文,检索标签则替换为目标数据资源的标签,从而检索得到与各目标数据资源相关的其它数据资源以及所述其它数据资源对应的维度信息。
其中,对于维度信息中的全文相关性的处理,可以利用elasticsearch数据库,在elasticsearch数据库查询中加入各目标数据资源的全文,从而得到全文相似值。可选的,对于名称相关性、描述相关性和全文相关性也可以利用TFIDF算法,根据名称相似值、描述相似值和全文相似值得到综合相似值,利用一个综合相似值统一为名称相关性、描述相关性和全文相关性的综合的维度数值。
另外,对于目标数据资源推荐其它数据资源时,对于非数值化的维度信息预处理以及加权平均的计算可以参考步骤303和步骤304。
通过本发明实施例,提供了针对于数据资源管理系统中的检索方式,利用多维度信息推荐的排序方式,提高用户获取目标数据资源的效率。
相应的,图6是本发明实施例提供的一种获取数据资源的装置的结构示意图。如图6所示,所述装置包括获取单元61,用于获取关键词和检索标签;检索单元62,用于根据所述关键词和检索标签在数据资源管理系统中进行检索,得到待排序的目标数据资源以及各目标数据资源对应的维度信息;预处理单元63,用于对所述目标数据资源对应的维度信息中非数值化的维度信息进行预处理,得到该维度信息对应的维度数值;排序单元64,用于根据所述目标数据资源各维度信息所对应的维度数值和各维度信息所对应的预设权重进行加权平均,得到每个目标数据资源的平均值,并根据所述平均值对相应的目标数据资源进行排序。
通过该装置,在获取到关键词和检索标签之后,根据所述关键词和检测标签在数据资源管理系统中进行检索,得到待排序的目标数据资源以及各目标数据资源对应的维度信息,在对所述目标数据资源对应的维度信息中非数值化的维度信息进行预处理后,得到该维度信息对应的维度数值,然后根据所述目标数据资源各维度信息所对应的维度数值和各维度信息所对应的预设权重进行加权平均,得到每个目标数据资源的平均值,并根据所述平均值对相应的目标数据资源进行排序。本发明实施例提供了针对于数据资源管理系统中的检索方式,利用多维度信息推荐的排序方式,提高用户获取目标数据资源的效率。
其中,所述数据资源管理系统中包括多个数据资源、以及每个数据资源所对应的名称、描述和标签,所述检索单元还用于将所述数据资源管理系统中数据资源的名称和/或描述与所述关键词匹配、且标签与所述检索标签匹配的数据资源,确定为所述待排序的目标数据资源;所述维度信息中包括名称相关性和描述相关性,通过下述方式确定所述目标数据资源的所述名称相关性以及描述相关性所对应的维度数值:将所述目标数据资源的名称和描述与所述关键词进行匹配,分别得到所述目标数据资源的名称相似值和描述相似值。
另外,所述排序单元在根据所述目标数据资源各维度信息所对应的维度数值和各维度信息所对应的预设权重进行加权平均时,其中所述维度信息所对应的维度数值包括所述名称相关性所对应的所述名称相似值以及所述描述相关性所对应的描述相似值,或所述名称相关性和描述相关性所对应的综合相似值,其中所述综合相似值由所述名称相似值和所述描述相似值得到。
其中,所述维度信息还包括数据质量、最近更新时间、点击数、收藏数、评论数、评论情感、版本迭代频率或关联关系总数量中的至少一个,其中所述关联关系总数量为数据资源与其它数据资源关联的次数。
所述预处理单元还用于当所述维度信息中包括数据质量时,根据所述目标数据资源的数据质量对应的文字标签以及预设文字与数值的对应关系,将所述目标数据资源的数据质量对应的文字标签转换为质量数值,所述数据质量表示数据资源的质量;和/或当所述维度信息中包括最近更新时间时,通过unix时间戳转换器,将所述目标数据资源的最近更新时间转换为更新时间数值;和/或当所述维度信息中包括评论情感时,通过情感识别工具,将所述目标数据资源的评论情感转换为评论情感比例。
其中,所述排序单元还用于根据
Figure BDA0001848963650000131
得到每个目标数据资源的平均值,其中,K为每个目标数据资源的平均值,n为每个目标数据资源的维度信息的数量,wi为每个目标数据资源第i个维度信息所对应的预设权重,ai为每个目标数据资源第i个维度信息所对应的维度数值。
可选的,所述检索单元还用于根据各目标数据资源的名称、描述、全文以及标签,检索得到与各目标数据资源相关的其它数据资源以及所述其它数据资源对应的维度信息;所述预处理单元还用于对所述其它数据资源对应的维度信息中非数值化的维度信息进行预处理,得到该维度信息对应的维度数值;所述排序单元还用于根据所述其它数据资源各维度信息所对应的维度数值和各维度信息所对应的预设权重进行加权平均,得到所述其它数据资源的平均值,并根据所述平均值对相应的其它数据资源进行排序。
上述装置的执行过程,可参见其对应的获取数据资源的方法的实现过程。
相应的,本发明实施例还提供一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如上所述的获取数据资源的方法。
相应的,本发明实施例还提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行如上所述的获取数据资源的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种获取数据资源的方法,其特征在于,所述方法包括:
获取关键词和检索标签;
根据所述关键词和检索标签在数据资源管理系统中进行检索,得到待排序的目标数据资源以及各目标数据资源对应的维度信息;
对所述目标数据资源对应的维度信息中非数值化的维度信息进行预处理,得到该维度信息对应的维度数值;
根据所述目标数据资源各维度信息所对应的维度数值和各维度信息所对应的预设权重进行加权平均,得到每个目标数据资源的平均值,并根据所述平均值对相应的目标数据资源进行排序;
所述数据资源管理系统中包括多个数据资源、以及每个数据资源所对应的名称、描述和标签;
并且,所述根据所述关键词和检索标签在数据资源管理系统中进行检索,得到待排序的目标数据资源以及各目标数据资源对应的维度信息包括:
将所述数据资源管理系统中数据资源的名称和/或描述与所述关键词匹配、且标签与所述检索标签匹配的数据资源,确定为所述待排序的目标数据资源;
所述维度信息中包括名称相关性和描述相关性,通过下述方式确定所述目标数据资源的所述名称相关性以及描述相关性所对应的维度数值:
将所述目标数据资源的名称和描述与所述关键词进行匹配,分别得到所述目标数据资源的名称相似值和描述相似值;
所述对所述目标数据资源对应的维度信息中非数值化的维度信息进行预处理,得到该维度信息对应的维度数值包括:
当所述维度信息中包括数据质量时,根据所述目标数据资源的数据质量对应的文字标签以及预设文字与数值的对应关系,将所述目标数据资源的数据质量对应的文字标签转换为质量数值,所述数据质量表示数据资源的质量;和/或
当所述维度信息中包括最近更新时间时,通过unix时间戳转换器,将所述目标数据资源的最近更新时间转换为更新时间数值;和/或
当所述维度信息中包括评论情感时,通过情感识别工具,将所述目标数据资源的评论情感转换为评论情感比例。
2.根据权利要求1所述的方法,其特征在于,在所述根据所述目标数据资源各维度信息所对应的维度数值和各维度信息所对应的预设权重进行加权平均时,其中所述维度信息所对应的维度数值包括所述名称相关性所对应的所述名称相似值以及所述描述相关性所对应的描述相似值,或所述名称相关性和描述相关性所对应的综合相似值,其中所述综合相似值由所述名称相似值和所述描述相似值得到。
3.根据权利要求1所述的方法,其特征在于,所述维度信息还包括点击数、收藏数、评论数、版本迭代频率或关联关系总数量中的至少一个,其中所述关联关系总数量为数据资源与其它数据资源关联的次数。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标数据资源各维度信息所对应的维度数值和各维度信息所对应的预设权重进行加权平均,得到每个目标数据资源的平均值包括:
根据
Figure 142753DEST_PATH_IMAGE001
,得到每个目标数据资源的平均值,其中,
Figure 699636DEST_PATH_IMAGE002
为每个目标数据资源的平均值,n为每个目标数据资源的维度信息的数量,
Figure 701090DEST_PATH_IMAGE003
为每个目标数据资源第i个维度信息所对应的预设权重,
Figure 634411DEST_PATH_IMAGE004
为每个目标数据资源第i个维度信息所对应的维度数值。
5.根据权利要求1所述的方法,其特征在于,在所述得到待排序的目标数据资源以及各目标数据资源对应的维度信息之后,所述方法还包括:
根据各目标数据资源的名称、描述、全文以及标签,检索得到与各目标数据资源相关的其它数据资源以及所述其它数据资源对应的维度信息;
对所述其它数据资源对应的维度信息中非数值化的维度信息进行预处理,得到该维度信息对应的维度数值;
根据所述其它数据资源各维度信息所对应的维度数值和各维度信息所对应的预设权重进行加权平均,得到所述其它数据资源的平均值,并根据所述平均值对相应的其它数据资源进行排序。
6.一种用于执行如权利要求1-5中任一项所述的获取数据资源的方法的装置,其特征在于,所述装置包括:
获取单元,用于获取关键词和检索标签;
检索单元,用于根据所述关键词和检索标签在数据资源管理系统中进行检索,得到待排序的目标数据资源以及各目标数据资源对应的维度信息;
预处理单元,用于对所述目标数据资源对应的维度信息中非数值化的维度信息进行预处理,得到该维度信息对应的维度数值;
排序单元,用于根据所述目标数据资源各维度信息所对应的维度数值和各维度信息所对应的预设权重进行加权平均,得到每个目标数据资源的平均值,并根据所述平均值对相应的目标数据资源进行排序。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1~5中任一项所述的获取数据资源的方法。
8.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如权利要求1~5中任一项所述的获取数据资源的方法。
CN201811285597.3A 2018-10-31 2018-10-31 获取数据资源的方法、装置、存储介质及处理器 Active CN111125086B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811285597.3A CN111125086B (zh) 2018-10-31 2018-10-31 获取数据资源的方法、装置、存储介质及处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811285597.3A CN111125086B (zh) 2018-10-31 2018-10-31 获取数据资源的方法、装置、存储介质及处理器

Publications (2)

Publication Number Publication Date
CN111125086A CN111125086A (zh) 2020-05-08
CN111125086B true CN111125086B (zh) 2023-02-24

Family

ID=70485389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811285597.3A Active CN111125086B (zh) 2018-10-31 2018-10-31 获取数据资源的方法、装置、存储介质及处理器

Country Status (1)

Country Link
CN (1) CN111125086B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651244B (zh) * 2020-12-25 2022-12-09 上海交通大学 一种基于论文摘要QA的TopK实体抽取方法与系统
WO2022213313A1 (en) 2021-04-08 2022-10-13 Citrix Systems, Inc. Intelligent collection of meeting background information
CN113377971B (zh) * 2021-05-31 2024-02-27 北京达佳互联信息技术有限公司 多媒体资源生成方法、装置、电子设备以及存储介质
WO2023102762A1 (en) 2021-12-08 2023-06-15 Citrix Systems, Inc. Systems and methods for intelligent messaging
WO2023102807A1 (en) * 2021-12-09 2023-06-15 Citrix Systems, Inc. Systems and methods for intelligently augmenting new task
WO2023206058A1 (en) 2022-04-26 2023-11-02 Citrix Systems, Inc. Aggregating electronic messages for meetings
CN116644184B (zh) * 2023-07-27 2023-10-20 浙江厚雪网络科技有限公司 基于数据聚类的人力资源信息管理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159932A (zh) * 2015-08-07 2015-12-16 南车青岛四方机车车辆股份有限公司 一种数据检索和排序系统和方法
CN107358500A (zh) * 2017-06-30 2017-11-17 中山大学 基于区块链的评价排序方法
CN108256119A (zh) * 2018-02-14 2018-07-06 北京方正阿帕比技术有限公司 一种资源推荐模型的构建方法及基于该模型的资源推荐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021374A (zh) * 2016-05-11 2016-10-12 百度在线网络技术(北京)有限公司 查询结果的底层召回方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159932A (zh) * 2015-08-07 2015-12-16 南车青岛四方机车车辆股份有限公司 一种数据检索和排序系统和方法
CN107358500A (zh) * 2017-06-30 2017-11-17 中山大学 基于区块链的评价排序方法
CN108256119A (zh) * 2018-02-14 2018-07-06 北京方正阿帕比技术有限公司 一种资源推荐模型的构建方法及基于该模型的资源推荐方法

Also Published As

Publication number Publication date
CN111125086A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111125086B (zh) 获取数据资源的方法、装置、存储介质及处理器
US11663254B2 (en) System and engine for seeded clustering of news events
CN109885692B (zh) 知识数据存储方法、装置、计算机设备和存储介质
US9317613B2 (en) Large scale entity-specific resource classification
US11016997B1 (en) Generating query results based on domain-specific dynamic word embeddings
US7788265B2 (en) Taxonomy-based object classification
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
CN101404015B (zh) 自动生成词条层次
CN109145110B (zh) 标签查询方法和装置
US9311388B2 (en) Semantic and contextual searching of knowledge repositories
CN106033416A (zh) 一种字符串处理方法及装置
CN103425740B (zh) 一种面向物联网的基于语义聚类的物资信息检索方法
CN101364239A (zh) 一种分类目录自动构建方法及相关系统
CA2956627A1 (en) System and engine for seeded clustering of news events
US20080147631A1 (en) Method and system for collecting and retrieving information from web sites
CN102789452A (zh) 类似内容提取方法
CA3051919C (en) Machine learning (ml) based expansion of a data set
CN112035723A (zh) 资源库的确定方法和装置、存储介质及电子装置
Kaur Web content classification: a survey
CN113127650A (zh) 一种基于图数据库的技术图谱构建方法和系统
CN117033744A (zh) 数据查询方法、装置、存储介质以及电子设备
Lei et al. Automatically classify chinese judgment documents utilizing machine learning algorithms
Schirmer et al. A new dataset for topic-based paragraph classification in genocide-related court transcripts
CN114328844A (zh) 一种文本数据集管理方法、装置、设备及存储介质
CN112214494B (zh) 检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant