CN114328844A - 一种文本数据集管理方法、装置、设备及存储介质 - Google Patents

一种文本数据集管理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114328844A
CN114328844A CN202210026588.2A CN202210026588A CN114328844A CN 114328844 A CN114328844 A CN 114328844A CN 202210026588 A CN202210026588 A CN 202210026588A CN 114328844 A CN114328844 A CN 114328844A
Authority
CN
China
Prior art keywords
text data
data set
candidate text
metadata
query requirement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210026588.2A
Other languages
English (en)
Inventor
李鹏宇
李剑锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210026588.2A priority Critical patent/CN114328844A/zh
Publication of CN114328844A publication Critical patent/CN114328844A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据技术领域,揭露了一种文本数据集管理方法、装置、设备及存储介质,方法包括:根据查询需求从索引库中搜索最相关的预设数量个候选文本数据集;从数据库中读取每一候选文本数据集的元数据,并利用所述元数据确定每一候选文本数据集与查询需求之间的匹配度;根据匹配度从预设数量个候选文本数据集中选择至少一个符合查询需求的候选文本数据集;从分布式文件系统中读取候选文本数据集包含的样本。通过索引库检索候选文本数据集、查询数据库获取候选文本数据集的元数据用于进一步计算匹配度、读取分布式文件系统获取最终数据集的样本,相对于现有技术中使用数据库管理文本数据集,能够使得数据集检索更加快捷,便于远程使用数据集。

Description

一种文本数据集管理方法、装置、设备及存储介质
技术领域
本发明涉及大数据技术领域,具体涉及一种文本数据集管理方法、装置、设备及存储介质。
背景技术
随着人工智能领域中自然语言处理(NLP)技术的应用发展,相关文本数据集的规模越来越大。目前对于文本数据集的存储管理,通常是在MySQL等数据库中进行存储,并使用一定的操作流程来实施数据集的管理。
然而,由于数据库属于结构化数据库,而文本数据集通常为非结构化数据,在对文本数据集进行检索处理时耗时比较严重。
发明内容
本发明的目的是针对上述现有技术的不足提出的一种文本数据集管理方法、装置、设备及存储介质,该目的是通过以下技术方案实现的。
本发明的第一方面提出了一种文本数据集管理方法,所述方法包括:
根据用户输入的查询需求从索引库中搜索最相关的预设数量个候选文本数据集;
从数据库中读取每一候选文本数据集的元数据,并利用所述元数据确定每一候选文本数据集与所述查询需求之间的匹配度;
根据所述匹配度从预设数量个候选文本数据集中选择至少一个符合所述查询需求的候选文本数据集;
从分布式文件系统中读取所选候选文本数据集包含的样本。
在本申请的一些实施例中,所述索引库中记录有文本数据集与简要描述词之间的映射关系;所述根据用户输入的查询需求从索引库中搜索最相关的预设数量个候选文本数据集,包括:
从所述查询需求中提取检索关键词;确定所述检索关键词与所述索引库中简要描述词之间的第一相似度,按照第一相似度对简要描述词对应的文本数据集进行倒序排列,从排列结果的第一个文本数据集开始依次获取预设数量个文本数据集作为候选文本数据集。
在本申请的一些实施例中,所述利用所述元数据确定每一候选文本数据集与所述查询需求之间的匹配度,包括:
针对每一候选文本数据集,确定所述候选文本数据集的元数据与所述查询需求之间的第二相似度;利用所述第二相似度和所述候选文本数据集对应的第一相似度确定所述匹配度。
在本申请的一些实施例中,所述确定所述候选文本数据集的元数据与所述查询需求之间的第二相似度,包括:
确定所述元数据中任务类型字段的描述信息与所述查询需求中任务类型之间的任务类型相似度;确定所述元数据中领域字段的描述信息与所述查询需求中领域之间的领域相似度;确定所述元数据中类别字段的描述信息与所述查询需求中类别名称之间的类别相似度;利用所述任务类型相似度、所述领域相似度、以及所述类别相似度获得所述第二相似度。
在本申请的一些实施例中,所述根据所述匹配度从预设数量个候选文本数据集中选择至少一个符合所述查询需求的候选文本数据集,包括:
按照匹配度对预设数量个候选文本数据集进行倒序排列;根据候选文本数据集的排列结果选择至少一个符合所述查询需求的候选文本数据集。
在本申请的一些实施例中,所述根据候选文本数据集的排列结果选择至少一个符合所述查询需求的候选文本数据集,包括:
将候选文本数据集的排列结果以列表方式输出展示;在接收到用户针对一个候选文本数据集的第一查看请求时,将用户选择的候选文本数据集的元数据输出展示;在接收到用户针对多个候选文本数据集的第二查看请求时,对用户选择的多个候选文本数据集的元数据进行汇总后输出展示;在接收到用户选定的候选文本数据集时,将用户选定的候选文本数据集作为符合所述查询需求的候选文本数据集。
在本申请的一些实施例中,所述方法还包括文本数据集的存储过程:
接收文本数据集的添加请求;将所述文本数据集包含的样本存储在所述分布式文件系统中;获取所述文本数据集的元数据,并将所述元数据存储在所述数据库中;利用所述元数据中摘要字段的描述信息提取简要描述词,并将提取的简要描述词与所述文本数据集的标识之间的映射关系存储到所述索引库中。
本发明的第二方面提出了一种文本数据集管理装置,所述装置包括:
搜索模块,用于根据用户输入的查询需求从索引库中搜索最相关的预设数量个候选文本数据集;
匹配确定模块,用于从数据库中读取每一候选文本数据集的元数据,并利用所述元数据确定每一候选文本数据集与所述查询需求之间的匹配度;
选择模块,用于根据所述匹配度从预设数量个候选文本数据集中选择至少一个符合所述查询需求的候选文本数据集;
读取模块,用于从分布式文件系统中读取所选候选文本数据集包含的样本。
本发明的第三方面提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所述方法的步骤。
本发明的第四方面提出了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述第一方面所述方法的步骤。
基于上述第一方面和第二方面所述的文本数据集管理方法及装置,本发明至少具有如下有益效果或优点:
将文本数据集的简要描述存储到便于实现快速检索的索引库中,从而可以从索引库中快速检索到与用户输入的查询需求最为相关的候选文本数据集,由于元数据的查询频率高、占用空间小、结构化程度高,因此将用于描述文本数据集的元数据储存在结构化的数据库中,便于快速查询到候选文本数据集的元数据,进一步利用元数据计算候选文本数据集与查询需求之间的匹配度,并根据匹配度选择符合需求的候选文本数据集,并从便于存储和读取的分布式文件系统中读取符合需求的候选文本数据集包含的样本。
由此可见,通过索引库检索候选文本数据集、查询数据库获取候选文本数据集的元数据用于进一步计算匹配度、以及读取分布式文件系统获取最终文本数据集的样本,相对于现有技术中使用数据库管理文本数据集,能够使得数据集检索更加快捷,便于远程使用数据集。
本发明可以应用于智慧城市技术领域,从而推动智慧城市的建设。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1A为本发明根据一示例性实施例示出的一种文本数据集的存储流程图;
图1B为本发明根据图1A所示实施例示出的一种录入界面示意图;
图2A为本发明根据一示例性实施例示出的一种文本数据集管理方法的实施例流程图;
图2B为本发明根据图2A所示实施例示出的一种搜索界面示意图;
图2C为本发明根据图2A所示实施例示出的一种数据导出界面示意图;
图3为本发明根据一示例性实施例示出的一种文本数据集管理装置的结构示意图;
图4为本发明根据一示例性实施例示出的一种电子设备的硬件结构示意图图;
图5为本发明根据一示例性实施例示出的一种存储介质的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
由于NLP领域的文本数据集规模差异较大,比如有监督数据集可能只有几百个样本,而预训练数据集需要若干G的存储空间,因此现有技术中在数据库的基础上,使用一定的操作流程来实施文本数据集的管理,对于用户来说,在检索使用上非常耗时。
为解决上述技术问题,本发明提出一种文本数据集管理方法,以实现文本数据集的快速检索,便于远程维护和使用文本数据集。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
实施例一:
图1A为本发明根据一示例性实施例示出的一种文本数据集的存储流程图,在本实施例中,文本数据集的存储架构包括用于存储样本的分布式文件系统、用于存储文本数据集的元数据的数据库、以及用于存储文本数据集的简要描述的索引库。如图1A所示,该文本数据集的存储流程包括如下步骤:
步骤101:接收文本数据集的添加请求。
在一种可能的实现方式中,用户将待录入的文本数据集加载到录入界面,并按照录入界面上给出的各项字段的输入提示,录入文本数据集相关描述。
如图1B所示的录入界面,用户按照录入界面操作完毕后,点击“录入数据”按钮后,触发生成添加请求。
由图1B可以看出,需要用户手动录入的描述有:任务类型字段的描述、领域字段的描述、摘要字段的描述、以及其他字段类型的描述。
步骤102:将文本数据集包含的样本存储在分布式文件系统中。
其中,分布式文件系统可以实现大规模数据的存储和读取,文本数据集中的样本(包含文本和标签)即为数据集的主体部分,将数据集包含的所有样本存储在分布式文件系统中,便于后续直接快速读取。
步骤103:获取文本数据集的元数据,并将该元数据存储在数据库中。
其中,用于描述文本数据集的元数据特点是结构化程度高、占用空间小、查询频率高,因此将元数据存储在结构化的数据库中,便于实现高频查询。
需要说明的是,文本数据集的元数据一部分来自用户手动录入,一部分来自系统分析,对于用户手动录入的数据均携带在添加请求中。
基于此,在一种可能的实现方式中,针对获取文本数据集的元数据过程,通过从添加请求中提取任务类型字段的描述信息、领域字段的描述信息、摘要字段的描述信息,并根据文本数据集包含的样本分析类别字段的描述信息,然后将任务类型字段的描述信息、领域字段的描述信息、摘要字段的描述信息、以及类别字段的描述信息作为文本数据集的元数据。
其中,类别字段的描述信息指的是文本数据集的类别名称与类别标签ID对照表和类别个数。
本领域技术人员可以理解的是,上述描述的元数据字段仅为示例性说明,当然还可以包括其他元数据字段的描述信息,如下述表1所示的元数据格式,包括15个元数据字段的描述信息。
Figure BDA0003464945600000061
Figure BDA0003464945600000071
表1
步骤104:利用该元数据中摘要字段的描述信息提取简要描述词,并将提取的简要描述词与文本数据集的标识之间的映射关系存储到索引库中。
其中,摘要字段即为上述表1所示的summary字段名,由于该字段的描述信息属于非结构化数据,因此通过对该字段的描述信息进行分词,并去掉停用词后,以分词结果为key,文本数据集的标识为value的倒排索引映射关系存储到索引库中,以便于快速检索。
至此,完成上述图1A所示的存储流程,通过将文本数据集的主体部分(即文本和标签)存储到分布式文件系统,以实现大规模数据的存储,通过将用于描述文本数据集的元数据存储在数据库中,利于高频查询,通过将非结构化的简要描述转化为结构化的简要描述词存储在索引库中,便于快速检索。
实施例二:
图2A为本发明根据一示例性实施例示出的一种文本数据集管理方法的实施例流程图,基于上述图1A所示实施例的基础上,如图2A所示,该文本数据集管理方法包括如下步骤:
步骤201:根据用户输入的查询需求从索引库中搜索最相关的预设数量个候选文本数据集。
其中,用户可以在搜索界面上按照待处理任务需求输入各种查询条件,因此查询需求中包含至少一个查询条件。
如图2B所示的搜索界面,用户使用自然语言形式的查询语句,以及任务类型、领域等信息描述自身需求,用户点击“搜索数据”按钮后,触发生成查询需求。
在一种可能的实现方式中,通过从查询需求中提取检索关键词,并确定该检索关键词与索引库中简要描述词之间的第一相似度,按照第一相似度对简要描述词对应的文本数据集进行倒序排列,然后从排列结果的第一个文本数据集开始依次获取预设数量个文本数据集作为候选文本数据集。
其中,第一相似度属于查询需求中主要关键词与简要描述词之间的匹配度。
可选的,通过对查询需求中的自然语言形式的需求描述进行分词并过滤停用词,然后按照预设算法(如BM25算法)从索引库中检索第一相似度最高的一定数量的文本数据集作为候选文本数据集。
步骤202:从数据库中读取每一候选文本数据集的元数据,并利用该元数据确定每一候选文本数据集与查询需求之间的匹配度。
其中,候选文本数据集与查询需求之间的匹配度为查询需求中各个查询条件与元数据之间的综合匹配程度。
在一种可能的实现方式中,针对匹配度的确定过程,针对每一候选文本数据集,通过确定候选文本数据集的元数据与查询需求之间的第二相似度,并利用第二相似度和候选文本数据集对应的第一相似度确定匹配度。
可选的,查询需求可以包括任务类型的需求描述、领域的需求描述、以及类别名称的需求描述等。
在具体实施时,通过确定元数据中任务类型字段的描述信息与查询需求中任务类型之间的任务类型相似度,并确定元数据中领域字段的描述信息与查询需求中领域之间的领域相似度,以及确定元数据中类别字段的描述信息与查询需求中类别名称之间的类别相似度,最后利用任务类型相似度、领域相似度、以及类别相似度获得第二相似度。
基于上述描述的过程,候选文本数据集与查询需求之间的匹配度的计算公式如下:
score=scoreBM25*scoretask_type*scoredomain*scoreclass (公式1)
在上述公式1中,scoreBM25表示第一相似度,scoretask_type表示任务类型相似度,scoredomain表示领域相似度,scoreclass表示类别相似度。
具体地,任务类型相似度和领域相似度可以是Jaccard相似度,对于Jaccard相似度的计算公式如下:
Figure BDA0003464945600000091
在上述公式2中,集合1表示查询需求中查询条件的描述集合,集合2为元数据中相应字段的描述信息集合。
类别相似度的计算公式如下:
Figure BDA0003464945600000092
在上述公式3中,accardSimilarity(labelquery,n,label数据集,m)为查询需求中的第n个类别名称与元数据中的第m个类别名称在字符粒度方面的Jaccard相似度。
步骤203:根据该匹配度从预设数量个候选文本数据集中选择至少一个符合查询需求的候选文本数据集。
在一种可能的实现方式中,通过按照匹配度对预设数量个候选文本数据集进行倒序排列,然后根据候选文本数据集的排列结果选择至少一个符合所述查询需求的候选文本数据集。
其中,排列靠前的候选文本数据集为与查询需求相关程度高的数据集。
考虑到用户输入的查询需求描述方式与文本数据集的元数据描述方式相对比较简单,因此上述对文本数据集的排序是比较粗糙的,用户可能需要对文本数据集的情况进行更加细致的分析,以做出最佳决策。
基于此,在具体实施时,可以将候选文本数据集的排列结果以列表方式输出展示,在接收到用户针对一个候选文本数据集的第一查看请求时,将用户选择的候选文本数据集的元数据输出展示,供用户查看其详情,在接收到用户针对多个候选文本数据集的第二查看请求时,对用户选择的多个候选文本数据集的元数据进行汇总后输出展示,在接收到用户选定的候选文本数据集时,将用户选定的候选文本数据集作为符合查询需求的候选文本数据集。
其中,对多个候选文本数据集的汇总可以是并集汇总方式,基于上述表1给出的元数据格式,如表2所示,为元数据中各字段的描述信息的汇总方式。
字段名 汇总方式
task_type 各数据集任务类型列表的并集
domain 各数据集领域列表的并集
word_cloud 各数据集词云词语的并集;相同词语权重求和。
mean_text_len 按语料规模加权求均值。
max_text_len 选最大值。
size 求和。
detail_metrcis 并集。
表2
步骤204:从分布式文件系统中读取所选候选文本数据集包含的样本。
其中,从分布式系统中可以将所选候选文本数据集中的样本导出至指定路径。如图2C所示,通过该导出界面将所选的候选文本数据集可以下载到本地指定路径,也可以下载到远程的指定路径上。
至此,完成上述图2A所示的管理流程,将文本数据集的简要描述存储到便于实现快速检索的索引库中,从而可以从索引库中快速检索到与用户输入的查询需求最为相关的候选文本数据集,由于元数据的查询频率高、占用空间小、结构化程度高,因此将用于描述文本数据集的元数据储存在结构化的数据库中,便于快速查询到候选文本数据集的元数据,进一步利用元数据计算候选文本数据集与查询需求之间的匹配度,并根据匹配度选择符合需求的候选文本数据集,并从便于存储和读取的分布式文件系统中读取符合需求的候选文本数据集包含的样本。
由此可见,通过索引库检索候选文本数据集、查询数据库获取候选文本数据集的元数据用于进一步计算匹配度、以及读取分布式文件系统获取最终文本数据集的样本,相对于现有技术中使用数据库管理文本数据集,能够使得数据集检索更加快捷,便于远程使用数据集。。
与前述文本数据集管理方法的实施例相对应,本发明还提供了文本数据集管理装置的实施例。
图3为本发明根据一示例性实施例示出的一种文本数据集管理装置的结构示意图,该装置用于执行上述任一实施例提供的文本数据集管理方法,如图3所示,该文本数据集管理装置包括:
搜索模块310,用于根据用户输入的查询需求从索引库中搜索最相关的预设数量个候选文本数据集;
匹配确定模块320,用于从数据库中读取每一候选文本数据集的元数据,并利用所述元数据确定每一候选文本数据集与所述查询需求之间的匹配度;
选择模块330,用于根据所述匹配度从预设数量个候选文本数据集中选择至少一个符合所述查询需求的候选文本数据集;
读取模块340,用于从分布式文件系统中读取所选候选文本数据集包含的样本。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施方式还提供一种与前述实施方式所提供的文本数据集管理方法对应的电子设备,以执行上述文本数据集管理方法。
图4为本发明根据一示例性实施例示出的一种电子设备的硬件结构图,该电子设备包括:通信接口601、处理器602、存储器603和总线604;其中,通信接口601、处理器602和存储器603通过总线604完成相互间的通信。处理器602通过读取并执行存储器603中与文本数据集管理方法的控制逻辑对应的机器可执行指令,可执行上文描述的文本数据集管理方法,该方法的具体内容参见上述实施例,此处不再累述。
本发明中提到的存储器603可以是任何电子、磁性、光学或其它物理存储装置,可以包含存储信息,如可执行指令、数据等等。具体地,存储器603可以是RAM(Random AccessMemory,随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、DVD等),或者类似的存储介质,或者它们的组合。通过至少一个通信接口601(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线604可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器603用于存储程序,所述处理器602在接收到执行指令后,执行所述程序。
处理器602可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器602中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器602可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。
本申请实施例提供的电子设备与本申请实施例提供的文本数据集管理方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的文本数据集管理方法对应的计算机可读存储介质,请参考图5所示,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的文本数据集管理方法。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的文本数据集管理方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种文本数据集管理方法,其特征在于,所述方法包括:
根据用户输入的查询需求从索引库中搜索最相关的预设数量个候选文本数据集;
从数据库中读取每一候选文本数据集的元数据,并利用所述元数据确定每一候选文本数据集与所述查询需求之间的匹配度;
根据所述匹配度从预设数量个候选文本数据集中选择至少一个符合所述查询需求的候选文本数据集;
从分布式文件系统中读取所选候选文本数据集包含的样本。
2.根据权利要求1所述的方法,其特征在于,所述索引库中记录有文本数据集与简要描述词之间的映射关系;
所述根据用户输入的查询需求从索引库中搜索最相关的预设数量个候选文本数据集,包括:
从所述查询需求中提取检索关键词;
确定所述检索关键词与所述索引库中简要描述词之间的第一相似度;
按照第一相似度对简要描述词对应的文本数据集进行倒序排列,从排列结果的第一个文本数据集开始依次获取预设数量个文本数据集作为候选文本数据集。
3.根据权利要求2所述的方法,其特征在于,所述利用所述元数据确定每一候选文本数据集与所述查询需求之间的匹配度,包括:
针对每一候选文本数据集,确定所述候选文本数据集的元数据与所述查询需求之间的第二相似度;
利用所述第二相似度和所述候选文本数据集对应的第一相似度确定所述匹配度。
4.根据权利要求3所述的方法,其特征在于,所述确定所述候选文本数据集的元数据与所述查询需求之间的第二相似度,包括:
确定所述元数据中任务类型字段的描述信息与所述查询需求中任务类型之间的任务类型相似度;
确定所述元数据中领域字段的描述信息与所述查询需求中领域之间的领域相似度;
确定所述元数据中类别字段的描述信息与所述查询需求中类别名称之间的类别相似度;
利用所述任务类型相似度、所述领域相似度、以及所述类别相似度获得所述第二相似度。
5.根据权利要求1所述的方法,其特征在于,所述根据所述匹配度从预设数量个候选文本数据集中选择至少一个符合所述查询需求的候选文本数据集,包括:
按照匹配度对预设数量个候选文本数据集进行倒序排列;
根据候选文本数据集的排列结果选择至少一个符合所述查询需求的候选文本数据集。
6.根据权利要求5所述的方法,其特征在于,所述根据候选文本数据集的排列结果选择至少一个符合所述查询需求的候选文本数据集,包括:
将候选文本数据集的排列结果以列表方式输出展示;
在接收到用户针对一个候选文本数据集的第一查看请求时,将用户选择的候选文本数据集的元数据输出展示;
在接收到用户针对多个候选文本数据集的第二查看请求时,对用户选择的多个候选文本数据集的元数据进行汇总后输出展示;
在接收到用户选定的候选文本数据集时,将用户选定的候选文本数据集作为符合所述查询需求的候选文本数据集。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括文本数据集的存储过程:
接收文本数据集的添加请求;
将所述文本数据集包含的样本存储在所述分布式文件系统中;
获取所述文本数据集的元数据,并将所述元数据存储在所述数据库中;
利用所述元数据中摘要字段的描述信息提取简要描述词,并将提取的简要描述词与所述文本数据集的标识之间的映射关系存储到所述索引库中。
8.一种文本数据集管理装置,其特征在于,所述装置包括:
搜索模块,用于根据用户输入的查询需求从索引库中搜索最相关的预设数量个候选文本数据集;
匹配确定模块,用于从数据库中读取每一候选文本数据集的元数据,并利用所述元数据确定每一候选文本数据集与所述查询需求之间的匹配度;
选择模块,用于根据所述匹配度从预设数量个候选文本数据集中选择至少一个符合所述查询需求的候选文本数据集;
读取模块,用于从分布式文件系统中读取所选候选文本数据集包含的样本。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。
CN202210026588.2A 2022-01-11 2022-01-11 一种文本数据集管理方法、装置、设备及存储介质 Pending CN114328844A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210026588.2A CN114328844A (zh) 2022-01-11 2022-01-11 一种文本数据集管理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210026588.2A CN114328844A (zh) 2022-01-11 2022-01-11 一种文本数据集管理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114328844A true CN114328844A (zh) 2022-04-12

Family

ID=81027603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210026588.2A Pending CN114328844A (zh) 2022-01-11 2022-01-11 一种文本数据集管理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114328844A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117149861A (zh) * 2023-11-01 2023-12-01 江苏中天互联科技有限公司 基于工业标识的数据查询方法及相关设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117149861A (zh) * 2023-11-01 2023-12-01 江苏中天互联科技有限公司 基于工业标识的数据查询方法及相关设备
CN117149861B (zh) * 2023-11-01 2024-02-06 江苏中天互联科技有限公司 基于工业标识的数据查询方法及相关设备

Similar Documents

Publication Publication Date Title
CN114416927B (zh) 智能问答方法、装置、设备及存储介质
KR101027864B1 (ko) 대량의 전자 문서 검색을 위한 문서 관련성을 판정하기위한 기계-학습 접근법
EP3579125A1 (en) System, computer-implemented method and computer program product for information retrieval
US10438133B2 (en) Spend data enrichment and classification
JP5721818B2 (ja) 検索におけるモデル情報群の使用
CN111125086B (zh) 获取数据资源的方法、装置、存储介质及处理器
US20130060769A1 (en) System and method for identifying social media interactions
JP7451747B2 (ja) コンテンツを検索する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
CN110163376B (zh) 样本检测方法、媒体对象的识别方法、装置、终端及介质
CN108846097B (zh) 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
JP6056610B2 (ja) テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム
CN110737756B (zh) 确定针对用户输入数据的应答的方法、装置、设备和介质
CN111767738A (zh) 一种标签校验方法、装置、设备和存储介质
CN110795613A (zh) 商品搜索方法、装置、系统及电子设备
CN114328844A (zh) 一种文本数据集管理方法、装置、设备及存储介质
CN110019474B (zh) 异构数据库中的同义数据自动关联方法、装置及电子设备
CN101894158B (zh) 一种智能检索系统
CN117033744A (zh) 数据查询方法、装置、存储介质以及电子设备
Szczuka et al. Using domain knowledge in initial stages of KDD: Optimization of compound object processing
CN107908724B (zh) 一种数据模型匹配方法、装置、设备及存储介质
JP6260678B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
CN115617980A (zh) 一种诉讼案例检索报告生成方法及系统
CN115017385A (zh) 一种物品搜索方法、装置、设备和存储介质
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
CN113505117A (zh) 基于数据指标的数据质量评估方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination