CN113157978A - 数据的标签建立方法和装置 - Google Patents

数据的标签建立方法和装置 Download PDF

Info

Publication number
CN113157978A
CN113157978A CN202110052485.9A CN202110052485A CN113157978A CN 113157978 A CN113157978 A CN 113157978A CN 202110052485 A CN202110052485 A CN 202110052485A CN 113157978 A CN113157978 A CN 113157978A
Authority
CN
China
Prior art keywords
label
data
marked
judging
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110052485.9A
Other languages
English (en)
Other versions
CN113157978B (zh
Inventor
侯晓伟
刘功胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202110052485.9A priority Critical patent/CN113157978B/zh
Publication of CN113157978A publication Critical patent/CN113157978A/zh
Application granted granted Critical
Publication of CN113157978B publication Critical patent/CN113157978B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了数据的标签建立方法和装置,该方法包括:获取数据注册库;其中,数据注册库包括:数据来源库和标签库,数据来源库存储有待进行标签建立的待标记数据,标签库存储有标签信息;根据业务需求和预先设定的标记规则,确定数据来源库所对应的标签类型;确定与标签类型相对应的研判模型,以及确定与该研判模型相绑定的至少一个标签库;利用研判模型和与之相绑定的至少一个标签库对待标记数据进行标签构建。本方案能够通过模型实现对数据建立标签,从而能够节省大量的时间和人力。

Description

数据的标签建立方法和装置
技术领域
本发明涉及计算机技术领域,特别涉及数据的标签建立方法和装置。
背景技术
标签是一种用来描述业务实体特征的数据形式,通过标签可以有效扩展 业务实体的角度,且通过对不同标签的简单操作,便可以进行数据筛选和分 析,从而帮助用户更全面、更准确地对分析对象进行刻画。
传统的标签方式主要有人工标记和接口标记,然而人工标记和接口标记 需要耗费大量的时间和人力。而且还容易出现标记错误的问题,尤其在现阶 段大数据普遍存在的情况下,人工标记和接口标记变得更加不现实。因此, 需要提供一种数据的标签建立方案,以解决传统的标签方式的不足。
发明内容
本发明提供了一种数据的标签建立方法和装置,能够通过模型实现对数 据建立标签,从而能够节省大量的时间和人力。
第一方面,本发明实施例提供了一种数据的标签建立方法,该方法包括:
获取数据注册库;其中,所述数据注册库包括:数据来源库和标签库, 所述数据来源库存储有待进行标签建立的待标记数据,所述标签库存储有标 签信息;
根据业务需求和预先设定的标记规则,确定所述数据来源库所对应的标 签类型;
确定与所述标签类型相对应的研判模型,以及确定与该研判模型相绑定 的至少一个所述标签库;
利用所述研判模型和与之相绑定的至少一个所述标签库对所述待标记数 据进行标签构建。
在一种可能的实现方式中,所述研判模型的构建方法,包括:
获取用于构建模型的历史待标记数据的关键字段;其中,所述关键字段 能够表征所属语句的语义信息;
将所述关键字段作为输入参数,以及将所述标签信息作为输出参数建立 初级映射关系;
获取预先设定的研判规则,并利用该研判规则对所述初级映射关系进行 优化;其中,所述研判规则用于表征由所述输入参数获得所述输出参数的条 件因素;
利用优化后的所述初级映射关系建立所述研判模型。
在一种可能的实现方式中,所述待标记数据的获取方法包括:
获取当前数据的第一标识符;其中,所述第一标识符用于表征所述当前 数据的时间信息,所述第一标识符包括时间戳;
获取进行过标签建立的历史数据的第二标识符;其中,所述第二标识符 用于表征所述历史数据建立标签的时间信息;
判断所述第一标识符所表征的时间和所述第二标识符所表征的时间的先 后顺序;
若所述第一标识符所表征的时间在所述第二标识符所表征的时间之后, 则将所述当前数据确定为未经过标签建立的待标记数据;否则,确定所述当 前数据已经建立过标签。
在一种可能的实现方式中,在利用所述研判模型和与之相绑定的至少一 个所述标签库对所述待标记数据进行标签构建之后,进一步包括:
针对建立标签后的各个所述待标记数据设置标签时效期;其中,所述标 签时效期用于表征该标签的有效期限;
根据预设时间间隔,对各个所述待标记数据的有效性进行判断;
若该待标记数据的标签存在的时间大于该标签的标签时效期,则清除该 待标记数据的标签。
在一种可能的实现方式中,在利用所述研判模型和与之相绑定的至少一 个所述标签库对所述待标记数据进行标签构建之后,进一步包括:
将建立过标签的所述待标记数据同步到至少一个搜索引擎中,以使所述 搜索引擎根据所述待标记数据的标签对数据进行搜索。
第二方面,本发明实施例提供了一种数据的标签建立装置,该装置包括: 获取模块、第一确定模块、第二确定模块和输出模块;
所述获取模块,用于获取数据注册库;其中,所述数据注册库包括:数 据来源库和标签库,所述数据来源库存储有待进行标签建立的待标记数据, 所述标签库存储有标签信息;
所述第一确定模块,用于根据业务需求和预先设定的标记规则,确定所 述获取模块获取到的所述数据来源库所对应的标签类型;
所述第二确定模块,用于确定与所述第一确定模块确定的所述标签类型 相对应的研判模型,以及确定与该研判模型相绑定的至少一个所述标签库;
所述输出模块,用于利用所述第二确定模块确定的所述研判模型和与之 相绑定的至少一个所述标签库对所述待标记数据进行标签构建。
在一种可能的实现方式中,还包括:研判模型构建模块;
所述研判模型构建模块,用于执行如下操作:
获取用于构建模型的历史待标记数据的关键字段;其中,所述关键字段 能够表征所属语句的语义信息;
将所述关键字段作为输入参数,以及将所述标签信息作为输出参数建立 初级映射关系;
获取预先设定的研判规则,并利用该研判规则对所述初级映射关系进行 优化;其中,所述研判规则用于表征由所述输入参数获得所述输出参数的条 件因素;
利用优化后的所述初级映射关系建立所述研判模型。
在一种可能的实现方式中,所述获取模块,用于执行如下操作:
获取当前数据的第一标识符;其中,所述第一标识符用于表征所述当前 数据的时间信息,所述第一标识符包括时间戳;
获取进行过标签建立的历史数据的第二标识符;其中,所述第二标识符 用于表征所述历史数据建立标签的时间信息;
判断所述第一标识符所表征的时间和所述第二标识符所表征的时间的先 后顺序;
若所述第一标识符所表征的时间在所述第二标识符所表征的时间之后, 则将所述当前数据确定为未经过标签建立的待标记数据;否则,确定所述当 前数据已经建立过标签。
在一种可能的实现方式中,还包括:标签时效判断模块;
所述标签时效判断模块,用于执行如下操作:
针对建立标签后的各个所述待标记数据设置标签时效期;其中,所述标 签时效期用于表征该标签的有效期限;
根据预设时间间隔,对各个所述待标记数据的有效性进行判断;
若该待标记数据的标签存在的时间大于该标签的标签时效期,则清除该 待标记数据的标签。
在一种可能的实现方式中,还包括:同步模块;
所述同步模块,用于执行如下操作:
将建立过标签的所述待标记数据同步到至少一个搜索引擎中,以使所述 搜索引擎根据所述待标记数据的标签对数据进行搜索。
由上述技术方案可知,在对数据建立标签时,首先需要获取包含数据来 源库和标签库的数据注册库,其中该数据来源库存储有待进行标签建立的待 标记数据,标签库存储有标签信息,当确定了业务性质后,根据该业务性质 的需求可以确定出数据来源库所对应的标签类型,进一步根据该标签类型, 可以确定出与该标签类型相对应的研判模型,以及与该研判模型相绑定的标 签库,从而通过利用该研判模型和标签库即可实现对待标记数据进行标签构 建。由此可见,本方案不需要通过人工对数据进行标签定义和构建,通过建立的模型即可实现标签的自动构建,从而能够节省大量的时间和人力。此外 可以避免由于人为导致的标签定义错误的情况,即能够提升标签构建的准确 性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不 付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种数据的标签建立方法的流程图;
图2是本发明一个实施例提供的一种数据的标签建立装置的结构示意 图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发 明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所 获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种数据的标签构建方法,该方法具 体可以包括如下步骤:
步骤101:获取数据注册库;其中,数据注册库包括:数据来源库和标 签库,数据来源库存储有待进行标签建立的待标记数据,标签库存储有标签 信息;
步骤102:根据业务需求和预先设定的标记规则,确定数据来源库所对 应的标签类型;
步骤103:确定与标签类型相对应的研判模型,以及确定与该研判模型 相绑定的至少一个标签库;
步骤104:利用研判模型和与之相绑定的至少一个标签库对待标记数据 进行标签构建。
在本发明实施例中,在对数据建立标签时,首先需要获取包含数据来源 库和标签库的数据注册库,其中该数据来源库存储有待进行标签建立的待标 记数据,标签库存储有标签信息,当确定了业务性质后,根据该业务性质的 需求可以确定出数据来源库所对应的标签类型,进一步根据该标签类型,可 以确定出与该标签类型相对应的研判模型,以及与该研判模型相绑定的标签 库,从而通过利用该研判模型和标签库即可实现对待标记数据进行标签构建。 由此可见,本方案不需要进行人工对数据进行标签定义和构建,通过建立的 模型即可实现标签的自动构建,从而能够节省大量的时间和人力。此外可以 避免由于人为导致的标签定义错误的情况,即能够提升标签构建的准确性。
在一种可能的实现方式中,在对研判模型进行构建时,具体可以包括如 下步骤:
获取用于构建模型的历史待标记数据的关键字段;其中,关键字段能够 表征所属语句的语义信息;
将关键字段作为输入参数,以及将标签信息作为输出参数建立初级映射 关系;
获取预先设定的研判规则,并利用该研判规则对初级映射关系进行优化; 其中,研判规则用于表征由输入参数获得输出参数的条件因素;
利用优化后的初级映射关系建立研判模型。
在本发明实施例中,通过利用历史待标记数据中的能够表征所属语句的 语义信息的关键字段,并将该关键字段作为输入参数以及标签信息作为输出 参数建立初级映射关系,进一步通过研判规则对该初级映射关系进行优化, 从而利用优化后的初级映射关系建立研判模型,由此可见,本方案通过利用 能够表征语义信息的关键字段和标签信息来作为模型训练的输入和输出,以 及通过研判规则对模型的映射关系进行优化,从而提高了研判模型的标签建 立准确性。
在一种可能的实现方式中,在对待标记的数据进行获取时,具体可以通 过如下步骤实现:
获取当前数据的第一标识符;其中,第一标识符用于表征当前数据的时 间信息,第一标识符包括时间戳;
获取进行过标签建立的历史数据的第二标识符;其中,第二标识符用于 表征历史数据建立标签的时间信息;
判断第一标识符所表征的时间和第二标识符所表征的时间的先后顺序;
若第一标识符所表征的时间在第二标识符所表征的时间之后,则将当前 数据确定为未经过标签建立的待标记数据;否则,将确定当前数据已经建立 过标签。
在本发明实施例中,可以设置数据的定时查询任务,即根据预设的时间 间隔对数据进行查询,然后将新的数据进行标签建立。如此在查询过程中需 要判定当前的数据是否已经建立过标签,具体的可以通过判断当前数据的第 一标识符和进行过标签建立的历史数据的第二标识符各自所表征的时间的先 后顺序,如此即可将时间位于第二标识符所对应的时间之后的第一标识符所 表征的当前数据确定为待标记数据。也就是说,本方案不仅能够实现对新数 据进行自动标签建立的过程,而且通过标识符的判断可以将已经进行过标签 建立的数据和新数据进行区分,从而避免了数据的重复标签建立,进一步提 升了处理器的执行效率。
在一种可能的实现方式中,在利用研判模型和与之相绑定的至少一个标 签库对待标记数据进行标签构建之后,进一步包括:
针对建立标签后的各个待标记数据设置标签时效期;其中,标签时效期 用于表征该标签的有效期限;
根据预设时间间隔,对各个待标记数据的有效性进行判断;
若该待标记数据的标签存在的时间大于该标签的标签时效期,则清除该 待标记数据的标签。
在本发明实施例中,通过对标签建立标签时效期,然后根据预先设定的 时间间隔对该标签是否有效进行判定,并将判定为过期的标签进行清除,避 免了僵尸标签的存在,即能够解放处理器的占用内存,提高执行效率。
在一种可能的实现方式中,在利用研判模型和与之相绑定的至少一个标 签库对待标记数据进行标签构建之后,进一步包括:
将建立过标签的待标记数据同步到至少一个搜索引擎中,以使搜索引擎 根据待标记数据的标签对数据进行搜索。
在本发明实施例中,可以将建立过标签的待标记数据同步到搜索引擎中, 如此搜索引擎在进行数据搜索时,通过标签可以更加高效快捷的实现数据的 搜索查询。
下面对本发明提供的数据的标签建立方法作进一步详细的说明。
标签是一种用来描述业务实体特征的数据形式,通过标签可以有效扩展 业务实体的分析角度,且通过对不同标签的简单操作,便可以进行数据筛选 和分析。对人进行标签刻画,可以从“性别”、“年龄”、“地区”、“法定代表人”、 “老赖”、“诚信”等角度进行描述,对市场主体,可以从“经营状态”、“违法记 录”等角度进行描述,尽可能多的扩展分析系角度,能够帮助用户更全面、更 准确地分析对象进行刻画,这些数据特征具有一定的通用性和价值。本方案 的构架主要是在人工标签和接口标签的基础上,提供了一种研判标签的方式, 以使先对大数据的自动标签,建立标签库。
总的来说,本发明实施例提供的数据的标签建立方法主要可以包括:数 据源和数据资源的注册、标签定义、研判模型和标签模型、以及标签分析。 数据源和数据资源的注册只要是对标签库和需要建立标签的数据资源进行注 册;标签定义主要包括标签分类、标签执行、标签审核和标签发布;研判模 型和标签研判主要是制定标签研判的模型,配置标签库,以及基于研判模型 制定标签模型;标签分析主要是对标记过的数据进行查询和统计分析。具体 地可以包括如下内容:
1)数据源和数据资源注册:将需要标记的数据来源库和标签库注册到数 据源中,可以是关系型数据库或着非结构化查询语言NOSQL数据库,关系 型数据库支持ORACLE、MYSQL、SQLSERVER、DB2等主流数据库,NOSQL 数据库支持HBASE、MONGODB等,注册完数据源,基于注册的数据源注 册需要标记的表信息,包括字段信息、主键信息等,支持在线浏览表中的数 据。可以将注册的数据资源发布成数据服务,供第三方调用。
2)标签定义:依赖业务需求和业务经验,通过人为定义标记规则。先对 标签进行分类,根据业务需求不同,将标签分为不同的类型。在不同分类下 建立不同的标签,需要设置标签的时效,定时检测标签数据,防止僵尸标签。 具有审核权限的人对标签审核通过后方可发布。
3)研判模型和标签研判:定义制定研判规则,依赖机器学习算法,通过 将影响因子提供给机器算法模型,将标签库和研判模型进行绑定,配置模型 输入参数,获取模型输出结果字段,并将结果与数据资源字段对应、返回结 果与标签对应,设置定时任务,高效快捷智能的给数据打标记。
4)标签分析:可以对标签数据进行查询,查看标签记录的方式和标签时 限,查看标记信息详情。基于标签数据,查看标签统计分析信息。可以将标 签数据同步到ELASTICSEARCH或者SOLR等搜索引擎中,更快捷高效的 搜索数据。
由此可见,本方案实现了对传统的人工标记和接口标记的标签建立方式 的丰富,通过研判标记的方式,可以高效、快捷地自动生成标签,而且本方 案还可以实现对外提供标签查询和标记接口,可以与其他需要标记数据的系 统进行对接。此外,本方案全程可视化操作,了解业务需求的实施人员可以 根据业务需要,定制标签研判,较低系统的使用门槛,减少后期系统运维的 工作,以及根据业务需求进行灵活配置。
如图2所示,本发明实施例还提供了一种数据的标签建立装置,该装置 可以包括:获取模块201、第一确定模块202、第二确定模块203和输出模块 204;
获取模块201,用于获取数据注册库;其中,数据注册库包括:数据来 源库和标签库,数据来源库存储有待进行标签建立的待标记数据,标签库存 储有标签信息;
第一确定模块202,用于根据业务需求和预先设定的标记规则,确定获 取模块201获取到的数据来源库所对应的标签类型;
第二确定模块203,用于确定与第一确定模块202确定的标签类型相对 应的研判模型,以及确定与该研判模型相绑定的至少一个标签库;
输出模块204,用于利用第二确定模块203确定的研判模型和与之相绑 定的至少一个标签库对待标记数据进行标签构建。
在一种可能的实现方式中,该数据的标签建立装置,还包括:研判模型 构建模块;
研判模型构建模块,用于执行如下操作:
获取用于构建模型的历史待标记数据的关键字段;其中,关键字段能够 表征所属语句的语义信息;
将关键字段作为输入参数,以及将标签信息作为输出参数建立初级映射 关系;
获取预先设定的研判规则,并利用该研判规则对初级映射关系进行优化; 其中,研判规则用于表征由输入参数获得输出参数的条件因素;
利用优化后的初级映射关系建立研判模型。
在一种可能的实现方式中,获取模块201,用于执行如下操作:
获取当前数据的第一标识符;其中,第一标识符用于表征当前数据的时 间信息,第一标识符包括时间戳;
获取进行过标签建立的历史数据的第二标识符;其中,第二标识符用于 表征历史数据建立标签的时间信息;
判断第一标识符所表征的时间和第二标识符所表征的时间的先后顺序;
若第一标识符所表征的时间在第二标识符所表征的时间之后,则将当前 数据确定为未经过标签建立的待标记数据;否则,将确定当前数据已经建立 过标签。
在一种可能的实现方式中,该数据的标签建立装置,还包括:标签时效 判断模块;
标签时效判断模块,用于执行如下操作:
针对建立标签后的各个待标记数据设置标签时效期;其中,标签时效期 用于表征该标签的有效期限;
根据预设时间间隔,对各个待标记数据的有效性进行判断;
若该待标记数据的标签存在的时间大于该标签的标签时效期,则清除该 待标记数据的标签。
在一种可能的实现方式中,该数据的标签建立装置,还包括:同步模块;
同步模块,用于执行如下操作:
将建立过标签的待标记数据同步到至少一个搜索引擎中,以使搜索引擎 根据待标记数据的标签对数据进行搜索。
本发明一个实施例还提供了一种计算机可读存储介质,其上存储有计算机 程序,当计算机程序在计算机中执行时,令计算机执行说明书中任一个实施 例中的方法。
本发明一个实施例还提供了一种计算设备,包括存储器和处理器,存储器 中存储有可执行代码,处理器执行可执行代码时,实现执行说明书中任一个实 施例中的方法。
可以理解的是,本说明书实施例示意的结构并不构成对数据的标签建立 装置的具体限定。在说明书的另一些实施例中,数据的标签建立装置可以包 括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或 者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来 实现。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本说明 书方法实施例基于同一构思,具体内容可参见本说明书方法实施例中的叙述, 此处不再赘述。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将 一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这 些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包 含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素 的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出 的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。 在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在 包括要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤 可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取 的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述 的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介 质中。
最后需要说明的是:以上仅为本发明的较佳实施例,仅用于说明本发明 的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之 内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
综上,本发明各个实施例提供的一种数据的标签建立方法和装置,至少 具有如下有益效果:
1、在本发明实施例中,在对数据建立标签时,首先需要获取包含数据来 源库和标签库的数据注册库,其中该数据来源库存储有待进行标签建立的待 标记数据,标签库存储有标签信息,当确定了业务性质后,根据该业务性质 的需求可以确定出数据来源库所对应的标签类型,进一步根据该标签类型, 可以确定出与该标签类型相对应的研判模型,以及与该研判模型相绑定的标 签库,从而通过利用该研判模型和标签库即可实现对待标记数据进行标签构 建。由此可见,本方案不需要进行人工对数据进行标签定义和构建,通过建立的模型即可实现标签的自动构建,从而能够节省大量的时间和人力。此外 可以避免由于人为导致的标签定义错误的情况,即能够提升标签构建的准确 性。
2、在本发明实施例中,通过利用历史待标记数据中的能够表征所属语句 的语义信息的关键字段,并将该关键字段作为输入参数以及标签信息作为输 出参数建立初级映射关系,进一步通过研判规则对该初级映射关系进行优化, 从而利用优化后的初级映射关系建立研判模型,由此可见,本方案通过利用 能够表征语义信息的关键字段和标签信息来作为模型训练的输入和输出,以 及通过研判规则对模型的映射关系进行优化,从而提高了研判模型的标签建 立准确性。
3、在本发明实施例中,可以设置数据的定时查询任务,即根据预设的时 间间隔对数据进行查询,然后将新的数据进行标签建立。如此在查询过程中 需要判定当前的数据是否已经建立过标签,具体的可以通过判断当前数据的 第一标识符和进行过标签建立的历史数据的第二标识符各自所表征的时间的 先后顺序,如此即可将时间位于第二标识符所对应的时间之后的第一标识符 所表征的当前数据确定为待标记数据。也就是说,本方案不仅能够实现对新 数据进行自动标签建立的过程,而且通过标识符的判断可以将已经进行过标 签建立的数据和新数据进行区分,从而避免了数据的重复标签建立,进一步 提升了处理器的执行效率。
4、在本发明实施例中,通过对标签建立标签时效期,然后根据预先设定 的时间间隔对该标签是否有效进行判定,并将判定为过期的标签进行清除, 避免了僵尸标签的存在,即能够解放处理器的占用内存,提高执行效率。
5、在本发明实施例中,可以将建立过标签的待标记数据同步到搜索引擎 中,如此搜索引擎在进行数据搜索时,通过标签可以更加高效快捷的实现数 据的搜索查询。

Claims (10)

1.数据的标签建立方法,其特征在于,包括:
获取数据注册库;其中,所述数据注册库包括:数据来源库和标签库,所述数据来源库存储有待进行标签建立的待标记数据,所述标签库存储有标签信息;
根据业务需求和预先设定的标记规则,确定所述数据来源库所对应的标签类型;
确定与所述标签类型相对应的研判模型,以及确定与该研判模型相绑定的至少一个所述标签库;
利用所述研判模型和与之相绑定的至少一个所述标签库对所述待标记数据进行标签构建。
2.根据权利要求1所述的方法,其特征在于,所述研判模型的构建方法,包括:
获取用于构建模型的历史待标记数据的关键字段;其中,所述关键字段能够表征所属语句的语义信息;
将所述关键字段作为输入参数,以及将所述标签信息作为输出参数建立初级映射关系;
获取预先设定的研判规则,并利用该研判规则对所述初级映射关系进行优化;其中,所述研判规则用于表征由所述输入参数获得所述输出参数的条件因素;
利用优化后的所述初级映射关系建立所述研判模型。
3.根据权利要求1所述的方法,其特征在于,所述待标记数据的获取方法包括:
获取当前数据的第一标识符;其中,所述第一标识符用于表征所述当前数据的时间信息,所述第一标识符包括时间戳;
获取进行过标签建立的历史数据的第二标识符;其中,所述第二标识符用于表征所述历史数据建立标签的时间信息;
判断所述第一标识符所表征的时间和所述第二标识符所表征的时间的先后顺序;
若所述第一标识符所表征的时间在所述第二标识符所表征的时间之后,则将所述当前数据确定为未经过标签建立的待标记数据;否则,确定所述当前数据已经建立过标签。
4.根据权利要求1所述的方法,其特征在于,在利用所述研判模型和与之相绑定的至少一个所述标签库对所述待标记数据进行标签构建之后,进一步包括:
针对建立标签后的各个所述待标记数据设置标签时效期;其中,所述标签时效期用于表征该标签的有效期限;
根据预设时间间隔,对各个所述待标记数据的有效性进行判断;
若该待标记数据的标签存在的时间大于该标签的标签时效期,则清除该待标记数据的标签。
5.根据权利要求1至4中任一所述的方法,其特征在于,在利用所述研判模型和与之相绑定的至少一个所述标签库对所述待标记数据进行标签构建之后,进一步包括:
将建立过标签的所述待标记数据同步到至少一个搜索引擎中,以使所述搜索引擎根据所述待标记数据的标签对数据进行搜索。
6.数据的标签建立装置,其特征在于,包括:获取模块、第一确定模块、第二确定模块和输出模块;
所述获取模块,用于获取数据注册库;其中,所述数据注册库包括:数据来源库和标签库,所述数据来源库存储有待进行标签建立的待标记数据,所述标签库存储有标签信息;
所述第一确定模块,用于根据业务需求和预先设定的标记规则,确定所述获取模块获取到的所述数据来源库所对应的标签类型;
所述第二确定模块,用于确定与所述第一确定模块确定的所述标签类型相对应的研判模型,以及确定与该研判模型相绑定的至少一个所述标签库;
所述输出模块,用于利用所述第二确定模块确定的所述研判模型和与之相绑定的至少一个所述标签库对所述待标记数据进行标签构建。
7.根据权利要求6所述的装置,其特征在于,还包括:研判模型构建模块;
所述研判模型构建模块,用于执行如下操作:
获取用于构建模型的历史待标记数据的关键字段;其中,所述关键字段能够表征所属语句的语义信息;
将所述关键字段作为输入参数,以及将所述标签信息作为输出参数建立初级映射关系;
获取预先设定的研判规则,并利用该研判规则对所述初级映射关系进行优化;其中,所述研判规则用于表征由所述输入参数获得所述输出参数的条件因素;
利用优化后的所述初级映射关系建立所述研判模型。
8.根据权利要求6所述的装置,其特征在于,
所述获取模块,用于执行如下操作:
获取当前数据的第一标识符;其中,所述第一标识符用于表征所述当前数据的时间信息,所述第一标识符包括时间戳;
获取进行过标签建立的历史数据的第二标识符;其中,所述第二标识符用于表征所述历史数据建立标签的时间信息;
判断所述第一标识符所表征的时间和所述第二标识符所表征的时间的先后顺序;
若所述第一标识符所表征的时间在所述第二标识符所表征的时间之后,则将所述当前数据确定为未经过标签建立的待标记数据;否则,确定所述当前数据已经建立过标签。
9.根据权利要求6所述的装置,其特征在于,还包括:标签时效判断模块;
所述标签时效判断模块,用于执行如下操作:
针对建立标签后的各个所述待标记数据设置标签时效期;其中,所述标签时效期用于表征该标签的有效期限;
根据预设时间间隔,对各个所述待标记数据的有效性进行判断;
若该待标记数据的标签存在的时间大于该标签的标签时效期,则清除该待标记数据的标签。
10.根据权利要求6至9中任一所述的装置,其特征在于,还包括:同步模块;
所述同步模块,用于执行如下操作:
将建立过标签的所述待标记数据同步到至少一个搜索引擎中,以使所述搜索引擎根据所述待标记数据的标签对数据进行搜索。
CN202110052485.9A 2021-01-15 2021-01-15 数据的标签建立方法和装置 Active CN113157978B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110052485.9A CN113157978B (zh) 2021-01-15 2021-01-15 数据的标签建立方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110052485.9A CN113157978B (zh) 2021-01-15 2021-01-15 数据的标签建立方法和装置

Publications (2)

Publication Number Publication Date
CN113157978A true CN113157978A (zh) 2021-07-23
CN113157978B CN113157978B (zh) 2023-03-28

Family

ID=76878389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110052485.9A Active CN113157978B (zh) 2021-01-15 2021-01-15 数据的标签建立方法和装置

Country Status (1)

Country Link
CN (1) CN113157978B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836146A (zh) * 2021-09-29 2021-12-24 五八同城信息技术有限公司 一种特征标签生成方法、装置、电子设备及存储介质
CN115062233A (zh) * 2022-08-18 2022-09-16 中航信移动科技有限公司 一种用于民航数据的组合标签生成方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140181089A1 (en) * 2011-06-09 2014-06-26 MemoryWeb, LLC Method and apparatus for managing digital files
WO2015014134A1 (zh) * 2013-08-02 2015-02-05 小米科技有限责任公司 一种建立标签库及搜索用户的方法和装置
CN104662535A (zh) * 2012-07-24 2015-05-27 起元科技有限公司 数据模型中的实体映射
CN109635280A (zh) * 2018-11-22 2019-04-16 园宝科技(武汉)有限公司 一种基于标注的事件抽取方法
CN110263934A (zh) * 2019-05-31 2019-09-20 中国信息通信研究院 一种人工智能数据标注方法和装置
CN110765101A (zh) * 2019-09-09 2020-02-07 湖南天云软件技术有限公司 标签的生成方法、装置、计算机可读存储介质及服务器
CN111522901A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 文本中地址信息的处理方法及装置
CN111639284A (zh) * 2020-05-29 2020-09-08 深圳壹账通智能科技有限公司 网页标注方法、装置、电子设备及介质
CN111737225A (zh) * 2020-05-25 2020-10-02 贵州华泰智远大数据服务有限公司 一种基于分词技术的数据标签数据库建立方法
CN111861216A (zh) * 2020-07-22 2020-10-30 浪潮云信息技术股份公司 一种基于业务数据的高效预警方法及系统
CN111967262A (zh) * 2020-06-30 2020-11-20 北京百度网讯科技有限公司 实体标签的确定方法和装置
CN112163428A (zh) * 2020-09-18 2021-01-01 中国人民大学 语义标签的获取方法、装置、节点设备及存储介质
CN112199084A (zh) * 2020-10-22 2021-01-08 北京计算机技术及应用研究所 基于Django的文本标注平台

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140181089A1 (en) * 2011-06-09 2014-06-26 MemoryWeb, LLC Method and apparatus for managing digital files
CN104662535A (zh) * 2012-07-24 2015-05-27 起元科技有限公司 数据模型中的实体映射
WO2015014134A1 (zh) * 2013-08-02 2015-02-05 小米科技有限责任公司 一种建立标签库及搜索用户的方法和装置
CN109635280A (zh) * 2018-11-22 2019-04-16 园宝科技(武汉)有限公司 一种基于标注的事件抽取方法
CN110263934A (zh) * 2019-05-31 2019-09-20 中国信息通信研究院 一种人工智能数据标注方法和装置
CN110765101A (zh) * 2019-09-09 2020-02-07 湖南天云软件技术有限公司 标签的生成方法、装置、计算机可读存储介质及服务器
CN111522901A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 文本中地址信息的处理方法及装置
CN111737225A (zh) * 2020-05-25 2020-10-02 贵州华泰智远大数据服务有限公司 一种基于分词技术的数据标签数据库建立方法
CN111639284A (zh) * 2020-05-29 2020-09-08 深圳壹账通智能科技有限公司 网页标注方法、装置、电子设备及介质
CN111967262A (zh) * 2020-06-30 2020-11-20 北京百度网讯科技有限公司 实体标签的确定方法和装置
CN111861216A (zh) * 2020-07-22 2020-10-30 浪潮云信息技术股份公司 一种基于业务数据的高效预警方法及系统
CN112163428A (zh) * 2020-09-18 2021-01-01 中国人民大学 语义标签的获取方法、装置、节点设备及存储介质
CN112199084A (zh) * 2020-10-22 2021-01-08 北京计算机技术及应用研究所 基于Django的文本标注平台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
厉建宾; 朱雅魁; 吴彬彬; 杜杰; 陈秋玉: "电力客户标签体系框架构建研究及应用实践", 《2017智能电网新技术发展与应用研讨会论文集》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113836146A (zh) * 2021-09-29 2021-12-24 五八同城信息技术有限公司 一种特征标签生成方法、装置、电子设备及存储介质
CN113836146B (zh) * 2021-09-29 2024-04-26 五八同城信息技术有限公司 一种特征标签生成方法、装置、电子设备及存储介质
CN115062233A (zh) * 2022-08-18 2022-09-16 中航信移动科技有限公司 一种用于民航数据的组合标签生成方法
CN115062233B (zh) * 2022-08-18 2022-11-04 中航信移动科技有限公司 一种用于民航数据的组合标签生成方法

Also Published As

Publication number Publication date
CN113157978B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN108256074B (zh) 校验处理的方法、装置、电子设备和存储介质
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
CN106843840B (zh) 一种基于相似度分析的源代码版本演化注释复用方法
CN111459985A (zh) 标识信息处理方法及装置
CN108711443B (zh) 电子病历的文本数据解析方法和装置
CN113157978B (zh) 数据的标签建立方法和装置
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN109800354B (zh) 一种基于区块链存储的简历修改意图识别方法及系统
CN109933803B (zh) 一种成语信息展示方法、展示装置、电子设备及存储介质
CN116881430B (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN116245177B (zh) 地理环境知识图谱自动化构建方法及系统、可读存储介质
CN111061733B (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
CN110851630A (zh) 一种深度学习标注样本的管理系统及方法
CN110413307A (zh) 代码功能的关联方法、装置及电子设备
CN116303641B (zh) 一种支持多数据源可视化配置的实验室报告管理方法
CN113806647A (zh) 识别开发框架的方法及相关设备
JP6763967B2 (ja) データ変換装置とデータ変換方法
CN111143356A (zh) 报表检索方法及装置
Ronchieri et al. Sentiment analysis for software code assessment
US20230169052A1 (en) Methods, systems, and computer readable media for utilizing machine learning for merging duplicate data records
CN114692595B (zh) 一种基于文本匹配的重复冲突方案检测方法
CN112925856B (zh) 实体关系分析方法、装置、分析设备及计算机存储介质
CN117010349B (zh) 基于神经网络模型的表单填充方法、系统及存储介质
CN115392805B (zh) 一种交易型合同合规风险诊断方法及系统
CN111221846B (zh) 一种sql语句的自动翻译方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant