CN115618264A - 数据资产的主题分类方法、装置、设备和介质 - Google Patents

数据资产的主题分类方法、装置、设备和介质 Download PDF

Info

Publication number
CN115618264A
CN115618264A CN202211335678.6A CN202211335678A CN115618264A CN 115618264 A CN115618264 A CN 115618264A CN 202211335678 A CN202211335678 A CN 202211335678A CN 115618264 A CN115618264 A CN 115618264A
Authority
CN
China
Prior art keywords
data
classification
data assets
classified
assets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211335678.6A
Other languages
English (en)
Inventor
李蓉娴
孙琳
刘惠民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202211335678.6A priority Critical patent/CN115618264A/zh
Publication of CN115618264A publication Critical patent/CN115618264A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据资产的主题分类方法、装置、设备和介质。该方法包括:获取待分类数据资产的参考数据;基于第一分类模型,根据参考数据得到待分类数据资产的第一主题分类结果;基于第二分类模型,根据参考数据得到待分类数据资产的第二主题分类结果;根据第一主题分类结果和第二主题分类结果确定待分类数据资产的最终主题类别。本申请通过将待分类数据资产的参考数据输入到根据数据资产的元数据和主题类别之间的关系训练得到的第一分类模型和根据数据资产的上级数据资产和主题类别之间的关系训练得到的第二分类模型中获得准确的主题分类结果,再分析主题分类结果得到最终主题类别,实现快速准确对数据资产的主题进行自动化智能分类。

Description

数据资产的主题分类方法、装置、设备和介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据资产的主题分类方法、装置、设备和介质。
背景技术
大数据时代,随着企业数据不断积累,数据正在发挥越来越大的价值,数据已成为企业的一项重要资产。金融领域的数据资产沉淀丰厚,企业的数据资产逐日递增,如果有效地把数据按照一定的标准组织起来,形成系统化的数据服务目录,则更有利于数据资产管理,建立技术和业务的桥梁,为业务人员查找有价数据提供便利。
现有技术中,大部分为人工划分数据资产的主题类别,而人工进行主题分类的方法工作量大、效率低,且需要有相关经验的专业人员。此外,现有技术中智能化的主题分类方法在资产主题分类树的每个父节点单独训练模型,每个模型又包含初级分类模型和次级分类模型,整体资产主题分类系统较为复杂,维护成本高,涉及需要调整的模型参数量大。
因此,如何快速准确的进行主题分类十分重要。
发明内容
本发明提供了一种数据资产的主题分类方法、装置、设备和介质,以实现快速准确对数据资产的主题进行自动化智能分类。
根据本发明的一方面,提供了一种数据资产的主题分类方法,所述方法包括:
获取待分类数据资产的参考数据;
基于第一分类模型,根据所述参考数据得到所述待分类数据资产的第一主题分类结果;其中,所述第一分类模型根据数据资产的元数据和主题类别之间的关系进行预先训练得到;
基于第二分类模型,根据所述参考数据得到所述待分类数据资产的第二主题分类结果;其中,所述第二分类模型根据数据资产的上级数据资产和主题类别之间的关系进行预先训练得到;
根据所述第一主题分类结果和第二主题分类结果确定所述待分类数据资产的最终主题类别。
根据本发明的另一方面,提供了一种数据资产的主题分类装置,所述装置包括:
数据获取模块,用于获取待分类数据资产的参考数据;
第一分类结果确定模块,用于基于第一分类模型,根据所述参考数据得到所述待分类数据资产的第一主题分类结果;其中,所述第一分类模型根据数据资产的元数据和主题类别之间的关系进行预先训练得到;
第二分类结果确定模块,用于基于第二分类模型,根据所述参考数据得到所述待分类数据资产的第二主题分类结果;其中,所述第二分类模型根据数据资产的上级数据资产和主题类别之间的关系进行预先训练得到;
主题类别确定模块,用于根据所述第一主题分类结果和第二主题分类结果确定所述待分类数据资产的最终主题类别。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的数据资产的主题分类方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的数据资产的主题分类方法。
本发明实施例的技术方案包括:获取待分类数据资产的参考数据;再基于第一分类模型,根据参考数据得到待分类数据资产的第一主题分类结果;同时基于第二分类模型,根据参考数据得到待分类数据资产的第二主题分类结果;最后根据第一主题分类结果和第二主题分类结果确定待分类数据资产的最终主题类别。本申请技术方案通过将待分类数据资产的参考数据输入到根据数据资产的元数据和主题类别之间的关系训练得到的第一分类模型和根据数据资产的上级数据资产和主题类别之间的关系训练得到的第二分类模型中获得准确的主题分类结果,再通过分析主题分类结果得到准确最终主题类别,避免了因为单一模型的不准确导致最终主题类别确定的不准确,实现了快速准确对数据资产的主题进行自动化智能分类。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种数据资产的主题分类方法的流程图;
图2是本发明实施例适用的确定目标分类数据资产的结构图;
图3是根据本发明实施例三提供的一种数据资产的主题分类装置的结构示意图;
图4是实现本发明实施例的数据资产的主题分类方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”和“目标”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为根据本发明实施例一提供的一种数据资产的主题分类方法的流程图,本实施例可适用于对数据资产的主题进行分类的情况,该方法可以由数据资产的主题分类装置来执行,该数据资产的主题分类装置可以采用硬件和/或软件的形式实现,该数据资产的主题分类装置可配置于具有数据资产的主题分类方法的电子设备中。如图1所示,该方法包括:
S110、获取待分类数据资产的参考数据。
其中,待分类数据资产可以是未进行主题分类的资产数据。参考数据可以是待分类数据资产中可以代表数据资产特征的信息。
具体的,随着企业的不断发展,企业数据也在不断的积累,这些数据也是企业的重要资产,为了方便对这些资产数据进行管理,就需要对这些数据资产进行分类,以便于企业人员的查找,而在对数据资产进行分类之前,要先获取还未分类的数据资产,即待分类数据资产,并确定待分类数据资产中的特征信息,即参考数据,以便于后续通过对参考数据的分析确定待分类数据资产的主题类别。
S120、基于第一分类模型,根据所述参考数据得到所述待分类数据资产的第一主题分类结果;其中,所述第一分类模型根据数据资产的元数据和主题类别之间的关系进行预先训练得到。
其中,参考数据可以是适配于第一分类模型的特征数据。元数据包括但不限于表名、所有字段名、表注释、字段注释等信息;元数据信息可以从数据生产环境,或元数据管理系统等可以获取到元数据的渠道获取到的,主题类别是经过人工分类和复核得到的准确标签。第一主题分类结果中包括第一主题类别和第一置信度。第一置信度用来描述第一主题类别与待分类数据资产之间的关联强度,即第一主题类别可以作为待分类数据资产的主题类别的可信度。第一分类模型为一种经过深度训练的模型。
具体的,获取待分类数据资产中适配于第一分类模型的特征数据,即参考数据,以便于第一分类模型对该参考数据进行分析和预测,以确定准确的待分类数据资产的分类结果,并作为第一主题分类结果。
在一个可行的实施例中,可选的,所述第一分类模型的训练过程如下步骤A1-A3:
步骤A1、获取目标数据资产的元数据。
步骤A2、将所述目标数据资产的元数据作为特征,以及将所述目标数据资产的目标主题类别作为标签,得到第一训练数据。
步骤A3、将所述第一训练数据输入到预先构建的第一分类模型中进行训练直至模型收敛,得到基于元数据的第一分类模型。
其中,目标数据资产可以是已知主题类型的数据资产,其主题类型可以是经过历史分类确定的,或人为分类确定的。第一训练数据包括目标数据资产的元数据和目标数据资产的目标主题类别,可以反映目标数据资产的元数据和目标数据资产的目标主题类别之间的映射关系。
具体的,获取目标数据资产,因为目标数据资产的英文表名和字段名通常用的是英文字母的缩写,表达能力欠佳,所以优先使用目标数据资产的中文表名、字段名、表注释、字段注释;再对目标数据资产进行分析和预处理,以准确获得按照一定的格式组织成文本形式的目标数据资产的元数据,例如获取将表名、字段名等以逗号、空格或其他分隔符分隔开的元数据文本形式。其中,预处理包含中文文本分类的标准预处理流程:分词和去停用词。中文分词指的是将一个汉字序列分解成一个一个单独的词。停用词指的是自然语言中的非实意词或其他并没有实际作用的词,如语气词、助词等。去停用词可以加快模型的收敛速度,提高模型分辨关键词的能力。中文分词可以使用业界常用的工具,如python中的jieba包;停用词没有统一的标准,可以设置本方案特有的去停用词表,用自动化脚本对训练数据中的停用词逐一去除。
获取了目标数据资产的元数据后,同时确定目标数据资产的目标主题类别,再将目标数据资产的元数据作为特征,以及将目标数据资产的目标主题类别作为标签,以准确确定元数据和目标类别之间的映射关系,以便于将元数据和目标主题类别作为第一训练数据输入到预先构建的第一分类模型中,最终得到准确的可以进行待分类数据资产主题类别确定的第一分类模型。
本技术方案,通过将目标数据资产进行分析处理,准确确定了目标数据资产的元数据,再将目标数据资产的元数据作为特征,以及将目标数据资产的目标主题类别作为标签,得到准确的第一训练数据,以便于可以通过预先构建的第一分类模型对第一训练数据进行训练,进而获得具有代表性的基于元数据的第一分类模型,实现了对第一分类模型的准确确定,同时也确保了模型的可靠性。
在一个可行的实施例中,可选的,基于第一分类模型,根据所述参考数据得到所述待分类数据资产的第一主题分类结果,包括:
将所述待分类数据资产的元数据,输入到所述基于元数据的第一分类模型中,得到所述待分类数据资产的第一主题分类结果。
其中,参考数据中包括待分类数据资产的元数据。第一主题分类结果中包括第一主题类别和第一置信度。
具体的,获取待分类数据资产的元数据,并将元数据输入到第一分类模型中,以准确获得包括有第一主题类别和第一置信度的第一主题分类结果,以实现准确确定基于第一分类模型的待分类数据资产的第一主题类别,以及基于第一分类模型确定的第一主题类别的可靠性,进而后续通过对第一主题分类结果进行分析可以准确确定待分类数据资产的主题分类。
本技术方案,通过第一分类模型对待分类数据资产的元数据进行准确的分析,实现了对待分类数据资产的第一主题分类结果的准确确定。
S130、基于第二分类模型,根据所述参考数据得到所述待分类数据资产的第二主题分类结果;其中,所述第二分类模型根据数据资产的上级数据资产和主题类别之间的关系进行预先训练得到。
其中,参考数据可以是适配于第二分类模型的特征数据。第二主题分类结果包括第二主题类别和第二置信度;第二置信度用来描述第二主题类别与待分类数据资产之间的关联强度,即第二主题类别可以作为待分类数据资产的主题类别的可信度。第二分类模型为一种经过深度训练的模型。
具体的,获取待分类数据资产中适配于第二分类模型的特征数据,即参考数据,以便于第二分类模型对该参考数据进行分析和预测,以确定准确的待分类数据资产的分类结果,并作为第二主题分类结果。
在一个可行的实施例中,可选的,所述第二分类模型的训练过程如下步骤B1-B3:
步骤B1、获取目标数据资产的依赖元数据;其中,所述依赖元数据根据所述目标数据资产的上级数据资产进行确定。
步骤B2、将所述依赖元数据和所述上级数据资产的上级主题类别作为特征,以及将所述目标数据资产的目标主题类别作为标签,得到第二训练数据。
步骤B3、将所述第二训练数据输入到预先构建的第二分类模型中,得到基于上级数据资产的第二分类模型。
其中,目标数据资产可以是将上级数据资产的部分字段经过选择、插入或关联等得到的,参见图2。上级数据资产可以是在目标数据资产建立之前就已经存在的,依赖元数据和上级主题类别之间的关系是已经确定好的,且其上级主题类别可以是通过人工标注或模型推理获得的。第二训练数据包括依赖元数据、上级数据资产的上级主题类别和目标数据资产的目标主题类别,用来描述依赖元数据和上级数据资产的上级主题类别与目标数据资产的目标主题类别之间的映射关系。依赖元数据是上级数据资产的表名、字段名、表注释、字段注释等元数据信息
具体的,获取目标数据资产,并对目标数据资产进行分析处理,以确定目标数据资产中的依赖元数据和上级数据资产的上级主题类别,并将依赖元数据和所述上级数据资产的上级主题类别作为特征,同时将目标数据资产的目标主题类别作为标签,以准确确定依赖元数据和上级数据资产的上级主题类别与目标数据资产的目标主题类别之间的映射关系,以便于将依赖元数据、上级数据资产的上级主题类别和目标数据资产的目标主题类别作为的第二训练数据输入到预先构建的第二分类模型中,进而可以得到准确的可以进行待分类数据资产主题类别确定的第二分类模型。
本技术方案,通过将目标数据资产和目标数据资产的上级数据资产进行分析处理,准确确定了目标数据资产中的依赖元数据和上级数据资产的上级主题类别,再将目标数据资产的依赖元数据作为特征,以及将目标数据资产的目标主题类别作为标签,得到准确的第二训练数据,以便于可以通过预先构建的第二分类模型对第二训练数据进行训练,进而获得具有代表性的基于上级数据资产的第二分类模型,实现了对第二分类模型的准确确定,同时也确保了模型的可靠性。
在一个可行的实施例中,可选的,基于第二分类模型,根据所述参考数据得到所述待分类数据资产的第二主题分类结果,包括:
将所述待分类数据资产的依赖元数据和所述待分类数据资产的上级数据资产的主题类别,输入到所述基于上级数据资产的第二分类模型中,得到所述待分类数据资产的第二主题分类结果。
其中,参考数据中包括待分类数据资产的依赖元数据和待分类数据资产的上级数据资产的主题类别。第二主题分类结果包括第二主题类别和第二置信度。
具体的,获取待分类数据资产的依赖元数据和待分类数据资产的上级数据资产的主题类别,并将待分类数据资产的依赖元数据和待分类数据资产的上级数据资产的主题类别输入到第二分类模型中,以准确获得包括有第二主题类别和第二置信度的第二主题分类结果,实现准确确定基于第二分类模型的待分类数据资产的第二主题类别,以及基于第二分类模型确定的第二主题类别的可靠性,进而后续通过对第二主题分类结果进行分析可以准确确定待分类数据资产的主题分类。
本技术方案,通过第二分类模型对待分类数据资产的依赖元数据和待分类数据资产的上级数据资产的主题类别进行准确的分析,实现了对待分类数据资产的第二主题分类结果的准确确定。
S140、根据所述第一主题分类结果和第二主题分类结果确定所述待分类数据资产的最终主题类别。
具体的,获取第一主题分类结果和第二主题分类结果,将第一主题分类结果和第二主题分类结果进行分析处理,通过分析处理的结果确定待分类数据资产的最终主题类别,避免了因为单一结果的不准确导致主题类别确定的不准确。
在一个可行的实施例中,可选的,可以对第一主题分类结果和第二主题分类结果进行如下分析以获得准确的待分类数据资产的最终主题类别,具体过程为:若所述第一主题分类结果中的第一主题类别和第二主题分类结果的第二主题类别相同,则确定第一主题类别为所述待分类数据资产的最终主题类别;若所述第一主题分类结果中的第一主题类别和第二主题分类结果的第二主题类别不同,则根据第一主题分类结果中的第一置信度和第二主题分类结果的第二置信度确定所述待分类数据资产的最终主题类别。
本技术方案,将基于第一分类模型得到的第一主题分类结果和基于第二分类模型得到的第二主题分类结果结合在一起进行分析,避免了因为单一模型的不准确导致主题分类结果的误差,从而影响待分类数据资产的最终主题类别的确定,实现了对待分类数据资产主题类别的准确确定。
本申请技术方案通过将待分类数据资产的参考数据输入到根据数据资产的元数据和主题类别之间的关系训练得到的第一分类模型和根据数据资产的上级数据资产和主题类别之间的关系训练得到的第二分类模型中获得准确的主题分类结果,再通过分析主题分类结果得到准确最终主题类别,避免了因为单一模型的不准确导致最终主题类别确定的不准确,实现了快速准确对数据资产的主题进行自动化智能分类。此外,基于深度训练模型的方案省去了繁琐的特征工程,系统复杂度低,可扩展性好。
实施例二
本实施例是对上述实施例中对第一分类模型和第二分类模型的预训练模型做详细的描述。
可选的,第一分类模型和第二分类模型基于fasttext模型或BERT预训练模型进行训练得到。
可选的,对于fasttext模型:Fasttext是Facebook于2016年开源的一个文本分类工具,训练速度快,而且具有词向量训练的功能。因此,使用fasttext模型,可以免去词向量的单独获取。fasttext模型的输入是一个文本文件,文件的每一行是一条训练数据,一条训练数据是一个数据资产的标签和经过分词、去停用词预处理的数据资产的元数据文本。例如,__label__为标记标签的前缀,如:“__label__客户法人被起诉历史金融实体编号客户编号记录编号起诉人名称被起诉原因被起诉币种代码被起诉金额被起诉日期已经判决标识判决执行币种代码判决执行金额判决执行日期判决执行结果删除标志机构代码操作员代码操作日期系统来源代码最后更新日期开始日期结束日期有效日期时间戳”。
其中,“客户”是这条训练数据的标签,剩余部分“法人被起诉……”是训练数据的特征。
用fasttext的train_supervised方法进行训练,假设模型名称定义为model,调用model.test方法测试验证集,可获得模型在验证集上的精度和召回率。适当调整模型的训练轮数、学习率等超参,使得模型在验证集上的精度和召回率最高,这个模型就是训练好的模型。
例如,用fasttext模型实现第一分类模型,可以通过model.save方法保存训练好的模型,用load_model方法加载已保存的模型。模型预测的方法为model.predict,该方法的输入是不带标签的经过分词、去停用词预处理的数据资产的元数据,输出是数据资产的主题类别,以及置信度。
可选的,对于BERT预训练模型:BERT(Bidirectional Encoder Representationfrom Transformers)是一个预训练语言表征模型,由Transformer衍生出来,BERT的模型结构就是Transformer的编码器(encoder)部分,可以理解为,输入一段文本,BERT的输出是该文本的词向量(或称词嵌入,embedding)。
BERT训练的目的就是学习文本的词嵌入,它基于两个任务来训练模型。
任务1的思想是“做填空题”,即输入一个句子,句子中15%随机位置的字被一个固定的特殊符号[MASK]或另一个随机的字所替代,模型的输出是一个序列,这个序列的长度和输入相同,序列中的每个元素都是一个向量,每个向量和输入的每个字一一对应。被替代的那些未知字对应的输出向量就是模型预测的未知字对应的词向量。未知字的词向量再经过一个线性变换、一个softmax函数,得到另一个向量,该向量是softmax输出,向量每个位置的值表示未知字是某个字的概率分布。BERT模型的损失函数就是未知字的softmax概率和真实字对应的向量之间的交叉熵,最小化损失函数,就得到了未知字的词嵌入向量。
任务2是next sentence prediction。其输入是两个句子,第一个句子以一个特殊的类别标记[CLS]作为开始标识,两个句子中间用一个特殊的标记[SEP]分隔开。模型的输出是[CLS]标记位置对应的BERT的输出。该输出经过一个线性模型,判断第二个句子是否是第一个句子的下一句,模型的训练过程就是理解两个句子之间的关系的过程。
在实际使用BERT预训练模型的时候,只保留BERT模块,丢弃训练中用到的线性转换和softmax部分,即BERT输出的是输入序列的词嵌入向量。
此外,基于BERT的预训练模型可以拼接线性模型,LSTM、GRU等RNN模型,CNN模型,基于注意力机制的模型等任何可以用于数据资产分类的模型。
例如,对于第一分类模型,使用到的是BERT关于第一个特殊标记[CLS]的输出。用开源的BERT预训练模型,在该模型基础上微调,模型的输入是特殊标记[CLS]和数据资产的元数据(输入经过tokenize、并将token转为索引后送入模型),输出是数据资产的主题类别。不同于预训练阶段,微调过程是一个监督学习过程。[CLS]对应的输出经过一个线性模型、一个softmax层,得到数据资产的主题类别的概率分布,即置信度,该概率分布和经过独热编码的数据资产的主题分类之间的交叉熵作为损失函数,求得最小化该损失函数,就得到了对数据资产分类的预测结果。
可选的,基于深度学习的文本分类方法都可以实现第一分类模型和第二分类模型,包括但不限于TextCNN、TextRNN、基于注意力机制的方法、GPT系列的预训练模型等等。
本技术方案,通过详细描述基于fasttext模型或BERT预训练模型对目标分类数据资产进行训练获得准确第一分类模型和第二分类模型,实现了模型的准确确定,也便于后续将待分类数据资产的参考数据输入到模型中,以准确将待分类数据资产进行分类。
实施例三
图3为根据本发明实施例三提供的一种数据资产的主题分类装置的结构示意图。如图3所示,该装置包括:
数据获取模块,用于获取待分类数据资产的参考数据;
第一分类结果确定模块,用于基于第一分类模型,根据所述参考数据得到所述待分类数据资产的第一主题分类结果;其中,所述第一分类模型根据数据资产的元数据和主题类别之间的关系进行预先训练得到;
第二分类结果确定模块,用于基于第二分类模型,根据所述参考数据得到所述待分类数据资产的第二主题分类结果;其中,所述第二分类模型根据数据资产的上级数据资产和主题类别之间的关系进行预先训练得到;
主题类别确定模块,用于根据所述第一主题分类结果和第二主题分类结果确定所述待分类数据资产的最终主题类别。
可选的,第二分类结果确定模块包括第二模型训练单元,具体用于:
获取目标数据资产的依赖元数据;其中,所述依赖元数据根据所述目标数据资产的上级数据资产进行确定;
将所述依赖元数据和所述上级数据资产的上级主题类别作为特征,以及将所述目标数据资产的目标主题类别作为标签,得到第二训练数据;
将所述第二训练数据输入到预先构建的第二分类模型中,得到基于上级数据资产的第二分类模型。
可选的,第二分类结果确定模块,具体用于:
将所述待分类数据资产的依赖元数据和所述待分类数据资产的上级数据资产的主题类别,输入到所述基于上级数据资产的第二分类模型中,得到所述待分类数据资产的第二主题分类结果。
其中,所述参考数据中包括所述待分类数据资产的依赖元数据和所述待分类数据资产的上级数据资产的主题类别;
可选的,第一分类结果确定模块包括第一模型训练单元,具体用于:
获取目标数据资产的元数据;
将所述目标数据资产的元数据作为特征,以及将所述目标数据资产的目标主题类别作为标签,得到第一训练数据;
将所述第一训练数据输入到预先构建的第一分类模型中,得到基于元数据的第一分类模型。
可选的,第一分类结果确定模块,具体用于:
将所述待分类数据资产的元数据,输入到所述基于元数据的第一分类模型中,得到所述待分类数据资产的第一主题分类结果。
其中,所述参考数据中包括所述待分类数据资产的元数据。
可选的,主题类别确定模块,具体用于:
若所述第一主题分类结果中的第一主题类别和第二主题分类结果的第二主题类别相同,则确定第一主题类别为所述待分类数据资产的最终主题类别;
若所述第一主题分类结果中的第一主题类别和第二主题分类结果的第二主题类别不同,则根据第一主题分类结果中的第一置信度和第二主题分类结果的第二置信度确定所述待分类数据资产的最终主题类别。
其中,主题分类结果中包括主题类别和置信度。
可选的,所述第一分类模型和所述第二分类模型基于fasttext模型或BERT预训练模型进行训练得到。
本发明实施例所提供的数据资产的主题分类装置可执行本发明任意实施例所提供的数据资产的主题分类方法,具备执行方法相应的功能模块和有益效果。
本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定,且不违背公序良俗。
实施例四
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图4示出了可以用来实现本发明实施例的数据资产的主题分类方法的电子设备的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图4所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如数据资产的主题分类方法。
在一些实施例中,数据资产的主题分类方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的数据资产的主题分类方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据资产的主题分类方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种数据资产的主题分类方法,其特征在于,包括:
获取待分类数据资产的参考数据;
基于第一分类模型,根据所述参考数据得到所述待分类数据资产的第一主题分类结果;其中,所述第一分类模型根据数据资产的元数据和主题类别之间的关系进行预先训练得到;
基于第二分类模型,根据所述参考数据得到所述待分类数据资产的第二主题分类结果;其中,所述第二分类模型根据数据资产的上级数据资产和主题类别之间的关系进行预先训练得到;
根据所述第一主题分类结果和第二主题分类结果确定所述待分类数据资产的最终主题类别。
2.根据权利要求1所述的方法,其特征在于,所述第二分类模型的训练过程如下:
获取目标数据资产的依赖元数据;其中,所述依赖元数据根据所述目标数据资产的上级数据资产进行确定;
将所述依赖元数据和所述上级数据资产的上级主题类别作为特征,以及将所述目标数据资产的目标主题类别作为标签,得到第二训练数据;
将所述第二训练数据输入到预先构建的第二分类模型中,得到基于上级数据资产的第二分类模型。
3.根据权利要求2所述的方法,其特征在于,所述参考数据中包括所述待分类数据资产的依赖元数据和所述待分类数据资产的上级数据资产的主题类别;
相应的,基于第二分类模型,根据所述参考数据得到所述待分类数据资产的第二主题分类结果,包括:
将所述待分类数据资产的依赖元数据和所述待分类数据资产的上级数据资产的主题类别,输入到所述基于上级数据资产的第二分类模型中,得到所述待分类数据资产的第二主题分类结果。
4.根据权利要求1所述的方法,其特征在于,所述第一分类模型的训练过程如下:
获取目标数据资产的元数据;
将所述目标数据资产的元数据作为特征,以及将所述目标数据资产的目标主题类别作为标签,得到第一训练数据;
将所述第一训练数据输入到预先构建的第一分类模型中,得到基于元数据的第一分类模型。
5.根据权利要求4所述的方法,其特征在于,所述参考数据中包括所述待分类数据资产的元数据;
相应的,基于第一分类模型,根据所述参考数据得到所述待分类数据资产的第一主题分类结果,包括:
将所述待分类数据资产的元数据,输入到所述基于元数据的第一分类模型中,得到所述待分类数据资产的第一主题分类结果。
6.根据权利要求1所述的方法,其特征在于,主题分类结果中包括主题类别和置信度;
相应的,根据所述第一主题分类结果和第二主题分类结果确定所述待分类数据资产的最终主题类别,包括:
若所述第一主题分类结果中的第一主题类别和第二主题分类结果的第二主题类别相同,则确定第一主题类别为所述待分类数据资产的最终主题类别;
若所述第一主题分类结果中的第一主题类别和第二主题分类结果的第二主题类别不同,则根据第一主题分类结果中的第一置信度和第二主题分类结果的第二置信度确定所述待分类数据资产的最终主题类别。
7.根据权利要求1所述的方法,其特征在于,所述第一分类模型和所述第二分类模型基于fasttext模型或BERT预训练模型进行训练得到。
8.一种数据资产的主题分类装置,其特征在于,包括:
数据获取模块,用于获取待分类数据资产的参考数据;
第一分类结果确定模块,用于基于第一分类模型,根据所述参考数据得到所述待分类数据资产的第一主题分类结果;其中,所述第一分类模型根据数据资产的元数据和主题类别之间的关系进行预先训练得到;
第二分类结果确定模块,用于基于第二分类模型,根据所述参考数据得到所述待分类数据资产的第二主题分类结果;其中,所述第二分类模型根据数据资产的上级数据资产和主题类别之间的关系进行预先训练得到;
主题类别确定模块,用于根据所述第一主题分类结果和第二主题分类结果确定所述待分类数据资产的最终主题类别。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的数据资产的主题分类方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的数据资产的主题分类方法。
CN202211335678.6A 2022-10-28 2022-10-28 数据资产的主题分类方法、装置、设备和介质 Pending CN115618264A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211335678.6A CN115618264A (zh) 2022-10-28 2022-10-28 数据资产的主题分类方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211335678.6A CN115618264A (zh) 2022-10-28 2022-10-28 数据资产的主题分类方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN115618264A true CN115618264A (zh) 2023-01-17

Family

ID=84876603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211335678.6A Pending CN115618264A (zh) 2022-10-28 2022-10-28 数据资产的主题分类方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN115618264A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116719942A (zh) * 2023-07-07 2023-09-08 北京亿赛通科技发展有限责任公司 数据资产分类方法、装置、计算机设备和计算机存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116719942A (zh) * 2023-07-07 2023-09-08 北京亿赛通科技发展有限责任公司 数据资产分类方法、装置、计算机设备和计算机存储介质
CN116719942B (zh) * 2023-07-07 2024-03-12 北京亿赛通科技发展有限责任公司 数据资产分类方法、装置、计算机设备和计算机存储介质

Similar Documents

Publication Publication Date Title
CN113722493B (zh) 文本分类的数据处理方法、设备、存储介质
CN109933803B (zh) 一种成语信息展示方法、展示装置、电子设备及存储介质
CN109582788A (zh) 垃圾评论训练、识别方法、装置、设备及可读存储介质
CN112541070A (zh) 槽位更新语料的挖掘方法、装置、电子设备和存储介质
CN115618264A (zh) 数据资产的主题分类方法、装置、设备和介质
CN116975400B (zh) 一种数据分类分级方法、装置、电子设备及存储介质
CN113190746A (zh) 推荐模型的评估方法、装置及电子设备
CN117216275A (zh) 一种文本处理方法、装置、设备以及存储介质
CN110941713B (zh) 基于主题模型的自优化金融资讯版块分类方法
CN115545481A (zh) 一种风险等级确定方法、装置、电子设备及存储介质
CN115600592A (zh) 文本内容的关键信息提取方法、装置、设备及介质
CN115309867A (zh) 一种文本处理方法、装置、设备及介质
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
CN115292506A (zh) 应用于办公领域的知识图谱本体构建方法和装置
CN114595661A (zh) 用于评审投标文件的方法、设备和介质
CN114048325A (zh) 基于知识图谱的案件处理方法及装置、存储介质
CN113011162A (zh) 一种指代消解方法、装置、电子设备及介质
CN112559697A (zh) 识别话术意图的方法和装置
CN112115229A (zh) 文本意图识别方法、装置、系统以及文本分类系统
CN112784033B (zh) 一种时效等级识别模型训练及应用的方法、及电子设备
CN117493785A (zh) 数据处理方法、装置及电子设备
CN115935981A (zh) 一种分词处理方法、装置、电子设备及存储介质
CN114492409A (zh) 文件内容的评价方法、装置、电子设备及程序产品
CN115409023A (zh) 一种信息提取方法、装置、设备及存储介质
CN114398469A (zh) 搜索词权重的确定方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination