CN115544250B - 一种数据处理方法及系统 - Google Patents
一种数据处理方法及系统 Download PDFInfo
- Publication number
- CN115544250B CN115544250B CN202211067056.XA CN202211067056A CN115544250B CN 115544250 B CN115544250 B CN 115544250B CN 202211067056 A CN202211067056 A CN 202211067056A CN 115544250 B CN115544250 B CN 115544250B
- Authority
- CN
- China
- Prior art keywords
- data
- category
- sub
- average
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据处理方法,包括:提取待归类的数据集中包含的数据标签组;根据所述数据标签组确定所述数据集的应用领域;根据所述应用领域查询预设的领域‑数据类别表,确定所述数据集对应的若干个数据类别;确定所述数据集中包括的若干个目标数据;分别计算所述目标数据与所述若干个数据类别的关联度,并根据所述关联度对所述目标数据进行归类。通过本发明给出的数据方法,用户可以从数据应用领域出发,结合业务需求,确立若干个数据类别。在确立若干个数据类别后,用户可以根据本发明给出的归类算法,将数据归类于若干个相互独立、互不重叠的数据类别中,使得数据集合能够有序高效的被使用。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种数据处理方法及系统。
背景技术
随着科学技术的不断发展,大数据技术深入各行各业,几乎涵盖了人类全部的日常生活生成活动。面对日益增多的数据,数据处理技术显得愈发的重要。作为数据处理技术中基础技术之一的数据分类技术显著地影响着数据处理技术的运用,这一点是显而易见的。当前数据分类技术面临的问题是无法确定待分类的数据中由哪些类型的数据,数据分类技术面临的另一个主要问题是无法对数据及数据的类别进行有效的匹配,导致了数据分类不合理,影响着对数据价值的挖掘和运用。综合以上所述,如何对当前市面上海量的数据做科学的分类,同时对这些分类给予合理的命名已经成为迫在眉睫的事情。
发明内容
本发明旨在至少一定程度上解决上述技术中的技术问题之一。为此,本发明的目的在于提出一种数据处理方法及系统,旨在于提供一种量化计算数据与数据类别关联度并根据关联度对数据进行分类的数据分类计数。
为达到上述目的,本发明第一方面实施例提出了一种数据处理方法及系统,包括:
提取待归类的数据集中包含的数据标签组;
根据所述数据标签组确定所述数据集的应用领域;
根据所述应用领域查询预设的领域-数据类别表,确定所述数据集对应的若干个数据类别;
确定所述数据集中包括的若干个目标数据;
分别计算所述目标数据与所述若干个数据类别的关联度,并根据所述关联度对所述目标数据进行归类。
根据本发明的一些实施例,所述分别计算所述目标数据与所述若干个数据类别的关联度,并根据所述关联度对所述目标数据进行归类,包括:
分别计算所述目标数据与所述若干个数据类别的关联度,并确定最大关联度对应的数据类别作为目标数据类别;
将所述目标数据归类于所述目标数据类别。
根据本发明的一些实施例,计算所述目标数据与任意一个数据类别的关联度,包括:
确定所述目标数据的数据标签,并进行分解,得到若干个数据子标签;
确定所述任意一个数据类别的类别标签,并进行分解,得到若干个类别子标签;
在所述若干个数据子标签中选取一个数据子标签作为第一数据子标签;根据编辑距离公式分别计算所述第一数据子标签与所述若干个类别子标签的文本距离,并将计算结果的平均值作为第一数据-类别平均文本距离;重复以上方法,分别计算所述若干个数据子标签与所述若干个类别子标签的第二数据-类别平均文本距离、第三数据-类别平均文本距离……第i数据-类别平均文本距离;
将所述第一数据-类别平均文本距离至第i数据-类别平均文本距的平均值作为第一平均距离;
将所述若干个类别子标签输入文本聚类模型,调用所述文本聚类模型的数据库中与所述若干个类别子标签相似度高于阈值的若干个关键字符串,建立关键字符串集合;
根据编辑距离公式分别计算所述第一数据子标签与所述若干个关键字符串的文本距离,并将计算结果的平均值作为第一数据-关键字符串平均文本距离;重复以上方法,分别计算所述若干个数据子标签与所述若干个关键字符串的第二数据-关键字符串平均文本距离、第三数据-关键字符串平均文本距离……第j数据-关键字符串平均文本距离;
将所述第一数据-关键字符串平均文本距离至第j数据-关键字符串平均文本距离的平均值作为第二平均距离;
计算所述若干个数据子标签在所述类别标签中的词频,并将计算结果的平均值作为第一词频;
计算所述若干个数据子标签在所述关键字符串集合中的词频,并将计算结果的平均值作为第二词频;
将所述第一词频、所述第二词频、所述第一平均距离及所述第二平均距离代入关联度计算公式,计算所述目标数据与所述类别子标签对应的数据类别的关联度;
所述关联度计算公式为:
其中,R为所述关联度;F1为所述第一词频,0<F1≤1;F2为所述第二词频,0<F2≤1;min(S1,S2)表示取S1与S2中的最小值,S1为所述第一平均距离,S2为所述第二平均距离;在|S1+S2|=0或lg(F1·F2)=0时,关联度R视为无穷大。
根据本发明的一些实施例,在根据所述关联度对所述目标数据进行归类后,还包括:根据目标数据的数据标签对所述目标数据归入的目标数据类别的类别标签进行更新。
根据本发明的一些实施例,在根据目标数据的数据标签对所述目标数据归入的数据类别的类别标签进行更新后,根据更新后的类别标签对所述目标数据类别的命名进行更新。
为达到上述目的,本发明第二方面实施例提出了一种数据处理系统,包括:
数据标签提取模块,用于:
提取待归类的数据集中包含的数据标签组;
应用领域确定模块,用于:
根据所述数据标签组确定所述数据集的应用领域;
数据类别确定模块,用于:
根据所述应用领域查询预设的领域-数据类别表,确定所述数据集对应的若干个数据类别;
目标数据确定模块,用于:
确定所述数据集中包括的若干个目标数据;
数据归类模块,用于:
分别计算所述目标数据与所述若干个数据类别的关联度,并根据所述关联度对所述目标数据进行归类。
根据本发明的一些实施例,所述数据归类模块,包括:
关联度计算子模块,用于:
分别计算所述目标数据与所述若干个数据类别的关联度;
目标数据类别确定子模块,用于:
确定最大关联度对应的数据类别作为目标数据类别;
目标数据归类子模块,用于:
将所述目标数据归类于所述目标数据类别。
根据本发明的一些实施例,所述关联度计算子模块,包括:
第一平均距离计算单元,用于计算所述目标数据的数据标签与任意一个数据类别的类别标签的第一平均距离,包括:
确定所述目标数据的数据标签,并进行分解,得到若干个数据子标签;
确定所述任意一个数据类别的类别标签,并进行分解,得到若干个类别子标签;
在所述若干个数据子标签中选取一个数据子标签作为第一数据子标签;根据编辑距离公式分别计算所述第一数据子标签与所述若干个类别子标签的文本距离,并将计算结果的平均值作为第一数据-类别平均文本距离;重复以上方法,分别计算所述若干个数据子标签与所述若干个类别子标签的第二数据-类别平均文本距离、第三数据-类别平均文本距离……第i数据-类别平均文本距离;
将所述第一数据-类别平均文本距离至第i数据-类别平均文本距的平均值作为第一平均距离。
第二平均距离计算单元,用于计算所述数据标签与所述类别子标签相关的若干个关键字符串的第二平均距离,包括:
将所述若干个类别子标签输入文本聚类模型,调用所述文本聚类模型的数据库中与所述若干个类别子标签相似度高于阈值的若干个关键字符串,建立关键字符串集合;
根据编辑距离公式分别计算所述第一数据子标签与所述若干个关键字符串的文本距离,并将计算结果的平均值作为第一数据-关键字符串平均文本距离;重复以上方法,分别计算所述若干个数据子标签与所述若干个关键字符串的第二数据-关键字符串平均文本距离、第三数据-关键字符串平均文本距离……第j数据-关键字符串平均文本距离;
将所述第一数据-关键字符串平均文本距离至第j数据-关键字符串平均文本距离的平均值作为第二平均距离;
第一词频计算单元,用于:计算所述若干个数据子标签在所述类别标签中的词频,并将计算结果的平均值作为第一词频;
第二词频计算单元,用于:计算所述若干个数据子标签在所述关键字符串集合中的词频,并将计算结果的平均值作为第二词频;
关联度计算单元,用于:
将所述第一平均距离、所述第二平均距离、所述第一词频及所述第二词频代入关联度计算公式,计算所述目标数据与任意一个数据类别的关联度;
所述关联度计算公式为:
其中,R为所述关联度;F1为所述第一词频,0<F1≤1;F2为所述第二词频,0<F2≤1;min(S1,S2)表示取S1与S2中的最小值,S1为所述第一平均距离,S2为所述第二平均距离;在|S1+S2|=0或lg(F1·F2)=0时,关联度R视为无穷大。
根据本发明的一些实施例,还包括:
类别标签更新模块,用于在根据所述关联度对所述目标数据进行归类后,根据目标数据的数据标签对所述目标数据归入的目标数据类别的类别标签进行更新。
根据本发明的一些实施例,还包括:
数据类别命名模块,用于在根据目标数据的数据标签对所述目标数据归入的数据类别的类别标签进行更新后,根据更新后的类别标签对所述目标数据类别的命名进行更新。
与现有技术相比,本发明的有益效果是:
1.本发明提供了一种从待分类数据的应用领域出发,对数据进行针对性的归类,使得对应应用领域的技术人员可以直接利用该数据,保证了数据的高效利用。
2.本发明提供了一种量化计算待归类数据及数据类别之间的关联度的方法,该方法对数据分类的可靠性较高,实施简单,效果良好,对待归类数据的类别划分较为清晰明确。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是根据本发明一个实施例的一种数据处理方法的流程示意图;
图2是根据本发明一个实施例的一种数据处理系统的结构示意图;
图3是根据本发明一个实施例的一种关联度计算子模块的结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,本发明给出了一种数据处理方法,包括S1-S5:
S1、提取待归类的数据集中包含的数据标签组;
S2、根据所述数据标签组确定所述数据集的应用领域;
S3、根据所述应用领域查询预设的领域-数据类别表,确定所述数据集对应的若干个数据类别;
S4、确定所述数据集中包括的若干个目标数据;
S5、分别计算所述目标数据与所述若干个数据类别的关联度,并根据所述关联度对所述目标数据进行归类。
以上技术方案的工作原理:在实际的数据处理过程中,待处理的数据通常会包含能够准确描述该数据实体特征的数据标签,通过数据标签可以确定数据的用途信息。举例而言,当待归类数据集中包含的数据标签为“贷款额度”、“用户信息”以及“借款还款频次表”时,我们显然可以得知,该数据集的应用领域为金融领域,尤其是信贷领域,通过查阅预设的领域-数据类别表,我们可以得知,信贷领域对用户的“履约行为”、“借贷倾向”、“消费信息”、“资产状况”、“身份特质”和“人际关系网络”等六方面较为看重,该数据集对应以上六个方面的数据类别。之后,我们在该数据集中选择一个数据作为目标数据,计算该目标数据与以上六个数据类别的关联度,根据关联度决定该目标数据应该归类于哪个数据类别。在完成对该目标数据的归类后,根据相同的方法,对该数据集中其他的数据进行归类。
以上技术方案的有益效果:从数据应用领域出发,对数据进行针对性的归类,使得对应应用领域的技术人员可以直接利用该数据,保证了数据的高效利用。
根据本发明的一些实施例,所述分别计算所述目标数据与所述若干个数据类别的关联度,并根据所述关联度对所述目标数据进行归类,包括:
分别计算所述目标数据与所述若干个数据类别的关联度,并确定最大关联度对应的数据类别作为目标数据类别;
将所述目标数据归类于所述目标数据类别。
以上技术方案的工作原理:选择其中一个目标数据,计算该目标数据与若干个数据类别的关联度,将该数据归类于与其关联度最高的数据类别。
以上技术方案的有益效果:将数据归类于与其关联度最高的数据类别而不归类于其他类别,能够保证该数据只归类到一个数据类别,进而保证数据类别不会相互重叠。并且,该方法可以保证在数据无法准确地归类于某一类别时,将该数据归类到较为贴切的数据类别中,无需创建新的数据类别。
根据本发明的一些实施例,计算所述目标数据与任意一个数据类别的关联度,包括:
确定所述目标数据的数据标签,并进行分解,得到若干个数据子标签;
确定所述任意一个数据类别的类别标签,并进行分解,得到若干个类别子标签;
在所述若干个数据子标签中选取一个数据子标签作为第一数据子标签;根据编辑距离公式分别计算所述第一数据子标签与所述若干个类别子标签的文本距离,并将计算结果的平均值作为第一数据-类别平均文本距离;重复以上方法,分别计算所述若干个数据子标签与所述若干个类别子标签的第二数据-类别平均文本距离、第三数据-类别平均文本距离……第i数据-类别平均文本距离;
将所述第一数据-类别平均文本距离至第i数据-类别平均文本距的平均值作为第一平均距离;
将所述若干个类别子标签输入文本聚类模型,调用所述文本聚类模型的数据库中与所述若干个类别子标签相似度高于阈值的若干个关键字符串,建立关键字符串集合;
根据编辑距离公式分别计算所述第一数据子标签与所述若干个关键字符串的文本距离,并将计算结果的平均值作为第一数据-关键字符串平均文本距离;重复以上方法,分别计算所述若干个数据子标签与所述若干个关键字符串的第二数据-关键字符串平均文本距离、第三数据-关键字符串平均文本距离……第j数据-关键字符串平均文本距离;
将所述第一数据-关键字符串平均文本距离至第j数据-关键字符串平均文本距离的平均值作为第二平均距离;
计算所述若干个数据子标签在所述类别标签中的词频,并将计算结果的平均值作为第一词频;
计算所述若干个数据子标签在所述关键字符串集合中的词频,并将计算结果的平均值作为第二词频;
将所述第一词频、所述第二词频、所述第一平均距离及所述第二平均距离代入关联度计算公式,计算所述目标数据与所述类别子标签对应的数据类别的关联度;
所述关联度计算公式为:
其中,R为所述关联度;F1为所述第一词频,0<F1≤1;F2为所述第二词频,0<F2≤1;min(S1,S2)表示取S1与S2中的最小值,S1为所述第一平均距离,S2为所述第二平均距离;在|S1+S2|=0或lg(F1·F2)=0时,关联度R视为无穷大。
所述编辑距离公式为:
其中,leva,b(x,y)表示所述第一子数据标签a中前x个字符与所述第一字符串b中前y个字符之间的距离;x为所述第一子数据标签a的字符长度;y为所述第一字符串b的字符长度;z(ax,by)为指示函数,其中ax表示所述第一子数据标签中第x个字符,by表示所述第一字符串b中第y个字符;D(U,V)为补偿函数,D(U,V)=roundup{NH (U,V)},其中,N为补偿参数,与所述关键字符串集合中包含的字符的数量成正比;roundup为向上取整函数,用于对NH(U,V)的值进行向上取整;
对于所述第一数据子标签与第一字符串的编辑距离的计算:
counter(U)为所述第一数据标签中字符的数量;counter(V)为所述关键字符串集合中字符的数量;Up为在计算所述第一子数据标签与所述第一字符串的编辑距离的过程中,在所述第一子数据标签中删去的第p个字符,counter(Up)为所述第p个字符在所述第一数据标签中的数量;Vq为在计算所述第一子数据标签与所述第一字符串的编辑距离的过程中,在所述第一子数据标签中增加的第q个字符,counter(Vq)为所述第q个字符在所述关键字符串集合中的数量;counter(Up)与counter(Vq)均大于零;
对于所述第一数据子标签与第一类别子标签的编辑距离的计算同理,只需要将上述变量中有关于第一字符串的变量适应性替换为类别标签对应的变量即可。
以上技术方案的工作原理:确定目标数据的数据标签,并对其进行分解,得到若干个数据子标签;确定需要计算与目标数据的关联度的数据类别的类别标签,并进行分解,得到若干个类别子标签;在若干个类别子标签中选择一个,作为第一数据子标签。计算第一数据子标签与第一个类别子标签的编辑距离。按照常规的编辑距离计算理论,当第一数据子标签为“经济能力”,第一个类别子标签为“经济水平”时,第一数据子标签与第一类别子标签的编辑距离为2(也就是“经济能力”一词转化为“经济水平”一词的需要改变的字符数,显然,想要将“经济能力”一词转化为“经济水平”一词,需要将“能力”这两个字符转化为“水平”,显然,“经济能力”与“经济水平”的编辑距离为2),本发明给出的编辑距离计算公式增加了补偿函数,该补偿函数,该补偿函数基于第一子数据标签中增删的字符在整个类型标签与整个数据标签中的出现频率对编辑距离进行了一定补偿。举例而言,在用常规的方法计算第一数据子标签“经济能力”与第一类别子标签“经济水平”的编辑距离(也就是本发明给出的编辑距离公式的第二项)后,考虑“能”、“力”两个删去的字符在类型标签中的频次以及“水”、“平”两个增加的字符在数据标签中的频次对关联度的影响。这一过程的理论依据为:如果删去的字符在类型标签中的频次较高,那么可以表明,第一数据子标签与类型标签含有多个相同的字符,二者语义相近;同样的,增加的字符在数据标签中的频次较高,也能说明第一个类型子标签与数据标签中含有多个相同的字符,二者语义接近,这一理论反推也成立。根据本发明的一些实施例,在补偿参数为自然对数e的情况下,当每个增加的字符在数据标签中的频次的和为0.5,每个删去的字符在类型标签中的频次的和为0.25时,H1(U,V)=2.12,D1(U,V)=3;在补偿参数保持不变的情况下,每个增加的字符在数据标签中的频次的和为0.5,而每个删去的字符在类型标签中的频次的和为0时,H2(U,V)=1.65,D2(U,V)=2,与上一种情况相比,补偿函数的数值已经有了显著的改变;在补偿参数保持不变的情况下,当每个增加的字符在数据标签中的频次的和为0,每个删去的字符在类型标签中的频次的和为0.1时,H3(U,V)=1.10,D3(U,V)=2,与上一种情况相比,补偿函数的数值没有变化;因此,我们需要重新设置补偿参数,设补偿参数为35,再次将上述三种情况中的其余参数进行代入,我们可以得到,H′1(U,V)=14.40,D′1(U,V)=15;H′2(U,V)=5.92,D′2(U,V)=6;H′3(U,V)=1.43,D′3(U,V)=2;与补偿参数为自然对数e的情况进行纵向对比,补偿参数为35时,补偿函数的数值已经有了明显的变化,并且随着补偿函数的增大,同一补偿参数下的补偿函数的数值之间的差异也会显著增大。根据上述实施例,在对补偿函数进行适用时,我们需要根据数据标签与类型标签的大小对补偿参数进行调整,一般情况下,数据标签与类型标签的大小成反比例,上述结论同样适用于数据子标签与关键字符串的编辑距离的计算过程,不过在该过程中,我们需要注意控制关键字符串的大小,防止。增加的字符在数据标签中的频次与删去的字符在关键字符串中的频次差异过大导致的“大数吃掉小数”的现象。“计算若干个数据子标签在类别标签中的词频并进行求和及平均,得到第一词频”与计算若干个数据子标签在关键字符串集合中的词频并进行求和及平均,得到第二词频”的过程较为简单,容易理解,故不在此赘述,在这里需要说明,在理论情况下,F1与F2可以同时为1,这时目标数据与数据类别的关联度趋近于无穷大,可认为二者相互关联。而在实际应用中,F1与F2的取值远小于1。在计算得到平均距离和词频后,我们只需要将所述第一词频、所述第二词频、所述第一平均距离及所述第二平均距离代入关联度计算公式,即可得到目标数据与数据类别的关联度。
以上技术方案的有益效果:基于编辑距离公式量化计算数据与数据类别的关联度,克服了数据分类过程太过于主观的缺陷。
根据本发明的一些实施例,在根据所述关联度对所述目标数据进行归类后,还包括:根据目标数据的数据标签对所述目标数据归入的目标数据类别的类别标签进行更新。
以上技术方案的工作原理:将目标数据归类于目标数据类别后,根据目标数据的数据标签与目标数据类别的类别标签进行补充更新。
以上技术方案的有益效果:在每次数据归类后根据数据标签对类别标签进行补充完善,便于下一次数据归类。
根据本发明的一些实施例,在根据目标数据的数据标签对所述目标数据归入的数据类别的类别标签进行更新后,根据更新后的类别标签对所述目标数据类别的命名进行更新。
以上技术方案的工作原理:根据数据标签对类别标签补充后,将更新后的类别标签与原类别标签进行对比,判断数据类别的原名是否能包括更新后的数据(或数据标签),如果不能,根据更新后的数据标签对数据类别进行重新命名。
以上技术方案的有益效果:及时更新数据类别的命名,方便用户查询和获取数据。
如图2所示,本发明给出了一种数据处理系统,包括:
数据标签提取模块,用于:
提取待归类的数据集中包含的数据标签组;
应用领域确定模块,用于:
根据所述数据标签组确定所述数据集的应用领域;
数据类别确定模块,用于:
根据所述应用领域查询预设的领域-数据类别表,确定所述数据集对应的若干个数据类别;
目标数据确定模块,用于:
确定所述数据集中包括的若干个目标数据;
数据归类模块,用于:
分别计算所述目标数据与所述若干个数据类别的关联度,并根据所述关联度对所述目标数据进行归类。
以上技术方案的工作原理:在待归类的数据集输入本系统后,数据标签提取模块会提取能够准确描述该数据集实体特征的数据标签,应用领域确定模块会根据数据标签确定数据集的用途信息,也就是应用领域,之后,数据类别确定模块会根据预设的领域-数据类别表确定该应用领域对应的若干个数据类别,之后,目标数据确定模块会在该数据集中选择一个数据作为目标数据。之后,数据归类模块会计算该目标数据与以上六个数据类别的关联度,根据关联度决定该目标数据应该归类于哪个数据类别。在完成对该目标数据的归类后,根据相同的方法,对该数据集中其他的数据进行归类。
以上技术方案的有益效果:从数据应用领域出发,对数据进行针对性的归类,使得对应应用领域的技术人员可以直接利用该数据,保证了数据的高效利用。
根据本发明的一些实施例,所述数据归类模块,包括:
关联度计算子模块,用于:
分别计算所述目标数据与所述若干个数据类别的关联度;
目标数据类别确定子模块,用于:
确定最大关联度对应的数据类别作为目标数据类别;
目标数据归类子模块,用于:
将所述目标数据归类于所述目标数据类别。
以上技术方案的工作原理:在将目标数据及若干个数据类别输入数据归类模块后,关联度计算子模块首先计算该目标数据与上述若干个数据类别的关联度,之后目标数据类别确定子模块会确定最大关联度对应的数据类别作为目标数据类别,再经由目标数据归类子模块将该目标数据归类于该目标数据类别。
以上技术方案的有益效果:将数据归类于与其关联度最高的数据类别而不归类于其他类别,能够保证该数据只归类到一个数据类别,进而保证数据类别不会相互重叠。并且,该方法可以保证在数据无法准确地归类于某一类别时,将该数据归类到较为贴切的数据类别中,无需创建新的数据类别。
如图3所示,本发明给出了一种关联度计算子模块,包括:
所述关联度计算子模块,包括:
第一平均距离计算单元,用于计算所述目标数据的数据标签与任意一个数据类别的类别标签的第一平均距离,包括:
确定所述目标数据的数据标签,并进行分解,得到若干个数据子标签;
确定所述任意一个数据类别的类别标签,并进行分解,得到若干个类别子标签;
在所述若干个数据子标签中选取一个数据子标签作为第一数据子标签;根据编辑距离公式分别计算所述第一数据子标签与所述若干个类别子标签的文本距离,并将计算结果的平均值作为第一数据-类别平均文本距离;重复以上方法,分别计算所述若干个数据子标签与所述若干个类别子标签的第二数据-类别平均文本距离、第三数据-类别平均文本距离……第i数据-类别平均文本距离;
将所述第一数据-类别平均文本距离至第i数据-类别平均文本距的平均值作为第一平均距离。
第二平均距离计算单元,用于计算所述数据标签与所述类别子标签相关的若干个关键字符串的第二平均距离,包括:
将所述若干个类别子标签输入文本聚类模型,调用所述文本聚类模型的数据库中与所述若干个类别子标签相似度高于阈值的若干个关键字符串,建立关键字符串集合;
根据编辑距离公式分别计算所述第一数据子标签与所述若干个关键字符串的文本距离,并将计算结果的平均值作为第一数据-关键字符串平均文本距离;重复以上方法,分别计算所述若干个数据子标签与所述若干个关键字符串的第二数据-关键字符串平均文本距离、第三数据-关键字符串平均文本距离……第j数据-关键字符串平均文本距离;
将所述第一数据-关键字符串平均文本距离至第j数据-关键字符串平均文本距离的平均值作为第二平均距离;
第一词频计算单元,用于:计算所述若干个数据子标签在所述类别标签中的词频,并将计算结果的平均值作为第一词频;
第二词频计算单元,用于:计算所述若干个数据子标签在所述关键字符串集合中的词频,并将计算结果的平均值作为第二词频;
关联度计算单元,用于:
将所述第一平均距离、所述第二平均距离、所述第一词频及所述第二词频代入关联度计算公式,计算所述目标数据与任意一个数据类别的关联度;
所述关联度计算公式为:
其中,R为所述关联度;F1为所述第一词频,0<F1≤1;F2为所述第二词频,0<F2≤1;min(S1,S2)表示取S1与S2中的最小值,S1为所述第一平均距离,S2为所述第二平均距离;在|S1+S2|=0或lg(F1·F2)=0时,关联度R视为无穷大。
以上技术方案的工作原理:在将目标数据与任意一个数据类别输入关联度计算子模块时,第一平均距离计算单元会将目标数据的数据标签,并进行分解得到若干个数据子标签,确定该任意一个数据类别的类别标签并进行分解得到若干个类别子标签。之后,第一平均距离计算单元会根据数据子标签与类别子标签计算第一平均距离;在接收到第一平均距离计算单元发送的数据子标签与类别子标签后,第二平均距离计算单元会将类别子标签输入文本聚类模型,调用该文本聚类模型的数据库中与该若干个类别子标签相似度高于阈值的若干个关键字符串,建立包含若干个关键字符串的关键字符串集合,然后根据关键字符串集合与数据子标签计算第二平均距离;第一词频计算单元在接收到数据标签、类别标签、数据子标签与类别子标签后,会计算若干个数据子标签在类别标签中的词频,并将计算结果的平均值作为第一词频;第二词频计算单元在接收到数据标签、数据子标签与关键字符串集合后,会计算该若干个数据子标签在该关键字符串集合中的词频,并将计算结果的平均值作为第二词频;关联度计算单元,在接收到第一词频、第二词频、第一平均距离与第二平均距离后,会根据关联度计算公式、第一词频、第二词频、第一平均距离与第二平均距离计算该目标数据与该数据类别的关联度。
以上技术方案的有益效果:基于编辑距离公式量化计算数据与数据类别的关联度,克服了数据分类过程太过于主观的缺陷。
根据本发明的一些实施例,还包括:
类别标签更新模块,用于在根据所述关联度对所述目标数据进行归类后,根据目标数据的数据标签对所述目标数据归入的目标数据类别的类别标签进行更新。
以上技术方案的工作原理:在数据归类模块将目标数据归类于目标数据类别后,类别标签更新模块会根据目标数据的数据标签与目标数据类别的类别标签进行补充更新。
以上技术方案的有益效果:在每次数据归类后根据数据标签对类别标签进行补充完善,便于下一次数据归类。
根据本发明的一些实施例,还包括:
数据类别命名模块,用于在根据目标数据的数据标签对所述目标数据归入的数据类别的类别标签进行更新后,根据更新后的类别标签对所述目标数据类别的命名进行更新。
以上技术方案的工作原理:在类别标签更新模块根据目标数据的数据标签与目标数据类别的类别标签进行补充更新后,数据类别命名模块会将更新后的类别标签与原类别标签进行对比,判断数据类别的原名是否能包括更新后的数据(或数据标签),如果不能,根据更新后的数据标签对数据类别进行重新命名。
以上技术方案的有益效果:及时更新数据类别的命名,方便用户查询和获取数据。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (7)
1.一种数据处理方法,其特征在于,包括:
提取待归类的数据集中包含的数据标签组;
根据所述数据标签组确定所述数据集的应用领域;
根据所述应用领域查询预设的领域-数据类别表,确定所述数据集对应的若干个数据类别;
确定所述数据集中包括的若干个目标数据;
分别计算所述目标数据与所述若干个数据类别的关联度,并根据所述关联度对所述目标数据进行归类;
计算所述目标数据与任意一个数据类别的关联度,包括:
确定所述目标数据的数据标签,并进行分解,得到若干个数据子标签;
确定所述任意一个数据类别的类别标签,并进行分解,得到若干个类别子标签;
在所述若干个数据子标签中选取一个数据子标签作为第一数据子标签;根据文本距离计算公式分别计算所述第一数据子标签与所述若干个类别子标签的文本距离,并将计算结果的平均值作为第一数据-类别平均文本距离;重复以上方法,分别计算所述若干个数据子标签与所述若干个类别子标签的第二数据-类别平均文本距离、第三数据-类别平均文本距离……第i数据-类别平均文本距离;
将所述第一数据-类别平均文本距离至第i数据-类别平均文本距的平均值作为第一平均距离;
将所述若干个类别子标签输入文本聚类模型,调用所述文本聚类模型的数据库中与所述若干个类别子标签相似度高于阈值的若干个关键字符串,建立关键字符串集合;
根据文本距离计算公式分别计算所述第一数据子标签与所述若干个关键字符串的文本距离,并将计算结果的平均值作为第一数据-关键字符串平均文本距离;重复以上方法,分别计算所述若干个数据子标签与所述若干个关键字符串的第二数据-关键字符串平均文本距离、第三数据-关键字符串平均文本距离……第j数据-关键字符串平均文本距离;
将所述第一数据-关键字符串平均文本距离至第j数据-关键字符串平均文本距离的平均值作为第二平均距离;
计算所述若干个数据子标签在所述类别标签中的词频,并将计算结果的平均值作为第一词频;
计算所述若干个数据子标签在所述关键字符串集合中的词频,并将计算结果的平均值作为第二词频;
将所述第一词频、所述第二词频、所述第一平均距离及所述第二平均距离代入关联度计算公式,计算所述目标数据与所述类别子标签对应的数据类别的关联度;
所述关联度计算公式为:
其中,R为所述关联度;F1为所述第一词频,0<F1≤1;F2为所述第二词频,0<F2≤1;min(S1,S2)表示取S1与S2中的最小值,S1为所述第一平均距离,S2为所述第二平均距离。
2.如权利要求1所述的数据处理方法,其特征在于,所述分别计算所述目标数据与所述若干个数据类别的关联度,并根据所述关联度对所述目标数据进行归类,包括:
分别计算所述目标数据与所述若干个数据类别的关联度,并确定最大关联度对应的数据类别作为目标数据类别;
将所述目标数据归类于所述目标数据类别。
3.如权利要求1所述的数据处理方法,其特征在于,在根据所述关联度对所述目标数据进行归类后,还包括:根据目标数据的数据标签对所述目标数据归入的目标数据类别的类别标签进行更新。
4.如权利要求3所述的数据处理方法,其特征在于,在根据目标数据的数据标签对所述目标数据归入的数据类别的类别标签进行更新后,还包括:根据更新后的类别标签对所述目标数据类别的命名进行更新。
5.一种数据处理系统,其特征在于,包括:
数据标签提取模块,用于提取待归类的数据集中包含的数据标签组;
应用领域确定模块,用于根据所述数据标签组确定所述数据集的应用领域;
数据类别确定模块,用于根据所述应用领域查询预设的领域-数据类别表,确定所述数据集对应的若干个数据类别;
目标数据确定模块,用于确定所述数据集中包括的若干个目标数据;
数据归类模块,用于分别计算所述目标数据与所述若干个数据类别的关联度,并根据所述关联度对所述目标数据进行归类;
关联度计算子模块,用于分别计算所述目标数据与所述若干个数据类别的关联度;
目标数据类别确定子模块,用于确定最大关联度对应的数据类别作为目标数据类别;
目标数据归类子模块,用于将所述目标数据归类于所述目标数据类别;
所述关联度计算子模块,包括:
第一平均距离计算单元,用于:
确定所述目标数据的数据标签,并进行分解,得到若干个数据子标签;
确定所述任意一个数据类别的类别标签,并进行分解,得到若干个类别子标签;
在所述若干个数据子标签中选取一个数据子标签作为第一数据子标签;根据文本距离计算公式分别计算所述第一数据子标签与所述若干个类别子标签的文本距离,并将计算结果的平均值作为第一数据-类别平均文本距离;重复以上方法,分别计算所述若干个数据子标签与所述若干个类别子标签的第二数据-类别平均文本距离、第三数据-类别平均文本距离……第i数据-类别平均文本距离;
将所述第一数据-类别平均文本距离至第i数据-类别平均文本距的平均值作为第一平均距离;
第二平均距离计算单元,用于:
将所述若干个类别子标签输入文本聚类模型,调用所述文本聚类模型的数据库中与所述若干个类别子标签相似度高于阈值的若干个关键字符串,建立关键字符串集合;
根据文本距离计算公式分别计算所述第一数据子标签与所述若干个关键字符串的文本距离,并将计算结果的平均值作为第一数据-关键字符串平均文本距离;重复以上方法,分别计算所述若干个数据子标签与所述若干个关键字符串的第二数据-关键字符串平均文本距离、第三数据-关键字符串平均文本距离……第j数据-关键字符串平均文本距离;
将所述第一数据-关键字符串平均文本距离至第j数据-关键字符串平均文本距离的平均值作为第二平均距离;
第一词频计算单元,用于计算所述若干个数据子标签在所述类别标签中的词频,并将计算结果的平均值作为第一词频;
第二词频计算单元,用于计算所述若干个数据子标签在所述关键字符串集合中的词频,并将计算结果的平均值作为第二词频;
关联度计算单元,用于将所述第一平均距离、所述第二平均距离、所述第一词频及所述第二词频代入关联度计算公式,计算所述目标数据与任意一个数据类别的关联度;
所述关联度计算公式为:
其中,R为所述关联度;F1为所述第一词频,0<F1≤1;F2为所述第二词频,0<F2≤1;min(S1,S2)表示取S1与S2中的最小值,S1为所述第一平均距离,S2为所述第二平均距离。
6.如权利要求5所述的数据处理系统,其特征在于,还包括:
类别标签更新模块,用于在数据归类模块根据所述关联度对所述目标数据进行归类后,根据目标数据的数据标签对所述目标数据归入的目标数据类别的类别标签进行更新。
7.如权利要求6所述的数据处理系统,其特征在于,还包括:
数据类别命名模块,用于在类别标签更新模块根据目标数据的数据标签对所述目标数据归入的数据类别的类别标签进行更新后,根据更新后的类别标签对所述目标数据类别的命名进行更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211067056.XA CN115544250B (zh) | 2022-09-01 | 2022-09-01 | 一种数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211067056.XA CN115544250B (zh) | 2022-09-01 | 2022-09-01 | 一种数据处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115544250A CN115544250A (zh) | 2022-12-30 |
CN115544250B true CN115544250B (zh) | 2023-06-23 |
Family
ID=84724940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211067056.XA Active CN115544250B (zh) | 2022-09-01 | 2022-09-01 | 一种数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115544250B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304056B (zh) * | 2023-04-11 | 2024-01-30 | 山西玖邦科技有限公司 | 一种用于计算机软件开发数据的管理方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109409419B (zh) * | 2018-09-30 | 2021-05-07 | 北京字节跳动网络技术有限公司 | 用于处理数据的方法和装置 |
CN111125495A (zh) * | 2019-12-19 | 2020-05-08 | 京东方科技集团股份有限公司 | 一种信息推荐方法、设备及存储介质 |
CN111506727B (zh) * | 2020-04-16 | 2023-10-03 | 腾讯科技(深圳)有限公司 | 文本内容类别获取方法、装置、计算机设备和存储介质 |
CN113127605B (zh) * | 2021-06-17 | 2021-11-02 | 明品云(北京)数据科技有限公司 | 一种目标识别模型的建立方法、系统、电子设备及介质 |
CN113553429B (zh) * | 2021-07-07 | 2023-09-29 | 北京计算机技术及应用研究所 | 一种规范化标签体系构建及文本自动标注方法 |
CN114218945A (zh) * | 2021-11-22 | 2022-03-22 | 深圳价值在线信息科技股份有限公司 | 实体识别方法、装置、服务器及存储介质 |
-
2022
- 2022-09-01 CN CN202211067056.XA patent/CN115544250B/zh active Active
Non-Patent Citations (1)
Title |
---|
基于Levenshtein和TFRSF的文本相似度计算方法;藏润强;孙红光;杨凤芹;冯国忠;尹良亮;;计算机与现代化(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115544250A (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107967575B (zh) | 一种人工智能保险咨询服务人工智能平台系统 | |
CN110060144B (zh) | 额度模型训练方法、额度评估方法、装置、设备及介质 | |
CN109255586B (zh) | 一种面向电子政务办事的在线个性化推荐方法 | |
US20050182712A1 (en) | Incremental compliance environment, an enterprise-wide system for detecting fraud | |
WO2003090160A2 (en) | Processing mixed numeric and/or non-numeric data | |
Jin et al. | A unified approach to personalization based on probabilistic latent semantic models of web usage and content | |
Abdi et al. | Customer Behavior Mining Framework (CBMF) using clustering and classification techniques | |
CN112381154A (zh) | 预测用户概率的方法、装置和计算机设备 | |
CN115203311B (zh) | 一种基于数据大脑的行业数据分析挖掘方法及系统 | |
CN115544250B (zh) | 一种数据处理方法及系统 | |
CN109726918A (zh) | 基于生成式对抗网络和半监督学习的个人信用确定方法 | |
CN106997371B (zh) | 单用户智慧图谱的构建方法 | |
CN116628228A (zh) | 一种rpa流程推荐方法以及计算机可读存储介质 | |
Zheng | Application of silence customer segmentation in securities industry based on fuzzy cluster algorithm | |
CN113010759B (zh) | 聚类集合的处理方法、装置、计算机可读介质及电子设备 | |
CN117194966A (zh) | 对象分类模型的训练方法和相关装置 | |
CN113627997A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN109919811B (zh) | 基于大数据的保险代理人培养方案生成方法及相关设备 | |
Hu et al. | A category aware non-negative matrix factorization approach for app permission recommendation | |
CN113407827A (zh) | 基于用户价值分类的信息推荐方法、装置、设备及介质 | |
Oliver et al. | The hierarchical structure of galactic haloes: generalized N-dimensional clustering with C luSTAR-ND | |
Shah et al. | A Three-Way Clustering Mechanism to Handle Overlapping Regions | |
CN112632990B (zh) | 一种标签的获取方法、装置、设备及可读存储介质 | |
Ruparel et al. | A dedicated shell for designing expert credit support systems | |
Huang et al. | Application of enhanced cluster validity index function to automatic stock portfolio selection system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |