CN115828119A - 一种基于维度数据的映射方法、装置和存储介质 - Google Patents

一种基于维度数据的映射方法、装置和存储介质 Download PDF

Info

Publication number
CN115828119A
CN115828119A CN202211620618.9A CN202211620618A CN115828119A CN 115828119 A CN115828119 A CN 115828119A CN 202211620618 A CN202211620618 A CN 202211620618A CN 115828119 A CN115828119 A CN 115828119A
Authority
CN
China
Prior art keywords
data
contents
dimension data
dimension
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211620618.9A
Other languages
English (en)
Inventor
滕腾
林琳
张爱国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Surui Data Intelligent Technology Research Institute
Original Assignee
Shenzhen Surui Data Intelligent Technology Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Surui Data Intelligent Technology Research Institute filed Critical Shenzhen Surui Data Intelligent Technology Research Institute
Priority to CN202211620618.9A priority Critical patent/CN115828119A/zh
Publication of CN115828119A publication Critical patent/CN115828119A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种基于维度数据的映射方法、装置和存储介质,属于数据处理的技术领域。所述方法包括:响应于针对目标维度数据的选择操作,获取所有待分析数据中各自描述所述目标维度数据的数据内容;通过维度数据聚类模型,根据所有数据内容中的文本,将所述所有数据内容聚合为多个聚类;对所述多个聚类中每个聚类描述所述目标维度数据的数据内容进行统一命名;将所述每个聚类中各个数据内容各自对应的待分析数据分为一组。本申请旨在提高数据分析结果的准确性。

Description

一种基于维度数据的映射方法、装置和存储介质
技术领域
本申请实施例涉及数据处理的技术领域,具体而言,涉及一种基于维度数据的映射方法、装置和存储介质。
背景技术
在将实体进行数字抽象的过程中,实体的属性将会映射成为维度数据和度量数据,维度数据用于描述实体对应的数字对象的唯一标识,例如对于订单数据进行抽象后,订单对应的销售人员、销售地点以及销售产品的类别等都属于维度数据,度量数据为销售金额等。
在进行数据分析的过程中,通常会根据数字对象的维度数据进行聚合,例如对于一个月内所有的订单,聚合销售地点为深圳市的所有订单,或者聚合销售人员为A某的所有订单;基于维度数据对数字对象进行聚合时,通常需要对维度数据进行标准化处理,即描述同一维度的语言应该是统一的。
但是在实际进行数字抽象的过程中,会经常出现缺乏主数据管理和数据标准的情况,对于一个维度的描述会存在差异,示例地,对于销售地点而言,可能存在深圳、深圳市或广东省深圳市等不同的描述词汇;这些对于同一维度的不同描述会导致数据按维度统计时会导致偏差,进而数据分析结果不够准确。
发明内容
本申请实施例提供一种基于维度数据的映射方法、装置和存储介质,旨在提高数据分析结果的准确性。
第一方面,本申请实施例提供一种基于维度数据的映射方法,所述方法包括:
响应于针对目标维度数据的选择操作,获取所有待分析数据中各自描述所述目标维度数据的数据内容;
通过维度数据聚类模型,根据所有数据内容中的文本,将所述所有数据内容聚合为多个聚类;
对所述多个聚类中每个聚类描述所述目标维度数据的数据内容进行统一命名;
将所述每个聚类中各个数据内容各自对应的待分析数据分为一组。
可选地,响应于针对目标维度数据的选择操作,获取所有待分析数据中各自描述所述目标维度数据的数据内容,包括:
显示选择弹窗,所述选择弹窗中设置有所述待分析数据包括的所有维度数据选项;
根据在所述选择弹窗上针对一个或多个维度数据选项进行的选择操作,将所述一个或多个维度数据作为目标维度数据;
获取所有待分析数据中各自描述所述目标维度数据的数据内容。
可选地,通过维度数据聚类模型,根据所有数据内容中的文本,将所述所有数据内容聚合为多个聚类,包括:
将所述所有待分析数据中各自描述所述目标维度数据的数据内容输入维度数据聚类模型中;
所述维度数据聚类模型对所有的数据内容的文本进行向量化表示,并确定任意两个数据内容的向量化表示之间的相似度;
当任意两个数据内容的向量化表示之间的相似度大于既定阈值时,将两个数据内容确定为一类。
可选地,对所述多个聚类中每个聚类描述所述目标维度数据的数据内容进行统一命名,包括:
对所述多个聚类中的每个聚类提取字段特征;
对任一聚类对应的字段特征与预设的标准文本进行匹配,并用该字段特征匹配到的所述标准文本替换该聚类中所有数据内容的文本。
可选地,在对所述多个聚类中每个聚类描述所述目标维度数据的数据内容进行统一命名之后,所述方法还包括:
当一个数据内容的向量化表示与其他数据内容的向量化表示之间的相似度均小于既定阈值时,响应于针对该数据内容的分类操作,将该数据内容归为某一聚类中。
可选地,所述方法还包括:
将每次所述维度数据聚类模型的聚类结果作为新的训练数据进行存储;
当存储的新的训练数据的数量超过标定数量时,对所述维度数据聚类模型进行更新训练。
第二方面,本申请实施例提供一种基于维度数据的映射装置,所述方法包括:
获取模块,用于响应于针对目标维度数据的选择操作,获取所有待分析数据中各自描述所述目标维度数据的数据内容;
聚类模块,用于通过维度数据聚类模型,根据所有数据内容中的文本,将所述所有数据内容聚合为多个聚类;
统一命名模块,用于对所述多个聚类中每个聚类描述所述目标维度数据的数据内容进行统一命名;
分类模块,用于将所述每个聚类中各个数据内容各自对应的待分析数据分为一组。
可选地,所述聚类模块包括:
输入单元,用于将所述所有待分析数据中各自描述所述目标维度数据的数据内容输入维度数据聚类模型中;
相似度确定单元,用于所述维度数据聚类模型对所有的数据内容的文本进行向量化表示,并确定任意两个数据内容的向量化表示之间的相似度;
聚类单元,用于当任意两个数据内容的向量化表示之间的相似度大于既定阈值时,将两个数据内容确定为一类。
可选地,所述装置还包括:
辅助分类模块,用于在一个数据内容的向量化表示与其他数据内容的向量化表示之间的相似度均小于既定阈值时,响应于针对该数据内容的分类操作,将该数据内容归为某一聚类中。
第三方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如实施例第一方面所述的基于维度数据的映射方法。
有益效果:
响应于针对目标维度数据的选择操作,获取所有待分析数据中各自描述目标维度数据的数据内容;通过维度数据聚类模型,根据所有数据内容中的文本,将所有数据内容聚合为多个聚类;对多个聚类中每个聚类描述目标维度数据的数据内容进行统一命名;将每个聚类中各个数据内容各自对应的待分析数据分为一组。
本方法根据用户选择目标维度数据对所有待分析数据进行数据分析的过程中,通过维度数据聚类模型,基于描述目标维度数据的数据内容的文本进行聚类,通过文本的语义描述了同一内容的数据内容聚集为一类,不依赖于数据的标准化管理与记录过程,对同一维度的不同描述也可以有效进行聚类,从而可以提高数据分析结果的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提出的基于维度数据的映射方法的步骤流程图;
图2是本申请一实施例提出的分类弹窗的示意图;
图3是本申请一实施例提供的基于维度数据的映射装置的功能模块图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
维度数据和度量数据是实体数字化后的数据对应的两个重要组成,维度数据用于描述实体对应的数字对象的唯一标识,例如对于订单数据进行抽象后,订单对应的销售人员、销售地点以及销售产品的类别等都属于维度数据,度量数据为销售金额等。
利用维度数据对数据进行数据分析是非常普遍的方法,但是由于对于同一个维度,不同的人员在记录数据时所采用的语言描述文本会有差距,现有的基于维度数据的统计方法,过分依赖于维度数据的标准化,即描述同一维度的语言应该是统一的,否则容易漏掉一些该维度下的数据,进而数据分析结果不够准确,为了解决这个问题,本申请实施例提供一种基于维度数据的映射方法,可以有效提高数据分析结果的准确性。
图1,示出了本申请实施例中的一种基于维度数据的映射方法的步骤流程图,所述方法具体可以包括以下步骤:
S101:响应于针对目标维度数据的选择操作,获取所有待分析数据中各自描述所述目标维度数据的数据内容。
在实际进行数据分析时,可以显示一个选择弹窗,在选择弹窗上设置待分析数据包括的所有维度数据选项;示例地,对于某公司一周内的N条订单数据,其维度数据包括销售人员、商品类别、销售地点以及销售日期等,可以在选择弹窗上设置所有维度数据的选项供用户选择。
用户根据当前数据分析的需求,可以在选择弹窗上对维度数据选项进行选择,根据用户在选择弹窗上针对一个或多个维度数据选项进行的选择操作,将一个或多个维度数据作为目标维度数据;示例地,本次数据分析时,用只需要基于销售地点进行数据分析时,可以只选择销售地点对应的选项作为本次数据分析的目标维度数据;为了提高数据分析的效率,也可以同时基于多个维度数据进行数据分析,例如一次可以选择商品类别与销售地点的选项,则商品类别和销售地点均作为目标维度数据。
然后获取所有待分析数据中各自描述目标维度数据的数据内容;当目标维度数据只有一个时,例如只有销售地点时,则获取每个待分析数据中记载销售地点的数据内容;当目标维度数据有多个时,例如有商品类别与销售地点两个维度时,既获取每个待分析数据中记载销售地点的数据内容,同时也获取每个待分析数据中记载商品类别的数据内容。
当所有的待分析数据以表格形式记录时,获取所有待分析数据中各自描述目标维度数据的数据内容,可以理解为提取表格中记载销售地点的表头单元格所在的列的所有单元格的数据内容。
S102:通过维度数据聚类模型,根据所有数据内容中的文本,将所述所有数据内容聚合为多个聚类。
在一种可行的实施方式中,维度数据聚类模型可以采用自然语言处理(NaturalLanguage Processing,NLP)的聚类模型,NLP数据聚类模型通过计算文本向量的相似度,对语义上相同或相近的文本归为一类。
在本实施例中,将所有待分析数据中各自描述目标维度数据的数据内容输入维度数据聚类模型中,维度数据聚类模型首先对所有的数据内容的文本进行向量化表示,然后确定任意两个数据内容的向量化表示之间的相似度,示例地,可以计算任意两个数据内容各自对应的向量之间的余弦相似度,余弦相似度可以表征两个数据内容的文本所表达的语义内容的相似度。
当任意两个数据内容的向量化表示之间的相似度大于既定阈值时,将两个数据内容确定为一类,表征这两个数据内容所描述的内容是相同或相似的。
示例地,当目标维度数据只有销售地点时,对应获取的数据内容的文本包括:“深圳”、“深圳市”、“广东省深圳市”、“北京”、“北京市”、“北京朝阳区”等,通过维度数据聚类模型进行聚类后,“深圳”、“深圳市”以及“广东省深圳市”的文本的内容实质相同,因此可以将“深圳”、“深圳市”以及“广东省深圳市”聚为一类,然后将内容实质相同的“北京”、“北京市”、“北京朝阳区”聚为一类。
若是目标维度数据不只有销售地点,还包括商品类型时,例如数据内容的文本还包括:“上衣”、“A款上衣”、“B款上衣”、“牛仔裤”、“长裤”等,则通过维度数据聚类模型进行聚类后,“深圳”、“深圳市”以及“广东省深圳市”聚为一类,“北京”、“北京市”、“北京朝阳区”聚为一类,“上衣”、“A款上衣”、“B款上衣”聚为一类,“牛仔裤”、“长裤”聚为一类,从而可以同时对基于多个维度数据进行数据分析,进一步提高数据分析的效率。
S103:对所述多个聚类中每个聚类描述所述目标维度数据的数据内容进行统一命名。
由于录入数据时使用的描述可能不同,同一聚类中即使数据内容的文本表达了相同或相似的含义,但是使用的描述文本不同,并且维度数据聚类模型虽然可以将表达相同或相似含义的数据内容聚为一类,但是维度数据聚类模型并不知道该聚类具体代表什么内容,因此为了便于管理,可以对每个聚类中数据内容的描述文本进行统一。
在一种可行的实施方式中,在对每个聚类进行统一命名时,可以首先对多个聚类中的每个聚类提取字段特征;然后对任一聚类对应的字段特征与预设的标准文本进行匹配,并用该字段特征匹配到的标准文本替换该聚类中所有数据内容的文本。
预设的标准文本指的是用户指定的维度数据的标准描述文本,示例地销售地点的标准描述文本中包括:“北京市”、“深圳市”、“成都市”等等,商品类型的标准描述文本包括:“上衣”、“裤装”、“鞋类”等等。
在对每个聚类提取字段特征时,可以在每个聚类中提取最短的文本向量,然后计算最短的文本向量与预设的标准文本中的所有文本向量之间的相似度,将相似度最高的标准文本作为该聚类对应的标准文本,替换该聚类中所有数据内容的文本,示例地,将“深圳”、“深圳市”以及“广东省深圳市”所在聚类,统一用“深圳市”进行替换。
当然,由于记录时使用的描述不同,还可能出现一个数据内容的向量化表示与其他数据内容的向量化表示之间的相似度均小于既定阈值,即一个数据内容的文本与其他数据内容的文本相似度较低,因此这个数据内容的文本无法被归纳与某一个聚类中,为了对这些相似度较低的数据内容的文本进行数据分析,在一种可行的实施方式中,可以显示分类弹窗,分类弹窗上显示这个相似度较低的数据内容,以及经过同一命名后的所有聚类。
参照图2,示出了本实施例提供的分类弹窗的示意图,示例地,当目标维度数据包括销售地点和商品类型时,商品类型的一个数据内容的文本为“短款马甲”时,分类弹窗可以显示待聚类的数据内容:“短款马甲”;所有聚类:“北京市”、“深圳市”、“上衣”、“裤装”等,然后响应于用户针对该数据内容的分类操作,将该数据内容归为某一聚类中,即用户定义“短款马甲”属于“上衣”,从而将数据内容“短款马甲”归为聚类“上衣”中,进而可以减少数据分析过程中对于少量相似度较低的数据出现遗漏的现象,进一步提高数据分析结果的准确性。
S104:将所述每个聚类中各个数据内容各自对应的待分析数据分为一组。
基于目标维度数据进行数据分析时,根据描述文本的语义,将该目标维度数据中描述同一内容的数据内容聚为一类,然后进一步将各个数据内容对应的待分析数据分为一组,便于用户针对目标维度数据中的某一聚类,查询该聚类中对应的待分析数据的其他数据。
示例地,当目标维度数据为销售地点时,对于多个聚类:“北京市”、“深圳市”等等,“深圳市”的聚类包含有这一周销售地点在深圳市的所有订单数据,用户可以查询销售地点在深圳市的某一订单数据的其他信息,例如销售人员是谁、销售金额为多少等。
在一种实施方式中,还可以将每次维度数据聚类模型的聚类结果作为新的训练数据进行存储;当存储的新的训练数据的数量超过标定数量时,对维度数据聚类模型进行更新训练;从而在用户使用过程对维度数据聚类模型进行自动化更新训练,使得维度数据聚类模型随着用户的使用不断优化,可以令维度数据聚类模型具有更好地聚类效果,进一步提高数据分析结果的准确性。
本实施例提供的方法至少具有以下效果:
1、通过维度数据聚类模型,基于描述目标维度数据的数据内容的文本进行聚类,通过文本的语义描述了同一内容的数据内容聚集为一类,不依赖于数据的标准化管理与记录过程,对同一维度的不同描述也可以有效进行聚类,从而可以提高数据分析结果的准确性;
2、可以同时基于多个目标维度数据进行数据分析,有效提高数据分析过程的效率;
3、对维度数据聚类模型进行自动化更新,使得维度数据聚类模型的聚类效果不断提升,进一步提高数据分析结果的准确性。
参照图3,示出了本申请实施例提供的一种基于维度数据的映射装置的功能模块图,如图3,本装置包括:
获取模块100,用于响应于针对目标维度数据的选择操作,获取所有待分析数据中各自描述所述目标维度数据的数据内容;
聚类模块200,用于通过维度数据聚类模型,根据所有数据内容中的文本,将所述所有数据内容聚合为多个聚类;
统一命名模块300,用于对所述多个聚类中每个聚类描述所述目标维度数据的数据内容进行统一命名;
分类模块400,用于将所述每个聚类中各个数据内容各自对应的待分析数据分为一组。
可选地,所述获取模块包括:
显示单元,用于显示选择弹窗,所述选择弹窗中设置有所述待分析数据包括的所有维度数据选项;
目标维度数据确定单元,用于根据在所述选择弹窗上针对一个或多个维度数据选项进行的选择操作,将所述一个或多个维度数据作为目标维度数据;
获取单元,用于获取所有待分析数据中各自描述所述目标维度数据的数据内容。
可选地,所述聚类模块包括:
输入单元,用于将所述所有待分析数据中各自描述所述目标维度数据的数据内容输入维度数据聚类模型中;
相似度确定单元,用于所述维度数据聚类模型对所有的数据内容的文本进行向量化表示,并确定任意两个数据内容的向量化表示之间的相似度;
聚类单元,用于当任意两个数据内容的向量化表示之间的相似度大于既定阈值时,将两个数据内容确定为一类。
可选地,所述统一命名模块包括:
提取单元,用于对所述多个聚类中的每个聚类提取字段特征;
替换单元,用于对任一聚类对应的字段特征与预设的标准文本进行匹配,并用该字段特征匹配到的所述标准文本替换该聚类中所有数据内容的文本。
可选地,所述装置还包括:
辅助分类模块,用于在一个数据内容的向量化表示与其他数据内容的向量化表示之间的相似度均小于既定阈值时,响应于针对该数据内容的分类操作,将该数据内容归为某一聚类中。
可选地,所述装置还包括自动训练模型,所述自动训练模块包括:
存储单元,用于将每次所述维度数据聚类模型的聚类结果作为新的训练数据进行存储;
更新训练单元,用于当存储的新的训练数据的数量超过标定数量时,对所述维度数据聚类模型进行更新训练。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如实施例所述的基于维度数据的映射方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种基于维度数据的映射方法,其特征在于,所述方法包括:
响应于针对目标维度数据的选择操作,获取所有待分析数据中各自描述所述目标维度数据的数据内容;
通过维度数据聚类模型,根据所有数据内容中的文本,将所述所有数据内容聚合为多个聚类;
对所述多个聚类中每个聚类描述所述目标维度数据的数据内容进行统一命名;
将所述每个聚类中各个数据内容各自对应的待分析数据分为一组。
2.根据权利要求1所述的方法,其特征在于,响应于针对目标维度数据的选择操作,获取所有待分析数据中各自描述所述目标维度数据的数据内容,包括:
显示选择弹窗,所述选择弹窗中设置有所述待分析数据包括的所有维度数据选项;
根据在所述选择弹窗上针对一个或多个维度数据选项进行的选择操作,将所述一个或多个维度数据作为目标维度数据;
获取所有待分析数据中各自描述所述目标维度数据的数据内容。
3.根据权利要求1所述的方法,其特征在于,通过维度数据聚类模型,根据所有数据内容中的文本,将所述所有数据内容聚合为多个聚类,包括:
将所述所有待分析数据中各自描述所述目标维度数据的数据内容输入维度数据聚类模型中;
所述维度数据聚类模型对所有的数据内容的文本进行向量化表示,并确定任意两个数据内容的向量化表示之间的相似度;
当任意两个数据内容的向量化表示之间的相似度大于既定阈值时,将两个数据内容确定为一类。
4.根据权利要求1所述的方法,其特征在于,对所述多个聚类中每个聚类描述所述目标维度数据的数据内容进行统一命名,包括:
对所述多个聚类中的每个聚类提取字段特征;
对任一聚类对应的字段特征与预设的标准文本进行匹配,并用该字段特征匹配到的所述标准文本替换该聚类中所有数据内容的文本。
5.根据权利要求3所述的方法,其特征在于,在对所述多个聚类中每个聚类描述所述目标维度数据的数据内容进行统一命名之后,所述方法还包括:
当一个数据内容的向量化表示与其他数据内容的向量化表示之间的相似度均小于既定阈值时,响应于针对该数据内容的分类操作,将该数据内容归为某一聚类中。
6.根据权利要求1-5任一所述的方法,其特征在于,所述方法还包括:
将每次所述维度数据聚类模型的聚类结果作为新的训练数据进行存储;
当存储的新的训练数据的数量超过标定数量时,对所述维度数据聚类模型进行更新训练。
7.一种基于维度数据的映射装置,其特征在于,所述方法包括:
获取模块,用于响应于针对目标维度数据的选择操作,获取所有待分析数据中各自描述所述目标维度数据的数据内容;
聚类模块,用于通过维度数据聚类模型,根据所有数据内容中的文本,将所述所有数据内容聚合为多个聚类;
统一命名模块,用于对所述多个聚类中每个聚类描述所述目标维度数据的数据内容进行统一命名;
分类模块,用于将所述每个聚类中各个数据内容各自对应的待分析数据分为一组。
8.根据权利要求7所述的装置,其特征在于,所述聚类模块包括:
输入单元,用于将所述所有待分析数据中各自描述所述目标维度数据的数据内容输入维度数据聚类模型中;
相似度确定单元,用于所述维度数据聚类模型对所有的数据内容的文本进行向量化表示,并确定任意两个数据内容的向量化表示之间的相似度;
聚类单元,用于当任意两个数据内容的向量化表示之间的相似度大于既定阈值时,将两个数据内容确定为一类。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
辅助分类模块,用于在一个数据内容的向量化表示与其他数据内容的向量化表示之间的相似度均小于既定阈值时,响应于针对该数据内容的分类操作,将该数据内容归为某一聚类中。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于维度数据的映射方法。
CN202211620618.9A 2022-12-15 2022-12-15 一种基于维度数据的映射方法、装置和存储介质 Pending CN115828119A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211620618.9A CN115828119A (zh) 2022-12-15 2022-12-15 一种基于维度数据的映射方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211620618.9A CN115828119A (zh) 2022-12-15 2022-12-15 一种基于维度数据的映射方法、装置和存储介质

Publications (1)

Publication Number Publication Date
CN115828119A true CN115828119A (zh) 2023-03-21

Family

ID=85545961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211620618.9A Pending CN115828119A (zh) 2022-12-15 2022-12-15 一种基于维度数据的映射方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN115828119A (zh)

Similar Documents

Publication Publication Date Title
US9323838B2 (en) Labeling product identifiers and navigating products
CN107016026B (zh) 一种用户标签确定、信息推送方法和设备
CN108346075B (zh) 信息推荐方法和装置
CN109492180A (zh) 资源推荐方法、装置、计算机设备及计算机可读存储介质
CN109359244A (zh) 一种个性化信息推荐方法和装置
CN102254043A (zh) 一种基于语义映射的服装图像检索方法
CN109829108B (zh) 信息推荐方法、装置、电子设备及可读存储介质
CN112288517A (zh) 结合rpa与ai的商品推荐方法和装置
CN113570413B (zh) 广告关键词的生成方法、装置、存储介质及电子设备
CN112597283B (zh) 通知文本信息实体属性抽取方法、计算机设备及存储介质
CN107832338B (zh) 一种识别核心产品词的方法和系统
CN107093091B (zh) 一种数据处理方法和装置
CN106649276B (zh) 标题中核心产品词的识别方法以及装置
CN106780273A (zh) 旅客航班需求分析方法和系统
CN104077288B (zh) 网页内容推荐方法和网页内容推荐设备
CN109583712B (zh) 一种数据指标分析方法及装置、存储介质
CN114860941A (zh) 一种基于数据大脑的行业数据治理方法及系统
CN110968670B (zh) 一种流行商品的属性获取方法、装置、设备及存储介质
CN112989053A (zh) 一种期刊推荐方法及装置
CN115828119A (zh) 一种基于维度数据的映射方法、装置和存储介质
KR102078541B1 (ko) 이슈 관심도 기반의 뉴스 가치 평가 장치 및 방법, 이를 기록한 기록매체
CN107239456A (zh) 年龄段识别方法及装置
CN113627509B (zh) 数据分类方法、装置、计算机设备及计算机可读存储介质
CN112766779B (zh) 信息处理方法、计算机设备及存储介质
KR102247689B1 (ko) 여성 영양제 공급 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination