CN116226114B - 一种数据处理方法、系统及存储介质 - Google Patents
一种数据处理方法、系统及存储介质 Download PDFInfo
- Publication number
- CN116226114B CN116226114B CN202310513845.XA CN202310513845A CN116226114B CN 116226114 B CN116226114 B CN 116226114B CN 202310513845 A CN202310513845 A CN 202310513845A CN 116226114 B CN116226114 B CN 116226114B
- Authority
- CN
- China
- Prior art keywords
- data
- online
- coded data
- offline
- pieces
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种数据处理方法、系统及存储介质,应用于数据处理技术领域,能够解决采集到的数据差异性小的问题,达到降低数据重合度的效果。其中方法包括:首先,获取针对同一目标应用的M条离线编码数据和N条在线编码数据,M、N为大于0的自然数;之后,针对N条在线编码数据中的任一在线编码数据,若在线编码数据与M条离线编码数据之间的第一相似度小于或等于第一阈值,则将在线编码数据作为差异数据;针对多条差异数据中的任意两条差异数据,若两条差异数据之间的第二相似度小于或等于第二阈值,则确定两条差异数据能被用于训练第一模型,第一模型训练后得到的第二模型用于对目标应用的其他编码数据进行识别。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、系统及存储介质。
背景技术
如今,在电子设备中安装的一些应用程序(application,APP)可以通过分析离线数据生成分析结果,基于分析结果进行相应的信息推送。其中,分析结果的准确性会影响推送结果,因而如何得到更为准确的分析结果是目前亟待解决的问题。基于此,相关技术提出通过将电子设备产出的大量在线数据也作为数据集,以扩充数据的数量,得到更准确的分析结果。其存在的问题是,在线数据之间具有高重复度,在线数据与离线数据之间也具有高重复度,导致数据集中的数据不具备差异多样性,所以将在线数据和离线数据一起作为数据集,虽然增加了数据的数量,但数据的质量并未提升,还影响了分析效率。
发明内容
本申请提供一种数据处理方法、系统及存储介质,能够解决采集到的数据差异性小的问题,达到降低数据重合度的效果。
第一方面,本申请提供一种数据处理方法,可应用于电子设备、服务器或实现电子设备功能、服务器功能的组件(比如芯片系统)。以应用于服务器为例,该方法中,服务器获取针对同一目标应用的M条离线编码数据和N条在线编码数据。然后,服务器针对N条在线编码数据中的任一在线编码数据,若在线编码数据与M条离线编码数据之间的第一相似度小于或等于第一阈值,则将在线编码数据作为差异数据。服务器针对多条差异数据中的任意两条差异数据,若两条差异数据之间的第二相似度小于或等于第二阈值,则确定两条差异数据能被用于训练第一模型,第一模型训练后得到的第二模型用于对目标应用的其他编码数据进行识别,该方法中,M、N为大于0的自然数。
基于本申请提供的方法,服务器从N条在线编码数据中获取与离线编码数据的第一相似度小于或等于第一阈值的差异数据。由于第一相似度越大,在线编码数据与离线编码数据的内容重合度越高,则该模型以离线编码数据训练得到的情况下,在线编码数据对模型训练精度的提升较小;相应的,第一相似度越小,在线编码数据与离线编码数据的内容重合度越小,则在线编码数据对该模型训练精度的提升较大。那么第一相似度小于或等于第一阈值,则说明差异数据与离线编码数据有差异,所以将与离线编码数据有差异的差异数据进一步进行相似度比较,根据比较得到的第二相似度小于或等于第二阈值,确定两条差异数据之间也有差异。可以将差异数据与离线编码数据之间有差异称为数据差异性,将两条差异数据之间有差异称为数据多样性,数据多样性是指差异数据不仅与离线编码数据有差异,还有多样化的差异,不同差异数据与离线编码数据之间的差异是不一样的。这样经过两次相似度比较,得到的数据能够被用于训练第一模型(或更新第一模型),能够对第一模型性能有较大提升。
在第一方面的一种可能的设计方式中,上述服务器针对N条在线编码数据中的任一在线编码数据,若在线编码数据与M条离线编码数据之间的第一相似度小于或等于第一阈值,则将在线编码数据作为差异数据,包括:服务器将M条离线编码数据进行第一聚类处理,由第一聚类处理所得的X个簇确定X个离线编码模板;其中,X为大于0的自然数,X≤M。之后,服务器针对N条在线编码数据中的任一在线编码数据,获取在线编码数据与每个离线编码模板中的任一离线编码数据之间的第一相似度。若第一相似度小于或等于第一阈值,则将在线编码数据作为差异数据。
该设计方式下,通过对N条在线编码数据进行第一聚类处理,实现对离线编码数据的模板分类,其中每个聚类得到的簇表示一个离线编码模板,簇内的离线编码数据差异小,不同簇之间有差异性,所以离线编码模板内的离线编码数据的差异小,不同离线编码模板之间的离线编码数据有差异性。也就是说,从离线编码模板中任取的一条离线编码数据都可代表该离线编码模板,那么不必将每一条离线编码模板与在线编码模板进行相似度比对,而是可以将每个离线编码模板中的其中一条离线编码数据与在线编码数据进行比对,得到第一相似度。即,采用该设计方式后,相似度比对从原本的M*N次减少为X*N次,次数减少,又由于离线编码模板中的每一条离线编码数据都具代表性,所以相似性结果的可靠性并未降低。这样一来,计算效率大大提高。
在第一方面的一种可能的设计方式中,上述服务器将M条离线编码数据进行第一聚类处理,包括:服务器获取离线编码数据的实体长度,并根据不同离线编码数据之间实体长度的差异,将M条离线编码数据进行第一聚类处理。
该设计方式下,比较不同离线编码数据之间实体长度的差异,实体长度的差异越大,则两个离线编码数据之间的差异越大,那么离线编码数据越有可能被分为两类;反之,实体长度的差异越小,则两个离线编码数据之间的差异越小,那么离线编码数据越有可能被聚为一类,所以采用实体长度的差异作为不同离线编码数据之间的差异,有利于快速比较相似度。并且采用实体长度的差异比对无需对编码数据进行解码,所以不易泄露隐私数据,安全性更高。
在第一方面的一种可能的设计方式中,上述服务器获取在线编码数据与每个离线编码模板中的任一离线编码数据之间的第一相似度,包括:服务器获取在线编码数据的实体长度和每个离线编码模板中的任一离线编码数据的实体长度。服务器确定在线编码数据的实体长度和离线编码数据的实体长度之间的第一相似度。
该设计方式下,比较在线编码数据与从离线编码模板中获取的其中一条离线编码数据之间的实体长度的差异,根据实体长度之间的差异确定第一相似度。与离线编码数据的实体长度差异比较相类似的,在比较在线编码数据与离线编码数据之间的差异时,实体长度的差异越大,则在线编码数据与离线编码数据之间的差异越大,那么在线编码数据与离线编码数据之间的第一相似度越大;反之,实体长度的差异越小,则在线编码数据与离线编码数据之间的第一相似度越小。通过比较实体长度可以快速得到在线编码数据与离线编码数据之间的第一相似度,且这种比较方式无需对编码数据进行解码,所以不易泄露隐私数据,安全性更高。
在第一方面的一种可能的设计方式中,实体长度是根据编码数据中的实体标签对实体标签对应的实体字段进行拼接处理得到的长度,编码数据包括离线编码数据或在线编码数据。
该设计方式下,实体长度是编码数据中所有实体字段的总长度。其中实体字段可由编码数据得到,当编码数据是以实体标注方式(如BIO标注、BMES标注、BIOES标注)得到时,每个实体字段对应有实体标签。根据标注的实体标签确定编码数据中的实体字段。采用拼接实体字段的方式获取总长度。
实体字段可以是一个实体字符,也可以是多个实体字符的集合。
在第一方面的一种可能的设计方式中,上述服务器获取在线编码数据与每个离线编码模板中的任一离线编码数据之间的第一相似度,包括:服务器将在线编码数据和离线编码模板中的任一离线编码数据输入相似模型中,以:进行特征提取,得到在线编码数据的第一表征向量和离线编码数据的第二表征向量,并确定第一表征向量与第二表征向量之间的第一相似度。其中,相似模型是以多条编码数据作为输入,以编码数据之间的相似度作为样本真实标签进行训练得到的。
该设计方式下,采用相似模型比较在线编码数据和离线编码数据之间的差异。相似模型可采用基于表示的特征提取网络或者基于交互的特征提取网络。基于表示的特征提取网络包括表示层与预测层,表示层用于将高维度的编码数据通过特征提取表示为低维度的表征向量。预测层用于通过计算余弦相似度判断两条编码数据的表征向量之间的第一相似度,第一相似度可表示两条编码数据之间的相似性。基于交互的特征提取网络可采用transformer结构即双塔结构。每个塔输入一条编码数据,两条编码数据经过特征交互,能够互相学习到信息更丰富的特征,所以输出的表征向量的信息表达能力的增强。上述两种模型架构都可以以多条编码数据作为输入,以编码数据之间的相似度作为样本真实标签对相似模型进行训练。通过训练相似模型可以提高相似度计算的效率,且上述编码数据可直接输入相似模型中进行特征识别。无需对编码数据进行解码,所以不易泄露隐私数据,安全性更高。
在第一方面的一种可能的设计方式中,编码数据之间的相似度包括:杰卡德距离、欧几里得距离、余弦相似度和相似距离的其中一种。
在第一方面的一种可能的设计方式中,在编码数据之间的相似度是相似距离的情况下,该方法还包括:针对任意两条编码数据,服务器获取目标实体字段数量与实体字段总数量的占比,得到相似距离,其中,目标实体字段数量包括其中一条编码数据解码得到的用户数据的实体字段存在于另一条编码数据解码得到的用户数据中的数量,实体字段总数量包括其中一条编码数据解码得到的用户数据的实体字段的数量。
该设计方式下,在基于交互的特征提取网络中采用分类任务生成相似模型的样本真实标签。具体的,针对编码向量a和编码向量b之间的样本真实标签,首先获取编码向量解码得到的用户数据a和编码向量b解码得到的用户数据b。然后判断用户数据a中的每个字段是否存在与用户数据b中,将用户数据a中存在于用户数据b中的字段的数量称为目标实体字段数量。将用户数据b中的所有实体字段的数量称为实体字段总数量。通过计算目标实体字段数量除以实体字段数量得到目标实体字段在实体字段中的占比,以该占比作为相似距离,相似距离表示根据两个编码数据对应的用户数据计算得到的两个编码数据之间的相似程度。相似距离越大,说明用户数据a存在于用户数据b中的字段的数量占比越多,则相似程度越大;相似距离越小,说明用户数据a存在于用户数据b中的字段的数量占比越少,则相似程度越小。可以理解的是,上文是以用户数据a中的目标实体字段在用户数据b中的实体字段中的占比举例的,用户数据b中的目标实体字段占用户数据b的实体字段中的占比也可得到相似距离。对于每两个编码向量,有对应的两个相似距离作为样本真实标签。
在第一方面的一种可能的设计方式中,该方法还包括:针对多条差异数据中的任意两条差异数据,若两条差异数据之间的第二相似度大于第二阈值,则服务器将两个差异数据聚类于同一个在线编码模板;针对每个在线编码模板,服务器基于在线编码模板中的差异数据的实体长度的分布,确定在线编码模板的目标采样数量。然后服务器根据目标采样数量从在线编码模板中获取差异数据,以训练第一模型。
该设计方式下,每个在线编码模板中获取的在线编码数据不是随机的,且获取的在线编码数据的数量也不是自定义的,而是根据实体长度的分布确定所获取的目标采样数量,并获取目标采样数量对应的差异数据,这样可以使采样数量更合理。
在第一方面的一种可能的设计方式中,上述服务器基于在线编码模板中的差异数据的实体长度的分布,确定在线编码模板的目标采样数量,包括:服务器基于在线编码模板中的差异数据的实体长度,对在线编码模板中的差异数据进行第二聚类处理。之后,服务器通过预设的总采样数量除以第二聚类处理得到的各个簇的分布数量,确定每个长度分布的平均采样数量。针对任一长度分布,服务器通过长度分布对应的平均采样数量除以所述总采样数量,确定所述长度分布的采样率。针对任一长度分布,服务器通过长度分布的采样率与长度分布下的差异数据条数的乘积,确定长度分布下待采样的目标采样数量。
该设计方式下,通过对每个长度分布都获取目标采样数量个差异数据,从而起到差异数据的数量平均的效果。也就是说,不同长度分布都能分别获取差异数据,这样训练得到的第二模型的泛化能力的较好,能够识别出不同长度的编码数据之间的表征向量。
在第一方面的一种可能的设计方式中,基于在线编码模板中的差异数据的实体长度的分布,确定在线编码模板的目标采样数量,包括:
a = ceil(sample_len/total_len_nums)/sample_len;
xi= ceil(a*di);
其中,ceil表示向上取整,sample_len表示总采样数量,total_len_nums表示分布数量,a表示采样率,di表示第i个长度分布下的差异数据条数。xi表示第i个长度分布下待采样的目标采样数量。
在第一方面的一种可能的设计方式中,上述针对N条在线编码数据中的任一在线编码数据,服务器获取在线编码数据与每个离线编码模板中的任一离线编码数据之间的第一相似度,包括:针对N条在线编码数据中的任一在线编码数据,服务器并行执行在线编码数据分别与X个离线编码模板中的K个离线编码模板之间的第一相似度。若第一相似度小于或等于第一阈值,则服务器将在线编码数据作为差异数据,包括:若K个第一相似度均小于或等于第一阈值,则服务器将在线编码数据作为差异数据。
该设计方式下,通过并行执行在线编码数据与K条离线编码数据之间的相似度比较,通过将最多X次相似度比较次数减少为最多roundup(X/K)次相似度比较次数。大大减少了比较次数,从而较为高效地得到相似度比较结果。其中roundup表示向上取整。
在第一方面的一种可能的设计方式中,在线编码数据和离线编码数据是针对用户数据进行实体编码得到的,用户数据包括终端接收到的短信信息。
该设计方式下,编码数据是对用户数据进行实体编码得到的,用户数据包括短信信息,所以是实时生成的,那么通过从用户数据对应的编码数据中获取能够训练的差异数据有利于不断训练第一模型,提高第一模型的识别精度,从而协助终端做出较为准确的决策。
第二方面,本申请提供一种电子设备,该电子设备包括:处理器,和用于存储处理器可执行指令的存储器,处理器被配置为执行所述指令时,使得电子设备实现如第一方面及其任一种可能的设计方式提供的方法。
第三方面,本申请提供一种服务器,该服务器包括:处理器、通信模块和用于存储所述处理器可执行指令的存储器,服务器内置离线编码数据,服务器通过通信模块接收电子设备发送的在线编码数据,所述处理器被配置为执行所述指令时,使得所述服务器实现如第一方面及其任一种可能的设计方式提供的方法。
第四方面,本申请提供一种服务器,该服务器包括:处理器、通信模块和用于存储所述处理器可执行指令的存储器,当计算机指令被处理器执行时,使得处理器执行如下步骤:处理器获取针对同一目标应用的M条离线编码数据和N条在线编码数据。然后,处理器针对N条在线编码数据中的任一在线编码数据,若在线编码数据与M条离线编码数据之间的第一相似度小于或等于第一阈值,则将在线编码数据作为差异数据。处理器针对多条差异数据中的任意两条差异数据,若两条差异数据之间的第二相似度小于或等于第二阈值,则确定两条差异数据能被用于训练第一模型,第一模型训练后得到的第二模型用于对目标应用的其他编码数据进行识别,该方法中,M、N为大于0的自然数。
在第四方面的一种可能的设计方式中,上述处理器针对N条在线编码数据中的任一在线编码数据,若在线编码数据与M条离线编码数据之间的第一相似度小于或等于第一阈值,则将在线编码数据作为差异数据,包括:处理器将M条离线编码数据进行第一聚类处理,由第一聚类处理所得的X个簇确定X个离线编码模板;其中,X为大于0的自然数,X≤M。之后,处理器针对N条在线编码数据中的任一在线编码数据,获取在线编码数据与每个离线编码模板中的任一离线编码数据之间的第一相似度。若第一相似度小于或等于第一阈值,则将在线编码数据作为差异数据。
在第四方面的一种可能的设计方式中,上述处理器将M条离线编码数据进行第一聚类处理,包括:处理器获取离线编码数据的实体长度,并根据不同离线编码数据之间实体长度的差异,将M条离线编码数据进行第一聚类处理。
在第四方面的一种可能的设计方式中,上述处理器获取在线编码数据与每个离线编码模板中的任一离线编码数据之间的第一相似度,包括:处理器获取在线编码数据的实体长度和每个离线编码模板中的任一离线编码数据的实体长度。处理器确定在线编码数据的实体长度和离线编码数据的实体长度之间的第一相似度。
在第四方面的一种可能的设计方式中,实体长度是根据编码数据中的实体标签对实体标签对应的实体字段进行拼接处理得到的长度,编码数据包括离线编码数据或在线编码数据。
在第四方面的一种可能的设计方式中,上述处理器获取在线编码数据与每个离线编码模板中的任一离线编码数据之间的第一相似度,包括:处理器将在线编码数据和离线编码模板中的任一离线编码数据输入相似模型中,以:进行特征提取,得到在线编码数据的第一表征向量和离线编码数据的第二表征向量,并确定第一表征向量与第二表征向量之间的第一相似度。其中,相似模型是以多条编码数据作为输入,以编码数据之间的相似度作为样本真实标签进行训练得到的。
在第四方面的一种可能的设计方式中,编码数据之间的相似度包括:杰卡德距离、欧几里得距离、余弦相似度和相似距离的其中一种。
在第四方面的一种可能的设计方式中,在编码数据之间的相似度是相似距离的情况下,该方法还包括:针对任意两条编码数据,处理器获取目标实体字段数量与实体字段总数量的占比,得到相似距离,其中,目标实体字段数量包括其中一条编码数据解码得到的用户数据的实体字段存在于另一条编码数据解码得到的用户数据中的数量,实体字段总数量包括其中一条编码数据解码得到的用户数据的实体字段的数量。
在第四方面的一种可能的设计方式中,该方法还包括:针对多条差异数据中的任意两条差异数据,若两条差异数据之间的第二相似度大于第二阈值,则处理器将两个差异数据聚类于同一个在线编码模板;针对每个在线编码模板,处理器基于在线编码模板中的差异数据的实体长度的分布,确定在线编码模板的目标采样数量。然后处理器根据目标采样数量从在线编码模板中获取差异数据,以训练第一模型。
在第四方面的一种可能的设计方式中,上述处理器基于在线编码模板中的差异数据的实体长度的分布,确定在线编码模板的目标采样数量,包括:处理器基于在线编码模板中的差异数据的实体长度,对在线编码模板中的差异数据进行第二聚类处理。之后,处理器通过预设的总采样数量除以第二聚类处理得到的各个簇的分布数量,确定每个长度分布的平均采样数量。针对任一长度分布,处理器通过长度分布对应的平均采样数量除以总采样数量,确定长度分布的采样率。针对任一长度分布,服务器通过长度分布的采样率与长度分布下的差异数据条数的乘积,确定长度分布下待采样的目标采样数量。
在第四方面的一种可能的设计方式中,基于在线编码模板中的差异数据的实体长度的分布,确定在线编码模板的目标采样数量,包括:
a = ceil(sample_len/total_len_nums)/sample_len;
xi= ceil(a*di);
其中,ceil表示向上取整,sample_len表示总采样数量,total_len_nums表示分布数量,a表示采样率,di表示第i个长度分布下的差异数据条数。xi表示第i个长度分布下待采样的目标采样数量。
在第四方面的一种可能的设计方式中,上述针对N条在线编码数据中的任一在线编码数据,处理器获取在线编码数据与每个离线编码模板中的任一离线编码数据之间的第一相似度,包括:针对N条在线编码数据中的任一在线编码数据,处理器并行执行在线编码数据分别与X个离线编码模板中的K个离线编码模板之间的第一相似度。若第一相似度小于或等于第一阈值,则处理器将在线编码数据作为差异数据,包括:若K个第一相似度均小于或等于第一阈值,则处理器将在线编码数据作为差异数据。
在第四方面的一种可能的设计方式中,在线编码数据和离线编码数据是针对用户数据进行实体编码得到的,用户数据包括终端接收到的短信信息。
第五方面,本申请提供一种数据处理系统,该数据处理系统包括:服务器和电子设备,所述电子设备用于向所述服务器发送在线编码数据;所述服务器用于在接收到所述电子设备发送的在线编码数据之后,执行如第一方面及其任一种可能的设计方式提供的方法;所述服务器还用于根据所述两条差异数据训练第一模型,得到第二模型,其中,所述第二模型用于对所述目标应用的其他编码数据进行特征提取,并根据提取到的所述其他编码数据对应的特征向量输出推送信息,所述推送信息用于在所述电子设备上显示。
第六方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质包括计算机指令,当所述计算机指令在电子设备上运行时,使得电子设备执行如第一方面及其任一种可能的设计方式所述的方法。
第七方面,本申请提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如第一方面及其任一种可能的设计方式所述的方法。
第八方面,本申请提供一种芯片系统,该芯片系统包括一个或多个接口电路和一个或多个处理器。接口电路和处理器通过线路互联。该芯片系统应用于包括通信模块和存储器的电子设备;接口电路用于从存储器接收信号,并向处理器发送信号,信号包括存储器中存储的计算机指令。当处理器执行计算机指令时,电子设备或服务器执行如第一方面及任一种可能的实施方式的方法。
可以理解地,上述提供的第二方面的电子设备,第三方面的服务器,第四方面的服务器及其可能的设计方式提供的方法,第五方面的数据处理系统,第六方面的计算机可读存储介质,第七方面的计算机程序产品,以及第八方面的芯片系统所能达到的有益效果,可参考第一方面及其任一种可能的实施方式中的有益效果,此处不再赘述。
附图说明
图1为本申请实施例提供的一种数据处理方法的示意图;
图2为本申请实施例提供的一种数据处理系统的示意图;
图3为本申请实施例提供的一组界面示意图;
图4为本申请实施例提供的一种第一设备的硬件结构示意图;
图5为本申请实施例提供的一种第二设备的硬件结构示意图;
图6为本申请实施例提供的一种卡片推送的场景示意图;
图7为本申请实施例提供的一种图片推送的场景示意图;
图8为本申请实施例提供的一种数据处理方法的流程图;
图9为本申请实施例提供的一种在线编码数据的分类示意图;
图10为本申请实施例提供的一种计算相似度的流程图;
图11为本申请实施例提供的一种构造相似模型标签的示意图;
图12为本申请实施例提供的一种在线编码数据差异化的示意图;
图13为本申请实施例提供的一种差异数据多样化的示意图;
图14为本申请实施例提供的一种基于实体长度抽样的示意图;
图15为本申请实施例提供的一种批处理示意图;
图16为本申请实施例提供的一种芯片系统的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。其中,在本申请的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
另外,为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样仅用于描述目的,并不对数量和执行次序进行限定,也不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。并且“第一”、“第二”等字样也并不限定一定不同。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“至少一个”是指一个或多个,“多个”的含义是两个或两个以上。
在本申请实施例中,“示例性地”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。
电子设备中可以安装许多的应用程序。一些应用程序具备推送服务,比如将经过整理的信息发送至设备界面,使得用户可以直接获取到信息。为了提高推送准确率以及推送速度,这些应用程序可以采用训练好的推送模型进行信息特征提取。
作为一种示例,推送模型可以部署在端侧,或者端云两侧。如果推送模型部署在端侧,那么推送模型只能基于端侧的用户数据来训练模型和更新模型,且端侧设备的计算能力一般来说较为有限,部署推送模型可能会影响用户对端侧设备的正常使用。如果推送模型部署在端云两侧,那么部署在端侧的部分推送模型需要将用户数据上传至云侧,使得部署在云侧的部分推送模型可以基于端侧上传的用户数据来训练模型和更新模型。由于端侧上传至云侧的数据通常包含隐私信息(如用户身份信息),如果直接上传原始的用户数据存在用户隐私信息泄露的风险,所以端侧将用户数据编码和加噪处理得到在线编码数据,并将在线编码数据发送给云侧,以便云侧使用,如使用在线编码数据训练或更新推送模型。由于对用户数据进行了加噪处理,使得用户数据的隐私被保护,所以在在线编码数据传输过程中,即使在线编码数据被端侧和云侧之外的第三方设备截获,第三方设备也无法根据在线编码数据还原得到用户数据,这样便保护了用户隐私。
由于用户数据的数量大、重复度高,所以云侧将用户数据对应的在线编码数据不加聚类直接输入推送模型的话,模型的训练效率低。而正是因为针对的数据是无法表示数据含义的在线编码数据,所以相关技术中采用的基于数据的信息内容的聚类方法无法实现对在线编码数据的聚类。比如利用K-Means(K-均值)聚类算法、DBSCAN(density-basedSpatial clustering of applications with noise,具有噪声的基于密度的聚类算法)模型、BIRCH(balanced iterative reducing and clustering using hierarchies,利用层次方法的平衡迭代规约和聚类)模型等聚类方法只能对编码前的用户数据进行聚类,无法对编码后的在线编码数据进行聚类,具有局限性。但是在不进行聚类就直接将在线编码数据输入推送模型的情况下,编码数据对模型性能的提升作用较小。
如图1所示,本申请实施例提供一种数据处理方法,能够分析在线编码数据集(或称新数据集)与离线编码数据集(或称已有数据集)的相似度,根据相似度进行数据差异化处理,得到与离线编码数据有差异的差异数据集,然后对差异数据集中的在线编码数据进行数据多样化处理,得到具有多样性的目标编码数据(对应图1中的多样性数据)。目标编码数据之间、以及目标编码数据与离线编码数据之间的重复度小、差异性大,因而以目标编码数据作为补充样本输入至推送模型对模型进行训练,能够对模型性能有较大提升。
如图2所示,本申请实施例提供的数据处理方法可应用于数据处理系统,数据处理系统包括第一设备(如图2所示的手机110)、第二设备(如图2所示的服务器120)。
其中,第一设备内置编码模型,用于将获取到的用户数据编码处理,得到在线编码数据。第一设备将在线编码数据发送给第二设备。
第二设备内置推送模型。第二设备获取在线编码数据,其中,在线编码数据可以是第一设备向第二设备发送的。第二设备能够在不对在线编码数据进行解码的情况下,从在线编码数据中筛选出与离线编码数据存在差异的第一数据集,第一数据集包括多条差异数据,然后第二设备从第一数据集中筛选出差异数据之间具有差异性的第二数据集。第二设备基于第二数据集以及预置的离线编码数据对推送模型进行训练或更新。可选的,第二设备中未内置解码模型,即第二设备不具备将在线编码数据解码为用户数据的能力。
本申请实施例中,第一设备可以为便携式计算机(如手机)、平板电脑、笔记本电脑、个人计算机(personal computer,PC)、可穿戴电子设备(如智能手表)、增强现实(augmented reality,AR)\虚拟现实(virtual reality,VR)设备、车载电脑等设备,以下实施例对该第一设备的具体形式不做特殊限制。
第一设备中安装有多个应用程序,应用程序可以显示在第一设备的主界面。应用程序也可以注入在其他应用程序显示的界面上。
下面以应用程序为推送应用,推送应用注入在设置应用显示的界面上为例进行说明。
如图3所示,应用程序包括设置应用、推送应用,设置应用在第一设备的主界面201上设有设置图标202,设置图标202是设置应用的启动入口。启动设置应用后,在设置应用的其中一个界面(如图3所示的设置界面203)上显示有推送应用的菜单栏204,该菜单栏204是针对推送应用进行功能配置的入口,也就是说,推送应用注入在设置应用显示的界面上。
第一设备可在设置应用的首界面203上针对推送应用的菜单栏204进行功能配置,从而开启信息推送功能。第一设备开启信息推送功能后,第一设备中安装的推送应用便具备根据推送模型对用户数据对应的编码数据进行处理,向用户推荐处理结果的能力。所以推送应用可以将推送信息205显示于第一设备的通知栏上,以便于用户及时查看到推送信息205。其中,推送信息205包括通知信息、推荐图片、推荐音频等。
如图4所示,以第一设备为手机为例,手机可以包括处理器310,外部存储器接口320,内部存储器321,通用串行总线(universal serial bus,USB)接口330,充电管理模块340,电源管理模块341,电池342,天线1,天线2,移动通信模块350,无线通信模块360,音频模块370,扬声器370A,受话器370B,麦克风370C,耳机接口370D,传感器模块380,按键390,马达391,指示器392,摄像头393,显示屏394,以及用户标识模块(subscriberidentification module,SIM)卡接口395等。
处理器310可以包括一个或多个处理单元,例如:处理器310可以包括应用处理器(application processor,AP) ,调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(Neural-network Processing Unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以是集成在同一个处理器中。
本申请实施例中,手机先对用户数据进行实体标注,得到用户数据对应的标注结果。然后手机可以通过处理器310中的NPU对标注结果进行编码处理,输出用户数据对应的在线编码数据。其中,实体标注是指标注出用户数据中的实体,实体标注包括BIO(begin-inside-outside)标注、BMES(begin-middle-end-singel)标注、BIOES(begin-inside-outside-end-singel)标注等。以BIO标注为例,在线编码数据包括对用户数据经过BIO标注得到的BIO类别。具体的,用户数据可由BIO标注为:组块的开头/组块的中间/不在任意组块内。其中,组块可以是实体,实体是指可互相区别的对象。BIO标注是指组块的开头以B表示,组块的中间以I表示,不在任意组块以O表示。所以用户数据经过BIO标注后可以得到BIO类别,用于指示用户数据中的各个组块的类别。以组块指的是实体为例,对BIO标注进行说明:用户数据为一条短信“*方航空提醒您,SZ10088航班将于明天上午10点起飞”,预定义的实体为航空公司,航班以及时间。那么,用户数据的每个字段经过BIO标注可得到对应标注标签:B-航空公司,I航空公司,I航空公司,I航空公司,O,O,O,O,B-航班,I-航班,I-[num],I-航班,I-航班,O,O,B-时间,I-时间,I-时间,I-时间,I-[time],I-时间,O,O。将标注标签进行合并,可以得到用户数据对应的BIO类别。
手机的无线通信功能可以通过天线1,天线2,移动通信模块350,无线通信模块360,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。手机中的每个天线可以用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块350可以提供应用在手机上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块350可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(lownoise amplifier,LNA)等。移动通信模块350可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块350还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块350的至少部分功能模块可以被设置于处理器310中。在一些实施例中,移动通信模块350的至少部分功能模块可以与处理器310的至少部分模块被设置在同一个器件中。
无线通信模块360可以提供应用在手机上的包括无线局域网(wireless localarea networks,WLAN)(如wireless fidelity,Wi-Fi网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequencymodulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块360可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块360经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器310。无线通信模块360还可以从处理器310接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,手机的天线1和移动通信模块350耦合,天线2和无线通信模块360耦合,使得手机可以通过无线通信技术与网络以及其他设备通信。无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code division multipleaccess,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(longterm evolution,LTE),BT,GNSS,WLAN,NFC ,FM,和/或IR技术等。GNSS可以包括全球卫星定位系统(global positioning system ,GPS),全球导航卫星系统(global navigationsatellite system,GLONASS),北斗卫星导航系统(beidou navigation satellitesystem,BDS),准天顶卫星系统(quasi-zenith satellite system,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
本申请实施例中,移动通信模块350或无线通信模块360可以向第二设备发送在线编码数据,以便于第二设备从在线编码数据中筛选出重复度小、差异度大的目标编码数据(或称补充样本)。
本申请实施例中,移动通信模块350或无线通信模块360还可以接收手机上安装的应用程序所对应的服务器发送的短信、图片、视频等信息,这些信息可以作为用户数据。
手机通过GPU,显示屏394,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏394和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器310可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。显示屏394用于显示文本、图像,视频等。
在一些实施例中,显示屏394可以与触摸传感器组合成触摸屏,触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。并且手机可以通过显示屏394提供与触摸操作相关的视觉输出。
在本申请实施例中,触摸屏接收到用户用于启动推送应用的触摸操作,便开启信息推送功能。之后,当手机接收到短信,手机将短信输入训练好的推送模型中,输出可以显示在手机的通知栏上的推送信息(如通知信息),以便于用户及时查看到推送信息。
在本申请实施例中,训练好的推送模型可以部署在第一设备如手机中,那么手机可以直接通过部署的训练好的推送模型来进行信息推送。
在本申请实施例中,训练好的推送模型可以部署在第二设备如服务器中,那么手机可以将短信标注和编码后,得到编码短信,并发送给服务器,由服务器将编码短信输入训练好的推送模型中进行处理,服务器将推送模型输出的推送信息发送给第一设备如手机,以便于手机显示推送信息。
如图5所示,第二设备包括:处理器410、存储器420和通信模块430,其中,处理器410可用于读取和执行计算机可读指令。具体地,处理器410可以包括控制器、运算器和寄存器。其中,控制器主要负责指令译码,并为指令对应的操作发出控制信号。运算器主要负责保存指令执行过程中临时存放的寄存器操作数和中间操作结果等。具体实现中,处理器410的硬件架构可以是专用集成电路(application specific integrated circuit,ASIC)架构、MIPS(microprocessor with out inter locked piped stages)架构或者网络处理器(net processor,NP)架构等。
存储器420与处理器410耦合,用于存储各种软件程序和/或多组指令。具体实现中,存储器420可包括高速随机存取的存储器,并且也可包括非易失性存储器,例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。存储器420可以存储操作系统,例如uCOS,VxWorks、RTLinux等嵌入式操作系统。
通信模块430可用于通过网络建立第二设备与其它通信终端(如图2中的手机110、服务器120)之间的通信连接,并用于通过网络收发数据(例如在线编码数据)。
可以理解的是,本实施例示意的结构并不构成对第二设备的具体限定。在另一些实施例中,第二设备可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
下面结合信息推送场景,示例性说明数据处理系统的工作流程。
首先,第二设备内置由离线编码数据训练得到的推送模型,方案的目的是以更多在线编码数据对该推送模型进行更新,使得更新后的推送模型的处理效果更好。
相关技术中,第一设备可以将采集到的用户数据经过标注后通过处理器310中的NPU进行编码处理,输出用户数据对应的在线编码数据。然后第一设备将在线编码数据发送给第二设备,然后第二设备随机选取一定数量的在线编码数据作为第一在线样本。但是,以第一在线样本对推送模型进行更新的问题在于:第一,如果第一在线样本与第二设备中原有的离线样本的重复度大,那么推送模型的更新效果较差。第二,即使第二设备通过部署解码模型的方式将在线编码数据还原为用户数据,然后基于不同用户数据之间的内容差异筛选出第一在线样本,使得第一在线样本与第二设备中原有的离线样本的重复度小,但是该方式需要第二设备先对编码数据进行解码,再对解码后的用户数据进行聚类,最后再对筛选出的一些用户数据进行编码,才可得到第一在线样本。处理过程复杂,导致训练效率较低。
所以本申请实施例中,第二设备无需将在线编码数据输入解码模型中解码得到用户数据,也不是从造型编码数据中随机提取任一数据作为第一在线样本,而是直接以在线编码数据与离线编码数据进行相似度比较,基于比较得到的第一相似度筛选出与离线编码数据存在差异的第一数据集;再对第一数据集中的多条差异数据进行数据之间的相似度比较,基于比较得到的第二相似度筛选出差异数据之间具有差异性的第二数据集。第一设备以第二数据集作为第二在线样本发送给第二设备,以便于第二设备基于第二在线样本更新推送模型。
作为一种示例,更新后的推送模型部署在第二设备中,第一设备接收到实时短信后,将实时短信发送给第二设备,第二设备基于更新后的推送模型对实时短信进行文本识别,输出识别结果,第二设备将识别结果作为推送信息发送给第一设备,以便于第一设备展示推送信息。
作为另一种示例,更新后的推送模型部署在第一设备中,例如,第二设备以第二数据集作为第二在线样本对接收到的推送模型进行更新,并将更新后的推送模型部署到第一设备中。那么第一设备接收到实时短信后,基于部署的推送模型对实时短信进行文本识别,输出识别结果,并将识别结果作为推送信息显示在显示屏394上。
此外,第一设备也可执行本申请提供的方法从在线编码数据中获取第二数据集,并以第二数据集对推送模型进行更新,并对更新后的推送模型进行部署,本申请对此并无限制。
下面对本申请实施例提供的数据处理方法的应用场景进行说明。本申请实施例提供的方法可应用于信息推送场景,信息推送包括但不限于卡片推送、音乐推送、视频推送、图片推送等。
场景一:卡片推送。
卡片推送是指手机中的基于位置的服务以卡片形式为用户提供推送信息,如推送信息包括地铁乘车码、航班出行码、快递取件码等。首先,手机需要获取到用户数据,那么当手机根据用户的地理位置识别出用户所处的推送场景时,手机便将根据用户数据识别得到的推送信息以卡片形式显示在显示屏上。用户点击卡片,可快速进入卡片对应的功能界面。
如图6所示,手机获取到乘机APP对应的服务器发送的乘机短信501,当手机根据用户的地理位置识别出用户处于乘机场景,手机便将乘机短信输入推送模型中进行文本识别,输出识别结果。然后手机将识别结果以卡片形式显示在手机的显示屏上以推送给用户。用户点击卡片502便可进入乘机信息界面503,以便于快速验证乘机信息后进站。
再次参考图6,手机获取到还款APP对应的服务器发送的催款短信504,手机便可催款短信输入推送模型中进行文本识别,输出识别结果。然后手机将识别结果以卡片形式显示在手机的显示屏上以推送给用户。用户点击卡片505便可进入还款界面506,以便于快速还款。
场景二:图片推送。
图片推送是指手机根据相册中的多张图片向用户推荐相册的封面图片。首先,手机获取到相册中的图片数据,图片数据包括图片拍摄信息、图片画面信息。图片拍摄信息包括:拍摄时间、拍摄地点、相机参数等;图片画面信息包括前景目标数量信息、前景目标位置信息等。手机将图片及对应的图片数据输入推送模型中进行特征提取,并根据提取到的特征向量确定图片的聚类结果,聚类结果包括多个聚类得到的簇。基于聚类结果手机可以进行图片推送。比如推送模型可以输出数量最多的簇。然后手机在数量最多的簇中选取其中一张图片作为封面图片,并显示于相册的封面,以提高相册的辨识度。这样用户进入相册应用,便可浏览到相册的封面图片。
如图7所示,手机检测到用户启动图库APP的操作,手机获取相册APP中的相册的图片及对应的图片数据,比如图片拍摄于A地,图片为多人合照。手机将图片和图片数据输入推送模型中,由推送模型根据图片数据对图片进行聚类,并在聚类结果中选取图片表现效果较好的图片作为封面图片显示于相册的封面。用户点击封面图片可浏览相册中的全部图片。该场景中,推送模型为手机提供更具辨识度的封面图片,使用户更快速地在多个相册中找到目标相册。
下面以卡片推送场景作为示例,结合附图对本申请实施例提供的方法进行说明。
本申请实施例提供一种数据处理方法,可以应用于第一设备(如手机)或第二设备(如服务器)。具体的,当该方法应用于第一设备时,第一设备可以执行下文中的各个步骤。当该方法应用于第二设备时,第二设备可以执行下文中的各个步骤。如图8所示,该步骤包括S701-S705。
S701、获取M条离线编码数据和N条在线编码数据,其中,M、N为大于0的自然数。
M条离线编码数据和N条在线编码数据可以是针对同一应用程序(或称目标应用)获取到的。
其中,在线编码数据是指实时接收到的数据采集终端(如手机)发送得到的数据。
比如,手机接收到1条航司的登机提示短信,手机对该短信进行编码后发送给服务器,由于手机接收到登机提示短信到服务器接收到编码数据的时间很短,所以服务器采集到的编码数据称作在线编码数据。
继续以服务器为执行主体为例,在服务器扩充样本集之前,服务器中的样本集包括多条离线编码数据,服务器从样本集中获取M条离线编码数据,用以对在线编码数据进行筛选。
其中,离线编码数据是相对在线数据而言的,离线编码数据是指设备原有(或称内置)的编码数据,例如,离线编码数据是服务器定期从数据库中获取到的数据,或者离线编码数据是服务器自动生成的数据。
本申请实施例中,N条在线编码数据可以是多个采集终端采集到的。示例性的,如果手机a在t1时刻向服务器发送一条经过编码的短信,手机a在t2时刻向服务器发送一条经过编码的短信,手机b在t2时刻向服务器发送一条经过编码的短信。则t2时刻后服务器获取到由两个采集终端采集到的3条在线编码数据。
作为一种示例,在用户数据为设备上安装的应用程序所对应的服务器发送的短信、图片、视频等信息时,一条在线编码数据是指对一个应用程序所对应的服务器在某个时刻发送的信息编码得到的数据,比如将应用程序1在t1时刻发送的短信经编码得到的数据称为一条在线编码数据;将应用程序2在t1时刻发送的短信经编码得到的数据称为另一条在线编码数据;将应用程序1在t2时刻发送的短信经编码得到的数据称为其他一条在线编码数据。相类似的,一条离线编码数据是指数据库存储的或者服务器自动生成的一个应用程序所对应的服务器在某个时刻发送的信息编码得到的数据,在此不做赘述。
在一些实施例中,离线编码数据和在线编码数据可以采用BIO标注后,输入编码模型中得到,所以离线编码数据包含每个字段的BIO类别(指B类、I类和O类)。从BIO类别中获取实体标签(指B类和I类)。根据实体标签可以得到每个实体的长度,比如B-航班,I航班,I航班,I航班,O中,航班的实体长度为4。本申请实施例中的编码模型用于对标注后的用户数据进行编码。具体的,编码模型的输入为用户数据(如*方航空)经过BIO标注得到的标注结果(如B-航班、I航班、I航班、I航班),编码模型的输入是编码向量(如0.12,0.255,0.155)。编码结构可采用相关技术中的transformer结构构建,关于其具体结构和训练方法在此不作累赘说明。
S702、根据不同离线编码数据之间的实体长度的差异,将M条离线编码数据进行聚类处理,得到X个离线编码模板,其中,X为大于0的自然数,X≤M。
在介绍本步骤前,首先对实体长度进行说明。离线编码数据的实体长度是根据离线编码数据中的实体标签对实体标签对应的实体字段进行拼接得到的长度。相应的,在线编码数据的实体长度是根据在线编码数据中的实体标签对实体标签对应的实体字段进行拼接得到的长度。比较长度的目的在于可以快速对编码数据进行分类。
具体的,当用户数据未经编码,可以直接通过用户数据对应的信息内容的差异对用户数据进行分类。而当用户数据经过编码得到编码数据后,仅通过编码数据无法得到用户数据有关的信息内容,那么基于信息内容的差异对不同离线编码数据进行分类的方法就难以实现。
比如,两条用户信息分别为:“*方航空提醒您,SZ10088航班将于明天上午10点起飞”、“*方航空提醒您,MU6376航班将于明天上午10点起飞”。通过比较用户信息的信息内容可确定这两条用户信息的相似度很高,那么在已经将前一条用户信息作为训练样本的情况下,即使再将后一条用户信息作为训练样本,对模型的训练精度的提升也是比较有限的。所以比较用户信息的信息内容可以将这两条用户信息对应的编码数据分为一类。对于同一类别内的编码数据,可以选取少量作为训练样本。而不必将同一类别内的所有编码数据都作为训练样本,这不仅无法提高模型训练精度,还增加了训练成本。但是,在这两条用户数据经过BIO标注以及编码后,得到两条编码数据(0.12,0.255,0.155)以及(0.25,0.546,0.354)后,信息内容不可见,所以无法基于信息内容对这两条用户数据对应的编码数据进行分类。区别于相关技术,本步骤不再关注两条编码数据的信息内容是否相似,而是关注两条编码数据的实体长度是否不相似。比如当离线编码数据和在线编码数据的实体长度不相似,那么认为离线编码数据和在线编码数据有差异性,在线编码数据便可作为差异数据,用来训练模型。
需要说明的是,两条编码数据之间的相似度比较可以是:两条离线编码数据之间的相似度比较,两条在线编码数据之间的相似度比较,或者一条离线编码数据和一条在线编码数据之间的相似度比较。
下面以两条在线编码数据之间的相似度比较为例,对基于实体长度进行相似度比较的原理进行说明。示例性的,如图9所示,如果基于信息内容来比较两条在线编码数据,则需要对两条在线编码数据进行解码,得到两条对应的用户数据。比较两条用户数据的信息内容的相似性,若信息内容相似,则两条用户数据对应的在线编码数据聚为一类;若不相似,则两条用户数据对应的在线编码数据分为两类。如果基于实体长度来比较两条在线编码数据,则无需对在线编码数据进行解码,直接比较两条在线编码数据的实体长度的相似性,若实体长度不相似,则可以确定信息内容也不相似,所以将这两条在线编码数据分为两类;若实体长度相似,由于无法区分信息内容是否相似,所以剔除这两条在线编码数据。
从图9中可以看到,当两条在线编码数据的实体长度相似时,并不能说明两条在线编码数据的信息内容也相似。但当两条在线编码数据的实体长度不相似时,可认为两条在线编码数据的信息内容一定不相似。那么在在线编码数据的数量大的情况下,从在线编码数据中获取内容一定不相似的在线编码数据作为训练样本,足以起到提升模型精度的效果。
然后对本步骤进行说明:如果离线编码数据未经过模板分类,离线编码数据与在线编码数据的相似度比较包括如下方式:第一种是将M条离线编码数据都与N条在线编码数据逐一比对,那么总共要比较M*N次差异性,效率很低。第二种是在离线编码数据中抽取若干离线编码数据与N条在线编码数据比对,虽然减少了比较次数,但是在抽取到的离线编码数据与在线编码数据不相似,且未抽取到的离线编码数据与在线编码数据相似的情况下,就会把应该剔除的在线编码数据错误地判断为与离线编码数据有差异性的差异数据,造成相似性结果的误判,导致相似性结果的可靠性低。
所以本步骤中对离线编码数据进行聚类处理(相当于上文的第一聚类处理,实现模板分类),得到X个簇,簇内的离线编码数据差异小,所以可将簇称为离线编码模板,这样便可得到X个离线编码模板,簇之间有差异性,所以离线编码模板之间也有差异性,那么从X个离线编码模板中分别取若干离线编码数据与N条在线编码数据比对,在减少了比较次数的情况下,保证了相似性结果的可靠性,使得计算效率更高。
S703、针对N条在线编码数据中的任一在线编码数据,计算在线编码数据与每个离线编码模板中的任一离线编码数据之间的第一相似度。
如图10所示,在本步骤中,1条在线编码数据与X个离线编码模板进行相似度计算,可以得到X个第一相似度。每个第一相似度指示1条在线编码数据与1个离线编码模板中的1条离线编码数据的相似程度,然后以1条在线编码数据与1条离线编码数据的相似程度作为在线编码数据与1个离线编码模板的相似程度。
本申请实施例中,第一相似度越大,在线编码数据与离线编码模板的内容重合度越高,则该模型以离线编码数据训练得到的情况下,在线编码数据对模型训练精度的提升较小;相应的,第一相似度越小,在线编码数据与离线编码模板的内容重合度越小,则在线编码数据对该模型训练精度的提升较大。
在一些实施例中,可以根据在线编码数据与每个离线编码模板中的任一离线编码数据之间的实体长度,确定第一相似度。即,S703可进一步包括:针对N条在线编码数据中的任一在线编码数据,获取在线编码数据的第一实体长度和每个离线编码模板中的任一离线编码数据的第二实体长度;计算第一实体长度和第二实体长度之间的第一相似度。
下面对该实施例进一步说明。首先,实体长度的计算方式可参考S702的说明,在获取到实体长度之后,计算两个实体长度的余弦相似度,将余弦相似度作为第一实体长度和第二实体长度之间的第一相似度。通过比较实体长度的方式能够在不对编码数据进行解码的情况下区分出实体内容不相似的编码数据。
在该实施例中,余弦相似度还可以替代为欧几里得距离(Euclidean Distance),本申请对此并无限制。
在另一些实施例中,可以根据训练得到的相似模型计算在线编码数据与每个离线编码模板中的任一离线编码数据之间的第一相似度。即,S703可进一步包括:将在线编码数据和离线编码模板中的任一离线编码数据输入相似模型中,识别出在线编码数据的第一表征向量和离线编码数据的第二表征向量;然后计算第一表征向量与第二表征向量之间的第一相似度。
关于相似模型的训练方式可以有多种,下面逐一进行说明。
示例一,相似模型是以多条编码数据作为输入,以编码数据之间的相似度作为样本真实标签进行训练得到的。
其中,编码数据之间的相似度可以由用户数据之间的杰卡德距离表示,当然,杰卡德距离还可替代为欧几里得距离、余弦相似度等。用户数据是编码数据解码得到的数据。应理解,虽然服务器在未配置解码模型的情况下无法对在线编码数据进行解码,使在线编码数据还原为用户数据,但是不影响服务器以内置的用户数据来构建样本真实标签。
在一些实施例中,可以对用户数据进行预处理,然后再计算预处理后的用户数据之间的杰卡德距离。具体的,当用户数据是文本数据时,文本数据中除了实体字段(如标注为B和I的字符)以外,还包含有非实体字段(如标注为O类别的字符),如果未剔除非实体字段,则非实体字段会对相似性结果造成干扰。所以对文本数据的预处理可以是提取文本数据中的实体字段,将实体字段融合为一个token(最小切分字段)。另外,当用户数据是图像时,图像中的背景会对相似性结果造成干扰。所以对图像的预处理可以是剔除图像中的背景区域。
示例二,针对任意两条编码数据,以其中一条编码数据解码得到的用户数据中的字段是否存在于另一条编码数据解码得到的用户数据中,确定两条编码数据对应的样本真实标签。样本真实标签可以由字符位置标签1和字符位置标签0组成,其中字符位置标签1表示其中一条编码数据解码得到的用户数据中的字符存在于另一条编码数据解码得到的用户数据中,字符位置标签0表示其中一条编码数据解码得到的用户数据中的字符不存在于另一条编码数据解码得到的用户数据中。计算样本真实标签中字符位置标签1的占比,便可得到两条编码数据的相似距离。相似模型是以多条编码数据解码得到的用户数据作为输入,以相似距离作为样本真实标签进行训练得到的。
如图11所示,用户数据a为“航班登机口为a,请步行至登机口”,用户数据b为“飞机起飞预估为[时间]”,其中[时间]相当于[time]。图11中的每个矩形框中的内容表示用户数据a或用户数据b中的一个字符,如“航”为一个字符,“班”为一个字符,以此类推。针对用户数据a中的任一字符,在用户数据b中查询是否包含该字符,若是,则字符位置标签记作1,若否,则字符位置标签记作0。遍历用户数据a中的每个字符后,得到与每个字符对应的字符位置标签(对应图11中的标签)。从图11中可看出,用户数据a中的字符“机”、“为”、“机”出现在用户数据b中,所以字符“机”、“为”、“机”的字符位置标签为1,其他字符的字符位置标签为0。字符位置标签1的占比为:3/15=0.2。所以用户数据a和用户数据b的相似距离为0.2。
示例三,相似模型是以多条编码数据作为输入,针对任意两条编码数据,以两条编码数据对应的用户数据之间的杰卡德距离作为样本真实标签训练得到的。其中,示例三与上文示例一的训练方式相似,区别在于相似模型的构建方式不同。
下面对上述示例所采用的模型架构进行说明。示例一中,基于表示结构构建相似模型。表示结构包括嵌入层(embedding layers,简称emb layers)、编码层、表示层以及预测层。其中,嵌入层将离散的用户数据以编码矩阵表示,并且统一编码矩阵的维度,使得到的各条用户数据具有相似或相同的特征空间,得到用户数据嵌入(data emb)。然后将用户数据嵌入输入编码层,对其进行标注(如上文提到的BIO标注),以及经过编码模型编码,得到编码数据(如上文提到的离线编码数据、在线编码数据)。卷积层对编码数据进行卷积-池化-卷积处理,第一次卷积是将高维度的编码数据的特征映射到低维特征。池化是将低维特征统一为相同长度的向量特征。第二次卷积是将向量特征进一步压缩特征维度,得到表征向量(如上文提到的第一表征向量、第二表征向量)。预测层可以通过计算余弦相似度判断两条编码数据之间的相似性。
其中,嵌入层和编码层可以部署在端侧,即手机向服务器发送的便是编码数据,卷积层和预测层部署在云侧,即通过服务器来预测两条编码数据之间的相似性。
示例二和示例三中,都可利用transformer结构构建基于交互性的相似模型,具体的,可以将两条编码数据拼接后输入相似模型,并以两条编码数据之间的相似度作为样本真实标签来训练相似模型。其中示例二和示例三的训练方式(即样本真实标签的构造方式)不同:示例二采用回归任务的方案计算样本真实标签,比如样本真实标签为:0.8。0.8表示用户数据“*圳航空”和用户数据“*海航空”的相似度。示例三采用分类任务的方案计算样本真实标签,比如样本真实标签为[0,0,1,1]。[0,0,1,1]表示用户数据“*圳航空”和用户数据“*海航空”的相似距离。在示例二和示例三中,transformer结构通过两条编码数据之间的文本交互实现了输出的表征向量的信息表达能力的增强。关于transformer具体结构在此不做累赘说明。
根据上述三个示例输出第一相似度后,可以执行S704,用来从海量在线编码数据中筛选出与离线编码模板具有差异的差异数据,具体参考下文介绍。
S704、若X个第一相似度中的每个第一相似度小于或等于第一阈值,则将在线编码数据作为所有离线编码模板的差异数据。
本步骤中,预设第一阈值,用来对在线编码数据进行分类。如果在线编码数据与每个离线编码模板的第一相似度都小于或等于第一阈值,则说明在线编码数据与每个离线编码模板都有差异,那么该在线编码数据作为补充样本,对模型训练精度起到的作用就更大。所以当每个第一相似度都小于或等于第一阈值时,便将该进行比较的在线编码数据作为差异数据。
在不对编码数据进行解码,根据编码数据的实体长度计算第一相似度的方案中,如果X个第一相似度中的其中一个第一相似度大于第一阈值,则剔除该在线编码数据。这样可以保证作为差异数据的在线编码数据一定是与每个离线编码模板具有差异的数据,从而在不对编码数据进行解码的情况下能够较为准确地提取出与离线编码模板存在差异的在线编码数据。
上述S702-S704能够通过筛选出与离线编码模板都存在差异的在线编码数据,实现在线编码数据差异化的目的。下面对在线编码数据差异化进一步说明。
如图12所示,首先对离线数据集进行模板分类,离线数据集中包含M条离线编码数据,分类后得到X个离线编码模板,每个离线编码模板中包含若干离线编码数据。即模板分类的目的在于基于离线编码数据之间的相似度将不同的离线编码数据归类于不同的离线编码模板。关于模板分类的步骤,可参见上文S702的说明。在模板分类之后,再从每个离线编码模板中取出一条离线编码数据,将离线编码数据与在线数据集中的在线编码数据一起输入相似模块中进行数据差异化。数据差异化是指从N条在线编码数据中筛选出与每个离线编码模板都存在差异的差异数据。数据差异化的目的在于基于在线编码数据与离线编码模板的差异对在线编码数据进行分类,分为需要剔除的在线编码数据以及需要保留的差异数据。关于相似模块起到的数据差异化的步骤,可参见上文S703-S704的说明。
S705、根据差异数据中的任意两条差异数据之间的第二相似度,将差异数据进行聚类处理,得到在线编码模板。
与上文对离线编码数据进行模板分类相类似,对差异数据进行模板分类(或称第二聚类处理)的目的在于使得每两个在线编码模板之间具有差异性,那么从在线编码模板中分别获取到的差异数据之间具有多样性,那么该差异数据作为补充样本,对模型训练精度起到的作用就更大。
具体的,经过S704获取到的差异数据与离线编码模板有差异,但存在一些差异数据之间相似性较大的情况,那么直接从差异数据中取样的话,会出现获取到的多条差异数据之间相似性较大,对模型精度提升小的问题,影响模型训练效果。所以从在线编码数据中筛选出与每个离线编码模板存在差异的差异数据之后,再对差异数据进行分簇(或称第二聚类处理),每一簇表示一个在线编码模板。每个在线编码模板都包括至少一个与离线编码模板存在差异的差异数据。不同在线编码模板中的差异数据具有差异性。为了与上文差异数据与离线编码模板数据具有差异性进行区分,在本申请实施例中,差异数据之间的差异性可称为差异数据多样性。差异数据多样性使得作为补充样本训练模型的在线编码数据之间能够有差异性,这样训练出来的模型的泛化能力更强,即模型识别新类型在线编码数据时,识别结果会更准确。
关于本步骤中的第二相似度的获取方式,可采用与上文S702或者S703相类似的手段。
具体的,S705可以进一步包括:根据差异数据中的任意两条差异数据之间的实体长度的差异,确定第二相似度;根据将差异数据进行聚类处理(或称第二聚类处理),得到在线编码模板。
或者,S705可以进一步包括:将差异数据中的任意两条差异数据输入相似模型中,识别出两条差异数据对应的表征向量;然后计算两条差异数据对应的表征向量之间的第二相似度。
其中,相似模型可以是基于表示结构构建的模型,或者是利用双塔结构构建基于交互性的相似模型。在相似模型基于交互性构建的示例中,用于训练模型的真实标签可以是上文记载的杰卡德距离或者相似距离。
上述S705能够通过对差异数据进行分簇,得到多个在线编码模板,实现差异数据多样化的目的。下面对差异数据多样化进一步说明。
如图13所示,差异数据集包含多条与离线编码模板存在差异的在线编码数据(或称在线编码向量、差异数据),首先将差异数据集中的在线编码数据输入相似模块中进行差异数据多样化。差异数据多样化是指对在线编码数据进行分簇。可以理解的是,差异数据分簇是指两条相似度大的差异数据分为不同簇,两条相似度小的差异数据分为同簇。差异数据多样化的目的是使得作为补充样本训练模型的在线编码数据之间能够有差异性,这样训练出来的模型的泛化能力更强。本实施例所涉及的相似模块可以与上文提到的相似模块一致,如都为基于transformer结构构建的相似模型。也可以与上文提到的相似模块不一致,如上文提到的为基于transformer结构构建的相似模型,本实施例中相似模块为基于实体长度的相似比较方法。
在执行S705之后,得到了多个在线编码模板,可以设置从每个在线编码模板或取样本的数量。例如数量设为100,则每个在线编码模板中取100条在线编码数据。然后将所有在线编码模板中取出的在线编码数据输入上文提到的推送模型中对模型进行训练,以提升模型的精度。训练结束后,可利用推送模型为用户进行信息推送,如卡片推送、音乐推送、视频推送、图片推送等。由于模型的精度较高,因而推送结果的准确率较高,用户体验较好。
作为一种示例,在相似度以实体长度进行计算方案中,可以根据各个实体长度均匀分布的目的设置针对每个在线编码模板的目标采样数量,这样可保证作为补充样本的在线编码数据的实体长度(或称数据长度)分布均匀。
如图14所示,不同实体长度分布的在线编码数据的数量从左到右分别为1,2,4,…,M,取目标采用数量为2,则对每个实体长度分布都取两条在线编码数据,不足两条的则全部取出,大于两条的则只取两条,得到基于实体长度的采样结果数量为:1,2,2,…,2。
为实现上述目的,在执行上文S705之后,数据处理方法还包括:S1、针对每个在线编码模板,对其中的在线编码数据按实体长度进行分布。S2、预设总采样数量,通过总采样数量除以各个长度的分布数量,确定每个长度分布的平均采样数量。S3、针对任一长度分布,通过长度分布对应的平均采样数量除以总采样数量,确定长度分布的采样率。针对任一长度分布,服务器通过长度分布的采样率与长度分布下的差异数据条数的乘积,确定长度分布下待采样的目标采样数量。
示例性的,S2可以由表达式(1)代替,S3可以由表达式(2)代替,也就是说,在得到每个实体长度分布对应的在线编码数据后,可以将预设的总采样数量、分布数量、每个长度分布下的差异数据条数代入下文表达式(1)和表达式(2)中,从而计算每个分布需要采样的目标采样数量。
a = ceil(sample_len/total_len_nums)/sample_len; 表达式(1)
xi= ceil(a*di); 表达式(2)
其中,ceil表示向上取整,sample_len表示需要采样的数据量(相当于总采样数量),total_len_nums表示不同长度分布的数量(相当于分布数量),a表示采样率,di表示第i个长度分布下的差异数据条数。xi表示第i个长度分布下采样的数据量(相当于目标采样数量)。
计算得到的xi可能会少于需要采样的数据量,也可能多于需要采样的数据量。作为一种示例,可以对xi做截断,即对少于采样的数据量的在线编码数据作填充,对多于采样的数据量的在线编码数据作剔除。这样便可得到在实体长度上分布均匀的补充样本,补充样本覆盖了大部分或者全部的在线编码数据的特征信息,因而对模型的训练精度提升较大。
上述实施例是以执行主体中还未存储有在线编码模板为例进行说明的,实际场景中,当执行S705之后,执行主体(如电子设备、服务器)中存储有在线编码模板,那么当执行主体获取到新的差异数据,便可将差异数据与在线编码模板中的任一差异数据进行相似度比较,若相似度大于第二阈值,则将差异数据放入在线编码模板中,若相似度小于或等于第二阈值,则将差异数据作为一个新的在线编码模板,这样可以实现针对差异数据的数据量的不断扩充。
另外,针对在线编码数据的数据量大,相似度比较的效率低的问题,本申请实施例还提供了一种相似性比较方法,可以并行执行在线编码数据分别与X个离线编码模板中的K个离线编码模板之间的第一相似度,从而较为高效的计算出第一相似度和第二相似度,降低执行主体的运行时延,提高运行速度。
具体的,在数据输入上述提到的相似模块之前,先设置批处理(batch)的批量大小K,根据批量大小K对在线编码数据进行复制,得到K条在线编码数据副本。然后从K个离线编码模板中随机选取一条离线编码数据,比较K条在线编码数据副本和K条离线编码数据的相似度,得到K个相似度结果。如果K个相似度结果的任一相似度结果指示在线编码数据与离线编码数据相似,则开始比较下一条在线编码数据。如果K个相似度结果的任一相似度结果指示在线编码数据与离线编码数据不相似,再从X-K个离线编码模板中选取K个离线编码模板,分别从K个离线编码模板中随机选取一条离线编码数据与在线编码数据副本进行相似度比较。当X-K个离线编码模板数量小于K时,则将在线编码数据的复制份数与X-K保持一致,目的是使得在线编码数据副本与离线编码模板数量保持一致,以便进行一对一的相似性比较。
如图15所示,以K=256为例,任取一条在线编码数据,对其复制256份,得到256条在线编码数据。然后从离线编码模板中获取256个离线编码模板,从256个离线编码模板中的每个离线编码模板中获取任一条离线编码数据。将第一条在线编码数据与第一个离线编码模板中的离线编码数据进行相似度比对,将第二条在线编码数据与第二个离线编码模板中的离线编码数据进行相似度比对,以此类推,得到256个第一相似度。若256个第一相似度中的任一第一相似度大于第一阈值,则结束对该条在线编码数据的相似性比较,开始比较下一条在线编码数据。
如此,利用了执行主体的并行计算能力,通过设置批量大小使得相似性比较可以按批次进行,大大减少了运行时延,提高了计算效率。
综上,本申请实施例提供一种数据处理方法,首先将离线编码数据进行模板聚类处理,得到多个离线编码模板,不同离线编码模板之间具有差异性,因而将电子设备产出的大量在线编码数据与每个离线编码模板中的一条离线编码数据进行比对,所得到的相似性结果可以作为在线编码数据与离线编码数据之间的相似性结果,这样可大大减少相似性比对数量,提高了处理效率。然后在在线编码数据与离线编码模板比对得到差异数据后,再对差异数据进行分簇,得到多个在线编码模板,所得到的在线编码模板之间具有差异,因而从不同在线编码模板中获取到的差异数据具有多样化的特点,那么用来训练模型可以提高模型的泛化能力。另外,可以根据每个在线编码模板中的不同差异数据的实体长度分布来从在线编码模板中获取差异数据,使得获取到的差异数据是基于实体长度的均匀分布,那么用来训练模型可以提高模型的特征提取能力。由于本申请实施例可以在不对在线编码数据进行解码的情况下,从在线编码数据中获取到训练模型的补充样本,所以既保护了用户隐私,又提高了处理效率,因而用户体验较好。
本申请另一些实施例提供了一种电子设备,该电子设备可以包括:存储器和一个或多个处理器。该显示屏、存储器和处理器耦合。该存储器用于存储计算机程序代码,该计算机程序代码包括计算机指令。当处理器执行计算机指令时,电子设备可执行上述方法实施例中手机执行的各个功能或者步骤。该电子设备的结构可以参考图4所示的手机的结构。电子设备还可以包括显示屏(如触摸屏),用于显示推送信息。
本申请另一些实施例提供了一种服务器,该服务器可以包括存储器、处理器和通信模块,通信模块用于接收电子设备发送的在线编码数据,处理器用于根据预置的离线编码数据从在线编码数据中筛选出有差异性和多样性的补充样本,以便于以补充样本对推送模型进行训练或者更新。
本申请另一些实施例提供了一种数据处理系统,包括电子设备和服务器,电子设备内置编码模型,用于将经过实体标注的用户数据进行编码处理,得到在线编码数据。电子设备将在线编码数据发送给服务器。服务器用于根据在线编码数据和预置的离线编码数据从在线编码数据中筛选出有差异性和多样性的补充样本,并以补充样本对推送模型进行训练或者更新。服务器将训练好的推送模型或者更新后的推送模型部署到电子设备上,电子设备根据推送模型为用户提供信息推荐服务。
本申请实施例还提供一种芯片系统,如图16所示,该芯片系统包括至少一个处理器1401和至少一个接口电路1402。处理器1401和接口电路1402可通过线路互联。例如,接口电路1402可用于从其它装置(例如,第二设备的存储器)接收信号。又例如,接口电路1402可用于向其它装置(例如处理器1401)发送信号。
例如,接口电路1402可读取第二设备中存储器中存储的指令,并将该指令发送给处理器1401。当所述指令被处理器1401执行时,可使得第二设备执行上述各实施例中的各个步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质包括计算机指令,当所述计算机指令在上述电子设备上运行时,使得该电子设备执行上述方法实施例中手机执行的各个功能或者步骤。
本申请实施例还提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行上述方法实施例中手机执行的各个功能或者步骤。
通过以上实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种数据处理方法,其特征在于,包括:
获取针对同一目标应用的M条离线编码数据和N条在线编码数据;其中,所述M条离线编码数据和所述N条在线编码数据是对经过实体标注的用户数据进行编码得到的;
获取所述M条离线编码数据的实体长度;
根据不同所述离线编码数据之间所述实体长度的差异,将所述M条离线编码数据进行第一聚类处理,由所述第一聚类处理所得的X个簇确定X个离线编码模板;所述实体长度是根据编码数据中的实体标签对所述实体标签对应的实体字段进行拼接处理得到的长度,所述编码数据包括所述离线编码数据或所述在线编码数据;
针对所述N条在线编码数据中的任一在线编码数据,获取所述在线编码数据的实体长度和每个所述离线编码模板中的任一离线编码数据的实体长度,并确定所述在线编码数据的实体长度和所述离线编码数据的实体长度之间的第一相似度;
若所述第一相似度小于或等于第一阈值,则将所述在线编码数据作为差异数据;
针对多条所述差异数据中的任意两条差异数据,若所述两条差异数据之间的第二相似度小于或等于第二阈值,则确定所述两条差异数据能被用于训练第一模型,所述第一模型训练后得到的第二模型用于对所述目标应用的其他编码数据进行识别;
其中,M、N为大于0的自然数,X为大于0的自然数,X≤M。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对多条所述差异数据中的任意两条差异数据,若所述两条差异数据之间的第二相似度大于第二阈值,则将所述两条差异数据聚类于同一个在线编码模板;
针对每个所述在线编码模板,基于所述在线编码模板中的所述差异数据的实体长度的分布,确定所述在线编码模板的目标采样数量;
根据所述目标采样数量从所述在线编码模板中获取所述差异数据,以训练所述第一模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述在线编码模板中的所述差异数据的实体长度的分布,确定所述在线编码模板的目标采样数量,包括:
基于所述在线编码模板中的所述差异数据的实体长度,对所述在线编码模板中的所述差异数据进行第二聚类处理;
通过预设的总采样数量除以所述第二聚类处理得到的各个簇的分布数量,确定每个长度分布的平均采样数量;
针对任一所述长度分布,通过所述长度分布对应的所述平均采样数量除以所述总采样数量,确定所述长度分布的采样率;
针对任一所述长度分布,通过所述长度分布的采样率与所述长度分布下的差异数据条数的乘积,确定所述长度分布下待采样的目标采样数量。
4.根据权利要求1所述的方法,其特征在于,所述针对所述N条在线编码数据中的任一在线编码数据,获取所述在线编码数据的实体长度和每个所述离线编码模板中的任一离线编码数据的实体长度,并确定所述在线编码数据的实体长度和所述离线编码数据的实体长度之间的第一相似度,包括:
针对所述N条在线编码数据中的任一在线编码数据,并行执行所述在线编码数据的实体长度分别与所述X个离线编码模板中的K个离线编码模板中的任一离线编码数据的实体长度之间的第一相似度;
所述若所述第一相似度小于或等于所述第一阈值,则将所述在线编码数据作为所述差异数据,包括:
若K个所述第一相似度均小于或等于所述第一阈值,则将所述在线编码数据作为差异数据。
5.根据权利要求1所述的方法,其特征在于,所述用户数据包括终端接收到的短信信息。
6.一种电子设备,其特征在于,包括:处理器,和用于存储所述处理器可执行指令的存储器,所述处理器被配置为执行所述指令时,使得所述电子设备实现如权利要求1至5中任一项所述的方法。
7.一种服务器,其特征在于,包括:处理器、通信模块和用于存储所述处理器可执行指令的存储器,所述服务器内置离线编码数据,所述服务器通过所述通信模块接收电子设备发送的在线编码数据,所述处理器被配置为执行所述指令时,使得所述服务器实现如权利要求1至5中任一项所述的方法。
8.一种数据处理系统,其特征在于,包括:服务器和电子设备,所述电子设备用于向所述服务器发送在线编码数据;
所述服务器用于在接收到所述电子设备发送的在线编码数据之后,执行如权利要求1至5中任一项所述的方法;
所述服务器还用于根据所述两条差异数据训练第一模型,得到第二模型,其中,所述第二模型用于对所述目标应用的其他编码数据进行特征提取,并根据提取到的所述其他编码数据对应的特征向量输出推送信息,所述推送信息用于在所述电子设备上显示。
9.一种计算机可读存储介质,其特征在于,包括计算机指令,当所述计算机指令在电子设备或服务器上运行时,使得所述电子设备或所述服务器执行如权利要求1至5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310513845.XA CN116226114B (zh) | 2023-05-09 | 2023-05-09 | 一种数据处理方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310513845.XA CN116226114B (zh) | 2023-05-09 | 2023-05-09 | 一种数据处理方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116226114A CN116226114A (zh) | 2023-06-06 |
CN116226114B true CN116226114B (zh) | 2023-10-20 |
Family
ID=86587700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310513845.XA Active CN116226114B (zh) | 2023-05-09 | 2023-05-09 | 一种数据处理方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116226114B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117648670B (zh) * | 2024-01-24 | 2024-04-12 | 润泰救援装备科技河北有限公司 | 救援数据融合方法、电子设备、存储介质及救援消防车 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307762A (zh) * | 2020-12-24 | 2021-02-02 | 完美世界(北京)软件科技发展有限公司 | 搜索结果的排序方法及装置、存储介质、电子装置 |
CN113033643A (zh) * | 2021-03-17 | 2021-06-25 | 上海交通大学 | 基于带权重采样的概念漂移检测方法、系统及电子设备 |
WO2021179708A1 (zh) * | 2020-10-20 | 2021-09-16 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备及可读存储介质 |
CN114036950A (zh) * | 2021-11-10 | 2022-02-11 | 山东大学 | 一种医疗文本命名实体识别方法及系统 |
CN115130598A (zh) * | 2022-07-06 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 一种训练数据选择方法及相关装置 |
WO2023071122A1 (zh) * | 2021-10-29 | 2023-05-04 | 广东坚美铝型材厂(集团)有限公司 | 基于不均衡间隔的语义特征自学习方法、设备及存储介质 |
-
2023
- 2023-05-09 CN CN202310513845.XA patent/CN116226114B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021179708A1 (zh) * | 2020-10-20 | 2021-09-16 | 平安科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备及可读存储介质 |
CN112307762A (zh) * | 2020-12-24 | 2021-02-02 | 完美世界(北京)软件科技发展有限公司 | 搜索结果的排序方法及装置、存储介质、电子装置 |
CN113033643A (zh) * | 2021-03-17 | 2021-06-25 | 上海交通大学 | 基于带权重采样的概念漂移检测方法、系统及电子设备 |
WO2023071122A1 (zh) * | 2021-10-29 | 2023-05-04 | 广东坚美铝型材厂(集团)有限公司 | 基于不均衡间隔的语义特征自学习方法、设备及存储介质 |
CN114036950A (zh) * | 2021-11-10 | 2022-02-11 | 山东大学 | 一种医疗文本命名实体识别方法及系统 |
CN115130598A (zh) * | 2022-07-06 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 一种训练数据选择方法及相关装置 |
Non-Patent Citations (1)
Title |
---|
半监督层次纠错输出编码算法;辛轶 等;小型微型计算机系统(第8期);第1659-1664页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116226114A (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492536B (zh) | 一种基于5g架构的人脸识别方法及系统 | |
US8463025B2 (en) | Distributed artificial intelligence services on a cell phone | |
CN111639968B (zh) | 轨迹数据处理方法、装置、计算机设备以及存储介质 | |
CN109740573B (zh) | 视频分析方法、装置、设备及服务器 | |
CN112069414A (zh) | 推荐模型训练方法、装置、计算机设备及存储介质 | |
CN116226114B (zh) | 一种数据处理方法、系统及存储介质 | |
CN112163428A (zh) | 语义标签的获取方法、装置、节点设备及存储介质 | |
US20210407548A1 (en) | Segment action detection | |
CN110796828B (zh) | 一种基于车联网寻找丢失人口的方法及其系统 | |
CN116978011A (zh) | 一种用于智能目标识别的图像语义通信方法及系统 | |
CN113313098B (zh) | 视频处理方法、设备、系统及存储介质 | |
CN111652878B (zh) | 图像检测方法、装置、计算机设备及存储介质 | |
CN113159000A (zh) | 人脸识别方法、装置及系统 | |
CN116227629B (zh) | 一种信息解析方法、模型训练方法、装置及电子设备 | |
CN114827702B (zh) | 视频推送方法、视频播放方法、装置、设备以及介质 | |
CN112232890B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN111880670B (zh) | 手机中智能穿戴设备的数据处理方法及系统 | |
CN116883708A (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN114170545A (zh) | 一种数据处理方法、装置、存储介质及电子装置 | |
CN115705143A (zh) | 一种卡片信息显示方法及电子设备 | |
CN111797290A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN116707851B (zh) | 数据上报的方法及终端设备 | |
CN112328073B (zh) | 基于增强现实设备的评标方法、装置、系统和计算机设备 | |
WO2022179088A1 (zh) | 一种数据处理方法、装置及系统 | |
CN115909116A (zh) | 异常视频的识别方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |