CN118113755A - 序列数据处理方法、装置、设备、介质和产品 - Google Patents
序列数据处理方法、装置、设备、介质和产品 Download PDFInfo
- Publication number
- CN118113755A CN118113755A CN202211527509.2A CN202211527509A CN118113755A CN 118113755 A CN118113755 A CN 118113755A CN 202211527509 A CN202211527509 A CN 202211527509A CN 118113755 A CN118113755 A CN 118113755A
- Authority
- CN
- China
- Prior art keywords
- sequence
- sample
- data
- elements
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims description 61
- 238000007619 statistical method Methods 0.000 claims description 35
- 238000004590 computer program Methods 0.000 claims description 25
- 238000012216 screening Methods 0.000 claims description 20
- 230000003190 augmentative effect Effects 0.000 claims description 6
- 238000005065 mining Methods 0.000 abstract description 5
- 238000010801 machine learning Methods 0.000 description 31
- 238000012549 training Methods 0.000 description 23
- 230000006399 behavior Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 206010000117 Abnormal behaviour Diseases 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000004378 air conditioning Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000004900 laundering Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开实施例提供序列数据处理方法、装置、设备、介质和产品。序列数据处理方法,包括:获取待扩充序列,所述待扩充序列包括多个序列元素;确定各个所述序列元素对应的特征数据,所述特征数据用于表征所述序列元素在样本数据集中的统计特征,所述样本数据集包括多个样本序列;按照所述序列元素在所述待扩充序列的位置,将所述特征数据拼接至所述待扩充序列中,得到扩充后序列。由于序列元素在特征数据集中的统计特征被添加至扩充后序列中,在对扩充后序列进行处理时,可以基于对特征数据的挖掘识别出待扩充序列相对于样本数据集中其他样本序列整体进行横向比较而得到的更深层特征信息,进而使得对应的数据结果更符合实际情况。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种序列数据处理方法、装置、设备、介质和产品。
背景技术
典型应用中,机器学习模型处理的数据包括具有元素序列特征(或者时间先后特征)的数据序列,数据序列通过其中元素的排列顺序体现元素的序列特征。较为常见的数据序列包括传感器采集信号序列、用户浏览商品顺序的序列等。
相关技术中,处理数据序列的机器学习模型多为有监督学习模型。用于机器学习模型训练的样本数据集除了包括样本数据序列外,还包括关联的标签,其中关联的标签可以为人工打标的数值标签。在机器学习模型训练时,将样本数据序列输入待训练模型中,根据待训练模型输出结果和数值标签对待训练模型中的参数进行优化,以得到训练好的机器学习模型。
但是,现有技术中数据序列之间的特征区分度或者特征相似程度仅能通过序列元素的排列顺序和对应数值标签的关联关系隐式地体现,机器学习模型训练时也仅能通过挖掘样本数据序列中序列元素的排列顺序、样本数据序列与特征标签的关联关系调整机器学习模型的模型参数,无法挖掘到样本数据集整体隐含的深层次特征,也就无法进一步地提升机器学习模型的预测精准度。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供序列数据处理方法、装置、设备、介质和产品。
第一方面,本公开实施例提供一种序列数据处理方法,包括:
获取待扩充序列,所述待扩充序列包括多个序列元素;
确定各个所述序列元素对应的特征数据,所述特征数据用于表征所述序列元素在样本数据集中的统计特征,所述样本数据集包括多个样本序列;
按照所述序列元素在所述待扩充序列的位置,将所述特征数据拼接至所述待扩充序列中,得到扩充后序列。
可选的,所述确定各个所述序列元素对应的特征数据,包括:
基于所述序列元素查找数据对照表,得到所述序列元素对应的特征数据;
其中,所述数据对照表包括所述样本数据集中所有元素和特征数据的对应关系,所述数据对应关系基于对样本数据集进行统计分析得到。
可选的,所述待扩充序列为所述样本数据集中的样本序列;
所述确定各个所述序列元素对应的特征数据,包括:
从所述样本数据集包括的样本序列中筛选目标序列,所述目标序列为包括所述序列元素的样本序列;
对所述目标序列进行统计分析,确定所述序列元素对应的特征数据。
可选的,所述方法还包括:
将所述序列元素与对应的特征数据之间的关联关系存储至数据对照表中。
可选的,所述对所述目标序列进行统计分析,确定所述序列元素对应的特征数据,包括:
获取所述目标序列对应的数值标签,并计算所述数值标签的均值、中位数和/或标准差;和/或,
计算所述目标序列数量与所述样本数据集中样本序列数量的第一比值;和/或,
计算所述目标序列中包括的所述序列元素的数量与所述样本数据集中元素数量的第二比值;
将所述均值、所述中位数、所述标准差、所述第一比值和所述第二比值中的至少一种作为所述序列元素对应的特征数据。
可选的,在计算所述数值标签的均值、中位数和/或标准差之前,所述方法还包括:
统计所述序列元素在各个所述目标序列中的出现次数;
所述计算所述数值标签的均值、中位数和/或标准差,包括:根据所述序列元素在各个所述目标序列中的出现次数和所述目标序列的数值标签计算所述均值、中位数和/或标准差。
可选的,在从所述样本数据集包括的样本序列中筛选目标序列之前,所述方法还包括:
随机抽取所述样本数据集除所述待扩充序列之外的样本序列,作为待筛选样本序列;
所述从所述样本数据集包括的样本序列中筛选目标序列,包括:从所述待筛选样本序列中筛选所述目标序列。
可选的,所述方法还包括:在得到所述扩充后序列之后,所述方法还包括:根据所述待扩充序列的类型,利用所述扩充后序列执行对应的目标任务;
其中:在所述待扩充序列为样本序列的情况下,所述目标任务为目标模型训练任务,在所述待扩充序列为预测序列的情况下,所述目标任务为采用所述目标模型处理所述扩充后序列的标签预测任务。
可选的,所述待扩充序列为用户行为序列或者设备状态序列,所述序列元素用于表征用户的行为特征或者设备的运动状态特征。
第二方面,本公开实施例提供一种序列数据处理装置,包括:
序列获取单元,用于获取待扩充序列,所述待扩充序列包括多个序列元素;
特征数据确定单元,用于确定各个所述序列元素对应的特征数据,所述特征数据用于表征所述序列元素在样本数据集中的统计特征,所述样本数据集包括多个样本序列;
序列扩充单元,用于按照所述序列元素在所述待扩充序列的位置,将所述特征数据拼接至所述待扩充序列中,得到扩充后序列。
可选的,所述特征数据确定单元基于所述序列元素查找数据对照表,得到所述序列元素对应的特征数据;其中,所述数据对照表包括所述样本数据集中所有元素和特征数据的对应关系,所述数据对应关系基于对样本数据集进行统计分析得到。
可选的,所述待扩充序列为所述样本数据集中的样本序列;所述特征数据确定单元包括:
筛选子单元,用于从所述样本数据集包括的样本序列中筛选目标序列,所述目标序列为包括所述序列元素的样本序列;
统计分析子单元,用于对所述目标序列进行统计分析,确定所述序列元素对应的特征数据。
可选的,所述序列数据处理装置还包括:存储单元,用于将所述序列元素与对应的特征数据之间的关联关系存储至数据对照表中。
可选的,所述统计分析子单元获取所述目标序列对应的数值标签,并计算所述数值标签的均值、中位数和/或标准差;和/或,计算所述目标序列数量与所述样本数据集中样本序列数量的第一比值;和/或,计算所述目标序列中包括的所述序列元素的数量与所述样本序列元素集中元素数量的第二比值;并将所述均值、所述中位数、所述标准差、所述第一比值和所述第二比值中的至少一种作为所述序列元素对应的特征数据。
可选的,所述统计分析子单元还用于统计所述序列元素在各个所述目标序列中的出现次数,以根据所述序列元素在各个所述目标序列中的出现次数和所述目标序列的数值标签计算所述均值、中位数和/或标准差。
可选的,所述序列数据处理装置还包括:待筛样本序列确定单元,用于随机抽取所述样本数据集除所述待扩充序列之外的样本序列,作为待筛选样本序列;
所述筛选子单元从所述待筛选样本序列中筛选所述目标序列。
可选的,所述序列数据处理装置还包括:序列使用单元,用于在得到扩充后序列后,根据所述待扩充序列的类型,利用所述扩充后序列执行对应的目标任务;
其中:在所述待扩充序列为样本序列的情况下,所述目标任务为目标模型训练任务,在所述待扩充序列为预测序列的情况下,所述目标任务为采用所述目标模型处理所述扩充后序列的标签预测任务。
可选的,所述待扩充序列为用户行为序列或者设备状态序列,所述序列元素用于表征用户的行为特征或者设备的运动状态特征。
第五方面,本公开实施例提供一种计算设备,包括存储器和处理器,其中,存储器中存储有计算机程序,当计算机程序被处理器执行时,实现如前的方法。
第六方面,本公开实施例提供一种计算机可读存储介质,存储介质中存储有计算机程序,当计算机程序被处理器执行时,实现如前的方法。
第七方面,本公开实施例提供一种计算机程序产品,包括计算机程序,其中,计算机程序在被计算机的处理器执行时用于使计算机执行如前的方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例提供的方案,在获取到待扩充序列后,通过确定各个序列元素对应的特征数据,并按照序列元素在待扩充序列的位置将特征数据拼接至待扩充序列中,得到扩充后序列。由于序列元素在特征数据集中的统计特征被添加至扩充后序列中,在对扩充后序列进行处理时,既可以利用挖掘出的原有待扩充序列中序列元素和序列元素的排序关系隐含的深层特征信息,还可以基于对特征数据的挖掘识别出待扩充序列相对于样本数据集中其他样本序列整体进行横向比较而得到的更深层特征信息,进而使得对应的数据结果更符合实际情况,有利于实现数据信息的充分利用,进而提升后续的数据应用效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图,其中:
图1是本公开实施例提供的序列元素处理方法流程图;
图2是本公开实施例提供确定序列元素对应的特征数据的方法流程图;
图3是一些实施例对数值标签进行统计分析的流程图;
图4是一些实施例基于序列元素的非标签特征计算特征数据的方法流程图;
图5是另一些实施例基于序列元素的非标签特征计算特征数据的方法流程图;
图6是本公开实施例具体执行过程的流程图;
图7是本公开实施例提供的序列数据处理装置的结构示意图;
图8是本公开一些实施例提供的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
在对本公开实施例提供的序列元素处理方法进行分析之前,首先对现有技术基于样本数据集中的样本数据序列训练机器学习模型无法挖掘到样本数据集整体隐含深层次特征,进而无法进一步提升机器学习模型的预测精准度的原因做分析。
现有技术中,在采用样本数据序列训练机器学习模型时,每个样本数据序列被单独地输入到待训练的机器学习模型中求取模型输出,并基于模型输出对机器学习模型中各个节点的参数进行优化求算。由于每个样本数据序列被单独地输入到待训练的机器学习模型中,计算设备仅能通过单独挖掘各个数据序列中元素排列顺序的特征,计算相应的输出,并利用所有数据序列的输出对模型节点的参数进行修正,计算设备并不能实现各个数据序列的横向比较,确定各个数据序列中元素在样本数据集中的整体特征,也就无法挖掘出因为某个元素出现在特定样本序列中而隐含的更深层次特征,进而也就无法进一步地提升机器学习模型的预测精准度。同样的,在采用机器学习模型进行数据预测时,由于无法获取待预测序列相对于样本数据集中样本序列的整体比较特征,因此也就无法进一步提高预测结果的精准度。
为克服前段中提及的现有技术问题,本公开实施例提供一种序列元素处理方法,在使用数据序列进行机器学习模型训练之前,或者在将数据序列输入机器学习模型求取模型预测结果之前,首先对数据序列进行扩充处理,使得扩充后的数据序列包含表征其中元素在样本数据集中的整体特征的特征数据(此数据可作为扩充后数据序列中的新元素),进而在后续模型训练和模型使用过程中能够充分利用前述的特征数据,提升训练后机器学习模型的精准度或者模型预测结果的精准度。
为了后续表述的方便性,后文将特定的数据序列简称为特定的序列,例如将待扩充数据序列简称为待扩充序列,将样本数据序列简称为样本序列。
图1是本公开实施例提供的序列元素处理方法流程图。如图1所示,本公开实施例提供的序列元素处理方法包括S110-S130。
应当注意的是,本公开实施例提供的序列元素处理方法可以由计算设备执行。计算设备可以是服务器,也可以是诸如台式电脑、笔记本电脑、智能手机等终端电子设备。
S110:获取待扩充序列,待扩充序列包括多个序列元素。
待扩充序列是采用特定的数据采集方法对目标对象在特定范围内的特征进行采集得到的,并且按照预设顺序排序的原始数据序列。其中,待扩充序列包含了目标对象在特定时间段内或特定空间范围内的一组序列特征,其具体可以包括至少一个特征,也就是说,待扩充序列包含了目标对象的局部特征或者个性化特征。
本公开对于待扩充序列的数据类型与应用场景无特别限制。例如,在一些实施例中,待扩充序列可以是基于用户浏览商品的顺序,以商品名称或者商品编号构建的浏览商品序列。在另外一些实施例中,待扩充序列可以是基于用户在工作或者学过程中的行为或者关注对象构建的用户行为序列。在其他一些实施例中,待扩充序列可以是基于传感器检测监测设备运行得到的检测信号进行排序构建的设备运动状态数据序列。此处不再穷举。
在具体实施中,计算设备可以根据存储路径主动地查找存储器存储的数据,进而获取到待扩充序列,也可以被动地获取由特定数据接口传输来的待扩充序列,例如,接收用户上传或数据采集设备传输的数据来得到待扩充序列,本公开实施例不做特别地限定。
具体实施中,根据计算设备执行任务的不同,待扩充序列的类型并不相同。在执行机器学习模型训练任务时,待扩充序列为样本序列,也就是用于对机器学习模型进行训练的样本数据集(或者说是序列数据集)中的序列。在执行模型使用任务时,待扩充序列为需要输入机器学习模型中,进行结果预测的数据序列。
在一些实施例中,待扩充序列中的序列元素也可以被称为token,也就是说是样本数据集中某一位置出现的元素被称为一个token。例如,在待扩充序列为用户浏览商品的id的序列的情况下,对应的特征元素或者token为特定商品的id。
S120:确定各个序列元素对应的特征数据。
特征数据用于表征序列元素在样本数据集中的统计特征的数据。前述的特征数据是对样本数据集中包括的元素进行特征统计分析确定的数据。样本数据集是用于机器学习模型节点参数训练的数据集,样本数据集包括多个样本序列。
本公开中,可以实时对序列元素的特征数据进行获取,也可以将获取到的序列元素与特征数据对应存储以形成数据对照表,从而,在具备数据对照表的情况下,可以直接查表获取各序列元素对应的特征数据。在一些具体应用中,前述的数据对照表也可以称为数据字典或者关联关系字典。
在一种可能的实施例中,具体如何确定序列元素对应的特征数据,需要根据待扩充序列的类型确定。在待扩充序列为用于机器学习模型训练的样本序列的情况下,计算设备需要对样本数据集进行数据统计分析,确定对应的特征数据。在待扩充序列为进行结果预测的数据序列的情况下,计算设备可以直接基于序列元素查找数据对照表,得到序列元素对应的特征数据。数据对照表包括样本数据集中所有元素和特征数据的对应关系,数据对应关系基于对样本数据集进行统计分析得到。
在具体实施中,计算设备可以如何对样本数据集进行数据统计分析,确定对应的特征数据后文中再做具体说明。
此外,在待扩充序列为进行结果预测的数据序列的情况下,计算设备还可以将待扩充序列和样本数据集一起进行数据统计分析,确定对应的特征数据。但是,为了保证得到特征数据具有典型性和可用性,需要保证样本数据集中样本序列的数量足够大,以避免因为混入待扩充序列进行数据统计分析而造成的较大数据偏差。
S130:按照序列元素在待扩充序列的位置,将特征数据拼接至待扩充序列中,得到扩充后序列。
在得到待扩充序列中元素对应的特征数据后,随后可以将特征数据拼接至待扩充序列中。应当注意的是,计算设备需要按照序列元素在待扩充序列的位置实现特征数据的拼接。
在一些实施例中,计算设备按照序列元素在待扩充序列的位置,将特征数据拼接至待扩充序列中,可以是按照序列元素在待扩充序列的位置,将所有序列元素对应的特征数据进行排序,得到特征数据序列。随后,计算设备将待扩充序列和特征数据序列进行拼接,得到扩充序列。例如,如果待扩充序列为[x1,x2,…,xn],按照各个序列元素的位置拼接特征数据得到的特征数据序列为[y1,y2,…,yn],则扩充后序列为[x1,x2,…,xn,y1,y2,…,yn]。
在另外一些实施例中,计算设备按照序列元素在待扩充序列的位置,将特征数据拼接至待扩充序列中,可以是将序列元素对应的特征数据放在此特征序列之后,下一个序列元素之前,得到扩充序列。例如,如果待扩充序列为[x1,x2,…,xn],各个特征元素对应的特征数据分别为yi,i=1,2,…,n,则扩充后序列为[x1,y1,x2,y2,…,xn,yn]。
需要说明的是,任意一个序列元素对应的特征数据的数目为至少一个。前文是以一个特征数据的情况进行举例说明,应当理解,当存在多个特征数据时,亦可按照前文所述方式进行拼接扩充,不再赘述。
采用本公开实施例提供的序列数据处理方法,在获取到待扩充序列后,通过确定各个序列元素对应的特征数据,并按照序列元素在待扩充序列的位置将特征数据拼接至待扩充序列中,得到扩充后序列。由于序列元素在特征数据集中的统计特征被添加至扩充后序列中,在对扩充后序列进行处理时,既可以挖掘出原有待扩充序列中序列元素和序列元素的排序关系隐含的深层特征信息,还可以基于对特征数据的挖掘识别出待扩充序列相对于样本数据集中其他样本序列整体进行横向比较而得到的更深层特征信息,进而使得对应的数据结果更符合实际情况,有利于实现数据信息的充分利用,进而提升后续的数据应用效果。。具体的,在待扩充序列为样本序列的情况下,利用对应的扩充后序列进行机器学习模型的训练,可以使得训练得到的模型的精准度更高。在待扩充序列为用于结果预测的数据序列的情况下,利用扩充后序列输入到训练后的机器学习模型,可以得到更为精准的预测结果。
如前,在待扩充序列为用于机器学习模型训练的样本序列的情况下,计算设备需要对样本数据集进行数据统计分析,确定对应的特征数据。图2是本公开一些实施例提供确定序列元素对应的特征数据的方法流程图。如图2所示,在待扩充序列为样本数据集中样本序列的情况下,计算设备可以采用S210-S220确定序列元素对应的特征数据。
S210:从样本数据集包括的样本序列中筛选目标序列。
S220:对目标序列进行统计分析,确定序列元素对应的特征数据。
目标序列为样本数据集中包括前述序列元素的样本序列。本公开实施例中,计算设备可以遍历样本数据集中的所有样本序列,筛选出包括序列元素的目标序列。在得到目标序列之后,计算设备可以对所有的目标序列进行统计分析,确定序列元素对应的特征数据。
以下对如何对目标序列进行统计分析,进而确定序列元素对应的特征数据进行分析。
在一些情况下,样本数据集中除了包括多个样本序列外,还包括各个样本序列对应的数值标签。在此情况下,计算设备可以对数值标签进行统计分析以确定序列元素对应的特征数据。图3是一些实施例对数值标签进行统计分析的流程图。如图3所示,S220的一种可能的实现方式可参见S2201-S2202:
S2201:计算目标序列对应的数值标签的统计数据,统计数据包括以下至少一种:均值、中位数和标准差。
应当理解,本公开实施例所涉及到的统计数据可以包括但不限于上述均值、中位数和标准差。实际场景中,还可以通过对数值标签进行任意自定义的函数运算(例如加减乘除例如加权求和等)、自定义的模型处理、自定义的算法处理等,来得到该统计数据。例如,一种可能的实施例中,可以将数值标签输入预训练好的统计分析模型,来得到统计分析模型输出的统计数据。换言之,此处的统计方法可以基于实际场景或用户需求来自定义设计。
S2202:将前述统计数据作为序列元素对应的特征数据。
根据数值标签的确定原理可知,样本序列包含何种元素以及前述元素的排列顺序决定样本序列对应的数值标签的大小。也就是说,样本序列的数值标签与样本序列中的序列元素有关联关系。因此,可以对目标序列对应的数值标签进行统计,确定目标序列对应的数值标签的统计特征,并采用前述的统计特征作为序列元素的特征数据,以体现前述的关联关系。
具体实施中,目标序列对应的数值标签的统计特征包括但不限于以下至少一种:均值、中位数和标准差,因此可以将数值标签的均值、中位数和标准差中的至少一种作为对应的序列元素的特征数据。具体的,均值和中位数可以反应包括序列元素的目标序列对应的数值标签的整体大小,标准差可以反应包括序列元素的目标序列对应的数字标签的典型分布特征。
应当注意的是,在实际应用中,目标序列的标签可能为非数值标签。在此情况下,可以确定非数值标签和数值标签的对应转换关系,并按照对应转换关系将非数值标签转换为数值标签,再求算相应的特征数据。
在本公开一些实施例中,在计算目标序列对应的数值标签的均值、中位数和标准差时,各个目标序列对应的数值标签仅使用一次,也就是并不考虑此序列元素在目标序列中的出现次数对此目标序列对应的数值标签大小的影响。在另外一些实施例中,计算设备还会考虑序列元素在目标序列中出现次数对目标序列对应的数值标签大小的影响。对应的,在执行前述的S2201之前,计算设备还可以执行S2200。
S2200:统计序列元素在各个目标序列中的出现次数。
在执行S2200的情况下,S2201具体为:根据序列元素在各个目标序列中的出现次数和目标序列对应的数值标签,计算数值标签对应的统计数据。
如前所述,统计数据可以为均值、中位数和方差中的至少一种。
根据序列元素在各个目标序列出现次数和目标序列的数值标签计算均值,是将序列元素在目标序列中的出现次数作为权重,利用权重和对应的数值标签计算均值。例如,序列元素在各个目标序列中的出现次数分别为1、3、2,各个目标序列的数值标签分别为2.6、1.8和2.2,则计算得到的均值为2.067。
根据序列元素在各个目标序列出现次数和数字标签计算中位数,是根据次数对数值标签进行排序,从排序结果中获得中位数的数值标签。例如,序列元素在各个目标序列中的出现次数分别为1、3、3,各个目标序列的数值标签分别为2.6、1.8和2.2,则排序后的数值标签为1.8,1.8,1.8,2.2,2.2,2.22.6。则确定中位数为2.2。
根据数量和数字标签计算标准差,是采用前述加权平均方法计算得到均值,在基于加权平均的均值计算标准差。例如,序列元素在各个目标序列中的出现次数分别为1、3、2,各个目标序列的数值标签分别为2.6、1.8和2.2,则计算得到的标准差为0.2981。
在本公开的另外一些实施例中,计算设备还可以基于序列元素的非标签特征,例如,序列数目、元素出现次数等,来确定序列元素对应的特征数据。图4是一些实施例基于序列元素的非标签特征计算特征数据的方法流程图。如图4所示,S220的一种可能的实现方式可参见S2203-S2205。
S2203:统计样本数据集中目标序列的数量,以及样本数据集中样本序列的总量。
S2204:根据目标序列的数量和数据集中样本序列的总量,计算第一比值。
S2205:将第一比值作为序列元素对应的特征数据。
在具体执行过程中,计算设备可以遍历样本数据集中的所有样本序列,确定包括序列元素的目标序列的数量,并求取目标序列数量与样本数据集中样本序列总量的比值,将前述比值作为第一比值。
采用S2203-S2205确定的特征数据是反应包括序列元素的目标序列的数量与数据集中样本序列总量的第一比值,其可以间接反映序列元素在样本数据集中的出现频率,进而体现序列元素对决定目标序列分类特性的重要性程度,进而使得后续训练机器学习模型时前述重要性程度特征可被挖掘到。
在本公开的再一些实施例中,计算设备可以采用序列元素出现次数确定序列元素对应的特征数据。图5是另一些实施例基于序列元素的非标签特征计算特征数据的方法流程图。。如图5所示,S220的一种可能的实现方式可参见S2206-S2208。
S2206:统计序列元素在样本序列中的出现次数。
S2207:根据出现次数和样本数据集包括元素的总量,计算第二比值。
S2208:将第二比值作为序列元素对应的特征数据。
在具体执行过程中,计算设备可以遍历样本序列中的所有元素,确定序列元素在所有样本序列中的出现次数,并求取前述出现次数与样本数据集包括元素总量的比值,并将前述比值作为第二比值。
采用S2206-S2208确定的特征数据是反应序列元素的数量与数据集中元素总量的第二比值,其可以直接反映序列元素在样本数据集中的出现频率,进而体现序列元素对决定目标序列分类特性的重要性程度,进而使得后续训练机器学习模型时前述重要性程度特征可被挖掘到。
应当注意的是,在样本数据集包括各个样本序列对应的数值标签的情况下,前述的S2201-S2202、S2203-S2205和S2206-S2208可以同时执行,同时求取数值标签的均值、标准差和中位数,以及第一比值和第二比值,并将前述各个数据均作为序列元素对应的特征数据。在样本数据集并不包括各个样本序列对应的数值标签的情况下,仅前述的S2203-S2205和S2206-S2208可以同时执行,以计算得到第一比值和第二比值,并将第一比值和第二比值作为序列元素对应的特征数据。
前文S210中是从样本数据集包括的样本序列中筛选目标序列。此外,目标序列也自定义设计,具体的,目标序列可以为全部序列,也可以为部分序列。例如,目标序列可以为除待扩充序列自身之外的其他序列。又例如,目标序列可以是用户指定的序列。又例如,目标序列可以是与待扩充序列满足预设关系的序列,预设关系可以提前配置或自定义配置,此处不做限制。在一些实施例中,计算设备从样本数据集包括的样本序列中筛选目标序列可以包括S2101-S2102。
S2101:随机抽取样本数据集除待扩充序列之外的样本序列,作为待筛选样本序列。
在具体实施中,计算设备可以对各个样本序列进行随机分组,确定各个样本序列的分组编号。具体实施中,对各个样本序列进行随机分组,确定各个样本序列的分组编号,可以是将各个样本序列分别随机地分配到对应的文件夹(fold)中,并将此文件夹的编号或者名称作为样本序列的分组编号。应当注意的是,在具体实施中分组的数量为超参数,也就是需要由人工预先设定的参数。
在确定某一样本序列为待扩充序列后,将对应分组编号不是此样本序列分组编号的所有样本序列作为待筛选样本序列。例如,在一个具体实施中,样本数据集中的样本序列被随机地分成五组,则可以将包括步包括待扩充序列的其他四组样本序列作为待筛选样本序列。
S2102:从待筛选样本序列中筛选目标序列。
通过随机抽取样本数据集中除待扩充序列之外的样本序列确定待筛选样本序列后,计算设备再从从待筛选样本序列中筛选包括序列元素的目标序列,再根据目标序列进行数据统计并确定统计数据,可以排除待扩充序列对确定统计数据的影响。
在具体实施过程中,在采用前述S2101-S2102筛选目标序列的情况下,可能出现没有对应的目标序列的情况,也就无法计算对应的特征数据,进而无法基于特征数据得到扩充后序列。为避免此问题,在无法筛选到目标序列的情况下,计算设备可以将预设数据作为此序列元素对应的特征数据。前述的预设数据可以是空值数据、极大值或者极小值数据。
在本公开实施中,在执行前述的S210-S220之后,计算设备还可以执行S230。
S230:将序列元素与对应的特征数据之间的关联关系存储至数据对照表中。
通过将序列元素与对应的特征数据的关联关系存储在数据对照表中,后续再获取到相同的序列元素后,可以通过查找数据对照表确定其对应的特征数据,无需再执行前述的数据统计分析步骤,进而可以提高数据处理的效率。
以下,结合一个具体实例对在待扩充序列为样本序列的情况下,如何实施序列数据处理方法再做说明。应当注意的是,下述实施例采用了较少的样本序列,在执行前文方法得到的扩充后序列可能并不具有实际应用中的统计价值,但是具体实例仅是为了更为清楚地的讲解前文实施例方案,而不是为了再现实际应用方案,因此较少的样本序列并不妨碍方案的实现。
图6是本公开实施例具体执行过程的流程图。如图6所示,在一个具体实施例中,计算设备按照步骤S01-S04生成扩后的样本序列,并构建数据对照表。
在一个具体实例中,按照图6所示,获取得到的样本数据集如表1所示。样本数据集中的样本序列的数量为5个(分别为数据ID为uid_1、uid_2、uid_3、uid_4和uid_5,本实施例中,uid代表了用户的id),每个样本序列中均包括3个排序的序列元素。
表1扩充前的样本序列
如果将uid_1作为待扩充序列,则序列元素分别为iid_1、iid_3和iid_6。针对iid_1,筛选到的目标序列包括uid_1、uid_2和uid_6。在将数据标签的均值作为特征数据的情况下,计算得到的uid_1、uid_2和uid_6的数值标签的均值为3.943,因此iid_1对应的特征数据为3.943。采用同样的方法,iid_3对应的特征数据为3.625,iid_6对应的特征数据为2.250。按照uid_1、uid_2和uid_6在uid_1中的排序顺序对对应的特征数据进行排序,得到的特征数据序列为{3.943,3.625,2.25}。将待扩充序列uid_1与对应的特征数据序列拼接,得到的扩充后序列为{iid_1,iid_3,iid_6,3.943,3.625,2.250}或者{iid_1,3.943,iid_3,3.625,iid_6,2.250}。
采用同样的方法,将uid_2作为待扩充序列得到的扩充后序列为{iid_3,iid_1,iid_2,3.625,3.943,2.750}或者{iid_3,3.625,iid_1,3.943,iid_2,2.750},将uid_3作为待扩充序列得到的扩充后序列为{iid_2,iid_5,iid_6,2.750,2.250,2.250}或者{iid_2,2.750,iid_5,2.250,iid_6,2.250},将uid_4作为待扩充序列得到的扩充后序列为{iid_2,iid_3,iid_4,2.750,3.625,2.667}或者{iid_2,2.750,iid_3,3.625,iid_4,2.667},将uid_5作为待扩充序列得到的扩充后序列为{iid_1,iid_2,iid_3,3.943,2.750,3.625}或者{iid_1,3.943,iid_2,2.750,3.625}。
基于前述处理方法得到的扩充后序列可以如表2和表3。
表2一种扩充后的样本序列
表3另一种扩充后的样本序列
此外,利用前述数据处理方法构建的数据对照表如表4。如图4所示,数据对照表(也就是字典)中的关键字为序列元素(也就是token),通过序列元素进行数据查找,即可以确定对应的特征数据。
表4数据对照表
编号 | 序列元素 | 特征数据 |
1 | iid_1 | 3.943 |
2 | iid_3 | 3.625 |
3 | iid,6 | 2.250 |
4 | iid_2 | 2.750 |
5 | iid_5 | 2.250 |
6 | iid_4 | 2.667 |
在得到前述的扩充后序列后,本公开实施例提供的序列数据处理装置还可以执行S140。S140:根据待扩充序列的类型,利用扩充后序列执行对应的目标任务。
在待扩充序列为样本序列的情况下,目标任务为目标模型训练任务,也就是前述的机器学习模型训练任务。在待扩充序列为预测序列的情况下,目标任务为采用机器学习模型处理扩充后序列的标签预测任务。
需要说明的是,本发明实施例中所涉及到的模型(例如上述利用前述训练样本训练得到的目标模型)还可被用于隐私计算、多方安全计算、联邦学习、匿踪(隐匿)查询、安全(隐私)求交等场景。
具体而言,此处的目标模型可被用于预测图像类别、文本类别、语音情感、欺诈交易、广告点击率等。目标模型可以为神经网络模型,旨在针对相关场景中的对象或事件有关的问题进行预测。例如,可用于预测图像类别、预测图像中文字、预测文本类别、预测语音情感类别、预测欺诈交易、预测广告点击率、预测商品价格等等,使得预测结果可直接作为决策依据或进一步结合其他规则而成为决策依据。
更进一步来说,本发明实施例中的目标模型可被用于的场景包括但不限于以下场景:
图像处理场景,包括:光学字符识别(optical character recognition,OCR)、人脸识别、物体识别和图片分类;更具体地举例来说,OCR可应用于票据(如发票)识别、手写字识别等,人脸识别可应用安防等领域,物体识别可应用于自动驾驶场景中的交通标志识别,图片分类可应用于电商平台的“拍照购”、“找同款”等。
语音识别场景,包括可通过语音进行人机交互的产品,如手机的语音助手(如苹果手机的Siri)、智能音箱等;
自然语言处理场景,包括:审查文本(如合同、法律文书和客服记录等)、垃圾内容识别(如垃圾短信识别)和文本分类(情感、意图和主题等);
自动控制场景,包括:矿井组调节操作预测、风力发电机组调节操作预测和空调系统调节操作预测;具体的对于矿井组可预测开采率高的一组调节操作,对于风力发电机组可预测发电效率高的一组调节操作,对于空调系统,可以预测满足需求的同时节省能耗的一组调节操作;
智能问答场景,包括:聊天机器人和智能客服;
业务决策场景,包括:金融科技领域、医疗领域和市政领域的场景,其中:
金融科技领域包括:营销(如优惠券使用预测、广告点击行为预测、用户画像挖掘等)与获客、反欺诈、反洗钱、承保和信用评分、商品价格预测;
医疗领域包括:疾病筛查和预防、个性化健康管理和辅助诊断;
市政领域包括:社会治理与监管执法、资源环境和设施管理、产业发展和经济分析、公众服务和民生保障、智慧城市(公交、网约车、共享单车等各类城市资源的调配和管理);
推荐业务场景,包括:新闻、广告、音乐、咨询、视频和金融产品(如理财、保险等)的推荐;
搜索场景,包括:网页搜索、图像搜索、文本搜索、视频搜索等;
异常行为检测场景,包括:国家电网客户用电异常行为检测、网络恶意流量检测、操作日志中的异常行为检测等,此处不作限定。
除了提供前述的序列数据处理方法外,本公开实施例还提供一种序列数据处理装置。
图7是本公开实施例提供的序列数据处理装置的结构示意图。如图7所示,序列数据处理装置300包括序列获取单元301、特征数据确定单元302和序列扩充单元303。序列获取单元301用于获取待扩充序列,待扩充序列包括多个序列元素;特征数据确定单元302用于确定各个序列元素对应的特征数据,特征数据用于表征序列元素在样本数据集中的统计特征,样本数据集包括多个样本序列;序列扩充单元303用于按照序列元素在待扩充序列的位置,将特征数据拼接至待扩充序列中,得到扩充后序列。
在一些实施例中,待扩充序列为样本数据集中的样本序列;特征数据确定单元302包括筛选子单元和统计分子单元。筛选子单元用于从样本数据集包括的样本序列中筛选目标序列,目标序列为包括序列元素的样本序列;统计分析子单元用于对目标序列进行统计分析,确定序列元素对应的特征数据。
在一些实施例中,序列数据处理装置300还包括存储单元,存储单元用于将序列元素与对应的特征数据之间的关联关系存储至数据对照表中。
在一些实施例中,统计分析子单元获取目标序列对应的数值标签,并计算数值标签的均值、中位数和/或标准差;和/或,计算目标序列数量与样本数据集中样本序列数量的第一比值;和/或,计算目标序列中包括的序列元素的数量与样本序列元素集中元素数量的第二比值;并将均值、中位数、标准差、第一比值和第二比值中的至少一种作为序列元素对应的特征数据。
在一些实施例中,统计分析子单元还用于统计序列元素在各个目标序列中的出现次数,以根据序列元素在各个目标序列中的出现次数和目标序列的数值标签计算均值、中位数和/或标准差。
在一些实施例中,序列数据处理装置300还包括待筛样本序列确定单元。待筛样本序列确定单元用于随机抽取样本数据集除待扩充序列之外的样本序列,作为待筛选样本序列。对应的,筛选子单元从待筛选样本序列中筛选目标序列。
在一些实施例中,特征数据确定单元302基于序列元素查找数据对照表,得到序列元素对应的特征数据;其中,数据对照表包括样本数据集中所有元素和特征数据的对应关系,数据对应关系基于对样本数据集进行统计分析得到。
在一些实施例中,序列数据处理装置300还包括序列使用单元。序列使用单元用于在得到扩充后序列后,根据待扩充序列的类型,利用扩充后序列执行对应的目标任务;其中:在待扩充序列为样本序列的情况下,目标任务为目标模型训练任务,在待扩充序列为预测序列的情况下,目标任务为采用目标模型处理扩充后序列的标签预测任务。
具体实施中,待扩充序列为用户行为序列或者设备状态序列,序列元素用于表征用户的行为特征或者设备的运动状态特征。
7.根据3所述的方法,在从所述样本数据集包括的样本序列中筛选目标序列之前,所述方法还包括:
随机抽取所述样本数据集除所述待扩充序列之外的样本序列,作为待筛选样本序列;
所述从所述样本数据集包括的样本序列中筛选目标序列,包括:从所述待筛选样本序列中筛选所述目标序列。
8.根据1-7任一项所述的方法,在得到所述扩充后序列之后,所述方法还包括:根据所述待扩充序列的类型,利用所述扩充后序列执行对应的目标任务;
其中:在所述待扩充序列为样本序列的情况下,所述目标任务为目标模型训练任务,在所述待扩充序列为预测序列的情况下,所述目标任务为采用所述目标模型处理所述扩充后序列的标签预测任务。
9.根据8所述的方法,
所述待扩充序列为用户行为序列或者设备状态序列,所述序列元素用于表征用户的行为特征或者设备的运动状态特征。
11.根据10所述的装置,所述特征数据确定单元具体用于:
基于所述序列元素查找数据对照表,得到所述序列元素对应的特征数据;
其中,所述数据对照表包括所述样本数据集中所有元素和特征数据的对应关系,所述数据对应关系基于对样本数据集进行统计分析得到。
12.根据10所述的装置,所述待扩充序列为所述样本数据集中的样本序列;所述特征数据确定单元包括:
筛选子单元,用于从所述样本数据集包括的样本序列中筛选目标序列,所述目标序列为包括所述序列元素的样本序列;
统计分析子单元,用于对所述目标序列进行统计分析,确定所述序列元素对应的特征数据。
13.根据12所述的装置,还包括:
存储单元,用于将所述序列元素与对应的特征数据之间的关联关系存储至数据对照表中。
14.根据12所述的装置,
所述统计分析子单元获取所述目标序列对应的数值标签,并计算所述数值标签的均值、中位数和/或标准差;和/或,计算所述目标序列数量与所述样本数据集中样本序列数量的第一比值;和/或,计算所述目标序列中包括的所述序列元素的数量与所述样本序列元素集中元素数量的第二比值;并将所述均值、所述中位数、所述标准差、所述第一比值和所述第二比值中的至少一种作为所述序列元素对应的特征数据。
15.根据14所述的装置,所述统计分析子单元还用于统计所述序列元素在各个所述目标序列中的出现次数,以根据所述序列元素在各个所述目标序列中的出现次数和所述目标序列的数值标签计算所述均值、中位数和/或标准差。
16.根据12所述的装置,还包括:
待筛样本序列确定单元,用于随机抽取所述样本数据集除所述待扩充序列之外的样本序列,作为待筛选样本序列;
所述筛选子单元从所述待筛选样本序列中筛选所述目标序列。
17.根据10-16任一项所述的装置,所述装置还包括:
序列使用单元,用于在得到扩充后序列后,根据所述待扩充序列的类型,利用所述扩充后序列执行对应的目标任务;
其中:在所述待扩充序列为样本序列的情况下,所述目标任务为目标模型训练任务,在所述待扩充序列为预测序列的情况下,所述目标任务为采用所述目标模型处理所述扩充后序列的标签预测任务。
18.根据17所述的装置,
所述待扩充序列为用户行为序列或者设备状态序列,所述序列元素用于表征用户的行为特征或者设备的运动状态特征。
本公开示例性实施例还提供一种计算设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。存储器存储有能够被至少一个处理器执行的计算机程序,计算机程序在被至少一个处理器执行时用于使计算设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,计算机程序在被计算机的处理器执行时用于使计算机执行根据本公开实施例的方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,计算机程序在被计算机的处理器执行时用于使计算机执行根据本公开实施例的方法。
图8是本公开一些实施例提供的计算设备的结构示意图。下面具体参考图8,其示出了适于用来实现本公开实施例中的计算设备400的结构示意图。图8示出的计算设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,计算设备400可以包括处理装置401(例如中央处理器、图形处理器等),其可以根据存储在只读存储器ROM402中的程序或者从存储装置408加载到随机访问存储器RAM403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有计算设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出I/O接口405也连接至总线404。
通常,以下装置可以连接至I/O接口405:包括加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407;包括例如磁带、硬盘等的存储装置408;以及通信装置409。通信装置409可以允许计算设备400与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的计算设备400,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置409从网络上被下载和安装,或者从存储装置408被安装,或者从ROM 402被安装。在该计算机程序被处理装置401执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述计算设备中所包含的;也可以是单独存在,而未装配入该计算设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该计算设备执行时,使得该计算设备:获取待扩充序列,待扩充序列包括多个序列元素;确定各个序列元素对应的特征数据,特征数据用于表征序列元素在样本数据集中的统计特征,样本数据集包括多个样本序列;按照序列元素在待扩充序列的位置,将特征数据拼接至待扩充序列中,得到扩充后序列。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的根据硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括根据一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
本公开实施例还提供一种计算机可读存储介质,存储介质中存储有计算机程序,当计算机程序被处理器执行时可以实现上述任一方法实施例的方法,其执行方式和有益效果类似,在这里不再赘述。
此外,第五方面,本公开实施例提供一种车辆,包括车载控制芯片和多个交互显示屏,车载控制芯片用于执行如前的换道决策方法,控制多个交互显示屏中的至少两个独立地显示文本输入界面。前述的车载控制芯片可以为车辆中的中控芯片,也可以是独立于中控芯片的娱乐系统控制芯片,也可以是其他芯片,本公开实施例并不做特别地限定;较为优选的,前述的车载控制芯片是车辆智能座舱系统中专门用于控制各个交互显示屏工作的控制芯片。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种序列数据处理方法,其特征在于,包括:
获取待扩充序列,所述待扩充序列包括多个序列元素;
确定各个所述序列元素对应的特征数据,所述特征数据用于表征所述序列元素在样本数据集中的统计特征,所述样本数据集包括多个样本序列;
按照所述序列元素在所述待扩充序列的位置,将所述特征数据拼接至所述待扩充序列中,得到扩充后序列。
2.根据权利要求1所述的方法,其特征在于,所述确定各个所述序列元素对应的特征数据,包括:
基于所述序列元素查找数据对照表,得到所述序列元素对应的特征数据;
其中,所述数据对照表包括所述样本数据集中所有元素和特征数据的对应关系,所述对应关系基于对样本数据集进行统计分析得到。
3.根据权利要求1所述的方法,其特征在于,所述待扩充序列为所述样本数据集中的样本序列;
所述确定各个所述序列元素对应的特征数据,包括:
从所述样本数据集包括的样本序列中筛选目标序列,所述目标序列为包括所述序列元素的样本序列;
对所述目标序列进行统计分析,确定所述序列元素对应的特征数据。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将所述序列元素与对应的特征数据之间的关联关系存储至数据对照表中。
5.根据权利要求3所述的方法,其特征在于,所述对所述目标序列进行统计分析,确定所述序列元素对应的特征数据,包括:
获取所述目标序列对应的数值标签,并计算所述数值标签的均值、中位数和/或标准差;和/或,
计算所述目标序列数量与所述样本数据集中样本序列数量的第一比值;和/或,
计算所述目标序列中包括的所述序列元素的数量与所述样本数据集中元素数量的第二比值;
将所述均值、所述中位数、所述标准差、所述第一比值和所述第二比值中的至少一种作为所述序列元素对应的特征数据。
6.根据权利要求5所述的方法,其特征在于,在计算所述数值标签的均值、中位数和/或标准差之前,所述方法还包括:
统计所述序列元素在各个所述目标序列中的出现次数;
所述计算所述数值标签的均值、中位数和/或标准差,包括:根据所述序列元素在各个所述目标序列中的出现次数和所述目标序列的数值标签计算所述均值、中位数和/或标准差。
7.一种序列数据处理装置,其特征在于,包括:
序列获取单元,用于获取待扩充序列,所述待扩充序列包括多个序列元素;
特征数据确定单元,用于确定各个所述序列元素对应的特征数据,所述特征数据用于表征所述序列元素在样本数据集中的统计特征,所述样本数据集包括多个样本序列;
序列扩充单元,用于按照所述序列元素在所述待扩充序列的位置,将所述特征数据拼接至所述待扩充序列中,得到扩充后序列。
8.一种计算设备,其特征在于,包括:
存储器和处理器,其中,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,实现如权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1-6中任一项所述的方法。
10.一种计算机程序产品,其特征在于,包括计算机程序,其中,计算机程序在被计算机的处理器执行时用于使计算机执行如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211527509.2A CN118113755A (zh) | 2022-11-30 | 2022-11-30 | 序列数据处理方法、装置、设备、介质和产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211527509.2A CN118113755A (zh) | 2022-11-30 | 2022-11-30 | 序列数据处理方法、装置、设备、介质和产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118113755A true CN118113755A (zh) | 2024-05-31 |
Family
ID=91219996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211527509.2A Pending CN118113755A (zh) | 2022-11-30 | 2022-11-30 | 序列数据处理方法、装置、设备、介质和产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118113755A (zh) |
-
2022
- 2022-11-30 CN CN202211527509.2A patent/CN118113755A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751286B (zh) | 神经网络模型的训练方法和训练系统 | |
CN109492772B (zh) | 生成信息的方法和装置 | |
CN107944481B (zh) | 用于生成信息的方法和装置 | |
CN111523677B (zh) | 实现对机器学习模型的预测结果进行解释的方法及装置 | |
CN110992097B (zh) | 营收产品价格的处理方法、装置、计算机设备及存储介质 | |
CN110705719A (zh) | 执行自动机器学习的方法和装置 | |
CN111340240A (zh) | 实现自动机器学习的方法及装置 | |
CN107526718A (zh) | 用于生成文本的方法和装置 | |
CN113592605B (zh) | 基于相似产品的产品推荐方法、装置、设备及存储介质 | |
CN110717597A (zh) | 利用机器学习模型获取时序特征的方法和装置 | |
CN111651524B (zh) | 利用机器学习模型进行线上预测的辅助实现方法及装置 | |
CN112529477A (zh) | 信用评估变量筛选方法、装置、计算机设备及存储介质 | |
CN113706291A (zh) | 欺诈风险预测方法、装置、设备及存储介质 | |
CN110858326B (zh) | 模型训练及获取附加特征数据的方法、装置、设备及介质 | |
CN112328869A (zh) | 一种用户贷款意愿的预测方法、装置及计算机系统 | |
US20210349920A1 (en) | Method and apparatus for outputting information | |
CN110020196B (zh) | 一种基于不同数据源的用户分析方法和装置及计算设备 | |
CN113763077A (zh) | 用于检测虚假交易订单的方法和装置 | |
CN118113755A (zh) | 序列数据处理方法、装置、设备、介质和产品 | |
CN111178535B (zh) | 实现自动机器学习的方法和装置 | |
CN113434660A (zh) | 基于多领域分类的产品推荐方法、装置、设备及存储介质 | |
CN112990311A (zh) | 一种准入客户的识别方法和装置 | |
CN112200602A (zh) | 用于广告推荐的神经网络模型训练方法及装置 | |
CN118113740A (zh) | 表数据处理方法、装置、设备及介质 | |
CN117093715B (zh) | 词库扩充方法、系统、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |