CN111291125A - 一种数据处理方法及相关设备 - Google Patents
一种数据处理方法及相关设备 Download PDFInfo
- Publication number
- CN111291125A CN111291125A CN202010099636.1A CN202010099636A CN111291125A CN 111291125 A CN111291125 A CN 111291125A CN 202010099636 A CN202010099636 A CN 202010099636A CN 111291125 A CN111291125 A CN 111291125A
- Authority
- CN
- China
- Prior art keywords
- target object
- behavior
- time
- sample
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 62
- 238000013145 classification model Methods 0.000 claims abstract description 29
- 230000006399 behavior Effects 0.000 claims description 176
- 238000003062 neural network model Methods 0.000 claims description 47
- 238000012549 training Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 23
- 230000003993 interaction Effects 0.000 claims description 23
- 230000003542 behavioural effect Effects 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 9
- 230000002123 temporal effect Effects 0.000 claims description 7
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 230000006403 short-term memory Effects 0.000 claims description 5
- 230000007787 long-term memory Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 23
- 238000005516 engineering process Methods 0.000 description 15
- 230000007246 mechanism Effects 0.000 description 13
- 238000013473 artificial intelligence Methods 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000015654 memory Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 206010037660 Pyrexia Diseases 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000011273 social behavior Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Development Economics (AREA)
- Mathematical Physics (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开一种数据处理方法及相关设备,其中的方法包括:获取目标对象的关联数据集,目标对象的关联数据集包括在目标时间段内被执行的、且与目标对象相关联的多条行为数据;目标时间段包括N个时间分片,N为正整数;根据目标对象的关联数据集分别获取目标对象在每个时间分片内的关联行为特征;采用目标对象在每个时间分片内的关联行为特征构建目标对象的N维时序特征序列;调用时序分类模型对目标对象的N维时序特征序列进行识别得到目标对象的类型。本申请实施例能够执行较精细的数据处理过程,提升数据处理结果的准确性。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种数据处理方法、一种数据处理装置、一种数据处理设备及一种计算机存储介质。
背景技术
互联网场景中会产生许多的行为数据,例如:在金融消费场景中,用户与商户之间会产生许多的消费行为数据,包括消费时间、消费金额等。再如:在社交网络使用场景中,用户与社交网络的服务端之间会产生许多的社交行为数据,该社交行为数据包括浏览的页面、评论的文章、发表的话题等等。目前,在人工智能的机器学习技术中对于行为数据的研究较为粗放,通常是直接将该行为数据作为神经网络模型的处理对象,这样的数据处理过程不够精细,从而影响了数据处理结果的准确性。
发明内容
本申请实施例提供一种数据处理方法及相关设备,能够执行较精细的数据处理过程,提升数据处理结果的准确性。
一方面,本申请实施例提供一种数据处理方法,包括:
获取目标对象的关联数据集,目标对象的关联数据集包括在目标时间段内被执行的、且与目标对象相关联的多条行为数据;目标时间段包括N个时间分片,N为正整数;
根据目标对象的关联数据集分别获取目标对象在每个时间分片内的关联行为特征;
采用目标对象在每个时间分片内的关联行为特征构建目标对象的N维时序特征序列;
调用时序分类模型对目标对象的N维时序特征序列进行识别得到目标对象的类型。
一方面,本申请实施例提供一种数据处理装置,包括:
获取单元,用于获取目标对象的关联数据集,目标对象的关联数据集包括在目标时间段内被执行的、且与目标对象相关联的多条行为数据;目标时间段包括N个时间分片,N为正整数;以及,用于根据目标对象的关联数据集分别获取目标对象在每个时间分片内的关联行为特征;
构建单元,用于采用目标对象在每个时间分片内的关联行为特征构建目标对象的N维时序特征序列;
处理单元,用于调用时序分类模型对目标对象的N维时序特征序列进行识别得到目标对象的类型。
一方面,本申请实施例提供一种数据处理设备,包括输入设备和输出设备,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,计算机存储介质存储有一条或多条指令,一条或多条指令适于由处理器加载并执行上述的数据处理方法。
一方面,本申请实施例提供一种计算机存储介质,该计算机存储介质存储有一条或多条指令,该一条或多条指令适于由处理器加载并执行上述的数据处理方法。
本申请实施例通过对与目标对象相关联的多个行为数据之间的时序关系进行挖掘,得到该目标对象的时序特征序列;利用该时序特征序列来对目标对象进行分类;由于目标对象的时序特征序列反映了与目标对象相关的各个行为数据之间的时序关系,基于该时序关系能够得到较为精细化的数据处理过程,提升了分类的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一个示例性实施例提供的区块链系统的架构图;
图2示出了本申请一个示例性实施例提供的区块链的结构示意图;
图3示出了本申请一个示例性实施例提供的区块链网络的架构示意图;
图4示出了本申请一个示例性实施例提供的一种数据处理方法的流程图;
图5示出了本申请一个示例性实施例提供的一种数据处理方法的流程图;
图6示出了本申请一个示例性实施例提供的一种数据处理装置的结构示意图;
图7示出了本申请一个示例性实施例提供的一种数据处理设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释:
一、人工智能(Artificial Intelligence,AI)。
人工智能是一门技术科学,它是利用数字计算机、或者利用由数字计算机控制的机器,来模拟、延伸和扩展人的智能,感知环境,获取知识并使用知识获得较佳结果的理论、方法、技术及应用系统。人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。换句话说,人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例涉及人工智能的机器学习(Machine Learning,ML)技术。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
神经网络是机器学习中的一种模型,它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数据模型。一般地,神经网络的架构通常包含多个网络层,第一层为输入层,最后一层为输出层,中间层为隐藏层,层与层之间全连接。如果中间层的数量为多个(两个或两个以上),则该神经网络又被称为深度神经网络。常见的神经网络模型包括但不限于CNN(Convolutional Neural Networks,卷积神经网络)、RNN(RecursiveNeural Network,循环(递归)神经网络)、DBN(Deep Belief Network,深度信念网络)、GAN(Generative Adversarial Networks,生成对抗神经网络)。
二、区块链。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Block chain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。图1示出了本申请一个示例性实施例提供的区块链系统的架构图;如图1所示,区块链系统的架构按照由底至上的顺序主要包括101-105共5个层级结构。其中:
(1)信息数据和默克尔(Merkle)树位于底层101。此处的信息数据是指请求发布至区块链网络,但尚未形成区块的原始数据,例如交易数据。该原始数据需要进一步加工(例如经过区块链网络中各节点的验证、进行散列运算等)才能被写入区块内。Merkle树是区块链技术的重要组成部分,区块链不会直接保存明文的原始数据,原始数据需要被执行散列运算,以散列值的方式被存储。默克尔树就用于将多个原始数据经散列运算形成的散列值按照二叉树结构组织起来,保存在区块的块体中。
(2)区块位于层级102。区块即数据块,底层101的信息数据经过进一步加工之后被写入至层级102中的区块内。多个区块按序连接成链式结构,即形成区块链。图2示出了本申请一个示例性实施例提供的区块链的结构示意图;如图2所示,区块201、区块202和区块203按序连接成链式结构。其中,区块202分为区块头和区块体两部分,区块头包含前一区块201的摘要值、本区块202的摘要值及本区块的默克尔(Merkle)根。区块体包含本区块202的完整数据,并以Merkle树的形式组织在一起。
(3)区块链所遵循的协议与机制位于层级103。这些协议可包括:P2P(Peer-to-Peer,对等式网络)协议;机制可包括但不限于:广播机制、共识机制(包括PoW(Proof OfWork,工作量证明)机制、POS(Proof Of Stake,权益证明)机制等核心机制)。
(4)区块链网络位于层级104。区块链网络由多个节点组成;可作为节点的设备可包括但不限于:PC(Personal Computer,个人计算机)、服务器、用于比特币挖矿设计的矿机、智能手机、平板电脑、移动计算机等等。图3示出了本申请一个示例性实施例提供的区块链网络的架构示意图;图中以7个节点为例进行说明,区块链网络中各节点以P2P方式组网,节点与节点之间按照P2P协议相互通信;各节点共同遵循广播机制、共识机制(包括PoW机制、POS机制等核心机制),共同保证区块链上的数据的不可篡改、不可伪造性,同时实现区块链的去中心化、去信任化等特性。
(5)智能合约位于上层105。智能合约是一组情景——应对型的程序化规则和逻辑,是部署在区块链上的去中心化、可信息共享的程序代码。签署合约的各参与方就合约内容达成一致,以智能合约的形式部署在区块链中,即可不依赖任何中心机构自动化地代表各签署方执行合约。
由于区块链具备去中心化、分布式存储、数据的不可篡改、不可伪造等特性,越来越多的业务活动(例如金融交易活动)基于区块链技术展开,以利用区块链的特性来保证业务活动的公平性和公开性。
三、时序特征序列。
所谓时序特征序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列,该时序特征序列又称作时间序列或动态数列;在生产和科学研究中,时序特征序列是指对某一个或一组变量进行观察测量,将一系列用于解释变量和相互关系的数学表达式所得到的离散数字按照时间次序排列所组成的序列。
四、行为数据。
行为数据是指对机体产生的行为以及行为产生的环境进行记录的数据。互联网场景中会产生许多的行为数据,例如:在金融消费场景中,用户与商户之间会产生许多的消费行为数据,该消费行为数据包括但不限于:消费时间、消费金额、消费对象(商品或服务)、消费方式(互联网线上或线下消费)等等。再如:在社交网络使用场景中,用户与社交网络的服务端之间会产生许多的社交行为数据,该社交行为数据包括浏览的页面、评论的文章、发表的话题等等。各种互联网场景中产生的行为数据在人工智能的机器学习技术中是非常有研究价值的数据。
本申请实施例提出一种数据处理方案,该方案通过对与目标对象相关联的多个行为数据之间的时序关系进行挖掘,得到该目标对象的时序特征序列;利用该时序特征序列来对目标对象进行分类;由于目标对象的时序特征序列反映了与目标对象相关的各个行为数据之间的时序关系,基于该时序关系能够得到较为精细化的数据处理过程,提升分类的准确性。
图4示出了本申请一个示例性实施例提供的一种数据处理方法的流程图;该方法可以是由数据处理设备来执行,该数据处理设备可以是服务器或终端,此处的服务器可以是应用程序的后台服务器、云服务器或服务器集群等等。此处的终端可包括但不限于:智能终端、平板电脑、膝上计算机、台式电脑,等等。该方法包括步骤S401-S404:
S401,获取目标对象的关联数据集,目标对象的关联数据集包括在目标时间段内被执行的、且与目标对象相关联的多条行为数据;目标时间段包括N个时间分片,N为正整数。
目标时间段可以根据实际需要进行设定,该目标时间段包括N个时间分片,N为正整数,每个时间分片的时长相等,例如:目标时间段可设置为一天24小时,N设为24,则每个时间分片为1小时,那么就需要获取1天内与目标对象相关联的行为数据。再如:目标时间段可设为最近30天(以当前系统时间为参考基准),N为30,则每个时间分片则表示一天,那么就需要获取最近30天内与目标对象相关联的行为数据。其中,目标对象是指数据处理对象,以金融消费场景为例,如果需要利用神经网络模型对目标商户的类型进行识别处理,那么目标对象则为目标商户,与该目标对象相关联的行为数据则可以是在该目标商户提供的服务范围(如商户提供的网站、商户提供的实体店等)进行消费而产生的消费行为数据。如果需要利用神经网络模型对用户的类型进行识别处理,那么目标对象则为用户(消费者),与该目标对象相关联的行为数据则可以是该用户所执行的消费行为数据。而如果需要利用神经网络模型对商品的类型进行识别处理,那么目标对象则为被消费的商品,与该目标对象相关联的行为数据是所有针对该商品进行消费而产生的消费行为数据。
S402,根据目标对象的关联数据集分别获取目标对象在每个时间分片内的关联行为特征。
关联行为特征是指融合了多类特征的融合特征,该关联行为特征随着时间的变化而变化,即一个时间分片内的关联行为特征与另一个时间分片内的关联行为特征可能不同。关联行为特征可以包括行为属性特征,行为属性特征用于反映行为数据的属性,此处的属性可包括但不限于行为时间、行为地点、行为方式等属性;以金融消费场景为例,行为属性特征用于反映消费行为属性,包括但不限于:消费时间、消费金额、消费方式(互联网线上或线下消费)等。关联行为特征还可以包括交互群体特征,交互群体是指与目标对象产生交互的群体特征,以金融消费场景为例,设目标对象为目标商户,那么交互群体是指在目标商户进行消费的用户(消费者)群体,而交互群体特征可以是这些消费者群体的年龄、职业、学历等特征。
S403,采用目标对象在每个时间分片内的关联行为特征构建目标对象的N维时序特征序列。
采用T表示目标时间段,同时采用t1表示第一个时间分片,t2表示第二个时间分片,ti表示第i个时间分片(i为正整数,且1≤i≤N),以此类推,tn表示第N个时间分片。采用TS1表示目标对象在第一个时间分片内的关联行为特征,TS2表示目标对象在第二个时间分片内的关联行为特征,TSi表示目标对象在第i个时间分片内的关联行为特征,以此类推,TSn表示目标对象在第N个时间分片内的关联行为特征。按照时间先后顺序拼接组合TS1~TSn,就得到了该目标对象的N维时序特征序列,该N维时序特征序列的各个特征之间具备时间先后顺序,并且该N维时序特征序列用于反映与目标对象相关联的多个行为数据之间的时序关系。
S404,调用时序分类模型对目标对象的N维时序特征序列进行识别得到目标对象的类型。
时序分类模型是对时序关系敏感,能够对时序特征序列进行处理以进行分类的神经网络模型,该时序分类模型可以为RNN、LSTM(Long Short-Term Memory,长短期记忆网络)等等。将目标对象的N维时序特征序列作为时序分类模型的输入数据输入至时序分类模型中,由时序分类模型对该目标对象的N维时序特征序列进行识别处理,可得到目标对象的类型。以目标对象为金融消费场景中的商户为例,目标对象的类型可以按照行业进行分类,包括但不限于:服装商、电子商品经销商、家居服务商等等;也可以按照规模进行分类,包括但不限于:个体户、企业等;还可以按照服务方式进行划分,包括但不限于:互联网商户、实体商户等等。以目标对象为金融消费场景中的用户为例,目标对象的类型可以包括但不限于:电子发烧友、美妆博主、服装搭配师等等。以目标对象为社交网络使用场景中的网站为例,目标对象的类型可以包括但不限于:购物类、游戏类、内容交互类等。进一步,在识别到目标对象的类型之后,可以有利于进行相应的服务扩展,例如:识别到目标用户的类型之后,可以给目标用户推荐一些有针对性的服务信息,如针对电子发烧友推荐一些电子商品,针对美妆博主则可推荐一些美妆类直播平台等等。
本申请实施例通过对与目标对象相关联的多个行为数据之间的时序关系进行挖掘,得到该目标对象的时序特征序列;利用该时序特征序列来对目标对象进行分类;由于目标对象的时序特征序列反映了与目标对象相关的各个行为数据之间的时序关系,基于该时序关系能够得到较为精细化的数据处理过程,提升了分类的准确性。
图5示出了本申请一个示例性实施例提供的一种数据处理方法的流程图;该方法可以是由数据处理设备来执行,该数据处理设备可以是服务器或终端。该方法包括步骤S501-S508:
S501,获取样本集及待训练的神经网络模型,样本集包括多个样本对象及每个样本对象的N维时序特征序列。
待训练的神经网络模型可以包括但不限于RNN、LSTM等。该神经网络模型可以是新构建的可用于进行分类的模型,也可以是历史构建的能够实现分类的模型。传统的样本集通常是一些相互无关联的行为数据,例如:传统方式通常是将海量的行为数据抓取并直接作为训练样本添加至样本集中,这样的样本集缺乏对行为数据之间的时序关系的挖掘。与之不同的是,本申请实施例的样本集中包含的是多个样本对象及每个样本对象的N维时序特征序列,即本申请实施例通过对行为数据之间的时序关系进行挖掘,利用挖掘的具备时序关系的时序特征序列来作为训练样本。样本对象是指模型训练过程中的数据处理对象,以金融消费场景为例,样本对象可以是商户,行为数据与样本对象相关联是指在样本对象所提供的服务范围内产生的消费行为数据。
S502,获取每个样本对象的类型标签。
类型标签用于标注样本对象的类型,同样以金额消费场景为例,设样本对象为商户,若某个样本对象的类型标签为“服装商”,用于表示该商户是售卖服装的商家;再如:若某个样本对象的类型标签为“电子商品经销商”,用于表示该商户是售卖电子商品的商家。在一种实施方式中,对每个样本对象的类型标签的标注过程可以是人工标注的过程,即获取人工对每个样本对象所标注的类型标签。在另一种实施方式中,对每个样本对象的类型标签可以是从其他渠道获得,例如:互联网中已存在针对某些样本对象的类型标签,可直接从互联网中下载样本对象的类型标签。
S503,采用样本集及每个样本对象的类型标签对神经网络模型进行训练得到时序分类模型。
本步骤是对神经网络模型进行训练(即机器学习)的过程,其目的在于使得神经网络模型对时序关系敏感,且能够对时序特征序列进行处理以进行分类。具体的训练过程包括如下步骤s11-s14:
s11,获取神经网络模型的损失函数。
s12,将样本集中的各个样本对象的N维时序特征序列设置为神经网络模型的输入数据,并将每个样本对象的类型标签设置为神经网络模型的训练目标。
s13,按照减小损失函数的值的方向对神经网络模型进行训练。
s14,当损失函数的值小于损失阈值时,获取训练获得的时序分类模型。
s11-s14中,神经网络模型包括输入层、隐藏层和输出层,损失函数Loss是用于反映各层进行数据处理得到的结果与相应的训练目标之间产生的误差。其中,损失阈值可以根据实际需要进行设定,对训练获得的时序分类模型所要求的分类精度越高,损失阈值则设定得越小。将样本集中的各个样本对象的N维时序特征序列输入至神经网络模型,以样本对象的类型标签作为训练目标对神经网络模型进行训练,并判断本次训练得到的损失函数的值是否小于损失阈值,如果不小于,则调整神经网络模型中的参数,并将样本集中的各个样本对象的N维时序特征序列重新输入至调整后的神经网络模型中继续训练,再继续判断本次训练得到的损失函数的值是否小于损失阈值;如此迭代训练,直到损失函数的值小于损失阈值时,停止训练得到时序分类模型。
S504,获取目标对象的关联数据集,目标对象的关联数据集包括在目标时间段内被执行的、且与目标对象相关联的多条行为数据;目标时间段包括N个时间分片,N为正整数。
在一种实施方式中,目标对象的关联数据集被存储于区块链上,并且数据处理设备是区块链系统中的一个节点设备,那么步骤S504中该数据处理设备可以直接从区块链中获取目标对象的关联数据集。
在另一种实施方式中,目标对象的关联数据集被存储于区块链上,并且数据处理设备并不是区块链系统中的节点设备,那么步骤S504具体包括:由数据处理设备向区块链系统中的节点设备发送数据获取请求,数据获取请求携带目标对象的标识,数据获取请求用于使节点设备根据目标对象的标识从区块链中获取目标对象的关联数据集;以及由数据处理设备接收节点设备返回的目标对象的关联数据集。
S505,根据目标对象的关联数据集分别获取目标对象在每个时间分片内的关联行为特征。
采用T表示目标时间段,同时采用t1表示第一个时间分片,t2表示第二个时间分片,ti表示第i个时间分片(i为正整数,且1≤i≤N),以此类推,tn表示第N个时间分片。采用TS1表示目标对象在第一个时间分片内的关联行为特征,TS2表示目标对象在第二个时间分片内的关联行为特征,TSi表示目标对象在第i个时间分片内的关联行为特征,以此类推,TSn表示目标对象在第N个时间分片内的关联行为特征。本申请实施例中,根据目标对象的关联数据集获取目标对象在第i个时间分片内的关联行为特征的过程包括以下步骤s21-s23:
s21,从目标对象的关联数据集中选取行为时间位于第i个时间分片内的行为数据。
s22,统计所选取的行为数据的行为属性特征和交互群体特征。
s23,将统计得到的行为属性特征和交互群体特征进行融合,得到目标对象在第i个时间分片内的关联行为特征。
步骤s21-s23中,以金融消费场景为例,设目标对象为目标商户,目标时间段为一个月(30)天。首先筛选出来多个用户在第i天在目标商户进行消费的行为数据;然后统计所选取的行为数据的行为属性特征FTi=trade-i,trade-i包含消费次数、消费金额、消费时间、消费方式等信息;然后统计针对该目标商户的交互群体特征FCi=cosumer-i,cosumer-i包括消费者的年龄、性别、学历等信息。最后将FTi和FCi进行融合,得到目标对象在第i个时间分片内的关联行为特征TSi=[FTi,FCi]。
S506,获取N个时间分片的先后顺序。
S507,按照N个时间分片的先后顺序将目标对象在每个时间分片内的关联行为特征进行拼接,形成目标对象的N维时序特征序列。
步骤S506-S507中,按照各个时间分片的时间先后顺序拼接组合TS1~TSn,就得到了该目标对象的N维时序特征序列,具体地:首先获取t1对应的TS1,再获取t2对应的TS2,将TS2顺序拼接至TS1之后得到拼接序列;再获取t3对应的TS3,将TS3顺序拼接至TS1与TS2组成的拼接序列之后,以此类推得到N维时序特征序列。该N维时序特征序列的各个特征之间具备时间先后顺序,并且该N维时序特征序列用于反映与目标对象相关联的多个行为数据之间的时序关系。
S508,调用时序分类模型对目标对象的N维时序特征序列进行识别得到目标对象的类型。
在一个实施例中,设样本集包含第一样本对象,第一样本对象为多个样本对象中的任一个;那么本申请实施例中,该第一样本对象的N维时序特征序列通过以下步骤s31-s35被添加至所述样本集中:
s31,获取数据库,数据库包括多个行为数据,每个行为数据与一个样本对象相关联。
以金融消费场景为例,数据库中存储了多个消费行为数据,包括消费行为数据一(记录用户1在目标时间段T内在商户1进行消费产生的数据)、消费行为数据二(记录用户2在目标时间段T内在商户2进行消费产生的数据)、消费行为数据三(记录用户3在目标时间段T内在商户1进行消费产生的数据)以及消费行为数据四(记录用户4在目标时间段T内在商户3进行消费产生的数据),那么样本对象可以包括商户1、商户2、商户3。
s32,从数据库中筛选出第一样本对象的关联数据集,第一样本对象的关联数据集包括在目标时间段内被执行的、且与第一样本对象相关联的多条行为数据。
按照上述例子,设第一样本对象为商户1,那么筛选得到该第一样本对象的关联数据集中共包含两条消费行为数据,分别为消费行为数据一和消费行为数据三。
s33,根据第一样本对象的关联数据集分别获取第一样本对象在每个时间分片内的关联行为特征。
s34,采用第一样本对象在每个时间分片内的关联行为特征构建第一样本对象的N维时序特征序列。
步骤s33-s34中于第一样本对象的N维时序特征序列的获得过程可以参考S505-S507中目标对象的N维时序特征序列的获得过程,在此不赘述。
s35,将第一样本对象的N维时序特征序列添加至样本集中。
本申请实施例通过对与目标对象相关联的多个行为数据之间的时序关系进行挖掘,得到该目标对象的时序特征序列;利用该时序特征序列来对目标对象进行分类;由于目标对象的时序特征序列反映了与目标对象相关的各个行为数据之间的时序关系,基于该时序关系能够得到较为精细化的数据处理过程,提升了分类的准确性。
本申请实施例通过对与目标对象相关联的多个行为数据之间的时序关系进行挖掘,得到该目标对象的时序特征序列;利用该时序特征序列来对目标对象进行分类;由于目标对象的时序特征序列反映了与目标对象相关的各个行为数据之间的时序关系,基于该时序关系能够得到较为精细化的数据处理过程,提升了分类的准确性。
图6示出了本申请一个示例性实施例提供的一种数据处理装置的结构示意图;该数据处理装置可以是运行于数据处理设备(包括服务器或终端)中的一个计算机程序(包括程序代码)。该数据处理装置可以执行图4或图5所示的方法。请参见图6,该数据处理装置可以运行如下单元:
获取单元601,用于获取目标对象的关联数据集,目标对象的关联数据集包括在目标时间段内被执行的、且与目标对象相关联的多条行为数据;目标时间段包括N个时间分片,N为正整数;以及,用于根据目标对象的关联数据集分别获取目标对象在每个时间分片内的关联行为特征;
构建单元602,用于采用目标对象在每个时间分片内的关联行为特征构建目标对象的N维时序特征序列;
处理单元603,用于调用时序分类模型对目标对象的N维时序特征序列进行识别得到目标对象的类型。
在一种实施方式中,关联行为特征包括行为属性特征和交互群体特征;行为数据包括行为时间;获取单元601具体用于:
从目标对象的关联数据集中选取行为时间位于第i个时间分片内的行为数据;
统计所选取的行为数据的行为属性特征和交互群体特征;
将统计得到的行为属性特征和交互群体特征进行融合,得到目标对象在第i个时间分片内的关联行为特征;
其中,i为正整数,且1≤i≤N。
在一种实施方式中,行为属性特征用于表示行为数据的属性,行为数据的属性包括以下至少一种:行为时间、行为地点、行为方式;交互群体特征用于表示与目标对象产生交互的群体的特征;
若目标对象为目标商户;与目标对象相关联的行为数据是指在目标商户的服务范围内产生的消费行为数据;行为数据的属性包括以下至少一种:消费次数、消费金额、支付方式、消费内容;交互群体特征是指在目标商户的服务范围内执行消费行为的用户群体特征,交互群体特征包括以下至少一种:年龄、学历、性别、爱好。
在一种实施方式中,处理单元603还用于:
获取样本集及待训练的神经网络模型,样本集包括多个样本对象及每个样本对象的N维时序特征序列;
获取每个样本对象的类型标签;
采用样本集及每个样本对象的类型标签对神经网络模型进行训练得到时序分类模型。
在一种实施方式中,处理单元603具体用于:
获取神经网络模型的损失函数;
将样本集中的各个样本对象的N维时序特征序列设置为神经网络模型的输入数据,并将每个样本对象的类型标签设置为神经网络模型的训练目标;
按照减小损失函数的值的方向对神经网络模型进行训练;
当损失函数的值小于损失阈值时,获取训练获得的时序分类模型。
在一种实施方式中,样本集包含第一样本对象,第一样本对象为多个样本对象中的任一个;第一样本对象的N维时序特征序列通过以下方式被添加至样本集中:
获取数据库,数据库包括多个行为数据,每个行为数据与一个样本对象相关联;
从数据库中筛选出第一样本对象的关联数据集,第一样本对象的关联数据集包括在目标时间段内被执行的、且与第一样本对象相关联的多条行为数据;
根据第一样本对象的关联数据集分别获取第一样本对象在每个时间分片内的关联行为特征;
采用第一样本对象在每个时间分片内的关联行为特征构建第一样本对象的N维时序特征序列;
将第一样本对象的N维时序特征序列添加至样本集中。
在一种实施方式中,构建单元602具体用于:
获取N个时间分片的先后顺序;
按照N个时间分片的先后顺序将目标对象在每个时间分片内的关联行为特征进行拼接,形成目标对象的N维时序特征序列。
在一种实施方式中,目标对象的关联数据集被存储于区块链上;获取单元601具体用于从区块链中获取目标对象的关联数据集。
在一种实施方式中,目标对象的关联数据集被存储于区块链上;区块链位于区块链系统中,区块链系统中包含节点设备;获取单元601具体用于:
向节点设备发送数据获取请求,数据获取请求携带目标对象的标识,数据获取请求用于使节点设备根据目标对象的标识从区块链中获取目标对象的关联数据集;
接收节点设备返回的目标对象的关联数据集。
在一种实施方式中,每个时间分片的时长相等;时序分类模型包括以下任一种:长短期记忆网络模型、递交神经网络模型、深度神经网络模型。
根据本发明的另一个实施例,图6所示的数据处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本发明的其它实施例中,基于数据处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本发明的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图4或图5中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图6中所示的数据处理装置设备,以及来实现本发明实施例的数据处理方法。计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
本申请实施例通过对与目标对象相关联的多个行为数据之间的时序关系进行挖掘,得到该目标对象的时序特征序列;利用该时序特征序列来对目标对象进行分类;由于目标对象的时序特征序列反映了与目标对象相关的各个行为数据之间的时序关系,基于该时序关系能够得到较为精细化的数据处理过程,提升了分类的准确性。
图7示出了本申请一个示例性实施例提供的一种数据处理设备的结构示意图;该数据处理设备可以是服务器或终端。请参见图7,该数据处理设备至少包括处理器701、输入设备702、输出设备703以及计算机存储介质704。其中,处理器701、输入设备702、输出设备703以及计算机存储介质704可通过总线或者其它方式连接。计算机存储介质704可以存储在数据处理设备的存储器中,计算机存储介质704用于存储计算机程序,计算机程序包括程序指令,处理器701用于执行计算机存储介质704存储的程序指令。处理器701(或称CPU
(Central Processing Unit,中央处理器))是数据处理设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。
本申请实施例还提供了一种计算机存储介质(Memory),计算机存储介质是数据处理设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括数据处理设备中的内置存储介质,当然也可以包括数据处理设备所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了数据处理设备的操作系统。并且,在该存储空间中还存放了适于被处理器701加载并执行的一条或多条的指令,这些指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,该计算机存储介质中存储有一条或多条指令;由处理器701加载并执行计算机存储介质中存放的一条或多条指令,以实现上述数据处理方法实施例中的相应步骤;具体实现中,计算机存储介质中的一条或多条指令由处理器701加载并执行如下步骤:
获取目标对象的关联数据集,目标对象的关联数据集包括在目标时间段内被执行的、且与目标对象相关联的多条行为数据;目标时间段包括N个时间分片,N为正整数;
根据目标对象的关联数据集分别获取目标对象在每个时间分片内的关联行为特征;
采用目标对象在每个时间分片内的关联行为特征构建目标对象的N维时序特征序列;
调用时序分类模型对目标对象的N维时序特征序列进行识别得到目标对象的类型。
在一种实施方式中,关联行为特征包括行为属性特征和交互群体特征;行为数据包括行为时间;计算机存储介质中的一条或多条指令由处理器701加载并执行根据目标对象的关联数据集获取目标对象在第i个时间分片内的关联行为特征的步骤时,具体执行如下步骤:
从目标对象的关联数据集中选取行为时间位于第i个时间分片内的行为数据;
统计所选取的行为数据的行为属性特征和交互群体特征;
将统计得到的行为属性特征和交互群体特征进行融合,得到目标对象在第i个时间分片内的关联行为特征;
其中,i为正整数,且1≤i≤N。
在一种实施方式中,行为属性特征用于表示行为数据的属性,行为数据的属性包括以下至少一种:行为时间、行为地点、行为方式;交互群体特征用于表示与目标对象产生交互的群体的特征;
若目标对象为目标商户;与目标对象相关联的行为数据是指在目标商户的服务范围内产生的消费行为数据;行为数据的属性包括以下至少一种:消费次数、消费金额、支付方式、消费内容;交互群体特征是指在目标商户的服务范围内执行消费行为的用户群体特征,交互群体特征包括以下至少一种:年龄、学历、性别、爱好。
在一种实施方式中,计算机存储介质中的一条或多条指令由处理器701加载并且还执行如下步骤:
获取样本集及待训练的神经网络模型,样本集包括多个样本对象及每个样本对象的N维时序特征序列;
获取每个样本对象的类型标签;
采用样本集及每个样本对象的类型标签对神经网络模型进行训练得到时序分类模型。
在一种实施方式中,计算机存储介质中的一条或多条指令由处理器701加载并执行采用样本集及每个样本对象的类型标签对神经网络模型进行训练得到时序分类模型的步骤时,具体执行如下步骤:
获取神经网络模型的损失函数;
将样本集中的各个样本对象的N维时序特征序列设置为神经网络模型的输入数据,并将每个样本对象的类型标签设置为神经网络模型的训练目标;
按照减小损失函数的值的方向对神经网络模型进行训练;
当损失函数的值小于损失阈值时,获取训练获得的时序分类模型。
在一种实施方式中,样本集包含第一样本对象,第一样本对象为多个样本对象中的任一个;第一样本对象的N维时序特征序列通过以下方式被添加至样本集中:
获取数据库,数据库包括多个行为数据,每个行为数据与一个样本对象相关联;
从数据库中筛选出第一样本对象的关联数据集,第一样本对象的关联数据集包括在目标时间段内被执行的、且与第一样本对象相关联的多条行为数据;
根据第一样本对象的关联数据集分别获取第一样本对象在每个时间分片内的关联行为特征;
采用第一样本对象在每个时间分片内的关联行为特征构建第一样本对象的N维时序特征序列;
将第一样本对象的N维时序特征序列添加至样本集中。
在一种实施方式中,计算机存储介质中的一条或多条指令由处理器701加载并执行采用目标对象在每个时间分片内的关联行为特征构建目标对象的N维时序特征序列的步骤时,具体执行如下步骤:
获取N个时间分片的先后顺序;
按照N个时间分片的先后顺序将目标对象在每个时间分片内的关联行为特征进行拼接,形成目标对象的N维时序特征序列。
在一种实施方式中,目标对象的关联数据集被存储于区块链上;计算机存储介质中的一条或多条指令由处理器701加载并执行获取目标对象的关联数据集的步骤时,具体执行如下步骤:从区块链中获取目标对象的关联数据集。
在一种实施方式中,目标对象的关联数据集被存储于区块链上;区块链位于区块链系统中,区块链系统中包含节点设备;计算机存储介质中的一条或多条指令由处理器701加载并执行从区块链中获取目标对象的关联数据集的步骤时,具体执行如下步骤:
向节点设备发送数据获取请求,数据获取请求携带目标对象的标识,数据获取请求用于使节点设备根据目标对象的标识从区块链中获取目标对象的关联数据集;
接收节点设备返回的目标对象的关联数据集。
在一种实施方式中,每个时间分片的时长相等;
时序分类模型包括以下任一种:长短期记忆网络模型、递交神经网络模型、深度神经网络模型。
本申请实施例通过对与目标对象相关联的多个行为数据之间的时序关系进行挖掘,得到该目标对象的时序特征序列;利用该时序特征序列来对目标对象进行分类;由于目标对象的时序特征序列反映了与目标对象相关的各个行为数据之间的时序关系,基于该时序关系能够得到较为精细化的数据处理过程,提升了分类的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (13)
1.一种数据处理方法,其特征在于,所述方法包括:
获取目标对象的关联数据集,所述目标对象的关联数据集包括在目标时间段内被执行的、且与所述目标对象相关联的多条行为数据;所述目标时间段包括N个时间分片,N为正整数;
根据所述目标对象的关联数据集分别获取所述目标对象在每个时间分片内的关联行为特征;
采用所述目标对象在每个时间分片内的关联行为特征构建所述目标对象的N维时序特征序列;
调用时序分类模型对所述目标对象的N维时序特征序列进行识别得到所述目标对象的类型。
2.如权利要求1所述的方法,其特征在于,所述关联行为特征包括行为属性特征和交互群体特征;所述行为数据包括行为时间;
根据所述目标对象的关联数据集获取所述目标对象在第i个时间分片内的关联行为特征,包括:
从所述目标对象的关联数据集中选取行为时间位于所述第i个时间分片内的行为数据;
统计所选取的行为数据的行为属性特征和交互群体特征;
将统计得到的行为属性特征和交互群体特征进行融合,得到所述目标对象在所述第i个时间分片内的关联行为特征;
其中,i为正整数,且1≤i≤N。
3.如权利要求2所述的方法,其特征在于,所述行为属性特征用于表示行为数据的属性,所述行为数据的属性包括以下至少一种:行为时间、行为地点、行为方式;所述交互群体特征用于表示与所述目标对象产生交互的群体的特征;
若所述目标对象为目标商户;所述与所述目标对象相关联的行为数据是指在所述目标商户的服务范围内产生的消费行为数据;所述行为数据的属性包括以下至少一种:消费次数、消费金额、支付方式、消费内容;所述交互群体特征是指在所述目标商户的服务范围内执行消费行为的用户群体特征,所述交互群体特征包括以下至少一种:年龄、学历、性别、爱好。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取样本集及待训练的神经网络模型,所述样本集包括多个样本对象及每个样本对象的N维时序特征序列;
获取所述每个样本对象的类型标签;
采用所述样本集及所述每个样本对象的类型标签对所述神经网络模型进行训练得到所述时序分类模型。
5.如权利要求4所述的方法,其特征在于,所述采用所述样本集及所述每个样本对象的类型标签对所述神经网络模型进行训练得到所述时序分类模型,包括:
获取所述神经网络模型的损失函数;
将所述样本集中的各个样本对象的N维时序特征序列设置为所述神经网络模型的输入数据,并将所述每个样本对象的类型标签设置为所述神经网络模型的训练目标;
按照减小所述损失函数的值的方向对所述神经网络模型进行训练;
当所述损失函数的值小于损失阈值时,获取训练获得的所述时序分类模型。
6.如权利要求4所述的方法,其特征在于,所述样本集包含第一样本对象,所述第一样本对象为所述多个样本对象中的任一个;所述第一样本对象的N维时序特征序列通过以下方式被添加至所述样本集中:
获取数据库,所述数据库包括多个行为数据,每个行为数据与一个样本对象相关联;
从所述数据库中筛选出所述第一样本对象的关联数据集,所述第一样本对象的关联数据集包括在目标时间段内被执行的、且与所述第一样本对象相关联的多条行为数据;
根据所述第一样本对象的关联数据集分别获取所述第一样本对象在每个时间分片内的关联行为特征;
采用所述第一样本对象在每个时间分片内的关联行为特征构建所述第一样本对象的N维时序特征序列;
将所述第一样本对象的N维时序特征序列添加至所述样本集中。
7.如权利要求1所述的方法,其特征在于,所述采用所述目标对象在每个时间分片内的关联行为特征构建所述目标对象的N维时序特征序列,包括:
获取N个时间分片的先后顺序;
按照所述N个时间分片的先后顺序将所述目标对象在每个时间分片内的关联行为特征进行拼接,形成所述目标对象的N维时序特征序列。
8.如权利要求1所述的方法,其特征在于,所述目标对象的关联数据集被存储于区块链上;所述获取目标对象的关联数据集,包括:从所述区块链中获取所述目标对象的关联数据集。
9.如权利要求1所述的方法,其特征在于,所述目标对象的关联数据集被存储于区块链上;所述区块链位于区块链系统中,所述区块链系统中包含节点设备;所述从所述区块链中获取所述目标对象的关联数据集,包括:
向所述节点设备发送数据获取请求,所述数据获取请求携带所述目标对象的标识,所述数据获取请求用于使所述节点设备根据所述目标对象的标识从所述区块链中获取所述目标对象的关联数据集;
接收所述节点设备返回的所述目标对象的关联数据集。
10.如权利要求1所述的方法,其特征在于,所述每个时间分片的时长相等;
所述时序分类模型包括以下任一种:长短期记忆网络模型、递交神经网络模型、深度神经网络模型。
11.一种数据处理装置,其特征在于,所述装置包括:
获取单元,用于获取目标对象的关联数据集,所述目标对象的关联数据集包括在目标时间段内被执行的、且与所述目标对象相关联的多条行为数据;所述目标时间段包括N个时间分片,N为正整数;以及,用于根据所述目标对象的关联数据集分别获取所述目标对象在每个时间分片内的关联行为特征;
构建单元,用于采用所述目标对象在每个时间分片内的关联行为特征构建所述目标对象的N维时序特征序列;
处理单元,用于调用时序分类模型对所述目标对象的N维时序特征序列进行识别得到所述目标对象的类型。
12.一种数据处理设备,包括输入设备和输出设备,其特征在于,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1-10任一项所述的数据处理方法。
13.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如权利要求1-10任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010099636.1A CN111291125B (zh) | 2020-02-18 | 2020-02-18 | 一种数据处理方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010099636.1A CN111291125B (zh) | 2020-02-18 | 2020-02-18 | 一种数据处理方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111291125A true CN111291125A (zh) | 2020-06-16 |
CN111291125B CN111291125B (zh) | 2024-05-14 |
Family
ID=71028606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010099636.1A Active CN111291125B (zh) | 2020-02-18 | 2020-02-18 | 一种数据处理方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111291125B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860865A (zh) * | 2020-07-23 | 2020-10-30 | 中国工商银行股份有限公司 | 模型构建和分析的方法、装置、电子设备和介质 |
CN113656927A (zh) * | 2021-10-20 | 2021-11-16 | 腾讯科技(深圳)有限公司 | 数据处理方法、相关设备及计算机程序产品 |
CN113689247A (zh) * | 2021-10-27 | 2021-11-23 | 冰联(广州)网络科技有限公司 | 一种基于信息流并联的区块链电子券标记方法及系统 |
CN115114345A (zh) * | 2022-04-02 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 特征表示的提取方法、装置、设备、存储介质及程序产品 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6631842B1 (en) * | 2000-06-07 | 2003-10-14 | Metrologic Instruments, Inc. | Method of and system for producing images of objects using planar laser illumination beams and image detection arrays |
US20050262113A1 (en) * | 2004-05-14 | 2005-11-24 | Geeta Arora | Interpreting remote objects at a local site |
US20110208681A1 (en) * | 2009-07-27 | 2011-08-25 | Sensis Corporation | System and method for correlating past activities, determining hidden relationships and predicting future activities |
US20170364803A1 (en) * | 2016-06-17 | 2017-12-21 | International Business Machines Corporation | Time series forecasting to determine relative causal impact |
CN108304526A (zh) * | 2018-01-25 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及服务器 |
CN109815980A (zh) * | 2018-12-18 | 2019-05-28 | 北京三快在线科技有限公司 | 用户类型的预测方法、装置、电子设备及可读存储介质 |
CN110264277A (zh) * | 2019-06-25 | 2019-09-20 | 杭州网易再顾科技有限公司 | 由计算设备执行的数据处理方法及装置、介质和计算设备 |
US20190325259A1 (en) * | 2018-04-12 | 2019-10-24 | Discovery Communications, Llc | Feature extraction and machine learning for automated metadata analysis |
CN110555714A (zh) * | 2018-06-04 | 2019-12-10 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN110598847A (zh) * | 2019-08-15 | 2019-12-20 | 阿里巴巴集团控股有限公司 | 处理交互序列数据的方法及装置 |
-
2020
- 2020-02-18 CN CN202010099636.1A patent/CN111291125B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6631842B1 (en) * | 2000-06-07 | 2003-10-14 | Metrologic Instruments, Inc. | Method of and system for producing images of objects using planar laser illumination beams and image detection arrays |
US20050262113A1 (en) * | 2004-05-14 | 2005-11-24 | Geeta Arora | Interpreting remote objects at a local site |
US20110208681A1 (en) * | 2009-07-27 | 2011-08-25 | Sensis Corporation | System and method for correlating past activities, determining hidden relationships and predicting future activities |
US20170364803A1 (en) * | 2016-06-17 | 2017-12-21 | International Business Machines Corporation | Time series forecasting to determine relative causal impact |
CN108304526A (zh) * | 2018-01-25 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及服务器 |
US20190325259A1 (en) * | 2018-04-12 | 2019-10-24 | Discovery Communications, Llc | Feature extraction and machine learning for automated metadata analysis |
CN110555714A (zh) * | 2018-06-04 | 2019-12-10 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN109815980A (zh) * | 2018-12-18 | 2019-05-28 | 北京三快在线科技有限公司 | 用户类型的预测方法、装置、电子设备及可读存储介质 |
CN110264277A (zh) * | 2019-06-25 | 2019-09-20 | 杭州网易再顾科技有限公司 | 由计算设备执行的数据处理方法及装置、介质和计算设备 |
CN110598847A (zh) * | 2019-08-15 | 2019-12-20 | 阿里巴巴集团控股有限公司 | 处理交互序列数据的方法及装置 |
Non-Patent Citations (2)
Title |
---|
宋伟;张帆;叶阳东;韩鹏;范明;: "基于SAX方法的时间序列分类问题的多阶段改进研究", 计算机工程与科学, no. 05, 15 May 2016 (2016-05-15) * |
李恒超;林鸿飞;杨亮;徐博;魏晓聪;张绍武;古丽孜热・艾尼外;: "一种用于构建用户画像的二级融合算法框架", 计算机科学, no. 01, 15 January 2018 (2018-01-15) * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860865A (zh) * | 2020-07-23 | 2020-10-30 | 中国工商银行股份有限公司 | 模型构建和分析的方法、装置、电子设备和介质 |
CN113656927A (zh) * | 2021-10-20 | 2021-11-16 | 腾讯科技(深圳)有限公司 | 数据处理方法、相关设备及计算机程序产品 |
CN113656927B (zh) * | 2021-10-20 | 2022-02-11 | 腾讯科技(深圳)有限公司 | 数据处理方法、相关设备及计算机存储介质 |
CN113689247A (zh) * | 2021-10-27 | 2021-11-23 | 冰联(广州)网络科技有限公司 | 一种基于信息流并联的区块链电子券标记方法及系统 |
CN115114345A (zh) * | 2022-04-02 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 特征表示的提取方法、装置、设备、存储介质及程序产品 |
CN115114345B (zh) * | 2022-04-02 | 2024-04-09 | 腾讯科技(深圳)有限公司 | 特征表示的提取方法、装置、设备、存储介质及程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN111291125B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291125B (zh) | 一种数据处理方法及相关设备 | |
CN109783730A (zh) | 产品推荐方法、装置、计算机设备和存储介质 | |
CN110147882B (zh) | 神经网络模型的训练方法、人群扩散方法、装置及设备 | |
US10936950B1 (en) | Processing sequential interaction data | |
CN111538912A (zh) | 内容推荐方法、装置、设备及可读存储介质 | |
US20190303709A1 (en) | Feature information extraction method, apparatus, server cluster, and storage medium | |
CN112559896B (zh) | 信息推荐方法、装置、设备及计算机可读存储介质 | |
CN109690581B (zh) | 用户指导系统及方法 | |
CN111339404A (zh) | 基于人工智能的内容热度预测方法、装置和计算机设备 | |
CN110247974A (zh) | 基于区块链的信息推送方法、装置、计算机和存储介质 | |
CN113239249A (zh) | 一种对象关联识别方法、装置和存储介质 | |
Cheng et al. | Randomly weighted sums of dependent subexponential random variables with applications to risk theory | |
CN114996486A (zh) | 一种数据推荐方法、装置、服务器以及存储介质 | |
CN113011884A (zh) | 账户特征的提取方法、装置、设备及可读存储介质 | |
WO2023024408A1 (zh) | 用户特征向量确定方法、相关设备及介质 | |
CN114579584A (zh) | 数据表处理方法、装置、计算机设备和存储介质 | |
CN110866489B (zh) | 图像识别方法、装置、设备及存储介质 | |
CN113011886B (zh) | 帐号类型的确定方法和装置及电子设备 | |
CN114912030A (zh) | 权益模型训练方法、推荐方法及电子终端和计算机介质 | |
WO2022112539A1 (en) | Collaborative big data analysis framework using load balancing | |
CN112995155A (zh) | 金融异常报文识别方法及装置 | |
CN112861009A (zh) | 基于人工智能的媒体账号推荐方法、装置及电子设备 | |
Voitovych et al. | Detection of Fake Accounts in Social Media | |
CN113850416A (zh) | 广告推广合作对象确定方法和装置 | |
CN115329183A (zh) | 数据处理方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40023571 Country of ref document: HK |
|
GR01 | Patent grant |