CN106777981B

CN106777981B - 一种行为数据的校验方法及装置

Info

Publication number: CN106777981B
Application number: CN201611168919.7A
Authority: CN
Inventors: 孙向作
Original assignee: TCL Technology Group Co Ltd
Current assignee: TCL Technology Group Co Ltd
Priority date: 2016-12-16
Filing date: 2016-12-16
Publication date: 2020-07-14
Anticipated expiration: 2036-12-16
Also published as: CN106777981A

Abstract

本发明适用于数据处理领域，提供了一种行为数据的校验方法及装置，包括：获取待校验的行为数据集，行为数据集中包含多个行为数据；计算行为数据集对应的马尔科夫模型的参数；根据所述参数，生成行为数据集的第一最佳状态转移序列；在预设的行为序列数据库中，判断是否存在与第一最佳状态转移序列完全相同的序列，若是，则行为数据集为准确数据；若否，则行为数据集为错误数据。在本发明实施例中，第一最佳状态转移序列的生成过程及序列的查找、判断过程均由校验装置来自动完成，并可直接校验批量的行为数据，因此，避免了使用人工的方式来逐一校验用户的行为数据，减少了数据校验过程中的耗时，有效地提高了行为数据的校验效率以及校验的准确率。

Description

一种行为数据的校验方法及装置

技术领域

本发明属于数据处理领域，尤其涉及一种行为数据的校验方法及装置。

背景技术

随着智能终端的广泛普及，人们的生活方式发生了极大的改变，人们对于智能终端的依赖性也越来越强。因而，基于用户具体操作行为的用户行为数据，在数量上也呈现了爆炸式的增长。“大数据”成为当今时代的一种关键技术，主要用于分析和挖掘用户行为数据的潜在规律和应用价值。用户具体的行为信息、行为特征，对服务提供者提供更好的推荐服务至关重要。

但是，由于用户行为数据的数量过于庞大，因而采集得到的数据难免会出错。若基于错误的用户行为数据来分析用户的具体行为特征，则会导致错误的分析结果。因此，校验用户行为数据的准确性成为了数据分析过程中的一个重要环节。目前主要采用人工的方式来逐条校验用户的行为数据，这种校验方法耗时过长、校验效率低，同时也会因为人为的出错而导致校验的准确率下降。

发明内容

本发明实施例的目的在于提供一种行为数据的校验方法及装置，旨在解决现有行为数据的校验方法耗时过长、校验效率低，以及因人为出错而导致校验准确率下降的问题。

本发明实施例是这样实现的，一种行为数据的校验方法，包括：

获取待校验的行为数据集，所述行为数据集中包含多个行为数据；

计算所述行为数据集对应的马尔科夫模型的参数；

根据所述参数，生成所述行为数据集的第一最佳状态转移序列；

在预设的行为序列数据库中，判断是否存在与所述第一最佳状态转移序列完全相同的第二最佳状态转移序列；

若在预设的行为序列数据库中，存在与所述第一最佳状态转移序列完全相同的第二最佳状态转移序列，则所述行为数据集为准确数据；

若在预设的行为序列数据库中，不存在与所述第一最佳状态转移序列完全相同的第二最佳状态转移序列，则所述行为数据集为错误数据。

本发明实施例的另一目的在于提供一种行为数据集的校验装置，包括：

获取单元，用于获取待校验的行为数据集，所述行为数据集中包含多个行为数据；

计算单元，用于计算所述行为数据集对应的马尔科夫模型的参数；

生成单元，用于根据所述参数，生成所述行为数据集的第一最佳状态转移序列；

判断单元，用于在预设的行为序列数据库中，判断是否存在与所述第一最佳状态转移序列完全相同的第二最佳状态转移序列；

在本发明实施例中，通过生成行为数据集的第一最佳状态转移序列，并在预设的行为序列数据库中查找是否存在与该第一最佳状态转移序列相同的序列，由此来从而判断该行为数据集是否准确。由于第一最佳状态转移序列的生成过程及该序列的查找、判断过程均由校验装置来自动完成，因此，避免了使用人工的方式来校验用户的行为数据。此外，本发明实施例能够直接校验包含多条行为数据的数据集的准确性，减少了数据校验过程中的耗时，并且也保证了不会因为人为出错的原因而导致校验的准确率下降，有效地提高了行为数据的校验效率以及校验的准确率。

附图说明

图1是本发明实施例提供的行为数据的校验方法的实现流程图；

图2是本发明实施例提供的行为数据的校验方法S102的具体实现流程图；

图3是本发明实施例提供的行为数据的校验方法S103的具体实现流程图；

图4是本发明另一实施例提供的行为数据的校验方法中建立行为序列数据库的具体实现流程图；

图5是本发明实施例提供的行为数据的校验装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1示出了本发明实施例提供的行为数据的校验方法的实现流程，详述如下：

在S101中，获取待校验的行为数据集，所述行为数据集中包含多个行为数据。

行为数据表示记录有用户具体行为的序列数据，特别地，是指在开机到关机的这段时间内，用户对终端设备的所有操作的有序记录。若用一系列的软件应用以及按键操作的有序组合来表示用户的行为，则用户在开机到关机这段时间内的所有操作行为可以具体抽象为一个行为数据，即一系列的相对时间前后组合起来的软件应用与按键操作的序列。多个行为数据的集合，形成了行为数据集Q＝{Q₁,Q₂,Q₃,...,Q_M}，其中，Q₁,Q₂,Q₃,...,Q_M分别表示一个行为数据。

例如，若该终端设备为智能电视机，则用户在使用该电视机时，在开机后，首先会进入电视机的主界面应用，并通过按键操作来进入其他软件应用的界面。假设用户进入了主界面后，在该主界面应用上停留了一段时间，然后，通过点击按键进入了软件应用a的界面，随后，又进入了HDMI(High Definition Multimedia Interface，高清晰度多媒体接口)信源应用的界面，并观看一段时间后，最后执行电视机的关机操作。则所述用户在开机到关机的这段时间内，其行为数据为：主界面应用，按键操作，软件应用a，按键操作，HDMI信源应用。

在S102中，计算所述行为数据集对应的马尔科夫(Markov)模型的参数。

Markov模型是一个统计工具，该模型中的状态和时间均服从一个离散的Markov随机过程，具体地：

若{X_n,n＝0,1,2,...}是一个离散的随机过程，其状态集为Ω＝{θ₁,θ₂,...,θ_N}，则对于任何k≥1,n₀<n₁<...<n_k-1<m<n，有随机序列在n时刻所处的状态为s_n的概率只与它在m时刻所处的状态s_m有关，而与m时刻之前它所处的状态无关。即：

其中，s₁,s₂,...,s_m,s_n∈Ω＝{θ₁,θ₂,...,θ_N}。

所述{X_n,n＝0,1,2,...}即为马尔科夫模型或马尔科夫链。

作为本发明的一个实施例，图2示出了本发明实施例提供的行为数据的校验方法S102的具体实现流程，详述如下：

在S201中，获取所述马尔科夫模型的状态集合，所述状态集合中包含多个第一状态，每个所述第一状态对应每个所述行为数据中的一个原子操作，每个所述原子操作与当前已安装的软件应用相关。

获取状态集合即为，获取每个行为数据在对应的马尔科夫模型中的M个状态，分别记为R₁,R₂,R₃,...R_M。其中，第i个状态记为

1≤i≤M，R_i与用户操作行为发生时所记录的原子操作一一对应。R_i中的

表示依照时间先后顺序排列的第j(1≤j≤r(i))个软件应用。其中，一个原子操作表示用户在其开关机的时间段内所产生的一系列行为操作。为了与后文中行为训练数据中的状态相区分，在本实施例中，将马尔科夫模型中的各个状态称为第一状态。

例如，假设系统中有A、B和C三个软件应用，则从应用A切换到应用B(A-B)为一个原子操作，从应用A切换到应用B后再切换到应用C(A-B-C)为另一个原子操作。原子操作A-B、A-B-C分别与状态集合中的一个第一状态相互对应。

在S202中，计算每个所述第一状态的初始状态概率。

在本实施例中，采用初始状态概率来描述各个第一状态在初始时刻下出现在马尔科夫模型中的概率，初始状态概率的计算方式为：

在马尔科夫模型的状态集合Ω_ij＝{s₁,s₂,...,s_W}中，统计每个第一状态在行为数据集Q＝{Q₁,Q₂,Q₃,...,Q_M}中出现的次数以及它们之间互相转移的次数。设任意一个第一状态s_i(1≤i≤W)在行为数据集Q中出现的次数为C_i，所有第一状态在行为数据集Q中出现的次数为Q，则该第一状态s_i的初始状态概率为：

每个第一状态的初始状态概率的集合，构成马尔科夫模型对应的初始状态概率矢量π＝(π₁,π₂,...,π_N)。

在S203中，根据每个所述第一状态的初始状态概率，生成所述马尔科夫模型的第一状态转移矩阵。

对于包含有N个第一状态的马尔科夫模型{X_n,n＝0,1,2,...}，称P_ij(n,n+k)＝P(X_n+k＝θ_j|X_n＝θ_i),1≤i,j≤N为马尔科夫模型的k步转移概率；如果P_ij(n,n+k)与n无关，则称该马尔科夫模型为齐次马尔科夫模型，此时P_ij(n,n+k)＝P_ij(k)。

特别地，当k＝1时，P_ij(1)称为一步转移概率，简称转移概率，记为a_ij,0≤a_ij≤1，并称A＝(a_ij)_N×N为状态转移矩阵。

在本实施例中，状态转移矩阵A＝(a_ij)_N×N描述了各个第一状态之间的时序相关性。假设在行为数据集Q中，第一状态s_i(1≤i≤W)向另一个第一状态s_j(1≤j≤W)转移的次数为Z_ij，即序列(s_i,s_j)在行为数据集R中出现的次数Z_ij，并假设在行为数据集R中，第二状态s_i向其余各个第二状态转移的总次数为Y_i，则

由此，可计算出状态转移矩阵中的各个元素，从而生成该行为数据集R的第一状态转移矩阵。

上述S201至S203中获取的状态集合、初始状态概率矢量以及第一状态转移矩阵，均为所述行为数据集对应的马尔科夫(Markov)模型的参数。

在S103中，根据所述参数，生成所述行为数据集的第一最佳状态转移序列。

在上述实施例的基础上，作为本发明的一个实施例，图3示出了本发明实施例提供的行为数据的校验方法S103的具体实现流程，详述如下：

在S301中，获取所述第一状态转移矩阵对应的第一行为序列流，所述第一行为序列流包含多个原子操作。

设该原子操作为

序列长度为

则

为依照时间先后顺序排列的第i个软件应用(1≤i≤r)。

根据每个原子操作，生成第一行为序列流

其中，

是依照时间先后顺序排列的第i个原子操作。第一行为序列流

表示所有序列长度为l的原子操作的集合。

在S302中，计算每一个所述原子操作的出现概率，并将其中所述出现概率最大的一个原子操作输出为所述行为数据集的第一最佳状态转移序列。

在本实施例中，根据初始状态概率矢量π和状态转移矩阵A＝(a_ij)_N×N，计算第一行为序列流

中每个原子操作在正常用户操作情况下的出现概率。假设原子操作

的出现概率为

则有：

上式中，

表示用户行为反应真实的正常用户操作的情况下

的出现概率；假设

对应状态集合

中的

即

那么

其中，π＝(π₁,π₂,...,π_N)为上述马尔科夫模型的初始状态概率矢量。

表示用户行为反应真实的正常用户操作的情况下，从单元操作

到

的转移概率。假设

对应状态集合

中的

即

则

该值可从S203的第一状态转移矩阵中获取。

利用以上方式，可依次计算出第一行为序列流

中每个原子操作出现的概率。

计算出

中每个原子操作的出现概率后，可选出其中出现概率最大的一个原子操作，将其作为第一最佳状态转移序列。

在S104中，在预设的行为序列数据库中，判断是否存在与所述第一最佳状态转移序列完全相同的第二最佳状态转移序列。

行为序列数据库预先设置于终端设备中，每个行为序列数据库中存储有多个第二最佳状态转移序列。终端设备可直接对采集得到的多个行为数据进行分析处理，并在生成包含该多个行为数据的行为数据集的第一最佳状态转移序列后，遍历行为序列数据库中的每个第二最佳状态转移序列，从而判断是否存在与第一最佳状态转移序列相同的一个第二最佳状态转移序列。

在S105中，若是，则所述行为数据集为准确数据；若否，则所述行为数据集为错误数据。

若行为序列数据库中存在与所述第一最佳状态转移序列完全相同的一个第二最佳状态转移序列时，可确定待检测的行为数据集为准确的数据集；若遍历完行为序列数据库中的每个第二最佳状态转移序列后，仍未匹配到与所述第一最佳状态转移序列完全相同的一个第二最佳状态转移序列，则可确定待检测的行为数据集为不正常的行为数据集，即判断为错误数据。

作为本发明的另一个实施例，在上述实施例的基础上，在步骤S104之前，所述方法还包括：建立行为序列数据库。

在本实施例中，将待检测的行为数据的特征与行为序列数据库中的特征进行匹配，从而根据匹配结果来校验该行为数据的准确性。因此，需要建立基于正常用户行为的行为序列数据库，用以描述正常用户行为的特征轮廓，然后才能将待检测的行为数据的特征和正常用户行为的特征轮廓相比较。特别地，该行为数据的特征即为上述的第一最佳状态转移序列，行为序列数据库中的特征轮廓即为第二最佳状态转移序列，且所述第二最佳状态转移序列的数量覆盖了当前系统提供的软件应用中，用户在正常情况下可能执行的所有操作的情况。

具体地，如图4所示，建立行为序列数据库的过程包括：

在S401中，获取基于正常用户行为的行为训练数据集，所述行为训练数据集包含多个行为训练数据，每个所述行为训练数据包含多个原子操作，每个所述原子操作与当前已安装的软件应用相关。

基于正常用户行为的行为训练数据，表示在当前所有的软件应用中，在正常操作状态下，可能出现的操作行为序列。

例如，假设系统中有A、B和C三个软件应用，而应用A为桌面启动器应用，B为记事本应用，C为微博应用，则在正常情况下，不可能出现从应用B直接切换到应用C(B-C)的操作行为，但有可能出现从应用B切换到应用A后再切换到应用C(B-A-C)的操作行为。因此，B-A-C为一个行为训练数据中的原子操作。

在S402中，构建所述行为训练数据集的马尔科夫链，所述马尔科夫链中的每个第二状态对应一个所述原子操作。

在S403中，计算每个所述第二状态的初始状态概率后，生成每个所述行为训练数据的第二状态转移矩阵。

在S404中，获取所述第二状态转移矩阵对应的第二行为序列流，所述第二行为序列流包含多个所述原子操作。

在S405中，计算每一个所述原子操作的出现概率，并将其中所述出现概率最大的一个原子操作输出为所述行为数据集的第二最佳状态转移序列。

在S406中，将每个所述第二最佳状态转移序列存入行为序列数据库中。

在本实施例中，待处理的原始数据为基于正常用户行为的行为训练数据，输出的最佳状态转移序列为第二最佳状态转移序列；而上述各个实施例中处理的原始数据为待检验的行为数据，输出的最佳状态转移序列为第一最佳状态转移序列。除此之外，本实施例中各步骤的具体实现原理与上述实施例中各步骤的实现原理均相同，在此不一一赘述。

作为本发明的又一实施例，所述方法还包括：

当应用列表中已安装的软件应用发生改变时，重新建立所述行为序列数据库，以使所述行为序列数据库中包含的每一个所述第二最佳状态转移序列仅与所述应用列表中的所述软件应用相关。

在系统中，设置关于软件应用的监听器，用于监听当前系统中是否出现了新的软件应用或者卸载了任一软件应用。即，当记录有所有已安装软件的应用列表发生改变时，该监听器能够及时地检测出来。

若该监听器监听到应用列表中具有新增的一个已安装的软件应用或删除了一个已安装的软件应用时，则获取当前应用列表中所有已安装的软件应用的软件包名，再生成对应于每个软件包名的用户行为序列，此时，以得到的多个所述用户行为序列作为一个行为训练数据集，重新建立行为序列数据库。

本实施例适用于用户需要安装第三方软件应用和/或卸载系统中预设的软件应用的状况下，从而避免了在智能终端系统中，根据预设的软件应用而生成的行为序列数据库不适用于当前状态下的软件应用操作。通过重新建立行为序列数据库，保证了用户即使操作了最新安装的软件应用，也能够根据生成的第一最佳状态序列，在更新后的行为序列数据库中查找是否存在与第一最佳状态序列完全相同的第二最佳状态转移序列，由此正确判断出行为数据集是否为准确的数据，提高了校验的准确率。

应理解，在本发明实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

对应于本发明实施例所提供的行为数据的校验方法，图5示出了本发明实施例提供的行为数据的校验装置的结构框图，该装置可以运行于智能终端设备之中，例如智能手机、智能电视机、平板电脑以及笔记本电脑等等。为了便于说明，仅示出了与本实施例相关的部分。

参照图5，该装置包括：

获取单元51，用于获取待校验的行为数据集，所述行为数据集中包含多个行为数据。

计算单元52，用于计算所述行为数据集对应的马尔科夫模型的参数。

生成单元53，用于根据所述参数，生成所述行为数据集的第一最佳状态转移序列。

判断单元54，用于在预设的行为序列数据库中，判断是否存在与所述第一最佳状态转移序列完全相同的第二最佳状态转移序列；

可选地，所述计算单元52包括：

第一获取子单元，用于获取所述马尔科夫模型的状态集合，所述状态集合中包含多个第一状态，每个所述第一状态对应每个所述行为数据中的一个原子操作，每个所述原子操作与当前已安装的软件应用相关。

第一计算子单元，用于计算每个所述第一状态的初始状态概率。

生成子单元，用于根据每个所述第一状态的初始状态概率，生成所述马尔科夫模型的第一状态转移矩阵。

可选地，所述生成单元53包括：

第二获取子单元，用于获取所述第一状态转移矩阵对应的第一行为序列流，所述第一行为序列流包含多个原子操作。

第二计算子单元，用于计算每一个所述原子操作的出现概率，并将其中所述出现概率最大的一个原子操作输出为所述行为数据集的第一最佳状态转移序列。

可选地，所述装置还包括：

建立单元，用于建立行为序列数据库，包括：

第三获取子单元，用于获取基于正常用户行为的行为训练数据集，所述行为训练数据集包含多个行为训练数据，每个所述行为训练数据包含多个原子操作，每个所述原子操作与当前已安装的软件应用相关。

构建子单元，用于构建所述行为训练数据集的马尔科夫链，所述马尔科夫链中的每个第二状态对应一个所述原子操作。

第三计算子单元，用于计算每个所述第二状态的初始状态概率后，生成每个所述行为训练数据的第二状态转移矩阵。

第四获取子单元，用于获取所述第二状态转移矩阵对应的第二行为序列流，所述第二行为序列流包含多个所述原子操作。

第四计算子单元，用于计算每一个所述原子操作的出现概率，并将其中所述出现概率最大的一个原子操作输出为所述行为数据集的第二最佳状态转移序列。

存储子单元，用于将每个所述第二最佳状态转移序列存入行为序列数据库中。

可选地，所述装置还包括：

重建单元，用于当应用列表中已安装的软件应用发生改变时，重新建立所述行为序列数据库，以使所述行为序列数据库中包含的每一个所述第二最佳状态转移序列仅与所述应用列表中的所述软件应用相关。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种行为数据的校验方法，其特征在于，包括：

获取待校验的行为数据集，所述行为数据集中包含多个行为数据；其中，所述行为数据是指在开机到关机这段时间内，用户对终端设备的所有操作的有序记录；

计算所述行为数据集对应的马尔科夫模型的参数；

若在预设的行为序列数据库中，不存在与所述第一最佳状态转移序列完全相同的第二最佳状态转移序列，则所述行为数据集为错误数据；

所述方法还包括：

当通过监听器监听到应用列表中新增了已安装的软件应用或删除了已安装的软件应用时，则获取当前应用列表中所有已安装的软件应用的软件包名，再生成对应于每个软件包名的用户行为序列，将生成的多个用户行为序列作为一个行为训练数据集，重新建立行为序列数据库，以使所述行为序列数据库中包含的每一个所述第二最佳状态转移序列仅与所述应用列表中的所述软件应用相关。

2.如权利要求1所述的方法，其特征在于，所述计算所述行为数据集对应的马尔科夫模型的参数包括：

获取所述马尔科夫模型的状态集合，所述状态集合中包含多个第一状态，每个所述第一状态对应每个所述行为数据中的一个原子操作，每个所述原子操作与当前已安装的软件应用相关；

计算每个所述第一状态的初始状态概率；

根据每个所述第一状态的初始状态概率，生成所述马尔科夫模型的第一状态转移矩阵。

3.如权利要求2所述的方法，其特征在于，所述根据所述参数，生成所述行为数据集的第一最佳状态转移序列包括：

获取所述第一状态转移矩阵对应的第一行为序列流，所述第一行为序列流包含多个原子操作；

计算每一个所述原子操作的出现概率，并将其中所述出现概率最大的一个原子操作输出为所述行为数据集的第一最佳状态转移序列。

4.如权利要求1所述的方法，其特征在于，所述在预设的行为序列数据库中，判断是否存在与所述第一最佳状态转移序列完全相同的第二最佳状态转移序列之前，所述方法还包括：

建立行为序列数据库，包括：

获取基于正常用户行为的行为训练数据集，所述行为训练数据集包含多个行为训练数据，每个所述行为训练数据包含多个原子操作，每个所述原子操作与当前已安装的软件应用相关；

构建所述行为训练数据集的马尔科夫链，所述马尔科夫链中的每个第二状态对应一个所述原子操作；

计算每个所述第二状态的初始状态概率后，生成每个所述行为训练数据的第二状态转移矩阵；

获取所述第二状态转移矩阵对应的第二行为序列流，所述第二行为序列流包含多个所述原子操作；

计算每一个所述原子操作的出现概率，并将其中所述出现概率最大的一个原子操作输出为所述行为数据集的第二最佳状态转移序列；

将每个所述第二最佳状态转移序列存入行为序列数据库中。

5.一种行为数据的校验装置，其特征在于，包括：

获取单元，用于获取待校验的行为数据集，所述行为数据集中包含多个行为数据；其中，所述行为数据是指在开机到关机这段时间内，用户对终端设备的所有操作的有序记录；

重建单元，用于当通过监听器监听到应用列表中新增了已安装的软件应用或删除了已安装的软件应用时，则获取当前应用列表中所有已安装的软件应用的软件包名，再生成对应于每个软件包名的用户行为序列，将生成的多个用户行为序列作为一个行为训练数据集，重新建立行为序列数据库，以使所述行为序列数据库中包含的每一个所述第二最佳状态转移序列仅与所述应用列表中的所述软件应用相关。

6.如权利要求5所述的装置，其特征在于，所述计算单元包括：

第一获取子单元，用于获取所述马尔科夫模型的状态集合，所述状态集合中包含多个第一状态，每个所述第一状态对应每个所述行为数据中的一个原子操作，每个所述原子操作与当前已安装的软件应用相关；

第一计算子单元，用于计算每个所述第一状态的初始状态概率；

7.如权利要求6所述的装置，其特征在于，所述生成单元包括：

第二获取子单元，用于获取所述第一状态转移矩阵对应的第一行为序列流，所述第一行为序列流包含多个原子操作；

8.如权利要求5所述的装置，其特征在于，所述装置还包括：

建立单元，用于建立行为序列数据库，包括：

第三获取子单元，用于获取基于正常用户行为的行为训练数据集，所述行为训练数据集包含多个行为训练数据，每个所述行为训练数据包含多个原子操作，每个所述原子操作与当前已安装的软件应用相关；

构建子单元，用于构建所述行为训练数据集的马尔科夫链，所述马尔科夫链中的每个第二状态对应一个所述原子操作；

第三计算子单元，用于计算每个所述第二状态的初始状态概率后，生成每个所述行为训练数据的第二状态转移矩阵；

第四获取子单元，用于获取所述第二状态转移矩阵对应的第二行为序列流，所述第二行为序列流包含多个所述原子操作；

第四计算子单元，用于计算每一个所述原子操作的出现概率，并将其中所述出现概率最大的一个原子操作输出为所述行为数据集的第二最佳状态转移序列；