CN110263157B

CN110263157B - 一种数据风险预测方法、装置及设备

Info

Publication number: CN110263157B
Application number: CN201910437274.XA
Authority: CN
Inventors: 顾喆旭; 齐翔; 周荣旺
Original assignee: Advanced New Technologies Co Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2023-09-05
Anticipated expiration: 2039-05-24
Also published as: CN110263157A

Abstract

本说明书实施例公开了一种数据风险预测方法、装置及设备。方案包括：获取第一文本特征向量集合，所述第一文本特征向量集合中的元素分别用于表示各个用户账号被多人标记的身份信息特征；根据第一分类标签对所述第一文本特征向量集合进行分类，得到第一分类结果，所述第一分类结果为弱便签数据；对所述第一分类结果进行迭代训练，得到最终风险预测模型，所述最终风险预测模型的预测准确程度满足预设条件；采用所述最终风险预测模型对所述第一文本特征向量集合进行风险预测，得到预测结果，所述预测结果用于表示所述第一文本特征向量集合中各文本特征向量对应的风险程度值。

Description

一种数据风险预测方法、装置及设备

技术领域

本申请涉及计算机技术领域，尤其涉及数据风险预测方法、装置及设备。

背景技术

随着互联网技术的迅速发展，网上交易活动越来越方便，例如：网上购票、网上抢购或者网上预约挂号等等。但是在人们享受互联网带来的便利的同时，黄牛党利用这种便利活跃在各个行业。如商城，其利用商城返利，赠券，购物卡，代金券，代购积分等牟取利益；如火车票，其利用节假期间火车票的供不应求囤积然后高价卖出，严重影响正常购票出现需要；如医院号源。黄牛党抓住医疗挂号领域由于复杂的挂号渠道，极度不平衡的医疗需求而导致部分大医院及专家号源供不应求的缺陷，通过网上破解软件，批量注册等手段大量收集号源然后卖给急需就医的用户，从而从中谋取暴利。因此，实现互联网的黄牛防控具有重要的意义。

现有技术中，传统的黄牛防控方案大多是根据各种渠道获取的介质黑名单进行黄牛防控或者通过用户访问行为的聚集性(例如：采用同一手机号进行多次挂号)的人工设计规则进行防控。但是，现有技术的方法属于事中防控，一般情况下，黑名单库固定，导致召回量有限，同时无法给出账号风险程度以便针对不同风险程度进行不同处理策略。

发明内容

有鉴于此，本申请实施例提供了一种数据风险预测方法、装置及设备，用于克服现有技术中黑名单库固定导致召回量有限，同时无法给出账号风险程度的缺陷。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供的一种数据风险预测方法，包括：

获取第一文本特征向量集合，所述第一文本特征向量集合中的元素分别用于表示各个用户账号被多人标记的身份信息特征；

根据第一分类标签对所述第一文本特征向量集合进行分类，得到第一分类结果，所述第一分类结果为弱便签数据；

对所述第一分类结果进行迭代训练，得到最终风险预测模型，所述最终风险预测模型的预测准确程度满足预设条件；

采用所述最终风险预测模型对所述第一文本特征向量集合进行风险预测，得到预测结果，所述预测结果用于表示所述第一文本特征向量集合中各文本特征向量对应的风险程度值。

本说明书实施例提供的一种数据风险预测装置，包括：

文本特征向量获取模块，用于获取第一文本特征向量集合，所述第一文本特征向量集合中的元素分别用于表示各个用户账号被多人标记的身份信息特征；

分类模块，用于根据第一分类标签对所述第一文本特征向量集合进行分类，得到第一分类结果，所述第一分类结果为弱便签数据；

风险预测模型确定模块，用于对所述第一分类结果进行迭代训练，得到最终风险预测模型，所述最终风险预测模型的预测准确程度满足预设条件；

风险预测模块，用于采用所述最终风险预测模型对所述第一文本特征向量集合进行风险预测，得到预测结果，所述预测结果用于表示所述第一文本特征向量集合中各文本特征向量对应的风险程度值。

本说明书实施例提供的一种数据风险预测设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：通过对第一分类标签对所述第一文本特征向量集合进行分类，得到的第一分类结果进行迭代训练，得到最终风险预测模型，采用训练后的满足条件的风险预测模型对数据进行风险程度预测，根据模型的预测结果自动总结数据中存在的规律，反复对模型进行训练，使预测得到的数据风险程度更加精确，且使召回量可以随训练数据规模的增加而显著提升，克服了现有技术中黑名单库固定导致召回量有限，同时无法给出账号风险程度的缺陷。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本说明书实施例提供的一种数据风险预测方法的流程示意图；

图2为本说明书实施例提供的一种生成黄牛弱标签特征数据的方法流程图；

图3为本说明书实施例提供的一种风险检测模型训练过程流程图；

图4为本说明书实施例提供的对应于图1的一种数据风险预测装置的结构示意图；

图5为本说明书实施例提供的对应于图1的一种数据风险预测设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

现有技术中，在进行“黄牛”防控时，一般是通过介质黑名单来进行防控，或者是通过用户访问行为的聚集性来人工设计规则进行防控，但是现有技术中的方法中，根据介质黑名单进行防控时，由于黑名单库固定，导致防控的手机号或者其他用户名的召回量有限且无法得到账号对应的风险程度，另外，根据用户聚集性的行为来设计的规则，一般属于“事中防控”，即是在“黄牛”行动过程中总结的规则，这种规则容易被黑产人员进行的多次试探操作而找出具体的设计规则，对“黄牛”并起不到防控作用。

为了解决现有技术中的缺陷，本方案给出了以下实施例。

图1为本说明书实施例提供的一种数据风险预测方法的流程示意图。从程序角度而言，流程的执行主体可以为搭载于应用服务器的程序或应用客户端。

如图1所示，该流程可以包括以下步骤：

S101：获取第一文本特征向量集合，所述第一文本特征向量集合中的元素分别用于表示各个用户账号被多人标记的身份信息特征。

第一文本特征向量集合指的是众包标记文本数据的特征向量，第一文本特征向量集合中包括多个元素，每个元素代表代表每个手机号被多人标记的身份信息集合，这里的众包标记文本数据可以指的是不同人对某一联系方式(如：手机号或微博号、邮箱等)身份给出的文本标签，例如：手机号A被20个人标记为“黄牛党”。每个手机号的数据是文本标签的无序集合。例如：第一文本特征向量集合为A＝{手机号1身份信息特征向量集合A₁，手机号2身份信息特征向量集合A₂，…，手机号N身份信息特征向量集合A_N}，其中，集合A₁可以表示为：A₁＝{身份1对应的特征向量，身份2对应的特征向量，身份3对应的特征向量，…，身份n对应的特征向量}。

用户账号可以是可以唯一标识用户身份的信息，例如手机号、身份证号、各注册平台对应的注册号或者邮箱地址等等。

具体的，“黄牛党”的身份标识具体可以是“黄牛党”在各个领域所拥有的能标识身份的相关信息，例如：用户登录名、用户手机号，用户邮箱以及系统内部唯一识别码等等。例如：利用微博账号或其他社交账号进行在春运期间囤积火车票然后高价卖出的相关数据、利用交友平台账号或者购物平台账号宣传超市或者商场的返利赠券，购物卡，代金券，代购积分的相关数据以及利用手机号通过医院网上平台批量注册、大量收集号源，然后卖给急需就医的相关数据等。

下面以手机号的众包标记数据为例，此例子仅用于解释本方案中的一个实施例，并不会对本方案起到任何限定作用。

一个手机号j∈{mobile}的众包标记文本数据可以对应一个身份描述的无序文本集合，可以表示为:

data_j＝{identity_j,1,identity_j,2,...,identity_j,i},j∈{mobile},identity∈{text}

其中，mobile可以表示手机号，text可以表示手机号的身份描述文本，{text}可以表示所有文本标签的集合，identity_j,i可以表示手机号j的第i个身份描述的文本标签，data_j可以表示手机号j的文本标签集合。

在获取手机号的众包文本数据时，获取来源可以是从相关平台所在的苹果移动操作系统(iPhone OS，简称IOS)、安卓系统、全球广域网(World Wide Web，简称Web)，或者H5页面的登录，注册，挂号，查询排班，咨询问诊等行为数据库中获取，也可以是从互联网协议地址(Internet Protocol Address，简称IP地址)库信息，非正常用户手机号码库中获取等等；例如：从医院挂号系统中获取被标记的手机号或者其他能唯一标识用户信息的账号，并获取手机号或账号被标记的具体内容信息。

其中，非正常手机号码库可以是一类在其他平台被标记的有不正常行为的号码，或者出现在一些自动识别验证码的手机号；此部分数据作为用户黄牛风险评估的一个辅助策略，主要可以通过网络爬虫，商业合作，公共接口相关方法获得。

有效数据可以指的是去除与特征提取以及模型训练无关的数据，例如：地名、低频词、停用词等等。

为了得到有效数据，在所述获取第一文本特征向量集合之前，还可以包括；

获取待预测文本数据集合；

对所述待预测文本数据集合中的文本数据进行数据清洗，得到有效文本数据集合；

根据所述有效文本数据集合，采用文本向量化算法，得到所述有效文本数据集合的文本特征向量。

更进一步地，所述对所述待预测文本数据集合中的文本数据进行数据清洗，得到有效文本数据集合，具体可以包括：

将所述待预测文本数据集合中的地名删除，得到删除地名后的第一文本数据集合；

对所述第一文本数据集合采用分词算法进行分词，得到分词后的第二文本数据集合；

对所述第二文本数据集合采用词语过滤方法进行过滤，得到有效文本数据集合，所述词语过滤方法至少包括停用词过滤和低频词过滤。

第一文本特征向量集合中的有效数据可以是对获取的待预测文本数据集合进行清洗后得到的。在具体进行清洗时，去除文本中的地名、进行分词并过滤停用词或低频词。

停用词过滤：根据专家知识总结的停用词字典Stop_Dict(w)，对分词结果中w∈Stop_Dict进行过滤。

在确定文本属性时，一些词语被称为停用词(stop word)，比如“的”、“是”、“这”、“那”等等；功能词又叫结构词或虚词，指没有完整词汇意义，但是有语法意义或语法功能的词，常见的有代词、数词、介词、连词和感叹词在确定文本属性时，将这些停止词以及功能词进行剔除，并去除标点符号。词语过滤针对分词的结果进行，包含停用词过滤和低频词过滤。

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程，这里很多分词算法都可以使用，如基于字符串匹配的分词算法、基于规则的分词算法或者基于神经网络的分词算法等。

低频词可以用于表示日常使用频率很低的词，也可以是其统计频数低于某个阈值的词。

例如：待预测文本数据集合中包括3个手机号的身份信息。手机号1对应的身份信息集合A＝{北京的号贩子，新市区负责隆兴路的挂号黄牛}，首先去除地名，得到的集合A1＝{的号贩子，负责的挂号黄牛}，进行停用词过滤，得到的集合A2＝{号贩子，负责挂号黄牛}，进行分词操作得到集合A3＝{号贩子，负责，挂号，黄牛}。在具体应用过程中，还可以将一些不必要的形容词或者定语去除。

上述方法步骤，对数据进行清洗，保留有效数据，能够减轻服务器的运行压力，提高模型预测效率。

对于词语过滤的结果，可以使用多种文本向量化算法进行最终的文本特征抽取，如词袋模型、词向量模型或者TF-IDF等算法。对于每个手机号j，生成的文本特征向量可以表示为：

feature_j＝{f_j,1,f_j,2，…，f_j,m}

其中，f_j,m可以表示手机号j的第m个特征的取值；feature_j可以表示手机号j的特征向量。

S102：根据第一分类标签对所述第一文本特征向量集合进行分类，得到第一分类结果，所述第一分类结果为弱便签数据。

需要说明的是，第一分类标签可以指的是根据已知的分类规则(比如现有的黑白关键词字典)得到的黑白关键词集合，例如：需要根据第一分类标签将黄牛号与非黄牛号进行区分，此时，第一分类标签可以表示为：

黑关键词[a1、a2、a3、a4、…、an]，

白关键词[b1、b2、b3、b4、…、bn]；

根据黑白关键词词库对第一文本特征向量集合进行分类。

在具体应用场景中，可以用例子进行解释说明，例如：第一文本特征向量集合中包括手机号1的身份信息、手机号2的身份信息和手机号3的身份信息；其中手机号1身份信息为{黄牛、卖号、黄牛中介}，手机号2身份信息为{黄牛号、兜号出售，帮挂专家号}，手机号4身份信息为{医生、护士、前台挂号人员、医院工作人员}。假设已知的分类标签未：黑关键词为[黄牛、卖号]，白关键词为[医生、护士、挂号人员、医院工作人员]，此时根据已有的分类标签，对第一文本特征向量集合进行分类，分类结果是：手机号1的身份信息为疑似黄牛、手机号2的身份信息为疑似黄牛、手机号3的身份信息为非黄牛。这一例子仅用来解释如何根据已知分类标签对第一文本特征向量集合进行分类，在本方案的实际应用中，可以判断其中一个黑关键词在文本中出现的次数是否满足预设值来判断。

分类结果为弱标签文本数据，黄牛检测弱标签特征数据的生成方法可以参加图2中的流程进行实施：

图2为本说明书实施例提供的一种生成黄牛弱标签特征数据的方法流程图。如图2所示：

对获取到的手机号众包标记文本数据进行清洗，具体清洗过程包括从地名库中删除地名，得到删除地名后的第一文本数据集合；对所述第一文本数据集合采用分词算法进行分词，得到分词后的第二文本数据集合；对所述第二文本数据集合采用词语过滤方法进行过滤，得到有效文本数据集合，所述词语过滤方法至少包括停用词过滤和低频词过滤。过滤停用词和低频词时根据停用词库与非常用词库进行过滤。对过滤后的文本数据进行文本数据特征向量提取。并根据黄牛检测的黑白关键词字典人工设计规则进行初始打标，生成众包标记文本数据的弱标签，根据文本特征向量以及弱标签数据生成黄牛检测弱标签特征数据。

黄牛检测任务生成的弱标签特征数据可以表示为：

weak_data_j:手机号j的弱标签特征数据。

用于表示标记规则，可以是根据已知的黑白关键词字典进行打标，根据专家知识总结先验的黄牛检测用黑白关键词字典：

Black_Dict(w),White_Dict(w),w∈{word}

word:关键词

{word}:所有关键词的集合

Black_Dict(w)：黑关键词字典

White_Dict(w)：白关键词字典

根据黑关键词建字典设计多种不同规则，可以将规则输入计算机模型，进行初始打标，如：

存在某个w∈Black_Dict,w在data_j中出现次数大于某个阈值ε，则有否则/> 可以用于表示手机号j的弱标签。

S103：对所述第一分类结果进行迭代训练，得到最终风险预测模型，所述最终风险预测模型的预测准确程度满足预设条件。

迭代可以表示从初始情况按照规律不断求解中间情况，通常可以是为了逼近所需目标或结果。每一次对过程的重复称为一次“迭代”，而每一次迭代得到的结果会作为下一次迭代的初始值。

将分类结果进行迭代训练，目的是训练得到准确率满足预设阈值的风险预测模型。将分类结果进行训练时，可以采用各种分类模型进行训练，例如：SVM(支持向量机，support vector machine，简称SVM)，是一种可以训练的机器学习方法、XGBOOST，在Gradient Boosting(渐变提升)框架下实现机器学习算法等。

所述判断所述预测准确程度是否满足所述预设条件，得到第一判断结果，具体可以包括：

计算所述预测准确程度对应的预测精确率与召回率；

判断所述预测预测精确率与召回率之间的对应关系是否满足预设对应关系，得到第一判断结果。

本方案中提到的准确程度，并不指的是采用分类问题通用的判别指标accurary(准确性)来进行判断，而是同时对模型的recall(召回率)和precision(精确率)进行判断，具体判断所述预测预测精确率与召回率之间的对应关系是否满足预设对应关系。比如当precision＝90％的情况下，recall>25％则迭代终止。

通常我们预测的样本分为正样本和负样本(或者是白样本和黑样本)；精确率(Precision)可以用于表示预测为正的样本中有多少是真正的正样本，可以表示为：Precision＝真正为正的样本/预测为正的样本。召回率(Recall)：样本中的正例有多少被预测正确了可以表示为：Recall＝预测出的正样本/全部正样本。

例如：召回的黑样本一共有10个，训练得到的模型预测得到应召回黑样本仅有3个，此时：

精确率(Precision)＝训练模型预测得到的应召回黑样本/模型预测召回的样本数3/(3+0)＝100％。

召回率(Recall)＝训练模型预测得到的应召回黑样本/实际应召回的黑样本数＝3/(3+7)＝30％。通过上述步骤，通过判断风险预测模型的预测准确程度来对模型进行迭代训练，使召回量可以随训练数据规模的增加而显著提升，克服了现有技术中黑名单库固定导致召回量有限的缺陷。

S104：采用所述最终风险预测模型对所述第一文本特征向量集合进行风险预测，得到预测结果，所述预测结果用于表示所述第一文本特征向量集合中各文本特征向量对应的风险程度值。

将最终训练得到的满足预设条件的模型作为最终风险预测模型，采用该模型与待检测的文本集合进行风险程度预测。

图1中的方法，通过对第一分类标签对所述第一文本特征向量集合进行分类，得到的第一分类结果进行迭代训练，得到最终风险预测模型，采用训练后的满足条件的风险预测模型对数据进行风险程度预测，根据模型的预测结果自动总结数据中存在的规律，反复对模型进行训练，使预测得到的数据风险程度更加精确，属于事前防控且召回量可以随训练数据规模的增加而显著提升，克服了现有技术中黑名单库固定导致召回量有限，同时无法给出账号风险程度的缺陷。

基于图1的方法，本说明书实施例还提供了该方法的一些具体实施方案，下面进行说明。

在上述步骤中，所述对所述第一分类结果进行迭代训练，得到最终风险预测模型，具体可以包括：

确定所述最终风险预测模型的预测准确程度；

判断所述预测准确程度是否满足所述预设条件，得到第一判断结果；

当所述第一判断结果表示所述预测准确程度满足所述预设条件时，得到最终风险预测模型；

否则，对所述最终风险预测模型进行修改，直至所述预测准确程度满足所述预设条件为止。

在具体进行迭代训练时，可以对所有的分类结果进行迭代训练，也可以对分类结果中的一部分进行迭代操作，进行迭代训练的训练集数据可以从分类结果中随机抽取。

在确定最终风险预测模型的过程中，可以对模型的预测准确程度进行判断，当预测准确程度满足预设条件时，证明模型训练完成。准确程度的预设条件可以是提前采用确定的黄牛样本进行模型训练，得到的模型预测精确率与召回率的对应关系值。例如：黄牛样本进行模型训练，得到的模型的预测精确率与召回率的对应关系为预测精确率与召回率值相差60％以上。，例如：精确率为90％，召回率为30％以上就行。将该对应关系作为预设条件。在根据分类结果训练风险预测模型时，以预设条件为对比基准，不满足预设条件的风险预测模型需要重新训练。

图3为本说明书实施例提供的一种风险检测模型训练过程流程图。

如图3所示，根据手机号众包标记文本数据生成黄牛检测的弱标签特征向量，抽取部分训练数据(或者全部训练数据)训练机器学习模型，并采用训练好的模型对全量数据进行预测，得到黄牛判决结果，根据黄牛判决结果对黄牛检测的弱标签数据进行清洗，清洗可以表示对黄牛检测的弱标签数据进行更改，重复训练模型，直至模型的准确程度满足条件为止。

可选的，所述对所述最终风险预测模型进行修改，具体可以包括；

根据所述预测结果对所述第一分类标签进行修改，得到第二分类标签；

根据所述第二分类标签对所述第一文本特征向量集合进行分类，得到第二分类结果；

对所述第二分类结果进行训练，得到训练后的风险预测模型，当所述训练后的风险预测模型的预测准确程度满足所述预设条件时，将训练后的风险预测模型作为最终的风险预测模型。

上述步骤中，所述根据所述预测结果对所述第一分类标签进行修改，得到第二分类标签，具体包括：

根据所述预测结果与已知分类结果确定标记错误的第二文本特征向量集合；

确定所述第二文本特征向量集合中的第二黑关键词集合；

根据所述第二黑关键词集合对所述第一黑关键词集合进行更正，确定第三黑关键词集合，得到包含所述第三黑关键词集合的第二分类标签。

在训练得到的模型预测准确程度不满足预设条件时，需要对模型进行重新训练，在重新训练的过程中，需要对分类标签进行更改，理由是：

当训练得到的模型的预测准确程度不满足预设条件时，可以认为训练集中的数据不够完善或者准确，此时，需要对分类标签进行更改，才能让分类结果更加准确。

模型对第二文本特征向量进行预测，得到预测结果。例如：对于手机号j，其模型预测分数为：score_j。

对模型打分结果中高分段和低分段数据采样，根据已知的分类结果分析出标记错误的样本(可以包括漏召样本和误召样本)，假设高分段对应黑样本(可以表示黄牛样本)，低分段对应白样本(可以表示非黄牛样本)。

高分段手机号：high_score_mobile＝{j|score_j>th_high}

低分段手机号：low_score_mobile＝{j|score_j<th_low}。

标记错误的样本有：

误召数据：False_Positive_Data＝{data_j|score_j＞th_high and label_j＝1}

漏召数据：False_Negtive_Data＝{data_j|score_j＜th_lowand label_j＝0}

th_high：高分段划分阈值

th_low：低分段划分阈值

label_j：手机号j经过人工标注的真实标签。

根据标记错误的样本，样本的身份进行分类(如医务人员、挂号系统技术人员、不同行业黄牛等)，总结黄牛检测相关的白身份关键词和黑身份关键词,分别表示为：

White_Dict’(w),Black_Dict’(w),w∈{word}

在对第二分类标签进行更改时，可以设定多种清洗规则，次数阈值可以单独设定黑关键词对应的次数阈值，也可以同时设定黑关键词与白关键词的次数阈值，满足条件可以满足上述提到的只是一个条件。例如：可以设定为黑关键词出现的次数大于或等于预设阈值：存在某个w∈Black_Dict’(w)在data_j中出现次数大于某个阈值ε₁，则有否则/>

也可以设定为：某个黑关键词出现的次数大于或等于预设阈值且某个白关键词出现的次数小于预设阈值：存在某个w∈Black_Dict’(w)在data_j中出现次数大于或等于某个阈值ε₁且在data_j中出现次数均小于某个阈值ε₂，则有/>否则/>

或者是判定文本中全部分关键词出现的次数总和是否大于或等于预设阈值。

这里判断是否黑样本的方式，可以根据实际情况设定判定条件。

例如：第一分类标签为：黑关键词[黄牛票、非正常售票]，白关键词[官网售票、正规售票]，黑关键词出现次数超过2次，视为疑似黄牛；此时，假设采用第一分类标签对第一文本特征向量集合进行分类得到的第一分类结果为黄牛号{账号A-70分，账号B-95分，账号C-80分，账号D-98分}，非黄牛号为{账号E-60分，账号F-55分，账号G-35分，账号H-10分}，对第一分类结果中的部分结果(例如：账号A-70分，账号B-80分，账号G-35分)进行训练得到的模型为H，通过模型H对待预测的获取到的第一文本特征向量集合进行预测，得到的预测结果为{账号A-75分，账号B-95分，账号C-80分，账号D-35分，账号E-55分，账号F-90分，账号G-85分，账号H-10分}，已知预设高分段(疑似黄牛)为大于等于70分，预设低分段(非黄牛)为小于70分。根据模型H的预测结果，可以发现账号D、账号G与账号F的分数段发生变化，属于标记错误的文本集合，假设已知样本中的账号D为医疗机构人员账号，账号G与账号F为疑似黄牛账号。此时可以认为账号D为误召文本(可以认为是被错误召回的账号)，账号G与账号F为漏召文本(可以认为是被遗漏召回的账号)。根据被标记错误的文本集合{账号D身份信息，账号G身份信息，账号F身份信息}对第一标签进行更改，在具体更改时，可以提取账号D、账号G和账号F的身份信息中出现次数较多的关键词，对第二分类标签进行修改，例如：从被标记错误的文本集合中提取出来的关键词为：黑关键词[票价高，非正规平台]，白关键词[非黄牛售票]，此时对第二分类标签进行更改，可以更改为黑关键词[黄牛票、非正常售票、票价高，非正规平台]，白关键词[官网售票、正规售票、非黄牛售票]，黑关键词出现次数超过2次，视为疑似黄牛。采用第二分类标签对第一文本特征向量集合进行分类，得到第二分类结果；对所述第二分类结果进行训练，得到所述最终风险预测模型。

上述方法中，通过判断训练得到的模型的预测准确程度是否满足预设条件，来确定是否需要对模型进行重新训练，在进行重新训练时，需要根据预测结果对分类标签进行更改，根据每次不同的预测结果对分类标签进行更改，从而更改训练集数据，迭代训练模型，直至模型预测准确程度满足条件为止。这一方法过程能够提高风险预测模型的预测精度，并且能得到各个账号对应的风险程度。

可选的，所述根据第一分类标签对所述第一文本特征向量集合进行分类，得到第一分类结果，具体可以包括：

获取已知的第一分类标签中的第一黑关键词集合以及预设次数阈值；

判断所述第一黑关键词集合中的至少一个黑关键词在所述第一文本特征向量集合对应的至少一个文本中出现的次数是否大于或等于所述预设次数阈值，得到第二判断结果；

当所述第二判断结果表示所述第一分类标签中的至少一个黑关键词在所述第一文本特征向量集合对应的至少一个文本中出现的次数大于或等于预设次数阈值时，将对应的文本特征向量标记为黑样本；

当所述第二判断结果表示所述第一分类标签中的至少一个黑关键词在所述第一文本特征向量集合对应的至少一个文本中出现的次数小于所述预设次数阈值时，将对应的文本特征向量标记为白样本，得到包含黑样本与白样本的第一分类结果。

黑关键词和白关键词可以表示账号某一身份信息的关键词语，例如：“违规售票”可以用于表示黄牛账号，这里的“违规售票”就可以当作黑关键词，“官网挂号”可以用于表示非黄牛账号，这里的“官网挂号”可以当作白关键词。

在具体分类时，为了避免恶意标记导致误召回率大的问题，在进行分类时，需要判断黑关键词在文本中出现的次数是否大于或等于预设次数阈值，如果出现次数大于或等于预设次数，可以将对应账号标记为黑文本。否则，标记为白文本。

需要说明的是，在判断出现次数时，可以判断所有黑关键词在文本中出现的总次数是否大于或等于预设次数阈值，也可以判断一个或多个关键词在文本中出现的次数是否大于或等于预设次数阈值。

例如：第一文本特征向量集合为{手机号1身份信息集合A，手机号2身份信息集合B，手机号3身份信息集合C，手机号4身份信息集合D}，其中A＝{黄牛，票贩子，黄牛，号贩子，排号}，B＝{黄牛，号贩子，医托}，C＝{黄牛，医生，医师，护士，信息科人员}，D＝{挂号科，信息科、护士、号贩子}，已知分类标签为：黑关键词{黄牛、票贩子、号贩子、医托}，白关键词为{医生、护士、医师、挂号科}，为疑似黄牛的预设条件为：黑关键词出现次数大于等2次，根据已知分类标签对第一文本特征向量集合进行分类，身份信息A中黑关键词出现次数为4次＞2次，身份信息B中黑关键词出现次数为3次＞2次，身份信息C中黑关键词出现次数为1次＜2次，身份信息D中黑关键词出现次数为1次＜2次。因此，将身份信息集合A、身份信息集合B标记为黑文本，将身份信息集合C与身份信息集合D标记为白文本。

现有技术的方法中，仅能对是否为疑似黄牛进行判断，并不能具体得到每个账号的风险程度值，也无法根据风险程度值对不同账号进行后续的操作。不能对黄牛号进行有效的针对性防控。

为了克服这一技术缺陷，本说明书实施例提供了以下具体实施方案：

所述得到预测结果之后，还可以包括：

根据所述预测结果确定第一文本特征向量集合中的各个文本特征向量对应的风险等级，所述风险等级与所述风险程度值成正比。

所述根据所述预测结果确定第一文本特征向量集合中的各个文本特征向量对应的风险等级，具体可以包括：

根据所述预测结果确定所述各个文本特征向量对应的任一文本的风险等级为审核等级；

所述确定所述各个文本特征向量对应的任一文本的风险等级为审核等级之后，还可以包括：

向对所述各个文本特征向量对应的任一文本具有发布权限的设备，发送审核消息；所述审核消息，所述审核信息用于指示所述设备在接收到审核人员的确认操作前禁止进行相关操作。

所述根据所述预测结果确定第一文本特征向量集合中的各个文本特征向量对应的风险等级，具体还可以包括：

根据所述预测结果确定所述各个文本特征向量对应的任一文本的风险等级为拦截等级；

所述确定所述各个文本特征向量对应的任一文本的风险等级为拦截等级之后，还可以包括：

向对所述各个文本特征向量对应的任一文本具有发布权限的设备，发送拦截信息；所述拦截信息用于指示所述设备禁止进行相关操作。

在确认账号的风险等级时，具体可以根据账号的风险程度值来进行确定，风险等级与风险程度值成正比，风险程度值越低，风险等级越低，风险程度值越高，风险等级越高，根据账号风险等级的高低对账号进行相应的操作。

具有发布权限的设备可以是各种移动设备或者是服务器等等。相关操作可以是挂号操作，购票操作等

可以将风险等级分为审核等级与拦截等级，审核等级的风险程度值可以低于拦截等级的风险程度值，例如：将风险程度值70-89分作为审核等级(包括70分和89分)，将风险程度值90-100分(包括90分和100分)作为拦截等级。

例如：采用最终风险预测模型对第一文本特征向量集合进行预测，得到的预测结果为{手机号A90分，手机号B75分，手机号C85分，手机号D95分}，此时，确定手机号A与手机号D为拦截等级，手机号B和手机号C为审核等级。

当系统收到手机号A与手机号D的挂号请求时，向手机号A与手机号D所在的具有接收信息或者发布信息权限的设备(例如手机)发送审核信息，手机接收到审核通过的确认信息后，可以进行挂号操作。

当系统收到手机号B与手机号C的挂号请求时，向手机号B与手机号C所在的具有接收信息或者发布信息权限的设备(例如手机)发送拦截信息，禁止所述设备进行相关操作(例如：挂号操作)。

当账号的风险等级不属于拦截或审核等级时，将该账号视为正常账号，在进行相关操作时，能够正常进行。

通过上述的方法步骤，可以根据最终模型预测出的账号风险程度值来划分风险等级，并根据账号的不同风险等级对账号进行不同的处理策略。实现对黄牛号的针对性防控，达到精细化运营。

基于同样的思路，本说明书实施例还提供了上述方法对应的装置。图4为本说明书实施例提供的对应于图1的一种数据风险预测装置的结构示意图。如图4所示，该装置可以包括：

文本特征向量获取模块401，用于获取第一文本特征向量集合，所述第一文本特征向量集合中的元素分别用于表示各个用户账号被多人标记的身份信息特征；

分类模块402，用于根据第一分类标签对所述第一文本特征向量集合进行分类，得到第一分类结果，所述第一分类结果为弱标签数据；

风险预测模型确定模块403，用于对所述第一分类结果进行迭代训练，得到最终风险预测模型所述最终风险预测模型的预测准确程度满足预设条件；

风险预测模块404，用于采用所述最终风险预测模型对所述第一文本特征向量集合进行风险预测，得到预测结果，所述预测结果用于表示所述第一文本特征向量集合中各文本特征向量对应的风险程度值。

可选的，所述风险预测模型确定模块403，具体可以用于：

确定所述最终风险预测模型的预测准确程度；

当所述第一判断结果表示所述预测准确程度小于所述预设阈值时，对所述最终风险预测模型进行修改，直至所述预测准确程度满足所述预设条件为止。

可选的，所述装置，具体可以用于；

可选的，所述装置，还可以包括；

待预测文本数据获取模块，用于获取待预测文本数据集合；

数据清洗模块，用于对所述待预测文本数据集合中的文本数据进行数据清洗，得到有效文本数据集合；

文本向量化模块，用于根据所述有效文本数据集合，采用文本向量化算法，得到所述有效文本数据集合的文本特征向量。

可选的，所述数据清洗模块，具体可以包括：

地名删除单元，用于将所述待预测文本数据集合中的地名删除，得到删除地名后的第一文本数据集合；

分词单元，用于对所述第一文本数据集合采用分词算法进行分词，得到分词后的第二文本数据集合；

过滤单元，用于对所述第二文本数据集合采用词语过滤方法进行过滤，得到有效文本数据集合，所述词语过滤方法至少包括停用词过滤和低频词过滤。

可选的，所述分类模块402，具体可以用于：

可选的，所述装置，具体可以用于：

计算所述预测准确程度对应的预测精确率与召回率；

可选的，所述装置，具体可以用于：

确定所述第二文本特征向量集合中的第二黑关键词集合；

可选的，所述装置，还可以包括：

风险等级确定模块，用于根据所述预测结果确定第一文本特征向量集合中的各个文本特征向量对应的风险等级，所述风险等级与所述风险程度值成正比。

可选的，所述风险等级确定模块，具体可以包括：

审核等级确定单元，用于根据所述预测结果确定所述各个文本特征向量对应的任一文本的风险等级为审核等级；

所述装置，还可以包括：

审核消息发送单元，用于向对所述各个文本特征向量对应的任一文本具有发布权限的设备，发送审核消息；所述审核消息，所述审核信息用于指示所述设备在接收到审核人员的确认操作前禁止进行相关操作。

可选的，所述风险等级确定模块，具体还可以包括：

拦截等级确定单元，用于根据所述预测结果确定所述各个文本特征向量对应的任一文本的风险等级为拦截等级；

所述装置，还可以包括：

拦截信息发送单元，用于向对所述各个文本特征向量对应的任一文本具有发布权限的设备，发送拦截信息；所述拦截信息用于指示所述设备禁止进行相关操作。

基于同样的思路，本说明书实施例还提供了上述方法对应的设备。

图5为本说明书实施例提供的对应于图1的一种数据风险预测设备的结构示意图。如图5所示，设备500可以包括：

至少一个处理器510；以及，

与所述至少一个处理器通信连接的存储器530；其中，

所述存储器530存储有可被所述至少一个处理器510执行的指令520，所述指令被所述至少一个处理器510执行，以使所述至少一个处理器510能够：

根据第一分类标签对所述第一文本特征向量集合进行分类，得到第一分类结果，所述第一分类结果为弱标签特征数据；

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据风险预测方法，包括：

根据第一分类标签对所述第一文本特征向量集合进行分类，得到第一分类结果，所述第一分类结果为弱标签特征数据；所述第一分类标签包括根据已知分类规则得到的黑白关键词集合；

对所述第一分类结果进行迭代训练，得到最终风险预测模型，所述最终风险预测模型的预测准确程度满足预设条件；所述预测准确程度包括预测精确率与召回率；

采用所述最终风险预测模型对所述第一文本特征向量集合进行风险预测，得到预测结果，所述预测结果用于表示所述第一文本特征向量集合中各文本特征向量对应的风险程度值；

所述对所述第一分类结果进行迭代训练，得到最终风险预测模型，具体包括：

2.如权利要求1所述的方法，所述对所述第一分类结果进行迭代训练，得到最终风险预测模型，具体包括：

确定所述最终风险预测模型的预测准确程度；

3.如权利要求2所述的方法，所述判断所述预测准确程度是否满足所述预设条件，得到第一判断结果，具体包括：

计算所述预测准确程度对应的预测精确率与召回率；

判断所述预测精确率与召回率之间的对应关系是否满足预设对应关系，得到第一判断结果。

4.如权利要求1所述的方法，所述获取第一文本特征向量集合之前，还包括；

获取待预测文本数据集合；

5.如权利要求4所述的方法，所述对所述待预测文本数据集合中的文本数据进行数据清洗，得到有效文本数据集合，具体包括：

6.如权利要求1所述的方法，所述根据第一分类标签对所述第一文本特征向量集合进行分类，得到第一分类结果，具体包括：

7.如权利要求6所述的方法，所述根据所述预测结果对所述第一分类标签进行修改，得到第二分类标签，具体包括：

确定所述第二文本特征向量集合中的第二黑关键词集合；

8.如权利要求1所述的方法，所述得到预测结果之后，还包括：

9.如权利要求8所述的方法，所述根据所述预测结果确定第一文本特征向量集合中的各个文本特征向量对应的风险等级，具体包括：

所述确定所述各个文本特征向量对应的任一文本的风险等级为审核等级之后，还包括：

向对所述各个文本特征向量对应的任一文本具有发布权限的设备，发送审核消息；所述审核消息用于指示所述设备在接收到审核人员的确认操作前禁止进行相关操作。

10.如权利要求8所述的方法，所述根据所述预测结果确定第一文本特征向量集合中的各个文本特征向量对应的风险等级，具体还包括：

所述确定所述各个文本特征向量对应的任一文本的风险等级为拦截等级之后，还包括：

11.一种数据风险预测装置，包括：

分类模块，用于根据第一分类标签对所述第一文本特征向量集合进行分类，得到第一分类结果，所述第一分类结果为弱标签数据；所述第一分类标签包括根据已知分类规则得到的黑白关键词集合；

风险预测模型确定模块，用于对所述第一分类结果进行迭代训练，得到最终风险预测模型，所述最终风险预测模型的预测准确程度满足预设条件；所述预测准确程度包括预测精确率与召回率；

风险预测模块，用于采用所述最终风险预测模型对所述第一文本特征向量集合进行风险预测，得到预测结果，所述预测结果用于表示所述第一文本特征向量集合中各文本特征向量对应的风险程度值；

所述风险预测模型确定模块，具体用于根据所述预测结果对所述第一分类标签进行修改，得到第二分类标签；根据所述第二分类标签对所述第一文本特征向量集合进行分类，得到第二分类结果；对所述第二分类结果进行训练，得到训练后的风险预测模型，当所述训练后的风险预测模型的预测准确程度满足所述预设条件时，将训练后的风险预测模型作为最终的风险预测模型。

12.如权利要求11所述的装置，所述风险预测模型确定模块，具体用于：

确定所述最终风险预测模型的预测准确程度；

13.如权利要求12所述的装置，所述装置，具体用于：

计算所述预测准确程度对应的预测精确率与召回率；

14.如权利要求11所述的装置，所述装置，还包括；

待预测文本数据获取模块，用于获取待预测文本数据集合；

15.如权利要求14所述的装置，所述数据清洗模块，具体包括：

16.如权利要求11所述的装置，所述分类模块，具体用于：

17.如权利要求16所述的装置，所述装置，具体用于：

确定所述第二文本特征向量集合中的第二黑关键词集合；

18.如权利要求11所述的装置，所述装置，还包括：

19.如权利要求18所述的装置，所述风险等级确定模块，具体包括：

所述装置，还包括：

审核消息发送单元，用于向对所述各个文本特征向量对应的任一文本具有发布权限的设备，发送审核消息；所述审核消息用于指示所述设备在接收到审核人员的确认操作前禁止进行相关操作。

20.如权利要求18所述的装置，所述风险等级确定模块，具体还包括：

所述装置，还包括：

21.一种数据风险预测设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

根据第一分类标签对所述第一文本特征向量集合进行分类，得到第一分类结果，所述第一分类结果为弱便签数据；所述第一分类标签包括根据已知分类规则得到的黑白关键词集合；