CN108763209A

CN108763209A - 一种特征提取和风险识别的方法、装置及设备

Info

Publication number: CN108763209A
Application number: CN201810495407.4A
Authority: CN
Inventors: 何栋栋
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-05-22
Filing date: 2018-05-22
Publication date: 2018-11-06
Anticipated expiration: 2038-05-22
Also published as: CN108763209B

Abstract

本说明书公开一种特征提取和风险识别的方法、装置及设备，该方法中可以采集若干已识别出存在风险的各风险文本，确定发送这些风险文本的各用户，并从确定出的各用户中选取满足预设条件的若干用户作为风险用户，针对每个风险用户，根据该风险用户所发送的各风险文本，确定该风险用户对应的风险特征信息，该风险特征信息用于表征该风险用户发送的风险文本的文本特征，而后，可将确定出的各风险用户对应的风险特征信息保存。

Description

一种特征提取和风险识别的方法、装置及设备

技术领域

本说明书涉及计算机技术领域，尤其涉及一种特征提取和风险识别的方法、装置及设备。

背景技术

当前，用户可以通过发帖、评论等方式，与他人进行互动，从而极大的增进了各用户之间的交流。

为了保障各用户能够通过网络进行更好的交流，需要对用户发表的文本进行风险识别，并在识别出风险文本后，将这些风险文本屏蔽，以营造良好的网络交流氛围。在现有技术中，通常是通过预设的风险词库中保存的各风险词语识别出风险文本的。然而，在实际应用中，用户为了防止自己发表的风险文本被识别出来，会将一些可能会被识别出来的风险词语进行变更，以减少风险文本中包含的可被识别出的风险词语的数量，从而降低了风险文本可被识别出的可能性。

基于现有技术，需要更为有效、准确的风险识别方式。

发明内容

本说明书提供一种特征提取的方法，用以解决现有技术无法有效识别出风险文本的问题。

本说明书提供了一种特征提取的方法，包括：

采集若干已识别出存在风险的各风险文本；

确定发送所述各风险文本的各用户，并从所述各用户中选取满足预设条件的若干用户作为风险用户；

针对每个风险用户，根据该风险用户所发送的各风险文本，确定该风险用户对应的风险特征信息，所述风险特征信息用于表征由该风险用户发送的风险文本的文本特征；

将确定出的各风险用户对应的风险特征信息进行保存。

本说明书提供一种特征提取的装置，用以解决现有技术无法有效识别出风险文本的问题。

本说明书提供了一种特征提取的装置，包括：

采集模块，采集若干已识别出存在风险的各风险文本；

选取模块，确定发送所述各风险文本的各用户，并从所述各用户中选取满足预设条件的若干用户作为风险用户；

确定模块，针对每个风险用户，根据该风险用户所发送的各风险文本，确定该风险用户对应的风险特征信息，所述风险特征信息用于表征由该风险用户发送的风险文本的文本特征；

保存模块，将确定出的各风险用户对应的风险特征信息进行保存。

本说明书提供一种特征提取的设备，用以解决现有技术无法有效识别出风险文本的问题。

本说明书提供了一种特征提取的设备，包括一个或多个存储器以及处理器，所述存储器存储程序，并且被配置成由所述一个或多个处理器执行以下步骤：

采集若干已识别出存在风险的各风险文本；

将确定出的各风险用户对应的风险特征信息进行保存。

本说明书提供一种风险识别的方法，用以解决现有技术的风险识别方式无法有效识别出风险文本的问题。

本说明书提供了一种风险识别的方法，包括：

获取待识别文本；

根据预先保存的各风险特征信息，对所述待识别文本进行风险识别，所述风险特征信息为上述特征提取的方法中所述的风险特征信息；

当确定所述待识别文本与所述各风险特征信息中的至少一个风险特征信息相匹配时，则确定所述待识别文本为风险文本。

本说明书提供一种风险识别的装置，用以解决现有技术的风险识别方式无法有效识别出风险文本的问题。

本说明书提供了一种风险识别的装置，包括：

获取模块，获取待识别文本；

识别模块，根据预先保存的各风险特征信息，对所述待识别文本进行风险识别，所述风险特征信息为上述特征提取的装置中所述的风险特征信息；

确定模块，当确定所述待识别文本与所述各风险特征信息中的至少一个风险特征信息相匹配时，则确定所述待识别文本为风险文本。

本说明书提供一种风险识别的设备，用以解决现有技术的风险识别方式无法有效识别出风险文本的问题。

本说明书提供了一种风险识别的设备，包括一个或多个存储器以及处理器，所述存储器存储程序，并且被配置成由所述一个或多个处理器执行以下步骤：

获取待识别文本；

根据预先保存的各风险特征信息，对所述待识别文本进行风险识别，所述风险特征信息为上述特征提取的设备中所述的风险特征信息；

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书的一个或多个实施例中，可以采集若干已识别出存在风险的各风险文本，确定发送这些风险文本的各用户，并从确定出的各用户中选取满足预设条件的若干用户作为风险用户，针对每个风险用户，根据该风险用户所发送的各风险文本，确定该风险用户对应的风险特征信息，该风险特征信息用于表征该风险用户发送的风险文本的文本特征，而后，可将确定出的各风险用户对应的风险特征信息保存。

从上述方法中可以看出，由于风险特征信息能够有效的表征出风险用户所发送的风险文本的文本特征，即使风险用户通过规避使用能够被识别出的风险词语而变更风险文本中的词语，但其所发送的风险文本的文本特征通常也不会发生改变。因此，后续可以通过确定出的各风险特征信息，可以有效的识别出用户发送的待识别文本是否为风险文本，从而有效的提高了风险文本的识别准确率。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书提供的特征提取的过程示意图；

图2为本说明书提供的确定原始特征信息的示意图；

图3为本说明书提供的将两个原始特征信息中的字符进行交换得到风险特征信息的示意图；

图4为本说明书提供的风险识别的过程示意图；

图5为本说明书提供的一种特征提取的装置示意图；

图6为本说明书提供的一种风险识别的装置示意图；

图7为本说明书提供的特征提取的设备示意图；

图8为本说明书提供的风险识别的设备示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

图1为本说明书提供的特征提取的过程示意图，具体包括以下步骤：

S100：采集若干已识别出存在风险的各风险文本。

在本说明书中，各风险特征信息可以通过预先采集到的风险文本而确定出的。其中，这里提到的风险文本可以是指已识别出存在风险的各风险文本。其中，风险文本可以是通过人工识别的方式识别出的，也可以是机器通过预设的识别模型识别出的。

需要说明的是，采集风险文本的执行主体可以是服务器，也可以是电脑等终端设备，为了方便对本说明书提供的特征提取进行描述，下面将仅以服务器为执行主体，对特征提取各个过程进行说明。同理，后续风险识别的执行主体可以是服务器。

S102：确定发送所述各风险文本的各用户，并从所述各用户中选取满足预设条件的若干用户作为风险用户。

在采集到的各风险文本后，服务器可以确定出发送这些风险文本的各用户，并从这些用户中选取满足预设条件的若干用户作为风险用户。具体的，服务器可以针对确定出的每个用户，确定出由该用户所发送的风险文本的数量，进而将发送的风险文本的数量满足预设数量的用户作为风险用户。

当然，选取风险用户的方式还可以有很多。例如，服务器可以针对确定出的每个用户，根据该用户所发送的各风险文本的各时间，确定出该用户发送风险文本的频率，进而在确定出各用户发送风险文本的频率后，可以将发送风险文本的频率满足预先频率的用户作为风险用户。

再例如，服务器可以针对确定出的每个用户，根据该用户发送的每个风险文本的浏览次数，统计出该用户发送的各风险文本被浏览的总次数，进而在分别统计出每个用户发送的风险文本被浏览的总次数后，可以将总次数不低于预设次数的用户作为风险用户。其他选取风险用户的方式在此就不一一举例说明了。

S104：针对每个风险用户，根据该风险用户所发送的各风险文本，确定该风险用户对应的风险特征信息，所述风险特征信息用于表征由该风险用户发送的风险文本的文本特征。

S106：将确定出的各风险用户对应的风险特征信息进行保存。

服务器选取出各风险用户后，可以从这些风险用户所发送的各风险文本中提取出各风险用户所对应的各风险特征信息，其中，每个风险用户所对应的风险特征信息能够表征出该风险用户所发送的风险文本的文本特征。通常来说，风险用户为了防止自己发表的风险文本被识别出来而规避使用能够被识别出的风险词语，但是，基于个人自身的语言习惯以及个人的需求，该风险用户发表的各风险文本所体现出的文本特征通常是不会发生改变的，或是变更的周期往往较长。

在本说明书中，服务器可以针对每个风险用户，从该风险用户对应的各风险文本中提取出该风险用户对应的原始特征信息，进而将提取出的原始特征信息直接作为该风险用户对应的风险特征信息。其中，这里提到的原始特征信息能够从本质上表征出该风险用户所发送的风险文本的文本特征。当然，服务器也可以提取出的原始特征信息中包含的字符进行变更处理，并将处理后的信息作为得到的该风险用户对应的风险特征信息。

具体的，在确定一个风险用户对应的原始特征信息的过程中，服务器可以针对该风险用户所发送的每个风险文本，通过预设的常用字符库，从该风险文本中提取各常用字符，得到处理后的风险文本。而后，服务器可以统计得到的各处理后的风险文本中各字符的出现次数，并可将各字符按照确定出的各字符的出现次数由大到小进行排序，进而将设定排位之前的各字符所组成的字符串作为该风险用户对应的原始特征信息。

风险文本中包含的各字符可以分为两类，一类属于常用字符，这些常用字符对于体现风险文本中的实际内容没有多少作用，主要用于连接风险文本中各词语、构成风险文本中句子成分等。换句话说，这些常用字符通常不能很好的用于表征出文本的本质特征。在本说明书中，常用字符包括：介词、标点符号、表情符号等常规字符。

另一类属于关键字符，这些关键字符能够有效的体现出文本中的实际内容，也就是说，这些关键字符能够有效的用于判断文本中是否携带风险信息，表征出文本的本质特征。

由于常用字符并不能很好的表征出文本的本质特征，因此，这里可以将风险文本中的常用字符作为“噪声”进行剔除，得到处理后的风险文本，该处理后的风险文本包含的字符大部分都属于能够有效判断该文本是否存在风险，以及表征文本的本质特征的关键字符。

在剔除该风险文本中常用字符的过程中，服务器可以通过预设的常用字符库，将该风险文本中存在与该常用字符库的字符进行剔除，从而得到的处理后的风险文本。服务器也可以通过其他的方式，剔除该风险文本中的常用字符，例如，服务器可以将该风险文本中词频-逆向文件频率(term frequency-inverse document frequency，TF-IDF)较低的字符进行剔除，从而得到处理后的风险文本。其中，TF-IDF较高的字符通常表明该字符能够很好的将该风险文本与其他文本区分开来，TF-IDF较低的字符则表明该字符将该风险文本与其他文本区分开来的能力较低。一般来说，常用字符通常不能很好的用于文本的区分，因此，这里提到的TF-IDF较低的字符即可以指常用字符。

再例如，服务器可以将该风险文本输入到预设的常用字符剔除模型中，从而得到处理后的风险文本。该常用字符剔除模型可以是预先训练出的，该常用字符剔除模型中所采用的机器学习算法可以是常规算法，在此并不作进一步的限定。当然，服务器剔除该风险文本中常用字符的方式还可以有很多，在此就不一一举例说明了。

在得到各处理后的风险文本后，服务器可以将各处理后的风险文本中各字符的出现次数进行统计，并将各字符按照出现次数由大到小进行排序。此举的目的在于，为了确定出能够有效表征出该风险用户所发送的风险文本的文本特征，需要从各处理后的风险文本包含的诸多字符中，确定出哪些字符能够有效的体现出该风险用户所发送的风险文本的文本特征，因此，可以将各字符在各处理后的风险文本中的出现次数进行统计，进而选取出现次数较高的若干字符。

其中，服务器可以将设定排位之前的各字符所组成的字符串作为该风险用户对应的原始特征信息。换句话说，服务器可以通过统计各字符在各处理后的风险文本中的出现次数，确定出现次数较高的设定数量(该设定数量可以根据实际需求而定)的字符，进而将确定出的设定数量的字符所组成的字符串作为该风险用户对应的原始特征信息，如图2所示。

图2为本说明书提供的确定原始特征信息的示意图。

图2为一个风险用户A所发表的5个风险文本，该风险用户A所发表的风险文本主要是涉及彩票广告的。服务器在确定该风险用户A对应的原始特征信息时，可以分别针对这5个风险文本，进行常用字符剔除，得到5个处理后的风险文本，并对这5个处理后的风险文本中各字符的出现次数进行统计，进而将各字符按照出现次数由大到小进行排序，以确定出现次数排在前四(在该示例中，排序位于第五的位置即为上述提到的设定排位)的字符。

其中，服务器确定出“城”、“老”、“彩”、“信”这四个字符的出现次数排在前四，则服务器可以将“城老彩信”这一字符串作为确定出的该风险用户A对应的原始特征信息。

需要说明的是，用于组成原始特征信息的各字符在该原始特征信息的排列顺序可以是随机的；也可以按照这些字符出现次数的大小，将这些字符进行排序；也可以是按照这些字符的美国标准信息交换代码(American Standard Code for InformationInterchange，ASCII)的大小，将这些字符进行排序；抑或是将这些字符按照笔划数的大小进行排序。当然，也可以通过其他的方式，来对这些字符进行排序，在此就不详细举例说明了。值得一提的是，服务器确定出组成原始特征信息的各字符后，无论这些字符怎么排序，其不同排序结果所得到的各字符串均可以视作同一原始特征信息。

在本说明书中，服务器可以将确定出的原始特征信息作为该风险用户对应的风险特征信息，如，上述示例中的“城老彩信”即可以作为该原始风险用户A对应的风险特征信息，该风险特征信息“城老彩信”能够有效的表征出该原始风险用户A所发送的各风险文本的文本特征。

当然，服务器也可以将确定出的原始特征信息中包含的字符进行变更处理，并将处理后得到的信息作为风险特征信息。具体的，在实际应用中，风险用户所发表的风险文本的文本特征可能会随着时间的推移而发生变化，为了有效应对这种变化对风险文本识别所造成的影响，在本说明书中，服务器可以从确定出的各原始特征信息中选取若原始本特征信息，并可以针对这些若干原始特征信息中的任意两个原始特征信息，对这两个原始特征信息中的字符进行交换，以得到两个风险特征信息。

其中，这里可以将任意的两个原始特征信息分别称之为第一原始特征信息和第二原始特征信息，服务器可以将第一原始特征信息中的N个字符与第二原始特征信息中得到M个字符进行交换，得到两个风险特征信息。N可以是不小于1，且小于该第一原始特征信息中包含的字符数的正整数，M可以是不小于1，且小于该第二原始特征信息中包含的字符数的正整数，如图3所示。

图3为本说明书提供的将两个原始特征信息中的字符进行交换得到风险特征信息的示意图。

假设，在选取出的各原始特征信息中，服务器可以将风险用户B对应的原始特征信息：“封宝加付”和风险用户C对应的原始特征信息：“需微做商”中的字符进行交换。其中，服务器可以将原始特征信息：“封宝加付”中的字符“加”和文本特征信息：“需微做商”中的字符“商”进行交换，进而得到“封宝商付”以及“需微做加”这两个风险特征信息。

从上述示例中可以看出，N和M数值上可以相等。当然，N和M的数值也可以不等，相应的，将第一原始特征信息中的N个字符与第二原始特征信息中的M个字符进行交换后得到的两个风险特征信息在字符数上也将是不等的。

在本说明书中，第一原始特征信息中的N个字符和第二原始特征信息中的M个字符可以是服务器随机选取出的；也可以是按照出现次数的大小选取出的(如，服务器可以将第一原始特征信息中出现次数较少的N个字符选取出来，第二原始特征信息同理也是)；抑或是按照各字符的笔划数的大小选取出的。当然，具体选取哪些字符进行交换所基于的选取方式还可以有很多，在此就不一一举例说明了。

服务器也可以针对选取出的每个原始特征信息，从除选取出的各原始特征信息以外的其他原始特征信息中选取至少一个字符，进而将该原始特征信息中的字符通过选取出的至少一个字符进行替换，得到风险特征信息。其中，选取出的至少一个字符可以出自同一其他原始特征信息，也可以出自不同的其他原始特征信息。

例如，对于服务器选取出的原始特征信息：“城老彩信”，服务器可以通过从其他原始特征信息中选取出的“加微”这两个字符，对“城老彩信”中的“信”进行替换，从而得到风险特征信息：“城老彩加微”。其中，选取原始特征信息中用于被替换的字符的选取方式可以有很多，如，随机选取、按照笔划数进行选取等，在此就不详细举例说明了。

服务器可以将确定出的各风险特征信息进行保存，以在后续过程中，通过这些风险特征信息，对待识别文本进行风险识别。在这些风险特征信息中，一部分可以是服务器通过各原始特征信息直接确定出的，即，服务器可以将各原始特征信息直接作为各风险特征信息。另一部分可以是服务器将各原始特征信息中包含的字符进行变更处理后得到的。

在本说明书中，服务器从各原始特征信息中选取若干原始特征信息的方式可以有很多，例如，服务器可以通过随机选取的方式，从各原始特征信息中选取出若干原始特征信息；再例如，服务器可以将各风险用户按照各自发送的风险文本的数量进行排序，并将设定排序之前的各风险用户所对应的原始特征信息进行选取。再例如，服务器可以分别为各风险用户随机分配各随机数，并可以将随机数不超过设定数值的风险用户对应的原始特征信息进行选取。除此之外，服务器选取原始特征信息的方式还可以有很多，在此就不详细举例说明了。当然，服务器也可以将所有风险用户对应的原始特征信息进行选取，以通过对各原始特征信息中的字符进行变更处理，得到各风险特征信息。

在本说明书中，服务器确定出的各风险特征信息是对应各风险用户的，这些风险特征信息能够有效的表征出这些风险用户所发送的风险文本的文本特征。然而在实际应用中，不同风险用户所发送的相同风险类型的风险文本在文本特征上往往相似，如，不同风险用户针对同一商品所发送的广告文本在内容上、用语上的相似性很高。因此，可以基于确定出的各风险特征信息，对后续各用户发表的待识别文本进行风险识别，具体过程如图4所示。

图4为本说明书提供的风险识别的过程示意图，具体包括以下步骤：

S400：获取待识别文本。

在本说明书中，服务器可以获取需要进行风险识别的待识别文本，其中，该待识别文本可以是指用户发表的评论、留言等信息。具体的，服务器可以将网络社区、各网站的评论区、贴吧等场所中已经发表的文本作为待识别文本进行获取，并在后续过程中对其进行风险识别。当然，也可以将用户正要发表的文本作为待识别文本进行风险识别。其中，当用户需要在网络社区、各网站的评论区、贴吧等场所发表言论时，服务器可以获取到该用户在终端中输入的所要发表的文本，并将该文本作为待识别文本进行风险识别。当确定该待识别文本为风险文本时，则可拒绝发表该文本，而当确定该待识别文本为安全文本时，则可将该文本进行发表。

S402：根据预先保存的各风险特征信息，对所述待识别文本进行风险识别，所述风险特征信息为上述特征提取的方法中所述的风险特征信息。

S404：当确定所述待识别文本与所述各风险特征信息中的至少一个风险特征信息相匹配时，则确定所述待识别文本为风险文本。

服务器在获取到待识别文本后，可以通过确定出的各风险特征信息，对该待识别文本进行风险识别。其中，这里提到的风险特征信息即为上述确定出的能够有效的表征出风险用户所发送的风险文本的文本特征。所以，服务器可以基于确定出的各风险特征信息，以文本特征的角度对待识别文本进行风险识别。这样一来，即使风险用户为规避使用能够被识别出的风险词语而变更所要发表的风险文本中的用语，服务器也可以通过能够表征文本特征的风险特征信息识别出该风险文本，从而有效的提高了风险文本的识别准确率。

具体的，当服务器确定该待识别文本与各风险特征信息中的至少一个风险特征信息相匹配时，则可以确定该待识别文本为风险文本。其中，服务器可以针对每个风险特征信息，判断该风险特征信息是否与该待识别文本相匹配。当确定该风险特征信息中不低于设定数量的字符出现在该待识别文本中时，则可确定该待识别文本与该风险特征信息相匹配。

例如，假设服务器在获取到待识别文本后，确定出一个风险特征信息中包含的3个字符(即上述提到的设定数量的字符)存在于该待识别文本中，则可以确定出该待识别文本与该风险特征信息相匹配，进而确定出该待识别文本为风险文本。

从上述方法中可以看出，用于对待识别文本进行风险识别的风险特征信息能够有效的表征出风险用户所发送的风险文本的文本特征，即使风险用户通过规避使用能够被识别出的风险词语而变更风险文本中的词语，但其所发送的风险文本的文本特征通常也不会发生改变。因此，通过风险特征信息能够有效的识别出风险用户为规避使用能够被识别出的风险词语而变更用语的风险文本，从而有效的提高了风险文本的识别准确率。

在本说明书中，服务器可以定期获取一部分用户所发表的风险文本，来确定这部分用户所对应的风险特征信息，以进一步丰富保存的各风险特征信息的风险覆盖范围，从而进一步提高风险文本的识别准确率。

以上为本说明书的一个或多个实施例提供的特征提取和风险识别的方法，基于同样的思路，本说明书还提供了相应的特征提取和风险识别的装置，如图5、6所示。

图5为本说明书提供的一种特征提取的装置示意图，具体包括：

采集模块501，采集若干已识别出存在风险的各风险文本；

选取模块502，确定发送所述各风险文本的各用户，并从所述各用户中选取满足预设条件的若干用户作为风险用户；

确定模块503，针对每个风险用户，根据该风险用户所发送的各风险文本，确定该风险用户对应的风险特征信息，所述风险特征信息用于表征由该风险用户发送的风险文本的文本特征；

保存模块504，将确定出的各风险用户对应的风险特征信息进行保存。

所述选取模块502，针对确定出的发送所述各风险文本的每个用户，确定由该用户所发送的风险文本的数量；将发送的风险文本的数量满足预设数量的用户作为风险用户。

所述确定模块503，针对每个风险用户，从该风险用户发送的各风险文本中提取出该风险用户对应的原始特征信息；将提取出的各风险用户对应的各原始特征信息中包含的字符进行变更处理，得到各风险用户对应的各风险特征信息。

所述确定模块503，针对该风险用户发送的每个风险文本，通过预设的常用字符库，从该风险文本中剔除各常用字符，得到处理后的风险文本；统计该风险用户对应的各处理后的风险文本中各字符的出现次数；将所述各处理后的风险文本中的各字符按照确定出的各字符的出现次数由大到小进行排序，并将设定排位之前的各字符所组成的字符串作为该风险用户对应的原始特征信息。

所述确定模块503，从确定出的各原始特征信息中选取若干原始特征信息；针对选取出的各原始特征信息中的任意两个原始特征信息，将第一原始特征信息中的N个字符与第二文本特征信息中的M个字符进行交换，得到两个风险特征信息，N和M不小于1。

所述确定模块503，从确定出的各原始特征信息中选取若干原始特征信息；针对选取出的每个原始特征信息，从除选取出的原始特征信息以外的其他原始特征信息中选取至少一个字符，并通过选取出的至少一个字符对该原始特征信息中的字符进行替换，得到该原始特征信息对应的风险特征信息。

所述确定模块503，分别为各风险用户分配随机数；确定随机数不超过设定数值的风险用户；将确定出的风险用户所对应的原始特征信息进行选取。

图6为本说明书提供的一种风险识别的装置示意图，具体包括：

获取模块601，获取待识别文本；

识别模块602，根据预先保存的各风险特征信息，对所述待识别文本进行风险识别，所述风险特征信息为上述特征提取的装置中所述的风险特征信息；

确定模块603，当确定所述待识别文本与所述各风险特征信息中的至少一个风险特征信息相匹配时，则确定所述待识别文本为风险文本。

所述确定模块603，针对每个风险特征信息，当确定该风险特征信息中不低于设定数量的字符出现在所述待识别文本中时，则确定所述待识别文本与该风险特征信息相匹配。

基于上述说明的特征提取的方法，本说明书还对应提供了一种用于特征提取的设备，如图7所示。该设备包括一个或多个存储器以及处理器，所述存储器存储程序，并且被配置成由所述一个或多个处理器执行以下步骤：

采集若干已识别出存在风险的各风险文本；

将确定出的各风险用户对应的风险特征信息进行保存。

基于上述说明的风险识别的方法，本说明书还对应提供了一种用于风险识别的设备，如图8所示。该设备包括一个或多个存储器以及处理器，所述存储器存储程序，并且被配置成由所述一个或多个处理器执行以下步骤：

获取待识别文本；

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书的实施例可提供为方法、系统、或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书一个或多个实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书的一个或多个实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种特征提取的方法，包括：

采集若干已识别出存在风险的各风险文本；

将确定出的各风险用户对应的风险特征信息进行保存。

2.如权利要求1所述的方法，从所述各用户中选取满足预设条件的若干用户作为风险用户，具体包括：

针对确定出的发送所述各风险文本的每个用户，确定由该用户所发送的风险文本的数量；

将发送的风险文本的数量满足预设数量的用户作为风险用户。

3.如权利要求1所述的方法，针对每个风险用户，根据该风险用户所发送的各风险文本，确定该风险用户对应的风险特征信息，具体包括：

针对每个风险用户，从该风险用户发送的各风险文本中提取出该风险用户对应的原始特征信息；

将提取出的各风险用户对应的各原始特征信息中包含的字符进行变更处理，得到各风险用户对应的各风险特征信息。

4.如权利要求3所述的方法，针对每个风险用户，从该风险用户发送的各风险文本中提取出该风险用户对应的原始特征信息，具体包括：

针对该风险用户发送的每个风险文本，通过预设的常用字符库，从该风险文本中剔除各常用字符，得到处理后的风险文本；

统计该风险用户对应的各处理后的风险文本中各字符的出现次数；

将所述各处理后的风险文本中的各字符按照确定出的各字符的出现次数由大到小进行排序，并将设定排位之前的各字符所组成的字符串作为该风险用户对应的原始特征信息。

5.如权利要求4所述的方法，将提取出的各风险用户对应的各原始特征信息中包含的字符进行变更处理，得到各风险用户对应的各风险特征信息，具体包括：

从确定出的各原始特征信息中选取若干原始特征信息；

针对选取出的各原始特征信息中的任意两个原始特征信息，将第一原始特征信息中的N个字符与第二文本特征信息中的M个字符进行交换，得到两个风险特征信息，N和M不小于1。

6.如权利要求4所述的方法，将提取出的各风险用户对应的各原始特征信息中包含的字符进行变更处理，得到各风险用户对应的各风险特征信息，具体包括：

从确定出的各原始特征信息中选取若干原始特征信息；

针对选取出的每个原始特征信息，从除选取出的原始特征信息以外的其他原始特征信息中选取至少一个字符，并通过选取出的至少一个字符对该原始特征信息中的字符进行替换，得到该原始特征信息对应的风险特征信息。

7.如权利要求5或6所述的方法，从确定出的各原始特征信息中选取若干原始特征信息，具体包括：

分别为各风险用户分配随机数；

确定随机数不超过设定数值的风险用户；

将确定出的风险用户所对应的原始特征信息进行选取。

8.一种风险识别的方法，包括：

获取待识别文本；

根据预先保存的各风险特征信息，对所述待识别文本进行风险识别，所述风险特征信息为如权利要求1～7任一方法所述的风险特征信息；

9.如权利要求1所述的方法，确定所述待识别文本与所述各风险特征信息中的至少一个风险特征信息相匹配，具体包括：

针对每个风险特征信息，当确定该风险特征信息中不低于设定数量的字符出现在所述待识别文本中时，则确定所述待识别文本与该风险特征信息相匹配。

10.一种特征提取的装置，包括：

采集模块，采集若干已识别出存在风险的各风险文本；

11.如权利要求10所述的装置，所述选取模块，针对确定出的发送所述各风险文本的每个用户，确定由该用户所发送的风险文本的数量；将发送的风险文本的数量满足预设数量的用户作为风险用户。

12.如权利要求10所述的装置，所述确定模块，针对每个风险用户，从该风险用户发送的各风险文本中提取出该风险用户对应的原始特征信息；将提取出的各风险用户对应的各原始特征信息中包含的字符进行变更处理，得到各风险用户对应的各风险特征信息。

13.如权利要求12所述的装置，所述确定模块，针对该风险用户发送的每个风险文本，通过预设的常用字符库，从该风险文本中剔除各常用字符，得到处理后的风险文本；统计该风险用户对应的各处理后的风险文本中各字符的出现次数；将所述各处理后的风险文本中的各字符按照确定出的各字符的出现次数由大到小进行排序，并将设定排位之前的各字符所组成的字符串作为该风险用户对应的原始特征信息。

14.如权利要求13所述的装置，所述确定模块，从确定出的各原始特征信息中选取若干原始特征信息；针对选取出的各原始特征信息中的任意两个原始特征信息，将第一原始特征信息中的N个字符与第二文本特征信息中的M个字符进行交换，得到两个风险特征信息，N和M不小于1。

15.如权利要求13所述的装置，所述确定模块，从确定出的各原始特征信息中选取若干原始特征信息；针对选取出的每个原始特征信息，从除选取出的原始特征信息以外的其他原始特征信息中选取至少一个字符，并通过选取出的至少一个字符对该原始特征信息中的字符进行替换，得到该原始特征信息对应的风险特征信息。

16.如权利要求14或15所述的装置，所述确定模块，分别为各风险用户分配随机数；确定随机数不超过设定数值的风险用户；将确定出的风险用户所对应的原始特征信息进行选取。

17.一种风险识别的装置，包括：

获取模块，获取待识别文本；

识别模块，根据预先保存的各风险特征信息，对所述待识别文本进行风险识别，所述风险特征信息为如权利要求10～16任一装置所述的风险特征信息；

18.如权利要求17所述的装置，所述确定模块，针对每个风险特征信息，当确定该风险特征信息中不低于设定数量的字符出现在所述待识别文本中时，则确定所述待识别文本与该风险特征信息相匹配。

19.一种特征提取的设备，包括一个或多个存储器以及处理器，所述存储器存储程序，并且被配置成由所述一个或多个处理器执行以下步骤：

采集若干已识别出存在风险的各风险文本；

将确定出的各风险用户对应的风险特征信息进行保存。

20.一种风险识别的设备，包括一个或多个存储器以及处理器，所述存储器存储程序，并且被配置成由所述一个或多个处理器执行以下步骤：

获取待识别文本；