CN107526967A

CN107526967A - 一种风险地址识别方法、装置以及电子设备

Info

Publication number: CN107526967A
Application number: CN201710543805.4A
Authority: CN
Inventors: 孙清清
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2017-07-05
Filing date: 2017-07-05
Publication date: 2017-12-29
Anticipated expiration: 2037-07-05
Also published as: KR102244417B1; JP6894058B2; US10699076B2; EP3637295B1; CN107526967B; EP3637295A1; US10762296B2; SG11201907079QA; EP3637295A4; US20200167526A1; JP2020524314A; PH12019501823A1; WO2019007288A1; US20200034426A1; TWI682302B; TW201907325A; KR20200015444A

Abstract

本说明书实施例公开了一种风险地址识别方法、装置以及电子设备。风险地址识别方法包括：根据输入地址获得对应的地址词序列后，根据地址词序列中命中地址词及其前后语义，利用隐马尔科夫模型和支持向量机模型对该输入地址进行风险识别。

Description

一种风险地址识别方法、装置以及电子设备

技术领域

本说明书涉及计算机技术领域，尤其涉及一种风险地址识别方法、装置以及电子设备。

背景技术

网络金融交易越来越发达，有一些不法人员利用网络金融进行金钱的非法操作，比如，洗钱等交易。为了防止网络金融非法交易的发生，目前已经有一些进行风险地址识别的方案，一般是针对比较规则的风险地址识别的方案。

例如，可以采用分词算法对输入地址进行分词并标注，最后根据不同地址词的标注信息逐一进行地址词匹配，通过匹配结果识别该输入地址是否为风险地址。

基于现有技术，需要更准确的风险地址识别方案。

发明内容

本说明书实施例提供一种风险地址识别方法、装置以及电子设备，用以解决如下技术问题：需要更准确的风险地址识别方案。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供的一种风险地址识别方法，所述的方法包括：

获取输入地址对应的地址词序列；

在所述地址词序列包含的各地址词中，确定命中各风险地址对应的风险词的地址词；

根据所述确定的地址词，生成所述地址词序列对应的观察序列；

利用基于地址词前后语义学习得到的隐马尔科夫模型，对所述观察序列进行处理，得到决策向量，所述决策向量表示所述地址词序列包含的各地址词命中所述风险地址的概率；

通过对所述决策向量进行分类判决，识别所述输入地址是否为风险地址。

本说明书实施例提供的一种风险地址识别装置，所述的装置包括：

接收模块，获取输入地址对应的地址词序列；

匹配模块，在所述地址词序列包含的各地址词中，确定命中各风险地址对应的风险词的地址词；

生成模块，根据所述确定的地址词，生成所述地址词序列对应的观察序列；

标注模块，利用基于地址词前后语义学习得到的隐马尔科夫模型，对所述观察序列进行处理，得到决策向量，所述决策向量表示所述地址词序列包含的各地址词命中所述风险地址的概率；

识别模块，通过对所述决策向量进行分类判决，识别所述输入地址是否为风险地址。

本说明书实施例提供的一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

为获取输入地址对应的地址词序列；

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：通过利用基于地址词前后语义学习得到的隐马尔科夫模型和支持向量机模型，根据对输入地址处理后得到的地址词及其前后语义，获得输入地址的分类判定结果，能够更准确地识别风险地址。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书的方案在一种实际应用场景下涉及的一种整体架构示意图；

图2为本说明书实施例提供的一种风险地址识别方法的流程示意图；

图3为本说明书实施例提供的一种隐马尔科夫模型建模方法的流程示意图；

图4为本说明书实施例提供的一种支持向量机模型建模方法的流程示意图；

图5为本说明书实施例提供的一种风险地址识别装置的结构示意图；

图6为本说明书实施例提供的一种风险地址识别为地址无风险的流程示意图；

图7为本说明书实施例提供的一种风险地址识别为地址有风险的流程示意图；

图8为本说明书实施例提供的风险地址识别的建模和识别的流程示意图。

具体实施方式

本说明书实施例提供一种风险地址识别方法、装置以及电子设备。

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

图1为本说明书的方案在一种实际应用场景下涉及的一种整体架构示意图。该整体架构中，首先输入地址，通过包含有隐马尔科夫模型(Hidden Markov Model，HMM)的设备进行处理得到该输入地址对应的决策向量，然后，通过包含有支持向量机(Support VectorMachine，SVM)的设备对该决策向量进一步处理，最后，确定该输入地址是否为风险地址。

基于上述整体架构，下面对本说明书的方案进行详细说明。

本说明书实施例提供了一种风险地址识别方法，图2为该风险地址识别方法的流程示意图，图2中的流程可以包括以下步骤：

S102：获取输入地址对应的地址词序列。

所述地址词序列可以是通过对输入地址进行处理后得到的。

例如，若输入地址中包含的干扰字符比较多，可以先对输入地址进行干扰字符的去除操作，再进一步地得到地址词序列。若在输入地址自带例如空格等词分隔符的情况下，或者后续步骤中风险地址识别对干扰字符排除的处理能力比较好的情况下，地址词序列也可以是输入地址本身。

S104：在所述地址词序列包含的各地址词中，确定命中各风险地址对应的风险词的地址词。

所述各风险地址可以理解为由多个风险地址构成的风险地址库。

风险词可以理解为风险地址中包括的存在风险的地址词。风险地址中可以包含一个或者多个风险词，这些风险词可能按照一定规则顺序组成，也可能相对独立。

确定命中的方式比如可以包括：根据地址词序列中各地址词，分别与风险地址中各地址词进行扫描并匹配，确定命中的地址词(为了便于描述，以下可以将这种地址词称为：命中地址词)。

例如，如果某个地址词序列包含多个地址词，其中，该地址序列中的地址词A与风险地址中包含的风险词a匹配命中。可以将该地址词序列表示为1个多维向量，向量每一维分别对应该地址词序列中的一个地址词；进而，可以通过扫描的方式，确定该地址词A在该向量中对应的维，并将该维用1进行标注，以确定该地址词A命中；对于没有命中其他地址词，则用0对对应的维进行标注。

S106：根据所述确定的地址词，生成所述地址词序列对应的观察序列。

生成所述地址词序列对应的观察序列的包括多种方式：可以根据所述确定的地址词及其前后语义，从地址词序列中获得所需的各地址词，根据确定的地址词与获得的地址词生成观察序列，其中，提取的地址词可以是连续的地址词，也可以是符合某种规则的不连续地址词；

生成地址词序列对应的观察序列的方式，也可以首先对地址词序列进行拆分，得到多个地址词子序列，然后，再根据所需的地址词子序列生成观察序列。

S108：利用基于地址词前后语义学习得到的隐马尔科夫模型，对所述观察序列进行处理，得到决策向量，所述决策向量表示所述地址词序列包含的各地址词命中所述风险地址的概率。

前后语义可以是：与当前地址词前后关联的地址词与该当前地址词的关联语义，关联的地址词的数量可以是两个或三个；其中，关联的地址词可以是该当前地址词相邻的地址词，也可以是与该当前地址词之间存在间隔词的地址词。

具体地，上述当前地址词可以是步骤S106中所述确定的地址词。所述地址词前后语义可以是：所述确定的地址词的前后相邻的地址词作为前后语义，例如，中国北京市朝阳区，其中，北京市的前后语义包含中国和朝阳区；也可以是将地址词序列中不相邻的地址词作为所述确定的地址词的前后语义。

进一步地，为了简化处理步骤，观察序列也可以是地址词序列或输入地址本身，在这种情况下，可以直接根据地址词序列或输入地址中命中地址词的标注结果，基于命中地址词及其前后语义标注命中风险地址的概率。

S110：通过对所述决策向量进行分类判决，识别所述输入地址是否为风险地址。

所述分类判决可以是对决策向量进行二分类判决，比如，可以一类是对应于风险地址的决策向量、另一类是对应于非风险地址的决策向量，进一步地，可以确定该决策向量对应的输入地址是否为风险地址。

在本说明书实施例中，对于步骤S102，所述获取输入地址对应的地址词序列，具体可以包括：

接收输入地址；通过对所述输入地址进行数据清洗处理和分词处理，得到所述输入地址对应的地址词序列。

所述数据清洗处理方式可以包括：去除所述输入地址中的干扰字符，得到标准化地址字符串；或者对输入地址中各地址词的排列顺序进行调整。

所述分词处理方式可以包括：利用空格或分号等特定字符切分所述标准化地址字符串，得到所述输入地址对应的地址词序列。

前面已经提到，若输入地址中包含的干扰字符比较多，可以先对输入地址进行干扰字符的去除操作，再进一步地得到地址词序列。

例如，首先，对输入地址中存在一些干扰字符进行数据清洗，去除干扰字符，所述干扰字符比如可以包括以下至少一个：多余的空格、半角字符、“|”、“:”、“～”等字符，经过清洗后的输入地址比如可以是以空格进行分隔的标准化地址字符串；然后，分词标注：对清洗后地址字符串以空格进行切分，采用基于词典方式标注地址字符串中出现的辅助词，如：of，the等，这些辅助词往往可以不应用于后续地址匹配识别中；最后，经过分词标注后得到由地址词构成的地址词序列。通过对输入地址进行清洗和分词处理后，得到地址词序列，以便于后续对该地址词序列进行快速、高效、准确的风险地址词的识别等操作。

前面已经提到，若输入地址自带例如空格等词分隔符的情况下，或者后续步骤中风险地址识别对干扰字符排除的处理能力比较好的情况下，地址词序列也可以是输入地址本身，如此可以节省对输入地址的处理步骤。

在本说明书实施例中，对于步骤S104，所述在所述地址词序列包含的各地址词中，确定命中各风险地址对应的风险词的地址词，具体可以包括：

利用各风险地址对应的风险词，对所述地址词序列中的各地址词分别进行匹配；

若存在匹配成功的地址词，对其进行标注，并确定为命中各风险地址对应的风险词的地址词。

所述标注可以是：通过数字或字符对地址词序列中各地址词的匹配结果分别对应标注，包括该地址词序列中匹配后表示命中结果的标注和表示未命中结果的标注，由这些表示标注结果的数字或字符共同组成标注向量。

例如，对地址词序列或该地址词序列对应的观察序列中的各地址词进行全局扫描、匹配和标注，如果某一个地址词序列中的第二个地址词A与风险地址对应的地址词集合中的地址词a匹配，则标记该地址词A为1，否则标记该地址词A为0，进一步地，得到标注向量，也可以称为初始标注向量，比如，[0,0,1,0,0,0]。

对地址词序列中的各地址词分别进行匹配，具体匹配方式可以包括：对地址词序列进行风险地址(风险地址信息包括国家、地区，以及主要的城市)进行全局的扫描和匹配；其中，采用的匹配算法比如可以包括：字符串相似度匹配算法、发音相似匹配算法和编辑距离匹配算法等。

进一步地，所述在所述地址词序列包含的各地址词中，确定命中各风险地址对应的风险词的地址词，还包括：

若不存在匹配成功的地址词，确定所述输入地址不为风险地址。

如果在某个地址词序列中各地址词与风险地址中的风险词不匹配，那么，可以认为该地址词序列不包含风险词，对应的所述输入地址不是风险地址的概率较大，则可以结束对该输入地址的进一步的操作。

在本说明书实施例中，对于步骤S106，所述根据所述确定的地址词，生成所述地址词序列对应的观察序列，具体可以包括：

分别针对所述确定的地址词，执行：根据该地址词以及该地址词在所述地址词序列中的关联词，生成所述地址词序列对应的观察序列，其中，所述关联词反映该地址词在所述地址词序列中的前后语义。

如果地址词序列中包含多个所述确定的地址词，可以生成对应的多个观察序列，也可以通过选择生成其中一个所述确定的地址词对应的观察序列。关联词可以理解为前后词语之间存在某种的逻辑关系或特定的关联关系的词语，也可以是人为定义使前后词语产生关联关系的词语。一般地，关联词是相邻的，比如可以是与当前词相邻的前两个以及后两个词。

在本说明书实施例中，可以预先利用基于地址词前后语义学习得到隐马尔科夫模型。

本说明书实施例提供了一种隐马尔科夫模型建模方法，图3为该建模方法的流程示意图，图3中的流程可以包括以下步骤：

S202：根据预定义的训练样本，提取初始参数，并根据所述初始参数建立包含隐马尔科夫模型参数的初始模型，其中，所述训练样本为风险地址或者非风险地址；

S204：根据所述训练样本中包含的地址词以及所述地址词的前后语义，生成所述训练样本对应的观察序列；

S206：根据所述初始模型，以及所述训练样本对应的观察序列，对所述隐马尔科夫模型参数进行训练，得到隐马尔科夫模型。

训练样本包括正样本和负样本，风险地址可以属于正样本，非风险地址可以属于负样本，通过利用正负样本对隐马尔科夫模型进行训练，可以获得更好的训练效果。

例如，在一种实施方式下，负样本可以是以全球非制裁国家或地区的235个国家的地址，正样本可以是以所有制裁国家以及地区的地址数据。需要说明的是，一般地，风险地址中包含有风险词，当然，非风险地址中也可能包含风险词。

步骤S204中的地址词可以理解为是训练样本中的与风险地址对应的风险词匹配的地址词。在预定义的样本地址中，已经预先标注了该样本地址是否包含风险词，以及哪个地址词是风险词，这里所述样本地址是训练样本中包含的训练样本地址。

进一步地，根据样本地址中已经标注的地址词及其前后语义，提取所需的观察序列，一般地，选取该标注的地址词的前后关联的2个或3个词作为该地址词的前后语义，共同组成观察序列。

进一步地，根据获得的初始标注模型和观察序列，对隐马尔科夫模型参数进行训练，直到得到合适的隐马尔科夫模型参数，再根据训练得到的隐马尔科夫模型参数，确定所需的隐马尔科夫模型。

在图3的隐马尔科夫模型建模方法中，训练样本地址的数量规模将直接影响训练结果的好坏。当训练样本地址所用的地址库更全面、覆盖面更广泛时，有利于使该模型时的识别的准确率提高，因此，在拥有足够多的训练样本地址的情况下，该方法可以取得很好的建模效果。

其中，所述初始参数包括：初始概率向量π_t、状态转移矩阵a_ij等；

所述根据预定义的训练样本，提取初始参数，具体可以包括：

基于所述训练样本，通过对所述训练样本包含的地址词分别进行概率标注，得到初始概率向量；根据所述训练样本包含的所述地址词在风险词与非风险词之间状态转移概率，获得所述样本地址的状态转移矩阵。其中，风险词是风险地址中包含的地址词，非风险词是非风险地址中包含的地址词，有一些地址词既可以是风险词，也可以是非风险词。

所述训练样本可以有多个，一般地，每个训练样本可以是一个样本地址，进行概率标注时，从该集合当中选取一个样本地址作为训练样本；例如，对某个样本地址中的地址词进行概率标注后，该样本地址中的第二个地址词为命中地址词，得到初始概率向量π_t＝[0,1,0,0,0,0]，其中，1代表命中的地址词，0代表没有命中的地址词。

进一步地，根据所述训练样本包含的所述地址词在风险词与非风险词之间状态转移概率，获得所述样本地址的状态转移矩阵。在本说明书一个或多个实施例中，状态转移概率是指地址词由风险地址与非风险地址的两个隐状态之间可能发生状态转移的概率。

在本说明书实施例中，所述根据所述初始模型，以及所述训练样本对应的观察序列，对所述隐马尔科夫模型参数进行训练，得到隐马尔科夫模型，具体可以包括：

根据所述初始模型，以及所述训练样本对应的观察序列，利用Baum-Welch算法对所述隐马尔科夫模型参数进行训练，得到隐马尔科夫模型。

此外，还可以获取其他用于训练隐马尔科夫模型参数的其他数据，例如，O＝o₁o₂…o_h…o_n-1o_n，序列O是包含命中风险国家/地区词的地址词序列，o_h是待标注地址词。一般地，可以取n＝10；根据待标注o_h的前后3个词的上下文得到观察序列；S＝s₁s₂…s_h…s_n-1s_n地址词序列O对应的标记向量，即表示地址词序列中各地址词命中风险地址的概率，再由各地址词命中概率组成该标记向量，该标记向量可以理解为所述初始标注向量；

P(o_h,s_h|λ)表示地址词序列o_h和其命中标记s_h正确的概率，用于选取所需的隐马尔科夫模型参数λ；

然后，根据上述参数训练所述隐马尔科夫模型参数λ，获得隐马尔科夫模型。

进一步地，定义模型目标函数为：argmaxP(o_h,s_h|λ)，以便于获取所需的决策向量；

在本说明书实施例中，对于步骤S108，所述利用基于地址词前后语义学习得到的隐马尔科夫模型，对所述观察序列进行处理，得到决策向量，具体可以包括：

利用基于地址词前后语义学习得到的隐马尔科夫模型和Viterbi算法，对所述观察序列进行处理，得到决策向量；

所述决策向量表示所述地址词序列包含的各地址词命中所述风险地址的概率。此外，决策向量还可以表示所述地址词序列对应的观察序列中包含的各地址词命中所述风险地址的概率，对于观察序列中未包含的地址词，可以直接标注为0。

例如，一个地址词序列[A,B,C,D,E,F]，其对应的观察序列[B,C,D]，则得到的决策向量可能表示为[0,0.5,1,0.3,0,0]。

在本说明书实施例中，对于步骤S110，所述对所述决策向量进行分类判决，具体可以包括：

利用训练得到的SVM模型，对所述决策向量进行分类判决。

一般地，通过隐马尔科夫模型计算得到的决策向量，然后对该决策向量进行二分类判决或更多分类的判决；以下主要以采用二分类判决为例进行说明。

在本说明书实施例中，提供一种支持向量机模型建模方法，图4为该支持向量机模型建模的方法的流程示意图，图4中的流程可以包括以下步骤：

S302：获取支持向量机的训练样本。

S304：将所述支持向量机的训练样本映射到高维特征空间，得到所述支持向量机的训练样本对应的样本特征空间。

S306：从所述样本特征空间中获取代表所述样本特征的参数，根据所述样本特征的参数建立用于判断所述样本特征的类别的判别函数。

S308：基于所述支持向量机的训练样本训练判别函数中对应的SVM模型参数，得到SVM模型。

该支持向量机的训练样本可以是通过上述隐马尔科夫模型对样本地址进行训练得到该训练样本对应的决策向量，也可以是其他表征输入地址特征的待判别的数据。

具体地，SVM可以通过选择多次方的多项式核函数，将决策向量地址映射到高维特征空间，表达式如下：

κ(x,x_i)＝((x·x_i)+1)^d

利用SVM在样本地址的高维特征空间中找出各类别样本特征与其他特征的最优分类超平面，得到代表各样本特征的支持向量集及其相应的VC可信度，形成判断各特征类别的判别函数：

基于大量地址数据，比如全球地址库数据训练得到SVM模型参数α_i，实现对支持向量机模型的进一步的优化。

通过基于语义识别的地址匹配的学习，根据各地址词及其前后语义的匹配结果，获得风险地址的分类判定结果，可以有效的识别风险地址或伪造的风险地址，可以避免错误的判定无风险的地址。

基于同样的思路，本说明书实施例还提供了一种风险地址识别装置，图5为本说明书实施例提供的对应于图2的一种风险地址识别装置的结构示意图，如图5所示结构，具体可以包括：

接收模块101，获取输入地址对应的地址词序列；

匹配模块102，在所述地址词序列包含的各地址词中，确定命中各风险地址对应的风险词的地址词；

生成模块103，根据所述确定的地址词，生成所述地址词序列对应的观察序列；

标注模块104，利用基于地址词前后语义学习得到的隐马尔科夫模型，对所述观察序列进行处理，得到决策向量，所述决策向量表示所述地址词序列包含的各地址词命中所述风险地址的概率；

识别模块105，通过对所述决策向量进行分类判决，识别所述输入地址是否为风险地址。

通过利用基于地址词前后语义学习得到的隐马尔科夫模型和支持向量机模型，根据对输入地址处理后得到的地址词及其前后语义，获得输入地址的分类判定结果，可以有效的识别风险地址或伪造的风险地址，可以避免错误的判定无风险的地址，因此，可以部分或全部地解决现有技术中的问题。

进一步地，所述接收模块101，获取输入地址对应的地址词序列，具体可以包括：

所述接收模块101，接收输入地址；以及，通过对所述输入地址进行数据清洗处理和分词处理，得到所述输入地址对应的地址词序列。通过对输入地址的进一步清洗处理和分词处理，得到标准化的地址词序列，以便于后续步骤中对地址词序列的标注操作，可以提升对地址词序列中确定的地址词进行概率标注的工作效率。

进一步地，所述匹配模块102，所在所述地址词序列包含的各地址词中，确定命中各风险地址对应的风险词的地址词，具体可以包括：

匹配模块120利用各风险地址对应的风险词，对所述地址词序列中的各地址词分别进行匹配；

若存在匹配成功的所述地址词，对其进行标注，并确定为命中各风险地址对应的风险词的地址词。

进一步地，所述匹配模块102，在所述地址词序列包含的各地址词中，确定命中各风险地址对应的风险词的地址词，还包括：

通过该匹配模块102对地址词进行标注，可以对风险的输入地址和无风险的输入地址进行快速前置过滤，可以提升风险地址识别的工作效率。

进一步地，所述生成模块103，根据所述确定的地址词，生成所述地址词序列对应的观察序列，具体可以包括：

分别针对所述确定的地址词，执行：根据该地址词以及该地址词在所述地址词序列中的关联词，生成所述地址词序列对应的观察序列，其中，所述关联词反映该地址词在所述地址词序列中的前后语义。其中，前后语义是指与命中地址词前后关联的多个地址词，关联的地址词的数量可以是两个或三个；其中，关联的地址词可以是连续关联的地址词，也可以是间隔关联的地址词。

进一步地，基于地址词前后语义学习得到的隐马尔科夫模型包括：

根据预定义的训练样本，提取初始参数，并根据所述初始参数建立包含隐马尔科夫模型参数的初始模型，其中，所述训练样本为风险地址或者非风险地址；

根据所述训练样本中包含的地址词以及所述地址词的前后语义，生成所述训练样本对应的观察序列；

根据所述初始模型，以及所述训练样本对应的观察序列，对所述隐马尔科夫模型参数进行训练，得到隐马尔科夫模型。

该隐马尔科夫模型，采用由命中的风险词和该风险词的前后语义组成的观察序列对隐马尔科夫模型参数进行训练，得到所需的隐马尔科夫模型(HMM)，可以提升隐马尔科夫模型对输入地址风险识别的准确效果。

进一步地，所述初始参数包括：初始概率向量、状态转移矩阵；

基于多个所述训练样本，通过分别对所述训练样本包含的地址词进行概率标注，得到初始概率向量；根据所述训练样本包含的所述地址词在风险词与非风险词之间状态转移概率，获得所述样本地址的状态转移矩阵。其中，风险词是风险地址中包含的地址词，非风险词是非风险地址中包含的地址词，有一些地址词既可以是风险词，也可以是非风险词。

进一步地，所述根据所述初始模型，以及所述训练样本对应的观察序列，对所述隐马尔科夫模型参数进行训练，得到隐马尔科夫模型，具体可以包括：

需要说明的是，在本隐马尔科夫模型建模时，训练样本地址的数量规模将直接影响训练结果的好坏。当训练样本地址所用的全球地址库更全面、覆盖面更广泛时，使用该模型时的识别率将大大的提高，因此在拥有足够多的训练样本地址的情况下，可以取得很好的建模效果

进一步地，所述标注模块104，利用基于地址词前后语义学习得到的隐马尔科夫模型，对所述观察序列进行处理，得到决策向量，具体可以包括：

利用基于地址词前后语义学习得到的隐马尔科夫模型和Viterbi算法，对所述观察序列进行处理，得到决策向量。所述决策向量表示所述地址词序列包含的各地址词命中所述风险地址的概率。

进一步地，所述识别模块105，对所述决策向量进行分类判决，具体可以包括：

利用训练得到的支持向量机(SVM)模型，对所述决策向量进行分类判决。

进一步地，训练得到的支持向量机模型包括：

获取支持向量机的训练样本；

将所述支持向量机的训练样本映射到高维特征空间，得到所述支持向量机的训练样本对应的样本特征空间；

从所述样本特征空间中获取代表所述样本特征的参数，根据所述样本特征的参数建立用于判断所述样本特征的类别的判别函数；

基于所述SVM的训练样本训练判别函数中对应的SVM模型参数，得到SVM模型。

该训练样本可以理解为上述实施例中的所述决策向量，也可以是其他表征输入地址特征的待判别的数据。

一般地，通过隐马尔科夫模型计算得到的决策向量，需要利用SVM将决策向量映射到高维特征空间后进行二分类判决。当然，如果一些易处理的决策向量，可以不映射到高维特征空间就能进行分类判决，例如，可以采用线性分类判决，可以降低计算难度，提升处理速度。

基于同样的思路，本说明书实施例还提供了一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

为获取输入地址对应的地址词序列；

为了更好的说明本说明书一个或多个实施例的发明构思，下面具体列举两个实施例：

图6为本说明书实施例提供的一种风险地址识别为无风险地址的流程示意图，具体可以包括：

首先，输入地址为文本为：REPUBLICA DE SIRIA 7495 SANTA FE Santa Fe AR；

然后，全局扫描标注输入地址命中制裁地址(国家或城市)词：SIRIA，并得到输入地址的初始标注向量[0,0,1,0,0,0,0,0,0]；这里所述初始标注向量可以理解为所述初始概率向量；

进一步地，经过隐马尔科夫标注模型得到决策向量为[0.01,0.02,0.02,0.02,0.01,0,0,0,0]；

最后由SVM分类模型判决为：输入地址未命中制裁地址；这里所述制裁地址可以理解为所述风险地址。

图7为本说明书实施例提供的一种风险地址识别为风险地址的流程示意图，具体可以包括：

首先，输入地址为文本为：Rostovskaya,31a,Simferopol 5Other RU；

然后，全局扫描标注输入地址命中制裁地址(国家或城市)词：Simferopol，并得到输入地址的初始标注向量[0,0,1,0,0,0]；

进一步地，经过隐马尔科夫标注模型得到决策向量为[0.9,0.9,0.9,0.9,0.5,0.1]；

最后，由SVM分类模型判决为：输入地址命中制裁地址；

这里所述制裁地址可以理解为上述的风险地址。

图8为本说明书实施例提供的风险地址识别的建模和识别的流程示意图，具体可以包括：

在进行风险地址识别模型的建模时，进行参数训练，首先，获取训练地址语料，可以理解为所述样本地址；

然后，对训练地址语料进行清洗和分隔为标准化的地址字符串，可以理解为所述地址词序列；

再对输入的训练地址语料进行全局是扫描、匹配、标注，初始标注模型和初始参数。

进一步地，根据初始标注模型，对隐马尔科夫模型参数进行训练，得到所需的隐马尔科夫模型。更进一步地，根据通过隐马尔科夫模型输出的决策向量，对SVM的参数进行训练，最终得到所需的SVM模型。

在进行风险地址扫描识别时，首先，由用户输入地址；然后，对输入地址进行标准化处理和全局的风险地址扫描、标注，得到标注后的地址词序列，进一步地，基于风险词及其前后语义得到观察序列。

再进一步地，通过隐马尔科夫模型对所述地址词序列(观察序列)进行风险概率计算和标注，生成决策向量。

最后，SVM根据决策向量进行二分类判决，确定该输入地址是否为风险地址。

通过基于风险地址词及其前后语义，对该输入地址利用隐马尔科夫模型和支持向量机进行判断和识别，可以有效的提高识别的准确效果。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、非易失性计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书实施例提供的装置、电子设备、非易失性计算机存储介质与方法是对应的，因此，装置、电子设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置、电子设备、非易失性计算机存储介质的有益技术效果。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书实施例可提供为方法、系统、或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种风险地址识别方法，所述的方法包括：

获取输入地址对应的地址词序列；

2.如权利要求1所述的方法，所述获取输入地址对应的地址词序列，具体包括：

接收输入地址；

通过对所述输入地址进行数据清洗处理和分词处理，得到所述输入地址对应的地址词序列。

3.如权利要求1所述的方法，所述在所述地址词序列包含的各地址词中，确定命中各风险地址对应的风险词的地址词，具体包括：

4.如权利要求3所述的方法，所述在所述地址词序列包含的各地址词中，确定命中各风险地址对应的风险词的地址词，还包括：

5.如权利要求3所述的方法，所述根据所述确定的地址词，生成所述地址词序列对应的观察序列，具体包括：

6.如权利要求1所述的方法，基于地址词前后语义学习得到隐马尔科夫模型包括：

7.如权利要求6所述的方法，所述初始参数包括：初始概率向量、状态转移矩阵；

所述根据预定义的训练样本，提取初始参数，具体包括：

基于预定义的多个训练样本，通过对所述训练样本包含的地址词分别进行概率标注，得到初始概率向量；

根据所述训练样本包含的所述地址词在风险词与非风险词之间状态转移概率，获得所述样本地址的状态转移矩阵。

8.如权利要求6所述的方法，所述根据所述初始模型，以及所述训练样本对应的观察序列，对所述隐马尔科夫模型参数进行训练，得到隐马尔科夫模型，具体包括：

9.如权利要求1所述的方法，所述利用基于地址词前后语义学习得到的隐马尔科夫模型，对所述观察序列进行处理，得到决策向量，具体包括：

利用基于地址词前后语义学习得到的隐马尔科夫模型和Viterbi算法，对所述观察序列进行处理，得到决策向量。

10.如权利要求1所述的方法，所述对所述决策向量进行分类判决，具体包括：

利用训练得到的支持向量机SVM模型，对所述决策向量进行分类判决。

11.如权利要求10所述的方法，训练得到支持向量机模型包括：

获取支持向量机的训练样本；

基于所述支持向量机的训练样本训练所述判别函数中对应的SVM模型参数，得到SVM模型。

12.一种风险地址识别装置，所述的装置包括：

接收模块，获取输入地址对应的地址词序列；

13.如权利要求12所述的装置，所述接收模块，获取输入地址对应的地址词序列，具体包括：

所述接收模块，接收输入地址；以及，

14.如权利要求12所述的装置，所述匹配模块，在所述地址词序列包含的各地址词中，确定命中各风险地址对应的风险词的地址词，具体包括：

15.如权利要求14所述的装置，所述匹配模块，在所述地址词序列包含的各地址词中，确定命中各风险地址对应的风险词的地址词，还包括：

16.如权利要求14所述的装置，所述生成模块，根据所述确定的地址词，生成所述地址词序列对应的观察序列，具体包括：

17.如权利要求12所述的装置，基于地址词前后语义学习得到的隐马尔科夫模型包括：

18.如权利要求17所述的装置，所述初始参数包括：初始概率向量、状态转移矩阵；

所述根据预定义的训练样本，提取初始参数，具体包括：

基于预定义的多个所述训练样本，通过分别对所述训练样本包含的地址词进行概率标注，得到初始概率向量；

19.如权利要求17所述的装置，所述根据所述初始模型，以及所述训练样本对应的观察序列，对所述隐马尔科夫模型参数进行训练，得到隐马尔科夫模型，具体包括：

20.如权利要求12所述的装置，所述标注模块，利用基于地址词前后语义学习得到的隐马尔科夫模型，对所述观察序列进行处理，得到决策向量，具体包括：

21.如权利要求12所述的装置，所述识别模块，对所述决策向量进行分类判决，具体包括：

22.如权利要求21所述的装置，训练得到支持向量机模型包括：

获取支持向量机的训练样本；

基于所述支持向量机的训练样本训练判别函数中对应的SVM模型参数，得到SVM模型。

23.一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

为获取输入地址对应的地址词序列；