CN106600283A

CN106600283A - 识别姓名国籍的方法、系统及判断交易风险的方法、系统

Info

Publication number: CN106600283A
Application number: CN201611169286.1A
Authority: CN
Inventors: 刘润石; 霍文虎; 袁旭萍
Original assignee: Ctrip Travel Information Technology Shanghai Co Ltd
Current assignee: Ctrip Travel Information Technology Shanghai Co Ltd
Priority date: 2016-12-16
Filing date: 2016-12-16
Publication date: 2017-04-26

Abstract

本发明公开了一种识别姓名国籍的方法、系统及判断交易风险的方法、系统，其中识别姓名的国籍的方法中，所述循环神经网络的输入层为姓名，所述循环神经网络的隐藏层为所述输入层的当前输入和所述隐藏层的前一隐藏层的函数，所述循环神经网络的输出层为所述姓名的国籍；所述方法包括：基于所述循环神经网络建立RNN模型；将待识别的第一姓名输入所述RNN模型；所述RNN模型输出所述第一姓名的国籍。本发明能够利用大数据分析各国籍的姓名的特征，通过姓名的特征识别姓名的国籍，并且可以应用至交易风险的判断中，提升风控的判断性能。

Description

识别姓名国籍的方法、系统及判断交易风险的方法、系统

技术领域

本发明涉及一种识别姓名国籍的方法、系统及判断交易风险的方法、系统。

背景技术

现在网上购物或交易已经十分普遍，信用卡欺诈分子开始使用盗来的外卡在线上进行销赃。在线上交易时，交易平台(如在线旅游网站、购物网站)一般会要求消费者填写部分个人信息，例如支付交易的银行卡或信用卡的持卡人姓名、收货人姓名等。对于正常消费者而言，大部分往往会填写持卡人的真实姓名，此时真实姓名所反映出的国籍通常与该卡属国一致；对于信用卡欺诈分子而言，在填写持卡人姓名时经常会乱填姓名，此时姓名所反映出的国籍很大概率上与该卡属国不一致。目前的现有技术还不能从消费者所填的持卡人姓名中识别出持卡人的真实国籍，更难以判断持卡人的真实国籍与卡属国是否一致。

发明内容

本发明要解决的技术问题是为了克服现有技术不能从消费者所填的持卡人姓名中识别出持卡人的真实国籍的缺陷，提供一种识别姓名国籍的方法、系统及判断交易风险的方法、系统。

本发明是通过以下技术方案解决上述技术问题的：

一种基于循环神经网络的识别姓名的国籍的方法，其特点是，所述循环神经网络的输入层为姓名，所述循环神经网络的隐藏层为所述输入层的当前输入和所述隐藏层的前一隐藏层的函数，所述循环神经网络的输出层为所述姓名的国籍；

所述方法包括：

S₁、基于所述循环神经网络建立RNN(循环神经网络)模型；

S₂、将待识别的第一姓名输入所述RNN模型；

S₃、所述RNN模型输出所述第一姓名的国籍。

其中，RNN模型可以根据各国籍的姓名的拼写特征识别出姓名的国籍，如姓名为张三，则国籍为中国，姓名为Tom，则国籍为英国或美国。

较佳地，S₁包括：

S₁₁、获取若干样本及每一样本对应的真实标签，所述样本为姓名，所述真实标签为姓名的真实国籍；

S₁₂、从所述若干样本中抽取部分样本及对应的真实标签用作训练集，剩余的样本及对应的真实标签用作测试集；

S₁₃、基于所述循环神经网络，利用所述训练集训练RNN模型；

S₁₄、利用所述测试集验证S₁₃训练后的RNN模型，得到优化后的RNN模型。

较佳地，所述输入层为所述姓名的编码，所述输出层为所述姓名的国籍的编码；

S₂包括：将所述第一姓名编码，并将所述第一姓名的编码输入所述RNN模型；

S₃包括：所述RNN模型输出所述第一姓名的国籍的编码，通过将所述第一姓名的国籍的编码反编码，得到所述第一姓名的国籍。

较佳地，姓名的编码通过以下步骤获得：

将姓名中的每个字母分别转换为26维的向量，所述向量包括0和1，其中1在所述向量中的位置与所述字母在英文字母表中排序的位置相同，所述向量中的其余位置均为0；

国籍的编码为N维向量，N等于所述训练集中国籍的种数。

其中，所述姓名中的每个字母不区分大小写。

较佳地，所述循环神经网络的激活函数是tanh函数；

S_t＝tanh(Ux_t+Ws_t-1)

其中，S_t是当前的隐藏层；x_t是输入层当前的输入；U是输入层的权重系数；s_t-1是当前的隐藏层的前一隐藏层；W是当前的隐藏层的前一隐藏层的权重系数；

其中，是输出层；V是隐藏层s_t到输出层的权重系数。

其中，tanh函数可以将(-∞，+∞)数据映射到(-1，+1)，起到压缩的作用，同时这个函数处处可导，在使用梯度下降的优化算法时比较容易求出梯度。当然，这个激活函数可以选取其他函数，比如sigmoid，ReLU等。

较佳地，所述循环神经网络选用以下的网络结构：

i＝σ(x_tUⁱ+s_t-1Wⁱ)

f＝σ(x_tU^f+s_t-1W^f)

o＝σ(x_tU^o+s_t-1W^o)

g＝tanh(x_tU^g+s_t-1W^g)

c_t＝c_t-1°f+g°i

s_t＝tanh(c_t)°o

其中，i是输入门，用于控制输入；f是遗忘门，用于控制遗忘；o是输出门，用于控制输出；g是一个备选的隐藏层；c是内部记忆层；s_t是当前的隐藏层。

本方案中的网络结构可以解决梯度消失(Gradient vanishing)问题。

较佳地，S₁₃包括：

所述输入层输入所述训练集，所述隐藏层为LSTM层；

所述LSTM层通过时间的向前传播计算当前梯度；

损失函数通过时间的向后传播更新所述损失函数是其中y_i是样本i对应的真实标签，是利用RNN模型对样本i的预测值；

确定

得到训练后的RNN模型。

较佳地，S₁₄包括：

将所述测试集中的姓名输入训练后的RNN模型，训练后的RNN模型输出姓名的预测国籍；

通过比较姓名的预测国籍与姓名的真实国籍，验证训练后的RNN模型的准确率，优化训练后的RNN模型，得到优化后的RNN模型。

一种判断交易风险的方法，其特点是，所述方法包括：

从交易中提取支付卡的持卡人姓名和所述支付卡的所属国；

利用上述各优选条件任意组合的一种基于循环神经网络的识别姓名的国籍的方法识别所述持卡人姓名的国籍；

将识别出的所述持卡人姓名的国籍与所述支付卡的所属国进行比较；

根据比较结果判断所述交易的风险。

一种基于循环神经网络的识别姓名的国籍的系统，其特点是，所述循环神经网络的输入层为姓名，所述循环神经网络的隐藏层为所述输入层的当前输入和所述隐藏层的前一隐藏层的函数，所述循环神经网络的输出层为所述姓名的国籍；

所述系统包括：

建模单元，用于基于所述循环神经网络建立RNN模型；

输入单元，用于将待识别的第一姓名输入所述RNN模型；

输出单元，用于所述RNN模型输出所述第一姓名的国籍。

较佳地，所述建模单元包括：

样本模块，用于获取若干样本及每一样本对应的真实标签，所述样本为姓名，所述真实标签为姓名的真实国籍；

抽取模块，用于从所述若干样本中抽取部分样本及对应的真实标签用作训练集，剩余的样本及对应的真实标签用作测试集；

训练模块，用于基于所述循环神经网络，利用所述训练集训练RNN模型；

测试模块，用于利用所述测试集验证S₁₃训练后的RNN模型，得到优化后的RNN模型。

所述输入单元还用于将所述第一姓名编码，并将所述第一姓名的编码输入所述RNN模型；

所述输出单元还用于所述RNN模型输出所述第一姓名的国籍的编码，通过将所述第一姓名的国籍的编码反编码，得到所述第一姓名的国籍。

较佳地，姓名的编码通过以下方式获得：

国籍的编码为N维向量，N等于所述训练集中国籍的种数。

较佳地，所述循环神经网络的激活函数是tanh函数；

S_t＝tanh(Ux_t+Ws_t-1)

其中，是输出层；V是隐藏层s_t到输出层的权重系数。

较佳地，所述循环神经网络选用以下的网络结构：

i＝σ(x_tUⁱ+s_t-1Wⁱ)

f＝σ(x_tU^f+s_t-1W^f)

o＝σ(x_tU^o+s_t-1W^o)

g＝tanh(x_tU^g+s_t-1W^g)

c_t＝c_t-1°f+g°i

s_t＝tanh(c_t)°o

较佳地，所述训练模块用于：

所述输入层输入所述训练集，所述隐藏层为LSTM层；

所述LSTM层通过时间的向前传播计算当前梯度；

确定

得到训练后的RNN模型。

较佳地，测试模块用于：

一种判断交易风险的系统，其特点是，所述系统包括：

提取单元，用于从交易中提取支付卡的持卡人姓名和所述支付卡的所属国；

权利要求11-19中任意一项所述的基于循环神经网络的识别姓名的国籍的系统，用于识别所述持卡人姓名的国籍；

比较单元，用于将识别出的所述持卡人姓名的国籍与所述支付卡的所属国进行比较；

风控单元，用于根据比较结果判断所述交易的风险。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实例。

本发明的积极进步效果在于：本发明能够利用大数据分析各国籍的姓名的特征，通过姓名的特征识别姓名的国籍，并且可以应用至交易风险的判断中，提升风控的判断性能。

附图说明

图1为本发明的实施例1的基于循环神经网络的识别姓名的国籍的方法中循环神经网络的结构示意图。

图2为本发明的实施例1的基于循环神经网络的识别姓名的国籍的方法的流程图。

图3为步骤11的进一步细化流程图。

图4为训练RNN模型的示意图。

图5为本发明的实施例1的判断交易风险的方法的流程图。

图6为本发明的实施例2的基于循环神经网络的识别姓名的国籍的系统的框图。

图7为本发明的实施例2的判断交易风险的系统的框图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种基于循环神经网络的识别姓名的国籍的方法，其中，所述循环神经网络的结构如图1所示，包括输入层、隐藏层和输出层。所述输入层为姓名的编码，所述隐藏层为所述输入层的当前输入和所述隐藏层的前一隐藏层的函数，所述输出层为所述姓名的国籍的编码。

如图2所示，本实施例的基于循环神经网络的识别姓名的国籍的方法包括：

步骤11、基于所述循环神经网络建立RNN模型。

步骤12、将待识别的第一姓名输入所述RNN模型。

步骤13、所述RNN模型输出所述第一姓名的国籍。

其中，步骤11具体如图3所示，包括：

步骤111、获取若干样本及每一样本对应的真实标签，所述样本为姓名，所述真实标签为姓名的真实国籍。

步骤112、从所述若干样本中抽取部分样本及对应的真实标签用作训练集，剩余的样本及对应的真实标签用作测试集。

步骤113、基于所述循环神经网络，利用所述训练集训练RNN模型。

步骤114、利用所述测试集验证步骤113训练后的RNN模型，得到优化后的RNN模型。

下面对步骤113训练RNN模型的过程做进一步说明：

在训练RNN模型的过程中，样本及样本对应真实标签(即姓名及姓名的国籍)都要先进行编码才能使用。其中姓名的编码方式为：

将姓名的每个字母分别转换为26(因为英文字母总共有26个)维的向量，所述向量包括0和1，其中1在所述向量中的位置与所述字母在英文字母表中排序的位置相同，所述向量中的其余位置均为0。如：

a->1,0,0,……

b->0,1,0,……

c->0,0,1,……

在编码前，若姓名是汉字则将汉字转换为拼音，若姓名是其它文字则转换为对应的英文。为了排除姓名大小写不一致的干扰，可以在编码前将所有字母都统一成小写。编码后的姓名被输入至所述输入层。

姓名的国籍的编码方式为：

将国籍编码为N维向量，N等于所述训练集中国籍的种数。如，训练集中共有三种国籍，分别是中国、英国或美国、其它国籍，那么中国的编码可以为(1,0,0)，英国或美国的编码可以为(0,1,0)，其它国籍的编码可以为(0,0,1)。本实施例中国籍的标签可以由技术人员自行设定，只需要各国籍能够区分即可。

结合图1，图1中的圆圈表示隐藏层神经元s_t，所述循环神经网络的激活函数是tanh函数；

S_t＝tanh(Ux_t+Ws_t-1)

其中，是输出层；V是隐藏层s_t到输出层的权重系数。

在实际应用中，可能会遇到梯度消失的问题，为了解决这个问题，可以选用以下网络结构：

i＝σ(x_tUⁱ+s_t-1Wⁱ)

f＝σ(x_tU^f+s_t-1W^f)

o＝σ(x_tU^o+s_t-1W^o)

g＝tanh(x_tU^g+s_t-1W^g)

c_t＝c_t-1°f+g°i

s_t＝tanh(c_t)°o

如图4所示，所述输入层输入所述训练集，所述隐藏层为LSTM层(Long Short TermMemory，长短期隐藏层)；

所述LSTM层通过时间的向前传播(Forwardpropagation Through Time,FPTT)计算当前梯度；

损失函数通过时间的向后传播(Backpropagation Through Time,BPTT)更新所述损失函数是其中y_i是样本i对应的真实标签，是利用RNN模型对样本i的预测值(即预测的样本i的国籍的编码)；

确定

得到训练后的RNN模型。

下面对步骤114验证RNN模型的过程做进一步说明：

最终得到的优化后的RNN模型，即为步骤12输入所述第一姓名的RNN模型。输入RNN模型之前，所述第一姓名也需要按照上述的姓名的编码方式编码，步骤13得到所述第一姓名的国籍的编码，一个N维向量，通过将所述第一姓名的国籍的编码反编码，得到所述第一姓名的国籍。例如中国的编码可以为(1,0,0)，英国或美国的编码可以为(0,1,0)，其它国籍的编码可以为(0,0,1)，RNN模型预测姓名的国籍的编码为3维向量(0.2,0.7,0.1)，可以根据各分向量最大值对应的位置可以预测姓名国籍，最大值为0.7，则国籍预测为英国或美国；也可以根据技术人员的经验确定一个阈值，当向量的第几位大于所述阈值时，就把国籍预测成第几类，如果各分向量每一位置均小于这个阈值，就将其预测为其它国籍。

本实施例的判断交易风险的方法，如图5所示，所述方法包括：

步骤21、从交易中提取支付卡的持卡人姓名和所述支付卡的所属国。

步骤22、利用本实施例的基于循环神经网络的识别姓名的国籍的方法识别所述持卡人姓名的国籍。

步骤23、将识别出的所述持卡人姓名的国籍与所述支付卡的所属国进行比较。比较结果可能为所述持卡人姓名的国籍与所述支付卡的所属国一致，或者为所述持卡人姓名的国籍与所述支付卡的所属国不一致。

步骤24、根据比较结果判断所述交易的风险。其中，比较结果可以直接用来判断所述交易是否为欺诈交易，如所述持卡人姓名的国籍与所述支付卡的所属国一致，则交易非欺诈交易，所述持卡人姓名的国籍与所述支付卡的所属国不一致，则交易为欺诈交易；所述比较结果还可以作为现有风控模型的一个变量，用以判断所述交易是否为欺诈交易。

本实施例将识别持卡人姓名的国籍应用到判断交易的风险中，可以提高风控模型的性能，更准确地判断交易的风险。

实施例2

本实施例提供一种基于循环神经网络的识别姓名的国籍的系统，其中，所述循环神经网络的结构如图1所示，包括输入层、隐藏层和输出层。所述输入层为姓名的编码，所述隐藏层为所述输入层的当前输入和所述隐藏层的前一隐藏层的函数，所述输出层为所述姓名的国籍的编码。

如图6所示，所述系统包括：

建模单元31，用于基于所述循环神经网络建立RNN模型。

输入单元32，用于将待识别的第一姓名输入所述RNN模型。

输出单元33，用于所述RNN模型输出所述第一姓名的国籍。

其中，所述建模单元31具体包括：

样本模块311，用于获取若干样本及每一样本对应的真实标签，所述样本为姓名，所述真实标签为姓名的真实国籍。

抽取模块312，用于从所述若干样本中抽取部分样本及对应的真实标签用作训练集，剩余的样本及对应的真实标签用作测试集。

训练模块313，用于基于所述循环神经网络，利用所述训练集训练RNN模型。

测试模块314，用于利用所述测试集验证S₁₃训练后的RNN模型，得到优化后的RNN模型。

下面对所述训练模块313做进一步说明：

将姓名中的每个字母分别转换为26维的向量，所述向量包括0和1，其中1在所述向量中的位置与所述字母在英文字母表中排序的位置相同，所述向量中的其余位置均为0。

姓名的国籍的编码方式为：

国籍的编码为N维向量，N等于所述训练集中国籍的种数。

所述循环神经网络的激活函数是tanh函数；

S_t＝tanh(Ux_t+Ws_t-1)

其中，是输出层；V是隐藏层s_t到输出层的权重系数。

i＝σ(x_tUⁱ+s_t-1Wⁱ)

f＝σ(x_tU^f+s_t-1W^f)

o＝σ(x_tU^o+s_t-1W^o)

g＝tanh(x_tU^g+s_t-1W^g)

c_t＝c_t-1°f+g°i

s_t＝tanh(c_t)°o

具体地，所述训练模块313用于：

所述输入层输入所述训练集，所述隐藏层为LSTM层；

所述LSTM层通过时间的向前传播计算当前梯度；

确定

得到训练后的RNN模型。

下面对所述测试模块314做进一步说明：

所述测试模块314用于：

最终得到的优化后的RNN模型，即为所述输入单元32输入所述第一姓名的RNN模型。输入RNN模型之前，所述第一姓名也需要按照上述的姓名的编码方式编码，所述输出单元33得到所述第一姓名的国籍的编码，一个N维向量，通过将所述第一姓名的国籍的编码反编码，得到所述第一姓名的国籍。

本实施例的判断交易风险的系统，如图7所示，所述系统包括：

提取单元41，用于从交易中提取支付卡的持卡人姓名和所述支付卡的所属国；

本实施例的基于循环神经网络的识别姓名的国籍的系统42，用于识别所述持卡人姓名的国籍；

比较单元43，用于将识别出的所述持卡人姓名的国籍与所述支付卡的所属国进行比较；

风控单元44，用于根据比较结果判断所述交易的风险。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种基于循环神经网络的识别姓名的国籍的方法，其特征在于，所述循环神经网络的输入层为姓名，所述循环神经网络的隐藏层为所述输入层的当前输入和所述隐藏层的前一隐藏层的函数，所述循环神经网络的输出层为所述姓名的国籍；

所述方法包括：

S₁、基于所述循环神经网络建立RNN模型；

S₂、将待识别的第一姓名输入所述RNN模型；

S₃、所述RNN模型输出所述第一姓名的国籍。

2.如权利要求1所述的基于循环神经网络识别姓名的国籍的方法，其特征在于，S₁包括：

3.如权利要求2所述的基于循环神经网络识别姓名的国籍的方法，其特征在于，所述输入层为所述姓名的编码，所述输出层为所述姓名的国籍的编码；

4.如权利要求3所述的基于循环神经网络识别姓名的国籍的方法，其特征在于，姓名的编码通过以下步骤获得：

国籍的编码为N维向量，N等于所述训练集中国籍的种数。

5.如权利要求2所述的基于循环神经网络识别姓名的国籍的方法，其特征在于，所述循环神经网络的激活函数是tanh函数；

S_t＝tanh(Ux_t+Ws_t-1)

{\hat{y}}_{t} = S O F T M A X ({Vs}_{t})

其中，是输出层；V是隐藏层s_t到输出层的权重系数。

6.如权利要求5所述的基于循环神经网络识别姓名的国籍的方法，其特征在于，所述循环神经网络选用以下的网络结构：

i＝σ(x_tUⁱ+s_t-1Wⁱ)

f＝σ(x_tU^f+s_t-1W^f)

o＝σ(x_tU^o+s_t-1W^o)

g＝tanh(x_tU^g+s_t-1W^g)

c_t＝c_t-1°f+g°i

s_t＝tanh(c_t)°o

7.如权利要求5所述的基于循环神经网络识别姓名的国籍的方法，其特征在于，S₁₃包括：

所述输入层输入所述训练集，所述隐藏层为LSTM层；

所述LSTM层通过时间的向前传播计算当前梯度；

确定

得到训练后的RNN模型。

8.如权利要求7所述的基于循环神经网络识别姓名的国籍的方法，其特征在于，S₁₄包括：

9.一种判断交易风险的方法，其特征在于，所述方法包括：

从交易中提取支付卡的持卡人姓名和所述支付卡的所属国；

利用权利要求1-8中任意一项所述的基于循环神经网络的识别姓名的国籍的方法识别所述持卡人姓名的国籍；

根据比较结果判断所述交易的风险。

10.一种基于循环神经网络的识别姓名的国籍的系统，其特征在于，所述循环神经网络的输入层为姓名，所述循环神经网络的隐藏层为所述输入层的当前输入和所述隐藏层的前一隐藏层的函数，所述循环神经网络的输出层为所述姓名的国籍；

所述系统包括：

建模单元，用于基于所述循环神经网络建立RNN模型；

输入单元，用于将待识别的第一姓名输入所述RNN模型；

输出单元，用于所述RNN模型输出所述第一姓名的国籍。

11.如权利要求10所述的基于循环神经网络识别姓名的国籍的系统，其特征在于，所述建模单元包括：

12.如权利要求11所述的基于循环神经网络识别姓名的国籍的系统，其特征在于，所述输入层为所述姓名的编码，所述输出层为所述姓名的国籍的编码；

13.如权利要求12所述的基于循环神经网络识别姓名的国籍的系统，其特征在于，姓名的编码通过以下方式获得：

国籍的编码为N维向量，N等于所述训练集中国籍的种数。

14.如权利要求12所述的基于循环神经网络识别姓名的国籍的系统，其特征在于，所述循环神经网络的激活函数是tanh函数；

S_t＝tanh(Ux_t+Ws_t-1)

{\hat{y}}_{t} = S O F T M A X ({Vs}_{t})

其中，是输出层；V是隐藏层s_t到输出层的权重系数。

15.如权利要求14所述的基于循环神经网络识别姓名的国籍的系统，其特征在于，所述循环神经网络选用以下的网络结构：

i＝σ(x_tUⁱ+s_t-1Wⁱ)

f＝σ(x_tU^f+s_t-1W^f)

o＝σ(x_tU^o+s_t-1W^o)

g＝tanh(x_tU^g+s_t-1W^g)

c_t＝c_t-1°f+g°i

s_t＝tanh(c_t)°o

16.如权利要求15所述的基于循环神经网络识别姓名的国籍的系统，其特征在于，所述训练模块用于：

所述输入层输入所述训练集，所述隐藏层为LSTM层；

所述LSTM层通过时间的向前传播计算当前梯度；

确定

得到训练后的RNN模型。

17.如权利要求16所述的基于循环神经网络识别姓名的国籍的系统，其特征在于，测试模块用于：

18.一种判断交易风险的系统，其特征在于，所述系统包括：

权利要求10-17中任意一项所述的基于循环神经网络的识别姓名的国籍的系统，用于识别所述持卡人姓名的国籍；

风控单元，用于根据比较结果判断所述交易的风险。