CN106547738A

CN106547738A - 一种基于文本挖掘的金融类逾期短信智能判别方法

Info

Publication number: CN106547738A
Application number: CN201610951973.2A
Authority: CN
Inventors: 邱峰; 张满才
Original assignee: BEIJING EMAY SOFTCOM TECHNOLOGY Ltd
Current assignee: BEIJING EMAY SOFTCOM TECHNOLOGY Ltd
Priority date: 2016-11-02
Filing date: 2016-11-02
Publication date: 2017-03-29
Anticipated expiration: 2036-11-02
Also published as: CN106547738B

Abstract

本发明公开了一种基于文本挖掘的金融类逾期短信智能判别方法，属于文本数据挖掘领域。本发明方法主要包括：获取短信文本进行分词，计算短信文本的相似度，提取短信模板；对短信模板抽样标注是否为金融逾期短信；对所有短信模板进行分词，挖掘新词和领域词组，形成新词库；用新词库对短信模板重新分词，提取对逾期判别具有重要价值的分词，组成特征向量空间；将标注的短信模板作为训练数据，采用支持向量机算法训练金融逾期分类器模型，训练好后输入所有短信，进行逾期分类判别。采用本发明方法，可以快速地从大量短信文本中提取金融逾期类相关的短信，从而为个人征信业务提供重要参考价值。

Description

一种基于文本挖掘的金融类逾期短信智能判别方法

技术领域

本发明属于文本数据挖掘领域，涉及短信数据的语义分析技术，具体涉及一种金融类逾期短信智能判别方法。

背景技术

随着互联网金融的迅猛发展以及各类银行信贷业务的发展，越来越多的具有经济自主能力的人参与到了借贷事务中，借贷行为已经成为一种普遍经济行为。而为了规范借贷市场，降低授信成本，增强信用意识，营造诚信氛围，个人征信已越来越得到重视。用户通过互联网金融平台产生借贷行为或与各类银行发生借贷关系，都会收到一些相应的短信通知，在个人征信数据收集过程中，这类短信成为非常重要的个人征信数据来源，而其中与金融逾期相关的短信尤其具有重要价值。如何从大量的短信文本中提取出金融逾期相关的短信，具有非常好的现实意义和技术价值。

现有的文本类分类判别技术主要分为两种：监督的和非监督的。监督模型一般采用K最邻近结点算法(KNN)、朴素贝叶斯和支持向量机(SVM)、最大熵的分类模型，其中涉及到关键词的提取和极性判断，这种方法与关键词词典的构建有很大关系，需要完备的关键词词典。所建立的分类模型和特定领域有很大关系，对某一个领域构建的模型很可能对另外一个领域不太适用。同时，构建关键词词典费时费力。由于评论中存在大量的噪音，对训练样本的质量有一定的影响，使得训练出来的模型受到影响，影响分类的准确度和召回率。非监督模型一般是基于主题模型进行的改进，这种模型的优点是泛化能力较强，并不局限于某一个领域，但是结果精度往往比较差，缺乏有监督的指导。

在有监督的文本分类判别方法中，主要是将文本进行分词，对分词进行贝叶斯判别或将分词转化为向量表示从而运用支持向量机算法，这类方法都认为同时出现在一个文本中的两个分词之间近似是相互独立的，但是在实际运用中，尤其是短信类文本中，由于通过短信服务平台发送的短信基本来自于银行等金融机构、租赁借贷机构、学校或社团以及各类手机app平台，这类短信文本本身基于一定的模板，并且都是较短的文本，因此分词之间并不能视为完全相互独立。另一方面，在有监督的学习中，训练样本的标注也是一项艰巨又重要的工作，由于金融逾期挖掘需要持续不断地对最近最新的短信文本内容进行挖掘，有可能旧的训练样本已经不再适用于新的测试语料，因此训练样本标注工作需要持续进行，大量的训练样本的标注工作是非常繁琐和耗费人力和时间的，如何对大量的训练样本进行抽样，找出能覆盖训练样本所有特征的抽样样本，从而减少样本标注工作量也是有实际意义和工程价值的。

发明内容

本发明面向短信文本的金融逾期判别问题，以及现有监督的文本分类判别方法存在针对基于主题模型的判别精度较差的问题，提供了一种基于文本挖掘的金融类逾期短信智能判别方法。

本发明提供的一种基于文本挖掘的金融类逾期短信智能判别方法，包括以下步骤：

步骤1：批量获取通过短信服务平台推送的短信文本；

步骤2：对步骤1获取到的短信文本逐条进行分词，并去除停用词；

步骤3：提取短信模板。根据步骤2得到的分词结果，计算两个短信文本的相似度；设置相似度阈值，若两条短信文本的相似度大于阈值，则认为两条短信相似，属于同一个模板，提取短信模板；

步骤4：对步骤3提取出的短信模板，抽样人工标注其是否为金融逾期短信；

步骤5：对步骤3得到的所有短信模板进行分词，并挖掘新词和领域词组；

步骤6：将步骤5得到的新词和领域词组加入分词词库形成新词库，后续步骤的分词过程采用该新词库；

步骤7：对步骤3提取出的所有短信模板运用新词库重新分词，通过TF-IDF算法计算各个分词的重要程度，提取对逾期判别具有重要价值的分词；

步骤8：将步骤7提取的所有分词组成词向量，构成特征空间Feature＝(to₁,to₂,…,to_n)，其中，to_i为步骤7提取的分词，i＝1,2,…,n；

步骤9：将步骤4标注的短信模板作为训练数据，采用支持向量机算法训练金融逾期分类器模型；

步骤10：将所有短信模板文本作为测试数据，输入步骤9训练的分类器模型进行逾期分类判别。

相对于现有技术，本发明的优点和积极效果在于：

(1)本发明考虑到短信文本提取的分词不能视为相互独立，为了提高模型判别精度，在构建特征维度前，首先提取词组和短语，提出一种快速构建关键词词典的方法，以提高智能判别金融逾期类短信的精度；

(2)本发明考虑到样本标注工作的繁重和持续性，提出一种基于模板的快速对训练样本进行抽样的方法；本发明能够智能地判别金融逾期类短信，具有较高的精确度和工程实用价值。

附图说明

图1为本发明提供的金融类逾期短信智能判别方法的整体步骤流程示意图；

图2为本发明采用汉明距离的短信文本相似度度量方法流程示意图；

图3为本发明采用余弦值的短信文本相似度度量方法流程示意图；

图4为本发明中新词和领域词组的挖掘过程示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案进行详细说明。

本发明方法中所处理的短信来自于银行等金融机构、租赁借贷机构、学校或社团以及各类手机app平台向其用户推送，短信内容大都基于一定的模板，针对基于主题模型的判别精度较差的问题，提出了一种有监督的逾期短信智能判别模型，考虑到短信文本提取的分词不能视为相互独立，为了提高模型判别精度，在构建特征维度前，首先提取词组和短语，提出了一种快速构建关键词词典的方法；考虑到样本标注工作的繁重和持续性，提出了一种基于模板的快速对训练样本进行抽样的方法，本发明能够智能地判别金融逾期类短信，具有较高的精确度和工程实用价值。

下面对本发明的基于文本挖掘的金融类逾期短信智能判别方法的各步骤进行说明，并利用该方法找出一个月内收集到的通过短信群发平台发送的短信数据共12930292条来验证本发明。

步骤1：获取通过某短信发送服务平台发送的一个月内的短信文本数据。

步骤2：对步骤1获取到的短信语料逐条进行分词，并去除停用词。本发明实施例中选用Ansj开源中文分词器，并添加搜狗词库，丰富其语料库。

例如对于短信语料“温馨提示：您本期车贷6511.10元将于2014-1-07到期，请于该日上午十点前足额存入卡号尾号为0440的账户，以免逾期影响信用记录|。”

通过该步骤得到：

[温馨/a,提示/v,：/w,您/r,本期/r,车贷/n,6511.10元/m,将/d,于/p,2014/m,-,1/m,-,07/m,到期/v,，/w,请于/v,该/r,日/j,上午/t,十点/m,前/f,足额/vd,存入/v,卡号/nz,尾号/n,为/p,0440/m,的/uj,账户/n,，/w,以免/c,逾期/v,影响/vn,信用/n,记录/v,|,。/w]

分词结果包括每个词以及其词性。每个词的后面标注有词性，例如a代表形容词，v代表动词，w代表标点符号，r代表代词，m代表数量词，n代表名词，p代表介词等。

步骤3：提取短信模板。根据分词结果，计算两个短信文本的相似度，设置相似度阈值，对于相似度大于阈值的两条短信文本，则认为两条短信相似，属于同一个模板，从而提取短信模板。可以采用汉明距离或者余弦值对短信文本进行相似度度量。

以下面几条短信语料为例说明提取短信模板的过程。

语料1：截止今日您已严重逾期达14天，逾期金额4145.01元。请立即还款并致电4008811333，我司保留采取进一步法律措施的权利。

语料2：截止今日您已严重逾期达14天，逾期金额3314.41元。请立即还款并致电4008811333，我司保留采取进一步法律措施的权利。

语料3：您本期车贷5034.36元将于元旦期间到期,我司将于节后2016年1月4日上午十点进行扣款,请提前足额存入卡号尾号为8193的账户,并请确保扣款时账户资金足额，以免逾期影响信用记录。

语料4：尊敬的纳税人，请于2015年12月31日前缴清本年应缴个人住*房房*产税，逾期将加收滞纳金，半年内未缴清欠税的将纳入个人社会征信体系。您可通过付费通网站、上海银行、邮政储蓄银行、农商银行及税务专窗缴纳。详见上海税务网或致电12366咨询。如已缴纳，无须理会。**税务友情提醒。

语料5：您本期车贷10551.17元将于元旦期间到期,我司将于节后2016年1月4日上午十点进行扣款,请提前足额存入卡号尾号为0920的账户,并请确保扣款时账户资金足额，以免逾期影响信用记录。

本发明采用汉明距离的短信文本相似度度量方法如下：

步骤3-1.1：为每条短信文本生成一个特征向量，根据分词结果，将该短信文本的每个分词作为特征向量的一个特征维度，每个特征的权重为对应分词在该短信文本中的出现次数。

步骤3-1.2：将一个f维的向量V初始化为0；f位的二进制数S初始化为0。

步骤3-1.3：对步骤3-1.1中的每条短信的每个特征：用传统的hash算法对该特征产生一个f位的签名b。对每条短信，根据特征的签名来确定向量V。

依次取各特征的签名b，遍历b的每一位，如果b的第i位为1，则设置V的第i个元素加上该特征的权重；否则，设置V的第i个元素减去该特征的权重。在遍历完短信的各特征签名后得到最终的向量V。

步骤3-1.4：对每条短信文本，根据最终的向量V确定S。如果V的第i个元素大于0，则S的第i位为1，否则S的第i位为0。将所得到的S作为短信文本的签名。

步骤3-1.5：计算两短信文本的相似度，相似度采用汉明距离来度量，定义如下：

设两短信文本运用上面的Simhash算法，在步骤3-1.4产生的签名分别为fingerprint1和fingerprint2，则之间的汉明距离定义为：将fingerprint1变为fingerprint2所需要作的最小替换次数。

本发明实施例中设置相似度汉明距离阈值为10。

语料1的Simhash签名值为10100101011010111011001001011101

语料2的Simhash签名值为10100101011010111011001001011101

语料3的Simhash签名值为10100011001010111000100101101010

语料4的Simhash签名值为00000100000011010100101010111000

语料5的Simhash签名值为10100011001010111000100101101010

语料1作为第一个短信模板；

语料2与语料1的汉明距离为0，故语料2不作为模板；

语料3与语料1的汉明距离为13，大于相似度最大阈值10，认为与已有模板都不相似，故语料3作为模板；

语料4与语料1的汉明距离为17，与语料3的汉明距离为16，都大于相似度最大阈值，认为与已有模板都不相似，故语料4作为模板；

语料5与语料1的汉明距离为13，与语料3的汉明距离为0，认为与语料3相似，故不作为模板。

从而得到短信模板如下：

本发明实施例中对输入语料共提取短信模板28491条，为方便描述，将该28491条短信模板称为“短信模板”。

采用余弦值的短信文本相似度度量方法如下：

步骤3-2.1：根据分词结果，取两个短信文本的分词的并集作为词向量，建立词向量空间，为方便描述，假设所建立的词向量空间为：C＝(c₁,c₂,…,c_m)，m表示词向量空间的词量，c₁,c₂,…,c_m表示其中的各分词。

步骤3-2.2：将两短信文本分别用m维向量表示，对于任意0<i≤m，若短信文本中包含词向量C的第i维度对应的分词，则该短信文本的向量的第i维度取值为1，否则为0。即短信文本的向量D1表示为：

D1＝(d1₁,d1₂,…,d1_m)

步骤3-2.3：计算两条短信文本的相似度。两短信文本的相似度sin定义为：

sim＝(D1·D2)/(|D1|×|D2|)

其中，D1和D2分别为两条短信文本的向量。

D1·D2为D1与D2的点积，D1·D2＝d1₁*d2₁+d1₂*d2₂+…+d1_m*d2_m。

|D1|为向量D1的模，

步骤4：对步骤3提取出的短信模板，抽样人工标注其是否为金融逾期短信。

例如上述语料中，语料1和语料2为金融逾期短信，语料3，语料4和语料5为非金融逾期短信。

步骤5：对步骤3得到的所有短信模板进行分词，并挖掘新词和领域词组。挖掘新词和领域词组的实现包括步骤5.1至步骤5.4。

步骤5.1：把短信文本中出现过的连续不超过d个分词组成的子串都当作潜在的新词或词组。为方便描述，以下将新词和词组统一简称为词组，因为词组也可能是一个新词。计算所有词组的出现频数。频数即词组在所有短信模板中的出现次数。此处的d为大于2的正整数。

步骤5.2：对步骤5.1中出现频数超过设定阈值U的词组，计算其凝固度。U根据需要或经验来设定。凝固度定义如下：

为方便描述，若词组A为a和b这2个分词按序排列组成，则记A＝ab。

词组或分词x的频数记作f(x)。定义分词或词组x在所有短信文本中的出现概率为：

其中，ftotal为所有短信文本的总分词个数。

对于词组A＝abc，其中a，b和c为分词，则词组A的凝固度co(A)为：

步骤5.3：对步骤5.1中出现的频数超过设定阈值U的词组，计算其自由度。自由度定义如下：

对于一个词组，其左邻词为与其相邻且出现在其左侧的分词，其右邻词为与其相邻且出现在其右侧的词。

用信息熵来衡量其左邻词的随机性，其左邻词的信息熵S(nleft)定义为：

其中，n为左邻词个数，l_i表示词组的左邻词，i＝1,2,…,n；P(l_i)表示l_i的概率，计算公式为：

右邻词定义与左邻词定义类似，设右邻词的信息熵为S(right)，

此处m为右邻词个数，r_i表示词组的右邻词，i＝1,2,…,m；P(r_i)表示r_i的概率。

则词组A的自由度为free(A)＝S(left)+S(right)。

步骤5.4：设置凝固度阈值threshco和自由度阈值threshfree，则由步骤5.2与步骤5.3得到的所有词组的凝固度和自由度，筛选出其中凝固度>threshco且自由度>threshfree的词组，即为提取出的新词和领域词组。

本发明实施例以下述语料为例说明词组挖掘过程。

“**先生，您的借款已逾期1天，欠款金额为2969.00元，逾期行为严重影响信用记录，请您慎重对待并立即处理。”

该短信经过分词得到：

先生/n,，/w,您/r,的/uj,借款/n,已/d,逾期/v,1天/m,，/w,欠款/n,金额/n,为/p,2969.00元/m,，/w,逾期/v,行为/n,严重/a,影响/vn,信用/n,记录/v,，/w,请/v,您/r,慎重对待/l,并/c,立即/d,处理/v,。/w]

考察子串“已逾期”：

短信模板的总分词个数为870428个，“已逾期”在短信模板中出现次数为1942次，分词“已”出现次数为8392次，分词“逾期”出现次数为6922次，故词组“已逾期”的凝固度为：

统计“已逾期”的左邻词和右邻词，如下：

其左邻词包括：

{借款：出现940次，现：出现490次，车贷：出现23次，租金：出现84次，银子：出现4次，房租：出现9次，贷款：出现31次，还款：出现8次，收款：出现39次，无左邻词：出现314次}

其右邻词包括：

{*天：出现1098次，无右邻词：出现844次}

则“已逾期”的左邻词信息熵为：

“已逾期”的右邻词信息熵为：

故“已逾期”的自由度为free(“已逾期”)＝0.602+0.297＝0.899

本发明实施例中，设置凝固度阈值为10，设置自由度阈值为0.5，这两个阈值的具体取值视具体数据集和实验而定。故词组“已逾期”的凝固度高于凝固度阈值，且其自由度高于自由度阈值。

按照该方法得到新词和领域词组示例如下：

融资租赁合同，现已逾期，已逾期，逾期状态，严重逾期，避免逾期，以免逾期，逾期款，逾期款项，逾期账单，将于，严重违约，到达还款期，已经逾期，还款期次，总期次，逾期将影响信用记录，即将到期，立即处理，没收定金，法律手段，多次通过，日趋严重，征信系统，征信机构，逾期违约金，联金微贷，信用记录，以免逾期影响信用记录，避免继续逾期，避免造成不良影响，逾期退回，逾期行为，严重影响

步骤6：将步骤5得到的新词和领域词组加入分词词库，后续步骤的分词过程采用该新词库。

步骤7：对步骤3提取出的所有短信模板运用步骤6得到的新词库重新分词，通过TF-IDF算法计算各个分词的重要程度，从而提取对逾期判别具有重要价值的分词。步骤7具体包括如下步骤7.1～7.3。

步骤7.1：对步骤3提取出的所有短信模板运用步骤6得到的新词库重新分词。

步骤7.2：计算步骤7.1得到的分词的TF-IDF。其中，TF为某一个给定的词语在该短信文本中出现的次数，IDF为逆向文件频率，可以由总短信数目除以包含该词语之短信的数目，再将得到的商取对数得到。具体地，TF和IDF计算公式为：

对于在某一短信模板d_j中的分词t_i，分词t_i的TF计算如下：

其中，n_i,j是t_i在短信d_j中的出现次数。∑_kn_k,j是短信d_j的总分词数。

分词t_i的IDF计算如下：

其中，|D|是短信模板总数，|{j:t_i∈d_j}|是包含词语t_i的所有短信模板数目。

词语t_i的TF-IDF＝tf_i,j×idf_i。

步骤7.3：设置TF-IDF阈值threshtfidf，则从步骤7.2中得到的所有分词筛选出TF-IDF高于threshtfidf的分词作为对逾期判别具有重要价值的分词。

本发明继续以下述语料为例说明该过程。

该短信经过分词得到：

先生/n,，您/r,的/uj,借款/n,已逾期/v,1天/m,欠款/n,金额/n,为/p,2969.00元/m,逾期行为/n,严重影响/vn,信用记录/n,请/v,您/r,慎重对待/l,并/c,立即处理/v]

考察子串“已逾期”：

在该语料中出现了1次，该语料总分词数为18，包含“已逾期”一词的短信数目为1942，短信模板总数为28491。因此：

TF-IDF＝tf_i,j×idf_i＝0.0476

设置TFIDF阈值，或者取TF-IDF排序的前n个分词，作为对逾期判别有重要意义的词。

本发明实施例中，提取出的分词集合为：

已逾期，逾期，月，于，足额，元，万，还款，将，影响，扣款，以免，本期，到期，信用记录，尾号，前，贷，存入，车，按，提前，合同约定，温馨提示，本，资金，敬请，确保，卡号，垂询，周末，已，账单，进行，避免，查看，主动，借款，造成不良影响，公众，不要，关注，页面，询问，搜索，借出，加急，尽快，移动支付，及时，联系，违章，处理，通知，罚息，产生，借款人，通过，利息，欠款，次，本息，违约金，现已，余额，手机号，金额为，客户经理，部分，总额，充足，联系电话，订单，还款期，时间，保证，还款额，立即，本金，服务，请于，款项，信用，缴纳，担保公司，之前，身份证，完成，否则，咨询，查询，公积金贷款，银行卡，温馨提醒，当期，日前，依法，登陆由于，偿还，当前，务必，服务费，截至，支付，欠，租用，失败，贷款，经销商，催收，发生，实得，姓名，相应，配合，罚金，协调，滞纳金，冻结，严重，邮件，应得，点击，已经，提醒，不足，月份，指定，罚，到达，自动还款，款，征信，有笔，车辆，手续费，未处理，注明，直至，暂扣，用车，一并，详细，所限，扫描，交警，存在，处理完毕，处理方式，车牌号，结清，系统，金额，拟将，自动，担保，办理，督促，带来不利，管理费，账户余额，确认，安排，确保您，机构，编号，不良信息，收到，联动，管理费用，买家，客服，状态，提起诉讼，视为，租金，恶意，处于，签约，按期，用于，截止，相关，应于，退回，融资，损失，金融工场，增加，本月，出行，在线商城，营业部，退款，纪录，信贷，信用卡申请，房贷，代价，个人信用，笔，续约，取消，行为，直接，存款，用户，资格，实际，详情，切记，即刻，运营，短信，欠费，缴，预，已扣，费，充，存，即将，扣，购买，获得，提示，开始，交易，退还给，内处理，客户端，重视，收取，任何，速将，采取，单，扣除，慎重对待，公安机关，工作日，费用，报案，情况，更改，变更，以备，快件，扣划，个人信用记录，方式，法律，人民币，支出，时期，额外，换货，对公，过期，融资租赁，正常，规定，部门，补缴，授权，仍，急电，记录，显示，妥善处理，损害，联系人，投资，到账，重新，成功，提前还款，利息费用，商品，要求，不再，亲友，央行，未能，恭喜，委托，及时处理，划，支付业务，移动，尚有，经营，合计，购车，保留，积分，催告，足够，逾期违约金，未免，白条，按时，还款计划，上报，如下，权利，难以挽回，拒不，特此通知，速，直接联系，签收，追回，上传，取回，有限公司，一笔，付款，此类，主要用于，再不，已于，剩余，收回，收款，领取，项目，超，债权，网点，日趋严重，公司法人，征信系统，逾，投资项目，资金周转，操作，交予，呼叫，顾客，付款凭证，取得联系，欢迎，承担，仍未，全部，利益，仅剩，合法，到访，车款，审慎，评价，发货，预订，有待，无法，未付，提前准备，至今，手段，支持，约定，信函，限时，联络，缴款，多次通过，完毕，清零，风险，法律手段，已经完成，抱歉，转告，逃债，审批，查收，注意，退货，逃避，超时，房屋，情况严峻，理由，失效，汇至，催款，明细，尽早，代扣，受理，少于，记入，中标，债权转让，收益，取下，预留，提供，即将到期，免责，没收定金，担保机构，代签，资信，诈骗，涉嫌，缴付，分期，法律责任，充值，原材料，销售店，现金，委托代理，违约，退，所管，收费，事宜，融资租赁合同，烦请，措施，本人，现已逾期，逾期状态，严重逾期，避免逾期，以免逾期，逾期款，逾期款项，逾期账单，将于，严重违约，到达还款期，已经逾期，还款期次，总期次，逾期将影响信用记录

步骤8：将步骤7所提取得到的439个分词组成词向量，构成特征空间，该特征空间维度为441，表示为：Feature＝(to₁,to₂,…,to₄₄₁)，to_i表示步骤7所提取的某个分词。

步骤9：将步骤4标注的短信数据作为训练数据，采用支持向量机算法训练金融逾期分类器模型。所述的步骤9的实现步骤如下：

步骤9.1：对标注的短信模板进行重新分词，分词词库采用上述步骤6所述的新词库。

本发明实施例继续以下述语料为例说明该过程。

该短信经过分词得到：

先生/n,您/r,的/uj,借款/n,已逾期/v,1天/m,欠款/n,金额/n,为/p,2969.00元/m,逾期行为/n,严重影响/vn,信用记录/n,请/v,您/r,慎重对待/l,并/c,立即处理/v]

步骤9.2：根据步骤9.1的分词结果，对所有标注的短信模板，计算特征向量：

设某一短信模板M的特征向量表示为M＝{m₁,m₂,…,m_n}，则：

m_i表示特征向量M的第i个元素值。所得到的特征向量可以以标记特征顺序的方式表示，将m_i取值为1的元素表示为：位于特征空间Feature中的顺序:1。

从而得到所有标注的短信模板的特征向量集合。，同时。

本发明实施例根据步骤9.1的分词结果，该短信的特征向量以标记特征顺序的方式表示为：1:1,6:1,15:1,38:1,60:1,153:1,240:1。

步骤9.3：选择高斯径向基函数(Radial Basis Function)作为核函数，表示为：

xc为核函数中心，σ为函数的宽度参数，此处x为空间中任意一点。

步骤9.4：交叉训练最优模型参数c和σ，c为惩罚因子，σ为步骤9.3中核参数，该参数使得模型针对样本分类具有最高精度。

步骤9.3与9.4采用LibSVM软件的Train函数进行计算，最后得到金融逾期分类器模型。

步骤10：将所有短信文本数据作为测试数据，输入步骤9训练的分类器模型进行逾期分类判别。

步骤10.1：对所有短信文本采用步骤6所述的新词库进行分词；

步骤10.2：采用与步骤9.2一样的方法对短信数据进行向量化表示。根据步骤10.1的分词结果，计算各短信的特征向量。

设短信M的特征向量表示为M＝{m₁,m₂,…,m_n}，则：

从而得到特征向量集合，同时所得到的特征向量可以以标记特征顺序的方式表示，将m_i取值为1的元素表示为：位于特征空间Feature中的顺序:1。

步骤10.3：将步骤10.2中产生的所有短信的特征数据作为测试集输入步骤9中训练的分类器模型进行分类判定，输出判别为金融类逾期的短信。

本发明实施例中采用LibSVM软件的Predict函数，利用步骤9得到的模型，对短信数据进行金融逾期判别。最后得到金融逾期类短信75923条。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于文本挖掘的金融类逾期短信智能判别方法，其特征在于，包括以下步骤：

步骤1：批量获取通过短信服务平台推送的短信文本；

步骤2：对短信文本逐条进行分词，并去除停用词；

步骤3：根据分词结果，计算两个短信文本的相似度；设置相似度阈值，若两条短信文本的相似度大于阈值，则认为两条短信相似，属于同一个模板，提取短信模板；

步骤4：对所提取出的短信模板，抽样人工标注其是否为金融逾期短信；

步骤5：对所提取出的所有短信模板进行分词，并挖掘新词和领域词组；

步骤6：将步骤5得到的新词和领域词组加入分词词库，形成新词库；

步骤7：对步骤3提取出的所有短信模板利用新词库重新分词，通过TF-IDF算法计算各个分词的重要程度，提取对逾期判别具有重要价值的分词；

步骤8：将步骤7提取的分词组成词向量，构成特征空间Feature＝(to₁,to₂,…,to_n)，其中，to_i为步骤7提取的分词，i＝1,2,…,n；

步骤10：将所有短信文本作为测试数据，输入训练好的金融逾期分类器模型，进行逾期分类判别。

2.根据权利要求1所述的一种基于文本挖掘的金融类逾期短信智能判别方法，其特征在于，所述的步骤3中，采用汉明距离对短信文本进行相似度度量，实现步骤包括：

步骤3-1.1：为每条短信文本生成一个特征向量；将短信文本的每个分词作为特征向量的一个特征维度，每个特征的权重为对应分词在该短信文本中的出现次数；

步骤3-1.2：将一个f维的向量V初始化为0；将一个f位的二进制数S初始化为0；

步骤3-1.3：对每条短信文本，首先，用哈希算法对每个特征产生一个f位的签名b；然后，根据依次取各特征的签名b，更新向量V；对每个特征的签名b，遍历b的每一位，如果b的第i位为1，则更新V的第i个元素加上该特征的权重；否则，更新V的第i个元素减去该特征的权重；在遍历完短信文本的各特征签名后得到最终的向量V；

步骤3-1.4：对每条短信文本，根据最终的向量V确定S；如果V的第i个元素大于0，设置S的第i位为1，否则设置S的第i位为0；将所得到的S作为短信文本的签名；

步骤3-1.5：采用汉明距离来度量两短信文本的相似度；

设两短信文本的签名分别为fingerprint1和fingerprint2，则两短信文本之间的汉明距离定义为：将fingerprint1变为fingerprint2所需要做的最小替换次数。

3.根据权利要求1所述的一种基于文本挖掘的金融类逾期短信智能判别方法，其特征在于，所述的步骤3中，采用余弦值对短信文本进行相似度度量，实现步骤包括：

步骤3-2.1：根据分词结果，取两个短信文本的分词的并集建立词向量空间，表示为：

C＝(c₁,c₂,…,c_m)

其中，c₁,c₂,…,c_m表示词向量空间中的m个分词；

步骤3-2.2：将两短信文本分别用m维向量表示，对于任意0<i≤m，若短信文本中包含词向量C的第i维度对应的分词，则该短信文本的向量的第i维度取值为1，否则取值为0；

步骤3-2.3：计算两条短信文本的相似度；两短信文本的相似度sin定义为：

sim＝(D1·D2)/(|D1|×|D2|)

其中，D1和D2分别为两条短信文本的向量。

4.根据权利要求1所述的一种基于文本挖掘的金融类逾期短信智能判别方法，其特征在于，所述的步骤5中，挖掘新词和领域词组的实现过程为：

步骤5.1：把短信文本中出现的连续不超过d个分词组成的子串都当作潜在的新词或词组，计算各新词或词组在所有短信模板中的出现频数；d为大于2的正整数；

步骤5.2：对出现频数超过设定的阈值的新词或词组，计算其凝固度；

设x表示某个词组或分词，x的出现频数记作f(x)，x在所有短信模板中的出现概率记为P(x)，其中，ftotal为所有短信模板的总分词个数；

c o (A) = m i n {\frac{p (A)}{P (a) \times P (b c)}, \frac{P (A)}{P (a b) \times P (c)}}

步骤5.3：对步骤5.1中的出现频数超过设定阈值的新词或词组，计算其自由度；

对于一个词组，其左邻词为与其相邻且出现在其左侧的分词，其右邻词为与其相邻且出现在其右侧的词；确定词组A的左邻词的信息熵S(left)和右邻词的信息熵S(right)，则词组A的自由度free(A)＝S(left)+S(right)；

步骤5.4：设置凝固度阈值threshco和自由度阈值threshfree，筛选出凝固度>threshco且自由度>threshfree的词组，作为提取出的新词和领域词组。

5.根据权利要求1所述的一种基于文本挖掘的金融类逾期短信智能判别方法，其特征在于，所述的步骤7包含以下步骤：

步骤7.1：对步骤3提取出的所有短信模板利用新词库重新分词；

步骤7.2：计算步骤7.1得到的各分词的TF-IDF；其中，TF为词语在该短信模板中出现的次数，IDF为逆向文件频率；

对于在短信模板d_j中的词语t_i，该词语的TF为tf_i,j，计算公式为：其中，n_i,j是t_i在短信d_j中的出现次数，∑_kn_k,j是短信d_j的总分词数；

词语t_i的IDF为idf_i，计算公式为：其中，|D|是短信模板总数，|{j:t_i∈d_j}|是包含词语t_i的所有短信模板数目；

词语t_i的TF-IDF＝tf_i,j×idf_i；

步骤7.3：设置TF-IDF阈值threshtfidf，从步骤7.2中得到的所有分词筛选出TF-IDF高于threshtfidf的分词作为对逾期判别具有重要价值的分词。

6.根据权利要求1所述的一种基于文本挖掘的金融类逾期短信智能判别方法，其特征在于，所述的步骤9的实现包含以下步骤：

步骤9.1：对标注的短信模板利用新词库进行重新分词；

步骤9.2：根据步骤9.1的分词结果，对所有标注的短信模板，计算特征向量；

设短信模板M的特征向量表示为M＝{m₁,m₂,…,m_n}，则当M中包含分词to_i时，m_i取值为1，否则m_i取值为0；

步骤9.3：选择高斯径向基函数作为核函数，表示为：其中，xc为核函数中心，σ为函数的宽度参数；

步骤9.4：交叉训练最优模型参数c和σ，c为惩罚因子，得到金融逾期分类器模型。

7.根据权利要求1所述的一种基于文本挖掘的金融类逾期短信智能判别方法，其特征在于，所述的步骤10，实现过程为：

步骤10.1：对所有短信文本利用新词库进行分词；

步骤10.2：根据分词结果，计算各短信的特征向量；

设短信M的特征向量表示为M＝{m₁,m₂,…,m_n}，则当M中包含分词to_i时，m_i取值为1，否则m_i取值为0；

步骤10.3：将所有短信的特征向量作为测试集，输入训练好的金融逾期分类器模型，输出判别为金融类逾期的短信。