CN107423279B

CN107423279B - 一种金融信贷短信的信息抽取和分析方法

Info

Publication number: CN107423279B
Application number: CN201710233822.8A
Authority: CN
Inventors: 程宏亮; 李炜; 饶思维; 黄蓉; 周静
Original assignee: Meritdata Technology Co ltd
Current assignee: Meritdata Technology Co ltd
Priority date: 2017-04-11
Filing date: 2017-04-11
Publication date: 2021-01-15
Anticipated expiration: 2037-04-11
Also published as: CN107423279A

Abstract

本发明公开了一种金融信贷短信的信息抽取和分析方法，包括：训练构建信贷类短信分类模型；使用信贷类短信分类模型对信贷类短信进行识别，并筛选出信贷类短信；构造关键词，并将筛选出的信贷类短信进行关键词匹配后分析具体业务类型；构造信息抽取规则模板引擎；使用信息抽取规则模板引擎对具体业务类型进行信息点的抽取与结构化输出。与现有技术相比，本发明提出了一种适用于金融领域的信贷短息的信息抽取方法，通过机器学习的分类算法和自然语言处理的信息抽取技术，结合规则引擎技术，具备高度的灵活性和可扩展性，实现短信逾期等高风险信息的自动抽取和高效识别。

Description

一种金融信贷短信的信息抽取和分析方法

技术领域

本申请涉及金融信贷短信的信息抽取与分析领域，具体涉及一种金融信贷短信的信息抽取和分析方法。

背景技术

金融机构向客户发送的短信是文本形式的，需要从这些文本短信中分析出用户是否出现逾期记录，逾期行为的具体信息，如逾期时间、逾期金额、借款机构等。对于一个拥有TB级别数据量的金融企业而言，通过人工的方式逐条筛选出逾期相关的短信需要耗费大量的时间和人力成本。

传统通过模糊查询搜索匹配相关关键字的手段，也在这样的情况下显得效率低下。一是需要人工梳理大量的关键字，以穷举所有可能的情况，可扩展需要花费精力；二是匹配的内容精准度差，效果难以保障，不能精准的识别出逾期的时间和逾期的金额；这样就不能有效地发现短信客户的失信风险，为金融风险控制和管理带来很大挑战。

发明内容

有鉴于此，从海量短信文本中精确快速地抽取和分析出所需的信息点并结构化之，需要一种更自动、更智能的方法，本申请基于自然语言处理、机器学习技术的集成，提供一种金融信贷短信的信息抽取和分析方法。本发明通过对短信文本内容进行分析，判断其是否为信贷相关；再对信贷相关的短信进行更细粒度的解析，判断其为逾期、放贷、申请等具体的业务类型；最后对逾期的短信做信息抽取，提取中其中的逾期金额、时间等，并将这些信息做结构化输出。

为了实现上述目的，现提出的方案如下：

一种金融信贷短信的信息抽取和分析方法，包括：

训练构建信贷类短信分类模型；使用信贷类短信分类模型对信贷类短信进行识别，并筛选出信贷类短信；

构造关键词，并将筛选出的信贷类短信进行关键词匹配后分析具体业务类型；

构造信息抽取规则模板引擎；使用信息抽取规则模板引擎对具体业务类型进行信息点的抽取与结构化输出。

在本发明的一个优选实施例中，所述训练构建信贷类短信分类模型，包括：

人工选取并按照信贷类和非信贷类短信数量1:1的比例构建训练数据，对训练数据的短信文本进行分词序列化；

按照一定比例随机抽取出训练集与测试集，其中训练集比例大于测试集比例，使用训练集进行信贷类短信分类模型的构建，并在测试集上进行测试。

在本发明的一个优选实施例中，从训练集短信文本集合中提取特征词条，在训练集短信文本集合中统计特征词条与类别相关的概率，存储概率分布作为模型；

在测试集上测试模型，重新调整特征词条，保留最优信贷类短信分类模型。

在本发明的一个优选实施例中，所述使用信贷类短信分类模型对短信进行识别，包括：

对输入的短信文本进行分词序列化；

挑选特征词条，查询特征词条在所述信贷类短信分类模型中的概率分布；

使用特征词条的概率分布值，并输出所述短信所属最大概率的类别，所述类别包括信贷类或非信贷类。

在本发明的一个优选实施例中，将所述短信为信贷类的概率设置一个范围值，使用特征词条获取的概率分布值大于所述范围值时候，则将所述短信输出为信贷类短信。

在本发明的一个优选实施例中，所述信贷类短信进行关键词匹配分析具体业务类型，包括：

构建关键词黑白名单词表；

对每一条信贷类短信进行匹配，得到其中命中的关键词列表；

对匹配结果进行组合决策判断，输出具体业务类型，所述具体业务类型包括逾期、放贷、申请。

在本发明的一个优选实施例中，多个关键词同时存在则构建所述具体业务类型，所述组合决策用于判断是否多个关键词同时存在。

在本发明的一个优选实施例中，所述构建信息抽取的规则模板引擎，包括：

构建注册函数用以用以识别数字和日期字符串，实现对表达形式相对固定的结构进行匹配；

构建模板Trie树、槽位词典Trie树，所述模板Trie树用以存储信息抽取的规则模板，挂载注册函数；所述槽位词典Trie树用以存储规则模板中设置的槽位的实例化词条。

在本发明的一个优选实施例中，对于利用规则模板引擎进行逾期类短信的信息点的抽取，包括：

根据分析业务的需求编写规则模板表达式，整合槽位对应的词典集合；

使用规则引擎对信贷类短信文本进行遍历匹配；

提取槽位信息并输出，所述槽位信息指代模板表达式的属性所指示的将要被提取出来的信息点。

经由上述技术方案可知，本发明公开了一种金融信贷短信的信息抽取与分析方法。该方法基于自然语言处理技术和机器学习算法对短信实现业务判别和信息提取。本方法中提供了特征选择贝叶斯概率预测的机器学习算法进行业务判别，通过构建信息抽取用规则模板引擎实现信息点的抽取分析。

与现有技术相比，本发明通过自然语言处理技术与机器学习算法支持对短信文本的自动类别识别，判断其是否为信贷类短息；对于信贷类短信，利用关键词匹配组合策略进行细粒度的子业务识别；最后使用规则模板引擎对特定子业务的短信进行信息点抽取。实现了自动化的对大数据量短信文本的快速分析和有用信息点的精准提取功能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了规则模板引擎的模板Trie树和槽位词典Trie树示意图；

图2示出了每一条待分析的短信在规则模板引擎中的匹配原理示意图；

图3示出了本发明一个实施例公开的一种金融信贷短信的信息抽取和分析方法的流程示意图；

图4示出了本发明另一个实施例公开的信贷类短信识别分类模型的线下训练与构建的流程示意图；

图5示出了本发明另一个实施例公开的基于短文本分类模型进行信贷类短信识别的流程示意图；

图6示出了本发明另一个实施例公开的使用关键词组合策略进行信贷类短信细粒度业务识别的流程示意图；

图7示出了本发明又一个实施例公开的构建信息抽取用规则模板的流程示意图；

图8示出了本发明又一个实施例公开的基于规则模板引擎进行短信文本信息抽取与格式化的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图3示出了本发明一个实施例公开的一种大数据环境下的用户异常行为智能检测和分析方法的流程示意图。

该方法包括：

S11：收集由金融机构历史发送短信数据，标注其中属于信贷类的短信，使用短信文本构建分类模型；

需要说明的是，使用带标注的信贷类短信构建分类模型，从批量短信文本中提取特征词条，

S12：使用分类模型对信贷类短信进行识别。

需要说明的是，在线对输入的短信文本判别其是否为信贷类短信是利用线下训练好的信贷类短信分类模型对输入短信文本属于据信贷类的条件概率进行计算，并输出最大概率的判别结果。

S13：通过关键词匹配对信贷类的短信进行更细粒度的业务分析，分析出其更细粒度的业务类型，是否为逾期、放贷、申请、驳回等相关类型。

需要说明的是，对细粒度的业务类型的判定通过构建业务领域专属关键词表，如“逾期”业务类型常用的关键词表包含：“逾期”、“到期”、“还款”等相关关键词，通过关键词匹配与决策规则对业务类型进行判定，如：匹配到“逾期”关键词，还需要结合短信文本的表述规则判断是否已逾期。

S14：构造支持中文匹配的规则模板引擎。该引擎由挂载了数字、日期识别的注册函数的模板Trie树与槽位词典Trie树组成，并实现了中文字符串在这两棵树上的逐字搜索匹配功能。

S15：使用规则模板引擎对逾期类短信进行信息点抽取，包括逾期金额、时间、结构等信息点。

需要说明的是，使用规则模板引擎进行信息点抽取，需要按照指定的语法规范编写相应的模板，并标注模板中需要提取的信息点的位置与类型，引擎在输入文本上运行后即可抽取出相关内容。

参见图4示出了本发明另一个实施例公开的信贷类短信识别分类模型的线下训练与构建的流程示意图；

S111：对带标注的(信贷类、非信贷类)短信文本分词序列化，并拆分文本集合为训练集与测试集。

需要说明的是，带标注的短信文本如表-1所示：

表-1

原始的文本是中文字符串，使用分词技术可以将文本转换为词的序列，如表-1中的第一条短信，分词后的结果如下所示，即由空格分隔得词序列：

“您在现金巴士的借款截止2016年07月28日逾期共计1,000元。请及时自助还款或联系客服解决。”

训练集与测试集的拆分使用随机抽选的方式，从带标注的短信文本全集中抽取80％的短信作为训练集，余下的20％用作测试集。

S112：从训练集中选取对于区分信贷类与非信贷类短信有意义的特征词条。

需要说明的是，经由分词序列化后得到的短信文本可以看作是词的集合，从中选择特征词条即找出那些对于区分信贷类与非信贷类短信有意义的词语。这里我们选择CHI-Square统计量作为选择特征词条的标准：

假设我们在已标注N条短信，其中有M条是信贷类的，其余N-M条为非信贷类，我们想考察一个词“借款”与信贷类别之间的相关性，我们有四个观察值可以使用：

特征选择	属于信贷类	属于非信贷类	总数
				包含“借款”	A	B	A+B
不包含“借款”	C	D	C+D
				总数	A+C	B+D	N

表-2

如A表示，包含“借款”这个词且被标记为信贷类的短信条目。则表中，A+C表示被标记为信贷类的短信数，故A+C＝M；那么B+D＝N-M。

更具一般性，某个词t与某个类别c的CHI-Square值就可以定义为：

最后，根据计算出的CHI-Square值的相对大小选择每个类别下的topN个词x₁,x₂,…,x_n作为特征词条。

S113：在训练集短信文本集合中统计特征词条与类别相关的概率，存储概率分布作为模型。

需要说明的是，区分短信是信贷类还是非信贷类可以看作是一个概率预测的过程，即计算短信x属于类别c的条件概率P(C|X)，由贝叶斯理论可得：

我们假设每条短信中的词条之间是相互独立的，那么短信属于某个类别可以看作是其中每个词属于特定类别的概率的乘积：

即短信X由x₁,x₂,…,x_m等m个特征词构成，则该短信属于类别C_j的概率就等于这些关键词属于类别C_j概率的乘积。而公式中的P(x_i|C_j)可以通过统计特征词x_i在属于C_j类别的短信中的次数除以C_j类短信的条数计算得到。

S114：在测试集上测试模型，重新调整特征词条，保留最优模型。

需要说明的是，使用前面步骤筛选的特征词条和统计的概率分布，对于测试集上的输入文本进行预测，即计算公式3中的条件概率；根据测试集中短信标注的信贷类、非信贷类的结果通过比对模型计算出的最大概率类别，计算准确率、召回率、F测度进行评价。并且通过更换特征词条重新统计计算模型，留取测试集上指标最好的模型。

参见图5示出了本发明另一个实施例公开的基于短文本分类模型进行信贷类短信识别的流程示意图；

所述方法具体包括：

S121：对输入短信文本进行分词序列化。

需要说明的是，对输入的短信文本使用相同的分词技术得到短信对应的词序列，该步骤与训练过程中的示例是一致的。

S122：挑选特征词条，查询模型中的概率分布。

需要说明的是，新输入的短信文本经过分词后可以生成由词构成的序列结构，从中选择所包含的特征词条集合feature＝{x₁,x₂,...,x_m}从线下训练并保存的模型，即特征词条与短信类别信息的概率分布P(x_i|C_j)中查找特征词条x_i与信贷类、非信贷类的类别共现的条件概率。

S123：计算该条短信属于各类别(信贷类、非信贷类)的概率，通过设置阈值(本文设置为0.7)，输出最大概率的类别。

需要说明的是，该过程的计算与训练阶段一致，即使用公式3直接使用特征词条与类别的条件概率相乘得到。

参见图6示出了本发明又一个实施例公开的使用关键词匹配技术进行信贷类短信细粒度业务识别的流程示意图；

所述方法具体包括：

S131：构建业务领域关键词黑白名单词表。

需要说明的是，短信文本中针对具体业务一般会有固定的关键词，这些关键词构成黑白单词表，白名单中的词是某一业务中可以出现甚至经常出现的关键词；黑名单中的词是某一业务中绝对不出现的。如申请贷款的短息中常出现关键词“申请”。

S132：对信贷类短信进行关键词匹配。

需要说明的是，根据黑白名单的关键词构建正则表达式，对每一条信贷类短信进行匹配，得到其中命中的关键词列表。

S133：对匹配结果进行组合决策判断，输出细粒度业务类型判定结果。

需要说明的是，匹配黑白名单的关键词结果是以列表的形式出现，对于最终的细粒度业务的识别需要多个组合决策来进行判定，如命中了“申请”关键词还需同时命中“贷款”才可以判定为申请相关子业务。

参见图7示出了本发明又一个实施例公开的构建信息抽取用规则模板引擎的流程示意图；

用于信息抽取的规则模板是按照特定语法规范书写的表达式，如表-3所示，其中包含了固定词语、槽位以及属性。

模板	属性
		截止[F:date][D:expire][D:total][F:num][D:rmb]	date_2,money_5

表-3

该模板“截止[F:date][D:expire][D:money][F:num][D:rmb]”中使用中括号括起来以D标记的部分[D:money]表示一个槽位，槽位的意思是可以由多种相似的词语替换，即[D:money]出现的位置可以是词语“金额、本息”等；以F标记的部分[F:date]表示一个注册函数，这里是一个可以识别日期的函数；直接以词语本身出现的为固定词条。

该模板的属性指出了信息抽取的目标，即模板的第二个位置，即[F:date]对应的位置抽取出的是一个时间date；第五个位置[F:num]对应抽取得到的是金额money。

构建规则模板引擎的方法具体包括：

S141：构建注册函数用以识别数字和日期字符串。

需要说明的是，规则引擎除了支持对一些可枚举的集合(如词典)进行匹配以外，还支持对一些形式固定但表达多样的结构进行匹配，如上文所述的时间、数字识别[F:date]、[F:num]。

构建注册函数的过程即在规则模板引擎中实现识别时间、数字的功能函数，并绑定这些函数到对应的标识符，将标识符构建到规则模板Trie树上。

S142：构建规则模板Trie树、槽位词典Trie树。

所述模板Trie树用以存储信息抽取的规则模板，挂载注册函数(注册函数是实现某些固定成分的识别的功能函数)注)；槽位词典Trie树用以存储规则模板中设置的槽位的实例化词条。这样在实际使用时只需要编写相关的规则和槽位词典就可以实现信息抽取。

需要说明的是，规则模板Trie树和槽位词典Trie树是规则模板引擎的核心，即把按照表-3所示的文法规范书写的规则模板表达式，以及其中槽位对应的词典整合到相应的树结构上。两棵Trie树的建立过程如图1示，图1左侧的Trie树用以存储规则模板的，右侧的Trie树用以存储槽位词典。

如附图1所示，一棵Trie树具有唯一的一个根节点(网格状)，每个节点有多个分支，一个分支对应一个元字符，叶子节点(黑色)存储属性信息。对应到模板树，每个分支存储的是模板的元字符，即固定词、槽位名称、注册函数名，叶子节点存储模板需要用作信息抽取的属性信息，图1左侧的树展示了表-3中的模板的存储；槽位词典Trie树的分支存储的是单个汉字，叶子节点存储一个词所对应的槽位名称，图1右侧的Trie树展示了包含两个词“共、共计”的槽位[D:total]，包含一个词“元”、“逾期”的槽位[D:unit]和[D:expire]的存储方式。

参见图8示出了本发明又一个实施例公开的基于规则模板引擎进行短信文本信息抽取与格式化的流程示意图；

所述方法具体包括：

S151：根据分析业务的需求编写规则模板表达式，整合其中槽位对应的词典集合。

需要说明的是，使用规则模板引擎做实际业务的信息抽取需要编写和整理一定数量的模板表达式和槽位词典。对于信贷逾期业务，其常用的表达形式是可以枚举的，按照规定的语法规范编写如表-3所示的模板表达式，并为其中涉及到的槽位整理对应的词典。

S152：使用规则引擎对经过判断为信贷逾期类的短信逐一进行短信文本的遍历匹配。

需要说明的是，使用规则模板引擎进行信息抽取，即将人工编写的模板表达式以及收集整合的槽位词典构建成图1所示的两棵Trie树。对于每一条待分析的短信，对其每一个字符在两棵Trie树上进行最大长度的匹配，其匹配的原理如图2示：

如使用表-3的模板表达式对表-1中第一条短信进行信息抽取，其处理流程为：首先在模板树中进行查找匹配到短信中出现了“截止”，则继续深度优先地向模板树的下一层节点遍历，通过识别日期的注册函数匹配到“2016年07月28日”；然后继续深度优先地找到槽位标记[D:total]，则转入词典树中进行遍历，匹配到对应于[D:total]这个槽位长度最长的词条“共计”，成功后返回模板树继续遍历，以至处理完该条短信的所有字符。最终短信中的“截止2016年07月28日逾期共计1,000元”这段表述被模板表达式“截止[F:date][D:expire][D:total][F:num][D:rmb]”完全匹配。

S153：提取槽位信息并格式化输出。

需要说明的是，完成模板的匹配后，模板表达式中元字符会同匹配到的文本段形成一一对应的关系，如表-4所示，每个槽位填充了相应的值。

模板

截止

[F:date]

[D:expire]

[D:total]

[F:num]

[D:rmb]

文本

截止

2016年07月28日

逾期

共计

1,000

元

表-4

某些槽位的值正是模板表达式的属性所指示的将要被提取出来的信息点。如前一步骤匹配的模板属性指示“date_2,money_5”时间对应第二个元字符[F:date]，金额对应第五个元字符[F:num]，则从完全匹配的文本段“截止2016年07月28日逾期共计1,000元”中抽取得到逾期时间和金额。最后按照指定的格式输出抽取结果。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种金融信贷短信的信息抽取和分析方法，其特征在于，包括：

构建信息抽取规则模板引擎；使用信息抽取规则模板引擎对具体业务类型进行信息点的抽取与结构化输出；

所述构建信息抽取规则模板引擎，包括：

构建注册函数用以识别数字和日期字符串，实现对表达形式相对固定的结构进行匹配；

构建模板Trie树、槽位词典Trie树，所述模板Trie树用以存储信息抽取的规则模板，挂载注册函数；所述槽位词典Trie树用以存储规则模板中设置的槽位的实例化词条；

所述使用信贷类短信分类模型对信贷类短信进行识别，包括：

对输入的短信文本进行分词序列化；对输入的短信文本使用相同的分词技术得到短信对应的词序列；

挑选特征词条x_i，查询特征词条在所述信贷类短信分类模型中的概率分布；新输入的短信文本经过分词后生成由词构成的序列结构，从中选择所包含的特征词条集合feature={x_1，x_2…，x_m}从线下训练并保存的模型，即特征词条与短信类别信息的概率分布P（x_i|C_j）中查找特征词条x_i与信贷类、非信贷类的类别共现的概率分布值，其中C_j为短信类别信息的概率；

2.如权利要求1所述的一种金融信贷短信的信息抽取和分析方法，其特征在于，所述训练构建信贷类短信分类模型，包括：

3.如权利要求2所述的一种金融信贷短信的信息抽取和分析方法，其特征在于，从训练集短信文本集合中提取特征词条，在训练集短信文本集合中统计特征词条与类别相关的概率，存储概率分布作为模型；

4.如权利要求1所述的一种金融信贷短信的信息抽取和分析方法，其特征在于，将所述短信为信贷类的概率设置一个范围值，使用特征词条获取的概率分布值大于所述范围值时候，则将所述短信输出为信贷类短信。

5.如权利要求1所述的一种金融信贷短信的信息抽取和分析方法，其特征在于，所述信贷类短信进行关键词匹配分析具体业务类型，包括：

构建关键词黑白名单词表；

6.如权利要求5所述的一种金融信贷短信的信息抽取和分析方法，其特征在于，多个关键词同时存在则构建所述具体业务类型，所述组合决策用于判断是否多个关键词同时存在。

7.如权利要求1所述的一种金融信贷短信的信息抽取和分析方法，其特征在于，对于利用规则模板引擎进行逾期类短信的信息点的抽取，包括：

使用规则引擎对信贷类短信文本进行遍历匹配；