CN111581472A

CN111581472A - 互联网金融产品宣传收益率和承诺提取方法及系统

Info

Publication number: CN111581472A
Application number: CN202010208512.2A
Authority: CN
Inventors: 部慧; 吴俊杰; 李晔林; 张珏; 陈禹舟; 张俊杰
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2020-08-25

Abstract

本发明公开了一种互联网金融产品宣传收益率和承诺提取方法，其包括：从公开互联网中获取金融类文本数据；基于所述收益率表述的规则库，通过文本匹配算法从所述金融类文本数据中提取得到收益率表述文本数据；基于预设的承诺关键词组，通过文本匹配算法从所述金融类文本数据中提取得到各类承诺表述文本数据；基于预设的收益率映射关系规则表，将所述收益率表述文本数据转换成可识别的收益率数值。本发明在提取和折算收益率的基础上进一步识别互联网金融平台的高利贷和非法集资行为，可以对其进行更好的监管。

Description

互联网金融产品宣传收益率和承诺提取方法及系统

技术领域

本发明涉及商务智能领域。更具体地说，本发明涉及一种互联网金融产品宣传收益率和承诺提取方法及系统。

背景技术

近年来，随着资本市场数据量的增加，金融监管面临着越来越大的难题。而当前互联网金融平台的P2P存在较大的问题，因此要对互联网金融平台进行严格的监管，此时就需要有效指标辅助监管，比如收益率。但互联网金融平台对收益率的表述隐晦，公众不能从非结构化文本中提取收益率，难以获得准确的收益率数据。

此外，由于互联网金融平台受到严格的监管，因此平台发布的广告也会被监管。当前，金融类广告的重要投放渠道为开放的互联网平台，部分广告打着“低风险，高收益，承诺担保”的旗号进行夸大、虚假宣传，欺骗和误导消费者。并且央行下发了《中国人民银行办公厅关于开展金融广告治理工作的通知》，有效治理金融产品违法违规广告行为，坚决整治严重干扰金融市场秩序的广告行为，并将互联网金融广告监测作为首要的工作试点。由于互联网金融平台广告中的承诺是违规的，但平台并不会上报这些信息，所以无法得知广告中承诺的具体情况，监管面临挑战。

发明内容

本发明的一个目的是解决至少上述问题，并提供至少后面将说明的优点。

本发明还有一个目的是提供一种互联网金融产品宣传收益率和承诺提取方法及系统，其可从互联网金融平台上的非结构化文本数据中提取收益率、承诺表述的相关文本数据，进而可准确获取金融产品的收益率数据和广告中承诺的具体情况。

为了实现根据本发明的这些目的和其它优点，提供了一种互联网金融产品宣传收益率和承诺提取方法，其包括：

从公开互联网中获取金融类文本数据；

基于所述金融类文本数据中挖掘收益率表述的基础规则，对所述收益率表述的基础规则进行泛化，得到收益率表述的规则库；基于所述收益率表述的规则库，通过文本匹配算法从所述金融类文本数据中提取得到收益率表述文本数据；

基于预设的承诺关键词组，通过文本匹配算法从所述金融类文本数据中提取得到各类承诺表述文本数据；

基于预设的收益率映射关系规则表，将所述收益率表述文本数据转换成可识别的收益率数值。

优选的是，所述的互联网金融产品宣传收益率和承诺提取方法，所述从公开互联网中获取金融类文本数据具体为：

从公开的互联网中利用爬虫技术爬取产品宣传的文本数据，记为原始文本数据；

对原始文本数据经过三次垃圾过滤处理，分别去除原始文本数据中的无意义信息、非金融类的文本数据和非相关互联网金融平台的文本数据，最终获得金融类文本数据。

优选的是，所述的互联网金融产品宣传收益率和承诺提取方法，所述预设的收益率映射关系规则表中，每条收益率映射关系规则对应一种收益率转换方式；

所述收益率表述文本数据转换成可识别的收益率数值后，剔除收益率小于0或大于1的收益率数值。

优选的是，所述的互联网金融产品宣传收益率和承诺提取方法，所述承诺关键词组包括多个人为定义的承诺关键词，且每个关键词对应一种承诺类型，承诺类型包括保本承诺、收益承诺和担保承诺。

优选的是，所述的互联网金融产品宣传收益率和承诺提取方法，原始文本数据的第一次垃圾过滤具体为：

通过文本匹配方法去除原始文本数据中的特殊标点符号；

通过正则表达式方法去除原始文本数据中的以“http://”开头的url网址信息；

通过正则表达式方法去除原始文本数据中标志信息，其中标志信息包括提醒好友标志、转发标志信息；

通过文本匹配和正则表达式方法去除原始文本数据中的表情符和特殊字符信息，得到去除无意义信息的一次过滤的文本数据。

优选的是，所述的互联网金融产品宣传收益率和承诺提取方法，原始文本数据的第二次垃圾过滤具体为：

在一次过滤的文本数据中随机抽取样本数据，并对样本数据进行标注，并利用分词结果训练线性支持向量机分类模型，将一次过滤的文本数据作为输入值，金融类文本数据作为输出值，得到去除非金融类文本数据的二次过滤后的文本数据；

其中，原始文本数据在进行第二次垃圾过滤之前，还包括利用中文分词工具对一次过滤后的文本数据进行分词，然后基于自定义的用户词典，对一次过滤后的文本数据进行词频删选，删除一次过滤后的文本数据中的低频词和高频词。

优选的是，所述的互联网金融产品宣传收益率和承诺提取方法，原始文本数据的第三次垃圾过滤具体为：

预设互联网金融平台名称组，基于预设的互联网金融平台名称组在二次过滤后的文本数据中匹配获取去除非相关互联网金融平台的文本数据的金融类文本数据。

本发明还提供一种互联网金融产品宣传收益率和承诺提取系统，其包括：

获取模块，从公开的互联网中利用爬虫技术爬取产品宣传的文本数据，记为原始文本数据；

过滤处理模块，对原始文本数据经过三次垃圾过滤处理，分别去除原始文本数据中的无意义信息、非金融类的文本数据和非相关互联网金融平台的文本数据，最终获得金融类文本数据；

收益率表述文本数据提取模块，基于所述金融类文本数据中挖掘收益率表述的基础规则，对所述收益率表述的基础规则进行泛化，得到收益率表述的规则库；基于所述收益率表述的规则库，通过文本匹配算法从所述金融类文本数据中提取得到收益率表述文本数据；

承诺表述文本数据提取模块，基于预设的承诺关键词组，通过文本匹配算法从所述金融类文本数据中提取得到各类承诺表述文本数据；

收益率映射转换模块，基于预设的收益率映射关系规则表，将所述收益率表述文本数据转换成可识别的收益率数值。

本发明还提供一种电子设备，包括：

至少一个处理器；

与所述至少一个处理器通信连接的存储器，其存储有指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述方法。

本发明还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时，实现上述方法。

本发明至少包括以下有益效果：

本发明可扩展为适用于各种行业背景下的互联网平台收益率提取、折算和承诺提取方法，对传统的收益率和承诺提取方法做出补充；本发明在提取和折算收益率的基础上进一步识别互联网金融平台的高利贷和非法集资行为，可以对其进行更好的监管。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明所述的互联网金融产品宣传收益率和承诺提取方法的流程示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。

需要说明的是，下述实施方案中所述实验方法，如无特殊说明，均为常规方法，所述试剂和材料，如无特殊说明，均可从商业途径获得。

如图1所示，本发明提供一种互联网金融产品宣传收益率和承诺提取方法，其包括以下步骤：

步骤100、获取原始文本数据：从公开的互联网中利用爬虫技术爬取产品宣传相关的公开文本数据，记为原始文本数据；公开的互联网的渠道包括微信公众号、新浪微博、专业金融论坛、金融产品官网、金融企业官网、百度贴吧和知乎问答等；

步骤200、对步骤100得到的原始文本数据进行垃圾过滤处理：

步骤201、原始文本数据的第一次垃圾过滤，过滤掉文本数据中的无意义信息：

(1)通过文本匹配方法去除原始文本数据中的特殊标点符号；由于除“，。？；！”之外的中文、英文标点符号，以及用于分句的标点符号对于识别文本是无意义的，故通过简单的文本匹配过滤掉除“，。？；！”之外的中文、英文标点符号，同时保留用于分句的标点符号；

(2)通过正则表达式方法去除原始文本数据中的以“http://”开头的url网址信息；新浪微博存在部分由于某种活动发布的以“http://”开头的url网址信息，不属于目标金融文本数据，因此可事先通过正则表达式(文本提取和数据挖掘)在文本中定位并过滤掉；

(3)通过正则表达式方法去除原始文本数据中标志信息，其中标志信息包括提醒好友标志、转发标志信息；新浪微博渠道的文本数据中存在“转发微博”、“@微博名//@微博名//...”等等标志信息，不包含有意义的信息，因此通过正则表达式进行过滤；

(4)通过文本匹配和正则表达式方法去除原始文本数据中的表情符和特殊字符信息，得到去除无意义信息的一次过滤的文本数据；在新浪微博、微信公众号、百度贴吧和知乎问答渠道的文本数据中可能包含经爬取后可能显示为[鲜花]、[笑脸]、[爱心]等形式的表情符，或者无法正常显示的特殊字符形式，这些信息都是无意义信息，因此通过文本匹配和正则表达式方法过滤掉；

步骤202、原始文本数据的第二次垃圾过滤，过滤掉非金融文本数据：

(1)首先利用中文分词工具对去除无意义信息的一次过滤的文本数据进行分词，在分词过程中需要加入包含金融、经济、管理等专业分词词典以及涉及金融业务的实体名单/公司名称列表的自定义的用户词典；对分词后的一次过滤的文本数据，进行词频筛选，出现频率不高于1次的词汇为低频词，出现次数太少不具代表性，因此需要去除；在各类文本都有多次出现，词频按高到低排序，排列在前1～5％的词汇为高频词，高频词要不然是在大部分文本中都出现，要不然就是错误分词之后产生的分词碎片，这样的词汇对于文本提取的意义较小，因此需要通过过滤去除高频词；

(2)在经过分词、删频词汇以后的一次过滤的文本数据中随机抽取样本数据，并对样本数据进行标注，人工标注“金融/非金融”样本属性，利用分词结果训练线性支持向量机分类模型，将一次过滤的文本数据作为输入值，金融类文本数据作为输出值，得到去除非金融类文本数据的二次过滤后的文本数据；其中按照每一个测试样本数据的测试结果，对训练样本数据进行补充，用来提高训练样本数据对不同特征的文本的覆盖度；

步骤203、原始文本数据的第三次垃圾过滤，过滤掉非相关互联网金融平台文本：预设互联网金融平台名称组，基于预设的互联网金融平台名称组，通过文本匹配方法在二次过滤后的文本数据中获取去除非相关互联网金融平台的文本数据的金融类文

本数据；

步骤300、收益率表述文本数据提取：根据上述经过三次过滤后的金融类文本数据中挖掘收益率表述的基本规则，例如从金融类文本数据中找到，投5000元月赚/返21元、5％的高收益/年化收益率、每天拆分率0.014％以及固定年利率5％加浮动年利率0.25％等等表述文本句，对基本规则进行泛化，将基本规则中的与收益率相关的词汇扩充多种意义相等或相近的词汇，将基本规则中的具体数值进行泛化，例如“投5000元月赚/返21元”中的月赚可扩充为日赚、撸等词汇，其中的“5000元、21元”均可扩充为其他任意金额数值；基本规则经过扩充后得到扩充规则库，扩充的目的是为了获取更多的相关文本；基于收益率表述的扩充规则库，通过文本匹配算法从步骤203得到的金融类文本数据中提取得到收益率表述文本数据；

步骤400、人为预设多种承诺关键词，形成承诺关键词组，每种承诺关键词对应一种承诺类型，例如“本息100％保障”、“本息无忧”对应保本承诺；关键词“稳赚不赔”、“利滚利百分百赚钱”对应收益承诺；关键词“出资担保”、“本息担保”对应担保承诺；基于预设的承诺关键词组，通过文本匹配算法从步骤203得到的金融类文本数据中提取得到各类承诺表述文本数据，最终提取保本承诺、收益承诺和担保承诺三种承诺类型；在提取过程中，根据承诺关键词定位从步骤203得到的金融类文本数据中相关文本，并进行承诺文本处理，其中如果有多条相同担保关键词时，随机选择一条不含否定词的文本；如果有多条不同担保关键词，则每个规则选择一条文本；

步骤500、人为预设多个收益率映射关系规则，形成预设的收益率映射关系规则表，每条收益率映射关系规则对应一种收益率转换方式，基于预设的收益率映射关系规则表，将所述收益率表述文本数据转换成可识别的收益率数值，即将步骤300中得到收益率表述文本数据中的文字描述的收益率转换为机器可以识别的数值，该转换过程为收益映射过程；例如：“投5000元年度本息和一共5250元”的收益率表述文本数据，经过转换得到相对应的收益率值为[5250/5000-1]；“固定年利率5％加浮动年利率0.25％，”收益率表述文本数据，经过转换得到相对应的收益率值为[5％+0.25％]等等；此外，在部分收益率表述文本数据中描述的收益率中并不是年度表述，为了折算成行业可对比的年化收益率，此时需要找到与收益率对应的周期，比如月度收益率为0.42％，周期为12，折算成年化收益率5％；若同一家互联网金融平台产生了多个结果的情况，选择收益率数值的众数；若收益率折算的结果可能出现异常，需要对其进行处理，例如剔除掉折算的收益率小于0或者大于1的数值。

本发明还提供一种电子设备，包括：

至少一个处理器；

这里说明的设备数量和处理规模是用来简化本发明的说明的。对本发明的应用、修改和变化对本领域的技术人员来说是显而易见的。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.互联网金融产品宣传收益率和承诺提取方法，其特征在于，其包括：

从公开互联网中获取金融类文本数据；

2.如权利要求1所述的互联网金融产品宣传收益率和承诺提取方法，其特征在于，所述从公开互联网中获取金融类文本数据具体为：

3.如权利要求1所述的互联网金融产品宣传收益率和承诺提取方法，其特征在于，所述预设的收益率映射关系规则表中，每条收益率映射关系规则对应一种收益率转换方式；

4.如权利要求1所述的互联网金融产品宣传收益率和承诺提取方法，其特征在于，所述承诺关键词组包括多个人为定义的承诺关键词，且每个关键词对应一种承诺类型，承诺类型包括保本承诺、收益承诺和担保承诺。

5.如权利要求1所述的互联网金融产品宣传收益率和承诺提取方法，其特征在于，原始文本数据的第一次垃圾过滤具体为：

通过文本匹配方法去除原始文本数据中的特殊标点符号；

6.如权利要求5所述的互联网金融产品宣传收益率和承诺提取方法，其特征在于，原始文本数据的第二次垃圾过滤具体为：

7.如权利要求6所述的互联网金融产品宣传收益率和承诺提取方法，其特征在于，原始文本数据的第三次垃圾过滤具体为：

8.互联网金融产品宣传收益率和承诺提取系统，其特征在于，其包括：

9.电子设备，其特征在于，包括：

至少一个处理器；

与所述至少一个处理器通信连接的存储器，其存储有指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-7中任一项所述的方法。

10.存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现权利要求1-7中任一项所述的方法。