CN108038490A

CN108038490A - 一种基于互联网数据的p2p企业自动识别方法与系统

Info

Publication number: CN108038490A
Application number: CN201711035398.2A
Authority: CN
Inventors: 金耀辉; 姜华; 李慧; 王永坤
Original assignee: Shanghai Sixian Information Technology Ltd By Share Ltd
Current assignee: Shanghai Sixian Information Technology Ltd By Share Ltd
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2018-05-15

Abstract

本发明公开了一种基于互联网数据的P2P企业自动识别方法,包括以下步骤：1、采集企业数据；2、清洗整合结构化数据；3、形成结构化宽表；4、形成特征数据；5、进行数学建模；6、人工交叉验证；7、接收用户识别请求；8、采集企业数据；9、利用模型进行企业识别；10、返回模型识别结果。本发明同时公开了一种基于上述方法的系统，包括服务器、分类建模装置、自动识别装置。本发明提出的方法和系统充分考虑了互联网数据的非结构性，将非结构化数据进行整合；同时以获取的数据特征值作为样本进行数学建模，以一种精确有效且通用的数据分析方法对P2P企业进行自动识别，大量节省人工成本，并且能够综合各种数据进行分析，提高识别效率与精确度。

Description

一种基于互联网数据的P2P企业自动识别方法与系统

技术领域

本发明涉及互联网金融技术领域，尤其涉及一种P2P企业自动识别方法与系统。

背景技术

P2P企业自动识别是利用大数据技术，将采集到的各种企业数据整合后，进行特征提取与数学建模，利用模型自动为使用者提供P2P企业识别结果以供参考。精确快速的企业判断将极大提高用户的效率，节省人工判断成本，并且结果更为准确。

目前，P2P网络借贷平台初具雏形，网贷平台蓬勃发展，但也有许多企业不具备提供P2P业务服务的资格，问题平台数量巨大，因而需要对P2P企业进行仔细识别。现有技术中，通常使用人工网上信息搜索或实地走访的方法来判断P2P企业，这种方法耗时较长，效率较低，并且误差较大，需要综合各方面信息进行评价判断，其结果受个人影响较大。如果查询到的信息无效或过于复杂，判断结果可能会出现很大偏差。并且P2P企业数量很多，在需要判断大量企业是否是P2P企业时，人工判断极为费时费力。

此外，在查询企业在互联网上的数据时，能够查询到的大多是非结构化数据，很难直接应用于模型。

中国专利CN107067322A提出了一种应用于P2P网络借贷企业数据接入模型的系统及方法，提出P2P网络借贷平台数据接入模型，实现大规模借贷平台数据规范、安全、稳定的接入，同时能够实现数据错误、缺少等问题的自动识别。该模型优点在于可以对大量网络借贷平台中的异构数据形成规范和统一的标准，但其并未考虑到企业非结构化数据的整合，并且其目的为实现大规模平台实时交易数据的监测与分析，解决异构平台的数据统一接入问题，并未涉及P2P企业识别问题。

《会计研究》杂志2016年6月次P38-P45刊登的《P2P网络借贷平台的风险识别研究》一文中，尝试了对问题平台的基本特征进行初步概括，并从平台实力、标的特征、风控能力、治理水平等方面构建变量和模型，以提炼能够甄别问题平台的风险因素，并发现利率奇高是识别问题平台的最重要变量。该模型优点在于提出甄别风险平台的风险因素，并拥有识别平台是否会出问题的能力，这对于识别企业是否是P2P企业有一定参考价值。但其模型变量主要为人工调整，相比机器而言结果不够精确，且该模型主要利用回归模型，其目的是判别各个风险因素的影响程度，并未提及如何识别企业是否具有P2P业务。

因此，本领域的技术人员致力于开发一种本发明解决的技术问题是提供一种基于互联网数据的P2P企业自动识别方法与系统，从而解决现有方法中人工成本高、误差大、难以综合各方面数据进行分析而导致P2P企业识别准确度低的问题。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是:

1、人工识别耗时长、效率低、成本高；结果的主观化较强，准确度不高；无法解决需要识别大量公司数据的情况。

2、利用机器接入企业数据时未考虑大量非结构化数据的整合统一。

3、现阶段的研究中主要利用人工筛选出的各方面风险因素识别风险平台，而对涉P2P业务平台的识别并无深入研究。

为解决上述技术问题，本发明提供了一种基于互联网数据的P2P企业自动识别方法，主要步骤包括：

步骤1、采集结构化和非结构化企业数据

进一步地，服务器端通过数据采集系统等数据源采集结构化和非结构化的企业数据；所述企业数据包括P2P企业和非P2P企业数据；

步骤2、清洗整合提炼为结构化数据；

进一步地，对所述非结构化企业数据进行清洗，提炼为结构化数据，并与所采集的企业结构化数据进行整合。其中对非数值型数据进行文本提取、词法分析，对数值型数据进行整合，包括去重、统计分析，从而将非结构化数据转化为结构化数据。

步骤3、综合形成结构化宽表；

结合非数值型与数值型两部分数据形成结构化宽表；

步骤4、选取样本进行特征转化；

进一步地，根据步骤3所述结构化宽表的数据，选取其中已知的P2P企业与非P2P企业数据，以这些企业数据作为样本进行特征转化，把每个字段转化为数值特征，形成特征数据；

步骤5、利用特征数据进行数学建模；

进一步地，应用步骤4中的特征数据，在此基础上利用分类器算法生成一个针对公司是否涉及P2P业务的分类模型，形成P2P企业识别模型。

步骤6、人工交叉验证，调整模型；

进一步地，利用模型分析预测其他企业涉及P2P业务的概率，结合人工交叉验证，分析预测错误的数据，调整参数重新训练，直到模型达到一定精度，完善所述P2P企业识别模型；

步骤7、服务器端接收用户输入的识别请求；

进一步地，服务器接收用户发送的识别请求，所述识别信息为用户输入的企业信息或网址，可能是某一家公司名或对公司的文字描述，或者是公司官网网址等。

步骤8、系统进入网址采集企业数据；

进一步地，系统自动分析用户输入信息，若用户输入的是企业网站，系统自动采集企业网站信息后进行分析，形成企业数据；

步骤9、利用模型进行企业识别；

进一步地，系统根据采集到的企业数据或用户输入的文字性描述，利用所述P2P企业识别模型自动进行P2P企业识别，获得识别结果。

步骤10、服务器端返回模型识别结果。

本发明还提供了一种基于互联网数据的P2P企业自动识别系统，包括服务器、企业分类建模装置、企业自动识别装置。

所述服务器端用于采集结构化和非结构化的企业数据、服务器端接收用户输入的企业信息或网址和返回模型识别结果。

所述企业分类建模装置用于，对非结构化企业数据进行清洗整合，提炼结构化数据，对数值型数据进行整合；结合非数值型与数值型两部分数据形成结构化宽表；选取企业作为样本进行特征转化，把每个字段转化为数值特征；利用这些数值化数据进行数学建模；利用模型分析预测其他企业涉及P2P业务的概率，进行人工交叉验证，分析预测错误的数据，调整参数重新训练，直到模型达到一定精度。

所述企业自动识别模块用于，接收接收用户输入的企业信息或网址；系统自动分析用户输入信息，若用户输入的是企业网站，系统自动采集企业网站信息后进行分析；利用P2P企业识别模型对相应企业数据进行识别，获取企业识别结果。

进一步地，所述企业分类建模装置包括：

数据采集模块：用于采集结构化和非结构化的企业数据；

数据整合模块：用于将数据采集模块采集到的非结构化企业数据提炼成结构化数据，与数据采集模块采集到的企业结构化数据进行整合，形成结构化宽表；

特征转化模块：用于提取特征数据，利用数据整合模块中生成的结构化数据，选取已知的P2P企业与非P2P企业作为样本进行特征转化，将每个字段转化为数值特征；

建立识别模型模块：用于建立P2P企业识别分类模型，并对此模型进行调整直至精度达到要求。

进一步地，所述企业自动识别装置包括：

输入模块：用于让用户输入待识别的企业信息或网址；

P2P企业识别模块：利用模型分析数据，对企业进行识别；

输出模块：用于输出模型识别结果。

进一步地，所述输入模块通过服务器端接收用户输入的企业信息或网址；

系统自动分析用户输入信息，若用户输入的是企业网站，系统自动采集企业网站信息后进行分析；

利用P2P企业识别模型对相应企业数据进行识别，获取企业识别结果；

服务器端返回模型识别结果。

在本发明的较佳实施方式中，本发明提出的方法充分考虑了互联网数据的非结构性，将非结构化数据进行结构化处理与整合，其中数值型数据和文本型数据均有涉及；同时以获取的数据特征值作为样本进行数学建模，以一种精确有效且通用的数据分析方法对P2P企业进行自动识别，大量节省人工成本，并且能够综合各种数据进行分析，提高识别效率与精确度。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的一种基于互联网数据的P2P企业自动识别方法流程示意图；

图2是本发明的一个较佳实施例的一种基于互联网数据的P2P企业自动识别系统的分类建模装置结构示意图；

图3是本发明的一个较佳实施例的一种基于互联网数据的P2P企业自动识别装置结构示意图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

下面结合附图对本发明的具体实施例做进一步详细说明。

实施例1

如图1所示，一种基于互联网数据的P2P企业自动识别方法一种P2P企业自动识别方法包括以下步骤：

步骤S101：服务器端通过数据采集系统等数据源采集企业数据，包括P2P企业和非P2P企业数据；

步骤S102：对非结构化企业数据进行清洗，提炼为结构化数据，并与采集到的企业结构化数据进行整合；

步骤S103：结合步骤S102中提炼整合出的结构化数据形成结构化宽表；

步骤S104：选取其中已知的P2P企业与非P2P企业作为样本进行特征转化，把每个字段转化为数值特征；

步骤S105：利用步骤S104中生成的数值化数据进行数学建模；

步骤S106：利用步骤S105中生成的模型分析预测其他企业涉及P2P业务的概率，进行人工交叉验证，分析预测错误的数据，调整参数重新训练，直到模型达到一定精度；

步骤S107：用户输入企业信息或企业网址；

步骤S108：系统进入用户输入的企业网址采集数据，如果用户输入的是企业信息而非企业网址则跳过此步骤；

步骤S109：利用模型对相应企业数据进行识别，获取企业识别结果；

步骤S110：服务器端返回P2P企业识别结果。

具体实施中，服务器端采集的企业数据数量很多，且大部分为非结构化数据，比较杂乱，但其采集到的相关数据越多，在进行模型建立及调整时模型的准确性越高，判断精度越好。

在本实施例的具体应用中，以上海普资金融信息服务股份有限公司(公司官网网址http://www.pccb.com/)作为个例，服务器端采集到该公司首页的部分数值型数据如：预期年化收益率为13％、出借人数(人)为6517、成交金额(元)为67950754.00、成交笔数(笔)为22158等；部分非数值型数据如：网站名称为普资金服(原普资华企)-国资背景p2p互联网金融网贷理财平台、页面标题栏存在我要投资和我要借款选项、公司简介中存在网络借贷信息中介平台等类型的文字等。

具体实施中，步骤S102包括：对非数值型数据进行文本提取、词法分析，对数值型数据进行整合，包括去重、统计分析等操作，从而将非结构化数据转化为结构化数据。

仍以步骤S101中提及公司为例，对采集到的数值型数据进行去重、统计分析等操作，对采集到的非数值型数据进行文本提取、词法分析等，文本提取即将文字部分提取出来，词法分析如存在“p2p”字样-是、存在“投资”字样-是、存在“借款”字样-是、存在“借贷中介平台”字样-是等。

具体实施中，步骤S103形成的结构化宽表包括步骤S102中非数值型数据和数值型数据两个部分。

仍以步骤S101中提及公司为例，结构化宽表可以包括公司名称、经营状态、公司规模、公司简介、平均年化收益率、出借人数、成交金额等内容，为描述简洁此处仅列举部分字段。

具体实施中，步骤S104中应用的已知P2P企业与非P2P企业样本均源自步骤S103中生成的数据，以这些企业数据作为样本进行特征转化，将每个字段转化为数值特征。

仍以步骤S101中提及公司为例，已知此公司为p2p企业，则将其字段转化为数值特征，如词法分析中以数字1表示是、数字0表示否，即存在p2p字样-1、存在投资字样-1等，对于数值型数据提取其数值特征。

具体实施中，步骤S105应用步骤S104中的特征数据，在此基础上利用分类器算法生成一个针对公司是否涉及P2P业务的分类模型。

仍以步骤S101中提及公司为例，应用上一步骤中生成的公司特征数据建立P2P企业分类模型，其中应用的数据并非仅一家公司，而是多家P2P企业与非P2P企业的数据。

具体实施中，步骤S106使用模型初步分析预测企业涉及P2P业务的概率，结合人工交叉验证，分析预测错误的数据，调整参数重新训练，直到模型达到一定精度。

仍以步骤S101中提及公司为例，如果将该公司及其他已确定是p2p企业的数据输入模型进行分析，输出结果为非p2p企业，则人工认定模型分析错误，调整参数重新训练，直到模型准确性达到要求。

具体实施中，步骤S107中用户发送识别请求，识别信息可能是某一家公司名或对公司的文字描述，或者是公司官网网址等，服务器接收该请求后进入步骤S108。

以用户需要分析快快金融信息服务(上海)有限公司是否为p2p企业为例，用户发送的识别信息为该公司官网网址http://www.kuaikuaidai.com/，服务器接收该信息后进入下一步骤。

具体实施中，步骤S108中如果系统接收到的用户识别请求中有公司网址，则会自动进入企业网址采集数据；如果用户识别请求中无公司网址，则跳过本步骤。

以步骤S107中提及公司为例，服务器接收到公司网址，将自动进入该网站采集数据，如网站名称-快快贷官方网站_快快贷理财是专业的互联网金融平台_理财就上快快贷、成交金额-2458318359.74、累计交易数-696209、年化收益-9.50％(某理财产品)等。

具体实施中，步骤S109中系统根据企业数据或用户输入的文字性描述利用识别模型自动进行P2P企业识别，获得识别结果。

以步骤S107中提及公司为例，系统将上一步骤中在公司官网采集到的数据输入模型，自动进行P2P企业识别，产生企业识别结果为该企业是一家P2P企业。

具体实施中，步骤S110中系统利用模型识别，获取到企业类型识别结果后，向用户返回P2P企业识别结果。

以步骤S107中提及公司为例，系统将识别结果，即快快金融信息服务(上海)有限公司是一家P2P企业，返回给用户。

实施例2

如图2所示，为本发明的一个较佳实施例中基于互联网数据的P2P企业自动识别系统中所采用的企业分类建模装置结构示意图，该装置包括：

数据采集模块201：用于采集结构化和非结构化的企业数据；

数据整合模块202：用于将数据采集模块201采集到的非结构化企业数据提炼成结构化数据，并与采集到的企业结构化数据进行整合形成结构化宽表；

特征转化模块203：用于提取特征数据，利用数据整合模块202中生成的结构化数据，选取已知的P2P企业与非P2P企业作为样本进行特征转化，将每个字段转化为数值特征；

建立识别模型204：用于建立P2P企业识别分类模型，并对此模型进行调整直至精度达到要求。

服务器端通过数据采集系统等数据源采集企业数据；

对非结构化企业数据进行清洗整合，提炼结构化数据，其中对非数值型数据进行文本提取、词法分析，对数值型数据进行整合，包括去重、统计分析；

结合非数值型与数值型两部分数据形成结构化宽表；

选取其中已知的P2P企业与非P2P企业作为样本进行特征转化，把每个字段转化为数值特征；

利用这些数值化数据进行数学建模；

利用模型分析预测其他企业涉及P2P业务的概率，进行人工交叉验证，分析预测错误的数据，调整参数重新训练，直到模型达到一定精度；

服务器端接收用户输入的企业信息或网址；

服务器端返回模型识别结果。

实施例3

如图3所示，为本发明的一个较佳实施例中基于互联网数据的P2P企业自动识别系统中所采用的P2P企业自动识别装置结构示意图。装置包括：

输入模块301：用于让用户输入待识别的企业信息或网址；

P2P企业识别模块302：利用模型分析数据，对企业进行识别；

输出模块303：用于输出模型识别结果。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于互联网数据的P2P企业自动识别方法，其特征在于，包括以下主要步骤：

步骤1、采集结构化和非结构化企业数据；

步骤2、清洗整合提炼为结构化数据；

步骤3、结合非数值型与数值型两部分数据形成结构化宽表；

步骤4、选取样本进行特征转化，形成特征数据；

步骤5、利用特征数据进行数学建模；

步骤6、人工交叉验证，调整模型；

步骤7、服务器端接收用户输入的识别请求；

步骤8、系统进入网站采集企业数据；

步骤9、利用模型进行企业识别；

步骤10、服务器端返回模型识别结果。

2.如权利要求1所述的基于互联网数据的P2P企业自动识别方法，其特征在于，所述步骤1具体为：服务器端通过数据采集系统等数据源采集非结构化企业数据；所述非结构化企业数据包括P2P企业和非P2P企业数据。

3.如权利要求1所述的基于互联网数据的P2P企业自动识别方法，其特征在于，所述步骤4具体为：根据所述步骤3中所述结构化宽表的数据，选取其中已知的P2P企业与非P2P企业数据，以这些企业数据作为样本进行特征转化，把每个字段转化为数值特征，形成特征数据。

4.如权利要求1所述的基于互联网数据的P2P企业自动识别方法，其特征在于，所述步骤5具体为：应用所述步骤4中的特征数据，在此基础上利用分类器算法生成一个针对公司是否涉及P2P业务的分类模型，形成P2P企业识别模型。

5.如权利要求1所述的基于互联网数据的P2P企业自动识别方法，其特征在于，所述步骤6具体为：利用模型分析预测其他企业涉及P2P业务的概率，结合人工交叉验证，分析预测错误的数据，调整参数重新训练，直到模型达到一定精度，完善所述P2P企业识别模型。

6.如权利要求1所述的基于互联网数据的P2P企业自动识别方法，其特征在于，所述步骤7具体为：服务器接收用户发送的识别请求，所述识别信息为用户输入的企业信息或网址。

7.如权利要求1所述的基于互联网数据的P2P企业自动识别方法，其特征在于，所述步骤8具体为：系统自动分析用户输入信息，若用户输入的是企业网站，系统自动采集企业网站信息后进行分析，形成企业数据。

8.如权利要求1所述的基于互联网数据的P2P企业自动识别方法，其特征在于，所述步骤9具体为：系统根据采集到的企业数据或用户输入的文字性描述，利用所述P2P企业识别模型自动进行P2P企业识别，获得识别结果。

9.一种基于互联网数据的P2P企业自动识别系统，其特征在于，包括服务器、企业分类建模装置、企业自动识别装置；

所述服务器端用于采集非结构化企业数据、服务器端接收用户输入的企业信息或网址和返回模型识别结果；

所述企业分类建模装置用于，对非结构化企业数据进行清洗整合，提炼结构化数据，对数值型数据进行整合；结合非数值型与数值型两部分数据形成结构化宽表；选取企业作为样本进行特征转化，把每个字段转化为数值特征；利用这些数值化数据进行数学建模；利用模型分析预测其他企业涉及P2P业务的概率，进行人工交叉验证，分析预测错误的数据，调整参数重新训练，直到模型达到一定精度；

所述企业自动识别模块用于，接收用户输入的企业信息或网址；系统自动分析用户输入信息，若用户输入的是企业网站，系统自动采集企业网站信息后进行分析；利用P2P企业识别模型对相应企业数据进行识别，获取企业识别结果。

10.如权利要求9所述的基于互联网数据的P2P企业自动识别系统，其特征在于，

所述企业分类建模装置包括：数据采集模块、数据整合模块、特征转化模块、建立识别模型模块；

所述数据采集模块用于采集结构化和非结构化的企业数据；

所述数据整合模块用于将数据采集模块采集到的企业数据整合提炼成结构化数据，并形成结构化宽表；

所述特征转化模块用于提取特征数据，利用数据整合模块中生成的结构化数据，选取已知的P2P企业与非P2P企业作为样本进行特征转化，将每个字段转化为数值特征；

所述建立识别模型模块用于建立P2P企业识别分类模型，并对此模型进行调整直至精度达到要求；

所述企业自动识别装置包括：输入模块、P2P企业识别模块、输出模块；

所述输入模块用于让用户输入待识别的企业信息或网址；

所述P2P企业识别模块利用模型分析数据，对企业进行识别；

所述输出模块用于输出模型识别结果。