CN111428510A

CN111428510A - 一种基于口碑的p2p平台风险分析方法

Info

Publication number: CN111428510A
Application number: CN202010163040.3A
Authority: CN
Inventors: 孙西超; 张晓芳
Original assignee: Bengbu College
Current assignee: Bengbu College
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2020-07-17
Anticipated expiration: 2040-03-10
Also published as: CN111428510B

Abstract

本发明公开了一种基于口碑数据的P2P平台风险分析方法，包括：采集目标P2P平台口碑文本数据并进行预处理过程，用矩阵方式表示口碑文本数据的特征属性，记为第二特征属性集；采用文本主题发现算法，获取每一条口碑文本数据中包含的主题K_n，其中n表示所有口碑文本数据包含的主题总数；统计涉及主题K_n的口碑文本数据条数m_n，并对涉及主题K_n的m_n条口碑文本数据进行情感倾向分类，借助原有口碑文本数据的拓展文本数据集，降低原有口碑数据的特征稀疏性，提高主题挖掘精准度，在采用的主题发现算法模型中，λ矩阵根据当前的主题分配不断更新，进而优化口碑文本数据和扩展文本数据各自的狄利克雷先验值α_L和α_S，提高了口碑文本数据主题挖掘的准确性。

Description

一种基于口碑的P2P平台风险分析方法

技术领域

本发明涉及金融风险分析领域，具体涉及一种基于口碑的P2P平台风险分析方法。

背景技术

新经济业态P2P网络借贷的风险甄别研究[J].范超,王磊,解明明中采用非结构信息探究口碑的情感分类是否可以区分正常平台和问题平台，但是缺乏利用文本挖掘的方法识别P2P平台风险的负面口碑特征研究。当买方根据其他买方的口碑信息形成他对卖方的信任程度时，负面口碑比正面口碑具有更大的反对效果[7]。负面口碑与正面口碑相比，其被消费者认为更加有用和可信，Lu et al.认为负面口碑占比对销售量会产生显著的影响。P2P负面口碑会增加投资者的风险感知，通过挖掘负面口碑风险知识在一定程度上会帮助投资者做决策，从而降低投资者的投资风险。负面口碑会给企业造成不良的影响，现有技术中通过构建在线评论特征属性挖掘模块，并提出了负面口碑网络预警模型。可见，从文本分析的视角研究企业风险较多的是提取关键词、特征属性挖掘、可视化等方法。

现有技术中主要从平台交易、治理、风控、营运和口碑等维度的信息研究平台风险，较少研究利用P2P平台口碑信息识别风险信息，仅仅探讨了基于粗粒度的网贷口碑的情感分析对平台风险的影响，未深入挖掘口碑中其他特征属性，如投资者抱怨的类型。通过挖掘网络负面口碑有助于投资者降低投资风险，有利于平台及时发现经营管理遇到的问题和政府进行平台治理，从而及时规避平台风险和改进服务。

由于口碑数据一般不会超过200字符，文本长度非常短小，口碑数据兼具内容少、信息量大、噪声大、书写不规范、特征过度稀疏等特点，在处理短文本时会因为数据问题而无法保证文本挖掘的准确性。

发明内容

针对上述现有技术存在的问题，本发明提供了一种基于口碑数据的P2P平台风险分析方法，包括：

(11)采集目标P2P平台口碑文本数据并进行预处理过程，用矩阵方式表示口碑文本数据的特征属性，记为第二特征属性集；

(12)采用文本主题发现算法，获取每一条口碑文本数据中包含的主题K_n，其中n表示所有口碑文本数据包含的主题总数；

(13)统计涉及主题K_n的口碑文本数据条数m_n，并对涉及主题K_n的m_n条口碑文本数据进行情感倾向分类。

作为上述方案的进一步优化，所述预处理过程包括分词过程和特征编码过程，所述分词过程采用Jieba分词方法对口碑文本数据分词，由词语组成的词集表示口碑文本数据，并对词集中的词语进行去噪处理；所述特征编码过程采用词袋模型对数据进行特征化，以包含文本特征信息的向量表示文本数据。

作为上述方案的进一步优化，所述预处理过程还包括特征选择过程，用于从分词过程后的词集中过滤掉没有实际意义的词语。

作为上述方案的进一步优化，所述步骤(12)中的文本主题发现算法，采用口碑文本数据特征扩展方法获取扩展文本数据，结合扩展文本数据集和原有口碑文本数据集获取口碑数据集的口碑主题-词语分布和口碑数据-主题分布。

作为上述方案的进一步优化，所述步骤(12)中的文本主题发现算法，具体为：

(51)建立数据集，采用基于维基百科词向量的特征扩展方法获取扩展文本数据，并将扩展文本数据经过步骤(11)中的预处理过程，获取第一特征属性集；

(52)搭建主题发现算法模型，其中，

(521)对于口碑文本数据中的每个词语w_i，选择一个主题z的公式为：

其中，z∈{1,2,...K}；z_-i是当前文本中除去词语w_i后剩余词语的主题集合；x_L是每一条口碑文本数据的第一特征属性集；n_l,z是扩展文本数据中主题为z的词语的个数；n_z,i是口碑文本数据和扩展文本数据中主题为z的词语w_i的个数和；

对于扩展文本数据中的每个词语w_i，选择一个主题z的公式为：

其中，x_S是每一条口碑文本数据的第二特征属性集，n_s,z是口碑文本数据中主题为z的词语的个数，均值μ，协方差为δ²；对于每一个主题k，λk是向量，其维度与文本类型向量x_L和x_S相同；

(522)在每个词语主题值更新的条件下，采用L-BFGS优化方法优化参数λ，进而优化口碑文本数据和扩展文本数据各自的狄利克雷先验值α_L和α_S，α_L和α_S分别为扩展文本数据集和口碑文本数据集的狄利克雷分布的主题先验参数；

(523)当每个口碑文本数据的每个词语的主题值以及狄利克雷先验值α_L和α_S稳定后，通过如下的公式进行统计和计算，获得模型的两个参数：口碑文本数据和扩展文本数据的主题-词语分布

以及口碑文本数据集的主题分布θ，

其中，n_k,t为扩展文本数据集和口碑文本数据集中主题为k的词语t的个数；

其中，n_s,k口碑文本数据中主题为k的词语的个数，其中口碑文本数据的主题为{θ_s,1,θ_s,2,...θ_s,k}中最大值对应的主题k的值；

(53)训练模型，基于扩展文本数据集和口碑文本数据集，初始化β和δ两个参数，通过高斯函数初始化矩阵λ，设置每次试验的迭代次数，进行模型训练，直至当每个口碑文本数据的每个词语的主题值以及狄利克雷先验值α_L和α_S稳定后，获得模型的两个参数，口碑文本数据和扩展文本数据的主题-词语分布

以及口碑文本数据集的主题分布θ；

(54)将待分析口碑文本数据对应的第二特征属性和第一特征属性输入训练好的模型，获取待分析口碑文本数据的包含的主题。

作为上述方案的进一步优化，所述步骤(51)中采用基于维基百科词向量的特征扩展方法获取扩展文本数据，具体是：根据步骤(11)获得的第二特征属性集中的词语，获取每个词语的维基百科的词向量集合，并根据欧式距离的计算方法得到每个词语相似性最大的预设数量个单词，将第二特征属性集中的词语对应的相似性最大的预设数量个单词增加到原有口碑文本数据中。

作为上述方案的进一步优化，所述步骤(13)中对涉及主题K_n的m_n条口碑文本数据进行情感倾向分类，情感倾向类别包括正面、负面和中立，分类过程采用情感分析模型。

本发明的一种基于口碑数据的P2P平台风险分析方法，具备如下有益效果：

1、本发明采用先对所有口碑文本数据进行主题挖掘，获取所有的主题，再根据每个主题获取涉及主题K_n的所有口碑文本数据的情感倾向分类，实现了对所有口碑文本数据挖掘全部主题的前提下，对每个主题下的情感倾向种类权重准确获取，清晰的展现了针对P2P平台同一个主题问题的正面口碑、负面口碑和中立口碑数据，便于平台及时发现P2P平台存在的问题。

2、本发明的一种基于口碑数据的P2P平台风险分析方法，采用预处理过程，对采集的P2P平台口碑文本数据进行了去噪和特征选择过程，过滤掉没有实际意义的词语，对分词后的特征属性降维，简化了数据的计算过程，提高了口碑文本数据的主题分析速度。

3、本发明的一种基于口碑数据的P2P平台风险分析方法，借助原有口碑文本数据的拓展文本数据集，降低原有口碑数据的特征稀疏性，利用拓展文本数据集和原有口碑文本数据集的口碑主题-词语分布相同，来获取口碑文本数据集的口碑主题-词语分布和口碑数据-主题分布，提高主题挖掘精准度，避免口碑数据的由于内容少，信息量大、噪声大、书写不规范、特征过度稀疏等特点造成主题分类不准确。

4、本发明的一种基于口碑数据的P2P平台风险分析方法，在采用的主题发现算法模型中，λ矩阵根据当前的主题分配不断更新，从而使得p(α_S|λ,x_S)不断更新，进而优化口碑文本数据和扩展文本数据各自的狄利克雷先验值α_L和α_S，获得准确的主题-词语分布

以及口碑文本数据集的主题分布θ，提高了口碑文本数据主题挖掘的准确性。

附图说明

图1为本发明的一种基于口碑数据的P2P平台风险分析方法的整体流程框图；

图2为本发明的一种基于口碑数据的P2P平台风险分析方法的搭建主题发现算法模型的流程框图；

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明公开了一种基于口碑数据的P2P平台风险分析方法，包括：

本发明采用先对所有口碑文本数据进行主题挖掘，获取所有的主题，再根据每个主题获取涉及主题K_n的所有口碑文本数据的情感倾向分类，实现了对所有口碑文本数据挖掘全部主题的前提下，对每个主题下的情感倾向种类权重准确获取，清晰的展现了针对P2P平台同一个主题问题的正面口碑、负面口碑和中立口碑数据，便于平台及时发现P2P平台存在的问题。

预处理过程包括分词过程和特征编码过程，所述分词过程采用Jieba分词方法对口碑文本数据分词，由词语组成的词集表示口碑文本数据，并对词集中的词语进行去噪处理；所述特征编码过程采用词袋模型对数据进行特征化，以包含文本特征信息的向量表示文本数据。

例如，口碑文本数据为“注册很简单，审批通过最快1小时就能放款，很靠谱”，分词结果为“注册很简单审批通过最快1小时就能放款，很靠谱”，对其进行特征编码过程后表示为“[0110000111000001....]”。

所述预处理过程还包括特征选择过程，用于从分词过程后的词集中过滤掉没有实际意义的词语，本实施例中采用TFIDF算法。特征选择过程保留了重要的特征词语，简化了后续的有效计算过程。

步骤(12)中的文本主题发现算法，采用口碑文本数据特征扩展方法获取扩展文本数据，结合扩展文本数据集和原有口碑文本数据集获取口碑数据集的口碑主题-词语分布和口碑数据-主题分布。

考虑到口碑文本数据长度非常短小，具有信息量大、噪声大、书写不规范、特征过度稀疏等特点，依据常用的LDA模型进行主题挖掘的文本挖掘方法，挖掘长文本主题方面能够达到令人满意的效果，但是在处理短文本时会因为数据问题而无法保证主题挖掘的准确性。本实施例中，文本主题发现算法借助原有口碑文本数据的拓展文本数据集，降低短文本的特征稀疏性，利用拓展文本数据集和原有口碑文本数据集的口碑主题-词语分布相同，来获取口碑文本数据集的口碑主题-词语分布和口碑数据-主题分布，提高主题挖掘效果。

上述步骤(12)中的文本主题发现算法，具体为：

(52)搭建主题发现算法模型，其中：先给数据集的每个词语初始化一个主题值；

以及口碑文本数据集的主题分布θ。

以及口碑文本数据集的主题分布θ；

本实施例中，采用扩展文本数据集和口碑文本数据集结合方式，采用的算法中，λ矩阵根据当前的主题分配不断更新，从而使得p(α_S|λ,x_S)不断更新，进而优化口碑文本数据和扩展文本数据各自的狄利克雷先验值α_L和α_S，获得准确的主题-词语分布

所述步骤(51)中采用基于维基百科词向量的特征扩展方法获取扩展文本数据，具体是：根据步骤(11)获得的第二特征属性集中的词语，获取每个词语的维基百科的词向量集合，并根据欧式距离的计算方法得到每个词语相似性最大的预设数量个单词，将第二特征属性集中的词语对应的相似性最大的预设数量个单词增加到原有口碑文本数据中。

所述步骤(13)中对涉及主题K_n的m_n条口碑文本数据进行情感倾向分类，情感倾向类别包括正面、负面和中立，分类过程采用情感倾向类别。

本实施例中情感分析模型采用神经网络算法，经过对大量口碑文本数据进行情感倾向标注，训练获得口碑文本数据情感分类模型，获取口碑文本数据情感。

将所有主题下的所有口碑文本数据得到情感倾向分类完成后，进行统计对比，获取口碑数据中涉及的热点主题，及用户对该主题的情感倾向，对于含有较多负面口碑数据的主题，P2P平台及时对对应主题的问题平台治理，从而及时规避平台风险和改进服务。

本发明不局限于上述具体的实施方式，本领域的普通技术人员从上述构思出发，不经过创造性的劳动，所做出的种种变换，均落在本发明的保护范围之内。

Claims

1.一种基于口碑数据的P2P平台风险分析方法，其特征在于：包括：

2.根据权利要求1所述的一种基于口碑数据的P2P平台风险分析方法，其特征在于：所述预处理过程包括分词过程和特征编码过程，所述分词过程采用Jieba分词方法对口碑文本数据分词，由词语组成的词集表示口碑文本数据，并对词集中的词语进行去噪处理；所述特征编码过程采用词袋模型对数据进行特征化，以包含文本特征信息的向量表示文本数据。

3.根据权利要求2所述的一种基于口碑数据的P2P平台风险分析方法，其特征在于：所述预处理过程还包括特征选择过程，用于从分词过程后的词集中过滤掉没有实际意义的词语。

4.根据权利要求1所述的一种基于口碑数据的P2P平台风险分析方法，其特征在于：所述步骤(12)中的文本主题发现算法，采用口碑文本数据特征扩展方法获取扩展文本数据，结合扩展文本数据集和原有口碑文本数据集获取口碑数据集的口碑主题-词语分布和口碑数据-主题分布。

5.根据权利要求1所述的一种基于口碑数据的P2P平台风险分析方法，其特征在于：所述步骤(12)中的文本主题发现算法，具体为：

(52)搭建主题发现算法模型，其中，

以及口碑文本数据集的主题分布θ，

以及口碑文本数据集的主题分布θ；

6.根据权利要求5所述的一种基于口碑数据的P2P平台风险分析方法，其特征在于：所述步骤(51)中采用基于维基百科词向量的特征扩展方法获取扩展文本数据，具体是：根据步骤(11)获得的第二特征属性集中的词语，获取每个词语的维基百科的词向量集合，并根据欧式距离的计算方法得到每个词语相似性最大的预设数量个单词，将第二特征属性集中的词语对应的相似性最大的预设数量个单词增加到原有口碑文本数据中。

7.根据权利要求1所述的一种基于口碑数据的P2P平台风险分析方法，其特征在于：所述步骤(13)中对涉及主题K_n的m_n条口碑文本数据进行情感倾向分类，情感倾向类别包括正面、负面和中立，分类过程采用情感分析模型。