CN111428510A - 一种基于口碑的p2p平台风险分析方法 - Google Patents

一种基于口碑的p2p平台风险分析方法 Download PDF

Info

Publication number
CN111428510A
CN111428510A CN202010163040.3A CN202010163040A CN111428510A CN 111428510 A CN111428510 A CN 111428510A CN 202010163040 A CN202010163040 A CN 202010163040A CN 111428510 A CN111428510 A CN 111428510A
Authority
CN
China
Prior art keywords
text data
public praise
word
data
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010163040.3A
Other languages
English (en)
Other versions
CN111428510B (zh
Inventor
孙西超
张晓芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bengbu College
Original Assignee
Bengbu College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bengbu College filed Critical Bengbu College
Priority to CN202010163040.3A priority Critical patent/CN111428510B/zh
Publication of CN111428510A publication Critical patent/CN111428510A/zh
Application granted granted Critical
Publication of CN111428510B publication Critical patent/CN111428510B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于口碑数据的P2P平台风险分析方法,包括:采集目标P2P平台口碑文本数据并进行预处理过程,用矩阵方式表示口碑文本数据的特征属性,记为第二特征属性集;采用文本主题发现算法,获取每一条口碑文本数据中包含的主题Kn,其中n表示所有口碑文本数据包含的主题总数;统计涉及主题Kn的口碑文本数据条数mn,并对涉及主题Kn的mn条口碑文本数据进行情感倾向分类,借助原有口碑文本数据的拓展文本数据集,降低原有口碑数据的特征稀疏性,提高主题挖掘精准度,在采用的主题发现算法模型中,λ矩阵根据当前的主题分配不断更新,进而优化口碑文本数据和扩展文本数据各自的狄利克雷先验值αL和αS,提高了口碑文本数据主题挖掘的准确性。

Description

一种基于口碑的P2P平台风险分析方法
技术领域
本发明涉及金融风险分析领域,具体涉及一种基于口碑的P2P平台风险分析方法。
背景技术
新经济业态P2P网络借贷的风险甄别研究[J].范超,王磊,解明明中采用非结构信息探究口碑的情感分类是否可以区分正常平台和问题平台,但是缺乏利用文本挖掘的方法识别P2P平台风险的负面口碑特征研究。当买方根据其他买方的口碑信息形成他对卖方的信任程度时,负面口碑比正面口碑具有更大的反对效果[7]。负面口碑与正面口碑相比,其被消费者认为更加有用和可信,Lu et al.认为负面口碑占比对销售量会产生显著的影响。P2P负面口碑会增加投资者的风险感知,通过挖掘负面口碑风险知识在一定程度上会帮助投资者做决策,从而降低投资者的投资风险。负面口碑会给企业造成不良的影响,现有技术中通过构建在线评论特征属性挖掘模块,并提出了负面口碑网络预警模型。可见,从文本分析的视角研究企业风险较多的是提取关键词、特征属性挖掘、可视化等方法。
现有技术中主要从平台交易、治理、风控、营运和口碑等维度的信息研究平台风险,较少研究利用P2P平台口碑信息识别风险信息,仅仅探讨了基于粗粒度的网贷口碑的情感分析对平台风险的影响,未深入挖掘口碑中其他特征属性,如投资者抱怨的类型。通过挖掘网络负面口碑有助于投资者降低投资风险,有利于平台及时发现经营管理遇到的问题和政府进行平台治理,从而及时规避平台风险和改进服务。
由于口碑数据一般不会超过200字符,文本长度非常短小,口碑数据兼具内容少、信息量大、噪声大、书写不规范、特征过度稀疏等特点,在处理短文本时会因为数据问题而无法保证文本挖掘的准确性。
发明内容
针对上述现有技术存在的问题,本发明提供了一种基于口碑数据的P2P平台风险分析方法,包括:
(11)采集目标P2P平台口碑文本数据并进行预处理过程,用矩阵方式表示口碑文本数据的特征属性,记为第二特征属性集;
(12)采用文本主题发现算法,获取每一条口碑文本数据中包含的主题Kn,其中n表示所有口碑文本数据包含的主题总数;
(13)统计涉及主题Kn的口碑文本数据条数mn,并对涉及主题Kn的mn条口碑文本数据进行情感倾向分类。
作为上述方案的进一步优化,所述预处理过程包括分词过程和特征编码过程,所述分词过程采用Jieba分词方法对口碑文本数据分词,由词语组成的词集表示口碑文本数据,并对词集中的词语进行去噪处理;所述特征编码过程采用词袋模型对数据进行特征化,以包含文本特征信息的向量表示文本数据。
作为上述方案的进一步优化,所述预处理过程还包括特征选择过程,用于从分词过程后的词集中过滤掉没有实际意义的词语。
作为上述方案的进一步优化,所述步骤(12)中的文本主题发现算法,采用口碑文本数据特征扩展方法获取扩展文本数据,结合扩展文本数据集和原有口碑文本数据集获取口碑数据集的口碑主题-词语分布和口碑数据-主题分布。
作为上述方案的进一步优化,所述步骤(12)中的文本主题发现算法,具体为:
(51)建立数据集,采用基于维基百科词向量的特征扩展方法获取扩展文本数据,并将扩展文本数据经过步骤(11)中的预处理过程,获取第一特征属性集;
(52)搭建主题发现算法模型,其中,
(521)对于口碑文本数据中的每个词语wi,选择一个主题z的公式为:
Figure BDA0002406457470000021
其中,z∈{1,2,...K};z-i是当前文本中除去词语wi后剩余词语的主题集合;xL是每一条口碑文本数据的第一特征属性集;nl,z是扩展文本数据中主题为z的词语的个数;nz,i是口碑文本数据和扩展文本数据中主题为z的词语wi的个数和;
对于扩展文本数据中的每个词语wi,选择一个主题z的公式为:
Figure BDA0002406457470000031
其中,xS是每一条口碑文本数据的第二特征属性集,ns,z是口碑文本数据中主题为z的词语的个数,均值μ,协方差为δ2;对于每一个主题k,λk是向量,其维度与文本类型向量xL和xS相同;
(522)在每个词语主题值更新的条件下,采用L-BFGS优化方法优化参数λ,进而优化口碑文本数据和扩展文本数据各自的狄利克雷先验值αL和αS,αL和αS分别为扩展文本数据集和口碑文本数据集的狄利克雷分布的主题先验参数;
(523)当每个口碑文本数据的每个词语的主题值以及狄利克雷先验值αL和αS稳定后,通过如下的公式进行统计和计算,获得模型的两个参数:口碑文本数据和扩展文本数据的主题-词语分布
Figure BDA0002406457470000034
以及口碑文本数据集的主题分布θ,
Figure BDA0002406457470000032
其中,nk,t为扩展文本数据集和口碑文本数据集中主题为k的词语t的个数;
Figure BDA0002406457470000033
其中,ns,k口碑文本数据中主题为k的词语的个数,其中口碑文本数据的主题为{θs,1s,2,...θs,k}中最大值对应的主题k的值;
(53)训练模型,基于扩展文本数据集和口碑文本数据集,初始化β和δ两个参数,通过高斯函数初始化矩阵λ,设置每次试验的迭代次数,进行模型训练,直至当每个口碑文本数据的每个词语的主题值以及狄利克雷先验值αL和αS稳定后,获得模型的两个参数,口碑文本数据和扩展文本数据的主题-词语分布
Figure BDA0002406457470000041
以及口碑文本数据集的主题分布θ;
(54)将待分析口碑文本数据对应的第二特征属性和第一特征属性输入训练好的模型,获取待分析口碑文本数据的包含的主题。
作为上述方案的进一步优化,所述步骤(51)中采用基于维基百科词向量的特征扩展方法获取扩展文本数据,具体是:根据步骤(11)获得的第二特征属性集中的词语,获取每个词语的维基百科的词向量集合,并根据欧式距离的计算方法得到每个词语相似性最大的预设数量个单词,将第二特征属性集中的词语对应的相似性最大的预设数量个单词增加到原有口碑文本数据中。
作为上述方案的进一步优化,所述步骤(13)中对涉及主题Kn的mn条口碑文本数据进行情感倾向分类,情感倾向类别包括正面、负面和中立,分类过程采用情感分析模型。
本发明的一种基于口碑数据的P2P平台风险分析方法,具备如下有益效果:
1、本发明采用先对所有口碑文本数据进行主题挖掘,获取所有的主题,再根据每个主题获取涉及主题Kn的所有口碑文本数据的情感倾向分类,实现了对所有口碑文本数据挖掘全部主题的前提下,对每个主题下的情感倾向种类权重准确获取,清晰的展现了针对P2P平台同一个主题问题的正面口碑、负面口碑和中立口碑数据,便于平台及时发现P2P平台存在的问题。
2、本发明的一种基于口碑数据的P2P平台风险分析方法,采用预处理过程,对采集的P2P平台口碑文本数据进行了去噪和特征选择过程,过滤掉没有实际意义的词语,对分词后的特征属性降维,简化了数据的计算过程,提高了口碑文本数据的主题分析速度。
3、本发明的一种基于口碑数据的P2P平台风险分析方法,借助原有口碑文本数据的拓展文本数据集,降低原有口碑数据的特征稀疏性,利用拓展文本数据集和原有口碑文本数据集的口碑主题-词语分布相同,来获取口碑文本数据集的口碑主题-词语分布和口碑数据-主题分布,提高主题挖掘精准度,避免口碑数据的由于内容少,信息量大、噪声大、书写不规范、特征过度稀疏等特点造成主题分类不准确。
4、本发明的一种基于口碑数据的P2P平台风险分析方法,在采用的主题发现算法模型中,λ矩阵根据当前的主题分配不断更新,从而使得p(αS|λ,xS)不断更新,进而优化口碑文本数据和扩展文本数据各自的狄利克雷先验值αL和αS,获得准确的主题-词语分布
Figure BDA0002406457470000051
以及口碑文本数据集的主题分布θ,提高了口碑文本数据主题挖掘的准确性。
附图说明
图1为本发明的一种基于口碑数据的P2P平台风险分析方法的整体流程框图;
图2为本发明的一种基于口碑数据的P2P平台风险分析方法的搭建主题发现算法模型的流程框图;
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明公开了一种基于口碑数据的P2P平台风险分析方法,包括:
(11)采集目标P2P平台口碑文本数据并进行预处理过程,用矩阵方式表示口碑文本数据的特征属性,记为第二特征属性集;
(12)采用文本主题发现算法,获取每一条口碑文本数据中包含的主题Kn,其中n表示所有口碑文本数据包含的主题总数;
(13)统计涉及主题Kn的口碑文本数据条数mn,并对涉及主题Kn的mn条口碑文本数据进行情感倾向分类。
本发明采用先对所有口碑文本数据进行主题挖掘,获取所有的主题,再根据每个主题获取涉及主题Kn的所有口碑文本数据的情感倾向分类,实现了对所有口碑文本数据挖掘全部主题的前提下,对每个主题下的情感倾向种类权重准确获取,清晰的展现了针对P2P平台同一个主题问题的正面口碑、负面口碑和中立口碑数据,便于平台及时发现P2P平台存在的问题。
预处理过程包括分词过程和特征编码过程,所述分词过程采用Jieba分词方法对口碑文本数据分词,由词语组成的词集表示口碑文本数据,并对词集中的词语进行去噪处理;所述特征编码过程采用词袋模型对数据进行特征化,以包含文本特征信息的向量表示文本数据。
例如,口碑文本数据为“注册很简单,审批通过最快1小时就能放款,很靠谱”,分词结果为“注册很简单审批通过最快1小时就能放款,很靠谱”,对其进行特征编码过程后表示为“[0110000111000001....]”。
所述预处理过程还包括特征选择过程,用于从分词过程后的词集中过滤掉没有实际意义的词语,本实施例中采用TFIDF算法。特征选择过程保留了重要的特征词语,简化了后续的有效计算过程。
步骤(12)中的文本主题发现算法,采用口碑文本数据特征扩展方法获取扩展文本数据,结合扩展文本数据集和原有口碑文本数据集获取口碑数据集的口碑主题-词语分布和口碑数据-主题分布。
考虑到口碑文本数据长度非常短小,具有信息量大、噪声大、书写不规范、特征过度稀疏等特点,依据常用的LDA模型进行主题挖掘的文本挖掘方法,挖掘长文本主题方面能够达到令人满意的效果,但是在处理短文本时会因为数据问题而无法保证主题挖掘的准确性。本实施例中,文本主题发现算法借助原有口碑文本数据的拓展文本数据集,降低短文本的特征稀疏性,利用拓展文本数据集和原有口碑文本数据集的口碑主题-词语分布相同,来获取口碑文本数据集的口碑主题-词语分布和口碑数据-主题分布,提高主题挖掘效果。
上述步骤(12)中的文本主题发现算法,具体为:
(51)建立数据集,采用基于维基百科词向量的特征扩展方法获取扩展文本数据,并将扩展文本数据经过步骤(11)中的预处理过程,获取第一特征属性集;
(52)搭建主题发现算法模型,其中:先给数据集的每个词语初始化一个主题值;
(521)对于口碑文本数据中的每个词语wi,选择一个主题z的公式为:
Figure BDA0002406457470000061
其中,z∈{1,2,...K};z-i是当前文本中除去词语wi后剩余词语的主题集合;xL是每一条口碑文本数据的第一特征属性集;nl,z是扩展文本数据中主题为z的词语的个数;nz,i是口碑文本数据和扩展文本数据中主题为z的词语wi的个数和;
对于扩展文本数据中的每个词语wi,选择一个主题z的公式为:
Figure BDA0002406457470000071
其中,xS是每一条口碑文本数据的第二特征属性集,ns,z是口碑文本数据中主题为z的词语的个数,均值μ,协方差为δ2;对于每一个主题k,λk是向量,其维度与文本类型向量xL和xS相同;
(522)在每个词语主题值更新的条件下,采用L-BFGS优化方法优化参数λ,进而优化口碑文本数据和扩展文本数据各自的狄利克雷先验值αL和αS,αL和αS分别为扩展文本数据集和口碑文本数据集的狄利克雷分布的主题先验参数;
(523)当每个口碑文本数据的每个词语的主题值以及狄利克雷先验值αL和αS稳定后,通过如下的公式进行统计和计算,获得模型的两个参数:口碑文本数据和扩展文本数据的主题-词语分布
Figure BDA0002406457470000073
以及口碑文本数据集的主题分布θ。
Figure BDA0002406457470000072
其中,nk,t为扩展文本数据集和口碑文本数据集中主题为k的词语t的个数;
Figure BDA0002406457470000081
其中,ns,k口碑文本数据中主题为k的词语的个数,其中口碑文本数据的主题为{θs,1s,2,...θs,k}中最大值对应的主题k的值;
(53)训练模型,基于扩展文本数据集和口碑文本数据集,初始化β和δ两个参数,通过高斯函数初始化矩阵λ,设置每次试验的迭代次数,进行模型训练,直至当每个口碑文本数据的每个词语的主题值以及狄利克雷先验值αL和αS稳定后,获得模型的两个参数,口碑文本数据和扩展文本数据的主题-词语分布
Figure BDA0002406457470000082
以及口碑文本数据集的主题分布θ;
(54)将待分析口碑文本数据对应的第二特征属性和第一特征属性输入训练好的模型,获取待分析口碑文本数据的包含的主题。
本实施例中,采用扩展文本数据集和口碑文本数据集结合方式,采用的算法中,λ矩阵根据当前的主题分配不断更新,从而使得p(αS|λ,xS)不断更新,进而优化口碑文本数据和扩展文本数据各自的狄利克雷先验值αL和αS,获得准确的主题-词语分布
Figure BDA0002406457470000083
以及口碑文本数据集的主题分布θ,提高了口碑文本数据主题挖掘的准确性。
所述步骤(51)中采用基于维基百科词向量的特征扩展方法获取扩展文本数据,具体是:根据步骤(11)获得的第二特征属性集中的词语,获取每个词语的维基百科的词向量集合,并根据欧式距离的计算方法得到每个词语相似性最大的预设数量个单词,将第二特征属性集中的词语对应的相似性最大的预设数量个单词增加到原有口碑文本数据中。
所述步骤(13)中对涉及主题Kn的mn条口碑文本数据进行情感倾向分类,情感倾向类别包括正面、负面和中立,分类过程采用情感倾向类别。
本实施例中情感分析模型采用神经网络算法,经过对大量口碑文本数据进行情感倾向标注,训练获得口碑文本数据情感分类模型,获取口碑文本数据情感。
将所有主题下的所有口碑文本数据得到情感倾向分类完成后,进行统计对比,获取口碑数据中涉及的热点主题,及用户对该主题的情感倾向,对于含有较多负面口碑数据的主题,P2P平台及时对对应主题的问题平台治理,从而及时规避平台风险和改进服务。
本发明不局限于上述具体的实施方式,本领域的普通技术人员从上述构思出发,不经过创造性的劳动,所做出的种种变换,均落在本发明的保护范围之内。

Claims (7)

1.一种基于口碑数据的P2P平台风险分析方法,其特征在于:包括:
(11)采集目标P2P平台口碑文本数据并进行预处理过程,用矩阵方式表示口碑文本数据的特征属性,记为第二特征属性集;
(12)采用文本主题发现算法,获取每一条口碑文本数据中包含的主题Kn,其中n表示所有口碑文本数据包含的主题总数;
(13)统计涉及主题Kn的口碑文本数据条数mn,并对涉及主题Kn的mn条口碑文本数据进行情感倾向分类。
2.根据权利要求1所述的一种基于口碑数据的P2P平台风险分析方法,其特征在于:所述预处理过程包括分词过程和特征编码过程,所述分词过程采用Jieba分词方法对口碑文本数据分词,由词语组成的词集表示口碑文本数据,并对词集中的词语进行去噪处理;所述特征编码过程采用词袋模型对数据进行特征化,以包含文本特征信息的向量表示文本数据。
3.根据权利要求2所述的一种基于口碑数据的P2P平台风险分析方法,其特征在于:所述预处理过程还包括特征选择过程,用于从分词过程后的词集中过滤掉没有实际意义的词语。
4.根据权利要求1所述的一种基于口碑数据的P2P平台风险分析方法,其特征在于:所述步骤(12)中的文本主题发现算法,采用口碑文本数据特征扩展方法获取扩展文本数据,结合扩展文本数据集和原有口碑文本数据集获取口碑数据集的口碑主题-词语分布和口碑数据-主题分布。
5.根据权利要求1所述的一种基于口碑数据的P2P平台风险分析方法,其特征在于:所述步骤(12)中的文本主题发现算法,具体为:
(51)建立数据集,采用基于维基百科词向量的特征扩展方法获取扩展文本数据,并将扩展文本数据经过步骤(11)中的预处理过程,获取第一特征属性集;
(52)搭建主题发现算法模型,其中,
(521)对于口碑文本数据中的每个词语wi,选择一个主题z的公式为:
Figure FDA0002406457460000011
其中,z∈{1,2,...K};z-i是当前文本中除去词语wi后剩余词语的主题集合;xL是每一条口碑文本数据的第一特征属性集;nl,z是扩展文本数据中主题为z的词语的个数;nz,i是口碑文本数据和扩展文本数据中主题为z的词语wi的个数和;
对于扩展文本数据中的每个词语wi,选择一个主题z的公式为:
Figure FDA0002406457460000021
其中,xS是每一条口碑文本数据的第二特征属性集,ns,z是口碑文本数据中主题为z的词语的个数,均值μ,协方差为δ2;对于每一个主题k,λk是向量,其维度与文本类型向量xL和xS相同;
(522)在每个词语主题值更新的条件下,采用L-BFGS优化方法优化参数λ,进而优化口碑文本数据和扩展文本数据各自的狄利克雷先验值αL和αS,αL和αS分别为扩展文本数据集和口碑文本数据集的狄利克雷分布的主题先验参数;
(523)当每个口碑文本数据的每个词语的主题值以及狄利克雷先验值αL和αS稳定后,通过如下的公式进行统计和计算,获得模型的两个参数:口碑文本数据和扩展文本数据的主题-词语分布
Figure FDA0002406457460000022
以及口碑文本数据集的主题分布θ,
Figure FDA0002406457460000023
其中,nk,t为扩展文本数据集和口碑文本数据集中主题为k的词语t的个数;
Figure FDA0002406457460000024
其中,ns,k口碑文本数据中主题为k的词语的个数,其中口碑文本数据的主题为{θs,1s,2,...θs,k}中最大值对应的主题k的值;
(53)训练模型,基于扩展文本数据集和口碑文本数据集,初始化β和δ两个参数,通过高斯函数初始化矩阵λ,设置每次试验的迭代次数,进行模型训练,直至当每个口碑文本数据的每个词语的主题值以及狄利克雷先验值αL和αS稳定后,获得模型的两个参数,口碑文本数据和扩展文本数据的主题-词语分布
Figure FDA0002406457460000031
以及口碑文本数据集的主题分布θ;
(54)将待分析口碑文本数据对应的第二特征属性和第一特征属性输入训练好的模型,获取待分析口碑文本数据的包含的主题。
6.根据权利要求5所述的一种基于口碑数据的P2P平台风险分析方法,其特征在于:所述步骤(51)中采用基于维基百科词向量的特征扩展方法获取扩展文本数据,具体是:根据步骤(11)获得的第二特征属性集中的词语,获取每个词语的维基百科的词向量集合,并根据欧式距离的计算方法得到每个词语相似性最大的预设数量个单词,将第二特征属性集中的词语对应的相似性最大的预设数量个单词增加到原有口碑文本数据中。
7.根据权利要求1所述的一种基于口碑数据的P2P平台风险分析方法,其特征在于:所述步骤(13)中对涉及主题Kn的mn条口碑文本数据进行情感倾向分类,情感倾向类别包括正面、负面和中立,分类过程采用情感分析模型。
CN202010163040.3A 2020-03-10 2020-03-10 一种基于口碑的p2p平台风险分析方法 Active CN111428510B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010163040.3A CN111428510B (zh) 2020-03-10 2020-03-10 一种基于口碑的p2p平台风险分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010163040.3A CN111428510B (zh) 2020-03-10 2020-03-10 一种基于口碑的p2p平台风险分析方法

Publications (2)

Publication Number Publication Date
CN111428510A true CN111428510A (zh) 2020-07-17
CN111428510B CN111428510B (zh) 2023-04-07

Family

ID=71546283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010163040.3A Active CN111428510B (zh) 2020-03-10 2020-03-10 一种基于口碑的p2p平台风险分析方法

Country Status (1)

Country Link
CN (1) CN111428510B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738298A (zh) * 2023-08-16 2023-09-12 杭州同花顺数据开发有限公司 一种文本分类方法、系统和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116644A (zh) * 2013-02-26 2013-05-22 华南理工大学 Web主题倾向性挖掘与决策支持的方法
WO2017097231A1 (zh) * 2015-12-11 2017-06-15 北京国双科技有限公司 话题处理方法及装置
CN110543547A (zh) * 2019-08-13 2019-12-06 广东数鼎科技有限公司 一种汽车口碑语义情感分析系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116644A (zh) * 2013-02-26 2013-05-22 华南理工大学 Web主题倾向性挖掘与决策支持的方法
WO2017097231A1 (zh) * 2015-12-11 2017-06-15 北京国双科技有限公司 话题处理方法及装置
CN110543547A (zh) * 2019-08-13 2019-12-06 广东数鼎科技有限公司 一种汽车口碑语义情感分析系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王平;夏火松;: "P2P负面口碑特征属性挖掘与风险知识识别模型" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738298A (zh) * 2023-08-16 2023-09-12 杭州同花顺数据开发有限公司 一种文本分类方法、系统和存储介质
CN116738298B (zh) * 2023-08-16 2023-11-24 杭州同花顺数据开发有限公司 一种文本分类方法、系统和存储介质

Also Published As

Publication number Publication date
CN111428510B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN109255506B (zh) 一种基于大数据的互联网金融用户贷款逾期预测方法
CN111126386B (zh) 场景文本识别中基于对抗学习的序列领域适应方法
CN110377744B (zh) 一种舆情分类的方法、装置、存储介质及电子设备
CN111914612B (zh) 一种基于改进的卷积神经网络的施工图图元自适应识别方法
CN109740642A (zh) 发票类别识别方法、装置、电子设备及可读存储介质
CN111325248A (zh) 降低贷前业务风险的方法及系统
CN114998602A (zh) 基于低置信度样本对比损失的域适应学习方法及系统
Wu et al. TEDM-PU: A tax evasion detection method based on positive and unlabeled learning
CN111428510A (zh) 一种基于口碑的p2p平台风险分析方法
CN116503872B (zh) 一种基于机器学习的授信客户挖掘方法
Li et al. SwordNet: Chinese character font style recognition network
CN112839185A (zh) 用于处理图像的方法、装置、设备和介质
CN114119191A (zh) 风控方法、逾期预测方法、模型训练方法及相关设备
Park et al. Automatic Construction of Context-Aware Sentiment Lexicon in the Financial Domain Using Direction-Dependent Words
CN109635289A (zh) 词条分类方法及审计信息抽取方法
CN114529911A (zh) 基于改进yolo9000算法的验证码识别方法及系统
CN113051396A (zh) 文档的分类识别方法、装置和电子设备
CN112927719A (zh) 风险信息评估方法、装置、设备及存储介质
Álvaro et al. Page segmentation of structured documents using 2d stochastic context-free grammars
CN111160245A (zh) 一种动态签名识别方法及设备
Kacar et al. Price Rank Prediction of a Company by Utilizing Data Mining Methods on Financial Disclosures
CN114936559B (zh) 一种基于多模型融合的多级事件抽取方法和抽取系统
Cheng et al. An attribute selection based classifier to predict financial distress
CN112256832B (zh) 一种标签的提取方法、装置、设备及可读存储介质
CN113360633B (zh) 一种基于深度域适应的跨域测试文档分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant