CN117273754A

CN117273754A - 一种基于nlp的消费欺诈行为检测系统及方法

Info

Publication number: CN117273754A
Application number: CN202311007827.0A
Authority: CN
Inventors: 唐兴利; 李可起; 黄丽婷; 叶春杨; 周辉
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2023-12-22

Abstract

本发明属于欺诈检测技术领域，公开了一种基于NLP的消费欺诈行为检测系统及方法。所述的系统包括依次连接的评论处理模块、欺诈训练模块以及欺诈检测模块。所述的方法包括如下步骤：获取历史评论数据集，进行预处理，得到预处理后历史评论数据集；进行主题提取，得到若干消费主题，并将若干消费主题与消费欺诈法规进行对比，得到若干消费欺诈类别；根据消费欺诈类别，进行分类处理，得到消费欺诈数据集；根据消费欺诈数据集，使用NLP算法进行模型训练，得到消费欺诈行为检测模型；获取实时评论数据，并进行消费欺诈行为检测，得到消费欺诈行为检测结果。本发明解决了现有技术存在的劳动强度大，效率低下以及准确性低的问题。

Description

一种基于NLP的消费欺诈行为检测系统及方法

技术领域

本发明属于欺诈检测技术领域，具体涉及一种基于NLP的消费欺诈行为检测系统及方法。

背景技术

消费者欺诈被定义为经营者使用虚假或不正当手段欺骗和伤害消费者，这对消费者和监管部门都是一个重大挑战。不幸的是，消费者欺诈是一个复杂的问题，发生在各种生活场景中，所涉及的交易往往简单而难以记录，这使得对欺诈行为进行量化具有挑战性。因此，检测消费者欺诈比检测金融或电信欺诈更具挑战性。

传统的消费者欺诈检测方法依靠监管部门通过抽样进行检查，劳动强度大，效率低下。例如，要求各级市场监管部门至少每两年对辖区内的食品生产经营者进行一次监督检查。尽管监管部门定期对商家进行抽查，但消费者欺诈在日常生活中仍然普遍存在。此外，相关监管部门还建立了反馈网站和热线，以方便发现欺诈行为。然而，这些反馈渠道往往需要详细和具体的信息，使得人工投诉处理缓慢而繁琐，准确性低，这会阻碍对消费者权益的保护。因此，自动检测消费者欺诈行为，为相关监管机构和消费者提供早期预警是可取的。

发明内容

为了解决现有技术存在的劳动强度大，效率低下以及准确性低的问题，本发明目的在于提供一种基于NLP的消费欺诈行为检测系统及方法。

本发明所采用的技术方案为：

一种基于NLP的消费欺诈行为检测系统，包括依次连接的评论处理模块、欺诈训练模块以及欺诈检测模块；

评论处理模块，用于获取历史评论数据集，对历史评论数据集进行预处理，得到预处理后历史评论数据集；

欺诈训练模块，用于根据预处理后历史评论数据集，使用NLP算法进行模型训练，构建消费欺诈行为检测模型；

欺诈检测模块，用于获取实时评论数据，并使用消费欺诈行为检测模型对实时评论数据进行消费欺诈行为检测，得到消费欺诈行为检测结果。

进一步地，欺诈训练模块包括依次连接的主题提取子模块、分类处理子模块以及模型训练子模块，主题提取子模块与评论处理模块连接，模型训练子模块与欺诈检测模块连接。

一种基于NLP的消费欺诈行为检测方法，应用于消费欺诈行为检测系统，方法包括如下步骤：

获取历史评论数据集，对历史评论数据集进行预处理，得到预处理后历史评论数据集；

对预处理后历史评论数据集进行主题提取，得到若干消费主题，并将若干消费主题与消费欺诈法规进行对比，得到若干消费欺诈类别；

根据消费欺诈类别，对预处理后历史评论数据集进行分类处理，得到消费欺诈数据集；

根据消费欺诈数据集，使用NLP算法进行模型训练，得到消费欺诈行为检测模型；

获取实时评论数据，并使用消费欺诈行为检测模型对实时评论数据进行消费欺诈行为检测，得到消费欺诈行为检测结果。

进一步地，获取历史评论数据集，对历史评论数据集进行预处理，得到预处理后历史评论数据集，包括如下步骤：

使用爬虫工具，爬取互联网中各消费平台的历史低分评论，得到历史评论数据集；

对历史评论数据集中每条历史评论数据依次进行去重处理、符号处理以及格式转换处理，得到预处理后历史评论数据集。

进一步地，对预处理后历史评论数据集进行主题提取，得到若干消费主题，并将若干消费主题与消费欺诈法规进行对比，得到若干消费欺诈类别，包括如下步骤：

使用主体模型，依次对预处理后历史评论数据集中每条历史评论数据进行主题提取，得到若干消费主题；

将消费主题与消费欺诈法规中规定的消费欺诈行为进行对比，构建符合消费欺诈行为规定的若干消费欺诈类别。

进一步地，主体模型为BTM模型。

进一步地，根据消费欺诈类别，对预处理后历史评论数据集进行分类处理，得到消费欺诈数据集，包括如下步骤：

若历史评论数据的消费主题与一消费欺诈类别存在匹配关系，则将匹配的消费欺诈类别作为对应的历史评论数据的欺诈类别标签，并将该历史评论数据作为模型训练数据；

遍历预处理后历史评论数据集中所有的历史评论数据，得到消费欺诈数据集。

进一步地，根据消费欺诈数据集，使用NLP算法进行模型训练，得到消费欺诈行为检测模型，包括如下步骤：

将消费欺诈数据集按照比例划分为训练样本集和测试样本集；

将训练样本集输入NLP算法进行模型训练，得到初始的消费欺诈行为检测模型；

将测试样本集输入初始的消费欺诈行为检测模型进行模型优化，得到并输出最优的消费欺诈行为检测模型。

进一步地，消费欺诈行为检测模型为BERT_BASE模型。

进一步地，BERT_BASE模型包括依次连接的输入层、嵌入层、MLP层、Softmax层以及输出层。

本发明的有益效果为：

本发明提供的一种基于NLP的消费欺诈行为检测系统及方法，基于大量消费者评论和法规构建消费欺诈数据集，建立了基于评论数据进行消费欺诈行为检测的判断体系，并基于NLP算法构建消费欺诈行为检测模型进行自动化消费欺诈行为检测，减轻了劳动强度，提高了检测效率，消费欺诈行为检测模型基于预训练语言模型BERT_BASE，提供了语义感知的、细粒度的检测系统及方法，提高了检测准确性。

本发明的其他有益效果将在具体实施方式中进一步进行说明。

附图说明

图1是本发明中基于NLP的消费欺诈行为检测系统的结构框图。

图2是本发明中基于NLP的消费欺诈行为检测方法的流程框图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步阐释。

在网络时代，文本是信息传递的重要媒介，消费者对商品和企业的在线评论已成为消费者做出购买决策时的宝贵资源。先前的一些研究表明，在线消费者评论可以减少人工消费者欺诈检测的工作量，可以使用科学的方法来支持在线消费者欺诈检测和预防。从消费者评论中获得对欺诈特征的详细了解可以帮助监管机构理解消费者投诉，核实欺诈商家，并进行后续的欺诈解决活动。

实施例1：

如图1所示，本实施例提供一种基于NLP的消费欺诈行为检测系统，包括依次连接的评论处理模块、欺诈训练模块以及欺诈检测模块；

作为优选，欺诈训练模块包括依次连接的主题提取子模块、分类处理子模块以及模型训练子模块，主题提取子模块与评论处理模块连接，模型训练子模块与欺诈检测模块连接；

主题提取子模块，用于对评论处理模块得到的预处理后历史评论数据集进行主题提取，得到若干消费主题，并将若干消费主题与消费欺诈法规进行对比，得到若干消费欺诈类别；

分类处理子模块，用于根据消费欺诈类别，对预处理后历史评论数据集进行分类处理，得到消费欺诈数据集；

模型训练子模块，用于根据消费欺诈数据集，使用NLP算法进行模型训练，得到消费欺诈行为检测模型，并将消费欺诈行为检测模型发送至欺诈检测模块。

实施例2：

如图2所示，本实施例提供一种基于NLP的消费欺诈行为检测方法，应用于消费欺诈行为检测系统，方法包括如下步骤：

S1：获取历史评论数据集，对历史评论数据集进行预处理，得到预处理后历史评论数据集，包括如下步骤：

S1-1：使用爬虫工具，爬取互联网中各消费平台(例如，美团或大众点评)的历史低分评论(低于三颗星的评论)，得到历史评论数据集；

S1-2：对历史评论数据集中每条历史评论数据依次进行去重处理、符号处理以及格式转换处理(包括且不限于去除空格、去除重复的符号、把省略号转换为句号、去重、去除表情符号、去除停用词以及繁体字与简体字转换等处理)，得到预处理后历史评论数据集；

S2：对预处理后历史评论数据集进行主题提取，得到若干消费主题，并将若干消费主题与消费欺诈法规进行对比，得到若干消费欺诈类别，包括如下步骤：

S2-1：使用BTM模型，依次对预处理后历史评论数据集中每条历史评论数据进行主题提取，得到若干消费主题；

为了更好地提取欺诈特征，本实施例使用了一个专门为短文本设计的主题模型：Biterm主题模型(BTM)，BTM模型直接将共现词建模为主题的语义迁移单元，比单个词更能揭示主题，每个双词都是在短上下文中同时出现的一对无序单词，每个biterm词对b＝(w_i,w_j)的联合概率可以写为：

式中，b为词对；Z为历史评论数据中消费主题总数；w_i和w_j均为无序单词；P(z)为属于z的概率；P(w_i|Z)和P(w_j|Z)分别为w_i和w_j属于Z的概率；z、i、j均为指示量；

BTM基于联合概率从历史评论数据中选择Z个消费主题，并基于联合概率从消费主题Z中选择关键词，d为文档，文档中每个主题生成的概率的公式为：

P(z|d)＝∑_bP(z|b)P(b|d)

式中，P(z|b)和P(b|d)分别为词对中主题的概率和文档中词对的概率；

P(z|b)基于BTM中的估计参数，并使用贝叶斯公式进行计算，公式为：

式中，θ_z、φ_i|z、φ_j|z均为估计参数，且φ_i|z、φ_j|z～Dir(β)，θ_z～Dir(α)，Z～Multi(θ)，其中，α和β均为Dirichlet先验参数；z、i、j均为指示量；

p(b|d)通过文档中biterms的经验分布进行计算，公式为：

式中，n_d(b)是文档d中bitermb的频率；

S2-2：将消费主题与消费欺诈法规(《什么是欺诈消费行为》和《海南自由贸易港反消费者欺诈条例》)中规定的消费欺诈行为进行对比，构建符合消费欺诈行为规定的若干消费欺诈类别，包括不合格商品、分量不足的商品、虚假宣传、付费问题以及发票问题；

S3：根据消费欺诈类别，对预处理后历史评论数据集进行分类处理，得到消费欺诈数据集，包括如下步骤：

S3-1：若历史评论数据的消费主题与一消费欺诈类别存在匹配关系，则将匹配的消费欺诈类别作为对应的历史评论数据的欺诈类别标签，并将该历史评论数据作为模型训练数据；如果单个评论涉及多个欺诈行为，则将评论分成单独的评论，每个评论只属于一种消费者欺诈类型；

S3-2：遍历预处理后历史评论数据集中所有的历史评论数据，得到消费欺诈数据集；

S4：根据消费欺诈数据集，使用NLP算法进行模型训练，得到消费欺诈行为检测模型，包括如下步骤：

S4-1：将消费欺诈数据集按照7：3的比例划分为训练样本集和测试样本集；

S4-2：将训练样本集输入NLP算法中的双向Transformer的Encoder(Bidirectional Encoder Representation from Transformers,BERT)_BASE模型进行模型训练，得到初始的消费欺诈行为检测模型；

BERT_BASE模型包括依次连接的输入层、嵌入层、多层感知器(Multi-LayerPerceptron,MLP)层、Softmax分类层以及输出层；

将训练样本输入到嵌入层，该嵌入层利用标记嵌入将训练样本的单个单词转换为768维向量，为了表示句子的开始和结束，在开头插入一个[CLS]标记，在结尾插入一个[SEP]标记，得到一个向量表示，表示为t，为了区分两个向量的表示，使用分段嵌入，得到一个向量表示，表示为s，由于消费者评论缺乏序列信息，执行位置编码以向每个令牌添加位置信息，这是通过使用正弦和余弦函数为每个标记生成位置信息来实现的，从而产生一个表示为p的向量表示，接下来，对嵌入的各层进行求和，得到向量表示“v＝[t⊕s⊕p]”，每个输入句子由128个单词的标记表示，包括一个特殊的开始符号[CLS]和一个结束符号[SEP]，如果句子不够长，)使用一个特殊的符号[PAD]来填充到128的长度；

将嵌入层输出的预训练后的向量作为MLP层的输入，计算每个向量的欺诈类别标签的概率向量；在BERT预训练之后，获得了全局欺诈特征，这些特征被馈送到池化层以防止过拟合，并生成n个(输入句子的长度)向量，每个向量有768维，对应于每个输入单词，为了共同捕获复习句子和欺诈类别的潜在含义，将类别合并到文本向量v中，欺诈类别首先通过将其输入嵌入层将其转换为连续向量(表示为hc)，该嵌入层与整个模型共同训练；接下来，将hc和v(hc⊕v)连接起来，以获得包含类别(vi)的每个单词的向量；然后将这些连接的向量传递给多层感知器(MLP)，该感知器计算每个单词欺诈类别标签的概率向量(记为p)；激活函数记为f,W是MLP中的一个可训练参数，交叉熵函数结合输出层的Softmax函数可以更快地加快深度学习的训练速度；

将MLP层的输出作为Softmax层的输入，通过Softmax层获得归一化后的每个向量的欺诈类别标签的概率向量；

S4-3：将测试样本集输入初始的消费欺诈行为检测模型进行模型优化，得到并输出最优的消费欺诈行为检测模型；

S5：获取实时评论数据，并使用消费欺诈行为检测模型对实时评论数据进行消费欺诈行为检测，得到消费欺诈行为检测结果。

本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种基于NLP的消费欺诈行为检测系统，其特征在于：包括依次连接的评论处理模块、欺诈训练模块以及欺诈检测模块；

2.根据权利要求1所述的一种基于NLP的消费欺诈行为检测系统，其特征在于：所述的欺诈训练模块包括依次连接的主题提取子模块、分类处理子模块以及模型训练子模块，所述的主题提取子模块与评论处理模块连接，所述的模型训练子模块与欺诈检测模块连接。

3.一种基于NLP的消费欺诈行为检测方法，应用于如权利要求1-2任一所述的消费欺诈行为检测系统，其特征在于：所述的方法包括如下步骤：

4.根据权利要求3所述的一种基于NLP的消费欺诈行为检测方法，其特征在于：获取历史评论数据集，对历史评论数据集进行预处理，得到预处理后历史评论数据集，包括如下步骤：

5.根据权利要求3所述的一种基于NLP的消费欺诈行为检测方法，其特征在于：对预处理后历史评论数据集进行主题提取，得到若干消费主题，并将若干消费主题与消费欺诈法规进行对比，得到若干消费欺诈类别，包括如下步骤：

6.根据权利要求5所述的一种基于NLP的消费欺诈行为检测方法，其特征在于：所述的主体模型为BTM模型。

7.根据权利要求3所述的一种基于NLP的消费欺诈行为检测方法，其特征在于：根据消费欺诈类别，对预处理后历史评论数据集进行分类处理，得到消费欺诈数据集，包括如下步骤：

8.根据权利要求3所述的一种基于NLP的消费欺诈行为检测方法，其特征在于：根据消费欺诈数据集，使用NLP算法进行模型训练，得到消费欺诈行为检测模型，包括如下步骤：

9.根据权利要求8所述的一种基于NLP的消费欺诈行为检测方法，其特征在于：所述的消费欺诈行为检测模型为BERT_BASE模型。

10.根据权利要求9所述的一种基于NLP的消费欺诈行为检测方法，其特征在于：所述的BERT_BASE模型包括依次连接的输入层、嵌入层、MLP层、Softmax层以及输出层。