CN117273754A - 一种基于nlp的消费欺诈行为检测系统及方法 - Google Patents
一种基于nlp的消费欺诈行为检测系统及方法 Download PDFInfo
- Publication number
- CN117273754A CN117273754A CN202311007827.0A CN202311007827A CN117273754A CN 117273754 A CN117273754 A CN 117273754A CN 202311007827 A CN202311007827 A CN 202311007827A CN 117273754 A CN117273754 A CN 117273754A
- Authority
- CN
- China
- Prior art keywords
- consumption
- fraud
- data set
- comment data
- fraud detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 6
- 230000006399 behavior Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000009193 crawling Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 18
- 230000001105 regulatory effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0282—Rating or review of business operators or products
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Entrepreneurship & Innovation (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Marketing (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于欺诈检测技术领域,公开了一种基于NLP的消费欺诈行为检测系统及方法。所述的系统包括依次连接的评论处理模块、欺诈训练模块以及欺诈检测模块。所述的方法包括如下步骤:获取历史评论数据集,进行预处理,得到预处理后历史评论数据集;进行主题提取,得到若干消费主题,并将若干消费主题与消费欺诈法规进行对比,得到若干消费欺诈类别;根据消费欺诈类别,进行分类处理,得到消费欺诈数据集;根据消费欺诈数据集,使用NLP算法进行模型训练,得到消费欺诈行为检测模型;获取实时评论数据,并进行消费欺诈行为检测,得到消费欺诈行为检测结果。本发明解决了现有技术存在的劳动强度大,效率低下以及准确性低的问题。
Description
技术领域
本发明属于欺诈检测技术领域,具体涉及一种基于NLP的消费欺诈行为检测系统及方法。
背景技术
消费者欺诈被定义为经营者使用虚假或不正当手段欺骗和伤害消费者,这对消费者和监管部门都是一个重大挑战。不幸的是,消费者欺诈是一个复杂的问题,发生在各种生活场景中,所涉及的交易往往简单而难以记录,这使得对欺诈行为进行量化具有挑战性。因此,检测消费者欺诈比检测金融或电信欺诈更具挑战性。
传统的消费者欺诈检测方法依靠监管部门通过抽样进行检查,劳动强度大,效率低下。例如,要求各级市场监管部门至少每两年对辖区内的食品生产经营者进行一次监督检查。尽管监管部门定期对商家进行抽查,但消费者欺诈在日常生活中仍然普遍存在。此外,相关监管部门还建立了反馈网站和热线,以方便发现欺诈行为。然而,这些反馈渠道往往需要详细和具体的信息,使得人工投诉处理缓慢而繁琐,准确性低,这会阻碍对消费者权益的保护。因此,自动检测消费者欺诈行为,为相关监管机构和消费者提供早期预警是可取的。
发明内容
为了解决现有技术存在的劳动强度大,效率低下以及准确性低的问题,本发明目的在于提供一种基于NLP的消费欺诈行为检测系统及方法。
本发明所采用的技术方案为:
一种基于NLP的消费欺诈行为检测系统,包括依次连接的评论处理模块、欺诈训练模块以及欺诈检测模块;
评论处理模块,用于获取历史评论数据集,对历史评论数据集进行预处理,得到预处理后历史评论数据集;
欺诈训练模块,用于根据预处理后历史评论数据集,使用NLP算法进行模型训练,构建消费欺诈行为检测模型;
欺诈检测模块,用于获取实时评论数据,并使用消费欺诈行为检测模型对实时评论数据进行消费欺诈行为检测,得到消费欺诈行为检测结果。
进一步地,欺诈训练模块包括依次连接的主题提取子模块、分类处理子模块以及模型训练子模块,主题提取子模块与评论处理模块连接,模型训练子模块与欺诈检测模块连接。
一种基于NLP的消费欺诈行为检测方法,应用于消费欺诈行为检测系统,方法包括如下步骤:
获取历史评论数据集,对历史评论数据集进行预处理,得到预处理后历史评论数据集;
对预处理后历史评论数据集进行主题提取,得到若干消费主题,并将若干消费主题与消费欺诈法规进行对比,得到若干消费欺诈类别;
根据消费欺诈类别,对预处理后历史评论数据集进行分类处理,得到消费欺诈数据集;
根据消费欺诈数据集,使用NLP算法进行模型训练,得到消费欺诈行为检测模型;
获取实时评论数据,并使用消费欺诈行为检测模型对实时评论数据进行消费欺诈行为检测,得到消费欺诈行为检测结果。
进一步地,获取历史评论数据集,对历史评论数据集进行预处理,得到预处理后历史评论数据集,包括如下步骤:
使用爬虫工具,爬取互联网中各消费平台的历史低分评论,得到历史评论数据集;
对历史评论数据集中每条历史评论数据依次进行去重处理、符号处理以及格式转换处理,得到预处理后历史评论数据集。
进一步地,对预处理后历史评论数据集进行主题提取,得到若干消费主题,并将若干消费主题与消费欺诈法规进行对比,得到若干消费欺诈类别,包括如下步骤:
使用主体模型,依次对预处理后历史评论数据集中每条历史评论数据进行主题提取,得到若干消费主题;
将消费主题与消费欺诈法规中规定的消费欺诈行为进行对比,构建符合消费欺诈行为规定的若干消费欺诈类别。
进一步地,主体模型为BTM模型。
进一步地,根据消费欺诈类别,对预处理后历史评论数据集进行分类处理,得到消费欺诈数据集,包括如下步骤:
若历史评论数据的消费主题与一消费欺诈类别存在匹配关系,则将匹配的消费欺诈类别作为对应的历史评论数据的欺诈类别标签,并将该历史评论数据作为模型训练数据;
遍历预处理后历史评论数据集中所有的历史评论数据,得到消费欺诈数据集。
进一步地,根据消费欺诈数据集,使用NLP算法进行模型训练,得到消费欺诈行为检测模型,包括如下步骤:
将消费欺诈数据集按照比例划分为训练样本集和测试样本集;
将训练样本集输入NLP算法进行模型训练,得到初始的消费欺诈行为检测模型;
将测试样本集输入初始的消费欺诈行为检测模型进行模型优化,得到并输出最优的消费欺诈行为检测模型。
进一步地,消费欺诈行为检测模型为BERT_BASE模型。
进一步地,BERT_BASE模型包括依次连接的输入层、嵌入层、MLP层、Softmax层以及输出层。
本发明的有益效果为:
本发明提供的一种基于NLP的消费欺诈行为检测系统及方法,基于大量消费者评论和法规构建消费欺诈数据集,建立了基于评论数据进行消费欺诈行为检测的判断体系,并基于NLP算法构建消费欺诈行为检测模型进行自动化消费欺诈行为检测,减轻了劳动强度,提高了检测效率,消费欺诈行为检测模型基于预训练语言模型BERT_BASE,提供了语义感知的、细粒度的检测系统及方法,提高了检测准确性。
本发明的其他有益效果将在具体实施方式中进一步进行说明。
附图说明
图1是本发明中基于NLP的消费欺诈行为检测系统的结构框图。
图2是本发明中基于NLP的消费欺诈行为检测方法的流程框图。
具体实施方式
下面结合附图及具体实施例对本发明做进一步阐释。
在网络时代,文本是信息传递的重要媒介,消费者对商品和企业的在线评论已成为消费者做出购买决策时的宝贵资源。先前的一些研究表明,在线消费者评论可以减少人工消费者欺诈检测的工作量,可以使用科学的方法来支持在线消费者欺诈检测和预防。从消费者评论中获得对欺诈特征的详细了解可以帮助监管机构理解消费者投诉,核实欺诈商家,并进行后续的欺诈解决活动。
实施例1:
如图1所示,本实施例提供一种基于NLP的消费欺诈行为检测系统,包括依次连接的评论处理模块、欺诈训练模块以及欺诈检测模块;
评论处理模块,用于获取历史评论数据集,对历史评论数据集进行预处理,得到预处理后历史评论数据集;
欺诈训练模块,用于根据预处理后历史评论数据集,使用NLP算法进行模型训练,构建消费欺诈行为检测模型;
欺诈检测模块,用于获取实时评论数据,并使用消费欺诈行为检测模型对实时评论数据进行消费欺诈行为检测,得到消费欺诈行为检测结果。
作为优选,欺诈训练模块包括依次连接的主题提取子模块、分类处理子模块以及模型训练子模块,主题提取子模块与评论处理模块连接,模型训练子模块与欺诈检测模块连接;
主题提取子模块,用于对评论处理模块得到的预处理后历史评论数据集进行主题提取,得到若干消费主题,并将若干消费主题与消费欺诈法规进行对比,得到若干消费欺诈类别;
分类处理子模块,用于根据消费欺诈类别,对预处理后历史评论数据集进行分类处理,得到消费欺诈数据集;
模型训练子模块,用于根据消费欺诈数据集,使用NLP算法进行模型训练,得到消费欺诈行为检测模型,并将消费欺诈行为检测模型发送至欺诈检测模块。
实施例2:
如图2所示,本实施例提供一种基于NLP的消费欺诈行为检测方法,应用于消费欺诈行为检测系统,方法包括如下步骤:
S1:获取历史评论数据集,对历史评论数据集进行预处理,得到预处理后历史评论数据集,包括如下步骤:
S1-1:使用爬虫工具,爬取互联网中各消费平台(例如,美团或大众点评)的历史低分评论(低于三颗星的评论),得到历史评论数据集;
S1-2:对历史评论数据集中每条历史评论数据依次进行去重处理、符号处理以及格式转换处理(包括且不限于去除空格、去除重复的符号、把省略号转换为句号、去重、去除表情符号、去除停用词以及繁体字与简体字转换等处理),得到预处理后历史评论数据集;
S2:对预处理后历史评论数据集进行主题提取,得到若干消费主题,并将若干消费主题与消费欺诈法规进行对比,得到若干消费欺诈类别,包括如下步骤:
S2-1:使用BTM模型,依次对预处理后历史评论数据集中每条历史评论数据进行主题提取,得到若干消费主题;
为了更好地提取欺诈特征,本实施例使用了一个专门为短文本设计的主题模型:Biterm主题模型(BTM),BTM模型直接将共现词建模为主题的语义迁移单元,比单个词更能揭示主题,每个双词都是在短上下文中同时出现的一对无序单词,每个biterm词对b=(wi,wj)的联合概率可以写为:
式中,b为词对;Z为历史评论数据中消费主题总数;wi和wj均为无序单词;P(z)为属于z的概率;P(wi|Z)和P(wj|Z)分别为wi和wj属于Z的概率;z、i、j均为指示量;
BTM基于联合概率从历史评论数据中选择Z个消费主题,并基于联合概率从消费主题Z中选择关键词,d为文档,文档中每个主题生成的概率的公式为:
P(z|d)=∑bP(z|b)P(b|d)
式中,P(z|b)和P(b|d)分别为词对中主题的概率和文档中词对的概率;
P(z|b)基于BTM中的估计参数,并使用贝叶斯公式进行计算,公式为:
式中,θz、φi|z、φj|z均为估计参数,且φi|z、φj|z~Dir(β),θz~Dir(α),Z~Multi(θ),其中,α和β均为Dirichlet先验参数;z、i、j均为指示量;
p(b|d)通过文档中biterms的经验分布进行计算,公式为:
式中,nd(b)是文档d中bitermb的频率;
S2-2:将消费主题与消费欺诈法规(《什么是欺诈消费行为》和《海南自由贸易港反消费者欺诈条例》)中规定的消费欺诈行为进行对比,构建符合消费欺诈行为规定的若干消费欺诈类别,包括不合格商品、分量不足的商品、虚假宣传、付费问题以及发票问题;
S3:根据消费欺诈类别,对预处理后历史评论数据集进行分类处理,得到消费欺诈数据集,包括如下步骤:
S3-1:若历史评论数据的消费主题与一消费欺诈类别存在匹配关系,则将匹配的消费欺诈类别作为对应的历史评论数据的欺诈类别标签,并将该历史评论数据作为模型训练数据;如果单个评论涉及多个欺诈行为,则将评论分成单独的评论,每个评论只属于一种消费者欺诈类型;
S3-2:遍历预处理后历史评论数据集中所有的历史评论数据,得到消费欺诈数据集;
S4:根据消费欺诈数据集,使用NLP算法进行模型训练,得到消费欺诈行为检测模型,包括如下步骤:
S4-1:将消费欺诈数据集按照7:3的比例划分为训练样本集和测试样本集;
S4-2:将训练样本集输入NLP算法中的双向Transformer的Encoder(Bidirectional Encoder Representation from Transformers,BERT)_BASE模型进行模型训练,得到初始的消费欺诈行为检测模型;
BERT_BASE模型包括依次连接的输入层、嵌入层、多层感知器(Multi-LayerPerceptron,MLP)层、Softmax分类层以及输出层;
将训练样本输入到嵌入层,该嵌入层利用标记嵌入将训练样本的单个单词转换为768维向量,为了表示句子的开始和结束,在开头插入一个[CLS]标记,在结尾插入一个[SEP]标记,得到一个向量表示,表示为t,为了区分两个向量的表示,使用分段嵌入,得到一个向量表示,表示为s,由于消费者评论缺乏序列信息,执行位置编码以向每个令牌添加位置信息,这是通过使用正弦和余弦函数为每个标记生成位置信息来实现的,从而产生一个表示为p的向量表示,接下来,对嵌入的各层进行求和,得到向量表示“v=[t⊕s⊕p]”,每个输入句子由128个单词的标记表示,包括一个特殊的开始符号[CLS]和一个结束符号[SEP],如果句子不够长,)使用一个特殊的符号[PAD]来填充到128的长度;
将嵌入层输出的预训练后的向量作为MLP层的输入,计算每个向量的欺诈类别标签的概率向量;在BERT预训练之后,获得了全局欺诈特征,这些特征被馈送到池化层以防止过拟合,并生成n个(输入句子的长度)向量,每个向量有768维,对应于每个输入单词,为了共同捕获复习句子和欺诈类别的潜在含义,将类别合并到文本向量v中,欺诈类别首先通过将其输入嵌入层将其转换为连续向量(表示为hc),该嵌入层与整个模型共同训练;接下来,将hc和v(hc⊕v)连接起来,以获得包含类别(vi)的每个单词的向量;然后将这些连接的向量传递给多层感知器(MLP),该感知器计算每个单词欺诈类别标签的概率向量(记为p);激活函数记为f,W是MLP中的一个可训练参数,交叉熵函数结合输出层的Softmax函数可以更快地加快深度学习的训练速度;
将MLP层的输出作为Softmax层的输入,通过Softmax层获得归一化后的每个向量的欺诈类别标签的概率向量;
S4-3:将测试样本集输入初始的消费欺诈行为检测模型进行模型优化,得到并输出最优的消费欺诈行为检测模型;
S5:获取实时评论数据,并使用消费欺诈行为检测模型对实时评论数据进行消费欺诈行为检测,得到消费欺诈行为检测结果。
本发明提供的一种基于NLP的消费欺诈行为检测系统及方法,基于大量消费者评论和法规构建消费欺诈数据集,建立了基于评论数据进行消费欺诈行为检测的判断体系,并基于NLP算法构建消费欺诈行为检测模型进行自动化消费欺诈行为检测,减轻了劳动强度,提高了检测效率,消费欺诈行为检测模型基于预训练语言模型BERT_BASE,提供了语义感知的、细粒度的检测系统及方法,提高了检测准确性。
本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。
Claims (10)
1.一种基于NLP的消费欺诈行为检测系统,其特征在于:包括依次连接的评论处理模块、欺诈训练模块以及欺诈检测模块;
评论处理模块,用于获取历史评论数据集,对历史评论数据集进行预处理,得到预处理后历史评论数据集;
欺诈训练模块,用于根据预处理后历史评论数据集,使用NLP算法进行模型训练,构建消费欺诈行为检测模型;
欺诈检测模块,用于获取实时评论数据,并使用消费欺诈行为检测模型对实时评论数据进行消费欺诈行为检测,得到消费欺诈行为检测结果。
2.根据权利要求1所述的一种基于NLP的消费欺诈行为检测系统,其特征在于:所述的欺诈训练模块包括依次连接的主题提取子模块、分类处理子模块以及模型训练子模块,所述的主题提取子模块与评论处理模块连接,所述的模型训练子模块与欺诈检测模块连接。
3.一种基于NLP的消费欺诈行为检测方法,应用于如权利要求1-2任一所述的消费欺诈行为检测系统,其特征在于:所述的方法包括如下步骤:
获取历史评论数据集,对历史评论数据集进行预处理,得到预处理后历史评论数据集;
对预处理后历史评论数据集进行主题提取,得到若干消费主题,并将若干消费主题与消费欺诈法规进行对比,得到若干消费欺诈类别;
根据消费欺诈类别,对预处理后历史评论数据集进行分类处理,得到消费欺诈数据集;
根据消费欺诈数据集,使用NLP算法进行模型训练,得到消费欺诈行为检测模型;
获取实时评论数据,并使用消费欺诈行为检测模型对实时评论数据进行消费欺诈行为检测,得到消费欺诈行为检测结果。
4.根据权利要求3所述的一种基于NLP的消费欺诈行为检测方法,其特征在于:获取历史评论数据集,对历史评论数据集进行预处理,得到预处理后历史评论数据集,包括如下步骤:
使用爬虫工具,爬取互联网中各消费平台的历史低分评论,得到历史评论数据集;
对历史评论数据集中每条历史评论数据依次进行去重处理、符号处理以及格式转换处理,得到预处理后历史评论数据集。
5.根据权利要求3所述的一种基于NLP的消费欺诈行为检测方法,其特征在于:对预处理后历史评论数据集进行主题提取,得到若干消费主题,并将若干消费主题与消费欺诈法规进行对比,得到若干消费欺诈类别,包括如下步骤:
使用主体模型,依次对预处理后历史评论数据集中每条历史评论数据进行主题提取,得到若干消费主题;
将消费主题与消费欺诈法规中规定的消费欺诈行为进行对比,构建符合消费欺诈行为规定的若干消费欺诈类别。
6.根据权利要求5所述的一种基于NLP的消费欺诈行为检测方法,其特征在于:所述的主体模型为BTM模型。
7.根据权利要求3所述的一种基于NLP的消费欺诈行为检测方法,其特征在于:根据消费欺诈类别,对预处理后历史评论数据集进行分类处理,得到消费欺诈数据集,包括如下步骤:
若历史评论数据的消费主题与一消费欺诈类别存在匹配关系,则将匹配的消费欺诈类别作为对应的历史评论数据的欺诈类别标签,并将该历史评论数据作为模型训练数据;
遍历预处理后历史评论数据集中所有的历史评论数据,得到消费欺诈数据集。
8.根据权利要求3所述的一种基于NLP的消费欺诈行为检测方法,其特征在于:根据消费欺诈数据集,使用NLP算法进行模型训练,得到消费欺诈行为检测模型,包括如下步骤:
将消费欺诈数据集按照比例划分为训练样本集和测试样本集;
将训练样本集输入NLP算法进行模型训练,得到初始的消费欺诈行为检测模型;
将测试样本集输入初始的消费欺诈行为检测模型进行模型优化,得到并输出最优的消费欺诈行为检测模型。
9.根据权利要求8所述的一种基于NLP的消费欺诈行为检测方法,其特征在于:所述的消费欺诈行为检测模型为BERT_BASE模型。
10.根据权利要求9所述的一种基于NLP的消费欺诈行为检测方法,其特征在于:所述的BERT_BASE模型包括依次连接的输入层、嵌入层、MLP层、Softmax层以及输出层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311007827.0A CN117273754A (zh) | 2023-08-10 | 2023-08-10 | 一种基于nlp的消费欺诈行为检测系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311007827.0A CN117273754A (zh) | 2023-08-10 | 2023-08-10 | 一种基于nlp的消费欺诈行为检测系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117273754A true CN117273754A (zh) | 2023-12-22 |
Family
ID=89218559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311007827.0A Pending CN117273754A (zh) | 2023-08-10 | 2023-08-10 | 一种基于nlp的消费欺诈行为检测系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117273754A (zh) |
-
2023
- 2023-08-10 CN CN202311007827.0A patent/CN117273754A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113051916B (zh) | 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
Bu et al. | A hybrid deep learning system of CNN and LRCN to detect cyberbullying from SNS comments | |
CN111026880B (zh) | 基于联合学习的司法知识图谱构建方法 | |
CN113220768A (zh) | 基于深度学习的简历信息结构化方法及系统 | |
CN115017887A (zh) | 基于图卷积的中文谣言检测方法 | |
CN114036993A (zh) | 基于多尺度跨模态神经网络的多模态讽刺对象检测方法 | |
CN110674300B (zh) | 用于生成信息的方法和装置 | |
CN112131453A (zh) | 一种基于bert的网络不良短文本检测方法、装置及存储介质 | |
CN113704459A (zh) | 一种基于神经网络的在线文本情感分析方法 | |
Lai et al. | BTextCAN: Consumer fraud detection via group perception | |
CN115456176B (zh) | 一种基于知识增强的文本匹配方法及系统 | |
CN116881395A (zh) | 一种舆情信息检测方法和装置 | |
CN117112782A (zh) | 一种招标公告信息提取方法 | |
CN117273754A (zh) | 一种基于nlp的消费欺诈行为检测系统及方法 | |
Srivastava et al. | Dictionary vectorized hashing of emotional recognition of text in mutual conversation | |
Prabhu et al. | A dynamic weight function based BERT auto encoder for sentiment analysis | |
Qian et al. | Improved Hierarchical Attention Networks for Cyberbullying Detection via Social Media Data | |
Gudumotu et al. | A Survey on Deep Learning Models to Detect Hate Speech and Bullying in Social Media | |
CN116738962B (zh) | 一种面向社交媒体的事实核查方法及系统 | |
KR102499776B1 (ko) | 경쟁사 지식재산권 모니터링 방법, 장치 및 프로그램 | |
Ramirez-Alcocer et al. | A Hybrid CNN-LSTM Approach for Sentiment Analysis | |
Antad et al. | A Novel Approach for clone app detection using VADER’s Algorithm | |
Retnoningrum et al. | Stance Analysis of Policies Related to Emission Test Obligations using Twitter Social Media Data | |
Nirbhik et al. | Navigating the Sentiment Analysis Landscape: Methodologies and Use Cases in Social Media Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |