CN112199480A - 一种基于bert模型的在线对话日志违规检测方法及系统 - Google Patents

一种基于bert模型的在线对话日志违规检测方法及系统 Download PDF

Info

Publication number
CN112199480A
CN112199480A CN202010987851.5A CN202010987851A CN112199480A CN 112199480 A CN112199480 A CN 112199480A CN 202010987851 A CN202010987851 A CN 202010987851A CN 112199480 A CN112199480 A CN 112199480A
Authority
CN
China
Prior art keywords
violation
illegal
log
online
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010987851.5A
Other languages
English (en)
Other versions
CN112199480B (zh
Inventor
李威
肖龙源
廖斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN202010987851.5A priority Critical patent/CN112199480B/zh
Publication of CN112199480A publication Critical patent/CN112199480A/zh
Application granted granted Critical
Publication of CN112199480B publication Critical patent/CN112199480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于BERT模型的在线对话日志违规检测方法及系统,所述方法包括如下步骤:确定违规关键词,构造违规词库;利用所述违规关键词,抽取对话日志中涉及所述违规关键词的语句,构造违规句库;确定待对比在线对话日志,基于BERT模型结合预设的相似度算法检测在线对话日志的违规语句;所述系统包括:违规词库生成模块,违规句库生成模块和违规语句检测模块。本发明通过自动构造违规词库、违规句库,同时利用BERT模型与相似度算法相结合的方法,能够精确的针对目前市场上的在线客服平台无法及时通过客服日志分析找出平台中存在的疑似违规客户的问题,进行及时、针对性处理,保障网络安全,助力网络健康发展。

Description

一种基于BERT模型的在线对话日志违规检测方法及系统
技术领域
本发明属于人工智能技术领域,特别涉及一种基于BERT模型的在线对话日志违规检测方法及系统。
背景技术
随着互联网的发展,越来越多的人使用互联网与机构、商家、医院等进行沟通交流,在线客服平台应运而生。在线客服平台作为商家与顾客直接沟通的桥梁,也易被不法分子利用,在在线客服平台上进行诈骗、博彩、刷单等违法违规的经营活动。作为在线客服平台的提供商,需要及时通过客服日志分析,找出平台中存在的疑似违规的客户,进行封号、举报。
但是现在市场上的在线客服平台每天需要接入海量的对话,仅仅依靠人工进行违规检测时,工作量是巨大的,几乎没有可能完成。而仅仅根据关键词进行违规检测时,又很难真正区分正常用户和违规用户。比如:出现“借贷”关键词的,有可能是正常借贷,也有可能是违规借贷。在此种情况下仅仅依靠关键词是无法做出正确的判断的,后期还需要大量人工筛查。而根据一些关键句进行检测的话,无法穷举所有的句子,使得需要不断维护一个较为庞大的句子库,目前还没有此种用于违规检测的句子库。
发明内容
针对目前市场上的在线客服平台无法及时通过客服日志分析,找出平台中存在的疑似违规的客户,进行及时、针对性处理的问题,本发明提出一种基于BERT模型的在线对话日志违规检测方法及系统,以解决该问题,助力保障网络安全。
一种基于BERT模型的在线对话日志违规检测方法,包括如下步骤:
确定违规关键词,构造违规词库;
利用所述违规关键词,抽取对话日志中涉及所述违规关键词的语句,构造违规句库;
确定待对比在线对话日志,基于BERT模型结合预设的相似度算法检测在线对话日志的违规语句。
更进一步地,所述构造违规词库包括:
确定违规的词汇为违规关键词,从对话日志中抽取涉及所述关键词的用户ID;
提取所述用户ID的对话日志数据,利用TF-IDF关键词抽取方法抽取疑似违规用户的疑似违规关键词;
人工对所述疑似违规用户的疑似违规关键词进行筛查,得到精准违规关键词,若干所述精准违规关键词构成违规词库。
更进一步地,所述构造违规句库包括:
抽取对话日志中涉及所述违规关键词的语句;
利用K-MEANS聚类算法对所述语句进行聚类;
从聚类结果中抽取违规句,对所述违规句进行去重,生成违规句库。
更进一步地,所述利用K-MEANS聚类算法对所述语句进行聚类得到40个类。
更进一步地,所述预设的相似度算法为余弦相似度算法。
更进一步地,所述基于BERT结合相似度算法检测在线对话日志的违规语句包括:
基于BERT预训练在线对话日志,生成所述对话日志的向量表示结果,得到预训练后的BERT;
利用所述预训练后的BERT将所述违规句库的语句转换成向量表示结果;
利用余弦相似度方法分别检测所述在线对话日志、所述违规词库,所述违规句库,判断出违规语句。
更进一步地,所述利用余弦相似度方法分别检测所述在线对话日志、所述违规词库及所述违规句库,判断出违规语句还包括:设定相似度的阈值为0.93,当相似度大于或等于0.93,则被判定为违规句。
更进一步地,所述相似度计算公式为:
Score=0.5*Min(a*0.4,1.0)+0.3*Min(a*0.3,1.0)+0.2*Min(b*0.3,1.0)
其中,a为在线对话日志中服务方违规句出现次数;
b为在线对话日志中访客违规句出现次数。
更进一步地,所述利用所述预训练后的BERT将所述违规句库的语句转换成向量表示结果的向量维度为768。
本发明还提供一种基于BERT模型的在线对话日志违规检测系统,所述系统包括:
违规词库生成模块,用于确定违规关键词,构造违规词库;
违规句库生成模块,用于利用所述违规关键词,抽取对话日志中涉及所述违规关键词的语句,构造违规句库;
违规语句检测模块,用于确定待对比在线对话日志,基于BERT模型结合预设的相似度算法检测在线对话日志的违规语句。
本发明提出的一种基于BERT模型的在线对话日志违规检测方法及系统,通过自动构造违规词库、违规句库的设计,利用BERT模型与相似度算法相结合,能够精确的针对目前市场上的在线客服平台无法及时通过客服日志分析找出平台中存在的疑似违规的客户的问题,进行及时、针对性处理,保障网络安全,助力网络健康发展。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例的基于BERT模型的在线对话日志违规检测方法流程示意图;
图2示出了本发明实施例的构造违规词库的流程示意图;
图3示出了本发明实施例的构造违规句库的流程示意图;
图4示出了本发明实施例中基于BERT结合相似度算法检测在线对话日志的违规语句流程示意图;
图5示出了本发明实施例的基于BERT模型的在线对话日志违规检测系统结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的相同的字段,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
请参照图1,图1示出了本发明实施例的基于BERT模型的在线对话日志违规检测方法流程示意图。如图1所示,基于BERT模型的在线对话日志违规检测方法,具体包括如下步骤:
S01、确定违规关键词,构造违规词库;
具体的,请参照图2,图2示出了本发明实施例的构造违规词库的流程示意图。如图2所示,所述构造违规词库包括:
确定违规的词汇为违规关键词,从对话日志中抽取涉及所述关键词的用户ID;
提取所述用户ID的对话日志数据,利用TF-IDF关键词抽取方法抽取疑似违规用户的疑似违规关键词;
人工对所述疑似违规用户的疑似违规关键词进行筛查,得到精准违规关键词,若干所述精准违规关键词构成违规词库。
本实施例中的基于BERT模型的在线对话日志违规检测方法将违规用户集中于骗贷、博彩、刷单、清粉等方向。但应当明确,本方法使用的领域方向包括但不限于骗贷、博彩、刷单、清粉等方向,具体的违规情况依据实际情况进行定义。
示例性的,人工确定违规关键词为骗贷、贷款、棋牌、博彩、清理僵尸粉、刷好评等,根据确定的违规关键词,对对话日志进行筛选,将涉及到违规关键词的在线客服用户ID筛选出来。
提取上述筛选出来的在线客服用户ID的对话日志数据,利用TF-IDF关键词抽取方法抽取疑似违规用户的疑似违规关键词。
更进一步的,利用TF-IDF关键词抽取方法抽取疑似违规用户的疑似违规关键词具体步骤为:
假定对话日志数据长度为1000个词,"花朵"、"冻结"、"卡号错误"各出现20次,则这三个词的"词频"(TF)都为0.02。然后,搜索Google发现,包含"的"字的网页共有150亿张,假定这就是中文网页总数。包含"花朵"的网页共有0.563亿张,包含"冻结"的网页为0.232亿张,包含"卡号错误"的网页为0.128亿张。
则它们的逆文档频率(IDF)和TF-IDF如下:
包含该词文档数(亿) IDF TF-IDF
花朵 0.563 2.426 0.049
冻结 0.232 2.81 0.0562
卡号错误 0.128 3.069 0.0614
从上表可见,"卡号错误"的TF-IDF值最高,"冻结"其次,"花朵"最低。(如果还计算"的"字的TF-IDF,那将是一个极其接近0的值。)所以,如果只选择一个词,"卡号错误"就是这篇文章的关键词。
其中,词频(TF)为某个词在文章中出现的次数与文章的总词数之比;或者为某个词在文章中出现的次数与该问出现次数最多的词的出现次数之比;
逆文档频率(IDF)为语料库的文档总数与包含该词的文档数加1的比值再取对数。之所以包含该词的文档数需要加1,是为了防止包含该词的文档数为0。
TF-IDF为词频(TF)与逆文档频率(IDF)的乘积。
TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。所以,计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。
示例性的,筛选出的违规关键词包括:
访客的关键词:
解冻、冻结、保证金、报警、填错、弄错、写错、骗人、骗子、诈骗、警察、骗贷等。
违规客服关键词:
卡号、风险、骗贷、冻结、填错、大意、解冻、征信、银监会、风控、疏忽、监管部门、粗心、卡号错误、风控系统、超时等。
对筛选出来的违规关键词进行人工筛查,得到违规词库。
S02、利用所述违规关键词,抽取对话日志中涉及所述违规关键词的语句,构造违规句库;
具体的,请参照图3,图3示出了本发明实施例的构造违规句库的流程示意图。如图3所示,具体步骤包括:
抽取对话日志中涉及所述违规关键词的语句;
利用K-MEANS聚类算法对所述语句进行聚类;
从聚类结果中抽取违规句,对所述违规句进行去重,生成违规句库。
示例性的,根据上述步骤中抽取的客服违规关键词,抽取该客服的对话日志语句,利用K-MEANS聚类算法对所述语句进行聚类,根据聚类的结果中抽取违规句类,去除重复的语句,构成的句库即为本实施例中的违规句库。
其中,利用K-MEANS聚类算法对所述语句进行聚类的原理为:将某一些数据分为不同的类别,在相同的类别中数据之间的距离应该都很近,也就是说离得越近的数据应该越相似。
在给定K值和K个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中,所有点分配完毕之后,根据一个类簇内的所有点重新计算该类簇的中心点(取平均值),然后再迭代的进行分配点和更新类簇中心点的步骤,直至类簇中心点的变化很小,或者达到指定的迭代次数。
示例性的,本实施例中选择的K值为40,即聚类的结果为40类;
然后随机从抽选出的对话中抽取40个语句作为初始质心;
计算对话日志语句与质心之间的距离,每句语句与与之距离最近的质心聚为一类,在聚类完成的40类语句中,重新计算出每一类的质心,成为新的质心,如果新的质心与之前的质心之间的距离小于所设定的阈值即为收敛,停止重新聚类,得到聚类结构,否则,当新的质心与之前质心的距离较大,大于所设定的阈值时,继续聚类计算得到新的质心,然后继续比较更新的质心与前一个质心之间的距离大小,直至两个质心之间的距离小于设定的阈值。
其中,新的质点的计算方式包括但不限于均值等方法。
示例性的,本实施例通过聚类40个类之后,抽取的违规句,去重之后的结果为:
(1)您怎么这么大意把银行卡号给填错了,您知不知道银行卡号是一个很重要的一个因素。
(2)系统判定您存在这个骗贷风险。
(3)您这边把银行卡卡号给填错了?
(4)这边查询显示您卡号错误,系统出款触发风控系统,导致您款项被风控系统冻结。
(5)我也是第一次碰见这么粗心的客户。
(6)这个百分20的解冻款是提交风控系统,解冻您的资金的恢复后是和您贷款一致下发回您卡里的
(7)监管要求涉嫌恶意骗贷的借款人提供身份证正反面及手持身份证,银行卡正面照进行身份信息采集。
S03、确定待对比在线对话日志,基于BERT模型结合预设的相似度算法检测在线对话日志的违规语句。
具体的,请参照图4,图4示出了本发明实施例中基于BERT结合相似度算法检测在线对话日志的违规语句流程示意图。如图4所示,具体步骤包括:
基于BERT预训练在线对话日志,生成所述对话日志的向量表示结果,得到预训练后的BERT;
利用所述预训练后的BERT将所述违规句库的语句转换成向量表示结果;
利用余弦相似度方法分别检测所述在线对话日志、所述违规词库,所述违规句库,判断出违规语句。
本实施例中,在对在线客服的对话日志进行检测时,先使用BERT源码在在线客服对话日志上重新进行预训练,得到了在线客服句子的向量表示方法。将句子利用预训练后的BERT,将违规库中的每一个句子转换成768维向量。
以整段对话为单位,将访客、客服的句子统计,分别检索在线对话日志中访客违规词库以及客服违规词库,客服违规句库,利用余弦相似度方法,计算当前待检测句子与违规句库中句子的相似度,设置阈值0.93,大于0.93的被认为违规句子。
其中,相似度计算公式具体为:
Score=0.5*Min(a*0.4,1.0)+0.3*Min(a*0.3,1.0)+0.2*Min(b*0.3,1.0)
其中,a为在线对话日志中服务方违规句出现次数;
b为在线对话日志中访客违规句出现次数。
本发明实施例还提供了一种基于BERT模型的在线对话日志违规检测系统,以达到适配上述基于BERT模型的在线对话日志违规检测方法的目的。
请参照图5,图5示出了本发明实施例的基于BERT模型的在线对话日志违规检测系统结构图。如图5所示,所述系统包括:
违规词库生成模块,用于确定违规关键词,构造违规词库;
违规句库生成模块,用于利用所述违规关键词,抽取对话日志中涉及所述违规关键词的语句,构造违规句库;
违规语句检测模块,用于确定待对比在线对话日志,基于BERT模型结合预设的相似度算法检测在线对话日志的违规语句。
通过设置Score的阈值,能够计算得到每个服务公司中疑似违规的段落,进而计算出违规比例,进而对高违规比例的服务型公司进行重点监控,充分保障网络服务的安全,助力健康网络的快速发展。其中,违规比例等于疑似违规段落与总对话段落之比。
该基于BERT模型的在线对话日志违规检测方法可应用在文本相似度计算系统上,在进行句子间的文本相似度计算时可采用该文本相似度计算系统实现。该文本相似度计算系统具体可应用在计算机设备上,其中,该计算机设备是可与用户进行人机交互的设备,包括但不限于电脑、智能手机和平板等设备。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于BERT模型的在线对话日志违规检测方法,其特征在于:
包括如下步骤:
确定违规关键词,构造违规词库;
利用所述违规关键词,抽取对话日志中涉及所述违规关键词的语句,构造违规句库;
确定待对比在线对话日志,基于BERT模型结合预设的相似度算法检测在线对话日志的违规语句。
2.根据权利要求1所述的一种基于BERT模型的在线对话日志违规检测方法,其特征在于:
所述构造违规词库包括:
确定违规的词汇为违规关键词,从对话日志中抽取涉及所述关键词的用户ID;
提取所述用户ID的对话日志数据,利用TF-IDF关键词抽取方法抽取疑似违规用户的疑似违规关键词;
人工对所述疑似违规用户的疑似违规关键词进行筛查,得到精准违规关键词,若干所述精准违规关键词构成违规词库。
3.根据权利要求1所述的一种基于BERT模型的在线对话日志违规检测方法,其特征在于:
所述构造违规句库包括:
抽取对话日志中涉及所述违规关键词的语句;
利用K-MEANS聚类算法对所述语句进行聚类;
从聚类结果中抽取违规句,对所述违规句进行去重,生成违规句库。
4.根据权利要求3所述的一种基于BERT模型的在线对话日志违规检测方法,其特征在于:
所述利用K-MEANS聚类算法对所述语句进行聚类得到40个类。
5.根据权利要求1或4所述的一种基于BERT模型的在线对话日志违规检测方法,其特征在于:
所述预设的相似度算法为余弦相似度算法。
6.根据权利要求5所述的一种基于BERT模型的在线对话日志违规检测方法,其特征在于:
所述基于BERT结合相似度算法检测在线对话日志的违规语句包括:
基于BERT预训练在线对话日志,生成所述对话日志的向量表示结果,得到预训练后的BERT;
利用所述预训练后的BERT将所述违规句库的语句转换成向量表示结果;
利用余弦相似度方法分别检测所述在线对话日志、所述违规词库,所述违规句库,判断出违规语句。
7.根据权利要求6所述的一种基于BERT模型的在线对话日志违规检测方法,其特征在于:
所述利用余弦相似度方法分别检测所述在线对话日志、所述违规词库及所述违规句库,判断出违规语句还包括:设定相似度的阈值为0.93,当相似度大于或等于0.93,则被判定为违规句。
8.根据权利要求7所述的一种基于BERT模型的在线对话日志违规检测方法,其特征在于:
所述相似度计算公式为:
Score=0.5*Min(a*0.4,1.0)+0.3*Min(a*0.3,1.0)+0.2*Min(b*0.3,1.0)
其中,a为在线对话日志中服务方违规句出现次数;
b为在线对话日志中访客违规句出现次数。
9.根据权利要求6所述的一种基于BERT模型的在线对话日志违规检测方法,其特征在于:
所述利用所述预训练后的BERT将所述违规句库的语句转换成向量表示结果的向量维度为768。
10.一种基于BERT模型的在线对话日志违规检测系统,其特征在于:
所述系统包括:
违规词库生成模块,用于确定违规关键词,构造违规词库;
违规句库生成模块,用于利用所述违规关键词,抽取对话日志中涉及所述违规关键词的语句,构造违规句库;
违规语句检测模块,用于确定待对比在线对话日志,基于BERT模型结合预设的相似度算法检测在线对话日志的违规语句。
CN202010987851.5A 2020-09-18 2020-09-18 一种基于bert模型的在线对话日志违规检测方法及系统 Active CN112199480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010987851.5A CN112199480B (zh) 2020-09-18 2020-09-18 一种基于bert模型的在线对话日志违规检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010987851.5A CN112199480B (zh) 2020-09-18 2020-09-18 一种基于bert模型的在线对话日志违规检测方法及系统

Publications (2)

Publication Number Publication Date
CN112199480A true CN112199480A (zh) 2021-01-08
CN112199480B CN112199480B (zh) 2022-12-06

Family

ID=74015592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010987851.5A Active CN112199480B (zh) 2020-09-18 2020-09-18 一种基于bert模型的在线对话日志违规检测方法及系统

Country Status (1)

Country Link
CN (1) CN112199480B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548118A (zh) * 2022-04-27 2022-05-27 中信建投证券股份有限公司 一种服务对话检测方法及系统
WO2023206702A1 (zh) * 2022-04-29 2023-11-02 青岛海尔科技有限公司 日志的处理方法和装置、存储介质及电子装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040005047A1 (en) * 2002-07-05 2004-01-08 Sbc Technology Resources, Inc. Call routing from manual to automated dialog of interactive voice response system
CN106372208A (zh) * 2016-09-05 2017-02-01 东南大学 一种基于语句相似度的话题观点聚类方法
CN110852231A (zh) * 2019-11-04 2020-02-28 云目未来科技(北京)有限公司 违规视频检测方法、装置以及存储介质
CN111538821A (zh) * 2020-04-17 2020-08-14 北京智齿博创科技有限公司 智能客服中解决知识库冷启动的方法和装置
CN111597328A (zh) * 2020-05-27 2020-08-28 青岛大学 一种新事件主题提取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040005047A1 (en) * 2002-07-05 2004-01-08 Sbc Technology Resources, Inc. Call routing from manual to automated dialog of interactive voice response system
CN106372208A (zh) * 2016-09-05 2017-02-01 东南大学 一种基于语句相似度的话题观点聚类方法
CN110852231A (zh) * 2019-11-04 2020-02-28 云目未来科技(北京)有限公司 违规视频检测方法、装置以及存储介质
CN111538821A (zh) * 2020-04-17 2020-08-14 北京智齿博创科技有限公司 智能客服中解决知识库冷启动的方法和装置
CN111597328A (zh) * 2020-05-27 2020-08-28 青岛大学 一种新事件主题提取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548118A (zh) * 2022-04-27 2022-05-27 中信建投证券股份有限公司 一种服务对话检测方法及系统
WO2023206702A1 (zh) * 2022-04-29 2023-11-02 青岛海尔科技有限公司 日志的处理方法和装置、存储介质及电子装置

Also Published As

Publication number Publication date
CN112199480B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN108520343B (zh) 风险模型训练方法、风险识别方法、装置、设备及介质
US11954739B2 (en) Methods and systems for automatically detecting fraud and compliance issues in expense reports and invoices
CN110009174B (zh) 风险识别模型训练方法、装置及服务器
Al-Shabi Credit card fraud detection using autoencoder model in unbalanced datasets
Chen et al. A hybrid approach of stepwise regression, logistic regression, support vector machine, and decision tree for forecasting fraudulent financial statements
CN110689438A (zh) 企业类金融风险评分方法、装置、计算机设备及存储介质
CN112199480B (zh) 一种基于bert模型的在线对话日志违规检测方法及系统
CN116361815B (zh) 基于机器学习的代码敏感信息及硬编码检测方法及装置
Chen Data mining applications in e-government information security
Dong et al. The detection of fraudulent financial statements: an integrated language model
CN110929525A (zh) 一种网贷风险行为分析检测方法、装置、设备和存储介质
Zhang et al. Ex-action: Automatically extracting threat actions from cyber threat intelligence report based on multimodal learning
de Oliveira et al. Natural language processing characterization of recurring calls in public security services
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
CN114640499A (zh) 一种对用户行为进行异常识别的方法及其装置
CN115186650B (zh) 数据检测方法及相关装置
CN110457009B (zh) 基于数据分析的软件安全需求推荐模型的实现方法
CN115471258A (zh) 一种违规行为检测方法、装置、电子设备及存储介质
CN110111109A (zh) 一种基于大数据的金融反欺诈分析方法
CN114065748A (zh) 识别风险数据的方法、装置、和电子设备
CN115358878A (zh) 理财用户风险偏好等级分析方法及装置
CN115080741A (zh) 一种问卷调查分析方法、装置、存储介质及设备
CN115310091A (zh) 基于融合模型的目标安全等级识别方法、装置及电子设备
CN114626863A (zh) 出口骗税企业的检测方法、装置、设备及存储介质
Wang et al. A Deep Neural Network Based Financial Statement Fraud Detection Model: Evidence from China

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant