CN113240510A - 异常用户预测方法、装置、设备及存储介质 - Google Patents

异常用户预测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113240510A
CN113240510A CN202110606519.4A CN202110606519A CN113240510A CN 113240510 A CN113240510 A CN 113240510A CN 202110606519 A CN202110606519 A CN 202110606519A CN 113240510 A CN113240510 A CN 113240510A
Authority
CN
China
Prior art keywords
user
statement
abnormal
semantic
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110606519.4A
Other languages
English (en)
Other versions
CN113240510B (zh
Inventor
杨翰章
吴育人
庄伯金
刘玉宇
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110606519.4A priority Critical patent/CN113240510B/zh
Publication of CN113240510A publication Critical patent/CN113240510A/zh
Application granted granted Critical
Publication of CN113240510B publication Critical patent/CN113240510B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及人工智能和预测模型领域,具体公开了一种异常用户预测方法、装置、设备及存储介质,所述方法包括:获取用户的会话内容,并对所述会话内容进行预处理,得到文本信息;提取所述文本信息的统计特征和语义特征;将所述统计特征和语义特征输入预先训练的异常检测模型,得到用户的异常预测值;若用户的所述异常预测值大于或等于预设异常阈值,确定所述用户为异常用户。以提高异常用户预测的准确率。

Description

异常用户预测方法、装置、设备及存储介质
技术领域
本申请涉及异常检测领域,尤其涉及一种异常用户预测方法、装置、设备及存储介质。
背景技术
在信贷业务的处理过程中,通常需要对用户的信用进行评估,从而判断用户是否存在逾期的风险。现有技术中大多利用用户的基本信息来构建预测模型,通过构建出的预测模型对用户是否可能会出现逾期的情况进行预测。但由于通过用户的基本信息得到的特征并不全面,并且逾期用户与正常用户的比例悬殊,这导致训练预测模型的训练难度较大并且训练出预测模型的准确率较低,在实际对用户是否是可能存在逾期情况的异常用户进行判断时的准确率较低,容易产生误判。
发明内容
本申请提供了一种异常用户预测方法、装置、设备及存储介质,以提高异常用户预测的准确率。
第一方面,本申请提供了一种异常用户预测方法,所述方法包括:
获取用户的会话内容,并对所述会话内容进行预处理,得到文本信息;
提取所述文本信息的统计特征和语义特征;
将所述统计特征和语义特征输入预先训练的异常检测模型,得到用户的异常预测值;
若用户的所述异常预测值大于或等于预设异常阈值,确定所述用户为异常用户。
第二方面,本申请还提供了一种异常用户预测装置,所述装置包括:
会话处理模块,用于获取用户的会话内容,并对所述会话内容进行预处理,得到文本信息;
特征提取模块,用于提取所述文本信息的统计特征和语义特征;
模型预测模块,用于将所述统计特征和语义特征输入预先训练的异常检测模型,得到用户的异常预测值;
异常确定模块,用于若用户的所述异常预测值大于或等于预设异常阈值,确定所述用户为异常用户。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的异常用户预测方法。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的异常用户预测方法。
本申请公开了一种异常用户预测方法、装置、设备及存储介质,通过获取用户的会话内容,并对会话内容进行预处理得到文本信息,然后提取文本信息的统计特征和语义特征,并将统计特征和语义特征输入预先训练的异常检测模型,得到用户的异常预测值,最终根据用户的异常预测值确定用户是否为异常用户。根据用户在面审过程中的会话内容来进行特征提取,得到统计特征和语义特征,提高得到的特征的全面性,并且通过预先训练的异常检测模型根据得到的特征进行用户的异常检测,提高异常检测的准确率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的异常用户预测方法的步骤示意流程图;
图2为本申请实施例提供的异常用户预测方法的子步骤示意流程图;
图3为本申请实施例提供的语义相似度模型的示意图;
图4为本申请实施例提供的异常检测模型的训练步骤示意图;
图5为本申请实施例提供的一种异常用户预测装置的示意性框图;
图6为本申请一实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请的实施例提供了一种异常用户预测方法、装置、计算机设备及存储介质。异常用户预测方法可用于针对申请信用贷款的用户进行风险评估,判断用户是否存在逾期的风险。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请实施例提供的一种异常用户预测方法的示意流程图。该异常用户预测方法通过从面审会话内容中提取特征进行异常检测,从而提高提取出特征的全面性以及预测的准确度。
如图1所示,该异常用户预测方法,具体包括:步骤S101至步骤S104。
S101、获取用户的会话内容,并对所述会话内容进行预处理,得到文本信息。
用户在申请信用贷款时,通常需要经过面审这一过程,面审也即在放款前坐席对用户的视频电话审查。其中,会话内容即为面审过程中用户与坐席之间的对话内容。
在审查过程中对用户与坐席之间的对话内容进行录音保存,并将保存的会话内容进行预处理,得到文本信息,以便于根据文本信息进行异常用户的预测。其中,预处理包括语音转换、内容对齐和特殊符号处理中的至少一种。
语音转换是指将用户与坐席之间的语音内容转换为文本内容;内容对齐是指将用户的文本内容与坐席的文本内容进行对齐,将其表现为坐席与用户之间一问一答的形式;特殊符号处理是指将用户的文本内容中的一些敏感信息表示为特殊符号,以起到保护用户隐私的作用。例如,若用户的文本内容中包括用户的家庭住址、联系方式等等涉及隐私的信息,则将其用一些特殊符号表示。
S102、提取所述文本信息的统计特征和语义特征。
由于文本信息是用户与坐席之间一问一答形式的对话文本,因此,文本信息包括用户语句和坐席语句。
其中,统计特征是针对文本信息中用户语句进行统计得到的特征,包括用户语句的数量、用户语句中最长句的字数、连续重复词个数以及语气词个数。在具体实施过程中,连续重复词可以是连续重复两次及两次以上的词;语气词则是指一些无意义的词,例如,啊,嗯,呃等词。
语义特征是指重复强调的语义特征,由于经过实例分析发现逾期用户在回答过程中重复坐席问题以及重复自身已说过的话的比例较正常用户显著更高,因此可以提取出该语义特征来参与异常预测。其中,语义特征包括用户语句中重复坐席语句的比例以及用户语句中重复自身用户语句的比例。
在一实施例中,请参阅图2,步骤S102包括:
S1021、对所述用户语句进行分词和统计,得到统计特征。
对各个用户语句进行分词,以便于从用户语句中确定连续重复词个数以及语气词个数。在具体实施过程中,可以通过构建的语气词词表来对语气词个数进行统计。其中,语气词词表可以是预先根据真实业务场景中所出现的语气词来进行统计分析建立的。
在确定统计特征时,可以先对用户语句进行分词,根据分词后的用户语句分别统计用户语句的数量、用户语句中最长句的字数、连续重复词个数以及语气词个数。也可以先统计用户语句的数量和用户语句中最长句的字数,在得到这两个数据后,再对用户语句进行分词,确定用户语句中连续重复词个数以及语气词个数。
在确定出每个用户语句中连续重复词个数以及语气词个数后,将所有用户语句中连续重复词的个数相加,得到整个会话过程中的连续重复词个数,同样的,将所有用户语句中语气词个数相加,得到整个会话过程中的语气词个数。
将用户语句的数量、用户语句中最长句的字数、整个会话过程中的连续重复词个数以及整个会话过程中的语气词个数作为统计特征。
S1022、确定用户语句和坐席语句之间的第一相似数量以及用户语句和历史用户语句之间的第二相似数量,并根据所述第一相似数量和第二相似数量得到语义特征。
用户语句与坐席语句之间的第一相似数量是指当前时刻的用户语句与当前时刻之前所有时刻的坐席语句之间存在相似的数量。同样的,用户语句与历史用户语句之间的第二相似数量是指当前时刻的用户语句与当前时刻之前所有时刻的用户语句之间存在相似的数量。
在得到第一相似数量和第二相似数量后,根据第一相似数量统计其在整个文本信息中的第一占比,同样的,根据第二相似数量统计其在整个文本信息中的第二占比,并基于第一占比和第二占比得到语义特征。
在一实施例中,步骤S1022包括:对所述用户语句进行语句识别,得到所述用户语句的语句类型;利用预先构建的语义相似度模型确定语句类型为问句的用户语句与所述坐席语句是否相似,并统计相似的用户语句与所述坐席语句的第一相似数量;利用预先构建的语义相似度模型确定语句类型为非问句的用户语句与历史用户语句是否相似,并统计相似的用户语句与所述历史用户语句的第二相似数量。
用户语句的语句类型包括问句和非问句,当用户语句的语句类型为问句时,说明此时用户可能在重复坐席的问题,因此,比较用户语句与坐席语句之间的相似度,并统计第一相似数量。其中,在比较用户语句与坐席语句之间的相似度时,可以分别比较当前时刻的用户语句与当前时刻之前的所有时刻的多个坐席语句之间的相似度,只要当前用户语句与其中至少一条坐席语句相似度较高,就进行计数,由此统计用户语句中与坐席语句存在相似的第一相似数量。
同样的,当用户语句的语句类型为非问句时,说明此时用户可能在重复自己曾经说过的话,因此,比较用户语句与用户在本次面审过程中该用户语句之前的历史用户语句之间的相似度,并统计第二相似数量。其中,在比较用户语句与历史用户语句之间的相似度时,可以分别比较当前时刻的用户语句与当前时刻之前的所有时刻的多个用户语句之间的相似度,只要当前用户语句与其中至少一条用户语句相似度较高,就进行计数,由此统计用户语句中与历史用户语句存在相似的第二相似数量。
在具体实施过程中,可以使用问句识别模型来对用户语句进行语句识别。其中,问句识别模型为基于LightGBM的模型。将用户语句输入问句识别模型得到预测概率,若预测概率值小于预设阈值thr1,则模型输出为0,表示该用户语句为非问句。反之若预测概率值大于等于预设阈值thr1,则模型输出为1,表示该用户语句为问句。
模型的训练过程例如为:
对样本语料进行标注,若为问句,则标注为1,若为非问句,则标注为0,再对标注后的样本语料进行预处理,其中,样本语料可以是从曾经发生过的真实业务场景中获得的,可以是坐席语料也可以是用户语料。预处理包括文本对齐、格式转换以及特殊符号的处理等至少一种。
预处理后,利用TF-IDF将样本语料转换为词向量,将词向量分为训练集及验证集。接着利用LightGBM模型对训练集进行训练,并使用验证集进行模型调参及验证,直到损失值最小,完成训练,将训练完成的模型作为问句识别模型。
在具体实施过程中,在使用预先构建的语义相似度模型来确定语义相似度时,以判断用户语句与坐席语句之间的相似度为例,将用户语句与坐席语句作为语义相似度模型的输入,语义相似度模型的输出为两句话相似程度的预测概率值,若预测概率值小于预设阈值thr2,则语义相似度模型输出为0,表示用户语句与坐席语句不相似。反之若预测概率值大于等于预设阈值thr2,则语义相似度模型输出为1,表示用户语句与坐席语句相似,此时可认为用户在重复坐席的话。
模型的训练过程例如为:
对样本坐席语料sent_agenti和样本用户语料sent_customeri进行标注,若样本用户语料sent_customeri与样本坐席语料sent_agenti相似,则标注该句子对(sent_agenti,sent_customeri)标签为1,反之则标注为0。其次,将标注语料划分为训练集和测试集。其中,样本坐席语料和样本用户语料均可以是从曾经发生过的真实业务场景中获得的。
采用如图3所示的Sentence Bert模型对训练集进行训练,其基本过程为将样本用户语料sent_customeri与样本坐席语料sent_agenti送入Sentence Bert,分别得到句向量vector_agenti、vector_customeri以及他们之间按元素的差向量|vector_agenti-vector_customeri|。将上述变量送入目标函数O中,其中Wt表示可训练参数矩阵,最后使用交叉熵进行训练。并使用验证集进行模型调参及验证,直到损失值最小,完成训练,将训练完成的模型作为语义相似度模型。
O=softmax(Wt(vector_agenti,vector_customeri,|vector_agenti-vector_customeri|))
S103、将所述统计特征和语义特征输入预先训练的异常检测模型,得到用户的异常预测值。
将统计特征和语义特征作为预先训练的异常检测模型的输入,经过异常检测模型后,得到用户的异常预测值。
在具体实施过程中,还可以将统计特征和语义特征进行组合,得到组合特征,将组合特征输入预先训练的异常检测模型中,由预先训练的异常检测模型来输出用户的异常预测值。
在一实施例中,步骤S103包括:获取用户的基础信息,并从所述基础信息中提取基础特征;将所述统计特征、语义特征和基础特征组合,得到组合特征,并将所述组合特征输入预先训练的异常检测模型,得到用户的异常预测值。
用户的基础信息是指用户在申请信用贷款时所提供的信息,例如姓名、年龄、年收入、工作类型等等。获取到基础信息后,从这些基础信息中进行特征提取,得到基础特征,最终将统计特征、语义特征和基础特征进行组合,得到组合特征,将组合特征输入预先训练的异常检测模型,得到用户的异常预测值。
在一实施例中,请参阅图4,该方法包括:
S201、获取样本特征,并对所述样本特征进行标注。
样本特征包括统计特征和语义特征,若该样本特征对应的是逾期用户,则标注为1,若样本特征对应的是正常用户,则标注为0。在具体实施过程中,可以通过前述的提取统计特征和语义特征的实施例来得到样本特征。
S202、将标注后的样本特征输入决策树模型中进行训练,并根据损失函数计算损失值。
将标注后的样本特征输入决策树模型中进行训练,并根据决策树模型的损失函数来计算损失值。其中,决策树模型为基于LightGBM框架的模型。
在一实施例中,决策树模型的损失函数包括:
Figure BDA0003090657750000081
其中,y′表示模型预测值,α和γ表示权重值。
通过设置参数α使得在逾期用户样本(y=1)较少的情况下(改变了正负样本权重,通过参数γ降低正常用户样本权重,同时增加逾期用户样本权重。让模型在训练过程中更侧重于逾期用户样本,从而抑制了模型过拟合。
S203、根据所述损失值确定所述决策树模型是否训练完成,将训练完成的决策树模型作为预先训练的异常检测模型。
当计算出的损失值最小时,决策树模型训练完成,将训练完成的决策树模型作为预先训练的异常检测模型,参与异常用户的预测。其中,在模型训练的过程中,可以采用网格搜索的方式来对训练过程中的模型进行参数调整,从而得到最终训练完成的异常检测模型。
S104、若用户的所述异常预测值大于或等于预设异常阈值,确定所述用户为异常用户。
异常检测模型根据输入的输入用户的异常预测值,异常预测值指示用户可能会出现逾期的预测概率。若异常预测值小于预设异常阈值,则确定该用户为正常用户,若异常预测值大于或等于预设异常阈值,则确定该用户为异常用户,存在较高的逾期风险。
上述实施例提供的异常用户预测方法,通过通过获取用户的会话内容,并对会话内容进行预处理得到文本信息,然后提取文本信息的统计特征和语义特征,并将统计特征和语义特征输入预先训练的异常检测模型,得到用户的异常预测值,最终根据用户的异常预测值确定用户是否为异常用户。根据用户在面审过程中的会话内容来进行特征提取,得到统计特征和语义特征,提高得到的特征的全面性,并且通过预先训练的异常检测模型根据得到的特征进行用户的异常检测,提高异常检测的准确率。
请参阅图5,图5是本申请的实施例还提供一种异常用户预测装置的示意性框图,该异常用户预测装置用于执行前述的异常用户预测方法。其中,该异常用户预测装置可以配置于服务器或终端中。
其中,服务器可以为独立的服务器,也可以为服务器集群。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。
如图5所示,异常用户预测装置300包括:会话处理模块301、特征提取模块302、模型预测模块303和异常确定模块304。
会话处理模块301,用于获取用户的会话内容,并对所述会话内容进行预处理,得到文本信息。
特征提取模块302,用于提取所述文本信息的统计特征和语义特征。
其中,特征提取模块302包括统计特征子模块3021和语义特征子模块3022。
在一实施例中,统计特征子模块3021,用于对所述用户语句进行分词和统计,得到统计特征。语义特征子模块3022,用于确定用户语句和坐席语句之间的第一相似数量以及用户语句和历史用户语句之间的第二相似数量,并根据所述第一相似数量和第二相似数量得到语义特征。
模型预测模块303,用于将所述统计特征和语义特征输入预先训练的异常检测模型,得到用户的异常预测值。
异常确定模块304,用于若用户的所述异常预测值大于或等于预设异常阈值,确定所述用户为异常用户。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的异常用户预测装置和各模块的具体工作过程,可以参考前述异常用户预测方法实施例中的对应过程,在此不再赘述。
上述的异常用户预测装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。
参阅图6,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种异常用户预测方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种异常用户预测方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取用户的会话内容,并对所述会话内容进行预处理,得到文本信息;
提取所述文本信息的统计特征和语义特征;
将所述统计特征和语义特征输入预先训练的异常检测模型,得到用户的异常预测值;
若用户的所述异常预测值大于或等于预设异常阈值,确定所述用户为异常用户。
在一个实施例中,所述处理器在实现所述文本信息包括用户语句和坐席语句;所述提取所述文本信息的统计特征和语义特征时,用于实现:
对所述用户语句进行分词和统计,得到统计特征;
确定所述用户语句和所述坐席语句之间的第一相似数量以及所述用户语句和历史用户语句之间的第二相似数量,并根据所述第一相似数量和所述第二相似数量得到语义特征。
在一个实施例中,所述处理器在实现所述确定所述用户语句和所述坐席语句之间的第一相似数量以及所述用户语句和历史用户语句之间的第二相似数量时,用于实现:
对所述用户语句进行语句识别,得到所述用户语句的语句类型,所述语句类型包括问句和非问句;
利用预先构建的语义相似度模型确定语句类型为问句的用户语句与所述坐席语句是否相似,并统计相似的用户语句与所述坐席语句的第一相似数量;
利用预先构建的语义相似度模型确定语句类型为非问句的用户语句与历史用户语句是否相似,并统计相似的用户语句与所述历史用户语句的第二相似数量。
在一个实施例中,所述处理器用于实现:
获取样本语料,并对所述样本语料进行标注;
将标注后的样本语料输入决策树模型中进行训练,并根据损失函数计算损失值;
根据所述损失值确定所述决策树模型是否训练完成,将训练完成的决策树模型作为预先训练的异常检测模型。
在一个实施例中,所述损失函数包括:
Figure BDA0003090657750000111
其中,y′表示模型预测值,α和γ表示权重值。
在一个实施例中,所述预处理包括语音转换、内容对齐和特殊符号处理中的至少一种。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项异常用户预测方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种异常用户预测方法,其特征在于,包括:
获取用户的会话内容,并对所述会话内容进行预处理,得到文本信息;
提取所述文本信息的统计特征和语义特征;
将所述统计特征和语义特征输入预先训练的异常检测模型,得到用户的异常预测值;
若用户的所述异常预测值大于或等于预设异常阈值,确定所述用户为异常用户。
2.根据权利要求1所述的异常用户预测方法,其特征在于,所述文本信息包括用户语句和坐席语句;所述提取所述文本信息的统计特征和语义特征,包括:
对所述用户语句进行分词和统计,得到统计特征;
确定所述用户语句和所述坐席语句之间的第一相似数量以及所述用户语句和历史用户语句之间的第二相似数量,并根据所述第一相似数量和所述第二相似数量得到语义特征。
3.根据权利要求2所述的异常用户预测方法,其特征在于,所述确定所述用户语句和所述坐席语句之间的第一相似数量以及所述用户语句和历史用户语句之间的第二相似数量,包括:
对所述用户语句进行语句识别,得到所述用户语句的语句类型,所述语句类型包括问句和非问句;
利用预先构建的语义相似度模型确定语句类型为问句的用户语句与所述坐席语句是否相似,并统计相似的用户语句与所述坐席语句的第一相似数量;
利用预先构建的语义相似度模型确定语句类型为非问句的用户语句与历史用户语句是否相似,并统计相似的用户语句与所述历史用户语句的第二相似数量。
4.根据权利要求1所述的异常用户预测方法,其特征在于,所述方法包括:
获取样本语料,并对所述样本语料进行标注;
将标注后的样本语料输入决策树模型中进行训练,并根据损失函数计算损失值;
根据所述损失值确定所述决策树模型是否训练完成,将训练完成的决策树模型作为预先训练的异常检测模型。
5.根据权利要求4所述的异常用户预测方法,其特征在于,所述损失函数包括:
Figure FDA0003090657740000021
其中,y′表示模型预测值,α和γ表示权重值。
6.根据权利要求1所述的异常用户预测方法,其特征在于,所述预处理包括语音转换、内容对齐和特殊符号处理中的至少一种。
7.一种异常用户预测装置,其特征在于,包括:
会话处理模块,用于获取用户的会话内容,并对所述会话内容进行预处理,得到文本信息;
特征提取模块,用于提取所述文本信息的统计特征和语义特征;
模型预测模块,用于将所述统计特征和语义特征输入预先训练的异常检测模型,得到用户的异常预测值;
异常确定模块,用于若用户的所述异常预测值大于或等于预设异常阈值,确定所述用户为异常用户。
8.根据权利要求7所述的异常用户预测装置,其特征在于,所述文本信息包括用户语句和坐席语句;所述特征提取模块包括:
统计特征子模块,用于对所述用户语句进行分词和统计,得到统计特征;
语义特征子模块,用于确定所述用户语句和所述坐席语句之间的第一相似数量以及所述用户语句和历史用户语句之间的第二相似数量,并根据所述第一相似数量和所述第二相似数量得到语义特征。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至6中任一项所述的异常用户预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至6中任一项所述的异常用户预测方法。
CN202110606519.4A 2021-05-28 2021-05-28 异常用户预测方法、装置、设备及存储介质 Active CN113240510B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110606519.4A CN113240510B (zh) 2021-05-28 2021-05-28 异常用户预测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110606519.4A CN113240510B (zh) 2021-05-28 2021-05-28 异常用户预测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113240510A true CN113240510A (zh) 2021-08-10
CN113240510B CN113240510B (zh) 2023-08-01

Family

ID=77136040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110606519.4A Active CN113240510B (zh) 2021-05-28 2021-05-28 异常用户预测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113240510B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114726593A (zh) * 2022-03-23 2022-07-08 阿里云计算有限公司 数据分析、异常信息识别方法、设备及存储介质
CN114979369A (zh) * 2022-04-14 2022-08-30 马上消费金融股份有限公司 异常通话检测方法、装置、电子设备及存储介质
CN116248412A (zh) * 2023-04-27 2023-06-09 中国人民解放军总医院 共享数据资源异常检测方法、系统、设备、存储器及产品
CN116862661A (zh) * 2023-07-20 2023-10-10 苏银凯基消费金融有限公司 基于消费金融场景的数字信用审批与风险监测系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328166A (zh) * 2016-08-31 2017-01-11 上海交通大学 人机对话异常检测系统及方法
CN108595655A (zh) * 2018-04-27 2018-09-28 福建师范大学 一种基于会话特征相似性模糊聚类的异常用户检测方法
CN110597984A (zh) * 2019-08-12 2019-12-20 大箴(杭州)科技有限公司 异常行为用户信息的确定方法及装置、存储介质、终端
CN111612037A (zh) * 2020-04-24 2020-09-01 平安直通咨询有限公司上海分公司 异常用户检测方法、装置、介质及电子设备
CN111666502A (zh) * 2020-07-08 2020-09-15 腾讯科技(深圳)有限公司 一种基于深度学习的异常用户识别方法、装置及存储介质
US20200311231A1 (en) * 2019-03-27 2020-10-01 Microsoft Technology Licensing, Llc Anomalous user session detector
CN111915086A (zh) * 2020-08-06 2020-11-10 上海连尚网络科技有限公司 异常用户预测方法和设备
CN112395556A (zh) * 2020-09-30 2021-02-23 广州市百果园网络科技有限公司 异常用户检测模型训练方法、异常用户审核方法及装置
US10944777B2 (en) * 2017-03-31 2021-03-09 Exabeam, Inc. System, method, and computer program for detection of anomalous user network activity based on multiple data sources

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328166A (zh) * 2016-08-31 2017-01-11 上海交通大学 人机对话异常检测系统及方法
US10944777B2 (en) * 2017-03-31 2021-03-09 Exabeam, Inc. System, method, and computer program for detection of anomalous user network activity based on multiple data sources
CN108595655A (zh) * 2018-04-27 2018-09-28 福建师范大学 一种基于会话特征相似性模糊聚类的异常用户检测方法
US20200311231A1 (en) * 2019-03-27 2020-10-01 Microsoft Technology Licensing, Llc Anomalous user session detector
CN110597984A (zh) * 2019-08-12 2019-12-20 大箴(杭州)科技有限公司 异常行为用户信息的确定方法及装置、存储介质、终端
CN111612037A (zh) * 2020-04-24 2020-09-01 平安直通咨询有限公司上海分公司 异常用户检测方法、装置、介质及电子设备
CN111666502A (zh) * 2020-07-08 2020-09-15 腾讯科技(深圳)有限公司 一种基于深度学习的异常用户识别方法、装置及存储介质
CN111915086A (zh) * 2020-08-06 2020-11-10 上海连尚网络科技有限公司 异常用户预测方法和设备
CN112395556A (zh) * 2020-09-30 2021-02-23 广州市百果园网络科技有限公司 异常用户检测模型训练方法、异常用户审核方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114726593A (zh) * 2022-03-23 2022-07-08 阿里云计算有限公司 数据分析、异常信息识别方法、设备及存储介质
CN114979369A (zh) * 2022-04-14 2022-08-30 马上消费金融股份有限公司 异常通话检测方法、装置、电子设备及存储介质
CN116248412A (zh) * 2023-04-27 2023-06-09 中国人民解放军总医院 共享数据资源异常检测方法、系统、设备、存储器及产品
CN116248412B (zh) * 2023-04-27 2023-08-22 中国人民解放军总医院 共享数据资源异常检测方法、系统、设备、存储器及产品
CN116862661A (zh) * 2023-07-20 2023-10-10 苏银凯基消费金融有限公司 基于消费金融场景的数字信用审批与风险监测系统
CN116862661B (zh) * 2023-07-20 2024-04-26 苏银凯基消费金融有限公司 基于消费金融场景的数字信用审批与风险监测系统

Also Published As

Publication number Publication date
CN113240510B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN113240510B (zh) 异常用户预测方法、装置、设备及存储介质
CN112732911B (zh) 基于语义识别的话术推荐方法、装置、设备及存储介质
CN111695352A (zh) 基于语义分析的评分方法、装置、终端设备及存储介质
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
CN110472224B (zh) 服务质量的检测方法、装置、计算机设备和存储介质
WO2020147395A1 (zh) 基于情感的文本分类处理方法、装置和计算机设备
US20210390370A1 (en) Data processing method and apparatus, storage medium and electronic device
CN111538809B (zh) 一种语音服务质量检测方法、模型训练方法及装置
CN111583911B (zh) 基于标签平滑的语音识别方法、装置、终端及介质
CN113297366B (zh) 多轮对话的情绪识别模型训练方法、装置、设备及介质
CN110377733B (zh) 一种基于文本的情绪识别方法、终端设备及介质
WO2021204017A1 (zh) 文本意图识别方法、装置以及相关设备
CN111223476B (zh) 语音特征向量的提取方法、装置、计算机设备和存储介质
CN110399472B (zh) 面试提问提示方法、装置、计算机设备及存储介质
CN110046806B (zh) 用于客服派单的方法、装置和计算设备
CN110046648B (zh) 基于至少一个业务分类模型进行业务分类的方法及装置
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN115687934A (zh) 意图识别方法、装置、计算机设备及存储介质
CN112002306B (zh) 语音类别的识别方法、装置、电子设备及可读存储介质
CN115292492A (zh) 意图分类模型的训练方法、装置、设备及存储介质
CN114638229A (zh) 笔录数据的实体识别方法、装置、介质及设备
CN113887214A (zh) 基于人工智能的意愿推测方法、及其相关设备
CN114356982A (zh) 营销合规性检查方法、装置、计算机设备及存储介质
CN113515642A (zh) 电话营销关键断点确定方法及装置
CN114283429A (zh) 素材工单数据处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant