CN111539612B - 一种风险分类模型的训练方法和系统 - Google Patents

一种风险分类模型的训练方法和系统 Download PDF

Info

Publication number
CN111539612B
CN111539612B CN202010308006.0A CN202010308006A CN111539612B CN 111539612 B CN111539612 B CN 111539612B CN 202010308006 A CN202010308006 A CN 202010308006A CN 111539612 B CN111539612 B CN 111539612B
Authority
CN
China
Prior art keywords
types
risk
type
sample data
word set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010308006.0A
Other languages
English (en)
Other versions
CN111539612A (zh
Inventor
林晓彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010308006.0A priority Critical patent/CN111539612B/zh
Publication of CN111539612A publication Critical patent/CN111539612A/zh
Application granted granted Critical
Publication of CN111539612B publication Critical patent/CN111539612B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书公开了一种风险分类模型的训练方法和系统,对投诉样本数据进行风险类型识别,确定出M类已知风险类型和未明确类型的剩余样本数据;在M类已知风险类型中;利用主题建模模型对剩余样本数据提取主题词集;利用密度型聚类算法对提取的主题词集进行聚类,获得N类新风险类型;在N类新风险类型中,一类新风险类型对应一类主题词集,新风险类型和已知风险类型不同;利用投诉样本数据、目标主题词集和目标风险类型对句子主题匹配网络进行训练,获得风险分类模型;其中,目标主题词集中包括M类已知风险类型对应的主题词集和N类新风险类型对应的主题词集,目标风险类型包括M类已知风险类型和N类新风险类型。

Description

一种风险分类模型的训练方法和系统
技术领域
本说明书涉及风险防控技术领域,特别涉及一种风险分类模型的训练方法和系统。
背景技术
互联网在带给人们便捷生活的同时,也面临着网络风险的空前挑战。例如,利用互联网对用户进行恶意欺诈,从而使用户遭受损失。因此,帮助用户遭受风险产生的举报文本数据进行识别分类以确定风险类型,是风控体系中至关重要的一步。
因此,需要提供更快速或者更可靠的方案来提高风险分类准确性。
发明内容
本说明书实施例提供一种风险分类模型的训练方法和系统。
第一方面,本说明书实施例提供一种风险分类模型的训练方法,所述方法包括:对投诉样本数据进行风险类型识别,确定出M类已知风险类型和未明确类型的剩余样本数据;在所述M类已知风险类型中,一类已知风险类型对应一类主题词集,M≥1且为正整数;利用主题建模模型对所述剩余样本数据提取主题词集;利用密度型聚类算法对提取的主题词集进行聚类,获得N类新风险类型,N≥1且为正整数;在所述N类新风险类型中,一类新风险类型对应一类主题词集,所述新风险类型和所述已知风险类型不同;利用所述投诉样本数据、目标主题词集和目标风险类型对句子主题匹配网络进行训练,获得风险分类模型;其中,所述目标主题词集中包括所述M类已知风险类型对应的主题词集和所述N类新风险类型对应的主题词集,所述目标风险类型包括所述M类已知风险类型和所述N类新风险类型。
第二方面,本说明书实施例提供一种风险类型的识别方法,所述方法包括:获得投诉文本数据;将所述投诉文本数据和目标主题词集输入根据上述方法训练得到的风险分类模型,确定所述投诉文本数据对应的风险类型,所述目标主题词集中包括M类已知风险类型对应的主题词集和N类新风险类型对应的主题词集。
第三方面,本说明书实施例提供一种风险分类模型的训练系统,包括:识别模块,用于对投诉样本数据进行风险类型识别,确定出M类已知风险类型和未明确类型的剩余样本数据;在所述M类已知风险类型中,一类已知风险类型对应一类主题词集,M≥1且为正整数;第一提取模块,用于利用主题建模模型对所述剩余样本数据提取主题词集;聚类模块,用于利用密度型聚类算法对提取的主题词集进行聚类,获得N类新风险类型,N≥1且为正整数;在所述N类新风险类型中,一类新风险类型对应一类主题词集,所述新风险类型和所述已知风险类型不同;训练模块,用于利用所述投诉样本数据、目标主题词集和目标风险类型对句子主题匹配网络进行训练,获得风险分类模型;其中,所述目标主题词集中包括所述M类已知风险类型对应的主题词集和所述N类新风险类型对应的主题词集,所述目标风险类型包括所述M类已知风险类型和所述N类新风险类型。
第四方面,本说明书实施例提供一种风险类型的分类系统,包括:获得单元,用于获得投诉文本数据;分类单元,用于将所述投诉文本数据和目标主题词集输入根据上述方法训练得到的风险分类模型,确定所述投诉文本数据对应的风险类型,所述目标主题词集中包括M类已知风险类型对应的主题词集和N类新风险类型对应的主题词集。
第五方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
第六方面,本说明书实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
本说明书实施例中的上述一个或多个技术方案,至少具有如下技术效果:
本说明书的风险分类模型的训练方法,先通过对投诉样本数据进行风险类型识别,确定出M类已知风险类型和未明确类型的剩余样本数据。而M类已知风险类型对应各自的主题词集,故需针对未明确类型这部分剩余样本数据进行处理,需先利用主题建模模型对所述剩余样本数据提取主题词集。而由于主题词能够准确表达样本数据的核心含义,故再利用密度型聚类算法对提取的主题词集进行聚类,能够获得针对剩余样本数据的N类新风险类型,并且N类新风险类型中对应各自的主题词集,如此便得到了所有投诉样本数据的风险类型和目标主题词集。再利用所述投诉样本数据、目标主题词集和目标风险类型对句子主题匹配网络进行训练,获得风险分类模型,该风险分类模型便能够准确的对后续投诉文本数据进行准确分类,以提高提高风险类型识别的准确率和覆盖率,为正确部署风险防控打好坚实基础,有效提高风险防控的准确率。
附图说明
为了更清楚地说明本说明书实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的一种风险分类模型的训练方法的流程图;
图2为本说明书实施例提供的示意图投诉样本数据的处理过程示意图;
图3为本说明书实施例提供的示意图风险分类模型的训练系统的示意图;
图4为本说明书实施例提供的一种电子设备的示意图。
具体实施方式
为使本说明书实施例的目的、技术方案和优点更加清楚,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下是本说明书用到的名词解释。
Topic Modeling:主题模型。其是一类统计模型,用于从一类文档中抽象出一个或多个主题来表达整篇文档的中心思想。常见的主题模型算法有:LDA(Latent DirichletAllocation),BTM(Biterm Topic Model)等,其中BTM算法适用于短文本的主题建模,对于字数较少的文档效果更好。
BTM:Biterm Topic Model。传统的主题模型主要是通过获取文档级别的词共现进行概率统计,从而获取文档的主题词袋,而对于短文本来说,数据的稀疏性导致传统方法在该类文本上表现效果欠佳。BTM属于无监督模型,通过语料级别抽取所有的二元词组(biterm对),一个二元词组属于某个话题的概率由二元词组里两个单词从同一话题中抽样得到,最终可以得到二元词组的概率。
DBSCAN:Density-Based Spatial Clustering of Applications with Noise,是一个比较有代表性的基于密度型聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。
Multi-head self-attention:多头注意力机制,可以理解为并行的多个自注意力模型,宏观上为一个查询(query)到一系列kv对(key-value)的映射权重,能够学习出不同方面的注意力信息。
本说明书的一个或者多个实施例提供了一种风险分类模型的训练方法。该风险分类模型具体用于对投诉文本数据进行准确分类。本实施例的投诉样本数据可以在任何场景中产生,例如遭受风险骗取财产,遭受虚假交易,订单泄露等等。投诉样本数据中,包括已明确风险类型的样本数据和未明确类型的样本数据。而未明确类型的样本数据中除了包括类型不明的样本数据之外,还包括类型错误的样本数据。例如,在用户进行举报时,由于缺乏一定的专业知识,不能够清晰的分辨自己被骗的经过属于哪种手法,因此在选择风险入口时往往会产生偏差,有时为了节省时间会选择其他类选项,导致产生的投诉样本数据的风险类型不明或者错误。如果直接对投诉样本数据进行分类会导致分类错误,不利于风险防控。因此,本说明书的风险分类模型的训练方法,将用户举报产生的投诉文本数据作为样本,将未明确风险类型的样本数据进行主题词集提取并进行聚类得到新风险类型,并结合已知风险类型及其主题词集训练句子主题匹配网络得到风险分类模型,以提高风险类型识别的准确率和覆盖率。具体的,本说明书先通过对投诉样本数据进行风险类型识别,确定出M类已知风险类型和未明确类型的剩余样本数据。而M类已知风险类型对应各自的主题词集,故需针对未明确类型这部分剩余样本数据进行处理,需先利用主题建模模型对所述剩余样本数据提取主题词集。而由于主题词能够准确表达样本数据的核心含义,故再利用密度型聚类算法对提取的主题词集进行聚类,能够获得针对剩余样本数据的N类新风险类型,并且N类新风险类型中对应各自的主题词集,如此便得到了所有投诉样本数据的目标风险类型和目标主题词集。再利用所述投诉样本数据、目标主题词集和目标风险类型对句子主题匹配网络进行训练,获得风险分类模型,该风险分类模型便能够准确的对后续投诉文本数据进行准确分类,以提高提高风险类型识别的准确率和覆盖率,为正确部署风险防控打好坚实基础,有效提高风险防控的准确率。
下面结合附图对本说明书实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。
下面请参看图1,本实施例中的风险分类模型的训练方法包括如下步骤:
步骤12,对投诉样本数据进行风险类型识别,确定出M类已知风险类型和未明确类型的剩余样本数据。
其中,本实施例的投诉样本数据包括已明确风险类型的样本数据和未明确类型的样本数据。故完成识别操作后,可将已知风险类型的样本数据划分到各自对应的风险类型中。在所述M类已知风险类型中,一类已知风险类型对应一类主题词集,M≥1且为正整数。而剩余样本数据的风险类别不可知,因此后续会针对剩余样本数据进行处理以确定其风险类型。
作为一种可选的实施例,在对投诉样本数据进行风险类型识别,确定出M类已知风险类型和未明确类型的剩余样本数据之后,会对所述投诉样本数据进行筛选,获得筛选后的投诉样本数据,以降低无关词汇对投诉样本数据的干扰,提高分类准确性。筛选时,可以按照预设规则对其进行筛选,例如预设规则为“去除虚词、语气词、停用词、数字”、“去除词频高于预设词频阈值的词语”、“去除和在预设比例以上的投诉样本数据中均出现的高频词相同的词语(例如去除在80%以上的投诉样本数据中均出现的高频词)”等等。当然也还有其他的预设规则。
作为一种可选的实施例,确定出M类已知风险类型和未明确类型的剩余样本数据之后,会针对每类已知风险类型中的样本数据进行处理,具体的:利用所述主题建模模型分别对所述每类已知风险类型中的样本数据进行主题词提取,获得每类已知风险类型对应的主题词集。
由于投诉样本数据大多以短文本(短文本指的是词语长度小于预设字符的一种文本形式,例如小于160个字符的文本形式。短文本是业界常用的叫法,通常指的是长度比较短的文本)形式呈现且具有数据稀疏性,因此使用词共现进行概率统计提取主题词的方式不能够准确的体现出投诉样本数据的核心含义。为了使提取的主题词更贴合投诉样本数据表达的核心含义,为后续提高风险分类模型的分类精度打好基础,本实施例使用了BTM模型、LDA模型、LDA-U模型等等主题建模模型对每类已知风险类型中的样本数据进行主题词提取,以获得能够准确表达投诉样本数据核心含义的主题词集。具体的,以BTM模型为例,通过语料级别抽取所有的二元词组(biterm对),一个二元词组属于某个话题的概率由二元词组里两个单词从同一话题中抽样得到,最终可以得到二元词组的概率(也称权重)。可见本实施例的各主题词的概率表征该主题词和投诉样本数据相关度,在利用主题建模模型进行主题词提取后,每个主题词具有各自的权重值,权重值主要用于输入句子主题匹配网络进行训练。权重值越高表示和投诉样本数据越相关,越能够表达样本数据的核心含义。故可按照权重值的高低进行排序,然后将排名靠前的第一预设个数主题词作为主题词集(例如提取排名靠前的5个,当然本实施例对主题词集中的具体数目不做限制,一个以上都可)。而由于M类已知风险类型各有不同,故提取后各类已知风险类型会提取出不同的主题词集,且一类已知风险类型对应一类主题词集。而每类已知风险类型的主题词集中的主题词个数是相同的,例如每类已知风险类型的主题词集各自包含5个主题词。
进一步的,需对每类已知风险类型中的样本数据各自进行句子拼接,获得每类已知风险类型各自的拼接句子数据集,此处的拼接是把每类已知风险类型中的所有样本数据拼接生成一个提取主题词的集合,能够一定程度上扩大数据集。再利用所述主题建模模型分别对所述每类已知风险类型中的拼接句子数据集进行主题词提取,获得每类已知风险类型对应的主题词集。
下面参看图2,举例对其进行说明。对投诉样本数据进行风险类型识别,将其分类为M类已知风险类型以及未明确类型,对应样本数据为(f1……fM+1)。其中,f1……fM为M类已知风险类型各自对应的样本数据,fM+1为未明确类型的剩余样本数据,可选的,根据词频对投诉样本数据进行预处理,例如去除语气词、停用词、数字,去除和80%以上的投诉样本数据中均出现的高频词相同的词语等等。对于M类已知风险类型的投诉样本数据f1……fM各自进行句子拼接,得到M个句子数据集d1……dM。例如,d1是由投诉样本数据f1拼接得到。再通过BTM主题建模分别从d1……dM的句子数据集中提取前K个加权主题词,作为各自对应的已知风险类型中的主题词。由此,则得到了M类已知风险类型的主题词集,分别为:主题词集1……主题词集M,并且对于每个主题词集来说,其中的每个主题词都有权重值。
步骤14,利用主题建模模型对所述剩余样本数据提取主题词集。
其中,为了使提取的主题词更贴合剩余样本数据表达的核心含义,本实施例的针对剩余样本数据也使用了BTM模型、LDA模型、LDA-U模型等等主题建模模型对其进行主题词提取,以获得能够准确表达剩余样本数据核心含义的主题词集。具体的,以BTM模型为例,通过语料级别抽取所有的二元词组(biterm对),一个二元词组属于某个话题的概率由二元词组里两个单词从同一话题中抽样得到,最终可以得到二元词组的概率(也称权重)。可见本实施例的各主题词的概率表征该主题词和投诉样本数据相关度,而在利用主题建模模型对剩余样本数据进行主题词提取后,每个主题词具有各自的权重值,权重值主要用于输入句子主题匹配网络进行训练。权重值越高表示主题词和剩余样本数据月相关,越能够表达剩余样本数据的核心含义。故可按照权重值的高低进行排序,然后将排名靠前的第二预设个数主题词作为主题词集(例如提取前10个主题词,当然本实施例对主题词集中的具体数目不做限制,一个以上都可),第二预设个数主题词大于第一预设个数,例如,第二预设个数可为第一预设个数的倍数关系。主题词而在提取之前可对剩余样本数据进行筛选,具体请参看上述描述,在此不再赘述。
而在提取的过程中,需对剩余样本数据进行句子拼接,获得剩余样本数据的拼接句子数据集。然后利用主题建模模型对所述剩余样本数据的拼接句子数据集提取主题词集。
作为一种可选的实施例,为了减少重复的主题词对模型训练的准确度的影响。故从所述提取的主题词集中去除和所述M类已知风险类型对应的主题词集重复的主题词,得到剩余主题词集,并且要保证剩余主题词集中的主题词个数和每类已知风险类型的主题词集中的主题词个数相同。例如,剩余主题词集中也包含5个主题词。
步骤16,利用密度型聚类算法对提取的主题词集进行聚类,获得N类新风险类型。
其中,N≥1且为正整数。
其中,由于本实施例中的投诉样本数据具有稀疏性且本实施例的目的是为了获得新风险类型,因此本实施例采用密度型聚类算法对其进行聚类,以获得N类新风险类型。本实施例中采用的密度型聚类算法包括但不限于是DBSCAN算法、MDCA算法、OPTICS算法、DENCLUE算法等等。
在所述N类新风险类型中,一类新风险类型对应聚集到一起的一类主题词集,所述新风险类型和所述已知风险类型不同。另外,所述N类新风险类型对应的主题词集和所述M类已知风险类型对应的主题词集不同。
作为一种可选的实施例,由于会从所述提取的主题词集中去除和所述M类已知风险类型对应的主题词集重复的主题词,得到剩余主题词集。故在聚类时,利用密度型聚类算法对剩余主题词集进行聚类,获得所述N类新风险类型,所述N类新风险类型对应的主题词集和所述M类已知风险类型对应的主题词集不同。
请继续参看图2,针对未明确类型的剩余样本数据fM+1,可选的,根据词频对剩余样本数据fM+1进行预处理,例如去除语气词、停用词、数字,去除和80%以上的投诉样本数据中均出现的高频词相同的词语等等。再拼接为一个句子数据集dM+1,使用BTM主题建模提取2K个加权主题词作为主题词集M+1,并从主题词集M+1中剔除与前M个主题词集中重合的主题词,对剩余主题词使用密度聚类算法DBSCAN进行聚类,被聚为一类的主题词则表示一类新风险类型,由此可以新生成N类新风险类型,每类新风险类型对应一类主题词集,分别为主题词集1’、主题词集2’……主题词集N。其与M类已知风险类型一并组成句子主题匹配网络中的输入数据。
步骤18,利用所述投诉样本数据、目标主题词集和目标风险类型对句子主题匹配网络进行训练,获得风险分类模型。
其中,所述目标主题词集中包括所述M类已知风险类型对应的主题词集和所述N类新风险类型对应的主题词集,所述目标风险类型包括所述M类已知风险类型和所述N类新风险类型。
在具体的实施过程中,在训练之前会对所述投诉样本数据进行风险类型的类别标注。而目标主题词集中的每个主题词已对应各自的风险类型。标注的目的是为了更好的对句子主题匹配网络进行训练,使得到的风险分类模型的分类精度更高。在标注的过程中,每个投诉样本都会标注对应的风险类型,而每个主题词也会标注对应的风险类型。
而在对句子主题匹配网络进行训练时,会从投诉样本数据和主题词集两方面进行处理。具体的,针对投诉样本数据,会执行以下操作:对所述投诉样本数据进行多头注意力机制处理,获得所述投诉样本数据的句子表达数据。在具体的实施过程中,首先将投诉样本数据进行向量化处理,获得投诉样本数据的词向量。将投诉样本数据的词向量进行多头注意力机制处理,并将处理后的第一数据输入最大池化层进行处理,获得第二数据,然后将第二数据再次进行多头注意力机制处理,以获得投诉样本数据的句子表达数据。
针对目标主题词集进行如下操作:对所述目标主题词集中的每个主题词和每个主题词的词权重进行利用多头注意力机制处理,获得主题词集的表达数据。具体的,首先将目标主题词集中的每个主题词进行向量化处理并结合每个主题词的权重,获得加权主题词向量。然后将加权主题词向量进行多头注意力机制处理,并将处理后的第一主题词数据输入最大池化层进行处理,获得第二主题词数据,然后将第二主题词数据再次进行多头注意力机制处理,以获得主题词集的表达数据。
当得到句子表达数据和主题词集的表达数据之后,将所述投诉样本数据的句子表达数据和所述主题词集的表达数据分别相乘后(投诉样本数据的句子表达数据中的每个数据都分别和主题词集的表达数据中的每个数据相乘),进行全连接归一化处理,获得所述投诉样本数据的风险类别。然后根据所述投诉样本数据的风险类别和所述所有风险类别,获得所述投诉样本数据的误差数据。其中,误差数据表示损失程度(损失值越小越好),再根据所述投诉样本数据的误差数据对句子主题匹配网络进行调整,获得所述风险分类模型。在调整时,通过反向传播(反向求导)来确定梯度向量训练,最后通过梯度向量来调整主题词的权值,使误差数据趋于0或收敛。重复上述过程直到设定调整次数或误差处于预设误差内。如此得到的风险分类模型,能够利用主题词集和句子匹配对投诉文本数据进行风险类型的准确判定,提高分类的准确度。在此基础上,可准确定性举报案件,能够为升级风控体系做更多的准备,提高风控的有效性。
基于相同的发明构思,本实施例提供了一种风险类型的识别方法,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。该方法首先获得投诉文本数据,然后将所述投诉文本数据和目标主题词集输入根据上述一个或者多个实施例中的方法训练得到的风险分类模型,确定所述投诉文本数据对应的风险类型。其中,本实施例的所述目标主题词集中包括M类已知风险类型对应的主题词集和N类新风险类型对应的主题词集。
具体的,会从投诉文本数据和主题词集两方面进行处理。针对投诉文本数据,会执行以下操作:对所述投诉文本数据进行多头注意力机制处理,获得所述投诉文本数据的句子表达数据。在具体的实施过程中,首先将投诉文本数据进行向量化处理,获得投诉文本数据的词向量。将投诉文本数据的词向量进行多头注意力机制处理,并将处理后的数据输入最大池化层进行处理,获得池化后的数据,然后将池化后的数据再次进行多头注意力机制处理,以获得投诉文本数据的句子表达数据。
针对目标主题词集进行如下操作:对所述目标主题词集中的每个主题词和每个主题词的词权重进行利用多头注意力机制处理,获得主题词集的表达数据。具体的,首先将目标主题词集中的每个主题词进行向量化处理并结合每个主题词的权重,获得加权主题词向量。然后将加权主题词向量进行多头注意力机制处理,并将处理后的主题词数据输入最大池化层进行处理,获得池化后的主题词数据,然后将第二主题词数据再次进行多头注意力机制处理,以获得主题词集的表达数据。
当得到句子表达数据和主题词集的表达数据之后,将所述投诉文本数据的句子表达数据和所述主题词集的表达数据相乘后(投诉文本数据的句子表达数据的每个数据分别和所述主题词集的表达数据的每个数据相乘)进行全连接归一化处理,获得所述投诉文本数据的风险类别;
基于相同的发明构思,本实施例示出了一种风险分类模型的训练系统,本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
请参考图3,本实施例示出的一种风险分类模型的训练系统,包括:
识别模块32,用于对投诉样本数据进行风险类型识别,确定出M类已知风险类型和未明确类型的剩余样本数据;在所述M类已知风险类型中,一类已知风险类型对应一类主题词集,M≥1且为正整数;
第一提取模块34,用于利用主题建模模型对所述剩余样本数据提取主题词集;
聚类模块36,用于利用密度型聚类算法对提取的主题词集进行聚类,获得N类新风险类型,N≥1且为正整数;在所述N类新风险类型中,一类新风险类型对应一类主题词集,所述新风险类型和所述已知风险类型不同;
训练模块38,用于利用所述投诉样本数据、目标主题词集和目标风险类型对句子主题匹配网络进行训练,获得风险分类模型;其中,所述目标主题词集中包括所述M类已知风险类型对应的主题词集和所述N类新风险类型对应的主题词集,所述目标风险类型包括所述M类已知风险类型和所述N类新风险类型。
作为一种可选的实施例,所述系统还包括:
第二提取模块,用于针对每类已知风险类型中的样本数据,利用所述主题建模模型分别对所述每类已知风险类型中的样本数据进行主题词提取,获得每类已知风险类型对应的主题词集。
作为一种可选的实施例,所述系统还包括:
去重模块,用于从所述提取的主题词集中去除和所述M类已知风险类型对应的主题词集重复的主题词,得到剩余主题词集;
所述聚类模块36,具体用于利用密度型聚类算法对剩余主题词集进行聚类,获得所述N类新风险类型,所述N类新风险类型对应的主题词集和所述M类已知风险类型对应的主题词集不同。
作为一种可选的实施例,所述系统还包括:
标注模块,用于对所述投诉样本数据进行风险类型的类别标注。
作为一种可选的实施例,所述训练模块38,具体用于:
对所述投诉样本数据进行多头注意力机制处理,获得所述投诉样本数据的句子表达数据;
对所述目标主题词集中的每个主题词和每个主题词的词权重进行利用多头注意力机制处理,获得主题词集的表达数据;
将所述投诉样本数据的句子表达数据和所述主题词集的表达数据进行全连接归一化处理,获得所述投诉样本数据的风险类别;
根据所述投诉样本数据的风险类别和所述所有风险类别,获得所述投诉样本数据的误差数据;
根据所述投诉样本数据的误差数据对句子主题匹配网络进行调整,获得所述风险分类模型。
基于相同的发明构思,本实施例示出了一种风险类型的分类系统,该系统包括:
获得单元,用于获得投诉文本数据;
分类单元,用于将所述投诉文本数据和目标主题词集输入根据上述一个或者多个实施例中的方法训练得到的风险分类模型,确定所述投诉文本数据对应的风险类型,所述目标主题词集中包括M类已知风险类型对应的主题词集和N类新风险类型对应的主题词集。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
基于与前述实施例中同样的发明构思,本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文任一所述方法的步骤。
基于与前述实施例中同样的发明构思,本说明书的实施例还提供一种计算机设备,如图4所示,包括存储器404、处理器402及存储在存储器404上并可在处理器402上运行的计算机程序,所述处理器402执行所述程序时实现前文任一所述方法的步骤。
其中,在图4中,总线架构(用总线400来代表),总线400可以包括任意数量的互联的总线和桥,总线400将包括由处理器402代表的一个或多个处理器和存储器404代表的存储器的各种电路链接在一起。总线400还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口405在总线400和接收器401和发送器404之间提供接口。接收器401和发送器404可以是同一个元件,即收发机,提供用于在传输介质上与各种其他终端设备通信的单元。处理器402负责管理总线400和通常的处理,而存储器404可以被用于存储处理器402在执行操作时所使用的数据。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本说明书也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本说明书的内容,并且上面对特定语言所做的描述是为了披露本说明书的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本说明书的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本说明书的示例性实施例的描述中,本说明书的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本说明书要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本说明书的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本说明书的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本说明书的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本说明书实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本说明书还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本说明书的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本说明书进行说明而不是对本说明书进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本说明书可以借助于包括有不同元件的硬件以及借助于适当编程的计算机来实现。在列举了装置的单元权利要求中,这些装置中的个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (12)

1.一种风险分类模型的训练方法,所述方法包括:
对投诉样本数据进行风险类型识别,确定出M类已知风险类型和未明确类型的剩余样本数据;在所述M类已知风险类型中,一类已知风险类型对应一类主题词集,M≥1且为正整数;
利用主题建模模型对所述剩余样本数据提取主题词集;
利用密度型聚类算法对提取的主题词集进行聚类,获得N类新风险类型,N≥1且为正整数;在所述N类新风险类型中,一类新风险类型对应一类主题词集,所述新风险类型和所述已知风险类型不同;
利用所述投诉样本数据、目标主题词集和目标风险类型对句子主题匹配网络进行训练,获得风险分类模型,具体包括:对所述投诉样本数据进行多头注意力机制处理,获得所述投诉样本数据的句子表达数据;对所述目标主题词集中的每个主题词和每个主题词的词权重进行利用多头注意力机制处理,获得主题词集的表达数据;将所述投诉样本数据的句子表达数据和所述主题词集的表达数据进行全连接归一化处理,获得所述投诉样本数据的风险类别;根据所述投诉样本数据的风险类别和所有风险类别,获得所述投诉样本数据的误差数据;根据所述投诉样本数据的误差数据对句子主题匹配网络进行调整,获得所述风险分类模型;其中,所述目标主题词集中包括所述M类已知风险类型对应的主题词集和所述N类新风险类型对应的主题词集,所述目标风险类型包括所述M类已知风险类型和所述N类新风险类型。
2.如权利要求1所述的方法,所述对投诉样本数据进行风险类型识别,确定出M类已知风险类型和未明确类型的剩余样本数据之后,所述方法还包括:
针对每类已知风险类型中的样本数据,利用所述主题建模模型分别对所述每类已知风险类型中的样本数据进行主题词提取,获得每类已知风险类型对应的主题词集。
3.如权利要求2所述的方法,所述利用主题建模模型对所述剩余样本数据提取主题词集之后,所述方法还包括:
从所述提取的主题词集中去除和所述M类已知风险类型对应的主题词集重复的主题词,得到剩余主题词集;
所述利用密度型聚类算法对提取的主题词集进行聚类,获得N类新风险类型,具体包括:
利用密度型聚类算法对剩余主题词集进行聚类,获得所述N类新风险类型,所述N类新风险类型对应的主题词集和所述M类已知风险类型对应的主题词集不同。
4.如权利要求1所述的方法,所述利用所述投诉样本数据、目标主题词集和目标风险类型对句子主题匹配网络进行训练,获得风险分类模型之前,所述方法还包括:
对所述投诉样本数据进行风险类型的类别标注。
5.一种风险类型的识别方法,所述方法包括:
获得投诉文本数据;
将所述投诉文本数据和目标主题词集输入根据上述权利要求1-4任一方法训练得到的风险分类模型,确定所述投诉文本数据对应的风险类型,所述目标主题词集中包括M类已知风险类型对应的主题词集和N类新风险类型对应的主题词集。
6.一种风险分类模型的训练系统,包括:
识别模块,用于对投诉样本数据进行风险类型识别,确定出M类已知风险类型和未明确类型的剩余样本数据;在所述M类已知风险类型中,一类已知风险类型对应一类主题词集,M≥1且为正整数;
第一提取模块,用于利用主题建模模型对所述剩余样本数据提取主题词集;
聚类模块,用于利用密度型聚类算法对提取的主题词集进行聚类,获得N类新风险类型,N≥1且为正整数;在所述N类新风险类型中,一类新风险类型对应一类主题词集,所述新风险类型和所述已知风险类型不同;
训练模块,用于利用所述投诉样本数据、目标主题词集和目标风险类型对句子主题匹配网络进行训练,获得风险分类模型,具体用于:对所述投诉样本数据进行多头注意力机制处理,获得所述投诉样本数据的句子表达数据;对所述目标主题词集中的每个主题词和每个主题词的词权重进行利用多头注意力机制处理,获得主题词集的表达数据;将所述投诉样本数据的句子表达数据和所述主题词集的表达数据进行全连接归一化处理,获得所述投诉样本数据的风险类别;根据所述投诉样本数据的风险类别和所有风险类别,获得所述投诉样本数据的误差数据;根据所述投诉样本数据的误差数据对句子主题匹配网络进行调整,获得所述风险分类模型;其中,所述目标主题词集中包括所述M类已知风险类型对应的主题词集和所述N类新风险类型对应的主题词集,所述目标风险类型包括所述M类已知风险类型和所述N类新风险类型。
7.如权利要求6所述的系统,所述系统还包括:
第二提取模块,用于针对每类已知风险类型中的样本数据,利用所述主题建模模型分别对所述每类已知风险类型中的样本数据进行主题词提取,获得每类已知风险类型对应的主题词集。
8.如权利要求7所述的系统,所述系统还包括:
去重模块,用于从所述提取的主题词集中去除和所述M类已知风险类型对应的主题词集重复的主题词,得到剩余主题词集;
所述聚类模块,具体用于利用密度型聚类算法对剩余主题词集进行聚类,获得所述N类新风险类型,所述N类新风险类型对应的主题词集和所述M类已知风险类型对应的主题词集不同。
9.如权利要求6所述的系统,所述系统还包括:
标注模块,用于对所述投诉样本数据进行风险类型的类别标注。
10.一种风险类型的分类系统,包括:
获得单元,用于获得投诉文本数据;
分类单元,用于将所述投诉文本数据和目标主题词集输入根据上述权利要求1-4任一方法训练得到的风险分类模型,确定所述投诉文本数据对应的风险类型,所述目标主题词集中包括M类已知风险类型对应的主题词集和N类新风险类型对应的主题词集。
11.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-4任一项所述方法的步骤。
12.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-4任一项所述方法的步骤。
CN202010308006.0A 2020-04-17 2020-04-17 一种风险分类模型的训练方法和系统 Active CN111539612B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010308006.0A CN111539612B (zh) 2020-04-17 2020-04-17 一种风险分类模型的训练方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010308006.0A CN111539612B (zh) 2020-04-17 2020-04-17 一种风险分类模型的训练方法和系统

Publications (2)

Publication Number Publication Date
CN111539612A CN111539612A (zh) 2020-08-14
CN111539612B true CN111539612B (zh) 2022-04-01

Family

ID=71978722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010308006.0A Active CN111539612B (zh) 2020-04-17 2020-04-17 一种风险分类模型的训练方法和系统

Country Status (1)

Country Link
CN (1) CN111539612B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270191A (zh) * 2020-11-18 2021-01-26 国网北京市电力公司 提取工单文本主题的方法及装置
CN112632980B (zh) * 2020-12-30 2022-09-30 广州友圈科技有限公司 一种基于大数据深度学习的企业分类方法、系统及电子设备
CN117113985A (zh) * 2021-09-06 2023-11-24 好心情健康产业集团有限公司 文本聚类图片识别方法、装置和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109739986A (zh) * 2018-12-28 2019-05-10 合肥工业大学 一种基于深度集成学习的投诉短文本分类方法
CN109872162A (zh) * 2018-11-21 2019-06-11 阿里巴巴集团控股有限公司 一种处理用户投诉信息的风控分类识别方法及系统
CN110688460A (zh) * 2019-09-30 2020-01-14 北京三快在线科技有限公司 风险识别的方法、装置、可读存储介质以及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180053128A1 (en) * 2016-08-17 2018-02-22 Gunther Costas System and method for automated discovery and ranking of regulatory compliance risks
US10320819B2 (en) * 2017-02-27 2019-06-11 Amazon Technologies, Inc. Intelligent security management

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109872162A (zh) * 2018-11-21 2019-06-11 阿里巴巴集团控股有限公司 一种处理用户投诉信息的风控分类识别方法及系统
CN109739986A (zh) * 2018-12-28 2019-05-10 合肥工业大学 一种基于深度集成学习的投诉短文本分类方法
CN110688460A (zh) * 2019-09-30 2020-01-14 北京三快在线科技有限公司 风险识别的方法、装置、可读存储介质以及电子设备

Also Published As

Publication number Publication date
CN111539612A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN111539612B (zh) 一种风险分类模型的训练方法和系统
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN108363790A (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN107168992A (zh) 基于人工智能的文章分类方法及装置、设备与可读介质
CN107085581A (zh) 短文本分类方法和装置
KR101837262B1 (ko) 단어 자질 가중치를 적용한 딥 러닝 기반 개체 유형 분류 방법
CN103455545A (zh) 社交网络用户的位置估计的方法和系统
CN111177367B (zh) 案件分类方法、分类模型训练方法及相关产品
CN113254643B (zh) 文本分类方法、装置、电子设备和
CN108416032A (zh) 一种文本分类方法、装置及存储介质
CN109145301B (zh) 信息分类方法及装置、计算机可读存储介质
CN116049412B (zh) 文本分类方法、模型训练方法、装置及电子设备
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN109960719A (zh) 一种文件处理方法和相关装置
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN113934848B (zh) 一种数据分类方法、装置和电子设备
CN114676346A (zh) 新闻事件处理方法、装置、计算机设备和存储介质
CN107908649B (zh) 一种文本分类的控制方法
CN112328469B (zh) 一种基于嵌入技术的函数级缺陷定位方法
CN113869609A (zh) 一种根因分析频繁子图置信度预测方法及系统
CN116578700A (zh) 日志分类方法、日志分类装置、设备及介质
CN111339287B (zh) 摘要生成方法及装置
KR102405799B1 (ko) 사이버 공간에서 실시간 공격 탐지를 위한 시간에 따른 지속적인 적응형 학습을 제공하는 방법 및 시스템
CN110472140B (zh) 对象词推荐方法、装置及电子设备
CN110569331A (zh) 一种基于上下文的关联性预测方法、装置及存储设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant