CN114118958A - 自动化审理方法和装置 - Google Patents

自动化审理方法和装置 Download PDF

Info

Publication number
CN114118958A
CN114118958A CN202111402681.0A CN202111402681A CN114118958A CN 114118958 A CN114118958 A CN 114118958A CN 202111402681 A CN202111402681 A CN 202111402681A CN 114118958 A CN114118958 A CN 114118958A
Authority
CN
China
Prior art keywords
model
result
trial
value
artificial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111402681.0A
Other languages
English (en)
Inventor
黄涛
孙富
黄耀波
李怀松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202111402681.0A priority Critical patent/CN114118958A/zh
Publication of CN114118958A publication Critical patent/CN114118958A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例提供了一种自动化审理方法和装置。该方法包括:得到主体数据特征;将所述主体数据特征输入预先训练的审理模型中,得到该审理模型输出的审理结果;其中,所述审理模型是利用第一人工专家经验训练得到的;将所述审理结果输入预先训练的报文生成模型中,得到该报文生成模型输出的审理结果报文;其中,所述报文生成模型是利用第二人工专家经验训练得到的;上报所述审理结果报文。本说明书实施例能够自动化实现对主体进行审理的审理业务。

Description

自动化审理方法和装置
技术领域
本说明书一个或多个实施例涉及电子信息技术,尤其涉及自动化审理方法和装置。
背景技术
随着网络通信的发展,网络通信安全变得越发重要。对网络上传输的各种行为数据需要进行审理,以便及时发现安全隐患。
目前,主要是搜索网络上的用户数据特征,然后进行人工审理。但是人工审理具有诸多缺点,因此,亟需一种能够由计算机系统执行的自动化审理的方法。
发明内容
本说明书一个或多个实施例描述了自动化审理方法和装置,能够避免人工审理带来的问题。
根据第一方面,提供了一种自动化审理方法,其中,包括:
得到主体数据特征;
将所述主体数据特征输入预先训练的审理模型中,得到该审理模型输出的审理结果;其中,所述审理模型是利用第一人工专家经验训练得到的;
将所述审理结果输入预先训练的报文生成模型中,得到该报文生成模型输出的审理结果报文;其中,所述报文生成模型是利用第二人工专家经验训练得到的;
上报所述审理结果报文。
其中,所述审理模型包括:用于对单个主体进行识别的单主体识别模型;
该单主体识别模型的训练方法包括:
根据单个主体的类型及特点,确定单主体识别模型的识别任务及每一种识别任务的特征;
将对单个主体进行识别的各第一人工专家经验形成各个第一人工规则;
将该各个第一人工规则给定权重值加入所述单主体识别模型所使用算法的损失函数中,形成第一损失函数;
利用该第一损失函数训练该单主体识别模型。
其中,所述第一损失函数包括:
Figure BDA0003371305690000021
其中,i表征每一个样本;yi表征二分类样本中第i个样本的取值;ri表征第i个样本取值为第一个分类的概率,(1-ri)表征第i个样本取值为第二个分类的概率;F表征各个第一人工规则的集合;wf表征规则f的权重;f+表征将样本识别为第一个分类的规则集合;f-表征将样本识别为第二个分类的规则集合;r表征规则f的取值;
Figure BDA0003371305690000022
表征:样本若至少被一条第一人工规则识别为第一个分类或第二个分类,则取值为1,否则取值为0。
其中,所述单主体识别模型包括:
第一层子模型,该第一层子模型通过白名单与黑名单进行单个主体的识别,并输出第一识别结果;
第二层子模型,用于进行单个主体的二分类的识别,输出第二识别结果;
第三层子模型,用于根据所述识别任务及每一种识别任务的特征,利用元学习算法进行单个主体的多任务的识别,输出第三识别结果;
第四层子模型,用于根据第一识别结果、第二识别结果以及第三识别结果,得到单个主体的识别结果。
其中,所述审理模型包括:用于对多个主体形成的团伙进行识别的多主体识别模型;
该多主体识别模型的训练方法包括:将对多个主体进行识别的各第一人工专家经验形成各个第二人工规则;
将是否符合团伙识别的该各个第二人工规则加入所述多主体识别模型所使用算法的损失函数,形成第二损失函数;利用该第二损失函数训练该多主体识别模型。
其中,所述第二损失函数包括:
Figure BDA0003371305690000031
其中,Aij表征节点i与节点j连接的边的权重;ki,kj表征和节点i、j连接的所有边的权重之和;m表征图中所有边的数量;
Figure BDA0003371305690000032
表示节点i与节点j在随机情况下连接的权重;
Figure BDA0003371305690000033
表示实际连接权重与随机连接权重的差值;δ(ci,cj)表示的是一个函数,当节点i和节点j在同一个团伙时,函数值为1,否则为0;max{max{r},max{1-r}}表征一条第二人工规则若判节点i与节点j属于一个团伙或者不属于一个团伙,则取值为1,否则取值为0;λ表征第二人工规则的权重。
其中,所述将所述审理结果输入预先训练的报文生成模型中得到该报文生成模型输出的审理结果报文,包括:
利用所述审理结果,在知识图谱中进行检索;该知识图谱是利用所述第二人工专家经验生成的;
将检索结果作为预先训练的retrieval-based算法模型的输入;
将retrieval-based算法模型输出的文本进行编码,将编码结果作为预先训练的generation-based算法模型的输入,得到generation-based算法模型逐字输出的审理结果报文。
其中,所述retrieval-based算法模型与所述generation-based算法模型进行联合训练,且利用如下第三损失函数进行联合训练:
Figure BDA0003371305690000041
其中a表征第二人工专家经验对应的损失函数的权重,a为预先设定的常数;L表征目标生成句子的长度,t表征句子中每一个字,pt表征目标生成的句子中每一个字的概率,m表征第二人工专家经验对每个客户形成的描述文本中,所有字的个数;
Figure BDA0003371305690000042
表征每一个第二人工专家经验里的字的概率,
Figure BDA0003371305690000043
表征对上述所有第二人工专家经验里的字取概率最大的值。
根据第二方面,提供了一种自动化审理装置,其中,包括:
数据输入模块,配置为得到主体数据特征,将所述主体数据特征输入到审理模型模块;
审理模型模块,配置为利用预先训练的审理模型得到审理结果,将审理结果发送给报文生成模块;其中,所述审理模型是利用第一人工专家经验训练得到的;
报文生成模块,配置为利用预先训练的报文生成模型得到审理结果报文,并上报所述审理结果报文;其中,所述报文生成模型是利用第二人工专家经验训练得到的。
其中,所述审理模型模块包括:
单主体识别模型,配置为对单个主体进行识别;
多主体识别模型,配置为对多个主体形成的团伙进行识别。
根据第三方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现本说明书任一实施例所述的方法。
本说明书实施例提供的自动化审理方法和装置,能够预先训练出用于完成审理过程的审理模型,然后利用该计算机执行的审理模型进行自动化审理,并且,在审理后,利用预先训练出的报文生成模型自动生成审理结果报文,从而在整个审理业务中,从审理过程到上报审理结果报文的过程均无需人工参与,全程自动执行,从而解决了人工审理的诸多问题。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书一个实施例中的自动化审理方法的流程图。
图2是本说明书一个实施例所应用的业务场景的示意图。
图3是本说明书一个实施例中自动化审理装置的结构示意图。
具体实施方式
如前所述,目前主要是进行人工审理。比如,由人工根据自身具有的专家经验以及网络上一个用户的行为数据特征,判断该用户的行为是否为赌博、传销、套现或者欺诈(比如刷单欺诈)等。但是人工审理具有诸多缺点,比如,人工审理耗时较长,效率低下;再如,人工审理时,不同人员的审理经验不尽相同,无法进行标准化沉淀,迭代优化效率低等。
下面结合附图,对本说明书提供的方案进行描述。
本说明书的核心思路是:预先训练出能够用于完成审理过程的计算机模型,然后利用该计算机模型进行自动化审理,从而无需人工进行审理,解决了人工审理的诸多问题。
图1是本说明书一个实施例中的自动化审理方法的流程图。该方法的执行主体为自动化审理装置。可以理解,该方法也可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。参见图1,该方法包括:
步骤101:得到主体数据特征。
步骤103:将主体数据特征输入预先训练的审理模型中,得到该审理模型输出的审理结果;其中,审理模型是利用第一人工专家经验训练得到的。
步骤105:将审理结果输入预先训练的报文生成模型中,得到该报文生成模型输出的审理结果报文;其中,所述报文生成模型是利用第二人工专家经验训练得到的。
步骤107:上报所述审理结果报文。
可见,在上述图1所示过程中,预先训练出能够用于完成审理过程的审理模型,然后利用该计算机执行的审理模型进行自动化审理,并且,在审理后,利用预先训练出的报文生成模型自动生成审理结果报文,从而在整个审理业务中,从审理过程到上报审理结果报文的过程均无需人工参与,全程自动执行,从而解决了人工审理的诸多问题。
在上述图1所示过程中,利用了对主体进行识别的人工专家经验来训练计算机执行的审理模型,并利用了生成报文的人工专家经验来训练报文生成模型,从而能够使得生成的模型的识别准确率更高。其中,第一人工专家经验是指:人工如何通过用户行为数据确定用户有风险行为的经验;第二人工专家经验是指:人工如何用文字描述用户的风险行为的经验。
在本说明书一个实施例中,审理模型可以包括如下模型中的至少一种:用于对单个主体进行识别的单主体识别模型、用于对多个主体进行识别的多主体识别模型。其中,单主体识别模型用于对单个案件进行可疑特征提取与定性;多主体识别模型用于对能够聚团的案件进行聚团,定性为团伙案件。
当审理模型包括上述两种模型时,参见图2,本说明书实施例的处理流程可以是:首先将主体数据特征输入单主体识别模型,由该单主体识别模型对各单个案件进行可疑特征提取与定性,单主体识别模型的输出结果作为输入进入多主体识别模型,该多主体识别模型再根据对各单个案件的定性结果,将能够聚团的案件进行聚团,识别出团伙案件;之后,多主体识别模型的输出结果作为输入进入报文生成模型,由该报文生成模型对单主体和/或团伙案件撰写审理结果报文,以生成用户可识别的审理结果报文的内容。可见,全部过程均无需人工参与,实现了自动化审理。
在本说明书实施例中,一个主体可以是一次交易或者一个用户,也就是说,可以针对一次交易进行自动化审理(比如识别出该交易是否为赌博行为,该交易是否属于团伙作案等),也可以是针对一个用户进行自动化审理(比如识别出该用户是否为欺诈用户,该用户所属的团伙等)。
下面结合具体的实施例对图1所示的过程进行说明。
首先在步骤101中得到主体数据特征。
本步骤中,主体数据特征可以包括一个交易涉及的数据特征,比如收款方账户信息、付款方账户信息、资金流传路径等。主体数据特征也可以包括一个用户的行为数据特征,比如登录时间、用户名、交易次数等。
接下来在步骤103中将主体数据特征输入预先训练的审理模型中,得到该审理模型输出的审理结果;其中,审理模型是利用第一人工专家经验训练得到的。
本步骤103的实现方式包括如下实现方式一及实现方式二中的任意一种或者两种的结合:
实现方式一、
如前所述,审理模型中可以包括用于对单个主体进行识别的单主体识别模型。那么在步骤103的实现方式一中,可以将主体数据特征输入预先训练的单主体识别模型中,得到该审理模型输出的对单个主体比如单个可疑交易案件的识别结果。
单主体识别模型是预先利用对单个主体进行识别的各第一人工专家经验训练得到的。单主体识别模型的训练过程包括如下步骤:
步骤103A1:根据单个主体的类型及特点,确定单主体识别模型的识别任务及每一种识别任务的特征。
目前,需要识别的主体的类型数量繁多,比如包括赌博、传销、非法集资、地下钱庄、虚拟币、套现、欺诈、涉毒等若干类罪。因此,为了能够针对单个主体准确识别出其类罪,可以预先为单主体识别模型设计出各种识别任务及每一种识别任务的特征。
步骤103A3:将对单个主体进行识别的各第一人工专家经验形成各个第一人工规则。
人工审理的一个优点就是具有人工专家经验,人工专家经验具有相对高的识别准确率。因此,为了提高模型的识别准确率,将人工专家经验引入单主体识别模型的训练过程中。为了能将人工专家经验引入,需要执行本步骤103A3的处理,将各第一人工专家经验形成各个第一人工规则。
步骤103A5:将该各个第一人工规则给定权重值加入单主体识别模型所使用算法的损失函数中,形成第一损失函数。
步骤103A7:利用该第一损失函数训练该单主体识别模型。
上述过程中,第一损失函数可以被设计为:
Figure BDA0003371305690000081
第一损失函数的第一部分为传统二分类模型的交叉熵Lossorg,其中,i表征每一个样本;yi表征二分类样本中第i个样本的取值,比如,当这个样本分类为第一个分类时取值为1,为第二个分类时取值为0;ri表征第i个样本取值为第一个分类的概率,(1-ri)表征第i个样本取值为第二个分类的概率。
第一损失函数的第二部分为第一人工专家经验对损失函数的调整Lossrule,其中,F表征各个第一人工规则的集合;wf表征人工规则f的权重;f+表征将样本识别为第一个分类的规则集合;f-表征将样本识别为第二个分类的规则集合;r表征人工规则f的取值,比如若人工规则f将样本识别为第一个分类,取值为1,若识别为第二个分类,取值为0;
Figure BDA0003371305690000082
表征:样本若至少被一条第一人工规则识别为第一个分类或第二个分类,则取值为1,否则取值为0。
在上述第一损失函数中,第二部分的Lossrule的意义是:将样本命中的每一条第一人工规则的结果都作为权重加入损失函数,若第一人工规则判断样本为第一个分类,则提高模型将样本识别为第一个分类的概率,若第一人工规则判断样本为第二个分类,则提高模型将样本识别为第二个分类的概率。
利用本说明书实施例中的第一损失函数则可以结合第一人工专家经验训练出识别率更高的单主体识别模型。
在本说明书一个实施例中,在该实现方式一中,训练出的单主体识别模型可以包括三层子模型,具体包括:
第一层子模型,该第一层子模型通过白名单与黑名单进行单个主体的识别,并输出第一识别结果;
第二层子模型,用于进行单个主体的二分类的识别,输出第二识别结果;
第三层子模型,用于根据步骤103A1中确定出的识别任务及每一种识别任务的特征,利用元学习算法进行单个主体的多任务的识别,输出第三识别结果;
第四层子模型,用于根据第一识别结果、第二识别结果以及第三识别结果,得到单个主体的识别结果。
上述四层子模型,通过层层识别,并综合各层的识别结果来得到最终的单个主体的识别结果,因此,识别结果更准确。并且,在第三层子模型中,因为涉及到的识别任务的数量可能众多,但样本可能较少,因此,可以利用元学习算法进行识别。
实现方式二、
如前所述,审理模型中可以包括用于对多个主体进行识别的多主体识别模型。那么在步骤103的实现方式二中,可以利用多主体识别模型得到对多个主体比如多个可疑交易案件的识别结果。
如果步骤103仅采用实现方式二,那么,是将主体数据特征比如一个交易涉及到的数据特征输入预先训练的多主体识别模型;如果步骤103采用实现方式一结合实现方式二,那么,是将单主体识别模型输出的对各个单主体的识别结果以及各个单主体的数据特征作为输入,输入到预先训练的多主体识别模型。
多主体识别模型是预先利用对多个主体进行识别的各第一人工专家经验训练得到的。多主体识别模型的训练过程包括如下步骤:
步骤103B1:将对多个主体进行识别的各第一人工专家经验形成各个第二人工规则。
步骤103B3:将是否符合团伙识别的该各个第二人工规则加入多主体识别模型所使用算法的损失函数,形成第二损失函数。
步骤103B5:利用该第二损失函数训练该多主体识别模型。
上述过程中,第二损失函数可以被设计为:
Figure BDA0003371305690000101
第二损失函数的第一部分为传统louvain算法的模块度。其中,Aij表征节点i与节点j连接的边的权重;ki,kj表征和节点i、j连接的所有边的权重之和;m表征图中所有边的数量;
Figure BDA0003371305690000102
表示节点i与节点j在随机情况下连接的权重;
Figure BDA0003371305690000103
表示实际连接权重与随机连接权重的差值,也就是代表当前划分方案的增益;δ(ci,cj)表示的是一个函数,当节点i和节点j在同一个团伙时,函数值为1,否则为0,这个函数的作用在于自动单独对每一个团伙内的节点进行计算,因为当计算不同团伙的节点时,这一项为0,整个式子为0。
第二损失函数的第二部分为:对多个主体进行识别的第一人工专家经验对损失函数的调整。其中,max{max{r},max{1-r}}表征一条第二人工规则若判节点i与节点j属于一个团伙或者不属于一个团伙,则取值为1,否则取值为0;λ表征第二人工规则的权重。
各第二人工规则对第二损失函数的调整意义在于,若当前团伙划分方案符合人工规则,则提升整个方案的模块度。
在本说明书一个实施例中,多主体识别模型可以实现的功能包括:团伙发现、团伙骨干标记、团伙跟踪与团伙角色划分。团伙发现可以使用louvain算法,基于模块度进行团伙发现;团伙跟踪算法综合考虑不同阶段的团伙成员重合比例、重合成员在团伙中的核心程度,并考虑时间衰减因素给出类罪团伙在不同阶段的组织形式,得到持续作案的类罪团伙;团伙角色是对已经划分的团伙进行角色识别,比如一个团伙包含归集、流转、返款、抽离、赌徒等多个角色,对团伙角色进行识别能够提升团伙识别的准确率,从而提升审理效率。
接下来,在步骤105中将审理结果输入预先训练的报文生成模型中,得到该报文生成模型输出的审理结果报文;其中,所述报文生成模型是利用第二人工专家经验训练得到的。
经过上述步骤103的处理,比如实现方式一加实现方式二的处理,则可以得到审理结果,比如一个交易是否涉及洗钱行为或者发现多个用户属于一个赌博团伙等。审理结果需要上报给管理员,以便进行后续的处理。
经过步骤103的审理模型的处理,得到的审理结果是计算机可识别的结果,但并不是能够让管理员可读懂的具有句意的文本语言,因此,需要执行本步骤105的处理,由报文生成模型将计算机语言的审理结果转换为管理员可读懂的具有句意的审理结果报文。
在本说明书一个实施例中,报文生成模型包括两部分算法模型:retrieval-based算法模型及generation-based算法模型。其中retrieval-based算法模型采用基于索引的算法,能够将数字表征的结果转化为文本表征的结果;generation-based算法模型采用结合上下文语义逐字输出识别结果的算法。
基于retrieval-based算法模型及generation-based算法模型,本步骤105的一种具体实现过程可以包括:
步骤1051:利用所述审理结果,在知识图谱中进行检索;该知识图谱是利用第二人工专家经验生成的。
这里,比如,在知识图谱中进行检索时,检索到的路径上的每一个节点都需要作为检索结果,在后续生成的审理结果报文中体现,从而避免审理结果报文中缺少对部分结果的描述。
步骤1053:将检索结果作为预先训练的retrieval-based算法模型的输入。
这里,retrieval-based算法模型可以使用索引库,将步骤1051中数字形式的检索结果转换为文本,比如,检索结果为18,retrieval-based算法模型可以输出“团伙中总共包括18人”这样的文本。
步骤1055:将retrieval-based算法模型输出的文本进行编码,将编码结果作为预先训练的generation-based算法模型的输入,得到generation-based算法模型逐字输出的审理结果报文。
本步骤1055中,generation-based算法模型能够逐字生成审理结果报文,并体现字与字之间的关联性,比如在生成反洗钱交易对应的审理结果报文时,文本“洗”字后面更大概率是“钱”,则可以综合算法结果生成“洗钱”这样的报文内容。
在上述实现过程中,可以预先利用生成审理结果报文的第二人工专家经验来形成知识图谱,这些,最终生成的报文内容就不再是各自单独割裂的,而是通过知识图谱产生了逻辑上的关联,这样,通过上述步骤1051至步骤1053的处理,可以使得自动生成的审理结果报文更加具有可读性且报文描述更为全面。
如前所述,报文生成模型是预先训练得到的。在该训练过程中,需要将retrieval-based算法模型与generation-based算法模型进行联合训练,且利用如下第三损失函数进行该联合训练:
Figure BDA0003371305690000121
其中α表征第二人工专家经验对应的损失函数的权重,可以为预先设定的常数;L表征目标生成句子的长度,t表征句子中每一个字,pt表征目标生成的句子中每一个字的概率,m表征第二人工专家经验对每个客户形成的描述文本中,所有字的个数;
Figure BDA0003371305690000122
表征每一个第二人工专家经验里的字的概率,
Figure BDA0003371305690000123
表征对上述所有第二人工专家经验里的字取概率最大的值。
可见,第三损失函数中,一部分是第二人工专家经验对应的部分:
Figure BDA0003371305690000124
另一部分是
Figure BDA0003371305690000125
其中,对于第二人工专家经验对应的部分:
Figure BDA0003371305690000126
主要是第二人工专家经验对每个客户都会形成一段描述文本,文本中的每个字的概率从生成模型继承,即
Figure BDA0003371305690000127
m表示文本中字的个数,取其中最大的概率取log,用以确定专家经验部分的损失函数,这样对模型参数进行修正:在机器生成正确的字的时候,加强正确字的概率;在机器生成错误字的时候,减小错误字概率,增大正确字的概率,同时加快模型的收敛。其中,第三损失函数还可以有其他的形式,例如,将
Figure BDA0003371305690000131
取最大值,替换为求平均值或最小值等。
对于机器学习部分
Figure BDA0003371305690000132
可以采用一般生成模型的交叉熵作为损失函数。
本说明书实施例,通过在总损失函数中加入第二人工专家经验对应的部分,可以提高生成的用户描述文本的准确率和覆盖率,在标签文本数量比较少的情况下也能有比较好的效果。
在本说明书一个实施例中,提出了一种自动化审理装置,参见图3,该装置包括:
数据输入模块301,配置为得到主体数据特征,将所述主体数据特征输入到审理模型模块;
审理模型模块302,配置为利用预先训练的审理模型得到审理结果,将审理结果发送给报文生成模块;其中,所述审理模型是利用第一人工专家经验训练得到的;
报文生成模块303,配置为利用预先训练的报文生成模型得到审理结果报文,并上报所述审理结果报文;其中,所述报文生成模型是利用第二人工专家经验训练得到的。
在本说明书装置的一个实施例中,审理模型模块302包括:
单主体识别模型,配置为对单个主体进行识别;
多主体识别模型,配置为对多个主体形成的团伙进行识别。
在本说明书装置的一个实施例中,审理模型模块302包括:用于对单个主体进行识别的单主体识别模型;
该单主体识别模型的训练方法包括:
根据单个主体的类型数量及特点,确定单主体识别模型的识别任务数量及每一种识别任务的特征;
将对单个主体进行识别的各第一人工专家经验形成各个第一人工规则;
将该各个第一人工规则给定权重值加入所述单主体识别模型所使用算法的损失函数中,形成第一损失函数;
利用该第一损失函数训练该单主体识别模型。
在本说明书装置的一个实施例中,所述第一损失函数被配置为:
Figure BDA0003371305690000141
其中,i表征每一个样本;yi表征二分类样本中第i个样本的取值;ri表征第i个样本取值为第一个分类的概率,(1-ri)表征第i个样本取值为第二个分类的概率;F表征各个第一人工规则的集合;wf表征规则f的权重;f+表征将样本识别为第一个分类的规则集合;f-表征将样本识别为第二个分类的规则集合;r表征规则f的取值;
Figure BDA0003371305690000142
表征:样本若至少被一条第一人工规则识别为第一个分类或第二个分类,则取值为1,否则取值为0。
在本说明书装置的一个实施例中,上述单主体识别模型包括:
第一层子模型,该第一层子模型通过白名单与黑名单进行单个主体的识别,并输出第一识别结果;
第二层子模型,用于进行单个主体的二分类的识别,输出第二识别结果;
第三层子模型,用于根据所述识别任务数量及每一种识别任务的特征,利用元学习算法进行单个主体的多任务的识别,输出第三识别结果;
第四层子模型,用于根据第一识别结果、第二识别结果以及第三识别结果,得到单个主体的识别结果。
在本说明书装置的一个实施例中,审理模型模块302包括:用于对多个主体形成的团伙进行识别的多主体识别模型;
该多主体识别模型的训练方法包括:将对多个主体进行识别的各第一人工专家经验形成各个第二人工规则;
将是否符合团伙识别的该各个第二人工规则加入所述多主体识别模型所使用算法的损失函数,形成第二损失函数;利用该第二损失函数训练该多主体识别模型。
在本说明书装置的一个实施例中,第二损失函数被配置为:
Figure BDA0003371305690000151
其中,Aij表征节点i与节点j连接的边的权重;ki,kj表征和节点i、j连接的所有边的权重之和;m表征图中所有边的数量;
Figure BDA0003371305690000152
表示节点i与节点j在随机情况下连接的权重;
Figure BDA0003371305690000153
表示实际连接权重与随机连接权重的差值;δ(ci,cj)表示的是一个函数,当节点i和节点j在同一个团伙时,函数值为1,否则为0;max{max{r},max{1-r}}表征一条第二人工规则若判节点i与节点j属于一个团伙或者不属于一个团伙,则取值为1,否则取值为0;λ表征第二人工规则的权重。
在本说明书装置的一个实施例中,报文生成模块303被配置为执行:
利用所述审理结果,在知识图谱中进行检索;该知识图谱是利用所述第二人工专家经验生成的;
将检索结果作为预先训练的retrieval-based算法模型的输入;
将retrieval-based算法模型的文本输出进行编码,将编码结果作为预先训练的generation-based算法模型的输入,得到generation-based算法模型逐字输出的审理结果报文。
在本说明书装置的一个实施例中,报文生成模块303所配置的retrieval-based算法模型与所述generation-based算法模型进行联合训练,且利用如下损失函数进行联合训练:
Figure BDA0003371305690000154
其中α表征第二人工专家经验对应的函数的权重,可以为预先设定的常数;L表征目标生成句子的长度,t表征句子中每一个字,pt表征目标生成的句子中每一个字的概率,m表征第二人工专家经验对每个客户形成的描述文本中,所有字的个数;
Figure BDA0003371305690000155
表征每一个第二人工专家经验里的字的概率,
Figure BDA0003371305690000161
表征对上述所有第二人工专家经验里的字取概率最大的值。
本说明书一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行说明书中任一个实施例中的方法。
本说明书一个实施例提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现执行说明书中任一个实施例中的方法。
可以理解的是,本说明书实施例示意的结构并不构成对本说明书实施例的装置的具体限定。在说明书的另一些实施例中,上述装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述装置、系统内的各模块之间的信息交互、执行过程等内容,由于与本说明书方法实施例基于同一构思,具体内容可参见本说明书方法实施例中的叙述,此处不再赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、挂件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (11)

1.自动化审理方法,其中,包括:
得到主体数据特征;
将所述主体数据特征输入预先训练的审理模型中,得到该审理模型输出的审理结果;其中,所述审理模型是利用第一人工专家经验训练得到的;
将所述审理结果输入预先训练的报文生成模型中,得到该报文生成模型输出的审理结果报文;其中,所述报文生成模型是利用第二人工专家经验训练得到的;
上报所述审理结果报文。
2.根据权利要求1所述的方法,其中,所述审理模型包括:用于对单个主体进行识别的单主体识别模型;
该单主体识别模型的训练方法包括:
根据单个主体的类型及特点,确定单主体识别模型的识别任务及每一种识别任务的特征;
将对单个主体进行识别的各第一人工专家经验形成各个第一人工规则;
将该各个第一人工规则给定权重值加入所述单主体识别模型所使用算法的损失函数中,形成第一损失函数;
利用该第一损失函数训练该单主体识别模型。
3.根据权利要求2所述的方法,其中,所述第一损失函数包括:
Figure FDA0003371305680000011
其中,i表征每一个样本;yi表征二分类样本中第i个样本的取值;ri表征第i个样本取值为第一个分类的概率,(1-ri)表征第i个样本取值为第二个分类的概率;F表征各个第一人工规则的集合;wf表征规则f的权重;f+表征将样本识别为第一个分类的规则集合;f-表征将样本识别为第二个分类的规则集合;r表征规则f的取值;
Figure FDA0003371305680000012
表征:样本若至少被一条第一人工规则识别为第一个分类或第二个分类,则取值为1,否则取值为0。
4.根据权利要求2所述的方法,其中,所述单主体识别模型包括:
第一层子模型,该第一层子模型通过白名单与黑名单进行单个主体的识别,并输出第一识别结果;
第二层子模型,用于进行单个主体的二分类的识别,输出第二识别结果;
第三层子模型,用于根据所述识别任务及每一种识别任务的特征,利用元学习算法进行单个主体的多任务的识别,输出第三识别结果;
第四层子模型,用于根据第一识别结果、第二识别结果以及第三识别结果,得到单个主体的识别结果。
5.根据权利要求1所述的方法,其中,所述审理模型包括:用于对多个主体形成的团伙进行识别的多主体识别模型;
该多主体识别模型的训练方法包括:将对多个主体进行识别的各第一人工专家经验形成各个第二人工规则;
将是否符合团伙识别的该各个第二人工规则加入所述多主体识别模型所使用算法的损失函数,形成第二损失函数;利用该第二损失函数训练该多主体识别模型。
6.根据权利要求5所述的方法,其中,所述第二损失函数包括:
Figure FDA0003371305680000021
其中,Aij表征节点i与节点j连接的边的权重;ki,kj表征和节点i、j连接的所有边的权重之和;m表征图中所有边的数量;
Figure FDA0003371305680000022
表示节点i与节点j在随机情况下连接的权重;
Figure FDA0003371305680000023
表示实际连接权重与随机连接权重的差值;δ(ci,cj)表示的是一个函数,当节点i和节点j在同一个团伙时,函数值为1,否则为0;max{max{r},max{1-r}}表征一条第二人工规则若判节点i与节点j属于一个团伙或者不属于一个团伙,则取值为1,否则取值为0;λ表征第二人工规则的权重。
7.根据权利要求1所述的方法,其中,所述将所述审理结果输入预先训练的报文生成模型中得到该报文生成模型输出的审理结果报文,包括:
利用所述审理结果,在知识图谱中进行检索;该知识图谱是利用所述第二人工专家经验生成的;
将检索结果作为预先训练的retrieval-based算法模型的输入;
将retrieval-based算法模型输出的文本进行编码,将编码结果作为预先训练的generation-based算法模型的输入,得到generation-based算法模型逐字输出的审理结果报文。
8.根据权利要求7所述的方法,其中,所述retrieval-based算法模型与所述generation-based算法模型进行联合训练,且利用如下第三损失函数进行联合训练:
Figure FDA0003371305680000031
其中α表征第二人工专家经验对应的损失函数的权重,α为预先设定的常数;L表征目标生成句子的长度,t表征句子中每一个字,pt表征目标生成的句子中每一个字的概率,m表征第二人工专家经验对每个客户形成的描述文本中,所有字的个数;
Figure FDA0003371305680000032
表征每一个第二人工专家经验里的字的概率,
Figure FDA0003371305680000033
表征对上述所有第二人工专家经验里的字取概率最大的值。
9.自动化审理装置,其中,包括:
数据输入模块,配置为得到主体数据特征,将所述主体数据特征输入到审理模型模块;
审理模型模块,配置为利用预先训练的审理模型得到审理结果,将审理结果发送给报文生成模块;其中,所述审理模型是利用第一人工专家经验训练得到的;
报文生成模块,配置为利用预先训练的报文生成模型得到审理结果报文,并上报所述审理结果报文;其中,所述报文生成模型是利用第二人工专家经验训练得到的。
10.根据权利要求9所述的装置,其中,所述审理模型模块包括:
单主体识别模型,配置为对单个主体进行识别;
多主体识别模型,配置为对多个主体形成的团伙进行识别。
11.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项所述的方法。
CN202111402681.0A 2021-11-24 2021-11-24 自动化审理方法和装置 Pending CN114118958A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111402681.0A CN114118958A (zh) 2021-11-24 2021-11-24 自动化审理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111402681.0A CN114118958A (zh) 2021-11-24 2021-11-24 自动化审理方法和装置

Publications (1)

Publication Number Publication Date
CN114118958A true CN114118958A (zh) 2022-03-01

Family

ID=80371683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111402681.0A Pending CN114118958A (zh) 2021-11-24 2021-11-24 自动化审理方法和装置

Country Status (1)

Country Link
CN (1) CN114118958A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150039278A1 (en) * 2013-07-30 2015-02-05 University Of Florida Research Foundation, Inc. System and method for automated model calibration, sensitivity analysis, and optimization
CN108095716A (zh) * 2017-11-21 2018-06-01 郑州鼎创智能科技有限公司 一种基于置信规则库和深度神经网络的心电信号检测方法
CN108446885A (zh) * 2018-01-31 2018-08-24 国网山东省电力公司经济技术研究院 一种评审意见自动归集方法
CN109241285A (zh) * 2018-08-29 2019-01-18 东南大学 一种基于机器学习的辅助司法案件判决的装置
US10878567B1 (en) * 2019-09-18 2020-12-29 Triage Technologies Inc. System to collect and identify skin conditions from images and expert knowledge
CN112287689A (zh) * 2020-10-27 2021-01-29 山东省计算中心(国家超级计算济南中心) 一种司法二审案情辅助分析方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150039278A1 (en) * 2013-07-30 2015-02-05 University Of Florida Research Foundation, Inc. System and method for automated model calibration, sensitivity analysis, and optimization
CN108095716A (zh) * 2017-11-21 2018-06-01 郑州鼎创智能科技有限公司 一种基于置信规则库和深度神经网络的心电信号检测方法
CN108446885A (zh) * 2018-01-31 2018-08-24 国网山东省电力公司经济技术研究院 一种评审意见自动归集方法
CN109241285A (zh) * 2018-08-29 2019-01-18 东南大学 一种基于机器学习的辅助司法案件判决的装置
US10878567B1 (en) * 2019-09-18 2020-12-29 Triage Technologies Inc. System to collect and identify skin conditions from images and expert knowledge
CN112287689A (zh) * 2020-10-27 2021-01-29 山东省计算中心(国家超级计算济南中心) 一种司法二审案情辅助分析方法及系统

Similar Documents

Publication Publication Date Title
US11574077B2 (en) Systems and methods for removing identifiable information
CN113011889B (zh) 账号异常识别方法、系统、装置、设备及介质
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN111291816A (zh) 针对用户分类模型进行特征处理的方法及装置
US20100057509A1 (en) Co-occurrence consistency analysis method and apparatus for finding predictive variable groups
CN110348528A (zh) 基于多维数据挖掘的用户信用确定方法
CN112712429A (zh) 汇款业务审核方法、装置、计算机设备和存储介质
CN110287292B (zh) 一种裁判量刑偏离度预测方法及装置
CN110929525A (zh) 一种网贷风险行为分析检测方法、装置、设备和存储介质
CN113537960B (zh) 一种异常资源转移链路的确定方法、装置和设备
CN111091408A (zh) 用户识别模型创建方法、装置与识别方法、装置
CN112699375A (zh) 基于网络嵌入相似性的区块链智能合约安全漏洞检测方法
CN115204886A (zh) 账户识别的方法、装置、电子设备和存储介质
Zhou et al. Attention calibration for transformer-based sequential recommendation
Zola et al. Attacking Bitcoin anonymity: generative adversarial networks for improving Bitcoin entity classification
CN113269179B (zh) 数据处理方法、装置、设备及存储介质
CN110347669A (zh) 基于流式大数据分析的风险防范方法
CN113887214A (zh) 基于人工智能的意愿推测方法、及其相关设备
CN113255929A (zh) 异常用户可解释原因的获取方法和装置
CN116595486A (zh) 风险识别方法、训练风险识别模型的方法及对应装置
CN116522131A (zh) 对象表示方法、装置、电子设备及计算机可读存储介质
CN114118958A (zh) 自动化审理方法和装置
CN115268847A (zh) 区块链智能合约的生成方法、装置及电子设备
Wang et al. A knowledge discovery case study of software quality prediction: Isbsg database
CN111126503B (zh) 一种训练样本的生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination