CN113935319A

CN113935319A - 一种预警交通行业违规风险的多级模型方法及系统

Info

Publication number: CN113935319A
Application number: CN202111268489.7A
Authority: CN
Inventors: 韦东杰; 贾国琛; 胡茜; 聂靖松; 熊衍琴
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-01-14

Abstract

本发明涉及一种预警交通行业违规风险的多级模型方法及系统，以交通类企业为监管对象，通过获取交通行业的交通事故处理的历史专家经验文献，提取风险行为文本和与所述风险行为文本对应的风险等级，计算两者之间的关联，使其能够对新的违法行为描述进行风险等级划分；构建企业画像指标体系，提取企业特征，将企业特征作为输入，输出违法等级训练预警模型。利用预警模型对交通类企业未来一段时间内产生风险的等级与概率进行预测。本发明考虑到企业自身的差异性，对交通类企业的基本信息与历史违法记录进行深度挖掘，构建了全面的企业画像指标体系，将画像指标作为模型的输入训练，进一步提高了模型的预测能力，以实现对企业的智能化监控。

Description

一种预警交通行业违规风险的多级模型方法及系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种预警交通行业违规风险的多级模型方法及系统。

背景技术

目前企业风险数据多数是来源于企业行政处罚、企业强制处罚等字段中对违法违规行为进行处罚的描述，不易得知哪些处罚具有较高级别的风险。并且，政府监管领域缺乏大量具有较高准确性的模型，传统的企业风险预警模型利用一些定性的专家经验规则建立模型，即对企业的指标赋予给定权重，求和得出企业评分，并根据评分高低为企业确定风险等级。由于数据量巨大，人工整合数据、分析总结、得出结果等工作量大，人工筛查任务繁重，效率低，无法对信息全面筛查，同时专家经验模型主观因素大，无法统一判断标准，因此准确性较低，同行，缺乏对企业自身的数据进行分析，使得适用性较差。

发明内容

为解决现有技术的不足，本发明提出一种预警交通行业违规风险的多级模型方法及系统，通过获取交通行业的交通事故处理的历史专家经验文献，提取风险行为文本和与所述风险行为文本对应的风险等级，计算两者之间的关联，使其能够对新的违法行为描述进行风险等级划分；构建企业画像指标体系，提取企业特征，将企业特征作为输入，输出违法等级训练预警模型。利用预警模型对交通类企业未来一段时间内产生风险的等级与概率进行预测。本发明考虑到企业自身的差异性，对交通类企业的基本信息与历史违法记录进行深度挖掘，构建了全面的企业画像指标体系，将画像指标作为模型的输入训练，进一步提高了模型的预测能力。

为实现以上目的，本发明所采用的技术方案包括：

一种预警交通行业违规风险的多级模型方法，其特征在于，包括：

获取交通行业的交通事故处理的历史专家经验文献；所述历史专家经验文献包括风险行为文本和与所述风险行为文本对应的风险等级；

获取违法行为描述；

将所述风险行为文本和违法行为描述进行词切分并去重，得到风险词汇和违法行为词汇，生成风险词汇文本和违法行为词汇文本；

使用独热编码将每个所述风险词汇映射为风险词向量；

获取所述风险行为文本包括的风险词向量，生成风险词向量集合X＝{x₁,x₂,x₃,...,x_n}；

使用独热编码将每个所述违法行为词汇映射为违法行为词向量，生成违法行为词向量集合Z＝{z₁，z₂，z₃，...，z_n}；

使用独热编码将所述风险行为文本对应的风险等级分别映射为风险等级词向量，生成风险等级词向量集合Y＝{y₁，y₂，y₃，y₄}；

计算风险词向量的加权平均值h_i，

其中，W是第一初始权重矩阵，n是风险词向量的数量；

计算每个风险词向量u_i，

其中，W’是第二初始权重矩阵，

是矩阵W’的第j列；

计算风险等级词向量y_i与u_i的损失，修正第一初始权重矩阵W和第二初始权重矩阵W’直至收敛，得到第一权重矩阵Q和第二权重矩阵Q’；

计算违法行为词向量的加权平均值ki，

其中，n是违法行为词向量的数量；

计算每个违法行为词向量p_i，

其中，

是矩阵Q’的第j列；

将p_i进行归一化处理，得到违法行为词向量对应的风险等级概率y_i，

输出概率值最大的违法行为词向量Z_i和所述违法行为词对应的风险等级；

构建交通企业风险画像指标体系并标记交通企业风险等级，从所述交通企业风险画像指标体系中提取企业特征；

将所述企业特征输入预警模型中，所述预警模型输出企业违规风险预测结果，其中，所述预警模型是以企业风险画像指标体系为样本训练得到的。

进一步地，所述风险等级包括A、B、C和D。

进一步地，所述切分方法包括N-gram算法和jieba分词器；

进一步地，所述N-gram算法中N的值为2；

进一步地，所述风险词向量、违法行为词向量和风险等级词向量是二进制词向量；

进一步地，所述交通企业风险画像指标体系包括，机构类别、经营期限、业务范围类型、检查行为数量、注册地址和/或经营地址历史变更数量、检查形式种类数量、检查日期频次和企业违法等级及报送时间；

所述机构类别是“统一社会信用代码”中第2位数字；

所述经营期限是经营结束日期距离经营起始日期的期限；

所述业务范围类型包括非农民专业合作社与农民专业合作社及其分支机构；

所述检查行为数量包括，检查行为去重数量、近三个月检查行为去重数量、近六个月检查行为去重数量、近一年检查行为去重数量和近三年检查行为去重数量；

所述注册地址和/或经营地址历史变更数量包括，近三个月地址去重数量、近六个月地址去重数量、近一年地址去重数量和近三年地址去重数量；

所述检查形式种类数量包括检查形式去重数量和检查种类去重数量；所述检查形式去重数量包括近三个月检查形式去重数量、近六个月检查形式去重数量、近一年检查形式去重数量和近三年检查形式去重数量；所述检查种类去重数量包括近三个月检查种类去重数量、近六个月检查种类去重数量、近一年检查种类去重数量和近三年检查种类去重数量；

所述检查日期频次包括，最近一次评估日期距今时间间隔、最近三个月评估日期距今时间间隔，最近六个月评估日期距今时间间隔、最近一年评估日期距今时间间隔和最近三年评估日期距今时间间隔；

所述企业违法等级及报送时间包括，过去7日、14日、30日、60日、120日和180日内发生风险等级为A类、B类、C和D类行为的次数。

进一步地，所述标记交通企业风险等级包括，将过去一年内发生有风险等级为A类行为的企业，标记为高风险企业，即y＝1；将过去一年内发生有风险等级为B类行为的企业，标记为中高风险企业，即y＝2；将过去一年内发生有风险等级为C类行为的企业，标记为中风险企业，即y＝3；将过去一年内发生有风险等级为D类行为的企业，标记为中低风险企业，即y＝4；否则，将企业标记为y＝0。

进一步地，所述企业特征包括机构类别、经营期限和业务范围类型。

进一步地，所述所述预警模型是通过lightGBM算法训练得到的。

本发明还涉及一种预警交通行业违规风险的多级模型系统，其特征在于，包括：

数据获取模块，用于获取交通行业的交通事故处理的历史专家经验文献、违法行为描述和交通企业风险画像指标；

处理模块，用于将风险行为文本和违法行为描述进行词切分并去重，并将其和风险等级分别映射为二进制词向量；

特征提取模块，用于从从所述交通企业风险画像指标体系中提取企业特征；

预测模块，用于计算违法行为词对应的风险等级和利用lightGBM模型预测交通企业在未来一年内发生违法行为的概率。

本发明还涉及一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

本发明还涉及一种电子设备，其特征在于，包括处理器和存储器；

所述存储器，用于存储交通行业的交通事故处理的历史专家经验文献、违法行为描述和交通企业风险画像指标；

所述处理器，用于通过调用历史专家经验文献、违法行为描述和交通企业风险画像指标，利用lightGBM模型，执行上述方法。

本发明的有益效果为：

采用本发明所述的预警交通行业违规风险的多级模型方法及系统，以交通类企业为监管对象，通过对交通类企业的基本信息与历史违法记录进行深度挖掘，构建全面的企业画像训练lightGBM模型，提升监管的精准度。

进一步为了实现差异化监管，本发明提出计算企业具有较高等级的风险及产生风险的概率，通过获取到由专家经验所判断出的交通风险行为描述和对应风险等级的资料，抽取两者之间的关联，使其能够对新的违法违规行为描述进行风险分级。从而实现在模型中对交通类企业未来产生风险的等级与概率进行预测，达到了差异化监管的目的。

附图说明

图1为本发明预警交通行业违规风险的多级模型方法流程示意图。

图2为本发明预警交通行业违规风险的多级模型系统结构示意图。

具体实施方式

为了更清楚的理解本发明的内容，将结合附图和实施例详细说明。

本发明第一方面涉及一种步骤流程如图1所示的预警交通行业违规风险的多级模型方法，包括：

获取交通行业的交通事故处理的历史专家经验文献；所述历史专家经验文献包括风险行为文本和与所述风险行为文本对应的风险等级，所述风险等级包括A、B、C和D。如表1所示，

表1

获取违法行为描述，此处的违法行为是未记录在上述历史专家经验文献中已被分级的违法行为，可以是过去某段时间内交通类企业新发生的违法行为，例如拼车包车超员载客、路面违停。

将风险行为文本和违法行为描述进行词切分并去重，所述切分方法包括N-gram算法和jieba分词器，其中，N的值为2；并把所有风险词汇总去重过滤。例如“驾驶员超员，超速，驾驶过程中接打手机，私改运营线路等违规驾驶行为”被切分后去重过滤为[超速，驾驶，过程，接打，手机，私改，运营，线路，违规，行为]；

得到风险词汇和违法行为词汇，生成风险词汇文本和违法行为词汇文本；

使用独热编码将每个所述风险词汇映射为二进制风险词向量，例如切分后风险词汇总有100个，第11位的风险词汇的二进制风险词向量为(1011)；

获取所述风险行为文本包括的风险词向量，生成风险词向量集合X＝{x1,x₂,x₃,...,x_n}；

使用独热编码将每个所述违法行为词汇映射为违法行为词向量，生成违法行为词向量集合Z＝{z₁，z₂，z₃，...，z_n}

使用独热编码将所述风险行为文本对应的风险等级A，B，C和D分别映射为风险等级词向量，即分别映射为(1,0,0,0)、(0,1,0,0)、(0,0,1,0)和(0,0,0,1)，生成风险等级词向量集合Y＝{y₁，y₂，y₃，y₄}；

计算风险词向量的加权平均值h_i，

其中，W是第一初始权重矩阵，n是风险词向量的数量；

计算每个风险词向量u_i，

其中，W’是第二初始权重矩阵，

是矩阵W’的第j列；

计算违法行为词向量的加权平均值ki，

其中，n是违法行为词向量的数量；

计算每个违法行为词向量p_i，

其中，

是矩阵Q’的第j列；

构建交通企业风险画像指标体系并标记交通企业风险等级，从所述交通企业风险画像指标体系中提取企业特征；具体的，交通企业风险画像指标体系包括，机构类别、经营期限、业务范围类型、检查行为数量、注册地址和/或经营地址历史变更数量、检查形式种类数量、检查日期频次和企业违法等级及报送时间；从上述指标中提取企业特征，包括机构类别、经营期限和业务范围类型。

机构类别是“统一社会信用代码”中第2位数字，经营期限是经营结束日期距离经营起始日期的期限，业务范围类型包括非农民专业合作社与农民专业合作社及其分支机构。

为了进一步丰富数据维度、增大样本数据量，在不同时间段的维度上统计登记事项的变更频次。注册地址和/或经营地址历史变更数量包括，近三个月地址去重数量、近六个月地址去重数量、近一年地址去重数量和近三年地址去重数量，检查形式种类数量包括检查形式去重数量和检查种类去重数量；检查形式去重数量包括近三个月检查形式去重数量、近六个月检查形式去重数量、近一年检查形式去重数量和近三年检查形式去重数量；检查种类去重数量包括近三个月检查种类去重数量、近六个月检查种类去重数量、近一年检查种类去重数量和近三年检查种类去重数量；检查日期频次包括，最近一次评估日期距今时间间隔、最近三个月评估日期距今时间间隔，最近六个月评估日期距今时间间隔、最近一年评估日期距今时间间隔和最近三年评估日期距今时间间隔；企业违法等级及报送时间包括，过去7日、14日、30日、60日、120日和180日内发生风险等级为A类、B类、C和D类行为的次数。

将过去一年内发生有风险等级为A类行为的企业，标记为高风险企业，即y＝1；将过去一年内发生有风险等级为B类行为的企业，标记为中高风险企业，即y＝2；将过去一年内发生有风险等级为C类行为的企业，标记为中风险企业，即y＝3；将过去一年内发生有风险等级为D类行为的企业，标记为中低风险企业，即y＝4；否则，将企业标记为y＝0。

具体的，将数据划分为训练集与测试集，例如面数据。在这50万余条数据中，共有234,789条企业在未来一年内有违法违规行为，该数据占比约为0.278，则可以将样本数据按照7：3的比例划分为训练集与测试集，其中，测试集的数据我们将在最后用来评估模型效果，训练集的数据可以对其进行5折交叉验证(5-fold cross validation)用来获取最佳模型参数。

通过lightGBM算法训练得到预警模型，可以通过样本数据训练机器学习组件来得到上述企业风险预测模型，为了使模型可解释性高，并且模型的效果好，选取lightGBM算法学习到的模型作为上述企业风险预测模型。该企业风险预测模型在使用中可通过不断的数据调参进行持续优化。

最后将画像指标输入上述预警模型中，预警模型输出交通类企业未来一段时间内(例如未来一年内或者半年内)产生风险的等级与概率。

本发明另一方面还涉及一种预警交通行业违规风险的多级模型系统，其结构如图2所示，包括：

通过使用该系统，能够执行上述的运算处理方法并实现对应的技术效果。

本发明的实施例还提供能够实现上述实施例中的警交通行业违规风险的多级模型方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的警交通行业违规风险的多级模型方法的全部步骤。

本发明的实施例还提供一种用于执行上述方法的电子设备，作为该方法的实现装置，所述电子设备至少具备有处理器和存储器，特别是该存储器上存储有执行方法所需的数据和相关的计算机程序，例如交通行业的交通事故处理的历史专家经验文献、违法行为描述和交通企业风险画像指标，并通过由处理器调用存储器中的数据、程序执行实现方法的全部步骤，并获得对应的技术效果。

优选的，该电子设备可以包含有总线架构，总线可以包括任意数量的互联的总线和桥，总线将包括由一个或多个处理器和存储器的各种电路链接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和接收器和发送器之间提供接口。接收器和发送器可以是同一个元件，即收发机，提供用于在传输介质上与各种其他系统通信的单元。处理器负责管理总线和通常的处理，而存储器可以被用于存储处理器在执行操作时所使用的数据。

额外的，所述电子设备还可以进一步包括通信模块、输入单元、音频处理器、显示器、电源等部件。其所采用的处理器(或称为控制器、操作控件)可以包括微处理器或其他处理器装置和/或逻辑装置，该处理器接收输入并控制电子设备的各个部件的操作；存储器可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种，可储存上述有关的数据信息，此外还可存储执行有关信息的程序，并且处理器可执行该存储器存储的该程序，以实现信息存储或处理等；输入单元用于向处理器提供输入，例如可以为按键或触摸输入装置；电源用于向电子设备提供电力；显示器用于进行图像和文字等显示对象的显示，例如可为LCD显示器。通信模块即为经由天线发送和接收信号的发送机/接收机。通信模块(发送机/接收机)耦合到处理器，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)还经由音频处理器耦合到扬声器和麦克风，以经由扬声器提供音频输出，并接收来自麦克风的音频输入，从而实现通常的电信功能。音频处理器可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器还耦合到中央处理器，从而使得可以通过麦克风能够在本机上录音，且使得可以通过扬声器来播放本机上存储的声音。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品，该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

最后应说明的是，以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种预警交通行业违规风险的多级模型方法，其特征在于，包括：

获取违法行为描述；

使用独热编码将每个所述风险词汇映射为风险词向量；

使用独热编码将每个所述违法行为词汇映；射为违法行为词向量，生成违法行为词向量集合Z＝{z₁，z₂，z₃，...，z_n}；

计算风险词向量的加权平均值h_i，

其中，W是第一初始权重矩阵，n是风险词向量的数量；

计算每个风险词向量u_i，

其中，W’是第二初始权重矩阵，

是矩阵W’的第j列；

计算违法行为词向量的加权平均值ki，

其中，n是违法行为词向量的数量；

计算每个违法行为词向量p_i，

其中，

是矩阵Q’的第j列；

2.如权利要求1所述的方法，其特征在于，所述风险等级包括A、B、C和D。

3.如权利要求2所述的方法，其特征在于，所述切分方法包括N-gram算法和jieba分词器。

4.如权利要求3所述的方法，其特征在于，所述N-gram算法中N的值为2。

5.如权利要求4所述的方法，其特征在于，所述风险词向量、违法行为词向量和风险等级词向量是二进制词向量。

6.如权利要求5所述的方法，其特征在于，所述交通企业风险画像指标体系包括，机构类别、经营期限、业务范围类型、检查行为数量、注册地址和/或经营地址历史变更数量、检查形式种类数量、检查日期频次和企业违法等级及报送时间；

所述机构类别是“统一社会信用代码”中第2位数字；

所述经营期限是经营结束日期距离经营起始日期的期限；

7.如权利要求6所述的方法，其特征在于，所述标记交通企业风险等级包括，将过去一年内发生有风险等级为A类行为的企业，标记为高风险企业，即y＝1；将过去一年内发生有风险等级为B类行为的企业，标记为中高风险企业，即y＝2；将过去一年内发生有风险等级为C类行为的企业，标记为中风险企业，即y＝3；将过去一年内发生有风险等级为D类行为的企业，标记为中低风险企业，即y＝4；否则，将企业标记为y＝0。

8.如权利要求7所述的方法，其特征在于，所述企业特征包括机构类别、经营期限和业务范围类型。

9.如权利要求8所述的方法，其特征在于，所述所述预警模型是通过lightGBM算法训练得到的。

10.一种预警交通行业违规风险的多级模型系统，其特征在于，包括：

11.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法。

12.一种电子设备，其特征在于，包括处理器和存储器；

所述处理器，用于通过调用历史专家经验文献、违法行为描述和交通企业风险画像指标，利用lightGBM模型，执行权利要求1至9中任一项所述的方法。