CN111832941A - 一种罪犯改造质量评估系统的子训练集处理方法 - Google Patents
一种罪犯改造质量评估系统的子训练集处理方法 Download PDFInfo
- Publication number
- CN111832941A CN111832941A CN202010669844.0A CN202010669844A CN111832941A CN 111832941 A CN111832941 A CN 111832941A CN 202010669844 A CN202010669844 A CN 202010669844A CN 111832941 A CN111832941 A CN 111832941A
- Authority
- CN
- China
- Prior art keywords
- sub
- training set
- subset
- criminal
- positive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 99
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 49
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000005070 sampling Methods 0.000 claims description 42
- 238000001303 quality assessment method Methods 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 20
- 230000006872 improvement Effects 0.000 claims description 9
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 abstract description 10
- 238000000034 method Methods 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 80
- 230000008859 change Effects 0.000 description 23
- 230000003068 static effect Effects 0.000 description 12
- 238000000605 extraction Methods 0.000 description 9
- 230000004048 modification Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 239000000126 substance Substances 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000012533 medium component Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种罪犯改造质量评估系统的子训练集处理方法,涉及罪犯改造评估技术领域,所述罪犯改造质量评估系统由若干个子模型组成,若干个所述子模型利用子训练集进行训练,训练后的子模型组成罪犯改造质量评估系统;本发明科学合理,使用安全方便,本发明通过对罪犯改造质量评估系统中子模型的子训练集进行处理,使得子训练集中的正例和反例的数量趋于相等,使得通过子训练集训练之后的子模型在对输入样例进行评估时不会存在偏见,弱化了罪犯改造质量评估系统的评估成本不对称的问题。
Description
技术领域
本发明涉及罪犯改造评估技术领域,具体是一种罪犯改造质量评估系统的子训练集处理方法。
背景技术
罪犯改造质量评估模型的预测结果的准确性最终的判断准绳是罪犯在改造结束后的一定时间内(比如3年)是否再犯罪。把一个本来改造质量合格的预测为不合格和把一个本来改造质量不合格的预测为合格都是误判。但是,由于罪犯改造质量评估系统的运用领域是司法领域,不同的误判会产生不同的社会成本,会对社会造成不同的负担,因此,如何提高罪犯改造质量评估系统评估结果的准确性成为了急需解决的问题;
所以,人们急需一种罪犯改造质量评估系统的子训练集处理方法来解决上述问题。
发明内容
本发明的目的在于提供一种罪犯改造质量评估系统的子训练集处理方法,以解决现有技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种罪犯改造质量评估系统的子训练集处理方法,所述罪犯改造质量评估系统由若干个子模型组成,若干个所述子模型利用子训练集进行训练,训练后的子模型组成罪犯改造质量评估系统;
所述子训练集处理方法包括以下步骤:
S1、对原始训练集进行正例和反例的分解,得到正例子集D和反例子集DN;
S2、将S1输出的正例子集DP和反例子集DN输入比例计算模块,所述比例计算模块输出反例子集DN与正例子集DP中反例数量与正例数量的比值;
S3、判断S2中输出的反例子集DN与正例子集DP中反例数量与正例数量的比值是否大于设定阈值;
S4、对正例子集DP和反例子集DN中的样例进行抽样,得到抽样正例子集D′P和抽样反例子集D′N;
S5、对S4中抽样之后的抽样正例子集D′P和抽样反例子集D′N进行合并,得到子训练集。
根据上述技术方案,在S1中:
所述原始训练集为D={(x1,y1),(x2,y2),…,(xd,yd)},其中,(xi,yi)表示原始训练集D中的第i个样例,xi表示第i个样例的特征值集,所述特征值集xi可以是为了钱财、为了报复、为了朋友、恶作剧等,yi表示第i个样例上的标签,yi∈{合格,不合格},d=|D|,|D|表示原始训练集D的大小;
所述原始训练集D中的标签yi为“合格”和“不合格”的样例(xi,yi)分别定义为正例和反例;
原始训练集D分解之后仅包含正例的子集为正例子集DP,原始训练集D分解之后仅包含反例的子集为反例子集DN,则:DP∪DN=D,所述正例子集DP中包含的正例数量为m+,则m+=|DP|,所述反例子集DN中包含的反例数量为m-,则m-=|DN|。
根据上述技术方案,在S2中:
根据上述技术方案,在S3-S4中:
当时,对S1输出的正例子集DP中的正例和反例子集DN中的反例进行抽样,得到抽样正例子集D′P,其中,D′P=sample(DP,m+),得到抽样反例子集D′N,其中,D′N=sample(DN,m+*X);
即从正例子集DP中抽取m+数量的正例,形成抽样正例子集D′P,从反例子集DN中抽取m+*X数量的反例,形成抽样反例子集D′N;
当时,对S1输出的正例子集DP中的正例和反例子集DN中的反例进行抽样,得到抽样正例子集D′P,其中,D′P=sample(DP,m+),得到抽样反例子集D′N,其中,D′N=sample(DN,m-);
即从正例子集DP中抽取m+数量的正例,形成抽样正例子集D′P,从反例子集DN中抽取m-数量的反例,形成抽样反例子集D′N;
其中,t表示设定的比例阈值,sample表示从指定的集合中随机抽取指定数量的样例,X表示放大的倍数。
罪犯改造质量评估系统的评估结果的准确性最终的判断准绳是罪犯在改造结束后的一定时间内(比如3年)是否再犯罪。把一个本来改造质量合格的罪犯评估为不合格和把一个本来改造质量不合格的罪犯评估为合格都是误判。由于罪犯改造质量评估系统的运用领域是司法领域,不同的误判会产生不同的社会成本:将一个原本改造质量合格的罪犯误判为不合格,其社会成本就是多占用了一些社会资源(罪犯改造相关的资源,本来他可能可以到社会上服刑),但是把一个原本改造质量不合格的罪犯误判为合格,那么若据此将该罪犯放入到社会服刑,其再犯罪可能造成对社会的巨大伤害,其社会成本较前者误判要大!以上问题就是罪犯改造质量评估系统评估成本不对称的问题。
根据上述技术方案,在S5中:
进行抽样正例子集D′P和抽样反例子集D′N的合并,得到D′=D′N∪D′P,其中,D′表示包含抽样正例子集D′P和抽样反例子集D′N的子训练集。
如果不对子训练集进行处理,罪犯改造质量评估系统会倾向于将更多的输入样例评估为子训练集中个数较多的样例所代表的类别。这会加剧罪犯改造质量评估系统评估成本不对称问题的影响。
根据上述技术方案,若干个所述子训练集分别对若干个子模型进行训练,若干个所述子模型组成罪犯改造质量评估系统,若干个所述子训练集均通过子训练集处理方法进行了处理,使得若干个子训练集中的正例和反例的数量趋于一致,使得训练之后的子模型不会存在偏见,避免了罪犯改造质量评估系统评估成本不对称的问题。
本方法中的各个子模型,其训练所使用的特征集不尽相同,即每个子模型的训练所使用的特征集可能仅仅覆盖全指标集中的部分指标。这样,多个子模型聚集在一起就形成了多样化的罪犯改造质量评估系统。
根据上述技术方案,若干个所述子模型分别接收同一组输入样例,针对该组输入样例中的每个样例,各个子模型会基于各自的特征集从中提取出相应的特征值集,并基于各自提取到的特征值集进行改造质量评估,输出若干个等级分布概率,所述罪犯改造质量评估系统对若干个等级分布概率求平均值,得到最终等级分布概率。
与现有技术相比,本发明的有益效果是:本发明通过对罪犯改造质量评估系统中子模型的子训练集进行处理,使得子训练集中的正例和反例的数量趋于相等,使得通过子训练集训练之后的子模型在对输入样例进行评估时不会存在偏见,弱化了了罪犯改造质量评估系统的评估成本不对称的问题,并且,不同的子模型在对输入样例进行评估时的特征值集也是不相同的,使得可以以多个子模型输出的等级分布概率求平均值的方式作为最终的等级分布概率,使得评估结果更加的客观。
附图说明
图1为本发明一种罪犯改造质量评估系统的子训练集处理方法的处理流程示意图;
图2为本发明一种罪犯改造质量评估系统的子训练集处理方法的子模型训练示意图;
图3为本发明一种罪犯改造质量评估系统的子训练集处理方法的子模型评估示意图;
图4为本发明一种罪犯改造质量评估系统的子训练集处理方法的罪犯改造质量评估系统评估原理示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:如图1~3所示,一种罪犯改造质量评估系统的子训练集处理方法,所述罪犯改造质量评估系统由若干个子模型组成,若干个所述子模型利用子训练集进行训练,训练后的子模型组成罪犯改造质量评估系统;
所述子训练集处理方法包括以下步骤:
S1、对原始训练集进行正例和反例的分解,得到正例子集DP和反例子集DN;
所述原始训练集为D={(x1,y1),(x2,y2),…,(xd,yd)},其中,(xi,yi)表示原始训练集D中的第i个样例,xi表示第i个样例的特征值集,所述特征值集xi可以是为了钱财、为了报复、为了朋友、恶作剧等,yi表示第i个样例上的标签,yi∈{合格,不合格},d=|D|,|D|表示原始训练集D的大小;
所述原始训练集D中的标签yi为“合格”和“不合格”的样例(xi,yi)分别定义为正例和反例;
原始训练集D分解之后仅包含正例的子集为正例子集DP,原始训练集D分解之后仅包含反例的子集为反例子集DN,则:DP∪DN=D,所述正例子集DP中包含的正例数量为m+,则m+=|DP|,所述反例子集DN中包含的反例数量为m-,则m-=|DN|。
S2、将S1输出的正例子集DP和反例子集DN输入比例计算模块,所述比例计算模块输出反例子集DN与正例子集DP中反例数量与正例数量的比值;
S3、判断S2中输出的反例子集DN与正例子集DP中反例数量与正例数量的比值是否大于设定阈值;
S4、对正例子集DP和反例子集DN中的样例进行抽样,得到抽样正例子集D′P和抽样反例子集D′N;
当时,对S1输出的正例子集DP中的正例和反例子集DN中的反例进行抽样,得到抽样正例子集D′P,其中,D′P=sample(DP,m+),得到抽样反例子集D′N,其中,D′N=sample(DN,m+*X);
即从正例子集DP中抽取m+数量的正例,形成抽样正例子集D′P,从反例子集DN中抽取m+*X数量的反例,形成抽样反例子集D′N;
当时,对S1输出的正例子集DP中的正例和反例子集DN中的反例进行抽样,得到抽样正例子集D′P,其中,D′P=sample(DP,m+),得到抽样反例子集D′N,其中,D′N=sample(DN,m-);
即从正例子集DP中抽取m+数量的正例,形成抽样正例子集D′P,从反例子集DN中抽取m-数量的反例,形成抽样反例子集D′N;
其中,t表示设定的比例阈值,sample表示从指定的集合中随机抽取指定数量的样例,X表示放大的倍数。
罪犯改造质量评估系统的评估结果的准确性最终的判断准绳是罪犯在改造结束后的一定时间内(比如3年)是否再犯罪。把一个本来改造质量合格的罪犯评估为不合格和把一个本来改造质量不合格的罪犯评估为合格都是误判。由于罪犯改造质量评估系统的运用领域是司法领域,不同的误判会产生不同的社会成本:将一个原本改造质量合格的罪犯误判为不合格,其社会成本就是多占用了一些社会资源(罪犯改造相关的资源,本来他可能可以到社会上服刑),但是把一个原本改造质量不合格的罪犯误判为合格,那么若据此将该罪犯放入到社会服刑,其再犯罪可能造成对社会的巨大伤害,其社会成本较前者误判要大!
S5、对S4中抽样之后的抽样正例子集D′P和抽样反例子集D′进行合并,得到子训练集。
进行抽样正例子集D′P和抽样反例子集D′N的合并,得到D′=D′N∪D′P,其中,D′表示包含抽样正例子集D′P和抽样反例子集D′N的子训练集。
如果不对子训练集进行处理,罪犯改造质量评估系统会倾向于将更多的输入样例评估为子训练集中个数较多的样例所代表的类别。这会加剧罪犯改造质量评估系统评估成本不对称问题的影响。
若干个所述子训练集分别对若干个子模型进行训练,若干个所述子模型组成罪犯改造质量评估系统,若干个所述子训练集均通过子训练集处理方法进行了处理,使得若干个子训练集中的正例和反例的数量趋于一致,使得训练之后的子模型不会存在偏见,避免了罪犯改造质量评估系统评估成本不对称的问题。
若干个所述子模型分别接收同一组输入样例,针对该组输入样例中的每个样例,各个子模型会基于各自的特征集从中提取出相应的特征值集,并基于各自提取到的特征值集进行改造质量评估,输出若干个等级分布概率,所述罪犯改造质量评估系统对若干个等级分布概率求平均值,得到最终等级分布概率。
如图4所示,对于罪犯改造质量评估系统的评估过程如下:
一种基于机器学习的罪犯改造质量评估系统,该系统包括输入模块、编码模块、降纬模块、指标变化表征计算模块、最终特征生成模块、概率计算模块和输出模块;
T1、所述输入模块用于接受样例的输入,对样例进行整合并输出源动态指标值序列、对比动态指标值序列和静态指标值序列;
所述源动态指标值序列和对比动态指标值序列统称为动态指标值序列;
所述源动态指标值序列是指在一个时间点针对某个罪犯所收集的该罪犯的所有动态指标的指标值,例如:入狱一个月时的认罪态度、思想表现、学习情况、生产劳动、遵章守纪等;
所述对比动态指标值序列是指在另一个时间点对某个罪犯所收集的该罪犯的所有动态指标的指标值,例如:入狱七个月时的认罪态度、思想表现、学习情况、生产劳动、遵章守纪等;
所述静态指标值序列是指该罪犯不可变指标的指标值,例如:抚养方式(主要由谁带大的)、受到(难以忘记的)虐待、中止学业、初犯年龄、再犯年龄、犯罪次数等。
T2、所述编码模块包括编码模块一、编码模块二和编码模块三;
T201、所述编码模块一将T1输出的源动态指标值序列编码为向量,得到源动态指标向量;
T202、所述编码模块二将T1输出的对比动态指标值序列编码为向量,得到对比动态指标向量;
T203、所述编码模块三将T1输出的静态指标值序列编码为向量,得到静态指标向量;
因为罪犯改造质量评估系统是基于神经网络模型的,其直接输入只能是向量,所以,需要对T1输出的源动态指标值序列、对比动态指标值序列和静态指标值序列进行编码,得到源动态指标向量、对比动态指标向量和静态指标向量,使得罪犯改造质量评估系统可以对T1输入的样例进行评估,可以对罪犯的改造质量进行预测。
所述编码模块对T1输出的源动态指标值序列、对比动态指标值序列和静态指标值序列进行编码时,T1输出的所述源动态指标值序列、对比动态指标值序列和静态指标值序列分为数值型数据和分类型数据:
所述数值型数据无需编码;
所述分类型数据包括单选型和多选型:
所述单选型使用one-hot encoding进行编码;
所述多选型使用multi-hot encoding进行编码;
T1输出的所述源动态指标值序列通过one-hot encoding和multi-hot encoding中的至少一个进行编码,得到源动态指标向量Vsrc,所述源动态指标向量Vsrc利用以下公式表示:
Vsrc=(xi1,xi2,...xim);
T1输出的所述对比动态指标值序列通过one-hot encoding和multi-hotencoding中的至少一个进行编码,得到对比动态指标向量Vcmp,所述对比动态指标向量Vcmp利用以下公式表示;
Vcmp=(xj1,xj2,...xjm);
其中,m为T1输出的源动态指标值序列和对比动态指标值序列的大小,xim表示某罪犯在源时间点在第m个源动态指标上的取值所对应的编码值,xjm表示某罪犯在对比时间点在第m个对比动态指标上的取值所对应的编码值;
所述静态指标值应用one-hot encoding和multi-hot encoding中的至少一个进行编码,得到静态指标向量Vst。
T3、所述降纬模块分别对T201输出的源动态指标向量和T202输出的对比动态指标向量进行降纬,获得源动态指标紧凑向量和对比动态指标紧凑向量;
所述降纬模块包括降纬模块一和降纬模块二;
所述降纬模块一和降纬模块二分别对T201输出的源动态指标向量Vsrc和T202输出的对比动态指标向量Vcmp进行降纬处理得到:
Vsrc′=DimReduce(Vsrc);
Vcmp′=DimReduce(Vcmp);
其中,Vsrc′和Vcmp′分别表示源动态指标向量Vsrc和对比动态指标向量Vcmp降纬之后输出的源动态指标紧凑向量和对比动态指标紧凑向量,DimReduce表示降维算法。
因为T1输出的源动态指标值序列和对比动态指标值序列绝大多数都是分类型数据,这些数据经过T2中的编码模块编码之后转换为罪犯改造质量评估系统能够直接处理的源动态指标向量和对比动态指标向量,源动态指标向量和对比动态指标向量的纬度相比于原始的源动态指标值序列和对比动态指标值序列会扩大,另外,对罪犯的改造质量评估的一个重要手段是对罪犯在两个时间段内的源动态指标值序列和对比动态指标值序列进行比较,源动态指标值序列和对比动态指标值序列分别表示同一个罪犯在一个时间点(源时间点)和另外一个时间点(对比时间点)在相应动态指标上的指标值,但是源动态指标值序列和对比动态指标值序列会进一步加剧T2输出的源动态指标向量和对比动态指标向量的纬度,因此,对源动态指标向量和对比动态指标向量进行绛纬显得尤为重要。
所述降纬模块对源动态指标向量Vsrc和对比动态指标向量Vcmp进行降纬的降纬算法DimReduce如下,T2输出的源动态指标向量Vsrc和对比动态指标向量Vcmp均用输入向量Vd表示:
T301、为了避免产生过拟合的风险,对输入向量Vd加入噪音,得到向量Vdn;
T302、将T301输出的向量Vdn输入T3中降纬模块的编码层来抽取向量Vdn中包含的抽象特征,得到T301中输入的输入向量Vd的紧凑向量Vd′;
T303、将T302输出的紧凑向量Vd′输入T3中降纬模块的解码层来对紧凑向量Vd′进行解码得到输入向量Vd的近似向量Vd≈,所述近似向量Vd≈为输入向量Vd的低纬表示。
通过使用Mean Squared Root Error作为损失函数来使优化器逐步减少Vd≈和Vd之间的距离,我们便可以得到该神经网络的参数,这些参数会使得Vd′成为Vd的低纬表示,通过获取网络结构中的结点“compact_encoding_0”的输出我们就可以得到Vd′。
所述降纬模块为自动编码器,所述自动编码器是一种监督式学习。
T301中的过拟合是指:系统在训练阶段没能找到训练集中的数据所隐含的规律、知识,而仅仅是对这些数据进行了记忆,使得其使用新的数据进行预测(评估改造质量)时表现欠佳。
T301中的噪音是指:在利用训练数据集对罪犯改造质量评估系统进行训练时,加入干扰数据,使得罪犯改造质量评估系统自动对干扰项进行排除,使得罪犯改造质量评估系统可以寻找到需要评估的数据之间的规律,使得罪犯改造质量评估系统可以对训练数据集之外的数据进行准确的评估。
T4、所述指标变化表征计算模块计算T2输出的源动态指标紧凑向量和对比动态指标紧凑向量,得出余弦相似度标量、欧氏距离标量和方向余弦向量;所述余弦相似度标量和欧氏距离标量用于衡量动态指标的变化情况,用不同标量反应源动态指标和对比动态指标的相似程度,标量只反应大小,增加方向余弦向量表示变化的方向,用于反映罪犯改造变好或者恶化;变化大小和变化方向共同反映了罪犯改造质量情况。
所述指标变化表征计算模块输出的余弦相似度标量为T3输出的源动态指标紧凑向量Vsrc′和对比动态指标紧凑向量Vcmp′之间的余弦相似度,用于反映T1输出的源动态指标值序列与对比动态指标值序列之间的变化情况;
所述指标变化表征计算模块输出的欧氏距离标量为T3输出的对比动态指标紧凑向量Vcmp′和源动态指标紧凑向量Vsrc′之间的欧氏距离,用于反映T1输出的源动态指标值序列与对比动态指标值序列之间的变化情况;
T4输出的所述余弦相似度标量和欧氏距离标量都是为了反映罪犯改造质量变化的情况,而罪犯改造质量变化的情况可以是变好或者恶化;
所述指标变化表征计算模块输出的方向余弦向量为T3输出的对比动态指标紧凑向量Vcmp′和源动态指标紧凑向量Vsrc′之间差向量的方向余弦,用于反映T1输出的源动态指标值序列与对比动态指标值序列之间的变化情况,即用于反映罪犯改造质量向着变好的方向变化或者向着恶化的方向变化。
所述指标变化表征计算模块对其自身输出的余弦相似度标量进行计算时,根据下列公式表示T1输出的源动态指标值序列与对比动态指标值序列之间的余弦相似度标量:
其中,θ表示Vsrc′和Vcmp′在潜在空间中的夹角;
所述指标变化表征计算模块为了产生其输出的欧氏距离标量和方向余弦向量而进行的计算包括以下步骤:
T401、根据公式计算源动态指标紧凑向量Vsrc′与对比动态指标紧凑向量Vcmp′之间的差向量:
T402、在T401基础上计算输出的欧氏距离标量,其计算公式为:
T5、所述最终特征生成模块用于将T203输出的静态指标向量和T4输出的余弦相似度标量、欧氏距离标量和方向余弦向量合并成一个最终特征向量;T1-T5用于实现对输入样例的特征提取。
T6、所述概率计算模块将T5输出的最终特征向量进行分布概率计算,最终得出罪犯改造质量等级分布概率,罪犯改造质量等级分布概率为罪犯改造质量为“不合格”或者“合格”分别对应的概率;
所述概率计算模块根据最终特征向量Vfinal计算出相应的改造质量评估等级的分布概率,该模块使用多层感知器来计算改造质量评估等级的分布概率。
T7、所述输出模块用于将T6输出的改造质量等级分布概率依照JSON格式组织起来并作为系统的输出。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (8)
1.一种罪犯改造质量评估系统的子训练集处理方法,其特征在于:所述罪犯改造质量评估系统由若干个子模型组成,若干个所述子模型利用子训练集进行训练,训练后的子模型组成罪犯改造质量评估系统;
所述子训练集处理方法包括以下步骤:
S1、对原始训练集进行正例和反例的分解,得到正例子集DP和反例子集DN;
S2、将S1输出的正例子集DP和反例子集DN输入比例计算模块,所述比例计算模块输出反例子集DN与正例子集DP中反例数量与正例数量的比值;
S3、判断S2中输出的反例子集DN与正例子集DP中反例数量与正例数量的比值是否大于设定阈值;
S4、对正例子集DP和反例子集DN中的样例进行抽样,得到抽样正例子集D′P和抽样反例子集D′N;
S5、对S4中抽样之后的抽样正例子集D′P和抽样反例子集D′N进行合并,得到子训练集。
2.根据权利要求1所述的一种罪犯改造质量评估系统的子训练集处理方法,其特征在于:在S1中:
所述原始训练集为D={(x1,y1),(x2,y2),…,(xd,yd)},其中,(xi,yi)表示原始训练集D中的第i个样例,xi表示第i个样例的特征值集,yi表示第i个样例上的标签,yi∈{合格,不合格},d=|D|,|D|表示原始训练集D的大小;
所述原始训练集D中的标签yi为“合格”和“不合格”的样例(xi,yi)分别定义为正例和反例;
原始训练集D分解之后仅包含正例的子集为正例子集DP,原始训练集D分解之后仅包含反例的子集为反例子集DN,则:DP∪DN=D,所述正例子集DP中包含的正例数量为m+,则m+=|DP|,所述反例子集DN中包含的反例数量为m-,则m-=|DN|。
4.根据权利要求3所述的一种罪犯改造质量评估系统的子训练集处理方法,其特征在于:在S3-S4中:
当时,对S1输出的正例子集DP中的正例和反例子集DN中的反例进行抽样,得到抽样正例子集D′P,其中,D′P=sample(DP,m+),得到抽样反例子集D′N,其中,D′N=sample(DN,m+*X);
当时,对S1输出的正例子集DP中的正例和反例子集DN中的反例进行抽样,得到抽样正例子集D′P,其中,D′P=sample(DP,m+),得到抽样反例子集D′N,其中,D′N=sample(DN,m-);
其中,t表示设定的比例阈值,sample表示从指定的集合中随机抽取指定数量的样例,X表示放大的倍数。
5.根据权利要求4所述的一种罪犯改造质量评估系统的子训练集处理方法,其特征在于:在S5中:
进行抽样正例子集D′P和抽样反例子集D′N的合并,得到D′=D′N∪D′P,其中,D′表示包含抽样正例子集D′P和抽样反例子集D′N的子训练集。
6.根据权利要求5所述的一种罪犯改造质量评估系统的子训练集处理方法,其特征在于:若干个所述子训练集分别对若干个子模型进行训练,若干个所述子模型组成罪犯改造质量评估系统。
8.根据权利要求7所述的一种罪犯改造质量评估系统的子训练集处理方法,其特征在于:若干个所述子模型分别接收同一组输入样例,针对该组输入样例中的每个样例,各个子模型基于各自的特征集从中提取出相应的特征值集,基于各自提取到的特征值集进行改造质量评估,输出若干个等级分布概率,所述罪犯改造质量评估系统对若干个等级分布概率求平均值,得到最终等级分布概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010669844.0A CN111832941A (zh) | 2020-07-13 | 2020-07-13 | 一种罪犯改造质量评估系统的子训练集处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010669844.0A CN111832941A (zh) | 2020-07-13 | 2020-07-13 | 一种罪犯改造质量评估系统的子训练集处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111832941A true CN111832941A (zh) | 2020-10-27 |
Family
ID=72922674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010669844.0A Pending CN111832941A (zh) | 2020-07-13 | 2020-07-13 | 一种罪犯改造质量评估系统的子训练集处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111832941A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111784180A (zh) * | 2020-07-13 | 2020-10-16 | 南京大学 | 一种罪犯改造质量评估系统评估结果分析解释方法 |
-
2020
- 2020-07-13 CN CN202010669844.0A patent/CN111832941A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111784180A (zh) * | 2020-07-13 | 2020-10-16 | 南京大学 | 一种罪犯改造质量评估系统评估结果分析解释方法 |
CN111784180B (zh) * | 2020-07-13 | 2024-04-09 | 南京大学 | 一种罪犯改造质量评估系统评估结果分析解释方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Angelopoulos et al. | A gentle introduction to conformal prediction and distribution-free uncertainty quantification | |
CN109934293B (zh) | 图像识别方法、装置、介质及混淆感知卷积神经网络 | |
CN110751557B (zh) | 一种基于序列模型的异常资金交易行为分析方法及系统 | |
CN112418395B (zh) | 一种基于生成对抗网络的气体传感器阵列漂移补偿方法 | |
CN111597340A (zh) | 一种文本分类方法及装置、可读存储介质 | |
Mohammadi et al. | Improving linear discriminant analysis with artificial immune system-based evolutionary algorithms | |
CN113723083A (zh) | 基于bert模型的带权消极监督文本情感分析方法 | |
CN116205482A (zh) | 重点人员风险等级评估方法及相关设备 | |
Ciaburro et al. | Python Machine Learning Cookbook: Over 100 recipes to progress from smart data analytics to deep learning using real-world datasets | |
CN114154557A (zh) | 癌症组织分类方法、装置、电子设备及存储介质 | |
CN114937182B (zh) | 一种基于情感轮和卷积神经网络的图像情感分布预测方法 | |
CN117892182B (zh) | 基于人工智能的索具耐用性测试方法及装置 | |
CN114648031A (zh) | 基于双向lstm和多头注意力机制的文本方面级情感识别方法 | |
CN116579347A (zh) | 一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质 | |
Surono et al. | Developing an optimized recurrent neural network model for air quality prediction using K-means clustering and PCA dimension reduction | |
CN111832941A (zh) | 一种罪犯改造质量评估系统的子训练集处理方法 | |
Joshi | Python machine learning cookbook | |
CN112597997A (zh) | 感兴趣区域确定方法、图像内容识别方法及装置 | |
CN113792541B (zh) | 一种引入互信息正则化器的方面级情感分析方法 | |
CN111708865A (zh) | 一种基于改进XGBoost算法的技术预见及专利预警分析方法 | |
CN116739100A (zh) | 量子神经网络的漏洞检测方法及自动驾驶漏洞检测方法 | |
Zhang et al. | VESC: a new variational autoencoder based model for anomaly detection | |
CN111832942A (zh) | 一种基于机器学习的罪犯改造质量评估系统 | |
CN115345248A (zh) | 一种面向深度学习的数据去偏方法及装置 | |
Shah et al. | Detecting and Unmasking AI-Generated Texts through Explainable Artificial Intelligence using Stylistic Features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |