CN114707829A - 基于结构化数据线性展开的目标人员再犯风险预测方法 - Google Patents

基于结构化数据线性展开的目标人员再犯风险预测方法 Download PDF

Info

Publication number
CN114707829A
CN114707829A CN202210286783.9A CN202210286783A CN114707829A CN 114707829 A CN114707829 A CN 114707829A CN 202210286783 A CN202210286783 A CN 202210286783A CN 114707829 A CN114707829 A CN 114707829A
Authority
CN
China
Prior art keywords
data
layer
training
linear expansion
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210286783.9A
Other languages
English (en)
Inventor
万志高
周盛传
高杰
周向波
雷良健
李贤基
付航宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Ganma Intelligent Technology Co ltd
Qingdao Bo Tian Tian Tong Information Technology Co ltd
Jiangxi Ganma Industry Co ltd
Original Assignee
Jiangxi Ganma Intelligent Technology Co ltd
Qingdao Bo Tian Tian Tong Information Technology Co ltd
Jiangxi Ganma Industry Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Ganma Intelligent Technology Co ltd, Qingdao Bo Tian Tian Tong Information Technology Co ltd, Jiangxi Ganma Industry Co ltd filed Critical Jiangxi Ganma Intelligent Technology Co ltd
Priority to CN202210286783.9A priority Critical patent/CN114707829A/zh
Publication of CN114707829A publication Critical patent/CN114707829A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/06Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
    • G06F7/08Sorting, i.e. grouping record carriers in numerical or other ordered sequence according to the classification of at least some of the information they carry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Educational Administration (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Primary Health Care (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出了一种基于结构化数据线性展开的目标人员再犯风险预测方法,包括:第一步:从监管场所的业务系统中获取数据;第二步:对第一步中获得的数据进行预处理;第三步:特征组合,第四步:线性展开,第五步:预训练过程;第六步:构建模型,首先将第五步获得的词向量传递到输入层,之后按照经过Transformer、CNN和全连接层;第七步:训练阶段,将经过第五步处理后获得的数据进行训练;第八步:训练完成后,将第七步中测试集的数据输入到模型中,采用F1值进行性能评估与实际应用。借此,本发明具有灵活使用监管场所中的现有数据,极大程度提高了数据利用率和预测准确率的优点。

Description

基于结构化数据线性展开的目标人员再犯风险预测方法
技术领域
本发明属于犯罪预测技术与自然语言处理技术领域,特别涉及一种基于结构化数据线性展开的目标人员再犯风险预测方法。
背景技术
目前,监狱的主要目标是惩罚、通过囚禁减少对社会的伤害、在满足囚犯基本需要的前提下关押他们,同时也是一种改造机构。从囚犯的角度来看,当他们的刑期结束并被释放时,他们通常被迫在没有收入或社会支持的情况下开始他们的生活,刑满出狱的囚犯一般会面临流亡,孤立和失业的痛苦,这种情况通常会导致二次犯罪的发生。因此,对即将出监的目标人员进行及时的再犯风险评估并根据评估结果采取相应的措施,具有重要的社会意义。
我国目前对于罪犯的再犯风险预测相关技术仍然很不成熟,主流的方法仍然是以人工问卷和量表为主,该类方法需要消耗大量的人力并且效率较低、灵活性较差。近几年,随着大数据相关技术在监狱管理方面的深入应用,全国大部分监狱的罪犯再犯风险评估开始尝试使用大数据相关技术进行评估,通常是采用传统的机器学习方法,例如决策树、支持向量机和逻辑回归等。但受限于大多数监狱中存在的数据多而不全的问题,导致利用此类机器学习方法进行评估的技术无法挖掘数据中包含的全部信息,难以进行大规模的应用。因此我国目前在目标人员再犯风险评估方面缺少一些科学高效的评估方法。
发明内容
本发明提出一种基于结构化数据线性展开的目标人员再犯风险预测方法,解决了现有技术中的问题。
本发明的技术方案是这样实现的:一种基于结构化数据线性展开的目标人员再犯风险预测方法,包括:
第一步:从监管场所的业务系统中获取数据;
第二步:对第一步中获得的数据进行预处理;
第三步:特征组合,将第二步中预处理后的数据按照时间发生的先后顺序进行排列;
第四步:线性展开,将经过第三步处理后的每个样本数据的不同特征进行横向拼接;
第五步:预训练过程,经过第四步处理的数据就变成了自然语言的格式,对该数据加载使用司法文书数据集预训练好的中文word embedding模型,将其转换为低维向量;
第六步:构建模型,首先将第五步获得的词向量传递到输入层,之后按照经过Transformer、CNN和全连接层;
第七步:训练阶段,将经过第五步处理后获得的数据进行训练;
第八步:训练完成后,将第七步中测试集的数据输入到模型中,采用F1 值进行性能评估与实际应用。
作为一种优选的实施方式,从监管场所的业务系统中获取的数据,包括个人基本信息、监管场所的内的动态信息、进入监管场所的前置数据、社会关系和监管期间外部动态数据共五个维度的信息。
作为一种优选的实施方式,监管场所业务系统数据库包括被监管人员在监管期间的所有记录、来时原因和去向动态。
作为一种优选的实施方式,对第一步中获得的数据进行预处理包括:数据清洗和数据的编码,其中数据清洗即对数据中存在的数据丢失、错位、错别字和乱码分别进行补充、归位、纠正及删除操作;
数据的编码,是将数字转换为文本。
作为一种优选的实施方式,第四步中横向拼接包括插入分隔符和不插入分隔符两种方式,其中在结构数据的长文本特征前后加入分隔符“的”,其他特征间不插入分隔符。
作为一种优选的实施方式,预训练过程中,首先根据预训练数据集的词表大小将原始的文本数据转换为one-hot向量(维度为V),即对于一个word的输入编码{x1,x2,…,xV},只有一个为1,其余为0;
第一层的参数权重为WV*N,其中N为隐藏层神经元的个数,W中的每一行是一个N维的向量,代表的就是单词wi的向量vi表示;
从隐藏层到输出层也有一个不同的权重矩阵
Figure RE-GDA0003641013970000031
是一个N*V的矩阵,第j列代表wj的N维度向量,用这个向量和W中每一个向量相乘,就可以得到在 V中每个词的分值:
Figure RE-GDA0003641013970000032
其中,T为矩阵的转置运算,h为隐含层向量;
然后将其带入softmax函数,获得每个单词的分布概率:
Figure RE-GDA0003641013970000033
其中WI是为单词wj的上下文,yj是第j个神经元的输出,所有的x'对应的都是从隐藏层到输出层的参数。
作为一种优选的实施方式,第六步中构建的模型包括输入层、编码层、卷积层和输出层,该模型为seq2seq模型,包括Encoder和Decoder两部分,每部分均由多个完全相同的Attention模块构成,计算Attention采用如下公式:
Figure RE-GDA0003641013970000034
其中Q,K,V分别为查询矩阵、键矩阵和值矩阵,本质上是三个大小相同,但初始化和训练过程不同的三个矩阵,dk为比例因子。
作为一种优选的实施方式,训练阶段中,将经过第五步处理后获得的数据集按照8:2的比例分为训练集和测试集两部分,
其中训练集数据依次经过模型的输入层、编码层、卷积层和输出层,在卷积层和输出层之间通过sigmoid函数加入非线性因素;
该模型每层需要加入残差网络。
采用了上述技术方案后,本发明的有益效果是:
以传统的再犯风险评估模型为基础,灵活使用监管场所中的现有数据,极大程度提高了数据利用率;
经过预处理后的数据可以有效保留特征间的时间关系,可以在一定程度上解决深度学习模型处理结构化数据时存在的信息丢失问题,从而获得了精度较高、实用性较强的再犯风险评估方法;
与不使用该方法的传统算法相比,本发明更适合特征间具有时间关系的结构化数据、数据利用率和预测准确率更高
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程图;
图2是本发明的预训练的模型结构图
图3是本发明构建的预测模型结构和数据流向图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于结构化数据线性展开的目标人员再犯风险预测方法,包括:
第一步:从监管场所的业务系统中获取数据;
第二步:对第一步中获得的数据进行预处理;
第三步:特征组合,将第二步中预处理后的数据按照时间发生的先后顺序进行排列;
第四步:线性展开,将经过第三步处理后的每个样本数据的不同特征进行横向拼接;
第五步:预训练过程,经过第四步处理的数据就变成了自然语言的格式,对该数据加载使用司法文书数据集预训练好的中文word embedding模型,将其转换为低维向量;
第六步:构建模型,首先将第五步获得的词向量传递到输入层,之后按照经过Transformer、CNN和全连接层;
第七步:训练阶段,将经过第五步处理后获得的数据进行训练;
第八步:训练完成后,将第七步中测试集的数据输入到模型中,采用F1 值进行性能评估与实际应用。
从监管场所的业务系统中获取的数据,包括个人基本信息、监管场所的内的动态信息、进入监管场所的前置数据、社会关系和监管期间外部动态数据共五个维度的信息。监管场所业务系统数据库包括被监管人员在监管期间的所有记录、来时原因和去向动态。
对第一步中获得的数据进行预处理包括:数据清洗和数据的编码,其中数据清洗即对数据中存在的数据丢失、错位、错别字和乱码分别进行补充、归位、纠正及删除操作;
数据的编码,传统方法是对有限的离散数据进行类别编码,对连续型数据进行数字表示并进行归一化,但本发明的数据编码则是相反的,是将数字转换为文本。
第四步中横向拼接包括插入分隔符和不插入分隔符两种方式,即将步骤 (3)处理后的每个样本的不同特征进行横向拼接,横向拼接包括插入分隔符和不插入分隔符两种方式,在特征间插入分隔符可以减少不同特征的互扰程度;不插入分隔符则可以增加特征间的关联程度,其中在结构数据的长文本特征前后加入分隔符“的”,其他特征间不插入分隔符。
预训练过程:经过第四步处理后的数据就变成了自然语言的格式,对该数据加载使用司法文书数据集预训练好的中文word embedding模型,将其转换为低维向量。本发明使用的embedding模型是word2vec,该模型为浅层的神经网络,训练完毕的word2vec模型可以将每个词映射到一个向量。word2vec通常基于Skip-gram和CBOW两种语言模型,本发明使用的是CBOW,首先根据预训练数据集的词表大小将原始的文本数据转换为one-hot向量(维度为V),即对于一个word的输入编码{x1,x2,…,xV},只有一个为1,其余为0;
第一层的参数权重为WV*N,其中N为隐藏层神经元的个数,W中的每一行是一个N维的向量,代表的就是单词wi的向量vi表示;
从隐藏层到输出层也有一个不同的权重矩阵
Figure RE-GDA0003641013970000061
是一个N*V的矩阵,第j列代表wj的N维度向量,用这个向量和W中每一个向量相乘,就可以得到在 V中每个词的分值:
Figure RE-GDA0003641013970000062
其中,T为矩阵的转置运算,h为隐含层向量;
然后将其带入softmax函数,获得每个单词的分布概率:
Figure RE-GDA0003641013970000063
其中WI是为单词wj的上下文,yj是第j个神经元的输出,所有的x'对应的都是从隐藏层到输出层的参数,从上述公式可以看出,当词表包含的单词数V很大时,使用softmax函数会非常耗时,因此通常使用层级softmax的方式,通过构建霍夫曼树来减少遍历单词的时间,得到每个单词的分布概率之后,就可以通过分布概率构建损失函数,从而完成整个预训练过程,预训练完毕的词向量即可作为模型的输入。
构建模型首先将第五步中获得的词向量传递到输入层,之后按照图示顺序经过Transformer、CNN和全连接层。模型主要分为四部分,分别是输入层、编码层、卷积层和输出层,第二部分是编码层,也就是Transformer所在的部分该模型为seq2seq模型,包括Encoder和Decoder两部分,每部分均由多个完全相同的Attention模块构成,计算Attention采用如下公式:
Figure RE-GDA0003641013970000071
其中Q,K,V分别为查询矩阵、键矩阵和值矩阵,本质上是三个大小相同,但初始化和训练过程不同的三个矩阵,dk为比例因子,在这里取值为64。
不同于传统的模型使用的往往是单一的Attention,该模型在训练注意力权重时采用了一种称为多头注意力机制的方法,会同时初始化多个权重矩阵 w,即同时产生多个Attention,最后将多个矩阵拼接处理为一个矩阵,拼接的剧中最终通过全连接一层全连接网络后即可作为该模型的输出,也就是 transformer所在层的输出。
因为本发明的最终任务为分类任务,也就是将不同的目标人员按照再犯风险的等级进行分类,因此我们将Transformer的Decoder去除,只保留其 Encoder,将Encoder的输出直接送入卷积层。同时我们对卷积层也做了处理,去除了卷积的部分,仅保留了池化层,采用Maxpooling的方法提取最大特征。最后按照实际的分类要求,将低维向量xi∈Ri*j通过全连接层作输出映射 y∈Rc*1
训练阶段中,将经过第五步处理后获得的数据集按照8:2的比例分为训练集和测试集两部分,
其中训练集数据依次经过模型的输入层、编码层、卷积层和输出层,在卷积层和输出层之间通过sigmoid函数加入非线性因素;
同时由于本模型由多个Encoder和Maxpooling叠加而成,因此在每层之间需要加入残差网络以降低层高增加带来的错误率上升的问题,同时为了降低训练过程中产生过拟合的现象,使用dropout方法,在每一轮训练中随机丢弃一定比例的神经元,本发明使用的比例为0.5。反向传播阶段采用交叉熵作为损失函数,最终输出为0-4五个再犯风险等级。重复上述训练过程,直至损失函数不再下降结束训练。
传统目标人员改造数据存在大量的部分丢失问题,例如样本1丢失特征 2,样本2丢失特征1,在这种情况下由于样本1和样本2的数据无法对齐,一般会采取补充其他值或者将两个样本丢弃的方式来保证数据的对齐。但丢弃数据会减少可用数据的数量,补充其他值则会影响模型的准确性。本发明提出的结构化数据线性展开的方式,无需考虑数据的对齐问题,减少了数据预处理的工作量,同时提高了数据的利用率,解决了传统再犯风险预测任务中中结构化数据无法使用深度较大的模型的问题,可以更好的挖掘特征间的关联关系,提高预测的准确率。
本发明根据特征间的时间关系,构建了一种由两种特征提取模型 Transformer和CNN结合而成的特征提取模型,Transformer具有很强的特征学习能力,但往往会忽略特征间的位置关系,而CNN则可以提取特征间的位置关系,因此将两种模型结合在一起可以更有效的利用特征间的关联关系,从而提高预测的准确性。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于结构化数据线性展开的目标人员再犯风险预测方法,其特征在于,包括:
第一步:从监管场所的业务系统中获取数据;
第二步:对第一步中获得的数据进行预处理;
第三步:特征组合,将第二步中预处理后的数据按照时间发生的先后顺序进行排列;
第四步:线性展开,将经过第三步处理后的每个样本数据的不同特征进行横向拼接;
第五步:预训练过程,经过第四步处理的数据就变成了自然语言的格式,对该数据加载使用司法文书数据集预训练好的中文word embedding模型,将其转换为低维向量;
第六步:构建模型,首先将第五步获得的词向量传递到输入层,之后按照经过Transformer、CNN和全连接层;
第七步:训练阶段,将经过第五步处理后获得的数据进行训练;
第八步:训练完成后,将第七步中测试集的数据输入到模型中,采用F1值进行性能评估与实际应用。
2.根据权利要求1所述的基于结构化数据线性展开的目标人员再犯风险预测方法,其特征在于,从监管场所的业务系统中获取的数据,包括个人基本信息、监管场所的内的动态信息、进入监管场所的前置数据、社会关系和监管期间外部动态数据共五个维度的信息。
3.根据权利要求2所述的基于结构化数据线性展开的目标人员再犯风险预测方法,其特征在于,监管场所业务系统数据库包括被监管人员在监管期间的所有记录、来时原因和去向动态。
4.根据权利要求1所述的基于结构化数据线性展开的目标人员再犯风险预测方法,其特征在于,对第一步中获得的数据进行预处理包括:数据清洗和数据的编码,其中数据清洗即对数据中存在的数据丢失、错位、错别字和乱码分别进行补充、归位、纠正及删除操作;
数据的编码,是将数字转换为文本。
5.根据权利要求1所述的基于结构化数据线性展开的目标人员再犯风险预测方法,其特征在于,第四步中横向拼接包括插入分隔符和不插入分隔符两种方式,其中在结构数据的长文本特征前后加入分隔符“的”,其他特征间不插入分隔符。
6.根据权利要求1所述的基于结构化数据线性展开的目标人员再犯风险预测方法,其特征在于,预训练过程中,首先根据预训练数据集的词表大小将原始的文本数据转换为one-hot向量(维度为V),即对于一个word的输入编码{x1,x2,…,xV},只有一个为1,其余为0;
第一层的参数权重为WV*N,其中N为隐藏层神经元的个数,W中的每一行是一个N维的向量,代表的就是单词wi的向量vi表示;
从隐藏层到输出层也有一个不同的权重矩阵W'={w'ij},是一个N*V的矩阵,第j列代表wj的N维度向量,用这个向量和W中每一个向量相乘,就可以得到在V中每个词的分值:
Figure RE-FDA0003641013960000021
其中,T为矩阵的转置运算,h为隐含层向量;
然后将其带入softmax函数,获得每个单词的分布概率:
Figure RE-FDA0003641013960000022
其中WI是为单词wj的上下文,yj是第j个神经元的输出,所有的x'对应的都是从隐藏层到输出层的参数。
7.根据权利要求1所述的基于结构化数据线性展开的目标人员再犯风险预测方法,其特征在于,第六步中构建的模型包括输入层、编码层、卷积层和输出层,该模型为seq2seq模型,包括Encoder和Decoder两部分,每部分均由多个完全相同的Attention模块构成,计算Attention采用如下公式:
Figure RE-FDA0003641013960000023
其中Q,K,V分别为查询矩阵、键矩阵和值矩阵,本质上是三个大小相同,但初始化和训练过程不同的三个矩阵,dk为比例因子。
8.根据权利要求7所述的基于结构化数据线性展开的目标人员再犯风险预测方法,其特征在于,训练阶段中,将经过第五步处理后获得的数据集按照8:2的比例分为训练集和测试集两部分,
其中训练集数据依次经过模型的输入层、编码层、卷积层和输出层,在卷积层和输出层之间通过sigmoid函数加入非线性因素;
该模型每层需要加入残差网络。
CN202210286783.9A 2022-03-22 2022-03-22 基于结构化数据线性展开的目标人员再犯风险预测方法 Pending CN114707829A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210286783.9A CN114707829A (zh) 2022-03-22 2022-03-22 基于结构化数据线性展开的目标人员再犯风险预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210286783.9A CN114707829A (zh) 2022-03-22 2022-03-22 基于结构化数据线性展开的目标人员再犯风险预测方法

Publications (1)

Publication Number Publication Date
CN114707829A true CN114707829A (zh) 2022-07-05

Family

ID=82168110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210286783.9A Pending CN114707829A (zh) 2022-03-22 2022-03-22 基于结构化数据线性展开的目标人员再犯风险预测方法

Country Status (1)

Country Link
CN (1) CN114707829A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116205350A (zh) * 2023-01-12 2023-06-02 深圳市大数据研究院 基于法律文书的再犯人身危险性分析预测系统和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116205350A (zh) * 2023-01-12 2023-06-02 深圳市大数据研究院 基于法律文书的再犯人身危险性分析预测系统和方法

Similar Documents

Publication Publication Date Title
CN111554268B (zh) 基于语言模型的语言识别方法、文本分类方法和装置
CN109034448B (zh) 基于车辆轨迹语义分析和深度信念网络的轨迹预测方法
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN108549658A (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN109583565A (zh) 基于注意力模型长短时记忆网络的洪水预测方法
CN113204633B (zh) 一种语义匹配蒸馏方法及装置
CN112860904B (zh) 一种融入外部知识的生物医疗关系抽取方法
CN111242351A (zh) 基于自编码器和gru神经网络的热带气旋轨迹预测方法
CN116682144B (zh) 一种基于多层次跨模态差异调和的多模态行人重识别方法
CN111523943A (zh) 一种电影票房预测模型的构建方法及电影票房预测方法
CN112925920A (zh) 一种智慧社区大数据知识图谱网络社团检测方法
CN116821291A (zh) 基于知识图谱嵌入与语言模型交替学习的问答方法及系统
CN116596150A (zh) 基于多分支自注意力的Transformer霍克斯过程模型的事件预测方法
CN116151459A (zh) 基于改进Transformer的电网防汛风险概率预测方法和系统
CN115408603A (zh) 一种基于多头自注意力机制的在线问答社区专家推荐方法
CN113343643B (zh) 一种基于有监督的多模型编码映射推荐方法
CN114707829A (zh) 基于结构化数据线性展开的目标人员再犯风险预测方法
CN113420111B (zh) 一种用于多跳推理问题的智能问答方法及装置
CN114582448A (zh) 基于预训练语言模型的疫情病例信息抽取框架构建方法
CN116910190A (zh) 多任务感知模型获取方法、装置、设备及可读存储介质
CN115455162A (zh) 层次胶囊与多视图信息融合的答案句子选择方法与装置
CN114970519A (zh) 一种基于数据分词的车流量数据处理方法
CN113268962B (zh) 面向建筑行业信息化服务问答系统的文本生成方法和装置
CN112001162B (zh) 基于小样本学习的智能审判系统
Peng et al. Knowledge Distillation Algorithm of Feature Reconstruction Based on Feature Maps of the Middle Layer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination