CN112365171B - 基于知识图谱的风险预测方法、装置、设备及存储介质 - Google Patents
基于知识图谱的风险预测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112365171B CN112365171B CN202011279427.1A CN202011279427A CN112365171B CN 112365171 B CN112365171 B CN 112365171B CN 202011279427 A CN202011279427 A CN 202011279427A CN 112365171 B CN112365171 B CN 112365171B
- Authority
- CN
- China
- Prior art keywords
- crime
- entity
- data
- knowledge graph
- risk prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000013058 risk prediction model Methods 0.000 claims abstract description 23
- 238000010219 correlation analysis Methods 0.000 claims abstract description 22
- 238000013136 deep learning model Methods 0.000 claims abstract description 22
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 11
- 238000004590 computer program Methods 0.000 claims description 23
- 238000012360 testing method Methods 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 8
- 230000006399 behavior Effects 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000035790 physiological processes and functions Effects 0.000 description 3
- 230000006996 mental state Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 206010010144 Completed suicide Diseases 0.000 description 1
- 206010026749 Mania Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000011449 brick Substances 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于知识图谱的风险预测方法、装置、设备及存储介质,该方法,包括:对数据源的犯罪数据进行关系抽取,获得RDF数据;RDF数据包括若干个实体三元组;根据RDF数据,构建犯罪知识图谱;利用预先构建的图深度学习模型对犯罪知识图谱进行时间相关性分析,获得融合时间相关性特征的犯罪知识图谱;根据融合时间相关性特征的犯罪知识图谱,对预先构建的卷积神经网络进行训练,获得犯罪风险预测模型;根据当前采集的犯罪风险数据,通过犯罪风险预测模型,获得犯罪风险预测结果;通过实体三元组构建犯罪知识图谱,有效挖掘司法案件的实体关系,基于犯罪知识图谱和图深度学习进行风险预测,能有效提高犯罪风险预测的效率和准确性。
Description
技术领域
本发明涉及人工智能的自然语言处理技术领域,尤其涉及一种基于知识图谱的风险预测方法、装置、设备及存储介质。
背景技术
随着我国不断深入推进“智慧司法”建设,中国裁判文书网、中国庭审公开网等平台的相继建成运行,司法公开达到前所未有的广度和深度。而词法领域是一个庞大的知识体系,且领域知识比较复杂,随着司法公开数据的不断增大,数据之间的关系也越来越复杂,目前只能处理简单数据关系的传统关系型数据库已无法胜任,且面向司法案件的风险预测研究比较还是比较匮乏,例如,目前一般只能通过专家知识与人工手段对犯罪风险进行预测分析,风险预效率、准确较低。
发明内容
针对上述问题,本发明的目的在于提供一种基于知识图谱的风险预测方法、装置、设备及存储介质,其能有效挖掘司法案件的实体关系,提高犯罪风险预测的效率和准确性。
第一方面,本发明实施例提供了一种基于知识图谱的风险预测方法,包括:
对数据源的犯罪数据进行关系抽取,获得RDF数据;所述RDF数据包括若干个实体三元组;
根据所述RDF数据,构建犯罪知识图谱;
利用预先构建的图深度学习模型对所述犯罪知识图谱进行时间相关性分析,获得融合时间相关性特征的犯罪知识图谱;
根据融合时间相关性特征的犯罪知识图谱,对预先构建的卷积神经网络进行训练,获得犯罪风险预测模型;
根据当前采集的犯罪风险数据,通过所述犯罪风险预测模型,获得犯罪风险预测结果。
作为上述方案的改进,所述对数据源的犯罪数据进行关系抽取,获得RDF数据,包括:
将所述犯罪数据输入到预先构建的基于BERT-BiLSTM-CRF算法的关系抽取模型进行关系抽取,得到所述RDF数据。
作为上述方案的改进,所述实体三元组包括实体、所述实体的属性及属性值。
作为上述方案的改进,所述方法还包括关系抽取模型构建步骤,具体包括:
将所述数据源的犯罪数据划分为训练样本和测试样本;
将所述训练样本输入BERT模型,获得所述训练样本的词向量;
将所述词向量输入到BiLSTM-CRF模型进行训练,获得关系抽取模型;
利用所述测试样本对所述关系抽取模型进行测试,获得最终的初始关系抽取模型。
作为上述方案的改进,所述方法还包括:
利用K-Means算法对所述犯罪知识图谱的实体进行聚类,得到若干个实体群;
确定待处理的实体所属的实体群,作为候选实体群;
从所述候选实体群中获取与所述待处理的实体距离最近的实体,作为候选实体;
从所述数据源中获取所述候选实体对应的决策数据,作为所述待处理的实体的决策数据。
作为上述方案的改进,所述图深度学习模型包括三个网络结构相同的VGG网络,每一个VGG网络用于提取所述RDF数据在不同时间段内的时间相关性特征。
作为上述方案的改进,所述利用预先构建的图深度学习模型对所述犯罪知识图谱进行时间相关性分析,获得融合时间相关性特征的犯罪知识图谱,包括:
利用所述图深度学习模型对所述犯罪知识图谱进行时间相关性分析,得到所述RDF数据的时间相关性特征;
将所述时间相关性特征与所述犯罪知识图谱进行关联融合,获得融合时间相关性特征的犯罪知识图谱。
第二方面,本发明实施例提供了一种基于知识图谱的风险预测装置,包括:
实体关系抽取模块,用于对数据源的犯罪数据进行关系抽取,获得RDF数据;所述RDF数据包括若干个实体三元组;
知识图谱构建模块,用于根据所述RDF数据,构建犯罪知识图谱;
时间相关性分析模块,用于利用预先构建的图深度学习模型对所述犯罪知识图谱进行时间相关性分析,获得融合时间相关性特征的犯罪知识图谱;
犯罪风险预测模型构建模块,用于根据融合时间相关性特征的犯罪知识图谱,对预先构建的卷积神经网络进行训练,获得犯罪风险预测模型;
犯罪风险预测模块,用于根据当前采集的犯罪风险数据,通过所述犯罪风险预测模型,获得犯罪风险预测结果。
第三方面,本发明实施例提供了一种基于知识图谱的风险预测设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面中任意一项所述的基于知识图谱的风险预测方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面中任意一项所述的基于知识图谱的风险预测方法。
相对于现有技术,本发明实施例的有益效果在于:所述基于知识图谱的风险预测方法,包括:对数据源的犯罪数据进行关系抽取,获得RDF数据;所述RDF数据包括若干个实体三元组;根据所述RDF数据,构建犯罪知识图谱;利用预先构建的图深度学习模型对所述犯罪知识图谱进行时间相关性分析,获得融合时间相关性特征的犯罪知识图谱;根据融合时间相关性特征的犯罪知识图谱,对预先构建的卷积神经网络进行训练,获得犯罪风险预测模型;根据当前采集的犯罪风险数据,通过所述犯罪风险预测模型,获得犯罪风险预测结果。所述方法利用抽取出的犯罪数据的实体三元组构建犯罪知识图谱,有效挖掘司法案件的实体关系,基于所述犯罪知识图谱和图深度学习对当前采集的犯罪风险数据进行风险预测,能有效提高犯罪风险预测的效率和准确性。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于知识图谱的风险预测方法的流程图;
图2是本发明实施例提供风险预测示意图;
图3是本发明实施例提供的一种基于知识图谱的风险预测装置的示意框图;
图4是本发明实施例提供的一种基于知识图谱的风险预测设备的示意框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其实本发明第一实施例提供的一种基于知识图谱的风险预测方法的流程图。所述基于知识图谱的风险预测方法,包括:
S1:对数据源的犯罪数据进行关系抽取,获得RDF数据;所述RDF数据包括若干个实体三元组。
在本发明实施例中,所述数据源为司法案例库,属于行业累积信息,可以从司法公开网站抓取获得。所述实体三元组包括实体、所述实体的属性及属性值。例如用于Ax表示第x个实体,Bi表示实体Ax的第i个属性,Ci表示属性Bi对应的属性值,则实体三元组表示为(Ax,Bi,Ci),其中所述实体的属性包括但不限于犯罪过程、犯罪动机、作案工具、心理状态、生理状态、交往信息等;所述属性值为对应属性具体的数据,例如作案工具的属性值包括但不限于刀、板砖、汽车等;心理状态对应的属性值包括但不限于抑郁、狂躁、恐慌等;以此类推,在此不对犯罪过程、犯罪动机、生理状态、交往信息的属性值进行详细的说明。例如实体三元组(服刑人员甲,作案工具,刀)。
S2:根据所述RDF数据,构建犯罪知识图谱。
S3:利用预先构建的图深度学习模型对所述犯罪知识图谱进行时间相关性分析,获得融合时间相关性特征的犯罪知识图谱。
S4:根据融合时间相关性特征的犯罪知识图谱,对预先构建的卷积神经网络进行训练,获得犯罪风险预测模型。
在本发明实施例中,将融合时间相关性特征的犯罪知识图谱进向量化表示,并输入到卷积神经网络进行训练,使得卷积神经网络能够充分利用犯罪知识图谱存在的先验知识,然后以犯罪风险作为输出结果,实现犯罪风险预测模型的训练。犯罪风险包括但不限于:自杀,斗殴,越狱,袭警等。
S5:根据当前采集的犯罪风险数据,通过所述犯罪风险预测模型,获得犯罪风险预测结果。
如图2所示,将犯罪风险数据(包括但不限于作案工具、交往信息、心理状态、生理状态等)输入到所述犯罪风险预测模型,得出某种犯罪风险的概率,并输出最大概率对应的犯罪风险作为最可能的犯罪行为,即最终输出犯罪风险预测结果。在本发明实施例中,基于所述犯罪知识图谱和图深度学习对当前采集的犯罪风险数据进行风险协同预警预测,能有效提高犯罪风险预测的效率和准确性。
在一种可选的实施例中,所述对数据源的犯罪数据进行关系抽取,获得RDF数据,包括:
将所述犯罪数据输入到预先构建的基于BERT-BiLSTM-CRF算法的关系抽取模型进行关系抽取,得到所述RDF数据。
在一种可选的实施例中,所述方法还包括关系抽取模型构建步骤,具体包括:
将所述数据源的犯罪数据划分为训练样本和测试样本;
将所述训练样本输入BERT模型,获得所述训练样本的词向量;
将所述词向量输入到BiLSTM-CRF模型进行训练,获得关系抽取模型;
利用所述测试样本对所述关系抽取模型进行测试,获得最终的初始关系抽取模型。
从所述数据源采集的犯罪数据一般为半结构化数据。在本发明实例中,通过基于BERT-BiLSTM-CRF算法的关系抽取模型对所述犯罪数据进行关系抽取,相对于现有技术需要通过人工手段对半结构化的犯罪数据转化为结构数据后才能进行处理,所述关系抽取模型可直接处理半结构化数据,减少因人工失误导致对模型结果的影响,也大大节省了了人力资源,自动化数据处理程度更高。
在一种可选的实施例中,所述图深度学习模型包括三个网络结构相同的VGG网络,每一个VGG网络用于提取所述RDF数据在不同时间段内的时间相关性特征。
在本发明实施例中,所述图深度学习模型包括三个网络结构相同的VGG网络,每一个VGG网络用于提取所述RDF数据在不同时间段内的时间相关性特征。通过三个VGG网络共享相同的网络结构,网络结构简单,且能降低卷积核的尺寸,增加卷积层数,能有效进行非线性映射,增加网络的拟合表达能力。
在一种可选的实施例中,所述利用预先构建的图深度学习模型对所述犯罪知识图谱进行时间相关性分析,获得融合时间相关性特征的犯罪知识图谱,包括:
利用所述图深度学习模型对所述犯罪知识图谱进行时间相关性分析,得到所述RDF数据的时间相关性特征;
将所述时间相关性特征与所述犯罪知识图谱进行关联融合,获得融合时间相关性特征的犯罪知识图谱。
在本发明实施例中,通过第一个VGG网络用于提取短期时间段(例如一天)的时间相关性特征,第二个VGG网络用于提取周期时间段(例如一个月周期)的时间相关性特征,第三个VGG网络用于提取历史时间段(例如半年)的时间相关性特征,然后将提取出的时间相关性特征融合到犯罪知识图谱中,能有提取出犯罪数据的时间相关性特征,能实现犯罪因数关联分析,并能对犯罪知识图谱进行扩充。
在一种可选的实施例中,所述方法还包括:
利用K-Means算法对所述犯罪知识图谱的实体进行聚类,得到若干个实体群;
确定待处理的实体所属的实体群,作为候选实体群;
从所述候选实体群中获取与所述待处理的实体距离最近的实体,作为候选实体;
从所述数据源中获取所述候选实体对应的决策数据,作为所述待处理的实体的决策数据。
在本发明实例中,基于K-Means算法在犯罪知识图谱中对有关联的实体进行聚类,首先设定K个中心节点D,计算每个实体Ax到每个中心节点Dk最近距离,将实体Ax划分到距离最近的中心节点Dk对应的实体群Ek中。然后对每个实体群Ek重新计算中心节点。不断重复上述两步,得到实体群Ek的聚类。此时每一类中的实体Ax认为是相似的,因此对于需要作出决策的实体Ai,寻找同一个实体群Ek中距离最近的实体Aj,获取Aj的决策作为需要作出决策的实体Ai的决策并输出。其中,实体群Ek中必然有一个实体Aj是已知对应决策,Aj的决策一般是通过专家预先给出。由于司法案例库后续会源源不断有新案案例加入,通过待处理的实体Ai的加入,可以实现司法案例库的自动扩充。
相对于现有技术,本发明实施例的有益效果在于:
1、本发明实施例利用抽取出的犯罪数据的实体三元组构建犯罪知识图谱,有效挖掘司法案件的实体关系,填补了目前知识图谱在犯罪风险评估与防范领域的空白,构建的犯罪信息知识图谱具有较高的实用性;同时犯罪知识图谱具有高扩展性,结合各类知识抽取和知识融合技术,能够使得犯罪知识图谱规模越来越大,数据规模越大,对图深度学习的训练越充分,准确性也越高。
2、相对于现有技术需要通过专家知识与人工手段对犯罪风险进行预测分析,本发明实施例基于所述犯罪知识图谱和图深度学习对当前采集的犯罪风险数据进行风险预测,其数据规模和数据准确性更高、更有针对性,同时使得卷积神经网络能够充分利用犯罪知识图谱存在的先验知识,能够比人工手段更快、更深入的发现可能存在的风险,对数据知识的处理也更加迅速直接,最大程度的避免人为因素造成的性能瓶颈,风险预测的可靠性高,从而有效提高犯罪风险预测的效率和准确性。
3、相对于现有技术需要通过人工手段将非结构化数据转化成结构化数据后再处理,采用关系抽取模型可直接处理半结构化的犯罪数据,减少因人工失误导致对模型结果的影响,也大大节省了了人力资源。
请参阅图3,本发明第二实施例提供了一种基于知识图谱的风险预测装置,包括:
实体关系抽取模块1,用于对数据源的犯罪数据进行关系抽取,获得RDF数据;所述RDF数据包括若干个实体三元组;
知识图谱构建模块2,用于根据所述RDF数据,构建犯罪知识图谱;
时间相关性分析模块3,用于利用预先构建的图深度学习模型对所述犯罪知识图谱进行时间相关性分析,获得融合时间相关性特征的犯罪知识图谱;
犯罪风险预测模型构建模块4,用于根据融合时间相关性特征的犯罪知识图谱,对预先构建的卷积神经网络进行训练,获得犯罪风险预测模型;
犯罪风险预测模块5,用于根据当前采集的犯罪风险数据,通过所述犯罪风险预测模型,获得犯罪风险预测结果。
在一种可选的实例中,所述实体关系抽取模块,具体用于将所述犯罪数据输入到预先构建的基于BERT-BiLSTM-CRF算法的关系抽取模型进行关系抽取,得到所述RDF数据。
在一种可选的实例中,所述实体三元组包括实体、所述实体的属性及属性值。
在一种可选的实例中,所述装置还包括关系抽取模型构建模块,所述关系抽取模型构建模块包括:
数据划分单元,用于将所述数据源的犯罪数据划分为训练样本和测试样本;
词向量获得单元,用于将所述训练样本输入BERT模型,获得所述训练样本的词向量;
模型训练单元,用于将所述词向量输入到BiLSTM-CRF模型进行训练,获得关系抽取模型;
模型测试单元,用于利用所述测试样本对所述关系抽取模型进行测试,获得最终的初始关系抽取模型。
在一种可选的实例中,所述装置还包括:
实体聚类模块,用于利用K-Means算法对所述犯罪知识图谱的实体进行聚类,得到若干个实体群;
候选实体群确定模块,用于确定待处理的实体所属的实体群,作为候选实体群;
候选实体选取模块,用于从所述候选实体群中获取与所述待处理的实体距离最近的实体,作为候选实体;
决策获取模块,用于从所述数据源中获取所述候选实体对应的决策数据,作为所述待处理的实体的决策数据。
在一种可选的实例中,所述图深度学习模型包括三个网络结构相同的VGG网络,每一个VGG网络用于提取所述RDF数据在不同时间段内的时间相关性特征。
在一种可选的实例中,所述时间相关性分析模块3包括:
时间相关性特征提取单元,用于利用所述图深度学习模型对所述犯罪知识图谱进行时间相关性分析,得到所述RDF数据的时间相关性特征;
时间相关性特征融合单元,用于将所述时间相关性特征与所述犯罪知识图谱进行关联融合,获得融合时间相关性特征的犯罪知识图谱。
相对于现有技术,本发明实施例的有益效果在于:通过抽取出的犯罪数据的实体三元组构建犯罪知识图谱,有效挖掘司法案件的实体关系,基于所述犯罪知识图谱和图深度学习对当前采集的犯罪风险数据进行风险预测,能有效提高犯罪风险预测的效率和准确性。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
请参阅图4,本发明第三实施例提供了一种基于知识图谱的风险预测设备,至少一个处理器11,例如CPU,至少一个网络接口14或者其他用户接口13,存储器15,至少一个通信总线12,通信总线12用于实现这些组件之间的连接通信。其中,用户接口13可选的可以包括USB接口以及其他标准接口、有线接口。网络接口14可选的可以包括Wi-Fi接口以及其他无线接口。存储器15可能包含高速RAM存储器,也可能还包括非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器15可选的可以包含至少一个位于远离前述处理器11的存储装置。
在一些实施方式中,存储器15存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
操作系统151,包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务;
程序152。
具体地,处理器11用于调用存储器15中存储的程序152,执行上述实施例所述的基于知识图谱的风险预测方法,例如图1所示的步骤S1。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如实体关系抽取模块。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述基于知识图谱的风险预测设备中的执行过程。
所述基于知识图谱的风险预测设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述基于知识图谱的风险预测设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是基于知识图谱的风险预测设备的示例,并不构成对基于知识图谱的风险预测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
所称处理器11可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器11是所述基于知识图谱的风险预测设备的控制中心,利用各种接口和线路连接整个基于知识图谱的风险预测设备的各个部分。
所述存储器15可用于存储所述计算机程序和/或模块,所述处理器11通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述基于知识图谱的风险预测设备的各种功能。所述存储器15可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器15可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述基于知识图谱的风险预测设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本发明第四实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一实施例中任意一项所述的基于知识图谱的风险预测方法。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (7)
1.一种基于知识图谱的风险预测方法,其特征在于,包括:
对数据源的犯罪数据进行关系抽取,获得RDF数据;所述RDF数据包括若干个实体三元组;
根据所述RDF数据,构建犯罪知识图谱;
利用预先构建的图深度学习模型对所述犯罪知识图谱进行时间相关性分析,获得融合时间相关性特征的犯罪知识图谱;所述图深度学习模型包括三个网络结构相同的VGG网络,每一个VGG网络用于提取所述RDF数据在不同时间段内的时间相关性特征;
根据融合时间相关性特征的犯罪知识图谱,对预先构建的卷积神经网络进行训练,获得犯罪风险预测模型;
根据当前采集的犯罪风险数据,通过所述犯罪风险预测模型,获得犯罪风险预测结果;所述犯罪风险预测结果为所述犯罪风险预测模型输出的最大概率的犯罪风险对应的犯罪行为;
利用K-Means算法对所述犯罪知识图谱的实体进行聚类,得到若干个实体群;
确定待处理的实体所属的实体群,作为候选实体群;
从所述候选实体群中获取与所述待处理的实体距离最近的实体,作为候选实体;
从所述数据源中获取所述候选实体对应的决策数据,作为所述待处理的实体的决策数据;
所述利用预先构建的图深度学习模型对所述犯罪知识图谱进行时间相关性分析,获得融合时间相关性特征的犯罪知识图谱,包括:
利用所述图深度学习模型对所述犯罪知识图谱进行时间相关性分析,得到所述RDF数据的时间相关性特征;
将所述时间相关性特征与所述犯罪知识图谱进行关联融合,获得融合时间相关性特征的犯罪知识图谱。
2.如权利要求1所述的基于知识图谱的风险预测方法,其特征在于,所述对数据源的犯罪数据进行关系抽取,获得RDF数据,包括:
将所述犯罪数据输入到预先构建的基于BERT-BiLSTM-CRF算法的关系抽取模型进行关系抽取,得到所述RDF数据。
3.如权利要求1所述的基于知识图谱的风险预测方法,其特征在于,所述实体三元组包括实体、所述实体的属性及属性值。
4.如权利要求2所述的基于知识图谱的风险预测方法,其特征在于,所述方法还包括关系抽取模型构建步骤,具体包括:
将所述数据源的犯罪数据划分为训练样本和测试样本;
将所述训练样本输入BERT模型,获得所述训练样本的词向量;
将所述词向量输入到BiLSTM-CRF模型进行训练,获得关系抽取模型;
利用所述测试样本对所述关系抽取模型进行测试,获得最终的初始关系抽取模型。
5.一种基于知识图谱的风险预测装置,其特征在于,包括:
实体关系抽取模块,用于对数据源的犯罪数据进行关系抽取,获得RDF数据;所述RDF数据包括若干个实体三元组;
知识图谱构建模块,用于根据所述RDF数据,构建犯罪知识图谱;
时间相关性分析模块,用于利用预先构建的图深度学习模型对所述犯罪知识图谱进行时间相关性分析,获得融合时间相关性特征的犯罪知识图谱;所述图深度学习模型包括三个网络结构相同的VGG网络,每一个VGG网络用于提取所述RDF数据在不同时间段内的时间相关性特征;
犯罪风险预测模型构建模块,用于根据融合时间相关性特征的犯罪知识图谱,对预先构建的卷积神经网络进行训练,获得犯罪风险预测模型;
犯罪风险预测模块,用于根据当前采集的犯罪风险数据,通过所述犯罪风险预测模型,获得犯罪风险预测结果;所述犯罪风险预测结果为所述犯罪风险预测模型输出的最大概率的犯罪风险对应的犯罪行为;
实体聚类模块,用于利用K-Means算法对所述犯罪知识图谱的实体进行聚类,得到若干个实体群;
候选实体群确定模块,用于确定待处理的实体所属的实体群,作为候选实体群;
候选实体选取模块,用于从所述候选实体群中获取与所述待处理的实体距离最近的实体,作为候选实体;
决策获取模块,用于从所述数据源中获取所述候选实体对应的决策数据,作为所述待处理的实体的决策数据;
所述时间相关性分析模块包括:
时间相关性特征提取单元,用于利用所述图深度学习模型对所述犯罪知识图谱进行时间相关性分析,得到所述RDF数据的时间相关性特征;
时间相关性特征融合单元,用于将所述时间相关性特征与所述犯罪知识图谱进行关联融合,获得融合时间相关性特征的犯罪知识图谱。
6.一种基于知识图谱的风险预测设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-4中任意一项所述的基于知识图谱的风险预测方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至4中任意一项所述的基于知识图谱的风险预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011279427.1A CN112365171B (zh) | 2020-11-16 | 2020-11-16 | 基于知识图谱的风险预测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011279427.1A CN112365171B (zh) | 2020-11-16 | 2020-11-16 | 基于知识图谱的风险预测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112365171A CN112365171A (zh) | 2021-02-12 |
CN112365171B true CN112365171B (zh) | 2024-02-09 |
Family
ID=74514887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011279427.1A Active CN112365171B (zh) | 2020-11-16 | 2020-11-16 | 基于知识图谱的风险预测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112365171B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159326B (zh) * | 2021-03-03 | 2024-02-23 | 国网山西省电力公司信息通信分公司 | 基于人工智能的智能业务决策方法 |
CN113051406A (zh) * | 2021-03-23 | 2021-06-29 | 龙马智芯(珠海横琴)科技有限公司 | 一种人物属性预测方法、装置、服务器及可读存储介质 |
CN113408663B (zh) * | 2021-07-20 | 2022-04-08 | 中国科学院地理科学与资源研究所 | 融合模型构建方法、融合模型使用方法、装置和电子设备 |
CN113806555B (zh) * | 2021-09-14 | 2023-08-08 | 国网北京市电力公司 | 用于app的运营异常识别方法、系统、装置及存储介质 |
CN113934862B (zh) * | 2021-09-29 | 2022-10-14 | 北方工业大学 | 社区安全风险预测方法、装置、电子设备及介质 |
CN116167616B (zh) * | 2022-12-29 | 2023-07-28 | 北京交通大学 | 一种数据驱动的突发事件下城市轨道交通风险点量化方法 |
CN115858946A (zh) * | 2023-02-22 | 2023-03-28 | 昆明理工大学 | 一种基于图论的线索推理与情报预测方法 |
CN115982388B (zh) * | 2023-03-06 | 2024-04-19 | 共道网络科技有限公司 | 案件质控图谱建立、案件文书质检方法、设备及存储介质 |
CN116149885B (zh) * | 2023-04-20 | 2023-06-20 | 北京神州邦邦技术服务有限公司 | 一种泛it服务风险预测方法及系统 |
CN116777634B (zh) * | 2023-06-25 | 2024-06-11 | 深圳征信服务有限公司 | 一种基于人工智能的金融数据分析系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598000A (zh) * | 2019-08-01 | 2019-12-20 | 达而观信息科技(上海)有限公司 | 一种基于深度学习模型的关系抽取及知识图谱构建方法 |
CN110956254A (zh) * | 2019-11-12 | 2020-04-03 | 浙江工业大学 | 一种基于动态知识表示学习的案件推理方法 |
-
2020
- 2020-11-16 CN CN202011279427.1A patent/CN112365171B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598000A (zh) * | 2019-08-01 | 2019-12-20 | 达而观信息科技(上海)有限公司 | 一种基于深度学习模型的关系抽取及知识图谱构建方法 |
CN110956254A (zh) * | 2019-11-12 | 2020-04-03 | 浙江工业大学 | 一种基于动态知识表示学习的案件推理方法 |
Non-Patent Citations (1)
Title |
---|
基于知识图谱的智能决策支持技术及应用研究;魏瑾等;计算机技术与发展;第30卷(第01期);第1-6页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112365171A (zh) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112365171B (zh) | 基于知识图谱的风险预测方法、装置、设备及存储介质 | |
CN110837550B (zh) | 基于知识图谱的问答方法、装置、电子设备及存储介质 | |
CN106600052B (zh) | 一种基于时空轨迹的用户属性与社会网络检测系统 | |
WO2015093541A1 (ja) | シナリオ生成装置、及びそのためのコンピュータプログラム | |
CN104036105B (zh) | 确定涉及大数据分析的随机性应用的正确性的方法和系统 | |
CN111950622B (zh) | 基于人工智能的行为预测方法、装置、终端及存储介质 | |
CN116611546B (zh) | 基于知识图谱的目标研究区域滑坡预测方法及系统 | |
Concolato et al. | Data science: A new paradigm in the age of big-data science and analytics | |
CN107392311A (zh) | 序列切分的方法和装置 | |
CN111178701B (zh) | 一种基于特征衍生技术的风险控制方法方法、装置和电子设备 | |
Graham et al. | Finding and visualizing graph clusters using pagerank optimization | |
CN116386899A (zh) | 基于图学习的药物疾病关联关系预测方法及相关设备 | |
CN112417267A (zh) | 一种用户行为分析方法、装置、计算机设备及存储介质 | |
CN116881430A (zh) | 一种产业链识别方法、装置、电子设备及可读存储介质 | |
CN115114484A (zh) | 异常事件检测方法、装置、计算机设备和存储介质 | |
EP3336719A1 (en) | Future scenario generation device and method, and computer program | |
Behnisch et al. | Urban data-mining: spatiotemporal exploration of multidimensional data | |
Gowtham Sethupathi et al. | Efficient rainfall prediction and analysis using machine learning techniques | |
CN114496099A (zh) | 细胞功能注释方法、装置、设备及介质 | |
CN113743453A (zh) | 一种基于随机森林的人口数量预测方法 | |
CN114495137B (zh) | 票据异常检测模型生成方法与票据异常检测方法 | |
JP6927409B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
CN109542936A (zh) | 一种基于因果分割的递归式因果推断方法 | |
CN114970684A (zh) | 一种结合vae的提取网络核心结构的社区检测方法 | |
CN114792397A (zh) | 一种sar影像城市道路提取方法、系统以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |