CN111538741B

CN111538741B - 一种面向警情大数据的深度学习分析方法及系统

Info

Publication number: CN111538741B
Application number: CN202010210057.XA
Authority: CN
Inventors: 不公告发明人
Original assignee: Chongqing Terminus Technology Co Ltd
Current assignee: Chongqing Terminus Technology Co Ltd
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2021-04-02
Anticipated expiration: 2040-03-23
Also published as: CN111538741A

Abstract

本发明提供了一种面向警情大数据的深度学习分析方法及系统，方法包括：根据知识挖掘预先构建规则树，将原始警情信息与规则树匹配，从原始警情信息中提取具有字段名关联结构或关键词关联结构的警情信息元数据，并依据规则树的逻辑关系生成警情信息元数据集合；将警情信息元数据集合与范式化模板进行匹配，从警情信息元数据集合中提取警情信息的范式化特征组，并归集形成范式化大数据；利用深度学习对范式化大数据进行分析，发掘范式化大数据间的关联规律，从而发掘原始警情信息间的关联规律。通过该方法和系统，可以减少大量警情信息直接网络传输，具有可屏蔽警情数据中关键信息、降低泄露风险、提高警务工作的准确率和效率等优点。

Description

一种面向警情大数据的深度学习分析方法及系统

技术领域

本发明涉及警情分析和大数据处理技术领域，具体涉及一种面向警情大数据的深度学习分析方法及系统。

背景技术

警情大数据分析，是通过大数据技术汇聚海量的警情信息，从中挖掘警情在人员、位置、物品、时间、案件过程等方面潜在的关联规律，根据不同警情之间的关联规律辅助工作，提高警务工作的准确率和效率。从而保护人民群众的安全，打击违法和犯罪行为，维护社会秩序稳定和谐。

警情大数据中存在着大量的关键信息，比如敏感信息、涉密信息和内部信息等，这些关键信息一旦泄露不仅会影响警务工作，还可能危害公共利益和安全；因此，在将大数据分析运用于警情信息的过程中，如何避免警情信息在存储、分析、应用等环节的过度集中，以及减少大量警情信息的直接网络传输，屏蔽警情数据中的关键信息，降低泄露风险，是目前亟待解决的。

发明内容

针对现有技术存在的上述不足，本发明的目的在于：提供一种面向警情大数据的深度学习分析方法及系统，通过分析警情信息的范式化特征关联规律，来提取和分析原始警情信息的关联规律，不需要集中网络传输和汇集警情信息，可以减少大量警情信息直接网络传输，具有可屏蔽警情数据中的关键信息、降低泄露风险、提高警务工作的准确率和效率等优点。

一种面向警情大数据的深度学习分析方法，包括以下步骤：

根据知识挖掘预先构建规则树，规则树包括按逻辑关系关联的字段名和关键词；

将原始警情信息与规则树进行匹配，从原始警情信息中提取具有字段名关联结构或关键词关联结构的警情信息元数据，并依据规则树的逻辑关系生成警情信息元数据集合；

将警情信息元数据集合与预设范式化模板进行匹配，从警情信息元数据集合中提取警情信息的范式化特征组，并归集形成警情信息的范式化大数据；

利用深度学习对警情信息的范式化大数据进行分析，发掘警情信息的范式化大数据间的关联规律，从而发掘原始警情信息间的关联规律。

进一步地，从警情信息元数据集合中提取警情信息的范式化特征组，包括：

根据警情信息元数据集合的字段名关联结构或关键词关联结构，将范式化模板与警情信息元数据集合进行匹配，得到范式化模板与警情信息元数据集合的匹配度；

根据范式化模板与警情信息元数据集合的匹配度，以及范式化模板的价值估值，确定警情信息的范式化特征，得到警情信息的范式化特征组。

进一步地，所述范式化模板包括若干范式单元，每个范式单元均包括与警情信息元数据集合相同的字段名，每个字段名均具有预设的字段属性值的取值区间，范式单元包括的字段名与警情信息元数据集合中的字段名相对应。

进一步地，将范式单元包括的全部字段名的价值估值累加作为该范式单元的价值估值，所述范式单元的价值估值的表达式：

其中，N表示范式单元具有N个字段名，k表示范式化模板中的第k个范式单元，V_k表示第k个范式单元的价值估值，i表示字段名的序号，l1为常数系数，S_i为第i个字段名的取值区间范围的量化值。

进一步地，根据范式化模板与警情信息元数据集合的匹配度，以及范式化模板的价值估值，确定警情信息的范式化特征，得到警情信息的范式化特征组；其中，范式单元的特征值表达式：

其中，V_k为每个范式单元的价值估值，M_k为范式单元与警情信息元数据集合的匹配度，l2和l3为常数系数；

所述警情信息元数据集合对应于范式化模板的各个范式单元的特征值集合为：

<T₁,T₂,...T_k...>

将各个范式单元的特征值集合作为警情信息元数据集合的范式化特征组。

一种面向警情大数据的深度学习分析系统，包括：

规则树构建模块，用于根据知识挖掘预先构建规则树，规则树包括按逻辑关系关联的字段名和关键词；

信息提取模块，用于从原始警情信息中提取具有字段名关联结构或关键词关联结构的警情信息元数据，并依据规则树的逻辑关系生成警情信息元数据集合；

范式化模板，用于从警情信息元数据集合中提取警情信息的范式化特征组；

信息归集模块，用于将警情信息的范式化特征组归集形成警情信息的范式化大数据；

信息分析模块，用于利用深度学习对警情信息的范式化大数据进行分析，发掘警情信息的范式化大数据间的关联规律，从而发掘原始警情信息间的关联规律。

<T₁,T₂,...T_k...>

相比于现有技术，本发明具有以下优点：

本发明提供的一种面向警情大数据的深度学习分析方法及系统，通过规则树从原始警情信息中提取关联的字段名和关键词并生成警情信息元数据集合，通过范式化模板从警情信息元数据集合中提取警情信息的范式化特征组，从而发掘警情信息的范式化大数据间的关联规律，进而，可以根据所述关联规律提取和分析原始警情信息，实现对警务工作的辅助；本发明不再需要网络传输和汇集警情信息，而是将有关联规律的警情信息的范式化特征组直接网络传输，可以减少大量警情信息直接网络传输，具有可屏蔽警情数据中的关键信息、降低泄露风险、提高警务工作的准确率和效率等优点。

附图说明

图1为本发明实施例一中面向警情大数据的深度学习分析方法的控制流程图；

图2为本发明实施例二中面向警情大数据的深度学习分析系统的系统框图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

实施例一：

参照图1，一种面向警情大数据的深度学习分析方法，包括以下步骤：

根据知识挖掘预先构建规则树，规则树包括按逻辑关系关联的字段名和关键词；具体地，知识挖掘是从和警情信息相关的专业知识中挖掘出字段名和描述关键词，字段名表示该字段所代表的警情数据的类型或者属性，例如嫌疑人、受害人、指纹、DNA、现场位置、勘验物品、移动轨迹、时间、案件过程等，字段属性值表示上述字段名的取值，描述关键词是以关键词标签的形式对字段名进行进一步的扩充描述，例如字段名的同义词、近义词、补充描述、因果描述、递进阐述等；规则树由彼此间按照逻辑关系进行关联的字段名和描述关键词组成，逻辑关系包括并列关系、包含关系、因果关系、递进关系等。

将原始警情信息与规则树进行匹配，从原始警情信息中提取具有字段名关联结构或关键词关联结构的警情信息元数据，并依据规则树的逻辑关系生成警情信息元数据集合；具体地，原始警情信息与规则树的匹配方式包括关键词匹配、字段名匹配、字段名和关键词间逻辑关系匹配等；原始警情信息可能是文本格式，也可能是表单格式，将原始警情信息的文本内容或表单内容与规则树的字段名和描述关键词进行检索比对，从而从原始警情信息中提取出字段名、字段属性值和描述关键词的警情信息元数据；然后，将警情信息元数据参照规则树的逻辑关系进行组织，形成警情信息元数据集合。

将警情信息元数据集合与预设范式化模板进行匹配，从警情信息元数据集合中提取警情信息的范式化特征组，并归集形成警情信息的范式化大数据；具体包括以下步骤：

根据范式化模板与警情信息元数据集合的匹配度，以及范式化模板的价值估值，确定警情信息的范式化特征，得到警情信息的范式化特征组；

其中，预设的范式化模板可以对匹配的警情信息进行价值估值；将警情信息的范式化特征组进行存储、分析、应用以及直接进行网络传输，可以汇聚为警情信息的范式化大数据。

利用深度学习对警情信息的范式化大数据进行分析，发掘警情信息的范式化大数据间的关联规律，从而发掘原始警情信息间的关联规律；进而，可以根据所述关联规律提取和分析原始警情信息，实现对警务工作的辅助。例如，利用聚类算法对警情信息元数据集合的范式特征进行聚类，从而获得同属于一个聚类的警情信息，这些警情信息具有归属于同一类的共同特征；进而，可以根据所述关联规律提取和分析原始警情信息，并根据该聚类警情的共同特征，来辅助警务工作，提高警务工作的准确率和效率。对范式化大数据进行分析的深度学习方法还可以包括神经网络、SVM分类、贝叶斯分析、回归分析等。

众所周知，深度学习是一种机器学习方法，与人类的学习方式区别在于，深度学习并不需要理解大数据中包含的真实信息含义，而是对大数据的数据分布特征进行提取、统计和归类，最终获得大数据蕴含的关联规律。因此，本发明上述面向警情大数据的深度学习分析方法，通过规则树从原始警情信息中提取关联的字段名和关键词并生成警情信息元数据集合，通过范式化模板从警情信息元数据集合中提取警情信息的范式化特征组；警情信息元数据集合中包含具有真实信息含义的警情信息，但提取的范式化特征组则不携带任何真实信息含义，且范式化特征组的数据分布特征与警情信息元数据集合趋于一致，从而，可以以范式化特征组替代警情信息元数据集合，利用深度学习发掘警情信息的范式化大数据间的关联规律。本发明不再需要网络传输和汇集警情信息，而是将有关联规律的警情信息的范式化特征组直接网络传输，可以有效地减少大量警情信息的直接网络传输，屏蔽了警情数据中的关键信息，降低警情信息泄露风险。

具体地，通过范式化模板将原始警情数据转化或映射为警情数据对应的范式数据信息，原始警情数据是带有真实信息含义的，例如，一条警情信息的内容为：2016年2月9日，山东莘县一名青年男子从莘县县城地标式建筑燕塔塔顶坠亡；转化或映射后的范式数据信息不携带任何真实信息含义，但范式数据信息的特征分布和归集的警情信息元数据集合所代表的特征分布相同或相似，可以通过分析范式数据信息间存在的规律，可以找到有相同或相似规律的范式特征，进而找到有相同或相似规律所对应的警情信息。例如，有100条警情信息，先转化或映射得到100条警情信息的范式特征组，其中，有三条警情信息的范式特征组相同或相似，就可以提取出相应的三条警情信息进行直接网络传输，可以有效地减少大量警情信息的直接网络传输，屏蔽了警情数据中的关键信息，降低警情信息泄露风险。

上述面向警情大数据的深度学习分析方法，所述范式化模板包括若干范式单元，每个范式单元均包括与警情信息元数据集合相同的字段名，每个字段名均具有预设的字段属性值的取值区间，范式单元包括的字段名与警情信息元数据集合中的字段名相对应。

上述面向警情大数据的深度学习分析方法，范式单元的字段属性值的取值区间覆盖范围越大，则范式单元中该字段名对应的价值估值越低，反之，范式单元的字段属性值的取值区间覆盖范围越小，则范式单元中该字段名对应的价值估值越高。

上述面向警情大数据的深度学习分析方法，将范式单元包括的全部字段名的价值估值累加作为该范式单元的价值估值，所述范式单元的价值估值的表达式：

上述面向警情大数据的深度学习分析方法，根据范式化模板与警情信息元数据集合的匹配度，以及范式化模板的价值估值，确定警情信息的范式化特征，得到警情信息的范式化特征组。将范式化模板与警情信息元数据集合进行匹配，获得范式化模板的每个范式单元与警情信息元数据集合的匹配度，具体来说，警情信息元数据集合中字段名的字段属性值落入第k个范式单元的同字段名取值区间的次数M_k可以作为该范式单元与警情信息元数据集合的匹配度。根据范式化模板中每个范式单元与警情信息元数据集合的匹配度M_k，以及每个范式单元的价值估值V_k，确定警情信息元数据集合的范式特征，具体来说，警情信息元数据集合对应于第k个范式单元的特征值：

<T₁,T₂,...T_k...>

上述面向警情大数据的深度学习分析方法，通过规则树从原始警情信息中提取关联的字段名和关键词并生成警情信息元数据集合，通过范式化模板从警情信息元数据集合中提取警情信息的范式化特征组，从而发掘警情信息的范式化大数据间的关联规律，进而，可以根据所述关联规律提取和分析原始警情信息，实现对警务工作的辅助；本发明不再需要网络传输和汇集警情信息，而是将有关联规律的警情信息的范式化特征组直接网络传输，解决了警情信息在存储、分析、应用等环节的过度集中和直接网络传输存在泄露风险等问题，可以减少大量警情信息直接网络输，具有可屏蔽警情数据中的关键信息、降低泄露风险、提高警务工作的准确率和效率等优点。

参照图2，一种面向警情大数据的深度学习分析系统，其特性在于，包括：

规则树构建模块，用于根据知识挖掘预先构建规则树，规则树包括按逻辑关系关联的字段名和关键词；具体地，知识挖掘是从和警情信息相关的专业知识中挖掘出字段名和描述关键词，字段名表示该字段所代表的警情数据的类型或者属性，例如嫌疑人、受害人、指纹、DNA、现场位置、勘验物品、移动轨迹、时间、案件过程等，字段属性值表示上述字段名的取值，描述关键词是以关键词标签的形式对字段名进行进一步的扩充描述，例如字段名的同义词、近义词、补充描述、因果描述、递进阐述等；规则树由彼此间按照逻辑关系进行关联的字段名和描述关键词组成，逻辑关系包括并列关系、包含关系、因果关系、递进关系等。

信息提取模块，用于从原始警情信息中提取具有字段名关联结构或关键词关联结构的警情信息元数据，并依据规则树的逻辑关系生成警情信息元数据集合；具体地，原始警情信息与规则树的匹配方式包括关键词匹配、字段名匹配、字段名和关键词间逻辑关系匹配等；原始警情信息可能是文本格式，也可能是表单格式，将原始警情信息的文本内容或表单内容与规则树的字段名和描述关键词进行检索比对，从而从原始警情信息中提取出字段名、字段属性值和描述关键词的警情信息元数据；然后，将警情信息元数据参照规则树的逻辑关系进行组织，形成警情信息元数据集合。

范式化模板，用于从警情信息元数据集合中提取警情信息的范式化特征组；具体包括以下步骤：

其中，预设的范式化模板可以对匹配的警情信息进行价值估值。

信息归集模块，用于将警情信息的范式化特征组归集形成警情信息的范式化大数据；具体地，将警情信息的范式化特征组进行存储、分析、应用以及直接进行网络传输，可以汇聚为警情信息的范式化大数据。

信息分析模块，用于利用深度学习对警情信息的范式化大数据进行分析，发掘警情信息的范式化大数据间的关联规律，从而发掘原始警情信息间的关联规律；进而，可以根据所述关联规律提取和分析原始警情信息，实现对警务工作的辅助。例如，利用聚类算法对警情信息元数据集合的范式特征进行聚类，从而获得同属于一个聚类的警情信息，这些警情信息具有归属于同一类的共同特征；进而，可以根据所述关联规律提取和分析原始警情信息，并根据该聚类警情的共同特征，来辅助警务工作，提高警务工作的准确率和效率。对范式化大数据进行分析的深度学习方法还可以包括神经网络、SVM分类、贝叶斯分析、回归分析等。

上述面向警情大数据的深度学习分析系统，所述范式化模板包括若干范式单元，每个范式单元均包括与警情信息元数据集合相同的字段名，每个字段名均具有预设的字段属性值的取值区间，范式单元包括的字段名与警情信息元数据集合中的字段名相对应。

上述面向警情大数据的深度学习分析系统，范式单元的字段属性值的取值区间覆盖范围越大，则范式单元中该字段名对应的价值估值越低，反之，范式单元的字段属性值的取值区间覆盖范围越小，则范式单元中该字段名对应的价值估值越高。

上述面向警情大数据的深度学习分析系统，将范式单元包括的全部字段名的价值估值累加作为该范式单元的价值估值，所述范式单元的价值估值的表达式：

上述面向警情大数据的深度学习分析系统，根据范式化模板与警情信息元数据集合的匹配度，以及范式化模板的价值估值，确定警情信息的范式化特征，得到警情信息的范式化特征组。将范式化模板与警情信息元数据集合进行匹配，获得范式化模板的每个范式单元与警情信息元数据集合的匹配度，具体来说，警情信息元数据集合中字段名的字段属性值落入第k个范式单元的同字段名取值区间的次数M_k可以作为该范式单元与警情信息元数据集合的匹配度。根据范式化模板中每个范式单元与警情信息元数据集合的匹配度M_k，以及每个范式单元的价值估值V_k，确定警情信息元数据集合的范式特征，具体来说，警情信息元数据集合对应于第k个范式单元的特征值：

<T₁,T₂,...T_k...>

上述面向警情大数据的深度学习分析系统，通过规则树从原始警情信息中提取关联的字段名和关键词并生成警情信息元数据集合，通过范式化模板从警情信息元数据集合中提取警情信息的范式化特征组，从而发掘警情信息的范式化大数据间的关联规律，进而，可以根据所述关联规律提取和分析原始警情信息，实现对警务工作的辅助；本发明不再需要网络传输和汇集警情信息，而是将有关联规律的警情信息的范式化特征组直接网络传输，解决了警情信息在存储、分析、应用等环节的过度集中和直接网络传输存在泄露风险等问题，可以减少大量警情信息直接网络输，具有可屏蔽警情数据中的关键信息、降低泄露风险、提高警务工作的准确率和效率等优点。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的保护范围当中。

Claims

1.一种面向警情大数据的深度学习分析方法，其特性在于，包括以下步骤：

利用深度学习对警情信息的范式化大数据进行分析，发掘警情信息的范式化大数据间的关联规律，从而发掘原始警情信息间的关联规律；

所述范式化模板包括若干范式单元，每个范式单元均包括与警情信息元数据集合相同的字段名；将范式单元包括的全部字段名的价值估值累加作为该范式单元的价值估值，所述范式单元的价值估值的表达式：

2.根据权利要求1所述的深度学习分析方法，其特性在于，从警情信息元数据集合中提取警情信息的范式化特征组，包括：

3.根据权利要求2所述的深度学习分析方法，其特性在于，所述范式单元包括的字段名均具有预设的字段属性值的取值区间，范式单元包括的字段名与警情信息元数据集合中的字段名相对应。

4.根据权利要求2所述的深度学习分析方法，其特性在于，根据范式化模板与警情信息元数据集合的匹配度，以及范式化模板的价值估值，确定警情信息的范式化特征，得到警情信息的范式化特征组；其中，范式单元的特征值表达式：

<T₁,T₂,...T_k...>

5.一种面向警情大数据的深度学习分析系统，其特性在于，包括：

信息分析模块，用于利用深度学习对警情信息的范式化大数据进行分析，发掘警情信息的范式化大数据间的关联规律，从而发掘原始警情信息间的关联规律；

6.根据权利要求5所述的深度学习分析系统，其特性在于，从警情信息元数据集合中提取警情信息的范式化特征组，包括：

7.根据权利要求6所述的深度学习分析系统，其特性在于，所述范式单元包括的字段名均具有预设的字段属性值的取值区间，范式单元包括的字段名与警情信息元数据集合中的字段名相对应。

8.根据权利要求6所述的深度学习分析系统，其特性在于，根据范式化模板与警情信息元数据集合的匹配度，以及范式化模板的价值估值，确定警情信息的范式化特征，得到警情信息的范式化特征组；其中，范式单元的特征值表达式：

<T₁,T₂,...T_k...>