CN116384889A - 基于自然语言处理技术的情报大数据智能分析方法 - Google Patents
基于自然语言处理技术的情报大数据智能分析方法 Download PDFInfo
- Publication number
- CN116384889A CN116384889A CN202211485664.2A CN202211485664A CN116384889A CN 116384889 A CN116384889 A CN 116384889A CN 202211485664 A CN202211485664 A CN 202211485664A CN 116384889 A CN116384889 A CN 116384889A
- Authority
- CN
- China
- Prior art keywords
- personnel
- module
- document
- data
- management
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 96
- 238000005516 engineering process Methods 0.000 title claims abstract description 25
- 238000003058 natural language processing Methods 0.000 title claims abstract description 22
- 238000007726 management method Methods 0.000 claims abstract description 162
- 238000002372 labelling Methods 0.000 claims abstract description 13
- 238000012360 testing method Methods 0.000 claims description 39
- 238000011160 research Methods 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 21
- 238000004140 cleaning Methods 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 17
- 230000008859 change Effects 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 230000001105 regulatory effect Effects 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000012550 audit Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000007418 data mining Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims 1
- 230000001360 synchronised effect Effects 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 5
- 238000012545 processing Methods 0.000 abstract description 3
- 238000005520 cutting process Methods 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 description 7
- 230000008676 import Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013523 data management Methods 0.000 description 4
- 238000012098 association analyses Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 231100000279 safety data Toxicity 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 235000011888 snacks Nutrition 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Abstract
本发明公开了基于自然语言处理技术的情报大数据智能分析方法,包括文档批量导入模块、数据统计概览模块、文档自动分析模块、人员库信息管理模块、任务管理模块、分级研判模块、标签管理模块、定制模块和关系数据标注模块。本发明对情报大数据的存量文档进行导入、分析、切词处理,提取出每一篇文档中的涉及领域、人员基本信息、关键词进行提取,将领域‑文档‑人员有效关联,精细化挖掘人员关系,形成目标人员情报资源库,对目标人员形成管控,深度挖掘文档的中的数据价值,围绕领域‑文档‑人员‑人员关系、人员‑文档‑领域两个办案方向,为实战提供有效的帮助。
Description
技术领域
本发明涉及大数据分析技术领域,具体为基于自然语言处理技术的情报大数据智能分析方法。
背景技术
目前,人工智能已成为继云计算、物联网、大数据技术之后IT产业又一次巅峰性的技术变革,对国家治理、企业决策、个人生活方式都产生了巨大的影响。人工智能在很多领域得到了很好的应用,如银行、电信、保险、交通、零食,但在情报大数据分析中的应用还处于起步阶段,基于人工智能技术的情报分析是指在公共安全领域数据集中和整合的基础上,通过各种挖掘、分析模型帮助,发现数据的内在规律、信息情报。总而言之,将人工智能用于公共安全数据,对于提供公共安全数据管理和利用具有重要意义。
随着大数据的发展,部门的信息化、智能化建设进程也不断加快。在云计算、大数据、深度学习技术飞速提升的背景下,自然语言处理(NLP)的运用越来越广泛,特别是在业务信息系统中积累了海量的业务信息,除了规范化程度很强的结构化数据库数据外,还有大量的案件叙述性文本描述,其中数据格式比较多样,有doc、docx、txt、pdf,该批数据蕴含极大的利用价值。运用自然语言处理技术对文档数据进行识别,提取关键词,对结构化的数据加以规整和应用,能给部门的实战提供极大的帮助。
现阶段,情报人员在分析海量的文本情报时往往依赖人力手动完成,耗时长、效率低。在对存量数据的规整和增量数据的应用中,有几个痛点:
1、数据未经结构化,利用效率不高。当前积累的文档数据数量大,因为没有经过结构化,需要人工手动对数据进行清洗和价值挖掘,无法直接运用于大数据分析和宏观的态势感知。
2、早期对于文档的管理不完善,部分资料未经分类,在规整时需要人工根据文档内容进行分类,并且,人工手动分类需要的人力极大,工作效率低下。
3、文档存量大,每年又以一定的量级新增,现有的系统不具备对文档数据进行分析的能力,需要依靠人工去进行文档梳理、人员关系梳理等工作,运用人工进行串并和关系分析,由于人的记忆力容量有限,存在一定的困难,为此,我们提出一种基于自然语言处理技术的情报大数据智能分析方法。
发明内容
本发明的目的在于提供基于自然语言处理技术的情报大数据智能分析方法,以解决背景技术中解决的问题。
为实现上述目的,本发明提供如下技术方案:基于自然语言处理技术的情报大数据智能分析方法,包括文档批量导入模块、数据统计概览模块、文档自动分析模块、人员库信息管理模块、任务管理模块、分级研判模块、标签管理模块、定制模块和关系数据标注模块;
A1:文档批量导入模块:所述文档批量导入模块用于将需要处理的文档以及文件夹进行大批量导入;
A2:数据统计概览模块:所述数据统计概览模块用于对导入的文档进行基础数据统计和多维关联统计;
A3:文档自动分析模块:所述文档自动分析模块在文件夹以及文档导入完成之后,用于对文档进行自动分析或自定义分析,所述自动分析将文档分发至相应的领域内部进行分类,所述自定义分析是指文档会根据自定义涉及的领域进行分类;
所述文档自动分析模块对解析后的文档进行规整管理,所述解析后的文档通过列表的方式进行展示;
A4:人员库信息管理模块:所述人员库信息管理模块用于对上传文档和文件夹中进行人员信息提取,并形成多维度人员列表;
A5:任务管理模块:所述任务管理模块用于文档中解析后的人员按照业务领域分发至相应的部门或者个人,并由部门或个人对人员进行分级分类,并将文档标记相应标签;
A6:任务审核模块:所述任务审核模块用于对业务大队负责人对研判结果进行审核,审核完成过后的数据进行流转,而人员的统计情况可以进行导出,并生成自定义导出的存储位置,并生成xlsx格式文件;
A7:分级研判模块:所述分级研判模块是对人员信息数据根据时间段、频次区间和人员数三者之间的对应关系,挖掘数据深层次的变化趋势;
其中人员信息数据统计有两个维度,按频次均等统计和按人数均等统计,按频次均等统计是根据最大和最小值,划分好频次间,统计所选领域时间内每个区间出现的人数;按人数均等统计是根据总人数,平均分为多组,统计每组所在的频次区间,筛选项有文档导入时间;
而分级研判的图表可导出成报告文档形式,通过选择点击统计图表中的各个区组可以展开该组的数据详情,其中该组的数据详情包括组成数据的人员姓名、证件号、来源文档标题、提交时间,随后将人员、文档、频次和时间四个关键要素进行相互关联,以深度分析研判当前的趋势变化和具体的变化细节;
A8:标签管理模块:所述标签管理模块用于对系统标签进行管理,应用于人员研判中,所述标签管理模块还包括:
标签分级:所述标签分级支持五级标签,每级标签相应建立子标签,一级标签下新建子标签,则该标签为二级标签;
标签新增:对标签进行新增,一级标签直接新增,其他层级的标签新增通过点击该级标签后的加号新增,而在有多级标签的情况下,默认只展示一级标签;
标签代码:标签引入对应代码管理机制,创建标签时根据其层级管理自动生成标签代码,对应标签名称,导出数据时可选择以对应代码的形式导出人员的标签信息,确保数据的安全保密性;
标签的编辑、修改和删除:各级标签编辑和修改操作方式为点击标签后的编辑图标,删除标签方式为点击标签后的删除图标,当该标签有子级标签时,不支持删除;
标签管理与人员分级连通:标签增删和修改后,需要同步到人员分级流程中,保持系统数据的一致性,而在标签管理中删除了其中一个标签,在人员研判的标签选项里,则无该标签可选;
A9:定制模块:所述定制模块还包括现场数据清洗,所述数据清洗需要对数据进行清洗和标注,分类数据集整理、清洗、测试,对分类数据集进行整理和测试,保证数据的规范性和准确性;
通用实体数据集整理、清洗、测试:根据文档,划分出通用实体并进行整理清洗,对通用实体进行标注、训练、调优,提高用户实体的解析和识别的准确率;
专业领域实体数据集建设、测试:根据文档,划分出专业领域并进行整理清洗,对专业领域关键词进行标注、训练,调优,提高用户实体的解析和识别的准确率;
专业领域关键词数据集建设:根据文档,划分出专业领域关键词并进行整理清洗,对专业领域关键词进行标注、训练,调优,提高用户实体的解析和识别的准确率;
领域实体定制:根据新增的领域实体,进行定制化训练,补充进领域实体库,丰富领域实体,训练后根据测试集结果进行调优,提高用户实体的解析和识别的准确率;
A10:关系数据标注模块:所述关系数据标注模块用于对需要标注现场的关系数据,进行定制化模型开发。
优选的,所述文档批量导入模块还包括文档导入模块、数据预处理模块、算法解析模块、智能分析模块以及自定义领域模块;
所述文档导入模块用于将所需统计文档进行数据输入,所述文档数据导入可以通过文件夹方式进行导入或者单个文件进行导入;
所述数据预处理模块对导入的文档数据进行处理,将导入文档进行去修订以及格式转换;
所述算法解析功能对预处理之后的文档进行解析;
所述智能分析模块对解析完成后的文档涉及的领域进行智能分析,智能分析后将文档归类至相应的领域内;
所述自定义分析模块对文档设置领域进行分析。
优选的,所述数据统计概览模块还包括统计导入到系统的文档数量;
从导入的文档中提取的人员数量;
统计导入文档涉及的领域数;
统计导入文档中提取的有效证件数,所述统计的有效证件数种类包括包括身份证、往来港澳通行证、回乡证;
统计并导入提取的手机号码数量;
统计人员,所述统计人员中根据地域分布,并根据不同的数量区间利用不同的颜色标记将统计人员的户籍地以及居住地在地图上进行展示;
统计文档涉及领域分布,统计出每个领域下文档的数量,并以柱状图的形式进行展示,
统计人员涉及领域分布,统计出每个领域下人员的数量,并与柱状图的形式进行展示;
统计文档导入至系统的数量;统计的文档导入至系统的数量通过折线图的形式进行展示,并通过可视化图表反应所筛选时间以来文档导入到系统的趋势,
关键词统计频率:以饼状图形展示,通过可视化图表可以反映所筛选时间以来文档中关键词出现的频率,提供文档分析的依据。
优选的,所述文档自动分析模块还包括文档-人员信息管理模块、实体管理模块和关键词管理模块;
所述文档-人员信息管理模块对解析后的文档进行规整管理,展示每篇文档出现的人员信息,所述出现的人员信息包括身份证号、姓名、性别、民族、手机号码、户籍地、居住地,从而形成文档与人员之间的互通关系,从而可以通过相应的文档跳转至相应人员的的详情页面;
所述实体管理模块对文档涉及的领域进行识别并在文档中标注展示,从而可以筛选具体的关键词或实体,从而在相应的文档中高亮标注展示;
所述关键词管理模块可以对文档中出现的关键词进行识别并在文档中标注展示,并且可以筛选到相应的具体关键词,并在文档中高亮标注展示。
优选的,所述人员库信息管理模块还包括人员信息聚类模块、人员管理模块、人员搜索模块、人员详情查看模块和人员分析模块;
所述人员信息聚类模块可以对导入的文档中出现的人员,按照人员维度进行聚类,整合人员基本信息,从而可以对人员进行管理;
所述人员管理模块以列表的形式展示从文档中提取成功的人员信息,列表中展示的字段包括人员的基本信息,其中人员基本信息包括姓名、身份证号、性别、民族、手机号、户籍地、居住地,而人员基本信息管理包括:姓名管理、性别管理、身份证号管理、民族管理、手机号码管理、户籍地管理、居住地管理、涉及领域管理、微信号管理、QQ号管理、微博管理、邮箱管理、银行卡号管理、往来港澳通行证管理、大陆居民往来台湾通行证管理、护照号管理、绰号管理、文化程度管理、政治面貌管理、英文名管理、职业管理;
所述人员搜索模块可通过单一字段和多个字段进行文档搜索,其中单一字段包括姓名、性别、身份证号、民族、手机号码、涉及领域、导入时间,其中多个搜索字段为多个单一字段进行组合的方式进行搜索,其中多个字段为单一字段之间组合的“或”关系和“且”关系;
所述人员详情查看模块可以对人员的详情进行查看,其中可查看的人员详情包括人员基本信息、相应的亲属信息和社会信息,
人员分析模块:对人员涉及领域、文档数、同文档出现的人员进行统计分析目标人员管理及分析。
所述任务管理模块还包括
A51:任务建立模块:所述任务建立模块根据文档归属的领域大队,将文档结构化后解析出的人员,以人员维度生成一个任务,其生成的任务中包含该人员涉及到的文档,并将相应的文档分发至具体负责该领域的部门;
A52:任务分发模块:所述任务分发模块对待处理的任务数量进行标记,并将相应的文档人员分发至相应的业务大队,由业务部门负责人选择具体操作人员后下发,并由操作人员来完成研判,研判后需要由业务部门负责人进行二次审核;
A53:人员研判模块:所述人员研判模块用于对分发的文档人员进行研判,确认是否为自己业务大队的人员,对确认为自己业务大队的人员打上标签,所述标签支持选择复数标签标记,使各个部门同时进行分析,对于研判为非本大队领域的人员,需要填写研判理由,提交给业务大队负责人审核并进行重新分发;
A54:人员分级分类模块:所述人员分级分类模块根据人员的文档数、近N年的出现频率、参与时间的严重性具体情况,并根据上述情况对人员进行标记,并对其进行分级分类,而标记之后的人员需要经过业务大队负责人审核之后流转至任务管理模块内并对其进行纪录。
优选的,所述A5步骤中业务领域划分为多个领域。
优选的,所述A53步骤中管控人员标签为部门管控人员自定义标签,并将标签进行集中分类整理。
优选的,所述A3步骤中列表展示的字段包括文档名、文档标题、涉及人员、涉及领域、关键词以及导入时间,所述文档库管理模块具有搜索功能,所述搜索功能搜索可通过单一字段和多个字段进行文档搜索,其中单一字段包括文档名、文档标题、涉及人员、涉及领域、关键词以及导入时间,其中多个搜索字段为多个单一字段进行组合的方式进行搜索,其中多个字段为单一字段之间组合的“或”关系和“且”关系。
优选的,所述A7步骤中所述数据深层次的变化趋势为:主动关注各类情报的趋势并能及时发现异常变化,在第一时间采取针对性措施,做到全面监控,及时预警,采用时间序列数据挖掘算法,通过对某特定区域一定时期的历史案发情况进行分析,发现某些潜在的模式或规律,并利用这些模式或规律预测未来一段时间该区域的案发趋势。
优选的,所述关系数据标注模块还包括:
通用关系规整、标注:对通用的关系进行规整,比如相对应人员其父母、子女、兄弟姐妹,通过人工和脚本手段,从现场数据中找到含有此类关系的文档及内容描述,对现场收集的通用关系段落,运用人工手动标注出含有关系的关键词、描述方式,汇总到标注工具系统,形成训练集和测试集;
通用关系模型建设及调参:根据标注后的数据进行模型构建,运用测试集评测模型的准确率和性能,根据测试反馈的请况,针对问题进行调参优化,不断提高识别的准确率;
指代关系规整、标注:对指代型关系进行规整,比如相对应人员其子女,兄弟、共同的上级,通过人工和脚本遍历现场文档数据,从现场中找到含有此类关系的文档及内容描述,对现场收集的指代关系段落,运用人工手动标注出含关系的关键词、描述方式,汇总到标注工具系统,形成训练集和测试集;
指代关系模型建设及调参:根据标注后的数据进行模型构建,运用测试集评测模型的准确率和性能,根据测试反馈的请况,针对问题进行调参优化,不断提高识别的准确率,
多人物特殊关系规整、标注:对多人物特殊关系进行规则,当一篇文档同时有多人以上出现,互相之间存在关系关联;多个人员在多篇文档里同时出现,并有关系描述关联,通过人工和脚本手段,从现场数据中找到含有此类关系的文档及内容描述,对现场收集的多任务特殊关系段落,运用人工手动标注出含有关系的关键词、描述方式,汇总到标注工具系统,形成训练集和测试集;
多人物特殊关系模型建设及调参:根据标注后的数据进行模型构建,运用测试集评测模型的准确率和性能,根据测试反馈的请况,针对问题进行调参优化,不断提高识别的准确率。
与现有技术相比,本发明具有以下有益效果:
1、本发明对情报大数据的存量文档进行导入、分析、切词处理,提取出每一篇文档中的涉及领域、人员基本信息、关键词进行提取,将领域-文档-人员有效关联,精细化挖掘人员关系,形成目标人员情报资源库,对目标人员形成管控,深度挖掘文档的中的数据价值,围绕领域-文档-人员-人员关系、人员-文档-领域两个办案方向,为实战提供有效的帮助。
2、而基于自然语言处理技术的文本挖掘,一方面可以对已经提取的情报文本要素进行关键字检索;另一方面通过计算情报文本之间的相似度来搜索相似或关联的情报,达到“以案搜人”、“以人搜案”、“以人搜人”、“以案搜案”等效果,有利于业务人员快速定位有用的案情,提升快速响应能力与作战能力。
3、并且基于自然语言处理技术,应用对案件卷宗、审讯笔录、简要案情等情报文本信息进行文本分析挖掘,高效抽取文本要素,情报文本,经过要素智能抽取后,与其他的情报数据进行融合,如人员信息、道路卡口、车辆轨迹等信息,可提升非结构化数据的应用,增强情报信息维度,支撑情报综合分析与研判。
附图说明
图1为本发明系统原理示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
请参阅图1,本发明提供一种技术方案:基于自然语言处理技术的情报大数据智能分析方法,包括文档批量导入模块、数据统计概览模块、文档自动分析模块、人员库信息管理模块、任务管理模块、分级研判模块、标签管理模块、定制模块和关系数据标注模块;
A1:文档批量导入模块:所述文档批量导入模块用于将需要处理的文档以及文件夹进行大批量导入;
A2:数据统计概览模块:所述数据统计概览模块用于对导入的文档进行基础数据统计和多维关联统计;
A3:文档自动分析模块:所述文档自动分析模块在文件夹以及文档导入完成之后,用于对文档进行自动分析或自定义分析,所述自动分析将文档分发至相应的领域内部进行分类,所述自定义分析是指文档会根据自定义涉及的领域进行分类;
所述文档自动分析模块对解析后的文档进行规整管理,所述解析后的文档通过列表的方式进行展示;
A4:人员库信息管理模块:所述人员库信息管理模块用于对上传文档和文件夹中进行人员信息提取,并形成多维度人员列表;
A5:任务管理模块:所述任务管理模块用于文档中解析后的人员按照业务领域分发至相应的部门或者个人,并由部门或个人对人员进行分级分类,并将文档标记相应标签;
所述任务管理模块还包括
A51:任务建立模块:所述任务建立模块根据文档归属的领域大队,将文档结构化后解析出的人员,以人员维度生成一个任务,其生成的任务中包含该人员涉及到的文档,并将相应的文档分发至具体负责该领域的部门;
A52:任务分发模块:所述任务分发模块对待处理的任务数量进行标记,并将相应的文档人员分发至相应的业务大队,由业务部门负责人选择具体操作人员后下发,并由操作人员来完成研判,研判后需要由业务部门负责人进行二次审核;
A53:人员研判模块:所述人员研判模块用于对分发的文档人员进行研判,确认是否为自己业务大队的人员,对确认为自己业务大队的人员打上标签,所述标签支持选择复数标签标记,使各个部门同时进行分析,对于研判为非本大队领域的人员,需要填写研判理由,提交给业务大队负责人审核并进行重新分发;
A54:人员分级分类模块:所述人员分级分类模块根据人员的文档数、近N年的出现频率、参与时间的严重性具体情况,并根据上述情况对人员进行标记,并对其进行分级分类,而标记之后的人员需要经过业务大队负责人审核之后流转至任务管理模块内并对其进行纪录;
A6:任务审核模块:所述任务审核模块用于对业务大队负责人对研判结果进行审核,审核完成过后的数据进行流转,而人员的统计情况可以进行导出,并生成自定义导出的存储位置,并生成xlsx格式文件;
A7:分级研判模块:所述分级研判模块是对人员信息数据根据时间段、频次区间和人员数三者之间的对应关系,挖掘数据深层次的变化趋势;
其中人员信息数据统计有两个维度,按频次均等统计和按人数均等统计,按频次均等统计是根据最大和最小值,划分好频次间,统计所选领域时间内每个区间出现的人数;按人数均等统计是根据总人数,平均分为多组,统计每组所在的频次区间,筛选项有文档导入时间;
而分级研判的图表可导出成报告文档形式,通过选择点击统计图表中的各个区组可以展开该组的数据详情,其中该组的数据详情包括组成数据的人员姓名、证件号、来源文档标题、提交时间,随后将人员、文档、频次和时间四个关键要素进行相互关联,以深度分析研判当前的趋势变化和具体的变化细节;
A8:标签管理模块:所述标签管理模块用于对系统标签进行管理,应用于人员研判中,所述标签管理模块还包括:
标签分级:所述标签分级支持五级标签,每级标签相应建立子标签,一级标签下新建子标签,则该标签为二级标签;
标签新增:对标签进行新增,一级标签直接新增,其他层级的标签新增通过点击该级标签后的加号新增,而在有多级标签的情况下,默认只展示一级标签;
标签代码:标签引入对应代码管理机制,创建标签时根据其层级管理自动生成标签代码,对应标签名称,导出数据时可选择以对应代码的形式导出人员的标签信息,确保数据的安全保密性;
标签的编辑、修改和删除:各级标签编辑和修改操作方式为点击标签后的编辑图标,删除标签方式为点击标签后的删除图标,当该标签有子级标签时,不支持删除;
标签管理与人员分级连通:标签增删和修改后,需要同步到人员分级流程中,保持系统数据的一致性,而在标签管理中删除了其中一个标签,在人员研判的标签选项里,则无该标签可选;
A9:定制模块:所述定制模块还包括现场数据清洗,所述数据清洗需要对数据进行清洗和标注,分类数据集整理、清洗、测试,对分类数据集进行整理和测试,保证数据的规范性和准确性;
通用实体数据集整理、清洗、测试:根据文档,划分出通用实体并进行整理清洗,对通用实体进行标注、训练、调优,提高用户实体的解析和识别的准确率;
专业领域实体数据集建设、测试:根据文档,划分出专业领域并进行整理清洗,对专业领域关键词进行标注、训练,调优,提高用户实体的解析和识别的准确率;
专业领域关键词数据集建设:根据文档,划分出专业领域关键词并进行整理清洗,对专业领域关键词进行标注、训练,调优,提高用户实体的解析和识别的准确率;
领域实体定制:根据新增的领域实体,进行定制化训练,补充进领域实体库,丰富领域实体,训练后根据测试集结果进行调优,提高用户实体的解析和识别的准确率;
A10:关系数据标注模块:所述关系数据标注模块用于对需要标注现场的关系数据,进行定制化模型开发。
所述文档批量导入模块还包括文档导入模块、数据预处理模块、算法解析模块、智能分析模块以及自定义领域模块;
所述文档导入模块用于将所需统计文档进行数据输入,所述文档数据导入可以通过文件夹方式进行导入或者单个文件进行导入,其中导入的文档格式包括docx、txt、PDF文本格式,这样多种文本形式的导入方式也使整个系统适用性更强;
所述数据预处理模块对导入的文档数据进行处理,将导入文档进行去修订以及格式转换;
所述算法解析功能对预处理之后的文档进行解析;
所述智能分析模块对解析完成后的文档涉及的领域进行智能分析,智能分析后将文档归类至相应的领域内;
所述自定义分析模块对文档设置领域进行分析。
其中,算法解析功能对预处理之后的文档进行命名实体识别、关键词提取、句法分析、文本摘要、篇章分析与推理,完成信息抽取工作。
使用的深度学习算法包括:神经网络、循环神经网络、递归神经网络、卷积神经网络。
而提取出每一篇文档中的涉及领域、人员基本信息、关键词进行提取,这样的设置可以将领域-文档-人员有效关联,精细化挖掘人员关系,形成目标人员情报资源库,对目标人员形成管控,深度挖掘文档的中的数据价值。
所述数据统计概览模块还包括统计导入到系统的文档数量;
从导入的文档中提取的人员数量;
统计导入文档涉及的领域数;
统计导入文档中提取的有效证件数,所述统计的有效证件数种类包括包括身份证、往来港澳通行证、回乡证;
统计并导入提取的手机号码数量;
统计人员,所述统计人员中根据地域分布,并根据不同的数量区间利用不同的颜色标记将统计人员的户籍地以及居住地在地图上进行展示;所述统计人员中统计各领域出现频率最高的人员,可以对一级领域和二级领域进行筛选,以柱状图形式展示,并关联各人员的基本信息,包括人员姓名、性别、身份证号、出现在该领域的次数,可以按文档导入的时间进行筛选,筛选范围为近一周、近一月、近一年、累计时间;统计跨领域文档数最多的人员,可以对一级领域进行筛选,以柱状图形式展示,并关联各人员的基本信息,包括人员姓名、性别、身份证号、跨领域的文档数,可以按文档导入的时间进行筛选,筛选范围为近一周、近一月、近一年、累计时间;
统计文档涉及领域分布,统计出每个领域下文档的数量,并以柱状图的形式进行展示,
统计人员涉及领域分布,统计出每个领域下人员的数量,并与柱状图的形式进行展示;
统计文档导入至系统的数量;统计的文档导入至系统的数量通过折线图的形式进行展示,并通过可视化图表反应所筛选时间以来文档导入到系统的趋势,
关键词统计频率:以饼状图形展示,通过可视化图表可以反映所筛选时间以来文档中关键词出现的频率,提供文档分析的依据。
所述文档自动分析模块还包括文档-人员信息管理模块、实体管理模块和关键词管理模块;
所述文档-人员信息管理模块对解析后的文档进行规整管理,展示每篇文档出现的人员信息,所述出现的人员信息包括身份证号、姓名、性别、民族、手机号码、户籍地、居住地,从而形成文档与人员之间的互通关系,从而可以通过相应的文档跳转至相应人员的的详情页面;
所述实体管理模块对文档涉及的领域进行识别并在文档中标注展示,从而可以筛选具体的关键词或实体,从而在相应的文档中高亮标注展示;
所述关键词管理模块可以对文档中出现的关键词进行识别并在文档中标注展示,并且可以筛选到相应的具体关键词,并在文档中高亮标注展示。
其中,文档中的高亮标注可以可以对关键词进行突出显示,这样的设置可以在对文档以及人员搜索的时候快速及时的找到相应的文档以及涉及领域。
所述人员库信息管理模块还包括人员信息聚类模块、人员管理模块、人员搜索模块、人员详情查看模块和人员分析模块;
所述人员信息聚类模块可以对导入的文档中出现的人员,按照人员维度进行聚类,整合人员基本信息,从而可以对人员进行管理;
所述人员管理模块以列表的形式展示从文档中提取成功的人员信息,列表中展示的字段包括人员的基本信息,其中人员基本信息包括姓名、身份证号、性别、民族、手机号、户籍地、居住地,而人员基本信息管理包括:姓名管理、性别管理、身份证号管理、民族管理、手机号码管理、户籍地管理、居住地管理、涉及领域管理、微信号管理、QQ号管理、微博管理、邮箱管理、银行卡号管理、往来港澳通行证管理、大陆居民往来台湾通行证管理、护照号管理、绰号管理、文化程度管理、政治面貌管理、英文名管理、职业管理;
所述人员搜索模块可通过单一字段和多个字段进行文档搜索,其中单一字段包括姓名、性别、身份证号、民族、手机号码、涉及领域、导入时间,其中多个搜索字段为多个单一字段进行组合的方式进行搜索,其中多个字段为单一字段之间组合的“或”关系和“且”关系;
其中,这样的单一字段组合的搜索方式可以使操作者更加快速的对相应文档进行定位,并且文档定位更加准确。
所述人员详情查看模块可以对人员的详情进行查看,其中可查看的人员详情包括人员基本信息、相应的亲属信息和社会信息,
人员分析模块:对人员涉及领域、文档数、同文档出现的人员进行统计分析目标人员管理及分析。
所述A5步骤中业务领域划分为多个领域,多个业务领域的划分可以将相应的人员分类至相应的业务领域内部,可以使人员文档涉及的领域更加准确。
所述A53步骤中管控人员标签为部门管控人员自定义标签,并将标签进行集中分类整理。
所述A3步骤中列表展示的字段包括文档名、文档标题、涉及人员、涉及领域、关键词以及导入时间,所述文档库管理模块具有搜索功能,所述搜索功能搜索可通过单一字段和多个字段进行文档搜索,其中单一字段包括文档名、文档标题、涉及人员、涉及领域、关键词以及导入时间,其中多个搜索字段为多个单一字段进行组合的方式进行搜索,其中多个字段为单一字段之间组合的“或”关系和“且”关系。
所述A7步骤中所述数据深层次的变化趋势为:主动关注各类情报的趋势并能及时发现异常变化,在第一时间采取针对性措施,做到全面监控,及时预警,采用时间序列数据挖掘算法,通过对某特定区域一定时期的历史案发情况进行分析,发现某些潜在的模式或规律,并利用这些模式或规律预测未来一段时间该区域的案发趋势。
所述关系数据标注模块还包括:
通用关系规整、标注:对通用的关系进行规整,比如相对应人员其父母、子女、兄弟姐妹,通过人工和脚本手段,从现场数据中找到含有此类关系的文档及内容描述,对现场收集的通用关系段落,运用人工手动标注出含有关系的关键词、描述方式,汇总到标注工具系统,形成训练集和测试集;
通用关系模型建设及调参:根据标注后的数据进行模型构建,运用测试集评测模型的准确率和性能,根据测试反馈的请况,针对问题进行调参优化,不断提高识别的准确率;
指代关系规整、标注:对指代型关系进行规整,比如相对应人员其子女,兄弟、共同的上级,通过人工和脚本遍历现场文档数据,从现场中找到含有此类关系的文档及内容描述,对现场收集的指代关系段落,运用人工手动标注出含关系的关键词、描述方式,汇总到标注工具系统,形成训练集和测试集;
指代关系模型建设及调参:根据标注后的数据进行模型构建,运用测试集评测模型的准确率和性能,根据测试反馈的请况,针对问题进行调参优化,不断提高识别的准确率,
多人物特殊关系规整、标注:对多人物特殊关系进行规则,当一篇文档同时有多人以上出现,互相之间存在关系关联;多个人员在多篇文档里同时出现,并有关系描述关联,通过人工和脚本手段,从现场数据中找到含有此类关系的文档及内容描述,对现场收集的多任务特殊关系段落,运用人工手动标注出含有关系的关键词、描述方式,汇总到标注工具系统,形成训练集和测试集;
多人物特殊关系模型建设及调参:根据标注后的数据进行模型构建,运用测试集评测模型的准确率和性能,根据测试反馈的请况,针对问题进行调参优化,不断提高识别的准确率。
实施例二:
在信息建立的过程中,一个必要环节是对相关人员做调查,调查中包含着使用者需要的各种各样的信息,比如案件相关人员的身份信息、家庭信息、社会信息以及工具、地点、时间等,这些信息对使用者将案件做串并案处理起到很大的辅助作用,随后将笔录采集到的数据信息利用计算机技术对笔录信息自动抽取,依据对笔录内容做实体识别和信息提取的需求,完成了询问笔录管理系统中实体识别模块和基于规则模板方法与神经网络的设计,其中五个基于规则的模板法分别是人名实体识别、地名实体识别、时间实体识别、车辆实体识别,并提取偷盗类案件信息、财产损失类案件信息,神经网络方法由BILSTM与CRF所组成,可以对人名实体识别、地名实体、时间实体、车辆实体进行命名实体识别,系统设计了笔录数据管理模块、案件数据管理模块、用户管理模块、实体抽取模型管理模块、超级搜索模块、比对分析模块。
使用时,用户在笔录数据管理模块和案件数据管理模块中分别导入笔录数据和案件数据,将目标数据的导入和存储;而系统中可以将多组历史数据进行数据分析以及数据提取,并且可以将相应的文档数据分发至不同的领域内部,并通过文档归属的领域大队,将文档结构化后解析出的人员,以人员维度生成一个任务,随后研判人员可以为人员打上相应的标签;
随后用户启动整个系统进行智能分析,系统自动提取笔录数据中的人名、地名等实体信息,并在页面中进行展示,系统自动抽取案件数据中的人名、地名等信息,并在页面中进行展示;
随后系统自动将笔录实体提取结果和案件实体信息进行关联分析,判断该人员是否涉及其他历史案件,判断该人员是否关联历史案件相关要素;
最后系统将关联分析结果以可视化形式进行展示,并支持实体抽取结果、关联分析结果以EXCEL或者DOC文档的形式进行导出。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.基于自然语言处理技术的情报大数据智能分析方法,其特征在于:包括文档批量导入模块、数据统计概览模块、文档自动分析模块、人员库信息管理模块、任务管理模块、分级研判模块、标签管理模块、定制模块和关系数据标注模块;
A1:文档批量导入模块:所述文档批量导入模块用于将需要处理的文档以及文件夹进行大批量导入;
A2:数据统计概览模块:所述数据统计概览模块用于对导入的文档进行基础数据统计和多维关联统计;
A3:文档自动分析模块:所述文档自动分析模块在文件夹以及文档导入完成之后,用于对文档进行自动分析或自定义分析,所述自动分析将文档分发至相应的领域内部进行分类,所述自定义分析是指文档会根据自定义涉及的领域进行分类;
所述文档自动分析模块对解析后的文档进行规整管理,所述解析后的文档通过列表的方式进行展示;
A4:人员库信息管理模块:所述人员库信息管理模块用于对上传文档和文件夹中进行人员信息提取,并形成多维度人员列表;
A5:任务管理模块:所述任务管理模块用于文档中解析后的人员按照业务领域分发至相应的部门或者个人,并由部门或个人对人员进行分级分类,并将文档标记相应标签;
A6:任务审核模块:所述任务审核模块用于对业务大队负责人对研判结果进行审核,审核完成过后的数据进行流转,而人员的统计情况可以进行导出,并生成自定义导出的存储位置,并生成xlsx格式文件;
A7:分级研判模块:所述分级研判模块是对人员信息数据根据时间段、频次区间和人员数三者之间的对应关系,挖掘数据深层次的变化趋势;
A8:标签管理模块:所述标签管理模块用于对系统标签进行管理,应用于人员研判中;
A9:定制模块:所述定制模块还包括现场数据清洗,所述数据清洗需要对数据进行清洗和标注,分类数据集整理、清洗、测试,对分类数据集进行整理和测试,保证数据的规范性和准确性;
A10:关系数据标注模块:所述关系数据标注模块用于对需要标注现场的关系数据,进行定制化模型开发。
2.根据权利要求1所述的基于自然语言处理技术的情报大数据智能分析方法,其特征在于:所述文档批量导入模块还包括文档导入模块、数据预处理模块、算法解析模块、智能分析模块以及自定义领域模块;
所述文档导入模块用于将所需统计文档进行数据输入,所述文档数据导入可以通过文件夹方式进行导入或者单个文件进行导入;
所述数据预处理模块对导入的文档数据进行处理,将导入文档进行去修订以及格式转换;
所述算法解析功能对预处理之后的文档进行解析;
所述智能分析模块对解析完成后的文档涉及的领域进行智能分析,智能分析后将文档归类至相应的领域内;
所述自定义分析模块对文档设置领域进行分析。
3.根据权利要求1所述的基于自然语言处理技术的情报大数据智能分析方法,其特征在于:所述数据统计概览模块还包括统计导入到系统的文档数量;
从导入的文档中提取的人员数量;
统计导入文档涉及的领域数;
统计导入文档中提取的有效证件数,所述统计的有效证件数种类包括包括身份证、往来港澳通行证、回乡证;
统计并导入提取的手机号码数量;
统计人员,所述统计人员中根据地域分布,并根据不同的数量区间利用不同的颜色标记将统计人员的户籍地以及居住地在地图上进行展示;
统计文档涉及领域分布,统计出每个领域下文档的数量,并以柱状图的形式进行展示,
统计人员涉及领域分布,统计出每个领域下人员的数量,并与柱状图的形式进行展示;
统计文档导入至系统的数量;统计的文档导入至系统的数量通过折线图的形式进行展示,并通过可视化图表反应所筛选时间以来文档导入到系统的趋势,
关键词统计频率:以饼状图形展示,通过可视化图表可以反映所筛选时间以来文档中关键词出现的频率,提供文档分析的依据。
4.根据权利要求3所述的基于自然语言处理技术的情报大数据智能分析方法,其特征在于:所述文档自动分析模块还包括文档-人员信息管理模块、实体管理模块和关键词管理模块;
所述文档-人员信息管理模块对解析后的文档进行规整管理,展示每篇文档出现的人员信息,所述出现的人员信息包括身份证号、姓名、性别、民族、手机号码、户籍地、居住地,从而形成文档与人员之间的互通关系,从而可以通过相应的文档跳转至相应人员的的详情页面;
所述实体管理模块对文档涉及的领域进行识别并在文档中标注展示,从而可以筛选具体的关键词或实体,从而在相应的文档中高亮标注展示;
所述关键词管理模块可以对文档中出现的关键词进行识别并在文档中标注展示,并且可以筛选到相应的具体关键词,并在文档中高亮标注展示。
5.根据权利要求3所述的基于自然语言处理技术的情报大数据智能分析方法,其特征在于:所述人员库信息管理模块还包括人员信息聚类模块、人员管理模块、人员搜索模块、人员详情查看模块和人员分析模块;
所述人员信息聚类模块可以对导入的文档中出现的人员,按照人员维度进行聚类,整合人员基本信息,从而可以对人员进行管理;
所述人员管理模块以列表的形式展示从文档中提取成功的人员信息,列表中展示的字段包括人员的基本信息,其中人员基本信息包括姓名、身份证号、性别、民族、手机号、户籍地、居住地,而人员基本信息管理包括:姓名管理、性别管理、身份证号管理、民族管理、手机号码管理、户籍地管理、居住地管理、涉及领域管理、微信号管理、QQ号管理、微博管理、邮箱管理、银行卡号管理、往来港澳通行证管理、大陆居民往来台湾通行证管理、护照号管理、绰号管理、文化程度管理、政治面貌管理、英文名管理、职业管理;
所述人员搜索模块可通过单一字段和多个字段进行文档搜索,其中单一字段包括姓名、性别、身份证号、民族、手机号码、涉及领域、导入时间,其中多个搜索字段为多个单一字段进行组合的方式进行搜索,其中多个字段为单一字段之间组合的“或”关系和“且”关系;
所述人员详情查看模块可以对人员的详情进行查看,其中可查看的人员详情包括人员基本信息、相应的亲属信息和社会信息,
人员分析模块:对人员涉及领域、文档数、同文档出现的人员进行统计分析目标人员管理及分析,
所述A5任务管理模块还包括
A51:任务建立模块:所述任务建立模块根据文档归属的领域大队,将文档结构化后解析出的人员,以人员维度生成一个任务,其生成的任务中包含该人员涉及到的文档,并将相应的文档分发至具体负责该领域的部门;
A52:任务分发模块:所述任务分发模块对待处理的任务数量进行标记,并将相应的文档人员分发至相应的业务大队,由业务部门负责人选择具体操作人员后下发,并由操作人员来完成研判,研判后需要由业务部门负责人进行二次审核;
A53:人员研判模块:所述人员研判模块用于对分发的文档人员进行研判,确认是否为自己业务大队的人员,对确认为自己业务大队的人员打上标签,所述标签支持选择复数标签标记,使各个部门同时进行分析,对于研判为非本大队领域的人员,需要填写研判理由,提交给业务大队负责人审核并进行重新分发;
A54:人员分级分类模块:所述人员分级分类模块根据人员的文档数、近N年的出现频率、参与时间的严重性具体情况,并根据上述情况对人员进行标记,并对其进行分级分类,而标记之后的人员需要经过业务大队负责人审核之后流转至任务管理模块内并对其进行纪录。
6.根据权利要求1所述的基于自然语言处理技术的情报大数据智能分析方法,其特征在于:所述A8步骤中所述标签管理模块还包括:
标签分级:所述标签分级支持五级标签,每级标签相应建立子标签,一级标签下新建子标签,则该标签为二级标签;
标签新增:对标签进行新增,一级标签直接新增,其他层级的标签新增通过点击该级标签后的加号新增,而在有多级标签的情况下,默认只展示一级标签;
标签代码:标签引入对应代码管理机制,创建标签时根据其层级管理自动生成标签代码,对应标签名称,导出数据时可选择以对应代码的形式导出人员的标签信息,确保数据的安全保密性;
标签的编辑、修改和删除:各级标签编辑和修改操作方式为点击标签后的编辑图标,删除标签方式为点击标签后的删除图标,当该标签有子级标签时,不支持删除;
标签管理与人员分级连通:标签增删和修改后,需要同步到人员分级流程中,保持系统数据的一致性,而在标签管理中删除了其中一个标签,在人员研判的标签选项里,则无该标签可选。
7.根据权利要求1所述的基于自然语言处理技术的情报大数据智能分析方法,其特征在于:所述A7步骤中其中人员信息数据统计有两个维度,按频次均等统计和按人数均等统计,按频次均等统计是根据最大和最小值,划分好频次间,统计所选领域时间内每个区间出现的人数;按人数均等统计是根据总人数,平均分为多组,统计每组所在的频次区间,筛选项有文档导入时间;
而分级研判的图表可导出成报告文档形式,通过选择点击统计图表中的各个区组可以展开该组的数据详情,其中该组的数据详情包括组成数据的人员姓名、证件号、来源文档标题、提交时间,随后将人员、文档、频次和时间四个关键要素进行相互关联,以深度分析研判当前的趋势变化和具体的变化细节。
8.根据权利要求1所述的基于自然语言处理技术的情报大数据智能分析方法,其特征在于:所述A7步骤中所述数据深层次的变化趋势为:主动关注各类情报的趋势并能及时发现异常变化,在第一时间采取针对性措施,做到全面监控,及时预警,采用时间序列数据挖掘算法,通过对某特定区域一定时期的历史案发情况进行分析,发现某些潜在的模式或规律,并利用这些模式或规律预测未来一段时间该区域的案发趋势。
9.根据权利要求1所述的基于自然语言处理技术的情报大数据智能分析方法,其特征在于:所述A9步骤中通用实体数据集整理、清洗、测试:根据文档,划分出通用实体并进行整理清洗,对通用实体进行标注、训练、调优,提高用户实体的解析和识别的准确率;
专业领域实体数据集建设、测试:根据文档,划分出专业领域并进行整理清洗,对专业领域关键词进行标注、训练,调优,提高用户实体的解析和识别的准确率;
专业领域关键词数据集建设:根据文档,划分出专业领域关键词并进行整理清洗,对专业领域关键词进行标注、训练,调优,提高用户实体的解析和识别的准确率;
领域实体定制:根据新增的领域实体,进行定制化训练,补充进领域实体库,丰富领域实体,训练后根据测试集结果进行调优,提高用户实体的解析和识别的准确率。
10.根据权利要求1所述的基于自然语言处理技术的情报大数据智能分析方法,其特征在于:所述关系数据标注模块还包括:
通用关系规整、标注:对通用的关系进行规整,比如相对应人员其父母、子女、兄弟姐妹,通过人工和脚本手段,从现场数据中找到含有此类关系的文档及内容描述,对现场收集的通用关系段落,运用人工手动标注出含有关系的关键词、描述方式,汇总到标注工具系统,形成训练集和测试集;
通用关系模型建设及调参:根据标注后的数据进行模型构建,运用测试集评测模型的准确率和性能,根据测试反馈的请况,针对问题进行调参优化,不断提高识别的准确率;
指代关系规整、标注:对指代型关系进行规整,比如相对应人员其子女,兄弟、共同的上级,通过人工和脚本遍历现场文档数据,从现场中找到含有此类关系的文档及内容描述,对现场收集的指代关系段落,运用人工手动标注出含关系的关键词、描述方式,汇总到标注工具系统,形成训练集和测试集;
指代关系模型建设及调参:根据标注后的数据进行模型构建,运用测试集评测模型的准确率和性能,根据测试反馈的请况,针对问题进行调参优化,不断提高识别的准确率,
多人物特殊关系规整、标注:对多人物特殊关系进行规则,当一篇文档同时有多人以上出现,互相之间存在关系关联;多个人员在多篇文档里同时出现,并有关系描述关联,通过人工和脚本手段,从现场数据中找到含有此类关系的文档及内容描述,对现场收集的多任务特殊关系段落,运用人工手动标注出含有关系的关键词、描述方式,汇总到标注工具系统,形成训练集和测试集;
多人物特殊关系模型建设及调参:根据标注后的数据进行模型构建,运用测试集评测模型的准确率和性能,根据测试反馈的请况,针对问题进行调参优化,不断提高识别的准确率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211485664.2A CN116384889A (zh) | 2022-11-24 | 2022-11-24 | 基于自然语言处理技术的情报大数据智能分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211485664.2A CN116384889A (zh) | 2022-11-24 | 2022-11-24 | 基于自然语言处理技术的情报大数据智能分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116384889A true CN116384889A (zh) | 2023-07-04 |
Family
ID=86962027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211485664.2A Pending CN116384889A (zh) | 2022-11-24 | 2022-11-24 | 基于自然语言处理技术的情报大数据智能分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116384889A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116702704A (zh) * | 2023-08-02 | 2023-09-05 | 南庆(南通)信息科技有限公司 | 一种文档协作的信息标记系统及方法 |
CN117131944A (zh) * | 2023-10-24 | 2023-11-28 | 中国电子科技集团公司第十研究所 | 面向多领域的交互式危机事件动态预警方法及系统 |
CN117171175A (zh) * | 2023-11-03 | 2023-12-05 | 江苏中威科技软件系统有限公司 | 全自动元数据提取并调查持续进行数据落地研判的装置 |
CN117251587A (zh) * | 2023-11-17 | 2023-12-19 | 北京因朵数智档案科技产业发展有限公司 | 一种数字档案智能信息挖掘方法 |
-
2022
- 2022-11-24 CN CN202211485664.2A patent/CN116384889A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116702704A (zh) * | 2023-08-02 | 2023-09-05 | 南庆(南通)信息科技有限公司 | 一种文档协作的信息标记系统及方法 |
CN117131944A (zh) * | 2023-10-24 | 2023-11-28 | 中国电子科技集团公司第十研究所 | 面向多领域的交互式危机事件动态预警方法及系统 |
CN117131944B (zh) * | 2023-10-24 | 2024-01-12 | 中国电子科技集团公司第十研究所 | 面向多领域的交互式危机事件动态预警方法及系统 |
CN117171175A (zh) * | 2023-11-03 | 2023-12-05 | 江苏中威科技软件系统有限公司 | 全自动元数据提取并调查持续进行数据落地研判的装置 |
CN117251587A (zh) * | 2023-11-17 | 2023-12-19 | 北京因朵数智档案科技产业发展有限公司 | 一种数字档案智能信息挖掘方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11663254B2 (en) | System and engine for seeded clustering of news events | |
CN110825882B (zh) | 一种基于知识图谱的信息系统管理方法 | |
CN110223168B (zh) | 一种基于企业关系图谱的标签传播反欺诈检测方法及系统 | |
Liu et al. | Patterns and sequences: Interactive exploration of clickstreams to understand common visitor paths | |
López-Robles et al. | Understanding the intellectual structure and evolution of Competitive Intelligence: A bibliometric analysis from 1984 to 2017 | |
CN116384889A (zh) | 基于自然语言处理技术的情报大数据智能分析方法 | |
CN111125343A (zh) | 适用于人岗匹配推荐系统的文本解析方法及装置 | |
Soleimani-Roozbahani et al. | Knowledge discovery from a more than a decade studies on healthcare Big Data systems: a scientometrics study | |
CN112182246A (zh) | 通过大数据分析建立企业画像的方法、系统、介质及应用 | |
CN110580291B (zh) | 基于erp客户服务知识图谱的智能搜索方法及计算机设备 | |
CN111680073A (zh) | 一种基于用户数据的金融服务平台政策资讯推荐方法 | |
CN112685564A (zh) | 一种智能科技政策分类、推送方法、以及系统 | |
Zhang | Application of data mining technology in digital library. | |
Chen et al. | Exploring technology opportunities and evolution of IoT-related logistics services with text mining | |
CN112506930B (zh) | 一种基于机器学习技术的数据洞察系统 | |
CN112818215A (zh) | 产品数据的处理方法、装置、设备及存储介质 | |
CN116562785B (zh) | 审计迎审系统 | |
AU2021103329A4 (en) | The investigation technique of object using machine learning and system. | |
CN112287016B (zh) | 一种企业视图的构建方法及系统 | |
CN114492308B (zh) | 一种结合知识发现与文本挖掘的产业信息标引方法和系统 | |
Li | RETRACTED ARTICLE: Application and research of clustering fusion algorithm in communication network prediction | |
Wibawa et al. | Complaint Data Text Analysis Concerning the Apps Provided by Government Agency using Inference LDA | |
CN117436729A (zh) | 一种基于政务系统数据治理和数据分析方法 | |
Hammond et al. | Predictive models of going concerns and business failure | |
CN115062141A (zh) | 信息结构化和检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |