CN115905520A - 一种基于自然语言处理的隐形人员挖掘方法及系统 - Google Patents

一种基于自然语言处理的隐形人员挖掘方法及系统 Download PDF

Info

Publication number
CN115905520A
CN115905520A CN202211278714.XA CN202211278714A CN115905520A CN 115905520 A CN115905520 A CN 115905520A CN 202211278714 A CN202211278714 A CN 202211278714A CN 115905520 A CN115905520 A CN 115905520A
Authority
CN
China
Prior art keywords
data
personnel
invisible
stealth
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211278714.XA
Other languages
English (en)
Inventor
杨光
刘佳
吴阳阳
贺珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suqian City Public Security Bureau
Wuhan Zhongzhi Digital Technology Co ltd
Original Assignee
Suqian City Public Security Bureau
Wuhan Zhongzhi Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suqian City Public Security Bureau, Wuhan Zhongzhi Digital Technology Co ltd filed Critical Suqian City Public Security Bureau
Priority to CN202211278714.XA priority Critical patent/CN115905520A/zh
Publication of CN115905520A publication Critical patent/CN115905520A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于公共安全技术领域,具体提供了一种基于自然语言处理的隐形人员挖掘方法及系统,其中方法包括:获取不同网络平台的多源异构数据,将多源异构数据进行清洗转换得到可识别数据;基于要素敏感词的类别,从可识别数据中选取相应数据进行标注,对标注数据进行训练得到隐形人员分析研判模型;将目标人员信息数据输入至通过隐形人员分析研判模型进行分析挖掘,得到隐形人员并预警。通过基于现有不同网络平台的互联网数据,有针对性地实现对隐形人员信息进行识别、挖掘并推出告警,从而实现对隐形人员极端突发案件防范于未然,对于维护社会稳定与保障人民群众的生命财产安全具有良好的意义。

Description

一种基于自然语言处理的隐形人员挖掘方法及系统
技术领域
本发明涉及公共安全技术领域,更具体地,涉及一种基于自然语言处理的隐形人员挖掘方法及系统。
背景技术
隐形人员主要指具有隐形人员行为特征却未被纳管的人员,由于隐形人员相关案件的突发性强且难以预测,对人民群众生命财产安全及公共安全造成重大隐患。
随着经济社会的不断发展,隐形人员漏管、脱管、失控等现象频发,隐形人员管控难度增大。针对隐形人员的管控目前仅能通过活动路线定位、定期到场汇报、北斗定位、酒店入住登记信息等方式获取隐形人员的异常信息,但这些手段均是依靠人工登记、人工筛查,多数要耗费大量的人力、物力,且监管的时效性较低,导致对隐形人员的分析挖掘存在数据资源汇聚不全面、分析挖掘手段不智能、不深入等问题。
因此,传统对隐形人员的分析挖掘方式仅仅是依靠传统登记、人工筛查,其难以实时、有效地分析挖掘出隐形人员信息,无法在隐形人员极端突发案件的预防上取得较好的效果。
发明内容
本发明针对现有技术中存在的无法预防隐形人员极端突发案件的的技术问题。
本发明提供了一种基于自然语言处理的隐形人员挖掘方法,包括以下步骤:
S1,获取不同网络平台的多源异构数据,将所述多源异构数据进行清洗转换得到可识别数据;
S2,基于要素敏感词的类别,从可识别数据中选取相应数据进行标注,对标注数据进行训练得到隐形人员分析研判模型;
S3,将目标人员信息数据输入至通过隐形人员分析研判模型进行分析挖掘,得到隐形人员并预警。
优选地,所述S1具体包括:使用ETL工具对各网络平台的多源异构数据进行汇聚,选取其中的文本内容,对文本内容中的特殊字符进行统一转换以便识别,其中所述特殊字符包括标点、空格及换行。
优选地,所述S2~S3具体包括:
基于警情、案件描述内容的要素敏感词进行分类,从可识别数据中选取对应数据进行标注,将标注数据按照8:2比例随机划分为训练数据集与验证数据集,针对训练数据集采用预训练语言模型Albert结合BiLSTM+CRF进行训练,将训练结果针对案件类别采用混淆矩阵进行评估,设定F1阈值为85%,针对小于该阈值的训练批次重新进行训练,直至最终结果符合阈值要求,并输出警情模型;
利用所述警情模型对目标人员信息数据进行警情、案件描述内容中涉警、涉案敏感词的识别,输出最终疑似涉警、涉案人员。
优选地,所述S2具体包括:
基于就医门诊、药店处方药销售记录数据的精神障碍名称与药品名称的要素敏感词进行分类,从可识别数据中选取对应数据进行标注,将标注数据按照8:2比例随机划分为训练数据集与验证数据集,针对训练数据集采用预训练语言模型Albert结合BiLSTM+CRF进行训练,将训练结果针对案件类别采用混淆矩阵进行评估,设定F1阈值为85%,针对小于该阈值的训练批次重新进行训练,直至最终结果符合阈值要求,并输出精神障碍模型;
利用所述精神障碍模型对目标人员信息数据进行疾病名称与药品名称的识别,并输出疑似精神障碍人员。
优选地,所述S2具体包括:
基于搜索、网购、网络言论的极端言论的要素敏感词进行分类,从可识别数据中选取对应数据进行标注,将标注数据按照8:2比例随机划分为训练数据集与验证数据集,针对训练数据集采用预训练语言模型Albert结合BiLSTM+CRF进行训练,将训练结果针对案件类别采用混淆矩阵进行评估,设定F1阈值为85%,针对小于该阈值的训练批次重新进行训练,直至最终结果符合阈值要求,并输出危险模型;
利用所述危险模型对目标人员信息数据进行易致毒、易致爆的识别,并输出疑似发布极端言论人员。
优选地,所述S3具体包括:根据各类别对应已有的隐形人员库的相关属性信息,通过隐形人员分析研判模型进行分析挖掘得到不同类别的疑似隐形人员信息。
优选地,所述S3之后还包括:对比判断疑似隐形人员信息是否存在已有的隐形人员库中;
若存在,则进一步判断是否状态变化,若变化,则推出隐形人员状态变更预警;若没有变化,则更新隐形人员档案;
若不存在,则推出隐形人员预警。
本发明还提供了一种基于自然语言处理的隐形人员挖掘系统,所述系统用于实现基于自然语言处理的隐形人员挖掘方法,包括:
数据预处理模块,用于获取不同网络平台的多源异构数据,将所述多源异构数据进行清洗转换得到可识别数据;
模型建立模块,用于基于要素敏感词的类别,从可识别数据中选取相应数据进行标注,对标注数据进行训练得到隐形人员分析研判模型;
分析挖掘模块,用于将目标人员信息数据输入至通过隐形人员分析研判模型进行分析挖掘,得到隐形人员并预警。
本发明还提供了一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现基于自然语言处理的隐形人员挖掘方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现基于自然语言处理的隐形人员挖掘方法的步骤。
有益效果:本发明提供的一种基于自然语言处理的隐形人员挖掘方法及系统,其中方法包括:获取不同网络平台的多源异构数据,将所述多源异构数据进行清洗转换得到可识别数据;基于要素敏感词的类别,从可识别数据中选取相应数据进行标注,对标注数据进行训练得到隐形人员分析研判模型;将目标人员信息数据输入至通过隐形人员分析研判模型进行分析挖掘,得到隐形人员并预警。通过基于现有海量警情、案件、医疗、社交网购等互联网数据,结合自然语言处理技术,有针对性地实现对隐形人员信息进行识别、挖掘并推出告警,从而实现对隐形人员极端突发案件防范于未然,对于维护社会稳定与保障人民群众的生命财产安全具有良好的意义。
附图说明
图1为本发明提供的一种基于自然语言处理的隐形人员挖掘方法的流程图;
图2为本发明提供的基于监督的模型训练与预测流程图;
图3为本发明提供的基于警情、案件描述的警情案件分类与疑似涉警、涉案人员识别流程图;
图4为本发明提供的基于就医门诊、药店处方药销售记录的精神障碍疾病确诊与疑似人员识别流程图;
图5为本发明提供的基于搜索、网购、QQ微信论坛互联网数据的疑似涉嫌发布极端言论人员与疑似购买易制毒、易制爆物品人员识别流程图;
图6为本发明提供的隐形人员研判与预警流程图;
图7为本发明提供的一种可能的电子设备的硬件结构示意图;
图8为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1至图6所示,为本发明提供的一种基于自然语言处理的隐形人员挖掘方法及系统,其中方法包括:
S1,获取不同网络平台的多源异构数据,将所述多源异构数据进行清洗转换得到可识别数据;
S2,基于要素敏感词的类别,从可识别数据中选取相应数据进行标注,对标注数据进行训练得到隐形人员分析研判模型;
S3,将目标人员信息数据输入至通过隐形人员分析研判模型进行分析挖掘,得到隐形人员并预警。
通过基于现有海量警情、案件、医疗、社交网购等互联网数据,结合自然语言处理技术,有针对性地实现对隐形人员信息进行识别、挖掘并推出告警,从而实现对隐形人员极端突发案件防范于未然,对于维护社会稳定与保障人民群众的生命财产安全具有良好的意义。
具体地:
1、多源异构数据汇聚。将不同网络平台的数据进行汇聚,具体网络平台包括警情、案件数据、医疗门诊与处方药销售数据、QQ微信、贴吧论坛、搜索记录与网购记录等数据。使用ETL工具对各网络平台的多源异构数据进行汇聚,选取其中文本内容进行清洗转换,主要包括对文本中包含的标点、空格、换行等特殊字符的转换,以便于后续的识别,进而有利于进行筛选和分类,防止特殊字符无法识别影响筛选和分类。
2、基于警情、案件描述内容的要素敏感词,从可识别数据中选取对应部分数据进行标注,对标注数据进行训练得到警情模型。具体地,针对警情、案件描述内容,从经过清洗后的数据集中选取部分进行标注。标注的要素主要包括人员关系、人员伤害性质以及程度、警情、案件起因、施暴方式等,针对标注的数据按规则分别分为ABCDO五类,要素与类别的对应关系表示为下表1:
表1警情、案件类别与关键词映射表
将标注数据按照8:2比例随机划分为训练数据集与验证数据集,针对训练数据集采用预训练语言模型Albert结合BiLSTM+CRF进行训练,将训练结果针对ABCDO类采用混淆矩阵进行评估,设定F1阈值为85%,针对小于该阈值的训练批次重新进行训练,直至最终结果符合阈值要求,并输出警情模型。
其中,本申请实施例采用的文本标注工具是doccano,doccano是docummentanotation的缩写,是一个开源的文本标注工具,我们可以用它为NLP任务的语料库进行打标。它支持情感分析,命名实体识别,文本摘要等任务。
Bert是由谷歌公司提出的用来产生词向量的相关模型。albert是bert模型的改进版本,能够有效减少内存的方法,同时提升了训练速度。Albert-tiny作为轻量albert模型,其隐藏层仅有4层,模型参数量约为1.8M,非常的轻便。相对于BERT,在精度基本保留条件下,其训练和推理预测速度提升约10倍。
LSTM的全称是长短记忆模型非,常适合用于对时序数据的建模,如文本数据。BiLSTM是由前向LSTM与后向LSTM组合而成。CRF条件随机场,是一种序列化标注算法。在自然语言处理过程中,Bi-LSTM+CRF模型常用于解决文本序列识别与分类问题。
3、基于就医门诊、药店处方药销售记录数据的精神障碍名称与药品名称识别模型训练,将医保门诊记录数据、门诊诊断记录选取部分用于精神障碍疾病名称识别标注,将药店处方药销售记录数据选取部分用于精神障碍疾病药品名称标注。针对精神障碍疾病药品名称,按照第一代抗精神病药物、第二代抗精神病药物、心境稳定剂进行分类。疾病名称与类别的划分按照下表2和表3:
表2精神障碍类疾病名称范围表
表3精神障碍类疾病相关药品名称以及分类
针对精神障碍名称与药品名称识别模型训练过程与步骤2类似,采用相同评估方式与F1阈值为85%,并输出最终符合要求的精神障碍模型。
4、基于搜索、网购、网络言论数据的极端言论识别模型构建。依托网安部门获取的百度搜索记录、网购搜索记录、QQ微信论坛互联网数据仅汇聚,选取部分用于数据标注,标注类别主要包括涉嫌易制毒、易制爆等危险敏感词、涉嫌煽动恐暴活动言论等,主要包括的敏感词以及用语如下表4和表5所示:
表4易制毒物质名称以及分类表
表5易制爆物品名称以及分类表
针对敏感词与极端言论识别模型构建过程与步骤2类似,采用相同评估方式与F1阈值85%,并输出最终符合要求的危险模型。
5、疑似涉警、涉案人员信息识别与分类。根据警情、案件数据,利用步骤2中输出的警情模型进行预测识别,实现对警情、案件描述内容中涉警、涉案敏感词的识别,并依据公共安全标准数据元以及数据项实现对疑似涉警、涉案人员类别的标准化清洗转换,获取最终疑似涉警、涉案人员。
6、疑似精神障碍人员信息识别与分类。根据就医门诊、药店处方药销售数据,利用步骤3中输出的精神障碍模型进行预测识别。识别的结果主要包括疾病名称与药品名称。就诊记录包括精神障碍类疾病名称的人员作为精神障碍人员,对购买精神障碍疾病相关药品的人员作为疑似精神障碍人员,并根据其购买药品类别对其进行标记。
7、疑似频繁发布极端言论人员信息识别与分类。根据基于百度搜索、网购、QQ微信论坛等互联网数据,采用步骤4中输出的模型文件进行预测识别,升识别的结果主要包括涉嫌易致毒、易致爆等危险敏感词、涉嫌煽动恐暴活动言论等,并依据其言论、搜索意图或网购物品类别进行分类得到疑似发布极端言论人员。
8、针对步骤5、6、7中分别获取的疑似涉警、涉案人员、疑似精神障碍人员、疑似发布极端言论人员这些类别,这些类别也分别对应各自的要素敏感词。根据各类别对应已有的隐形人员库的相关属性信息,通过隐形人员分析研判模型进行分析挖掘。其中频繁涉警涉案人员研判规则如下表6所示:
表6频繁涉警涉案人员研判规表
由于频繁涉警涉案人员研判规则类别有所不同,则最终权值计算公式如下:
W=R[1,24]×0.54+R[25,29]×0.46
其中R[m,n]表示序号为[m,n]范围内规则的权重。
疑似精障人员研判规则如下表7所示:
表7疑似精障人员研判规则表
序号 规则 权重
1 警情案件类别D 2.3
2 门诊确诊精神障碍患者 2.5
3 1月内购买2次以内 1.25
4 1月内购买2次以上 1.35
5 6月内购买次2以内 1.15
6 6月内购买2次上 1.25
7 1年内购买2次以内 1.05
8 1年内购买2次以上 1.15
9 购买第一代抗精神病药物 1.5
10 购买第二代抗精神病药物 1.5
11 购买心境稳定剂 1.2
由于精神障碍人员研判规则类别有所不同,则最终权值计算公式如下:
W=R[1,1]×0.4+R[2,2]×0.35+R[3,8]×0.182+R[9,11]×0.068
其中R[m,n]表示序号为[m,n]范围内规则的权重。频繁发布极端言论人员研判规则如下表8所示:
表8频繁发布极端言论人员研判规则表
序号 规则 权重
1 在同一平台发布极端言论1月10次以上 2.5
2 在同一平台发布极端言论1月6-10次以内 1.2
3 在同一平台发布极端言论1月6次以内 1.05
4 在>3平台发布极端言论 1.15
5 在>7平台发布极端言论 2.25
由于频繁发布极端言论人员研判规则类别有所不同,则最终权值计算公式如下:
W=R[1,3]×0.625+R[4,5]×0.375
其中R[m,n]表示序号为[m,n]范围内规则的权重。频繁购买易制毒、易制爆物品人员研判规则如下表9所示:
表9频繁购买易制毒、易制爆物品人员研判规则表
由于频繁购买易制毒、易制爆物品人员研判规则类别有所不同,则最终权值计算公式如下:
其中R[m,n]表示序号为[m,n]范围内规则的权重。
不同业务环境中频繁涉警、涉案、精神障碍、频繁购买易制爆、易制毒物品等研判规则与权重参数可能存在差别,在实践中可根据实际情况做出调整。根据上述研判规则汇聚的频繁涉警、涉案、精神障碍、频繁购买易制爆、易制毒物品等隐形人员信息与隐形人员库中信息进行比对,对于未存在隐形人员库中的人员信息推出隐形人员预警,对于已存在隐形人员库中的则针对其频繁涉警、涉案、精神障碍、频繁购买易制爆、易制毒物品等方面状态变化推出隐形人员状态变更预警,并最终实现对该隐形人员档案记录的更新。
在一个具体的实施场景中,基于自然语言处理的隐形人员挖掘方法具体实施过程如下:
1、多源异构数据汇聚。针对警情、案件数据、医疗门诊与处方药销售数据、QQ微信、贴吧论坛、搜索记录与网购记录等数据使用ETL工具进行汇聚,包括历史数据与每日新增数据,选取其中文本内容进行清洗转换,主要包括对文本中包含的标点、空格、换行等特殊字符的转换。
2、频繁涉警敏感词识别模型训练与调优。经过清洗转换后的警情、案件数据选取部分描述文本使用Docanno工具进行标注,标注内容参考文中《警情、案件类别与关键词映射表》。将标注数据按照8:2比例随机划分为训练数据集与验证数据集,针对训练数据集采用预训练语言模型Albert结合BiLSTM+CRF进行训练,将训练结果针对ABCDO类采用混淆矩阵进行评估,设定F1阈值为85%,针对小于该阈值的训练批次重新进行训练,直至最终结果符合阈值要求,输出最优状态下的模型文件。
3、频疑似精神障碍人员识别模型训练与调优。针对就医门诊、药店处方药销售记录数据的精神障碍名称与药品名称识别模型训练,将医保门诊记录数据、门诊诊断记录选取部分用于精神障碍疾病名称识别标注,将药店处方药销售记录数据选取部分用于精神障碍疾病药品名称标注。针对精神障碍疾病药品名称,按照第一代抗精神病药物、第二代抗精神病药物、心境稳定剂进行分类。模型训练与调优流程与步骤2中类似,并输出最优状态下的模型文件。
4、基于搜索、网购、网络言论数据的极端言论识别模型训练与调优。依托网安部门获取的百度搜索记录、网购搜索记录、QQ微信论坛互联网数据仅汇聚,选取部分用于数据标注,标注类别主要包括涉嫌易制毒、易制爆等危险敏感词、涉嫌煽动恐暴活动言论等。模型训练与调优流程与步骤2中类似,并输出最优状态下的模型文件。
5、基于警情、案件描述的疑似频繁涉警、涉案人员预测。根据警情、案件数据,利用步骤2中输出的模型文件基于TensorServer加载为模型服务后进行预测识别,实现对警情、案件描述内容中涉警、涉案敏感词的识别,并依据公共安全标准数据元以及数据项实现对疑似涉警、涉案人员类别的标准化清洗转换,获取最终疑似涉警、涉案人员分类类别;
6、基于医保就诊信息的疑似精神障碍人员预测。与步骤5中的流程类似,根据就医门诊、药店处方药销售数据,利用步骤3中输出的模型文件进行预测识别,识别的结果主要包括疾病名称与药品名称。就诊记录包括精神障碍类疾病名称的人员作为精神障碍人员,对购买精神障碍疾病相关药品的人员作为疑似精神障碍类人员,并根据其购买药品类别对其进行标记。
7、基于网购、搜索数据、QQ、微信、贴吧论坛数据的极端言论发布人员与易制毒、易制爆危化品购买人员预测。根据基于百度搜索、网购、QQ微信论坛等互联网数据,采用步骤4中输出的模型文件进行预测识别,升识别的结果主要包括涉嫌易制毒、易制爆等危险敏感词、涉嫌煽动恐暴活动言论等,并依据其言论、搜索意图或网购物品类别进行分类。
8、隐形人员研判分析与预警推送。针对步骤5、6、7中分别获取的疑似涉警、涉案人员、疑似精神障碍人员、疑似发布极端言论人员,根据其隐形人员类别与相关属性信息,通过隐形人员分析研判模型进行分析挖掘。针对历史数据,通过离线分析方式将结果直接用于隐形人员库的更新。针对Kafka消息系统消费的实时新增数据,通过将识别的隐形人员信息与隐形人员库中人员信息进行比对,对于未存在隐形人员库中的人员信息通过kafka消息系统推出隐形人员预警,对于已存在隐形人员库中的则针对其频繁涉警、涉案、精神障碍、频繁购买易制爆、易制毒物品等方面状态变化推出隐形人员状态变更预警。
其中,Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。
本发明实施例还提供了一种基于自然语言处理的隐形人员挖掘系统,所述系统用于实现如前所述的基于自然语言处理的隐形人员挖掘方法,包括:
数据预处理模块,用于获取不同网络平台的多源异构数据,将所述多源异构数据进行清洗转换得到可识别数据;
模型建立模块,用于基于要素敏感词的类别,从可识别数据中选取相应数据进行标注,对标注数据进行训练得到隐形人员分析研判模型;
分析挖掘模块,用于将目标人员信息数据输入至通过隐形人员分析研判模型进行分析挖掘,得到隐形人员并预警。
请参阅图7为本发明实施例提供的电子设备的实施例示意图。如图7所示,本发明实施例提了一种电子设备,包括存储器1310、处理器1320及存储在存储器1310上并可在处理器1320上运行的计算机程序1311,处理器1320执行计算机程序1311时实现以下步骤:S1,获取不同网络平台的多源异构数据,将所述多源异构数据进行清洗转换得到可识别数据;
S2,基于要素敏感词的类别,从可识别数据中选取相应数据进行标注,对标注数据进行训练得到隐形人员分析研判模型;
S3,将目标人员信息数据输入至通过隐形人员分析研判模型进行分析挖掘,得到隐形人员并预警。
请参阅图8为本发明提供的一种计算机可读存储介质的实施例示意图。如图8所示,本实施例提供了一种计算机可读存储介质1400,其上存储有计算机程序1411,该计算机程序1411被处理器执行时实现如下步骤:S1,获取不同网络平台的多源异构数据,将所述多源异构数据进行清洗转换得到可识别数据;
S2,基于要素敏感词的类别,从可识别数据中选取相应数据进行标注,对标注数据进行训练得到隐形人员分析研判模型;
S3,将目标人员信息数据输入至通过隐形人员分析研判模型进行分析挖掘,得到隐形人员并预警。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

Claims (10)

1.一种基于自然语言处理的隐形人员挖掘方法,其特征在于,包括以下步骤:
S1,获取不同网络平台的多源异构数据,将所述多源异构数据进行清洗转换得到可识别数据;
S2,基于要素敏感词的类别,从可识别数据中选取相应数据进行标注,对标注数据进行训练得到隐形人员分析研判模型;
S3,将目标人员信息数据输入至通过隐形人员分析研判模型进行分析挖掘,得到隐形人员并预警。
2.根据权利要求1所述的基于自然语言处理的隐形人员挖掘方法,其特征在于,所述S1具体包括:使用ETL工具对各网络平台的多源异构数据进行汇聚,选取其中的文本内容,对文本内容中的特殊字符进行统一转换以便识别,其中所述特殊字符包括标点、空格及换行。
3.根据权利要求1所述的基于自然语言处理的隐形人员挖掘方法,其特征在于,所述S2~S3具体包括:
基于警情、案件描述内容的要素敏感词进行分类,从可识别数据中选取对应数据进行标注,将标注数据按照8:2比例随机划分为训练数据集与验证数据集,针对训练数据集采用预训练语言模型Albert结合BiLSTM+CRF进行训练,将训练结果针对案件类别采用混淆矩阵进行评估,设定F1阈值为85%,针对小于该阈值的训练批次重新进行训练,直至最终结果符合阈值要求,并输出警情模型;
利用所述警情模型对目标人员信息数据进行警情、案件描述内容中涉警、涉案敏感词的识别,输出最终疑似涉警、涉案人员。
4.根据权利要求1所述的基于自然语言处理的隐形人员挖掘方法,其特征在于,所述S2具体包括:
基于就医门诊、药店处方药销售记录数据的精神障碍名称与药品名称的要素敏感词进行分类,从可识别数据中选取对应数据进行标注,将标注数据按照8:2比例随机划分为训练数据集与验证数据集,针对训练数据集采用预训练语言模型Albert结合BiLSTM+CRF进行训练,将训练结果针对案件类别采用混淆矩阵进行评估,设定F1阈值为85%,针对小于该阈值的训练批次重新进行训练,直至最终结果符合阈值要求,并输出精神障碍模型;
利用所述精神障碍模型对目标人员信息数据进行疾病名称与药品名称的识别,并输出疑似精神障碍人员。
5.根据权利要求1所述的基于自然语言处理的隐形人员挖掘方法,其特征在于,所述S2具体包括:
基于搜索、网购、网络言论的极端言论的要素敏感词进行分类,从可识别数据中选取对应数据进行标注,将标注数据按照8:2比例随机划分为训练数据集与验证数据集,针对训练数据集采用预训练语言模型Albert结合BiLSTM+CRF进行训练,将训练结果针对案件类别采用混淆矩阵进行评估,设定F1阈值为85%,针对小于该阈值的训练批次重新进行训练,直至最终结果符合阈值要求,并输出危险模型;
利用所述危险模型对目标人员信息数据进行易致毒、易致爆的识别,并输出疑似发布极端言论人员。
6.根据权利要求1所述的基于自然语言处理的隐形人员挖掘方法,其特征在于,所述S3具体包括:根据各类别对应已有的隐形人员库的相关属性信息,通过隐形人员分析研判模型进行分析挖掘得到不同类别的疑似隐形人员信息。
7.根据权利要求6所述的基于自然语言处理的隐形人员挖掘方法,其特征在于,所述S3之后还包括:对比判断疑似隐形人员信息是否存在已有的隐形人员库中;
若存在,则进一步判断是否状态变化,若变化,则推出隐形人员状态变更预警;若没有变化,则更新隐形人员档案;
若不存在,则推出隐形人员预警。
8.一种基于自然语言处理的隐形人员挖掘系统,其特征在于,所述系统用于实现如权利要求1-7任一项所述的基于自然语言处理的隐形人员挖掘方法,包括:
数据预处理模块,用于获取不同网络平台的多源异构数据,将所述多源异构数据进行清洗转换得到可识别数据;
模型建立模块,用于基于要素敏感词的类别,从可识别数据中选取相应数据进行标注,对标注数据进行训练得到隐形人员分析研判模型;
分析挖掘模块,用于将目标人员信息数据输入至通过隐形人员分析研判模型进行分析挖掘,得到隐形人员并预警。
9.一种电子设备,其特征在于,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现如权利要求1-7任一项所述的基于自然语言处理的隐形人员挖掘方法的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现如权利要求1-7任一项所述的基于自然语言处理的隐形人员挖掘方法的步骤。
CN202211278714.XA 2022-10-19 2022-10-19 一种基于自然语言处理的隐形人员挖掘方法及系统 Pending CN115905520A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211278714.XA CN115905520A (zh) 2022-10-19 2022-10-19 一种基于自然语言处理的隐形人员挖掘方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211278714.XA CN115905520A (zh) 2022-10-19 2022-10-19 一种基于自然语言处理的隐形人员挖掘方法及系统

Publications (1)

Publication Number Publication Date
CN115905520A true CN115905520A (zh) 2023-04-04

Family

ID=86471790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211278714.XA Pending CN115905520A (zh) 2022-10-19 2022-10-19 一种基于自然语言处理的隐形人员挖掘方法及系统

Country Status (1)

Country Link
CN (1) CN115905520A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383027A (zh) * 2023-06-05 2023-07-04 阿里巴巴(中国)有限公司 人机交互的数据处理方法及服务器

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383027A (zh) * 2023-06-05 2023-07-04 阿里巴巴(中国)有限公司 人机交互的数据处理方法及服务器
CN116383027B (zh) * 2023-06-05 2023-08-25 阿里巴巴(中国)有限公司 人机交互的数据处理方法及服务器

Similar Documents

Publication Publication Date Title
US20190251452A1 (en) Grading Sources and Managing Evidence for Intelligence Analysis
US9727642B2 (en) Question pruning for evaluating a hypothetical ontological link
Barbado et al. Rule extraction in unsupervised anomaly detection for model explainability: Application to OneClass SVM
Dong et al. Social media information sharing for natural disaster response
Hälterlein Epistemologies of predictive policing: Mathematical social science, social physics and machine learning
EP3447663A1 (en) System and method for event profiling
Maheshwari et al. Nanotechnology-based sensitive biosensors for COVID-19 prediction using fuzzy logic control
Prado-Romero et al. A survey on graph counterfactual explanations: definitions, methods, evaluation, and research challenges
Nissan An overview of data mining for combating crime
Ghankutkar et al. Modelling machine learning for analysing crime news
Yarushkina et al. The social portrait building of a social network user based on semi-structured data analysis
Diamantopoulos et al. Enhancing requirements reusability through semantic modeling and data mining techniques
Garanina et al. A multi-agent text analysis based on ontology of subject domain
Barve et al. Detecting and Fact-checking Misinformation using “Veracity Scanning Model”
CN115905520A (zh) 一种基于自然语言处理的隐形人员挖掘方法及系统
Hodler et al. Graph data science using Neo4j
Hani et al. Fane-kg: A semantic knowledge graph for context-based fake news detection on social media
Yan et al. A graph-based pivotal semantic mining framework for rumor detection
Figueroa et al. Improving business process retrieval using categorization and multimodal search
Cai et al. A risk identification model for ICT supply chain based on network embedding and text encoding
Hussna et al. COVID-19 fake news prediction on social media data
Abdullah et al. An introduction to data analytics: its types and its applications
Nousi et al. Mining data to deal with epidemics: case studies to demonstrate real world AI applications
Choo et al. A review on supervised machine learning for accident risk analysis: Challenges in Malaysia
Ahmadi et al. Inductive and transductive link prediction for criminal network analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination