CN107783959A - 一种基于贝叶斯预测的处警、接警信息评分方法 - Google Patents

一种基于贝叶斯预测的处警、接警信息评分方法 Download PDF

Info

Publication number
CN107783959A
CN107783959A CN201710782155.9A CN201710782155A CN107783959A CN 107783959 A CN107783959 A CN 107783959A CN 201710782155 A CN201710782155 A CN 201710782155A CN 107783959 A CN107783959 A CN 107783959A
Authority
CN
China
Prior art keywords
text
alert
information
emergencies
dealing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710782155.9A
Other languages
English (en)
Inventor
王晓
徐建宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Zhongfu Information Technology Co Ltd
Original Assignee
Nanjing Zhongfu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Zhongfu Information Technology Co Ltd filed Critical Nanjing Zhongfu Information Technology Co Ltd
Priority to CN201710782155.9A priority Critical patent/CN107783959A/zh
Publication of CN107783959A publication Critical patent/CN107783959A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于贝叶斯预测的处警、接警信息评分方法,首先通过正则表达式匹配出个人信息进行分词;然后通过分词结果预测文本类型,将分词的结果与内部的分类特征样本通过朴素贝叶斯算法判断文本所属类别,得到一个文本所属案情类别的概率;最后通过数据碰撞模型图进行数据碰撞,完成警情关联。本发明通过对警情文本分词的结果与警情关键词库,采用贝叶斯分类器得到一个警情文本分类的类别概率,然后将类别概率与警情权重通过决策树累加得到一个评分结果,还可以通过提取警情文本的特殊标识如身份证号等去关联相关文本的方式,实现了基于对警情的重要性区分以及对警情的所有特征信息分析后完成的碰撞。

Description

一种基于贝叶斯预测的处警、接警信息评分方法
技术领域
本发明属于文本挖掘技术领域,尤其涉及警情文本数据的贝叶斯分类和案情的决策树评分算法。
背景技术
文本数据挖掘分为文本分类和文本预测。文本分类指的是通过分类和回归的方式提取文本的特征和标签;文本预测是通过分类、回归、聚类的方式得到文本特征和部分标签。现有的文本分类技术一般首先进行分词,然后使用监督学习的算法对文本直接进行分类。
对于警情的处理,目前常用方式是人力进行分类,费时且容易出错,容易造成对关键警情的评判错误,通过监督学习分类评分可以尽可能避免因人力出现的错误。
但上述文本分类技术技术的缺点是无法判别每个分类之后文本的重要性,忽视了文本做概率分析后的遗失率计算,而且对文本的特征抽取数据碰撞也没有做深度处理。
贝叶斯预测是一种以动态模型为研究对象的时间序列预测方法,一般模式为先验+总体分布+样本→后验分布。贝叶斯预测模型是运用贝叶斯统计进行的一种预测。贝叶斯统计不同于一般的统计方法,其不仅利用模型信息和数据信息,而且充分利用了先验信息。贝叶斯模型不仅利用了前期的数据信息,还加入了决策者的经验和判断等信息,并将客观因素和主观因素结合起来,对异常情况的发生具有较多的灵活性。
如何结合贝叶斯预测可以结合决策者的经验和判断的优点,实现警情文本数据的贝叶斯分类和案情的决策树评分显得尤为重要。
发明内容
本发明的目的是在文本分类的基础上,使用数据抽取的方式,按照关键词权重使用决策树的方式对文本进行了评分,实现了基于对警情的重要性区分以及对警情的所有特征信息分析后完成的碰撞。
为实现上述目的,本发明采用的技术方案为一种基于贝叶斯预测的处警、接警信息评分方法,具体包含以下步骤:
S1:通过正则表达式匹配出个人信息进行分词;
S2:通过分词结果预测文本类型,将分词的结果与内部的分类特征样本通过朴素贝叶斯算法判断文本所属类别,得到一个文本所属案情类别的概率;
S3:通过数据碰撞模型图进行数据碰撞,完成警情关联。
进一步,步骤1中,分词可以通过前缀字典对文本进行快速分词,对不在字典内的词可以通过HMM算法进行特征抽象。
所述个人信息包括但不限于手机号码、固定电话、QQ号、微信号、身份证号等信息。
步骤2中,对于不同的文本类型,赋予不同的权重,通过决策树对文本完成评分操作。
步骤3具体包括将警情信息与文本关键信息抽取后的数据放入碰撞模型图的节点中,利用图论中的单源最短路径算法得到关联数据抽取,然后通过搜索算法得到两个数据关联之间所有关联信息。
作为优选,上述搜索算法为BFS算法。
与现有技术相比,本发明具有的有益效果:
1,本发明通过对警情文本分词的结果与警情关键词库,采用贝叶斯分类器得到一个警情文本分类的类别概率,然后将类别概率与警情权重通过决策树累加得到一个评分结果。
2,可以通过提取警情文本的特殊标识如身份证号等去关联相关文本的方式。
3,实现了基于对警情的重要性区分以及对警情的所有特征信息分析后完成的碰撞。
附图说明
图1为本发明基于贝叶斯预测的处警、接警信息评分流程图。
图2为本发明的数据碰撞模型图。
具体实施方式
现结合附图对本发明做进一步详尽的说明。
如图1所示,本发明提出的基于贝叶斯预测的处警、接警信息评分流程分为以下几个步骤:
一,分词:基于前缀字典和HMM算法对文本进行分词,将分词数据与案件类别词库数据通过贝叶斯概率模型判定文本所属类别,将其所属类别通过决策树进行权重处理,得到打分结果。
一个典型的原始样例文本如下:
警情编号 警情文本
J001 A村村民报警,苏B2222堵路,车主手机号179510998889
J002 B街道市民报警,苏A 1234占道,车主手机号179510998889
通过正则表达式匹配出手机号码、固定电话、QQ号、微信号、身份证号;通过前缀字典对文本快速分词,对不在字典内的词通过HMM算法进行特征抽象。
二、通过分词结果预测文本类型
将分词的结果与内部的分类特征样本通过朴素贝叶斯算法,判断文本所属类别,得到一个文本所属案情类别的概率。对于不同类型的文本,对应着不同的权重,通过决策树对文本完成评分操作。
比如对于上面的原始样例文本:
文本分词结果为:“A/ 村/ 村民/ 报警/ ,/ 苏/ B2222/ 堵路/ ,/ 车主/ 手机号/179510998889;B/ 街道/ 市民/ 报警/ ,/ 苏/ A/ / 1234/ 占道/ ,/ 车主/ 手机号/179510998889”
根据警情类型权重字典通过贝叶斯分类器判定该警情属于移车类警情文本,与历史数据进行关键信息碰撞,发现手机号是存在关联的,通过决策树进行警情评分,评分20,不做预警。
三、通过图完成数据碰撞
将警情信息与文本关键信息抽取后的数据如:手机号码、固定电话、QQ号、微信号、车牌、身份证号等,放入数据碰撞模型图(如图2所示)的节点中,利用图论中的单源最短路径算法得到关联数据抽取;BFS算法得到两个数据关联之间所有关联信息。
示例文本抽取后的数据为:
警情编号 地址 车牌 手机号
J001 A村 苏B2222 179510998889
J002 B街道 苏A 1234 179510998889
通过图模型发现,对于这两个警情,涉案人的关联在于有着同一个手机号码,通过BFS算法可以通过手机号码将J001与J002进行关联。
综上所述,本发明利用对警情文本分词的结果与警情关键词库,采用贝叶斯分类器得到一个警情文本分类的类别概率,然后将类别概率与警情权重通过决策树累加得到一个评分结果。具体实施时可以通过提取警情文本的特殊标识如身份证号等去关联相关文本的方式,易于操作。本发明可以实现基于对警情的重要性区分以及对警情的所有特征信息分析后完成的碰撞。

Claims (6)

1.一种基于贝叶斯预测的处警、接警信息评分方法,其特征在于包含以下步骤:
S1:通过正则表达式匹配出个人信息进行分词;
S2:通过分词结果预测文本类型,将分词的结果与内部的分类特征样本通过朴素贝叶斯算法判断文本所属类别,得到一个文本所属案情类别的概率;
S3:通过数据碰撞模型图进行数据碰撞,完成警情关联。
2.根据权利要求1所述的基于贝叶斯预测的处警、接警信息评分方法,其特征在于步骤1中分词可以通过前缀字典对文本进行快速分词,对不在字典内的词可以通过HMM算法进行特征抽象。
3.根据权利要求1所述的基于贝叶斯预测的处警、接警信息评分方法,其特征在于所述个人信息包括手机号码、固定电话、QQ号、微信号、身份证号。
4.根据权利要求1所述的基于贝叶斯预测的处警、接警信息评分方法,其特征在于步骤2中对于不同的文本类型,赋予不同的权重,通过决策树对文本完成评分操作。
5.根据权利要求1所述的基于贝叶斯预测的处警、接警信息评分方法,其特征在于步骤3具体包括将警情信息与文本关键信息抽取后的数据放入碰撞模型图的节点中,利用图论中的单源最短路径算法得到关联数据抽取,然后通过搜索算法得到两个数据关联之间所有关联信息。
6.根据权利要求5所述的基于贝叶斯预测的处警、接警信息评分方法,其特征在于所述搜索算法为BFS算法。
CN201710782155.9A 2017-09-02 2017-09-02 一种基于贝叶斯预测的处警、接警信息评分方法 Withdrawn CN107783959A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710782155.9A CN107783959A (zh) 2017-09-02 2017-09-02 一种基于贝叶斯预测的处警、接警信息评分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710782155.9A CN107783959A (zh) 2017-09-02 2017-09-02 一种基于贝叶斯预测的处警、接警信息评分方法

Publications (1)

Publication Number Publication Date
CN107783959A true CN107783959A (zh) 2018-03-09

Family

ID=61437993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710782155.9A Withdrawn CN107783959A (zh) 2017-09-02 2017-09-02 一种基于贝叶斯预测的处警、接警信息评分方法

Country Status (1)

Country Link
CN (1) CN107783959A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492110A (zh) * 2018-11-28 2019-03-19 南京中孚信息技术有限公司 文档分类方法及装置
CN111339768A (zh) * 2020-02-27 2020-06-26 携程旅游网络技术(上海)有限公司 敏感文本检测方法、系统、电子设备及介质
CN113111898A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于支持向量机的车辆类型确定方法和装置
CN113111234A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于正则表达式的处警警情类别确定方法和装置
CN116385965A (zh) * 2023-03-17 2023-07-04 深圳市明源云科技有限公司 流浪动物识别方法、设备及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133434A1 (en) * 2004-11-12 2008-06-05 Adnan Asar Method and apparatus for predictive modeling & analysis for knowledge discovery
CN101201835A (zh) * 2007-12-21 2008-06-18 四川大学 应急联动警情自动分类系统
CN103886533A (zh) * 2014-04-04 2014-06-25 四川天翼网络服务有限公司 扁平化指挥信息系统处警辅助系统及方法
CN104992557A (zh) * 2015-05-13 2015-10-21 浙江银江研究院有限公司 一种城市交通警情等级预测方法
CN105912576A (zh) * 2016-03-31 2016-08-31 北京外国语大学 情感分类方法及系统
CN106096623A (zh) * 2016-05-25 2016-11-09 中山大学 一种犯罪识别与预测方法
CN106326585A (zh) * 2016-08-29 2017-01-11 东软集团股份有限公司 基于贝叶斯网络推理的预测分析方法以及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133434A1 (en) * 2004-11-12 2008-06-05 Adnan Asar Method and apparatus for predictive modeling & analysis for knowledge discovery
CN101201835A (zh) * 2007-12-21 2008-06-18 四川大学 应急联动警情自动分类系统
CN103886533A (zh) * 2014-04-04 2014-06-25 四川天翼网络服务有限公司 扁平化指挥信息系统处警辅助系统及方法
CN104992557A (zh) * 2015-05-13 2015-10-21 浙江银江研究院有限公司 一种城市交通警情等级预测方法
CN105912576A (zh) * 2016-03-31 2016-08-31 北京外国语大学 情感分类方法及系统
CN106096623A (zh) * 2016-05-25 2016-11-09 中山大学 一种犯罪识别与预测方法
CN106326585A (zh) * 2016-08-29 2017-01-11 东软集团股份有限公司 基于贝叶斯网络推理的预测分析方法以及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
范敏: "基于贝叶斯网络的学习与决策方法研究及应用", 《中国博士学位论文全文数据库》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492110A (zh) * 2018-11-28 2019-03-19 南京中孚信息技术有限公司 文档分类方法及装置
CN113111898A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于支持向量机的车辆类型确定方法和装置
CN113111234A (zh) * 2020-02-13 2021-07-13 北京明亿科技有限公司 基于正则表达式的处警警情类别确定方法和装置
CN111339768A (zh) * 2020-02-27 2020-06-26 携程旅游网络技术(上海)有限公司 敏感文本检测方法、系统、电子设备及介质
CN111339768B (zh) * 2020-02-27 2024-03-05 携程旅游网络技术(上海)有限公司 敏感文本检测方法、系统、电子设备及介质
CN116385965A (zh) * 2023-03-17 2023-07-04 深圳市明源云科技有限公司 流浪动物识别方法、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN107783959A (zh) 一种基于贝叶斯预测的处警、接警信息评分方法
CN107944480B (zh) 一种企业行业分类方法
CN109547423B (zh) 一种基于机器学习的web恶意请求深度检测系统及方法
Alomari et al. Road traffic event detection using twitter data, machine learning, and apache spark
CN112632980A (zh) 一种基于大数据深度学习的企业分类方法、系统及电子设备
CN103632168A (zh) 一种机器学习中的分类器集成方法
CN109492105B (zh) 一种基于多特征集成学习的文本情感分类方法
CN111177367B (zh) 案件分类方法、分类模型训练方法及相关产品
CN110188092B (zh) 一种挖掘人民调解中新型矛盾纠纷的系统及方法
CN109657058A (zh) 一种公告信息的抽取方法
CN110704616B (zh) 设备告警工单识别方法及装置
CN107145516A (zh) 一种文本聚类方法及系统
CN111353050A (zh) 一种电信客服垂直领域的词库构建方法及工具
CN104462229A (zh) 一种事件分类方法及装置
CN114896305A (zh) 一种基于大数据技术的智慧互联网安全平台
CN112001170A (zh) 一种识别经过变形的敏感词的方法和系统
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
CN103902733A (zh) 基于疑问词扩展的信息检索方法
CN109933619A (zh) 一种半监督分类预测方法
CN109033351A (zh) 案情数据的归并方法及装置
CN110008699A (zh) 一种基于神经网络的软件漏洞检测方法及装置
CN114398891B (zh) 基于日志关键词生成kpi曲线并标记波段特征的方法
Ningsih et al. Global recession sentiment analysis utilizing VADER and ensemble learning method with word embedding
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
CN113010705B (zh) 标签预测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20180309