CN113420559A - 一种警情信息分层要素识别方法和计算机 - Google Patents

一种警情信息分层要素识别方法和计算机 Download PDF

Info

Publication number
CN113420559A
CN113420559A CN202110690157.1A CN202110690157A CN113420559A CN 113420559 A CN113420559 A CN 113420559A CN 202110690157 A CN202110690157 A CN 202110690157A CN 113420559 A CN113420559 A CN 113420559A
Authority
CN
China
Prior art keywords
grained
coarse
fine
model
elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110690157.1A
Other languages
English (en)
Inventor
吴瑞萦
何莹
李直旭
陈耀玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Zhihuigu Technology Service Co ltd
Original Assignee
Suzhou Zhihuigu Technology Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Zhihuigu Technology Service Co ltd filed Critical Suzhou Zhihuigu Technology Service Co ltd
Priority to CN202110690157.1A priority Critical patent/CN113420559A/zh
Publication of CN113420559A publication Critical patent/CN113420559A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种警情信息分层要素识别方法及计算机,该方法包括:利用实体识别模型从警情信息中抽取粗粒度要素类别的粗粒度警情要素;利用阅读理解模型从粗粒度警情要素中提取细粒度要素类别的细粒度警情要素。经过实体识别和阅读理解这样的分层要素识别模型,能够准确且高效的从警情文本中抽取出细粒度的警情要素信息。

Description

一种警情信息分层要素识别方法和计算机
技术领域
本发明涉及公安管理领域,特别是涉及一种警情信息分层要素识别方法和计算机。
背景技术
警情要素识别任务是从海量的警情文本中抽取出关键的要素信息。例如,警情案件中参与的人,警情事件发生的时间、地点以及警情中涉及的物品、工具和相关金额。提取这些信息不仅有助于警情的分类,同时对各类警情案件的关联关系识别也起到关键性的作用。然而,传统的人工分析的方法,存在效率低,误差率高等问题。随着机器学习和深度神经网络技术的发展,通过自然语言处理领域的相关技术能够很好的辅助民警提取和分析警情文本中的信息。
常见的警情事件要素识别技术多采用实体识别的方法,例如“王月,王孟轩,张胜,等.基于BERT的警情文本命名实体识别[J].计算机应用,2020,40(2):535-540.”公开了了一种的实体识别方法,即利用深度神经网络来学习警情文本的上下文信息,再通过条件随机场来预测文本中每一个字符的所属类别,即事先定义好的事件论元,例如,人物、时间、地点、工具等。
这种方法虽然简单直接,但警情文本中的信息多样且复杂,不同类型的警情所包含的要素类别也各有差距。例如,在诈骗类警情中存在嫌疑人、受害人,而在殴打类的警情人物中一般存在双方当事人。并且,人物信息中又细分姓名、性别、年龄、居住地、暂住地等信息。同时,时间和地方也各不相同。例如,案发时间和出警时间。仅仅通过一层实体识别模型很难将这些要素准确的抽取出来。当要素类别粒度较粗时,无法精准的获得警情的关键信息,当要素类别粒度较细时,模型识别能力会随着类别的增加而降低。针对该问题,我们提出了一种分层的要素识别方法。
发明内容
本发明的目的是克服现有技术中的不足之处,提供一种警情信息分层要素识别方法及计算机。
为实现上述目的,本发明一方面提供一种警情信息分层要素识别方法,包括:
利用实体识别模型从警情信息中抽取粗粒度要素类别的粗粒度警情要素;
利用阅读理解模型从粗粒度警情要素中提取细粒度要素类别的细粒度警情要素。
优选地,所述实体识别模型包括:
用于获得上下文语义向量的语义向量模型,和
用于为文本中每个字符预测其粗粒度要素类别标签的序列化标注模型。
优选地,所述语义向量模型为Bert模型。
优选地,所述序列化标注模型为Bi-LSTM+CRF模型。
优选地,所述粗粒度要素类别包括:时间、地点、任务、和物品。
优选地,所述利用阅读理解模型从粗粒度警情要素中,提取细粒度要素类别的细粒度警情要素包括:
将细粒度要素类别对应的问题和粗粒度警情要素作为阅读理解模型的输入,输出该粗粒度警情要素中该问题对应的细粒度警情要素信息。
优选地,所述输出该粗粒度警情要素中该问题对应的细粒度警情要素信息包括:
输出细粒度警情要素在所述粗粒度警情要素中的位置信息。
优选地,所述细粒度警情要素在所述粗粒度警情要素中的位置信息包括:
细粒度警情要素在所述粗粒度警情要素中的起始位置和结束位置、或
细粒度警情要素在所述粗粒度警情要素中的起始位置和长度信息。
优选地,所述粗粒度要素类别为人物时,对应的细粒度要素类别包括:姓名、性别、身份证、联系方式、住址、民族、职业、和/或工作单位;
所述所述粗粒度要素类别为物品时,对应的细粒度要素类别包括:物品名称、数量、颜色、和/或金额。
本发明另一方面还提供一种计算机,包括:处理器和存储器,所述处理器用于执行存储器中的代码,以执行如上述的警情信息分层要素识别方法。
本发明经过实体识别和阅读理解这样的分层要素识别模型,能够准确且高效的从警情文本中抽取出细粒度的警情要素信息。
本发明的其他有益效果将在说明书中进行进一步说明。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种警情信息分层要素识别方法的流程图;
图2为序列化标注示意图;
图3为实体识别模型的结构及输入输出结果示意图;
图4为阅读理解模型的输入和输出示意图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施方式。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本发明的公开内容理解的更加透彻全面。
本发明实施例通过一种全新的分层级的警情要素识别模型,该模型分别从粗粒度要素和细粒度要素两个层级来抽取和识别警情文本中的关键信息,根据各类要素的相关特征分别通过实体识别模型和阅读理解模型来完成各个任务的信息抽取和识别。分层级的警情要素识别模型不仅能够让各个子模型完成其擅长的自然语言处理任务,提升整体模型的性能效果。同时,也能识别出细粒度的警情信息,更好的辅助下游的警情任务。
以下对本发明进行详细说明。
图1示出了本发明实施例提供的一种警情信息分层要素识别方法的流程图,参见图1,该方法包括:
步骤S101:利用实体识别模型从警情信息中抽取粗粒度要素类别的粗粒度警情要素。
警情信息可以是原始的警情文本。
粗粒度要素类别可以包括时间、地点、任务、和物品等。
实体识别模型是自然语言处理领域的一个非常基础且有效的算法模型,它在处理序列化标注任务时尤为擅长。如图2所示,我们要识别出文本“张三在酒吧殴打李四”中的人物“张三”和“李四”,以及案件的发生地点“酒吧”。
为了实现粗粒度警情要素的抽取,实体识别模型可以包括用于获得上下文语义向量的语义向量模型,和用于为文本中每个字符预测其粗粒度要素类别标签的序列化标注模型。语义向量模型的输出可以作为序列化标注模型的输入的基础。
通过序列化标注模型,对文本中的每一个字符预测标签,人物模型预测为Per(Person),地点预测为Loc(Loction),标注集可以采用BIOES(B表示实体开头,E表示实体结尾,I表示实体内部,O表示非实体)。
序列化标注模型有很多,从早期的机器学习的隐马尔可夫(HMM)模型和条件随机场(CRF)模型,到后来深度神经网络的Bi-LSTM+CRF模型,直至目前Bert等语言模型的出现,使得序列化标注模型的性能效果越来越好。
在本发明实施例中采用Bert预训练模型和经典的Bi-LSTM+CRF模型来预测警情文本中的粗粒度要素。其中Bert模型为语义向量模型,Bi-LSTM+CRF模型作为序列化标注模型。
参见图3示出的实体识别模型的结构及输入输出结果示意图,在自然语言处理领域的很多任务中,Bert预训练模型都表现出绝对优势的成绩。相较于其他预训练词向量,Bert使用了双向的语言模型,能够更好的表达文本的上下文语义信息。如图3所示,本发明实施例将警情文本输入到Bert中,获得文本的上下文语义向量,再通过Bi-LSTM+CRF序列化标注模型,为文本中的每一个字符预测出其对应的粗粒度要素标签。
图3的示例中定义了三类粗粒度要素标签,分别是时间(Time)、地点(Loction)、人物(Person)、物品(Good)。序列化标注任务的结果和标签类别直接相关,当要素类别定义的很细时,模型预测的类别就越多,效果就越差。因此,在警情要素识别的第一个阶段,文本中的人物信息,例如姓名、性别、手机号、身份证号都统一标注为人物。同样,与物品相关的描述信息也不做细分类,例如数量、颜色、物品名称、金额等,统一标注为物品。这样定义标签即有助于模型学习各类标签的分布特点,也有助于模型去预测每类标签,提升模型预测的准确率。
但仅仅获得这些粗粒度的警情数据信息是远远不够的,人物的身份证号能够辅助民警锁定具体的涉案人员,涉案金额能够辅助民警对警情分类。因此需要对粗粒度警情要素进行进一步细分。
步骤S102:利用阅读理解模型从粗粒度警情要素中提取细粒度要素类别的细粒度警情要素。
如表1所示,粗粒度人物数据中通常包含了姓名,性别,身份证,联系方式,暂住地,户籍地,民族,职业,单位等关键信息,粗粒度物品数据中通常包含了物品名称,数量,颜色,金额等关键信息,粗粒度银行账户数据中通常包含了银行卡号,所属银行,开户人,开户行等关键信息。
表1
Figure BDA0003126341850000051
Figure BDA0003126341850000061
在本实施例中,利用阅读理解模型从粗粒度警情要素中,提取细粒度要素类别的细粒度警情要素可以包括:
将细粒度要素类别对应的问题和粗粒度警情要素作为阅读理解模型的输入,输出该粗粒度警情要素中该问题对应的细粒度警情要素信息。
为了从这些预测的粗粒度要素信息中提取出以上的几种细粒度信息,可以将要素识别任务转换成问答对(Question-Answer)来处理。例如,如果想知道涉案人员的身份证号码时,可以向模型输入问句:“人物的身份证号是多少?”,模型就返回给我们身份证号对应的文本索引和相应的文本描述“320722199002251615”。当提出的问题在警情文本中没有涉及时,例如,“人物的职业是什么?”,模型应返回空,即没有对应的答案。对于这类任务场景,阅读理解模型能够有效的解决此问题。
图4示出了阅读理解模型的输入和输出示意图。将作为粗粒度警情要素的文本和作为细粒度要素类别对应的问题的问句输入拼接在一起,并可以通过特殊字符[CLS],[SEP]标识开头、结尾以及区分文本和问句。并将拼接好<context,answer>对输入到作为阅读理解模型的Bert模型中,最终模型会返回答案的位置信息,即细粒度警情要素在粗粒度警情要素中的位置信息。位置信息可以是开始位置(start)和结束(end)位置,也可以是开始位置和长度信息。这里,在一个优选的实施方式中,可以设置一个阈值k,当预测的start和end小于阈值k时,默认该段文本中没有问题的答案。
最终,经过实体识别和阅读理解这样的分层要素识别模型,能够准确且高效的从警情文本中抽取出细粒度的警情要素信息。
本发明另一实施例还提供一种计算机,包括:处理器和存储器,所述处理器用于执行存储器中的代码,以执行上述实施例所述的警情信息分层要素识别方法。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种警情信息分层要素识别方法,其特征在于,包括:
利用实体识别模型从警情信息中抽取粗粒度要素类别的粗粒度警情要素;
利用阅读理解模型从粗粒度警情要素中提取细粒度要素类别的细粒度警情要素。
2.如权利要求1所述的方法,其特征在于,所述实体识别模型包括:
用于获得上下文语义向量的语义向量模型,和
用于为文本中每个字符预测其粗粒度要素类别标签的序列化标注模型。
3.如权利要求2所述的方法,其特征在于,所述语义向量模型为Bert模型。
4.如权利要求2所述的方法,其特征在于,所述序列化标注模型为Bi-LSTM+CRF模型。
5.如权利要求1所述的方法,其特征在于,所述粗粒度要素类别包括:时间、地点、任务、和物品。
6.如权利要求1所述的方法,其特征在于,所述利用阅读理解模型从粗粒度警情要素中,提取细粒度要素类别的细粒度警情要素包括:
将细粒度要素类别对应的问题和粗粒度警情要素作为阅读理解模型的输入,输出该粗粒度警情要素中该问题对应的细粒度警情要素信息。
7.如权利要求6所述的方法,其特征在于,所述输出该粗粒度警情要素中该问题对应的细粒度警情要素信息包括:
输出细粒度警情要素在所述粗粒度警情要素中的位置信息。
8.如权利要求7所述的方法,其特征在于,所述细粒度警情要素在所述粗粒度警情要素中的位置信息包括:
细粒度警情要素在所述粗粒度警情要素中的起始位置和结束位置、或
细粒度警情要素在所述粗粒度警情要素中的起始位置和长度信息。
9.如权利要求1所述的方法,其特征在于,所述粗粒度要素类别为人物时,对应的细粒度要素类别包括:姓名、性别、身份证、联系方式、住址、民族、职业、和/或工作单位;
所述所述粗粒度要素类别为物品时,对应的细粒度要素类别包括:物品名称、数量、颜色、和/或金额。
10.一种计算机,其特征在于,包括:处理器和存储器,所述处理器用于执行存储器中的代码,以执行如权利要求1至9中任意一项所述的警情信息分层要素识别方法。
CN202110690157.1A 2021-06-22 2021-06-22 一种警情信息分层要素识别方法和计算机 Pending CN113420559A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110690157.1A CN113420559A (zh) 2021-06-22 2021-06-22 一种警情信息分层要素识别方法和计算机

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110690157.1A CN113420559A (zh) 2021-06-22 2021-06-22 一种警情信息分层要素识别方法和计算机

Publications (1)

Publication Number Publication Date
CN113420559A true CN113420559A (zh) 2021-09-21

Family

ID=77789881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110690157.1A Pending CN113420559A (zh) 2021-06-22 2021-06-22 一种警情信息分层要素识别方法和计算机

Country Status (1)

Country Link
CN (1) CN113420559A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114549177A (zh) * 2022-02-22 2022-05-27 招商银行股份有限公司 保函审查方法、装置、系统与计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199501A (zh) * 2020-10-13 2021-01-08 华中科技大学 一种科技信息文本分类方法
EP3767516A1 (en) * 2019-07-18 2021-01-20 Ricoh Company, Ltd. Named entity recognition method, apparatus, and computer-readable recording medium
CN112347783A (zh) * 2020-11-11 2021-02-09 湖南数定智能科技有限公司 无触发词的警情笔录数据事件类型识别方法
CN112347249A (zh) * 2020-10-30 2021-02-09 中科曙光南京研究院有限公司 一种警情要素提取系统及其提取方法
CN112765980A (zh) * 2021-02-01 2021-05-07 广州市刑事科学技术研究所 一种面向警情笔录的事件论元角色抽取方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3767516A1 (en) * 2019-07-18 2021-01-20 Ricoh Company, Ltd. Named entity recognition method, apparatus, and computer-readable recording medium
CN112199501A (zh) * 2020-10-13 2021-01-08 华中科技大学 一种科技信息文本分类方法
CN112347249A (zh) * 2020-10-30 2021-02-09 中科曙光南京研究院有限公司 一种警情要素提取系统及其提取方法
CN112347783A (zh) * 2020-11-11 2021-02-09 湖南数定智能科技有限公司 无触发词的警情笔录数据事件类型识别方法
CN112765980A (zh) * 2021-02-01 2021-05-07 广州市刑事科学技术研究所 一种面向警情笔录的事件论元角色抽取方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
空腹熊猫: ""自然语言处理:bert用于问答系统"", pages 1 - 3, Retrieved from the Internet <URL:https://blog.csdn.net/guangyacyb/article/details/105526482> *
陈永俊: ""基于NLP技术的警情文本数据分析应用"", 《公安信息化》, no. 2021 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114549177A (zh) * 2022-02-22 2022-05-27 招商银行股份有限公司 保函审查方法、装置、系统与计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110580335B (zh) 用户意图的确定方法及装置
CN112784578B (zh) 法律要素提取方法、装置和电子设备
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
Mehmood et al. A precisely xtreme-multi channel hybrid approach for roman urdu sentiment analysis
CN110599324A (zh) 一种用于回款率预测的方法和装置
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN112667813B (zh) 用于裁判文书的敏感身份信息的识别方法
CN111783471A (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN111091004A (zh) 一种语句实体标注模型的训练方法、训练装置及电子设备
CN114443842A (zh) 战略性新兴产业分类方法及装置、存储介质和电子设备
CN112541055B (zh) 一种确定文本标签的方法及装置
CN113420559A (zh) 一种警情信息分层要素识别方法和计算机
CN117910648A (zh) 企业违约预测方法、装置及计算设备
CN112270189A (zh) 一种提问式的分析节点生成方法、系统及存储介质
CN115730237B (zh) 垃圾邮件检测方法、装置、计算机设备及存储介质
CN117670017A (zh) 一种基于事件的风险识别方法、装置以及电子设备
CN116166792A (zh) 一种基于模板的中文隐私政策摘要生成方法和装置
EP4198808A1 (en) Extraction of tasks from documents using weakly supervision
CN116186241A (zh) 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
AU2021104218A4 (en) A system for identification of personality traits and a method thereof
CN115017894A (zh) 一种舆情风险识别方法及装置
Wang et al. Personal health mention identification from tweets using convolutional neural network
CN116882416B (zh) 一种招标文件的信息识别方法及系统
Kayte et al. A Neural NLP Framework for an Optimized UI for Creating Tenders in the TED Database of the EU

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination