CN112347249A - 一种警情要素提取系统及其提取方法 - Google Patents
一种警情要素提取系统及其提取方法 Download PDFInfo
- Publication number
- CN112347249A CN112347249A CN202011195713.XA CN202011195713A CN112347249A CN 112347249 A CN112347249 A CN 112347249A CN 202011195713 A CN202011195713 A CN 202011195713A CN 112347249 A CN112347249 A CN 112347249A
- Authority
- CN
- China
- Prior art keywords
- alarm
- words
- text
- elements
- element extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 208
- 238000012545 processing Methods 0.000 claims abstract description 53
- 238000011160 research Methods 0.000 claims abstract description 22
- 239000000284 extract Substances 0.000 claims abstract description 6
- 239000000463 material Substances 0.000 claims description 14
- 210000001503 joint Anatomy 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 12
- 241000282472 Canis lupus familiaris Species 0.000 claims description 6
- 241000282326 Felis catus Species 0.000 claims description 6
- 239000011521 glass Substances 0.000 claims description 6
- 230000008520 organization Effects 0.000 claims description 6
- 235000014101 wine Nutrition 0.000 claims description 6
- 238000000034 method Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims 2
- 238000011835 investigation Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000005728 strengthening Methods 0.000 description 4
- 238000007689 inspection Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Alarm Systems (AREA)
Abstract
本发明公开了一种警情要素提取系统包括:用于进行对时间词提取的时间要素提取模块;用于进行对地点要素提取的地点要素提取模块;用于进行对人物要素提取的人物要素提取模块;用于进行对事件要素提取的事件要素提取模块;用于进行对物品要素提取的物品要素提取模块;用于进行对结果要素提取的结果要素提取模块;用于进行对手段要素提取的手段要素提取模块。本发明设计时间要素提取模块、地点要素提取模块、人物要素提取模块、事件要素提取模块、物品要素提取模块、结果要素提取模块、手段要素提取模块,对接处警文本数据中自动化提取时间、地点、人物、事件、物品、结果、手段等警情要素,进而为今后公安工作的信息研判和科学决策提供可靠依据。
Description
技术领域
本发明涉及一种警情要素提取系统,具体是一种警情要素提取系统及其提取方法。
背景技术
在公安接处警日常工作中,需要及时、准确地将接处警工作录入接处警系统中,为公安工作的信息研判和科学决策提供可靠依据。在录入接处警系统的数据中,以文本方式存储的接警内容、处警内容通常包含警情的关键要素,如时间、地点、人物、事件、结果、手段等,对警情的描述最为具体,其中包含的信息量也最大。
然而,由于接处警内容是以文本方式存储的自然语言,结构性差、规范性不高,夹杂着很多口语、符号等内容,因此分析难度很高,给后续的情报研判、科学决策带来了很大难度。目前基于接处警内容的要素提取还是一个亟需得到填补的技术空白。
发明内容
发明目的:提供一种警情要素提取系统,以解决现有技术存在的上述问题。
技术方案:一种警情要素提取系统,包括:
用于进行对时间词提取的时间要素提取模块;
用于进行对地点要素提取的地点要素提取模块;
用于进行对人物要素提取的人物要素提取模块;
用于进行对事件要素提取的事件要素提取模块;
用于进行对物品要素提取的物品要素提取模块;
用于进行对结果要素提取的结果要素提取模块;
以及用于进行对手段要素提取的手段要素提取模块。
在进一步实施例中,所述时间要素提取模块主要进行完成对接处警文本的分词、词性标注,进而筛选出词性标注为“时间词”的词语;
筛选出的时间类词会存在将一段完整的时间词进行拆分,如将“2020年10月19日10点19分”拆分为“2020年”、“10月19日”、“10点10分”等;
因此需要根据其在文本中的位置信息对时间词进行合并、拼接;当两个时间词同时满足以下两个条件时,将两个词合并成一个词:
1、两个词在原文中处在相邻的位置;
2、后一个词的时间量词维度小于前一个词的时间量词维度;
所述时间量词维度从高到低为“年”、“月”、“日/号”、“上午/早上/中午/下午/晚上/凌晨”、“时/点”、“分”,进而完成对时间要素的提取;
设计时间要素提取模块,主要为了进行对警情的时间要素进行提取,进而将与案件相关的时间信息进行分类提取,进而以供后续审查中进行使用。
在进一步实施例中,所述地点要素提取模块主要进行完成对接处警文本的分词、词性标注,进行筛选出地点类的词;
地点类的词包括词性为“地名”、词性为“机构团体”,以及包含新城、花园、中心、花苑、家园、小区、公司、酒店,并且字符长度大于3的名词;
对筛选出的地点类词,当两个词在原文本中是在一句话中,且两个词间隔的字符不超过2个,则进行将两个地点类词合并;对合并之后的每个词,在原来的接处警文本中找到包含该词的句子,进而在所述句子中提取路牌号、楼栋号、门牌号、房内位置、方位词等地点要素;
所述路牌号包括XX号、XX组、XX区、XX单元;
所述楼栋号包括XX栋、XX幢、XX座、XX-等;
所述门牌号包括XX室;
所述房内位置包括宿舍、卧室、厨房、客厅、书房、房间、站台、停车场、厕所、卫生间、加油站等;
所述方位词包括边上、楼上、附近、里面、外面、里、外、口、下、前、后、边、内等;
将提取到的地址要素与原地点类词依次拼接,形成一条完整的地点要素;
如果从原接处警文本中提取到多条地点要素,则将地点要素按出现顺序依次判定为报警地址、第一案发地址、第二案发地址,设计地点要素提取模块,主要为了进行完成对警情的地点提取,进而避免因输入文本的不规范,进而使得后续公安工作的信息研判和科学决策造成影响,增加后续公安工作的信息研判和科学决策对的工作负担。
在进一步实施例中,所述人物要素提取模块主要进行完成对接处警文本中与警情相关的人员身份证号信息提取,所述警情相关人员包括报案人、当事人等;
警情相关的人员身份证号信息提取判定规则为:
1. 第1位为数字1-9;
2. 第2~6位为任意数字;
3. 第7~8位为18或19或20;
4. 第9~10位为任意数字;
5. 第11~12位为下列情况任意一种:
5.1第11位为0,第12位为1-9的任意数字;
5.2 10或11或12;
6. 第13~14位为下列情况任意一种:
6.1 第一位为0或1或2,第二位为1~9;
6.2 10或20或30或31;
7. 第15~17位为任意数字;
8. 第18位为0~9中任意数字或X或x。
将上述规则用正则表达式表示为:
“[1-9]\\d{5}(18|19|20)\\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\\d{3}[0-9Xx]”;
根据身份证号正则表达式提取接处警文本中的身份证号,然后将身份证号左边距离最近的左括号,所述左括号包括“(”和“(”,及身份证号右边距离最近的右括号,所述右括号包括 “)”和“)”的中间的内容截取出来;
将左括号前面四个字符与中文人名的正则表达式相匹配,提取出人员姓名;对截取出括号间的文本内容,通过手机号正则表达式提取人员手机号码;
通过设计人物要素提取模块进行完成对与案件相关人员的身份信息,进而完成对报案人、当事人、目击人等身份核实,进而以供后续公安工作的信息研判和科学决策提供规范性材料及信息。
在进一步实施例中,所述事件要素提取模块主要进行完成对接处警文本通过触发词截取文本中的事件信息;
根据业务规则,将事件描述开始和结束的触发词事先录入触发词中;
例如事件描述的开始触发词包括:“报警人称、报警称、报案称、经了解、指令称、经了解系、处警了解、110报警指令、接110指令、反诈中心报、民警了解、经查看系、称:、报警人、12345报、报警”;
事件描述的结束触发词包括“接警后、经民警、经电话联系、经联系、民警、后处警民警、处警人员、移交线索、已通知、现民警、现场将、现将、现已、电话联系报警人、经现场、作案手段、无需处警、自行来所、所内、未接受过、接受过、电话联系、了解情况后”等;
首先将事件描述开始和结束触发词中间的文本内容截取出来,然后进行判断,当截取出的文本内容长度大于3,将该文本放入事件列表中;
而放入事件列表中的文本为事件要素;
通过设计事件要素提取模块进行完成对案件事件的要素提取,进而确认案发事件,进而以供后续公安工作的信息研判和科学决策提供规范性材料及信息。
在进一步实施例中,所述物品要素提取模块主要进行完成对接处警文本通过触发词截取文本中的物品信息;
将需要提取的物品事先录入触发词中;物品触发词包括“钥匙、耳机、发票、汽车、手机、电动车、电瓶车、自行车、酒、医保卡、麻将、牌九、电脑、会员卡、宠物、狗、猫、眼镜、游戏、装备、快递、银行卡”等;
然后将接处警文本与物品触发词进行匹配,进而提取文本中的物品要素;
通过物品要素提取进行提取出相关案件的相关证物,进而供给后续公安工作的信息研判和科学决策提供规范性物证信息。
在进一步实施例中,所述结果要素提取模块主要进行完成对接处警文本通过触发词截取文本中的结果要素信息;
根据业务规则,将结果要素描述的触发词事先录入触发词中;结果要素描述触发词包括“展开调查、开展调查、现场调解、取消报警、自行协商、和解、无需处警、出警撤回、带回所、现场询问、传唤、口头教育、现场劝说、加强巡逻、已无事、告知报警人、调解、双方协商、协商处理、报案材料”等;
然后将接处警文本与结果要素描述触发词进行匹配,进而提取文本中的结果要素。
在进一步实施例中,所述手段要素提取模块主要进行完成对接处警文本通过触发词截取文本中的手段要素信息;
根据业务规则,将手段描述开始和结束的触发词事先录入触发词中;手段描述的开始触发词包括“被人、以、用、通过”等;
手段描述的结束触发词包括“方式、手段、为由”等;
首先将手段描述开始和结束触发词中间的文本内容截取出来,然后判断截取出的文本长度,当截取出的文本长度低于给定阈值时,将该文本放入手段列表中;所述给定阈值为15个字符;
最终将放入手段列表中的文本作为手段要素;
在业务中,手段要素是对警情类型的一种分类方式,手段具有概括性,字符长度一般不超过15个字符,在词性上有的是动词,有的是动宾短语,有的是简称略语,如“溜门撬锁”、“顺手牵羊”、“冒充熟人”、“冒充公检法”等,在语境中通常是“XX(报警人)被人以XXX手段XXX(如刘看山被人以顺手牵羊手段盗走其放在桌上一部苹果手机)”,或“XX(嫌疑人)以XXX手段XXX(例如诈骗嫌疑人以贷款诈骗的方式骗取报警人18200元)”这类句式,因此通过触发词截取手段要素,最为有效;
通过结果要素提取模块进行完成对案件的结果要素提取,后续公安工作的信息研判和科学决策提供规范性材料及信息。
一种警情要素提取系统的提取方法,包括:
步骤1、首先时间要素提取模块进行完成对接处警文本的分词、词性标注,进而筛选出词性标注为“时间词”的词语;
筛选规则为:筛选出的时间类词会存在将一段完整的时间词进行拆分,如将“2020年10月19日10点19分”拆分为“2020年”、“10月19日”、“10点10分”等;因此需要根据其在文本中的位置信息对时间词进行合并、拼接;当两个时间词同时满足以下两个条件时,将两个词合并成一个词:
1、两个词在原文中处在相邻的位置;
2、后一个词的时间量词维度小于前一个词的时间量词维度;
所述时间量词维度从高到低为“年”、“月”、“日/号”、“上午/早上/中午/下午/晚上/凌晨”、“时/点”、“分”,进而完成对时间要素的提取;
步骤2、当时间要素提取完成后再由地点要素提取模块进行完成对接处警文本的分词、词性标注,进行筛选出地点类的词;
筛选规则为:地点类的词包括词性为“地名”、词性为“机构团体”,以及包含新城、花园、中心、花苑、家园、小区、公司、酒店,并且字符长度大于3的名词;对筛选出的地点类词,当两个词在原文本中是在一句话中,且两个词间隔的字符不超过2个,则进行将两个地点类词合并;对合并之后的每个词,在原来的接处警文本中找到包含该词的句子,进而在所述句子中提取路牌号、楼栋号、门牌号、房内位置、方位词等地点要素;
所述路牌号包括XX号、XX组、XX区、XX单元;
所述楼栋号包括XX栋、XX幢、XX座、XX-等;
所述门牌号包括XX室;
所述房内位置包括宿舍、卧室、厨房、客厅、书房、房间、站台、停车场、厕所、卫生间、加油站等;
所述方位词包括边上、楼上、附近、里面、外面、里、外、口、下、前、后、边、内等;
将提取到的地址要素与原地点类词依次拼接,进而形成一条完整的地点要素;
如果从原接处警文本中提取到多条地点要素,则将地点要素按出现顺序依次判定为报警地址、第一案发地址、第二案发地址;进而完成警情的地点要素提取;
步骤3、当地点要素提取完成后再由人物要素提取模块进行完成对接处警文本中与警情相关的人员身份证号信息提取,所述警情相关人员包括报案人、当事人等;
警情相关的人员身份证号信息提取判定规则为:
1. 第1位为数字1-9;
2. 第2~6位为任意数字;
3. 第7~8位为18或19或20;
4. 第9~10位为任意数字;
5. 第11~12位为下列情况任意一种:
5.1第11位为0,第12位为1-9的任意数字;
5.2 10或11或12;
6. 第13~14位为下列情况任意一种:
6.1 第一位为0或1或2,第二位为1~9;
6.2 10或20或30或31;
7. 第15~17位为任意数字;
8. 第18位为0~9中任意数字或X或x。
将上述规则用正则表达式表示为:
“[1-9]\\d{5}(18|19|20)\\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\\d{3}[0-9Xx]”;
根据身份证号正则表达式提取接处警文本中的身份证号,然后将身份证号左边距离最近的左括号,所述左括号包括“(”和“(”,及身份证号右边距离最近的右括号,所述右括号包括 “)”和“)”的中间的内容截取出来;
将左括号前面四个字符与中文人名的正则表达式相匹配,提取出人员姓名;对截取出括号间的文本内容,通过手机号正则表达式进行完成提取人员手机号码,进而完成对人物要素的提取;
步骤4、当人物要素提取完成后,再由事件要素提取模块进行完成对接处警文本通过触发词截取文本中的事件信息,进而完成对事件要素的提取,提取规则如下:
根据业务规则,将事件描述开始和结束的触发词事先录入触发词中;
例如事件描述的开始触发词包括:“报警人称、报警称、报案称、经了解、指令称、经了解系、处警了解、110报警指令、接110指令、反诈中心报、民警了解、经查看系、称:、报警人、12345报、报警”;
事件描述的结束触发词包括“接警后、经民警、经电话联系、经联系、民警、后处警民警、处警人员、移交线索、已通知、现民警、现场将、现将、现已、电话联系报警人、经现场、作案手段、无需处警、自行来所、所内、未接受过、接受过、电话联系、了解情况后”等;
首先将事件描述开始和结束触发词中间的文本内容截取出来,然后进行判断,当截取出的文本内容长度大于3,将该文本放入事件列表中;
而放入事件列表中的文本为事件要素,进而完成对警情的事件要素提取;
步骤5、当事件要素提取完成后,再由物品要素提取模块进行完成对接处警文本通过触发词截取文本中的物品信息;
提取规则为:将需要提取的物品事先录入触发词中;物品触发词包括“钥匙、耳机、发票、汽车、手机、电动车、电瓶车、自行车、酒、医保卡、麻将、牌九、电脑、会员卡、宠物、狗、猫、眼镜、游戏、装备、快递、银行卡”等;
然后将接处警文本与物品触发词进行匹配,进而提取文本中的物品要素,进而完成对警情的物品要素提取。
步骤6、当物品要素提取完成后,再由结果要素提取模块进行完成对接处警文本通过触发词截取文本中的结果要素信息;
提取规则为:根据业务规则,将结果要素描述的触发词事先录入触发词中;结果要素描述触发词包括“展开调查、开展调查、现场调解、取消报警、自行协商、和解、无需处警、出警撤回、带回所、现场询问、传唤、口头教育、现场劝说、加强巡逻、已无事、告知报警人、调解、双方协商、协商处理、报案材料”等;
然后将接处警文本与结果要素描述触发词进行匹配,进而提取文本中的结果要素,进而完成对警情的结果要素提取;
步骤7、当结果要素提取完成后,再由手段要素提取模块进行完成对接处警文本通过触发词截取文本中的手段要素信息;
提取规则为:根据业务规则,将手段描述开始和结束的触发词事先录入触发词中;手段描述的开始触发词包括“被人、以、用、通过”等;
手段描述的结束触发词包括“方式、手段、为由”等;
首先将手段描述开始和结束触发词中间的文本内容截取出来,然后判断截取出的文本长度,当截取出的文本长度低于给定阈值时,将该文本放入手段列表中;所述给定阈值为15个字符;
最终将放入手段列表中的文本作为手段要素,进而完成对警情的手段要素提取;
步骤8、此时再由工作人员将提取的关于时间要素、地点要素、人物要素、事件要素、物品要素、结果要素、手段要素的相关信息录入案卷初步提取要素表中,以供后续的情报研判、科学决策。
有益效果:本发明公开了一种警情要素提取系统,通过设计时间要素提取模块、地点要素提取模块、人物要素提取模块、事件要素提取模块、物品要素提取模块、结果要素提取模块、手段要素提取模块,进行对接处警文本数据中自动化提取时间、地点、人物、事件、物品、结果、手段等警情要素,进而为今后公安工作的信息研判和科学决策提供可靠依据。
附图说明
图1是本发明的系统示意图。
图2是本发明的系统模块示意图。
图3是本发明的时间要素提取模块及地点要素提取模块示意图。
图4是本发明的人物要素提取模块及事件要素提取模块示意图。
图5是本发明的物品要素提取模块、结果要素提取模块及手段要素提取模块示意图。
具体实施方式
经过申请人的研究分析,出现这一问题(接处警情分析难度很高,给后续的情报研判、科学决策带来了很大难度)的原因在于,由于接处警内容是以文本方式存储的自然语言,结构性差、规范性不高,夹杂着很多口语、符号等内容,因此分析难度很高,给后续的情报研判、科学决策带来了很大难度。目前基于接处警内容的要素提取还是一个亟需得到填补的技术空白,而本发明通过设计时间要素提取模块、地点要素提取模块、人物要素提取模块、事件要素提取模块、物品要素提取模块、结果要素提取模块、手段要素提取模块,进行对接处警文本数据中自动化提取时间、地点、人物、事件、物品、结果、手段等警情要素,进而为今后公安工作的信息研判和科学决策提供可靠依据。
一种警情要素提取系统,包括:时间要素提取模块、地点要素提取模块、人物要素提取模块、事件要素提取模块、物品要素提取模块、结果要素提取模块、手段要素提取模块;
所述时间要素提取模块用于进行对时间词提取;所述地点要素提取模块用于进行对地点要素提取;所述人物要素提取模块用于进行对人物要素提取;所述事件要素提取模块用于进行对事件要素提取;所述物品要素提取模块用于进行对物品要素提取;所述结果要素提取模块用于进行对结果要素提取;所述手段要素提取模块用于进行对手段要素提取。
所述时间要素提取模块主要进行完成对接处警文本的分词、词性标注,进而筛选出词性标注为“时间词”的词语;
筛选出的时间类词会存在将一段完整的时间词进行拆分,如将“2020年10月19日10点19分”拆分为“2020年”、“10月19日”、“10点10分”等;
因此需要根据其在文本中的位置信息对时间词进行合并、拼接;当两个时间词同时满足以下两个条件时,将两个词合并成一个词:
1、两个词在原文中处在相邻的位置;
2、后一个词的时间量词维度小于前一个词的时间量词维度;
所述时间量词维度从高到低为“年”、“月”、“日/号”、“上午/早上/中午/下午/晚上/凌晨”、“时/点”、“分”,进而完成对时间要素的提取;
设计时间要素提取模块,主要为了进行对警情的时间要素进行提取,进而将与案件相关的时间信息进行分类提取,进而以供后续审查中进行使用。
所述地点要素提取模块主要进行完成对接处警文本的分词、词性标注,进行筛选出地点类的词;
地点类的词包括词性为“地名”、词性为“机构团体”,以及包含新城、花园、中心、花苑、家园、小区、公司、酒店,并且字符长度大于3的名词;
对筛选出的地点类词,当两个词在原文本中是在一句话中,且两个词间隔的字符不超过2个,则进行将两个地点类词合并;对合并之后的每个词,在原来的接处警文本中找到包含该词的句子,进而在所述句子中提取路牌号、楼栋号、门牌号、房内位置、方位词等地点要素;
所述路牌号包括XX号、XX组、XX区、XX单元;
所述楼栋号包括XX栋、XX幢、XX座、XX-等;
所述门牌号包括XX室;
所述房内位置包括宿舍、卧室、厨房、客厅、书房、房间、站台、停车场、厕所、卫生间、加油站等;
所述方位词包括边上、楼上、附近、里面、外面、里、外、口、下、前、后、边、内等;
将提取到的地址要素与原地点类词依次拼接,形成一条完整的地点要素;
如果从原接处警文本中提取到多条地点要素,则将地点要素按出现顺序依次判定为报警地址、第一案发地址、第二案发地址,设计地点要素提取模块,主要为了进行完成对警情的地点提取,进而避免因输入文本的不规范,进而使得后续公安工作的信息研判和科学决策造成影响,增加后续公安工作的信息研判和科学决策对的工作负担。
所述人物要素提取模块主要进行完成对接处警文本中与警情相关的人员身份证号信息提取,所述警情相关人员包括报案人、当事人等;
警情相关的人员身份证号信息提取判定规则为:
1. 第1位为数字1-9;
2. 第2~6位为任意数字;
3. 第7~8位为18或19或20;
4. 第9~10位为任意数字;
5. 第11~12位为下列情况任意一种:
5.1第11位为0,第12位为1-9的任意数字;
5.2 10或11或12;
6. 第13~14位为下列情况任意一种:
6.1 第一位为0或1或2,第二位为1~9;
6.2 10或20或30或31;
7. 第15~17位为任意数字;
8. 第18位为0~9中任意数字或X或x。
将上述规则用正则表达式表示为:
“[1-9]\\d{5}(18|19|20)\\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\\d{3}[0-9Xx]”;
根据身份证号正则表达式提取接处警文本中的身份证号,然后将身份证号左边距离最近的左括号,所述左括号包括“(”和“(”,及身份证号右边距离最近的右括号,所述右括号包括 “)”和“)”的中间的内容截取出来;
将左括号前面四个字符与中文人名的正则表达式相匹配,提取出人员姓名;对截取出括号间的文本内容,通过手机号正则表达式提取人员手机号码;
通过设计人物要素提取模块进行完成对与案件相关人员的身份信息,进而完成对报案人、当事人、目击人等身份核实,进而以供后续公安工作的信息研判和科学决策提供规范性材料及信息。
所述事件要素提取模块主要进行完成对接处警文本通过触发词截取文本中的事件信息;
根据业务规则,将事件描述开始和结束的触发词事先录入触发词中;
例如事件描述的开始触发词包括:“报警人称、报警称、报案称、经了解、指令称、经了解系、处警了解、110报警指令、接110指令、反诈中心报、民警了解、经查看系、称:、报警人、12345报、报警”;
事件描述的结束触发词包括“接警后、经民警、经电话联系、经联系、民警、后处警民警、处警人员、移交线索、已通知、现民警、现场将、现将、现已、电话联系报警人、经现场、作案手段、无需处警、自行来所、所内、未接受过、接受过、电话联系、了解情况后”等;
首先将事件描述开始和结束触发词中间的文本内容截取出来,然后进行判断,当截取出的文本内容长度大于3,将该文本放入事件列表中;
而放入事件列表中的文本为事件要素;
通过设计事件要素提取模块进行完成对案件事件的要素提取,进而确认案发事件,进而以供后续公安工作的信息研判和科学决策提供规范性材料及信息。
所述物品要素提取模块主要进行完成对接处警文本通过触发词截取文本中的物品信息;
将需要提取的物品事先录入触发词中;物品触发词包括“钥匙、耳机、发票、汽车、手机、电动车、电瓶车、自行车、酒、医保卡、麻将、牌九、电脑、会员卡、宠物、狗、猫、眼镜、游戏、装备、快递、银行卡”等;
然后将接处警文本与物品触发词进行匹配,进而提取文本中的物品要素;
通过物品要素提取进行提取出相关案件的相关证物,进而供给后续公安工作的信息研判和科学决策提供规范性物证信息。
所述结果要素提取模块主要进行完成对接处警文本通过触发词截取文本中的结果要素信息;
根据业务规则,将结果要素描述的触发词事先录入触发词中;结果要素描述触发词包括“展开调查、开展调查、现场调解、取消报警、自行协商、和解、无需处警、出警撤回、带回所、现场询问、传唤、口头教育、现场劝说、加强巡逻、已无事、告知报警人、调解、双方协商、协商处理、报案材料”等;
然后将接处警文本与结果要素描述触发词进行匹配,进而提取文本中的结果要素。
所述手段要素提取模块主要进行完成对接处警文本通过触发词截取文本中的手段要素信息;
根据业务规则,将手段描述开始和结束的触发词事先录入触发词中;手段描述的开始触发词包括“被人、以、用、通过”等;
手段描述的结束触发词包括“方式、手段、为由”等;
首先将手段描述开始和结束触发词中间的文本内容截取出来,然后判断截取出的文本长度,当截取出的文本长度低于给定阈值时,将该文本放入手段列表中;所述给定阈值为15个字符;
最终将放入手段列表中的文本作为手段要素;
在业务中,手段要素是对警情类型的一种分类方式,手段具有概括性,字符长度一般不超过15个字符,在词性上有的是动词,有的是动宾短语,有的是简称略语,如“溜门撬锁”、“顺手牵羊”、“冒充熟人”、“冒充公检法”等,在语境中通常是“XX(报警人)被人以XXX手段XXX(如刘看山被人以顺手牵羊手段盗走其放在桌上一部苹果手机)”,或“XX(嫌疑人)以XXX手段XXX(例如诈骗嫌疑人以贷款诈骗的方式骗取报警人18200元)”这类句式,因此通过触发词截取手段要素,最为有效;
通过结果要素提取模块进行完成对案件的结果要素提取,后续公安工作的信息研判和科学决策提供规范性材料及信息。
工作原理说明:首先时间要素提取模块进行完成对接处警文本的分词、词性标注,进而筛选出词性标注为“时间词”的词语;筛选规则为:筛选出的时间类词会存在将一段完整的时间词进行拆分,如将“2020年10月19日10点19分”拆分为“2020年”、“10月19日”、“10点10分”等;因此需要根据其在文本中的位置信息对时间词进行合并、拼接;当两个时间词同时满足以下两个条件时,将两个词合并成一个词:
1、两个词在原文中处在相邻的位置;
2、后一个词的时间量词维度小于前一个词的时间量词维度;
所述时间量词维度从高到低为“年”、“月”、“日/号”、“上午/早上/中午/下午/晚上/凌晨”、“时/点”、“分”,进而完成对时间要素的提取;
当时间要素提取完成后再由地点要素提取模块进行完成对接处警文本的分词、词性标注,进行筛选出地点类的词;筛选规则为:地点类的词包括词性为“地名”、词性为“机构团体”,以及包含新城、花园、中心、花苑、家园、小区、公司、酒店,并且字符长度大于3的名词;对筛选出的地点类词,当两个词在原文本中是在一句话中,且两个词间隔的字符不超过2个,则进行将两个地点类词合并;对合并之后的每个词,在原来的接处警文本中找到包含该词的句子,进而在所述句子中提取路牌号、楼栋号、门牌号、房内位置、方位词等地点要素;
所述路牌号包括XX号、XX组、XX区、XX单元;
所述楼栋号包括XX栋、XX幢、XX座、XX-等;
所述门牌号包括XX室;
所述房内位置包括宿舍、卧室、厨房、客厅、书房、房间、站台、停车场、厕所、卫生间、加油站等;
所述方位词包括边上、楼上、附近、里面、外面、里、外、口、下、前、后、边、内等;
将提取到的地址要素与原地点类词依次拼接,进而形成一条完整的地点要素;
如果从原接处警文本中提取到多条地点要素,则将地点要素按出现顺序依次判定为报警地址、第一案发地址、第二案发地址;进而完成警情的地点要素提取;
当地点要素提取完成后再由人物要素提取模块进行完成对接处警文本中与警情相关的人员身份证号信息提取,所述警情相关人员包括报案人、当事人等;
警情相关的人员身份证号信息提取判定规则为:
1. 第1位为数字1-9;
2. 第2~6位为任意数字;
3. 第7~8位为18或19或20;
4. 第9~10位为任意数字;
5. 第11~12位为下列情况任意一种:
5.1第11位为0,第12位为1-9的任意数字;
5.2 10或11或12;
6. 第13~14位为下列情况任意一种:
6.1 第一位为0或1或2,第二位为1~9;
6.2 10或20或30或31;
7. 第15~17位为任意数字;
8. 第18位为0~9中任意数字或X或x。
将上述规则用正则表达式表示为:
“[1-9]\\d{5}(18|19|20)\\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\\d{3}[0-9Xx]”;
根据身份证号正则表达式提取接处警文本中的身份证号,然后将身份证号左边距离最近的左括号,所述左括号包括“(”和“(”,及身份证号右边距离最近的右括号,所述右括号包括 “)”和“)”的中间的内容截取出来;
将左括号前面四个字符与中文人名的正则表达式相匹配,提取出人员姓名;对截取出括号间的文本内容,通过手机号正则表达式进行完成提取人员手机号码,进而完成对人物要素的提取;
当人物要素提取完成后,再由事件要素提取模块进行完成对接处警文本通过触发词截取文本中的事件信息,进而完成对事件要素的提取,提取规则如下:
根据业务规则,将事件描述开始和结束的触发词事先录入触发词中;
例如事件描述的开始触发词包括:“报警人称、报警称、报案称、经了解、指令称、经了解系、处警了解、110报警指令、接110指令、反诈中心报、民警了解、经查看系、称:、报警人、12345报、报警”;
事件描述的结束触发词包括“接警后、经民警、经电话联系、经联系、民警、后处警民警、处警人员、移交线索、已通知、现民警、现场将、现将、现已、电话联系报警人、经现场、作案手段、无需处警、自行来所、所内、未接受过、接受过、电话联系、了解情况后”等;
首先将事件描述开始和结束触发词中间的文本内容截取出来,然后进行判断,当截取出的文本内容长度大于3,将该文本放入事件列表中;
而放入事件列表中的文本为事件要素,进而完成对警情的事件要素提取;
当事件要素提取完成后,再由物品要素提取模块进行完成对接处警文本通过触发词截取文本中的物品信息;
提取规则为:将需要提取的物品事先录入触发词中;物品触发词包括“钥匙、耳机、发票、汽车、手机、电动车、电瓶车、自行车、酒、医保卡、麻将、牌九、电脑、会员卡、宠物、狗、猫、眼镜、游戏、装备、快递、银行卡”等;
然后将接处警文本与物品触发词进行匹配,进而提取文本中的物品要素,进而完成对警情的物品要素提取。
当物品要素提取完成后,再由结果要素提取模块进行完成对接处警文本通过触发词截取文本中的结果要素信息;
提取规则为:根据业务规则,将结果要素描述的触发词事先录入触发词中;结果要素描述触发词包括“展开调查、开展调查、现场调解、取消报警、自行协商、和解、无需处警、出警撤回、带回所、现场询问、传唤、口头教育、现场劝说、加强巡逻、已无事、告知报警人、调解、双方协商、协商处理、报案材料”等;
然后将接处警文本与结果要素描述触发词进行匹配,进而提取文本中的结果要素,进而完成对警情的结果要素提取;
当结果要素提取完成后,再由手段要素提取模块进行完成对接处警文本通过触发词截取文本中的手段要素信息;
提取规则为:根据业务规则,将手段描述开始和结束的触发词事先录入触发词中;手段描述的开始触发词包括“被人、以、用、通过”等;
手段描述的结束触发词包括“方式、手段、为由”等;
首先将手段描述开始和结束触发词中间的文本内容截取出来,然后判断截取出的文本长度,当截取出的文本长度低于给定阈值时,将该文本放入手段列表中;所述给定阈值为15个字符;
最终将放入手段列表中的文本作为手段要素,进而完成对警情的手段要素提取;
此时再由工作人员将提取的关于时间要素、地点要素、人物要素、事件要素、物品要素、结果要素、手段要素的相关信息录入案卷初步提取要素表中,以供后续的情报研判、科学决策。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种等同变换,这些等同变换均属于本发明的保护范围。
Claims (9)
1.一种警情要素提取系统,其特征是,包括:
用于进行对时间词提取的时间要素提取模块;
用于进行对地点要素提取的地点要素提取模块;
用于进行对人物要素提取的人物要素提取模块;
用于进行对事件要素提取的事件要素提取模块;
用于进行对物品要素提取的物品要素提取模块;
用于进行对结果要素提取的结果要素提取模块;
以及用于进行对手段要素提取的手段要素提取模块。
2.根据权利要求1所述的一种警情要素提取系统,其特征是:所述时间要素提取模块主要进行完成对接处警文本的分词、词性标注,进而筛选出词性标注为“时间词”的词语;
筛选出的时间类词会存在将一段完整的时间词进行拆分,如将“2020年10月19日10点19分”拆分为“2020年”、“10月19日”、“10点10分”;
因此需要根据其在文本中的位置信息对时间词进行合并、拼接;当两个时间词同时满足以下两个条件时,将两个词合并成一个词:
1、两个词在原文中处在相邻的位置;
2、后一个词的时间量词维度小于前一个词的时间量词维度;
所述时间量词维度从高到低为“年”、“月”、“日/号”、“上午/早上/中午/下午/晚上/凌晨”、“时/点”、“分”,进而完成对时间要素的提取。
3.根据权利要求1所述的一种警情要素提取系统,其特征是:所述地点要素提取模块主要进行完成对接处警文本的分词、词性标注,进行筛选出地点类的词;
地点类的词包括词性为“地名”、词性为“机构团体”,以及包含新城、花园、中心、花苑、家园、小区、公司、酒店,并且字符长度大于3的名词;
对筛选出的地点类词,当两个词在原文本中是在一句话中,且两个词间隔的字符不超过2个,则进行将两个地点类词合并;对合并之后的每个词,在原来的接处警文本中找到包含该词的句子,进而在所述句子中提取路牌号、楼栋号、门牌号、房内位置、方位词地点要素;
所述路牌号包括XX号、XX组、XX区、XX单元;
所述楼栋号包括XX栋、XX幢、XX座;
所述门牌号包括XX室;
所述房内位置包括宿舍、卧室、厨房、客厅、书房、房间、站台、停车场、厕所、卫生间、加油站;
所述方位词包括边上、楼上、附近、里面、外面、里、外、口、下、前、后、边、内;
将提取到的地址要素与原地点类词依次拼接,形成一条完整的地点要素;
如果从原接处警文本中提取到多条地点要素,则将地点要素按出现顺序依次判定为报警地址、第一案发地址、第二案发地址。
4.根据权利要求1所述的一种警情要素提取系统,其特征是:所述人物要素提取模块主要进行完成对接处警文本中与警情相关的人员身份证号信息提取,所述警情相关人员包括报案人、当事人;
警情相关的人员身份证号信息提取判定规则为:
第1位为数字1-9;
第2~6位为任意数字;
第7~8位为18或19或20;
第9~10位为任意数字;
第11~12位为下列情况任意一种:
5.1第11位为0,第12位为1-9的任意数字;
5.2 10或11或12;
第13~14位为下列情况任意一种:
6.1 第一位为0或1或2,第二位为1~9;
6.2 10或20或30或31;
第15~17位为任意数字;
第18位为0~9中任意数字或X或x;
将上述规则用正则表达式表示为:
“[1-9]\\d{5}(18|19|20)\\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\\d{3}[0-9Xx]”;
根据身份证号正则表达式提取接处警文本中的身份证号,然后将身份证号左边距离最近的左括号,所述左括号包括“(”和“(”,及身份证号右边距离最近的右括号,所述右括号包括 “)”和“)”的中间的内容截取出来;
将左括号前面四个字符与中文人名的正则表达式相匹配,提取出人员姓名;对截取出括号间的文本内容,通过手机号正则表达式提取人员手机号码。
5.根据权利要求1所述的一种警情要素提取系统,其特征是:所述事件要素提取模块主要进行完成对接处警文本通过触发词截取文本中的事件信息;
根据业务规则,将事件描述开始和结束的触发词事先录入触发词中;
例如事件描述的开始触发词包括:“报警人称、报警称、报案称、经了解、指令称、经了解系、处警了解、110报警指令、接110指令、反诈中心报、民警了解、经查看系、称:、报警人、12345报、报警”;
事件描述的结束触发词包括“接警后、经民警、经电话联系、经联系、民警、后处警民警、处警人员、移交线索、已通知、现民警、现场将、现将、现已、电话联系报警人、经现场、作案手段、无需处警、自行来所、所内、未接受过、接受过、电话联系、了解情况后”;
首先将事件描述开始和结束触发词中间的文本内容截取出来,然后进行判断,当截取出的文本内容长度大于3,将该文本放入事件列表中;
而放入事件列表中的文本为事件要素。
6.根据权利要求1所述的一种警情要素提取系统,其特征是:所述物品要素提取模块主要进行完成对接处警文本通过触发词截取文本中的物品信息;
将需要提取的物品事先录入触发词中;物品触发词包括“钥匙、耳机、发票、汽车、手机、电动车、电瓶车、自行车、酒、医保卡、麻将、牌九、电脑、会员卡、宠物、狗、猫、眼镜、游戏、装备、快递、银行卡”;
然后将接处警文本与物品触发词进行匹配,进而提取文本中的物品要素。
7.根据权利要求1所述的一种警情要素提取系统,其特征是:所述结果要素提取模块主要进行完成对接处警文本通过触发词截取文本中的结果要素信息;
根据业务规则,将结果要素描述的触发词事先录入触发词中;结果要素描述触发词包括“展开调查、开展调查、现场调解、取消报警、自行协商、和解、无需处警、出警撤回、带回所、现场询问、传唤、口头教育、现场劝说、加强巡逻、已无事、告知报警人、调解、双方协商、协商处理、报案材料”;
然后将接处警文本与结果要素描述触发词进行匹配,进而提取文本中的结果要素。
8.根据权利要求1所述的一种警情要素提取系统,其特征是:所述手段要素提取模块主要进行完成对接处警文本通过触发词截取文本中的手段要素信息;
根据业务规则,将手段描述开始和结束的触发词事先录入触发词中;手段描述的开始触发词包括“被人、以、用、通过”;
手段描述的结束触发词包括“方式、手段、为由”;
首先将手段描述开始和结束触发词中间的文本内容截取出来,然后判断截取出的文本长度,当截取出的文本长度低于给定阈值时,将该文本放入手段列表中;所述给定阈值为15个字符;
最终将放入手段列表中的文本作为手段要素。
9.根据权利要求1所述的一种警情要素提取系统的提取方法,其特征是,包括:
步骤1、首先时间要素提取模块进行完成对接处警文本的分词、词性标注,进而筛选出词性标注为“时间词”的词语;
筛选规则为:筛选出的时间类词会存在将一段完整的时间词进行拆分,如将“2020年10月19日10点19分”拆分为“2020年”、“10月19日”、“10点10分”;因此需要根据其在文本中的位置信息对时间词进行合并、拼接;当两个时间词同时满足以下两个条件时,将两个词合并成一个词:
1、两个词在原文中处在相邻的位置;
2、后一个词的时间量词维度小于前一个词的时间量词维度;
所述时间量词维度从高到低为“年”、“月”、“日/号”、“上午/早上/中午/下午/晚上/凌晨”、“时/点”、“分”,进而完成对时间要素的提取;
步骤2、当时间要素提取完成后再由地点要素提取模块进行完成对接处警文本的分词、词性标注,进行筛选出地点类的词;
筛选规则为:地点类的词包括词性为“地名”、词性为“机构团体”,以及包含新城、花园、中心、花苑、家园、小区、公司、酒店,并且字符长度大于3的名词;对筛选出的地点类词,当两个词在原文本中是在一句话中,且两个词间隔的字符不超过2个,则进行将两个地点类词合并;对合并之后的每个词,在原来的接处警文本中找到包含该词的句子,进而在所述句子中提取路牌号、楼栋号、门牌号、房内位置、方位词地点要素;
所述路牌号包括XX号、XX组、XX区、XX单元;
所述楼栋号包括XX栋、XX幢、XX座、XX-;
所述门牌号包括XX室;
所述房内位置包括宿舍、卧室、厨房、客厅、书房、房间、站台、停车场、厕所、卫生间、加油站;
所述方位词包括边上、楼上、附近、里面、外面、里、外、口、下、前、后、边、内;
将提取到的地址要素与原地点类词依次拼接,进而形成一条完整的地点要素;
如果从原接处警文本中提取到多条地点要素,则将地点要素按出现顺序依次判定为报警地址、第一案发地址、第二案发地址;进而完成警情的地点要素提取;
步骤3、当地点要素提取完成后再由人物要素提取模块进行完成对接处警文本中与警情相关的人员身份证号信息提取,所述警情相关人员包括报案人、当事人;
警情相关的人员身份证号信息提取判定规则为:
第1位为数字1-9;
第2~6位为任意数字;
第7~8位为18或19或20;
第9~10位为任意数字;
第11~12位为下列情况任意一种:
5.1第11位为0,第12位为1-9的任意数字;
5.2 10或11或12;
第13~14位为下列情况任意一种:
6.1 第一位为0或1或2,第二位为1~9;
6.2 10或20或30或31;
第15~17位为任意数字;
第18位为0~9中任意数字或X或x;
将上述规则用正则表达式表示为:
“[1-9]\\d{5}(18|19|20)\\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\\d{3}[0-9Xx]”;
根据身份证号正则表达式提取接处警文本中的身份证号,然后将身份证号左边距离最近的左括号,所述左括号包括“(”和“(”,及身份证号右边距离最近的右括号,所述右括号包括 “)”和“)”的中间的内容截取出来;
将左括号前面四个字符与中文人名的正则表达式相匹配,提取出人员姓名;对截取出括号间的文本内容,通过手机号正则表达式进行完成提取人员手机号码,进而完成对人物要素的提取;
步骤4、当人物要素提取完成后,再由事件要素提取模块进行完成对接处警文本通过触发词截取文本中的事件信息,进而完成对事件要素的提取,提取规则如下:
根据业务规则,将事件描述开始和结束的触发词事先录入触发词中;
例如事件描述的开始触发词包括:“报警人称、报警称、报案称、经了解、指令称、经了解系、处警了解、110报警指令、接110指令、反诈中心报、民警了解、经查看系、称:、报警人、12345报、报警”;
事件描述的结束触发词包括“接警后、经民警、经电话联系、经联系、民警、后处警民警、处警人员、移交线索、已通知、现民警、现场将、现将、现已、电话联系报警人、经现场、作案手段、无需处警、自行来所、所内、未接受过、接受过、电话联系、了解情况后”;
首先将事件描述开始和结束触发词中间的文本内容截取出来,然后进行判断,当截取出的文本内容长度大于3,将该文本放入事件列表中;
而放入事件列表中的文本为事件要素,进而完成对警情的事件要素提取;
步骤5、当事件要素提取完成后,再由物品要素提取模块进行完成对接处警文本通过触发词截取文本中的物品信息;
提取规则为:将需要提取的物品事先录入触发词中;物品触发词包括“钥匙、耳机、发票、汽车、手机、电动车、电瓶车、自行车、酒、医保卡、麻将、牌九、电脑、会员卡、宠物、狗、猫、眼镜、游戏、装备、快递、银行卡”;
然后将接处警文本与物品触发词进行匹配,进而提取文本中的物品要素,进而完成对警情的物品要素提取;
步骤6、当物品要素提取完成后,再由结果要素提取模块进行完成对接处警文本通过触发词截取文本中的结果要素信息;
提取规则为:根据业务规则,将结果要素描述的触发词事先录入触发词中;结果要素描述触发词包括“展开调查、开展调查、现场调解、取消报警、自行协商、和解、无需处警、出警撤回、带回所、现场询问、传唤、口头教育、现场劝说、加强巡逻、已无事、告知报警人、调解、双方协商、协商处理、报案材料”;
然后将接处警文本与结果要素描述触发词进行匹配,进而提取文本中的结果要素,进而完成对警情的结果要素提取;
步骤7、当结果要素提取完成后,再由手段要素提取模块进行完成对接处警文本通过触发词截取文本中的手段要素信息;
提取规则为:根据业务规则,将手段描述开始和结束的触发词事先录入触发词中;手段描述的开始触发词包括“被人、以、用、通过”;
手段描述的结束触发词包括“方式、手段、为由”;
首先将手段描述开始和结束触发词中间的文本内容截取出来,然后判断截取出的文本长度,当截取出的文本长度低于给定阈值时,将该文本放入手段列表中;所述给定阈值为15个字符;
最终将放入手段列表中的文本作为手段要素,进而完成对警情的手段要素提取;
步骤8、此时再由工作人员将提取的关于时间要素、地点要素、人物要素、事件要素、物品要素、结果要素、手段要素的相关信息录入案卷初步提取要素表中,以供后续的情报研判、科学决策。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011195713.XA CN112347249B (zh) | 2020-10-30 | 2020-10-30 | 一种警情要素提取系统及其提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011195713.XA CN112347249B (zh) | 2020-10-30 | 2020-10-30 | 一种警情要素提取系统及其提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112347249A true CN112347249A (zh) | 2021-02-09 |
CN112347249B CN112347249B (zh) | 2024-02-27 |
Family
ID=74356262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011195713.XA Active CN112347249B (zh) | 2020-10-30 | 2020-10-30 | 一种警情要素提取系统及其提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112347249B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113420559A (zh) * | 2021-06-22 | 2021-09-21 | 苏州智汇谷科技服务有限公司 | 一种警情信息分层要素识别方法和计算机 |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070047816A1 (en) * | 2005-08-23 | 2007-03-01 | Jamey Graham | User Interface for Mixed Media Reality |
CN102402563A (zh) * | 2010-09-19 | 2012-04-04 | 腾讯科技(深圳)有限公司 | 网络信息筛选方法和装置 |
US20150234805A1 (en) * | 2014-02-18 | 2015-08-20 | David Allan Caswell | System and Method for Interacting with Event and Narrative Information As Structured Data |
CN106055658A (zh) * | 2016-06-02 | 2016-10-26 | 中国人民解放军国防科学技术大学 | 一种针对Twitter文本事件抽取的方法 |
CN106294319A (zh) * | 2016-08-04 | 2017-01-04 | 武汉数为科技有限公司 | 一种串并案识别方法 |
CN106649422A (zh) * | 2016-06-12 | 2017-05-10 | 中国移动通信集团湖北有限公司 | 关键词提取方法及装置 |
CN106959944A (zh) * | 2017-02-14 | 2017-07-18 | 中国电子科技集团公司第二十八研究所 | 一种基于中文语法规则的事件提取方法和系统 |
CN107368471A (zh) * | 2017-06-29 | 2017-11-21 | 中国测绘科学研究院 | 一种网页文本中地名地址的提取方法 |
US20180267947A1 (en) * | 2012-09-07 | 2018-09-20 | Splunk Inc. | Refining extraction rules based on selected text within events |
CN108829859A (zh) * | 2018-06-22 | 2018-11-16 | 中国人民解放军国防科技大学 | 一种互联网舆情系统中的按照时空维度的事件拼图方法 |
CN108959418A (zh) * | 2018-06-06 | 2018-12-07 | 中国人民解放军国防科技大学 | 一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质 |
CN108984521A (zh) * | 2018-06-20 | 2018-12-11 | 国家计算机网络与信息安全管理中心 | 一种新闻事件中人物观点抽取方法 |
CN109446513A (zh) * | 2018-09-18 | 2019-03-08 | 中国电子科技集团公司第二十八研究所 | 一种基于自然语言理解的文本中事件的抽取方法 |
CN109815296A (zh) * | 2018-12-29 | 2019-05-28 | 北京中科闻歌科技股份有限公司 | 公证文档的人物知识库构建方法、装置及存储介质 |
CN110210019A (zh) * | 2019-05-21 | 2019-09-06 | 四川大学 | 一种基于递归神经网络的事件要素抽取方法 |
CN111026885A (zh) * | 2019-12-23 | 2020-04-17 | 公安部第三研究所 | 一种基于文本语料的涉恐事件实体属性抽取系统及方法 |
CN111062834A (zh) * | 2019-12-11 | 2020-04-24 | 深圳前海环融联易信息科技服务有限公司 | 纠纷案件实体识别方法、装置、计算机设备及存储介质 |
CN111079433A (zh) * | 2019-11-29 | 2020-04-28 | 北京奇艺世纪科技有限公司 | 一种事件抽取方法、装置及电子设备 |
CN111143508A (zh) * | 2019-12-06 | 2020-05-12 | 国家计算机网络与信息安全管理中心 | 一种基于通信类短文本的事件检测与跟踪方法及系统 |
CN111597333A (zh) * | 2020-04-27 | 2020-08-28 | 国家计算机网络与信息安全管理中心 | 一种面向区块链领域的事件与事件要素抽取方法及装置 |
-
2020
- 2020-10-30 CN CN202011195713.XA patent/CN112347249B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070047816A1 (en) * | 2005-08-23 | 2007-03-01 | Jamey Graham | User Interface for Mixed Media Reality |
CN102402563A (zh) * | 2010-09-19 | 2012-04-04 | 腾讯科技(深圳)有限公司 | 网络信息筛选方法和装置 |
US20180267947A1 (en) * | 2012-09-07 | 2018-09-20 | Splunk Inc. | Refining extraction rules based on selected text within events |
US20150234805A1 (en) * | 2014-02-18 | 2015-08-20 | David Allan Caswell | System and Method for Interacting with Event and Narrative Information As Structured Data |
CN106055658A (zh) * | 2016-06-02 | 2016-10-26 | 中国人民解放军国防科学技术大学 | 一种针对Twitter文本事件抽取的方法 |
CN106649422A (zh) * | 2016-06-12 | 2017-05-10 | 中国移动通信集团湖北有限公司 | 关键词提取方法及装置 |
CN106294319A (zh) * | 2016-08-04 | 2017-01-04 | 武汉数为科技有限公司 | 一种串并案识别方法 |
CN106959944A (zh) * | 2017-02-14 | 2017-07-18 | 中国电子科技集团公司第二十八研究所 | 一种基于中文语法规则的事件提取方法和系统 |
CN107368471A (zh) * | 2017-06-29 | 2017-11-21 | 中国测绘科学研究院 | 一种网页文本中地名地址的提取方法 |
CN108959418A (zh) * | 2018-06-06 | 2018-12-07 | 中国人民解放军国防科技大学 | 一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质 |
CN108984521A (zh) * | 2018-06-20 | 2018-12-11 | 国家计算机网络与信息安全管理中心 | 一种新闻事件中人物观点抽取方法 |
CN108829859A (zh) * | 2018-06-22 | 2018-11-16 | 中国人民解放军国防科技大学 | 一种互联网舆情系统中的按照时空维度的事件拼图方法 |
CN109446513A (zh) * | 2018-09-18 | 2019-03-08 | 中国电子科技集团公司第二十八研究所 | 一种基于自然语言理解的文本中事件的抽取方法 |
CN109815296A (zh) * | 2018-12-29 | 2019-05-28 | 北京中科闻歌科技股份有限公司 | 公证文档的人物知识库构建方法、装置及存储介质 |
CN110210019A (zh) * | 2019-05-21 | 2019-09-06 | 四川大学 | 一种基于递归神经网络的事件要素抽取方法 |
CN111079433A (zh) * | 2019-11-29 | 2020-04-28 | 北京奇艺世纪科技有限公司 | 一种事件抽取方法、装置及电子设备 |
CN111143508A (zh) * | 2019-12-06 | 2020-05-12 | 国家计算机网络与信息安全管理中心 | 一种基于通信类短文本的事件检测与跟踪方法及系统 |
CN111062834A (zh) * | 2019-12-11 | 2020-04-24 | 深圳前海环融联易信息科技服务有限公司 | 纠纷案件实体识别方法、装置、计算机设备及存储介质 |
CN111026885A (zh) * | 2019-12-23 | 2020-04-17 | 公安部第三研究所 | 一种基于文本语料的涉恐事件实体属性抽取系统及方法 |
CN111597333A (zh) * | 2020-04-27 | 2020-08-28 | 国家计算机网络与信息安全管理中心 | 一种面向区块链领域的事件与事件要素抽取方法及装置 |
Non-Patent Citations (2)
Title |
---|
K. YAMAMOTO: ""Acquisition of Knowledge with Time Information from Twitter"", 《2019 INTERNATIONAL CONFERENCE ON ASIAN LANGUAGE PROCESSING (IALP)》, pages 148 - 153 * |
崔莹: ""基于相似义原和依存句法的政外领域事件抽取方法"", 《计算机工程与科学》, pages 1632 - 1639 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113420559A (zh) * | 2021-06-22 | 2021-09-21 | 苏州智汇谷科技服务有限公司 | 一种警情信息分层要素识别方法和计算机 |
Also Published As
Publication number | Publication date |
---|---|
CN112347249B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210149911A1 (en) | System and method for multi-modal audio mining of telephone conversations | |
CN101167080B (zh) | 验证系统 | |
Ekblom | Getting the best out of crime analysis | |
CN111104798B (zh) | 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质 | |
McGregor | Abject spaces, transnational calculations: Zimbabweans in Britain navigating work, class and the law | |
Cockbain et al. | Examining the geographies of human trafficking: Methodological challenges in mapping trafficking's complexities and connectivities | |
CN114091462B (zh) | 基于案件事实混合编码面向刑事案件风险互学习评估方法 | |
CN113326358B (zh) | 基于知识图谱语义匹配的地震灾害信息服务方法和系统 | |
Wilson | Criminal justice and global public goods: the Prüm forensic biometric cooperation model | |
CN105205048B (zh) | 一种热词分析统计系统及方法 | |
Larsen et al. | Crimes against international students in Australia, 2005-09 | |
Zuo et al. | Crowdsourcing incident information for emergency response using open data sources in smart cities | |
CN112347249A (zh) | 一种警情要素提取系统及其提取方法 | |
CN114003683B (zh) | 基于自然语言处理与关联规则的警情分析方法 | |
KR101573303B1 (ko) | 위치 정보를 기반으로 한 스마트 민원 서비스 시스템 및 제공 방법 | |
Sil et al. | Moving towards an inclusive public transport system for women in the South and Southeast Asian region | |
Light | Aesthetic ruptures: Viewing graffiti as the emplaced vernacular | |
Kim | Integrating human and machine coding to measure political issues in ethnic newspaper articles | |
Smee | At the intersection: black and minority ethnic women and the criminal justice system | |
Wang et al. | Could social media reflect acquisitive crime patterns in London? | |
Roy et al. | Methodologies for housing justice resource guide | |
Bhawra | Irregular Migration from India to the EU: Evidence from the Punjab | |
CN109977193B (zh) | 一种基于语义分析技术的赌博人员识别方法 | |
Clancey et al. | Crime prevention through environmental design in New South Wales | |
Burrell | Violence on and around Public Transport |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |