CN110909542A - 智能语义串并分析方法及系统 - Google Patents

智能语义串并分析方法及系统 Download PDF

Info

Publication number
CN110909542A
CN110909542A CN201911117715.4A CN201911117715A CN110909542A CN 110909542 A CN110909542 A CN 110909542A CN 201911117715 A CN201911117715 A CN 201911117715A CN 110909542 A CN110909542 A CN 110909542A
Authority
CN
China
Prior art keywords
case
parallel
module
cases
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911117715.4A
Other languages
English (en)
Other versions
CN110909542B (zh
Inventor
苏学武
刘怀春
林剑明
唐飞
李建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZHUHAI XINDEHUI INFORMATION TECHNOLOGY Co Ltd
Original Assignee
ZHUHAI XINDEHUI INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZHUHAI XINDEHUI INFORMATION TECHNOLOGY Co Ltd filed Critical ZHUHAI XINDEHUI INFORMATION TECHNOLOGY Co Ltd
Priority to CN201911117715.4A priority Critical patent/CN110909542B/zh
Publication of CN110909542A publication Critical patent/CN110909542A/zh
Application granted granted Critical
Publication of CN110909542B publication Critical patent/CN110909542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种智能语义串并分析方法,以用户实际业务需求为指引,以案件串并业务为切入点,以大数据、云计算为技术,以智能化精准串并为目的,通过整合调优多种数据挖掘算法,结合自动化处理而形成,该方法处理过程主要包括数据读取、语义识别、标签转换、案件打标、标签比对、关联度运算、串并案生成、串并推送及提醒的步骤。本发明应用于公共安全行业刑事侦查工作中,能够从大量案件文本数据中提取特征要素,并将含有相似要素的案件结合关联度自动关联串并起来,减轻了民警手动研判串并工作量,降低了人手串并难度,辅助民警快速精准识别关联案件。

Description

智能语义串并分析方法及系统
技术领域
本发明涉及信息处理技术领域,特别是一种信息分析方法及系统。
背景技术
公共安全行业领域中,接到群众报警后,民警在出警阶段,会根据现场勘查工作结果对案情通过自然语言进行详细描述说明,后续该警情转案件后,需要把案情描述转为结构化数据,对案件进行标签化处理,才能在案件侦办过程中进行深度自动研判关联,自动进行精准案件串并。当前市面存在五花八门的语义识别软件,由于缺乏机器学习技术或训练不足而识别不准,并且识别后没有提供相应智能算法计算案件关联度,导致最终生成的案件串并仍需用户进行较多的手工干预。
发明内容
本发明需要解决的技术问题是提供一种智能语义串并分析方法及系统,能够实现案件的精准串并,减轻民警人工识别要素特征的工作量。
为解决上述技术问题,本发明所采取的技术方案如下。
智能语义串并分析方法,具体包括以下步骤:
A.梳理历史同类案件特征集合并作分类处理,构建类案标签体系;
B.建立历史案件语料库以及专家提取特征经验库形成语料库;
C.将历史经验数据注入侵财类案件模型进行训练;
D.输入新案件信息,通过侵财类案件模型运行识别案件要素特征;
E.融合类案标签体系对案件进行标签化处理;
F.定义关联度模型、案件标签权重以及关联匹配标准;
G.通过关联度模型计算新案件关联度,关联度高的案件推荐为候选串并案件;
H.将关联度运算结果结合用户自定义规则生成串并案件,发送给目标用户中心。
上述智能语义串并分析方法,步骤F中所述类案标签体系是根据刑事侦查工作经验对侵财类案件的常见作案特征进行梳理,形成案件特征集合,并根据具体不同的案件类型对案件特征进行分级分类,形成标准化的类案案件标签。
上述智能语义串并分析方法,步骤C中所述的侵财类案件模型的训练方法为:采用Tensorflow人工智能可视化数据流编程框架,利用bi-lstm及crf机器学习算法学习大量的历史案件语料并吸取相关要素特征的提取经验;通过定期读取新发案件数据的各个关键属性,辅助案件定性,然后读取这些案件中通过人工确认或修改过的案件特征标签,并将这些信息注入训练库作为案例并加以学习训练。
上述智能语义串并分析方法,步骤D中所述的案件要素特征包括作案手段、作案时机、作案区域。
上述智能语义串并分析方法,步骤G中所述新案件关联度的计算方法为:对所有标签进行分类处理,并调整设置相应的权重,采用文本关联度算法,将案件标签、权重因子注入算法,以单案为主线与案件库中所有案件进行关联度运算,运算结果以关联度分值倒序罗列。
一种智能语义串并分析系统,包括标签体系模块、数据读取模块、语义分析模块、关联度模块、串并模块以及信息展示模块;
所述标签体系模块,用于集合历史同类案件特征并做分类处理,对每类特征进行设定相应的标签定义,并对各个标签进行管理;还用于对新发案件进行标签化处理;
数据读取模块,用于读取历史以及新法案请、笔录数据和线索数据等非结构化文本数据;
语义分析模块,用于对读入的数据进行分析,建立语料库和经验库;能够对语义分析模块中的侵财类案件模型进行训练,并采用训练后的侵财类案件模型对新发案件进行要素特征的提取;
关联度模块,用于利用标签体系模块中的标签类别进行比对,并利用案件标签权重进行案件的加权关联度运算,得出关联度队列;
串并模块,用于设定关联度阈值和串并条件,根据关联度模块计算的数值进行串并案处理;
信息展示模块,用于将串并模块得出的结论向用户进行展示。
由于采用了以上技术方案,本发明所取得技术进步如下。
本发明应用于公共安全行业刑事侦查工作中,用于对案件信息进行研判,是基于语义识别技术自动从案情里提取案件特征要素,实现案件的签标化处理,并通过计算案件关联系,研判案件与案件之间的紧密联系,然后将含有相似要素的案件结合关联度自动关联串并起来,减轻了民警手动研判串并工作量,降低了人手串并难度,辅助民警快速精准识别关联案件。
附图说明
图1为本发明的流程图;
图2为本发明的总体架构图。
具体实施方式
下面将结合附图和具体实施例对本发明进行进一步详细说明。
一种智能语义串并分析方法,以用户实际业务需求为指引,以案件串并业务为切入点,以大数据、云计算为技术,以智能化精准串并为目的,通过整合调优多种数据挖掘算法,结合自动化处理而形成,主要包括数据读取、语义识别、标签转换、案件打标、标签比对、关联度运算、串并案生成、串并推送及提醒,具体包括以下步骤。
A.梳理历史同类案件特征集合并作分类处理,构建类案标签体系。
本步骤中所述的案件标签是根据刑事侦查工作经验对侵财类案件的常见作案特征进行梳理,形成案件特征集合,并根据具体不同的案件类型对案件特征进行分级分类;然后再形成标准化的类案案件标签,并为标签定义同义词、近义词库,从而构建类案标签体系。具体实现时,通过向bi-lstm算法注入单字基础上再注入分词,并结合crf算法限定案件特征的识别结果,最终转化为既定的案件标签。
B.建立历史案件语料库以及专家提取特征经验库,形成训练库。
通过采集历史案件的案情、笔录数据以及线索数据等非结构化文本数据,进行历史案件语料库的建立,以及吸取历史案件相关要素特征的提取经验,进行专家特征经验库的建立。
C.将以上步骤B的历史经验数据注入侵财类案件模型进行训练。
本步骤中所述的侵财类案件模型是指:侵财类案件特征识别模型是基于语义识别算法(bi-lstm及crf)并融合侵财类类案标签体系而构建的模型,其采用Tensorflow人工智能可视化数据流编程框架,利用bi-lstm及crf机器学习算法学习大量的历史案件语料并吸取相关要素特征的提取经验,从而得到不断优化的侵财类案件模型。
侵财类案件模型在使用过程中,可定期进行自身技能的提升,具体方法为:通过定期读取新发案件数据的各个关键属性,辅助案件定性,然后读取这些案件中通过人工确认或修改过的案件特征标签,并将这些信息注入本发明中的训练库作为案例并加以学习训练,从而巩固提升识别能力,尤其对于含有各种地方性语言描述习惯案件案情中。
D.输入新发案件信息,通过侵财类案件模型运行识别案件要素特征。
通过步骤C所提及的侵财类案件模型,结合NLP自然语言命名实体快速自动识别当前案件特征要素。案件要素特征包括作案手段、作案时机、作案区域等。
E.融合类案标签体系对案件进行标签化处理,并基于标准化的类案标签体系将案件特征要素与案件标签进行自动转换,通过标签处理机制,将标签自动打到相应案件上,实现案件标签化处理。
本步骤中所述的案件标签是指步骤A所构建的类案标签体系之中的标签。例如:破锁=暴力开锁=撬锁,最终新发案件便被打上了标签。
F.定义关联度模型、案件标签权重以及关联匹配标准。
本步骤中所述的关联度模型是指:案件关联度模型作用是把多个同类案件进行关联的模型,是通过案件标签及其权重,以及关联匹配标准等计算因子而运算而成,最后推送出关联的案件为结果。
案件标签权重是指:由于每个案件都会有多种类标签项,故需定义各个待比案件的每个标签项比中匹配后所占的权重为多少。
关联匹配标准是指:即定义各个待比案件中的每一个标签项是部分比中还是全部比中才算是匹配上。
G.通过关联度模型计算新案件关联度。以新案件为主线,通过关联度模型与案件库中所有案件进行关联度运算,运算结果以关联度分值倒序罗列。
具体的关联度计算方法为:基于案件标签化结果,对所有标签进行分级分类处理,以类案出发,读取同类案件的相应案件标签,案件与案件之间两两比对,逐个标签项比对,标签相等/相似/同义则视为比中,多个比中项需结合预设的相应权重进行加权运算得出各项的分值,并将各项分值作为计算因子,进行文本相似度运算(TF-IDF),最终得出类案下的各个案件之间的关联度分值,分值较高且达到阀值的相关案件则作为候选可串并案件。
H.将关联度运算结果结合用户自定义规则生成串并案件,发送给目标用户中心。通常设定关联度阈值,当关联度分值较高,且达到阀值的相关案件则作为候选可串并案件。
本步骤中的用户自定义规则即串并案生成时的过滤条件,即:用户个性化设置串并案的生成条件(如:案发时段、区域等)及关联度阀值,符合条件及高出阀值的候选可串并案件则自动根据关联度因子形成案与案之间的联系,生成案件关系链条,相同链条的多个案件自动打包形成串并案件,并推送到用户桌面。从而实现通过语义的串并分析来为用户提供相关联的串并案件,辅助用户尽快破案。
本发明注重基于对现代最常用的数据挖掘算法做出改良,并经过注入语言描述语序规则,进而精准发现案件中的要素特征,重要基础是系统中庞大的案件语料库,积累大量历史案件识别经验,系统通过定期自学习程序能定期学习案件语料知识,吸取识别经验,能持续提升自身技能;同时,本发明基于识别的结果能结合专业的案件侦查业务,针对侵财类案件基于标准化标签特征体系自动地为案件进行标签化处理,在本发明自动流程化程序处理引擎的驱动下,自动启用案件关联处理,以当前案件为起点,基于大数据、云计算等技术到系统宠大的案件资源库中挖掘关联度高的案件,并自动根据用户个性化设定的规则快速生成串并案件。
相比之下,以往技术即使在语义识别准确度较高的前提下,仍不能与历史案件语料库深度融合中,持续学习提升水平;且无法有针对性地与侵财类类案标签体系深度融合形成案件智能标签;同时,没有科学的案件关联度计算方法,更也缺乏从语义识别、标签化、关联度运算到串并案生成等一体化的自动处理机制,最终生成的串并案件,要么不准,要么不全,在为侵财类案件侦查工作的服务过程中支撑不足。
本发明还提供一种智能语义串并分析系统,其架构图如图2所示,包括标签体系模块、数据读取模块、语义分析模块、关联度模块、串并模块以及信息展示模块。所述标签体系模块,用于集合历史同类案件特征并做分类处理,对每类特征进行设定相应的标签定义,并对各个标签进行管理;还用于对新发案件进行标签化处理;数据读取模块,用于读取历史以及新法案请、笔录数据和线索数据等非结构化文本数据;语义分析模块,用于对读入的数据进行分析,建立语料库和经验库;能够对语义分析模块中的侵财类案件模型进行训练,并采用训练后的侵财类案件模型对新发案件进行要素特征的提取;关联度模块,用于利用标签体系模块中的标签类别进行比对,并利用案件标签权重进行案件的加权关联度运算,得出关联度队列;串并模块,用于设定关联度阈值和串并条件,根据关联度模块计算的数值进行串并案处理;信息展示模块,用于将串并模块得出的结论向用户进行展示。
本发明以服务案件侦查为忠旨,以智化案件串并为实现重心,将会大大减轻民警手工串并工作量,提高案件串并精准度及智能化程度。

Claims (6)

1.智能语义串并分析方法,其特征在于,具体包括以下步骤:
A.梳理历史同类案件特征集合并作分类处理,构建类案标签体系;
B.建立历史案件语料库以及专家提取特征经验库形成语料库;
C.将历史经验数据注入侵财类案件模型进行训练;
D.输入新案件信息,通过侵财类案件模型运行识别案件要素特征;
E.融合类案标签体系对案件进行标签化处理;
F.定义关联度模型、案件标签权重以及关联匹配标准;
G.通过关联度模型计算新案件关联度,关联度高的案件推荐为候选串并案件;
H.将关联度运算结果结合用户自定义规则生成串并案件,发送给目标用户中心。
2.根据权利要求1所述的智能语义串并分析方法,其特征在于,步骤F中所述类案标签体系是根据刑事侦查工作经验对侵财类案件的常见作案特征进行梳理,形成案件特征集合,并根据具体不同的案件类型对案件特征进行分级分类,形成标准化的类案案件标签。
3.根据权利要求1所述的智能语义串并分析方法,其特征在于,步骤C中所述的侵财类案件模型的训练方法为:采用Tensorflow人工智能可视化数据流编程框架,利用bi-lstm及crf机器学习算法学习大量的历史案件语料并吸取相关要素特征的提取经验;通过定期读取新发案件数据的各个关键属性,辅助案件定性,然后读取这些案件中通过人工确认或修改过的案件特征标签,并将这些信息注入训练库作为案例并加以学习训练。
4.根据权利要求1所述的智能语义串并分析方法,其特征在于,步骤D中所述的案件要素特征包括作案手段、作案时机、作案区域。
5.根据权利要求1所述的智能语义串并分析方法,其特征在于,步骤G中所述新案件关联度的计算方法为:对所有标签进行分类处理,并调整设置相应的权重,采用文本关联度算法,将案件标签、权重因子注入算法,以单案为主线与案件库中所有案件进行关联度运算,运算结果以关联度分值倒序罗列。
6.一种智能语义串并分析系统,其特征在于:包括标签体系模块、数据读取模块、语义分析模块、关联度模块、串并模块以及信息展示模块;
所述标签体系模块,用于集合历史同类案件特征并做分类处理,对每类特征进行设定相应的标签定义,并对各个标签进行管理;还用于对新发案件进行标签化处理;
数据读取模块,用于读取历史以及新法案请、笔录数据和线索数据等非结构化文本数据;
语义分析模块,用于对读入的数据进行分析,建立语料库和经验库;能够对语义分析模块中的侵财类案件模型进行训练,并采用训练后的侵财类案件模型对新发案件进行要素特征的提取;
关联度模块,用于利用标签体系模块中的标签类别进行比对,并利用案件标签权重进行案件的加权关联度运算,得出关联度队列;
串并模块,用于设定关联度阈值和串并条件,根据关联度模块计算的数值进行串并案处理;
信息展示模块,用于将串并模块得出的结论向用户进行展示。
CN201911117715.4A 2019-11-15 2019-11-15 智能语义串并分析方法及系统 Active CN110909542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911117715.4A CN110909542B (zh) 2019-11-15 2019-11-15 智能语义串并分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911117715.4A CN110909542B (zh) 2019-11-15 2019-11-15 智能语义串并分析方法及系统

Publications (2)

Publication Number Publication Date
CN110909542A true CN110909542A (zh) 2020-03-24
CN110909542B CN110909542B (zh) 2023-11-21

Family

ID=69816469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911117715.4A Active CN110909542B (zh) 2019-11-15 2019-11-15 智能语义串并分析方法及系统

Country Status (1)

Country Link
CN (1) CN110909542B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666495A (zh) * 2020-06-05 2020-09-15 北京百度网讯科技有限公司 案件推荐方法、装置、设备以及存储介质
CN111753872A (zh) * 2020-05-12 2020-10-09 高新兴科技集团股份有限公司 串并案关联性分析方法、装置、设备和存储介质
CN112256747A (zh) * 2020-09-18 2021-01-22 珠海市新德汇信息技术有限公司 一种面向电子数据的人物刻画方法
CN112860844A (zh) * 2021-01-13 2021-05-28 广东省公安厅 案件线索处理系统、方法、装置和计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903210A (zh) * 2014-03-31 2014-07-02 安徽新华博信息技术股份有限公司 一种案件特征串并的分析方法
CN106227863A (zh) * 2016-07-29 2016-12-14 浪潮软件集团有限公司 在案件串并和嫌疑人排查中的数据挖掘方法
CN107894981A (zh) * 2017-12-13 2018-04-10 武汉烽火普天信息技术有限公司 一种案件语义要素的自动抽取方法
CN109684628A (zh) * 2018-11-23 2019-04-26 武汉烽火众智数字技术有限责任公司 基于案情语义分析的案件智能推送方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903210A (zh) * 2014-03-31 2014-07-02 安徽新华博信息技术股份有限公司 一种案件特征串并的分析方法
CN106227863A (zh) * 2016-07-29 2016-12-14 浪潮软件集团有限公司 在案件串并和嫌疑人排查中的数据挖掘方法
CN107894981A (zh) * 2017-12-13 2018-04-10 武汉烽火普天信息技术有限公司 一种案件语义要素的自动抽取方法
CN109684628A (zh) * 2018-11-23 2019-04-26 武汉烽火众智数字技术有限责任公司 基于案情语义分析的案件智能推送方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753872A (zh) * 2020-05-12 2020-10-09 高新兴科技集团股份有限公司 串并案关联性分析方法、装置、设备和存储介质
CN111666495A (zh) * 2020-06-05 2020-09-15 北京百度网讯科技有限公司 案件推荐方法、装置、设备以及存储介质
CN111666495B (zh) * 2020-06-05 2023-08-11 北京百度网讯科技有限公司 案件推荐方法、装置、设备以及存储介质
CN112256747A (zh) * 2020-09-18 2021-01-22 珠海市新德汇信息技术有限公司 一种面向电子数据的人物刻画方法
CN112860844A (zh) * 2021-01-13 2021-05-28 广东省公安厅 案件线索处理系统、方法、装置和计算机设备

Also Published As

Publication number Publication date
CN110909542B (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN110909542A (zh) 智能语义串并分析方法及系统
CN110968699A (zh) 一种基于事理推荐的逻辑图谱构建及预警方法和装置
Tang et al. Multi-label patent categorization with non-local attention-based graph convolutional network
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN113254659A (zh) 一种基于知识图谱技术的档案研判方法及系统
CN111143840B (zh) 一种主机操作指令异常识别的方法及系统
CN108345686A (zh) 一种基于搜索引擎技术的数据分析方法及系统
CN110188195A (zh) 一种基于深度学习的文本意图识别方法、装置及设备
Chen et al. A deep learning method for judicial decision support
CN113312474A (zh) 一种基于深度学习的法律文书的相似案件智能检索系统
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN115048464A (zh) 用户操作行为数据的检测方法、装置及电子设备
Gunaseelan et al. Automatic extraction of segments from resumes using machine learning
Alam et al. Social media content categorization using supervised based machine learning methods and natural language processing in bangla language
CN114491079A (zh) 知识图谱构建和查询方法、装置、设备和介质
Sivaranjani et al. Predicting the supreme court decision on appeal cases using hierarchical convolutional neural network
CN113378024A (zh) 一种基于深度学习面向公检法领域的相关事件识别方法
CN110362828B (zh) 网络资讯风险识别方法及系统
CN116578703A (zh) 一种智慧鉴定系统及方法
CN116226769A (zh) 一种基于用户行为序列的短视频异常行为识别方法
Sudha Semi supervised multi text classifications for telugu documents
CN115062615A (zh) 一种金融领域事件抽取方法和装置
CN114996400A (zh) 裁判文书处理方法、装置、电子设备及存储介质
CN110968795B (zh) 一种公司形象提升系统的数据关联匹配系统
CN113420622A (zh) 基于机器深度学习的智能扫描识别归档系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant