CN111538805A - 一种基于深度学习和规则引擎的文本信息抽取方法及系统 - Google Patents

一种基于深度学习和规则引擎的文本信息抽取方法及系统 Download PDF

Info

Publication number
CN111538805A
CN111538805A CN202010449750.2A CN202010449750A CN111538805A CN 111538805 A CN111538805 A CN 111538805A CN 202010449750 A CN202010449750 A CN 202010449750A CN 111538805 A CN111538805 A CN 111538805A
Authority
CN
China
Prior art keywords
personnel
extracting
rule engine
document
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010449750.2A
Other languages
English (en)
Inventor
金勇�
朱其斯
胡华
孙涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Firehome Putian Information Technology Co ltd
Original Assignee
Wuhan Firehome Putian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Firehome Putian Information Technology Co ltd filed Critical Wuhan Firehome Putian Information Technology Co ltd
Priority to CN202010449750.2A priority Critical patent/CN111538805A/zh
Publication of CN111538805A publication Critical patent/CN111538805A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于深度学习和规则引擎的文本信息抽取方法及系统,所述方法具体包括以下步骤:S1:将输入的公安文档解析成可处理文本,并进行无用字符清洗及段落切割;S2:针对切割后的段落,抽取段落中所有出现的涉案涉线人员姓名与地址信息;S3:采用规则引擎抽取文档中涉案涉线人员相关属性,同时利用时间识别算法抽取段落中包含的线索信息;S4:通过语义理解模块确定S3中抽取的人员、线索信息对应关系,并进行人员称呼消歧及多关系融合,最后输出结构化结果。本申请的文本信息抽取方法和系统,采用深度学习模型与规则引擎相结合,促进非结构化文档信息的利用,实现人员与线索的快速相关联,提升公安民警的判案效率。

Description

一种基于深度学习和规则引擎的文本信息抽取方法及系统
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种基于深度学习和规则引擎的文本信息抽取方法及系统。
背景技术
当存在多个文档描述同一实体(人员、组织等)及其关联之间的依存关系时,若以非结构化文档形式留存,则在后期对于这些文档的高效利用存在较大瓶颈。例如,在公安行业中,多个公安民警在对同一个人(组织)进行调查时,会将自己调查得到的线索或记录以文档形式留存,使得被调查人的信息会以非结构化的长文本形式存储,短则几百字,长则上万字。因而会导致在后续线索文档利用过程中,无法对这些线索信息进行快速检索,或者进行深度融合分析,或者难以将相关案件情报关联到其他相关人员身上。
发明内容
为了克服现有技术的上述不足,本发明提出了一种基于深度学习和规则引擎的文本信息抽取方法及系统,解决现有公安文档利用效率低,在线索信息检索、深度融合分析及案件人员的相关联上难度大的技术问题。
本发明是通过以下技术方案实现的:
一种基于深度学习和规则引擎的文本信息抽取方法,具体包括以下步骤:
S1:将输入的公安文档解析成可处理文本,并进行无用字符清洗及段落切割;
S2:针对切割后的段落,抽取段落中所有出现的涉案涉线人员姓名与地址信息;
S3:采用规则引擎抽取文档中涉案涉线人员相关属性,同时利用时间识别算法抽取段落中包含的线索信息;
S4:通过语义理解模块确定S3中抽取的人员、线索信息对应关系,并进行人员称呼消歧及多关系融合,最后输出结构化结果。
进一步的,S1中文档解析、字符清洗、段落切割及S2中人员抽取所采用的模型结构是BiLSTM+CRF模型。
进一步的,S3中抽取文档中涉案涉线人员相关属性包括:根据预先配置的人员属性规则和人员关系规则,采用规则引擎抽取文档中涉案涉线人员属性和人员之间的亲属社会关系。
进一步的,S4中多关系融合时,消除重复信息,合并人员互补信息。
进一步的,S4中语义理解模块输出的bad case数据经收集标注后输出到规则引擎的规则库和语义解析模块的模型训练中。
一种基于深度学习和规则引擎的文本信息抽取系统,包括:
数据预处理模块,将输入的公安文档解析成可处理文本,并进行无用字符清洗及段落切割;
语义解析模块,针对切割后的段落,抽取段落中所有出现的人员姓名与地址信息;
知识规则模块,采用规则引擎抽取文档中涉案涉线人员相关属性,同时利用时间识别算法抽取段落中包含的线索信息;
语义理解模块,确定抽取的人员、线索信息对应关系,并进行人员称呼消歧及多关系融合,最后输出结构化结果。
与现有技术相比,本发明的有益效果在于:
本发明提出的一种基于深度学习和规则引擎的文本信息抽取方法及系统,利用深度学习模型抽取文档中人员信息及相关线索,利用规则引擎抽取人员或线索的相关属性(性别、出生日期、线索对应人员等),同时通过人员或线索信息关联相关文档,形成关键信息索引系统,以及人员案件关系图谱,为公安民警在案件研判过程中减少工作量,提升工作效率。
说明书附图
图1为本发明实施例所述一种基于深度学习和规则引擎的文本信息抽取方法的流程图。
具体实施方式
展示一下实例来具体说明本发明的某些实施例,且不应解释为限制本发明的范围。对本发明公开的内容可以同时从材料、方法和反应条件进行改进,所有这些改进,均应落入本发明的精神和范围之内。
一种基于深度学习和规则引擎的文本信息抽取系统,包括:
数据预处理模块,将输入的公安文档解析成可处理文本,并进行无用字符清洗及段落切割;
语义解析模块,针对切割后的段落,抽取段落中所有出现的人员姓名与地址信息;
知识规则模块,采用规则引擎抽取文档中涉案涉线人员相关属性,同时利用时间识别算法抽取段落中包含的线索信息;
语义理解模块,确定抽取的人员、线索信息对应关系,并进行人员称呼消歧及多关系融合,最后输出结构化结果。
实现了公安文档中人员与线索信息的结构化解析,结合深度学习与规则引擎抽取出文档中人员与线索信息,并将线索对应到相应人员中,提供涉案涉线人员与线索的相关联,为公安民警在案件研判过程中减少工作量,提升工作效率。
一种基于深度学习和规则引擎的文本信息抽取方法,如图1所示,具体包括以下步骤:
S1:将输入的公安文档解析成可处理文本,并进行无用字符清洗及段落切割;
S2:从切割后段落中抽取所有出现的涉案涉线人员姓名与地址信息;
在本实施例中,主要采用BiLSTM+CRF模型来抽取公安文档中的涉案涉线人员姓名、地址信息,BiLSTM+CRF模型由look-up层、BiLSTM层和CRF层,其抽取步骤包括:用户输入的句子进入look-up层被表示成词向量和字向量序列,接着BiLSTM层将输入的词向量和字向量序列通过双向的LSTM神经网络输出各个字符的所有标签及其得分,最后通过CRF层学习各标签之间的依赖关系,输出符合语法规则的实体标签集合。
S3:采用规则引擎抽取文档中涉案涉线人员相关属性,同时利用时间识别算法抽取段落中包含的线索信息;
在本实施例中,根据预先配置的人员属性规则和人员关系规则,采用规则引擎抽取文档中涉案涉线人员属性(身份证、联系电话等)和人员之间的亲属社会关系(家庭关系、社会关系等),利用时间识别算法抽取出段落中包含的线索;
S4:通过语义理解模块确定抽取的人员、线索信息对应关系,并进行人员称呼消歧及多关系融合,最后输出结构化结果;
在本实施例中,将抽取的人员与线索进行组合对应输出具有逻辑关系的信息对,消除称呼歧义,并对抽取出的多关系进行融合,消除重复信息,合并人员互补信息。
S5:从语义理解模块输出的bad case数据经收集标注后输出到规则引擎的规则库和语义解析模块的模型训练中,通过badcase修正有效提升模型的召回率。
本申请利用深度学习模型抽取公安文档中人员信息及相关线索,利用规则引擎抽取人员或线索的相关属性,识别准确率极大提升,再结合badcase,提升模型召回率,促进对于非结构化文档信息的解构与利用。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种基于深度学习和规则引擎的文本信息抽取方法,其特征在于,具体包括以下步骤:
S1:将输入的公安文档解析成可处理文本,并进行无用字符清洗及段落切割;
S2:针对切割后的段落,抽取段落中所有出现的涉案涉线人员姓名与地址信息;
S3:采用规则引擎抽取文档中涉案涉线人员相关属性,同时利用时间识别算法抽取段落中包含的线索信息;
S4:通过语义理解模块确定S3中抽取的人员、线索信息对应关系,并进行人员称呼消歧及多关系融合,最后输出结构化结果。
2.根据权利要求1所述的一种基于深度学习和规则引擎的文本信息抽取方法,其特征在于,S1中文档解析、字符清洗、段落切割及S2中人员抽取所采用的模型结构是BiLSTM+CRF模型。
3.根据权利要求1所述的一种基于深度学习和规则引擎的文本信息抽取方法,其特征在于,S3中抽取文档中涉案涉线人员相关属性包括:根据预先配置的人员属性规则和人员关系规则,采用规则引擎抽取文档中涉案涉线人员属性和人员之间的亲属社会关系。
4.根据权利要求1所述的一种基于深度学习和规则引擎的文本信息抽取方法,其特征在于,S4中多关系融合时,消除重复信息,合并人员互补信息。
5.根据权利要求1所述的一种基于深度学习和规则引擎的文本信息抽取方法,其特征在于,S4中语义理解模块输出的bad case数据经收集标注后输出到规则引擎的规则库和语义解析模块的模型训练中。
6.一种基于深度学习和规则引擎的文本信息抽取系统,其特征在于,包括:
数据预处理模块,将输入的公安文档解析成可处理文本,并进行无用字符清洗及段落切割;
语义解析模块,针对切割后的段落,抽取段落中所有出现的人员姓名与地址信息;
知识规则模块,采用规则引擎抽取文档中涉案涉线人员相关属性,同时利用时间识别算法抽取段落中包含的线索信息;
语义理解模块,确定抽取的人员、线索信息对应关系,并进行人员称呼消歧及多关系融合,最后输出结构化结果。
CN202010449750.2A 2020-05-25 2020-05-25 一种基于深度学习和规则引擎的文本信息抽取方法及系统 Pending CN111538805A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010449750.2A CN111538805A (zh) 2020-05-25 2020-05-25 一种基于深度学习和规则引擎的文本信息抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010449750.2A CN111538805A (zh) 2020-05-25 2020-05-25 一种基于深度学习和规则引擎的文本信息抽取方法及系统

Publications (1)

Publication Number Publication Date
CN111538805A true CN111538805A (zh) 2020-08-14

Family

ID=71976078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010449750.2A Pending CN111538805A (zh) 2020-05-25 2020-05-25 一种基于深度学习和规则引擎的文本信息抽取方法及系统

Country Status (1)

Country Link
CN (1) CN111538805A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114241501A (zh) * 2021-12-20 2022-03-25 北京中科睿见科技有限公司 影像文档处理方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
US20160140187A1 (en) * 2014-11-19 2016-05-19 Electronics And Telecommunications Research Institute System and method for answering natural language question
CN109766524A (zh) * 2018-12-28 2019-05-17 重庆邮电大学 一种并购重组类公告信息抽取方法及系统
CN109857990A (zh) * 2018-12-18 2019-06-07 重庆邮电大学 一种基于文档结构与深度学习的金融类公告信息抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
US20160140187A1 (en) * 2014-11-19 2016-05-19 Electronics And Telecommunications Research Institute System and method for answering natural language question
CN109857990A (zh) * 2018-12-18 2019-06-07 重庆邮电大学 一种基于文档结构与深度学习的金融类公告信息抽取方法
CN109766524A (zh) * 2018-12-28 2019-05-17 重庆邮电大学 一种并购重组类公告信息抽取方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114241501A (zh) * 2021-12-20 2022-03-25 北京中科睿见科技有限公司 影像文档处理方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN111723215B (zh) 基于文本挖掘的生物技术信息知识图谱构建装置与方法
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN111310470B (zh) 一种融合字词特征的中文命名实体识别方法
CN106776574B (zh) 用户评论文本挖掘方法及装置
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN105608232B (zh) 一种基于图形数据库的bug知识建模方法
CN114065758B (zh) 一种基于超图随机游走的文档关键词抽取方法
CN111259160B (zh) 知识图谱构建方法、装置、设备及存储介质
CN111177532A (zh) 一种垂直搜索方法、装置、计算机系统及可读存储介质
Jabbar et al. An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach
CN113051356A (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN111104801A (zh) 基于网址域名的文本分词方法、系统、设备及介质
CN114840677B (zh) 面向多粒度需求的短文本分类与智能分析方法
CN112149422B (zh) 一种基于自然语言的企业新闻动态监测方法
CN114153978A (zh) 模型训练方法、信息抽取方法、装置、设备及存储介质
CN111966792A (zh) 一种文本处理方法、装置、电子设备及可读存储介质
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN111538805A (zh) 一种基于深度学习和规则引擎的文本信息抽取方法及系统
CN113032371A (zh) 数据库语法分析方法、装置和计算机设备
Behera Implementation of a finite state automaton to recognize and remove stop words in English text on its retrieval
CN117033816A (zh) 停车推荐方法、装置、电子设备及存储介质
CN112560425A (zh) 模板生成方法、装置、电子设备及存储介质
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
Al-Sultany et al. Enriching tweets for topic modeling via linking to the wikipedia
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination