CN111538805A

CN111538805A - 一种基于深度学习和规则引擎的文本信息抽取方法及系统

Info

Publication number: CN111538805A
Application number: CN202010449750.2A
Authority: CN
Inventors: 金勇�; 朱其斯; 胡华; 孙涛
Original assignee: Wuhan Firehome Putian Information Technology Co ltd
Current assignee: Wuhan Firehome Putian Information Technology Co ltd
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2020-08-14

Abstract

本发明涉及一种基于深度学习和规则引擎的文本信息抽取方法及系统，所述方法具体包括以下步骤：S1：将输入的公安文档解析成可处理文本，并进行无用字符清洗及段落切割；S2：针对切割后的段落，抽取段落中所有出现的涉案涉线人员姓名与地址信息；S3：采用规则引擎抽取文档中涉案涉线人员相关属性，同时利用时间识别算法抽取段落中包含的线索信息；S4：通过语义理解模块确定S3中抽取的人员、线索信息对应关系，并进行人员称呼消歧及多关系融合，最后输出结构化结果。本申请的文本信息抽取方法和系统，采用深度学习模型与规则引擎相结合，促进非结构化文档信息的利用，实现人员与线索的快速相关联，提升公安民警的判案效率。

Description

一种基于深度学习和规则引擎的文本信息抽取方法及系统

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种基于深度学习和规则引擎的文本信息抽取方法及系统。

背景技术

当存在多个文档描述同一实体(人员、组织等)及其关联之间的依存关系时，若以非结构化文档形式留存，则在后期对于这些文档的高效利用存在较大瓶颈。例如，在公安行业中，多个公安民警在对同一个人(组织)进行调查时，会将自己调查得到的线索或记录以文档形式留存，使得被调查人的信息会以非结构化的长文本形式存储，短则几百字，长则上万字。因而会导致在后续线索文档利用过程中，无法对这些线索信息进行快速检索，或者进行深度融合分析，或者难以将相关案件情报关联到其他相关人员身上。

发明内容

为了克服现有技术的上述不足，本发明提出了一种基于深度学习和规则引擎的文本信息抽取方法及系统，解决现有公安文档利用效率低，在线索信息检索、深度融合分析及案件人员的相关联上难度大的技术问题。

本发明是通过以下技术方案实现的：

一种基于深度学习和规则引擎的文本信息抽取方法，具体包括以下步骤：

S1：将输入的公安文档解析成可处理文本，并进行无用字符清洗及段落切割；

S2：针对切割后的段落，抽取段落中所有出现的涉案涉线人员姓名与地址信息；

S3：采用规则引擎抽取文档中涉案涉线人员相关属性，同时利用时间识别算法抽取段落中包含的线索信息；

S4：通过语义理解模块确定S3中抽取的人员、线索信息对应关系，并进行人员称呼消歧及多关系融合，最后输出结构化结果。

进一步的，S1中文档解析、字符清洗、段落切割及S2中人员抽取所采用的模型结构是BiLSTM+CRF模型。

进一步的，S3中抽取文档中涉案涉线人员相关属性包括：根据预先配置的人员属性规则和人员关系规则，采用规则引擎抽取文档中涉案涉线人员属性和人员之间的亲属社会关系。

进一步的，S4中多关系融合时，消除重复信息，合并人员互补信息。

进一步的，S4中语义理解模块输出的bad case数据经收集标注后输出到规则引擎的规则库和语义解析模块的模型训练中。

一种基于深度学习和规则引擎的文本信息抽取系统，包括：

数据预处理模块，将输入的公安文档解析成可处理文本，并进行无用字符清洗及段落切割；

语义解析模块，针对切割后的段落，抽取段落中所有出现的人员姓名与地址信息；

知识规则模块，采用规则引擎抽取文档中涉案涉线人员相关属性，同时利用时间识别算法抽取段落中包含的线索信息；

语义理解模块，确定抽取的人员、线索信息对应关系，并进行人员称呼消歧及多关系融合，最后输出结构化结果。

与现有技术相比，本发明的有益效果在于：

本发明提出的一种基于深度学习和规则引擎的文本信息抽取方法及系统，利用深度学习模型抽取文档中人员信息及相关线索，利用规则引擎抽取人员或线索的相关属性(性别、出生日期、线索对应人员等)，同时通过人员或线索信息关联相关文档，形成关键信息索引系统，以及人员案件关系图谱，为公安民警在案件研判过程中减少工作量，提升工作效率。

说明书附图

图1为本发明实施例所述一种基于深度学习和规则引擎的文本信息抽取方法的流程图。

具体实施方式

展示一下实例来具体说明本发明的某些实施例，且不应解释为限制本发明的范围。对本发明公开的内容可以同时从材料、方法和反应条件进行改进，所有这些改进，均应落入本发明的精神和范围之内。

一种基于深度学习和规则引擎的文本信息抽取系统，包括：

实现了公安文档中人员与线索信息的结构化解析，结合深度学习与规则引擎抽取出文档中人员与线索信息，并将线索对应到相应人员中，提供涉案涉线人员与线索的相关联，为公安民警在案件研判过程中减少工作量，提升工作效率。

一种基于深度学习和规则引擎的文本信息抽取方法，如图1所示，具体包括以下步骤：

S2：从切割后段落中抽取所有出现的涉案涉线人员姓名与地址信息；

在本实施例中，主要采用BiLSTM+CRF模型来抽取公安文档中的涉案涉线人员姓名、地址信息，BiLSTM+CRF模型由look-up层、BiLSTM层和CRF层，其抽取步骤包括：用户输入的句子进入look-up层被表示成词向量和字向量序列，接着BiLSTM层将输入的词向量和字向量序列通过双向的LSTM神经网络输出各个字符的所有标签及其得分，最后通过CRF层学习各标签之间的依赖关系，输出符合语法规则的实体标签集合。

在本实施例中，根据预先配置的人员属性规则和人员关系规则，采用规则引擎抽取文档中涉案涉线人员属性(身份证、联系电话等)和人员之间的亲属社会关系(家庭关系、社会关系等)，利用时间识别算法抽取出段落中包含的线索；

S4：通过语义理解模块确定抽取的人员、线索信息对应关系，并进行人员称呼消歧及多关系融合，最后输出结构化结果；

在本实施例中，将抽取的人员与线索进行组合对应输出具有逻辑关系的信息对，消除称呼歧义，并对抽取出的多关系进行融合，消除重复信息，合并人员互补信息。

S5：从语义理解模块输出的bad case数据经收集标注后输出到规则引擎的规则库和语义解析模块的模型训练中，通过badcase修正有效提升模型的召回率。

本申请利用深度学习模型抽取公安文档中人员信息及相关线索，利用规则引擎抽取人员或线索的相关属性，识别准确率极大提升，再结合badcase，提升模型召回率，促进对于非结构化文档信息的解构与利用。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于深度学习和规则引擎的文本信息抽取方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的一种基于深度学习和规则引擎的文本信息抽取方法，其特征在于，S1中文档解析、字符清洗、段落切割及S2中人员抽取所采用的模型结构是BiLSTM+CRF模型。

3.根据权利要求1所述的一种基于深度学习和规则引擎的文本信息抽取方法，其特征在于，S3中抽取文档中涉案涉线人员相关属性包括：根据预先配置的人员属性规则和人员关系规则，采用规则引擎抽取文档中涉案涉线人员属性和人员之间的亲属社会关系。

4.根据权利要求1所述的一种基于深度学习和规则引擎的文本信息抽取方法，其特征在于，S4中多关系融合时，消除重复信息，合并人员互补信息。

5.根据权利要求1所述的一种基于深度学习和规则引擎的文本信息抽取方法，其特征在于，S4中语义理解模块输出的bad case数据经收集标注后输出到规则引擎的规则库和语义解析模块的模型训练中。

6.一种基于深度学习和规则引擎的文本信息抽取系统，其特征在于，包括：