CN111538805A - 一种基于深度学习和规则引擎的文本信息抽取方法及系统 - Google Patents
一种基于深度学习和规则引擎的文本信息抽取方法及系统 Download PDFInfo
- Publication number
- CN111538805A CN111538805A CN202010449750.2A CN202010449750A CN111538805A CN 111538805 A CN111538805 A CN 111538805A CN 202010449750 A CN202010449750 A CN 202010449750A CN 111538805 A CN111538805 A CN 111538805A
- Authority
- CN
- China
- Prior art keywords
- personnel
- extracting
- rule engine
- document
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 21
- 238000013135 deep learning Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 10
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 238000004140 cleaning Methods 0.000 claims abstract description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000005406 washing Methods 0.000 claims description 2
- 241001622623 Coeliadinae Species 0.000 abstract description 4
- 238000013136 deep learning model Methods 0.000 abstract description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于深度学习和规则引擎的文本信息抽取方法及系统,所述方法具体包括以下步骤:S1:将输入的公安文档解析成可处理文本,并进行无用字符清洗及段落切割;S2:针对切割后的段落,抽取段落中所有出现的涉案涉线人员姓名与地址信息;S3:采用规则引擎抽取文档中涉案涉线人员相关属性,同时利用时间识别算法抽取段落中包含的线索信息;S4:通过语义理解模块确定S3中抽取的人员、线索信息对应关系,并进行人员称呼消歧及多关系融合,最后输出结构化结果。本申请的文本信息抽取方法和系统,采用深度学习模型与规则引擎相结合,促进非结构化文档信息的利用,实现人员与线索的快速相关联,提升公安民警的判案效率。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种基于深度学习和规则引擎的文本信息抽取方法及系统。
背景技术
当存在多个文档描述同一实体(人员、组织等)及其关联之间的依存关系时,若以非结构化文档形式留存,则在后期对于这些文档的高效利用存在较大瓶颈。例如,在公安行业中,多个公安民警在对同一个人(组织)进行调查时,会将自己调查得到的线索或记录以文档形式留存,使得被调查人的信息会以非结构化的长文本形式存储,短则几百字,长则上万字。因而会导致在后续线索文档利用过程中,无法对这些线索信息进行快速检索,或者进行深度融合分析,或者难以将相关案件情报关联到其他相关人员身上。
发明内容
为了克服现有技术的上述不足,本发明提出了一种基于深度学习和规则引擎的文本信息抽取方法及系统,解决现有公安文档利用效率低,在线索信息检索、深度融合分析及案件人员的相关联上难度大的技术问题。
本发明是通过以下技术方案实现的:
一种基于深度学习和规则引擎的文本信息抽取方法,具体包括以下步骤:
S1:将输入的公安文档解析成可处理文本,并进行无用字符清洗及段落切割;
S2:针对切割后的段落,抽取段落中所有出现的涉案涉线人员姓名与地址信息;
S3:采用规则引擎抽取文档中涉案涉线人员相关属性,同时利用时间识别算法抽取段落中包含的线索信息;
S4:通过语义理解模块确定S3中抽取的人员、线索信息对应关系,并进行人员称呼消歧及多关系融合,最后输出结构化结果。
进一步的,S1中文档解析、字符清洗、段落切割及S2中人员抽取所采用的模型结构是BiLSTM+CRF模型。
进一步的,S3中抽取文档中涉案涉线人员相关属性包括:根据预先配置的人员属性规则和人员关系规则,采用规则引擎抽取文档中涉案涉线人员属性和人员之间的亲属社会关系。
进一步的,S4中多关系融合时,消除重复信息,合并人员互补信息。
进一步的,S4中语义理解模块输出的bad case数据经收集标注后输出到规则引擎的规则库和语义解析模块的模型训练中。
一种基于深度学习和规则引擎的文本信息抽取系统,包括:
数据预处理模块,将输入的公安文档解析成可处理文本,并进行无用字符清洗及段落切割;
语义解析模块,针对切割后的段落,抽取段落中所有出现的人员姓名与地址信息;
知识规则模块,采用规则引擎抽取文档中涉案涉线人员相关属性,同时利用时间识别算法抽取段落中包含的线索信息;
语义理解模块,确定抽取的人员、线索信息对应关系,并进行人员称呼消歧及多关系融合,最后输出结构化结果。
与现有技术相比,本发明的有益效果在于:
本发明提出的一种基于深度学习和规则引擎的文本信息抽取方法及系统,利用深度学习模型抽取文档中人员信息及相关线索,利用规则引擎抽取人员或线索的相关属性(性别、出生日期、线索对应人员等),同时通过人员或线索信息关联相关文档,形成关键信息索引系统,以及人员案件关系图谱,为公安民警在案件研判过程中减少工作量,提升工作效率。
说明书附图
图1为本发明实施例所述一种基于深度学习和规则引擎的文本信息抽取方法的流程图。
具体实施方式
展示一下实例来具体说明本发明的某些实施例,且不应解释为限制本发明的范围。对本发明公开的内容可以同时从材料、方法和反应条件进行改进,所有这些改进,均应落入本发明的精神和范围之内。
一种基于深度学习和规则引擎的文本信息抽取系统,包括:
数据预处理模块,将输入的公安文档解析成可处理文本,并进行无用字符清洗及段落切割;
语义解析模块,针对切割后的段落,抽取段落中所有出现的人员姓名与地址信息;
知识规则模块,采用规则引擎抽取文档中涉案涉线人员相关属性,同时利用时间识别算法抽取段落中包含的线索信息;
语义理解模块,确定抽取的人员、线索信息对应关系,并进行人员称呼消歧及多关系融合,最后输出结构化结果。
实现了公安文档中人员与线索信息的结构化解析,结合深度学习与规则引擎抽取出文档中人员与线索信息,并将线索对应到相应人员中,提供涉案涉线人员与线索的相关联,为公安民警在案件研判过程中减少工作量,提升工作效率。
一种基于深度学习和规则引擎的文本信息抽取方法,如图1所示,具体包括以下步骤:
S1:将输入的公安文档解析成可处理文本,并进行无用字符清洗及段落切割;
S2:从切割后段落中抽取所有出现的涉案涉线人员姓名与地址信息;
在本实施例中,主要采用BiLSTM+CRF模型来抽取公安文档中的涉案涉线人员姓名、地址信息,BiLSTM+CRF模型由look-up层、BiLSTM层和CRF层,其抽取步骤包括:用户输入的句子进入look-up层被表示成词向量和字向量序列,接着BiLSTM层将输入的词向量和字向量序列通过双向的LSTM神经网络输出各个字符的所有标签及其得分,最后通过CRF层学习各标签之间的依赖关系,输出符合语法规则的实体标签集合。
S3:采用规则引擎抽取文档中涉案涉线人员相关属性,同时利用时间识别算法抽取段落中包含的线索信息;
在本实施例中,根据预先配置的人员属性规则和人员关系规则,采用规则引擎抽取文档中涉案涉线人员属性(身份证、联系电话等)和人员之间的亲属社会关系(家庭关系、社会关系等),利用时间识别算法抽取出段落中包含的线索;
S4:通过语义理解模块确定抽取的人员、线索信息对应关系,并进行人员称呼消歧及多关系融合,最后输出结构化结果;
在本实施例中,将抽取的人员与线索进行组合对应输出具有逻辑关系的信息对,消除称呼歧义,并对抽取出的多关系进行融合,消除重复信息,合并人员互补信息。
S5:从语义理解模块输出的bad case数据经收集标注后输出到规则引擎的规则库和语义解析模块的模型训练中,通过badcase修正有效提升模型的召回率。
本申请利用深度学习模型抽取公安文档中人员信息及相关线索,利用规则引擎抽取人员或线索的相关属性,识别准确率极大提升,再结合badcase,提升模型召回率,促进对于非结构化文档信息的解构与利用。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (6)
1.一种基于深度学习和规则引擎的文本信息抽取方法,其特征在于,具体包括以下步骤:
S1:将输入的公安文档解析成可处理文本,并进行无用字符清洗及段落切割;
S2:针对切割后的段落,抽取段落中所有出现的涉案涉线人员姓名与地址信息;
S3:采用规则引擎抽取文档中涉案涉线人员相关属性,同时利用时间识别算法抽取段落中包含的线索信息;
S4:通过语义理解模块确定S3中抽取的人员、线索信息对应关系,并进行人员称呼消歧及多关系融合,最后输出结构化结果。
2.根据权利要求1所述的一种基于深度学习和规则引擎的文本信息抽取方法,其特征在于,S1中文档解析、字符清洗、段落切割及S2中人员抽取所采用的模型结构是BiLSTM+CRF模型。
3.根据权利要求1所述的一种基于深度学习和规则引擎的文本信息抽取方法,其特征在于,S3中抽取文档中涉案涉线人员相关属性包括:根据预先配置的人员属性规则和人员关系规则,采用规则引擎抽取文档中涉案涉线人员属性和人员之间的亲属社会关系。
4.根据权利要求1所述的一种基于深度学习和规则引擎的文本信息抽取方法,其特征在于,S4中多关系融合时,消除重复信息,合并人员互补信息。
5.根据权利要求1所述的一种基于深度学习和规则引擎的文本信息抽取方法,其特征在于,S4中语义理解模块输出的bad case数据经收集标注后输出到规则引擎的规则库和语义解析模块的模型训练中。
6.一种基于深度学习和规则引擎的文本信息抽取系统,其特征在于,包括:
数据预处理模块,将输入的公安文档解析成可处理文本,并进行无用字符清洗及段落切割;
语义解析模块,针对切割后的段落,抽取段落中所有出现的人员姓名与地址信息;
知识规则模块,采用规则引擎抽取文档中涉案涉线人员相关属性,同时利用时间识别算法抽取段落中包含的线索信息;
语义理解模块,确定抽取的人员、线索信息对应关系,并进行人员称呼消歧及多关系融合,最后输出结构化结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010449750.2A CN111538805A (zh) | 2020-05-25 | 2020-05-25 | 一种基于深度学习和规则引擎的文本信息抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010449750.2A CN111538805A (zh) | 2020-05-25 | 2020-05-25 | 一种基于深度学习和规则引擎的文本信息抽取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111538805A true CN111538805A (zh) | 2020-08-14 |
Family
ID=71976078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010449750.2A Pending CN111538805A (zh) | 2020-05-25 | 2020-05-25 | 一种基于深度学习和规则引擎的文本信息抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111538805A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114241501A (zh) * | 2021-12-20 | 2022-03-25 | 北京中科睿见科技有限公司 | 影像文档处理方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468605A (zh) * | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
US20160140187A1 (en) * | 2014-11-19 | 2016-05-19 | Electronics And Telecommunications Research Institute | System and method for answering natural language question |
CN109766524A (zh) * | 2018-12-28 | 2019-05-17 | 重庆邮电大学 | 一种并购重组类公告信息抽取方法及系统 |
CN109857990A (zh) * | 2018-12-18 | 2019-06-07 | 重庆邮电大学 | 一种基于文档结构与深度学习的金融类公告信息抽取方法 |
-
2020
- 2020-05-25 CN CN202010449750.2A patent/CN111538805A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468605A (zh) * | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
US20160140187A1 (en) * | 2014-11-19 | 2016-05-19 | Electronics And Telecommunications Research Institute | System and method for answering natural language question |
CN109857990A (zh) * | 2018-12-18 | 2019-06-07 | 重庆邮电大学 | 一种基于文档结构与深度学习的金融类公告信息抽取方法 |
CN109766524A (zh) * | 2018-12-28 | 2019-05-17 | 重庆邮电大学 | 一种并购重组类公告信息抽取方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114241501A (zh) * | 2021-12-20 | 2022-03-25 | 北京中科睿见科技有限公司 | 影像文档处理方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111723215B (zh) | 基于文本挖掘的生物技术信息知识图谱构建装置与方法 | |
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN111310470B (zh) | 一种融合字词特征的中文命名实体识别方法 | |
CN106776574B (zh) | 用户评论文本挖掘方法及装置 | |
WO2015149533A1 (zh) | 一种基于网页内容分类进行分词处理的方法和装置 | |
CN105608232B (zh) | 一种基于图形数据库的bug知识建模方法 | |
CN114065758B (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN111259160B (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN111177532A (zh) | 一种垂直搜索方法、装置、计算机系统及可读存储介质 | |
Jabbar et al. | An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach | |
CN113051356A (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN111104801A (zh) | 基于网址域名的文本分词方法、系统、设备及介质 | |
CN114840677B (zh) | 面向多粒度需求的短文本分类与智能分析方法 | |
CN112149422B (zh) | 一种基于自然语言的企业新闻动态监测方法 | |
CN114153978A (zh) | 模型训练方法、信息抽取方法、装置、设备及存储介质 | |
CN111966792A (zh) | 一种文本处理方法、装置、电子设备及可读存储介质 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN111538805A (zh) | 一种基于深度学习和规则引擎的文本信息抽取方法及系统 | |
CN113032371A (zh) | 数据库语法分析方法、装置和计算机设备 | |
Behera | Implementation of a finite state automaton to recognize and remove stop words in English text on its retrieval | |
CN117033816A (zh) | 停车推荐方法、装置、电子设备及存储介质 | |
CN112560425A (zh) | 模板生成方法、装置、电子设备及存储介质 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
Al-Sultany et al. | Enriching tweets for topic modeling via linking to the wikipedia | |
CN111949781B (zh) | 一种基于自然语句句法分析的智能交互方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |