CN110609909A - 用于电子文档判别勘误的智能方法 - Google Patents

用于电子文档判别勘误的智能方法 Download PDF

Info

Publication number
CN110609909A
CN110609909A CN201910882479.9A CN201910882479A CN110609909A CN 110609909 A CN110609909 A CN 110609909A CN 201910882479 A CN201910882479 A CN 201910882479A CN 110609909 A CN110609909 A CN 110609909A
Authority
CN
China
Prior art keywords
document
information
error
semantic
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910882479.9A
Other languages
English (en)
Inventor
李华康
王磊
王永超
方浪
孔令军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Pie Weiss Mdt Infotech Ltd
Original Assignee
Suzhou Pie Weiss Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Pie Weiss Mdt Infotech Ltd filed Critical Suzhou Pie Weiss Mdt Infotech Ltd
Priority to CN201910882479.9A priority Critical patent/CN110609909A/zh
Publication of CN110609909A publication Critical patent/CN110609909A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种用于电子文档判别勘误的智能方法。本发明一种用于电子文档判别勘误的智能方法,包括:步骤100、采集相关文档的信息并通过自然语言处理技术实现知识粒度的切割,将文本信息转化为无噪声的文本数据;步骤200、判断步骤100中获得的结构化文档信息是否符合相关领域的格式要求,文档信息是否缺失并根据报错信息返回修改。本发明的有益效果:本发明针对相关领域电子文档中存在的格式错误、信息缺失、语义逻辑错误的问题,提出一种用于自动判别电子文档合规性并勘误的智能方法,判断相关领域的专业文档的合规性,减少相关文档的错误,提高相关工作人员的工作效率。

Description

用于电子文档判别勘误的智能方法
技术领域
本发明涉及电子文档判别领域,具体涉及一种用于电子文档判别勘误的智能方法。
背景技术
大数据时代的到来使得许多传统行业紧随这一股浪潮进行了改革。电子文档就是互联网时代的产物,包括电子病历、电子笔录等在内。相关工作人员每天都几乎要面临的一项工作就是书写电子文档,以电子笔录为例,警察需要根据每件案子的情况撰写电子笔录,记录下详细的案情描述和处理措施,由于大部分警察并非专业的打字员,同时在案情较多的情况下,所书写的电子笔录存在着相关信息缺失、电子笔录格式信息错误以及语义逻辑信息等问题。
传统技术存在以下技术问题:
目前绝大多数警察在撰写电子笔录时采用的方式基本上基于已有的格式采用复制黏贴的方式撰写电子笔录,撰写的电子病历书往往不符合要求,因此常常因为书写的不规范和错误,给案情纠纷埋下隐患。同样的问题在包括电子病历、电子登记信息等文档信息方面也经常出现。
发明内容
本发明要解决的技术问题是提供一种用于电子文档判别勘误的智能方法,对相关领域电子文档中存在的格式错误、信息缺失、语义逻辑错误的问题,判断相关领域的专业文档的合规性,并对出现的错误做出纠错处理,减少相关文档出错的问题,提高相关工作人员的工作效率。
为了解决上述技术问题,本发明提供了一种用于电子文档判别勘误的智能方法,包括:
步骤100、采集相关文档的信息并通过自然语言处理技术实现知识粒度的切割,将文本信息转化为无噪声的文本数据;
步骤200、判断步骤100中获得的结构化文档信息是否符合相关领域的格式要求,文档信息是否缺失并根据报错信息返回修改;
步骤300、分析文档语义逻辑信息,包括文档语义关系信息、语义依存关系和语义角色标注;
步骤400、通过步骤300得到的信息判断文档语义逻辑上是否存在谬误,是否符合相关领域要求。
在其中一个实施例中,步骤200具体步骤如下:
步骤210读取步骤100获得的结构化文档数据;
步骤220:文档格式信息判断,对结构化的文档数据进行审查,如果数据中存在空值,则进入步骤240,若数据中不存在空值,则进入步骤230;
步骤230:格式审查通过,保留文档数据;
步骤240:输出报错信息,工作人员根据报错信息修改原文档,并返回步骤100,重新开始进行文档格式信息审查。
在其中一个实施例中,步骤400具体步骤如下:
步骤410:读取文档数据
步骤420:判断文档中相关实体是否缺失,即相关实体是否为空值,若缺失实体则转入步骤440,如果不缺少实体,则转入步骤430,开始进行实体关系审查;
步骤430:判断关系三元组是否缺失,是否存在逻辑错误、是否符合相关领域的要求,若存在问题,则转入步骤440,若不存在问题,则转入步骤450;
步骤440:输出报错信息,工作人员根据报错信息修改原文档,并返回步骤300,重新开始进行文档语义逻辑审查;
步骤450:文档合规性判别通过。
一种用于电子文档判别勘误的智能系统,包括:
文档信息采集分析模块,此模块用于采集相关文档的信息并通过自然语言处理技术实现知识粒度的切割,将文本信息转化为无噪声的文本数据;
文档格式信息判断纠错模块,此模块用于判断模块文档信息采集分析模块中获得的结构化文档信息是否符合相关领域的格式要求,文档信息是否缺失并根据报错信息返回修改;
文档语义逻辑信息分析模块,用于分析文档语义逻辑信息,包括文档语义关系信息,语义依存关系和语义角色标注;以及
文档语义逻辑信息判断纠错模块,通过文档语义逻辑分析模块得到的信息判断文档语义逻辑上是否存在谬误,是否符合相关领域要求。
在其中一个实施例中,文档格式信息判断纠错模块具体包括:
步骤210:读取文档信息采集分析模块获得的结构化文档数据;
步骤220:文档格式信息判断,对结构化的文档数据进行审查,如果数据中存在空值,则进入步骤240,若数据中不存在空值,则进入步骤230;
步骤230:格式审查通过,保留文档数据;
步骤240:输出报错信息,工作人员根据报错信息修改原文档,并返回文档信息采集分析模块,重新开始进行文档格式信息审查。
在其中一个实施例中,文档语义逻辑信息判断纠错模块具体如下:
步骤410:读取文档数据;
步骤420:判断文档中相关实体是否缺失,即相关实体是否为空值,若缺失实体则转入步骤440,如果不缺少实体,则转入步骤430,开始进行实体关系审查;
步骤430:判断关系三元组是否缺失,是否存在逻辑错误、是否符合相关领域的要求,若存在问题,则转入步骤440,若不存在问题,则转入步骤450;
步骤440:输出报错信息,工作人员根据报错信息修改原文档,并返回文档语义逻辑信息分析模块,重新开始进行文档语义逻辑审查;
步骤450:文档合规性判别通过。
在其中一个实施例中,文档语义逻辑信息分析模块中,具体操作包括实体识别和关系抽取。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
本发明的有益效果:
本发明针对相关领域电子文档中存在的格式错误、信息缺失、语义逻辑错误的问题,提出一种用于自动判别电子文档合规性并勘误的智能方法,判断相关领域的专业文档的合规性,减少相关文档的错误,提高相关工作人员的工作效率。
附图说明
图1是文档合规性判别勘误方法的总体流程示意图。
图2是文档格式信息判断纠错流程示意图。
图3是文档语义逻辑信息判断纠错流程示意图。
图4是文档合规性判别勘误方法中的询问笔录示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
图1是文档合规性判别勘误系统的总体流程示意图。概括来说,该方法主要包括:
模块100)文档信息采集分析模块,此模块用于采集相关文档的信息并通过自然语言处理技术实现知识粒度的切割,将文本信息转化为无噪声的文本数据。
模块200)文档格式信息判断纠错模块,此模块用于判断模块100)中获得的结构化文档信息是否符合相关领域的格式要求,文档信息是否缺失并根据报错信息返回修改。具体步骤如下:
步骤210:读取模块100获得的结构化文档数据
步骤220:文档格式信息判断,对结构化的文档数据进行审查,如果数据中存在空值,则进入步骤240,若数据中不存在空值,则进入步骤230;
步骤230:格式审查通过,保留文档数据;
步骤240:输出报错信息,工作人员根据报错信息修改原文档,并返回模块100,重新开始进行文档格式信息审查。
模块300)文档语义逻辑信息分析模块,用于分析文档语义逻辑信息,包括文档语义关系信息,语义依存关系,语义角色标注等,具体操作包括实体识别、关系抽取等。
模块400):文档语义逻辑信息判断纠错模块,通过文档语义逻辑分析模块得到的信息判断文档语义逻辑上是否存在谬误,是否符合相关领域要求。具体步骤如下:
步骤410:读取文档数据;
步骤420:判断文档中相关实体是否缺失,即相关实体是否为空值,若缺失实体则转入步骤440,如果不缺少实体,则转入步骤430,开始进行实体关系审查
步骤430:判断关系三元组是否缺失,是否存在逻辑错误、是否符合相关领域的要求,若存在问题,则转入步骤440,若不存在问题,则转入步骤450,
步骤440:输出报错信息,工作人员根据报错信息修改原文档,并返回模块300,重新开始进行文档语义逻辑审查
步骤450:文档合规性判别通过。
下面介绍本发明的一个具体应用场景:
下面是一份具体的电子笔录文档
该电子笔录包含病历中多个重要元素,具体处理步骤如下:
1)对电子笔录中的信息进行解析和抽取,使用关键词匹配、正则表达式匹配等方法识别出各个主要属性以及对应的属性值,如姓名、时间、、籍贯、住址等
2)将抽取的文本信息使用python中的pandas库存储为csv文件
3)对结构化的文档数据进行审查,如果数据中存在空值,则输出报错信息,工作人员根据报错信息审查原始笔录文件并作出修改,修改完毕后重新进行审查,若数据中不存在空值,则格式审查通过,保留文档数据,开始进行文档语义审查
4)对于通过格式审查的电子文档,使用句号、分号对句子进行分割,缩小分析文本的字数,并使用结巴分词进行分词
5)对分词后的文本进行时间实体、人名实体、地名实体等的抽取,并进行实体间关系抽取,如被害人和嫌疑人的关系、案件与时间、地点的关系等,并将实体和实体关系三元组保存成结构化的数据
6)判断文档中相关实体是否缺失,关系是否缺失、是否正确,若存在问题则输出报错信息,工作人员根据报错信息审查原始笔录文件并作出修改,修改完毕后重新进行审查,反之则文档通过合规性判别的检验。
综上所述,本发明针对相关领域电子文档中存在的格式错误、信息缺失、语义逻辑错误的问题,提出一种用于自动判别电子文档合规性并勘误的智能系统,判断相关领域的专业文档的合规性,减少相关文档的错误,提高相关工作人员的工作效率。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (10)

1.一种用于电子文档判别勘误的智能方法,其特征在于,包括:
步骤100、采集相关文档的信息并通过自然语言处理技术实现知识粒度的切割,将文本信息转化为无噪声的文本数据。
步骤200、判断步骤100中获得的结构化文档信息是否符合相关领域的格式要求,文档信息是否缺失并根据报错信息返回修改;
步骤300、分析文档语义逻辑信息,包括文档语义关系信息、语义依存关系和语义角色标注;
步骤400、通过步骤300得到的信息判断文档语义逻辑上是否存在谬误,是否符合相关领域要求。
2.如权利要求1所述的用于电子文档判别勘误的智能方法,其特征在于,步骤200具体步骤如下:
步骤210读取步骤100获得的结构化文档数据;
步骤220:文档格式信息判断,对结构化的文档数据进行审查,如果数据中存在空值,则进入步骤240,若数据中不存在空值,则进入步骤230;
步骤230:格式审查通过,保留文档数据;
步骤240:输出报错信息,工作人员根据报错信息修改原文档,并返回步骤100,重新开始进行文档格式信息审查。
3.如权利要求1所述的用于电子文档判别勘误的智能方法,其特征在于,步骤400具体步骤如下:
步骤410:读取文档数据;
步骤420:判断文档中相关实体是否缺失,即相关实体是否为空值,若缺失实体则转入步骤440,如果不缺少实体,则转入步骤430,开始进行实体关系审查;
步骤430:判断关系三元组是否缺失,是否存在逻辑错误、是否符合相关领域的要求,若存在问题,则转入步骤440,若不存在问题,则转入步骤450;
步骤440:输出报错信息,工作人员根据报错信息修改原文档,并返回步骤300,重新开始进行文档语义逻辑审查;
步骤450:文档合规性判别通过。
4.一种用于电子文档判别勘误的智能系统,其特征在于,包括:
文档信息采集分析模块,此模块用于采集相关文档的信息并通过自然语言处理技术实现知识粒度的切割,将文本信息转化为无噪声的文本数据;
文档格式信息判断纠错模块,此模块用于判断模块文档信息采集分析模块中获得的结构化文档信息是否符合相关领域的格式要求,文档信息是否缺失并根据报错信息返回修改;
文档语义逻辑信息分析模块,用于分析文档语义逻辑信息,包括文档语义关系信息,语义依存关系和语义角色标注;以及
文档语义逻辑信息判断纠错模块,通过文档语义逻辑分析模块得到的信息判断文档语义逻辑上是否存在谬误,是否符合相关领域要求。
5.如权利要求4所述的用于电子文档判别勘误的智能系统,其特征在于,文档格式信息判断纠错模块具体包括:
步骤210:读取文档信息采集分析模块获得的结构化文档数据;
步骤220:文档格式信息判断,对结构化的文档数据进行审查,如果数据中存在空值,则进入步骤240,若数据中不存在空值,则进入步骤230;
步骤230:格式审查通过,保留文档数据;
步骤240:输出报错信息,工作人员根据报错信息修改原文档,并返回文档信息采集分析模块,重新开始进行文档格式信息审查。
6.如权利要求4所述的用于电子文档判别勘误的智能系统,其特征在于,文档语义逻辑信息判断纠错模块具体如下:
步骤410:读取文档数据;
步骤420:判断文档中相关实体是否缺失,即相关实体是否为空值,若缺失实体则转入步骤440,如果不缺少实体,则转入步骤430,开始进行实体关系审查;
步骤430:判断关系三元组是否缺失,是否存在逻辑错误、是否符合相关领域的要求,若存在问题,则转入步骤440,若不存在问题,则转入步骤450;
步骤440:输出报错信息,工作人员根据报错信息修改原文档,并返回文档语义逻辑信息分析模块,重新开始进行文档语义逻辑审查;
步骤450:文档合规性判别通过。
7.如权利要求4所述的用于电子文档判别勘误的智能系统,其特征在于,,文档语义逻辑信息分析模块中,具体操作包括实体识别和关系抽取。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1到3任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1到3任一项所述方法的步骤。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1到3任一项所述的方法。
CN201910882479.9A 2019-09-18 2019-09-18 用于电子文档判别勘误的智能方法 Pending CN110609909A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910882479.9A CN110609909A (zh) 2019-09-18 2019-09-18 用于电子文档判别勘误的智能方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910882479.9A CN110609909A (zh) 2019-09-18 2019-09-18 用于电子文档判别勘误的智能方法

Publications (1)

Publication Number Publication Date
CN110609909A true CN110609909A (zh) 2019-12-24

Family

ID=68891582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910882479.9A Pending CN110609909A (zh) 2019-09-18 2019-09-18 用于电子文档判别勘误的智能方法

Country Status (1)

Country Link
CN (1) CN110609909A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006350663A (ja) * 2005-06-15 2006-12-28 Fuji Xerox Co Ltd 文書読取システム
CN109492203A (zh) * 2018-11-21 2019-03-19 深圳中广核工程设计有限公司 一种核电大型综合报告格式校验方法及系统
CN109918640A (zh) * 2018-12-22 2019-06-21 浙江工商大学 一种基于知识图谱的中文文本校对方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006350663A (ja) * 2005-06-15 2006-12-28 Fuji Xerox Co Ltd 文書読取システム
CN109492203A (zh) * 2018-11-21 2019-03-19 深圳中广核工程设计有限公司 一种核电大型综合报告格式校验方法及系统
CN109918640A (zh) * 2018-12-22 2019-06-21 浙江工商大学 一种基于知识图谱的中文文本校对方法

Similar Documents

Publication Publication Date Title
US11681733B2 (en) Massive scale heterogeneous data ingestion and user resolution
US7769704B2 (en) Contextual pattern decoder engine
US9690788B2 (en) File type recognition analysis method and system
US20080104506A1 (en) Method for producing a document summary
CN110347598B (zh) 一种测试脚本生成方法、装置、服务器及存储介质
CN108170468B (zh) 一种自动检测注释和代码一致性的方法及其系统
US11042464B2 (en) Log record analysis based on reverse engineering of log record formats
US11347619B2 (en) Log record analysis based on log record templates
CN110909123B (zh) 一种数据提取方法、装置、终端设备及存储介质
CN111581090A (zh) 一种基于nlp和rf框架的自动化测试用例生成方法及系统
CN109710518A (zh) 脚本审核方法及装置
CN112149663A (zh) 结合rpa和ai的图像文字的提取方法、装置及电子设备
US10782942B1 (en) Rapid onboarding of data from diverse data sources into standardized objects with parser and unit test generation
CN113407721A (zh) 检测日志序列异常的方法、装置及计算机存储介质
RU2702967C1 (ru) Способ и система для проверки электронного комплекта документов
CN110597760A (zh) 用于电子文档合规性判别的智能方法
CN110737770B (zh) 文本数据敏感性识别方法、装置、电子设备及存储介质
CN111930708A (zh) 基于Ceph对象存储的对象标签的扩展系统及方法
Tilton Porting an iterative parallel region growing algorithm from the MPP to the MasPar MP-1
Bartoli et al. Semisupervised wrapper choice and generation for print-oriented documents
CN117112642A (zh) 跨域数据引用完整性分析方法、装置、终端及存储介质
CN110609909A (zh) 用于电子文档判别勘误的智能方法
CN113779218B (zh) 问答对构建方法、装置、计算机设备和存储介质
EP4174765A1 (en) Information processing device, information processing method, and computer program
CN110738054B (zh) 识别邮件中酒店信息的方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191224