CN110597760A

CN110597760A - 用于电子文档合规性判别的智能方法

Info

Publication number: CN110597760A
Application number: CN201910882499.6A
Authority: CN
Inventors: 李华康; 王磊; 徐梦婷; 方浪; 孔令军
Original assignee: Suzhou Pie Weiss Mdt Infotech Ltd
Current assignee: Suzhou Pie Weiss Mdt Infotech Ltd
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2019-12-20

Abstract

本发明公开了一种用于电子文档合规性判别的智能方法。本发明一种用于电子文档合规性判别的智能方法，包括：步骤S100:采集相关文档的信息并通过自然语言处理技术实现知识粒度的切割，将文本信息转化为无噪声的文本数据；步骤S200:用于判断步骤S100中获得的结构化文档信息是否符合相关领域的格式要求，文档信息是否缺失；步骤S300:分析文档语义逻辑信息，包括文档语义关系信息、语义依存关系和语义角色标注；步骤S400:通过文档语义逻辑分析模块得到的信息判断文档语义逻辑上是否存在谬误，是否符合相关领域要求。本发明的有益效果：本发明针对相关领域电子文档中存在的格式错误、信息缺失、语义逻辑错误的问题。

Description

用于电子文档合规性判别的智能方法

技术领域

本发明涉及电子文档领域，具体涉及一种用于电子文档合规性判别的智能方法。

背景技术

随着人工智能的快速发展，许多传统行业紧随这一股浪潮进行了改革。电子文档就是在互联网时代的产物，包括电子病历、电子笔录等在内。相关工作人员每天都几乎要面临的一项工作就是书写电子文档，以电子病历为例，临床医生需要根据每位患者的情况撰写电子病历、诊断报告和详细的病情描述，由于大部分医生并非专业的打字员，同时在病人较多的情况下，医生书写的电子病历存在着相关信息缺失、电子病历格式信息错误以及语义逻辑信息等问题。

传统技术存在以下技术问题：

目前绝大多数医生在撰写电子病历时采用的方式基本上基于已有的格式采用复制黏贴的方式撰写电子病历，撰写的电子病历书往往不符合国卫办医发(2017)8号发布的《电子病历应用管理规范(试行)》要求，因此常常因为书写的不规范和错误，给医疗纠纷埋下隐患。同样的问题在包括电子笔录、电子登记信息等文档信息方面也经常出现。

发明内容

本发明要解决的技术问题是提供一种用于电子文档合规性判别的智能方法，针对相关领域电子文档中存在的格式错误、信息缺失、语义逻辑错误的问题，判断相关领域的专业文档的合规性，降低相关文档出错的概率，提高相关工作人员的工作效率。

为了解决上述技术问题，本发明提供了一种用于电子文档合规性判别的智能方法，包括：

步骤S100:采集相关文档的信息并通过自然语言处理技术实现知识粒度的切割，将文本信息转化为无噪声的文本数据；

步骤S200:用于判断步骤S100中获得的结构化文档信息是否符合相关领域的格式要求，文档信息是否缺失；

步骤S300:分析文档语义逻辑信息，包括文档语义关系信息、语义依存关系和语义角色标注；

步骤S400:通过文档语义逻辑分析模块得到的信息判断文档语义逻辑上是否存在谬误，是否符合相关领域要求。

在其中一个实施例中，步骤100具体步骤如下：

步骤110：获取电子文档；

步骤120：对电子文档中的信息进行解析和抽取；

步骤130：将抽取的文本信息存储为结构化的信息，存储为结构化的json文件，或者使用python中的pandas库存储为csv文件。

在其中一个实施例中，步骤200具体步骤如下：

步骤210：读取步骤130获得的结构化文档数据；

步骤220：文档格式信息判断，对结构化的文档数据进行审查，如果数据中存在空值，则进入步骤240，若数据中不存在空值，则进入步骤230；

步骤230、格式审查通过，保留文档数据；

步骤240、输出报错信息。

在其中一个实施例中，步骤300具体步骤如下：

步骤310：读取文档数据；

步骤320：针对句子中所包含的信息，使用句号和分号对句子进行划分，来表示一整段话的开始和结束，并使用结巴分词来对句子进行分词；

步骤330：针对步骤320分词后的句子，使用自然语言处理技术进行相关领域实体词的抽取，针对不同的领域选择基于领域词典的实体抽取方法或者训练领域相关词向量，通过深度学习的方法来抽取实体；

步骤340：基于步骤330抽取出的实体词，利用自然语言处理技术按照实体-关系-实体的三元组形式进行实体间关系的抽取，使用基于SVM的方法、基于Bi-LSTM-attention的方法抽取关系，或者使用预训练好的模型如斯坦福的Stanford NLP模型或者哈工大的LTP模型进行关系抽取。

步骤350：将步骤330抽取的实体词和步骤340抽取的关系三元组存储为结构化的数据。

在其中一个实施例中，步骤400具体步骤如下：

步骤410：读取文档数据；

步骤420：判断文档中相关实体是否缺失，即相关实体是否为空值，若缺失实体则转入步骤450，如果不缺少实体，则转入步骤430，开始进行实体关系审查；

步骤430：判断关系三元组是否缺失，是否存在逻辑错误、是否符合相关领域的要求，若存在问题，则转入步骤450，若不存在问题，则转入步骤440；

步骤440、文档合规性判别通过；

步骤450，输出报错信息。

在其中一个实施例中，步骤120根据相关领域的标准文档采用关键词匹配、正则表达式匹配等方法进行文档信息的抽取。

一种用于电子文档合规性判别的智能系统，包括；

文档信息采集分析模块，此模块用于采集相关文档的信息并通过自然语言处理技术实现知识粒度的切割，将文本信息转化为无噪声的文本数据；

文档格式信息判断模块，此模块用于判断文档信息采集分析模块中获得的结构化文档信息是否符合相关领域的格式要求，文档信息是否缺失；

文档语义逻辑信息分析模块，用于分析文档语义逻辑信息，包括文档语义关系信息、语义依存关系和语义角色标注；以及

文档语义逻辑信息判断模块，通过文档语义逻辑分析模块得到的信息判断文档语义逻辑上是否存在谬误，是否符合相关领域要求。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

本发明的有益效果：

本发明针对相关领域电子文档中存在的格式错误、信息缺失、语义逻辑错误的问题，提出一种用于自动判别电子文档合规性的智能方法，判断相关领域的专业文档的合规性，降低相关文档出错的概率，提高相关工作人员的工作效率。

附图说明

图1是文档合规性判别系统的总体结构示意图。

图2是文档信息采集分析流程示意图。

图3是文档格式信息判断流程示意图。

图4是文档语义逻辑信息分析流程示意图。

图5是文档语义逻辑信息判断流程示意图。

图6是用于电子文档合规性判别的智能方法中的电子门诊病历文档。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

图1是文档合规性判别系统的总体流程示意图。概括来说，该方法主要包括：

模块100)文档信息采集分析模块，此模块用于采集相关文档的信息并通过自然语言处理技术实现知识粒度的切割，将文本信息转化为无噪声的文本数据。具体步骤如下：

步骤110：获取电子文档

步骤120：对电子文档中的信息进行解析和抽取，可以根据相关领域的标准文档采用关键词匹配、正则表达式匹配等方法进行文档信息的抽取

步骤130：将抽取的文本信息存储为结构化的信息，可以存储为结构化的json文件，或者使用python中的pandas库存储为csv文件

模块200)文档格式信息判断模块，此模块用于判断模块100)中获得的结构化文档信息是否符合相关领域的格式要求，文档信息是否缺失。具体步骤如下：

步骤210：读取步骤130获得的结构化文档数据

步骤220：文档格式信息判断，对结构化的文档数据进行审查，如果数据中存在空值，则进入步骤240，输出报错信息，若数据中不存在空值，则进入步骤230，格式审查通过，保留文档数据

模块300)文档语义逻辑信息分析模块，用于分析文档语义逻辑信息，包括文档语义关系信息，语义依存关系，语义角色标注等。具体步骤如下：

步骤310：读取文档数据

步骤320：针对句子中所包含的信息，可以使用句号、分号等对句子进行划分，来表示一整段话的开始和结束，并使用结巴分词来对句子进行分词

步骤330：针对步骤320分词后的句子，使用自然语言处理技术进行相关领域实体词的抽取，针对不同的领域可以选择基于领域词典的实体抽取方法或者训练领域相关词向量，通过深度学习的方法来抽取实体。常用的深度学习实体抽取模型有Bi-LSTM-CRF、BERT等。

步骤340：基于步骤330抽取出的实体词，利用自然语言处理技术按照实体-关系-实体的三元组形式进行实体间关系的抽取，可以使用基于SVM的方法、基于Bi-LSTM-attention的方法抽取关系，或者使用预训练好的模型如斯坦福的Stanford NLP模型或者哈工大的LTP模型进行关系抽取

步骤350：将步骤330抽取的实体词和步骤340抽取的关系三元组存储为结构化的数据9

模块400)：文档语义逻辑信息判断模块，通过文档语义逻辑分析模块得到的信息判断文档语义逻辑上是否存在谬误，是否符合相关领域要求。具体步骤如下：

步骤410：读取文档数据

步骤420：判断文档中相关实体是否缺失，即相关实体是否为空值，若缺失实体则转入步骤450，输出报错信息，如果不缺少实体，则转入步骤430，开始进行实体关系审查

步骤430：判断关系三元组是否缺失，是否存在逻辑错误、是否符合相关领域的要求，若存在问题，则转入步骤450，输出报错信息，若不存在问题，则转入步骤440，文档合规性判别通过。

下面介绍本发明的一个具体应用场景:

下面是一份具体的电子门诊病历文档

该门诊病历包含病历中多个重要元素，具体处理步骤如下：

1)对电子病历中的信息进行解析和抽取，使用关键词匹配、正则表达式匹配等方法识别出各个主要属性以及对应的属性值，如姓名、门诊号、时间等

2)将抽取的文本信息使用python中的pandas库存储为csv文件，如表1所示:

表1

3)对结构化的文档数据进行审查，如果数据中存在空值，则输出报错信息，若数据中不存在空值，则格式审查通过，保留文档数据，开始进行文档语义审查；

4)对于通过格式审查的电子文档，使用句号、分号对句子进行分割，缩小分析文本的字数，并使用结巴分词(结巴分词是Python中的分词工具)进行分词；

5)对分词后的文本进行时间实体、医疗实体的抽取，并进行实体间关系抽取，如药物使用间的关系、病症与诊疗措施间的关系，并将实体和实体关系三元组保存成结构化的数据；

6)判断文档中相关实体是否缺失，关系是否缺失、是否正确，若存在问题则输出报错信息，反之则文档通过合规性判别的检验。

综上所述，本发明针对相关领域电子文档中存在的格式错误、信息缺失、语义逻辑错误的问题，提出一种用于自动判别电子文档合规性的智能系统，判断相关领域的专业文档的合规性，降低相关文档出错的概率，提高相关工作人员的工作效率。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种用于电子文档合规性判别的智能方法，其特征在于，包括：

2.如权利要求1所述的用于电子文档合规性判别的智能方法，其特征在于，步骤100具体步骤如下：

步骤110：获取电子文档；

步骤120：对电子文档中的信息进行解析和抽取；

3.如权利要求1所述的用于电子文档合规性判别的智能方法，其特征在于，步骤200具体步骤如下：

步骤210：读取步骤130获得的结构化文档数据；

步骤230、格式审查通过，保留文档数据；

步骤240、输出报错信息。

4.如权利要求1所述的用于电子文档合规性判别的智能方法，其特征在于，步骤300具体步骤如下：

步骤310：读取文档数据；

5.如权利要求1所述的用于电子文档合规性判别的智能方法，其特征在于，步骤400具体步骤如下：

步骤410：读取文档数据；

步骤440、文档合规性判别通过；

步骤450，输出报错信息。

6.如权利要求1所述的用于电子文档合规性判别的智能方法，其特征在于，步骤120根据相关领域的标准文档采用关键词匹配、正则表达式匹配等方法进行文档信息的抽取。

7.一种用于电子文档合规性判别的智能系统，其特征在于，包括；

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1到6任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1到6任一项所述方法的步骤。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1到6任一项所述的方法。