CN110597760A - 用于电子文档合规性判别的智能方法 - Google Patents

用于电子文档合规性判别的智能方法 Download PDF

Info

Publication number
CN110597760A
CN110597760A CN201910882499.6A CN201910882499A CN110597760A CN 110597760 A CN110597760 A CN 110597760A CN 201910882499 A CN201910882499 A CN 201910882499A CN 110597760 A CN110597760 A CN 110597760A
Authority
CN
China
Prior art keywords
document
information
semantic
judging
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910882499.6A
Other languages
English (en)
Inventor
李华康
王磊
徐梦婷
方浪
孔令军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Pie Weiss Mdt Infotech Ltd
Original Assignee
Suzhou Pie Weiss Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Pie Weiss Mdt Infotech Ltd filed Critical Suzhou Pie Weiss Mdt Infotech Ltd
Priority to CN201910882499.6A priority Critical patent/CN110597760A/zh
Publication of CN110597760A publication Critical patent/CN110597760A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种用于电子文档合规性判别的智能方法。本发明一种用于电子文档合规性判别的智能方法,包括:步骤S100:采集相关文档的信息并通过自然语言处理技术实现知识粒度的切割,将文本信息转化为无噪声的文本数据;步骤S200:用于判断步骤S100中获得的结构化文档信息是否符合相关领域的格式要求,文档信息是否缺失;步骤S300:分析文档语义逻辑信息,包括文档语义关系信息、语义依存关系和语义角色标注;步骤S400:通过文档语义逻辑分析模块得到的信息判断文档语义逻辑上是否存在谬误,是否符合相关领域要求。本发明的有益效果:本发明针对相关领域电子文档中存在的格式错误、信息缺失、语义逻辑错误的问题。

Description

用于电子文档合规性判别的智能方法
技术领域
本发明涉及电子文档领域,具体涉及一种用于电子文档合规性判别的智能方法。
背景技术
随着人工智能的快速发展,许多传统行业紧随这一股浪潮进行了改革。电子文档就是在互联网时代的产物,包括电子病历、电子笔录等在内。相关工作人员每天都几乎要面临的一项工作就是书写电子文档,以电子病历为例,临床医生需要根据每位患者的情况撰写电子病历、诊断报告和详细的病情描述,由于大部分医生并非专业的打字员,同时在病人较多的情况下,医生书写的电子病历存在着相关信息缺失、电子病历格式信息错误以及语义逻辑信息等问题。
传统技术存在以下技术问题:
目前绝大多数医生在撰写电子病历时采用的方式基本上基于已有的格式采用复制黏贴的方式撰写电子病历,撰写的电子病历书往往不符合国卫办医发(2017)8号发布的《电子病历应用管理规范(试行)》要求,因此常常因为书写的不规范和错误,给医疗纠纷埋下隐患。同样的问题在包括电子笔录、电子登记信息等文档信息方面也经常出现。
发明内容
本发明要解决的技术问题是提供一种用于电子文档合规性判别的智能方法,针对相关领域电子文档中存在的格式错误、信息缺失、语义逻辑错误的问题,判断相关领域的专业文档的合规性,降低相关文档出错的概率,提高相关工作人员的工作效率。
为了解决上述技术问题,本发明提供了一种用于电子文档合规性判别的智能方法,包括:
步骤S100:采集相关文档的信息并通过自然语言处理技术实现知识粒度的切割,将文本信息转化为无噪声的文本数据;
步骤S200:用于判断步骤S100中获得的结构化文档信息是否符合相关领域的格式要求,文档信息是否缺失;
步骤S300:分析文档语义逻辑信息,包括文档语义关系信息、语义依存关系和语义角色标注;
步骤S400:通过文档语义逻辑分析模块得到的信息判断文档语义逻辑上是否存在谬误,是否符合相关领域要求。
在其中一个实施例中,步骤100具体步骤如下:
步骤110:获取电子文档;
步骤120:对电子文档中的信息进行解析和抽取;
步骤130:将抽取的文本信息存储为结构化的信息,存储为结构化的json文件,或者使用python中的pandas库存储为csv文件。
在其中一个实施例中,步骤200具体步骤如下:
步骤210:读取步骤130获得的结构化文档数据;
步骤220:文档格式信息判断,对结构化的文档数据进行审查,如果数据中存在空值,则进入步骤240,若数据中不存在空值,则进入步骤230;
步骤230、格式审查通过,保留文档数据;
步骤240、输出报错信息。
在其中一个实施例中,步骤300具体步骤如下:
步骤310:读取文档数据;
步骤320:针对句子中所包含的信息,使用句号和分号对句子进行划分,来表示一整段话的开始和结束,并使用结巴分词来对句子进行分词;
步骤330:针对步骤320分词后的句子,使用自然语言处理技术进行相关领域实体词的抽取,针对不同的领域选择基于领域词典的实体抽取方法或者训练领域相关词向量,通过深度学习的方法来抽取实体;
步骤340:基于步骤330抽取出的实体词,利用自然语言处理技术按照实体-关系-实体的三元组形式进行实体间关系的抽取,使用基于SVM的方法、基于Bi-LSTM-attention的方法抽取关系,或者使用预训练好的模型如斯坦福的Stanford NLP模型或者哈工大的LTP模型进行关系抽取。
步骤350:将步骤330抽取的实体词和步骤340抽取的关系三元组存储为结构化的数据。
在其中一个实施例中,步骤400具体步骤如下:
步骤410:读取文档数据;
步骤420:判断文档中相关实体是否缺失,即相关实体是否为空值,若缺失实体则转入步骤450,如果不缺少实体,则转入步骤430,开始进行实体关系审查;
步骤430:判断关系三元组是否缺失,是否存在逻辑错误、是否符合相关领域的要求,若存在问题,则转入步骤450,若不存在问题,则转入步骤440;
步骤440、文档合规性判别通过;
步骤450,输出报错信息。
在其中一个实施例中,步骤120根据相关领域的标准文档采用关键词匹配、正则表达式匹配等方法进行文档信息的抽取。
一种用于电子文档合规性判别的智能系统,包括;
文档信息采集分析模块,此模块用于采集相关文档的信息并通过自然语言处理技术实现知识粒度的切割,将文本信息转化为无噪声的文本数据;
文档格式信息判断模块,此模块用于判断文档信息采集分析模块中获得的结构化文档信息是否符合相关领域的格式要求,文档信息是否缺失;
文档语义逻辑信息分析模块,用于分析文档语义逻辑信息,包括文档语义关系信息、语义依存关系和语义角色标注;以及
文档语义逻辑信息判断模块,通过文档语义逻辑分析模块得到的信息判断文档语义逻辑上是否存在谬误,是否符合相关领域要求。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
本发明的有益效果:
本发明针对相关领域电子文档中存在的格式错误、信息缺失、语义逻辑错误的问题,提出一种用于自动判别电子文档合规性的智能方法,判断相关领域的专业文档的合规性,降低相关文档出错的概率,提高相关工作人员的工作效率。
附图说明
图1是文档合规性判别系统的总体结构示意图。
图2是文档信息采集分析流程示意图。
图3是文档格式信息判断流程示意图。
图4是文档语义逻辑信息分析流程示意图。
图5是文档语义逻辑信息判断流程示意图。
图6是用于电子文档合规性判别的智能方法中的电子门诊病历文档。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
图1是文档合规性判别系统的总体流程示意图。概括来说,该方法主要包括:
模块100)文档信息采集分析模块,此模块用于采集相关文档的信息并通过自然语言处理技术实现知识粒度的切割,将文本信息转化为无噪声的文本数据。具体步骤如下:
步骤110:获取电子文档
步骤120:对电子文档中的信息进行解析和抽取,可以根据相关领域的标准文档采用关键词匹配、正则表达式匹配等方法进行文档信息的抽取
步骤130:将抽取的文本信息存储为结构化的信息,可以存储为结构化的json文件,或者使用python中的pandas库存储为csv文件
模块200)文档格式信息判断模块,此模块用于判断模块100)中获得的结构化文档信息是否符合相关领域的格式要求,文档信息是否缺失。具体步骤如下:
步骤210:读取步骤130获得的结构化文档数据
步骤220:文档格式信息判断,对结构化的文档数据进行审查,如果数据中存在空值,则进入步骤240,输出报错信息,若数据中不存在空值,则进入步骤230,格式审查通过,保留文档数据
模块300)文档语义逻辑信息分析模块,用于分析文档语义逻辑信息,包括文档语义关系信息,语义依存关系,语义角色标注等。具体步骤如下:
步骤310:读取文档数据
步骤320:针对句子中所包含的信息,可以使用句号、分号等对句子进行划分,来表示一整段话的开始和结束,并使用结巴分词来对句子进行分词
步骤330:针对步骤320分词后的句子,使用自然语言处理技术进行相关领域实体词的抽取,针对不同的领域可以选择基于领域词典的实体抽取方法或者训练领域相关词向量,通过深度学习的方法来抽取实体。常用的深度学习实体抽取模型有Bi-LSTM-CRF、BERT等。
步骤340:基于步骤330抽取出的实体词,利用自然语言处理技术按照实体-关系-实体的三元组形式进行实体间关系的抽取,可以使用基于SVM的方法、基于Bi-LSTM-attention的方法抽取关系,或者使用预训练好的模型如斯坦福的Stanford NLP模型或者哈工大的LTP模型进行关系抽取
步骤350:将步骤330抽取的实体词和步骤340抽取的关系三元组存储为结构化的数据9
模块400):文档语义逻辑信息判断模块,通过文档语义逻辑分析模块得到的信息判断文档语义逻辑上是否存在谬误,是否符合相关领域要求。具体步骤如下:
步骤410:读取文档数据
步骤420:判断文档中相关实体是否缺失,即相关实体是否为空值,若缺失实体则转入步骤450,输出报错信息,如果不缺少实体,则转入步骤430,开始进行实体关系审查
步骤430:判断关系三元组是否缺失,是否存在逻辑错误、是否符合相关领域的要求,若存在问题,则转入步骤450,输出报错信息,若不存在问题,则转入步骤440,文档合规性判别通过。
下面介绍本发明的一个具体应用场景:
下面是一份具体的电子门诊病历文档
该门诊病历包含病历中多个重要元素,具体处理步骤如下:
1)对电子病历中的信息进行解析和抽取,使用关键词匹配、正则表达式匹配等方法识别出各个主要属性以及对应的属性值,如姓名、门诊号、时间等
2)将抽取的文本信息使用python中的pandas库存储为csv文件,如表1所示:
表1
3)对结构化的文档数据进行审查,如果数据中存在空值,则输出报错信息,若数据中不存在空值,则格式审查通过,保留文档数据,开始进行文档语义审查;
4)对于通过格式审查的电子文档,使用句号、分号对句子进行分割,缩小分析文本的字数,并使用结巴分词(结巴分词是Python中的分词工具)进行分词;
5)对分词后的文本进行时间实体、医疗实体的抽取,并进行实体间关系抽取,如药物使用间的关系、病症与诊疗措施间的关系,并将实体和实体关系三元组保存成结构化的数据;
6)判断文档中相关实体是否缺失,关系是否缺失、是否正确,若存在问题则输出报错信息,反之则文档通过合规性判别的检验。
综上所述,本发明针对相关领域电子文档中存在的格式错误、信息缺失、语义逻辑错误的问题,提出一种用于自动判别电子文档合规性的智能系统,判断相关领域的专业文档的合规性,降低相关文档出错的概率,提高相关工作人员的工作效率。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (10)

1.一种用于电子文档合规性判别的智能方法,其特征在于,包括:
步骤S100:采集相关文档的信息并通过自然语言处理技术实现知识粒度的切割,将文本信息转化为无噪声的文本数据;
步骤S200:用于判断步骤S100中获得的结构化文档信息是否符合相关领域的格式要求,文档信息是否缺失;
步骤S300:分析文档语义逻辑信息,包括文档语义关系信息、语义依存关系和语义角色标注;
步骤S400:通过文档语义逻辑分析模块得到的信息判断文档语义逻辑上是否存在谬误,是否符合相关领域要求。
2.如权利要求1所述的用于电子文档合规性判别的智能方法,其特征在于,步骤100具体步骤如下:
步骤110:获取电子文档;
步骤120:对电子文档中的信息进行解析和抽取;
步骤130:将抽取的文本信息存储为结构化的信息,存储为结构化的json文件,或者使用python中的pandas库存储为csv文件。
3.如权利要求1所述的用于电子文档合规性判别的智能方法,其特征在于,步骤200具体步骤如下:
步骤210:读取步骤130获得的结构化文档数据;
步骤220:文档格式信息判断,对结构化的文档数据进行审查,如果数据中存在空值,则进入步骤240,若数据中不存在空值,则进入步骤230;
步骤230、格式审查通过,保留文档数据;
步骤240、输出报错信息。
4.如权利要求1所述的用于电子文档合规性判别的智能方法,其特征在于,步骤300具体步骤如下:
步骤310:读取文档数据;
步骤320:针对句子中所包含的信息,使用句号和分号对句子进行划分,来表示一整段话的开始和结束,并使用结巴分词来对句子进行分词;
步骤330:针对步骤320分词后的句子,使用自然语言处理技术进行相关领域实体词的抽取,针对不同的领域选择基于领域词典的实体抽取方法或者训练领域相关词向量,通过深度学习的方法来抽取实体;
步骤340:基于步骤330抽取出的实体词,利用自然语言处理技术按照实体-关系-实体的三元组形式进行实体间关系的抽取,使用基于SVM的方法、基于Bi-LSTM-attention的方法抽取关系,或者使用预训练好的模型如斯坦福的Stanford NLP模型或者哈工大的LTP模型进行关系抽取。
步骤350:将步骤330抽取的实体词和步骤340抽取的关系三元组存储为结构化的数据。
5.如权利要求1所述的用于电子文档合规性判别的智能方法,其特征在于,步骤400具体步骤如下:
步骤410:读取文档数据;
步骤420:判断文档中相关实体是否缺失,即相关实体是否为空值,若缺失实体则转入步骤450,如果不缺少实体,则转入步骤430,开始进行实体关系审查;
步骤430:判断关系三元组是否缺失,是否存在逻辑错误、是否符合相关领域的要求,若存在问题,则转入步骤450,若不存在问题,则转入步骤440;
步骤440、文档合规性判别通过;
步骤450,输出报错信息。
6.如权利要求1所述的用于电子文档合规性判别的智能方法,其特征在于,步骤120根据相关领域的标准文档采用关键词匹配、正则表达式匹配等方法进行文档信息的抽取。
7.一种用于电子文档合规性判别的智能系统,其特征在于,包括;
文档信息采集分析模块,此模块用于采集相关文档的信息并通过自然语言处理技术实现知识粒度的切割,将文本信息转化为无噪声的文本数据;
文档格式信息判断模块,此模块用于判断文档信息采集分析模块中获得的结构化文档信息是否符合相关领域的格式要求,文档信息是否缺失;
文档语义逻辑信息分析模块,用于分析文档语义逻辑信息,包括文档语义关系信息、语义依存关系和语义角色标注;以及
文档语义逻辑信息判断模块,通过文档语义逻辑分析模块得到的信息判断文档语义逻辑上是否存在谬误,是否符合相关领域要求。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1到6任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1到6任一项所述方法的步骤。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1到6任一项所述的方法。
CN201910882499.6A 2019-09-18 2019-09-18 用于电子文档合规性判别的智能方法 Pending CN110597760A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910882499.6A CN110597760A (zh) 2019-09-18 2019-09-18 用于电子文档合规性判别的智能方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910882499.6A CN110597760A (zh) 2019-09-18 2019-09-18 用于电子文档合规性判别的智能方法

Publications (1)

Publication Number Publication Date
CN110597760A true CN110597760A (zh) 2019-12-20

Family

ID=68860759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910882499.6A Pending CN110597760A (zh) 2019-09-18 2019-09-18 用于电子文档合规性判别的智能方法

Country Status (1)

Country Link
CN (1) CN110597760A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487206A (zh) * 2020-12-09 2021-03-12 中国电子科技集团公司第三十研究所 一种自动构建数据集的实体关系抽取方法
CN112765363A (zh) * 2021-01-19 2021-05-07 昆明理工大学 一种面向科技服务需求的需求图谱构建方法
CN113342760A (zh) * 2021-06-30 2021-09-03 广东电网有限责任公司 一种电网数据共享方法及装置
CN113467755A (zh) * 2021-07-12 2021-10-01 卡斯柯信号有限公司 需求符合性分析方法、系统、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006350663A (ja) * 2005-06-15 2006-12-28 Fuji Xerox Co Ltd 文書読取システム
CN109492203A (zh) * 2018-11-21 2019-03-19 深圳中广核工程设计有限公司 一种核电大型综合报告格式校验方法及系统
CN109918640A (zh) * 2018-12-22 2019-06-21 浙江工商大学 一种基于知识图谱的中文文本校对方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006350663A (ja) * 2005-06-15 2006-12-28 Fuji Xerox Co Ltd 文書読取システム
CN109492203A (zh) * 2018-11-21 2019-03-19 深圳中广核工程设计有限公司 一种核电大型综合报告格式校验方法及系统
CN109918640A (zh) * 2018-12-22 2019-06-21 浙江工商大学 一种基于知识图谱的中文文本校对方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487206A (zh) * 2020-12-09 2021-03-12 中国电子科技集团公司第三十研究所 一种自动构建数据集的实体关系抽取方法
CN112765363A (zh) * 2021-01-19 2021-05-07 昆明理工大学 一种面向科技服务需求的需求图谱构建方法
CN113342760A (zh) * 2021-06-30 2021-09-03 广东电网有限责任公司 一种电网数据共享方法及装置
CN113467755A (zh) * 2021-07-12 2021-10-01 卡斯柯信号有限公司 需求符合性分析方法、系统、电子设备及存储介质
CN113467755B (zh) * 2021-07-12 2022-07-26 卡斯柯信号有限公司 需求符合性分析方法、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107562732B (zh) 电子病历的处理方法及系统
US20220044812A1 (en) Automated generation of structured patient data record
CN110597760A (zh) 用于电子文档合规性判别的智能方法
US10910100B2 (en) System and method for generating descriptions of abnormalities in medical images
CA3009280A1 (en) Automatic identification and extraction of medical conditions and evidences from electronic health records
US10339143B2 (en) Systems and methods for relation extraction for Chinese clinical documents
US20200118683A1 (en) Medical diagnostic aid and method
CN105138829B (zh) 一种中文诊疗信息的自然语言处理方法及系统
CN112541066B (zh) 基于文本结构化的医技报告检测方法及相关设备
CN111291554B (zh) 标注方法、关系抽取方法、存储介质和运算装置
CN116992839B (zh) 病案首页自动生成方法、装置及设备
JP2022541588A (ja) 非構造化データを分析するためのディープラーニングアーキテクチャ
CN117787282B (zh) 基于大语言模型的医患文本智能提取方法
US20170206317A1 (en) Systems and methods for targeted radiology resident training
CN111177309A (zh) 病历数据的处理方法及装置
CN113111660A (zh) 数据处理方法、装置、设备和存储介质
Friedman Semantic text parsing for patient records
Li et al. Extrinsic factors affecting the accuracy of biomedical NER
Berge et al. Combining unsupervised, supervised, and rule-based algorithms for text mining of electronic health records-a clinical decision support system for identifying and classifying allergies of concern for anesthesia during surgery
Baghal et al. Agile natural language processing model for pathology knowledge extraction and integration with clinical enterprise data warehouse
CN112805786A (zh) 用于医学文本内的癌症分期注释的方法和系统
AU2021106441A4 (en) Method, System and Device for Extracting Compound Words of Pathological location in Medical Texts Based on Word-Formation
CN117493642B (zh) 相似电子病历检索方法、装置、终端及存储介质
US11961622B1 (en) Application-specific processing of a disease-specific semantic model instance
CN114154502B (zh) 医学文本的分词方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191220

RJ01 Rejection of invention patent application after publication