CN110335654A

CN110335654A - 一种电子病历的信息抽取方法、系统及计算机设备

Info

Publication number: CN110335654A
Application number: CN201910593801.6A
Authority: CN
Inventors: 雷大江; 张莉萍; 李智星; 李子杨; 陈浩; 张玉枫; 吴渝
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2019-10-15

Abstract

本发明涉及PDF解析、信息提取、自然语言处理领域，尤其涉及一种电子病历的信息抽取方法、系统计算机设备，所述方法包括对电子病例进行解析，并按照从左到右、从上到下的顺序提取出电子病例中的字符串；进行字符串拼接，将提取到的字符串拼接为一个长字符串，并在拼接时去除无用字符；设计抽取信息的字段，并将长字符串进行结构化存储；根据信息抽取规则，从长字符串中抽取信息；本发明可对辅助生殖诊断电子病历进行精准、全面的信息抽取，信息抽取效果较好。

Description

一种电子病历的信息抽取方法、系统及计算机设备

技术领域

本发明涉及PDF解析、信息提取、自然语言处理领域，尤其涉及一种电子病历的信息抽取方法、系统及计算机设备。

背景技术

PDF解析：PDF解析即从PDF文档中提取文本，要具体地分析PDF文件及PDF文件的语法，根据解析原理和过程，得到最后的解析内容。

信息抽取：信息抽取是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息点；信息点从各种各样的文档中被抽取出来，然后以统一的形式集成在一起。信息抽取技术并不试图全面理解整篇文档，只是对文档中包含相关信息的部分进行分析。

自然语言处理：自然语言处理是计算机科学领域与人工智能领域中的一个重要方向；自然语言处理即实现人机间自然语言通信，这一领域的研究将涉及自然语言，即人们日常使用的语言。

辅助生殖技术是人类辅助生殖技术是指采用医疗辅助手段使不育夫妇妊娠的技术，在近些年辅助生殖技术飞速发展。各大医院在辅助生殖的过程中生成的辅助生殖诊断电子病历大多是以表格形式存储；此时的电子病例仅仅存储治疗过程的文字化信息，无法得到进一步使用，但这些电子病历中往往又蕴含大量的信息和知识。所以对辅助生殖诊断电子病历的信息抽取能够从文本中抽取特定信息，并且可以将抽取出来的信息进一步处理，进行统计、分析等，从而挖掘出大量的信息和知识，有助与患者查询信息了解自身情况，有助于医生诊断处理，也有助于辅助生殖技术的进一步发展。但对表格化的信息进行提取本身就有一定难度，且目前对于辅助生殖诊断电子病历的信息抽取的技术较少，且抽取效果一般，导致无法从中获取信息和知识，浪费了信息资源，所以针对辅助生殖诊断电子病历进行信息抽取已成为如今一个非常迫切的任务。

发明内容

为了对辅助生殖诊断电子病历进行精准、全面的信息抽取，本发明提出一种电子病历的信息抽取方法、系统及计算机设备。

一种电子病历的信息抽取方法，包括以下步骤：

S1、对电子病例进行解析，并按照从左到右、从上到下的顺序提取出电子病例中的字符串；

S2、对电子病历解析初步得到的字符串，并将提取得到的字符串表示为向量形式，根据相似度判断字符串之间的关系从而去除冗余信息，将字符串自动拼接为一个长字符串，并在拼接得到长字符串时去除其中的无用字符；

S3、设计抽取信息的字段，并将长字符串进行结构化存储；

S4、根据信息抽取规则，从长字符串中抽取信息。

进一步的，所述电子病例的格式为PDF，对电子病例进行解析的工具为基于python的pdf开源解析库pdfplumber。

进一步的，将提取得到的字符串表示为向量形式，根据相似度判断字符串之间的关系从而去除冗余信息包括：对提取的字符串进行分词，计算分词后得到的每个词的词频-逆文本频率指数(Term Frequency-Inverse DocumentFrequency，TF-IDF)值，将第i个词的TFIDF值乘上第i个词对应的词向量word2vec值作为该词的向量，并将该字符串中的所有词的向量相加作为该字符串的向量化表示；计算字符串向量间的余弦距离作为相似度，若两个字符串相似度为大于0.9则说明这两个字符串所表达内容近似，随机删除其中一个字符串。

进一步的，在拼接时去除无用字符包括‘：’，‘:’，‘\n’，‘’。

进一步的，将长字符串进行结构化存储包括：记录抽取的每个信息的字段的位置以及该字段的长度；抽取信息的字段至少包括“患者姓名”、“患者年龄”、“患者通讯地址”、“患者职业”、“患者病史”、“患者用药史”、“患者身体指标检查结果”。

进一步的，信息抽取规则为str[m_i+n_i:m_i+1]，，即提取第i个抽取的字段到第i+1个抽取的字段之间的信息；其中，str表示从pdf病历中解析得到、且经过拼接和去除无用字符后的长字符串，m_i表示第i个抽取的字段位置，n表示第i个抽取的字段的长度。

本发明提出一种电子病历的信息抽取系统，所述系统包括数据采集模块、数据清洗模块、向量生成器、去重模块、字符串拼接模块以及信息提取模块；其中：所述数据采集模块用于按照从左到右、从上到下的顺序提取出电子病例中的字符串；

所述数据清洗模块用于去除数据采集模块采集的字符串中的非字符信息；

所述向量生成器用于将清洗后的字符串转换为向量形式；

所述去重模块用于删除向量形式字符串的冗余信息；

所述字符串拼接模块用于将所有向量形式的字符串拼接为一个长字符串；

所述信息提取模块用于从长字符串中提取出需要的信息。

一种电子病历的信息抽取的计算机设备，包括存储器、处理器以及储存在存储器上可以在处理器运行的计算机程序，所述计算机程序实现上述的任一方法。

本发明可对辅助生殖诊断电子病历进行精准、全面的信息抽取，信息抽取效果较好。

附图说明

图1是本发明实施例提供的一种电子病历的信息抽取框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供了一种电子病历的信息抽取，其信息抽取的流程，如图1所示，其具体实施如下：

S3、设计抽取信息的字段，并将长字符串进行结构化存储；

S4、根据信息抽取规则，从长字符串中抽取信息。

将所得字符串去除无用及冗余信息，去除无用字符进行清洗，之后进行字符串拼接；主要包括以下步骤：

在对辅助生殖诊断电子病历解析后，得到若干字符串，但这些字符串可能存在无效、冗余及重复信息，为了保证信息的完整性、准确性，并且为保证后续处理的正确性，需要对无效、冗余及重复信息进行删除。

对重复的信息进行删除的过程中，首先将提取得到的字符串表示为向量形式，根据相似度判断字符串之间的关系从而去除冗余信息包括：对提取的字符串进行分词，计算分词后得到的每个词的TFIDF值，将第i个词的TFIDF值乘上第i个词对应的word2vec值作为该词的向量，并将该字符串中的所有词的向量相加作为该字符串的向量化表示；之后通过计算字符串向量间的余弦距离进行相似度比较，根据相似度判断字符串之间的关系从而去除冗余及无用信息，若两个字符串相似度为1则说明这两个字符串所表达内容完全相同，可判定其中一个字符串为重复信息，若两个字符串相似度大于0.9则说明两个字符串所表达内容几乎一致，可判定其为冗余信息，对字符串中的该类信息进行删除，所以本发明优选的方案是选择将相似度为大于0.9的词删除，避免重复读。

在对辅助生殖诊断电子病历解析，对其中内容提取后会得到若干未进行处理的字符串，如会解析出患者姓名字符串、患者通讯地址字符串，患者病史小结字符串等，但此时提取出的字符串不够规范，难以识别和结构化存储。例如从电子病历中会得到的字符串为：“患者姓名”、“患者年龄”、“患者通讯地址”、“患者职业”、“患者病史”、“患者用药史”、“患者身体指标检查结果”等字符串；这些字符串都未经过处理，不够规范，字符中除了需要提取的信息还很可能含有无用字符，如‘：’，‘:’，‘\n’，‘’；所以此时需要去除无用字符，对字符串进行清洗。

在对字符串进行清洗后，则需要对从辅助生殖诊断电子病历中得到的所有字符串进行拼接；拼接后的长字符串即为一个文本，便于后续的信息抽取工作。如拼接后得到“姓名某某通讯地址重庆市身份证号123456…….”的长字符串。

设计好所要抽取信息的字段，便于标识所要抽取的信息，进行结构化存储，即根据抽取的提取的字符串，将抽取的字段信息的位置以及该字段信息的长度存储下来，为以后抽取信息时使用。

在得到清洗好的字符串和所要抽取信息的字段后，根据设计好的各字段，寻找其在字符串中的位置，例如将每个字段的位置分别记为{m₁，m₂，……}；及根据每个字段的长度记为{n₁，n₂,......}；设计好抽取规则，之后确定要抽取的信息str[m_i+n_i:m_i+1]，按位置分割抽取最终得到抽取后的结构化信息。如得到拼接后的长字符串“姓名某某通讯地址重庆市身份证号123456……”，从字符串中根据设计好的字段，如“患者姓名”字段，先找到患者姓名字段的位置m₁，再找到通讯地址的位置m₂，患者姓名的命名字段“某某”的长度为2，即n₁为2，则要抽取的姓名信息为str[m₁+2:m₂]＝＝‘某某’，即抽取的信息是m₁+2到m₂之间位置的信息，此时即可抽取出电子病历中所需要的信息。

本发明提出一种电子病历的信息抽取系统，所述系统包括数据采集模块、数据清洗模块、向量生成器、去重模块、字符串拼接模块以及信息提取模块；其中：

所述数据采集模块用于对电子病例进行解析按照从左到右、从上到下的顺序提取出电子病例中的字符串；数据采集模块采用基于python的pdf开源解析库pdfplumber对电子病例进行解析；

所述向量生成器用于将清洗后的字符串转换为向量形式；

所述去重模块用于删除向量形式字符串的冗余信息；去重模块可以是余弦距离计算器、阈值判断器以及删除器，利用余弦计算器计算两个字符串向量的相似性，并利用阈值判断器判断，若余弦距离大于阈值，则利用删除器删除其中一个字符串向量；

所述信息提取模块用于从长字符串中提取出需要的信息。

进一步的，所述向量生成器包括分词单元、词频-逆文本频率指数计算单元、word2vec词向量生成器、乘法器以及加法器，其中：

所述分词单元用于对字符串进行分词；

所述词频-逆文本频率指数计算单元用于计算分词后每个词的词频-逆文本频率指数；

所述word2vec词向量生成器用于计算分词后每个词的word2vec词向量；

所述乘法器用于计算每个词的词频-逆文本频率指数与word2vec词向量的乘积；

所述加法器用于将每个词的词频-逆文本频率指数与word2vec词向量的乘积相加，作为字符串的向量表示。

进一步的，所述信息抽取模块包括字段位置记录模块、字段命名长度记录模块以及信息抽取器；其中：

所述字段位置记录模块用于记录每个字段在长字符串中的位置；

所述字段命名长度记录模块用于记录每个字段的命名长度；

所述信息抽取器用于根据调用的字段位置记录模块以及字段命名长度记录模块中的信息抽取信息。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种电子病历的信息抽取方法，其特征在于，包括以下步骤：

S1、对电子病例进行解析，按照从左到右、从上到下的顺序提取出电子病例中的字符串，在解析过程中只保留其中的字符信息，去除其它无用或干扰信息，保证解析过程中无乱码出现；

S3、设计抽取信息的字段，并将长字符串进行结构化存储；

S4、根据信息抽取规则，从长字符串中抽取信息。

2.根据权利要求1所述的一种电子病历的信息抽取方法，其特征在于，所述电子病例的格式为PDF，对电子病例进行解析的工具为基于python的pdf开源解析库pdfplumber。

3.根据权利要求1所述的一种电子病历的信息抽取方法，其特征在于，将提取得到的字符串表示为向量形式，根据相似度判断字符串之间的关系从而去除冗余信息包括：对提取的字符串进行分词，计算分词后得到的每个词的词频-逆文本频率指数TF-IDF值，将第i个词的TF-IDF值乘上第i个词对应的词向量word2vec值作为该词的向量，并将该字符串中的所有词的向量相加作为该字符串的向量化表示；计算字符串向量间的余弦距离作为相似度，若两个字符串相似度为大于0.9则说明这两个字符串所表达内容近似，随机删除其中一个字符串。

4.根据权利要求1所述的一种电子病历的信息抽取方法，其特征在于，在拼接时去除无用字符包括‘：’，‘:’，‘\n’，‘’。

5.根据权利要求1所述的一种电子病历的信息抽取方法，其特征在于，将长字符串进行结构化存储包括：记录抽取的每个信息的字段的位置以及该字段的长度；抽取信息的字段至少包括“患者姓名”、“患者年龄”、“患者通讯地址”、“患者职业”、“患者病史”、“患者用药史”、“患者身体指标检查结果”。

6.根据权利要求1所述的一种电子病历的信息抽取方法，其特征在于，信息抽取规则为str[m_i+n_i:m_i+1]，即提取第i个抽取的字段到第i+1个抽取的字段之间的信息；其中，str表示从pdf病历中解析得到、且经过拼接和去除无用字符后的长字符串；m_i表示第i个抽取的字段位置；n表示第i个抽取的字段的命名字段的长度，即抽取的信息的长度。

7.一种电子病历的信息抽取系统，其特征在于，所述系统包括数据采集模块、数据清洗模块、向量生成器、去重模块、字符串拼接模块以及信息提取模块；其中：

所述数据采集模块用于按照从左到右、从上到下的顺序提取出电子病例中的字符串；

所述向量生成器用于将清洗后的字符串转换为向量形式；

所述去重模块用于删除向量形式字符串的冗余信息；

所述信息提取模块用于从长字符串中提取出需要的信息。

8.根据权利要求7所述的一种电子病历的信息抽取系统，其特征在于，所述向量生成器包括分词单元、词频-逆文本频率指数计算单元、word2vec词向量生成器、乘法器以及加法器，其中：

所述分词单元用于对字符串进行分词；

9.根据权利要求7所述的一种电子病历的信息抽取系统，其特征在于，所述信息抽取模块包括字段位置记录模块、字段命名长度记录模块以及信息抽取器；其中：

所述字段命名长度记录模块用于记录每个字段的命名长度；

10.一种电子病历的信息抽取的计算机设备，其特征在于，包括存储器、处理器以及储存在存储器上可以在处理器运行的计算机程序，所述计算机程序实现权利要求1～6所述的任一方法。