CN113420116A - 医疗文档的分析方法、装置、设备及介质 - Google Patents

医疗文档的分析方法、装置、设备及介质 Download PDF

Info

Publication number
CN113420116A
CN113420116A CN202110697935.XA CN202110697935A CN113420116A CN 113420116 A CN113420116 A CN 113420116A CN 202110697935 A CN202110697935 A CN 202110697935A CN 113420116 A CN113420116 A CN 113420116A
Authority
CN
China
Prior art keywords
text block
target
text
data
connected text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110697935.XA
Other languages
English (en)
Other versions
CN113420116B (zh
Inventor
刘东煜
陈乐清
曾增烽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110697935.XA priority Critical patent/CN113420116B/zh
Publication of CN113420116A publication Critical patent/CN113420116A/zh
Application granted granted Critical
Publication of CN113420116B publication Critical patent/CN113420116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请涉及数字医疗技术领域,揭示了一种医疗文档的分析方法、装置、设备及介质,其中方法包括:采用OCR技术根据目标医疗文档图像数据得到区域连通文本块集合和区域连通文本块位置数据集合;根据区域连通文本块集合、区域连通文本块位置数据集合得到表格内容连通文本块集合和非表格内容连通文本块集合;根据表格内容连通文本块集合得到目标表格类别集合和目标表格结构化数据;根据区域连通文本块位置数据集合和非表格内容连通文本块集合得到目标文本类别集合和目标文本结构化数据;根据目标表格类别集合、目标表格结构化数据、目标文本类别集合和目标文本结构化数据得到目标结构化数据。实现了不受多样化的使用需求的字段限制。

Description

医疗文档的分析方法、装置、设备及介质
技术领域
本申请涉及到数字医疗技术领域,特别是涉及到一种医疗文档的分析方法、装置、设备及介质。
背景技术
文档智能主要是指对于扫描文档所包含的文本、排版信息,通过人工智能的文档智能技术进行理解、分类、提取以及信息归纳。根据文档智能技术所得到的结构化数据可以进行更上层的智能化应用,比如:信息挖掘、智能决策等。现有技术的文档智能化方法,要么根据给定的某些字段自动从文档中抽取相应的值,要么为影像中的每个字赋予一个综合“布局信息”和“语义信息”的向量表示以实现为下游任务提供帮助。然而,医疗文档存在多样化,比如:挂号单、化验单、处方单、门诊手册、住院病历、收费账单等,导致现有技术的文档智能化方法难以满足对医疗文档的信息进行多样化的使用需求,从而需要针对不同的应用需求场景进行针对性开发获取不同的信息提取方案,极大增加了成本同时难以维护优化。
发明内容
本申请的主要目的为提供一种医疗文档的分析方法、装置、设备及介质,旨在解决因为医疗文档存在多样化,导致现有技术的文档智能化方法难以满足对医疗文档的信息进行多样化的使用需求的技术问题。
为了实现上述发明目的,本申请提出一种医疗文档的分析方法,所述方法包括:
获取目标医疗文档图像数据;
采用OCR技术,对所述目标医疗文档图像数据进行文本块识别,得到区域连通文本块集合和区域连通文本块位置数据集合;
根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述目标医疗文档图像数据进行布局分析,得到表格内容连通文本块集合和非表格内容连通文本块集合;
对所述表格内容连通文本块集合分别进行表格分类和表格的结构化数据解析,分别得到目标表格类别集合和目标表格结构化数据;
根据所述区域连通文本块位置数据集合和所述非表格内容连通文本块集合分别进行文本分类和段落的结构化数据解析,分别得到目标文本类别集合和目标文本结构化数据;
根据所述目标表格类别集合、所述目标表格结构化数据、所述目标文本类别集合和所述目标文本结构化数据进行组合,得到所述目标医疗文档图像数据对应的目标结构化数据。
进一步的,所述采用OCR技术,对所述目标医疗文档图像数据进行文本块识别,得到区域连通文本块集合和区域连通文本块位置数据集合的步骤,包括:
采用OCR技术,对所述目标医疗文档图像数据中的文本数据进行识别,将识别得到的每个区域连通的文本数据作为一个区域连通文本块;
将待识别位置的区域连通文本块的左上角第一个字符在所述目标医疗文档图像数据中的位置数据作为所述待识别位置的区域连通文本块对应的区域连通文本块位置数据,其中,所述待识别位置的区域连通文本块是任一个所述区域连通文本块;
将所有所述区域连通文本块作为所述区域连通文本块集合;
将所有所述区域连通文本块位置数据作为所述区域连通文本块位置数据集合。
进一步的,所述根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述目标医疗文档图像数据进行布局分析,得到表格内容连通文本块集合和非表格内容连通文本块集合的步骤,包括:
采用图像标注工具,根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述目标医疗文档图像数据进行图像生成、区域连通文本块边框线生成及待判断的内容连通文本块边框线生成,得到可编辑文本的图像数据;
根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述可编辑文本的图像数据进行布局分析,得到所述表格内容连通文本块集合和所述非表格内容连通文本块集合。
进一步的,所述根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述可编辑文本的图像数据进行布局分析,得到所述表格内容连通文本块集合和所述非表格内容连通文本块集合的步骤,包括:
根据所述可编辑文本的图像数据和所述区域连通文本块位置数据集合,对所述区域连通文本块集合进行划分,得到表格文本数据块集合和非表格文本数据块集合;
采用预设的序列标注模型,根据所述区域连通文本块位置数据集合,分别对所述表格文本数据块集合中的每个区域连通文本块进行标签标注,得到所述表格文本数据块集合对应的表格数据块标签序列;
根据所述表格数据块标签序列,对所述表格文本数据块集合进行内容连通文本块划分,得到所述表格内容连通文本块集合;
采用所述预设的序列标注模型,根据所述区域连通文本块位置数据集合,分别对所述非表格文本数据块集合中的每个所述区域连通文本块进行标签标注,得到所述非表格文本数据块集合对应的非表格数据块标签序列;
根据所述非表格数据块标签序列,对所述非表格文本数据块集合进行内容连通文本块划分,得到所述非表格内容连通文本块集合。
进一步的,所述对所述表格内容连通文本块集合分别进行表格分类和表格的结构化数据解析,分别得到目标表格类别集合和目标表格结构化数据的步骤,包括:
采用预设的表格分类模型,分别对所述表格内容连通文本块集合中的每个内容连通文本块进行表格分类,得到所述表格内容连通文本块集合中各个所述内容连通文本块各自对应的待处理的表格类别;
根据所有所述待处理的表格类别,确定所述目标表格类别集合;
采用预设的表格的结构化数据解析算法,对所述表格内容连通文本块集合中的所述内容连通文本块进行结构化解析,得到所述目标表格结构化数据。
进一步的,所述根据所述区域连通文本块位置数据集合和所述非表格内容连通文本块集合分别进行文本分类和段落的结构化数据解析,分别得到目标文本类别集合和目标文本结构化数据的步骤,包括:
采用预设的文本分类模型,根据所述区域连通文本块位置数据集合,分别对所述非表格内容连通文本块集合中的每个内容连通文本块进行分类,得到所述非表格内容连通文本块集合中的各个所述内容连通文本块对应的待处理的文本类别;
根据所有所述待处理的文本类别,确定所述目标文本类别集合;
采用预设的医疗事件抽取模型,根据所述区域连通文本块位置数据集合,分别对所述非表格内容连通文本块集合中的每个所述内容连通文本块进行医疗事件抽取,得到所述非表格内容连通文本块集合中的各个所述内容连通文本块各自对应的待分析的医疗事件集合;
采用预设的医疗实体识别模型,根据所述区域连通文本块位置数据集合,分别对所述非表格内容连通文本块集合中的每个所述内容连通文本块进行医疗实体识别,得到所述非表格内容连通文本块集合中的各个所述内容连通文本块各自对应的待分析的医疗实体集合;
采用预设的医疗关系抽取模型,根据所述区域连通文本块位置数据集合,分别对所述非表格内容连通文本块集合中的每个所述内容连通文本块进行医疗关系识别,得到所述非表格内容连通文本块集合中的各个所述内容连通文本块各自对应的待分析的医疗关系集合;
采用预设的Key-Value提取模型,根据所述区域连通文本块位置数据集合,分别对所述非表格内容连通文本块集合中的每个所述内容连通文本块进行患者基本信息提取,得到所述非表格内容连通文本块集合中的各个所述内容连通文本块各自对应的待分析的患者基本信息集合;
根据所述待分析的医疗事件集合、所述待分析的医疗实体集合、所述待分析的医疗关系集合和所述待分析的患者基本信息集合进行结构化数据生成,得到所述目标文本结构化数据。
进一步的,所述根据所述目标表格类别集合、所述目标表格结构化数据、所述目标文本类别集合和所述目标文本结构化数据进行组合,得到所述目标医疗文档图像数据对应的目标结构化数据的步骤之后,还包括:
获取统计配置数据;
根据所述统计配置数据和所述目标结构化数据进行统计分析,得到目标统计结果。
本申请还提出了一种医疗文档的分析装置,所述装置包括:
数据获取模块,用于获取目标医疗文档图像数据;
文本块识别模块,用于采用OCR技术,对所述目标医疗文档图像数据进行文本块识别,得到区域连通文本块集合和区域连通文本块位置数据集合;
布局分析模块,用于根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述目标医疗文档图像数据进行布局分析,得到表格内容连通文本块集合和非表格内容连通文本块集合;
表格分类和表格的结构化数据解析模块,用于对所述表格内容连通文本块集合分别进行表格分类和表格的结构化数据解析,分别得到目标表格类别集合和目标表格结构化数据;
文本分类和段落的结构化数据解析模块,用于根据所述区域连通文本块位置数据集合和所述非表格内容连通文本块集合分别进行文本分类和段落的结构化数据解析,分别得到目标文本类别集合和目标文本结构化数据;
目标结构化数据确定模块,用于根据所述目标表格类别集合、所述目标表格结构化数据、所述目标文本类别集合和所述目标文本结构化数据进行组合,得到所述目标医疗文档图像数据对应的目标结构化数据。
本申请还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的医疗文档的分析方法、装置、设备及介质,通过采用OCR技术,对目标医疗文档图像数据进行文本块识别,得到区域连通文本块集合和区域连通文本块位置数据集合,根据区域连通文本块集合、区域连通文本块位置数据集合和目标医疗文档图像数据进行布局分析,得到表格内容连通文本块集合和非表格内容连通文本块集合,对表格内容连通文本块集合分别进行表格分类和表格的结构化数据解析,分别得到目标表格类别集合和目标表格结构化数据;根据区域连通文本块位置数据集合和非表格内容连通文本块集合分别进行文本分类和段落的结构化数据解析,分别得到目标文本类别集合和目标文本结构化数据,根据目标表格类别集合、目标表格结构化数据、目标文本类别集合和目标文本结构化数据进行组合,得到目标医疗文档图像数据对应的目标结构化数据,自动化进行文本块识别、布局分析、表格分类及表格的结构化数据解析和文本分类和段落的结构化数据解析,从而实现了对医疗文档的表格和文本的图像数据的全面解析和针对性的结构化数据生成,结构化数据生成的整个过程中根据表格内容连通文本块和非表格内容连通文本块分别进行表格分类、表格的结构化数据解析、文本分类和段落的结构化数据解析得到的,因此不受多样化的使用需求的字段限制,多样化的使用需求只需要从目标结构化数据中获取数据即可满足,有利于快速满足多样化的使用需求。
附图说明
图1为本申请一实施例的医疗文档的分析方法的流程示意图;
图2为本申请一实施例的医疗文档的分析装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
为了解决因为医疗文档存在多样化,导致现有技术的文档智能化方法难以满足对医疗文档的信息进行多样化的使用需求的技术问题,本申请提出了一种医疗文档的分析方法,所述方法应用于数字医疗技术领域,所述方法进一步应用于数字医疗的医疗信息化技术领域。本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。
参照图1,本申请实施例中提供一种医疗文档的分析方法,所述方法包括:
S1:获取目标医疗文档图像数据;
S2:采用OCR技术,对所述目标医疗文档图像数据进行文本块识别,得到区域连通文本块集合和区域连通文本块位置数据集合;
S3:根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述目标医疗文档图像数据进行布局分析,得到表格内容连通文本块集合和非表格内容连通文本块集合;
S4:对所述表格内容连通文本块集合分别进行表格分类和表格的结构化数据解析,分别得到目标表格类别集合和目标表格结构化数据;
S5:根据所述区域连通文本块位置数据集合和所述非表格内容连通文本块集合分别进行文本分类和段落的结构化数据解析,分别得到目标文本类别集合和目标文本结构化数据;
S6:根据所述目标表格类别集合、所述目标表格结构化数据、所述目标文本类别集合和所述目标文本结构化数据进行组合,得到所述目标医疗文档图像数据对应的目标结构化数据。
本实施例通过采用OCR技术,对目标医疗文档图像数据进行文本块识别,得到区域连通文本块集合和区域连通文本块位置数据集合,根据区域连通文本块集合、区域连通文本块位置数据集合和目标医疗文档图像数据进行布局分析,得到表格内容连通文本块集合和非表格内容连通文本块集合,对表格内容连通文本块集合分别进行表格分类和表格的结构化数据解析,分别得到目标表格类别集合和目标表格结构化数据;根据区域连通文本块位置数据集合和非表格内容连通文本块集合分别进行文本分类和段落的结构化数据解析,分别得到目标文本类别集合和目标文本结构化数据,根据目标表格类别集合、目标表格结构化数据、目标文本类别集合和目标文本结构化数据进行组合,得到目标医疗文档图像数据对应的目标结构化数据,自动化进行文本块识别、布局分析、表格分类及表格的结构化数据解析和文本分类和段落的结构化数据解析,从而实现了对医疗文档的表格和文本的图像数据的全面解析和针对性的结构化数据生成,结构化数据生成的整个过程中根据表格内容连通文本块和非表格内容连通文本块分别进行表格分类、表格的结构化数据解析、文本分类和段落的结构化数据解析得到的,因此不受多样化的使用需求的字段限制,多样化的使用需求只需要从目标结构化数据中获取数据即可满足,有利于快速满足多样化的使用需求。
对于S1,可以获取用户输入的目标医疗文档图像数据,也可以从数据库中获取目标医疗文档图像数据,还可以从第三方应用系统中获取目标医疗文档图像数据。
目标医疗文档图像数据,也就是需要进行分析提取结构化数据的医疗文档图像数据。医疗文档图像数据,是医疗文档的数字图像数据。
医疗文档包括但不限于:挂号单、化验单、处方单、门诊手册、住院病历、收费账单。
目标医疗文档图像数据包括但不限于:挂号单图像数据、化验单图像数据、处方单图像数据、门诊手册图像数据、住院病历图像数据、收费账单图像数据。
可以理解的是,所述目标医疗文档图像数据包括一份完整的医疗文档的图像数据。也就是说,所述目标医疗文档图像数据可以包括一张或多张数字图像数据。比如,化验单A有5张图像数据,所述目标医疗文档图像数据包括化验单A的5张图像数据。
对于S2,采用OCR(光学字符识别)技术,对所述目标医疗文档图像数据进行文本块识别,将在所述目标医疗文档图像数据对应的图像上区域连通的文本数据作为一个区域连通文本块,将确定的所有区域连通文本块作为区域连通文本块集合,将区域连通文本块集合中的每个区域连通文本块在所述目标医疗文档图像数据中的位置数据作为一个区域连通文本块位置数据,将所有区域连通文本块位置数据作为区域连通文本块位置数据集合。
其中,将在所述目标医疗文档图像数据上相邻字符之间的像素距离符合预设的区域连通规则的文本数据作为一个区域连通文本块。比如,“姓名:张三”中的相邻字符之间的像素距离符合预设的区域连通规则,可以将“姓名:张三”作为一个区域连通文本块,在此举例不做具体限定。又比如,一行连贯的文本数据的相邻字符之间的像素距离符合预设的区域连通规则,可以将一行连贯的文本数据作为一个区域连通文本块。
可选的,预设的区域连通规则的文本数据包括:相邻字符之间的横向像素距离满足第一距离阈值并且相邻字符之间的纵向像素距离满足第二距离阈值。第一距离阈值是一个具体数值。第二距离阈值是一个具体数值。
对于S3,因为每张医疗文档图像数据都可以由内容连通文本块、表格和文本分节进行表述。其中,内容连通文本块是独立语义结构体的最小单元,内容连通文本块也就是一个段落。表格,采用至少一个内容连通文本块组成。文本分节,采用至少一个内容连通文本块组成。
其中,采用预设的布局分析模型,根据所述区域连通文本块位置数据集合和所述目标医疗文档图像数据,对所述区域连通文本块集合中的区域连通文本块进行语义通顺判断,根据语义通顺判断结果确定表格内容连通文本块集合和非表格内容连通文本块集合。从而实现了对区域连通文本块集合的初次划分。
其中,采用基于医疗文档图像数据得到的训练样本对基于通用文档预训练模型(LayoutLM)得到的初始模型进行训练,将训练结束的初始模型作为所述预设的布局分析模型。
通用文档预训练模型(LayoutLM)可以对文档结构信息和视觉信息进行建模,让模型在预训练阶段进行多模态对齐。
对于S4,分别对所述表格内容连通文本块集合中的每个内容连通文本块进行表格类别是识别,得到目标表格类别集合,根据所述目标表格类别集合,对所述表格内容连通文本块集合中的所述内容连通文本块进行结构化解析,得到所述目标表格结构化数据。
所述目标表格类别集合中的表格类别,是医疗文档中的表格类别。所述目标表格类别集合中的表格类别包括但不限于:血常规、尿常规、发票、住院费用、门诊费用。
所述目标表格结构化数据包括:表格基本信息、表格内容信息。
其中,表格基本信息包括:内容连通文本块、内容连通文本块对应的关联信息,内容连通文本块对应的关联信息包括:表格类别、字段名称和字段值,表格类别、字段名称、字段值一一对应设置,也就是说,表格基本信息中的每个内容连通文本块对应一个表格类别、至少一个字段名称和至少一个字段值。从而实现将表格中的内容连通文本块与表格类别、字段名称及字段值关联的结构化数据。
其中,表格内容信息包括:表头对应的内容连通文本块、非表头对应的内容连通文本块、表头对应的内容连通文本块与非表头对应的内容连通文本块之间的映射关系;表头对应的内容连通文本块,是表格中的属于表头的一个单元格的文本内容,表头包括行名和列名,表头对应的内容连通文本块包括:行名对应的内容连通文本块和列名对应的内容连通文本块,表头对应的内容连通文本块也就是所述表格内容连通文本块集合中的内容连通文本块;非表头对应的内容连通文本块是表格中的一个非表头的一个单元格中的文本内容,非表头对应的内容连通文本块也就是所述表格内容连通文本块集合中的内容连通文本块;表头对应的内容连通文本块与非表头对应的内容连通文本块之间的映射关系,是指所述非表头对应的内容连通文本块属于哪个所述表头对应的内容连通文本块,以及哪些所述非表头对应的内容连通文本块属于同一行,以及哪些所述非表头对应的内容连通文本块属于同一列。从而实现表格的结构化信息的存储。
对于S5,根据所述区域连通文本块位置数据集合,分别对所述非表格内容连通文本块集合中的每个内容连通文本块进行分类、医疗事件抽取、医疗实体识别、医疗关系识别、患者基本信息提取,将分类提取的文本类别、医疗事件抽取、医疗实体识别、医疗关系识别、患者基本信息进行结构化数据组合,将组合得到的结构化数据作为目标文本结构化数据,将提取的所有文本类别作为目标文本类别集合。
所述目标文本类别集合中的文本类别包括但不限于:出院诊断、住院经过、患者基本信息。
所述目标文本结构化数据包括:所述目标文本类别集合、医疗事件集合、医疗实体集合、医疗关系集合、患者基本信息集合、文本映射关系,文本映射关系是所述目标文本类别集合、医疗事件集合、医疗实体集合、医疗关系集合、患者基本信息集合之间的文本映射关系。
对于S6,将所述目标表格类别集合、所述目标表格结构化数据、所述目标文本类别集合和所述目标文本结构化数据进行数据关联及结构化的存储,将数据关联及结构化的存储得到的数据作为所述目标医疗文档图像数据对应的目标结构化数据。
目标结构化数据中存储了所述目标表格类别集合、所述目标表格结构化数据、所述目标文本类别集合和所述目标文本结构化数据中的所有数据和映射关系。从而使多样化的使用需求可以根据具体需求从具有映射关系的目标结构化数据中快速获取需要的数据。
在一个实施例中,上述采用OCR技术,对所述目标医疗文档图像数据进行文本块识别,得到区域连通文本块集合和区域连通文本块位置数据集合的步骤,包括:
S21:采用OCR技术,对所述目标医疗文档图像数据中的文本数据进行识别,将识别得到的每个区域连通的文本数据作为一个区域连通文本块;
S22:将待识别位置的区域连通文本块的左上角第一个字符在所述目标医疗文档图像数据中的位置数据作为所述待识别位置的区域连通文本块对应的区域连通文本块位置数据,其中,所述待识别位置的区域连通文本块是任一个所述区域连通文本块;
S23:将所有所述区域连通文本块作为所述区域连通文本块集合;
S24:将所有所述区域连通文本块位置数据作为所述区域连通文本块位置数据集合。
本实施例实现了采用OCR技术对所述目标医疗文档图像数据进行文本块识别,从而为后续进行内容连通文本块的确定提供了基础。
对于S21,采用OCR技术,对所述目标医疗文档图像数据中的文本数据进行识别,将在所述目标医疗文档图像数据上相邻字符之间的像素距离符合预设的区域连通规则的文本数据作为一个区域连通的文本数据,将每个区域连通的文本数据作为一个区域连通文本块。
对于S22,在所述目标医疗文档图像数据被正立放置的情况下,将待识别位置的区域连通文本块的左上角第一个字符的左上角在所述目标医疗文档图像数据中的像素位置和待识别位置的区域连通文本块的右下角最后一个字符的右下角在所述目标医疗文档图像数据中的像素位置作为所述待识别位置的区域连通文本块对应的区域连通文本块位置数据。也就是说,每个区域连通文本块对应一个区域连通文本块位置数据,区域连通文本块位置数据是像素位置。
可以理解的是,区域连通文本块在所述目标医疗文档图像数据对应的图像上对应的是一个长方形或正方形的图像区域。
对于S23,将所有所述区域连通文本块作为一个集合,将该集合作为所述区域连通文本块集合。
对于S24,将所有所述区域连通文本块位置数据作为一个集合,将该集合作为所述区域连通文本块位置数据集合。
在一个实施例中,上述根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述目标医疗文档图像数据进行布局分析,得到表格内容连通文本块集合和非表格内容连通文本块集合的步骤,包括:
S31:采用图像标注工具,根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述目标医疗文档图像数据进行图像生成、区域连通文本块边框线生成及待判断的内容连通文本块边框线生成,得到可编辑文本的图像数据;
S32:根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述可编辑文本的图像数据进行布局分析,得到所述表格内容连通文本块集合和所述非表格内容连通文本块集合。
本实施例根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述目标医疗文档图像数据进行布局分析,区分出表格内容连通文本块集合和非表格内容连通文本块集合,为后续进行分类解析提供了基础。
对于S31,将所述目标医疗文档图像数据的尺寸作为可编辑文本的图像数据的总尺寸,根据所述区域连通文本块位置数据集合,将所述区域连通文本块集合中的每个区域连通文本块进行图像重画,得到待标注的图像数据;然后对所述待标注的图像数据中每个区域连通文本块进行区域连通文本块边框线生成,得到待标注内容连通文本块的图像数据;采用图像标注工具,根据所述待标注内容连通文本块的图像数据中的区域连通文本块边框线进行区域连通文本块边框线生成,得到可编辑文本的图像数据。也就是说所述可编辑文本的图像数据中的文本内容和所述目标医疗文档图像数据中的文本内容在视觉上相同,但是所述可编辑文本的图像数据中标注出了区域连通文本块边框线和区域连通文本块边框线,为后续进行准确的布局分析提供了支持。
可以理解的是,区域连通文本块单独构成一个内容连通文本块,或者,多个区域连通文本块联合构成一个内容连通文本块。
图像标注工具,是采用根据医疗文档的图像数据得到的训练样本对基于机器学习模型训练得到的模型。
对于S32,采用预设的布局分析模型,根据所述区域连通文本块位置数据集合和所述可编辑文本的图像数据,对所述区域连通文本块集合中的区域连通文本块进行语义通顺判断,根据语义通顺判断结果确定表格内容连通文本块集合、非表格内容连通文本块集合。也就是说,表格内容连通文本块集合中的内容连通文本块是语义通顺的文本块。非表格内容连通文本块集合中的内容连通文本块是语义通顺的文本块。
在一个实施例中,上述根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述可编辑文本的图像数据进行布局分析,得到所述表格内容连通文本块集合和所述非表格内容连通文本块集合的步骤,包括:
S321:根据所述可编辑文本的图像数据和所述区域连通文本块位置数据集合,对所述区域连通文本块集合进行划分,得到表格文本数据块集合和非表格文本数据块集合;
S322:采用预设的序列标注模型,根据所述区域连通文本块位置数据集合,分别对所述表格文本数据块集合中的每个区域连通文本块进行标签标注,得到所述表格文本数据块集合对应的表格数据块标签序列;
S323:根据所述表格数据块标签序列,对所述表格文本数据块集合进行内容连通文本块划分,得到所述表格内容连通文本块集合;
S324:采用所述预设的序列标注模型,根据所述区域连通文本块位置数据集合,分别对所述非表格文本数据块集合中的每个所述区域连通文本块进行标签标注,得到所述非表格文本数据块集合对应的非表格数据块标签序列;
S325:根据所述非表格数据块标签序列,对所述非表格文本数据块集合进行内容连通文本块划分,得到所述非表格内容连通文本块集合。
本实施例实现了根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述可编辑文本的图像数据进行布局分析,为后续采用准确的解析方法对区域连通文本块进行解析提供了基础。
对于S321,采用预设的表格识别方法,根据所述可编辑文本的图像数据和所述区域连通文本块位置数据集合,从所述区域连通文本块集合中提取区域连通文本块,将提取的每个区域连通文本块作为表格文本数据块,将所有表格文本数据块作为表格文本数据块集合;将所述表格文本数据块集合对应的所有所述区域连通文本块从所述区域连通文本块集合中进行删除处理,将删除处理后的所述区域连通文本块集合中作为非表格文本数据块集合。
所述预设的表格识别方法,基于所述区域连通文本块位置数据集合、所述可编辑文本的图像数据中区域连通文本块边框线及待判断的区域连通文本块边框线进行表格识别,也就是说,所述预设的表格识别方法是基于图像线条进行表格识别。可以理解的是,所述预设的表格识别方法,还可以采用基于语言模型训练得到的模型,在此不做限定。
对于S322,采用预设的序列标注模型,根据所述区域连通文本块位置数据集合,分别对所述表格文本数据块集合中的每个区域连通文本块进行标签标注,根据标注的标签生成标签序列,将生成的标签序列作为所述表格文本数据块集合对应的表格数据块标签序列。比如,当所述表格数据块标签序列中的序列元素为1时,等于1的序列元素对应的区域连通文本块是独立段落,当所述表格数据块标签序列中的序列元素为0时,等于0的序列元素对应的区域连通文本块不是独立段落,在此举例不做具体限定。
所述预设的序列标注模型,是基于LSTM(指长短期记忆人工神经网络)和CRF(条件随机场)训练得到的模型。
对于S323,采用预设的布局分析模型,根据所述表格数据块标签序列,对所述表格文本数据块集合中的区域连通文本块进行语义通顺判断,将一个区域连通文本块或语义通顺的多个相邻的区域连通文本块作为一个内容连通文本块,将得到的所有所述内容连通文本块作为所述表格内容连通文本块集合。
对于S324,采用所述预设的序列标注模型,根据所述区域连通文本块位置数据集合,分别对所述非表格文本数据块集合中的每个所述区域连通文本块进行标签标注,根据标注的标签生成标签序列,将生成的标签序列作为所述非表格文本数据块集合对应的非表格数据块标签序列。
对于S325,采用预设的布局分析模型,根据所述非表格数据块标签序列,对所述非表格文本数据块集合进行内容连通文本块划分,对所述非表格文本数据块集合中的区域连通文本块进行语义通顺判断,将一个区域连通文本块或语义通顺的多个相邻的区域连通文本块作为一个内容连通文本块,将得到的所有所述内容连通文本块作为所述非表格内容连通文本块集合。
在一个实施例中,上述对所述表格内容连通文本块集合分别进行表格分类和表格的结构化数据解析,分别得到目标表格类别集合和目标表格结构化数据的步骤,包括:
S41:采用预设的表格分类模型,分别对所述表格内容连通文本块集合中的每个内容连通文本块进行表格分类,得到所述表格内容连通文本块集合中各个所述内容连通文本块各自对应的待处理的表格类别;
S42:根据所有所述待处理的表格类别,确定所述目标表格类别集合;
S43:采用预设的表格的结构化数据解析算法,对所述表格内容连通文本块集合中的所述内容连通文本块进行结构化解析,得到所述目标表格结构化数据。
本实施例对所述表格内容连通文本块集合进行表格分类和表格的结构化数据解析,从而实现了对表格的内容连通文本块的准确分类和形成结构化数据。
对于S41,采用预设的表格分类模型,分别对所述表格内容连通文本块集合中的每个内容连通文本块进行表格分类,从而得到所述表格内容连通文本块集合中的各个所述内容连通文本块各自对应的待处理的表格类别。也就是说,待处理的表格类别,是医疗文档中的表格类别。
预设的表格分类模型,是采用根据医疗领域的表格中的文本数据得到的训练样本对基于Bert模型和全连接层得到的模型训练得到的模型。每个表格类别对应预设的表格分类模型中的一个分类标签。
对于S42,将所有所述待处理的表格类别作为所述目标表格类别集合。
对于S43,采用预设的表格的结构化数据解析算法,对所述表格内容连通文本块集合中的所述内容连通文本块进行解析,得到待组合的表格信息集合,采用表格结构化数据格式,对所述待组合的表格信息集合中的表格信息进行数据关联及结构化存储,将数据关联及结构化存储得到的数据作为目标表格结构化数据。
预设的表格的结构化数据解析算法,是基于神经网络训练得到的模型。
在一个实施例中,上述根据所述区域连通文本块位置数据集合和所述非表格内容连通文本块集合分别进行文本分类和段落的结构化数据解析,分别得到目标文本类别集合和目标文本结构化数据的步骤,包括:
S51:采用预设的文本分类模型,根据所述区域连通文本块位置数据集合,分别对所述非表格内容连通文本块集合中的每个内容连通文本块进行分类,得到所述非表格内容连通文本块集合中的各个所述内容连通文本块对应的待处理的文本类别;
S52:根据所有所述待处理的文本类别,确定所述目标文本类别集合;
S53:采用预设的医疗事件抽取模型,根据所述区域连通文本块位置数据集合,分别对所述非表格内容连通文本块集合中的每个所述内容连通文本块进行医疗事件抽取,得到所述非表格内容连通文本块集合中的各个所述内容连通文本块各自对应的待分析的医疗事件集合;
S54:采用预设的医疗实体识别模型,根据所述区域连通文本块位置数据集合,分别对所述非表格内容连通文本块集合中的每个所述内容连通文本块进行医疗实体识别,得到所述非表格内容连通文本块集合中的各个所述内容连通文本块各自对应的待分析的医疗实体集合;
S55:采用预设的医疗关系抽取模型,根据所述区域连通文本块位置数据集合,分别对所述非表格内容连通文本块集合中的每个所述内容连通文本块进行医疗关系识别,得到所述非表格内容连通文本块集合中的各个所述内容连通文本块各自对应的待分析的医疗关系集合;
S56:采用预设的Key-Value提取模型,根据所述区域连通文本块位置数据集合,分别对所述非表格内容连通文本块集合中的每个所述内容连通文本块进行患者基本信息提取,得到所述非表格内容连通文本块集合中的各个所述内容连通文本块各自对应的待分析的患者基本信息集合;
S57:根据所述待分析的医疗事件集合、所述待分析的医疗实体集合、所述待分析的医疗关系集合和所述待分析的患者基本信息集合进行结构化数据生成,得到所述目标文本结构化数据。
本实施例根据所述区域连通文本块位置数据集合,分别对所述非表格内容连通文本块集合中的每个内容连通文本块进行分类、医疗事件抽取、医疗实体识别、医疗关系识别、患者基本信息提取,将所述目标表格类别集合、所述目标表格结构化数据、所述目标文本类别集合和所述目标文本结构化数据进行数据关联及结构化的存储,将数据关联及结构化得到的结构化数据作为目标文本结构化数据,从而实现了对非表格内容连通文本块的准确分类和形成结构化数据。
对于S51,采用预设的文本分类模型,根据所述区域连通文本块位置数据集合,分别对所述非表格内容连通文本块集合中的每个内容连通文本块进行分类,从而得到所述非表格内容连通文本块集合中各个所述内容连通文本块各自对应的待处理的文本类别。也就是说,待处理的文本类别,是医疗文档中非表格的内容连通文本块的文本类别。
预设的文本分类模型,是采用根据医疗领域的非表格中的文本数据得到的训练样本对基于Bert模型和全连接层得到的模型训练得到的模型。每个文本类别对应预设的文本分类模型中的一个分类标签。
对于S52,将所有所述待处理的文本类别作为所述目标文本类别集合。
对于S53,采用预设的医疗事件抽取模型,根据所述区域连通文本块位置数据集合,分别对所述非表格内容连通文本块集合中的每个所述内容连通文本块进行医疗事件抽取,将针对每个所述内容连通文本块抽取到的医疗事件作为一个待分析的医疗事件集合。待分析的医疗事件集合,也就是医疗检查中的事件和/或治疗过程中的事件的集合。
医疗事件,是医疗领域的事件,其中,事件是三元组中的事件。
预设的医疗事件抽取模型,是采用根据医疗领域的非表格中的文本数据得到的训练样本训练事件抽取模型得到的模型。事件抽取模型,是从自然语言文本中抽取事件并识别事件类型和事件元素的模型。
比如,采用预设的医疗事件抽取模型对“住院经过”中的所述内容连通文本块进行医疗事件抽取,可以识别出所有医疗检查、治疗过程,在此举例不做具体限定。
对于S54,采用预设的医疗实体识别模型,根据所述区域连通文本块位置数据集合,分别对所述非表格内容连通文本块集合中的每个所述内容连通文本块进行医疗实体识别,将针对每个所述内容连通文本块识别到的医疗实体作为一个待分析的医疗实体集合。待分析的医疗实体集合,也就是识别出医疗实体的集合。
医疗实体,是医疗领域的实体,其中,实体是三元组中的实体。
预设的医疗实体识别模型,是采用根据医疗领域的非表格中的文本数据得到的训练样本训练实体识别模型得到的模型。实体识别模型,是从自然语言文本中抽取实体的模型。
比如,采用预设的医疗实体识别模型对“出院诊断”中的所述内容连通文本块进行医疗实体识别,可以识别出所有诊断出的疾病名称,在此举例不做具体限定。
对于S55,采用预设的医疗关系抽取模型,根据所述区域连通文本块位置数据集合,分别对所述非表格内容连通文本块集合中的每个所述内容连通文本块进行医疗关系识别,将针对每个所述内容连通文本块识别到的医疗关系作为一个待分析的医疗关系集合。
医疗关系,是医疗领域的实体之间的关系,其中,关系是三元组中的关系。
预设的医疗关系抽取模型,是采用根据医疗领域的非表格中的文本数据得到的训练样本训练关系抽取模型得到的模型。关系抽取模型,是从自然语言文本中抽取关系的模型,关系是实体之间的关系。
对于S56,采用预设的Key-Value提取模型,根据所述区域连通文本块位置数据集合,分别对所述非表格内容连通文本块集合中的每个所述内容连通文本块进行患者基本信息提取,将针对每个所述内容连通文本块提取到的数据作为一个待分析的患者基本信息集合。
预设的Key-Value提取模型,是采用根据医疗领域的非表格中的文本数据得到的训练样本训练Key-Value提取模型得到的模型。Key-Value提取模型,又称为KV提取模型,用于根据预设的关键字(Key)抽取具体的数值(Value)。
比如,采用预设的key-value提取模型,对所述内容连通文本块“姓名:张三”进行患者基本信息提取,可以识别出人名“张三”,“姓名”是Key,“张三”是Value,在此举例不做具体限定。
对于S57,采用非表格结构化数据格式,所述待分析的医疗事件集合、所述待分析的医疗实体集合、所述待分析的医疗关系集合和所述待分析的患者基本信息集合进行数据关联及结构化的存储,将数据关联及结构化的存储得到的结构化数据作为所述目标文本结构化数据。
在一个实施例中,上述根据所述目标表格类别集合、所述目标表格结构化数据、所述目标文本类别集合和所述目标文本结构化数据进行组合,得到所述目标医疗文档图像数据对应的目标结构化数据的步骤之后,还包括:
S71:获取统计配置数据;
S72:根据所述统计配置数据和所述目标结构化数据进行统计分析,得到目标统计结果。
本实施例实现了在确定目标结构化数据,根据需求抽取数据进行统计。
对于S71,可以获取用户输入的统计配置数据,也可以从数据库中获取统计配置数据,还可以从第三方应用系统中获取统计配置数据。
统计配置数据包括:统计指标、指标算法集合、指标算法集合中各个算法的取值要求。
对于S72,根据所述统计配置数据中的指标算法集合中的算法的参数从所述目标结构化数据中获取数据,得到待计算的数据;根据所述统计配置数据中的指标算法集合,对所述待计算的数据进行统计计算,得到所述统计配置数据对应的所述目标统计结果。
参照图2,本申请还提出了一种医疗文档的分析装置,所述装置包括:
数据获取模块100,用于获取目标医疗文档图像数据;
文本块识别模块200,用于采用OCR技术,对所述目标医疗文档图像数据进行文本块识别,得到区域连通文本块集合和区域连通文本块位置数据集合;
布局分析模块300,用于根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述目标医疗文档图像数据进行布局分析,得到表格内容连通文本块集合和非表格内容连通文本块集合;
表格分类和表格的结构化数据解析模块400,用于对所述表格内容连通文本块集合分别进行表格分类和表格的结构化数据解析,分别得到目标表格类别集合和目标表格结构化数据;
文本分类和段落的结构化数据解析模块500,用于根据所述区域连通文本块位置数据集合和所述非表格内容连通文本块集合分别进行文本分类和段落的结构化数据解析,分别得到目标文本类别集合和目标文本结构化数据;
目标结构化数据确定模块600,用于根据所述目标表格类别集合、所述目标表格结构化数据、所述目标文本类别集合和所述目标文本结构化数据进行组合,得到所述目标医疗文档图像数据对应的目标结构化数据。
本实施例通过采用OCR技术,对目标医疗文档图像数据进行文本块识别,得到区域连通文本块集合和区域连通文本块位置数据集合,根据区域连通文本块集合、区域连通文本块位置数据集合和目标医疗文档图像数据进行布局分析,得到表格内容连通文本块集合和非表格内容连通文本块集合,对表格内容连通文本块集合分别进行表格分类和表格的结构化数据解析,分别得到目标表格类别集合和目标表格结构化数据;根据区域连通文本块位置数据集合和非表格内容连通文本块集合分别进行文本分类和段落的结构化数据解析,分别得到目标文本类别集合和目标文本结构化数据,根据目标表格类别集合、目标表格结构化数据、目标文本类别集合和目标文本结构化数据进行组合,得到目标医疗文档图像数据对应的目标结构化数据,自动化进行文本块识别、布局分析、表格分类及表格的结构化数据解析和文本分类和段落的结构化数据解析,从而实现了对医疗文档的表格和文本的图像数据的全面解析和针对性的结构化数据生成,结构化数据生成的整个过程中根据表格内容连通文本块和非表格内容连通文本块分别进行表格分类、表格的结构化数据解析、文本分类和段落的结构化数据解析得到的,因此不受多样化的使用需求的字段限制,多样化的使用需求只需要从目标结构化数据中获取数据即可满足,有利于快速满足多样化的使用需求。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存医疗文档的分析方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种医疗文档的分析方法。所述医疗文档的分析方法,包括:获取目标医疗文档图像数据;采用OCR技术,对所述目标医疗文档图像数据进行文本块识别,得到区域连通文本块集合和区域连通文本块位置数据集合;根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述目标医疗文档图像数据进行布局分析,得到表格内容连通文本块集合和非表格内容连通文本块集合;对所述表格内容连通文本块集合分别进行表格分类和表格的结构化数据解析,分别得到目标表格类别集合和目标表格结构化数据;根据所述区域连通文本块位置数据集合和所述非表格内容连通文本块集合分别进行文本分类和段落的结构化数据解析,分别得到目标文本类别集合和目标文本结构化数据;根据所述目标表格类别集合、所述目标表格结构化数据、所述目标文本类别集合和所述目标文本结构化数据进行组合,得到所述目标医疗文档图像数据对应的目标结构化数据。
本实施例通过采用OCR技术,对目标医疗文档图像数据进行文本块识别,得到区域连通文本块集合和区域连通文本块位置数据集合,根据区域连通文本块集合、区域连通文本块位置数据集合和目标医疗文档图像数据进行布局分析,得到表格内容连通文本块集合和非表格内容连通文本块集合,对表格内容连通文本块集合分别进行表格分类和表格的结构化数据解析,分别得到目标表格类别集合和目标表格结构化数据;根据区域连通文本块位置数据集合和非表格内容连通文本块集合分别进行文本分类和段落的结构化数据解析,分别得到目标文本类别集合和目标文本结构化数据,根据目标表格类别集合、目标表格结构化数据、目标文本类别集合和目标文本结构化数据进行组合,得到目标医疗文档图像数据对应的目标结构化数据,自动化进行文本块识别、布局分析、表格分类及表格的结构化数据解析和文本分类和段落的结构化数据解析,从而实现了对医疗文档的表格和文本的图像数据的全面解析和针对性的结构化数据生成,结构化数据生成的整个过程中根据表格内容连通文本块和非表格内容连通文本块分别进行表格分类、表格的结构化数据解析、文本分类和段落的结构化数据解析得到的,因此不受多样化的使用需求的字段限制,多样化的使用需求只需要从目标结构化数据中获取数据即可满足,有利于快速满足多样化的使用需求。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种医疗文档的分析方法,包括步骤:获取目标医疗文档图像数据;采用OCR技术,对所述目标医疗文档图像数据进行文本块识别,得到区域连通文本块集合和区域连通文本块位置数据集合;根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述目标医疗文档图像数据进行布局分析,得到表格内容连通文本块集合和非表格内容连通文本块集合;对所述表格内容连通文本块集合分别进行表格分类和表格的结构化数据解析,分别得到目标表格类别集合和目标表格结构化数据;根据所述区域连通文本块位置数据集合和所述非表格内容连通文本块集合分别进行文本分类和段落的结构化数据解析,分别得到目标文本类别集合和目标文本结构化数据;根据所述目标表格类别集合、所述目标表格结构化数据、所述目标文本类别集合和所述目标文本结构化数据进行组合,得到所述目标医疗文档图像数据对应的目标结构化数据。
上述执行的医疗文档的分析方法,通过采用OCR技术,对目标医疗文档图像数据进行文本块识别,得到区域连通文本块集合和区域连通文本块位置数据集合,根据区域连通文本块集合、区域连通文本块位置数据集合和目标医疗文档图像数据进行布局分析,得到表格内容连通文本块集合和非表格内容连通文本块集合,对表格内容连通文本块集合分别进行表格分类和表格的结构化数据解析,分别得到目标表格类别集合和目标表格结构化数据;根据区域连通文本块位置数据集合和非表格内容连通文本块集合分别进行文本分类和段落的结构化数据解析,分别得到目标文本类别集合和目标文本结构化数据,根据目标表格类别集合、目标表格结构化数据、目标文本类别集合和目标文本结构化数据进行组合,得到目标医疗文档图像数据对应的目标结构化数据,自动化进行文本块识别、布局分析、表格分类及表格的结构化数据解析和文本分类和段落的结构化数据解析,从而实现了对医疗文档的表格和文本的图像数据的全面解析和针对性的结构化数据生成,结构化数据生成的整个过程中根据表格内容连通文本块和非表格内容连通文本块分别进行表格分类、表格的结构化数据解析、文本分类和段落的结构化数据解析得到的,因此不受多样化的使用需求的字段限制,多样化的使用需求只需要从目标结构化数据中获取数据即可满足,有利于快速满足多样化的使用需求。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种医疗文档的分析方法,其特征在于,所述方法包括:
获取目标医疗文档图像数据;
采用OCR技术,对所述目标医疗文档图像数据进行文本块识别,得到区域连通文本块集合和区域连通文本块位置数据集合;
根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述目标医疗文档图像数据进行布局分析,得到表格内容连通文本块集合和非表格内容连通文本块集合;
对所述表格内容连通文本块集合分别进行表格分类和表格的结构化数据解析,分别得到目标表格类别集合和目标表格结构化数据;
根据所述区域连通文本块位置数据集合和所述非表格内容连通文本块集合分别进行文本分类和段落的结构化数据解析,分别得到目标文本类别集合和目标文本结构化数据;
根据所述目标表格类别集合、所述目标表格结构化数据、所述目标文本类别集合和所述目标文本结构化数据进行组合,得到所述目标医疗文档图像数据对应的目标结构化数据。
2.根据权利要求1所述的医疗文档的分析方法,其特征在于,所述采用OCR技术,对所述目标医疗文档图像数据进行文本块识别,得到区域连通文本块集合和区域连通文本块位置数据集合的步骤,包括:
采用OCR技术,对所述目标医疗文档图像数据中的文本数据进行识别,将识别得到的每个区域连通的文本数据作为一个区域连通文本块;
将待识别位置的区域连通文本块的左上角第一个字符在所述目标医疗文档图像数据中的位置数据作为所述待识别位置的区域连通文本块对应的区域连通文本块位置数据,其中,所述待识别位置的区域连通文本块是任一个所述区域连通文本块;
将所有所述区域连通文本块作为所述区域连通文本块集合;
将所有所述区域连通文本块位置数据作为所述区域连通文本块位置数据集合。
3.根据权利要求1所述的医疗文档的分析方法,其特征在于,所述根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述目标医疗文档图像数据进行布局分析,得到表格内容连通文本块集合和非表格内容连通文本块集合的步骤,包括:
采用图像标注工具,根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述目标医疗文档图像数据进行图像生成、区域连通文本块边框线生成及待判断的内容连通文本块边框线生成,得到可编辑文本的图像数据;
根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述可编辑文本的图像数据进行布局分析,得到所述表格内容连通文本块集合和所述非表格内容连通文本块集合。
4.根据权利要求3所述的医疗文档的分析方法,其特征在于,所述根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述可编辑文本的图像数据进行布局分析,得到所述表格内容连通文本块集合和所述非表格内容连通文本块集合的步骤,包括:
根据所述可编辑文本的图像数据和所述区域连通文本块位置数据集合,对所述区域连通文本块集合进行划分,得到表格文本数据块集合和非表格文本数据块集合;
采用预设的序列标注模型,根据所述区域连通文本块位置数据集合,分别对所述表格文本数据块集合中的每个区域连通文本块进行标签标注,得到所述表格文本数据块集合对应的表格数据块标签序列;
根据所述表格数据块标签序列,对所述表格文本数据块集合进行内容连通文本块划分,得到所述表格内容连通文本块集合;
采用所述预设的序列标注模型,根据所述区域连通文本块位置数据集合,分别对所述非表格文本数据块集合中的每个所述区域连通文本块进行标签标注,得到所述非表格文本数据块集合对应的非表格数据块标签序列;
根据所述非表格数据块标签序列,对所述非表格文本数据块集合进行内容连通文本块划分,得到所述非表格内容连通文本块集合。
5.根据权利要求1所述的医疗文档的分析方法,其特征在于,所述对所述表格内容连通文本块集合分别进行表格分类和表格的结构化数据解析,分别得到目标表格类别集合和目标表格结构化数据的步骤,包括:
采用预设的表格分类模型,分别对所述表格内容连通文本块集合中的每个内容连通文本块进行表格分类,得到所述表格内容连通文本块集合中各个所述内容连通文本块各自对应的待处理的表格类别;
根据所有所述待处理的表格类别,确定所述目标表格类别集合;
采用预设的表格的结构化数据解析算法,对所述表格内容连通文本块集合中的所述内容连通文本块进行结构化解析,得到所述目标表格结构化数据。
6.根据权利要求1所述的医疗文档的分析方法,其特征在于,所述根据所述区域连通文本块位置数据集合和所述非表格内容连通文本块集合分别进行文本分类和段落的结构化数据解析,分别得到目标文本类别集合和目标文本结构化数据的步骤,包括:
采用预设的文本分类模型,根据所述区域连通文本块位置数据集合,分别对所述非表格内容连通文本块集合中的每个内容连通文本块进行分类,得到所述非表格内容连通文本块集合中的各个所述内容连通文本块对应的待处理的文本类别;
根据所有所述待处理的文本类别,确定所述目标文本类别集合;
采用预设的医疗事件抽取模型,根据所述区域连通文本块位置数据集合,分别对所述非表格内容连通文本块集合中的每个所述内容连通文本块进行医疗事件抽取,得到所述非表格内容连通文本块集合中的各个所述内容连通文本块各自对应的待分析的医疗事件集合;
采用预设的医疗实体识别模型,根据所述区域连通文本块位置数据集合,分别对所述非表格内容连通文本块集合中的每个所述内容连通文本块进行医疗实体识别,得到所述非表格内容连通文本块集合中的各个所述内容连通文本块各自对应的待分析的医疗实体集合;
采用预设的医疗关系抽取模型,根据所述区域连通文本块位置数据集合,分别对所述非表格内容连通文本块集合中的每个所述内容连通文本块进行医疗关系识别,得到所述非表格内容连通文本块集合中的各个所述内容连通文本块各自对应的待分析的医疗关系集合;
采用预设的Key-Value提取模型,根据所述区域连通文本块位置数据集合,分别对所述非表格内容连通文本块集合中的每个所述内容连通文本块进行患者基本信息提取,得到所述非表格内容连通文本块集合中的各个所述内容连通文本块各自对应的待分析的患者基本信息集合;
根据所述待分析的医疗事件集合、所述待分析的医疗实体集合、所述待分析的医疗关系集合和所述待分析的患者基本信息集合进行结构化数据生成,得到所述目标文本结构化数据。
7.根据权利要求1所述的医疗文档的分析方法,其特征在于,所述根据所述目标表格类别集合、所述目标表格结构化数据、所述目标文本类别集合和所述目标文本结构化数据进行组合,得到所述目标医疗文档图像数据对应的目标结构化数据的步骤之后,还包括:
获取统计配置数据;
根据所述统计配置数据和所述目标结构化数据进行统计分析,得到目标统计结果。
8.一种医疗文档的分析装置,其特征在于,所述装置包括:
数据获取模块,用于获取目标医疗文档图像数据;
文本块识别模块,用于采用OCR技术,对所述目标医疗文档图像数据进行文本块识别,得到区域连通文本块集合和区域连通文本块位置数据集合;
布局分析模块,用于根据所述区域连通文本块集合、所述区域连通文本块位置数据集合和所述目标医疗文档图像数据进行布局分析,得到表格内容连通文本块集合和非表格内容连通文本块集合;
表格分类和表格的结构化数据解析模块,用于对所述表格内容连通文本块集合分别进行表格分类和表格的结构化数据解析,分别得到目标表格类别集合和目标表格结构化数据;
文本分类和段落的结构化数据解析模块,用于根据所述区域连通文本块位置数据集合和所述非表格内容连通文本块集合分别进行文本分类和段落的结构化数据解析,分别得到目标文本类别集合和目标文本结构化数据;
目标结构化数据确定模块,用于根据所述目标表格类别集合、所述目标表格结构化数据、所述目标文本类别集合和所述目标文本结构化数据进行组合,得到所述目标医疗文档图像数据对应的目标结构化数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202110697935.XA 2021-06-23 2021-06-23 医疗文档的分析方法、装置、设备及介质 Active CN113420116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110697935.XA CN113420116B (zh) 2021-06-23 2021-06-23 医疗文档的分析方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110697935.XA CN113420116B (zh) 2021-06-23 2021-06-23 医疗文档的分析方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113420116A true CN113420116A (zh) 2021-09-21
CN113420116B CN113420116B (zh) 2022-12-27

Family

ID=77717530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110697935.XA Active CN113420116B (zh) 2021-06-23 2021-06-23 医疗文档的分析方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113420116B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114373173A (zh) * 2022-01-12 2022-04-19 中国平安人寿保险股份有限公司 数据处理方法、装置、终端设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100275111A1 (en) * 2009-04-28 2010-10-28 Perceptive Software, Inc. Automatic forms processing systems and methods
CN104123527A (zh) * 2013-04-25 2014-10-29 魏昊 基于掩膜的图像表格文档识别方法
CN108831559A (zh) * 2018-06-20 2018-11-16 清华大学 一种中文电子病历文本分析方法与系统
CN109213870A (zh) * 2017-06-30 2019-01-15 埃森哲环球解决方案有限公司 文档处理
WO2019109493A1 (zh) * 2017-12-05 2019-06-13 深圳市易特科信息技术有限公司 区域医学影像存储系统及存储方法
US20210011974A1 (en) * 2019-07-12 2021-01-14 Adp, Llc Named-entity recognition through sequence of classification using a deep learning neural network
CN112818824A (zh) * 2021-01-28 2021-05-18 建信览智科技(北京)有限公司 一种基于机器学习的非固定格式单据信息的抽取方法
CN112883926A (zh) * 2021-03-24 2021-06-01 泰康保险集团股份有限公司 表格类医疗影像的识别方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100275111A1 (en) * 2009-04-28 2010-10-28 Perceptive Software, Inc. Automatic forms processing systems and methods
CN104123527A (zh) * 2013-04-25 2014-10-29 魏昊 基于掩膜的图像表格文档识别方法
CN109213870A (zh) * 2017-06-30 2019-01-15 埃森哲环球解决方案有限公司 文档处理
WO2019109493A1 (zh) * 2017-12-05 2019-06-13 深圳市易特科信息技术有限公司 区域医学影像存储系统及存储方法
CN108831559A (zh) * 2018-06-20 2018-11-16 清华大学 一种中文电子病历文本分析方法与系统
US20210011974A1 (en) * 2019-07-12 2021-01-14 Adp, Llc Named-entity recognition through sequence of classification using a deep learning neural network
CN112818824A (zh) * 2021-01-28 2021-05-18 建信览智科技(北京)有限公司 一种基于机器学习的非固定格式单据信息的抽取方法
CN112883926A (zh) * 2021-03-24 2021-06-01 泰康保险集团股份有限公司 表格类医疗影像的识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曾子明等: "面向数字人文的图像语义描述模型研究", 《情报理论与实践》 *
谢屈波: "面向医疗保险图像的文本检测与识别研究", 《CNKI优秀硕士学位论文全文库》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114373173A (zh) * 2022-01-12 2022-04-19 中国平安人寿保险股份有限公司 数据处理方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
CN113420116B (zh) 2022-12-27

Similar Documents

Publication Publication Date Title
CN107808011B (zh) 信息的分类抽取方法、装置、计算机设备和存储介质
CN111444723B (zh) 信息抽取方法、计算机设备和存储介质
CN109685056B (zh) 获取文档信息的方法及装置
CN111651992A (zh) 命名实体标注方法、装置、计算机设备和存储介质
US20240013005A1 (en) Method and system for identifying citations within regulatory content
CN110795919A (zh) 一种pdf文档中的表格抽取方法、装置、设备及介质
CN108664595B (zh) 领域知识库构建方法、装置、计算机设备和存储介质
US8620079B1 (en) System and method for extracting information from documents
CN110427612B (zh) 基于多语言的实体消歧方法、装置、设备和存储介质
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN112434691A (zh) 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质
CN111639178A (zh) 生命科学文档的自动分类和解释
CN112035675A (zh) 医疗文本标注方法、装置、设备及存储介质
CN113255583B (zh) 数据标注方法、装置、计算机设备和存储介质
CN114821612B (zh) 一种证券期货场景下pdf文档的信息抽取方法和系统
CN113420116B (zh) 医疗文档的分析方法、装置、设备及介质
CN116245177A (zh) 地理环境知识图谱自动化构建方法及系统、可读存储介质
US11574491B2 (en) Automated classification and interpretation of life science documents
CN111898528B (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质
CN115345166A (zh) 医疗文本的疾病诊断名识别方法、装置、设备及存储介质
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质
CN112800771B (zh) 文章识别方法、装置、计算机可读存储介质和计算机设备
CN112257400A (zh) 表格数据提取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant