CN111652162A - 一种医疗单证结构化知识提取的文本检测与识别方法 - Google Patents

一种医疗单证结构化知识提取的文本检测与识别方法 Download PDF

Info

Publication number
CN111652162A
CN111652162A CN202010512139.XA CN202010512139A CN111652162A CN 111652162 A CN111652162 A CN 111652162A CN 202010512139 A CN202010512139 A CN 202010512139A CN 111652162 A CN111652162 A CN 111652162A
Authority
CN
China
Prior art keywords
text
medical document
recognition
structured
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010512139.XA
Other languages
English (en)
Inventor
向飞
王一哲
罗璟诣
向宇
王刚
唐书毅
黄驰
曾欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Knowledge Vision Technology Co ltd
Original Assignee
Chengdu Knowledge Vision Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Knowledge Vision Technology Co ltd filed Critical Chengdu Knowledge Vision Technology Co ltd
Priority to CN202010512139.XA priority Critical patent/CN111652162A/zh
Publication of CN111652162A publication Critical patent/CN111652162A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种医疗单证结构化知识提取的文本检测与识别方法,属于医疗单证信息提取技术领域,目的在于解决现有医疗单证信息处理效率低、智能化程度低的问题。其包括以下步骤:(1)图像识别:对医疗单证图像进行OCR识别;(2)模板匹配:将识别的图像匹配对应模板;(3)文本检测:通过文本检测获取文本在图中的位置信息;(4)错位调整:利用文本间的空间和语义关系,将错位文字调整正确;(5)文本识别:通过OCR识别文本,转换成文本数据;(6)结果校验:基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验;(7)结构化输出:将识别校验后的文本内容结构化,输出为可编辑的数据。本发明适用于医疗单证文本检测与识别。

Description

一种医疗单证结构化知识提取的文本检测与识别方法
技术领域
本发明属于医疗单证信息提取技术领域,具体涉及一种医疗单证结构化知识提取的文本检测与识别方法。
背景技术
医院门诊和住院费用结算时中存在大量的纸质医疗票据,这些医疗票据是医院和社区门诊用于结算费用的统计信息。然而长期以来,由于医院和社区门诊的医疗票据管理工作的手段落后,造成了一系列麻烦和问题,一直困扰着医院的管理人员。在医疗票据信息的处理工作方面,绝大多数医院和几乎所有社区门诊仍停留在“人工分散处理、纸质的库房保存、人工的查询更新”的阶段,这成为了阻碍医疗产业信息化发展的一大根源。因此,为了解决这一薄弱环节,提供一种“集中、统一、高效、规范”的医疗票据信息处理方法,已经成为了医院亟待解决的问题。
发明内容
本发明的目的在于:提供一种医疗单证结构化知识提取的文本检测与识别方法,解决现有医疗单证信息处理效率低、智能化程度低的问题。
本发明采用的技术方案如下:
一种医疗单证结构化知识提取的文本检测与识别方法,包括以下步骤:
(1)图像识别:对预处理后的医疗单证图像进行OCR识别;
(2)模板匹配:从模板数据库中匹配进行识别的医疗单证图像对应模板;
(3)文本检测:通过基于深度学习的文本检测获取到每个文本在图中的位置信息;
(4)错位调整:基于深度学习GCN技术,利用文本间的空间和语义关系,实现自动将打印错位的文字调整至正确位置;
(5)文本识别:通过基于深度学习的OCR识别模型将检测出的文本进行识别,转换成文本数据,为文本数据的结构化抽取提供基本数据;
(6)结果校验:识别系统基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验;
(7)结构化输出:将识别校验后的文本信息内容结构化,基于模板和用户的定制化需求,输出为计算机可编辑的数据。
进一步地,所述步骤6中基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验后,系统提供高风险识别项,错误提示候选项,可进行人工校验,并记录人工修改行为,便于后续模型不断迭代升级。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明中,识别系统基于深度学习模型,实现毫秒级的文本图像序列化自动检测和精准识别,并能用利用文本间的空间和语义关系,实现自动将打印错位的文字调整至正确位置;同时通过结构化输出将识别的文本信息从无关联的文本内信息结构化成有关系的信息,识别系统基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验,经过校验后,系统提供高风险识别项,错误提示候选项,可进行人工校验,并记录人工修改行为,便于后续模型不断迭代升级,大大提升了文本信息的识别准确度,提高了医疗单证信息处理效率,同时能够根据用户定制化需求输出可编辑数据,提高信息利用效率,使得信息处理更加智能化。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
一种医疗单证结构化知识提取的文本检测与识别方法,包括以下步骤:
(1)图像识别:对预处理后的医疗单证图像进行OCR识别;
(2)模板匹配:从模板数据库中匹配进行识别的医疗单证图像对应模板;
(3)文本检测:通过基于深度学习的文本检测获取到每个文本在图中的位置信息;
(4)错位调整:基于深度学习GCN技术,利用文本间的空间和语义关系,实现自动将打印错位的文字调整至正确位置;
(5)文本识别:通过基于深度学习的OCR识别模型将检测出的文本进行识别,转换成文本数据,为文本数据的结构化抽取提供基本数据;
(6)结果校验:识别系统基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验;
(7)结构化输出:将识别校验后的文本信息内容结构化,基于模板和用户的定制化需求,输出为计算机可编辑的数据。
进一步地,所述步骤6中基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验后,系统提供高风险识别项,错误提示候选项,可进行人工校验,并记录人工修改行为,便于后续模型不断迭代升级。
本发明在实施过程中,识别系统基于深度学习模型,实现毫秒级的文本图像序列化自动检测和精准识别,并能用利用文本间的空间和语义关系,实现自动将打印错位的文字调整至正确位置;同时通过结构化输出将识别的文本信息从无关联的文本内信息结构化成有关系的信息,识别系统基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验,经过校验后,系统提供高风险识别项,错误提示候选项,可进行人工校验,并记录人工修改行为,便于后续模型不断迭代升级,大大提升了文本信息的识别准确度,提高了医疗单证信息处理效率,同时能够根据用户定制化需求输出可编辑数据,提高信息利用效率,使得信息处理更加智能化。
实施例1
一种医疗单证结构化知识提取的文本检测与识别方法,包括以下步骤:
(1)图像识别:对预处理后的医疗单证图像进行OCR识别;
(2)模板匹配:从模板数据库中匹配进行识别的医疗单证图像对应模板;
(3)文本检测:通过基于深度学习的文本检测获取到每个文本在图中的位置信息;
(4)错位调整:基于深度学习GCN技术,利用文本间的空间和语义关系,实现自动将打印错位的文字调整至正确位置;
(5)文本识别:通过基于深度学习的OCR识别模型将检测出的文本进行识别,转换成文本数据,为文本数据的结构化抽取提供基本数据;
(6)结果校验:识别系统基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验;
(7)结构化输出:将识别校验后的文本信息内容结构化,基于模板和用户的定制化需求,输出为计算机可编辑的数据。
实施例2
在实施例1的基础上,所述步骤6中基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验后,系统提供高风险识别项,错误提示候选项,可进行人工校验,并记录人工修改行为,便于后续模型不断迭代升级。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种医疗单证结构化知识提取的文本检测与识别方法,其特征在于,包括以下步骤:
(1)图像识别:对预处理后的医疗单证图像进行OCR识别;
(2)模板匹配:从模板数据库中匹配进行识别的医疗单证图像对应模板;
(3)文本检测:通过基于深度学习的文本检测获取到每个文本在图中的位置信息;
(4)错位调整:基于深度学习GCN技术,利用文本间的空间和语义关系,实现自动将打印错位的文字调整至正确位置;
(5)文本识别:通过基于深度学习的OCR识别模型将检测出的文本进行识别,转换成文本数据,为文本数据的结构化抽取提供基本数据;
(6)结果校验:识别系统基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验;
(7)结构化输出:将识别校验后的文本信息内容结构化,基于模板和用户的定制化需求,输出为计算机可编辑的数据。
2.按照权利要求1所述的一种医疗单证结构化知识提取的文本检测与识别方法,其特征在于,所述步骤6中基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验后,系统提供高风险识别项,错误提示候选项,可进行人工校验,并记录人工修改行为,便于后续模型不断迭代升级。
CN202010512139.XA 2020-06-08 2020-06-08 一种医疗单证结构化知识提取的文本检测与识别方法 Pending CN111652162A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010512139.XA CN111652162A (zh) 2020-06-08 2020-06-08 一种医疗单证结构化知识提取的文本检测与识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010512139.XA CN111652162A (zh) 2020-06-08 2020-06-08 一种医疗单证结构化知识提取的文本检测与识别方法

Publications (1)

Publication Number Publication Date
CN111652162A true CN111652162A (zh) 2020-09-11

Family

ID=72349881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010512139.XA Pending CN111652162A (zh) 2020-06-08 2020-06-08 一种医疗单证结构化知识提取的文本检测与识别方法

Country Status (1)

Country Link
CN (1) CN111652162A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560676A (zh) * 2020-12-15 2021-03-26 中国平安人寿保险股份有限公司 图像文本抽取方法、装置及存储介质
CN112819595A (zh) * 2021-01-13 2021-05-18 中国建设银行股份有限公司 凭证风险智能处置的方法和装置
CN112819003A (zh) * 2021-04-19 2021-05-18 北京妙医佳健康科技集团有限公司 一种提升体检报告ocr识别准确率的方法及装置
CN112883735A (zh) * 2021-02-10 2021-06-01 海尔数字科技(上海)有限公司 一种表单图像的结构化处理方法、装置、设备及存储介质
CN112927776A (zh) * 2021-02-03 2021-06-08 昆山慧医优策医疗科技有限公司 一种面向医学检验报告的人工智能自动解读系统
CN112949476A (zh) * 2021-03-01 2021-06-11 苏州美能华智能科技有限公司 基于图卷积神经网络的文本关系检测方法、装置及存储介质
CN113538179A (zh) * 2021-06-11 2021-10-22 海南大学 一种基于dikw的专利智能申请方法及系统
CN113553892A (zh) * 2020-12-31 2021-10-26 内蒙古卫数数据科技有限公司 一种基于深度学习和ocr的检验、体检报告单结果提取方法
CN113688269A (zh) * 2021-07-21 2021-11-23 北京三快在线科技有限公司 图文匹配结果确定方法、装置、电子设备及可读存储介质
CN116434266A (zh) * 2023-06-14 2023-07-14 邹城市人民医院 一种医疗检验单的数据信息自动提取分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633239A (zh) * 2017-10-18 2018-01-26 江苏鸿信系统集成有限公司 基于深度学习和ocr的票据分类及票据字段提取方法
CN109657665A (zh) * 2018-10-31 2019-04-19 广东工业大学 一种基于深度学习的发票批量自动识别系统
CN109919014A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN109977957A (zh) * 2019-03-04 2019-07-05 苏宁易购集团股份有限公司 一种基于深度学习的发票识别方法及系统
CN111062397A (zh) * 2019-12-18 2020-04-24 厦门商集网络科技有限责任公司 一种智能票据处理系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633239A (zh) * 2017-10-18 2018-01-26 江苏鸿信系统集成有限公司 基于深度学习和ocr的票据分类及票据字段提取方法
CN109657665A (zh) * 2018-10-31 2019-04-19 广东工业大学 一种基于深度学习的发票批量自动识别系统
CN109919014A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN109977957A (zh) * 2019-03-04 2019-07-05 苏宁易购集团股份有限公司 一种基于深度学习的发票识别方法及系统
CN111062397A (zh) * 2019-12-18 2020-04-24 厦门商集网络科技有限责任公司 一种智能票据处理系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中国生物技术发展中心: "《2019中国医疗器械科技创新发展年度报告》", 上海科学技术出版社, pages: 221 - 222 *
贾旸: "单证识别领域的OCR技术应用探索", 《金融电子化》, no. 04, 15 April 2018 (2018-04-15) *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560676A (zh) * 2020-12-15 2021-03-26 中国平安人寿保险股份有限公司 图像文本抽取方法、装置及存储介质
CN113553892A (zh) * 2020-12-31 2021-10-26 内蒙古卫数数据科技有限公司 一种基于深度学习和ocr的检验、体检报告单结果提取方法
CN112819595A (zh) * 2021-01-13 2021-05-18 中国建设银行股份有限公司 凭证风险智能处置的方法和装置
CN112927776A (zh) * 2021-02-03 2021-06-08 昆山慧医优策医疗科技有限公司 一种面向医学检验报告的人工智能自动解读系统
CN112883735A (zh) * 2021-02-10 2021-06-01 海尔数字科技(上海)有限公司 一种表单图像的结构化处理方法、装置、设备及存储介质
CN112883735B (zh) * 2021-02-10 2024-01-12 卡奥斯数字科技(上海)有限公司 一种表单图像的结构化处理方法、装置、设备及存储介质
CN112949476B (zh) * 2021-03-01 2023-09-29 苏州美能华智能科技有限公司 基于图卷积神经网络的文本关系检测方法、装置及存储介质
CN112949476A (zh) * 2021-03-01 2021-06-11 苏州美能华智能科技有限公司 基于图卷积神经网络的文本关系检测方法、装置及存储介质
CN112819003A (zh) * 2021-04-19 2021-05-18 北京妙医佳健康科技集团有限公司 一种提升体检报告ocr识别准确率的方法及装置
CN113538179A (zh) * 2021-06-11 2021-10-22 海南大学 一种基于dikw的专利智能申请方法及系统
CN113688269A (zh) * 2021-07-21 2021-11-23 北京三快在线科技有限公司 图文匹配结果确定方法、装置、电子设备及可读存储介质
CN116434266B (zh) * 2023-06-14 2023-08-18 邹城市人民医院 一种医疗检验单的数据信息自动提取分析方法
CN116434266A (zh) * 2023-06-14 2023-07-14 邹城市人民医院 一种医疗检验单的数据信息自动提取分析方法

Similar Documents

Publication Publication Date Title
CN111652162A (zh) 一种医疗单证结构化知识提取的文本检测与识别方法
US9037613B2 (en) Self-learning data lenses for conversion of information from a source form to a target form
US11080563B2 (en) System and method for enrichment of OCR-extracted data
US9836520B2 (en) System and method for automatically validating classified data objects
US9043367B2 (en) Self-learning data lenses for conversion of information from a first form to a second form
CN118037294B (zh) 一种基于业务表单数据的财务凭证生成方法及装置
CN106845467B (zh) 基于光学字符识别技术的航空维修工卡工作内容识别方法
CN111666885A (zh) 一种医疗单证结构化知识提取的模板构建与匹配方法
CN111651994B (zh) 一种信息抽取方法、装置、电子设备和存储介质
CN113436730A (zh) 一种医院疾病诊断分类自动编码的方法及系统
CN113841156B (zh) 基于图像识别的控制方法与装置
CN116612479A (zh) 一种轻量级的票据ocr识别方法及系统
CN116844182A (zh) 一种版式自动识别的卡证文字识别方法
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质
US11335108B2 (en) System and method to recognise characters from an image
CN114638219A (zh) 一种基于机器学习算法的错误字词智能识别方法
Kooli et al. Semantic label and structure model based approach for entity recognition in database context
Chazalon et al. Iterative analysis of document collections enables efficient human-initiated interaction
CN116976313B (zh) 场外交易指令文本的解析方法、装置和计算机可读介质
CN117932056A (zh) 一种基于文本分析的数字化智能校对方法及系统
CN117874065A (zh) 一种基于业务数据库的数据获取方法及装置
Han et al. Research on intelligent customs declaration generation in Guangdong-Hong Kong cross-border road cargo clearance
CN118886860A (zh) 一种财务影像智能化审核方法、设备及介质
CN117786425A (zh) 基于大数据和机器学习的生态环境数据特征识别算法
CN118860887A (zh) 代码扫描工具的优化方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200911

RJ01 Rejection of invention patent application after publication