CN111652162A - 一种医疗单证结构化知识提取的文本检测与识别方法 - Google Patents
一种医疗单证结构化知识提取的文本检测与识别方法 Download PDFInfo
- Publication number
- CN111652162A CN111652162A CN202010512139.XA CN202010512139A CN111652162A CN 111652162 A CN111652162 A CN 111652162A CN 202010512139 A CN202010512139 A CN 202010512139A CN 111652162 A CN111652162 A CN 111652162A
- Authority
- CN
- China
- Prior art keywords
- text
- medical document
- recognition
- structured
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 22
- 238000000605 extraction Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 title claims abstract description 11
- 238000012795 verification Methods 0.000 claims abstract description 7
- 238000013135 deep learning Methods 0.000 claims description 12
- 238000012986 modification Methods 0.000 claims description 7
- 230000004048 modification Effects 0.000 claims description 7
- 230000006399 behavior Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 abstract description 4
- 230000010365 information processing Effects 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种医疗单证结构化知识提取的文本检测与识别方法,属于医疗单证信息提取技术领域,目的在于解决现有医疗单证信息处理效率低、智能化程度低的问题。其包括以下步骤:(1)图像识别:对医疗单证图像进行OCR识别;(2)模板匹配:将识别的图像匹配对应模板;(3)文本检测:通过文本检测获取文本在图中的位置信息;(4)错位调整:利用文本间的空间和语义关系,将错位文字调整正确;(5)文本识别:通过OCR识别文本,转换成文本数据;(6)结果校验:基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验;(7)结构化输出:将识别校验后的文本内容结构化,输出为可编辑的数据。本发明适用于医疗单证文本检测与识别。
Description
技术领域
本发明属于医疗单证信息提取技术领域,具体涉及一种医疗单证结构化知识提取的文本检测与识别方法。
背景技术
医院门诊和住院费用结算时中存在大量的纸质医疗票据,这些医疗票据是医院和社区门诊用于结算费用的统计信息。然而长期以来,由于医院和社区门诊的医疗票据管理工作的手段落后,造成了一系列麻烦和问题,一直困扰着医院的管理人员。在医疗票据信息的处理工作方面,绝大多数医院和几乎所有社区门诊仍停留在“人工分散处理、纸质的库房保存、人工的查询更新”的阶段,这成为了阻碍医疗产业信息化发展的一大根源。因此,为了解决这一薄弱环节,提供一种“集中、统一、高效、规范”的医疗票据信息处理方法,已经成为了医院亟待解决的问题。
发明内容
本发明的目的在于:提供一种医疗单证结构化知识提取的文本检测与识别方法,解决现有医疗单证信息处理效率低、智能化程度低的问题。
本发明采用的技术方案如下:
一种医疗单证结构化知识提取的文本检测与识别方法,包括以下步骤:
(1)图像识别:对预处理后的医疗单证图像进行OCR识别;
(2)模板匹配:从模板数据库中匹配进行识别的医疗单证图像对应模板;
(3)文本检测:通过基于深度学习的文本检测获取到每个文本在图中的位置信息;
(4)错位调整:基于深度学习GCN技术,利用文本间的空间和语义关系,实现自动将打印错位的文字调整至正确位置;
(5)文本识别:通过基于深度学习的OCR识别模型将检测出的文本进行识别,转换成文本数据,为文本数据的结构化抽取提供基本数据;
(6)结果校验:识别系统基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验;
(7)结构化输出:将识别校验后的文本信息内容结构化,基于模板和用户的定制化需求,输出为计算机可编辑的数据。
进一步地,所述步骤6中基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验后,系统提供高风险识别项,错误提示候选项,可进行人工校验,并记录人工修改行为,便于后续模型不断迭代升级。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明中,识别系统基于深度学习模型,实现毫秒级的文本图像序列化自动检测和精准识别,并能用利用文本间的空间和语义关系,实现自动将打印错位的文字调整至正确位置;同时通过结构化输出将识别的文本信息从无关联的文本内信息结构化成有关系的信息,识别系统基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验,经过校验后,系统提供高风险识别项,错误提示候选项,可进行人工校验,并记录人工修改行为,便于后续模型不断迭代升级,大大提升了文本信息的识别准确度,提高了医疗单证信息处理效率,同时能够根据用户定制化需求输出可编辑数据,提高信息利用效率,使得信息处理更加智能化。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
一种医疗单证结构化知识提取的文本检测与识别方法,包括以下步骤:
(1)图像识别:对预处理后的医疗单证图像进行OCR识别;
(2)模板匹配:从模板数据库中匹配进行识别的医疗单证图像对应模板;
(3)文本检测:通过基于深度学习的文本检测获取到每个文本在图中的位置信息;
(4)错位调整:基于深度学习GCN技术,利用文本间的空间和语义关系,实现自动将打印错位的文字调整至正确位置;
(5)文本识别:通过基于深度学习的OCR识别模型将检测出的文本进行识别,转换成文本数据,为文本数据的结构化抽取提供基本数据;
(6)结果校验:识别系统基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验;
(7)结构化输出:将识别校验后的文本信息内容结构化,基于模板和用户的定制化需求,输出为计算机可编辑的数据。
进一步地,所述步骤6中基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验后,系统提供高风险识别项,错误提示候选项,可进行人工校验,并记录人工修改行为,便于后续模型不断迭代升级。
本发明在实施过程中,识别系统基于深度学习模型,实现毫秒级的文本图像序列化自动检测和精准识别,并能用利用文本间的空间和语义关系,实现自动将打印错位的文字调整至正确位置;同时通过结构化输出将识别的文本信息从无关联的文本内信息结构化成有关系的信息,识别系统基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验,经过校验后,系统提供高风险识别项,错误提示候选项,可进行人工校验,并记录人工修改行为,便于后续模型不断迭代升级,大大提升了文本信息的识别准确度,提高了医疗单证信息处理效率,同时能够根据用户定制化需求输出可编辑数据,提高信息利用效率,使得信息处理更加智能化。
实施例1
一种医疗单证结构化知识提取的文本检测与识别方法,包括以下步骤:
(1)图像识别:对预处理后的医疗单证图像进行OCR识别;
(2)模板匹配:从模板数据库中匹配进行识别的医疗单证图像对应模板;
(3)文本检测:通过基于深度学习的文本检测获取到每个文本在图中的位置信息;
(4)错位调整:基于深度学习GCN技术,利用文本间的空间和语义关系,实现自动将打印错位的文字调整至正确位置;
(5)文本识别:通过基于深度学习的OCR识别模型将检测出的文本进行识别,转换成文本数据,为文本数据的结构化抽取提供基本数据;
(6)结果校验:识别系统基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验;
(7)结构化输出:将识别校验后的文本信息内容结构化,基于模板和用户的定制化需求,输出为计算机可编辑的数据。
实施例2
在实施例1的基础上,所述步骤6中基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验后,系统提供高风险识别项,错误提示候选项,可进行人工校验,并记录人工修改行为,便于后续模型不断迭代升级。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种医疗单证结构化知识提取的文本检测与识别方法,其特征在于,包括以下步骤:
(1)图像识别:对预处理后的医疗单证图像进行OCR识别;
(2)模板匹配:从模板数据库中匹配进行识别的医疗单证图像对应模板;
(3)文本检测:通过基于深度学习的文本检测获取到每个文本在图中的位置信息;
(4)错位调整:基于深度学习GCN技术,利用文本间的空间和语义关系,实现自动将打印错位的文字调整至正确位置;
(5)文本识别:通过基于深度学习的OCR识别模型将检测出的文本进行识别,转换成文本数据,为文本数据的结构化抽取提供基本数据;
(6)结果校验:识别系统基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验;
(7)结构化输出:将识别校验后的文本信息内容结构化,基于模板和用户的定制化需求,输出为计算机可编辑的数据。
2.按照权利要求1所述的一种医疗单证结构化知识提取的文本检测与识别方法,其特征在于,所述步骤6中基于规则引擎、垂直领域知识图谱、值域统计对识别结果进行校验后,系统提供高风险识别项,错误提示候选项,可进行人工校验,并记录人工修改行为,便于后续模型不断迭代升级。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010512139.XA CN111652162A (zh) | 2020-06-08 | 2020-06-08 | 一种医疗单证结构化知识提取的文本检测与识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010512139.XA CN111652162A (zh) | 2020-06-08 | 2020-06-08 | 一种医疗单证结构化知识提取的文本检测与识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111652162A true CN111652162A (zh) | 2020-09-11 |
Family
ID=72349881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010512139.XA Pending CN111652162A (zh) | 2020-06-08 | 2020-06-08 | 一种医疗单证结构化知识提取的文本检测与识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111652162A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560676A (zh) * | 2020-12-15 | 2021-03-26 | 中国平安人寿保险股份有限公司 | 图像文本抽取方法、装置及存储介质 |
CN112819595A (zh) * | 2021-01-13 | 2021-05-18 | 中国建设银行股份有限公司 | 凭证风险智能处置的方法和装置 |
CN112819003A (zh) * | 2021-04-19 | 2021-05-18 | 北京妙医佳健康科技集团有限公司 | 一种提升体检报告ocr识别准确率的方法及装置 |
CN112883735A (zh) * | 2021-02-10 | 2021-06-01 | 海尔数字科技(上海)有限公司 | 一种表单图像的结构化处理方法、装置、设备及存储介质 |
CN112927776A (zh) * | 2021-02-03 | 2021-06-08 | 昆山慧医优策医疗科技有限公司 | 一种面向医学检验报告的人工智能自动解读系统 |
CN112949476A (zh) * | 2021-03-01 | 2021-06-11 | 苏州美能华智能科技有限公司 | 基于图卷积神经网络的文本关系检测方法、装置及存储介质 |
CN113538179A (zh) * | 2021-06-11 | 2021-10-22 | 海南大学 | 一种基于dikw的专利智能申请方法及系统 |
CN113553892A (zh) * | 2020-12-31 | 2021-10-26 | 内蒙古卫数数据科技有限公司 | 一种基于深度学习和ocr的检验、体检报告单结果提取方法 |
CN113688269A (zh) * | 2021-07-21 | 2021-11-23 | 北京三快在线科技有限公司 | 图文匹配结果确定方法、装置、电子设备及可读存储介质 |
CN116434266A (zh) * | 2023-06-14 | 2023-07-14 | 邹城市人民医院 | 一种医疗检验单的数据信息自动提取分析方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107633239A (zh) * | 2017-10-18 | 2018-01-26 | 江苏鸿信系统集成有限公司 | 基于深度学习和ocr的票据分类及票据字段提取方法 |
CN109657665A (zh) * | 2018-10-31 | 2019-04-19 | 广东工业大学 | 一种基于深度学习的发票批量自动识别系统 |
CN109919014A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | Ocr识别方法及其电子设备 |
CN109977957A (zh) * | 2019-03-04 | 2019-07-05 | 苏宁易购集团股份有限公司 | 一种基于深度学习的发票识别方法及系统 |
CN111062397A (zh) * | 2019-12-18 | 2020-04-24 | 厦门商集网络科技有限责任公司 | 一种智能票据处理系统 |
-
2020
- 2020-06-08 CN CN202010512139.XA patent/CN111652162A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107633239A (zh) * | 2017-10-18 | 2018-01-26 | 江苏鸿信系统集成有限公司 | 基于深度学习和ocr的票据分类及票据字段提取方法 |
CN109657665A (zh) * | 2018-10-31 | 2019-04-19 | 广东工业大学 | 一种基于深度学习的发票批量自动识别系统 |
CN109919014A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | Ocr识别方法及其电子设备 |
CN109977957A (zh) * | 2019-03-04 | 2019-07-05 | 苏宁易购集团股份有限公司 | 一种基于深度学习的发票识别方法及系统 |
CN111062397A (zh) * | 2019-12-18 | 2020-04-24 | 厦门商集网络科技有限责任公司 | 一种智能票据处理系统 |
Non-Patent Citations (2)
Title |
---|
中国生物技术发展中心: "《2019中国医疗器械科技创新发展年度报告》", 上海科学技术出版社, pages: 221 - 222 * |
贾旸: "单证识别领域的OCR技术应用探索", 《金融电子化》, no. 04, 15 April 2018 (2018-04-15) * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560676A (zh) * | 2020-12-15 | 2021-03-26 | 中国平安人寿保险股份有限公司 | 图像文本抽取方法、装置及存储介质 |
CN113553892A (zh) * | 2020-12-31 | 2021-10-26 | 内蒙古卫数数据科技有限公司 | 一种基于深度学习和ocr的检验、体检报告单结果提取方法 |
CN112819595A (zh) * | 2021-01-13 | 2021-05-18 | 中国建设银行股份有限公司 | 凭证风险智能处置的方法和装置 |
CN112927776A (zh) * | 2021-02-03 | 2021-06-08 | 昆山慧医优策医疗科技有限公司 | 一种面向医学检验报告的人工智能自动解读系统 |
CN112883735A (zh) * | 2021-02-10 | 2021-06-01 | 海尔数字科技(上海)有限公司 | 一种表单图像的结构化处理方法、装置、设备及存储介质 |
CN112883735B (zh) * | 2021-02-10 | 2024-01-12 | 卡奥斯数字科技(上海)有限公司 | 一种表单图像的结构化处理方法、装置、设备及存储介质 |
CN112949476B (zh) * | 2021-03-01 | 2023-09-29 | 苏州美能华智能科技有限公司 | 基于图卷积神经网络的文本关系检测方法、装置及存储介质 |
CN112949476A (zh) * | 2021-03-01 | 2021-06-11 | 苏州美能华智能科技有限公司 | 基于图卷积神经网络的文本关系检测方法、装置及存储介质 |
CN112819003A (zh) * | 2021-04-19 | 2021-05-18 | 北京妙医佳健康科技集团有限公司 | 一种提升体检报告ocr识别准确率的方法及装置 |
CN113538179A (zh) * | 2021-06-11 | 2021-10-22 | 海南大学 | 一种基于dikw的专利智能申请方法及系统 |
CN113688269A (zh) * | 2021-07-21 | 2021-11-23 | 北京三快在线科技有限公司 | 图文匹配结果确定方法、装置、电子设备及可读存储介质 |
CN116434266B (zh) * | 2023-06-14 | 2023-08-18 | 邹城市人民医院 | 一种医疗检验单的数据信息自动提取分析方法 |
CN116434266A (zh) * | 2023-06-14 | 2023-07-14 | 邹城市人民医院 | 一种医疗检验单的数据信息自动提取分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111652162A (zh) | 一种医疗单证结构化知识提取的文本检测与识别方法 | |
US9037613B2 (en) | Self-learning data lenses for conversion of information from a source form to a target form | |
US11080563B2 (en) | System and method for enrichment of OCR-extracted data | |
US9836520B2 (en) | System and method for automatically validating classified data objects | |
US9043367B2 (en) | Self-learning data lenses for conversion of information from a first form to a second form | |
CN118037294B (zh) | 一种基于业务表单数据的财务凭证生成方法及装置 | |
CN106845467B (zh) | 基于光学字符识别技术的航空维修工卡工作内容识别方法 | |
CN111666885A (zh) | 一种医疗单证结构化知识提取的模板构建与匹配方法 | |
CN111651994B (zh) | 一种信息抽取方法、装置、电子设备和存储介质 | |
CN113436730A (zh) | 一种医院疾病诊断分类自动编码的方法及系统 | |
CN113841156B (zh) | 基于图像识别的控制方法与装置 | |
CN116612479A (zh) | 一种轻量级的票据ocr识别方法及系统 | |
CN116844182A (zh) | 一种版式自动识别的卡证文字识别方法 | |
CN115294593A (zh) | 一种图像信息抽取方法、装置、计算机设备及存储介质 | |
US11335108B2 (en) | System and method to recognise characters from an image | |
CN114638219A (zh) | 一种基于机器学习算法的错误字词智能识别方法 | |
Kooli et al. | Semantic label and structure model based approach for entity recognition in database context | |
Chazalon et al. | Iterative analysis of document collections enables efficient human-initiated interaction | |
CN116976313B (zh) | 场外交易指令文本的解析方法、装置和计算机可读介质 | |
CN117932056A (zh) | 一种基于文本分析的数字化智能校对方法及系统 | |
CN117874065A (zh) | 一种基于业务数据库的数据获取方法及装置 | |
Han et al. | Research on intelligent customs declaration generation in Guangdong-Hong Kong cross-border road cargo clearance | |
CN118886860A (zh) | 一种财务影像智能化审核方法、设备及介质 | |
CN117786425A (zh) | 基于大数据和机器学习的生态环境数据特征识别算法 | |
CN118860887A (zh) | 代码扫描工具的优化方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200911 |
|
RJ01 | Rejection of invention patent application after publication |