CN112733651A - 一种医学数据识别方法、装置、存储介质及设备 - Google Patents
一种医学数据识别方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN112733651A CN112733651A CN202011613654.3A CN202011613654A CN112733651A CN 112733651 A CN112733651 A CN 112733651A CN 202011613654 A CN202011613654 A CN 202011613654A CN 112733651 A CN112733651 A CN 112733651A
- Authority
- CN
- China
- Prior art keywords
- text
- item
- determining
- name
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011160 research Methods 0.000 abstract description 11
- 238000013500 data storage Methods 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract description 2
- 238000007689 inspection Methods 0.000 description 34
- 238000012360 testing method Methods 0.000 description 34
- 230000008569 process Effects 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 11
- 238000012015 optical character recognition Methods 0.000 description 10
- 210000000265 leukocyte Anatomy 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000004820 blood count Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000002253 acid Substances 0.000 description 2
- 210000003651 basophil Anatomy 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 210000003979 eosinophil Anatomy 0.000 description 2
- 210000003714 granulocyte Anatomy 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 238000009534 blood test Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 238000007449 liver function test Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种医学数据识别方法、装置、计算机可读存储介质及设备,该方法根据从待识别图像所提取的文本块的文本内容和位置信息,抽取待识别图像中所包括的项目名称,并进一步确定属于指定项目列表的指定项目名称,最终保存所述指定项目名称和所述与指定项目名称对应的项目信息。由此实现医学检验单的自动识别和数据自动保存,显著提高医学研究数据的录入效率,有效降低人力成本,显著提升医学研究收据的收集整理速度。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种医学数据识别方法、装置、计算机可读存储介质及设备。
背景技术
医学数据的整理和分析,对于医学研究的发展和进步具有非常重要的意义。但是目前对于医学数据的整理主要依靠存储员手动存储检验数据等,需要耗费大量的人力物力成本,并且容易出现存储错误。日前,对于文字识别通常采用OCR(Optical CharacterRecognition,光学字符识别)技术,采用OCR识别技术对格式比较统一的普通证件或文本等识别效果比较好。但是,医学研究领域的数据比较复杂,即使只关注检验数据,各个医院的检验单样式多种多样,没有统一的规则,例如:同样的检验项目在检验单中的检验项目名称也有很多差异。
因此,从复杂多变的检验单中准确识别出相应的检验项目的难度非常大,由此,对于医学数据的识别和整理也就变得非常复杂。
发明内容
本发明实施例为了解决医学数据整理和分析过程中存在的上述问题,创造性地提供一种医学数据识别方法、装置、计算机可读存储介质及设备。
第一方面,本发明提供一种医学数据识别方法,所述方法包括:接收待识别图像;提取所述待识别图像中的多个文本块;对多个所述文本块的内容进行识别,得到所述待识别图像中的多个项目名称以及与多个所述项目名称对应的项目信息;确定所述项目名称中属于指定项目列表的指定项目名称;保存所述指定项目名称和与所述指定项目名称对应的项目信息。
优选地,述待识别图像中的多个文本块,包括:采用图像识别技术,从所述待识别图像中提取多个文本框;确定每一所述文本框中的文本内容;确定每一所述文本框的坐标;根据文本内容和所述坐标,确定多个所述文本块。
优选地,对所述文本块的内容进行识别,得到所述待识别图像信息中的多个项目名称以及与多个所述项目名称对应的项目信息,包括:根据所述文本块的位置信息,确定每个所述文本块与相邻的文本块之间的相对位置关系;根据所述相对位置关系,确定多个第一文本块集、多个第二文本块集、以及所述第一文本块集与所述第二文本块集之间的对应关系;根据所述第一文本块集、所述第二文本块集以及所述对应关系,确定多个项目名称以及与多个所述项目名称对应的项目信息。
优选地,所述根据所述第一文本块集、所述第二文本块集以及所述对应关系,确定多个项目名称以及与多个所述项目名称对应的项目信息,包括:对对所述第一文本块集进行识别,得到所述第一文本块集第一文本块集的实际文本内容;对所述实际文本内容进行归一化处理,得到所述项目名称,其中,所述实际文本内容根据所述第一文本块集中每一文本块的文本内容确定。
优选地,所述根据所述第一文本块集、所述第二文本块集以及所述对应关系,确定多个项目名称以及与多个所述项目名称对应的项目信息,包括:对所述第一文本块集进行识别,得到实际文本内容;对所述第一文本块集的实际文本内容进行分词,得到多种分词结果,其中,所述实际文本内容根据所述第一文本块集中每一文本块的文本内容确定;根据所述分词结果,将所述实际文本内容与设定词表库匹配进行语义匹配,得到所述实际文本内容与所述设定词表库中相应词语的第一匹配度;根据所述第一匹配度,确定所述项目名称。
优选地,所述确定所述项目名称中属于指定项目列表的指定项目名称,包括:将所述项目名称与所述指定项目列表中的预定项目名称进行轮询比对;得到所述项目名称与预定项目之间的第二匹配度;确定所述第二匹配度达到设定阈值的项目名称为指定项目名称。
优选地,所述保存所述指定项目名称和与所述指定项目名称对应的项目信息,包括:展示所述指定项目名称;接收对所述指定项目名称的反馈信息;在所述反馈信息示出所述指定项目名称正确时,保存所述指定项目名称和与所述指定项目名称对应的项目信息。
第二方面,本发明提供一种医学数据识别装置,所述装置包括:接收模块,用于接收待识别图像;文本提取模块,用于提取所述待识别图像中的多个文本块;项目识别模块,用于对多个所述文本块的内容进行识别,得到所述待识别图像中的多个项目名称以及与多个所述项目名称对应的项目信息;项目确定模块,用于确定所述项目名称中属于指定项目列表的指定项目名称;保存模块,用于保存所述指定项目名称和与所述指定项目名称对应的项目信息。
第三方面,本发明提供了一种设备,所述设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一所述的医学数据识别方法。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一所述的医学数据识别方法。
本发明实施例医学数据识别方法、装置、计算机可读存储介质及设备,根据从待识别图像所提取的文本块的文本内容和位置信息,抽取待识别图像中所包括的项目名称,并进一步确定属于指定项目列表的指定项目名称,最终保存所述指定项目名称和与所述指定项目名称对应的项目信息。由此实现医学检验单的自动识别和数据自动保存,显著提高医学研究数据的录入效率,有效降低人力成本,显著提升医学研究收据的收集整理速度。
需要理解的是,本发明的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本发明的其他实施方式还能够实现上面未提到的有益效果。
附图说明
为了更清楚地说明本发明实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种医学数据识别方法的流程示意图;
图2为本发明另一实施例提供的一种医学数据识别方法的流程示意图;
图3为本发明一实施例提供的一种医学数据识别装置的结构示意图;
图4为本发明一实施例提供的一种设备的结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为使本发明更加透彻和完整,并能够将本发明的范围完整地传达给本领域的技术人员。
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
图1示出了一种医学数据识别方法的流程示意图。
参考图1,为本发明提供的医学数据识别方法的具体实施例。本实施例中,所述方法具体包括以下步骤:
操作101,接收待识别图像。
在本发明这一实施例中,待识别图像可以是医学检验单图像,图像的格式、参数等不做限定,举例说明,图像的格式可以是bmp、jpg、png、tif、pcx、tga、svg、psd、cdr、pcd、dxf、ufo、eps、ai、raw等。检验单的图像的参数可以包括分辨率、色度、亮度和像素等。本发明对于检验单的类型也不做限制,可以是任何医院的任意形式的检验单。检验单的内容可以包括检验项目名称、检验结果等、检验项目的正常值参考范围等。
操作102,提取待识别图像中的多个文本块。
在本发明这一实施方式中,可以利用OCR技术对待识别图像进行识别,得到多个文本块,文本块包括文本块的文本内容和位置信息。一个文本块中可以包括一个文字,例如:“白”、“细”和“胞”等,也可以包括一个符号,例如:“↑”、“↓”和“%”等,还可以包括一个数值,例如:“0.58”、“121.1”和“0.89”等,当然还可以是将数值中的每一个数字和每一个符号均识别为一个独立的文本块。
提取到的每一个文本块可以以一个矩形的文本框示出,文本块的位置信息可以以坐标的形式示出。举例说明,可以以待识别图像中大部分文字朝向向上为X轴正向,图像左下角的点为坐标原点,朝向向上的文字的从做至右方向为Y轴的正向,可以以每一文本块的对应的矩形框的坐标示出该文本块的位置信息。
操作103,对多个文本块的内容进行识别,得到待识别图像中的多个项目名称以及与多个项目名称对应的项目信息。
在本发明这一实施例中,首先可以根据每一文本块的位置信息,确定文本块与相邻文本块之间的距离,从而确定哪些文本块组成一个项目名称。例如:待识别图像为医学检验单时,可以确定组成一个检验项目名称的文本块包括哪些。
举例说明,以检验结果分为左右两栏示出的血常规检验单图片为例,根据操作102中所确定的文本块的矩形框的坐标,确定横坐标相同的文本块属于同一行文本。然后根据文本块与同一行文本中左右两侧的文本块之间的相对位置,确定每一检验项目所包括的文本块。例如:横坐标相同的一行文本中,前6个文本块中两两相邻的文本块之间的距离相等且小于设定间距,第7个文本块与第六个文本块之间的距离大于设定间距,则可以判定前6个文本块组成一个检验项目名称。其中,文本块之间的相对位置可以以左侧文本块的文本框右侧线条的横坐标与右侧文本块的文本框左侧线条的横坐标的差值表示。
在本发明这一实施例中,可以采用NLP(Nature Language Processing,自然语言处理)技术,对组成一个项目名称的多个文本块的文本内容进行文字特征提取和识别。举例说明,首先可以根据组成一个项目名称的多个文本块的文本内容,确定待识别图像中所显示的项目名称的文本内容;然后将该项目名称的文本内容与预先确定的医学词表进行匹配和归一化处理,得到与该文本内容所对应的医学词表中的项目名称。举例说明,可以采用此法分析和句法分析技术,将项目名称与医学词表中的检验项目进行匹配,并最终确认待识别图像中的项目名称。
举例说明,医学词表可以是根据医学领域的术语进行汇总,得到较为通用的医学领域的术语,构建医学词表。在医学词表中的“白细胞计数”,在不同的检验单中可以以不同的检验名称表示,例如:“白细胞数目”、“白细胞”等。在确认项目名称时,进行归一化处理,将项目名称以医学词表中的术语表示。
操作104,确定项目名称中属于指定项目列表的指定项目名称。
在本发明这一实施例中,将操作103中得到的项目名称与用于进行医学研究或分析的CRF(Case Report Form,病历报告表)中的检验项目进行匹配。举例说明,可以采用轮询对比的方式,将操作103中识别并归一处理后的项目名称与CRF的检验项目列表进行匹配,例如:采用NLP算法中的词法分析和句法分析等技术确定操作103中确定的项目名称与CRF的检验项目列表中检验项目匹配度,在所确定的匹配度达到设定匹配阈值时,确定该项目名称为指定项目名称。
操作105,保存指定项目名称和与指定项目名称对应的项目信息。
在本发明的这一实施例中,确定了指定项目名称之后,返回参考操作103中所确定项目名称以及与项目名称对应的项目信息,即可确定与指定项目名称对应的项目信息。举例说明,操作103中,确定了检验项目A对应的检验结果为X1,检验项目B对应的检验结果为X2,检验项目C对应的检验结果为X3,检验项目D对应的检验结果为X4,检验项目E对应的检验结果为X5,检验项目F对应的检验结果为X6,检验项目G对应的检验结果为X7。指定项目名称包括检验项目A、检验项目C、检验项目D,则可以直接将相应地的检验结果为X1,检验结果为X3,检验结果为X4依次与检验项目A、检验项目C、检验项目D相对应,并将一一对应的检验项目与检验结果进行保存。
图1所示仅为本发明所述方法的基础实施例,在其基础上进行一定的优化和拓展,还能够得到所述方法的其他优选实例施。
如图2所示,为本发明另一实施例提供的一种医学数据识别方法的实现流程示意图。在本发明这一实施例中,医学数据识别方法包括以下操作步骤:
操作201,接收待识别图像。
操作202,提取所述待识别图像中的多个文本块,文本块包括文本内容和位置信息。
在本发明这一实施例中,首先,采用图像识别技术,从待识别图像中提取多个文本框。
OCR技术是针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并进一步识别图像中的文字,将实体文档中的文字转换成电子数据中的文本格式的过程。举例说明,OCR可以识别打印出的医学检验单或以医学检验单的图片呈现的检验单中的文字进行识别,得到对应于医学检验单的电子数据的过程。
本发明实施例中,主要针对医学研究或医学数据分析过程中用到的检验单,例如:血常规化验单、肝功能检验报告单等。识别过程中首先从待识别图像中提取多个文本框,每一文本框中可以包括一个文字或一个字符,对于检验项目的检验结果是数值的,也存在识别得到的一个文本框中包括组成一个数值的多个数字的情况。
其次,确定每一文本框中的文本内容以及每一文本框的坐标。最后,根据每一文本框中的文本内容和相应的坐标,可以确定一个文本块。举例说明,对待识别图像识别过程中提取到的一个矩形框中的文本内容为“胞”,该文本框的坐标为(30,45),则可以相应地得到一个文本块,文本块的文本内容为“胞”,位置信息为“坐标(30,45)”。
操作201和202的其他具体实现过程与图1所示实施例中操作101和102的具体实现过程相类似,这里不再赘述。
操作203,根据文本块的位置信息,确定每个文本块与相邻的文本块之间的相对位置关系,并根据相对位置关系,确定多个第一文本块集、多个第二文本块集以及第一文本块集与第二文本块集之间的对应关系。
举例说明,识别得到的文本块的位置信息以类似于操作102中的坐标的形式表示。根据文本块的位置信息可以确定检验单上位于同一行的文本块,对同一行的文本块,若检验单分为两栏,左侧一个检验项目对应一个检验结果,右侧一个检验项目对应一个检验结果,则整个检验单中的最左侧存在一列横坐标一致的文本块、整个检验单的中间同样存在一列横坐标一致的文本块,这两列文本块可以确定为多个检验项目的第一个文本块。进一步的,结合每一检验项目的第一文本块的位置信息,依次确定文本块与右侧相邻文本块的距离,在两两相邻的文本块之间的距离突然变大时,可以确定具有较大的相对距离的两个文本块中右侧的文本块为检验结果的第一个文本块。根据以上规律,并结合实际应用过程中的其他情形设定相应地识别规则,即可根据文本块的位置信息,确定每个文本块与相邻的文本块之间的相对位置关系,并根据相对位置关系,确定多个第一文本块集、多个第二文本块集以及第一文本块集与第二文本块集之间的对应关系。
操作204,根据第一文本块集中每一文本块的文本内容,确定项目名称。
在本发明这一实施例中,首先对第一文本块集的实际文本内容进行归一化处理,得到项目名称,其中,实际文本内容根据第一文本块集中每一文本块的文本内容确定。
举例说明,采用OCR对检验单识别得到的第一文本块集中的各个文本块的内容的顺序排列,即可得到项目过程的实际文本内容。这里首先确定实际文本内容,是为了接下来根据实际文本内容进行语义匹配,得到通用的项目名称。例如:对于实际文本内容为“白细胞数量”的检验项目,根据医学词表中的统一术语“白细胞计数”,将该项目名称确定为“白细胞计数”。
具体地,可以对第一文本块集的实际文本内容进行分词,得到多种分词结果,其中,实际文本内容根据第一文本块集中每一文本块的文本内容确定;根据分词结果,将实际文本内容与设定词表库匹配进行语义匹配,得到实际文本内容与设定词表库中相应词语的第一匹配度;根据第一匹配度,确定项目名称。
在对以检验单识别过程中,首先对采用OCR技术识别得到的文本块的文字内容进行归一化处理,删除明显不属于检验项名称和检验值的其他影响因子。例如检验单的题目、受检人员、检测人员等信息。由于检验名称和检验结果通常会排列比较整齐,相对位置固定,因此,明显不属于检验项名称和检验值的信息根据文本块的位置信息确定。并对归一化处理后的文本内容,采用多种NLP技术进行是识别和提取,例如:可以采用NLP常用的词法分析和句法分析技术对检验单中的检验项目和检验结果进行识别。
操作205,确定项目名称中属于指定项目列表的指定项目名称。
在本发明这一实施例中,将项目名称与指定项目列表中的预定项目名称进行轮询比对;得到项目名称与预定项目之间的第二匹配度;确定第二匹配度达到设定阈值的项目名称为指定项目名称。
举例说明,采用NLP常用的词法分析和句法分析技术对检验单中的检验项目和检验结果进行识别。首先,对组成检验项目的第一文本块集的文本内容进行分词,对分词结果进行不同权重的阈值匹配。
例如:对项目名称“嗜碱性粒细胞百分比”和“嗜碱性粒细胞计数”进行分词,分词结果为['嗜','酸性','粒细胞','计数']和['嗜','酸性','粒细胞','百分比']。根据句法分析,前三个单元组合是“名词-检验名称”,最后一个单元是“定语-检验指标类型”,并且这个“检验指标类型”在中文语义和检验单的实际场景中起决定性作用,所以为“检验指标类型”这个单元配置更高的权重。首先利用“名词-检验名称”加同义词与医学词库中的名称进行轮询匹配,得出第一匹配率,第一匹配阀值设置为0.7,舍弃第一匹配率低于0.7的词语。其次,对最后一个单元“定语-检验指标类型”进行匹配,得出第二匹配率,第二匹配阀值设置为0.9;最后再舍弃低于0.9的检验项目,最后得到准确率最高的结果。
操作206、展示指定项目名称。
在本发明这一实施例中,通过预览的方式展示指定项目名称,以使得对医学数据进行录入的用户可以确认录入内容的准确性。对于预览的具体实现方式,本发明不做具体限定。
操作207、接收对指定项目名称的反馈信息。
用户对指定项目确认后,输入确认信息,例如:可以预先配置“确认”、“返回修改”等虚拟键的设置,接收用户的反馈信息,当然也可以配置其他接收对指定项目名称的反馈信息的方式。
操作208、在反馈信息示出指定项目名称正确时,保存指定项目名称和与指定项目名称对应的项目信息。
在用户确认指定项目名称无误时,可以对指定项目名称和与指定项目名称对应的项目信息进行保存操作,以在后续的医学研究和数据分析过程中更好地利用所保存的医学数据。
以下以本发明一实施例提供的医学数据识别方法具体应用示例简单说明本发明数据识别过程。
本发明这一医学数据识别方法具体应用示例中,将该方法集成至利用OCR技术识别并录入医学数据的处理系统中。
首先,可以根据医学研究和数据分析的需要,配置需要填写的CRF表单,CRF表单中包括多个需要录入的指定检验项目。
其次,在CRF表单中上传并识别待识别的检验单图像。
接下来,系统会自动识别上传的检验单图像,将识别结果与需要填写的检验项进行匹配,具体实现过程可参考上述图1和2所示出的医学数据识别方法的操作流程。
该应用示例中直接将从检验单识别得到但是未能与CRF表单中的指定检验项目匹配的内容删除,并根据CRF表单中指定检验项目的顺序,对从检验单中识别得到的检验项目进行排序。
对于识别结束得到的识别结果,用户可以选择“确定填充”,以将识别结果填充录入至医学数据的处理系统中。用户还可以选择“重新上传”,以重新上传待识别的检验单图像,重新进行识别和数据录入。当然也可以选择“取消”,放弃识别和录入操作。对于识别结果,可以支持用户手动修改,以对OCR识别过程中具有误差的识别结果进行个别修改。由此,很大程度上提高了医学数据的识别准确度和数据整理效率。
本发明实施例医学数据识别方法、装置、计算机可读存储介质及设备,根据从待识别图像所提取的文本块的文本内容和位置信息,抽取待识别图像中所包括的项目名称,并进一步确定属于指定项目列表的指定项目名称,最终保存指定项目名称和与指定项目名称对应的项目信息。由此实现医学检验单的自动识别和数据自动保存,显著提高医学研究数据的录入效率,有效降低人力成本,显著提升医学研究收据的收集整理速度。
进一步,基于上文医学数据识别方法,本发明实施例还提供一种医学数据识别装置,如图3,该装置30包括:接收模块301,用于接收待识别图像;文本提取模块302,用于提取待识别图像中的多个文本块;项目识别模块303,用于对多个文本块的内容进行识别,得到待识别图像中的多个项目名称以及与多个项目名称对应的项目信息;项目确定模块304,用于确定项目名称中属于指定项目列表的指定项目名称;保存模块305,用于保存指定项目名称和与指定项目名称对应的项目信息。
另外在图3所示实施例的基础上,优选的,文本提取模块302包括:文本识别子模块,用于采用图像识别技术,从待识别图像中提取多个文本框;内容确定子模块,用于确定每一文本框中的文本内容;位置确定子模块,用于确定每一文本框的坐标;文本块确定子模块,用于根据文本内容和所述坐标,确定多个所述文本块。
优选地,项目识别模块303包括:相对位置确定子模块,用于根据文本块的位置信息,确定每个文本块与相邻的文本块之间的相对位置关系;对应关系确定子模块,用于根据相对位置关系,确定多个第一文本块集、多个第二文本块集以及第一文本块集与第二文本块集之间的对应关系;名称识别子模块,用于根据第一文本块集、所述第二文本块集以及所述对应关系,确定多个项目名称以及与多个所述项目名称对应的项目信息。
优选地,名称识别子模块根据第一文本块集中每一文本块的文本内容,确定项目名称,包括:对第一文本块集的实际文本内容进行归一化处理,得到项目名称,其中,实际文本内容根据第一文本块集中每一文本块的文本内容确定。
优选地,名称识别子模块根据第一文本块集中每一文本块的文本内容,确定项目名称,包括:对对所述第一文本块集进行识别,得到实际文本内容,并对实际文本内容进行分词,得到多种分词结果;根据分词结果,将实际文本内容与设定词表库匹配进行语义匹配,得到实际文本内容与设定词表库中相应词语的第一匹配度;根据第一匹配度,确定项目名称。
优选地,项目确定模块304包括:轮询子模块,用于将项目名称与指定项目列表中的预定项目名称进行轮询比对;匹配度确定子模块,用于得到项目名称与预定项目之间的第二匹配度;项目确定子模块,用于确定第二匹配度达到设定阈值的项目名称为指定项目名称。
优选地,保存模块305包括:展示子模块,用于展示指定项目名称;反馈接收子模块,用于接收对指定项目名称的反馈信息;保存子模块,用于在反馈信息示出指定项目名称正确时,保存指定项目名称和与指定项目名称对应的项目信息。
这里需要指出的是:以上对针对医学数据识别装置实施例的描述,与前述图1至2所示的方法实施例的描述是类似的,具有同前述图1至2所示的方法实施例相似的有益效果,因此不做赘述。对于本发明医学数据识别装置实施例中未披露的技术细节,请参照本发明前述图1至2所示的方法实施例的描述而理解,为节约篇幅,因此不再赘述。
图4是本发明实施例提供的一种电子设备的结构示意图。在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放执行指令。具体地,执行指令即可被执行的计算机程序。存储器可以包括内存和非易失性存储器,并向处理器提供执行指令和数据。
在一种可能实现的方式中,处理器从非易失性存储器中读取对应的执行指令到内存中然后运行,也可从其它设备上获取相应的执行指令,以在逻辑层面上形成治疗效果的确定装置。处理器执行存储器所存放的执行指令,以通过执行的执行指令实现本发明任一实施例中提供的治疗效果的确定方法。
上述如本发明图3所示实施例提供的医学数据识别装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本发明实施例还提出了一种可读介质,该可读存储介质存储有执行指令,存储的执行指令被电子设备的处理器执行时,能够使该电子设备执行本发明任一实施例中提供的医学数据识别方法,并具体用于执行如图1或图2所示的方法。
前述各个实施例中的设备可以为计算机。
本领域内的技术人员应明白,本发明的实施例可提供为方法或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或软件和硬件相结合的形式。
本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种医学数据处理识别方法,其特征在于,所述方法包括:
接收待识别图像;
提取所述待识别图像中的多个文本块;
对多个所述文本块的内容进行识别,得到所述待识别图像中的多个项目名称以及与多个所述项目名称对应的项目信息;
确定所述项目名称中属于指定项目列表的指定项目名称;
保存所述指定项目名称和与所述与指定项目名称对应的项目信息。
2.根据权利要求1所述的方法,其特征在于,所述提取所述待识别图像中的多个文本块,包括:
采用图像识别技术,从所述待识别图像中提取多个文本框;
确定每一所述文本框中的文本内容;
确定每一所述文本框的坐标;
根据文本内容和所述坐标,确定多个所述文本块。
3.根据权利要求1所述的方法,其特征在于,对所述文本块的内容进行识别,得到所述待识别图像信息中的多个项目名称以及与多个所述项目名称对应的项目信息,包括:
根据所述文本块的位置信息,确定每个所述文本块与相邻的文本块之间的相对位置关系;
根据所述相对位置关系,确定多个第一文本块集、多个第二文本块集、以及所述第一文本块集与所述第二文本块集之间的对应关系;
根据所述第一文本块集、所述第二文本块集以及所述对应关系,确定多个项目名称以及与多个所述项目名称对应的项目信息。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一文本块集、所述第二文本块集以及所述对应关系,确定多个项目名称以及与多个所述项目名称对应的项目信息,包括:
对所述第一文本块集进行识别,得到所述第一文本块集实际文本内容;
对所述实际文本内容进行归一化处理,得到所述项目名称。
5.根据权利要求3所述的方法,其特征在于,所述根据所述第一文本块集、所述第二文本块集以及所述对应关系,确定多个项目名称以及与多个所述项目名称对应的项目信息,包括:
对所述第一文本块集进行识别,得到实际文本内容;
所述实际文本内容进行分词,得到多种分词结果;
根据所述分词结果,将所述实际文本内容与设定词表库匹配进行语义匹配,得到所述实际文本内容与所述设定词表库中相应词语的第一匹配度;
根据所述第一匹配度,确定所述项目名称。
6.根据权利要求1~5任意一项所述的方法,其特征在于,所述确定所述项目名称中属于指定项目列表的指定项目名称,包括:
将所述项目名称与所述指定项目列表中的预定项目名称进行轮询比对;
得到所述项目名称与预定项目之间的第二匹配度;
确定所述第二匹配度达到第二设定阈值的项目名称为指定项目名称。
7.根据权利要求1~5所述的方法,其特征在于,所述保存所述指定项目名称和与所述与指定项目名称对应的项目信息,包括:
展示所述指定项目名称;
接收对所述指定项目名称的反馈信息;
在所述反馈信息示出所述指定项目名称正确时,保存所述指定项目名称和与所述指定项目名称对应的项目信息。
8.一种医学数据识别装置,其特征在于,所述装置包括:
接收模块,用于接收待识别图像;
文本提取模块,用于提取所述待识别图像中的多个文本块;
项目识别模块,用于对多个所述文本块的内容进行识别,得到所述待识别图像中的多个项目名称以及与多个所述项目名称对应的项目信息;
项目确定模块,用于确定所述项目名称中属于指定项目列表的指定项目名称;
保存模块,用于保存所述指定项目名称和与所述指定项目名称对应的项目信息。
9.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的医学数据识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的医学数据识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011613654.3A CN112733651B (zh) | 2020-12-30 | 2020-12-30 | 一种医学数据识别方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011613654.3A CN112733651B (zh) | 2020-12-30 | 2020-12-30 | 一种医学数据识别方法、装置、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112733651A true CN112733651A (zh) | 2021-04-30 |
CN112733651B CN112733651B (zh) | 2024-09-20 |
Family
ID=75611241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011613654.3A Active CN112733651B (zh) | 2020-12-30 | 2020-12-30 | 一种医学数据识别方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112733651B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114694151A (zh) * | 2022-03-24 | 2022-07-01 | 医渡云(北京)技术有限公司 | 检验数据的识别方法、装置、系统、存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070206884A1 (en) * | 2006-03-03 | 2007-09-06 | Masahiro Kato | Image processing apparatus, recording medium, computer data signal, and image processing method |
CN106355177A (zh) * | 2016-08-17 | 2017-01-25 | 天津德闻数据科技有限公司 | 一种医疗检验单的检验项信息自动提取方法 |
CN109670173A (zh) * | 2018-12-13 | 2019-04-23 | 平安医疗健康管理股份有限公司 | 报销数据的排查方法、识别服务端及存储介质 |
CN109857992A (zh) * | 2018-12-29 | 2019-06-07 | 医渡云(北京)技术有限公司 | 医疗数据结构化解析方法、装置、可读介质及电子设备 |
CN111931750A (zh) * | 2020-10-12 | 2020-11-13 | 杭州太美星程医药科技有限公司 | 化验单的识别方法和识别装置 |
CN111967387A (zh) * | 2020-08-17 | 2020-11-20 | 北京市商汤科技开发有限公司 | 表单识别方法、装置、设备及计算机可读存储介质 |
-
2020
- 2020-12-30 CN CN202011613654.3A patent/CN112733651B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070206884A1 (en) * | 2006-03-03 | 2007-09-06 | Masahiro Kato | Image processing apparatus, recording medium, computer data signal, and image processing method |
CN106355177A (zh) * | 2016-08-17 | 2017-01-25 | 天津德闻数据科技有限公司 | 一种医疗检验单的检验项信息自动提取方法 |
CN109670173A (zh) * | 2018-12-13 | 2019-04-23 | 平安医疗健康管理股份有限公司 | 报销数据的排查方法、识别服务端及存储介质 |
CN109857992A (zh) * | 2018-12-29 | 2019-06-07 | 医渡云(北京)技术有限公司 | 医疗数据结构化解析方法、装置、可读介质及电子设备 |
CN111967387A (zh) * | 2020-08-17 | 2020-11-20 | 北京市商汤科技开发有限公司 | 表单识别方法、装置、设备及计算机可读存储介质 |
CN111931750A (zh) * | 2020-10-12 | 2020-11-13 | 杭州太美星程医药科技有限公司 | 化验单的识别方法和识别装置 |
Non-Patent Citations (1)
Title |
---|
王杨;许闪闪;李昌;艾世成;张卫东;甄磊;孟丹;: "基于支持向量机的中文极短文本分类模型", 计算机应用研究, vol. 37, no. 02, 29 February 2020 (2020-02-29), pages 347 - 350 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114694151A (zh) * | 2022-03-24 | 2022-07-01 | 医渡云(北京)技术有限公司 | 检验数据的识别方法、装置、系统、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112733651B (zh) | 2024-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112185520B (zh) | 一种医疗病理报告图片的文本结构化处理系统和方法 | |
CN109886928B (zh) | 一种目标细胞标记方法、装置、存储介质及终端设备 | |
Nurminen | Algorithmic extraction of data in tables in PDF documents | |
CN112036295B (zh) | 票据图像处理方法、装置、存储介质及电子设备 | |
CN111797356B (zh) | 网页表格信息抽取方法及装置 | |
CN110490237B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
US9047533B2 (en) | Parsing tables by probabilistic modeling of perceptual cues | |
CN114005126A (zh) | 表格重构方法、装置、计算机设备及可读存储介质 | |
CN112418813A (zh) | 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质 | |
CN115761772A (zh) | 一种医疗化验单的结构化识别方法、系统及存储介质 | |
CN111241329A (zh) | 基于图像检索的古文字考释方法和装置 | |
CN114743012A (zh) | 一种文本识别方法及装置 | |
CN112733651A (zh) | 一种医学数据识别方法、装置、存储介质及设备 | |
CN111144445A (zh) | 印刷书刊书写格式的检错方法及系统、电子设备 | |
CN114550193A (zh) | 文档完整性检测方法、系统和电子设备 | |
CN113673294B (zh) | 文献关键信息的提取方法、装置、计算机设备和存储介质 | |
CN110956087B (zh) | 一种图片中表格的识别方法、装置、可读介质和电子设备 | |
CN115983198A (zh) | 从pdf文档中提取页眉或者页脚的方法、装置和存储介质 | |
Saitoh et al. | Document image segmentation and layout analysis | |
US20020186885A1 (en) | Verifying results of automatic image recognition | |
CN115964492A (zh) | 文本知识抽取方法、装置、电子设备和可读存储介质 | |
CN113239893B (zh) | 一种文档录入复核方法、系统、电子设备及介质 | |
CN115408995A (zh) | 一种项目电子文档的结构化解析方法及系统 | |
KR102467096B1 (ko) | 논문 메타데이터 영역 분류 모델을 학습하기 위한 데이터셋의 검수 방법 및 장치 | |
CN117291152A (zh) | 表格的提取方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |