CN111460959A - 一种单据管理的方法及相关装置 - Google Patents
一种单据管理的方法及相关装置 Download PDFInfo
- Publication number
- CN111460959A CN111460959A CN202010227373.8A CN202010227373A CN111460959A CN 111460959 A CN111460959 A CN 111460959A CN 202010227373 A CN202010227373 A CN 202010227373A CN 111460959 A CN111460959 A CN 111460959A
- Authority
- CN
- China
- Prior art keywords
- text information
- picture
- document
- information
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title description 27
- 238000000034 method Methods 0.000 claims abstract description 53
- 238000012545 processing Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims description 20
- 238000012015 optical character recognition Methods 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 11
- 238000012937 correction Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000012360 testing method Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 12
- 208000035977 Rare disease Diseases 0.000 description 3
- 238000009534 blood test Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 208000019838 Blood disease Diseases 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004042 decolorization Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 208000014951 hematologic disease Diseases 0.000 description 1
- 208000018706 hematopoietic system disease Diseases 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Character Input (AREA)
Abstract
本申请实施例公开了一种单据管理的方法及相关装置,用于实现单据的精确管理。本申请实施例方法包括:接收单据图片并保存所述单据图片至数据库,按照预设规则处理所述单据图片,分割所述单据图片以获得目标区域,识别所述目标区域内的文本信息,根据所述文本信息判断所述数据库内是否存在与所述文本信息属性相同的表格,若否,则根据所述文本信息创建与所述文本信息属性相同的表格以存储所述文本信息。其中,根据单据内包含的文本信息创建对应表格以进行存储,实现了单据的精确管理。
Description
技术领域
本申请涉及图片识别领域,尤其涉及一种单据管理的方法及相关装置。
背景技术
随着信息化的深入发展,医疗领域中对医疗档案的电子化要求也越来越高,目前仍有较多医院采用手工将化验单录入系统的模式,这样的模式不仅浪费时间,并且错误率也较高。
目前,市场上存在的利用计算机将单据录入系统的方法一般也只是将单据提取出来再简单进行存储,一方面不利于医务人员进行人工校对;另一方面数据都储存在同一个数据库内,数据量较大容易导致系统的卡顿,也不便于医院大夫以及科研人员对存量数据的导入、存储和管理。
发明内容
本申请提供了一种单据管理的方法及相关装置,用于实现单据的精确管理。
本申请实施例第一方面提供了一种单据管理的方法,包括:
接收单据图片并保存所述单据图片至数据库;
按照预设规则处理所述单据图片;
分割所述单据图片以获得目标区域;
识别所述目标区域内的文本信息;
根据所述文本信息判断所述数据库内是否存在与所述文本信息属性相同的表格;
若否,则根据所述文本信息创建与所述文本信息属性相同的表格以存储所述文本信息。
可选地,若所述数据库内存在与所述文本信息属性相同的表格,则将所述文本信息存储于与所述文本信息属性相同的表格内。
可选地,按照预设规则处理所述单据图片包括:
二值化处理,将所述单据图片修改为只包含黑色前景信息与白色背景信息的图片;
图像降噪,根据所述单据图片的噪声进行降噪;
倾斜校正,将所述单据图片调整至目标角度,所述目标角度为与识别过程相适应的角度。
可选地,所述识别目标区域内的文本信息包括:
利用光学字符识别技术获取所述目标区域内的文本信息。
可选地,判断所述数据库内是否存在与所述文本信息属性相同的表格包括:
获取所述文本信息内包含的标识信息;
判断数据库内是否存在索引信息与所述标识信息相同的表格;
若存在索引信息与所述标识信息相同的表格,则判断所述数据库内存在与所述文本信息属性相同的表格;
若不存在索引信息与所述标识信息相同的表格,则判断所述数据库内不存在与所述文本信息属性相同的表格。
可选地,保存所述单据图片至数据库包括:
为所述单据图片分配唯一标识符,并将所述单据图片与所述唯一标识符对应存储。
本申请第二方面提供了一种单据管理的系统,包括:
接收单元,用于接收单据图片并保存所述单据图片至数据库;
预处理单元,用于按照预设规则处理所述单据图片;
分割单元,用于分割所述单据图片以获得目标区域;
识别单元,用于识别所述目标区域内的文本信息;
判断单元,用于根据所述文本信息判断所述数据库内是否存在与所述文本信息属性相同的表格;
创建单元,用于若判断单元判断为否,则根据所述文本信息创建与所述文本信息属性相同的表格以存储所述文本信息。
可选地,所述系统还包括:
存储单元,用于若所述判断单元判断为是,则将所述文本信息存储于与所述文本信息属性相同的表格。
本申请实施例第三方面提供了一种计算机装置,包括:
处理器、存储器、输入输出设备以及总线;
所述处理器、存储器、输入输出设备分别与所述总线相连;
所述处理器被配置为执行以下程序步骤:
接收单据图片并保存所述单据图片至数据库;
按照预设规则处理所述单据图片;
分割所述单据图片以获得目标区域;
识别所述目标区域内的文本信息;
根据所述文本信息判断所述数据库内是否存在与所述文本信息属性相同的表格;
若否,则根据所述文本信息创建与所述文本信息属性相同的表格以存储所述文本信息。
可选地,若所述数据库内存在与所述文本信息属性相同的表格,则将所述文本信息存储于与所述文本信息属性相同的表格内。
可选地,按照预设规则处理所述单据图片包括:
二值化处理,将所述单据图片修改为只包含黑色前景信息与白色背景信息的图片;
图像降噪,根据所述单据图片的噪声进行降噪;
倾斜校正,将所述单据图片调整至目标角度,所述目标角度为与识别过程相适应的角度。
可选地,所述识别目标区域内的文本信息包括:
利用光学字符识别技术获取所述目标区域内的文本信息。
可选地,判断所述数据库内是否存在与所述文本信息属性相同的表格包括:
获取所述文本信息内包含的标识信息;
判断数据库内是否存在索引信息与所述标识信息相同的表格;
若存在索引信息与所述标识信息相同的表格,则判断所述数据库内存在与所述文本信息属性相同的表格;
若不存在索引信息与所述标识信息相同的表格,则判断所述数据库内不存在与所述文本信息属性相同的表格。
可选地,保存所述单据图片至数据库包括:
为所述单据图片分配唯一标识符,并将所述单据图片与所述唯一标识符对应存储。
本申请实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如前述实施例所述方法的步骤。
从以上技术方案可以看出,本申请实施例具有以下优点:接收单据图片并保存所述单据图片至数据库,按照预设规则处理所述单据图片,分割所述单据图片以获得目标区域,识别所述目标区域内的文本信息,根据所述文本信息判断所述数据库内是否存在与所述文本信息属性相同的表格,若否,则根据所述文本信息创建与所述文本信息属性相同的表格以存储所述文本信息。其中,根据单据内包含的文本信息创建对应表格以进行存储,实现了单据的精确管理。
附图说明
图1为本申请实施例中一种单据管理的方法实施例的一个示意图;
图2为本申请实施例中一种单据管理的方法实施例的另一个示意图;
图3为本申请实施例中一种单据管理的方法实施例的另一个示意图;
图4为本申请实施例中一种单据管理的方法实施例的另一个示意图;
图5为本申请实施例中一种单据管理的方法实施例的另一个示意图;
图6为本申请实施例中一种单据管理的方法实施例的另一个示意图;
图7为本申请实施例中一种单据管理的系统实施例的一个示意图;
图8为本申请实施例中一种计算机装置的一个示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
OCR(Optical Character Recognition,光学字符识别)指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。随着信息技术的发展和人们的需求,当前市场上OCR(Optical Character Recognition,光学字符识别)技术广泛的应用于保险、航空、金融等各个领域,极大地减少了人工成本和提高了工作效率。然而国内目前OCR在医疗领域的应用仍然尚未成熟,尤其是在化验单的智能识别领域,为解决这一问题,本申请提出了一种单据管理的方法及相关装置,用于实现单据的精确管理。
为了便于理解,下面对本申请实施例中的具体流程进行描述,请参阅图1,本申请实施例中一种单据管理的方法的一个实施例包括:
101、接收单据图片并保存单据图片至数据库;
本实施例中,接收单据图片,可以在化验单结果出来之后,由医院自有平台直接将该化验单图片传输至本申请表示的单据处理系统。
具体地,单据处理系统存在一个固定区域用于接收单据图片,接收到单据图片后,会根据系统的设定而决定是否对接收到的单据进行显示,比如当使用者急需当前化验单结果时,系统可以直接对接收到的单据图片进行显示,以便使用者获得其中信息,并且在接收到单据图片之后,将该单据图片保存至本地的数据库,以便于后期如果对该单据图片进行校对工作。
102、按照预设规则处理单据图片;
本实施例中,为了获取该单据图片内的信息,会对所接收到的单据图片进行预处理。
具体地,由于所接收到的单据图片来源不一定相同,可能会导致图片本身质量的不同,例如通过扫描所获得的单据图片的清晰度可能就会小于由网络直接传输的单据图片,对于单据图片的预处理,主要为利用光学字符识别技术将单据图片进行处理,该处理过程包括对图片的彩色消除、图像降噪以及倾斜校正,以使得单据图片中的信息更容易获取。
103、分割单据图片以获得目标区域;
本实施例中,为了实现对单据的精确管理,会从多角度对系统内保存的单据图片进行分割。
具体地,由于化验单的格式一般都较为统一,比如都包含临床化验数据信息和受试者数据信息,而这两种信息在不同的化验单中位置的体现都是一致的,实例性的,如果一家医院的化验单的左上角是受试者姓名、性别以及年龄等信息,那么当系统就会对经过预处理的图片左上角与其他区域进行分割,以获得单据图片中的受试者姓名、性别以及年龄等信息。
由于在不同医院的化验单格式可能不同,所以不同的区域所代表的信息可能也会不一致,对于不同目标区域所代表的信息,在具体的使用过程中,根据所适用的化验单据的格式而进行适应性的修改,本申请在此则不做限定。
104、识别目标区域内的文本信息;
本实施例中,为了实现对单据的精确归类,会从分割后的单据图片中提取文本信息。
具体地,经过分割后,原本的单据图片会变成多个部分图片,每个部分图片都包含一定的信息,为提取图片中的文本信息,本申请采用深度学习算法实现对图片中文本信息的提取,可以从经过分后后的图片提取出临床化验数据信息和受试者数据信息,其中临床化验数据信息包括但不仅限于受试者化验项目编码、受试者化验项目名称、受试者化验结果和单位以及该项临床数据的参考范围,受试者数据信息包括但不仅限于姓名、性别、病历号、科室、主治医师、手机号、邮箱、身份证号、出生日期、籍贯、现病史等信息,由于上述信息都可以从单据图片中获取,所以本申请只需对包含有效信息的区域进行识别即可,其中身份证号、病史、手机号、邮箱可能不会直接体现在单据图片上,但是由于每个单据都包含对应的识别码,该识别码可以是二维码或条形码等,从该识别码中可以获取到未体现在单据图片上的信息。
105、根据文本信息判断数据库内是否存在与文本信息属性相同的表格;
本实施例中,为了实现对单据的精确存储,可以根据从单据图片中所提取到的信息判断当前数据库内是否存在合适系统所正在识别的单据存储的表格,值得一提的是,对于同一张单据可能会存在多种存储方式,即一张单据的信息可能不止存储在一个表格内。
实例性地:2020年2月2日某医院检验科根据皮肤科的检验需求对某35周岁男子进行血液化验,并产生一张化验单,那么该化验单的信息便可能会存储于皮肤科的检验需求表内,但该表格用于存储皮肤科的所有化验单;可以存储于皮肤科的男性检验需求表内,该表格用于存储皮肤科的所有男性化验单;可以存储于2020年2月2日的检验科统计表,该表格用于统计2020年2月2日检验科所有的化验单;可以存储于医院血液化验需求表内,该表格用于储存医院内所有做过的血液化验单;可以存储于皮肤科30周岁-40周岁的受试者统计表内,该表格可以用于日后作为临床数据为某科研项目提供30周岁-40周岁的血液病项目的研究等等。
在具体地使用过程中是不仅限于上述例子的,本实施例所表达的是根据目标区域内的具有实际意义的信息,例如性别、科室、化验项目等等,对表格进行不同维度的分类,以便后续使用过程中对该单据图片信息进行查找,或者可以根据某一检测项目找出历史相同项目的治疗历史,提供借鉴经验。
106、若否,则根据文本信息创建与文本信息属性相同的表格以存储文本信息。
本实施例中,如果对于某单据图片所分割出的某目标区域,数据库内并没有属性相同的表格供其存储,则根据该目标区域的属性信息创建新的表格。
实例性地,某医院收治一位罕见病病人,在此之前该医院没有诊治该罕见病的历史,那么在对包含疾病信息的目标区域进行判断时,则可以判断当前数据库内不存在与该文本信息属性相同的表格,并根据该罕见病的信息创建一个新的表格,以供日后医院收治相同病症数据的存储。
本实施例中,接收单据图片并保存单据图片至数据库,按照预设规则处理单据图片,分割单据图片以获得目标区域,识别目标区域内的文本信息,根据文本信息判断数据库内是否存在与文本信息属性相同的表格,若否,则根据文本信息创建与文本信息属性相同的表格以存储文本信息。其中,根据单据内包含的文本信息创建对应表格以进行存储,实现了单据的精确管理。
本申请实施例中,基于图1实施例,对系统中存在与单据图片内文本信息属性相同的表格时后续的存储情况进行进一步的介绍,具体请参阅图2,一种单据管理的方法的另一个实施例包括:
201、若数据库内存在与文本信息属性相同的表格,则将文本信息存储于与文本信息属性相同的表格内。
本实施例中,为实现对单据的分类存储,会将文本信息存储于对应的表格内。
具体地,若当前数据库内存在与文本信息属性相同的表格,则会将文本信息储存在该表格内,即将单据图片分割成多个目标区域后,数据库内存在以目标区域所包含的文本信息为索引的表格。
实例性地,2020年2月2日某医院检验科根据皮肤科的检验需求对某35周岁男子进行血液化验,并产生一张化验单,系统在对该化验单的科室信息区域进行识别时,则会判断系统内是否存在用于存储皮肤科化验单的表格,若存在,则将该化验单的文本信息对应存储在该表格内,值得一提的是,这里的存储并不只存储目标区域内的信息,本申请所提取的目标区域是为了对单据进行分类从而实现对单据的精确管理以及存储,虽然根据将单据图片进行分割识别,但当根据某个目标区域内的文本信息判断出数据库内存在与之相匹配的表格时,会将该单据所包含的全部信息存储于该表格之中,该表格以经过判断的目标区域所包含的信息作为索引,其他目标区域所包含的信息则直接填入表格即可。
本申请中,基于图1实施例,对预处理图片的过程进行进一步的介绍,具体请参阅图3,本申请中一种单据管理的方法的另一个示意图包括:
301、二值化处理,将所述单据图片修改为只包含黑色前景信息与白色背景信息的图片;
具体地,为了提升识别处理的效率和精确度,通过二值化处理,使信息量巨大的彩色图像变成只包含黑色的前景信息和白色的背景信息,使其易于识别图片中所包含的文本信息。
302、图像降噪,根据所述单据图片的噪声进行降噪;
具体地,依据噪声的特征进行降噪,降低待识别图像品质对字符识别的影响,提升识别处理的准确度。
303、倾斜校正,将所述单据图片调整至目标角度,所述目标角度为与识别过程相适应的角度。
具体地,对待处理图像进行方向检验和校正图像方向,处理在图片获取过程中所可能会产生的图片倾斜。
本申请中,基于图1实施例,对获取目标区域内的文本信息进行进一步的介绍,具体请参阅图4,本申请中一种单据管理的方法的另一个示意图包括:
401、利用光学字符识别技术获取目标区域内的文本信息。
本申请中,会利用光学字符识别技术获取目标区域内的文本信息,光学字符识别技术指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。
具体地,由于化验单属于医学领域,所包含的内容领域单一,在使用光学字符识别技术时会提高识别率,字符识别技术大多数是采用通用字典内的全部汉字进行训练,而本申请这种较特殊的使用情况,则是采用医学上常用语以及会通常出现的汉字进行训练。
本申请中,基于图1所述实施例,对数据库内是否存在与所述文本信息属性相同的表格进行进一步的介绍,具体请参阅图5,一种单据管理的方法的另一个示意图包括:
501、获取文本信息内包含的标识信息;
具体地,当单据图片被分割成多个目标区域后,会识别目标区域内的文本信息,但不是所有目标区域内的所有文本信息都适用于作为标识信息,实例性地,性别、单据日期、科室、病症名称以及主治医师都可以作为标识信息以用于检索是否存在相适应的表格,但是病史信息由于具有高度的差异化,就不具有作为标识信息的价值。
502、判断数据库内是否存在索引信息与标识信息相同的表格;
具体地,获取到文本信息内所包含的标识信息之后,会根据数据库内是否存在索引信息与标识信息相同的表格,因为数据库内不同表格的创建就是根据单据图片内不同目标区域所包含的不同的标识信息,只是在创建某一个特定的表格时,将其创建时所引用的标识信息直接转化为该表格的索引信息即可,并且可以根据该索引信息调出该表格内的所有数据。
503、判断数据库内存在与文本信息属性相同的表格;
具体地,若当数据库内存在表格的索引信息与文本信息内标识信息相同的情况时,则判断数据库内存在与文本信息属性相同的表格,并将包含该文本信息的单据图片内的所有信息对应储存至该表格内即可。
504、判断数据库内不存在与文本信息属性相同的表格。
具体地,若当数据库内怒存在表格的索引信息与文本信息内标识信息相同的情况时,则判断数据库内不存在与文本信息属性相同的表格,此时则会根据文本信息所包含的标识信息进行新表格的创建,并且以该标识信息作为该新表格的索引信息,并直接将该单据图片内的所有文本信息对应存储在表格内,即新创建的表格虽然以文本信息中的一小部分作为索引创建,但新创建的表格仍然存在对应结构用于存储其余信息。
本申请中,基于图1所述实施例,对单据图片的保存进行进一步的介绍,具体请参阅图6,一种单据管理的方法的另一个示意图包括:
601、为单据图片分配唯一标识符,并将单据图片与唯一标识符对应存储。
本实施例中,为防止单据信息录入系统错误,出现需要单据图片进行校对的情况,本申请会将单据图片存储至数据库。
具体地,为将单据图片储存至数据库后方便查找,会为该单据图片分配唯一标识符,基于目前的医院系统,一般可以选择采用身份证号或者医院卡的卡号作为该单据图片的标识符,以便于日后从数据库中提取该单据图片。
上面对本申请实施例中的方法部分进行了介绍,下面从虚拟装置的角度对本申请实施例进行说明。
接收单元701,用于接收单据图片并保存所述单据图片至数据库;
预处理单元702,用于按照预设规则处理所述单据图片;
分割单元703,用于分割所述单据图片以获得目标区域;
识别单元704,用于识别所述目标区域内的文本信息;
判断单元705,用于根据所述文本信息判断所述数据库内是否存在与所述文本信息属性相同的表格;
创建单元706,用于若判断单元判断为否,则根据所述文本信息创建与所述文本信息属性相同的表格以存储所述文本信息。
作为一个优选实施例,所述系统还包括:
存储单元707,用于若所述判断单元判断为是,则将所述文本信息存储于与所述文本信息属性相同的表格。
本实施例中,接收单元701,用于接收单据图片并保存所述单据图片至数据库,预处理单元702,用于按照预设规则处理所述单据图片,分割单元703,用于分割所述单据图片以获得目标区域,识别单元704,用于识别所述目标区域内的文本信息,判断单元705,用于根据所述文本信息判断所述数据库内是否存在与所述文本信息属性相同的表格,创建单元706,用于若判断单元判断为否,则根据所述文本信息创建与所述文本信息属性相同的表格以存储所述文本信息。其中,根据单据内包含的文本信息创建对应表格以进行存储,实现了单据的精确管理。
该计算机装置800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)801(例如,一个或一个以上处理器)和存储器805,该存储器805中存储有一个或一个以上的应用程序或数据。
其中,存储器805可以是易失性存储或持久存储。存储在存储器805的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器801可以设置为与存储器805通信,在智能终端800上执行存储器805中的一系列指令操作。
该计算机装置800还可以包括一个或一个以上电源802,一个或一个以上有线或无线网络接口803,一个或一个以上输入输出接口804,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
所述处理器被配置为执行以下程序步骤:
接收单据图片并保存所述单据图片至数据库;
按照预设规则处理所述单据图片;
分割所述单据图片以获得目标区域;
识别所述目标区域内的文本信息;
根据所述文本信息判断所述数据库内是否存在与所述文本信息属性相同的表格;
若否,则根据所述文本信息创建与所述文本信息属性相同的表格以存储所述文本信息。
可选地,若所述数据库内存在与所述文本信息属性相同的表格,则将所述文本信息存储于与所述文本信息属性相同的表格内。
可选地,按照预设规则处理所述单据图片包括:
二值化处理,将所述单据图片修改为只包含黑色前景信息与白色背景信息的图片;
图像降噪,根据所述单据图片的噪声进行降噪;
倾斜校正,将所述单据图片调整至目标角度,所述目标角度为与识别过程相适应的角度。
可选地,所述识别目标区域内的文本信息包括:
利用光学字符识别技术获取所述目标区域内的文本信息。
可选地,判断所述数据库内是否存在与所述文本信息属性相同的表格包括:
获取所述文本信息内包含的标识信息;
判断数据库内是否存在索引信息与所述标识信息相同的表格;
若存在索引信息与所述标识信息相同的表格,则判断所述数据库内存在与所述文本信息属性相同的表格;
若不存在索引信息与所述标识信息相同的表格,则判断所述数据库内不存在与所述文本信息属性相同的表格。
可选地,保存所述单据图片至数据库包括:
为所述单据图片分配唯一标识符,并将所述单据图片与所述唯一标识符对应存储。
可以理解的是,在本申请的各种实施例中,上述各步骤的序号的大小并不意味着执行顺序的先后,各步骤的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种单据管理的方法,其特征在于,包括:
接收单据图片并保存所述单据图片至数据库;
按照预设规则处理所述单据图片;
分割所述单据图片以获得目标区域;
识别所述目标区域内的文本信息;
根据所述文本信息判断所述数据库内是否存在与所述文本信息属性相同的表格;
若否,则根据所述文本信息创建与所述文本信息属性相同的表格以存储所述文本信息。
2.根据权利要求1所述的方法,其特征在于,若所述数据库内存在与所述文本信息属性相同的表格,则将所述文本信息存储于与所述文本信息属性相同的表格内。
3.根据权利要求1所述的方法,其特征在于,按照预设规则处理所述单据图片包括:
二值化处理,将所述单据图片修改为只包含黑色前景信息与白色背景信息的图片;
图像降噪,根据所述单据图片的噪声进行降噪;
倾斜校正,将所述单据图片调整至目标角度,所述目标角度为与识别过程相适应的角度。
4.根据权利要求1所述的方法,其特征在于,所述识别目标区域内的文本信息包括:
利用光学字符识别技术获取所述目标区域内的文本信息。
5.根据权利要求1所述的方法,其特征在于,判断所述数据库内是否存在与所述文本信息属性相同的表格包括:
获取所述文本信息内包含的标识信息;
判断数据库内是否存在索引信息与所述标识信息相同的表格;
若存在索引信息与所述标识信息相同的表格,则判断所述数据库内存在与所述文本信息属性相同的表格;
若不存在索引信息与所述标识信息相同的表格,则判断所述数据库内不存在与所述文本信息属性相同的表格。
6.根据权利要求1所述的方法,其特征在于,保存所述单据图片至数据库包括:
为所述单据图片分配唯一标识符,并将所述单据图片与所述唯一标识符对应存储。
7.一种单据管理的系统,其特征在于,包括:
接收单元,用于接收单据图片并保存所述单据图片至数据库;
预处理单元,用于按照预设规则处理所述单据图片;
分割单元,用于分割所述单据图片以获得目标区域;
识别单元,用于识别所述目标区域内的文本信息;
判断单元,用于根据所述文本信息判断所述数据库内是否存在与所述文本信息属性相同的表格;
创建单元,用于若判断单元判断为否,则根据所述文本信息创建与所述文本信息属性相同的表格以存储所述文本信息。
8.一种单据管理的系统,其特征在于,所述系统还包括:
存储单元,用于若所述判断单元判断为是,则将所述文本信息存储于与所述文本信息属性相同的表格。
9.一种计算机装置,其特征在于,包括:
处理器、存储器、输入输出设备以及总线;
所述处理器、存储器、输入输出设备分别与所述总线相连;
所述处理器用于执行如权利要求1至6任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至6中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010227373.8A CN111460959A (zh) | 2020-03-27 | 2020-03-27 | 一种单据管理的方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010227373.8A CN111460959A (zh) | 2020-03-27 | 2020-03-27 | 一种单据管理的方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111460959A true CN111460959A (zh) | 2020-07-28 |
Family
ID=71680514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010227373.8A Pending CN111460959A (zh) | 2020-03-27 | 2020-03-27 | 一种单据管理的方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460959A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364790A (zh) * | 2020-11-16 | 2021-02-12 | 中国民航大学 | 基于卷积神经网络的机场工作单信息识别方法及系统 |
CN113591772A (zh) * | 2021-08-10 | 2021-11-02 | 上海杉互健康科技有限公司 | 医疗信息结构化识别录入的方法、系统、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106557585A (zh) * | 2016-11-29 | 2017-04-05 | 盐城工学院 | 一种信息自动入库方法及装置 |
CN109460758A (zh) * | 2018-11-23 | 2019-03-12 | 四川工大创兴大数据有限公司 | 一种自动智慧粮库单据识别方法及其系统 |
CN109522816A (zh) * | 2018-10-26 | 2019-03-26 | 北京慧流科技有限公司 | 表格识别方法及装置、计算机存储介质 |
CN109815958A (zh) * | 2019-02-01 | 2019-05-28 | 杭州睿琪软件有限公司 | 一种化验单识别方法、装置、电子设备和存储介质 |
CN110674244A (zh) * | 2019-08-20 | 2020-01-10 | 南京医渡云医学技术有限公司 | 一种医疗文本的结构化处理方法及装置 |
CN110796031A (zh) * | 2019-10-11 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于人工智能的表格识别方法、装置及电子设备 |
CN110888926A (zh) * | 2019-10-22 | 2020-03-17 | 北京百度网讯科技有限公司 | 医疗文本结构化的方法以及装置 |
-
2020
- 2020-03-27 CN CN202010227373.8A patent/CN111460959A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106557585A (zh) * | 2016-11-29 | 2017-04-05 | 盐城工学院 | 一种信息自动入库方法及装置 |
CN109522816A (zh) * | 2018-10-26 | 2019-03-26 | 北京慧流科技有限公司 | 表格识别方法及装置、计算机存储介质 |
CN109460758A (zh) * | 2018-11-23 | 2019-03-12 | 四川工大创兴大数据有限公司 | 一种自动智慧粮库单据识别方法及其系统 |
CN109815958A (zh) * | 2019-02-01 | 2019-05-28 | 杭州睿琪软件有限公司 | 一种化验单识别方法、装置、电子设备和存储介质 |
CN110674244A (zh) * | 2019-08-20 | 2020-01-10 | 南京医渡云医学技术有限公司 | 一种医疗文本的结构化处理方法及装置 |
CN110796031A (zh) * | 2019-10-11 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 基于人工智能的表格识别方法、装置及电子设备 |
CN110888926A (zh) * | 2019-10-22 | 2020-03-17 | 北京百度网讯科技有限公司 | 医疗文本结构化的方法以及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364790A (zh) * | 2020-11-16 | 2021-02-12 | 中国民航大学 | 基于卷积神经网络的机场工作单信息识别方法及系统 |
CN112364790B (zh) * | 2020-11-16 | 2022-10-25 | 中国民航大学 | 基于卷积神经网络的机场工作单信息识别方法及系统 |
CN113591772A (zh) * | 2021-08-10 | 2021-11-02 | 上海杉互健康科技有限公司 | 医疗信息结构化识别录入的方法、系统、设备及存储介质 |
CN113591772B (zh) * | 2021-08-10 | 2024-01-19 | 上海杉互健康科技有限公司 | 医疗信息结构化识别录入的方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Johnson et al. | MIMIC-CXR-JPG, a large publicly available database of labeled chest radiographs | |
US8194960B2 (en) | Method and apparatus for correcting results of region recognition, and recording medium having a program for correcting results of region recognition recorded therein | |
US9122955B2 (en) | Method and system of classifying medical images | |
CN108463814A (zh) | 一种医学图像标注方法及系统 | |
US20090313194A1 (en) | Methods and apparatus for automated image classification | |
CN110060750B (zh) | 医疗数据推送方法、系统、计算机设备及可读存储介质 | |
CN110246572B (zh) | 一种基于词向量的医疗分诊方法及系统 | |
JP2014505950A (ja) | 撮像プロトコルの更新及び/又はリコメンダ | |
US20200013491A1 (en) | Interoperable Record Matching Process | |
CN110580942A (zh) | 一种新型体检报告生成方法、装置、介质及终端设备 | |
CN111986744B (zh) | 医疗机构的患者界面生成方法、装置、电子设备及介质 | |
CN111444795A (zh) | 票据数据识别方法、电子设备、存储介质及装置 | |
CN111460959A (zh) | 一种单据管理的方法及相关装置 | |
CN111986182A (zh) | 辅助诊断方法、系统、电子设备及存储介质 | |
CN111352987A (zh) | 一种电子病历结构化方法、系统及相关设备 | |
CN112420176A (zh) | 基于结构化信息库的分级导诊系统 | |
WO2023029510A1 (zh) | 基于人工智能的远程问诊方法、装置、设备及介质 | |
CN110752027B (zh) | 电子病历数据推送方法、装置、计算机设备和存储介质 | |
Li et al. | Automated measurement of pressure injury through image processing | |
CN110706121B (zh) | 确定医保欺诈结果的方法、装置、电子设备及存储介质 | |
CN113642562A (zh) | 基于图像识别的数据解读方法、装置、设备及存储介质 | |
CN112364857B (zh) | 基于数值抽取的图像识别方法、装置及存储介质 | |
CN111477289A (zh) | 检测报告的存储和读取方法及装置 | |
CN116825269A (zh) | 体检报告的处理方法、装置、电子设备和可读存储介质 | |
CN109119131B (zh) | 基于医学检验专家智库平台的体检方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200728 |