CN107273883A - 决策树模型训练方法、确定ocr结果中数据属性方法及装置 - Google Patents
决策树模型训练方法、确定ocr结果中数据属性方法及装置 Download PDFInfo
- Publication number
- CN107273883A CN107273883A CN201710305571.XA CN201710305571A CN107273883A CN 107273883 A CN107273883 A CN 107273883A CN 201710305571 A CN201710305571 A CN 201710305571A CN 107273883 A CN107273883 A CN 107273883A
- Authority
- CN
- China
- Prior art keywords
- data
- recognition results
- decision
- ocr recognition
- ocr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种决策树模型训练方法、确定OCR结果中数据属性方法及装置,其中决策树模型训练方法包括:获取样本医学资料图片,并对样本医学资料图片进行OCR识别以生成第一OCR识别结果,第一OCR识别结果为二维字符串数组,二维字符串数组中的每列数据用于指示属于同一个属性列的数据;提取第一OCR识别结果中的各个数据的第一特征信息;获取与第一OCR识别结果中的各个数据对应的第一标注数据,第一标注数据用于指示各个数据所属的属性;根据第一特征信息和第一标注数据进行训练以生成用于确定OCR识别结果中数据属性的决策树模型。该方法实现了对识别结果中数据属性的自动标注的目的,有效降低了待识别图片识别过程中的消费成本,提高了识别效率。
Description
技术领域
本发明涉及医疗领域,尤其涉及一种用于确定OCR识别结果中数据属性的决策树模型的训练方法和装置、以及一种确定OCR识别结果中数据属性的方法和装置。
背景技术
目前,可通过光学字符识别(Optical Character Recognition,OCR)算法将图片中的文本识别出来。其中,光学字符识别(Optical Character Recognition,OCR)是指通过图像处理和模式识别技术对图片中的光学字符进行识别,并将光学字符翻译成计算机文字的过程。
相关技术中,通过光学字符识别算法对待识别的医学资料图片进行识别之后,可将识别之后的结果提供至用户,其中,OCR算法对于医学资料图片的识别结果是一个二维的字符串数组。但存在的问题是,通过光学字符识别算法识别待识别的医学资料图片之后,需要人工参与对识别结果进行进一步地标注操作才能确定该识别结果数组中每列数据的属性,从而使得整个识别过程耗时耗力,且效率低。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种用于确定OCR识别结果中数据属性的决策树模型的训练方法,该方法通过训练生成决策树模型,实现了对识别结果中数据属性的自动标注的目的,有效降低了待识别图片识别过程中的消费成本,提高了识别效率。
本发明的第二个目的在于提出一种确定OCR识别结果中数据属性的方法。
本发明的第三个目的在于提出一种用于确定OCR识别结果中数据属性的决策树模型的训练装置。
本发明的第四个目的在于提出一种确定OCR识别结果中数据属性的装置。
为达上述目的,本发明第一方面实施例提出了一种用于确定OCR识别结果中数据属性的决策树模型的训练方法,包括:获取样本医学资料图片,并对所述样本医学资料图片进行OCR识别以生成第一OCR识别结果,所述第一OCR识别结果为二维字符串数组,所述二维字符串数组中的每列数据用于指示属于同一个属性列的数据;提取所述第一OCR识别结果中的各个数据的第一特征信息;获取与所述第一OCR识别结果中的各个数据对应的第一标注数据,所述第一标注数据用于指示所述各个数据所属的属性;根据所述第一特征信息和所述第一标注数据进行训练以生成所述用于确定OCR识别结果中数据属性的决策树模型。
本发明实施例的用于确定OCR识别结果中数据属性的决策树模型的训练方法,通过对获取的样本医学资料图片进行OCR识别生成第一OCR识别结果,并提取第一OCR识别结果中各个数据的第一特征信息,获取与第一OCR识别结果中各个数据对应的第一标注数据,并根据第一特征信息和第一标注数据进行训练以生成用于确定OCR识别结果中数据属性的决策树模型。从而通过生成的决策树模型实现了对识别结果中数据属性的自动标注的目的,有效降低了待识别图片识别过程中的消费成本,提高了识别效率。
为达上述目的,本发明第二方面实施例提出了一种确定OCR识别结果中数据属性的方法,包括:获取待处理医学资料图片的第三OCR识别结果;提取所述第三OCR识别结果中的各个数据的第三特征信息;根据决策树模型对所述第三特征信息进行预测以确定所述第三OCR识别结果中的各个数据的属性,其中,所述决策树模型是由所述的用于确定OCR识别结果中数据属性的决策树模型的训练方法生成的。
本发明实施例的确定OCR识别结果中数据属性的方法,首先获取待处理医学资料图片的第三OCR识别结果,其次提取第三OCR识别结果中的各个数据的第三特征信息,最后根据决策树模型对第三特征进行预测以确定第三OCR识别结果中的各个数据的属性。由此,通过生成的决策树模型对待处理图片进行标注,从而避免了人工进行数据属性标注的情况出现,有效降低了待识别图片识别过程中的消费成本,提高了识别效率。
为达上述目的,本发明第三方面实施例提出了一种用于确定OCR识别结果中数据属性的决策树模型的训练装置,包括:第一获取模块,用于获取样本医学资料图片;OCR识别模块,用于对所述样本医学资料图片进行OCR识别以生成第一OCR识别结果,所述第一OCR识别结果为二维字符串数组,所述二维字符串数组中的每列数据用于指示属于同一个属性列的数据;第一提取模块,用于提取所述第一OCR识别结果中的各个数据的第一特征信息;第二获取模块,用于获取与所述第一OCR识别结果中的各个数据对应的第一标注数据,所述第一标注数据用于指示所述各个数据所属的属性;训练模块,用于根据所述第一特征信息和所述第一标注数据进行训练以生成所述用于确定OCR识别结果中数据属性的决策树模型。
本发明实施例的用于确定OCR识别结果中数据属性的决策树模型的训练装置,通过OCR识别模块对第一获取模块获取的样本医学资料图片进行OCR识别生成第一OCR识别结果,并通过第一提取模块提取第一OCR识别结果中各个数据的第一特征信息,以及第二获取模块获取与第一OCR识别结果中各个数据对应的第一标注数据,并通过训练模块根据第一特征信息和第一标注数据进行训练以生成用于确定OCR识别结果中数据属性的决策树模型。从而通过生成的决策树模型实现了对识别结果中数据属性的自动标注的目的,有效降低了待识别图片识别过程中的消费成本,提高了识别效率。
为达上述目的,本发明第四方面实施例提出了一种确定OCR识别结果中数据属性的装置,包括:获取模块,用于获取待处理医学资料图片的第三OCR识别结果;提取模块,用于提取所述第三OCR识别结果中的各个数据的第三特征信息;确定模块,用于根据决策树模型对所述第三特征信息进行预测以确定所述第三OCR识别结果中的各个数据的属性,其中,所述决策树模型是由所述的用于确定OCR识别结果中数据属性的决策树模型的训练装置生成的。
本发明实施例的确定OCR识别结果中数据属性的装置,首先通过获取模块获取待处理医学资料图片的第三OCR识别结果,其次根据提取模块提取第三OCR识别结果中的各个数据的第三特征信息,最后通过确定模块根据决策树模型对第三特征进行预测以确定第三OCR识别结果中的各个数据的属性。由此,通过生成的决策树模型对待处理图片进行标注,从而避免了人工进行数据属性标注的情况出现,有效降低了待识别图片识别过程中的消费成本,提高了识别效率。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一个实施例的用于确定OCR识别结果中数据属性的决策树模型的训练方法的流程图;
图2为本发明另一个实施例的用于确定OCR识别结果中数据属性的决策树模型的训练方法的流程图;
图3为本发明一个实施例的确定OCR识别结果中数据属性的方法的流程图;
图4为本发明一个实施例的用于确定OCR识别结果中数据属性的决策树模型的训练装置的结构示意图;
图5为本发明另一个实施例的用于确定OCR识别结果中数据属性的决策树模型的训练装置的结构示意图;
图6为本发明一个实施例的确定OCR识别结果中数据属性的装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述根据本发明实施例的用于确定OCR识别结果中数据属性的决策树模型训练方法、确定OCR识别结果中数据属性的方法及装置。
图1为本发明一个实施例的用于确定OCR识别结果中数据属性的决策树模型的训练方法的流程图。
如图1所示,根据本发明实施例的用于确定OCR识别结果中数据属性的决策树模型的训练方法,包括以下步骤:
S101,获取样本医学资料图片,并对样本医学资料图片进行OCR识别以生成第一OCR识别结果,第一OCR识别结果为二维字符串数组,二维字符串数组中的每列数据用于指示属于同一个属性列的数据。
具体地,在本实施例中,获取样本医学资料图片的实现方式可以是通过线上系统选取,其中,获取的样本医学资料图片数目可以为1000张,也可以为2000张,在此不作具体限制。
其中,在本实施例中,样本医学资料图片为样本健康体检报告图片。可以理解,样本健康体检报告图片中的文本信息多为表格文本,每个表格中的每列数据属于同一个属性。为此,该样本健康体检报告图片的OCR识别结果为一个二维的字符串数组,数组的每一列都是代表同一个属性列的数据。
进一步地,在获取到样本医学资料图片之后可通过OCR(Optical CharacterRecognition,光学字符识别)算法对该样本医学资料图片进行识别操作,以生成第一OCR识别结果。其中,通过OCR算法识别样本医学资料图片具体可包括以下步骤:
步骤一,对样本医学资料图片进行预处理;
其中,预处理可包括二值化处理、去噪处理、以及倾斜校正等处理。
步骤二,预处理之后,对样本医学资料图片的版面进行分析;
步骤三,字符切割;
步骤四,字符切割完毕之后,执行字符识别操作;
步骤五,版面恢复;
步骤六,后处理、校验。
进而,根据生成的第一OCR识别结果进行进一步地的提取操作。
S102,提取第一OCR识别结果中的各个数据的第一特征信息。
其中,在本实施例中,当样本医学资料图片为样本健康体检报告图片时,则提取的第一特征信息至少可包括:是否包含中文、是否包含英文、是否包含字母、是否包含标点、字符串长度、与词库中检测项匹配最大相似度、是否包含单位关键词、是否包含参考范围关键词等。
S103,获取与第一OCR识别结果中的各个数据对应的第一标注数据,第一标注数据用于指示各个数据所属的属性。
其中,第一标注数据是由人工对样本医学资料图片的OCR识别结果进行数据标注。
对样本医学资料图片的OCR识别结果进行的数据标注,主要是用于指示各个数据所属的属性。其中,在本实施例中,当样本医学资料图片为样本健康体检报告图片时,则属性至少可包括:检测项名称、检测项英文值、检测值、单位和参考范围等。可以理解,上述属性和第一特征信息是与样本医学资料图片的类型有直接关系的,例如,本实施例是以样本医学资料图片为样本健康体检报告图片为例,则其对应的属性可包括检测项名称、检测项英文值、检测值、单位和参考范围等,第一特征信息可包括:是否包含中文、是否包含英文、是否包含字母、是否包含标点、字符串长度、与词库中检测项匹配最大相似度、是否包含单位关键词、是否包含参考范围关键词等;当样本医学资料图片为其他类型图片时,则上述属性和第一特征信息是由该其他类型图片中的文本信息特点决定的,在此不作具体限定。
S104,根据第一特征信息和第一标注数据进行训练以生成用于确定OCR识别结果中数据属性的决策树模型。
具体地,在获取到第一特征信息和第一标注数据之后,可根据第一特征信息和第一标注数据进行相应计算以生成决策树模型。举例说明如下:
假设获取的第一标注数据为检测项名称、检测项英文值、参考范围,则根据第一标注数据中的属性分别确定第一特征信息中是否包含检测项名称,是否包含检测项英文值,是否包含参考范围关键词,上述整个确定过程可建立一个决策树,并对建立的决策树修剪以得到一个最优的决策方案,并根据最优的决策方案生成一个决策树模型。
本发明实施例的用于确定OCR识别结果中数据属性的决策树模型的训练方法,通过对获取的样本医学资料图片进行OCR识别生成第一OCR识别结果,并提取第一OCR识别结果中各个数据的第一特征信息,获取与第一OCR识别结果中各个数据对应的第一标注数据,并根据第一特征信息和第一标注数据进行训练以生成用于确定OCR识别结果中数据属性的决策树模型。从而通过生成的决策树模型实现了对识别结果中数据属性的自动标注的目的,有效降低了待识别图片识别过程中的消费成本,提高了识别效率。
基于上述实施例的基础上,在根据第一特征信息和第一标注数据进行训练以生成用于确定OCR识别结果中数据属性的决策树模型之后,如图2所示,该方法还可以包括:
S201,获取测试医学资料图片的第二OCR识别结果,并提取第二OCR识别结果中的各个数据的第二特征信息。
具体地,在本实施例中,获取测试医学资料图片可通过线上系统选取实现,其中,获取的测试医学资料图片数据可以为100张,或者150张,在此不作具体限制。
其中,对获取到的测试医学资料图片进行OCR识别可具体参见上述实施例中的方式,在此不作过多赘述。
在得到第二OCR识别结果之后,可提取第二OCR识别结果中的各个数据的第二特征信息。其中,以测试医学资料图片为测试健康体检报告图片为例,则第二特征信息至少包括:是否包含中文、是否包含英文、是否包含字母、是否包含标点、字符串长度、与词库中检测项匹配最大相似度、是否包含单位关键词、是否包含参考范围关键词。
S202,获取与第二OCR识别结果中的各个数据对应的第二标注数据。
其中,第二标注数据是由人工对测试医学资料图片的OCR识别结果进行的数据标注。
S203,根据决策树模型对第二特征信息进行预测以生成预测结果。
具体地,在步骤S201提取到第二OCR识别结果中的各个数据的第二特征信息之后,可通过上述实施例中生成的决策树模型对提取的第二特征信息进行预测以生成预测结果。
S204,根据第二标注数据对预测结果进行验证,并根据验证结果对决策树模型进行优化。
具体地,在得到预测结果之后,可根据获取的第二标注数据对预测结果进行验证,以确定上述实施例中生成的决策树模型的预测正确率,并根据确定的正确率执行相应地优化等操作。
需要说明的是,在本实施例中,确定预测结果是否符合要求可根据预测的正确率与预设的阈值相比较来判定。其中预设阈值可以是预先设定符合要求的阈值,例如预设阈值为预测结果的正确率70%,或者75%,当然还可以根据实际需要设定不同的预设阈值,在此不做具体限制。
其中,验证的结果具体包括以下几种情况,举例说明如下:
示例一,假设在本实施例中,根据获取的第二标注数据确定出上述实施例中生成的决策树模型的预测正确率为98%,则说明上述实施例中生成的决策树模型符合要求,从而可根据该决策树模型对医学资料图片的OCR识别结果进行数据标注。
示例二,假设在本实施例中,根据获取的第二标注数据确定出上述实施例中生成的决策树模型的预测正确率为46%,则说明上述实施例中生成的决策树模型不符合要求,即预测结果中存在比较多的错误信息文本(bad case)。因此,需要对该决策树模型进行优化,以提高该决策树模型的预测准确率。
其中,对该决策树模型进行优化具体可通过以下步骤实现:在获取测试医学资料图片的OCR结果中重新提取出新的第一特征信息,重新训练该决策树模型。优选地,可从验证结果中获取错误信息文本,并从该错误信息文本中重新提取出新的第一特征信息,以使得通过该新的第一特征信息重新训练该决策树模型。
本实施例通过对生成的决策树模型进行正确性验证,以确定决策树模型的正确率是否符合预测要求,并在确定决策树模型不符合要求时不断优化决策树模型,以提高系统的预测准确率。
图3为本发明一个实施例的确定OCR识别结果中数据属性的方法的流程图。其中,需要说明的是,本发明实施例的确定OCR识别结果中数据属性的方法所使用的决策树模型是由前述实施例的用于确定OCR识别结果中数据属性的决策树模型的训练方法所生成的。
如图3所示,该确定OCR识别结果中数据属性的方法可以包括以下步骤:
S301,获取待处理医学资料图片的第三OCR识别结果。
具体地,在本实施例中,获取待处理医学资料图片的实现方式可以是通过线上系统选取。
其中,在本实施例中,待处理医学资料图片为健康体检报告图片。
其中,对获取到的待处理医学资料图片进行OCR识别,以获取待处理医学图片的第三OCR识别结果可具体参见前述实施例中的方式,在此不作过多赘述。
S302,提取第三OCR识别结果中的各个数据的第三特征信息。
其中,以待处理医学资料图片为健康体检报告图片为例,第三特征信息至少包括:是否包含中文、是否包含英文、是否包含字母、是否包含标点、字符串长度、与词库中检测项匹配最大相似度、是否包含单位关键词、是否包含参考范围关键词。
S303,根据决策树模型对第三特征信息进行预测以确定第三OCR识别结果中的各个数据的属性。
本发明实施例的确定OCR识别结果中数据属性的方法,首先获取待处理医学资料图片的第三OCR识别结果,其次提取第三OCR识别结果中的各个数据的第三特征信息,最后根据决策树模型对第三特征进行预测以确定第三OCR识别结果中的各个数据的属性。由此,通过生成的决策树模型对待处理图片进行标注,从而避免了人工进行数据属性标注的情况出现,有效降低了待识别图片识别过程中的消费成本,提高了识别效率。
为了实现上述实施例,本发明还提出了一种用于确定OCR识别结果中数据属性的决策树模型的训练装置。
图4为本发明一个实施例的用于确定OCR识别结果中数据属性的决策树模型的训练装置的结构示意图。
如图4所示,该用于确定OCR识别结果中数据属性的决策树模型的训练装置可包括:第一获取模块101、OCR识别模块102、第一提取模块103、第二获取模块104和训练模块105。
其中,第一获取模块101用于获取样本医学资料图片。具体地,在本实施例中,获取样本医学资料图片的实现方式可以是通过线上系统选取,其中,获取的样本医学资料图片数目可以为1000张,也可以为2000张,在此不作具体限制。
其中,在本实施例中,样本医学资料图片为样本健康体检报告图片。可以理解,样本健康体检报告图片中的文本信息多为表格文本,每个表格中的每列数据属于同一个属性。为此,该样本健康体检报告图片的OCR识别结果为一个二维的字符串数组,数组的每一列都是代表同一个属性列的数据。
OCR识别模块102用于对样本医学资料图片进行OCR识别以生成第一OCR识别结果,第一OCR识别结果为二维字符串数组,二维字符串数组中的每列数据用于指示属于同一个属性列的数据。
具体地,在获取到样本医学资料图片之后可通过OCR(Optical CharacterRecognition,光学字符识别)算法对该样本医学资料图片进行识别操作,以生成第一OCR识别结果。其中,通过OCR算法识别样本医学资料图片具体可包括以下步骤:
步骤一,对样本医学资料图片进行预处理;
其中,预处理可包括二值化处理、去噪处理、以及倾斜校正等处理。
步骤二,预处理之后,对样本医学资料图片的版面进行分析;
步骤三,字符切割;
步骤四,字符切割完毕之后,执行字符识别操作;
步骤五,版面恢复;
步骤六,后处理、校验。
进而,根据生成的第一OCR识别结果进行进一步地的提取操作。
第一提取模块103用于提取第一OCR识别结果中的各个数据的第一特征信息。
其中,在本实施例中,当样本医学资料图片为样本健康体检报告图片时,则提取的第一特征信息至少可包括:是否包含中文、是否包含英文、是否包含字母、是否包含标点、字符串长度、与词库中检测项匹配最大相似度、是否包含单位关键词、是否包含参考范围关键词等。
第二获取模块104用于获取与第一OCR识别结果中的各个数据对应的第一标注数据,第一标注数据用于指示各个数据所属的属性。
其中,第一标注数据是由人工对样本医学资料图片的OCR识别结果进行数据标注。
对样本医学资料图片的OCR识别结果进行的数据标注,主要是用于指示各个数据所属的属性。其中,在本实施例中,当样本医学资料图片为样本健康体检报告图片时,则属性至少可包括:检测项名称、检测项英文值、检测值、单位和参考范围等。可以理解,上述属性和第一特征信息是与样本医学资料图片的类型有直接关系的,例如,本实施例是以样本医学资料图片为样本健康体检报告图片为例,则其对应的属性可包括检测项名称、检测项英文值、检测值、单位和参考范围等,第一特征信息可包括:是否包含中文、是否包含英文、是否包含字母、是否包含标点、字符串长度、与词库中检测项匹配最大相似度、是否包含单位关键词、是否包含参考范围关键词等;当样本医学资料图片为其他类型图片时,则上述属性和第一特征信息是由该其他类型图片中的文本信息特点决定的,在此不作具体限定。
训练模块105用于根据第一特征信息和第一标注数据进行训练以生成用于确定OCR识别结果中数据属性的决策树模型。
具体地,在获取到第一特征信息和第一标注数据之后,可根据第一特征信息和第一标注数据进行相应计算以生成决策树模型。举例说明如下:
假设获取的第一标注数据为检测项名称、检测项英文值、参考范围,则根据第一标注数据中的属性分别确定第一特征信息中是否包含检测项名称,是否包含检测项英文值,是否包含参考范围关键词,上述整个确定过程可建立一个决策树,并对建立的决策树修剪以得到一个最优的决策方案,并根据最优的决策方案生成一个决策树模型。
在本发明的一个实施例中,在图4所示的基础上,如图5所示,该装置还可以包括第三获取模块106、第二提取模块107、第四获取模块108、预测模块109和验证优化模块110。
其中,第三获取模块106用于在训练模块根据第一特征信息和第一标注数据进行训练以生成决策树模型之后,获取测试医学资料图片的第二OCR识别结果。
具体地,在本实施例中,获取测试医学资料图片可通过线上系统选取实现,其中,获取的测试医学资料图片数据可以为100张,或者150张,在此不作具体限制。
其中,对获取到的测试医学资料图片进行OCR识别可具体参见上述实施例中的方式,在此不作过多赘述。
第二提取模块107用于提取第二OCR识别结果中的各个数据的第二特征信息。
具体地,在得到第二OCR识别结果之后,可提取第二OCR识别结果中的各个数据的第二特征信息。其中,以测试医学资料图片为测试健康体检报告图片为例,则第二特征信息至少包括:是否包含中文、是否包含英文、是否包含字母、是否包含标点、字符串长度、与词库中检测项匹配最大相似度、是否包含单位关键词、是否包含参考范围关键词。
第四获取模块108用于获取与第二OCR识别结果中的各个数据对应的第二标注数据。
其中,第二标注数据是由人工对测试医学资料图片的OCR识别结果进行的数据标注。
预测模块109用于根据决策树模型对第二特征信息进行预测以生成预测结果。
具体地,在第二提取模块107提取到第二OCR识别结果中的各个数据的第二特征信息之后,可通过上述实施例中生成的决策树模型对提取的第二特征信息进行预测以生成预测结果。
验证优化模块110用于根据第二标注数据对预测结果进行验证,并根据验证结果对决策树模型进行优化。
具体地,在得到预测结果之后,可根据获取的第二标注数据对预测结果进行验证,以确定上述实施例中生成的决策树模型的预测正确率,并根据确定的正确率执行相应地优化等操作。
需要说明的是,在本实施例中,确定预测结果是否符合要求可根据预测的正确率与预设的阈值相比较来判定。其中预设阈值可以是预先设定符合要求的阈值,例如预设阈值为预测结果的正确率70%,或者75%,当然还可以根据实际需要设定不同的预设阈值,在此不做具体限制。
其中,验证的结果具体包括以下几种情况,举例说明如下:
示例一,假设在本实施例中,根据获取的第二标注数据确定出上述实施例中生成的决策树模型的预测正确率为98%,则说明上述实施例中生成的决策树模型符合要求,从而可根据该决策树模型对医学资料图片的OCR识别结果进行数据标注。
示例二,假设在本实施例中,根据获取的第二标注数据确定出上述实施例中生成的决策树模型的预测正确率为46%,则说明上述实施例中生成的决策树模型不符合要求,即预测结果中存在比较多的错误信息文本(bad case)。因此,需要对该决策树模型进行优化,以提高该决策树模型的预测准确率。
其中,对该决策树模型进行优化具体可通过以下步骤实现:在获取测试医学资料图片的OCR结果中重新提取出新的第一特征信息,重新训练该决策树模型。优选地,可从验证结果中获取错误信息文本,并从该错误信息文本中重新提取出新的第一特征信息,以使得通过该新的第一特征信息重新训练该决策树模型。
本发明实施例的用于确定OCR识别结果中数据属性的决策树模型的训练装置,通过OCR识别模块对第一获取模块获取的样本医学资料图片进行OCR识别生成第一OCR识别结果,并通过第一提取模块提取第一OCR识别结果中各个数据的第一特征信息,以及第二获取模块获取与第一OCR识别结果中各个数据对应的第一标注数据,并通过训练模块根据第一特征信息和第一标注数据进行训练以生成用于确定OCR识别结果中数据属性的决策树模型。从而通过生成的决策树模型实现了对识别结果中数据属性的自动标注的目的,有效降低了待识别图片识别过程中的消费成本,提高了识别效率。
为了实现上述实施例,本发明还提出了一种确定OCR识别结果中数据属性的装置。
图6为根据本发明一个实施例的确定OCR识别结果中数据属性的装置的结构示意图。其中,需要说明的是,本发明实施例的确定OCR识别结果中数据属性的装置所使用的决策树模型是由上述任一个实施例的用于确定OCR识别结果中数据属性的决策树模型的训练装置所生成的。
如图6所示,该确定OCR识别结果中数据属性的装置包括:获取模块201、提取模块202和确定模块203。
其中,获取模块201用于获取待处理医学资料图片的第三OCR识别结果。
具体地,在本实施例中,获取待处理医学资料图片的实现方式可以是通过线上系统选取。
其中,在本实施例中,待处理医学资料图片为健康体检报告图片。
其中,对获取到的待处理医学资料图片进行OCR识别,以获取待处理医学图片的第三OCR识别结果可具体参见前述实施例中的方式,在此不作过多赘述。
提取模块202用于提取第三OCR识别结果中的各个数据的第三特征信息。
其中,以待处理医学资料图片为健康体检报告图片为例,第三特征信息至少包括:是否包含中文、是否包含英文、是否包含字母、是否包含标点、字符串长度、与词库中检测项匹配最大相似度、是否包含单位关键词、是否包含参考范围关键词。
确定模块203用于根据决策树模型对第三特征信息进行预测以确定第三OCR识别结果中的各个数据的属性。
本发明实施例的确定OCR识别结果中数据属性的装置,首先通过获取模块获取待处理医学资料图片的第三OCR识别结果,其次根据提取模块提取第三OCR识别结果中的各个数据的第三特征信息,最后通过确定模块根据决策树模型对第三特征进行预测以确定第三OCR识别结果中的各个数据的属性。由此,通过生成的决策树模型对待处理图片进行标注,从而避免了人工进行数据属性标注的情况出现,有效降低了待识别图片识别过程中的消费成本,提高了识别效率。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种用于确定OCR识别结果中数据属性的决策树模型的训练方法,其特征在于,包括以下步骤:
获取样本医学资料图片,并对所述样本医学资料图片进行OCR识别以生成第一OCR识别结果,所述第一OCR识别结果为二维字符串数组,所述二维字符串数组中的每列数据用于指示属于同一个属性列的数据;
提取所述第一OCR识别结果中的各个数据的第一特征信息;
获取与所述第一OCR识别结果中的各个数据对应的第一标注数据,所述第一标注数据用于指示所述各个数据所属的属性;
根据所述第一特征信息和所述第一标注数据进行训练以生成所述用于确定OCR识别结果中数据属性的决策树模型。
2.如权利要求1所述的方法,其特征在于,其中,所述样本医学资料图片为样本健康体检报告图片。
3.如权利要求2所述的方法,其特征在于,所述属性至少包括检测项名称、检测项英文值、检测值、单位和参考范围;所述第一特征信息至少包括是否包含中文、是否包含英文、是否包含字母、是否包含标点、字符串长度、与词库中检测项匹配最大相似度、是否包含单位关键词、是否包含参考范围关键词。
4.如权利要求1至3中任一项所述的方法,其特征在于,在所述根据所述第一特征信息和所述第一标注数据进行训练以生成所述用于确定OCR识别结果中数据属性的决策树模型之后,所述方法还包括:
获取测试医学资料图片的第二OCR识别结果,并提取所述第二OCR识别结果中的各个数据的第二特征信息;
获取与所述第二OCR识别结果中的各个数据对应的第二标注数据;
根据所述决策树模型对所述第二特征信息进行预测以生成预测结果;
根据所述第二标注数据对所述预测结果进行验证,并根据验证结果对所述决策树模型进行优化。
5.一种确定OCR识别结果中数据属性的方法,其特征在于,包括以下步骤:
获取待处理医学资料图片的第三OCR识别结果;
提取所述第三OCR识别结果中的各个数据的第三特征信息;
根据决策树模型对所述第三特征信息进行预测以确定所述第三OCR识别结果中的各个数据的属性,其中,所述决策树模型是由如权利要求1至4中任一项所述的用于确定OCR识别结果中数据属性的决策树模型的训练方法生成的。
6.一种用于确定OCR识别结果中数据属性的决策树模型的训练装置,其特征在于,包括:
第一获取模块,用于获取样本医学资料图片;
OCR识别模块,用于对所述样本医学资料图片进行OCR识别以生成第一OCR识别结果,所述第一OCR识别结果为二维字符串数组,所述二维字符串数组中的每列数据用于指示属于同一个属性列的数据;
第一提取模块,用于提取所述第一OCR识别结果中的各个数据的第一特征信息;
第二获取模块,用于获取与所述第一OCR识别结果中的各个数据对应的第一标注数据,所述第一标注数据用于指示所述各个数据所属的属性;
训练模块,用于根据所述第一特征信息和所述第一标注数据进行训练以生成所述用于确定OCR识别结果中数据属性的决策树模型。
7.如权利要求6所述的装置,其特征在于,其中,所述样本医学资料图片为样本健康体检报告图片。
8.如权利要求7所述的装置,其特征在于,所述属性至少包括检测项名称、检测项英文值、检测值、单位和参考范围;所述第一特征信息至少包括是否包含中文、是否包含英文、是否包含字母、是否包含标点、字符串长度、与词库中检测项匹配最大相似度、是否包含单位关键词、是否包含参考范围关键词。
9.如权利要求6至8中任一项所述的装置,其特征在于,还包括:
第三获取模块,用于在所述训练模块根据所述第一特征信息和所述第一标注数据进行训练以生成所述决策树模型之后,获取测试医学资料图片的第二OCR识别结果;
第二提取模块,用于提取所述第二OCR识别结果中的各个数据的第二特征信息;
第四获取模块,用于获取与所述第二OCR识别结果中的各个数据对应的第二标注数据;
预测模块,用于根据所述决策树模型对所述第二特征信息进行预测以生成预测结果;
验证优化模块,用于根据所述第二标注数据对所述预测结果进行验证,并根据验证结果对所述决策树模型进行优化。
10.一种确定OCR识别结果中数据属性的装置,其特征在于,包括:
获取模块,用于获取待处理医学资料图片的第三OCR识别结果;
提取模块,用于提取所述第三OCR识别结果中的各个数据的第三特征信息;
确定模块,用于根据决策树模型对所述第三特征信息进行预测以确定所述第三OCR识别结果中的各个数据的属性,其中,所述决策树模型是由如权利要求6至9中任一项所述的用于确定OCR识别结果中数据属性的决策树模型的训练装置生成的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710305571.XA CN107273883B (zh) | 2017-05-03 | 2017-05-03 | 决策树模型训练方法、确定ocr结果中数据属性方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710305571.XA CN107273883B (zh) | 2017-05-03 | 2017-05-03 | 决策树模型训练方法、确定ocr结果中数据属性方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107273883A true CN107273883A (zh) | 2017-10-20 |
CN107273883B CN107273883B (zh) | 2020-04-21 |
Family
ID=60073705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710305571.XA Active CN107273883B (zh) | 2017-05-03 | 2017-05-03 | 决策树模型训练方法、确定ocr结果中数据属性方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107273883B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325414A (zh) * | 2018-08-20 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 证件信息的提取方法、装置和文本信息的提取方法 |
CN109711396A (zh) * | 2018-11-12 | 2019-05-03 | 平安科技(深圳)有限公司 | Ocr训练样本的生成方法、装置、设备及可读存储介质 |
CN110490185A (zh) * | 2019-08-23 | 2019-11-22 | 北京工业大学 | 一种基于多次对比矫正ocr名片信息识别改进方法 |
CN110797101A (zh) * | 2019-10-28 | 2020-02-14 | 腾讯医疗健康(深圳)有限公司 | 医学数据处理方法、装置、可读存储介质和计算机设备 |
CN111324344A (zh) * | 2020-02-28 | 2020-06-23 | 深圳前海微众银行股份有限公司 | 代码语句的生成方法、装置、设备及可读存储介质 |
CN111523541A (zh) * | 2020-04-21 | 2020-08-11 | 上海云从汇临人工智能科技有限公司 | 一种基于ocr的数据生成方法、系统、设备及介质 |
CN116543392A (zh) * | 2023-04-19 | 2023-08-04 | 钛玛科(北京)工业科技有限公司 | 一种用于深度学习字符识别的标注方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102436583A (zh) * | 2011-09-26 | 2012-05-02 | 哈尔滨工程大学 | 基于对标注图像学习的图像分割方法 |
CN104317894A (zh) * | 2014-10-23 | 2015-01-28 | 北京百度网讯科技有限公司 | 样本标注的确定方法和装置 |
CN104966109A (zh) * | 2015-07-17 | 2015-10-07 | 北京旷视科技有限公司 | 医疗化验单图像分类方法及装置 |
CN105045780A (zh) * | 2015-07-15 | 2015-11-11 | 广州敦和信息技术有限公司 | 一种发票字条语义信息的识别方法及装置 |
CN106503863A (zh) * | 2016-11-10 | 2017-03-15 | 北京红马传媒文化发展有限公司 | 基于决策树模型的年龄特征的预测方法、系统及终端 |
-
2017
- 2017-05-03 CN CN201710305571.XA patent/CN107273883B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102436583A (zh) * | 2011-09-26 | 2012-05-02 | 哈尔滨工程大学 | 基于对标注图像学习的图像分割方法 |
CN104317894A (zh) * | 2014-10-23 | 2015-01-28 | 北京百度网讯科技有限公司 | 样本标注的确定方法和装置 |
CN105045780A (zh) * | 2015-07-15 | 2015-11-11 | 广州敦和信息技术有限公司 | 一种发票字条语义信息的识别方法及装置 |
CN104966109A (zh) * | 2015-07-17 | 2015-10-07 | 北京旷视科技有限公司 | 医疗化验单图像分类方法及装置 |
CN106503863A (zh) * | 2016-11-10 | 2017-03-15 | 北京红马传媒文化发展有限公司 | 基于决策树模型的年龄特征的预测方法、系统及终端 |
Non-Patent Citations (1)
Title |
---|
罗静: ""互联网表格数据的语义恢复"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325414A (zh) * | 2018-08-20 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 证件信息的提取方法、装置和文本信息的提取方法 |
CN109711396A (zh) * | 2018-11-12 | 2019-05-03 | 平安科技(深圳)有限公司 | Ocr训练样本的生成方法、装置、设备及可读存储介质 |
CN110490185A (zh) * | 2019-08-23 | 2019-11-22 | 北京工业大学 | 一种基于多次对比矫正ocr名片信息识别改进方法 |
CN110797101A (zh) * | 2019-10-28 | 2020-02-14 | 腾讯医疗健康(深圳)有限公司 | 医学数据处理方法、装置、可读存储介质和计算机设备 |
CN110797101B (zh) * | 2019-10-28 | 2023-11-03 | 腾讯医疗健康(深圳)有限公司 | 医学数据处理方法、装置、可读存储介质和计算机设备 |
CN111324344A (zh) * | 2020-02-28 | 2020-06-23 | 深圳前海微众银行股份有限公司 | 代码语句的生成方法、装置、设备及可读存储介质 |
CN111523541A (zh) * | 2020-04-21 | 2020-08-11 | 上海云从汇临人工智能科技有限公司 | 一种基于ocr的数据生成方法、系统、设备及介质 |
CN116543392A (zh) * | 2023-04-19 | 2023-08-04 | 钛玛科(北京)工业科技有限公司 | 一种用于深度学习字符识别的标注方法 |
CN116543392B (zh) * | 2023-04-19 | 2024-03-12 | 钛玛科(北京)工业科技有限公司 | 一种用于深度学习字符识别的标注方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107273883B (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273883A (zh) | 决策树模型训练方法、确定ocr结果中数据属性方法及装置 | |
CN111582241B (zh) | 视频字幕识别方法、装置、设备及存储介质 | |
CN104463101B (zh) | 用于文字性试题的答案识别方法及系统 | |
CN111046784A (zh) | 文档版面分析识别方法、装置、电子设备和存储介质 | |
CN107168992A (zh) | 基于人工智能的文章分类方法及装置、设备与可读介质 | |
CN109948615A (zh) | 多语言文本检测识别系统 | |
CN113111968B (zh) | 图像识别模型训练方法、装置、电子设备和可读存储介质 | |
CN104978354B (zh) | 文本分类方法和装置 | |
CN105005616B (zh) | 基于文本图片特征交互扩充的文本图解方法及系统 | |
CN110222654A (zh) | 文本分割方法、装置、设备及存储介质 | |
CN106067019A (zh) | 针对图像进行文字识别的方法及装置 | |
CN112256845A (zh) | 意图识别方法、装置、电子设备和计算机可读存储介质 | |
CN113657098B (zh) | 文本纠错方法、装置、设备及存储介质 | |
Shen et al. | A joint model for multimodal document quality assessment | |
CN108090099A (zh) | 一种文本处理方法及装置 | |
CN113569050A (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN107392221A (zh) | 分类模型的训练方法、分类ocr识别结果的方法及装置 | |
CN111104800B (zh) | 一种实体识别方法、装置、设备、存储介质和程序产品 | |
CN117454987B (zh) | 基于事件自动抽取的矿山事件知识图谱构建方法及装置 | |
CN110532562A (zh) | 神经网络训练方法、成语误用检测方法、装置和电子设备 | |
CN110909174A (zh) | 一种基于知识图谱的简单问答中实体链接的改进方法 | |
Sherratt et al. | Multi-channel convolutional neural network for precise meme classification | |
CN114586038B (zh) | 事件抽取和抽取模型训练的方法和装置、设备、介质 | |
CN111986259B (zh) | 颜文字检测模型的训练、视频数据的审核方法及相关装置 | |
CN115964484A (zh) | 基于多标签分类模型实现的法律多意图识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |