CN113255583B - 数据标注方法、装置、计算机设备和存储介质 - Google Patents

数据标注方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113255583B
CN113255583B CN202110686431.8A CN202110686431A CN113255583B CN 113255583 B CN113255583 B CN 113255583B CN 202110686431 A CN202110686431 A CN 202110686431A CN 113255583 B CN113255583 B CN 113255583B
Authority
CN
China
Prior art keywords
candidate region
character
data
frame
output data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110686431.8A
Other languages
English (en)
Other versions
CN113255583A (zh
Inventor
刘东煜
陈乐清
曾增烽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110686431.8A priority Critical patent/CN113255583B/zh
Publication of CN113255583A publication Critical patent/CN113255583A/zh
Application granted granted Critical
Publication of CN113255583B publication Critical patent/CN113255583B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本申请涉及人工智能领域,提供了一种数据标注方法、装置、计算机设备和存储介质,获取待标注图片;通过OCR识别技术处理所述待标注图片,得到具有若干第一候选区域框的第一图片及对应的第一输出数据,并对所述第一候选区域框进行编号;通过预设规则在第一候选区域框中生成第二候选区域框,并根据第二候选区域框和第一输出数据生成第二输出数据;将所述第二输出数据输入至预训练完成的标注模型,得到标注数据;根据所述标注数据对待标注图片中的字符进行标注。本申请提供的数据标注方法、装置、计算机设备和存储介质,能够对待标注图片中具体字符进行标注,无需标注整行文字。

Description

数据标注方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能的技术领域,特别涉及一种数据标注方法、装置、计算机设备和存储介质。
背景技术
文档智能主要是指对于扫描文档所包含的文本、排版信息,通过人工智能技术进行理解、分类、提取以及信息归纳。根据文档智能技术所得到的结构化数据也可进行更上层的智能化应用,如:信息挖掘、智能决策等。关于文档智能的研究在近年来逐渐兴起。
如在保险领域,保险公司判断客户是否具备投保保险产品的资格,需要根据客户当前身体状况信息及既往史、住院史等信息综合判断。因此需要客户上传提供全面的体检报告单、住院病历等影像,再进行人工复核。目前人工核保一单的平均时长为半小时,这种人工的方式需要花费大量的人力成本,同时可能存在录入错误、不同人员标准参差不齐等问题。通过文档智能技术,将图片转化为结构化信息,再使用结构化信息实现核保业务逻辑,就可以完成智能核保流程,极大降低人工成本。其中文档智能技术一般主要通过OCR(Optical Character Recognition,光学字符识别)技术将图片转换为文本及符号,再应用NLP(Natural Language Processing,自然语言处理)技术转化为结构化信息。
基于大规模标注数据驱动的机器学习及深度学习技术,近几年来在文档智能领域受到越来越多的重视。因此,一套成熟高效的标注体系是探索深度学习文档智能的前提。但在现有的研究中,却未曾提到系统的标注方案,而按照NLP标注任务的惯有思维,常常是在文本上进行标注。比如:我们想标注出住院病历中的出院诊断字段,首先需要采用重排序算法将OCR识别文本散片进行重排序,首尾相连组成长文本,再转换为一项序列标注任务。OCR识别得到的散片以行为单位,数据标注时会标注整行文本数据,但有时候整行文本数据中有些文字并不完全属于该标签,导致数据标注不准确。
发明内容
本申请的主要目的为提供一种数据标注方法、装置、计算机设备和存储介质,旨在解决现有技术中数据标注时数据标注不准确的技术问题。
为实现上述目的,本申请提供了一种数据标注方法,包括以下步骤:
获取待标注图片;
通过OCR识别技术处理所述待标注图片,得到具有若干第一候选区域框的第一图片及对应的第一输出数据,并对所述第一候选区域框进行编号;所述第一输出数据包括编号、所述第一候选区域框的四个顶点的第一坐标、文本识别结果和文本识别结果的置信度;
通过预设规则在所述第一候选区域框中生成第二候选区域框,并根据所述第二候选区域框和所述第一输出数据生成第二输出数据;其中,所述第一候选区域框的粒度大于所述第二候选区域框的粒度;所述第二输出数据包括所述第一候选区域框的四个顶点的第一坐标、第二候选区域框的四个顶点的第二坐标、字符识别结果和所述第二候选区域框所在的所述第一候选区域框的编号;
将所述第二输出数据输入至预训练完成的标注模型,得到标注数据;
根据所述标注数据对所述待标注图片中的字符进行标注。
进一步地,所述通过预设规则在所述第一候选区域框中生成第二候选区域框,并根据所述第二候选区域框和所述第一输出数据生成第二输出数据的步骤,包括;
根据所述第一候选区域框中各个字符生成所述第二候选区域框,并识别各个所述字符,得到所述字符识别结果;
获取各个所述字符的字符类型,根据所述字符类型确定各个所述字符占标准字符的比例;
将所述比例输入至预设公式计算各个所述字符的第二候选区域框的四个顶点的第二坐标;
根据所述第一候选区域框的四个顶点的第一坐标、第二候选区域框的四个顶点的第二坐标、字符识别结果和所述第二候选区域框所在的所述第一候选区域框的编号生成所述第二输出数据。
进一步地,所述将所述第二输出数据输入至预训练完成的标注模型,得到标注数据的步骤之前,包括:
获取若干待训练样本;其中,所述待训练样本具有正确的标注和第二训练输出数据;
将若干所述第二训练输出数据输入至初始BERT模型中进行迭代训练,使得所述初始BERT模型的输出结果中包括正确的标签。
进一步地,所述根据所述标注数据对所述待标注图片中的字符进行标注的步骤,包括:
根据所述标注数据生成第二图片;
将所述标注数据转换为供lable-me工具可读的json文件;
根据所述json文件,通过所述lable-me工具在所述第二图片中进行数据标注。
进一步地,所述通过OCR识别技术处理所述待标注图片,得到具有若干第一候选区域框的第一图片及对应的第一输出数据,并对所述第一候选区域框进行编号的步骤之后,包括:
通过lable-me工具在所述第一图片上确定实体片段;
计算所述实体片段在其所在的所述第一候选区域框的相交面积;
将所述相交面积除以其所在的所述第一候选区域框的面积得到的比值与预设比值进行比较;
若所述比值大于所述预设比值,在该所述第一候选区域框标注所述实体对应的标签。
进一步地,所述通过预设规则在所述第一候选区域框中生成第二候选区域框的步骤,包括:
提取所述第一候选区域框中的词组;
基于各个所述词组生成所述第二候选区域框;以及,将排除所述词组后的所述第一候选区域框中的各个字符生成所述第二候选区域框。
本申请还提供一种数据标注装置,包括:
第一获取单元,用于获取待标注图片;
处理单元,用于通过OCR识别技术处理所述待标注图片,得到具有若干第一候选区域框的第一图片及对应的第一输出数据,并对所述第一候选区域框进行编号;所述第一输出数据包括编号、所对应的第一候选区域框的四个顶点的第一坐标、文本识别结果和文本识别结果的置信度;
生成单元,用于通过预设规则在所述第一候选区域框中生成第二候选区域框,并根据所述第二候选区域框和所述第一输出数据生成第二输出数据;其中,所述第一候选区域框的粒度大于所述第二候选区域框的粒度;所述第二输出数据包括第一候选区域框的四个顶点的第一坐标、第二候选区域框的四个顶点的第二坐标、字符识别结果和所述第二候选区域框所在的所述第一候选区域框的编号;
输入单元,用于将所述第二输出数据输入至预训练完成的标注模型,得到标注数据;
第一标注单元,用于根据所述标注数据对所述待标注图片中的字符进行标注。
进一步地,所述生成单元,包括:
第一生成子单元,用于根据所述第一候选区域框中各个字符生成所述第二候选区域框,并识别各个所述字符,得到所述字符识别结果;
确定子单元,用于获取各个所述字符的字符类型,根据所述字符类型确定各个所述字符占标准字符的比例;
计算子单元,用于将所述比例输入至预设公式计算各个所述字符的第二候选区域框的四个顶点的第二坐标;
第二生成子单元,用于根据所述第一候选区域框的四个顶点的第一坐标、第二候选区域框的四个顶点的第二坐标、字符识别结果和所述第二候选区域框所在的所述第一候选区域框的编号生成所述第二输出数据。本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的数据标注方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的数据标注方法的步骤。
本申请提供的数据标注方法、装置、计算机设备和存储介质,通过将OCR识别技术得到的第一候选区域框转换为粒度更小的第二候选区域框,对应的第二输出数据输入至标注模型中预测标签,从而生成标注数据,生成的标注数据是以字符为最小粒度的,在后续进行标注时,能够对第一候选区域框内部的文本进行标注,不会标注整个第一候选区域框,提高数据标注的准确性。
附图说明
图1是本申请一实施例中数据标注方法步骤示意图;
图2是本申请一实施例中数据标注装置结构框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例提供了一种数据标注方法,包括以下步骤:
步骤S1,获取待标注图片;
步骤S2,通过OCR识别技术处理所述待标注图片,得到具有若干第一候选区域框的第一图片及对应的第一输出数据,并对所述第一候选区域框进行编号;所述第一输出数据包括编号、所述第一候选区域框的四个顶点的第一坐标、文本识别结果和文本识别结果的置信度;
步骤S3,通过预设规则在所述第一候选区域框中生成第二候选区域框,并根据所述第二候选区域框和所述第一输出数据生成第二输出数据;其中,所述第一候选区域框的粒度大于所述第二候选区域框的粒度;所述第二输出数据包括所述第一候选区域框的四个顶点的第一坐标、第二候选区域框的四个顶点的第二坐标、字符识别结果和所述第二候选区域框所在的所述第一候选区域框的编号;
步骤S4,将所述第二输出数据输入至预训练完成的标注模型,得到标注数据;
步骤S5,根据所述标注数据对所述待标注图片中的字符进行标注。
本实施例中,如上述步骤S1所述,待标注图片可以为体检报告单、住院病历等图片,图片上包括有多行待标注的文字。
如上述步骤S2所述,OCR(Optical Character Recognition,光学字符识别),通过检测暗、亮的模式确定图片中文字的形状。通过OCR技术能够将待识别图片上的文字的每一行通过一个矩形框框选出来并进行切割,得到若干个第一候选区域框,第一候选区域框中框选了对应的文字内容,所有的第一候选区域框在第一图片上仍按照原有文字顺序进行排列,第一候选区域框的大小随待标注图片上的文字大小确定,但每个第一候选区域仅仅包括一行文字,不会包括相邻行的文字。如一张待识别图片上具有五行文字,则可得到五个第一候选区域框,第一候选区域框中包括了待标注文中的一行文字,粒度较大,第一输出数据包括了每一个第一候选区域框对应的四个顶点的第一坐标、文本识别结果和文本识别结果的置信度,置信度代表文本识别结果的可靠程度。每一个第一候选区域框按照从上到下的顺序进行编号。具体的,第一输出数据以文本的形式输出,每一个编号对应一行数据,并对应一个第一候选区域框,每行数据在编号后的前8个元素为第一候选区域框的四个顶点的第一坐标,第9个元素代表置信度,第10个元素为第一候选区域框内的文本识别结果。
如上述步骤S3所述,在第一候选区域框中按照预设规则转换为粒度更小的第二候选区域框,第二候选区域框可以字符为粒度,可仅仅框选出一个字符,在其他实施例中,第二候选区域框也可以词组为粒度。具体的,可通过识别第一候选区域框的每一个字符,从相邻两个字符中间进行分割,从而将每一个字符框选出来,得到第二候选区域框,第二候选区域框仅仅框选出一个字符。同时第二候选区域框对应有第二输出数据,第二输出数据包括第一候选区域框的四个顶点的第一坐标、第二候选区域框的四个顶点的第二坐标和字符识别结果和所述第二候选区域框所在的所述第一候选区域框的编号。
如上述步骤S4-S5所述,标注模型可基于CRF(Conditional Random Fields,条件随机场)、BERT(Bidirectional Encoder Representations fromTransformers,双向注意力神经网络模型)等模型训练训练而成,训练完成的标注模型可以进行实体识别,每一个实体具有相对应的标签,根据实体识别结果确定对应的标签,如待标注图片是入院病历,想要标注的实体是入院情况中的既往史的片段,入院情况通常包括有多行文字,每一行文字根据OCR识别得到一个第一候选区域框,既往史可能位于至少两个第一候选区域框之间,标注模型能够根据第二输出结果,得到哪些字符属于既往史这个实体,并确定同一实体下的标签。根据识别结果生成标注数据,得到的标注数据,标注数据相较第二输出数据而言,仅仅在第二输出数据中加入了标注模型预测到的实体及对应的标签,具体的,可在第二输出数据的第9个元素中的字符识别结果后面加入预测到的标签,两者之间可通过设置好的分隔符进行分别,如
Figure BDA0003124875860000071
,分隔符的选择应该采用不是标注模型所能输出的一种分隔符。根据标注数据进行标注,标注数据中具有预测到的标签,对待标注图片中的字符进行标注,如对属于该标签下的中文文字、英文字母、数字等进行标注。
本实施例中,通过将OCR识别技术得到的第一候选区域框转换为粒度更小的第二候选区域框,对应的第二输出数据输入至标注模型中预测标签,从而生成标注数据,生成的标注数据是以字符为最小粒度的,在后续进行标注时,能够对第一候选区域框内部的文本进行标注,不会标注整个第一候选区域框,提高数据标注的准确性。
在一实施例中,所述通过预设规则在所述第一候选区域框中生成第二候选区域框,并根据所述第二候选区域框和所述第一输出数据生成第二输出数据的步骤S3,包括;
步骤S31,根据所述第一候选区域框中各个字符生成所述第二候选区域框,并识别各个所述字符,得到所述字符识别结果;
步骤S32,获取各个所述字符的字符类型,根据所述字符类型确定各个所述字符占标准字符的比例;
步骤S33,将所述比例输入至预设公式计算各个所述字符的第二候选区域框的四个顶点的第二坐标;
步骤S34,根据所述第一候选区域框的四个顶点的第一坐标、第二候选区域框的四个顶点的第二坐标、字符识别结果和所述第二候选区域框所在的所述第一候选区域框的编号生成所述第二输出数据。
本实施例中,如上述步骤S31所述,字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。每一个第一候选区域框中包括有多个字符,识别各个字符,形成字符识别结果,根据字符识别结果即可知道对应的字符类型。
如上述步骤S32所述,标准字符是指计算机能够处理的字符,预先存储有各种字符类型占标准字符的比例,如一个中文字符占标准字符的比例是1,大写英文字符占标准字符的比例为0.75,小写英文字符占标准字符的比例为0.5,标点符号占标准字符的比例是0.5。根据各个字符对应的字符类型即可确定对应各个字符占标准字符的比例。
如上述步骤S33所述,通过下列预设公式计算第二候选区域框的四个顶点的第二坐标,第一候选区域框和第二候选区域框的四个顶点按照左上、左下、右下、右上的顺序分别用0、1、2、3表示,(xn_0,yn_0)表示第一候选区域框中第n个字符所对应的第二候选区域框的左上的第二坐标,(xn_3,yn_3)表示第一候选区域框中第n个字符所对应的第二候选区域框的右下的第二坐标,all_normal_char代表第一候选区域框内所有字符转换为标准字符后的和,normal_charn代表第n个字符的标准字符个数。
Figure BDA0003124875860000081
Figure BDA0003124875860000082
xn_0=xn-1_3
yn_0=yn-1_3
Figure BDA0003124875860000083
Figure BDA0003124875860000084
x0_0=xori_0
y0_0=yori_0
通过上述公式可以计算得到各个字符的第二候选区域框的四个顶点的第二坐标。
如上述步骤S34所述,生成第二输出数据,具体的,第二输出数据中,每一行代表一个“字符”,每行前8个元素为第二候选区域框的四个顶点的第二坐标,第9个元素为字符识别结果,第10至第17个元素代表字符所在第一候选区域框的四个顶点的第一坐标,第18个元素代表字符所在第一候选区域框的编号。
本实施例中,将以片段为最小粒度的第一候选区域框转换为以字符为最小粒度的第二候选区域框,并得到对应的第二输出数据,将第二输出数据输入至标注模型得到的标注数据也是以字符为最小粒度,使得后续在进行标注时,能够标注出片段中具体的字段。
在一实施例中,所述将所述第二输出数据输入至预训练完成的标注模型,得到标注数据的步骤S4之前,包括:
步骤S4A,获取若干待训练样本;其中,所述待训练样本具有正确的标注和第二训练输出数据;
步骤S4B,将若干所述第二训练输出数据输入至初始BERT模型中进行迭代训练,使得所述初始BERT模型的输出结果中包括正确的标签。
本实施例中,如上述步骤S4A所述,待训练样本同样经过OCR识别得到对应的第一候选区域框及第一训练输出数据,并将第一候选区域框经过转换为以字符为最小粒度的第二候选区域框,得到第二训练输出数据,第二训练输出数据与第二输出数据具有相同的形式。
如上述步骤S4B所述,将一部分第二训练输出数据作为训练集输入至初始BERT模型进行迭代训练,迭代训练后通过损失函数计算BERT模型输出值与真实值之间的损失值,形成一个用学习参数表示损失值的方程,当损失值大于预设损失值时,根据损失值对训练后的BERT模型进行调参,具体的,对方程中的每个参数求导,得到其梯度修正值,同时反推出上一层的误差,这样就将该层节点的误差按照正向的相反方向传到上一层,并接着计算上一层的修正值,如此反复下去一步一步地进行转播,直到传到正向的第一个节点。当损失值小于预设损失值时,停止训练,训练完成后的标注模型能够正确的对待训练样本中的字符进行标注。
在另一实施例中,标注模型也可通过CRF模型训练而成,训练过程与BERT模型的训练过程相同。在其他实施例中,可将CRF模型融合在BERT模型中,CRF模型是条件概率分布模型,表示的是给定一组输入随机变量x的条件下另一组输出随机变量y的马尔可夫随机场,而这一过程需要计算预测概率P(y|x)。
在一实施例中,所述根据所述标注数据对所述待标注图片中的字符进行标注的步骤S5,包括:
步骤S51,根据所述标注数据生成第二图片;
步骤S52,将所述标注数据转换为供lable-me工具可读的json文件;
步骤S53,根据所述json文件,通过所述lable-me工具在所述第二图片中进行数据标注。
本实施例中,如上述步骤S51所述,标注数据中包括有所有字符的第二候选区域框的四个顶点的第二坐标,根据第二坐标将字符画在画布上,形成第二图片。具体的,还可根据字符所在的第一候选区域框的第一坐标画出第一候选区域框,便于标注人员找到字符上下边界。
如上述步骤S52所述,lable-me工具对图片进行多边形、矩形、圆形、多段线、线段、点形式的标注。其采用Python语言编写的,图形界面使用的是Qt(PyQt)。将标注数据生成json文件供lable-me工具使用。具体的,json文件中”shapes”,代表图片中已进行标注的实体,”lable”代表标注实体的标签,”shape_type”:”rectangle”代表标注框为长方体,”points”为长方体的两个顶点。
如上述步骤S53所述,标注数据中包括了对应的实体识别结果及标签,即所有的key,以及所有的value,并且包含key-value(pair)对的对应信息,lable-me工具根据实体识别结果和标签在新生成的第二图片中进行数据标注,标签能够准确的匹配到相应的字符上。通过本实施例提供的技术方案,无需使用重排序算法,且可适用不同图片样式、排版。
在一实施例中,所述通过OCR识别所述待标注图片,得到具有若干第一候选区域框的第一图片及对应的第一输出数据,并对所述第一候选区域框进行编号的步骤S2之后,包括:
步骤S2A,通过lable-me工具在所述第一图片上确定实体片段;
步骤S2B,计算所述实体片段在其所在的所述第一候选区域框的相交面积;
步骤S2C,将所述相交面积除以其所在的所述第一候选区域框的面积得到的比值与预设比值进行比较;
步骤S2D,若所述比值大于所述预设比值,在该所述第一候选区域框标注所述实体对应的标签。
本实施例中,如上述步骤S2A-S2B所述,在lable-me工具中,能够自己框选想要标注的实体,并设置对应的标签,通过lable-me工具确定想要标注的实体片段,且第一图片上具有若干第一候选区域框,框选出的实体片段与第一候选区域框会出现重合的情况,计算实体片段与其所属的第一候选区域框的相交面积,即重合处的面积。实体片段和第一候选区域框的面积均可根据其对应的坐标进行计算,因此,实体片段和第一候选区域框均可采用矩形等规整的四边形,便于计算相应的面积。
如上述步骤S2C-S2D所述,将相交面积除以该第一候选区域框的面积得到的比值与预设比值进行比较,具体的,可通过下列公式即可计算,
Figure BDA0003124875860000111
其中,area(inter(box,shape))是指相交面积,area(box)是指第一候选区域框的面积,thre指预设比值,预设比值可根据需要进行设置,如设置为0.8。当比值大于预设比值时,该实体片段的标签即为该第一候选区域框的标签,同一个实体可能包涵有多个第一候选区域框,因此属于同一实体的box带有相同标签,可通过在标签中添加数字加以区分。当同一实体的两个或两个以上第一候选区域框是连续的,可以通过一个矩形框框选。同时,在lable-me工具中,可以对标注完成的数据进行查漏补缺,或将标注错误的进行修改,提高数据标注的准确性。
在一实施例中,所述通过预设规则在所述第一候选区域框中生成第二候选区域框的步骤,包括:
提取所述第一候选区域框中的词组;
基于各个所述词组生成所述第二候选区域框;以及,将排除所述词组后的所述第一候选区域框中的各个字符生成所述第二候选区域框。
本实施例中,预先建立有词组库,词组库中包括有若干个词组,通过将第一候选区域框中的字符与词组库中的词组进行匹配确定是否属于词组,若确定,则一个词组形成一个第二候选区域框,不属于词组的字符单个生成一个第二候选区域框,同一个词组下的各个字符具有相同的标签,一个词组生成一个第二候选区域框,标注标签时,可标注一个标签,无需重复标注,同时采用标注模型识别对应的标签时,也无需每个字符都去识别对应的标签,减少数据标注的计算量。
参见图2,本申请一实施例提供了一种数据标注装置,包括:
第一获取单元10,用于获取待标注图片;
处理单元20,用于通过OCR识别技术处理所述待标注图片,得到具有若干第一候选区域框的第一图片及对应的第一输出数据,并对所述第一候选区域框进行编号;所述第一输出数据包括编号、所对应的第一候选区域框的四个顶点的第一坐标、文本识别结果和文本识别结果的置信度;
生成单元30,用于通过预设规则在所述第一候选区域框中生成第二候选区域框,并根据所述第二候选区域框和所述第一输出数据生成第二输出数据;其中,所述第一候选区域框的粒度大于所述第二候选区域框的粒度;所述第二输出数据包括第一候选区域框的四个顶点的第一坐标、第二候选区域框的四个顶点的第二坐标、字符识别结果和所述第二候选区域框所在的所述第一候选区域框的编号;
输入单元40,用于将所述第二输出数据输入至预训练完成的标注模型,得到标注数据;
第一标注单元50,用于根据所述标注数据对所述待标注图片中的字符进行标注。
在一实施例中,所述生成单元30,包括:
第一生成子单元,用于根据所述第一候选区域框中各个字符生成所述第二候选区域框,并识别各个所述字符,得到所述字符识别结果;
确定子单元,用于获取各个所述字符的字符类型,根据所述字符类型确定各个所述字符占标准字符的比例;
计算子单元,用于将所述比例输入至预设公式计算各个所述字符的第二候选区域框的四个顶点的第二坐标;
第二生成子单元,用于根据所述第一候选区域框的四个顶点的第一坐标、第二候选区域框的四个顶点的第二坐标、字符识别结果和所述第二候选区域框所在的所述第一候选区域框的编号生成所述第二输出数据。
在一实施例中,所述数据标注装置,还包括:
第二获取单元,用于获取若干待训练样本;其中,所述待训练样本具有正确的标注和第二训练输出数据;
训练单元,用于将若干所述第二训练输出数据输入至初始BERT模型中进行迭代训练,使得所述初始BERT模型的输出结果中包括正确的标签。
在一实施例中,所述第一标注单元50,包括:
第三生成子单元,用于根据所述标注数据生成第二图片;
转换子单元,用于将所述标注数据转换为供lable-me工具可读的json文件;
标注子单元,用于根据所述json文件,通过所述lable-me工具在所述第二图片中进行数据标注。
在一实施例中,所述数据标注装置,还包括:
确定单元,用于通过lable-me工具在所述第一图片上确定实体片段;
计算单元,用于计算所述实体片段在其所在的所述第一候选区域框的相交面积;
比较单元,用于将所述相交面积除以其所在的所述第一候选区域框的面积得到的比值与预设比值进行比较;
第二标注单元,用于若所述比值大于所述预设比值,在该所述第一候选区域框标注所述实体对应的标签。
在一实施例中,所述生成单元30,包括:
提取子单元,用于提取所述第一候选区域框中的词组;
第四生成子单元,用于基于各个所述词组生成所述第二候选区域框;以及,将排除所述词组后的所述第一候选区域框中的各个字符生成所述第二候选区域框。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待标注图片等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据标注方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种数据标注方法。
综上所述,为本申请实施例中提供的数据标注方法、装置、计算机设备和存储介质,获取待标注图片;通过OCR识别技术处理所述待标注图片,得到具有若干第一候选区域框的第一图片及对应的第一输出数据,并对所述第一候选区域框进行编号;所述第一输出数据包括编号、所述第一候选区域框的四个顶点的第一坐标、文本识别结果和文本识别结果的置信度;通过预设规则在所述第一候选区域框中生成第二候选区域框,并根据所述第二候选区域框和所述第一输出数据生成第二输出数据;其中,所述第一候选区域框的粒度大于所述第二候选区域框的粒度;所述第二输出数据包括所述第一候选区域框的四个顶点的第一坐标、第二候选区域框的四个顶点的第二坐标、字符识别结果和所述第二候选区域框所在的所述第一候选区域框的编号;将所述第二输出数据输入至预训练完成的标注模型,得到标注数据;根据所述标注数据对所述待标注图片中的字符进行标注。本申请通过将OCR识别技术得到的第一候选区域框转换为粒度更小的第二候选区域框,对应的第二输出数据输入至标注模型中预测标签,从而生成标注数据,生成的标注数据是以字符为最小粒度的,在后续进行标注时,能够对第一候选区域框内部的文本进行标注,不会标注整个第一候选区域框,提高数据标注的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (9)

1.一种数据标注方法,其特征在于,包括以下步骤:
获取待标注图片;
通过OCR识别技术处理所述待标注图片,得到具有若干第一候选区域框的第一图片及对应的第一输出数据,并对所述第一候选区域框进行编号;所述第一输出数据包括编号、所述第一候选区域框的四个顶点的第一坐标、文本识别结果和文本识别结果的置信度;
通过预设规则在所述第一候选区域框中生成第二候选区域框,并根据所述第二候选区域框和所述第一输出数据生成第二输出数据;其中,所述第一候选区域框的粒度大于所述第二候选区域框的粒度;所述第二输出数据包括所述第一候选区域框的四个顶点的第一坐标、第二候选区域框的四个顶点的第二坐标、字符识别结果和所述第二候选区域框所在的所述第一候选区域框的编号;
将所述第二输出数据输入至预训练完成的标注模型,得到标注数据;
根据所述标注数据对所述待标注图片中的字符进行标注;
所述通过OCR识别技术处理所述待标注图片,得到具有若干第一候选区域框的第一图片及对应的第一输出数据,并对所述第一候选区域框进行编号的步骤之后,包括:
通过lable-me工具在所述第一图片上确定实体片段;
计算所述实体片段在其所在的所述第一候选区域框的相交面积;
将所述相交面积除以其所在的所述第一候选区域框的面积得到的比值与预设比值进行比较;
若所述比值大于所述预设比值,在该所述第一候选区域框标注所述实体对应的标签。
2.根据权利要求1所述的数据标注方法,其特征在于,所述通过预设规则在所述第一候选区域框中生成第二候选区域框,并根据所述第二候选区域框和所述第一输出数据生成第二输出数据的步骤,包括;
根据所述第一候选区域框中各个字符生成所述第二候选区域框,并识别各个所述字符,得到所述字符识别结果;
获取各个所述字符的字符类型,根据所述字符类型确定各个所述字符占标准字符的比例;
将所述比例输入至预设公式计算各个所述字符的第二候选区域框的四个顶点的第二坐标;
根据所述第一候选区域框的四个顶点的第一坐标、第二候选区域框的四个顶点的第二坐标、字符识别结果和所述第二候选区域框所在的所述第一候选区域框的编号生成所述第二输出数据。
3.根据权利要求1所述的数据标注方法,其特征在于,所述将所述第二输出数据输入至预训练完成的标注模型,得到标注数据的步骤之前,包括:
获取若干待训练样本;其中,所述待训练样本具有正确的标注和第二训练输出数据;
将若干所述第二训练输出数据输入至初始BERT模型中进行迭代训练,使得所述初始BERT模型的输出结果中包括正确的标签。
4.根据权利要求1所述的数据标注方法,其特征在于,所述根据所述标注数据对所述待标注图片中的字符进行标注的步骤,包括:
根据所述标注数据生成第二图片;
将所述标注数据转换为供lable-me工具可读的json文件;
根据所述json文件,通过所述lable-me工具在所述第二图片中进行数据标注。
5.根据权利要求1所述的数据标注方法,其特征在于,所述通过预设规则在所述第一候选区域框中生成第二候选区域框的步骤,包括:
提取所述第一候选区域框中的词组;
基于各个所述词组生成所述第二候选区域框;以及,将排除所述词组后的所述第一候选区域框中的各个字符生成所述第二候选区域框。
6.一种数据标注装置,其特征在于,包括:
第一获取单元,用于获取待标注图片;
处理单元,用于通过OCR识别技术处理所述待标注图片,得到具有若干第一候选区域框的第一图片及对应的第一输出数据,并对所述第一候选区域框进行编号;所述第一输出数据包括编号、所对应的第一候选区域框的四个顶点的第一坐标、文本识别结果和文本识别结果的置信度;
生成单元,用于通过预设规则在所述第一候选区域框中生成第二候选区域框,并根据所述第二候选区域框和所述第一输出数据生成第二输出数据;其中,所述第一候选区域框的粒度大于所述第二候选区域框的粒度;所述第二输出数据包括第一候选区域框的四个顶点的第一坐标、第二候选区域框的四个顶点的第二坐标、字符识别结果和所述第二候选区域框所在的所述第一候选区域框的编号;
输入单元,用于将所述第二输出数据输入至预训练完成的标注模型,得到标注数据;
第一标注单元,用于根据所述标注数据对所述待标注图片中的字符进行标注;
确定单元,用于通过lable-me工具在所述第一图片上确定实体片段;
计算单元,用于计算所述实体片段在其所在的所述第一候选区域框的相交面积;
比较单元,用于将所述相交面积除以其所在的所述第一候选区域框的面积得到的比值与预设比值进行比较;
第二标注单元,用于若所述比值大于所述预设比值,在该所述第一候选区域框标注所述实体对应的标签。
7.根据权利要求6所述的数据标注装置,其特征在于,所述生成单元,包括:
第一生成子单元,用于根据所述第一候选区域框中各个字符生成所述第二候选区域框,并识别各个所述字符,得到所述字符识别结果;
确定子单元,用于获取各个所述字符的字符类型,根据所述字符类型确定各个所述字符占标准字符的比例;
计算子单元,用于将所述比例输入至预设公式计算各个所述字符的第二候选区域框的四个顶点的第二坐标;
第二生成子单元,用于根据所述第一候选区域框的四个顶点的第一坐标、第二候选区域框的四个顶点的第二坐标、字符识别结果和所述第二候选区域框所在的所述第一候选区域框的编号生成所述第二输出数据。
8.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的数据标注方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的数据标注方法的步骤。
CN202110686431.8A 2021-06-21 2021-06-21 数据标注方法、装置、计算机设备和存储介质 Active CN113255583B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110686431.8A CN113255583B (zh) 2021-06-21 2021-06-21 数据标注方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110686431.8A CN113255583B (zh) 2021-06-21 2021-06-21 数据标注方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN113255583A CN113255583A (zh) 2021-08-13
CN113255583B true CN113255583B (zh) 2023-02-03

Family

ID=77189152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110686431.8A Active CN113255583B (zh) 2021-06-21 2021-06-21 数据标注方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113255583B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657325B (zh) * 2021-08-24 2024-04-12 北京百度网讯科技有限公司 用于确定标注样式信息的方法、装置、介质及程序产品
CN113781607B (zh) * 2021-09-17 2023-09-19 平安科技(深圳)有限公司 Ocr图像的标注数据的处理方法、装置、设备及存储介质
CN116543392B (zh) * 2023-04-19 2024-03-12 钛玛科(北京)工业科技有限公司 一种用于深度学习字符识别的标注方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017173925A (ja) * 2016-03-18 2017-09-28 株式会社湯山製作所 光学文字認識装置
CN110321760A (zh) * 2018-03-29 2019-10-11 北京和缓医疗科技有限公司 一种医疗单据识别方法和装置
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553236B (zh) * 2020-04-23 2022-06-07 福建农林大学 基于道路前景图像的路面病害目标检测与实例分割方法
CN112700476A (zh) * 2021-01-08 2021-04-23 北京工业大学 一种基于卷积神经网络的红外船视频跟踪方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017173925A (ja) * 2016-03-18 2017-09-28 株式会社湯山製作所 光学文字認識装置
CN110321760A (zh) * 2018-03-29 2019-10-11 北京和缓医疗科技有限公司 一种医疗单据识别方法和装置
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN113255583A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN113255583B (zh) 数据标注方法、装置、计算机设备和存储介质
US10915788B2 (en) Optical character recognition using end-to-end deep learning
US10956673B1 (en) Method and system for identifying citations within regulatory content
CN111680634B (zh) 公文文件处理方法、装置、计算机设备及存储介质
RU2760471C1 (ru) Способы и системы идентификации полей в документе
CN112434691A (zh) 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN112016274B (zh) 医学文本结构化方法、装置、计算机设备及存储介质
CN113536771B (zh) 基于文本识别的要素信息提取方法、装置、设备及介质
CN114612921B (zh) 表单识别方法、装置、电子设备和计算机可读介质
CN112308946A (zh) 题目生成方法、装置、电子设备及可读存储介质
CN112381153A (zh) 票据分类的方法、装置和计算机设备
CN113159013A (zh) 基于机器学习的段落识别方法、装置、计算机设备和介质
CN113420116B (zh) 医疗文档的分析方法、装置、设备及介质
CN115935914A (zh) 一种入院记录缺失文本补充方法
CN113255767B (zh) 票据分类方法、装置、设备及存储介质
CN112418206A (zh) 基于位置检测模型的图片分类方法及其相关设备
CN109960707B (zh) 一种基于人工智能的高校招生数据采集方法及系统
CN116932499A (zh) 一种dwg格式文件批量修改标注的方法
CN115659989A (zh) 基于文本语义映射关系的Web表格异常数据发现方法
CN110738054B (zh) 识别邮件中酒店信息的方法、系统、电子设备及存储介质
CN112257400A (zh) 表格数据提取方法、装置、计算机设备和存储介质
CN111461330A (zh) 一种基于多语言简历的多语言知识库构建方法及系统
CN116991983B (zh) 一种面向公司资讯文本的事件抽取方法及系统
CN113239128B (zh) 基于隐式特征的数据对分类方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant