CN112085012B - 项目名称和类别识别方法及装置 - Google Patents

项目名称和类别识别方法及装置 Download PDF

Info

Publication number
CN112085012B
CN112085012B CN202010921235.XA CN202010921235A CN112085012B CN 112085012 B CN112085012 B CN 112085012B CN 202010921235 A CN202010921235 A CN 202010921235A CN 112085012 B CN112085012 B CN 112085012B
Authority
CN
China
Prior art keywords
data
model
detected
layer
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010921235.XA
Other languages
English (en)
Other versions
CN112085012A (zh
Inventor
陈利琴
刘设伟
闫永泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Insurance Group Co Ltd
Taikang Online Property Insurance Co Ltd
Original Assignee
Taikang Insurance Group Co Ltd
Taikang Online Property Insurance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Insurance Group Co Ltd, Taikang Online Property Insurance Co Ltd filed Critical Taikang Insurance Group Co Ltd
Priority to CN202010921235.XA priority Critical patent/CN112085012B/zh
Publication of CN112085012A publication Critical patent/CN112085012A/zh
Application granted granted Critical
Publication of CN112085012B publication Critical patent/CN112085012B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明公开了一种项目名称和类别识别方法及装置,该方法包括:采用OCR技术对待检测理赔影像数据进行文字识别,获取文本数据。将文本数据输入预先训练好的多任务学习模型,多任务学习模型包括第一分类模型和第二分类模型,第一分类模型用于对文本数据分类,输出待检测理赔影像数据中目标项目的名称,第二分类模型用于对文本数据分类,输出待检测理赔影像数据中目标项目的类别。根据第一分类模型的输出结果,获取待检测理赔影像数据中目标项目的名称。在第一分类模型对文本数据分类有效时,利用第二分类模型输出待检测理赔影像数据中目标项目的类别。本发明全程无需人工参与,工作效率高,成本低。

Description

项目名称和类别识别方法及装置
技术领域
本发明涉及图像处理技术领域,尤其涉及一种项目名称和类别识别方法及装置。
背景技术
随着人们健康风险保障意识的增强,对保险的需求也在不断增加,理赔压力也就随之剧增,为了保证理赔工作的顺利进行,一般需要对用户提供的理赔影像上面的信息进行采集录入。
以采集理赔影像中的医疗项目名称为例,现有技术一般是使用OCR技术,配合预设匹配规则识别出理赔影像中的医疗项目名称,再以人工的方式采集出OCR识别结果中的医疗项目名称,并对这些项目名称进行归类,工作效率低,成本高。
发明内容
本发明实施例提供一种项目名称和类别识别方法,全程无需人工参与,工作效率高,成本低,该方法包括:
采用OCR技术对待检测理赔影像数据进行文字识别,获取文本数据;
将所述文本数据输入预先训练好的多任务学习模型,所述多任务学习模型包括第一分类模型和第二分类模型,所述第一分类模型用于对文本数据分类,输出待检测理赔影像数据中目标项目的名称,所述第二分类模型用于对文本数据分类,输出待检测理赔影像数据中目标项目的类别;
根据第一分类模型的输出结果,获取待检测理赔影像数据中目标项目的名称;
在第一分类模型对文本数据分类有效时,利用第二分类模型输出待检测理赔影像数据中目标项目的类别。
可选的,将所述文本数据输入预先训练好的多任务学习模型之前,所述方法还包括:
构建多任务学习模型,所述多任务学习模型包括:输入层、共享层、任务层;
构建多任务学习模型,包括:
利用BERT训练模型构建所述多任务学习模型的输入层,所述输入层的输入数据为所述文本数据,输出数据为字向量序列数据;
利用长短时记忆模型构建所述多任务学习模型的共享层,所述共享层的输入数据为字向量序列数据,输出数据为字向量序列数据的特征向量;
利用线性变换模型和逻辑回归模型构建所述多任务学习模型的任务层,所述任务层的输入数据为字向量序列数据的特征向量,输出数据为第一分类模型的输出结果和第二分类模型的输出结果。
可选的,利用长短时记忆模型构建所述多任务学习模型的共享层,包括:
将长短时记忆模型隐藏层最后时刻的输出与长短时记忆模型每一时刻的隐藏层的最大池化层、平均池化层连接,获取共享层的输出数据,所述输出数据为:
hc=[ht,maxpool(H),meanpool(H)]
其中,ht表示长短时记忆模型隐藏层最后时刻的输出,maxpool(H)表示最大池化层,meanpool(H)表示平均池化层。
可选的,采用OCR技术对待检测理赔影像数据进行文字识别,获取文本数据,包括:
对待检测理赔影像数据进行文字区域检测;
利用卷积循环神经网络CRNN,结合CTC算法,对检测到的文字区域进行识别,获取文本数据。
可选的,采用OCR技术对待检测理赔影像数据进行文字识别,获取文本数据之前,所述方法还包括:
按照颜色通道对待检测理赔影像数据进行区域特征值提取处理,得到所述待检测理赔影像数据中与所述颜色通道对应的各个区域的区域特征值;
根据所述区域特征值与预先设置的第一阈值对所述待检测理赔影像数据中所述各个区域进行筛选,确定所述待检测理赔影像数据中的文本区域;
对所述待检测理赔影像数据中的所述文本区域进行文字识别,得到与所述文本区域对应的字段信息;
将所述字段信息与预先设置的非法关键词集合进行匹配,确定所述待检测理赔影像数据是否为包含非法字段信息的非法图像。
可选的,所述方法还包括:
获取第一语料库和第二语料库;
利用第一语料库训练所述多任务学习模型中的第一分类模型;
利用第二语料库训练所述多任务学习模型中的第二分类模型。
可选的,对理赔影像数据进行文字识别,获取文本数据之后,所述方法还包括:对所述文本数据进行第一预处理,所述第一预处理包括:空格处理和特殊字符处理。可选的,对理赔影像数据进行文字识别,获取文本数据之前,所述方法还包括:
对待检测理赔影像数据进行第二预处理,所述第二预处理包括:图像倾斜检测与校正、图像去噪和二值化处理。
可选的,所述第一分类模型和第二分类模型采用交叉熵损失函数作为训练的损失函数:
其中,m为样本数量,其取值为1-M,M为样本总数,yi为第i个样本的真实标签,pi为第i个样本的模型预测的标签概率。
本发明实施例还提供一种项目名称和类别识别装置,全程无需人工参与,工作效率高,成本低,该装置包括:
文字识别模块,用于采用OCR技术对待检测理赔影像数据进行文字识别,获取文本数据;
文本数据输入模块,用于将所述文本数据输入预先训练好的多任务学习模型,所述多任务学习模型包括第一分类模型和第二分类模型;
项目名称获取模块,用于根据第一分类模型的输出结果,获取待检测理赔影像数据中目标项目的名称;
项目类别获取模块,用于根据第二分类模型的输出结果,结合待检测理赔影像数据中目标项目的名称,获取所述目标项目的类别。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。
本发明实施例中,通过采用OCR技术对待检测理赔影像数据进行文字识别,获取文本数据,并将该文本数据输入预先训练好的多任务学习模型,根据多任务学习模型中第一分类模型的输出结果,获取待检测理赔影像数据中目标项目的名称,并在第一分类模型对文本数据分类有效时,利用第二分类模型输出待检测理赔影像数据中目标项目的类别,全程无需人工参与,工作效率高,成本低。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中项目名称和类别识别方法的流程图;
图2为本发明实施例中项目名称和类别识别方法的又一流程图;
图3为本发明实施例中利用语料库进行多任务学习模型训练的流程图;
图4为本发明实施例中项目名称和类别识别装置的结构示意图;
图5为本发明实施例中项目名称和类别识别方法的具体示例图;
图6是本发明实施例计算机设备示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
在本说明书的描述中,所使用的“包含”、“包括”、“具有”、“含有”等,均为开放性的用语,即意指包含但不限于。参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本申请的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
随着人们健康风险保障意识的增强,对保险的需求也在不断增加,理赔压力也就随之剧增,为了保证理赔工作的顺利进行,一般需要对用户提供的理赔影像上面的信息进行采集录入。以采集理赔影像中的医疗项目名称为例,现有技术一般是使用文字识别技术,配合预设匹配规则识别出理赔影像中的医疗项目名称,再以人工的方式采集出OCR识别结果中的医疗项目名称,并对这些项目名称进行归类,工作效率低,成本高。为了解决上述问题,本发明实施例提供了一种项目名称和类别识别方法。
图1为本发明实施例提供的一种项目名称和类别识别方法的流程图,如图1所示,该方法包括:
步骤101、采用OCR(Optical Character Recognition,光学字符识别)技术对待检测理赔影像数据进行文字识别,获取文本数据。
具体实施时,首先通过文字检测算法找出文本出现在图像中的位置,然后结合OCR技术识别出图像的文本内容。其中,文字检测方法有多种,例如,Faster RCNN、CTPN、EAST等;图像内容文本识别的方法可以采用CRNN、ASTER、FAN等,他们都是通过深度学习的方法将学习到的序列特征信息转化为最终的文字识别结果。其中,OCR技术包括文字检测技术和文字识别技术。
在实施例中,采用OCR技术对待检测理赔影像数据进行文字识别,获取文本数据包括:
对待检测理赔影像数据进行文字区域检测;
利用卷积循环神经网络CRNN,结合CTC算法,对检测到的文字区域进行识别,获取文本数据
具体实施时,可以采用EAST方法实现对理赔影像的文字检测,然后结合经典的CRNN+CTC识别方法对检测到的文字区域进行识别,可以实现端到端不定长的文字识别。CRNN+CTC网络结构包含卷积层、循环层、转录层三部分,首先使用CNN提取出图像的卷积特征向量序列,然后使用双向的LSTM进一步提取图像卷积特征中的序列特征,最后利用CTC损失函数将LSTM输出特征转化成最终的标签序列,从而解决训练模型时字符无法对齐的问题,保存训练好的OCR模型,供应用阶段使用。
步骤102、将所述文本数据输入预先训练好的多任务学习模型,所述多任务学习模型包括第一分类模型和第二分类模型,所述第一分类模型用于对文本数据分类,输出待检测理赔影像数据中目标项目的名称,所述第二分类模型用于对文本数据分类,输出待检测理赔影像数据中目标项目的类别。
步骤103、根据第一分类模型的输出结果,获取待检测理赔影像数据中目标项目的名称。
步骤104、在第一分类模型对文本数据分类有效时,利用第二分类模型输出待检测理赔影像数据中目标项目的类别。
在实施例中,以采集理赔影像中的医疗项目名称为例,一张理赔影像经过步骤101中的OCR技术进行文字检测及识别,获取到票据中的所有文本数据,经过步骤102中所训练好的多任务学习模型,可以分别得到两个不同任务的分类标签,第一分类任务约束着第二分类任务,对于一条OCR识别文本,当它被第一分类模型判断为医疗项目名称时,它所属的第二分类模型预测标签才有效,否则,当它被第一分类模型判断为非医疗项目名称时,它不属于任何一种医疗项目名称。
由图1可知,本发明实施例提供的项目名称和类别识别方法,通过采用OCR技术对待检测理赔影像数据进行文字识别,获取文本数据,并将该文本数据输入预先训练好的多任务学习模型,根据多任务学习模型中第一分类模型的输出结果,获取待检测理赔影像数据中目标项目的名称,在第一分类模型对文本数据分类有效时,利用第二分类模型输出待检测理赔影像数据中目标项目的类别,全程无需人工参与,工作效率高,成本低。
在本发明实施例中,为了进一步提高文字识别效果,避免出现非法字段,采用OCR技术对待检测理赔影像数据进行文字识别,获取文本数据之前,所述方法还包括:
按照颜色通道对待检测理赔影像数据进行区域特征值提取处理,得到所述待检测理赔影像数据中与所述颜色通道对应的各个区域的区域特征值。
具体地,每个待检测理赔影像数据都是由通过基础颜色进行叠加而成的像素点组成。因此,在每个与基础颜色对应的颜色通道中,都存放着待检测理赔影像数据中与其对应的颜色元素的信息。在对待检测理赔影像数据进行显示时,通过对所有颜色通道中的颜色进行叠加混合,从而得到待检测理赔影像数据中的每个像素点的颜色。
因为颜色模式不同,从而导致颜色通道数量不同。因此,为了便于处理,所以可以在对待检测理赔影像数据进行区域特征值提取处理之前,先对待检测理赔影像数据的颜色模式进行统一化处理。将待检测理赔影像数据统一转换为RGB模式,然后再对其进行后续区域特征值提取处理。
根据所述区域特征值与预先设置的第一阈值对所述待检测理赔影像数据中所述各个区域进行筛选,确定所述待检测理赔影像数据中的文本区域。
具体的,在确定第一阈值时,可以利用区域特征值的提取算法,对各类带有文字的待检测理赔影像数据进行区域特征值提取处理。通过对带有文字的区域的区域特征值进行统计,从而得到用于确定待检测理赔影像数据中文本区域的第一阈值。其中,第一阈值用于对与每个颜色通道对应待检测理赔影像数据中的各个区域进行判断,通过判断,确认当前区域是否为文本区域。
对所述待检测理赔影像数据中的所述文本区域进行文字识别,得到与所述文本区域对应的字段信息。
将所述字段信息与预先设置的非法关键词集合进行匹配,确定所述待检测理赔影像数据是否为包含非法字段信息的非法图像。
在实施例中,将上述通过文字识别引擎得到的与文本区域对应的字段信息,分别与预先设置的非法关键词集合中的非法关键词依次进行匹配,当字段信息与非法关键词集合中的非法关键词匹配时,则确定待检测理赔影像数据为包含有非法字段信息的非法图像。
在本发明实施例中,如图2所示,将所述文本数据输入预先训练好的多任务学习模型之前,所述方法还包括:
步骤201、构建多任务学习模型,所述多任务学习模型包括:输入层、共享层、任务层。
在本实施例中,采用多任务学习中的交替学习方法,在训练过程中多个分类任务是交替进行训练的,可选择随机交替训练或者你来我往的轮询交替训练,多个分类任务共享一个结构,所有的任务在训练的时候影响着共享结构里面的参数;同时,不同任务有各自的任务层,即损失函数和优化函数是独立的,在训练过程中各任务影响各自任务层的参数。
具体地,构建多任务学习模型,包括:
利用BERT训练模型构建所述多任务学习模型的输入层,所述输入层的输入数据为所述文本数据,输出数据为字向量序列数据。
利用长短时记忆模型构建所述多任务学习模型的共享层,所述共享层的输入数据为字向量序列数据,输出数据为字向量序列数据的特征向量。
利用线性变换模型和逻辑回归模型构建所述多任务学习模型的任务层,所述任务层的输入数据为字向量序列数据的特征向量,输出数据为第一分类模型的输出结果和第二分类模型的输出结果。
其中,在利用BERT训练模型构建所述多任务学习模型的输入层时,具体地,构建模型的输入表示,即embedding层。BERT训练模型采用双向的transformer编码器作为主体模型结构,利用transformer内部的多注意力机制充分地学习到了文本数据的上下文信息,从而获取到了文本数据的深度双向编码表示;鉴于BERT训练模型强大的语义表达能力,本发明将BERT训练模型引入到多任务的两个分类任务中,利用BERT训练模型生成字向量序列数据,在模型的训练过程中BERT模型参数是固定的,可以将此方法看作类似于word2vec训练词向量的方法,并作为网络结构的embedding层。
具体实施时,可以载入基于中文的BERT训练模型,我们采用腾讯AILab实验室搭建的Bert Server(Bert-serving-server)和Client(bert-serving-client)的python包,我们启动Bert的词向量服务,就可以调用相应client生成词向量。
在对训练语料进行数据预处理、数据标注,且启动好了BERT生成词向量服务后,下面开始进行多任务学习一个粗分类的二分类模型和一个细分类的三分类模型供应用阶段使用。
在利用长短时记忆模型构建所述多任务学习模型的共享层时,具体地,先通过BERT训练模型获得输入数据的语义表示,获取到句子中每个字的特征向量后,再将字向量序列连接到双向的长短时记忆模型(Bi-LSTM)层进行进一步的语义编码。
构建Bi-LSTM网络结构:利用双向的长短时记忆模型提取句子的上文特征,此过程是一个编码的过程,具体过程:
双向的长短时记忆模型是由一个前向的LSTM和一个后向的LSTM构成的,对经过文字识别得到的句子的词嵌入序列x1,x2,...xn分别进行从左到右和从右到左的LSTM编码处理后,分别得到了在两个方向上的每个时间步的隐藏层状态,前向隐藏层输出记为后向隐藏层输出为/>LSTM单元的计算公式为:
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
ct=ftct-1+it tanh(Wxcxt+Whcht-1+bc)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
ht=ot tanh(ct)
其中,σ是logistic激活函数,xt是字向量,it、ft、ot分别表示t时刻的输入门、遗忘门、输出门,ct和ct-1分别表示t时刻和t-1时刻的细胞单元的记忆流状态,ht表示t时刻隐藏层向量。bi、bi、bc、bo分别是输入门、遗忘门、输出门
记忆细胞的偏置参数,权值矩阵W的下标具有特殊意义,例如whi表示连接隐含层到输入门的权值矩阵。
为了充分利用文本每个时刻的上下文信息,将隐藏层的前向信息和后向信息拼接在一起作为此时刻隐藏层的输出,表示为:所有时刻隐藏层表示为:H={h1,h2,…,ht}。
文本分类任务的有用信息常常只包含在几个词汇中,它们可能出现在文本的任何地方,如果我们只考虑过去隐藏层状态的值,一些有用信息可能会被丢失,所以我们将Bi-LSTM层最后时刻的隐藏状态与每一时刻的隐藏层的最大池化层、平均池化层连接在一起获得输入序列的特征表示,并作为共享层的最终输出,表示为:
hc=[ht,maxpool(H),meanpool(H)]
其中,ht表示Bi-LSTM隐藏层最后时刻的输出,maxpool(H)表示最大池化层,meanpool(H)表示平均池化层。
在利用线性变换模型和逻辑回归模型构建所述多任务学习模型的任务层时,在特定任务层每个任务使用自己独有的参数,通过对不同任务的参数之间的差异和约束来表达相似性的。对池化后的特征向量依次连接一个全链接层和逻辑回归softmax分类层,从而利用线性变换和softmax函数进行分类,在第一分类任务中,可获得OCR识别文本是项目名称和不是项目名称的概率,在细分类任务中,可获得OCR识别文本分别属于哪种项目名称的概率。本实施例中的多任务学习中的第一分类任务和第二分类任务在训练的过程中共享共享层中的各层的参数,但是各个任务的全链接层和softmax层的参数是不共享的。
多任务学习中的第一分类是一个二分类任务,第二分类任务是一个多分类任务,都可采用交叉熵损失函数作为训练的损失函数,交叉熵公式表示为:
其中,m为样本数量,其取值为1-M,M为样本总数,yi为第i个样本的真实标签,pi为第i个样本的模型预测的标签概率。
在实施例中,将第一分类模型作为粗分类模型,将第二分类模型作为细分类模型,将粗分类任务定义成一个任务类型:classify_one,将细分类任务定义成一个任务类型:classify_two,具体应用时,采用多任务学习中的交替学习方法,随机的先选择一个任务进行训练,假设先选择粗分类任务classify_one,那么会先从TRAIN1语料中挑选一个batch的数据输入到模型的embedding层,即生成对应的字向量序列;将这些字向量序列经过双向的长短时记忆网络Bi-LSTM神经网络进行进一步的语义编码,对Bi-LSTM层输出结果进行max-pooling操作、mean-pooling操作,并将Bi-LSTM最后时刻隐藏层结果与max-pooling操作结果、mean-pooling操作结果连接在一起来获得输入序列的特征表示,它可以提取到最有用的特征,这部分的参数是粗分类与细分类任务共享的。最后,对池化后的特征向量依次连接一个线性层和softmax分类层,从而利用线性变换和softmax函数进行分类。然后再随机的选择一个任务进行训练。假设此次选择的是细分类任务classify_two,那么从TRAIN2语料中挑选一个batch的数据输入到模型的embedding层,即生成对应的字向量序列,将这些字向量序列经过双向的长短时记忆网络Bi-LSTM神经网络进行进一步的语义编码,对Bi-LSTM层输出结果进行max-pooling操作、mean-pooling操作,并将Bi-LSTM最后时刻隐藏层结果与max-pooling操作结果、mean-pooling操作结果连接在一起来获得输入序列的特征表示,此处模型的参数是共享的,即上次classify_one任务一次训练后的参数;最后对池化后的特征向量依次连接一个线性层和softmax分类层,从而利用线性变换和softmax函数进行分类。这里的第一分类模型和第二分类模型最终是一个模型文件,但一个输入可得到两种不同分类任务的结果,实质上也是两个模型,保存训练好的最佳的多任务分类模型,供应用阶段使用。
进一步地,如图5所示,以“葡萄糖注射液”为例对本申请的名称及类别识别过程进行说明:
1、构建多任务学习模型,并对该多任务学习模型进行训练;
2、对含有葡萄糖注射液字样的理赔影像进行预处理;
3、采用OCR技术对所述理赔影像数据进行文字识别,获取文本数据;
4、将所述文本数据输入预先训练好的多任务学习模型,所述多任务学习模型包括第一分类模型和第二分类模型;
5、如果第一分类模型的输出结果为1,则表示该文本为医疗项目名称,那么,再利用第二分类模型继续判断该文本具体属于哪类项目名称,如果第二分类模型的输出结果为2,则表示该文本为药品名称。
6、如果第一分类模型的输出结果为0,则表示该文本不是医疗项目名称。
图3为利用语料库进行多任务学习模型训练的流程图,如图3所示,所述方法还包括:
步骤301、获取第一语料库和第二语料库。
步骤302、利用第一语料库训练所述多任务学习模型中的第一分类模型。
步骤303、利用第二语料库训练所述多任务学习模型中的第二分类模型。
具体地,举例来说,第一语料库是对项目名称进行粗分类的训练语料库,表示项目名称的文本标为1,非项目名称的文本标为0。第二语料库是对项目名称进行细分的训练语料,即将所有项目名称中表示药品名称的文本标为2,表示诊疗名称的文本标为3,耗材名称的文本标为4。
在本发明实施例中,为了提高对理赔影像数据的文字识别精度,获取文本数据之后,所述方法还包括:
对所述文本数据进行第一预处理,所述第一预处理包括:空格处理和特殊字符处理。
在本发明实施例中,为了提高待检测理赔影像的清晰度,对理赔影像数据进行文字识别,获取文本数据之前,所述方法还包括:
对待检测理赔影像数据进行第二预处理,所述第二预处理包括:图像倾斜检测与校正、图像去噪和二值化处理。
基于同一发明构思,本发明实施例中还提供了一种项目名称和类别识别装置,如下面的实施例所述。由于项目名称和类别识别装置解决问题的原理与项目名称和类别识别方法相似,因此,项目名称和类别识别装置的实施可以参见项目名称和类别识别方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4为本发明实施例提供的一种项目名称和类别识别装置的结构示意图,如图4所示,该装置包括:
文字识别模块401,用于采用OCR技术对待检测理赔影像数据进行文字识别,获取文本数据。
文本数据输入模块402,用于将所述文本数据输入预先训练好的多任务学习模型,所述多任务学习模型包括第一分类模型和第二分类模型,所述第一分类模型用于对文本数据分类,输出待检测理赔影像数据中目标项目的名称,所述第二分类模型用于对文本数据分类,输出待检测理赔影像数据中目标项目的类别。
项目名称获取模块403,用于根据第一分类模型的输出结果,获取待检测理赔影像数据中目标项目的名称。
项目类别获取模块404,用于在第一分类模型对文本数据分类有效时,利用第二分类模型输出待检测理赔影像数据中目标项目的类别。
为了实现上述目的,根据本申请的另一方面,还提供了一种计算机设备。如图6所示,该计算机设备包括存储器、处理器、通信接口以及通信总线,在存储器上存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例方法中的步骤。
处理器可以为中央处理器(Central Processing Unit,CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及单元,如本发明上述方法实施例中对应的程序单元。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及作品数据处理,即实现上述方法实施例中的方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个单元存储在所述存储器中,当被所述处理器执行时,执行上述实施例中的方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。
综上所述,本发明通过采用OCR技术对待检测理赔影像数据进行文字识别,获取文本数据,并将该文本数据输入预先训练好的多任务学习模型,根据多任务学习模型中第一分类模型的输出结果,获取待检测理赔影像数据中目标项目的名称,并在第一分类模型对文本数据分类有效时,利用第二分类模型输出待检测理赔影像数据中目标项目的类别,全程无需人工参与,工作效率高,成本低。
此外,本发明利用BERT训练模型生成字向量,从而使输入数据获得更强的语义特征表示。采用多任务深度学习的方法,将一个文本多分类问题转化成一个多任务学习问题,解决了数据不均衡问题。同时,多任务学习可挖掘出不同任务之间共有的数据特征,不同任务互相促进学习,使文本分类模型的泛化能力更强,从而更准确地筛选出理赔影像中的医疗项目名称。结合OCR和NLP技术识别出理赔影像中的医疗项目名称,将该方法智能化地应用在保险行业的理赔系统中,大力的减少了保险理赔过程中纯人工采集数据的效率低、成本高等问题
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种项目名称和类别识别方法,其特征在于,包括:
采用OCR技术对待检测理赔影像数据进行文字识别,获取文本数据;
将所述文本数据输入预先训练好的多任务学习模型,所述多任务学习模型包括第一分类模型和第二分类模型,所述第一分类模型用于对文本数据分类,输出待检测理赔影像数据中目标项目的名称,所述第二分类模型用于对文本数据分类,输出待检测理赔影像数据中目标项目的类别;
根据第一分类模型的输出结果,获取待检测理赔影像数据中目标项目的名称;
在第一分类模型对文本数据分类有效时,利用第二分类模型输出待检测理赔影像数据中目标项目的类别;
所述方法还包括:
获取第一语料库和第二语料库;
利用第一语料库训练所述多任务学习模型中的第一分类模型;
利用第二语料库训练所述多任务学习模型中的第二分类模型;
采用OCR技术对待检测理赔影像数据进行文字识别,获取文本数据,包括:
对待检测理赔影像数据进行文字区域检测;
利用卷积循环神经网络CRNN,结合CTC算法,对检测到的文字区域进行识别,获取文本数据;
使用CNN提取出待检测理赔影像的卷积特征向量序列,然后使用双向的LSTM提取待检测理赔影像卷积特征中的序列特征,最后利用CTC算法的损失函数将LSTM输出特征转化成最终的标签序列;
将所述文本数据输入预先训练好的多任务学习模型之前,所述方法还包括:
构建多任务学习模型,所述多任务学习模型包括:输入层、共享层、任务层,
其中构建多任务学习模型,包括:
利用BERT训练模型构建所述多任务学习模型的输入层,所述输入层的输入数据为所述文本数据,输出数据为字向量序列数据;
利用长短时记忆模型构建所述多任务学习模型的共享层,所述共享层的输入数据为字向量序列数据,输出数据为字向量序列数据的特征向量;
利用线性变换模型和逻辑回归模型构建所述多任务学习模型的任务层,所述任务层的输入数据为字向量序列数据的特征向量,输出数据为第一分类模型的输出结果和第二分类模型的输出结果;
利用长短时记忆模型构建所述多任务学习模型的共享层,包括:
将长短时记忆模型隐藏层最后时刻的输出与长短时记忆模型每一时刻的隐藏层的最大池化层、平均池化层连接,获取共享层的输出数据,所述输出数据为:
hc=[ht,maxpool(H),meanpool(H)]
其中,ht表示长短时记忆模型隐藏层最后时刻的输出,maxpool(H)表示最大池化层,meanpool(H)表示平均池化层,H为所有时刻隐藏层。
2.如权利要求1所述的方法,其特征在于,采用OCR技术对待检测理赔影像数据进行文字识别,获取文本数据之前,所述方法还包括:
按照颜色通道对待检测理赔影像数据进行区域特征值提取处理,得到所述待检测理赔影像数据中与所述颜色通道对应的各个区域的区域特征值;
根据所述区域特征值与预先设置的第一阈值对所述待检测理赔影像数据中所述各个区域进行筛选,确定所述待检测理赔影像数据中的文本区域;
对所述待检测理赔影像数据中的所述文本区域进行文字识别,得到与所述文本区域对应的字段信息;
将所述字段信息与预先设置的非法关键词集合进行匹配,确定所述待检测理赔影像数据是否为包含非法字段信息的非法图像。
3.如权利要求1所述的方法,其特征在于,所述第一分类模型和第二分类模型采用交叉熵损失函数作为训练的损失函数:
其中,m为样本数量,其取值为1-M,M为样本总数,yi为第i个样本的真实标签,pi为第i个样本的模型预测的标签概率。
4.一种项目名称和类别识别装置,其特征在于,包括:
文字识别模块,用于采用OCR技术对待检测理赔影像数据进行文字识别,获取文本数据;
文本数据输入模块,用于将所述文本数据输入预先训练好的多任务学习模型,所述多任务学习模型包括第一分类模型和第二分类模型,所述第一分类模型用于对文本数据分类,输出待检测理赔影像数据中目标项目的名称,所述第二分类模型用于对文本数据分类,输出待检测理赔影像数据中目标项目的类别;
项目名称获取模块,用于根据第一分类模型的输出结果,获取待检测理赔影像数据中目标项目的名称;
项目类别获取模块,用于在第一分类模型对文本数据分类有效时,利用第二分类模型输出待检测理赔影像数据中目标项目的类别;
所述装置还包括:
获取第一语料库和第二语料库;
利用第一语料库训练所述多任务学习模型中的第一分类模型;
利用第二语料库训练所述多任务学习模型中的第二分类模型;
采用OCR技术对待检测理赔影像数据进行文字识别,获取文本数据,包括:
对待检测理赔影像数据进行文字区域检测;
利用卷积循环神经网络CRNN,结合CTC算法,对检测到的文字区域进行识别,获取文本数据;
使用CNN提取出待检测理赔影像的卷积特征向量序列,然后使用双向的LSTM提取待检测理赔影像卷积特征中的序列特征,最后利用CTC算法的损失函数将LSTM输出特征转化成最终的标签序列;
文本数据输入模块,还用于:
构建多任务学习模型,所述多任务学习模型包括:输入层、共享层、任务层,
其中构建多任务学习模型,包括:
利用BERT训练模型构建所述多任务学习模型的输入层,所述输入层的输入数据为所述文本数据,输出数据为字向量序列数据;
利用长短时记忆模型构建所述多任务学习模型的共享层,所述共享层的输入数据为字向量序列数据,输出数据为字向量序列数据的特征向量;
利用线性变换模型和逻辑回归模型构建所述多任务学习模型的任务层,所述任务层的输入数据为字向量序列数据的特征向量,输出数据为第一分类模型的输出结果和第二分类模型的输出结果;
利用长短时记忆模型构建所述多任务学习模型的共享层,包括:
将长短时记忆模型隐藏层最后时刻的输出与长短时记忆模型每一时刻的隐藏层的最大池化层、平均池化层连接,获取共享层的输出数据,所述输出数据为:
hc=[ht,maxpool(H),meanpool(H)]
其中,ht表示长短时记忆模型隐藏层最后时刻的输出,maxpool(H)表示最大池化层,meanpool(H)表示平均池化层,H为所有时刻隐藏层。
5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3任一项所述方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至3任一所述方法。
CN202010921235.XA 2020-09-04 2020-09-04 项目名称和类别识别方法及装置 Active CN112085012B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010921235.XA CN112085012B (zh) 2020-09-04 2020-09-04 项目名称和类别识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010921235.XA CN112085012B (zh) 2020-09-04 2020-09-04 项目名称和类别识别方法及装置

Publications (2)

Publication Number Publication Date
CN112085012A CN112085012A (zh) 2020-12-15
CN112085012B true CN112085012B (zh) 2024-03-08

Family

ID=73731973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010921235.XA Active CN112085012B (zh) 2020-09-04 2020-09-04 项目名称和类别识别方法及装置

Country Status (1)

Country Link
CN (1) CN112085012B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668857A (zh) * 2020-12-23 2021-04-16 深圳壹账通智能科技有限公司 分阶段质检的数据分类方法、装置、设备及存储介质
CN112836492B (zh) * 2021-01-30 2024-03-08 云知声智能科技股份有限公司 一种医疗项目名称对齐方法
CN112966109B (zh) * 2021-03-09 2023-04-18 北京邮电大学 一种多层级的中文文本的分类方法及其系统
CN113255645B (zh) * 2021-05-21 2024-04-23 北京有竹居网络技术有限公司 一种文本行图片的解码方法、装置和设备
CN113344197A (zh) * 2021-06-02 2021-09-03 北京三快在线科技有限公司 一种识别模型的训练方法、业务执行的方法以及装置
CN113435437A (zh) * 2021-06-24 2021-09-24 随锐科技集团股份有限公司 开关分合指示牌状态的识别方法、识别装置及存储介质
CN113450922B (zh) * 2021-06-29 2024-04-12 平安养老保险股份有限公司 基于账单获取疾病类型的方法、装置、计算机设备及存储介质
CN113537200A (zh) * 2021-08-30 2021-10-22 平安医疗健康管理股份有限公司 基于图像识别的信息回填方法、装置、设备及介质
CN113724095B (zh) * 2021-08-31 2023-09-05 平安养老保险股份有限公司 图片信息预测方法、装置、计算机设备及存储介质
CN114997338A (zh) * 2022-07-19 2022-09-02 成都数之联科技股份有限公司 一种项目分类及分类模型训练方法、装置、介质和设备
CN116704248A (zh) * 2023-06-07 2023-09-05 南京大学 一种基于多语义不平衡学习的血清样本图像分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529380A (zh) * 2015-09-15 2017-03-22 阿里巴巴集团控股有限公司 图像的识别方法及装置
CN108109680A (zh) * 2017-12-20 2018-06-01 南通艾思达智能科技有限公司 一种保险理赔影像包分拣的方法
WO2020155763A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN111581361A (zh) * 2020-04-22 2020-08-25 腾讯科技(深圳)有限公司 一种意图识别方法及装置
CN111611377A (zh) * 2020-04-22 2020-09-01 淮阴工学院 基于知识蒸馏的多层神经网络语言模型训练方法与装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529380A (zh) * 2015-09-15 2017-03-22 阿里巴巴集团控股有限公司 图像的识别方法及装置
CN108109680A (zh) * 2017-12-20 2018-06-01 南通艾思达智能科技有限公司 一种保险理赔影像包分拣的方法
WO2020155763A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN111581361A (zh) * 2020-04-22 2020-08-25 腾讯科技(深圳)有限公司 一种意图识别方法及装置
CN111611377A (zh) * 2020-04-22 2020-09-01 淮阴工学院 基于知识蒸馏的多层神经网络语言模型训练方法与装置

Also Published As

Publication number Publication date
CN112085012A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN112085012B (zh) 项目名称和类别识别方法及装置
CN107526785A (zh) 文本分类方法及装置
CN112164391A (zh) 语句处理方法、装置、电子设备及存储介质
CN113312916A (zh) 基于触发词语态学习的金融文本事件抽取方法及装置
JP2009514110A (ja) ポーズによるヒト検出
CN110263174B (zh) —基于焦点关注的主题类别分析方法
CN110705490B (zh) 视觉情感识别方法
CN111860193B (zh) 一种基于文本的行人检索自监督视觉表示学习系统及方法
Sarraf et al. A comprehensive review of deep learning architectures for computer vision applications
US11568140B2 (en) Optical character recognition using a combination of neural network models
CN117079299B (zh) 数据处理方法、装置、电子设备及存储介质
CN115292568B (zh) 一种基于联合模型的民生新闻事件抽取方法
CN112883931A (zh) 基于长短期记忆网络的实时真假运动判断方法
Shanthi et al. Algorithms for face recognition drones
Singh et al. Age, gender prediction and emotion recognition using convolutional neural network
CN114881173A (zh) 基于自注意力机制的简历分类方法和装置
CN113240033B (zh) 一种基于场景图高阶语义结构的视觉关系检测方法及装置
Barbhuiya et al. Gesture recognition from RGB images using convolutional neural network‐attention based system
CN112836755B (zh) 基于深度学习的样本图像生成方法及其系统
CN112016493A (zh) 图像描述方法、装置、电子设备及存储介质
CN117012370A (zh) 多模态疾病辅助推理系统、方法、终端及存储介质
CN116775880A (zh) 一种基于标签语义和迁移学习的多标签文本分类方法及系统
CN116758558A (zh) 基于跨模态生成对抗网络的图文情感分类方法及系统
CN116109980A (zh) 一种基于视频文本匹配的动作识别方法
Jain et al. Multi-label classification for images with labels for image annotation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant