CN112580637B

CN112580637B - 文本信息识别方法、提取方法、装置及系统

Info

Publication number: CN112580637B
Application number: CN202011625464.3A
Authority: CN
Inventors: 潘蕾
Original assignee: Suning Financial Technology Nanjing Co Ltd
Current assignee: Suning Financial Technology Nanjing Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2023-05-12
Anticipated expiration: 2040-12-31
Also published as: CN112580637A; CA3144405A1

Abstract

本发明公开了一种文本信息识别方法、提取方法、装置及系统，属于文本信息处理领域。其中识别方法包括：对图片进行文本检测，获得候选框以及对应的原始置信度；根据第一候选框与第二候选框的交集区域以及闭包区域的尺寸计算第二候选框的损失参数；计算第一候选框与第二候选框的原始交并比，根据第二候选框的损失参数修正原始交并比获得修正交并比；根据修正交并比和第二候选框的原始置信度计算第二候选框的修正置信度；判断第二候选框的修正置信度是否满足置信度条件，若满足，则将第一候选框及第二候选框作为待识别文本框；识别待识别文本框中的文本信息。本发明公开的方法适用于文本行间距较小图片中的文本信息的提取，有效地防止文本行漏检。

Description

文本信息识别方法、提取方法、装置及系统

技术领域

本发明涉及文本信息处理技术领域，特别涉及一种文本信息识别方法、提取方法、装置及系统。

背景技术

商品营销图片主要是指电商运营平台页面上呈现出来的用于宣传推广商品的图片。为了吸引消费者提高售卖率，商家们想尽可能地在商品营销图片中呈现更多的商品信息及营销活动信息，因此商品营销图片中的文本行之间的间距往往不固定，这给本领域技术人员在识别商品营销图片中文本信息的过程增加了难度，且由于商品营销活动信息变动频繁，人工识别的方式跟不上文本信息的变化，因此亟需发明一种可以适用于复杂图片的自动文本信息识别技术。

发明内容

为了解决现有技术的问题，本发明实施例提供了文本信息识别方法、提取方法、装置及系统。所述技术方案如下：

第一方面，提供了一种文本信息识别方法，所述方法包括：

对图片进行文本检测，获得标识所述图片中文本行位置的候选框，以及各所述候选框对应的原始置信度；

在存在交集区域的所述候选框中选取所述原始置信度最大的所述候选框作为第一候选框，其他任一所述候选框作为第二候选框，根据所述第一候选框与所述第二候选框的交集区域的尺寸以及闭包区域的尺寸，计算所述第二候选框的损失参数；

计算所述第一候选框与所述第二候选框的原始交并比，根据所述第二候选框的损失参数修正所述原始交并比，获得修正交并比；

根据所述修正交并比和第二候选框的原始置信度计算所述第二候选框的修正置信度；

判断所述第二候选框的修正置信度是否满足置信度条件，若满足，则将所述第一候选框及所述第二候选框作为待识别文本框；

识别所述待识别文本框中的文本信息。

进一步地，所述根据所述第一候选框与所述第二候选框的所述交集区域的尺寸以及闭包区域的尺寸，计算所述第二候选框的损失参数，包括：

获取所述交集区域的宽度和高度，以及所述闭包区域的宽度和高度；

根据所述交集区域与所述闭包区域的高度比，以及所述交集区域与所述闭包区域的宽度比，计算所述第二候选框的损失参数。

进一步地，所述根据所述修正交并比和所述第二候选框的原始置信度计算所述第二候选框的修正置信度，包括：

根据所述修正交并比计算所述第二候选框的衰减权值；

利用所述第二候选框的衰减权值修正所述第二候选框的所述原始置信度，获得所述第二候选框的修正置信度。

进一步地，所述识别所述待识别文本框中的文本信息，包括：

采用神经网络模型识别所述待识别文本框中的文本信息，所述神经网络模型包括：卷积层和池化层；

其中，所述卷积层包括交替连接的标准卷积核和扩张卷积核，所述扩张卷积核的感受野的宽度相对所述标准卷积核的感受野的宽度大；

所述池化层的分块窗口为矩形，且采用标准最大池化和平均池化加权混合池化，池化权重系数根据分块图片的全局最大值和平均值计算确定。

第二方面，提供了一种文本信息提取方法，包括：

利用第一方面中任一项所述方法识别商品图片中的文本信息；

将所述文本信息与预建立的延保同义词词典进行匹配，所述延保同义词词典中包含延保关键词及其同义词；

匹配成功后，将所述文本信息中包含的所述延保关键词进行同义词替换；

提取经过同义词替换的所述文本信息。

进一步地，根据所述延保文本信息确定第一延保期限，将所述第一延保期限与第二延保期限对比，获得期限差值；

将所述期限差值与第一期限阈值条件对比，为满足所述第一期限阈值条件的所述延保文本信息确定对应的商品编码，根据所述商品编码确定客户通信信息；

根据所述客户通信信息，向客户发送与所述期限差值的对比结果对应的延保推送信息。

进一步地，所述方法还包括：

根据所述延保文本信息确定第一延保期限，将所述第一延保期限与第二延保期限对比，获得期限差值；

将所述期限差值与第二期限阈值条件对比，根据对比结果确定所述第二延保期限关联的延保文本信息在网页上的展示位置。

第三方面，提供了一种文本信息识别装置，所述装置包括：

检测模块，用于对图片进行文本检测，获得标识所述图片中文本行位置的候选框，以及各所述候选框对应的原始置信度；

损失参数计算模块，用于在存在交集区域的所述候选框中选取所述原始置信度最大的所述候选框作为第一候选框，其他任一所述候选框作为第二候选框，根据所述第一候选框与所述第二候选框的交集区域的尺寸以及闭包区域的尺寸，计算所述第二候选框的损失参数；

交并比修正模块，用于计算所述第一候选框与所述第二候选框的原始交并比，根据所述第二候选框的损失参数修正所述原始交并比，获得修正交并比；

置信度修正模块，用于根据所述修正交并比和所述第二候选框的原始置信度计算所述第二候选框的修正置信度；

待识别文本框获取模块，用于判断所述第二候选框的修正置信度是否满足置信度条件，若满足，将所述第一候选框及所述第二候选框作为待识别文本框；

识别模块，用于识别所述待识别文本框中的文本信息。

进一步地，损失参数计算模块，具体用于：

获取交集区域的宽度和高度，以及闭包区域的宽度和高度。

根据交集区域与闭包区域的高度比，以及交集区域与闭包区域的宽度比，计算所述第二候选框的损失参数。

进一步地，置信度修正模块，具体用于：

根据所述修正交并比计算所述第二候选框的衰减权值；

利用所述第二候选框的衰减权值修正所述第二候选框的原始置信度，获得所述第二候选框的修正置信度。

进一步地，识别模块，具体用于：

采用神经网络模型识别所述待识别文本框中的文本信息；

识别模块，采用神经网络模型包括：卷积层和池化层；

第四方面，提供了一种文本信息提取装置，包括：

文本信息识别模块，用于执行第一方面任一项所述方法识别文本信息；

匹配模块，用于将所述文本信息与预建立的延保同义词词典进行匹配，所述延保同义词词典中包含延保关键词的同义词；

过滤模块，用于在匹配成功后，将所述文本信息中包含的所述延保关键词进行同义词替换；

提取模块，用于提取经过同义词替换的所述文本信息。

进一步地，文本信息提取装置还包括：

延保同义词词典更新模块，用于更新延保同义词词典，具体用于：

确定延保关键词；

取出样本图片中与延保关键词关联的样本文本信息，利用分词工具对样本文本信息进行分词处理；

判断样本文本信息中是否包含无效词，若包含，则将样本文本信息删除，若不包含，则将样本文本信息与延保同义词数据库中的词汇进行相似度计算；

根据相似度计算结果确定样本文本信息中的词汇是否为延保关键词的同义词，若是，则将同义词添加至延保同义词词典中。

进一步地，文本信息提取装置，还包括：

信息推送确定模块，用于：

根据延保文本信息确定第一延保期限，将第一延保期限与第二延保期限对比，获得期限差值；

将期限差值与第一期限阈值条件对比，为满足第一期限阈值条件的延保文本信息确定对应的商品编码，根据商品编码确定客户通信信息；

根据客户通信信息，向客户发送与所述期限差值的对比结果对应的延保推送信息。

进一步地，文本信息提取装置，还包括：

信息展示确定模块，用于：

将期限差值与第二期限阈值条件对比，根据所述期限差值的对比结果确定第二延保期限关联的延保文本信息在网页上的展示位置。

第五方面，提供了一种计算机系统，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行上述第一方面任一项所述的方法。

本发明实施例提供的技术方案带来的有益效果是：

1、本发明实施例公开的文本信息识别方法及装置，引入原始置信度最大的候选框和其他候选框的交集区域以及闭包区域的尺寸计算得出的损失参数，修正原始置信度最大的候选框和其他候选框的交并比，利用修正的交并比计算衰减权值系数，利用衰减权值系数修正原始置信度，适用于文本行间距较小图片中的文本信息的提取，有效地防止文本行漏检。

2、本发明实施例公开的文本信息提取方法及装置，有效地准确地识别出延保文本信息，并且利用延保文本信息实现延保信息的精准推送及确定其在页面上的展示位置，提高了延保产品的营销效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的现有文本检测效果图；

图2是本发明实施例提供的文本信息识别方法流程图；

图3是本发明实施例提供的交集区域和闭包区域示意图；

图4是本发明实施例提供的本发明公开的文本检测效果图；

图5是本发明实施例提供的文本信息提取方法流程图；

图6是本发明实施例提供的文本信息提取方法包括的延保推送信息确定过程图；

图7是本发明实施例提供的文本信息提取方法包括的延保信息展示确定过程图；

图8是本发明实施例提供的文本信息识别装置结构示意图；

图9是本发明实施例提供的文本信息提取装置结构示意图；

图10是本发明实施例提供的计算机系统结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

延保，即延长保修，是指消费者所购买的产品在制造商提供的保质期和服务范围外，由延保提供商提供延长保修时间或延展产品服务范围。目前，电器营销商和电商服务商均可以作为延保提供商提供延保服务，因此如果能够自动识别出电器营销商的延保信息，将能够有利于电商服务商延保活动的精准推送。

由于附赠延保只是电器营销商的一种促销手段，其他促销手段例如赠送优惠券、礼品、安维服务等也会和附赠延保信息一同显示到电器销售页面中的电器图片中。因此电器营销商为了更多地通过电器图片展示促销活动信息，电器图片往往呈现：信息十分复杂多样，文本信息行与行之间的间隔较小的特点。

现有技术中对于图片中文本信息的识别，通常采用的做法是：先进行文本检测，获取标识文本行位置的文本框，以及文本框对应的置信度，然后利用非极大值抑制算法去除掉与置信度最大的文本框重叠面积较大的其他文本框，最终识别出保留的文本框中的文本信息。如图1所示，上述文本信息的检测方法放到电器图片这种文本行间距较小的识别场景中，由于文本行间距较小，在利用非极大值抑制算法筛选文本框的过程中，标识文本行的文本框容易作为与置信度最大的文本框重叠面积较大的文本框而被删除，从而导致文本信息识别不全的情况。

为了解决上述问题，本发明提供一种文本信息识别方法及装置，具体技术方案如下：

如图2所示，一种文本信息识别方法，包括：

S21、对图片进行文本检测，获得标识图片中文本行位置的候选框，以及各候选框对应的原始置信度。

上述，文本检测主要为了找出图片中的文本行的所在位置，本发明可以采用CTPN模型算法。

在一个实施例中，采用CTPN模型算法主要包括以下过程：

S211、准备模型训练样本集。

为了适用于商品图片的文本检测，在选取训练样本时可以采用多家电商服务上中的商品图片，例如采用阿里天池ICP2018淘宝商品网络图像数据集中的图片，以及苏宁易购图像数据集中的图片。由于不同来源的图片数据格式不同，有的数据格式为左上角为原点出发的四个坐标点，有的为左上和右下两个坐标点，因此需要将不同数据格式的图片处理成数据格式统一的Bbox标签。然后对图像和标签缩放成同一规格。

由于CTPN的锚点机制，因此需要将Bbox标签转化为anchor标签，前景和背景的分类标签、anchor中心点纵向坐标和高度、水平偏移量作为训练样本集的标签。

S212、构造文本检测模型，利用训练样本集训练文本检测模型。

上述，文本检测模型采用神经网络模型，其中CNN层采用VGG16提取空间特征；后接中间层将VGG16的conv5提取滑动局部块转化为LSTM的输入；RNN层采用BilSTM提取序列特征；最后接一个全连接层，包括：前景和背景的分类、anchor中心点纵向坐标和高度的定位、边界优化的多任务损失函数。

利用上述训练样本集训练上述神经网络模型，得到可以获得候选框和其对应的置信度的文本检测模型。

S22、在存在交集区域的候选框中选取原始置信度最大的候选框作为第一候选框，其他任一候选框作为第二候选框，根据第一候选框与第二候选框的交集区域的尺寸以及闭包区域的尺寸，计算第二候选框的损失参数。

在一个实施例中，步骤S22包括：

S221、获取交集区域的宽度和高度，以及闭包区域的宽度和高度。

上述，如图3所示，图中a区域为交集区域，虚线表示的b区域为闭包区域。

S222、根据交集区域与闭包区域的高度比，以及交集区域与闭包区域的宽度比，计算损失参数。

具体地，损失参数C的计算公式如下：

其中，和分别为交集区域的高度和宽度，和分别为闭包区域的高度和宽度，和分别为权重系数，优选地，，。

上述，当两个候选框分别为标识两个文本行位置的候选框时，其存在闭包区域的高度与交集区域的高度比，要小于标识一个文本行位置的两个候选框的闭包区域高度与交集区域高度比，因此本损失参数主要从高度上对原始置信度进行修正，因此高度的比的权值系数要大于宽度比的权值系数。

损失参数的计算公式中，交集区域和闭包区域的高度比，以及宽度比。

S23、计算第一候选框与第二候选框的原始交并比，根据第二候选框的损失参数修正原始交并比，获得修正交并比。

上述步骤S22中计算的损失参数主要用于修正第一候选框与第二候选框的原始交并比。

因此，在一个实施例中，步骤S23包括：

S231、计算第一候选框与第二候选框的原始交并比，原始交并比为第一候选框与第二候选框交集区域面积与并集区域面积的比值。

上述，原始交并比IOU的计算公式为：

其中，表示第一候选框，表示第二候选框，为两个候选框的交集区域面积，为两个候选框的并集区域面积。

上述，原始交并比IOU体现了两个候选框的重叠情况。

S232、利用第二候选框的损失参数修正原始交并比，获得修正交并比。

上述，修正交并比为原始交并比与损失参数之差，具体地修正交并比的计算公式如下：

其中，为原始交并比，C为损失参数。

上述，标识两个文本行位置的两个候选框对应的损失参数要小于标识一个文本行位置的两个候选框对应的损失参数，因此标识两个文本行位置的两个候选框的修正交并比更大。

S24、根据修正交并比和第二候选框的原始置信度计算第二候选框的修正置信度。

S241、利用第二候选框的衰减权值修正原始置信度，获得第二候选框的修正置信度。

上述，原始置信度是在步骤S21中利用文本信息检测模型获得的各候选框中对应的置信度。经过文本信息检测模型后可以获得不止一个候选框，所以需要对候选框进行筛选，一般采用NMS非极大值抑制算法。传统的非极大值抑制算法，是原始置信度最大的第一候选框与第二候选框的IOU大于预设的IOU阈值时，则将该候选框的原始置信度降为0，从而使得按照原始置信度进行筛选时，将该候选框删除，传统的非极大值抑制算法，如下所示：

其中，为经过传统非极大值抑制算法筛选后的原始置信度，为原始置信度，表示第一候选框，表示第二候选框，threshold为IOU阈值。

采用传统的非极大值抑制算法将导致与第一候选框重叠区域较大的标识新的文本行位置的其他候选框会被漏检，因此本发明提供一种原始置信度的修正方法，利用高斯权重系数，并加入损失参数进一步增加高度上的惩罚，具体计算公式如下：

其中，为经过传统非极大值抑制算法筛选后的原始置信度，为原始置信度，为和修正交并比相关的衰减权重系数，具体地，，其中σ为高斯函数的标准差参数。

上述，标识两个文本行位置的两个候选框对应的衰减权重系数要大于标识一个文本行位置的两个候选框对应的衰减权重系数，因此其获得的修正置信度也较大，不会被删除。

S25、判断第二候选框的修正置信度是否满足置信度条件，若满足，则将第一候选框及第二候选框作为待识别文本框。

最终，获得的待识别文本框如图4所示。图4与图1相比，图4中标识下方文本行位置的候选框得到了保留，不会出现漏检的情况。

综上，上述S21~S25，提供了一种文本信息检测方法，其中通过引入以第一候选框与其他候选框交集区域与闭包区域高度比为主导的损失参数，对原始交并比进行修正，利用获得的修正交并比和损失参数计算衰减权重系数，利用衰减权重系数对原始置信度修正，相较于传统的不满足置信度阈值条件的候选框的置信度降为0的做法，更加柔性，不会出现候选框漏检的情况。

S26、识别待识别文本框中的文本信息。

在一个实施例中，本申请对待识别文本框中文本信息的识别，采用CRNN模型，具体包括：

S261、准备训练集。

上述，训练集具体可以选用中文语料库中常用的汉字、英文字母、数字和标点，以及选用本企业的图像数据集。将数据集转化为lmdb格式。输入模型前将图片进行灰度化和缩放归一化处理，每个像素点转化为[-1,1]的数字，图片对应的文字标签进行编码转化为数字。

S262、构造文本识别模型。

上述，文本识别模型采用CRNN模型，采用CNN+RNN+CTC框架。传统的CNN网络采用VGG提取空间特征，然后输入RNN层采用BilSTM提取序列特征并且预测标签分布，最后采用CTC-Loss解决不定长序列的对齐问题。训练好模型后，将预测结果解码输出得到对应的文字。

本发明为了适应图片中文本行高较小、长较宽的特点，对CNN网络进行改进，其中卷积层包括交替连接的标准卷积核和扩张卷积核，其中扩张卷积核的感受野的宽度，相对于标准卷积和的感受野的宽度大。池化层的分块窗口有正方形改成长宽不相等的矩形，且采用标准最大池化和平均池化加权混合池化，池化权重系数根据分块图片的全局最大值和平均值计算确定。

具体地，混合池化的混合值的计算公式如下：

其中，为池化权重系数，为全局最大值，为平均值，具体地，的计算公式如下：

如图5所示，本发明还提供一种文本信息提取方法，主要用于提取商品图片中的延保文本信息，具体技术方案如下：

S51、利用上述公开的文本信息识别方法，识别商品图片中的文本信息。

上述，商品图片主要指包含商品以及商品促销文本的图片，或者仅包含商品促销文本的图片。

S52、将文本信息与预建立的延保同义词词典进行匹配，延保同义词词典中包含延保关键词及其同义词。

在一个实施例中，本发明实施例还公开延保同义词词典的更新方法，包括：

S521、确定延保关键词。

上述，延保关键词可以是：保修、延保等。

S522、取出样本图片中与延保关键词关联的样本文本信息，利用分词工具对样本文本信息进行分词处理。

上述，样本图片可以通过多源采集获取。

S523、判断样本文本信息中是否包含无效词，若包含，则将样本文本信息删除，若不包含，则将样本文本信息与延保同义词数据库中的词汇进行相似度计算。

上述，无效词为本领域技术人员指定的无效词汇，例如停用的延保词汇等。本步骤是预先对样本文本信息的过滤处理。延保同义词数据库一般采用大型的同义词词典，例如《同义词词林扩展版》，该数据库为树形分类体系共5层，利用该数据库进行相似度计算，以A词“包修”，B词“修理”的相似度计算为例，A词在数据库中的编码为Hd04B03#，B词在数据库中的编码为Hd04B01=，则相似度计算公式为：

其中，n为以Hd04B开头的编码个数，为第五层相差，为各层分支的参数，取值范围[0,1]，按照经验取值，通常层数越深越大，则计算出来的“包修”和“修理”两个词的相似度为79.56%。

S523、根据相似度计算结果确定样本文本信息中的词汇是否为延保关键词的同义词，若是，则将同义词添加至延保同义词词典中。

上述，将计算出的相似度与相似度阈值条件比较，满足相似度阈值条件，则确定二者为同义词。

S53、匹配成功后，将文本信息中包含的延保关键词进行同义词替换，将不包含延保关键词的文本信息删除。

S54、提取经过同义词替换的文本信息。

在一个实施例中，为了充分利用延保文本信息进行延保服务的精准推送，如图6所示，本发明公开的文本信息提取方法，还包括：延保推送信息确定方法，包括：

S61、根据延保文本信息确定第一延保期限，将第一延保期限与第二延保期限对比，获得期限差值。

上述，第一延保期限主要指商品生产厂家提供的延保期限，第二延保期限主要指电商平台提供的延保期限。

S62、将期限差值与第一期限阈值条件对比，为满足第一期限阈值条件的延保文本信息确定对应的商品编码，根据商品编码确定客户通信信息。

上述，期限差值主要用于确定有进一步延保服务需求的客户。当第二延保期限大于第一延保期限，且超出第一延保期限一定年限时，则确定购买该商品的客户有获取进一步延保服务的需求。

利用延保文本信息确定商品编码，可以根据延保信息中的商品名称获取，或者根据延保文本信息对应的商品图片获取。客户通信信息可以是客户的手机号码，其他联系ID。

S63、根据客户通信信息，向客户发送与期限差值的对比结果对应的延保推送信息。

上述，延保推送信息与期限差值与第一期限阈值条件的对比结果对应，例如：

当期限差值不小于第一期限阈值时，表明商品生产厂家提供的延保期限大于或等于电商平台提供的延保期限，对应的延保推送信息可以是：推送其他商品的延保补购信息。

当期限差值小于第一期限阈值时，表明商品生产厂家提供的延保期限大于电商平台提供的延保期限，对应的延保推送信息可以是：推送本商品的延保补购信息。

对于没有第一延保期限的商品，表明商品生产厂家没有提供延保服务，对应的延保推送信息可以是：推送本商品的延保补购信息。

在一个实施例中，为了充分利用延保文本信息进行延保服务在商品销售页面上的清晰展示，如图7所示，本发明公开的信息提取方法，还包括：延保信息展示位置确定方法，包括：

S71、根据延保文本信息确定第一延保期限，将第一延保期限与第二延保期限对比，获得期限差值。

S72、将期限差值与第二期限阈值条件对比，根据期限差值的对比结果确定第二延保期限关联的延保文本信息在网页上的展示位置。

上述，第二期限阈值条件可以包括两个阈值，阈值1和阈值2。展示位置主要指在页面中的前后位置，例如：

当期限差值不小于阈值1时，表明商品生产厂家提供的延保期限大于超出电商平台提供的延保期限较多，对应的延保文本信息不在页面上展示。

当期限差值小于阈值1不小于阈值2时，表明商品生产厂家提供的延保期限大于电商平台提供的延保期限较少，或者没有超出，对应的延保文本信息在页面上靠后展示。

当期限差值不大于阈值2时，表明商品生产厂家提供的延保期限小于电商平台提供的延保期限较少，对应的延保文本信息在页面上靠前展示。

对于没有第一延保期限的商品，表明商品生产厂家没有提供延保服务，对应的延保文本信息在页面上按照预先设置的展示位置，正常突出展示。

上述两个实施例中，步骤S61~ S63、步骤S71~ S72，均是利用第一延保期限和第二延保期限的期限差值，确定延保信息的推广方法，以使延保信息能够精准推送。

如图8所示，基于本发明实施例提供的文本信息识别方法，本发明实施例还提供一种文本信息识别装置，包括：

检测模块801，用于对图片进行文本检测，获得标识图片中文本行位置的候选框，以及各候选框对应的原始置信度。

上述，检测模块801利用训练好的文本检测模型进行文本检测，文本检测模型为神经网络模型，其中CNN层采用VGG16提取空间特征；后接中间层将VGG16的conv5提取滑动局部块转化为LSTM的输入；RNN层采用BilSTM提取序列特征；最后接一个全连接层，包括：前景和背景的分类、anchor中心点纵向坐标和高度的定位、边界优化的多任务损失函数。

损失参数计算模块802，用于在存在交集区域的候选框中选取原始置信度最大的候选框作为第一候选框，，其他任一所述候选框作为第二候选框，根据第一候选框与第二候选框的交集区域的尺寸以及闭包区域的尺寸，计算各第二候选框的损失参数。

在一个实施例中，损失参数计算模块802，具体用于：

获取交集区域的宽度和高度，以及闭包区域的宽度和高度。

根据交集区域与闭包区域的高度比，以及交集区域与闭包区域的宽度比，计算损失参数。

具体地，损失参数C的计算公式如下：

交并比修正模块803，用于计算第一候选框与第二候选框的原始交并比，根据第二候选框的损失参数修正原始交并比，获得修正交并比。

在一个实施例中，交并比修正模块803，具体用于：

计算第一候选框与第二候选框的原始交并比，原始交并比为第一候选框与第二候选框交集区域面积与并集区域面积的比值。

上述，原始交并比IOU的计算公式为：

利用损失参数修正原始交并比，获得修正交并比。

其中，为原始交并比，C为损失参数。

置信度修正模块804，用于根据修正交并比和第二候选框的原始置信度计算第二候选框的修正置信度。

在一个实施例中，置信度修正模块804，具体用于：

利用根据修正交并比计算得到的第二候选框的衰减权值修正第二候选框的原始置信度，获得第二候选框的修正置信度。

上述，原始置信度的修正利用高斯权重系数，并加入损失参数进一步增加高度上的惩罚，具体计算公式如下：

待识别文本框获取模块805，用于判断第二候选框的修正置信度是否满足置信度条件，若满足，则将第一候选框及第二候选框作为待识别文本框。

识别模块806，用于识别待识别文本框中的文本信息。

上述，识别模块806采用CRNN模型，CNN+RNN+CTC框架。其中CNN网络的卷积层包括交替连接的标准卷积核和扩张卷积核，其中扩张卷积核的感受野的宽度，相对于标准卷积和的感受野的宽度大。池化层的分块窗口有正方形改成长宽不相等的矩形，且采用标准最大池化和平均池化加权混合池化，池化权重系数根据分块图片的全局最大值和平均值计算确定。

具体地，混合池化的混合值的计算公式如下：

如图9所示，基于本发明实施例提供的文本信息提取方法，本发明实施例还提供一种文本信息提取装置，包括：

文本信息识别模块901，用于上述实施例公开的文本信息识别方法识别文本信息。

匹配模块902，用于将文本信息与预建立的延保同义词词典进行匹配，延保同义词词典中包含延保关键词的同义词。

过滤模块903，用于在匹配成功后，将文本信息中包含的延保关键词进行同义词替换，将不包含延保关键词的文本信息删除。

提取模块904，用于提取经过同义词替换的文本信息。

在一个实施例中，本发明实施例公开的文本信息提取装置还包括：

延保同义词词典更新模块，用于更新延保同义词词典。具体用于：

确定延保关键词。

取出样本图片中与延保关键词关联的样本文本信息，利用分词工具对样本文本信息进行分词处理。

判断样本文本信息中是否包含无效词，若包含，则将样本文本信息删除，若不包含，则将样本文本信息与延保同义词数据库中的词汇进行相似度计算。

在一个实施例中，本发明实施例公开的文本信息提取装置，还包括：

信息推送确定模块，用于：

根据客户通信信息，向客户发送与期限差值的对比结果对应的延保推送信息。

信息展示确定模块，用于：

将延保差值与第二期限阈值条件对比，根据期限差值的对比结果确定第二延保期限关联的延保文本信息在网页上的展示位置。

基于上述文本信息识别方法，本发明还提供一种计算机系统，包括：

一个或多个处理器；以及

与一个或多个处理器关联的存储器，存储器用于存储程序指令,程序指令在被一个或多个处理器读取执行时，执行上述文本信息识别方法。

其中，图10示例性的展示出了计算机系统的架构，具体可以包括处理器1010，视频显示适配器1011，磁盘驱动器1012，输入/输出接口1013，网络接口1014，以及存储器1020。上述处理器1010、视频显示适配器1011、磁盘驱动器1012、输入/输出接口1013、网络接口1014，与存储器1020之间可以通过通信总线1030进行通信连接。

其中，处理器1010可以采用通用的CPU（Central Processing Unit，中央处理器）、微处理器、应用专用集成电路（Application SpecificIntegrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器1020可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器1020可以存储用于控制电子设备1000运行的操作系统1021，用于控制电子设备1000的低级别操作的基本输入输出系统1022(BIOS)。另外，还可以存储网页浏览器1023，数据存储管理系统1024，以及设备标识信息处理系统1025等等。上述设备标识信息处理系统1025就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1013用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1014用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线1030包括一通路，在设备的各个组件（例如处理器1010、视频显示适配器1011、磁盘驱动器1012、输入/输出接口1013、网络接口1014，与存储器1020）之间传输信息。

另外，该电子设备1000还可以从虚拟资源对象领取条件信息数据库中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述设备仅示出了处理器1010、视频显示适配器1011、磁盘驱动器1012、输入/输出接口1013、网络接口1014，存储器1020，总线1030等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例提供的技术方案带来的有益效果是：

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本信息识别方法，其特征在于，包括：

在存在交集区域的所述候选框中选取所述原始置信度最大的所述候选框作为第一候选框，其他任一所述候选框作为第二候选框，根据所述第一候选框与所述第二候选框的所述交集区域的尺寸以及闭包区域的尺寸，计算所述第二候选框的损失参数；

根据所述修正交并比和所述第二候选框的原始置信度计算所述第二候选框的修正置信度；

识别所述待识别文本框中的文本信息。

2.如权利要求1所述的方法，其特征在于，所述根据所述第一候选框与所述第二候选框的所述交集区域的尺寸以及闭包区域的尺寸，计算所述第二候选框的损失参数，包括：

3.如权利要求1所述的方法，其特征在于，所述根据所述修正交并比和所述第二候选框的原始置信度计算所述第二候选框的修正置信度，包括：

根据所述修正交并比计算所述第二候选框的衰减权值；

4.如权利要求1~3任一项所述的方法，其特征在于，所述识别所述待识别文本框中的文本信息，包括：

5.一种文本信息提取方法，其特征在于，包括：

利用权利要求1~4中任一项所述方法识别商品图片中的文本信息；

提取经过同义词替换的所述文本信息。

6.如权利要求5所述的方法，其特征在于，所述方法还包括：

7.如权利要求5所述的方法，其特征在于，所述方法还包括：

将所述期限差值与第二期限阈值条件对比，根据所述期限差值的对比结果确定所述第二延保期限关联的延保文本信息在网页上的展示位置。

8.一种文本信息识别装置，其特征在于，包括：

损失参数计算模块，用于在存在交集区域的所述候选框中选取所述原始置信度最大的所述候选框作为第一候选框，其他任一所述候选框作为第二候选框，根据所述第一候选框与所述第二候选框的所述交集区域的尺寸以及闭包区域的尺寸，计算所述第二候选框的损失参数；

识别模块，用于识别所述待识别文本框中的文本信息。

9.一种文本信息提取装置，其特征在于，包括：

文本信息识别模块，用于执行权利要求1~4中任一项所述方法识别文本信息；

提取模块，用于提取经过同义词替换的所述文本信息。

10.一种计算机系统，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行上述权利要求1~4任一项所述的方法。