CN111680180A

CN111680180A - 一种面向图表搜索的文本加框显示方法和装置

Info

Publication number: CN111680180A
Application number: CN202010457470.6A
Authority: CN
Inventors: 徐波
Original assignee: Duoyi Network Co ltd; GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Guangzhou Duoyi Network Co ltd
Current assignee: Duoyi Network Co ltd; GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Guangzhou Duoyi Network Co ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-18

Abstract

本发明公开了一种面向图表搜索的文本加框显示方法和装置，包括以下步骤：当用户输入检索内容时，对检索内容进行分词、去停用词处理，得到检索关键词；搜索引擎对检索关键词以及数据库中图片的文本进行相关度计算，排序召回和检索内容相关的若干条图片数据；确定图片中检索关键词所在的文本区域；确定图片中检索关键词所在的精确位置，即检索关键词在文本区域内的相对坐标，由相对坐标得到文本框；确定图片中文本框的统一颜色和粗细；图表搜索结果展示。根据用户检索词召回相关的图表数据，确定检索词在图表中的具体位置坐标，并选择与图表背景主色调高反差的颜色作为文本框颜色，给该区域加上文本框，帮助用户快速定位和获取图表中的关键信息。

Description

一种面向图表搜索的文本加框显示方法和装置

技术领域

本发明涉及一种面向图表搜索的文本加框显示方法。

背景技术

搜索引擎随着互联网发展至今，技术已经日趋成熟，也越来越多模态化。现在，一个成熟的搜索引擎往往可以支持网页文本、图片以及音频等的多种数据类型。

在文本检索中，为了方便显示重要信息给用户，搜索引擎在检索到相关网页后通常会显示该网页的标题、摘要等信息，并且对其中与检索关键词相匹配的文本进行高亮显示。

而在图片检索中，搜索引擎通常只会展示相关图片的缩略图，对于包含文字信息的图片(如报表等)也没有高亮显示，使得图片检索没有文本检索那么直观的展示相关信息。

图表搜索指的是用户输入一段文本，搜索引擎给出和检索内容相关的图表。这些图表一般包含文字信息，如一份调研报告的图表，就通常包含了图表名(标题)、对比项等的关键信息，甚至可能还有一段图表分析段落。这种包含了文字信息的图片通常要使用图像文字识别技术(OCR)将其中的文字识别出来，作为这张图片的检索词，当用户输入的关键词与图片的检索词匹配度较高时，则可能返回这张图片展示给用户。

图表搜索主要针对图表、行业报告、研究报告等的数据进行检索，这些数据通常以图片等不可编辑的形式存在，但是图片中又包含了大量的文本信息以及分析图表，用户阅读整个报告需要花费较长的时间，不能快速定位想看的信息位置。

发明内容

本发明提出一种面向图表搜索的文本加框显示方法，根据用户检索词召回相关的图表数据，确定检索词在图表中的具体位置坐标，并选择与图表背景主色调高反差的颜色作为文本框颜色，给该区域加上文本框，帮助用户快速定位和获取图表中的关键信息。

本发明的技术方案是这样实现的：

一种面向图表搜索的文本加框显示方法，包括以下步骤：

S1，当用户输入检索内容时，对检索内容进行分词、去停用词处理，得到检索关键词；

S2，搜索引擎对检索关键词以及数据库中图片的文本进行相关度计算，排序召回和检索内容相关的若干条图片数据；

S3，确定图片中检索关键词所在的文本区域；

S4，确定图片中检索关键词所在的精确位置，即检索关键词在文本区域内的相对坐标，由相对坐标得到文本框；

S5，确定图片中文本框的统一颜色；

S6，确定图片中文本框的粗细；

S7，图表搜索结果展示。

作为本发明的一个优选实施例，在步骤S1之前还包括以下步骤：

搜索引擎预先收集图表数据并对图表数据进行预处理，预处理流程包括：识别图表中的文本区域以及区域内的文字；识别出文本区域内各个字符的坐标；识别图片主色调；识别图片文字区域的颜色；输出图表数据的预处理数据至数据库。

作为本发明的一个优选实施例，图表数据的预处理数据包括图片数据本身以及主色调；图片对应的文字区域坐标、区域内的文本以及区域颜色；文字区域对应的各个字符坐标以及字符种类。

作为本发明的一个优选实施例，步骤S5具体包括以下步骤：

S501，预设n种颜色为文本框候选色；

S502，获取图片主色调数据并取各个主色调的反色；

S503，按照RGB值获得与主色调的反色最接近的一种预设颜色，并按照该主色调所占比例计算各颜色的加权得分；

S504，获取各个文本框所在的文本区域的颜色，并取反色；

S505，按照RGB值获得与文本区域颜色的反色最接近的一种预设颜色，并以0.1的权重加到各颜色的得分中；

S506，取加权得分最高的颜色作为该图片的文本框颜色。

作为本发明的一个优选实施例，步骤S6具体包括以下步骤：

S601，计算图片中各个文本框中字符的长度所占像素大小；

S602，取该像素大小的十分之一作为该文本框的适宜粗细，对各个文本框的适宜粗细排序，取中位数为统一的文本框粗细。

一种面向图表搜索的文本加框显示装置，用于实现所述的面向图表搜索的文本加框显示方法。

本发明的有益效果在于：根据用户检索词召回相关的图表数据，确定检索词在图表中的具体位置坐标，并选择与图表背景主色调高反差的颜色作为文本框颜色，给该区域加上文本框，帮助用户快速定位和获取图表中的关键信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种面向图表搜索的文本加框显示方法一个实施例的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本专利提出的基于图表搜索的文本加框显示功能可以帮助用户定位他们想看的信息位置，提高他们检索获取信息的效率。其中，该功能解决了以下几个问题：

图像文字识别技术可以识别出图片中包含连续字符的区域，并且识别出该区域的文本。而对图片的特定文字进行加框显示需要一种更精细的算法，以字符级别的粒度识别出特定文字在图片中的坐标位置，以确定文本框的位置。

由于图表类数据的背景颜色和样式多变，需要智能化的调整文本框的边框颜色，以免出现“撞色”而使得文本框不清晰。

本专利所述的文本加框显示，则是在基于图表搜索功能的基础上，识别出需要展示的图表的文字内容，并将与检索词匹配的文字区域加上比较醒目的矩形框，帮助用户快速定位图表中的关键信息位置。

本专利提出一种面向图表搜索的文本加框显示方法，先使用图像文字识别技术离线识别出图表的文字区域以及区域中的文字保存到数据库；当用户检索图片的时候，使用检索词找出相关图表以及图表的相关文字区域，再针对该区域识别出具体的关键词坐标，在该坐标上添加一个矩形框图层，并根据该区域的背景颜色确定矩形框颜色，以达到对图表文本加框显示的效果，凸显图表中与检索词匹配的文字信息。

首先，一个图表搜索引擎需要预先收集好图表数据，并对数据做一定的预处理。其中，数据收集可以通过合作方提供、爬取无版权争议数据等方式获得。预处理流程以及数据结构如下：

(1)识别图表中的文本区域以及区域内的文字：

使用基于深度学习的图像文字识别方法。该方法分为文本区域检测以及文字识别两部分，其中文本检测部分可以使用基于EAST模型的方法，输出图片中文字区域的四个点坐标；对于这些文字区域，再使用基于RNN的文字识别模型识别出区域中的文字。

输出结果形如：<x1，y1，x2，y2，x3，y3，x4，y4，text>，其中，x，y组成一个图片中的坐标点，四个点构成一个矩形框，表示该文本区域，而text表示该文本区域的文本内容。一张图片通常会有多个文本区域。

(2)识别出文本区域内各个字符的坐标：

使用字符级别的字符识别模型确定文本区域内的字符坐标。整个字符识别模型参考Charnet设计，使用端到端的方法预测图片中各个字符的位置，并输出字符类别以及字符的文本框(同样以四个点表示文本框坐标)。

其中，由于字符级别的训练数据很少，人工标注也十分昂贵，需要使用合成数据进行预训练。由于先对图片进行了文本域识别，再对图片中的文本域进行字符识别，该区域内理论上文字会占据大部分，已经排除了大量的背景信息干扰。可以使用纯色或者几何图形随机组合的方式构造相对简单的背景，再随机添加一段或者一个词组到图片中，并保证添加的字符没有重叠区域，以添加的字符位置以及字符作为这条数据的真实标签。这样便可以生成大量的字符级的合成数据用于模型训练。

模型对图片中的各个文本区域的字符识别输入如下：

<x1，y1，x2，y2，x3，y3，x4，y4，char>

其中，x，y组成一个文本区域中的坐标点，四个点构成一个矩形框，表示该字符的区域，而char表示该字符区域的字符类别，字符种类包括英文字母、标点符号以及中文汉字。一块文本区域通常会有多个字符。

(3)识别图片主色调：

由于图片背景往往不是纯色的，主色调的确定需要统计图片中每个像素的RGB值，并保留占比大于10％的颜色；如果某一种颜色占比大于70％，则只保留该颜色。

图片色调数据的保存形式形如：

[<R1，G1，B1，占比1>，<R2，G2，B2，占比2>]

其中，R，G，B分别表示该颜色RGB三通道的数值，占比为该颜色占整个图片的比例，以小数形式表示，范围为0.1-1(因为只保留占比大于10％的颜色)。

(4)识别图片文字区域的颜色：

对图片中的每个颜色区域，统计该区域占比最大的颜色，若最大颜色占比不足50％，则以图片主颜色代替；文字区域颜色保存形式为：<R，G，B，占比>

综上，整个图片数据库中，预处理后的数据包括：

1、图片数据本身以及主色调；

2、图片对应的文字区域坐标、区域内的文本以及区域颜色；

3、文字区域对应的各个字符坐标以及字符种类；

其中，字符数据是为了后续确定文本框位置所准备的，而颜色相关的数据则是为了后续确定文本框颜色所准备的。

如图1所示，本发明提出了一种面向图表搜索的文本加框显示方法，包括以下步骤：

S3，确定图片中检索关键词所在的文本区域；

由于预先对图片进行了文本区域识别，可以将检索词与图片识别出的文本进行匹配来粗略确定检索词出现的位置。而文本框的数量以及大致位置就是检索词的数量及其所在的位置。

假设检索词为：“图表”和“搜索”，该图片中共有4块文本区域，用这两个词语分别与4块文本区域的文本进行匹配，若“图表”一词出现在区域1和区域2，“搜索”一词出现在区域2和区域3，则可以大致确定图片中将会添加3-4个文本框(同一区域的词语如果连续需要合并文本框)，并且文本框的大致位置位于区域1、2、3。

由于数据预处理阶段已经识别出文本区域内各个字符的具体位置，使用简单的字符匹配方法即可找到检索词在文本区域内的相对坐标。

这里需要考虑由于文本排版所导致的字符问题，举例如下：

“搜索₁引擎为用户提供检索₂服务；索₃引是对值进行排序的存储结构。”

假设如上是图片中识别出来的一块文本区域对应的文字，包含两行文本，文本阅读方式是从左到右，两句话上下结构排列。

从这段文本的物理结构上看，组成“搜索”一词可以有上下结构和左右结构两种(分别为“搜索₁”，“搜索₃”)，而实际上在上一阶段以词语级别匹配到的其实是左右结构的这组词语。

此时以字符级别确定“搜索”一词的文本框位置时，“搜”字只有一次匹配，其位置是确定的，而“索”字有三次匹配(为了说明方便，分别以“索₁”，“索_2”，“索₃”表示)，需要确定具体哪个坐标才能构成正确的词语，具体方法如下：

预处理的文字识别时是考虑的文本输出方向的，才能识别出正确语序的文本，只需要参考模型输出的文本字符顺序以及各个字符的坐标即可确定该文本区域的文字排列方式(如文本的前两个词“搜索₁”所对应的坐标是互为左右排列的，则整个文本的顺序就是左右排列的)。此时可以把“索₃”排除。

组成词语的各个字符在空间上是连续的，可以判断成词的字符对应的坐标之间是否包括别的字符坐标，若包括，则这几个字符不能组成词语。此时可以把“索₂”排除。

通过该方法，获得了成词的字符对应的坐标，其中一个字符包括四个点。再确定一个包含这些点的最小矩形，该矩形即为文本框。

其中，为了显示工整，文本框限制为无旋转角度的矩形(因为有些文本倾斜排版的最小矩形也是倾斜的)。通过计算这些点的x，y值在上下左右四个方向的最值，可以确定矩形四条边所在的垂直线，进而确定矩形的四个坐标点，该坐标点集就是文本框的坐标点。

此外，若两个文本框相邻，即关键词之间是连续的，则将两个文本框合并为一个文本框。

S5，确定图片中文本框的统一颜色；

由于图片背景多种多样，为了避免与图片背景撞色，需要智能的调整文本框颜色，并且同一张图片的文本框颜色需要统一，5具体包括以下步骤：

S501，预设n种颜色为文本框候选色；如限制文本框颜色只能为红绿蓝黑白五种之一；

S502，获取图片主色调数据(预处理已经得到了主色调数据，一张图片的主色调有一种或多种)，并取各个主色调的反色；设一种颜色的RGB分量分别为(r，g，b)，反色即(255-r，255-g，255-b)组成的颜色，互为反色的颜色区别比较明显，可以使添加的文本框更加显眼。

S503，按照RGB值获得与主色调的反色最接近的一种预设颜色，并按照该主色调所占比例计算各颜色的加权得分；假设主色调有三种，比例分别为40％、30％、20％,三种主色调的反色最接近的颜色分别是“红”，“红”，“白”，则红色的当前得分为0.4+0.3＝0.7，白色的当前得分为0.2。

S504，获取各个文本框所在的文本区域的颜色，并取反色；

S505，按照RGB值获得与文本区域颜色的反色最接近的一种预设颜色，并以0.1的权重加到各颜色的得分中；假设共有三个区域，他们的反色最接近的颜色分别是“红”，“白”，“白”，则红色总得分为0.7+0.1＝0.8，白色总得分为0.2+0.1+0.1＝0.4，其余颜色的得分为0。

S506，取加权得分最高的颜色作为该图片的文本框颜色。即红色，其他图片的文本框颜色确定方法同理。

S6，确定图片中文本框的粗细；

步骤S6具体包括以下步骤：

S601，计算图片中各个文本框中字符的长度所占像素大小；

S7，图表搜索结果展示。由于缩略图看不清文字，当用户查看放大图片时才给图片中的检索关键词加上文本框显示。

本发明还提出了一种面向图表搜索的文本加框显示装置，用于实现所述的面向图表搜索的文本加框显示方法。

本发明提出一种面向图表检索的文本加框显示方法，目前图表检索领域还少有对图表文本进行加框显示或者高亮显示的相关应用。在图片中文本信息比较多的情况下(如行业报告等)，对图表中的文本加框显示有助于用户快速定位和获取到想要的信息，提高了用户获取信息的效率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向图表搜索的文本加框显示方法，其特征在于，包括以下步骤：

S3，确定图片中检索关键词所在的文本区域；

S5，确定图片中文本框的统一颜色；

S6，确定图片中文本框的粗细；

S7，图表搜索结果展示。

2.根据权利要求1所述的一种面向图表搜索的文本加框显示方法，其特征在于，在步骤S1之前还包括以下步骤：

3.根据权利要求2所述的一种面向图表搜索的文本加框显示方法，其特征在于，图表数据的预处理数据包括图片数据本身以及主色调；图片对应的文字区域坐标、区域内的文本以及区域颜色；文字区域对应的各个字符坐标以及字符种类。

4.根据权利要求1所述的一种面向图表搜索的文本加框显示方法，其特征在于，步骤S5具体包括以下步骤：

S501，预设n种颜色为文本框候选色；

S502，获取图片主色调数据并取各个主色调的反色；

S504，获取各个文本框所在的文本区域的颜色，并取反色；

S506，取加权得分最高的颜色作为该图片的文本框颜色。

5.根据权利要求1所述的一种面向图表搜索的文本加框显示方法，其特征在于，步骤S6具体包括以下步骤：

S601，计算图片中各个文本框中字符的长度所占像素大小；

6.一种面向图表搜索的文本加框显示装置，其特征在于，用于实现权利要求1-5任一项所述的面向图表搜索的文本加框显示方法。