CN107967472A

CN107967472A - 一种使用动态形状编码的搜索词语方法

Info

Publication number: CN107967472A
Application number: CN201711311280.8A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2018-04-27

Abstract

本发明中提出的一种使用动态形状编码的搜索词语方法，其主要内容包括：文本识别、关键词复述、词语定位，其过程为，首先输入带有给定查询关键词的灰度文本图像，对每一条文本行进行二值化操作，并建立隐性马尔科夫模型接收分层梯度直方图特征，输出模型观测概率，文本定位系统根据此概率进行关键词的假设位置生成并评分，通过验证过程的关键词被认为符合查询条件。本发明可以处理具有不同背景信息的文本图像，提供一个基于贝叶斯算法的二值化框架，提高了对于不同粗细程度的文本识别精度。

Description

一种使用动态形状编码的搜索词语方法

技术领域

本发明涉及词语检索领域，尤其是涉及了一种使用动态形状编码的搜索词语方法。

背景技术

汉字已有数千年的历史，也是世界上使用人数最多的文字，对于中华民族灿烂文化的形成和发展有着不可磨灭的贡献，并将继续发挥重要的、其它文字形式难以取代的作用。然而，汉字是非字母化、非拼音化的文字，在当今高度信息化的社会里，如何快速高效地将汉字标记在文本图像中，或者在已有归类分档的图像数据中找到想要查询的关键词，已成为影响人机交流信息效率的一个重要瓶颈。搜索词语的成功普及，将在办公自动化、智能图书馆、学术科研研究等领域发挥巨大的作用，此外，针对网上舆情中汉语不良文本的识别问题其解决方案在维护互联网健康秩序方面有着迫切的需求；对携带文字内容的图像进行词语识别定位，可帮助人工智能发展，增强学习人类世界的事物。然而，当前业界通用的汉字或词语的检索方法存在弊端。由于从图像中提取汉字通常都需要首先定位包含汉字的图像区域，当汉字在字体、大小、对齐方式和排列上变化多端，背景复杂且图像分辨率低时，从图像中有效地提取出汉字变得非常困难，特别是当汉字经旋转处理时，几乎不能识别出任何汉字。

本发明提出了一种使用动态形状编码的搜索词语方法，先输入带有给定查询关键词的灰度文本图像，对每一条文本行进行二值化操作，并建立隐性马尔科夫模型接收分层梯度直方图特征，输出模型观测概率，文本定位系统根据此概率进行关键词的假设位置生成并评分，通过验证过程的关键词被认为符合查询条件。本发明可以处理具有不同背景信息的文本图像，提供一个基于贝叶斯算法的二值化框架，提高了对于不同粗细程度的文本识别精度。

发明内容

针对解决在文本图像中进行关键词检索的问题，本发明的目的在于提供一种使用动态形状编码的搜索词语方法，首先输入带有给定查询关键词的灰度文本图像，对每一条文本行进行二值化操作，并建立隐性马尔科夫模型接收分层梯度直方图特征，输出模型观测概率，文本定位系统根据此概率进行关键词的假设位置生成并评分，通过验证过程的关键词被认为符合查询条件。

为解决上述问题，本发明提供一种使用动态形状编码的搜索词语方法，其主要内容包括：

(一)文本识别；

(二)关键词复述；

(三)词语定位。

其中，所述的文本识别，包括文本二值化和隐性马尔科夫模型。

所述的文本二值化，给定的灰度文本图像或视频帧中出现的文本会具有背景等噪声影响，文本二值化通过使用1)文本增强、2)贝叶斯分类两个步骤从背景图像中提取出文本本身：

1)文本增强：给定灰度图像，将其分别解压缩到颜色域的R、G、B三通道、小波变换域的LH(低高频)、HL(高低频)、HH(高高频)三通道和梯度域的水平、垂直、对角三通道，然后依次对三个域的第一、第二和第三通道进行线性合并，生成新的边缘图像；

2)贝叶斯分类：对新的边缘图像，其表征文本的像素归为一类，非表征文本的像素归为另一类，在贝叶斯分类框架中，这两类中各自出现的像素个数视为先验概率，分别用P(CTC)和P(NCTC)表示，此外，分别用P(f(x,y)|TC)和P(f(x,y)|NTC)表示给定像素点(x,y)在文本类TC和非文本类NTC情况下的条件概率，使用贝叶斯公式可得到公式(1)：

其中最终的二值化图像B(x,y)根据公式(1)得到：

其中，阈值γ设定为0.05。

所述的隐性马尔科夫模型，包括分层梯度方向直方图特征和模型观测概率。

所述的分层梯度方向直方图特征，对图像划分单元格，对每个像素点(x,y)，依次使用同样大小的滑动窗口计算以该像素为中心点的单元格的直方图，同时将其分段量化到L段区间中，所有的直方图特征经过合并后得到最终的分层梯度直方图特征，具体地，在本方法中，考虑三层梯度(即零阶、一阶及二阶)方向，其中区间数L取8，组成特征维度为168。

所述的模型观测概率，用初始化状态概率π和状态转移概率A＝[a_i,j]定义一个隐性马尔科夫模型λ，其中a_i,j表示模型从状态i转移到状态j的转移概率，其密度函数为bj(x)，x表示维度为k的特征向量，具体地：

其中，M_j表示高斯变量的个数，表示一个具有均值μ、协方差矩阵Σ的高斯分布；

对于模型λ，如果存在一个由长度为T的状态序列Q(Q₁,Q₂,…,Q_T)产生的观测序列O(O₁,O₂,…,O₃)，则模型观测概率计算为：

其中，π_q1是状态1的初始概率。

所述的关键词复述，基于产生样本的多样性，对于同一个词语，构造一个字典查询器，逐个生成多个与之意义接近的词语，再使用动态形状编码，对关键词使用更少的字符进行描述。

所述的动态形状编码，通过计算每个像素点的特征向量的时间偏移量，将图像中文本的纹理信息纳入到学习内容中，具体地，动态形状编码的特征向量c_t可用一阶回归算法递归：

其中，θ由滑动窗口的大小决定。

所述的词语定位，对图像X中每个查询词W出现位置进行生成区域的假设与评分，如果该分值大于实验所设阈值，即将其归类为该文本中一个出现的正样本，具体地，评分分数为：

其中，a和b分别为关键词的起始像素位置和结束位置，logp(X_a,b|K)和logp(X_a,b|F)分别表示该分值的后验概率及最大似然概率，此时得到的关键词W_a,b要经过验证过程来确定是否符合查询条件。

所述的验证过程，在训练阶段，提取原始转述词语的动态形状编码特征，然后从公式(6)得到的词语评分信息会经过甄别，只要训练过程中的误差使得虚警率不被触发，该词语可认为通过验证，视为符合查询条件的关键词。

附图说明

图1是本发明一种使用动态形状编码的搜索词语方法的系统流程图。

图2是本发明一种使用动态形状编码的搜索词语方法的文本识别流程图。

图3是本发明一种使用动态形状编码的搜索词语方法的训练样本图。

图4是本发明一种使用动态形状编码的搜索词语方法的实例图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种使用动态形状编码的搜索词语方法的系统流程图。主要包括文本识别；关键词复述；词语定位。

其中，文本识别，包括文本二值化和隐性马尔科夫模型。

文本二值化，给定的灰度文本图像或视频帧中出现的文本会具有背景等噪声影响，文本二值化通过使用1)文本增强、2)贝叶斯分类两个步骤从背景图像中提取出文本本身：

其中最终的二值化图像B(x,y)根据公式(1)得到：

其中，阈值γ设定为0.05。

隐性马尔科夫模型，包括分层梯度方向直方图特征和模型观测概率。

分层梯度方向直方图特征，对图像划分单元格，对每个像素点(x,y)，依次使用同样大小的滑动窗口计算以该像素为中心点的单元格的直方图，同时将其分段量化到L段区间中，所有的直方图特征经过合并后得到最终的分层梯度直方图特征，具体地，在本方法中，考虑三层梯度(即零阶、一阶及二阶)方向，其中区间数L取8，组成特征维度为168。

模型观测概率，用初始化状态概率π和状态转移概率A＝[a_i,j]定义一个隐性马尔科夫模型λ，其中a_i,j表示模型从状态i转移到状态j的转移概率，其密度函数为b_j(x)，x表示维度为k的特征向量，具体地：

其中，π_q1是状态1的初始概率。

关键词复述，基于产生样本的多样性，对于同一个词语，构造一个字典查询器，逐个生成多个与之意义接近的词语，再使用动态形状编码，对关键词使用更少的字符进行描述。

动态形状编码，通过计算每个像素点的特征向量的时间偏移量，将图像中文本的纹理信息纳入到学习内容中，具体地，动态形状编码的特征向量c_t可用一阶回归算法递归：

其中，θ由滑动窗口的大小决定。

词语定位，对图像X中每个查询词W出现位置进行生成区域的假设与评分，如果该分值大于实验所设阈值，即将其归类为该文本中一个出现的正样本，具体地，评分分数为：

验证过程，在训练阶段，提取原始转述词语的动态形状编码特征，然后从公式(6)得到的词语评分信息会经过甄别，只要训练过程中的误差使得虚警率不被触发，该词语可认为通过验证，视为符合查询条件的关键词。

图2是本发明一种使用动态形状编码的搜索词语方法的文本识别流程图。如图所示，主要包括输入灰度图、文本增强、二值化操作和文本定位，其中文本增强是通过线性合并颜色域、小波域和梯度域的通道信息得到；二值化操作基于贝叶斯框架。

图3是本发明一种使用动态形状编码的搜索词语方法的训练样本图，如图所示，三个汉字“铲”、“磨”、“贯”分别以不同的形态、旋转角度和笔画粗细程度作为样本，提高训练结果的鲁棒性。

图4是本发明一种使用动态形状编码的搜索词语方法的实例图，如图所示，在这段文本中，检索查询词为“文学”，则查询到的词语用细线条边框表示已定位位置。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种使用动态形状编码的搜索词语方法，其特征在于，主要包括文本识别(一)；关键词复述(二)；词语定位(三)。

2.基于权利要求书1所述的文本识别(一)，其特征在于，包括文本二值化和隐性马尔科夫模型。

3.基于权利要求书2所述的文本二值化，其特征在于，给定的灰度文本图像或视频帧中出现的文本会具有背景等噪声影响，文本二值化通过使用1)文本增强、2)贝叶斯分类两个步骤从背景图像中提取出文本本身：

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>T</mi> <mi>C</mi> <mo>|</mo> <mi>f</mi> <mo>(</mo> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>(</mo> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> <mo>)</mo> <mo>|</mo> <mi>T</mi> <mi>C</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>P</mi> <mrow> <mo>(</mo> <mi>C</mi> <mi>T</mi> <mi>C</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>(</mo> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> <mo>)</mo> <mo>|</mo> <mi>T</mi> <mi>C</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>P</mi> <mrow> <mo>(</mo> <mi>C</mi> <mi>T</mi> <mi>C</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>P</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>(</mo> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> <mo>)</mo> <mo>|</mo> <mi>N</mi> <mi>T</mi> <mi>C</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>P</mi> <mrow> <mo>(</mo> <mi>N</mi> <mi>C</mi> <mi>T</mi> <mi>C</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中最终的二值化图像B(x,y)根据公式(1)得到：

其中，阈值γ设定为0.05。

4.基于权利要求书2所述的隐性马尔科夫模型，其特征在于，包括分层梯度方向直方图特征和模型观测概率。

5.基于权利要求书4所述的分层梯度方向直方图特征，其特征在于，对图像划分单元格，对每个像素点(x,y)，依次使用同样大小的滑动窗口计算以该像素为中心点的单元格的直方图，同时将其分段量化到L段区间中，所有的直方图特征经过合并后得到最终的分层梯度直方图特征，具体地，在本方法中，考虑三层梯度(即零阶、一阶及二阶)方向，其中区间数L取8，组成特征维度为168。

6.基于权利要求书4所述的模型观测概率，其特征在于，用初始化状态概率π和状态转移概率A＝[a_i,j]定义一个隐性马尔科夫模型λ，其中a_i,j表示模型从状态i转移到状态j的转移概率，其密度函数为b_j(x)，x表示维度为k的特征向量，具体地：

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>O</mi> <mo>,</mo> <mi>Q</mi> <mo>|</mo> <mi>&lambda;</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mi>Q</mi> </munder> <msub> <mi>&pi;</mi> <mrow> <mi>q</mi> <mn>1</mn> </mrow> </msub> <msub> <mi>b</mi> <mrow> <mi>q</mi> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>O</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <munder> <mi>&Pi;</mi> <mi>T</mi> </munder> <msub> <mi>a</mi> <mrow> <mi>q</mi> <mi>T</mi> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mi>q</mi> <mi>T</mi> </mrow> </msub> <msub> <mi>b</mi> <mrow> <mi>q</mi> <mi>T</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>O</mi> <mi>T</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

其中，π_q1是状态1的初始概率。

7.基于权利要求书1所述的关键词复述(二)，其特征在于，基于产生样本的多样性，对于同一个词语，构造一个字典查询器，逐个生成多个与之意义接近的词语，再使用动态形状编码，对关键词使用更少的字符进行描述。

8.基于权利要求书7所述的动态形状编码，其特征在于，通过计算每个像素点的特征向量的时间偏移量，将图像中文本的纹理信息纳入到学习内容中，具体地，动态形状编码的特征向量c_t可用一阶回归算法递归：

其中，θ由滑动窗口的大小决定。

9.基于权利要求书1所述的词语定位(三)，其特征在于，对图像X中每个查询词W出现位置进行生成区域的假设与评分，如果该分值大于实验所设阈值，即将其归类为该文本中一个出现的正样本，具体地，评分分数为：

10.基于权利要求书9所述的验证过程，其特征在于，在训练阶段，提取原始转述词语的动态形状编码特征，然后从公式(6)得到的词语评分信息会经过甄别，只要训练过程中的误差使得虚警率不被触发，该词语可认为通过验证，视为符合查询条件的关键词。