CN109389124A

CN109389124A - 小票信息类目识别方法

Info

Publication number: CN109389124A
Application number: CN201811268342.6A
Authority: CN
Inventors: 李华康; 金旭; 管慧娟; 孔令军; 张坤; 方浪
Original assignee: Suzhou Paiweisi Information Technology Co ltd
Current assignee: Suzhou Paiweisi Information Technology Co ltd
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2019-02-26
Anticipated expiration: 2038-10-29
Also published as: CN109389124B

Abstract

本发明公开了一种小票信息类目识别方法。本发明一种小票信息类目识别方法，包括：对小票图片进行处理，得到一个包含位置信息的json文件，所述json文件记录的是小票图片中切割出的字符区域在图片上的位置以及此字符区域识别出的字符串结果；根据所述json文件中的字符位置的信息，通过分析字符本身大小以及行字符大小的平均大小，将带位置信息的json文件转化为小票的文本文档；使用行概率模型对小票文本文档中的每行文本进行所属类别的概率计算。本发明的有益效果：通过子空间切割算法、深度学习模型以及概率矩阵融合模型实现了对小票的行信息类目的识别，即从小票图片到带有行标签的文本文档的一整套系统流程。

Description

小票信息类目识别方法

技术领域

本发明涉及自然信息处理领域，具体涉及一种小票信息类目识别方法。

背景技术

随着互联网技术的飞速发展，文本信息的数量也在日益增长，文本信息的自动处理也变得越来越重要，文本分类作为自然语言处理的一个基本问题，是文本信息处理的一项非常重要的技术，因此受到此领域研究人员的广泛关注，最早将词匹配法应用于文本分类，这种方法根据文档中是否出现了与类名相同的词或者是同义词来判断此文档的类别，这种方法过于简单机械，效果差。再到后来出现了知识工程来进行文本分类，此方法借助专业人员为每个类定义大量的推理规则，根据规则匹配来判断文档的类别，缺点是严重依赖规则的好坏，而制定规则的一般为此领域的专业人员，因此人力成本高，不具有推广性。而统计学习方法的出现则给此领域带来了质的飞跃，但是此方法需要大量的语料库，因此语料库的好坏直接影响到了分类的效果，常用的统计分类算法有决策树，朴素贝叶斯，最大熵，支持向量机和神经网络等算法，现如今经过神经网络发展而来的深度神经网络则给分类效果带来了更大的提高，因此深度学习受到大家的广泛关注与应用，成为当前非常火热的一门技术。而传统的文本分类大多数针对的是对整篇文档分类，也有可能是独立的某一个评论，但是我们针对的是对小票的每一行文本信息进行类目识别，需要考虑文本行与文本行之间的潜在关系，因此我们不仅使用了深度学习模型，而且考虑到了文本行之间的相互影响，有效地提高了分类准确率。

传统技术存在以下技术问题：

而传统的文本分类大多数针对的是对整篇文档分类，也有可能是独立的某一个评论。故传统的方法，不适应小票的信息类目识别，或者传统的方法对小票而且识别精度太低。

发明内容

本发明要解决的技术问题是提供一种小票信息类目识别方法，通过子空间切割算法、深度学习模型以及概率矩阵融合模型实现了对小票的行信息类目的识别，即从小票图片到带有行标签的文本文档的一整套系统流程。

为了解决上述技术问题，本发明提供了一种小票信息类目识别方法，包括：

对小票图片进行处理，得到一个包含位置信息的json文件，所述json文件记录的是小票图片中切割出的字符区域在图片上的位置以及此字符区域识别出的字符串结果；

根据所述json文件中的字符位置的信息，通过分析字符本身大小以及行字符大小的平均大小，将带位置信息的json文件转化为小票的文本文档；

使用行概率模型对小票文本文档中的每行文本进行所属类别的概率计算，得到一个文本行数x类别数的概率矩阵，所述行概率模型是由一个基于word-embedding的DNN深度学习模型、一个基于词序列的LSTM模型和一个联合概率模型融合的模型；

对上述的概率矩阵进行数值更正，当某行文本已经很大概率地被确定属于某一标签时，对应于这行的概率矩阵中的属于其它标签的数值会将其减小某一个值；

对上述的概率矩阵进行按行取最大值的列下标，以此下标作为文本行的标签类目，最终得到带有标签的小票文本文档。

在其中一个实施例中，“对小票图片进行处理，得到一个包含位置信息的json文件，所述json文件记录的是小票图片中切割出的字符区域在图片上的位置以及此字符区域识别出的字符串结果；”中，使用OCR技术对小票图片中的字符进行识别。

在其中一个实施例中，“根据所述json文件中的字符位置的信息，通过分析字符本身大小以及行字符大小的平均大小，将带位置信息的json文件转化为小票的文本文档；”具体包括：

根据json文件中所有字符串words的location信息来调整字符串在文本中的位置，先将所有字符串进行分组，即确定字符串与字符串之间是否在同一行，处在同一行的子浮串为一个组；确定每个组内的前后位置关系，即确定同一组的字符串在所处文档行中的前后位置关系；确定组与组之间的上下位置关系，即确定组与组在文档中的上下位置关系；

确定同一行字符串的在文档文本行的最前、最后位置和同组字符串之间以及字符串内的字符与字符之间的相对位置关系，相对位置是用字符与字符之间的相距多少单位距离来确定，用一个空格符s表示一个单位距离；在确定位置之前，需要计算出每行字符的平均大小d*＝当前行所有字符大小之和/当前行字符的个数。

在其中一个实施例中，同一行字符串的在文本行的最前、最后位置中的最前位置指的是在同一组的字符串集中处于最前位置的字符串的第一个字符与json文件的所有字符串中的location中的left属性最小值之间的相对距离S_f来确定，最后位置指的是同行字符串集中处于最后位置的字符串的最后一个字符与json文件的所有字符串中的location中的left属性+width属性最大值之间的相对距离S_b来确定；相对距离使用空格来填充文本的，每一行的最前位置即char_f所在位置之前用S_f/d*向下取整个空格来填充，每一行的最后位置即char_b所在位置之后用S_b/d*个空格来填充。

在其中一个实施例中，同行字符串之间的相对距离是由(第二个字符串left属性值-第一个字符串的left属性值+width属性值)/d*个空格填充，字符串内字符与字符的相对距离是由(第二个字符left属性值-第一个字符的left属性值+width属性值)/d*个空格填充。

在其中一个实施例中，“使用行概率模型对小票文本文档中的每行文本进行所属类别的概率计算，得到一个文本行数x类别数的概率矩阵，所述行概率模型是由一个基于word-embedding的DNN深度学习模型、一个基于词序列的LSTM模型和一个联合概率模型融合的模型；”中，

基于word-embedding的DNN深度学习模型在训练过程中的预处理阶段采用word-embedding进行词的向量化，进而将文本行中的字符串表示为数学上的向量，进而使用DNN深度学习算法进行训练得到一个深度学习模型；

基于词序列的LSTM模型是一个序列模型，而文本行中的字符串有不同类型的字符构成一个词序列，不同类型的字符表示成不同的数字，进而将文本行中的字符串表示为向量采用LSTM算法进行训练得到一个LSTM模型；

联合概率模型，基于概率统计的方法来计算出当前文本行属于某个类别的概率，由于小票的文本行类别与处于所在位置有关且当前文本行的上一行的类别也影响着当前文本行的类别；此模型是基于历史小票来计算两个条件概率矩阵，根据加权求和就得到最终的概率模型；第一个概率矩阵是根据所处位置与类别之间的关系计算出的类别数×小票文本行数的矩阵U₁，由于每个小票文本行数基本上是不相等的，需要将所有小票的行数映射到一个固定的整数值l_count，假设一张小票的文本行总数为ln，当前行为此张小票中的第l₁行，映射到为总行数l_count的固定数值中的第l_new行计算公式为round((l₁/(l_n*1.1)*l_count)，

对于第二个类别数×类别数的条件概率矩阵U₂中的元素U₂(i,j)的求解公式如下；

U₂(i，j)＝P(current-line＝j|former-line＝i)＝

count(current-line＝j,former-line＝i)/count(line＝i)

其中公式中的i，j表示类别；

根据上述两个概率矩阵就得到了联合概率模型

argmaxP(y|current_line＝i)＝argmax(α*U₁(y-1,(round((i/l_n*1.1)*l_count))-1)+β*U₂(y-1|label(line＝i-1)-1))(y为标签0，1，2，…)，其中α，β为两个参数，l_n为当前小票的总行数；

采用上述三个模型进行联合得到行概率模型，对小票的文本文档经过模型计算就能得到最终的一个概率矩阵。

在其中一个实施例中，对于矩阵U₁的求解如下：

将历史小票集中的每个小票的每一行对应着一个l_count维元素为零的向量，根据当前行在当前小票中的位置，将其位置映射到l_count维向量的位置上，在所在位置上加上一个大小为size的形如(0.1，0.4，1，0.4，0.1)的概率高斯窗；

将类别相同的行向量相加，得到类别数×l_count的矩阵,需将此矩阵映射到一个每行元素相加和为1的矩阵。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

本发明的有益效果：

通过子空间切割算法、深度学习模型以及概率矩阵融合模型实现了对小票的行信息类目的识别，即从小票图片到带有行标签的文本文档的一整套系统流程。

附图说明

图1是本发明小票信息类目识别方法的工作原理示意图。

图2是本发明小票信息类目识别方法的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

传统的文本分类大多数针对的是对整篇文档分类，也有可能是独立的某一个评论，但是本发明针对的是对小票的每一行文本信息进行类目识别，需要考虑文本行与文本行之间的潜在关系，因此本发明不仅使用了深度学习模型，而且考虑到了文本行之间的相互影响，有效地提高了分类准确率。

参阅图1和图2,步骤S1，OCR识别，使用OCR技术对小票图片中的字符进行识别，得到一个包含位置信息的json文件，json文件记录的是小票图片中切割出的字符区域在图片上的位置以及此字符区域识别出的字符串结果，为了更能直观地了解小票图片转为带位置信息的json文件，由于整张小票图片会占据很大的空间，给出一个小票图片案例的部分区域以及识别结果，location指的是字符串的位置信息，words是识别结果，chars字符串中每个字符的位置以及其他信息(参阅图1)。

步骤S2，子空间切割模块，根据OCR识别给出的每个字符可能所在的图像像素点即json文件中的字符位置的信息，通过分析字符本身大小以及行字符大小的平均大小，设计一套字符与字符之间的相对距离算法，将带位置信息的json文件转化为小票的文本文档，给出小票图片案例的部分区域的json文件以及转化为文本文档的结果(参阅图1)，具体过程如下，

步骤S21，根据json文件中所有字符串words的location信息来调整字符串在文本中的位置，(1)先将所有字符串进行分组，即确定字符串与字符串之间是否在同一行，处在同一行的子浮串为一个组；(2)确定每个组内的前后位置关系，即确定同一组的字符串在所处文档行中的前后位置关系；(3)要确定组与组之间的上下位置关系，即确定组与组在文档中的上下位置关系。

步骤S22，确定同一行字符串的在文档文本行的最前、最后位置和同组字符串之间以及字符串内的字符与字符之间的相对位置关系，相对位置是用字符与字符之间的相距多少单位距离来确定，本发明用一个空格符s表示一个单位距离。在确定位置之前，需要计算出每行字符的平均大小d*＝当前行所有字符大小之和/当前行字符的个数，因此每行字符的平均大小基本是不相等的。

(1)同一行字符串的在文本行的最前、最后位置中的最前位置指的是在同一组(同一行)的字符串集中处于最前位置的字符串的第一个字符(记作char_f)与json文件的所有字符串中的location中的left属性最小值(记作left_min)之间的相对距离S_f来确定，最后位置指的是同行字符串集中处于最后位置的字符串的最后一个字符(char_b)与json文件的所有字符串中的location中的left属性+width属性(记作right_max)最大值之间的相对距离S_b来确定。本发明中的相对距离使用空格来填充文本的，每一行的最前位置即char_f所在位置之前用S_f/d*向下取整个(计算填充多少空格时采用向下取整)空格来填充，每一行的最后位置即char_b所在位置之后用S_b/d*个空格来填充。

(2)同行字符串之间的相对距离是由(第二个字符串left属性值-第一个字符串的left属性值+width属性值)/d*个空格填充，字符串内字符与字符的相对距离是由(第二个字符left属性值-第一个字符的left属性值+width属性值)/d*个空格填充。

步骤S3，使用行概率模型对小票文本文档中的每行文本进行所属类别的概率计算，得到一个文本行数x类别数的概率矩阵，本发明采用的行概率模型是由一个基于word-embedding的DNN深度学习模型、一个基于词序列的LSTM模型和一个联合概率模型融合的模型。

(1)基于word-embedding的DNN深度学习模型在训练过程中的预处理阶段采用word-embedding进行词的向量化，进而将文本行中的字符串表示为数学上的向量。进而使用DNN深度学习算法进行训练得到一个深度学习模型。

(2)基于词序列的LSTM模型是一个序列模型，而文本行中的字符串有不同类型的字符构成一个词序列，不同类型的字符表示成不同的数字，进而将文本行中的字符串表示为向量采用LSTM算法进行训练得到一个LSTM模型。

(3)联合概率模型，基于概率统计的方法来计算出当前文本行属于某个类别的概率，由于小票的文本行类别与处于所在位置有关且当前文本行的上一行的类别也影响着当前文本行的类别。此模型是基于历史小票来计算两个条件概率矩阵，根据加权求和就得到最终的概率模型。第一个概率矩阵是根据所处位置与类别之间的关系计算出的类别数×小票文本行数的矩阵U₁，由于每个小票文本行数基本上是不相等的，需要将所有小票的行数映射到一个固定的整数值l_count，假设一张小票的文本行总数为ln，当前行为此张小票中的第l₁行，映射到为总行数l_count的固定数值中的第l_new行计算公式为round((l₁/(l_n*1.1)*l_count)，对于矩阵U₁的求解如下：

(1)将历史小票集中的每个小票的每一行对应着一个l_count维元素为零的向量，根据当前行在当前小票中的位置，将其位置映射到l_count维向量的位置上，在所在位置上加上一个大小为size的形如(0.1，0.4，1，0.4，0.1)的概率高斯窗。

(2)将类别相同的行向量相加，得到类别数×l_count的矩阵,需将此矩阵映射到一个每行元素相加和为1的矩阵。

U₂(i，j)＝P(current-line＝j|former-line＝i)＝

count(current-line＝j,former-line＝i)/count(line＝i)

其中公式中的i，j表示类别。

根据上述两个概率矩阵就得到了联合概率模型

argmaxP(y|current_line＝i)＝argmax(α*U₁(y-1,(round((i/l_n*1.1)*l_count))-1)+β*U₂(y-1|label(line＝i-1)-1))(y为标签0，1，2，…)，其中α，β为两个参数，l_n为当前小票的总行数。

步骤S4，对上述的概率矩阵进行数值更正，考虑单标签分类之间标签的互斥性，当某行文本已经很大概率地被确定属于某一标签时，对应于这行的概率矩阵中的属于其它标签的数值会将其减小某一个值。

步骤S5，对上述的概率矩阵进行按行取最大值的列下标，以此下标作为文本行的标签类目，最终得到带有标签的小票文本文档。

本发明的有益效果：

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种小票信息类目识别方法，其特征在于，包括：

2.如权利要求1所述的小票信息类目识别方法，其特征在于，“对小票图片进行处理，得到一个包含位置信息的json文件，所述json文件记录的是小票图片中切割出的字符区域在图片上的位置以及此字符区域识别出的字符串结果；”中，使用OCR技术对小票图片中的字符进行识别。

3.如权利要求1所述的小票信息类目识别方法，其特征在于，“根据所述json文件中的字符位置的信息，通过分析字符本身大小以及行字符大小的平均大小，将带位置信息的json文件转化为小票的文本文档；”具体包括：

4.如权利要求3所述的小票信息类目识别方法，其特征在于，同一行字符串的在文本行的最前、最后位置中的最前位置指的是在同一组的字符串集中处于最前位置的字符串的第一个字符与json文件的所有字符串中的location中的left属性最小值之间的相对距离S_f来确定，最后位置指的是同行字符串集中处于最后位置的字符串的最后一个字符与json文件的所有字符串中的location中的left属性+width属性最大值之间的相对距离S_b来确定；相对距离使用空格来填充文本的，每一行的最前位置即char_f所在位置之前用S_f/d*向下取整个空格来填充，每一行的最后位置即char_b所在位置之后用S_b/d*个空格来填充。

5.如权利要求3所述的小票信息类目识别方法，其特征在于，同行字符串之间的相对距离是由(第二个字符串left属性值-第一个字符串的left属性值+width属性值)/d*个空格填充，字符串内字符与字符的相对距离是由(第二个字符left属性值-第一个字符的left属性值+width属性值)/d*个空格填充。

6.如权利要求1所述的小票信息类目识别方法，其特征在于，“使用行概率模型对小票文本文档中的每行文本进行所属类别的概率计算，得到一个文本行数x类别数的概率矩阵，所述行概率模型是由一个基于word-embedding的DNN深度学习模型、一个基于词序列的LSTM模型和一个联合概率模型融合的模型；”中，

U₂(i，j)＝P(current-line＝j|former-line＝i)＝

count(current-line＝j,former-line＝i)/count(line＝i)

其中公式中的i，j表示类别；

根据上述两个概率矩阵就得到了联合概率模型

7.如权利要求6所述的小票信息类目识别方法，其特征在于，对于矩阵U₁的求解如下：

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1到7任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1到7任一项所述方法的步骤。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1到7任一项所述的方法。