CN109460725A

CN109460725A - 小票消费明细内容融合及提取方法

Info

Publication number: CN109460725A
Application number: CN201811267693.5A
Authority: CN
Inventors: 李华康; 张坤; 金旭; 孔令军; 方浪; 管慧娟
Original assignee: Suzhou Paiweisi Information Technology Co ltd
Current assignee: Suzhou Paiweisi Information Technology Co ltd
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2019-03-12
Anticipated expiration: 2038-10-29
Also published as: CN109460725B

Abstract

本发明公开了一种小票消费明细内容融合及提取方法。一种小票消费明细内容融合及提取方法，包括：获取客户上传的小票图片的文本文档；利用深度学习网络对小票文档中的每一行文字进行分类，得到了每行带有标签的行标签文档；根据所述带有标签的行标签文档，获取小票的明细区域；根据明细索引关键字找出明细索引行，对于含有或不含有明细索引行都要进行明细完整性判断然后进行明细行合并；获取小票中的各条消费明细属性信息列表。本发明的有益效果：由于是专门针对小票设计，相对传统的信息抽取方法效果好。

Description

小票消费明细内容融合及提取方法

技术领域

本发明涉及涉及自然语言处理领域，具体涉及一种关于快销小票消费明细内容融合及提取方法。

背景技术

信息抽取是属于自然语言处理领域的一项重要内容，是指从非结构化的信息源中抽取出特定的信息，并将抽取到的信息结构化的形式进行保存。信息抽取一般包括以下几个步骤：文本切分，句子切分，词性标注，命名实体识别，关系识别。切分的方式一般会涉及到按段落切分，按句子切分，按词语切分。而词性标注就需要涉及到按词语切分，就是所谓的分词，分词一般调用一些分词工具就可以实现，分词过后根据词性对照表就可以实现词性标注。命名实体识别指的是对一些专有名词(主要人名，地名，结构名等命名实体)进行抽取，而我们处理的对象是快销小票，主要抽取的内容是小票的消费明细。关系识别指的是在正确识别实体的基础上，抽取到它们之间的关系。

传统技术存在以下技术问题：

小票和普通的文本文档不同，使用传统的信息抽取方法可能会抽取效果不佳。

发明内容

本发明要解决的技术问题是提供一种小票消费明细内容融合及提取方法，相对传统的信息抽取方法效果好。

为了解决上述技术问题，本发明提供了一种小票消费明细内容融合及提取方法，包括：

获取客户上传的小票图片的文本文档；

利用深度学习网络对小票文档中的每一行文字进行分类，得到了每行带有标签的行标签文档；

根据所述带有标签的行标签文档，获取小票的明细区域；

根据明细索引关键字找出明细索引行，对于含有或不含有明细索引行都要进行明细完整性判断然后进行明细行合并；

获取小票中的各条消费明细属性信息列表。

在其中一个实施例中，“获取客户上传的小票图片的文本文档；”中，利用ocr识别获取客户上传的小票图片的文本文档。

在其中一个实施例中，“利用深度学习网络对小票文档中的每一行文字进行分类，得到了每行带有标签的行标签文档；”中，使用深度学习网络进行训练得到了一个行概率模型，所述行概率模型集成LSTM模型，DNN深度神经网络模型以及联合概率模型。

在其中一个实施例中，“根据带有标签的行标签文档，获取小票的明细区域；”具体包括：

根据带有标签的行标签文档，假设明细的标签我们设置1，根据概率矩阵得到小票中文本行标签为1的那些文本行，将小票文档中第一个出现标签为1的文本行到最后一个出现标签为1的文本行之间的区域暂时设置为明细区域；对此时得到的明细区域进行剔除和适当的召回操作；先要进行剔除操作，如果小票中含有明细索引，那么小票中属于明细区域的开始位置也就确定了，而对于明细区域的结束位置是根据两个关键指标得到的，首先一般小票的明细区域都会出现在应付金额文本行的前面，如果明细区域的结束位置定位到应付金额文本行的后面，则将应付金额文本行的后面明细区域全部剔除掉；另外一个指标就是如果两个标签为1的文本行之间掺杂了超过了某个阈值大小的其它标签，就将后面的部分舍弃掉；对于不含明细索引的小票，结束位置的判断只能根据应付金额文本行位置，对于开始位置可以根据日期文本行位置进行判断，一般明细区域的开始位置在小票日期行的后面，当然日期行位置也要设定阈值，超过此阈值则此日期信息无效；假设某个小票的日期行位置出现在小票中的后半部分的位置，而小票的明细区域一般是在小票的前半部分，此时把此日期行位置作为判断明细区域位置的指标可能会造成不必要的错误；剔除操作是为了保证当前提取的明细区域都是被包含在小票的实际明细区域中；召回操作是根据当前的定位的明细区域提取出一个明细模板。

在其中一个实施例中，“召回操作是根据当前的定位的明细区域提取出一个明细模板”中提取方法是：通过计算出当前某两个明细的相似度，超过某个阈值，就可以把其中的一个明细作为一个明细模板。

在其中一个实施例中，“根据明细索引关键字找出明细索引行，对于含有或不含有明细索引行都要进行明细完整性判断然后进行明细行合并；”具体包括：

S41，首先将明细行集合中的每一行表示成由标签数字组成的字符串；

S42，初始设置标志flag＝0，计算出明细行集合中的第一行与第二行的文本编辑距离d₁，如果明细行集合中只有一行，那么此行就作为一个完整的明细。设定一个阈值t₁，如果d₁<t₁，执行步骤S43，否则，如果flag＝＝0时，执行步骤S44(1)，flag＝＝1时，执行步骤S44(2)；

S43，将第一行和第二行分别作为两个完整的明细；在得到两个明细模板后，取出明细集合中的第三行，分别计算第三行与第一行的编辑距离d₂和第三行与第二行的编辑距离d₃，计算这两个距离的平均值；后面再将第三行与第四行合并，也分别计算出它与两个明细模板的编辑距离，计算其平均值，如果平均值减小了，将第三四行进行合并，后面的操作一直进行，直到距离平均值不在减小，明细行合并结束，这样就得到一个新的明细；如果明细行集合还有剩余，同理进行同样操作，最终得到一个完整的明细集合；

S44，(1)如果原始明细行集合只有两行，就将这两个明细行合并作为一个完整的明细，就无需进行后面的执行过程；将第二行与第三合并得到新的明细行，假设此明细行为一个完整的明细，再将第二三四行合并得到另一个新的明细行，由于一个完整的明细一般最多由3行明细行组成的，所以只有这两种合并方式；计算出这两个明细模板与第一行的编辑距离d₄、d₅，计算d^*＝min{d₄、d₅}，设定一个阈值t₂，若d^*<t₂，如果d^*＝d₄，二三行合并，否则二三四行合并，这样得到一个新的明细行作为新明细行集合的第二行，执行步骤S43；如果d^*>t₂，执行步骤S45；

(2)如果原始明细行集合只有两行，就将这两个明细行合并作为一个完整的明细，就无需进行后面的执行过程；首先假设第二行本身就为一个完整的明细，将第二行与第三合并得到新的明细行，将此也看作一个完整的明细，再将第二三四行合并得到另一个新的明细行，因为一般一个完整的明细最多由3行明细行组成的，所以只有这两种合并方式；计算出这三个明细模板与第一行的编辑距离d₄、d₅、d₆，计算d^*＝min{d₄、d₅、d₆}，设定一个阈值t₃，如果d^*<t₃，如果d^*＝d₄，不做合并操作，如果d^*＝d₅，二三行合并，否则二三四行合并，这样得到一个新的明细行作为新明细行集合的第二行，执行步骤S43；如果d^*>t₃，执行步骤S45；

S45，将第一行与第二行进行合并，将此合并后的结果作为新的明细行集合的第一行，这样得到了一个新的明细行集合且flag设为1；然后再重新执行步骤S42；由于一个完整的明细最多囊括三个明细行，此时如果原始的明细行集合中的第一二三行已经进行了合并操作，此时就将此合并的结果作为一个完整的明细，假如原始明细行集合中还有剩余的明细行，再次执行步骤S43，不过此时只需计算一个编辑距离，由于只含有一个明细模板。

在其中一个实施例中，“获取小票中的各条消费明细属性信息列表。”具体包括：

得到了完整的明细集合，如果含有明细索引，根据明细索引对齐方法提出每条明细的需要的明细信息，其中，明细信息包括商品名、商品编码、单价、数量和总价，根据历史小票的明细索引所含有的关键词，建立一个明细索引关键词词典，且商品名，商品编码，单价，数量，总价与其所有关键字形成对应关系；循环遍历小票文本文档中的行文本，且对行文本进行分词，判断分词后的行文本是否与关键词库一一匹配；若匹配则为明细索引行，根据分词过后的文本行中的词汇对应关键词词典中的含义，得到小票中所有明细对应的各个字段的值，即得到所有消费明细的商品名，商品编码，单价，数量，总价；如果小票中不含有明细索引，根据历史小票，统计出无明细索引小票中的所有明细模板组成明细样本库，将上述得到的消费明细集合中的各条明细与之一一进行匹配，从而提取出小票中各条消费明细信息。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

本发明的有益效果：

由于是专门针对小票设计，相对传统的信息抽取方法效果好。

附图说明

图1是本发明小票消费明细内容融合及提取方法的流程示意图。

图2是本发明小票消费明细内容融合及提取方法中明细内容融合的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

结合目前较火的深度学习和本文提出的小票消费明细抽取方法，当然此方法比较依赖前者学习到的分类器的分类性能，主要根据它定位到我们需要的明细行范围。如果分类效果很差，就会影响后面的明细抽取工作。由于目前的深度学习在分类上处理的非常好，因此我们也采用了深度神经网络模型进行分类，在小票明细抽取的过程中使用了文本编辑距离和按规则进行抽取。本文提出的方法能较好地抽取到消费明细中我们关注的几项内容。

为了精确地提取到小票中的消费明细，本发明提出了一套完整抽取小票中的消费明细系统，下面结合图1对此系统进行详细描述，包括以下步骤S1、S2、S3、S4、S5：

S1，ocr识别，对于客户上传的小票图片进行ocr识别，即使用光学字符识别技术对图片中的文字字符进行识别，得到小票的文本文档。

S2，标签识别，使用现有一些流行的深度学习网络进行训练得到了一个行概率模型，我们的模型集成了LSTM模型，DNN深度神经网络模型以及联合概率模型，使用此模型对小票文档中的每一行文字进行分类，得到了每行带有标签的行标签文档。

S3，小票明细区域获取，根据带有标签的行标签文档，由于小票的明细一般都是集中出现在小票的某个区域，假设明细的标签我们设置1，根据概率矩阵得到小票中文本行标签为1的那些文本行，将小票文档中第一个出现标签为1的文本行到最后一个出现标签为1的文本行之间的区域暂时设置为明细区域。由于模型在新型小票上的预测效果可能不是特别好，可能会造成小票文本行标签的预测错误，此时的明细区域中的文本行不一定全是明细，当然也有可能缺少一部分明细。因此我们需要对此时得到的明细区域进行剔除和适当的召回操作。剔除操作是为了减小它的错误率，召回操作是为了提高它的召回率。剔除和添加操作也有先后顺序的，先要进行剔除操作，如果小票中含有明细索引，那么小票中属于明细区域的开始位置也就确定了，而对于明细区域的结束位置是根据两个关键指标得到的，首先一般小票的明细区域都会出现在应付金额文本行的前面，如果明细区域的结束位置定位到应付金额文本行的后面，则将应付金额文本行的后面明细区域全部剔除掉。另外一个指标就是如果两个标签为1的文本行之间掺杂了超过了某个阈值大小的其它标签，就将后面的部分舍弃掉。对于不含明细索引的小票，结束位置的判断只能根据应付金额文本行位置，对于开始位置可以根据日期文本行位置进行判断，一般明细区域的开始位置在小票日期行的后面，当然日期行位置也要设定阈值，超过此阈值则此日期信息无效。假设某个小票的日期行位置出现在小票中的后半部分的位置，而小票的明细区域一般是在小票的前半部分，此时把此日期行位置作为判断明细区域位置的指标可能会造成不必要的错误。剔除操作是为了保证当前提取的明细区域都是被包含在小票的实际明细区域中。召回操作是根据当前的定位的明细区域提取出一个明细模板，当然提取方法也是不定的，比如通过计算出当前某两个明细的相似度，超过某个阈值，就可以把其中的一个明细作为一个明细模板，当然这两个明细可以是一行文本行，也可能是多行文本，但两个明细在小票文档中必须是相邻的，根据这个明细模板就可以召回一些漏掉的明细，得到最终的明细区域。

S4，明细内容融合，根据明细索引关键字找出明细索引行，对于含有或不含有明细索引行都要进行明细完整性判断然后进行明细行合并，具体步骤结合图2来描述，如以下步骤S41，S42，S43，S44和S45，

S41，首先将明细行集合中的每一行表示成由标签数字组成的字符串，假设有一个小票的明细行为(西红柿111234552.52.05.0)，其中西红柿为商品名，后面的11123455为商品编码，2.5为单价，2.0为数量，5.0为总价，我们将含有中文的的商品名表示为标签1，数字字符串的商品编码表示为标签2，单价，数量和总价分别为小数分别表示标签3，则此明细行可以表示为12333，当然也可以按照其他方式进行编码。

S42，初始设置标志flag＝0，计算出明细行集合中的第一行与第二行的文本编辑距离d₁，如果明细行集合中只有一行，那么此行就作为一个完整的明细。设定一个阈值t₁，如果d₁<t₁，执行步骤S43，否则，如果flag＝＝0时，执行步骤S44(1)，flag＝＝1时，执行步骤S44(2)。

S43，将第一行和第二行分别作为两个完整的明细(如果明细行集合只有两行，后面的操作就无需进行了)。在得到两个明细模板后，取出明细集合中的第三行，分别计算第三行与第一行的编辑距离d₂和第三行与第二行的编辑距离d₃，计算这两个距离的平均值。后面再将第三行与第四行合并，也分别计算出它与两个明细模板的编辑距离，计算其平均值，如果平均值减小了，将第三四行进行合并，后面的操作一直进行，直到距离平均值不在减小，明细行合并结束，这样就得到一个新的明细。如果明细行集合还有剩余，同理进行同样操作，最终得到一个完整的明细集合。

S44，(1)(如果原始明细行集合只有两行，就将这两个明细行合并作为一个完整的明细，就无需进行后面的执行过程)，将第二行与第三合并得到新的明细行，假设此明细行为一个完整的明细，再将第二三四行合并得到另一个新的明细行(假设有第四行)，由于一个完整的明细一般最多由3行明细行组成的，所以只有这两种合并方式。计算出这两个明细模板与第一行的编辑距离d₄、d₅，计算d^*＝min{d₄、d₅}，设定一个阈值t₂，若d^*<t₂，如果d^*＝d₄，二三行合并，否则二三四行合并，这样得到一个新的明细行作为新明细行集合的第二行，执行步骤S43；如果d^*>t₂，执行步骤S45；(2)(如果原始明细行集合只有两行，就将这两个明细行合并作为一个完整的明细，就无需进行后面的执行过程)，首先假设第二行本身就为一个完整的明细，将第二行与第三合并得到新的明细行，将此也看作一个完整的明细，再将第二三四行合并得到另一个新的明细行(假设有第四行)，因为一般一个完整的明细最多由3行明细行组成的，所以只有这两种合并方式。计算出这三个明细模板与第一行的编辑距离d₄、d₅、d₆，计算d^*＝min{d₄、d₅、d₆}，设定一个阈值t₃，如果d^*<t₃，如果d^*＝d₄，不做合并操作，如果d^*＝d₅，二三行合并，否则二三四行合并，这样得到一个新的明细行作为新明细行集合的第二行，执行步骤S43。如果d^*>t₃，执行步骤S45。

S45，将第一行与第二行进行合并，将此合并后的结果作为新的明细行集合的第一行，这样得到了一个新的明细行集合且flag设为1。然后再重新执行步骤S42。由于一个完整的明细最多囊括三个明细行，此时如果原始的明细行集合中的第一二三行已经进行了合并操作，此时就将此合并的结果作为一个完整的明细，假如原始明细行集合中还有剩余的明细行，再次执行步骤S43，不过此时只需计算一个编辑距离，由于只含有一个明细模板。

S5.步骤S4得到了完整的明细集合，如果含有明细索引，根据明细索引对齐方法提出每条明细的需要的明细信息(包括商品名，商品编码，单价，数量，总价)，根据历史小票的明细索引所含有的关键词，建立一个明细索引关键词词典，且商品名，商品编码，单价，数量，总价与其所有关键字形成对应关系。循环遍历小票文本文档中的行文本，且对行文本进行分词，判断分词后的行文本是否与关键词库一一匹配。若匹配则为明细索引行，根据分词过后的文本行中的词汇对应关键词词典中的含义，得到小票中所有明细对应的各个字段的值，即得到所有消费明细的商品名，商品编码，单价，数量，总价；如果小票中不含有明细索引，根据历史小票，统计出无明细索引小票中的所有明细模板组成明细样本库，将上述得到的消费明细集合中的各条明细与之一一进行匹配，从而提取出小票中各条消费明细信息。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.一种小票消费明细内容融合及提取方法，其特征在于，包括：

获取客户上传的小票图片的文本文档；

根据所述带有标签的行标签文档，获取小票的明细区域；

获取小票中的各条消费明细属性信息列表。

2.如权利要求1所述的小票消费明细内容融合及提取方法，其特征在于，“获取客户上传的小票图片的文本文档；”中，利用ocr识别获取客户上传的小票图片的文本文档。

3.如权利要求1所述的小票消费明细内容融合及提取方法，其特征在于，“利用深度学习网络对小票文档中的每一行文字进行分类，得到了每行带有标签的行标签文档；”中，使用深度学习网络进行训练得到了一个行概率模型，所述行概率模型集成LSTM模型，DNN深度神经网络模型以及联合概率模型。

4.如权利要求1所述的小票消费明细内容融合及提取方法，其特征在于，“根据带有标签的行标签文档，获取小票的明细区域；”具体包括：

5.如权利要求4所述的小票消费明细内容融合及提取方法，其特征在于，“召回操作是根据当前的定位的明细区域提取出一个明细模板”中提取方法是：通过计算出当前某两个明细的相似度，超过某个阈值，就可以把其中的一个明细作为一个明细模板。

6.如权利要求1所述的小票消费明细内容融合及提取方法，其特征在于，“根据明细索引关键字找出明细索引行，对于含有或不含有明细索引行都要进行明细完整性判断然后进行明细行合并；”具体包括：

7.如权利要求1所述的小票消费明细内容融合及提取方法，其特征在于，“获取小票中的各条消费明细属性信息列表。”具体包括：

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1到7任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1到7任一项所述方法的步骤。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1到7任一项所述的方法。