CN117573810B

CN117573810B - 一种多语言产品包装说明书文字识别查询方法及系统

Info

Publication number: CN117573810B
Application number: CN202410051603.8A
Authority: CN
Inventors: 徐永龙; 马昊; 段瑛琛; 徐思思; 刘志强; 李高健; 王德建
Original assignee: Tencent Yantai New Engineering Research Institute
Current assignee: Tencent Yantai New Engineering Research Institute
Priority date: 2024-01-15
Filing date: 2024-01-15
Publication date: 2024-04-09
Anticipated expiration: 2044-01-15
Also published as: CN117573810A

Abstract

本发明涉及人工智能计算机视觉和自然语言处理领域，尤其涉及一种多语言产品包装说明书文字识别查询方法及系统。通过对不规整文本图片上难检测和易检测的文本区域设置不同的惩罚系数，有效区分难检测和易检测的文本区域，提高损失估计准确度，有效检测出文本区域；应用TPS空间变换网络和Transformer网络将不规整的文本或图像部分映射到规则的形状上，提高后续的特征提取和识别性能。用户通过手机客户端扫描产品包装或产品说明书，云端平台生产厂商数据库查询得到产品说明书清晰详细内容并反馈给用户；用户通过手机客户端进行提问，多语言翻译查询基于多语言大模型和向量数据库，使用用户选择的语言回答。

Description

一种多语言产品包装说明书文字识别查询方法及系统

技术领域

本发明涉及人工智能计算机视觉和自然语言处理领域，尤其涉及一种多语言产品包装说明书文字识别查询方法及系统。

背景技术

当前市面上流通的商品，在其包装及使用说明书上的文字比较小，老年人或有视力障碍的人很难看清楚；尤其是像药品类产品更是如此，对于外国人来说还存在翻译成其母语才能看懂的问题，用户的体验比较差。中国专利文献CN115620305A公开了“一种基于深度学习的拍照识药系统及其使用方法”，通过拍照辨识区分待测物，对拍摄的数字图像进行预处理，对预处理后的数字图像进行前景背景分割提取出前景主体，对前景主体进行目标检测，从而得到待识别物的药品相关信息、辨别是否是药品或保健品。上述技术方案只聚焦于拍照识别整体流程，未公布文本检测具体算法，应用范围有限。

现有的图片文本检测方法，由于输入图片往往有大量非文本区域的背景类别和相对较少的文本区域前景类别，通常采用带一个r惩罚系数的Focal Loss的特定变体损失函数对文本检测神经网络模型进行优化，以减少容易分类的样本对损失的贡献，更关注那些难以分类的样本，从而提高该神经网络模型的性能。本发明识别对象是产品尤其是药品包装或产品使用说明书，它们往往不规整，对它们拍照或扫描获取的图片其质量受其本身的质量及环境的影响，比如说褶皱、光线、形变、遮盖、大小或字体不统一等，导致有些文本内容难以检测，从而检测精度下降。因此，如何更有效地区分难检测和易检测的文本区域、提高损失估计准确度，从而提高模型训练效率和精度、加速模型收敛，是不规整图像文字检测领域亟须解决的技术问题。本发明设计了一种改进的文本检测网络的损失函数，可有效解决此问题。

目前的文本识别模型大多是基于通用场景，很少有针对识别产品包装或产品使用说明书这类不规整图片场景进行优化；针对于此，本发明提出了一种基于transformer的文本识别算法，提高产品包装或产品使用说明书这类不规整图片的文本识别的准确性。

某些用户可能存在阅读障碍，产品包装或产品使用说明书上的文字可能是外语，而另外一些用户可能存在翻译需求。针对于此，本发明设计了一种基于多语言大模型和向量数据库的问答助手-多语言翻译查询模块，将文本识别结果录入向量数据库，然后多语言翻译查询模块根据用户的自然语言提问，结合向量数据库的知识，使用用户使用或选择的语言回答用户的问题。

发明内容

本发明要解决的技术问题是：提供一种多语言产品包装说明书文字识别查询方法，通过对输入图片上难检测和易检测的文本区域设置不同的惩罚系数，有效区分难检测和易检测的文本区域、提高损失估计准确度，提高模型训练效率和精度、加速模型收敛，从而有效识别图片上非规则文本。本发明技术方案如下：

一种多语言产品包装说明书文字识别查询方法，包括：

S1文本检测算法，检测输入图片中的文本区域，本算法基于卷积神经网络模型，采用带不同调节因子变体损失函数；

；

是该网络模型的损失；

x是模型训练图片检测输出结果；

y表示标注的训练图片数据；

是训练图片的像素集合；

、/>是调节因子，用于调整损失函数聚焦度；

使用背景的损失函数进行反向传播：

；

使用前景的损失函数进行反向传播：

；

S2文字识别算法，基于Transformer构建，对S1输出进行识别计算，输出纯文本数据，送给产品关键信息检索子模块提取产品特征信息；

S2.1利用TPS空间变换网络对S1输出进行预处理，将不规则的文本或图像部分映射到规则的形状上；

S2.2通过深度残差网络ResNet提取特征信息，利用多头注意力和标准化技术，将图像特征数据进行编码，转换为序列数据并输入到多层感知机网络生成文本识别结果。

进一步地，S2.2中所述产品特征信息包括：产品名称、产品型号、序列号、生产厂商、生产日期、产品过期日期。

针对现有技术存在的不足，本发明的目的之二是提供一种多语言产品包装说明书文字识别查询系统，采用如上述方法构建，包括用户客户端、生产厂商客户端、用户和生产厂商管理后台、云端平台，

M1用户客户端安装在用户带摄像头的移动电话或平板电脑移动设备上，包括用户注册与登录模块、与云端平台交互模块、查询结果显示模块；

M1.1用户注册与登录模块，其功能是检测用户是否注册，如未注册引导注册，如已注册引导登录系统；

M1.2与云端平台交互模块，其功能是通过安装本客户端的移动设备对产品包装或说明书进行拍照或扫描，将形成的图片序列发送给云端平台；接收云端平台反馈的结果信息，并传递给查询结果显示模块；用户可选择呈现方式和呈现内容，可自由放大和缩小呈现的内容；

M1.3查询结果显示模块，其功能是将云端平台反馈的查询结果信息显示给用户；

M2生产厂商客户端，包括生产厂商注册与登录模块、产品包装说明书电子文档上传云端平台模块、管理模块；

M2.1生产厂商注册与登录模块，其功能是检测生产厂商是否注册，如未注册引导注册，如已注册引导登录系统；

M2.2产品包装说明书电子文档上传云端平台模块，其功能是生产厂商上传其发布产品的包装和/或说明书的电子文档到云端平台；

M2.3管理模块，其功能是编辑管理生产厂商上传的产品包装和/或说明书电子文档；

M3用户和生产厂商管理后台，其功能是对注册的用户或生产厂商进行管理，包括对已录入云端平台的用户数据库、生产厂商数据库进行增删改查；

M4云端平台部署在系统或平台所有者的数据中心或者云端，包括用户数据库模块、生产厂商数据库模块、产品包装说明书图片识别模块、产品包装说明书图片识别结果存储模块、产品包装说明书电子文档存储模块；

M4.1用户数据库模块，其功能是存储注册的用户数据；

M4.2生产厂商数据库模块，其功能是存储注册的生产厂商数据；

M4.3产品包装说明书图片识别模块，包括产品关键信息检索子模块，采用一种多语言产品包装说明书文字识别查询方法，基于计算机视觉或人工智能技术对图片序列上的文字进行检测和识别，然后通过产品关键信息检索子模块提取产品特征信息；

M4.4产品包装说明书图片识别结果存储模块，以结构化的形式将M4.3识别和检索到的信息存储；

M4.5产品包装说明书电子文档存储模块，其功能是存储生产厂商上传的产品的包装和/或说明书的电子文档。

进一步地，M1所述用户客户端还可包含：多语言语音文字转换模块ASR、文字语言转换模块TTS；M1.4多语言语音文字转换模块ASR，其功能是供用户以自然语言语音的形式询问相关产品的知识，包括对产品包装或说明书上的术语或内容进行询问，并传递至云端平台的多语言TTS和ASR引擎模块；M1.5文字语言转换模块TTS，其功能是接收云端平台的多语言TTS和ASR引擎模块输出数据，转化为自然语言读给用户听，从而造福于眼神不好或者不怎么识字的人；M4所述云端平台还可包含：多语言TTS和ASR引擎模块、多语言翻译查询模块；M4.6多语言TTS和ASR引擎模块，其功能是：a）接收用户客户端多语言语音文字转换模块ASR数据，将该语音询问转换成文本后，传递至云端平台的多语言翻译查询模块；b）将云端平台检测并识别的结果、对应的生产厂商提供的电子文档和/或多语言翻译查询模块输出结果，包括翻译成用户选择的其他语言的文本，传递给用户客户端多语言文字语言转换模块TTS；M4.7多语言翻译查询模块，其功能是接收用户以自然语言文本或语音形式的询问并给出回答，产品包装说明书文本接口的文本输入来自产品包装说明书图片识别结果存储模块和/或产品包装说明书电子文档存储模块，然后对其进行向量化，包括文本清洗和文本切分，输出存放在产品包装说明书向量数据库，供含翻译功能的多语言大模型使用；通过该多语言翻译查询模块，用户可将前述检测并识别的结果和/或对应的生产厂商提供的电子文档翻译成用户选择的其他语言供其使用，还可对前述检测并识别的结果和/或对应的生产厂商提供的电子文档中的专业术语进行高亮化，用户点击以后可以进一步查询其含义；通过识别的生产厂商产品名称及产品型号将其与对应的电子文档进行关联，并呈现给用户；对应该电子文档在云端平台的存放的逻辑位置生成一个二维码，用户可收藏该二维码或打印出来贴在他刚才拍照或扫描的产品上，供其随时查看；对应的生产厂商可以将该二维码贴在它随后发布的产品上面。

进一步地，M4.7所述的多语言翻译查询模块，其多语言大模型采用基于Encoder框架的自回归文本生成大语言模型，为适应多国语言的要求，本发明使用多国语言的语料资源，使用Low-Rank Adaptation of Large Language Models算法对该模型进行微调；通过用户客户端接口将用户的提问以自然语言文本的形式在向量化以后，送入该微调和对齐后的大模型；该大模型基于其所学的知识以及产品包装说明书向量数据库中的知识，应用其模型推理能力，生成对应该用户提问的回答文本向量，将其通过向量转文本算法转换成文本；该文本的语言对应用户提问的语种或用户选择的语种，并通过用户客户端接口推送给用户客户端。

本发明的有益效果是：

1、本发明提供的一种多语言产品包装说明书文字识别查询方法，通过对不规整文本图片上难检测和易检测的文本区域设置不同的惩罚系数，有效区分难检测和易检测的文本区域，提高损失估计准确度，提高模型训练效率和精度，加速模型收敛，从而有效检测出文本区域。

2、本发明提供的一种多语言产品包装说明书文字识别查询方法，能够充分发挥TPS空间变换网络和Transformer网络在文本识别和处理不规整对象方面的优势，将不规整的文本或图像部分映射到规则的形状上，有效提高后续的特征提取和识别性能，算法精度高、鲁棒性好，处理速度快。

3、本发明提供的一种多语言产品包装说明书文字识别查询系统，通过云端平台将用户、生产厂商、产品建立相互关联，用户通过手机客户端扫描不规整的产品包装或产品说明书得到不够完备、清晰的产品基本信息，通过云端平台生产厂商数据库查询得到产品说明书详细内容，最后由云端平台将该产品清晰完备的说明书内容反馈给手机客户端，供用户阅读或者转化为自然语言读给用户听，从而造福于有阅读障碍的用户。

4、本发明提供的一种多语言产品包装说明书文字识别查询系统，用户通过手机客户端可用文本或语音自然语言方式对生产厂商的产品的内容进行提问，多语言翻译查询模块根据用户的自然语言提问，基于多语言大模型和向量数据库，使用用户选择的语言以自然语言文本或语音的形式回答用户的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中的一种多语言产品包装说明书文字识别查询方法流程图；

图2是本发明实施例中的一种多语言产品包装说明书文字识别查询方法基于Transformer架构的文字识别算法流程图；

图3是本发明实施例中的一种多语言产品包装说明书文字识别查询系统整体结构示意图；

图4是本发明实施例中的一种多语言产品包装说明书文字识别查询系统产品生产厂商注册登录及上传产品包装和/或说明书电子文档流程示意图；

图5是本发明实施例中的一种多语言产品包装说明书文字识别查询系统用户注册登录、拍照上传及接收云端反馈流程示意图；

图6是本发明实施例中的一种多语言产品包装说明书文字识别查询系统多语言翻译查询模块流程示意图；

图7是本发明实施例中的一种多语言产品包装说明书文字识别查询系统基于多语言大模型技术的多语言翻译查询模块流程示意图。

具体实施方式

以下将参照附图详细描述本发明的示例性实施例。应注意，以下的描述在本质上仅是解释性和示例性的，决不意在限制本发明及其应用或使用，除非另外特别说明，否则，在实施例阐述的组件和步骤的相对位置、数字表达式以及数值并不限制本发明的范围。另外，本领域技术人员已知的技术、方法和设备可能不被详细讨论，但在合适的情况下意在成为说明书的一部分。

实施例1为本发明公开的一种多语言产品包装说明书文字识别查询方法，如图1所示：本算法基于人工智能技术，包括文本检测算法和文字识别算法：

S1文本检测算法，其功能是检测输入的产品包装说明书图片中的文本区域，可检测到输入图片中有一定形变的文字并切分，输出只包含文本区域的图片“文本区域分割图像”；本文本检测算法基于卷积神经网络模型，由于输入文本往往具有大量非文本区域背景类别和相对较少文本区域前景类别，因而采用带不同调节因子的Focal Loss变体损失函数计算文本检测算法的损失；

；

其中，是该神经网络模型的损失；x是该神经网络模型对用于模型训练的产品包装说明书图片进行检测的输出结果，即训练图片文本区域分割图像；y表示标注的训练图片数据，即对用于模型训练的产品包装说明书图片进行标注后的结果；/>是所有训练图片的像素集合；r是调节因子，用于调整损失函数的聚焦度；较大的r会增加损失对容易检测的文本区域的惩罚程度，从而更加关注难以检测的文本区域；/>、/>为两个不同的参数，这使得本发明对于难检测和易检测的文本区域具有不同的惩罚系数，对损失的估计更加准确，从而提高模型训练效率和精度，加速模型收敛；

由于不同的训练图片数据集具有不同比例的前景和背景，调节因子需要动态调节，故使用文本检测算法的卷积神经网络模型来计算参数、/>；首先对文本检测算法的卷积层的最后一层进行池化，之后经过两个多层感知机，分别计算得到/>、/>的值；然后该网络同样根据计算出的损失进行反向传播；

对于，使用背景的损失函数进行反向传播，损失函数如下：

；

对于，使用前景的损失函数进行反向传播，损失函数如下：

；

采用传统的带一个r惩罚系数的Focal Loss的特定变体损失函数与本发明采用带不同调节因子的Focal Loss变体损失函数计算文本检测算法，训练效率和精度对比如表1所示：

表1：传统算法与本专利算法训练效率及精度对照表

S2文字识别算法，本算法基于Transformer架构构建，以应对不规整文本的识别问题；其功能是将S1计算得到的只包含文本区域的图片“文本区域分割图像”作为输入送给文字识别算法进行识别，输出纯文本数据，然后作为输入送给产品关键信息检索子模块提取产品特征信息，如图2所示：

S2.1利用TPS空间变换网络对S1中文本检测算法的输出的文本区域分割图像进行预处理，通过将不规整的文本或图像部分映射到规则的形状上，从而提高后续的特征提取和识别性能；

S2.2通过深度残差网络ResNet作为特征提取网络提取特征信息，随后利用多头注意力和标准化技术，将输入的图像特征数据进行编码，转换为序列数据，将其输入到多层感知机网络生成文本识别结果，具体包括：产品名称、产品型号、序列号、生产厂商、生产日期、产品过期日期；

采用实施例算法，识别的产品包装说明书图片样本，结果如表2所示：

表2：示例图片识别结果

通过识别结果可以看出，本算法能够有效区分难检测和易检测的文本区域，识别精度高、错误率低、准确性好。

实施例2为本发明公开的一种多语言产品包装说明书文字识别查询系统，如图3所示：包括用户客户端、生产厂商客户端、用户和生产厂商管理后台、云端平台，其特征是：

M1用户客户端安装在用户带摄像头的移动电话或平板电脑移动设备上，包括用户注册与登录模块、与云端平台交互模块、查询结果显示模块，如图5所示：

M1.4多语言语音文字转换模块ASR，其功能是供用户以自然语言语音的形式询问相关产品的知识，包括对产品包装或说明书上的术语或内容进行询问，并传递至云端平台的多语言TTS和ASR引擎模块；

M1.5文字语言转换模块TTS，其功能是接收云端平台的多语言TTS和ASR引擎模块输出数据，转化为自然语言读给用户听，从而造福于眼神不好或者不怎么识字的人；

用户客户端还可有转发分享、用户点赞和广告功能；有些手机应用的菜单或者显示的文本的文字也相当小，也可以生成这些菜单或者显示的文本的截图发给本客户端对其进行前述的处理；

M2生产厂商客户端，包括生产厂商注册与登录模块、产品包装说明书电子文档上传云端平台模块、管理模块，如图4所示：

M4.1用户数据库模块，其功能是存储注册的用户数据；

M4.6多语言TTS和ASR引擎模块，其功能是：a）接收用户客户端多语言语音文字转换模块ASR数据，将该语音询问转换成文本后，传递至云端平台的多语言翻译查询模块；b）将云端平台检测并识别的结果、对应的生产厂商提供的电子文档和/或多语言翻译查询模块输出结果，包括翻译成用户选择的其他语言的文本，传递给用户客户端多语言文字语言转换模块TTS；

M4.7多语言翻译查询模块，如图6所示，其功能是接收用户以自然语言文本或语音形式的询问并给出回答，产品包装说明书文本接口的文本输入来自产品包装说明书图片识别结果存储模块和/或产品包装说明书电子文档存储模块，然后对其进行向量化，包括文本清洗和文本切分，输出存放在产品包装说明书向量数据库，供含翻译功能的多语言大模型使用；通过该多语言翻译查询模块，用户可将前述检测并识别的结果和/或对应的生产厂商提供的电子文档翻译成用户选择的其他语言供其使用，还可对前述检测并识别的结果和/或对应的生产厂商提供的电子文档中的专业术语进行高亮化，用户点击以后可以进一步查询其含义；通过识别的生产厂商产品名称及产品型号将其与对应的电子文档进行关联，并呈现给用户；对应该电子文档在云端平台的存放的逻辑位置生成一个二维码，用户可收藏该二维码或打印出来贴在他刚才拍照或扫描的产品上，供其随时查看；对应的生产厂商可以将该二维码贴在它随后发布的产品上面。

如图7所示，为适应多国语言的要求，本发明使用多国语言的语料资源，使用Lora算法对该模型进行微调；所述Lora算法为Low-Rank Adaptation of Large LanguageModels，通过该算法使该大模型具有处理多国语言的能力；为确保该模型输出结果的安全性和有效性，使用人类反馈的强化学习RLHF对该大模型进行人类语言习惯的对齐；通过LORA的微调以及RLHF的人类语言习惯的对齐，该大语言模型能够更准确地识别用户提问的意图，根据文本的语义关联性生成更丰富、更准确的答案；该多语言翻译查询模块，其多语言大模型采用基于Encoder框架的自回归文本生成大语言模型；通过用户客户端接口将用户的提问以自然语言文本的形式在向量化以后，送入该微调和对齐后的大模型；该大模型基于其所学的知识以及产品包装说明书向量数据库中的知识，应用其模型推理能力，生成对应该用户提问的回答文本向量，将其通过向量转文本算法转换成文本；该文本的语言对应用户提问的语种或用户选择的语种，并通过用户客户端接口推送给用户客户端。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多语言产品包装说明书文字识别查询方法，其特征在于：包括：

；

是该网络模型的损失；

x是模型训练图片检测输出结果；

y表示标注的训练图片数据；

是训练图片的像素集合；

是调节因子，用于调整损失函数聚焦度；

使用背景的损失函数进行反向传播：

；

使用前景的损失函数进行反向传播：

；

S2.2通过深度残差网络ResNet提取特征数据，利用多头注意力和标准化技术，将图像特征数据进行编码，转换为序列数据并输入到多层感知机网络生成文本识别结果，通过产品关键信息检索子模块提取产品特征信息；所述产品特征信息包括：产品名称、产品型号、序列号、生产厂商、生产日期、产品过期日期。

2.一种多语言产品包装说明书文字识别查询系统，包括用户客户端、生产厂商客户端、用户和生产厂商管理后台、云端平台，其特征在于：

M4.1用户数据库模块，其功能是存储注册的用户数据；

M4.3产品包装说明书图片识别模块，包括产品关键信息检索子模块，采用权利要求1所述的一种多语言产品包装说明书文字识别查询方法，基于计算机视觉或人工智能技术对图片序列上的文字进行检测和识别，然后通过产品关键信息检索子模块提取产品特征信息；

3.根据权利要求2所述的一种多语言产品包装说明书文字识别查询系统，其特征在于：

M1所述用户客户端还可包含：多语言语音文字转换模块ASR、文字语言转换模块TTS；

M4所述云端平台还可包含：多语言TTS和ASR引擎模块、多语言翻译查询模块；

M4.7多语言翻译查询模块，其功能是接收用户以自然语言文本或语音形式的询问并给出回答，产品包装说明书文本接口的文本输入来自产品包装说明书图片识别结果存储模块和/或产品包装说明书电子文档存储模块，然后对其进行向量化，包括文本清洗和文本切分，输出存放在产品包装说明书向量数据库，供含翻译功能的多语言大模型使用；通过该多语言翻译查询模块，用户可将前述检测并识别的结果和/或对应的生产厂商提供的电子文档翻译成用户选择的其他语言供其使用，还可对前述检测并识别的结果和/或对应的生产厂商提供的电子文档中的专业术语进行高亮化，用户点击以后可以进一步查询其含义；通过识别的生产厂商产品名称及产品型号将其与对应的电子文档进行关联，并呈现给用户；对应该电子文档在云端平台的存放的逻辑位置生成一个二维码，用户可收藏该二维码或打印出来贴在他刚才拍照或扫描的产品上，供其随时查看；对应的生产厂商可以将该二维码贴在它随后发布的产品上面。

4.根据权利要求3所述的一种多语言产品包装说明书文字识别查询系统，其特征在于：

M4.7所述的多语言翻译查询模块，其多语言大模型采用基于Encoder框架的自回归文本生成大语言模型，为适应多国语言的要求，使用多国语言的语料资源，使用Low-RankAdaptation of Large Language Models算法对该模型进行微调；通过用户客户端接口将用户的提问以自然语言文本的形式在向量化以后，送入该微调和对齐后的大模型；该大模型基于其所学的知识以及产品包装说明书向量数据库中的知识，应用其模型推理能力，生成对应该用户提问的回答文本向量，将其通过向量转文本算法转换成文本；该文本的语言对应用户提问的语种或用户选择的语种，并通过用户客户端接口推送给用户客户端。