CN114416914B

CN114416914B - 一种基于图片问答的处理方法

Info

Publication number: CN114416914B
Application number: CN202210321278.3A
Authority: CN
Inventors: 谷满昌; 张镜; 马洋
Original assignee: China State Construction eCommerce Co Ltd
Current assignee: China State Construction eCommerce Co Ltd
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-07-08
Anticipated expiration: 2042-03-30
Also published as: CN114416914A

Abstract

本发明涉及图片问答处理技术领域，公开了一种基于图片问答的处理方法，该方法包括：对商品详情页进行OCR光学识别，获取第一段落；将第一段落和用户问题分为有序的单词序列，通过信息检索获取最相关的K个第二段落；将用户问题和K个第二段落分别进行分词；将用户问题分别和每个第二段落进行拼接，并在用户问题前加入标记位得到第三段落，对第三段落进行建模，构造多个输入向量；用相加后的输入向量表示第三段落，输入到中文预训练模型，将中文预训练模型的最终隐藏状态转化为答案跨度概率值。本申请的技术方案提高图片问答用户体验，同时也节约了商家的配置答案的成本，提升了图片问答效率。

Description

一种基于图片问答的处理方法

技术领域

本发明涉及图片问答处理技术领域，特别是一种基于图片问答的处理方法。

背景技术

智能问答系统是人工智能领域中重要部分，智能问答系统可以基于语音、文字、图片等单一或者组合的交互形式，提供多模态的对话管理能力，支撑企业在各种领域实现智能客服回答。

图片问答是智能问答的一种形态，具体是指设计一个模型，在给定一张或者多张图片的情况下，模型结合机器视觉和自然语言处理等技术，可以实现拒绝回答图片无关问题或者自动回答用户提出与图片内容相关问题。当前主流图片问答技术是基于注意力的方法，可以分为：（1）基于检测注意力方法；（2）基于共同注意力方法。然而，基于检测注意力方法的大部分模型都采用Faster R-CNN目标检测对候选图片块提取特征，该方法存在性能延迟高，并发度低等缺陷，影响线上用户实时问答效率。基于共同注意力方法的模型，如：2019年提出MCAN方法通过图像引导文本注意力的机制，模型关注的区域和人关注的区域差异较大，共同注意力不能推断出每个图像区域和每个问题词之间的相关性, 这导致了共同注意力模型的显著局限性。

电商领域用户提问主要是关于商品图片上的文字信息，而上述两种基于注意力的图片问答技术对图像提取特征往往是方位、纹理等特征，而对图像中文字很难获取详细特征，无法将用户问题建模到具体图片中文字答案位置。因此传统图片问答技术无法回复图片中文字的问题。

发明内容

本发明要解决的技术问题是：为了解决传统图片问答技术无法回复图片中文字的问题，本发明公开了一种基于图片问答的处理方法。

为实现上述目的，本发明采用的技术方案如下：一种基于图片问答的处理方法，包括：

步骤S1，对商品详情页进行OCR光学识别，获取第一段落；

步骤S2，将第一段落和用户问题分为有序的单词序列，通过信息检索获取最相关的K个第二段落；

步骤S3，将用户问题和K个第二段落分别进行分词；

步骤S4，将用户问题分别和每个第二段落进行拼接，并在用户问题前加入标记位得到第三段落，对第三段落进行建模，构造多个输入向量；

步骤S5，用相加后的输入向量表示第三段落，输入到中文预训练模型，将中文预训练模型的最终隐藏状态转化为答案跨度概率值。

进一步的，所述步骤S1中，获取第一段落前，过滤掉OCR光学识别后文字长度小于2或大于512的段落。

进一步的，所述步骤S1中，获取第一段落前，设定无意义词汇，过滤无意义词汇占比大于50%的段落。

进一步的，所述步骤S2中，对用户问题进行语素解析，生成语素；然后针对每个第一段落文档，通过加权计算每个语素与每个第一段落文档的相关性得分，得到用户问题与第一段落的相关性得分，保留相关性得分最高的K个第二段落。

进一步的，所述步骤S3中，采用wordpiece工具进行分词。

进一步的，所述步骤S4包括：将用户问题分别和每个第二段落通过SEP进行拼接，并在用户问题前加入[CLS]标记位得到第三段落；对第三段落进行建模，通过查询词向量表将每个词转换为一维词向量，获取用于学习输入文本顺序属性的位置向量，获取用于区分拼接后用户问题部分和第二段落部分的段向量，获取商品详情页图片特征向量。

进一步的，所述步骤S5中，用词向量、位置向量、段向量、图片特征向量的相加向量表示第三段落；将相加向量输入BERT中文预训练模型；通过全连接层FC1和softmax函数将BERT中文预训练模型的最终隐藏状态预测为每个token所在位置，token所在位置为答案开头位置或者答案结尾位置，获取答案跨度在答案开头位置和答案结尾位置的概率值；计算答案跨度概率值。

进一步的，还包括以下过程：基于BERT中文预训练模型的最终隐藏状态上的[CLS]标记位，通过连接层FC2以及sigmoid函数，获取是否存在答案的二分类概率值。

进一步的，还包括相关性排序过程：采用pointwise对第三段落答案跨度概率值进行排序，标注答案文档出现的答案开头位置和答案结尾位置以及是否存在答案位置，所述答案文档是指用户问题和商品详情页；基于排序获取第三段落的答案跨度索引和标注答案文档索引；将第三段落的答案跨度索引和标注答案文档索引进行回归，获取连续变量；将连续变量乘以答案跨度概率值获取评分值，基于评分值进行段落排序。

进一步的，根据标注答案文档以及答案开头位置和答案结尾位置的概率值构建第一损失函数

，第一损失函数是由答案开头位置和答案结尾位置的交叉熵相加得到：

其中CE为交叉熵，

为答案开头位置概率值，

为答案结尾位置概率值，

为答案开头位置，

为答案结尾位置；

构建第二损失函数

：

其中，

为是否存在答案的二分类概率值，

为是否存在答案位置；

基于相关性排序方法对各个第三段落答案跨度进行评分，将每个答案跨度索引和标注答案文档索引作为回归目标，采用均方误差损失函数训练排序模型，构建第三损失函数

：

其中，MSE为均方误差，

为答案跨度索引，

为注答案文档索引；

计算反向传播损失函数

：

其中，参数调整因子

。

与现有技术相比，本发明具有以下有益效果：本申请的技术方案通过对同一个商品下若干商品详情页进行问答，裁切图片中的文字段落作为答案，提高用户体验，同时也节约了商家的配置答案的成本，提升了图片问答效率；本申请的技术方案对用户文图和答案段落进行建模，能有效的获取图片中文字答案的位置，能更精确有效地回复图片中文字的问题。

附图说明

图1为本发明一种基于图片问答的处理方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进一步详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在图片问答的各个领域中，特别是电商领域，用户提问通常是针对商品的功效、生产参数(如日期，容量等)；而商品详情页是精心制作、现成存在的，蕴含有大量有价值的信息，本实施例通过对同一个商品下若干商品详情页进行问答，裁切图片中的文字作为答案。本实施例具体方案如图1所示，一种基于图片问答的处理方法，包括：步骤S1，对商品详情页进行OCR光学识别，获取第一段落；步骤S2，将第一段落和用户问题分为有序的单词序列，通过信息检索在第一段落中获取最相关的K个段落记为K个第二段落。步骤S3，将用户问题和K个第二段落分别进行分词；步骤S4，将用户问题分别和每个第二段落进行拼接，并在用户问题前加入标记位得到第三段落，对第三段落进行建模，构造多个输入向量；步骤S5，用相加后的输入向量表示第三段落，输入到中文预训练模型，将中文预训练模型的最终隐藏状态转化为答案跨度概率值。

当前针对机器阅读理解大部分研究主要是面向单篇文档或单个段落。当多个文档中存在一个或者多个与问题相关答案段落时，需要通过多文档阅读理解的技术。本实施例中，上述步骤S1~步骤S2为粗召回阶段，步骤S3~步骤S5为多文档阅读阶段。粗召回阶段目的是减少多文档阅读理解阶段对机器阅读理解训练时间以及模型推理时间的消耗。

优选地，所述步骤S1中，获取第一段落前，过滤掉OCR光学识别后文字长度小于2或大于512的段落。

优选地，所述步骤S1中，由于商品详情页是由商家上传，可能存在一些无意义图片，严重影响用户体验。本实施例获取第一段落前，总结设定一批表示无意义的关键词(例如：价格说明，划线等)，通过计算无意义关键词占比，过滤无意义词汇占比大于50%的段落。

优选地，所述步骤S2中，为了衡量用户问题与段落文档的相关性，本实施例通过BM25，TF-IDF等算法进行信息检索，信息检索主要是对用户问题进行语素(例如：字词，词性，句法等)解析，生成语素；然后针对每个第一段落文档，通过加权计算每个语素与每个第一段落文档的相关性得分，得到用户问题与第一段落的相关性得分，保留相关性得分最高的K个第二段落。这样可以减少在多文档阅读理解阶段对机器阅读理解训练时间以及模型推理时间的消耗。

优选地，所述步骤S3中，将粗召回阶段获取的K个第二段落和用户问题采用wordpiece工具进行分词，得到子词(sub-word)单元，例如："hello，生产日期是多久

"，分词后结果为["#he","#llo","生","产"，"日","期","是","多"，"久","

"]。

优选地，所述步骤S4包括：将用户问题分别和每个第二段落通过SEP进行拼接，并在用户问题前加入[CLS]标记位得到第三段落；对第三段落进行建模，获取四个向量：（1）通过查询词向量表(lookup-table)将每个词转换为一维词向量；（2）由于文本出现在不同位置的字/词所携带的语义信息存在差异（比如：“多少钱”和“少多钱”），因此输入层在不同位置上附加一个位置向量区分，该位置向量让模型学习到输入文本的顺序属性；（3）为了辅助模型区分拼接后用户问题部分和第二段落部分的向量表示，获取用于区分拼接后用户问题部分和第二段落部分的段向量；（4）由于是多模态的问答系统，本实施例通过预先对商品分类训练的ResNet模型获取商品详情页图片特征向量。

优选地，所述步骤S5中，用词向量、位置向量、段向量、图片特征向量的相加向量表示第三段落；将相加向量输入BERT中文预训练模型；通过全连接层FC1和softmax函数将BERT中文预训练模型的最终隐藏状态预测为每个token所在位置，token所在位置为答案开头位置或者答案结尾位置；获取答案跨度在答案开头位置概率值

和答案结尾位置的概率值

计算答案跨度概率值

：

其中，s为答案开头位置索引，e为答案结尾位置索引，argmax为对函数求参数(集合)的函数。

优选地，本实施例BERT中文预训练模型还支持判断段落中是否存在答案任务，因此本实施例还包括以下过程：基于BERT中文预训练模型的最终隐藏状态上的[CLS]标记位，通过连接层FC2以及sigmoid函数，获取是否存在答案的二分类概率值

。

优选地，本实施例的使用场景是在多个段落文档同时存在下，决定是否挑选出最符合与问题相关的答案回复给用户。模型能够比较多个段落或文档中的候选答案，从而选择最优答案跨度给用户，提升用户体验。本实施例引入pointwise排序方法，基于pointwise对答案跨度概率值进行排序，标注答案文档出现的答案开头位置

和答案结尾位置

以及是否存在答案位置

，所述答案文档是指用户问题和商品详情页；获取第三段落的答案跨度索引

和标注答案文档索引

，将第三段落的答案跨度索引

和标注答案文档索引

进行回归，获取连续变量；将连续变量乘以答案跨度概率值获取评分值，基于评分值进行段落排序。

优选地，根据标注答案文档以及答案开头位置和答案结尾位置的概率值构建第一损失函数

其中CE为交叉熵，

为答案开头位置概率值，

为答案结尾位置概率值，

为答案开头位置，

为答案结尾位置；

构建第二损失函数

：

其中，

为是否存在答案的二分类概率值，

为是否存在答案位置；

：

其中，MSE为均方误差，

为答案跨度索引，

为注答案文档索引；

计算反向传播损失函数

：

其中，参数调整因子

，用于融合第一损失函数，第二损失函数，第三损失函数，得到最后总的反向传播损失函数

，上述反向传播损失函数

是按照最小化联合损失函数的方向调整模型参数。本实施例将最优预测值（最优预测值是超过预设阈值的值，例如预设阈值为0.8）所对应的答案开头位置和答案结尾位置部分片段作为用户问题语句的文本答案段落，并且将该预测值对应的详情页图片与预测文本答案段落共同发送给用户。

最后应说明的是：以上各实施例仅仅为本发明的较优实施例用以说明本发明的技术方案，而非对其限制，当然更不是限制本发明的专利范围；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围；也就是说，但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色，其所解决的技术问题仍然与本发明一致的，均应当包含在本发明的保护范围之内；另外，将本发明的技术方案直接或间接的运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于图片问答的处理方法，其特征在于，包括：

步骤S1，对商品详情页进行OCR光学识别，获取第一段落；

步骤S3，将用户问题和K个第二段落分别进行分词；

步骤S5，用相加后的输入向量表示第三段落，输入到中文预训练模型，将中文预训练模型的最终隐藏状态转化为答案跨度概率值；

所述步骤S4包括：将用户问题分别和每个第二段落通过SEP进行拼接，并在用户问题前加入[CLS]标记位得到第三段落；对第三段落进行建模，通过查询词向量表将每个词转换为一维词向量，获取用于学习输入文本顺序属性的位置向量，获取用于区分拼接后用户问题部分和第二段落部分的段向量，获取商品详情页图片特征向量；

所述步骤S5中，用词向量、位置向量、段向量、图片特征向量的相加向量表示第三段落；将相加向量输入BERT中文预训练模型；通过全连接层FC1和softmax函数将BERT中文预训练模型的最终隐藏状态预测为每个token所在位置，token所在位置为答案开头位置或者答案结尾位置，获取答案跨度在答案开头位置和答案结尾位置的概率值；计算答案跨度概率值。

2.如权利要求1所述的基于图片问答的处理方法，其特征在于，所述步骤S1中，获取第一段落前，过滤掉OCR光学识别后文字长度小于2或大于512的段落。

3.如权利要求1所述的基于图片问答的处理方法，其特征在于，所述步骤S1中，获取第一段落前，设定无意义词汇，过滤无意义词汇占比大于50%的段落。

4.如权利要求1所述的基于图片问答的处理方法，其特征在于，所述步骤S2中，对用户问题进行语素解析，生成语素；然后针对每个第一段落文档，通过加权计算每个语素与每个第一段落文档的相关性得分，得到用户问题与第一段落的相关性得分，保留相关性得分最高的K个第二段落。

5.如权利要求1所述的基于图片问答的处理方法，其特征在于，所述步骤S3中，采用wordpiece工具进行分词。

6.如权利要求1所述的基于图片问答的处理方法，其特征在于，还包括以下过程：基于BERT中文预训练模型的最终隐藏状态上的[CLS]标记位，通过连接层FC2以及sigmoid函数，获取是否存在答案的二分类概率值。

7.如权利要求6所述的基于图片问答的处理方法，其特征在于，还包括相关性排序过程：采用pointwise对第三段落答案跨度概率值进行排序，标注答案文档出现的答案开头位置和答案结尾位置以及是否存在答案位置，所述答案文档是指用户问题和商品详情页；基于排序获取第三段落的答案跨度索引和标注答案文档索引；将第三段落的答案跨度索引和标注答案文档索引进行回归，获取连续变量；将连续变量乘以答案跨度概率值获取评分值，基于评分值进行段落排序。

8.如权利要求7所述的基于图片问答的处理方法，其特征在于，根据标注答案文档以及答案开头位置和答案结尾位置的概率值构建第一损失函数