CN114416914B - 一种基于图片问答的处理方法 - Google Patents

一种基于图片问答的处理方法 Download PDF

Info

Publication number
CN114416914B
CN114416914B CN202210321278.3A CN202210321278A CN114416914B CN 114416914 B CN114416914 B CN 114416914B CN 202210321278 A CN202210321278 A CN 202210321278A CN 114416914 B CN114416914 B CN 114416914B
Authority
CN
China
Prior art keywords
answer
paragraph
question
user
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210321278.3A
Other languages
English (en)
Other versions
CN114416914A (zh
Inventor
谷满昌
张镜
马洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China State Construction eCommerce Co Ltd
Original Assignee
China State Construction eCommerce Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China State Construction eCommerce Co Ltd filed Critical China State Construction eCommerce Co Ltd
Priority to CN202210321278.3A priority Critical patent/CN114416914B/zh
Publication of CN114416914A publication Critical patent/CN114416914A/zh
Application granted granted Critical
Publication of CN114416914B publication Critical patent/CN114416914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0627Directed, with specific intent or strategy using item specifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0641Shopping interfaces
    • G06Q30/0643Graphical representation of items or shoppers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及图片问答处理技术领域,公开了一种基于图片问答的处理方法,该方法包括:对商品详情页进行OCR光学识别,获取第一段落;将第一段落和用户问题分为有序的单词序列,通过信息检索获取最相关的K个第二段落;将用户问题和K个第二段落分别进行分词;将用户问题分别和每个第二段落进行拼接,并在用户问题前加入标记位得到第三段落,对第三段落进行建模,构造多个输入向量;用相加后的输入向量表示第三段落,输入到中文预训练模型,将中文预训练模型的最终隐藏状态转化为答案跨度概率值。本申请的技术方案提高图片问答用户体验,同时也节约了商家的配置答案的成本,提升了图片问答效率。

Description

一种基于图片问答的处理方法
技术领域
本发明涉及图片问答处理技术领域,特别是一种基于图片问答的处理方法。
背景技术
智能问答系统是人工智能领域中重要部分,智能问答系统可以基于语音、文字、图片等单一或者组合的交互形式,提供多模态的对话管理能力,支撑企业在各种领域实现智能客服回答。
图片问答是智能问答的一种形态,具体是指设计一个模型,在给定一张或者多张图片的情况下,模型结合机器视觉和自然语言处理等技术,可以实现拒绝回答图片无关问题或者自动回答用户提出与图片内容相关问题。当前主流图片问答技术是基于注意力的方法,可以分为:(1)基于检测注意力方法;(2)基于共同注意力方法。然而,基于检测注意力方法的大部分模型都采用Faster R-CNN目标检测对候选图片块提取特征,该方法存在性能延迟高,并发度低等缺陷,影响线上用户实时问答效率。基于共同注意力方法的模型,如:2019年提出MCAN方法通过图像引导文本注意力的机制,模型关注的区域和人关注的区域差异较大,共同注意力不能推断出每个图像区域和每个问题词之间的相关性, 这导致了共同注意力模型的显著局限性。
电商领域用户提问主要是关于商品图片上的文字信息,而上述两种基于注意力的图片问答技术对图像提取特征往往是方位、纹理等特征,而对图像中文字很难获取详细特征,无法将用户问题建模到具体图片中文字答案位置。因此传统图片问答技术无法回复图片中文字的问题。
发明内容
本发明要解决的技术问题是:为了解决传统图片问答技术无法回复图片中文字的问题,本发明公开了一种基于图片问答的处理方法。
为实现上述目的,本发明采用的技术方案如下:一种基于图片问答的处理方法,包括:
步骤S1,对商品详情页进行OCR光学识别,获取第一段落;
步骤S2,将第一段落和用户问题分为有序的单词序列,通过信息检索获取最相关的K个第二段落;
步骤S3,将用户问题和K个第二段落分别进行分词;
步骤S4,将用户问题分别和每个第二段落进行拼接,并在用户问题前加入标记位得到第三段落,对第三段落进行建模,构造多个输入向量;
步骤S5,用相加后的输入向量表示第三段落,输入到中文预训练模型,将中文预训练模型的最终隐藏状态转化为答案跨度概率值。
进一步的,所述步骤S1中,获取第一段落前,过滤掉OCR光学识别后文字长度小于2或大于512的段落。
进一步的,所述步骤S1中,获取第一段落前,设定无意义词汇,过滤无意义词汇占比大于50%的段落。
进一步的,所述步骤S2中,对用户问题进行语素解析,生成语素;然后针对每个第一段落文档,通过加权计算每个语素与每个第一段落文档的相关性得分,得到用户问题与第一段落的相关性得分,保留相关性得分最高的K个第二段落。
进一步的,所述步骤S3中,采用wordpiece工具进行分词。
进一步的,所述步骤S4包括:将用户问题分别和每个第二段落通过SEP进行拼接,并在用户问题前加入[CLS]标记位得到第三段落;对第三段落进行建模,通过查询词向量表将每个词转换为一维词向量,获取用于学习输入文本顺序属性的位置向量,获取用于区分拼接后用户问题部分和第二段落部分的段向量,获取商品详情页图片特征向量。
进一步的,所述步骤S5中,用词向量、位置向量、段向量、图片特征向量的相加向量表示第三段落;将相加向量输入BERT中文预训练模型;通过全连接层FC1和softmax函数将BERT中文预训练模型的最终隐藏状态预测为每个token所在位置,token所在位置为答案开头位置或者答案结尾位置,获取答案跨度在答案开头位置和答案结尾位置的概率值;计算答案跨度概率值。
进一步的,还包括以下过程:基于BERT中文预训练模型的最终隐藏状态上的[CLS]标记位,通过连接层FC2以及sigmoid函数,获取是否存在答案的二分类概率值。
进一步的,还包括相关性排序过程:采用pointwise对第三段落答案跨度概率值进行排序,标注答案文档出现的答案开头位置和答案结尾位置以及是否存在答案位置,所述答案文档是指用户问题和商品详情页;基于排序获取第三段落的答案跨度索引和标注答案文档索引;将第三段落的答案跨度索引和标注答案文档索引进行回归,获取连续变量;将连续变量乘以答案跨度概率值获取评分值,基于评分值进行段落排序。
进一步的,根据标注答案文档以及答案开头位置和答案结尾位置的概率值构建第一损失函数
Figure DEST_PATH_IMAGE001
,第一损失函数是由答案开头位置和答案结尾位置的交叉熵相加得到:
Figure DEST_PATH_IMAGE002
其中CE为交叉熵,
Figure DEST_PATH_IMAGE003
为答案开头位置概率值,
Figure DEST_PATH_IMAGE004
为答案结尾位置概率值,
Figure DEST_PATH_IMAGE005
为答案开头位置,
Figure DEST_PATH_IMAGE006
为答案结尾位置;
构建第二损失函数
Figure DEST_PATH_IMAGE007
Figure DEST_PATH_IMAGE008
其中,
Figure DEST_PATH_IMAGE009
为是否存在答案的二分类概率值,
Figure DEST_PATH_IMAGE010
为是否存在答案位置;
基于相关性排序方法对各个第三段落答案跨度进行评分,将每个答案跨度索引和标注答案文档索引作为回归目标,采用均方误差损失函数训练排序模型,构建第三损失函数
Figure DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE012
其中,MSE为均方误差,
Figure DEST_PATH_IMAGE013
为答案跨度索引,
Figure DEST_PATH_IMAGE014
为注答案文档索引;
计算反向传播损失函数
Figure DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE016
其中,参数调整因子
Figure DEST_PATH_IMAGE017
与现有技术相比,本发明具有以下有益效果:本申请的技术方案通过对同一个商品下若干商品详情页进行问答,裁切图片中的文字段落作为答案,提高用户体验,同时也节约了商家的配置答案的成本,提升了图片问答效率;本申请的技术方案对用户文图和答案段落进行建模,能有效的获取图片中文字答案的位置,能更精确有效地回复图片中文字的问题。
附图说明
图1为本发明一种基于图片问答的处理方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进一步详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在图片问答的各个领域中,特别是电商领域,用户提问通常是针对商品的功效、生产参数(如日期,容量等);而商品详情页是精心制作、现成存在的,蕴含有大量有价值的信息,本实施例通过对同一个商品下若干商品详情页进行问答,裁切图片中的文字作为答案。本实施例具体方案如图1所示,一种基于图片问答的处理方法,包括:步骤S1,对商品详情页进行OCR光学识别,获取第一段落;步骤S2,将第一段落和用户问题分为有序的单词序列,通过信息检索在第一段落中获取最相关的K个段落记为K个第二段落。步骤S3,将用户问题和K个第二段落分别进行分词;步骤S4,将用户问题分别和每个第二段落进行拼接,并在用户问题前加入标记位得到第三段落,对第三段落进行建模,构造多个输入向量;步骤S5,用相加后的输入向量表示第三段落,输入到中文预训练模型,将中文预训练模型的最终隐藏状态转化为答案跨度概率值。
当前针对机器阅读理解大部分研究主要是面向单篇文档或单个段落。当多个文档中存在一个或者多个与问题相关答案段落时,需要通过多文档阅读理解的技术。本实施例中,上述步骤S1~步骤S2为粗召回阶段,步骤S3~步骤S5为多文档阅读阶段。粗召回阶段目的是减少多文档阅读理解阶段对机器阅读理解训练时间以及模型推理时间的消耗。
优选地,所述步骤S1中,获取第一段落前,过滤掉OCR光学识别后文字长度小于2或大于512的段落。
优选地,所述步骤S1中,由于商品详情页是由商家上传,可能存在一些无意义图片,严重影响用户体验。本实施例获取第一段落前,总结设定一批表示无意义的关键词(例如:价格说明,划线等),通过计算无意义关键词占比,过滤无意义词汇占比大于50%的段落。
优选地,所述步骤S2中,为了衡量用户问题与段落文档的相关性,本实施例通过BM25,TF-IDF等算法进行信息检索,信息检索主要是对用户问题进行语素(例如:字词,词性,句法等)解析,生成语素;然后针对每个第一段落文档,通过加权计算每个语素与每个第一段落文档的相关性得分,得到用户问题与第一段落的相关性得分,保留相关性得分最高的K个第二段落。这样可以减少在多文档阅读理解阶段对机器阅读理解训练时间以及模型推理时间的消耗。
优选地,所述步骤S3中,将粗召回阶段获取的K个第二段落和用户问题采用wordpiece工具进行分词,得到子词(sub-word)单元,例如:"hello,生产日期是多久
Figure DEST_PATH_IMAGE019
",分词后结果为["#he","#llo","生","产","日","期","是","多","久","
Figure 257839DEST_PATH_IMAGE019
"]。
优选地,所述步骤S4包括:将用户问题分别和每个第二段落通过SEP进行拼接,并在用户问题前加入[CLS]标记位得到第三段落;对第三段落进行建模,获取四个向量:(1)通过查询词向量表(lookup-table)将每个词转换为一维词向量;(2)由于文本出现在不同位置的字/词所携带的语义信息存在差异(比如:“多少钱”和“少多钱”),因此输入层在不同位置上附加一个位置向量区分,该位置向量让模型学习到输入文本的顺序属性;(3)为了辅助模型区分拼接后用户问题部分和第二段落部分的向量表示,获取用于区分拼接后用户问题部分和第二段落部分的段向量;(4)由于是多模态的问答系统,本实施例通过预先对商品分类训练的ResNet模型获取商品详情页图片特征向量。
优选地,所述步骤S5中,用词向量、位置向量、段向量、图片特征向量的相加向量表示第三段落;将相加向量输入BERT中文预训练模型;通过全连接层FC1和softmax函数将BERT中文预训练模型的最终隐藏状态预测为每个token所在位置,token所在位置为答案开头位置或者答案结尾位置;获取答案跨度在答案开头位置概率值
Figure 909401DEST_PATH_IMAGE003
和答案结尾位置的概率值
Figure 423559DEST_PATH_IMAGE004
计算答案跨度概率值
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
其中,s为答案开头位置索引,e为答案结尾位置索引,argmax为对函数求参数(集合)的函数。
优选地,本实施例BERT中文预训练模型还支持判断段落中是否存在答案任务,因此本实施例还包括以下过程:基于BERT中文预训练模型的最终隐藏状态上的[CLS]标记位,通过连接层FC2以及sigmoid函数,获取是否存在答案的二分类概率值
Figure 756451DEST_PATH_IMAGE009
优选地,本实施例的使用场景是在多个段落文档同时存在下,决定是否挑选出最符合与问题相关的答案回复给用户。模型能够比较多个段落或文档中的候选答案,从而选择最优答案跨度给用户,提升用户体验。本实施例引入pointwise排序方法,基于pointwise对答案跨度概率值进行排序,标注答案文档出现的答案开头位置
Figure 305244DEST_PATH_IMAGE005
和答案结尾位置
Figure 862127DEST_PATH_IMAGE006
以及是否存在答案位置
Figure DEST_PATH_IMAGE022
,所述答案文档是指用户问题和商品详情页;获取第三段落的答案跨度索引
Figure 598002DEST_PATH_IMAGE013
和标注答案文档索引
Figure 265744DEST_PATH_IMAGE014
,将第三段落的答案跨度索引
Figure 669043DEST_PATH_IMAGE013
和标注答案文档索引
Figure 396828DEST_PATH_IMAGE014
进行回归,获取连续变量;将连续变量乘以答案跨度概率值获取评分值,基于评分值进行段落排序。
优选地,根据标注答案文档以及答案开头位置和答案结尾位置的概率值构建第一损失函数
Figure 885578DEST_PATH_IMAGE001
,第一损失函数是由答案开头位置和答案结尾位置的交叉熵相加得到:
Figure 855546DEST_PATH_IMAGE002
其中CE为交叉熵,
Figure 113352DEST_PATH_IMAGE003
为答案开头位置概率值,
Figure 12038DEST_PATH_IMAGE004
为答案结尾位置概率值,
Figure 988084DEST_PATH_IMAGE005
为答案开头位置,
Figure 997628DEST_PATH_IMAGE006
为答案结尾位置;
构建第二损失函数
Figure 375520DEST_PATH_IMAGE007
Figure 445107DEST_PATH_IMAGE008
其中,
Figure 908449DEST_PATH_IMAGE009
为是否存在答案的二分类概率值,
Figure 721685DEST_PATH_IMAGE010
为是否存在答案位置;
基于相关性排序方法对各个第三段落答案跨度进行评分,将每个答案跨度索引和标注答案文档索引作为回归目标,采用均方误差损失函数训练排序模型,构建第三损失函数
Figure 954083DEST_PATH_IMAGE011
Figure 194571DEST_PATH_IMAGE012
其中,MSE为均方误差,
Figure 879631DEST_PATH_IMAGE013
为答案跨度索引,
Figure 496557DEST_PATH_IMAGE014
为注答案文档索引;
计算反向传播损失函数
Figure 583461DEST_PATH_IMAGE015
Figure 758966DEST_PATH_IMAGE016
其中,参数调整因子
Figure 931321DEST_PATH_IMAGE017
,用于融合第一损失函数,第二损失函数,第三损失函数,得到最后总的反向传播损失函数
Figure 86359DEST_PATH_IMAGE015
,上述反向传播损失函数
Figure 27770DEST_PATH_IMAGE015
是按照最小化联合损失函数的方向调整模型参数。本实施例将最优预测值(最优预测值是超过预设阈值的值,例如预设阈值为0.8)所对应的答案开头位置和答案结尾位置部分片段作为用户问题语句的文本答案段落,并且将该预测值对应的详情页图片与预测文本答案段落共同发送给用户。
最后应说明的是:以上各实施例仅仅为本发明的较优实施例用以说明本发明的技术方案,而非对其限制,当然更不是限制本发明的专利范围;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围;也就是说,但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色,其所解决的技术问题仍然与本发明一致的,均应当包含在本发明的保护范围之内;另外,将本发明的技术方案直接或间接的运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种基于图片问答的处理方法,其特征在于,包括:
步骤S1,对商品详情页进行OCR光学识别,获取第一段落;
步骤S2,将第一段落和用户问题分为有序的单词序列,通过信息检索获取最相关的K个第二段落;
步骤S3,将用户问题和K个第二段落分别进行分词;
步骤S4,将用户问题分别和每个第二段落进行拼接,并在用户问题前加入标记位得到第三段落,对第三段落进行建模,构造多个输入向量;
步骤S5,用相加后的输入向量表示第三段落,输入到中文预训练模型,将中文预训练模型的最终隐藏状态转化为答案跨度概率值;
所述步骤S4包括:将用户问题分别和每个第二段落通过SEP进行拼接,并在用户问题前加入[CLS]标记位得到第三段落;对第三段落进行建模,通过查询词向量表将每个词转换为一维词向量,获取用于学习输入文本顺序属性的位置向量,获取用于区分拼接后用户问题部分和第二段落部分的段向量,获取商品详情页图片特征向量;
所述步骤S5中,用词向量、位置向量、段向量、图片特征向量的相加向量表示第三段落;将相加向量输入BERT中文预训练模型;通过全连接层FC1和softmax函数将BERT中文预训练模型的最终隐藏状态预测为每个token所在位置,token所在位置为答案开头位置或者答案结尾位置,获取答案跨度在答案开头位置和答案结尾位置的概率值;计算答案跨度概率值。
2.如权利要求1所述的基于图片问答的处理方法,其特征在于,所述步骤S1中,获取第一段落前,过滤掉OCR光学识别后文字长度小于2或大于512的段落。
3.如权利要求1所述的基于图片问答的处理方法,其特征在于,所述步骤S1中,获取第一段落前,设定无意义词汇,过滤无意义词汇占比大于50%的段落。
4.如权利要求1所述的基于图片问答的处理方法,其特征在于,所述步骤S2中,对用户问题进行语素解析,生成语素;然后针对每个第一段落文档,通过加权计算每个语素与每个第一段落文档的相关性得分,得到用户问题与第一段落的相关性得分,保留相关性得分最高的K个第二段落。
5.如权利要求1所述的基于图片问答的处理方法,其特征在于,所述步骤S3中,采用wordpiece工具进行分词。
6.如权利要求1所述的基于图片问答的处理方法,其特征在于,还包括以下过程:基于BERT中文预训练模型的最终隐藏状态上的[CLS]标记位,通过连接层FC2以及sigmoid函数,获取是否存在答案的二分类概率值。
7.如权利要求6所述的基于图片问答的处理方法,其特征在于,还包括相关性排序过程:采用pointwise对第三段落答案跨度概率值进行排序,标注答案文档出现的答案开头位置和答案结尾位置以及是否存在答案位置,所述答案文档是指用户问题和商品详情页;基于排序获取第三段落的答案跨度索引和标注答案文档索引;将第三段落的答案跨度索引和标注答案文档索引进行回归,获取连续变量;将连续变量乘以答案跨度概率值获取评分值,基于评分值进行段落排序。
8.如权利要求7所述的基于图片问答的处理方法,其特征在于,根据标注答案文档以及答案开头位置和答案结尾位置的概率值构建第一损失函数
Figure 363442DEST_PATH_IMAGE001
,第一损失函数是由答案开头位置和答案结尾位置的交叉熵相加得到:
Figure 623522DEST_PATH_IMAGE002
其中CE为交叉熵,
Figure 967916DEST_PATH_IMAGE003
为答案开头位置概率值,
Figure 105374DEST_PATH_IMAGE004
为答案结尾位置概率值,
Figure 142600DEST_PATH_IMAGE005
为答案开头位置,
Figure 358818DEST_PATH_IMAGE006
为答案结尾位置;
构建第二损失函数
Figure 506902DEST_PATH_IMAGE007
Figure 265911DEST_PATH_IMAGE008
其中,
Figure 474038DEST_PATH_IMAGE009
为是否存在答案的二分类概率值,
Figure 177552DEST_PATH_IMAGE010
为是否存在答案位置;
基于相关性排序方法对各个第三段落答案跨度进行评分,将每个答案跨度索引和标注答案文档索引作为回归目标,采用均方误差损失函数训练排序模型,构建第三损失函数
Figure 739115DEST_PATH_IMAGE011
Figure 477263DEST_PATH_IMAGE012
其中,MSE为均方误差,
Figure 856292DEST_PATH_IMAGE013
为答案跨度索引,
Figure 47102DEST_PATH_IMAGE014
为注答案文档索引;
计算反向传播损失函数
Figure 677935DEST_PATH_IMAGE015
Figure 5011DEST_PATH_IMAGE016
其中,参数调整因子
Figure 554941DEST_PATH_IMAGE017
CN202210321278.3A 2022-03-30 2022-03-30 一种基于图片问答的处理方法 Active CN114416914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210321278.3A CN114416914B (zh) 2022-03-30 2022-03-30 一种基于图片问答的处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210321278.3A CN114416914B (zh) 2022-03-30 2022-03-30 一种基于图片问答的处理方法

Publications (2)

Publication Number Publication Date
CN114416914A CN114416914A (zh) 2022-04-29
CN114416914B true CN114416914B (zh) 2022-07-08

Family

ID=81264389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210321278.3A Active CN114416914B (zh) 2022-03-30 2022-03-30 一种基于图片问答的处理方法

Country Status (1)

Country Link
CN (1) CN114416914B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108128B (zh) * 2023-04-13 2023-09-05 华南师范大学 一种开放域问答系统及答案预测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609056A (zh) * 2017-08-25 2018-01-19 百度在线网络技术(北京)有限公司 一种基于图片识别的问答处理方法与设备
CN110647629A (zh) * 2019-09-20 2020-01-03 北京理工大学 一种多粒度答案排序的多文档机器阅读理解方法
CN111930887A (zh) * 2020-07-06 2020-11-13 河海大学常州校区 基于联合训练方式的多文档多答案机器阅读理解系统
CN112800191A (zh) * 2020-12-31 2021-05-14 科大讯飞股份有限公司 一种基于图片的问答方法、设备及计算机可读存储介质
CN113360699A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 模型训练方法和装置、图像问答方法和装置
CN113407663A (zh) * 2020-11-05 2021-09-17 腾讯科技(深圳)有限公司 基于人工智能的图文内容质量识别方法和装置
CN113656570A (zh) * 2021-08-25 2021-11-16 平安科技(深圳)有限公司 基于深度学习模型的视觉问答方法及装置、介质、设备
CN113761153A (zh) * 2021-05-19 2021-12-07 腾讯科技(深圳)有限公司 基于图片的问答处理方法、装置、可读介质及电子设备
CN113886626A (zh) * 2021-09-14 2022-01-04 西安理工大学 基于多重注意力机制的动态记忆网络模型的视觉问答方法
CN114155530A (zh) * 2021-11-10 2022-03-08 北京中科闻歌科技股份有限公司 文本识别及问答方法、装置、设备及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10754851B2 (en) * 2017-12-22 2020-08-25 Adobe Inc. Question answering for data visualizations
CN108932508B (zh) * 2018-08-13 2022-03-18 杭州大拿科技股份有限公司 一种题目智能识别、批改的方法和系统
CN111190997B (zh) * 2018-10-26 2024-01-05 南京大学 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN111444313B (zh) * 2020-03-04 2023-10-24 深圳追一科技有限公司 基于知识图谱的问答方法、装置、计算机设备和存储介质
CN112613305B (zh) * 2020-12-27 2024-04-09 北京工业大学 基于循环神经网络的中文事件抽取方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609056A (zh) * 2017-08-25 2018-01-19 百度在线网络技术(北京)有限公司 一种基于图片识别的问答处理方法与设备
CN110647629A (zh) * 2019-09-20 2020-01-03 北京理工大学 一种多粒度答案排序的多文档机器阅读理解方法
CN111930887A (zh) * 2020-07-06 2020-11-13 河海大学常州校区 基于联合训练方式的多文档多答案机器阅读理解系统
CN113407663A (zh) * 2020-11-05 2021-09-17 腾讯科技(深圳)有限公司 基于人工智能的图文内容质量识别方法和装置
CN112800191A (zh) * 2020-12-31 2021-05-14 科大讯飞股份有限公司 一种基于图片的问答方法、设备及计算机可读存储介质
CN113761153A (zh) * 2021-05-19 2021-12-07 腾讯科技(深圳)有限公司 基于图片的问答处理方法、装置、可读介质及电子设备
CN113360699A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 模型训练方法和装置、图像问答方法和装置
CN113656570A (zh) * 2021-08-25 2021-11-16 平安科技(深圳)有限公司 基于深度学习模型的视觉问答方法及装置、介质、设备
CN113886626A (zh) * 2021-09-14 2022-01-04 西安理工大学 基于多重注意力机制的动态记忆网络模型的视觉问答方法
CN114155530A (zh) * 2021-11-10 2022-03-08 北京中科闻歌科技股份有限公司 文本识别及问答方法、装置、设备及介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Relation-Aware Graph Attention Network for Visual Question Answering";Linjie Li 等;《2019 IEEE/CVF International Conference on Computer Vision (ICCV)》;20200227;10312-10321 *
"基于图像场景图的视觉问答方法的研究";郑伟曼;《中国优秀硕士学位论文全文数据库 信息科技辑》;20220315;I138-1363 *
"基于深度神经网络和注意力机制的图像问答研究";李庆;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115;I138-2396 *
"基于预训练的跨模态统一模型研究";李根;《中国优秀硕士学位论文全文数据库 信息科技辑》;20201215;I138-337 *

Also Published As

Publication number Publication date
CN114416914A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
US20190303375A1 (en) Relevant passage retrieval system
CN111797898B (zh) 一种基于深度语义匹配的在线评论自动回复方法
CN112395410B (zh) 一种基于实体抽取的产业舆情推荐方法、装置及电子设备
CN110008309B (zh) 一种短语挖掘方法及装置
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN115761753A (zh) 一种融合知识图谱的检索式知识前缀引导视觉问答方法
CN113569050A (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
CN116362221A (zh) 融合多模态语义关联图谱的航空文献关键词相似度判定方法
CN111694927A (zh) 一种基于改进词移距离算法的文档自动评阅方法
CN111078893A (zh) 一种大规模高效获取识别对话意图用语料的方法
CN115309872A (zh) 一种基于Kmeans召回的多模型熵加权检索方法及系统
Celikyilmaz et al. A graph-based semi-supervised learning for question-answering
CN114416914B (zh) 一种基于图片问答的处理方法
CN114298021A (zh) 基于情感值选择评论的谣言检测方法
CN111694960A (zh) 基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型
JP2009053743A (ja) 文書類似性導出装置、文書類似性導出方法、及び、文書類似性導出プログラム
CN115017264A (zh) 模型效果验证方法及装置
CN112214511A (zh) 一种基于wtp-wcd算法的api推荐方法
CN113761125A (zh) 动态摘要确定方法和装置、计算设备以及计算机存储介质
CN112257410A (zh) 一种非平衡文本的相似度计算方法
CN108733757B (zh) 文本搜索方法及系统
CN112380830B (zh) 不同文档中相关句子的匹配方法、系统和计算机可读存储介质
Ding et al. A Novel Discrimination Structure for Assessing Text Semantic Similarity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant