CN112800191A - 一种基于图片的问答方法、设备及计算机可读存储介质 - Google Patents
一种基于图片的问答方法、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112800191A CN112800191A CN202011632872.1A CN202011632872A CN112800191A CN 112800191 A CN112800191 A CN 112800191A CN 202011632872 A CN202011632872 A CN 202011632872A CN 112800191 A CN112800191 A CN 112800191A
- Authority
- CN
- China
- Prior art keywords
- answer
- picture
- features
- question
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于图片的问答方法、设备及计算机可读存储介质,该方法包括:获取基础图片和问题;从答案池中提取匹配问题的答案,答案池是基于基础图片训练得到。通过上述方式,本申请能够基于图片构建答案池,提高答案池中答案的丰富度及匹配问题的答案的精度。
Description
技术领域
本申请涉及信息处理技术领域,特别是涉及一种基于图片的问答方法、设备及计算机可读存储介质。
背景技术
随着信息处理技术的发展,智能问答技术受到越来越多的关注,智能问答系统可以以一问一答的形式自动回答用户提出的问题。目前,智能问答系统主要是通过构建一个“全量”的答案池,答案池一般是根据应用场景来选定范围的,例如在辅助学生学习的场景中,答案池则为教育场景中的高频词汇。然后,通过大量数据进行训练,根据用户基于图片所问的问题,从答案池中选出最接近的答案。
本申请的发明人在长期的研发过程中,发现构建的“全量”的答案池有两大问题。一是,为了答案更加丰富,需要构建非常大的答案池,导致模型训练非常困难,并且需要非常大量的训练数据;二是,一旦答案池选定,就只能从现有的答案池中选出答案,降低了答案的丰富程度。
发明内容
本申请主要解决的技术问题是提供一种基于图片的问答方法、设备及计算机可读存储介质,能够基于图片构建答案池,提高了答案池中答案的丰富度及匹配问题的答案的精度。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种基于图片的问答方法,该方法包括:获取基础图片和问题;从答案池中提取匹配问题的答案,答案池是基于基础图片训练得到。
其中,从答案池中提取匹配问题的答案包括:获取基础图片中与问题相关的关联特征;计算关联特征与答案池中各答案样本的相似度,得到组成答案的答案样本。
其中,计算关联特征与答案池中各答案样本的相似度包括:将关联特征输入长短记忆神经网络,得到关联特征的特征向量;将各答案样本输入Bert网络,得到每个答案样本的嵌入向量;分别计算关联特征的特征向量与各个嵌入向量的相似度。
其中,计算关联特征与答案池中各答案样本的相似度,得到匹配问题的答案包括:将关联特征输入长短记忆神经网络,得到第一答案样本;将第一答案样本和关联特征输入长短记忆神经网络,得到第二答案样本;将第二答案样本作为第一答案样本执行将第一答案样本和关联特征输入长短记忆神经网络,得到第二答案样本的步骤,直至得到组成答案的所有答案样本。
其中,基于基础图片训练得到答案池包括:对基础图片进行文本检测和物体检测,得到基础图片中文本和物体的位置;分别获取基础图片中文本和物体的语义特征;将基础图片中文本和物体的语义特征作为答案样本,形成答案池。
其中,将基础图片中文本和物体的语义特征作为答案样本,形成答案池包括:将基础图片中的文本内容和基础图片中物体的名称作为答案样本,形成答案池。
其中,获取基础图片中与问题相关的关联特征包括:获取基础图片的融合特征和问题的特征;利用自注意力交互模型对融合特征和问题的特征进行处理,获取关联特征。
其中,获取基础图片的融合特征包括:对基础图片进行文本检测和物体检测,得到基础图片中文本和物体的位置;分别获取文本和物体的视觉特征、语义特征和位置特征;将视觉特征、语义特征、位置特征进行融合,得到基础图片的融合特征。
其中,将视觉特征、语义特征、位置特征进行融合,得到基础图片的融合特征包括:将视觉特征、语义特征、位置特征进行拼接,得到文本和物体的特征表达;利用融合自注意力模型对文本和物体的特征表达进行处理,得到融合特征。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种基于图片的问答设备,该设备包括处理器,处理器用于执行指令以实现上述的基于图片的问答方法。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机可读存储介质,该计算机可读存储介质用于存储指令/程序数据,指令/程序数据能够被执行以实现上述的基于图片的问答方法。
本申请的有益效果是:区别于现有技术的情况,本申请提供一种基于图片的问答方法、设备及计算机可读存储介质,该方法包括获取基础图片和问题;从答案池中提取匹配问题的答案。本申请基于基础图片构建答案池,使得答案池中的答案更加丰富,提高了匹配问题的答案的精度。
附图说明
图1是本申请提供的基于图片的问答方法一实施方式的流程示意图;
图2是本申请提供的基于基础图片训练得到答案池一实施方式的流程示意图;
图3是本申请提供的Bert网络模型架构图;
图4是本申请提供的获取基础图片中与问题相关的关联特征一实施方式的流程示意图;
图5是图4所示实施方式中步骤S310的流程示意图;
图6是本申请提供的可视化数据库预训练模型的架构图;
图7是本申请提供的从答案池提取匹配问题的答案一实施方式的流程示意图;
图8是本申请提供的一基础图片的示意图;
图9是本申请提供的注意力地图丢失模型的架构图;
图10是本申请提供的从答案池提取匹配问题的答案另一实施方式的流程示意图;
图11是本申请提供的基于图片的问答方法的流程框架示意图;
图12是本申请提供的基于图片的问答装置的结构示意图;
图13是本申请提供的基于图片的问答设备的结构示意图;
图14是本申请提供的计算机可读存储介质的结构示意图。
具体实施方式
为使本申请的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本申请进一步详细说明。
请参阅图1,图1是本申请提供的基于图片的问答方法一实施方式的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图1所示的流程顺序为限。如图1所示,本实施方式包括:
S110:获取基础图片和问题。
其中,问题是与基础图片相关的问题,即问题可以是针对基础图片的任何问题,例如,图片中指定对象是什么等。
在一实施方式中,可以利用终端设备获取基础图片和问题,终端设备可以获取一张基础图片和一个问题,此时该问题是针对获取的一张基础图片的相关问题。在其他实施方式中,终端设备也可同时接收至少两张图片和一个问题,此时该问题是针对获取的多张基础图片的相关问题。
其中,基础图片可以为任意大小尺寸的图片,在此不做具体限定。
S120:从答案池中提取匹配问题的答案。
其中,答案池是基于基础图片训练得到的,也就是说,答案池是基于获取的基础图片中文本和物体构建的,答案池中的答案样本会随着获取的基础图片的改变而发生变动。
在该实施方式中,答案池是基于基础图片训练获得的,且问题是基于基础图片的相关问题,所以答案池中的答案样本与问题的匹配度较高,提高了匹配问题的答案的精度;并且由于答案池是基于基础图片获得的,不再局限于固定的答案池,提高答案池中答案样本的丰富性。
请结合参阅图2-图3,图2是本申请提供的基于基础图片训练得到答案池一实施方式的流程示意图,图3是本申请提供的Bert网络模型架构图。需注意的是,若有实质上相同的结果,本实施例并不以图2所示的流程顺序为限。如图2所示,本实施方式包括:
S210:获取基础图片。
步骤S210对基础图片的获取与上述实施例中步骤S110对基础图片的获取类似,在此不再赘述。
S220:对基础图片进行文本检测和物体检测,得到基础图片中文本和物体的位置。
其中,文本作为一个整体也可看作基础图片中的一个物体。在该实施方式中,通过对基础图片进行文本检测和物体检测,能够得到基础图片中的物体和文本在基础图片中的具体位置。例如,可以以坐标的形式体现物体和文本在基础图片中的位置。
S230:分别获取基础图片中文本和物体的语义特征。
如图3所示,本实施方式中,获取基础图片中文本和物体的语义特征采用的是Bert网络模型。
其中,Bert网络模型能识别带有标识符的文本和物体,从而输出文本的语义特征和物体的语义特征。以基础图片中的文本为例,例如输入文本“Welcome Madeleine EllenElizabeth”,先对文本进行分词处理得到分词文本“Welcome”、“Madeleine”、“Ellen”和“Elizabeth”;然后对每个词添加标识符,标识符有CLS标识符和SEP标识符,CLS标识符表示文本开始,SEP标识符表示文本结束;然后将添加标识符的词转换成固定维的向量;区分输入Bert网络模型中的不同句子,将不同句子转换为不同的向量,作为标识句子的向量;并对不同位置的词分别附加一个不同的向量作为区分,以作为每个词在句子中的位置向量;将每个词携带的字向量、段向量和位置向量融合相加,得到文本综合语义的向量矩阵;通过对Bert网络模型进行预训练,可以采用预训练模型,使得经过预训练的Bert网络模型,对文本综合语义的向量矩阵进行运算,以得到基础图片中文本的语义特征。
S240:将基础图片中文本和物体的语义特征作为答案样本,形成答案池。
在该实施方式中,将步骤S230获得的基础图片中文本和物体的语义特征进行组合,构成答案池。
可选地,文本的语义特征可以是文本中的内容,物体的语义特征可以是物体的名称。在一具体实施方式中,通过对Bert网络模型进行预训练,使得经过预训练的Bert网络模型,对基础图片中的文本和物体进行学习,获取基础图片中文本的内容和物体的名称,将基础图片中的文本内容和基础图片中物体的名称作为答案样本,构成答案池。
请参阅图4,图4是本申请提供的获取基础图片中与问题相关的关联特征一实施方式的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图4所示的流程顺序为限。如图4所示,本实施方式包括:
S310:获取基础图片的融合特征和问题的特征。
融合特征为基础图片的多种特征的融合,例如,可以采用将基础图片的多种特征直接融合,得到融合特征。
问题的特征的获取采用的是Bert网络模型,通过对Bert网络模型进行预训练,使得经过预训练的Bert网络模型,对问题综合语义的向量矩阵进行运算,以得到问题的语义特征。
S320:利用自注意力交互模型对融合特征和问题的特征进行处理,获取关联特征。
其中,关联特征是与问题最相关的特征。该实施方式中,利用自注意力交互模型对融合特征和问题的特征进行运算,获得与问题最相关的特征,即关联特征。
具体地,可通过自注意力交互模型公式对融合特征和问题的特征进行运算,以得到关联特征,具体公式如下:
αi=soft max(e1,e2,...,eN,)
请参阅图5,图5是图4所示实施方式中步骤S310的流程示意图,图6是本申请提供的可视化数据库预训练模型的架构图。在一具体实施方式中,可采用图5所示的方案进行处理,以获取基础图片中与问题相关的关联特征,具体包括以下实施方式:
S311:对基础图片进行文本检测和物体检测,得到基础图片中文本和物体的位置。
步骤S311对基础图片进行文本检测和物体检测与上述实施例中步骤S220类似,在此不再赘述。
S312:分别获取文本和物体的视觉特征、语义特征和位置特征。
获取文本和物体的视觉特征采用的是可视化数据库的预训练模型。通过对可视化数据库网络模型进行预训练,可以采用预训练模型,使得经过预训练的可视化数据库网络模型,能够提取基础图片中文本和物体的图像信息,并输出为文本和物体的固定维的视觉特征。
具体地,如图6所示,从基础图片中切出文本和物体,并调整切出的物体和文本的尺寸大小,使其适应可视化数据库的预训练模型。通过将从基础图片中切出的文本和物体输入可视化数据库的预训练模型,使可视化数据库的预训练模型对输入的文本和物体进行运算学习,以得到文本和物体的视觉特征。
获取文本和物体的语义特征采用的是Bert网络模型,通过Bert网络模型获取文本和物体的语义特征的具体过程与上述实施例中步骤S230类似,在此不再赘述。
获取文本和物体的位置特征采用的是位置特征形成公式。具体地,将步骤S220获得的基础图片中文本和物体的位置,即文本和物体的位置坐标,通过位置特征形成公式运算得到文本和物体的位置特征,具体公式如下:
PE(pos,2i)=sin(pos/100002i/d)
PE(pos,2i+1)=coS(pos/100002i/d)
其中,PE为位置编码,pos为文本或物体的位置坐标,i为第i维特征,d为位置特征的总维数。
S313:将视觉特征、语义特征、位置特征进行拼接,得到文本和物体的特征表达。
在该实施方式中,将步骤S312获得的视觉特征、语义特征和位置特征进行拼接,得到基础图片中文本和物体的特征表达。可选地,可采用直接拼接法将视觉特征、语义特征和位置特征进行拼接,在此不做具体限定。例如,视觉特征为100维,语义特征为100维,位置特征为100维,则采用直接拼接后为300维。
S314:利用融合自注意力模型对文本和物体的特征表达进行处理,得到融合特征。
其中,融合自注意力模型能够捕捉到全部输入的特征信息,并通过输入特征进行两两运算得出权重,再对输入的特征进行加权求和得到输出结果。在该实施方式中,利用融合自注意力模型对视觉特征、语义特征和位置特征进行拼接获得的特征表达进行处理,实现对视觉特征、语义特征和位置特征的进一步融合,从而得到融合特征。
具体地,将步骤S313获得的文本和物体的特征表达,通过融合自注意力模块公式运算得到文本和物体的融合特征,具体公式如下:
请参阅图7,图7是本申请提供的从答案池提取匹配问题的答案一实施方式的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图7所示的流程顺序为限。如图7所示,本实施方式包括:
S410:获取基础图片中与问题相关的关联特征。
步骤S410对基础图片中与问题相关的关联特征的获取与上述实施例中步骤S320类似,在此不再赘述。
S420:将关联特征输入长短记忆神经网络,得到关联特征的特征向量;将各答案样本输入Bert网络,得到答案样本的嵌入向量。
长短记忆神经网络可看作是一个解码端的输入,将步骤S410获得的与问题相关的关联特征输入解码端,解码出关联特征的特征向量。
答案样本的嵌入向量采用的是Bert网络模型。具体地,利用Bert网络型对答案池中的每个样本进行学习,得到答案池中每个样本的嵌入向量。
S430:分别计算关联特征的特征向量与各个嵌入向量的相似度。
其中,关联特征的特征向量与各个嵌入向量的相似度计算采用的是注意力地图丢失模型。通过对注意力地图丢失模型进行预训练,可以采用已有的预训练网络,使用经过预训练的注意力地图丢失模型,对关联特征的特征向量与各个嵌入向量的相似度计算进行学习,获取关联特征的特征向量与每个嵌入向量的相似度,相似度最大的为问题所对应的答案样本。
具体地,可通过注意力地图丢失模型中的相似度计算公式对关联特征的特征向量和各个嵌入向量进行运算,具体公式如下:
请参阅图8-图9,图8是本申请提供的一基础图片的示意图,图9是本申请提供的注意力地图丢失模型的架构图。在一具体实施方式中,基于图8所示的基础图片构建答案池,则该基础图片的答案池为“school、bus、stop、ahead、house、tree、green、law”。
进一步地,如图9所示,将答案池中的每个答案样本输入Bert网络模型,获得答案池中每个答案样本的嵌入向量;同时获取基础图片中与问题相关的关联特征的特征向量;利用注意力地图丢失模型作为损失函数进行模型训练,对输入的每个答案样本的嵌入向量和关联特征的特征向量进行相似度计算,相似度最大的嵌入向量即为匹配问题的答案。
请参阅图10,图10是本申请提供的从答案池提取匹配问题的答案另一实施方式的流程示意图。需注意的是,若有实质上相同的结果,本实施例并不以图10所示的流程顺序为限。如图10所示,本实施方式包括:
S510:获取基础图片中与问题相关的关联特征。
步骤S510对基础图片中与问题相关的关联特征的获取与上述实施例中步骤S320类似,在此不再赘述。
S520:将关联特征输入长短记忆神经网络,得到关联特征的特征向量;将各答案样本输入Bert网络,得到各答案样本的嵌入向量。
步骤S520对关联特征的特征向量的获取和各答案样本的嵌入向量的获取与上述实施例中步骤S420类似,在此不再赘述。
S530:将关联特征输入长短记忆神经网络,得到第一答案样本。
在该实施方式中,将基础图片中与问题相关的关联特征输入长短记忆神经网络,即将基础图片中与问题相关的关联特征作为解码端的输入,并在注意力地图丢失模型与各答案样本的嵌入向量进行相似度计算,得到第一答案样本输出。
需要说明的是,如果匹配问题的答案为单个答案样本构成,则在获得第一答案样本后会解析出结束符,表明已获得匹配问题的答案;如果匹配问题的答案为多个答案样本构成时,则在获得第一答案样本后继续执行步骤S540。例如,匹配问题的答案为“Hello andWorld”,则在解析出第一答案样本“Hello”后执行S540步骤继续进行解析。
S540:将第一答案样本和关联特征输入长短记忆神经网络,得到第二答案样本。
在该实施方式中,匹配问题的答案不是一个答案样本而是由多个答案样本组成,此时将第一答案样本和关联特征同时输入长短记忆神经网络,并在注意力地图丢失模型中继续进行相似度计算,得到第二答案样本输出,第二答案样本为匹配问题的答案中另一个解码结果。例如,匹配问题的答案为“Hello and World”,在解析出第一文本“Hello”后,继续解析得到第二文本“Hello and”。
S550:将第二答案样本作为第一答案样本执行将第一答案样本和关联特征输入长短记忆神经网络,得到第二答案样本的步骤,直至得到组成答案的所有答案样本。
在该实施方式中,将第二答案样本作为第一答案样本继续执行步骤S540,直至解析出结束符,即解析出组成答案的所有答案样本。例如,匹配问题的答案为“Hello andWorld”,在得到第二答案样本“Hello and”后,将第二答案样本作为第一答案样本继续执行步骤S540,直至匹配问题的答案中的每个答案样本都被解析出来,并解析出结束符后停止解析,表明获得匹配问题的答案的所有答案样本。
本申请提供的基于图片的问答方法以单词方式进行答案的序列输出,答案模式灵活,能够产生丰富的答案形式。
请参阅图11,图11是本申请提供的基于图片的问答方法的流程框架示意图。在一具体实施方式中,如图11所示,首先获取基础图片和问题“What is written on window”;然后基于获取的基础图片,利用Bert网络语义理解模型,获得基础图片中文本的内容和物体的名称,构建答案池,例如以图11中图片为例,构建的答案池为“car、taxi、not inservice、white、tyre”。
其次,利用可视化数据库的预训练模型获得基础图片中文本和物体的视觉特征;利用Bert网络语义理解模型获得基础图片中文本和物体的语义特征;利用位置特征形成公式获得基础图片中文本和物体的位置特征;利用融合自注意力模型对基础图片中文本和物体的视觉特征、语义特征和位置特征进行融合,得到融合特征向量。
利用Bert网络语义理解模型获得问题的特征向量;利用自注意力交互模型对融合特征向量和问题的特征向量进行处理,获得与问题关联的关联特征向量。
进一步地,利用长短记忆神经网络获得关联特征的特征向量;利用Bert网络语义理解模型获得答案池中各答案样本的嵌入向量;利用注意力地图丢失模型计算关联特征的特征向量与嵌入向量的相似度,相似度最大的即可作为匹配问题的答案。
基于上述实施方式,本申请通过基础图片构建答案池,使得答案池中的答案更加丰富,并且通过计算答案池中各答案样本与问题的相似度,从答案池中获得匹配问题的答案,提高了匹配问题的答案的精度。并且以单词方式进行答案的序列输出,答案模式灵活。
请参阅图12,图12是本申请提供的基于图片的问答装置的结构示意图。该实施方式中,基于图片的问答设备包括获取模块61和处理模块63。
其中,获取模块61用于获取基础图片和问题;处理模块63用于从答案池中提取匹配问题的答案。该设备用于基于图片的问答时,通过所获取的基础图片构建答案池,使得答案池中的答案更加丰富,并且从答案池中提取匹配问题的答案,提高了匹配问题的答案的精度。
请参阅图13,图13是本申请提供的基于图片的问答设备的结构示意图。该实施方式中,基于图片的问答设备10包括处理器11。
处理器11还可以称为CPU(Central Processing Unit,中央处理单元)。处理器11可以是一种集成电路芯片,具有信号的处理能力。处理器11还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器11也可以是任何常规的处理器等。
基于图片的问答设备10可以进一步包括存储器(图中未示出),用于存储处理器11运行所需的指令和数据。
处理器11用于执行指令以实现上述本申请基于图片的问答方法任一实施例及任意不冲突的组合所提供的方法。
请参阅图14,图14是本申请提供的计算机可读存储介质的结构示意图。本申请实施例的计算机可读存储介质20存储有指令/程序数据21,该指令/程序数据21被执行时实现本申请基于图片的问答方法任一实施例以及任意不冲突的组合所提供的方法。其中,该指令/程序数据21可以形成程序文件以软件产品的形式存储在上述存储介质20中,以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质20包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (11)
1.一种基于图片的问答方法,其特征在于,所述方法包括:
获取基础图片和问题;
从答案池中提取匹配所述问题的答案,所述答案池是基于所述基础图片训练得到。
2.根据权利要求1所述的基于图片的问答方法,其特征在于,所述从答案池中提取匹配所述问题的答案包括:
获取所述基础图片中与所述问题相关的关联特征;
计算所述关联特征与所述答案池中各答案样本的相似度,得到组成所述答案的答案样本。
3.根据权利要求2所述的基于图片的问答方法,其特征在于,所述计算关联特征与所述答案池中各所述答案样本的相似度包括:
将所述关联特征输入长短记忆神经网络,得到所述关联特征的特征向量;
将各所述答案样本输入Bert网络,得到每个所述答案样本的嵌入向量;
分别计算所述关联特征的特征向量与各个所述嵌入向量的相似度。
4.根据权利要求3所述的基于图片的问答方法,其特征在于,所述计算关联特征与所述答案池中各所述答案样本的相似度,得到组成所述答案的答案样本包括:
将所述关联特征输入所述长短记忆神经网络,得到第一答案样本;
将所述第一答案样本和所述关联特征输入所述长短记忆神经网络,得到第二答案样本;
将所述第二答案样本作为所述第一答案样本执行所述将所述第一答案样本和所述关联特征输入所述长短记忆神经网络,得到所述第二答案样本的步骤,直至得到组成所述答案的所有答案样本。
5.根据权利要求1所述的基于图片的问答方法,其特征在于,所述基于基础图片训练得到所述答案池包括:
对所述基础图片进行文本检测和物体检测,得到所述基础图片中文本和物体的位置;
分别获取所述基础图片中文本和物体的语义特征;
将所述基础图片中文本和物体的语义特征作为答案样本,形成所述答案池。
6.根据权利要求5所述的基于图片的问答方法,其特征在于,所述将基础图片中文本和物体的语义特征作为答案样本,形成所述答案池包括:
将所述基础图片中的文本内容和所述基础图片中物体的名称作为所述答案样本,形成所述答案池。
7.根据权利要求2所述的基于图片的问答方法,其特征在于,所述获取基础图片中与所述问题相关的关联特征包括:
获取所述基础图片的融合特征和所述问题的特征;
利用自注意力交互模型对所述融合特征和所述问题的特征进行处理,获取所述关联特征。
8.根据权利要求7所述的基于图片的问答方法,其特征在于,所述获取基础图片的融合特征包括:
对所述基础图片进行文本检测和物体检测,得到所述基础图片中文本和物体的位置;
分别获取所述文本和物体的视觉特征、语义特征和位置特征;
将所述视觉特征、语义特征、位置特征进行融合,得到所述基础图片的融合特征。
9.根据权利要求8所述的基于图片的问答方法,其特征在于,所述将视觉特征、语义特征、位置特征进行融合,得到所述基础图片的融合特征包括:
将所述视觉特征、语义特征、位置特征进行拼接,得到所述文本和物体的特征表达;
利用融合自注意力模型对所述文本和物体的特征表达进行处理,得到所述融合特征。
10.一种基于图片的问答设备,其特征在于,所述基于图片的问答设备包括处理器,所述处理器用于执行指令以实现如权利要求1-9中任一项所述的基于图片的问答方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储指令/程序数据,所述指令/程序数据能够被执行以实现如权利要求1-9中任一项所述的基于图片的问答方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011632872.1A CN112800191B (zh) | 2020-12-31 | 2020-12-31 | 一种基于图片的问答方法、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011632872.1A CN112800191B (zh) | 2020-12-31 | 2020-12-31 | 一种基于图片的问答方法、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112800191A true CN112800191A (zh) | 2021-05-14 |
CN112800191B CN112800191B (zh) | 2023-01-17 |
Family
ID=75808412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011632872.1A Active CN112800191B (zh) | 2020-12-31 | 2020-12-31 | 一种基于图片的问答方法、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800191B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114416914A (zh) * | 2022-03-30 | 2022-04-29 | 中建电子商务有限责任公司 | 一种基于图片问答的处理方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
CN108446404A (zh) * | 2018-03-30 | 2018-08-24 | 中国科学院自动化研究所 | 面向无约束视觉问答指向问题的检索方法及系统 |
CN110348535A (zh) * | 2019-07-17 | 2019-10-18 | 北京金山数字娱乐科技有限公司 | 一种视觉问答模型训练方法及装置 |
CN110377710A (zh) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
CN111782839A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 图像问答方法、装置、计算机设备和介质 |
CN111858882A (zh) * | 2020-06-24 | 2020-10-30 | 贵州大学 | 一种基于概念交互和关联语义的文本视觉问答系统及方法 |
CN112100346A (zh) * | 2020-08-28 | 2020-12-18 | 西北工业大学 | 基于细粒度图像特征和外部知识相融合的视觉问答方法 |
-
2020
- 2020-12-31 CN CN202011632872.1A patent/CN112800191B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
CN108446404A (zh) * | 2018-03-30 | 2018-08-24 | 中国科学院自动化研究所 | 面向无约束视觉问答指向问题的检索方法及系统 |
CN110377710A (zh) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
CN110348535A (zh) * | 2019-07-17 | 2019-10-18 | 北京金山数字娱乐科技有限公司 | 一种视觉问答模型训练方法及装置 |
CN111858882A (zh) * | 2020-06-24 | 2020-10-30 | 贵州大学 | 一种基于概念交互和关联语义的文本视觉问答系统及方法 |
CN111782839A (zh) * | 2020-06-30 | 2020-10-16 | 北京百度网讯科技有限公司 | 图像问答方法、装置、计算机设备和介质 |
CN112100346A (zh) * | 2020-08-28 | 2020-12-18 | 西北工业大学 | 基于细粒度图像特征和外部知识相融合的视觉问答方法 |
Non-Patent Citations (2)
Title |
---|
MENGFEI LI等: "Question Solitting and Unblanced Multi-modal Pooling for VQA", 《IEEE XPLORE》 * |
吝博强: "基于深度学习的高效视觉问答研究与算法实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114416914A (zh) * | 2022-03-30 | 2022-04-29 | 中建电子商务有限责任公司 | 一种基于图片问答的处理方法 |
CN114416914B (zh) * | 2022-03-30 | 2022-07-08 | 中建电子商务有限责任公司 | 一种基于图片问答的处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112800191B (zh) | 2023-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046133B (zh) | 基于图谱化知识库的问答方法、设备、存储介质及装置 | |
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN111209384B (zh) | 基于人工智能的问答数据处理方法、装置及电子设备 | |
CN113672708A (zh) | 语言模型训练方法、问答对生成方法、装置及设备 | |
WO2020232864A1 (zh) | 一种数据处理的方法及相关装置 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN113033438A (zh) | 一种面向模态非完全对齐的数据特征学习方法 | |
CN110852071B (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN112800177B (zh) | 基于复杂数据类型的faq知识库自动生成方法和装置 | |
CN115408488A (zh) | 用于小说场景文本的分割方法及系统 | |
CN112800191B (zh) | 一种基于图片的问答方法、设备及计算机可读存储介质 | |
CN114239730A (zh) | 一种基于近邻排序关系的跨模态检索方法 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN117648429A (zh) | 基于多模态自适应检索式增强大模型的问答方法及系统 | |
CN115617975B (zh) | 针对少样本多轮对话的意图识别方法及装置 | |
CN117453859A (zh) | 一种农业病虫害图文检索方法、系统及电子设备 | |
CN117093864A (zh) | 文本生成模型训练方法以及装置 | |
CN116561271A (zh) | 问答处理方法及装置 | |
CN115359486A (zh) | 一种文档图像中自定义信息的确定方法及系统 | |
CN114238587A (zh) | 阅读理解方法、装置、存储介质及计算机设备 | |
CN114510561A (zh) | 答案选择方法、装置、设备及存储介质 | |
CN115129849A (zh) | 题目表示的获取方法、设备以及计算机可读存储介质 | |
CN111310847B (zh) | 训练要素分类模型的方法和装置 | |
CN112560431A (zh) | 用于生成试题辅导信息的方法、装置、设备、存储介质以及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |