CN114416914B - 一种基于图片问答的处理方法 - Google Patents
一种基于图片问答的处理方法 Download PDFInfo
- Publication number
- CN114416914B CN114416914B CN202210321278.3A CN202210321278A CN114416914B CN 114416914 B CN114416914 B CN 114416914B CN 202210321278 A CN202210321278 A CN 202210321278A CN 114416914 B CN114416914 B CN 114416914B
- Authority
- CN
- China
- Prior art keywords
- answer
- paragraph
- question
- user
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 239000013598 vector Substances 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 22
- 230000003287 optical effect Effects 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 29
- 238000000034 method Methods 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0623—Item investigation
- G06Q30/0625—Directed, with specific intent or strategy
- G06Q30/0627—Directed, with specific intent or strategy using item specifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0641—Shopping interfaces
- G06Q30/0643—Graphical representation of items or shoppers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及图片问答处理技术领域,公开了一种基于图片问答的处理方法,该方法包括:对商品详情页进行OCR光学识别,获取第一段落;将第一段落和用户问题分为有序的单词序列,通过信息检索获取最相关的K个第二段落;将用户问题和K个第二段落分别进行分词;将用户问题分别和每个第二段落进行拼接,并在用户问题前加入标记位得到第三段落,对第三段落进行建模,构造多个输入向量;用相加后的输入向量表示第三段落,输入到中文预训练模型,将中文预训练模型的最终隐藏状态转化为答案跨度概率值。本申请的技术方案提高图片问答用户体验,同时也节约了商家的配置答案的成本,提升了图片问答效率。
Description
技术领域
本发明涉及图片问答处理技术领域,特别是一种基于图片问答的处理方法。
背景技术
智能问答系统是人工智能领域中重要部分,智能问答系统可以基于语音、文字、图片等单一或者组合的交互形式,提供多模态的对话管理能力,支撑企业在各种领域实现智能客服回答。
图片问答是智能问答的一种形态,具体是指设计一个模型,在给定一张或者多张图片的情况下,模型结合机器视觉和自然语言处理等技术,可以实现拒绝回答图片无关问题或者自动回答用户提出与图片内容相关问题。当前主流图片问答技术是基于注意力的方法,可以分为:(1)基于检测注意力方法;(2)基于共同注意力方法。然而,基于检测注意力方法的大部分模型都采用Faster R-CNN目标检测对候选图片块提取特征,该方法存在性能延迟高,并发度低等缺陷,影响线上用户实时问答效率。基于共同注意力方法的模型,如:2019年提出MCAN方法通过图像引导文本注意力的机制,模型关注的区域和人关注的区域差异较大,共同注意力不能推断出每个图像区域和每个问题词之间的相关性, 这导致了共同注意力模型的显著局限性。
电商领域用户提问主要是关于商品图片上的文字信息,而上述两种基于注意力的图片问答技术对图像提取特征往往是方位、纹理等特征,而对图像中文字很难获取详细特征,无法将用户问题建模到具体图片中文字答案位置。因此传统图片问答技术无法回复图片中文字的问题。
发明内容
本发明要解决的技术问题是:为了解决传统图片问答技术无法回复图片中文字的问题,本发明公开了一种基于图片问答的处理方法。
为实现上述目的,本发明采用的技术方案如下:一种基于图片问答的处理方法,包括:
步骤S1,对商品详情页进行OCR光学识别,获取第一段落;
步骤S2,将第一段落和用户问题分为有序的单词序列,通过信息检索获取最相关的K个第二段落;
步骤S3,将用户问题和K个第二段落分别进行分词;
步骤S4,将用户问题分别和每个第二段落进行拼接,并在用户问题前加入标记位得到第三段落,对第三段落进行建模,构造多个输入向量;
步骤S5,用相加后的输入向量表示第三段落,输入到中文预训练模型,将中文预训练模型的最终隐藏状态转化为答案跨度概率值。
进一步的,所述步骤S1中,获取第一段落前,过滤掉OCR光学识别后文字长度小于2或大于512的段落。
进一步的,所述步骤S1中,获取第一段落前,设定无意义词汇,过滤无意义词汇占比大于50%的段落。
进一步的,所述步骤S2中,对用户问题进行语素解析,生成语素;然后针对每个第一段落文档,通过加权计算每个语素与每个第一段落文档的相关性得分,得到用户问题与第一段落的相关性得分,保留相关性得分最高的K个第二段落。
进一步的,所述步骤S3中,采用wordpiece工具进行分词。
进一步的,所述步骤S4包括:将用户问题分别和每个第二段落通过SEP进行拼接,并在用户问题前加入[CLS]标记位得到第三段落;对第三段落进行建模,通过查询词向量表将每个词转换为一维词向量,获取用于学习输入文本顺序属性的位置向量,获取用于区分拼接后用户问题部分和第二段落部分的段向量,获取商品详情页图片特征向量。
进一步的,所述步骤S5中,用词向量、位置向量、段向量、图片特征向量的相加向量表示第三段落;将相加向量输入BERT中文预训练模型;通过全连接层FC1和softmax函数将BERT中文预训练模型的最终隐藏状态预测为每个token所在位置,token所在位置为答案开头位置或者答案结尾位置,获取答案跨度在答案开头位置和答案结尾位置的概率值;计算答案跨度概率值。
进一步的,还包括以下过程:基于BERT中文预训练模型的最终隐藏状态上的[CLS]标记位,通过连接层FC2以及sigmoid函数,获取是否存在答案的二分类概率值。
进一步的,还包括相关性排序过程:采用pointwise对第三段落答案跨度概率值进行排序,标注答案文档出现的答案开头位置和答案结尾位置以及是否存在答案位置,所述答案文档是指用户问题和商品详情页;基于排序获取第三段落的答案跨度索引和标注答案文档索引;将第三段落的答案跨度索引和标注答案文档索引进行回归,获取连续变量;将连续变量乘以答案跨度概率值获取评分值,基于评分值进行段落排序。
与现有技术相比,本发明具有以下有益效果:本申请的技术方案通过对同一个商品下若干商品详情页进行问答,裁切图片中的文字段落作为答案,提高用户体验,同时也节约了商家的配置答案的成本,提升了图片问答效率;本申请的技术方案对用户文图和答案段落进行建模,能有效的获取图片中文字答案的位置,能更精确有效地回复图片中文字的问题。
附图说明
图1为本发明一种基于图片问答的处理方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进一步详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在图片问答的各个领域中,特别是电商领域,用户提问通常是针对商品的功效、生产参数(如日期,容量等);而商品详情页是精心制作、现成存在的,蕴含有大量有价值的信息,本实施例通过对同一个商品下若干商品详情页进行问答,裁切图片中的文字作为答案。本实施例具体方案如图1所示,一种基于图片问答的处理方法,包括:步骤S1,对商品详情页进行OCR光学识别,获取第一段落;步骤S2,将第一段落和用户问题分为有序的单词序列,通过信息检索在第一段落中获取最相关的K个段落记为K个第二段落。步骤S3,将用户问题和K个第二段落分别进行分词;步骤S4,将用户问题分别和每个第二段落进行拼接,并在用户问题前加入标记位得到第三段落,对第三段落进行建模,构造多个输入向量;步骤S5,用相加后的输入向量表示第三段落,输入到中文预训练模型,将中文预训练模型的最终隐藏状态转化为答案跨度概率值。
当前针对机器阅读理解大部分研究主要是面向单篇文档或单个段落。当多个文档中存在一个或者多个与问题相关答案段落时,需要通过多文档阅读理解的技术。本实施例中,上述步骤S1~步骤S2为粗召回阶段,步骤S3~步骤S5为多文档阅读阶段。粗召回阶段目的是减少多文档阅读理解阶段对机器阅读理解训练时间以及模型推理时间的消耗。
优选地,所述步骤S1中,获取第一段落前,过滤掉OCR光学识别后文字长度小于2或大于512的段落。
优选地,所述步骤S1中,由于商品详情页是由商家上传,可能存在一些无意义图片,严重影响用户体验。本实施例获取第一段落前,总结设定一批表示无意义的关键词(例如:价格说明,划线等),通过计算无意义关键词占比,过滤无意义词汇占比大于50%的段落。
优选地,所述步骤S2中,为了衡量用户问题与段落文档的相关性,本实施例通过BM25,TF-IDF等算法进行信息检索,信息检索主要是对用户问题进行语素(例如:字词,词性,句法等)解析,生成语素;然后针对每个第一段落文档,通过加权计算每个语素与每个第一段落文档的相关性得分,得到用户问题与第一段落的相关性得分,保留相关性得分最高的K个第二段落。这样可以减少在多文档阅读理解阶段对机器阅读理解训练时间以及模型推理时间的消耗。
优选地,所述步骤S3中,将粗召回阶段获取的K个第二段落和用户问题采用wordpiece工具进行分词,得到子词(sub-word)单元,例如:"hello,生产日期是多久",分词后结果为["#he","#llo","生","产","日","期","是","多","久",""]。
优选地,所述步骤S4包括:将用户问题分别和每个第二段落通过SEP进行拼接,并在用户问题前加入[CLS]标记位得到第三段落;对第三段落进行建模,获取四个向量:(1)通过查询词向量表(lookup-table)将每个词转换为一维词向量;(2)由于文本出现在不同位置的字/词所携带的语义信息存在差异(比如:“多少钱”和“少多钱”),因此输入层在不同位置上附加一个位置向量区分,该位置向量让模型学习到输入文本的顺序属性;(3)为了辅助模型区分拼接后用户问题部分和第二段落部分的向量表示,获取用于区分拼接后用户问题部分和第二段落部分的段向量;(4)由于是多模态的问答系统,本实施例通过预先对商品分类训练的ResNet模型获取商品详情页图片特征向量。
优选地,所述步骤S5中,用词向量、位置向量、段向量、图片特征向量的相加向量表示第三段落;将相加向量输入BERT中文预训练模型;通过全连接层FC1和softmax函数将BERT中文预训练模型的最终隐藏状态预测为每个token所在位置,token所在位置为答案开头位置或者答案结尾位置;获取答案跨度在答案开头位置概率值和答案结尾位置的概率值计算答案跨度概率值:
其中,s为答案开头位置索引,e为答案结尾位置索引,argmax为对函数求参数(集合)的函数。
优选地,本实施例BERT中文预训练模型还支持判断段落中是否存在答案任务,因此本实施例还包括以下过程:基于BERT中文预训练模型的最终隐藏状态上的[CLS]标记位,通过连接层FC2以及sigmoid函数,获取是否存在答案的二分类概率值。
优选地,本实施例的使用场景是在多个段落文档同时存在下,决定是否挑选出最符合与问题相关的答案回复给用户。模型能够比较多个段落或文档中的候选答案,从而选择最优答案跨度给用户,提升用户体验。本实施例引入pointwise排序方法,基于pointwise对答案跨度概率值进行排序,标注答案文档出现的答案开头位置和答案结尾位置以及是否存在答案位置,所述答案文档是指用户问题和商品详情页;获取第三段落的答案跨度索引和标注答案文档索引,将第三段落的答案跨度索引和标注答案文档索引进行回归,获取连续变量;将连续变量乘以答案跨度概率值获取评分值,基于评分值进行段落排序。
其中,参数调整因子,用于融合第一损失函数,第二损失函数,第三损失函数,得到最后总的反向传播损失函数,上述反向传播损失函数是按照最小化联合损失函数的方向调整模型参数。本实施例将最优预测值(最优预测值是超过预设阈值的值,例如预设阈值为0.8)所对应的答案开头位置和答案结尾位置部分片段作为用户问题语句的文本答案段落,并且将该预测值对应的详情页图片与预测文本答案段落共同发送给用户。
最后应说明的是:以上各实施例仅仅为本发明的较优实施例用以说明本发明的技术方案,而非对其限制,当然更不是限制本发明的专利范围;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围;也就是说,但凡在本发明的主体设计思想和精神上作出的毫无实质意义的改动或润色,其所解决的技术问题仍然与本发明一致的,均应当包含在本发明的保护范围之内;另外,将本发明的技术方案直接或间接的运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种基于图片问答的处理方法,其特征在于,包括:
步骤S1,对商品详情页进行OCR光学识别,获取第一段落;
步骤S2,将第一段落和用户问题分为有序的单词序列,通过信息检索获取最相关的K个第二段落;
步骤S3,将用户问题和K个第二段落分别进行分词;
步骤S4,将用户问题分别和每个第二段落进行拼接,并在用户问题前加入标记位得到第三段落,对第三段落进行建模,构造多个输入向量;
步骤S5,用相加后的输入向量表示第三段落,输入到中文预训练模型,将中文预训练模型的最终隐藏状态转化为答案跨度概率值;
所述步骤S4包括:将用户问题分别和每个第二段落通过SEP进行拼接,并在用户问题前加入[CLS]标记位得到第三段落;对第三段落进行建模,通过查询词向量表将每个词转换为一维词向量,获取用于学习输入文本顺序属性的位置向量,获取用于区分拼接后用户问题部分和第二段落部分的段向量,获取商品详情页图片特征向量;
所述步骤S5中,用词向量、位置向量、段向量、图片特征向量的相加向量表示第三段落;将相加向量输入BERT中文预训练模型;通过全连接层FC1和softmax函数将BERT中文预训练模型的最终隐藏状态预测为每个token所在位置,token所在位置为答案开头位置或者答案结尾位置,获取答案跨度在答案开头位置和答案结尾位置的概率值;计算答案跨度概率值。
2.如权利要求1所述的基于图片问答的处理方法,其特征在于,所述步骤S1中,获取第一段落前,过滤掉OCR光学识别后文字长度小于2或大于512的段落。
3.如权利要求1所述的基于图片问答的处理方法,其特征在于,所述步骤S1中,获取第一段落前,设定无意义词汇,过滤无意义词汇占比大于50%的段落。
4.如权利要求1所述的基于图片问答的处理方法,其特征在于,所述步骤S2中,对用户问题进行语素解析,生成语素;然后针对每个第一段落文档,通过加权计算每个语素与每个第一段落文档的相关性得分,得到用户问题与第一段落的相关性得分,保留相关性得分最高的K个第二段落。
5.如权利要求1所述的基于图片问答的处理方法,其特征在于,所述步骤S3中,采用wordpiece工具进行分词。
6.如权利要求1所述的基于图片问答的处理方法,其特征在于,还包括以下过程:基于BERT中文预训练模型的最终隐藏状态上的[CLS]标记位,通过连接层FC2以及sigmoid函数,获取是否存在答案的二分类概率值。
7.如权利要求6所述的基于图片问答的处理方法,其特征在于,还包括相关性排序过程:采用pointwise对第三段落答案跨度概率值进行排序,标注答案文档出现的答案开头位置和答案结尾位置以及是否存在答案位置,所述答案文档是指用户问题和商品详情页;基于排序获取第三段落的答案跨度索引和标注答案文档索引;将第三段落的答案跨度索引和标注答案文档索引进行回归,获取连续变量;将连续变量乘以答案跨度概率值获取评分值,基于评分值进行段落排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210321278.3A CN114416914B (zh) | 2022-03-30 | 2022-03-30 | 一种基于图片问答的处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210321278.3A CN114416914B (zh) | 2022-03-30 | 2022-03-30 | 一种基于图片问答的处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114416914A CN114416914A (zh) | 2022-04-29 |
CN114416914B true CN114416914B (zh) | 2022-07-08 |
Family
ID=81264389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210321278.3A Active CN114416914B (zh) | 2022-03-30 | 2022-03-30 | 一种基于图片问答的处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114416914B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116108128B (zh) * | 2023-04-13 | 2023-09-05 | 华南师范大学 | 一种开放域问答系统及答案预测方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609056A (zh) * | 2017-08-25 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 一种基于图片识别的问答处理方法与设备 |
CN110647629A (zh) * | 2019-09-20 | 2020-01-03 | 北京理工大学 | 一种多粒度答案排序的多文档机器阅读理解方法 |
CN111930887A (zh) * | 2020-07-06 | 2020-11-13 | 河海大学常州校区 | 基于联合训练方式的多文档多答案机器阅读理解系统 |
CN112800191A (zh) * | 2020-12-31 | 2021-05-14 | 科大讯飞股份有限公司 | 一种基于图片的问答方法、设备及计算机可读存储介质 |
CN113360699A (zh) * | 2021-06-30 | 2021-09-07 | 北京百度网讯科技有限公司 | 模型训练方法和装置、图像问答方法和装置 |
CN113407663A (zh) * | 2020-11-05 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 基于人工智能的图文内容质量识别方法和装置 |
CN113656570A (zh) * | 2021-08-25 | 2021-11-16 | 平安科技(深圳)有限公司 | 基于深度学习模型的视觉问答方法及装置、介质、设备 |
CN113761153A (zh) * | 2021-05-19 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 基于图片的问答处理方法、装置、可读介质及电子设备 |
CN113886626A (zh) * | 2021-09-14 | 2022-01-04 | 西安理工大学 | 基于多重注意力机制的动态记忆网络模型的视觉问答方法 |
CN114155530A (zh) * | 2021-11-10 | 2022-03-08 | 北京中科闻歌科技股份有限公司 | 文本识别及问答方法、装置、设备及介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10754851B2 (en) * | 2017-12-22 | 2020-08-25 | Adobe Inc. | Question answering for data visualizations |
CN108932508B (zh) * | 2018-08-13 | 2022-03-18 | 杭州大拿科技股份有限公司 | 一种题目智能识别、批改的方法和系统 |
CN111190997B (zh) * | 2018-10-26 | 2024-01-05 | 南京大学 | 一种使用神经网络和机器学习排序算法的问答系统实现方法 |
CN111444313B (zh) * | 2020-03-04 | 2023-10-24 | 深圳追一科技有限公司 | 基于知识图谱的问答方法、装置、计算机设备和存储介质 |
CN112613305B (zh) * | 2020-12-27 | 2024-04-09 | 北京工业大学 | 基于循环神经网络的中文事件抽取方法 |
-
2022
- 2022-03-30 CN CN202210321278.3A patent/CN114416914B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609056A (zh) * | 2017-08-25 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 一种基于图片识别的问答处理方法与设备 |
CN110647629A (zh) * | 2019-09-20 | 2020-01-03 | 北京理工大学 | 一种多粒度答案排序的多文档机器阅读理解方法 |
CN111930887A (zh) * | 2020-07-06 | 2020-11-13 | 河海大学常州校区 | 基于联合训练方式的多文档多答案机器阅读理解系统 |
CN113407663A (zh) * | 2020-11-05 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 基于人工智能的图文内容质量识别方法和装置 |
CN112800191A (zh) * | 2020-12-31 | 2021-05-14 | 科大讯飞股份有限公司 | 一种基于图片的问答方法、设备及计算机可读存储介质 |
CN113761153A (zh) * | 2021-05-19 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 基于图片的问答处理方法、装置、可读介质及电子设备 |
CN113360699A (zh) * | 2021-06-30 | 2021-09-07 | 北京百度网讯科技有限公司 | 模型训练方法和装置、图像问答方法和装置 |
CN113656570A (zh) * | 2021-08-25 | 2021-11-16 | 平安科技(深圳)有限公司 | 基于深度学习模型的视觉问答方法及装置、介质、设备 |
CN113886626A (zh) * | 2021-09-14 | 2022-01-04 | 西安理工大学 | 基于多重注意力机制的动态记忆网络模型的视觉问答方法 |
CN114155530A (zh) * | 2021-11-10 | 2022-03-08 | 北京中科闻歌科技股份有限公司 | 文本识别及问答方法、装置、设备及介质 |
Non-Patent Citations (4)
Title |
---|
"Relation-Aware Graph Attention Network for Visual Question Answering";Linjie Li 等;《2019 IEEE/CVF International Conference on Computer Vision (ICCV)》;20200227;10312-10321 * |
"基于图像场景图的视觉问答方法的研究";郑伟曼;《中国优秀硕士学位论文全文数据库 信息科技辑》;20220315;I138-1363 * |
"基于深度神经网络和注意力机制的图像问答研究";李庆;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115;I138-2396 * |
"基于预训练的跨模态统一模型研究";李根;《中国优秀硕士学位论文全文数据库 信息科技辑》;20201215;I138-337 * |
Also Published As
Publication number | Publication date |
---|---|
CN114416914A (zh) | 2022-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190303375A1 (en) | Relevant passage retrieval system | |
CN111797898B (zh) | 一种基于深度语义匹配的在线评论自动回复方法 | |
CN112395410B (zh) | 一种基于实体抽取的产业舆情推荐方法、装置及电子设备 | |
CN110008309B (zh) | 一种短语挖掘方法及装置 | |
CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN115761753A (zh) | 一种融合知识图谱的检索式知识前缀引导视觉问答方法 | |
CN113569050A (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN112182145A (zh) | 文本相似度确定方法、装置、设备和存储介质 | |
CN116362221A (zh) | 融合多模态语义关联图谱的航空文献关键词相似度判定方法 | |
CN111694927A (zh) | 一种基于改进词移距离算法的文档自动评阅方法 | |
CN111078893A (zh) | 一种大规模高效获取识别对话意图用语料的方法 | |
CN115309872A (zh) | 一种基于Kmeans召回的多模型熵加权检索方法及系统 | |
Celikyilmaz et al. | A graph-based semi-supervised learning for question-answering | |
CN114416914B (zh) | 一种基于图片问答的处理方法 | |
CN114298021A (zh) | 基于情感值选择评论的谣言检测方法 | |
CN111694960A (zh) | 基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型 | |
JP2009053743A (ja) | 文書類似性導出装置、文書類似性導出方法、及び、文書類似性導出プログラム | |
CN115017264A (zh) | 模型效果验证方法及装置 | |
CN112214511A (zh) | 一种基于wtp-wcd算法的api推荐方法 | |
CN113761125A (zh) | 动态摘要确定方法和装置、计算设备以及计算机存储介质 | |
CN112257410A (zh) | 一种非平衡文本的相似度计算方法 | |
CN108733757B (zh) | 文本搜索方法及系统 | |
CN112380830B (zh) | 不同文档中相关句子的匹配方法、系统和计算机可读存储介质 | |
Ding et al. | A Novel Discrimination Structure for Assessing Text Semantic Similarity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |