CN112651403A - 基于语义嵌入的零样本视觉问答方法 - Google Patents

基于语义嵌入的零样本视觉问答方法 Download PDF

Info

Publication number
CN112651403A
CN112651403A CN202011390333.1A CN202011390333A CN112651403A CN 112651403 A CN112651403 A CN 112651403A CN 202011390333 A CN202011390333 A CN 202011390333A CN 112651403 A CN112651403 A CN 112651403A
Authority
CN
China
Prior art keywords
vocabulary
word vector
visual
vector
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011390333.1A
Other languages
English (en)
Other versions
CN112651403B (zh
Inventor
周泓
杨诚
罗本燕
彭国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
First Affiliated Hospital of Zhejiang University School of Medicine
Original Assignee
Zhejiang University ZJU
First Affiliated Hospital of Zhejiang University School of Medicine
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU, First Affiliated Hospital of Zhejiang University School of Medicine filed Critical Zhejiang University ZJU
Priority to CN202011390333.1A priority Critical patent/CN112651403B/zh
Publication of CN112651403A publication Critical patent/CN112651403A/zh
Application granted granted Critical
Publication of CN112651403B publication Critical patent/CN112651403B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于语义嵌入的零样本视觉问答方法,包含以下步骤:收集若干词汇构成词汇集合;对收集到的词汇集合中的词汇进行编码得到每个词汇的词向量并构建词向量库S,词向量库S包含每个词汇以及其对应的词向量;提取待识别图像的视觉特征R;提取和待识别图像相对应的问题的语言特征E;将视觉特征R和语言特征E进行关系建模并输出预测词向量C;通过计算获得词向量库S中与预测词向量C相匹配的词汇。本发明的基于语义嵌入的零样本视觉问答方法,提供一种新的视觉问答技术,在不扩大训练数据集规模的前提下,在现实场景中应用时,可以给出不存在于训练数据集中的答案。

Description

基于语义嵌入的零样本视觉问答方法
技术领域
本发明涉及一种基于语义嵌入的零样本视觉问答方法。
背景技术
视觉问答(Visual Question Answering,VQA)技术指的是设计一个模型,在给定一张 图片的情况下,该模型可以自动回答和图片内容相关的问题。例如给定一张内容是一张桌子 上放了三个苹果的图片以及一个问题“桌子上有几个苹果”,程序需要根据图片和问题给出答 案3。这个技术有很广的应用场景,例如用于帮助弱势群体(盲人)获取信息,改进人机交 互,提高小孩子的认知教育。
现有的方法都将视觉问答视为一个分类的问题。具体的来说,建立一个包含大量图片和 对应问题-答案对的数据集,将数据集中出现过的答案作为候选类别。设计深度神经模型,使 用构建好的数据集进行训练。给定图片和对应的问题,训练好的模型会输出所有候选类别的 概率,将概率较大的几个类别作为问题的答案。
现有技术的缺陷在于:现有的方法的候选类别非常有限,依赖于所构建的数据集的大小。 由于模型仅仅能在候选类别中选择可能性最大的类别,脱离数据集,在现实场景中应用时就 存在较大的局限性。为了提高模型在现实场景中的可用性,就需要扩大候选类别,构建更大 的数据集,但是这会带来很大的花销,因为要使用当前主流的方法,除了扩充候选类别,还 需要找到大量与类别对应的图片和问题,用于模型训练。
发明内容
本发明提供了一种基于语义嵌入的零样本视觉问答方法,采用如下的技术方案:
一种基于语义嵌入的零样本视觉问答方法,包含以下步骤:
收集若干词汇构成词汇集合;
对收集到的词汇集合中的词汇进行编码得到每个词汇的词向量并构建词向量库S,词向 量库S包含每个词汇以及其对应的词向量;
提取待识别图像的视觉特征R;
提取和待识别图像相对应的问题的语言特征E;
将视觉特征R和语言特征E进行关系建模并输出预测词向量C;
通过计算获得词向量库S中与预测词向量C相匹配的词汇。
进一步地,对收集到的词汇集合中的词汇进行编码得到每个词汇的词向量并构建词向量 库S的具体方法为:
通过词汇嵌入算法将词汇集合中的每个词汇编码成300维的词向量;
将词汇和其对应的词向量以键-值对的形式保存为字典以构成词向量库S。
进一步地,字典为CSV格式。
进一步地,提取待识别图像的视觉特征R的具体方法为:
将待识别图像的分辨率设置为224*224;
使用经过预训练的提取网络提取待识别图像的视觉特征R,视觉特征R为一个2048维的 向量。
进一步地,提取网络为ResNet-50网络。
进一步地,提取和待识别图像相对应的问题的语言特征E的具体方法为:
对问题的语句采用字符串检索的方式进行检测并去除标点符号;
将语句的长度处理为14;
通过词汇嵌入算法将语句中的所有词汇编码为300维的词向量;
通过LSTM提取语句的语言特征E,语言特征E为一个14*1024的矩阵。
进一步地,词汇嵌入算法为GloVe算法。
进一步地,将视觉特征R和语言特征E进行关系建模并输出预测词向量C的具体方法为:
使用非线性仿射变换将视觉特征R变换为1024维的视觉向量R
使用非线性仿射变换将语言特征E变换为14个1024维的语言向量E
采用夹角余弦计算视觉向量R和语言向量E的相似度得到14个取值在0至1之间的相似 度值,并将计算结果保存为一个14维的注意力向量A;
通过下述公式计算问题特征向量
Figure BDA0002812442640000021
Figure BDA0002812442640000022
再通过下述公式计算融合向量G:
G=R⊙E;
对融合向量G做非线性仿射变换得到预测词向量C。
进一步地,通过计算获得词向量库S中与预测词向量C相匹配的词汇的具体方法为:
分别计算预测词向量C和词向量库S中所有词向量的欧式距离,将词向量库S中与预测 词向量C的欧式距离最小的词向量所对应的词汇作为最终输出的词汇。
进一步地,在收集若干词汇构成词汇集合中:
词汇包含名词、数字1到10、是和否。
本发明的有益之处在于所提供的基于语义嵌入的零样本视觉问答方法,提供一种新的视 觉问答技术,在不扩大训练数据集规模的前提下,在现实场景中应用时,可以给出不存在于 训练数据集中的答案。
附图说明
图1是本发明的基于语义嵌入的零样本视觉问答方法的示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示为本发明的一种基于语义嵌入的零样本视觉问答方法,主要包含以下步骤: S1:收集若干词汇构成词汇集合。S2:对收集到的词汇集合中的词汇进行编码得到每个词汇的 词向量并构建词向量库S,词向量库S包含每个词汇以及其对应的词向量。S3:提取待识别图 像的视觉特征R。S4:提取和待识别图像相对应的问题的语言特征E。S5:将视觉特征R和语言 特征E进行关系建模并输出预测词向量C。S6:通过计算获得词向量库S中与预测词向量C相 匹配的词汇。本发明的方法在训练数据集固定的前提下,可以给出不存在于训练数据集中的 答案,提高了在现实场景下的应用范围。以下具体介绍上述步骤。
对于步骤S1:收集若干词汇构成词汇集合。
首先,按类别收集词汇。在本发明中收集的词汇主要是名词,例如不同水果的名称,动 物的名称,常见物品的名称,以及数字1到10,还有额外的两个词是与否,将收集的词汇保 存为文本格式。
对于步骤S2:对收集到的词汇集合中的词汇进行编码得到每个词汇的词向量并构建词向 量库S,词向量库S包含每个词汇以及其对应的词向量。
具体的,对收集到的词汇集合中的词汇进行编码得到每个词汇的词向量并构建词向量库 S的具体方法为:通过词汇嵌入算法将词汇集合中的每个词汇编码成300维的词向量。将词 汇和其对应的词向量以键-值对的形式保存为字典以构成词向量库S。在本申请中,字典为CSV 格式。优选的,词汇嵌入算法为GloVe算法。
对于步骤S3:提取待识别图像的视觉特征R。
具体的,提取待识别图像的视觉特征R的具体方法为:
将待识别图像的分辨率设置为224*224。优选的,使用opencv等图像处理工具包将待识 别图像设置为固定的224*224。
使用经过预训练的提取网络提取待识别图像的视觉特征R,视觉特征R为一个2048维的 向量。优选的,提取网络为ResNet-50网络。
对于步骤S4:提取和待识别图像相对应的问题的语言特征E。
具体的,提取和待识别图像相对应的问题的语言特征E的具体方法为:对问题的语句采 用字符串检索的方式进行检测并去除标点符号。将语句的长度处理为14。通过词汇嵌入算法 将语句中的所有词汇编码为300维的词向量。通过LSTM(长短期记忆模型)提取语句的语言 特征E,得到14个2048维的语言特征向量,将其保存为一个14*1024的矩阵,该矩阵即为 语言特征E。
对于步骤S5:将视觉特征R和语言特征E进行关系建模并输出预测词向量C。
具体而言,将视觉特征R和语言特征E进行关系建模并输出预测词向量C的具体方法为:
使用非线性仿射变换将视觉特征R变换为1024维的视觉向量R′。使用非线性仿射变换将 语言特征E变换为14个1024维的语言向量E′。其中,该非线性变换的参数,可通过反向传 播技巧从训练数据中学习而来。采用夹角余弦计算视觉向量R′和语言向量E′的相似度得到14 个取值在0至1之间的相似度值,并将计算结果保存为一个14维的注意力向量A。注意力向 量A中的每一个元素表示问题中每一个词汇对于图片的重要程度,通过下述公式计算问题特 征向量
Figure RE-GDA0002954757020000041
Figure BDA0002812442640000042
再通过下述公式计算融合向量G:
G=R⊙E,
对融合向量G做非线性仿射变换得到预测词向量C。
对于步骤S6:通过计算获得词向量库S中与预测词向量C相匹配的词汇。
具体而言,通过计算获得词向量库S中与预测词向量C相匹配的词汇的具体方法为:
分别计算预测词向量C和词向量库S中所有词向量的欧式距离,将词向量库S中与预测 词向量C的欧式距离最小的词向量所对应的词汇作为最终输出的词汇。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解, 上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案, 均落在本发明的保护范围内。

Claims (10)

1.一种基于语义嵌入的零样本视觉问答方法,其特征在于,包含以下步骤:
收集若干词汇构成词汇集合;
对收集到的所述词汇集合中的词汇进行编码得到每个词汇的词向量并构建词向量库S,所述词向量库S包含每个词汇以及其对应的词向量;
提取待识别图像的视觉特征R;
提取和所述待识别图像相对应的问题的语言特征E;
将所述视觉特征R和所述语言特征E进行关系建模并输出预测词向量C;
通过计算获得所述词向量库S中与所述预测词向量C相匹配的词汇。
2.根据权利要求1所述的基于语义嵌入的零样本视觉问答方法,其特征在于,
所述对收集到的所述词汇集合中的词汇进行编码得到每个词汇的词向量并构建词向量库S的具体方法为:
通过词汇嵌入算法将所述词汇集合中的每个词汇编码成300维的词向量;
将词汇和其对应的词向量以键-值对的形式保存为字典以构成所述词向量库S。
3.根据权利要求2所述的基于语义嵌入的零样本视觉问答方法,其特征在于,
所述字典为CSV格式。
4.根据权利要求2所述的基于语义嵌入的零样本视觉问答方法,其特征在于,
所述提取待识别图像的视觉特征R的具体方法为:
将待识别图像的分辨率设置为224*224;
使用经过预训练的提取网络提取所述待识别图像的所述视觉特征R,所述视觉特征R为一个2048维的向量。
5.根据权利要求4所述的基于语义嵌入的零样本视觉问答方法,其特征在于,
所述提取网络为ResNet-50网络。
6.根据权利要求4所述的基于语义嵌入的零样本视觉问答方法,其特征在于,
所述提取和所述待识别图像相对应的问题的语言特征E的具体方法为:
对所述问题的语句采用字符串检索的方式进行检测并去除标点符号;
将语句的长度处理为14;
通过所述词汇嵌入算法将所述语句中的所有词汇编码为300维的词向量;
通过LSTM提取所述语句的所述语言特征E,所述语言特征E为一个14*1024的矩阵。
7.根据权利要求6所述的基于语义嵌入的零样本视觉问答方法,其特征在于,
所述词汇嵌入算法为GloVe算法。
8.根据权利要求6所述的基于语义嵌入的零样本视觉问答方法,其特征在于,
所述将所述视觉特征R和所述语言特征E进行关系建模并输出预测词向量C的具体方法为:
使用非线性仿射变换将所述视觉特征R变换为1024维的视觉向量R′;
使用非线性仿射变换将所述语言特征E变换为14个1024维的语言向量E′;
采用夹角余弦计算所述视觉向量R′和所述语言向量E′的相似度得到14个取值在0至1之间的相似度值,并将计算结果保存为一个14维的注意力向量A;
通过下述公式计算问题特征向量
Figure FDA0002812442630000021
Figure FDA0002812442630000022
再通过下述公式计算融合向量G:
G=R′⊙E;
对所述融合向量G做非线性仿射变换得到所述预测词向量C。
9.根据权利要求8所述的基于语义嵌入的零样本视觉问答方法,其特征在于,
所述通过计算获得所述词向量库S中与所述预测词向量C相匹配的词汇的具体方法为:
分别计算所述预测词向量C和所述词向量库S中所有词向量的欧式距离,将所述词向量库S中与所述预测词向量C的欧式距离最小的词向量所对应的词汇作为最终输出的词汇。
10.根据权利要求1所述的基于语义嵌入的零样本视觉问答方法,其特征在于,
在所述收集若干词汇构成词汇集合中:
所述词汇包含名词、数字1到10、是和否。
CN202011390333.1A 2020-12-02 2020-12-02 基于语义嵌入的零样本视觉问答方法 Active CN112651403B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011390333.1A CN112651403B (zh) 2020-12-02 2020-12-02 基于语义嵌入的零样本视觉问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011390333.1A CN112651403B (zh) 2020-12-02 2020-12-02 基于语义嵌入的零样本视觉问答方法

Publications (2)

Publication Number Publication Date
CN112651403A true CN112651403A (zh) 2021-04-13
CN112651403B CN112651403B (zh) 2022-09-06

Family

ID=75350535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011390333.1A Active CN112651403B (zh) 2020-12-02 2020-12-02 基于语义嵌入的零样本视觉问答方法

Country Status (1)

Country Link
CN (1) CN112651403B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19911535A1 (de) * 1999-03-16 2000-09-28 Punkt Ges Fuer Software Mbh S Verfahren zur Spracherkennung , welches das Vokabular an die zuerkennenden Inhalte, z.B. von Internetseiten, dynamisch anpaßt
WO2006105596A1 (en) * 2005-04-04 2006-10-12 Mor(F) Dynamics Pty Ltd Method for transforming language into a visual form
US20090060351A1 (en) * 2007-08-30 2009-03-05 Microsoft Corporation Visual Language Modeling for Image Classification
CN105740888A (zh) * 2016-01-26 2016-07-06 天津大学 一种用于零样本学习的联合嵌入模型
CN106951473A (zh) * 2017-03-06 2017-07-14 浙江大学 面向视觉障碍人士的深度视觉问答系统的构建方法
CN108399421A (zh) * 2018-01-31 2018-08-14 南京邮电大学 一种基于词嵌入的深度零样本分类方法
KR20190078899A (ko) * 2017-12-27 2019-07-05 연세대학교 산학협력단 계층적 시각 특징을 이용한 시각 질의 응답 장치 및 방법
WO2019148315A1 (en) * 2018-01-30 2019-08-08 Intel Corporation Visual question answering using visual knowledge bases
CN110309850A (zh) * 2019-05-15 2019-10-08 山东省计算中心(国家超级计算济南中心) 基于语言先验问题识别和缓解的视觉问答预测方法及系统
CN110516718A (zh) * 2019-08-12 2019-11-29 西北工业大学 基于深度嵌入空间的零样本学习方法
EP3629253A1 (en) * 2018-09-27 2020-04-01 Beijing Baidu Netcom Science and Technology Co., Ltd. Method and apparatus for generating training data for vqa system, and medium
CN111008293A (zh) * 2018-10-06 2020-04-14 上海交通大学 基于结构化语义表示的视觉问答方法
EP3709207A1 (en) * 2019-03-12 2020-09-16 Beijing Baidu Netcom Science and Technology Co., Ltd. Visual question answering model, electronic device and storage medium
CA3076638A1 (en) * 2019-03-22 2020-09-22 Royal Bank Of Canada Systems and methods for learning user representations for open vocabulary data sets
CN111949824A (zh) * 2020-07-08 2020-11-17 合肥工业大学 基于语义对齐的视觉问答方法和系统、存储介质

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19911535A1 (de) * 1999-03-16 2000-09-28 Punkt Ges Fuer Software Mbh S Verfahren zur Spracherkennung , welches das Vokabular an die zuerkennenden Inhalte, z.B. von Internetseiten, dynamisch anpaßt
WO2006105596A1 (en) * 2005-04-04 2006-10-12 Mor(F) Dynamics Pty Ltd Method for transforming language into a visual form
US20090060351A1 (en) * 2007-08-30 2009-03-05 Microsoft Corporation Visual Language Modeling for Image Classification
CN105740888A (zh) * 2016-01-26 2016-07-06 天津大学 一种用于零样本学习的联合嵌入模型
CN106951473A (zh) * 2017-03-06 2017-07-14 浙江大学 面向视觉障碍人士的深度视觉问答系统的构建方法
KR20190078899A (ko) * 2017-12-27 2019-07-05 연세대학교 산학협력단 계층적 시각 특징을 이용한 시각 질의 응답 장치 및 방법
WO2019148315A1 (en) * 2018-01-30 2019-08-08 Intel Corporation Visual question answering using visual knowledge bases
CN108399421A (zh) * 2018-01-31 2018-08-14 南京邮电大学 一种基于词嵌入的深度零样本分类方法
EP3629253A1 (en) * 2018-09-27 2020-04-01 Beijing Baidu Netcom Science and Technology Co., Ltd. Method and apparatus for generating training data for vqa system, and medium
US20200104742A1 (en) * 2018-09-27 2020-04-02 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating training data for vqa system, and medium
CN111008293A (zh) * 2018-10-06 2020-04-14 上海交通大学 基于结构化语义表示的视觉问答方法
EP3709207A1 (en) * 2019-03-12 2020-09-16 Beijing Baidu Netcom Science and Technology Co., Ltd. Visual question answering model, electronic device and storage medium
US20200293921A1 (en) * 2019-03-12 2020-09-17 Beijing Baidu Netcom Science And Technology Co., Ltd. Visual question answering model, electronic device and storage medium
KR20200110154A (ko) * 2019-03-12 2020-09-23 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 시각적 질문응답 모델, 전자 기기 및 저장 매체
CA3076638A1 (en) * 2019-03-22 2020-09-22 Royal Bank Of Canada Systems and methods for learning user representations for open vocabulary data sets
CN110309850A (zh) * 2019-05-15 2019-10-08 山东省计算中心(国家超级计算济南中心) 基于语言先验问题识别和缓解的视觉问答预测方法及系统
CN110516718A (zh) * 2019-08-12 2019-11-29 西北工业大学 基于深度嵌入空间的零样本学习方法
CN111949824A (zh) * 2020-07-08 2020-11-17 合肥工业大学 基于语义对齐的视觉问答方法和系统、存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
C YANG ET AL: "Mutli-Modality Global Fusion Attention Network for Visual Question Answering", 《ELECTRONICS》 *
DAMIEN TENEY ET AL: "Zero-Shot Visual Question Answering", 《ARXIV》 *
邓硙等: "基于Yes/No反馈的视觉问答方法", 《模式识别与人工智能》 *

Also Published As

Publication number Publication date
CN112651403B (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN109524006B (zh) 一种基于深度学习的汉语普通话唇语识别方法
CN111046133A (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
CN106569998A (zh) 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN109165563B (zh) 行人再识别方法和装置、电子设备、存储介质、程序产品
CN109670168B (zh) 基于特征学习的短答案自动评分方法、系统及存储介质
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111159485A (zh) 尾实体链接方法、装置、服务器及存储介质
CN111597341B (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN115186665B (zh) 一种基于语义的无监督学术关键词提取方法及设备
CN116450796A (zh) 一种智能问答模型构建方法及设备
CN113704416A (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
CN113239666A (zh) 一种文本相似度计算方法及系统
CN111159345A (zh) 一种中文知识库答案获取方法及其装置
CN113051922A (zh) 一种基于深度学习的三元组抽取方法及系统
CN112100212A (zh) 一种基于机器学习和规则匹配的案件情节抽取方法
CN116796251A (zh) 一种基于图文多模态的不良网站分类方法、系统及设备
CN112434686B (zh) 针对ocr图片的端到端含错文本分类识别仪
CN112528989B (zh) 一种图像语义细粒度的描述生成方法
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
CN115878847B (zh) 基于自然语言的视频引导方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant