CN110647632A - 基于机器学习的图像与文本映射技术 - Google Patents
基于机器学习的图像与文本映射技术 Download PDFInfo
- Publication number
- CN110647632A CN110647632A CN201910722448.7A CN201910722448A CN110647632A CN 110647632 A CN110647632 A CN 110647632A CN 201910722448 A CN201910722448 A CN 201910722448A CN 110647632 A CN110647632 A CN 110647632A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- feature
- mapping
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Animal Behavior & Ethology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供了一种基于语义分析与图像特征提取技术相结合的图像到说明文本映射技术,通过该技术,可以由输入图像得出相关的文本描述。本项专利建立了图像与文本描述的映射关系,通过卷积神经网络提取图像特征向量,并与文本信息中的语义信息建立关联。这里的语义信息由时间卷积网络结合条件随机场技术,可以提取文本中的意图信息和实体信息,再通过对“意图”和“实体”两类信息进行编码并与图像特征向量建立对应模型,由该模型实现图像特征向量到文本的预测能力。即由输入图像得出基本的文本描述。该技术应用于医疗图像和智慧城市中的数据分析,可以有效减轻操作和维护人员的工作量。
Description
技术领域
本发明属于涉及信息技术领域,尤其是涉及采用深度神经网络对图像和文本之间建立关联和映射的技术。该项技术可以用来进行图像描述生成,依据描述搜索图像信息,因此可以在医疗领域(例如根据医疗图像获得相关评述)或智慧城市领域(例如依据基本描述定位地标建筑)作为智能应用的算法模块提供服务。
背景技术
随着人工智能技术的飞速发展,不同领域的各种基于人工智能的智能应用层出不穷,特别是在图形图像识别和自然语言处理领域,人工智能所提供的智能化服务正逐步占据主流应用的地位。在医疗健康领域,医疗工作者往往需要针对医疗图像快速给出说明性描述,为病理分析提供支撑,因此引出了从图像到文本的映射技术的需求。同时,在智慧城市领域,往往需要根据一段语言描述,快速定位相应的地标性建筑或场馆,因此需要提供从文本到图像的搞笑索引技术。
实现上述需求,需要具备从图像和文本中提取关键特性和表达意图的能力。例如从医疗图像中提取可疑病灶的能力,从文本说明中提取中作者的命名实体和表达意图的能力。根据目前深度神经网络技术为技术的发展,对应于特征提取和意图定位所涉及的技术包括:深度卷积网络、词向量、文本向量技术和序列映射技术。
本项发明通过提供一种基于多种深度神经网络技术的框架,来实现基于非结构化信息作为查询输入的查询系统,实现图像到文本和文本到图像查询的技术能力,为满足医疗健康领域的辅助诊断和智慧城市领域的智能索引技术需求提供有效支撑。
发明内容
本项发明设计了一种基于多种深度神经网络技术的框架,该框架用以实现对不同数据类型进行映射,从而实现以非结构化数据作为输入的查询能力,即通过图片查询文本和通过文本查询图片(如图1所示),具体包括:
1.设计了对文本类型的非结构化信息的特征提取和向量化表达,所用算法可有两种选择:
I.以doc2vec为基础,该算法是google词向量技术的扩展,通过采用针对宽采样窗体(采样宽度为200)来实现对一般医疗图片和建筑场景描述的文本信息的精确特征捕捉和特征向量生成(参见图2(b));
II.以google bert模型为基础,作为一种高效和通用的文本嵌入模型,bert可以更为通用的场景描述提供特征捕捉和向量生成(参见图2(b)).
2.设计了从文本特征向量映射到文本意图集合的机器学习模型(参见图2(b));
3.设计了对图片类型的非结构化信息的特征提取和向量化表达,所用算法以残差网络resnet为基础,该算法已经被广泛应用于面部识别、复杂图形的特征分析(例如alphago的棋盘状态分析),该网络以深度卷积网络为基础,通过引入残差连接,避免了因增加网络深度导致的信息丢失。采用深度残差网络可以更有效的提取复杂图片的特征,特别是网络深度可以有效满足不同类型的信息提取需求(参见图2(a));
4.图片特征向量到命名实体映射技术,所用算法为基于卷积神经网络的建模技术(参见图2(a));
5.图谱特征向量到文本意图的映射技术,所用算法为基于卷积神经网络的建模技术(参见图2(a));
6.查询接口,通过输入图片/文本,为用户提供对应的文本/图片输出,在输出方面采用top-K方式,
即提供相似度最高的K个查询结果工应用方选择。
基于非结构化信息(文本、图片)查询系统的构建包括如下步骤:
1.构建特征提取训练模型:
a.对于文本类型的特征提取模型:i.可以直接使用bert文本向量生成模型;ii.使用doc2vec技术在收集的医疗图片描述和建筑场景描述素材上构建文本向量化模型(参见图4(b));
b.对于图片类型的特征提取模型:收集图片和分类标注信息作为训练样本,通过resnet网络架构训练深度神经网络,并以训练好的网络的全连接层输出作为特征提取向量输出(参见图4(a))。
2.特征映射模型构建:
采用卷积神经网络,通过采用GoogleNet作为网络架构,分别训练:文本特征向量到命名实体集合,文本特征向量到文本意图集合,图片特征向量到命名实体集合,图片特征向量到文本意图集合的映射模型 (参见图4(a)(b))。
3.基于非结构化数据的查询:
a.输入文本,转换文本的特征向量,再获取文本命名实体和意图集合,通过命名实体和意图集合与图片库中的实体和意图进行比对,提取最为接近的k张图片作为返回(top-K策略);
b.输入图片,转换图片的特征向量,再获取文本命名实体和意图集合,通过命名实体和意图集合进入文本库并对进行实体和意图进行比,提取最为接近的k张文本作为返回(top-K策略)。本项发明的上述技术方案有益结果如下:
在医疗图像处理领域,越来越多智能应用需要快速的为给定图片提供文字说明,因此需要一种从图像到文本的查询和映射能力。在智慧城市领域,则需要提供一种从文本到建筑景观图片的查询能力,因此需要一种从文本到图像的查询映射能力。基于上述两点需求,需要实现通过非结构化数据的查询能力,本项发明提供了可实现图片→文本、文本→图片的以非结构化数据为输入进行查询的技术框架。该框架以机器学习技术为基础,特别是使用深度神经网络进行特征提取和分析,到特征映射建模,最终实现在文本和图片两种非结构化数据之间建立映射关系。该框架可作为为智能应用实现文本/图片相互查询工作所需的基础平台,为满足医疗和智慧城市领域的需求提供帮助。
附图说明
图1由图像生成文本描述的样例
图2图像/文本映射的技术框架
图3命名实体、意图集合与非结构化数据存储结构
图4图像/文本映射的技术实现
具体实施方式
根据发明内容中所阐述的构建通过文本和图像作为查询输入的非结构化信息查询系统的内容,其具体实现如下几节所述:
构建特征提取训练模型:
a.对于文本类型的特征提取模型:i.可以直接使用bert文本向量生成模型;ii.使用doc2vec技术在收集的医疗图片描述和建筑场景描述素材上构建文本向量化模型;上述两种方式的输出特征向量长度均设定为512(参见图4(b));
b.对于图片类型的特征提取模型:收集图片和分类标注信息作为训练样本,通过resnet网络架构训练深度神经网络,并以训练好的网络的全连接层输出作为特征提取向量输出;上述方式的resent层数为50,输出特征向量长度设定为256,全连接层神经元数量为256(参见图4(a)).
图像数据的命名实体和意图提取:
a.图像数据的命名实体提取采用前述图像特征向量通过卷积神经网络进行映射,这里采用GoogleNet 作为卷积神经网络架构(参见图4(a));
b.图像数据的意图提取采用前述图像特征向量通过卷积神经网络进行映射,这里采用GoogleNet作为卷积神经网络架构(参见图4(a))。
文本数据的命名实体和意图提取:
c.文本数据的命名实体提取采用前述文本特征向量通过条件随机场技术实现(参见图4(b));
d.文本数据的意图提取采用前述文本特征向量通过卷积神经网络进行映射,这里采用GoogleNet作为卷积神经网络架构(参见图4(b))。
基于非结构化数据的查询:
a.数据存储:命名实体与意图集合→文本/图片数据的键/值存储方式(参见图3),数据表可以看作是键/值数据的列表,排列顺序以命名实体与意图以字符顺序进行排序;
b.数据查询:根据输入命名实体与意图集合进行在键/值数据列表中查询与之相似度最高的k条记录,计算相似度的算法可采用集合重合率进行比对:p(命名实体重合率)+q(意图重合率),p和q代表相似度换算方程,通过重合率乘以用户定义的固定系数来计算,通常p=0.4, q=0.6,计算值越接近1表示越接近;
c.输入文本,转换文本的特征向量,采用文本到图片的特征向量映射模型得到对应图片的特征向量,然后计算得出命名实体与意图集合,进入图片库进行命名实体与意图的相似度比对,提取最为接近的k张图片作为返回(top-K策略);
d.输入图片,转换图片的特征向量,采用图片到文本的特征向量映射模型得到特征向量,通过特征向量到命名实体与意图集合的映射模型的到命名实体与意图集合,进入文本库进行命名实体与意图相似度比对,提取最为接近的k张文本作为返回(top-K策略)。
Claims (14)
1.基于机器学习的图像与文本映射技术,包括:
随着人工智能技术的飞速发展,不同领域的各种基于人工智能的智能应用层出不穷,特别是在图形图像识别和自然语言处理领域,人工智能所提供的智能化服务正逐步占据主流应用的地位。在医疗健康领域,医疗工作者往往需要针对医疗图像快速给出说明性描述,为病理分析提供支撑,因此引出了从图像到文本的映射技术的需求。同时,在智慧城市领域,往往需要根据一段语言描述,快速定位相应的地标性建筑或场馆,因此需要提供从文本到图像的高效索引技术。实现上述需求,需要具备从图像和文本中提取关键特性和表达意图的能力。例如从医疗图像中提取可疑病灶的能力,从文本说明中提取中作者的表达意图的能力。根据目前深度神经网络技术为技术的发展,对应于特征提取和意图定位所涉及的技术包括:深度卷积网络、词向量、文本向量技术和向量到集合映射技术。
本项发明设计了一种基于多种深度神经网络技术的框架,该框架用以实现对不同数据类型进行映射,从而实现以非结构化数据作为输入的查询能力,即通过图片查询文本和通过文本查询图片(如说明书附图1所示),具体包括:
A.设计了对文本类型的非结构化信息的特征提取和向量化表达,所用算法可有两种选择:
I.以doc2vec为基础,该算法是google词向量技术的扩展,通过采用针对宽采样窗体(采样宽度为200)来实现对一般医疗图片和建筑场景描述的文本信息的精确特征捕捉和特征向量生成(参见说明书附图2(b));
II.以google bert模型为基础,作为一种高效和通用的文本嵌入模型,bert可以更为通用的场景描述提供特征捕捉和向量生成(参见说明书附图2(b)).
B.设计了从文本特征向量映射到文本意图集合的机器学习模型(参见说明书附图2(b));
C.设计了对图片类型的非结构化信息的特征提取和向量化表达,所用算法以残差网络resnet为基础,该算法已经被广泛应用于面部识别、复杂图形的特征分析(例如alphago的棋盘状态分析),该网络以深度卷积网络为基础,通过引入残差连接,避免了因增加网络深度导致的信息丢失。采用深度残差网络可以更有效的提取复杂图片的特征,特别是网络深度可以有效满足不同类型的信息提取需求(参见说明书附图2(a));
D.图片特征向量到命名实体映射技术,所用算法为基于卷积神经网络的建模技术(参见说明书附图2(a));
E.图谱特征向量到文本意图的映射技术,所用算法为基于卷积神经网络的建模技术(参说明书附见图2(a));
查询接口,通过输入图片/文本,为用户提供对应的文本/图片输出,在输出方面采用top-K方式,即提供相似度最高的K个查询结果工应用方选择。
2.根据权利要求1.基于机器学习的图像与文本映射技术,其特征在于以应用框架的方式实现图像到文本与文本到图像的映射,用户可用灵活使用不同的特征提取机制还针对应用场景提升映射精度。
3.根据权利要求1基于机器学习的图像与文本映射技术,其特征在于以在文本特征向量的生成可选择使用doc2vec或bert预训练模型,上述两种方式的输出特征向量长度均设定为512,并向后支持新的文本向量预训练模型。
4.根据权利要求1基于机器学习的图像与文本映射技术技术,其特征在于以ResNet50为基础生成图像特征向量,输出特征向量长度设定为256,全连接层神经元数量为256。
5.根据权利要求1基于机器学习的图像与文本映射技术,其特征在于采用深度卷积神经网络GoogleNet实现图像和文本特征向量到命名实体和意图集合的映射。
6.根据权利要求1基于机器学习的图像与文本映射技术,其特征在于采用top-k相似度,即最为相似的k个查询结果作为通过文本查询图像或通过图像查询文本的输出。
7.根据权利要求1基于机器学习的图像与文本映射技术,其特征在于文本数据的命名实体提取采用前述文本特征向量通过条件随机场技术实现。
8.根据权利要求1基于机器学习的图像与文本映射技术,其特征在于文本数据的意图提取采用前述文本特征向量通过卷积神经网络进行映射,这里采用GoogleNet作为卷积神经网络架构。
9.根据权利要求1基于机器学习的图像与文本映射技术,其特征在于图像数据的命名实体提取采用前述图像特征向量通过卷积神经网络进行映射,这里采用GoogleNet作为卷积神经网络架构。
10.根据权利要求1基于机器学习的图像与文本映射技术,其特征在于图像数据的意图提取采用前述图像特征向量通过卷积神经网络进行映射,这里采用GoogleNet作为卷积神经网络架构。
11.根据权利要求1基于机器学习的图像与文本映射技术技术,其特征在于输入文本,转换文本的特征向量,再获取文本命名实体和意图集合,通过命名实体和意图集合与图片库中的实体和意图进行比对,提取最为接近的k张图片作为返回(top-K策略)。
12.根据权利要求1基于机器学习的图像与文本映射技术,其特征在于输入图片,转换图片的特征向量,再获取文本命名实体和意图集合,通过命名实体和意图集合进入文本库并对进行实体和意图进行比,提取最为接近的k张文本作为返回(top-K策略)。
13.根据权利要求1基于机器学习的图像与文本映射技术,其特征在于数据存储:命名实体与意图集合→文本/图片数据的键/值存储方式(参见图3),数据表可以看作是键/值数据的列表,排列顺序以命名实体与意图以字符顺序进行排序。
14.根据权利要求1基于机器学习的图像与文本映射技术,其特征在于数据查询:根据输入命名实体与意图集合进行在键/值数据列表中查询与之相似度最高的k条记录,计算相似度的算法可采用集合重合率进行比对:p(命名实体重合率)+q(意图重合率),p和q代表相似度换算方程,通过重合率乘以用户定义的固定系数来计算,通常p=0.4,q=0.6,计算值越接近1表示越接近。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910722448.7A CN110647632B (zh) | 2019-08-06 | 2019-08-06 | 基于机器学习的图像与文本映射技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910722448.7A CN110647632B (zh) | 2019-08-06 | 2019-08-06 | 基于机器学习的图像与文本映射技术 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110647632A true CN110647632A (zh) | 2020-01-03 |
CN110647632B CN110647632B (zh) | 2020-09-04 |
Family
ID=68990007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910722448.7A Active CN110647632B (zh) | 2019-08-06 | 2019-08-06 | 基于机器学习的图像与文本映射技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110647632B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339338A (zh) * | 2020-02-29 | 2020-06-26 | 西安理工大学 | 基于深度学习的文本图片匹配推荐方法 |
CN111626058A (zh) * | 2020-04-15 | 2020-09-04 | 井冈山大学 | 基于cr2神经网络的图像-文本双编码实现方法及系统 |
CN112966774A (zh) * | 2021-03-24 | 2021-06-15 | 黑龙江机智通智能科技有限公司 | 一种基于图片Bert的组织病理图片分类方法 |
CN113536006A (zh) * | 2021-06-25 | 2021-10-22 | 北京百度网讯科技有限公司 | 生成图片的方法、装置、设备、存储介质和计算机产品 |
US20220358779A1 (en) * | 2021-02-18 | 2022-11-10 | Xero Limited | Systems and Methods for Generating Document Numerical Representations |
GB2609741A (en) * | 2021-06-30 | 2023-02-15 | Nvidia Corp | Pretraining framework for neural networks |
US12033415B2 (en) | 2021-02-18 | 2024-07-09 | Xero Limited | Systems and methods for generating document numerical representations |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853295A (zh) * | 2010-05-28 | 2010-10-06 | 天津大学 | 一种图像检索方法 |
CN105760507A (zh) * | 2016-02-23 | 2016-07-13 | 复旦大学 | 基于深度学习的跨模态主题相关性建模方法 |
CN105912611A (zh) * | 2016-04-05 | 2016-08-31 | 中国科学技术大学 | 一种基于cnn的快速图像检索方法 |
CN106202413A (zh) * | 2016-07-11 | 2016-12-07 | 北京大学深圳研究生院 | 一种跨媒体检索方法 |
CN107291855A (zh) * | 2017-06-09 | 2017-10-24 | 中国电子科技集团公司第五十四研究所 | 一种基于显著对象的图像检索方法及系统 |
US9836671B2 (en) * | 2015-08-28 | 2017-12-05 | Microsoft Technology Licensing, Llc | Discovery of semantic similarities between images and text |
CN109992782A (zh) * | 2019-04-02 | 2019-07-09 | 深圳市华云中盛科技有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
-
2019
- 2019-08-06 CN CN201910722448.7A patent/CN110647632B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853295A (zh) * | 2010-05-28 | 2010-10-06 | 天津大学 | 一种图像检索方法 |
US9836671B2 (en) * | 2015-08-28 | 2017-12-05 | Microsoft Technology Licensing, Llc | Discovery of semantic similarities between images and text |
CN105760507A (zh) * | 2016-02-23 | 2016-07-13 | 复旦大学 | 基于深度学习的跨模态主题相关性建模方法 |
CN105912611A (zh) * | 2016-04-05 | 2016-08-31 | 中国科学技术大学 | 一种基于cnn的快速图像检索方法 |
CN106202413A (zh) * | 2016-07-11 | 2016-12-07 | 北京大学深圳研究生院 | 一种跨媒体检索方法 |
CN107291855A (zh) * | 2017-06-09 | 2017-10-24 | 中国电子科技集团公司第五十四研究所 | 一种基于显著对象的图像检索方法及系统 |
CN109992782A (zh) * | 2019-04-02 | 2019-07-09 | 深圳市华云中盛科技有限公司 | 法律文书命名实体识别方法、装置及计算机设备 |
Non-Patent Citations (2)
Title |
---|
温浩宇,李慧: "《Web网站设计与开发教程(HTML5、JSP版)》", 30 April 2018, 西安电子科技大学出版社 * |
缪永伟等: "基于手绘轮廓图的移动端图像检索", 《计算机辅助设计与图形学学报》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339338A (zh) * | 2020-02-29 | 2020-06-26 | 西安理工大学 | 基于深度学习的文本图片匹配推荐方法 |
CN111339338B (zh) * | 2020-02-29 | 2023-03-07 | 西安理工大学 | 基于深度学习的文本图片匹配推荐方法 |
CN111626058A (zh) * | 2020-04-15 | 2020-09-04 | 井冈山大学 | 基于cr2神经网络的图像-文本双编码实现方法及系统 |
CN111626058B (zh) * | 2020-04-15 | 2023-05-30 | 井冈山大学 | 基于cr2神经网络的图像-文本双编码实现方法及系统 |
US20220358779A1 (en) * | 2021-02-18 | 2022-11-10 | Xero Limited | Systems and Methods for Generating Document Numerical Representations |
US11694463B2 (en) * | 2021-02-18 | 2023-07-04 | Xero Limited | Systems and methods for generating document numerical representations |
US12033415B2 (en) | 2021-02-18 | 2024-07-09 | Xero Limited | Systems and methods for generating document numerical representations |
CN112966774A (zh) * | 2021-03-24 | 2021-06-15 | 黑龙江机智通智能科技有限公司 | 一种基于图片Bert的组织病理图片分类方法 |
CN112966774B (zh) * | 2021-03-24 | 2024-05-31 | 黑龙江机智通智能科技有限公司 | 一种基于图片Bert的组织病理图片分类方法 |
CN113536006A (zh) * | 2021-06-25 | 2021-10-22 | 北京百度网讯科技有限公司 | 生成图片的方法、装置、设备、存储介质和计算机产品 |
GB2609741A (en) * | 2021-06-30 | 2023-02-15 | Nvidia Corp | Pretraining framework for neural networks |
Also Published As
Publication number | Publication date |
---|---|
CN110647632B (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110647632B (zh) | 基于机器学习的图像与文本映射技术 | |
CN111858954B (zh) | 面向任务的文本生成图像网络模型 | |
CN110781683A (zh) | 一种实体关系联合抽取方法 | |
Han et al. | Fine-grained cross-modal alignment network for text-video retrieval | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN108985298B (zh) | 一种基于语义一致性的人体衣物分割方法 | |
CN116127095A (zh) | 一种序列模型与知识图谱结合的问答方法 | |
CN110928961A (zh) | 一种多模态实体链接方法、设备及计算机可读存储介质 | |
CN112765991A (zh) | 一种基于知识增强的深度对话语义角色标注方法及系统 | |
CN113946684A (zh) | 电力基建知识图谱构建方法 | |
CN113961736A (zh) | 文本生成图像的方法、装置、计算机设备和存储介质 | |
CN116776872A (zh) | 医疗数据结构化归档系统 | |
CN117874262B (zh) | 一种基于渐进原型匹配的文本-动态图片跨模态检索方法 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN113449066B (zh) | 利用知识图谱来存储文物数据的方法、处理器及存储介质 | |
CN113239184B (zh) | 知识库获取方法、装置、计算机设备及存储介质 | |
CN113886600A (zh) | 一种面向临床检验医学的知识图谱系统 | |
CN112598039A (zh) | 获取nlp分类领域阳性样本方法及相关设备 | |
CN117370498A (zh) | 一种3d开放词汇检测与密集字幕生成统一的建模方法 | |
CN116523041A (zh) | 装备领域知识图谱构建方法、检索方法、系统及电子设备 | |
CN116956869A (zh) | 文本标准化方法、装置、电子设备及存储介质 | |
Ronghui et al. | Application of Improved Convolutional Neural Network in Text Classification. | |
CN115344735A (zh) | 一种层次化对齐的图像文本检索方法 | |
Das et al. | Incorporating domain knowledge to improve topic segmentation of long MOOC lecture videos | |
CN117290510B (zh) | 文档信息抽取方法、模型、电子设备及可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |