CN116204674A - 一种基于视觉概念词关联结构化建模的图像描述方法 - Google Patents
一种基于视觉概念词关联结构化建模的图像描述方法 Download PDFInfo
- Publication number
- CN116204674A CN116204674A CN202310475627.1A CN202310475627A CN116204674A CN 116204674 A CN116204674 A CN 116204674A CN 202310475627 A CN202310475627 A CN 202310475627A CN 116204674 A CN116204674 A CN 116204674A
- Authority
- CN
- China
- Prior art keywords
- visual
- word
- concept
- semantic
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 155
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 30
- 230000008569 process Effects 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 7
- 230000003213 activating effect Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 238000005096 rolling process Methods 0.000 claims description 5
- 101100379079 Emericella variicolor andA gene Proteins 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 abstract description 12
- 238000000605 extraction Methods 0.000 abstract description 6
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 101100001674 Emericella variicolor andI gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机视觉和自然语言处理领域。本发明提出了一种基于视觉概念词关联结构化建模的图像描述方法,通过图像描述模型对输入的图像,生成所述图像的描述语句。图像描述模型的训练过程包括:将训练数据输入视觉特征提取和编码模块,得到视觉特征;将视觉特征输入视觉概念预测模块,得到对应的视觉概念词,将视觉概念词输入视觉概念关联结构化建模模块,得到结构化视觉语义概念词特征;将视觉特征和结构化视觉语义概念词特征输入描述生成模块,得到描述语句。基于总体损失函数训练模型。本发明提供的方法对单词在文本模态中的语言学先验的提取做了有效的约束。
Description
技术领域
本发明涉及人工智能领域,具体涉及一种基于视觉概念词关联结构化建模的图像描述方法。
背景技术
随着互联网技术的快速发展和应用,从图像获取信息、以图像传递信息逐渐成为人们日常生活的主流。这些图像为图像描述技术带来了极大的机遇和挑战。图像描述作为现代计算机跨模态领域的一个代表性任务,贯通了计算机视觉与自然语言处理两个领域的技术,旨在让计算机识别、分析和理解给定图像的内容,并准确生成流畅自然的描述性语句,辅助信息传递。图像描述技术在教育、辅助医疗、人机交互等方面具有广阔的实际应用价值和前景。
传统方法通常将预训练的视觉特征提取器作为编码器来挖掘图像中的视觉信息,再联合部分已生成的文本信息,送入Transformer解码器中预测文本描述。这种方式通常存在两方面缺陷:一方面,视觉特征提取器的感知能力受到预定义的类标签的严重限制,使得解码器过度依赖语言先验,有时生成的单词根本不切合图像;另一方面,图像和文本之间存在巨大的语义鸿沟,难以建立它们之间的跨模态语义一致性。
为此,一些技术提出利用视觉概念作为中介以缓解上述缺陷。视觉概念可以定义为语义与视觉内容高度相关的文本单词,同时也是构成对应文本描述的主要关键词,例如涉及的主体、主体间关系、主体的属性等,其丰富而准确的语义信息可以为建立视觉内容到文本描述的对齐映射提供桥梁。
然而,现有的相关技术往往忽略了不同视觉概念词在视觉模态中潜在的语义关联,并不能充分缓解对语言先验的过度依赖。视觉概念词之间的关系并不仅来自于文本模态中单词间天然存在的语言学依赖关系,也来自于视觉模态中不同区域特征间的关联。
这种视觉模态的关联既有助于模型更好地对齐两种模态的语义信息,又可以使模型在遇见未曾见过样本时能够根据实际的视觉内容进行预测,并排除掉语言先验引导的可信度较低的答案,提升模型的鲁棒性。例如,模型从样本中预测出了视觉概念词“喝”和“婴儿”,如果它已经解码出了“婴儿→喝”,那么模型将很容易受语言先验影响没有考虑图像信息直接生成“喝→水”,而不是实际上更贴合视觉内容“喝→牛奶”。
发明内容
为解决上述问题,本发明提供一种基于视觉概念词关联结构化建模的图像描述方法。
该方法包括:
通过图像描述模型对输入的图像,生成描述语句,所述图像描述模型的训练过程,包括以下步骤:
步骤一,准备训练数据集,训练数据集中包括若干图像,以及图像对应的单词标签;
步骤二,图像特征提取和编码:定义训练数据集中的图像为图像I,将图像I进行图像编码,得到初步图像特征,然后将初步图像特征输入若干个Transformer编码器中进一步编码,取最后一个Transformer编码器的输出作为视觉特征;
步骤三,视觉概念预测任务:随机初始化一组语义向量,将视觉特征和语义向量一起送入若干个Transformer解码器,将最后一个Transformer解码器的输出作为视觉语义特征,则预测的视觉概念词,其中,代表多层感知预测网络;
步骤六,联合优化:定义所述图像描述模型的总体损失函数L:
步骤七,根据所述总体损失函数L训练所述图像描述模型。
进一步的,步骤二具体包括:
步骤二A,通过图像描述模型的视觉特征提取器将所述图像I进行图像编码,得到初步特征编码:
进一步的,步骤三具体包括:
步骤三B,将所述视觉特征和所述语义向量一起输入若干个Transformer解码器,通过自注意力机制深度编码,输出语义特征,取最后一个Transformer解码器的输出作为视觉语义特征,Transformer解码器的输出计算如下:
比较所述图像的每个预测的视觉概念词是否属于所述语义词表,如是,将所述预测的视觉概念词加入所述视觉概念词标签,如否,在所述视觉概念词标签中加入特殊字符串,所述特殊字符串不同于所述语义词表中任意一个单词。
进一步的,步骤四具体包括:
步骤四E,根据所述词典初始化所述邻接矩阵A;
进一步的,根据所述词典初始化所述邻接矩阵A,包括:
进一步的,步骤五包括:
本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
在思想上提出显式建模视觉概念词之间的关联信息,重点挖掘视觉模态信息以辅助模型学习建立更鲁棒的跨模态映射;在手段上利用图卷积网络来建立视觉概念词之间结构化的关联信息,基于数据集中单词的互信息对图进行初始化,对单词在文本模态中的语言学先验的提取做了有效的约束。
附图说明
图1为本发明实施例提供的训练流程图。
具体实施方式
以下结合附图和具体实施例,对本发明进行详细说明,在详细说明本发明各实施例的技术方案前,对所涉及的名词和术语进行解释说明,在本说明书中,名称相同或标号相同的部件代表相似或相同的结构,且仅限于示意的目的。
本发明提出了一种基于视觉概念词关联结构化建模的图像描述方法,通过图像描述模型对输入的图像,生成所述图像的描述语句。该图像描述模型包括视觉特征提取和编码模块、视觉概念预测模块、视觉概念关联结构化建模模块、描述生成模块。
视觉特征提取和编码模块用于提取视觉特征;视觉概念预测模块增强视觉信息的贡献,缩小图像与文本之间的语义鸿沟;视觉概念关联结构化建模模块根据词的依赖关系,建立视觉语义概念词的拓扑结构,用以控制生成描述的潜在句法结构,缓解对语言先验的过度依赖;描述生成模块利用视觉特征和结构化视觉语义概念词特征,预测图像的描述性句子,以提升图像描述的表现。再将视觉语义概念词预测任务和图像描述任务共同优化,如此,整个网络能够以端到端的方式进行训练,以更好地适应句子解码过程。
下面具体解释本发明的各个模块。
1.视觉特征提取和编码模块:
通过视觉特征提取器(例如预训练模型CLIP)将所述图像I进行图像编码,得到初步特征编码:
2.视觉概念预测模块
之后,将所述视觉特征和所述语义向量一起输入若干个Transformer解码器,通过自注意力机制深度编码,学习视觉信息与语义词间的潜在关联,输出语义特征。取最后一个所述Transformer解码器的输出作为视觉语义特征,Transformer解码器输出计算如下公式:
取出清洗后的所述训练数据集所有单词中出现频率高于阈值的若干单词组成一张语义词表;比较所述图像的每个所述预测的视觉概念词是否属于所述语义词表,如果所述预测的视觉概念词属于所述语义词表,将所述预测的视觉概念词加入所述视觉概念词标签,如果所述预测的视觉概念词不属于所述语义词表,在所述视觉概念词标签中加入特殊字符串,所述特殊字符串不同于所述语义词表中任意一个单词。
3.视觉概念关联结构化建模模块
从视觉概念预测模块获得概念词后,以往的方法将其直接送入Transformer的语言解码器。然而,因为这些概念是独立处理的,它们的特征是独立学习的,这种方式会使解码器过度依赖语言先验。而视觉概念是源自于图像信息生成的,相当于视觉的高级语义信息,它们之间的进一步建模并没有被考虑。
本发明提出,来自同一图像的视觉概念之间具有很强的关系,于是为这些视觉概念词构造图及相应的邻接矩阵,利用图卷积网络探索概念之间的潜在关系,实现结构化建模,从而可辅助模型像人类一样按更贴合图像真实内容的语言顺序分配所有概念词。
其次,通过所述视觉概念词构造一个图,定义图的节点集合,k为所述视觉概念词的数量,每个节点代表一个所述视觉概念词,每条边代表所述边所连接的两个节点之间的关系。使用邻接矩阵表述所述图,代表节点和的关系,代表节点和有关系或者i与j相等;
再次,建立词典,将所述训练数据集中所有大于阈值的两个词建立一个相关词对,将所述相关词对存入所述词典。将所代表的节点和对应的所述视觉概念词组成词对;在所述词典中查找所述词对,如果能找到,则设,如果找不到,比较i与j是否相等,如果相等,则设,如果不相等,则设。
4.描述生成模块
图像描述模型的上述四个模块依次处理输入的图像,之后定义图像描述模型的总体损失L:
根据总体损失L训练图像描述模型。
之后,用训练好的图像描述模型来处理图像描述任务。
综上所述,本发明在预测视觉概念的基础上,利用图卷积建模其拓扑关联,用以控制生成描述的潜在句法结构,以提升图像描述的表现。
以上所述实施方式仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。
Claims (8)
1.一种基于视觉概念词关联结构化建模的图像描述方法,其特征在于,通过图像描述模型对输入的图像,生成描述语句,所述图像描述模型的训练过程,包括以下步骤:
步骤一,准备训练数据集,训练数据集中包括若干图像,以及图像对应的单词标签;
步骤二,图像特征提取和编码:定义训练数据集中的图像为图像I,将图像I进行图像编码,得到初步图像特征,然后将初步图像特征输入若干个Transformer编码器中进一步编码,取最后一个Transformer编码器的输出作为视觉特征;
步骤三,视觉概念预测任务:随机初始化一组语义向量,将视觉特征和语义向量一起送入若干个Transformer解码器,将最后一个Transformer解码器的输出作为视觉语义特征,则预测的视觉概念词,其中,代表多层感知预测网络;
步骤六,联合优化:定义所述图像描述模型的总体损失函数L:
步骤七,根据所述总体损失函数L训练所述图像描述模型。
2.根据权利要求1所述的基于视觉概念词关联结构化建模的图像描述方法,其特征在于,步骤二具体包括:
步骤二A,通过图像描述模型的视觉特征提取器将所述图像I进行图像编码,得到初步特征编码:
3.根据权利要求1所述的基于视觉概念词关联结构化建模的图像描述方法,其特征在于,步骤三具体包括:
步骤三B,将所述视觉特征和所述语义向量一起输入若干个Transformer解码器,通过自注意力机制深度编码,输出语义特征,取最后一个Transformer解码器的输出作为视觉语义特征,Transformer解码器的输出计算如下:
5.根据权利要求1所述的基于视觉概念词关联结构化建模的图像描述方法,其特征在于,步骤四具体包括:
步骤四E,根据所述词典初始化所述邻接矩阵A;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310475627.1A CN116204674B (zh) | 2023-04-28 | 2023-04-28 | 一种基于视觉概念词关联结构化建模的图像描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310475627.1A CN116204674B (zh) | 2023-04-28 | 2023-04-28 | 一种基于视觉概念词关联结构化建模的图像描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116204674A true CN116204674A (zh) | 2023-06-02 |
CN116204674B CN116204674B (zh) | 2023-07-18 |
Family
ID=86519483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310475627.1A Active CN116204674B (zh) | 2023-04-28 | 2023-04-28 | 一种基于视觉概念词关联结构化建模的图像描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116204674B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117115564A (zh) * | 2023-10-19 | 2023-11-24 | 南方科技大学 | 基于跨模态概念发现与推理的图像分类方法及智能终端 |
CN117612170A (zh) * | 2024-01-23 | 2024-02-27 | 中国科学技术大学 | 一种结合记忆网络和扩散网络的图像到长文本生成方法 |
CN117746441A (zh) * | 2024-02-20 | 2024-03-22 | 浪潮电子信息产业股份有限公司 | 一种视觉语言理解方法、装置、设备及可读存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291212A (zh) * | 2020-01-24 | 2020-06-16 | 复旦大学 | 基于图卷积神经网络的零样本草图图像检索方法和系统 |
WO2021223323A1 (zh) * | 2020-05-06 | 2021-11-11 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
CN113837233A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 基于样本自适应语义引导的自注意力机制的图像描述方法 |
US20220014807A1 (en) * | 2019-03-21 | 2022-01-13 | Samsung Electronics Co., Ltd. | Method, apparatus, device and medium for generating captioning information of multimedia data |
US20220138185A1 (en) * | 2020-11-03 | 2022-05-05 | Adobe Inc. | Scene graph modification based on natural language commands |
CN114677580A (zh) * | 2022-05-27 | 2022-06-28 | 中国科学技术大学 | 一种基于自适应增强自注意力网络的图像描述方法 |
CN114792388A (zh) * | 2021-01-25 | 2022-07-26 | 北京三星通信技术研究有限公司 | 图像描述文字生成方法、装置及计算机可读存储介质 |
US20220246244A1 (en) * | 2019-06-07 | 2022-08-04 | Leica Microsystems Cms Gmbh | A system and method for training machine-learning algorithms for processing biology-related data, a microscope and a trained machine learning algorithm |
WO2022187063A1 (en) * | 2021-03-05 | 2022-09-09 | Microsoft Technology Licensing, Llc | Cross-modal processing for vision and language |
CN115982629A (zh) * | 2023-02-10 | 2023-04-18 | 厦门大学 | 一种基于语义引导的特征选择的图像描述方法 |
-
2023
- 2023-04-28 CN CN202310475627.1A patent/CN116204674B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220014807A1 (en) * | 2019-03-21 | 2022-01-13 | Samsung Electronics Co., Ltd. | Method, apparatus, device and medium for generating captioning information of multimedia data |
US20220246244A1 (en) * | 2019-06-07 | 2022-08-04 | Leica Microsystems Cms Gmbh | A system and method for training machine-learning algorithms for processing biology-related data, a microscope and a trained machine learning algorithm |
CN111291212A (zh) * | 2020-01-24 | 2020-06-16 | 复旦大学 | 基于图卷积神经网络的零样本草图图像检索方法和系统 |
WO2021223323A1 (zh) * | 2020-05-06 | 2021-11-11 | 首都师范大学 | 一种中文视觉词汇表构建的图像内容自动描述方法 |
US20220138185A1 (en) * | 2020-11-03 | 2022-05-05 | Adobe Inc. | Scene graph modification based on natural language commands |
CN114792388A (zh) * | 2021-01-25 | 2022-07-26 | 北京三星通信技术研究有限公司 | 图像描述文字生成方法、装置及计算机可读存储介质 |
WO2022187063A1 (en) * | 2021-03-05 | 2022-09-09 | Microsoft Technology Licensing, Llc | Cross-modal processing for vision and language |
CN113837233A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 基于样本自适应语义引导的自注意力机制的图像描述方法 |
CN114677580A (zh) * | 2022-05-27 | 2022-06-28 | 中国科学技术大学 | 一种基于自适应增强自注意力网络的图像描述方法 |
CN115982629A (zh) * | 2023-02-10 | 2023-04-18 | 厦门大学 | 一种基于语义引导的特征选择的图像描述方法 |
Non-Patent Citations (3)
Title |
---|
JUNKANG ZHANG等: "Two-Step Registration on Multi-Modal Retinal Images via Deep Neural Networks", IEEE * |
徐菲菲;冯东升;: "文本词向量与预训练语言模型研究", 上海电力大学学报, no. 04 * |
邓旭冉;闵少波;徐静远;李攀登;谢洪涛;张勇东;: "深度细粒度图像识别研究综述", 南京信息工程大学学报(自然科学版), no. 06 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117115564A (zh) * | 2023-10-19 | 2023-11-24 | 南方科技大学 | 基于跨模态概念发现与推理的图像分类方法及智能终端 |
CN117115564B (zh) * | 2023-10-19 | 2024-03-26 | 南方科技大学 | 基于跨模态概念发现与推理的图像分类方法及智能终端 |
CN117612170A (zh) * | 2024-01-23 | 2024-02-27 | 中国科学技术大学 | 一种结合记忆网络和扩散网络的图像到长文本生成方法 |
CN117746441A (zh) * | 2024-02-20 | 2024-03-22 | 浪潮电子信息产业股份有限公司 | 一种视觉语言理解方法、装置、设备及可读存储介质 |
CN117746441B (zh) * | 2024-02-20 | 2024-05-10 | 浪潮电子信息产业股份有限公司 | 一种视觉语言理解方法、装置、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116204674B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111858944B (zh) | 一种基于注意力机制的实体方面级情感分析方法 | |
Zhu et al. | Knowledge-based question answering by tree-to-sequence learning | |
CN116204674B (zh) | 一种基于视觉概念词关联结构化建模的图像描述方法 | |
CN114064918B (zh) | 一种多模态事件知识图谱构建方法 | |
CN108829722A (zh) | 一种远程监督的Dual-Attention关系分类方法及系统 | |
Zhang et al. | A multi-feature fusion model for Chinese relation extraction with entity sense | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN117574904A (zh) | 基于对比学习和多模态语义交互的命名实体识别方法 | |
CN116628186B (zh) | 文本摘要生成方法及系统 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
CN114168754A (zh) | 一种基于句法依赖和融合信息的关系抽取方法 | |
CN114417823B (zh) | 一种基于句法和图卷积网络的方面级情感分析方法及装置 | |
CN116050352A (zh) | 文本编码方法和装置、计算机设备及存储介质 | |
CN112349294A (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN116595023A (zh) | 地址信息的更新方法和装置、电子设备及存储介质 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
CN114880427A (zh) | 基于多层级注意力机制的模型、事件论元抽取方法及系统 | |
Zhang et al. | Description-enhanced label embedding contrastive learning for text classification | |
CN117235261A (zh) | 一种多模态方面级情感分析方法、装置、设备及存储介质 | |
CN117251522A (zh) | 一种基于潜层关系增强的实体和关系联合抽取模型的方法 | |
CN116414988A (zh) | 基于依赖关系增强的图卷积方面级情感分类方法及系统 | |
CN116522165A (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN116629361A (zh) | 基于本体学习和注意力机制的知识推理方法 | |
Ji et al. | LSTM based semi-supervised attention framework for sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |