CN115238115A - 基于中文数据的图像检索方法、装置、设备及存储介质 - Google Patents
基于中文数据的图像检索方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115238115A CN115238115A CN202210897638.4A CN202210897638A CN115238115A CN 115238115 A CN115238115 A CN 115238115A CN 202210897638 A CN202210897638 A CN 202210897638A CN 115238115 A CN115238115 A CN 115238115A
- Authority
- CN
- China
- Prior art keywords
- data
- chinese
- text
- english
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 107
- 239000013598 vector Substances 0.000 claims abstract description 76
- 230000006870 function Effects 0.000 claims description 45
- 238000013519 translation Methods 0.000 claims description 33
- 238000013140 knowledge distillation Methods 0.000 claims description 31
- 238000004821 distillation Methods 0.000 claims description 21
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 238000004891 communication Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000007726 management method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能技术,揭露了一种基于中文数据的图像检索方法,包括:将英文文本数据翻译成中文文本数据;对英文文本数据向量集进行训练,得到英文文本训练数据集;对英文文本训练数据集和中文文本数据进行蒸馏,得到第一概率值和第二概率值;计算第一概率值和第二概率值的损失值;优化文本编码器模型,得到中文文本编码器;对中文文本编码器进行模型推理;将待分析中文数据输入至中文文本图像预训练模型中,得到待分析中文数据对应的图像。此外,本发明还涉及区块链技术,英文文本数据可存储于区块链的节点。本发明还提出一种基于中文数据的图像检索装置、电子设备以及存储介质。本发明可以提高基于中文数据图像识别的效率。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于中文数据的图像检索方法、装置、电子设备及计算机可读存储介质。
背景技术
随着图像识别技术的发展,越来越多的图像识别技术应运而生,具有图像识别的CLIP模型不断拓展到检测、图文检索、图像的有条件生成,在许多领域上实现了神奇的效果,但为了提高图像识别的效率,需要收集英文和中文数据以进行图像识别。
现有的CLIP模型是基于英文数据进行预训练,是用于匹配图像和文本的预训练神经网络模型,通过对图像和文本进行编码,计算图像编码和文本编码的相似度进行图像和文本的匹配。实际应用中,想通过中文利用CLIP模型,就需要从头开始训练,耗费巨大,从而使根据中文数据进行图像识别时效率较低。
发明内容
本发明提供一种基于中文数据的图像检索方法、装置及计算机可读存储介质,其主要目的在于解决根据中文数据进行图像识别时效率较低的问题。
为实现上述目的,本发明提供的一种基于中文数据的图像检索方法,包括:
获取训练数据的英文文本数据,以及利用预设的机器翻译算法将所述英文文本数据翻译成中文文本数据;
将所述英文文本数据输入至预设的文本编码器模型进行编码,得到英文文本数据向量集,以及利用预设的文本图像预训练模型对所述英文文本数据向量集进行训练,得到英文文本训练数据集;
将所述英文文本训练数据集输入至预设的教师模型进行知识蒸馏,得到第一概率值,以及将所述中文文本数据输入至预设的学生模型进行知识蒸馏,得到第二概率值;
利用预设的损失函数计算所述第一概率值和第二概率值的平均绝对误差损失值,以及根据所述平均绝对误差损失值优化所述文本编码器模型,得到中文文本编码器;
根据所述中文文本编码器和预设的图像编码器进行模型推理,得到中文文本图像预训练模型;
获取待分析中文数据,将所述待分析中文数据输入至所述中文文本图像预训练模型中,得到所述待分析中文数据对应的图像。
可选地,所述利用预设的机器翻译算法将所述英文文本数据翻译成中文文本数据,包括:
将所述英文文本数据进行句式结构切分,得到切分语句;
提取每个所述切分语句的语义特征;
利用所述机器翻译算法根据所述语义特征对切分语句进行中文翻译,得到切分语句中文数据;
按照每个所述切分语句在所述英文文本数据内的先后顺序将所述切分语句中文数据合成为中文文本数据。
可选地,所述将所述英文文本数据输入至预设的文本编码器模型进行编码,得到英文文本数据向量集,包括:
将所述英文文本数据的每个切分语句转换成统一固定长度,得到标准语句;
利用预设的标记化方式将所述标准语句进行词语切分,得到切分文本数据,以及汇集所述切分文本数据为切分语句序列;
将所述切分语句序列输入至预设的文本编码器进行编码,得到词汇编码、语句编码和语句位置编码;
将所述词汇编码、所述语句编码和所述语句位置编码相加得到英文文本数据向量;
汇集所述英文文本数据向量为英文文本数据向量集。
可选地,所述将所述英文文本训练数据集输入至预设的教师模型进行知识蒸馏,得到第一概率值,包括:
利用预设的序列对抗网络模型将所述英文文本训练数据集转换为无标签英文数据;
将所述无标签英文数据输入至所述教师模型进行训练,得到无标签英文训练数据;
设置所述知识蒸馏的蒸馏温度,以及根据所述蒸馏温度对所述无标签英文训练数据进行知识蒸馏,得到软标签英文数据;
根据预设的分类函数和所述蒸馏温度计算所述软标签英文数据的概率,得到第一概率值。
可选地,所述根据预设的分类函数和所述蒸馏温度计算所述软标签英文数据的概率,得到第一概率值,包括:
利用如下算法根据预设的分类函数和所述蒸馏温度计算所述软标签英文数据的概率,得到第一概率值:
其中,pi所述软标签数据中第i类标签的概率,exp为指数函数,t为所述蒸馏温度参数,zi为所述软标签英文数据中第i个向量元素,zj为所述软标签英文数据中第j个向量元素,n为所述软标签英文数据中的向量个数。
可选地,所述利用预设的损失函数计算所述第一概率值和第二概率值的平均绝对误差损失值,包括:
利用如下算法利用预设的损失函数计算所述第一概率值和第二概率值的平均绝对误差损失值:
loss=||X-Y||2
其中,loss为所述平均绝对误差损失值,X为所述第一概率值,Y为所述第二概率值。
可选地,,所述根据所述中文文本编码器和预设的图像编码器进行模型推理,得到中文文本图像预训练模型,包括:
获取图像数据,以及将所述图像数据输入至所述图像编码器进行编码,得到图像特征向量;
将所述中文文本数据输入至所述中文文本编码器进行编码,得到中文文本特征向量;
计算所述图像特征向量和所述中文文本特征向量的相似度;
确定相似度最高的特征向量为所述中文文本数据对应的图像;
根据所述图像和所述中文文本数据确定中文文本图像预训练模型。
为了解决上述问题,本发明还提供一种基于中文数据的图像检索装置,所述装置包括:
中文文本数据翻译模块,用于获取训练数据的英文文本数据,以及利用预设的机器翻译算法将所述英文文本数据翻译成中文文本数据;
英文文本数据编码模块,用于将所述英文文本数据输入至预设的文本编码器模型进行编码,得到英文文本数据向量集,以及利用预设的文本图像预训练模型对所述英文文本数据向量集进行训练,得到英文文本训练数据集;
概率值获取模块,用于将所述英文文本训练数据集输入至预设的教师模型进行知识蒸馏,得到第一概率值,以及将所述中文文本数据输入至预设的学生模型进行知识蒸馏,得到第二概率值;
文本编码器模型优化模块,用于利用预设的损失函数计算所述第一概率值和第二概率值的平均绝对误差损失值,以及根据所述平均绝对误差损失值优化所述文本编码器模型,得到中文文本编码器;
预训练模型推理模块,用于根据所述中文文本编码器和预设的图像编码器进行模型推理,得到中文文本图像预训练模型;
图像检索模块,用于获取待分析中文数据,将所述待分析中文数据输入至所述中文文本图像预训练模型中,得到所述待分析中文数据对应的图像。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的基于中文数据的图像检索方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于中文数据的图像检索方法。
本发明实施例能够通过机器翻译模型,将英文文本数据翻译成中文文本数据,对所述英文文本数据通过CLI模型进行训练,将训练好的英文文本数据作为教师模型的训练数据,将中文文本数据作为学生模型的训练数据,基于知识蒸馏在中英文翻译数据上,采用平均绝对误差损失对模型进行优化,实现了中文CLIP的训练。因此本发明提出的基于中文数据的图像检索方法,可以解决根据中文数据进行图像识别时效率较低的问题。
附图说明
图1为本发明一实施例提供的基于中文数据的图像检索方法的流程示意图;
图2为本发明一实施例提供的编码英文文本数据的流程示意图;
图3为本发明一实施例提供的计算第一概率值的流程示意图;
图4为本发明一实施例提供的基于中文数据的图像检索装置的功能模块图;
图5为本发明一实施例提供的实现所述基于中文数据的图像检索方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种基于中文数据的图像检索方法。所述基于中文数据的图像检索方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述基于中文数据的图像检索方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的基于中文数据的图像检索方法的流程示意图。在本实施例中,所述基于中文数据的图像检索方法包括:
S1、获取训练数据的英文文本数据,以及利用预设的机器翻译算法将所述英文文本数据翻译成中文文本数据;
本发明实施例中,所述英文文本数据是根据OpenAI(人工智能公司)花费大量精力收集的四亿对图文数据中的英文文本数据。
详细地,可利用具有数据抓取功能的计算机语句(如java语句、python语句等)从预先确定的存储区域抓取存储的英文文本数据,所述存储区域包括但不限于数据库、区块链节点、网络缓存。
本发明实施例中,所述利用预设的机器翻译算法将所述英文文本数据翻译成中文文本数据,包括:将所述英文文本数据进行句式结构切分,得到切分语句;提取每个所述切分语句的语义特征;利用所述机器翻译算法根据所述语义特征对切分语句进行中文翻译,得到切分语句中文数据;按照每个所述切分语句在所述英文文本数据内的先后顺序将所述切分语句中文数据合成为中文文本数据。
详细地,所述机器翻译算法又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言的过程),所述机器翻译过程分为原文翻译、原文译文转换和译文生成三个阶段,机器系统分为基于规则和基于语料库两大类。例如,中文转换成英文,英文转换成中文等。
具体地,在英语语句中以逗号结尾的语句串占大部分,因此采用逗号作为语句切分特征,例如,分别以CSP和CSC作为句号和逗号表示语串,则语句表示为:CSP=CSC,CSC,…,CSC,对该CSC逗号后的语句部分进行切割,并加入切割标记“++”,即CSP=CSC,++CSC,…,CSC。
进一步地,可利用具有语句语义特征提取功能的词袋模型提取所述切分语句的语义特征,其中,所述词袋模型是将英语文本中的单词用袋子装着的方式表现,以此来表达语句语义特征,例如,有两句英语句子①John likes to watch movies,Mary likes too.②John also likes to watch football ganes.以上两句可以构造一个词典A,A-{"John"1,"likes"2,"to"3,"watch"4,"movies"5,"also"6,"football"7,"games"8,"Mary"9,"too"10},那么第一个例句的向量表示为:[1,2,1,1,1,0,0,0,1,1],其中的数字表示当前索引位的词在该句子中出现的次数,向量中的2表示单"likes"在该句子中出现了2次,因此,文本中句子的特征可以直接将各个词的特征表示求和,以及所述语义特征是可以是英语句子中的动词、连词、语法、时态等。
示例性地,将小句翻译合成模板,在翻译过程中对从句形式进行转换,按照语句原意以核心小句为主干进行语句顺序调整,当句子存在时序并行关系时,采用“v+ing”表示进行时,采用“v+ed”表示过去时或被动语态,采用“to+v”形式表示目的关系。如在句子“thepower converter supplies power to the inverter++to generate the operatingvoltage for the display part”,英语中采用两个小句表达,翻译成“功率转换器将功率提供给逆变器,产生用于显示部分的工作电压”。
S2、将所述英文文本数据输入至预设的文本编码器模型进行编码,得到英文文本数据向量集,以及利用预设的文本图像预训练模型对所述英文文本数据向量集进行训练,得到英文文本训练数据集;
本发明实施例中,所述文本编码器模型是基于bert(预训练语言表征模型)结构,实现了文本到动态字向量的转化,增强了文本向量的语义信息,其中,bert模型是真正意义是上的双向语言模型,每个词可以同时利用该词的上下文信息。
本发明实施例中,参图2所示,所述将所述英文文本数据输入至预设的文本编码器模型进行编码,得到英文文本数据向量集,包括:
S21、将所述英文文本数据的每个切分语句转换成统一固定长度,得到标准语句;
S22、利用预设的标记化方式将所述标准语句进行词语切分,得到切分文本数据,以及汇集所述切分文本数据为切分语句序列;
S23、将所述切分语句序列输入至预设的文本编码器进行编码,得到词汇编码、语句编码和语句位置编码;
S24、将所述词汇编码、所述语句编码和所述语句位置编码相加得到英文文本数据向量;
S25、汇集所述英文文本数据向量为英文文本数据向量集。
详细地,所述英文文本数据的每个切分语句转换成统一固定长度可以用0填充得到标准英文文本数据,如{I,love,eat,apples},{I,love,Qtrade,0},以及所述标记化方式是NPL(自然语言技术)中的Tokenization,将原始文本切分成子单元的过程就叫做Tokenization。
具体地,在bert(预训练语言表征模型)中包含Token Embedding(词汇嵌入)层、Segment Embeddings(语句嵌入)层和Position Embeddings(位置嵌入)层,其中TokenEmbedding层可以实现词汇编码,Segment Embeddings层可以实现语句编码,PositionEmbeddings层可以实现语句位置编码。
示例性地,当所述词汇编码是{1,0,1,1},所述语句编码{1,2,0,1}所述位置编码是{0,1,1,0},则所述英文文本数据向量编码是{2,3,2,2},汇集所述英文文本数据向量编码得到英文文本数据向量集。
本发明实施例中,所述文本图像预训练模型是指CLIP模型,所述CLIP模型不断拓展到检测、图文检索、图像的有条件生成,而且在很多领域实现了神奇的zero-shot效果,CLIP预训练是CLIP模型是在大规模图文对的跨模态对比学习模型,是基于英文数据训练,CLIP有一个用于文本编码的text encoder和一个用于图像编码的image encoder,两个encoder都基于transformer。
本发明实施例中,所述利用预设的文本图像预训练模型对所述英文文本数据向量集进行训练,得到英文文本训练数据集是将所述英文文本数据向量集与预设的图像所对应的图像向量进行矩阵相乘,得到两个向量之间的相似度,从而对所述英文文本数据向量集训练完成,得到英文文本训练数据集。
S3、将所述英文文本训练数据集输入至预设的教师模型进行知识蒸馏,得到第一概率值,以及将所述中文文本数据输入至预设的学生模型进行知识蒸馏,得到第二概率值;
本发明实施例中,所述知识蒸馏(Knowledge Distillation)是一种模型压缩方法,是一种基于“教师-学生网络思想”的训练方法,将已经训练好的模型包含的知识,蒸馏提取到另一个模型里面,而教师模型只是在训练的过程中用到,并且同一个教师模型可以用于蒸馏多个学生模型。
本发明实施例中,参图3所示,所述将所述英文文本训练数据集输入至预设的教师模型进行知识蒸馏,得到第一概率值,包括:
S31、利用预设的序列对抗网络模型将所述英文文本训练数据集转换为无标签英文数据;
S32、将所述无标签英文数据输入至所述教师模型进行训练,得到无标签英文训练数据;
S33、设置所述知识蒸馏的蒸馏温度,以及根据所述蒸馏温度对所述无标签英文训练数据进行知识蒸馏,得到软标签英文数据;
S34、根据预设的分类函数和所述蒸馏温度计算所述软标签英文数据的概率,得到第一概率值。
详细地,所述序列对抗网络模型(seqGAN模型)是由一个生成网络和一个判别网络组成,其中,生成网络模仿真实数据生成相似的样本分布以欺骗判别网络,判别网络在迭代中不断更新以区分生成样本和真实数据。生成网络和判别网络相互博弈,直至达到数据标签均衡。
具体地,所述蒸馏温度与标签的概率分布有关系,当T(温度)为1是原始分类函数(softmax)的特例,温度小于1,概率分布比原始的更陡峭,温度大于1时,概率分布比原始更平缓,因此,温度越高,分类函数上各个值的概率分布就越平均。
详细地,所述根据预设的分类函数和所述蒸馏温度计算所述软标签英文数据的概率,得到第一概率值,包括:
利用如下算法根据预设的分类函数和所述蒸馏温度计算所述软标签英文数据的概率,得到第一概率值:
其中,pi所述软标签数据中第i类标签的概率,exp为指数函数,t为所述蒸馏温度参数,zi为所述软标签英文数据中第i个向量元素,zj为所述软标签英文数据中第j个向量元素,n为所述软标签英文数据中的向量个数。
具体地,所述分类函数是softmax函数,利用softmax函数计算教师模型的软标签概率分布,假设所述教师模型的软标签向量为[2.0,1.0,0.1],通过softmax函数将一个[2.0,1.0,0.1]的向量转化为[0.7,0.2,0.1],而且各项之和为1。
本发明其中一个实际应用场景中,在手写体识别任务中,一个模糊的“3”图片,由于形状的相似性,它有一定的概率属于“2”或“5”类别。因此,在蒸馏过程中,训练完成的教师模型在预测时将softMax(输出层)的标签概率分布信息提供给学生模型作为指导,其中,所述软标签英文数据的概率分布包含了类别间的信息,这种软标签中包含的特征是原始无标签英文训练数据中没有的,因此,通过将软标签信息传递给学生模型,可以提高学生模型的学习能力。
本发明实施例中,所述将所述中文文本数据输入至预设的学生模型进行知识蒸馏,得到第二概率值与将所述英文文本训练数据集输入至预设的教师模型进行知识蒸馏,得到第一概率值步骤一致,在此不再赘述。
S4、利用预设的损失函数计算所述第一概率值和第二概率值的平均绝对误差损失值,以及根据所述平均绝对误差损失值优化所述文本编码器模型,得到中文文本编码器;
本发明实施例中,所述第一概率值可以是所述英文文本训练数据集在教师模型中输出的软标签概率,所述第二概率值可以是所述中文文本数据在学生模型中输出的硬标签概率,其中硬标签概率是将所述中文文本数据进行标签分类,根据分类标签在学生模型中经过蒸馏输出的标签。
本发明实施例中,所述利用预设的损失函数计算所述第一概率值和第二概率值的平均绝对误差损失值,包括:
利用如下算法利用预设的损失函数计算所述第一概率值和第二概率值的平均绝对误差损失值:
loss=||X-Y||2
其中,loss为所述平均绝对误差损失值,X为所述第一概率值,Y为所述第二概率值。
本发明实施例中,所述根据所述平均绝对误差损失值优化所述文本编码器模型,得到中文文本编码器,包括:利用预设的梯度下降法计算所述平均绝对误差损失值的损失最优值;当所述损失最优值小于预设的损失阈值时,确定所述文本编码器模型为中文文本编码器。
详细地,所述梯度下降法是找到一个曲线函数下降最快的梯度,每次优化都会沿着最快下降的梯度方向进行,利用所述梯度下降法找到使损失函数的损失值最小的参数,利用所述参数对所述文本编码器进行优化,得到中文文本编码器,其中,所述参数包括嵌入层的参数、Transformer层(多头注意力机制)的参数以及softmax(分类层)的参数。
S5、根据所述中文文本编码器和预设的图像编码器进行模型推理,得到中文文本图像预训练模型。
本发明实施例中,所述模型推理是简化并使用该模型能力,使其能快速、高效地对未知的数据进行操作,以获得预期的结果。
本发明实施例中,所述根据所述中文文本编码器和预设的图像编码器进行模型推理,得到中文文本图像预训练模型,包括:获取图像数据,以及将所述图像数据输入至所述图像编码器进行编码,得到图像特征向量;将所述中文文本数据输入至所述中文文本编码器进行编码,得到中文文本特征向量;计算所述图像特征向量和所述中文文本特征向量的相似度;确定相似度最高的特征向量为所述中文文本数据对应的图像;根据所述图像和所述中文文本数据确定中文文本图像预训练模型。
详细地,所述计算所述图像特征向量和所述中文文本特征向量的相似度,包括:
利用如下算法计算所述图像特征向量和所述中文文本特征向量的相似度:
其中,T为所述相似度,xi为所述图像特征的第i个向量元素,yi为所述中文文本特征向量的第i个向量元素。
具体地,所述将所述中文文本数据输入至所述中文文本编码器进行编码,得到中文文本特征向量与将所述英文文本数据输入至预设的文本编码器模型进行编码,得到英文文本数据向量集步骤一致,在此不再赘述。
S6、获取待分析中文数据,将所述待分析中文数据输入至所述中文文本图像预训练模型中,得到所述待分析中文数据对应的图像。
本发明实施例中,所述通过训练的中文CLIP(中文文本图像预训练模型),可以实现中文或者图片内部的检索,还可以实现跨模态检索任务。
本发明实施例能够通过机器翻译模型,将英文文本数据翻译成中文文本数据,对所述英文文本数据通过CLI模型进行训练,将训练好的英文文本数据作为教师模型的训练数据,将中文文本数据作为学生模型的训练数据,基于知识蒸馏在中英文翻译数据上,采用平均绝对误差损失对模型进行优化,实现了中文CLIP的训练。因此本发明提出的基于中文数据的图像检索方法,可以解决根据中文数据进行图像识别时效率较低的问题。
如图4所示,是本发明一实施例提供的基于中文数据的图像检索装置的功能模块图。
本发明所述基于中文数据的图像检索装置100可以安装于电子设备中。根据实现的功能,所述基于中文数据的图像检索装置100可以包括中文文本数据翻译模块101、英文文本数据编码模块102、概率值获取模块103、文本编码器模型优化模块104、预训练模型推理模块105及图像检索模块106。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述中文文本数据翻译模块101,用于获取训练数据的英文文本数据,以及利用预设的机器翻译算法将所述英文文本数据翻译成中文文本数据;
所述英文文本数据编码模块102,用于将所述英文文本数据输入至预设的文本编码器模型进行编码,得到英文文本数据向量集,以及利用预设的文本图像预训练模型对所述英文文本数据向量集进行训练,得到英文文本训练数据集;
所述概率值获取模块103,用于将所述英文文本训练数据集输入至预设的教师模型进行知识蒸馏,得到第一概率值,以及将所述中文文本数据输入至预设的学生模型进行知识蒸馏,得到第二概率值;
所述文本编码器模型优化模块104,用于利用预设的损失函数计算所述第一概率值和第二概率值的平均绝对误差损失值,以及根据所述平均绝对误差损失值优化所述文本编码器模型,得到中文文本编码器;
所述预训练模型推理模块105,用于根据所述中文文本编码器和预设的图像编码器进行模型推理,得到中文文本图像预训练模型;
所述图像检索模块106,用于获取待分析中文数据,将所述待分析中文数据输入至所述中文文本图像预训练模型中,得到所述待分析中文数据对应的图像。
详细地,本发明实施例中所述基于中文数据的图像检索装置100中所述的各模块在使用时采用与上述图1至图3中所述的基于中文数据的图像检索方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图5所示,是本发明一实施例提供的实现基于中文数据的图像检索方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于中文数据的图像检索程序。
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行基于中文数据的图像检索程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如基于中文数据的图像检索程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线12可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
所述通信接口13用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
图中仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图中示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的基于中文数据的图像检索程序是多个指令的组合,在所述处理器10中运行时,可以实现:
获取训练数据的英文文本数据,以及利用预设的机器翻译算法将所述英文文本数据翻译成中文文本数据;
将所述英文文本数据输入至预设的文本编码器模型进行编码,得到英文文本数据向量集,以及利用预设的文本图像预训练模型对所述英文文本数据向量集进行训练,得到英文文本训练数据集;
将所述英文文本训练数据集输入至预设的教师模型进行知识蒸馏,得到第一概率值,以及将所述中文文本数据输入至预设的学生模型进行知识蒸馏,得到第二概率值;
利用预设的损失函数计算所述第一概率值和第二概率值的平均绝对误差损失值,以及根据所述平均绝对误差损失值优化所述文本编码器模型,得到中文文本编码器;
根据所述中文文本编码器和预设的图像编码器进行模型推理,得到中文文本图像预训练模型;
获取待分析中文数据,将所述待分析中文数据输入至所述中文文本图像预训练模型中,得到所述待分析中文数据对应的图像。
具体地,所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取训练数据的英文文本数据,以及利用预设的机器翻译算法将所述英文文本数据翻译成中文文本数据;
将所述英文文本数据输入至预设的文本编码器模型进行编码,得到英文文本数据向量集,以及利用预设的文本图像预训练模型对所述英文文本数据向量集进行训练,得到英文文本训练数据集;
将所述英文文本训练数据集输入至预设的教师模型进行知识蒸馏,得到第一概率值,以及将所述中文文本数据输入至预设的学生模型进行知识蒸馏,得到第二概率值;
利用预设的损失函数计算所述第一概率值和第二概率值的平均绝对误差损失值,以及根据所述平均绝对误差损失值优化所述文本编码器模型,得到中文文本编码器;
根据所述中文文本编码器和预设的图像编码器进行模型推理,得到中文文本图像预训练模型;
获取待分析中文数据,将所述待分析中文数据输入至所述中文文本图像预训练模型中,得到所述待分析中文数据对应的图像。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于中文数据的图像检索方法,其特征在于,所述方法包括:
获取训练数据的英文文本数据,以及利用预设的机器翻译算法将所述英文文本数据翻译成中文文本数据;
将所述英文文本数据输入至预设的文本编码器模型进行编码,得到英文文本数据向量集,以及利用预设的文本图像预训练模型对所述英文文本数据向量集进行训练,得到英文文本训练数据集;
将所述英文文本训练数据集输入至预设的教师模型进行知识蒸馏,得到第一概率值,以及将所述中文文本数据输入至预设的学生模型进行知识蒸馏,得到第二概率值;
利用预设的损失函数计算所述第一概率值和第二概率值的平均绝对误差损失值,以及根据所述平均绝对误差损失值优化所述文本编码器模型,得到中文文本编码器;
根据所述中文文本编码器和预设的图像编码器进行模型推理,得到中文文本图像预训练模型;
获取待分析中文数据,将所述待分析中文数据输入至所述中文文本图像预训练模型中,得到所述待分析中文数据对应的图像。
2.如权利要求1所述的基于中文数据的图像检索方法,其特征在于,所述利用预设的机器翻译算法将所述英文文本数据翻译成中文文本数据,包括:
将所述英文文本数据进行句式结构切分,得到切分语句;
提取每个所述切分语句的语义特征;
利用所述机器翻译算法根据所述语义特征对切分语句进行中文翻译,得到切分语句中文数据;
按照每个所述切分语句在所述英文文本数据内的先后顺序将所述切分语句中文数据合成为中文文本数据。
3.如权利要求1所述的基于中文数据的图像检索方法,其特征在于,所述将所述英文文本数据输入至预设的文本编码器模型进行编码,得到英文文本数据向量集,包括:
将所述英文文本数据的每个切分语句转换成统一固定长度,得到标准语句;
利用预设的标记化方式将所述标准语句进行词语切分,得到切分文本数据,以及汇集所述切分文本数据为切分语句序列;
将所述切分语句序列输入至预设的文本编码器进行编码,得到词汇编码、语句编码和语句位置编码;
将所述词汇编码、所述语句编码和所述语句位置编码相加得到英文文本数据向量;
汇集所述英文文本数据向量为英文文本数据向量集。
4.如权利要求1所述的基于中文数据的图像检索方法,其特征在于,所述将所述英文文本训练数据集输入至预设的教师模型进行知识蒸馏,得到第一概率值,包括:
利用预设的序列对抗网络模型将所述英文文本训练数据集转换为无标签英文数据;
将所述无标签英文数据输入至所述教师模型进行训练,得到无标签英文训练数据;
设置所述知识蒸馏的蒸馏温度,以及根据所述蒸馏温度对所述无标签英文训练数据进行知识蒸馏,得到软标签英文数据;
根据预设的分类函数和所述蒸馏温度计算所述软标签英文数据的概率,得到第一概率值。
6.如权利要求1至5中任一项所述的基于中文数据的图像检索方法,其特征在于,所述利用预设的损失函数计算所述第一概率值和第二概率值的平均绝对误差损失值,包括:
利用如下算法利用预设的损失函数计算所述第一概率值和第二概率值的平均绝对误差损失值:
loss=||X-Y||2
其中,loss为所述平均绝对误差损失值,X为所述第一概率值,Y为所述第二概率值。
7.如权利要求1所述的基于中文数据的图像检索方法,其特征在于,所述根据所述中文文本编码器和预设的图像编码器进行模型推理,得到中文文本图像预训练模型,包括:
获取图像数据,以及将所述图像数据输入至所述图像编码器进行编码,得到图像特征向量;
将所述中文文本数据输入至所述中文文本编码器进行编码,得到中文文本特征向量;
计算所述图像特征向量和所述中文文本特征向量的相似度;
确定相似度最高的特征向量为所述中文文本数据对应的图像;
根据所述图像和所述中文文本数据确定中文文本图像预训练模型。
8.一种基于中文数据的图像检索装置,其特征在于,所述装置包括:
中文文本数据翻译模块,用于获取训练数据的英文文本数据,以及利用预设的机器翻译算法将所述英文文本数据翻译成中文文本数据;
英文文本数据编码模块,用于将所述英文文本数据输入至预设的文本编码器模型进行编码,得到英文文本数据向量集,以及利用预设的文本图像预训练模型对所述英文文本数据向量集进行训练,得到英文文本训练数据集;
概率值获取模块,用于将所述英文文本训练数据集输入至预设的教师模型进行知识蒸馏,得到第一概率值,以及将所述中文文本数据输入至预设的学生模型进行知识蒸馏,得到第二概率值;
文本编码器模型优化模块,用于利用预设的损失函数计算所述第一概率值和第二概率值的平均绝对误差损失值,以及根据所述平均绝对误差损失值优化所述文本编码器模型,得到中文文本编码器;
预训练模型推理模块,用于根据所述中文文本编码器和预设的图像编码器进行模型推理,得到中文文本图像预训练模型;
图像检索模块,用于获取待分析中文数据,将所述待分析中文数据输入至所述中文文本图像预训练模型中,得到所述待分析中文数据对应的图像。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的基于中文数据的图像检索方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于中文数据的图像检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210897638.4A CN115238115A (zh) | 2022-07-28 | 2022-07-28 | 基于中文数据的图像检索方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210897638.4A CN115238115A (zh) | 2022-07-28 | 2022-07-28 | 基于中文数据的图像检索方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115238115A true CN115238115A (zh) | 2022-10-25 |
Family
ID=83677523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210897638.4A Pending CN115238115A (zh) | 2022-07-28 | 2022-07-28 | 基于中文数据的图像检索方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115238115A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117034965A (zh) * | 2023-08-08 | 2023-11-10 | 中国科学院自动化研究所 | 基于视觉语言预训练的图像文本翻译方法及装置 |
CN117079048A (zh) * | 2023-08-29 | 2023-11-17 | 贵州电网有限责任公司 | 基于clip模型的地质灾害图像识别方法及系统 |
-
2022
- 2022-07-28 CN CN202210897638.4A patent/CN115238115A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117034965A (zh) * | 2023-08-08 | 2023-11-10 | 中国科学院自动化研究所 | 基于视觉语言预训练的图像文本翻译方法及装置 |
CN117034965B (zh) * | 2023-08-08 | 2024-03-22 | 中国科学院自动化研究所 | 基于视觉语言预训练的图像文本翻译方法及装置 |
CN117079048A (zh) * | 2023-08-29 | 2023-11-17 | 贵州电网有限责任公司 | 基于clip模型的地质灾害图像识别方法及系统 |
CN117079048B (zh) * | 2023-08-29 | 2024-05-14 | 贵州电网有限责任公司 | 基于clip模型的地质灾害图像识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378970B (zh) | 语句相似性检测方法、装置、电子设备及存储介质 | |
CN115238115A (zh) | 基于中文数据的图像检索方法、装置、设备及存储介质 | |
CN113704429A (zh) | 基于半监督学习的意图识别方法、装置、设备及介质 | |
CN113821622B (zh) | 基于人工智能的答案检索方法、装置、电子设备及介质 | |
CN112100384B (zh) | 一种数据观点抽取方法、装置、设备及存储介质 | |
CN113515938B (zh) | 语言模型训练方法、装置、设备及计算机可读存储介质 | |
CN114580424B (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
CN112016314A (zh) | 一种基于bert模型的医疗文本理解方法及系统 | |
CN113807973A (zh) | 文本纠错方法、装置、电子设备及计算机可读存储介质 | |
CN116450829A (zh) | 医疗文本分类方法、装置、设备及介质 | |
CN115221276A (zh) | 基于clip的中文图文检索模型训练方法、装置、设备及介质 | |
CN115510188A (zh) | 文本关键词关联方法、装置、设备及存储介质 | |
CN114677526A (zh) | 图像分类方法、装置、设备及介质 | |
CN114781384A (zh) | 命名实体智能标注方法、装置、设备及存储介质 | |
CN113204698A (zh) | 新闻主题词生成方法、装置、设备及介质 | |
CN117390213A (zh) | 基于oscar的图文检索模型的训练方法和实现图文检索的方法 | |
CN116341646A (zh) | Bert模型的预训练方法、装置、电子设备及存储介质 | |
CN115169330B (zh) | 中文文本纠错及验证方法、装置、设备及存储介质 | |
CN114757154B (zh) | 基于深度学习的作业生成方法、装置、设备及存储介质 | |
CN114943306A (zh) | 意图分类方法、装置、设备及存储介质 | |
CN114372467A (zh) | 命名实体抽取方法及装置、电子设备、存储介质 | |
CN113806540A (zh) | 文本打标签方法、装置、电子设备及存储介质 | |
CN112749264A (zh) | 基于智能机器人的问题分发方法、装置、电子设备及存储介质 | |
CN117744595B (zh) | 隐喻识别方法、系统及设备和存储介质 | |
CN113157865B (zh) | 跨语言词向量生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |