CN115618043B - 文本操作图互检方法及模型训练方法、装置、设备、介质 - Google Patents
文本操作图互检方法及模型训练方法、装置、设备、介质 Download PDFInfo
- Publication number
- CN115618043B CN115618043B CN202211388902.8A CN202211388902A CN115618043B CN 115618043 B CN115618043 B CN 115618043B CN 202211388902 A CN202211388902 A CN 202211388902A CN 115618043 B CN115618043 B CN 115618043B
- Authority
- CN
- China
- Prior art keywords
- text
- component
- menu
- current
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007689 inspection Methods 0.000 title claims abstract description 131
- 238000012549 training Methods 0.000 title claims abstract description 124
- 238000000034 method Methods 0.000 title claims abstract description 119
- 238000010586 diagram Methods 0.000 claims abstract description 161
- 238000012545 processing Methods 0.000 claims description 54
- 238000000605 extraction Methods 0.000 claims description 50
- 238000013507 mapping Methods 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 31
- 230000015654 memory Effects 0.000 claims description 26
- 230000004927 fusion Effects 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 230000002457 bidirectional effect Effects 0.000 claims description 10
- 150000001875 compounds Chemical class 0.000 claims description 9
- 230000007787 long-term memory Effects 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000004891 communication Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000010411 cooking Methods 0.000 description 3
- 239000004615 ingredient Substances 0.000 description 3
- 238000007639 printing Methods 0.000 description 3
- 241000227653 Lycopersicon Species 0.000 description 2
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 235000013601 eggs Nutrition 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 235000013312 flour Nutrition 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 235000011305 Capsella bursa pastoris Nutrition 0.000 description 1
- 240000008867 Capsella bursa-pastoris Species 0.000 description 1
- 241000251730 Chondrichthyes Species 0.000 description 1
- 244000000626 Daucus carota Species 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000005770 birds nest Nutrition 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
- 235000005765 wild carrot Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19127—Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种文本操作图互检方法及装置、训练文本操作图互检模型的方法及装置、电子设备、可读存储介质,应用于信息检索技术。其中,方法包括通过分析所有菜谱样本所包含的菜谱成分生成菜谱成分信息;利用文本信息特征编码器提取当前文本样本的主成分特征和菜谱均值特征,并基于菜谱成分信息主动学习主成分特征的虚拟成分标签;基于虚拟成分标签和成分预测置信阈值,确定当前菜谱文本特征为主成分特征还是菜谱均值特征;利用步骤图特征编码器提取与当前文本样本对应的当前操作图样本的当前菜谱图像特征;将当前菜谱文本特征和当前菜谱图像特征输入至文本操作图互检模型进行模型训练,从而可实现菜谱文本与菜谱步骤图之间的高精度互检索。
Description
技术领域
本申请涉及信息检索技术领域,特别是涉及一种文本操作图互检方法及装置、训练文本操作图互检模型的方法及装置、电子设备、可读存储介质。
背景技术
随着计算机技术以及网络技术被广泛地应用在日常工作生活中,多媒体数据呈现爆发式增长,如新闻报道、微博淘宝等评论数据、微信聊天记录等多模式数据,表情包、文章配图、手机照片、医疗影像等图片数据,抖音、快手等视频媒体数据、城市摄像头数据等视频数据,同时伴随着有音频信息,如微信语音、视频配音等信息。这些不同多媒体形式的数据通常还共同用于描述同一物体或同一场景。为了方便管理多样的多媒体内容,不同媒体间实现灵活检索的方法应用而生。
相关技术通常采用简单的机器学习算法所构建的模型实现互检索,如采用Resnet-Bert网络模型,对图像数据、文本数据、视频数据和音频数据中的至少一种数据进行分类检索,返回对应的分类结果;当对图像数据、文本数据、视频数据和音频数据中至少两种进行分类检索时,进行检索的图像数据、文本数据、视频数据或音频数据语义类别一致;Resnet-Bert网络模型对图像数据、视频数据和音频数据进行分类检索时采用Resnet模型,对文本数据进行分类检索时采用Bert模型。尽管利用效果较佳的Resnet卷积神经网络模型和目前在11项自然语言处理方面领先的Bert模型,可以获得到更高层、更抽象以及更丰富的特征表达。但是,由于菜谱文本包含的数据类型较多,不同文本数据之间具有一定的关系,基于菜谱文本利用这些现有模型检索对应的菜谱操作图,或者是基于菜谱操作图获取对应的菜谱文本,菜谱文本与菜谱步骤图之间的检索精度都无法满足实现需求。
鉴于此,如何提高菜谱文本与菜谱步骤图之间的互检索精度,是所属领域技术人员需要解决的技术问题。
发明内容
本申请提供了一种文本操作图互检方法及装置、训练文本操作图互检模型的方法及装置、电子设备、可读存储介质,可实现菜谱文本与菜谱步骤图之间的高精度互检索。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明实施例第一方面提供了一种训练文本操作图互检模型的方法,包括:
预先构建包括文本信息特征编码器和步骤图特征编码器的文本操作图互检模型,并通过分析目标菜谱文本样本集中的各菜谱样本所包含的菜谱成分,生成菜谱成分信息;
对所述训练样本集的每组训练样本,利用所述文本信息特征编码器提取当前文本样本的主成分特征和菜谱均值特征,并基于所述菜谱成分信息主动学习所述主成分特征的虚拟成分标签;所述菜谱均值特征根据所述文本信息特征编码器提取所述当前文本样本的所有文本特征所确定;
基于所述虚拟成分标签和成分预测置信阈值,确定所述当前文本样本的当前菜谱文本特征为主成分特征还是菜谱均值特征;
利用所述步骤图特征编码器提取与所述当前文本样本对应的当前操作图样本的当前菜谱图像特征;
将所述当前菜谱文本特征和所述当前菜谱图像特征,输入至所述文本操作图互检模型,进行模型训练。
可选的,所述基于所述虚拟成分标签和成分预测置信阈值,确定所述当前文本样本的当前菜谱文本特征为主成分特征还是菜谱均值特征,包括:
所述虚拟成分标签中的每个元素,用于表示所述当前文本样本中包含所述菜谱成分信息对应主成分的置信度;
从所述虚拟成分标签中确定大于等于成分置信阈值的目标成分,并根据各目标成分对应的置信度确定主成分概率预测置信度;
根据所述主成分概率预测置信度和所述成分预测置信阈值之间的数值关系,确定所述当前文本样本的当前菜谱文本特征为主成分特征还是菜谱均值特征。
可选的,所述根据所述主成分概率预测置信度和所述成分预测置信阈值之间的数值关系,确定所述当前文本样本的当前菜谱文本特征为主成分特征还是菜谱均值特征,包括:
获取当前输出控制模式;
若所述当前输出控制模式为二值切换模式,判断所述主成分概率预测置信度是否大于所述成分预测置信阈值;
若所述主成分概率预测置信度大于所述成分预测置信阈值,则所述当前文本样本的当前菜谱文本特征为主成分特征;
若所述主成分概率预测置信度小于等于所述成分预测置信阈值,则所述当前文本样本的当前菜谱文本特征为菜谱均值特征。
可选的,所述根据所述主成分概率预测置信度和所述成分预测置信阈值之间的数值关系,确定所述当前文本样本的当前菜谱文本特征为主成分特征还是菜谱均值特征,包括:
获取当前输出控制模式;
若所述当前输出控制模式为混合切换模式,比较所述主成分概率预测置信度与所述成分预测置信阈值和预设的置信限度阈值之间的数值关系;
若所述主成分概率预测置信度大于所述成分预测置信阈值,则所述当前文本样本的当前菜谱文本特征为主成分特征;
若所述主成分概率预测置信度小于等于所述成分预测置信阈值、且大于等于所述置信限度阈值,则所述当前文本样本的当前菜谱文本特征为所述菜谱均值特征和所述主成分特征的特征和;
若所述主成分概率预测置信度小于所述置信限度阈值,则所述当前文本样本的当前菜谱文本特征为菜谱均值特征。
可选的,所述若所述当前输出控制模式为混合切换模式,比较所述主成分概率预测置信度与所述成分预测置信阈值和所述置信限度阈值之间的数值关系之和,包括:
若所述主成分概率预测置信度小于等于所述成分预测置信阈值、且大于等于所述置信限度阈值,则所述当前文本样本的当前菜谱文本特征为将所述菜谱均值特征和所述主成分特征进行特征级联,并通过全连接层处理后的输出特征。
可选的,所述文本信息特征编码器包括输入层、文本特征提取层和输出数据处理层;
所述输入层包括文本数据输入单元和成分识别标志输入单元;所述文本数据输入单元包括菜名输入单元、菜谱步骤输入单元和成分输入单元,用于依次输入所述训练样本集的各文本样本的不同类型数据;所述成分识别标志输入单元,用于输入用于标识执行主动学习成分信息任务的标志位;
所述文本特征提取层为基于转换器的双向编码器,用于对所述输入层输出信息进行特征提取;
所述输出数据处理层,用于基于所述标志位,主动学习所述文本特征提取层所提取的主成分特征对应的虚拟成分标签,并基于所述虚拟成分标签和成分预测置信阈值确定所述当前文本样本的当前菜谱文本特征。
可选的,所述输出数据处理层包括特征选择控制器、主成分输出单元和菜谱均值特征输出单元;
所述菜谱均值特征输出单元包括菜名特征输出单元、菜谱步骤特征输出单元和成分特征输出单元,其用于输出菜名特征、菜谱步骤特征和成分特征的特征平均值;
所述主成分输出单元,用于输出主成分特征以及通过执行主动学习任务得到虚拟成分标签;
所述特征选择控制器,用于基于所述虚拟成分标签和成分预测置信阈值确定当前菜谱文本特征,并切换所述主成分输出单元和所述菜谱均值特征输出单元以输出当前菜谱文本特征。
可选的,所述主成分输出单元包括第一全连接层、映射层、第二全连接层和损失计算层;
所述第一全连接层,用于接收所述成分识别标志输入单元对应输出的特征信息;
所述映射层,用于对所述特征信息进行非线性映射处理;
所述第二全连接层,用于将映射处理后所得的特征映射至主成分,得到与所述菜谱成分信息维度相同的主成分特征;
所述损失计算层,用于基于所述菜谱成分信息主动学习所述主成分特征的虚拟成分标签。
可选的,所述基于所述菜谱成分信息主动学习所述主成分特征的虚拟成分标签,包括:
根据所述当前文本样本与所述菜谱成分信息的比对结果,生成虚拟成分标签;所述虚拟成分标签对应的向量数据与所述主成分特征对应的向量数据的维度相同;
调用损失计算关系式,计算所述虚拟成分标签与所述主成分特征的损失信息,所述损失计算关系式为:
;
式中,
loss cla 为所述损失信息,
M为所述主成分特征对应为向量数据的维度,
sigmoid()为sigmoid函数,
label m 为所述虚拟成分标签对应为向量数据的第
m个位置上的元素,c
la m 为所述主成分特征对应为向量数据的第
m个位置上的元素。
可选的,所述通过分析目标菜谱文本样本集中的各菜谱样本所包含的菜谱成分,生成菜谱成分信息,包括:
获取所述目标菜谱文本样本集的每一个菜谱样本所包含的所有原始成分;
对各原始成分进行数据合并处理,以将相同成分的数据合并至一起;
统计合并后的各原始成分,确定每类成分对应的总数量;
删除总数量小于预设数量阈值的原始成分,得到样本成分;
基于各样本成分,生成主成分表。
可选的,所述根据所述当前文本样本与所述菜谱成分信息的比对结果,生成虚拟成分标签,包括:
将所述当前文本样本所包含的已有成分与所述主成分表的样本成分一一进行比对;
对每个已有成分,若所述主成分表中的当前样本成分与当前已有成分相同,则将所述当前样本成分对应的位置元素设置为第一预设标识值;
若所述主成分表中的当前样本成分与当前已有成分不相同,则将所述当前样本成分对应的位置元素设置为第二预设标识值;
根据所述主成分表的每个样本成分对应的位置元素的值,生成所述虚拟成分标签。
可选的,所述利用所述文本信息特征编码器提取当前文本样本的主成分特征和菜谱均值特征,并基于所述菜谱成分信息主动学习所述主成分特征的虚拟成分标签之前,还包括:
获取用于标识执行主动学习成分信息任务的标志,并为所述标识设置文本类型标识值和位置信息值,以生成标志信息;
将所述标志信息的每个单词映射为相应的高维标志向量,以用于输入所述文本信息特征编码器。
可选的,所述利用所述文本信息特征编码器提取当前文本样本的主成分特征和菜谱均值特征组之前,还包括:
分别将所述当前文本样本的菜名、做菜步骤和成分的每个单词映射为相应的高维文本向量,同时将每个单词在相应文本数据中的位置信息、标识文本数据所属数据类型的文本类型标识映射为相应的高维辅助向量;
基于各高维文本向量和其相应的高维辅助向量,生成文本向量,以用于输入所述文本信息特征编码器。
可选的,所述利用所述步骤图特征编码器提取与所述当前文本样本对应的当前操作图样本的当前菜谱图像特征,包括:
预先训练步骤图特征编码器;所述步骤图特征编码器包括特征提取网络和特征融合网络;
将与所述当前文本样本对应的当前操作图样本输入至所述特征提取网络,得到所述当前操作图样本包含的所有步骤图的图像特征;
将各步骤图的图像特征输入至特征融合网络中,得到所述当前操作图样本的当前菜谱图像特征。
可选的,所述特征融合网络为长短期记忆神经网络,所述将各步骤图的图像特征输入至特征融合网络中,得到所述当前操作图样本的当前菜谱图像特征,包括:
调用图像特征融合关系式处理各步骤图的图像特征;所述图像特征融合关系式为:
;
式中,
ħ i 为所述长短期记忆神经网络的第
i个LSTM单元的输出,
LSTM i 为第
i个LSTM单元,
ϕ()为所述特征提取网络的输出,为所述当前操作图样本的第
i张步骤图像,
ħ i-1为所述长短期记忆神经网络的第
i-1个LSTM单元的输出,
I为所述当前操作图样本所包含的步骤图像的总数。
本发明实施例第二方面提供了一种训练文本操作图互检模型的装置,包括:
模型构建模块,用于构建包括文本信息特征编码器和步骤图特征编码器的文本操作图互检模型;
识别信息生成模块,用于通过分析训练样本集中包含菜谱成分的所有菜谱样本,生成菜谱成分信息;
文本数据处理模块,用于对所述训练样本集的每组训练样本,利用所述文本信息特征编码器提取当前文本样本的主成分特征和菜谱均值特征,并基于所述菜谱成分信息主动学习所述主成分特征的虚拟成分标签;所述菜谱均值特征根据所述文本信息特征编码器提取所述当前文本样本的所有文本特征所确定;基于所述虚拟成分标签和成分预测置信阈值,确定所述当前文本样本的当前菜谱文本特征为主成分特征还是菜谱均值特征;
图像特征提取模块,用于利用所述步骤图特征编码器提取与所述当前文本样本对应的当前操作图样本的当前菜谱图像特征;
训练模块,用于将所述当前菜谱文本特征和所述当前菜谱图像特征,输入至所述文本操作图互检模型,进行模型训练。
本发明实施例第三方面提供了一种文本操作图互检方法,包括:
预先利用如前任意一项所述的训练文本操作图互检模型的方法,训练得到文本操作图互检模型;
获取待检索文本的待匹配文本特征;
获取待检索操作图的待匹配图像特征;
将所述待匹配文本特征和所述待匹配图像特征,输入至所述文本操作图互检模型,得到文本操作图互检结果。
本发明实施例第四方面提供了一种文本操作图互检装置,包括:
模型训练模块,用于预先利用如前任意一项所述的训练文本操作图互检模型的方法,训练得到文本操作图互检模型;
特征获取模块,用于获取待检索文本的待匹配文本特征;获取待检索操作图的待匹配图像特征;
互检结果生成模块,用于将所述待匹配文本特征和所述待匹配图像特征,输入至所述文本操作图互检模型,得到文本操作图互检结果。
本发明实施例还提供了一种电子设备,包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如前任一项所述训练文本操作图互检模型的方法和/或如前所述文本操作图互检方法的步骤。
本发明实施例最后还提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前任一项所述训练文本操作图互检模型的和/或如前所述文本操作图互检方法的步骤。
本申请提供的技术方案的优点在于,文本操作图互检模型中设置可以基于菜谱成分信息主动学习菜谱文本数据所包含的菜谱成分的功能,通过对提取的主成分特征的主动学习效果的检测,可以很好验证文本操作图互检模型的文本特征提取精度,并及时调整用于进行图文匹配的菜谱文本特征,从而可以很好地提取菜谱文本的高级语义信息,实现高可靠性分类,去除冗余噪声,进而有效提高菜谱文本与菜谱操作图的互检索的精度。
此外,本发明实施例还针对训练文本操作图互检模型的方法提供了相应的文本操作图互检方法、实现装置、电子设备及可读存储介质,进一步使得所述方法更具有实用性,所述文本操作图互检方法、实现装置、电子设备及可读存储介质具有相应的优点。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
为了更清楚的说明本发明实施例或相关技术的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种训练文本操作图互检模型的方法的流程示意图;
图2为本发明实施例提供的一种文本信息特征编码器的结构框架示意图;
图3为本发明实施例提供的一种文本操作图互检方法的流程示意图;
图4为本发明实施例提供的一个示例性应用场景的框架示意图;
图5为本发明实施例提供的一个示例性应用场景下的文本操作图互检模型的框架示意图;
图6为本发明实施例提供的训练文本操作图互检模型的装置的一种具体实施方式结构图;
图7为本发明实施例提供的文本操作图互检装置的一种具体实施方式结构图;
图8为本发明实施例提供的电子设备的一种具体实施方式结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在介绍了本发明实施例的技术方案后,下面详细的说明本申请的各种非限制性实施方式。
首先参见图1,图1为本发明实施例提供的一种训练文本操作图互检模型的方法的流程示意图,本发明实施例可包括以下内容:
S101:预先构建包括文本信息特征编码器和步骤图特征编码器的文本操作图互检模型。
本步骤的文本操作图互检模型用于执行菜谱文本与菜谱操作图之间的互检索任务,也即将待检索的文本数据或者是待检索的操作图数据输入至训练好的文本操作图互检模型中,文本操作图互检模型通过从指定待检索数据库读取相应的数据进行匹配,并输出与待检索文本或待检索操作图匹配的目标菜谱操作图或目标菜谱文本。举例来说,如果待检索任务是从图像数据库中检索到与待检索文本相对应的操作图,则向文本操作图互检模型输入待检索文本,文本操作图互检模型通过将待检索文本的菜谱文本特征与图像数据库的每个操作图的菜谱图像特征进行匹配,确定相似度最高的菜谱操作图作为目标菜谱操作图并输出。文本信息特征编码器用于对输入的菜谱文本数据进行编码,并输出最终的菜谱文本特征;步骤图特征编码器用于对输入的菜谱操作图数据进行编码,并输出最终的菜谱操作图特征。
S102:预先通过分析目标菜谱文本样本集中的各菜谱样本所包含的菜谱成分,生成菜谱成分信息。
在本实施例中,目标菜谱文本样本集可为用于训练文本操作图互检模型的训练样本集的全部或一部分菜谱文本样本所组成,也可为从其他数据集中选取的菜谱文本组成,这均不影响本申请的实现。本实施例所指的训练样本集为用于训练文本操作图互检模型的样本数据,训练样本集包括多组训练样本,每组训练样本均包括相对应的文本样本和操作图样本,也就是文本样本和操作图样本为相匹配的一组样本数据,本实施例的文本样本以及后续的待检索文本均为菜谱文本,菜谱文本均包括菜名、做菜步骤和成分三类数据,操作图样本以及后续的待检索操作图均为菜谱操作图,至于训练样本组数可根据实际训练需求以及所采用的数据库来确定,本申请对此不作任何限定。本申请的操作图或者是说操作图样本包括一组具有先后操作顺序子图像,该组图像的每个子图像对应文本数据或者是说文本样本中的一个操作步骤也即做菜步骤。菜谱成分信息是指通过读取各菜谱样本所包含的菜谱成分所生成的菜谱成分统计信息,也即用于标识文本样本或待检索样本中所包含的成分数据。
S103:对训练样本集的每组训练样本,利用文本信息特征编码器提取当前文本样本的主成分特征和菜谱均值特征,并基于菜谱成分信息主动学习主成分特征的虚拟成分标签;菜谱均值特征根据文本信息特征编码器提取当前文本样本的所有文本特征所确定。基于虚拟成分标签和成分预测置信阈值,确定当前文本样本的当前菜谱文本特征为主成分特征还是菜谱均值特征。
由于每组训练样本均包括相互对应的一个文本样本和一个操作图样本,对于文本样本,将文本样本输入至文本信息特征编码器中,文本信息特征编码器包括文本输入功能、特征提取功能和带有主动学习功能的文本输出功能,文本信息特征编码器先基于特征提取功能提取输入的文本样本的文本特征,本实施例的文本样本包括菜名、做菜步骤和菜谱成分这三类文本数据,每类文本数据均会提取相应的文本特征,且本实施例还有设置用于表示进行主动学习功能的成分识别标志的输入位,该成分识别标志与文本样本或者是待检索样本一起作为模型输入,且每个输入均对应一个输出,也即用于输入成分识别标志的输入位对应的输出为主成分特征,用于输入菜名的输入位对应的输出为菜名特征,用于输入做菜步骤的输入位对应的输出为做菜步骤特征,用于输入菜谱成分的输入位对应的输出为菜谱成分特征,本实施例的菜谱均值特征是菜谱成分特征、做菜步骤特征和菜名特征联合之后所生成的特征,也即菜谱均值特征根据文本信息特征编码器提取当前文本样本的所有文本特征所确定。文本信息特征编码器的特征提取功能可基于任何一种现有的文本特征提取模型,如向量空间模型、词频方法、文档频次方法等,这均不影响本申请的实现。虚拟成分标签用于通过主动学习功能学习主成分特征所得到的主成分特征的标签。文本信息特征编码器最终输出的当前文本样本的文本特征称为当前菜谱文本特征,该特征为主成分特征还是菜谱均值特征,至于是主成分特征还是菜谱均值特征,可以基于学习得到的虚拟成分标签以及预先设置的成分预测置信阈值来确定,也就是说,成分预测置信阈值用于标识所提取的主成分特征可以使用的最低限制。若虚拟成分标签和成分预测置信阈值可以标识当前所提取的主成分特征是精度高的特征,那么直接采用该主成分特征作为进行与操作图文本的图像特征匹配的特征,若虚拟成分标签和成分预测置信阈值可以标识当前所提取的主成分特征是低精度的特征,那么就不直接采用该主成分特征作为进行与操作图文本的图像特征匹配的特征,而是可由主成分特征和菜谱均值特征来共同确定最终的输出特征。
S104:利用步骤图特征编码器提取与当前文本样本对应的当前操作图样本的当前菜谱图像特征。
在上个步骤对一组训练样本的文本样本进行处理之后,本步骤对该文本样本对应的操作图样本进行相应的图像特征提取。由于操作图样本包含一组步骤图,故操作图样本的图像特征为这组步骤图的图像特征的集合,为了便于描述,将与当前文本样本对应的操作图样本称为当前操作图样本,将当前操作图样本的图像特征称为当前菜谱图像特征。本申请可采用任何一种可提取图像特征的网络结构搭建步骤图特征编码器,如人工神经网络、VGG等,本申请对此不作任何限定。
S105:将当前菜谱文本特征和当前菜谱图像特征,输入至文本操作图互检模型,进行模型训练。
对每组训练样本,将该组训练样本的文本样本的文本特征信息及其对应一个操作图样本的图像特征输入至S101步骤搭建的文本操作图互检模型中。模型训练过程中,会采用损失函数来指导模型的训练,然后通过诸如梯度反传等方式实现对文本操作图互检模型的各网络参数的更新直至满足条件,如达到迭代次数或者收敛效果较好。举例来说,文本操作图互检模型的训练过程可包括前向传播阶段和反向传播阶段,前向传播阶段是数据由低层次向高层次传播的阶段,反向传播阶段是当前向传播得出的结果与预期不相符时,将误差从高层次向底层次进行传播训练的阶段。具体来说,首先随机初始化文本操作图互检模型的所有网络层权值;然后输入携带数据类型信息的文本特征和图像特征经过模型各层的前向传播得到输出值;计算文本操作图互检模型的输出值,并基于损失函数计算该输出值的损失值。将误差反向传回文本操作图互检模型中,依次计算文本操作图互检模型各层的反向传播误差。文本操作图互检模型各层基于相应的反向传播误差对文本操作图互检模型的所有权重系数进行调整,实现权重的更新。重新随机选取新批次也即下一组训练样本的图像特征和携带数据类型信息的文本特征,然后重复迭代上述过程,直至计算得到的模型输出值与目标值之间的误差小于预设阈值,结束训练,并将模型当前各层参数作为训练好的文本操作图互检模型的网络参数。
在本发明实施例提供的技术方案中,文本操作图互检模型中设置可以基于菜谱成分信息主动学习菜谱文本数据所包含的菜谱成分的功能,通过对提取的主成分特征的主动学习效果的检测,可以很好验证文本操作图互检模型的文本特征提取精度,并及时调整用于进行图文匹配的菜谱文本特征,从而可以很好地提取菜谱文本的高级语义信息,实现高可靠性分类,去除冗余噪声,进而有效提高菜谱文本与菜谱操作图的互检索的精度。
上述实施例对文本信息特征编码器最终所输出的特征并不做任何限定,基于上述实施例,本申请还给出了一种可选的实施方式,可包括下述内容:
本实施例的虚拟成分标签中的每个元素,用于表示当前文本样本中包含菜谱成分信息对应主成分的置信度;从虚拟成分标签中确定大于等于成分置信阈值的目标成分,并根据各目标成分对应的置信度确定主成分概率预测置信度;根据主成分概率预测置信度和成分预测置信阈值之间的数值关系,确定当前文本样本的当前菜谱文本特征为主成分特征还是菜谱均值特征。
在本实施例中,主动学习如自监督学习可以得到主成分特征对应的分类概率,该分类概率代表主动学习网络如主成分自监督分类网络输出的该输入样本的主成分概率预测值,例如:[0.001,0.02,…,0.91,…,0.006]。基于次,本实施例在确定最终输出特征类型时,可根据输入样本的主成分概率预测置信度值来对输入特征进行切换,切换方法如下:计算主成分概率预测确信度,计算方法如下:获取虚拟成分标签中的主动学习分类概率如[0.001,0.02,…,0.91,…,0.006],每个数字代表了该样本包含主成分信息表中所对应的主成分的置信度,成分置信阈值例如可为0.5,按照该阈值抽取分类概率中所有大于阈值0.5的值,来构建可信主成分信息表;计算可信主成分信息表中所有概率值的均值,记为主成分概率预测置信度。然后便可根据主成分概率预测置信度和预先设置的成分预测置信阈值如0.9来确定最终输出特征了,作为一种可选的实施方式,对于当前文本样本的当前菜谱文本特征为主成分特征还是菜谱均值特征的选择过程,本实施例可根据不同需要进行灵活切换,并提前设置输出文本特征的输出控制模式,本实施例的输出控制模式包括混合切换模式和二值切换模块,基于不同的输出控制模式选择相应的特征输出,该过程可包括:
获取当前输出控制模式,判断当前输出控制模式为二值切换模式还是混合切换模式,作为一种可选的实施方式,若当前输出控制模式为二值切换模式,则判断主成分概率预测置信度是否大于成分预测置信阈值;若主成分概率预测置信度大于成分预测置信阈值,则当前文本样本的当前菜谱文本特征为主成分特征;若主成分概率预测置信度小于等于成分预测置信阈值,则当前文本样本的当前菜谱文本特征为菜谱均值特征。
若当前输出控制模式为混合切换模式,比较主成分概率预测置信度与成分预测置信阈值和预设的置信限度阈值之间的数值关系;置信限度阈值可根据实际需求灵活确定,本申请对成分预测置信阈值和预设的置信限度阈值的取值不做任何限定。作为另一种可选的实施方式,若主成分概率预测置信度大于成分预测置信阈值,则当前文本样本的当前菜谱文本特征为主成分特征;若主成分概率预测置信度小于等于成分预测置信阈值、且大于等于置信限度阈值,则当前文本样本的当前菜谱文本特征为菜谱均值特征和主成分特征的特征和;若主成分概率预测置信度小于置信限度阈值,则当前文本样本的当前菜谱文本特征为菜谱均值特征。作为再一种可选的实施方式,若主成分概率预测置信度小于等于成分预测置信阈值、且大于等于置信限度阈值,则当前文本样本的当前菜谱文本特征还可为将菜谱均值特征和主成分特征进行特征级联,并通过全连接层处理后的输出特征。
其中,菜谱均值特征即为菜名、成分、步骤文本在双向编码器对应的输出特征的均值。若主成分概率预测置信度>成分预测置信阈值,则主成分概率预测确信度高,说明文本信息特征编码器的文本特征提取功能及主成分主动学习分类网络可以很好地提取菜谱文本的高级语义信息,实现高可靠性分类,去除冗余噪声,该特征具有良好的表达效果,故输出成分主动学习的分类特征也即主成分特征。若主成分概率预测置信度<成分预测置信阈值,则输出菜名、成分、步骤文本的双向编码器输出均值。文本信息特征编码器的文本特征提取功能及主成分主动学习分类网络无法确认改菜谱的主成分,主成分特征中还包含大量噪声,为获得好的检索效果,本实施例可取输入菜谱文本对应的特征提取的所有输出特征的均值作为最终的整个菜谱文本特征。此外,若主成分概率预测置信度<成分预测置信阈值,还可输出菜谱均值特征与主成分特征相加后特征,作为最终的整个菜谱文本的当前菜谱文本特征;还可将菜谱均值特征与主成分特征进行特征级联后,然后再通过一层全连接层后的输出特征作为最终的整个菜谱文本的当前菜谱文本特征。
在上述实施例中,对于如何执行步骤S102不做限定,本实施例中给出菜谱成分信息的一种可选的生成方式,可包括如下步骤:
获取目标菜谱文本样本集的每一个菜谱样本所包含的所有原始成分;对各原始成分进行数据合并处理,以将相同成分的数据合并至一起;统计合并后的各原始成分,确定每类成分对应的总数量;删除总数量小于预设数量阈值的原始成分,得到样本成分;基于各样本成分,生成主成分表。相应的,虚拟成分标签的生成过程可包括:将当前文本样本所包含的已有成分与主成分表的样本成分一一进行比对;对每个已有成分,若主成分表中的当前样本成分与当前已有成分相同,则将当前样本成分对应的位置元素设置为第一预设标识值;若主成分表中的当前样本成分与当前已有成分不相同,则将当前样本成分对应的位置元素设置为第二预设标识值;根据主成分表的每个样本成分对应的位置元素的值,生成虚拟成分标签。
在本实施例中,文本样本包括多种类型的数据,也即菜谱文本可包括成分、做菜步骤和菜名三种类型数据;为了便于描述,从菜谱样本读取的成分数据称为原始成分,通过数据合并和数据删除操作,从这些原始成分中选择的成分可称为样本成分。通过该实施例所列举的数据选择方式可将原始成分中不重要的数据去掉,提高整个数据处理效率。为了便于存储和检索,可将菜谱成分信息以表的形式表现,也即基于各样本成分生成主成分表。
上述实施例对文本信息特征编码器的结构并不做任何限定,本实施例还给出文本信息特征编码器的一种可选的结构,可包括下述内容:
文本信息特征编码器可包括输入层、文本特征提取层和输出数据处理层;输入层包括文本数据输入单元和成分识别标志输入单元;文本数据输入单元包括菜名输入单元、菜谱步骤输入单元和成分输入单元,用于依次输入训练样本集的各文本样本的不同类型数据;成分识别标志输入单元用于输入用于标识执行主动学习成分信息任务的标志位。文本特征提取层为基于转换器的双向编码器,用于对输入层输出信息进行特征提取;输出数据处理层,用于基于标志位,主动学习文本特征提取层所提取的主成分特征对应的虚拟成分标签,并基于虚拟成分标签和成分预测置信阈值确定当前文本样本的当前菜谱文本特征。
在本实施例中,对于输入层来说,可设置多个输入位,不同输入位对应不同的输入数据,若文本数据有多类,文本数据输入单元对应包括多个输入位,不同输入位对应不同数据类型的数据,以文本数据为菜谱文本为例,菜谱文本包括做菜步骤数据、成分数据和菜名数据,相应的,文本数据输入单元可包括做菜步骤的数据的输入位、成分的数据的输入位和菜名的数据的输入位,如图2中的最底层部分。用于标识执行主动学习成分信息任务的标志位可根据实际需求灵活选择,例如可使用CLS作为该标志位。成分识别标志输入单元用于输入该标志位,如果当前执行任务需要进行主动学习任务,也即需要进行主动学习式分类。那么成分识别标志输入单元输入相应的标志位,但如果当前执行任务不需要进行主动学习任务,那么成分识别标志输入单元就不输入相应的标志位,或者是输入标识不执行主动学习任务的另一种指定标志位。对于模型的输入层,可直接输入一个列向量,向量的起始位置为标志位向量元素,后续为文本特征向量元素。
其中,基于转换器的双向编码器也即采用transformer模型结构,可选的,如图2中的中间部分,其可包括依次连接的Masked Multihead Attention层、第一Add+Normalization层、Feed Forward层、第二Add+Normalization层以及双向注意力模块,上下注意力模块向Masked Multihead Attention层输入信息。
在本实施例中,输出数据处理层包括特征选择控制器、主成分输出单元和菜谱均值特征输出单元;菜谱均值特征输出单元包括菜名特征输出单元、菜谱步骤特征输出单元和成分特征输出单元,其用于输出菜名特征、菜谱步骤特征和成分特征的特征平均值;主成分输出单元,用于输出主成分特征以及通过执行主动学习任务得到虚拟成分标签;特征选择控制器,用于基于虚拟成分标签和成分预测置信阈值确定当前菜谱文本特征,并切换主成分输出单元和菜谱均值特征输出单元以输出当前菜谱文本特征。
在本实施例中,特征选择控制器用于执行输出控制模式的切换,切换模式为2种,第一种定义为二值切换模式,实现方式为当成分预测置信阈值大于成分预测置信阈值时,输出主成分输出单元特征,当成分预测置信阈值小于等于成分预测置信阈值,输出菜谱均值特征输出单元特征。其中,A在训练初始时候,可人为设定。第二种定义为混合切换模式,实现方式为当成分预测置信阈值大于成分预测置信阈值时,输出主成分输出单元特征,当成分预测置信阈值小于置信限度阈值时,输出所述菜谱均值特征输出单元特征。当成分预测置信阈值在成分预测置信阈值和置信限度阈值之间时,输出主成分输出单元特征与菜谱均值特征输出单元的特征之和,或者输出主成分输出单元特征与菜谱均值特征输出单元的特征级联后,再经过全连接层后的输出特征。其中,置信限度阈值在训练初始时候,可以人为设定。特征选择控制器的切换模式, 即二值切换模式或混合切换模式也可在训练时人为设定。
在本实施例中,输出数据处理层对文本特征提取层输出的特征进行处理,也即输出数据处理层可先识别是否存在标志位,若存在,则判断标志位是否是用于执行主动学习任务的,如果是,则基于菜谱成分信息对主成分输出单元输出的主成分特征进行主动学习。如果否,则不需要进行主动学习。可选的,主成分输出单元可包括第一全连接层、映射层、第二全连接层和损失计算层;第一全连接层,用于接收成分识别标志输入单元对应输出的特征信息;映射层,用于基于映射函数如非线性映射函数或线性映射函数对特征信息进行非线性映射处理,如可采用ReLU(Linear rectification function,线性整流函数)、LeakyReLU(带泄露线性整流函数)等。第二全连接层,用于将映射处理后所得的特征映射至主成分,得到与菜谱成分信息维度相同的主成分特征;;损失计算层,用于基于菜谱成分信息主动学习主成分特征的虚拟成分标签。以图2为例,主成分输出单元也即成分识别标志输入单元对应的输出经过第一全连接层FC,随后通过ReLU层进行非线性映射,最后再通过第二全连接层FC,将特征映射到当前文本样本中的主成分数据上。
本实施例还提供了如何基于菜谱成分信息主动学习主成分特征的虚拟成分标签的一种可选的实施方式,可包括下述内容:
根据当前文本样本与菜谱成分信息的比对结果,生成虚拟成分标签;虚拟成分标签对应的向量数据与主成分特征对应的向量数据的维度相同;调用损失计算关系式,计算虚拟成分标签与主成分特征的损失信息,损失计算关系式为:
;
式中,
loss cla 为所述损失信息,
M为所述主成分特征对应为向量数据的维度,
sigmoid()为sigmoid函数,
label m 为所述虚拟成分标签对应为向量数据的第
m个位置上的元素,c
la m 为所述主成分特征对应为向量数据的第
m个位置上的元素。
在本实施例中,由于主成分特征中包括多个成分特征,各成分可能对应菜谱识别信息的一个成分特征或多个成分特征或者不存在于菜谱成分信息中,为了标识主成分特征与菜谱成分信息之间的对应关系,通过数据比对或者是说特征比对,生成虚拟成分标签,该虚拟成分标签对应的向量数据与主成分特征对应的向量数据的维度相同。以菜谱文本举例来说,菜谱成分信息可为主成分表,主成分特征包括文本样本的主成分数据,若主成分表的成分存在于菜谱文本的主成分特征中,则主成分表的对应位置变量可置1,否则,则置0。通过上述操作,可处理后的主成分表作为标签也即虚拟成分标签,该标签对应的向量维度与主成分表行数相同。
由上可知,本实施例提供了文本信息特征编码器的一种可选的模型结构,有利于提取更加准确的文本特征。为了便于文本特征,在利用文本信息特征编码器提取当前文本样本的当前菜谱文本特征之前,还可包括:
分别将当前文本样本的不同数据类型的文本数据如菜名、做菜步骤和成分的每个单词映射为相应的高维文本向量,同时将每个单词在相应文本数据中的位置信息、标识文本数据所属数据类型的文本类型标识映射为相应的高维辅助向量;基于各高维文本向量和其相应的高维辅助向量,生成文本向量,以用于输入文本信息特征编码器。其中,文本类型标识可预先根据实际需求应用灵活选择。
以菜谱文本样本举例来说,菜谱文本样本包括3种类型文本信息:做菜步骤、成分信息和菜名,菜品的文本类型标识可设置为1,成分信息的文本类型标识可设置为2,操作步骤的文本类型标识可设置为3,将所有文本信息打包成为一个长的输入序列:对于菜名,可利用wordToembedding 方法将菜名的每个单词映射成为一个高维向量,对于位置信息,可按照单词的顺序序列依次递增。对于成分信息,可先用逗号将各成分信息分隔,再通过wordToembedding 方法将所有成分信息映射成为高维列向量,成分信息的文本类型在本发明中定义为2。成分信息的位置信息按照成分的输入顺序依次递增,如图2所示。同理,对于操作步骤,可依次对每个步骤进行编码,如第一个步骤编码为序号1,第二个步骤可编码为序号2;然后将所有操作步骤的每个单词通过wordToembedding 方法映射成为高维列向量。同样的,对文本类型标识和位置信息也可通过 wordToembedding的方法进行映射,得到文本类型标识、位置信息的嵌入embedding特征,也即采用低维的向量表示一个物体的方式。最后,可将文本信息、文本类型标识、位置信息的embedding特征相加,输入至文本信息特征编码器。
进一步的,对于标志位,在输入文本信息特征编码器之前,可先获取用于标识执行主动学习成分信息任务的标志,并为标识设置文本类型标识值和位置信息值,以生成标志信息;将标志信息的每个单词映射为相应的高维标志向量,以用于输入文本信息特征编码器。
举例来说,预先定义标志位为CLS标志,同时定义该标志位的位置信息为0,文本类型标识为0,将标志位及其位置信息、文本类型标识作为一个标志信息,通过wordToembedding的方法对该标志信息进行映射,获得标志位的embedding特征文本信息、文本类型信息、位置信息的embedding特征会相加。
上述实施例对步骤图特征编码器的结构并不做任何限定,本实施例还提供了步骤图特征编码器的一种可选的模型结构,可包括下述内容:
预先训练用于提取操作图的图像特征的步骤图特征编码器,其可包括特征提取网络和特征融合网络;特征提取网络用于提取输入操作图的每张步骤图的图像特征,特征融合网络用于将特征提取网络提取的每张操作图的图像特征整合为一个图像特征,以作为输入操作图的图像特征。对于训练好的步骤图特征编码器,在提取文本样本的文本特征之后,由于每组训练样本包括一对儿相匹配文本样本和操作图样本,为了便于描述,将已经提取文本特征的文本样本称为当前文本样本,将与当前文本样本对应的操作图样本称为当前操作图样本,将该当前操作图样本输入至步骤图特征编码器,步骤图特征编码器利用特征提取网络对该当前操作图样本进行特征提取,得到当前操作图样本包含的所有步骤图的图像特征。步骤图特征编码器将各步骤图的图像特征输入至特征融合网络中,得到当前操作图样本的当前菜谱图像特征。
可选的,特征融合网络可为长短期记忆神经网络,相应的,将各步骤图的图像特征输入至特征融合网络中,得到当前操作图样本的当前菜谱图像特征的过程,可包括:
调用图像特征融合关系式处理各步骤图的图像特征;图像特征融合关系式为:
;
式中,
ħ i 为所述长短期记忆神经网络的第
i个LSTM单元的输出,
LSTM i 为第
i个LSTM单元,
ϕ()为所述特征提取网络的输出,为所述当前操作图样本的第
i张步骤图像,
ħ i-1为所述长短期记忆神经网络的第
i-1个LSTM单元的输出,
I为所述当前操作图样本所包含的步骤图像的总数。
本实施例通过采用特征提取和特征融合分开的方式生成操作图样本的图像特征,有利于提升图像特征提取精准度。
此外,本实施例还提供了文本操作图互检方法,请参阅图3,可包括下述内容:
S301:预先训练文本操作图互检模型。
本实施例可利用如上任意一个训练文本操作图互检模型的方法的实施例所记载的方式来训练文本操作图互检模型。
S302:获取待检索文本的待匹配文本特征。
待匹配文本特征即为上述实施例的当前样本文本的当前菜谱文本特征,本步骤可通过上述实施例中的文本样本的文本特征的提取方式,此处,便不再赘述。
S303:获取待检索操作图的待匹配图像特征。
本步骤可通过上述实施例中的操作图样本的图像特征的提取方式,此处,便不再赘述。
S304:将待匹配文本特征和待匹配图像特征,输入至文本操作图互检模型,得到文本操作图互检结果。
在推理过程中,可预先加载S301训练好的权重系数。对待检索操作图或待检索文本进行特征提取,并存入待检索文本数据集或待检索图像数据库中。用户给定任意待检索数据,可为待检索操作图,也可为待检索文本。提取待检索数据的文本特征信息或图像特征,输入至文本操作图互检模型。将待检索数据的特征与相对应待检索数据集中所有样本特征进行距离匹配。例如:若待检索数据是文本数据,则相应的待检索数据集即为待检索图像数据集,将待检索文本与该数据集中所有的操作图特征进行马氏距离计算,距离最小的样本即为与待检索文本最匹配的操作图,将该操作图作为检索结果进行输出。
由上可知,本实施例可实现菜谱文本与菜谱步骤图之间的高精度互检索。
需要说明的是,本申请中各步骤之间没有严格的先后执行顺序,只要符合逻辑上的顺序,则这些步骤可以同时执行,也可按照某种预设顺序执行,图1和图3只是一种示意方式,并不代表只能是这样的执行顺序。
最后,为了使所属领域技术人员更加清楚明白本申请的实施方式,本实施例还以菜谱文本操作图互检索作为一个示意性的例子阐述本申请所提供的实现文本操作图互检索的过程,本实施例所示的菜谱文本与菜谱操作图的互检索任务的执行过程可包括:
如图4所示,本实施例可包括菜谱检索终端设备和云服务器,用户可以在菜谱检索终端设备上执行操作,菜谱检索终端设备通过网络实现与云服务器的交互,云服务器可以部署文本操作图互检模型,如图5所示,为了使得文本操作图互检模型可以实现菜谱文本与菜谱操作图互检索的功能,需要对文本操作图互检模型进行训练。在训练过程中,可以由菜谱检索终端设备向云服务器传输训练样本集,训练样本集可预先写入U盘,将U盘插入菜谱检索终端设备的输入接口。训练样本集可包含有多组训练样本,每组训练样本包括相对应的一个菜谱文本样本和一个菜谱操作图样本,每个菜谱文本样本可包括操作步骤(instruction list)、成分信息(ingredients)和菜名(Title)。Instructions为做菜的步骤,在下文中统一用步骤表示。Ingredients为菜的成分,在下文统一用成分表示。
在训练开始前,可获取所有菜谱文本样本的成分数据生成成分信息列表。在生成成分信息列表之后,将相同成分的数据合并成为1个数据,并统计每一项成分合并后的数量。例如[78 面粉]、[56 鸡蛋]、[67 西红柿]、[81 水] 、……、[5 荠菜]、[3 燕窝]和[2 鱼翅]。对于合并处理后的成分信息列表,若成分信息数目过少,如数量小于5,则从表中删除该成分信息。筛选后的成分信息为:[78 面粉]、[56 鸡蛋]、[67 西红柿]、[81 水] 、……、[5 荠菜]。将筛选后的成分信息表作为最终生成的主成分表,可定义为变量Main-ing,主成分表为向量,向量长度等于筛选后的成分信息的行数。
基于基本的transformer模型搭建文本信息特征编码器,对于文本样本中的操作步骤、成分信息和菜名的文本数据、文本类型标识和位置信息,可利用wordToembedding 方法将每个单词映射成为一个高维向量,将该高维向量作为各自的embedding特征,并将各embedding特征相加得到一个长输入序列,以作为文本信息特征编码器的输入,同时在每个菜谱文本信息的第一的位置,加入用于标识主动学习分类的CLS标志信息,也即在长输入序列的起始位置附加CLS标志信息的embedding特征,CLS标志信息的embedding特征为将标志位、连通其均为0的位置信息和文本类型标识,通过 wordToembedding方法进行映射后所得。在基本的transformer的CLS对应的输出位置,提取其输出特征,用来进行执行主动学习分类任务,以及在模型训练过程中与其对应的菜谱步骤图特征计算损失。
对于主动学习分类任务的一种可选的实现方式:提取基本的transformer模型的CLS对应的输出特征,如图2所示,该特征首先经过一个全连接层FC,随后通过ReLU进行非线性映射,最后再通过一个全连接层FC,将特征映射到主成分,得到与Main-ing相同的维度,为了便于描述,该特征称为cla, cla会进行分类损失的计算:提取每个菜谱文本的成分信息,该菜谱文本的成分信息与生成的主成分表Main-ing进行比对。若主成分表的成分存在于菜谱文本的成分信息中,则主成分表的对应位置变量置1,否则置0。通过上述操作,会得到一个名为label向量,其维度与Main-ing的行数相同。最后利用上述实施例的损失计算关系式将cla和与其对应的 label 计算用于进行多目标分类的BCELoss。
如图4所示,可采用ResNet骨干网络backbone提取操作图的每一张菜谱步骤图特征,获取ResNet网络在分类层前一层的特征做为每一张图像的特征。然后将菜谱步骤图特征输入到LSTM网络,获取整体菜谱步骤图像组的总体特征,取最后一个LSTM单元的特征编码输出作为菜谱操作图的图像特征。
在得到训练样本集的每组训练样本的菜谱操作图的图像特征和菜谱文本特征信息之后,可采用任何一种现有技术中的损失函数如L1范数损失函数、均方误差损失函数、交叉熵损失等指导模型训练,使其收敛。可选的,为了实现菜谱文本与菜谱步骤图的检索,可将基本的transformer的CLS对应的输出特征作为文本信息特征与最后一个LSTM单元的特征编码输出,基于下述关系式进行损失运算,然后基于梯度反传对上述transformer网络、LSTM网络及ResNet网络参数进行更新:
;
式中,为损失函数,
N为训练样本组数,▽为超参数,在训练时固定,如可设置为0.3。在训练过程中可遍历
N次,
N代表在本batch(批次)中,共有
N个成对的样本。首先对图像组特征进行遍历(共N个),遍历选中的目标就可称为,
a代表anchor(锚点样本)。与锚点样本成对的文本特征编码记为,
p代表positive。在本batch中与不配对的文本特征记为。同理,对于文本特征也做相同的遍历操作,代表遍历中被选中的目标样本,与其对应的正图像组特征样本记为,不对应的记为。
进一步的,菜谱检索终端设备可以包括人机交互模组如显示屏、输入接口、输入键盘等,还包括无线传输模块。当显示屏为触摸屏时,输入键盘可以是在显示屏上呈现的软键盘。输入接口可以用于实现与外部设备如U盘的连接。输入接口可以有多个。在实际应用中,用户可以通过输入键盘向菜谱检索终端设备输入检索请求,检索请求携带待检索信息,如菜谱文本或菜谱操作图,菜谱检索终端可以通过无线传输模块向云服务器发送该检索请求,云服务器基于训练好的文本操作图互检模型检索相应的数据库可以将最终互检索结果反馈至菜谱检索终端设备,菜谱检索终端设备可以通过显示屏向用户展示所检索到的目标菜谱文本或目标菜谱操作图。
本发明实施例还针对训练文本操作图互检模型的方法以及文本操作图互检方法提供了相应的装置,进一步使得方法更具有实用性。其中,装置可从功能模块的角度和硬件的角度分别说明。下面对本发明实施例提供的训练文本操作图互检模型的装置以及文本操作图互检装置进行介绍,下文描述的训练文本操作图互检模型的装置以及文本操作图互检装置与上文描述的训练文本操作图互检模型的方法以及文本操作图互检方法可相互对应参照。
基于功能模块的角度,首先参见图6,图6为本发明实施例提供的训练文本操作图互检模型的装置在一种具体实施方式下的结构图,该装置可包括:
模型构建模块601,用于构建包括文本信息特征编码器和步骤图特征编码器的文本操作图互检模型;
识别信息生成模块602,用于通过分析训练样本集中包含菜谱成分的所有菜谱样本,生成菜谱成分信息;
文本数据处理模块603,用于对训练样本集的每组训练样本,利用文本信息特征编码器提取当前文本样本的主成分特征和菜谱均值特征,并基于菜谱成分信息主动学习主成分特征的虚拟成分标签;菜谱均值特征根据文本信息特征编码器提取当前文本样本的所有文本特征所确定;基于虚拟成分标签和成分预测置信阈值,确定当前文本样本的当前菜谱文本特征为主成分特征还是菜谱均值特征;
图像特征提取模块604,用于利用步骤图特征编码器提取与当前文本样本对应的当前操作图样本的当前菜谱图像特征;
训练模块605,用于将当前菜谱文本特征和当前菜谱图像特征,输入至文本操作图互检模型,进行模型训练。
可选的,在本实施例的一些实施方式中,上述文本数据处理模块603可用于:从虚拟成分标签中确定大于等于成分置信阈值的目标成分,并根据各目标成分对应的置信度确定主成分概率预测置信度;根据主成分概率预测置信度和成分预测置信阈值之间的数值关系,确定当前文本样本的当前菜谱文本特征为主成分特征还是菜谱均值特征。虚拟成分标签中的每个元素,用于表示当前文本样本中包含菜谱成分信息对应主成分的置信度。
作为上述实施例的一种可选的实施方式,上述文本数据处理模块603还可用于:获取当前输出控制模式;若当前输出控制模式为二值切换模式,判断主成分概率预测置信度是否大于成分预测置信阈值;若主成分概率预测置信度大于成分预测置信阈值,则当前文本样本的当前菜谱文本特征为主成分特征;若主成分概率预测置信度小于等于成分预测置信阈值,则当前文本样本的当前菜谱文本特征为菜谱均值特征。
作为上述实施例的另一种可选的实施方式,上述文本数据处理模块603进一步可用于:获取当前输出控制模式;若当前输出控制模式为混合切换模式,比较主成分概率预测置信度与成分预测置信阈值和预设的置信限度阈值之间的数值关系;若主成分概率预测置信度大于成分预测置信阈值,则当前文本样本的当前菜谱文本特征为主成分特征;若主成分概率预测置信度小于等于成分预测置信阈值、且大于等于置信限度阈值,则当前文本样本的当前菜谱文本特征为菜谱均值特征和主成分特征的特征和;若主成分概率预测置信度小于置信限度阈值,则当前文本样本的当前菜谱文本特征为菜谱均值特征。
作为上述实施例的再一种可选的实施方式,上述文本数据处理模块603还可进一步用于:若主成分概率预测置信度小于等于成分预测置信阈值、且大于等于置信限度阈值,则当前文本样本的当前菜谱文本特征为将菜谱均值特征和主成分特征进行特征级联,并通过全连接层处理后的输出特征。
可选的,在本实施例的一些实施方式中,上述识别信息生成模块602还可用于:获取目标菜谱文本样本集的每一个菜谱样本所包含的所有原始成分;对各原始成分进行数据合并处理,以将相同成分的数据合并至一起;统计合并后的各原始成分,确定每类成分对应的总数量;删除总数量小于预设数量阈值的原始成分,得到样本成分;基于各样本成分,生成主成分表。
作为上述实施例的一种可选的实施方式,上述文本数据处理模块603还可进一步用于:将当前文本样本所包含的已有成分与主成分表的样本成分一一进行比对;对每个已有成分,若主成分表中的当前样本成分与当前已有成分相同,则将当前样本成分对应的位置元素设置为第一预设标识值;若主成分表中的当前样本成分与当前已有成分不相同,则将当前样本成分对应的位置元素设置为第二预设标识值;根据主成分表的每个样本成分对应的位置元素的值,生成虚拟成分标签。
可选的,在本实施例的另一些实施方式中,上述文本信息特征编码器可包括输入层、文本特征提取层和输出数据处理层;输入层包括文本数据输入单元和成分识别标志输入单元;文本数据输入单元包括菜名输入单元、菜谱步骤输入单元和成分输入单元,用于依次输入训练样本集的各文本样本的不同类型数据;成分识别标志输入单元,用于输入用于标识执行主动学习成分信息任务的标志位;文本特征提取层为基于转换器的双向编码器,用于对输入层输出信息进行特征提取;输出数据处理层,用于基于标志位,主动学习文本特征提取层所提取的主成分特征对应的虚拟成分标签,并基于虚拟成分标签和成分预测置信阈值确定当前文本样本的当前菜谱文本特征。
作为上述实施例的一种可选的实施方式,输出数据处理层包括特征选择控制器、主成分输出单元和菜谱均值特征输出单元;菜谱均值特征输出单元包括菜名特征输出单元、菜谱步骤特征输出单元和成分特征输出单元,其用于输出菜名特征、菜谱步骤特征和成分特征的特征平均值;主成分输出单元,用于输出主成分特征以及通过执行主动学习任务得到虚拟成分标签;特征选择控制器,用于基于虚拟成分标签和成分预测置信阈值确定当前菜谱文本特征,并切换主成分输出单元和菜谱均值特征输出单元以输出当前菜谱文本特征。
作为上述实施例的另一种可选的实施方式,上述输出数据处理层可包括第一全连接层、映射层、第二全连接层和损失计算层;第一全连接层,用于接收成分识别标志输入单元对应输出的特征信息;映射层,用于对特征信息进行非线性映射处理;第二全连接层,用于将映射处理后所得的特征映射至主成分,得到与菜谱成分信息维度相同的主成分特征;损失计算层,用于基于菜谱成分信息主动学习主成分特征的虚拟成分标签。
作为上述实施例的一种可选的实施方式,上述损失计算层还可用于:根据当前文本样本与菜谱成分信息的比对结果,生成虚拟成分标签;虚拟成分标签对应的向量数据与主成分特征对应的向量数据的维度相同;调用损失计算关系式,计算虚拟成分标签与主成分特征的损失信息,损失计算关系式为:
;
式中,
loss cla 为所述损失信息,
M为所述主成分特征对应为向量数据的维度,
sigmoid()为sigmoid函数,
label m 为所述虚拟成分标签对应为向量数据的第
m个位置上的元素,c
la m 为所述主成分特征对应为向量数据的第
m个位置上的元素。
可选的,在本实施例的其他一些实施方式中,上述装置例如还可包括文本处理模块,用于获取用于标识执行主动学习成分信息任务的标志,并为标识设置文本类型标识值和位置信息值,以生成标志信息;将标志信息的每个单词映射为相应的高维标志向量,以用于输入文本信息特征编码器。
作为上述实施例的一种可选的实施方式,上述文本处理模块还可用于:分别将当前文本样本的菜名、做菜步骤和成分的每个单词映射为相应的高维文本向量,同时将每个单词在相应文本数据中的位置信息、标识文本数据所属数据类型的文本类型标识映射为相应的高维辅助向量;基于各高维文本向量和其相应的高维辅助向量,生成文本向量,以用于输入文本信息特征编码器。
可选的,在本实施例的其他一些实施方式中,上述图像特征提取模块604还可用于:预先训练步骤图特征编码器;步骤图特征编码器包括特征提取网络和特征融合网络;将与当前文本样本对应的当前操作图样本输入至特征提取网络,得到当前操作图样本包含的所有步骤图的图像特征;将各步骤图的图像特征输入至特征融合网络中,得到当前操作图样本的当前菜谱图像特征。
作为上述实施例的一种可选的实施方式,上述图像特征提取模块604还可进一步用于:特征融合网络为长短期记忆神经网络,调用图像特征融合关系式处理各步骤图的图像特征;图像特征融合关系式为:
;
式中,
ħ i 为所述长短期记忆神经网络的第
i个LSTM单元的输出,
LSTM i 为第
i个LSTM单元,
ϕ()为所述特征提取网络的输出,为所述当前操作图样本的第
i张步骤图像,
ħ i-1为所述长短期记忆神经网络的第
i-1个LSTM单元的输出,
I为所述当前操作图样本所包含的步骤图像的总数。
其次,请参见图7,图7为本发明实施例提供的文本操作图互检装置在一种具体实施方式下的结构图,该装置可包括:
模型训练模块701,用于预先利用如上任意一个训练文本操作图互检模型的方法的实施例训练得到文本操作图互检模型;
特征获取模块702,用于获取待检索文本的待匹配文本特征;获取待检索操作图的待匹配图像特征;
互检结果生成模块703,用于将待匹配文本特征和待匹配图像特征,输入至文本操作图互检模型,得到文本操作图互检结果。
本发明实施例跨媒体检索装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例可实现菜谱文本与菜谱步骤图之间的高精度互检索。
上文中提到的训练文本操作图互检模型的装置以及文本操作图互检装置均是从功能模块的角度描述,进一步的,本申请还提供一种电子设备,是从硬件角度描述。图8为本申请实施例提供的电子设备在一种实施方式下的结构示意图。如图8所示,该电子设备包括存储器80,用于存储计算机程序;处理器81,用于执行计算机程序时实现如上述任一实施例提到的训练文本操作图互检模型的方法和/或文本操作图互检方法的步骤。
其中,处理器81可以包括一个或多个处理核心,比如4核心处理器、8核心处理器,处理器81还可为控制器、微控制器、微处理器或其他数据处理芯片等。处理器81可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable GateArray,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器81也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central Processing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器81可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器81还可以包括AI(ArtificialIntelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器80可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器80还可包括高速随机存取存储器以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。存储器80在一些实施例中可以是电子设备的内部存储单元,例如服务器的硬盘。存储器80在另一些实施例中也可以是电子设备的外部存储设备,例如服务器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器80还可以既包括电子设备的内部存储单元也包括外部存储设备。存储器80不仅可以用于存储安装于电子设备的应用软件及各类数据,例如:执行训练文本操作图互检模型的方法和/或文本操作图互检方法过程中使用及产生的程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。本实施例中,存储器80至少用于存储以下计算机程序801,其中,该计算机程序被处理器81加载并执行之后,能够实现前述任一实施例公开的训练文本操作图互检模型的方法和/或文本操作图互检方法的相关步骤。另外,存储器80所存储的资源还可以包括操作系统802和数据803等,存储方式可以是短暂存储或者永久存储。其中,操作系统802可以包括Windows、Unix、Linux等。数据803可以包括但不限于训练文本操作图互检模型过程中所产生的数据以及训练得到的结果数据和/或文本操作图互检结果对应的数据等。
在一些实施例中,上述电子设备还可包括有显示屏82、输入输出接口83、通信接口84或者称为网络接口、电源85以及通信总线86。其中,显示屏82、输入输出接口83比如键盘(Keyboard)属于用户接口,可选的用户接口还可以包括标准的有线接口、无线接口等。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。通信接口84可选的可以包括有线接口和/或无线接口,如WI-FI接口、蓝牙接口等,通常用于在电子设备与其他电子设备之间建立通信连接。通信总线86可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extendedindustry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本领域技术人员可以理解,图8中示出的结构并不构成对该电子设备的限定,可以包括比图示更多或更少的组件,例如还可包括实现各类功能的传感器87。
本发明实施例电子设备的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例可实现菜谱文本与菜谱步骤图之间的高精度互检索。
可以理解的是,如果上述实施例中的训练文本操作图互检模型的方法和/或文本操作图互检方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电可擦除可编程ROM、寄存器、硬盘、多媒体卡、卡型存储器(例如SD或DX存储器等)、磁性存储器、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。
基于此,本发明实施例还提供了一种可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时如上任意一实施例所述训练文本操作图互检模型的方法和/或文本操作图互检方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的硬件包括装置及电子设备而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上对本申请所提供的一种文本操作图互检方法及装置、训练文本操作图互检模型的方法及装置、电子设备、可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (16)
1.一种训练文本操作图互检模型的方法,其特征在于,包括:
预先构建包括文本信息特征编码器和步骤图特征编码器的文本操作图互检模型,并通过分析目标菜谱文本样本集中的各菜谱样本所包含的菜谱成分,生成菜谱成分信息;
对训练样本集的每组训练样本,利用所述文本信息特征编码器提取当前文本样本的主成分特征和菜谱均值特征,并基于所述菜谱成分信息主动学习所述主成分特征的虚拟成分标签;所述菜谱均值特征根据所述文本信息特征编码器提取所述当前文本样本的所有文本特征所确定;
基于所述虚拟成分标签和成分预测置信阈值,确定所述当前文本样本的当前菜谱文本特征为主成分特征还是菜谱均值特征;
利用所述步骤图特征编码器提取与所述当前文本样本对应的当前操作图样本的当前菜谱图像特征;
将所述当前菜谱文本特征和所述当前菜谱图像特征,输入至所述文本操作图互检模型,进行模型训练;
其中,所述基于所述虚拟成分标签和成分预测置信阈值,确定所述当前文本样本的当前菜谱文本特征为主成分特征还是菜谱均值特征,包括:
判断当前输出控制模式为二值切换模式还是混合切换模式;
若所述当前输出控制模式为二值切换模式,判断主成分概率预测置信度是否大于所述成分预测置信阈值;所述主成分概率预测置信度为根据各目标成分对应的置信度来确定;
若所述主成分概率预测置信度大于所述成分预测置信阈值,则所述当前文本样本的当前菜谱文本特征为主成分特征;若所述主成分概率预测置信度小于等于所述成分预测置信阈值,则所述当前文本样本的当前菜谱文本特征为菜谱均值特征;
若所述当前输出控制模式为混合切换模式,比较所述主成分概率预测置信度与所述成分预测置信阈值和预设的置信限度阈值之间的数值关系;若所述主成分概率预测置信度大于所述成分预测置信阈值,则所述当前文本样本的当前菜谱文本特征为主成分特征;若所述主成分概率预测置信度小于等于所述成分预测置信阈值、且大于等于所述置信限度阈值,则所述当前文本样本的当前菜谱文本特征为所述菜谱均值特征和所述主成分特征的特征和;若所述主成分概率预测置信度小于所述置信限度阈值,则所述当前文本样本的当前菜谱文本特征为菜谱均值特征;
其中,所述文本信息特征编码器包括输入层、文本特征提取层和输出数据处理层;
所述输入层包括文本数据输入单元和成分识别标志输入单元;所述文本数据输入单元包括菜名输入单元、菜谱步骤输入单元和成分输入单元,用于依次输入所述训练样本集的各文本样本的不同类型数据;所述成分识别标志输入单元,用于输入用于标识执行主动学习成分信息任务的标志位;
所述文本特征提取层为基于转换器的双向编码器,用于对所述输入层输出信息进行特征提取;
所述输出数据处理层,用于基于所述标志位,主动学习所述文本特征提取层所提取的主成分特征对应的虚拟成分标签,并基于所述虚拟成分标签和成分预测置信阈值确定所述当前文本样本的当前菜谱文本特征;
其中,所述输出数据处理层包括特征选择控制器、主成分输出单元和菜谱均值特征输出单元;
所述菜谱均值特征输出单元包括菜名特征输出单元、菜谱步骤特征输出单元和成分特征输出单元,其用于输出菜名特征、菜谱步骤特征和成分特征的特征平均值;
所述主成分输出单元,用于输出主成分特征以及通过执行主动学习任务得到虚拟成分标签;
所述特征选择控制器,用于基于所述虚拟成分标签和成分预测置信阈值确定当前菜谱文本特征,并切换所述主成分输出单元和所述菜谱均值特征输出单元以输出当前菜谱文本特征。
2.根据权利要求1所述的训练文本操作图互检模型的方法,其特征在于,所述基于所述虚拟成分标签和成分预测置信阈值,确定所述当前文本样本的当前菜谱文本特征为主成分特征还是菜谱均值特征,包括:
所述虚拟成分标签中的每个元素,用于表示所述当前文本样本中包含所述菜谱成分信息对应主成分的置信度;
从所述虚拟成分标签中确定大于等于成分置信阈值的目标成分,并根据各目标成分对应的置信度确定主成分概率预测置信度;
根据所述主成分概率预测置信度和所述成分预测置信阈值之间的数值关系,确定所述当前文本样本的当前菜谱文本特征为主成分特征还是菜谱均值特征。
3.根据权利要求1所述的训练文本操作图互检模型的方法,其特征在于,所述若所述当前输出控制模式为混合切换模式,比较所述主成分概率预测置信度与所述成分预测置信阈值和所述置信限度阈值之间的数值关系之和,包括:
若所述主成分概率预测置信度小于等于所述成分预测置信阈值、且大于等于所述置信限度阈值,则所述当前文本样本的当前菜谱文本特征为将所述菜谱均值特征和所述主成分特征进行特征级联,并通过全连接层处理后的输出特征。
4.根据权利要求1所述的训练文本操作图互检模型的方法,其特征在于,所述主成分输出单元包括第一全连接层、映射层、第二全连接层和损失计算层;
所述第一全连接层,用于接收所述成分识别标志输入单元对应输出的特征信息;
所述映射层,用于对所述特征信息进行非线性映射处理;
所述第二全连接层,用于将映射处理后所得的特征映射至主成分,得到与所述菜谱成分信息维度相同的主成分特征;
所述损失计算层,用于基于所述菜谱成分信息主动学习所述主成分特征的虚拟成分标签。
5.根据权利要求4所述的训练文本操作图互检模型的方法,其特征在于,所述基于所述菜谱成分信息主动学习所述主成分特征的虚拟成分标签,包括:
根据所述当前文本样本与所述菜谱成分信息的比对结果,生成虚拟成分标签;所述虚拟成分标签对应的向量数据与所述主成分特征对应的向量数据的维度相同;
调用损失计算关系式,计算所述虚拟成分标签与所述主成分特征的损失信息,所述损失计算关系式为:
;
式中,loss cla 为所述损失信息,M为所述主成分特征对应为向量数据的维度,sigmoid()为sigmoid函数,label m 为所述虚拟成分标签对应为向量数据的第m个位置上的元素,cla m 为所述主成分特征对应为向量数据的第m个位置上的元素。
6.根据权利要求5所述的训练文本操作图互检模型的方法,其特征在于,所述通过分析目标菜谱文本样本集中的各菜谱样本所包含的菜谱成分,生成菜谱成分信息,包括:
获取所述目标菜谱文本样本集的每一个菜谱样本所包含的所有原始成分;
对各原始成分进行数据合并处理,以将相同成分的数据合并至一起;
统计合并后的各原始成分,确定每类成分对应的总数量;
删除总数量小于预设数量阈值的原始成分,得到样本成分;
基于各样本成分,生成主成分表。
7.根据权利要求6所述的训练文本操作图互检模型的方法,其特征在于,所述根据所述当前文本样本与所述菜谱成分信息的比对结果,生成虚拟成分标签,包括:
将所述当前文本样本所包含的已有成分与所述主成分表的样本成分一一进行比对;
对每个已有成分,若所述主成分表中的当前样本成分与当前已有成分相同,则将所述当前样本成分对应的位置元素设置为第一预设标识值;
若所述主成分表中的当前样本成分与当前已有成分不相同,则将所述当前样本成分对应的位置元素设置为第二预设标识值;
根据所述主成分表的每个样本成分对应的位置元素的值,生成所述虚拟成分标签。
8.根据权利要求1至7任意一项所述的训练文本操作图互检模型的方法,其特征在于,所述利用所述文本信息特征编码器提取当前文本样本的主成分特征和菜谱均值特征,并基于所述菜谱成分信息主动学习所述主成分特征的虚拟成分标签之前,还包括:
获取用于标识执行主动学习成分信息任务的标志,并为所述标识设置文本类型标识值和位置信息值,以生成标志信息;
将所述标志信息的每个单词映射为相应的高维标志向量,以用于输入所述文本信息特征编码器。
9.根据权利要求8所述的训练文本操作图互检模型的方法,其特征在于,所述利用所述文本信息特征编码器提取当前文本样本的主成分特征和菜谱均值特征组之前,还包括:
分别将所述当前文本样本的菜名、做菜步骤和成分的每个单词映射为相应的高维文本向量,同时将每个单词在相应文本数据中的位置信息、标识文本数据所属数据类型的文本类型标识映射为相应的高维辅助向量;
基于各高维文本向量和其相应的高维辅助向量,生成文本向量,以用于输入所述文本信息特征编码器。
10.根据权利要求1所述的训练文本操作图互检模型的方法,其特征在于,所述利用所述步骤图特征编码器提取与所述当前文本样本对应的当前操作图样本的当前菜谱图像特征,包括:
预先训练步骤图特征编码器;所述步骤图特征编码器包括特征提取网络和特征融合网络;
将与所述当前文本样本对应的当前操作图样本输入至所述特征提取网络,得到所述当前操作图样本包含的所有步骤图的图像特征;
将各步骤图的图像特征输入至特征融合网络中,得到所述当前操作图样本的当前菜谱图像特征。
11.根据权利要求10所述的训练文本操作图互检模型的方法,其特征在于,所述特征融合网络为长短期记忆神经网络,所述将各步骤图的图像特征输入至特征融合网络中,得到所述当前操作图样本的当前菜谱图像特征,包括:
调用图像特征融合关系式处理各步骤图的图像特征;所述图像特征融合关系式为:
;
式中,为所述长短期记忆神经网络的第i个LSTM单元的输出,LSTM i 为第i个LSTM单元,为所述特征提取网络的输出,为所述当前操作图样本的第i张步骤图像,为所述长短期记忆神经网络的第i-1个LSTM单元的输出,I为所述当前操作图样本所包含的步骤图像的总数。
12.一种文本操作图互检方法,其特征在于,包括:
预先利用如权利要求1至11任意一项所述的训练文本操作图互检模型的方法,训练得到文本操作图互检模型;
获取待检索文本的待匹配文本特征;
获取待检索操作图的待匹配图像特征;
将所述待匹配文本特征和所述待匹配图像特征,输入至所述文本操作图互检模型,得到文本操作图互检结果。
13.一种训练文本操作图互检模型的装置,其特征在于,包括:
模型构建模块,用于构建包括文本信息特征编码器和步骤图特征编码器的文本操作图互检模型;
识别信息生成模块,用于通过分析训练样本集中包含菜谱成分的所有菜谱样本,生成菜谱成分信息;
文本数据处理模块,用于对所述训练样本集的每组训练样本,利用所述文本信息特征编码器提取当前文本样本的主成分特征和菜谱均值特征,并基于所述菜谱成分信息主动学习所述主成分特征的虚拟成分标签;所述菜谱均值特征根据所述文本信息特征编码器提取所述当前文本样本的所有文本特征所确定;基于所述虚拟成分标签和成分预测置信阈值,确定所述当前文本样本的当前菜谱文本特征为主成分特征还是菜谱均值特征;图像特征提取模块,用于利用所述步骤图特征编码器提取与所述当前文本样本对应的当前操作图样本的当前菜谱图像特征;
训练模块,用于将所述当前菜谱文本特征和所述当前菜谱图像特征,输入至所述文本操作图互检模型,进行模型训练;
其中,所述文本数据处理模块进一步用于:
判断当前输出控制模式为二值切换模式还是混合切换模式;
若所述当前输出控制模式为二值切换模式,判断主成分概率预测置信度是否大于所述成分预测置信阈值;所述主成分概率预测置信度为根据各目标成分对应的置信度来确定;
若所述主成分概率预测置信度大于所述成分预测置信阈值,则所述当前文本样本的当前菜谱文本特征为主成分特征;若所述主成分概率预测置信度小于等于所述成分预测置信阈值,则所述当前文本样本的当前菜谱文本特征为菜谱均值特征;
若所述当前输出控制模式为混合切换模式,比较所述主成分概率预测置信度与所述成分预测置信阈值和预设的置信限度阈值之间的数值关系;若所述主成分概率预测置信度大于所述成分预测置信阈值,则所述当前文本样本的当前菜谱文本特征为主成分特征;若所述主成分概率预测置信度小于等于所述成分预测置信阈值、且大于等于所述置信限度阈值,则所述当前文本样本的当前菜谱文本特征为所述菜谱均值特征和所述主成分特征的特征和;若所述主成分概率预测置信度小于所述置信限度阈值,则所述当前文本样本的当前菜谱文本特征为菜谱均值特征;
其中,所述文本信息特征编码器包括输入层、文本特征提取层和输出数据处理层;
所述输入层包括文本数据输入单元和成分识别标志输入单元;所述文本数据输入单元包括菜名输入单元、菜谱步骤输入单元和成分输入单元,用于依次输入所述训练样本集的各文本样本的不同类型数据;所述成分识别标志输入单元,用于输入用于标识执行主动学习成分信息任务的标志位;
所述文本特征提取层为基于转换器的双向编码器,用于对所述输入层输出信息进行特征提取;
所述输出数据处理层,用于基于所述标志位,主动学习所述文本特征提取层所提取的主成分特征对应的虚拟成分标签,并基于所述虚拟成分标签和成分预测置信阈值确定所述当前文本样本的当前菜谱文本特征;
其中,所述输出数据处理层包括特征选择控制器、主成分输出单元和菜谱均值特征输出单元;
所述菜谱均值特征输出单元包括菜名特征输出单元、菜谱步骤特征输出单元和成分特征输出单元,其用于输出菜名特征、菜谱步骤特征和成分特征的特征平均值;
所述主成分输出单元,用于输出主成分特征以及通过执行主动学习任务得到虚拟成分标签;
所述特征选择控制器,用于基于所述虚拟成分标签和成分预测置信阈值确定当前菜谱文本特征,并切换所述主成分输出单元和所述菜谱均值特征输出单元以输出当前菜谱文本特征。
14.一种文本操作图互检装置,其特征在于,包括:
模型训练模块,用于预先利用如权利要求1至11任意一项所述的训练文本操作图互检模型的方法,训练得到文本操作图互检模型;
特征获取模块,用于获取待检索文本的待匹配文本特征;获取待检索操作图的待匹配图像特征;
互检结果生成模块,用于将所述待匹配文本特征和所述待匹配图像特征,输入至所述文本操作图互检模型,得到文本操作图互检结果。
15.一种电子设备,其特征在于,包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至11任一项所述训练文本操作图互检模型的方法和/或如权利要求12所述文本操作图互检方法的步骤。
16.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至11任一项所述训练文本操作图互检模型的和/或如权利要求12所述文本操作图互检方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211388902.8A CN115618043B (zh) | 2022-11-08 | 2022-11-08 | 文本操作图互检方法及模型训练方法、装置、设备、介质 |
PCT/CN2023/101222 WO2024098763A1 (zh) | 2022-11-08 | 2023-06-20 | 文本操作图互检方法及模型训练方法、装置、设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211388902.8A CN115618043B (zh) | 2022-11-08 | 2022-11-08 | 文本操作图互检方法及模型训练方法、装置、设备、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115618043A CN115618043A (zh) | 2023-01-17 |
CN115618043B true CN115618043B (zh) | 2023-04-07 |
Family
ID=84877991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211388902.8A Active CN115618043B (zh) | 2022-11-08 | 2022-11-08 | 文本操作图互检方法及模型训练方法、装置、设备、介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115618043B (zh) |
WO (1) | WO2024098763A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115618043B (zh) * | 2022-11-08 | 2023-04-07 | 苏州浪潮智能科技有限公司 | 文本操作图互检方法及模型训练方法、装置、设备、介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111651674B (zh) * | 2020-06-03 | 2023-08-25 | 北京妙医佳健康科技集团有限公司 | 双向搜索方法、装置及电子设备 |
CN112925935B (zh) * | 2021-04-13 | 2022-05-06 | 电子科技大学 | 基于模态内及模态间混合融合的图像菜谱检索方法 |
CN114969405B (zh) * | 2022-04-30 | 2024-01-26 | 苏州浪潮智能科技有限公司 | 一种跨模态图文互检方法 |
CN114896249A (zh) * | 2022-05-18 | 2022-08-12 | 河北大学 | 非平衡区域树索引结构以及n维空间逆近邻查询算法 |
CN115062208B (zh) * | 2022-05-30 | 2024-01-23 | 苏州浪潮智能科技有限公司 | 数据处理方法、系统及计算机设备 |
CN114896429B (zh) * | 2022-07-12 | 2022-12-27 | 苏州浪潮智能科技有限公司 | 一种图文互检方法、系统、设备及计算机可读存储介质 |
CN114896373B (zh) * | 2022-07-15 | 2022-12-09 | 苏州浪潮智能科技有限公司 | 图文互检模型训练方法及装置、图文互检方法、设备 |
CN115618043B (zh) * | 2022-11-08 | 2023-04-07 | 苏州浪潮智能科技有限公司 | 文本操作图互检方法及模型训练方法、装置、设备、介质 |
-
2022
- 2022-11-08 CN CN202211388902.8A patent/CN115618043B/zh active Active
-
2023
- 2023-06-20 WO PCT/CN2023/101222 patent/WO2024098763A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
CN115618043A (zh) | 2023-01-17 |
WO2024098763A1 (zh) | 2024-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920622B (zh) | 一种意图识别的训练方法、训练装置和识别装置 | |
CN114155543B (zh) | 神经网络训练方法、文档图像理解方法、装置和设备 | |
CN113313022B (zh) | 文字识别模型的训练方法和识别图像中文字的方法 | |
CN113297975A (zh) | 表格结构识别的方法、装置、存储介质及电子设备 | |
CN109840287A (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
WO2024098533A1 (zh) | 图文双向搜索方法、装置、设备及非易失性可读存储介质 | |
WO2021208727A1 (zh) | 基于人工智能的文本错误检测方法、装置、计算机设备 | |
WO2024098524A1 (zh) | 文本视频的互检索及模型训练方法、装置、设备及介质 | |
CN115658955B (zh) | 跨媒体检索及模型训练方法、装置、设备、菜谱检索系统 | |
CN110619051A (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN110263218B (zh) | 视频描述文本生成方法、装置、设备和介质 | |
CN114358203A (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN116152833B (zh) | 基于图像的表格还原模型的训练方法及表格还原方法 | |
CN115618043B (zh) | 文本操作图互检方法及模型训练方法、装置、设备、介质 | |
CN114896067A (zh) | 任务请求信息的自动生成方法、装置、计算机设备及介质 | |
CN112214595A (zh) | 类别确定方法、装置、设备及介质 | |
CN114266252A (zh) | 命名实体识别方法、装置、设备及存储介质 | |
CN117634459A (zh) | 目标内容生成及模型训练方法、装置、系统、设备及介质 | |
CN111986259A (zh) | 颜文字检测模型的训练、视频数据的审核方法及相关装置 | |
CN114707017A (zh) | 视觉问答方法、装置、电子设备和存储介质 | |
CN113688232A (zh) | 招标文本分类方法、装置、存储介质及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |