CN117033657A - 一种信息检索方法及装置 - Google Patents
一种信息检索方法及装置 Download PDFInfo
- Publication number
- CN117033657A CN117033657A CN202310973364.7A CN202310973364A CN117033657A CN 117033657 A CN117033657 A CN 117033657A CN 202310973364 A CN202310973364 A CN 202310973364A CN 117033657 A CN117033657 A CN 117033657A
- Authority
- CN
- China
- Prior art keywords
- data
- image
- text
- audio
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 48
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 47
- 238000003062 neural network model Methods 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 238000003860 storage Methods 0.000 claims abstract description 11
- 238000013507 mapping Methods 0.000 claims abstract description 10
- 238000010276 construction Methods 0.000 claims abstract description 7
- 230000004927 fusion Effects 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 25
- 238000007781 pre-processing Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 4
- 238000012423 maintenance Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 16
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000004075 alteration Effects 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种信息检索方法及装置,方法包括:获取各模态数据,得到多模态数据集;对多模态数据集中的数据根据数据类型进行特征提取,将得到的特征向量融合,构建循环神经网络模型,通过特征向量对循环神经网络模型进行训练;通过循环神经网络模型对多模态数据进行多模态语义解析;将不同模态数据的语义表示映射到知识图谱的实体和关系上,实现跨模态的语义关联,对跨模态数据进行语义推理和关联;对实体和关系使用图数据库或知识图谱存储引擎进行图谱构建和查询。本发明方法能够将不同模态的数据进行综合,形成一体化的知识表示,使得知识图谱能够提供更全面、准确的知识服务,支持更精确的查询和应用服务。
Description
技术领域
本发明涉及一种信息检索方法及装置,属于知识图谱技术领域。
背景技术
传统的基于文本模态的知识图谱已经无法满足现代社会的需求。多模态知识图谱系统,能够有效整合多种媒体数据,并提供跨模态的语义分析和关联,对于提升数据管理效率有重要意义。
如申请号为CN202211367866.7的专利公开了一种基于知识图谱的搜索系统,该系统根据目标用户预设值的实体标签信息,在用户输入实体信息后检索出相应多个实体信息,该系统存在数据类型单一,信息匮乏,泛化能力弱的问题,无法提供更准确、丰富的知识服务,难以挖掘实体间隐含关系。
在多模态知识图谱系统中,整合来自不同模态的数据是要点之一,如文本数据、图像数据、声音数据、视频数据等。多模态知识图谱系统需要能够自动从这些不同媒体和模态中获取数据,并将其整合到一个统一的知识图谱中。
另一个关键的问题是如何进行深度模态分析和特征提取,如图像数据和声音数据中包含着丰富的信息。
跨模态的语义关联和推理也是多模态知识图谱系统的关键问题之一。不同模态的数据之间存在着丰富的语义关系。多模态知识图谱系统需要能够在知识图谱中建立这些跨模态的语义关联,以提供更准确和全面的知识查询和应用服务。
发明内容
为了克服上述问题,本发明提供一种信息检索方法装置,该方法能够将不同模态的数据进行综合,形成一体化的知识表示。通过整合图像、声音、文本等多种数据类型,可以建立更全面、多维的知识图谱,涵盖了丰富的信息和语义关联。这种综合性和一体化的设计使得知识图谱能够提供更全面、准确的知识服务,支持更精确的查询和应用服务。
本发明的技术方案如下:
第一方面
一种信息检索方法,包括:
获取各模态数据,得到多模态数据集;
深度模态分析与特征提取,对所述多模态数据集中的数据根据数据类型进行特征提取,将得到的特征向量融合,构建循环神经网络模型,通过所述特征向量对所述循环神经网络模型进行训练;
通过所述循环神经网络模型对多模态数据进行多模态语义解析,得到不同模态数据的语义表示;
将不同模态数据的所述语义表示映射到知识图谱的实体和关系上,实现跨模态的语义关联,对跨模态数据进行语义推理和关联;
对所述实体和所述关系使用图数据库或知识图谱存储引擎进行图谱构建和查询,定期更新和维数数据,处理新增数据和变更数据。
进一步的,还包括对所述多模态数据集中数据的预处理,对所述多模态数据集中数据模态为图像的数据预处理包括直方图均衡化,具体为:
将图像转换为灰度图像;
计算灰度图像的直方图,统计每个灰度级别的像素数量;
计算灰度图像的累积直方图,将所述直方图的值进行累积求和;
根据累积直方图进行像素值映射,计算新的像素值,公式如下:
NewPixel=round((L-1)*CumulativeHist[OriginalPixel]/(ImageWidth*ImageHeight));
其中,NewPixel为映射后的像素值,OriginalPixel为原始图像的像素值,L为灰度级别数量,CumulativeHist[]为累计直方图,ImageWidth为图像宽度,ImageHeight为图像高度,round()为取整函数;
根据映射后新的像素值重构图像,将新的像素值替换原始图像中的对应像素值。
进一步的,对数据模态为图像的数据预处理还包括图像去噪,具体为:
通过中值滤波、或高斯滤波算法对重构后的图像进行去噪处理。
进一步的,对数据模态为图像的数据预处理还包括图像尺寸调整,具体为:
确定需求图像的尺寸大小;
通过最近邻差值或双线性插值算法对去噪后的图像进行尺寸调整。
进一步的,还包括对所述多模态数据集中数据的预处理,对所述多模态数据集中数据模态为音频的数据进行以下预处理:
将音频信号分成若干短时间窗口;
对各所述短时间窗口应用傅里叶变换,得到频谱表示,变换公式如下:
其中,X(t,f)为在时间t和频率f处的频谱表示,x(n)为音频信号中的样本值,w(n-t)为窗函数,用于限制样本的时间范围,j为虚数单位,e为自然常数,F为采样频率,n为离散时间点的索引,N为窗函数的长度。
进一步的,还包括对所述多模态数据集中数据的预处理,对所述多模态数据集中数据模态为文本的数据进行以下预处理:
通过文本处理工具,去除特殊字符,通过停用词列表,去除停用词;
通过预设规则将文本划分为单个的词语或单词,通过概率模型或统计方法,对文本进行分词;
词向量表示,通过神经网络模型将每个词映射为高维空间中的向量表示。
进一步的,对所述多模态数据集中的数据根据数据类型进行特征提取,将得到的特征向量融合包括:
对于图像数据,使用卷积神经网络进行特征提取,对于文本数据,使用循环神经网络进行特征提取,对于音频数据,使用循环神经网络进行声学特征提取;
将不同模态的特征进行融合,获取多模态数据的联合表示,包括:
为不同模态的特征分配不同的权重,公式如下:
X1weighted=X1*w1;
X2weighted=X2*w2;
其中,X1weighted、X2weighted分别为特征向量X1和X2加权后的特征向量,w1、w2分别为特征向量X1、X2所属模态的特征权重;
对加权后的特征向量进行求和,公式如下:
Xfused=X1weighted+X2weighted;
其中,Xfused为融合后的特征向量。
进一步的,构建循环神经网络模型,通过所述特征向量对所述循环神经网络模型进行训练具体为:
将多模态数据集中的数据划分为训练集、验证集和测试集;
定义循环神经网络模型,使用循环神经网络模型对多模态数据进行建模,通过多个并行的循环神经网络分别处理融合后的特征向量的不同模态的信息,并输出:
ht=RNN(xt,h{t-1});
其中,ht表示循环神经网络模型在时间步t的隐含信息,xt为融合后的特征向量,h{t-1}表示循环神经网络模型在时间步t-1的隐含信息;
将训练集输入循环神经网络模型,通过反向传播算法和优化算法对模型参数进行更新,以最小化损失函数。
进一步的,将不同模态数据的所述语义表示映射到知识图谱的实体和关系上,实现跨模态的语义关联,对跨模态数据进行语义推理和关联包括:
跨模态语义关联建模,通过定义相似度度量计算不同模态之间的语义关联度,公式如下:
Simage_text=similarity(Ximage,xtext);
Stext_audio=similarity(Xtext,Xaudio);
Saudio_image=similarity(Xaudio,Ximage);
其中,Ximage为图像数据的特征表示,Xtext为文本数据的特征表示,Xaudio为音频数据的特征表示,Simage_text为图像数据与文本数据之间的相似度,Stext_audio为文本数据与音频数据之间的相似度,Saudio_image为音频数据与图像数据之间的相似度,similarity(,)为相似度函数;
跨模态语义关联表示,使用快模态语义关联度量构建欧泰语义关联表示,将不同模态的数据相联系,形成跨模态语义表达,公式如下:
Ximage_text=fusion(Ximage,Simage_text,Xtext);
Xtext_audio=fusion(Xtext,Stext_audio,Xaudio);
Xaudio_image=fusion(Xaudio,Saudio_image,Ximage);
其中,Ximage_text为图像数据与文本数据的跨模态语义关联表示,Xtext_audio为文本数据和音频数据的跨模态语义关联表示,Xaudio_image为音频数据和图像数据的跨模态语义关联表示,fusion(,)为融合函数;
跨模态推理,通过跨模态语义关联的信息进行信息的补充或预测,使用生成对抗网络和变分自编码器模型进行跨模态推理,模型如下:
Xgenerated_audio=GAN(Ximage_text,Ximage);
Xgenerated_image=GAN(Xtext_audio,Xtext);
Xcompleted_text=VAE(Xaudio_image,Xaudio);
其中,Xgenerated_audio为通过图像文本生成语音,Xgenerated_image为通过文本生成的图像,Xcompleted_text为通过语音补全的文本,GAN(,)为生成对抗网络,VAE(,)为变分自编码器。
第二方面
一种信息检索装置,其特征在于,包括:
数据采集模块,所述数据采集模块采集各模态数据,组成多模态数据集;
深度模态分析与特征提取模块,所述深度模态分析与特征提取模块对所述多模态数据集中的数据根据数据类型进行特征提取,将得到的特征向量融合,构建循环神经网络模型,通过所述特征向量对所述循环神经网络模型进行训练;通过所述循环神经网络模型对多模态数据进行多模态语义解析,得到不同模态数据的语义表示;
跨模态语义关联与推理模块,所述跨模态语义关联与推理模块将不同模态数据的所述语义表示映射到知识图谱的实体和关系上,实现跨模态的语义关联,对跨模态数据进行语义推理和关联;
知识图谱构建与维护模块,所述知识图谱构建与维护模块对所述实体和所述关系使用图数据库或知识图谱存储引擎进行图谱构建和查询,定期更新和维数数据,处理新增数据和变更数据。
本发明具有如下有益效果:
1.该方法能够将不同模态的数据进行综合,形成一体化的知识表示。通过整合图像、声音、文本等多种数据类型,可以建立更全面、多维的知识图谱,涵盖了丰富的信息和语义关联。这种综合性和一体化的设计使得知识图谱能够提供更全面、准确的知识服务,支持更精确的查询和应用服务。
2.该方法知识图谱的构建过程可以根据实际需求和数据特点进行灵活调整,包括增加新的数据模态、扩展图谱的实体和关系等。这使得知识图谱能够适应不同规模和复杂度的电力系统,随着数据的增长和更新而持续发展。同时,知识图谱的存储和查询引擎也具备高度的可扩展性,能够支持大规模数据的存储和高效的查询操作。
3.该方法通过知识推理和关联分析技术,可以在知识图谱中进行智能推理、模式发现和关联分析。这使得知识图谱具备了发现隐藏模式和规律的能力,从而为决策和问题解决提供更深入、精确的知识支持。在电力领域,这种智能化和推理能力可以用于电力系统的优化调度、故障诊断和预测等方面,提高系统的效率和可靠性。
附图说明
图1为本发明实施例的流程示意图。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的说明。
第一方面
参考图1,一种信息检索方法,包括:
数据整合与预处理,获取各模态数据,得到多模态数据集;
深度模态分析与特征提取,对所述多模态数据集中的数据根据数据类型进行特征提取,将得到的特征向量融合,构建循环神经网络模型,通过所述特征向量对所述循环神经网络模型进行训练;
通过所述循环神经网络模型对多模态数据进行多模态语义解析,得到不同模态数据的语义表示;
跨模态语义关联与推理,将不同模态数据的所述语义表示映射到知识图谱的实体和关系上,实现跨模态的语义关联,对跨模态数据进行语义推理和关联,提供知识查询和应用服务;
知识图谱构建与维护,对所述实体和所述关系使用图数据库或知识图谱存储引擎进行图谱构建和查询,定期更新和维数数据,处理新增数据和变更数据。
在本发明的一种实施方式,还包括对所述多模态数据集中数据的预处理,对所述多模态数据集中数据模态为图像的数据预处理包括直方图均衡化,具体为:
将图像转换为灰度图像;
计算灰度图像的直方图,统计每个灰度级别的像素数量;
计算灰度图像的累积直方图,将所述直方图的值进行累积求和;
根据累积直方图进行像素值映射,计算新的像素值,公式如下:
NewPixel=round((L-1)*CumulativeHist[OriginalPixel]/(ImageWidth*ImageHeight));
其中,NewPixel为映射后的像素值,OriginalPixel为原始图像的像素值,L为灰度级别数量,CumulativeHist[]为累计直方图,ImageWidth为图像宽度,ImageHeight为图像高度,round()为取整函数;
根据映射后新的像素值重构图像,将新的像素值替换原始图像中的对应像素值。
在本发明的一种实施方式在中,对数据模态为图像的数据预处理还包括图像去噪,具体为:
通过中值滤波、或高斯滤波算法对重构后的图像进行去噪处理。
在本发明的一种实施方式中,对数据模态为图像的数据预处理还包括图像尺寸调整,具体为:
确定需求图像的尺寸大小;
通过最近邻差值或双线性插值算法对去噪后的图像进行尺寸调整。
通过上述技术方案中的步骤,可以对图像进行预处理,提高图像的质量、清晰度和可用性。这些步骤可以根据具体应用场景的需求进行调整和组合,以达到最佳的预处理效果。
在本发明的一种实施方式中,还包括对所述多模态数据集中数据的预处理,对所述多模态数据集中数据模态为音频的数据进行以下预处理:
将音频信号分成若干短时间窗口;
对各所述短时间窗口应用傅里叶变换,得到频谱表示,变换公式如下:
其中,X(t,f)为在时间t和频率f处的频谱表示,x(n)为音频信号中的样本值,w(n-t)为窗函数,用于限制样本的时间范围,j为虚数单位,e为自然常数,F为采样频率,n为离散时间点的索引,N为窗函数的长度。
在本发明的一种实施方式中,还包括对所述多模态数据集中数据的预处理,对所述多模态数据集中数据模态为文本的数据进行以下预处理:
文本清洗,通过文本处理工具,去除特殊字符,通过停用词列表,去除停用词;
分词,通过预设规则将文本划分为单个的词语或单词,通过概率模型或统计方法,对文本进行分词;
词向量表示,通过神经网络模型将每个词映射为高维空间中的向量表示。
在本发明的一种具体实施例中,搜索词向量表示通过训练神经网络模型Word2Vec,将每个词语映射为高维空间中的向量表示。
本发明多模态数据融合与对齐技术,将来自不同媒体和模态的数据进行有效整合。利用深度学习和注意力机制,将文本、图像、声音和视频等多模态数据映射到统一的语义空间中,实现跨模态的语义对齐和关联。这样可以更好地理解不同模态数据之间的关系,提高知识图谱的全面性和准确性。
在本发明的一种实施方式,对所述多模态数据集中的数据根据数据类型进行特征提取,将得到的特征向量融合包括:
特征提取,对于图像数据,使用卷积神经网络进行特征提取,卷积神经网络(CNN)在图像处理领域中表现出色,其在图像特征提取方面具有以下优势:
1.局部感知性:CNN通过卷积操作可以捕捉图像中的局部特征,通过共享权重的方式可以有效地提取出图像中的空间局部结构信息。
2.参数共享:CNN中的权重共享可以大幅减少网络的参数量,提高模型的训练效率,并且使得网络对于输入图像的平移、旋转等变换具有一定的不变性和鲁棒性。
3.多层次抽象:CNN通常由多个卷积层和池化层组成,这些层次的堆叠可以实现对图像特征的多层次抽象。低层次的卷积层可以捕捉图像的边缘、纹理等低级特征,而高层次的卷积层则可以提取更加抽象的语义特征。
4.预训练模型:由于计算机视觉领域的大量研究和发展,已经存在许多在大规模图像数据集上预训练的卷积神经网络模型(如VGG、ResNet、Inception等)。这些预训练模型可以直接应用于特定的图像任务,并且能够提供较好的特征表示。
对于文本数据,使用循环神经网络进行特征提取,循环神经网络(RNN)在处理序列数据(如文本)时具有以下优势:
1.上下文建模:RNN能够通过记忆先前的信息,对当前的输入进行上下文建模。在处理文本数据时,RNN能够捕捉到词语之间的依赖关系,具有较好的顺序建模能力。
2.可变长度输入:文本数据的长度通常是可变的,RNN可以适应不同长度的输入序列,而不需要固定大小的输入。这使得RNN在处理自然语言处理任务时具有较强的灵活性。
3.参数共享:与CNN类似,RNN在时间步上共享参数,减少了模型的参数量,提高了训练效率。
4.长期依赖捕捉:通过门控单元(如长短期记忆LSTM和门控循环单元GRU),RNN能够在处理长序列时更好地捕捉到长期依赖关系,解决了传统的循环神经网络中的梯度消失和梯度爆炸问题。
对于音频数据,使用循环神经网络进行声学特征提取,在语音识别和语音处理领域,循环神经网络(RNN)被广泛应用于声学特征提取,主要原因如下:
1.序列建模:语音信号是时间序列信号,RNN能够建模音频信号的时间依赖关系,捕捉到语音中的时序信息。
2.上下文信息:语音识别需要考虑到当前帧与前后帧之间的联系,RNN能够将前面的上下文信息编码到当前帧的特征表示中,提供更丰富的上下文信息。
3.变长输入:语音信号的长度是可变的,RNN能够自适应地处理不同长度的语音片段,而无需固定长度的输入。
4.抗噪能力:RNN能够通过学习抽取声学特征的时域和频域相关性,提高对噪声和语音变化的鲁棒性。
模态融合,将不同模态的特征进行融合,获取多模态数据的联合表示,包括:
特征权重调整,为不同模态的特征分配不同的权重,公式如下:
X1weighted=X1*w1;
X2weighted=X2*w2;
其中,X1weighted、X2weighted分别为特征向量X1和X2加权后的特征向量,w1、w2分别为特征向量X1、X2所属模态的特征权重;
特征融合操作,对加权后的特征向量进行求和,公式如下:
Xfused=X1weighted+X2weighted;
其中,Xfused为融合后的特征向量。
在本发明的一种实施方式中,构建循环神经网络模型,通过所述特征向量对所述循环神经网络模型进行训练具体为:
将多模态数据集中的数据划分为训练集、验证集和测试集;
定义循环神经网络模型,使用循环神经网络模型对多模态数据进行建模,通过多个并行的循环神经网络分别处理融合后的特征向量的不同模态的信息,并输出:
ht=RNN(xt,h{t-1});
其中,ht表示循环神经网络模型在时间步t的隐含信息,xt为融合后的特征向量,h{t-1}表示循环神经网络模型在时间步t-1的隐含信息;
将训练集输入循环神经网络模型,通过反向传播算法和优化算法对模型参数进行更新,以最小化损失函数。
多个并行的循环神经网络分支,每个分支都是一个独立的循环神经网络模型,分别用来处理融合后的特征向量的不同方面或模态。
通过多个循环神经网络分支实现并行处理,每个分支独立地处理融合特征向量和隐藏状态。这样可以在一个模型中同时进行多个任务的学习和预测,并通过共享的特征表示提供潜在的相关性。
在本发明的一种实施方式中,将不同模态数据的所述语义表示映射到知识图谱的实体和关系上,实现跨模态的语义关联,对跨模态数据进行语义推理和关联包括:
跨模态语义关联建模,通过定义相似度度量计算不同模态之间的语义关联度,公式如下:
Simage_text=similarity(Ximage,Xtext);
Stext_audio=similarity(Xtext,Xaudio);
Saudio_image=similarity(Xaudio,Ximage);
其中,Ximage为图像数据的特征表示,Xtext为文本数据的特征表示,Xaudio为音频数据的特征表示,Simage_text为图像数据与文本数据之间的相似度,Stext_audio为文本数据与音频数据之间的相似度,Saudio_image为音频数据与图像数据之间的相似度,similarity(,)为相似度函数;
跨模态语义关联表示,使用快模态语义关联度量构建欧泰语义关联表示,将不同模态的数据相联系,形成跨模态语义表达,公式如下:
Ximage_text=fusion(Ximage,Simage_text,Xtext);
Xtext_audio=fusion(Xtext,Stext_audio,Xaudio);
Xaudio_image=fusion(Xaudio,Saudio_image,Ximage);
其中,Ximage_text为图像数据与文本数据的跨模态语义关联表示,Xtext_audio为文本数据和音频数据的跨模态语义关联表示,Xaudio_image为音频数据和图像数据的跨模态语义关联表示,fusion(,)为融合函数;
跨模态推理,通过跨模态语义关联的信息进行信息的补充或预测,使用生成对抗网络和变分自编码器模型进行跨模态推理,模型如下:
Xgenerated_audio=GAN(Ximage_text,Ximage);
Xgenerated_image=GAN(Xtext_audio,Xtext);
Xcompleted_text=VAE(Xaudio_image,Xaudio);
其中,Xgenerated_audio为通过图像文本生成语音,Xgenerated_image为通过文本生成的图像,Xcompleted_text为通过语音补全的文本,GAN(,)为生成对抗网络,VAE(,)为变分自编码器。
第二方面
一种信息检索装置,其特征在于,包括:
数据采集模块,所述数据采集模块采集各模态数据,组成多模态数据集;
深度模态分析与特征提取模块,所述深度模态分析与特征提取模块对所述多模态数据集中的数据根据数据类型进行特征提取,将得到的特征向量融合,构建循环神经网络模型,通过所述特征向量对所述循环神经网络模型进行训练;通过所述循环神经网络模型对多模态数据进行多模态语义解析,得到不同模态数据的语义表示;
跨模态语义关联与推理模块,所述跨模态语义关联与推理模块将不同模态数据的所述语义表示映射到知识图谱的实体和关系上,实现跨模态的语义关联,对跨模态数据进行语义推理和关联;
知识图谱构建与维护模块,所述知识图谱构建与维护模块对所述实体和所述关系使用图数据库或知识图谱存储引擎进行图谱构建和查询,定期更新和维数数据,处理新增数据和变更数据。本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种信息检索方法,其特征在于,包括:
获取各模态数据,得到多模态数据集;
对所述多模态数据集中的数据根据数据类型进行特征提取,将得到的特征向量融合,构建循环神经网络模型,通过所述特征向量对所述循环神经网络模型进行训练;
通过所述循环神经网络模型对多模态数据进行多模态语义解析,得到不同模态数据的语义表示;
将不同模态数据的所述语义表示映射到知识图谱的实体和关系上,实现跨模态的语义关联,对跨模态数据进行语义推理和关联;
对所述实体和所述关系使用图数据库或知识图谱存储引擎进行图谱构建和查询,定期更新和维数数据,处理新增数据和变更数据。
2.根据权利要求1所述信息检索方法,其特征在于,还包括对所述多模态数据集中数据的预处理,对所述多模态数据集中数据模态为图像的数据预处理包括直方图均衡化,具体为:
将图像转换为灰度图像;
计算灰度图像的直方图,统计每个灰度级别的像素数量;
计算灰度图像的累积直方图,将所述直方图的值进行累积求和;
根据累积直方图进行像素值映射,计算新的像素值,公式如下:
NewPixel=round((L-1)*CumulativeHist[OriginalPixel]/(ImageWidth*ImageHeight));
其中,NewPixel为映射后的像素值,OriginalPixel为原始图像的像素值,L为灰度级别数量,CumulativeHist[]为累计直方图,ImageWidth为图像宽度,ImageHeight为图像高度,round()为取整函数;
根据映射后新的像素值重构图像,将新的像素值替换原始图像中的对应像素值。
3.根据权利要求2所述信息检索方法,其特征在于,对数据模态为图像的数据预处理还包括图像去噪,具体为:
通过中值滤波、或高斯滤波算法对重构后的图像进行去噪处理。
4.根据权利要求3所述信息检索方法,其特征在于,对数据模态为图像的数据预处理还包括图像尺寸调整,具体为:
确定需求图像的尺寸大小;
通过最近邻差值或双线性插值算法对去噪后的图像进行尺寸调整。
5.根据权利要求1所述信息检索方法,其特征在于,还包括对所述多模态数据集中数据的预处理,对所述多模态数据集中数据模态为音频的数据进行以下预处理:
将音频信号分成若干短时间窗口;
对各所述短时间窗口应用傅里叶变换,得到频谱表示,变换公式如下:
其中,X(t,f)为在时间t和频率f处的频谱表示,x(n)为音频信号中的样本值,w(n-t)为窗函数,用于限制样本的时间范围,j为虚数单位,e为自然常数,F为采样频率,n为离散时间点的索引,N为窗函数的长度。
6.根据权利要求1所述信息检索方法,其特征在于,还包括对所述多模态数据集中数据的预处理,对所述多模态数据及中数据模态为文本的数据进行以下预处理:
通过文本处理工具,去除特殊字符,通过停用词列表,去除停用词;
通过预设规则将文本划分为单个的词语或单词,通过概率模型或统计方法,对文本进行分词;
词向量表示,通过神经网络模型将每个词映射为高维空间中的向量表示。
7.根据权利要求1所述信息检索方法,其特征在于,对所述多模态数据集中的数据根据数据类型进行特征提取,将得到的特征向量融合包括:
对于图像数据,使用卷积神经网络进行特征提取,对于文本数据,使用循环神经网络进行特征提取,对于音频数据,使用循环神经网络进行声学特征提取;
将不同模态的特征进行融合,获取多模态数据的联合表示,包括:
为不同模态的特征分配不同的权重,公式如下:
X1weighted=X1*w1;
X2weighted=X2*w2;
其中,X1weighted、X2weighted分别为特征向量X1和X2加权后的特征向量,w1、w2分别为特征向量X1、X2所属模态的特征权重;
对加权后的特征向量进行求和,公式如下:
Xfused=X1weighted+X2weighted;
其中,Xfused为融合后的特征向量。
8.根据权利要求7所述信息检索方法,其特征在于,构建循环神经网络模型,通过所述特征向量对所述循环神经网络模型进行训练具体为:
将多模态数据集中的数据划分为训练集、验证集和测试集;
定义循环神经网络模型,使用循环神经网络模型对多模态数据进行建模,通过多个并行的循环神经网络分别处理融合后的特征向量的不同模态的信息,并输出:
ht=RNN(Xfused,h{t-1});
其中,ht表示循环神经网络模型在时间步t的隐含信息,h{t-1}表示循环神经网络模型在时间步t-1的隐含信息;
将训练集输入循环神经网络模型,通过反向传播算法和优化算法对模型参数进行更新,以最小化损失函数。
9.根据权利要求5所述信息检索方法,其特征在于,将不同模态数据的所述语义表示映射到知识图谱的实体和关系上,实现跨模态的语义关联,对跨模态数据进行语义推理和关联包括:
跨模态语义关联建模,通过定义相似度度量计算不同模态之间的语义关联度,公式如下:
Simage_text=similarity(Ximage,Xtext);
Stext_audio=similarity(Xtext,Xaudio);
Saudio_image=similarity(Xaudio,Ximage);
其中,Ximage为图像数据的特征表示,Xtext为文本数据的特征表示,Xaudio为音频数据的特征表示,Simagetext为图像数据与文本数据之间的相似度,Stext_audio为文本数据与音频数据之间的相似度,Saudio_image为音频数据与图像数据之间的相似度,similarity(,)为相似度函数;
跨模态语义关联表示,使用快模态语义关联度量构建欧泰语义关联表示,将不同模态的数据相联系,形成跨模态语义表达,公式如下:
Ximage_text=fusion(Ximage,Simage_text,Xtext);
Xtext_audio=fusion(Xtext,Stext_audio,Xaudio);
Xaudio_image=fusion(Xaudio,Saudio_image,Ximage);
其中,Ximage_text为图像数据与文本数据的跨模态语义关联表示,Xtext_audio为文本数据和音频数据的跨模态语义关联表示,Xaudio_image为音频数据和图像数据的跨模态语义关联表示,fusion(,)为融合函数;
跨模态推理,通过跨模态语义关联的信息进行信息的补充或预测,使用生成对抗网络和变分自编码器模型进行跨模态推理,模型如下:
Xgenerated_audio=GAN(Ximage_text,Ximage);
Xgenerated_image=GAN(Xtext_audio,Xtext);
Xcompleted_text=VAE(Xaudio_image,Xaudio);
其中,Xgenerated_audio为通过图像文本生成语音,Xgenerated_image为通过文本生成的图像,Xcompleted_text为通过语音补全的文本,GAN(,)为生成对抗网络,VAE(,)为变分自编码器。
10.一种信息检索装置,其特征在于,包括:
数据采集模块,所述数据采集模块采集各模态数据,组成多模态数据集;
深度模态分析与特征提取模块,所述深度模态分析与特征提取模块对所述多模态数据集中的数据根据数据类型进行特征提取,将得到的特征向量融合,构建循环神经网络模型,通过所述特征向量对所述循环神经网络模型进行训练;通过所述循环神经网络模型对多模态数据进行多模态语义解析,得到不同模态数据的语义表示;
跨模态语义关联与推理模块,所述跨模态语义关联与推理模块将不同模态数据的所述语义表示映射到知识图谱的实体和关系上,实现跨模态的语义关联,对跨模态数据进行语义推理和关联;
知识图谱构建与维护模块,所述知识图谱构建与维护模块对所述实体和所述关系使用图数据库或知识图谱存储引擎进行图谱构建和查询,定期更新和维数数据,处理新增数据和变更数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310973364.7A CN117033657A (zh) | 2023-08-03 | 2023-08-03 | 一种信息检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310973364.7A CN117033657A (zh) | 2023-08-03 | 2023-08-03 | 一种信息检索方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117033657A true CN117033657A (zh) | 2023-11-10 |
Family
ID=88644023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310973364.7A Pending CN117033657A (zh) | 2023-08-03 | 2023-08-03 | 一种信息检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117033657A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117611845A (zh) * | 2024-01-24 | 2024-02-27 | 浪潮通信信息系统有限公司 | 多模态数据的关联识别方法、装置、设备及存储介质 |
CN117932161A (zh) * | 2024-03-22 | 2024-04-26 | 成都数据集团股份有限公司 | 一种多源多模态数据的可视化搜索方法及系统 |
-
2023
- 2023-08-03 CN CN202310973364.7A patent/CN117033657A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117611845A (zh) * | 2024-01-24 | 2024-02-27 | 浪潮通信信息系统有限公司 | 多模态数据的关联识别方法、装置、设备及存储介质 |
CN117611845B (zh) * | 2024-01-24 | 2024-04-26 | 浪潮通信信息系统有限公司 | 多模态数据的关联识别方法、装置、设备及存储介质 |
CN117932161A (zh) * | 2024-03-22 | 2024-04-26 | 成都数据集团股份有限公司 | 一种多源多模态数据的可视化搜索方法及系统 |
CN117932161B (zh) * | 2024-03-22 | 2024-05-28 | 成都数据集团股份有限公司 | 一种多源多模态数据的可视化搜索方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111930992B (zh) | 神经网络训练方法、装置及电子设备 | |
US10671889B2 (en) | Committed information rate variational autoencoders | |
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN109993102B (zh) | 相似人脸检索方法、装置及存储介质 | |
CN110210513B (zh) | 数据分类方法、装置及终端设备 | |
CN110516095B (zh) | 基于语义迁移的弱监督深度哈希社交图像检索方法和系统 | |
CN117033657A (zh) | 一种信息检索方法及装置 | |
CN111242033B (zh) | 一种基于视频和文字对判别分析的视频特征学习方法 | |
CN113177141A (zh) | 基于语义嵌入软相似性的多标签视频哈希检索方法及设备 | |
CN114663798A (zh) | 一种基于强化学习的单步视频内容识别方法 | |
WO2022222854A1 (zh) | 一种数据处理方法及相关设备 | |
CN112668608A (zh) | 一种图像识别方法、装置、电子设备及存储介质 | |
CN114333062A (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 | |
CN114299305A (zh) | 聚合密集和注意力多尺度特征的显著性目标检测算法 | |
CN116363457B (zh) | 任务处理、图像分类、任务处理模型的数据处理方法 | |
CN112766368A (zh) | 一种数据分类方法、设备和可读存储介质 | |
CN117095460A (zh) | 基于长短时关系预测编码的自监督群体行为识别方法及其识别系统 | |
CN116680578A (zh) | 一种基于跨模态模型的深度语义理解方法 | |
CN116957006A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
CN115795038A (zh) | 基于国产化深度学习框架的意图识别方法和装置 | |
CN114647785A (zh) | 基于情感分析的短视频获赞数量预测方法 | |
CN113569867A (zh) | 一种图像处理方法、装置、计算机设备及存储介质 | |
CN115587297A (zh) | 构建图像识别模型和图像识别的方法、装置、设备及介质 | |
Heller et al. | Grafting heterogeneous neural networks for a hierarchical object classification | |
CN114692715A (zh) | 一种样本标注方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |