CN107480194A - 多模态知识表示自动学习模型的构建方法及系统 - Google Patents
多模态知识表示自动学习模型的构建方法及系统 Download PDFInfo
- Publication number
- CN107480194A CN107480194A CN201710570848.1A CN201710570848A CN107480194A CN 107480194 A CN107480194 A CN 107480194A CN 201710570848 A CN201710570848 A CN 201710570848A CN 107480194 A CN107480194 A CN 107480194A
- Authority
- CN
- China
- Prior art keywords
- picture
- text
- knowledge
- structuring
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 28
- 238000005259 measurement Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 49
- 238000005457 optimization Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 16
- 238000013480 data collection Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 230000000717 retained effect Effects 0.000 claims description 6
- 239000012141 concentrate Substances 0.000 claims description 5
- 238000005065 mining Methods 0.000 abstract description 5
- 238000000034 method Methods 0.000 description 11
- 238000009412 basement excavation Methods 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 241000287181 Sturnus vulgaris Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004087 circulation Effects 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 244000144992 flock Species 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种多模态知识表示自动学习模型的构建方法及系统,所述构建方法包括:从互联网的数据中挖掘出结构化的文本集;从互联网的数据中挖掘出结构化的图片集;根据所述结构化的文本集和图片集,构建统一特征空间的自动学习模型,用于确定多模态待检测信息的知识向量。本发明多模态知识表示自动学习模型的构建方法通过从互联网的数据中挖掘结构化的文本集和图片集,进而构建统一特征空间的自动学习模型,从而能够快速实现对多模态待检测信息的知识向量的分析检索,可提高准确度高和识别效率。
Description
技术领域
本发明涉及网络信息处理技术领域,更具体地,涉及一种多模态知识表示自动学习模型的构建方法及系统。
背景技术
海量互联网数据中蕴含着大量的知识,人们理解数据的基本单元也是知识,例如,给定一句文本“猫和狗在厨房里嬉闹”实际包含“猫在厨房”、“狗在厨房”、“猫狗在嬉闹”三个知识。在信息检索领域需要将数据转变为向量才能被计算机处理,而知识表示学习的目的就是通过训练学习的方法将知识转化为有鲁棒性和具有区分性的向量表示。
传统的知识表示学习技术致力于结构化的三元组文本表示,即将<主,谓,宾>三元组结构表示为向量。这类方法最大的缺点在于具有<主,谓,宾>三元组结构的数据需要大量人员进行手工标注。
近年来,也有一些工作开始研究图像的知识化表示,一幅图像可能包含多个物体且这些物体两两之间可能会具有一些空间或者其他交互信息,例如“人在骑马”,“狗躺在沙发上”,图像的知识化的表示的目的是将同时包含两个物体的区域表示为特征向量。这类方法的缺点在于需要大量人工精确标注每一幅图片中各个物体所在的位置与物体两两之间的关系,这种对于图像的结构化的标注是极其费时费力的,现在最大的可用于图像知识表示学习的数据库Visual Genome也仅仅含有完整标注的数千张图片。
此外,现在的知识表示学习方法的显著缺陷在于其没有考虑多模态信息,而网络数据中的很多知识是以多种模态形式呈现给用户,例如一句文本“一个男人在骑马”向用户表达了一个知识,但同时网络有很多图片可以表达和这个文本相同的知识,将这两种模态的知识进行统一表达将有助于更加精准的跨模态信息检索任务。现有的方法没有对这一情况进行系统的研究,导致多模态信息识别的准确度较低、识别效率差。
发明内容
为了解决现有技术中的上述问题,即为了解决多模态信息识别的准确度较低、识别效率差,本发明提供了一种多模态知识表示自动学习模型的构建方法及系统。
一种多模态知识表示自动学习模型的构建方法,所述构建方法包括:
从互联网的数据中挖掘出结构化的文本集;
从互联网的数据中挖掘出结构化的图片集;
根据所述结构化的文本集和图片集,构建统一特征空间的自动学习模型,用于确定多模态待检测信息的知识向量。
可选的,所述从互联网的文本数据中挖掘出结构化的文本集,具体包括:
利用信息抽取工具,将互联网的文本数据转换为结构化表示,确定候选结构化文本集;
利用词典数据库,对所述候选结构化文本集进行初次过滤,删除不包含属于实体的结构化文本数据,获得初滤结构化文本集;
利用文本搜索引擎,对所述初滤结构化文本集进行二次过滤,获得结构化文本集。
可选的,所述利用文本搜索引擎,对所述初滤结构化文本集进行二次过滤,具体包括:
将所述初滤结构化文本集中的各结构化文本数据连接成句子;
将各所述句子分别输入至搜索引擎中进行搜索,如果返回相关网页,则保留所述句子对应的结构化文本数据;否则,删除所述句子对应的结构化文本数据,保留的各结构化文本数据形成结构化文本集。
可选的,所述从互联网的图片数据中挖掘出结构化的图片集,具体包括:
根据所述结构化的文本集,采用图片搜索引擎从互联网的图片数据中获得候选结构化图片数据集;
根据结构化图片的可表示力,删除所述候选结构化图片数据集中无效图片,获得初滤结构化图片数据集;
对所述初滤结构化图片数据集进行噪声过滤,获得结构化的图片集。
可选的,所述根据结构化图片的可表示力,删除所述候选结构化图片数据集中无效图片,具体包括:
根据以下公式确定图片组Vi的可表示力φ(Vi):
其中,每一个结构化文本Si具有表示相同知识的一组图片记为Vi,i是索引号,图片组Vi中含有Ni张图片,Cent(Vi)是第i组图片的中心,dist(k,Cent(Vi))表示第i组图片组Vi中图片k和中心Cent(Vi)之间的距离;
判断所述图片组Vi的可表示力φ(Vi)是否大于可表示力阈值,如果大于,则可表示力对应的图片组为无效,删除无效图片组;否则保留对应的图片组;保留的各图片组形成初滤结构化图片数据集。
可选的,所述对所述初滤结构化图片数据集进行噪声过滤,具体包括:
根据以下公式,计算图片组Vi中图片k的噪声分数Snoisy(k):
其中,j表示图片组Vi中的图片,dist(k,j)表示第i组图片组Vi中图片k和图片j之间的距离;
判断所述噪声分数是否大于噪声阈值,如果大于,则删除对应噪声分数图片组中的图片;否则保留,保留下的图片组形成结构化的图片集。
可选的根据以下公式确定第i组图片组Vi中图片k和图片j之间的距离dist(k,j):
其中,*表示共轭运算,表示点积,F表示一维离散傅里叶变换,F-1是其逆变换,λ是正则因子项,Xk表示图片k采用传统词袋模型和空间金字塔匹配模型的特征向量,Xj表示图片j采用传统词袋模型和空间金字塔匹配模型的特征向量。
可选的所述根据所述结构化的文本集和图片集,构建统一特征空间的自动学习模型,具体包括:
根据所述结构化的图片集中的各图片信息学习结构化文本的知识表示,确定第一优化目标函数;
根据所述结构化的文本集中的各结构化文本表示学习图片的知识表示,确定第二优化目标函数;
根据所述学习图片的知识表示与所述总体优化目标函数进行迭代确定自动学习模型。
可选的,所述确定第一优化目标函数,具体包括:
计算结构化文本Si的优化函数:
一个结构化文本Si中的种子文本与对应的结构化图片组Vi相似的图片组所对应的结构化文本全部被视为相似结构化文本否则将被视为不相似结构化文本
将结构化文本Si的知识表示记为h(Si),所有的文本知识表示应满足下式:
其中,α是控制相似与不相似之间的阈值超参数;
根据以下公式确定对于结构化文本Si的优化函数:
其中,每次训练时送入网络一个三元组
根据以下公式确定结构化文本Si的分类损失函数:
其中,W和b分别表示分类层的需要参数,其中,C表示三元组对的数量,bya、byp、byn、bc、分别表示种子文本相似结构化文本不相似结构化文本对应网络模型的权重与偏置参数;
根据所述结构化文本Si的优化函数及分类损失函数,确定第一优化目标函数:
可选的,所述根据所述结构化的文本集中的各结构化文本表示学习图片的知识表示,具体包括:
将结构化文本的知识表示向量作为监督信号,利用深度脊回归算法学习图片的知识表示学习模型,确认第二目标函数:
其中,Nj是第j组图片组中图片的个数,K表示训练集中总的结构化多模态数据的个数,Iij表示第j组的第i幅图片、g(Iij)表示其对应的由网络提取的图片语义特征、λ||W||2是正则项,h(Sj)表示结构化文本Sj的知识表示记。
可选的,所述根据所述学习图片的知识表示与所述总体优化目标函数进行迭代确定自动学习模型,具体包括:
根据所述第二优化目标函数确定三元组;
将所述三元组代入到所述第一优化目标函数中进行迭代运算;
当所述第一优化目标函数和第二目标函数得到最优解,得到所述自动学习模型。
根据本发明的实施例,本发明公开了以下技术效果:
本发明多模态知识表示自动学习模型的构建方法通过从互联网的数据中挖掘结构化的文本集和图片集,进而构建统一特征空间的自动学习模型,从而能够快速实现对多模态待检测信息的知识向量的分析检索,可提高准确度高和识别效率。
实现上述目的,本发明还提供了如下方案:
一种多模态知识表示自动学习模型的构建系统,所述构建系统包括:
第一挖掘单元,用于从互联网的数据中挖掘出结构化的文本集;
第二挖掘单元,从互联网的数据中挖掘出结构化的图片集;
建模单元,用于根据所述结构化的文本集和图片集,构建统一特征空间的自动学习模型,用于确定多模态待检测信息的知识向量。
根据本发明的实施例,本发明公开了以下技术效果:
本发明多模态知识表示自动学习模型的构建系统通过第一挖掘单元、第二挖掘单元,从互联网的数据中挖掘结构化的文本集和图片集,进而通过建模单元构建统一特征空间的自动学习模型,从而能够快速实现对多模态待检测信息的知识向量的分析检索,可提高准确度高和识别效率。
附图说明
图1是本发明多模态知识表示自动学习模型的构建方法的流程图;
图2是本发明多模态知识表示自动学习模型的构建系统的模块结构示意图。
符号说明:
第一挖掘单元—1,第二挖掘单元—2,建模单元—3。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明提供了一种多模态知识表示自动学习模型的构建方法,通过从互联网的数据中挖掘结构化的文本集和图片集,进而构建统一特征空间的自动学习模型,从而能够快速实现对多模态待检测信息的知识向量的分析检索,可提高准确度高和识别效率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明多模态知识表示自动学习模型的构建方法包括:
步骤100:从互联网的数据中挖掘出结构化的文本集;
步骤200:从互联网的数据中挖掘出结构化的图片集;
步骤300:根据所述结构化的文本集和图片集,构建统一特征空间的自动学习模型,用于确定多模态待检测信息的知识向量。
其中,在步骤100中,所述从互联网的文本数据中挖掘出结构化的文本集,具体包括:
步骤101:利用信息抽取工具,将互联网的文本数据转换为结构化表示,确定候选结构化文本集。
其中,所述候选结构化文本集中包括多个结构化文本,所述结构化文本由<主,谓,宾>组成。本发明以挖掘结构化文本数据为切入点,对于互联网上的大规模的文本数据,利用现有的信息抽取工具将原始文本转换为结构化的表示,如<人,骑,马>,<男人,在上面,自行车>等主谓宾形式。
步骤102:利用词典数据库,对所述候选结构化文本集进行初次过滤,删除不包含属于实体的结构化文本数据,获得初滤结构化文本集。
在步骤101中获得的候选结构化文本集中有许多无法用图片表示,例如<奥巴马,前总统,美国>这一结构化文本中,“前总统”和“美国”都无法用图片表示。本发明利用词典数据库对步骤101生成的结构化文本进行过滤,本发明通过大量实验统计发现仅当实体属于词典中特定一些类别时才可能被图片无歧义的进行表示,如“animal(动物)”“person(人)”、“plant(植物)”、“artifact(人工制品)”、“natural object(自然物体)”、“substance(物质)”、“body(身体)”、“food(食物)”、“group(团体)”等。因此,本发明将根据词典数据库删除包含不属于这些实体的结构化文本数据。
步骤103:利用文本搜索引擎,对所述初滤结构化文本集进行二次过滤,获得结构化文本集。
其中,所述利用文本搜索引擎,对所述初滤结构化文本集进行二次过滤,具体包括:
步骤1031:将所述初滤结构化文本集中的各结构化文本数据连接成句子;
步骤1032:将各所述句子分别输入至搜索引擎中进行搜索,如果返回相关网页,则保留所述句子对应的结构化文本数据;否则,删除所述句子对应的结构化文本数据,保留的各结构化文本数据形成结构化文本集。
由于在步骤101中采用的信息抽取工具的缺陷,一些候选结构化文本数据是错误的或者不符合逻辑的,例如<一栋大房子,凝视,羊群>。本发明利用文本搜索引擎过滤这些错误或者不和逻辑的结构化文本数据。具体地说,本发明将结构化的文本数据连接成一句话送入搜索引擎进行搜索,如果返回相关网页则保留此结构化文本,否则将其删除。
其中,在步骤200中,所述从互联网的图片数据中挖掘出结构化的图片集,具体包括:
步骤201:根据所述结构化的文本集,采用图片搜索引擎从互联网的图片数据中获得候选结构化图片数据集。
通过步骤100,可以获得大量的有意义的结构化文本数据,但是仍然没有结构化图片信息。为了获得与结构化文本相对应的结构化信息,本发明采用图片搜索引擎获得候选结构化图片数据。具体地说,每一个候选结构化文本都被送入到图片搜索引擎,返回的前50张图片作为候选结构化图片集。
步骤202:根据结构化图片的可表示力,删除所述候选结构化图片数据集中无效图片,获得初滤结构化图片数据集。
其中,所述根据结构化图片的可表示力,删除所述候选结构化图片数据集中无效图片,具体包括:
步骤2021:根据公式(1)确定图片组Vi的可表示力φ(Vi):
其中,每一个结构化文本Si具有表示相同知识的一组图片记为Vi,i是索引号,图片组Vi中含有Ni张图片,Cent(Vi)是第i组图片的中心,dist(k,Cent(Vi))表示第i组图片组Vi中图片k和中心Cent(Vi)之间的距离。
本发明采用迁移学习的思想获得图片特征提取器,这里我们首先使用仅包含单物体标注的数据集预训练一个深度残差网络作为图片的特征提取器的初始网络,由于预训练数据集中的图片仅包含一个物体,而我们的数据集中包含至少两个主要物体,因此我们采用具有多物体标签的数据集微调我们的图片特征提取网络,距离dist(k,Cent(Vi))度量采用欧式距离计算方法确定。
步骤2022:判断所述图片组Vi的可表示力φ(Vi)是否大于可表示力阈值,如果大于,则可表示力对应的图片组为无效,删除无效图片组;否则保留对应的图片组;保留的各图片组形成初滤结构化图片数据集。
步骤203:对所述初滤结构化图片数据集进行噪声过滤,获得结构化的图片集。
其中,所述对所述初滤结构化图片数据集进行噪声过滤,具体包括:
步骤2031:根据公式(2),计算图片组Vi中图片k的噪声分数Snoisy(k):
其中,j表示图片组Vi中的图片,dist(k,j)表示第i组图片组Vi中图片k和图片j之间的距离。
第i组图片组Vi中图片k和图片j之间的距离dist(k,j)可采用采用欧式距离计算方法确定,也可采用公式(3)确定
其中,*表示共轭运算,表示点积,F表示一维离散傅里叶变换,F-1是其逆变换,λ是正则因子项,Xk表示图片k采用传统词袋模型和空间金字塔匹配模型的特征向量,Xj表示图片j采用传统词袋模型和空间金字塔匹配模型的特征向量。
步骤2032:判断所述噪声分数是否大于噪声阈值,如果大于,则删除对应噪声分数图片组中的图片;否则保留,保留下的图片组形成结构化的图片集。
在步骤300中,所述根据所述结构化的文本集和图片集,构建统一特征空间的自动学习模型,具体包括:
步骤301:根据所述结构化的图片集中的各图片信息学习结构化文本的知识表示,确定第一优化目标函数。
步骤302:根据所述结构化的文本集中的各结构化文本表示学习图片的知识表示,确定第二优化目标函数。
步骤303:根据所述学习图片的知识表示与所述总体优化目标函数进行迭代确定自动学习模型。
所述确定第一优化目标函数,具体包括:
步骤3011:计算结构化文本Si的优化函数:
一个结构化文本Si中的种子文本与对应的结构化图片组Vi相似的图片组所对应的结构化文本全部被视为相似结构化文本否则将被视为不相似结构化文本
将结构化文本Si的知识表示记为h(Si),所有的文本知识表示应满足下式(4):
其中,α是控制相似与不相似之间的阈值超参数
根据公式(5)确定对于结构化文本Si的优化函数:
其中,每次训练时送入网络一个三元组
每次训练时需送入网络一个三元组仅仅优化上式(5)可能导致一个问题即出现两个结构化文本的知识表示相同的情况,但是在人的实际感知中两个不同的结构化的文本所表示的知识只可能相似而不肯能相等,例如“男孩骑自行车”“男孩在自行车上”就是极其相似但不同的知识。因此,同时引入了分类损失函数。具体的,如步骤3012所示。
步骤3012:根据公式(6)确定结构化文本Si的分类损失函数:
其中,W和b分别表示分类层的需要参数,其中,C表示三元组对的数量,bya、byp、byn、bc、分别表示种子文本相似结构化文本不相似结构化文本对应网络模型的权重与偏置参数。
步骤3013:根据公式(7),根据所述结构化文本Si的优化函数及分类损失函数,确定第一优化目标函数:
通过自适应矩估计算法优化上式(7)。
本发明采用具有双层LSTM((Long Short-Term Memory,长短时记忆)结构的循环神经网络模型作为结构化文本的知识表示学习模型,结构化文本的最后一个实体对应的循环神经网络模型的输出即是此结构化文本的知识表示。不同于传统的文本表示学习任务,本发明基于图片信息构造结构化文本三元组的方法用于结构化文本知识表示学习,从而使得使用的数据不具有任何人工标注信息可用于直接监督学习,降低劳动强度,提高识别效率。
在步骤302中,所述根据所述结构化的文本集中的各结构化文本表示学习图片的知识表示,具体包括:
将结构化文本的知识表示向量作为监督信号,利用深度脊回归算法学习图片的知识表示学习模型,根据公式(8)确认第二目标函数:
其中,Nj是第j组图片组中图片的个数,K表示训练集中总的结构化多模态数据的个数,Iij表示第j组的第i幅图片、g(Iij)表示其对应的由网络提取的图片语义特征、λ||W||2是正则项,h(Sj)表示结构化文本Sj的知识表示记。
在步骤303中,所述根据所述学习图片的知识表示与所述总体优化目标函数进行迭代确定自动学习模型,具体包括:
步骤3031:根据所述第二优化目标函数确定三元组;
步骤3032:将所述三元组代入到所述第一优化目标函数中进行迭代运算;
步骤3033:当所述第一优化目标函数和第二目标函数得到最优解,得到所述自动学习模型。
本发明多模态知识表示自动学习模型的构建方法可以在复杂海量的网络数据中自动的挖掘出结构化多模态数据并将其进行统一知识化表示,不仅可以解决基于知识的跨模态信息检索问题,还可以利用已经具有的知识对训练数据中未出现的知识进行准确的表达,例如训练的数据中仅具有“牛在吃草”与“人在骑马”的结构化的文本与图片多模态数据,本发明可以将未在训练数据中出现的“人在骑牛”的文本与图片进行准确的知识化表示。
例如,本发明通过从网络上挖掘出近3万组结构化多模态数据(约70万个结构化实例)(即结构化的文本集和图片集),其中80%作为训练集,20%作为测试集(注意测试集中的多模态数据从未在训练集中出现过)。通过训练集确定统一特征空间的自动学习模型,通过所述自动学习模型在测试集中进行多模态与跨模态检索任务,实验证明本发明所提取到的多模态知识表示是准确且有意义的。
本发明多模态知识表示自动学习模型的构建方法综合利用网络数据的多模态特点及现有搜索引擎弱标签的特性从繁杂的网络数据中自动挖掘出结构化的多模态数据,并提出了一种有效的多模态知识表示学习方法,不但可以在同一空间表示多种数据模态的知识,还可以利用已有结构化数据对训练集中未出现的结构化数据进行有效知识表示,有助于互联网时代的跨模态与多模态检索任务。
此外,本发明还提供一种多模态知识表示自动学习模型的构建系统。具体的,如图2所示,本发明多模态知识表示自动学习模型的构建系统包括第一挖掘单元1、第二挖掘单元2及建模单元3。
其中,所述第一挖掘单元1用于从互联网的数据中挖掘出结构化的文本集;所述第二挖掘单元2从互联网的数据中挖掘出结构化的图片集;所述建模单元3用于根据所述结构化的文本集和图片集,构建统一特征空间的自动学习模型,用于确定多模态待检测信息的知识向量。
相对于现有技术,本发明多模态知识表示自动学习模型的构建系统与多模态知识表示自动学习模型的构建方法的有益效果相同,在此不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (12)
1.一种多模态知识表示自动学习模型的构建方法,其特征在于,所述构建方法包括:
从互联网的数据中挖掘出结构化的文本集;
从互联网的数据中挖掘出结构化的图片集;
根据所述结构化的文本集和图片集,构建统一特征空间的自动学习模型,用于确定多模态待检测信息的知识向量。
2.根据权利要求1所述的多模态知识表示自动学习模型的构建方法,其特征在于,所述从互联网的文本数据中挖掘出结构化的文本集,具体包括:
利用信息抽取工具,将互联网的文本数据转换为结构化表示,确定候选结构化文本集;
利用词典数据库,对所述候选结构化文本集进行初次过滤,删除不包含属于实体的结构化文本数据,获得初滤结构化文本集;
利用文本搜索引擎,对所述初滤结构化文本集进行二次过滤,获得结构化文本集。
3.根据权利要求2所述的多模态知识表示自动学习模型的构建方法,其特征在于,所述利用文本搜索引擎,对所述初滤结构化文本集进行二次过滤,具体包括:
将所述初滤结构化文本集中的各结构化文本数据连接成句子;
将各所述句子分别输入至搜索引擎中进行搜索,如果返回相关网页,则保留所述句子对应的结构化文本数据;否则,删除所述句子对应的结构化文本数据,保留的各结构化文本数据形成结构化文本集。
4.根据权利要求1所述的多模态知识表示自动学习模型的构建方法,其特征在于,所述从互联网的图片数据中挖掘出结构化的图片集,具体包括:
根据所述结构化的文本集,采用图片搜索引擎从互联网的图片数据中获得候选结构化图片数据集;
根据结构化图片的可表示力,删除所述候选结构化图片数据集中无效图片,获得初滤结构化图片数据集;
对所述初滤结构化图片数据集进行噪声过滤,获得结构化的图片集。
5.根据权利要求4所述的多模态知识表示自动学习模型的构建方法,其特征在于,所述根据结构化图片的可表示力,删除所述候选结构化图片数据集中无效图片,具体包括:
根据以下公式确定图片组Vi的可表示力φ(Vi):
其中,每一个结构化文本Si具有表示相同知识的一组图片记为Vi,i是索引号,图片组Vi中含有Ni张图片,Cent(Vi)是第i组图片的中心,dist(k,Cent(Vi))表示第i组图片组Vi中图片k和中心Cent(Vi)之间的距离;
判断所述图片组Vi的可表示力φ(Vi)是否大于可表示力阈值,如果大于,则可表示力对应的图片组为无效,删除无效图片组;否则保留对应的图片组;保留的各图片组形成初滤结构化图片数据集。
6.根据权利要求5所述的多模态知识表示自动学习模型的构建方法,其特征在于,所述对所述初滤结构化图片数据集进行噪声过滤,具体包括:
根据以下公式,计算图片组Vi中图片k的噪声分数Snoisy(k):
其中,j表示图片组Vi中的图片,dist(k,j)表示第i组图片组Vi中图片k和图片j之间的距离;
判断所述噪声分数是否大于噪声阈值,如果大于,则删除对应噪声分数图片组中的图片;否则保留,保留下的图片组形成结构化的图片集。
7.根据权利要求6所述的多模态知识表示自动学习模型的构建方法,其特征在于,根据以下公式确定第i组图片组Vi中图片k和图片j之间的距离dist(k,j):
其中,*表示共轭运算,⊙表示点积,F表示一维离散傅里叶变换,F-1是其逆变换,λ是正则因子项,Xk表示图片k采用传统词袋模型和空间金字塔匹配模型的特征向量,Xj表示图片j采用传统词袋模型和空间金字塔匹配模型的特征向量。
8.根据权利要求1所述的多模态知识表示自动学习模型的构建方法,其特征在于,所述根据所述结构化的文本集和图片集,构建统一特征空间的自动学习模型,具体包括:
根据所述结构化的图片集中的各图片信息学习结构化文本的知识表示,确定第一优化目标函数;
根据所述结构化的文本集中的各结构化文本表示学习图片的知识表示,确定第二优化目标函数;
根据所述学习图片的知识表示与所述总体优化目标函数进行迭代确定自动学习模型。
9.根据权利要求8所述的多模态知识表示自动学习模型的构建方法,其特征在于,所述确定第一优化目标函数,具体包括:
计算结构化文本Si的优化函数:
一个结构化文本Si中的种子文本与对应的结构化图片组Vi相似的图片组所对应的结构化文本全部被视为相似结构化文本否则将被视为不相似结构化文本
将结构化文本Si的知识表示记为h(Si),所有的文本知识表示应满足下式:
其中,α是控制相似与不相似之间的阈值超参数;
根据以下公式确定对于结构化文本Si的优化函数:
其中,每次训练时送入网络一个三元组
根据以下公式确定结构化文本Si的分类损失函数:
其中,W和b分别表示分类层的需要参数,其中,C表示三元组对的数量,bya、byp、byn、bc、分别表示种子文本相似结构化文本不相似结构化文本对应网络模型的权重与偏置参数;
根据所述结构化文本Si的优化函数及分类损失函数,确定第一优化目标函数:
。
10.根据权利要求9所述多模态知识表示自动学习模型的构建方法,其特征在于,所述根据所述结构化的文本集中的各结构化文本表示学习图片的知识表示,具体包括:
将结构化文本的知识表示向量作为监督信号,利用深度脊回归算法学习图片的知识表示学习模型,确认第二目标函数:
其中,Nj是第j组图片组中图片的个数,K表示训练集中总的结构化多模态数据的个数,Iij表示第j组的第i幅图片、g(Iij)表示其对应的由网络提取的图片语义特征、λ||W||2是正则项,h(Sj)表示结构化文本Sj的知识表示记。
11.根据权利要求10所述的多模态知识表示自动学习模型的构建方法,其特征在于,所述根据所述学习图片的知识表示与所述总体优化目标函数进行迭代确定自动学习模型,具体包括:
根据所述第二优化目标函数确定三元组;
将所述三元组代入到所述第一优化目标函数中进行迭代运算;
当所述第一优化目标函数和第二目标函数得到最优解,得到所述自动学习模型。
12.一种多模态知识表示自动学习模型的构建系统,其特征在于,所述构建系统包括:
第一挖掘单元,用于从互联网的数据中挖掘出结构化的文本集;
第二挖掘单元,从互联网的数据中挖掘出结构化的图片集;
建模单元,用于根据所述结构化的文本集和图片集,构建统一特征空间的自动学习模型,用于确定多模态待检测信息的知识向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710570848.1A CN107480194B (zh) | 2017-07-13 | 2017-07-13 | 多模态知识表示自动学习模型的构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710570848.1A CN107480194B (zh) | 2017-07-13 | 2017-07-13 | 多模态知识表示自动学习模型的构建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107480194A true CN107480194A (zh) | 2017-12-15 |
CN107480194B CN107480194B (zh) | 2020-03-13 |
Family
ID=60596705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710570848.1A Active CN107480194B (zh) | 2017-07-13 | 2017-07-13 | 多模态知识表示自动学习模型的构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107480194B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536735A (zh) * | 2018-03-05 | 2018-09-14 | 中国科学院自动化研究所 | 基于多通道自编码器的多模态词汇表示方法与系统 |
CN109643229A (zh) * | 2018-04-17 | 2019-04-16 | 深圳鲲云信息科技有限公司 | 网络模型的应用开发方法及相关产品 |
CN109740634A (zh) * | 2018-12-11 | 2019-05-10 | 中科恒运股份有限公司 | 分类模型训练方法和终端设备 |
CN110704637A (zh) * | 2019-09-29 | 2020-01-17 | 出门问问信息科技有限公司 | 一种多模态知识库的构建方法、装置及计算机可读介质 |
CN112085837A (zh) * | 2020-09-10 | 2020-12-15 | 哈尔滨理工大学 | 一种基于几何形状和lstm神经网络的三维模型分类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090299999A1 (en) * | 2009-03-20 | 2009-12-03 | Loui Alexander C | Semantic event detection using cross-domain knowledge |
CN103020221A (zh) * | 2012-12-12 | 2013-04-03 | 中国科学院自动化研究所 | 一种基于多模态自适应社会关系强度挖掘的社会搜索方法 |
CN105574133A (zh) * | 2015-12-15 | 2016-05-11 | 苏州贝多环保技术有限公司 | 一种多模态的智能问答系统及方法 |
CN106599266A (zh) * | 2016-12-22 | 2017-04-26 | 广东工业大学 | 一种异构数据共享表示学习方法及系统 |
CN106886543A (zh) * | 2015-12-16 | 2017-06-23 | 清华大学 | 结合实体描述的知识图谱表示学习方法和系统 |
-
2017
- 2017-07-13 CN CN201710570848.1A patent/CN107480194B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090299999A1 (en) * | 2009-03-20 | 2009-12-03 | Loui Alexander C | Semantic event detection using cross-domain knowledge |
CN103020221A (zh) * | 2012-12-12 | 2013-04-03 | 中国科学院自动化研究所 | 一种基于多模态自适应社会关系强度挖掘的社会搜索方法 |
CN105574133A (zh) * | 2015-12-15 | 2016-05-11 | 苏州贝多环保技术有限公司 | 一种多模态的智能问答系统及方法 |
CN106886543A (zh) * | 2015-12-16 | 2017-06-23 | 清华大学 | 结合实体描述的知识图谱表示学习方法和系统 |
CN106599266A (zh) * | 2016-12-22 | 2017-04-26 | 广东工业大学 | 一种异构数据共享表示学习方法及系统 |
Non-Patent Citations (2)
Title |
---|
RANJAY KRISHNA等: ""Visual Genome:Connecting Language and Vision Using Crowdsourced Dense Image Annotations"", 《INTERNATIONAL JOURNAL OF COMPUTER VISION》 * |
XINLEI CHEN等: ""Neil:Extracting Visual Knowledge from Web Data"", 《IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISON》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536735A (zh) * | 2018-03-05 | 2018-09-14 | 中国科学院自动化研究所 | 基于多通道自编码器的多模态词汇表示方法与系统 |
CN108536735B (zh) * | 2018-03-05 | 2020-12-15 | 中国科学院自动化研究所 | 基于多通道自编码器的多模态词汇表示方法与系统 |
CN109643229A (zh) * | 2018-04-17 | 2019-04-16 | 深圳鲲云信息科技有限公司 | 网络模型的应用开发方法及相关产品 |
US11954576B2 (en) | 2018-04-17 | 2024-04-09 | Shenzhen Corerain Technologies Co., Ltd. | Method for implementing and developing network model and related product |
CN109740634A (zh) * | 2018-12-11 | 2019-05-10 | 中科恒运股份有限公司 | 分类模型训练方法和终端设备 |
CN110704637A (zh) * | 2019-09-29 | 2020-01-17 | 出门问问信息科技有限公司 | 一种多模态知识库的构建方法、装置及计算机可读介质 |
CN112085837A (zh) * | 2020-09-10 | 2020-12-15 | 哈尔滨理工大学 | 一种基于几何形状和lstm神经网络的三维模型分类方法 |
CN112085837B (zh) * | 2020-09-10 | 2022-04-26 | 哈尔滨理工大学 | 一种基于几何形状和lstm神经网络的三维模型分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107480194B (zh) | 2020-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107480194A (zh) | 多模态知识表示自动学习模型的构建方法及系统 | |
CN107563439A (zh) | 一种识别清洗食材图片的模型及识别食材类别的方法 | |
Kaur et al. | Exploring convolutional neural network in computer vision-based image classification | |
CN107609009A (zh) | 文本情感分析方法、装置、存储介质和计算机设备 | |
CN109559300A (zh) | 图像处理方法、电子设备及计算机可读存储介质 | |
CN107220277A (zh) | 基于手绘草图的图像检索算法 | |
CN106779087A (zh) | 一种通用机器学习数据分析平台 | |
CN113254782B (zh) | 问答社区专家推荐方法及系统 | |
CN109034186A (zh) | 建立da-rbm分类器模型的方法 | |
CN103886030B (zh) | 基于代价敏感决策树的信息物理融合系统数据分类方法 | |
CN108984555A (zh) | 用户状态挖掘和信息推荐方法、装置以及设备 | |
Gerhana et al. | Comparison of naive Bayes classifier and C4. 5 algorithms in predicting student study period | |
Yang et al. | Deep learning model-driven financial risk prediction and analysis | |
CN109947948A (zh) | 一种基于张量的知识图谱表示学习方法及系统 | |
Wei et al. | (Retracted) Image analysis and pattern recognition method of three-dimensional process in physical education teaching based on big data | |
Kang et al. | A review and synthesis of recent geoai research for cartography: Methods, applications, and ethics | |
Arı et al. | A review of genetic programming: Popular techniques, fundamental aspects, software tools and applications | |
CN111104508A (zh) | 基于容错粗糙集的词袋模型文本表示方法、系统及介质 | |
Xing et al. | Rapid development of knowledge-based systems via integrated knowledge acquisition | |
Swaby | VIDES: An expert system for visually identifying microfossils | |
Elgibreen et al. | RULES-IT: incremental transfer learning with RULES family | |
Gupta et al. | Towards better guided attention and human knowledge insertion in deep convolutional neural networks | |
Zhang et al. | Discriminative additive scale loss for deep imbalanced classification and embedding | |
Briouya et al. | Exploration of image and 3D data segmentation methods: an exhaustive survey | |
Kahn | Implementing unsupervised machine learning algorithms in STOQS (The Spatial Temporal Oceanographic Query System) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |