CN107480194B - 多模态知识表示自动学习模型的构建方法及系统 - Google Patents

多模态知识表示自动学习模型的构建方法及系统 Download PDF

Info

Publication number
CN107480194B
CN107480194B CN201710570848.1A CN201710570848A CN107480194B CN 107480194 B CN107480194 B CN 107480194B CN 201710570848 A CN201710570848 A CN 201710570848A CN 107480194 B CN107480194 B CN 107480194B
Authority
CN
China
Prior art keywords
picture
structured
structured text
text
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710570848.1A
Other languages
English (en)
Other versions
CN107480194A (zh
Inventor
徐常胜
鲍秉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201710570848.1A priority Critical patent/CN107480194B/zh
Publication of CN107480194A publication Critical patent/CN107480194A/zh
Application granted granted Critical
Publication of CN107480194B publication Critical patent/CN107480194B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种多模态知识表示自动学习模型的构建方法及系统,所述构建方法包括:从互联网的数据中挖掘出结构化的文本集;从互联网的数据中挖掘出结构化的图片集;根据所述结构化的文本集和图片集,构建统一特征空间的自动学习模型,用于确定多模态待检测信息的知识向量。本发明多模态知识表示自动学习模型的构建方法通过从互联网的数据中挖掘结构化的文本集和图片集,进而构建统一特征空间的自动学习模型,从而能够快速实现对多模态待检测信息的知识向量的分析检索,可提高准确度高和识别效率。

Description

多模态知识表示自动学习模型的构建方法及系统
技术领域
本发明涉及网络信息处理技术领域,更具体地,涉及一种多模态知识表示自动学习模型的构建方法及系统。
背景技术
海量互联网数据中蕴含着大量的知识,人们理解数据的基本单元也是知识,例如,给定一句文本“猫和狗在厨房里嬉闹”实际包含“猫在厨房”、“狗在厨房”、“猫狗在嬉闹”三个知识。在信息检索领域需要将数据转变为向量才能被计算机处理,而知识表示学习的目的就是通过训练学习的方法将知识转化为有鲁棒性和具有区分性的向量表示。
传统的知识表示学习技术致力于结构化的三元组文本表示,即将<主,谓,宾>三元组结构表示为向量。这类方法最大的缺点在于具有<主,谓,宾>三元组结构的数据需要大量人员进行手工标注。
近年来,也有一些工作开始研究图像的知识化表示,一幅图像可能包含多个物体且这些物体两两之间可能会具有一些空间或者其他交互信息,例如“人在骑马”,“狗躺在沙发上”,图像的知识化的表示的目的是将同时包含两个物体的区域表示为特征向量。这类方法的缺点在于需要大量人工精确标注每一幅图片中各个物体所在的位置与物体两两之间的关系,这种对于图像的结构化的标注是极其费时费力的,现在最大的可用于图像知识表示学习的数据库Visual Genome也仅仅含有完整标注的数千张图片。
此外,现在的知识表示学习方法的显著缺陷在于其没有考虑多模态信息,而网络数据中的很多知识是以多种模态形式呈现给用户,例如一句文本“一个男人在骑马”向用户表达了一个知识,但同时网络有很多图片可以表达和这个文本相同的知识,将这两种模态的知识进行统一表达将有助于更加精准的跨模态信息检索任务。现有的方法没有对这一情况进行系统的研究,导致多模态信息识别的准确度较低、识别效率差。
发明内容
为了解决现有技术中的上述问题,即为了解决多模态信息识别的准确度较低、识别效率差,本发明提供了一种多模态知识表示自动学习模型的构建方法及系统。
一种多模态知识表示自动学习模型的构建方法,所述构建方法包括:
从互联网的数据中挖掘出结构化的文本集;
从互联网的数据中挖掘出结构化的图片集;
根据所述结构化的文本集和图片集,构建统一特征空间的自动学习模型,用于确定多模态待检测信息的知识向量。
可选的,所述从互联网的文本数据中挖掘出结构化的文本集,具体包括:
利用信息抽取工具,将互联网的文本数据转换为结构化表示,确定候选结构化文本集;
利用词典数据库,对所述候选结构化文本集进行初次过滤,删除不包含属于实体的结构化文本数据,获得初滤结构化文本集;
利用文本搜索引擎,对所述初滤结构化文本集进行二次过滤,获得结构化文本集。
可选的,所述利用文本搜索引擎,对所述初滤结构化文本集进行二次过滤,具体包括:
将所述初滤结构化文本集中的各结构化文本数据连接成句子;
将各所述句子分别输入至搜索引擎中进行搜索,如果返回相关网页,则保留所述句子对应的结构化文本数据;否则,删除所述句子对应的结构化文本数据,保留的各结构化文本数据形成结构化文本集。
可选的,所述从互联网的图片数据中挖掘出结构化的图片集,具体包括:
根据所述结构化的文本集,采用图片搜索引擎从互联网的图片数据中获得候选结构化图片数据集;
根据结构化图片的可表示力,删除所述候选结构化图片数据集中无效图片,获得初滤结构化图片数据集;
对所述初滤结构化图片数据集进行噪声过滤,获得结构化的图片集。
可选的,所述根据结构化图片的可表示力,删除所述候选结构化图片数据集中无效图片,具体包括:
根据以下公式确定图片组Vi的可表示力φ(Vi):
Figure BDA0001349621630000031
其中,每一个结构化文本Si具有表示相同知识的一组图片记为Vi,i是索引号,图片组Vi中含有Ni张图片,Cent(Vi)是第i组图片的中心,dist(k,Cent(Vi))表示第i组图片组Vi中图片k和中心Cent(Vi)之间的距离;
判断所述图片组Vi的可表示力φ(Vi)是否大于可表示力阈值,如果大于,则可表示力对应的图片组为无效,删除无效图片组;否则保留对应的图片组;保留的各图片组形成初滤结构化图片数据集。
可选的,所述对所述初滤结构化图片数据集进行噪声过滤,具体包括:
根据以下公式,计算图片组Vi中图片k的噪声分数Snoisy(k):
Figure BDA0001349621630000032
其中,j表示图片组Vi中的图片,dist(k,j)表示第i组图片组Vi中图片k和图片j之间的距离;
判断所述噪声分数是否大于噪声阈值,如果大于,则删除对应噪声分数图片组中的图片;否则保留,保留下的图片组形成结构化的图片集。
可选的根据以下公式确定第i组图片组Vi中图片k和图片j之间的距离dist(k,j):
Figure BDA0001349621630000033
其中,*表示共轭运算,
Figure BDA0001349621630000034
表示点积,F表示一维离散傅里叶变换,F-1是其逆变换,λ是正则因子项,Xk表示图片k采用传统词袋模型和空间金字塔匹配模型的特征向量,Xj表示图片j采用传统词袋模型和空间金字塔匹配模型的特征向量。
可选的所述根据所述结构化的文本集和图片集,构建统一特征空间的自动学习模型,具体包括:
根据所述结构化的图片集中的各图片信息学习结构化文本的知识表示,确定第一优化目标函数;
根据所述结构化的文本集中的各结构化文本表示学习图片的知识表示,确定第二优化目标函数;
根据所述学习图片的知识表示与所述总体优化目标函数进行迭代确定自动学习模型。
可选的,所述确定第一优化目标函数,具体包括:
计算结构化文本Si的优化函数:
一个结构化文本Si中的种子文本
Figure BDA0001349621630000041
Figure BDA0001349621630000042
对应的结构化图片组Vi相似的图片组所对应的结构化文本全部被视为相似结构化文本
Figure BDA0001349621630000043
否则将被视为不相似结构化文本
Figure BDA0001349621630000044
将结构化文本Si的知识表示记为h(Si),所有的文本知识表示应满足下式:
Figure BDA0001349621630000045
其中,α是控制相似与不相似之间的阈值超参数;
根据以下公式确定对于结构化文本Si的优化函数:
Figure BDA0001349621630000046
其中,每次训练时送入网络一个三元组
Figure BDA0001349621630000047
根据以下公式确定结构化文本Si的分类损失函数:
Figure BDA0001349621630000048
其中,W和b分别表示分类层的需要参数,其中,C表示三元组对
Figure BDA0001349621630000049
的数量,
Figure BDA00013496216300000410
bya、byp、byn、bc
Figure BDA00013496216300000411
分别表示种子文本
Figure BDA00013496216300000412
相似结构化文本
Figure BDA00013496216300000413
不相似结构化文本
Figure BDA00013496216300000414
对应网络模型的权重与偏置参数;
根据所述结构化文本Si的优化函数及分类损失函数,确定第一优化目标函数:
Figure BDA0001349621630000051
可选的,所述根据所述结构化的文本集中的各结构化文本表示学习图片的知识表示,具体包括:
将结构化文本的知识表示向量作为监督信号,利用深度脊回归算法学习图片的知识表示学习模型,确认第二目标函数:
Figure BDA0001349621630000052
其中,Nj是第j组图片组中图片的个数,K表示训练集中总的结构化多模态数据的个数,Iij表示第j组的第i幅图片、g(Iij)表示其对应的由网络提取的图片语义特征、λ||W||2是正则项,h(Sj)表示结构化文本Sj的知识表示记。
可选的,所述根据所述学习图片的知识表示与所述总体优化目标函数进行迭代确定自动学习模型,具体包括:
根据所述第二优化目标函数确定三元组;
将所述三元组代入到所述第一优化目标函数中进行迭代运算;
当所述第一优化目标函数和第二目标函数得到最优解,得到所述自动学习模型。
根据本发明的实施例,本发明公开了以下技术效果:
本发明多模态知识表示自动学习模型的构建方法通过从互联网的数据中挖掘结构化的文本集和图片集,进而构建统一特征空间的自动学习模型,从而能够快速实现对多模态待检测信息的知识向量的分析检索,可提高准确度高和识别效率。
实现上述目的,本发明还提供了如下方案:
一种多模态知识表示自动学习模型的构建系统,所述构建系统包括:
第一挖掘单元,用于从互联网的数据中挖掘出结构化的文本集;
第二挖掘单元,从互联网的数据中挖掘出结构化的图片集;
建模单元,用于根据所述结构化的文本集和图片集,构建统一特征空间的自动学习模型,用于确定多模态待检测信息的知识向量。
根据本发明的实施例,本发明公开了以下技术效果:
本发明多模态知识表示自动学习模型的构建系统通过第一挖掘单元、第二挖掘单元,从互联网的数据中挖掘结构化的文本集和图片集,进而通过建模单元构建统一特征空间的自动学习模型,从而能够快速实现对多模态待检测信息的知识向量的分析检索,可提高准确度高和识别效率。
附图说明
图1是本发明多模态知识表示自动学习模型的构建方法的流程图;
图2是本发明多模态知识表示自动学习模型的构建系统的模块结构示意图。
符号说明:
第一挖掘单元—1,第二挖掘单元—2,建模单元—3。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明提供了一种多模态知识表示自动学习模型的构建方法,通过从互联网的数据中挖掘结构化的文本集和图片集,进而构建统一特征空间的自动学习模型,从而能够快速实现对多模态待检测信息的知识向量的分析检索,可提高准确度高和识别效率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明多模态知识表示自动学习模型的构建方法包括:
步骤100:从互联网的数据中挖掘出结构化的文本集;
步骤200:从互联网的数据中挖掘出结构化的图片集;
步骤300:根据所述结构化的文本集和图片集,构建统一特征空间的自动学习模型,用于确定多模态待检测信息的知识向量。
其中,在步骤100中,所述从互联网的文本数据中挖掘出结构化的文本集,具体包括:
步骤101:利用信息抽取工具,将互联网的文本数据转换为结构化表示,确定候选结构化文本集。
其中,所述候选结构化文本集中包括多个结构化文本,所述结构化文本由<主,谓,宾>组成。本发明以挖掘结构化文本数据为切入点,对于互联网上的大规模的文本数据,利用现有的信息抽取工具将原始文本转换为结构化的表示,如<人,骑,马>,<男人,在上面,自行车>等主谓宾形式。
步骤102:利用词典数据库,对所述候选结构化文本集进行初次过滤,删除不包含属于实体的结构化文本数据,获得初滤结构化文本集。
在步骤101中获得的候选结构化文本集中有许多无法用图片表示,例如<奥巴马,前总统,美国>这一结构化文本中,“前总统”和“美国”都无法用图片表示。本发明利用词典数据库对步骤101生成的结构化文本进行过滤,本发明通过大量实验统计发现仅当实体属于词典中特定一些类别时才可能被图片无歧义的进行表示,如“animal(动物)”“person(人)”、“plant(植物)”、“artifact(人工制品)”、“natural object(自然物体)”、“substance(物质)”、“body(身体)”、“food(食物)”、“group(团体)”等。因此,本发明将根据词典数据库删除包含不属于这些实体的结构化文本数据。
步骤103:利用文本搜索引擎,对所述初滤结构化文本集进行二次过滤,获得结构化文本集。
其中,所述利用文本搜索引擎,对所述初滤结构化文本集进行二次过滤,具体包括:
步骤1031:将所述初滤结构化文本集中的各结构化文本数据连接成句子;
步骤1032:将各所述句子分别输入至搜索引擎中进行搜索,如果返回相关网页,则保留所述句子对应的结构化文本数据;否则,删除所述句子对应的结构化文本数据,保留的各结构化文本数据形成结构化文本集。
由于在步骤101中采用的信息抽取工具的缺陷,一些候选结构化文本数据是错误的或者不符合逻辑的,例如<一栋大房子,凝视,羊群>。本发明利用文本搜索引擎过滤这些错误或者不和逻辑的结构化文本数据。具体地说,本发明将结构化的文本数据连接成一句话送入搜索引擎进行搜索,如果返回相关网页则保留此结构化文本,否则将其删除。
其中,在步骤200中,所述从互联网的图片数据中挖掘出结构化的图片集,具体包括:
步骤201:根据所述结构化的文本集,采用图片搜索引擎从互联网的图片数据中获得候选结构化图片数据集。
通过步骤100,可以获得大量的有意义的结构化文本数据,但是仍然没有结构化图片信息。为了获得与结构化文本相对应的结构化信息,本发明采用图片搜索引擎获得候选结构化图片数据。具体地说,每一个候选结构化文本都被送入到图片搜索引擎,返回的前50张图片作为候选结构化图片集。
步骤202:根据结构化图片的可表示力,删除所述候选结构化图片数据集中无效图片,获得初滤结构化图片数据集。
其中,所述根据结构化图片的可表示力,删除所述候选结构化图片数据集中无效图片,具体包括:
步骤2021:根据公式(1)确定图片组Vi的可表示力φ(Vi):
Figure BDA0001349621630000081
其中,每一个结构化文本Si具有表示相同知识的一组图片记为Vi,i是索引号,图片组Vi中含有Ni张图片,Cent(Vi)是第i组图片的中心,dist(k,Cent(Vi))表示第i组图片组Vi中图片k和中心Cent(Vi)之间的距离。
本发明采用迁移学习的思想获得图片特征提取器,这里我们首先使用仅包含单物体标注的数据集预训练一个深度残差网络作为图片的特征提取器的初始网络,由于预训练数据集中的图片仅包含一个物体,而我们的数据集中包含至少两个主要物体,因此我们采用具有多物体标签的数据集微调我们的图片特征提取网络,距离dist(k,Cent(Vi))度量采用欧式距离计算方法确定。
步骤2022:判断所述图片组Vi的可表示力φ(Vi)是否大于可表示力阈值,如果大于,则可表示力对应的图片组为无效,删除无效图片组;否则保留对应的图片组;保留的各图片组形成初滤结构化图片数据集。
步骤203:对所述初滤结构化图片数据集进行噪声过滤,获得结构化的图片集。
其中,所述对所述初滤结构化图片数据集进行噪声过滤,具体包括:
步骤2031:根据公式(2),计算图片组Vi中图片k的噪声分数Snoisy(k):
Figure BDA0001349621630000091
其中,j表示图片组Vi中的图片,dist(k,j)表示第i组图片组Vi中图片k和图片j之间的距离。
第i组图片组Vi中图片k和图片j之间的距离dist(k,j)可采用采用欧式距离计算方法确定,也可采用公式(3)确定
Figure BDA0001349621630000092
其中,*表示共轭运算,
Figure BDA0001349621630000093
表示点积,F表示一维离散傅里叶变换,F-1是其逆变换,λ是正则因子项,Xk表示图片k采用传统词袋模型和空间金字塔匹配模型的特征向量,Xj表示图片j采用传统词袋模型和空间金字塔匹配模型的特征向量。
步骤2032:判断所述噪声分数是否大于噪声阈值,如果大于,则删除对应噪声分数图片组中的图片;否则保留,保留下的图片组形成结构化的图片集。
在步骤300中,所述根据所述结构化的文本集和图片集,构建统一特征空间的自动学习模型,具体包括:
步骤301:根据所述结构化的图片集中的各图片信息学习结构化文本的知识表示,确定第一优化目标函数。
步骤302:根据所述结构化的文本集中的各结构化文本表示学习图片的知识表示,确定第二优化目标函数。
步骤303:根据所述学习图片的知识表示与所述总体优化目标函数进行迭代确定自动学习模型。
所述确定第一优化目标函数,具体包括:
步骤3011:计算结构化文本Si的优化函数:
一个结构化文本Si中的种子文本
Figure BDA0001349621630000101
Figure BDA0001349621630000102
对应的结构化图片组Vi相似的图片组所对应的结构化文本全部被视为相似结构化文本
Figure BDA0001349621630000103
否则将被视为不相似结构化文本
Figure BDA0001349621630000104
将结构化文本Si的知识表示记为h(Si),所有的文本知识表示应满足下式(4):
Figure BDA0001349621630000105
其中,α是控制相似与不相似之间的阈值超参数
根据公式(5)确定对于结构化文本Si的优化函数:
Figure BDA0001349621630000106
其中,每次训练时送入网络一个三元组
Figure BDA0001349621630000107
每次训练时需送入网络一个三元组
Figure BDA0001349621630000108
仅仅优化上式(5)可能导致一个问题即出现两个结构化文本的知识表示相同的情况,但是在人的实际感知中两个不同的结构化的文本所表示的知识只可能相似而不肯能相等,例如“男孩骑自行车”“男孩在自行车上”就是极其相似但不同的知识。因此,同时引入了分类损失函数。具体的,如步骤3012所示。
步骤3012:根据公式(6)确定结构化文本Si的分类损失函数:
Figure BDA0001349621630000109
其中,W和b分别表示分类层的需要参数,其中,C表示三元组对
Figure BDA00013496216300001010
的数量,
Figure BDA00013496216300001011
bya、byp、byn、bc
Figure BDA00013496216300001012
分别表示种子文本
Figure BDA00013496216300001013
相似结构化文本
Figure BDA00013496216300001014
不相似结构化文本
Figure BDA00013496216300001015
对应网络模型的权重与偏置参数。
步骤3013:根据公式(7),根据所述结构化文本Si的优化函数及分类损失函数,确定第一优化目标函数:
Figure BDA0001349621630000111
通过自适应矩估计算法优化上式(7)。
本发明采用具有双层LSTM((Long Short-Term Memory,长短时记忆)结构的循环神经网络模型作为结构化文本的知识表示学习模型,结构化文本的最后一个实体对应的循环神经网络模型的输出即是此结构化文本的知识表示。不同于传统的文本表示学习任务,本发明基于图片信息构造结构化文本三元组的方法用于结构化文本知识表示学习,从而使得使用的数据不具有任何人工标注信息可用于直接监督学习,降低劳动强度,提高识别效率。
在步骤302中,所述根据所述结构化的文本集中的各结构化文本表示学习图片的知识表示,具体包括:
将结构化文本的知识表示向量作为监督信号,利用深度脊回归算法学习图片的知识表示学习模型,根据公式(8)确认第二目标函数:
Figure BDA0001349621630000112
其中,Nj是第j组图片组中图片的个数,K表示训练集中总的结构化多模态数据的个数,Iij表示第j组的第i幅图片、g(Iij)表示其对应的由网络提取的图片语义特征、λ||W||2是正则项,h(Sj)表示结构化文本Sj的知识表示记。
在步骤303中,所述根据所述学习图片的知识表示与所述总体优化目标函数进行迭代确定自动学习模型,具体包括:
步骤3031:根据所述第二优化目标函数确定三元组;
步骤3032:将所述三元组代入到所述第一优化目标函数中进行迭代运算;
步骤3033:当所述第一优化目标函数和第二目标函数得到最优解,得到所述自动学习模型。
本发明多模态知识表示自动学习模型的构建方法可以在复杂海量的网络数据中自动的挖掘出结构化多模态数据并将其进行统一知识化表示,不仅可以解决基于知识的跨模态信息检索问题,还可以利用已经具有的知识对训练数据中未出现的知识进行准确的表达,例如训练的数据中仅具有“牛在吃草”与“人在骑马”的结构化的文本与图片多模态数据,本发明可以将未在训练数据中出现的“人在骑牛”的文本与图片进行准确的知识化表示。
例如,本发明通过从网络上挖掘出近3万组结构化多模态数据(约70万个结构化实例)(即结构化的文本集和图片集),其中80%作为训练集,20%作为测试集(注意测试集中的多模态数据从未在训练集中出现过)。通过训练集确定统一特征空间的自动学习模型,通过所述自动学习模型在测试集中进行多模态与跨模态检索任务,实验证明本发明所提取到的多模态知识表示是准确且有意义的。
本发明多模态知识表示自动学习模型的构建方法综合利用网络数据的多模态特点及现有搜索引擎弱标签的特性从繁杂的网络数据中自动挖掘出结构化的多模态数据,并提出了一种有效的多模态知识表示学习方法,不但可以在同一空间表示多种数据模态的知识,还可以利用已有结构化数据对训练集中未出现的结构化数据进行有效知识表示,有助于互联网时代的跨模态与多模态检索任务。
此外,本发明还提供一种多模态知识表示自动学习模型的构建系统。具体的,如图2所示,本发明多模态知识表示自动学习模型的构建系统包括第一挖掘单元1、第二挖掘单元2及建模单元3。
其中,所述第一挖掘单元1用于从互联网的数据中挖掘出结构化的文本集;所述第二挖掘单元2从互联网的数据中挖掘出结构化的图片集;所述建模单元3用于根据所述结构化的文本集和图片集,构建统一特征空间的自动学习模型,用于确定多模态待检测信息的知识向量。
相对于现有技术,本发明多模态知识表示自动学习模型的构建系统与多模态知识表示自动学习模型的构建方法的有益效果相同,在此不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (11)

1.一种多模态知识表示自动学习模型的构建方法,其特征在于,所述构建方法包括:
从互联网的数据中挖掘出结构化的文本集;
从互联网的数据中挖掘出结构化的图片集;
根据所述结构化的文本集和图片集,构建统一特征空间的自动学习模型,用于确定多模态待检测信息的知识向量;
其中,所述根据所述结构化的文本集和图片集,构建统一特征空间的自动学习模型,具体包括:
根据所述结构化的图片集中的各图片信息学习结构化文本的知识表示,确定第一优化目标函数;
根据所述结构化的文本集中的各结构化文本表示学习图片的知识表示,确定第二优化目标函数;
根据所述学习图片的知识表示与总体优化目标函数进行迭代确定自动学习模型。
2.根据权利要求1所述的多模态知识表示自动学习模型的构建方法,其特征在于,所述从互联网的文本数据中挖掘出结构化的文本集,具体包括:
利用信息抽取工具,将互联网的文本数据转换为结构化表示,确定候选结构化文本集;
利用词典数据库,对所述候选结构化文本集进行初次过滤,删除不包含属于实体的结构化文本数据,获得初滤结构化文本集;
利用文本搜索引擎,对所述初滤结构化文本集进行二次过滤,获得结构化文本集。
3.根据权利要求2所述的多模态知识表示自动学习模型的构建方法,其特征在于,所述利用文本搜索引擎,对所述初滤结构化文本集进行二次过滤,具体包括:
将所述初滤结构化文本集中的各结构化文本数据连接成句子;
将各所述句子分别输入至搜索引擎中进行搜索,如果返回相关网页,则保留所述句子对应的结构化文本数据;否则,删除所述句子对应的结构化文本数据,保留的各结构化文本数据形成结构化文本集。
4.根据权利要求1所述的多模态知识表示自动学习模型的构建方法,其特征在于,所述从互联网的图片数据中挖掘出结构化的图片集,具体包括:
根据所述结构化的文本集,采用图片搜索引擎从互联网的图片数据中获得候选结构化图片数据集;
根据结构化图片的可表示力,删除所述候选结构化图片数据集中无效图片,获得初滤结构化图片数据集;
对所述初滤结构化图片数据集进行噪声过滤,获得结构化的图片集。
5.根据权利要求4所述的多模态知识表示自动学习模型的构建方法,其特征在于,所述根据结构化图片的可表示力,删除所述候选结构化图片数据集中无效图片,具体包括:
根据以下公式确定图片组Vi的可表示力φ(Vi):
Figure FDA0002333510200000021
其中,每一个结构化文本Si具有表示相同知识的一组图片记为Vi,i是索引号,图片组Vi中含有Ni张图片,Cent(Vi)是第i组图片的中心,dist(k,Cent(Vi))表示第i组图片组Vi中图片k和中心Cent(Vi)之间的距离;
判断所述图片组Vi的可表示力φ(Vi)是否大于可表示力阈值,如果大于,则可表示力对应的图片组为无效,删除无效图片组;否则保留对应的图片组;保留的各图片组形成初滤结构化图片数据集。
6.根据权利要求5所述的多模态知识表示自动学习模型的构建方法,其特征在于,所述对所述初滤结构化图片数据集进行噪声过滤,具体包括:
根据以下公式,计算图片组Vi中图片k的噪声分数Snoisy(k):
Figure FDA0002333510200000022
其中,j表示图片组Vi中的图片,dist(k,j)表示第i组图片组Vi中图片k和图片j之间的距离;
判断所述噪声分数是否大于噪声阈值,如果大于,则删除对应噪声分数图片组中的图片;否则保留,保留下的图片组形成结构化的图片集。
7.根据权利要求6所述的多模态知识表示自动学习模型的构建方法,其特征在于,根据以下公式确定第i组图片组Vi中图片k和图片j之间的距离dist(k,j):
Figure FDA0002333510200000031
其中,*表示共轭运算,⊙表示点积,F表示一维离散傅里叶变换,F-1是其逆变换,λ是正则因子项,Xk表示图片k采用传统词袋模型和空间金字塔匹配模型的特征向量,Xj表示图片j采用传统词袋模型和空间金字塔匹配模型的特征向量。
8.根据权利要求1所述的多模态知识表示自动学习模型的构建方法,其特征在于,所述确定第一优化目标函数,具体包括:
计算结构化文本Si的优化函数:
一个结构化文本Si中的种子文本
Figure FDA0002333510200000032
Figure FDA0002333510200000033
对应的结构化图片组Vi相似的图片组所对应的结构化文本全部被视为相似结构化文本
Figure FDA0002333510200000034
否则将被视为不相似结构化文本
Figure FDA0002333510200000035
将结构化文本Si的知识表示记为h(Si),所有的文本知识表示应满足下式:
Figure FDA0002333510200000036
其中,α是控制相似与不相似之间的阈值超参数;
根据以下公式确定对于结构化文本Si的优化函数:
Figure FDA0002333510200000037
其中,每次训练时送入网络一个三元组
Figure FDA0002333510200000038
根据以下公式确定结构化文本Si的分类损失函数:
Figure FDA0002333510200000039
其中,W和b分别表示分类层的需要参数,其中,C表示三元组对
Figure FDA00023335102000000310
的数量,
Figure FDA00023335102000000311
bya、byp、byn、bc
Figure FDA00023335102000000312
分别表示种子文本
Figure FDA00023335102000000313
相似结构化文本
Figure FDA00023335102000000314
不相似结构化文本
Figure FDA00023335102000000315
对应网络模型的权重与偏置参数;
根据所述结构化文本Si的优化函数及分类损失函数,确定第一优化目标函数:
Figure FDA0002333510200000041
9.根据权利要求8所述多模态知识表示自动学习模型的构建方法,其特征在于,所述根据所述结构化的文本集中的各结构化文本表示学习图片的知识表示,具体包括:
将结构化文本的知识表示向量作为监督信号,利用深度脊回归算法学习图片的知识表示学习模型,确认第二目标函数:
Figure FDA0002333510200000042
其中,Nj是第j组图片组中图片的个数,K表示训练集中总的结构化多模态数据的个数,Iij表示第j组的第i幅图片、g(Iij)表示其对应的由网络提取的图片语义特征、λ||W||2是正则项,h(Sj)表示结构化文本Sj的知识表示。
10.根据权利要求9所述的多模态知识表示自动学习模型的构建方法,其特征在于,所述根据所述学习图片的知识表示与总体优化目标函数进行迭代确定自动学习模型,具体包括:
根据所述第二优化目标函数确定三元组;
将所述三元组代入到所述第一优化目标函数中进行迭代运算;
当所述第一优化目标函数和第二目标函数得到最优解,得到所述自动学习模型。
11.一种多模态知识表示自动学习模型的构建系统,其特征在于,所述构建系统包括:
第一挖掘单元,用于从互联网的数据中挖掘出结构化的文本集;
第二挖掘单元,从互联网的数据中挖掘出结构化的图片集;
建模单元,用于根据所述结构化的文本集和图片集,构建统一特征空间的自动学习模型,用于确定多模态待检测信息的知识向量;
其中,所述根据所述结构化的文本集和图片集,构建统一特征空间的自动学习模型,具体包括:
根据所述结构化的图片集中的各图片信息学习结构化文本的知识表示,确定第一优化目标函数;
根据所述结构化的文本集中的各结构化文本表示学习图片的知识表示,确定第二优化目标函数;
根据所述学习图片的知识表示与总体优化目标函数进行迭代确定自动学习模型。
CN201710570848.1A 2017-07-13 2017-07-13 多模态知识表示自动学习模型的构建方法及系统 Active CN107480194B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710570848.1A CN107480194B (zh) 2017-07-13 2017-07-13 多模态知识表示自动学习模型的构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710570848.1A CN107480194B (zh) 2017-07-13 2017-07-13 多模态知识表示自动学习模型的构建方法及系统

Publications (2)

Publication Number Publication Date
CN107480194A CN107480194A (zh) 2017-12-15
CN107480194B true CN107480194B (zh) 2020-03-13

Family

ID=60596705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710570848.1A Active CN107480194B (zh) 2017-07-13 2017-07-13 多模态知识表示自动学习模型的构建方法及系统

Country Status (1)

Country Link
CN (1) CN107480194B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536735B (zh) * 2018-03-05 2020-12-15 中国科学院自动化研究所 基于多通道自编码器的多模态词汇表示方法与系统
US11954576B2 (en) 2018-04-17 2024-04-09 Shenzhen Corerain Technologies Co., Ltd. Method for implementing and developing network model and related product
CN109740634A (zh) * 2018-12-11 2019-05-10 中科恒运股份有限公司 分类模型训练方法和终端设备
CN110704637B (zh) * 2019-09-29 2023-05-12 出门问问信息科技有限公司 一种多模态知识库的构建方法、装置及计算机可读介质
CN112085837B (zh) * 2020-09-10 2022-04-26 哈尔滨理工大学 一种基于几何形状和lstm神经网络的三维模型分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020221A (zh) * 2012-12-12 2013-04-03 中国科学院自动化研究所 一种基于多模态自适应社会关系强度挖掘的社会搜索方法
CN105574133A (zh) * 2015-12-15 2016-05-11 苏州贝多环保技术有限公司 一种多模态的智能问答系统及方法
CN106599266A (zh) * 2016-12-22 2017-04-26 广东工业大学 一种异构数据共享表示学习方法及系统
CN106886543A (zh) * 2015-12-16 2017-06-23 清华大学 结合实体描述的知识图谱表示学习方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8213725B2 (en) * 2009-03-20 2012-07-03 Eastman Kodak Company Semantic event detection using cross-domain knowledge

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020221A (zh) * 2012-12-12 2013-04-03 中国科学院自动化研究所 一种基于多模态自适应社会关系强度挖掘的社会搜索方法
CN105574133A (zh) * 2015-12-15 2016-05-11 苏州贝多环保技术有限公司 一种多模态的智能问答系统及方法
CN106886543A (zh) * 2015-12-16 2017-06-23 清华大学 结合实体描述的知识图谱表示学习方法和系统
CN106599266A (zh) * 2016-12-22 2017-04-26 广东工业大学 一种异构数据共享表示学习方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Neil:Extracting Visual Knowledge from Web Data";Xinlei Chen等;《IEEE International Conference on Computer Vison》;20131208;第1409-1416页 *
"Visual Genome:Connecting Language and Vision Using Crowdsourced Dense Image Annotations";Ranjay Krishna等;《International Journal of Computer Vision》;20170531;第32卷(第1期);第32-73页 *

Also Published As

Publication number Publication date
CN107480194A (zh) 2017-12-15

Similar Documents

Publication Publication Date Title
CN107480194B (zh) 多模态知识表示自动学习模型的构建方法及系统
CN107944559B (zh) 一种实体关系自动识别方法及系统
CN105404632B (zh) 基于深度神经网络对生物医学文本序列化标注的系统和方法
Dekhtyar et al. Re data challenge: Requirements identification with word2vec and tensorflow
CN112364174A (zh) 基于知识图谱的病人病历相似度评估方法及系统
CN106980608A (zh) 一种中文电子病历分词和命名实体识别方法及系统
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN110188147B (zh) 基于知识图谱的文献实体关系发现方法及系统
CN113724882B (zh) 基于问诊会话构建用户画像的方法、装置、设备和介质
CN112711953A (zh) 一种基于注意力机制和gcn的文本多标签分类方法和系统
CN105631479A (zh) 基于非平衡学习的深度卷积网络图像标注方法及装置
CN117076693A (zh) 一种数字人教师多模态大语言模型预训练学科语料库的构建方法
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
CN113569018A (zh) 问答对挖掘方法及装置
CN111582506A (zh) 基于全局和局部标记关系的偏多标记学习方法
Xiao et al. An extended attention mechanism for scene text recognition
CN113380360A (zh) 一种基于多模态病历图的相似病历检索方法及系统
CN116127099A (zh) 基于图卷积网络的联合文本增强的表实体与类型注释方法
CN111597330A (zh) 一种基于支持向量机的面向智能专家推荐的用户画像方法
CN114048361A (zh) 基于深度学习的众包软件开发者推荐方法
CN116386148B (zh) 基于知识图谱引导的小样本动作识别方法及系统
CN117852523A (zh) 一种学习鉴别性语义和多视角上下文的跨域小样本关系抽取方法和装置
CN116108836B (zh) 文本情感识别方法、装置、计算机设备及可读存储介质
CN111104508B (zh) 基于容错粗糙集的词袋模型文本表示方法、系统及介质
CN107122378A (zh) 对象处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant