CN111626058A - 基于cr2神经网络的图像-文本双编码实现方法及系统 - Google Patents
基于cr2神经网络的图像-文本双编码实现方法及系统 Download PDFInfo
- Publication number
- CN111626058A CN111626058A CN202010296309.5A CN202010296309A CN111626058A CN 111626058 A CN111626058 A CN 111626058A CN 202010296309 A CN202010296309 A CN 202010296309A CN 111626058 A CN111626058 A CN 111626058A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- information
- module
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明属于图像‑文本双编码技术领域,公开了一种基于CR2神经网络的图像‑文本双编码实现方法及系统,所述基于CR2神经网络的图像‑文本双编码实现系统包括:信息输入模块、图像获取模块、文本获取模块、中央控制模块、图像‑文本关联模块、性能测试模块、数据存储模块、显示模块。本发明利用CNN、RNN、RBF三种神经网络组成了CR2神经网络,基于互联网上大规模图像数据和文本数据之间的关联性,实现了基于CR2神经网络的图像‑文本双编码,让计算机自动地学习自主得到描述客观世界的语义基本概念,语义基本概念的生成对于网络内容检索、语义理解、知识表示等应用具有重要作用。
Description
技术领域
本发明属于图像-文本双编码技术领域,尤其涉及一种基于CR2神经网络的图像-文本双编码实现方法及系统。
背景技术
目前,双编码是由心理学家佩维奥在1971年提出的一种认知理论,其强调在信息的贮存、加工和提取中,语言和非语言的信息加工过程是同样重要的。人类认知存在两个子系统,其一专用于对非语词事物、事件(即映象)的表征与处理即表象系统;而另一个则用于语言的处理即语义系统。这两个子系统即相互平行又相互联系。佩维奥同时还假定,存在两种不同的表征单元:表象系统中适用于心理映象表征的“图象单元”和语义系统中适用于语言实体表征的“语言单元”。前者是根据部分与整体的关系组织的,而后者是根据联想与层级组织的。双编码理论是认知科学中的一个重要理论,但是其也只停留在了理论的文字表述,其完整数学模型的建立仍然是个难点。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有图像获取的方法只考虑到图像的焦距问题,使用户无法查看到图像的曝光过度部位和/或暗处部位的细节;同时,对于抓拍图像的获取难度较高。
(2)现有文本获取方法中的人工甄别方法不够高效且性价比不高;使用有监督机器学习来进行长文本可信度评估的方法很难获得标注数据,并且不同平台的数据与模型很难迁移。
(3)双编码理论是认知科学中的一个重要理论,但是其也只停留在了理论的文字表述,其完整数学模型的建立仍然是个难点。
发明内容
针对现有技术存在的问题,本发明提供了一种基于CR2神经网络的图像-文本双编码实现方法及系统。
本发明是这样实现的,一种基于CR2神经网络的图像-文本双编码实现方法,所述基于CR2神经网络的图像-文本双编码实现方法包括以下步骤:
步骤一,通过图像信息获取程序获取图像信息非语词表征的图像:(1)采集预定区域内的多个图像信息,并同时采集图像对应的位置场景及时间信息;
(2)获取目标样例信息,将所述多个图像信息分别输入至已预先完成训练的匹配模型中,并将所述图像信息与目标样例信息匹配,得出图像信息与所述目标样例信息的匹配结果;
(3)采用训练过的多层卷积神经网络CNN分析预定区域内采集的图像信息,并获取所述图像对焦马达的位置改变量以及图像传感器的曝光改变量;
(4)连续以所述位置改变量改变所述对焦马达的位置,并同时连续以所述曝光改变量改变所述图像传感器的曝光值达到预设次数;
(5)存储每次改变后所获取的图像,将所述多个图像合成处理为最终图像,同时根据图像信息与所述目标样例信息的匹配结果得到与所述预设次数相同数量的图像信息非语词表征的图像。
步骤二,通过文本语义获取程序获取文本信息语词表征的文本语义编码:(I)获取和文本信息语词表征的文本语义相关的自然语言文本,并进行文本的裁剪、生僻词替换、分词以及关键词处理;
(II)以已知长文本获取训练数据,提取该训练数据的训练特征以构建训练特征向量集,对该训练特征向量集进行无监督聚类,得到多个训练类心;
(III)通过文本处理模型以待评估长文本获取评估数据,提取该评估数据的评估特征向量,以Canopy聚类的结果作为初始聚簇划分,并且以被赋予更高权重的Canopy中心作为落在Canopy聚簇T2范围内的数据点集合的替代,参加K-Means迭代,实现过滤;通过一个完整的MapReduce任务完成每一次迭代,并自动识别文本和关键词的匹配度;第一次迭代时KMeansMapper从HDFS读取Canopy聚类结果,每次迭代都从HDFS读取上一次的K-Means聚类结果作为输入文件;在Canopy聚类阶段被做上强标记的数据点不参加距离函数计算;每个数据点经距离计算后加入距离最近的聚簇中心,并记录对聚簇产生的影响,用clusterObservation表示;NearestCluster方法是将本地机器上的数据点加入到距离最近的聚簇中去;并自动识别文本和关键词的匹配度;
(IV)获取所述评估特征向量相对该训练类心的评估值,根据所述评估值及匹配度得到该待评估长文本的可信度和匹配度,进而获取所述文本语义编码。
步骤三,通过中央控制器控制图像-文本关联程序进行图像信息和文本语义编码信息的关联:1)针对图像和文本语义进行特征提取与表达,分别获得文本、图像两者单独模态下语义基元的特征向量空间;
2)以图像中的每个区域作为结点,以结点之间的多种关系作为边,通过RBF自增长神经网络构建图像-文本语义关联模型;
3)构建图上的学习算法,将图像级别对应的文本语义信息有效地传播到这些图像区域上去,形成大量表征客观世界的语义基本单元集合。
进一步,步骤一之前,需进行:步骤I,通过信息输入设备输入与信息相关的图像信息及文本信息;
步骤三之后,还需进行:
步骤1,通过性能测试设备利用测试程序对图像-文本双编码实现系统的性能进行测试;
步骤2,通过微型存储芯片输入的图像信息及文本信息、获取的图像信息非语词表征的图像及文本语义编码、关联后的图像-文本数据;
步骤3,通过显示器显示输入的图像信息及文本信息、获取的图像信息非语词表征的图像及文本语义编码、关联后的图像-文本数据。
进一步,步骤一中,所述步骤(2)的匹配模型通过以下训练步骤得到:
获取样本信息,该样本信息包括子样本信息;
以所述子样本信息为所述匹配模型的输入,基于所述子样本信息训练得到匹配参数;
基于所述匹配参数,以确定所述样本信息与所述目标样例信息的匹配结果为输出,训练得到所述匹配模型。
进一步,步骤一中,所述步骤(4)的连续以所述位置改变量改变所述对焦马达的位置的步骤包括:使所述对焦马达的位置从所述对焦马达启动时的当前位置开始在相同方向上连续改变所述位置改变量达到所述预设次数;
所述连续以所述曝光改变量改变所述图像传感器的曝光值达到预设次数的步骤包括:使所述图像传感器的曝光值从所述图像传感器启动时的当前曝光值开始连续增加或减少所述曝光改变量达到所述预设次数。
进一步,步骤二中,所述通过文本处理模型以待评估长文本获取评估数据,提取该评估数据的评估特征向量,并自动识别文本和关键词的匹配度,包括:
通过循环神经网络RNN或其改进结构对文本信息进行表征,将RNN的输出向量与词表中的关键词的词向量处理形成一个能够反映文本信息、关键词信息及其关系的高维实数向量,将该向量输入一个分类器模型进行分类,并自动识别文本和关键词的匹配度。
进一步,所述RNN的输出向量与词表中的关键词词向量的处理方法可以为按元素求平均、按元素求和或者拼接。
进一步,步骤三中,所述步骤1)的针对图像和文本语义进行特征提取与表达,分别获得文本、图像两者单独模态下语义基元的特征向量空间,包括:
对原始文本数据进行文本模态数据预处理后,利用向量空间模型(VSM)完成文本到特征向量的映射,实现文本模态的特征表示;
对原始图像进行数据预处理和特征提取,然后利用视觉词袋模型(BOVW)进行图像特征的量化编码,获得区域块特征矩阵。
本发明的另一目的在于提供一种应用所述的基于CR2神经网络的图像-文本双编码实现方法的基于CR2神经网络的图像-文本双编码实现系统,所述基于CR2神经网络的图像-文本双编码实现系统包括:
信息输入模块、图像获取模块、文本获取模块、中央控制模块、图像-文本关联模块、性能测试模块、数据存储模块、显示模块。
信息输入模块,与中央控制模块连接,用于通过信息输入设备输入与信息相关的图像信息及文本信息;
图像获取模块,与中央控制模块连接,用于通过图像信息获取程序获取图像信息非语词表征的图像;
文本获取模块,与中央控制模块连接,用于通过文本语义获取程序获取文本信息语词表征的文本语义编码;
中央控制模块,与信息输入模块、图像获取模块、文本获取模块、图像-文本关联模块、性能测试模块、数据存储模块、显示模块连接,用于通过中央控制器控制各模块的正常运行;
图像-文本关联模块,与中央控制模块连接,用于通过图像-文本关联程序进行图像信息和文本语义编码信息的关联;
性能测试模块,与中央控制模块连接,用于通过性能测试设备利用测试程序对图像-文本双编码实现系统的性能进行测试;
数据存储模块,与中央控制模块连接,用于通过微型存储芯片输入的图像信息及文本信息、获取的图像信息非语词表征的图像及文本语义编码、关联后的图像-文本数据;
显示模块,与中央控制模块连接,用于通过显示器显示输入的图像信息及文本信息、获取的图像信息非语词表征的图像及文本语义编码、关联后的图像-文本数据。
本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施所述的基于CR2神经网络的图像-文本双编码实现方法。
本发明的另一目的在于提供一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机执行所述的基于CR2神经网络的图像-文本双编码实现方法。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明通过连续增加或减少曝光改变量达到预设次数,可以获取到与预设次数相同数目的曝光值各异的图像,以便用户在这些图像中选取所需的局部位置亮度最为正常的图像,以查看该局部位置的细节。本发明能够使用户可以查看到图像的曝光过度部位和/或暗处部位的细节,并合成得到高质量的图像,提升了用户体验。本发明提供的图像获取方法大大降低了对于拍摄者的拍摄技术的要求,同时大幅度提高了拍摄者拍摄到其期望动作的成功率;方法易用性非常高,对相机快门的速度以及连拍能力没有过高的要求,能够极好的满足用户的使用体验。
本发明通过训练构建的神经网络模型,部署已经训练合格的神经网络模型,来获取文本信息语词表征的文本语义编码。相较于现有技术,本发明能够利用自然语言文本信息来建模自动获知用户需求,避免了消费者手动查找服务和服务商被动等待消费者的弊端,极大地提高了消费者和服务的匹配效率。
本发明利用CNN、RNN、RBF三种神经网络组成了CR2神经网络,基于互联网上大规模图像数据和文本数据之间的关联性,让计算机自动地学习自主得到描述客观世界的语义基本概念,语义基本概念的生成对于网络内容检索、语义理解、知识表示等应用具有重要作用。
附图说明
图1是本发明实施例提供的基于CR2神经网络的图像-文本双编码实现方法流程图。
图2是本发明实施例提供的基于CR2神经网络的图像-文本双编码实现系统结构示意图;
图中:1、信息输入模块;2、图像获取模块;3、文本获取模块;4、中央控制模块;5、图像-文本关联模块;6、性能测试模块;7、数据存储模块;8、显示模块。
图3是本发明实施例提供的获取图像信息非语词表征的图像的方法流程图。
图4是本发明实施例提供的获取文本信息语词表征的文本语义编码的方法流程图。
图5是本发明实施例提供的图像信息和文本语义编码信息的关联的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于CR2神经网络的图像-文本双编码实现方法及系统,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的基于CR2神经网络的图像-文本双编码实现方法包括以下步骤:
S101,通过信息输入设备输入与信息相关的图像信息及文本信息;通过图像信息获取程序获取图像信息非语词表征的图像。
S102,通过文本语义获取程序获取文本信息语词表征的文本语义编码;通过中央控制器控制图像-文本双编码实现系统的正常运行。
S103,通过图像-文本关联程序进行图像信息和文本语义编码信息的关联;通过性能测试设备利用测试程序对图像-文本双编码实现系统的性能进行测试。
S104,通过微型存储芯片输入的图像信息及文本信息、获取的图像信息非语词表征的图像及文本语义编码、关联后的图像-文本数据。
S105,通过显示器显示输入的图像信息及文本信息、获取的图像信息非语词表征的图像及文本语义编码、关联后的图像-文本数据。
如图2所示,本发明实施例提供的基于CR2神经网络的图像-文本双编码实现系统包括:信息输入模块1、图像获取模块2、文本获取模块3、中央控制模块4、图像-文本关联模块5、性能测试模块6、数据存储模块7、显示模块8。
信息输入模块1,与中央控制模块4连接,用于通过信息输入设备输入与信息相关的图像信息及文本信息;
图像获取模块2,与中央控制模块4连接,用于通过图像信息获取程序获取图像信息非语词表征的图像;
文本获取模块3,与中央控制模块4连接,用于通过文本语义获取程序获取文本信息语词表征的文本语义编码;
中央控制模块4,与信息输入模块1、图像获取模块2、文本获取模块3、图像-文本关联模块5、性能测试模块6、数据存储模块7、显示模块8连接,用于通过中央控制器控制各模块的正常运行;
图像-文本关联模块5,与中央控制模块4连接,用于通过图像-文本关联程序进行图像信息和文本语义编码信息的关联;
性能测试模块6,与中央控制模块4连接,用于通过性能测试设备利用测试程序对图像-文本双编码实现系统的性能进行测试;
数据存储模块7,与中央控制模块4连接,用于通过微型存储芯片输入的图像信息及文本信息、获取的图像信息非语词表征的图像及文本语义编码、关联后的图像-文本数据;
显示模块8,与中央控制模块4连接,用于通过显示器显示输入的图像信息及文本信息、获取的图像信息非语词表征的图像及文本语义编码、关联后的图像-文本数据。
下面结合具体实施例对本发明作进一步描述。
实施例1
本发明实施例提供的基于CR2神经网络的图像-文本双编码实现方法方法如图1所示,作为优选实施例,如图3所示,本发明实施例提供的通过图像信息获取程序获取图像信息非语词表征的图像的方法包括:
S201,采集预定区域内的多个图像信息,并同时采集图像对应的位置场景及时间信息。
S202,获取目标样例信息,将所述多个图像信息分别输入至已预先完成训练的匹配模型中,并将所述图像信息与目标样例信息匹配,得出图像信息与所述目标样例信息的匹配结果。
S203,采用训练过的多层卷积神经网络CNN分析预定区域内采集的图像信息,并获取所述图像对焦马达的位置改变量以及图像传感器的曝光改变量。
S204,连续以所述位置改变量改变所述对焦马达的位置,并同时连续以所述曝光改变量改变所述图像传感器的曝光值达到预设次数。
S205,存储每次改变后所获取的图像,将所述多个图像合成处理为最终图像,同时根据图像信息与所述目标样例信息的匹配结果得到与所述预设次数相同数量的图像信息非语词表征的图像。
本发明实施例提供的匹配模型通过以下训练步骤得到:
获取样本信息,该样本信息包括子样本信息;
以所述子样本信息为所述匹配模型的输入,基于所述子样本信息训练得到匹配参数;
基于所述匹配参数,以确定所述样本信息与所述目标样例信息的匹配结果为输出,训练得到所述匹配模型。
本发明实施例提供的连续以所述位置改变量改变所述对焦马达的位置的步骤包括:使所述对焦马达的位置从所述对焦马达启动时的当前位置开始在相同方向上连续改变所述位置改变量达到所述预设次数。
本发明实施例提供的连续以所述曝光改变量改变所述图像传感器的曝光值达到预设次数的步骤包括:使所述图像传感器的曝光值从所述图像传感器启动时的当前曝光值开始连续增加或减少所述曝光改变量达到所述预设次数。
实施例2
本发明实施例提供的基于CR2神经网络的图像-文本双编码实现方法如图1所示,如图4所示,作为优选实施例,本发明实施例提供的通过文本语义获取程序获取文本信息语词表征的文本语义编码的方法包括:
S301,获取和文本信息语词表征的文本语义相关的自然语言文本,并进行文本的裁剪、生僻词替换、分词以及关键词处理。
S302,以已知长文本获取训练数据,提取该训练数据的训练特征以构建训练特征向量集,对该训练特征向量集进行无监督聚类,得到多个训练类心。
S303,通过文本处理模型以待评估长文本获取评估数据,提取该评估数据的评估特征向量,并自动识别文本和关键词的匹配度。
S304,获取所述评估特征向量相对该训练类心的评估值,根据所述评估值及匹配度得到该待评估长文本的可信度和匹配度,进而获取所述文本语义编码。
本发明通过文本处理模型以待评估长文本获取评估数据,提取该评估数据的评估特征向量,以Canopy聚类的结果作为初始聚簇划分,并且以被赋予更高权重的Canopy中心作为落在Canopy聚簇T2范围内的数据点集合的替代,参加K-Means迭代,实现过滤;通过一个完整的MapReduce任务完成每一次迭代,并自动识别文本和关键词的匹配度;第一次迭代时KMeansMapper从HDFS读取Canopy聚类结果,每次迭代都从HDFS读取上一次的K-Means聚类结果作为输入文件;在Canopy聚类阶段被做上强标记的数据点不参加距离函数计算;每个数据点经距离计算后加入距离最近的聚簇中心,并记录对聚簇产生的影响,用clusterObservation表示;NearestCluster方法是将本地机器上的数据点加入到距离最近的聚簇中去。
本发明实施例提供的通过文本处理模型以待评估长文本获取评估数据,提取该评估数据的评估特征向量,并自动识别文本和关键词的匹配度,包括:
通过循环神经网络RNN或其改进结构对文本信息进行表征,将RNN的输出向量与词表中的关键词的词向量处理形成一个能够反映文本信息、关键词信息及其关系的高维实数向量,将该向量输入一个分类器模型进行分类,并自动识别文本和关键词的匹配度。
本发明实施例提供的RNN的输出向量与词表中的关键词词向量的处理方法可以为按元素求平均、按元素求和或者拼接。
实施例3
本发明实施例提供的基于CR2神经网络的图像-文本双编码实现方法如图1所示,如图5所示,作为优选实施例,本发明实施例提供的通过图像-文本关联程序进行图像信息和文本语义编码信息的关联的方法包括:
S401,针对图像和文本语义进行特征提取与表达,分别获得文本、图像两者单独模态下语义基元的特征向量空间。
S402,以图像中的每个区域作为结点,以结点之间的多种关系作为边,通过RBF自增长神经网络构建图像-文本语义关联模型。
S403,构建图上的学习算法,将图像级别对应的文本语义信息有效地传播到这些图像区域上去,形成大量表征客观世界的语义基本单元集合。
本发明实施例提供的针对图像和文本语义进行特征提取与表达,分别获得文本、图像两者单独模态下语义基元的特征向量空间,包括:
对原始文本数据进行文本模态数据预处理后,利用向量空间模型(VSM)完成文本到特征向量的映射,实现文本模态的特征表示;
对原始图像进行数据预处理和特征提取,然后利用视觉词袋模型(BOVW)进行图像特征的量化编码,获得区域块特征矩阵。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于CR2神经网络的图像-文本双编码实现方法,其特征在于,所述基于CR2神经网络的图像-文本双编码实现方法包括:
步骤一,通过图像信息获取程序获取图像信息非语词表征的图像;
(1)采集预定区域内的多个图像信息,并同时采集图像对应的位置场景及时间信息;
(2)获取目标样例信息,将所述多个图像信息分别输入至已预先完成训练的匹配模型中,并将所述图像信息与目标样例信息匹配,得出图像信息与所述目标样例信息的匹配结果;
(3)采用训练过的多层卷积神经网络CNN分析预定区域内采集的图像信息,并获取所述图像对焦马达的位置改变量以及图像传感器的曝光改变量;
(4)连续以所述位置改变量改变所述对焦马达的位置,并同时连续以所述曝光改变量改变所述图像传感器的曝光值达到预设次数;
(5)存储每次改变后所获取的图像,将所述多个图像合成处理为最终图像,同时根据图像信息与所述目标样例信息的匹配结果得到与所述预设次数相同数量的图像信息非语词表征的图像;
步骤二,通过文本语义获取程序获取文本信息语词表征的文本语义编码;
(I)获取和文本信息语词表征的文本语义相关的自然语言文本,并进行文本的裁剪、生僻词替换、分词以及关键词处理;
(II)以已知长文本获取训练数据,提取该训练数据的训练特征以构建训练特征向量集,对该训练特征向量集进行无监督聚类,得到多个训练类心;
(III)通过文本处理模型以待评估长文本获取评估数据,提取该评估数据的评估特征向量,以Canopy聚类的结果作为初始聚簇划分,并且以被赋予更高权重的Canopy中心作为落在Canopy聚簇T2范围内的数据点集合的替代,参加K-Means迭代,实现过滤;通过一个完整的MapReduce任务完成每一次迭代,并自动识别文本和关键词的匹配度;第一次迭代时KMeansMapper从HDFS读取Canopy聚类结果,每次迭代都从HDFS读取上一次的K-Means聚类结果作为输入文件;在Canopy聚类阶段被做上强标记的数据点不参加距离函数计算;每个数据点经距离计算后加入距离最近的聚簇中心,并记录对聚簇产生的影响,用clusterObservation表示;NearestCluster方法是将本地机器上的数据点加入到距离最近的聚簇中去;
(IV)获取所述评估特征向量相对该训练类心的评估值,根据所述评估值及匹配度得到该待评估长文本的可信度和匹配度,进而获取所述文本语义编码;
步骤三,通过中央控制器控制图像-文本关联程序进行图像信息和文本语义编码信息的关联:1)针对图像和文本语义进行特征提取与表达,分别获得文本、图像两者单独模态下语义基元的特征向量空间;
2)以图像中的每个区域作为结点,以结点之间的多种关系作为边,通过RBF自增长神经网络构建图像-文本语义关联模型;
3)构建图上的学习算法,将图像级别对应的文本语义信息有效地传播到这些图像区域上去,形成大量表征客观世界的语义基本单元集合。
2.如权利要求1所述的基于CR2神经网络的图像-文本双编码实现方法,其特征在于,步骤一之前,需进行:步骤I,通过信息输入设备输入与信息相关的图像信息及文本信息;
步骤三之后,还需进行:
步骤1,通过性能测试设备利用测试程序对图像-文本双编码实现系统的性能进行测试;
步骤2,通过微型存储芯片输入的图像信息及文本信息、获取的图像信息非语词表征的图像及文本语义编码、关联后的图像-文本数据;
步骤3,通过显示器显示输入的图像信息及文本信息、获取的图像信息非语词表征的图像及文本语义编码、关联后的图像-文本数据。
3.如权利要求1所述的基于CR2神经网络的图像-文本双编码实现方法,其特征在于,步骤一中,所述步骤(2)的匹配模型通过以下训练步骤得到:
获取样本信息,该样本信息包括子样本信息;
以所述子样本信息为所述匹配模型的输入,基于所述子样本信息训练得到匹配参数;
基于所述匹配参数,以确定所述样本信息与所述目标样例信息的匹配结果为输出,训练得到所述匹配模型。
4.如权利要求1所述的基于CR2神经网络的图像-文本双编码实现方法,其特征在于,步骤一中,所述步骤(4)的连续以所述位置改变量改变所述对焦马达的位置的步骤包括:使所述对焦马达的位置从所述对焦马达启动时的当前位置开始在相同方向上连续改变所述位置改变量达到所述预设次数;
所述连续以所述曝光改变量改变所述图像传感器的曝光值达到预设次数的步骤包括:使所述图像传感器的曝光值从所述图像传感器启动时的当前曝光值开始连续增加或减少所述曝光改变量达到所述预设次数。
5.如权利要求1所述的基于CR2神经网络的图像-文本双编码实现方法,其特征在于,步骤二中,所述通过文本处理模型以待评估长文本获取评估数据,提取该评估数据的评估特征向量,并自动识别文本和关键词的匹配度,包括:
通过循环神经网络RNN或其改进结构对文本信息进行表征,将RNN的输出向量与词表中的关键词的词向量处理形成一个能够反映文本信息、关键词信息及其关系的高维实数向量,将该向量输入一个分类器模型进行分类,并自动识别文本和关键词的匹配度。
6.如权利要求5所述的基于CR2神经网络的图像-文本双编码实现方法,其特征在于,所述RNN的输出向量与词表中的关键词词向量的处理方法可以为按元素求平均、按元素求和或者拼接。
7.如权利要求1所述的基于CR2神经网络的图像-文本双编码实现方法,其特征在于,步骤三中,所述步骤1)的针对图像和文本语义进行特征提取与表达,分别获得文本、图像两者单独模态下语义基元的特征向量空间,包括:
对原始文本数据进行文本模态数据预处理后,利用向量空间模型(VSM)完成文本到特征向量的映射,实现文本模态的特征表示;
对原始图像进行数据预处理和特征提取,然后利用视觉词袋模型(BOVW)进行图像特征的量化编码,获得区域块特征矩阵。
8.一种应用如权利要求1~7任意一项所述的基于CR2神经网络的图像-文本双编码实现方法的基于CR2神经网络的图像-文本双编码实现系统,其特征在于,所述基于CR2神经网络的图像-文本双编码实现系统包括:
信息输入模块,与中央控制模块连接,用于通过信息输入设备输入与信息相关的图像信息及文本信息;
图像获取模块,与中央控制模块连接,用于通过图像信息获取程序获取图像信息非语词表征的图像;
文本获取模块,与中央控制模块连接,用于通过文本语义获取程序获取文本信息语词表征的文本语义编码;
中央控制模块,与信息输入模块、图像获取模块、文本获取模块、图像-文本关联模块、性能测试模块、数据存储模块、显示模块连接,用于通过中央控制器控制各模块的正常运行;
图像-文本关联模块,与中央控制模块连接,用于通过图像-文本关联程序进行图像信息和文本语义编码信息的关联;
性能测试模块,与中央控制模块连接,用于通过性能测试设备利用测试程序对图像-文本双编码实现系统的性能进行测试;
数据存储模块,与中央控制模块连接,用于通过微型存储芯片输入的图像信息及文本信息、获取的图像信息非语词表征的图像及文本语义编码、关联后的图像-文本数据;
显示模块,与中央控制模块连接,用于通过显示器显示输入的图像信息及文本信息、获取的图像信息非语词表征的图像及文本语义编码、关联后的图像-文本数据。
9.一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施如权利要求1~7任意一项所述的基于CR2神经网络的图像-文本双编码实现方法。
10.一种计算机可读存储介质,储存有指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1~7任意一项所述的基于CR2神经网络的图像-文本双编码实现方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010296309.5A CN111626058B (zh) | 2020-04-15 | 2020-04-15 | 基于cr2神经网络的图像-文本双编码实现方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010296309.5A CN111626058B (zh) | 2020-04-15 | 2020-04-15 | 基于cr2神经网络的图像-文本双编码实现方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111626058A true CN111626058A (zh) | 2020-09-04 |
CN111626058B CN111626058B (zh) | 2023-05-30 |
Family
ID=72259814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010296309.5A Active CN111626058B (zh) | 2020-04-15 | 2020-04-15 | 基于cr2神经网络的图像-文本双编码实现方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111626058B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801234A (zh) * | 2021-04-12 | 2021-05-14 | 中国人民解放军国防科技大学 | 基于神经网络的图像诗句描述生成方法、装置和设备 |
CN113298892A (zh) * | 2021-04-09 | 2021-08-24 | 北京沃东天骏信息技术有限公司 | 一种图像编码方法和设备,及存储介质 |
CN115098722A (zh) * | 2022-08-25 | 2022-09-23 | 北京达佳互联信息技术有限公司 | 文本和图像的匹配方法、装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107016439A (zh) * | 2017-05-09 | 2017-08-04 | 重庆大学 | 基于cr2神经网络的图像‑文本双编码机理实现模型 |
CN107330100A (zh) * | 2017-07-06 | 2017-11-07 | 北京大学深圳研究生院 | 基于多视图联合嵌入空间的图像‑文本双向检索方法 |
CN108288067A (zh) * | 2017-09-12 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 图像文本匹配模型的训练方法、双向搜索方法及相关装置 |
CN108647350A (zh) * | 2018-05-16 | 2018-10-12 | 中国人民解放军陆军工程大学 | 一种基于双通道网络的图文关联检索方法 |
EP3493120A1 (en) * | 2017-12-01 | 2019-06-05 | Koninklijke Philips N.V. | Training a neural network model |
CN110647632A (zh) * | 2019-08-06 | 2020-01-03 | 上海孚典智能科技有限公司 | 基于机器学习的图像与文本映射技术 |
-
2020
- 2020-04-15 CN CN202010296309.5A patent/CN111626058B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107016439A (zh) * | 2017-05-09 | 2017-08-04 | 重庆大学 | 基于cr2神经网络的图像‑文本双编码机理实现模型 |
CN107330100A (zh) * | 2017-07-06 | 2017-11-07 | 北京大学深圳研究生院 | 基于多视图联合嵌入空间的图像‑文本双向检索方法 |
CN108288067A (zh) * | 2017-09-12 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 图像文本匹配模型的训练方法、双向搜索方法及相关装置 |
EP3493120A1 (en) * | 2017-12-01 | 2019-06-05 | Koninklijke Philips N.V. | Training a neural network model |
CN108647350A (zh) * | 2018-05-16 | 2018-10-12 | 中国人民解放军陆军工程大学 | 一种基于双通道网络的图文关联检索方法 |
CN110647632A (zh) * | 2019-08-06 | 2020-01-03 | 上海孚典智能科技有限公司 | 基于机器学习的图像与文本映射技术 |
Non-Patent Citations (2)
Title |
---|
卓昀侃;綦金玮;彭宇新;: "跨媒体深层细粒度关联学习方法" * |
李翔: "基于深度学习的遥感图像语义描述" * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298892A (zh) * | 2021-04-09 | 2021-08-24 | 北京沃东天骏信息技术有限公司 | 一种图像编码方法和设备,及存储介质 |
CN112801234A (zh) * | 2021-04-12 | 2021-05-14 | 中国人民解放军国防科技大学 | 基于神经网络的图像诗句描述生成方法、装置和设备 |
CN115098722A (zh) * | 2022-08-25 | 2022-09-23 | 北京达佳互联信息技术有限公司 | 文本和图像的匹配方法、装置、电子设备和存储介质 |
CN115098722B (zh) * | 2022-08-25 | 2022-12-27 | 北京达佳互联信息技术有限公司 | 文本和图像的匹配方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111626058B (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110737801B (zh) | 内容分类方法、装置、计算机设备和存储介质 | |
CN111062871B (zh) | 一种图像处理方法、装置、计算机设备及可读存储介质 | |
CN110866140B (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
US20220122357A1 (en) | Generating responses to queries about videos utilizing a multi-modal neural network with attention | |
JP6745857B2 (ja) | 学習装置、学習システム、および学習方法 | |
CN108038103B (zh) | 一种对文本序列进行分词的方法、装置和电子设备 | |
US10163227B1 (en) | Image file compression using dummy data for non-salient portions of images | |
WO2021139191A1 (zh) | 数据标注的方法以及数据标注的装置 | |
GB2546360A (en) | Image captioning with weak supervision | |
CN110225368B (zh) | 一种视频定位方法、装置及电子设备 | |
CN111626058A (zh) | 基于cr2神经网络的图像-文本双编码实现方法及系统 | |
CN107066464A (zh) | 语义自然语言向量空间 | |
CN109816039A (zh) | 一种跨模态信息检索方法、装置和存储介质 | |
AU2016256753A1 (en) | Image captioning using weak supervision and semantic natural language vector space | |
US20200401621A1 (en) | Cognitive video and audio search aggregation | |
CN110263215B (zh) | 一种视频情感定位方法及系统 | |
CN112989212B (zh) | 媒体内容推荐方法、装置和设备及计算机存储介质 | |
CN114998777B (zh) | 一种针对跨模态视频检索模型的训练方法及装置 | |
CN114330499A (zh) | 分类模型的训练方法、装置、设备、存储介质及程序产品 | |
WO2024040941A1 (zh) | 神经网络结构搜索方法、装置及存储介质 | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
WO2024114382A1 (zh) | 文本分析方法、情感分类模型、装置、介质、终端及产品 | |
CN114996511A (zh) | 一种针对跨模态视频检索模型的训练方法及装置 | |
Gao et al. | A hierarchical recurrent approach to predict scene graphs from a visual‐attention‐oriented perspective | |
Glavan et al. | InstaIndoor and multi-modal deep learning for indoor scene recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |