CN111144510B

CN111144510B - 基于多模型的图像语义识别方法、系统、设备及介质

Info

Publication number: CN111144510B
Application number: CN201911411816.2A
Authority: CN
Inventors: 周曦; 姚志强; 吴媛; 吴大为
Original assignee: Shanghai Yunconghuilin Artificial Intelligence Technology Co ltd
Current assignee: Shanghai Yunconghuilin Artificial Intelligence Technology Co ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-09-04
Anticipated expiration: 2039-12-31
Also published as: CN111144510A

Abstract

本发明提供一种基于多模型的图像语义识别方法、系统、设备及介质，该方法包括：获取图像，利用多种图像语义识别模型分别处理所述图像得到关于语义识别的多种识别结果；按照所述识别结果相似配对，重新排列识别结果内的顺序将最相似的识别结果排列在相同顺序位置；根据多种所述识别结果中根节点之间相似度和子节点之间相似度，计算每种所述图像语义识别模型中每个根节点与每个子节点的综合置信度；根据所述根节点与子节点的综合置信度选择适应的语义描述作为所述图像的识别结果。本发明通过使用多种图像语义识别模型得到多种识别结果，利用识别结果中根节点与子节点的综合置信度选择语义描述作为识别结果，提高了图像语义识别的准确率。

Description

基于多模型的图像语义识别方法、系统、设备及介质

技术领域

本发明涉及人工智能技术领域，特别是涉及一种基于多模型的图像语义识别方法、系统、设备及介质。

背景技术

随着人工智能技术的发展，越来越多的图像处理工作可以通过人工智能的方式来完成，神经网络作为人工智能的一种实现手段，在计算机图像识别领域得到了充分的应用。例如，在图像中对不同人物进行识别，或者在无人驾驶中自动识别道路上的不同对象，这些都构成了图像语义识别的具体内容，将其转换为自然语音的描述从而满足图像搜索等场景的应用。

然而，现有的图像语义识别算法都所涉及的开源软件开发包及商业化应用服务都是基于深度学习神经网络进行识别，针对训练集差异、算法差异、物体分类差异、命名差异等因素，导致对各种应用场景的识别过结果不同，从而导致识别准确率不高。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供基于多模型的图像语义识别方法、系统、设备及介质，用于解决现有图像语义识别算法缺乏统一标准，针对同一应用场景造成识别结果参差不齐，从而影响语义识别准确率的问题。

为实现上述目的及其他相关目的，本发明提供一种基于多模型的图像语义识别方法，包括：

获取图像，利用多种图像语义识别模型分别处理所述图像得到关于语义识别的多种识别结果；

按照所述识别结果相似配对，重新排列识别结果内的顺序将最相似的识别结果排列在相同顺序位置；

根据多种所述识别结果中根节点之间相似度和子节点之间相似度，计算每种所述图像语义识别模型中每个根节点与每个子节点的综合置信度；

根据所述根节点与子节点的综合置信度选择适应的语义描述作为所述图像的识别结果。

本发明的另一目的在于提供一种基于多模型的图像语义识别系统，包括：

图像语义识别模块，用于获取图像，利用多种图像语义识别模型分别处理所述图像得到关于语义识别的多种识别结果；

数据对齐模块，用于按照所述识别结果相似配对，重新排列识别结果内的顺序将最相似的识别结果排列在相同顺序位置；

综合计算模块，用于统计多种图像语义识别模型识别所述图像所对应的识别结果，计算每种所述图像语义识别模型中每个根节点与每个子节点的综合置信度；

语义输出模块，用于根据所述根节点与子节点的综合置信度选择适应的语义描述作为所述图像的识别结果。

本发明的另一目的在于提供一种设备，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行时，使得所述设备执行上述基于多模型的图像语义识别方法。

本发明还一目的在于提供一个或多个机器可读介质，包括：

其上存储有指令，当由一个或多个处理器执行时，使得设备执行上述基于多模型的图像语义识别方法。

如上所述，本发明提供的一种基于多模型的图像语义识别方法、系统、设备及介质，具有以下有益效果：

本发明通过采用多种图像语义识别模型处理图像，得到多种不同模型下的识别结果，通过识别结果中的相似配对，重新排列识别结果内的顺序将最相似的识别结果排列在相同顺序位置，综合统计每种模型每个根节点与每个子节点的综合置信度，根据所述根节点与子节点的综合置信度选择语义描述作为识别结果，使输出的图像语义识别结果更符合人的主观认知，提高了图像语义识别的准确率。

附图说明

图1为本发明实施例提供的基于多模型的图像语义识别方法流程图；

图2为本发明实施例提供的基于多模型的图像语义识别方法一流程图；

图3为本发明实施例提供的基于多模型的图像语义识别方法另一流程图；

图4为本发明实施例提供的基于多模型的图像语义识别方法中步骤S31流程图；

图5为本发明实施例提供的基于多模型的图像语义识别方法中另一流程图；

图6为本发明实施例提供的基于多模型的图像语义识别方法中步骤S32另一流程图；

图7为本发明实施例提供的基于多模型的图像语义识别方法完整流程图；

图8为本发明实施例提供的基于多模型的图像语义识别系统结构框图；

图9为本发明实施例提供的基于多模型的图像语义识别系统一结构框图；

图10为本发明实施例提供的基于多模型的图像语义识别系统一结构框图；

图11为本发明实施例提供的基于多模型的图像语义识别系统另一结构框图；

图12为本发明实施例提供的基于多模型的图像语义识别系统完整结构框图；

图13为本发明实施例提供的终端设备的硬件结构示意图；

图14为本发明实施例提供的终端设备的硬件结构示意图。

元件标号说明

1 图像语义识别模块

2 语义转换模块

3 数据对齐模块

31 第一相似配对单元

32 第二相似配对单元

311 第一计算子单元

312 第一配对子单元

313 第一排序子单元

321 第二计算子单元

322 第二配对子单元

323 第二排序子单元

4 综合计算模块

5 语义输出模块

51 查找单元

52 第一语义输出单元

53 第二语义输出单元

1100 输入设备

1101 第一处理器

1102 输出设备

1103 第一存储器

1104 通信总线

1200 处理组件

1201 第二处理器

1202 第二存储器

1203 通信组件

1204 电源组件

1205 多媒体组件

1206 语音组件

1207 输入/输出接口

1208 传感器组件

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

在本申请中，需要理解的是，几个概念的含义分别为：

ROI：Region of Interest，即感兴趣区域，在机器视觉、图像处理中，从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域，称为感兴趣区域。

根节点：即树形结构中的上层节点，在本发明中指语义描述中经过抽象和归纳后的概念，例如“狗”的根节点可以是“动物”。

子节点：即树形结构中的下层节点，在本发明中指语义描述中更具象和细分的概念，例如“藏獒”可以是“狗”的子节点。

图像语义识别模型：在本发明中指应用的各种图像语义识别开源SDK以及商业化应用服务。

IOU：Intersection over Union，即交并比，计算的是“预测的边框”和“真实的边框”的交集和并集的比值，在本发明中用来计算两个模型对同一个物体识别结果中ROI的相关性。

请参阅图1，为本发明实施例提供的基于多模型的图像语义识别方法流程图，包括：

步骤S1，获取图像，利用多种图像语义识别模型分别处理所述图像得到关于语义识别的多种识别结果；

其中，通过摄像装置或截取视频流等方式获取待处理的图像，该图像可以包括单帧图像或多帧图像，这多帧图像中至少有两帧图像中存在至少一个对应同一体素的像素；该图像为2D图像，例如，彩色RGB图像；该图像为3D图像时，例如，可应用到自动驾驶、机器人视觉系统、工业视觉系统等动态变化场景中的3D图像语义识别；另外，多种图像语义识别模型包括主流开源SDK(软件开发包)以及商业化应用服务包括但不限于谷歌提供的VisionAPI服务、阿里提供的图像标签API服务等。

在本实施例中，针对同一幅图像，多种图像语义识别模型分别处理的识别结果按照所述图像语义识别模型对应的根节点、子节点及置信度表示多种所述识别结果，可表示为：

Result_i＝{(Root_im,Key_im,Score_im)|m∈N}

其中：Result_i表示第i个模型的识别结果；Root_im表示第i个模型的第m个识别结果的根节点描述；Key_im表示第i个模型的第m个识别结果的子节点描述；Score_im表示第i个模型的第m个识别结果的置信度，如果每个模型有多个根节点和子节点，由于各种识别结果中一个根节点对应有一个子节点，采用上述依次表示第i个模型其它根节点、子节点和置信度，有利于多种识别结果的排序。

步骤S2，按照所述识别结果相似配对，重新排列识别结果内的顺序将最相似的识别结果排列在相同顺序位置；

其中，相似配对根据识别结果中是否包含ROI，使用的相似分计算方式不同，例如，当识别结果中不包含ROI时，采用文本语义计算各个识别结果之间的相似分；而当识别结果中包含ROI时，采用IOU计算各个识别结果之间的相似分。

步骤S3，根据多种所述识别结果中根节点之间相似度和子节点之间相似度，计算每种所述图像语义识别模型中每个根节点与每个子节点的综合置信度；

其中，基于多种图像语义识别模型中根节点之间的相似分和子节点之间的相似分，统计多种图像语义识别模型识别所述图像所对应的识别结果，计算每种所述图像语义识别模型中每个根节点与每个子节点的综合置信度。

例如，采用以下方式分别记录第i个模型的第m个识别结果的综合置信分可表示为：

式中，similar(Root_im,Root_jm)表示第i个模型的第m个根节点Root_im和第j个模型的第m个根节点Root_jm的相似分；similar(Key_im,Key_jm)表示第i个模型的第m个子节点Key_im和第j个模型的第m个子节点Key_jm的相似分；Score_jm表示第j个模型的第m个识别结果的置信度。另外，由于每两种图像语义识别模型之间的根节点与子节点的相似分都需要步骤2进行计算，例如，如果每种图像语义识别模型中根节点与子节点包含多个时，按照上述公式分别计算每种图像语义识别模型节点与其它模型内同类型节点之间的相似分，例如，如果第i个模型包括N个自然数的根节点和子节点，总共有K个模型，那么针对第i个模型而言，需要(K-1)*N次计算也能得到节点之间的相似度，但本实施例中，由于通过步骤S2将各种识别结果中节点相似度最大的排列在相同顺序位置，从而减少了相似度计算计算量，能迅速寻找出第i个模型节点在其它模型与其相似度最大的同类型节点，从而得到每种图像语义识别模型每个根节点和每个子节点各自最大的综合置信分。

在本实施例中，通过计算每种所述图像语义识别模型中每个根节点与每个子节点的综合置信度，便于量化多种图像语义识别模型的识别结果，使得在统一标准下，能够将识别结果通过语义转换实现描述标准化，从而便于后续输出更准确的语义描述作为识别结果。

步骤S4，根据所述根节点与子节点的综合置信度选择适应的语义描述作为所述图像的识别结果。

本实施例中，通过采用多种图像语义识别模型处理图像，得到多种不同模型下的识别结果，通过识别结果中的相似配对，重新排列识别结果内的顺序将最相似的识别结果排列在相同顺序位置，综合统计每种模型每个根节点与每个子节点的综合置信度，根据所述根节点与子节点的综合置信度选择语义描述作为识别结果，使输出的图像语义识别结果更符合人的主观认知，提高了图像语义识别的准确率。

请参阅图2，本发明实施例提供的基于多模型的图像语义识别方法一流程图，详述如下：

在另一些实施例中，与上述实施例的不同点在于，在步骤S2之前还包括：

步骤S11，将多种所述识别结果按预设规格进行语义转换生成相应的文本语义；

其中，将多种图像语义识别模型对应的多个识别结果按照预设规格进行语义转换得到相应的文本语义；所述预设规格包括预设的目标语言与预设的表述标准。

具体地，例如，目标语言为中文，采用知识图谱、上下文相关性等方式进行翻译及同义词转换，使得相同语义的识别结果有统一的表述标准。例如，针对同一幅图像的识别结果可能为“狗”、“犬”、“dog”，通过上述语义转换可统一描述为“狗”。

在本实施例中，针对步骤S11如果多种所述识别结果中只包含简单字词，不涉及语义，则该步骤可省略，如果多种图像语义识别模型包含文本语义以及外语等识别结果，采用语义转换处理各种识别结果，能够得到同一描述标准的语义描述。

请参阅图3，本发明实施例提供的基于多模型的图像语义识别方法一流程图，详述如下：

步骤S21，利用文本语义来计算多种图像语义识别模型之间识别结果的相似分，重新排列识别结果内的顺序将最相似的识别结果排列在相同顺序位置。

请参阅图4，为本发明实施例提供的基于多模型的图像语义识别方法中步骤S21流程图，详述如下：

步骤S211，基于文本语义计算每种图像语义识别模型中每个节点的识别结果与其它图像语义识别模型中所有同类型节点的识别结果之间的相似分；

步骤S212，选择计算结果中最大相似分所对应的节点作为两种图像语义识别模型配对的节点；

步骤S213，将配对的节点重新编号，按照同一幅所述图像在不同的图像语义识别模型语义最相似的识别结果排列在相同顺序位置。

需要说明的是，上述针对的识别结果不包含感兴趣区域，而是根据识别结果中的文本语义来计算相似分，其中，计算文本语义相似分的算法包括但不限于编辑距离、word2ve(产生词向量的相关模型)等。还有，涉及同类型的节点包括根节点和子节点，即，通过文本语义计算所有子节点所对应的识别结果之间的相似分，将同一幅图像的第i个模型的第m个子节点识别结果，计算该节点识别结果与第j个模型的所有子节点的相似分；选择上述计算结果中最大的相似分对应的子节点，作为两个图像语义识别模型配对的子节点；将找到的配对子节点重新编号，使得同一幅图像在不同图像语义识别模型中语义最相似的识别结果在TOP N的识别结果中相同的顺序位置，从而实现编号排序，例如，如果TOPN识别结果为动物、狗、狼以及置信度，那么将识别结果中为动物都排第一位、识别为狗都排第二位，识别为狼的排在第三位，从而重新排列各个识别结果内顺序，即，排序无关只需识别结果相同排列相同顺序位置即可。

同理，依据文本语义计算所有根节点所对应的识别结果之间的相似分，便于两个图像语义识别模型配对根节点，将找到的配对根节点重新编号，使得同一幅图像在不同图像语义识别模型中语义最相似的识别结果在TOP N的识别结果中相同的顺序位置，从而实现编号排序。

请参阅图4，本发明实施例提供的基于多模型的图像语义识别方法另一流程图，详述如下：

在另一些实施例中，与上述实施例的不同点包括：

步骤S22，利用多种图像语义识别模型的识别结果中的感兴趣区域相对位置重合来计算相似分，重新排列识别结果内的顺序将最相似的识别结果排列在相同顺序位置。

请参阅图6，为本发明实施例提供的基于多模型的图像语义识别方法中步骤S32流程图，详述如下：

步骤S221，计算任意两幅所述图像识别结果之间的交并比，将其作为两个识别结果之间的相似分；

步骤S222，如果所述相似分大于预设相似分阈值，则所述两幅图像的两个识别结果相对应；如果所述相似分不大于预设相似分阈值，则所述两幅图像的两个识别结果不对应；

步骤S223，根据配对结果重新编号，按照同一幅所述图像在不同的图像语义识别模型配对的识别结果排列在相同顺序位置。

需要说明的是，由于识别结果还包含感兴趣区域，针对文本的多义性，多种图像语义识别模型按照感兴趣区域的相对位置来计算相似分，能够得到更为准确的相似分结果，进而根据感兴趣区域的相关性进行识别结果实现配对。例如，针对同一幅图像，计算多种图像语义识别模型的TOP N识别结果，如步骤S1所记载；交叉计算两幅图之间上述识别结果的IOU(交并比)，作为两个识别结果之间的相似分；如果交并比大于预设的相似分(交并比)阈值，则表示正在计算的两幅图的两个识别结果是对应的；否则为不对应；根据配对结果，将多种图像语义识别模型的TOP N识别结果进行重新编号，确保同一幅图像中TOP N识别结果顺序一致，从而实现编号排序。

在本实施例中，无论采用文本语义或感兴趣区域的相对位置来计算相似分，都能够达到识别结果配对的目的，有利于识别结果编号排序，便于后续根据相似度高低计算综合置信度。

请参阅图7，本发明实施例提供的基于多模型的图像语义识别方法完整流程图，详述如下：

需要说明的是，与图1中方法流程不同的是：

步骤S41，查找所有模型中综合置信度最高所对应的子节点；

其中，查找KeyTotalScore_im中最大值所对应的子节点Key_im。

步骤S42，当所述子节点的综合置信度大于预设阈值时，则将该子节点的语义描述作为所述图像的识别结果；

其中，如果子节点Key_im的综合置信度大于预设阈值T，则将该Key_im对应语义描述作为图像的识别结果。

步骤S43，当所述子节点的综合置信度不大于预设阈值时，查找所有模型中综合置信度最高所对应的根节点，且将该根节点的语义描述作为所述图像的识别结果。

其中，如果子节点Key_im的综合置信度不大于预设阈值T，查找RootTotalScore_im中最大值所对应的根节点Root_im，将该根节点Root_im所对应的语义描述作为图像的识别结果。

具体地，从人的主观认知来看，更容易接受细致的分类及描述，即更容易接受子节点。例如：如果一幅有狗的图片被识别为“狗”，会比仅仅识别为“动物”更符合人的认知，也更有利于业务场景的应用。但是，子节点也更容易出现识别错误的情况，而根节点的准确率会相对高很多。例如：对于一幅有狗的图片，可能在一个图像语义识别模型中被识别为子节点“狗”，而在另一个图像语义识别模型中被识别为子节点“狼”，虽然子节点不同，但是他们的根节点都是“动物”。采用本申请中的综合置信度的判断，在统一的标准下量化所有多种图像语义识别模型的识别结果，实现更细致更精准的输出识别结果，更符合人的主观认知，即使子节点的综合置信度达不到预设阈值的标准，通过选择综合置信度最高的根节点的语义描述为输出结果，也能够确保输出准确性；从而克服了单一图像语义识别模型识别准确率始终不高的问题。

请参阅图8，本发明实施例提供的基于多模型的图像语义识别系统结构框图，包括：

图像语义识别模块1，用于获取图像，利用多种图像语义识别模型分别处理所述图像得到关于语义识别的多种识别结果；

其中，所述图像语义识别模块，利用多种不同的图像语义识别模型处理同一幅所述图像，得到该图像关于语义识别多种识别结果，其中，所述识别结果包括所述图像语义识别模型对应的根节点、子节点及置信度。

数据对齐模块3，用于按照所述识别结果相似配对，重新排列识别结果内的顺序将最相似的识别结果排列在相同顺序位置；

综合计算模块4，用于统计多种图像语义识别模型识别所述图像所对应的识别结果，计算每种所述图像语义识别模型中每个根节点与每个子节点的综合置信度；

其中，所述综合计算模块，用于基于多种图像语义识别模型中根节点之间的相似分和子节点之间的相似分，统计多种图像语义识别模型识别所述图像所对应的识别结果，计算每种所述图像语义识别模型中每个根节点与每个子节点的综合置信度。

语义输出模块5，用于根据所述根节点与子节点的综合置信度选择适应的语义描述作为所述图像的识别结果。

请参阅图9，为本发明实施例提供的基于多模型的图像语义识别系统一结构框图；包括：

需要说明的是，与上述图8的区别点在于，在数据对齐模块3之前，还包括：

语义转换模块2，用于将多种所述识别结果按预设规格进行语义转换生成相应的文本语义；

其中，语义转换模块，用于将多种图像语义识别模型对应的多个识别结果按照预设规格进行语义转换得到相应的文本语义；其中，所述预设规格包括预设的目标语言与预设的表述标准。

请参阅图10，为本发明实施例提供的基于多模型的图像语义识别系统一结构框图；包括：

需要说明的是，与上述实施例图8的不同点在于，所述相似配对模3块包括：第一数据对齐31，利用文本语义来计算多种图像语义识别模型之间的识别结果相似分，重新排列识别结果内的顺序将最相似的识别结果排列在相同顺序位置。

所述第一数据对齐单元31包括：

第一计算子单元311，用于基于文本语义计算每种图像语义识别模型中每个节点的识别结果与其它图像语义识别模型中所有同类型节点的识别结果之间的相似分；

第一配对子单元312，用于选择计算结果中最大相似分所对应的节点作为两种图像语义识别模型配对的节点；

第一排序子单元313，用于将配对的节点重新编号，按照同一幅所述图像在不同的图像语义识别模型语义最相似的识别结果排列在相同顺序位置。

请参阅图11，为本发明实施例提供的基于多模型的图像语义识别系统另一结构框图；包括：

需要说明的是，与上述实施例图8不同点在于，所述数据对齐模块3包括：第二数据对齐单元32，利用多种图像语义识别模型的识别结果中的感兴趣区域相对位置重合来计算相似分，重新排列识别结果内的顺序将最相似的识别结果排列在相同顺序位置。

所述第二数据对齐32包括：

第二计算子单元321，用于计算任意两幅所述图像识别结果之间的交并比，将其作为两个识别结果之间的相似分；

第二配对子单元322，用于如果所述相似分大于预设相似分阈值，则所述两幅图像的两个识别结果相对应；如果所述相似分不大于预设相似分阈值，则所述两幅图像的两个识别结果不对应；

第二排序子单元322，用于根据配对结果重新编号，按照同一幅所述图像在不同的图像语义识别模型配对的识别结果排列在相同顺序位置。

请参阅图12，本发明实施例提供的基于多模型的图像语义识别系统完整结构框图，包括：

需要说明的是，与上述实施例图8的不同点在于，所述语义输出模块5包括：

查找单元51，用于查找所有模型中综合置信度最高所对应的子节点；

第一语义输出单元52，用于当所述子节点的综合置信度大于预设阈值时，则将该子节点的语义描述作为所述图像的识别结果；

第二语义输出单元53，用于当所述子节点的综合置信度不大于预设阈值时，查找所有模型中综合置信度最高所对应的根节点，且将该根节点的语义描述作为所述图像的识别结果。

在本实施例中，该基于多模型的图像语义识别系统与上述基于多模型的图像语义识别方法为一一对应关系，具体功能和技术效果参照上述实施例即可，此处不再赘述。

本申请实施例还提供了一种设备，该设备可以包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述设备执行图1所述的方法。在实际应用中，该设备可以作为终端设备，也可以作为服务器，终端设备的例子可以包括：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3，Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等，本申请实施例对于具体的设备不加以限制。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例的图1中基于多模型的图像语义识别方法所包含步骤的指令(instructions)。

图13为本申请一实施例提供的终端设备的硬件结构示意图。如图所示，该终端设备可以包括：输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，第一存储器1103中可以存储各种程序，用于完成各种处理功能以及实现本实施例的方法步骤。

可选的，上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit，简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，该第一处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。

可选的，上述输入设备1100可以包括多种输入设备，例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的，该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等)；可选的，该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等)；可选的，上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口，例如芯片的输入引脚接口或者输入接口等；输出设备1102可以包括显示器、音响等输出设备。

在本实施例中，该终端设备的处理器包括用于执行各设备中语音识别装置各模块的功能，具体功能和技术效果参照上述实施例即可，此处不再赘述。

图14为本申请的一个实施例提供的终端设备的硬件结构示意图。图14是对图13在实现过程中的一个具体的实施例。如图所示，本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。

第二处理器1201执行第二存储器1202所存放的计算机程序代码，实现上述实施例中图4所述方法。

第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令，例如消息，图片，视频等。第二存储器1202可能包含随机存取存储器(random access memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

可选地，第二处理器1201设置在处理组件1200中。该终端设备还可以包括：通信组件1203，电源组件1204，多媒体组件1205，语音组件1206，输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定，本实施例对此不作限定。

处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令，以完成上述基于多模型的图像语义识别方法中的全部或部分步骤。此外，处理组件1200可以包括一个或多个模块，便于处理组件1200和其他组件之间的交互。例如，处理组件1200可以包括多媒体模块，以方便多媒体组件1205和处理组件1200之间的交互。

电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统，一个或多个电源，及其他与为终端设备生成、管理和分配电力相关联的组件。

多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中，显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板，显示屏可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

语音组件1206被配置为输出和/或输入语音信号。例如，语音组件1206包括一个麦克风(MIC)，当终端设备处于操作模式，如语音识别模式时，麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中，语音组件1206还包括一个扬声器，用于输出语音信号。

输入/输出接口1207为处理组件1200和外围接口模块之间提供接口，上述外围接口模块可以是点击轮，按钮等。这些按钮可包括但不限于：音量按钮、启动按钮和锁定按钮。

传感器组件1208包括一个或多个传感器，用于为终端设备提供各个方面的状态评估。例如，传感器组件1208可以检测到终端设备的打开/关闭状态，组件的相对定位，用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在，包括检测用户与终端设备间的距离。在一些实施例中，该传感器组件1208还可以包括摄像头等。

通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个实施例中，该终端设备中可以包括SIM卡插槽，该SIM卡插槽用于插入SIM卡，使得终端设备可以登录GPRS网络，通过互联网与服务器建立通信。

由上可知，在图14实施例中所涉及的通信组件1203、语音组件1206以及输入/输出接口1207、传感器组件1208均可以作为图13实施例中的输入设备的实现方式。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于多模型的图像语义识别方法，其特征在于，包括：

根据所述根节点与子节点的综合置信度选择适应的语义描述作为所述图像的识别结果；

查找所有模型中综合置信度最高所对应的子节点；当所述子节点的综合置信度大于预设阈值时，则将该子节点的语义描述作为所述图像的识别结果；当所述子节点的综合置信度不大于预设阈值时，查找所有模型中综合置信度最高所对应的根节点，且将该根节点的语义描述作为所述图像的识别结果。

2.根据权利要求1所述的基于多模型的图像语义识别方法，其特征在于，所述利用多种图像语义识别模型分别处理所述图像得到关于语义识别的多种识别结果的步骤，还包括：

利用多种不同的图像语义识别模型处理同一幅所述图像，得到该图像关于语义识别多种识别结果，采用所述图像语义识别模型对应的根节点、子节点及置信度表示多种所述识别结果。

3.根据权利要求1所述的基于多模型的图像语义识别方法，其特征在于，所述按照所述识别结果相似配对的步骤包括：

将多种所述识别结果按预设规格进行语义转换生成相应的文本语义。

4.根据权利要求3所述的基于多模型的图像语义识别方法，其特征在于，所述将多种所述识别结果按预设规格进行语义转换生成相应的文本语义的步骤包括：

将多种图像语义识别模型对应的多个识别结果按照预设规格进行语义转换得到相应的文本语义；其中，所述预设规格包括预设的目标语言与预设的表述标准。

5.根据权利要求1所述的基于多模型的图像语义识别方法，其特征在于，利用文本语义来计算多种图像语义识别模型之间识别结果的相似分，重新排列识别结果内的顺序将最相似的识别结果排列在相同顺序位置。

6.根据权利要求5所述的基于多模型的图像语义识别方法，其特征在于，所述利用文本语义来计算多种图像语义识别模型之间识别结果的相似分，重新排列识别结果内的顺序将最相似的识别结果排列在相同顺序位置的步骤，包括：

基于文本语义计算每种图像语义识别模型中每个节点的识别结果与其它图像语义识别模型中所有同类型节点的识别结果之间的相似分；

选择计算结果中最大相似分所对应的节点作为两种图像语义识别模型配对的节点；

将配对的节点重新编号，按照同一幅所述图像在不同的图像语义识别模型语义最相似的识别结果排列在相同顺序位置。

7.根据权利要求1所述的基于多模型的图像语义识别方法，其特征在于，利用多种图像语义识别模型的识别结果中的感兴趣区域相对位置重合来计算相似分，重新排列识别结果内的顺序将最相似的识别结果排列在相同顺序位置。

8.根据权利要求7所述的基于多模型的图像语义识别方法，其特征在于，所述利用多种图像语义识别模型的识别结果中的感兴趣区域相对位置重合来计算相似分，重新排列识别结果内的顺序将最相似的识别结果排列在相同顺序位置的步骤，包括：

计算任意两幅所述图像识别结果之间的交并比，将其作为两个识别结果之间的相似分；

如果所述相似分大于预设相似分阈值，则所述两幅图像的两个识别结果相对应；如果所述相似分不大于预设相似分阈值，则所述两幅图像的两个识别结果不对应；

根据配对结果重新编号，按照同一幅所述图像在不同的图像语义识别模型配对的识别结果排列在相同顺序位置。

9.根据权利要求1所述的基于多模型的图像语义识别方法，其特征在于，所述根据多种所述识别结果中根节点之间相似度和子节点之间相似度，计算每种所述图像语义识别模型中每个根节点与每个子节点的综合置信度的步骤，包括：

基于多种图像语义识别模型中根节点之间的相似分和子节点之间的相似分，统计多种图像语义识别模型识别所述图像所对应的识别结果，计算每种所述图像语义识别模型中每个根节点与每个子节点的综合置信度。

10.一种基于多模型的图像语义识别系统，其特征在于，包括：

语义输出模块，用于根据所述根节点与子节点的综合置信度选择适应的语义描述作为所述图像的识别结果；所述语义输出模块包括：

查找单元，用于查找所有模型中综合置信度最高所对应的子节点；

第一语义输出单元，用于当所述子节点的综合置信度大于预设阈值时，则将该子节点的语义描述作为所述图像的识别结果；

第二语义输出单元，用于当所述子节点的综合置信度不大于预设阈值时，查找所有模型中综合置信度最高所对应的根节点，且将该根节点的语义描述作为所述图像的识别结果。

11.根据权利要求10所述的基于多模型的图像语义识别系统，其特征在于，所述图像语义识别模块，利用多种不同的图像语义识别模型处理同一幅所述图像，得到该图像关于语义识别多种识别结果，其中，所述识别结果包括所述图像语义识别模型对应的根节点、子节点及置信度。

12.根据权利要求10所述的基于多模型的图像语义识别系统，其特征在于，所述数据对齐模块之前还包括：语义转换模块，用于将多种所述识别结果按预设规格进行语义转换生成相应的文本语义。

13.根据权利要求12所述的基于多模型的图像语义识别系统，其特征在于，所述语义转换模块，用于将多种图像语义识别模型对应的多个识别结果按照预设规格进行语义转换得到相应的文本语义；其中，所述预设规格包括预设的目标语言与预设的表述标准。

14.根据权利要求10所述的基于多模型的图像语义识别系统，其特征在于，所述数据对齐模块包括：第一数据对齐单元，利用文本语义来计算多种图像语义识别模型之间识别结果的相似分，重新排列识别结果内的顺序将最相似的识别结果排列在相同顺序位置。

15.根据权利要求14所述的基于多模型的图像语义识别系统，其特征在于，所述第一数据对齐单元包括：

第一计算子单元，用于基于文本语义计算每种图像语义识别模型中每个节点的识别结果与其它图像语义识别模型中所有同类型节点的识别结果之间的相似分；

第一配对子单元，用于选择计算结果中最大相似分所对应的节点作为两种图像语义识别模型配对的节点；

第一排序子单元，用于将配对的节点重新编号，按照同一幅所述图像在不同的图像语义识别模型语义最相似的识别结果排列在相同顺序位置。

16.根据权利要求10所述的基于多模型的图像语义识别系统，其特征在于，所述数据对齐模块包括：第二数据对齐单元，利用多种图像语义识别模型的识别结果中的感兴趣区域相对位置重合来计算相似分，重新排列识别结果内的顺序将最相似的识别结果排列在相同顺序位置。

17.根据权利要求10所述的基于多模型的图像语义识别系统，其特征在于，所述综合计算模块，用于基于多种图像语义识别模型中根节点之间的相似分和子节点之间的相似分，统计多种图像语义识别模型识别所述图像所对应的识别结果，计算每种所述图像语义识别模型中每个根节点与每个子节点的综合置信度。

18.根据权利要求10所述的基于多模型的图像语义识别系统，其特征在于，所述语义输出模块包括：

19.一种设备，其特征在于，包括：

一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行时，使得所述设备执行如权利要求1-9中一个或多个所述的方法。

20.一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得设备执行如权利要求1-9中一个或多个所述的方法。