CN113506578A

CN113506578A - 一种语音与图像的匹配方法、装置、存储介质及设备

Info

Publication number: CN113506578A
Application number: CN202110733632.9A
Authority: CN
Inventors: 李丰军; 周剑光; 李婷婷
Original assignee: China Automotive Innovation Co Ltd
Current assignee: China Automotive Innovation Co Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-10-15

Abstract

本发明公开了一种语音与图像的匹配方法、装置、存储介质及设备，包括实时录音获得语音记录；响应于拍摄指令，拍照并输出图像；对所述图像进行人像识别，得到第一识别结果；其中，所述第一识别结果至少包括对所述图像中人像数量的识别；从所述语音记录中选取解析段，对所述解析段中的语音进行语音解析得到第二识别结果；其中，所述第二识别结果至少包括对所述语音记录中人像数量的识别；自动匹配所述第一识别结果与所述第二识别结果得到匹配关系，根据所述匹配关系合成带有语音的图像。本发明能够精确实现语音中声纹与图像中人像的自动识别与自动匹配，智能化地快速合成带有语音的图像，精确度高，方便快速，用户体验感受好。

Description

一种语音与图像的匹配方法、装置、存储介质及设备

技术领域

本发明涉及语音图像识别技术领域，尤其涉及一种语音与图像的匹配方法、装置、存储介质及设备。

背景技术

目前在车载环境下，用户想要记录留念，只能拍摄没有声音的静态照片、或者拍短视频、或者是在录音设备开启后对车内语音进行简短的录音，其中，照片能够将某一个特殊的场景定格并保存下来，在回忆时令人印象深刻；而现有技术中，照片都是静态的，如果想在照片中添加语音时，很难实现自动识别与自动匹配，导致添加语音频繁出错，进而影响用户体验，也影响用户情绪。因此，需要一种语音与图像的匹配方法、装置、存储介质及设备，能够精确识别图像中的人像与语音中的声纹，智能化地自动匹配，以快速合成带有语音的图像，充分地记录时光的故事，无需后期剪辑，方便智能，提升用户体验。

发明内容

针对上述现有技术中存在的问题，本发明提供了一种语音与图像的匹配方法、装置、存储介质及设备，能够精确实现语音中声纹与图像中人像的自动识别与自动匹配，智能化地快速合成带有语音的图像，精确度高，方便快速，用户体验感受好。所述技术方案如下：

一方面，本发明提供了一种语音与图像的匹配方法，包括：

实时录音获得语音记录；

响应于拍摄指令，拍照并输出图像；

对所述图像进行人像识别，得到第一识别结果；其中，所述第一识别结果至少包括对所述图像中人像数量的识别；

从所述语音记录中选取解析段，对所述解析段中的语音进行语音解析得到第二识别结果；其中，所述第二识别结果至少包括对所述语音记录中人像数量的识别；

自动匹配所述第一识别结果与所述第二识别结果得到匹配关系，根据所述匹配关系合成带有语音的图像。

进一步地，所述响应于拍摄指令，拍照并输出图像还包括：

响应于拍摄指令，在短时间内进行录像，并截取任意一帧作为图像输出。

进一步地，所述自动匹配所述第一识别结果与所述第二识别结果得到匹配关系，根据所述匹配关系合成带有语音的图像还包括：

若所述图像中存在相似度高的多个人像，则提取部分所述录像与对应的所述语音记录；

根据唇音融合识别，判断所述人像的唇形与语音之间的匹配；

若判断结果为匹配，则将所述人像与所述语音记录对应匹配，合成带有语音的图像。

进一步地，所述第一识别结果至少还包括：

对所述图像中人像性别的识别和对所述图像中人像年龄段的识别；

所述第二识别结果至少还包括：

对所述语音记录中人像性别的识别和对所述语音记录中人像年龄段的识别。

优选地，所述第二识别结果的数量不大于所述第一识别结果的数量。

进一步地，所述根据所述匹配关系合成带有语音的图像还包括：

从所述语音记录中选取至少一段添加段；

根据所述匹配关系，对所述添加段与所述图像进行合成，形成带有语音的图像。

进一步地，所述添加段的所述第二识别结果的数量不大于所述解析段的所述第二识别结果的数量。

另一方面，本发明提供了一种语音与图像的匹配装置，包括：

语音记录模块，用于实时录音获得语音记录；

图像记录模块，用于响应于拍摄指令，拍照并输出图像；

第一识别模块，用于对所述图像进行人像识别，得到第一识别结果；其中，所述第一识别结果至少包括对所述图像中人像数量的识别；

第二识别模块，用于从所述语音记录中选取解析段，对所述解析段中的语音进行语音解析得到第二识别结果；

自动匹配及合成模块，用于自动匹配所述第一识别结果与所述第二识别结果得到匹配关系，根据所述匹配关系合成带有语音的图像。

另一方面，本发明还提供了一种存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现以上所述的语音与图像的匹配方法。

另一方面，本发明还提供了一种设备，包括以上所述的语音与图像的匹配装置。

实施本发明，具有如下有益效果：

1、采用人像识别与声纹识别，能够快速准确地进行识别；采用唇音融合识别，能够对相似度高的人像进行精确识别，进一步提升对人像的识别精确度，也提升匹配关系的精确度，避免出现合成失误，影响用户心情。

2、通过对第一识别结果与第二识别结果的自动匹配，精确得到匹配关系，使得用户在添加语音后，能够直接根据匹配关系快速、智能地自动合成带有语音的图像，智能化程度高，提升用户使用感受。

3、根据匹配关系智能化合成，能够根据实际需求剔除语音中的空白段或者杂音，也能够在图像中合成多段语音，功能多样。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明实施例提供的一种语音与图像的匹配方法的逻辑结构图；

图2为本发明实施例提供的另一种语音与图像的匹配方法的逻辑结构图；

图3为本发明的一个可能的实施方式中根据唇音融合识别匹配方法的逻辑结构图；

图4为本发明的一个可能的实施方式中合成带有语音的图像的方法的逻辑结构图；

图5为本发明实施例提供的一种语音与图像的匹配装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，因此不能理解为对本发明的限制。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本发明的实施例能够以除了下述图示或下述描述以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本实施例针对现有技术中，静态照片在添加语音时频繁出错，无法充分地记录时光故事的问题，提供了一种语音与图像的匹配方法，该语音与图像的匹配方法可以应用于本发明实施例的语音与图像的匹配装置，该语音与图像的匹配装置可以配置于车载控制器中，在行车过程中对车厢中的语音实时记录，当用户需要拍照留念时，拍摄照片并输出图像进行人像识别再从实时记录的语音中选取一段进行语音解析，通过将人像识别结果与语音结果自动匹配，得到一个图像中人像与语音中声纹的匹配关系，并根据这一匹配关系来合成带有语音的图像，智能化程度高，匹配精度好，不易出现匹配失误，尤其是能够用于合成带有语音的时光相册，充分记录时光故事，提高用户体验；此外，该语音与图像的匹配方法也可以应用于家庭环境、亲子娱乐场所等环境人数不繁杂、能够清晰录音、且用户拍照及记录语音需求强烈的场合，以提升适用性。

下面对本发明实施例的技术方案进行详细介绍，参考说明书附图1，该语音与图像的匹配方法包括：

S101，实时录音获得语音记录。

在本说明书的一个可能的实施方式中，语音记录的起点可以是在用户开启车辆的同时自动开始录音，使得整个行车过程中，所有的语音都被记录下来，以便后续挑选；也可以设置为根据用户输入的录音指令开始实时录音获得语音记录，但实时录音的过程并不间断，是一个连续的过程，能够持续至整个行车过程，或者持续至下述S109步骤合成带有语音的图像之后。

同时，为了更好地保护用户的隐私，语音记录的数据并不会上传云端，而是作为本地数据临时缓存保留，在需要调用语音记录的数据时，才对其进行解析与使用，而在本说明书的一个可能的实施方式中，还可以将语音记录的数据设置为自动滚动覆盖前一分钟的语音记录，以增强对语音记录的隐私性保护；而在解析与使用完毕后，也就是在S109步骤中合成带有语音的图像之后，考虑到不同用户具有不同的需求，可以将临时缓存保留的语音记录设置为需要用户手动选择删除；也可以设置为在行车结束时或者已经合成带有语音的图像之后自动删除，以提升对用户隐私的保护力度，避免用户遗忘造成隐私泄露的情况发生，同时也不需要用户进行繁琐的手动删除操作，避免用户出现厌烦情绪，用户体验感受好。

S103，响应于拍摄指令，拍照并输出图像。

其中，拍照由摄像头执行，而拍摄指令可以设置为用户手动操作，根据实际需求，采用监测用户的语音开启指令的方式判断并执行拍照这一步骤；或者在本说明书的一个可能的实施方式中，设置摄像头开关，可以监测摄像头开关的状态，或者监测控制摄像头开启的变动信号，并将该变动信号转化为电信号输出，以便于车载控制器控制摄像头开启。

同时，在输出图像之前，拍照所得的可以是静态图像，也可以是动态图像，还可以是一段录像；而输出图像所得的是静态图像或者动态图像。

S105，对所述图像进行人像识别，得到第一识别结果；其中，所述第一识别结果至少包括对所述图像中人像数量的识别。

人像识别又称人脸识别，是基于人的脸部特征信息进行识别的一种生物识别技术，利用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部识别的一系列技术。

其中，第一识别结果是针对图像所得的识别结果，包括对图像中人像数量的识别、对图像中人像性别的识别和对图像中人像年龄段的识别；在输出图像之后，车载系统随机对图像中的人像、尤其是人的脸部进行人像识别，能够圈定并定位图像中的人像，并对已经识别的人像进行性别、年龄区间、角色识别，得到第一识别结果；例如，在本说明书的一个可能的实施方式中，首先通过图形识别能够识别出图像中共有5个人像，并圈定了5个人像在图像中的区域，然后通过对人脸的识别，区分男女老幼得出其中包括第一人像区域为一位男性老年人、第二人像区域为一位女性老年人、第三人像区域为一位男性青年、第四人像区域为一位女性青年与第五人像区域为一位女童，即为第一识别结果。

S107，从所述语音记录中选取解析段，对所述解析段中的语音进行语音解析得到第二识别结果；其中，所述第二识别结果至少包括对所述语音记录中人像数量的识别。

与S105步骤同时或者落后于S105步骤，车载系统在语音记录中选取一段解析段开始进行语音解析；其中语音解析依靠声纹识别，声纹识别就是把声信号转换成电信号，再用计算机进行识别；而所谓声纹，是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异，即每个人的声纹都是独一无二的，并且年龄不同、性别不同，其声纹特点也不同。

因此，能够根据声纹识别，得出解析段的语音对应的人数、性别、年龄，即第二识别结果包括对语音记录中人像数量的识别、对语音记录中人像性别的识别和对语音记录中人像年龄段的识别；例如，如上所述，对解析段进行语音解析，根据每个人声纹的特点，可以得出解析段语音中共有5个人在说话，并将5种声纹对应的语音记录一一对应到5个人，得到第一种声纹的语音属于一位男性老年人，第二种声纹的语音属于一位女性老年人，第三种声纹的语音属于一位男性青年，第四种声纹的语音属于一位女性青年，第五种声纹的语音属于一位女童，即为第二识别结果。

S109，自动匹配所述第一识别结果与所述第二识别结果得到匹配关系，根据所述匹配关系合成带有语音的图像。

如上所述，在自动匹配的过程中，根据第一识别结果与第二识别结果，能够精确地将第一人像区域与第一种声纹的语音匹配、第二人像区域与第二种声纹的语音匹配、第三人像区域与第三种声纹的语音匹配、第四人像区域与第四种声纹的语音匹配、第五人像区域与第五种声纹的语音匹配，从而得到一一对应的匹配关系，并用于后续合成带有语音的图像。

具体地，如说明书附图2所示，所述响应于拍摄指令，拍照并输出图像还包括：

S202，响应于拍摄指令，在短时间内进行录像，并截取任意一帧作为图像输出。

此时，在拍照与输出图像之间，可以设置为至少拍摄一张照片，然后自动在多张照片中筛选出一张图像输出，而当执行在短时间内进行一段录像时，则是截取整个录像中的一帧作为图像输出，这一筛选过程可以设置为车载控制器自动选取，也可以设置为将多张照片或者一段录像输出至可视面板，由用户自行在多张照片里选取一张照片，或者选取一帧作为图像执行后续S105步骤，即在输出图像之前添加一个用户自行筛选的步骤，更有利于提升用户的满意度。

此外，在本说明书的一个可能的实施方式中，在用户自行筛选过程中，还可以添加导入已有相册的步骤；在行车途中，用户可能会遇到已经拍摄了照片，但并未及时录音的情况，或者实时拍摄的照片不能让用户满意的情况，使得用户更倾向于将语音合成到已有照片上，则在输出图像之前，用户能够导入已有相册，并将已有相册中的照片作为图像输出，使得在行驶途中已经拍摄的照片也能够进行合成，灵活性更好，大大提升用户满意度。

具体地，所述自动匹配所述第一识别结果与所述第二识别结果得到匹配关系，根据所述匹配关系合成带有语音的图像还包括：

S301，若所述图像中存在相似度高的多个人像，则提取部分所述录像与对应的所述语音记录。

如说明书附图3所示，在S105步骤得出的第一识别结果中，可能存在多个相似度较高的人像，例如，通过人像识别得出图像中包括两位男性青年，而这两位男性青年的第一识别结果一致，均对应于第三人像区域的“男性青年”这一特征，分别标记为第三人像区域A与第三人像区域B；相对应地，在S107步骤得出的第二识别结果中，也可能出现特征均为“男性青年”的两段第三种声纹，分别标记为第三种声纹A与第三种声纹B；此时，为了有效区分两段第三种声纹分别属于第三人像区域的哪一部分，需要返回提取S202步骤中的录像作为区分依据，执行下述S303步骤中的对于相似度高的多个人像的识别匹配。

S303，根据唇音融合识别，判断所述人像的唇形与语音之间的匹配。

S305，若判断结果为匹配，则将所述人像与所述语音记录对应匹配，合成带有语音的图像。

唇音融合识别是指通过建立唇形模型和分析运动参数，定量地处理唇动信息辅助进行语音识别，或者直接对序列图像进行分类和识别，以提高语音识别技术的准确率和鲁棒性。

在本实施例中，通过唇音融合识别对录像中人像唇形的变化进行观察，从而“读出”或者“部分读出”其所说内容；而用于“判断所述人像与语音之间的匹配”的判断标准可以是唇形变化的时间长度，例如，在提取的录像中，第三人像区域A对应的男性青年，其唇形变化的时间长度小于第三人像区域B对应的男性青年唇形变化的时间长度，而第三种声纹A的语音长度小于第三种声纹B的语音长度，则能够判断第三种声纹A与第三人像区域A对应匹配，第三种声纹B与第三人像区域B对应匹配。

在本说明书的一个可能的实施方式中，上述判断标准还可以是根据唇音融合识别，设置与第三人像区域A对应的预设语音，以及相对于该预设语音的预设匹配度，将第三种声纹A与第三种声纹B分别与该预设语音进行对比，当其中一种(例如第三种声纹A)与预设语音的匹配度高于该预设匹配度时，则认为第三种声纹A属于第三人像区域A；其中预设匹配度可以是一个具体的数值，例如预设匹配度为80％，也可以是数值范围，例如预设匹配值为70％～90％，本发明对此不作具体限定。

具体地，所述根据所述匹配关系合成带有语音的图像还包括：

S402，从所述语音记录中选取至少一段添加段。

S404，根据所述匹配关系，对所述添加段与所述图像进行合成，形成带有语音的图像。

其中，选取至少一段添加段可以由用户手动操作选取；由车载控制器控制，将语音记录输出至可视面板，用户根据实际需求或者个人喜好，截取整段语音记录中的一部分，作为一段连续的添加段与图像进行合成，可以自动剔除空白段或者杂声段，只保留包含声纹信息的语音段，并将每一种声纹对应的语音按照S109步骤与S305步骤中所得的匹配关系匹配到图像中对应的人像区域，合成带有语音的图像；而在本说明书的一个可能的实施方式中，也可以截取语音记录中不连续的多个部分，作为不连续的多个添加段输出供用户选择合成，用户选择空间大，满意度高。

在对添加段与图像进行合成时，因为S109步骤已经得到了语音与图像的匹配关系，实质上是声纹与人像的匹配关系，则能够根据添加段语音中的多种声纹直接一一对应到图像中具有人像的多个区域；例如，最终合成结果为男性老年人的语音合成到图像上男性老年人的位置，女性老年人的语音合成到图像上女性老年人的位置，男性青年的语音合成到图像上男性青年的位置，女性青年的语音合成到图像上女性青年的位置，女童的语音合成到图像上女童的位置。

需要说明的是，上述空白段与杂声段中均不包含人像的语音信息；而合成的带有语音的图像在用户浏览时，能够自动播放语音，充分满足用户记录时光故事的需求，体验感受好；此外，在本说明书的一个可能的实施方式中，为了提升的带有语音的图像的辨识度，还能够设置即时标识，在一种声纹播放时，在与该种声纹对应的图像区域形成即时标识，并且在该种声纹播放结束后，对应的即时标识也消失，便于用户浏览。

具体地，在本说明书的一个可能的实施方式中，S109步骤在自动匹配时，解析段对应的语音记录中，可能并不是图像中所包含的所有人像都说过话，则第二识别结果的数量能够不大于第一识别结果的数量，即第二识别结果中语音所对应的不同声纹的数量不大于第一识别结果得到的图像中所包含的人像数量；例如，图像中的男性青年在行车过程中没有说话，则语音记录中不包含男性青年的语音；相对应地，第二识别结果为第一种声纹的语音属于一位男性老年人，第二种声纹的语音属于一位女性老年人，第四种声纹的语音属于一位女性青年，第五种声纹的语音属于一位女童，而匹配关系为第一人像区域与第一种声纹的语音匹配、第二人像区域与第二种声纹的语音匹配、第四人像区域与第四种声纹的语音匹配、第五人像区域与第五种声纹的语音匹配，而第三人像区域的匹配关系为空。

类似地，在S303-S305步骤中，唇形与语音之间的匹配关系也有可能出现两个相似度高的人像之中只有一个人说话的情形；例如，第三人像区域A对应的男性青年说话，而第三人像区域B对应的男性青年不说话，则进行唇音融合识别时，只需要判断第三种声纹A属于第三人像区域A还是第三人像区域B即可，假设判断结果为第三种声纹A属于第三人像区域A，则将第三种声纹A的语音对应匹配到第三人像区域A，而第三人像区域B的匹配关系为空。

具体地，在本说明书的一个可能的实施方式中，为了保证匹配关系的精确度以及合成带有语音的图像的精确度，添加段的第二识别结果的数量不大于解析段的所述第二识别结果的数量，以避免添加段中出现匹配关系中不包括的声纹种类的情况，导致无法取得对应的匹配关系以及合成错误。

通过上述实施例可知，本发明实施例中的语音与图像的匹配方法具有以下有益效果：

与上述本实施例提供的语音与图像的匹配方法相对应，本发明实施例还提供一种语音与图像的匹配装置，由于本发明实施例提供的语音与图像的匹配装置与上述几种实施方式提供的语音与图像的匹配方法相对应，因此前述语音与图像的匹配方法的实施方式也适用于本实施例提供的语音与图像的匹配装置，在本实施例中不再详细描述。

本发明实施例提供的语音与图像的匹配装置能够实现上述方法实施例中的语音与图像的匹配方法，如说明书附图5所示，该装置可以包括：

语音记录模块，用于实时录音获得语音记录；

图像记录模块510，用于响应于拍摄指令，拍照并输出图像；

第一识别模块520，用于对所述图像进行人像识别，得到第一识别结果；其中，所述第一识别结果至少包括对所述图像中人像数量的识别；

第二识别模块530，用于从所述语音记录中选取解析段，对所述解析段中的语音进行语音解析得到第二识别结果；其中，所述第二识别结果至少包括对所述语音记录中人像数量的识别；

自动匹配及合成模块540，用于自动匹配所述第一识别结果与所述第二识别结果得到匹配关系，根据所述匹配关系合成带有语音的图像。

在一个可能的实施方式中，该图像记录模块510还可以包括：

录像模块，用于响应于拍摄指令，在短时间内进行录像，并截取任意一帧作为图像输出。

在另一个可能的实施方式中，该自动匹配及合成模块540还可以包括：

提取模块，用于在所述图像中存在相似度高的多个人像时，提取部分所述录像与对应的所述语音记录；

唇音判断模块，用于根据唇音融合识别，判断所述人像的唇形与语音之间的匹配；

唇音匹配模块，用于在判断结果为匹配，则将所述人像与所述语音记录对应匹配，合成带有语音的图像。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本发明实施例的语音与图像的匹配装置能够集成于车载系统中，通过对语音记录中的语音解析以及对图像中的人像识别得到匹配关系，精确匹配，避免在合成带有语音的图像时出现失误，智能化程度高，用户使用感受好。

本发明实施例还提供一种存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现以上所述的语音与图像的匹配方法；可选地，该存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器；此外，该存储介质可以包括但不限于随机存取存储器(RAM，RandomAccess Memory)、只读存储器(ROM，Read-Only Memory)、U盘、移动硬盘、磁盘存储器件、闪存器件、其他易失性固态存储器件等各种可以存储程序代码的存储介质。

本发明实施例还提供一种设备，包括控制器与以上所述的语音与图像的匹配装置，所述语音与图像的匹配装置不仅能够集成于车载系统中，还能够集成于家居系统中，所述控制器包括处理器和存储器，所述存储器中存储有至少一条指令或者至少一段程序，所述至少一条指令或者所述至少一段程序由所述处理器加载并执行以实现上述的语音与图像的匹配方法。

其中，处理器(或称CPU(Central Processing Unit，中央处理器))为语音与图像的匹配装置的核心部件，其功能主要是解释存储器指令以及处理各个获取模块所反馈的数据；处理器的结构大致分为运算逻辑部件与寄存器部件等，运算逻辑部件主要进行相关的逻辑计算(如移位操作、逻辑操作、定点或浮点算术运算操作与地址运算等)，寄存器部件则用于暂存指令、数据与地址。

存储器为记忆设备，可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述装置的使用所创建的数据等；相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

需要说明的是，上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所描述的仅为本发明的一些实施例而已，并不用于限制本发明，本行业的技术人员应当了解，本发明还会有各种变化和改进，任何依照本发明所做的修改、等同替换和改进都落入本发明所要求的保护的范围内。

Claims

1.一种语音与图像的匹配方法，其特征在于，包括：

实时录音获得语音记录；

响应于拍摄指令，拍照并输出图像；

2.根据权利要求1所述的一种语音与图像的匹配方法，其特征在于，所述响应于拍摄指令，拍照并输出图像还包括：

3.根据权利要求2所述的一种语音与图像的匹配方法，其特征在于，所述自动匹配所述第一识别结果与所述第二识别结果得到匹配关系，根据所述匹配关系合成带有语音的图像还包括：

4.根据权利要求1所述的一种语音与图像的匹配方法，其特征在于，所述第一识别结果至少还包括：

所述第二识别结果至少还包括：

5.根据权利要求1所述的一种语音与图像的匹配方法，其特征在于，所述第二识别结果的数量不大于所述第一识别结果的数量。

6.根据权利要求1所述的一种语音与图像的匹配方法，其特征在于，所述根据所述匹配关系合成带有语音的图像还包括：

从所述语音记录中选取至少一段添加段；

7.根据权利要求6所述的一种语音与图像的匹配方法，其特征在于，所述添加段的所述第二识别结果的数量不大于所述解析段的所述第二识别结果的数量。

8.一种语音与图像的匹配装置，其特征在于，包括：

语音记录模块，用于实时录音获得语音记录；

图像记录模块，用于响应于拍摄指令，拍照并输出图像；

第二识别模块，用于从所述语音记录中选取解析段，对所述解析段中的语音进行语音解析得到第二识别结果；其中，所述第二识别结果至少包括对所述语音记录中人像数量的识别；

9.一种存储介质，其特征在于，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-7任一项所述的语音与图像的匹配方法。

10.一种设备，其特征在于，包括如权利要求8所述的语音与图像的匹配装置。