CN103391347B

CN103391347B - 一种自动录音的方法及装置

Info

Publication number: CN103391347B
Application number: CN201210143534.0A
Authority: CN
Inventors: 郑林
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2012-05-10
Filing date: 2012-05-10
Publication date: 2018-06-08
Anticipated expiration: 2032-05-10
Also published as: CN103391347A

Abstract

本发明公开了一种自动录音的方法及装置，用以解决现有技术中存在的会遗漏重要内容不能进行录音的技术问题。该方法包括，获得第一被录音对象的身份特征参数信息；基于所述身份特征参数信息，判断所述第一被录音对象是否为需要被录音对象；在所述第一被录音对象是否为需要被录音对象时，生成一录音指令；执行所述录音指令，打开一录音功能模块，以对所述第一被录音对象。

Description

一种自动录音的方法及装置

技术领域

本发明涉及电子通信技术领域中的声音处理技术，尤其涉及一种自动录音的方法和装置。

背景技术

随着电子及通讯行业的迅速发展，及用户对电子设备或终端的要求也越来越多。如：现有的手机不仅能打电话，还能发短信，播放MP3，浏览照片；现有的MP3不仅能播放音乐，还能收听广播等。

在用户的众多需求中，录音需求是个普遍且颇具实用价值的需求。如在现有技术中，有带录音功能的手机或平板电脑。

现有技术中的手机或平板电脑在实现录音时，有两种方案：

第一种，手动方式，即用户通过操作设置在手机或平板电脑上的物理录音键，来打开录音程序模块，以启动录音。

第二种，自动方式，即先设置一些关键词，然后，在通话过程中，自动去检测通话内容中是否现出了设置的关键词，如果有设置，则自动打开录音程序模块，以启动录音。如：先设置“开会”，“重要”，然后，在通话过程中，当有“今天下午五点请到308会议室开会”这句话时，就能通过自动检测，获得通话内容中包括了“会议”这个关键词，于是便自动打开录音程序模块，进行录音，将“今天下午五点请到308会议室开会”这句话录下并进行保存。

本申请发明人在实现本申请实施例中技术方案的过程中，发现现有技术中存在如下技术问题：

一，由于现有技术中的自动录音，只能设置关键词，所以，只能在通话内容中包括有所述设置的关键词时，才能进行自动录音；但是，用户在设置关键词时，往往不能考虑很周全，将所有重要的关键词设置完整，所以，存在会遗漏重要内容不能进行录音的技术问题。

二，现有技术中的自动录音的应用场景，只适应用于在打电话过程中，但有些时候，在面对面沟通的时候，也会有重要内容需要录音，所以，存在应用场景单一，不能适应多应用场景的技术问题。

发明内容

本发明提供一种自动录音的方法及装置，用以解决现有技术中存在的会遗漏重要内容不能进行录音的技术问题。

本发明方法包括：

获得第一被录音对象的身份特征参数信息；

基于所述身份特征参数信息，判断所述第一被录音对象是否为需要被录音对象；

在所述第一被录音对象为需要被录音对象时，生成一录音指令；

执行所述录音指令，打开一录音功能模块，以对所述第一被录音对象进行录音。

可选的，所述获得第一被录音对象的身份特征参数信息之后，所述方法还包括：

判断是否已经设置有用于判断所述第一被录音对象是否为需要被录音对象的预设条件；

在已经设置有用于判断所述第一被录音对象是否为需要被录音对象的预设条件时，执行步骤：基于所述身份特征参数信息，判断所述第一被录音对象是否为需要被录音对象。

可选的，所述获得第一被录音对象的身份特征参数信息，具体为：

在呼叫或通话过程中，获得第一被录音对象的第一电话号码；或

在通话过程中，获得包括第一被录音对象的第一语音信息的环境语音信息；或

在通话过程中，获得包括第一被录音对象的第一图像信息。

可选的，所述基于所述身份特征参数信息，判断所述第一被录音对象是否为需要被录音对象，具体包括：

判断所述第一电话号码是否在一预设电话号码集合中，并生成一判断结果；

基于所述判断结果，确定所述第一被录音对象是否为需要被录音对象；

其中，当所述判断结果表明所述第一电话号码在所述预设电话号码集合中时，确定所述第一被录音对象为需要被录音对象；当所述判断结果表明所述第一电话号码不在所述预设电话号码集合中时，确定所述第一被录音对象不为需要被录音对象。

提取所述第一图像信息中包括的第一人脸信息；

判断所述第一人脸信息是否在一预设人脸集合中，并生成一判断结果；

其中，当所述判断结果表明所述第一人脸信息在所述预设人脸集合中时，确定所述第一被录音对象为需要被录音对象；当所述判断结果表明所述第一人脸信息不在所述预设人脸集合中时，确定所述第一被录音对象不为需要被录音对象。

对所述环境语音信息进行去噪音处理，得到所述第一语音信息；

基于一预设语音参数模型及所述第一语音信息，判断所述第一被录音对象是否为需要被录音对象。

可选的，所述基于一预设语音参数模型及所述第一语音信息，判断所述第一被录音对象是否为需要被录音对象，具体包括：

基于一预设语音参数模型及所述第一语音信息，确定所述第一被录音对象的身份；

判断所述第一被录音对象的身份是否在一预设身份集合中；

其中，在所述第一被录音对象的身份在一预设身份集合中时，确定所述第一被录音对象为需要被录音对象；在所述第一被录音对象的身份不在一预设身份集合中时，确定所述第一被录音对象不为需要被录音对象。

可选的，所述对所述环境语音信息进行去噪音处理，得到所述第一语音信息，具体包括：

对所述环境语音信息进行预加重、滤波及抽样处理，得到一个一维的行向量；

对所述一维的行向量做分帧处理，得到M个固定长度的帧；

对所述M个帧中每一帧做傅里叶变换，多个帧中第K帧的傅里叶变换S(k,ω)，其中K为大于等于1小于等于M的整数；

对M个帧的傅里叶变换S(k,ω)进行傅里叶反变换，获得所述第一语音信息。

可选的，所述基于一预设语音参数模型及所述第一语音信息，确定所述第一被录音对象的身份，具体包括：

提所述第一语音信息的MFCC特征和LPCC特征；

将所述MFCC特征和LPCC特征输入GMM模型和UBM模型，获得对应GMM模型的第一结果和对应所述UBM模型的第二结果；

计算所述第一结果和所述第二结果的差值，基于所述差值确定所述第一被录音对象的身份。

本申请实施例二提供一种自动录音的装置，包括：

获取模块，用于获取第一被录音对象的身份特征参数信息；

判断模块，用于基于所述身份特征参数信息，判断所述第一被录音对象是否为需要被录音对象；

指令生成模块，用于在所述第一被录音对象为需要被录音对象时，生成一录音指令；

录音模块，用于执行所述录音指令，以对所述第一被录音对象进行录音。

可选的，所述装置还包括第一判断模块，用于在所述获得第一被录音对象的身份特征参数信息之后，判断是否已经设置有用于判断所述第一被录音对象是否为需要被录音的预设条件。

可选的，所述获取模块具体为：

号码获取模块，用于在呼叫或通话过程中，获得第一被录音对象的第一电话号码；或

语音信息获取模块，用于在通话过程中，获得包括第一被录音对象的第一语音信息的环境语音信息；或

图像信息获取模块，用于在通话过程中，获得包括第一被录音对象的第一图像信息。

可选的，所述判断模块具体包括：

第一子判断模块，用于判断所述第一电话号码是否在一预设电话号码集合中，并生成一判断结果；

第一确定模块，用于基于所述判断结果，确定所述第一被录音对象是否为需要被录音对象；

其中，当所述判断结果表明所述第一电话号码在所述预设电话号码集合中时，确定所述第一被录音对象为需要被录音对象；当所述判断结果表明所述第一电话号码不在所述预设电话号码集合中时，确定所述第一被录音对象不为需要被录音对象；

可选的，所述判断模块具体包括：

第一提取模块，用于提取所述第一图像信息中包括的第一人脸信息；

第二子判断模块，用于判断所述第一人脸信息是否在一预设人脸集合中，并生成一判断结果；

第二确定模块，用于基于所述判断结果，确定所述第一被录音对象是否为需要被录音对象；

可选的，所述判断模块具体包括：

语音增强模块，用于对所述环境语音信息进行去噪音处理，得到所述第一语音信息；

语音识别模块，用于基于一预设语音参数模型及所述第一语音信息，判断所述第一被录音对象是否为需要被录音对象。

可选的，所述语音识别模块具体包括：

第三确定模块，用于基于一预设语音参数模型及所述第一语音信息，确定所述第一被录音对象的身份；

第三子判断模块，用于判断所述第一被录音对象是否在一预设身份集合中；

可选的，所述语音增强模块具体包括：

行向量获取模块，用于对所述环境语音信息进行预加重、滤波及抽样处理，得到一个一维的行向量；

分帧模块，用于对所述一维的行向量做分帧处理，得到M个固定长度的帧；

傅里叶变换模块，用于对所述M个帧中每一帧做傅里叶变换，多个帧中第K帧的傅里叶变换S(k,ω)，其中K为大于等于1小于等于M的整数；

傅里叶反变换模型，用于对M个帧的傅里叶变换S(k,ω)进行傅里叶反变换，获得所述第一语音信息。

输入模块，用于将所述MFCC特征和LPCC特征输入GMM模型和UBM模型，获得对应GMM模型的第一结果和对应所述UBM模型的第二结果；

计算模型，用于计算所述第一结果和所述第二结果的差值，基于所述差值确定所述第一被录音对象的身份。

通过本申请实施例中的一个或多个技术方案，至少可以获得如下的技术效果：

一，由于能基于所获得的身份特征参数信息，判断第一被录音对象是否为需要被录音对象，实现了依据被录音对象身份进行录音，即，只要录音，就会对与被录音对象间的所有通话内容进行录音，进而解决了现有技术由于只能对包括设置的关键词的通话内容进行录音而存在的会遗漏重要内容不能进行录音的技术问题，有效地实现了自动将被录音对象的全部通话内容进行录音的技术效果。

二，在面对面沟通的场景中，由于能通过摄像装置获得被录音对象的图像并进行识别，来确定是否进行自动录音，所以，能有效解决现有技术中，自动录音方案只能应用在打电话的应用场景的问题，实现了应用场景多的技术效果。

三，由于在身份识别的过程中，采用了GMM模型和UBM模型，所以，相较只采用GMM模型的，具有更好的抗噪音效果，能有效提高语音识别的精度和准确度。

四，由于本申请实施例中的技术方案能有效在通话应用场景和面对面的应用场景适用，而且，还能通过电话号码，语音或图像来进行身份识别，所以，相较于现有技术中的方案，在整体上具有自动化程度高，解决方案多样灵活的技术效果。

附图说明

图1为本申请实施例中自动录音的方法的流程图；

图2为本申请实施例中自动录音方法中对环境语音信息进行去噪音处理的方法流程图；

图3为本申请实施例中自动录音方法中确定被录音对象身份的方法的流程图；

图4为本申请实施例中一种自动录音装置的模块图。

具体实施方式

本申请实施例通过提供一种自动录音的方法及装置，用以解决现有技术中存在的会遗漏重要内容不能进行录音的技术问题。

为了解决上述技术问题，本申请实施例中技术方案的总体思路如下：

在具有自动录音的装置中首先设置一个用于识别被录音对象身份的预设条件，如：预设的语音参数模型，或预设的电话号码集合。

然后在通话过程中，获得被录音对象的语音，并基于所述语音参数模型进行语音识别，以获取所述被录音对象的身份。

假如基于所述被录音对象的身份确定所述被录音对象为需要被录音的对象，则自动打开一录音程序模块，并进行录音。

通过上述可知，由于本申请实施例中的技术方案中是基于身份来进行录音的，即，只要开始录音，就会对与所述被录音对象间的所有通讯内容进行录音，所以，有效解决了现有技术中存在的会遗漏重要内容不能进行录音的技术问题。

为了更好的理解本申请实施例中的技术方案，下面将结合说明说附图以及具体的实施方式进行详细的说明。

请参照图1，本实施例中提供的一种自动录音的方法，包括步骤：

S10，获得第一被录音对象的身份特征参数信息；

S20，基于所述身份特征参数信息，判断所述第一被录音对象是否为需要被录音对象；

S30，在所述第一被录音对象是否为需要被录音对象时，生成一录音指令；

S40，执行所述录音指令，以对所述第一被录音对象进行录音。

为了让本领域普通技术人员能更清楚地理解本申请实施例中的自动录音的方法，下面将假设本实施例中的自动录音方法应用于一具有录音程序模块的手机中，并结合图1，图2和图3，自动录音的方法中每个步骤的实现过程作详细介绍。

S10：获得第一被录音对象的身份特征参数信息。

在具体的应用于中，所述身份特征参数信息可以为：所述第一被录音对象的电话号码；包括所述第一被录音对象的第一语音信息的环境语音信息；或包括所述第一被录音对象的第一图像信息，当然，对于本领域普通技术人员来讲，所述身份特征参数信息还可以是其他参数信息，在此，本申请中就不再一一举例了。

当所述身份特征参数信息为所述第一被录音对象的电话号码时，步骤S10具体来讲即为：在呼叫或通话过程中，获得第一被录音对象的第一电话号码。如：当通过所述手机与号码13898890999进行通话时，手机便能得知第一被录音对象的电话号码为：13898890999。

当所述身份特征参数信息为包括所述第一被录音对象的第一语音信息的环境语音信息时，步骤S10具体来讲即为：在通话过程中，获得包括第一被录音对象的第一语音信息的环境语音信息。具体来讲，有两个应用场景，包括：第一种，在通过手机和第一被录音对象打电话的应用场景；第二种，面对面和第一被录音对象进行沟通的应用场景。

在第一种应用场景时，步骤S10的具体实现过程为：手机在检测到在第一被录音对象开始通话时，打开设置在手机中的录音程序模块，并开始进行录音，以获得包括第一被录音对象的第一语音信息的环境语音信息。

在第二种应用场景时，步骤S10的具体实现过程为：当手机对应的用户在面对面和第一被录音对象进行沟通时，由于手机能时刻检测手机所在的环境是否有两个人或多个人在进行对话，当检测到有第一被录音对象在说话时，便打开设置在手机中的录音程序模块，并开始录音，以获得包括第一被录音对象的第一语音信息的环境语音信息。

当所述身份特征参数信息为包括所述第一被录音对象的第一图像信息时，步骤S10具体来讲，即为：在通话过程中，获得包括第一被录音对象的第一图像信息。如：当手机的用户在和第一被录音对象面对面进行沟通时，通过手机上的摄像装置或连接到手机上的外置摄像装置便能获取到包括第一被录音对象的第一图像信息，所述第一图像信息可以为视频信息，也可以图片信息。

在通过步骤S10获得第一被录音对象的身份特征参数信息后，本申请实施例中的方法便会进入步骤S20，即为：基于所述身份特征参数信息，判断所述第一被录音对象是否为需要被录音对象。

下面，以身份特征参数信息为：所述第一被录音对象的电话号码；包括所述第一被录音对象的第一语音信息的环境语音信息；或包括所述第一被录音对象的第一图像信息为例，详细介绍步骤S20的实现过程。

当身份特征参数信息为包括所述第一被录音对象的第一语音信息的环境语音信息时，S20的实现过程如下：

对获得的环境语音信息进行去噪音处理，得到所述第一语音信息；基于一预设语音参数模型及所述第一语音信息，判断所述第一被录音对象是否为需要被录音对象。

其中，基于一预设语音参数模型及所述第一语音信息，判断所述第一被录音对象是否为需要被录音对象具体包括：

基于一预设语音参数模型及所述第一语音信息，确定所述第一被录音对象的身份；判断所述第一被录音对象的身份是否在一预设身份集合中；其中，在所述第一被录音对象的身份在一预设身份集合中时，确定所述第一被录音对象为需要被录音对象；在所述第一被录音对象的身份不在一预设身份集合中时，确定所述第一被录音对象不为需要被录音对象。

在实际应用中，交谈的双方可能有两个应用场景，包括：第一种场景：通过手机与第一被录音对象打电话；第二种场景：面对面与第一被录音对象进行沟通。无论是哪种应用场景，手机都会将获得的第一语音信息与手机预设的语音参数模型进行比较，来确定第一被录音对象的身份旭否在一预设身份集合中，进而确定第一被录音对象是否为需要被录音对象。

不管是打电话，还是面对面的沟通，都会或多或少地存在环境声音，如，在火车站打电话，环境声音就会很大；而在房间中进行面对面的沟通，环境声音就会小一些。所以，在本申请实施例的技术方案中，在利用预设语音参数模型对第一语音信息进行识别时，需要先进行去噪声处理，具体来讲，下面将会结合图2，对如何对所述环境语音信息进行去噪音处理，得到所述第一语音信息进行详细描述。

步骤S111：对所述环境语音信息进行预加重、滤波及抽样处理，得到一个一维的行向量；

步骤S112：对所述一维的行向量做分帧处理，得到M个固定长度的帧；其中，帧的长度由抽样频率决定，可以是256个点，相邻两帧之间有重复的点，重复的点的数目大概是帧长的1/3～1/2，这样就得到多个固定长度的行向量。每一个行向量称为一帧。

步骤S113：对所述M个帧中每一帧做傅里叶变换，多个帧中第K帧的傅里叶变换S(k,ω)，其中K为大于等于1小于等于M的整数；具体为：

用X(k,ω)表示含噪语音信号X(n)的第K帧的傅里叶变换，S(k,ω)表示纯净语音信号s(n)的第K帧的傅里叶变换，V(k,ω)表示噪声信号v(n)的第K帧的傅里叶变换。用公式：

其中如果用P_x(k,w),P_s(k,w),P_v(k,w)分别表示含噪语音，纯净语音和噪声的功率谱，α(k)，β(k)，γ(k)为参数，参数的取值与信噪比SNR相关。

步骤S114：对M个帧的傅里叶变换S(k,ω)进行傅里叶反变换，获得所述第一语音信息。

在获得第一语音信息后，便会执行步骤：基于一预设语音参数模型及所述第一语音信息，判断所述第一被录音对象是否为需要被录音对象，在本申请实施例中，下面将参考图3对该步骤的具体实现过程作如下描述：

步骤S121：提取所述第一语音信息的MFCC特征和LPCC特征；

由于语音特征MFCC和LPCC不仅反映了说话人身份的信息特征，还反映了语音内容的特征，因此同时提取LPCC和MFCC。对每一帧纯净语音提取特征MFCC和LPCC，这两个特征都是一个一维的行向量，把这两个行向量合并成一个行向量。相较现有技术中，语音识别模型只采用GMM模型的技术，由于本发明采用了GMM_UBM模型，所以，能更好地突出语音与背景声音的不同，具有有良好的抗噪声效果。

步骤S122：将所述MFCC特征和LPCC特征输入GMM模型和UBM模型，获得对应GMM模型的第一结果和对应所述UBM模型的第二结果。

具体来讲，即是用MAP自适应方法，将步骤S121获得的行向量分别输入到GMM模型和UBM模型，分别得到这两个模型的结果，即：GMM模型的第一结果和UBM模型的第二结果。在实际中，每一个录音对象都有各自的模型参数，手机中会预先存储这些模型参数。

步骤S123：计算所述第一结果和所述第二结果的差值，基于所述差值确定所述第一被录音对象的身份。

下面结合具体的例子就步骤S20做描述：

当通过手机内置或外连接的麦克风获得包括第一被录音对象的第一语音信息的环境语音信息后，将获得的环境语音信息进行去噪声处理，获得纯净的第一语音信息，然后提取第一语音信息的特征MFCC和LPCC，把合并后的特征输入每一个录音对象和关键词语的GMM模型和UBM模型，计算两个模型结果的差值，得到的差值中最大的数值即为模型的识别结果。根据识别结果就可以识别出第一录音对象是否是需要被录音的对象。

当身份特征参数信息为第一被录音对象的第一电话号码时，S20的实现过程如下：

判断所述第一电话号码是否在一预设电话号码集合中，并生成一判断结果；基于所述判断结果，确定所述第一被录音对象是否为需要被录音对象；其中，当所述判断结果表明所述第一电话号码在所述预设电话号码集合中时，确定所述第一被录音对象为需要被录音对象；当所述判断结果表明所述第一电话号码不在所述预设电话号码集合中时，确定所述第一被录音对象不为需要被录音对象。

如：当用户与号码为138XXXXXXXX的用户进行通话时，手机会根据电话号码来判断此电话号码(138XXXXXXXX)是否存在于手机预设的电话号码集合中，然后来确定此电话号码(138XXXXXXXX)是否是需要被录音对象的号码。

当身份特征参数信息为包括第一被录音对象的第一图像信息时，S20的实现过程如下：

提取所述第一图像信息中包括的第一人脸信息；判断所述第一人脸信息是否在一预设人脸集合中，并生成一判断结果；基于所述判断结果，确定所述第一被录音对象是否为需要被录音对象；其中，当所述判断结果表明所述第一人脸信息在所述预设人脸集合中时，确定所述第一被录音对象为需要被录音对象；当所述判断结果表明所述第一人脸信息不在所述预设人脸集合中时，确定所述第一被录音对象不为需要被录音对象。

如：用户正和王**面对面的沟通，手机会通过摄像头获得王**的人脸图像信息，手机会在预设图像信息集合中找是否已经存在了王**的人脸图像。假如可以找到。就确定王**是需要被录音的对象；假如在预设图像信息集合中没有找到王**的图像，则确定王**不是需要被录音的对象。

在步骤S20中所提到的预设电话号码集合，预设语音参数模型或预设图像信息集合等用于判断所述第一被录音对象是否为需要被录音对象的预设条件都是在获取第一被录音对象的身份特征参数信息之前所预先设置好的，在获取了第一被录音对象的身份特征参数信息之后，会根据该身份特征参数信息，判断第一被录音对象是否为需要被录音对象。当然，在实际应用中，为了确保在获得第一被录音对象的身份特征参数信息之后，能有用于判断所述第一被录音对象是否为需要被录音对象的预设条件可用，在本申请实施例中在S10步骤之后，还可以包括如下步骤：

在已经设置有用于判断所述第一被录音对象是否为需要被录音对象的预设条件时，执行步骤S20。

当完成了步骤S20后，执行步骤S30：在所述第一被录音对象为需要被录音对象时，生成一录音指令。

在执行完步骤S30之后，接着执行步骤S40：执行所述录音指令，以对所述第一被录音对象进行录音。

具体来讲，手机会执行所述录音指令，打开手中的录音程序模块，并自动启动录音程序模块的录音功能，开始对与第一被录音对象间的通话内容进行录音，在录音完成后，便会自动停止录音，并将录得的通话内容以声音文件的形式存储在手机中的存储器中。

为防止录得的通话内容为第一被录音对象的，在本申请实施例的技术方案中，还可以在录音过程中，周期性地或随机地收集第一被录音对象的身份特征参数信息，并判断第一被录音对象的身份特征参数信息是否存在，若存在，则继续录音；若不存在，则终止录音。

本申请实施例中还提供了自动录音的装置。

请参考图4，为本申请实施例中自动录音的装置的示意图。本实施例的装置包括：

获取模块10，用于获取第一被录音对象的身份特征参数信息；

判断模块20，用于基于所述身份特征参数信息，判断所述第一被录音对象是否为需要被录音对象；

指令生成模块30，用于在所述第一被录音对象为需要被录音对象时，生成一录音指令；

录音模块40，用于执行所述录音指令，以对所述第一被录音对象进行录音。

其中，在具体实现过程中，所述装置还包括：

第一判断模块，用于在所述获得第一被录音对象的身份特征参数信息之后，判断是否已经设置有用于判断所述第一被录音对象是否为需要被录音对象的预设条件。

所述获取模块10在具体的实现过程中，可以：

在具体实现过程中，对于判断模块20，当获得第一被录音对象的身份特征参数信息为电话号码时，所述判断模块20具体包括：

当获得第一被录音对象的身份特征参数信息为图像信息时，所述判断模块20具体包括：

当获得第一被录音对象的身份特征参数信息为语音信息时，所述判断模块20具体包括：

语音识别模块，用于基于一预设语音参数模型及所述第一语音信息，判断判断所述第一被录音对象是否为需要被录音对象。

其中，在本申请实施例中，语音增强模块采用减谱法进行语音增强,该方法假定噪声是平稳的，而且静音阶段是的噪声和语音阶段的噪声大致是相同的。在静音阶段，估计噪声的功率谱，然后在语音阶段，用含噪声的语音的功率谱减去噪声的功率谱就得到纯净语音的功率谱。由于人耳对语音的相位不敏感，就把含噪声的语音的相位谱作为纯净语音的相位谱，从而得到纯净的语音。

在本申请实施例中，所述语音增强模块具体包括：

第三子判断模块，用于判断所述第一被录音对象的身份是否在一预设身份集合中；

其中，在所述第一被录音对象的身份在一预设身份集合中时，确定所述第一被录音对象为需要被录音对象；在所述第一被录音对象的身份不在一预设身份集合中时，确定所述第一被录音对象不为需要被录音对象；

其中，第三确定模块具体包括：

第二提取模块，用于提取所述第一语音信息的MFCC特征和LPCC特征；

计算模块，用于计算所述第一结果和所述第二结果的差值，基于所述差值确定所述第一被录音对象的身份。在具体实现过程中，本申请实施例中的语音识别模块具体包括：

行向量获得模块，用于对所述环境语音信息进行预加重、滤波及抽样处理，得到一个一维的行向量；

傅里叶反变换模块，用于对M个帧的傅里叶变换S(k,ω)进行傅里叶反变换，获得所述第一语音信息。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种自动录音的方法，其特征在于，包括：

获得第一被录音对象的身份特征参数信息；

执行所述录音指令，以对所述第一被录音对象进行录音；

其中，所述获得第一被录音对象的身份特征参数信息，具体为：在通话过程中，获得包括第一被录音对象的第一图像信息；所述基于所述身份特征参数信息，判断所述第一被录音对象是否为需要被录音对象，具体包括：提取所述第一图像信息中包括的第一人脸信息；判断所述第一人脸信息是否在一预设人脸集合中，并生成一判断结果；基于所述判断结果，确定所述第一被录音对象是否为需要被录音对象；其中，当所述判断结果表明所述第一人脸信息在所述预设人脸集合中时，确定所述第一被录音对象为需要被录音对象；当所述判断结果表明所述第一人脸信息不在所述预设人脸集合中时，确定所述第一被录音对象不为需要被录音对象。

2.一种自动录音的装置，其特征在于，包括：

获取模块，用于获取第一被录音对象的身份特征参数信息；

录音模块，用于执行所述录音指令，以对所述第一被录音对象进行录音；

其中，所述获取模块具体为：语音信息获取模块，图像信息获取模块，用于在通话过程中，获得包括第一被录音对象的第一图像信息；所述判断模块具体包括：第一提取模块，用于提取所述第一图像信息中包括的第一人脸信息；第二子判断模块，用于判断所述第一人脸信息是否在一预设人脸集合中，并生成一判断结果；第二确定模块，用于基于所述判断结果，确定所述第一被录音对象是否为需要被录音对象；其中，当所述判断结果表明所述第一人脸信息在所述预设人脸集合中时，确定所述第一被录音对象为需要被录音对象；当所述判断结果表明所述第一人脸信息不在所述预设人脸集合中时，确定所述第一被录音对象不为需要被录音对象。