CN113571101A - 智能录音方法、装置、设备及存储介质 - Google Patents

智能录音方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113571101A
CN113571101A CN202111061087.XA CN202111061087A CN113571101A CN 113571101 A CN113571101 A CN 113571101A CN 202111061087 A CN202111061087 A CN 202111061087A CN 113571101 A CN113571101 A CN 113571101A
Authority
CN
China
Prior art keywords
sound
recording
sound data
voiceprint
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111061087.XA
Other languages
English (en)
Other versions
CN113571101B (zh
Inventor
费邑兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shmci Electronics Co ltd
Original Assignee
Shenzhen Shmci Electronics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shmci Electronics Co ltd filed Critical Shenzhen Shmci Electronics Co ltd
Priority to CN202111061087.XA priority Critical patent/CN113571101B/zh
Publication of CN113571101A publication Critical patent/CN113571101A/zh
Application granted granted Critical
Publication of CN113571101B publication Critical patent/CN113571101B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C7/00Arrangements for writing information into, or reading information out from, a digital store
    • G11C7/16Storage of analogue signals in digital stores using an arrangement comprising analogue/digital [A/D] converters, digital memories and digital/analogue [D/A] converters 
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • G11B2020/10537Audio or video recording
    • G11B2020/10546Audio or video recording specifically adapted for audio data
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B2020/10935Digital recording or reproducing wherein a time constraint must be met
    • G11B2020/10972Management of interruptions, e.g. due to editing

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本申请涉及一种智能录音方法、装置、设备及存储介质,其中方法包括:接收并存储录音源对应的第一声音数据至预设的音频数据库;提取第一声音数据对应的声纹特征信息;存储第一声音数据对应的声纹特征信息至预设的录音源声纹数据库;接收用户输入的停止录音指令;接收第二声音数据,并提取第二声音数据对应的声纹特征信息;若录音源声纹数据库中存在有与第二声音数据对应的声纹特征信息相匹配的声纹特征信息,则存储第二声音数据至音频数据库。本申请具有的技术效果是:提高了录音效率。

Description

智能录音方法、装置、设备及存储介质
技术领域
本申请涉及录音技术的领域,尤其是涉及一种智能录音方法、装置、设备及存储介质。
背景技术
目前,录音即是将声音信号记录在媒质上的过程。录音方法分为机械录音(唱片录音)、磁性录音、光学录音等,录音设备包括录音机、电脑、声卡、话筒和录音笔等。其中录音笔由于其方便携带以及功能多样,逐渐在许多应用场景中获得广泛使用。
录音笔在录音时通过对模拟信号的采样、编码将模拟信号通过数模转换器转换为数字信号,并进行一定的压缩后进行存储。而数字信号即使经过多次复制,声音信息也不会受到损失,保持原样不变。在使用的过程中,当需要录音时,用户打开录音笔,当录音对象暂停说话时,用户需关闭录音笔的录音功能,以减少录入无关杂音,当录音对象再次讲话时,用户需再次打开录音笔的录音功能。
针对上述中的相关技术,发明人认为存在有以下缺陷:在使用的过程中,用户需根据录音对象说话的停顿,反复开关录音笔的录音功能,因此易出现关闭后忘记再次打开的情况,导致需要录音的内容未能正常录入,从而使得录音效率较低。
发明内容
为了改善录音效率较低的问题,本申请提供一种智能录音方法、装置、设备及存储介质。
第一方面,本申请提供一种智能录音方法,采用如下技术方案:
接收并存储录音源对应的第一声音数据至预设的音频数据库;
提取所述第一声音数据对应的声纹特征信息;
存储所述第一声音数据对应的声纹特征信息至预设的录音源声纹数据库;
接收用户输入的停止录音指令;
接收第二声音数据,并提取第二声音数据对应的声纹特征信息;
若所述录音源声纹数据库中存在有与所述第二声音数据对应的声纹特征信息相匹配的声纹特征信息,则存储所述第二声音数据至所述音频数据库。
通过采用上述技术方案,使用时,用户通过录音设备对录音对象进行录音,当录音对象停止说话时,用户关闭录音笔的录音功能。当录音对象再次说话时,录音设备可自动打开录音功能进行录音,并存储声音数据,从而减少了因用户忘记打开录音设备的录音功能而导致需要录音的内容未能正常录入的可能,从而提高了录音效率。
可选的,在所述接收并存储录音源对应的第一声音数据至预设的音频数据库之后,还包括:
将所述第一声音数据对应的时间长度每间隔预设的时间段进行分段,直至剩余的时间长度小于所述时间段;
获取每个所述时间段在所述第一声音数据中对应的分段声音数据;
计算每个分段声音数据对应的最大响度值,作为每个分段声音数据对应的声音阈值;
将每个声音阈值乘以预设的环境噪声比,得出每个分段声音数据对应的环境噪声响度值;
将每个所述分段声音数据中响度值低于对应的所述环境噪声响度值的声音数据滤除。
通过采用上述技术方案,录音设备将声音数据分成若干段后,分别计算出每个分段声音数据对应的环境噪声响度值,并将每个分段声音数据中的环境噪声滤除,从而减少了环境噪声的干扰,使得提取出的第一声音数据的声纹特征更加准确。
可选的,在所述接收并存储录音源对应的第一声音数据至预设的音频数据库之前,还包括:
接收用户输入的开机指令;
接收预设时间段的环境噪声对应的环境噪声数据,并计算所述环境噪声的响度在所述预设时间段内的噪声平均响度值;
接收用户输入的开始录音指令;
在所述计算每个分段声音数据对应的最大响度值,作为每个分段声音数据对应的声音阈值之后,还包括:
取所有声音阈值的平均数作为第一声音数据对应的平均声音阈值;
将所述噪声平均响度值除以所述平均声音阈值得出所述环境噪声比。
通过采用上述技术方案,在用户到达录音地点打开录音笔后,录音笔先对录音地点中的环境噪声进行录音,并计算出噪声平均响度值,再计算出平均声音阈值,再将噪声平均响度值除以平均声音阈值得出当前录音环境的环境噪声比。当更换录音环境后,用户可以重新关机并开机,从而重新计算环境噪声比,使得环境噪声比更加贴近实际录音环境。
可选的,在所述接收预设时间段的环境噪声对应的环境噪声数据之后,还包括:
提取所述环境噪声数据对应的声纹特征信息;
将提取出的所述声纹特征信息存储入预设的噪声声纹数据库;
在所述提取第二声音数据对应的声纹特征信息之后,还包括:
若所述噪声声纹数据库中存在有与所述第二声音数据对应的声纹特征信息相匹配的声纹特征信息,则忽略所述第二声音数据;
若所述录音源声纹数据库中不存在有与所述第二声音数据对应的声纹特征信息相匹配的声纹特征信息,且所述噪声声纹数据库不存在有与所述第二声音数据对应的声纹特征信息相匹配的声纹特征信息,则将所述第二声音数据对应的声纹特征信息存储入预设的噪声声纹数据库。
通过采用上述技术方案,录音设备可自动存储并更新噪声声纹数据库中的环境噪声的声纹特征信息,在录音的过程中,设备可根据噪声声纹数据库自动识别出环境噪声,并将噪声数据从声音数据中滤除。
可选的,所述将所述第二声音数据对应的声纹特征信息存储入预设的噪声声纹数据库,包括:
计算出所述第二声音数据对应的平均声音阈值;
计算所述第二声音数据对应的平均声音阈值与所述第一声音数据对应的平均声音阈值之间的响度差值;
若所述响度差值在预设的响度差值范围内,则获取所述第二声音数据对应的时间长度;
判断所述第二声音数据对应的时间长度是否达到预设的收录阈值,若是,则存储所述第二声音数据至预设的音频数据库;
将所述第二声音数据对应的声纹特征信息存储入预设的录音源声纹数据库。
通过采用上述技术方案,当录音源不止一人,且用户忘记通过录音设备对其中一个录音源进行录制,导致录音设备未存储对应的声纹特征信息时,若当前录音环境中不同人在录音时说话的响度的响度差值在预设的响度差值范围内时,则录音设备会自动存储该录音源的声音数据,并将该录音源的声音数据对应的声纹特征信息存储至录音源声纹数据库,从而进一步减少了需要录音的内容未能正常录入的可能。
可选的,所述存储所述第二声音数据至预设的音频数据库包括:
执行预设的录音提醒指令;
接收用户针对录音提醒输入的反馈指令,所述反馈指令包括开始录音和噪声收录;
若所述反馈指令为噪声收录,则将所述第二声音数据对应的声纹特征信息存储入预设的噪声声纹数据库;
若所述反馈指令为开始录音,则存储所述第二声音数据至预设的音频数据库。
通过采用上述技术方案,当录音设备判定存在有用户忘记通过录音设备录制的录音源时,录音设备提醒用户进行录制,并根据用户的反馈选择是否对声音数据进行存储,并将声音数据对应的声纹特征信息存储入噪声声纹数据库或者录音源声纹数据库,从而减少由于录音设备误判而录入无关噪声的可能。
可选的,所述方法还包括:
接收用户输入的音频上传指令,并记录所述音频上传指令对应的时间信息;
获取用户上一次输入音频上传指令对应的时间信息;
在所述预设的音频数据库中调取出存储时间在两次所述时间信息之间的声音数据;
获取设备连接记录,所述设备连接记录包括每次连接的电子设备的设备标识信息以及连接时间;
选取出所述连接时间最近的电子设备作为目标电子设备;
根据所述目标电子设备对应的设备标识信息,将调取出的所述声音数据发送至所述目标电子设备。
通过采用上述技术方案,用户可随时将录音设备中的音频文件传输至其他电子设备,从而方便用户后期对音频进行剪辑或制作。且录音设备可自动传输未传输过的音频文件,从而减少了重复传输同一音频设备的可能。
第二方面,本申请提供一种智能录音装置,采用如下技术方案:声音存储模块,用于接收并存储录音源对应的第一声音数据至预设的音频数据库;
声纹提取模块,用于提取所述第一声音数据对应的声纹特征信息;
声纹存储模块,用于存储所述第一声音数据对应的声纹特征信息至预设的录音源声纹数据库;
指令接收模块,用于接收用户输入的停止录音指令;
声音接收模块,用于接收第二声音数据,并提取第二声音数据对应的声纹特征信息;
声纹识别模块,用于若所述录音源声纹数据库中存在有与所述第二声音数据对应的声纹特征信息相匹配的声纹特征信息,则存储所述第二声音数据至所述音频数据库。
通过采用上述技术方案,使用时,用户通过录音设备对录音对象进行录音,当录音对象停止说话时,用户关闭录音笔的录音功能。当录音对象再次说话时,录音设备可自动打开录音功能进行录音,并存储声音数据,从而减少了因用户忘记打开录音设备的录音功能而导致需要录音的内容未能正常录入的可能,从而提高了录音效率。
第三方面,本申请提供一种录音设备,采用如下技术方案:包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如上述任一种智能录音方法的计算机程序。
通过采用上述技术方案,使用时,用户通过录音设备对录音对象进行录音,当录音对象停止说话时,用户关闭录音笔的录音功能。当录音对象再次说话时,录音设备可自动打开录音功能进行录音,并存储声音数据,从而减少了因用户忘记打开录音设备的录音功能而导致需要录音的内容未能正常录入的可能,从而提高了录音效率。
第四方面,本申请提供一种计算机可读存储介质,采用如下技术方案:存储有能够被处理器加载并执行如上述任一种智能录音方法的计算机程序。
通过上述技术方案,使用时,用户通过录音设备对录音对象进行录音,当录音对象停止说话时,用户关闭录音笔的录音功能。当录音对象再次说话时,录音设备可自动打开录音功能进行录音,并存储声音数据,从而减少了因用户忘记打开录音设备的录音功能而导致需要录音的内容未能正常录入的可能,从而提高了录音效率。
综上所述,本申请包括以下至少一种有益技术效果:
1.使用时,用户通过录音设备对录音对象进行录音,当录音对象停止说话时,用户关闭录音笔的录音功能。当录音对象再次说话时,录音设备可自动打开录音功能进行录音,并存储声音数据,从而减少了因用户忘记打开录音设备的录音功能而导致需要录音的内容未能正常录入的可能,从而提高了录音效率;
2.在用户到达录音地点打开录音笔后,录音笔先对录音地点中的环境噪声进行录音,并计算出噪声平均响度值,再计算出平均声音阈值,在将噪声平均响度值除以平均声音阈值得出当前录音环境的环境噪声比。当更换录音环境后,用户可以重新关机并开机,从而重新计算环境噪声比,使得环境噪声比更加贴近实际录音环境。
附图说明
图1是本申请一个实施例一种智能录音方法的流程图。
图2是本申请另一个实施例一种智能录音方法的流程图。
图3是本申请一个实施例一种智能录音装置的结构框图。
图4是本申请另一个实施例一种智能录音装置的结构框图。
图5是本申请另一个实施例一种智能录音装置的结构框图。
附图标记说明:30、声音存储模块;31、声纹提取模块;32、声纹存储模块;33、指令接收模块;34、声音接收模块;35、声纹识别模块;40、时间分段模块;41、信息获取模块;42、数值计算模块;43、数据删除模块;50、时间获取模块;51、数据查询模块;52、记录获取模块;53、设备选取模块;54、信息发送模块。
具体实施方式
本申请公开一种智能录音方法。该方法基于录音设备,录音设备可以为录音笔,录音笔包括有存储装置、处理装置、显示装置以及传输装置。存储装置用于存储数据,处理装置用于处理接收到的数据,传输装置用于接收和传出数据,显示装置用于信息。
在一个实施例中,如图1所示,提供了一种智能录音方法,该方法包括以下步骤:
S10,接收并存储录音源对应的第一声音数据至预设的音频数据库。
具体来说,用户打开录音笔后,选择开始录音,录音笔针对录音源发出的第一声音数据进行录音,并将第一声音数据存储至音频数据库,录音源即为录音对象。第一声音数据可以为人声,则录音源可以为说话者。
S11,提取第一声音数据对应的声纹特征信息。
具体来说,录音设备提取接收到的第一声音数据中的声纹特征信息。声纹特征信息的提取可通过声纹识别算法实现,常见的声纹识别算法有Google d-vector、x-vector、Baidu Deep Speaker等,声纹识别为现有技术,在此不再赘述。
S12,存储声纹特征信息至录音源声纹数据库。
具体来说,录音设备将第一声音数据对应的声纹特征信息存储在预设的录音源声纹数据库中。录音源声纹数据库是录音设备出厂前预先设置好的,用户可定期清理录音源声纹数据库中存储的声纹特征信息。
S13,接收用户输入的停止录音指令。
具体来说,当录音源停止说话后,用户可以向录音笔输入停止录音的指令,录音笔停止对于第一声音数据的收录。录音设备上可以设置有停止录音的按键,用户按压按键后,即可向录音设备发送停止录音的指令。
S14,接收第二声音数据,并提取第二声音数据对应的声纹特征信息。
具体来说,当录音源停止说话后,录音设备持续接收第二声音数据,并提取第二声音数据对应的声纹特征信息。
S15,存储第二声音数据至预设的音频数据库。
具体来说,录音设备将第二声纹特征信息与录音源声纹数据库中的声纹特征信息相比对,判断录音源声纹数据库中是否存在与第二声音数据对应的声纹特征信息相匹配的声纹特征信息,若存在,则说明录音源重新开始说话,录音设备将第二声音数据存储入预设的音频数据库内;否则,说明不为录音源在说话,则不存储第二声音数据。音频数据库为录音设备在出厂时预先设置的,用于存储录音数据。声纹特征的匹配可以为声纹特征的相似度的判断,判断两个声纹特征信息是否相匹配,可以通过声纹识别算法实现,常见的声纹识别算法有Google d-vector、x-vector、Baidu Deep Speaker等,声纹识别为现有技术,在此不再赘述。
在一个实施例中,考虑到第一声音数据中会存在有环境噪声的片段,从而使得对应的声纹特征信息易受环境噪声干扰的情况,在S10之后,还可以包括:将第一声音数据对应的时间长度每间隔预设的时间段进行分段,直至剩余时间的时间长度小于预设的时间段,从而获得每个时间段在第一声音信息中对应的分段声音数据。预设的时间段可以为5秒。录音设备计算出每个分段声音数据对应的最大响度值,并将每个分段声音数据对应的最大响度值作为每个分段声音数据对应的声音阈值。录音设备将每个声音阈值乘以预设的环境噪声比,得出每个分段声音数据对应的环境噪声响度值。环境噪声比为环境噪声的响度与录音源的声音响度的比值,环境噪声比是预先设置的。录音设备将每个分段声音数据中响度低于环境噪声响度值的声音数据滤除,从而将第一声音数据中的环境噪声片段精准滤除。
在一个实施例中,考虑到不同录音环境下的环境噪声比不同的情况,在S10之前,还可以包括:用户打开录音设备未开始录音之前,录音设备接收预设时间段的环境噪声对应的环境噪声数据,并计算环境噪声数据的响度在预设时间段内的噪声平均响度值。预设时间可以为十秒,当用户从打开录音设备至开始录音之间的时间短于预设时间段时,以打开录音设备至开始录音之间的时间作为预设时间段。噪声平均响度值的计算可将最大的响度值加上最低的响度值并除以二获得。需开始录音时,录音设备接收用户输入的开始录音指令。录音设备上可设置有开始录音对应的启动按键,用户按压按键后,即可输入开始录音指令。在计算出每个分段声音数据对应的最大响度值作为每个分段声音数据对应的声音阈值之后,录音设备取所有声音阈值的平均数作为平均声音阈值。然后将噪声平均响度值除以平均声音阈值,得出当前录音环境的环境噪声比。
在一个实施例中,考虑到在同一个录音环境中,环境噪声变化不大的情况,在接收预设时间段的环境噪声对应的环境噪声数据之后之后,录音设备提取环境噪声数据对应的声纹特征信息,然后将提取的声纹特征信息存储入预设的噪声声纹数据库。噪声声纹数据库是录音设备出厂时预先设置的。在提取出第二声音数据对应的声纹特征信息后,录音设备判断噪声声纹数据库中是否存在有与所述第二声音数据对应的声纹特征信息相匹配的声纹特征信息,若是,则说明第二声音数据为环境噪声,则不存储第二声音数据;否则,判断录音源声纹数据库中是否存在有与所述第二声音数据对应的声纹特征信息相匹配的声纹特征信息,若存在,则将第二声音数据存储入预设的音频数据库;否则,说明第二声音数据为声纹特征信息未收录的环境噪声,则将第二声音数据对应的声纹特征信息存储入预设的噪声声纹数据库,而完成对于噪声声纹数据库的自动更新。随着时间推移,噪声声纹数据库内存储的噪声声纹信息越来越丰富,则录音设备自动识别出噪声的能力也越来越强。
在一个实施例中,录音设备需用户录制过一个人的声音,录音设备中存储该人的声音的声纹特征信息后,才可下次对该人的声音自动录制。考虑到在需对多人进行录音时,用户可能会忘记对某一录音源的声音进行录制的情况,在录音设备判断出若录音源声纹数据库中不存在有与第二声音数据对应的声纹特征信息相匹配的声纹特征信息,且噪声声纹数据库不存在有与第二声音数据对应的声纹特征信息相匹配的声纹特征信息时,录音设备计算出第二声音数据对应的平均声音阈值,计算第二声音数据对应的平均声音阈值的方法与计算第一声音数据对应的平均声音阈值的方法相同。录音设备计算出第一声音数据对应的平均声音阈值与第二声音数据对应的平均声音阈值之间的响度差值。在同一录音环境下,不同的人通过话筒或麦克风说话的声音响度差别较小,且人声的响度和环境噪声的响度差别较大,录音设备判断响度差值是否在预设的响度差值范围内,若是,则获取第二声音数据对应的时间长度;否则,说明第二声音数据为人说话的可能较小,则不存储第二声音数据并将第二声音数据对应的声纹特征信息存储入预设的噪声声纹数据库中。响度差值是预先设置的。录音设备在获取第二声音数据对应的时间长度后,判断第二声音数据对应的时间长度是否达到预设的收录阈值,若是,则说明有人在持续讲话,录音设备存储第二声音数据至预设的音频数据库;否则,说明并非为持续话说,可能是短暂的咳嗽等情况,则不存储第二声音数据。从而在用户忘记录制某一个人说话时,也能自动进行录制。
在一个实施例中,考虑到有时用户并不想自动录入所有人说话的内容的情况,在录音设备判断第二声音数据对应的时间长度达到预设的收录阈值后,执行预设的录音提醒指令,预设的录音提醒指令可以为震动提醒也可以为声音提醒,以提醒用户是否要录音。录音提醒指令是录音设备在出厂时预先设置的。用户根据实际情况选择是否要录音,并向录音设备输入针对录音输入提醒的反馈指令,反馈指令包括开始录音、噪声收录和忽略声音。若反馈指令为噪声收录,则说明用户希望录下声源的声音,录音设备存储第二声音数据至预设的音频数据库,并进行后续步骤;若所述反馈指令为噪声收录,则说明用户并不希望录下声源的声音,则将第二声音数据对应的声纹特征信息存储入预设的噪声声纹数据库,使得录音设备以后可以自动滤除对应声源发出的声音;若反馈指令为忽略声音,则录音设备自动忽略第二声音数据。
在另一个实施例中,考虑到用户需将录音从录音设备中导入电脑内以对录音进行编辑的情况,如图2所示,智能录音方法还包括以下步骤:
S20,接收用户输入的停止收音指令。
具体来说,用户向录音设备输入停止录音的指令,录音设备停止接收外界声音。
S21,接收用户输入的音频上传指令,并记录音频上传指令对应的时间信息。
具体来说,用户向录音设备输入音频上传指令,录音设备记录此次音频上传指令对应的时间信息,时间可以精确到秒。
S22,获取用户上一次输入音频上传指令对应的时间信息。
具体来说,录音设备在存储的操作记录中获取用户上一次输入音频上传指令对应的时间信息。
S23,在预设的音频数据库中调取出存储时间在两次时间信息之间的声音数据。
具体来说,音频数据库存储有多个声音数据,且每个声音数据对应存储有存储时间。录音设备在音频数据库中调取出存储时间在两次时间信息之间的声音数据。
S24,获取设备连接记录。
具体来说,录音设备获取设备连接记录,设备连接记录包括录音设备每次连接的电子设备的设备标识信息以及连接时间。
S25,选取出目标电子设备。
具体来说,录音设备可以自动选取连接记录中连接时间与此次录音上传指令对应的时间信息最近的电子设备作为目标电子设备,也可以用户在设备连接记录中手动选择出目标电子设备。
S26,将调取出的声音数据发送至目标电子设备。
具体来说, 录音设备将调取出的声音数据发送至目标电子设备。从而实现对于录音设备内未导出过的音频数据实现上传。
上述智能录音方法,用户在录音时,录音设备可自动滤掉声音数据中的环境噪音,并根据用户录制的录音源的声音,在用户忘记打开录音功能时,自动接收环境中的声音并判断接收到的声音是否为录音源的声音,若是,则可自动存储;若不是,则不存储,从而减少需要录音的内容未能正常录入的可能。在对多个录音源进行录音的情况下,当用户忘记针对某一录音源进行录音时,而使得录音设备中没有该录音源声音的声纹特征信息时,在该录音源持续发声时,录音设备可自动判断是否可能为需要录制的录音源,并提醒用户,从而进一步减少需要录音的内容未能正常录入的可能。
在一个实施例中,如图3所示,提供了一种智能录音装置,该装置包括:
声音存储模块30,用于接收并存储录音源对应的第一声音数据至预设的音频数据库;
声纹提取模块31,用于提取所述第一声音数据对应的声纹特征信息;
声纹存储模块32,用于存储所述第一声音数据对应的声纹特征信息至预设的录音源声纹数据库;
指令接收模块33,用于接收用户输入的停止录音指令;
声音接收模块34,用于接收第二声音数据,并提取第二声音数据对应的声纹特征信息;
声纹识别模块35,用于若所述录音源声纹数据库中存在有与所述第二声音数据对应的声纹特征信息相匹配的声纹特征信息,则存储所述第二声音数据至所述音频数据库。
在一个实施例中,如图4所示,智能录音装置,还包括:
时间分段模块40,用于将所述第一声音数据对应的时间长度每间隔预设的时间段进行分段,直至剩余的时间长度小于所述时间段;
信息获取模块41,获取每个所述时间段在所述第一声音数据中对应的分段声音数据;
数值计算模块42,用于计算每个分段声音数据对应的最大响度值,作为每个分段声音数据对应的声音阈值;
数值计算模块42,还用于将每个声音阈值乘以预设的环境噪声比,得出每个分段声音数据对应的环境噪声响度值;
数据删除模块43,用于将每个所述分段声音数据中响度值低于对应的所述环境噪声响度值的声音数据滤除。
在一个实施例中,在所述接收并存储录音源对应的第一声音数据至预设的音频数据库之前,还包括:
指令接收模块33,还用于接收用户输入的开机指令;
声音接收模块34,还用于接收预设时间段的环境噪声对应的环境噪声数据,并计算所述环境噪声的响度在所述预设时间段内的噪声平均响度值;
指令接收模块33,还用于接收用户输入的开始录音指令;
数值计算模块42,还用于取所有声音阈值的平均数作为第一声音数据对应的平均声音阈值;
数值计算模块42,还用于将所述噪声平均响度值除以所述平均声音阈值得出所述环境噪声比。
在一个实施例中,声纹提取模块31,还用于提取所述环境噪声数据对应的声纹特征信息;
声纹存储模块32,还用于将提取出的所述声纹特征信息存储入预设的噪声声纹数据库;
声纹识别模块35,还用于若所述噪声声纹数据库中存在有与所述第二声音数据对应的声纹特征信息相匹配的声纹特征信息,则忽略所述第二声音数据;
声纹识别模块35,还用于若所述录音源声纹数据库中不存在有与所述第二声音数据对应的声纹特征信息相匹配的声纹特征信息,且所述噪声声纹数据库不存在有与所述第二声音数据对应的声纹特征信息相匹配的声纹特征信息,则将所述第二声音数据对应的声纹特征信息存储入预设的噪声声纹数据库。
在一个实施例中,声纹识别模块35,具体用于:
计算出所述第二声音数据对应的平均声音阈值;
计算所述第二声音数据对应的平均声音阈值与所述第一声音数据对应的平均声音阈值之间的响度差值;
若所述响度差值在预设的响度差值范围内,则获取所述第二声音数据对应的时间长度;
判断所述第二声音数据对应的时间长度是否达到预设的收录阈值,若是,则存储所述第二声音数据至预设的音频数据库;
将所述第二声音数据对应的声纹特征信息存储入预设的录音源声纹数据库。
在一个实施例中,声纹识别模块35,具体用于:
执行预设的录音提醒指令;
接收用户针对录音提醒输入的反馈指令,所述反馈指令包括开始录音和噪声收录;
若所述反馈指令为噪声收录,则将所述第二声音数据对应的声纹特征信息存储入预设的噪声声纹数据库;
若所述反馈指令为开始录音,则存储所述第二声音数据至预设的音频数据库。
在一个实施例中,指令接收模块33,还用于接收用户输入的音频上传指令,并记录所述音频上传指令对应的时间信息;
如图5所示,智能录音装置,还包括:
时间获取模块50,用于获取用户上一次输入音频上传指令对应的时间信息;
数据查询模块51,用于在所述预设的音频数据库中调取出存储时间在两次所述时间信息之间的声音数据;
记录获取模块52,用于获取设备连接记录,所述设备连接记录包括每次连接的电子设备的设备标识信息以及连接时间;
设备选取模块53,用于选取出所述连接时间最近的电子设备作为目标电子设备;
信息发送模块54,用于根据所述目标电子设备对应的设备标识信息,将调取出的所述声音数据发送至所述目标电子设备。
在一个实施例中,提供了一种录音设备。
具体来说,该录音设备包括存储器和处理器,存储器上存储有能够被处理器加载并执行上述智能录音方法的计算机程序。
在一个实施例中,提供了一种计算机可读存储介质。
具体来说,该计算机可读存储介质,其存储有能够被处理器加载并执行如上述智能录音方法的计算机程序,该计算机可读存储介质例如包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。

Claims (10)

1.一种智能录音方法,其特征在于,所述方法包括:
接收并存储录音源对应的第一声音数据至预设的音频数据库;
提取所述第一声音数据对应的声纹特征信息;
存储所述第一声音数据对应的声纹特征信息至预设的录音源声纹数据库;
接收用户输入的停止录音指令;
接收第二声音数据,并提取第二声音数据对应的声纹特征信息;
若所述录音源声纹数据库中存在有与所述第二声音数据对应的声纹特征信息相匹配的声纹特征信息,则存储所述第二声音数据至所述音频数据库。
2.根据权利要求1所述的方法,其特征在于,在所述接收并存储录音源对应的第一声音数据至预设的音频数据库之后,还包括:
将所述第一声音数据对应的时间长度每间隔预设的时间段进行分段,直至剩余的时间长度小于所述时间段;
获取每个所述时间段在所述第一声音数据中对应的分段声音数据;
计算每个分段声音数据对应的最大响度值,作为每个分段声音数据对应的声音阈值;
将每个声音阈值乘以预设的环境噪声比,得出每个分段声音数据对应的环境噪声响度值;
将每个所述分段声音数据中响度值低于对应的所述环境噪声响度值的声音数据滤除。
3.根据权利要求2所述的方法,其特征在于,在所述接收并存储录音源对应的第一声音数据至预设的音频数据库之前,还包括:
接收用户输入的开机指令;
接收预设时间段的环境噪声对应的环境噪声数据,并计算所述环境噪声的响度在所述预设时间段内的噪声平均响度值;
接收用户输入的开始录音指令;
在所述计算每个分段声音数据对应的最大响度值,作为每个分段声音数据对应的声音阈值之后,还包括:
取所有声音阈值的平均数作为第一声音数据对应的平均声音阈值;
将所述噪声平均响度值除以所述平均声音阈值得出所述环境噪声比。
4.根据权利要求3所述的方法,其特征在于,在所述接收预设时间段的环境噪声对应的环境噪声数据之后,还包括:
提取所述环境噪声数据对应的声纹特征信息;
将提取出的所述声纹特征信息存储入预设的噪声声纹数据库;
在所述提取第二声音数据对应的声纹特征信息之后,还包括:
若所述噪声声纹数据库中存在有与所述第二声音数据对应的声纹特征信息相匹配的声纹特征信息,则忽略所述第二声音数据;
若所述录音源声纹数据库中不存在有与所述第二声音数据对应的声纹特征信息相匹配的声纹特征信息,且所述噪声声纹数据库不存在有与所述第二声音数据对应的声纹特征信息相匹配的声纹特征信息,则将所述第二声音数据对应的声纹特征信息存储入预设的噪声声纹数据库。
5.根据权利要求4所述的方法,其特征在于,所述将所述第二声音数据对应的声纹特征信息存储入预设的噪声声纹数据库,包括:
计算出所述第二声音数据对应的平均声音阈值;
计算所述第二声音数据对应的平均声音阈值与所述第一声音数据对应的平均声音阈值之间的响度差值;
若所述响度差值在预设的响度差值范围内,则获取所述第二声音数据对应的时间长度;
判断所述第二声音数据对应的时间长度是否达到预设的收录阈值,若是,则存储所述第二声音数据至预设的音频数据库;
将所述第二声音数据对应的声纹特征信息存储入预设的录音源声纹数据库。
6.根据权利要求5所述的方法,其特征在于,所述存储所述第二声音数据至预设的音频数据库包括:
执行预设的录音提醒指令;
接收用户针对录音提醒输入的反馈指令,所述反馈指令包括开始录音和噪声收录;
若所述反馈指令为噪声收录,则将所述第二声音数据对应的声纹特征信息存储入预设的噪声声纹数据库;
若所述反馈指令为开始录音,则存储所述第二声音数据至预设的音频数据库。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收用户输入的音频上传指令,并记录所述音频上传指令对应的时间信息;
获取用户上一次输入音频上传指令对应的时间信息;
在所述预设的音频数据库中调取出存储时间在两次所述时间信息之间的声音数据;
获取设备连接记录,所述设备连接记录包括每次连接的电子设备的设备标识信息以及连接时间;
选取出所述连接时间最近的电子设备作为目标电子设备;
根据所述目标电子设备对应的设备标识信息,将调取出的所述声音数据发送至所述目标电子设备。
8.一种智能录音装置,其特征在于,所述装置包括:
声音存储模块(30),用于接收并存储录音源对应的第一声音数据至预设的音频数据库;
声纹提取模块(31),用于提取所述第一声音数据对应的声纹特征信息;
声纹存储模块(32),用于存储所述第一声音数据对应的声纹特征信息至预设的录音源声纹数据库;
指令接收模块(33),用于接收用户输入的停止录音指令;
声音接收模块(34),用于接收第二声音数据,并提取第二声音数据对应的声纹特征信息;
声纹识别模块(35),用于若所述录音源声纹数据库中存在有与所述第二声音数据对应的声纹特征信息相匹配的声纹特征信息,则存储所述第二声音数据至所述音频数据库。
9.一种录音设备,其特征在于,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如权利要求1至7中任一种方法的计算机程序。
10.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至7中任一种方法的计算机程序。
CN202111061087.XA 2021-09-10 2021-09-10 智能录音方法、装置、设备及存储介质 Active CN113571101B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111061087.XA CN113571101B (zh) 2021-09-10 2021-09-10 智能录音方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111061087.XA CN113571101B (zh) 2021-09-10 2021-09-10 智能录音方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113571101A true CN113571101A (zh) 2021-10-29
CN113571101B CN113571101B (zh) 2022-09-20

Family

ID=78173733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111061087.XA Active CN113571101B (zh) 2021-09-10 2021-09-10 智能录音方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113571101B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114141274A (zh) * 2021-11-22 2022-03-04 珠海格力电器股份有限公司 音频的处理方法、装置、设备和系统

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108392A (ja) * 2000-09-29 2002-04-10 Casio Comput Co Ltd 音声認証装置、音声認証方法、及び音声認証処理プログラムを記憶した記憶媒体
JP2008102538A (ja) * 2007-11-09 2008-05-01 Sony Corp 記憶再生装置及び記憶再生装置の制御方法
WO2008056604A1 (fr) * 2006-11-06 2008-05-15 Nec Corporation Système de collecte de son, procédé de collecte de son et programme de traitement de collecte
CN202532532U (zh) * 2012-04-19 2012-11-14 刘波 能录音的打火机
CN104184587A (zh) * 2014-08-08 2014-12-03 腾讯科技(深圳)有限公司 声纹生成方法、服务器、客户端及系统
CN105677799A (zh) * 2015-12-31 2016-06-15 宇龙计算机通信科技(深圳)有限公司 一种照片检索方法与系统
US20160180155A1 (en) * 2014-12-22 2016-06-23 Fu Tai Hua Industry (Shenzhen) Co., Ltd. Electronic device and method for processing voice in video
CN206075816U (zh) * 2016-06-07 2017-04-05 深圳市升迈电子有限公司 一种新型录音笔
CN108228132A (zh) * 2016-12-14 2018-06-29 谷歌有限责任公司 促进用户录制的音频的创建和回放
CN108882073A (zh) * 2018-06-19 2018-11-23 倬韵科技(深圳)有限公司 一种抑制麦克风的风噪的方法、装置、耳机和移动终端
CN109785846A (zh) * 2019-01-07 2019-05-21 平安科技(深圳)有限公司 单声道的语音数据的角色识别方法及装置
CN110867188A (zh) * 2018-08-13 2020-03-06 珠海格力电器股份有限公司 内容服务的提供方法、装置、存储介质及电子装置
CN112017655A (zh) * 2020-07-25 2020-12-01 云开智能(深圳)有限公司 一种智能语音收录回放方法及其系统
CN112069354A (zh) * 2020-09-04 2020-12-11 广州趣丸网络科技有限公司 一种音频数据的分类方法、装置、设备和存储介质
US20210136441A1 (en) * 2018-12-21 2021-05-06 Shenzhen Skyworth-Rgb Electronic Co., Ltd. Method and device for adjusting video parameter based on voiceprint recognition and readable storage medium
CN112767945A (zh) * 2020-12-31 2021-05-07 上海明略人工智能(集团)有限公司 基于声纹的录音控制方法、系统、电子设备及存储介质
CN112767941A (zh) * 2020-12-28 2021-05-07 深圳壹账通智能科技有限公司 一种语音记录方法、装置、电子设备及存储介质
CN112997144A (zh) * 2018-12-12 2021-06-18 深圳市欢太科技有限公司 一种录音方法、装置、电子设备和计算机可读存储介质
CN113066504A (zh) * 2019-12-31 2021-07-02 上海汽车集团股份有限公司 音频传输方法、装置及计算机存储介质
CN113113022A (zh) * 2021-04-15 2021-07-13 吉林大学 一种基于说话人声纹信息的自动识别身份的方法

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108392A (ja) * 2000-09-29 2002-04-10 Casio Comput Co Ltd 音声認証装置、音声認証方法、及び音声認証処理プログラムを記憶した記憶媒体
WO2008056604A1 (fr) * 2006-11-06 2008-05-15 Nec Corporation Système de collecte de son, procédé de collecte de son et programme de traitement de collecte
JP2008102538A (ja) * 2007-11-09 2008-05-01 Sony Corp 記憶再生装置及び記憶再生装置の制御方法
CN202532532U (zh) * 2012-04-19 2012-11-14 刘波 能录音的打火机
CN104184587A (zh) * 2014-08-08 2014-12-03 腾讯科技(深圳)有限公司 声纹生成方法、服务器、客户端及系统
US20160180155A1 (en) * 2014-12-22 2016-06-23 Fu Tai Hua Industry (Shenzhen) Co., Ltd. Electronic device and method for processing voice in video
CN105677799A (zh) * 2015-12-31 2016-06-15 宇龙计算机通信科技(深圳)有限公司 一种照片检索方法与系统
CN206075816U (zh) * 2016-06-07 2017-04-05 深圳市升迈电子有限公司 一种新型录音笔
CN108228132A (zh) * 2016-12-14 2018-06-29 谷歌有限责任公司 促进用户录制的音频的创建和回放
CN108882073A (zh) * 2018-06-19 2018-11-23 倬韵科技(深圳)有限公司 一种抑制麦克风的风噪的方法、装置、耳机和移动终端
CN110867188A (zh) * 2018-08-13 2020-03-06 珠海格力电器股份有限公司 内容服务的提供方法、装置、存储介质及电子装置
CN112997144A (zh) * 2018-12-12 2021-06-18 深圳市欢太科技有限公司 一种录音方法、装置、电子设备和计算机可读存储介质
US20210136441A1 (en) * 2018-12-21 2021-05-06 Shenzhen Skyworth-Rgb Electronic Co., Ltd. Method and device for adjusting video parameter based on voiceprint recognition and readable storage medium
CN109785846A (zh) * 2019-01-07 2019-05-21 平安科技(深圳)有限公司 单声道的语音数据的角色识别方法及装置
CN113066504A (zh) * 2019-12-31 2021-07-02 上海汽车集团股份有限公司 音频传输方法、装置及计算机存储介质
CN112017655A (zh) * 2020-07-25 2020-12-01 云开智能(深圳)有限公司 一种智能语音收录回放方法及其系统
CN112069354A (zh) * 2020-09-04 2020-12-11 广州趣丸网络科技有限公司 一种音频数据的分类方法、装置、设备和存储介质
CN112767941A (zh) * 2020-12-28 2021-05-07 深圳壹账通智能科技有限公司 一种语音记录方法、装置、电子设备及存储介质
CN112767945A (zh) * 2020-12-31 2021-05-07 上海明略人工智能(集团)有限公司 基于声纹的录音控制方法、系统、电子设备及存储介质
CN113113022A (zh) * 2021-04-15 2021-07-13 吉林大学 一种基于说话人声纹信息的自动识别身份的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴新原: "数字录音笔的音频特性对声纹鉴定中主要声学参量的影响", 《中国人民公安大学学报(自然科学版)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114141274A (zh) * 2021-11-22 2022-03-04 珠海格力电器股份有限公司 音频的处理方法、装置、设备和系统

Also Published As

Publication number Publication date
CN113571101B (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
JP6811758B2 (ja) 音声対話方法、装置、デバイス及び記憶媒体
US10929514B2 (en) User registration method and device for smart robots
CN110557589B (zh) 用于整合记录的内容的系统和方法
CN106463112B (zh) 语音识别方法、语音唤醒装置、语音识别装置及终端
US8909537B2 (en) Device capable of playing music and method for controlling music playing in electronic device
WO2017059815A1 (zh) 一种快速识别方法及家庭智能机器人
KR20140089863A (ko) 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
JP2009071492A (ja) 信号処理装置及びその方法
CN113571101B (zh) 智能录音方法、装置、设备及存储介质
CN110223696B (zh) 一种语音信号的采集方法、装置及终端设备
US9058384B2 (en) System and method for identification of highly-variable vocalizations
CN108831456B (zh) 一种通过语音识别对视频标记的方法、装置及系统
US20120035919A1 (en) Voice recording device and method thereof
Stockdale Tools for digital audio recording in qualitative research
US10535340B2 (en) Systems and methods for identifying voice
JPWO2020003785A1 (ja) 音声処理装置、音声処理方法及び記録媒体
CN108806685A (zh) 语音控制系统及其方法
US20050016364A1 (en) Information playback apparatus, information playback method, and computer readable medium therefor
CN110970027A (zh) 一种语音识别方法、装置、计算机存储介质及系统
CN110660385A (zh) 一种命令词检测方法及电子设备
CN110661923A (zh) 一种在会议中记录发言信息的方法和装置
US20080059171A1 (en) Systems And Arrangements For Titling Audio Recordings
CN110989965A (zh) 一种基于语音鼠标的录音线路切换方法、系统、装置及可读存储介质
CN114242120B (zh) 一种基于dtmf技术的音频剪辑方法及音频标记方法
JP2003099094A (ja) 音声処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant