CN110198375A

CN110198375A - 录音方法、终端及计算机可读存储介质

Info

Publication number: CN110198375A
Application number: CN201910487097.6A
Authority: CN
Inventors: 陈永金; 邓高锋
Original assignee: Shenzhen One Secret Technology Co Ltd
Current assignee: Shenzhen One Secret Technology Co Ltd
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2019-09-03

Abstract

本发明公开了一种录音方法、终端及计算机可读存储介质，其中，所述录音方法的步骤包括：在获取到录音指令后，获取所处的录音场景；当所处的录音场景为通话录音场景时，进入通话录音模式；当所处的录音场景为播放录音场景时，进入播放录音模式；当所处的录音场景为本地录音场景时，进入本地播放录音模式。本发明的录音方法、终端及计算机可读存储介质旨在解决现有录音设备无法适用多种录音场景，且录音效果不佳的技术问题。本申请通过对不同的录音场景设计针对性的录音模式，能够基于所处录音场景的特点进行区别性地录音，提高语音的清晰度和可懂度，削弱不相干的噪音和回声，此外还可以为后续语音转文字提供基础。

Description

录音方法、终端及计算机可读存储介质

技术领域

本发明涉及录音领域，尤其涉及一种录音方法、终端及计算机可读存储介质。

背景技术

在移动会议、演讲、语音备忘录、采访、轻音乐、大音量音乐以及网络音视频课程等录音场景下，已有的产品形态多年已来录音的创新十分的有限。以Sony或philips的产品为代表的录音笔经过近几年的发展，虽然也能与手机APP进行文件传输、分享和语音转文字，但是其语音转文字的准确率和设备操作都显得过于麻烦，用户学习成本较高，使用距离和场景有很大的限制。

录音场景包括现有的移动会议，现场演讲，在线教育，刑侦机关，电话或现场采访，音乐会等等录音场景设备，

发明内容

本发明的主要目的是提供一种录音方法、终端及计算机可读存储介质，该录音方法、终端及计算机可读存储介质旨在解决现有录音设备无法适用多种录音场景，且录音效果不佳的技术问题。

为实现上述目的，本发明提出的一种录音方法，所述录音方法的步骤包括：

在获取到录音指令后，获取所处的录音场景；

当所处的录音场景为通话录音场景时，进入通话录音模式；

当所处的录音场景为播放录音场景时，进入播放录音模式；

当所处的录音场景为本地录音场景时，进入本地录音模式。

优选地，所述录音方法的步骤还包括：

当处于本地录音模式时，判断是否获取到接听通话指令，

当确定为获取到所述接听通话指令时，切换至所述通话录音模式。

优选地，所述录音方法的步骤还包括：

在获取到VIP录音指令后，获取所处的录音场景；

当所处的录音场景为本地录音场景时，进入VIP录音模式。

优选地，所述进入通话录音模式的步骤具体包括：

获取通话状态下的下行声源和上行声源；

对所述下行声源和上行声源均进行音量增强和噪声抑制处理；

将处理后的下行声源和上行声源混合并进行录制。

优选地，所述进入播放录音模式的步骤具体包括：

获取外部连接设备的音频数据并录制。

优选地，所述进入本地录音模式的步骤具体包括：

对录音方向进行灯光指示；

采集声音数据，并增益所述录音方向上的声音数据，抑制所述录音方向以外的声音数据后进行录制。

优选地，所述抑制所述录音方向以外的声音数据的步骤具体包括：

对所述录音方向以外的声音数据进行降噪处理；

对降噪处理后的声音数据进行回音消除处理。

优选地，所述录音方法的步骤还包括：

将录制得到的音频数据切分为音频片段；

将所述音频片段转换为对应的文字，并根据所述录音方向为每段文字标注角色标签。

此外，本发明还提供一种终端，所述终端包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的录音程序，其中所述录音程序被所述处理器执行时，实现如上所述的录音方法的步骤。

此外，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有录音程序，所述录音程序被处理器执行时实现如上所述的录音方法的步骤。

本申请的方案中，在获取到用户按下的录音指令后，获取录音设备当前所处的录音场景。录音场景可以根据接听电话或播放音频时的反馈信号来判断。当录音设备获取到当前所处的录音场景为通话录音场景时，即用户此时正在进行通话，录音设备进入通话录音模式。通话状态时，录音设备会接收到远端传过来的下行声源和近端的上行声源，针对该状态，通话录音模式可以对应地进行声源的增强和噪声的抑制，并通过算法将上下行通道的声源进行混合，然后进行录制语音。从而也可以很好的提高通话双方语音的质量，提高语音的清晰度和可懂度。当录音设备获取到当前所处的录音场景为播放录音场景时，即用户正将录音设备与外部音频播放设备连接，且该音频播放设备处于播放状态。录音设备与外部音频播放设备的连接方式可以包括蓝牙连接、WIFI连接和USB连接。在播放录音场景时，录音设备主要获取的是音频播放设备的系统声源，并进行录制。当录音设备获取到当前所处的录音场景为本地录音场景时，即用户既不处于通话录音场景，也不处于播放录音场景，录音设备只需要进行正常录音即可。本申请通过对不同的录音场景设计针对性的录音模式，能够基于所处录音场景的特点进行区别性地录音，提高语音的清晰度和可懂度，削弱不相干的噪音和回声。此外，还可以为后续语音转文字提供更好的基础。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明的录音方法终端结构的示意图；

图2为本发明的录音方法第一实施例的流程示意图；

图3为本发明的录音方法第二实施例的流程示意图；

图4为本发明的录音方法第三实施例的流程示意图；

图5为本发明的录音方法第四实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例的录音终端是具有语音采集功能和输出功能的终端设备。

如图1所示，该用户终端可以包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

传统的录音终端一般都是将设备当成USB存储设备，插入电脑拷贝录音文件，而本发明实施例的录音终端可以是集成了已有的数据上云的多种方式(WIFI，蜂窝通信3G，4G，5G，USB转有线网口)，为需求不同的各类用户准备了多种数据上云的方式，解决了他们可能在数据上云时可能遇到的麻烦。其中，当多种传输方式同时存在的情况下，一般优先级是有线网口>WIFI>4G。而且，本发明实施例的录音终端不仅可以支持传统的u盘拷贝方式，还可以利用当今发展迅速的互联网技术，可以从手机APP，电脑WEB页面进行查看。而且查看的内容不仅有录音文件，同步的还有录音文件对应的文字信息，文字信息与录音的片段一一对应并具备角色分离的标记。

本领域技术人员可以理解，图1中示出的终端的结构并不构成对用户终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要包括输入单元比如键盘，键盘包括无线键盘和有线键盘，用于连接客户端，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的录音程序，并执行以下操作：

在获取到录音指令后，获取所处的录音场景；

当所处的录音场景为通话录音场景时，进入通话录音模式；

当所处的录音场景为播放录音场景时，进入播放录音模式；

当所处的录音场景为本地录音场景时，进入本地播放录音模式。

进一步地，处理器1001可以调用存储器1005中存储的录音程序，还执行以下操作：

当处于本地录音模式时，判断是否获取到接听通话指令，

在获取到VIP录音指令后，获取所处的录音场景；

当所处的录音场景为本地录音场景时，进入VIP录音模式；

当所处的录音场景不为本地录音场景时，不执行任何动作。

获取通话状态下的下行声源和上行声源；

混合处理后的下行声源和上行声源并进行录制。

获取外部连接设备的音频数据并录制。

对录音方向进行灯光指示；

对所述录音方向以外的声音数据进行降噪处理；

对降噪处理后的声音数据进行回音消除处理以抑制所述录音方向以外的声音数据。

将录制得到的音频数据切分为音频片段；

本发明录音笔的具体实施例与下述录音方法各实施例基本相同，在此不作赘述。

请参阅图2，图2为本发明录音方法第一实施例的流程示意图，本实施例提供的录音方法包括如下步骤：

S10，在获取到录音指令后，获取所处的录音场景；

在获取到用户按下的录音指令后，获取录音设备当前所处的录音场景。录音场景可以包括本地录音场景、通话录音场景和播放录音场景。可以理解的，通话录音场景即用户当前处于通话状态；播放录音场景即录音设备正与外部音频播放设备连接，且该音频播放设备处于播放状态；本地录音场景即除开通话录音场景和播放录音场景之外的场景，录音设备只需要进行正常录音即可。由于用户在要进行通话时会按下接听键，在进行播放时会按下播放键，录音设备可以根据接听电话或播放音频时的反馈信号来判断和获取所处的录音场景。

S20，当所处的录音场景为通话录音场景时，进入通话录音模式；

当录音设备获取到当前所处的录音场景为通话录音场景时，即用户此时正在进行通话，录音设备进入通话录音模式。通话状态时，录音设备会接收到远端传过来的下行声源和近端的上行声源，针对该状态，通话录音模式可以对应地进行声源的增强和噪声的抑制，并通过算法将上下行通道的声源进行混合，然后进行录制语音。从而也可以很好的提高通话双方语音的质量，提高语音的清晰度和可懂度，还可以为后续语音转文字提供更好的基础。

S30，当所处的录音场景为播放录音场景时，进入播放录音模式；

当录音设备获取到当前所处的录音场景为播放录音场景时，即用户正将录音设备与外部音频播放设备连接，且该音频播放设备处于播放状态。录音设备与外部音频播放设备的连接方式可以包括蓝牙连接、WIFI连接和USB连接。在播放录音场景时，录音设备主要获取的是音频播放设备的系统声源，并进行录制。

S40，当所处的录音场景为本地录音场景时，进入本地录音模式；

当录音设备获取到当前所处的录音场景为本地录音场景时，即用户既不处于通话录音场景，也不处于播放录音场景，录音设备只需要进行正常录音即可。

进一步的，作为本发明的一种优选实施方式，参照图3，图3为本发明录音方法第二实施例的流程示意图。录音方法的步骤还包括：

当处于本地录音模式时，

执行步骤S50：判断是否获取到接听通话指令，

当确定为获取到所述接听通话指令时，

执行步骤S60：切换至所述通话录音模式。

本实施方式中，用户按下录音指令可能会先于按下接听通话指令，这时候录音设备会直接先进入本地录音模式，但随后接收到的接听通话指令仍然可以将录音模式切换至通话录音模式。由此无论用户习惯于先按录音还是先按接听，都可以完美地进入通话录音模式。此外，还存在另外一种情况，当用户正在进行本地录音时，如果突然接听到电话，接听通话指令同样可以使录音设备切换至通话录音模式，进行通话录音。

进一步的，作为本发明的另一种优选实施方式，所述录音方法的步骤还包括：

在获取到VIP录音指令后，获取所处的录音场景；

当所处的录音场景为本地录音场景时，进入VIP录音模式；

当所处的录音场景不为本地录音场景时，不执行任何动作。

本实施方式中，为了提供一种适用于会议或讲座中专门需要录制主持或演讲者的声音的模式，录音设备还提供了VIP录音模式。VIP录音模式只录制一个特定方向的声音，专门关注该特定方向的声源，提高语音清晰度和可懂度，为后面语音转文字做了预处理。其中，VIP录音模式只有当所处的录音场景为本地录音场景时才能触发，或者当录音设备在进行本地录音模式时也可被触发。当所处的录音场景不为本地录音场景时，即当前的录音场景为通话录音模式或播放录音模式时，则在获取到VIP录音指令后不执行任何动作。

进一步的，所述录音方法的步骤还可以包括：

当处于任意一种录音模式时，判断是否获取到结束录音指令；

当确定为获取到所述结束录音指令时，结束当前的录音模式。

本方案中，结束录音指令可以为第二次触碰录音指令。录音设备可以通过录音指令开启录音，也可以通过再次输入录音指令来结束录音。当录音设备正处于本地录音模式、通话录音模式、播放录音模式和VIP录音模式中的任意一种时，只要获取到结束录音指令，便结束当前的录音。当然本发明不限于此，当处于任意一种录音模式时，也可以通过单独的结束指令或者通过VIP录音指令来结束当前的录音模式。

作为本发明的具体实施方式，参照图4，图4为本发明录音方法第三实施例的流程示意图。

步骤S20中的进入通话录音模式的具体包括：

S21，获取通话状态下的下行声源和上行声源；

S22，对所述下行声源和上行声源均进行音量增强和噪声抑制处理；

S23，将处理后的下行声源和上行声源混合并进行录制。

本实施例中，在通话录音模式下获取通话状态下的下行声源和上行声源，

使用AEC，NS，BF等算法对远端传过来的下行声源和近端的上行声源进行音量上的增强和噪声的抑制，并通过MIX算法将上下行通道的声源进行混合，然后进行录制语音。能够很好的提高通话双方语音的质量，提高了语音的清晰度和可懂度，为后面语音转文字做了预处理。

作为本发明的另一具体实施方式，进入播放录音模式的步骤具体包括：获取外部连接设备的音频数据并录制。

本实施方式中，播放录音模式下主要录制蓝牙或USB传递的声音，录音设备主要获取的是音频播放设备的系统声源，主要是在使用电脑、手机学习网络课程时，录音保存下课程内容后自动转写成文字，便于课后回顾和复习使用。

作为本发明的具体实施方式，参照图5，图5为本发明录音方法第四实施例的流程示意图。

步骤S30中的进入本地录音模式包括：

S31，对录音方向进行灯光指示；

S32，采集声音数据，并增益所述录音方向上的声音数据，抑制所述录音方向以外的声音数据后进行录制。

本实施方式中，在本地录音场景下，一般有两个或两个以上的说话者。录音设备可以使用麦克风阵列拾音技术，麦克风数量可以为(4个，6个，8个)，并对录音方向进行灯光指示(可以为LED灯指示)，从而告知使用人朝向灯光指示的方向说话。声音输入后经过BF、，NS算法处理，增强灯光指示方向(1个，2个，3个，4个)的声源，对于非灯光指示方向的声源进行削弱和过滤，从而削弱环境中的不关注信号(噪声，混响，其他人声)，专门关注录音对象的声源，提高语音清晰度和可懂度，为后面语音转文字做了预处理。多个指向性的拾音头可以最大程度的获取不同说话人的声音信号，避免噪音干扰。在双人说话场景下，可以采用双拾音头进行拾音。每个拾音头针对不同的采访对象进行录音，便于后期的角色分离和语音转成文字，从而为用户的音频素材处理环节节约大量时间和精力。

其中，上述步骤S32中增益所述录音方向上的声音数据，抑制所述录音方向以外的声音数据后进行录制主要为：

对所述录音方向以外的声音数据进行降噪处理；

回声消除可采用声学回声消除算法，声学回声消除算法是对扬声器信号与由它产生的多路径回声的相关性为基础，建立远端信号的语音模型，利用它对回声进行估计，并不断地修改滤波器的系数，使得估计值更加逼近真实的回声。然后，将回声估计值从话筒的输入信号中减去，从而达到消除回声的目的。

作为本发明的进一步的实施方式，所述录音方法的步骤还包括：

将录制得到的音频数据切分为音频片段；

本实施方式中，将录制得到的音频数据切分为音频片段，针对每个声道音频中对应所指向的说话角色，对每个音频片段标注对应的说话角色标签，在将所述音频片段转换为对应的文字，可以根据每个音频片段对应的角色标签为每段文字标注角色标签。其中文字信息与录音的片段一一对应，还有角色分离的标记，可以将不同的角色讲的内容分颜色标识出来。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有录音程序，所述录音程序被处理器执行时实现如上述录音方法各实施例的步骤。

本发明计算机可读存储介质的具体实施例与上述录音方法各实施例基本相同，在此不作赘述。

综上，本发明改善了传统录音设备功能相对单一，用户使用不够便利，不能够适应多种录音场景的缺陷。在学习压力，工作压力越来越大的时代中，提供给用户一个能够大大提升效率的工具。通过麦克风阵列模块提升声音质量，减低环境噪声，提高指示方向人声的清晰度和可懂度。在不同的网络环境约束下，有线网口，WIFI和蜂窝网络都可以解决文件上传问题。根据不同用户场景的特点构建有效的算法和简便的使用操作，让用户所录即所得，还可以结合手机APP上方便的查看到录音内容和角色文字。录音终端可以集成已有的数据上云的多种方式(WIFI，蜂窝通信3G，4G，5G，USB转有线网口)，为需求不同的各类用户准备了多种数据上云的方式，解决了他们可能在数据上云时可能遇到的麻烦。而且，本发明的录音终端不仅可以支持传统的U盘拷贝方式，还可以支持互联网查看。而且查看的内容不仅有录音文件，同步的还有录音文件对应的文字信息，文字信息与录音的片段一一对应并具备角色分离的标记。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种录音方法，其特征在于，所述录音方法的步骤包括：

在获取到录音指令后，获取所处的录音场景；

当所处的录音场景为通话录音场景时，进入通话录音模式；

当所处的录音场景为播放录音场景时，进入播放录音模式；

当所处的录音场景为本地录音场景时，进入本地录音模式。

2.根据权利要求1所述的录音方法，其特征在于，所述录音方法的步骤还包括：

当处于本地录音模式时，判断是否获取到接听通话指令，

3.根据权利要求1所述的录音方法，其特征在于，所述录音方法的步骤还包括：

在获取到VIP录音指令后，获取所处的录音场景；

当所处的录音场景为本地录音场景时，进入VIP录音模式。

4.根据权利要求1所述的录音方法，其特征在于，所述进入通话录音模式的步骤具体包括：

获取通话状态下的下行声源和上行声源；

将处理后的下行声源和上行声源混合并进行录制。

5.根据权利要求1所述的录音方法，其特征在于，所述进入播放录音模式的步骤具体包括：

获取外部连接设备的音频数据并录制。

6.根据权利要求1所述的录音方法，其特征在于，所述进入本地录音模式的步骤具体包括：

对录音方向进行灯光指示；

7.根据权利要求6的录音方法，其特征在于，所述抑制所述录音方向以外的声音数据的步骤具体包括：

对所述录音方向以外的声音数据进行降噪处理；

对降噪处理后的声音数据进行回音消除处理。

8.根据权利要求6所述的录音方法，其特征在于，所述录音方法的步骤还包括：

将录制得到的音频数据切分为音频片段；

9.一种终端，其特征在于，所述终端包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的录音程序，其中所述录音程序被所述处理器执行时，实现如权利要求1至8中任一项所述的录音方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有录音程序，所述录音程序被处理器执行时实现如权利要求1至8中任一项所述的录音方法的步骤。