CN110459233B

CN110459233B - 语音的处理方法、装置和计算机可读存储介质

Info

Publication number: CN110459233B
Application number: CN201910210345.2A
Authority: CN
Inventors: 朱浩华; 邓高锋; 陈永金
Original assignee: Shenzhen Emeet Technology Co ltd
Current assignee: Shenzhen Emeet Technology Co ltd
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2022-02-11
Anticipated expiration: 2039-03-19
Also published as: CN110459233A

Abstract

本发明公开了一种语音的处理方法。该方法包括：获取异常时刻前的第一音频信息和异常时刻后的第二音频信息；根据所述第一音频信息和第二音频信息对所述第二音频信息的时间进行计算，确定所述第二音频信息正确的时间戳；根据所述时间戳对所述第二音频信息进行校正，获得包括连续时间戳的第三音频信息。本发明还公开了一种语音的处理装置及计算机可读存储介质。本发明能够实现保证整个语音数据时间戳的连续性。

Description

语音的处理方法、装置和计算机可读存储介质

技术领域

本发明涉及录音转写领域，尤其涉及一种语音的处理方法、装置和计算机可读存储介质。

背景技术

随着社会的发展，人们的生活越来越高效化，尤其在现代会议过程或采访过程中，经常需要用到录音转写设备将语音转换为文字进行记录，提高工作效率。因此，录音转写设备就为文字工作者提供了便捷高效的语音转文字服务。

但是，目前市面上的录音设备时间缺乏连续性，一般App或录音设备，由于断网需要重新连接，每次重新连接提交的数据，产生的时间戳都是相对于当前重新连接时间的，与断网前的录音的时间没有联系，断网后相当于开始一段新的录音，而实际过程中，用户在断网前后的录音是连续的，并没有产生中断，这样就会导致整个过程的时间戳不连续。

发明内容

本发明的主要目的在于提供一种语音的处理方法、装置和计算机可读存储介质，旨在保证整个语音数据时间戳的连续性。

为实现上述目的，本发明提供一种语音的处理方法，所述语音的处理方法包括以下步骤：

获取异常时刻前的第一音频信息和异常时刻后的第二音频信息；

根据所述第一音频信息和第二音频信息对所述第二音频信息的时间进行计算，确定所述第二音频信息正确的时间戳；

根据所述时间戳对所述第二音频信息进行校正，获得包括连续时间戳的第三音频信息。

可选地，所述根据所述第一音频信息和第二音频信息对所述第二音频信息的时间进行计算，确定所述第二音频信息正确的时间戳的步骤包括：

确定所述第一音频信息的起始时间信息和音频数据大小；

根据所述音频数据大小利用第一公式计算出所述第二音频信息的偏移时间；

根据所述偏移时间和所述起始时间信息利用第二公式进行计算，得到所述第二音频信息正确的时间戳。

可选地，所述第一公式为：

T₁＝(Q*8.0)/(S*M*N)*1000，

其中T₁为偏移时间，Q为第一音频信息的音频数据大小，S为采样率，M为每次采样位数，N为通道数。

可选地，所述第二公式为：

T＝T₂+T₁，

其中，T₁为第二音频信息的偏移时间，T₂为第一音频信息的起始时间信息，T为第二音频信息正确的时间戳。

可选地，所述语音的处理方法还包括：

对所述第三音频信息进行语音转换，获得包括连续时间戳的文字信息。

可选地，所述对所述第三音频信息进行语音转换，获得包括连续时间戳的文字信息的步骤包括：

根据所述第三音频信息确定所述第三音频信息的语言类型；

根据所述语言类型对所述第三音频信息进行语音转换，获得包括连续时间戳的文字信息。

可选地，所述语音的处理方法还包括以下步骤：

将所述包括连续时间戳的文字信息发送到移动终端，以使得移动终端同步所述包括连续时间戳的文字信息。

可选地，所述语音的处理方法还包括以下步骤：

根据所述文字信息获得所述文字信息对应的角色信息；

将所述角色信息与所述包括连续时间戳的文字信息进行关联显示。

此外，为实现上述目的，本发明还提供一种语音的处理装置，所述语音的处理装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音的处理程序，所述语音的处理程序被所述处理器执行时实现如上所述的语音的处理方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有语音的处理程序，所述语音的处理程序被处理器执行时实现上述的语音的处理方法的步骤。

本发明提供一种语音的处理方法、装置和计算机存储介质。在该方法中，获取异常时刻前的第一音频信息和异常时刻后的第二音频信息；根据所述第一音频信息和第二音频信息对所述第二音频信息的时间进行计算，确定所述第二音频信息正确的时间戳；根据所述时间戳对所述第二音频信息进行校正，获得包括连续时间戳的第三音频信息。通过上述方式，本发明能够在断网等异常情况时，获取断网等异常情况时前后的两段音频信息，根据前后两段音频信息对音频信息的时间进行修正，使音频信息的时间与没有异常情况时的时间即实际时间保持一致，保证录音过程中整个录音过程音频信息时间的连续性，对断网前后的音频信息进行拼接，保证时间戳连续。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图；

图2为本发明语音的处理方法第一实施例的流程示意图；

图3为本发明语音的处理方法第二实施例的流程示意图；

图4为本发明语音的处理方法第三实施例的流程示意图；

图5为本发明语音的处理方法第四实施例的流程示意图；

图6为本发明语音的处理方法第五实施例的流程示意图；

图7为本发明语音的处理方法第六实施例的流程示意图。

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图。

本发明实施例终端可以是PC，也可以是智能手机、平板电脑、便携计算机等具有数据处理功能的终端设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、Wi-Fi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音的处理程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的语音的处理程序，并执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的语音的处理程序，还执行以下操作：

确定所述第一音频信息的起始时间信息和音频数据大小；

所述第一公式为：

T₁＝(Q*8.0)/(S*M*N)*1000

所述第二公式为：

T＝T₂+T₁，

根据所述第三音频信息确定所述第三音频信息的语言类型；

根据所述文字信息获得所述文字信息对应的角色信息；

本发明语音的处理设备的具体实施例与下述语音的处理方法各实施例基本相同，在此不作赘述。

参照图2，图2为本发明语音的处理方法第一实施例的流程示意图，所述语音的处理方法包括：

步骤S100，获取异常时刻前的第一音频信息和异常时刻后的第二音频信息；

在本发明实施例中，该语音的处理方法适用于录音过程中，也适用于其他场景。录音过程中，声音数据通过麦克风阵列采集，麦克风阵列包含多个麦克风，可以为4个麦克风、也可以为4+1个麦克风、6+1个麦克风等多种组成形式，麦克风阵列能拾取360度全方位的音频信息，打破单个麦克风因自身特性存在指向性，不能收集360度全向声音的问题，达到360度全方向收集声音的效果，在每个方向上都能完美收音，任何角度的人员的声音信息均能够被收集。采集后的音频信息可以通过有线或者无线等方式获取，无线可以通过蓝牙、BLE、WiFi、2G\3G\4G等方式获取。本实施例中的异常情况可以为网络断开，也可以为服务器卡机等其他异常情况，发生异常情况的时刻定义为异常时刻。

在现有技术中，以往的录音设备的音频时间是根据音频信息的接收时间来确定的。但是，在发生断网等异常情况时，由于设备需要重新连接网络，连接后重新获取的音频信息的接收时间与音频信息的实际发生时间不一致，会有很大的时间误差，这样每次连接的提交的数据，产生的文字时间戳都是相对于当前连接时间的，与实际录音时间不一致，即断网后，相当于重新开始一段新的录音，而实际上，断网前后的录音过程是连续的，并没有发生重新录音这个过程。因此这样就导致断网后的音频信息的时间戳不准确，整个过程中音频信息的时间缺乏连续性。而本发明实施例，在实时录音听写的过程中，当异常情况发生时，能够根据异常前后的音频信息对音频信息的时间进行修正，每次自动追加从麦克风获取到的音频数据，使整个过程的音频信息的时间戳保持连续性，整个过程的录音数据始终是拼接连续的，不会在发生异常情况后，重新生成一个新的录音文件。

为了方便描述，本申请中将异常时刻前的音频定义为第一音频信息，异常时刻后最近一次的音频定义为第二音频信息，即第一音频信息为异常情况发生之前最后一次获取的音频数据，第二音频信息为异常情况发生之后最近一次获取的音频数据。在录音过程中，如果发生异常情况，则录音设备会进行两次上传，异常情况之前上传一次，异常情况之后上传一次，服务器异常情况之前接收到的第一次上传的文件为第一音频信息，异常情况之后接收到的第二次上传的文件为第二音频信息。

步骤S200，根据所述第一音频信息和第二音频信息对所述第二音频信息的时间进行计算，确定所述第二音频信息正确的时间戳；

在获取第一音频信息和第二音频信息之后，可以根据第一音频信息的大小和第一音频信息的接收时间，计算出第二音频信息的时间，即录音过程中，第二音频信息发生的实际时间，获得第二音频信息正确的时间戳。

步骤S300，根据所述时间戳对所述第二音频信息进行校正，获得包括连续时间戳的第三音频信息。

根据第二音频信息正确的时间戳对第二音频信息的时间进行校正，即校正网络重新连接后第二音频信息的接收时间，将网络重新连接后第二音频信息的接收时间替换为计算出来的第二音频信息正确的时间，使整个录音过程的时间保持连续，没有中断。时间校正连接后的音频信息为第三音频信息，第三音频信息包括第一音频信息和第二音频信息，且时间戳连续。

进一步地，为了提高录音的实时性，读取音频数据和发送音频数据可以采取限定较快频率的并发处理，做到一边传输，一边实时转写。音频采样实时性：麦克风每秒中采集16000次，每次采样16bit，标准单声道PCM数据。传输实时性：在网络通讯正常情况下，设备传输数据到服务执行20ms～100ms。文字识别实时性：服务端每次接收的PCM数据，识别时间控制在30ms～200ms，并且如果文字结果有修改，每300m返回一次识别结果。文字结果呈现实时性：第一句话的文字显示在正常网络通讯下，耗时100ms，此后每300ms调整一次识别结果。这样，设备或者服务器按照固定采样频率采集音频，以较高的传输频率传输音频数据，有数据读取到马上发送，发送之后，语音识别引擎立即处理，处理后返回给设备，从而达到实时效果，提高设备录音效果的实时性。

请参阅图3，图3为本发明语音的处理方法第二实施例的流程示意图。

基于上述实施例，本实施例中，步骤S200包括：

步骤S210，确定所述第一音频信息的起始时间信息和音频数据大小；

本发明实施例为根据所述第一音频信息和第二音频信息对所述第二音频信息的时间进行计算，确定所述第二音频信息正确的时间戳的细化过程。在获取第一音频信息后，根据第一音频信息确定第一音频信息的起始时间信息和音频数据大小。起始时间为第一音频信息的开始时间，可以为第一音频信息的接收时间。音频数据大小为第一音频信息的整个音频信息的音频数据大小。

步骤S220，根据所述音频数据大小利用第一公式计算出所述第二音频信息的偏移时间；

根据第一音频数据的音频数据大小可以利用公式计算出第二音频信息相对于第一音频信息由于断网等原因造成的偏移时间。该公式可以为：

T₁＝(Q*8.0)/(S*M*N)*1000，

根据该公式，Q第一音频信息的音频数据大小，S采样率，M每次采样位数，N通道数都是已知的，因此可以利用该公式对第一音频信息的音频数据大小计算出第一音频信息的录音时长，从而得到第二音频信息相对于第一音频信息的偏移时间。

步骤S230，根据所述偏移时间和所述起始时间信息利用第二公式进行计算，得到所述第二音频信息正确的时间戳。

根据第二音频信息相对于第一音频信息的偏移时间和第一音频信息的起始时间，就可以根据公式计算出第二音频信息正确的时间戳。该公式为：

T＝T₂+T₁，

将第一音频信息的起始时间加上第二音频信息相对于第一音频信息的偏移时间就可以得到第二音频信息的正确的时间戳，进而可以根据该正确的时间戳对第二音频信息进行时间校正，使第二音频信息的时间与实际时间一致，异常前后的整个录音过程的时间戳连续，不间断。

例如：录音过程：0～1秒：天气不错；2～3秒：是啊，我们出去玩吧。一般的录音设备或App，断网之后，每次文字的时间戳都是相对于最近一次连接成功时间，比如上面例子，假如在1～2秒期间断网，然后在第2秒末连接上了，得到的是两次结果：第一次结果：0～1秒：天气不错，第二次结果：0～1秒：是啊，我们出去玩吧。这样，断网后，第二次结果的时间就相当于重新开始的时间，与实际时间是不相符的，第二次结果的时间戳就不正确了，同时，录音也是断开了，分成了两次录音。而本发明能够根据异常前后的音频大小确定正常的时间，将音频信息进行拼接，使时间戳连续。就是利用公式计算出第二次连接后的偏移时间，根据偏移时间进行修正，就本次例子而言，第二次连接的时间戳可以把上面例子0～1的范围纠正为(0+2)～(1+2)就是：第二次结果：(0+2秒)～(1+2秒)：是啊，我们出去玩吧。(2秒～3秒范围，纠正之后，把第二次的结果追加到第一次结果上。既保证了文字结果连续性、时间戳正确性，又保证了文字时间戳跟录音进度保持同步。

请参阅图4，图4为本发明语音的处理方法第三实施例的流程示意图。

基于上述实施例，本实施例还包括如下步骤：

步骤S400，对所述第三音频信息进行语音转换，获得包括连续时间戳的文字信息。

在本实施例中，获得第三音频信息后，对第三音频信息进行语音转换，将第三音频信息转换为文字信息。因为第三音频信息为时间戳连续的音频信息，因此转换后的文字信息也是时间戳也是连续的，即转换后得到的是连续时间戳的文字信息。

但是，目前市面上的录音转写设备都只支持先设备录音，再将录音音频上传至网络，移动终端通过网络下载录音文件后再进行录音转写，从未使用户获得录音转写后的文字信息。但是这种方式过程繁琐，需要在手机上安装录音转写的相关软件程序，同时也无法达到实时转写的功能，即一边录音一边同步转写的文字结果，同时转写文字间的时间戳与语音中的时间戳相同。一般的APP或者录音设备，讲着话断网了，就看不到断网后讲的文字了，而我们设备是断线之后，会自动连接服务，使整个过程继续，保证断网过程中，人还在说话，录音数据不会丢失。“拼接”是指录音拼接、文字结果拼接。本申请可以不依赖于电脑或手机或来实现，做到实时录音的效果，即一边录音一边实时转写文字结果，同时，文字结果的时间戳保证是连续，不间断的。

请参阅图5，图5为本发明语音的处理方法第四实施例的流程示意图。

基于上述实施例，本实施例中，步骤S400包括：

步骤S410，根据所述第三音频信息确定所述第三音频信息的语言类型；

本实施例中，可以根据第三音频信息先确定第三音频信息的语言类型，如中文，英语，韩语等。通过语音识别，先识别出第三音频信息的语言类型。

步骤S420，根据所述语言类型对所述第三音频信息进行语音转换，获得包括连续时间戳的文字信息。

按照识别出来的第三音频信息的语言类型对第三音频信息进行语音转换，得到相对应的语言类型的文字信息。也可以根据用户要求，将文字信息转换为用户设定的语言类型的文字信息。通过预先设置多个语言类型，使本实施例能支持多种语言，扩大语言识别的识别范围。

请参阅图6，图6为本发明语音的处理方法第五实施例的流程示意图。

基于上述实施例，本实施例中还包括如下步骤：

步骤S500，将所述包括连续时间戳的文字信息发送到移动终端，以使得移动终端同步所述包括连续时间戳的文字信息。

本发明实施例中，获得包含连续时间戳的文字信息后，将文字信息发送给移动终端，使得移动终端同步展示该文字信息。该移动终端可以为手机、平板、IPAD等设备。通过同步文字信息的方式，可以使得用户无需安装语音识别客户端，简化操作。同时使得语音转换过程可以脱离手机或者其他移动终端设备，不需用户在移动设备上下载APP进行语音转换，达到过程的便捷性。本发明能够通过将语音识别出的文字实时同步到手机或PC端，由APP或网页展示出来，同时也可以把录音和文字保存到设备本地，方便用户回放和阅读。

请参阅图7，图7为本发明语音的处理方法第六实施例的流程示意图。

基于上述实施例，本实施例中还包括如下步骤：

步骤S600，根据所述文字信息获得所述文字信息对应的角色信息；

本实施例中，可以根据文字信息获得文字信息对应的角色信息，如某段文字对应说话的角色人物，将文字信息与角色信息一一对应，获取文字信息与角色信息的对应关系。该角色信息可以为角色标号如1、2、3等，也可以为角色的实际姓名或昵称等。

步骤S700，将所述角色信息与所述包括连续时间戳的文字信息进行关联显示。

在获得文字信息和与文字信息对应的角色信息之后，将角色信息与包含连续时间戳的文字信息进行关联保存，进而使得文字信息和角色信息都能进行同步展示，使展示效果更加直观有效。

此外，本发明实施例还提出一种计算机可读存储介质。

本发明计算机可读存储介质上存储有语音的处理程序，所述语音的处理程序被处理器执行时实现如上所述的语音的处理方法的步骤。

其中，在所述处理器上运行的语音的处理程序被执行时所实现的方法可参照本发明语音的处理方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音的处理方法，其特征在于，所述语音的处理方法包括以下步骤：

确定所述第一音频信息的起始时间信息和音频数据大小；

所述第一公式为：

T₁＝(Q*8.0)/(S*M*N)*1000，

其中T₁为偏移时间，Q为第一音频信息的音频数据大小，S为采样率，M为每次采样位数，N为通道数；

根据所述偏移时间和所述起始时间信息利用第二公式进行计算，得到所述第二音频信息正确的时间戳；

根据所述时间戳对所述第二音频信息进行校正，获得包括连续时间戳的第三音频信息；

2.如权利要求1所述的语音的处理方法，其特征在于，所述第二公式为：

T＝T₂+T₁，

3.如权利要求1所述的语音的处理方法，其特征在于，所述对所述第三音频信息进行语音转换，获得包括连续时间戳的文字信息的步骤包括：

根据所述第三音频信息确定所述第三音频信息的语言类型；

4.如权利要求1所述的语音的处理方法，其特征在于，所述语音的处理方法还包括以下步骤：

5.如权利要求1所述的语音的处理方法，其特征在于，所述语音的处理方法还包括以下步骤：

根据所述文字信息获得所述文字信息对应的角色信息；

6.一种语音的处理装置，其特征在于，所述语音的处理装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音的处理程序，所述语音的处理程序被所述处理器执行时实现如权利要求1至5中任一项所述语音的处理方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音的处理程序，所述语音的处理程序被处理器执行时实现如权利要求1至5中任一项所述语音的处理方法的步骤。