CN114999464A - 语音数据处理方法及装置 - Google Patents
语音数据处理方法及装置 Download PDFInfo
- Publication number
- CN114999464A CN114999464A CN202210578264.XA CN202210578264A CN114999464A CN 114999464 A CN114999464 A CN 114999464A CN 202210578264 A CN202210578264 A CN 202210578264A CN 114999464 A CN114999464 A CN 114999464A
- Authority
- CN
- China
- Prior art keywords
- audio data
- data
- original audio
- voice
- time schedule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 230000011218 segmentation Effects 0.000 claims abstract description 7
- 239000003550 marker Substances 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 61
- 230000008569 process Effects 0.000 claims description 23
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 230000008719 thickening Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004040 coloring Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000004043 dyeing Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种语音数据处理方法及装置,属于语音处理技术领域。语音数据处理方法包括:获取原始音频数据;接收针对所述原始音频数据的第一时间进度的第一标记指令;接收针对所述原始音频数据的第二时间进度的第二标记指令,所述第二时间进度晚于所述第一时间进度;存储所述第一时间进度、所述第二时间进度和所述原始音频数据。本公开的技术方案能够实现语音分段。
Description
技术领域
本公开涉及语音处理技术领域,特别是指一种语音数据处理方法及装置。
背景技术
目前语音输入得到普遍使用,特别是开会时通过语音转文字可以快捷省事完成会议全程录音并实时生成文字纪录。但目前语音转文字受环境和说话人发音等多重因素的影响,并不能达到100%的准确率,会后还需要人为对生成的文字进行校正。相关技术中需要把录音从头到尾听一遍进行校正,耗费时间长,效率低,用户体验不好。
发明内容
本公开要解决的技术问题是提供一种语音数据处理方法及装置,能够提高对录音文本进行校正的效率,改善用户体验。
为解决上述技术问题,本公开的实施例提供技术方案如下:
一方面,提供一种语音数据处理方法,包括:
获取原始音频数据;
接收针对所述原始音频数据的第一时间进度的第一标记指令;
接收针对所述原始音频数据的第二时间进度的第二标记指令,所述第二时间进度晚于所述第一时间进度;
存储所述第一时间进度、所述第二时间进度和所述原始音频数据。
一些实施例中,存储所述第一时间进度、所述第二时间进度和所述原始音频数据之后,所述方法还包括:
将所述第一时间进度和所述第二时间进度之间的所述原始音频数据作为目标音频数据,对所述目标音频数据进行标记处理。
一些实施例中,存储所述第一时间进度、所述第二时间进度和所述原始音频数据之后,所述方法还包括:
对所述第一时间进度和所述第二时间进度之间的原始音频数据进行语音识别,得到分段文本数据。
一些实施例中,获取原始音频数据之后,所述方法还包括:
对所述原始音频数据进行语音识别,得到第一文本数据;
接收针对所述原始音频数据的第一时间进度的第一标记指令之后,所述方法还包括:
从第一起始位置开始对所述第一文本数据进行标记处理,所述第一起始位置与所述第一时间进度对应;
接收针对所述原始音频数据的第二时间进度的第二标记指令之后,所述方法还包括:
从第一结束位置停止对所述第一文本数据进行标记处理,所述第一结束位置与所述第二时间进度对应;
存储进行标记处理后的所述第一文本数据。
一些实施例中,存储进行标记处理后的所述第一文本数据之后,所述方法还包括:
接收针对所述第一文本数据的第二位置的处理指令,所述第二位置位于所述第一起始位置和所述第一结束位置之间;
对所述第一时间进度和所述第二时间进度之间的所述原始音频数据进行语音识别,根据语音识别结果对所述第一文本数据进行校正,得到第二文本数据。
一些实施例中,对所述第一时间进度和所述第二时间进度之间的所述原始音频数据进行语音识别包括:
对所述第一时间进度和所述第二时间进度之间的所述原始音频数据进行循环播放;
利用语音识别引擎对所述第一时间进度和所述第二时间进度之间的所述原始音频数据进行语音识别,得到语音识别结果。
一些实施例中,所述根据语音识别结果对所述第一文本数据进行校正包括:
截取出所述第一文本数据的第一部分和第二部分,所述第一部分位于所述第一起始位置和所述第一结束位置之间,所述第二部分位于所述第一起始位置和所述第一结束位置之外;
比对所述第一部分与所述语音识别结果,若所述第一部分与所述语音识别结果不一致,利用所述语音识别结果替换所述第一部分,得到包括所述语音识别结果和所述第二部分的第二文本数据。
一些实施例中,对所述原始音频数据进行语音识别包括:
基于FFMPEG工具将所述原始音频数据的原始音频格式转换为目标音频格式;
对所述目标音频格式下的所述原始音频数据进行切分处理,得到目标语音数据;
将所述目标语音数据输入至语音识别引擎。
一些实施例中,所述方法还包括:
接收用户输入的语音搜索指令;
对所述语音搜索指令进行语音识别,将所述语音搜索指令转换为搜索关键词;
在所述第一文本数据中查找所述搜索关键词,并对所述搜索关键词所在位置进行标记处理。
一些实施例中,所述方法还包括:
接收用户输入的错别字识别指令;
根据词库和上下文语意识别算法识别所述第一文本数据中的错别字,并对所述错别字进行标记处理。
一些实施例中,对所述第一文本数据进行标记处理包括:
采用第一颜色标记所述第一文本数据,所述第一颜色不同于黑色;和/或
对所述第一文本数据中的文字进行加粗。
本公开的实施例还提供了一种语音数据处理装置,包括:
获取模块,用于获取原始音频数据;
第一接收模块,用于接收针对所述原始音频数据的第一时间进度的第一标记指令;
第二接收模块,用于接收针对所述原始音频数据的第二时间进度的第二标记指令,所述第二时间进度晚于所述第一时间进度;
存储模块,用于存储所述第一时间进度、所述第二时间进度和所述原始音频数据。
一些实施例中,所述装置还包括:
标记处理模块,用于将所述第一时间进度和所述第二时间进度之间的所述原始音频数据作为目标音频数据,对所述目标音频数据进行标记处理。
一些实施例中,所述装置还包括:
语音识别模块,用于对所述第一时间进度和所述第二时间进度之间的原始音频数据进行语音识别,得到分段文本数据。
一些实施例中,所述装置还包括:
语音识别模块,用于对所述原始音频数据进行语音识别,得到第一文本数据;
标记处理模块,用于从第一起始位置开始对所述第一文本数据进行标记处理,所述第一起始位置与所述第一时间进度对应;从第一结束位置停止对所述第一文本数据进行标记处理,所述第一结束位置与所述第二时间进度对应;
所述存储模块用于存储进行标记处理后的所述第一文本数据。
一些实施例中,所述装置还包括:
第三接收模块,用于接收针对所述第一文本数据的第二位置的处理指令,所述第二位置位于所述第一起始位置和所述第一结束位置之间;
第二处理模块,用于对所述第一时间进度和所述第二时间进度之间的所述原始音频数据进行语音识别,根据语音识别结果对所述第一文本数据进行校正,得到第二文本数据。
一些实施例中,所述语音识别模块具体用于对所述第一时间进度和所述第二时间进度之间的所述原始音频数据进行循环播放;利用语音识别引擎对所述第一时间进度和所述第二时间进度之间的所述原始音频数据进行语音识别,得到语音识别结果。
一些实施例中,所述第二处理模块包括:
截取子模块,用于截取出所述第一文本数据的第一部分和第二部分,所述第一部分位于所述第一起始位置和所述第一结束位置之间,所述第二部分位于所述第一起始位置和所述第一结束位置之外;
比对子模块,用于比对所述第一部分与所述语音识别结果,若所述第一部分与所述语音识别结果不一致,利用所述语音识别结果替换所述第一部分,得到包括所述语音识别结果和所述第二部分的第二文本数据。
一些实施例中,所述语音识别模块包括:
转换子模块,用于基于FFMPEG工具将所述原始音频数据的原始音频格式转换为目标音频格式;
切分子模块,用于对所述目标音频格式下的所述原始音频数据进行切分处理,得到目标语音数据;
处理子模块,用于将所述目标语音数据输入至语音识别引擎。
一些实施例中,所述装置还包括:
语音搜索模块,用于接收用户输入的语音搜索指令;对所述语音搜索指令进行语音识别,将所述语音搜索指令转换为搜索关键词;在所述第一文本数据中查找所述搜索关键词,并对所述搜索关键词所在位置进行标记处理。
一些实施例中,所述装置还包括:
错别字识别模块,用于接收用户输入的错别字识别指令;根据词库和上下文语意识别算法识别所述第一文本数据中的错别字,并对所述错别字进行标记处理。
本公开的实施例还提供了一种语音数据处理装置,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如上所述的语音数据处理方法的步骤。
本公开的实施例还提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如上所述的语音数据处理方法的步骤。
本公开的实施例具有以下有益效果:
上述方案中,获取原始音频数据后,接收针对原始音频数据的不同时间进度的标记指令,并根据标记指令存储原始音频数据,这样根据记录的不同时间进度可以实现对语音的分段。
附图说明
图1为本公开实施例语音数据处理方法的流程示意图;
图2为本公开实施例电子设备的组成示意图;
图3为本公开实施例语音数据处理装置的结构框图;
图4为本公开实施例第二处理模块的结构框图;
图5为本公开实施例语音识别模块的结构框图;
图6为本公开实施例语音数据处理装置的组成示意图。
具体实施方式
为使本公开的实施例要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本公开实施例提供一种语音数据处理方法及装置,能够实现对语音的分段。
本公开的实施例提供一种语音数据处理方法,如图1所示,包括:
步骤101:获取原始音频数据;
本实施例的技术方案应用于电子设备中,该电子设备能够与用户进行人机交互,如图2所示,该电子设备包含语音录制系统、语音转文字系统、计时器系统、文字样式系统、语音数据操作系统、语音播放系统等。电子设备可以通过网络与后台服务器之间进行交互。
可选地,在本实施例中,上述电子设备可以是配置有目标客户端和/或目标服务端的终端设备,上述终端设备可以是麦克风或麦克风阵列,也可以是配置有麦克风的终端设备,上述电子设备可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。目标服务端可以是视频服务端、即时通信服务端、浏览器服务端、教育服务端等。上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述服务端可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。上述仅是一种示例,本实施例中对此不作任何限定。
本实施例中,可以通过麦克风或麦克风阵列录音来获取原始音频数据。原始音频数据可以为录音终端获取到的各种音频格式的数据文件,包括但不限于:ACT、REC、MP3、WAV、WMA、VY1、VY2、DVF、MSC、AIFF等格式;原始音频数据也可以是脉冲编码调制(PulseCode Modulation,PCM)音频流数据。
电子设备可以在操作界面上显示录音按钮,用户点击录音按钮开始录音,语音录制系统开始工作,并在子线程中通过AudioRecord和AudioChunk不断循环收集音频数据,并将收集的音频数据传递给语音转文字系统,以便语音转文字系统将音频数据转化成文字。其中,所述AudioRecord为android媒体录音工具;所述AudioChunk为自定义数据盒子,包含一个byte数组并提供byte数组转化成short数组功能;所述byte数组用于接收AudioRecord返回的音频数据。
步骤102:接收针对所述原始音频数据的第一时间进度的第一标记指令;
步骤103:接收针对所述原始音频数据的第二时间进度的第二标记指令,所述第二时间进度晚于所述第一时间进度;
本实施例中,计时器系统用于记录音频数据录制和播放时的时间进度。其中,原始音频数据的录制时间进度与播放时间进度相对应。
在录制过程中,计时器系统可以记录各个时间节点,包括录制的总时长、进行标记处理的起始时间点(即第一时间进度)和结束时间点(即第二时间进度),其中,第一时间进度与第二时间进度成对出现,第一时间进度的数量可以为一个或多个,每一对第一时间进度和第二时间进度之间的原始音频数据为需要重点关注的原始音频数据。其中,第一时间进度可以是整个原始音频数据的起始时间点,也可以是原始音频数据中间的某个时间点;第二时间进度可以是整个原始音频数据的结束时间点,也可以是原始音频数据中间的某个时间点。
步骤104:存储所述第一时间进度、所述第二时间进度和所述原始音频数据。
通过第一时间进度和第二时间进度可以确定一段语音,根据第一时间进度和第二时间进度可以对语音进行分段,其中,第一时间进度为分段后的语音的起始时间点,第二时间进度为分段后的语音的结束时间点。在原始音频数据包括多组第一时间进度和第二时间进度时,可以将原始音频数据分为多段语音。
录音开始时,计时器系统获取电子设备当前时间毫秒值作为语音的起始时间点,然后可以通过android制定定时任务工具Timer每隔一毫秒更新一次语音的结束时间点和语音时长。
一些实施例中,存储所述第一时间进度、所述第二时间进度和所述原始音频数据之后,所述方法还包括:
将所述第一时间进度和所述第二时间进度之间的所述原始音频数据作为目标音频数据,对所述目标音频数据进行标记处理。
第一时间进度和第二时间进度之间的原始音频数据为需要重点关注的原始音频数据,为了方便用户快速确定第一时间进度和第二时间进度之间的原始音频数据,可以将所述第一时间进度和所述第二时间进度之间的所述原始音频数据作为目标音频数据,对所述目标音频数据进行标记处理。一具体示例中,可以在原始音频数据对应的播放进度条中标识出成对的第一时间进度和第二时间进度,或者,可以采用专门的显示界面显示成对的第一时间进度和第二时间进度的信息。比如,第一时间进度为38秒,第二时间进度为58秒,则可以在原始音频数据对应的播放进度条中对38秒和58秒这两个时间点进行打标,用户可以通过标记出的38秒和58秒这两个时间点确定需要重点关注的原始音频数据;或者,在原始音频数据对应的显示界面显示38秒和58秒这两个时间点,用户可以通过记录的38秒和58秒这两个时间点确定需要重点关注的原始音频数据。或者,直接截取出第一时间进度和第二时间进度之间的目标音频数据,存储在特定区域中。
由于第一时间进度和第二时间进度之间的原始音频数据为需要重点关注的原始音频数据,因此,可以仅对第一时间进度、所述第二时间进度之间的原始音频数据进行语音识别,得到分段文本数据,这样可以降低语音识别的工作量,并且可以保证用户获取到需要注意的重点内容。
当然,本实施例中,还可以对全部原始音频数据进行语音识别。一些实施例中,获取原始音频数据之后,所述方法还包括:
对所述原始音频数据进行语音识别,得到第一文本数据;
本实施例中,语音转文字系统用于转化原始音频数据成文字,实际应用时,原始音频数据可以通过自动语音识别技术(Automatic Speech Recognition,ASR)中的语音识别引擎将原始音频数据转换为第一文本数据,ASR是一种将人的语音转换为文本的技术,其目标是让计算机能够“听写”出不同人所说出的连续语音,也称之为“语音听写机”,是实现“声音”到“文字”转换的技术。在本实施例中,语音识别引擎可以为谷歌语音识别引擎、微软语音识别引擎或科大讯飞的语音识别引擎,在此不作限定,通过语音识别引擎可以将原始音频数据中的语音片段转换为文字信息。
具体地,可以基于FFMPEG工具将所述原始音频数据的原始音频格式转换为目标音频格式;对所述目标音频格式下的所述原始音频数据进行切分处理,得到目标语音数据;将所述目标语音数据输入至语音识别引擎,得到所述第一文本数据。例如,基于FFMPEG工具将原始音频数据从PCM格式转换为MP3格式,将该MP3格式的原始音频数据进行切分,得到包含语音片段的目标语音数据,也就是说该MP3格式的原始音频数据中可以只保留包含人声的音频片段。将原始音频数据转换为MP3格式,方便用户对原始音频数据进行切分及保存。
一些实施例中,语音转文字系统还可以是基于深度学习Transformer模型的流式语音识别系统,该流式语音识别系统支持边录边转,即在录音的同时将音频数据转换为文本数据,也支持直接识别已有的音频数据。
在接收针对所述原始音频数据的第一时间进度的第一标记指令之后,记录此时所述原始音频数据的第一时间进度,同时从所述第一起始位置开始对所述第一文本数据进行标记处理,所述第一起始位置与所述第一时间进度对应;
接收针对所述原始音频数据的第二时间进度的第二标记指令之后,记录此时所述原始音频数据的第二时间进度,同时从第一结束位置停止对所述第一文本数据进行标记处理,所述第一结束位置与所述第二时间进度对应;
本实施例中,计时器系统用于记录音频数据录制和播放时的时间进度。其中,原始音频数据的录制时间进度与播放时间进度相对应。文字样式系统用于录音和播放时对第一文本数据的内容进行标记处理,包括:采用第一颜色标记所述第一文本数据,所述第一颜色不同于黑色;和/或,对所述第一文本数据中的文字进行加粗,这样用户很容易从第一文本数据中识别出需要注意的内容。
在录制过程中,计时器系统在原始音频数据转换为第一文本数据的整个过程中,记录各个时间节点,包括录制的总时长、进行标记处理的起始时间点(即第一时间进度)和结束时间点(即第二时间进度),其中,第一时间进度与第二时间进度成对出现,第一时间进度的数量可以为一个或多个,每一对第一时间进度和第二时间进度之间的原始音频数据为需要重点关注的原始音频数据,也就是需要校正的文本对应的原始音频数据。同时,第一时间进度与第一起始位置一一对应,第一时间进度对应的原始音频数据转换为文本后,在第一文本数据中的位置是第一起始位置;第二时间进度与第一结束位置一一对应,第二时间进度对应的原始音频数据转换为文本后,在第一文本数据中的位置是第一结束位置。
录音开始时,计时器系统获取电子设备当前时间毫秒值作为语音的起始时间点,然后可以通过android制定定时任务工具Timer每隔一毫秒更新一次语音的结束时间点和语音时长。
具体地,电子设备可以在通过麦克风或麦克风阵列录音获取原始音频数据时,通过操作界面向用户实时展示与原始音频数据对应的第一文本数据,在用户第2k-1次点击或选中第一文本数据的内容时,记录该内容在第一文本数据中的位置为第一起始位置,第2k次点击或选中第一文本数据的内容时,记录该内容在第一文本数据中的位置为第一结束位置,对第一起始位置和第一结束位置之间的第一文本数据进行标记处理,k为正整数。比如,在用户第3次点击或选中第一文本数据中的“那么”时,记录“那么”所在位置为第一起始位置,在用户第4次点击或选中第一文本数据中的“写字板”时,记录“写字板”所在位置为第一结束位置,对“那么”到“写字板”之间的文本“那么,既有写字板”进行标记处理,比如加粗和/或染色。在用户第7次点击或选中第一文本数据中的“很好”时,记录“很好”所在位置为第一起始位置,在用户第8次点击或选中第一文本数据中的“规划”时,记录“规划”所在位置为第一结束位置,对“很好”到“规划”之间的文本“很好的规划”进行标记处理,比如加粗和/或染色。
本实施例中,文字样式系统用于对第一文本数据进行标记,比如染色加粗等,记录标记内容在语音内容中的位置,同步标记内容时间点等。所述语音内容为语音转文字系统返回的整段语音字符串文字;所述标记内容为开始标记到结束标记时间段内,语音转文字系统返回的标记的字符串文字。所述标记内容的起始位和结束位是标记内容在语音内容中位置,通常字符串通过角标确定。
之后,存储进行标记处理后的所述第一文本数据、所述第一起始位置、所述第一结束位置、所述第一时间进度、所述第二时间进度和所述原始音频数据。
本实施例中,语音数据操作系统用于存储进行标记处理后的所述第一文本数据、所述第一起始位置、所述第一结束位置、所述第一时间进度、所述第二时间进度和所述原始音频数据。语音数据操作系统包含一个数据库,语音数据操作系统保存每个原始音频数据的音频文件索性、语音内容、语音时长、所有标记数据、语音内容每个文字在语音中的位置等。所述音频文件索引为音频文件的保存路径;所述标记数据为每个标记的标记内容,标记位和标记时间点,所述文字在语音中的位置为该文字对应语音中的时间进度。
本实施例中,在将原始音频数据转换为第一文本数据时,可以对其中的错误文字或重点内容进行标记处理,存储标记处理后的第一文本数据,并且存储原始音频数据对应的时间进度,这样后续在对第一文本数据进行校对时,通过选择进行标记处理后的文本,可以根据对应的时间进度快速同步到对应的原始音频数据处,方便用户对标记处理后的文本进行校正或做其他处理,能够避免用户从头到尾再听一遍原始音频数据,能够提高对录音文本进行校正的效率,改善用户体验。
一些实施例中,存储进行标记处理后的所述第一文本数据、所述第一起始位置、所述第一结束位置、所述第一时间进度、所述第二时间进度和所述原始音频数据之后,在需要对第一文本数据进行校正时,所述方法还包括:
接收针对所述第一文本数据的第二位置的处理指令,所述第二位置位于所述第一起始位置和所述第一结束位置之间;
本实施例中,在需要对第一文本数据进行校正时,利用语音播放系统播放已录制的原始音频数据,同时在操作界面向用户实时展示与原始音频数据对应的第一文本数据,第一文本数据包括第一部分和第二部分,其中,第一部分位于每对的第一起始位置和第一结束位置之间,为需要重点关注的内容,已经进行标记处理;所述第二部分位于所述第一起始位置和所述第一结束位置之外,为未经过标记处理的内容。其中,第一部分为可能存在语音转换文字错误的部分,第二部分为不太可能出现错误的部分,因此,在对第一文本数据进行校正时,为了提高效率,仅需要对第一部分进行校正即可。
用户可以随意点击或者选中位于第一起始位置和第一结束位置之间的第二位置,则视为接收到针对第二位置的处理指令,需要对所述第一起始位置和所述第一结束位置之间的第一文本数据进行校正。在用户点击或者选中位于第一起始位置和第一结束位置之间任一位置时,都视为需要对所述第一起始位置和所述第一结束位置之间的第一文本数据进行校正。
可以根据预先存储的与第一起始位置对应的第一时间进度、与第一结束位置对应的第二时间进度,快速定位到原始音频数据的相应位置,重新播放所述第一时间进度和所述第二时间进度之间的所述原始音频数据,具体地,在未接收到针对下一第二位置的处理指令之前,可以对所述第一时间进度和所述第二时间进度之间的所述原始音频数据进行循环播放,即从第一时间进度开始播放所述原始音频数据,到第二时间进度停止播放所述原始音频数据,然后回到第一时间进度重新开始播放所述原始音频数据;当然,也可以在播放预设次数后停止播放,比如播放一次或两次后即停止播放所述原始音频数据。
利用语音识别引擎对所述第一时间进度和所述第二时间进度之间的所述原始音频数据进行语音识别,得到语音识别结果,比如对38秒和1分12秒之间的原始音频数据进行语音识别,得到语音识别结果“那么,既有写字板又为何要用记事本”;
截取出所述第一文本数据的第一部分和第二部分,所述第一部分位于所述第一起始位置和所述第一结束位置之间,所述第二部分位于所述第一起始位置和所述第一结束位置之外,比如第一部分为“那么,既有写字板又为何要记事本”;
比对所述第一部分与所述语音识别结果,若所述第一部分与所述语音识别结果不一致,利用所述语音识别结果替换所述第一部分,得到包括所述第一部分和所述第二部分的第二文本数据。
当原始音频数据经过语音识别引擎得到的语音识别结果与第一部分相比差别较大时,可以将原始音频数据输入至语音识别引擎进行多次语音识别,得到语音识别结果,以提高语音识别的精度。在第一部分与所述语音识别结果不一致时,可以利用所述语音识别结果替换所述第一部分,或者,对第一部分进行修改以使第一部分与语音识别结果一致,来对第一文本数据进行校正,得到校正后的第二文本数据。比如,可以利用语音识别结果“那么,既有写字板又为何要用记事本”替换第一部分“那么,既有写字板又为何要记事本”。
一些实施例中,得到第二文本数据之后,所述方法还包括:
存储所述第二文本数据、所述第一时间进度、所述第二时间进度和所述原始音频数据。
在对第一文本数据进行校正后,语音数据操作系统保存校正后得到的第二文本数据。本实施例中,由于在对第一文本数据进行校正时,仅需要重新播放第一时间进度和第二时间进度之间的原始音频数据,因此可以大大提高对语音文件进行校正的效率。
本实施例中,可以利用上述方案实现对第一文本数据的校正,另外,还可以向用户播放第一时间进度和第二时间进度之间的原始音频数据,由用户在收听原始音频数据之后,手动对第一文本数据进行校正,得到第二文本数据。
另外,本实施例在结束语音录制后,还可以进行语音搜索,所述方法还包括:
接收用户输入的语音搜索指令;
对所述语音搜索指令进行语音识别,将所述语音搜索指令转换为搜索关键词;
在所述第一文本数据中查找所述搜索关键词,并对所述搜索关键词所在位置进行标记处理。
具体地,可以在电子设备的操作界面上显示语音搜索按钮,若用户点击语音搜索按钮后输入语音,视为接收到用户输入的语音搜索指令,语音录制系统开始录音,并把录制的语音数据传递给语音转文字系统进行处理,将所述语音搜索指令转换为搜索关键词。其中,在用户点击语音搜索按钮的过程中,用户输入的语音均视为语音搜索指令。文字样式系统收到搜索关键词后,在第一文本数据中查找所述搜索关键词,并对所述搜索关键词所在位置进行标记处理,比如对搜索关键词所在位置进行高亮显示。在用户点击高亮位置处的第一文本数据时,还可以播放对应的原始音频数据,从高亮位置的起始位置开始播放直至高亮位置的结束位置停止播放。通过本实施例的技术方案,可以方便用户从文本数据和音频数据中找到需要的内容。
另外,本实施例在结束语音录制后,还可以进行错别字识别,所述方法还包括:
接收用户输入的错别字识别指令;
根据词库和上下文语意识别算法识别所述第一文本数据中的错别字,并对所述错别字进行标记处理。
具体地,可以在电子设备的操作界面上显示错别字识别按钮,若用户点击错别字识别按钮,视为接收到用户输入的错别字识别指令,可以根据词库和上下文语意识别算法识别所述第一文本数据中的错别字,并对所述错别字进行标记处理,比如对错别字高亮显示,以提醒用户,用户可以对错别字进行修改,以提高文本数据的准确性。
本公开的实施例还提供了一种语音数据处理装置,如图3所示,包括:
获取模块21,用于获取原始音频数据;
本实施例的技术方案应用于电子设备中,该电子设备能够与用户进行人机交互,如图2所示,该电子设备包含语音录制系统、语音转文字系统、计时器系统、文字样式系统、语音数据操作系统、语音播放系统等。电子设备可以通过网络与后台服务器之间进行交互。
可选地,在本实施例中,上述电子设备可以是配置有目标客户端和/或目标服务端的终端设备,上述终端设备可以是麦克风或麦克风阵列,也可以是配置有麦克风的终端设备,上述电子设备可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。目标服务端可以是视频服务端、即时通信服务端、浏览器服务端、教育服务端等。上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述服务端可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。上述仅是一种示例,本实施例中对此不作任何限定。
本实施例中,可以通过麦克风或麦克风阵列录音来获取原始音频数据。原始音频数据可以为录音终端获取到的各种音频格式的数据文件,包括但不限于:ACT、REC、MP3、WAV、WMA、VY1、VY2、DVF、MSC、AIFF等格式;原始音频数据也可以是脉冲编码调制(PulseCode Modulation,PCM)音频流数据。
电子设备可以在操作界面上显示录音按钮,用户点击录音按钮开始录音,语音录制系统开始工作,并在子线程中通过AudioRecord和AudioChunk不断循环收集音频数据,并将收集的音频数据传递给语音转文字系统,以便语音转文字系统将音频数据转化成文字。其中,所述AudioRecord为android媒体录音工具;所述AudioChunk为自定义数据盒子,包含一个byte数组并提供byte数组转化成short数组功能;所述byte数组用于接收AudioRecord返回的音频数据。
第一接收模块22,用于接收针对所述原始音频数据的第一时间进度的第一标记指令;
第二接收模块23,用于接收针对所述原始音频数据的第二时间进度的第二标记指令,所述第二时间进度晚于所述第一时间进度;
本实施例中,计时器系统用于记录音频数据录制和播放时的时间进度。其中,原始音频数据的录制时间进度与播放时间进度相对应。
在录制过程中,计时器系统可以记录各个时间节点,包括录制的总时长、进行标记处理的起始时间点(即第一时间进度)和结束时间点(即第二时间进度),其中,第一时间进度与第二时间进度成对出现,第一时间进度的数量可以为一个或多个,每一对第一时间进度和第二时间进度之间的原始音频数据为需要重点关注的原始音频数据。其中,第一时间进度可以是整个原始音频数据的起始时间点,也可以是原始音频数据中间的某个时间点;第二时间进度可以是整个原始音频数据的结束时间点,也可以是原始音频数据中间的某个时间点。
存储模块24,用于存储所述第一时间进度、所述第二时间进度和所述原始音频数据。
通过第一时间进度和第二时间进度可以确定一段语音,根据第一时间进度和第二时间进度可以对语音进行分段,其中,第一时间进度为分段后的语音的起始时间点,第二时间进度为分段后的语音的结束时间点。在原始音频数据包括多组第一时间进度和第二时间进度时,可以将原始音频数据分为多段语音。
录音开始时,计时器系统获取电子设备当前时间毫秒值作为语音的起始时间点,然后可以通过android制定定时任务工具Timer每隔一毫秒更新一次语音的结束时间点和语音时长。
一些实施例中,所述装置还包括:
标记处理模块26,用于将所述第一时间进度和所述第二时间进度之间的所述原始音频数据作为目标音频数据,对所述目标音频数据进行标记处理。
第一时间进度和第二时间进度之间的原始音频数据为需要重点关注的原始音频数据,为了方便用户快速确定第一时间进度和第二时间进度之间的原始音频数据,可以将所述第一时间进度和所述第二时间进度之间的所述原始音频数据作为目标音频数据,对所述目标音频数据进行标记处理。一具体示例中,可以在原始音频数据对应的播放进度条中标识出成对的第一时间进度和第二时间进度,或者,可以采用专门的显示界面显示成对的第一时间进度和第二时间进度的信息。比如,第一时间进度为38秒,第二时间进度为58秒,则可以在原始音频数据对应的播放进度条中对38秒和58秒这两个时间点进行打标,用户可以通过标记出的38秒和58秒这两个时间点确定需要重点关注的原始音频数据;或者,在原始音频数据对应的显示界面显示38秒和58秒这两个时间点,用户可以通过记录的38秒和58秒这两个时间点确定需要重点关注的原始音频数据。
一些实施例中,所述装置还包括:
语音识别模块25,用于对所述第一时间进度和所述第二时间进度之间的原始音频数据进行语音识别,得到分段文本数据。
由于第一时间进度和第二时间进度之间的原始音频数据为需要重点关注的原始音频数据,因此,可以仅对第一时间进度、所述第二时间进度之间的原始音频数据进行语音识别,得到分段文本数据,这样可以降低语音识别的工作量,并且可以保证用户获取到需要注意的重点内容。
当然,本实施例中,还可以对全部原始音频数据进行语音识别。一些实施例中,语音识别模块25,用于对所述原始音频数据进行语音识别,得到第一文本数据;标记处理模块26,用于从第一起始位置开始对所述第一文本数据进行标记处理,所述第一起始位置与所述第一时间进度对应;从第一结束位置停止对所述第一文本数据进行标记处理,所述第一结束位置与所述第二时间进度对应;所述存储模块24用于存储进行标记处理后的所述第一文本数据。
本实施例中,语音转文字系统用于转化原始音频数据成文字,实际应用时,原始音频数据可以通过自动语音识别技术(Automatic Speech Recognition,ASR)中的语音识别引擎将原始音频数据转换为第一文本数据,ASR是一种将人的语音转换为文本的技术,其目标是让计算机能够“听写”出不同人所说出的连续语音,也称之为“语音听写机”,是实现“声音”到“文字”转换的技术。在本实施例中,语音识别引擎可以为谷歌语音识别引擎、微软语音识别引擎或科大讯飞的语音识别引擎,在此不作限定,通过语音识别引擎可以将原始音频数据中的语音片段转换为文字信息。
具体地,可以基于FFMPEG工具将所述原始音频数据的原始音频格式转换为目标音频格式;对所述目标音频格式下的所述原始音频数据进行切分处理,得到目标语音数据;将所述目标语音数据输入至语音识别引擎,得到所述第一文本数据。例如,基于FFMPEG工具将原始音频数据从PCM格式转换为MP3格式,将该MP3格式的原始音频数据进行切分,得到包含语音片段的目标语音数据,也就是说该MP3格式的原始音频数据中可以只保留包含人声的音频片段。将原始音频数据转换为MP3格式,方便用户对原始音频数据进行切分及保存。
一些实施例中,语音转文字系统还可以是基于深度学习Transformer模型的流式语音识别系统,该流式语音识别系统支持边录边转,即在录音的同时将音频数据转换为文本数据,也支持直接识别已有的音频数据。
在接收针对所述原始音频数据的第一时间进度的第一标记指令之后,记录此时所述原始音频数据的第一时间进度,同时从所述第一起始位置开始对所述第一文本数据进行标记处理,所述第一起始位置与所述第一时间进度对应;
接收针对所述原始音频数据的第二时间进度的第二标记指令之后,记录此时所述原始音频数据的第二时间进度,同时从第一结束位置停止对所述第一文本数据进行标记处理,所述第一结束位置与所述第二时间进度对应;
本实施例中,计时器系统用于记录音频数据录制和播放时的时间进度。其中,原始音频数据的录制时间进度与播放时间进度相对应。文字样式系统用于录音和播放时对第一文本数据的内容进行标记处理,包括:采用第一颜色标记所述第一文本数据,所述第一颜色不同于黑色;和/或,对所述第一文本数据中的文字进行加粗,这样用户很容易从第一文本数据中识别出需要注意的内容。
在录制过程中,计时器系统在原始音频数据转换为第一文本数据的整个过程中,记录各个时间节点,包括录制的总时长、进行标记处理的起始时间点(即第一时间进度)和结束时间点(即第二时间进度),其中,第一时间进度与第二时间进度成对出现,第一时间进度的数量可以为一个或多个,每一对第一时间进度和第二时间进度之间的原始音频数据为需要重点关注的原始音频数据,也就是需要校正的文本对应的原始音频数据。同时,第一时间进度与第一起始位置一一对应,第一时间进度对应的原始音频数据转换为文本后,在第一文本数据中的位置是第一起始位置;第二时间进度与第一结束位置一一对应,第二时间进度对应的原始音频数据转换为文本后,在第一文本数据中的位置是第一结束位置。
录音开始时,计时器系统获取电子设备当前时间毫秒值作为语音的起始时间点,然后可以通过android制定定时任务工具Timer每隔一毫秒更新一次语音的结束时间点和语音时长。
具体地,电子设备可以在通过麦克风或麦克风阵列录音获取原始音频数据时,通过操作界面向用户实时展示与原始音频数据对应的第一文本数据,在用户第2k-1次点击或选中第一文本数据的内容时,记录该内容在第一文本数据中的位置为第一起始位置,第2k次点击或选中第一文本数据的内容时,记录该内容在第一文本数据中的位置为第一结束位置,对第一起始位置和第一结束位置之间的第一文本数据进行标记处理,k为正整数。比如,在用户第3次点击或选中第一文本数据中的“那么”时,记录“那么”所在位置为第一起始位置,在用户第4次点击或选中第一文本数据中的“写字板”时,记录“写字板”所在位置为第一结束位置,对“那么”到“写字板”之间的文本“那么,既有写字板又为何要记事本”进行标记处理,比如加粗和/或染色。在用户第7次点击或选中第一文本数据中的“很好”时,记录“很好”所在位置为第一起始位置,在用户第8次点击或选中第一文本数据中的“规划”时,记录“规划”所在位置为第一结束位置,对“很好”到“规划”之间的文本“很好的规划”进行标记处理,比如加粗和/或染色。
本实施例中,文字样式系统用于对第一文本数据进行标记,比如染色加粗等,记录标记内容在语音内容中的位置,同步标记内容时间点等。所述语音内容为语音转文字系统返回的整段语音字符串文字;所述标记内容为开始标记到结束标记时间段内,语音转文字系统返回的标记的字符串文字。所述标记内容的起始位和结束位是标记内容在语音内容中位置,通常字符串通过角标确定。
存储模块24具体用于存储进行标记处理后的所述第一文本数据、所述第一起始位置、所述第一结束位置、所述第一时间进度、所述第二时间进度和所述原始音频数据。
本实施例中,语音数据操作系统用于存储进行标记处理后的所述第一文本数据、所述第一起始位置、所述第一结束位置、所述第一时间进度、所述第二时间进度和所述原始音频数据。语音数据操作系统包含一个数据库,语音数据操作系统保存每个原始音频数据的音频文件索性、语音内容、语音时长、所有标记数据、语音内容每个文字在语音中的位置等。所述音频文件索引为音频文件的保存路径;所述标记数据为每个标记的标记内容,标记位和标记时间点,所述文字在语音中的位置为该文字对应语音中的时间进度。
本实施例中,在将原始音频数据转换为第一文本数据时,可以对其中的错误文字或重点内容进行标记处理,存储标记处理后的第一文本数据,并且存储原始音频数据对应的时间进度,这样后续在对第一文本数据进行校对时,通过选择进行标记处理后的文本,可以根据对应的时间进度快速同步到对应的原始音频数据处,方便用户对标记处理后的文本进行校正或做其他处理,能够避免用户从头到尾再听一遍原始音频数据,能够提高对录音文本进行校正的效率,改善用户体验。
一些实施例中,如图3所示,所述装置还包括:
第三接收模块27,用于接收针对所述第一文本数据的第二位置的处理指令,所述第二位置位于所述第一起始位置和所述第一结束位置之间;
本实施例中,在需要对第一文本数据进行校正时,利用语音播放系统播放已录制的原始音频数据,同时在操作界面向用户实时展示与原始音频数据对应的第一文本数据,第一文本数据包括第一部分和第二部分,其中,第一部分位于每对的第一起始位置和第一结束位置之间,为需要重点关注的内容,已经进行标记处理;所述第二部分位于所述第一起始位置和所述第一结束位置之外,为未经过标记处理的内容。其中,第一部分为可能存在语音转换文字错误的部分,第二部分为不太可能出现错误的部分,因此,在对第一文本数据进行校正时,为了提高效率,仅需要对第一部分进行校正即可。
用户可以随意点击或者选中位于第一起始位置和第一结束位置之间的第二位置,则视为接收到针对第二位置的处理指令,需要对所述第一起始位置和所述第一结束位置之间的第一文本数据进行校正。在用户点击或者选中位于第一起始位置和第一结束位置之间任一位置时,都视为需要对所述第一起始位置和所述第一结束位置之间的第一文本数据进行校正。
第二处理模块28,用于对所述第一时间进度和所述第二时间进度之间的所述原始音频数据进行语音识别,根据语音识别结果对所述第一文本数据进行校正,得到第二文本数据。
可以根据预先存储的与第一起始位置对应的第一时间进度、与第一结束位置对应的第二时间进度,快速定位到原始音频数据的相应位置,重新播放所述第一时间进度和所述第二时间进度之间的所述原始音频数据,具体地,在未接收到针对下一第二位置的处理指令之前,可以对所述第一时间进度和所述第二时间进度之间的所述原始音频数据进行循环播放,即从第一时间进度开始播放所述原始音频数据,到第二时间进度停止播放所述原始音频数据,然后回到第一时间进度重新开始播放所述原始音频数据;当然,也可以在播放预设次数后停止播放,比如播放一次或两次后即停止播放所述原始音频数据。
利用语音识别引擎对所述第一时间进度和所述第二时间进度之间的所述原始音频数据进行语音识别,得到语音识别结果,比如对38秒和1分12秒之间的原始音频数据进行语音识别,得到语音识别结果“那么,既有写字板又为何要用记事本”;
截取出所述第一文本数据的第一部分和第二部分,所述第一部分位于所述第一起始位置和所述第一结束位置之间,所述第二部分位于所述第一起始位置和所述第一结束位置之外,比如第一部分为“那么,既有写字板又为何要记事本”;
比对所述第一部分与所述语音识别结果,若所述第一部分与所述语音识别结果不一致,利用所述语音识别结果替换所述第一部分,得到包括所述第一部分和所述第二部分的第二文本数据。
当原始音频数据经过语音识别引擎得到的语音识别结果与第一部分相比差别较大时,可以将原始音频数据输入至语音识别引擎进行多次语音识别,得到语音识别结果,以提高语音识别的精度。在第一部分与所述语音识别结果不一致时,可以利用所述语音识别结果替换所述第一部分,或者,对第一部分进行修改以使第一部分与语音识别结果一致,来对第一文本数据进行校正,得到校正后的第二文本数据。比如,可以利用语音识别结果“那么,既有写字板又为何要用记事本”替换第一部分“那么,既有写字板又为何要记事本”。
一些实施例中,所述存储模块24还用于存储所述第二文本数据、所述第一时间进度、所述第二时间进度和所述原始音频数据。
本实施例中,可以利用上述方案实现对第一文本数据的校正,另外,还可以向用户播放第一时间进度和第二时间进度之间的原始音频数据,由用户在收听原始音频数据之后,手动对第一文本数据进行校正,得到第二文本数据。
一些实施例中,如图4所示,所述第二处理模块28包括:
截取子模块281,用于截取出所述第一文本数据的第一部分和第二部分,所述第一部分位于所述第一起始位置和所述第一结束位置之间,所述第二部分位于所述第一起始位置和所述第一结束位置之外;
比对子模块282,用于比对所述第一部分与所述语音识别结果,若所述第一部分与所述语音识别结果不一致,利用所述语音识别结果替换所述第一部分,得到包括所述语音识别结果和所述第二部分的第二文本数据。
一些实施例中,如图5所示,所述语音识别模块25包括:
转换子模块251,用于基于FFMPEG工具将所述原始音频数据的原始音频格式转换为目标音频格式;
切分子模块252,用于对所述目标音频格式下的所述原始音频数据进行切分处理,得到目标语音数据;
处理子模块253,用于将所述目标语音数据输入至语音识别引擎。
一些实施例中,所述装置还包括:
语音搜索模块,用于接收用户输入的语音搜索指令;对所述语音搜索指令进行语音识别,将所述语音搜索指令转换为搜索关键词;在所述第一文本数据中查找所述搜索关键词,并对所述搜索关键词所在位置进行标记处理。
具体地,可以在电子设备的操作界面上显示语音搜索按钮,若用户点击语音搜索按钮后输入语音,视为接收到用户输入的语音搜索指令,语音录制系统开始录音,并把录制的语音数据传递给语音转文字系统进行处理,将所述语音搜索指令转换为搜索关键词。其中,在用户点击语音搜索按钮的过程中,用户输入的语音均视为语音搜索指令。文字样式系统收到搜索关键词后,在第一文本数据中查找所述搜索关键词,并对所述搜索关键词所在位置进行标记处理,比如对搜索关键词所在位置进行高亮显示。在用户点击高亮位置处的第一文本数据时,还可以播放对应的原始音频数据,从高亮位置的起始位置开始播放直至高亮位置的结束位置停止播放。通过本实施例的技术方案,可以方便用户从文本数据和音频数据中找到需要的内容。
一些实施例中,所述装置还包括:
错别字识别模块,用于接收用户输入的错别字识别指令;根据词库和上下文语意识别算法识别所述第一文本数据中的错别字,并对所述错别字进行标记处理。
具体地,可以在电子设备的操作界面上显示错别字识别按钮,若用户点击错别字识别按钮,视为接收到用户输入的错别字识别指令,可以根据词库和上下文语意识别算法识别所述第一文本数据中的错别字,并对所述错别字进行标记处理,比如对错别字高亮显示,以提醒用户,用户可以对错别字进行修改,以提高文本数据的准确性。一些实施例中,所述第一接收模块23具体用于采用第一颜色标记所述第一文本数据,所述第一颜色不同于黑色;和/或,对所述第一文本数据中的文字进行加粗。
本公开的实施例还提供了一种语音数据处理装置,如图6所示,包括处理器32和存储器31,所述存储器31存储可在所述处理器32上运行的程序或指令,所述程序或指令被所述处理器32执行时实现如上所述的语音数据处理方法的步骤。
一些实施例中,所述处理器32用于获取原始音频数据;接收针对所述原始音频数据的第一时间进度的第一标记指令;接收针对所述原始音频数据的第二时间进度的第二标记指令,所述第二时间进度晚于所述第一时间进度;存储所述第一时间进度、所述第二时间进度和所述原始音频数据。
一些实施例中,所述处理器32用于将所述第一时间进度和所述第二时间进度之间的所述原始音频数据作为目标音频数据,对所述目标音频数据进行标记处理。
一些实施例中,所述处理器32用于对所述第一时间进度和所述第二时间进度之间的原始音频数据进行语音识别,得到分段文本数据。
一些实施例中,所述处理器32用于对所述原始音频数据进行语音识别,得到第一文本数据;从第一起始位置开始对所述第一文本数据进行标记处理,所述第一起始位置与所述第一时间进度对应;从第一结束位置停止对所述第一文本数据进行标记处理,所述第一结束位置与所述第二时间进度对应;存储进行标记处理后的所述第一文本数据。
一些实施例中,所述处理器32用于接收针对所述第一文本数据的第二位置的处理指令,所述第二位置位于所述第一起始位置和所述第一结束位置之间;对所述第一时间进度和所述第二时间进度之间的所述原始音频数据进行语音识别,根据语音识别结果对所述第一文本数据进行校正,得到第二文本数据。
一些实施例中,所述处理器32用于对所述第一时间进度和所述第二时间进度之间的所述原始音频数据进行循环播放;利用语音识别引擎对所述第一时间进度和所述第二时间进度之间的所述原始音频数据进行语音识别,得到语音识别结果。
一些实施例中,所述处理器32用于截取出所述第一文本数据的第一部分和第二部分,所述第一部分位于所述第一起始位置和所述第一结束位置之间,所述第二部分位于所述第一起始位置和所述第一结束位置之外;比对所述第一部分与所述语音识别结果,若所述第一部分与所述语音识别结果不一致,利用所述语音识别结果替换所述第一部分,得到包括所述语音识别结果和所述第二部分的第二文本数据。
一些实施例中,所述处理器32用于基于FFMPEG工具将所述原始音频数据的原始音频格式转换为目标音频格式;对所述目标音频格式下的所述原始音频数据进行切分处理,得到目标语音数据;将所述目标语音数据输入至语音识别引擎。
一些实施例中,所述处理器32用于接收用户输入的语音搜索指令;对所述语音搜索指令进行语音识别,将所述语音搜索指令转换为搜索关键词;在所述第一文本数据中查找所述搜索关键词,并对所述搜索关键词所在位置进行标记处理。
一些实施例中,所述处理器32用于接收用户输入的错别字识别指令;根据词库和上下文语意识别算法识别所述第一文本数据中的错别字,并对所述错别字进行标记处理。
一些实施例中,所述处理器32用于采用第一颜色标记所述第一文本数据,所述第一颜色不同于黑色;和/或,对所述第一文本数据中的文字进行加粗。
本公开的实施例还提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如上所述的语音数据处理方法的步骤。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储待检测终端设备或任何其他非传输介质,可用于存储可以被计算待检测终端设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (23)
1.一种语音数据处理方法,其特征在于,包括:
获取原始音频数据;
接收针对所述原始音频数据的第一时间进度的第一标记指令;
接收针对所述原始音频数据的第二时间进度的第二标记指令,所述第二时间进度晚于所述第一时间进度;
存储所述第一时间进度、所述第二时间进度和所述原始音频数据。
2.根据权利要求1所述的语音数据处理方法,其特征在于,存储所述第一时间进度、所述第二时间进度和所述原始音频数据之后,所述方法还包括:
将所述第一时间进度和所述第二时间进度之间的所述原始音频数据作为目标音频数据,对所述目标音频数据进行标记处理。
3.根据权利要求1所述的语音数据处理方法,其特征在于,存储所述第一时间进度、所述第二时间进度和所述原始音频数据之后,所述方法还包括:
对所述第一时间进度和所述第二时间进度之间的原始音频数据进行语音识别,得到分段文本数据。
4.根据权利要求1所述的语音数据处理方法,其特征在于,获取原始音频数据之后,所述方法还包括:
对所述原始音频数据进行语音识别,得到第一文本数据;
接收针对所述原始音频数据的第一时间进度的第一标记指令之后,所述方法还包括:
从第一起始位置开始对所述第一文本数据进行标记处理,所述第一起始位置与所述第一时间进度对应;
接收针对所述原始音频数据的第二时间进度的第二标记指令之后,所述方法还包括:
从第一结束位置停止对所述第一文本数据进行标记处理,所述第一结束位置与所述第二时间进度对应;
存储进行标记处理后的所述第一文本数据。
5.根据权利要求4所述的语音数据处理方法,其特征在于,存储进行标记处理后的所述第一文本数据之后,所述方法还包括:
接收针对所述第一文本数据的第二位置的处理指令,所述第二位置位于所述第一起始位置和所述第一结束位置之间;
对所述第一时间进度和所述第二时间进度之间的所述原始音频数据进行语音识别,根据语音识别结果对所述第一文本数据进行校正,得到第二文本数据。
6.根据权利要求3或5所述的语音数据处理方法,其特征在于,对所述第一时间进度和所述第二时间进度之间的所述原始音频数据进行语音识别包括:
对所述第一时间进度和所述第二时间进度之间的所述原始音频数据进行循环播放;
利用语音识别引擎对所述第一时间进度和所述第二时间进度之间的所述原始音频数据进行语音识别,得到语音识别结果。
7.根据权利要求5所述的语音数据处理方法,其特征在于,所述根据语音识别结果对所述第一文本数据进行校正包括:
截取出所述第一文本数据的第一部分和第二部分,所述第一部分位于所述第一起始位置和所述第一结束位置之间,所述第二部分位于所述第一起始位置和所述第一结束位置之外;
比对所述第一部分与所述语音识别结果,若所述第一部分与所述语音识别结果不一致,利用所述语音识别结果替换所述第一部分,得到包括所述语音识别结果和所述第二部分的第二文本数据。
8.根据权利要求3或4所述的语音数据处理方法,其特征在于,对所述原始音频数据进行语音识别包括:
基于FFMPEG工具将所述原始音频数据的原始音频格式转换为目标音频格式;
对所述目标音频格式下的所述原始音频数据进行切分处理,得到目标语音数据;
将所述目标语音数据输入至语音识别引擎。
9.根据权利要求4所述的语音数据处理方法,其特征在于,所述方法还包括:
接收用户输入的语音搜索指令;
对所述语音搜索指令进行语音识别,将所述语音搜索指令转换为搜索关键词;
在所述第一文本数据中查找所述搜索关键词,并对所述搜索关键词所在位置进行标记处理。
10.根据权利要求4所述的语音数据处理方法,其特征在于,所述方法还包括:
接收用户输入的错别字识别指令;
根据词库和上下文语意识别算法识别所述第一文本数据中的错别字,并对所述错别字进行标记处理。
11.根据权利要求4或9或10所述的语音数据处理方法,其特征在于,对所述第一文本数据进行标记处理包括:
采用第一颜色标记所述第一文本数据,所述第一颜色不同于黑色;和/或
对所述第一文本数据中的文字进行加粗。
12.一种语音数据处理装置,其特征在于,包括:
获取模块,用于获取原始音频数据;
第一接收模块,用于接收针对所述原始音频数据的第一时间进度的第一标记指令;
第二接收模块,用于接收针对所述原始音频数据的第二时间进度的第二标记指令,所述第二时间进度晚于所述第一时间进度;
存储模块,用于存储所述第一时间进度、所述第二时间进度和所述原始音频数据。
13.根据权利要求12所述的语音数据处理装置,其特征在于,所述装置还包括:
标记处理模块,用于将所述第一时间进度和所述第二时间进度之间的所述原始音频数据作为目标音频数据,对所述目标音频数据进行标记处理。
14.根据权利要求12所述的语音数据处理装置,其特征在于,所述装置还包括:
语音识别模块,用于对所述第一时间进度和所述第二时间进度之间的原始音频数据进行语音识别,得到分段文本数据。
15.根据权利要求12所述的语音数据处理装置,其特征在于,所述装置还包括:
语音识别模块,用于对所述原始音频数据进行语音识别,得到第一文本数据;
标记处理模块,用于从第一起始位置开始对所述第一文本数据进行标记处理,所述第一起始位置与所述第一时间进度对应;从第一结束位置停止对所述第一文本数据进行标记处理,所述第一结束位置与所述第二时间进度对应;
所述存储模块用于存储进行标记处理后的所述第一文本数据。
16.根据权利要求15所述的语音数据处理装置,其特征在于,所述装置还包括:
第三接收模块,用于接收针对所述第一文本数据的第二位置的处理指令,所述第二位置位于所述第一起始位置和所述第一结束位置之间;
第二处理模块,用于对所述第一时间进度和所述第二时间进度之间的所述原始音频数据进行语音识别,根据语音识别结果对所述第一文本数据进行校正,得到第二文本数据。
17.根据权利要求14或16所述的语音数据处理装置,其特征在于,所述语音识别模块具体用于对所述第一时间进度和所述第二时间进度之间的所述原始音频数据进行循环播放;利用语音识别引擎对所述第一时间进度和所述第二时间进度之间的所述原始音频数据进行语音识别,得到语音识别结果。
18.根据权利要求16所述的语音数据处理装置,其特征在于,所述第二处理模块包括:
截取子模块,用于截取出所述第一文本数据的第一部分和第二部分,所述第一部分位于所述第一起始位置和所述第一结束位置之间,所述第二部分位于所述第一起始位置和所述第一结束位置之外;
比对子模块,用于比对所述第一部分与所述语音识别结果,若所述第一部分与所述语音识别结果不一致,利用所述语音识别结果替换所述第一部分,得到包括所述语音识别结果和所述第二部分的第二文本数据。
19.根据权利要求14或15所述的语音数据处理装置,其特征在于,所述语音识别模块包括:
转换子模块,用于基于FFMPEG工具将所述原始音频数据的原始音频格式转换为目标音频格式;
切分子模块,用于对所述目标音频格式下的所述原始音频数据进行切分处理,得到目标语音数据;
处理子模块,用于将所述目标语音数据输入至语音识别引擎。
20.根据权利要求15所述的语音数据处理装置,其特征在于,所述装置还包括:
语音搜索模块,用于接收用户输入的语音搜索指令;对所述语音搜索指令进行语音识别,将所述语音搜索指令转换为搜索关键词;在所述第一文本数据中查找所述搜索关键词,并对所述搜索关键词所在位置进行标记处理。
21.根据权利要求15所述的语音数据处理装置,其特征在于,所述装置还包括:
错别字识别模块,用于接收用户输入的错别字识别指令;根据词库和上下文语意识别算法识别所述第一文本数据中的错别字,并对所述错别字进行标记处理。
22.一种语音数据处理装置,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至11任一项所述的语音数据处理方法的步骤。
23.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-11任一项所述的语音数据处理方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210578264.XA CN114999464A (zh) | 2022-05-25 | 2022-05-25 | 语音数据处理方法及装置 |
PCT/CN2023/092438 WO2023226726A1 (zh) | 2022-05-25 | 2023-05-06 | 语音数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210578264.XA CN114999464A (zh) | 2022-05-25 | 2022-05-25 | 语音数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114999464A true CN114999464A (zh) | 2022-09-02 |
Family
ID=83030036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210578264.XA Pending CN114999464A (zh) | 2022-05-25 | 2022-05-25 | 语音数据处理方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114999464A (zh) |
WO (1) | WO2023226726A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023226726A1 (zh) * | 2022-05-25 | 2023-11-30 | 京东方科技集团股份有限公司 | 语音数据处理方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114064964A (zh) * | 2020-07-30 | 2022-02-18 | 华为技术有限公司 | 文本的时间标注方法、装置、电子设备和可读存储介质 |
CN114079695A (zh) * | 2020-08-18 | 2022-02-22 | 北京有限元科技有限公司 | 记录语音通话内容的方法、装置以及存储介质 |
CN111986657B (zh) * | 2020-08-21 | 2023-08-25 | 上海明略人工智能(集团)有限公司 | 音频识别方法和装置、录音终端及服务器、存储介质 |
CN112887480B (zh) * | 2021-01-22 | 2022-07-29 | 维沃移动通信有限公司 | 音频信号处理方法、装置、电子设备和可读存储介质 |
CN113539313A (zh) * | 2021-07-22 | 2021-10-22 | 统信软件技术有限公司 | 一种音频标记方法、音频数据播放方法及计算设备 |
CN114999464A (zh) * | 2022-05-25 | 2022-09-02 | 高创(苏州)电子有限公司 | 语音数据处理方法及装置 |
-
2022
- 2022-05-25 CN CN202210578264.XA patent/CN114999464A/zh active Pending
-
2023
- 2023-05-06 WO PCT/CN2023/092438 patent/WO2023226726A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023226726A1 (zh) * | 2022-05-25 | 2023-11-30 | 京东方科技集团股份有限公司 | 语音数据处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2023226726A1 (zh) | 2023-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106997764B (zh) | 一种基于语音识别的即时通信方法和即时通信系统 | |
US9666208B1 (en) | Hybrid audio representations for editing audio content | |
US20200294487A1 (en) | Hands-free annotations of audio text | |
CN109754783B (zh) | 用于确定音频语句的边界的方法和装置 | |
CN109213977A (zh) | 庭审笔录的生成系统 | |
CN112114771A (zh) | 一种演示文稿播放控制方法和装置 | |
WO2023226726A1 (zh) | 语音数据处理方法及装置 | |
KR20200046734A (ko) | 강의 콘텐츠 생성 장치 및 이를 위한 방법 | |
CN112053692A (zh) | 语音识别处理方法、装置及存储介质 | |
WO2022206198A1 (zh) | 一种音频和文本的同步方法、装置、设备以及介质 | |
CN109213970B (zh) | 笔录生成方法及装置 | |
CN110347379B (zh) | 组合型众包题目的处理方法、装置及存储介质 | |
CN109213971A (zh) | 庭审笔录的生成方法及装置 | |
CN110134817A (zh) | 一种录音文件的存储方法、搜索方法及相关装置 | |
CN114173191B (zh) | 一种基于人工智能的多语言答疑方法和系统 | |
CN107705790B (zh) | 一种信息处理方法和电子设备 | |
CN108228658B (zh) | 一种自动生成配音文字的方法、装置以及电子设备 | |
CN110428668B (zh) | 一种数据提取方法、装置、计算机系统及可读存储介质 | |
CN113299271B (zh) | 语音合成方法、语音交互方法、装置及设备 | |
CN110895575B (zh) | 一种音频处理方法及装置 | |
CN106777369B (zh) | 一种为有声书添加书签的系统及方法 | |
CN111986657A (zh) | 音频识别方法和装置、录音终端及服务器、存储介质 | |
CN112242132A (zh) | 语音合成中的数据标注方法、装置和系统 | |
US20230410848A1 (en) | Method and apparatus of generating audio and video materials | |
CN115050393B (zh) | 获取回听音频的方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |