CN112562688A - 语音转写方法、装置、录音笔和存储介质 - Google Patents
语音转写方法、装置、录音笔和存储介质 Download PDFInfo
- Publication number
- CN112562688A CN112562688A CN202011460233.1A CN202011460233A CN112562688A CN 112562688 A CN112562688 A CN 112562688A CN 202011460233 A CN202011460233 A CN 202011460233A CN 112562688 A CN112562688 A CN 112562688A
- Authority
- CN
- China
- Prior art keywords
- voice data
- transcription
- voice
- server
- uploading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013518 transcription Methods 0.000 title claims abstract description 270
- 230000035897 transcription Effects 0.000 title claims abstract description 270
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000005540 biological transmission Effects 0.000 claims description 51
- 238000005265 energy consumption Methods 0.000 claims description 27
- 239000012634 fragment Substances 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 11
- 230000003993 interaction Effects 0.000 claims description 7
- 238000013480 data collection Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000035807 sensation Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例提供一种语音转写方法、装置、录音笔和存储介质,该方法包括:采集语音数据,并对语音数据进行实时语音转写,得到语音数据的实时离线转写文本;将语音数据上传至服务器,以供服务器在语音数据采集结束后对语音数据的整体进行语音转写,并接收服务器下发的在线转写文本;将实时离线转写文本替换为在线转写文本。本发明实施例提供的语音转写方法、装置、录音笔和存储介质,结合离线转写和在线转写,既保证了语音转写的实时性,又保证了语音转写的准确性,实现了语音转写的实时性和准确性的兼容。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音转写方法、装置、录音笔和存储介质。
背景技术
录音笔凭借携带方便、操作简单等优点,被广泛应用于会议、演讲记录、采访和课堂等场合。
然而,目前市面上的主流录音笔只具备录音功能,录音完成后需要人工将录制的音频数据转换为文字,或是将音频数据上传到云端服务器进行转写,操作复杂、灵活性较差,而且在录音过程中,无法对音频数据进行转写,实时性较差。
发明内容
本发明实施例提供一种语音转写方法、装置、录音笔和存储介质,用以解决现有技术中操作复杂、灵活性较差以及实时性较差的缺陷。
本发明实施例提供一种语音转写方法,包括:
采集语音数据,并对所述语音数据进行实时语音转写,得到所述语音数据的实时离线转写文本;
将所述语音数据上传至服务器,以供所述服务器在所述语音数据采集结束后对所述语音数据的整体进行语音转写,并接收所述服务器下发的在线转写文本;
将所述实时离线转写文本替换为所述在线转写文本。
根据本发明一个实施例的语音转写方法,所述将所述语音数据上传至服务器,包括:
基于当前网络状态,确定语音数据传输方式,所述语音数据传输方式为整体上传或分片段上传;
基于所述语音数据传输方式,将所述语音数据上传至服务器。
根据本发明一个实施例的语音转写方法,所述基于所述语音数据传输方式,将所述语音数据上传至服务器,包括:
若所述语音数据传输方式为整体上传且所述语音数据采集结束,则将所述语音数据的整体上传至所述服务器;
若所述语音数据传输方式为分片段上传,则每隔预设时间间隔,将最新采集的所述语音数据的片段上传至所述服务器。
根据本发明一个实施例的语音转写方法,所述每隔预设时间间隔,将最新采集的所述语音数据的片段上传至所述服务器,之后还包括:
若所述语音数据采集结束,则将最新采集的所述语音数据的片段以及采集结束标识上传至所述服务器,以供所述服务器在接收到所述采集结束标识后将接收到的所有片段合并为所述语音数据。
根据本发明一个实施例的语音转写方法,所述将所述语音数据上传至服务器,以供所述服务器在所述语音数据采集结束后对所述语音数据的整体进行语音转写,包括:
将所述语音数据,以及所述语音数据的领域信息上传至所述服务器,以供所述服务器在所述语音数据采集结束后基于所述领域信息对所述语音数据的整体进行语音转写。
根据本发明一个实施例的语音转写方法,所述对所述语音数据进行实时语音转写,包括:
基于设备能耗状态和/或所述语音数据的噪声水平,确定实时语音转写模式;
基于所述实时语音转写模式,对所述语音数据进行实时语音转写。
根据本发明一个实施例的语音转写方法,所述将所述语音数据上传至服务器,之前还包括:
基于当前网络状态,确定上传语音数据所需的编码格式;
基于所述编码格式,对所述语音数据进行编码。
本发明实施例还提供一种语音转写装置,包括:
实时语音转写单元,用于采集语音数据,并对所述语音数据进行实时语音转写,得到所述语音数据的实时离线转写文本;
数据交互单元,用于将所述语音数据上传至服务器,以供所述服务器在所述语音数据采集结束后对所述语音数据的整体进行语音转写,并接收所述服务器下发的在线转写文本;
文本替换单元,用于将所述实时离线转写文本替换为所述在线转写文本。
本发明实施例还提供一种录音笔,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音转写方法的步骤。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音转写方法的步骤。
本发明实施例提供的一种语音转写方法、装置、录音笔和存储介质,通过对语音数据进行实时语音转写,得到语音数据的实时离线转写文本,并将语音数据上传至服务器进行在线转写,将实时离线转写文本替换为在线转写文本,结合离线转写和在线转写,既保证了语音转写的实时性,又保证了语音转写的准确性,实现了语音转写的实时性和准确性的兼容。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的语音转写方法的流程示意图;
图2为本发明实施例提供的语音数据上传方法的流程示意图;
图3为本发明实施例提供的麦克风的结构示意图;
图4为本发明实施例提供的语音转写装置的结构示意图;
图5是本发明实施例提供的录音笔的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
录音笔凭借携带方便、操作简单等优点,被广泛应用于会议、演讲记录、采访和课堂等场合。
然而,目前市面上的主流录音笔只具备录音功能,若需要获取录制音频数据的文本,则需要人工将音频数据转换为文字,效率低下,而且重复工作量大。此外,也可以把录音文件导出后,将音频数据上传到云端服务器,依托网络引擎进行转写,但这种转写方式较为固定,灵活性较差,而且上述两种转写方式均无法在录音过程中对音频数据进行转写,实时性较差。
对此,本发明实施例提供了一种语音转写方法,本发明实施例提供的语音转写方法可以应用于智能录音笔,也可以应用于具有录音功能的其他智能设备,例如智能手机、平板电脑等,图1为本发明实施例提供的语音转写方法的流程示意图,如图1所示,该方法包括:
步骤110,采集语音数据,并对语音数据进行实时语音转写,得到语音数据的实时离线转写文本。
具体地,智能设备的语音采集模块在采集语音数据的同时,基于智能设备内置的离线转写模块对语音数据进行实时语音转写,得到语音数据的实时离线转写文本。其中,语音数据的实时离线转写文本可以为当前时刻对语音数据进行实时离线转写,得到的转写文本,实时离线转写文本用于快速上屏,通过对实时离线转写文本的不断更新,让用户感知采集过程中一直有字幕弹出,以满足用户对语音转写的实时性需求。
此外,由于离线转写模块是智能设备内置的,即实时语音转写是在本地实现的,无需将数据进行网络传输,节省了数据传输的时间,提高了语音转写的效率,能够满足用户对实时性更高的需求。
进一步地,智能设备的语音采集模块可以包括全向麦克风和定向麦克风两部分。此处,全向麦克风和定向麦克风的数量和安装位置可以根据实际应用场景进行设置,本发明实施例对此不作具体限定。由于定向麦克风的定向收音效果好,可以远距离收音,而全向麦克风适合近场收音,降噪处理能力好,因此本发明实施例将全向麦克风和定向麦克风进行组合,以优势互补,从而提高录音效果。例如,可以利用全向麦克风和定向麦克风分别进行录音,然后对全向麦克风采集的语音数据和全向麦克风采集的语音数据进行处理,得到两路语音数据。其中一路是采集的无损语音,用于进行语音转写,以提高语音转写的准确率;另一路是采集的有损语音,用于播放。两路录音在保证转写效率和准确率的同时,还可以保证人耳的录音听感,还原最真实、高保真的现场声音。
步骤120,将语音数据上传至服务器,以供服务器在语音数据采集结束后对语音数据的整体进行语音转写,并接收服务器下发的在线转写文本。
具体地,由于离线转写模块的存储空间和计算能力有限,基于离线转写模块得到的实时离线转写文本的准确性无法保证,而云端的服务器的计算能力相对于智能设备本地的离线转写模块而言更强大,且存储空间也相对更大,故服务器中可以存储更丰富的词库,并调用更复杂、更精准的语音识别算法来进行语音转写,在线转写的准确性更高。
为进一步提高语音转写的准确性,可以将语音数据上传至服务器,由服务器在语音采集结束后对语音数据的整体进行在线转写,转写完成后再将在线转写文本返回给智能设备。其中,语音数据的整体可以为从采集开始到采集结束的持续时间段内采集的语音数据。由于在线转写是基于语音数据的整体进行的,充分考虑了语音数据的整体的全局信息,进一步提高了语音转写的准确性。
此处,可以在采集结束时将语音数据上传至服务器,即步骤110和步骤120依次执行;也可以在采集过程中,将语音数据分批次上传至服务器,即步骤110和步骤120同时执行,智能设备一边采集语音数据,并基于离线在线转写模块对语音数据进行实时语音转写,一边按照预设的切分规则,将语音数据中各个语音片段依次上传至服务器,例如可以按照预设的时间间隔对语音数据进行切分,又例如可以基于VAD(端点检测,Voice ActivityDetection),对语音数据进行切分。其中,语音数据传输方式可以是基于智能设备的当前网络状态自动确定的,也可以是用户手动设置的,本发明实施例对此不作具体限定。
第二种语音数据传输方式将采集语音和上传语音同步进行,节省了数据传输的时间,进而提高了语音转写的效率,而且每一语音片段的数据量小于语音数据的整体,数据传输对网络状态的要求较低,能够适用不同的网络状态,提高了语音转写的灵活性和适用范围。
此外,还可以对语音数据进行加密,并将加密后的语音数据进行上传。由于离线转写无需进行网络传输,可以保证数据的安全性,通过对语音数据进行数据传输加密可以保证数据在传输过程中的安全性,进而保证数据在整个转写过程中的安全性。
步骤130,将实时离线转写文本替换为在线转写文本。
具体地,智能设备接收到服务器下发的在线转写文本后,将离线转写模块输出的实时离线转写文本替换为在线转写文本,并将在线转写文本即时显示给用户,以供用户实时查看和编辑。
在采集过程中,通过实时显示实时离线转写文本,用户可以实时查看已经录入的语音数据的转写文本,以满足用户对语音转写的实时性需求;在采集结束后,将服务器在线转写得到在线转写文本对实时离线转写文本进行替换,并即时显示给用户,提高了语音转写的准确性。
本发明实施例提供的方法,通过对语音数据进行实时语音转写,得到语音数据的实时离线转写文本,并将语音数据上传至服务器进行在线转写,将实时离线转写文本替换为在线转写文本,结合离线转写和在线转写,既保证了语音转写的实时性,又保证了语音转写的准确性,实现了语音转写的实时性和准确性的兼容。
基于上述实施例,图2为本发明实施例提供的语音数据上传方法的流程示意图,如图2所示,该方法包括:
步骤210,基于当前网络状态,确定语音数据传输方式,语音数据传输方式为整体上传或分片段上传;
步骤220,基于语音数据传输方式,将语音数据上传至服务器。
具体地,由于智能设备的网络状态会直接影响到语音数据传输的成功率和效率,在对语音数据进行上传时,可以选择适应智能设备的当前网络状态的语音数据传输方式进行上传。其中,当前网络状态可以为智能设备在当前次录音过程的网络状态,当前网络状态越好,语音数据传输的成功率越高,速度越快。语音数据传输方式可以为整体上传或分片段上传,整体上传是指将语音数据的整体一次性上传,分片段上传是指将语音数据切分为多个语音片段,并将每一语音片段按照时间先后顺序依次上传。
由于整体上传对网络状态的要求较高,分片段上传对网络状态的要求较低,若在网络状态较差时采用整体上传的语音数据传输方式,可能导致语音数据上传失败、语音数据上传不完整或用户等待时间过长。
因此,可以对智能设备的当前网络状态进行判断,若当前网络状态较好,则确定语音数据传输方式为整体上传;若当前网络状态较差,则确定语音数据传输方式为分片段上传。基于当前网络状态自适应确定语音数据传输方式,保证了不同网络状态下语音数据传输的成功率和效率,进而提高了语音转写的灵活性和适用范围。
基于上述任一实施例,步骤220具体包括:
若语音数据传输方式为整体上传且语音数据采集结束,则将语音数据的整体上传至服务器;
若语音数据传输方式为分片段上传,则每隔预设时间间隔,将最新采集的语音数据的片段上传至服务器。
具体地,若语音数据传输方式为整体上传,此时不需要对语音数据进行切分,采集的一个语音数据对应一次录音过程,语音数据即为语音数据的整体。在语音数据采集结束时,直接将语音数据的整体上传至服务器,以供服务器对语音数据的整体进行语音转写并返回在线转写文本。
若语音数据传输方式为分片段上传,则基于预设时间间隔对语音数据进行切分,在采集过程中,每隔预设时间间隔,将最新采集的语音数据的片段上传至服务器。例如,预设时间间隔为20s,采集开始后,每间隔20s,将最新采集的时长为20s的语音数据的片段上传至服务器,直至语音采集结束,若语音数据的最后一个片段的时长小于预设时间间隔,则在采集结束时将最后一个片段上传至服务器。服务器每隔预设时间间隔接收到智能设备上传的最新采集的语音数据的片段,基于接收到的语音数据的各个语音数据的片段,服务器对语音数据的整体进行语音转写并返回在线转写文本。
基于上述任一实施例,所述每隔预设时间间隔,将最新采集的语音数据的片段上传至服务器,之后还包括:
若语音数据采集结束,则将最新采集的语音数据的片段以及采集结束标识上传至服务器,以供服务器在接收到采集结束标识后将接收到的所有片段合并为语音数据。
具体地,在语音数据传输方式为分片段上传时,为保证在语音数据采集结束时能够触发服务器对语音数据的整体进行语音转写,在语音采集结束时,不仅将最新采集的语音数据的片段上传至服务器,而且同时将采集结束标识上传至服务器。其中,采集结束标识可以包含在发送给服务器的报文,也可以直接编码在上传的语音数据的片段中,本发明实施例对此不作具体限定。
可选地,智能设备可以通过VAD检测判断语音采集是否结束,也可以通过与用户之间的交互判断语音采集是否结束,例如用户可以通过点触智能设备上的按键停止语音采集,智能设备在检测到按键被按压后确定语音采集结束。
服务器接收到采集结束标识后即可确定语音采集结束,服务器将当前次录音过程中接收到所有片段进行合并,得到语音数据,以供对语音数据的整体进行语音转写。
基于上述任一实施例,步骤120具体包括:
将语音数据,以及语音数据的领域信息上传至服务器,以供服务器在语音数据采集结束后基于领域信息对语音数据的整体进行语音转写。
具体地,智能设备的离线转写模块的存储空间相对有限,本地离线转写模块存储的词库不够丰富,在应用于专业性较强的语音数据的语音转写时,可能无法识别出其中包含的专业术语,例如在学术讲座或学术会议等应用场景下采集的语音数据,为保证在线转写的准确性,可以同时将语音数据以及语音数据的领域信息上传至服务器,其中,领域信息可以为描述语音数据所处的领域的信息,领域信息可以表示为领域词,例如医疗领域、人工智能领域等。
此处,语音数据的领域信息可以是用户手动输入的,例如在采集结束时,用户在弹出的交互界面中填写或者勾选语音数据的领域信息;也可以是利用智能设备内置的领域识别模块基于实时离线转写文本自动识别得到的,例如可以基于卷积神经网络(CNN,Convolutional Neural Network)、循环神经网络(RNN,Recurrent Neural Network)、长短时记忆网络(LSTM,Long Short-Term Memory)等进行领域识别,本发明实施例对语音数据的领域信息的获取方式不作具体限定。
服务器在接收到语音数据的领域信息之后,可以基于语音数据的领域信息,选取出若干个与语音数据所处的领域相关的领域词库,并在语音采集结束时,采用选取出的若干个领域词库对语音数据的整体进行语音转写。采用语音数据对应的领域词库进行语音转写不仅可以准确识别出语音数据中的专业术语,提高了语音转写的准确性,而且缩小了词库的搜索范围,进而提高了语音转写的效率。
本发明实施例提供的方法,通过将语音数据以及语音数据的领域信息上传至服务器,以供服务器在语音数据采集结束后基于领域信息对语音数据的整体进行语音转写,提高了语音转写的准确性和效率。
基于上述任一实施例,步骤110具体包括:
基于设备能耗状态和/或语音数据的噪声水平,确定实时语音转写模式;
基于实时语音转写模式,对语音数据进行实时语音转写。
具体地,为避免因智能设备的资源不足或电量不足导致实时语音转写中断,并延长智能设备的续航时间,可以基于设备能耗状态和语音数据的噪声水平中的任意一种或两种的组合,确定实时语音转写模式,并基于实时语音转写模式进行实时语音转写。
其中,实时语音转写模式可以包括低能耗模式、高能耗模式、去噪模式、普通模式等。低能耗模式是指采用运算量较小的实时语音转写算法以节省能耗,高能耗模式是指采用运算量较大的实时语音转写算法以提高准确性,去噪模式是指在对语音数据进行实时语音转写之前对语音数据进行去噪处理,普通模式是指直接对语音数据进行实时语音转写。
此处,设备能耗状态包括设备可用资源状态和/或设备可用电量状态,设备可用资源状态可以包括设备CPU、内存等资源的空闲情况,设备可用电量状态用于表明当前次录音的存余电量。若设备的可用资源较少和/或设备电量较低,则可以选择低能耗模式,以降低设备的能耗,延长设备的续航时间。
语音数据的噪声水平用于反映该语音数据中包含的环境噪声的大小,语音数据的噪声水平可以表示为信噪比,语音数据的噪声水平越高,表明环境噪声对语音数据的干扰越大,语音数据的质量越低。若语音数据的噪声水平较高,则可以选择去噪模式,以提升语音数据的质量,进而提高语音转写的准确性。
此外,当基于设备能耗状态和语音数据的噪声水平的组合确定实时语音转写模式时,相应地,实时语音转写模式还可以包括低能耗去噪模式和高能耗去噪模式等,低能耗去噪模式是指采用运算量较小的去噪算法进行去噪处理,高能耗去噪模式是指采用运算量较大的去噪算法进行去噪处理。
若设备能耗状态指示设备可用资源和电量充足,且语音数据的噪声水平较高,则可以选择高能耗去噪模式,以提升去噪效果;若设备能耗状态指示设备可用资源和/或电量不足,且语音数据的噪声水平较高,则可以选择低能耗去噪模式,以兼顾节能和去噪。
此外,若基于设备能耗状态和语音数据的噪声水平的组合确定实时语音转写模式时,可以根据设备能耗状态和语音数据的噪声水平对实时语音转写的重要性,为两者分别设置对应的权重,并结合两者对应的权重,确定实时语音转写模式。例如,由于当设备电量不足时无法进行实时语音转写,因此,设备能耗状态相较于语音数据的噪声水平的重要性更高,可以对设备能耗状态设置更高的权重。
本发明实施例提供的方法,基于设备能耗状态和/或语音数据的噪声水平,确定实时语音转写模式,针对设备能耗状态和语音数据的噪声水平自适应确定实时语音转写模式,节省了设备的能耗,延长了设备的续航时间。
基于上述任一实施例,步骤120之前还包括:
基于当前网络状态,确定上传语音数据所需的编码格式;
基于编码格式,对语音数据进行编码。
具体地,在采集过程中,智能设备可能会移动到网络信号较弱的区域或者出现网络拥挤的状况,导致智能设备的当前网络状态较差,语音数据可能出现传输失败,无法进行在线转写,为提高语音数据传输的成功率,在将语音数据上传之前,可以对智能设备的当前网络状态进行判断,选取适应当前网络状态的编码格式,并根据选取的编码格式对语音数据进行编码。
可选地,基于预先设定的网络信号强度阈值对当前网络状态进行判断,若当前网络信号强度小于预设阈值,表示当前网络状态较差,则可以采用丢包补偿较好的编码格式对语音数据进行编码,例如iLBC(internet Low Bitrate Codec)格式;若当前网络信号强度大于预设阈值,表示当前网络状态较好,则可以采用有损编码格式对语音数据进行编码,例如OPUS格式。
可选地,基于当前网络状态,确定当前网络状态对应的信号强度等级,并基于预设的信号强度等级与编码格式的对应关系,确定对应当前网络状态的编码格式。例如,信号强度由强至弱依次分为第一级、第二级和第三级,分别对应的编码格式为A格式、B格式、C格式。若当前网络状态对应的信号强度等级为第二级,则可以确定编码格式为B格式。
本发明实施例提供的方法,基于当前网络状态,确定上传语音数据所需的编码格式,保证了不同网络状态下语音数据传输的成功率,提高了语音转写的灵活性和适用范围。
基于上述任一实施例,本发明又一实施例提供了一种录音笔,用于执行上述任一实施例提供的语音转写方法。该录音笔的硬件包括:全向麦克风、定向麦克风、WIFI模块、4G模块、处理器、LCD屏、存储模块、本地服务、电源管理模块和充电模块。
其中,终端拾音由全向麦克风和定向麦克风两部分分别录音,经算法处理后输出2路音频数据流:一路语音数据流用于识别转写;另一路是高保真录音,用于提升录音听感。两部分录音在保证转写效率和准确率的同时,又保证了人耳的录音听感,还原最真实高保真现场声音。
定向麦克风ECM(Electret Condenser Micphone,驻极体电容麦克风)体积较大,直径达到10mm,其录音音质听感及录音保真度远高于硅麦,加上采用高采样率高精度,例如≥96KHZ、24bit,进行拾音采集,收音距离可达到15米以上,能够提供高保真的录音存储数据,还原更真实更清晰的录音现场。图3为本发明实施例提供的麦克风的结构示意图,如图3所示,定向麦克风310为两颗麦克风,放在产品顶部位置,确保无遮挡能自由定向拾音即可,还包括全向麦克风330,且全向麦克风330安装在全向麦克风柔性电路板320(FlexiblePrinted Circuit,FPC)上。
顶部两个定向麦克风之间,可以放置摄像头,以最优化结构空间的利用。定向麦克风左右两侧的侧壁需要尽可能的露出,保证收音的出孔率,并且内侧的空间完全避让,以进一步保证出孔率。定向麦克风之间放置摄像头,可以节省空间,且让拍照更顺畅,同时也增加了结构强度,防止变形。
音频编码将麦克风模拟音频(全向麦克风和定向麦克风采集的音频)转化为数字音频,同时将扬声器播放的模拟音频转化为数字信号作为回声消除参考信号,再由I2S/TDM、I2C等数字接口将所有数字音频数据传至处理器。为保证音频数据的同步性和及时性,每一路模拟音频均配置一路独立的ADC(Analog to Digital Converter,模数转换器)。
处理器接收全向麦克风和定向麦克风采集的音频数据后,进行全向麦克风、语音增强等语音算法运算、数据调度传输、外设协同逻辑控制及系统应用的交互管理。另外,处理器含有足够运算力,可以基于离线转写模块提供本地语音识别及转写服务,将全向麦克风的4路原始录音数据流、定向麦克风的录音数据流及降噪处理后的识别转写录音数据流和听感录音数据流全部无缝实时传输给处理器,启动本地算法引擎,用于本地识别、转写、翻译、导出等。此过程无网络请求,完全是在离线状态下完成,拓展了录音和识别转写的使用场景。处理器获取录音数据流进行本地识别转写后,将转写的文本实时下发给存储模块,并提取出转写文本,实时在LCD屏上显示。
处理器支持LTE通信,同时支持蓝牙、WI-FI无线传输,满足GPS定位功能。处理器可以通过LTE或者Wi-Fi将全向麦克风的4路原始录音数据流、定向麦克风的录音数据流及降噪处理后的识别转写录音数据流和听感录音数据流全部无缝实时或定时传输到云端和无线设备上,用于云端识别、转写、回听、检索、分析和存档。
处理器主要的功能在于对语音数据进行实时语音转写,得到语音数据的实时离线转写文本,并语音数据上传至服务器,接收服务器下发的在线转写文本,最后将实时离线转写文本替换为在线转写文本,并即时显示给用户。
LCD屏采用HD 1080*720分辨率,满足页面内容显示。同时,LCD屏还可作为交互的操控界面以及设备状态的显示界面,让录音设备更加智能。录音、场景选择、转写文字显示、翻译和设置等操作都可通过屏幕进行交互,使交互更加便捷。
存储模块用于存储系统代码、音频数据、转写数据和个人设置信息等,还可通过TYPE-C接口或无线模块将音频数据导出或上传至云空间。
电源管理模块和充电模块构成了系统的供电管理部分,其中加入5V2A充电协议,可以标准模式充电,既能提升效率,又能保证安全。
电源管理模块在在线转写和离线转写的切换过程中,可以为不同的转写模式提供不同的功率输出,保证了功能的正常运转。同时,通过转写模式的切换,可以最大限度的保证续航。
由于安全是录音系统的重要保障,因此录音笔提供密码设定功能和安全认证功能。同时,开机状态按录音键,可以一键录音。同时,还可对文件和文件夹进行加密,实现文件的安全保护。
录音笔还具备SIM托,可以插入4G卡开启网络,进行实时在线转写,音频数据上传。录音笔在录音时,还可以将音频数据同步上传到云空间,进行转写保存。其他终端可以同步听到或看到音频数据及其对应的转写文本,实现了实时同步、实时分享。
另外,录音笔还包括智能文件管理系统,通过对文件增加多维度的标签,如时间、地点、标签、场景或名称等,通过语音或文字搜索等方式搜索任意的标签,都可以推荐相关的文件。
基于上述任一实施例,图4为本发明实施例提供的语音转写装置的结构示意图,如图4所示,该装置包括:
实时语音转写单元410,用于采集语音数据,并对所述语音数据进行实时语音转写,得到所述语音数据的实时离线转写文本;
数据交互单元420,用于将所述语音数据上传至服务器,以供所述服务器在所述语音数据采集结束后对所述语音数据的整体进行语音转写,并接收所述服务器下发的在线转写文本;
文本替换单元430,用于将所述实时离线转写文本替换为所述在线转写文本。
本发明实施例提供的装置,通过对语音数据进行实时语音转写,得到语音数据的实时离线转写文本,并将语音数据上传至服务器进行在线转写,将实时离线转写文本替换为在线转写文本,结合离线转写和在线转写,既保证了语音转写的实时性,又保证了语音转写的准确性,实现了语音转写的实时性和准确性的兼容。
基于上述任一实施例,数据交互单元420具体包括:
数据传输模式确定子单元,用于基于当前网络状态,确定语音数据传输方式,所述语音数据传输方式为整体上传或分片段上传;
数据传输子单元,用于基于所述语音数据传输方式,将所述语音数据上传至服务器。
基于上述任一实施例,数据传输子单元具体包括:
整体上传模块,用于若所述语音数据传输方式为整体上传且所述语音数据采集结束,则将所述语音数据的整体上传至所述服务器;
分片段上传模块,用于若所述语音数据传输方式为分片段上传,则每隔预设时间间隔,将最新采集的所述语音数据的片段上传至所述服务器。
基于上述任一实施例,数据传输子单元还包括:
最末片段上传模块,用于若所述语音数据采集结束,则将最新采集的所述语音数据的片段以及采集结束标识上传至所述服务器,以供所述服务器在接收到所述采集结束标识后将接收到的所有片段合并为所述语音数据。
基于上述任一实施例,数据交互单元420具体用于:
将所述语音数据,以及所述语音数据的领域信息上传至所述服务器,以供所述服务器在所述语音数据采集结束后基于所述领域信息对所述语音数据的整体进行语音转写。
基于上述任一实施例,实时语音转写单元410具体用于:
基于设备能耗状态和/或所述语音数据的噪声水平,确定实时语音转写模式;
基于所述实时语音转写模式,对所述语音数据进行实时语音转写。
基于上述任一实施例,该装置还包括:
数据编码单元,用于基于当前网络状态,确定上传语音数据所需的编码格式;
基于所述编码格式,对所述语音数据进行编码。
图5示例了一种录音笔的实体结构示意图,如图5所示,该录音笔可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行语音转写方法,该方法包括:采集语音数据,并对语音数据进行实时语音转写,得到语音数据的实时离线转写文本;将语音数据上传至服务器,以供服务器在语音数据采集结束后对语音数据的整体进行语音转写,并接收服务器下发的在线转写文本;将实时离线转写文本替换为在线转写文本。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的语音转写方法,该方法包括:采集语音数据,并对语音数据进行实时语音转写,得到语音数据的实时离线转写文本;将语音数据上传至服务器,以供服务器在语音数据采集结束后对语音数据的整体进行语音转写,并接收服务器下发的在线转写文本;将实时离线转写文本替换为在线转写文本。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的语音转写方法,该方法包括:采集语音数据,并对语音数据进行实时语音转写,得到语音数据的实时离线转写文本;将语音数据上传至服务器,以供服务器在语音数据采集结束后对语音数据的整体进行语音转写,并接收服务器下发的在线转写文本;将实时离线转写文本替换为在线转写文本。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音转写方法,其特征在于,包括:
采集语音数据,并对所述语音数据进行实时语音转写,得到所述语音数据的实时离线转写文本;
将所述语音数据上传至服务器,以供所述服务器在所述语音数据采集结束后对所述语音数据的整体进行语音转写,并接收所述服务器下发的在线转写文本;
将所述实时离线转写文本替换为所述在线转写文本。
2.根据权利要求1所述的语音转写方法,其特征在于,所述将所述语音数据上传至服务器,包括:
基于当前网络状态,确定语音数据传输方式,所述语音数据传输方式为整体上传或分片段上传;
基于所述语音数据传输方式,将所述语音数据上传至服务器。
3.根据权利要求2所述的语音转写方法,其特征在于,所述基于所述语音数据传输方式,将所述语音数据上传至服务器,包括:
若所述语音数据传输方式为整体上传且所述语音数据采集结束,则将所述语音数据的整体上传至所述服务器;
若所述语音数据传输方式为分片段上传,则每隔预设时间间隔,将最新采集的所述语音数据的片段上传至所述服务器。
4.根据权利要求3所述的语音转写方法,其特征在于,所述每隔预设时间间隔,将最新采集的所述语音数据的片段上传至所述服务器,之后还包括:
若所述语音数据采集结束,则将最新采集的所述语音数据的片段以及采集结束标识上传至所述服务器,以供所述服务器在接收到所述采集结束标识后将接收到的所有片段合并为所述语音数据。
5.根据权利要求1-4任一项所述的语音转写方法,其特征在于,所述将所述语音数据上传至服务器,以供所述服务器在所述语音数据采集结束后对所述语音数据的整体进行语音转写,包括:
将所述语音数据,以及所述语音数据的领域信息上传至所述服务器,以供所述服务器在所述语音数据采集结束后基于所述领域信息对所述语音数据的整体进行语音转写。
6.根据权利要求1-4任一项所述的语音转写方法,其特征在于,所述对所述语音数据进行实时语音转写,包括:
基于设备能耗状态和/或所述语音数据的噪声水平,确定实时语音转写模式;
基于所述实时语音转写模式,对所述语音数据进行实时语音转写。
7.根据权利要求1-4任一项所述的语音转写方法,其特征在于,所述将所述语音数据上传至服务器,之前还包括:
基于当前网络状态,确定上传语音数据所需的编码格式;
基于所述编码格式,对所述语音数据进行编码。
8.一种语音转写装置,其特征在于,包括:
实时语音转写单元,用于采集语音数据,并对所述语音数据进行实时语音转写,得到所述语音数据的实时离线转写文本;
数据交互单元,用于将所述语音数据上传至服务器,以供所述服务器在所述语音数据采集结束后对所述语音数据的整体进行语音转写,并接收所述服务器下发的在线转写文本;
文本替换单元,用于将所述实时离线转写文本替换为所述在线转写文本。
9.一种录音笔,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述语音转写方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述语音转写方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011460233.1A CN112562688A (zh) | 2020-12-11 | 2020-12-11 | 语音转写方法、装置、录音笔和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011460233.1A CN112562688A (zh) | 2020-12-11 | 2020-12-11 | 语音转写方法、装置、录音笔和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112562688A true CN112562688A (zh) | 2021-03-26 |
Family
ID=75062481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011460233.1A Pending CN112562688A (zh) | 2020-12-11 | 2020-12-11 | 语音转写方法、装置、录音笔和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112562688A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113707151A (zh) * | 2021-08-20 | 2021-11-26 | 天津讯飞极智科技有限公司 | 语音转写方法、装置、录音设备、系统与存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103259945A (zh) * | 2013-05-20 | 2013-08-21 | 苏州洲际传书信息科技有限公司 | 在voip通话中根据网络状况实现语音编码动态切换的方法 |
CN106328147A (zh) * | 2016-08-31 | 2017-01-11 | 中国科学技术大学 | 语音识别方法和装置 |
CN106971723A (zh) * | 2017-03-29 | 2017-07-21 | 北京搜狗科技发展有限公司 | 语音处理方法和装置、用于语音处理的装置 |
CN110428835A (zh) * | 2019-08-22 | 2019-11-08 | 深圳市优必选科技股份有限公司 | 一种语音设备的调节方法、装置、存储介质及语音设备 |
CN110782884A (zh) * | 2019-10-28 | 2020-02-11 | 歌尔股份有限公司 | 远场拾音噪声处理方法、装置、设备及存储介质 |
CN110853639A (zh) * | 2019-10-23 | 2020-02-28 | 天津讯飞极智科技有限公司 | 语音转写方法及相关装置 |
-
2020
- 2020-12-11 CN CN202011460233.1A patent/CN112562688A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103259945A (zh) * | 2013-05-20 | 2013-08-21 | 苏州洲际传书信息科技有限公司 | 在voip通话中根据网络状况实现语音编码动态切换的方法 |
CN106328147A (zh) * | 2016-08-31 | 2017-01-11 | 中国科学技术大学 | 语音识别方法和装置 |
CN106971723A (zh) * | 2017-03-29 | 2017-07-21 | 北京搜狗科技发展有限公司 | 语音处理方法和装置、用于语音处理的装置 |
CN110428835A (zh) * | 2019-08-22 | 2019-11-08 | 深圳市优必选科技股份有限公司 | 一种语音设备的调节方法、装置、存储介质及语音设备 |
CN110853639A (zh) * | 2019-10-23 | 2020-02-28 | 天津讯飞极智科技有限公司 | 语音转写方法及相关装置 |
CN110782884A (zh) * | 2019-10-28 | 2020-02-11 | 歌尔股份有限公司 | 远场拾音噪声处理方法、装置、设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113707151A (zh) * | 2021-08-20 | 2021-11-26 | 天津讯飞极智科技有限公司 | 语音转写方法、装置、录音设备、系统与存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109473104B (zh) | 语音识别网络延时优化方法及装置 | |
CN104407834A (zh) | 信息输入方法和装置 | |
CN111050201B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
US11587560B2 (en) | Voice interaction method, device, apparatus and server | |
CN110853639B (zh) | 语音转写方法及相关装置 | |
WO2016000569A1 (en) | Voice communication method and system in game applications | |
US10360913B2 (en) | Speech recognition method, device and system based on artificial intelligence | |
CN112634902A (zh) | 语音转写方法、装置、录音笔和存储介质 | |
CN108062212A (zh) | 一种基于场景的语音操作方法及装置 | |
KR20160106075A (ko) | 오디오 스트림에서 음악 작품을 식별하기 위한 방법 및 디바이스 | |
CN109599115B (zh) | 用于音频采集设备和用户终端的会议记录方法和装置 | |
CN108073572B (zh) | 信息处理方法及其装置、同声翻译系统 | |
CN111261151A (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN104091596A (zh) | 一种乐曲识别方法、系统和装置 | |
CN112581965A (zh) | 转写方法、装置、录音笔和存储介质 | |
CN103514882A (zh) | 一种语音识别方法及系统 | |
CN110379406B (zh) | 语音评论转换方法、系统、介质和电子设备 | |
CN112463391B (zh) | 内存控制方法、内存控制装置、存储介质与电子设备 | |
CN112562688A (zh) | 语音转写方法、装置、录音笔和存储介质 | |
US11580954B2 (en) | Systems and methods of handling speech audio stream interruptions | |
WO2024051823A1 (zh) | 管理接待信息的方法以及后端设备 | |
CN113611296A (zh) | 语音识别装置和拾音设备 | |
CN116055762A (zh) | 视频合成方法及装置、电子设备和存储介质 | |
JP2022091933A (ja) | 音声応答速度確定方法、装置、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム | |
CN113707151A (zh) | 语音转写方法、装置、录音设备、系统与存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210326 |