CN112634902A - 语音转写方法、装置、录音笔和存储介质 - Google Patents
语音转写方法、装置、录音笔和存储介质 Download PDFInfo
- Publication number
- CN112634902A CN112634902A CN202011460231.2A CN202011460231A CN112634902A CN 112634902 A CN112634902 A CN 112634902A CN 202011460231 A CN202011460231 A CN 202011460231A CN 112634902 A CN112634902 A CN 112634902A
- Authority
- CN
- China
- Prior art keywords
- transcription
- current
- transfer
- audio data
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013518 transcription Methods 0.000 title claims abstract description 386
- 230000035897 transcription Effects 0.000 title claims abstract description 386
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012546 transfer Methods 0.000 claims abstract description 171
- 238000005265 energy consumption Methods 0.000 claims abstract description 43
- 230000006855 networking Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000002035 prolonged effect Effects 0.000 description 3
- 210000005069 ears Anatomy 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 229910000838 Al alloy Inorganic materials 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000005488 sandblasting Methods 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/02—Constructional features of telephone sets
- H04M1/04—Supports for telephone transmitters or receivers
- H04M1/06—Hooks; Cradles
- H04M1/08—Hooks; Cradles associated with switches operated by the weight of the receiver or hand-set
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例提供一种语音转写方法、装置、录音笔和存储介质,该方法包括:基于电子设备中的音频采集模块采集当前次的音频数据;基于所述电子设备当前次的转写模式,确定所述当前次的音频数据的转写文本;所述转写模式是基于音频转写需求、设备能耗状态、设备网络状态和历史转写状态中的至少一种确定的,所述转写模式为在线转写或离线转写。本发明实施例提供的语音转写方法、装置、录音笔和存储介质,基于音频转写需求、设备能耗状态、设备网络状态和历史转写状态中的至少一种确定当前次的转写模式,并基于当前次的转写模式,确定当前次的音频数据的转写文本,可以满足不同的场景需求,提高了语音转写的灵活性和适用范围。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音转写方法、装置、录音笔和存储介质。
背景技术
录音笔凭借携带方便、操作简单等优点,被广泛应用于会议、演讲记录、采访和课堂等场合。
然而,目前市面上的主流录音笔只具备录音功能,录音完成后需要人工将录制的音频数据转换为文字,或是将音频数据上传到云端服务器进行转写,操作复杂,灵活性较差,且适用范围窄。
发明内容
本发明实施例提供一种语音转写方法、装置、录音笔和存储介质,用以解决现有技术中语音转写操作复杂、灵活性较差且适用范围窄的缺陷。
本发明实施例提供一种语音转写方法,包括:
基于电子设备中的音频采集模块采集当前次的音频数据;
基于所述电子设备当前次的转写模式,确定所述当前次的音频数据的转写文本;
所述转写模式是基于音频转写需求、设备能耗状态、设备网络状态和历史转写状态中的至少一种确定的,所述转写模式为在线转写或离线转写。
根据本发明一个实施例的语音转写方法,所述当前次的转写模式的确定方法包括:
若所述设备网络状态指示为联网状态或者网络质量高于预设阈值,则基于所述音频转写需求、所述设备能耗状态和所述历史转写状态中的至少一种确定所述当前次的转写模式;
否则,将所述当前次的转写模式确定为离线转写。
根据本发明一个实施例的语音转写方法,所述基于所述电子设备当前次的转写模式,确定所述当前次的音频数据的转写文本,具体包括:
若所述当前次的转写模式为在线转写,则将所述当前次的音频数据上传至服务器进行转写,并接收服务器下发的所述转写文本;
若所述当前次的转写模式为离线转写,则基于所述电子设备的离线转写模块对所述当前次的音频数据进行转写,得到所述转写文本。
根据本发明一个实施例的语音转写方法,所述若所述当前次的转写模式为在线转写,则将所述当前次的音频数据上传至服务器进行转写,具体包括:
若所述当前次的转写模式为在线转写,且上一次的转写模式为离线转写,则将上一次的音频数据与当前次的音频数据上传至服务器进行转写。
根据本发明一个实施例的语音转写方法,所述若所述当前次的转写模式为离线转写,则基于所述电子设备的离线转写模块对所述当前次的音频数据进行转写,具体包括:
若所述当前次的转写模式为离线转写,则根据所述设备能耗状态,调整所述离线转写模块所应用的计算资源,并基于所述离线转写模块对所述当前次的音频数据进行转写。
根据本发明一个实施例的语音转写方法,所述基于所述电子设备当前次的转写模式,确定所述当前次的音频数据的转写文本,之后还包括:
若所述当前次的转写模式为在线转写,且上一次的转写模式为离线转写,则基于所述当前次的音频数据的转写文本对上一次的音频数据的转写文本进行校正。
根据本发明一个实施例的语音转写方法,所述音频转写需求包括数据安全需求、转写精度需求以及录制质量参数中的至少一种;
所述设备能耗状态包括设备可用资源状态和/或设备可用电量状态;
所述设备网络状态包括所述电子设备的网络连接状态,或包括所述电子设备的网络连接状态和联网状态下的网络质量参数;
所述历史转写状态包括所述当前音频数据之前的历史音频数据的转写模式,以及用户对于历史音频数据的转写文本的编辑次数。
本发明实施例还提供一种语音转写装置,包括:
音频数据采集单元,用于基于电子设备中的音频采集模块采集当前次的音频数据;
转写单元,用于基于所述电子设备当前次的转写模式,确定所述当前次的音频数据的转写文本;
所述转写模式是基于音频转写需求、设备能耗状态、设备网络状态和历史转写状态中的至少一种确定的,所述转写模式为在线转写或离线转写。
本发明实施例还提供一种录音笔,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音转写方法的步骤。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音转写方法的步骤。
本发明实施例提供的语音转写方法、装置、录音笔和存储介质,基于音频转写需求、设备能耗状态、设备网络状态和历史转写状态中的至少一种确定当前次的转写模式,并基于当前次的转写模式,确定当前次的音频数据的转写文本,可以满足不同的场景需求,提高了语音转写的灵活性和适用范围。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的语音转写方法的流程示意图;
图2为本发明实施例提供的麦克风的结构示意图;
图3为本发明实施例提供的语音转写装置的结构示意图;
图4为本发明实施例提供的录音笔的结构示意图。
附图标记:
201:定向麦克风;202:全向麦克风柔性电路板;203:全向麦克风。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
录音笔凭借携带方便、操作简单等优点,被广泛应用于会议、演讲记录、采访和课堂等场合。
然而,目前市面上的主流录音笔只具备录音功能,若需要获取录制音频数据的文本,则需要人工将音频数据转换为文字,效率低下,而且重复工作量大。此外,也可以把录音文件导出后,将音频数据上传到云端服务器,依托网络引擎进行转写,但这种转写方式较为固定,灵活性较差,且适用范围较窄,无法覆盖录音笔的多种应用场景。
对此,本发明实施例提供了一种语音转写方法。图1为本发明实施例提供的语音转写方法的流程示意图,如图1所示,该方法的执行主体可以是任何电子设备如录音笔、手机等,本实施例以主体为录音笔为例进行说明,具体可以是录音笔内部的处理单元,该方法包括:
步骤110,基于电子设备中的音频采集模块采集当前次的音频数据。
具体地,为了保证语音转写的实时性,以便于用户进行即时编辑,可以调用录音笔中的音频采集模块采集当前次的音频数据,并对该当前次的音频数据进行转写。其中,音频采集模块可以包括全向麦克风和定向麦克风两部分,全向麦克风和定向麦克风的数量和安装位置可以根据实际应用场景进行设定,本发明实施例对此不作具体限定。由于定向麦克风的定向收音效果好,可以远距离收音,而全向麦克风适合近场收音,降噪处理能力好,因此本发明实施例将全向麦克风和定向麦克风进行组合,以优势互补,从而提高录音效果。此处,可以利用全向麦克风和定向麦克风分别进行录音,然后对全向麦克风录制的音频数据和定向麦克风录制的音频数据进行处理,得到两路音频数据。其中一路是录制的无损音频,用于进行语音转写,以提高语音转写的准确率;另一路是录制的有损音频,用于播放。两路录音在保证转写效率和准确率的同时,还可以保证人耳的录音听感,还原最真实、高保真的现场声音。
步骤120,基于电子设备当前次的转写模式,确定当前次的音频数据的转写文本;
其中,转写模式是基于音频转写需求、设备能耗状态、设备网络状态和历史转写状态中的至少一种确定的,转写模式为在线转写或离线转写。
具体地,为了提高语音转写的灵活性,以适应不同场景下的需求,可以选择当前最合适的转写模式对当前次的音频数据进行转写。其中,转写模式为在线转写或离线转写,在线转写是指利用网络将音频数据上传并进行远程转写,而离线转写是指在录音笔本地,基于录音笔内置的离线转写模块进行语音转写。两种不同的转写模式各有优缺点,其中在线转写的转写准确性较高,功耗低,但需要牺牲一定的网络传输时间,而离线转写的实时性更高,且无需网络的支持,但转写准确性相较于在线转写略低,功耗较高。
因此,当前次的音频数据具体采用何种转写模式更合适,可以基于当前的音频转写需求、设备能耗状态、设备网络状态和历史转写状态中的一种或多种情形进行判断。此处,音频转写需求可以反映用户对当前转写效果的需求,设备能耗状态和设备网络状态可以反映录音笔当前的工作状态,从而推测出录音笔能够支持何种转写模式,而历史转写状态包括历史转写过程中用户的反馈信息,也能一定程度上反映用户对语音转写效果的需求。基于上述情形中的任意一种或多种的组合,可以确定当前最合适的转写模式。此外,若基于上述情形中的多种情形确定转写模式,则可以根据各情形在确定转写模式时的重要性,为各情形设置对应权重,然后根据各情形对应的权重,确定当前合适的转写模式。然后,基于该当前次的转写模式,确定当前次的音频数据的转写文本。
本发明实施例提供的方法,基于音频转写需求、设备能耗状态、设备网络状态和历史转写状态中的至少一种确定当前次的转写模式,并基于当前次的转写模式,确定当前次的音频数据的转写文本,可以满足不同的场景需求,提高了语音转写的灵活性和适用范围。
基于上述实施例,音频转写需求包括数据安全需求、转写精度需求以及录制质量参数中的至少一种;
设备能耗状态包括但不限于设备可用资源状态和/或设备可用电量状态;
设备网络状态包括但不限于电子设备的网络连接状态,或包括电子设备的网络连接状态和联网状态下的网络质量参数;
历史转写状态包括但不限于当前音频数据之前的历史音频数据的转写模式,以及用户对于历史音频数据的转写文本的编辑次数。
具体地,音频转写需求包括但不限于数据安全需求、转写精度需求以及录制质量参数中的一种或多种。其中,数据安全需求用于表明用户当前是否需要保证语音转写的安全性和私密性。由于离线转写无需进行网络传输,整个转写过程均在录音笔本地进行,因而该转写模式的安全性和私密性相较于在线转写更强。因此若数据安全需求表明用户想要保证语音转写的安全性,则可以选择离线转写作为当前次的转写模式。转写精度需求用于表明用户对语音转写准确性的要求。若用户对语音转写准确性的要求较高,则可以选择在线转写作为当前次的转写模式,以满足用户高准确性的需求。录制质量参数则用于表明当前次录制的音频数据的质量。若当前次录制的音频数据质量较低,即音频数据中包含有大量噪声,会影响语音转写的准确性,因此可以选择在线转写作为当前次的转写模式,以提高语音转写的准确性。
设备能耗状态包括但不限于设备可用资源状态和/或设备可用电量状态。其中,设备可用资源状态可以包括录音笔CPU、内存等资源的空闲情况。若录音笔的可用资源较少,则可能难以支持离线转写任务,因此可以选择在线转写作为当前次的转写模式,以降低录音笔的能耗。设备可用电量状态用于表明当前录音的存余电量。若录音笔电量较低,则可以选择在线转写作为当前次的转写模式,降低录音笔的能耗,从而延长录音笔电池的续航时间。
设备网络状态包括电子设备的网络连接状态,或包括电子设备的网络连接状态和联网状态下的网络质量参数。其中,网络连接状态用于表明录音笔当前是联网状态还是断网状态。若录音笔处于联网状态,则可以选择在线转写作为当前次的转写模式;若录音笔处于断网状态,则只能选择离线转写作为当前次的转写模式,以满足断网场景下的语音转写需求。在此基础上,为了提升用户体验,设备网络状态还可以包括网络连接状态和联网状态下的网络质量参数。其中,网络质量参数用于表明录音笔当前的网络传输质量,例如网络延迟时间、丢包率等。同样地,若录音笔处于断网状态,则选择离线转写作为当前次的转写模式;若录音笔处于联网状态,则还需考虑当前的网络质量参数。若当前的网络质量较高,则可以选择在线转写作为当前次的转写模式,反之则选择离线转写作为当前次的转写模式,以避免用户等待过长时间或接收的转写文本不完整,满足网络状态较差场景下的语音转写需求。
历史转写状态包括但不限于当前音频数据之前的历史音频数据的转写模式,以及用户对于历史音频数据的转写文本的编辑次数。其中,用户对于历史音频数据的转写文本的编辑次数可以反映用户对历史音频数据的转写模式的满意程度。用户对转写文本的编辑次数越多,表明用户对转写文本的质量越不满意,对历史音频数据的转写模式也越不满意。因此,可以预先设置编辑次数阈值,若用户对于历史音频数据的转写文本的编辑次数小于编辑次数阈值,则表明用户对历史音频数据的转写模式较为满意,可以继续沿用历史音频数据的转写模式,否则可以切换转写模式,使用另外一种转写模式进行当前次的转写。
基于上述任一实施例,当前次的转写模式的确定方法包括:
若设备网络状态指示为联网状态或者网络质量高于预设阈值,则基于音频转写需求、设备能耗状态和历史转写状态中的至少一种确定当前次的转写模式;
否则,将当前次的转写模式确定为离线转写。
具体地,由于网络状态的好坏是选择在线转写还是离线转写最基础的条件,因此可以将设备网络状态的优先级设置得相较于音频转写需求、设备能耗状态和历史转写状态的优先级更高,以优先考虑设备网络状态。若录音笔处于联网状态,或者联网状态下的网络质量高于预设阈值,表明录音笔当前的网络状态较佳,具备在线转写的网络条件。但具体是选择在线转写,还是离线转写,还需根据音频转写需求、录音笔能耗状态和历史转写状态中的一种或多种进一步确定,以提高转写模式选取的准确性,从而更好地满足当前的场景需求。若录音笔当前处于断网状态或网络质量低于预设阈值,表明录音笔当前无法上传音频数据或网络传输质量较差,此时在线转写已难以实现,因此可以直接确定当前次的转写模式为离线转写,以满足断网状态或网络状态较差场景下的语音转写需求。
本发明实施例提供的方法,当录音笔处于联网状态或者网络质量高于预设阈值时,基于音频转写需求、设备能耗状态和历史转写状态中的至少一种确定当前次的转写模式,否则,将当前次的转写模式确定为离线转写,通过提高网络状态的优先级,简化转写模式的确定流程,提高了转写模式确定的效率。
基于上述任一实施例,步骤120具体包括:
若当前次的转写模式为在线转写,则将当前次的音频数据上传至服务器进行转写,并接收服务器下发的转写文本;
若当前次的转写模式为离线转写,则基于电子设备的离线转写模块对当前次的音频数据进行转写,得到转写文本。
具体地,若当前次的转写模式为在线转写,则将当前次的音频数据上传至服务器,由服务器对音频数据进行转写,转写完成后再将转写文本返回给录音笔。录音笔接收到服务器下发的转写文本后,可以即时显示给用户,以供用户进行实时查看和编辑。若当前次的转写模式为离线转写,则调用录音笔本地的离线转写模块对当前次的音频数据进行转写,得到转写文本。此处,录音笔会预先将语音识别算法内置到离线转写模块中,因此离线转写模块可以直接根据其内置的语音识别算法对当前次的音频数据进行识别转写,而无需网络传输。
基于上述任一实施例,若当前次的转写模式为在线转写,则将当前次的音频数据上传至服务器进行转写,具体包括:
若当前次的转写模式为在线转写,且上一次的转写模式为离线转写,则将上一次的音频数据与当前次的音频数据上传至服务器进行转写。
具体地,由于在线转写由服务器完成,而服务器的计算能力相对于录音笔而言更强大,且存储空间也相对更大,故服务器中可以存储更丰富的词库,并调用更复杂、更精准的语音识别算法来进行语音转写。因此,在线转写的准确性相对于离线转写的准确性更高。
为了提高整个录音文件的转写准确性,若当前次的转写模式为在线转写,且上一次的转写模式为离线转写,则可以将上一次的音频数据与当前次的音频数据上传至服务器进行在线转写。此处,在对上一次的音频数据进行离线转写后,可以首先将离线转写的转写文本实时显示给用户,以便于用户实时查看。然后,将上一次进行离线转写的音频数据连同此次的音频数据一同上传至服务器进行在线转写,利用在线转写的高准确性语音识别算法对离线转写的音频数据重新进行转写,以获得更准确的转写文本,从而降低用户后期的错误校正难度。
本发明实施例提供的方法,在当前次的转写模式为在线转写,且上一次的转写模式为离线转写时,将上一次的音频数据与当前次的音频数据上传至服务器进行转写,提高了语音转写的准确性,从而降低了用户后期的错误校正难度。
基于上述任一实施例,若当前次的转写模式为离线转写,则基于电子设备的离线转写模块对当前次的音频数据进行转写,具体包括:
若当前次的转写模式为离线转写,则根据设备能耗状态,调整离线转写模块所应用的计算资源,并基于离线转写模块对当前次的音频数据进行转写。
具体地,由于离线转写需要调用录音笔本地的离线转写模块进行转写,因此功耗相对较高。为了尽可能地降低录音笔的实时功耗,以尽量延长录音笔的续航时间,并避免录音笔温度过高,可以根据录音笔当前的能耗状态,为执行离线转写任务的离线转写模块分配合适的计算资源。初始状态下,对于多核CPU而言,可以根据离线转写任务所需的能耗以及录音笔当前的能耗状态,为其分配合适数量的CPU内核,还可以为其分配占用率较低的CPU内核,本发明实施例对此不作具体限定。然后,利用选取的计算资源执行离线转写任务,对当前次的音频数据进行转写。此处,离线转写所需的能耗可以预先统计得到。
离线转写过程中,计算资源的占用情况会有变动,因此,还可以实时根据录音笔当前的能耗状态,例如剩余电量或计算资源的占用情况,对执行离线转写任务的计算资源进行调整。例如,若当前计算资源的整体占用率较高,可以减少执行离线转写任务的CPU内核数量,还可以将执行离线转写任务的占用率较高的CPU内核替换为其他占用率较低的CPU内核;若当前的剩余电量较多,可以增加离线转写模块所应用的计算资源数量,以提高离线转写的速率,反之则可以减少离线转写模块所应用的计算资源数量,以降低功耗,本发明实施例对此不作具体限定。
本发明实施例提供的方法,离线转写时,通过根据设备能耗状态,调整离线转写模块所应用的计算资源,并基于录音笔的离线转写模块对当前次的音频数据进行转写,降低了录音笔的实时功耗,可以延长录音笔的续航时间,并避免录音笔温度过高。
基于上述任一实施例,步骤120之后还包括:
若当前次的转写模式为在线转写,且上一次的转写模式为离线转写,则基于当前次的音频数据的转写文本对上一次的音频数据的转写文本进行校正。
具体地,由于在线转写所采用的词库和语音识别算法都强于离线转写所采用的词库和语音识别算法,因此,在线转写得到的转写文本相对于离线转写得到的转写文本更准确。为了提高整个录音文件的转写准确性,可以利用在线转写的转写文本比离线转写的转写文本更准确这一特点,基于在线转写的转写文本对离线转写的转写文本进行校正。具体而言,若当前次的转写模式为在线转写,且上一次的转写模式为离线转写,则可以基于当前次的音频数据的转写文本对上一次的音频数据的转写文本进行校正。
此处,当前次的音频数据和上一次的音频数据是连续的,因此当前次的转写文本与上一次的转写文本具备上下文的关系,即当前次的转写文本与上一次的转写文本在语义上是相关的。正因为当前次的转写文本与上一次的转写文本具备语义相关性,而当前次的转写文本相较于上一次的转写文本准确性更高,因此利用当前次的转写文本对上一次的转写文本进行校正,可以提高上一次的转写文本的准确性,从而提高整个录音文件的转写准确性。
本发明实施例提供的方法,通过在当前次的转写模式为在线转写,且上一次的转写模式为离线转写时,基于当前次的音频数据的转写文本对上一次的音频数据的转写文本进行校正,提高了上一次的转写文本的准确性,从而提高了整个录音文件的转写准确性。
基于上述任一实施例,本发明又一实施例提供了一种录音笔,用于执行上述任一实施例提供的语音转写方法。该录音笔的硬件包括:全向麦克风、定向麦克风、WIFI模块、4G模块、处理器、LCD屏、存储模块、本地服务、电源管理模块和充电模块。
其中,终端拾音由全向麦克风和定向麦克风两部分分别录音,经算法处理后输出2路音频数据流:一路语音数据流用于识别转写;另一路是高保真录音,用于提升录音听感。两部分录音在保证转写效率和准确率的同时,又保证了人耳的录音听感,还原最真实高保真现场声音。
定向麦克风ECM(Electret Condenser Micphone,驻极体电容麦克风)体积较大,直径达到10mm,其录音音质听感及录音保真度远高于硅麦,加上采用高采样率高精度,例如≥96KHZ、24bit,进行拾音采集,收音距离可达到15米以上,能够提供高保真的录音存储数据,还原更真实更清晰的录音现场。图2为本发明实施例提供的麦克风的结构示意图,如图2所示,定向麦克风201为两颗麦克风,放在产品顶部位置,确保无遮挡能自由定向拾音即可,还包括全向麦克风203,且全向麦克风203安装在全向麦克风柔性电路板202(FlexiblePrinted Circuit,FPC)上。
顶部两个定向麦克风之间,可以放置摄像头,以最优化结构空间的利用。定向麦克风左右两侧的侧壁需要尽可能的露出,保证收音的出孔率,并且内侧的空间完全避让,以进一步保证出孔率。定向麦克风之间放置摄像头,可以节省空间,且让拍照更顺畅,同时也增加了结构强度,防止变形。
音频编码将麦克风模拟音频(全向麦克风和定向麦克风录制的音频)转化为数字音频,同时将扬声器播放的模拟音频转化为数字信号作为回声消除参考信号,再由I2S/TDM、I2C等数字接口将所有数字音频数据传至处理器。为保证音频数据的同步性和及时性,每一路模拟音频均配置一路独立的ADC(Analog to Digital Converter,模数转换器)。
处理器接收全向麦克风和定向麦克风录制的音频数据后,进行麦克风阵列、语音增强等语音算法运算、数据调度传输、外设协同逻辑控制及系统应用的交互管理。另外,处理器含有足够运算力,可以提供本地语音识别及转写服务,即离线转写服务。该处理器支持LTE通信,同时支持蓝牙、WI-FI无线传输,满足GPS定位功能。LTE或者Wi-Fi将全向麦克风的4路原始录音数据流、定向麦克风的录音数据流及降噪处理后的识别转写录音数据流和听感录音数据流全部无缝实时或定时传输到云端和无线设备上,用于云端识别、转写、回听、检索、分析和存档。
处理器主要的功能在于音频转写需求、设备能耗状态、设备网络状态和历史转写状态等情形的判断,以及转写模式的决策。以设备网络状态为例,处理器首先获取当前的网络状态,在网络状态较好的条件下,优先使用在线转写,此转写的效果较好,且功耗较低;当网络状态变差,处理器会自动切换到离线转写,保证了转写的不中断和最佳的效果。如果网络状态一直较差,离线转写会一直进行下去,直到录音结束;但当网络状态转好时,处理器会重新转成在线转写模式,转写不中断,在保证效果的前提下降低功耗。
LCD屏采用WVGA 360*640分辨率,满足页面内容显示。同时,LCD屏还可作为交互的操控界面以及设备状态的显示界面,让录音设备更加智能。录音、场景选择、转写文字显示、翻译和设置等操作都可通过屏幕进行交互,使交互更加便捷。
存储模块用于存储系统代码、音频数据、转写数据和个人设置信息等,还可通过TYPE-C接口或无线模块将音频数据导出或上传至云空间。
电源管理模块和充电模块构成了系统的供电管理部分,其中加入5V2A充电协议,可以标准模式充电,既能提升效率,又能保证安全。
电源管理模块在在线转写和离线转写的切换过程中,可以为不同的转写模式提供不同的功率输出,保证了功能的正常运转。同时,通过转写模式的切换,可以最大限度的保证续航。
由于安全是录音系统的重要保障,因此录音笔提供密码设定功能和安全认证功能。同时,开机状态按录音键,可以一键录音。同时,还可对文件和文件夹进行加密,实现文件的安全保护。
录音笔还具备SIM托,可以插入4G卡开启网络,进行实时在线转写,音频数据上传。录音笔在录音时,还可以将音频数据同步上传到云空间,进行转写保存。其他终端可以同步听到或看到音频数据及其对应的转写文本,实现了实时同步、实时分享。
另外,录音笔还包括智能文件管理系统,通过对文件增加多维度的标签,如时间、地点、标签、场景或名称等,通过语音或文字搜索等方式搜索任意的标签,都可以推荐相关的文件。
录音笔整体采用了更科学的麦克风布局。设备主体采用铝合金材质,采用喷砂+阳极工艺,让设备大气有质感;背部使用了曲面3D陶瓷,提升了设备的整体美观度。
下面对本发明实施例提供的语音转写装置进行描述,下文描述的语音转写装置与上文描述的语音转写方法可相互对应参照。
基于上述任一实施例,图3为本发明实施例提供的语音转写装置的结构示意图,如图3所示,该装置包括音频数据采集单元310和转写单元320。
其中,音频数据采集单元310用于基于电子设备中的音频采集模块采集当前次的音频数据;
转写单元320用于基于电子设备当前次的转写模式,确定当前次的音频数据的转写文本;
转写模式是基于音频转写需求、设备能耗状态、设备网络状态和历史转写状态中的至少一种确定的,转写模式为在线转写或离线转写。
本发明实施例提供的装置,基于音频转写需求、设备能耗状态、设备网络状态和历史转写状态中的至少一种确定当前次的转写模式,并基于当前次的转写模式,确定当前次的音频数据的转写文本,可以满足不同的场景需求,提高了语音转写的灵活性和适用范围。
基于上述任一实施例,该装置还包括转写模式确定单元,转写模式确定单元具体用于:
若设备网络状态指示为联网状态或者网络质量高于预设阈值,则基于音频转写需求、设备能耗状态和历史转写状态中的至少一种确定当前次的转写模式;
否则,将当前次的转写模式确定为离线转写。
本发明实施例提供的装置,当录音笔处于联网状态或者网络延时低于预设阈值时,基于音频转写需求、设备能耗状态和历史转写状态中的至少一种确定当前次的转写模式,否则,将当前次的转写模式确定为离线转写,能够提高语音转写灵活性,同时满足断网状态或网络状态较差场景下的语音转写需求。
基于上述任一实施例,转写单元320具体包括:
在线转写单元,用于若当前次的转写模式为在线转写,则将当前次的音频数据上传至服务器进行转写,并接收服务器下发的转写文本;
离线转写单元,用于若当前次的转写模式为离线转写,则基于录音笔的离线转写模块对当前次的音频数据进行转写,得到转写文本。
基于上述任一实施例,在线转写单元具体用于:
若当前次的转写模式为在线转写,且上一次的转写模式为离线转写,则将上一次的音频数据与当前次的音频数据上传至服务器进行转写。
本发明实施例提供的装置,在当前次的转写模式为在线转写,且上一次的转写模式为离线转写时,将上一次的音频数据与当前次的音频数据上传至服务器进行转写,提高了语音转写的准确性,从而降低了用户后期的错误校正难度。
基于上述任一实施例,离线转写单元具体用于:
若当前次的转写模式为离线转写,则根据设备能耗状态,调整离线转写模块所应用的计算资源,并基于离线转写模块对当前次的音频数据进行转写。
本发明实施例提供的装置,离线转写时,通过根据设备能耗状态,调整离线转写模块所应用的计算资源,并基于录音笔的离线转写模块对当前次的音频数据进行转写,降低了录音笔的实时功耗,可以延长录音笔的续航时间,并避免录音笔温度过高。
基于上述任一实施例,该装置还包括校正单元,校正单元具体用于:
若当前次的转写模式为在线转写,且上一次的转写模式为离线转写,则基于当前次的音频数据的转写文本对上一次的音频数据的转写文本进行校正。
本发明实施例提供的装置,通过在当前次的转写模式为在线转写,且上一次的转写模式为离线转写时,基于当前次的音频数据的转写文本对上一次的音频数据的转写文本进行校正,提高了上一次的转写文本的准确性,从而提高了整个录音文件的转写准确性。
基于上述任一实施例,音频转写需求包括数据安全需求、转写精度需求以及录制质量参数中的至少一种;
设备能耗状态包括设备可用资源状态和/或设备可用电量状态;
设备网络状态包括电子设备的网络连接状态,或包括电子设备的网络连接状态和联网状态下的网络质量参数;
历史转写状态包括当前音频数据之前的历史音频数据的转写模式,以及用户对于历史音频数据的转写文本的编辑次数。
图4示例了一种录音笔的实体结构示意图,如图4所示,该录音笔可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行语音转写方法,该方法包括:基于电子设备中的音频采集模块采集当前次的音频数据;基于所述电子设备当前次的转写模式,确定所述当前次的音频数据的转写文本;所述转写模式是基于音频转写需求、设备能耗状态、设备网络状态和历史转写状态中的至少一种确定的,所述转写模式为在线转写或离线转写。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的语音转写方法,该方法包括:基于电子设备中的音频采集模块采集当前次的音频数据;基于所述电子设备当前次的转写模式,确定所述当前次的音频数据的转写文本;所述转写模式是基于音频转写需求、设备能耗状态、设备网络状态和历史转写状态中的至少一种确定的,所述转写模式为在线转写或离线转写。
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的语音转写方法,该方法包括:基于电子设备中的音频采集模块采集当前次的音频数据;基于所述电子设备当前次的转写模式,确定所述当前次的音频数据的转写文本;所述转写模式是基于音频转写需求、设备能耗状态、设备网络状态和历史转写状态中的至少一种确定的,所述转写模式为在线转写或离线转写。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音转写方法,其特征在于,包括:
基于电子设备中的音频采集模块采集当前次的音频数据;
基于所述电子设备当前次的转写模式,确定所述当前次的音频数据的转写文本;
所述转写模式是基于音频转写需求、设备能耗状态、设备网络状态和历史转写状态中的至少一种确定的,所述转写模式为在线转写或离线转写。
2.根据权利要求1所述的语音转写方法,其特征在于,所述当前次的转写模式的确定方法包括:
若所述设备网络状态指示为联网状态或者网络质量高于预设阈值,则基于所述音频转写需求、所述设备能耗状态和所述历史转写状态中的至少一种确定所述当前次的转写模式;
否则,将所述当前次的转写模式确定为离线转写。
3.根据权利要求1所述的语音转写方法,其特征在于,所述基于所述电子设备当前次的转写模式,确定所述当前次的音频数据的转写文本,具体包括:
若所述当前次的转写模式为在线转写,则将所述当前次的音频数据上传至服务器进行转写,并接收服务器下发的所述转写文本;
若所述当前次的转写模式为离线转写,则基于所述电子设备的离线转写模块对所述当前次的音频数据进行转写,得到所述转写文本。
4.根据权利要求3所述的语音转写方法,其特征在于,所述若所述当前次的转写模式为在线转写,则将所述当前次的音频数据上传至服务器进行转写,具体包括:
若所述当前次的转写模式为在线转写,且上一次的转写模式为离线转写,则将上一次的音频数据与当前次的音频数据上传至服务器进行转写。
5.根据权利要求3所述的语音转写方法,其特征在于,所述若所述当前次的转写模式为离线转写,则基于所述电子设备的离线转写模块对所述当前次的音频数据进行转写,具体包括:
若所述当前次的转写模式为离线转写,则根据所述设备能耗状态,调整所述离线转写模块所应用的计算资源,并基于所述离线转写模块对所述当前次的音频数据进行转写。
6.根据权利要求1所述的语音转写方法,其特征在于,所述基于所述电子设备当前次的转写模式,确定所述当前次的音频数据的转写文本,之后还包括:
若所述当前次的转写模式为在线转写,且上一次的转写模式为离线转写,则基于所述当前次的音频数据的转写文本对上一次的音频数据的转写文本进行校正。
7.根据权利要求1至6任一项所述的语音转写方法,其特征在于,所述音频转写需求包括数据安全需求、转写精度需求以及录制质量参数中的至少一种;
所述设备能耗状态包括设备可用资源状态和/或设备可用电量状态;
所述设备网络状态包括所述电子设备的网络连接状态,或包括所述电子设备的网络连接状态和联网状态下的网络质量参数;
所述历史转写状态包括所述当前音频数据之前的历史音频数据的转写模式,以及用户对于历史音频数据的转写文本的编辑次数。
8.一种语音转写装置,其特征在于,包括:
音频数据采集单元,用于基于电子设备中的音频采集模块采集当前次的音频数据;
转写单元,用于基于所述电子设备当前次的转写模式,确定所述当前次的音频数据的转写文本;
所述转写模式是基于音频转写需求、设备能耗状态、设备网络状态和历史转写状态中的至少一种确定的,所述转写模式为在线转写或离线转写。
9.一种录音笔,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述语音转写方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述语音转写方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011460231.2A CN112634902A (zh) | 2020-12-11 | 2020-12-11 | 语音转写方法、装置、录音笔和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011460231.2A CN112634902A (zh) | 2020-12-11 | 2020-12-11 | 语音转写方法、装置、录音笔和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112634902A true CN112634902A (zh) | 2021-04-09 |
Family
ID=75312607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011460231.2A Pending CN112634902A (zh) | 2020-12-11 | 2020-12-11 | 语音转写方法、装置、录音笔和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112634902A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113611311A (zh) * | 2021-08-20 | 2021-11-05 | 天津讯飞极智科技有限公司 | 语音转写方法、装置、录音设备和存储介质 |
CN113707151A (zh) * | 2021-08-20 | 2021-11-26 | 天津讯飞极智科技有限公司 | 语音转写方法、装置、录音设备、系统与存储介质 |
CN115472156A (zh) * | 2022-09-05 | 2022-12-13 | Oppo广东移动通信有限公司 | 语音控制方法、装置、存储介质及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040064317A1 (en) * | 2002-09-26 | 2004-04-01 | Konstantin Othmer | System and method for online transcription services |
US20070233487A1 (en) * | 2006-04-03 | 2007-10-04 | Cohen Michael H | Automatic language model update |
CN108039171A (zh) * | 2018-01-08 | 2018-05-15 | 珠海格力电器股份有限公司 | 语音控制方法及装置 |
CN109361746A (zh) * | 2018-10-16 | 2019-02-19 | 上海玖悦数码科技有限公司 | 一种物联网的文件传输方法、工牌、及可读存储介质 |
CN110246501A (zh) * | 2019-07-02 | 2019-09-17 | 苏州思必驰信息科技有限公司 | 用于会议记录的语音识别方法及系统 |
CN110853639A (zh) * | 2019-10-23 | 2020-02-28 | 天津讯飞极智科技有限公司 | 语音转写方法及相关装置 |
US20200273450A1 (en) * | 2019-02-21 | 2020-08-27 | Blue Planet Training, Inc. | System and A Method for Speech Analysis |
-
2020
- 2020-12-11 CN CN202011460231.2A patent/CN112634902A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040064317A1 (en) * | 2002-09-26 | 2004-04-01 | Konstantin Othmer | System and method for online transcription services |
US20070233487A1 (en) * | 2006-04-03 | 2007-10-04 | Cohen Michael H | Automatic language model update |
CN108039171A (zh) * | 2018-01-08 | 2018-05-15 | 珠海格力电器股份有限公司 | 语音控制方法及装置 |
CN109361746A (zh) * | 2018-10-16 | 2019-02-19 | 上海玖悦数码科技有限公司 | 一种物联网的文件传输方法、工牌、及可读存储介质 |
US20200273450A1 (en) * | 2019-02-21 | 2020-08-27 | Blue Planet Training, Inc. | System and A Method for Speech Analysis |
CN110246501A (zh) * | 2019-07-02 | 2019-09-17 | 苏州思必驰信息科技有限公司 | 用于会议记录的语音识别方法及系统 |
CN110853639A (zh) * | 2019-10-23 | 2020-02-28 | 天津讯飞极智科技有限公司 | 语音转写方法及相关装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113611311A (zh) * | 2021-08-20 | 2021-11-05 | 天津讯飞极智科技有限公司 | 语音转写方法、装置、录音设备和存储介质 |
CN113707151A (zh) * | 2021-08-20 | 2021-11-26 | 天津讯飞极智科技有限公司 | 语音转写方法、装置、录音设备、系统与存储介质 |
CN115472156A (zh) * | 2022-09-05 | 2022-12-13 | Oppo广东移动通信有限公司 | 语音控制方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11202300B2 (en) | Method and system for adjusting sound quality, and host terminal | |
CN112634902A (zh) | 语音转写方法、装置、录音笔和存储介质 | |
CN111630876B (zh) | 音频设备和音频处理方法 | |
CN109361984B (zh) | 充电盒、无线耳机、耳机套件和语音处理系统 | |
CN109246672A (zh) | 数据传输方法、装置、系统及蓝牙耳机 | |
JP7353497B2 (ja) | 能動的に対話の開始を提起するためのサーバ側処理方法及びサーバ、並びに能動的に対話の開始が提起できる音声インタラクションシステム | |
US7680514B2 (en) | Wireless speech recognition | |
CN111276135B (zh) | 网络语音识别方法、网络业务交互方法及智能耳机 | |
US20070219802A1 (en) | Wireless speech recognition | |
WO2017166598A1 (zh) | 一种耳机的声道调节方法及装置、电子设备及存储介质 | |
CN112581965A (zh) | 转写方法、装置、录音笔和存储介质 | |
CN109637534A (zh) | 语音遥控方法、系统、受控装置及计算机可读存储介质 | |
CN108228134A (zh) | 一种任务语音的处理方法、装置、智能音箱和存储介质 | |
CN112562688A (zh) | 语音转写方法、装置、录音笔和存储介质 | |
CN110351419B (zh) | 一种智能语音系统及其语音处理方法 | |
US11580954B2 (en) | Systems and methods of handling speech audio stream interruptions | |
CN116795753A (zh) | 音频数据的传输处理的方法及电子设备 | |
CN113611296A (zh) | 语音识别装置和拾音设备 | |
CN108877799A (zh) | 一种语音控制装置及方法 | |
CN109102816A (zh) | 编码控制方法、装置以及电子设备 | |
CN113065879A (zh) | 一种数据流质检方法及系统 | |
CN109147791A (zh) | 一种速记系统和方法 | |
CN113707151A (zh) | 语音转写方法、装置、录音设备、系统与存储介质 | |
CN108399918B (zh) | 智能设备连接方法、智能设备及终端 | |
CN108235185A (zh) | 音源输入客户端设备、遥控器,以及播放音乐的系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210409 |
|
RJ01 | Rejection of invention patent application after publication |