CN114495941A - 单通道音频转文本的方法、装置、电子设备及存储介质 - Google Patents

单通道音频转文本的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114495941A
CN114495941A CN202111655432.2A CN202111655432A CN114495941A CN 114495941 A CN114495941 A CN 114495941A CN 202111655432 A CN202111655432 A CN 202111655432A CN 114495941 A CN114495941 A CN 114495941A
Authority
CN
China
Prior art keywords
audio
text
participant
transcribed
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111655432.2A
Other languages
English (en)
Inventor
陈文明
黄振港
张世豪
张世明
朱浩华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Emeet Technology Co ltd
Original Assignee
Shenzhen Emeet Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Emeet Technology Co ltd filed Critical Shenzhen Emeet Technology Co ltd
Priority to CN202111655432.2A priority Critical patent/CN114495941A/zh
Publication of CN114495941A publication Critical patent/CN114495941A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了单通道音频转文本的方法、装置、电子设备及存储介质,所述单通道音频转文本的方法包括:获取会议场景中两次语音停顿之间的参会人发言的待转写音频;获取所述待转写音频中各参会人的角色音量信息;根据各所述角色音量信息,在各参会人中确定理论输出所述待转写音频的目标参会人;将所述待转写音频转写成具有所述目标参会人的身份标识的音频文本。本申请解决了多角色参与的音频转写成具有参会人信息的音频文本对CPU性能要求较高的技术问题。

Description

单通道音频转文本的方法、装置、电子设备及存储介质
技术领域
本申请涉及音频处理技术领域,尤其涉及一种单通道音频转文本的方法、装置、电子设备及存储介质。
背景技术
在目前各类社会活动,尤其是商业活动中,几乎每时每刻都有人在进行各种会议,会议结束后也都需要根据会议中讨论的内容以及形成的决议等,做成会议记录发给与会人员,或者存档,目前,若要实时将多角色参与的音频转写成能够区分说话人的文本,需要多通道同时分别转写不同的参会人的音频,对CPU(central processing unit,中央处理器)性能要求较高。
发明内容
本申请的主要目的在于提供一种单通道音频转文本的方法、装置、电子设备及存储介质,旨在解决多角色参与的音频转写成具有参会人信息的音频文本对CPU性能要求较高的技术问题。
为实现上述目的,本申请提供一种单通道音频转文本的方法,所述单通道音频转文本的方法包括:
获取会议场景中两次语音停顿之间的参会人发言的待转写音频;
获取所述待转写音频中各参会人的角色音量信息;
根据各所述角色音量信息,在各参会人中确定理论输出所述待转写音频的目标参会人;
将所述待转写音频转写成具有所述目标参会人的身份标识的音频文本。
可选地,所述获取所述待转写音频中各参会人的角色音量信息的步骤包括:
将所述待转写音频分解为各参会人的角色音频;
分别从各所述角色音频中获取各参会人对应的角色音量信息。
可选地,所述角色音量信息包括片段音量值,所述分别从各所述角色音频中获取各参会人对应的角色音量信息的步骤包括:
以预设单元时间为时间周期,在时序上分割各所述角色音频,得到每个所述时间周期中的子角色音频组;
获取各所述子角色音频组中各参会人的子角色音频的片段音量值。
可选地,所述根据各所述角色音量信息,在各参会人中确定理论输出所述待转写音频的目标参会人的步骤包括:
分别比较每个时间周期对应的全部片段音量值;
将每个时间周期中片段音量值最大的子角色音频对应的参会人,确定为本时间周期的时间周期角色;
将重复次数最多的时间周期角色确定为所述待转写音频的目标参会人。
可选地,所述将所述待转写音频转写成具有所述目标参会人的身份标识的音频文本的步骤包括:
将每个时间周期对应的全部子角色音频合成一个音频包;
将各所述音频包按照时间先后顺序依次转写成音频段文本,并将各所述音频段文本按照转写先后顺序连接得到初始音频文本;
根据所述目标参会人标记所述初始音频文本,得到具有所述目标参会人的身份标识的音频文本。
可选地,所述将所述待转写音频转写成具有所述目标参会人的身份标识的音频文本的步骤之后,还包括:
根据各所述待转写音频片段的接收时间信息生成所述音频文本的时间标记;
通过显示设备根据所述时间标记展示所述音频文本。
可选地,所述根据各所述待转写音频片段的接收时间信息生成所述音频文本的时间标记的步骤之后,还包括:
保存所述音频文本以及所述音频文本的时间标记。
本申请还提供一种单通道音频转文本的装置,所述单通道音频转文本的装置应用于单通道音频转文本的设备,所述单通道音频转文本的装置包括:
接收模块,用于获取会议场景中两次语音停顿之间的参会人发言的待转写音频;
获取模块,用于获取所述待转写音频中各参会人的角色音量信息;
目标参会人确定模块,用于根据各所述角色音量信息,在各参会人中确定理论输出所述待转写音频的目标参会人;
转写模块,用于将所述待转写音频转写成具有所述目标参会人的身份标识的音频文本。
本申请还提供一种电子设备,所述电子设备为实体设备,所述电子设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述单通道音频转文本的方法的程序,所述单通道音频转文本的方法的程序被处理器执行时可实现如上述的单通道音频转文本的方法的步骤。
本申请还提供一种存储介质,所述存储介质为计算机可读存储介质,所述计算机可读存储介质上存储有实现单通道音频转文本的方法的程序,所述单通道音频转文本的方法的程序被处理器执行时实现如上述的单通道音频转文本的方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的单通道音频转文本的方法的步骤。
在目前各类社会活动,尤其是商业活动中,几乎每时每刻都有人在进行各种会议,会议结束后也都需要根据会议中讨论的内容以及形成的决议等,做成会议记录发给与会人员,或者存档,目前,若要实时将多角色参与的音频转写成能够区分说话人的文本,需要多通道同时分别转写不同的参会人的音频,对CPU(central processing unit,中央处理器)性能要求较高。
本申请提供了一种单通道音频转文本的方法、装置、电子设备及存储介质,通过获取会议场景中两次语音停顿之间的参会人发言的待转写音频,获取所述待转写音频中各参会人的角色音量信息,实现了多参会人参与的待转写音频中各参会人的角色音量信息的获取,根据角色音量信息可以确定在所述待转写音频中各参会人的输出的信息量,进而通过根据各所述角色音量信息,在各参会人中确定理论输出所述待转写音频的目标参会人,实现了所述待转写音频中理论输出所述待转写音频的目标参会人的确定,通过将所述待转写音频转写成具有所述目标参会人的身份标识的音频文本,实现了多人参与的待转写音频的单通道转写,有效降低对用户设备CPU的要求,且根据角色音量信息判断出所述待转写音频中理论输出所述待转写音频的目标参会人,克服了单通道转写无法区分参会人得到具有参会人信息的文本的问题,实现了通过单通道转写得到了具有准确的参会人信息的音频文本,克服了多角色参与的音频转写成具有参会人信息的音频文本对CPU性能要求较高的技术问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请单通道音频转文本的方法一实施例的流程示意图;
图2为本申请单通道音频转文本的方法另一实施例的流程示意图;
图3为本申请单通道音频转文本的方法一实施例的场景示意图;
图4为本申请实施例中单通道音频转文本的方法涉及的硬件运行环境的设备结构示意图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
本申请实施例提供一种单通道音频转文本的方法,在本申请单通道音频转文本的方法的第一实施例中,参照图1,所述单通道音频转文本的方法包括:
步骤S10,获取会议场景中两次语音停顿之间的参会人发言的待转写音频;
在本实施例中,需要说明的是,本实施例应用于用户设备,在会议场景中,所述用户设备可以通过麦克风采集本地会议过程中各参会人发出的声音信号,也可以通过网络连接接收参与网络会议各端发送的音频信号,进而通过用户设备本身的功能模块实现音频处理、目标参会人确定和音频转写等功能,各所述功能模块之间通过线束连接,无需依赖网络。
具体地,实时获取会议场景中两次语音停顿之间的参会人发言的待转写音频,其中,所述语音停顿为会议过程中出现音频信号间断的时间,所述语音停顿可以根据实际情况或测试结果等进行设定,例如当检测到两个或两个以上的参会人的音频信号出现交替的时间,此时可能是参会人发生了变更,当检测到音频信号突然减小到预设强度的时间等,容易理解的是,完整的会议音频开始的时间作为第一次语音停顿,当所述待转写音频开始后第一次检测到语音停顿时,作为第二次语音停顿,第一次语音停顿与第二次语音停顿之间的音频也是一段待转写音频,容易理解的是,所述待转写音频可以是用户设备通过麦克风采集本地会议过程中各参会人发出的声音信号后转换得到,也可以是用户设备通过网络连接接收参与网络会议的各端发送的。
步骤S20,获取所述待转写音频中各参会人的角色音量信息;
在本实施例中,具体地,根据预设参会人信息,从所述待转写音频中获取各参会人的角色音量信息,其中,所述参会人是所述待转写音频中输出信息的发言人,所述参会人信息包括声纹信息、方位信息或音频传输通道信息等,所述参会人信息可以通过数据库获取或在会议开始之前进行输入等进行设定,所述角色音量信息为一段时间内每各参会人对应的音频信号的音量信息,可以是整段待转写音频中每各参会人对应的音频信号的平均音量值,也可以是所述待转写音频中预设时间周期中每各参会人对应的音频信号的平均音量值,可以根据实际情况进行设定。
可选地,所述获取所述待转写音频中各参会人的角色音量信息的步骤包括:
步骤A10,将所述待转写音频分解为各参会人的角色音频;
步骤A20,分别从各所述角色音频中获取各参会人对应的角色音量信息。
在本实施例中,具体地,根据预设参会人信息,从所述待转写音频中识别出具有各参会人各自对应的参会人信息的音频信号,将具有相同参会人信息的音频信号合成一个角色音频,分别从各所述角色音频中获取各参会人对应的角色音量信息,其中,所述角色音频是所述待转写音频中属于同一各参会人的音频信号。
可选地,所述角色音量信息包括片段音量值,所述分别从各所述角色音频中获取各参会人对应的角色音量信息的步骤包括:
步骤A21,以预设单元时间为时间周期,在时序上分割各所述角色音频,得到每个所述时间周期中的子角色音频组;
步骤A22,获取各所述子角色音频组中各参会人的子角色音频的片段音量值。
在本实施例中,具体地,预先设定分割角色音频的单元时间,以预设单元时间为时间周期,在时序上,每间隔所述时间周期对所述角色音频进行分割,得到具有相同单位时间长度的至少一个子角色音频,计算各所述子角色音频组中各参会人的子角色音频的片段平均音量值,将所述片段平均音量值作为对应的子角色音频这一片段的片段音量值,容易理解的是,由于文本的转换可以与会议的进程同时进行的,所述在时序上分割各所述角色音频的方式是,从早到晚依次将各所述角色音频分割成子角色音频,进而使得先接收到的待转写音频信号可以先进行运算和处理,可以有效提高音频转写成文字的速度,有效缩短延时,使得音频文本与音频更加同步,将各所述角色音频分割成子角色音频,进行片段化的运算和处理,可以有效减少最后一次性处理较大的音频耗费的时间,进而缩短延时,使得实时转写的效果更好。
步骤S30,根据各所述角色音量信息,在各参会人中确定理论输出所述待转写音频的目标参会人。
在本实施例中,具体地,比较各所述角色音量信息,根据各所述角色音量信息在全部角色音量信息中所占的比重,在各参会人中确定理论输出所述待转写音频的目标参会人,其中,所述目标参会人为所述待转写音频中主要输出信息的人,所述各所述角色音量信息在全部角色音量信息中所占的比重,可以是在所述待转写音频的音量值之和中,各角色的音量值的占比,也可以是在所述待转写音频中,确定在各时间周期或各时刻的音频片段中,音量值最大的最大音量角色,进而确定各参会人在所述最大音量角色中的占比。
可选地,所述根据各所述角色音量信息,在各参会人中确定理论输出所述待转写音频的目标参会人的步骤包括:
步骤S31,分别比较每个时间周期对应的全部片段音量值;
在本实施例中,具体地,根据时间周期的时间先后顺序,从先到后依次比较每个时间周期对应的全部片段音量值的大小。
步骤S32,将每个时间周期中片段音量值最大的子角色音频对应的参会人,确定为本时间周期的时间周期角色;
在本实施例中,具体地,选出每个时间周期对应的全部片段音量值中最大的片段音量值对应的目标参会人音频片段,将所述目标参会人音频片段对应的参会人确定为本时间周期的时间周期角色,其中,所述时间周期角色为在所述时间周期内主要输出信息的参会人,容易理解的是,所述时间周期角色属于所述参会人中的一个,在一种可实施的方式中,如图3所示,时间周期从左到右按时间从先到后的顺序依次排列,获取到每个时间周期不同角色片段的片段音量值,进行时间周期内的比较,在左边第一个时间周期内,角色C的音量值最大,则将角色C作为该时间周期的时间周期角色,在左边第三个时间周期内,角色B的音量值最大,则将角色B作为该时间周期的时间周期角色。
步骤S33,将重复次数最多的时间周期角色确定为所述待转写音频的目标参会人。
在本实施例中,具体地,获取所述待转写音频的全部时间周期对应的时间周期角色,并计算各所述时间周期角色的重复次数,将重复次数最多的时间周期角色确定为所述待转写音频的目标参会人,在一种可实施的方式中,如图3所示,若所述预设时间周期为图中所示的从左到右的五个时间周期,从左到右五个时间周期对应的时间周期角色分别为角色C、角色C、角色B、角色A和角色C,其中,角色C的重复次数最多,则将角色C作为所述待转写音频的目标参会人。
步骤S40,将所述待转写音频转写成具有所述目标参会人的身份标识的音频文本。
在本实施例中,具体地,将所述待转写音频转写成初始文本,并根据确定的所述目标参会人标记所述初始文本,生成具有所述目标参会人的身份标识的音频文本,其中,所述目标参会人的身份标识为所述音频文本的标记信息,包括目标参会人文本标识和目标参会人位置标识等,用于使得用户不仅可以通过音频文本知道所述待转写音频的文本信息,还可以知道所述待转写音频中的声音是谁发出的,所述根据确定的所述目标参会人标记所述初始文本的方式,可以是在所述初始文本的基础上,增加目标参会人的说明文本,例如在所述初始文本之前增加“目标参会人:”的说明文本,以表示冒号后面的内容是出自于所述目标参会人,也可以是将所述初始文本的显示位置信息标记为所述目标参会人对应的位置,以使得所述音频文本显示时,用户可以直观地知晓音频文本以及待转写音频是出自于所述目标参会人。
在一种可实施的方式中,所述将所述待转写音频转写成具有所述目标参会人的身份标识的音频文本的步骤包括:
根据预设时间周期的时间先后顺序分割各所述待转写音频,依次得到至少一个待转写音频片段;
将各所述待转写音频片段按照所述时间周期的时间先后顺序依次转写成音频段文本,并将各所述音频段文本按照所述时间周期的时间先后顺序连接得到初始音频文本;
根据所述目标参会人标记所述初始音频文本,得到具有所述目标参会人的身份标识的音频文本。
可选地,所述将所述待转写音频转写成具有所述目标参会人的身份标识的音频文本的步骤之后,还包括:
步骤B10,根据各所述待转写音频片段的接收时间信息生成所述音频文本的时间标记;
步骤B20,通过显示设备根据所述时间标记展示所述音频文本。
在本实施例中,具体地,获取所述待转写音频片段的接收时间信息,根据所述接收时间信息生成所述音频文本的时间标记,通过显示设备在所述时间标记对应的时间点展示所述音频文本,其中,所述时间标记是所述音频文本对应的时间信息,所述根据所述接收时间信息生成所述音频文本的时间标记的方式,可以是将所述接收时间信息作为所述音频文本的时间标记,也可以是将所述接收时间信息延迟预设延迟时间后得到的时间信息作为所述音频文本的时间标记,所述预设延迟时间可以根据实际情况和实际测试确定。
在本实施例中,通过生成时间标记并控制所述音频文本根据时间标记进行展示的方式,可以实现待转写音频和音频文本类似视频字幕般的同步展示,在会议场景中,不同参会人说的话能够区分展示,不会混在一起,且是同步展示当前音频内容的音频文本,对于当下没有听清楚的内容,可以通过音频文本清楚得知,有效提升会议体验和会议效果。
可选地,所述根据各所述待转写音频片段的接收时间信息生成所述音频文本的时间标记的步骤之后,还包括:
保存所述音频文本以及所述音频文本的时间标记。
在本实施例中,具体地将所述音频文本以及所述音频文本的时间标记保存至本地或服务器中,作为会议记录,以便会议结束之后随时可以查看。
在本实施例中,通过获取会议场景中两次语音停顿之间的参会人发言的待转写音频,获取所述待转写音频中各参会人的角色音量信息,实现了多参会人参与的待转写音频中各参会人的角色音量信息的获取,根据角色音量信息可以确定在所述待转写音频中各参会人的输出的信息量,进而通过根据各所述角色音量信息,在各参会人中确定理论输出所述待转写音频的目标参会人,实现了所述待转写音频中理论输出所述待转写音频的目标参会人的确定,通过将所述待转写音频转写成具有所述目标参会人的身份标识的音频文本,实现了多人参与的待转写音频的单通道转写,有效降低对用户设备CPU的要求,且根据角色音量信息判断出所述待转写音频中理论输出所述待转写音频的目标参会人,克服了单通道转写无法区分参会人得到具有参会人信息的文本的问题,实现了通过单通道转写得到了具有准确的参会人信息的音频文本,克服了多角色参与的音频转写成具有参会人信息的音频文本对CPU性能要求较高的技术问题。
进一步地,参照图4,基于本申请上述实施例,在本申请另一实施例中,与上述实施例相同或相似的内容,可以参考上文介绍,后续不再赘述。在此基础上,所述将所述待转写音频转写成具有所述目标参会人的身份标识的音频文本的步骤包括:
步骤S41,将每个时间周期对应的全部子角色音频合成一个音频包;
在本实施例中,具体地,根据所述时间周期的时间先后顺序依次获取每个时间周期对应的全部子角色音频,将属于相同时间周期的全部子角色音频合成一个音频包。
步骤S42,将各所述音频包按照时间先后顺序依次转写成音频段文本,并将各所述音频段文本按照转写先后顺序连接得到初始音频文本;
在本实施例中,具体地,将各所述音频包按照所述音频包所属时间周期的时间先后顺序,依次转写成音频段文本,并将各所述音频段文本按照转写后得到所述音频段文本的时间先后顺序连接得到初始音频文本。
步骤S43,根据所述目标参会人标记所述初始音频文本,得到具有所述目标参会人的身份标识的音频文本。
在本实施例中,具体地,根据确定的所述待转写音频对应的目标参会人标记所述初始音频文本,得到具有所述目标参会人的身份标识的音频文本。
在本实施例中,通过将所述待转写音频根据时间周期分割成一个个音频包,并依次将音频包转写成文本的方式,既可以实现单通道转写,又由于音频具有的时间属性,在一整段待转写音频传输的过程中,即可开始进行转写,无需等到整段待转写音频接收完毕之后,再进行转写,可以有效提升音频转写成文本的整体速度,且时间周期的分割不仅提高了转写的效率,还可以实现目标参会人的确定,通过处理过程的复用可以有效降低对CPU性能的要求,实现了通过单通道转写得到了具有准确的参会人信息的音频文本,克服了多角色参与的音频转写成具有参会人信息的音频文本对CPU性能要求较高的技术问题。
进一步地,本申请实施例还提供一种单通道音频转文本的装置,所述单通道音频转文本的装置应用于单通道音频转文本的设备,所述单通道音频转文本的装置包括:
接收模块,用于获取会议场景中两次语音停顿之间的参会人发言的待转写音频;
获取模块,用于获取所述待转写音频中各参会人的角色音量信息;
目标参会人确定模块,用于根据各所述角色音量信息,在各参会人中确定理论输出所述待转写音频的目标参会人;
转写模块,用于将所述待转写音频转写成具有所述目标参会人的身份标识的音频文本。
可选地,所述获取模块,还用于:
将所述待转写音频分解为各参会人的角色音频;
分别从各所述角色音频中获取各参会人对应的角色音量信息。
可选地,所述获取模块,还用于:
以预设单元时间为时间周期,在时序上分割各所述角色音频,得到每个所述时间周期中的子角色音频组;
获取各所述子角色音频组中各参会人的子角色音频的片段音量值。
可选地,所述目标参会人确定模块,还用于:
分别比较每个时间周期对应的全部片段音量值;
将每个时间周期中片段音量值最大的子角色音频对应的参会人,确定为本时间周期的时间周期角色;
将重复次数最多的时间周期角色确定为所述待转写音频的目标参会人。
可选地,所述转写模块,还用于:
将每个时间周期对应的全部子角色音频合成一个音频包;
将各所述音频包按照时间先后顺序依次转写成音频段文本,并将各所述音频段文本按照转写先后顺序连接得到初始音频文本;
根据所述目标参会人标记所述初始音频文本,得到具有所述目标参会人的身份标识的音频文本。
可选地,所述转写模块,还用于:
根据各所述待转写音频片段的接收时间信息生成所述音频文本的时间标记;
通过显示设备根据所述时间标记展示所述音频文本。
可选地,所述转写模块,还用于:
保存所述音频文本以及所述音频文本的时间标记。
本发明提供的单通道音频转文本的装置,采用上述实施例中的单通道音频转文本的方法,解决了多角色参与的音频转写成具有参会人信息的音频文本对CPU性能要求较高的技术问题。与现有技术相比,本发明实施例提供的单通道音频转文本的装置的有益效果与上述实施例提供的单通道音频转文本的方法的有益效果相同,且该单通道音频转文本的装置中的其他技术特征与上述实施例方法公开的特征相同,在此不做赘述。
进一步地,本发明实施例提供一种电子设备,电子设备包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述实施例中的单通道音频转文本的方法。
下面参考图3,其示出了适于用来实现本公开实施例的电子设备的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图3示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图3所示,电子设备可以包括处理装置(例如中央处理器、图形处理器等),其可以根据存储在只读存储器(ROM)中的程序或者从存储装置加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有电子设备操作所需的各种程序和数据。处理装置、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
通常,以下系统可以连接至I/O接口:包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置;包括例如磁带、硬盘等的存储装置;以及通信装置。通信装置可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种系统的电子设备,但是应理解的是,并不要求实施或具备所有示出的系统。可以替代地实施或具备更多或更少的系统。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置从网络上被下载和安装,或者从存储装置被安装,或者从ROM被安装。在该计算机程序被处理装置执行时,执行本公开实施例的方法中限定的上述功能。
本发明提供的电子设备,采用上述实施例中的单通道音频转文本的方法,解决了多角色参与的音频转写成具有参会人信息的音频文本对CPU性能要求较高的技术问题。与现有技术相比,本发明实施例提供的电子设备的有益效果与上述实施例提供的单通道音频转文本的方法的有益效果相同,且该电子设备中的其他技术特征与上述实施例方法公开的特征相同,在此不做赘述。
应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式的描述中,具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
进一步地,本实施例提供一种计算机可读存储介质,具有存储在其上的计算机可读程序指令,计算机可读程序指令用于执行上述实施例中的单通道音频转文本的方法。
本发明实施例提供的计算机可读存储介质例如可以是U盘,但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、系统或者器件使用或者与其结合使用。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读存储介质可以是电子设备中所包含的;也可以是单独存在,而未装配入电子设备中。
上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被电子设备执行时,使得电子设备:当车辆完成泊车时,获取泊车信息和车位信息;根据所述泊车信息和所述车位信息计算得到至少一个实际泊车误差;根据各所述实际泊车误差确定目标单通道音频转文本的结果,并输出所述目标单通道音频转文本的结果的提示信息。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该单元本身的限定。
本发明提供的计算机可读存储介质,存储有用于执行上述单通道音频转文本的方法的计算机可读程序指令,解决了多角色参与的音频转写成具有参会人信息的音频文本对CPU性能要求较高的技术问题。与现有技术相比,本发明实施例提供的计算机可读存储介质的有益效果与上述实施例提供的单通道音频转文本的方法的有益效果相同,在此不做赘述。
进一步地,本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的单通道音频转文本的方法的步骤。
本申请提供的计算机程序产品解决了多角色参与的音频转写成具有参会人信息的音频文本对CPU性能要求较高的技术问题。与现有技术相比,本发明实施例提供的计算机程序产品的有益效果与上述实施例提供的单通道音频转文本的方法的有益效果相同,在此不做赘述。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。

Claims (10)

1.一种单通道音频转文本的方法,其特征在于,所述单通道音频转文本的方法包括:
获取会议场景中两次语音停顿之间的参会人发言的待转写音频;
获取所述待转写音频中各参会人的角色音量信息;
根据各所述角色音量信息,在各参会人中确定理论输出所述待转写音频的目标参会人;
将所述待转写音频转写成具有所述目标参会人的身份标识的音频文本。
2.如权利要求1所述单通道音频转文本的方法,其特征在于,所述获取所述待转写音频中各参会人的角色音量信息的步骤包括:
将所述待转写音频分解为各参会人的角色音频;
分别从各所述角色音频中获取各参会人对应的角色音量信息。
3.如权利要求2所述单通道音频转文本的方法,其特征在于,所述角色音量信息包括片段音量值,所述分别从各所述角色音频中获取各参会人对应的角色音量信息的步骤包括:
以预设单元时间为时间周期,在时序上分割各所述角色音频,得到每个所述时间周期中的子角色音频组;
获取各所述子角色音频组中各参会人的子角色音频的片段音量值。
4.如权利要求3所述单通道音频转文本的方法,其特征在于,所述根据各所述角色音量信息,在各参会人中确定理论输出所述待转写音频的目标参会人的步骤包括:
分别比较每个时间周期对应的全部片段音量值;
将每个时间周期中片段音量值最大的子角色音频对应的参会人,确定为本时间周期的时间周期角色;
将重复次数最多的时间周期角色确定为所述待转写音频的目标参会人。
5.如权利要求3所述单通道音频转文本的方法,其特征在于,所述将所述待转写音频转写成具有所述目标参会人的身份标识的音频文本的步骤包括:
将每个时间周期对应的全部子角色音频合成一个音频包;
将各所述音频包按照时间先后顺序依次转写成音频段文本,并将各所述音频段文本按照转写先后顺序连接得到初始音频文本;
根据所述目标参会人标记所述初始音频文本,得到具有所述目标参会人的身份标识的音频文本。
6.如权利要求1所述单通道音频转文本的方法,其特征在于,所述将所述待转写音频转写成具有所述目标参会人的身份标识的音频文本的步骤之后,还包括:
根据各所述待转写音频片段的接收时间信息生成所述音频文本的时间标记;
通过显示设备根据所述时间标记展示所述音频文本。
7.如权利要求6所述单通道音频转文本的方法,其特征在于,所述根据各所述待转写音频片段的接收时间信息生成所述音频文本的时间标记的步骤之后,还包括:
保存所述音频文本以及所述音频文本的时间标记。
8.一种单通道音频转文本的装置,其特征在于,所述单通道音频转文本的装置包括:
接收模块,用于获取会议场景中两次语音停顿之间的参会人发言的待转写音频;
获取模块,用于获取所述待转写音频中各参会人的角色音量信息;
目标参会人确定模块,用于根据各所述角色音量信息,在各参会人中确定理论输出所述待转写音频的目标参会人;
转写模块,用于将所述待转写音频转写成具有所述目标参会人的身份标识的音频文本。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7中任一项所述的单通道音频转文本的方法的步骤。
10.一种存储介质,其特征在于,所述存储介质为计算机可读存储介质,所述计算机可读存储介质上存储有实现单通道音频转文本的方法的程序,所述实现单通道音频转文本的方法的程序被处理器执行以实现如权利要求1至7中任一项所述单通道音频转文本的方法的步骤。
CN202111655432.2A 2021-12-30 2021-12-30 单通道音频转文本的方法、装置、电子设备及存储介质 Pending CN114495941A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111655432.2A CN114495941A (zh) 2021-12-30 2021-12-30 单通道音频转文本的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111655432.2A CN114495941A (zh) 2021-12-30 2021-12-30 单通道音频转文本的方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114495941A true CN114495941A (zh) 2022-05-13

Family

ID=81507701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111655432.2A Pending CN114495941A (zh) 2021-12-30 2021-12-30 单通道音频转文本的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114495941A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116015996A (zh) * 2023-03-28 2023-04-25 南昌航天广信科技有限责任公司 一种数字会议音频处理方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116015996A (zh) * 2023-03-28 2023-04-25 南昌航天广信科技有限责任公司 一种数字会议音频处理方法及系统

Similar Documents

Publication Publication Date Title
CN110769309B (zh) 用于展示音乐点的方法、装置、电子设备和介质
CN111739553A (zh) 会议声音采集、会议记录以及会议记录呈现方法和装置
US11595591B2 (en) Method and apparatus for triggering special image effects and hardware device
CN110070884B (zh) 音频起始点检测方法和装置
CN108073572B (zh) 信息处理方法及其装置、同声翻译系统
CN110992963A (zh) 网络通话方法、装置、计算机设备及存储介质
CN111785268A (zh) 语音交互响应速度的测试方法、装置及电子设备
CN112286610A (zh) 一种互动处理方法、装置、电子设备和存储介质
CN111897976A (zh) 一种虚拟形象合成方法、装置、电子设备及存储介质
EP4192021A1 (en) Audio data processing method and apparatus, and device and storage medium
CN111540344B (zh) 声学网络模型训练方法、装置及电子设备
CN110855626B (zh) 电子白板丢包处理方法、系统、介质和电子设备
CN111862705A (zh) 一种提示直播教学目标的方法、装置、介质和电子设备
CN114495941A (zh) 单通道音频转文本的方法、装置、电子设备及存储介质
CN110070885B (zh) 音频起始点检测方法和装置
CN112242143A (zh) 一种语音交互方法、装置、终端设备及存储介质
CN113923390A (zh) 视频录制方法、装置、设备及存储介质
CN110109597B (zh) 一种歌单切换方法、装置、系统、终端和存储介质
CN113223487A (zh) 一种信息识别方法及装置、电子设备和存储介质
CN113593527B (zh) 一种生成声学特征、语音模型训练、语音识别方法及装置
CN112052358B (zh) 显示图像的方法、装置、电子设备和计算机可读介质
CN111709342B (zh) 字幕分割方法、装置、设备及存储介质
CN112309390B (zh) 信息交互方法和装置
CN107886956B (zh) 音频识别方法、装置及计算机存储介质
CN112330996A (zh) 一种直播教学的控制方法、装置、介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination