CN116863966B - 一种单路引擎多麦克风语音转写系统与角色分离方法 - Google Patents
一种单路引擎多麦克风语音转写系统与角色分离方法 Download PDFInfo
- Publication number
- CN116863966B CN116863966B CN202311119975.1A CN202311119975A CN116863966B CN 116863966 B CN116863966 B CN 116863966B CN 202311119975 A CN202311119975 A CN 202311119975A CN 116863966 B CN116863966 B CN 116863966B
- Authority
- CN
- China
- Prior art keywords
- audio
- encoder
- voice
- channel
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013518 transcription Methods 0.000 title claims abstract description 115
- 230000035897 transcription Effects 0.000 title claims abstract description 115
- 238000000926 separation method Methods 0.000 title claims abstract description 23
- 238000012163 sequencing technique Methods 0.000 claims abstract description 9
- 238000011156 evaluation Methods 0.000 claims description 47
- 238000012545 processing Methods 0.000 claims description 25
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 238000000265 homogenisation Methods 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims description 12
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 5
- 239000002699 waste material Substances 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/40—Support for services or applications
- H04L65/403—Arrangements for multi-party communication, e.g. for conferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/762—Media network packet handling at the source
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及语音转写技术领域,特别是指一种单路引擎多麦克风语音转写系统及角色分离方法,包括音频采集单元、音频编码器、语音识别引擎ASR、语音转写客户端、语音转写服务器、字幕显示大屏;位于会场中的每位参会人面前放置会议单元麦克风,会议单元麦克风通过音频线接入音频编码器,音频编码器通过网络连接语音转写服务器、语音转写服务器通过网络分别连接语音转写客户端、语音转写引擎ASR以及字幕显示大屏。本发明利用单路引擎通过排序转写进行多个会议单元麦克风的语音转写,实现人员角色分离,不需要人员二次编辑,即可实现转写文本的角色分离,减少了资源浪费,更加适用于多人同时说话的会议中的语音识别实时转写。
Description
技术领域
本发明涉及语音转写技术领域,特别是指一种单路引擎多麦克风语音转写系统及角色分离方法。
背景技术
随着语音转写技术的成熟,利用语音转写设备记录不同场景的语音信息已得到广泛的应用,在日常生活中,人们在访谈,直播,演讲等不同场景中都会使用录音设备来记录相关的语音信息,但由于语音录入场景复杂、发言者人数较多,多人同时说话时,目前的会议中的语音识别实时转写技术讲转写的文字返回给后端,由人工手动将角色名称绑定后,再发送给显示端,相关技术中,通常需要人工参与过多,操作复杂,使得系统准确性降低。目前单路引擎多麦克风语音转写系统采用单路引擎,通过排序转写进行多个麦克风的语音转写,并且人员角色分离,不需要人员二次编辑,只需要提前在客户端将人员信息输入并绑定,即可在界面实现转写文本的角色分离。
中国专利公开号:CN110797043B,公开了一种会议语音实时转写方法,该方法包括:接收多个麦克风阵列所采集的语音信号;对麦克风阵列采集的语音信号进行差分处理;通过盲源分离对差分处理后的语音信号进行处理,提取出语音信号中说话的参会人员各自的语音信号;根据盲源分离后的语音信号进行位置估计,确定出说话的参会人员各自所在的参会区域;对确定出说话的参会区域的语音信号进行语音识别,实时转化成对应的文字。
当前的语音转写系统结构复杂,语音转写准确率低。
发明内容
为此,本发明的目的是提供一种单路引擎多麦克风语音转写系统及角色分离方法,具有系统结构简单,减少人工参与,语音转写准确率高的优点。
为实现上述目的,本发明提供一种单路引擎多麦克风语音转写系统及角色分离方法,包括,
音频采集单元,其由若干麦克风组成,对于任一所述麦克风其设置在对应的会议发言端,用于采集对应的会议发言者的讲话音频;
音频编码器,其与所述音频采集单元通过音频线相连,用于将音频线传输的音频进行数字压缩编码转换,所述音频编码器在与音频采集单元内设置的若干麦克风相连时,对于不同的麦克风设置有不同编码器通道,任一编码器通道设置有唯一的编码器通道号;
语音识别引擎ASR,其与所述音频编码器相连,并能够接受音频编码器传输的数字音频并将接收到的数字音频转写成文本,所述语音识别引擎ASR在进行文本转换的同时,对转换的文本根据不同的编码器通道进行编号;
语音转写客户端,其用于开启和关闭语音转写,以及将会议发言者名称与对应编码器通道号进行绑定,并将绑定关系传给语音转写服务器,并存放到数据库中;
语音转写服务器,其与所述音频编码器、所述语音识别引擎ASR和所述语音转写客户端通过网络连接,具有存储、处理和传输功能;
字幕显示大屏,其与所述语音转写服务器通过网络连接,用于将语音转写服务器发送来的处理结果进行拼接排序并进行显示;
中控模块,其与所述音频采集单元、所述音频编码器、所述语音识别引擎ASR、所述语音转写客户端、所述语音转写服务器、所述字幕显示大屏分别相连,所述中控模块通过对所述麦克风采集的音频数据进行分析,判定是否开启对应的编码器通道,当任一编码器通道开启时,中控模块记录其开启时长,当任一编码器通道启动时长达到编码器通道启动时长评价值时,中控模块对该通道存储的音频数据进行分析,确定该编码器通道对应的标准人声;在任一编码器通道的标准人声确定完成后,中控模块对该编码器通道的启动模式进行调节,通过将对应麦克风采集的音频信息与标准人声进行对比,判定是否开启对应的编码器通道;中控模块判定开启对应的编码器通道时,音频编码器对开启对应的编码器通道的音频数据进行编码处理,语音转写引擎ASR对编码处理的音频数据进行文字转换,并通过字幕显示大屏进行显示。
进一步的,所述中控模块设置有标准人声音频评定区间,各所述麦克风实时进行音频采集,并将采集的音频数据传递至中控模块,中控模块根据采集的音频数据调节对应的音频编码器通道开闭情况。
进一步的,当所述麦克风与所述音频编码器之间的所述编码器通道处于关闭状态时,
若采集的音频数据落入标准人声音频评定区间,所述中控模块发出所述音频编码器通道打开指令,音频编码器对采集的音频数据进行编码转换;
当所述麦克风与所述音频编码器之间的所述编码器通道处于开启状态时,
若采集的音频数据未落入标准人声音频评定区间,所述中控模块记录未落入标准人声音频评定区间时长,当未落入时长到达自动关闭音频编码器通道预设时长时,中控模块发出音频编码器通道关闭指令,断开对应麦克风与音频编码器之间的编码器通道。
进一步的,当任一所述编码器通道启动时,所述中控模块记录该编码器通道启动时长,并对采集的音频数据进行存储;中控模块内设置有编码器通道启动时长评价值,当任一编码器通道启动时长达到所述编码器通道启动时长评价值时,中控模块对该通道存储的音频数据进行分析,确定该编码器通道对应的标准人声;
当任一所述编码器通道关闭,且所述对应编码器通道启动时长未达到编码器通道启动时长评价值,则对该编码器通道启动时长进行封存,当该编码器通道再次启动时,继续对该编码器通道启动时长进行计时,直至编码器通道启动时长达到编码器通道启动时长评价值。
进一步的,在确定任一编码器通道对应的所述标准人声时,所述中控模块对该通道存储的音频数据进行拆分,生成音调波动曲线,音色波动曲线与音量波动曲线,并分别对所述音调波动曲线,所述音色波动曲线与所述音量波动曲线进行分析,确定该编码器通道对应标准人声的标准音调、标准音色与标准音量。
进一步的,在对所述编码器通道对应所述标准人声的所述标准音调进行确定时,所述中控模块对所述音调波动曲线进行分析,包括,对音调波动曲线进行降噪处理,对通过降噪处理的音调波动曲线进行均化处理,设定均化处理后的数值为对应编码器通道的标准音调值;
在对所述编码器通道对应所述标准人声的所述标准音色进行确定时,所述中控模块对所述音色波动曲线进行分析,包括,对音色波动曲线进行降噪处理,对通过降噪处理的音色波动曲线进行均化处理,设定均化处理后的数值为对应编码器通道的标准音色值;
在对所述编码器通道对应所述标准人声的所述标准音量进行确定时,所述中控模块对所述音量波动曲线进行分析,包括,对音量波动曲线进行降噪处理,对通过降噪处理的音量波动曲线进行均化处理,设定均化处理后的数值为对应编码器通道的标准音量值。
进一步的,在任一编码器通道的所述标准音调、所述标准音色与所述标准音量确定完成后,所述中控模块对该编码器通道的启动/关闭模式进行调节,通过将对应麦克风采集的音频数据与标准音调、标准音调音色与标准音量进行对比,判定是否开启对应的编码器通道。
进一步的,所述中控模块根据所述标准音调、所述标准音色与所述标准音量确定对应编码器通道的音调开启区间,音色开启区间与音量开启区间;
若对应麦克风采集音频数据中的音调、音色、音量均落入所述音调开启区间,所述音色开启区间与所述音量开启区间,所述中控模块控制对应的编码器通道开启;
若对应麦克风采集音频数据中的音调、音色、音量中有且仅有两项落入音调开启区间,音色开启区间与音量开启区间,所述中控模块对采集的音频数据进行具体分析,判定对应的编码器通道是否开启;
若对应麦克风采集音频数据中的音调、音色、音量中落入音调开启区间,音色开启区间与音量开启区间的项目小于两项,所述中控模块不开启对应的编码器通道。
进一步的,当对应麦克风采集音频数据中的音调、音色、音量中有且仅有两项落入所述音调开启区间,所述音色开启区间与所述音量开启区间时,所述中控模块根据对应麦克风采集的音频数据计算实际误差值,所述实际误差值与允许误差评定值进行比较,判断对应的编码器通道是否开启,若实际误差值大于等于所述允许误差评定值,则判断对应的编码器通道开启;
其中,所述允许误差评定值设置在所述中控模块内,所述实际误差值设置有落入开启区间的音频数值与标准音频数值间差值对实际误差值的补偿参数、落入开启区间的音频数值对实际误差值的评价参数和未落入开启区间的音频数值与标准音频数值间差值对实际误差值的补偿参数。
本发明还公布一种单路引擎多麦克风语音转写角色分离方法,包括,
步骤S1,麦克风对其所处环境的音频进行采集,并将采集的音频数据传递至中控模块,中控模块对采集的音频数据进行分析,判定是否开启/关闭对应的编码器通道;
步骤S2,当任一编码器通道开启时,中控模块记录其开启时长,当任一编码器通道启动时长达到编码器通道启动时长评价值时,中控模块对该通道存储的音频数据进行分析,确定该编码器通道对应的标准人声;
步骤S3,在任一编码器通道的标准人声确定完成后,中控模块对该编码器通道的启动/关闭模式进行调节,通过将对应麦克风采集的音频信息与标准人声进行对比,判定是否开启/关闭对应的编码器通道;
步骤S4,音频编码器对开启对应的编码器通道的音频数据进行编码处理,语音转写引擎ASR对编码处理的音频数据进行文字转换,并通过字幕显示大屏进行显示。
与现有技术相比,本发明的有益效果在于,本发明中的中控模块将音频采集单元采集到的所有音频与标准人声音频评定区间进行比较,分析筛选出属于人声的音频,筛选出的人声音频启动编码器通道,避免了由于嘈杂环境和其他声音误开启编码器通道而造成的会议音频混乱以及音频转写的乱码,提高了系统语音转写的准确度,中控模块发出通道口打开指令通过网络发送给所述语音转写服务器,语音转写服务器将接收到的指令进行排序或删除,从而使需要的音频从音频编码器进行数字压缩编码转换为数字音频输送到所述语音识别引擎ASR,将其转写成文本,转写的文本输送到字幕显示大屏并经过字幕显示大屏进行内容拼接,按照语音转写服务器的排序进行显示,利用单路引擎通过排序转写进行多个会议单元麦克风的语音转写,实现人员角色分离,不需要人员二次编辑,即可实现转写文本的角色分离,减少了资源浪费,更加适用于多人同时说话的会议中的语音识别实时转写。
尤其,进一步的,本发明实施例通过在所述中控模块设置标准人声音频评定区间,对音频采集单元采集到的全部音频进行初步筛选,确定音频为人声,此时启动编码器,避免了由于会议环境中的噪音启动编码器通道而造成系统对不属于人声的音频进行转写,避免了由于误启动编码器通道而造成的会议音频混乱以及音频转写的乱码,使得会议进行过程中不会出现杂音,并且提高了系统语音转写的准确度。
附图说明
图1是单路引擎多麦克风语音转写系统的结构示意图;
图2是单路引擎多麦克风语音转写角色分离方法的流程图;
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1-图2所示,图1是单路引擎多麦克风语音转写系统的结构示意图;图2是单路引擎多麦克风语音转写角色分离方法的流程图。
本发明提供一种单路引擎多麦克风语音转写系统及角色分离方法,包括,
音频采集单元,其由若干麦克风组成,对于任一所述麦克风其设置在对应的会议发言端,用于采集对应的会议发言者的讲话音频;
音频编码器,其与所述音频采集单元通过音频线相连,用于将音频线传输的音频进行数字压缩编码转换,所述音频编码器在与音频采集单元内设置的若干麦克风相连时,对于不同的麦克风设置有不同编码器通道,任一编码器通道设置有唯一的编码器通道号;
语音识别引擎ASR,其与所述音频编码器相连,并能够接受音频编码器传输的数字音频并将接收到的数字音频转写成文本,所述语音识别引擎ASR在进行文本转换的同时,对转换的文本根据不同的编码器通道进行编号;
语音转写客户端,其用于开启和关闭语音转写,以及将会议发言者名称与对应编码器通道号进行绑定,并将绑定关系传给语音转写服务器,并存放到数据库中;
语音转写服务器,其与所述音频编码器、所述语音识别引擎ASR和所述语音转写客户端通过网络连接,具有存储、处理和传输功能,内含语音转写服务软件,用于接收、反馈各种指令,对各指令进行排序或删除,所述语音转写服务器响应终端的服务请求并进行处理,从而控制需要的音频从音频编码器输送到所述语音识别引擎ASR进行转写文本;
字幕显示大屏,其与所述语音转写服务器通过网络连接,用于将语音转写服务器发送来的处理结果进行拼接排序并进行显示;
中控模块,其与所述音频采集单元、所述音频编码器、所述语音识别引擎ASR、所述语音转写客户端、所述语音转写服务器、所述字幕显示大屏分别相连,所述中控模块通过对所述麦克风采集的音频数据进行分析,判定是否开启对应的编码器通道,当任一编码器通道开启时,中控模块记录其开启时长,当任一编码器通道启动时长达到编码器通道启动时长评价值时,中控模块对该通道存储的音频数据进行分析,确定该编码器通道对应的标准人声;在任一编码器通道的标准人声确定完成后,中控模块对该编码器通道的启动模式进行调节,通过将对应麦克风采集的音频信息与标准人声进行对比,判定是否开启对应的编码器通道;中控模块判定开启对应的编码器通道时,音频编码器对开启对应的编码器通道的音频数据进行编码处理,语音转写引擎ASR对编码处理的音频数据进行文字转换,并通过字幕显示大屏进行显示。
本发明实施例中的中控模块将音频采集单元采集到的所有音频进行记录,通过计算分析筛选出符合人声的音频,筛选出的符合人声的音频开启编码器通道,避免了由于嘈杂环境和其他声音误启动编码器通道而造成的会议音频混乱以及音频转写的乱码,提高了系统语音转写的准确度,启动的编码器通道对应的音频传输给所述语音转写服务器,语音转写服务器将接收到的音频进行排序或删除,从而使需要的音频从音频编码器进行数字压缩编码转换为数字音频输送到所述语音识别引擎ASR,将其转写成文本,转写的文本输送到字幕显示大屏并经过字幕显示大屏进行内容拼接,按照语音转写服务器的排序进行显示。
具体而言,本实施例中所述编码器通道打开指令触发方式:当接入音频编码器的所述音频采集单元采集到音频后,所述中控模块会启动编码器通道,发出音频编码器通道打开指令,音频编码器通道打开指令包括,编码器mac、通道号、通道打开状态,音频编码器通道打开指令会通过网络发送给所述语音转写服务器,语音转写服务器对接收到的打开指令进行排序,包括,第1打开指令,第2打开指令,第3打开指令……第n打开指令,当某一个所述麦克风不再有音频传入时,音频编码器对应的通道口关闭,中控模块关闭编码器通道,发出的音频编码器通道关闭指令会通过网络发送给语音转写服务器,语音转写服务器会将其对应的音频编码器通道打开指令从打开排序中剔除。
具体而言,本实施例中所述中控模块设置有标准人声音频评定区间K0,根据所述麦克风采集到的音频数据K,判定所述音频是否为人声,
当K在K0区间内时,判定音频是人声,则中控模块调节所述音频编码器通道打开;
当K<K0或K>K0时,判定音频不是人声,则中控模块调节所述音频编码器通道关闭。
本发明实施例通过在所述中控模块设置标准人声音频评定区间,对音频采集单元采集到的全部音频进行初步筛选,确定音频为人声,此时启动编码器,避免了由于会议环境中的噪音启动编码器通道而造成系统对不属于人声的音频进行转写,避免了由于误启动编码器通道而造成的会议音频混乱以及音频转写的乱码,使得会议进行过程中不会出现杂音,并且提高了系统语音转写的准确度。
具体而言,本实施例中当所述麦克风与所述音频编码器之间的所述编码器通道处于关闭状态时,
若K在K0区间内时,所述中控模块发出所述音频编码器通道打开指令,音频编码器对采集的音频数据进行编码转换;
当所述麦克风与所述音频编码器之间的所述编码器通道处于开启状态时,
若K<K0或K>K0时,所述中控模块记录未落入标准人声音频评定区间时长t11,当未落入时长t11到达自动关闭音频编码器通道预设时长t1时,中控模块发出音频编码器通道关闭指令,断开对应麦克风与音频编码器之间的编码器通道,本实施例中t1=3s。
具体而言,本实施例中所述中控模块内设置有编码器通道启动时长评价值t0,当任一所述编码器通道启动时,所述中控模块记录该编码器通道启动时长t01,并对采集的音频数据进行存储,通过记录的所述启动时长t01与启动时长评价值t0进行比较,判断中控模块是否停止存储,
若启动时长t01达到启动时长评价值t0时,中控模块停止对采集的音频数据进行存储,对存储的该编码器通道音频数据进行分析,确定该编码器通道对应的标准人声;
若启动时长t01未达到启动时长评价值t0时,中控模块继续对采集的音频数据进行存储,直到启动时长t01达到启动时长评价值t0;
当任一所述编码器通道关闭时,且所述对应编码器通道启动时长t01未达到编码器通道启动时长评价值t0,对该编码器通道启动时长t01进行封存,当该编码器通道再次启动时,继续对该编码器通道启动时长t01进行计时,直至编码器通道启动时长t01达到编码器通道启动时长评价值t0,中控模块对存储的该编码器通道音频数据进行分析。
具体而言,本实施例中所述中控模块对编码器通道存储的音频数据进行拆分,生成第一声波曲线,第二声波曲线,第三声波曲线,其中,第一声波曲线为音调波动曲线,第二声波曲线为音色波动曲线,第三声波曲线为音量波动曲线,
对于第i声波曲线,i=1,2,3,将其均分为j-1个段落,并获取各段落端点值,各段落端点值按照顺序记为,第i声波曲线第1声波值Xi1k,....,第i声波曲线第j声波值Xijk,其中,k为音频数据对应的编码器通道的编码器通道号;
所述中控模块计算该编码器通道的标准音调、标准音色与标准音量,设定,
其中,Xikmax是第i声波曲线上的最大端点值,Xikmin是第i声波曲线上的最小端点值,X10k为第一标准声波值,其为标准音调值,X20k为第二标准声波值,其为标准音色值,X30k为第三标准声波值,其为标准音量值。
具体而言,所述中控模块根据计算得出的任一个编码器通道的标准声波值Xi0k确定该标准声波值Xi0k的标准声波评定区间Xik,
所述麦克风对音频数据进行采集,并将采集的结果传递至中控模块,中控模块将采集的音频数据进行拆分,获取采集音频数据的第一声波值X1’,第二声波值X2’,第三声波值X3’,其中,第一声波值X1’为采集音频数据中的实际音调值,第二声波值X2’为采集音频数据中的实际音色值,第三声波值X3’为采集音频数据中的实际音量值;
中控模块将第一声波值X1’,第二声波值X2’,第三声波值X3’分别与第一标准声波值X10k、第二标准声波值X20k、第三标准声波值X30k进行对比,判定是否开启对应的编码器通道。
具体而言,当将第i声波值Xi’与第i标准声波值Xi0k进行对比时,根据第i标准声波值Xi0k确定第i标准声波值Xi0k的变化区间Zi,
若第i声波值Xi’落入变化区间Zi中,则判定第i声波值Xi’符合单一开启条件,
若第i声波值Xi’未落入变化区间Zi中,则判定第i声波值Xi’不符合单一开启条件。
Zi=[Zi1,Zi2],其中,Zi1为变化区间Zi的最小值,Zi2为变化区间Zi的最大值;
若Zi1≤Xi’≤Zi2,则判定第i声波值Xi’落入变化区间Zi中,
若第一声波值X1’、第二声波值X2’、第三声波值X3’均符合单一开启条件,则中控模块开启对应的编码器通道;
若第一声波值X1’、第二声波值X2’、第三声波值X3’中符合单一开启条件的项目小于两项时,则中控模块关闭对应的编码器通道;
具体而言,本实施例中所述中控模块内设置有音频数据对应的编码器通道的允许误差评定值Sk0,中控模块内设置有音频数据对应的编码器通道的实际误差值Sk的计算公式,根据获取的音频数据的声波值Xi’与标准声波值Xi0k的变化区间Zi进行比较时,
若第一声波值X1’,第二声波值X2’,第三声波值X3’中有且仅有两项符合单一开启条件时,所述中控模块开启实际误差值计算,并与该编码器通道的允许误差评定值进行比较,判断中控模块对该编码器通道的启动/关闭;
当第一声波值X1’和第二声波值X2’符合单一开启条件,第三声波值X3’不符合单一开启条件时,公式设定为,
若Sk≥Sk0,则判断中控模块启动该编码器通道;
若Sk<Sk0,则判断中控模块关闭该编码器通道;
当第一声波值X1’和第三声波值X3’符合单一开启条件,第二声波值X2’不符合单一开启条件时,公式设定为,
若Sk≥Sk0,则判断中控模块启动该编码器通道;
若Sk<Sk0,则判断中控模块关闭该编码器通道;
当第二声波值X2’和第三声波值X3’符合单一开启条件,第一声波值X1’不符合单一开启条件时,公式设定为,
若Sk≥Sk0,则判断中控模块启动该编码器通道;
若Sk<Sk0,则判断中控模块关闭该编码器通道;
其中,a是第一声波值X1’和第一标准声波值X10k的差值对实际误差值的补偿参数,
b是第二声波值X2’和第二标准声波值X20k的差值对实际误差值的补偿参数,
c是第三声波值X3’和第三标准声波值X30k的差值对实际误差值的补偿参数,
f1是第一声波值X1’对实际误差值的评价参数,
f2是第二声波值X2’对实际误差值的评价参数,
f3是第三声波值X3’对实际误差值的评价参数,
F是不符合单一开启条件的声波值Xi’与标准声波值Xi0k的差值对实际误差值的补偿参数;
本发明实施例中所述语音转写服务器将音频编码器通道打开指令排序中最小编号的通道音频,通过网络发送给所述语音转写引擎ASR,同时根据当前音频归属的音频编码器和通道信息,从数据库中查找绑定的人员名称,在语音转写引擎ASR转写文本返回到语音转写服务器后,语音转写服务器将人员姓名、对应的转写文本按顺序存放到队列中,再通过网络按顺序发送给所述字幕显示大屏,字幕显示大屏按照人员名称加文本内容方式进行显示,从而达到角色分离。
具体而言,本实施例中所述字幕显示大屏将所述语音转写服务器发送来的人员名称和文本内容拼接起来:人员名称在前,文本内容在后,按照发送的顺序,进行显示,若后一个人员名称与前一个人员名称相同则直接将文本拼接在前一个人员名称后面进行显示,并且只有一个音频编码器通道口打开指令为最小排序编号,所以同时显示一个人员名称,字幕显示大屏上按文本编号显示当前人员角色的全部文本内容,当人员名称变化时,字幕显示大屏上的内容将换行,以显示另一个人员的内容,从而展示角色分离。
本发明还公布一种单路引擎多麦克风语音转写角色分离方法,包括,
步骤S1,麦克风对其所处环境的音频进行采集,并将采集的音频数据传递至中控模块,中控模块对采集的音频数据进行分析,判定是否开启/关闭对应的编码器通道;
步骤S2,当任一编码器通道开启时,中控模块记录其开启时长,当任一编码器通道启动时长达到编码器通道启动时长评价值时,中控模块对该通道存储的音频数据进行分析,确定该编码器通道对应的标准人声;
步骤S3,在任一编码器通道的标准人声确定完成后,中控模块对该编码器通道的启动/关闭模式进行调节,通过将对应麦克风采集的音频信息与标准人声进行对比,判定是否开启/关闭对应的编码器通道;
步骤S4,音频编码器对开启对应的编码器通道的音频数据进行编码处理,语音转写引擎ASR对编码处理的音频数据进行文字转换,并通过字幕显示大屏进行显示。
本发明中各所述计算补偿参数、计算调节参数的作用有两个,一是平衡公式左右纲量,二是调节数值结果,在本实施例中不进行具体赋值,且,本实施例中各计算公式用于直观反应各数值间的调节关系,例如正相关,负相关,在无特殊说明的前提下,未具体限定数值的参数数值均取正。
本发明将位于会场中的每位参会人面前放置麦克风,会议单元麦克风通过音频线接入音频编码器,音频编码器通过网络连接语音转写服务器、语音转写服务器通过网络分别连接语音转写客户端、语音转写引擎ASR以及字幕显示大屏。本发明利用单路引擎通过排序转写进行多个会议单元麦克风的语音转写,实现人员角色分离,不需要人员二次编辑,即可实现转写文本的角色分离,减少了资源浪费,更加适用于多人同时说话的会议中的语音识别实时转写,其中中控模块将音频采集单元采集到的所有音频与标准人声音频评定区间进行比较,分析筛选出属于人声的音频,筛选出的人声音频启动编码器通道,避免了由于嘈杂环境和其他声音误开启编码器通道而造成的会议音频混乱以及音频转写的乱码,提高了系统语音转写的准确度,中控模块发出通道口打开指令通过网络发送给所述语音转写服务器,语音转写服务器将接收到的指令进行排序或删除,从而使需要的音频从音频编码器进行数字压缩编码转换为数字音频输送到所述语音识别引擎ASR,将其转写成文本,转写的文本输送到字幕显示大屏并经过字幕显示大屏进行内容拼接,按照语音转写服务器的排序进行显示,提高了语音转写的效率。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。 凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种单路引擎多麦克风语音转写系统,其特征在于,包括,
音频采集单元,其由若干麦克风组成,对于任一所述麦克风其设置在对应的会议发言端,用于采集对应的会议发言者的讲话音频;
音频编码器,其与所述音频采集单元通过音频线相连,用于将音频线传输的音频进行数字压缩编码转换,所述音频编码器在与音频采集单元内设置的若干麦克风相连时,对于不同的麦克风设置有不同编码器通道,任一编码器通道设置有唯一的编码器通道号;
语音识别引擎ASR,其与所述音频编码器相连,并能够接受音频编码器传输的数字音频并将接收到的数字音频转写成文本,所述语音识别引擎ASR在进行文本转换的同时,对转换的文本根据不同的编码器通道进行编号;
语音转写客户端,其用于开启和关闭语音转写,以及将会议发言者名称与对应编码器通道号进行绑定,并将绑定关系传给语音转写服务器,并存放到数据库中;
语音转写服务器,其与所述音频编码器、所述语音识别引擎ASR和所述语音转写客户端通过网络连接,具有存储、处理和传输功能;
字幕显示大屏,其与所述语音转写服务器通过网络连接,用于将语音转写服务器发送来的处理结果进行拼接排序并进行显示;
中控模块,其与所述音频采集单元、所述音频编码器、所述语音识别引擎ASR、所述语音转写客户端、所述语音转写服务器、所述字幕显示大屏分别相连,所述中控模块通过对所述麦克风采集的音频数据进行分析,判定是否开启对应的编码器通道,当任一编码器通道开启时,中控模块记录其开启时长,当任一编码器通道启动时长达到编码器通道启动时长评价值时,中控模块对该通道存储的音频数据进行分析,确定该编码器通道对应的标准人声;在任一编码器通道的标准人声确定完成后,中控模块对该编码器通道的启动模式进行调节,通过将对应麦克风采集的音频信息与标准人声进行对比,判定是否开启对应的编码器通道;中控模块判定开启对应的编码器通道时,音频编码器对开启对应的编码器通道的音频数据进行编码处理,语音转写引擎ASR对编码处理的音频数据进行文字转换,并通过字幕显示大屏进行显示。
2.根据权利要求1所述的单路引擎多麦克风语音转写系统,其特征在于,所述中控模块设置有标准人声音频评定区间,各所述麦克风实时进行音频采集,并将采集的音频数据传递至中控模块,中控模块根据采集的音频数据调节对应的音频编码器通道开闭情况。
3.根据权利要求2所述的单路引擎多麦克风语音转写系统,其特征在于,
当所述麦克风与所述音频编码器之间的所述编码器通道处于关闭状态时,
若采集的音频数据落入标准人声音频评定区间,所述中控模块发出所述音频编码器通道打开指令,音频编码器对采集的音频数据进行编码转换;
当所述麦克风与所述音频编码器之间的所述编码器通道处于开启状态时,
若采集的音频数据未落入标准人声音频评定区间,所述中控模块记录未落入标准人声音频评定区间时长,当未落入时长到达自动关闭音频编码器通道预设时长时,中控模块发出音频编码器通道关闭指令,断开对应麦克风与音频编码器之间的编码器通道。
4.根据权利要求3所述的单路引擎多麦克风语音转写系统,其特征在于,当任一所述编码器通道启动时,所述中控模块记录该编码器通道启动时长,并对采集的音频数据进行存储;中控模块内设置有编码器通道启动时长评价值,当任一编码器通道启动时长达到所述编码器通道启动时长评价值时,中控模块对该通道存储的音频数据进行分析,确定该编码器通道对应的标准人声;
当任一所述编码器通道关闭,且所述对应编码器通道启动时长未达到编码器通道启动时长评价值,则对该编码器通道启动时长进行封存,当该编码器通道再次启动时,继续对该编码器通道启动时长进行计时,直至编码器通道启动时长达到编码器通道启动时长评价值。
5.根据权利要求4所述的单路引擎多麦克风语音转写系统,其特征在于,
在确定任一编码器通道对应的所述标准人声时,所述中控模块对该通道存储的音频数据进行拆分,生成音调波动曲线,音色波动曲线与音量波动曲线,并分别对所述音调波动曲线,所述音色波动曲线与所述音量波动曲线进行分析,确定该编码器通道对应标准人声的标准音调、标准音色与标准音量。
6.根据权利要求5所述的单路引擎多麦克风语音转写系统,其特征在于,
在对所述编码器通道对应所述标准人声的所述标准音调进行确定时,所述中控模块对所述音调波动曲线进行分析,包括,对音调波动曲线进行降噪处理,对通过降噪处理的音调波动曲线进行均化处理,设定均化处理后的数值为对应编码器通道的标准音调值;
在对所述编码器通道对应所述标准人声的所述标准音色进行确定时,所述中控模块对所述音色波动曲线进行分析,包括,对音色波动曲线进行降噪处理,对通过降噪处理的音色波动曲线进行均化处理,设定均化处理后的数值为对应编码器通道的标准音色值;
在对所述编码器通道对应所述标准人声的所述标准音量进行确定时,所述中控模块对所述音量波动曲线进行分析,包括,对音量波动曲线进行降噪处理,对通过降噪处理的音量波动曲线进行均化处理,设定均化处理后的数值为对应编码器通道的标准音量值。
7.根据权利要求6所述的单路引擎多麦克风语音转写系统,其特征在于,
在任一编码器通道的所述标准音调、所述标准音色与所述标准音量确定完成后,所述中控模块对该编码器通道的启动/关闭模式进行调节,通过将对应麦克风采集的音频数据与标准音调、标准音调音色与标准音量进行对比,判定是否开启对应的编码器通道。
8.根据权利要求7所述的单路引擎多麦克风语音转写系统,其特征在于,
所述中控模块根据所述标准音调、所述标准音色与所述标准音量确定对应编码器通道的音调开启区间,音色开启区间与音量开启区间;
若对应麦克风采集音频数据中的音调、音色、音量均落入所述音调开启区间、所述音色开启区间与所述音量开启区间,所述中控模块控制对应的编码器通道开启;
若对应麦克风采集音频数据中的音调、音色、音量中有且仅有两项落入音调开启区间、音色开启区间与音量开启区间,所述中控模块对采集的音频数据进行具体分析,判定对应的编码器通道是否开启;
若对应麦克风采集音频数据中的音调、音色、音量中落入音调开启区间、音色开启区间与音量开启区间的项目小于两项,所述中控模块不开启对应的编码器通道。
9.根据权利要求8所述的单路引擎多麦克风语音转写系统,其特征在于,当对应麦克风采集音频数据中的音调、音色、音量中有且仅有两项落入所述音调开启区间,所述音色开启区间与所述音量开启区间时,所述中控模块根据对应麦克风采集的音频数据计算实际误差值,所述实际误差值与允许误差评定值进行比较,判断对应的编码器通道是否开启,若实际误差值大于等于所述允许误差评定值,则判断对应的编码器通道开启;
其中,所述允许误差评定值设置在所述中控模块内,所述实际误差值设置有落入开启区间的音频数值与标准音频数值间差值对实际误差值的补偿参数、落入开启区间的音频数值对实际误差值的评价参数和未落入开启区间的音频数值与标准音频数值间差值对实际误差值的补偿参数。
10.一种基于权利要求1-9任意一项所述单路引擎多麦克风语音转写系统的语音转写角色分离方法,其特征在于,包括,
步骤S1,麦克风对其所处环境的音频进行采集,并将采集的音频数据传递至中控模块,中控模块对采集的音频数据进行分析,判定是否开启/关闭对应的编码器通道;
步骤S2,当任一编码器通道开启时,中控模块记录其开启时长,当任一编码器通道启动时长达到编码器通道启动时长评价值时,中控模块对该通道存储的音频数据进行分析,确定该编码器通道对应的标准人声;
步骤S3,在任一编码器通道的标准人声确定完成后,中控模块对该编码器通道的启动/关闭模式进行调节,通过将对应麦克风采集的音频信息与标准人声进行对比,判定是否开启/关闭对应的编码器通道;
步骤S4,音频编码器对开启对应的编码器通道的音频数据进行编码处理,语音转写引擎ASR对编码处理的音频数据进行文字转换,并通过字幕显示大屏进行显示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311119975.1A CN116863966B (zh) | 2023-09-01 | 2023-09-01 | 一种单路引擎多麦克风语音转写系统与角色分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311119975.1A CN116863966B (zh) | 2023-09-01 | 2023-09-01 | 一种单路引擎多麦克风语音转写系统与角色分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116863966A CN116863966A (zh) | 2023-10-10 |
CN116863966B true CN116863966B (zh) | 2024-01-12 |
Family
ID=88230780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311119975.1A Active CN116863966B (zh) | 2023-09-01 | 2023-09-01 | 一种单路引擎多麦克风语音转写系统与角色分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116863966B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030088298A (ko) * | 2002-05-14 | 2003-11-19 | 서교정보통신 주식회사 | 영상,음성신호 인식에 의한 자동 영상,음성 전송장치 |
CN109309804A (zh) * | 2018-09-29 | 2019-02-05 | 芜湖星途机器人科技有限公司 | 一种智能会议系统 |
CN110324723A (zh) * | 2018-03-29 | 2019-10-11 | 华为技术有限公司 | 字幕生成方法及终端 |
CN112634879A (zh) * | 2020-12-18 | 2021-04-09 | 建信金融科技有限责任公司 | 语音会议管理方法、装置、设备及介质 |
CN113542661A (zh) * | 2021-09-09 | 2021-10-22 | 北京鼎天宏盛科技有限公司 | 一种视频会议语音识别方法及系统 |
CN114785976A (zh) * | 2022-01-11 | 2022-07-22 | 浪潮金融信息技术有限公司 | 一种用于智慧屏的会议内容辅助标识方法、系统及介质 |
CN115662437A (zh) * | 2022-12-28 | 2023-01-31 | 广州市保伦电子有限公司 | 一种多话筒同时使用场景下的语音转写方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8347247B2 (en) * | 2008-10-17 | 2013-01-01 | International Business Machines Corporation | Visualization interface of continuous waveform multi-speaker identification |
US20180270350A1 (en) * | 2014-02-28 | 2018-09-20 | Ultratec, Inc. | Semiautomated relay method and apparatus |
US20210074298A1 (en) * | 2019-09-11 | 2021-03-11 | Soundhound, Inc. | Video conference captioning |
-
2023
- 2023-09-01 CN CN202311119975.1A patent/CN116863966B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030088298A (ko) * | 2002-05-14 | 2003-11-19 | 서교정보통신 주식회사 | 영상,음성신호 인식에 의한 자동 영상,음성 전송장치 |
CN110324723A (zh) * | 2018-03-29 | 2019-10-11 | 华为技术有限公司 | 字幕生成方法及终端 |
CN109309804A (zh) * | 2018-09-29 | 2019-02-05 | 芜湖星途机器人科技有限公司 | 一种智能会议系统 |
CN112634879A (zh) * | 2020-12-18 | 2021-04-09 | 建信金融科技有限责任公司 | 语音会议管理方法、装置、设备及介质 |
CN113542661A (zh) * | 2021-09-09 | 2021-10-22 | 北京鼎天宏盛科技有限公司 | 一种视频会议语音识别方法及系统 |
CN114785976A (zh) * | 2022-01-11 | 2022-07-22 | 浪潮金融信息技术有限公司 | 一种用于智慧屏的会议内容辅助标识方法、系统及介质 |
CN115662437A (zh) * | 2022-12-28 | 2023-01-31 | 广州市保伦电子有限公司 | 一种多话筒同时使用场景下的语音转写方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116863966A (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108922538B (zh) | 会议信息记录方法、装置、计算机设备及存储介质 | |
US10930300B2 (en) | Automated transcript generation from multi-channel audio | |
CN110300001B (zh) | 会议音频控制方法、系统、设备及计算机可读存储介质 | |
CN108346034B (zh) | 一种会议智能管理方法及系统 | |
JP3620855B2 (ja) | オーディオおよびマルチメディア会議を記録して索引をつける方法と装置 | |
US6850609B1 (en) | Methods and apparatus for providing speech recording and speech transcription services | |
TWI616868B (zh) | 會議記錄裝置及其自動生成會議記錄的方法 | |
US6513003B1 (en) | System and method for integrated delivery of media and synchronized transcription | |
CN1946107B (zh) | 交互式电话训练器和练习器 | |
US20020133339A1 (en) | Method and apparatus for automatic collection and summarization of meeting information | |
EP2205010A1 (en) | Messaging | |
US20040172252A1 (en) | Methods, apparatus, and products for identifying a conversation | |
US20060018446A1 (en) | Interactive voice message retrieval | |
CN107749313A (zh) | 一种自动转写与生成远程医疗会诊记录的方法 | |
TWI619115B (zh) | 會議記錄裝置及其自動生成會議記錄的方法 | |
US20120259924A1 (en) | Method and apparatus for providing summary information in a live media session | |
CN111128241A (zh) | 语音通话的智能质检方法及系统 | |
CN111883168A (zh) | 一种语音处理方法及装置 | |
CN110460798B (zh) | 视频访谈服务处理方法、装置、终端与存储介质 | |
JP6091690B1 (ja) | 議会運営支援システム及び議会運営支援方法 | |
CN116863966B (zh) | 一种单路引擎多麦克风语音转写系统与角色分离方法 | |
KR101328928B1 (ko) | 이동통신 단말기의 회의록 작성 방법 | |
CN111429916B (zh) | 一种声音信号记录系统 | |
JPH07226931A (ja) | マルチメディア会議装置 | |
CN114762039A (zh) | 一种会议数据处理方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |