CN110797043B - 会议语音实时转写方法及系统 - Google Patents

会议语音实时转写方法及系统 Download PDF

Info

Publication number
CN110797043B
CN110797043B CN201911104871.7A CN201911104871A CN110797043B CN 110797043 B CN110797043 B CN 110797043B CN 201911104871 A CN201911104871 A CN 201911104871A CN 110797043 B CN110797043 B CN 110797043B
Authority
CN
China
Prior art keywords
voice signals
voice
participant
mode
participants
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911104871.7A
Other languages
English (en)
Other versions
CN110797043A (zh
Inventor
何赛娟
张华兵
周强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN201911104871.7A priority Critical patent/CN110797043B/zh
Publication of CN110797043A publication Critical patent/CN110797043A/zh
Application granted granted Critical
Publication of CN110797043B publication Critical patent/CN110797043B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

本发明实施例提供一种会议语音实时转写方法。该方法包括:接收多个麦克风阵列所采集的语音信号;对麦克风阵列采集的语音信号进行差分处理;通过盲源分离对差分处理后的语音信号进行处理,提取出语音信号中说话的参会人员各自的语音信号;根据盲源分离后的语音信号进行位置估计,确定出说话的参会人员各自所在的参会区域;对确定出说话的参会区域的语音信号进行语音识别,实时转化成对应的文字。本发明实施例还提供一种会议语音实时转写系统。本发明实施例在会议场景中配置好对应的麦克风集群,提升采集语音的信噪比。有效为各麦克风集群确定各自的识别区域,更加适用于多人同时说话的会议中的语音识别实时转写。

Description

会议语音实时转写方法及系统
技术领域
本发明涉及智能语音领域,尤其涉及一种会议语音实时转写方法及系统。
背景技术
在企业运作中,会议的召开十分普遍,当人们有问题需要解决,或需要作出权威的决定或决议时,一般都会开会。使参会人员了解到问题的重要性,确定出对应的方案后进行执行。为了保障后续对会议内容的查阅,通常会进行会议记录。
在会议记录中,人工记录比较费劲,并且可能会遗漏会议中的某些要点,或不自主的掺杂一些个人的观点,使得会议记录不准确。随着智能语音的发展,如今会使用语音识别技术,来获取会议中发言人的语音,进行识别转写,得到会议记录。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
由于参会人员众多,环境较为嘈杂,影响了语音识别的效果,并且并不是每个参会人员都会距离麦克风较近。对于距离麦克风较远的参会人员发言时,识别率就会进一步下降。如果会议中多人同时说话,那就严重影响了识别转写效果,无法进行记录。
发明内容
为了至少解决现有技术中嘈杂环境、麦克风与发言人较远、多人同时说话时影响会议记录的识别转写的问题。
第一方面,本发明实施例提供一种会议语音实时转写方法,应用于由多个麦克风阵列组成的麦克风集群,包括:
接收多个麦克风阵列所采集的语音信号,其中,所述多个麦克风阵列分别配置在各自的参会区域中;
对所述麦克风阵列采集的语音信号进行差分处理,以增强所述麦克风阵列中与说话的参会人员方向对应麦克风的语音信号;
通过盲源分离对差分处理后的语音信号进行处理,提取出语音信号中所述说话的参会人员各自的语音信号;
根据盲源分离后的语音信号进行位置估计,确定出所述说话的参会人员各自所在的参会区域;
对确定出说话的参会区域的语音信号进行语音识别,实时转化成对应的文字。
第二方面,本发明实施例提供一种会议语音实时转写系统,应用于由多个麦克风阵列组成的麦克风集群,包括:
信号采集程序模块,用于接收多个麦克风阵列所采集的语音信号,其中,所述多个麦克风阵列分别配置在各自的参会区域中;
信号增强程序模块,用于对所述麦克风阵列采集的语音信号进行差分处理,以增强所述麦克风阵列中与说话的参会人员方向对应麦克风的语音信号;
信号分离程序模块,用于通过盲源分离对差分处理后的语音信号进行处理,提取出语音信号中所述说话的参会人员各自的语音信号;
区域划分程序模块,用于根据盲源分离后的语音信号进行位置估计,确定出所述说话的参会人员各自所在的参会区域;
识别转写程序模块,用于对确定出说话的参会区域的语音信号进行语音识别,实时转化成对应的文字。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的会议语音实时转写方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的会议语音实时转写方法的步骤。
本发明实施例的有益效果在于:在会议场景中配置好对应的麦克风集群,降低麦克风与会议人员的距离,提升采集语音的信噪比。并对集群内各麦克风阵列采集的信号进行差分处理,盲源分离,位置估计,有效为各麦克风集群确定各自的识别区域,更加适用于多人同时说话的会议中的语音识别实时转写。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种会议语音实时转写方法的流程图;
图2是本发明一实施例提供的一种会议语音实时转写方法的双麦自由场模型示意图;
图3是本发明一实施例提供的一种会议语音实时转写系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种会议语音实时转写方法的流程图,包括如下步骤:
S11:接收多个麦克风阵列所采集的语音信号,其中,所述多个麦克风阵列分别配置在各自的参会区域中;
S12:对所述麦克风阵列采集的语音信号进行差分处理,以增强所述麦克风阵列中与说话的参会人员方向对应麦克风的语音信号;
S13:通过盲源分离对差分处理后的语音信号进行处理,提取出语音信号中所述说话的参会人员各自的语音信号;
S14:根据盲源分离后的语音信号进行位置估计,确定出所述说话的参会人员各自所在的参会区域;
S15:对确定出说话的参会区域的语音信号进行语音识别,实时转化成对应的文字。
在本实施方式中,一般会议室场景都会布置桌子和椅子,开会场景一般是与会人员(尤其是发言人员会围坐在桌边),那么通过将麦克配置在各发言人的参会区域中,来减小麦克风和说话人的距离,提升采集语音的信噪比。配置了几套麦克风阵列,就可以支持同时几路(几个人)一起发言。将这些麦克风阵列组成会议实时转写的麦克风集群,相互关联。
对于步骤S11,会议管理人员预先激活麦克风集群,在开会的过程中,麦克风集群接收到配置在各自的参会区域中的麦克风阵列所采集到的语音信号。其中,所述各自的参会区域也就是每个参会的人员所在的固定的位置。在本实施方式中,所述麦克风阵列至少包括两个麦克风,所述麦克风间的距离小于2厘米,以保证各麦克风阵列的收录效果。
对于步骤S12,对各麦克风阵列采集到的语音信号分别进行差分处理,利用差分思想对一组组麦克风对进行处理输出增强后的信号。在此举例出一种两个麦克风的实施例,如图2所示。两个麦克风可以设计一阶心形差分阵列,形成声源入射方向即为0度方向增益为1,180度方向为0的心形波束。经差分阵列处理后的信号是:
Figure BDA0002270983950000041
其中,
Figure BDA0002270983950000042
表示波束的滤波系数,@表示复共轭。波束的具体设计方法如下:
Figure BDA0002270983950000043
其中,ω表示角频率,τ=δ/c×fs表示目标声源在端射方向时两麦克风间的时延,fs是信号采样频率,c为声速。
经过处理后,得到增强的麦克风阵列中对应开会中说话人方向的这一路语音信号。
对于步骤S13,对每路增强后的信号再进行盲源分离。此处盲源分离,可以但不仅限于使用基于ICA(Independent Component Analysis,独立成分分析)对多路信号进行分离。它假设观察到的随机信号x服从模型x=As,其中s为未知源信号,其分量相互独立,A为未知混合矩阵。ICA的目的是通过且仅通过观察x来估计混合矩阵A以及源信号s。进而提取出参会人员各自的语音信号。
对于步骤S14,位置估计的目的为输出当前是哪几个位置在发言。通过对分离以后的数据再进行分析,来判断当前有哪几路是有人声的。可以但不仅限于通过能量进行判断。在麦克风一定的情况下,一般会议室场景的底噪基本是确定了,而在有人声时,其能量值会远远大于只有噪声的能量,因此可以设置一定的阈值来判断当前通道存不存在语音,来决定要不要输出当前的通道位置。
对于步骤S15,确定出说话的参会区域的语音信号进行语音识别,进而对各参会区域参会人员说的话转化成对应的文字,形成会议记录。
通过该实施方式可以看出,在会议场景中配置好对应的麦克风集群,降低麦克风与会议人员的距离,提升采集语音的信噪比。并对集群内各麦克风阵列采集的信号进行差分处理,盲源分离,位置估计,有效为各麦克风集群确定各自的识别区域,更加适用于多人同时说话的会议中的语音识别实时转写。
作为一种实施方式,在本实施例中,在所述根据盲源分离后的语音信号进行位置估计,确定出所述说话的参会人员各自所在的参会区域之后,所述方法还包括:为参会人员提供转写模式,所述转写模式包括:中心模式、简单对话模式、全局模式;
若参会人员将转写模式配置为中心模式,当多个参会区域的参会人员说话时,按照预先配置的各参会区域的优先级,确定一个有效参会区域,对所述有效参会区域的语音信号进行语音识别;
若参会人员将转写模式配置为简单对话模式,仅仅对预先指定的两个参会区域内参会人员的语音信号进行语音识别;
若参会人员将转写模式配置为全局模式,依次对确定出说话的参会区域的语音信号进行语音识别。
在本实施方式中,为了使其适用到更多的会议场景,提供了多种转写模式。比如,会议中只会有一个主咖讲话的情况。或者,两个人的对话采访类型会议,又或者所有人都会参与讲话的情况。为用户可以根据需求自行选择。
通过该实施方式可以看出,为用户提供多种转写模式,适用性更加广泛,提高用户的体验。
作为一种实施方式,在本实施例中,当所述参会人员将转写模式配置为中心模式时,所述方法还包括:
将所述有效参会区域的位置信息发送到预先链接的旋转摄像头中,用于通过所述旋转摄像头实时记录参会人员说话过程的视频。
本实施方式是可以选择性使用的。因为某些场合,比如是远程会议,或者需要音视频全部记录的场合,就需要添加摄像头,并实时的转向说话人。通过摄像头摆放位置,以及摄像头麦克风的距离等信息,提前设置位置模板,即几组麦克风分别对应摄像头需要转动的角度。通过语音信号处理中的位置估计模块,实时抛出位置信息,摄像头接收到坐标后,即转向目标声源位置。从而实现会议中语音与视频的联动。进一步提高用户的体验。
作为一种实施方式,在所述接收多个麦克风阵列所采集的语音信号之后,所述方法还包括:
对所述语音信号进行分帧,以便于转写的实时处理;
对分帧处理后的语音信号加窗处理后进行傅里叶变换,用于将时域信号转换成频域信号的同时避免频谱泄漏。
在本实施方式中,预处理主要是对麦克采集的信号进行分帧、加窗、傅里叶变换,分帧以便于进行实时处理,加窗是为防止傅里叶变换以后的频谱泄露,傅里叶变换是将时域信号转换成频域信号,便于后续处理。
通过该实施方式可以看出,对语音信号进行预处理,提高会议转写的识别率。
如图3所示为本发明一实施例提供的一种会议语音实时转写系统的结构示意图,该系统可执行上述任意实施例所述的会议语音实时转写方法,并配置在终端中。
本实施例提供的一种会议语音实时转写系统包括:信号采集程序模块11,信号增强程序模块12,信号分离程序模块13,区域划分程序模块14和识别转写程序模块15。
其中,信号采集程序模块11用于接收多个麦克风阵列所采集的语音信号,其中,所述多个麦克风阵列分别配置在各自的参会区域中;信号增强程序模块12用于对所述麦克风阵列采集的语音信号进行差分处理,以增强所述麦克风阵列中与说话的参会人员方向对应麦克风的语音信号;信号分离程序模块13用于通过盲源分离对差分处理后的语音信号进行处理,提取出语音信号中所述说话的参会人员各自的语音信号;区域划分程序模块14用于根据盲源分离后的语音信号进行位置估计,确定出所述说话的参会人员各自所在的参会区域;识别转写程序模块15用于对确定出说话的参会区域的语音信号进行语音识别,实时转化成对应的文字。
进一步地,在所述区域划分程序模块之后,所述系统还包括:转写模式配置程序模块,用于为参会人员提供转写模式,所述转写模式包括:中心模式、简单对话模式、全局模式;
若参会人员将转写模式配置为中心模式,当多个参会区域的参会人员说话时,按照预先配置的各参会区域的优先级,确定一个有效参会区域,对所述有效参会区域的语音信号进行语音识别;
若参会人员将转写模式配置为简单对话模式,仅仅对预先指定的两个参会区域内参会人员的语音信号进行语音识别;
若参会人员将转写模式配置为全局模式,依次对确定出说话的参会区域的语音信号进行语音识别。
进一步地,当所述参会人员将转写模式配置为中心模式时,所述系统还用于:
将所述有效参会区域的位置信息发送到预先链接的旋转摄像头中,用于通过所述旋转摄像头实时记录参会人员说话过程的视频。
进一步地,在所述信号采集程序模块之后,所述系统还用于:
对所述语音信号进行分帧,以便于转写的实时处理;
对分帧处理后的语音信号加窗处理后进行傅里叶变换,用于将时域信号转换成频域信号的同时避免频谱泄漏。
进一步地,所述麦克风阵列至少包括两个麦克风,所述麦克风间的距离小于2厘米。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的会议语音实时转写方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
接收多个麦克风阵列所采集的语音信号,其中,所述多个麦克风阵列分别配置在各自的参会区域中;
对所述麦克风阵列采集的语音信号进行差分处理,以增强所述麦克风阵列中与说话的参会人员方向对应麦克风的语音信号;
通过盲源分离对差分处理后的语音信号进行处理,提取出语音信号中说话的参会人员各自的语音信号;
根据盲源分离后的语音信号进行位置估计,确定出所述说话的参会人员各自所在的参会区域;
对确定出说话的参会区域的语音信号进行语音识别,实时转化成对应的文字。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的会议语音实时转写方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的会议语音实时转写方法的步骤。
本申请实施例的客户端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据处理功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种会议语音实时转写方法,应用于由多个麦克风阵列组成的麦克风集群,包括:
接收多个麦克风阵列所采集的语音信号,其中,所述多个麦克风阵列分别配置在各自的参会区域中;
对所述麦克风阵列采集的语音信号进行差分处理,以增强所述麦克风阵列中与说话的参会人员方向对应麦克风的语音信号;
通过盲源分离对差分处理后的语音信号进行处理,提取出语音信号中所述说话的参会人员各自的语音信号;
根据盲源分离后的语音信号进行位置估计,确定出所述说话的参会人员各自所在的参会区域;
为参会人员提供转写模式,所述转写模式包括:中心模式、简单对话模式、全局模式;
若参会人员将转写模式配置为中心模式,当多个参会区域的参会人员说话时,按照预先配置的各参会区域的优先级,确定一个有效参会区域,对所述有效参会区域的语音信号进行语音识别;
若参会人员将转写模式配置为简单对话模式,仅仅对预先指定的两个参会区域内参会人员的语音信号进行语音识别;
若参会人员将转写模式配置为全局模式,依次对确定出说话的参会区域的语音信号进行语音识别;
对确定出说话的参会区域的语音信号进行语音识别,实时转化成对应的文字。
2.根据权利要求1所述的方法,其中,当所述参会人员将转写模式配置为中心模式时,所述方法还包括:
将所述有效参会区域的位置信息发送到预先链接的旋转摄像头中,用于通过所述旋转摄像头实时记录参会人员说话过程的视频。
3.根据权利要求1所述的方法,其中,在所述接收多个麦克风阵列所采集的语音信号之后,所述方法还包括:
对所述语音信号进行分帧,以便于转写的实时处理;
对分帧处理后的语音信号加窗处理后进行傅里叶变换,用于将时域信号转换成频域信号的同时避免频谱泄漏。
4.根据权利要求1所述的方法,其中,所述麦克风阵列至少包括两个麦克风,所述麦克风间的距离小于2厘米。
5.一种会议语音实时转写系统,应用于由多个麦克风阵列组成的麦克风集群,包括:
信号采集程序模块,用于接收多个麦克风阵列所采集的语音信号,其中,所述多个麦克风阵列分别配置在各自的参会区域中;
信号增强程序模块,用于对所述麦克风阵列采集的语音信号进行差分处理,以增强所述麦克风阵列中与说话的参会人员方向对应麦克风的语音信号;
信号分离程序模块,用于通过盲源分离对差分处理后的语音信号进行处理,提取出语音信号中所述说话的参会人员各自的语音信号;
区域划分程序模块,用于根据盲源分离后的语音信号进行位置估计,确定出所述说话的参会人员各自所在的参会区域;
转写模式配置程序模块,用于为参会人员提供转写模式,所述转写模式包括:中心模式、简单对话模式、全局模式;
若参会人员将转写模式配置为中心模式,当多个参会区域的参会人员说话时,按照预先配置的各参会区域的优先级,确定一个有效参会区域,对所述有效参会区域的语音信号进行语音识别;
若参会人员将转写模式配置为简单对话模式,仅仅对预先指定的两个参会区域内参会人员的语音信号进行语音识别;
若参会人员将转写模式配置为全局模式,依次对确定出说话的参会区域的语音信号进行语音识别;
识别转写程序模块,用于对确定出说话的参会区域的语音信号进行语音识别,实时转化成对应的文字。
6.根据权利要求5所述的系统,其中,当所述参会人员将转写模式配置为中心模式时,所述系统还用于:
将所述有效参会区域的位置信息发送到预先链接的旋转摄像头中,用于通过所述旋转摄像头实时记录参会人员说话过程的视频。
7.根据权利要求5所述的系统,其中,在所述信号采集程序模块之后,所述系统还用于:
对所述语音信号进行分帧,以便于转写的实时处理;
对分帧处理后的语音信号加窗处理后进行傅里叶变换,用于将时域信号转换成频域信号的同时避免频谱泄漏。
8.根据权利要求5所述的系统,其中,所述麦克风阵列至少包括两个麦克风,所述麦克风间的距离小于2厘米。
CN201911104871.7A 2019-11-13 2019-11-13 会议语音实时转写方法及系统 Active CN110797043B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911104871.7A CN110797043B (zh) 2019-11-13 2019-11-13 会议语音实时转写方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911104871.7A CN110797043B (zh) 2019-11-13 2019-11-13 会议语音实时转写方法及系统

Publications (2)

Publication Number Publication Date
CN110797043A CN110797043A (zh) 2020-02-14
CN110797043B true CN110797043B (zh) 2022-04-12

Family

ID=69444367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911104871.7A Active CN110797043B (zh) 2019-11-13 2019-11-13 会议语音实时转写方法及系统

Country Status (1)

Country Link
CN (1) CN110797043B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111429916B (zh) * 2020-02-20 2023-06-09 西安声联科技有限公司 一种声音信号记录系统
CN111739553B (zh) * 2020-06-02 2024-04-05 深圳市未艾智能有限公司 会议声音采集、会议记录以及会议记录呈现方法和装置
CN111933144A (zh) * 2020-10-09 2020-11-13 融智通科技(北京)股份有限公司 后创建声纹的会议语音转写方法、装置及存储介质
CN112562677B (zh) * 2020-11-25 2023-12-15 安徽听见科技有限公司 会议语音转写方法、装置、设备及存储介质
CN112562715A (zh) * 2020-11-27 2021-03-26 上海容大数字技术有限公司 一种保险双录场景语音角色分离平板系统
CN112382306B (zh) * 2020-12-02 2022-05-10 思必驰科技股份有限公司 分离说话人音频的方法及装置
CN112750452A (zh) * 2020-12-29 2021-05-04 北京字节跳动网络技术有限公司 语音处理方法、装置、系统、智能终端以及电子设备
WO2023004776A1 (zh) * 2021-07-30 2023-02-02 深圳市大疆创新科技有限公司 一种麦克风阵列的信号处理方法、麦克风阵列以及系统
CN113470624B (zh) * 2021-09-03 2022-02-01 阿里巴巴达摩院(杭州)科技有限公司 声音检测方法
CN113707153B (zh) * 2021-09-06 2022-07-26 深圳极联信息技术股份有限公司 一种会议语音数据处理方法及系统
CN113936687B (zh) * 2021-12-17 2022-03-15 北京睿科伦智能科技有限公司 一种实时语音分离语音转写的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013164642A (ja) * 2012-02-09 2013-08-22 Nikon Corp 検索手段制御装置、検索結果出力装置及びプログラム
CN104488025A (zh) * 2012-03-16 2015-04-01 纽昂斯通讯公司 用户专用的自动语音识别
CN105391837A (zh) * 2014-09-01 2016-03-09 三星电子株式会社 管理音频信号的方法和设备
CN207718803U (zh) * 2017-12-06 2018-08-10 广州宝镜智能科技有限公司 多信源语音区分识别系统
CN108449687A (zh) * 2018-03-13 2018-08-24 江苏华腾智能科技有限公司 一种多麦克风阵列降噪的会议系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015094158A1 (en) * 2013-12-16 2015-06-25 Hewlett-Packard Development Company, L.P. Determining preferred communication explanations using record-relevancy tiers
US9800686B2 (en) * 2014-01-31 2017-10-24 Aruba Networks, Inc. Determining packet priority based on a location associated with a client device
JP6464411B6 (ja) * 2015-02-25 2019-03-13 Dynabook株式会社 電子機器、方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013164642A (ja) * 2012-02-09 2013-08-22 Nikon Corp 検索手段制御装置、検索結果出力装置及びプログラム
CN104488025A (zh) * 2012-03-16 2015-04-01 纽昂斯通讯公司 用户专用的自动语音识别
CN105391837A (zh) * 2014-09-01 2016-03-09 三星电子株式会社 管理音频信号的方法和设备
CN207718803U (zh) * 2017-12-06 2018-08-10 广州宝镜智能科技有限公司 多信源语音区分识别系统
CN108449687A (zh) * 2018-03-13 2018-08-24 江苏华腾智能科技有限公司 一种多麦克风阵列降噪的会议系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Audio multimedia conferencing system based on the technology of speech recognition";Yongbin Wang;《 IEEE APCCAS 2000. 2000 IEEE Asia-Pacific Conference on Circuits and Systems. Electronic Communication Systems》;20001206;全文 *
"智能语音会议纪要系统的设计与实现";王鑫;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20200215;全文 *

Also Published As

Publication number Publication date
CN110797043A (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
CN110797043B (zh) 会议语音实时转写方法及系统
US10957337B2 (en) Multi-microphone speech separation
CN107919133A (zh) 针对目标对象的语音增强系统及语音增强方法
Barker et al. The PASCAL CHiME speech separation and recognition challenge
CN112017681B (zh) 定向语音的增强方法及系统
CN103811020A (zh) 一种智能语音处理方法
CN111429939B (zh) 一种双声源的声音信号分离方法和拾音器
CN110111808B (zh) 音频信号处理方法及相关产品
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
CN113203988B (zh) 声源定位方法及装置
US11432086B2 (en) Centrally controlling communication at a venue
CN109560941A (zh) 会议记录方法、装置、智能终端及存储介质
CN111883168A (zh) 一种语音处理方法及装置
CN113593601A (zh) 基于深度学习的视听多模态语音分离方法
CN112201262A (zh) 一种声音处理方法及装置
CN111429916B (zh) 一种声音信号记录系统
CN112908336A (zh) 一种用于语音处理装置的角色分离方法及其语音处理装置
JP7400364B2 (ja) 音声認識システム及び情報処理方法
CN111199751B (zh) 一种麦克风的屏蔽方法、装置和电子设备
Cobos et al. Two-microphone separation of speech mixtures based on interclass variance maximization
CN116189651A (zh) 一种用于远程视频会议的多说话人声源定位方法及系统
CN115294987A (zh) 一种会议记录生成方法、装置、设备及存储介质
Zhou et al. Audio scene calssification based on deeper CNN and mixed mono channel feature
Dwivedi et al. Spherical harmonics domain-based approach for source localization in presence of directional interference
US20230421702A1 (en) Distributed teleconferencing using personalized enhancement models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant