CN110875056B - 语音转录设备、系统、方法、及电子设备 - Google Patents

语音转录设备、系统、方法、及电子设备 Download PDF

Info

Publication number
CN110875056B
CN110875056B CN201811004661.6A CN201811004661A CN110875056B CN 110875056 B CN110875056 B CN 110875056B CN 201811004661 A CN201811004661 A CN 201811004661A CN 110875056 B CN110875056 B CN 110875056B
Authority
CN
China
Prior art keywords
voice
signal
transcription
target
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811004661.6A
Other languages
English (en)
Other versions
CN110875056A (zh
Inventor
余涛
许云峰
刘章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811004661.6A priority Critical patent/CN110875056B/zh
Priority to PCT/CN2019/102482 priority patent/WO2020043037A1/zh
Publication of CN110875056A publication Critical patent/CN110875056A/zh
Application granted granted Critical
Publication of CN110875056B publication Critical patent/CN110875056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording

Abstract

本申请公开了语音转录设备、系统和方法,以及电子设备。其中,语音转录设备,通过传声器阵列采集阵列接收范围内的语音信号;若所述语音信号包括话音信号,则确定所述话音信号的声源位置;若所述声源位置在目标范围内,则将所述话音信号作为目标话音信号;将所述目标话音信号发送至语音转录服务器,以使得所述服务器对所述目标话音信号进行语音转录。采用这种处理方式,使得基于传声器阵列对拾音区域内的话音信号进行多麦克增强,同时根据声源位置判断是否是目标话音,对于目标区域外的声音进行过滤,保证区域外声音不会传入到转录服务器;因此,可以有效确保拾到目标话音,提升对非目标话音的抗干扰能力,从而提升语音转录质量。

Description

语音转录设备、系统、方法、及电子设备
技术领域
本申请涉及语音信号处理技术领域,具体涉及语音转录设备、系统和方法,以及电子设备。
背景技术
语音转录技术是近年来语音信号处理领域的一大研究热点。随着研究的不断深入,目前该项技术已经在庭审现场和多人会议等场合中得到了广泛的应用。
图1示出了一种常见的语音转录现场示意图。该方案在每个人面前配置一个鹅颈麦克设备,通过鹅颈麦克设备采集每个人的音频,将采集到的音频传送至音频处理装置,由音频处理装置对采集到的原始音频进行扩音处理,再将扩音后的音频发送至转录云服务,通过转录云服务进行对扩音后的音频进行语音转录处理。
然而,在实现本发明过程中,发明人发现该技术方案至少存在如下问题:
1)由于鹅颈麦克风本身的限制,其有效的拾音区域非常小,当用户偏离其有效区域或者距离过远的时候,用户的声音会被抑制,导致声音忽大忽小,影响转录效果;
2)由于鹅颈麦克风对声音的抑制效果又是有限的,周围人的声音也很容易被采集进去,因此在多人会议的时候或者庭审现场有噪声和回放等干扰条件下,抗干扰能力差,导致转录出现串音。综上所述,现有技术存在拾不到目标话音且外部串音干扰的问题。
发明内容
本申请提供语音转录设备,以解决现有技术存在的拾不到目标话音且外部串音干扰的问题。本申请另外提供语音转录系统和方法,以及电子设备。
本申请提供一种语音转录设备,包括:
语音采集装置,用于通过传声器阵列采集阵列接收范围内的语音信号;
声源定位装置,用于若所述语音信号包括话音信号,则确定所述话音信号的声源位置;
目标话音过滤装置,用于若所述声源位置在目标范围内,则将所述话音信号作为目标话音信号;
信号发送装置,用于将所述目标话音信号向外发送,以使得语音转录服务器对所述目标话音信号进行语音转录。
可选的,还包括:
语音降噪装置,用于根据所述声源位置,对所述目标话音信号进行语音增强;
所述信号发送装置,具体用于将增强后的目标话音信号向外发送。
可选的,还包括:
噪声协方差确定装置,用于若所述语音信号包括噪音信号,则确定所述语音信号的噪声协方差;
所述语音降噪装置,还用于根据所述噪声协方差,对所述噪音信号进行抑制。
可选的,还包括:
目标范围配置装置,用于获取所述目标范围,存储所述目标范围。
可选的,还包括:
所述目标话音过滤装置,还用于若所述声源位置不在所述目标范围内,则屏蔽所述话音信号。
可选的,所述传声器阵列的排布方式包括:方形阵列或圆形阵列。
可选的,还包括:
话音检测装置,用于检测所述语音信号是否包括话音信号;若是,则启动所述声源定位装置。
可选的,还包括:
话音检测装置,用于检测所述语音信号是否包括所述噪音信号;若是,则启动所述噪声协方差确定装置。
本申请还提供一种语音转录系统,包括:
上述的语音转录设备,以及,语音转录服务器;其中,所述服务器,用于对所述语音转录设备上传的目标话音信号进行语音转录。
本申请还提供一种语音转录方法,包括:
通过传声器阵列采集阵列接收范围内的语音信号;
若所述语音信号包括话音信号,则确定所述话音信号的声源位置;
若所述声源位置在目标范围内,则将所述话音信号作为目标话音信号;
将所述目标话音信号向外发送,以使得语音转录服务器对所述目标话音信号进行语音转录。
可选的,还包括:
根据所述声源位置,对所述目标话音信号进行语音增强;
所述将所述目标话音信号向外发送,包括:
将增强后的目标话音信号向外发送。
可选的,还包括:
若所述语音信号包括噪音信号,则确定所述语音信号的噪声协方差;
根据所述噪声协方差,对所述噪音信号进行抑制。
可选的,还包括:
获取所述目标范围,对应所述传声器阵列存储所述目标范围。
可选的,还包括:
若所述声源位置不在所述目标范围内,则屏蔽所述话音信号。
可选的,还包括:
检测所述语音信号是否包括话音信号;以及,检测所述语音信号是否包括所述噪音信号。
本申请还提供一种电子设备,包括:
传声器阵列;
处理器;以及
存储器,用于存储实现语音转录方法的程序,该设备通电并通过所述处理器运行该语音转录方法的程序后,执行下述步骤:通过所述传声器阵列采集阵列接收范围内的语音信号;若所述语音信号包括话音信号,则确定所述话音信号的声源位置;若所述声源位置在目标范围内,则将所述话音信号作为目标话音信号;将所述目标话音信号向外发送,以使得语音转录服务器对所述目标话音信号进行语音转录。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各种方法。
本申请还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各种方法。
与现有技术相比,本申请具有以下优点:
本申请实施例提供的语音转录设备,通过传声器阵列采集阵列接收范围内的语音信号;若所述语音信号包括话音信号,则确定所述话音信号的声源位置;若所述声源位置在目标范围内,则将所述话音信号作为目标话音信号;将所述目标话音信号发送至语音转录服务器,以使得所述服务器对所述目标话音信号进行语音转录;这种处理方式,使得基于传声器阵列对拾音区域内的话音信号进行多麦克增强,同时根据声源位置判断是否是目标话音,对于目标区域外的声音进行过滤,保证区域外声音不会传入到转录服务器;因此,可以有效确保拾到目标话音,提升对非目标话音的抗干扰能力,从而提升语音转录质量。
附图说明
图1是现有技术下的语音转录场景图;
图2是本申请提供的一种语音转录设备的实施例的结构示意图;
图3是本申请提供的一种语音转录设备的实施例的传声器阵列示意图;
图4是本申请提供的一种语音转录设备的实施例的具体结构示意图;
图5是本申请提供的一种语音转录设备的实施例的又一具体结构示意图;
图6是本申请提供的一种语音转录设备的实施例的数据处理流程图;
图7是本申请提供的一种语音转录系统的实施例的系统示意图;
图8是本申请提供的一种语音转录系统的实施例的场景示意图;
图9是本申请提供的一种语音转录方法的实施例的具体流程图;
图10是本申请提供的电子设备的实施例的示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请中,提供了语音转录系统、方法和装置,以及电子设备。在下面的实施例中逐一对各种方案进行详细说明。
第一实施例
请参考图2,其为本申请提供的一种语音转录设备的实施例的示意图,该设备包括:语音采集装置1,声源定位装置2,目标话音过滤装置3,以及,信号发送装置4。
所述语音采集装置1,用于通过传声器阵列采集阵列接收范围内的语音信号。
所述传声器阵列,包括多个传声器,每个传声器为阵列中的一个阵元。
传声器是将声音信号转换为电信号的能量转换器件,也称麦克风、话筒、微音器。传声器,可以是由声音的振动传到麦克风的振膜上,推动里边的磁铁形成变化的电流,这样变化的电流送到后面的声音处理电路进行放大处理。
所述传声器阵列可以拾到其接收范围内的语音信号,该接收范围称为所述阵列接收范围,是指所述传声器阵列可以接收到的语音信号的范围。所述阵列接收范围,取决于阵元的排布方式以及阵元数量。
传声器的阵列规模,不仅对于采集语音和噪声信号密切相关,也对声源定位精度有一定的影响。传声器是一种声音传感器,将声音信号转换为电压信号。当声源离传声器较远时,传声器就采集不到声音信号或者采集到的电压信号很小,这样造成信噪比太低,会对估计声源的方位不利。另外,传声器之间的距离越大,声源在传声器之间产生的相位差越大,对声源的方位更容易分辨,而距离小时由于相位差出现空间混迭,因此分辨率下降。
传声器阵列的排布可以根据实际需求灵活调节。所述阵元的排布方式,包括但不限于:圆形、方形,还可以是线性一字排开的形状等等。
请参见图3,其为语音转录系统的实施例的传声器阵列示意图。其中,图3a示出了一种方形的传声器阵列,各阵元特性相同且等间距;图3b示出了一种圆形的传声器阵列,各阵元特性相同,且在圆周上等间距排布各阵元。
所述语音采集装置1,可以在嘈杂背景下应用传声器阵列对其接收范围内的语音信号进行空时采样,如会场、多媒体教室、大型舞台、视频会议、车载免提电话和战场等。
所述语音信号,可以只包括话音信号,也可以只包括噪音信号,还可以同时包括话音信号和噪音信号。
在一个示例中,所述语音采集装置1包括三个部分,即:1)传声器阵列;2)前端放大单元;2)多通道同步采样单元。该装置的处理过程如下所述。首先通过传声器阵列采集阵列接收范围内的语音信号,并将语音信号转换为模拟电信号;然后通过前端放大单元将模拟电信号放大;接着将模拟电信号用多通道同步采样单元进行采样,转换为数字电信号可实现多通道同时采样。
所述声源定位装置2,用于若所述语音信号包括话音信号,则确定所述话音信号的声源位置。
声音定位(sound localization)是指听者利用环境中的声音刺激确定声源方向和距离的行为。取决于到达两耳的声音的物理特性变化,包括频率、强度和持续时间上的差别。
本申请实施例提供的设备,通过多通道麦克风的信号对声源位置进行定位,可根据不同声源到达麦克风的延时差异,获得声源的位置信息。
具体实施时,可以采用搜索每个时频点(TF)的最大delay-and-sum(延时相加)信息获得空间映射信息来获得声源的位置。
需要说明的是,声源定位算法不限于该算法,也可以是:music、cics、SPR-PHAT等算法等。现有声源定位算法可大致分为三类:a)基于时延估计(time-delay estimation,TDE)的算法;b)基于高分辨率谱估计的算法;c)基于稀疏表示的算法。具体实施时,可以根据需求选取声源定位算法。
所述目标话音过滤装置3,用于若所述声源位置在目标范围内,则将所述话音信号作为目标话音信号。
所述目标范围,是指目标声源所在的空间范围,可以由用户根据需求进行设置。
在一个示例中,所述设备还包括:目标范围配置装置,用于获取所述目标范围,并将该范围信息保存在存储器中。
所述目标话音过滤装置3,具体可根据声源位置信息判断所述话音信号的声音位置是否在目标范围内,如果是则保留当前语音信号,如果不是则屏蔽当前语音信号。
所述信号发送装置4,用于将所述目标话音信号向外发送,以使得语音转录服务器对所述目标话音信号进行语音转录。
在一个示例中,经由部署在声源现场(如会议或庭审现场)的数据搜集设备将增强后的目标话音信号送到云端语音转录服务器做语音转录。
请参考图4,其为本申请提供的语音转录设备的实施例的具体示意图。在本实施例中,所述设备还包括:语音降噪装置5,用于根据所述声源位置,对所述目标话音信号进行语音增强;相应的,所述信号发送装置4,具体用于将增强后的目标话音信号发送至所述语音转录服务器。采用这种处理方式,使得根据实际声音方向计算当前的方向矢量,实时调整波束的增强的方向,可以达到最优的增强效果。
请参考图5,其为本申请提供的语音转录设备的实施例的又一具体示意图。在本实施例中,所述设备还包括:噪声协方差确定装置6。
所述噪声协方差确定装置6,用于若所述语音信号包括噪音信号,则确定所述语音信号的噪声协方差;相应的,所述语音降噪装置5,还用于根据所述噪声协方差,对所述噪音信号进行抑制。
所述噪声协方差确定装置,可根据非话音段的噪声音频数据进行传声器之间的协方差计算。具体实施时,可采用如下公式计算噪声协方差:
Φn=∑X(n,k)*X(n,k)T
X(n,k)=[x1(n,k),x2(n,k),......xM(n,k)]T
其中,M表示传声器阵列的阵元数量;n表示语音采样时刻;k表示语音信号包括的频率;X表示语音信号。由上述公式可见,噪声协方差Φn为TF点在n时刻k频点上多个传声器信号组成的向量。通过共轭转置相乘获得协方差矩阵。
在一个示例中,所述语音降噪装置5使用波束形成技术在嘈杂背景下分离出所述目标话音信号,并将其增强,获得增强后的目标话音信号。例如,通过MVDR等算法进行传声器降噪处理,可以根据当前的噪声场和目标声源方向,获得最优的噪声抑制效果。其中,空间滤波系数可采用如下公式进行计算:
其中,V由声源定位计算出来的声音传播方向矢量。
空间滤波公式如下:
Y(n,k)=W·X(n,k)
Y(n,k)为波束形成后的输出频点。
在一个示例中,所述设备还包括:话音检测装置7,用于检测所述语音信号是否包括话音信号;若是,则启动所述声源定位装置2;以及,检测所述语音信号是否包括所述噪音信号;若是,则启动所述噪声协方差确定装置6。
话音检测,又称为话音激活检测(VAD,Voice Activity Detection),是指用于识别话音数据比特是否出现的处理过程。其目的是检测当前语音信号中是否包含话音信号存在,即对输入信号进行判断,将话音信号与各种背景噪声信号区分出来,分别对两种信号采用不同的处理方法。
本申请实施例提供的设备,通过话音检测,从包含语音的一段信号中找出话音的起始点及结束点,从而可对话音信号进行语音转录处理和语音增强处理。有效的端点检测不仅可以减少处理时间,而且能排除无声段的噪声干扰。
具体实施时,可以通过计算每帧语音信号的能量,进行VAD检测。
请参见图6,其为语音转录设备的实施例的数据处理流程图。在本实施例中,首先通过传声器阵列(如圆阵或方阵)进行拾音,获得多路麦克风阵列信号,经由多麦克数据采集处理后,将多路的音频信号分别送入声源定位装置、噪声协方差确定装置和语音降噪装置,并单独送任意一路语音信号到话音检测装置。VAD装置用于检测当前是否有话音信号,如果存在话音信号(VAD=1),则通过声源定位装置进行声源定位,如果是噪声信号,则送入到噪声协方差确定装置估计噪声协方差矩阵。通过声源定位获得声源的位置。语音降噪装置通过获得的声源位置信息和噪声协方差信息对定向声源进行语音增强,声源位置信息同时经由目标声源判决的处理,判断当前声源是否是目标声源,根据判决信息由目标声源过滤装置过滤增强后的话音信号来获得目标区域的话音信号,最后经由信号发送装置将增强后的目标话音信号通过部署在声源现场(如会议或庭审现场)的数据搜集设备送到云端做语音转录。
从上述实施例可见,本申请实施例提供的语音转录设备,通过传声器阵列采集阵列接收范围内的语音信号;若所述语音信号包括话音信号,则确定所述话音信号的声源位置;若所述声源位置在目标范围内,则将所述话音信号作为目标话音信号;将所述目标话音信号向外发送,以使得语音转录服务器对所述目标话音信号进行语音转录;这种处理方式,使得基于传声器阵列对拾音区域内的话音信号进行多麦克增强,同时根据声源位置判断是否是目标话音,对于目标区域外的声音进行过滤,保证区域外声音不会传入到转录服务器;因此,可以有效确保拾到目标话音,提升对非目标话音的抗干扰能力,从而提升语音转录质量。
在上述的实施例中,提供了一种语音转录设备,与之相对应的,本申请还提供一种语音转录系统。
第二实施例
请参看图7,其为本申请的语音转录系统的实施例的流程图。本申请另外提供一种语音转录系统,包括:至少一个上述实施例所述的语音转录设备701,以及,语音转录服务器702。
所述语音转录服务器702,用于对所述语音转录设备701上传的目标话音信号进行语音转录。
所述语音转录设备701,通常部署在声源现场,如会议或庭审现场。所述语音转录设备701,能够通过传声器阵列采集阵列接收范围内的语音信号;然后若所述语音信号包括话音信号,则通过声源定位装置确定所述话音信号的声源位置;若所述声源位置在目标范围内,则通过目标话音过滤装置将所述话音信号作为目标话音信号;最后通过信号发送装置将所述目标话音信号向外发送,以使得所述语音转录服务器702对所述目标话音信号进行语音转录。
请参看图8,其为本申请的语音转录系统的实施例的使用场景示意图。在本实施例中,现场部署了6个传声器阵列,且包括数据搜集设备,每个传声器阵列将各自的目标声源信号发送至该数据搜集设备,经由该数据搜集设备将增强后的目标话音信号送到云端做语音转录,并接收及显示转录结果。
从上述实施例可见,本申请实施例提供的语音转录系统,通过传声器阵列采集阵列接收范围内的语音信号;若所述语音信号包括话音信号,则确定所述话音信号的声源位置;若所述声源位置在目标范围内,则将所述话音信号作为目标话音信号;将所述目标话音信号向外发送,以使得语音转录服务器对所述目标话音信号进行语音转录;这种处理方式,使得基于传声器阵列对拾音区域内的话音信号进行多麦克增强,同时根据声源位置判断是否是目标话音,对于目标区域外的声音进行过滤,保证区域外声音不会传入到转录服务器;因此,可以有效确保拾到目标话音,提升对非目标话音的抗干扰能力,从而提升语音转录质量。
在上述的实施例中,提供了一种语音转录系统,与之相对应的,本申请还提供一种语音转录方法。该方法是与上述系统的实施例相对应。
第三实施例
请参看图9,其为本申请的语音转录方法的实施例的流程图。由于方法实施例基本相似于系统实施例,所以描述得比较简单,相关之处参见系统实施例的部分说明即可。下述描述的方法实施例仅仅是示意性的。
本申请另外提供一种语音转录方法,包括:
步骤S901:通过传声器阵列采集阵列接收范围内的语音信号。
步骤S903:若所述语音信号包括话音信号,则确定所述话音信号的声源位置。
步骤S905:若所述声源位置在目标范围内,则将所述话音信号作为目标话音信号。
步骤S907:将所述目标话音信号向外发送,以使得语音转录服务器对所述目标话音信号进行语音转录。
在一个示例中,本申请实施例提供的方法还可包括如下步骤:根据所述声源位置,对所述目标话音信号进行语音增强;相应的,步骤S907采用如下方式实现:将增强后的目标话音信号向外发送。
在一个示例中,本申请实施例提供的方法还可包括如下步骤:1)若所述语音信号包括噪音信号,则确定所述语音信号的噪声协方差;2)根据所述噪声协方差,对所述噪音信号进行抑制。
在一个示例中,本申请实施例提供的方法还可包括如下步骤:获取所述目标范围,对应所述传声器阵列存储所述目标范围。
在一个示例中,本申请实施例提供的方法还可包括如下步骤:若所述声源位置不在所述目标范围内,则屏蔽所述话音信号。
在一个示例中,本申请实施例提供的方法还可包括如下步骤:检测所述语音信号是否包括话音信号;以及,检测所述语音信号是否包括所述噪音信号。
从上述实施例可见,本申请实施例提供的语音转录方法,通过传声器阵列采集阵列接收范围内的语音信号;若所述语音信号包括话音信号,则确定所述话音信号的声源位置;若所述声源位置在目标范围内,则将所述话音信号作为目标话音信号;将所述目标话音信号向外发送,以使得语音转录服务器对所述目标话音信号进行语音转录;这种处理方式,使得基于传声器阵列对拾音区域内的话音信号进行多麦克增强,同时根据声源位置判断是否是目标话音,对于目标区域外的声音进行过滤,保证区域外声音不会传入到转录服务器;因此,可以有效确保拾到目标话音,提升对非目标话音的抗干扰能力,从而提升语音转录质量。
在上述的实施例中,提供了一种语音转录方法,与之相对应的,本申请还提供一种语音转录装置。该装置是与上述方法的实施例相对应。
第四实施例
请参考图10,其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:处理器1001和存储器1002;所述存储器,用于存储实现语音转录方法的程序,该设备通电并通过所述处理器运行该语音转录方法的程序后,执行下述步骤:通过所述传声器阵列采集阵列接收范围内的语音信号;若所述语音信号包括话音信号,则确定所述话音信号的声源位置;若所述声源位置在目标范围内,则将所述话音信号作为目标话音信号;将所述目标话音信号向外发送,以使得语音转录服务器对所述目标话音信号进行语音转录。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (15)

1.一种语音转录设备,其特征在于,会议现场部署数据搜集设备和多个所述语音转录设备,所述语音转录设备包括:
目标范围配置装置,用于获取目标范围;
语音采集装置,用于通过传声器阵列采集阵列接收范围内的语音信号;
声源定位装置,用于若所述语音信号包括话音信号,则确定所述话音信号的声源位置;
目标话音过滤装置,用于若所述声源位置在目标范围内,则将所述话音信号作为目标话音信号;
信号发送装置,用于将所述目标话音信号向外发送至所述数据搜集设备,所述数据搜集设备将多个所述语音转录设备提供的所述目标话音信号发送至语音转录服务器,以使得语音转录服务器对所述目标话音信号进行语音转录,所述数据搜集设备显示转录结果。
2.根据权利要求1所述的设备,其特征在于,还包括:
语音降噪装置,用于根据所述声源位置,对所述目标话音信号进行语音增强;
所述信号发送装置,具体用于将增强后的目标话音信号向外发送。
3.根据权利要求2所述的设备,其特征在于,还包括:
噪声协方差确定装置,用于若所述语音信号包括噪音信号,则确定所述语音信号的噪声协方差;
所述语音降噪装置,还用于根据所述噪声协方差,对所述噪音信号进行抑制。
4.根据权利要求1所述的设备,其特征在于,还包括:
所述目标话音过滤装置,还用于若所述声源位置不在所述目标范围内,则屏蔽所述话音信号。
5.根据权利要求1所述的设备,其特征在于,
所述传声器阵列的排布方式包括:方形阵列或圆形阵列。
6.根据权利要求1所述的设备,其特征在于,还包括:
话音检测装置,用于检测所述语音信号是否包括话音信号;若是,则启动所述声源定位装置。
7.根据权利要求3所述的设备,其特征在于,还包括:
话音检测装置,用于检测所述语音信号是否包括所述噪音信号;若是,则启动所述噪声协方差确定装置。
8.一种语音转录系统,其特征在于,包括:
根据上述权利要求1-7任一项所述的语音转录设备,以及,语音转录服务器;其中,所述服务器,用于对所述语音转录设备上传的目标话音信号进行语音转录。
9.一种语音转录方法,其特征在于,包括:
语音转录设备获取目标范围;
通过传声器阵列采集阵列接收范围内的语音信号;
若所述语音信号包括话音信号,则确定所述话音信号的声源位置;
若所述声源位置在目标范围内,则将所述话音信号作为目标话音信号;
将所述目标话音信号向外发送至数据搜集设备,所述数据搜集设备将多个所述语音转录设备提供的所述目标话音信号发送至语音转录服务器,以使得语音转录服务器对所述目标话音信号进行语音转录,所述数据搜集设备显示会议现场部署的多个语音转录设备提供的所述目标话音信号的转录结果。
10.根据权利要求9所述的方法,其特征在于,还包括:
根据所述声源位置,对所述目标话音信号进行语音增强;
所述将所述目标话音信号向外发送,包括:
将增强后的目标话音信号向外发送。
11.根据权利要求10所述的方法,其特征在于,还包括:
若所述语音信号包括噪音信号,则确定所述语音信号的噪声协方差;
根据所述噪声协方差,对所述噪音信号进行抑制。
12.根据权利要求10所述的方法,其特征在于,还包括:
获取所述目标范围,对应所述传声器阵列存储所述目标范围。
13.根据权利要求10所述的方法,其特征在于,还包括:
若所述声源位置不在所述目标范围内,则屏蔽所述话音信号。
14.根据权利要求11所述的方法,其特征在于,还包括:
检测所述语音信号是否包括话音信号;以及,检测所述语音信号是否包括所述噪音信号。
15.一种电子设备,其特征在于,包括:
传声器阵列;
处理器;以及
存储器,用于存储实现语音转录方法的程序,该设备通电并通过所述处理器运行该语音转录方法的程序后,执行下述步骤:获取目标范围;通过所述传声器阵列采集阵列接收范围内的语音信号;若所述语音信号包括话音信号,则确定所述话音信号的声源位置;若所述声源位置在目标范围内,则将所述话音信号作为目标话音信号;将所述目标话音信号向外发送至数据搜集设备,所述数据搜集设备将多个所述语音转录设备提供的所述目标话音信号发送至语音转录服务器,以使得语音转录服务器对所述目标话音信号进行语音转录,所述数据搜集设备显示会议现场部署的多个语音转录设备提供的所述目标话音信号的转录结果。
CN201811004661.6A 2018-08-30 2018-08-30 语音转录设备、系统、方法、及电子设备 Active CN110875056B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811004661.6A CN110875056B (zh) 2018-08-30 2018-08-30 语音转录设备、系统、方法、及电子设备
PCT/CN2019/102482 WO2020043037A1 (zh) 2018-08-30 2019-08-26 语音转录设备、系统、方法、及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811004661.6A CN110875056B (zh) 2018-08-30 2018-08-30 语音转录设备、系统、方法、及电子设备

Publications (2)

Publication Number Publication Date
CN110875056A CN110875056A (zh) 2020-03-10
CN110875056B true CN110875056B (zh) 2024-04-02

Family

ID=69643925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811004661.6A Active CN110875056B (zh) 2018-08-30 2018-08-30 语音转录设备、系统、方法、及电子设备

Country Status (2)

Country Link
CN (1) CN110875056B (zh)
WO (1) WO2020043037A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113516989A (zh) * 2020-03-27 2021-10-19 浙江宇视科技有限公司 声源音频的管理方法、装置、设备和存储介质
CN113949967A (zh) * 2020-07-16 2022-01-18 华为技术有限公司 一种会议语音增强的方法、装置和系统
CN112750455A (zh) * 2020-12-29 2021-05-04 苏州思必驰信息科技有限公司 音频处理方法及装置
CN113345462B (zh) * 2021-05-17 2023-12-29 浪潮金融信息技术有限公司 一种拾音去噪方法、系统及介质
CN115482828A (zh) * 2021-06-15 2022-12-16 华为技术有限公司 声音信号处理方法及装置、计算机可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682769A (zh) * 2011-03-07 2012-09-19 埃森哲环球服务有限公司 对数字网络进行基于自然语言的控制
TW201316328A (zh) * 2011-10-14 2013-04-16 Hon Hai Prec Ind Co Ltd 聲音反饋裝置及其工作方法
CN104240718A (zh) * 2013-06-12 2014-12-24 株式会社东芝 转录支持设备和方法
CN106297794A (zh) * 2015-05-22 2017-01-04 西安中兴新软件有限责任公司 一种语音文字的转换方法及设备
CN106782596A (zh) * 2016-11-18 2017-05-31 深圳市行者机器人技术有限公司 一种基于麦克风阵列的声源定位跟随系统及方法
CN107172018A (zh) * 2017-04-27 2017-09-15 华南理工大学 公共背景噪声下激活式的声纹密码安全控制方法及系统
CN107210034A (zh) * 2015-02-03 2017-09-26 杜比实验室特许公司 选择性会议摘要
CN107527626A (zh) * 2017-08-30 2017-12-29 北京嘉楠捷思信息技术有限公司 一种音频识别系统
CN107742522A (zh) * 2017-10-23 2018-02-27 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US9689959B2 (en) * 2011-10-17 2017-06-27 Foundation de l'Institut de Recherche Idiap Method, apparatus and computer program product for determining the location of a plurality of speech sources
US20150379990A1 (en) * 2014-06-30 2015-12-31 Rajeev Conrad Nongpiur Detection and enhancement of multiple speech sources
US20160071526A1 (en) * 2014-09-09 2016-03-10 Analog Devices, Inc. Acoustic source tracking and selection
CN105335336B (zh) * 2015-10-12 2017-10-31 中国人民解放军国防科学技术大学 一种传感器阵列的稳健自适应波束形成方法
US20170243582A1 (en) * 2016-02-19 2017-08-24 Microsoft Technology Licensing, Llc Hearing assistance with automated speech transcription
CN107316649B (zh) * 2017-05-15 2020-11-20 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法及装置
CN108122563B (zh) * 2017-12-19 2021-03-30 北京声智科技有限公司 提高语音唤醒率及修正doa的方法
CN108269582B (zh) * 2018-01-24 2021-06-01 厦门美图之家科技有限公司 一种基于双麦克风阵列的定向拾音方法及计算设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682769A (zh) * 2011-03-07 2012-09-19 埃森哲环球服务有限公司 对数字网络进行基于自然语言的控制
TW201316328A (zh) * 2011-10-14 2013-04-16 Hon Hai Prec Ind Co Ltd 聲音反饋裝置及其工作方法
CN104240718A (zh) * 2013-06-12 2014-12-24 株式会社东芝 转录支持设备和方法
CN107210034A (zh) * 2015-02-03 2017-09-26 杜比实验室特许公司 选择性会议摘要
CN106297794A (zh) * 2015-05-22 2017-01-04 西安中兴新软件有限责任公司 一种语音文字的转换方法及设备
CN106782596A (zh) * 2016-11-18 2017-05-31 深圳市行者机器人技术有限公司 一种基于麦克风阵列的声源定位跟随系统及方法
CN107172018A (zh) * 2017-04-27 2017-09-15 华南理工大学 公共背景噪声下激活式的声纹密码安全控制方法及系统
CN107527626A (zh) * 2017-08-30 2017-12-29 北京嘉楠捷思信息技术有限公司 一种音频识别系统
CN107742522A (zh) * 2017-10-23 2018-02-27 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王振涛 ; 郝忠孝 ; 贺洪江 ; .基于传声器阵列的声源定位系统的研究.华北电力大学学报(自然科学版).2009,(05),全文. *

Also Published As

Publication number Publication date
WO2020043037A1 (zh) 2020-03-05
CN110875056A (zh) 2020-03-10

Similar Documents

Publication Publication Date Title
CN110875056B (zh) 语音转录设备、系统、方法、及电子设备
CN106782584B (zh) 音频信号处理设备、方法和电子设备
US9319782B1 (en) Distributed speaker synchronization
KR101456866B1 (ko) 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
KR101415026B1 (ko) 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치
US8345890B2 (en) System and method for utilizing inter-microphone level differences for speech enhancement
CN111044973B (zh) 一种用于麦克风方阵的mvdr目标声源定向拾音方法
CN111445920B (zh) 一种多声源的语音信号实时分离方法、装置和拾音器
CN110537221A (zh) 用于空间音频处理的两阶段音频聚焦
KR102352927B1 (ko) 상관 기반 근접장 검출기
KR20130084298A (ko) 원거리 다중 음원 추적 및 분리 시스템, 방법, 장치 및 컴퓨터-판독가능 매체
US11869481B2 (en) Speech signal recognition method and device
CN108235181B (zh) 在音频处理装置中降噪的方法
JP2005525717A (ja) 選択的な音の増幅
JP2017530396A (ja) 音源を強調するための方法及び機器
US9241223B2 (en) Directional filtering of audible signals
CN103165136A (zh) 音频处理方法及音频处理设备
JP5246120B2 (ja) 収音装置、利得制御方法、およびプログラム
CN107124647A (zh) 一种全景视频录制时自动生成字幕文件的方法及装置
KR102008745B1 (ko) 이동 디바이스들을 위한 서라운드 사운드 레코딩
KR20090037845A (ko) 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치
KR101757461B1 (ko) 배경잡음의 스펙트럼 밀도를 추정하는 방법 및 이를 수행하는 프로세서
KR102475869B1 (ko) 잡음이 포함된 오디오 신호를 처리하는 방법 및 장치
CN117169812A (zh) 一种基于深度学习和波束形成的声源定位方法
CN113409800A (zh) 一种监控音频的处理方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40024967

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant