CN115424609A - 一种自动语音识别方法、系统、介质、设备及终端 - Google Patents

一种自动语音识别方法、系统、介质、设备及终端 Download PDF

Info

Publication number
CN115424609A
CN115424609A CN202210978317.7A CN202210978317A CN115424609A CN 115424609 A CN115424609 A CN 115424609A CN 202210978317 A CN202210978317 A CN 202210978317A CN 115424609 A CN115424609 A CN 115424609A
Authority
CN
China
Prior art keywords
vector
loudspeaker
dnn
speech recognition
spatial filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210978317.7A
Other languages
English (en)
Inventor
刘银华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao University
Original Assignee
Qingdao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University filed Critical Qingdao University
Priority to CN202210978317.7A priority Critical patent/CN115424609A/zh
Publication of CN115424609A publication Critical patent/CN115424609A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明属于自动语音识别技术领域,公开了一种自动语音识别方法、系统、介质、设备及终端,利用定位网络估计延迟时间并将来自不同位置的向量相加得到转向向量,并使用所述向量在嘈杂的环境中导出空间滤波器;将方向向量与扬声器权重相乘,利用声音接收的位置追踪声源位置,并通过话语的特征信息实现追踪。本发明将方向向量与扬声器权重相乘,这样它不仅可以利用声音接收的位置来追踪声源位置,而且还可以通过话语的特征信息来实现追踪。另外,本发明使用一个定位网络来估计延迟时间以及将来自不同位置的向量相加得到转向向量,并使用这些向量在嘈杂的环境中导出空间滤波器,由此解决了多通道语音分离的问题以及实现了对其声源的位置判定。

Description

一种自动语音识别方法、系统、介质、设备及终端
技术领域
本发明属于自动语音识别技术领域,尤其涉及一种自动语音识别方法、系统、介质、设备及终端。
背景技术
目前,尽管近年来自动语音识别技术(ASR)在噪声条件下取得了较大的突破,但它在多个扬声器同时活跃的重叠语音中表现不佳。在自动会议翻译等许多场景中,重叠语音都很常见。通常,在ASR之前需要语音分离(SS)来提取每个扬声器的声音。语音分离已经使用单通道和多通道技术进行了研究,包括非负矩阵分解(NMF),独立分量分析(ICA)或计算听觉场景分析(CASA)。
最近,将掩码估计神经网络与波束形成器相结合的方案在语音和噪声分离方面取得了巨大进展,解决了从多声道录音中分离所有扬声器的任务。最近的工作提出了这样效果不错的方案。掩码估计神经网络从记录中提取时频掩码。然后,掩码被用来计算语音和噪声的协方差矩阵,这些协方差矩阵被用于估计空间滤波器。由于语音的时频特性与噪声有很大的不同,该方法能够准确地估计出语音的掩码。
然而,使用上述方案将语音从语音中分离并不是直截了当的。通过将神经网络与波束形成器相结合来解决语音分离问题已经有了一些成果。在“多麦克风神经语音分离在远场多话务员语音识别中的应用”中,神经网络用于掩码估计,然后用于计算空间滤波器。与掩码估计相比,在“一种用于多声道录音的多扬声器语音识别的统一网络”中,神经网络用于估计到达时差(TDOA)。由于使用多通道录音,这些方案能够使用空间线索来分离语音。它很难分离近距离的扬声器,例如,如果扬声器的位置彼此靠近,它可能无法分离这些扬声器。
针对提取扬声器的工作中,神经网络中使用扬声器信息的不同机制已经被探索过。最常见的方法包括使用扬声器表达作为附加输入特征等,它们在掩码估计方面具有良好的性能,可以应用于语音分离。然而,它们需要在许多实际情况下无法获得的参考信号。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有的将掩码估计神经网络与波束形成器相结合的方案中,将语音从语音中分离并不是直截了当的,且很难分离近距离的扬声器。
(2)现有的使用扬声器表达作为附加输入特征的方案中,需要在许多实际情况下无法获得的参考信号。
发明内容
针对现有技术存在的问题,本发明提供了一种自动语音识别方法、系统、介质、设备及终端。本发明通过在每个空间滤波器中使用关于扬声器的附加信息,例如通过辅助网络从I向量得到扬声器的权重,本发明所提出的波束形成器可以利用扬声器的特征来区分不同扬声器,从而达到分离语音甚至是距离相近扬声器的目的。
本发明是这样实现的,一种自动语音识别方法包括:
利用定位网络估计延迟时间将来自不同位置的向量相加得到转向向量,对所述转向向量在嘈杂的环境中导出空间滤波器;将导出的转向向量与扬声器权重相乘,获得频谱和相位信息,基于频谱和相位信息对声音接收的位置进行声源位置追踪,以及通过话语的特征信进行扬声器的向量识别。
进一步,所述自动语音识别方法包括以下步骤:
步骤一,通过传输给波束形成器的每个空间滤波器有关扬声器的信息;
步骤二,通过训练辅助神经网络将I向量转换为具有扬声器权重的向量,并应用扬声器权重修改空间滤波器;此步骤为方案最终输出提取各个扬声器的I向量打下了基础,使得分离语音的准确率提高。
步骤三,在波束形成器中使用具有扬声器感知的引导向量,并将扬声器权重加权方向向量后用于计算空间滤波器;进一步优化空间滤波器。
步骤四,给定混合信号中估计的频谱和相位信息,使用短时傅里叶逆变换重构时域信号;对于每个测试扬声器,使用基于神经网络的波束形成从分离的信号中提取扬声器的I向量。由于本步骤提取扬声器的I向量,使得分离语音时不仅仅局限于空间的识别,使得分离距离近的扬声器的准确率上升。
进一步,所述步骤一中,通过传输给波束形成器的每个空间滤波器有关扬声器的信息,语音分离的处理表示为:
Figure BDA0003799154320000031
式中,λn表示扬声器n的向量,gs为辅助网络的变换。
进一步,所述步骤二中,使用I向量表示扬声器,修改波束形成行为的语音分离;利用扬声器感知方法,向量DNN将话语级I向量转换为扬声器权值;不同的颜色表示对不同的扬声器的处理;每个扬声器均有一个I向量DNN,并与其他扬声器共享参数。SA空间滤波器是指感知扬声器的空间滤波器;I向量DNN与定位DNN联合优化和/或单独优化。
进一步,所述步骤三中,在波束形成器中使用一个具有扬声器感知的引导向量;扬声器权重加权一个方向向量,用于计算空间滤波器;
Figure BDA0003799154320000032
式中,hn(f)是一个感知扬声器的导向向量,计算公式如下:
hn(f)=an(f)⊙αn(f);
式中,⊙表示内积运算,从少量扬声器的训练集中学习调整导向向量。
进一步,所述步骤四中的神经网络包括定位DNN、声学模型DNN和i向量DNN;对定位DNN和声学模型DNN进行预训练;使用干净的语音作为目标或对齐作为目标来训练I向量DNN;对于干净语音,通过最小化以下平方误差SE优化I向量DNN中的参数:
Figure BDA0003799154320000033
通过最小化帧级交叉熵误差CE训练I向量DNN并进行语音识别:
Figure BDA0003799154320000041
Figure BDA0003799154320000042
式中,
Figure BDA0003799154320000043
是声学模型DNN的输出,其他参数均是固定值。
使用以下公式来恢复测试阶段的语音:
Figure BDA0003799154320000044
其中,η是控制参数,且η=0.5。
本发明的另一目的在于提供一种应用所述的自动语音识别方法的自动语音识别系统,所述自动语音识别系统包括:
信息传输模块,用于通过传输给波束形成器的每个空间滤波器有关扬声器的信息;
向量转换模块,用于通过训练辅助神经网络将I向量转换为具有扬声器权重的向量,并应用扬声器权重修改空间滤波器;
权重加权模块,用于在波束形成器中使用具有扬声器感知的引导向量,并将扬声器权重加权方向向量后用于计算空间滤波器;
时域信号重构模块,用于给定混合信号中估计的频谱和相位信息,使用短时傅里叶逆变换重构时域信号;
向量提取模块,用于对于每个测试扬声器,使用基于神经网络的波束形成从分离的信号中提取扬声器的I向量。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述的自动语音识别方法。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述自动语音识别方法。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的自动语音识别系统。
结合上述的技术方案和解决的技术问题,请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为:
第一、针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:
本发明提供的自动语音识别方法,向每个空间过滤器提供关于扬声器的信息,以便它仍然能够分离近距离的扬声器。这是通过在每个空间滤波器中使用关于扬声器的附加信息来实现的,例如通过辅助网络从I向量得到扬声器的权重。由于所提出的波束形成器可以利用扬声器的特征来区分扬声器,因此该方案能够分离近距离的扬声器。此外,它对扬声器方向估计误差也具有针对性。本发明的方案不需要参考信号,因为它允许从分离的语音中提取扬声器的语言。
当扬声器彼此靠近或其位置估计不准确时,波束形成器在语音分离方面存在困难。为了克服这个问题,本发明提出了一种在波束形成中使用扬声器特征信息的方法:将方向向量与扬声器权重相乘,这样它不仅可以利用声音接收的位置来追踪声源位置,而且还可以通过话语的特征信息来实现追踪。
第二,把技术方案看作一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:
本发明使用一个定位网络来估计延迟时间以及将来自不同位置的向量相加得到转向向量,并使用这些向量在嘈杂的环境中导出空间滤波器,由此解决了多通道语音分离的问题以及实现了对其声源的位置判定。
第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
(1)本发明的技术方案转化后的预期收益和商业价值为:语音识别技术应用范围极广,例如会议记录、行车记录仪等监控设备过滤噪音、语音输入等,在使用本发明的设计方案后,由于可以提高语音分离、识别的准确性,所以会让语音识别技术的使用范围大大提升,除了可以集成在各种智能设备例如智能手机、手表等里,也可以作为专业的分析工具用于分离噪音或重叠语音,商业价值极高。
(2)本发明的技术方案解决了人们一直渴望解决、但始终未能获得成功的技术难题:以往将神经网络与波束形成器相结合来解决语音分离问题所使用的方案存在很难分辨近距离扬声器的缺陷,本发明的技术方案解决了这个问题,通过在每个空间滤波器中使用关于扬声器的附加信息,例如通过辅助网络从I向量得到扬声器的权重,本发明的设计方案所提出的波束形成器可以利用扬声器的特征来区分不同扬声器,从而本方案能够分离近距离的扬声器。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的自动语音识别方法流程图;
图2是本发明实施例提供的自动语音识别方法原理图;
图3是本发明实施例提供的阵列的配置示意图;
其中:SA空间滤波器:感知扬声器的空间滤波器;DNN:深度神经网络。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种自动语音识别方法、系统、介质、设备及终端,下面结合附图对本发明作详细的描述。
一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现,该部分是对权利要求技术方案进行展开说明的解释说明实施例。
本发明实施例提供的自动语音识别方法包括:
利用定位网络估计延迟时间将来自不同位置的向量相加得到转向向量,对所述转向向量在嘈杂的环境中导出空间滤波器;将导出的转向向量与扬声器权重相乘,获得频谱和相位信息,基于频谱和相位信息对声音接收的位置进行声源位置追踪,以及通过话语的特征信进行扬声器的向量识别。
实施例1
如图1所示,本发明实施例提供的自动语音识别方法包括以下步骤:
S101,通过传输给波束形成器的每个空间滤波器有关扬声器的信息;
S102,通过训练辅助神经网络将I向量转换为具有扬声器权重的向量,并应用扬声器权重修改空间滤波器;
S103,在波束形成器中使用具有扬声器感知的引导向量,并将扬声器权重加权方向向量后用于计算空间滤波器;
S104,给定混合信号中估计的频谱和相位信息,使用短时傅里叶逆变换重构时域信号;对于每个测试扬声器,使用基于神经网络的波束形成从分离的信号中提取扬声器的I向量。
实施例2
如图2所示,本发明实施例提供的自动语音识别方法,包括以下步骤:
本发明使用一个定位网络来估计延迟时间以及将来自不同位置的向量相加得到转向向量,并使用这些向量在嘈杂的环境中导出空间滤波器,由此解决了多通道语音分离的问题以及实现了对其声源的位置判定。当扬声器彼此靠近或其位置估计不准确时,波束形成器在语音分离方面存在困难。为了克服这个问题,本发明提出了一种在波束形成中使用扬声器特征信息的方法:将方向向量与扬声器权重相乘,这样它不仅可以利用声音接收的位置来追踪声源位置,而且还可以通过话语的特征信息来实现追踪。
首先,本发明通过传输给波束形成器的每个空间滤波器有关扬声器的信息。语音分离的处理可以表示为:
Figure BDA0003799154320000081
式中,λn表示扬声器n的向量,gs为辅助网络的变换。这样,波束形成器不仅可以根据扬声器的方向,还可以根据扬声器的特定特性来区分信号。告知每个空间滤波器有关扬声器的信息,使本发明的系统能够学习跟踪扬声器的特征。
本发明探索使用I向量来表示扬声器,目标是修改波束形成行为的语音分离。
为了改变波束形成的行为,本发明必须解决两个问题:(1)使用I向量进行语音分离;(2)修改空间滤波器。本发明通过训练一个辅助神经网络来学习如何将I向量转换为具有扬声器权重的向量。然后应用扬声器权重来修改空间滤波器。方案流程如图2所示。该方案利用扬声器感知方法完成。以两个扬声器为例,向量DNN将话语级I向量转换为扬声器权值。不同的颜色表示对不同的扬声器的处理。每个扬声器都有一个I向量DNN,它与其他扬声器共享参数。SA空间滤波器是指感知扬声器的空间滤波器。I向量DNN可以与定位DNN联合优化,也可以单独优化。
本发明在波束形成器中使用了一个具有扬声器感知的引导向量。扬声器权重加权一个方向向量,然后用于计算空间滤波器,故将这种方法表述为:
Figure BDA0003799154320000082
这里,hn(f)是一个感知扬声器的导向向量,其计算公式如下:
hn(f)=an(f)⊙αn(f) (3)
在这里⊙表示内积运算。注意,本发明修改的是导向向量而不是空间矩阵R(f),因为只有导向矢量被假定是特定扬声器的。在波束形成中,导向矢量通常有范数约束。因此,可以从少量扬声器的训练集中学习调整导向向量。
在本发明实施例的系统中,有三个神经网络:定位DNN、声学模型DNN和I向量DNN。本发明首先对定位DNN和声学模型DNN进行了预训练。然后,本发明使用干净的语音作为目标或对齐作为目标来训练I向量DNN。对于干净语音,通过最小化以下平方误差(SE)来优化I向量DNN中的参数:
Figure BDA0003799154320000091
为了进行语音识别,通过最小化帧级交叉熵误差(CE)来训练I向量DNN:
Figure BDA0003799154320000092
Figure BDA0003799154320000093
这里,
Figure BDA0003799154320000094
是声学模型DNN的输出,上述两式的其他参数是固定值。
感知扬声器的波束形成器旨在减少对扬声器的干扰并针对特定的扬声器。然而,由于测试扬声器的数量有限,这种行为可能会导致产生显著的杂音。为了解决这个问题,本发明使用以下公式来恢复测试阶段的语音:
Figure BDA0003799154320000095
其中,η是一个控制参数,本发明中η=0.5。
给定混合信号中估计的频谱和相位信息,本发明可以使用短时傅里叶逆变换重构时域信号。对于每个测试扬声器,假设干净的语音不可用,本发明使用基于神经网络的波束形成从分离的信号中提取扬声器的I向量。
实施例3
本发明实施例提供一种自动语音识别系统包括:
信息传输模块,用于通过传输给波束形成器的每个空间滤波器有关扬声器的信息;
向量转换模块,用于通过训练辅助神经网络将I向量转换为具有扬声器权重的向量,并应用扬声器权重修改空间滤波器;
权重加权模块,用于在波束形成器中使用具有扬声器感知的引导向量,并将扬声器权重加权方向向量后用于计算空间滤波器;
时域信号重构模块,用于给定混合信号中估计的频谱和相位信息,使用短时傅里叶逆变换重构时域信号;
向量提取模块,用于对于每个测试扬声器,使用基于神经网络的波束形成从分离的信号中提取扬声器的I向量。
二、应用实施例。为了证明本发明的技术方案的创造性和技术价值,该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。
应用实施例举例,在有讨论环节的会议中,会议录音会存在重叠语音,本发明的自动语音识别装置可以高效且准确的分离各个不同与会者的讨论内容,对进行会议记录或会后分析工作提供极大的便利。
在事故发生或违法犯罪之后,警方通常需要调查监控摄像头录取的视频和音频,在调查过程中,这些音频不可避免的都会有噪音和语音重叠,本发明的自动语音识别装置能够将噪音剥离和分离重叠的不同语音,会对事故调查带来极大的便利。
本发明实施例提供的识别方法可以用于提升智能设备的交互体验,极大提高了在嘈杂环境中语音识别的准确性,由此可以准确识别人的命令,由此拓宽了人机智能交互的使用场景。
三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合试验过程的数据、图表等进行描述。
本发明实施例使用一个定位网络来估计延迟时间以及将来自不同位置的向量相加得到转向向量,并使用这些向量在嘈杂的环境中导出空间滤波器,由此解决了多通道语音分离的问题以及实现了对其声源的位置判定。当扬声器彼此靠近或其位置估计不准确时,波束形成器在语音分离方面存在困难。为了克服这个问题,本发明提出了一种在波束形成中使用扬声器特征信息的方法:将方向向量与扬声器权重相乘,这样它不仅可以利用声音接收的位置来追踪声源位置,而且还可以通过话语的特征信息来实现追踪。
本发明实施例在模拟数据上进行了所有实验。准确度通过以下指标进行评估:信号干扰比(SIR)和字错误率(WER)。在该实施方式中,本发明描述了生成的数据、实验设置,并分析了结果。具体包括:
(1)模拟扬声器发声数据,本发明实施例中,模拟数据基于WSJCAM0语料库。特别地,本发明通过将来自一个扬声器的多通道观测信号混合到来自另一个扬声器的多通道观测信号中,并添加来自REVERB Challenge语料库的噪声来模拟多通道混合。对于每个扬声器,通过将每个干净的语音与人工房间脉冲响应(RIR)进行卷积,生成多通道观察信号。RIR是使用RoomsMove工具箱生成的,该工具箱带有一个圆形麦克风阵列,带有8个麦克风,直径20厘米,RT60范围为0.2秒到1.0秒。阵列的配置如图3所示。信噪比(SNR)的范围从0分贝到30分贝。将两个测试用扬声器置于距离阵列1、2或4米的位置,从0到360的角度随机选择。
(2)实验环境,本发明实施例中,定位网络由三个具有ReLu激活完全连接层和一个完全连接层组成。对于这些层,单元数分别为644-1024-1024-16。网络的输入包括广义互相关(GCC)和从广义互相关相位变换(GCC-PHAT)中提取的话语级时差。输出是8对麦克风之间所有扬声器的相应目标时差。在这里,本发明使用话语级别的时差来估计目标时差,因为在某些情况下,话语级别的时差无法准确估计,例如,两个扬声器距离太近,并且允许GCCs功能包含全局信息。在测试中,本发明实施例使用Adam优化方案来最小化模拟数据的均方误差。
I向量DNN由三个具有ReLu激活的完全连接层和一个完全连接层组成。单元数分别为100-512-512-513。网络的输入是使用I向量提取器从每个话语中提取的I向量。I向量提取器以WSJCAM0语料库的干净语音为测试对象。输出为扬声器权重,用于波束形成。该网络的测试目标对准时最小化交叉熵误差或清洁光谱时最小化均方误差。
声学模型首先在干净语音(称为C-AM)上进行测试,然后在分离语音(称为R-AM)上进行调整,然后在模拟数据(称为J-AM)上与定位DNN联合进行调整。本发明使用定位DNN、MVDR波束形成和C-AM的组合作为基线方法。
(3)语音分离。表1总结了本发明实施例a使用不同方法进行语音分离的结果。首先,本发明使用具有说话者感知权值的波束形成器进行实验。实验结果表明,在低信噪比条件下,声敏感波束形成器的性能有所提高,验证了语音识别波束形成器分离语音的能力。当信噪比为30dB时,本发明还观察到较低的SIR。这表明,直接在空间滤波器上使用扬声器权值有利于降低噪声,但由于测试扬声器数量有限,难以抑制干扰扬声器。
表1 在不同信噪比下,不同语音分离方法对模拟数据的SIR(dB)结果;波束:基线,SW-beam:扬声器感知权值的波束形成器,SV-Beam:扬声器感知导向向量的波束形成器。
Figure BDA0003799154320000121
对此,本发明分析了带有语音感知导向矢量的波束形成器。在本实验中,使用I矢量DNN获得的扬声器权重来表示关于扬声器的导向矢量。本发明可以看到与基线和具有扬声器感知权重的波束形成器相比的改进。这表明,在波束形成过程中,事先知晓有关扬声器的导向矢量,然后利用扬声器感知的引导矢量是有益的。
(4)语音识别,表2给出了单词错误率(WER)的语音识别结果。出于语音识别目的,有不同的选项用于测试本发明的模型,例如,损失函数可以是平方误差或交叉熵误差,声学模型可以是C-AM、R-AM或J-AM,测试目标可以是干净或校正过的频谱。在几个环境中分析了本发明的方法。首先,本发明使用具有不同损耗函数的C-AM进行实验。本发明可以看到与基线相比的改善,以及与交叉熵误差相比与与平方误差相比的改善。这意味着使用与WER相关的损耗函数的训练模型比使用与频谱相关的函数更有利于语音识别。
表2 不同方法对模拟数据的语音识别结果;LF损失函数:(1)平方误差(SE)和(2)交叉熵误差(CE);AM声学模型:(1)清洁数据得到的C-AM,(2)分离数据自适应C-AM得到的R-AM,(3)联合自适应R-AM和定位DNN得到的J-AM。
仿真数据的信噪比在0dB~30dB之间。
Figure BDA0003799154320000131
然后,本发明分析了不同方法的不同声学模型。在接下来的实验中,模型使用交叉熵误差进行训练,因为改变声学模型对平方误差损失没有影响。与清洁声学模型(C-AM)相比,本发明可以看到显著的改进,并且当与联合训练的声学模型和再训练的声学模型进行比较时,不同方法的改进是一致的。这表明将稳定的声学模型与扬声器感知波束形成器相结合有利于语音识别。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种自动语音识别方法,其特征在于,所述自动语音识别方法包括:利用定位网络估计延迟时间将来自不同位置的向量相加得到转向向量,对所述转向向量在嘈杂的环境中导出空间滤波器;将导出的转向向量与扬声器权重相乘,获得频谱和相位信息,基于频谱和相位信息对声音接收的位置进行声源位置追踪,以及通过话语的特征信进行扬声器的向量识别。
2.如权利要求1所述的自动语音识别方法,其特征在于,所述自动语音识别方法包括以下步骤:
步骤一,通过传输给波束形成器的每个空间滤波器有关扬声器的信息;
步骤二,通过训练辅助神经网络将I向量转换为具有扬声器权重的向量,并应用扬声器权重修改空间滤波器;
步骤三,在波束形成器中使用具有扬声器感知的引导向量,并将扬声器权重加权方向向量后用于计算空间滤波器;
步骤四,给定混合信号中估计的频谱和相位信息,使用短时傅里叶逆变换重构时域信号;对于每个测试扬声器,使用基于神经网络的波束形成从分离的信号中提取扬声器的I向量。
3.如权利要求2所述的自动语音识别方法,其特征在于,所述步骤一中,通过传输给波束形成器的每个空间滤波器有关扬声器的信息,语音分离的处理表示为:
Figure FDA0003799154310000011
式中,λn表示扬声器n的向量,gs为辅助网络的变换。
4.如权利要求2所述的自动语音识别方法,其特征在于,所述步骤二中,使用I向量表示扬声器,修改波束形成行为的语音分离;利用扬声器感知方法,向量DNN将话语级I向量转换为扬声器权值;不同的颜色表示对不同的扬声器的处理;每个扬声器均有一个I向量DNN,并与其他扬声器共享参数;SA空间滤波器是指感知扬声器的空间滤波器;I向量DNN与定位DNN联合优化和/或单独优化。
5.如权利要求2所述的自动语音识别方法,其特征在于,所述步骤三中,在波束形成器中使用一个具有扬声器感知的引导向量;扬声器权重加权一个方向向量,用于计算空间滤波器;
Figure FDA0003799154310000021
式中,hn(f)是一个感知扬声器的导向向量,计算公式如下:
hn(f)=an(f)⊙αn(f);
式中,⊙表示内积运算,从少量扬声器的训练集中学习调整导向向量。
6.如权利要求2所述的自动语音识别方法,其特征在于,所述步骤四中的神经网络包括定位DNN、声学模型DNN和I向量DNN;对定位DNN和声学模型DNN进行预训练;使用干净的语音作为目标或对齐作为目标来训练I向量DNN;对于干净语音,通过最小化以下平方误差SE优化I向量DNN中的参数:
Figure FDA0003799154310000022
通过最小化帧级交叉熵误差CE训练I向量DNN并进行语音识别:
Figure FDA0003799154310000023
Figure FDA0003799154310000024
式中,
Figure FDA0003799154310000025
是声学模型DNN的输出,其他参数均是固定值;
使用以下公式来恢复测试阶段的语音:
Figure FDA0003799154310000026
其中,η是控制参数,且η=0.5。
7.一种应用如权利要求1~6任意一项所述的自动语音识别方法的自动语音识别系统,其特征在于,所述自动语音识别系统包括:
信息传输模块,用于通过传输给波束形成器的每个空间滤波器有关扬声器的信息;
向量转换模块,用于通过训练辅助神经网络将I向量转换为具有扬声器权重的向量,并应用扬声器权重修改空间滤波器;
权重加权模块,用于在波束形成器中使用具有扬声器感知的引导向量,并将扬声器权重加权方向向量后用于计算空间滤波器;
时域信号重构模块,用于给定混合信号中估计的频谱和相位信息,使用短时傅里叶逆变换重构时域信号;
向量提取模块,用于对于每个测试扬声器,使用基于神经网络的波束形成从分离的信号中提取扬声器的I向量。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1~6任意一项所述的自动语音识别方法。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1~6任意一项所述的自动语音识别方法。
10.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求7所述的自动语音识别系统。
CN202210978317.7A 2022-08-16 2022-08-16 一种自动语音识别方法、系统、介质、设备及终端 Pending CN115424609A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210978317.7A CN115424609A (zh) 2022-08-16 2022-08-16 一种自动语音识别方法、系统、介质、设备及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210978317.7A CN115424609A (zh) 2022-08-16 2022-08-16 一种自动语音识别方法、系统、介质、设备及终端

Publications (1)

Publication Number Publication Date
CN115424609A true CN115424609A (zh) 2022-12-02

Family

ID=84198604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210978317.7A Pending CN115424609A (zh) 2022-08-16 2022-08-16 一种自动语音识别方法、系统、介质、设备及终端

Country Status (1)

Country Link
CN (1) CN115424609A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050195988A1 (en) * 2004-03-02 2005-09-08 Microsoft Corporation System and method for beamforming using a microphone array
CN110085248A (zh) * 2012-08-24 2019-08-02 奥迪康有限公司 个人通信中降噪和回波消除时的噪声估计
CN110636424A (zh) * 2018-06-25 2019-12-31 奥迪康有限公司 包括反馈降低系统的听力装置
CN111341339A (zh) * 2019-12-31 2020-06-26 深圳海岸语音技术有限公司 基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法
CN113453141A (zh) * 2020-03-24 2021-09-28 苹果公司 基于房间声学的环绕声渲染
CN114078481A (zh) * 2020-08-20 2022-02-22 太原理工大学 基于双通道神经网络时频掩蔽的语音增强方法、装置及助听设备
US20220084539A1 (en) * 2020-09-16 2022-03-17 Kabushiki Kaisha Toshiba Signal processing apparatus and non-transitory computer readable medium
CN114450977A (zh) * 2019-07-29 2022-05-06 弗劳恩霍夫应用研究促进协会 用于在空间变换域中处理声场表示的装置、方法或计算机程序

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050195988A1 (en) * 2004-03-02 2005-09-08 Microsoft Corporation System and method for beamforming using a microphone array
CN110085248A (zh) * 2012-08-24 2019-08-02 奥迪康有限公司 个人通信中降噪和回波消除时的噪声估计
CN110636424A (zh) * 2018-06-25 2019-12-31 奥迪康有限公司 包括反馈降低系统的听力装置
CN114450977A (zh) * 2019-07-29 2022-05-06 弗劳恩霍夫应用研究促进协会 用于在空间变换域中处理声场表示的装置、方法或计算机程序
CN111341339A (zh) * 2019-12-31 2020-06-26 深圳海岸语音技术有限公司 基于声学矢量传感器自适应波束形成和深度神经网络技术的目标语音增强方法
CN113453141A (zh) * 2020-03-24 2021-09-28 苹果公司 基于房间声学的环绕声渲染
CN114078481A (zh) * 2020-08-20 2022-02-22 太原理工大学 基于双通道神经网络时频掩蔽的语音增强方法、装置及助听设备
US20220084539A1 (en) * 2020-09-16 2022-03-17 Kabushiki Kaisha Toshiba Signal processing apparatus and non-transitory computer readable medium

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RONGZHI GU ETC: "Complex Neural Spatial Filter: Enhancing Multi-Channel Target Speech Separation in Complex Domain", 《IEEE SIGNAL PROCESSING LETTERS》, vol. 28, 31 December 2021 (2021-12-31), pages 1370 - 1374, XP011866548, DOI: 10.1109/LSP.2021.3076374 *
赵彬: "基于深度学习的多通道语音增强方法", 《全国优秀硕士学位论文全文数据库 信息科技辑》, no. 12, 15 December 2021 (2021-12-15) *

Similar Documents

Publication Publication Date Title
CN107452389B (zh) 一种通用的单声道实时降噪方法
JP7434137B2 (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
Wang et al. Deep learning based target cancellation for speech dereverberation
Sainath et al. Multichannel signal processing with deep neural networks for automatic speech recognition
Kumatani et al. Microphone array processing for distant speech recognition: From close-talking microphones to far-field sensors
CN109830245A (zh) 一种基于波束成形的多说话者语音分离方法及系统
US20110096915A1 (en) Audio spatialization for conference calls with multiple and moving talkers
Perotin et al. Multichannel speech separation with recurrent neural networks from high-order ambisonics recordings
Xiao et al. The NTU-ADSC systems for reverberation challenge 2014
Kumatani et al. Beamforming with a maximum negentropy criterion
Zhang et al. Multi-channel multi-frame ADL-MVDR for target speech separation
CN110660406A (zh) 近距离交谈场景下双麦克风移动电话的实时语音降噪方法
Pertilä et al. Microphone array post-filtering using supervised machine learning for speech enhancement.
Xiao et al. Beamforming networks using spatial covariance features for far-field speech recognition
CN113870893A (zh) 一种多通道双说话人分离方法及系统
Pertilä et al. Time Difference of Arrival Estimation with Deep Learning–From Acoustic Simulations to Recorded Data
US11769486B2 (en) System and method for data augmentation and speech processing in dynamic acoustic environments
CN115620739A (zh) 指定方向的语音增强方法及电子设备和存储介质
US20220262342A1 (en) System and method for data augmentation and speech processing in dynamic acoustic environments
CN115424609A (zh) 一种自动语音识别方法、系统、介质、设备及终端
CN112731291B (zh) 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统
Youssef et al. From monaural to binaural speaker recognition for humanoid robots
Yang et al. Guided Speech Enhancement Network
CN114078481A (zh) 基于双通道神经网络时频掩蔽的语音增强方法、装置及助听设备
Kataria et al. Multi-channel speaker verification for single and multi-talker speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination