CN111429905A - 语音信号处理方法、装置、语音智能电梯、介质和设备 - Google Patents

语音信号处理方法、装置、语音智能电梯、介质和设备 Download PDF

Info

Publication number
CN111429905A
CN111429905A CN202010206548.7A CN202010206548A CN111429905A CN 111429905 A CN111429905 A CN 111429905A CN 202010206548 A CN202010206548 A CN 202010206548A CN 111429905 A CN111429905 A CN 111429905A
Authority
CN
China
Prior art keywords
voice
signal
voice signal
acquired
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010206548.7A
Other languages
English (en)
Other versions
CN111429905B (zh
Inventor
郝斌
冯大航
陈孝良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202010206548.7A priority Critical patent/CN111429905B/zh
Priority claimed from CN202010206548.7A external-priority patent/CN111429905B/zh
Publication of CN111429905A publication Critical patent/CN111429905A/zh
Application granted granted Critical
Publication of CN111429905B publication Critical patent/CN111429905B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Indicating And Signalling Devices For Elevators (AREA)

Abstract

本发明涉及一种语音信号处理方法、装置、语音智能电梯、介质和设备。包括,在语音智能电梯厢体内侧额外安装至少一个音频采集装置,利用原有的麦克风以及每个音频采集装置分别同步采集语音信号,并从中确定一个信号质量满足设定条件的一个语音信号,使得后续可以根据对确定出的语音信号的解析结果,控制对语音智能电梯的操作。这样即使语音指令对应的语音信号传播到麦克风的过程中受到阻挡,或者语音指令对应的语音信号传播到麦克风的过程中受到干扰,导致麦克风接收到的语音信号质量较差,也可以通过额外安装的音频采集装置,获取信号质量满足设定条件的语音信号,实现用户语音指令的有效获取,保证得到清晰的语音指令,实现优良的拾音性能。

Description

语音信号处理方法、装置、语音智能电梯、介质和设备
技术领域
本发明涉及智能电梯技术领域,特别涉及一种语音信号处理方法、装置、语音智能电梯、介质和设备。
背景技术
电梯作为建筑物内的主要运输工具,已经成为我们日常生活中一个不可缺少的组成部分。随着近年来自动化技术的发展以及语音技术的兴起,语音智能电梯应运而生。
目前的语音智能电梯,是在厢体内侧的电梯操作板附近安装麦克风,通过该麦克风接收电梯乘坐人员(用户)发出的语音指令,进而可以对该语音指令进行解析,从而控制电梯运行。
语音智能电梯无需用户用手接触电梯按键,可以减少病毒经手传播,能够有效防控传染病疫情,例如,新型冠状病毒疫情。同时,语音智能电梯还可以在用户不方便按压电梯按键时,例如,携带太多物品不方便按压电梯按键时,实现用户对电梯的操作,为用户提供便利。
由于语音智能电梯的显著优点,语音智能电梯得到了越来越广泛的应用。而如何有效获取用户语音指令,是语音智能电梯需要重点解决的问题。
但是,在语音指令对应的语音信号传播到麦克风的过程中受到阻挡,例如,被其他电梯乘坐人员或者电梯乘坐人员携带的物品阻挡,或者,语音指令对应的语音信号传播到麦克风的过程中受到干扰,例如,被位于更接近麦克风的其他电梯乘坐人员的语音干扰,会导致语音智能电梯无法有效获取用户语音指令。
发明内容
本发明实施例提供一种语音信号处理方法、装置、语音智能电梯、介质和设备,用于解决语音智能电梯中,无法有效获取用户语音指令的问题。
本发明提供了一种语音信号处理方法,所述方法应用的语音智能电梯,厢体内侧除了包括电梯操作板指定范围内安装的麦克风,还包括至少一个在非所述电梯操作板指定范围内安装的音频采集装置,所述方法包括:
获取所述麦克风以及每个所述音频采集装置分别同步采集到的语音信号;
确定获取到的语音信号中,信号质量满足指定条件的一个语音信号,以便对确定出的语音信号进行解析,根据解析结果控制对所述语音智能电梯的操作。
本发明还提供了一种语音信号处理装置,所述装置应用的语音智能电梯,厢体内侧除了包括电梯操作板指定范围内安装的麦克风,还包括至少一个在非所述电梯操作板指定范围内安装的音频采集装置,所述装置包括:
获取模块,用于获取所述麦克风以及每个所述音频采集装置分别同步采集到的语音信号;
确定模块,用于确定获取到的语音信号中,信号质量满足指定条件的一个语音信号,以便对确定出的语音信号进行解析,根据解析结果控制对所述语音智能电梯的操作。
本发明还提供了一种语音智能电梯,所述语音智能电梯厢体内侧除了包括电梯操作板指定范围内安装的麦克风,还包括至少一个在非所述电梯操作板指定范围内安装的音频采集装置。
本发明还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有可执行程序,该可执行程序被处理器执行实现如上所述的方法。
本发明还提供了一种语音信号处理设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存储的程序时,实现如上所述的方法步骤。
根据本发明实施例提供的方案,可以在语音智能电梯厢体内侧额外安装至少一个音频采集装置,并可以利用原有的麦克风以及每个额外安装的音频采集装置分别同步采集语音信号,并从中确定一个信号质量满足设定条件的一个语音信号,使得后续可以根据对信号质量满足设定条件的语音信号的解析结果,控制对语音智能电梯的操作。
这样即使语音指令对应的语音信号传播到麦克风的过程中受到阻挡,或者语音指令对应的语音信号传播到麦克风的过程中受到干扰,导致麦克风接收到的语音信号质量较差,也可以通过额外安装的音频采集装置,获取信号质量满足设定条件的语音信号,实现用户语音指令的有效获取,保证得到清晰的语音指令,实现优良的拾音性能。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的语音信号处理方法的流程示意图;
图2为本发明实施例一提供的麦克风的位置示意图;
图3为本发明实施例一提供的指定方向示意图;
图4为本发明实施例二提供的语音信号处理装置的结构示意图;
图5为本发明实施例三提供的语音信号处理设备的结构示意图。
具体实施方式
考虑到目前的语音智能电梯,利用在厢体内侧的电梯操作板附近安装的麦克风来接收语音指令,可能无法有效获取语音指令的问题,本发明实施例提出,可以在厢体内侧额外安装至少一个音频采集装置,利用每个音频采集装置和原有的麦克风分别接收语音指令,实现语音指令的有效获取。
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
本发明实施例一提供一种语音信号处理方法,所述方法应用的语音智能电梯,厢体内侧除了包括电梯操作板指定范围内安装的麦克风,还包括至少一个在非所述电梯操作板指定范围内安装的音频采集装置,该方法的步骤流程可以如图1所示,包括:
步骤101、获取至少两个语音信号。
在本实施例中,可以利用原有的麦克风以及额外安装的每个音频采集装置,分别采集语音信号。
在本步骤中,可以获取麦克风以及每个音频采集装置分别同步采集到的语音信号。
需要说明的是,在本实施例中,每个音频采集装置可以相同,也可以不相同。一个音频采集装置可以为麦克风,也可以为包括至少两个麦克风的麦克风阵列。而如果一个音频采集装置为包括至少三个麦克风的麦克风阵列,则,所述至少三个麦克风可以形成面阵列,也可以形成线阵列。
每个音频采集装置采集语音信号可以通过任意方式实现。获取一个音频采集装置采集到的语音信号,即可以理解为获取该音频采集装置通过任意方式采集到的语音信号。
以一个音频采集装置包括至少三个麦克风的麦克风阵列,所述至少三个麦克风形成面阵列,所述麦克风阵列在至少两个指定方向做波束形成为例,那么,获取麦克风以及每个音频采集装置分别同步采集到的语音信号的过程中,获取该音频采集装置采集到的语音信号,可以包括:
确定该音频采集装置在每个指定方向上采集到的语音信号,确定该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号,将该语音信号作为该音频采集装置采集到的语音信号。
即,针对一个音频采集装置在多个指定方向上采集到的多个语音信号,可以从中选择一个信号质量较好的语音信号,作为该音频采集装置采集到的语音信号。
其中,在一种可能的实现方式中,确定该音频采集装置在每个指定方向上采集到的语音信号,可以包括:采用基于广义旁瓣消除器(GSC)的波束形成算法,确定该音频采集装置在每个指定方向上采集到的语音信号,以保证确定出的每个语音信号的准确性。
需要说明的是,考虑到在厢体内部远离地面的一面安装音频采集装置,语音信号向其传播过程中受到阻挡的可能性较小,且受干扰的可能性也较小,因此,在本实施例中,语音智能电梯厢体内侧,非电梯操作板指定范围内,在一种可能的实现方式中,可以理解为在厢体内部远离地面的一面。
以在厢体内部远离地面的一面安装一个音频采集装置,该音频采集装置为包括四个麦克风的麦克风阵列,且麦克风阵列为面阵列为例,语音智能电梯中,原有的麦克风(在图2中记为操作板麦克风)和音频采集装置(在图2中记为麦克风阵列)位置示意图可以如图2所示。其中,麦克风阵列中每个麦克风的位置可以如图2中麦克风阵列中每个黑点位置所示。
需要说明的是,在图2中为了便于了解各麦克风在厢体内部的位置,在厢体外部对应位置,对厢体内部的各麦克风位置进行了示意。
另外,还可以假设图2所示的音频采集装置中的4个麦克风组成的麦克风阵列,在如图3所示的5个指定方向做波束形成。此时,可以采用基于GSC的波束形成算法,确定音频采集装置在这5个指定方向上采集到的语音信号。
采用基于GSC的波束形成算法,确定音频采集装置在这5个指定方向上采集到的语音信号时,上支路为固定波束,考虑波束形成的约束条件,可以用凸优化(cvx)工具箱求解。阻塞矩阵与上支路正交,可以用施密特正交法求解。自适应部分可以用最小均方(LMS)方法求解。
另外,在一种可能的实现方式中,确定该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号,可以包括:
确定该音频采集装置在每个指定方向上采集到的语音信号分别对应的信号能量,并确定信号能量最大的一个语音信号,将该语音信号作为该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号;或者,
确定该音频采集装置在每个指定方向上采集到的语音信号分别对应的波束语谱图条纹清晰度,并确定波束语谱图条纹清晰度最高的一个语音信号,将该语音信号作为该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号。
即,由于信号能量越大,可以表征语音信号质量越好,因此在本实施例中,可以将一个音频采集装置在每个指定方向上采集到的语音信号中,信号能量最大的语音信号作为确定出的信号质量满足设定条件,即信号质量最优的语音信号。
而由于波束语谱图条纹清晰度越高,也可以表征语音信号质量越好,因此在本实施例中,也可以将波束语谱图条纹清晰度最高的语音信号,作为确定出的信号质量满足设定条件,即信号质量最优的语音信号。
进一步的,在一种可能的实现方式中,确定该音频采集装置在每个指定方向上采集到的语音信号分别对应的波束语谱图条纹清晰度,并确定波束语谱图条纹清晰度最高的一个语音信号,将该语音信号作为该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号,可以包括:
将该音频采集装置在每个指定方向上采集到的语音信号作为输入,将预先训练出的深度学习模型输出的语音信号,作为该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号;
所述深度学习模型通过以下方式训练得到:
针对训练样本集中的一个训练样本,将该训练样本对应的、该音频采集装置在每个指定方向上采集到的语音信号,作为预先建立的深度学习模型的输入,获得深度学习模型输出的语音信号;
将深度学习模型输出的语音信号,与所述训练样本对应的、该音频采集装置在每个指定方向上采集到的语音信号中,波束语谱图条纹清晰度最高的语音信号进行比对;
若深度学习模型输出的语音信号,不是所述训练样本对应的、该音频采集装置在每个指定方向上采集到的语音信号中,波束语谱图条纹清晰度最高的语音信号,对深度学习模型进行调整,直至针对一个训练样本,深度学习模型输出的语音信号,为该训练样本对应的、该音频采集装置在每个指定方向上采集到的语音信号中,波束语谱图条纹清晰度最高的语音信号或者训练样本集中的每个训练样本均执行完毕以上操作。
即,在本实施例中,可以利用深度学习模型,通过对每个语音信号的波束语谱图条纹清晰度进行评分,来进行波束语谱图条纹清晰度最高(可以理解为评分最高)的语音信号的判断,以提高判断的准确性,并提高判断的速度。
进一步的,在一种可能的实现方式中,确定该音频采集装置在每个指定方向上采集到的语音信号之后,确定该音频采集装置在每个指定方向上采集到的语音信号分别对应的信号能量,并确定信号能量最大的一个语音信号,将该语音信号作为该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号之前,还可以对该音频采集装置在每个指定方向上采集到的语音信号分别进行滤波。
即,在本实施例中,可以在根据信号能量高低获取一个音频采集装置采集到的语音信号之前,先对该音频采集装置在每个指定方向上采集到的语音信号分别进行滤波处理,例如,维纳滤波处理,去除每个语音信号中的噪声和干扰,并对滤波后得到的每个语音信号,进行信号能量高低的判断,提高根据信号能量高低,获取一个音频采集装置采集到的语音信号中,信号质量最优的语音信号的准确性。
步骤102、确定一个语音信号。
在本步骤中,可以确定获取到的语音信号中,信号质量满足指定条件的一个语音信号,以便对确定出的语音信号进行解析,根据解析结果控制对语音智能电梯的操作。
即,在步骤101中获取到至少两个语音信号后,在本步骤中,可以从获取到的至少两个语音信号中,选择一个信号质量较好的语音信号,保证选择出的语音信号的有效性,实现语音指令的有效获取。
需要说明的是,在步骤101中,获取到的麦克风以及每个音频采集装置分别同步采集到的语音信号,可以理解为对应语音指令,即,获取到的每个语音信号是语音指令对应的语音信号。
也可以理解为对应语音指令或者非语音指令,即获取到的每个语音信号可能是语音指令对应的语音信号,也可能是非语音指令对应的语音信号。
如果获取到的语音信号对应语音指令,那么在本步骤中确定出一个语音信号后,可以对确定出的语音信号(即语音指令对应的语音信号)进行解析,根据解析结果控制对语音智能电梯的操作。
如果获取到的语音信号对应语音指令或者非语音指令,那么在本步骤中确定出一个语音信号后,可以对确定出的语音信号进行解析,若确定该语音信号对应语音指令,则可以根据解析结果控制对语音智能电梯的操作。当然,若确定该语音信号对应非语音指令,则根据解析结果控制对语音智能电梯的操作,可以理解为,根据解析结果控制不对语音智能电梯进行操作。
另外,在一种可能的实现方式中,确定获取到的语音信号中,信号质量满足指定条件的一个语音信号,可以包括:
确定每个获取到的语音信号分别对应的信号能量,并确定信号能量最大的一个语音信号,将该语音信号作为信号质量满足指定条件的一个语音信号;或者,
确定每个获取到的语音信号分别对应的波束语谱图条纹清晰度,并确定波束语谱图条纹清晰度最高的一个语音信号,将该语音信号作为信号质量满足指定条件的一个语音信号。
即,由于信号能量越大,可以表征语音信号质量越好,因此在本实施例中,可以将获取到的麦克风以及每个音频采集装置分别同步采集到的语音信号中,信号能量最大的语音信号作为确定出的信号质量满足指定条件,即信号质量最优的语音信号,基于能量差(PLD,Power-Level-Difference)实现信号质量最优的语音信号的选择。
当然,与步骤101中基于信号能量确定信号质量满足设定条件的语音信号类似的,在本步骤中,也可以先对获取到的每个语音信号分别进行滤波处理,并对滤波后得到的每个语音信号,进行信号能量高低的判断。
另外,由于波束语谱图条纹清晰度越高,也可以表征语音信号质量越好,因此在本实施例中,也可以将获取到的麦克风以及每个音频采集装置分别同步采集到的语音信号中,波束语谱图条纹清晰度最高的语音信号,作为确定出的信号质量满足设定条件,即信号质量最优的语音信号。
当然,与步骤101中基于波束语谱图条纹清晰度确定信号质量满足设定条件的语音信号类似的,在本步骤中,也可以利用深度学习模型,来确定波束语谱图条纹清晰度最高的语音信号。
本发明实施例一提供的方案,根据音频采集装置数量、位置不同,每个音频采集装置中麦克风数量、麦克风阵列的布置不同,以及指定方向的数量,方向选取的不同可以构成多种不同的具体实现方案。
本发明实施例一提供的方案,针对孩子、残疾人等发音部位较低的情况,也可以获取清晰的语音指令,实现语音指令的有效获取。
另外,即使电梯轿厢中,人多干扰多,或者有其他物品(如金属挡板,玻璃箱壁等)阻挡声波传播,使用本发明实施例一提供的方案,也能够较好地得到用户清晰的语音指令,为后续语音控制提供良好的基础。
与实施例一提供的方法对应的,提供以下的装置。
实施例二
本发明实施例二提供一种语音信号处理装置,所述装置应用的语音智能电梯,厢体内侧除了包括电梯操作板指定范围内安装的麦克风,还包括至少一个在非所述电梯操作板指定范围内安装的音频采集装置,该装置的结构可以如图4所示,包括:
获取模块11用于获取所述麦克风以及每个所述音频采集装置分别同步采集到的语音信号;确定模块12用于确定获取到的语音信号中,信号质量满足指定条件的一个语音信号,以便对确定出的语音信号进行解析,根据解析结果控制对所述语音智能电梯的操作。
在一种可能的实现方式中,所述确定模块12确定获取到的语音信号中,信号质量满足指定条件的一个语音信号,包括:
确定每个获取到的语音信号分别对应的信号能量,并确定信号能量最大的一个语音信号,将该语音信号作为信号质量满足指定条件的一个语音信号;或者,
确定每个获取到的语音信号分别对应的波束语谱图条纹清晰度,并确定波束语谱图条纹清晰度最高的一个语音信号,将该语音信号作为信号质量满足指定条件的一个语音信号。
在一种可能的实现方式中,若一个音频采集装置包括至少三个麦克风的麦克风阵列,所述至少三个麦克风形成面阵列,所述麦克风阵列在至少两个指定方向做波束形成,则,所述获取模块11获取所述麦克风以及每个所述音频采集装置分别同步采集到的语音信号的过程中,获取该音频采集装置采集到的语音信号,包括:
确定该音频采集装置在每个指定方向上采集到的语音信号;
确定该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号,将该语音信号作为该音频采集装置采集到的语音信号。
在一种可能的实现方式中,所述获取模块11确定该音频采集装置在每个指定方向上采集到的语音信号,包括:
采用基于广义旁瓣消除器的波束形成算法,确定该音频采集装置在每个指定方向上采集到的语音信号。
在一种可能的实现方式中,所述获取模块11确定该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号,包括:
确定该音频采集装置在每个指定方向上采集到的语音信号分别对应的信号能量,并确定信号能量最大的一个语音信号,将该语音信号作为该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号;或者,
确定该音频采集装置在每个指定方向上采集到的语音信号分别对应的波束语谱图条纹清晰度,并确定波束语谱图条纹清晰度最高的一个语音信号,将该语音信号作为该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号。
在一种可能的实现方式中,所述获取模块11确定该音频采集装置在每个指定方向上采集到的语音信号分别对应的波束语谱图条纹清晰度,并确定波束语谱图条纹清晰度最高的一个语音信号,将该语音信号作为该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号,包括:
将该音频采集装置在每个指定方向上采集到的语音信号作为输入,将预先训练出的深度学习模型输出的语音信号,作为该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号;
所述深度学习模型通过以下方式训练得到:
针对训练样本集中的一个训练样本,将该训练样本对应的、该音频采集装置在每个指定方向上采集到的语音信号,作为预先建立的深度学习模型的输入,获得深度学习模型输出的语音信号;
将深度学习模型输出的语音信号,与所述训练样本对应的、该音频采集装置在每个指定方向上采集到的语音信号中,波束语谱图条纹清晰度最高的语音信号进行比对;
若深度学习模型输出的语音信号,不是所述训练样本对应的、该音频采集装置在每个指定方向上采集到的语音信号中,波束语谱图条纹清晰度最高的语音信号,对深度学习模型进行调整,直至针对一个训练样本,深度学习模型输出的语音信号,为该训练样本对应的、该音频采集装置在每个指定方向上采集到的语音信号中,波束语谱图条纹清晰度最高的语音信号或者训练样本集中的每个训练样本均执行完毕以上操作。
在一种可能的实现方式中,所述获取模块11还用于确定该音频采集装置在每个指定方向上采集到的语音信号之后,确定该音频采集装置在每个指定方向上采集到的语音信号分别对应的信号能量,并确定信号能量最大的一个语音信号,将该语音信号作为该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号之前,对该音频采集装置在每个指定方向上采集到的语音信号分别进行滤波。
基于同一发明构思,本发明实施例提供以下的设备和介质。
实施例三
本发明实施例三提供一种语音信号处理设备,该设备的结构可以如图5所示,包括处理器21、通信接口22、存储器23和通信总线24,其中,所述处理器21,所述通信接口22,所述存储器23通过所述通信总线24完成相互间的通信;
所述存储器23,用于存放计算机程序;
所述处理器21,用于执行所述存储器上所存储的程序时,实现本发明实施例一所述的方法步骤。
可选的,所述处理器21具体可以包括中央处理器(CPU)、特定应用集成电路(ASIC,Application Specific Integrated Circuit),可以是一个或多个用于控制程序执行的集成电路,可以是使用现场可编程门阵列(FPGA,Field Programmable Gate Array)开发的硬件电路,可以是基带处理器。
可选的,所述处理器21可以包括至少一个处理核心。
可选的,所述存储器23可以包括只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)和磁盘存储器。存储器23用于存储至少一个处理器21运行时所需的数据。存储器23的数量可以为一个或多个。
本发明实施例四提供一种非易失性计算机存储介质,所述计算机存储介质存储有可执行程序,当可执行程序被处理器执行时,实现本发明实施例一提供的方法。
本发明实施例五提供一种语音智能电梯,所述语音智能电梯厢体内侧除了包括电梯操作板指定范围内安装的麦克风,还包括至少一个在非所述电梯操作板指定范围内安装的音频采集装置。
进一步的,所述语音智能电梯还可以包括如实施例二所述的装置。
在具体的实施过程中,计算机存储介质可以包括:通用串行总线闪存盘(USB,Universal Serial Bus Flash Drive)、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的存储介质。
在本发明实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性或其它的形式。
在本发明实施例中的各功能单元可以集成在一个处理单元中,或者各个单元也可以均是独立的物理模块。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备,例如可以是个人计算机,服务器,或者网络设备等,或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:通用串行总线闪存盘(Universal Serial Bus Flash Drive)、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (18)

1.一种语音信号处理方法,其特征在于,所述方法应用的语音智能电梯,厢体内侧除了包括电梯操作板指定范围内安装的麦克风,还包括至少一个在非所述电梯操作板指定范围内安装的音频采集装置,所述方法包括:
获取所述麦克风以及每个所述音频采集装置分别同步采集到的语音信号;
确定获取到的语音信号中,信号质量满足指定条件的一个语音信号,以便对确定出的语音信号进行解析,根据解析结果控制对所述语音智能电梯的操作。
2.如权利要求1所述的方法,其特征在于,确定获取到的语音信号中,信号质量满足指定条件的一个语音信号,包括:
确定每个获取到的语音信号分别对应的信号能量,并确定信号能量最大的一个语音信号,将该语音信号作为信号质量满足指定条件的一个语音信号;或者,
确定每个获取到的语音信号分别对应的波束语谱图条纹清晰度,并确定波束语谱图条纹清晰度最高的一个语音信号,将该语音信号作为信号质量满足指定条件的一个语音信号。
3.如权利要求1或2所述的方法,其特征在于,若一个音频采集装置包括至少三个麦克风的麦克风阵列,所述至少三个麦克风形成面阵列,所述麦克风阵列在至少两个指定方向做波束形成,则,获取所述麦克风以及每个所述音频采集装置分别同步采集到的语音信号的过程中,获取该音频采集装置采集到的语音信号,包括:
确定该音频采集装置在每个指定方向上采集到的语音信号;
确定该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号,将该语音信号作为该音频采集装置采集到的语音信号。
4.如权利要求3所述的方法,其特征在于,确定该音频采集装置在每个指定方向上采集到的语音信号,包括:
采用基于广义旁瓣消除器的波束形成算法,确定该音频采集装置在每个指定方向上采集到的语音信号。
5.如权利要求3所述的方法,其特征在于,确定该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号,包括:
确定该音频采集装置在每个指定方向上采集到的语音信号分别对应的信号能量,并确定信号能量最大的一个语音信号,将该语音信号作为该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号;或者,
确定该音频采集装置在每个指定方向上采集到的语音信号分别对应的波束语谱图条纹清晰度,并确定波束语谱图条纹清晰度最高的一个语音信号,将该语音信号作为该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号。
6.如权利要求5所述的方法,其特征在于,确定该音频采集装置在每个指定方向上采集到的语音信号分别对应的波束语谱图条纹清晰度,并确定波束语谱图条纹清晰度最高的一个语音信号,将该语音信号作为该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号,包括:
将该音频采集装置在每个指定方向上采集到的语音信号作为输入,将预先训练出的深度学习模型输出的语音信号,作为该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号;
所述深度学习模型通过以下方式训练得到:
针对训练样本集中的一个训练样本,将该训练样本对应的、该音频采集装置在每个指定方向上采集到的语音信号,作为预先建立的深度学习模型的输入,获得深度学习模型输出的语音信号;
将深度学习模型输出的语音信号,与所述训练样本对应的、该音频采集装置在每个指定方向上采集到的语音信号中,波束语谱图条纹清晰度最高的语音信号进行比对;
若深度学习模型输出的语音信号,不是所述训练样本对应的、该音频采集装置在每个指定方向上采集到的语音信号中,波束语谱图条纹清晰度最高的语音信号,对深度学习模型进行调整,直至针对一个训练样本,深度学习模型输出的语音信号,为该训练样本对应的、该音频采集装置在每个指定方向上采集到的语音信号中,波束语谱图条纹清晰度最高的语音信号或者训练样本集中的每个训练样本均执行完毕以上操作。
7.如权利要求5所述的方法,其特征在于,确定该音频采集装置在每个指定方向上采集到的语音信号之后,确定该音频采集装置在每个指定方向上采集到的语音信号分别对应的信号能量,并确定信号能量最大的一个语音信号,将该语音信号作为该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号之前,所述方法还包括:
对该音频采集装置在每个指定方向上采集到的语音信号分别进行滤波。
8.一种语音信号处理装置,其特征在于,所述装置应用的语音智能电梯,厢体内侧除了包括电梯操作板指定范围内安装的麦克风,还包括至少一个在非所述电梯操作板指定范围内安装的音频采集装置,所述装置包括:
获取模块,用于获取所述麦克风以及每个所述音频采集装置分别同步采集到的语音信号;
确定模块,用于确定获取到的语音信号中,信号质量满足指定条件的一个语音信号,以便对确定出的语音信号进行解析,根据解析结果控制对所述语音智能电梯的操作。
9.如权利要求8所述的装置,其特征在于,所述确定模块,确定获取到的语音信号中,信号质量满足指定条件的一个语音信号,包括:
确定每个获取到的语音信号分别对应的信号能量,并确定信号能量最大的一个语音信号,将该语音信号作为信号质量满足指定条件的一个语音信号;或者,
确定每个获取到的语音信号分别对应的波束语谱图条纹清晰度,并确定波束语谱图条纹清晰度最高的一个语音信号,将该语音信号作为信号质量满足指定条件的一个语音信号。
10.如权利要求8或9所述的装置,其特征在于,若一个音频采集装置包括至少三个麦克风的麦克风阵列,所述至少三个麦克风形成面阵列,所述麦克风阵列在至少两个指定方向做波束形成,则,所述获取模块,获取所述麦克风以及每个所述音频采集装置分别同步采集到的语音信号的过程中,获取该音频采集装置采集到的语音信号,包括:
确定该音频采集装置在每个指定方向上采集到的语音信号;
确定该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号,将该语音信号作为该音频采集装置采集到的语音信号。
11.如权利要求10所述的装置,其特征在于,所述获取模块,确定该音频采集装置在每个指定方向上采集到的语音信号,包括:
采用基于广义旁瓣消除器的波束形成算法,确定该音频采集装置在每个指定方向上采集到的语音信号。
12.如权利要求10所述的装置,其特征在于,所述获取模块,确定该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号,包括:
确定该音频采集装置在每个指定方向上采集到的语音信号分别对应的信号能量,并确定信号能量最大的一个语音信号,将该语音信号作为该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号;或者,
确定该音频采集装置在每个指定方向上采集到的语音信号分别对应的波束语谱图条纹清晰度,并确定波束语谱图条纹清晰度最高的一个语音信号,将该语音信号作为该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号。
13.如权利要求12所述的装置,其特征在于,所述获取模块,确定该音频采集装置在每个指定方向上采集到的语音信号分别对应的波束语谱图条纹清晰度,并确定波束语谱图条纹清晰度最高的一个语音信号,将该语音信号作为该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号,包括:
将该音频采集装置在每个指定方向上采集到的语音信号作为输入,将预先训练出的深度学习模型输出的语音信号,作为该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号;
所述深度学习模型通过以下方式训练得到:
针对训练样本集中的一个训练样本,将该训练样本对应的、该音频采集装置在每个指定方向上采集到的语音信号,作为预先建立的深度学习模型的输入,获得深度学习模型输出的语音信号;
将深度学习模型输出的语音信号,与所述训练样本对应的、该音频采集装置在每个指定方向上采集到的语音信号中,波束语谱图条纹清晰度最高的语音信号进行比对;
若深度学习模型输出的语音信号,不是所述训练样本对应的、该音频采集装置在每个指定方向上采集到的语音信号中,波束语谱图条纹清晰度最高的语音信号,对深度学习模型进行调整,直至针对一个训练样本,深度学习模型输出的语音信号,为该训练样本对应的、该音频采集装置在每个指定方向上采集到的语音信号中,波束语谱图条纹清晰度最高的语音信号或者训练样本集中的每个训练样本均执行完毕以上操作。
14.如权利要求12所述的装置,其特征在于,所述获取模块,还用于确定该音频采集装置在每个指定方向上采集到的语音信号之后,确定该音频采集装置在每个指定方向上采集到的语音信号分别对应的信号能量,并确定信号能量最大的一个语音信号,将该语音信号作为该音频采集装置在每个指定方向上采集到的语音信号中,信号质量满足设定条件的一个语音信号之前,对该音频采集装置在每个指定方向上采集到的语音信号分别进行滤波。
15.一种语音智能电梯,其特征在于,所述语音智能电梯厢体内侧除了包括电梯操作板指定范围内安装的麦克风,还包括至少一个在非所述电梯操作板指定范围内安装的音频采集装置。
16.如权利要求15所述的语音智能电梯,其特征在于,所述语音智能电梯还包括如权利要求8~14任一所述的装置。
17.一种非易失性计算机存储介质,其特征在于,所述计算机存储介质存储有可执行程序,该可执行程序被处理器执行实现权利要求1~7任一所述的方法。
18.一种语音信号处理设备,其特征在于,所述设备包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存储的程序时,实现权利要求1~7任一所述的方法步骤。
CN202010206548.7A 2020-03-23 语音信号处理方法、装置、语音智能电梯、介质和设备 Active CN111429905B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010206548.7A CN111429905B (zh) 2020-03-23 语音信号处理方法、装置、语音智能电梯、介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010206548.7A CN111429905B (zh) 2020-03-23 语音信号处理方法、装置、语音智能电梯、介质和设备

Publications (2)

Publication Number Publication Date
CN111429905A true CN111429905A (zh) 2020-07-17
CN111429905B CN111429905B (zh) 2024-06-07

Family

ID=

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365900A (zh) * 2020-10-30 2021-02-12 北京声智科技有限公司 一种语音信号增强方法、装置、介质和设备
CN113879925A (zh) * 2021-09-10 2022-01-04 北京声智科技有限公司 电梯控制方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150199979A1 (en) * 2013-05-21 2015-07-16 Google, Inc. Detection of chopped speech
CN107742522A (zh) * 2017-10-23 2018-02-27 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置
CN108012217A (zh) * 2017-11-30 2018-05-08 出门问问信息科技有限公司 联合降噪的方法及装置
CN108053842A (zh) * 2017-12-13 2018-05-18 电子科技大学 基于图像识别的短波语音端点检测方法
CN109446536A (zh) * 2018-10-26 2019-03-08 深圳市友杰智新科技有限公司 一种根据声强判断翻译器输入源语言的系统及方法
US20190139563A1 (en) * 2017-11-06 2019-05-09 Microsoft Technology Licensing, Llc Multi-channel speech separation
CN109830245A (zh) * 2019-01-02 2019-05-31 北京大学 一种基于波束成形的多说话者语音分离方法及系统
CN110164446A (zh) * 2018-06-28 2019-08-23 腾讯科技(深圳)有限公司 语音信号识别方法和装置、计算机设备和电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150199979A1 (en) * 2013-05-21 2015-07-16 Google, Inc. Detection of chopped speech
CN107742522A (zh) * 2017-10-23 2018-02-27 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置
US20190139563A1 (en) * 2017-11-06 2019-05-09 Microsoft Technology Licensing, Llc Multi-channel speech separation
CN108012217A (zh) * 2017-11-30 2018-05-08 出门问问信息科技有限公司 联合降噪的方法及装置
CN108053842A (zh) * 2017-12-13 2018-05-18 电子科技大学 基于图像识别的短波语音端点检测方法
CN110164446A (zh) * 2018-06-28 2019-08-23 腾讯科技(深圳)有限公司 语音信号识别方法和装置、计算机设备和电子设备
CN109446536A (zh) * 2018-10-26 2019-03-08 深圳市友杰智新科技有限公司 一种根据声强判断翻译器输入源语言的系统及方法
CN109830245A (zh) * 2019-01-02 2019-05-31 北京大学 一种基于波束成形的多说话者语音分离方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365900A (zh) * 2020-10-30 2021-02-12 北京声智科技有限公司 一种语音信号增强方法、装置、介质和设备
CN113879925A (zh) * 2021-09-10 2022-01-04 北京声智科技有限公司 电梯控制方法、装置、设备及存储介质
CN113879925B (zh) * 2021-09-10 2023-05-23 北京声智科技有限公司 电梯控制方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
KR102262686B1 (ko) 음성 품질 평가 방법 및 음성 품질 평가 장치
CN107481718B (zh) 语音识别方法、装置、存储介质及电子设备
Iwamoto et al. How bad are artifacts?: Analyzing the impact of speech enhancement errors on ASR
CN106504763A (zh) 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
EP4092672A1 (en) Audio signal processing method, device, equipment, and storage medium
CN111048104B (zh) 语音增强处理方法、装置及存储介质
CN104505099A (zh) 去除语音信号中已知干扰的方法和设备
CN109273020A (zh) 音频信号处理方法、装置、设备和存储介质
CN103871419A (zh) 一种信息处理方法及电子设备
CN106254612A (zh) 一种语音控制方法及装置
CN109243427A (zh) 一种车辆故障诊断方法及装置
CN111081223A (zh) 一种语音识别方法、装置、设备和存储介质
CN111105798B (zh) 基于语音识别的设备控制方法
CN105810210A (zh) 声音信号处理装置及其方法与配备有该装置的车辆
CN113053402B (zh) 一种语音处理方法、装置和车辆
CN104157288A (zh) 用多个话筒的语音识别
CN105847497A (zh) 一种语音信号处理方法及装置
CN111429905A (zh) 语音信号处理方法、装置、语音智能电梯、介质和设备
CN105261363A (zh) 一种语音识别的方法、装置及终端
CN111429905B (zh) 语音信号处理方法、装置、语音智能电梯、介质和设备
CN112365900A (zh) 一种语音信号增强方法、装置、介质和设备
CN111103568A (zh) 一种声源定位方法、装置、介质和设备
CN115273909A (zh) 语音活性检测方法、装置、设备及计算机可读存储介质
CN110503975B (zh) 基于多麦克风降噪的智能电视语音增强控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant