CN117789738A

CN117789738A - 声音信号的处理装置及声音信号的处理方法

Info

Publication number: CN117789738A
Application number: CN202211353964.5A
Authority: CN
Inventors: 刘涵一; 赖长信
Original assignee: Wistron Corp
Current assignee: Wistron Corp
Priority date: 2022-09-21
Filing date: 2022-11-01
Publication date: 2024-03-29
Also published as: US20240096342A1

Abstract

本发明提供声音信号的处理装置及声音信号的处理方法。在方法中，接收声音信号，辨识口罩类型，并依据口罩类型修改声音信号。口罩类型是声音信号所对应的口罩。藉此，可修正失真，并提升语音辨识的准确性。

Description

声音信号的处理装置及声音信号的处理方法

技术领域

本发明是有关于一种信号处理，且特别是有关于一种声音信号的处理装置及声音信号的处理方法。

背景技术

口罩可防止佩带者吸入诸如烟、悬浮粒子、灰尘或微生物等成分。因此，针对飞沫传染途径的传染病，建议民众佩带口罩。

值得注意的是，随着科技的进步，许多电子产品提供声控功能。声控功能需要依赖语音辨识技术。然而，口罩会阻隔声波的传递，从而影响声音信号的频率响应，进而降低语音辨识系统的准确性。

发明内容

有鉴于此，本发明实施例提供一种声音信号的处理装置及声音信号的处理方法，可还原声音信号，进而提升语音辨识的准确性。

本发明一实施例的声音信号的处理方法包括(但不仅限于)下列步骤：接收声音信号；辨识口罩类型；依据口罩类型修改声音信号。口罩类型是声音信号所对应的口罩。

本发明一实施例的声音信号的处理装置包括(但不仅限于)存储器及处理器。存储器用以存储程序代码。处理器耦接存储器。处理器经配置用以载入程序代码以执行：接收声音信号；辨识口罩类型；依据口罩类型修改声音信号。口罩类型是声音信号所对应的口罩。

基于上述，依据本发明实施例的声音信号的处理装置及声音信号的处理方法，依据口罩的辨识结果修改声音信号。藉此，可降低口罩对声波的干扰，进而提升的语音辨识度。

为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图式作详细说明如下。

附图说明

图1是依据本发明一实施例的声音信号的处理装置的元件方块图。

图2是依据本发明一实施例的声音信号的处理方法的流程图。

图3A是基本款口罩的示意图。

图3B是图案款口罩的示意图。

图3C是服贴款口罩的示意图。

图4是依据本发明一实施例的修改信号的流程图。

图5是依据本发明一实施例的用于三种口罩的声音信号的处理方法的流程图。

图6是依据本发明一实施例的补偿信号的产生的流程图。

图7是依据本发明一实施例的原始信号与三种口罩的训练信号的频率响应图。

图8是依据本发明一实施例的三种口罩的补偿信号的频率响应图。

图9是依据本发明一实施例的基本款口罩的补偿信号的频率响应图。

图10是依据本发明一实施例的图案款口罩的补偿信号的频率响应图。

图11是依据本发明一实施例的服贴款口罩的补偿信号的频率响应图。

图12是依据本发明一实施例的辨识方法的流程图。

附图符号说明：

10:处理装置；

11:存储器；

12:处理器；

13:麦克风；

14:影像选取装置；

S210～S230、S410～S420、S510～S590、S610～S630、S121～S127:步骤；

710:原始信号；

720～740:训练信号；

810～830:补偿信号。

具体实施方式

图1是依据本发明一实施例的声音信号的处理装置10的元件方块图。请参照图1，处理装置10包括(但不仅限于)存储器11及处理器12。处理装置10可以是手机、平板电脑、笔记本电脑、台式电脑、门禁装置、语音助理装置、智能家电、穿戴式装置、车载装置或其他电子装置。

存储器11可以是任何型态的固定或可移动随机存取存储器(Radom AccessMemory，RAM)、只读存储器(Read Only Memory，ROM)、闪存(flash memory)、传统硬盘(HardDisk Drive，HDD)、固态硬盘(Solid-State Drive，SSD)或类似元件。在一实施例中，存储器11用以存储程序代码、软件模组、组态配置、资料或数据(例如，信号、模型、或特征)，并待后续实施例详述。

处理器12耦接存储器11。处理器12可以是中央处理单元(Central ProcessingUnit，CPU)、图形处理单元(Graphic Processing unit，GPU)，或是其他可程序化的一般用途或特殊用途的微处理器(Microprocessor)、数字信号处理器(Digital SignalProcessor，DSP)、可程序化控制器、现场可程序化逻辑门阵列(Field Programmable GateArray，FPGA)、特殊应用集成电路(Application-Specific Integrated Circuit，ASIC)、神经网络加速器或其他类似元件或上述元件的组合。在一实施例中，处理器12用以执行处理装置10的所有或部份作业，且可载入并执行存储器11所存储的各程序代码、软件模组、档案及数据。在一些实施例中，本发明实施例的方法中的部分作业可能通过不同或相同处理器12实现。

在一实施例中，处理装置10更包括麦克风13。处理器12耦接麦克风13。例如，麦克风13通过USB、Thunderbolt、Wi-Fi、蓝牙或其他有线或无线通讯技术连接处理装置10。又例如，处理装置10内建麦克风13。麦克风13可以是动圈式(dynamic)、电容式(Condenser)、或驻极体电容(Electret Condenser)等类型的麦克风。麦克风13也可以是其他可接收声波(例如，人声、环境声、机器运作声等)而转换为声音信号的电子元件、模数转换器、滤波器、及音频处理器的组合。在一实施例中，麦克风13用以对发声者收音/录音，以取得声音信号。

在一实施例中，处理装置10更包括影像选取装置14。处理器12耦接影像选取装置14。例如，影像选取装置14通过USB、Thunderbolt、Wi-Fi、蓝牙或其他有线或无线通讯技术连接处理装置10。又例如，处理装置10内建影像选取装置14。影像选取装置14可以是相机、摄影机或监视器，并据以选取指定视野内的影像。在一实施例中，影像选取装置14用以对发声者拍照或录影。

下文中，将搭配处理装置10中的各项装置、元件及模组说明本发明实施例所述之方法。本方法的各个流程可依照实施情形而随之调整，且不仅限于此。

图2是依据本发明一实施例的声音信号的处理方法的流程图。请参照图2，处理器12接收声音信号(步骤S210)。具体而言，处理器12可通过麦克风13接收声波，并据以产生声音信号。声音信号可以是人声信号、机械声信号、合成声音信号、环境声信号或其他发声来源的信号。也就是，发声来源可能是人、机器、喇叭或所处环境中的任何物件。又例如，处理器12可通过通讯收发器(图未示)接收外部录音设备的声音信号。

处理器12辨识口罩类型(步骤S220)。具体而言，口罩类型是声音信号所对应的口罩。例如，发声者戴上这口罩类型的口罩并发声。又例如，其他声音来源的声波经过这口罩类型的口罩。口罩类型有很多种。举例而言，图3A是基本款口罩(例如，外科口罩)的示意图，图3B是图案款口罩(例如，口罩上有编织或印刷图案)的示意图，且图3C是服贴款口罩的示意图。这些都是市面上常见的口罩类型。除此之外，口罩类型还可能是N95、面罩型，且本发明实施例不加以限制。

在一实施例中，处理器12通过影像选取装置14对发声者或其他发声来源拍照以取得发声者或发声来源的影像，或取得来自外部影像装置的所拍摄的影像。接着，处理器12可辨识影像中的口罩的口罩类型。

例如，处理器12可通过OpenCV演算法对影像进行前处理(例如，调整对比、调整亮度、或裁切影像)，并通过分类器辨识口罩类型。分类器是基于机器学习演算法(例如，监督式、半监督式或半监督式学习)所训练。分类器可用于物件辨识/检测。而物件辨识的演算法有很多种。例如，YOLO(You Only Look Once)、SSD(Single Shot Detector)或R-CNN。或者，处理器12可通过基于特征匹配的演算法(例如，方向梯度直方图(Histogram of OrientedGradient，HOG)、Harr、或加速稳健特征(Speeded Up Robust Features，SURF)的特征比对)实现物件辨识。

须说明的是，本发明实施例不加以限制物件辨识/检测所用的演算法。在一实施例中，前述物件检测也可能是由外部装置执行并提供辨识结果给处理装置10。

在另一实施例中，处理器12可依据声音信号的声音特性辨识口罩类型。例如，口罩阻隔高频段(2至10千赫兹(kHz))较为明显。而不同的口罩类型例如在2至5kHz衰减的差异较大。因此，处理器12可基于声音信号在频域中的特定频率或频带上的衰减幅度区别不同口罩类型。

须说明的是，声音特性还有很多种，且可能是经特定演算法所得的值。只要不同口罩类型在特定声音特性上的数值有差异，即可用于辨识口罩类型。

请参照图2，处理器12依据口罩类型修改声音信号(步骤S230)。具体而言，如前述说明，口罩影响声音信号，进而造成失真现象。例如，声音信号的震幅在高频段衰减。因此，需要修正声音信号的失真。

图4是依据本发明一实施例的修改信号的流程图。请参照图4，处理器12可依据口罩类型取得对应的补偿信号(步骤S410)。不同口罩类型对于声音信号的影响不同。而补偿信号可用于将声音信号还原成或逼近声波未经口罩的情况下所取得的原始信号。接着，处理器12可依据所取得的补偿信号修改声音信号(步骤S420)。例如，处理器12可将补偿信号与声音信号在频域上叠加。又例如，处理器12可将补偿信号与声音信号通过方程式转换成修改的声音信号。

图5是依据本发明一实施例的用于三种口罩的声音信号的处理方法的流程图。请参照图5，处理器12可判断发声者或发声来源是否戴口罩或受口罩遮蔽(步骤S510)。若有戴口罩或受口罩遮蔽，则处理器12判断所戴的口罩类型是否为第一口罩(例如，图3A所示的基本款口罩)(步骤S520)。若口罩类型为第一口罩，则处理器12取得第一口罩对应的第一补偿信号(步骤S530)。若口罩类型不为第一口罩，则处理器12继续判断这口罩类型是否为第二口罩(例如，图3B所示的图案款口罩)(步骤S540)。若口罩类型为第二口罩，则处理器12取得第二口罩对应的第二补偿信号(步骤S550)。若口罩类型不为第二口罩，则处理器12继续判断这口罩类型是否为第三口罩(例如，图3C所示的服贴款口罩)(步骤S560)。若口罩类型为第三口罩，则处理器12取得第三口罩对应的第三补偿信号(步骤S570)。若口罩类型不为第三口罩，则处理器12判断发声者未戴口罩或未受口罩遮蔽(即，未存在口罩)，并将补偿信号设为零(步骤S580)。接着，处理器12将所取得的补偿信号与声音信号叠加(步骤S590)。

须说明的是，本发明实施例不限于三种口罩类型，且处理器12可能直接判断口罩类型而不用依序比对，也就是，处理器12可以同时执行步骤S520、S540、S560来直接判断发声者或发声来源是对应于第一口罩、第二口罩、第三口罩或者是其他口罩类型，并取得对应的补偿信号。

图6是依据本发明一实施例的补偿信号的产生的流程图。请参照图6，处理器12可取得原始信号(步骤S610)。这原始信号是声音信号未经口罩所产生。例如，发声者未戴口罩或发声来源未受口罩遮蔽并发声。例如，通过麦克风13收音或取得其他录音设备收音，以录制原始信号。这原始信号是修改的目标。处理器12可取得训练信号(步骤S620)。这训练信号是声音信号经某一口罩类型的口罩所产生。例如，发声者戴某一种口罩类型的口罩或发声来源受这口罩类型的口罩遮蔽并发声。例如，发声者戴基本款口罩，并通过麦克风13收音或取得其他录音设备收音，以录制训练信号。处理器12可依据原始信号及训练信号之间的差异确定补偿信号(步骤S630)。例如，依据以下方程式确定补偿信号Cx(f)：

C_X(f)＝H(f)-M_X(f)

x为口罩类型的编号，且可以是正整数。例如，x＝1为基本款，x＝2为图案款，且x＝3为服贴款。H(f)为原始信号，且Mx(f)为第x款口罩类型的训练信号。这些补偿信号可存储在存储器11，并供后续声音信号的修改使用。

举例而言，图7是依据本发明一实施例的原始信号与三种口罩的训练信号的频率响应图。请参照图7，原始信号710对应于未戴口罩的情况。训练信号720对应于发声者戴图3A的基本款口罩的情况。训练信号730对应于发声者戴图3B的基本款口罩的情况。训练信号740对应于发声者戴图3C的基本款口罩的情况。

图8是依据本发明一实施例的三种口罩的补偿信号的频率响应图。请参照图8，补偿信号810用于修改发声者戴图3A的基本款口罩或其他发声来源受图3A的基本款口罩遮蔽的情况下所取得的声音信号。补偿信号820用于修改发声者戴图3B的图案款口罩或其他发声来源受图3B的图案款口罩遮蔽的情况下所取得的声音信号。补偿信号830用于修改发声者戴图3C的服贴款口罩或其他发声来源受图3C的服贴款口罩遮蔽的情况下所取得的声音信号。而将声音信号依据对应的补偿信号810～830修改后即可还原成如图7所示的原始信号710。

不同口罩类型的补偿信号在不同频率上的补偿值可能不同。例如，图9是依据本发明一实施例的基本款口罩的补偿信号的频率响应图。请参照图9，五种基本款口罩在1kHz、2kHz、4kHz及10kHz的补偿值分别大概为+0.5dB、+2dB、+3dB及+2.5dB。

图10是依据本发明一实施例的图案款口罩的补偿信号的频率响应图。请参照图10，图案款口罩在1kHz、2kHz、4kHz及10kHz的补偿值分别大概为0dB、+5dB、+10dB及+10dB。

图11是依据本发明一实施例的服贴款口罩的补偿信号的频率响应图。请参照图11，两种服贴款口罩在1kHz、2kHz、4kHz及10kHz的补偿值分别大概为0dB、+2.5dB、+5dB及+3dB。

修改的声音信号可供语音辨识使用。在一实施例中，处理器12可依据修改的声音信号辨识声音信号是否为注册信号。注册信号是受允许通过验证的信号。例如，已通过身份验证的注册者的声音信号。

语音辨识的方法有很多种。图12是依据本发明一实施例的辨识方法的流程图。请参照图12，处理器12可取得注册语音信号的声学特征(步骤S121)。注册语音信号是对注册者或其他发声来源收音所产生的声音信号。例如，处理器12可利用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient，MFCC)、fBank、logFBank或其他演算法得出声学特征。处理器12可依据注册语音信号的声学特征产生注册信号的注册声学模型(acousticmodel)(步骤S122)。例如，处理器12可利用隐马尔科夫模型(Hidden Markov Model，HMM)产生声学模型。接着，处理器12将注册信号的注册声学模型存储在模型库(S123)。

另一方面，处理器12可取得修改的声音信号的声学特征(步骤S124)。相似地，处理器12可利用MFCC、fBank、logFBank或其他演算法得出声学特征。接着，处理器12可依据修改的声音信号的声学特征产生发声者或其他发声来源的受测声学模型(步骤S125)。

处理器12可比对受测声学模型及模型库中的注册声学模型(步骤S126)，并依据注册声学模型与受测声学模型的比对结果判断声音信号是否为注册信号(步骤S127)。例如，若注册声学模型相同于受测声学模型，则声音信号为注册信号。例如，当前发声者是注册者。若注册声学模型不同于受测声学模型，则声音信号不为注册信号。例如，当前发声者不为注册者。或者，处理器12可利用基于机器学习演算法的辨识模型直接辨识声音信号是否为注册信号。

在其他实施例中，修改的声音信号还可供其他语音辨识应用使用。例如，语音转文字、语音拨号、语音指令或语音导航。

综上所述，在本发明实施例的处理装置及声音信号的处理方法中，针对所辨识的口罩类型提供对应的补偿信号，并据以修改声音信号。藉此，可修正口罩所造成的失真，进而提升语音辨识的准确性。

虽然本发明已以实施例揭露如上，然其并非用以限定本发明，任何所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作些许的更动与润饰，故本发明的保护范围当视申请专利范围所界定者为准。

Claims

1.一种声音信号的处理方法，包括：

接收一声音信号；

辨识一口罩类型，其中该口罩类型是该声音信号所对应的一口罩；以及

依据该口罩类型修改该声音信号。

2.如权利要求1所述的处理方法，其中依据该口罩类型修改该声音信号的步骤包括：

依据该口罩类型取得对应的一补偿信号；以及

依据该补偿信号修改该声音信号。

3.如权利要求2所述的处理方法，其中依据该补偿信号修改该声音信号的步骤包括：

将该补偿信号与该声音信号在一频域上叠加。

4.如权利要求2所述的处理方法，其中依据该补偿信号修改该声音信号的步骤包括：

反应于未存在该口罩，将该补偿信号设定零。

5.如权利要求2所述的处理方法，更包括：

取得一原始信号，其中该原始信号是该声音信号未经过该口罩所产生；

取得一训练信号，其中该训练信号是该声音信号经过该口罩类型的该口罩所产生；以及

依据该原始信号及该训练信号之间的差异确定该补偿信号。

6.如权利要求1所述的处理方法，其中辨识该口罩类型的步骤包括：

辨识一影像中的该口罩的该口罩类型。

7.如权利要求6所述的处理方法，其中辨识该口罩类型的步骤包括：

通过一分类器辨识该口罩类型，其中该分类器是基于一机器学习演算法所训练。

8.如权利要求1所述的处理方法，其中辨识该口罩类型的步骤包括：

依据该声音信号的一声音特性辨识该口罩类型。

9.如权利要求1所述的声音信号的处理方法，更包括：

依据一修改的声音信号辨识该声音信号是否为一注册信号。

10.如权利要求9所述的处理方法，其中依据该修改的声音信号辨识该声音信号是否为该注册信号的步骤包括：

依据一注册语音信号的声学特征产生该注册信号的一注册声学模型；

依据该修改的声音信号的声学特征产生该声音信号的一受测声学模型；以及

依据该注册声学模型与该受测声学模型的比对结果判断该声音信号是否为该注册信号。

11.一种声音信号的处理装置，包括：

一存储器，用以存储一程序代码；以及

一处理器，耦接该存储器，经配置用以载入该程序代码以执行：

接收一声音信号；

依据该口罩类型修改该声音信号。

12.如权利要求11所述的处理装置，其中该处理器更经配置用以：

依据该口罩类型取得对应的一补偿信号；以及

依据该补偿信号修改该声音信号。

13.如权利要求12所述的处理装置，其中该处理器更经配置用以：

将该补偿信号与该声音信号在一频域上叠加。

14.如权利要求12所述的处理装置，其中该处理器更经配置用以：

反应于未存在该口罩，将该补偿信号设定零。

15.如权利要求12所述的处理装置，其中该处理器更经配置用以：

依据该原始信号及该训练信号之间的差异确定该补偿信号。

16.如权利要求11所述的处理装置，其中该处理器更经配置用以：

辨识一影像中的该口罩的该口罩类型。

17.如权利要求16所述的处理装置，其中该处理器更经配置用以：

18.如权利要求11所述的处理装置，其中该处理器更经配置用以：

依据该声音信号的一声音特性辨识该口罩类型。

19.如权利要求11所述的处理装置，其中该处理器更经配置用以：

依据一修改的声音信号辨识该声音信号是否为一注册信号。

20.如权利要求19所述的处理装置，其中该处理器更经配置用以：