CN114694689A

CN114694689A - 声音信号处理评估方法和装置

Info

Publication number: CN114694689A
Application number: CN202110123933.XA
Authority: CN
Inventors: 杜博仁; 张嘉仁; 曾凯盟
Original assignee: Acer Inc
Current assignee: Acer Inc
Priority date: 2020-12-25
Filing date: 2021-01-29
Publication date: 2022-07-01
Also published as: US20220208171A1; TWI763207B; TW202226220A; US11636844B2

Abstract

本发明提供一种声音信号处理评估方法和装置。对合成声音信号进行声音信号处理以产生经处理声音信号。这合成声音信号是对主要信号加入次要信号所产生，主要信号只有语音信号，且声音信号处理相关于对合成声音信号除去次要信号。分别对经处理声音信号和主要信号取得声音特性。这声音特性包括文字内容，且文字内容是对经处理声音信号和主要信号进行语音转文字处理所产生。依据经处理声音信号和主要信号的声音特性之间的比较结果评估这声音信号处理。这比较结果包括经处理声音信号的文字内容对应于主要信号的正确性。藉此，可提供客观的评估结果。

Description

声音信号处理评估方法和装置

技术领域

本发明涉及一种信号分析技术，尤其涉及一种声音信号处理评估方法和装置。

背景技术

市面上已有许多提供噪声或噪音消除技术的扬声器、耳机或其他多媒体播放器。不同厂商所推出的噪声或噪音消除技术可能涉及到不同算法或机制，还可能达到不同效果。然而，现今没有可客观评量不同消除技术的方案。

发明内容

本发明实施例是针对一种声音信号处理评估方法和装置，可针对语音相关信号的声音信号处理提供客观的评量。

根据本发明的实施例，声音信号处理评估方法包括(但不仅限于)下列步骤：对合成声音信号进行声音信号处理以产生经处理声音信号。这合成声音信号是对主要信号加入次要信号所产生，主要信号只有语音信号，且声音信号处理相关于对合成声音信号除去次要信号。分别对经处理声音信号和主要信号取得声音特性。这声音特性包括文字内容，且文字内容是对经处理声音信号和主要信号进行语音转文字处理所产生。依据经处理声音信号和主要信号的声音特性之间的比较结果评估这声音信号处理。这比较结果包括经处理声音信号的文字内容对应于主要信号的正确性。

根据本发明的实施例，声音信号处理评估装置包括(但不仅限于)存储器和处理器。存储器用以存储数个软件模块。处理器耦接存储器，并用以加载且执行那些软件模块。那些软件模块包括声音信号处理模块、特性提取模块和评估模块。声音信号处理模块对合成声音信号进行声音信号处理以产生经处理声音信号。这合成声音信号是对主要信号加入次要信号所产生，主要信号只有语音信号，且声音信号处理相关于对合成声音信号除去次要信号。特性提取模块分别对经处理声音信号和主要信号取得声音特性。这声音特性包括文字内容，且文字内容是对经处理声音信号和主要信号进行语音转文字处理所产生。评估模块依据经处理声音信号和主要信号的声音特性之间的比较结果评估这声音信号处理。这比较结果包括经处理声音信号的文字内容对应于主要信号的正确性。

基于上述，依据本发明实施例的声音信号处理评估方法和装置，可确定语音相关的原信号和经声音信号处理的经处理声音信号两者在声音特性上的差异，并据以作为评估参考依据。其中，可确定两信号经语音转文字后的文字差异。藉此，可适用于评估针对语音信号相关的声音信号处理。

附图说明

包含附图以便进一步理解本发明，且附图并入本说明书中并构成本说明书的一部分。附图说明本发明的实施例，并与描述一起用于解释本发明的原理。

图1是依据本发明一实施例的声音信号处理评估装置的方块图；

图2是依据本发明一实施例的声音信号处理评估方法的流程图；

图3是依据本发明一实施例的比较与评估的流程图。

附图标号说明

100:声音信号处理评估装置；

110:存储器；

111:合成模块；

113:声音信号处理模块；

115:特性提取模块；

117:评估模块；

150:处理器；

S^M:主要信号；

S^S:次要信号；

S^C:合成声音信号；

S^P:经处理声音信号；

F^P、F^M:声音特性；

F₁ ^P、F₁ ^M:特征矢量；

F₂ ^P、F₂ ^M:文字内容；

d₁:距离；

d₂:文字正确率；

I:完整度；

S210～S250、S231～S232、S251～S253:步骤。

具体实施方式

现将详细地参考本发明的示范性实施例，示范性实施例的实例说明于附图中。只要有可能，相同组件符号在附图和描述中用来表示相同或相似部分。

图1是依据本发明一实施例的声音信号处理评估装置100的方块图。请参照图1，声音信号处理评估装置100包括(但不只限于)存储器110和处理器150。声音信号处理评估装置100可以是台式计算机、膝上计算机、AIO计算机、智能手机、平板计算机、或服务器等装置。

存储器110可以是任何型态的固定或可移动随机存取内存(Radom AccessMemory，RAM)、只读存储器(Read Only Memory，ROM)、闪存(flash memory)、传统硬盘(HardDisk Drive，HDD)、固态硬盘(Solid-State Drive，SSD)或类似组件。在一实施例中，存储器110用以记录程序代码、软件模块(例如，合成模块111、声音信号处理模块113、特性提取模块115和评估模块117)、组态配置、数据或文件(例如，声音信号、声音特性和评估结果)，并待后续实施例详述。

处理器150耦接存储器110，处理器150并可以是中央处理单元(CentralProcessing Unit，CPU)、图形处理单元(Graphic Processing unit，GPU)，或是其他可程序化的一般用途或特殊用途的微处理器(Microprocessor)、数字信号处理器(DigitalSignal Processor，DSP)、可程序化控制器、现场可程序化逻辑门阵列(FieldProgrammable Gate Array，FPGA)、特殊应用集成电路(Application-SpecificIntegrated Circuit，ASIC)、神经网络加速器或其他类似组件或上述组件的组合。在一实施例中，处理器150用以执行声音信号处理评估装置100的所有或部分作业，且可加载并执行存储器110所记录的各软件模块、文件和数据。

下文中，将搭配声音信号处理评估装置100中的各项组件、模块和信号说明本发明实施例所述的方法。本方法的各个流程可依照实施情形而调整，且并不只限于此。

图2是依据本发明一实施例的声音信号处理评估方法的流程图。请参照图2，声音信号处理模块113对合成声音信号S^C进行声音信号处理以产生经处理声音信号S^P(步骤S210)。具体而言，合成声音信号S^C是合成模块111对主要信号S^M加入次要信号S^S所产生的。即，合成主要信号S^M和次要信号S^S可产生合成声音信号S^C。假设主要信号S^M只有语音信号。即，单纯人声。而次要信号S^S可以是生物(例如，狗、猫、或婴儿)所发出声音、非生物(例如，空调器、吹发器或冰箱)运作声、合成声、环境声(例如，风声、树枝拍打声等)、对象互动作用的声音(例如，手指敲击键盘的声音、碗摔落地面等)或其组合。只要是主要信号S^M以外的其他声音都可视为次要信号S^S。

在一实施例中，合成模块111例如可对两信号S^M,S^S在频谱上迭加或采用其他合成技术。在另一实施例中，声音信号处理评估装置100可通过内建、外置或外部扬声器同时播放主要信号S^M和次要信号S^S，并进一步录制，以取得合成声音信号S^C。

另一方面，在一实施例中，声音信号处理模型113对合成声音信号S^C所进行的声音信号处理是相关于对合成声音信号S^C除去次要信号S^S。例如，声音信号处理的目的其中一个在于还原主要信号S^M、或噪声消除。噪声/降噪抑制(或声源分离)技术例如是产生与噪声音波相位相反的信号、或利用独立成分分析(Independent Components Analysis，ICA)等方式自合成声音信号S^C中消除噪声(即，次要信号S^S)，本发明实施例不加以限制。

值得注意的是，基于不同技术的声音信号处理对相同输入信号所输出的信号在频率、波形或振幅上可能有差异。若欲评估多种声音信号处理技术，声音信号处理模块113可整合这些声音信号处理技术，并分别采用不同声音信号处理技术来处理合成声音信号S^C。此外，若欲了解特定声音信号处理对不同次要信号S^S的除去能力，也可分别加入不同次要信号S^S。

在一实施例中，声音信号处理评估装置100可通过内建、外置或外部扬声器分别播放主要信号S^M和经处理声音信号S^P，并进一步分别录制这两信号S^M,S^P，以作为后续分析使用。

特性提取模块115可分别对经处理声音信号S^P和主要信号S^M取得声音特性F^P,F^M(步骤S230)。具体而言，评估的确定依据是希望声音信号处理后可同时保存主要语音的声纹特性且提高语意识别度。在一实施例中，声音特性F^P,F^M包括声纹特征。特性提取模块115例如是采用有线性预估系数(Linear Predictive Coefficient，LPC)、倒谱系数、梅尔倒频谱系数(Mel-frequency Cepstrum Coefficient，MFCC)或其他特征参数提取方法来取得声纹特征。声纹特征可用于区别不同人物所发出的声音。由此可知，评估的确定依据其中一个在于，希望听者聆听经处理声音信号S^P后仍可识别出主要信号S^M对应的相同人物。

图3是依据本发明一实施例的比较与评估的流程图。请参照图3，在一实施例中，特性提取模块115可进一步将经处理声音信号S^P和主要信号S^M的声纹特征转换成两特征矢量F₁ ^P,F₁ ^M(步骤S231)。例如，特性提取模块115对部分音段的声纹特征组合，并取其平均矢量作为特征矢量。

在一实施例中，声音特性F^P,F^M包括文字内容。特性提取模块115可对经处理声音信号S^P和主要信号S^M进行语音转文字处理，以产生文字内容F₂ ^P,F₂ ^M(步骤S232)。语音转文字处理例如是基于特征提取、声学模型、发音词典、语言模型、译码器或其组合来输出具有最大或相较大概率的词串。文字内容即是声音信号中的说话内容(以文字形式表示)。文字内容可用于了解语意。由此可知，评估的确定依据其中一个在于，希望听者聆听经处理声音信号S^P后仍可识别出主要信号S^M对应的正确内容。

在一实施例中，声音特性F^P,F^M包括声纹特征和文字内容两者。

评估模块117可依据经处理声音信号S^P和主要信号S^M的声音特性之间的比较结果评估声音信号处理模块113所执行的声音信号处理(步骤S250)。在一实施例中，针对声纹特征，比较结果包括声纹相似性，且评估模块117可比较经处理声音信号S^P和主要信号S^M的声纹特征之间的声纹相似性。即，经处理声音信号S^P的声纹特征是否相同或相似于主要信号S^M的声纹特征。

依据不同特征提取技术，声纹比对的方法可能不同。请参照图3，在一实施例中，声纹相似性相关于经处理声音信号S^P和主要信号S^M的特征矢量F₁ ^P,F₁ ^M之间的距离d₁(步骤S251)。例如，距离d₁是欧氏距离(Euclidean Distance)算法所决定的最短距离，但也可能是两特征矢量F₁ ^P,F₁ ^M上其他点之间的距离。若距离d₁值越小/近，则代表经处理声音信号S^P和主要信号S^M的声纹特征越接近。即，评估模块117将距离d₁越近者视为声纹相似性越高者，并对应于较好的评估结果。若距离d₁值越大/远，则代表两信号S^P,S^M的声纹特征差异越大。即，评估模块117将距离d₁越远者视为声纹相似性越低者，并对应于较差的评估结果。

在一实施例中，针对文字内容，比较结果包括经处理声音信号S^P的文字内容对应于主要信号S^M的正确性。例如，两信号S^P,S^M对应文字内容中字符的正确性。

请参照图3，在一实施例中，评估模块117可比较经处理声音信号S^P和主要信号S^M的文字内容F₂ ^P,F₂ ^M中的字符差异。字符差异相关于两信号S^P,S^M的文字内容F₂ ^P,F₂ ^M中的对应字符是否相同。文字内容F₂ ^P,F₂ ^M的正确性相关于文字正确率。评估模块117可依据字符差异决定经处理声音信号S^P相对于主要信号S^M的文字正确率d₂(或称识别率)(步骤S252)。例如，文字正确率是经比对相同文字的数量所占文字内容F₂ ^M的所有字符数的比例。评估模块117可将文字正确率d₂越高者视为文字内容的正确性越高者并对应于较好的评估结果，且将文字正确率d₂越低者视为文字内容的正确性越低者并对应于较差的评估结果。

在一实施例中，比较结果包括文字内容的正确性和声纹相似性两者。评估模块117可确定声纹相似性越高且文字内容的正确性越高者对应于较好的评估结果(即，声音信号处理的结果较好)，且评估模块117可确定声纹相似性越低或文字内容的正确性越低者对应于较差的评估结果(即，声音信号处理的结果较差)。

例如，评估模块117可计算完整度I(步骤S253)：

其中，α为可变的调整参数(即，常数)，完整度I相关于评估结果。假设文字正确率d₂介于0～1之间，则完整度I会介于0～1之间。而完整度I相关于评估结果，其数值越大表示评估结果较好(例如，两信号S^P,S^M的特性越接近)，且其数值越小代表评估结果较差(例如，两信号S^P,S^M的特性越不接近)。

藉此，若欲应用在评估通话中降低噪声的语音相关声音信号处理，则可确定这语音相关声音信号处理是否能同时保存主要语音的声纹特性且提高语意识别度。

须说明的是，评估结果的量化方式不限于完整度I的函数(1)，且应用者可依据实际需求而自行调整。

综上所述，在本发明实施例的声音信号处理评估方法和装置中，分析主要信号与经处理声音信号的声音特性，并依据针对文字正确性/识别度和声纹相似性决定声音信号处理的优劣。藉此，可提供客观的评估标准。

最后应说明的是：以上各实施例只用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种声音信号处理评估方法，其特征在于，包括：

对合成声音信号进行声音信号处理以产生经处理声音信号，其中所述合成声音信号是对主要信号加入次要信号所产生，所述主要信号只有语音信号，且所述声音信号处理相关于对所述合成声音信号除去所述次要信号；

分别对所述经处理声音信号和所述主要信号取得声音特性，其中所述声音特性包括文字内容，且所述文字内容是对所述经处理声音信号和所述主要信号进行语音转文字处理所产生；以及

依据所述经处理声音信号和所述主要信号的所述声音特性之间的比较结果评估所述声音信号处理，其中所述比较结果包括所述经处理声音信号的所述文字内容对应于所述主要信号的正确性。

2.根据权利要求1所述的声音信号处理评估方法，其中评估所述声音信号处理的步骤包括：

比较所述经处理声音信号和所述主要信号的所述文字内容中的字符差异，其中所述字符差异相关于所述文字内容中的对应字符是否相同；以及

依据所述字符差异决定所述经处理声音信号相对于所述主要信号的文字正确率，其中所述文字内容的正确性相关于所述文字正确率。

3.根据权利要求1所述的声音信号处理评估方法，其中所述声音特性还包括声纹特征，且评估所述声音信号处理的步骤包括：

比较所述经处理声音信号和所述主要信号的所述声纹特征之间的声纹相似性，其中所述比较结果还包括所述声纹相似性。

4.根据权利要求3所述的声音信号处理评估方法，其中评估所述声音信号处理的步骤包括：

确定所述声纹相似性越高且所述文字内容的正确性越高者对应于较好的评估结果；以及

确定所述声纹相似性越低或所述文字内容的正确性越低者对应于较差的评估结果。

5.根据权利要求4所述的声音信号处理评估方法，其中所述声纹相似性相关于所述经处理声音信号和所述主要信号的特征矢量之间的距离，所述特征矢量是由所述声纹特征转换，且评估所述声音信号处理的步骤包括：

将所述距离越近者视为所述声纹相似性越高者；以及

将所述距离越远者视为所述声纹相似性越低者。

6.一种声音信号处理评估装置，包括：

存储器，存储多个软件模块；以及

处理器，耦接所述存储器，加载且执行所述软件模块，其特征在于，所述软件模块包括：

声音信号处理模块，对合成声音信号进行声音信号处理以产生经处理声音信号，其中所述合成声音信号是对主要信号加入次要信号所产生，所述主要信号只有语音信号，且所述声音信号处理相关于对所述合成声音信号除去所述次要信号；

特征提取模块，分别对所述经处理声音信号和所述主要信号取得声音特性，其中所述声音特性包括文字内容，且所述文字内容是对所述经处理声音信号和所述主要信号进行语音转文字处理所产生；以及

评估模块，依据所述经处理声音信号和所述主要信号的所述声音特性之间的比较结果评估所述声音信号处理，其中所述比较结果包括所述经处理声音信号的所述文字内容对应于所述主要信号的正确性。

7.根据权利要求6所述的声音信号处理评估装置，其中所述评估模块比较所述经处理声音信号和所述主要信号的所述文字内容中的字符差异，且所述评估模块依据所述字符差异决定所述经处理声音信号相对于所述主要信号的文字正确率，其中所述字符差异相关于所述文字内容中的对应字符是否相同，且所述文字内容的正确性相关于所述文字正确率。

8.根据权利要求6所述的声音信号处理评估装置，其中所述声音特性还包括声纹特征，且所述评估模块比较所述经处理声音信号和所述主要信号的所述声纹特征之间的声纹相似性，其中所述比较结果还包括所述声纹相似性。

9.根据权利要求8所述的声音信号处理评估装置，其中所述评估模块确定所述声纹相似性越高且所述文字内容的正确性越高者对应于较好的评估结果，且所述评估模块确定所述声纹相似性越低或所述文字内容的正确性越低者对应于较差的评估结果。

10.根据权利要求9所述的声音信号处理评估装置，其中所述声纹相似性相关于所述经处理声音信号和所述主要信号的特征矢量之间的距离，所述特征矢量是由所述声纹特征转换，所述评估模块将所述距离越近者视为所述声纹相似性越高者，且所述评估模块将所述距离越远者视为所述声纹相似性越低者。