CN116137152A

CN116137152A - 声音水印的识别方法及声音水印的识别装置

Info

Publication number: CN116137152A
Application number: CN202111371795.3A
Authority: CN
Inventors: 杜博仁; 张嘉仁; 曾凯盟
Original assignee: Acer Inc
Current assignee: Acer Inc
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2023-05-19

Abstract

本发明实施例提供一种声音水印的识别方法及声音水印生成装置。经由网络接收合成声音信号。根据反射消除声音信号确定合成声音信号经由网络传递的噪声干扰。根据噪声干扰确定编码阈值。根据编码阈值识别合成声音信号中的声音水印信号。藉此，可适用于时变通道。

Description

声音水印的识别方法及声音水印的识别装置

技术领域

本发明涉及一种声音信号处理技术，尤其涉及一种声音水印的识别方法及声音水印的识别装置。

背景技术

远程会议可让不同位置或空间中的人进行对话，且会议相关设备、协议及应用程序也发展相当成熟。值得注意的是，部分实时会议程序可能会合成语音信号及声音水印信号，并用以识别通话者。

无可避免地，若声音信号受噪声干扰，则接收端判断水印的正确率将下降，进而影响通话传输路径上的声音信号中用户的语音成分。

发明内容

本发明实施例是针对一种声音水印的识别方法及声音水印识别装置，所识别的声音水印信号结果可有效根据传输环境的噪声设定不同编码阈值，以提升识别声音水印的正确率。

根据本发明的实施例，声音水印的识别方法适用于会议终端。声音水印的识别方法包括(但不仅限于)下列步骤：经由网络接收合成声音信号。这合成声音信号包括声音水印信号。声音水印信号为根据水印标识符偏移反射声音信号的相位所生成的。这反射声音信号是模拟声源所发出声音经外界物体反射并通过收音器所录音得到的声音信号。根据反射消除声音信号确定合成声音信号经由网络传递的噪声干扰。反射消除声音信号是消除合成声音信号中声音水印信号的水印标识符为一个或更多个码的声音信号。根据噪声干扰确定编码阈值。编码阈值包括第一阈值及第二阈值。第一阈值对应的噪声干扰低于第二阈值对应的噪声干扰。第一阈值大于第二阈值。根据编码阈值识别合成声音信号中的声音水印信号。

根据本发明的实施例，声音水印的识别装置包括(但不仅限于)存储器及处理器。存储器用以存储程序代码。处理器耦接存储器。处理器经配置用以加载且执行程序代码以执行下列步骤：经由网络接收合成声音信号。这合成声音信号包括声音水印信号。声音水印信号为根据水印标识符偏移反射声音信号的相位所生成的。这反射声音信号是模拟声源所发出声音经外界物体反射并通过收音器所录音得到的声音信号。根据反射消除声音信号确定合成声音信号经由网络传递的噪声干扰。反射消除声音信号是消除合成声音信号中声音水印信号的水印标识符为一个或更多个码的声音信号。根据噪声干扰确定编码阈值。编码阈值包括第一阈值及第二阈值。第一阈值对应的噪声干扰低于第二阈值对应的噪声干扰。第一阈值大于第二阈值。根据编码阈值识别合成声音信号中的声音水印信号。

根据本发明实施例的声音水印的识别方法及识别装置，针对基于反射声音信号所生成的声音水印信号，通过消除不同码的声音水印信号确定噪声干扰，并对估测的噪声干扰确定对应的编码阈值。藉此，可因应于变化的噪声干扰。

附图说明

包含附图以便进一步理解本发明，且附图并入本说明书中并构成本说明书的一部分。附图说明本发明的实施例，并与描述一起用于解释本发明的原理。

图1是根据本发明一实施例的会议通话系统的示意图；

图2是根据本发明一实施例的声音水印的识别方法的流程图；

图3是根据本发明一实施例说明虚拟反射条件的示意图；

图4是根据本发明一实施例的编码阈值的生成方法的流程图；

图5是根据本发明一实施例说明确定编码阈值的流程图；

图6是根据本发明另一实施例说明确定编码阈值的流程图；

图7是根据本发明一实施例的识别声音水印信号的流程图。

附图标号说明

10、20:会议终端；

50:云端服务器；

11、21:收音器；

13、23:扬声器；

15、25、55:通讯收发器；

17、27、57:存储器；

19、29、59:处理器；

70:声音水印识别装置；

S210～S240、S410～S450、S510～S530、S610～S660:步骤；

S_Rx:通话接收声音信号；

S_Tx:通话传送声音信号；

S_WM:声音水印信号；

S_Rx+S_WM:嵌入水印信号；

S’_Rx、S”_Rx:反射声音信号；

W:墙；

d_s、d_w:距离；

SS:音源；

W_E:水印标识符；

S_A:合成声音信号；

预处理声音信号；

s_B-:第一声音信号；

s_B+:第二声音信号；

第三声音信号；

第四声音信号；

s_C:第五声音信号；

第六声音信号；/>

相关性；

Th_D、/>

编码阈值。

具体实施方式

现将详细地参考本发明的示范性实施例，示范性实施例的实例说明于附图中。只要有可能，相同组件符号在附图和描述中用来表示相同或相似部分。

图1是根据本发明一实施例的会议通话系统1的示意图。请参照图1，语音通讯系统1包括但不仅限于会议终端10,20及云端服务器50。

会议终端10,20可以是有线电话、移动电话、网络电话、平板计算机、台式计算机、笔记本电脑或智能喇叭。

会议终端10包括(但不仅限于)收音器11、扬声器13、通讯收发器15、存储器17及处理器19。

收音器11可以是动圈式(dynamic)、电容式(Condenser)、或驻极体电容(ElectretCondenser)等类型的麦克风，收音器11也可以是其他可接收声波(例如，人声、环境声、机器运作声等)而转换为声音信号的电子组件、模拟至数字转换器、滤波器、及音频处理器的组合。在一实施例中，收音器11用以对发话者收音/录音，以取得通话接收声音信号。在一些实施例中，这通话接收声音信号可能包括发话者的声音、扬声器13所发出的声音和/或其他环境音。

扬声器13可以是喇叭或扩音器。在一实施例中，扬声器13用以播放声音。

通讯收发器15例如是支持以太网络(Ethernet)、光纤网络、或电缆等有线网络的收发器(其可能包括(但不仅限于)连接接口、信号转换器、通讯协议处理芯片等组件)，也可能是支持Wi-Fi、第四代(4G)、第五代(5G)或更后世代行动网络等无线网络的收发器(其可能包括(但不仅限于)天线、数字至模拟/模拟至数字转换器、通讯协议处理芯片等组件)。在一实施例中，通讯收发器15用以传送或接收数据。

存储器17可以是任何型态的固定或可移动随机存取存储器(Radom AccessMemory，RAM)、只读存储器(Read Only Memory，ROM)、闪存(flash memory)、传统硬盘(HardDisk Drive，HDD)、固态硬盘(Solid-State Drive，SSD)或类似组件。在一实施例中，存储器17用以存储程序代码、软件模块、组态配置、数据(例如，声音信号、水印标识符、或声音水印信号)或档案。

处理器19耦接收音器11、扬声器13、通讯收发器15及存储器17。处理器19可以是中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphic Processing unit，GPU)，或是其他可程序化的一般用途或特殊用途的微处理器(Microprocessor)、数字信号处理器(Digital Signal Processor，DSP)、可程序化控制器、现场可程序化逻辑门阵列(Field Programmable Gate Array，FPGA)、特殊应用集成电路(Application-SpecificIntegrated Circuit，ASIC)或其他类似组件或上述组件的组合。在一实施例中，处理器19用以执行所属会议终端10的所有或部份作业，且可加载并执行存储器17所存储的各软件模块、档案及数据。

会议终端20包括(但不仅限于)收音器21、扬声器23、通讯收发器25、存储器27及处理器29。收音器21、扬声器23、通讯收发器25、存储器27及处理器29的实施方式及功能可参酌前述针对收音器11、扬声器13、通讯收发器15、存储器17及处理器19的说明，于此不再赘述。而收音器21用以接收反射声音信号并经由通讯收发器25传送至云端服务器50的处理器59中。

云端服务器50经由网络直接或间接连接会议终端10,20。云端服务器50可以是计算机系统、服务器或信号处理装置。在一实施例中，会议终端10,20也可作为云端服务器50。在另一实施例中，云端服务器50可作为不同于会议终端10,20的独立云端服务器。在一些实施例中，云端服务器50包括(但不仅限于)相同或相似的通讯收发器55、存储器57及处理器59，且组件的实施方式及功能将不再赘述。

在一实施例中，声音水印的识别装置70可以是会议终端10,20和/或云端服务器50。声音水印的识别装置70用以识别声音水印信号，并待后续实施例详述。

下文中，将搭配会议通讯系统1中的各项装置、组件及模块说明本发明实施例所述的方法。本方法的各个流程可依照实施情形而调整，且并不仅限于此。

另需说明的是，为了方便说明，相同组件可实现相同或相似的操作，且将不再赘述。例如，会议终端10的处理器19、会议终端20的处理器29和/或云端服务器50的处理器59皆可实现本发明实施例相同或相似的方法。

图2是根据本发明一实施例的声音水印的识别方法的流程图。请参照图2，处理器19经由网络接收合成声音信号S_A(步骤S210)。具体而言，假设会议终端10,20建立通话会议。例如，通过视频软件、语音通话软件或拨打电话等方式建立会议，发话者即可开始说话。经收音器21录音/收音后，处理器29可取得通话接收声音信号S_Rx。这通话接收声音信号S_Rx相关于会议终端20对应的发话者的语音内容(还可能包括环境声音或其他噪声)。会议终端20的处理器29可通过通讯收发器25(即，经由网络接口)传送通话接收声音信号S_Rx。在一些实施例中，通话接收声音信号S_Rx可能经回音消除、噪声滤波和/或其他声音信号处理。

接着，云端服务器50的处理器59通过通讯收发器55接收来自会议终端20的通话接收声音信号S_Rx。处理器59根据虚拟反射条件及通话接收声音信号S_Rx生成反射声音信号S’_Rx。具体而言，一般的回音消除算法能适应性地消除收音器11,21自外部收到的声音信号中的属于参考信号的成分(例如，通话接收路径的通话接收声音信号S_Rx)。这收音器11,21所录制的声音包括自扬声器13,23到收音器11,21最短路径以及环境的不同反射路径(即，声音经外部物体反射所形成的路径)。反射的位置影响声音信号的时间延迟和衰减振福。此外，反射的声音信号也可能来自不同方向，进而导致相移。

在一实施例中，处理器59可根据位置关系确定反射声音信号S’_Rx相较于通话接收声音信号S_Rx的时间延迟及振幅衰减。举例而言，图3是根据本发明一实施例说明虚拟反射条件的示意图。请参照图3，假设虚拟反射条件为一面墙(即，二外界物体)，在收音器21与音源SS之间的距离为d_s(例如，0.3、0.5或0.8米)且收音器21与墙W之间的距离为d_w(例如，1、1.5或2米)的条件下，反射声音信号S’_Rx与通话接收声音信号S_Rx的关系可表示如下：

s′_Rx(n)＝α₁·s_Rx(n-n_w1)…(1)

其中α₁为反射(即，声音信号受墙W阻挡的反射)造成的振幅衰减，n为采样点或时间，n_w为反射距离(即，自音源SS经过墙W并到达收音器21的距离)造成的时间延迟。

在本发明实施例中，处理器59根据水印标识符偏移反射声音信号的相位，并据以生成声音水印信号S_WM。具体而言，处理器59根据水印标识符偏移反射声音信号的相位，以生成声音水印信号。一般回音消除机制运作时，相较于反射的声音信号相移，反射的声音信号的时间延迟和振幅的变化对回音消除机制的误差影响比较大。这变化如同处于一个全新的干扰环境，并使得回音消除机制需要重新适应。因此，本发明实施例的水印标识符中的不同值所对应到的声音水印信号，仅有相位差异，但其时间延迟和振幅相同。即，声音水印信号包括一个或更多个经相移的反射声音信号。

在一实施例中，水印标识符是以多进位制编码，且这多进位制在水印标识符的一个或更多个位中的每一者提供多个值。以二进制制为例，水印标识符中的每一个位的值可以是“0”或“1”。以十六进制制为例，水印标识符中的每一个位的值可以是“0”、“1”、“2”、…、“E”、“F”。在另一实施例中，水印标识符是以字母、文字和/或符号编码。例如，水印标识符中的每一个位的值可以是英文“A”～“Z”中的任一者。

在一实施例中，水印标识符的各位上的那些不同的值对应不同的相移。例如，假设水印标识符W₀是N进位制(N为正整数)，则针对各位可提供N个值。这N个不同值分别对应到不同相移

又例如，假设水印标识符W_O是二进制制，则针对各位可提供2个值(即，1和0)。这2个不同值分别对应到两相移/>

例如，相移/>

为90°，且相移/>

为-90°(即，-1)。

处理器59可根据水印标识符中的一个或更多位的值偏移(通过或未通过高通滤波处理的)反射声音信号的相位。以N进位制为例，处理器59根据水印标识符中的一个或多个值选择相移

中的一或更多者，并使用受选相移/>

的进行相移。例如，水印标识符的第一个位上的值为1，则所输出的经相移的反射声音信号/>

相对于反射声音信号偏移

其余反射声音信号/>

可依此类推。而相移可采用希尔伯转换(Hilbert transform)或其他相移算法达成。

会议终端10的处理器19通过通讯收发器15经由网络接收声音水印信号S_WM或嵌入水印信号S_Rx+S_WM，以取得合成声音信号S_A(即，经传送的声音水印信号S_WM或嵌入水印信号S_Rx+S_WM)。

请参照图2，处理器19根据反射消除声音信号确定合成声音信号S_A经由网络传递的噪声干扰(步骤S220)。具体而言，反射消除声音信号是消除合成声音信号S_A中声音水印信号S_WM的水印标识符为一种或更多种码的声音信号。这些码是指前述多进位制编码或其他编码机制所提供的值或符号。关于反射消除声音信号待后续实施例详述。

由于在云端服务器50经由网络传输至会议终端10的传输的过程中，其输出信号(即，经传送的声音水印信号S_WM或嵌入水印信号S_Rx+S_WM)经振幅衰减α_T变为经衰减的声音信号S_T并受噪声N_T干扰。而声音信号与噪声N_T之间信噪比(SNR)为SNR_T＝20·log(S_T/N_T)。值得注意的是，若使用固定的阈值识别声音水印信号，则可能无法适用于不同噪声环境。

请参照图2，处理器19根据噪声干扰确定编码阈值(步骤S230)。具体而言，这编码阈值包括第一阈值及第二阈值，第一阈值对应的噪声干扰低于第二阈值对应的噪声干扰，且第一阈值大于第二阈值。例如，第一阈值为1.9，且第二阈值为0.3。而第一阈值对应的噪声干扰的信噪比SNR_T＝∞dB(即，无噪声干扰)，且第二阈值对应的噪声干扰的信噪比为SNR_T＝-6dB(即，高噪声干扰)。在这范例中，上述第一阈值与第二阈值的值为通过实验证明所得出的。然而，第一阈值及第二阈值的数值仍可根据实际需求而改变，且本发明实施例不加以限制。

图4是根据本发明一实施例的编码阈值的生成方法的流程图。请参照图4，在一实施例中，处理器19根据延迟时间n_w以及合成声音信号S_A生成预处理声音信号

这预处理声音信号/>

是合成声音信号S_A经相移(例如，90°、-90°)且延迟一个延迟时间n_w所得出的(步骤S410)。须说明的是，本实施例以二进制编码的水印标识符为例(即，仅提供两个值)，且这两个值分别对应于例如是相移90°及-90°。然而，若采用其他编码，则可能有不同相移。关于预处理声音信号/>

与合成声音信号S_A的关系可表示如下：

即，预处理声音信号

是经时间延迟为n_w以及相移90°的合成声音信号S_A。

关于合成声音信号S_A与原始的通话接收声音信号S_Rx的关系可表示如下：

其中，通话接收声音信号s_Rx经由相移90°成为

N_T为噪声干扰，α_w为振幅衰减。而通话接收声音信号/>

经由延迟一个延迟时间n_w成为/>

经由上述预处理声音信号/>

与合成声音信号S_A的关系式，可得出如下关于预处理声音信号/>

与通话接收声音信号S_Rx的关系：

其中，α_w为振幅衰减，N_T为噪声干扰，噪声干扰N_T经由相移90°为

接着，处理器19根据合成声音信号S_A以及预处理声音信号

分别生成第一声音信号s_B-以及第二声音信号s_B+(步骤S420)。在一实施例中，水印标识符的至少一码包括第一码及第二码(例如，W₀＝1、W₀＝0)，且上述反射消除声音信号包括第一声音信号s_B-及第二声音信号s_B+。第一声音信号s_B-消除了水印标识符为第一码(例如，W₀＝1)的声音信号，且第二声音信号s_B+消除了水印标识符为第二码(例如，W₀＝0)的声音信号。

关于第一声音信号s_B-与合成声音信号S_A的关系式可如下表示：

/>

关于第一声音信号s_B-与通话接收声音信号S_Rx的关系可表示如下：

关于第二声音信号s_B+与合成声音信号S_A的关系式可如下表示：

关于第二声音信号s_B+与通话接收声音信号S_Rx的关系可表示如下：

请参照图4，处理器19根据第一声音信号s_B-生成第三声音信号

并根据第二声音信号s_B+生成第四声音信号/>

(步骤S430)。具体而言，第一声音信号s_B-经偏移相位和/或延迟时间以生成第三声音信号/>

第二声音信号s_B+经偏移相位和/或延迟时间以生成第四声音信号/>

在一实施例中，第一声音信号s_B-经相移90°且延迟一个延迟时间n_w得出第三声音信号/>

关于第三声音信号/>

与第一声音信号s_B-的关系式可如下表示：

此外，第二声音信号s_B+经相移90°且延迟一个延迟时间n_w得出第四声音信号

关于第四声音信号/>

与第二声音信号s_B+的关系式可如下表示：

请参照图4，处理器19根据第三声音信号

及第四声音信号/>

分别确定第一相关性/>

及第二相关性/>

(步骤S440)。具体而言，处理器19对第一声音信号s_B-与第三声音信号/>

计算交叉相关，以得出第一相关性是/>

此外，处理器19对第二声音信号s_B+与第四声音信号/>

计算交叉相关，以得出第二相关性/>

值得注意的是，第一相关性

与第二相关性/>

的绝对值之间的差异对应于噪声干扰的大小。举例来说，第一相关性/>

噪声干扰对应的噪声比SNR_T、与水印标识符W₀的关系可表示如下:

表(1)

也就是说，当水印标识符为第一码(例如，W₀＝1)时，只有在大噪声环境(例如，信噪比SNR_T＝-6dB)下，第一声音信号s_B-与第三声音信号

中的/>

部分为负相关，无噪声环境(SNR_T＝∞dB)下则为不相关(例如，/>

)；大噪声环境时相关性高且为负数(例如，/>

)。当水印标识符为第二码(例如，W₀＝0)时，第一声音信号s_B-与第三声音信号/>

中的/>

s_Rx(n-2·n_w)和/>

的部分皆为负相关，无噪声环境(SNR_T＝∞dB)下其相关性高且为负数(例如，/>

)；大噪声环境(SNR_T＝-6dB)下其相关性高且为负数(例如，/>

)。当合成声音信号S_A中无水印标识符(例如，W₀＝N/A，或不为任一码)时，第一声音信号s_B-与第三声音信号/>

中的

s_Rx(n-2·n_w)和/>

皆为负相关，无噪声时相关性高且为负数(例如，/>

)；大噪声环境时相关性高且为负数(例如，/>

)。也就是说，在水印标识符为第一码(W₀＝1)时，可通过第一相关性/>

确定于网络传递中的噪声干扰(即，SNR_T＝∞dB或SNR_T＝-6dB)。

接着，第二相关性

噪声干扰SNR_T与水印标识符W₀的关系可表示如下:

表(2)

由表(2)可以得知，当水印标识符为第一码(例如，W₀＝1)时，在大噪声环境(例如，SNR_T＝-6dB)下，第二声音信号s_B+与第四声音信号

中的/>

s_Rx(n-2·n_w)和/>

部分皆为正相关，而无噪声环境(例如，SNR_T＝∞dB)下，第二相关性/>

高且为正数(例如，/>

)；大噪声环境下，第二相关性/>

高且为正数(例如，

)。当水印标识符为第二码(例如，W₀＝0)时，只有第二声音信号s_B+与第四声音信号/>

中的噪声/>

的部分为正相关，无噪声环境(例如，SNR_T＝∞dB)下其相关性低(例如，/>

)，大噪声环境(例如，SNR_T＝-6dB)下其相关性高且为正数(例如，/>

)。当合成声音信号S_A中无水印标识符(即，W₀＝N/A，或不为任一码)时，第二声音信号s_B+与第四声音信号/>

中的/>

s_Rx(n-2·n_w)和

皆为正相关，无噪声时相关性高且为正数(例如，/>

)；大噪声环境时相关性高且为正数(例如，/>

)。也就是说，在水印标识符为第二码(例如，W₀＝0)时，可通过第二相关性/>

确定于网络传递中的噪声干扰(即，SNR_T＝∞dB或SNR_T＝-6dB)。

请参照图4，处理器19根据第一相关性

及第二相关性/>

确定编码阈值/>

(步骤S450)。具体而言，第一相关性/>

与第二相关性/>

的绝对值之间的差异对应于噪声干扰的大小。

在一实施例中，处理器19根据相关性比值确定编码阈值

相关性比值相关于第一相关性/>

及第二相关性/>

的和值的绝对值、以及第一相关性/>

与第二相关性

的绝对值中的最大者。此外，本实施例中的编码阈值/>

用于识别合成声音信号S_A中的声音水印信号S_WM中是否为至少一码。例如，声音水印信号S_WM为1或0中的一者。关于编码阈值/>

与第一相关性/>

及第二相关性/>

的关系可表示如下：

通过上述第一相关性

与第二相关性/>

的特性，可以得出编码阈值/>

噪声干扰SNR_T与水印标识符W₀的关系，表示如下：

表(3)

由表(1)、表(2)与表(3)可以得知，当水印标识符为第一码或第二码且网络传递环境为无噪声干扰(例如，SNR_T＝∞dB)时，第一相关性

与第二相关性/>

的绝对值之间的差异较大，且第一相关性/>

与第二相关性/>

分别为正数及负数。因此，这噪声干扰对应的编码阈值/>

的值为1.9(即，第一阈值)。而当网络传递环境为有噪声(例如，SNR_T＝-6dB)时，第一相关性/>

与第二相关性/>

的绝对值之间的差异较小，且第一相关性

与第二相关性/>

分别为正数及负数。因此，这噪声干扰对应的编码阈值/>

的值为0.3(即，第二阈值)。当合成声音信号S_A中无水印标识符(即，W₀＝N/A)时，由于第一相关性

与第二相关性/>

的绝对值之间的差异较小。因此，无论噪声干扰的大小，其编码阈值/>

的值为0.3。

请参照图5，在另一实施例中，处理器19根据第一声音信号s_B-生成第三声音信号

并根据第二声音信号s_B+生成第四声音信号/>

(步骤S510)。与图4所对应的实施例不同的是，在本实施例中，第一声音信号s_B-经延迟一个延迟时间n_w得出第三声音信号/>

且第二声音信号s_B+经延迟一个延迟时间n_w得出第四声音信号/>

关于本实施例的第三声音信号/>

与第一声音信号s_B-的关系式可如下表示：

此外，关于四声音信号

与第二声音信号s_B+的关系式可如下表示：

请参照图5，处理器19根据第三声音信号

及第四声音信号/>

分别确定第一相关性/>

及第二相关性/>

(步骤S520)。具体而言，处理器19对第一声音信号s_B-与第三声音信号/>

计算交叉相关以得出第一相关性是/>

并对第二声音信号s_B+与第四声音信号

计算交叉相关以得出第二相关性/>

第一相关性/>

及第二相关性/>

或第二相关性/>

与噪声干扰对应信噪比SNR_T、水印标识符W₀的关系可表示如下:

表(4)

也就是说，当水印标识符为第一码(例如，W₀＝1)或第二码(例如，W₀＝0)时，第一相关性

及第二相关性/>

的结果为不相关。也就是说，第一声音信号s_B-与第三声音信号

彼此不相关，且第二声音信号s_B+与第四声音信号/>

亦彼此不相关。值得注意的是，只有当合成声音信号S_A中无水印标识符(即，W₀＝N/A)时，声音信号中的s_Rx(n-n_w)和

为正相关，而噪声部分呈不相关。因此，当合成声音信号SA中无水印标识符(即，W₀＝N/A)，且传递环境为无噪声(SNR_T＝∞dB)时，相关性高且为正数/>

而传递环境大噪声环境(SNR_T＝-6dB)时，相关性低且为正数/>

请参照图5，接着，处理器19根据第一相关性

及第二相关性/>

的和值确定编码阈值Th_D(步骤S530)。值得注意的是，本实施例中的编码阈值Th_D用于识别合成声音信号S_A中的声音水印信号中是否有至少一码。例如，声音水印信号是否为N/A。关于编码阈值Th_D与第一相关性/>

及第二相关性/>

的关系可表示如下：

接着，根据表(4)以及上述第一相关性

及第二相关性/>

的特性，可以得出编码阈值Th_D、噪声干扰SNR_T与水印标识符W₀的关系，并可表示如下:

Th_D	W₀＝1	W₀＝0	W₀＝N/A
				SNR_T＝∞dB	±0.3	±0.3	10
SNR_T＝-6dB	±0.3	±0.3	0.5

表(5)

如表(5)以及上述第一相关性

及第二相关性/>

的特性可以得知，在无水印标识符的情况下，第一相关性/>

及第二相关性/>

可用于确定网络传递中的噪声干扰(即，SNR_T＝∞dB或SNR_T＝-6dB)。据此，可通过编码阈值Th_D识别声音水印信号中是否有至少一码。

图6是根据本发明另一实施例说明确定编码阈值的流程图。请参照图6，在一实施例中，编码阈值包括第一噪声阈值及第二噪声阈值。处理器19根据延迟时间n_w以及合成声音信号S_A生成预处理声音信号

(步骤S610)。具体而言，预处理声音信号/>

是合成声音信号S_A经延迟一个延迟时间n_w所得出的。关于预处理声音信号/>

与合成声音信号S_A的关系可表示如下：

关于预处理声音信号

与通话接收声音信号S_Rx的关系可表示如下：/>

接着，处理器19根据合成声音信号S_A以及预处理声音信号

生成第五声音信号s_C(步骤S620)。关于第五声音信号s_C与合成声音信号S_A的关系式可如下表示：

关于第五声音信号s_C与通话接收声音信号S_Rx的关系可表示如下：

在本实施例中，反射消除声音信号包括第五声音信号s_C，第五声音信号s_C消除了声音水印信号不为任一码(例如，W₀＝N/A)情况下的合成声音信号。

请参照图6，处理器19根据第五声音信号s_C生成第六声音信号

(步骤S630)。在本实施例中，第五声音信号s_C经延迟一个延迟时间n_w以生成第六声音信号/>

关于第六声音信号/>

与第五声音信号s_C的关系式可如下表示：

处理器19根据第五声音信号s_C及第六声音信号

确定第三相关性/>

(步骤S640)。具体而言，处理器19对第五声音信号s_C及第六声音信号/>

计算交叉相关以得出第三相关性/>

第三相关性/>

对应于噪声干扰的大小。举例来说，第三相关性/>

表(6)

也就是说，当水印标识符为第一码(即，W₀＝1)时，第五声音信号s_C与声音信号中的s_Rx(n-n_w)、

和N_T(n-n_w)之间的第三相关性/>

的结果为负相关，且传递环境为无噪声(SNR_T＝∞dB)时，相关性高且为负数(例如，/>

)；而传递环境大噪声环境(SNR_T＝-6dB)时，相关性高且为负数(例如，/>

)。此外，水印标识符为第二码(即，W₀＝1)的情况下的特性与第一码相同。值得注意的是，只有当合成声音信号S_A中无水印标识符(即，W₀＝N/A)时，声音信号中的噪声部分/>

为负相关。因此，当合成声音信号SA中无水印标识符(即，W₀＝N/A)，且传递环境为无噪声(SNR_T＝∞dB)时，相关性低(例如，/>

)；而传递环境大噪声环境(SNR_T＝-6dB)时，相关性高(例如，

)。

处理器19根据第三相关性

确定第一噪声阈值/>

例如，关于第一噪声阈值/>

与第三相关性/>

的关系可表示如下：

接着，根据表(6)以及上述第三相关性

的特性，可以得出第一噪声阈值

噪声干扰对应的信噪比SNR_T与水印标识符W₀的关系，并可表示如下:

表(7)

如表(7)以及上述第三相关性

的特性可以得知，在无水印标识符的情况下(例如，W₀＝N/A)，若无噪声干扰(例如，SNR_T＝∞dB)，则第三相关性/>

较小且第一噪声阈值

较大；若大噪声干扰(例如，SNR_T＝-6dB)，则第三相关性/>

较大且第一噪声阈值

较小。第一噪声阈值/>

用于识别合成声音信号中的声音水印信号中是否有至少一码。

另一方面，处理器19根据相关性比值确定第二噪声阈值

(步骤S650)。步骤S650的详细说明可参酌图4，且于此不再赘述。即，在这实施例所确定的第二噪声阈值/>

为步骤S450所确定的编码阈值/>

接着，处理器19根据第一噪声阈值

以及第二噪声阈值/>

确定最终的编码阈值/>

(步骤S660)。在一实施例中，编码阈值/>

Claims

1.一种声音水印的识别方法，适用于会议终端，其特征在于，所述声音水印的识别方法包括：

经由网络接收合成声音信号，其中所述合成声音信号包括声音水印信号，所述声音水印信号为根据水印标识符偏移反射声音信号的相位所生成的，且所述反射声音信号是模拟声源所发出声音经外界物体反射并通过收音器所录音得到的声音信号；

根据至少一反射消除声音信号确定所述合成声音信号经由所述网络传递的噪声干扰，其中所述反射消除声音信号是消除所述合成声音信号中所述声音水印信号的所述水印标识符为至少一码的声音信号；

根据所述噪声干扰确定编码阈值，其中所述编码阈值包括第一阈值及第二阈值，所述第一阈值对应的噪声干扰低于所述第二阈值对应的噪声干扰，且所述第一阈值大于所述第二阈值；以及

根据所述编码阈值识别所述合成声音信号中的所述声音水印信号。

2.根据权利要求1所述的声音水印的识别方法，其特征在于，确定所述噪声干扰的步骤包括：

根据延迟时间以及所述合成声音信号生成预处理声音信号，其中所述预处理声音信号是所述合成声音信号经相移且延迟所述延迟时间所得出的；

根据所述合成声音信号以及所述预处理声音信号分别生成第一声音信号以及第二声音信号，其中所述至少一码包括第一码及第二码，所述反射消除声音信号包括所述第一声音信号及所述第二声音信号，所述第一声音信号消除了所述水印标识符为所述第一码情况下的合成声音信号，且所述第二声音信号消除了所述水印标识符为所述第二码情况下的合成声音信号；

根据所述第一声音信号生成第三声音信号，并根据所述第二声音信号生成第四声音信号，其中所述第一声音信号经偏移相位以及延迟所述延迟时间以生成所述第三声音信号，所述第二声音信号经偏移相位以及延迟所述延迟时间以生成所述第四声音信号；

根据所述第三声音信号及所述第四声音信号分别确定第一相关性及第二相关性，其中所述第一相关性是所述第一声音信号与所述第三声音信号之间的相关性，所述第二相关性是所述第二声音信号与所述第四声音信号之间的相关性，且所述第一相关性与所述第二相关性的绝对值之间的差异对应于所述噪声干扰的大小。

3.根据权利要求2所述的声音水印的识别方法，其特征在于，根据所述噪声干扰确定所述编码阈值的步骤包括：

根据相关性比值确定所述编码阈值，其中所述相关性比值相关于所述第一相关性及所述第二相关性的和值的绝对值、以及所述第一相关性与所述第二相关性的绝对值中的最大者，且所述编码阈值用于识别所述合成声音信号中的所述声音水印信号中是否为所述至少一码。

4.根据权利要求2所述的声音水印的识别方法，其特征在于，根据所述噪声干扰确定所述编码阈值的步骤包括：

根据所述第一相关性及所述第二相关性的和值确定所述编码阈值，其中所述编码阈值用于识别所述合成声音信号中的所述声音水印信号中是否有所述至少一码。

5.根据权利要求2所述的声音水印的识别方法，其特征在于，所述编码阈值包括第一噪声阈值及第二噪声阈值，且根据所述噪声干扰确定所述编码阈值的步骤包括：

根据第三相关性确定所述第一噪声阈值，其中第三相关性相关于第五声音信号与第六声音信号之间的相关性，所述反射消除声音信号包括所述第五声音信号，所述第五声音信号消除了所述水印标识符不为所述至少一码情况下的合成声音信号，所述第六声音信号是所述第五声音信号经延迟所述延迟时间的声音信号，且所述第一噪声阈值用于识别所述合成声音信号中的所述声音水印信号中是否有所述至少一码；

根据相关性比值确定所述第二噪声阈值，其中所述相关性比值相关于所述第一相关性及所述第二相关性的和值的绝对值、以及所述第一相关性与所述第二相关性的绝对值中的最大者，且所述第二噪声阈值用于识别所述合成声音信号中的所述声音水印信号中是否为所述至少一码；以及

根据所述第一噪声阈值以及所述第二噪声阈值确定所述编码阈值，其中所述编码阈值相关于所述第一噪声阈值与所述第二噪声阈值的差值、以及所述第二噪声阈值中的最大者，且所述编码阈值用于识别所述合成声音信号中的所述声音水印信号中是否有所述至少一码以及是否为所述至少一码。

6.一种声音水印的识别装置，包括：

存储器，用以存储程序代码；以及

处理器，耦接所述存储器，其特征在于，所述处理器经配置用以加载且执行所述程序代码以：

7.根据权利要求6所述的声音水印的识别装置，其特征在于，所述处理器更经配置用以：

根据所述第一声音信号生成第三声音信号，并根据所述第二声音信号生成第四声音信号，其中所述第一声音信号经偏移相位和/或延迟所述延迟时间以生成所述第三声音信号，所述第二声音信号经偏移相位和/或延迟所述延迟时间以生成所述第四声音信号；

8.根据权利要求7所述的声音水印的识别装置，其特征在于，所述处理器更经配置用以：

9.根据权利要求7所述的声音水印的识别装置，其特征在于，所述处理器更经配置用以：

10.根据权利要求7所述的声音水印的识别装置，其特征在于，所述编码阈值包括第一噪声阈值及第二噪声阈值，且所述处理器更经配置用以：

根据第三相关性确定所述第一噪声阈值，其中所述第三相关性相关于第五声音信号与第六声音信号之间的相关性，所述反射消除声音信号包括所述第五声音信号，所述第五声音信号消除了所述水印标识符不为所述至少一码情况下的合成声音信号，所述第六声音信号是所述第五声音信号经延迟所述延迟时间的声音信号，且所述第一噪声阈值用于识别所述合成声音信号中的所述声音水印信号中是否有所述至少一码；