CN116137152A - 声音水印的识别方法及声音水印的识别装置 - Google Patents
声音水印的识别方法及声音水印的识别装置 Download PDFInfo
- Publication number
- CN116137152A CN116137152A CN202111371795.3A CN202111371795A CN116137152A CN 116137152 A CN116137152 A CN 116137152A CN 202111371795 A CN202111371795 A CN 202111371795A CN 116137152 A CN116137152 A CN 116137152A
- Authority
- CN
- China
- Prior art keywords
- sound signal
- correlation
- threshold
- sound
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000005236 sound signal Effects 0.000 claims abstract description 293
- 230000003111 delayed effect Effects 0.000 claims description 16
- 230000000875 corresponding effect Effects 0.000 description 20
- 238000004891 communication Methods 0.000 description 19
- 230000010363 phase shift Effects 0.000 description 15
- 230000005540 biological transmission Effects 0.000 description 12
- 230000002194 synthesizing effect Effects 0.000 description 12
- 238000007781 pre-processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000018199 S phase Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例提供一种声音水印的识别方法及声音水印生成装置。经由网络接收合成声音信号。根据反射消除声音信号确定合成声音信号经由网络传递的噪声干扰。根据噪声干扰确定编码阈值。根据编码阈值识别合成声音信号中的声音水印信号。藉此,可适用于时变通道。
Description
技术领域
本发明涉及一种声音信号处理技术,尤其涉及一种声音水印的识别方法及声音水印的识别装置。
背景技术
远程会议可让不同位置或空间中的人进行对话,且会议相关设备、协议及应用程序也发展相当成熟。值得注意的是,部分实时会议程序可能会合成语音信号及声音水印信号,并用以识别通话者。
无可避免地,若声音信号受噪声干扰,则接收端判断水印的正确率将下降,进而影响通话传输路径上的声音信号中用户的语音成分。
发明内容
本发明实施例是针对一种声音水印的识别方法及声音水印识别装置,所识别的声音水印信号结果可有效根据传输环境的噪声设定不同编码阈值,以提升识别声音水印的正确率。
根据本发明的实施例,声音水印的识别方法适用于会议终端。声音水印的识别方法包括(但不仅限于)下列步骤:经由网络接收合成声音信号。这合成声音信号包括声音水印信号。声音水印信号为根据水印标识符偏移反射声音信号的相位所生成的。这反射声音信号是模拟声源所发出声音经外界物体反射并通过收音器所录音得到的声音信号。根据反射消除声音信号确定合成声音信号经由网络传递的噪声干扰。反射消除声音信号是消除合成声音信号中声音水印信号的水印标识符为一个或更多个码的声音信号。根据噪声干扰确定编码阈值。编码阈值包括第一阈值及第二阈值。第一阈值对应的噪声干扰低于第二阈值对应的噪声干扰。第一阈值大于第二阈值。根据编码阈值识别合成声音信号中的声音水印信号。
根据本发明的实施例,声音水印的识别装置包括(但不仅限于)存储器及处理器。存储器用以存储程序代码。处理器耦接存储器。处理器经配置用以加载且执行程序代码以执行下列步骤:经由网络接收合成声音信号。这合成声音信号包括声音水印信号。声音水印信号为根据水印标识符偏移反射声音信号的相位所生成的。这反射声音信号是模拟声源所发出声音经外界物体反射并通过收音器所录音得到的声音信号。根据反射消除声音信号确定合成声音信号经由网络传递的噪声干扰。反射消除声音信号是消除合成声音信号中声音水印信号的水印标识符为一个或更多个码的声音信号。根据噪声干扰确定编码阈值。编码阈值包括第一阈值及第二阈值。第一阈值对应的噪声干扰低于第二阈值对应的噪声干扰。第一阈值大于第二阈值。根据编码阈值识别合成声音信号中的声音水印信号。
根据本发明实施例的声音水印的识别方法及识别装置,针对基于反射声音信号所生成的声音水印信号,通过消除不同码的声音水印信号确定噪声干扰,并对估测的噪声干扰确定对应的编码阈值。藉此,可因应于变化的噪声干扰。
附图说明
包含附图以便进一步理解本发明,且附图并入本说明书中并构成本说明书的一部分。附图说明本发明的实施例,并与描述一起用于解释本发明的原理。
图1是根据本发明一实施例的会议通话系统的示意图;
图2是根据本发明一实施例的声音水印的识别方法的流程图;
图3是根据本发明一实施例说明虚拟反射条件的示意图;
图4是根据本发明一实施例的编码阈值的生成方法的流程图;
图5是根据本发明一实施例说明确定编码阈值的流程图;
图6是根据本发明另一实施例说明确定编码阈值的流程图;
图7是根据本发明一实施例的识别声音水印信号的流程图。
附图标号说明
10、20:会议终端;
50:云端服务器;
11、21:收音器;
13、23:扬声器;
15、25、55:通讯收发器;
17、27、57:存储器;
19、29、59:处理器;
70:声音水印识别装置;
S210~S240、S410~S450、S510~S530、S610~S660:步骤;
SRx:通话接收声音信号;
STx:通话传送声音信号;
SWM:声音水印信号;
SRx+SWM:嵌入水印信号;
S’Rx、S”Rx:反射声音信号;
W:墙;
ds、dw:距离;
SS:音源;
WE:水印标识符;
SA:合成声音信号;
sB-:第一声音信号;
sB+:第二声音信号;
sC:第五声音信号;
具体实施方式
现将详细地参考本发明的示范性实施例,示范性实施例的实例说明于附图中。只要有可能,相同组件符号在附图和描述中用来表示相同或相似部分。
图1是根据本发明一实施例的会议通话系统1的示意图。请参照图1,语音通讯系统1包括但不仅限于会议终端10,20及云端服务器50。
会议终端10,20可以是有线电话、移动电话、网络电话、平板计算机、台式计算机、笔记本电脑或智能喇叭。
会议终端10包括(但不仅限于)收音器11、扬声器13、通讯收发器15、存储器17及处理器19。
收音器11可以是动圈式(dynamic)、电容式(Condenser)、或驻极体电容(ElectretCondenser)等类型的麦克风,收音器11也可以是其他可接收声波(例如,人声、环境声、机器运作声等)而转换为声音信号的电子组件、模拟至数字转换器、滤波器、及音频处理器的组合。在一实施例中,收音器11用以对发话者收音/录音,以取得通话接收声音信号。在一些实施例中,这通话接收声音信号可能包括发话者的声音、扬声器13所发出的声音和/或其他环境音。
扬声器13可以是喇叭或扩音器。在一实施例中,扬声器13用以播放声音。
通讯收发器15例如是支持以太网络(Ethernet)、光纤网络、或电缆等有线网络的收发器(其可能包括(但不仅限于)连接接口、信号转换器、通讯协议处理芯片等组件),也可能是支持Wi-Fi、第四代(4G)、第五代(5G)或更后世代行动网络等无线网络的收发器(其可能包括(但不仅限于)天线、数字至模拟/模拟至数字转换器、通讯协议处理芯片等组件)。在一实施例中,通讯收发器15用以传送或接收数据。
存储器17可以是任何型态的固定或可移动随机存取存储器(Radom AccessMemory,RAM)、只读存储器(Read Only Memory,ROM)、闪存(flash memory)、传统硬盘(HardDisk Drive,HDD)、固态硬盘(Solid-State Drive,SSD)或类似组件。在一实施例中,存储器17用以存储程序代码、软件模块、组态配置、数据(例如,声音信号、水印标识符、或声音水印信号)或档案。
处理器19耦接收音器11、扬声器13、通讯收发器15及存储器17。处理器19可以是中央处理单元(Central Processing Unit,CPU)、图形处理单元(Graphic Processing unit,GPU),或是其他可程序化的一般用途或特殊用途的微处理器(Microprocessor)、数字信号处理器(Digital Signal Processor,DSP)、可程序化控制器、现场可程序化逻辑门阵列(Field Programmable Gate Array,FPGA)、特殊应用集成电路(Application-SpecificIntegrated Circuit,ASIC)或其他类似组件或上述组件的组合。在一实施例中,处理器19用以执行所属会议终端10的所有或部份作业,且可加载并执行存储器17所存储的各软件模块、档案及数据。
会议终端20包括(但不仅限于)收音器21、扬声器23、通讯收发器25、存储器27及处理器29。收音器21、扬声器23、通讯收发器25、存储器27及处理器29的实施方式及功能可参酌前述针对收音器11、扬声器13、通讯收发器15、存储器17及处理器19的说明,于此不再赘述。而收音器21用以接收反射声音信号并经由通讯收发器25传送至云端服务器50的处理器59中。
云端服务器50经由网络直接或间接连接会议终端10,20。云端服务器50可以是计算机系统、服务器或信号处理装置。在一实施例中,会议终端10,20也可作为云端服务器50。在另一实施例中,云端服务器50可作为不同于会议终端10,20的独立云端服务器。在一些实施例中,云端服务器50包括(但不仅限于)相同或相似的通讯收发器55、存储器57及处理器59,且组件的实施方式及功能将不再赘述。
在一实施例中,声音水印的识别装置70可以是会议终端10,20和/或云端服务器50。声音水印的识别装置70用以识别声音水印信号,并待后续实施例详述。
下文中,将搭配会议通讯系统1中的各项装置、组件及模块说明本发明实施例所述的方法。本方法的各个流程可依照实施情形而调整,且并不仅限于此。
另需说明的是,为了方便说明,相同组件可实现相同或相似的操作,且将不再赘述。例如,会议终端10的处理器19、会议终端20的处理器29和/或云端服务器50的处理器59皆可实现本发明实施例相同或相似的方法。
图2是根据本发明一实施例的声音水印的识别方法的流程图。请参照图2,处理器19经由网络接收合成声音信号SA(步骤S210)。具体而言,假设会议终端10,20建立通话会议。例如,通过视频软件、语音通话软件或拨打电话等方式建立会议,发话者即可开始说话。经收音器21录音/收音后,处理器29可取得通话接收声音信号SRx。这通话接收声音信号SRx相关于会议终端20对应的发话者的语音内容(还可能包括环境声音或其他噪声)。会议终端20的处理器29可通过通讯收发器25(即,经由网络接口)传送通话接收声音信号SRx。在一些实施例中,通话接收声音信号SRx可能经回音消除、噪声滤波和/或其他声音信号处理。
接着,云端服务器50的处理器59通过通讯收发器55接收来自会议终端20的通话接收声音信号SRx。处理器59根据虚拟反射条件及通话接收声音信号SRx生成反射声音信号S’Rx。具体而言,一般的回音消除算法能适应性地消除收音器11,21自外部收到的声音信号中的属于参考信号的成分(例如,通话接收路径的通话接收声音信号SRx)。这收音器11,21所录制的声音包括自扬声器13,23到收音器11,21最短路径以及环境的不同反射路径(即,声音经外部物体反射所形成的路径)。反射的位置影响声音信号的时间延迟和衰减振福。此外,反射的声音信号也可能来自不同方向,进而导致相移。
在一实施例中,处理器59可根据位置关系确定反射声音信号S’Rx相较于通话接收声音信号SRx的时间延迟及振幅衰减。举例而言,图3是根据本发明一实施例说明虚拟反射条件的示意图。请参照图3,假设虚拟反射条件为一面墙(即,二外界物体),在收音器21与音源SS之间的距离为ds(例如,0.3、0.5或0.8米)且收音器21与墙W之间的距离为dw(例如,1、1.5或2米)的条件下,反射声音信号S’Rx与通话接收声音信号SRx的关系可表示如下:
s′Rx(n)=α1·sRx(n-nw1)…(1)
其中α1为反射(即,声音信号受墙W阻挡的反射)造成的振幅衰减,n为采样点或时间,nw为反射距离(即,自音源SS经过墙W并到达收音器21的距离)造成的时间延迟。
在本发明实施例中,处理器59根据水印标识符偏移反射声音信号的相位,并据以生成声音水印信号SWM。具体而言,处理器59根据水印标识符偏移反射声音信号的相位,以生成声音水印信号。一般回音消除机制运作时,相较于反射的声音信号相移,反射的声音信号的时间延迟和振幅的变化对回音消除机制的误差影响比较大。这变化如同处于一个全新的干扰环境,并使得回音消除机制需要重新适应。因此,本发明实施例的水印标识符中的不同值所对应到的声音水印信号,仅有相位差异,但其时间延迟和振幅相同。即,声音水印信号包括一个或更多个经相移的反射声音信号。
在一实施例中,水印标识符是以多进位制编码,且这多进位制在水印标识符的一个或更多个位中的每一者提供多个值。以二进制制为例,水印标识符中的每一个位的值可以是“0”或“1”。以十六进制制为例,水印标识符中的每一个位的值可以是“0”、“1”、“2”、…、“E”、“F”。在另一实施例中,水印标识符是以字母、文字和/或符号编码。例如,水印标识符中的每一个位的值可以是英文“A”~“Z”中的任一者。
在一实施例中,水印标识符的各位上的那些不同的值对应不同的相移。例如,假设水印标识符W0是N进位制(N为正整数),则针对各位可提供N个值。这N个不同值分别对应到不同相移又例如,假设水印标识符WO是二进制制,则针对各位可提供2个值(即,1和0)。这2个不同值分别对应到两相移/>例如,相移/>为90°,且相移/>为-90°(即,-1)。
处理器59可根据水印标识符中的一个或更多位的值偏移(通过或未通过高通滤波处理的)反射声音信号的相位。以N进位制为例,处理器59根据水印标识符中的一个或多个值选择相移中的一或更多者,并使用受选相移/>的进行相移。例如,水印标识符的第一个位上的值为1,则所输出的经相移的反射声音信号/>相对于反射声音信号偏移其余反射声音信号/>可依此类推。而相移可采用希尔伯转换(Hilbert transform)或其他相移算法达成。
会议终端10的处理器19通过通讯收发器15经由网络接收声音水印信号SWM或嵌入水印信号SRx+SWM,以取得合成声音信号SA(即,经传送的声音水印信号SWM或嵌入水印信号SRx+SWM)。
请参照图2,处理器19根据反射消除声音信号确定合成声音信号SA经由网络传递的噪声干扰(步骤S220)。具体而言,反射消除声音信号是消除合成声音信号SA中声音水印信号SWM的水印标识符为一种或更多种码的声音信号。这些码是指前述多进位制编码或其他编码机制所提供的值或符号。关于反射消除声音信号待后续实施例详述。
由于在云端服务器50经由网络传输至会议终端10的传输的过程中,其输出信号(即,经传送的声音水印信号SWM或嵌入水印信号SRx+SWM)经振幅衰减αT变为经衰减的声音信号ST并受噪声NT干扰。而声音信号与噪声NT之间信噪比(SNR)为SNRT=20·log(ST/NT)。值得注意的是,若使用固定的阈值识别声音水印信号,则可能无法适用于不同噪声环境。
请参照图2,处理器19根据噪声干扰确定编码阈值(步骤S230)。具体而言,这编码阈值包括第一阈值及第二阈值,第一阈值对应的噪声干扰低于第二阈值对应的噪声干扰,且第一阈值大于第二阈值。例如,第一阈值为1.9,且第二阈值为0.3。而第一阈值对应的噪声干扰的信噪比SNRT=∞dB(即,无噪声干扰),且第二阈值对应的噪声干扰的信噪比为SNRT=-6dB(即,高噪声干扰)。在这范例中,上述第一阈值与第二阈值的值为通过实验证明所得出的。然而,第一阈值及第二阈值的数值仍可根据实际需求而改变,且本发明实施例不加以限制。
图4是根据本发明一实施例的编码阈值的生成方法的流程图。请参照图4,在一实施例中,处理器19根据延迟时间nw以及合成声音信号SA生成预处理声音信号这预处理声音信号/>是合成声音信号SA经相移(例如,90°、-90°)且延迟一个延迟时间nw所得出的(步骤S410)。须说明的是,本实施例以二进制编码的水印标识符为例(即,仅提供两个值),且这两个值分别对应于例如是相移90°及-90°。然而,若采用其他编码,则可能有不同相移。关于预处理声音信号/>与合成声音信号SA的关系可表示如下:
关于合成声音信号SA与原始的通话接收声音信号SRx的关系可表示如下:
其中,通话接收声音信号sRx经由相移90°成为NT为噪声干扰,αw为振幅衰减。而通话接收声音信号/>经由延迟一个延迟时间nw成为/>经由上述预处理声音信号/>与合成声音信号SA的关系式,可得出如下关于预处理声音信号/>与通话接收声音信号SRx的关系:
接着,处理器19根据合成声音信号SA以及预处理声音信号分别生成第一声音信号sB-以及第二声音信号sB+(步骤S420)。在一实施例中,水印标识符的至少一码包括第一码及第二码(例如,W0=1、W0=0),且上述反射消除声音信号包括第一声音信号sB-及第二声音信号sB+。第一声音信号sB-消除了水印标识符为第一码(例如,W0=1)的声音信号,且第二声音信号sB+消除了水印标识符为第二码(例如,W0=0)的声音信号。
关于第一声音信号sB-与合成声音信号SA的关系式可如下表示:
关于第一声音信号sB-与通话接收声音信号SRx的关系可表示如下:
关于第二声音信号sB+与合成声音信号SA的关系式可如下表示:
关于第二声音信号sB+与通话接收声音信号SRx的关系可表示如下:
请参照图4,处理器19根据第一声音信号sB-生成第三声音信号并根据第二声音信号sB+生成第四声音信号/>(步骤S430)。具体而言,第一声音信号sB-经偏移相位和/或延迟时间以生成第三声音信号/>第二声音信号sB+经偏移相位和/或延迟时间以生成第四声音信号/>在一实施例中,第一声音信号sB-经相移90°且延迟一个延迟时间nw得出第三声音信号/>关于第三声音信号/>与第一声音信号sB-的关系式可如下表示:
请参照图4,处理器19根据第三声音信号及第四声音信号/>分别确定第一相关性/>及第二相关性/>(步骤S440)。具体而言,处理器19对第一声音信号sB-与第三声音信号/>计算交叉相关,以得出第一相关性是/>此外,处理器19对第二声音信号sB+与第四声音信号/>计算交叉相关,以得出第二相关性/>
表(1)
也就是说,当水印标识符为第一码(例如,W0=1)时,只有在大噪声环境(例如,信噪比SNRT=-6dB)下,第一声音信号sB-与第三声音信号中的/>部分为负相关,无噪声环境(SNRT=∞dB)下则为不相关(例如,/>);大噪声环境时相关性高且为负数(例如,/>)。当水印标识符为第二码(例如,W0=0)时,第一声音信号sB-与第三声音信号/>中的/>sRx(n-2·nw)和/>的部分皆为负相关,无噪声环境(SNRT=∞dB)下其相关性高且为负数(例如,/>);大噪声环境(SNRT=-6dB)下其相关性高且为负数(例如,/>)。当合成声音信号SA中无水印标识符(例如,W0=N/A,或不为任一码)时,第一声音信号sB-与第三声音信号/>中的sRx(n-2·nw)和/>皆为负相关,无噪声时相关性高且为负数(例如,/>);大噪声环境时相关性高且为负数(例如,/>)。也就是说,在水印标识符为第一码(W0=1)时,可通过第一相关性/>确定于网络传递中的噪声干扰(即,SNRT=∞dB或SNRT=-6dB)。
表(2)
由表(2)可以得知,当水印标识符为第一码(例如,W0=1)时,在大噪声环境(例如,SNRT=-6dB)下,第二声音信号sB+与第四声音信号中的/>sRx(n-2·nw)和/>部分皆为正相关,而无噪声环境(例如,SNRT=∞dB)下,第二相关性/>高且为正数(例如,/>);大噪声环境下,第二相关性/>高且为正数(例如,)。当水印标识符为第二码(例如,W0=0)时,只有第二声音信号sB+与第四声音信号/>中的噪声/>的部分为正相关,无噪声环境(例如,SNRT=∞dB)下其相关性低(例如,/>),大噪声环境(例如,SNRT=-6dB)下其相关性高且为正数(例如,/>)。当合成声音信号SA中无水印标识符(即,W0=N/A,或不为任一码)时,第二声音信号sB+与第四声音信号/>中的/>sRx(n-2·nw)和皆为正相关,无噪声时相关性高且为正数(例如,/>);大噪声环境时相关性高且为正数(例如,/>)。也就是说,在水印标识符为第二码(例如,W0=0)时,可通过第二相关性/>确定于网络传递中的噪声干扰(即,SNRT=∞dB或SNRT=-6dB)。
在一实施例中,处理器19根据相关性比值确定编码阈值相关性比值相关于第一相关性/>及第二相关性/>的和值的绝对值、以及第一相关性/>与第二相关性的绝对值中的最大者。此外,本实施例中的编码阈值/>用于识别合成声音信号SA中的声音水印信号SWM中是否为至少一码。例如,声音水印信号SWM为1或0中的一者。关于编码阈值/>与第一相关性/>及第二相关性/>的关系可表示如下:
表(3)
由表(1)、表(2)与表(3)可以得知,当水印标识符为第一码或第二码且网络传递环境为无噪声干扰(例如,SNRT=∞dB)时,第一相关性与第二相关性/>的绝对值之间的差异较大,且第一相关性/>与第二相关性/>分别为正数及负数。因此,这噪声干扰对应的编码阈值/>的值为1.9(即,第一阈值)。而当网络传递环境为有噪声(例如,SNRT=-6dB)时,第一相关性/>与第二相关性/>的绝对值之间的差异较小,且第一相关性与第二相关性/>分别为正数及负数。因此,这噪声干扰对应的编码阈值/>的值为0.3(即,第二阈值)。当合成声音信号SA中无水印标识符(即,W0=N/A)时,由于第一相关性与第二相关性/>的绝对值之间的差异较小。因此,无论噪声干扰的大小,其编码阈值/>的值为0.3。
请参照图5,在另一实施例中,处理器19根据第一声音信号sB-生成第三声音信号并根据第二声音信号sB+生成第四声音信号/>(步骤S510)。与图4所对应的实施例不同的是,在本实施例中,第一声音信号sB-经延迟一个延迟时间nw得出第三声音信号/>且第二声音信号sB+经延迟一个延迟时间nw得出第四声音信号/>关于本实施例的第三声音信号/>与第一声音信号sB-的关系式可如下表示:
请参照图5,处理器19根据第三声音信号及第四声音信号/>分别确定第一相关性/>及第二相关性/>(步骤S520)。具体而言,处理器19对第一声音信号sB-与第三声音信号/>计算交叉相关以得出第一相关性是/>并对第二声音信号sB+与第四声音信号计算交叉相关以得出第二相关性/>第一相关性/>及第二相关性/>的绝对值之间的差异对应于噪声干扰的大小。举例来说,第一相关性/>或第二相关性/>与噪声干扰对应信噪比SNRT、水印标识符W0的关系可表示如下:
表(4)
也就是说,当水印标识符为第一码(例如,W0=1)或第二码(例如,W0=0)时,第一相关性及第二相关性/>的结果为不相关。也就是说,第一声音信号sB-与第三声音信号彼此不相关,且第二声音信号sB+与第四声音信号/>亦彼此不相关。值得注意的是,只有当合成声音信号SA中无水印标识符(即,W0=N/A)时,声音信号中的sRx(n-nw)和为正相关,而噪声部分呈不相关。因此,当合成声音信号SA中无水印标识符(即,W0=N/A),且传递环境为无噪声(SNRT=∞dB)时,相关性高且为正数/>而传递环境大噪声环境(SNRT=-6dB)时,相关性低且为正数/>
请参照图5,接着,处理器19根据第一相关性及第二相关性/>的和值确定编码阈值ThD(步骤S530)。值得注意的是,本实施例中的编码阈值ThD用于识别合成声音信号SA中的声音水印信号中是否有至少一码。例如,声音水印信号是否为N/A。关于编码阈值ThD与第一相关性/>及第二相关性/>的关系可表示如下:
ThD | W0=1 | W0=0 | W0=N/A |
SNRT=∞dB | ±0.3 | ±0.3 | 10 |
SNRT=-6dB | ±0.3 | ±0.3 | 0.5 |
表(5)
如表(5)以及上述第一相关性及第二相关性/>的特性可以得知,在无水印标识符的情况下,第一相关性/>及第二相关性/>可用于确定网络传递中的噪声干扰(即,SNRT=∞dB或SNRT=-6dB)。据此,可通过编码阈值ThD识别声音水印信号中是否有至少一码。
图6是根据本发明另一实施例说明确定编码阈值的流程图。请参照图6,在一实施例中,编码阈值包括第一噪声阈值及第二噪声阈值。处理器19根据延迟时间nw以及合成声音信号SA生成预处理声音信号(步骤S610)。具体而言,预处理声音信号/>是合成声音信号SA经延迟一个延迟时间nw所得出的。关于预处理声音信号/>与合成声音信号SA的关系可表示如下:
关于第五声音信号sC与通话接收声音信号SRx的关系可表示如下:
在本实施例中,反射消除声音信号包括第五声音信号sC,第五声音信号sC消除了声音水印信号不为任一码(例如,W0=N/A)情况下的合成声音信号。
请参照图6,处理器19根据第五声音信号sC生成第六声音信号(步骤S630)。在本实施例中,第五声音信号sC经延迟一个延迟时间nw以生成第六声音信号/>关于第六声音信号/>与第五声音信号sC的关系式可如下表示:
处理器19根据第五声音信号sC及第六声音信号确定第三相关性/> (步骤S640)。具体而言,处理器19对第五声音信号sC及第六声音信号/>计算交叉相关以得出第三相关性/>第三相关性/>对应于噪声干扰的大小。举例来说,第三相关性/>与噪声干扰对应信噪比SNRT、水印标识符W0的关系可表示如下:
表(6)
也就是说,当水印标识符为第一码(即,W0=1)时,第五声音信号sC与声音信号中的sRx(n-nw)、和NT(n-nw)之间的第三相关性/>的结果为负相关,且传递环境为无噪声(SNRT=∞dB)时,相关性高且为负数(例如,/>);而传递环境大噪声环境(SNRT=-6dB)时,相关性高且为负数(例如,/>)。此外,水印标识符为第二码(即,W0=1)的情况下的特性与第一码相同。值得注意的是,只有当合成声音信号SA中无水印标识符(即,W0=N/A)时,声音信号中的噪声部分/>为负相关。因此,当合成声音信号SA中无水印标识符(即,W0=N/A),且传递环境为无噪声(SNRT=∞dB)时,相关性低(例如,/>);而传递环境大噪声环境(SNRT=-6dB)时,相关性高(例如,)。
表(7)
如表(7)以及上述第三相关性的特性可以得知,在无水印标识符的情况下(例如,W0=N/A),若无噪声干扰(例如,SNRT=∞dB),则第三相关性/>较小且第一噪声阈值较大;若大噪声干扰(例如,SNRT=-6dB),则第三相关性/>较大且第一噪声阈值较小。第一噪声阈值/>用于识别合成声音信号中的声音水印信号中是否有至少一码。
接着,处理器19根据第一噪声阈值以及第二噪声阈值/>确定最终的编码阈值/>(步骤S660)。在一实施例中,编码阈值/>相关于第一噪声阈值/>与第二噪声阈值/>的差值/>以及第二噪声阈值/>中的最大者。关于编码阈值第一噪声阈值/>与第二噪声阈值/>的关系可表示如下:
编码阈值用于识别合成声音信号SA中的声音水印信号中是否有至少一码以及是否为至少一码(例如,W0=N/A、W0=1或W0=1)。根据表(5)、表(7)的特性,可以得出编码阈值/>噪声干扰对应的信噪比SNRT与水印标识符W0的关系,并可表示如下:
表(8)
如表(8)可以得知,无论水印标识符的值(例如,W0=N/A、0或1),若无噪声干扰(例如,SNRT=∞dB),则编码阈值较大(例如,/>);若大噪声干扰(例如,SNRT=-6dB),则编码阈值/>较小(例如,/>)。藉此,可符合环境中噪声变化的特性及范围。
请参照图2,处理器19根据编码阈值识别合成声音信号SA中的声音水印信号SWM(步骤S240)。具体而言,处理器19生成相移90°的合成声音信号图7是根据本发明一实施例的识别声音水印信号的流程图。处理器19可根据合成声音信号SA及经相移的合成声音信号/>之间的相关性/>识别水印标识符WE(步骤S710)。例如,处理器19对合成声音信号SA与合成声音信号/>计算正交交叉相关/>且/>处理器19定义编码阈值/>及ThD,则水印标识符WE可表示为:
即,若相关性的绝对值低于编码阈值/>及ThD,则处理器19判断这位的值是不为任一码(例如,N/A);若相关性/>高于编码阈值/>或ThD,则处理器19进一步判断相关性/>并据以判断这位的值是对应于相移-90°的值(例如,0)或是相移90°的值(例如,1)。也就是说,编码阈值ThD可用于辅助确认此声音信号是否为水印标识符中的任一码。此外,为了避免被噪声影响,因此识别的另一部分是根据噪声干扰变化时的特性,确定编码阈值/>最后,处理器19可将这两种编码阈值/>或ThD与相关性/>比较,进而判断出较为准确的水印标识符。
在另一实施例中,处理器19可通过基于深度学习的分类器识别合成声音信号SA在不同次时间单位上对应的值。
关于变化的噪声干扰,举例而言,根据实验经验,合成声音信号SA的传输过程属于大噪声干扰环境(例如,SNRT=-6dB)的情况时,使用1.9的编码阈值识别声音水印信号SWM的水印标识符,可提高识别的正确率。另一方面,合成声音信号SA的传输过程属于无噪声干扰环境(例如,SNRT=∞dB)的情况时,则使用0.3的编码阈值可正确地识别出声音水印信号SWM中的水印标识符。
综上所述,在本发明实施例的声音水印的识别方法及声音水印的识别装置中,根据通过合成声音信号中的虚拟反射声音信号与反射消除声音信号的特性,确定出传递环境中的噪声干扰。此外,通过噪声干扰确定所欲判断水印标识符的编码阈值。藉此,可根据不同传输环境下使用相对应的编码阈值以提高水印标识符的识别正确率。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种声音水印的识别方法,适用于会议终端,其特征在于,所述声音水印的识别方法包括:
经由网络接收合成声音信号,其中所述合成声音信号包括声音水印信号,所述声音水印信号为根据水印标识符偏移反射声音信号的相位所生成的,且所述反射声音信号是模拟声源所发出声音经外界物体反射并通过收音器所录音得到的声音信号;
根据至少一反射消除声音信号确定所述合成声音信号经由所述网络传递的噪声干扰,其中所述反射消除声音信号是消除所述合成声音信号中所述声音水印信号的所述水印标识符为至少一码的声音信号;
根据所述噪声干扰确定编码阈值,其中所述编码阈值包括第一阈值及第二阈值,所述第一阈值对应的噪声干扰低于所述第二阈值对应的噪声干扰,且所述第一阈值大于所述第二阈值;以及
根据所述编码阈值识别所述合成声音信号中的所述声音水印信号。
2.根据权利要求1所述的声音水印的识别方法,其特征在于,确定所述噪声干扰的步骤包括:
根据延迟时间以及所述合成声音信号生成预处理声音信号,其中所述预处理声音信号是所述合成声音信号经相移且延迟所述延迟时间所得出的;
根据所述合成声音信号以及所述预处理声音信号分别生成第一声音信号以及第二声音信号,其中所述至少一码包括第一码及第二码,所述反射消除声音信号包括所述第一声音信号及所述第二声音信号,所述第一声音信号消除了所述水印标识符为所述第一码情况下的合成声音信号,且所述第二声音信号消除了所述水印标识符为所述第二码情况下的合成声音信号;
根据所述第一声音信号生成第三声音信号,并根据所述第二声音信号生成第四声音信号,其中所述第一声音信号经偏移相位以及延迟所述延迟时间以生成所述第三声音信号,所述第二声音信号经偏移相位以及延迟所述延迟时间以生成所述第四声音信号;
根据所述第三声音信号及所述第四声音信号分别确定第一相关性及第二相关性,其中所述第一相关性是所述第一声音信号与所述第三声音信号之间的相关性,所述第二相关性是所述第二声音信号与所述第四声音信号之间的相关性,且所述第一相关性与所述第二相关性的绝对值之间的差异对应于所述噪声干扰的大小。
3.根据权利要求2所述的声音水印的识别方法,其特征在于,根据所述噪声干扰确定所述编码阈值的步骤包括:
根据相关性比值确定所述编码阈值,其中所述相关性比值相关于所述第一相关性及所述第二相关性的和值的绝对值、以及所述第一相关性与所述第二相关性的绝对值中的最大者,且所述编码阈值用于识别所述合成声音信号中的所述声音水印信号中是否为所述至少一码。
4.根据权利要求2所述的声音水印的识别方法,其特征在于,根据所述噪声干扰确定所述编码阈值的步骤包括:
根据所述第一相关性及所述第二相关性的和值确定所述编码阈值,其中所述编码阈值用于识别所述合成声音信号中的所述声音水印信号中是否有所述至少一码。
5.根据权利要求2所述的声音水印的识别方法,其特征在于,所述编码阈值包括第一噪声阈值及第二噪声阈值,且根据所述噪声干扰确定所述编码阈值的步骤包括:
根据第三相关性确定所述第一噪声阈值,其中第三相关性相关于第五声音信号与第六声音信号之间的相关性,所述反射消除声音信号包括所述第五声音信号,所述第五声音信号消除了所述水印标识符不为所述至少一码情况下的合成声音信号,所述第六声音信号是所述第五声音信号经延迟所述延迟时间的声音信号,且所述第一噪声阈值用于识别所述合成声音信号中的所述声音水印信号中是否有所述至少一码;
根据相关性比值确定所述第二噪声阈值,其中所述相关性比值相关于所述第一相关性及所述第二相关性的和值的绝对值、以及所述第一相关性与所述第二相关性的绝对值中的最大者,且所述第二噪声阈值用于识别所述合成声音信号中的所述声音水印信号中是否为所述至少一码;以及
根据所述第一噪声阈值以及所述第二噪声阈值确定所述编码阈值,其中所述编码阈值相关于所述第一噪声阈值与所述第二噪声阈值的差值、以及所述第二噪声阈值中的最大者,且所述编码阈值用于识别所述合成声音信号中的所述声音水印信号中是否有所述至少一码以及是否为所述至少一码。
6.一种声音水印的识别装置,包括:
存储器,用以存储程序代码;以及
处理器,耦接所述存储器,其特征在于,所述处理器经配置用以加载且执行所述程序代码以:
经由网络接收合成声音信号,其中所述合成声音信号包括声音水印信号,所述声音水印信号为根据水印标识符偏移反射声音信号的相位所生成的,且所述反射声音信号是模拟声源所发出声音经外界物体反射并通过收音器所录音得到的声音信号;
根据至少一反射消除声音信号确定所述合成声音信号经由所述网络传递的噪声干扰,其中所述反射消除声音信号是消除所述合成声音信号中所述声音水印信号的所述水印标识符为至少一码的声音信号;
根据所述噪声干扰确定编码阈值,其中所述编码阈值包括第一阈值及第二阈值,所述第一阈值对应的噪声干扰低于所述第二阈值对应的噪声干扰,且所述第一阈值大于所述第二阈值;以及
根据所述编码阈值识别所述合成声音信号中的所述声音水印信号。
7.根据权利要求6所述的声音水印的识别装置,其特征在于,所述处理器更经配置用以:
根据延迟时间以及所述合成声音信号生成预处理声音信号,其中所述预处理声音信号是所述合成声音信号经相移且延迟所述延迟时间所得出的;
根据所述合成声音信号以及所述预处理声音信号分别生成第一声音信号以及第二声音信号,其中所述至少一码包括第一码及第二码,所述反射消除声音信号包括所述第一声音信号及所述第二声音信号,所述第一声音信号消除了所述水印标识符为所述第一码情况下的合成声音信号,且所述第二声音信号消除了所述水印标识符为所述第二码情况下的合成声音信号;
根据所述第一声音信号生成第三声音信号,并根据所述第二声音信号生成第四声音信号,其中所述第一声音信号经偏移相位和/或延迟所述延迟时间以生成所述第三声音信号,所述第二声音信号经偏移相位和/或延迟所述延迟时间以生成所述第四声音信号;
根据所述第三声音信号及所述第四声音信号分别确定第一相关性及第二相关性,其中所述第一相关性是所述第一声音信号与所述第三声音信号之间的相关性,所述第二相关性是所述第二声音信号与所述第四声音信号之间的相关性,且所述第一相关性与所述第二相关性的绝对值之间的差异对应于所述噪声干扰的大小。
8.根据权利要求7所述的声音水印的识别装置,其特征在于,所述处理器更经配置用以:
根据相关性比值确定所述编码阈值,其中所述相关性比值相关于所述第一相关性及所述第二相关性的和值的绝对值、以及所述第一相关性与所述第二相关性的绝对值中的最大者,且所述编码阈值用于识别所述合成声音信号中的所述声音水印信号中是否为所述至少一码。
9.根据权利要求7所述的声音水印的识别装置,其特征在于,所述处理器更经配置用以:
根据所述第一相关性及所述第二相关性的和值确定所述编码阈值,其中所述编码阈值用于识别所述合成声音信号中的所述声音水印信号中是否有所述至少一码。
10.根据权利要求7所述的声音水印的识别装置,其特征在于,所述编码阈值包括第一噪声阈值及第二噪声阈值,且所述处理器更经配置用以:
根据第三相关性确定所述第一噪声阈值,其中所述第三相关性相关于第五声音信号与第六声音信号之间的相关性,所述反射消除声音信号包括所述第五声音信号,所述第五声音信号消除了所述水印标识符不为所述至少一码情况下的合成声音信号,所述第六声音信号是所述第五声音信号经延迟所述延迟时间的声音信号,且所述第一噪声阈值用于识别所述合成声音信号中的所述声音水印信号中是否有所述至少一码;
根据相关性比值确定所述第二噪声阈值,其中所述相关性比值相关于所述第一相关性及所述第二相关性的和值的绝对值、以及所述第一相关性与所述第二相关性的绝对值中的最大者,且所述第二噪声阈值用于识别所述合成声音信号中的所述声音水印信号中是否为所述至少一码;以及
根据所述第一噪声阈值以及所述第二噪声阈值确定所述编码阈值,其中所述编码阈值相关于所述第一噪声阈值与所述第二噪声阈值的差值、以及所述第二噪声阈值中的最大者,且所述编码阈值用于识别所述合成声音信号中的所述声音水印信号中是否有所述至少一码以及是否为所述至少一码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111371795.3A CN116137152A (zh) | 2021-11-18 | 2021-11-18 | 声音水印的识别方法及声音水印的识别装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111371795.3A CN116137152A (zh) | 2021-11-18 | 2021-11-18 | 声音水印的识别方法及声音水印的识别装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116137152A true CN116137152A (zh) | 2023-05-19 |
Family
ID=86332720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111371795.3A Pending CN116137152A (zh) | 2021-11-18 | 2021-11-18 | 声音水印的识别方法及声音水印的识别装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116137152A (zh) |
-
2021
- 2021-11-18 CN CN202111371795.3A patent/CN116137152A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105814909B (zh) | 用于反馈检测的系统和方法 | |
CN107211063B (zh) | 非线性回波路径检测 | |
JP4922455B2 (ja) | パケット・ネットワークでエコーを検出し、抑制する方法および装置 | |
WO2017052756A1 (en) | Adaptive noise suppression for super wideband music | |
US8615394B1 (en) | Restoration of noise-reduced speech | |
JP6545419B2 (ja) | 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置 | |
WO2005050618A2 (en) | Adaptive beamformer with robustness against uncorrelated noise | |
US9508359B2 (en) | Acoustic echo preprocessing for speech enhancement | |
US8498429B2 (en) | Acoustic correction apparatus, audio output apparatus, and acoustic correction method | |
TW201706984A (zh) | 回音消除裝置以及回音消除方法 | |
US20150318001A1 (en) | Stepsize Determination of Adaptive Filter For Cancelling Voice Portion by Combing Open-Loop and Closed-Loop Approaches | |
US8924206B2 (en) | Electrical apparatus and voice signals receiving method thereof | |
CN116137152A (zh) | 声音水印的识别方法及声音水印的识别装置 | |
US10366701B1 (en) | Adaptive multi-microphone beamforming | |
TWI268093B (en) | Echo cancellers for sparse channels | |
US11955132B2 (en) | Identifying method of sound watermark and sound watermark identifying apparatus | |
US11804237B2 (en) | Conference terminal and echo cancellation method for conference | |
CN111243615B (zh) | 麦克风阵列信号处理方法及手持式装置 | |
CN116486823A (zh) | 声音水印的处理方法及声音水印产生装置 | |
CN110265061B (zh) | 对通话语音进行实时翻译的方法及设备 | |
CN104078049B (zh) | 信号处理设备和信号处理方法 | |
CN115705847A (zh) | 声音水印的处理方法及声音水印生成装置 | |
CN116129919A (zh) | 声音水印的处理方法及声音水印产生装置 | |
TWI790694B (zh) | 聲音浮水印的處理方法及聲音浮水印產生裝置 | |
CN107170461B (zh) | 语音信号处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |