CN116486823A - 声音水印的处理方法及声音水印产生装置 - Google Patents

声音水印的处理方法及声音水印产生装置 Download PDF

Info

Publication number
CN116486823A
CN116486823A CN202210043439.7A CN202210043439A CN116486823A CN 116486823 A CN116486823 A CN 116486823A CN 202210043439 A CN202210043439 A CN 202210043439A CN 116486823 A CN116486823 A CN 116486823A
Authority
CN
China
Prior art keywords
sound signal
watermark
sound
reflected
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210043439.7A
Other languages
English (en)
Inventor
杜博仁
张嘉仁
曾凯盟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Acer Inc
Original Assignee
Acer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Acer Inc filed Critical Acer Inc
Priority to CN202210043439.7A priority Critical patent/CN116486823A/zh
Publication of CN116486823A publication Critical patent/CN116486823A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)

Abstract

本发明实施例提供一种声音水印的处理方法及声音水印产生装置。通过收音器取得通话接收声音信号。根据虚拟反射条件及通话接收声音信号产生反射声音信号。根据水印标识符以及反射声音信号产生第一水印声音信号。根据声音信号间距值以及第一水印声音信号产生第二水印声音信号。合成第一水印声音信号以及第二水印声音信号,以产生输出水印声音信号。

Description

声音水印的处理方法及声音水印产生装置
技术领域
本发明涉及声音信号处理的技术领域,尤其涉及一种声音水印的处理方法及声音水印产生装置。
背景技术
远程会议可让不同位置或空间中的人进行对话,且会议相关设备、协议及应用程序也发展相当成熟。值得注意的是,部分实时会议程序可能会合成语音信号及水印声音信号,并用以识别通话者。
无可避免地,若声音信号受噪声干扰,则接收端判断水印的正确率将下降,进而影响通话传输路径上的声音信号中用户的语音成分。
发明内容
本发明是一种声音水印的处理方法及声音水印产生装置,所产生的水印声音信号可有效对抗噪声,进而提升通话质量。
本发明实施例的声音水印的处理方法适用于会议终端,且会议终端包括收音器。声音水印的处理方法包括(但不仅限于)下列步骤:通过收音器取得通话接收声音信号。根据虚拟反射条件及通话接收声音信号产生反射声音信号。这虚拟反射条件包括收音器、声源及外界物体之间的位置关系,且反射声音信号是仿真声源所发出声音经外界物体反射并通过收音器所录音得到的声音信号。根据水印标识符以及反射声音信号产生第一水印声音信号。根据声音信号间距值以及第一水印声音信号产生第二水印声音信号。这声音信号间距值是根据反射声音信号的高低频声音比重所决定,且声音信号间距值相关于位置关系下声源所发出声音分别经二外界物体反射并到达收音器的二反射距离之间的距离差值。合成第一水印声音信号以及第二水印声音信号,以产生输出水印声音信号。
根据本发明的实施例,本发明实施例的声音水印产生装置包括(但不仅限于)存储器及处理器。存储器用以存储程序代码。处理器耦接存储器。处理器经配置用以加载且执行程序代码以取得通话接收声音信号,根据虚拟反射条件及通话接收声音信号产生反射声音信号。这虚拟反射条件包括收音器、声源及外界物体之间的位置关系,且反射声音信号是仿真声源所发出声音经外界物体反射并通过收音器所录音得到的声音信号。根据水印标识符以及反射声音信号产生第一水印声音信号。根据声音信号间距值以及第一水印声音信号产生第二水印声音信号。这声音信号间距值是根据反射声音信号的高低频声音比重所决定,且声音信号间距值相关于位置关系下声源所发出声音分别经二外界物体反射并到达收音器的二反射距离之间的距离差值。合成第一水印声音信号以及第二水印声音信号,以产生输出水印声音信号。
基于上述,根据本发明实施例的声音水印的处理方法及声音水印产生装置,基于通话接收声音信号的高低频声音比重决定所欲仿真的两反射声音信号之间的声音信号间距值,并据以产生两水印声音信号。藉此,通过输出合成的两水印声音信号,可降低整体水印声音信号的功率,并提高判断水印标识符的正确率。
附图说明
包含附图以便进一步理解本发明,且附图并入本说明书中并构成本说明书的一部分。附图说明本发明的实施例,并与描述一起用于解释本发明的原理。
图1是根据本发明一实施例的会议通话系统的示意图;
图2是根据本发明一实施例的声音水印的处理方法的流程图;
图3是根据本发明一实施例的声音水印的产生方法的流程图;
图4是根据本发明一实施例说明虚拟反射条件的示意图;
图5是根据本发明一实施例说明水印识别的流程图;
图6A是一范例说明通话接收声音信号的仿真图;
图6B是一范例说明传输噪声的仿真图。
附图标号说明
10、20:会议终端;
50:云端服务器;
11、21:收音器;
13、23:扬声器;
15、25、55:通信收发器;
17、27、57:存储器;
19、29、59:处理器;
70:声音水印产生装置;
S210~S290、S310~S330、S510~S595:步骤;
SRx:通话接收声音信号;
STx:通话传送声音信号;
SWM、S’WM、S”WM:水印声音信号;
SRx+SWM:嵌入水印信号;
ΔnA:声音信号间距值;
S’Rx、S”Rx反射声音信号;
W1、W2:墙;
ds、dw1、dw2:距离;
SS:音源;
WE:水印标识符;
SA传送声音信号;
HPF:高通滤波处理;
LPF:低通滤波处理。
具体实施方式
现将详细地参考本发明的示范性实施例,示范性实施例的实例说明于附图中。只要有可能,相同组件符号在附图和描述中用来表示相同或相似部分。
图1是根据本发明一实施例的会议通话系统1的示意图。请参照图1,语音通讯系统1包括但不仅限于会议终端10,20及云端服务器50。
会议终端10,20可以是有线电话、移动电话、网络电话、平板计算机、台式计算机、笔记本电脑或智能喇叭。
会议终端10包括(但不仅限于)收音器11、扬声器13、通信收发器15、存储器17及处理器19。
收音器11可以是动圈式(dynamic)、电容式(Condenser)、或驻极体电容(ElectretCondenser)等类型的麦克风,收音器11也可以是其他可接收声波(例如,人声、环境声、机器运作声等)而转换为声音信号的电子组件、模拟至数字转换器、滤波器、及音频处理器的组合。在一实施例中,收音器11用以对发话者收音/录音,以取得通话接收声音信号。在一些实施例中,这通话接收声音信号可能包括发话者的声音、扬声器13所发出的声音和/或其他环境音。
扬声器13可以是喇叭或扩音器。在一实施例中,扬声器13用以播放声音。
通信收发器15例如是支持以太网络(Ethernet)、光纤网络、或电缆等有线网络的收发器(其可能包括(但不仅限于)连接接口、信号转换器、通讯协议处理芯片等组件),也可能是支持Wi-Fi、第四代(4G)、第五代(5G)或更后世代行动网络等无线网络的收发器(其可能包括(但不仅限于)天线、数字至模拟/模拟至数字转换器、通讯协议处理芯片等组件)。在一实施例中,通信收发器15用以传送或接收数据。
存储器17可以是任何型态的固定或可移动随机存取存储器(Radom AccessMemory,RAM)、只读存储器(Read Only Memory,ROM)、闪存(flash memory)、传统硬盘(HardDisk Drive,HDD)、固态硬盘(Solid-State Drive,SSD)或类似组件。在一实施例中,存储器17用以存储程序代码、软件模块、组态配置、数据(例如,声音信号、水印标识符、或水印声音信号)或文件。
处理器19耦接收音器11、扬声器13、通信收发器15及存储器17。处理器19可以是中央处理单元(Central Processing Unit,CPU)、图形处理单元(Graphic Processing unit,GPU),或是其他可程序化的一般用途或特殊用途的微处理器(Microprocessor)、数字信号处理器(Digital Signal Processor,DSP)、可程序化控制器、现场可程序化逻辑门阵列(Field Programmable Gate Array,FPGA)、特殊应用集成电路(Application-SpecificIntegrated Circuit,ASIC)或其他类似组件或上述组件的组合。在一实施例中,处理器19用以执行所属会议终端10的所有或部份作业,且可加载并执行存储器17所存储的各软件模块、文件及数据。
会议终端20包括(但不仅限于)收音器21、扬声器23、通信收发器25、存储器27及处理器29。收音器21、扬声器23、通信收发器25、存储器27及处理器29的实施方式及功能可参酌前述针对收音器11、扬声器13、通信收发器15、存储器17及处理器19的说明,于此不再赘述。而处理器29用以执行所属会议终端20的所有或部份作业,且可加载并执行存储器27所存储的各软件模块、文件及数据。
云端服务器50经由网络直接或间接连接会议终端10,20。云端服务器50可以是计算机系统、服务器或信号处理装置。在一实施例中,会议终端10,20也可作为云端服务器50。在另一实施例中,云端服务器50可作为不同于会议终端10,20的独立云端服务器。在一些实施例中,云端服务器50包括(但不仅限于)相同或相似的通信收发器55、存储器57及处理器59,且组件的实施方式及功能将不再赘述。
在一实施例中,声音水印产生装置70可以是会议终端10,20或云端服务器50。声音水印产生装置70用以产生水印声音信号,并待后续实施例详述。
下文中,将搭配会议通讯系统1中的各项装置、组件及模块说明本发明实施例所述的方法。本方法的各个流程可依照实施情形而调整,且并不仅限于此。
另需说明的是,为了方便说明,相同组件可实现相同或相似的操作,且将不再赘述。例如,会议终端10的处理器19、会议终端20的处理器19和/或云端服务器50的处理器59皆可实现本发明实施例相同或相似的方法。
图2是根据本发明一实施例的声音水印的处理方法的流程图。请参照图2,处理器29通过收音器21录制以取得通话接收声音信号SRx(步骤S210)。具体而言,假设会议终端10,20建立通话会议。例如,通过视频软件、语音通话软件或拨打电话等方式建立会议,发话者即可开始说话。经收音器21录音/收音后,处理器29可取得通话接收声音信号SRx。这通话接收声音信号SRx相关于会议终端20对应的发话者的语音内容(还可能包括环境声音或其他噪声)。会议终端20的处理器29可通过通信收发器25(即,经由网络接口)传送通话接收声音信号SRx。在一些实施例中,通话接收声音信号SRx可能经回音消除、噪声滤波和/或其他声音信号处理。
云端服务器50的处理器59通过通信收发器55接收来自会议终端20的通话接收声音信号SRx。处理器59根据虚拟反射条件及通话接收声音信号产生反射声音信号S’Rx(步骤S230)。具体而言,一般的回音消除算法能适应性地消除收音器11,21自外部收到的声音信号中的属于参考信号的成分(例如,通话接收路径的通话接收声音信号SRx)。这收音器11,21所录制的声音包括自扬声器13,23到收音器11,21最短路径以及环境的不同反射路径(即,声音经外部物体反射所形成的路径)。反射的位置影响声音信号的时间延迟和衰减振福。此外,反射的声音信号也可能来自不同方向,进而导致相位偏移。在本发明实施例中,利用已知的通话接收路径的声音信号SRx来产生能被回音消除机制消除的虚拟/仿真反射声音信号,并据以产生水印声音信号SWM
在一实施例中,处理器59可根据位置关系决定反射声音信号S’Rx相较于通话接收声音信号SRx的时间延迟及振幅衰减。举例而言,图4是根据本发明一实施例说明虚拟反射条件的示意图。请参照图4,假设虚拟反射条件为二面墙(即,二外界物体),在收音器21与音源SS之间的距离为ds(例如,0.3、0.5或0.8米)且收音器21与墙W1之间的距离为dw1(例如,1、1.5或2米)的条件下,第一反射声音信号S’Rx与通话接收声音信号SRx的关系可表示如下:
s′Rx(n)=α1·sRx(n-nw1)…(1)
其中α1为第一反射(即,声音信号受墙W1阻挡的反射)造成的振幅衰减,n为取样点或时间,nw1为第一反射距离(即,自音源SS经过墙W1并到达收音器21的距离)造成的时间延迟。
请参照图2,处理器59根据水印标识符以及反射声音信号产生第一水印声音信号(步骤S250)。具体而言,处理器59根据水印标识符偏移反射声音信号的相位,以产生第一水印声音信号。一般回音消除机制运作时,相较于反射的声音信号相位偏移,反射的声音信号的时间延迟和振幅的变化对回音消除机制的误差影响比较大。这变化如同处于一个全新的干扰环境,并使得回音消除机制需要重新适应。因此,本发明实施例的水印标识符中的不同值所对应到的第一水印声音信号,仅有相位差异,但其时间延迟和振幅相同。即,第一水印声音信号包括一个或更多个经相位偏移的反射声音信号。
在一实施例中,处理器59可选择滤波器,以产生经滤波处理的反射声音信号。具体而言,一般回音消除机制处理低频(例如,2千赫兹(kHz)或3kHz以下)声音信号的收敛速度较慢,但处理高频声音信号(例如,3kHz或4kHz以上)的收敛速度较快(例如,10毫秒(ms)以下)。因此,处理器59可仅根据水印标识符偏移通过高通滤波处理(例如,仅允许频率为3kHz、4kHz以上的声音信号通过)的反射声音信号(例如,前述第一反射声音信号)的相位,并使得信号的干扰不易被人察觉(即,高频声音信号的频率在人类听觉范围以外)。
在另一实施例中,处理器59也可不对反射声音信号进行特定频率的滤波处理。
在一实施例中,水印标识符是以多进位制编码,且这多进位制在水印标识符的一个或更多个位中的每一者提供多个值。以二进制制为例,水印标识符中的每一个位的值可以是“0”或“1”。以十六进制制为例,水印标识符中的每一个位的值可以是“0”、“1”、“2”、…、“E”、“F”。在另一实施例中,水印标识符是以字母、文字和/或符号编码。例如,水印标识符中的每一个位的值可以是英文“A”~“Z”中的任一者。
在一实施例中,水印标识符的各位上的那些不同的值对应不同的相位偏移。例如,假设水印标识符WO是N进位制(N为正整数),则针对各位可提供N个值。这N个不同值分别对应到不同相位偏移又例如,假设水印标识符WO是二进制制,则针对各位可提供2个值(即,1和0)。这2个不同值分别对应到两相位偏移/>例如,相位偏移/>为90°,且相位偏移/>为-90°(即,-1)。
处理器59可根据水印标识符中的一个或更多位的值偏移(通过或未通过高通滤波处理的)反射声音信号的相位。以N进位制为例,处理器59根据水印标识符中的一个或多个值选择相位偏移中的一或更多者,并使用受选相位偏移/>的进行相位偏移。例如,水印标识符的第一个位上的值为1,则所输出的经相位偏移的反射声音信号/>相对于反射声音信号偏移/>其余反射声音信号/>可依此类推。而相位偏移可采用希尔伯转换(Hilbert transform)或其他相位偏移算法达成。
在一实施例中,若对反射声音信号采用滤波处理,则处理器59可更合成一个或更多个经相位偏移的反射声音信号及通过低通滤波处理(例如,仅允许频率为4kHz以下的声音信号通过)的反射声音信号(例如,第一反射声音信号),以产生第一水印声音信号。在另一实施例中,若未对反射声音信号采用滤波处理,则处理器59可将一个或更多个经相位偏移的反射声音信号作为第一水印声音信号。
请参照图2,处理器59根据声音信号间距值以及第一水印声音信号产生第二水印声音信号(步骤S270)。具体而言,这第二水印声音信号是对应于前述第一反射声音信号的另一个反射声音信号(下文称第二反射声音信号),并相关于二反射声音信号之间的时间延迟的差异。以图4为例,假设第一反射声音信号S’Rx是仿真经墙W1反射的声音信号,则第二反射声音信号S″Rx是仿真经墙W2反射的声音信号。在收音器21与另一墙W2之间的距离为dw2(例如,1、1.5或2米)的条件下,第二反射声音信号S″Rx与通话接收声音信号SRx的关系可表示如下:
S″Rx(n)=α2·SRx(n-nw2)…(2)
其中α2为第二反射(即,声音信号受墙W2阻挡的反射)造成的振幅衰减,n为取样点或时间,nw2为第二反射距离(即,自音源SS经过墙W2并到达收音器21的距离)造成的时间延迟。也就是说,两反射声音信号是分别仿真经二外界物体反射的声音信号。
值得注意的是,第二反射距离所造成的时间延迟与第一反射距离所造成的时间延迟之间的差值(或是声音信号经二外界物体反射的传递时间之间的差异)(即,声音信号间距值Δn)可表示如下:
Δn=nw2-nw1…(3)
声音延迟的主要原因在于声音信号的传递距离。因此,声音信号间距值也相关于,在所设定的虚拟反射条件的位置关系下,声源SS所发出声音分别经二外界物体(例如,墙W1、W2)反射并到达收音器21的二反射距离之间的距离差值。
假设声音信号间距值Δn远小于任一反射信号所对应的时间延迟(例如,Δn<<nw1),则二两反射距离(例如,第一反射距离及第二反射距离)几乎相等或完全相等,且二反射声音信号(例如,第一反射声音信号及第二反射声音信号)的振幅衰减也应几乎相等或完全相等(例如,)。因此,二反射声音信号经叠加/合成后的低频部分相消,从而降低整体水印声音信号的功率,进而让使用者难以感知外加的水印声音信号。
值得注意的是,通话接收声音信号SRx可能时间而变化。经实验发现,若声音信号间距值Δn可随通话接收声音信号SRx的变化而适当的改变,则有助于对抗噪声干扰。在本发明实施例中,声音信号间距值是根据反射声音信号(例如,第一反射声音信号)的高低频声音比重所决定。
在一实施例中,处理器59于产生反射声音信号之后,处理器59对反射声音信号进行低通滤波处理以产生低频声音信号。此外,处理器59对反射声音信号进行高通滤波处理,以产生高频声音信号。高低频声音比重是低频声音信号与高频声音信号间之间的功率比重。
图3是根据本发明一实施例的声音水印SWM的产生方法的流程图。请参照图3,处理器59根据反射声音信号中的低频声音信号(例如,2kHz以下的声音信号)与高频声音信号/>(例如,2kHz以上的声音信号)决定声音信号间距值Δn(步骤S310)。在一实施例中,若高频声音信号/>的功率未小于低频声音信号/>的功率,则处理器59可将声音信号间距值Δn设定为第一值;若高频声音信号/>的功率小于低频声音信号/>的功率,则处理器59可将声音信号间距值则处理器59可设定为第二值,其中第一值大于第二值。
例如,当通话接收声音信号SRx中的高频声音信号的功率未小于其低频声音信号/>时,声音信号间距值Δn设定为5(即,第一值)。此外,当通话接收声音信号SRx中的高频声音信号/>的功率小于其低频声音信号/>时,声音信号间距值Δn设定为4(即,第二值)。声音信号间距值Δn、低频声音信号/>及高频声音信号/>之间的关系可表示如下:
为通话接收声音信号SRx的高频声音信号/>功率,/>为通话接收声音信号SRx的低频声音信号功率。也就是说,高低频声音比重为/>或/>此外,由于反射声音信号是反应于通话接收声音信号,因此通话接收声音信号的变化也改变反射声音信号,且声音信号间距值Δn也要动态改变。经实验证明,动态间距有助于提升水印识别的正确性。另须说明的是,第一值及第二值的数值仍可根据实际需求而改变,且本发明实施例不加以限制。
请参照图3,处理器59根据声音信号间距Δn以及第一水印声音信号S′WM产生第二水印声音信号S″WM(步骤S330)。具体而言,第二水印声音信号S″WM与第一水印声音信号S′WM相位相反且具有上述虚拟反射条件下的声音信号间距值Δn,其关系可表示如下:
S″WM(n)=-S′WM(n-Δn)…(5)
也就是说,第二水印声音信号S″WM是反相且具有时间延迟为Δn的第一水印声音信号S′WM
请参照图2与图3,处理器59合成第一水印声音信号S′WM以及第二水印声音信号S″WM,以产生输出水印声音信号SWM(步骤S290)。在一实施例中,处理器59更合成输出水印声音信号SWM与通话接收声音信号SRx,以产生嵌入水印信号SRx+SWM,并通过通信收发器55传送这嵌入水印信号SRx+SWM。在另一实施例中,处理器59分别通过通信收发器55传送输出水印声音信号SWM及通话接收声音信号SRx
会议终端10的处理器19通过通信收发器15经由网络接收水印声音信号SWM或嵌入水印信号SRx+SWM,以取得传送声音信号SA(即,经传送的水印声音信号SWM或嵌入水印信号SRx+SWM)。由于水印声音信号SWM包括经时间延迟及衰减振幅的通话接收声音信号(即,反射声音信号),因此处理器19的回音消除机制即可有效消除水印声音信号SWM。藉此,可不影响通讯传输路径上的通话传送声音信号STx(例如,会议终端10所欲经由网络传送的通话接收声音信号)。
针对水印声音信号SWM的识别,图5是根据本发明一实施例说明水印识别的流程图。请参照图5,在一实施例中,处理器19可使用与前述相同或相似的高通滤波处理HPF对传送声音信号SA进行高通滤波处理(步骤S510),以输出通过高通滤波处理的传送声音信号在另一实施例中,若传送端未采用与滤波处理,则可忽略步骤S510(即,传送声音信号等同于传送声音信号SA)。在一实施例中,处理器可使用与前述相同或相似的低通滤波处理LPF对传送声音信号SA进行低通滤波处理(步骤S530),以输出通过低通滤波处理的传送声音信号/>
请参照图6,处理器19偏移传送声音信号SA的相位,以产生第一偏移声音信号(步骤S550)。须说明的是,本实施例以二进制编码的水印标识符为例(即,仅提供两个值),且这两个值分别对应于例如是相位偏移90°及-90°。然而,若采用其他编码,则可能有不同相位偏移。接着,处理器19根据通过低通滤波处理LPF的传送声音信号/>估测声音信号间距值ΔnA(步骤S570)。须说明的是,若传送端采用滤波处理且仅对高频声音信号基于水印标识符编码,则表示低讯声音信号未受水印标识符影响并有助于估测声音信号间距值ΔnA
在一实施例中,处理器19可根据传送声音信号在不同时间延迟下的相关性估测声音信号间距值ΔnA。例如,处理器19通过倒频谱(auto-cepstrum)函数(例如,例如,梅尔频率倒谱系数(Mel-Frequency Cepstrum Coefficient、MFCC)或线性预测倒谱系数(Linear Prediction Cepstrum Coefficient、LPCC))或其他自相关函数测量通过低通滤波处理LPF的传送声音信号/>的局部极大值(Local Maximum)所对应的声音信号间距值ΔnA。例如,声音信号间距值ΔnA为3或4。
处理器19根据第一偏移声音信号以及估测的声音信号间距值ΔnA产生第二偏移声音信号/>(步骤S590)。关于第二偏移声音信号/>与第一偏移声音信号/>的关系可表示如下:
即,第二偏移声音信号是经时间延迟为Δn的第一偏移声音信号/>
处理器19可根据判断第一偏移声音信号以及传送声音信号(SA或/>)之间的相关性(即,第一相关性),且判断第二偏移声音信号/>以及传送声音信号(SA或/>)之间的相关性(即,第二相关性),以得出相关系数。例如,处理器19将第一偏移声音信号及传送声音信号(SA或/>)计算交叉相关以得出第一相关性/>且将第二偏移声音信号/>及传送声音信号(SA或/>)计算交叉相关以得出第二相关性/>处理器19将第一相关性/>与第二相关性/>相减以得出相关系数/>而相关系数/>可表示如下:
处理器19可根据相关系数识别水印标识符(步骤S595)。例如,若处理器19定义门坎值ThR(例如,0.3、0.5或0.7),则所识别的水印标识符WE可表示为:
即,若相关系数高于门坎值ThR,则处理器19判断这位的值是对应于相位偏移90°的值(例如,1);若相关系数/>低于门坎值ThR,则处理器19判断这位的值是对应于相位偏移-90°的值(例如,0)。
以下再辅以实验说明。图6A是一范例说明通话接收声音信号SRx的仿真图。请参照图6A,假设通话接收声音信号SRx的前半段为白噪声(white noise)声音信号,且后半段为粉红噪声(pink noise)声音信号。另一方面,图6B是一范例说明传输噪声NT的仿真图。请参照图6B,假设传输过程输出的声音信号(例如,嵌入水印信号SRx+SWM或输出水印声音信号SWM)有所衰减。这衰减特性为0≤αT≤1(例如,αT=0.5或0.3)并受传输噪声NT的干扰(例如,另一个白噪声声音信号)。若传输噪声NT的功率PN越大,则接收端判断水印标识符的难度就越大。例如,图6B所示的传输噪声NT整段都为白噪声声音信号,且功率PN等于通话接收声音信号SRx的功率(即,相同于通话接收声音信号SRx的前半段)。经实验证明,若采用动态的声音信号间距值,则水印标识符的识别结果可完全正确。例如,水印声音信号的交叉相关与非水印声音信号的交叉相关比值为9.56。这比值越高代表识别的接收范围越大且识别结果越准确。
综上所述,在本发明实施例的声音水印的处理方法及声音水印产生装置中,根据声音信号中的高频声音信号与低频声音信号之间的功率比重动态决定所欲仿真的两反射声音信号之间的声音信号间距值,并基于声音信号间距值产生对应于两反射声音信号的两水印声音信号。藉此,可降低整体水印声音信号的功率,且提高水印标识符的识别正确率。
虽然本发明已以实施例揭示如上,然其并非用以限定本发明,任何所属技术领域中技术人员,在不脱离本发明的精神和范围内,当可作些许的更改与润饰,故本发明的保护范围当视后附的申请权利要求所界定的为准。

Claims (14)

1.一种声音水印的处理方法,适用于会议终端,所述会议终端包括收音器,其特征在于,所述声音水印的处理方法包括:
通过所述收音器取得通话接收声音信号;
根据虚拟反射条件及所述通话接收声音信号产生反射声音信号,其中所述虚拟反射条件包括所述收音器、声源与二外界物体之间的位置关系,且所述反射声音信号是仿真所述声源所发出声音经一所述外界物体反射并通过所述收音器所录音得到的声音信号;
根据水印标识符以及所述反射声音信号产生第一水印声音信号;
根据声音信号间距值以及所述第一水印声音信号产生第二水印声音信号,所述声音信号间距值是根据所述反射声音信号的高低频声音比重所决定,且所述声音信号间距值相关于所述位置关系下所述声源所发出声音分别经所述二外界物体反射并到达所述收音器的二反射距离之间的距离差值;以及
合成所述第一水印声音信号以及所述第二水印声音信号,以产生输出水印声音信号。
2.根据权利要求1所述的声音水印的处理方法,其特征在于,根据所述虚拟反射条件及所述通话接收声音信号产生所述反射声音信号的步骤之后,还包括:
对所述反射声音信号进行低通滤波处理,以产生低频声音信号;以及
对所述反射声音信号进行高通滤波处理,以产生高频声音信号,所述高低频声音比重是所述低频声音信号与所述高频声音信号间之间的功率比重。
3.根据权利要求2所述的声音水印的处理方法,其特征在于,根据所述声音信号间距值以及所述第一水印声音信号产生所述第二水印声音信号的步骤包括:
反应于所述高频声音信号的功率未小于所述低频声音信号的功率,将所述声音信号间距值设定为第一值;以及
反应于所述高频声音信号的功率小于所述低频声音信号的功率,将所述声音信号间距值设定为第二值,所述第一值大于所述第二值。
4.根据权利要求2所述的声音水印的处理方法,其特征在于,根据所述水印标识符以及所述反射声音信号产生所述第一水印声音信号的步骤步骤包括:
仅根据所述水印标识符偏移通过所述高通滤波处理的所述反射声音信号的相位;以及
合成至少一经相位偏移的反射声音信号及通过所述低通滤波处理的所述反射声音信号,以产生所述第一水印声音信号。
5.根据权利要求4所述的声音水印的处理方法,其特征在于,还包括:
经由网络接收传送声音信号,所述传送声音信号包括经传送的所述输出水印声音信号;
偏移所述传送声音信号的相位,以产生第一偏移声音信号;
根据通过所述低通滤波处理的所述传送声音信号估测所述声音信号间距值;
根据所述第一偏移声音信号以及估测的声音信号间距值产生第二偏移声音信号;以及
根据第一相关性以及第二相关性识别所述水印标识符,所述第一相关性是所述第一偏移声音信号与所述传送声音信号之间的相关性,且所述第二相关性是所述第二偏移声音信号与所述传送声音信号之间的相关性。
6.根据权利要求5所述的声音水印的处理方法,其特征在于,识别所述水印标识符的步骤之前,还包括:
对所述传送声音信号进行所述高通滤波处理,
所述第一相关性是所述第一偏移声音信号与通过所述高通滤波处理的所述传送声音信号之间的相关性,且所述第二相关性是所述第二偏移声音信号与通过所述高通滤波处理的所述传送声音信号之间的相关性。
7.根据权利要求1所述的声音水印的处理方法,其特征在于,根据所述虚拟反射条件及所述通话接收声音信号产生所述反射声音信号的步骤包括:
根据所述声源与每一所述外界物体的所述位置关系决定所述反射声音信号相较于所述通话接收声音信号的时间延迟及振幅衰减,
所述声音信号间距值是所述二外界物体对应的所述时间延迟之间的差值。
8.一种声音水印产生装置,包括:
存储器,用以存储程序代码;以及
处理器,耦接所述存储器,并经配置用以加载且执行所述程序代码以:
通过收音器取得通话接收声音信号;
根据虚拟反射条件及所述通话接收声音信号产生反射声音信号,所述虚拟反射条件包括所述收音器、声源与二外界物体之间的位置关系,且所述反射声音信号是仿真所述声源所发出声音经一所述外界物体反射并通过所述收音器所录音得到的声音信号;
根据水印标识符以及所述反射声音信号产生第一水印声音信号;
根据声音信号间距值以及所述第一水印声音信号产生第二水印声音信号,所述声音信号间距值是根据所述反射声音信号的高低频声音比重所决定,且所述声音信号间距值相关于所述位置关系下所述声源所发出声音分别经所述二外界物体反射并到达所述收音器的二反射距离之间的距离差值;以及
合成所述第一水印声音信号以及所述第二水印声音信号,以产生输出水印声音信号。
9.根据权利要求8所述的声音水印产生装置,其特征在于,所述处理器还经配置用以:
对所述反射声音信号进行低通滤波处理,以产生低频声音信号;以及
对所述反射声音信号进行高通滤波处理,以产生高频声音信号,所述高低频声音比重是所述低频声音信号与所述高频声音信号间之间的功率比重。
10.根据权利要求9所述的声音水印产生装置,其特征在于,所述处理器还经配置用以:
反应于所述高频声音信号的功率未小于所述低频声音信号的功率,将所述声音信号间距值设定为第一值;以及
反应于所述高频声音信号的功率小于所述低频声音信号的功率,将所述声音信号间距值设定为第二值,所述第一值大于所述第二值。
11.根据权利要求9所述的声音水印产生装置,其特征在于所述处理器还经配置用以:
仅根据所述水印标识符偏移通过所述高通滤波处理的所述反射声音信号的相位;
合成至少一经相位偏移的反射声音信号及通过所述低通滤波处理的所述反射声音信号,以产生所述第一水印声音信号。
12.根据权利要求10所述的声音水印产生装置,其特征在于,所述处理器还经配置用以:
经由网络接收传送声音信号,所述传送声音信号包括经传送的所述输出水印声音信号;
偏移所述传送声音信号的相位,以产生第一偏移声音信号;
根据通过所述低通滤波处理的所述传送声音信号估测所述声音信号间距值;
根据所述第一偏移声音信号以及估测的声音信号间距值产生第二偏移声音信号;
根据第一相关性以及第二相关性识别所述水印标识符,所述第一相关性是所述第一偏移声音信号与所述传送声音信号之间的相关性,且所述第二相关性是所述第二偏移声音信号与所述传送声音信号之间的相关性。
13.根据权利要求12所述的声音水印产生装置,其特征在于,所述处理器还经配置用以:
对所述传送声音信号进行所述高通滤波处理,
所述第一相关性是所述第一偏移声音信号与通过所述高通滤波处理的所述传送声音信号之间的相关性,且所述第二相关性是所述第二偏移声音信号与通过所述高通滤波处理的所述传送声音信号之间的相关性。
14.根据权利要求8所述的声音水印产生装置,其特征在于,所述处理器还经配置用以:
根据所述声源与每一所述外界物体的所述位置关系决定所述反射声音信号相较于所述通话接收声音信号的时间延迟及振幅衰减,
所述声音信号间距值是所述二外界物体对应的所述时间延迟之间的差值。
CN202210043439.7A 2022-01-14 2022-01-14 声音水印的处理方法及声音水印产生装置 Pending CN116486823A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210043439.7A CN116486823A (zh) 2022-01-14 2022-01-14 声音水印的处理方法及声音水印产生装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210043439.7A CN116486823A (zh) 2022-01-14 2022-01-14 声音水印的处理方法及声音水印产生装置

Publications (1)

Publication Number Publication Date
CN116486823A true CN116486823A (zh) 2023-07-25

Family

ID=87216458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210043439.7A Pending CN116486823A (zh) 2022-01-14 2022-01-14 声音水印的处理方法及声音水印产生装置

Country Status (1)

Country Link
CN (1) CN116486823A (zh)

Similar Documents

Publication Publication Date Title
CN107211063B (zh) 非线性回波路径检测
US9363596B2 (en) System and method of mixing accelerometer and microphone signals to improve voice quality in a mobile device
RU2648604C2 (ru) Способ и аппаратура для генерации сигнала речи
JP5085556B2 (ja) エコー除去の構成
CN103238182B (zh) 具有远程噪声检测器的降噪系统
CN105814909B (zh) 用于反馈检测的系统和方法
TWI426767B (zh) 具有改進性能的電話機及在其中處理音頻信號的方法
JP2018528479A (ja) スーパー広帯域音楽のための適応雑音抑圧
US9491545B2 (en) Methods and devices for reverberation suppression
JP6545419B2 (ja) 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
JP2019512738A (ja) オーディオ信号復号
US20170365249A1 (en) System and method of performing automatic speech recognition using end-pointing markers generated using accelerometer-based voice activity detector
JP2011515881A (ja) パケット・ネットワークでエコーを検出し、抑制する方法および装置
WO2014000476A1 (zh) 移动终端语音降噪的方法及装置
US20140365212A1 (en) Receiver Intelligibility Enhancement System
JPH09233198A (ja) 全二重音声会議電話のためのソフトウエアベースのブリッジ方法及び装置
TWI790718B (zh) 會議終端及用於會議的回音消除方法
CN116486823A (zh) 声音水印的处理方法及声音水印产生装置
TWI806299B (zh) 聲音浮水印的處理方法及聲音浮水印產生裝置
TWI790694B (zh) 聲音浮水印的處理方法及聲音浮水印產生裝置
CN115705847A (zh) 声音水印的处理方法及声音水印生成装置
TWI837542B (zh) 聲音浮水印的辨識方法及聲音浮水印的辨識裝置
JP6111795B2 (ja) 信号処理装置、及び信号処理方法
WO2017171864A1 (en) Acoustic environment understanding in machine-human speech communication
CN116137152A (zh) 声音水印的识别方法及声音水印的识别装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination