CN115035903B

CN115035903B - 一种物理语音水印的注入方法、语音溯源方法及装置

Info

Publication number: CN115035903B
Application number: CN202210952992.2A
Authority: CN
Inventors: 王滨; 李超豪; 王星; 陈加栋; 张峰
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2022-08-10
Filing date: 2022-08-10
Publication date: 2022-12-06
Anticipated expiration: 2042-08-10
Also published as: CN115035903A

Abstract

本发明实施例提供了一种物理语音水印的注入方法、语音溯源方法及装置，涉及语音隐私安全技术领域，该物理语音水印的注入方法包括：确定与目标场景的物理语音相匹配的声音信号，作为物理语音水印信号；按照预设播放策略，在目标场景中播放物理语音水印信号，以使在目标场景中存在录音设备的情况下，录音设备所录制的语音为叠加语音；其中，叠加语音为物理语音与物理语音水印信号播放后的语音叠加后的语音；记录物理语音水印信号的指定信息。通过本方案为已嵌入物理语音水印信号的语音进行溯源提供了实现基础，进而实现对目标场景内录音设备所录制的语音的溯源。

Description

一种物理语音水印的注入方法、语音溯源方法及装置

技术领域

本发明涉及语音隐私安全技术领域，特别是涉及一种物理语音水印的注入方法、语音溯源方法及装置。

背景技术

为了保护语音的版权，语音版权方可以在语音中注入水印，相关技术中的水印注入方法，是在生成语音的对应的音频数据后，在音频数据传输过程中，将水印写入语音对应的音频数据。

然而，对于通过录音设备恶意窃听、录音所得到的语音而言，被窃听方往往很难对非法录制的语音进行水印的注入，导致无法对非法录制的语音进行溯源，因此，如何对录音设备所录制的语音进行溯源是亟待解决的问题。

发明内容

本发明实施例的目的在于提供一种物理语音水印的注入方法、语音溯源方法及装置，以实现对录音设备所录制的语音进行物理语音水印的注入，进而基于注入的物理语音水印实现语音的溯源。具体技术方案如下：

第一方面，本发明实施例提供了一种物理语音水印的注入方法，该方法包括：

确定与目标场景的物理语音相匹配的声音信号，作为物理语音水印信号；

按照预设播放策略，在所述目标场景中播放所述物理语音水印信号，以使在所述目标场景中存在录音设备的情况下，所述录音设备所录制的语音为叠加语音；其中，所述叠加语音为所述物理语音与所述物理语音水印信号播放后的语音叠加后的语音；

记录所述物理语音水印信号的指定信息；其中，所述指定信息包括所述物理语音水印信号的信号特征，和/或所述物理语音水印信号的播放信息。

可选的，在所述按照预设播放策略，在所述目标场景中播放所述物理语音水印信号之前，所述方法还包括：

将所述物理语音水印信号调制到指定频段，得到调制后的所述物理语音水印信号；

所述按照预设播放策略，在所述目标场景中播放所述物理语音水印信号，包括：

按照预设播放策略，在所述目标场景中播放调制后的所述物理语音水印信号。

可选的，所述指定频段为超声波频段。

可选的，所述按照预设播放策略，在所述目标场景中播放所述物理语音水印信号，包括：

在所述目标场景中，多次播放所述物理语音水印信号；

此时，所述播放信息包括：所述物理语音水印信号的间隔时长序列，其中，所述间隔时长序列为所述物理语音水印信号播放间隔时长所组成的时长序列。

可选的，所述在所述目标场景中，多次播放所述物理语音水印信号，包括：

在所述目标场景中，播放一次所述物理语音水印信号；

确定本次播放完成后的播放间隔时长；

在本次所述物理语音水印信号播放完成后，等待所确定的播放间隔时长，并返回执行所述在所述目标场景中，播放一次所述物理语音水印信号的步骤。

可选的，所述确定本次播放完成后的播放间隔时长，包括：

随机生成一间隔时长，作为本次播放完成后的播放间隔时长；或，

从指定的间隔时长序列中选取一间隔时长，作为本次播放完成后的播放间隔时长。

可选的，所述从指定的间隔时长序列中选取一间隔时长，作为本次播放完成后的播放间隔时长，包括：

按照指定的间隔时长序列中各间隔时长的排序，从所述各间隔时长中选取一间隔时长，作为本次播放完成后的播放间隔时长；或者，

从指定的间隔时长序列中各间隔时长，随机选取一间隔时长，作为本次播放完成后的播放间隔时长。

可选的，所述指定的间隔时长序列为随机生成的间隔时长序列。

可选的，所述确定与目标场景的物理语音相匹配的声音信号，作为物理语音水印信号，包括：

在目标场景满足预设的声音水印注入需求时，确定与所述目标场景的物理语音相匹配的声音信号，作为物理语音水印信号。

可选的，所述目标场景满足预设的声音水印注入需求，包括：

接收到针对所述目标场景的声音水印注入指令；和/或，

检测到所述目标场景中的物理语音满足指定语音条件。

可选的，所述检测到所述目标场景中的物理语音满足指定语音条件，包括：

检测到所述目标场景中的物理语音中包含指定对象的声音信号；和/或，

基于所述目标场景中的物理语音，检测到所述目标场景为指定场景。

可选的，采用如下方式确定目标场景是否为指定场景，包括：

将所述目标场景中的物理语音输入到预先训练的场景分类模型中，得到所述场景分类模型输出的场景类型；确定所得到的场景类型是否为指定场景所属的指定类型，若是，则确定所述目标场景为所述指定场景，否则确定所述目标场景不是所述指定场景；或，

检测所述目标场景中的物理语音中是否包含指定词汇，若是，则确定所述目标场景为所述指定场景，否则确定所述目标场景不是所述指定场景。

可选的，所述确定与目标场景的物理语音相匹配的声音信号，包括：

基于所述目标场景的物理语音，确定所述目标场景的场景信息；其中，所确定的场景信息包括所述目标场景的场景类型，和/或所述物理语音的信号内容；

基于预设的场景信息与声音信号的对应关系，从预设的各声音信号中，选取与所确定的场景信息对应的声音信号，作为与所述目标场景的物理语音相匹配的声音信号。

第二方面，本发明实施例还提供了一种语音溯源方法，该方法包括：

获取待溯源的语音；

对所述待溯源的语音进行水印信号提取，得到待溯源的水印信号；

基于预先记录的物理语音水印信号的指定信息，确定所述待溯源的水印信号与所述物理语音水印信号是否相匹配；其中，所述物理语音水印信号为在目标场景中所播放的与所述目标场景的物理语音相匹配的声音信号；所述指定信息包括所述物理语音水印信号的信号特征，和/或所述物理语音水印信号的播放信息；

若相匹配，则确定所述待溯源的语音为从所述目标场景中所录制的语音。

可选的，所述基于预先记录的物理语音水印信号的指定信息，确定所述待溯源的水印信号与所述物理语音水印信号是否相匹配，包括：

在所述指定信息包括播放信息的情况下，获取所述待溯源的水印信号在所述待溯源的语音中的播放信息；确定所述待溯源的水印信号的播放信息与所述物理语音水印信号的播放信息是否相匹配，得到第一匹配结果；

在所述指定信息包括信号特征的情况下，确定所述待溯源的水印信号的信号特征与所述物理语音水印信号的信号特征是否相匹配，得到第二匹配结果；

基于所述第一匹配结果和/或所述第二匹配结果，确定所述待溯源的水印信号与所述物理语音水印信号是否相匹配。

可选的，所述物理语音水印信号的播放信息包括：所述物理语音水印信号的间隔时长序列，其中，所述间隔时长序列为所述物理语音水印信号在所述目标场景中多次播放时的播放间隔时长所组成的时长序列；

所述获取所述待溯源的水印信号在所述待溯源的语音中的播放信息，包括：

确定所述待溯源的水印信号在所述待溯源的语音中的分布间隔时长，得到分布间隔序列，作为所述待溯源的水印信号的播放信息。

可选的，所述确定所述待溯源的水印信号的播放信息与所述物理语音水印信号的播放信息是否相匹配，包括：

计算所述分布间隔序列与所述间隔时长序列的第一相似度是否大于第一预设阈值，或确定所述分布间隔序列是否为所述间隔时长序列的相似子集；

若所述第一相似度大于所述第一预设阈值，或所述分布间隔序列为所述间隔时长序列的相似子集，则确定所述待溯源的水印信号的播放信息与所述物理语音水印信号的播放信息相匹配，若所述第一相似度不大于所述第一预设阈值，或所述分布间隔序列不是所述间隔时长序列的相似子集，则确定所述待溯源的水印信号的播放信息与所述物理语音水印信号的播放信息不匹配。

可选的，所述确定所述待溯源的水印信号的信号特征与所述物理语音水印信号的信号特征是否相匹配，包括：

计算所述待溯源的水印信号的信号特征，与所述物理语音水印信号的信号特征的相似度，作为第二相似度；

确定所述第二相似度是否大于第二预设阈值；

若所述第二相似度大于所述第二预设阈值，则确定所述待溯源的水印信号的信号特征，与所述物理语音水印信号的信号特征相匹配，否则，确定所述待溯源的水印信号的信号特征，与所述物理语音水印信号的信号特征不匹配。

可选的，所述基于所述第一匹配结果和/或所述第二匹配结果，确定所述待溯源的水印信号与所述物理语音水印信号是否相匹配，包括：

若所述待溯源的水印信号的播放信息与所述物理语音水印信号的播放信息相匹配，和/或所述待溯源的水印信号的信号特征与所述物理语音水印信号的信号特征相匹配，则确定所述待溯源的水印信号与所述物理语音水印信号相匹配。

可选的，所述对所述待溯源的语音进行水印信号提取，得到待溯源的水印信号，包括：

提取所述待溯源的语音中振幅大于预设振幅阈值的声音信号，作为所述待溯源的水印信号；和/或，

提取所述待溯源的语音中预设频段的声音信号，作为所述待溯源的水印信号；和/或，

利用预先训练的水印提取模型，对所述待溯源的语音进行水印信号提取，得到待溯源的水印信号。

第三方面，本发明实施例提供了一种物理语音水印的注入装置，该装置包括：

确定模块，确定与目标场景的物理语音相匹配的声音信号，作为物理语音水印信号；

播放模块，用于按照预设播放策略，在所述目标场景中播放所述物理语音水印信号，以使在所述目标场景中存在录音设备的情况下，所述录音设备所录制的语音为叠加语音；其中，所述叠加语音为所述物理语音与所述物理语音水印信号播放后的语音叠加后的语音；

记录模块，用于记录所述物理语音水印信号的指定信息；其中，所述指定信息包括所述物理语音水印信号的信号特征，和/或所述物理语音水印信号的播放信息。

第四方面，本发明实施例提供了一种语音溯源装置，该装置包括：

获取模块，用于获取待溯源的语音；

提取模块，用于对所述待溯源的语音进行水印信号提取，得到待溯源的水印信号；

匹配模块，用于基于预先记录的物理语音水印信号的指定信息，确定所述待溯源的水印信号与所述物理语音水印信号是否相匹配；其中，所述物理语音水印信号为在目标场景中所播放的与所述目标场景的物理语音相匹配的声音信号；所述指定信息包括所述物理语音水印信号的信号特征，和/或所述物理语音水印信号的播放信息；

溯源模块，用于若相匹配，则确定所述待溯源的语音为从所述目标场景中所录制的语音。

第五方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述物理语音水印的注入方法的步骤，或者上述语音溯源方法的步骤。

第六方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述物理语音水印的注入方法的步骤，或者上述语音溯源方法的步骤。

本发明实施例有益效果：

本发明实施例提供的物理语音水印的注入方法，确定与目标场景的物理语音相匹配的声音信号，作为物理语音水印信号；按照预设播放策略，在目标场景中播放物理语音水印信号，以使在目标场景中存在录音设备的情况下，录音设备所录制的语音为叠加语音；记录物理语音水印信号的指定信息；其中，指定信息包括物理语音水印信号的信号特征，和/或物理语音水印信号的播放信息。由于在目标场景中播放物理语音水印信号，使得物理语音水印信号播放后的语音在空口与目标环境中的物理语音进行叠加，其意味着叠加后的叠加语音中已被嵌入水印信息，此时，若目标环境中存在录音设备，则该录音设备仅能录制叠加语音，使得其所录制的语音中包含物理语音水印信号，进一步的，在播放物理语音水印信号之后，记录了物理语音水印信号的指定信息，从而后续可以利用该指定信息进行溯源，可见本方案为已嵌入物理语音水印信号的语音进行溯源提供了实现基础。

另外，本发明实施例提供的语音溯源方法，获取待溯源的语音；对待溯源的语音进行水印信号提取，得到待溯源的水印信号；基于预先记录的物理语音水印信号的指定信息，确定待溯源的水印信号与物理语音水印信号是否相匹配；若相匹配，则确定待溯源的语音为从目标场景中所录制的语音。由于物理语音水印信号是在目标场景中所播放的与目标场景的物理语音相匹配的声音信号，其意味着，若目标场景中存在录音设备，则该录音设备中所录制的语音中必然包含该物理语音水印信号，因此，若当基于预先记录的物理语音水印信号的指定信息，确定待溯源的水印信号与物理语音水印信号相匹配时，则可以确定待溯源的语音是目标场景中的录音设备所录制的。可见，通过本方案，可以实现对目标场景内录音设备所录制的语音的溯源。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的实施例。

图1为本发明实施例提供的一种物理语音水印的注入方法的第一种流程图；

图2为本发明实施例提供的一种物理语音水印的注入方法的第二种流程图；

图3为本发明实施例提供的一种物理语音水印的注入方法的第三种流程图；

图4为本发明实施例提供的一种语音溯源方法的第一种流程图；

图5为本发明实施例提供的一种物理语音水印的注入方法的第四种流程图；

图6为本发明实施例提供的一种语音溯源方法的第二种流程图；

图7为本发明实施例提供的一种物理语音水印的注入装置的结构图；

图8为本发明实施例提供的一种语音溯源装置的结构图；

图9为本发明实施例提供的电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本发明保护的范围。

随着录音转录、语音识别等技术的快速发展以及智能语音助手等工具的普及应用，声音信号获取、存储、识别的效率和精度得到大幅提升。然而，声音信号的获取依赖于录音设备的大量部署，这就带来了日益严重的声音隐私的安全威胁。例如，若有人携带录音设备或恶意操控特定场景内的录音设备，窃听重要会议或隐私对话，则会造成不良影响。由于相关技术中的水印注入方法中，只能在生成语音的对应的音频数据后的数据传输过程中，将水印写入语音对应的音频数据中，无法对窃听得到的语音注入水印，导致无法对非法录制的语音进行溯源，从而打击窃听行为。可见，如何对录音设备所录制的语音进行溯源是亟待解决的问题。

为了解决上述问题，本发明实施例提供了一种物理语音水印的注入方法、语音溯源方法及装置。需要说明的是，在具体应用中，本发明实施例可以应用于各类电子设备，例如，个人电脑、服务器、手机以及其他具有数据处理能力的设备。并且，本发明实施例提供的物理语音水印的注入方法、语音溯源方法可以通过软件、硬件或软硬件结合的方式实现。

一种实施例中，本发明实施例提供的物理语音水印的注入方法可以应用于声音播放设备，如扬声器，可选的，该声音播放设备可以播放指定频段的声音信号，如播放超声波频段的声音信号，或者本发明实施例可以应用于具备声音录制和播放功能的电子设备，该电子设备可以进行声音信号的接收和播放，如具备声音录制和播放功能的计算机系统等，当然也并不局限于此。

下面首先对本发明实施例提供的一种物理语音水印的注入方法进行介绍，该方法可以包括：

按照预设播放策略，在目标场景中播放物理语音水印信号，以使在目标场景中存在录音设备的情况下，录音设备所录制的语音为叠加语音；其中，叠加语音为物理语音与物理语音水印信号播放后的语音叠加后的语音；

记录物理语音水印信号的指定信息；其中，指定信息包括物理语音水印信号的信号特征，和/或物理语音水印信号的播放信息。

本发明实施例提供的物理语音水印的注入方法，由于在目标场景中播放物理语音水印信号，使得物理语音水印信号播放后的语音在空口与目标环境中的物理语音进行叠加，其意味着叠加后的叠加语音中已被嵌入水印信息，此时，若目标环境中存在录音设备，则该录音设备仅能录制下叠加语音，使得其所录制的语音中包含物理语音水印信号，进一步的，在播放物理语音水印信号之后，记录了物理语音水印信号的指定信息，从而后续可以利用该指定信息进行溯源，可见本方案为已嵌入物理语音水印信号的语音进行溯源提供了实现基础。

下面结合附图，对本发明实施例所提供的一种物理语音水印的注入方法进行示例性介绍。

如图1所示，本发明实施例所提供的一种物理语音水印的注入方法可以包括步骤S101-步骤S103：

S101，确定与目标场景的物理语音相匹配的声音信号，作为物理语音水印信号；

其中，上述目标场景可以是任意产生声音的场景，例如，以场景类型区分，上述目标场景可以为隐私对话场景、版权音频录制场景、保密对话场景等；以场景位置区分，上述目标场景可以为会议室、录音室、教室等。上述物理语音可以为在目标场景中产生的任意声音信号，例如人交谈产生的声音信号、演奏音乐产生的声音信号等，当然上述物理语音也可以为多种声音信号的叠加。

上述与目标场景的物理语音相匹配的声音信号可以任意选取一种声音信号，作为与目标场景的物理语音相匹配的声音信号，所选取的声音信号可以为噪声信号、歌曲声音信号、交谈声音信号等。

可选的，上述与目标场景的物理语音相匹配的声音信号还可以为基于目标场景的物理语音所确定的声音信号，例如基于目标场景的物理语音，确定目标场景的场景信息，进而基于预设的场景信息与声音信号的对应关系，从预设的各声音信号中，选取与所确定的场景信息对应的声音信号，作为与目标场景的物理语音相匹配的声音信号。

上述所确定的场景信息可以包括目标场景的场景类型，和/或物理语音的信号内容。其中，上述场景类型可以为隐私对话场景、版权音频录制场景、保密对话场景等，上述物理语音的信号内容可以为物理语音的文字内容。其中，上述信号内容的获取方式可以利用预先训练的人工智能模型从目标场景的物理语音中提取。可选的，当所要提取的信号内容为对话的文字内容，该人工智能模型可以为DeepSpeech（一种开源的语音转文字模型）、Kaldi（一种开源的语音转文字模型）等。通过预设的场景信息与声音信号的对应关系，可以灵活地为不同的场景选取合适的声音信号。

一种示例中，场景信息中包括场景类型，且目标场景的场景类型为会议类型、隐私对话类型等需要进行语音保密的类型，则可以选取大振幅的噪声信号，或者人说话的声音信号，以干扰录音设备对于目标场景中物理语音的录制，实现对目标场景中物理语音的保密。另一种示例中，场景信息中包括信号内容，且目标场景中物理语音的信号内容为音乐，则可以选取一段音乐类型的声音信号，以干扰录音设备对于目标场景中物理语音的录制。

为了增加该声音信号的独特性，上述与目标场景的物理语音相匹配的声音信号还可以包含该目标场景的标识信息、数字口令、文字口令等。当然与目标场景的物理语音相匹配的声音信号也可以不局限于上述内容。其中，目标场景的标识信息可以是表征该目标场景的地点、时间、发生事件等内容的信息，例如可以为一段语音内容，如XX年X月X日、XX市XX公司以及XX会议等。上述数字口令、文字口令可以是随机生成的一串数字、文字，也可以为预设的一串数字、文字，本发明实施例不做具体限定。

为了表述方便，本发明实施例中将与目标场景的物理语音相匹配的声音信号，作为物理语音水印信号。

本步骤中，可以在目标场景满足预设的声音水印注入条件时，执行确定与目标场景的物理语音相匹配的声音信号的步骤，其中，当目标场景满足预设的声音水印注入条件，则表明目标场景需要进行声音水印注入，以保护目标场景中的物理语音。可选的，本发明实施例中可以采用多种方式来确定目标场景是否满足预设的声音水印注入条件，具体将在后续实施例详细说明，在此不再赘述。当然，需要强调的是，本步骤也可以在任意情况下进行，其意味着，本步骤并不需要在满足一定的条件才可以执行，而是可以随时执行。

S102，按照预设播放策略，在目标场景中播放物理语音水印信号，以使在目标场景中存在录音设备的情况下，录音设备所录制的语音为叠加语音；其中，叠加语音为物理语音与物理语音水印信号播放后的语音叠加后的语音；

为了使目标场景中的录音设备所录制的语音中携带水印信息，本步骤中可以按照预设播放策略，在目标场景中播放物理语音水印信号。在目标场景中播放物理语音水印之后，目标场景中包含物理语音和物理语音水印信号播放后的语音，其意味着，所播放的物理语音水印信号在空口与目标环境中的物理语音进行叠加，从而叠加后的叠加语音中已被嵌入水印信息，此时，若目标环境中存在录音设备，则该录音设备录制的语音中包含物理语音水印信号。

上述预设播放策略可以根据需求和经验所确定，其可以为任一种播放策略，例如持续播放、单次播放、多次播放等。这都是可以的，在预设播放策略为持续播放的情况下，可以在目标场景中持续播放物理语音水印信号，其意味着物理语音水印信号被循环播放，以使目标场景中始终存在物理语音水印信号。在预设播放策略为单次播放的情况下，在目标场景中播放一次物理语音水印信号，其意味着物理语音水印信号被播放一次后即停止播放。在预设播放策略为多次播放的情况下，可以在目标场景中播放预设次数遍物理语音水印信号，其意味着物理语音水印信号被播放次后预设次数遍后停止播放。

S103，记录物理语音水印信号的指定信息；其中，指定信息包括物理语音水印信号的信号特征，和/或物理语音水印信号的播放信息。

上述物理语音水印信号的信号特征可以为该物理语音水印信号的基带信号，或者还可以利用预先训练的特提取网络对物理语音水印信号进行特征提取，将所提取的特征信息作为该物理语音水印信号的信号特征。在目标场景中单次播放物理语音水印信号的情况下，物理语音水印信号的播放信息可以为该物理语音水印信号的播放时长。在目标场景中多次播放物理语音水印信号的情况下，播放信息还可以包括：播放次数、物理语音水印信号的间隔时长序列等，其中，间隔时长序列为物理语音水印信号播放间隔时长所组成的时长序列。示例性的，物理语音水印信号在第一次播放结束后，等待8秒开始第二次播放，在第二次播放结束后，等待10秒开始第三次播放，第三次播放结束后，等待9秒开始第四次播放，则物理语音水印信号播放间隔时长所组成的时长序列可以表示为[8,10,9]。

由于方案的最终目的是为了实现对语音的溯源，示例性的，若进行持续播放或单次播放，则上述指定信息可以为物理语音水印信号的信号特征，其意味着，若待溯源的语音中的水印信号的信号特征与物理语音水印信号的信号特征相匹配，则认为待溯源的语音为在目标场景中利用录音设备所采集的语音。在上述预设播放策略为多次播放的情况下，可以利用每两次播放该物理语音水印信号之间的间隔时长作为物理语音水印信号的播放信息，其意味着，若待溯源的语音中的水印信号的间隔时长与播放物理语音水印信号的间隔时长相匹配，则认为待溯源的语音为在目标场景中利用录音设备所采集的语音。当然，在此情况下，也可以进一步的结合水印信号的特征信息进行确认，以提高准确性。

此外，还可以记录物理语音水印信号的溯源信息，便于在进行溯源时进一步了解该物理语音水印信号的相关信息。溯源信息可以包括：生成时间、生成地点、生成对象、版权方等信息。

为了后续能够对语音进行溯源，可以在确定物理语音水印信号的指定信息之后，记录物理语音水印信号的指定信息，可以采用任意方式记录指定信息，例如电子表格、文档等，本发明实施例对指定信息记录形式不做具体限定。

本实施例中，由于在目标场景中播放物理语音水印信号，使得物理语音水印信号播放后的语音在空口与目标环境中的物理语音进行叠加，其意味着叠加后的叠加语音中已被嵌入水印信息，此时，若目标环境中存在录音设备，则该录音设备仅能录制叠加语音，使得其所录制的语音中包含物理语音水印信号，进一步的，在播放物理语音水印信号之后，记录了物理语音水印信号的指定信息，从而后续可以利用该指定信息进行溯源，可见本方案为已嵌入物理语音水印信号的语音进行溯源提供了实现基础。

可选的，在本发明的另一实施例中，上述目标场景满足预设的声音水印注入需求，可以有多种，示例性的，在一种满足需求的实现方式中，当接收到针对目标场景的声音水印注入指令时，则表明目标场景满足预设的声音水印注入需求，其中，声音水印注入指令可以由工作人员通过点击UI（User Interface，人机交互界面）中的指定按钮，或者输入指定的字段发出，当然也不局限于此。当接收到针对目标场景的声音水印注入指令，其意味着目标场景满足预设的声音水印注入需求，从而可以确定与目标场景的物理语音相匹配的声音信号，作为物理语音水印信号。

在另一种满足需求的实现方式中，在检测到目标场景的物理语音满足指定语音条件时，则表明目标场景满足预设的声音水印注入需求。在此情况下，可以先获取目标场景中的环境声音，进而对所获取的环境声音进行检测，确定其是否满足指定语音条件。指定语音条件可以为根据需求和经验所确定的。

上述检测到目标场景的物理语音满足指定语音条件的方式可以有多种，示例性的，至少可以包括以下几种方式中的一种：

第一种满足指定语音条件的方式：检测到目标场景的物理语音中包含指定对象的声音信号；

其中，该指定对象可以为人，乐器等能够发出声音的对象，可以通过声纹技术预先提取并存储该指定对象的声纹信息，再检测目标环境中的物理语音中各类声音的声纹，判断所检测到的声纹是否为指定对象的声纹，来确定物理语音中是否包含指定对象的声音信号。

第二种满足指定语音条件的方式：基于目标场景的物理语音，检测到目标场景为指定场景。

其中，指定场景可以是任意场景，例如隐私对话场景、版权音频录制场景、保密对话场景等，可以根据实际需求所设置，本发明实施例对此不作具体限定。

本方式中，可以基于目标场景的物理语音，检测目标场景是否为指定场景。可选的，可采用多种方式检测目标场景是否为指定场景，例如，可以包括：

第一种场景检测方式：检测目标场景中的物理语音中是否包含指定词汇，若是，则确定目标场景为指定场景，否则，确定目标场景不是指定场景；

可以理解的，当目标场景中的人员说话时，物理语音会包含该人员说话所产生的语音信号，语音信号中包含语句、词汇等信息。该指定词汇可以预先设定，示例性的，该指定词汇为：“开始注入”、“开始运行”等等。当检测到物理语音中包含指定词汇时，则确定检测到目标场景为指定场景。

示例性的，在一种实现方式中，检测目标场景的物理语音中是否包含指定词汇可以包括如下过程：先利用预先训练人工智能模型，例如DeepSpeech、Kaldi等，处理物理语音，得到目标场景中的人员说话产生的文字内容，再判断所得到的文字内容中是否包含指定词汇。

第二种场景检测方式：可以基于目标场景的物理语音，确定目标场景的场景类型，进而确定所得到的场景类型是否为指定场景所属的指定类型，若是，则确定目标场景为指定场景，否则确定目标场景不是指定场景。

本方式中，可以利用预先训练的场景分类模型对目标场景的物理语音进行处理，以确定目标场景是否为指定场景所属的类型。具体的，可以包括如下步骤：

步骤A1，将目标场景的物理语音输入到预先训练的场景分类模型中，得到场景分类模型输出的场景类型；

不同场景所属的场景类型可以根据需求和经验设置，例如可以包括酒会类型、会议类型、隐私对话类型、音乐录制类型等中的至少一种。

为了更准确的确定出目标场景的场景类型，可以利用预先训练的场景分类模型对目标场景进行分类，场景分类模型可以采用任意一种训练方式训练得到，如有监督、半监督、无监督等训练方式，为了方便阐述，本发明实施例以有监督训练方式为例进行说明，在此情况下，上述场景分类模型可以为利用样本声音信号，以及样本声音信号对应的场景类型的真值训练得到的人工智能模型。

为了训练上述场景分类模型，可以预先准备多种声音信号作为样本声音信号，例如，在会议类型的场景下所录制的声音信号、隐私对话类型的场景下录制的声音信号等，同时将样本声音信号所录制的场景类型设置为该样本声音信号对应的场景类型的真值。

一种场景分类模型的训练方式中，可以将多个样本声音信号输入该待训练的场景分类模型中，使得待训练的场景分类模型输出关于各个样本声音信号的场景类型识别结果，并利用各样本声音信号对应的场景类型识别结果与各样本声音信号对应的场景类型的真值，计算该场景分类模型的模型损失，进而基于模型损失调整待训练的场景分类模型的模型参数，直到待训练的场景分类模型损失收敛，得到训练完成的场景分类模型。

步骤A2，确定所得到的场景类型是否为指定场景所属的指定类型，若是，则确定目标场景为指定场景，否则确定目标场景不是指定场景。

其中，可以预先将各种场景类型设置为指定场景所属的指定类型和非指定场景所属的非指定类型，例如，可以将会议类型、隐私对话类型设置为指定类型，其他的场景类型设置为非指定类型。这样，在得到目标场景的物理语音的场景类型后，就可以判断该场景类型是否为指定场景所属的指定类型。利用预先训练的场景分类模型能够自动地识别目标场景的场景类型，而不用人工识别，能够减少人力成本，提高识别效率。

上述将目标场景的物理语音输入到预先训练的场景分类模型中之前，还可以先利用预先训练的人工智能模型，例如DeepSpeech、Kaldi等，识别目标场景的物理语音中包含的由人员说话产生的文字内容，再所识别将文字内容输入预先训练的场景分类模型中，得到场景分类模型输出的场景类型，或者，先利用特征提取网络，提取目标场景的物理语音的场景特征，再将场景特征输入预先训练的场景分类模型中，得到场景分类模型输出的场景类型，也是可以的。该场景下的场景分类模型，与上述直接输入目标场景的物理语音到预先训练的场景分类模型的场景相比，训练的过程类似，在此不再赘述。

本实施例中，检测到目标场景的物理语音满足指定语音条件的方式可以为上述两种方式中的一种，例如，检测到目标场景中的物理语音中包含指定对象的声音信号，此时，只需满足该一种方式，则说明检测到目标场景的物理语音满足指定语音条件。或者，上述检测到目标场景的物理语音满足指定语音条件的方式可以同时利用以上两种方式，此时，当同时满足该两种方式时，才意味着检测到目标场景的物理语音满足指定语音条件。

本实施例中，可以在录音设备所录制的语音中嵌入物理语音水印信号，进而为进行语音溯源提供了实现基础。进一步的，可以在目标场景满足预设的声音水印注入需求时确定与目标场景的物理语音相匹配的声音信号，从而可以避免频繁播放物理语音水印信号。

在本发明的另一实施例中，为了使播放信息更具备特征性，从而提高后续进行溯源的准确性，本发明实施例中上述预设播放策略可以为多次播放，简单而言，在确定出物理语音水印信号之后，可以在目标场景中，多次播放述物理语音水印信号，此时，上述播放信息可以包括：物理语音水印信号的间隔时长序列，其中，间隔时长序列为物理语音水印信号播放间隔时长所组成的时长序列。

在一种实现方式中，如图2所示，上述多次播放物理语音水印信号可以包括以下步骤S201-步骤S203：

S201，在目标场景中，播放一次物理语音水印信号；

本步骤中，可以仅播放一次物理语音水印信号，即在将所确定的物理语音水印信号播放结束之后，即可执行步骤S202或S203（附图2仅以执行S202为例），而不是持续对物理语音水印信号进行播放。

S202，确定本次播放完成后的播放间隔时长；

其中，本步骤可以与步骤S201同步进行，即在播放物理语音水印信号的同时，确定本次播放完成后的播放间隔时长。本步骤也可以不同步进行，例如可以先执行步骤S201，再执行本步骤，或者先执行本步骤，再执行步骤S201，也是可以的。

上述确定本次播放完成后的播放间隔时长的方式可以有多种，示例性的，至少可以包括以下两种方式中的一种：

第一种播放间隔时长的确定方式：随机生成一间隔时长，作为本次播放完成后的播放间隔时长；

本方式中，可以在每一次确定本次播放完成后的播放间隔时长时，随机生成一间隔时长，作为本次播放完成后的播放间隔时长。

第二种播放间隔时长的确定方式：从指定的间隔时长序列中选取一间隔时长，作为本次播放完成后的播放间隔时长。

上述指定的间隔时长序列可以为预设的，也可以是根据指定规则生成的，该指定规则可以为随机生成，或者根据该指定的间隔时长序列生成的时间、场景与间隔时长序列的对应关系生成，例如将当前的时间进行编码得到编码序列，进而将编码序列转换为间隔时长序列。

其中，在得到指定的间隔时长序列后，可以按照指定的间隔时长序列中各间隔时长的排序，从各间隔时长中选取一间隔时长，作为本次播放完成后的播放间隔时长。示例性的，时间间隔序列可表示为[8,10,9]，其中8表示在第一次播放结束后等待8秒，开始第二次播放，10表示在第二次播放结束后等待10秒，开始第三次播放，9表示在第三次播放结束后等待9秒，开始第四次播放，若本次播放为第一次播放，则选取8秒作为本次播放完成后的播放间隔时长。

或者，从指定的间隔时长序列中选取一间隔时长的方式，也可以为从指定的间隔时长序列中各间隔时长，随机选取一间隔时长，作为本次播放完成后的播放间隔时长。示例性的，时间间隔序列可表示为[8,10,9]，本次播放为第一次播放，则可以随机从8秒、9秒或者10秒中选择一时长，作为本次播放完成后的播放间隔时长。

S203，在本次物理语音水印信号播放完成后，等待所确定的播放间隔时长，并返回执行步骤S201。

上述播放物理语音水印信号，以及等待所确定的播放间隔时长的过程可以重复不间断的进行，直至不再需要在目标场景中注入声音水印，示例性的，可以在接收到声音水印注入停止的指令时，或者检测到目标场景不满足预设的声音水印注入需求时，停止上述播放物理语音水印信号以及等待所确定的播放间隔时长的过程，完成本次水印的注入。

其中，在超过指定时长没有检查到目标场景中的物理语音中包含指定词汇，或检测到目标场景中的物理语音中包含指定对象的声音信号，以及检测到目标场景转变为了非保密场景等情况下，可以认为目标场景不满足预设的声音水印注入需求，即不需要对目标场景的物理语音信号进行水印注入。

本实施例中，可以在录音设备所录制的语音中嵌入物理语音水印信号，进而为进行语音溯源提供了实现基础。进一步的，多次播放物理语音水印信号时，每两次播放该物理语音水印信号之间的间隔时长所组成的间隔时长序列，可以作为物理语音水印信号的播放信息，使得播放信息更具备特征性，从而提高了对语音进行溯源的准确性。

可选的，在本发明的另一实施例中，如图3所示，本发明实施例提供的物理语音水印的注入方法可以包括步骤S301-步骤S304：

S301，确定与目标场景的物理语音相匹配的声音信号，作为物理语音水印信号；

该步骤与上述步骤S101相同或相似，本发明实施例在此不再赘述。

在上述按照预设播放策略，在目标场景中播放物理语音水印信号之前，本发明实施例提供的物理语音水印的注入方法还包括：

S302，将物理语音水印信号调制到指定频段，得到调制后的物理语音水印信号；

上述指定频段可以为任意频段，或者是特定的频段，例如人耳不可感知的声波频段，即超声波频段或者次声波频段。

在一种实现方式中，上述指定频段可以为超声波频段。其中，超声波频段即大于20KHz的频段。示例性的，可以利用AM（Amplitude Modulation，调幅）调制的方式，将物理语音水印信号调制到超声波频段。调制方式如下：

其中，

代表调制后的音频信号，

和

属于载波信号和基带信号的幅值，

表示时间。

为载波信号的频率，

为基带信号的频率。载波信号和基带信号的频率和幅值可以根据需求和经验设定为固定值或时变值。

示例性的，在一种实现方式中，

可以设为25kHz，

可以设为1kHz，

可以等于

。

由于录音设备的工作原理是将机械声波转换为电信号，且录音设备的输入/输出信号传输特性存在非线性效应，非线性效应可以形式化如下：

其中，

代表输入的声音信号，

代表输出的音频信号，A和B分别为系数参数。

录音设备非线性解调过程可表示为如下：

其中，

表示录音设备对于接收的声音信号的解调信号，

为常向量，即录音设备的非线性系数。录音设备的非线性解调过程会在接收到声音信号时自动进行。由于录音设备存在非线性效应，可以录制下调制到超声波频段的物理语音水印信号，即

中会包含物理语音水印信号。

因此，被调制到超声波频段的物理语音水印信号能够在不影响目标场景中的人员正常交谈的情况下，实现水印的隐蔽注入。同时，由于录音设备的非线性效应，在物理语音水印信号为干扰信号的情况下，录音设备能够录制下该干扰信号，因此，可以在不影响目标场景中的人员正常交谈的情况下，对录音设备进行干扰，遮蔽目标场景中的人员正常交谈产生的物理语音，从而实现对目标场景的物理语音保护。

在将物理语音水印信号调制到指定频段，得到调制后的物理语音水印信号的情况下，按照预设播放策略，在目标场景中播放物理语音水印信号，可以包括：

S303，按照预设播放策略，在目标场景中播放调制后的物理语音水印信号。

在得到调制后的物理语音水印信号之后，即可在目标场景中播放调制后的物理语音水印信号，调制后的物理语音水印信号具体的播放策略与步骤S102相同或相似，本发明实施例在此不再赘述。

S304，记录物理语音水印信号的指定信息；其中，指定信息包括物理语音水印信号的信号特征，和/或物理语音水印信号的播放信息。

该步骤与上述步骤S103相同或相似，本发明实施例在此不再赘述。

本实施例中，可以在录音设备所录制的语音中嵌入物理语音水印信号，进而为进行语音溯源提供了实现基础。进一步的，通过将物理语音水印信号调制到指定频段，得到调制后的物理语音水印信号，进一步丰富了本发明实施例所提供的物理语音水印的注入方法的实现方式，且在指定频段为超声波频段时，可以在不影响目标场景中的人员正常交谈的情况下，为物理世界的声音信号注入水印，或者干扰录音设备对于语音的录制。

相应于上述物理语音水印的注入方法，本发明实施例还提供了一种语音溯源方法，

该方法可以应用于具备数据处理功能的电子设备中，例如，计算机，手机等。如图4所示，本发明实施例还提供的一种语音溯源方法，包括步骤S401-步骤S405：

S401，获取待溯源的语音；

其中，该待溯源的语音可以是任意需要进行溯源的声音信号。可选的，可以从指定存储位置处获取待溯源的语音，例如U盘、指定数据库、云端等存储位置，在该实现方式中，待溯源的语音可以由工作人员预先上传至指定存储位置处。或者，待溯源的语音也可以实时采集得到的，这都是可以的，本发明实施例对此不作具体限定。

S402，对待溯源的语音进行水印信号提取，得到待溯源的水印信号；

本步骤中，可以采用以下三种方式对待溯源的语音进行水印信号提取：

第一种提取方式：提取待溯源的语音中振幅大于预设振幅阈值的声音信号，作为待溯源的水印信号；

本实现方式中，当获取待溯源的语音后，可以判断待溯源的语音中每一采样点的振幅是否大于预设振幅阈值，若是，则保留该采样点的声音信号，否则，删除该采样点的声音信号，最终得到待溯源的语音中振幅大于预设振幅阈值的声音信号，当然也可以不仅限于此。其中，预设振幅阈值、可以根据实际情况和经验确定。

第二种提取方式：提取待溯源的语音中预设频段的声音信号，作为待溯源的水印信号；

本实现方式中，可以利用带通滤波器提取待溯源的语音中预设频段的声音信号，当然也可以不仅限于此。其中，预设频段可以根据实际情况和经验确定。

第三种提取方式：利用预先训练的水印提取模型，对待溯源的语音进行水印信号提取，得到待溯源的水印信号。

本实现方式中，可以将待溯源的语音输入预先训练的水印提取模型中，使得该水印提取模型处理该待溯源的语音，得到待溯源的水印信号。该水印提取模型可以通过任意训练方式训练得到，本发明实施例不做具体限定。

在一种实现方式中，为了更全面的获取待溯源语音中的待溯源的水印信号，可以采用多种方式对待溯源语音进行水印信号的提取，例如可以同时将待溯源的语音中振幅大于预设振幅阈值的声音信号，待溯源的语音中预设频段的声音信号，以及利用预先训练的水印提取模型，对待溯源的语音进行水印信号提取，得到声音信号，都作为待溯源的水印信号。

在另一种实现方式中，为了更精准的获取待溯源语音中的待溯源的水印信号，可以先提取待溯源的语音中振幅大于预设振幅阈值的声音信号，得到第一提取信号，再提取第一提取信号中预设频段的声音信号，得到第二提取信号，最后，利用预先训练的水印提取模型，对第二提取信号进行水印信号提取，得到待溯源的水印信号。

S403，基于预先记录的物理语音水印信号的指定信息，确定待溯源的水印信号与物理语音水印信号是否相匹配；若相匹配，则执行步骤S404，否则，执行步骤S405；

其中，物理语音水印信号为在目标场景中所播放的与目标场景的物理语音相匹配的声音信号；指定信息包括物理语音水印信号的信号特征，和/或物理语音水印信号的播放信息；上述物理语音水印信号为在目标场景播放的与目标场景的物理语音相匹配的声音信号，物理语音水印信号的确定方式已在上文介绍，在此不再赘述。

确定待溯源的水印信号与物理语音水印信号是否相匹配的方式，可以包括：

步骤B1，在指定信息包括播放信息的情况下，获取待溯源的水印信号在待溯源的语音中的播放信息；确定待溯源的水印信号的播放信息与物理语音水印信号的播放信息是否相匹配，得到第一匹配结果；

物理语音水印信号的播放信息包括：物理语音水印信号的间隔时长序列，其中，间隔时长序列为物理语音水印信号在目标场景中多次播放时的播放间隔时长所组成的时长序列；

上述获取待溯源的水印信号在待溯源的语音中的播放信息，可以包括：

确定待溯源的水印信号在待溯源的语音中的分布间隔时长，得到分布间隔序列，作为待溯源的水印信号的播放信息。

其中，待溯源的水印信号在待溯源的语音中的分布间隔时长，即待溯源的语音中每两次播放待溯源的水印信号之间所间隔的时长。记录下该待溯源的语音中的分布间隔时长，得到分布间隔序列。通过确定待溯源的水印信号的播放信息与物理语音水印信号的播放信息是否相匹配，得到第一匹配结果。

上述确定待溯源的水印信号的播放信息与物理语音水印信号的播放信息是否相匹配，可以为：确定分布间隔序列与间隔时长序列中各个数值的是否能够一一对应，若能够一一对应，则确定分布间隔序列与间隔时长序列相匹配，否则，确定分布间隔序列与间隔时长序列不匹配。

步骤B2，在指定信息包括信号特征的情况下，确定待溯源的水印信号的信号特征与物理语音水印信号的信号特征是否相匹配，得到第二匹配结果；

其中，上述物理语音水印信号的信号特征可以为该物理语音水印信号的基带信号，或者利用预先训练的特征提取网络对物理语音水印信号进行特征提取得到的特征信息等。确定待溯源的水印信号的信号特征与物理语音水印信号的信号特征是否相匹配，得到第二匹配结果。

上述确定待溯源的水印信号的播放信息与物理语音水印信号的播放信息是否相匹配，和确定待溯源的水印信号的信号特征与物理语音水印信号的信号特征是否相匹配的方式将在后续实施例详细说明，在此不再赘述。

步骤B3，基于第一匹配结果和/或第二匹配结果，确定待溯源的水印信号与物理语音水印信号是否相匹配。

在本实施例中，确定待溯源的水印信号与物理语音水印信号是否相匹配方式可以存在以下几种情况：

第一种情况：在指定信息包括播放信息的情况下，可以仅通过第一匹配结果来确定待溯源的水印信号与物理语音水印信号是否相匹配。该情况下，若待溯源的水印信号的播放信息与物理语音水印信号的播放信息相匹配，则确定待溯源的水印信号与物理语音水印信号相匹配，否则，确定待溯源的水印信号与物理语音水印信号不匹配。

第二种情况：在指定信息包括信号特征的情况下，仅第二匹配结果来确定待溯源的水印信号与物理语音水印信号是否相匹配。该情况下，若待溯源的水印信号的信号特征与物理语音水印信号的信号特征相匹配，则确定待溯源的水印信号与物理语音水印信号相匹配，否则，确定待溯源的水印信号与物理语音水印信号不匹配。

第三种情况：在指定信息包括播放信息和信号特征的情况下，可以结合第一匹配结果和第二匹配结果来确定待溯源的水印信号与物理语音水印信号是否相匹配，当满足待溯源的水印信号的播放信息与物理语音水印信号的播放信息相匹配，或待溯源的水印信号的信号特征与物理语音水印信号的信号特征相匹配，两种情形中的任一种情形，则确定待溯源的水印信号与物理语音水印信号相匹配，若两种情形均不满足，则确定待溯源的水印信号与物理语音水印信号不匹配。或者，当同时满足待溯源的水印信号的播放信息与物理语音水印信号的播放信息相匹配，和待溯源的水印信号的信号特征与物理语音水印信号的信号特征相匹配，这两种情形时，则确定待溯源的水印信号与物理语音水印信号相匹配，若不满足其中的任一种情形，则确定待溯源的水印信号与物理语音水印信号不匹配。

S404，确定待溯源的语音为从目标场景中所录制的语音。

上述物理语音水印信号是在目标场景中播放的声音信号，若目标场景中存在录音设备，则该录音设备中所录制的语音中必然包含该物理语音水印信号，因此，若待溯源的语音中的待溯源的水印信号，与物理语音水印信号相匹配，则可以确定待溯源的语音是目标场景中的录音设备所录制的，完成对于待溯源的语音的溯源。

S405，确定待溯源的语音不是从目标场景中所录制的语音。

本实施例中，由于物理语音水印信号是在目标场景中所播放的与目标场景的物理语音相匹配的声音信号，其意味着，若目标场景中存在录音设备，则该录音设备中所录制的语音中必然包含该物理语音水印信号，因此，若当基于预先记录的物理语音水印信号的指定信息，确定待溯源的水印信号与物理语音水印信号相匹配时，则可以确定待溯源的语音是目标场景中的录音设备所录制的。可见，通过本方案，可以实现对目标场景内录音设备所录制的语音的溯源。

可选的，在本发明的另一实施例中，上述确定待溯源的水印信号的播放信息与物理语音水印信号的播放信息是否相匹配，可以包括：

计算分布间隔序列与间隔时长序列的第一相似度，是否大于第一预设阈值，或确定分布间隔序列是否为间隔时长序列的相似子集；

若第一相似度大于第一预设阈值，或分布间隔序列为间隔时长序列的相似子集，则确定待溯源的水印信号的播放信息与物理语音水印信号的播放信息相匹配，若第一相似度不大于第一预设阈值，或分布间隔序列不是间隔时长序列的相似子集，则确定待溯源的水印信号的播放信息与物理语音水印信号的播放信息不匹配。

在该实现方式中，需要考虑以下两种情况：

第一种情况，所获取的待溯源的水印信号是完整的信号，该情况下，可以计算分布间隔序列与间隔时长序列的相似度，作为第一相似度；再确定第一相似度是否大于第一预设阈值；若第一相似度大于第一预设阈值，则确定分布间隔序列与间隔时长序列相匹配，否则，确定分布间隔序列与间隔时长序列不匹配。

考虑到待溯源的语音在传输的过程中，待溯源的水印信号在待溯源的语音中的分布间隔时长可以会与最初生成待溯源的语音时有所差异，通过比较分布间隔序列与间隔时长序列中各个数值的是否能够一一对应的方法，来确定分布间隔序列与间隔时长序列是否相匹配可能并不准确，因此，可以通过计算分布间隔序列与间隔时长序列的相似度的方式，来确定分布间隔序列与间隔时长序列是否相匹配，从而提高对待溯源的语音溯源的准确性。

第二种情况：所获取的待溯源的水印信号是不完整的信号，则可以利用Time Wrap（时间规整）技术来判断分布间隔序列是否为间隔时长序列的相似子集，若是，则可以确定分布间隔序列与间隔时长序列相匹配。示例性的，该种情况下，可以先利用Time Wrap技术提取间隔时长序列中与分布间隔序列相似的序列片段，再计算分布间隔序列与所提取的序列片段的余弦距离或Hamming距离是否大于预设的距离阈值，若是，则确定分布间隔序列为间隔时长序列的相似子集。

类似的，在一种实现方式中，上述确定待溯源的水印信号的信号特征与物理语音水印信号的信号特征是否相匹配，可以包括：

计算待溯源的水印信号的信号特征，与物理语音水印信号的信号特征的相似度，作为第二相似度；

确定第二相似度是否大于第二预设阈值；

若第二相似度大于第二预设阈值，则确定待溯源的水印信号的信号特征，与物理语音水印信号的信号特征相匹配，否则，确定待溯源的水印信号的信号特征，与物理语音水印信号的信号特征不匹配。

上述计算待溯源的水印信号的特征信息，与物理语音水印信号的特征信息的相似度可以为，计算待溯源的水印信号的特征信息与物理语音水印信号的特征信息的余弦距离或Hamming距离，当然也可以不局限于此。

本实施例中，当基于预先记录的物理语音水印信号的指定信息，确定待溯源的水印信号与物理语音水印信号相匹配时，则可以确定待溯源的语音是目标场景中的录音设备所录制的，以实现对目标场景内录音设备所录制的语音的溯源。进一步的，通过计算分布间隔序列与间隔时长序列的第一相似度的方式，来确定待溯源的水印信号的播放信息与物理语音水印信号的播放信息是否相匹配，可以防止因为分布间隔序列与间隔时长序列中各个数值的无法一一对应时，造成溯源出错的问题，从而进一步提高对目标场景内录音设备所录制的语音进行溯源的准确性。

为了方便理解，下面结合附图，对本发明实施例所提供的一种物理语音水印的注入方法和一种语音溯源方法进行示例性介绍。

如图5所示，在实际应用过程中，本发明实施例所提供的一种物理语音水印的注入方法的过程可以包括：

步骤1：实时对目标场景中的声音信号进行内容识别、分析与预测，获取目标场景的特征和声音信号携带的内容。

本步骤中，可以利用人工智能模型识别对目标场景中的声音信号进行实时识别，再基于预先训练的场景分类模型进行特征提取与场景分类，获取目标场景的特征和声音信号携带的内容。

步骤2：按照预设的规则，基于目标场景的特征，和声音信号携带的内容，确定与目标场景的物理语音相匹配的声音信号的类型和内容，作为物理语音水印信号。

其中，声音信号的类型可以包括噪声、歌曲、谈话等，声音信号的内容可以包括目标场景的标识信息、随机数字口令、随机文字口令等。

步骤3：将物理语音水印信号调制到超声波频段。

本步骤中，可以利用AM调制将物理语音水印信号调制到超声波频段。

步骤4：按照随机生成的间隔时长序列播放经过调制的物理语音水印信号，并记录随机生成的间隔时长序列。

其中，指定的间隔时长序列可以是由工作人员预先设定的，也可以是根据指定规则生成的，该指定规则可以为随机生成，或者根据该指定的间隔时长序列生成的时间、场景与间隔时长序列的对应关系生成。

步骤5：所播放的物理语音水印信号与目标场景中的声音信号进行自然叠加，使得录音设备录制的声音信号中嵌入有该物理语音水印信号。

可见，本实施例中，由于在目标场景中播放物理语音水印信号，使得物理语音水印信号播放后的语音在空口与目标环境中的物理语音进行叠加，其意味着叠加后的叠加语音中已被嵌入水印信息，此时，若目标环境中存在录音设备，则该录音设备仅能录制叠加语音，使得其所录制的语音中包含物理语音水印信号，进一步的，在播放物理语音水印信号之后，记录了物理语音水印信号的指定信息，从而后续可以利用该指定信息进行溯源，可见本方案为已嵌入物理语音水印信号的语音进行溯源提供了实现基础。

如图6所示，在实际应用过程中，本发明实施例所提供的一种语音溯源方法的过程可以包括：

步骤1：获取待溯源的语音。

步骤2：提取经过录音设备非线性解调后的待溯源的水印信号，以及待溯源的水印信号的分布间隔序列。

步骤3：计算提取的待溯源的水印信号与物理语音水印信号的相似度，作为第一相似度。

其中，待溯源的水印信号F₁可以为待溯源的水印信号的基带信号，物理语音水印信号F₀可以为物理语音水印信号的基带信号，可以通过计算余弦距离、Hamming距离等方式计算第一相似度S₁。

步骤4：判断提取的待溯源的水印信号的分布间隔序列是否处于物理语音水印信号的间隔时长序列内，并计算分布间隔序列与间隔时长序列的第二相似度。

本步骤中，可以先利用Time Wrap技术判断提取的待溯源的水印信号的分布间隔序列TI₁是否处于物理语音水印信号的间隔时长序列TI₀内，即提取间隔时长序列中与分布间隔序列相似的序列片段，并计算分布间隔序列与所提取的序列片段的余弦距离或Hamming距离，得到第二相似度S₂。

步骤5：判断第一相似度是否大于第一预设阈值，以及第二相似度是否大于第二预设阈值，若同时满足，则确定提取的待溯源的水印信号与物理语音水印信号相匹配。

本步骤中，检测第一相似度S₁和第二相似度S₂是否同时满足预设阈值thr₁和thr₂；若是，则确定该待溯源的语音中嵌入有物理语音水印信号F₁。

可见，本实施例中，由于物理语音水印信号是在目标场景中所播放的与目标场景的物理语音相匹配的声音信号，其意味着，若目标场景中存在录音设备，则该录音设备中所录制的语音中必然包含该物理语音水印信号，因此，若当基于预先记录的物理语音水印信号的指定信息，确定待溯源的水印信号与物理语音水印信号相匹配时，则可以确定待溯源的语音是目标场景中的录音设备所录制的。可见，通过本方案，可以实现对目标场景内录音设备所录制的语音的溯源。

本发明实施例还提供了一种物理语音水印的注入装置，如图7所述，该装置包括：

确定模块710，用于确定与目标场景的物理语音相匹配的声音信号，作为物理语音水印信号；

播放模块720，用于按照预设播放策略，在所述目标场景中播放所述物理语音水印信号，以使在所述目标场景中存在录音设备的情况下，所述录音设备所录制的语音为叠加语音；其中，所述叠加语音为所述物理语音与所述物理语音水印信号叠加后的声音信号；

记录模块730，用于记录所述物理语音水印信号的指定信息；其中，所述指定信息包括所述物理语音水印信号的信号特征，和/或所述物理语音水印信号的播放信息。

可选的，所述装置还包括：

调制模块，用于将所述物理语音水印信号调制到指定频段，得到调制后的所述物理语音水印信号；

所述播放模块，具体用于按照预设播放策略，在所述目标场景中播放调制后的所述物理语音水印信号。

可选的，所述指定频段为超声波频段。

可选的，所述播放模块，具体用于：

在所述目标场景中，多次播放所述物理语音水印信号；所述播放信息包括：所述物理语音水印信号的间隔时长序列，其中，所述间隔时长序列为所述物理语音水印信号播放间隔时长所组成的时长序列。

可选的，所述播放模块多次播放所述物理语音水印信号，包括：

在所述目标场景中，播放一次所述物理语音水印信号；

确定本次播放完成后的播放间隔时长；

可选的，所述播放模块确定本次播放完成后的播放间隔时长，包括：

可选的，所述播放模块从指定的间隔时长序列中选取一间隔时长，作为本次播放完成后的播放间隔时长，包括：

可选的，所述确定模块，具体用于在目标场景满足预设的声音水印注入需求时，确定与所述目标场景的物理语音相匹配的声音信号，作为物理语音水印信号。

接收到针对所述目标场景的声音水印注入指令；和/或，

检测到所述目标场景中的物理语音满足指定语音条件。

可选的，所述确定模块检测到所述目标场景中的物理语音满足指定语音条件，包括：

可选的，所述确定模块确定目标场景是否为指定场景，包括：

将所述目标场景中的物理语音输入到预先训练的场景分类模型中，得到所述场景分类模型输出的场景类型；

确定所得到的场景类型是否为指定场景所属的指定类型，若是，则确定所述目标场景为所述指定场景，否则确定所述目标场景不是所述指定场景；或，

可选的，所述确定模块，包括：

第一确定子模块，用于基于所述目标场景的物理语音，确定所述目标场景的场景信息；其中，所确定的场景信息包括所述目标场景的场景类型，和/或所述物理语音的信号内容；

选取子模块，用于基于预设的场景信息与声音信号的对应关系，从预设的各声音信号中，选取与所确定的场景信息对应的声音信号，作为与所述目标场景的物理语音相匹配的声音信号。

本发明实施例还提供了一种语音溯源装置，如图8所示，该装置包括：

获取模块810，用于获取待溯源的语音；

提取模块820，用于对所述待溯源的语音进行水印信号提取，得到待溯源的水印信号；

匹配模块830，用于基于预先记录的物理语音水印信号的指定信息，确定所述待溯源的水印信号与所述物理语音水印信号是否相匹配；其中，所述物理语音水印信号为在目标场景中所播放的与所述目标场景的物理语音相匹配的声音信号；所述指定信息包括所述物理语音水印信号的信号特征，和/或所述物理语音水印信号的播放信息；

溯源模块840，用于若相匹配，则确定所述待溯源的语音为从所述目标场景中所录制的语音。

可选的，所述匹配模块，包括：

第一获取子模块，用于在所述指定信息包括播放信息的情况下，获取所述待溯源的水印信号在所述待溯源的语音中的播放信息；确定所述待溯源的水印信号的播放信息与所述物理语音水印信号的播放信息是否相匹配，得到第一匹配结果；

第二获取子模块，用于在所述指定信息包括信号特征的情况下，确定所述待溯源的水印信号的信号特征与所述物理语音水印信号的信号特征是否相匹配，得到第二匹配结果；

匹配子模块，用于基于所述第一匹配结果和/或所述第二匹配结果，确定所述待溯源的水印信号与所述物理语音水印信号是否相匹配。

所述第一获取子模块获取所述待溯源的水印信号在所述待溯源的语音中的播放信息，包括：

可选的，所述第一获取子模块，包括：

第一计算单元，用于计算所述分布间隔序列与所述间隔时长序列的第一相似度，是否大于第一预设阈值，或确定所述分布间隔序列是否为所述间隔时长序列的相似子集；

第一确定单元，用于若所述第一相似度大于所述第一预设阈值，或所述分布间隔序列为所述间隔时长序列的相似子集，则确定所述待溯源的水印信号的播放信息与所述物理语音水印信号的播放信息相匹配，若所述第一相似度不大于所述第一预设阈值，或所述分布间隔序列不是所述间隔时长序列的相似子集，则确定所述待溯源的水印信号的播放信息与所述物理语音水印信号的播放信息不匹配。

可选的，所述第二获取子模块，包括：

第二计算单元，用于计算所述待溯源的水印信号的信号特征，与所述物理语音水印信号的信号特征的相似度，作为第二相似度；

第二确定单元，用于确定所述第二相似度是否大于第二预设阈值；

匹配单元，用于若所述第二相似度大于所述第二预设阈值，则确定所述待溯源的水印信号的信号特征，与所述物理语音水印信号的信号特征相匹配，否则，确定所述待溯源的水印信号的信号特征，与所述物理语音水印信号的信号特征不匹配。

可选的，所述匹配子模块，具体用于：

可选的，所述提取模块，具体用于：

本发明实施例还提供了一种电子设备，如图9所示，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信，

存储器903，用于存放计算机程序；

处理器901，用于执行存储器903上所存放的程序时，实现上述物理语音水印的注入方法或语音溯源方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准（Peripheral ComponentInterconnect，PCI）总线或扩展工业标准结构（Extended Industry StandardArchitecture，EISA）总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器（Random Access Memory，RAM），也可以包括非易失性存储器（Non-Volatile Memory，NVM），例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）等；还可以是数字信号处理器（Digital SignalProcessor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述物理语音水印的注入方法或语音溯源方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述物理语音水印的注入方法或语音溯源方法的步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质（例如固态硬盘Solid State Disk (SSD)）等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种物理语音水印的注入方法，其特征在于，所述方法包括：

按照预设播放策略，在所述目标场景中播放所述物理语音水印信号，以使在所述目标场景中存在非法录制的录音设备的情况下，所述录音设备所录制的语音为叠加语音；其中，所述叠加语音为所述物理语音与所述物理语音水印信号播放后的语音叠加后的语音；

记录所述物理语音水印信号的指定信息；其中，所述指定信息包括所述物理语音水印信号的信号特征，和/或所述物理语音水印信号的播放信息；

在所述按照预设播放策略，在所述目标场景中播放所述物理语音水印信号之前，所述方法还包括：

将所述物理语音水印信号调制到指定频段，得到调制后的所述物理语音水印信号；其中，所述指定频段为超声波频段；所述物理语音水印信号作为基带信号，利用载波信号进行调制；

按照预设播放策略，在所述目标场景中播放调制后的所述物理语音水印信号；

所述确定与目标场景的物理语音相匹配的声音信号，包括：

2.根据权利要求1所述的方法，其特征在于，所述按照预设播放策略，在所述目标场景中播放所述物理语音水印信号，包括：

在所述目标场景中，多次播放所述物理语音水印信号；

3.根据权利要求2所述的方法，其特征在于，所述在所述目标场景中，多次播放所述物理语音水印信号，包括：

在所述目标场景中，播放一次所述物理语音水印信号；

确定本次播放完成后的播放间隔时长；

4.根据权利要求3所述的方法，其特征在于，所述确定本次播放完成后的播放间隔时长，包括：

5.根据权利要求4所述的方法，其特征在于，所述从指定的间隔时长序列中选取一间隔时长，作为本次播放完成后的播放间隔时长，包括：

6.根据权利要求4所述的方法，其特征在于，所述指定的间隔时长序列为随机生成的间隔时长序列。

7.根据权利要求1所述的方法，其特征在于，所述确定与目标场景的物理语音相匹配的声音信号，作为物理语音水印信号，包括：

8.根据权利要求7所述的方法，其特征在于，所述目标场景满足预设的声音水印注入需求，包括：

接收到针对所述目标场景的声音水印注入指令；和/或，

检测到所述目标场景中的物理语音满足指定语音条件。

9.根据权利要求8所述的方法，其特征在于，所述检测到所述目标场景中的物理语音满足指定语音条件，包括：

10.根据权利要求9所述的方法，其特征在于，采用如下方式确定目标场景是否为指定场景，包括：

11.根据权利要求1所述的方法，其特征在于，所述物理语音水印信号为干扰信号。

12.根据权利要求11所述的方法，其特征在于，在所述目标场景为语音保密的类型的场景情况下，所述干扰信号为大振幅的噪声信号、人说话的声音信号中的至少一种；

在所述目标场景为信号内容为音乐的场景情况下，所述干扰信号为音乐类型的声音信号。

13.一种语音溯源方法，其特征在于，所述方法包括：

获取待溯源的语音；

基于预先记录的物理语音水印信号的指定信息，确定所述待溯源的水印信号与所述物理语音水印信号是否相匹配；其中，所述物理语音水印信号为在目标场景中所播放的与所述目标场景的物理语音相匹配的声音信号；所述指定信息包括所述物理语音水印信号的信号特征，和/或所述物理语音水印信号的播放信息；所述物理语音水印信号在被播放之前作为基带信号被调制到超声波频段；与所述目标场景的物理语音相匹配的所述物理语音水印信号为：基于预设的场景信息与声音信号的对应关系，从预设的各声音信号中，所选取与目标场景信息对应的声音信号；所述目标场景信息为基于所述目标场景的物理语音，所确定的所述目标场景的场景信息；其中，所述目标场景信息包括所述目标场景的场景类型，和/或所述物理语音的信号内容；

若相匹配，则确定所述待溯源的语音为从所述目标场景中由非法录制的录音设备所录制的语音。

14.根据权利要求13所述的方法，其特征在于，所述基于预先记录的物理语音水印信号的指定信息，确定所述待溯源的水印信号与所述物理语音水印信号是否相匹配，包括：

15.根据权利要求14所述的方法，其特征在于，所述物理语音水印信号的播放信息包括：所述物理语音水印信号的间隔时长序列，其中，所述间隔时长序列为所述物理语音水印信号在所述目标场景中多次播放时的播放间隔时长所组成的时长序列；

16.根据权利要求15所述的方法，其特征在于，所述确定所述待溯源的水印信号的播放信息与所述物理语音水印信号的播放信息是否相匹配，包括：

若所述第一相似度大于所述第一预设阈值，或所述分布间隔序列为所述间隔时长序列的相似子集，则确定所述待溯源的水印信号的播放信息与所述物理语音水印信号的播放信息相匹配；

若所述第一相似度不大于所述第一预设阈值，或所述分布间隔序列不是所述间隔时长序列的相似子集，则确定所述待溯源的水印信号的播放信息与所述物理语音水印信号的播放信息不匹配。

17.根据权利要求14所述的方法，其特征在于，所述确定所述待溯源的水印信号的信号特征与所述物理语音水印信号的信号特征是否相匹配，包括：

确定所述第二相似度是否大于第二预设阈值；

18.根据权利要求14所述的方法，其特征在于，所述基于所述第一匹配结果和/或所述第二匹配结果，确定所述待溯源的水印信号与所述物理语音水印信号是否相匹配，包括：

19.根据权利要求13所述的方法，其特征在于，所述对所述待溯源的语音进行水印信号提取，得到待溯源的水印信号，包括：

20.一种物理语音水印的注入装置，其特征在于，所述装置包括：

播放模块，用于按照预设播放策略，在所述目标场景中播放所述物理语音水印信号，以使在所述目标场景中存在非法录制的录音设备的情况下，所述录音设备所录制的语音为叠加语音；其中，所述叠加语音为所述物理语音与所述物理语音水印信号播放后的语音叠加后的语音；

记录模块，用于记录所述物理语音水印信号的指定信息；其中，所述指定信息包括所述物理语音水印信号的信号特征，和/或所述物理语音水印信号的播放信息；

所述装置还包括：

调制模块，用于将所述物理语音水印信号调制到指定频段，得到调制后的所述物理语音水印信号；其中，所述指定频段为超声波频段；所述物理语音水印信号作为基带信号进行调制；

所述播放模块，具体用于：

可选的，所述确定模块，包括：

21.一种语音溯源装置，其特征在于，所述装置包括：

获取模块，用于获取待溯源的语音；

匹配模块，用于基于预先记录的物理语音水印信号的指定信息，确定所述待溯源的水印信号与所述物理语音水印信号是否相匹配；其中，所述物理语音水印信号为在目标场景中所播放的与所述目标场景的物理语音相匹配的声音信号；所述指定信息包括所述物理语音水印信号的信号特征，和/或所述物理语音水印信号的播放信息；所述物理语音水印信号在被播放之前作为基带信号，利用载波信号调制到超声波频段；与所述目标场景的物理语音相匹配的所述物理语音水印信号为：基于预设的场景信息与声音信号的对应关系，从预设的各声音信号中，所选取与目标场景信息对应的声音信号；所述目标场景信息为基于所述目标场景的物理语音，所确定的所述目标场景的场景信息；其中，所述目标场景信息包括所述目标场景的场景类型，和/或所述物理语音的信号内容；

溯源模块，用于若相匹配，则确定所述待溯源的语音为从所述目标场景中由非法录制的录音设备所录制的语音。

22.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-12任一项所述的方法步骤，或者权利要求13-19任一项所述的方法步骤。

23.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-12任一项所述的方法步骤，或者权利要求13-19任一项所述的方法步骤。