CN115578999A - 复制语音的检测方法、装置、电子设备及存储介质 - Google Patents

复制语音的检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115578999A
CN115578999A CN202211567001.5A CN202211567001A CN115578999A CN 115578999 A CN115578999 A CN 115578999A CN 202211567001 A CN202211567001 A CN 202211567001A CN 115578999 A CN115578999 A CN 115578999A
Authority
CN
China
Prior art keywords
voice
segments
speech
determining
constant value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211567001.5A
Other languages
English (en)
Inventor
陈东鹏
丁俊豪
范恒胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Voiceai Technologies Co ltd
Original Assignee
Voiceai Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Voiceai Technologies Co ltd filed Critical Voiceai Technologies Co ltd
Priority to CN202211567001.5A priority Critical patent/CN115578999A/zh
Publication of CN115578999A publication Critical patent/CN115578999A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了一种复制语音的检测方法、装置、电子设备及存储介质,涉及音频处理领域,该方法包括:获取待检测语音数据;对所述待检测语音数据进行语音识别,确定所述待检测语音数据中的至少两个语音段,所述至少两个语音段具有相同语音内容;对所述至少两个语音段进行复制语音检测,获得复制语音检测结果,其中,所述复制语音检测结果包括所述至少两个语音段为复制语音段。本申请相较于直接对原始待检测语音数据进行复制片段的暴力检测,能够提高复制语音检测的效率,并且降低计算量。

Description

复制语音的检测方法、装置、电子设备及存储介质
技术领域
本申请涉及音频处理领域,更具体地,涉及一种语音同一性的检验方法、装置、电子设备及存储介质。
背景技术
语音复制是伪造录音证据的常用手段,因此复制语音的检测是法庭确定录音证据的真实性检验的重要内容。音频信号是一种随机信号,实际录音过程中,即使完全相同的音源,录制的音频数据也不可能完全相同。因此,当语音数据中存在两个完全相同的数据片段,则说明这两个相同片段一定是人为复制造成的。
目前,常见的复制语音的检测方法是通过对全部语音采样数据进行无遗漏的复制片段匹配检测,计算量巨大,对于较长的音频,复制语音的检测效率极低。如何提高复制语音的检测的效率成为目标亟待解决的问题。
发明内容
鉴于上述问题,本申请实施例提出了一种复制语音的检测方法、装置、电子设备及存储介质,以改善上述问题。
第一方面,本申请提供了一种复制语音的检测方法,该方法包括:获取待检测语音数据;对所述待检测语音数据进行语音识别,确定所述待检测语音数据中的至少两个语音段,所述至少两个语音段具有相同语音内容;对所述至少两个语音段进行复制语音检测,获得复制语音检测结果,其中,所述复制语音检测结果包括所述至少两个语音段为复制语音段。
第二方面,本申请提供了一种复制语音的检测装置,该装置包括:待检测语音数据获取模块,用于获取待检测语音数据;语音识别模块,用于对所述待检测语音数据进行语音识别,确定所述待检测语音数据中的至少两个语音段,所述至少两个语音段具有相同语音内容;复制语音检测模块,用于对所述至少两个语音段进行复制语音检测,获得复制语音检测结果,其中,所述复制语音检测结果包括所述至少两个语音段为复制语音段。
在一些实施例中,所述复制语音检测模块包括:特征第一提取子模块,用于对所述至少两个语音段进行特征提取,获得所述至少两个语音段各自对应的特征序列;壁纸确定子模块,用于确定所述至少两个语音段各自对应的特征序列之间的比值;复制语音段第一确定子模块,用于若所述比值为恒定值或者与恒定值之间的差值小于预设差值,则确定所述至少两个语音段为复制语音段。
在一些实施例中,所述复制语音段第一确定子模块包括:第一确定单元,用于若所述比值为所述恒定值,则根据所述恒定值确定所述至少两个语音段由复制和粘贴获得;第二确定单元,用于若所述比值与所述恒定值之间的差值小于预设差值,则根据所述预设差值确定所述至少两个语音段由复制、缩放、抖动、粘贴获得。
在一些实施例中,所述恒定值包括第一恒定值和第二恒定值,所述若所述比值为所述恒定值,所述第一确定单元包括:第一确定子单元,用于若所述比值为第一恒定值,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段进行复制后粘贴获得;或者第二确定子单元,用于若所述比值为第二恒定值,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段依次进行复制和缩放后粘贴获得。
在一些实施例中,所述恒定值包括第三恒定值和第四恒定值,所述预设差值包括第一预设差值和第二预设差值,所述第二确定单元包括:第三确定子单元,用于若所述比值与第三恒定值之间的差值小于第一预设差值,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段依次进行复制、缩放以及抖动后粘贴获得;或者第四确定子单元,用于若所述比值与第四恒定值之间的差值小于第二预设差值,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段依次进行复制、抖动以及缩放后粘贴获得。
在一些实施例中,所述复制语音检测模块还包括:特征第二提取子模块,用于对所述至少两个语音段进行特征提取,获得所述至少两个语音段各自对应的特征序列;差值确定子模块,用于确定所述至少两个语音段各自对应的特征序列之间的差值;复制语音段第二确定子模块,用于若所述差值为恒定值或者所述差值位于预设差值范围内,则确定所述至少两个语音段为复制语音段。
在一些实施例中,所述复制语音段第二确定子模块包括:第五确定单元,用于若所述差值为第五恒定值,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段进行复制后粘贴获得;或第六确定单元,用于若所述差值位于所述预设差值范围内,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段依次进行复制和抖动后粘贴获得。
在一些实施例中,所述复制语音检测模块还包括:对齐子模块,用于对所述至少两个语音段各自对应的特征序列进行对齐,确定所述至少两个语音段各自对应的特征序列的对齐距离;目标序列确定子模块,用于根据所述对齐距离,确定所述至少两个语音段各自对应的特征序列对应的目标序列,其中,所述目标序列包括重叠差分序列和重叠比例序列中的至少一种;复制语音检测结果确定子模块,用于若所述目标序列符合对齐条件,则对所述目标序列进行复制语音检测,获得所述复制语音检测结果。
在一些实施例中,所述复制语音的检测装置还包括:语音时长确定模块,用于确定所述复制语音段在所述待检测语音数据中的时间戳,并根据所述时间戳确定所述复制语音段的语音时长;目标复制语音段确定模块,用于从所述复制语音段中确定语音时长大于预设时长的目标复制语音段。
第三方面,本申请实施例提供了一种电子设备,包括:处理器;存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如上所述的复制语音的检测方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被处理器执行时,实现如上所述的复制语音的检测方法。
在本申请的方案中,通过对待检测语音数据进行语音识别,以提取具有相同语音内容的至少两个语音段,进而能够根据该至少两个语音段进行复制语音检测,以此确定该待检测语音数据对应的复制语音检测结果。本申请相较于直接对原始待检测语音数据进行复制片段的暴力检测,能够提高复制语音检测的效率,并且降低计算量。
应当理解的是,以上的一般描述和后文细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请一实施例示出的复制语音的检测方法的流程示意图。
图2是本申请另一实施例示出的复制语音的检测方法的流程示意图。
图3是根据本申请一实施例示出的步骤250的具体步骤流程示意图。
图4是本申请再一实施例示出的复制语音的检测方法的流程示意图。
图5是本申请还一实施例示出的复制语音的检测方法的流程示意图。
图6是本申请又一实施例示出的复制语音的检测方法的流程示意图。
图7是根据本申请一实施例示出的复制语音的检测装置的框图。
图8是根据本申请一实施例示出的电子设备的硬件结构图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述,这些附图和文字描述并不是为了通过任何方式限值本发明构思的范围,而是通过特定实施例为本领域计算书人员说明本发明的概念。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
请参阅图1,图1示出了本申请一实施例提供的复制语音的检测方法,在具体的实施例中,该复制语音的检测方法可以应用于如图7所示的复制语音的检测装置600以及配置有复制语音的检测装置600的电子设备700(图8)。下面将说明本实施例的具体流程,当然,可以理解的,该方法可以由具备计算处理能力的电子设备执行,电子设备例如台式电脑、笔记本电脑、车载终端、车机大屏等终端设备,该方法还可以由包括服务器和终端的处理系统来交互执行。下面将针对图1所示的流程进行详细的阐述,所述复制语音的检测方法具体可以包括以下步骤:
步骤110,获取待检测语音数据。
其中,待检测语音数据是指需要进行复制检测的语音数据,该待检测语音数据可以是在法庭上作为证据所提交的语音数据。
步骤120,对所述待检测语音数据进行语音识别,确定所述待检测语音数据中的至少两个语音段,所述至少两个语音段具有相同语音内容。
语音识别(Automatic Speech Recognition,ASR)是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语音,把语音信号转变为相应的文本。
语音内容可以是文字内容,也可以是音素内容,在此不进行具体限定。
作为一种方式,可通过语音识别模型来对待检测语音数据进行语音识别,语音识别模型用于识别一段音频对应的文本内容。可选的,可以指定语音识别模型所要输出的语种。例如,语音识别模型的输入音频为英文,语音识别模型的输出文本可以是该音频对应的中文文本,也可以是英文文本,可根据实际需要来设定语音识别模型输出的文本内容的语种类型,在此不进行具体限定。
可选的,为了保证语音识别结果的准确性,需要预先将语音识别模型进行训练。具体的,预先构建样本集合,该样本集合包括多个样本语音数据和各样本语音数据对应的语音内容,其中,各样本语音数据对应的语音内容可以是文字内容。在训练过程中,将样本语音数据分别输入至语音识别模型中,进行语音识别,得到该样本语音数据的识样本别结果,可以理解的是,该样本识别结果指示该样本语音数据的文字内容。之后基于各样本语音数据对应的语音内容和该样本语音数据对应的样本识别结果计算损失函数的损失值,如果该损失值不收敛,则反向调整该语音识别模型的参数,并通过调整参数后的语音识别模型再次针对该样本语音数据输出样本识别结果,并再次计算损失函数的损失值,直至该损失值收敛。针对每一样本语音数据,重复上述过程,当达到训练结束条件时,则结束语音识别模型的训练。之后,将该语音识别模型用于线上进行对象识别,可以保证待检测语音数据的语音识别的准确性。
作为一种方式,在对待检测语音数据进行语音识别之前,可对待识别语音进行活动语音检测,对待检测语音数据中的活动语音和非活动语音进行区分,然后基于活动语音来进行语音识别。其中,活动语音检测(VAD,Voice Activity Detection)也叫端点检测,用于区分一段音频中的语音段和非语音段(又可以称为静音段),从而,将语音中静音段去掉,保留语音段。从而,在对待检测语音数据进行活动语音检测后,可以将待检测语音数据中的非语音段过滤掉,保留待检测语音数据中的活动语音(即语音段),则在语音识别过程中,仅对待检测语音数据中的活动语音进行识别即可,不需要关注待检测语音数据中的非语音段,降低待检测语音数据中的非语音段对语音识别的干扰,以此提高待检测语音数据的语音识别的准确性。
作为另一种方式,在对待检测语音数据进行语音识别之前,可对待检测语音数据进行降噪处理,以此避免待检测语音数据中的噪音数据对待检测语音数据的语音识别造成影响,进而降低待检测语音数据的语音识别的准确性。
步骤130,对所述至少两个语音段进行复制语音检测,获得复制语音检测结果,其中,所述复制语音检测结果包括所述至少两个语音段为复制语音段。
语音复制是伪造录音证据的常用手段,由于音频信号是一种随机信号,实际录音过程中,即使完全相同的音源(即同一人),录制的语音数据也不可能完全相同,因此,对作为证据所提交的语音数据进行语音复制检测是法庭录音真实性检验的重要内容。
可选的,复制语音段可以是在待检测语音数据中通过复制粘贴得到的语音片段。具体包括直接复制粘贴得到的语音片段,以及通过复制、等比缩放后再进行粘贴得到的语音片段等。
作为一种方式,由于具有相同语音内容的至少两个语音段不一定是复制语音段,需要对进行复制片段检测才能确定具有相同语音内容的至少两个语音段是否为复制语音段。可选的,根据至少两个语音段的语谱图进行比对,确定至少两个语音段的语谱图是否完全相同,若至少两个语音段的语谱图完全相同可确定该至少两个语音段为复制语音段;或者若至少两个语音段的语谱图呈现比例性的缩放,可确定该至少两个语音段为复制语音段;或者若至少两个语音段的语谱图之间的相似度大于相似度阈值,可确定该至少两个语音段为复制语音段。
作为另一种方式,可先对至少两个语音段进行采样,以确定至少两个语音段中各采样点对应的音频特征,根据至少两个语音段的各采样点的音频特征进行比对,确定具有相同音频特征的连续的采样点,该具有相同音频特征的连续的采样点对应的音频段为复制语音段。其中,各采样点的音频特征可以是在各采样点出语音段的幅度、频谱、倒频谱、共振峰、基音、反射系数等,在此不进行具体限定。
作为另一种方式,在当语音段的数目大于两个时,在对这些语音段进行复制语音检测时,复制语音检测结果还包括至少两个语音段为复制语音段,其余语音段与其他语音段互不为复制语音段。可选的,复制语音检测结果还包括所有语音段互不为复制语音段。
在本申请的实施例中,通过对待检测语音数据进行语音识别,以提取具有相同语音内容的至少两个语音段,进而能够根据该至少两个语音段进行复制语音检测,以此确定该待检测语音数据对应的复制语音检测结果。本申请相较于直接对原始待检测语音数据进行复制片段的暴力检测,能够提高复制语音检测的效率,并且降低计算量。
请参阅图2,图2示出了本申请一实施例提供的复制语音的检测方法,在具体的实施例中,该复制语音的检测方法可以应用于如图7所示的复制语音的检测装置600以及配置有复制语音的检测装置600的电子设备700(图8)。下面将说明本实施例的具体流程,当然,可以理解的,该方法可以由具备计算处理能力的电子设备执行,电子设备例如台式电脑、笔记本电脑、车载终端、车机大屏等终端设备,该方法还可以由包括服务器和终端的处理系统来交互执行。下面将针对图2所示的流程进行详细的阐述,所述复制语音的检测方法具体可以包括以下步骤:
步骤210,获取待检测语音数据。
步骤220,对所述待检测语音数据进行语音识别,确定所述待检测语音数据中的至少两个语音段,所述至少两个语音段具有相同语音内容。
其中,步骤210和步骤220的具体描述请参阅步骤110和步骤120,在此不再赘述。
步骤230,对所述至少两个语音段进行特征提取,获得所述至少两个语音段各自对应的特征序列。
作为一种方式,特征序列可以是由至少两个语音段对应的基频、能量和过零率等特征的序列,可选的,特征还可以是共振峰走势、梅尔倒谱系数、谐波等特征。可选的,可以通过语音信号处理算法,例如自相关法、倒谱法、线性预测(LPC)等方法来自动确定至少两个语音段中每一帧语音信号的基频、能量和过零率等特征,进而可以根据得到的至少两个语音段中每一帧语音信号的基频、能量和过零率等特征确定至少两个语音段各自对应的特征序列。
作为另一种方式,可先分别对至少两个人语音段进行采样,以确定至少两个人语音段的各采样点对应的特征值,然后基于至少两个人语音段的各采样点的顺序和各采样点对应的特征值来确定至少两个语音段各自对应的特征序列。可选的,采样点的个数和对至少两个语音段的采样频率可以根据实际需要来设置,在此不进行具体限定。
步骤240,确定所述至少两个语音段各自对应的特征序列之间的比值。
作为一种方式,每一采样点对应的特征值呈比例,且其比例系数为同一比例系数。基于该原理,可通过计算至少两个语音段各自对应的特征序列之间的比值来确定至少两个语音段是否为复制语音段。
可选的,可分别对至少两个语音段的特征序列的同一采样点对应的特征值相除,并确定各采样点的比值是否相同。可选的,还可预先设置满足预设条件的采样点组数阈值,对至少两个语音段的特征序列中满足预设条件的采样点组数进行统计,当组数大于组数阈值时,可将采样点之间的比值作为至少两个语音段各自对应的特征序列之间的比值。其中,该预设条件可以是不同组采样点的特征值的比值相同。可选的,预设条件还可以是在至少两个语音段对应的特征序列中,任意两个特征序列之间的不同组采样点的特征值的比值相同。
可选的,可以在至少两个语音段对应的特征序列中选取任一特征序列,将该特征序列中的第一个采样点的特征值分别与其他语音段对应的特征序列中的各采样点的特征值相除,以确定其他特征序列中与该第一个采样点具有相同特征值或呈比例的特征值对应的目标采样点,然后基于该目标采样点将两个特征序列进行对齐,然后确定两个特征序列之间的比值。
作为另一种方式,在确定至少两个语音段各自对应的特征序列之间的比值之前,基于各采样点对应的特征值,对采样点进行筛选,以此避免至少两个语音段各自对应的特征序列之间的比值存在无法确定的情况。可选的,对采样点进行筛选可以是,确定各采样点中是否存在特征值小于特征值阈值的采样点,若存在,则将该采样点滤除,其中,由于在计算各采样点之间的比值时,只对采样点的特征值的整数部分进行计算,为了避免出现整数部分为0的特征值进行比值计算,可将该特征值阈值设置为1,还可设置其他特征值阈值,在此不进行具体限定。
步骤250,若所述比值为恒定值或者与恒定值之间的差值小于预设差值,则确定所述至少两个语音段为复制语音段。
作为一种方式,在互为复制语音段中,其对应的特征序列之间的比值是恒定值或趋向于恒定值,则可根据步骤240所计算出的比值来确定至少两个语音段是否为复制语音段。
在一些实施例中,如图3所示,步骤250包括:
步骤251,若所述比值为所述恒定值,则根据所述恒定值确定所述至少两个语音段由复制和粘贴获得。
在一些实施例中,所述恒定值包括第一恒定值和第二恒定值,步骤251包括:若所述比值为所述第一恒定值,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段进行复制后粘贴获得;若所述比值为所述第二恒定值,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段依次进行复制和缩放后粘贴获得。
作为一种方式,若对第二语音段直接进行复制粘贴得到第一语音段,则第一语音段对应的特征序列与第二语音段对应的特征序列完全相同,则其对应的第一比值为第一恒定值,其中第一恒定值可以是1。
作为一种方式,对第二语音段复制后进行缩放,对应能够改变第二语音段的特征值,其特征值的改变与缩放比例呈负相关关系,即若缩放比例越大则对应的特征值与原本第二语音段对应的特征值相差越大,但在第一语音段和第二语音段的对应采样点之间,对应的特征值呈比例关系,并且所有对应采样点的比例相同。所以当确定比值为第二恒定值时,可确定至少两个语音段中的第一语音段由对至少两个语音段中的第二语音段依次进行复制和缩放后粘贴获得的。可选的,第二恒定值与第一恒定值不同,第二恒定值与缩放的比例相关。例如,对第二语音段进行复制后,对其缩放50%,然后进行粘贴得到第一语音段,则第一语音段的特征序列与第二语音段的特征序列之间的比值为2或1/2,可选的,第二恒定值也可以是其他值,在此仅作举例说明,不进行具体限定。
步骤252,若所述比值与所述恒定值之间的差值小于预设差值,则根据所述预设差值确定所述至少两个语音段由复制、缩放、抖动、粘贴获得。
在一些实施例中,所述恒定值包括第三恒定值和第四恒定值,所述预设差值包括第一预设差值和第二预设差值,步骤252包括:若所述比值与所述第三恒定值之间的差值小于所述第一预设差值,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段依次进行复制、缩放以及抖动后粘贴获得;若所述比值与所述第四恒定值之间的差值小于所述第二预设差值,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段依次进行复制、抖动以及缩放后粘贴获得。
抖动(dither)是通过使用少数的Bit达到与较多Bit同样的听觉效果,可通过在某一帧语音数据中的加入一些噪音来实现。例如,将16Bit的语音数据听起来为20Bit的语音数据,最简单的方法就是直接把20Bit的语音数据中的最后4个Bit去掉,但是这样会导致语音数据中的细节减小,但因为人耳对具有周期性的声音、频谱上特别突出的频率(formant)以及随时间变化而移动的突出频率特别敏感,当舍弃语音数据中末尾bit会造成和原本的语音数据的关联性低;进而造成很明显的语音数据不全,人耳对语音数据不全导致的音频突兀会很敏感。而利用抖动的方法则是在语音数据中的第17Bit-20Bit中加入一些噪音,这段噪音就叫做Dither。这些噪音加入后,可能会进位而改变第16个Bit的信息,然后我们再把最后4个Bit删掉,这个过程称为redithering,可以将原本语音数据中的后面4个Bit的数据线性地反映在第16个Bit上。由于人耳具有轻易将噪音与乐音分离的能力,所以虽然加入了噪音,实际上却听到了更多语音数据的细节,并未使得原本语音数据和抖动后的语音数据在听觉上出现明显不同。可选的,加入的噪声可以是白噪声(white noise),也可以是其他噪声,在此不进行具体限定。
作为一种方式,由于对第二语音段进行抖动处理,会导致对应各采样点的特征值与原始语音数据对应的各采样点的特征值不同,进而导致抖动后的语音数据的特征序列与原始语音数据的特征序列之间的比值发生改变,但该比值趋向于恒定值,即该比值与恒定值之间的差值的绝对值小于差值阈值。
根据上述描述,可通过对第一语音段和第二语音段对应的特征序列之间的比值,与第三恒定值之间的差值来确定至少两个语音段中的第一语音段,是否由对至少两个语音段中的第二语音段依次进行复制、缩放以及抖动后粘贴得到的。其中,第三恒定值与第二恒定值可以相同,也可以不通,可根据实际需要来确定,在此不进行具体限定。
作为一种方式,对第二语音段进行复制后,抖动和缩放的顺序不同会导致得到的第一语音段不同,即第一语音段对应的特征序列不同,进而会导致第一语音段的特征序列与第二语音段的特征序列之间的比值不同。对应的可确定不同的恒定值,以区分对第二语音段复制后,抖动和缩放的顺序,即第四恒定值与第三恒定值不同,可选的,第一预设差值与第二预设差值可以相同也乐意不同,可根据实际需要来设置,在此不进行限定。
在本实施例中,通过对具有相同语音内容的语音段各自对应的特征序列相除后的比值来进行复制语音检测,并根据该比值与恒定值或预设差值进行比对,以此确定复制语音段以及复制语音段的获得方法,提高复制语音的检测的准确性,提高复制语音的检测的效率。
请参阅图4,图4示出了本申请一实施例提供的复制语音的检测方法,在具体的实施例中,该复制语音的检测方法可以应用于如图7所示的复制语音的检测装置600以及配置有复制语音的检测装置600的电子设备700(图8)。下面将说明本实施例的具体流程,当然,可以理解的,该方法可以由具备计算处理能力的电子设备执行,电子设备例如台式电脑、笔记本电脑、车载终端、车机大屏等终端设备,该方法还可以由包括服务器和终端的处理系统来交互执行。下面将针对图4所示的流程进行详细的阐述,所述复制语音的检测方法具体可以包括以下步骤:
步骤310,获取待检测语音数据。
步骤320,对所述待检测语音数据进行语音识别,确定所述待检测语音数据中的至少两个语音段,所述至少两个语音段具有相同语音内容。
步骤330,对所述至少两个语音段进行特征提取,获得所述至少两个语音段各自对应的特征序列。
其中,步骤310-步骤330的具体描述请参阅步骤110-步骤120和步骤230,在此不再赘述。
步骤340,确定所述至少两个语音段各自对应的特征序列之间的差值。
作为一种方式,若两个语音段为复制语音段,在其对应的特征序列中,各采样点对应的特征值相同,基于该原理,可通过计算至少两个语音段各自对应的特征序列之间的差值来确定至少两个语音段是否为复制语音段。
步骤350,若所述差值为恒定值或者所述差值位于预设差值范围内,则确定所述至少两个语音段为复制语音段。
作为一种方式,在互为复制语音段中,其对应的特征序列之间的差值是恒定值或趋向于恒定值,则可根据步骤340所计算出的差值来确定至少两个语音段是否为复制语音段。
在一些实施例中,步骤350包括:若所述差值为第五恒定值,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段进行复制后粘贴获得;若所述差值位于所述预设差值范围内,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段依次进行复制和抖动后粘贴获得。
作为一种方式,若对第二语音段直接进行复制粘贴得到第一语音段,则第一语音段对应的特征序列与第二语音段对应的特征序列完全相同,则其对应的差值为第五恒定值,其中第五恒定值可以是0。
作为一种方式,对语音数据进行复制后,在进行抖动处理会对应的改变语音数据的各采样点的特征值,但是仅行抖动处理并不会造成各采样点的特征值发生大幅度的变化,仅在一定范围内发生变化,则可根据第一语音段对应的特征序列与第二语音段对应的特征序列之间的差值是否在预设差值范围来确定,至少两个语音段中的第一语音段是否由对至少两个语音段中的第二语音段依次进行复制和抖动后粘贴得到的。其中,预设差值范围可以是[-1,1],也可以是其他差值范围,在此不进行具体限定。
在本实施例中,通过对具有相同语音内容的语音段各自对应的特征序列相减后的差值来进行复制语音检测,并根据该差值与恒定值或预设差值范围进行比对,以此确定复制语音段以及复制语音段的获得方法,提高复制语音的检测的准确性,提高复制语音的检测的效率。
请参阅图5,图5示出了本申请一实施例提供的复制语音的检测方法,在具体的实施例中,该复制语音的检测方法可以应用于如图7所示的复制语音的检测装置600以及配置有复制语音的检测装置600的电子设备700(图8)。下面将说明本实施例的具体流程,当然,可以理解的,该方法可以由具备计算处理能力的电子设备执行,电子设备例如台式电脑、笔记本电脑、车载终端、车机大屏等终端设备,该方法还可以由包括服务器和终端的处理系统来交互执行。下面将针对图5所示的流程进行详细的阐述,所述复制语音的检测方法具体可以包括以下步骤:
步骤410,获取待检测语音数据。
步骤420,对所述待检测语音数据进行语音识别,确定所述待检测语音数据中的至少两个语音段,所述至少两个语音段具有相同语音内容。
其中,步骤410-步骤420的具体描述请参阅步骤110-步骤120,在此不再赘述。
步骤430,对所述至少两个语音段各自对应的特征序列进行对齐,确定所述至少两个语音段各自对应的特征序列的对齐距离。
作为一种方式,对于具有相同语音内容的至少两个语音段,在采样数据上很可能没有对齐,也即,即使具有相同语音内容的至少两个语音段是人为复制得到的,但该至少两个语音段的语音长度也不一定相同,对应的各采样点的位置也不一定是一一对应的,进而导致在至少两个语音段为复制语音段时,至少两个语音段对应的特征序列之间的比值或差值不满足要求,进而导致待检测语音数据的复制语音检测出此案错误。因此,在进行复制语音检测之前,需要对至少两个语音段进行对齐。可选的,可通过最大相关性来进行对齐。
对齐距离,是指在对至少两个语音段进行对齐时,至少一个语音段相较于任一语音段需要移动的距离。可选的,该对齐距离可以是在至少一个语音段对应的特征序列与任一语音段对应的特征序列进行对齐时,至少一个语音段对应的特征序列需要移动的采样点的点数;可选的,该对齐距离还可以是至少两个语音段根据对应的特征序列进行对齐后,至少一个语音段相对于任一语音段所移动的语音段的时长,可根据实际需要来设置,在此不进行具体限定。
作为一种方式,对至少两个语音段各自对应的特征序列进行对齐可通过相关函数来进行对齐,可选的,可利用公式:
Figure 176418DEST_PATH_IMAGE001
其中,
Figure 93559DEST_PATH_IMAGE002
为至少两个语音段中的任一个语音段对应的特征序列,
Figure 935613DEST_PATH_IMAGE003
为至少两个语音段中的另一个语音段对应的特征序列,
Figure 393139DEST_PATH_IMAGE004
为相关函数,通过相关函数
Figure 771293DEST_PATH_IMAGE005
确定至少两个语音段各自对应的特征序列在对齐后需要移动的距离m,n为至少两个语音段各自对应的特征序列中的采样点的序号。
步骤440,根据所述对齐距离,确定所述至少两个语音段各自对应的特征序列对应的目标序列,其中,所述目标序列包括重叠差分序列和重叠比例序列中的至少一种。
作为一种方式,在确定对齐距离后,根据对齐后的至少两个语音段各自对应的特征序列,确定重叠的采样点,基于该重叠的采样点确定目标序列,目标序列又称为重叠序列。
可选的,重叠差分序列或重叠比例序列是指在至少两个语音段各自对应的特征序列中进行对齐后的重叠序列相减后的序列;重叠比例序列是指在至少两个语音段各自对应的特征序列中进行对齐后的重叠序列相除后的序列,该重叠差分序列或重叠比例序列可用于进行复制语音检测。其中,重叠比例序列可根据图2所示的实施例进行复制语音检测,重叠差分序列可根据图4所示的实施例进行复制语音检测。
可选的,重叠差分序列可根据公式
Figure 593756DEST_PATH_IMAGE006
确定,其中,
Figure 923106DEST_PATH_IMAGE007
为重叠差分序列,
Figure 184323DEST_PATH_IMAGE008
为重叠序列的长度(采样点数和),
Figure 915518DEST_PATH_IMAGE009
为至少两个语音段中的任一语音段对应的特征序列对齐后的序列,
Figure 472664DEST_PATH_IMAGE010
为至少两个语音段中的另一语音段对应的特征序列对齐后的序列,可以理解的是,
Figure 289310DEST_PATH_IMAGE011
Figure 26322DEST_PATH_IMAGE012
此时为对齐状态,其中,k为重叠差分序列中的采样点,
Figure 612024DEST_PATH_IMAGE013
为重叠差分序列中的各采样点在
Figure 104185DEST_PATH_IMAGE014
的对应的采样点,
Figure 897874DEST_PATH_IMAGE015
为重叠差分序列中的各采样点在
Figure 172997DEST_PATH_IMAGE016
的对应的采样点。可选的,
Figure 878785DEST_PATH_IMAGE017
Figure 276269DEST_PATH_IMAGE018
,其中,m为对齐距离,
Figure 67507DEST_PATH_IMAGE019
为重叠差分序列的采样点对应在
Figure 710103DEST_PATH_IMAGE020
的原本特征序列中的采样点的顺序,
Figure 208081DEST_PATH_IMAGE021
为的重叠差分序列的采样点对应在
Figure 42045DEST_PATH_IMAGE022
的原本特征序列中的采样点的顺序。
可选的,重叠比例序列可根据公式
Figure 55000DEST_PATH_IMAGE023
确定,其中,
Figure 999822DEST_PATH_IMAGE024
为重叠比例序列,
Figure 916088DEST_PATH_IMAGE025
为重叠序列的长度(采样点数和),
Figure 858636DEST_PATH_IMAGE026
为至少两个语音段中的任一语音段对应的特征序列对齐后的序列,
Figure 358887DEST_PATH_IMAGE027
为至少两个语音段中的另一语音段对应的特征序列对齐后的序列,可以理解的是,
Figure 841821DEST_PATH_IMAGE026
Figure 376708DEST_PATH_IMAGE027
此时为对齐状态,其中,k为重叠差分序列中的采样点,
Figure 490157DEST_PATH_IMAGE028
为重叠差分序列中的各采样点在
Figure 979170DEST_PATH_IMAGE026
的对应的采样点,
Figure 265795DEST_PATH_IMAGE029
为重叠差分序列中的各采样点在
Figure 327292DEST_PATH_IMAGE030
的对应的采样点。可选的,
Figure 673959DEST_PATH_IMAGE031
Figure 148803DEST_PATH_IMAGE032
,其中,m为对齐距离,
Figure 740584DEST_PATH_IMAGE033
为重叠差分序列的采样点对应在
Figure 922166DEST_PATH_IMAGE034
的原本特征序列中的采样点的顺序,
Figure 174156DEST_PATH_IMAGE035
为的重叠差分序列的采样点对应在
Figure 136296DEST_PATH_IMAGE036
的原本特征序列中的采样点的顺序。
作为一种方式,在确定了对齐距离后,确定目标序列时,对齐距离为定值,可直接根据对齐距离来确定目标序列。
步骤450,若所述目标序列符合对齐条件,则对所述目标序列进行复制语音检测,获得所述复制语音检测结果。
作为一种方式,对齐条件可以是,重叠差分序列中,各重叠采样点的特征值之间的差值是否位于预设范围内,例如,各重叠采样点的特征值之间的差值位于[-1,1]之间,可确定重叠差分序列符合对齐条件,然后在根据图4所示的实施例对重叠差分序列进行复制语音检测,以此来确定复制语音段以及复制语音段的获取过程。
作为另一种方式,对齐条件还可以是,重叠比例序列中,各重叠采样点的特征值之间的比值是否位于预设范围内,可选的,若在重叠采样点的特征值之间存在特征值为0的重叠采样点,则可确定该重叠采样点的比值为0。可选的,为了避免至少两个语音段由于在复制过程中可能同时存在dither和缩放导致重叠比例序列中各重叠采样点的特征值之间的比值不位于预设范围内的情形,可在重叠比例序列中各重叠采样点中确定对应的特征值大于或等于特征值阈值的目标重叠采样点,基于目标重叠采样点的特征值的比值是否位于预设范围内来确定目标序列是否符合对齐条件。当重叠比例序列符合对齐条件后,根据图2所示的实施例对重叠比例序列进行复制语音检测,以此来确定复制语音段以及复制语音段的获取过程。
作为另一种方式,可在对至少两个语音段各自对应的特征序列进行对齐时,同时确定是否为复制语音段。可选的,在确定至少两个语音段各自对应的特征序列后,选取任一特征序列作为参考特征序列,以该参考特征序列的第一个采样点为基准,将其他特征序列的各采样点分别与参考特征序列的第一个采样点到最后一个采样点依次进行对齐,以确定重叠采样点,进而确定重叠差分序列或重叠比例序列。可选的,将其他特征序列的各采样点分别与参考特征序列的第一个采样点到最后一个采样点依次进行对齐可以是将其他特征序列的各采样点分别与参考特征序列的第一个采样点到最后一个采样点的特征值依次相减或相除,确定各采样点的特征值之间的差值或比值是否符合对齐条件,当各采样点的特征值之间的差值或比值符合对齐条件时,也同样符合复制语音检测的条件,进而在至少两个语音段中确定复制语音段。
在本实施例中,通过对具有相同语音内容的语音段对应的特征序列进行对齐来确定对齐距离,然后根据对齐距离在具有相同语音内容的语音段对应的特征序列中确定目标特征序列,进而能够在目标特征序列满足对齐条件的情况下来进行复制语音检测,确保存在复制语音段的待检测语音数据不被漏检,提高复制语音检测的准确性。
请参阅图6,图6示出了本申请一实施例提供的复制语音的检测方法,在具体的实施例中,该复制语音的检测方法可以应用于如图7所示的复制语音的检测装置600以及配置有复制语音的检测装置600的电子设备700(图8)。下面将说明本实施例的具体流程,当然,可以理解的,该方法可以由具备计算处理能力的电子设备执行,电子设备例如台式电脑、笔记本电脑、车载终端、车机大屏等终端设备,该方法还可以由包括服务器和终端的处理系统来交互执行。下面将针对图6所示的流程进行详细的阐述,所述车辆的控制方法具体可以包括以下步骤:
步骤510,获取待检测语音数据;
步骤520,对所述待检测语音数据进行语音识别,确定所述待检测语音数据中的至少两个语音段,所述至少两个语音段具有相同语音内容;
步骤530,对所述至少两个语音段进行复制语音检测,获得复制语音检测结果,其中,所述复制语音检测结果包括所述至少两个语音段为复制语音段。
其中,步骤510-步骤530的具体描述请参阅步骤110-步骤130,在此不再赘述。
步骤540,确定所述复制语音段在所述待检测语音数据中的时间戳,并根据所述时间戳确定所述复制语音段的语音时长。
作为一种方式,时间戳中可包括复制语音段分别在待检测语音数据中的开始时间戳和结束时间戳,基于开始时间戳和结束时间戳来确定复制语音段的语音时长。可选的,复制语音段的时间戳可以是对应的在对待检测语音数据进行语音识别时,同时对具有相同语音内容的至少两个语音段在待检测语音数据中的时间信息进行确定,以此便于后续确定复制语音段在待检测语音数据中的时间戳。
步骤550,从所述复制语音段中确定语音时长大于预设时长的目标复制语音段。
作为一种方式,为了使得确定复制语音段的有效性,可预先设置一语音时长,当一语音段的时长大于该预设时长时,才能保证该语音段中包括有效信息,即该语音段有效。因为,为了证明该有效的复制语音段,将确定的复制语音段的语音时长分别与预设时长进行对比,以此确定语音时长大于预设时长的目标复制语音段,保证复制语音检测的有效性。
在本实施例中,通过根据复制语音段在待检测语音数据中的时间戳来确定各复制语音段的语音时长,进而能够根据语音时长来确定目标复制语音段,以此确保复制语音检测的有效性,并提高复制语音检测的准确性。
图7是根据本申请一实施例示出的复制语音的检测装置的框图,如图7所示,该复制语音的检测装置600包括:待检测语音数据获取模块610、语音识别模块620和复制语音检测模块630。
待检测语音数据获取模块610,用于获取待检测语音数据;语音识别模块620,用于对所述待检测语音数据进行语音识别,确定所述待检测语音数据中的至少两个语音段,所述至少两个语音段具有相同语音内容;复制语音检测模块630,用于对所述至少两个语音段进行复制语音检测,获得复制语音检测结果,其中,所述复制语音检测结果包括所述至少两个语音段为复制语音段,或者,所述至少两个语音段不是复制语音段。
在一些实施例中,所述复制语音检测模块630包括:特征第一提取子模块,用于对所述至少两个语音段进行特征提取,获得所述至少两个语音段各自对应的特征序列;壁纸确定子模块,用于确定所述至少两个语音段各自对应的特征序列之间的比值;复制语音段第一确定子模块,用于若所述比值为恒定值或者与恒定值之间的差值小于预设差值,则确定所述至少两个语音段为复制语音段。
在一些实施例中,所述复制语音段第一确定子模块包括:第一确定单元,用于若所述比值为所述恒定值,则根据所述恒定值确定所述至少两个语音段由复制和粘贴获得;第二确定单元,用于若所述比值与所述恒定值之间的差值小于预设差值,则根据所述预设差值确定所述至少两个语音段由复制、缩放、抖动、粘贴获得。
在一些实施例中,所述恒定值包括第一恒定值和第二恒定值,所述若所述比值为所述恒定值,所述第一确定单元包括:第一确定子单元,用于若所述比值为第一恒定值,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段进行复制后粘贴获得;或者第二确定子单元,用于若所述比值为第二恒定值,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段依次进行复制和缩放后粘贴获得。
在一些实施例中,所述恒定值包括第三恒定值和第四恒定值,所述预设差值包括第一预设差值和第二预设差值,所述第二确定单元包括:第三确定子单元,用于若所述比值与第三恒定值之间的差值小于第一预设差值,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段依次进行复制、缩放以及抖动后粘贴获得;或者第四确定子单元,用于若所述比例与第四恒定值之间的差值小于第二预设差值,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段依次进行复制、抖动以及缩放后粘贴获得。
在一些实施例中,所述复制语音检测模块630还包括:特征第二提取子模块,用于对所述至少两个语音段进行特征提取,获得所述至少两个语音段各自对应的特征序列;差值确定子模块,用于确定所述至少两个语音段各自对应的特征序列之间的差值;复制语音段第二确定子模块,用于若所述差值为恒定值或者所述差值位于预设差值范围内,则确定所述至少两个语音段为复制语音段。
在一些实施例中,所述复制语音段第二确定子模块包括:第五确定单元,用于若所述差值为第五恒定值,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段进行复制后粘贴获得;或第六确定单元,用于若所述差值位于所述预设差值范围内,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段依次进行复制和抖动后粘贴获得。
在一些实施例中,所述复制语音检测模块630还包括:对齐子模块,用于对所述至少两个语音段各自对应的特征序列进行对齐,确定所述至少两个语音段各自对应的特征序列的对齐距离;目标序列确定子模块,用于根据所述对齐距离,确定所述至少两个语音段各自对应的特征序列对应的目标序列,其中,所述目标序列包括重叠差分序列和重叠比例序列中的至少一种;复制语音检测结果确定子模块,用于若所述目标序列符合对齐条件,则对所述目标序列进行复制语音检测,获得所述复制语音检测结果。
在一些实施例中,所述复制语音的检测装置600还包括:语音时长确定模块,用于确定所述复制语音段在所述待检测语音数据中的时间戳,并根据所述时间戳确定所述复制语音段的语音时长;目标复制语音段确定模块,用于从所述复制语音段中确定语音时长大于预设时长的目标复制语音段。
根据本申请实施例的一个方面,还提供了一种电子设备,如图8所示,该电子设备700包括处理器710以及一个或多个存储器720,一个或多个存储器720用于存储被处理器710执行的程序指令,处理器710执行程序指令时实施上述的复制语音的检测方法。
进一步地,处理器710可以包括一个或者多个处理核。处理器710运行或执行存储在存储器720内的指令、程序、代码集或指令集,以及调用存储在存储器720内的数据。可选地,处理器710可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器710可集成中央处理器 (CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器中,单独通过一块通信芯片进行实现。
根据本申请实施例的一个方面,提供了计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一实施例中的方法。
根据本申请的一个方面,本申请还提供了一种计算机可读存储介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载计算机可读指令,当该计算机可读存储指令被处理器执行时,实现上述任一实施例中的方法。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (12)

1.一种复制语音的检测方法,其特征在于,所述方法包括:
获取待检测语音数据;
对所述待检测语音数据进行语音识别,确定所述待检测语音数据中的至少两个语音段,所述至少两个语音段具有相同语音内容;
对所述至少两个语音段进行复制语音检测,获得复制语音检测结果,其中,所述复制语音检测结果包括所述至少两个语音段为复制语音段。
2.根据权利要求1所述的方法,其特征在于,所述对所述至少两个语音段进行复制语音检测,获得复制语音检测结果,包括:
对所述至少两个语音段进行特征提取,获得所述至少两个语音段各自对应的特征序列;
确定所述至少两个语音段各自对应的特征序列之间的比值;
若所述比值为恒定值或者与恒定值之间的差值小于预设差值,则确定所述至少两个语音段为复制语音段。
3.根据权利要求2所述的方法,其特征在于,所述若所述比值为恒定值或者与恒定值之间的差值小于预设差值,则确定所述至少两个语音段为复制语音段,包括:
若所述比值为所述恒定值,则根据所述恒定值确定所述至少两个语音段由复制和粘贴获得;
若所述比值与所述恒定值之间的差值小于预设差值,则根据所述预设差值确定所述至少两个语音段由复制、缩放、抖动和粘贴获得。
4.根据权利要求3所述的方法,其特征在于,所述恒定值包括第一恒定值和第二恒定值,所述若所述比值为所述恒定值,则根据所述恒定值确定所述至少两个语音段由复制和粘贴获得,包括:
若所述比值为所述第一恒定值,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段进行复制后粘贴获得;或者
若所述比值为所述第二恒定值,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段依次进行复制和缩放后粘贴获得。
5.根据权利要求3所述的方法,其特征在于,所述恒定值包括第三恒定值和第四恒定值,所述预设差值包括第一预设差值和第二预设差值,所述若所述比值与所述恒定值之间的差值小于预设差值,则根据所述预设差值确定所述至少两个语音段由复制、缩放、抖动、粘贴获得,包括:
若所述比值与所述第三恒定值之间的差值小于所述第一预设差值,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段依次进行复制、缩放以及抖动后粘贴获得;或者
若所述比值与所述第四恒定值之间的差值小于所述第二预设差值,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段依次进行复制、抖动以及缩放后粘贴获得。
6.根据权利要求1所述的方法,其特征在于,所述对所述至少两个语音段进行复制语音检测,获得复制语音检测结果包括:
对所述至少两个语音段进行特征提取,获得所述至少两个语音段各自对应的特征序列;
确定所述至少两个语音段各自对应的特征序列之间的差值;
若所述差值为恒定值或者所述差值位于预设差值范围内,则确定所述至少两个语音段为复制语音段。
7.根据权利要求6所述的方法,其特征在于,所述若所述差值为恒定值或者所述差值位于预设差值范围内,则确定所述至少两个语音段为复制语音段,包括:
若所述差值为第五恒定值,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段进行复制后粘贴获得;或
若所述差值位于所述预设差值范围内,则确定所述至少两个语音段中的第一语音段由对所述至少两个语音段中的第二语音段依次进行复制和抖动后粘贴获得。
8.根据权利要求2-7任一项所述的方法,其特征在于,对所述至少两个语音段进行复制语音检测,获得复制语音检测结果,包括:
对所述至少两个语音段各自对应的特征序列进行对齐,确定所述至少两个语音段各自对应的特征序列的对齐距离;
根据所述对齐距离,确定所述至少两个语音段各自对应的特征序列对应的目标序列,其中,所述目标序列包括重叠差分序列和重叠比例序列中的至少一种;
若所述目标序列符合对齐条件,则对所述目标序列进行复制语音检测,获得所述复制语音检测结果。
9.根据权利要求1-7任一项所述的方法,其特征在于,在所述对所述至少两个语音段进行复制语音检测,确定所述至少两个语音段是否为复制语音段之后,还包括:
确定所述复制语音段在所述待检测语音数据中的时间戳,并根据所述时间戳确定所述复制语音段的语音时长;
从所述复制语音段中确定语音时长大于预设时长的目标复制语音段。
10.一种复制语音的检测装置,其特征在于,所述装置包括:
待检测语音数据获取模块,用于获取待检测语音数据;
语音识别模块,用于对所述待检测语音数据进行语音识别,确定所述待检测语音数据中的至少两个语音段,所述至少两个语音段具有相同语音内容;
复制语音检测模块,用于对所述至少两个语音段进行复制语音检测,获得复制语音检测结果,其中,所述复制语音检测结果包括所述至少两个语音段为复制语音段。
11.一种电子设备,其特征在于,包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1-9中任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被处理器执行时,实现如权利要求1-9中任一项所述的方法。
CN202211567001.5A 2022-12-07 2022-12-07 复制语音的检测方法、装置、电子设备及存储介质 Pending CN115578999A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211567001.5A CN115578999A (zh) 2022-12-07 2022-12-07 复制语音的检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211567001.5A CN115578999A (zh) 2022-12-07 2022-12-07 复制语音的检测方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115578999A true CN115578999A (zh) 2023-01-06

Family

ID=84590273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211567001.5A Pending CN115578999A (zh) 2022-12-07 2022-12-07 复制语音的检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115578999A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1627295A (zh) * 2003-10-24 2005-06-15 微软公司 声频复制检测器
CN102915740A (zh) * 2012-10-24 2013-02-06 兰州理工大学 可实现篡改定位的语音感知哈希内容认证方法
CN103137138A (zh) * 2011-11-25 2013-06-05 司法部司法鉴定科学技术研究所 一种音频重复插入的检测方法
CN105023581A (zh) * 2015-07-24 2015-11-04 南京工程学院 一种基于时频域联合特征的音频篡改检测装置
CN105938716A (zh) * 2016-03-30 2016-09-14 浙江大学 一种基于多精度拟合的样本复制语音自动检测方法
CN109087669A (zh) * 2018-10-23 2018-12-25 腾讯科技(深圳)有限公司 音频相似度检测方法、装置、存储介质及计算机设备
CN109284717A (zh) * 2018-09-25 2019-01-29 华中师范大学 一种面向数字音频复制粘贴篡改操作的检测方法及系统
CN111899718A (zh) * 2020-07-30 2020-11-06 北京字节跳动网络技术有限公司 用于识别合成语音的方法、装置、设备和介质
CN112423010A (zh) * 2020-11-16 2021-02-26 广东省广播电视局 一种广播电视直转播监测系统及监测方法
CN113257255A (zh) * 2021-07-06 2021-08-13 北京远鉴信息技术有限公司 一种伪造语音的识别方法、装置、电子设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1627295A (zh) * 2003-10-24 2005-06-15 微软公司 声频复制检测器
CN103137138A (zh) * 2011-11-25 2013-06-05 司法部司法鉴定科学技术研究所 一种音频重复插入的检测方法
CN102915740A (zh) * 2012-10-24 2013-02-06 兰州理工大学 可实现篡改定位的语音感知哈希内容认证方法
CN105023581A (zh) * 2015-07-24 2015-11-04 南京工程学院 一种基于时频域联合特征的音频篡改检测装置
CN105938716A (zh) * 2016-03-30 2016-09-14 浙江大学 一种基于多精度拟合的样本复制语音自动检测方法
CN109284717A (zh) * 2018-09-25 2019-01-29 华中师范大学 一种面向数字音频复制粘贴篡改操作的检测方法及系统
CN109087669A (zh) * 2018-10-23 2018-12-25 腾讯科技(深圳)有限公司 音频相似度检测方法、装置、存储介质及计算机设备
CN111899718A (zh) * 2020-07-30 2020-11-06 北京字节跳动网络技术有限公司 用于识别合成语音的方法、装置、设备和介质
CN112423010A (zh) * 2020-11-16 2021-02-26 广东省广播电视局 一种广播电视直转播监测系统及监测方法
CN113257255A (zh) * 2021-07-06 2021-08-13 北京远鉴信息技术有限公司 一种伪造语音的识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US10236006B1 (en) Digital watermarks adapted to compensate for time scaling, pitch shifting and mixing
Zakariah et al. Digital multimedia audio forensics: past, present and future
CN109147796B (zh) 语音识别方法、装置、计算机设备及计算机可读存储介质
JP4906230B2 (ja) オーディトリーイベントに基づく特徴付けを使ったオーディオ信号の時間調整方法
Nematollahi et al. An overview of digital speech watermarking
Umapathy et al. Audio signal processing using time-frequency approaches: coding, classification, fingerprinting, and watermarking
JP2004528599A (ja) オーディトリーイベントに基づく特徴付けを使ったオーディオの比較
KR100888804B1 (ko) 동영상 데이터의 동일성 판단 및 동일 구간 검출 방법 및장치
US8682678B2 (en) Automatic realtime speech impairment correction
US20110066426A1 (en) Real-time speaker-adaptive speech recognition apparatus and method
CN102214464A (zh) 音频信号的瞬态检测方法以及基于该方法的时长调整方法
CN116490920A (zh) 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质
Kanhe et al. Robust image-in-audio watermarking technique based on DCT-SVD transform
CN112397093A (zh) 一种语音检测方法与装置
Yadav et al. ASSD: Synthetic Speech Detection in the AAC Compressed Domain
Sampaio et al. Detection of AMR double compression using compressed-domain speech features
Loweimi et al. Robust Source-Filter Separation of Speech Signal in the Phase Domain.
Doets et al. Distortion estimation in compressed music using only audio fingerprints
CN116884431A (zh) 基于cfcc特征的鲁棒音频复制粘贴篡改检测方法及装置
KR100766170B1 (ko) 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법
US10540990B2 (en) Processing of speech signals
CN115578999A (zh) 复制语音的检测方法、装置、电子设备及存储介质
CN115273826A (zh) 歌声识别模型训练方法、歌声识别方法及相关装置
Távora et al. Detecting replicas within audio evidence using an adaptive audio fingerprinting scheme
Chen et al. Speech watermarking for tampering detection based on modifications to lsfs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination