CN114937455A - 语音检测方法及装置、设备及存储介质 - Google Patents

语音检测方法及装置、设备及存储介质 Download PDF

Info

Publication number
CN114937455A
CN114937455A CN202210861977.7A CN202210861977A CN114937455A CN 114937455 A CN114937455 A CN 114937455A CN 202210861977 A CN202210861977 A CN 202210861977A CN 114937455 A CN114937455 A CN 114937455A
Authority
CN
China
Prior art keywords
voice
state vector
detected
speech
detection model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210861977.7A
Other languages
English (en)
Other versions
CN114937455B (zh
Inventor
陶建华
王成龙
易江燕
张震
李鹏
石瑾
孙旭东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
National Computer Network and Information Security Management Center
Original Assignee
Institute of Automation of Chinese Academy of Science
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science, National Computer Network and Information Security Management Center filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202210861977.7A priority Critical patent/CN114937455B/zh
Publication of CN114937455A publication Critical patent/CN114937455A/zh
Application granted granted Critical
Publication of CN114937455B publication Critical patent/CN114937455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本公开涉及一种语音检测方法及装置、设备及存储介质,所述方法包括:接收待检测语音,根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征;将待检测语音输入预先训练好的语音检测模型,将所述语音检测模型的隐藏层的输出作为语音声学特征;拼接所述语义声学特征和所述语音声学特征,并将拼接后的声学特征输入所述语音检测模型的输出层,输出待检测语音是真实的还是伪造的检测结果,结合待检测语音的语义声学特征检测语音的真伪,通过语义声学特征中待检测语音的编码状态向量与解码状态向量之间的相关性,能够结合待检测语音的上下文之间的相关性检测语音的真伪,提高检测的准确性。

Description

语音检测方法及装置、设备及存储介质
技术领域
本公开涉及语音处理技术领域,尤其涉及一种语音检测方法及装置、设备及存储介质。
背景技术
为了提高伪音频检测系统的性能,近年来的工作主要集中在两个方面:改进音频的声学特征和设计有效的分类模型。
然而,现有的声学特征一般从幅度谱特征(如梅尔倒谱系数、线性频率倒谱系数等)和相位谱特征(群迟延图)来研究真实语音和生成语音的差异,对与语义相关的声学特征研究较少。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种语音检测方法及装置、设备及存储介质。
第一方面,本公开的实施例提供了一种语音检测方法,包括:
接收待检测语音,根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征,其中,所述权重值通过所述待检测语音的编码状态向量与解码状态向量之间的相关性确定;
将待检测语音输入预先训练好的语音检测模型,将所述语音检测模型的隐藏层的输出作为语音声学特征;
拼接所述语义声学特征和所述语音声学特征,并将拼接后的声学特征输入所述语音检测模型的输出层,输出待检测语音是真实的还是伪造的检测结果。
在一种可能的实施方式中,所述权重值通过所述待检测语音的编码状态向量与解码状态向量之间的相关性确定,包括:
对接收到的待检测语音进行编码,得到待检测语音的编码状态序列;
对所述编码状态序列进行解码,得到解码状态序列;
计算所述解码状态序列中的每一个解码状态向量与编码状态序列中每一个编码状态向量之间的相关性得分;
根据所述相关性得分,计算每一个编码状态向量的权重值。
在一种可能的实施方式中,通过以下表达式,计算所述解码状态序列中的每一个解码状态向量与编码状态序列中每一个编码状态向量之间的相关性得分:
Figure 169746DEST_PATH_IMAGE001
其中,
Figure 69569DEST_PATH_IMAGE002
是第j个编码状态向量,
Figure DEST_PATH_IMAGE003
是第i个解码状态向量,
Figure 697997DEST_PATH_IMAGE004
是第j个编码状态向量与第i个解码状态向量之间的相关性得分。
在一种可能的实施方式中,通过以下表达式,根据所述相关性得分,计算每一个编码状态向量的权重值:
Figure DEST_PATH_IMAGE005
其中,
Figure 999665DEST_PATH_IMAGE006
是第j个编码状态向量的权重值,
Figure DEST_PATH_IMAGE007
是第j个编码状态向量与第i个解码状态向量之间的相关性得分。
在一种可能的实施方式中,通过以下表达式,根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征:
Figure 422556DEST_PATH_IMAGE008
其中,
Figure 809675DEST_PATH_IMAGE006
是第j个编码状态向量的权重值,
Figure 179476DEST_PATH_IMAGE002
是第j个编码状态向量,
Figure DEST_PATH_IMAGE009
为语义声学特征。
在一种可能的实施方式中,所述语音检测模型通过以下步骤训练得到:
以已知的语音样本的语义声学特征和语音声学特征作为输入训练语音检测模型,得到语音检测模型的第一损失函数值;
以已知的语音样本的语音声学特征作为输入训练语音检测模型,得到语音检测模型的第二损失函数值;
根据第一损失函数值和第二损失函数值计算语音检测模型的总损失函数值,以通过总损失函数值调整语音检测模型的模型参数,得到训练后的语音检测模型。
在一种可能的实施方式中,当以已知的语音样本的语义声学特征和语音声学特征作为输入训练语音检测模型时,所述语音样本为真实语音;当以已知的语音样本的语音声学特征作为输入训练语音检测模型时,所述语音样本包括真实语音和伪造语音。
第二方面,本公开的实施例提供了一种语音检测装置,包括:
确定模块,其用于接收待检测语音,根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征;
输出模块,其用于将待检测语音输入预先训练好的语音检测模型,将所述语音检测模型的隐藏层的输出作为语音声学特征;
拼接模块,其用于拼接所述语义声学特征和所述语音声学特征,并将拼接后的声学特征输入所述语音检测模型的输出层,输出待检测语音是真实的还是伪造的检测结果。
第三方面,本公开的实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述的语音检测方法。
第四方面,本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的语音检测方法。。
本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部:
本公开实施例所述的语音检测方法,接收待检测语音,根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征,其中,所述权重值通过所述待检测语音的编码状态向量与解码状态向量之间的相关性确定;将待检测语音输入预先训练好的语音检测模型,将所述语音检测模型的隐藏层的输出作为语音声学特征;拼接所述语义声学特征和所述语音声学特征,并将拼接后的声学特征输入所述语音检测模型的输出层,输出待检测语音是真实的还是伪造的检测结果,结合待检测语音的语义声学特征检测语音的真伪,通过语义声学特征中待检测语音的编码状态向量与解码状态向量之间的相关性,能够结合待检测语音的上下文之间的相关性检测语音的真伪,提高检测的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了根据本公开实施例的语音检测方法的示意流程图;
图2示意性示出了根据本公开实施例的数据处理的装置的结构框图;以及
图3示意性示出了根据本公开实施例的电子设备的结构框图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
参见图1,本公开的语音检测方法,包括:
S1,接收待检测语音,根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征,其中,所述权重值通过所述待检测语音的编码状态向量与解码状态向量之间的相关性确定;
S2,将待检测语音输入预先训练好的语音检测模型,将所述语音检测模型的隐藏层的输出作为语音声学特征;
S3,拼接所述语义声学特征和所述语音声学特征,并将拼接后的声学特征输入所述语音检测模型的输出层,输出待检测语音是真实的还是伪造的检测结果。
在本实施例中,步骤S1中,所述权重值通过所述待检测语音的编码状态向量与解码状态向量之间的相关性确定,包括:
对接收到的待检测语音进行编码,得到待检测语音的编码状态序列;
对所述编码状态序列进行解码,得到解码状态序列;
计算所述解码状态序列中的每一个解码状态向量与编码状态序列中每一个编码状态向量之间的相关性得分;
根据所述相关性得分,计算每一个编码状态向量的权重值。
在本实施例中,在一种可能的实施方式中,通过以下表达式,计算所述解码状态序列中的每一个解码状态向量与编码状态序列中每一个编码状态向量之间的相关性得分:
Figure 132389DEST_PATH_IMAGE001
其中,
Figure 929444DEST_PATH_IMAGE002
是第j个编码状态向量,
Figure 538280DEST_PATH_IMAGE003
是第i个解码状态向量,
Figure 272624DEST_PATH_IMAGE004
是第j个编码状态向量与第i个解码状态向量之间的相关性得分。在实际应用中,
Figure 283305DEST_PATH_IMAGE010
或者
Figure DEST_PATH_IMAGE011
,其中,
Figure 251261DEST_PATH_IMAGE012
Figure 409710DEST_PATH_IMAGE013
分别为向量
Figure 121314DEST_PATH_IMAGE014
和向量
Figure 986502DEST_PATH_IMAGE015
的各分量。
在本实施例中,在一种可能的实施方式中,通过以下表达式,根据所述相关性得分,计算每一个编码状态向量的权重值:
Figure 125359DEST_PATH_IMAGE016
其中,
Figure 771104DEST_PATH_IMAGE017
是第j个编码状态向量的权重值,
Figure 20820DEST_PATH_IMAGE007
是第j个编码状态向量与第i个解码状态向量之间的相关性得分。
在本实施例中,步骤S1中,通过以下表达式,根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征:
Figure 6094DEST_PATH_IMAGE008
其中,
Figure 315852DEST_PATH_IMAGE017
是第j个编码状态向量的权重值,
Figure 448893DEST_PATH_IMAGE002
是第j个编码状态向量,
Figure 502300DEST_PATH_IMAGE009
为语义声学特征。
在本实施例中,步骤S2中,所述语音检测模型通过以下步骤训练得到:
以已知的语音样本的语义声学特征和语音声学特征作为输入训练语音检测模型,得到语音检测模型的第一损失函数值;
以已知的语音样本的语音声学特征作为输入训练语音检测模型,得到语音检测模型的第二损失函数值;
根据第一损失函数值和第二损失函数值计算语音检测模型的总损失函数值,以通过总损失函数值调整语音检测模型的模型参数,得到训练后的语音检测模型,其中,当以已知的语音样本的语义声学特征和语音声学特征作为输入训练语音检测模型时,所述语音样本为真实语音;当以已知的语音样本的语音声学特征作为输入训练语音检测模型时,所述语音样本包括真实语音和伪造语音。
以语音声学特征为线性频率倒谱系数为例,解释本公开的语音检测方法:
(1)语音声学特征通过基于注意力机制的序列到序列模型提取得到,不再将模型的源序列压缩为一个向量,而是在解码的每一步,都使用注意力机制来从编码状态序列中,计算一个上下文向量,其过程可以被描述为一个查询机制,解码器生成一个解码状态向量也被称之为查询向量,使用查询向量与编码状态序列中的每一个向量都计算一个相关性得分(能量值),该能量值表示的是编码向量中有多少信息与当前解码状态相关,然后使用分类器来对一系列的能量值进行归一化得到注意力分数,最后使用注意力分数作为权重,对编码状态序列进行加权求和,得到与当前解码标记相关的上下文向量。整个流程就是一个查询相关信息的过程。其可以被公式描述如下:
能量值的计算:
Figure 342080DEST_PATH_IMAGE001
其中,
Figure 822740DEST_PATH_IMAGE002
是第j个编码状态向量,
Figure 678963DEST_PATH_IMAGE003
是第i个解码状态向量,
Figure 536060DEST_PATH_IMAGE004
是第j个编码状态向量与第i个解码状态向量之间的相关性得分,
归一化计算:
Figure 230347DEST_PATH_IMAGE005
其中,
Figure 944225DEST_PATH_IMAGE017
是第j个编码状态向量的权重值,
Figure 989541DEST_PATH_IMAGE007
是第j个编码状态向量与第i个解码状态向量之间的相关性得分,
计算上下文向量:
Figure 384751DEST_PATH_IMAGE008
其中,
Figure 933544DEST_PATH_IMAGE017
是第j个编码状态向量的权重值,
Figure 83902DEST_PATH_IMAGE002
是第j个编码状态向量,
Figure 350936DEST_PATH_IMAGE009
为语义声学特征。
(2)将ResNet18作为语音检测模型,将
Figure 549836DEST_PATH_IMAGE018
表示为语音检测模型最后一层的输入,即:
Figure 953135DEST_PATH_IMAGE019
其中,
Figure 274395DEST_PATH_IMAGE020
为待检测语音的线性频率倒谱系数。
(3)联合训练:由于特征空间位移的问题,提取的语义声学特征表示并不总是语音检测模型的最佳拟合方法。为了解决这一问题,提出了多目标学习方法,联合优化基于注意力机制的序列到序列模型和语音检测模型,以相互促进,其中,用真实语音训练基于注意力机制的序列到序列模型,而语音检测模型同时训练真实语音和虚假语音。联合优化目标定义如下:
Figure 28724DEST_PATH_IMAGE021
其中,
Figure 765736DEST_PATH_IMAGE022
指定了相应项的相对重要性,可以通过实验选择。为了进行评估,首先将待检测的语音输入到训练好的基于注意力机制的序列到序列模型中,以提取语义声学特征
Figure 289122DEST_PATH_IMAGE009
,然后将提取的语义声学特征
Figure 285677DEST_PATH_IMAGE009
与原始线性频率倒谱系数相连接,然后将其引入多层语音检测模型中,以进行生成语音检测。在进行语音检测时,首先,提取待检测的语音的语义声学特征
Figure 261724DEST_PATH_IMAGE009
和线性频率倒谱系数,将两者拼接之后输入语音检测模型的最后一层给出当前输入语音的得分来判断此语音是否生成。
本公开的语音检测方法,解决目前语音检测中没有结合语义相关的特征的问题,事实上,每个说话人都有自己特有的说话方式,惯用词或者说话习惯等,这点在语音合成上很难实现,因此,将语义信息特征作为鉴别真伪音频的突破口,有效地在前端声学特征层面融合了语义声学特征作为语义信息用于语音检测,能够结合待检测语音的上下文之间的相关性检测语音的真伪,提高检测的准确性。
参见图2,本公开还提供一种语音检测装置,包括:
确定模块11,其用于接收待检测语音,根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征;
输出模块12,其用于将待检测语音输入预先训练好的语音检测模型,将所述语音检测模型的隐藏层的输出作为语音声学特征;
拼接模块13,其用于拼接所述语义声学特征和所述语音声学特征,并将拼接后的声学特征输入所述语音检测模型的输出层,输出待检测语音是真实的还是伪造的检测结果。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述第二个实施例中,确定模块11、输出模块12和拼接模块13中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。确定模块11、输出模块12和拼接模块13中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,确定模块11、输出模块12和拼接模块13中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
参见图3,本公开的第三个示例性实施例提供的电子设备,包括处理器1110、通信接口1120、存储器1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信;
存储器1130,用于存放计算机程序;
处理器1110,用于执行存储器1130上所存放的程序时,实现如下所示语音检测方法:
语音检测方法,其特征在于,所述方法包括:
接收待检测语音,根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征,其中,所述权重值通过所述待检测语音的编码状态向量与解码状态向量之间的相关性确定;
将待检测语音输入预先训练好的语音检测模型,将所述语音检测模型的隐藏层的输出作为语音声学特征;
拼接所述语义声学特征和所述语音声学特征,并将拼接后的声学特征输入所述语音检测模型的输出层,输出待检测语音是真实的还是伪造的检测结果。
上述的通信总线1140可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。
上述的处理器1110可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本公开的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述语音检测方法。
该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的数据处理的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种语音检测方法,其特征在于,所述方法包括:
接收待检测语音,根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征,其中,所述权重值通过所述待检测语音的编码状态向量与解码状态向量之间的相关性确定;
将待检测语音输入预先训练好的语音检测模型,将所述语音检测模型的隐藏层的输出作为语音声学特征;
拼接所述语义声学特征和所述语音声学特征,并将拼接后的声学特征输入所述语音检测模型的输出层,输出待检测语音是真实的还是伪造的检测结果。
2.根据权利要求1所述的方法,其特征在于,所述权重值通过所述待检测语音的编码状态向量与解码状态向量之间的相关性确定,包括:
对接收到的待检测语音进行编码,得到待检测语音的编码状态序列;
对所述编码状态序列进行解码,得到解码状态序列;
计算所述解码状态序列中的每一个解码状态向量与编码状态序列中每一个编码状态向量之间的相关性得分;
根据所述相关性得分,计算每一个编码状态向量的权重值。
3.根据权利要求2所述的方法,其特征在于,通过以下表达式,计算所述解码状态序列中的每一个解码状态向量与编码状态序列中每一个编码状态向量之间的相关性得分:
Figure 785386DEST_PATH_IMAGE001
其中,
Figure 206003DEST_PATH_IMAGE002
是第j个编码状态向量,
Figure 678573DEST_PATH_IMAGE003
是第i个解码状态向量,
Figure 854339DEST_PATH_IMAGE004
是第j个编码状态向量与第i个解码状态向量之间的相关性得分。
4.根据权利要求2所述的方法,其特征在于,通过以下表达式,根据所述相关性得分,计算每一个编码状态向量的权重值:
Figure 779570DEST_PATH_IMAGE005
其中,
Figure 3878DEST_PATH_IMAGE006
是第j个编码状态向量的权重值,
Figure 65375DEST_PATH_IMAGE007
是第j个编码状态向量与第i个解码状态向量之间的相关性得分。
5.根据权利要求1所述的方法,其特征在于,通过以下表达式,根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征:
Figure 412042DEST_PATH_IMAGE008
其中,
Figure 824569DEST_PATH_IMAGE006
是第j个编码状态向量的权重值,
Figure 852568DEST_PATH_IMAGE002
是第j个编码状态向量,
Figure 96467DEST_PATH_IMAGE009
为语义声学特征。
6.根据权利要求1所述的方法,其特征在于,所述语音检测模型通过以下步骤训练得到:
以已知的语音样本的语义声学特征和语音声学特征作为输入训练语音检测模型,得到语音检测模型的第一损失函数值;
以已知的语音样本的语音声学特征作为输入训练语音检测模型,得到语音检测模型的第二损失函数值;
根据第一损失函数值和第二损失函数值计算语音检测模型的总损失函数值,以通过总损失函数值调整语音检测模型的模型参数,得到训练后的语音检测模型。
7.根据权利要求6所述的方法,其特征在于,当以已知的语音样本的语义声学特征和语音声学特征作为输入训练语音检测模型时,所述语音样本为真实语音;当以已知的语音样本的语音声学特征作为输入训练语音检测模型时,所述语音样本包括真实语音和伪造语音。
8.一种语音检测装置,其特征在于,包括:
确定模块,其用于接收待检测语音,根据待检测语音的编码状态序列中每一个编码状态向量及其对应的权重值确定语义声学特征;
输出模块,其用于将待检测语音输入预先训练好的语音检测模型,将所述语音检测模型的隐藏层的输出作为语音声学特征;
拼接模块,其用于拼接所述语义声学特征和所述语音声学特征,并将拼接后的声学特征输入所述语音检测模型的输出层,输出待检测语音是真实的还是伪造的检测结果。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7中任一项所述的语音检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的语音检测方法。
CN202210861977.7A 2022-07-21 2022-07-21 语音检测方法及装置、设备及存储介质 Active CN114937455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210861977.7A CN114937455B (zh) 2022-07-21 2022-07-21 语音检测方法及装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210861977.7A CN114937455B (zh) 2022-07-21 2022-07-21 语音检测方法及装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114937455A true CN114937455A (zh) 2022-08-23
CN114937455B CN114937455B (zh) 2022-10-11

Family

ID=82867760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210861977.7A Active CN114937455B (zh) 2022-07-21 2022-07-21 语音检测方法及装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114937455B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103179122A (zh) * 2013-03-22 2013-06-26 马博 一种基于语音语义内容分析的防电信电话诈骗方法和系统
US20180240028A1 (en) * 2017-02-17 2018-08-23 International Business Machines Corporation Conversation and context aware fraud and abuse prevention agent
CN110459242A (zh) * 2019-08-21 2019-11-15 广州国音智能科技有限公司 变声检测方法、终端及计算机可读存储介质
CN112331230A (zh) * 2020-11-17 2021-02-05 平安科技(深圳)有限公司 一种欺诈行为识别方法、装置、计算机设备及存储介质
CN113284513A (zh) * 2021-07-26 2021-08-20 中国科学院自动化研究所 基于音素时长特征的虚假语音检测方法及装置
CN113611329A (zh) * 2021-07-02 2021-11-05 北京三快在线科技有限公司 一种语音异常检测的方法及装置
EP3989217A1 (en) * 2020-10-22 2022-04-27 Thomson Licensing Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
CN114596879A (zh) * 2022-03-25 2022-06-07 北京远鉴信息技术有限公司 一种虚假语音的检测方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103179122A (zh) * 2013-03-22 2013-06-26 马博 一种基于语音语义内容分析的防电信电话诈骗方法和系统
US20180240028A1 (en) * 2017-02-17 2018-08-23 International Business Machines Corporation Conversation and context aware fraud and abuse prevention agent
CN110459242A (zh) * 2019-08-21 2019-11-15 广州国音智能科技有限公司 变声检测方法、终端及计算机可读存储介质
EP3989217A1 (en) * 2020-10-22 2022-04-27 Thomson Licensing Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
CN112331230A (zh) * 2020-11-17 2021-02-05 平安科技(深圳)有限公司 一种欺诈行为识别方法、装置、计算机设备及存储介质
CN113611329A (zh) * 2021-07-02 2021-11-05 北京三快在线科技有限公司 一种语音异常检测的方法及装置
CN113284513A (zh) * 2021-07-26 2021-08-20 中国科学院自动化研究所 基于音素时长特征的虚假语音检测方法及装置
CN114596879A (zh) * 2022-03-25 2022-06-07 北京远鉴信息技术有限公司 一种虚假语音的检测方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁琦等: "基于言语情境分析的数字语音篡改检测", 《计算机应用》 *
阳帆等: "基于噪声一致性的数字语音异源拼接篡改检测算法", 《计算机应用》 *

Also Published As

Publication number Publication date
CN114937455B (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
CN110111773B (zh) 基于卷积神经网络的音乐信号多乐器识别方法
US20110131038A1 (en) Exception dictionary creating unit, exception dictionary creating method, and program therefor, as well as speech recognition unit and speech recognition method
JP5177561B2 (ja) 認識器重み学習装置および音声認識装置、ならびに、システム
CN103377651B (zh) 语音自动合成装置及方法
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
CN112420026A (zh) 优化关键词检索系统
CN113990300A (zh) 语音交互方法、车辆、服务器和计算机可读存储介质
CN113284513B (zh) 基于音素时长特征的虚假语音检测方法及装置
CN115083422B (zh) 语音溯源取证方法及装置、设备及存储介质
CN101882439B (zh) 一种基于Zernike矩的压缩域音频指纹方法
Yadav et al. ASSD: Synthetic Speech Detection in the AAC Compressed Domain
CN115881104A (zh) 基于热词编码的语音识别方法、装置和存储介质
CN113362814B (zh) 一种融合组合模型信息的语音鉴别模型压缩方法
Ghosal et al. Automatic male-female voice discrimination
CN114360514A (zh) 语音识别方法、装置、设备、介质及产品
CN114937455B (zh) 语音检测方法及装置、设备及存储介质
CN116153336B (zh) 一种基于多域信息融合的合成语音检测方法
CN114420100B (zh) 语音检测方法及装置、电子设备及存储介质
Choi et al. Learning to maximize speech quality directly using MOS prediction for neural text-to-speech
CN115132197B (zh) 数据处理方法、装置、电子设备、程序产品及介质
CN113724693A (zh) 语音判别方法、装置、电子设备及存储介质
Lin et al. Improving multi-lattice alignment based spoken keyword spotting
CN114267363B (zh) 语音对抗样本生成方法及装置、电子设备及存储介质
CN116386611B (zh) 一种教学声场环境的去噪方法
CN111105813B (zh) 朗读评分方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant