CN109087651B - 一种基于视频与语谱图的声纹鉴定方法、系统及设备 - Google Patents

一种基于视频与语谱图的声纹鉴定方法、系统及设备 Download PDF

Info

Publication number
CN109087651B
CN109087651B CN201811033064.6A CN201811033064A CN109087651B CN 109087651 B CN109087651 B CN 109087651B CN 201811033064 A CN201811033064 A CN 201811033064A CN 109087651 B CN109087651 B CN 109087651B
Authority
CN
China
Prior art keywords
spectrogram
video
voiceprint
audio file
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811033064.6A
Other languages
English (en)
Other versions
CN109087651A (zh
Inventor
黎智勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU SPEAKIN INTELLIGENT TECHNOLOGY Co.,Ltd.
Original Assignee
Speakin Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Speakin Technologies Co ltd filed Critical Speakin Technologies Co ltd
Priority to CN201811033064.6A priority Critical patent/CN109087651B/zh
Publication of CN109087651A publication Critical patent/CN109087651A/zh
Application granted granted Critical
Publication of CN109087651B publication Critical patent/CN109087651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于视频与语谱图的声纹鉴定方法,包括获取与音频文件对应的语谱图,其中音频文件与视频文件相对应;在视频文件和语谱图上分别建立对时间的关联关系,以便在视频文件和语谱图两者任一者中任选一个时间点时,在另一者中定位相同时间点,根据关联关系获得对应的视频和共振峰;结合视频和共振峰对声纹进行鉴定,以判断待识别者的身份。通过得到与视频文件对应的音频文件的语谱图,在视频文件和语谱图中建立关联关系后,当在视频文件和语谱图任一者中任选一个时间点后,另一者中则定位同样的时间点,得到视频和共振峰,观察待识别者说话时嘴型、表情等,增加鉴定依据。本发明还提供具有上述优点的系统、设备及计算机可读存储介质。

Description

一种基于视频与语谱图的声纹鉴定方法、系统及设备
技术领域
本发明涉及语音识别领域,特别是涉及一种基于视频与语谱图的声纹鉴定方法、系统、设备及计算机可读存储介质。
背景技术
每个人说话的声音都各不相同,人说话的声音就像人的指纹一样,具有“人各不一”的特征。特别是当人成年以后,发音器官已经成熟,语言习惯已经形成,除疾病影响等特殊情况下,语音都是稳定的。又因为每个人的生理结构、生活环境等因素不同,人的语音又有特定性。因此,通过对声纹鉴定进行人身辨别是一种重要的科学技术。
现有的鉴定方法是通过语谱图上共振峰的的形状和走势作为声纹鉴定最重要的依据。将得到的音频放入声音鉴定系统,将音频转换成语谱图,在进行鉴定时,只能通过听声音和观看语谱图上的共振峰对音频中的某一段音素进行鉴定。当鉴定人员得到的是一段视频时,通过声音对应语谱图来鉴定声纹,鉴定依据单一,鉴定结果的准确率低。
发明内容
本发明的目的是提供一种基于视频与语谱图的声纹鉴定方法、系统、设备及计算机可读存储介质,以解决现有技术中通过声音对应语谱图来鉴定,鉴定结果的准确率不高的问题。
本发明提供一种基于视频与语谱图的声纹鉴定方法,包括:
获取与音频文件对应的语谱图,其中所述音频文件与视频文件相对应;
在所述视频文件和所述语谱图上分别建立对时间的关联关系,以便在所述视频文件和所述语谱图两者的任一者中任选一个时间点时,在另一者中定位相同时间点,根据所述关联关系获得对应的视频和共振峰;
结合所述视频和所述共振峰对声纹进行鉴定,以判断待识别者的身份。
可选地,所述获取与音频文件对应的语谱图包括:
获取音频文件中的语谱参数,所述语谱参数包括带宽、动态范围、衰减系数、高频提升系数和加窗类型五种,以构建与所述音频文件对应的语谱图。
可选地,所述关联关系具体为回调函数。
可选地,所述结合所述视频和所述共振峰对声纹进行鉴定包括:
选取所述音频文件中用于分析的音节;
结合所述音节对应的共振峰和视频进行鉴定。
本发明还提供一种基于视频与语谱图的声纹鉴定系统,包括:
获取模块,用于获取与音频文件对应的语谱图,其中所述音频文件与视频文件相对应;
构建模块,用于在所述视频文件和所述语谱图上分别建立对时间的关联关系,以便在所述视频文件和所述语谱图两者的任一者中任选一个时间点时,在另一者中定位相同的时间点,根据所述关联关系获得对应的视频和共振峰;
验证模块,用于结合所述视频和所述共振峰对声纹进行鉴定,以判断待识别者的身份。
可选地,所述获取模块具体为:
获取音频文件中的语谱参数,所述语谱参数包括带宽、动态范围、衰减系数、高频提升系数和加窗类型五种,以构建与所述音频文件对应的语谱图的模块。
可选地,所述构建模块具体为:
在所述视频文件和所述语谱图上分别建立对时间的回调函数的模块。
可选地,所述验证模块具体为:
选取所述音频文件中用于分析的音节;
结合所述音节对应的共振峰和视频进行鉴定的模块。
本发明还提供一种基于视频与语谱图的声纹鉴定设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任一种所述基于视频与语谱图的声纹鉴定方法的步骤。
本发明还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种所述基于视频与语谱图的声纹鉴定方法的步骤。
本发明所提供的一种基于视频与语谱图的声纹鉴定方法,通过获取与音频文件对应的语谱图,其中所述音频文件与视频文件相对应;在所述视频文件和所述语谱图上分别建立对时间的关联关系,以便在所述视频文件或所述语谱图中任选一个时间点时,在另一者中定位所述时间点,根据所述关联关系获得对应的视频和共振峰;结合所述视频和所述共振峰对声纹进行鉴定,以便判断待识别者的身份。本申请中获取与视频文件对应的音频文件的语谱图,然后在视频文件和语谱图中分别建立对时间的关联关系,当在视频文件和语谱图任何一者中任选一个时间点后,则在另外一者中定位同样的时间点,根据建立的关联关系得到对应的视频和共振峰,进而根据视频和对应的共振峰对声纹进行鉴定,鉴定人员可以获得待识别者说话时的嘴型、表情等信息,增加了鉴定人员的鉴定依据。本发明还提供具有上述优点的系统、设备及计算机可读存储介质。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于视频与语谱图的声纹鉴定方法的一种具体实施方式的流程图;
图2为本发明实施例提供的基于视频与语谱图的声纹鉴定方法的另一种具体实施方式的流程图;
图3为本发明实施例提供的基于视频与语谱图的声纹鉴定方法的又一种具体实施方式的流程图;
图4为本发明实施例提供的一种基于视频与语谱图的声纹鉴定系统的结构框图。
具体实施方式
本发明的核心是提供一种基于视频与语谱图的声纹鉴定方法、系统、设备及计算机可读存储介质。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明所提供的一种基于视频与语谱图的声纹鉴定方法的一种具体实施方式的流程图,包括:
步骤S101:获取与音频文件对应的语谱图,其中所述音频文件与视频文件相对应。
本实施例中对音频文件的来源并不做具体限定,例如,音频文件可以是在视频文件中提取所得到,也可以是已经预先从视频文件中提取完毕的音频文件,当然还可以为不是从视频文件中提取,但是音频文件中的音频与视频文件中的视频在各个时间点上一致。本实例中的音频文件与视频文件相对应是指音频文件中的音频与视频文件中的视频在任何时刻的内容一致。
步骤S102:在所述视频文件和所述语谱图上分别建立对时间的关联关系,以便在所述视频文件和所述语谱图两者的任一者中任选一个时间点时,在另一者中定位相同时间点,根据所述关联关系获得对应的视频和共振峰。
本实施例中的关联关系可以为回调函数,当然也可以是任何能够实现在视频文件和语谱图两者当中的任何一个任意选择一个时间点,在另外一个中也定位到相同的时间点的其他形式的关联关系。
作为一种具体实施方式,可以在语谱图上建立回调函数,每次在语谱图上选择一个时间点,都会定位到视频文件上相同的时间点,在视频文件上也建立回调函数,每次在视频文件上选择一个时间点,都会定位到语谱图上相同的时间点。
步骤S103:结合所述视频和所述共振峰对声纹进行鉴定,以判断待识别者的身份。
本实施例所提供的一种基于视频与语谱图的声纹鉴定方法,通过得到与视频文件对应的音频文件的语谱图,然后在视频文件和语谱图中分别建立对时间的关联关系,当在视频文件和语谱图任何一者中任选一个时间点后,则在另外一者中定位同样的时间点,根据建立的关联关系得到对应的视频和共振峰,进而根据视频和对应的共振峰对声纹进行鉴定,鉴定人员可以获得待识别者说话时的嘴型、表情等信息,增加了鉴定人员的鉴定依据。当关联关系为回调函数时,操作简便,且在视频文件和语谱图任何一者中任选一个时间点,在另外一者中定位同样的时间点的过程中消耗时间短,提升鉴定效率。
请参考图2,图2为本发明所提供的一种基于视频与语谱图的声纹鉴定方法的另一种具体实施方式的流程图,该方法包括:
步骤S201:获取音频文件中的语谱参数,所述语谱参数包括带宽、动态范围、衰减系数、高频提升系数和加窗类型五种,以构建与所述音频文件对应的语谱图;
步骤S202:在所述视频文件和所述语谱图上分别建立对时间的关联关系,以便在所述视频文件和所述语谱图两者的任一者中任选一个时间点时,在另一者中定位相同时间点,根据所述关联关系获得对应的视频和共振峰;
步骤S203:结合所述视频和所述共振峰对声纹进行鉴定,以判断待识别者的身份。
本实施例所提供的一种基于视频与语谱图的声纹鉴定方法,通过获取包括带宽、动态范围、衰减系数、高频提升系数和加窗类型在内的语谱参数,进而得到语谱图,在后续的声纹鉴定过程中,当语谱图上的某处共振峰的显示或者走向趋势不清楚时,可以通过调整上述语谱参数使共振峰的显示或者走向趋势更加清楚、明显,为鉴定人员提供更加可靠的信息,使鉴定人员做出更加正确的判断,提高鉴定正确的概率。
请参考图3,图3为本发明所提供的一种基于视频与语谱图的声纹鉴定方法的又一种具体实施方式的流程图。在上述实施例的基础上,作为一种具体实施方式,所述结合所述视频和所述共振峰对声纹进行鉴定包括:
选取所述音频文件中用于分析的音节;
结合所述音节对应的共振峰和视频进行鉴定。
本实施例中对音节不做具体限定,可以是在汉语中的音节,一般情况下一个汉字的读音即为一个音节,分为两拼音节、三拼音节、整体认读音节和自成音节四类,也可以是英语中的音节,英语单词中一个个读音的基本单位即为一个音节,当然还可以为其他任何语言中的音节,只要能达到鉴定的目的即可。
本实施例中鉴定人员可以根据需要选定音频文件中的单个音节,根据单个音节来进行鉴定,对一个个的音节进行分析和鉴定,可以使鉴定人员的鉴定工作更加细致,给鉴定人员带来更多的鉴定参考点,得出正确的鉴定结果。
下面对本发明实施例提供的一种基于视频与语谱图的声纹鉴定系统进行介绍,下文描述的一种基于视频与语谱图的声纹鉴定系统与上文描述的一种基于视频与语谱图的声纹鉴定方法可相互对应参照。
图4为本发明实施例提供的一种基于视频与语谱图的声纹鉴定系统的结构框图,参照图4一种基于视频与语谱图的声纹鉴定系统可以包括:
获取模块100,用于获取与音频文件对应的语谱图,其中所述音频文件与视频文件相对应;
构建模块200,用于在所述视频文件和所述语谱图上分别建立对时间的关联关系,以便在所述视频文件和所述语谱图两者的任一者中任选一个时间点时,在另一者中定位相同的时间点,根据所述关联关系获得对应的视频和共振峰;
验证模块300,用于结合所述视频和所述共振峰对声纹进行鉴定,以判断待识别者的身份。
作为一种具体实施方式,所述获取模块具体为:
获取音频文件中的语谱参数,所述语谱参数包括带宽、动态范围、衰减系数、高频提升系数和加窗类型五种,以构建与所述音频文件对应的语谱图的模块。
作为一种具体实施方式,所述构建模块具体为:
在所述视频文件和所述语谱图上分别建立对时间的回调函数的模块。
作为一种具体实施方式,所述验证模块具体为:
选取所述音频文件中用于分析的音节;
结合所述音节对应的共振峰和视频进行鉴定的模块。
本实施例所提供的基于视频与语谱图的声纹鉴定系统通过获取与视频文件对应的音频文件的语谱图,然后在视频文件和语谱图中分别建立对时间的关联关系,当在视频文件和语谱图任何一者中任选一个时间点后,则在另外一者中定位同样的时间点,根据建立的关联关系得到对应的视频和共振峰,进而根据视频和对应的共振峰对声纹进行鉴定,鉴定人员可以获得待识别者说话时的嘴型、表情等信息,增加了鉴定人员的鉴定依据。
下面对本发明实施例提供的一种基于视频与语谱图的声纹鉴定设备进行介绍,下文描述的一种基于视频与语谱图的声纹鉴定设备与上文描述的一种基于视频与语谱图的声纹鉴定方法可相互对应参照。
本实施还提供一种基于视频与语谱图的声纹鉴定设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任一实施例所述的基于视频与语谱图的声纹鉴定方法的步骤。
本发明实施例所提供的声纹鉴定设备,通过获取与视频文件对应的音频文件的语谱图,然后在视频文件和语谱图中分别建立对时间的关联关系,当在视频文件和语谱图任何一者中任选一个时间点后,则在另外一者中定位同样的时间点,根据建立的关联关系得到对应的视频和共振峰,进而根据视频和对应的共振峰对声纹进行鉴定,鉴定人员可以获得待识别者说话时的嘴型、表情等信息,增加了鉴定人员的鉴定依据。
下面对本发明实施例提供的一种基于视频与语谱图的声纹鉴定计算机可读存储介质进行介绍,下文描述的一种基于视频与语谱图的声纹鉴定计算机可读存储介质与上文描述的一种基于视频与语谱图的声纹鉴定方法可相互对应参照。
本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的基于视频与语谱图的声纹鉴定方法的步骤。例如计算机程序被处理器执行时实现获取与音频文件对应的语谱图,其中所述音频文件与视频文件相对应;在所述视频文件和所述语谱图上分别建立对时间的关联关系,以便在所述视频文件和所述语谱图两者的任一者中任选一个时间点时,在另一者中定位相同时间点,根据所述关联关系获得对应的视频和共振峰;结合所述视频和所述共振峰对声纹进行鉴定,以判断待识别者的身份。
本实施例所提供的基于视频与语谱图的声纹鉴定的计算机可读存储介质通过获取与视频文件对应的音频文件的语谱图,然后在视频文件和语谱图中分别建立对时间的关联关系,当在视频文件和语谱图任何一者中任选一个时间点后,则在另外一者中定位同样的时间点,根据建立的关联关系得到对应的视频和共振峰,进而根据视频和对应的共振峰对声纹进行鉴定,鉴定人员可以获得待识别者说话时的嘴型、表情等信息,增加了鉴定人员的鉴定依据。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的设备而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的基于视频与语谱图的声纹鉴定方法、系统设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种基于视频与语谱图的声纹鉴定方法,其特征在于,包括:
获取与音频文件对应的语谱图,其中所述音频文件与视频文件相对应;
在所述视频文件和所述语谱图上分别建立对时间的关联关系,以便在所述视频文件和所述语谱图两者的任一者中任选一个时间点时,在另一者中定位相同时间点,根据所述关联关系获得对应的视频和共振峰;
结合所述视频和所述共振峰对声纹进行鉴定,以判断待识别者的身份。
2.如权利要求1所述的基于视频与语谱图的声纹鉴定方法,其特征在于,所述获取与音频文件对应的语谱图包括:
获取音频文件中的语谱参数,所述语谱参数包括带宽、动态范围、衰减系数、高频提升系数和加窗类型五种,以构建与所述音频文件对应的语谱图。
3.如权利要求2所述的基于视频与语谱图的声纹鉴定方法,其特征在于,所述关联关系具体为回调函数。
4.如权利要求3所述的基于视频与语谱图的声纹鉴定方法,其特征在于,所述结合所述视频和所述共振峰对声纹进行鉴定包括:
选取所述音频文件中用于分析的音节;
结合所述音节对应的共振峰和视频进行鉴定。
5.一种基于视频与语谱图的声纹鉴定系统,其特征在于,包括:
获取模块,用于获取与音频文件对应的语谱图,其中所述音频文件与视频文件相对应;
构建模块,用于在所述视频文件和所述语谱图上分别建立对时间的关联关系,以便在所述视频文件和所述语谱图两者的任一者中任选一个时间点时,在另一者中定位相同的时间点,根据所述关联关系获得对应的视频和共振峰;
验证模块,用于结合所述视频和所述共振峰对声纹进行鉴定,以判断待识别者的身份。
6.如权利要求5所述的基于视频与语谱图的声纹鉴定系统,其特征在于,所述获取模块具体为:
获取音频文件中的语谱参数,所述语谱参数包括带宽、动态范围、衰减系数、高频提升系数和加窗类型五种,以构建与所述音频文件对应的语谱图的模块。
7.如权利要求6所述的基于视频与语谱图的声纹鉴定系统,其特征在于,所述构建模块具体为:
在所述视频文件和所述语谱图上分别建立对时间的回调函数的模块。
8.如权利要求7所述的基于视频与语谱图的声纹鉴定系统,其特征在于,所述验证模块具体为:
选取所述音频文件中用于分析的音节;
结合所述音节对应的共振峰和视频进行鉴定的模块。
9.一种基于视频与语谱图的声纹鉴定设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述基于视频与语谱图的声纹鉴定方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述基于视频与语谱图的声纹鉴定方法的步骤。
CN201811033064.6A 2018-09-05 2018-09-05 一种基于视频与语谱图的声纹鉴定方法、系统及设备 Active CN109087651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811033064.6A CN109087651B (zh) 2018-09-05 2018-09-05 一种基于视频与语谱图的声纹鉴定方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811033064.6A CN109087651B (zh) 2018-09-05 2018-09-05 一种基于视频与语谱图的声纹鉴定方法、系统及设备

Publications (2)

Publication Number Publication Date
CN109087651A CN109087651A (zh) 2018-12-25
CN109087651B true CN109087651B (zh) 2021-01-19

Family

ID=64840703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811033064.6A Active CN109087651B (zh) 2018-09-05 2018-09-05 一种基于视频与语谱图的声纹鉴定方法、系统及设备

Country Status (1)

Country Link
CN (1) CN109087651B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112150740B (zh) * 2020-09-10 2022-02-22 福建创识科技股份有限公司 无感安全支付系统和方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8505108B2 (en) * 1993-11-18 2013-08-06 Digimarc Corporation Authentication using a digital watermark
JPH09198082A (ja) * 1996-01-12 1997-07-31 Oki Electric Ind Co Ltd 音声認識装置
US6014625A (en) * 1996-12-30 2000-01-11 Daewoo Electronics Co., Ltd Method and apparatus for producing lip-movement parameters in a three-dimensional-lip-model
JP2003255993A (ja) * 2002-03-04 2003-09-10 Ntt Docomo Inc 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
CN1242377C (zh) * 2003-03-16 2006-02-15 广东省深圳市人民检察院 广州话声纹鉴定方法
AU2005330569A1 (en) * 2005-04-13 2006-12-07 Pixel Instruments, Corp. Method, system, and program product for measuring audio video synchronization independent of speaker characteristics
CN100369469C (zh) * 2005-08-23 2008-02-13 王维国 语音驱动头部图像合成影音文件的方法
CN101930747A (zh) * 2010-07-30 2010-12-29 四川微迪数字技术有限公司 一种将语音转换成口型图像的方法和装置
CN102169642B (zh) * 2011-04-06 2013-04-03 沈阳航空航天大学 具有智能纠错功能的交互式虚拟教师系统
US9406089B2 (en) * 2013-04-30 2016-08-02 Intuit Inc. Video-voice preparation of electronic tax return
CN103714826B (zh) * 2013-12-18 2016-08-17 讯飞智元信息科技有限公司 面向声纹鉴定的共振峰自动匹配方法
TWI557004B (zh) * 2014-01-10 2016-11-11 Utechzone Co Ltd Identity authentication system and its method
CN104376250A (zh) * 2014-12-03 2015-02-25 优化科技(苏州)有限公司 基于音型像特征的真人活体身份验证方法
CN105224925A (zh) * 2015-09-30 2016-01-06 努比亚技术有限公司 视频处理装置、方法及移动终端
CN106709402A (zh) * 2015-11-16 2017-05-24 优化科技(苏州)有限公司 基于音型像特征的真人活体身份验证方法
CN106911630A (zh) * 2015-12-22 2017-06-30 上海仪电数字技术股份有限公司 终端及身份认证方法、终端和认证中心的认证方法及系统
CN105512348B (zh) * 2016-01-28 2019-03-26 北京旷视科技有限公司 用于处理视频和相关音频的方法和装置及检索方法和装置
JP6708035B2 (ja) * 2016-07-19 2020-06-10 株式会社デンソー 発話内容認識装置
CN107680601B (zh) * 2017-10-18 2019-02-01 深圳势必可赢科技有限公司 一种基于语谱图和音素检索的身份同一性检验方法及装置
CN107945789A (zh) * 2017-12-28 2018-04-20 努比亚技术有限公司 语音识别方法、装置及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于文本及视音频多模态信息的新闻分割;刘扬等;《计算机工程与应用》;20071211;全文 *

Also Published As

Publication number Publication date
CN109087651A (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
CN108305615B (zh) 一种对象识别方法及其设备、存储介质、终端
US10339290B2 (en) Spoken pass-phrase suitability determination
US11056097B2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
Zhang et al. Voice disguise and automatic speaker recognition
RU2419890C1 (ru) Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания
US20170140760A1 (en) Adaptive voice authentication system and method
Park et al. Speaker Identity and Voice Quality: Modeling Human Responses and Automatic Speaker Recognition.
US20180137778A1 (en) Language learning system, language learning support server, and computer program product
US20120078625A1 (en) Waveform analysis of speech
Park et al. Towards understanding speaker discrimination abilities in humans and machines for text-independent short utterances of different speech styles
US10706867B1 (en) Global frequency-warping transformation estimation for voice timbre approximation
CN106782503A (zh) 基于发音过程中生理信息的自动语音识别方法
CN110111778B (zh) 一种语音处理方法、装置、存储介质及电子设备
KR20210071713A (ko) 스피치 스킬 피드백 시스템
CN109087651B (zh) 一种基于视频与语谱图的声纹鉴定方法、系统及设备
CN109273012A (zh) 一种基于说话人识别和数字语音识别的身份认证方法
CN112908308B (zh) 一种音频处理方法、装置、设备及介质
CN116894442B (zh) 一种纠正引导发音的语言翻译方法及系统
KR20080018658A (ko) 사용자 선택구간에 대한 음성비교 시스템
JP2010060846A (ja) 合成音声評価システム及び合成音声評価方法
CN113658599A (zh) 基于语音识别的会议记录生成方法、装置、设备及介质
JP6003352B2 (ja) データ生成装置、及びデータ生成方法
CN111696524A (zh) 一种叠字语音识别方法及系统
Verkhodanova et al. Automatic detection of speech disfluencies in the spontaneous Russian speech
JP2014197072A (ja) 音声合成システム、及び音声合成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 510700 room a401-1, zone a, Guangzhou International Business Incubator, No. 3, Juquan Road, Science City, Huangpu District, Guangzhou, Guangdong Province (office only)

Patentee after: GUANGZHOU SPEAKIN INTELLIGENT TECHNOLOGY Co.,Ltd.

Address before: Room 2009, 2nd floor, sanshe building, 3110 Huangpu East Road, Huangpu District, Guangzhou, Guangdong 510000

Patentee before: SPEAKIN TECHNOLOGIES Co.,Ltd.

CP03 Change of name, title or address