CN105488227B - 一种电子设备及其基于声纹特征处理音频文件的方法 - Google Patents

一种电子设备及其基于声纹特征处理音频文件的方法 Download PDF

Info

Publication number
CN105488227B
CN105488227B CN201511029185.XA CN201511029185A CN105488227B CN 105488227 B CN105488227 B CN 105488227B CN 201511029185 A CN201511029185 A CN 201511029185A CN 105488227 B CN105488227 B CN 105488227B
Authority
CN
China
Prior art keywords
vocal print
print feature
audio file
target object
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201511029185.XA
Other languages
English (en)
Other versions
CN105488227A (zh
Inventor
陈喜玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huizhou TCL Mobile Communication Co Ltd
Original Assignee
Huizhou TCL Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huizhou TCL Mobile Communication Co Ltd filed Critical Huizhou TCL Mobile Communication Co Ltd
Priority to CN201511029185.XA priority Critical patent/CN105488227B/zh
Publication of CN105488227A publication Critical patent/CN105488227A/zh
Application granted granted Critical
Publication of CN105488227B publication Critical patent/CN105488227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种电子设备及其基于声纹特征处理音频文件的方法及电子设备。处理音频文件的方法包括:获取音频文件,对音频文件进行声音识别获取声纹特征,在识别获取的声纹特征与预设目标对象的声纹特征匹配时,从音频文件中提取与识别获取的声纹特征对应的音频内容,将音频内容独立于音频文件外保存。通过上述方式,本发明能够对音频文件进行分类处理。

Description

一种电子设备及其基于声纹特征处理音频文件的方法
技术领域
本发明涉及电子技术领域,具体涉及一种电子设备及其基于声纹特征处理音频文件的方法。
背景技术
现实生活中,很多时候需要录音或者录影,从而形成音频文件便于日后查看。比如某个连续剧正在热播的时候因为某些原因来不及看,或者是开会、学习培训、讨论等等,往往也需要录音或录影,日后抽时间查看或整理。
有些录音或录影文件,日后抽时间查看整理时,往往需要记录每个人的说话内容、对白的角色是谁等等。常规的都是通过回放录音或录影等音频文件,然后通过人为去听去识别每个人以及每个人的说话内容,再进行记录。比如针对某次讨论会,会后作为会议记录者可能会需要记录到会的所有人以及每个人的发言内容,以记录作为会议记录保存。但是现有的整理方式,需要耗费较多的人力时间,从而导致这样的分类记录效率不高且准确度不高,整理过程较为繁琐。
发明内容
本发明主要解决的技术问题是如何自动识别音频文件中的不同记录目标对象及其对应的音频内容并分类记录。本发明实施例提供一种电子设备及其基于声纹特征处理音频文件的方法,通过声纹特征识别,能够对音频文件进行自动识别特定目标对象,从而对特定目标对象的音频内容进行分类处理保存。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种电子设备基于声纹特征处理音频文件的方法,所述方法包括:获取音频文件;对所述音频文件进行声音识别获取声纹特征;判断所述识别获取的声纹特征是否与预设目标对象的声纹特征匹配;若所述识别获取的声纹特征与预设目标对象的声纹特征匹配,从所述音频文件中提取与所述目标对象的声纹特征对应的音频内容,将所述音频内容独立于所述音频文件外保存。
其中,从所述音频文件中提取与所述目标对象的声纹特征对应的音频内容,将所述音频内容独立于所述音频文件外保存包括:从所述音频文件中以帧为单位逐一截取出与所述目标对象的声纹特征对应的音频内容,将截取出的音频内容合成子音频文件,独立于所述音频文件之外保存;或从所述音频文件中逐一截取出与所述目标对象的声纹特征对应的音频内容,将所述音频内容中的语音转换为文字形成文本文件,将所述文本文件独立于所述音频文件之外保存。
其中,所述方法还包括:采集目标对象的声音,从所述声音中提取出声纹特征并与所述目标对象的标识对应保存。
其中,所述方法还包括:获取所述目标对象的标识,将所述目标对象的标识写入所述目标对象的声纹特征对应的音频内容中。
其中,所述方法还包括:获取所述预设目标对象的标识,将所述预设目标对象的标识作为所述目标对象的声纹特征对应的音频内容保存的文件名。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种电子设备,所述电子设备包括获取模块、判断模块以及处理模块,其中:所述获取模块用于获取音频文件,对音频文件进行声音识别获取声纹特征;所述判断模块用于判断所述识别获取的声纹特征是否与预设目标对象的声纹特征匹配;所述处理模块用于在所述识别获取的声纹特征与预设目标对象的声纹特征匹配时,从所述音频文件中提取与所述目标对象的声纹特征对应的音频内容,将所述音频内容独立于所述音频文件外保存。
其中,所述处理模块用于从所述音频文件中以帧为单位逐一截取出与所述目标对象的声纹特征对应的音频内容,将截取出的音频内容合成子音频文件,独立于所述音频文件之外保存;或所述处理模块用于从所述音频文件中逐一截取出与所述目标对象的声纹特征对应的音频内容,将所述音频内容中的语音转换为文字形成文本文件,将所述文本文件独立于所述音频文件之外保存。
其中,所述电子设备还包括预存模块,所述预存模块用于采集目标对象的声音,从所述声音中提取出声纹特征并与所述目标对象的标识对应保存。
其中,所述获取模块还用于获取所述目标对象的标识;所述处理模块用于将所述目标对象的标识写入所述目标对象的声纹特征对应的音频内容中。
其中,所述获取模块还用于获取所述目标对象的标识;所述处理模块用于将所述目标对象的标识作为所述目标对象的声纹特征对应的音频内容保存的文件名。
本发明的有益效果是:区别于现有技术的情况,本发明获取音频文件,对音频文件进行声音识别获取声纹特征,在识别获取的声纹特征与预设目标对象的声纹特征匹配时,从音频文件中提取与目标对象的声纹特征对应的音频内容,将音频内容独立于音频文件外保存。通过这样的方式,能够对音频文件自动识别特定目标对象,并对音频文件中特定目标对象对应的音频内容进行提取,从而实现对音频文件的分类处理。
附图说明
图1是本发明实施例提供的一种电子设备基于声纹特征处理音频文件的方法的流程图;
图2是本发明实施例提供的一种电子设备的结构示意图;
图3是本发明实施例提供的另一种电子设备的结构示意图。
具体实施方式
请参阅图1,图1是本发明实施例提供的一种电子设备基于声纹特征处理音频文件的方法的流程图,如图所示,本实施例方法包括以下步骤:
S101:获取音频文件。
这里的音频文件,可以是预先存储在本地的或者从互联网下载的音频文件,也可以是当前现场录制的音频文件,比如会议现场录制的会议录音或者录影等等。
S102:对音频文件进行声音识别获取声纹特征。
本发明实施例中,具体是通过声纹特征识别来确定预定目标对象从而提取预定目标对象的音频内容的。所谓声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。通过声纹可以辨认和确认不同的说话人。
声纹识别,也称为说话人识别,有两类,即说话人辨认和说话人确认。
本发明实施例是基于声纹特征来实现具体目标对象的确认的,因此通过预先设定需要识别的目标对象。具体来说,通过录制目标对象的声音,从声音中提取出对应的声纹特征并与目标对象的标识对应保存。也就是说,目标对象的标识与目标对象的声纹特征是一一对应的。另外,从声音中提取出对应的声纹特征,具体是指从声音中提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征,对于声纹特征的提取可以通过现有技术中所有特征提取的方式来实现,本发明实施例对此不再详细说明。
其中,目标对象可以是一个也可以是多个,目标对象的标识用于标识和区分目标对象,比如当存在多个目标对象时,可以通过每个目标对象的姓名或者特定的编号来区分不同的目标对象。
电子设备对获取的音频文件进行声音识别从而获取声纹特征。其中,对音频文件进行声音识别获取的声纹特征可能是一个,也可能是多个。比如当音频文件是会议讨论音频文件时,从音频文件中可能提取到多个与会人员的声纹特征。
在具体识别过程中,可以识别获取一个声纹特征即执行以下匹配及之后的步骤,完成后再返回识别获取另一个声纹特征然后再执行以下匹配及之后的步骤……以此类推,直至音频文件中的不同声纹特征都完成上述识别获取以及之后的步骤。或者可以通过一次性对音频文件进行声音识别而获取其中所有的声纹特征,然后逐一对每个声纹特征执行后续的匹配及之后的步骤。只要能过实现本发明的目的,本发明对具体的执行过程不做严格限定。
S103:判断识别获取的声纹特征是否与预设目标对象的声纹特征匹配。
对音频文件识别获取到声纹特征,将识别获取到的声纹特征与预设目标对象的声纹特征进行匹配。
当识别获取到的声纹特征为多个时,将识别获取的声纹特征分别逐一与预设目标对象进行对比匹配。
具体实现过程中,考虑到每个个体对象的声音可能在一定时间内发生变化,为了提高识别效果,可以预先设置匹配程度达到预定阈值即表示匹配成功,比如当前录音中提取的声纹特征与预设目标对象的声纹特征匹配度达到80%或以上,即表示匹配成功,否则,表示匹配不成功。
当存在多个预定目标对象以及当前音频文件中识别获取到的声纹特征也存在多个时,对所有识别获取到的声纹特征逐一与多个预定目标对象进行匹配,直至所有的声纹特征都遍历完成。
如果识别获取到的声纹特征与预设目标对象对应的声纹特征匹配,则执行S104,否则,返回继续对下一个识别获取的声纹特征进行上述匹配过程。
S104:从音频文件中提取与目标对象的声纹特征对应的音频内容,将音频内容独立于音频文件外保存。
如果识别获取的声纹特征与目标对象的声纹特征匹配,从音频文件中提取与目标对象的声纹特征对应的音频内容,将音频内容独立于音频文件外保存。比如识别获取到的声纹特征为预设目标对象A的声纹特征,即从音频文件中提取目标对象A的音频内容(比如说话内容等),独立保存。若识别获取到的声纹特征为预设目标对象B的声纹特征,则提取音频文件中提取目标对象B的音频内容,独立保存。
当包括多个预设目标对象时,提取到的多个目标对象的音频内容可以集合在一个文件中保存。当然,作为一种优选,可以将不同目标对应的音频内容分别保存为对应的文件,从而使得分类处理后的文件更加有针对性,主题更加明确清晰。
其中,可以将提取到的目标对象对应的音频内容作为子音频文件的形式保存。具体可以是从音频文件中,以帧为单位逐一截取出与目标对象的声纹特征对应的音频内容,将截取出的音频内容合成子音频文件,独立于音频文件之外保存。可以通过现有的音频处理方法进行音频文件的截取以及合成,本发明实施例对于音频文件的截取以及合并的具体实现过程不一一进行举例说明。
举例来说,如果音频文件为一段视频,需要整理出其中目标对象A的相关内容(比如说话内容、表演内容等),通过识别提取出音频文件中A的相关内容,比如通过视频剪切的方式截取A相关的所有音频内容,然后将A所有的音频内容进行集合后保存。更进一步地,可以将提取得到A相关的所有音频内容进行转换,比如转换为对应的语音,作为录音文件保存。
作为另一种实现方式,可以将提取到的目标对象对应的音频内容经过转换后作为文本文件保存。具体实现可以是,从音频文件中逐一截取出目标对象的声纹特征对应的音频内容,经过语音转换为对应的录音,然后对录音进行转换得到对应的文字,以形成文本文件,将文本文件独立于音频文件之外保存。
其中,在提取到目标对象的音频内容进行保存时,可以进一步获取该目标对象的标识,比如目标对象的姓名或者编号等,将该目标对象的标识写入音频内容中。目标对象的标识在音频内容中的写入位置理论上不做严格限制,但是作为一种优选的实现方案,可以将目标对象的标识写入音频内容的开始位置。比如在音频内容开头写入目标对象的姓名。那么在进行音频内容回放时,首先播放目标对象的姓名,然后再播放该目标对象对应的音频内容。比如针对会议音频文件,提取到与会者A的说话内容,在保存A的说话内容时,将A的姓名写入说话内容的开头部分,这样,在进行回放时,首先播报A的姓名,然后再播报A的说话内容。
另外,作为另一种实现方案,还可以进一步将目标对象的标识作为该目标对象对应的音频内容保存的文件名。比如目标对象A的音频内容保存时以A作为文件名,目标对象B的音频内容进行保存时以B作为文件名,这样,在后续需要回放时,能够一眼辨别出不同的目标对象的文件并进行播放,从而节省从众多文件中找到目标文件的时间。
上述本发明实施例的处理音频文件的方法,通过获取音频文件,对音频文件进行声音识别获取声纹特征,在识别获取的声纹特征与预设目标对象的声纹特征匹配时,从音频文件中提取与目标对象的声纹特征对应的音频内容,将音频内容独立于音频文件外保存。通过这样的方式,能够对音频文件自动识别特定目标对象,并对音频文件中特定目标对象对应的音频内容进行提取,从而实现自动对音频文件的分类处理。
也就是说,通过本发明的上述方法,可以从音频文件中提取出目标对象对应的音频内容并进行分类处理,使得分类记录更高效、更准确。而且都是全自动进行,不需要人工分析,使得分类记录过程更简洁方便。
请参阅图2,图2是本发明实施例提供的一种电子设备的结构示意图,本实施例的电子设备用于执行上述图1所示实施例的方法,如图所示,本实施例的电子设备100包括获取模块11、判断模块12以及处理模块13,其中:
获取模块11用于获取音频文件,对音频文件进行声音识别获取声纹特征。
这里的音频文件,可以是预先存储在本地的或者从互联网下载的音频文件,也可以是当前现场录制的音频文件,比如会议现场录制的会议录音或者录影等等。
本发明实施例中,具体是通过声纹特征识别来确定预定目标对象从而提取预定目标对象的音频内容的。所谓声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。通过声纹可以辨认和确认不同的说话人。
声纹识别,也称为说话人识别,有两类,即说话人辨认和说话人确认。
本发明实施例是基于声纹特征来实现具体目标对象的确认的,因此,请继续参阅图2,本实施例的电子设备100还包括预存模块14,预存模块14用于预先设定并保存需要识别的目标对象。具体来说,预存模块14通过录制目标对象的声音,从声音中提取出对应的声纹特征并与目标对象的标识对应保存。也就是说,目标对象的标识与目标对象的声纹特征是一一对应的。另外,从声音中提取出对应的声纹特征,具体是指从声音中提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征,对于声纹特征的提取可以通过现有技术中所有特征提取的方式来实现,本发明实施例对此不再详细说明。
其中,目标对象可以是一个也可以是多个,目标对象的标识用于标识和区分目标对象,比如当存在多个目标对象时,可以通过每个目标对象的姓名或者特定的编号来区分不同的目标对象。
获取模块11对获取的音频文件进行声音识别从而获取声纹特征。其中,对音频文件进行声音识别获取的声纹特征可能是一个,也可能是多个。比如当音频文件是会议讨论音频文件时,从音频文件中可能提取到多个与会人员的声纹特征。
判断模块12用于判断识别获取的声纹特征是否与预设目标对象的声纹特征匹配。
判断模块12将识别获取到的声纹特征与预设目标对象的声纹特征进行匹配,判断识别获取到的声纹特征与预设目标对象的声纹特征是否匹配。
当识别获取到的声纹特征为多个时,判断模块12将识别获取的声纹特征分别逐一与预设目标对象进行对比匹配判断。
具体实现过程中,考虑到每个个体对象的声音可能在一定时间内发生变化,为了提高识别效果,可以预先设置匹配程度达到预定阈值即表示匹配成功,比如当前录音中提取的声纹特征与预设目标对象的声纹特征匹配度达到80%或以上,即表示匹配成功,否则,表示匹配不成功。
当存在多个预定目标对象以及当前音频文件中识别获取到的声纹特征也存在多个时,对所有识别获取到的声纹特征逐一与多个预定目标对象进行匹配,直至所有的声纹特征都遍历完成。
如果识别获取到的声纹特征与预设目标对象对应的声纹特征匹配,通知处理模块13进行处理,否则,返回继续对下一个识别获取的声纹特征进行判断。
处理模块13用于在识别获取的声纹特征与预设目标对象的声纹特征匹配时,从音频文件中提取与目标对象的声纹特征对应的音频内容,将音频内容独立于音频文件外保存。
如果识别获取的声纹特征与目标对象的声纹特征匹配,处理模块13从音频文件中提取与目标对象的声纹特征对应的音频内容,将音频内容独立于音频文件外保存。比如识别获取到的声纹特征为预设目标对象A的声纹特征,即从音频文件中提取目标对象A的音频内容(比如说话内容等),独立保存。若识别获取到的声纹特征为预设目标对象B的声纹特征,则提取音频文件中提取目标对象B的音频内容,独立保存。
当包括多个预设目标对象时,处理模块13可以将提取到的多个目标对象的音频内容集合在一个文件中保存。当然,作为一种优选,处理模块13可以将不同目标对应的音频内容分别保存为对应的文件,从而使得分类处理后的文件更加有针对性,主题更加明确清晰。
其中,处理模块13可以将提取到的目标对象对应的音频内容作为子音频文件的形式保存。具体可以是从音频文件中,以帧为单位逐一截取出与目标对象的声纹特征对应的音频内容,将截取出的音频内容合成子音频文件,独立于音频文件之外保存。可以通过现有的音频处理方法进行音频文件的截取以及合成,本发明实施例对于音频文件的截取以及合并的具体实现过程不一一进行举例说明。
举例来说,如果音频文件为一段视频,需要整理出其中目标对象A的相关内容(比如说话内容、表演内容等),通过识别提取出音频文件中A的相关内容,比如通过视频剪切的方式截取A相关的所有音频内容,然后将A所有的音频内容进行集合后保存。更进一步地,可以将提取得到A相关的所有音频内容进行转换,比如转换为对应的语音,作为录音文件保存。
作为另一种实现方式,处理模块13也可以将提取到的目标对象对应的音频内容经过转换后作为文本文件保存。具体实现可以是,从音频文件中逐一截取出目标对象的声纹特征对应的音频内容,经过语音转换为对应的录音,然后对录音进行转换得到对应的文字,以形成文本文件,将文本文件独立于音频文件之外保存。
其中,在提取到目标对象的音频内容进行保存时,获取模块11可以进一步获取该目标对象的标识,比如目标对象的姓名或者编号等,处理模块13将该目标对象的标识写入音频内容中。目标对象的标识在音频内容中的写入位置理论上不做严格限制,但是作为一种优选的实现方案,可以将目标对象的标识写入音频内容的开始位置。比如在音频内容开头写入目标对象的姓名。那么在进行音频内容回放时,首先播放目标对象的姓名,然后再播放该目标对象对应的音频内容。比如针对会议音频文件,提取到与会者A的说话内容,在保存A的说话内容时,将A的姓名写入说话内容的开头部分,这样,在进行回放时,首先播报A的姓名,然后再播报A的说话内容。
另外,作为另一种实现方案,获取模块11还可以进一步将目标对象的标识,处理模块13将目标对象的标识作为该目标对象对应的音频内容保存的文件名。比如目标对象A的音频内容保存时以A作为文件名,目标对象B的音频内容进行保存时以B作为文件名,这样,在后续需要回放时,能够一眼辨别出不同的目标对象的文件并进行播放,从而节省从众多文件中找到目标文件的时间。
请进一步参阅图3,图3是本发明实施例提供的另一种电子设备的结构示意图,本实施例的电子设备用于执行上述图1所示实施例的方法。本实施例的电子设备200包括处理器21、存储器22、接收器23以及总线系统24,其中:
处理器21控制电子设备200的操作,处理器21还可以称为CPU(CentralProcessing Unit,中央处理单元)。处理器21可能是一种集成电路芯片,具有信号的处理能力。处理器21还可以是通用处理器、数字信号处理器(DSP,Digital Signal Processing)、专用集成电路(ASIC,Application Specific Integrated Circuit)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器22可以包括只读存储器和随机存取存储器,并向处理器21提供指令和数据。存储器22的一部分还可以包括非易失性随机存取存储器(NVRAM)。
电子设备200的各个组件通过总线系统24耦合在一起,其中总线系统24除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。该总线系统可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外部设备互连)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准体系结构)总线等。所述总线可以是一条或多条物理线路,当是多条物理线路时可以分为地址总线、数据总线、控制总线等。在本发明的其它一些实施例中,处理器21、存储器22以及接收器23也可以通过通信线路直接连接。但是为了清楚说明起见,在图中将各种总线都标为总线系统24。
存储器22用于存储电子设备200的系统数据。
处理器21用于控制接收器23获取音频文件,对音频文件进行声音识别获取声纹特征。
这里的音频文件,可以是预先存储在本地的或者从互联网下载的音频文件,也可以是当前现场录制的音频文件,比如会议现场录制的会议录音或者录影等等。
本发明实施例中,具体是通过声纹特征识别来确定预定目标对象从而提取预定目标对象的音频内容的。所谓声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。通过声纹可以辨认和确认不同的说话人。
声纹识别,也称为说话人识别,有两类,即说话人辨认和说话人确认。
本发明实施例是基于声纹特征来实现具体目标对象的确认的,因此,处理器21还用于预先设定需要识别的目标对象,具体来说,处理器21通过录制目标对象的声音,从声音中提取出对应的声纹特征并与目标对象的标识对应保存到存储器22中。也就是说,目标对象的标识与目标对象的声纹特征是一一对应的。另外,从声音中提取出对应的声纹特征,具体是指从声音中提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征,对于声纹特征的提取可以通过现有技术中所有特征提取的方式来实现,本发明实施例对此不再详细说明。
其中,目标对象可以是一个也可以是多个,目标对象的标识用于标识和区分目标对象,比如当存在多个目标对象时,可以通过每个目标对象的姓名或者特定的编号来区分不同的目标对象。
处理器21对获取的音频文件进行声音识别从而获取声纹特征。其中,对音频文件进行声音识别获取的声纹特征可能是一个,也可能是多个。比如当音频文件是会议讨论音频文件时,从音频文件中可能提取到多个与会人员的声纹特征。
处理器21将识别获取到的声纹特征与预设目标对象的声纹特征进行匹配,判断识别获取到的声纹特征与预设目标对象的声纹特征是否匹配。
当识别获取到的声纹特征为多个时,处理器21将识别获取的声纹特征分别逐一与预设目标对象进行对比匹配判断。
具体实现过程中,考虑到每个个体对象的声音可能在一定时间内发生变化,为了提高识别效果,可以预先设置匹配程度达到预定阈值即表示匹配成功,比如当前录音中提取的声纹特征与预设目标对象的声纹特征匹配度达到80%或以上,即表示匹配成功,否则,表示匹配不成功。
当存在多个预定目标对象以及当前音频文件中识别获取到的声纹特征也存在多个时,对所有识别获取到的声纹特征逐一与多个预定目标对象进行匹配,直至所有的声纹特征都遍历完成。
处理器21在识别获取的声纹特征与预设目标对象的声纹特征匹配时,从音频文件中提取与目标对象的声纹特征对应的音频内容,将音频内容独立于音频文件外保存。
如果识别获取的声纹特征与目标对象的声纹特征匹配,处理器21从音频文件中提取与目标对象的声纹特征对应的音频内容,将音频内容独立于音频文件外保存。比如识别获取到的声纹特征为预设目标对象A的声纹特征,即从音频文件中提取目标对象A的音频内容(比如说话内容等),独立保存。若识别获取到的声纹特征为预设目标对象B的声纹特征,则提取音频文件中提取目标对象B的音频内容,独立保存。
当包括多个预设目标对象时,处理器21可以将提取到的多个目标对象的音频内容集合在一个文件中保存。当然,作为一种优选,处理器21可以将不同目标对应的音频内容分别保存为对应的文件,从而使得分类处理后的文件更加有针对性,主题更加明确清晰。
其中,处理器21可以将提取到的目标对象对应的音频内容作为子音频文件的形式保存。具体可以是从音频文件中,以帧为单位逐一截取出与目标对象的声纹特征对应的音频内容,将截取出的音频内容合成子音频文件,独立于音频文件之外保存。可以通过现有的音频处理方法进行音频文件的截取以及合成,本发明实施例对于音频文件的截取以及合并的具体实现过程不一一进行举例说明。
举例来说,如果音频文件为一段视频,需要整理出其中目标对象A的相关内容(比如说话内容、表演内容等),通过识别提取出音频文件中A的相关内容,比如通过视频剪切的方式截取A相关的所有音频内容,然后将A所有的音频内容进行集合后保存。更进一步地,可以将提取得到A相关的所有音频内容进行转换,比如转换为对应的语音,作为录音文件保存。
作为另一种实现方式,处理器21也可以控制将提取到的目标对象对应的音频内容经过转换后作为文本文件保存。具体实现可以是,从音频文件中逐一截取出目标对象的声纹特征对应的音频内容,经过语音转换为对应的录音,然后对录音进行转换得到对应的文字,以形成文本文件,将文本文件独立于音频文件之外保存。
其中,在提取到目标对象的音频内容进行保存时,处理器21可以控制接收器23进一步获取该目标对象的标识,比如目标对象的姓名或者编号等,处理器将该目标对象的标识写入音频内容中。目标对象的标识在音频内容中的写入位置理论上不做严格限制,但是作为一种优选的实现方案,可以将目标对象的标识写入音频内容的开始位置。比如在音频内容开头写入目标对象的姓名。那么在进行音频内容回放时,首先播放目标对象的姓名,然后再播放该目标对象对应的音频内容。比如针对会议音频文件,提取到与会者A的说话内容,在保存A的说话内容时,将A的姓名写入说话内容的开头部分,这样,在进行回放时,首先播报A的姓名,然后再播报A的说话内容。
另外,作为另一种实现方案,处理器21还可以控制接收器23进一步将目标对象的标识,处理器21将目标对象的标识作为该目标对象对应的音频内容保存的文件名。比如目标对象A的音频内容保存时以A作为文件名,目标对象B的音频内容进行保存时以B作为文件名,这样,在后续需要回放时,能够一眼辨别出不同的目标对象的文件并进行播放,从而节省从众多文件中找到目标文件的时间。
上述本发明实施例的处理音频文件的方法及电子设备的详细说明,可以理解,本发明通过获取音频文件,对音频文件进行声音识别获取声纹特征,在识别获取的声纹特征与预设目标对象的声纹特征匹配时,从音频文件中提取与目标对象的声纹特征对应的音频内容,将音频内容独立于音频文件外保存。通过这样的方式,能够对音频文件自动识别特定目标对象,并对音频文件中特定目标对象对应的音频内容进行提取,从而实现自动对音频文件的分类处理。
也就是说,通过本发明的上述方法,可以从音频文件中提取出目标对象对应的音频内容并进行分类处理,使得分类记录更高效、更准确。而且都是全自动进行,不需要人工分析,使得分类记录过程更简洁方便。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种电子设备基于声纹特征处理音频文件的方法,其特征在于,所述方法包括:
获取音频文件;
对所述音频文件进行声音识别获取声纹特征;
判断所述识别获取的声纹特征是否与预设目标对象的声纹特征匹配;
若所述识别获取的声纹特征与预设目标对象的声纹特征匹配,从所述音频文件中提取与所述目标对象的声纹特征对应的音频内容,将所述音频内容独立于所述音频文件外保存;
其中,
在所述判断所述识别获取的声纹特征是否与预设目标对象的声纹特征匹配之前还包括:
采集所述预设目标对象的声音,从所述声音中提取出所述预设目标对象的声纹特征并与所述预设目标对象的标识对应保存;
所述将所述音频内容独立于音频文件外保存还包括:
获取所述目标对象的标识,将所述目标对象的标识写入所述音频内容的开始位置。
2.根据权利要求1所述的方法,其特征在于,从所述音频文件中提取与所述目标对象的声纹特征对应的音频内容,将所述音频内容独立于所述音频文件外保存包括:
从所述音频文件中以帧为单位逐一截取出与所述目标对象的声纹特征对应的音频内容,将截取出的音频内容合成子音频文件,独立于所述音频文件之外保存;或
从所述音频文件中逐一截取出与所述目标对象的声纹特征对应的音频内容,将所述音频内容中的语音转换为文字形成文本文件,将所述文本文件独立于所述音频文件之外保存。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述预设目标对象的标识,将所述预设目标对象的标识作为所述目标对象的声纹特征对应的音频内容保存的文件名。
4.一种电子设备,其特征在于,所述电子设备包括获取模块、判断模块、处理模块以及预存模块,其中:
所述获取模块用于获取音频文件,对音频文件进行声音识别获取声纹特征;
所述判断模块用于判断所述识别获取的声纹特征是否与预设目标对象的声纹特征匹配;
所述处理模块用于在所述识别获取的声纹特征与预设目标对象的声纹特征匹配时,从所述音频文件中提取与所述目标对象的声纹特征对应的音频内容,将所述音频内容独立于所述音频文件外保存;
所述预存模块用于采集所述目标对象的声音,从所述声音中提取出所述目标对象的声纹特征并与所述目标对象的标识对应保存;
所述获取模块还用于获取所述目标对象的标识;
所述处理模块还用于将所述目标对象的标识写入所述目标对象的声纹特征对应的音频内容中。
5.根据权利要求4所述的电子设备,其特征在于,所述处理模块用于从所述音频文件中以帧为单位逐一截取出与所述目标对象的声纹特征对应的音频内容,将截取出的音频内容合成子音频文件,独立于所述音频文件之外保存;或
所述处理模块用于从所述音频文件中逐一截取出与所述目标对象的声纹特征对应的音频内容,将所述音频内容中的语音转换为文字形成文本文件,将所述文本文件独立于所述音频文件之外保存。
6.根据权利要求4所述的电子设备,其特征在于,所述获取模块还用于获取所述目标对象的标识;
所述处理模块用于将所述目标对象的标识作为所述目标对象的声纹特征对应的音频内容保存的文件名。
CN201511029185.XA 2015-12-29 2015-12-29 一种电子设备及其基于声纹特征处理音频文件的方法 Active CN105488227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511029185.XA CN105488227B (zh) 2015-12-29 2015-12-29 一种电子设备及其基于声纹特征处理音频文件的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511029185.XA CN105488227B (zh) 2015-12-29 2015-12-29 一种电子设备及其基于声纹特征处理音频文件的方法

Publications (2)

Publication Number Publication Date
CN105488227A CN105488227A (zh) 2016-04-13
CN105488227B true CN105488227B (zh) 2019-09-20

Family

ID=55675202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511029185.XA Active CN105488227B (zh) 2015-12-29 2015-12-29 一种电子设备及其基于声纹特征处理音频文件的方法

Country Status (1)

Country Link
CN (1) CN105488227B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106128465A (zh) * 2016-06-23 2016-11-16 成都启英泰伦科技有限公司 一种声纹识别系统及方法
CN106448683A (zh) * 2016-09-30 2017-02-22 珠海市魅族科技有限公司 查看多媒体文件中录音的方法及装置
CN106354271A (zh) * 2016-11-23 2017-01-25 深圳市金立通信设备有限公司 一种语音信息处理方法及终端
CN107018372A (zh) * 2017-04-20 2017-08-04 深圳声联网科技有限公司 声音识别监控记录方法及装置
CN107360387A (zh) * 2017-07-13 2017-11-17 广东小天才科技有限公司 一种视频录制的方法、装置及终端设备
CN107885736A (zh) * 2017-11-29 2018-04-06 深圳市沃特沃德股份有限公司 翻译方法及装置
CN107992599A (zh) * 2017-12-13 2018-05-04 厦门市美亚柏科信息股份有限公司 文件比对方法和系统
CN108364654B (zh) * 2018-01-30 2020-10-13 网易乐得科技有限公司 语音处理方法、介质、装置和计算设备
CN108711429B (zh) * 2018-06-08 2021-04-02 Oppo广东移动通信有限公司 电子设备及设备控制方法
CN108922525B (zh) * 2018-06-19 2020-05-12 Oppo广东移动通信有限公司 语音处理方法、装置、存储介质及电子设备
CN111768769A (zh) * 2019-03-15 2020-10-13 阿里巴巴集团控股有限公司 语音交互方法、装置、设备及存储介质
TWI807203B (zh) * 2020-07-28 2023-07-01 華碩電腦股份有限公司 聲音辨識方法及使用其之電子裝置
WO2023070458A1 (en) * 2021-10-28 2023-05-04 Boe Technology Group Co., Ltd. Method for outputting voice transcript, voice transcript generating system, and computer-program product

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103165131A (zh) * 2011-12-17 2013-06-19 富泰华工业(深圳)有限公司 语音处理系统及语音处理方法
CN104252464B (zh) * 2013-06-26 2018-08-31 联想(北京)有限公司 信息处理方法和装置
CN104732969A (zh) * 2013-12-23 2015-06-24 鸿富锦精密工业(深圳)有限公司 语音处理系统及语音处理方法
CN104123115B (zh) * 2014-07-28 2017-05-24 联想(北京)有限公司 一种音频信息处理方法及电子设备
CN104731927A (zh) * 2015-03-27 2015-06-24 努比亚技术有限公司 录音文件分类方法和系统
CN104883607B (zh) * 2015-06-05 2017-12-19 广东欧珀移动通信有限公司 一种视频截图或剪切的方法、装置及移动设备

Also Published As

Publication number Publication date
CN105488227A (zh) 2016-04-13

Similar Documents

Publication Publication Date Title
CN105488227B (zh) 一种电子设备及其基于声纹特征处理音频文件的方法
Nautsch et al. ASVspoof 2019: spoofing countermeasures for the detection of synthesized, converted and replayed speech
CN108305642B (zh) 情感信息的确定方法和装置
CN108922518A (zh) 语音数据扩增方法和系统
CN104123115B (zh) 一种音频信息处理方法及电子设备
US8606574B2 (en) Speech recognition processing system and speech recognition processing method
CN109448725A (zh) 一种语音交互设备唤醒方法、装置、设备及存储介质
CN108159702B (zh) 基于多人语音游戏处理方法和装置
CN105975569A (zh) 一种语音处理的方法及终端
CN109308892B (zh) 语音合成播报方法、装置、设备及计算机可读介质
Sethu et al. Speaker normalisation for speech-based emotion detection
CN112233698B (zh) 人物情绪识别方法、装置、终端设备及存储介质
CN107818785A (zh) 一种从多媒体文件中提取信息的方法及终端设备
CN107360387A (zh) 一种视频录制的方法、装置及终端设备
CN108447471A (zh) 语音识别方法及语音识别装置
CN108305643A (zh) 情感信息的确定方法和装置
CN109817245A (zh) 会议纪要的生成方法、装置、计算机设备及存储介质
CN109448759A (zh) 一种基于气爆音的抗语音认证欺骗攻击检测方法
CN111798852A (zh) 语音唤醒识别性能测试方法、装置、系统及终端设备
CN109560941A (zh) 会议记录方法、装置、智能终端及存储介质
CN109935226A (zh) 一种基于深度神经网络的远场语音识别增强系统及方法
CN109410956A (zh) 一种音频数据的对象识别方法、装置、设备及存储介质
CN109545194A (zh) 唤醒词预训练方法、装置、设备及存储介质
CN109686382A (zh) 一种说话人聚类方法和装置
CN108665901B (zh) 一种音素/音节提取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant