CN107785023A - 声纹辨识装置及其声纹辨识方法 - Google Patents

声纹辨识装置及其声纹辨识方法 Download PDF

Info

Publication number
CN107785023A
CN107785023A CN201610806957.4A CN201610806957A CN107785023A CN 107785023 A CN107785023 A CN 107785023A CN 201610806957 A CN201610806957 A CN 201610806957A CN 107785023 A CN107785023 A CN 107785023A
Authority
CN
China
Prior art keywords
voice print
sound
print database
groove identification
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610806957.4A
Other languages
English (en)
Inventor
黄耀民
陈宇皓
赖欣怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute for Information Industry
Original Assignee
Institute for Information Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute for Information Industry filed Critical Institute for Information Industry
Publication of CN107785023A publication Critical patent/CN107785023A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/06Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
    • G06F7/20Comparing separate sets of record carriers arranged in the same sequence to determine whether at least some of the data in one set is identical with that in the other set or sets
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Telephonic Communication Services (AREA)
  • Collating Specific Patterns (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种声纹辨识装置及其声纹辨识方法。声纹辨识装置存储具有多个声纹数据的一声纹数据库以及一待辨识声纹数据。各声纹数据及待辨识声纹数据每一者由多个频带上的多个子声纹比特所组成。声纹辨识装置执行声纹辨识方法,其包含下列步骤:将该待辨识声纹数据与该多个声纹数据其中之一进行比特差异值比对,以得到各该频带上的一比特误差率;计算该多个频带中该多个比特误差率小于一第一临界值的一百分比;以及当该百分比大于一第二临界值时,将比对的该声纹数据标示为一相似声纹数据。

Description

声纹辨识装置及其声纹辨识方法
【技术领域】
本发明是关于一种声纹辨识装置及其声纹辨识方法。具体而言,本发明声纹辨识装置基于将一待辨识声纹数据与一声纹数据库所存储的多个声纹数据其中之一进行比特差异值比对,以得到各频带上的一比特误差率,计算各频带中的各比特误差率小于一第一临界值的一百分比,并将百分比大于一第二临界值的声纹数据标示为一相似声纹数据。
【背景技术】
在日常生活中,人们经常通过手机或其他电子产品录制一段声音后,利用现有的乐曲辨识软件或应用程序搜寻其录制声音的相关信息。然而,在录制一段声音的过程中,亦会同时将录制对象外的其他声音(例如:周遭环境的声音或播放装置本身产生的杂音)一并录下,因而影响声音辨识的结果。
目前较为广泛使用的乐曲辨识软件或乐曲辨识应用程序是将待辨识的声音转换成待辨识声纹数据,以将其与数据库中的声纹数据进行辨识(例如:美国第7,549,052号专利中所述)。然而,若录制的声音受到过多的干扰,将会影响声纹辨识的结果,而容易导致辨识结果错误,或是无法从数据库中找到与待辨识声纹数据相符的数据。
有鉴于此,本领域亟需一种声纹辨识机制,以降低录制对象外的其他声音所造成的干扰,进而提高声纹辨识的召回率(recall)。
【发明内容】
本发明的目的在于提供一种声纹辨识机制,其基于将一待辨识声纹数据与一声纹数据库所存储的多个声纹数据其中之一进行比特差异值比对,以得到各频带上的一比特误差率,并借由忽略比特误差率较大的该多个频带上的比特差异值比对结果,而着重于比特误差率较小的该多个频带上的比特差异值比对结果,来获得相似声纹数据。据此,不同于已知的声纹辨识机制,本发明可降低录制对象外的其他声音所造成的干扰,进而提高声纹辨识率。
为达上述目的,本发明揭露一种声纹辨识装置,其包含一存储器以及一处理器。该存储器存储具有多个声纹数据的一声纹数据库以及一待辨识声纹数据。各该声纹数据及该待辨识声纹数据每一者由多个频带(band)上的多个子声纹比特(sub-fingerprint bit)所组成。该处理器电性连接至该存储器,用以执行下列步骤:(a)将该待辨识声纹数据与该多个声纹数据其中之一进行比特差异值比对,以得到各该频带上的一比特误差率(bit errorrate;BER);(b)计算该多个频带中该多个比特误差率小于一第一临界值的一百分比(percentage);以及(c)当该百分比大于一第二临界值时,将比对的该声纹数据标示为一相似声纹数据。
此外,本发明更揭露一种用于一声纹辨识装置的声纹辨识方法。该声纹辨识装置包含一存储器以及一处理器。该存储器存储具有多个声纹数据的一声纹数据库以及一待辨识声纹数据。各该声纹数据及该待辨识声纹数据每一者由多个频带上的多个子声纹比特所组成。该声纹辨识方法由该处理器执行且包含下列步骤:(a)将该待辨识声纹数据与该多个声纹数据其中之一进行比特差异值比对,以得到各该频带上的一比特误差率;(b)计算该多个频带中该多个比特误差率小于一第一临界值的一百分比;以及(c)当该百分比大于一第二临界值时,将比对的该声纹数据标示为一相似声纹数据。
在参阅图式及随后描述的实施方式后,此技术领域具有通常知识者便可了解本发明的其他目的,以及本发明的技术手段及实施态样。
【附图说明】
图1是本发明第一实施例的声纹辨识装置1的示意图;
图2A是描绘本发明的声纹数据库所存储的多个声纹数据及一待辨识声纹数据;
图2B是描绘比特差异值比对结果以及遮蔽后的比特差异值比对结果的示意图;
图3是描绘本发明第二实施例的声纹辨识装置1的示意图;
图4是描绘声纹辨识制装置1及使用者装置3间的一实施情境;
图5是描绘本发明第三实施例的声纹辨识装置1的示意图;以及
图6是本发明第四实施例的声纹辨识方法的流程图。
【符号说明】
1:声纹辨识装置
3:使用者装置
5:网络
11:存储器
13:处理器
15:网络接口
17:麦克风
19:显示器
102:输出消息
402:录音数据
111:多个声纹数据
113:待辨识声纹数据
115:比特差异值比对结果
117:遮蔽后的比特差异值比对结果
S601-S603:步骤
x、y:轴
ri:列
CP:被遮蔽的部分
【具体实施方式】
以下将通过实施方式来解释本发明之内容。本发明是关于声纹辨识装置、声纹辨识方法及其电脑程序产品。须说明者,本发明的实施例并非用以限制本发明须在如实施例所述的任何特定的环境、应用或特殊方式方能实施。因此,有关实施例的说明仅为阐释本发明的目的,而非用以限制本发明,且本案所请求的范围,以申请专利范围为准。除此之外,于以下实施例及图式中,与本发明非直接相关的元件已省略而未绘示,且以下图式中各元件间的尺寸关系仅为求容易了解,非用以限制实际比例。
本发明第一实施例请参考图1、图2A及图2B。图1是本发明的声纹辨识装置1的示意图。声纹辨识装置1包含存储器11及处理器13。存储器11存储具有多个声纹数据111的一声纹数据库以及一待辨识声纹数据113。图2A描绘声纹数据库中各声纹数据111及待辨识声纹数据113。各声纹数据111是由多个频带(band)上的多个子声纹比特(sub-fingerprintbit)所组成。同样地,待辨识声纹数据113亦由多个频带上的多个子声纹比特所组成。
以待辨识声纹数据113作为说明,x轴是代表频带,y轴是代表时间,故在y轴上的每一列ri是代表第i时间点上该多个频带上的该多个子声纹比特。于本实施例中,该多个频带为32个频带,即每一列ri是由32个子声纹比特所组成。惟,于其他实施例中,该多个频带可为其他数目个频带,故频带数目并非用于限制本发明的保护范畴。由于本领域技术人员可轻易了解声纹数据的组成,故在此不在加以详述。
处理器13电性连接至存储器11,用以将待辨识声纹数据113与该多个声纹数据111其中之一进行比特差异值比对,以得到一比特差异值比对结果115(如图2B所示),并计算比特差异值比对结果115中各频带上的一比特误差率(bit error rate;BER)。详言之,各声纹数据111通常的时间长度较待辨识声纹数据113长,为确认待辨识声纹数据113是否属于该多个声纹数据111至少其中之一的一部分,处理器13会将待辨识声纹数据113与各声纹数据111一一比对。比特差异值比对的方式可借由将两声纹数据的子声纹比特进行互斥或(XOR)运算,以得到比特差异值比对结果115。于比特差异值比对结果115中,黑点代表「1」指示子声纹比特不同,而白点代表「0」指示子声纹比特相同。
随后,于获得待辨识声纹数据113与目前比对的声纹数据111区段间的比特差异值比对结果115后,处理器13更计算比特差异值比对结果115中各频带中黑点所占的比率,以得到各频带上的比特误差率。接着,处理器13计算比特差异值比对结果115中各频带中该多个比特误差率小于一第一临界值的一百分比(percentage)。当百分比大于一第二临界值时,将比对的声纹数据111标示为一相似声纹数据。
进言之,由于周遭环境的声音或播放装置本身产生的杂音通常会落于特定频带,故本发明借由遮蔽比特误差率大于第一临界值的该多个频带的比对结果,以形成一遮蔽后的比特差异值比对结果117。如图2B所示,CP部分是被遮蔽的部分。于遮蔽比特误差率较大的该多个频带的比特差异值比对结果后,处理器13判断遮蔽后的比特差异值比对结果117中,未遮蔽部分的百分比是否大于第二临界值,即未被遮蔽的频带数是否足够,以判断比对的声纹数据111为相似声纹数据。当未被遮蔽的频带的百分比大于第二临界值时,处理器13将比对的声纹数据111标示为相似声纹数据。
举例而言,当第一临界值为0.3及第二临界值为25%时,处理器13会将比特差异值比对结果115中比特误差率大于0.3的该多个频带的比对结果遮蔽,并计算遮蔽后的比特差异值比对结果117中,未遮蔽部分的百分比是否大于25%(即计算比特差异值比对结果115中各频带中该多个比特误差率小于0.3的频带占全部频带的百分比,并判断此百分比是否大于25%)。当未遮蔽部分的百分比大于25%,处理器13将比对的声纹数据111标示为相似声纹数据。反之,当未遮蔽部分的百分比小于25%,则处理器13继续将待辨识声纹数据113与目前比对的声纹数据111的其他区段进行比特差异值比对及上述的遮蔽及百分比判断操作。倘若目前比对的声纹数据无任何区段相似时,则处理器13自声纹数据库中选择下一笔声纹数据111,并进行如上所述的比特差异值比对、遮蔽及百分比判断操作。
须说明者,上述的第一临界值及第二临界值的数值适用一般使用情况。然而,于实际应用上,可依召回率(recall)及准确率(precision)的需求,或噪音干扰状况调整第一临界值及第二临界值。由于本领域技术人员可基于上述说明轻易了解,如何基于对周遭环境噪音评估校准,以调整第一临界值及第二临界值,故在此不再加以赘述。
如上所述,在比特差异值比对结果中,比特误差率越大表示在该频带上的待辨识声纹数据与比对的声纹数据的差异部分越大,而此差异部分通常是由录制对象外的其他声音所造成的干扰。因此,本发明的声纹辨识装置借由将比特误差率大于第一临界值的比特差异值比对结果遮蔽,以留下比特误差率较优的该多个频带上的比特差异值比对结果,来判断待辨识声纹数据与目前比对的声纹数据是否相似,以提高声纹辨识率。
本发明第二实施例请参考图3及图4。第二实施例为第一实施例的延伸。如图3所示,本实施例的声纹辨识装置1更包含一网络接口15,于本实施例中,声纹辨识装置1是一服务器。处理器13通过网络接口15自一使用者装置接收一录音数据,并将录音数据转换成待辨识声纹数据。处理器13更根据相似声纹数据产生一输出消息102,并通过网络接口15传送输出消息102至使用者装置。
图4是描绘的声纹辨识制装置1及使用者装置间3的一实施情境。使用者装置间3可为一智慧型手机,其可录制一对象声音(例如:收音机广播的声音、电视机播放的声音等)。声纹辨识装置1可为具有声纹数据库的一音乐服务器、一电视节目服务器或任一种多媒体服务器。于录制该对象声音后,使用者装置3产生录音数据402,并通过网络5将录音数据402传送至声纹辨识装置1。网络5可为一区域网络、一电信网络、一网际网络等各种网络的组合,但不限于此。
于接收录音数据402后,声纹辨识装置1将录音数据402转换成待辨识声纹数据113,并将待辨识声纹数据113与其声纹数据库中的声纹数据111比对。当找到相似声纹数据后,声纹辨识装置1即根据相似声纹数据,产生输出消息102,并通过网络5将输出消息102传送至使用者装置3。输出消息中可包含相似声纹数据所对应的音乐信息、节目信息等(但不限于此),如此一来,使用者装置3可通过声纹辨识装置1获得其所录制的对象声音的相关信息,并通过屏幕显示相关信息。
须说明者,声纹辨识装置1在比对的过程中,若找到一笔相似声纹数据即可停止后续的比对程序,直接根据此笔相似声纹数据产生输出消息102并传送至使用者装置3。然而,于其他实施例中,处理器13于辨识声纹数据的过程中,亦可将待辨识声纹数据113与声纹数据库中所有的声纹数据111比对,而获得一笔或多笔声纹数据,并将该多个声纹数据标示为相似声纹数据,因此于产生输出消息102前,处理器13会挑选各相似声纹数据中比特误差率小于第一临界值的百分比最大者作为一确认声纹数据,并根据确认声纹数据产生输出消息102,通过网络接口15将输出消息102传送至使用者装置。此外,于其他实施例中,输出消息102亦可根据多笔相似声纹数据所产生,以包含多笔相似声纹数据所对应的多媒体信息。
举例而言,当一使用者欲了解其正在收听的一广播节目(例如:「午安生活」)的信息时,可通过使用者装置3的麦克风在一段时间内录制广播节目的声音,以产生录音数据402。通常,所录制的声音包含广播节目的声音以及周遭环境干扰的杂音。随后,声纹辨识装置1自使用者装置3接收录音数据402后,将其转换成待辨识声纹数据113,并将待辨识声纹数据113与声纹数据库中的各声纹数据111进行比特差异值比对。当获得一相似声纹数据后,声纹辨识装置1判断相似声纹数据的对应的多媒体信息为广播节目「午安生活」,将广播节目「午安生活」的相关信息通过输出消息102传送给使用者装置3。
本发明第三实施例请参考图5。第三实施例为第一实施例的延伸。于本实施例中,声纹辨识装置1是一使用者装置,例如:智慧型手机、平板电脑等。如图5所示,声纹辨识装置1更包含一麦克风17以及一显示器19,麦克风17及显示器19皆电性连接至处理器13,麦克风17感测录制对象的声音,以产生音频信号并将其传送至处理器13。处理器13自麦克风17接收音频信号后,根据音频信号产生录音数据,并将录音数据转换成待辨识声纹数据113。随后,处理器13将待辨识声纹数据113与其声纹数据库中的声纹数据111比对。当找到相似声纹数据后,处理器13即根据相似声纹数据,产生输出消息,并通过显示器19显示输出消息。
类似地,处理器13在比对的过程中,若找到一笔相似声纹数据即可停止后续的比对程序,直接根据此笔相似声纹数据产生输出消息。然而,于其他实施例中,处理器13于辨识声纹数据的过程中,亦可将待辨识声纹数据113与声纹数据库中所有的声纹数据111比对,而尝试获得一笔或多笔声纹数据,并将该多个声纹数据标示为相似声纹数据。因此,当获得至少一相似声纹数据时,于产生输出消息前,处理器13会挑选该至少一相似声纹数据中比特误差率小于第一临界值的百分比最大者作为一确认声纹数据,并根据确认声纹数据产生输出消息。此外,于其他实施例中,输出消息亦可根据多笔相似声纹数据所产生,以包含多笔相似声纹数据所对应的多媒体信息。
举例而言,当使用者正收看一电视节目且电视节目中一位歌手正在演唱一首歌曲(例如:「rose」)时,使用者想起其智慧型手机(即声纹辨识装置1)好像存储有这首歌曲但却一时想不起来这首歌曲的歌名。因此,使用者可通过麦克风17在一段时间内感测电视所播放的声音,并借由智慧型手机将所录制的录音数据转换成待辨识声纹数据113并将待辨识声纹数据113与智慧型手机中所存储的声纹数据库中的各声纹数据111进行比特差异值比对,以获得相似声纹数据。当智慧型手机判断相似声纹数据对应至其存储的歌曲「rose」时,则产生输出消息并通过显示器19显示。如此一来,使用者即可立即的找到其智慧型手机内所对应的歌曲。
本发明第四实施例是一声纹辨识方法,其流程图如图6所示。声纹辨识方法适用于一声纹辨识装置(例如:前述实施例的声纹辨识装置1)。声纹辨识装置包含一存储器以及一处理器。存储器存储具有多个声纹数据的一声纹数据库以及一待辨识声纹数据。各声纹数据及待辨识声纹数据每一者由多个频带上的多个子声纹比特所组成。声纹辨识方法由处理器所执行。
首先,于步骤S601中,将待辨识声纹数据与各声纹数据其中之一进行比特差异值比对,以得到各频带上的一比特误差率。接着,于步骤S603中,计算各频带中该多个比特误差率小于一第一临界值的一百分比。最后,于步骤S605中,当百分比大于一第二临界值时,将比对的声纹数据标示为一相似声纹数据。
此外,于其他实施例中,当声纹辨识装置是一服务器且更包含一网络接口时,本发明的声纹辨识方法可更包含步骤:通过网络接口自一使用者装置接收一录音数据;将录音数据转换成待辨识声纹数据;根据相似声纹数据,产生一输出消息;以及通过网络接口传送输出消息至使用者装置。
另外,于其他实施例中,当声纹辨识装置是一使用者装置且更包含一麦克风及一显示器时,本发明的声纹辨识方法更包含下列步骤:自麦克风接收一音频信号;根据音频信号产生一录音数据;将录音数据转换成待辨识声纹数据;根据相似声纹数据,产生一输出消息;以及通过显示器显示该输出消息。
此外,于其他实施例中,本发明的声纹辨识方法,可更包含步骤:执行步骤S601至S603,以将待辨识声纹数据与各声纹数据进行比特差异值比对;以及当获得至少一该相似声纹数据时,挑选至少一相似声纹数据中百分比最大的相似声纹数据作为一确认声纹数据。
再者,当声纹辨识装置是一服务器且更包含一网络接口时,声纹辨识方法可更包含步骤:通过网络接口自一使用者装置接收一录音数据;将录音数据转换成待辨识声纹数据;根据确认声纹数据,产生一输出消息;以及通过网络接口传送输出消息至使用者装置。另一方面,当声纹辨识装置是一使用者装置且更包含一麦克风及一显示器时,声纹辨识方法可更包含下列步骤:自麦克风接收一音频信号;根据音频信号产生一录音数据;将录音数据转换成待辨识声纹数据;根据确认声纹数据,产生一输出消息;以及通过显示器显示输出消息。
除了上述步骤,本发明的声纹辨识方法亦能执行在所有前述实施例中所阐述的所有操作并具有所有对应的功能,本领域技术人员可直接了解此实施例如何基于所有前述实施例执行此等操作及具有该多个功能,故不赘述。
此外,前述本发明的声纹辨识方法可借由一电脑程序产品实现。电脑程序产品,存储有包含多个程序指令的一电脑程序,在所述电脑程序被载入并安装于一电子装置(例如:声纹辨识装置1)后,电子装置的处理器执行所述电脑程序所包含的该多个程序指令,以执行本发明的声纹辨识方法。电脑程序产品可为例如:唯读存储器(read only memory;ROM)、快闪存储器、软碟、硬盘、光盘(compact disk;CD)、随身碟、磁带、可由网络存取的数据库或熟习此项技艺者所已知且具有相同功能的任何其它存储器。
综上所述,本发明的声纹辨识方法基于将一待辨识声纹数据与一声纹数据库所存储的多个声纹数据进行比特差异值比对,并借由遮蔽比特误差率较大的频带上的比特差异值比对结果,而仅使用比特误差率较小的频带上的比特差异值比对结果,来获得相似声纹数据,以提高声纹辨识率。
上述的实施例仅用来例举本发明的实施态样,以及阐释本发明的技术特征,并非用来限制本发明的保护范畴。任何熟悉此技术者可轻易完成的改变或均等性的安排均属于本发明所主张的范围,本发明的权利保护范围应以权利要求书为准。

Claims (14)

1.一种声纹辨识装置,包含:
一存储器,用以存储具有多个声纹数据的一声纹数据库以及一待辨识声纹数据,各该声纹数据及该待辨识声纹数据每一者由多个频带(band)上的多个子声纹比特(sub-fingerprint bit)所组成;以及
一处理器,电性连接至该存储器,用以执行下列步骤:
(a)将该待辨识声纹数据与该多个声纹数据其中之一进行比特差异值比对,以得到各该频带上的一比特误差率(bit error rate;BER);
(b)计算该多个频带中该多个比特误差率小于一第一临界值的一百分比(percentage);以及
(c)当该百分比大于一第二临界值时,将比对的该声纹数据标示为一相似声纹数据。
2.如权利要求1所述的声纹辨识装置,其特征在于,该第一临界值为0.3,以及该第二临界值为25%。
3.如权利要求1所述的声纹辨识装置,其特征在于,该声纹辨识装置是一服务器且更包含电性连接至该处理器的一网络接口,该处理器更通过该网络接口自一使用者装置接收一录音数据,并将该录音数据转换成该待辨识声纹数据,以及该处理器更根据该相似声纹数据,产生一输出消息,并通过该网络接口传送该输出消息至该使用者装置。
4.如权利要求1所述的声纹辨识装置,其特征在于,该声纹辨识装置是一使用者装置且更包含电性连接至该处理器的一麦克风及一显示器,该处理器自该麦克风接收一音频信号,以根据该音频信号产生一录音数据,并将该录音数据转换成该待辨识声纹数据,以及该处理器更根据该相似声纹数据,产生一输出消息,并通过该显示器显示该输出消息。
5.如权利要求1所述的声纹辨识装置,其特征在于,该处理器更重复执行步骤(a)至(c),以将该待辨识声纹数据与各该声纹数据进行该比特差异值比对,以及当获得至少一该相似声纹数据时,该处理器更挑选该至少一该相似声纹数据中该百分比最大的该相似声纹数据作为一确认声纹数据。
6.如权利要求5所述的声纹辨识装置,其特征在于,该声纹辨识装置是一服务器且更包含电性连接至该处理器的一网络接口,该处理器更通过该网络接口自一使用者装置接收一录音数据,并将该录音数据转换成该待辨识声纹数据,以及该处理器更根据该确认声纹数据,产生一输出消息,并通过该网络接口传送该输出消息至该使用者装置。
7.如权利要求5所述的声纹辨识装置,其特征在于,该声纹辨识装置是一使用者装置且更包含电性连接至该处理器的一麦克风及一显示器,该处理器自该麦克风接收一音频信号,以根据该音频信号产生一录音数据,并将该录音数据转换成该待辨识声纹数据,以及该处理器更根据该确认声纹数据,产生一输出消息,并通过该显示器显示该输出消息。
8.一种用于一声纹辨识装置的声纹辨识方法,该声纹辨识装置包含一存储器以及一处理器,该存储器存储具有多个声纹数据的一声纹数据库以及一待辨识声纹数据,各该声纹数据及该待辨识声纹数据每一者由多个频带上的多个子声纹比特所组成,该声纹辨识方法由该处理器执行且包含下列步骤:
(a)将该待辨识声纹数据与该多个声纹数据其中之一进行比特差异值比对,以得到各该频带上的一比特误差率;
(b)计算该多个频带中该多个比特误差率小于一第一临界值的一百分比;以及
(c)当该百分比大于一第二临界值时,将比对的该声纹数据标示为一相似声纹数据。
9.如权利要求8所述的声纹辨识方法,其特征在于,该第一临界值为0.3,以及该第二临界值为25%。
10.如权利要求8所述的声纹辨识方法,其特征在于,该声纹辨识装置是一服务器且更包含一网络接口,以及该声纹辨识方法更包含下列步骤:
通过该网络接口自一使用者装置接收一录音数据;
将该录音数据转换成该待辨识声纹数据;
根据该相似声纹数据,产生一输出消息;以及
通过该网络接口传送该输出消息至该使用者装置。
11.如权利要求8所述的声纹辨识方法,其特征在于,该声纹辨识装置是一使用者装置且更包含一麦克风及一显示器,以及该声纹辨识方法更包含下列步骤:
自该麦克风接收一音频信号;
根据该音频信号产生一录音数据;
将该录音数据转换成该待辨识声纹数据;
根据该相似声纹数据,产生一输出消息;以及
通过该显示器显示该输出消息。
12.如权利要求8所述的声纹辨识方法,其特征在于,更包含下列步骤:
重复执行步骤(a)至(c),以将该待辨识声纹数据与各该声纹数据进行该比特差异值比对;以及
当获得至少一该相似声纹数据时,挑选该至少一该相似声纹数据中该百分比最大的该相似声纹数据作为一确认声纹数据。
13.如权利要求12所述的声纹辨识方法,其特征在于,该声纹辨识装置是一服务器且更包含一网络接口,以及该声纹辨识方法更包含下列步骤:
通过该网络接口自一使用者装置接收一录音数据;
将该录音数据转换成该待辨识声纹数据;
根据该确认声纹数据,产生一输出消息;以及
通过该网络接口传送该输出消息至该使用者装置。
14.如权利要求12所述的声纹辨识方法,其特征在于,该声纹辨识装置是一使用者装置且更包含一麦克风及一显示器,以及该声纹辨识方法更包含下列步骤:
自该麦克风接收一音频信号;
根据该音频信号产生一录音数据;
将该录音数据转换成该待辨识声纹数据;
根据该确认声纹数据,产生一输出消息;以及
通过该显示器显示该输出消息。
CN201610806957.4A 2016-08-25 2016-09-07 声纹辨识装置及其声纹辨识方法 Pending CN107785023A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW105127245A TWI612516B (zh) 2016-08-25 2016-08-25 聲紋辨識裝置、聲紋辨識方法及其電腦程式產品
TW105127245 2016-08-25

Publications (1)

Publication Number Publication Date
CN107785023A true CN107785023A (zh) 2018-03-09

Family

ID=61242618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610806957.4A Pending CN107785023A (zh) 2016-08-25 2016-09-07 声纹辨识装置及其声纹辨识方法

Country Status (4)

Country Link
US (1) US20180060429A1 (zh)
CN (1) CN107785023A (zh)
CA (1) CA2946908A1 (zh)
TW (1) TWI612516B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10652170B2 (en) 2017-06-09 2020-05-12 Google Llc Modification of audio-based computer program output
CN110111796B (zh) * 2019-06-24 2021-09-17 秒针信息技术有限公司 识别身份的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101681381A (zh) * 2007-06-06 2010-03-24 杜比实验室特许公司 使用多搜索组合改善音频/视频指纹搜索精确度
CN101777130A (zh) * 2010-01-22 2010-07-14 北京大学 一种指纹图像相似度评价方法
CN103403710A (zh) * 2011-02-10 2013-11-20 雅虎公司 对来自音频信号的特征指纹的提取和匹配
CN103730128A (zh) * 2012-10-13 2014-04-16 复旦大学 一种基于频谱sift特征描述子的音频片段认证方法
US20150104023A1 (en) * 2013-10-11 2015-04-16 Facebook, Inc., a Delaware corporation Generating A Reference Audio Fingerprint For An Audio Signal Associated With An Event

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8606579B2 (en) * 2010-05-24 2013-12-10 Microsoft Corporation Voice print identification for identifying speakers
US8949872B2 (en) * 2011-12-20 2015-02-03 Yahoo! Inc. Audio fingerprint for content identification
TWI543151B (zh) * 2014-03-31 2016-07-21 Kung Lan Wang Voiceprint data processing method, trading method and system based on voiceprint data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101681381A (zh) * 2007-06-06 2010-03-24 杜比实验室特许公司 使用多搜索组合改善音频/视频指纹搜索精确度
CN101777130A (zh) * 2010-01-22 2010-07-14 北京大学 一种指纹图像相似度评价方法
CN103403710A (zh) * 2011-02-10 2013-11-20 雅虎公司 对来自音频信号的特征指纹的提取和匹配
CN103730128A (zh) * 2012-10-13 2014-04-16 复旦大学 一种基于频谱sift特征描述子的音频片段认证方法
US20150104023A1 (en) * 2013-10-11 2015-04-16 Facebook, Inc., a Delaware corporation Generating A Reference Audio Fingerprint For An Audio Signal Associated With An Event

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王运生: "基于内容的海量音频高效检索", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Also Published As

Publication number Publication date
TWI612516B (zh) 2018-01-21
TW201810248A (zh) 2018-03-16
US20180060429A1 (en) 2018-03-01
CA2946908A1 (en) 2018-02-25

Similar Documents

Publication Publication Date Title
US8725829B2 (en) Method and system for identifying sound signals
US8373768B2 (en) Personalizing content based on mood
CN1967695B (zh) 信息处理装置、再现装置、通信方法、再现方法及计算机程序
US11611800B2 (en) Methods and apparatus for audio equalization
US20040237759A1 (en) Personalizing content
BRPI0710320A2 (pt) método que permite baixar e utilizar conteúdos musicais digitais em um dispositivo de computação portátil sem fio e respectivo dispositivo
US20080167995A1 (en) Method for purchasing and editing ringtones
WO2022033452A1 (zh) 一种音量推荐方法、装置、设备及存储介质
CN107785023A (zh) 声纹辨识装置及其声纹辨识方法
CN107017000A (zh) 用于编码和解码音频信号的装置、方法和计算机程序
CN107452398A (zh) 回声获取方法、电子设备及计算机可读存储介质
KR20040101299A (ko) 오디오 컨텐츠 식별 방법 및 식별 특징 형성 방법 및컴퓨터 판독가능한 매체 및 시스템
CN102883063A (zh) 移动终端和铃声设置方法
JP5082257B2 (ja) 音響信号検索装置
CN113656258B (zh) 基于互联网的智能蓝牙耳机用场景分析管控系统
CN108282678A (zh) 一种多媒体数据的播放方法、装置及系统
CN105280208B (zh) 一种调整歌词的显示格式的方法及装置
CN111198669A (zh) 一种用于计算机的音量调节系统
CN104038773B (zh) 生成铃声文件的方法及装置
US20220060791A1 (en) Systems and methods for providing play context recognition using ultrasound codes
Vuorinen et al. Trends in Western Popular Music: Analyzing Top Album Charts and Online User Opinions
KR20230161235A (ko) 음원 인공지능 학습장치 및 그 장치의 구동방법
TWI512500B (zh) 調整多媒體裝置之數位訊號處理設定之方法及系統,及其電腦程式產品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180309