CN104282303B - 利用声纹识别进行语音辨识的方法及其电子装置 - Google Patents

利用声纹识别进行语音辨识的方法及其电子装置 Download PDF

Info

Publication number
CN104282303B
CN104282303B CN201310285509.0A CN201310285509A CN104282303B CN 104282303 B CN104282303 B CN 104282303B CN 201310285509 A CN201310285509 A CN 201310285509A CN 104282303 B CN104282303 B CN 104282303B
Authority
CN
China
Prior art keywords
sub
sound bite
sound
bite
application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310285509.0A
Other languages
English (en)
Other versions
CN104282303A (zh
Inventor
张国峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Via Technologies Inc
Original Assignee
Via Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Via Technologies Inc filed Critical Via Technologies Inc
Priority to CN201310285509.0A priority Critical patent/CN104282303B/zh
Priority to TW102125581A priority patent/TWI523006B/zh
Priority to US14/248,345 priority patent/US10224029B2/en
Publication of CN104282303A publication Critical patent/CN104282303A/zh
Application granted granted Critical
Publication of CN104282303B publication Critical patent/CN104282303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种利用声纹识别进行语音辨识的方法及其电子装置,此方法包括下列步骤:接收一特定语音片段,切割所接收的特定语音片段为数个特定子语音片段,并对上述数个特定子语音片段分别进行一声纹识别处理。根据声纹识别处理的结果,判断各特定子语音片段是否为适格的子语音片段,撷取其中被判断为适格的子语音片段,进行语音辨识。

Description

利用声纹识别进行语音辨识的方法及其电子装置
技术领域
本发明涉及一种语音辨识的方法及其电子装置,特别是涉及一种利用声纹识别进行语音辨识的方法及其电子装置。
背景技术
以现有技术而言,大多数的电子装置,例如手机、笔记型计算机、平板计算机等,都具有语音辨识模块,使用者可藉由声控的方式,控制电子装置执行各种指令。但是,在处理使用者语音对话输入时,由于外界的干扰噪音,很容易使得语音辨识模块错误的将使用者语音输入之外的其他声音作识别,而导致识别错误率上升。因此,如何提升使用者语音输入的正确辨识率,乃是目前语音辨识领域需要研究的课题。
发明内容
本发明提供一种利用声纹识别进行语音辨识的方法,此方法包括下列步骤:接收一特定语音片段,切割所接收的特定语音片段为数个特定子语音片段,对此数个特定子语音片段分别进行一声纹识别处理,根据对此数个特定子语音片段分别进行声纹识别处理的结果,判断各特定子语音片段是否为适格的子语音片段。接着,撷取被判断为适格的子语音片段,进行语音辨识。
在本发明的一实施例中,其中,根据对上述数个特定子语音片段分别进行前述声纹识别处理的结果,判断各特定子语音片段是否为适格的子语音片段的步骤,还包括:依照时间先后顺序,定义上述数个特定子语音片段为一第一子语音片段、第二子语音片段、第三子语音片段至第N子语音片段,其中,N为上述数个特定子语音片段的个数。接着,通过前述声纹识别处理,分别辨识第一子语音片段、第二子语音片段及第三子语音片段。当第一子语音片段、第二子语音片段、第三子语音片段通过声纹识别处理,被识别为同一特定用户的声纹,则接着辨识第四子语音片段至第N子语音片段,是否亦为此同一特定用户的声纹。当判断第四子语音片段至第N子语音片段其中的一个或多个子语音片段亦为此同一特定用户的声纹,则判断是此同一特定用户的声纹的子语音片段为适格的子语音片段,接着对这些适格的子语音片段进行语音辨识。
在本发明的一实施例中,其中,辨识第四子语音片段至第N子语音片段是否亦为此同一特定用户的声纹的步骤,还包括:当判断第四子语音片段至第N子语音片段其中的一个或多个子语音片段并非此同一特定用户的声纹,则判断不是此同一特定用户的声纹的子语音片段为不适格的子语音片段。接着,舍弃这些不适格的子语音片段,不对其进行语音辨识。
在本发明的一实施例中,其中,根据分别对上述数个特定子语音片段分别进行声纹识别处理的结果,判断各特定子语音片段是否为适格的子语音片段的步骤,包括:在一数据库提前储存一预设声纹辨识数据,当判断上述数个子语音片段其中的一个或多个子语音片段为符合预设声纹辨识数据的声纹时,则确定符合预设声纹辨识数据的声纹的子语音片段为适格的子语音片段,接着,对这些适格的子语音片段进行语音辨识。
在本发明的一实施例中,其中,根据分别对上述数个特定子语音片段分别进行声纹识别处理的结果,判断各特定子语音片段是否为适格的子语音片段的步骤,还包括:当判断上述数个子语音片段其中的一个或多个子语音片段为不符合预设声纹辨识数据的声纹时,则确定不符合预设声纹辨识数据的声纹的子语音片段为不适格的子语音片段。接着,舍弃这些不适格的子语音片段,不对其进行语音辨识。
在本发明的一实施例中,其中,上述的声纹识别处理是利用梅尔倒频谱系数运算方法(Mel-Frequency Cepstral Coefficients,MFCCs)实施。
本发明提供一种利用声纹识别进行语音辨识的装置,包括:一收发模块、一控制模块。其中,收发模块接收一特定语音片段,而控制模块耦接至收发模块,控制模块切割所接收的特定语音片段为数个特定子语音片段,并对此数个特定子语音片段分别进行一声纹识别处理,根据此数个特定子语音片段分别进行声纹识别处理的结果,判断各特定子语音片段是否为适格的子语音片段。接着,撷取被判断为适格的子语音片段,进行语音辨识。
基于上述,本发明提供一种利用声纹识别进行语音辨识的方法及其电子装置。在进行语音辨识之前,先通过声纹识别处理,判断经收发模块接收到的语音片段,切割之后的其中一个或多个子语音片段是否为适格的子语音片段,接着再撷取适格的子语音片段,对其进行语音辨识。依此使得语音交互的人机介面,不再因为其他噪音的干扰,而导致大量的错误辨识。
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并结合附图详细说明如下。
附图说明
图1是依照本发明实施例的一种电子装置的示意图。
图2是依照本发明实施例的一种利用声纹识别进行语音辨识的方法的流程图。
图3是依照本发明图1实施例的另一种利用声纹识别进行语音辨识的方法的流程图。
图4A是依照本发明另一实施例的一种电子装置的示意图。
图4B是依照本发明图4A实施例的一种利用声纹识别进行语音辨识的方法的流程图。
附图符号说明
100:电子装置
110:收发模块
120:控制模块
130:数据库
S210~S260、S310~S344、S410~S424:利用声纹识别进行语音辨识的方法流程步骤
具体实施方式
图1是依照本发明实施例的一种电子装置的示意图,电子装置100实施本发明所提出的利用声纹识别进行语音辨识的方法。电子装置100包括收发模块110、控制模块120,两者相互耦接。其中,收发模块110可以是麦克风、音讯检测器等收音元件及喇叭、扩大机等播音元件的组合。控制模块120可以是硬件和/或硬件所实现的功能模块,其中,硬件可包括中央处理器、芯片组、微处理器等具有运算功能的硬件设备或上述硬件设备的组合,而硬件则可以是操作系统、驱动程序等等,控制模块120为提供本发明利用声纹识别进行语音辨识整体过程的主控元件。
图2是依照本发明实施例的一种利用声纹识别进行语音辨识的方法的流程图,请同时参照图1及图2。首先,收发模块110接收一特定语音片段(步骤210),控制模块120切割收发模块110所接收的此特定语音片段为数个特定子语音片段(步骤S220),接着,对此数个特定子语音片段分别进行一声纹识别处理(步骤S230)。其中,声纹识别处理是利用梅尔倒频谱系数运算方法(Mel-Frequency Cepstral Coefficients,MFCCs)实施,在语音辨识(Speech Identification)和声纹辨识(Voiceprint Recognition)方面,最常用到的语音特征就是梅尔倒频谱系数,此参数考虑到听觉对于不同频率的感受程度,因此特别适合用在语音或声纹辨识。梅尔倒频谱系数的计算首先用快速傅立叶转换(Fast FourierTransform,FFT)将时域信号转化成频域,之后对其对数能量谱用依照梅尔(Mel)刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换,进而得到结果。
在步骤S230之后,控制模块120根据上述数个特定子语音片段分别进行该声纹识别处理的结果,判断各特定子语音片段是否为适格的子语音片段(步骤S240)。当步骤S240的判断为否,则该控制模块120舍弃该些不适格的子语音片段,不对其进行语音辨识(步骤S250)。当步骤S240判断为是,控制模块120撷取被判断为适格的子语音片段,进行语音辨识(步骤S260)。
图3是依照本发明另一实施例的一种利用声纹识别进行语音辨识的方法的流程图,请同时参照图1及图3。图3在步骤S210~S230与图2所揭示的流程相同,不再赘述。而在图2所揭示的步骤S240,根据进行声纹识别处理的结果,控制模块120判断各特定子语音片段是否为适格的子语音片段的步骤,还在图3的实施例中,细分为步骤S310~S344,将于以下论述。图3的实施例,在步骤S230对上述数个特定子语音片段分别进行声纹识别处理之后,依照时间先后顺序,定义该数个特定子语音片段为第一子语音片段、第二子语音片段、第三子语音片段至第N子语音片段,其中,N为上述数个特定子语音片段的个数(步骤S310)。
接着,通过前述声纹识别处理,辨识第一子语音片段、第二子语音片段及第三子语音片段(步骤S320),判断此第一子语音片段、此第二子语音片段、此第三子语音片段通过前述声纹识别处理,是否被识别为同一特定用户的声纹(步骤S330),也就是说,判断此第一子语音片段、此第二子语音片段、此第三子语音片段是否由同一位使用者的发出。当步骤S330的判断为否,则认定其为不适格的子语音片段(步骤S342)。而当步骤S330的判断为是,则至步骤S340,判断第四子语音片段至第N子语音片段其中的一个或多个子语音片段是否仍为此同一特定用户的声纹(步骤S340)。当步骤S340的判断为否,则认定不是此同一特定用户的声纹的子语音片段为不适格的子语音片段(步骤S342),当步骤S340的判断为是,则认定是此同一特定用户的声纹的子语音片段为适格的子语音片段(步骤S344)。在步骤S342之后,舍弃上述被判断为不适格的子语音片段,不对其进行语音辨识(步骤S250)。而在步骤S344之后,撷取被判断为适格的子语音片段,进行语音辨识(步骤S260)。
图4A是依照本发明另一实施例的一种电子装置的示意图,图4B是依照本发明图4A实施例的一种利用声纹识别进行语音辨识的方法的流程图,请同时参照图4A及图4B。图4A的功能方块图与图1实施例相较,其不同的处在于图4A具有数据库130耦接至控制模块120,数据库130预先储存一预设声纹辨识数据。图4B在步骤S210~S230与图2所揭示的流程相同,不再赘述。而在图2所揭示的步骤S240,控制模块120根据进行声纹识别处理的结果,判断各特定子语音片段是否为适格的子语音片段的步骤,在图4B的实施例中,更细分为步骤S410~S424,将于以下论述。图4B的实施例,在数据库130预先储存一预设声纹辨识数据(步骤S410)。接着,控制模块120判断上述数个特定子语音片段其中的一个或多个子语音片段是否符合此预设声纹辨识数据的声纹(步骤S420)。当步骤S420的判断为否,则判断不符合预设声纹辨识数据的声纹的子语音片段为不适格的子语音片段(步骤S422)。当步骤S420的判断为是,则判断符合预设声纹辨识数据的声纹的子语音片段为适格的子语音片段(步骤S424)。在步骤S422之后,舍弃上述被判断为不适格的子语音片段,不对其进行语音辨识(步骤S250),而在步骤S424之后,撷取被判断为适格的子语音片段,进行语音辨识(步骤S260)。
综上所述,本发明提供一种利用声纹识别进行语音辨识的方法及其电子装置,在进行语音辨识之前,先通过声纹识别处理,判断经收发模块接收到的语音片段,切割之后的其中一个或多个子语音片段是否为适格的子语音片段,接着再撷取适格的子语音片段,对其进行语音辨识。藉由本发明所提供的判断流程,使得语音交互的人机介面,撷取真正属于使用者的语音对话片段,不再因为其他语音或噪音的干扰,而导致错误辨识,大大提升了语音辨识的正确率。
虽然本发明已以实施例揭示如上,然其并非用以限定本发明,本领域技术人员,在不脱离本发明的精神和范围的前提下,可作些许的更动与润饰,故本发明的保护范围是以本发明的权利要求为准。

Claims (13)

1.一种利用声纹识别进行语音辨识的方法,包括:
在语音交互的人机介面下针队声控接收一特定语音片段;
切割所接收的该特定语音片段为数个特定子语音片段;
对该数个特定子语音片段分别进行一声纹识别处理;
根据对该数个特定子语音片段分别进行该声纹识别处理的结果,判断各该特定子语音片段是否为适格的子语音片段;以及
撷取被判断为适格的子语音片段,开始进行语音辨识。
2.如权利要求1所述的利用声纹识别进行语音辨识的方法,其中当判断各该特定子语音片段为不适格的子语音片段,则舍弃该些不适格的子语音片段,不对其进行语音辨识。
3.如权利要求1所述的利用声纹识别进行语音辨识的方法,其中,根据对该数个特定子语音片段分别进行该声纹识别处理的结果,判断各该特定子语音片段是否为适格的子语音片段的步骤,还包括:
依照时间先后顺序,定义该数个特定子语音片段为第一子语音片段、第二子语音片段、第三子语音片段至第N子语音片段,其中,N为切割该数个特定子语音片段的个数;
通过该声纹识别处理,辨识该第一子语音片段、该第二子语音片段及该第三子语音片段;
当该第一子语音片段、该第二子语音片段、该第三子语音片段通过该声纹识别处理,被识别为同一特定用户的声纹,则接着辨识第四子语音片段至该第N子语音片段,是否亦为该同一特定用户的声纹;
当判断该第四子语音片段至该第N子语音片段其中的一个或多个子语音片段亦为该同一特定用户的声纹,则判断是该同一特定用户的声纹的子语音片段,为适格的子语音片段;以及
撷取被判断为适格的子语音片段,进行语音辨识。
4.如权利要求3所述的利用声纹识别进行语音辨识的方法,其中,辨识该第四子语音片段至该第N子语音片段是否亦为该同一特定用户的声纹步骤,还包括:
当判断该第四子语音片段至该第N子语音片段其中的一个或多个子语音片段并非该同一特定用户的声纹,则判断不是该同一特定用户的声纹的子语音片段,为不适格的子语音片段;以及
舍弃该些不适格的子语音片段,不对其进行语音辨识。
5.如权利要求1所述的利用声纹识别进行语音辨识的方法,其中,根据该数个特定子语音片段分别进行该声纹识别处理的结果,判断各该特定子语音片段是否为适格的子语音片段的步骤,包括:
在一数据库储存一预设声纹辨识数据;以及
当判断该数个特定子语音片段其中的一个或多个特定子语音片段符合该预设声纹辨识数据的声纹,则判断符合该预设声纹辨识数据的声纹的子语音片段为适格的子语音片段;以及
撷取被判断为适格的子语音片段,进行语音辨识。
6.如权利要求5所述的利用声纹识别进行语音辨识的方法,其中,根据该数个特定子语音片段分别进行该声纹识别处理的结果,判断各该特定子语音片段是否为适格的子语音片段的步骤,还包括:
当判断该数个特定子语音片段其中的一个或多个特定子语音片段不符合该预设声纹辨识数据的声纹,则判断不符合该预设声纹辨识数据的声纹的子语音片段为不适格的子语音片段;以及
舍弃该些不适格的子语音片段,不对其进行语音辨识。
7.如权利要求1所述的利用声纹识别进行语音辨识的方法,其中,该声纹识别处理是利用梅尔倒频谱系数运算方法实施。
8.一种电子装置,包括:
一收发模块,在语音交互的人机介面下针队声控接收一特定语音片段;以及
一控制模块,耦接至该收发模块,切割所接收的该特定语音片段为数个特定子语音片段,分别对该数个特定子语音片段进行一声纹识别处理,根据该数个特定子语音片段分别进行该声纹识别处理的结果,判断各该特定子语音片段是否为适格的子语音片段,撷取被判断为适格的子语音片段,开始进行语音辨识。
9.如权利要求8所述的电子装置,其中该控制模块依照时间先后顺序,定义该数个特定子语音片段为第一子语音片段、第二子语音片段、第三子语音片段至第N子语音片段,其中,N为该数个特定子语音片段的个数,该控制模块并通过该声纹识别处理,辨识该第一子语音片段、该第二子语音片段及该第三子语音片段,当该第一子语音片段、该第二子语音片段、该第三子语音片段通过该声纹识别处理,被识别为同一特定用户的声纹,则该控制模块接着辨识第四子语音片段至该第N子语音片段,是否亦为该同一特定用户的声纹,当该控制模块判断该第四子语音片段至该第N子语音片段其中的一个或多个子语音片段亦为该同一特定用户的声纹,则判断是该同一特定用户的声纹的子语音片段为适格的子语音片段,该控制模块撷取被判断为适格的子语音片段,进行语音辨识。
10.如权利要求9所述的电子装置,其中该控制模块当判断该第四子语音片段至该第N子语音片段其中的一个或多个子语音片段并非该同一特定用户的声纹,则判断不是该同一特定用户的声纹的子语音片段为不适格的子语音片段,该控制模块舍弃该些不适格的子语音片段,不对其进行语音辨识。
11.如权利要求10所述的电子装置,还包括:
一数据库,耦接至该控制模块,预先储存一预设声纹辨识数据,当该控制模块判断该数个特定子语音片段其中的一个或多个特定子语音片段符合该预设声纹辨识数据的声纹时,则判断符合该预设声纹辨识数据的声纹的子语音片段为适格的子语音片段,该控制模块接着撷取被判断为适格的子语音片段,进行语音辨识。
12.如权利要求11所述的电子装置,还包括当该控制模块判断该特定数个子语音片段其中的一个或多个特定子语音片段不符合该预设声纹辨识数据的声纹,则判断不符合该预设声纹辨识数据的声纹的子语音片段为不适格的子语音片段,该控制模块舍弃该些不适格的子语音片段,不对其进行语音辨识。
13.如权利要求8所述的电子装置,其中,该声纹识别处理是利用梅尔倒频谱系数运算方法实施。
CN201310285509.0A 2013-07-09 2013-07-09 利用声纹识别进行语音辨识的方法及其电子装置 Active CN104282303B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310285509.0A CN104282303B (zh) 2013-07-09 2013-07-09 利用声纹识别进行语音辨识的方法及其电子装置
TW102125581A TWI523006B (zh) 2013-07-09 2013-07-17 利用聲紋識別進行語音辨識的方法及其電子裝置
US14/248,345 US10224029B2 (en) 2013-07-09 2014-04-09 Method for using voiceprint identification to operate voice recognition and electronic device thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310285509.0A CN104282303B (zh) 2013-07-09 2013-07-09 利用声纹识别进行语音辨识的方法及其电子装置

Publications (2)

Publication Number Publication Date
CN104282303A CN104282303A (zh) 2015-01-14
CN104282303B true CN104282303B (zh) 2019-03-29

Family

ID=52257125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310285509.0A Active CN104282303B (zh) 2013-07-09 2013-07-09 利用声纹识别进行语音辨识的方法及其电子装置

Country Status (3)

Country Link
US (1) US10224029B2 (zh)
CN (1) CN104282303B (zh)
TW (1) TWI523006B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI557599B (zh) * 2015-11-05 2016-11-11 宏碁股份有限公司 語音控制方法及語音控制系統
CN106098068B (zh) * 2016-06-12 2019-07-16 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
US10399845B2 (en) * 2017-09-22 2019-09-03 Emco Wheaton Retail Corporation Testable overfill prevention valve for a liquid storage container
CN109065069B (zh) * 2018-10-10 2020-09-04 广州市百果园信息技术有限公司 一种音频检测方法、装置、设备及存储介质
CN109583171A (zh) * 2018-12-05 2019-04-05 北京蓦然认知科技有限公司 一种用户登录解锁方法、装置
CN110491389B (zh) * 2019-08-19 2021-12-14 效生软件科技(上海)有限公司 一种话务系统的声纹识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1662956A (zh) * 2002-06-19 2005-08-31 皇家飞利浦电子股份有限公司 大量说话人识别(id)系统及其相应方法
CN102543063A (zh) * 2011-12-07 2012-07-04 华南理工大学 基于说话人分割与聚类的多说话人语速估计方法
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050096900A1 (en) * 2003-10-31 2005-05-05 Bossemeyer Robert W. Locating and confirming glottal events within human speech signals
TWI342010B (en) 2006-12-13 2011-05-11 Delta Electronics Inc Speech recognition method and system with intelligent classification and adjustment
JP4728972B2 (ja) * 2007-01-17 2011-07-20 株式会社東芝 インデキシング装置、方法及びプログラム
CN101441869A (zh) * 2007-11-21 2009-05-27 联想(北京)有限公司 语音识别终端用户身份的方法及终端
CN101452704B (zh) * 2007-11-29 2011-05-11 中国科学院声学研究所 一种基于信息传递的说话人聚类方法
CN201955775U (zh) * 2010-11-19 2011-08-31 吉林大学 基于声纹识别的usb身份认证系统
CN102694891A (zh) 2011-03-21 2012-09-26 鸿富锦精密工业(深圳)有限公司 通话噪音去除系统及方法
JP5929154B2 (ja) 2011-12-15 2016-06-01 富士通株式会社 信号処理装置、信号処理方法および信号処理プログラム
CN103165131A (zh) * 2011-12-17 2013-06-19 富泰华工业(深圳)有限公司 语音处理系统及语音处理方法
US20130317827A1 (en) * 2012-05-23 2013-11-28 Tsung-Chun Fu Voice control method and computer-implemented system for data management and protection
CN102723081B (zh) 2012-05-30 2014-05-21 无锡百互科技有限公司 语音信号处理方法、语音和声纹识别方法及其装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1662956A (zh) * 2002-06-19 2005-08-31 皇家飞利浦电子股份有限公司 大量说话人识别(id)系统及其相应方法
CN102543063A (zh) * 2011-12-07 2012-07-04 华南理工大学 基于说话人分割与聚类的多说话人语速估计方法
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端

Also Published As

Publication number Publication date
TWI523006B (zh) 2016-02-21
TW201503116A (zh) 2015-01-16
US20150019222A1 (en) 2015-01-15
CN104282303A (zh) 2015-01-14
US10224029B2 (en) 2019-03-05

Similar Documents

Publication Publication Date Title
CN104282303B (zh) 利用声纹识别进行语音辨识的方法及其电子装置
AU2019204501B2 (en) Voice trigger for a digital assistant
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
EP3353677B1 (en) Device selection for providing a response
US9666183B2 (en) Deep neural net based filter prediction for audio event classification and extraction
EP3826012B1 (en) Method and device for evaluating performance of speech enhancement algorithm, electronic device and computer-readable storage medium
KR101610151B1 (ko) 개인음향모델을 이용한 음성 인식장치 및 방법
US20160019886A1 (en) Method and apparatus for recognizing whisper
CN108346425B (zh) 一种语音活动检测的方法和装置、语音识别的方法和装置
US11568731B2 (en) Systems and methods for identifying an acoustic source based on observed sound
US20130253924A1 (en) Speech Conversation Support Apparatus, Method, and Program
CN104464722B (zh) 基于时域和频域的语音活性检测方法和设备
CN109036393A (zh) 家电设备的唤醒词训练方法、装置及家电设备
CN109841214A (zh) 语音唤醒处理方法、装置和存储介质
CN108665889A (zh) 语音信号端点检测方法、装置、设备及存储介质
JP2018005122A (ja) 検出装置、検出方法及び検出プログラム
CN105788590B (zh) 语音识别方法及装置、移动终端
CN109064720B (zh) 位置提示方法、装置、存储介质及电子设备
CN110827800A (zh) 基于语音的性别识别方法及其装置、存储介质和设备
CN111862991A (zh) 一种婴儿哭声的识别方法及系统
CN114694667A (zh) 语音输出方法、装置、计算机设备及存储介质
CN113257284B (zh) 语音活动检测模型训练、语音活动检测方法及相关装置
AU2023222931B2 (en) Voice trigger for a digital assistant
WO2022188560A1 (zh) 距离关系确定、设备控制、模型训练的方法及相关装置
CN118379994A (zh) 一种用于ar头盔的智能语音识别方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant