CN103426428B - 语音识别方法及系统 - Google Patents

语音识别方法及系统 Download PDF

Info

Publication number
CN103426428B
CN103426428B CN201210157341.0A CN201210157341A CN103426428B CN 103426428 B CN103426428 B CN 103426428B CN 201210157341 A CN201210157341 A CN 201210157341A CN 103426428 B CN103426428 B CN 103426428B
Authority
CN
China
Prior art keywords
mentioned
identification
speech data
person
statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210157341.0A
Other languages
English (en)
Other versions
CN103426428A (zh
Inventor
N.C.巴达文
庞台铭
叶柏园
V.K.巴帕那帕利亚代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asustek Computer Inc
Original Assignee
Asustek Computer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asustek Computer Inc filed Critical Asustek Computer Inc
Priority to CN201210157341.0A priority Critical patent/CN103426428B/zh
Publication of CN103426428A publication Critical patent/CN103426428A/zh
Application granted granted Critical
Publication of CN103426428B publication Critical patent/CN103426428B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

一种语音识别方法及系统。此方法撷取语音数据中的语音特征,据以辨识此语音数据的语者身份,接着使用第一声学模型来辨识语音数据中的语句,而根据所辨识的语句及语音数据,计算所辨识语句的信心分数,并判断此信心分数是否超过门槛值。其中,当信心分数超过门槛值时,即收集所辨识的语句及语音数据,以使用此语音数据进行与语者身份相对应的第二声学模型的语者调适。

Description

语音识别方法及系统
技术领域
本发明是有关于一种语音识别系统及方法,且特别是有关于一种可针对不同语者调适的语音识别系统及方法。
背景技术
自动语音识别系统是利用不特定语者(speakerindependent)声学模型来辨识语者所说的单字。此不特定语者模型是利用由大量语音素材(corpus)中取得的多个语者的语音数据以及已知转译(transcription)数据所建立。此种方法虽可产生较为均衡(average)的不特定语者模型,但针对使用特定方式说话的不同语者,仍不一定能够提供准确的辨识结果,且若使用上述系统的使用者并非本国语者(nativespeaker)或是为幼童,系统的辨识准确度将大幅下降。
特定语者(speakerdependent)声学模型则是针对特定语者所建立,其将每个语者的语音特性模块化为语音模型,因此可提供相当高的辨识准确度。然而,要产生这样的特定语者声学模型需要取得大量的语音数据,才得以进行语者调适(speakeradaptation)。
常见的声学模型训练方式为离线监督式语者调适(off-linesupervisedspeakeradaptation),其要求使用者重复念出预先定义的语句并录制为语音数据,而当收集足够数量语句的语音数据后,系统再根据已知语句及所收集的语音数据进行语者调适,从而建立该语者的声学模型。然而,在许多系统、应用或装置中,使用者多不愿意进行上述的训练过程,因此要从单一语者上收集足够的语音数据,并用以产生特定语者声学模型,是相当困难且不实际的。
另一种方式则为在线非监督式语者调适(on-lineunsupervisedspeakeradaptation),其先辨识语者的语音数据,然后根据辨识结果(transcript)在系统运行(runtime)期间进行不特定语者声学模型的调适。此种方式虽可提供在线实时的语者调适,但却需要先辨识语音数据才能进行调适,相对于已知语句的离线调适方式而言,辨识结果不太可能完全正确。
发明内容
有鉴于此,本发明提出一种语音识别方法及系统,藉由辨识语音数据的语者身份,据以进行声学模型的语者调适(speakeradaptation),可增加语音识别的准确性。
本发明提出一种语音识别方法,其撷取一语音数据中的至少一个语音特征,据以辨识此语音数据的语者身份,接着使用第一声学模型来辨识语音数据中的语句,而根据所辨识的语句及语音数据,计算所辨识语句的信心分数(confidencescore),并判断此信心分数是否超过第一门槛值。其中,当信心分数超过第一门槛值时,即收集所辨识的语句及语音数据,以使用此语音数据进行与语者身份相对应的第二声学模型的语者调适。
本发明提出一种语音识别系统,其包括语者识别模块、语音辨识模块、词语确认模块、数据收集模块及语者调适模块。其中,语者识别模块用以撷取语音数据中的至少一个语音特征,据以辨识语音数据的语者身份。语音辨识模块使用第一声学模型辨识语音数据中的语句。词语确认模块根据语音辨识模块所辨识的语句及语音数据,计算所辨识语句的信心分数,并判断此信心分数是否超过第一门槛值。数据收集模块在词语确认模块判断信心分数超过第一门槛值时,收集语音辨识模块所辨识的语句及语音数据。语者调适模块使用数据收集模块所收集的语音数据进行与语者身份相对应的第二声学模型的语者调适。
基于上述,本发明的语音识别方法及系统针对不同语者建立专属的声学模型,并在接收到语音数据时,计算辨识该语音数据的信心分数及发音分数,据以决定是否以此语音数据来进行相对应语者的声学模型的语者调适,藉此可增加语音识别的准确性。
为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图式作详细说明如下。
附图说明
图1是依照本发明一实施例所示的语音识别系统的方块图。
图2是依照本发明一实施例所示的语音识别方法的流程图。
图3是依照本发明一实施例所示的根据语者身份选择声学模型以辨识语音数据的方法流程图。
图4是依照本发明一实施例所示的新增声学模型的方法流程图。
图5是依照本发明一实施例所示的语音识别系统的方块图。
图6是依照本发明一实施例所示的语音识别方法的流程图。
具体实施方式
本发明收集不同语者输入的语音数据,辨识语音数据中的语句,并确认所辨识语句的正确性,据以决定是否将此语音数据用来进行语者调适(speakeradaptation)以产生语者的声学模型。随着所收集语音数据的递增,可将声学模型调适为愈来愈接近语者的语音特性,而针对不同语者自动切换使用专属的声学模型来辨识语句,则可增加辨识的准确度。上述语音数据的收集及声学模型的调适均是在背景中执行,因此可在使用者不知情或不干扰使用者的情况下自动进行,提供使用便利性。
图1是依照本发明一实施例所示的语音识别系统的方块图。图2是依照本发明一实施例所示的语音识别方法的流程图。请同时参照图1及图2,本实施例的语音识别系统10包括语者识别模块11、语音辨识模块12、词语确认模块13、数据收集模块14及语者调适模块15,以下即搭配图1中语音识别系统10的各项元件说明本实施例语音识别方法的详细步骤:
首先,由语者识别模块11接收语者输入的语音数据,而撷取此语音数据中的至少一个语音特征,据以辨识语音数据的语者身份(步骤S202)。其中,语者识别模块11例如分别利用已建立在语音识别系统10的声学模型数据库(未绘示)中的多个语者的声学模型来辨识上述语音数据中的语音特征,而根据各个声学模型取得语音数据的辨识结果,语者识别模块11即可判断出语音数据的语者身份。
接着,由语音辨识模块12使用第一声学模型辨识语音数据中的语句(步骤S204)。其中,语音辨识模块12例如会应用自动语音辨识(automaticspeechrecognition,ASR)技术,而使用一个不特定语者(speakerindependent)声学模型来辨识语音数据中的语句。此不特定语者声学模型例如是内建在语音识别系统10中,而可用以辨识不特定语者输入的语音数据。
需说明的是,本实施例的语音识别系统10还可针对不同的语者建立各自专属的声学模型,并给予此语者或其声学模型一个特定的语者身份。藉此,每当语者识别模块11接收到由已建立有声学模型的语者输入的语音数据时,即可立即识别出该语者的身份,从而选用其对应的声学模型来辨识语音数据。
举例来说,图3是依照本发明一实施例所示的根据语者身份选择声学模型以辨识语音数据的方法流程图。请参照图3,在语者识别模块11撷取语音数据中的至少一个语音特征,并据以辨识语音数据的语者身份(步骤S302)。之后,语音辨识模块12会进一步判断语者识别模块11是否辨识出语音数据的语者身份(步骤S304)。其中,若语者识别模块11可辨识语者身份,语音辨识模块12即可从语者识别模块11接收语者身份,并使用与此语者身份相对应的声学模型来辨识语音数据中的语句(步骤S306);反之,若语者识别模块11无法辨识该语者身份,则可额外建立一个新的语者身份,而语音辨识模块12在从语者识别模块11接收到新的语者身份时,则会使用不特定语者(speakerindependent)声学模型来辨识语音数据中的语句(步骤S308)。藉此,即便是在没有可与语音数据相对应的语者声学模型的情况下,语音识别系统10仍然能够藉由使用不特定语者声学模型来辨识语音数据,进而建立此语者专属的声学模型。
回到图2的流程,在语音辨识模块12辨识语音数据中的语句之后,词语确认模块13即根据语音辨识模块12所辨识的语句及语音数据,计算所辨识语句的信心分数(步骤S206)。其中,词语确认模块13例如是利用词语确认(utteranceverification)技术来量测所辨识语句的信心分数,藉此判断所辨识语句的正确性(correctness)。
接着,词语确认模块13会判断所计算的信心分数是否超过第一门槛值(步骤S208),并在此信心分数超过第一门槛值时,输出语音辨识模块12所辨识的语句及语音数据,而由数据收集模块14收集,语者调适模块15则使用数据收集模块14收集的语音数据进行与语者身份相对应的第二声学模型的语者调适(步骤S210)。反之,在词语确认模块13判断信心分数不超过第一门槛值时,数据收集模块14则不会收集此语音数据,语者调适模块15也不会使用此语音数据进行语者调适(步骤S212)。
详言之,数据收集模块14例如会将具有高信心分数的语音数据及其语句储存在语音识别系统10的语音数据库(未绘示)中,以准备做为声学模型的语者调适之用。语者调适模块15则会根据语者识别模块11所辨识的语者身份,判断语音识别系统10中是否已建立有此语者对应的声学模型。而若系统中已有对应的声学模型,则语者调适模块15即会使用数据收集模块14所收集的语句及语音数据直接对该声学模型进而语者调适,从而将该声学模型调适得愈来愈接近该语者的语音特性。其中,上述的声学模型例如是一个采用隐藏式马可夫模型(Hidden-MarkovModel,HMM)的统计模型,其例如会记录先前数据的平均值(mean)和变异数(variacne)等统计值,而每当有新的语音数据进入后,这些统计值也将会对应此语音数据做小幅变动,最终获得一个更强健(robust)的统计模型。
另一方面,若系统中没有对应的声学模型,则语者调适模块15还会根据数据收集模块14所收集的语音数据的数目,而决定是否进行语者调适以新增新的声学模型。
详言之,图4是依照本发明一实施例所示的新增声学模型的方法流程图。请参照图4,本实施例由数据收集模块14收集语句及语音数据(步骤S402),而语者调适模块15则会在数据收集模块14每次收集到新的语音数据时,判断其所收集的语音数据数目是否超过第三门槛值(步骤S404)。其中,当判断数目超过第三门槛值时,即代表所收集的数据已足以建立声学模型,此时语者调适模块15即会利用数据收集模块14所收集的语音数据,将一个不特定语者(speakerindependent)声学模型转换为特定语者(speakerdependent)声学模型,并用以作为与语者身份相对应的声学模型(步骤S406)。反之,当判断数目不超过第三门槛值时,则回到步骤S402,由数据收集模块14继续收集语句及语音数据。
藉由上述方法,当使用者将配备本案语音识别系统的装置买回家时,即可由家中成员分别输入语音数据,藉以建立各自的声学模型。而随着各个成员使用次数的增加,各个声学模型也将调适得愈来愈接近成员的语音特性。此外,在每次接收到语音数据时,语音识别系统也会自动辨识成员身分,并选用相对应的声学模型来进行语音辨识,因此可增加语音辨识的正确性。
除了上述辨识语句正确性的评分机制外,本发明还针对语音数据中多个词语(utterance),设计一个发音的评分机制,并用以筛选语音数据,从而去除语意正确但发音不正确的语音数据。以下则再举一实施例详细说明。
图5是依照本发明一实施例所示的语音识别系统的方块图。图6是依照本发明一实施例所示的语音识别方法的流程图。请同时参照图5及图6,本实施例的语音识别系统50包括语者识别模块51、语音辨识模块52、词语确认模块53、数据收集模块54、语音评分模块55及语者调适模块56,以下即搭配图5中语音识别系统50的各项元件说明本实施例语音识别方法的详细步骤:
首先,由语者识别模块51接收语者输入的语音数据,而撷取此语音数据中的至少一个语音特征,据以辨识语音数据的语者身份(步骤S602)。接着,由语音辨识模块52使用第一声学模型辨识语音数据中的语句(步骤S604)。之后,由词语确认模块53根据语音辨识模块52所辨识的语句及语音数据,计算所辨识语句的信心分数(步骤S606),并判断此信心分数是否超过第一门槛值(步骤S608)。其中,当信心分数不超过第一门槛值时,词语确认模块53即不会输出所辨识的语句及语音数据,而此语音数据也不会用来进行语者调适(步骤S610)。
反之,在判断信心分数超过第一门槛值时,词语确认模块53即会输出所辨识的语句及语音数据,而由语音评分模块55进一步利用语音评分(speechevaluation)技术评价此语音数据中多个词语(utterance)的发音分数(pronunciationscore)(步骤S612)。其中,语音评分模块55例如会评价语音数据中的音素(phoneme)、单字(word)、词组(phrase)、语句(sentence)等词语,藉此提供每一个词语的详细信息。
接着,语者调适模块56会判断语音评分模块55所计算的发音分数是否超过第二门槛值,从而使用发音分数超过第二门槛值的全部或部分语音数据来进行与语者身份相对应的第二声学模型的语者调适(步骤S614)。
藉由上述方法,即可进一步筛选出发音不正确的语音数据,因此可避免将此语音数据用在声学模型的调适,而造成声学模型的偏差。
综上所述,本发明的语音识别方法及系统藉由辨识语音数据的语者身份,选用对应的声学模型来进行语音识别,因此可大幅增加语音识别的准确性。本发明还进一步计算语音识别结果的信心分数及发音分数,从而去除语意不正确及发音不正确的语音数据,并仅使用分数较高、具有参考价值的语音数据来对声学模型进行语者调适,因此可使得声学模型接近语者的语音特性,从而增加语音辨识的正确性。
虽然本发明已以实施例揭露如上,然其并非用以限定本发明,任何所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作些许的更动与润饰,故本发明的保护范围当视权利要求书所界定者为准。

Claims (20)

1.一种语音识别方法,其特征是,包括:
撷取语音数据中的至少一语音特征,据以辨识上述语音数据的语者身份;
使用第一声学模型辨识上述语音数据中的语句;
根据所辨识的上述语句及上述语音数据,计算所辨识上述语句的信心分数,并判断上述信心分数是否超过第一门槛值;以及
当上述信心分数超过上述第一门槛值时,收集所辨识的上述语句及上述语音数据,以使用上述语音数据进行与上述语者身份相对应的第二声学模型的语者调适。
2.根据权利要求1所述的语音识别方法,其特征是,其中撷取上述语音数据中的上述至少一语音特征,据以辨识上述语音数据的上述语者身份的步骤包括:
分别利用已建立的多个语者的第二声学模型辨识上述至少一语音特征,以根据各上述这些第二声学模型的辨识结果,判断上述语音数据的上述语者身份。
3.根据权利要求2所述的语音识别方法,其特征是,其中使用上述第一声学模型辨识上述语音数据中的上述语句的步骤包括:
判断是否可辨识上述语音数据的上述语者身份;
若无法辨识上述语者身份,建立新语者身份,并使用不特定语者声学模型辨识上述语音数据中的上述语句;以及
若可辨识上述语者身份,使用与上述语者身份相对应的上述第二声学模型辨识上述语音数据中的上述语句。
4.根据权利要求1所述的语音识别方法,其特征是,其中根据所辨识的上述语句及上述语音数据,计算所辨识上述语句的上述信心分数的步骤包括:
利用词语确认技术,量测所辨识上述语句的上述信心分数。
5.根据权利要求1所述的语音识别方法,其特征是,其中收集所辨识的上述语句及上述语音数据,以使用上述语音数据进行与上述语者身份相对应的上述第二声学模型的上述语者调适的步骤包括:
利用语音评分技术评价上述语音数据中多个词语的发音分数,并判断上述发音分数是否超过第二门槛值;以及
使用上述发音分数超过上述第二门槛值的全部或部分上述语音数据进行与上述语者身份相对应的上述第二声学模型的上述语者调适。
6.根据权利要求5所述的语音识别方法,其特征是,其中上述这些词语包括音素、单字、词组及语句其中之一或其组合。
7.根据权利要求1所述的语音识别方法,其特征是,其中使用上述第一声学模型辨识上述语音数据中的上述语句的步骤包括:
使用自动语音辨识技术辨识上述语音数据中的上述语句。
8.根据权利要求1所述的语音识别方法,其特征是,其中收集所辨识的上述语句及上述语音数据,使用上述语音数据进行与上述语者身份相对应的上述第二声学模型的上述语者调适的步骤包括:
判断所收集的语音数据的数目是否超过第三门槛值;以及
当上述数目超过上述第三门槛值时,利用所收集的语音数据,转换不特定语者声学模型为特定语者声学模型,以作为与上述语者身份相对应的上述第二声学模型。
9.根据权利要求1所述的语音识别方法,其特征是,其中上述第一声学模型及上述第二声学模型为隐藏式马可夫模型。
10.一种语音识别系统,其特征是,包括:
语者识别模块,撷取语音数据中的至少语音特征,据以辨识上述语音数据的语者身份;
语音辨识模块,使用第一声学模型辨识上述语音数据中的语句;
词语确认模块,根据上述语音辨识模块所辨识的上述语句及上述语音数据,计算所辨识上述语句的信心分数,并判断上述信心分数是否超过第一门槛值;
数据收集模块,当上述词语确认模块判断上述信心分数超过上述第一门槛值时,收集上述语音辨识模块所辨识的上述语句及上述语音数据;以及
语者调适模块,使用上述数据收集模块所收集的上述语音数据进行与上述语者身份相对应的第二声学模型的语者调适。
11.根据权利要求10所述的语音识别系统,其特征是,还包括:
声学模型数据库,记录已建立的多个语者的第二声学模型。
12.根据权利要求11所述的语音识别系统,其特征是,其中上述语者识别模块包括分别利用上述声学模型数据库中上述这些语者的第二声学模型辨识上述至少一语音特征,以根据各上述这些第二声学模型的辨识结果,判断上述语音数据的上述语者身份。
13.根据权利要求12所述的语音识别系统,其特征是,其中上述语者识别模块包括判断是否可辨识上述语音数据的上述语者身份,其中
若无法辨识上述语者身份,建立新语者身份,并由上述语音辨识模块使用不特定语者声学模型辨识上述语音数据中的上述语句;以及
若可辨识上述语者身份,由上述语音辨识模块使用与上述语者身份相对应的上述第二声学模型辨识上述语音数据中的上述语句。
14.根据权利要求10所述的语音识别系统,其特征是,其中上述词语确认模块是利用词语确认技术,量测所辨识上述语句的上述信心分数。
15.根据权利要求10所述的语音识别系统,其特征是,还包括:
语音评分模块,利用语音评分技术评价上述语音数据中多个词语的发音分数。
16.根据权利要求15所述的语音识别系统,其特征是,其中上述语者调适模块还包括判断上述语音评分模块所评价的上述发音分数是否超过第二门槛值,而使用上述发音分数超过上述第二门槛值的全部或部分上述语音数据进行与上述语者身份相对应的上述第二声学模型的上述语者调适。
17.根据权利要求16所述的语音识别系统,其特征是,其中上述这些词语包括音素、单字、词组及语句其中之一或其组合。
18.根据权利要求10所述的语音识别系统,其特征是,其中上述语音辨识模块是使用自动语音辨识技术辨识上述语音数据中的上述语句。
19.根据权利要求10所述的语音识别系统,其特征是,其中上述语者调适模块还包括判断上述数据收集模块所收集的语音数据的数目是否超过第三门槛值,而当上述数目超过上述第三门槛值时,利用上述数据收集模块所收集的语音数据,转换不特定语者声学模型为特定语者声学模型,以作为与上述语者身份相对应的上述第二声学模型。
20.根据权利要求10所述的语音识别系统,其特征是,其中上述第一声学模型及上述第二声学模型为隐藏式马可夫模型。
CN201210157341.0A 2012-05-18 2012-05-18 语音识别方法及系统 Active CN103426428B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210157341.0A CN103426428B (zh) 2012-05-18 2012-05-18 语音识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210157341.0A CN103426428B (zh) 2012-05-18 2012-05-18 语音识别方法及系统

Publications (2)

Publication Number Publication Date
CN103426428A CN103426428A (zh) 2013-12-04
CN103426428B true CN103426428B (zh) 2016-05-25

Family

ID=49651070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210157341.0A Active CN103426428B (zh) 2012-05-18 2012-05-18 语音识别方法及系统

Country Status (1)

Country Link
CN (1) CN103426428B (zh)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN103903613A (zh) * 2014-03-10 2014-07-02 联想(北京)有限公司 一种信息处理方法及电子设备
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
CN105006231A (zh) * 2015-05-08 2015-10-28 南京邮电大学 基于模糊聚类决策树的分布式大型人口语者识别方法
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN106971725B (zh) * 2016-01-14 2021-06-15 芋头科技(杭州)有限公司 一种具有优先级的声纹识方法和系统
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN111179916B (zh) * 2019-12-31 2023-10-13 广州市百果园信息技术有限公司 重打分模型训练方法、语音识别方法及相关装置
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1808567A (zh) * 2006-01-26 2006-07-26 覃文华 验证真人在场状态的声纹认证设备和其认证方法
CN101266792A (zh) * 2007-03-16 2008-09-17 富士通株式会社 语音识别系统和语音识别方法
CN101552004A (zh) * 2009-05-13 2009-10-07 哈尔滨工业大学 一种集内说话者的识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030033143A1 (en) * 2001-08-13 2003-02-13 Hagai Aronowitz Decreasing noise sensitivity in speech processing under adverse conditions
EP1425737A4 (en) * 2001-08-14 2005-11-09 Sony Electronics Inc SYSTEM AND METHOD FOR LANGUAGE VERIFICATION USING A ROBUST CONFERENCE MEASURE

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1808567A (zh) * 2006-01-26 2006-07-26 覃文华 验证真人在场状态的声纹认证设备和其认证方法
CN101266792A (zh) * 2007-03-16 2008-09-17 富士通株式会社 语音识别系统和语音识别方法
CN101552004A (zh) * 2009-05-13 2009-10-07 哈尔滨工业大学 一种集内说话者的识别方法

Also Published As

Publication number Publication date
CN103426428A (zh) 2013-12-04

Similar Documents

Publication Publication Date Title
CN103426428B (zh) 语音识别方法及系统
TWI466101B (zh) 語音識別方法及系統
Kumar et al. Hindi speech recognition system using HTK
CN102723080B (zh) 一种语音识别测试系统及方法
CN105374356B (zh) 语音识别方法、语音评分方法、语音识别系统及语音评分系统
CN103971685B (zh) 语音命令识别方法和系统
Swamy et al. An efficient speech recognition system
CN103177733B (zh) 汉语普通话儿化音发音质量评测方法与系统
CN105206271A (zh) 智能设备的语音唤醒方法及实现所述方法的系统
US20140337024A1 (en) Method and system for speech command detection, and information processing system
CN104143326A (zh) 一种语音命令识别方法和装置
CN103943105A (zh) 一种语音交互方法及系统
CN107767861A (zh) 语音唤醒方法、系统及智能终端
CN102074234A (zh) 语音变异模型建立装置、方法及语音辨识系统和方法
Li et al. Combining five acoustic level modeling methods for automatic speaker age and gender recognition.
CN102439660A (zh) 基于置信度得分的语音标签方法和装置
CN110675866B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
CN104462912B (zh) 改进的生物密码安全
CN101452701A (zh) 基于反模型的置信度估计方法及装置
JP5402089B2 (ja) 音響信号変換装置、方法、及びプログラム
CN103474062A (zh) 一种语音识别方法
KR20150035312A (ko) 음성에 기반한 잠금 해제를 수행하는 사용자 장치, 음성에 기반한 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체
CN104424942A (zh) 一种提高文字语音输入准确率的方法
CN101350196A (zh) 任务相关的说话人身份确认片上系统及其确认方法
Sawakare et al. Speech recognition techniques: a review

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant