CN102915731A - 一种个性化的语音识别的方法及装置 - Google Patents
一种个性化的语音识别的方法及装置 Download PDFInfo
- Publication number
- CN102915731A CN102915731A CN2012103830823A CN201210383082A CN102915731A CN 102915731 A CN102915731 A CN 102915731A CN 2012103830823 A CN2012103830823 A CN 2012103830823A CN 201210383082 A CN201210383082 A CN 201210383082A CN 102915731 A CN102915731 A CN 102915731A
- Authority
- CN
- China
- Prior art keywords
- identified
- voice
- authorized user
- speech recognition
- dialect classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种个性化的语音识别的方法及装置,其中个性化的语音识别的方法包括:A.确定待识别语音是否属于授权用户,如果是,则利用所述授权用户对应的语音识别模型对所述待识别语音进行识别,否则执行步骤B;B.确定所述待识别语音所属方言类别,并利用所述待识别语音所属方言类别对应的语音识别模型对待识别语音进行识别。通过上述方式,本发明可以提高在各种用户下的语音识别的精度。
Description
【技术领域】
本发明涉及语音识别技术,特别涉及一种个性化的语音识别方法及装置。
【背景技术】
语音识别技术在很多领域都有重要的应用,例如语音拨号、语音导航等应用,都依赖语音识别技术。语音识别效果的好坏,直接影响到各种与语音识别相关的应用的效果好坏。
语音识别模型所具有的描述语音到文本的能力,是影响语音识别效果好坏的关键因素。现有技术采用相同的语音识别模型对各种用户的语音进行识别,由于相同的语音识别模型,很难描述不同用户的语音差异,因此,采用这种方式进行语音识别,很多情况下的识别精度不佳,难以满足用户语音识别的个性化需求。
【发明内容】
本发明所要解决的技术问题是提供一种个性化的语音识别方法及装置,以提高在各种用户下的语音识别的精度。
本发明为解决技术问题而采用的技术方案是提供一种个性化的语音识别的方法,包括:A.确定待识别语音是否属于授权用户,如果是,则利用所述授权用户对应的语音识别模型对所述待识别语音进行识别,否则执行步骤B;B.确定所述待识别语音所属方言类别,并利用所述待识别语音所属方言类别对应的语音识别模型对待识别语音进行识别。
根据本发明之一优选实施例,所述方法进一步包括:当无法确定所述待识别语音所属方言类别时,利用通用语音识别模型对待识别语音进行识别。
根据本发明之一优选实施例,所述步骤A中,对所述待识别语音进行识别后进一步包括:根据用户对识别结果的反馈及所述待识别语音,优化所述授权用户对应的语音识别模型。
根据本发明之一优选实施例,所述步骤B中,对所述待识别语音进行识别后进一步包括:根据用户对识别结果的反馈及所述待识别语音,优化所述待识别语音所属方言类别对应的语音识别模型。
根据本发明之一优选实施例,确定待识别语音是否属于授权用户的步骤包括:提取待识别语音的声学特征,并确定所述待识别语音的声学特征与所述授权用户对应的声学模板之间的匹配度是否满足要求,如果是,则确定所述待识别语音属于所述授权用户,否则确定所述待识别语音不属于所述授权用户。
根据本发明之一优选实施例,确定所述待识别语音所属方言类别的步骤包括:将所述待识别语音的声学特征分别与各方言类别对应的声学模板进行比对,当各比对结果中的最大匹配度超过设定值时,将该最大匹配度对应的方言类别作为所述待识别语音所属方言类别。
本发明还提供了一种个性化的语音识别的装置,包括:第一识别单元,用于确定待识别语音是否属于授权用户,如果是,则利用所述授权用户对应的语音识别模型对所述待识别语音进行识别,否则触发第二识别单元执行;第二识别单元,用于确定所述待识别语音所属方言类别,并利用所述待识别语音所属方言类别对应的语音识别模型对待识别语音进行识别。
根据本发明之一优选实施例,所述装置进一步包括:第三识别单元,用于当所述第二识别单元无法确定所述待识别语音所属方言类别时,利用通用语音识别模型对待识别语音进行识别。
根据本发明之一优选实施例,所述装置进一步包括:第一优化单元,用于在所述第一识别单元对所述待识别语音进行识别后,根据用户对识别结果的反馈及所述待识别语音,优化所述授权用户对应的语音识别模型。
根据本发明之一优选实施例,所述装置进一步包括:第二优化单元,用于在所述第二识别单元对所述待识别语音进行识别后,根据用户对识别结果的反馈及所述待识别语音,优化所述待识别语音所属方言类别对应的语音识别模型。
根据本发明之一优选实施例,所述第一识别单元确定待识别语音是否属于授权用户的方式包括:提取待识别语音的声学特征,并确定所述待识别语音的声学特征与所述授权用户对应的声学模板之间的匹配度是否满足要求,如果是,则确定所述待识别语音属于所述授权用户,否则确定所述待识别语音不属于所述授权用户。
根据本发明之一优选实施例,所述第二识别单元确定所述待识别语音所属方言类别的方式包括:将所述待识别语音的声学特征分别与各方言类别对应的声学模板进行比对,当各比对结果中的最大匹配度超过设定值时,将该最大匹配度对应的方言类别作为所述待识别语音所属方言类别。
由以上技术方案可以看出,本发明通过确定待识别语音的归属类型,从而可以利用与待识别语音的归属类型相适应的语音识别模型对待识别语音进行识别,能够很好地提高待识别语音的识别精度。如果待识别语音属于授权用户,则可以选择个人用户适用的语音识别模型对待识别语音进行识别,即使待识别语音不属于授权用户,也可以选择与待识别语音的方言相适应的语音识别模型对待识别语音进行识别,通过这种方式,可以智能适应待识别语音的特点,能够充分提高在各种用户下的语音识别精度。
【附图说明】
图1为本发明中个性化的语音识别的方法的流程示意图;
图2为本发明中确定待识别语音是否属于授权用户的一个实施例的流程示意图;
图3为本发明中语音识别过程的一个实施例的流程示意图;
图4为本发明中个性化的语音识别的装置的实施例一的结构示意框图;
图5为本发明中个性化的语音识别的装置的实施例二的结构示意框图;
图6为本发明中个性化的语音识别的装置的实施例三的结构示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
请参考图1,图1为本发明中个性化的语音识别的方法的流程示意图。如图1所示,该方法包括:
步骤S101:确定待识别语音是否属于授权用户,如果是,则利用授权用户对应的语音识别模型对待识别语音进行识别,否则执行步骤S102。
步骤S102:确定待识别语音所属方言类别,并利用待识别语音所属方言类别对应的语音识别模型对待识别语音进行识别。
下面对上述步骤进行具体说明。
本发明中的授权用户,指的是具有注册信息或可标识的身份信息的用户。如果授权用户是具有注册信息的用户,则步骤S101在确定待识别语音是否属于授权用户时,可通过待识别语音所属用户提交的当前身份信息与注册信息是否匹配来判断待识别语音是否属于授权用户。此外,授权用户也可以是具有可标识的身份信息的用户,这里所指的可标识的身份信息,包括预先通过授权用户的语音样本训练得到的声学模板。与之对应的,步骤S101确定待识别语音是否属于授权用户的方式包括:提取待识别语音的声学特征,并确定待识别语音的声学特征与授权用户对应的声学模板之间的匹配度是否满足要求,如果是,则确定待识别语音属于授权用户,否则确定待识别语音不属于授权用户。
请参考图2,图2为本发明中确定待识别语音是否属于授权用户的一个实施例的流程示意图。其中比对是为了确定待识别语音的声学特征与授权用户对应的声学模板之间的匹配度是否满足要求,如确定待识别语音的声学特征与授权用户的声学模板之间的余弦距离是否满足最低限值要求。为了确定待识别语音是否属于授权用户,在对语音样本和待识别语音进行特征提取时,可选择的声学特征包括说话人声道长度信息等,此外,这里的声学特征还可以是本领域技术人员在进行说话人确认时使用的其他特征,本发明对此不做限制。
如果待识别语音是属于授权用户的,则本发明中,将利用与授权用户对应的语音识别模型对待识别语音进行识别。其中与授权用户对应的语音识别模型,是预先利用授权用户的语音标注样本训练得到的。
请参考图3,图3为本发明中语音识别过程的一个实施例的流程示意图。图2中的授权用户的声学模板,只需要授权用户的语音样本即可训练得到,而图3中的授权用户对应的语音识别模型,则是通过授权用户的语音标注样本训练得到的。可以理解,语音识别的过程就是将语音转化为相应文本的过程。因此,为了得到能够描述语音与相应文本之间转化参数的语音识别模型,必须有语音和对应的文本标注形成的样本数据供训练使用。
授权用户对应的语音识别模型,可以是大量采集授权用户的语音标注样本数据对未知参数的模型进行一次性训练后得到的,也可以是每次采集授权用户的少量语音标注样本数据对一个已有参数的通用模型进行增量训练,通过多次训练后得到的。
进一步地,本发明还可以在步骤S101中将识别结果返回给用户后,接受用户对识别结果的反馈,并利用用户反馈与待识别语音优化授权用户对应的语音识别模型。
语音识别结果可以包括多个文本结果项。例如语音“baidu”,在识别后,得到多个文本结果项:“百度”、“白度”和“摆渡”。用户如果点击了“百度”作为对识别结果的反馈,则步骤S101中,就可以将语音“baidu”与“百度”作为标注数据对授权用户对应的语音识别模型进行增量训练,从而优化授权用户对应的语音识别模型。
在上述例子中,如果用户对识别结果中的文本进行了修改,并以修改后的文本作为反馈,则还需要进一步对该反馈进行判断后,才确定是否利用该反馈和待识别语音优化授权用户对应的语音识别模型。
具体地,利用用户反馈与待识别语音优化授权用户对应的语音识别模型的方式包括:
确定用户对识别结果的反馈与识别结果之间的语音差异,当该差异在设定区间内时,接受用户对识别结果的反馈,并使用该反馈与待识别语音优化授权用户对应的语音识别模型。
例如上述例子中,语音“baidu”的识别结果有“百度”、“白度”、“摆渡”,用户的反馈是“拜读”,则根据上述实施方式,在接收到用户反馈的“拜读”后,将确定“拜读”与上述识别结果“百度”、“白度”、“摆渡”之间的语音差异,如果该差异在设定区间,则可以利用“baidu”与“拜读”来优化授权用户对应的语音识别模型。但是,如果用户在接收到上述识别结果“百度”、“白度”、“摆渡”后,将结果改为“谷歌”作为对识别结果的反馈,则根据上述实施方式,在接收到用户反馈的“谷歌”之后,由于“谷歌”与“百度”、“白度”、“摆渡”之间的语音差异太大,就不会采用“baidu”和“谷歌”来优化授权用户对应的语音识别模型。
在步骤S101中,如果待识别语音不属于授权用户,则在步骤S102中,首先需要确定待识别语音所属方言类别。确定待识别语音所属方言类别的方式与确定待识别语音是否属于授权用户的方式是类似的,具体包括:将待识别语音的声学特征分别与各方言类别对应的声学模板进行比对,当各比对结果中的最大匹配度超过设定值时,将该最大匹配度对应的方言类别作为待识别语音所属方言类别。
其中各方言类别对应的声学模板也是预先利用对应方言的语音样本训练得到的。在上述实施方式中,待识别语音的声学特征与各个声学模板均需要进行比对,以确定匹配度最高值,如果该匹配度最高值超过设定值,就可以把待识别语音归类到该最高匹配度对应的方言类别。进一步地,如果待识别语音的声学特征与各个声学模板之间的匹配度均不超过设定值,则说明无法确定待识别语音的方言类别。
当确定了待识别语音所属方言类别之后,就可以利用待识别语音所属方言类别对应的语音识别模型对待识别语音进行识别。其中,待识别语音所属方言类别对应的语音识别模型,是预先利用该方言类别的语音标注样本训练得到的。
各个方言类别对应的语音识别模型的训练方式与授权用户对应的语音识别模型的训练方式是类似的,可以采用大量语音标注数据对未知参数的模型进行一次性训练得到,也可以是每次采用少量的语音标注数据对已知参数的通用模型进行增量训练,通过多次训练后得到。
利用待识别语音所属方言类别对应的语音识别模型对待识别语音进行识别后,进一步也可根据用户对识别结果的反馈及待识别语音,优化待识别语音所属方言类别对应的语音识别模型。具体地包括:确定用户对识别结果的反馈与识别结果之间的语音差异,当该差异在设定区间时,接受用户对识别结果的反馈,并使用该反馈与待识别语音优化授权用户对应的语音识别模型。
进一步地,如果步骤S102中无法确定待识别语音所属方言类别,则本发明还可以进一步利用通用语音识别模型对待识别语音进行识别。其中通用语音识别模型是预先利用各种语音标注样本数据进行训练得到的。
本发明通过对待识别语音进行分析判断,可以选取最适合待识别语音的语音识别模型对其进行识别,从而大大提高语音识别的精度。如果待识别语音属于授权用户,则可以采用根据该用户的语音特点训练得到的个性化模型(授权用户对应的语音识别模型)对待识别语音进行识别;如果待识别语音不属于授权用户,也可以根据待识别语音的方言特点,选取适应该方言特点的语音识别模型对其进行识别;如果待识别语音的方言特点也不能确定,还可以采用通用的语音识别模型对其进行识别。通过这种方式,本发明能够有效实现语音识别的个性化,有针对性地提高语音识别的精度。
本发明的方法,在现有手机(移动终端)可能被多个用户使用的条件下,能够得到很好的应用。例如,手机被机主长期使用,机主就是授权用户,当机主在进行语音识别时,能够根据适用于该机主的语音识别模型对其语音进行识别,从而得到最佳结果,并且,如果机主的反馈行为满足优化条件(即反馈与识别结果的语音差别在设定区间),则机主的反馈可以进一步优化对应的识别模型,而手机被机主之外的人使用时,其他人的反馈行为则不会影响到机主对应的语音识别模型,这样可以在满足各种用户使用需要的同时,保证授权用户对应的语音识别模型的参数不被错误数据影响。如果待识别语音不是机主本人发出的,则在满足非机主用户的使用需求时,本发明也可以根据方言判断适用的语音识别模型,保证了对其他用户的语音进行识别时的精度。
请参考图4,图4为本发明中个性化的语音识别的装置的实施例一的结构示意框图。如图4所示,该实施例包括:第一识别单元201及第二识别单元202。
其中第一识别单元201,用于确定待识别语音是否属于授权用户,如果是,则利用授权用户对应的语音识别模型对待识别语音进行识别,否则触发第二识别单元202执行。
第二识别单元202,用于确定待识别语音所属方言类别,并利用待识别语音所属方言类别对应的语音识别模型对待识别语音进行识别。
具体地,第一识别单元201确定待识别语音是否属于授权用户的方式包括:
提取待识别语音的声学特征,并确定待识别语音的声学特征与授权用户对应的声学模板之间的匹配度是否满足要求,如果是,则确定待识别语音属于授权用户,否则确定待识别语音不属于授权用户。
具体地,第二识别单元202确定待识别语音所属方言类别的方式包括:
将待识别语音的声学特征分别与各方言类别对应的声学模板进行比对,当各比对结果中的最大匹配度超过设定值时,将该最大匹配度对应的方言类别作为待识别语音所属方言类别。
请参考图5,图5为本发明中个性化的语音识别的装置的实施例二的结构示意框图。如图5所示,该实施例在实施例一的基础上进一步包括:第一优化单元203和第二优化单元204。
其中第一优化单元203,用于在第一识别结果201对待识别语音进行识别后,根据用户对识别结果的反馈及待识别语音,优化授权用户对应的语音识别模型。
具体地,第一优化单元203优化授权用户对应的语音识别模型的方式包括:
确定用户对识别结果的反馈与识别结果之间的语音差异,当该差异在设定区间内时,接受用户对识别结果的反馈,并使用该反馈与待识别语音优化授权用户对应的语音识别模型。
第二优化单元204,用于在第二识别单元202对待识别语音进行识别后,根据用户对识别结果的反馈及待识别语音,优化待识别语音所属方言类别对应的语音识别模型。
具体地,第二优化单元204优化待识别语音所属方言类别对应的语音识别模型的方式包括:
确定用户对识别结果的反馈与识别结果之间的语音差异,当该差异在设定区间时,接受用户对识别结果的反馈,并使用该反馈与待识别语音优化授权用户对应的语音识别模型。
请参考图6,图6为本发明中个性化的语音识别的装置的实施例三的结构示意框图。如图6所示,该实施例在实施例二的基础上进一步包括:第三识别单元205,用于当第二识别单元202无法确定待识别语音所属方言类别时,利用通用语音识别模型对待识别语音进行识别。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (12)
1.一种个性化的语音识别的方法,包括:
A.确定待识别语音是否属于授权用户,如果是,则利用所述授权用户对应的语音识别模型对所述待识别语音进行识别,否则执行步骤B;
B.确定所述待识别语音所属方言类别,并利用所述待识别语音所属方言类别对应的语音识别模型对待识别语音进行识别。
2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
当无法确定所述待识别语音所属方言类别时,利用通用语音识别模型对待识别语音进行识别。
3.根据权利要求1所述的方法,其特征在于,所述步骤A中,对所述待识别语音进行识别后进一步包括:
根据用户对识别结果的反馈及所述待识别语音,优化所述授权用户对应的语音识别模型。
4.根据权利要求1所述的方法,其特征在于,所述步骤B中,对所述待识别语音进行识别后进一步包括:
根据用户对识别结果的反馈及所述待识别语音,优化所述待识别语音所属方言类别对应的语音识别模型。
5.根据权利要求1所述的方法,其特征在于,确定待识别语音是否属于授权用户的步骤包括:
提取待识别语音的声学特征,并确定所述待识别语音的声学特征与所述授权用户对应的声学模板之间的匹配度是否满足要求,如果是,则确定所述待识别语音属于所述授权用户,否则确定所述待识别语音不属于所述授权用户。
6.根据权利要求5所述的方法,其特征在于,确定所述待识别语音所属方言类别的步骤包括:
将所述待识别语音的声学特征分别与各方言类别对应的声学模板进行比对,当各比对结果中的最大匹配度超过设定值时,将该最大匹配度对应的方言类别作为所述待识别语音所属方言类别。
7.一种个性化的语音识别的装置,包括:
第一识别单元,用于确定待识别语音是否属于授权用户,如果是,则利用所述授权用户对应的语音识别模型对所述待识别语音进行识别,否则触发第二识别单元执行;
第二识别单元,用于确定所述待识别语音所属方言类别,并利用所述待识别语音所属方言类别对应的语音识别模型对待识别语音进行识别。
8.根据权利要求7所述的装置,其特征在于,所述装置进一步包括:
第三识别单元,用于当所述第二识别单元无法确定所述待识别语音所属方言类别时,利用通用语音识别模型对待识别语音进行识别。
9.根据权利要求7所述的装置,其特征在于,所述装置进一步包括:
第一优化单元,用于在所述第一识别单元对所述待识别语音进行识别后,根据用户对识别结果的反馈及所述待识别语音,优化所述授权用户对应的语音识别模型。
10.根据权利要求7所述的装置,其特征在于,所述装置进一步包括:
第二优化单元,用于在所述第二识别单元对所述待识别语音进行识别后,根据用户对识别结果的反馈及所述待识别语音,优化所述待识别语音所属方言类别对应的语音识别模型。
11.根据权利要求1所述的装置,其特征在于,所述第一识别单元确定待识别语音是否属于授权用户的方式包括:
提取待识别语音的声学特征,并确定所述待识别语音的声学特征与所述授权用户对应的声学模板之间的匹配度是否满足要求,如果是,则确定所述待识别语音属于所述授权用户,否则确定所述待识别语音不属于所述授权用户。
12.根据权利要求11所述的装置,其特征在于,所述第二识别单元确定所述待识别语音所属方言类别的方式包括:
将所述待识别语音的声学特征分别与各方言类别对应的声学模板进行比对,当各比对结果中的最大匹配度超过设定值时,将该最大匹配度对应的方言类别作为所述待识别语音所属方言类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210383082.3A CN102915731B (zh) | 2012-10-10 | 2012-10-10 | 一种个性化的语音识别的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210383082.3A CN102915731B (zh) | 2012-10-10 | 2012-10-10 | 一种个性化的语音识别的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102915731A true CN102915731A (zh) | 2013-02-06 |
CN102915731B CN102915731B (zh) | 2019-02-05 |
Family
ID=47614069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210383082.3A Active CN102915731B (zh) | 2012-10-10 | 2012-10-10 | 一种个性化的语音识别的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102915731B (zh) |
Cited By (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103578467A (zh) * | 2013-10-18 | 2014-02-12 | 威盛电子股份有限公司 | 声学模型的建立方法、语音辨识方法及其电子装置 |
CN103632667A (zh) * | 2013-11-25 | 2014-03-12 | 华为技术有限公司 | 声学模型优化方法、装置及语音唤醒方法、装置和终端 |
CN103680493A (zh) * | 2013-12-19 | 2014-03-26 | 百度在线网络技术(北京)有限公司 | 区分地域性口音的语音数据识别方法和装置 |
CN103714812A (zh) * | 2013-12-23 | 2014-04-09 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法及装置 |
CN104239456A (zh) * | 2014-09-02 | 2014-12-24 | 百度在线网络技术(北京)有限公司 | 用户特征数据的提取方法和装置 |
CN104464735A (zh) * | 2014-12-12 | 2015-03-25 | 宇龙计算机通信科技(深圳)有限公司 | 语音信息识别方法、语音信息识别装置与终端 |
CN104464423A (zh) * | 2014-12-19 | 2015-03-25 | 科大讯飞股份有限公司 | 一种口语考试评测的校标优化方法及系统 |
CN104751847A (zh) * | 2015-03-31 | 2015-07-01 | 刘畅 | 一种基于声纹识别的数据获取方法及系统 |
CN105096940A (zh) * | 2015-06-30 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 用于进行语音识别的方法和装置 |
CN105223851A (zh) * | 2015-10-09 | 2016-01-06 | 韩山师范学院 | 基于方言识别的智能插座系统及控制方法 |
CN105609101A (zh) * | 2014-11-14 | 2016-05-25 | 现代自动车株式会社 | 语音识别系统及语音识别方法 |
CN105702263A (zh) * | 2016-01-06 | 2016-06-22 | 清华大学 | 语音重放检测方法和装置 |
CN106847271A (zh) * | 2016-12-12 | 2017-06-13 | 北京光年无限科技有限公司 | 一种用于对话交互系统的数据处理方法及装置 |
CN106952648A (zh) * | 2017-02-17 | 2017-07-14 | 北京光年无限科技有限公司 | 一种用于机器人的输出方法以及机器人 |
CN107204189A (zh) * | 2016-03-16 | 2017-09-26 | 中航华东光电(上海)有限公司 | 可加载个性化特征模型的语音识别系统及方法 |
CN107342086A (zh) * | 2017-06-16 | 2017-11-10 | 北京云知声信息技术有限公司 | 语音处理方法及装置 |
CN107735833A (zh) * | 2015-06-07 | 2018-02-23 | 苹果公司 | 自动口音检测 |
CN108509957A (zh) * | 2018-03-30 | 2018-09-07 | 努比亚技术有限公司 | 文字识别方法、终端以及计算机可读介质 |
WO2018233300A1 (zh) * | 2017-06-20 | 2018-12-27 | 京东方科技集团股份有限公司 | 语音识别方法和语音识别装置 |
CN109119071A (zh) * | 2018-09-26 | 2019-01-01 | 珠海格力电器股份有限公司 | 一种语音识别模型的训练方法及装置 |
CN109545218A (zh) * | 2019-01-08 | 2019-03-29 | 广东小天才科技有限公司 | 一种语音识别方法及系统 |
CN109714608A (zh) * | 2018-12-18 | 2019-05-03 | 深圳壹账通智能科技有限公司 | 视频数据处理方法、装置、计算机设备和存储介质 |
CN110033765A (zh) * | 2019-04-11 | 2019-07-19 | 中国联合网络通信集团有限公司 | 一种语音识别的方法及终端 |
CN110503938A (zh) * | 2019-08-30 | 2019-11-26 | 北京太极华保科技股份有限公司 | 机器对话语言识别方法及装置、识别引擎切换方法及装置 |
CN110556127A (zh) * | 2019-09-24 | 2019-12-10 | 北京声智科技有限公司 | 语音识别结果的检测方法、装置、设备及介质 |
CN110634472A (zh) * | 2018-06-21 | 2019-12-31 | 中兴通讯股份有限公司 | 一种语音识别方法、服务器及计算机可读存储介质 |
CN110706695A (zh) * | 2019-10-17 | 2020-01-17 | 北京声智科技有限公司 | 一种数据标注方法及装置 |
CN110858099A (zh) * | 2018-08-20 | 2020-03-03 | 北京搜狗科技发展有限公司 | 候选词生成方法及装置 |
CN111428512A (zh) * | 2020-03-27 | 2020-07-17 | 大众问问(北京)信息科技有限公司 | 一种语义识别方法、装置及设备 |
CN111951790A (zh) * | 2020-08-21 | 2020-11-17 | 腾讯科技(深圳)有限公司 | 一种语音处理方法、装置、终端及存储介质 |
CN113096653A (zh) * | 2021-03-08 | 2021-07-09 | 谭维敏 | 一种基于人工智能的个性化口音语音识别方法及系统 |
US11321116B2 (en) | 2012-05-15 | 2022-05-03 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11360577B2 (en) | 2018-06-01 | 2022-06-14 | Apple Inc. | Attention aware virtual assistant dismissal |
US11467802B2 (en) | 2017-05-11 | 2022-10-11 | Apple Inc. | Maintaining privacy of personal information |
US11487364B2 (en) | 2018-05-07 | 2022-11-01 | Apple Inc. | Raise to speak |
US11538469B2 (en) | 2017-05-12 | 2022-12-27 | Apple Inc. | Low-latency intelligent automated assistant |
US11550542B2 (en) | 2015-09-08 | 2023-01-10 | Apple Inc. | Zero latency digital assistant |
US11557310B2 (en) | 2013-02-07 | 2023-01-17 | Apple Inc. | Voice trigger for a digital assistant |
US11580990B2 (en) | 2017-05-12 | 2023-02-14 | Apple Inc. | User-specific acoustic models |
US11657820B2 (en) | 2016-06-10 | 2023-05-23 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11671920B2 (en) | 2007-04-03 | 2023-06-06 | Apple Inc. | Method and system for operating a multifunction portable electronic device using voice-activation |
US11675491B2 (en) | 2019-05-06 | 2023-06-13 | Apple Inc. | User configurable task triggers |
US11696060B2 (en) | 2020-07-21 | 2023-07-04 | Apple Inc. | User identification using headphones |
US11699448B2 (en) | 2014-05-30 | 2023-07-11 | Apple Inc. | Intelligent assistant for home automation |
US11705130B2 (en) | 2019-05-06 | 2023-07-18 | Apple Inc. | Spoken notifications |
US11749275B2 (en) | 2016-06-11 | 2023-09-05 | Apple Inc. | Application integration with a digital assistant |
US11765209B2 (en) | 2020-05-11 | 2023-09-19 | Apple Inc. | Digital assistant hardware abstraction |
US11783815B2 (en) | 2019-03-18 | 2023-10-10 | Apple Inc. | Multimodality in digital assistant systems |
US11790914B2 (en) | 2019-06-01 | 2023-10-17 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11809886B2 (en) | 2015-11-06 | 2023-11-07 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
US11810562B2 (en) | 2014-05-30 | 2023-11-07 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11838734B2 (en) | 2020-07-20 | 2023-12-05 | Apple Inc. | Multi-device audio adjustment coordination |
US11838579B2 (en) | 2014-06-30 | 2023-12-05 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11842734B2 (en) | 2015-03-08 | 2023-12-12 | Apple Inc. | Virtual assistant activation |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11888791B2 (en) | 2019-05-21 | 2024-01-30 | Apple Inc. | Providing message response suggestions |
US11893992B2 (en) | 2018-09-28 | 2024-02-06 | Apple Inc. | Multi-modal inputs for voice commands |
US11900936B2 (en) | 2008-10-02 | 2024-02-13 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11900923B2 (en) | 2018-05-07 | 2024-02-13 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11914848B2 (en) | 2020-05-11 | 2024-02-27 | Apple Inc. | Providing relevant data items based on context |
US11947873B2 (en) | 2015-06-29 | 2024-04-02 | Apple Inc. | Virtual assistant for media playback |
US12001933B2 (en) | 2015-05-15 | 2024-06-04 | Apple Inc. | Virtual assistant in a communication session |
US12014118B2 (en) | 2017-05-15 | 2024-06-18 | Apple Inc. | Multi-modal interfaces having selection disambiguation and text modification capability |
US12026197B2 (en) | 2017-06-01 | 2024-07-02 | Apple Inc. | Intelligent automated assistant for media exploration |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101138499A (zh) * | 2006-09-06 | 2008-03-12 | 雅马哈株式会社 | 生物测量认证设备 |
US20080228480A1 (en) * | 2007-03-13 | 2008-09-18 | Shuhei Maegawa | Speech recognition method, speech recognition system, and server thereof |
CN101290770A (zh) * | 2007-04-20 | 2008-10-22 | 明基电通股份有限公司 | 语音识别系统及方法 |
CN101430545A (zh) * | 2008-12-08 | 2009-05-13 | 三一重工股份有限公司 | 一种用于工程机械的远程语音控制系统及方法 |
CN101452507A (zh) * | 2007-12-06 | 2009-06-10 | 深圳富泰宏精密工业有限公司 | 手持行动电子装置语音认证系统及方法 |
CN101645269A (zh) * | 2008-12-30 | 2010-02-10 | 中国科学院声学研究所 | 一种语种识别系统及方法 |
CN101923854A (zh) * | 2010-08-31 | 2010-12-22 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
CN102142254A (zh) * | 2011-03-25 | 2011-08-03 | 北京得意音通技术有限责任公司 | 基于声纹识别和语音识别的防录音假冒的身份确认方法 |
CN102708867A (zh) * | 2012-05-30 | 2012-10-03 | 北京正鹰科技有限责任公司 | 一种基于声纹和语音的防录音假冒身份识别方法及系统 |
-
2012
- 2012-10-10 CN CN201210383082.3A patent/CN102915731B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101138499A (zh) * | 2006-09-06 | 2008-03-12 | 雅马哈株式会社 | 生物测量认证设备 |
US20080228480A1 (en) * | 2007-03-13 | 2008-09-18 | Shuhei Maegawa | Speech recognition method, speech recognition system, and server thereof |
CN101290770A (zh) * | 2007-04-20 | 2008-10-22 | 明基电通股份有限公司 | 语音识别系统及方法 |
CN101452507A (zh) * | 2007-12-06 | 2009-06-10 | 深圳富泰宏精密工业有限公司 | 手持行动电子装置语音认证系统及方法 |
CN101430545A (zh) * | 2008-12-08 | 2009-05-13 | 三一重工股份有限公司 | 一种用于工程机械的远程语音控制系统及方法 |
CN101645269A (zh) * | 2008-12-30 | 2010-02-10 | 中国科学院声学研究所 | 一种语种识别系统及方法 |
CN101923854A (zh) * | 2010-08-31 | 2010-12-22 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
CN102142254A (zh) * | 2011-03-25 | 2011-08-03 | 北京得意音通技术有限责任公司 | 基于声纹识别和语音识别的防录音假冒的身份确认方法 |
CN102708867A (zh) * | 2012-05-30 | 2012-10-03 | 北京正鹰科技有限责任公司 | 一种基于声纹和语音的防录音假冒身份识别方法及系统 |
Cited By (87)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11671920B2 (en) | 2007-04-03 | 2023-06-06 | Apple Inc. | Method and system for operating a multifunction portable electronic device using voice-activation |
US11979836B2 (en) | 2007-04-03 | 2024-05-07 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US11900936B2 (en) | 2008-10-02 | 2024-02-13 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11321116B2 (en) | 2012-05-15 | 2022-05-03 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US12009007B2 (en) | 2013-02-07 | 2024-06-11 | Apple Inc. | Voice trigger for a digital assistant |
US11862186B2 (en) | 2013-02-07 | 2024-01-02 | Apple Inc. | Voice trigger for a digital assistant |
US11557310B2 (en) | 2013-02-07 | 2023-01-17 | Apple Inc. | Voice trigger for a digital assistant |
CN103578467A (zh) * | 2013-10-18 | 2014-02-12 | 威盛电子股份有限公司 | 声学模型的建立方法、语音辨识方法及其电子装置 |
CN103632667A (zh) * | 2013-11-25 | 2014-03-12 | 华为技术有限公司 | 声学模型优化方法、装置及语音唤醒方法、装置和终端 |
CN103680493A (zh) * | 2013-12-19 | 2014-03-26 | 百度在线网络技术(北京)有限公司 | 区分地域性口音的语音数据识别方法和装置 |
CN103714812A (zh) * | 2013-12-23 | 2014-04-09 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法及装置 |
US11699448B2 (en) | 2014-05-30 | 2023-07-11 | Apple Inc. | Intelligent assistant for home automation |
US11810562B2 (en) | 2014-05-30 | 2023-11-07 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11838579B2 (en) | 2014-06-30 | 2023-12-05 | Apple Inc. | Intelligent automated assistant for TV user interactions |
CN104239456A (zh) * | 2014-09-02 | 2014-12-24 | 百度在线网络技术(北京)有限公司 | 用户特征数据的提取方法和装置 |
CN105609101A (zh) * | 2014-11-14 | 2016-05-25 | 现代自动车株式会社 | 语音识别系统及语音识别方法 |
CN104464735A (zh) * | 2014-12-12 | 2015-03-25 | 宇龙计算机通信科技(深圳)有限公司 | 语音信息识别方法、语音信息识别装置与终端 |
CN104464423A (zh) * | 2014-12-19 | 2015-03-25 | 科大讯飞股份有限公司 | 一种口语考试评测的校标优化方法及系统 |
US11842734B2 (en) | 2015-03-08 | 2023-12-12 | Apple Inc. | Virtual assistant activation |
CN104751847A (zh) * | 2015-03-31 | 2015-07-01 | 刘畅 | 一种基于声纹识别的数据获取方法及系统 |
US12001933B2 (en) | 2015-05-15 | 2024-06-04 | Apple Inc. | Virtual assistant in a communication session |
CN107735833A (zh) * | 2015-06-07 | 2018-02-23 | 苹果公司 | 自动口音检测 |
US11947873B2 (en) | 2015-06-29 | 2024-04-02 | Apple Inc. | Virtual assistant for media playback |
CN105096940B (zh) * | 2015-06-30 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 用于进行语音识别的方法和装置 |
CN105096940A (zh) * | 2015-06-30 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 用于进行语音识别的方法和装置 |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11550542B2 (en) | 2015-09-08 | 2023-01-10 | Apple Inc. | Zero latency digital assistant |
US11954405B2 (en) | 2015-09-08 | 2024-04-09 | Apple Inc. | Zero latency digital assistant |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
CN105223851A (zh) * | 2015-10-09 | 2016-01-06 | 韩山师范学院 | 基于方言识别的智能插座系统及控制方法 |
US11809886B2 (en) | 2015-11-06 | 2023-11-07 | Apple Inc. | Intelligent automated assistant in a messaging environment |
CN105702263A (zh) * | 2016-01-06 | 2016-06-22 | 清华大学 | 语音重放检测方法和装置 |
CN105702263B (zh) * | 2016-01-06 | 2019-08-30 | 清华大学 | 语音重放检测方法和装置 |
CN107204189A (zh) * | 2016-03-16 | 2017-09-26 | 中航华东光电(上海)有限公司 | 可加载个性化特征模型的语音识别系统及方法 |
US11657820B2 (en) | 2016-06-10 | 2023-05-23 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
US11749275B2 (en) | 2016-06-11 | 2023-09-05 | Apple Inc. | Application integration with a digital assistant |
CN106847271A (zh) * | 2016-12-12 | 2017-06-13 | 北京光年无限科技有限公司 | 一种用于对话交互系统的数据处理方法及装置 |
CN106952648A (zh) * | 2017-02-17 | 2017-07-14 | 北京光年无限科技有限公司 | 一种用于机器人的输出方法以及机器人 |
US11467802B2 (en) | 2017-05-11 | 2022-10-11 | Apple Inc. | Maintaining privacy of personal information |
US11837237B2 (en) | 2017-05-12 | 2023-12-05 | Apple Inc. | User-specific acoustic models |
US11580990B2 (en) | 2017-05-12 | 2023-02-14 | Apple Inc. | User-specific acoustic models |
US11538469B2 (en) | 2017-05-12 | 2022-12-27 | Apple Inc. | Low-latency intelligent automated assistant |
US11862151B2 (en) | 2017-05-12 | 2024-01-02 | Apple Inc. | Low-latency intelligent automated assistant |
US12014118B2 (en) | 2017-05-15 | 2024-06-18 | Apple Inc. | Multi-modal interfaces having selection disambiguation and text modification capability |
US12026197B2 (en) | 2017-06-01 | 2024-07-02 | Apple Inc. | Intelligent automated assistant for media exploration |
CN107342086A (zh) * | 2017-06-16 | 2017-11-10 | 北京云知声信息技术有限公司 | 语音处理方法及装置 |
US11355124B2 (en) | 2017-06-20 | 2022-06-07 | Boe Technology Group Co., Ltd. | Voice recognition method and voice recognition apparatus |
WO2018233300A1 (zh) * | 2017-06-20 | 2018-12-27 | 京东方科技集团股份有限公司 | 语音识别方法和语音识别装置 |
CN109102801A (zh) * | 2017-06-20 | 2018-12-28 | 京东方科技集团股份有限公司 | 语音识别方法和语音识别装置 |
CN108509957A (zh) * | 2018-03-30 | 2018-09-07 | 努比亚技术有限公司 | 文字识别方法、终端以及计算机可读介质 |
CN108509957B (zh) * | 2018-03-30 | 2022-08-05 | 深圳市阳日电子有限公司 | 文字识别方法、终端以及计算机可读介质 |
US11487364B2 (en) | 2018-05-07 | 2022-11-01 | Apple Inc. | Raise to speak |
US11907436B2 (en) | 2018-05-07 | 2024-02-20 | Apple Inc. | Raise to speak |
US11900923B2 (en) | 2018-05-07 | 2024-02-13 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11360577B2 (en) | 2018-06-01 | 2022-06-14 | Apple Inc. | Attention aware virtual assistant dismissal |
US11630525B2 (en) | 2018-06-01 | 2023-04-18 | Apple Inc. | Attention aware virtual assistant dismissal |
CN110634472A (zh) * | 2018-06-21 | 2019-12-31 | 中兴通讯股份有限公司 | 一种语音识别方法、服务器及计算机可读存储介质 |
CN110634472B (zh) * | 2018-06-21 | 2024-06-04 | 中兴通讯股份有限公司 | 一种语音识别方法、服务器及计算机可读存储介质 |
CN110858099A (zh) * | 2018-08-20 | 2020-03-03 | 北京搜狗科技发展有限公司 | 候选词生成方法及装置 |
CN110858099B (zh) * | 2018-08-20 | 2024-04-12 | 北京搜狗科技发展有限公司 | 候选词生成方法及装置 |
CN109119071A (zh) * | 2018-09-26 | 2019-01-01 | 珠海格力电器股份有限公司 | 一种语音识别模型的训练方法及装置 |
US11893992B2 (en) | 2018-09-28 | 2024-02-06 | Apple Inc. | Multi-modal inputs for voice commands |
CN109714608B (zh) * | 2018-12-18 | 2023-03-10 | 深圳壹账通智能科技有限公司 | 视频数据处理方法、装置、计算机设备和存储介质 |
CN109714608A (zh) * | 2018-12-18 | 2019-05-03 | 深圳壹账通智能科技有限公司 | 视频数据处理方法、装置、计算机设备和存储介质 |
CN109545218A (zh) * | 2019-01-08 | 2019-03-29 | 广东小天才科技有限公司 | 一种语音识别方法及系统 |
US11783815B2 (en) | 2019-03-18 | 2023-10-10 | Apple Inc. | Multimodality in digital assistant systems |
CN110033765A (zh) * | 2019-04-11 | 2019-07-19 | 中国联合网络通信集团有限公司 | 一种语音识别的方法及终端 |
US11705130B2 (en) | 2019-05-06 | 2023-07-18 | Apple Inc. | Spoken notifications |
US11675491B2 (en) | 2019-05-06 | 2023-06-13 | Apple Inc. | User configurable task triggers |
US11888791B2 (en) | 2019-05-21 | 2024-01-30 | Apple Inc. | Providing message response suggestions |
US11790914B2 (en) | 2019-06-01 | 2023-10-17 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN110503938A (zh) * | 2019-08-30 | 2019-11-26 | 北京太极华保科技股份有限公司 | 机器对话语言识别方法及装置、识别引擎切换方法及装置 |
CN110556127A (zh) * | 2019-09-24 | 2019-12-10 | 北京声智科技有限公司 | 语音识别结果的检测方法、装置、设备及介质 |
CN110556127B (zh) * | 2019-09-24 | 2021-01-01 | 北京声智科技有限公司 | 语音识别结果的检测方法、装置、设备及介质 |
CN110706695B (zh) * | 2019-10-17 | 2022-02-18 | 北京声智科技有限公司 | 一种数据标注方法及装置 |
CN110706695A (zh) * | 2019-10-17 | 2020-01-17 | 北京声智科技有限公司 | 一种数据标注方法及装置 |
CN111428512B (zh) * | 2020-03-27 | 2023-12-12 | 大众问问(北京)信息科技有限公司 | 一种语义识别方法、装置及设备 |
CN111428512A (zh) * | 2020-03-27 | 2020-07-17 | 大众问问(北京)信息科技有限公司 | 一种语义识别方法、装置及设备 |
US11924254B2 (en) | 2020-05-11 | 2024-03-05 | Apple Inc. | Digital assistant hardware abstraction |
US11765209B2 (en) | 2020-05-11 | 2023-09-19 | Apple Inc. | Digital assistant hardware abstraction |
US11914848B2 (en) | 2020-05-11 | 2024-02-27 | Apple Inc. | Providing relevant data items based on context |
US11838734B2 (en) | 2020-07-20 | 2023-12-05 | Apple Inc. | Multi-device audio adjustment coordination |
US11696060B2 (en) | 2020-07-21 | 2023-07-04 | Apple Inc. | User identification using headphones |
US11750962B2 (en) | 2020-07-21 | 2023-09-05 | Apple Inc. | User identification using headphones |
CN111951790A (zh) * | 2020-08-21 | 2020-11-17 | 腾讯科技(深圳)有限公司 | 一种语音处理方法、装置、终端及存储介质 |
CN113096653A (zh) * | 2021-03-08 | 2021-07-09 | 谭维敏 | 一种基于人工智能的个性化口音语音识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102915731B (zh) | 2019-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102915731A (zh) | 一种个性化的语音识别的方法及装置 | |
CN105374356B (zh) | 语音识别方法、语音评分方法、语音识别系统及语音评分系统 | |
CN103165129B (zh) | 一种优化语音识别声学模型的方法及系统 | |
CN103426428B (zh) | 语音识别方法及系统 | |
CN101710490B (zh) | 语音评测的噪声补偿方法及装置 | |
CN102723080B (zh) | 一种语音识别测试系统及方法 | |
US10629186B1 (en) | Domain and intent name feature identification and processing | |
US11189277B2 (en) | Dynamic gazetteers for personalized entity recognition | |
CN106782615B (zh) | 语音数据情感检测方法和装置及系统 | |
CN105334743A (zh) | 一种基于情感识别的智能家居控制方法及其系统 | |
CN108074576A (zh) | 审讯场景下的说话人角色分离方法及系统 | |
CN110457432A (zh) | 面试评分方法、装置、设备及存储介质 | |
CN110222841A (zh) | 基于间距损失函数的神经网络训练方法和装置 | |
CN102223367B (zh) | 移动用户访问网站的方法、设备及系统 | |
CN104036774A (zh) | 藏语方言识别方法及系统 | |
CN104123939A (zh) | 基于变电站巡检机器人的语音交互控制方法 | |
CN104078044A (zh) | 移动终端及其录音搜索的方法和装置 | |
CN103093752A (zh) | 一种基于手机语音的情感分析方法及其系统 | |
CN102982811A (zh) | 一种基于实时解码的语音端点检测方法 | |
CN104538034A (zh) | 一种语音识别方法及系统 | |
CN111128134B (zh) | 声学模型训练方法和语音唤醒方法、装置及电子设备 | |
CN105469789A (zh) | 一种语音信息的处理方法及终端 | |
CN108305618A (zh) | 语音获取及搜索方法、智能笔、搜索终端及存储介质 | |
CN105225665A (zh) | 一种语音识别方法及语音识别装置 | |
CN105810205A (zh) | 一种语音处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |