CN105957516B - 多语音识别模型切换方法及装置 - Google Patents

多语音识别模型切换方法及装置 Download PDF

Info

Publication number
CN105957516B
CN105957516B CN201610429948.8A CN201610429948A CN105957516B CN 105957516 B CN105957516 B CN 105957516B CN 201610429948 A CN201610429948 A CN 201610429948A CN 105957516 B CN105957516 B CN 105957516B
Authority
CN
China
Prior art keywords
language
voice messaging
classification
voice
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610429948.8A
Other languages
English (en)
Other versions
CN105957516A (zh
Inventor
蒋兵
李先刚
丁科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610429948.8A priority Critical patent/CN105957516B/zh
Priority to PCT/CN2016/097417 priority patent/WO2017215122A1/zh
Publication of CN105957516A publication Critical patent/CN105957516A/zh
Priority to US16/201,722 priority patent/US10847146B2/en
Application granted granted Critical
Publication of CN105957516B publication Critical patent/CN105957516B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)

Abstract

本发明实施例公开了一种多语音识别模型切换方法及装置,所述方法包括:获取用户输入语音中的至少一条语音信息;对所述语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别;将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型。本发明实施例通过对获取的语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别;将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型,能够实现不同语言间的语音识别模型的自动切换,不仅提高语音识别模型切换效率,而且使语音识别更加智能化。

Description

多语音识别模型切换方法及装置
技术领域
本发明实施例涉及语音识别技术领域,尤其涉及一种多语音识别模型切换方法及装置。
背景技术
随着科学技术的发展,语音输入技术由于其使用起来受场景的限制较少,且相对于手写输入更加快捷方便,因此逐渐得到普遍使用。例如,现有的搜索引擎都加入了语音搜索功能。
目前虽然普通话已经成为了国人的主要交流语言,但是就局部地区而言,当地的方言的交流仍然有很大的需求。现有的语音识别引擎仅仅支持特定的语言,对于该语言以外的语音识别性能基本无法使用,因此用户在使用前一般需要提前选定特定语言的语音识别引擎。
然而一旦用户需要进行语言切换,则需要进入语音识别引擎设置界面,手动切换成使用的方言,才能进行语音识别。显然,这种语言切换方式效率比较低下,不够智能化。
发明内容
本发明实施例提供一种多语音识别模型切换方法及装置,以实现不同语言间的语音识别模型的自动切换,提高语音识别模型切换效率,使语音识别更加智能化。
第一方面,本发明实施例提供了一种多语音识别模型切换方法,包括:
获取用户输入语音中的至少一条语音信息;
对所述语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别;
将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型。
第二方面,本发明实施例还提供了一种多语音识别切换装置,包括:
语音获取模块,用于获取用户输入语音中的至少一条语音信息;
语言识别模块,用于对所述语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别;
模型切换模块,用于将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型。
本发明实施例通过对获取的语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别;将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型,能够实现不同语言间的语音识别模型的自动切换,不仅提高语音识别模型切换效率,而且使语音识别更加智能化。
附图说明
图1是本发明实施例一中的一种多语音识别模型切换方法的流程图;
图2是本发明实施例二中的一种多语音识别模型切换方法的流程图;
图3是本发明实施例三中的一种多语音识别模型切换方法的流程图;
图4是本发明实施例四中的一种多语音识别模型切换方法的流程图;
图5是本发明实施例五中的一种多语音识别切换装置的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种多语音识别模型切换方法的流程图,本实施例可适用于在多个语音识别模型下进行切换的情况,该方法可以由本发明实施例提供的多语音识别切换装置来执行,该装置可集成于移动终端、固定终端或服务器中,如图1所示,具体包括:
S101、获取用户输入语音中的至少一条语音信息。
其中,所述语音信息可以为截取的输入语音中的部分语音信息,也可以为用户一条完整的语音信息。所述语音信息中可包含一条或多条语音语句。
具体的,可通过终端的麦克风来采集语音。例如,在语音输入界面提供语音输入按钮,当用户启动该按钮时,即可采集用户的语音信息。
S102、对所述语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别。
其中,所述语言类别包含但不限于语种类别和方言类别。其中,所述语种类别包含各国的语种,例如包括汉语、英语、俄语、法语、德语等等,所述方言类别包含但不限于各国的方言,以中国为例,例如包括山东方言、东北方言、北京方言、陕西方言、广东方言等等。
具体的,可预先采集用户使用各语言类别输入的语音信息,通过分类算法训练得到语音识别模型,所述语音识别模型中包含各语言类别输入的语音。在使用语音识别模型对待分类的语音信息进行识别时,再次采用分类算法对待分类的语音信息进行分类处理,如果该待分类的语音信息被归类到山东方言,则将山东方言作为与该语音信息匹配的方言。
S103、将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型。
当确定了与所述语音信息匹配的目标语言类别之后,则将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型,使用该对应的语音识别模型对用户后续的语音输入进行识别。
当与所述语音信息匹配的目标语言类别有多个时,例如除了被归类到山东方言之外,还被归类到了河南方言,此时根据匹配度确定目标语言类别,例如,将与所述语音信息匹配度最高的语言类别作为目标语言类别。或者,将与所述匹配度超过预设阈值的语言类别作为目标语言类别。
本实施例通过对获取的语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别;将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型,能够实现不同语言间的语音识别模型的自动切换,不仅提高语音识别模型切换效率,而且使语音识别更加智能化。
在上述实施例的基础上,对所述语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别,包括:
对所述语音信息基于至少两种语言类别的特征进行识别,并得到所述语音信息与各个语言类别的相似程度,将所述相似程度作为语言类别的匹配度。
其中,可通过以下任意一种方法获得所述语音信息与各个语言类别的相似程度:对所述语音信息基于至少两种为各语言类别的特征进行识别并得到所述语音信息为各语言类别的置信度,将置信度作为语言类别的相似度;或对所述语音信息基于至少两种为各语言类别的特征进行识别并得到所述语音信息为各语言类别语言得分,将语音得分作为语言类别的相似度;或对所述语音信息基于至少两种为各语言类别的特征进行识别并得到所述语音信息为各语言类别的概率,将概率作为语言类别的相似度。
其中,所述语言得分可采用的现有的语音测试模型打分得到,所述概率可根据语言得分采用概率转换公式转换得到,所述置信度为概率区间。
在上述实施例的基础上,当仅根据一条语音语句不能足以判断出对应的目标语言类别时,为进一步提高识别准确率,对所述语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别,包括:
对所述语音信息包含的至少两条语音语句进行识别,得到各条语音语句与语言类别的匹配度;
根据所述匹配度确定初始语言类别,根据各条语音语句与初始语言类别的匹配度确定对应的目标语言类别。
其中,所述至少两条语音语句按照时序依次获取,如果根据第一条语音语句不能判断出对应的目标语言类别,则获取第二条语音语句,依次类推,直至能够判处对应的目标语言类别为止。如果根据第一条语音语句能够判断出对应的目标语言类别,则无需获取第二条语音语句。
具体的,首先获取第一条语音语句,通过对所述第一条语音语句进行识别,得到第一条语音语句与语言类别的匹配度,如果该匹配度超过预设匹配度,则将该第一条语音语句对应的语言类别作为目标语言类别。如果该匹配度未超过预设匹配度,则提示用户是否手动切换语音识别模型,和/或,获取第二条语音语句,通过对所述第二条语音语句进行识别,得到第二条语音语句与语言类别的匹配度,依次类推,直至得到满足预设条件的目标语言类别。
另外,一条语音语句可能对应多个语言类别,如下表一所示,可根据该条语音语句相对于各个语言类别的匹配度,将匹配最高的语言类别作为初始语言类别。例如,如表一所示,由于山东方言相对于河南方言和安徽方言概率较高,因此将山东方言作为语音语句1的初始语言类别。
例如,对于语音语句1,如果经过识别得到为山东方言的概率为0.99,由于该0.99超过预设阈值(例如,0.95),则确定该语音信息对应的目标语言类别为山东方言。如果经过识别得到为山东方言的概率为0.93,则提示用户是否手动切换语音识别模型,或者获取第二条语音语句即语音语句2,如果经过识别得到仍然为山东方言,且对应的概率为0.95,则确定该语音信息对应的目标语言类别为山东方言。
在上述实施例的基础上,根据各条语音语句与初始语言类别的匹配度确定对应的目标语言类别,包括:
计算将各条语音语句不是初始语言类别的概率的乘积,根据所述乘积确定对应的目标语言类别。
具体的,计算将各条语音语句不是初始语言类别的概率的乘积,如果概率的乘积小于预设阈值,则确定初始语言类别为对应的目标语言类别。
例如,如果所述语音信息包含三条语音语句,为便于描述分别记为语音语句1、语音语句2和语音语句3,通过对上述三条语音语句的识别,假设得到各条语音语句与语言类别的匹配度结果如下表一所示:
表一
根据各方言对应的概率大小,可初步确定语音语句1、语音语句2和语音语句3对应的方言均为山东方言,由于各条语音语句对应为山东方言的概率均未超过预设阈值0.99,则进一步计算不是山东方言的概率,结果如表二所示,
根据此概率进一步确定该语音信息是否为山东方言。表二
则通过计算,连续两次不是山东话的概率为0.017,大于预设阈值(例如0.005),不进行切换,继续进行判别;连续三次不是山东话的概率为0.00255,该切换错误的概率小于预设阈值,则以高置信度确定该语音信息为山东方言,进行切换。
在上述实施例的基础上,对所述语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别之前,还包括:
对所述语音信息进行以下任意一项预处理:语音特征提取、有效语音检测、语音矢量表示和模型打分测试。
在上述实施例的基础上,为方便用户操作,提高识别率,所述方法还包括:
对所述语音信息进行识别,若识别结果不符合预设条件,则显示提示消息,以提示用户进行手动切换。
其中,所述预设条件为与所述语音信息匹配的语音类别的匹配度超过预设阈值,所述匹配度可通过语言得分、概率和置信度进行衡量。
在上述实施例的基础上,为进一步提高识别准确率,对所述语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别,包括:
对所述语音信息进行识别和语言类别的匹配;
确定匹配度符合预设条件的至少两种备选语言类别;
查询用户历史语音识别记录确定用户历史使用的语言类别;
从至少两个所述备选语言类别中选取与用户历史使用的语言类别一致的语言类别作为目标语言类别。
例如,如果针对某一条语音信息,得到至少两个匹配度相似的备选语言类别,此时若难以确定到底哪一个目标语言类别,为提高识别准确率,则获取该用户对应的历史语音识别记录,所述历史语音识别记录中包含用户常用的语言类别,如果历史语音识别记录中包含备选语言类别中的其中一个,则将该包含的语言类别作为目标语言类别。
上述实施例通过对获取的语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别;将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型,能够实现不同语言间的语音识别模型的自动切换,不仅提高语音识别模型切换效率,而且使语音识别更加智能化。
实施例二
图2为本发明实施例二提供的一种多语音识别模型切换方法的流程图,本实施例在上述实施例的基础上,将对所述语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别,优化为对所述语音信息基于至少两种语言类别的特征进行识别,并得到所述语音信息与各个语言类别的相似程度,将所述相似程度作为语言类别的匹配度。如图2所示,具体包括:
S201、获取用户输入语音中的至少一条语音信息。
S202、对所述语音信息基于至少两种语言类别的特征进行识别,并得到所述语音信息与各个语言类别的相似程度,以根据所述相似程度确定对应的目标语言类别。
S203、将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型。
关于上述各步骤的详细描述具体参见上述实施例,这里不再赘述。
本实施例通过对获取的语音信息基于至少两种语言类别的特征进行识别,得到所述语音信息与各个语言类别的相似程度,以根据相似程度确定对应的目标语言类别,将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型,能够实现不同语言间的语音识别模型的自动切换,不仅提高语音识别模型切换效率,而且使语音识别更加智能化。
实施例三
图3为本发明实施例三提供的一种多语音识别模型切换方法的流程图,本实施例在上述实施例的基础上,对所述语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别,优化为对所述语音信息包含的至少两条语音语句进行识别,得到各条语音语句与语言类别的匹配度;根据所述匹配度确定初始语言类别,根据各条语音语句与初始语言类别的匹配度确定对应的目标语言类别。如图3所示,具体包括:
S301、获取用户输入语音中的至少两条语音语句。
S302、对所述至少两条语音语句进行识别,得到各条语音语句与语言类别的匹配度。
S303、根据所述匹配度确定初始语言类别,根据各条语音语句与初始语言类别的匹配度确定对应的目标语言类别。
计算将各条语音语句不是初始语言类别的概率的乘积,根据所述乘积确定对应的目标语言类别。
例如,计算将各条语音语句不是初始语言类别的概率的乘积,如果概率的乘积小于预设阈值,则确定初始语言类别为对应的目标语言类别。否则,显示提示信息,提示用户进行手动切换。
S304、将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型。
在短时语音复杂环境下,如果单句语音语句的识别准确率在90%以上,这样采用高置信度判决策略,单句语音错误切换识别器的概率为0.1,那么N句语音语句后还仍然进行误操作的概率的为0.1的N次幂。例如,如果设置用户的误判门限为0.0001下,N=4,即一般情况下,最多只要获取用户的4个输入语音语句,就可以实现超低精度的误判,进行切换准确概率达到99.9999%。同时,为了方便用户进行友好的交互,在一定门限下,可以实时提醒用户是否进行语音识别模型切换,更为友好的方便用户进行切换操作。
实施例四
图4为本发明实施例四提供的一种多语音识别模型切换方法的流程图,本实施例在上述实施例的基础上,对所述语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别,优选为对所述语音信息进行识别和语言类别的匹配;确定匹配度符合预设条件的至少两种备选语言类别;查询用户历史语音识别记录确定用户历史使用的语言类别;从至少两个所述备选语言类别中选取与用户历史使用的语言类别一致的语言类别作为目标语言类别。如图4所示,具体包括:
S401、获取用户输入语音中的至少一条语音信息。
S402、对所述语音信息进行识别和语言类别的匹配,确定匹配度符合预设条件的至少两种备选语言类别。
S403、查询用户历史语音识别记录确定用户历史使用的语言类别。
S404、从至少两个所述备选语言类别中选取与用户历史使用的语言类别一致的语言类别作为目标语言类别。
S405、将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型。
本实施例通过对获取的语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别;将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型,能够实现不同语言间的语音识别模型的自动切换,不仅提高语音识别模型切换效率,而且使语音识别更加智能化。
实施例五
图5所示为本发明实施例五提供的一种多语音识别切换装置的结构示意图,该装置可采用软件或硬件的方式实现,该装置可集成于移动终端、固定终端或服务器中,如图5所示,该装置的具体结构如下:语音获取模块51、语言识别模块52和模型切换模块53;
所述语音获取模块51用于获取用户输入语音中的至少一条语音信息;
所述语言识别模块52用于对所述语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别;
所述模型切换模块53用于将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型。
本实施例所述多语音识别切换装置用于执行上述各实施例所述的多语音识别模型切换方法,其技术原理和产生的技术效果类似,这里不再赘述。
在上述实施例的基础上,所述语言识别模块52具体用于,对所述语音信息基于至少两种语言类别的特征进行识别,并得到所述语音信息与各个语言类别的相似程度,将所述相似程度作为语言类别的匹配度。
在上述实施例的基础上,所述语言识别模块52包括:语言识别单元521和匹配度确定单元522。
所述语言识别单元521用于对所述语音信息包含的至少两条语音语句进行识别,得到各条语音语句与语言类别的匹配度;
所述匹配度确定单元522用于根据所述匹配度确定初始语言类别,根据各条语音语句与初始语言类别的匹配度确定对应的目标语言类别。
在上述实施例的基础上,所述匹配度确定单元522具体用于,计算将各条语音语句不是初始语言类别的概率的乘积,根据所述乘积确定对应的目标语言类别。
在上述实施例的基础上,所述装置还包括:预处理模块54;
所述预处理模块54用于在所述语言识别模块52对所述语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别之前,对所述语音信息进行以下任意一项预处理:语音特征提取、有效语音检测、语音矢量表示和模型打分测试。
在上述实施例的基础上,所述装置还包括:切换提示模块55;
所述切换提示模块55用于提示对所述语音信息进行识别,若识别结果不符合预设条件,则显示提示消息,以提示用户进行手动切换。
在上述实施例的基础上,所述语言识别模,52具体用于,对所述语音信息进行识别和语言类别的匹配;确定匹配度符合预设条件的至少两种备选语言类别;查询用户历史语音识别记录确定用户历史使用的语言类别;从至少两个所述备选语言类别中选取与用户历史使用的语言类别一致的语言类别作为目标语言类别。
上述各实施例所述多语音识别切换装置用于执行上述各实施例所述的多语音识别模型切换方法,其技术原理和产生的技术效果类似,这里不再赘述。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种多语音识别模型切换方法,其特征在于,包括:
获取用户输入语音中的至少一条语音信息;
对所述语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别;
将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型;
其中,对所述语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别包括:
对所述语音信息包含的至少两条语音语句进行识别,得到各条语音语句与语言类别的匹配度;
根据所述匹配度确定初始语言类别,计算将各条语音语句不是初始语言类别的概率的乘积,根据所述乘积确定对应的目标语言类别。
2.根据权利要求1所述的方法,其特征在于,对所述语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别,包括:
对所述语音信息基于至少两种语言类别的特征进行识别,并得到所述语音信息与各个语言类别的相似程度,将所述相似程度作为语言类别的匹配度。
3.根据权利要求1~2任一项所述的方法,其特征在于,对所述语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别之前,还包括:
对所述语音信息进行以下任意一项预处理:语音特征提取、有效语音检测、语音矢量表示和模型打分测试。
4.根据权利要求1~2任一项所述的方法,其特征在于,还包括:
对所述语音信息进行识别,若识别结果不符合预设条件,则显示提示消息,以提示用户进行手动切换。
5.根据权利要求1~2任一项所述的方法,其特征在于,对所述语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别,包括:
对所述语音信息进行识别和语言类别的匹配;
确定匹配度符合预设条件的至少两种备选语言类别;
查询用户历史语音识别记录确定用户历史使用的语言类别;
从至少两个所述备选语言类别中选取与用户历史使用的语言类别一致的语言类别作为目标语言类别。
6.一种多语音识别切换装置,其特征在于,包括:
语音获取模块,用于获取用户输入语音中的至少一条语音信息;
语言识别模块,用于对所述语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别;
模型切换模块,用于将当前使用的语音识别模型切换至与目标语言类别对应的语音识别模型;
其中,所述语言识别模块包括:
语言识别单元,用于对所述语音信息包含的至少两条语音语句进行识别,得到各条语音语句与语言类别的匹配度;
匹配度确定单元,用于根据所述匹配度确定初始语言类别,计算将各条语音语句不是初始语言类别的概率的乘积,根据所述乘积确定对应的目标语言类别。
7.根据权利要求6所述的装置,其特征在于,所述语言识别模块具体用于,对所述语音信息基于至少两种语言类别的特征进行识别,并得到所述语音信息与各个语言类别的相似程度,将所述相似程度作为语言类别的匹配度。
8.根据权利要求6~7任一项所述的装置,其特征在于,还包括:
预处理模块,用于在所述语言识别模块对所述语音信息进行识别和语言类别的匹配,以根据匹配度确定对应的目标语言类别之前,对所述语音信息进行以下任意一项预处理:语音特征提取、有效语音检测、语音矢量表示和模型打分测试。
9.根据权利要求6~7任一项所述的装置,其特征在于,还包括:
切换提示模块,用于提示对所述语音信息进行识别,若识别结果不符合预设条件,则显示提示消息,以提示用户进行手动切换。
10.根据权利要求6~7任一项所述的装置,其特征在于,所述语言识别模块具体用于,对所述语音信息进行识别和语言类别的匹配;确定匹配度符合预设条件的至少两种备选语言类别;查询用户历史语音识别记录确定用户历史使用的语言类别;从至少两个所述备选语言类别中选取与用户历史使用的语言类别一致的语言类别作为目标语言类别。
CN201610429948.8A 2016-06-16 2016-06-16 多语音识别模型切换方法及装置 Active CN105957516B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610429948.8A CN105957516B (zh) 2016-06-16 2016-06-16 多语音识别模型切换方法及装置
PCT/CN2016/097417 WO2017215122A1 (zh) 2016-06-16 2016-08-30 多语音识别模型切换方法、装置和存储介质
US16/201,722 US10847146B2 (en) 2016-06-16 2018-11-27 Multiple voice recognition model switching method and apparatus, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610429948.8A CN105957516B (zh) 2016-06-16 2016-06-16 多语音识别模型切换方法及装置

Publications (2)

Publication Number Publication Date
CN105957516A CN105957516A (zh) 2016-09-21
CN105957516B true CN105957516B (zh) 2019-03-08

Family

ID=56906481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610429948.8A Active CN105957516B (zh) 2016-06-16 2016-06-16 多语音识别模型切换方法及装置

Country Status (3)

Country Link
US (1) US10847146B2 (zh)
CN (1) CN105957516B (zh)
WO (1) WO2017215122A1 (zh)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106409285A (zh) * 2016-11-16 2017-02-15 杭州联络互动信息科技股份有限公司 智能终端设备根据语音数据识别语言种类的方法及装置
CN106710586B (zh) * 2016-12-27 2020-06-30 北京儒博科技有限公司 一种语音识别引擎自动切换方法和装置
CN106997762A (zh) * 2017-03-08 2017-08-01 广东美的制冷设备有限公司 家用电器的语音控制方法以及装置
WO2018157526A1 (zh) * 2017-02-28 2018-09-07 广东美的制冷设备有限公司 智能家电控制方法和装置
CN107146615A (zh) * 2017-05-16 2017-09-08 南京理工大学 基于匹配模型二次识别的语音识别方法及系统
CN107437416B (zh) * 2017-05-23 2020-11-17 创新先进技术有限公司 一种基于语音识别的咨询业务处理方法及装置
CN107221322A (zh) * 2017-06-15 2017-09-29 重庆柚瓣科技有限公司 一种基于养老机器人的方言识别系统
KR20190123362A (ko) * 2018-04-06 2019-11-01 삼성전자주식회사 인공지능을 이용한 음성 대화 분석 방법 및 장치
SG11201912061WA (en) 2018-04-16 2020-01-30 Google Llc Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
US10896672B2 (en) 2018-04-16 2021-01-19 Google Llc Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
CN108742457A (zh) * 2018-05-14 2018-11-06 佛山市顺德区美的洗涤电器制造有限公司 洗碗机分配器识别方法、装置及计算机可读存储介质
US20210365641A1 (en) * 2018-06-12 2021-11-25 Langogo Technology Co., Ltd Speech recognition and translation method and translation apparatus
CN108986796A (zh) * 2018-06-21 2018-12-11 广东小天才科技有限公司 一种语音搜索方法及装置
CN109147146B (zh) * 2018-08-21 2022-04-12 平安科技(深圳)有限公司 语音取号的方法及终端设备
CN110970018B (zh) * 2018-09-28 2022-05-27 珠海格力电器股份有限公司 语音识别方法和装置
CN109360564B (zh) * 2018-12-10 2021-06-04 珠海格力电器股份有限公司 语言识别模式的选择方法及装置、家用电器
JP7020390B2 (ja) * 2018-12-20 2022-02-16 トヨタ自動車株式会社 制御装置、音声対話装置、音声認識サーバ及びプログラム
CN109871446B (zh) * 2019-01-31 2023-06-06 平安科技(深圳)有限公司 意图识别中的拒识方法、电子装置及存储介质
CN109949793A (zh) * 2019-03-06 2019-06-28 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN109741734B (zh) * 2019-03-08 2021-07-20 北京猎户星空科技有限公司 一种语音评测方法、装置和可读介质
CN111128123A (zh) * 2019-07-12 2020-05-08 深圳云知声信息技术有限公司 一种基于方言识别与普通话识别的交互方法
CN110365561A (zh) * 2019-07-19 2019-10-22 安徽亿联网络科技有限公司 一种带有语音识别的智能场景控制器
CN110288996A (zh) * 2019-07-22 2019-09-27 厦门钛尚人工智能科技有限公司 一种语音识别装置和语音识别方法
CN112445901A (zh) * 2019-09-03 2021-03-05 上海智臻智能网络科技股份有限公司 一种设置智能设备的语言的方法和装置
CN110827826B (zh) * 2019-11-22 2022-05-31 维沃移动通信有限公司 语音转换文字方法、电子设备
CN111142999A (zh) * 2019-12-24 2020-05-12 深圳市元征科技股份有限公司 一种设备语言选择方法、系统、装置及计算机存储介质
CN113177816A (zh) * 2020-01-08 2021-07-27 阿里巴巴集团控股有限公司 一种信息处理方法及装置
CN111599349B (zh) * 2020-04-01 2023-04-18 云知声智能科技股份有限公司 一种训练语言模型的方法及系统
CN111627432B (zh) * 2020-04-21 2023-10-20 升智信息科技(南京)有限公司 主动式外呼智能语音机器人多语种交互方法及装置
CN111916057A (zh) * 2020-06-20 2020-11-10 中国建设银行股份有限公司 一种语言识别方法、装置、电子设备及计算机可读存储介质
CN111949178B (zh) * 2020-08-13 2022-02-22 百度在线网络技术(北京)有限公司 技能切换方法、装置、设备以及存储介质
CN112017645B (zh) * 2020-08-31 2024-04-26 广州市百果园信息技术有限公司 一种语音识别方法及装置
CN112233651B (zh) * 2020-10-10 2024-06-04 深圳前海微众银行股份有限公司 方言类型的确定方法、装置、设备及存储介质
CN112214613A (zh) * 2020-10-15 2021-01-12 平安国际智慧城市科技股份有限公司 基于人工智能的用药推荐方法、装置、电子设备及介质
CN112905247A (zh) * 2021-01-25 2021-06-04 斑马网络技术有限公司 自动检测并切换语言的方法及装置、终端设备、存储介质
CN112530456B (zh) * 2021-02-18 2021-05-28 北京远鉴信息技术有限公司 一种语言类别的识别方法、装置、电子设备及存储介质
CN113077793B (zh) * 2021-03-24 2023-06-13 北京如布科技有限公司 一种语音识别方法、装置、设备及存储介质
CN112712809B (zh) * 2021-03-29 2021-06-18 北京远鉴信息技术有限公司 一种语音检测方法、装置、电子设备及存储介质
US12002451B1 (en) * 2021-07-01 2024-06-04 Amazon Technologies, Inc. Automatic speech recognition
CN113435198A (zh) * 2021-07-05 2021-09-24 深圳市鹰硕技术有限公司 字幕方言词自动纠正显示方法以及装置
CN113535308A (zh) * 2021-07-27 2021-10-22 深圳市元征科技股份有限公司 语言调整方法、装置、电子设备及介质
US12033618B1 (en) * 2021-11-09 2024-07-09 Amazon Technologies, Inc. Relevant context determination
CN114165819A (zh) * 2021-11-26 2022-03-11 珠海格力电器股份有限公司 吸油烟机及其控制方法、模组及计算机可读介质
CN115376490B (zh) * 2022-08-19 2024-07-30 北京字跳网络技术有限公司 一种语音识别方法、装置及电子设备
CN117912456B (zh) * 2023-11-28 2024-07-19 广州视声智能科技有限公司 基于数据预测的语音识别方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080255843A1 (en) * 2007-04-13 2008-10-16 Qisda Corporation Voice recognition system and method
CN101354886A (zh) * 2007-07-27 2009-01-28 陈修志 语音识别装置
CN101923854A (zh) * 2010-08-31 2010-12-22 中国科学院计算技术研究所 一种交互式语音识别系统和方法
US20140032214A1 (en) * 2009-06-09 2014-01-30 At&T Intellectual Property I, L.P. System and Method for Adapting Automatic Speech Recognition Pronunciation by Acoustic Model Restructuring
CN104160440A (zh) * 2012-03-06 2014-11-19 苹果公司 使用基于位置的语言建模的自动输入信号识别
CN104575493A (zh) * 2010-05-26 2015-04-29 谷歌公司 使用地理信息的声学模型适配
CN105609101A (zh) * 2014-11-14 2016-05-25 现代自动车株式会社 语音识别系统及语音识别方法
CN105679314A (zh) * 2015-12-28 2016-06-15 百度在线网络技术(北京)有限公司 语音识别方法和装置

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7457745B2 (en) * 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
US8027832B2 (en) * 2005-02-11 2011-09-27 Microsoft Corporation Efficient language identification
KR100755677B1 (ko) * 2005-11-02 2007-09-05 삼성전자주식회사 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
JP5088701B2 (ja) * 2006-05-31 2012-12-05 日本電気株式会社 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
US8612225B2 (en) * 2007-02-28 2013-12-17 Nec Corporation Voice recognition device, voice recognition method, and voice recognition program
FR2914079B1 (fr) * 2007-03-20 2009-06-26 Commissariat Energie Atomique Procede de traduction automatique
US8352321B2 (en) * 2008-12-12 2013-01-08 Microsoft Corporation In-text embedded advertising
US8635068B2 (en) * 2008-12-23 2014-01-21 At&T Intellectual Property I, L.P. System and method for recognizing speech with dialect grammars
JP5530729B2 (ja) * 2009-01-23 2014-06-25 本田技研工業株式会社 音声理解装置
CN102239517B (zh) * 2009-01-28 2013-05-08 三菱电机株式会社 声音识别装置
WO2012064765A1 (en) * 2010-11-08 2012-05-18 Google Inc. Generating acoustic models
US8352245B1 (en) * 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) * 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US20130236332A1 (en) 2012-03-07 2013-09-12 Jeffrey G. Frey Systems and Methods for Cooling High Temperature Electrical Connections
US9336771B2 (en) * 2012-11-01 2016-05-10 Google Inc. Speech recognition using non-parametric models
US9697821B2 (en) * 2013-01-29 2017-07-04 Tencent Technology (Shenzhen) Company Limited Method and system for building a topic specific language model for use in automatic speech recognition
CN105009206B (zh) * 2013-03-06 2018-02-09 三菱电机株式会社 语音识别装置和语音识别方法
US9396724B2 (en) * 2013-05-29 2016-07-19 Tencent Technology (Shenzhen) Company Limited Method and apparatus for building a language model
JP6245846B2 (ja) * 2013-05-30 2017-12-13 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声認識における読み精度を改善するシステム、方法、およびプログラム
US20140372118A1 (en) * 2013-06-17 2014-12-18 Speech Morphing Systems, Inc. Method and apparatus for exemplary chip architecture
US9311915B2 (en) * 2013-07-31 2016-04-12 Google Inc. Context-based speech recognition
US9128930B2 (en) * 2013-10-31 2015-09-08 Tencent Technology (Shenzhen) Company Limited Method, device and system for providing language service
JP6080978B2 (ja) * 2013-11-20 2017-02-15 三菱電機株式会社 音声認識装置および音声認識方法
US9842592B2 (en) * 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9812130B1 (en) * 2014-03-11 2017-11-07 Nvoq Incorporated Apparatus and methods for dynamically changing a language model based on recognized text
US20150364129A1 (en) * 2014-06-17 2015-12-17 Google Inc. Language Identification
US20160035344A1 (en) * 2014-08-04 2016-02-04 Google Inc. Identifying the language of a spoken utterance
US9881610B2 (en) * 2014-11-13 2018-01-30 International Business Machines Corporation Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities
US9508340B2 (en) * 2014-12-22 2016-11-29 Google Inc. User specified keyword spotting using long short term memory neural network feature extractor
US9972315B2 (en) * 2015-01-14 2018-05-15 Honda Motor Co., Ltd. Speech processing device, speech processing method, and speech processing system
US10134394B2 (en) * 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US9959866B2 (en) * 2015-04-02 2018-05-01 Panasonic Intellectual Property Management Co., Ltd. Computer-implemented method for generating a response sentence by using a weight value of node
US9641681B2 (en) * 2015-04-27 2017-05-02 TalkIQ, Inc. Methods and systems for determining conversation quality
US10476908B2 (en) * 2015-08-10 2019-11-12 Allure Security Technology Inc. Generating highly realistic decoy email and documents
EP3142028A3 (en) * 2015-09-11 2017-07-12 Google, Inc. Handling failures in processing natural language queries through user interactions
US10475447B2 (en) * 2016-01-25 2019-11-12 Ford Global Technologies, Llc Acoustic and domain based speech recognition for vehicles
US20170229124A1 (en) * 2016-02-05 2017-08-10 Google Inc. Re-recognizing speech with external data sources
DE112016006496T5 (de) * 2016-02-26 2018-11-15 Mitsubishi Electric Corporation Stimmerkennungsvorrichtung
US20170289766A1 (en) * 2016-03-29 2017-10-05 Microsoft Technology Licensing, Llc Digital Assistant Experience based on Presence Detection

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080255843A1 (en) * 2007-04-13 2008-10-16 Qisda Corporation Voice recognition system and method
CN101354886A (zh) * 2007-07-27 2009-01-28 陈修志 语音识别装置
US20140032214A1 (en) * 2009-06-09 2014-01-30 At&T Intellectual Property I, L.P. System and Method for Adapting Automatic Speech Recognition Pronunciation by Acoustic Model Restructuring
CN104575493A (zh) * 2010-05-26 2015-04-29 谷歌公司 使用地理信息的声学模型适配
CN101923854A (zh) * 2010-08-31 2010-12-22 中国科学院计算技术研究所 一种交互式语音识别系统和方法
CN104160440A (zh) * 2012-03-06 2014-11-19 苹果公司 使用基于位置的语言建模的自动输入信号识别
CN105609101A (zh) * 2014-11-14 2016-05-25 现代自动车株式会社 语音识别系统及语音识别方法
CN105679314A (zh) * 2015-12-28 2016-06-15 百度在线网络技术(北京)有限公司 语音识别方法和装置

Also Published As

Publication number Publication date
CN105957516A (zh) 2016-09-21
WO2017215122A1 (zh) 2017-12-21
US20190096396A1 (en) 2019-03-28
US10847146B2 (en) 2020-11-24

Similar Documents

Publication Publication Date Title
CN105957516B (zh) 多语音识别模型切换方法及装置
CN109918680B (zh) 实体识别方法、装置及计算机设备
CN107291783B (zh) 一种语义匹配方法及智能设备
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
EP3153978B1 (en) Address search method and device
CN109299320B (zh) 一种信息交互方法、装置、计算机设备和存储介质
CN116795973B (zh) 基于人工智能的文本处理方法及装置、电子设备、介质
CN107305550A (zh) 一种智能问答方法及装置
CN108388553B (zh) 对话消除歧义的方法、电子设备及面向厨房的对话系统
CN106649404B (zh) 一种会话场景数据库的创建方法及装置
CN103559880B (zh) 语音输入系统和方法
CN106980652B (zh) 智能问答方法及系统
CN106649410B (zh) 一种获取聊天回复内容的方法及装置
CN106649253B (zh) 基于后验证的辅助控制方法及系统
CN108399914A (zh) 一种语音识别的方法和装置
CN102439660A (zh) 基于置信度得分的语音标签方法和装置
CN111179935A (zh) 一种语音质检的方法和设备
CN110955818A (zh) 搜索方法、装置、终端设备及存储介质
CN108345612A (zh) 一种问题处理方法和装置、一种用于问题处理的装置
CN112232276B (zh) 一种基于语音识别和图像识别的情绪检测方法和装置
CN111046201A (zh) 一种基于计算机软件的垃圾分类模拟系统
WO2020199590A1 (zh) 情绪检测分析方法及相关装置
CN108305629B (zh) 一种场景学习内容获取方法、装置、学习设备及存储介质
CN109871128B (zh) 一种题型识别方法及装置
CN117371406A (zh) 基于大型语言模型的注释生成方法、装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant