CN111508472B - 一种语种切换方法、装置及存储介质 - Google Patents

一种语种切换方法、装置及存储介质 Download PDF

Info

Publication number
CN111508472B
CN111508472B CN201910027657.XA CN201910027657A CN111508472B CN 111508472 B CN111508472 B CN 111508472B CN 201910027657 A CN201910027657 A CN 201910027657A CN 111508472 B CN111508472 B CN 111508472B
Authority
CN
China
Prior art keywords
language
voice
matching degree
matching
awakening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910027657.XA
Other languages
English (en)
Other versions
CN111508472A (zh
Inventor
范燕平
赵光耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201910027657.XA priority Critical patent/CN111508472B/zh
Publication of CN111508472A publication Critical patent/CN111508472A/zh
Application granted granted Critical
Publication of CN111508472B publication Critical patent/CN111508472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种语种切换方法、装置及存储介质,其中方法包括终端设备接收包含唤醒词信息的语音,终端设备根据包含唤醒词信息的语音,从N个语种中确定与唤醒词匹配的第一语种,N为大于1的整数;若终端设备的应用环境的当前语种与第一语种不同,则终端设备将终端设备的应用环境的当前语种切换为第一语种。如此,终端设备可实现语种的自动切换,不需要用户打开语种设置界面一步一步进行操作,从而有助于提高终端设备的语种切换效率。进一步,终端设备确定第一语种是通过唤醒词确定的,唤醒词较固定,针对性较强,从而有助于提高第一语种识别的精确度。

Description

一种语种切换方法、装置及存储介质
技术领域
本申请涉及语音识别技术领域,尤其涉及一种语种切换方法、装置及存储介质。
背景技术
随着互联网和信息技术的快速发展,语音交互因其使用方便,已被广泛应用于通信、家电、工业、医疗和电子产品等许多领域,给人们的生活带来了较大的便利。
目前,随着国际化趋势的日益深入,经常会出现使用不同语种的人混合办公和生活的场景。因此,使用不同语种的交流越来越被需求。然而,现有技术中,语音识别引擎在工作时仅能识别出一种特定的语种。如果用户需要进行语种的切换(即从一个语种切换到另一个语种),需要进入语种切换设置的相关界面,手动对语种进行切换,如此,操作不方便,且语种切换的效率较低。
发明内容
本申请提供一种语种切换方法、装置及存储介质,用于提高语种的切换效率。
第一方面,本申请提供的一种语种切换方法,该方法包括:终端设备接收包含唤醒词信息的语音,根据包含唤醒词信息的语音,从N个语种中确定与唤醒词匹配的第一语种,若终端设备的应用环境的当前语种与第一语种不同,则终端设备将终端设备的应用环境的当前语种切换为第一语种,N为大于1的整数。
基于该方案,终端设备根据包含唤醒词信息的语音,根据包含唤醒词信息的语音,确定出与该唤醒词匹配的第一语种,在确定应用环境的当前语种与第一语种不同,将终端设备的应用环境的当前语种切换为第一语种。如此,终端设备可实现语种的自动切换,不需要用户打开语种设置界面一步一步进行操作,从而有助于提高终端设备的语种切换效率。进一步,终端设备确定第一语种是通过唤醒词确定的,唤醒词较固定,针对性较强,从而有助于提高第一语种识别的精确度。
本申请示例性示出了终端设备从N个语种中确定与唤醒词匹配的第一语种的两种实现方式。
实现方式一:终端设备将包含唤醒词信息的语音分别输入N个语音唤醒模型,得到N个匹配度,终端设备根据N个匹配度,确定第一语种,一个语音唤醒模型对应一个语种,一个匹配度对应一个语种。
实现方式二:终端设备将包含唤醒词信息的语音输入语音唤醒模型,得到N个匹配度,终端设备根据N个匹配度,确定第一语种,一个语音唤醒模型对应N个语种,一个匹配度对应一个语种。
为了提高语种切换的精确度,基于上述实现方式一和实现方式二,终端设备可获取辅助信息,辅助信息用于指示当前指定切换的语种,第一语种为指定切换的语种中的一个;终端设备根据辅助信息,将包含唤醒词信息的语音输入指定切换的语种对应的语音唤醒模型。
基于上述实现方式一和实现方式二得到的N个匹配度,在一种可能的实现方式中,终端设备可确定N个匹配度中最大的匹配度对应的语种,为第一语种。如此,确定第一语种的过程较简单,有助于进一步提高语种切换的效率。
在另一种可能的实现方式中,若N个匹配度中的第一匹配度大于第一阈值,则终端设备确定第一匹配度对应的语种为第一语种,第一匹配度为N个匹配度中的最大的匹配度;或者,若第一匹配度不大于第一阈值且大于第二阈值,则终端设备确定N个匹配度中的第二匹配度,并将第一匹配度对应的语种和第二匹配度对应语种提供给用户进行选择,并将用户选择的语种作为第一语种,第一匹配度与第二匹配度的差值小于预设的差值阈值,其中,第一阈值大于第二阈值。通过该实现方式,一方面,可提高语种切换的精确度,另一方面,可使用户灵活选择要切换的第一语种。
为了保证终端设备当前正在执行的业务的正常执行过程,终端设备确定终端设备当前没有正在执行的业务。
在一种可能的实现方式中,终端设备将语种识别引擎切换至第一语种对应的语种识别引擎、且将用户界面切换至第一语种对应的用户界面。如此,终端设备的应用环境实现了从当前语种切换为第一语种。
第二方面,本申请实施例提供一种装置,该装置包括处理器和收发器。可选地,还包括存储器。当其包括存储器时,存储器用于存储指令;处理器用于根据执行存储器存储的指令,当处理器执行存储器存储的指令时,装置用于执行上述第一方面或第一方面中任一种方法。
第三方面,本申请实施例提供一种装置,用于实现上述第一方面或第一方面中的任意一种方法,包括相应的功能模块,分别用于实现以上方法中的步骤。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块。
在一种可能的实施方式中,装置的结构中包括处理单元和收发单元。可选地,还包括存储单元,这些单元可以执行上述方法示例中相应功能,具体参见方法示例中的详细描述,此处不做赘述。
第四方面,本申请实施例提供一种计算机存储介质,计算机存储介质中存储有指令,当其在计算机上运行时,使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。
第五方面,本申请实施例提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行第一方面或第一方面的任意可能的实现方式中的方法。
附图说明
图1为本申请提供的一种终端设备的软件架构示意图;
图2为本申请提供的一种语种切换方法流程示意图;
图3中的(a)-(d)为本申请提供的四种确定唤醒词的匹配度的流程架构示意图;
图4为本申请提供的另一种语种切换方法流程示意图;
图5为本申请提供的一种装置的结构示意图;
图6为本申请提供的一种装置的结构示意图。
具体实施方式
图1示例性示出了本申请提供的一种终端设备的软件架构示意图。如图1所示,该架构可包括语音唤醒模块101、语种映射模块102和语种切换模块103。
语音唤醒模块101,可用于识别接收的包含唤醒词信息的语音,可支持至少两个语种分别对应的包含唤醒词信息的语音的识别。示例性地,语音唤醒模块101中可存储有语音唤醒模型,语音唤醒模型可以对接收到的包含唤醒词信息的语音进行识别。例如,可将包含唤醒词信息的语音转化为终端设备可以理解的文本,如字符序列或者二进制码。一种可能的实现方式中,语音唤醒模块101可以将接收到的包含唤醒词信息的语音输入多个存储的语音唤醒模型,语音唤醒模型可从包含唤醒词信息的语音中提取相同的特征量,每个语种对应的语音唤醒模型可输出对应的匹配度,输出的匹配度可标识出该包含唤醒词信息的语音与该语音唤醒模型所能识别语种的匹配程度。
需要说明的,包含唤醒词信息的语音可以为一段语音数据(也可称为音频数据),该段语音数据可以为仅包括包含唤醒词信息的语音数据,也可以包括除唤醒词之外的一些其它内容的语音数据,本申请不做具体限定。示例性地,可以是用户对着终端设备说包含唤醒词信息的语音数据,语音唤醒模块101接收到该段语音数据后,可以从接收到的语音数据中提取出唤醒词。
需要进一步说明的是,语音唤醒模型可以是预先训练的得到的。一种可能的训练方式为,对不同语种对应的不同包含唤醒词信息的语音进行训练,将不同语种对应的不同包含唤醒词信息的语音转换成特征量,根据某种训练算法,每个语种可产生一个或多个语音唤醒模型,即可得到不同语种的语音唤醒模型。示例性地,可以是基于隐马尔马可夫模型-高斯混合模型(hidden markov models-gaussian mixture model,HMM-GMM)的keyword/filler模式,即首先获取不同语种对应的不同包含唤醒词信息的语音的梅尔频谱倒谱系数(mel frequency cepstral coefficients,MFCC)特征,然后通过MFCC特征训练得到不同语种对应的HMM-GMM模型。通过该方式效率较高、且识别的误差较少。在另一种可能的实现方式中,可以是基于深度神经网络,比如深度神经网络(deep neural network,DNN)和循环神经网络(recurrent neural network,RNN)等,通过标注包含唤醒词信息的语音数据直接训练语音唤醒模型。
在一种可能的实现方式中,语音唤醒模块101能识别的语种需满足终端设备支持的语种,比如,终端设备支持的语种包括中文、英文和法语,则语音唤醒模块101能识别出的语种也应该在中文、英文和法语的范围内。
语种映射模块102,可用于根据语音唤醒模块101中输出的匹配度,确定接收的语音换唤醒词对应的第一语种。
语种切换模块103,可用于将终端设备的应用环境的当前语种切换为语种映射模块102确定出的第一语种,其中,切换为第一语种主要是对语种识别引擎102a和语种用户界面102b进行切换,即将语种识别引擎切换为第一语种对应的语种识别引擎,将用户界面切换为第一语种对应的用户界面。
终端设备可以是诸如手机、平板电脑、具备无线通讯功能的可穿戴设备(如智能手表、智能手环等)、车载设备、网络电视和其它可能的设备等。
基于图1所示的架构,图2示例性示出了本申请提供的一种语种切换方法。其中,终端设备可以是上述图1中的终端设备。该方法包括以下步骤:
步骤201,终端设备接收包含唤醒词信息的语音。
此处,终端设备接收的包含唤醒词信息的语音,可以是一个包含唤醒词信息的语音,也可以是多个包含唤醒词信息的语音。
在一种可能的实现方式中,针对同一语种,终端设备接收到的唤醒词的数量越多,确定出的第一语种的精确度越高。若同一语种对应多个唤醒词时,包含唤醒词信息的语音之间可根据其发音特征等,具有一定的相似性。示例性地,针对中文,在对应多个唤醒词时可以是“你好”、“您好”等。针对不同语种,不同语种对应的包含唤醒词信息的语音之间的差异越大,越有助于语种的识别,即不同语种对应的包含唤醒词信息的语音之间的差异越大,误判的概率越小。
步骤202,终端设备根据包含唤醒词信息的语音,从N个语种中确定与唤醒词匹配的第一语种。
其中,一个语种对应至少一个唤醒词,N为大于1的整数。
结合上述图1,可以是终端设备中预存有N个语种对应的语音唤醒模型,将接收的包含唤醒词信息的语音输入N个语种对应的语音唤醒模型进行匹配,确定出第一语种。
步骤203,若终端设备的应用环境的当前语种与第一语种不同,则终端设备将终端设备的应用环境的当前语种切换为第一语种。
其中,终端设备的应用环境可以是终端设备的系统环境,例如
Figure BDA0001943095150000041
Figure BDA0001943095150000042
或者其它操作系统的环境,也可以是终端设备中安装的应用的环境,例如微信、微博等应用的应用环境。
从上述步骤201至步骤203可以看出,终端设备根据接收的包含唤醒词信息的语音,根据包含唤醒词信息的语音,确定出与唤醒词匹配的第一语种,若终端设备的应用环境的当前语种与第一语种不同,将应用环境的当前语种切换为第一语种。如此,终端设备可实现语种的自动切换,不需要用户打开语种设置界面一步一步进行操作,从而有助于提高终端设备的语种切换效率。进一步,终端设备确定第一语种是通过唤醒词确定的,唤醒词较固定,针对性较强,从而有助于提高第一语种识别的精确度。
在上述步骤202中,结合上述图1,终端设备可通过如下两种实现方式,确定出N个匹配度。
实现方式一
终端设备中可存储有N个语音唤醒模型,一个语种唤醒模型对应一个语种。也可以理解为,一个语音唤醒模型可识别出一个语种。终端设备将包含唤醒词信息的语音分别输入N个语音唤醒模型,得到N个匹配度,一个匹配度对应一个语种。
实现方式二
终端设备中存储有一个语音唤醒模型,一个语音唤醒模型对应N个语种,也可以理解为一个语音唤醒模型可识别出N个语种。终端设备将包含唤醒词信息的语音输入语音唤醒模型,得到N个匹配度,一个匹配度对应一个语种。
上述实现方式一和实现方式二中的语音唤醒模型可以是HMM-GMM、DNN或RNN。
为了便于理解,以如下示例具体说明上述实现方式一和实现方式二。示例性地,以N=3,且3个语种分别为中文、英文和法语为例,结合上述图1,语音唤醒模型可存储于终端设备的语音唤醒模块101中。
针对上述实现方式一,如图3中的(a)所示,为本申请提供的一种确定唤醒词匹配度的流程架构图。示例性地,终端设备中存储有3个语音唤醒模型,分别为语音唤醒模型1、语音唤醒模型2和语音唤醒模型3,其中,语音唤醒模型1可识别出的语种为中文,语音唤醒模型2可识别出的语种为英文,语音唤醒模型3可识别出的语种为法语。在终端设备接收到唤醒词A的语音时,终端设备将唤醒词A的语音分别输入语音唤醒模型1、语音唤醒模型2和语音唤醒模型3,可分别输出一个对应的匹配度,即语音唤醒模型1输出匹配度P1、语音唤醒模型2输出匹配度P2和语音唤醒模型3输出匹配度P3
针对上述实现方式二,如图3中的(b)所示,为本申请提供的另一种确定唤醒词匹配度的流程架构图。示例性地,终端设备中存储有一个语音唤醒模型,该语音唤醒模型对应3个语种,即该语音唤醒模型为多语种混合语音唤醒模型,可识别出中文、英文和法语。终端设备接收到唤醒词A的语音后,将唤醒词A的语音输入该语音唤醒模型,可输出三个匹配度,分别为中文对应的匹配度P1,英文对应的匹配度P2和法语对应的匹配度P3
本申请中,针对同一语种,唤醒词可以是一个也可以是多个。若同一语种的唤醒词包括多个,则可以是对确定出的每个唤醒词的匹配度求平均值,即输出平均值作为匹配度。
如图3中的(c)所示,终端设备接收到唤醒词A的语音、唤醒词B的语音和唤醒词C的语音,其中,唤醒词A的语音、唤醒词B的语音和唤醒词C的语音为同一语种的三个不同的包含唤醒词信息的语音,即一个语种对应三个唤醒词,分别为唤醒词A、唤醒词B和唤醒词C。将唤醒词A的语音、唤醒词B的语音和唤醒词C的语音均输入语音唤醒模型1,可输出3个匹配度,分别为P1-A、P1-B和P1-C;同时,也将唤醒词A的语音、唤醒词B的语音和唤醒词C的语音分别输入语音唤醒模型2,也得到3个匹配度,分别为P2-A、P2-B和P2-C;同时,也将唤醒词A的语音、唤醒词B的语音和唤醒词C的语音均输入语音唤醒模型3,也得到3个匹配度,分别为P3-A、P3-B和P3-C。则可以确定语音唤醒模型1输出的匹配度P1=(P1-A+P1-B+P1-C)/3,语音唤醒模型2输出的匹配度P2=(P2-A+P2-B+P2-C)/3,语音唤醒模型3输出的匹配度P3=(P3-A+P3-B+P3-C)/3。
如图3中的(d),终端设备接收到唤醒词A的语音、唤醒词B的语音和唤醒词C的语音,其中,唤醒词A的语音、唤醒词B的语音和唤醒词C的语音为同一语种的三个不同的包含唤醒词信息的语音,将唤醒词A的语音、唤醒词B的语音和唤醒词C的语音均输入图3中的(d)所示的语音唤醒模型,该语音唤醒模型对应3个语种,如此,每个语种对应3个匹配度,3个语种可得到9个匹配度,即该语音唤醒模型对应的3个语种中的每个语种对应3个匹配度。可选地,针对每个语种对应的3个匹配度求平均值,可得到该语音唤醒模型输出每个语种对应的匹配度。示例性地,确定出唤醒词A的语音、唤醒词B的语音和唤醒词C的语音对应中文的3个匹配度,对确定出的这3个匹配度求平均值,作为该语音唤醒模型输出中文对应的匹配度,此处不再赘述求平均值的过程。一种可能的实现方式中,该语音唤醒模型可输出三个匹配度,分别为中文对应的匹配度P1,英文对应的匹配度P2和法语对应的匹配度P3
结合上述图1,在一种可能的实现方式中,语音唤醒模块101输出的可以是模型标识与匹配度的对应关系,也可以是语种与匹配度的对应关系。
基于上述实现方式一和实现方式二,可得到N个匹配度,终端设备可根据N个匹配度,确定第一语种。以下示例性示出了终端设备根据N个匹配度确定第一语种的两种可能的方式。
在一种可能的实现方式中,终端设备确定N个匹配度中最大的匹配度对应的语种,为第一语种。通过该实现方式确定第一语种,过程简单,有助于提高语种切换的效率。
示例性地,可以是在终端设备中预先存储有语种和模型标识之间的映射关系,如表1所示。终端设备在得到语音唤醒模型1输出的匹配度P1、语音唤醒模型2输出匹配度P2和语音唤醒模型3输出匹配度P3。结合上述图1,可以是语音唤醒模块101输出表2所示的匹配度与模型的映射关系,语种映射模块102可确定匹配度P1、匹配度P2和匹配度P3中的最大值,假设匹配度最大为P1,根据表2可确定匹配度P1对应的模型标识为1,根据表1可以确定模型标识为1对应的语种为中文,终端设备可将中文确定为第一语种。
表1语种与模型标识的映射关系
模型标识 语种
1 中文
2 英文
3 法语
表2语种与匹配度的映射关系
模型标识 匹配度
1 P<sub>1</sub>
2 P<sub>2</sub>
3 P<sub>3</sub>
在另一种可能的实现方式中,若N个匹配度中的第一匹配度大于第一阈值,则终端设备确定第一匹配度对应的语种为第一语种,第一匹配度为N个匹配度中的最大的匹配度;或者,若第一匹配度不大于第一阈值且大于第二阈值,则终端设备确定N个匹配度中的第二匹配度,并将第一匹配度对应的语种和第二匹配度对应语种提供给用户进行选择,并将用户选择的语种作为第一语种,第一匹配度与第二匹配度的差值小于预设的差值阈值,其中,第一阈值大于第二阈值。通过该实现方式,一方面,可提高语种切换的精确度,另一方面,可使用户灵活选择要切换的第一语种。
该实现方式也可以理解为,终端设备将得到的N个匹配度与预设的范围进行比较,根据比较的结果确定第一语种,其中预设范围为[第二阈值,第一阈值]。
示例性地,第一阈值为X,第二阈值为Y,则预设范围为[Y,X]。若N个匹配度中的第一匹配度≥X,则确定第一匹配度对应的语种为第一语种。若Y≤第一匹配度≤X,则终端设备确定第二匹配度。一种可能的实现方式为,确定仅次于第一匹配度的匹配度与第一匹配度的差值是否小于预设差值阈值,若小于,则将仅次于第一匹配度的匹配度确定为第二匹配度,确定第一匹配对应的语种和第二匹配度对应的语种,并将第一匹配度对应的语种和第二匹配度对应的语种均显示在终端设备的用户界面,将用户选择的语种作为第一语种;若不小于,则将第一匹配度对应的语种确定为第一语种。在另一种可能的实现方式中,将与第一匹配度的差值小于预设差值阈值的匹配度确定为均确定为第二匹配度,该方式确定出的第二匹配度可能包括多个,将多个第二匹配度对应的语种和第一匹配度对应的语种均显示在用户界面,将用户选择的语种作为第一语种。
通过将第一匹配度对应的语种和第二匹配对应的语种均显示在用户界面,可便于用户灵活选择第一语种。而且,通过将N个匹配度与第一阈值和第二阈值的比较,来确定第一语种,有助于提高确定出的第一语种的精确度。
为了进一步提高语种切换的效率和精度。在一种可能的实现方式中,终端设备可预先获取辅助信息,辅助信息用于指示当前指定切换的语种,终端设备根据辅助信息,将包含唤醒词信息的语音输入指定切换的语种对应的语音唤醒模型,第一语种为指定切换的语种中的一个。如此,也可以缩小确定匹配度的数量,进一步提高确定第一语种的准确度。
例如,通过终端设备进行会议时,可根据与会人的身份信息,确定出当前指定切换的语种。比如,与会人包括中国人###和英国人&&&,###使用的语种包括{中文、英文和法语},&&&使用的语种包括{英文、法语和日语},则可以取两者使用的语种的交集为当前指定切换语种,即当前指定切换语种为{英文和法语}。
结合上述图3中的(a),终端设备接收到唤醒词A的语音时,会将唤醒词A的语音分别输入语音唤醒模型2和语音唤醒模型3,得到两个匹配度,即分别得到匹配度P2和匹配度P3,不再输入语音唤醒模型1。如此,一方面,可以减少包含唤醒词信息的语音的识别,且有助于减少确定唤醒词对应的匹配度的数量,从而有助于提高确定第一语种的效率;另一方面,基于辅助确定出的第一语种的精确度高。
结合上述图3中的(b),终端设备接收到唤醒词A的语音时,将唤醒词A的语音输入语音唤醒模型,得到两个匹配度,分别得到匹配度P2和匹配度P3
为了保证不影响用户当前正在执行的业务,在一种可能的实现方式中,终端设备将终端设备的应用环境的当前语种切换为第一语种之前,可先确定终端设备当前没有正在执行的业务。若终端设备确定终端设备的应用环境的当前有正在执行的业务,则不能完成将当前语种的用户界面切换至第一语种对应的用户界面,因此,可在终端设备的用户界面显示指示信息,指示信息用于指示用户确定是否将当前语种切换至第一语种,或者,指示用户确定是否在该业务执行结束后,自动将当前语种切换为第一语种。
进一步,终端设备还可以结合终端设备的当前配置信息,确定是否将终端设备的应用环境的当前语种切换为第一语种,例如,终端设备的当前配置信息中的语种切换设置为关闭,则终端设备可以不会从当前语种切换至第一语种。在另一种可能的实现方式中,终端设备可以在上述步骤201之前,确定终端设备的配置信息中的语种切换是否设置为打开,如果是打开,则执行本申请的方案。
在一种可能的实现方式中,终端设备确定终端设备的应用环境要从当前语种切换为第一语种。结合上述图1,一种可能的实现方式为:终端设备中的语种切换模块103将语种识别引擎从当前语种对应的语种识别引擎切换至第一语种对应的语种识别引擎、且将用户界面从当前语种对应的用户界面切换至第一语种对应的用户界面。
为了更清楚的介绍上述方法流程,结合上述图1,对本申请提出的语种切换方法进行进一步的说明。如图4所示,为本申请提出的另一种语种切换方法流程示意图。该方法包括以下步骤:
步骤401,终端设备接收包含唤醒词信息的语音。
该步骤可参见上述步骤201的介绍,此处不再赘述。
步骤402,终端设备确定是否获取到辅助信息;若是,则执行步骤403;若否,则执行步骤404。
其中,辅助信息用于指示当前指定切换的语种。
步骤403,终端设备根据辅助信息,将接收的包含唤醒词信息的语音分别输入指定切换的M个语种对应的语音唤醒模型,得到M个匹配度,M为正整数。
步骤404,终端设备将接收的包含唤醒词信息的语音输入N个语音唤醒模型,得到N个匹配度,或者,终端设备将接收的包含唤醒词信息的语音输入N个混合语种的语音唤醒模型,得到N个匹配度,一个匹配度对应一个语种,N为大于M的整数。
上述步骤403和步骤404不表示先后顺序,若执行上述步骤403,则不再执行步骤404;若执行步骤404,则不再执行步骤403。即步骤403和步骤404择一执行。
需要说明的是,上述步骤403得到M个匹配度后的执行过程与上述步骤404得到N个匹配度后的执行过程相同,以下步骤以步骤404之后得到N个匹配度为例说明。
结合上述图1,上述步骤401至步骤40,4可以在终端设备的语音唤醒模块101中执行。
步骤405,终端设备确定N个匹配度中的第一匹配度与预设范围的关系;若大于第一阈值,则执行步骤406;若不大于第一阈值且大于第二阈值,则执行步骤407和步骤408;若不大于第二阈值,则执行步骤409。
其中,第一匹配度为N个匹配度中的最大值,预设范围为[第二阈值,第一阈值],第一阈值大于第二阈值。
步骤406,终端设备确定第一匹配度对应的语种为第一语种。
步骤407,终端设备确定是否存在第二匹配度;若存在,则执行步骤408;若不存在,则执行步骤406。
步骤408,终端设备确定第一匹配度对应的语种、第二匹配度对应的语种,并将第一匹配度对应的语种和第二匹配度对应的语种提供给用户。
步骤409,终端设备将用户选择的语种确定为第一语种。
上述步骤405至步骤409可以在终端设备的语种映射模块102中执行。
步骤410,流程结束,即忽略本次切换请求。
步骤411,终端设备确定终端设备的应用环境的当前语种与第一语种是否相同;若相同,则执行步骤412;若不相同,则执行步骤410。
步骤412,终端设备确定当前是否有正在执行的业务;若无,则执行步骤413;若有,则执行步骤414。
步骤413,终端设备将终端设备的应用环境的当前语种切换为第一语种。
该步骤中,具体切换的过程可参加上述语种切换过程的介绍,此处不再赘述。
步骤414,终端设备在用户界面显示是否切换的指示信息。
此处,指示信息用于指示用户确定是否将当前语种切换至第一语种,或者,指示用户确定是否在该业务执行结束后,自动将当前语种切换为第一语种。
基于该方案,终端设备可以通过接收用户说的包含唤醒词信息的语音,实现语种的自动切换,不需要用户手动进行语种切换,从而可提高语种切换的效率。而且,确定第一语种是根据语音唤醒,针对性较强,确定出的第一语种精确度较高。
基于上述内容和相同构思,本申请提供一种装置500,用于执行上述方法中的终端设备的任一个方案。图5示例性示出了本申请提供的一种装置的结构示意图,如图5所示,该装置500包括处理器501和收发器502。可选地,还可包括存储器503和通信接口504;其中,处理器501、收发器502、和存储器503通信接口504通过总线相互连接。该示例中的装置500可以是上述内容中的终端设备,可以执行上述图2至图4中终端设备对应执行的方案。该终端设备500也可以上述图1中的终端设备。
存储器503可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);存储器503还可以包括上述种类的存储器的组合。
通信接口504可以为有线通信接入口,无线通信接口或其组合,其中,有线通信接口例如可以为以太网接口。以太网接口可以是光接口,电接口或其组合。无线通信接口可以为WLAN接口。
处理器501可以是中央处理器(central processing unit,CPU),网络处理器(network processor,NP)或者CPU和NP的组合。处理器501还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device,CPLD),现场可编程逻辑门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic array logic,GAL)或其任意组合。
可选地,存储器503还可以用于存储程序指令,处理器501调用该存储器503中存储的程序指令,可以执行上述方案中所示实施例中的一个或多个步骤,或其中可选的实施方式,使得装置500实现上述方法中终端设备的功能。
处理器501用于根据执行存储器存储的指令,并控制收发器502进行信号接收和信号发送,当处理器501执行存储器存储的指令时,装置500中的收发器502,用于接收包含唤醒词信息的语音,处理器501,用于根据所述包含唤醒词信息的语音,从N个语种中确定与唤醒词匹配的第一语种,N为大于1的整数;以及,若终端设备的应用环境的当前语种与第一语种不同,将终端设备的应用环境的当前语种切换为第一语种。
在一种可能的实现方式中,处理器501,具体用于将包含唤醒词信息的语音分别输入N个语音唤醒模型,得到N个匹配度,一个语音唤醒模型对应一个语种,一个匹配度对应一个语种;根据N个匹配度,确定第一语种。
在一种可能的实现方式中,处理器501,具体用于将包含唤醒词信息的语音输入语音唤醒模型,得到N个匹配度,一个语音唤醒模型对应N个语种,一个匹配度对应一个语种;根据N个匹配度,确定第一语种。
在一种可能的实现方式中,处理器501,具体用于确定N个匹配度中最大的匹配度对应的语种,为第一语种。
在一种可能的实现方式中,处理器501,具体用于若N个匹配度中的第一匹配度大于第一阈值,则终端设备确定第一匹配度对应的语种为第一语种,第一匹配度为N个匹配度中的最大的匹配度;或者,若第一匹配度不大于第一阈值且大于第二阈值,则终端设备确定N个匹配度中的第二匹配度,并将第一匹配度对应的语种和第二匹配度对应语种提供给用户进行选择,并将用户选择的语种作为第一语种,第一匹配度与第二匹配度的差值小于预设的差值阈值,其中,第一阈值大于第二阈值。
在一种可能的实现方式中,收发器502,具体用于获取辅助信息,辅助信息用于指示当前指定切换的语种,第一语种为指定切换的语种中的一个;处理器501,具体用于根据辅助信息,将包含唤醒词信息的语音输入指定切换的语种对应的语音唤醒模型。
在一种可能的实现方式中,处理器501,具体用于确定终端设备当前没有正在执行的业务。
在一种可能的实现方式中,处理器501,具体用于将语种识别引擎切换至第一语种对应的语种识别引擎、且将用户界面切换至第一语种对应的用户界面。
基于相同构思,本申请实施例提供一种装置,用于执行上述方法流程中的终端设备的任一个方案。图6示例性示出了本申请实施例提供的一种装置的结构示意图,如图6所示,装置600包括收发单元601和处理单元602。该示例中的装置600可以是上述内容中的终端设备,可以执行上述图2至图4中终端设备对应执行的方案。该终端设备500也可以上述图1中的终端设备。
收发单元601,用于接收包含唤醒词信息的语音,处理单元601,用于根据包含唤醒词信息的语音,从N个语种中确定与唤醒词匹配的第一语种,N为大于1的整数;以及,若终端设备的应用环境的当前语种与第一语种不同,将终端设备的应用环境的当前语种切换为第一语种。
应理解,以上各个装置的单元的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。本申请实施例中,收发单元602可以由上述图5的收发器502实现,处理单元601可以由上述图5的处理器501实现。也就是说,本申请实施例中收发单元602可以执行上述图5的收发器502所执行的方案,本申请实施例中处理单元601可以执行上述图5的处理器501所执行的方案,其余内容可以参见上述内容,在此不再赘述。如上述图5所示,装置500包括的存储器503中可以用于存储该网络设备500包括的处理器501执行方案时的代码,该代码可为网络设备500出厂时预装的程序/代码。
在上述实施例中,可以全部或部分地通过软件、硬件或者其组合来实现、当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。指令可以存储在计算机存储介质中,或者从一个计算机存储介质向另一个计算机存储介质传输,例如,指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、双绞线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机存储介质可以是计算机能够存取的任何介质或者是包含一个或多个介质集成的服务器、数据中心等数据存储设备。介质可以是磁性介质,(例如,软盘、硬盘、磁带、磁光盘(MO)等)、光介质(例如光盘)、或者半导体介质(例如ROM、EPROM、EEPROM、固态硬盘(solid state disk,SSD))等。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (16)

1.一种语种切换方法,其特征在于,包括:
终端设备接收包含唤醒词信息的语音;
所述终端设备将所述包含唤醒词信息的语音输入语音唤醒模型,得到N个匹配度,所述N为大于1的整数;
若所述N个匹配度中的第一匹配度大于第一阈值,则所述终端设备确定所述第一匹配度对应的语种为第一语种,所述第一匹配度为所述N个匹配度中的最大的匹配度;
若所述终端设备的应用环境的当前语种与所述第一语种不同,则所述终端设备将所述终端设备的应用环境的当前语种切换为所述第一语种。
2.一种语种切换方法,其特征在于,包括:
终端设备接收包含唤醒词信息的语音;
所述终端设备将所述包含唤醒词信息的语音输入语音唤醒模型,得到N个匹配度,所述N为大于1的整数;
若所述N个匹配度中的第一匹配度不大于第一阈值且大于第二阈值,则所述终端设备确定所述N个匹配度中的第二匹配度,并将所述第一匹配度对应的语种和所述第二匹配度对应语种提供给用户进行选择,并将用户选择的语种作为第一语种,所述第一匹配度与所述第二匹配度的差值小于预设的差值阈值,其中,所述第一阈值大于所述第二阈值;
若所述终端设备的应用环境的当前语种与所述第一语种不同,则所述终端设备将所述终端设备的应用环境的当前语种切换为所述第一语种。
3.如权利要求1或2所述的方法,其特征在于,所述终端设备将所述包含唤醒词信息的语音输入语音唤醒模型,得到N个匹配度,包括:
所述终端设备将所述包含唤醒词信息的语音分别输入N个语音唤醒模型,得到N个匹配度,一个语音唤醒模型对应一个语种,一个匹配度对应一个语种。
4.如权利要求1或2所述的方法,其特征在于,所述终端设备将所述包含唤醒词信息的语音输入语音唤醒模型,得到N个匹配度,包括:
所述终端设备将所述包含唤醒词信息的语音输入语音唤醒模型,得到N个匹配度,一个语音唤醒模型对应N个语种,一个匹配度对应一个语种。
5.如权利要求3所述的方法,其特征在于,所述终端设备将所述包含唤醒词信息的语音分别输入N个语音唤醒模型,包括:
所述终端设备获取辅助信息,所述辅助信息用于指示当前指定切换的语种,所述第一语种为所述指定切换的语种中的一个;
所述终端设备根据所述辅助信息,将所述包含唤醒词信息的语音输入所述指定切换的语种对应的语音唤醒模型。
6.如权利要求1或2所述的方法,其特征在于,所述终端设备将所述终端设备的应用环境的当前语种切换为所述第一语种之前,还包括:
所述终端设备确定所述终端设备当前没有正在执行的业务。
7.如权利要求1或2所述的方法,其特征在于,所述终端设备将所述终端设备的应用环境的当前语种切换为所述第一语种,包括:
所述终端设备将语种识别引擎切换至所述第一语种对应的语种识别引擎、且将用户界面切换至所述第一语种对应的用户界面。
8.一种语种切换装置,其特征在于,包括:
收发器,用于接收包含唤醒词信息的语音;
处理器,用于将所述包含唤醒词信息的语音输入语音唤醒模型,得到N个匹配度;若所述N个匹配度中的第一匹配度大于第一阈值,则确定所述第一匹配度对应的语种为第一语种,所述第一匹配度为所述N个匹配度中的最大的匹配度;以及,若语种切换装置的应用环境的当前语种与所述第一语种不同,将所述语种切换装置的应用环境的当前语种切换为所述第一语种。
9.一种语种切换装置,其特征在于,包括:
收发器,用于接收包含唤醒词信息的语音;
处理器,用于将所述包含唤醒词信息的语音输入语音唤醒模型,得到N个匹配度;若所述N个匹配度中第一匹配度不大于第一阈值且大于第二阈值,则确定所述N个匹配度中的第二匹配度,并将所述第一匹配度对应的语种和所述第二匹配度对应语种提供给用户进行选择,并将用户选择的语种作为第一语种,所述第一匹配度与所述第二匹配度的差值小于预设的差值阈值,其中,所述第一阈值大于所述第二阈值;以及,若语种切换装置的应用环境的当前语种与所述第一语种不同,将所述语种切换装置的应用环境的当前语种切换为所述第一语种。
10.如权利要求8或9所述的装置,其特征在于,所述处理器,具体用于:
将所述包含唤醒词信息的语音分别输入N个语音唤醒模型,得到N个匹配度,一个语音唤醒模型对应一个语种,一个匹配度对应一个语种;根据所述N个匹配度,确定所述第一语种。
11.如权利要求8或9所述的装置,其特征在于,所述处理器,具体用于:
将所述包含唤醒词信息的语音输入语音唤醒模型,得到N个匹配度,一个语音唤醒模型对应N个语种,一个匹配度对应一个语种;根据所述N个匹配度,确定所述第一语种。
12.如权利要求10所述的装置,其特征在于,所述收发器,具体用于:
获取辅助信息,所述辅助信息用于指示当前指定切换的语种,所述第一语种为所述指定切换的语种中的一个;
所述处理器,具体用于:
根据所述辅助信息,将所述包含唤醒词信息的语音输入所述指定切换的语种对应的语音唤醒模型。
13.如权利要求8或9所述的装置,其特征在于,所述处理器,还用于:
确定当前没有正在执行的业务。
14.如权利要求8或9所述的装置,其特征在于,所述处理器,具体用于:
将语种识别引擎切换至所述第一语种对应的语种识别引擎、且将用户界面切换至所述第一语种对应的用户界面。
15.一种语种切换装置,其特征在于,包括:
收发单元,用于接收包含唤醒词信息的语音;
处理单元,用于将所述包含唤醒词信息的语音输入语音唤醒模型,得到N个匹配度,若所述N个匹配度中的第一匹配度大于第一阈值,则确定所述第一匹配度对应的语种为第一语种,若语种切换装置的应用环境的当前语种与所述第一语种不同,将所述语种切换装置的应用环境的当前语种切换为所述第一语种;其中,所述N为大于1的整数,所述第一匹配度为所述N个匹配度中的最大的匹配度。
16.一种计算机存储介质,其特征在于,所述存储介质中存储软件程序,所述软件程序在被一个或多个处理器读取并执行时实现权利要求1至7中任一项所述的语种切换方法。
CN201910027657.XA 2019-01-11 2019-01-11 一种语种切换方法、装置及存储介质 Active CN111508472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910027657.XA CN111508472B (zh) 2019-01-11 2019-01-11 一种语种切换方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910027657.XA CN111508472B (zh) 2019-01-11 2019-01-11 一种语种切换方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111508472A CN111508472A (zh) 2020-08-07
CN111508472B true CN111508472B (zh) 2023-03-03

Family

ID=71877269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910027657.XA Active CN111508472B (zh) 2019-01-11 2019-01-11 一种语种切换方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111508472B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112188010B (zh) * 2020-10-09 2022-03-11 厦门亿联网络技术股份有限公司 多语言音视频交互方法、装置、设备及存储介质
CN112002325B (zh) * 2020-10-27 2021-02-09 苏州思必驰信息科技有限公司 多语种语音交互方法和装置
CN112905247A (zh) * 2021-01-25 2021-06-04 斑马网络技术有限公司 自动检测并切换语言的方法及装置、终端设备、存储介质
CN114464179B (zh) * 2022-01-28 2024-03-19 达闼机器人股份有限公司 语音交互方法、系统、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825853A (zh) * 2015-01-07 2016-08-03 中兴通讯股份有限公司 语音识别设备语音切换方法及装置
CN106710586A (zh) * 2016-12-27 2017-05-24 北京智能管家科技有限公司 一种语音识别引擎自动切换方法和装置
CN107195296A (zh) * 2016-03-15 2017-09-22 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及系统
CN107704275A (zh) * 2017-09-04 2018-02-16 百度在线网络技术(北京)有限公司 智能设备唤醒方法、装置、服务器及智能设备
CN107995376A (zh) * 2017-11-07 2018-05-04 平安科技(深圳)有限公司 一种用户报案处理方法及终端设备
CN108289252A (zh) * 2017-12-29 2018-07-17 山东浪潮商用系统有限公司 一种切换系统语言的机顶盒及方法
CN109147769A (zh) * 2018-10-17 2019-01-04 北京猎户星空科技有限公司 一种语种识别方法、装置、翻译机、介质和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107134279B (zh) * 2017-06-30 2020-06-19 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105825853A (zh) * 2015-01-07 2016-08-03 中兴通讯股份有限公司 语音识别设备语音切换方法及装置
CN107195296A (zh) * 2016-03-15 2017-09-22 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及系统
CN106710586A (zh) * 2016-12-27 2017-05-24 北京智能管家科技有限公司 一种语音识别引擎自动切换方法和装置
CN107704275A (zh) * 2017-09-04 2018-02-16 百度在线网络技术(北京)有限公司 智能设备唤醒方法、装置、服务器及智能设备
CN107995376A (zh) * 2017-11-07 2018-05-04 平安科技(深圳)有限公司 一种用户报案处理方法及终端设备
CN108289252A (zh) * 2017-12-29 2018-07-17 山东浪潮商用系统有限公司 一种切换系统语言的机顶盒及方法
CN109147769A (zh) * 2018-10-17 2019-01-04 北京猎户星空科技有限公司 一种语种识别方法、装置、翻译机、介质和设备

Also Published As

Publication number Publication date
CN111508472A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
CN111508472B (zh) 一种语种切换方法、装置及存储介质
EP3648099B1 (en) Voice recognition method, device, apparatus, and storage medium
CN111309883B (zh) 基于人工智能的人机对话方法、模型训练方法及装置
CN106997342B (zh) 基于多轮交互的意图识别方法和装置
CN109215630B (zh) 实时语音识别方法、装置、设备及存储介质
US20220092276A1 (en) Multimodal translation method, apparatus, electronic device and computer-readable storage medium
CN103853703A (zh) 一种信息处理方法及电子设备
CN111428010A (zh) 人机智能问答的方法和装置
TW201606750A (zh) 使用外國字文法的語音辨識
US10380261B2 (en) Conversational language and informational response systems and methods
CN110415679A (zh) 语音纠错方法、装置、设备和存储介质
CN109859747B (zh) 语音交互方法、设备以及存储介质
CN112767916A (zh) 智能语音设备的语音交互方法、装置、设备、介质及产品
CN109829040B (zh) 一种智能对话方法及装置
CN110211576B (zh) 一种语音识别的方法、装置和系统
CN111444321B (zh) 问答方法、装置、电子设备和存储介质
CN111354354B (zh) 一种基于语义识别的训练方法、训练装置及终端设备
WO2023272616A1 (zh) 一种文本理解方法、系统、终端设备和存储介质
CN105786204A (zh) 信息处理方法和电子设备
EP3843090B1 (en) Method and apparatus for outputting analysis abnormality information in spoken language understanding
CN110390015B (zh) 一种数据信息处理方法、装置及系统
CN112818096A (zh) 对话生成方法及其装置
CN111353035B (zh) 人机对话方法、装置、可读存储介质及电子设备
CN112735395A (zh) 语音识别方法及电子设备、存储装置
CN113343668B (zh) 选择题解题方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant