CN113077790A - 多语言配置方法、多语音交互方法、装置及电子设备 - Google Patents
多语言配置方法、多语音交互方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113077790A CN113077790A CN201911304407.2A CN201911304407A CN113077790A CN 113077790 A CN113077790 A CN 113077790A CN 201911304407 A CN201911304407 A CN 201911304407A CN 113077790 A CN113077790 A CN 113077790A
- Authority
- CN
- China
- Prior art keywords
- voice interaction
- information
- voice
- language type
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 716
- 238000000034 method Methods 0.000 title claims abstract description 190
- 230000002452 interceptive effect Effects 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 24
- 230000008569 process Effects 0.000 description 22
- 241001672694 Citrus reticulata Species 0.000 description 17
- 238000004590 computer program Methods 0.000 description 14
- 238000013461 design Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000002650 habitual effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明实施例提供一种多语言配置方法、多语音交互方法、装置及电子设备,配置方法包括:响应于配置请求,提供多个设备唤醒词,多个设备唤醒词各自对应的语言类型不同;配置语音应用信息,语音应用信息对应多种语言类型;根据所应用的设备唤醒词的语言类型,在多种语言类型中确定一目标语言类型,以基于目标语言类型进行语音交互操作。本实施例提供的技术方案,通过配置设备唤醒词的语言类型确定进行语音交互操作的语言类型,有效地实现了通过设备唤醒词即可对语音交互的语言类型进行配置,无需用户对语音交互参数进行配置,即可使得用户使用任意语言类型与语音交互设备进行交互,有效地提高了该方法使用的灵活可靠性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种多语言配置方法、多语音交互方法、装置及电子设备。
背景技术
现有技术中,当前智能音箱在应用场景上都只能进行一种语言的对话。例如:国外的智能音箱通常只使用英语,国内的智能音箱通常只支持普通话。在用户与只能识别普通话的智能音箱进行对话时,如果使用其他语言,例如:英语、俄语、法语或者方言时,智能音箱很难正确识别用户对话的内容,也无法使用英语、俄语、法语或者方言进行回复,从而导致不会说普通话或者普通话不标准的用户无法使用或者正常使用智能音箱。
发明内容
有鉴于此,本发明实施例提供一种多语言配置方法、多语音交互方法、装置及电子设备,以解决现有技术存在的对于只能识别普通话的智能语音交互设备而言,不会说普通话或者普通话不标准的用户无法使用或者正常使用智能音箱的问题。
第一方面,本发明实施例提供一种多语言配置方法,包括:
响应于配置请求,提供多个设备唤醒词,所述多个设备唤醒词各自对应的语言类型不同;
配置语音应用信息,所述语音应用信息对应多种语言类型;
根据所应用的设备唤醒词的语言类型,在所述多种语言类型中确定一目标语言类型,以基于所述标语言类型进行语音交互操作。
第二方面,本发明实施例提供一种多语言配置装置,包括:
第一提供模块,用于响应于配置请求,提供多个设备唤醒词,所述多个设备唤醒词各自对应的语言类型不同;
第一配置模块,用于配置语音应用信息,所述语音应用信息对应多种语言类型;
第一处理模块,用于根据所应用的设备唤醒词的语言类型,在所述多种语言类型中确定一目标语言类型,以基于所述标语言类型进行语音交互操作。
第三方面,本发明实施例提供了一种电子设备,包括:存储器和处理器;所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第一方面所述的多语言配置方法。
第四方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第一方面所述的多语言配置方法。
第五方面,本发明实施例提供了一种多语音交互方法,应用于语音交互设备,所述方法包括:
获取用户输入的设备唤醒词;
将所述设备唤醒词发送至服务器,以使所述服务器根据所述设备唤醒词确定进行语音交互的语言类型,并基于所述语言类型实现语音交互操作。
第六方面,本发明实施例提供了一种多语音交互装置,包括:
第二获取模块,用于获取用户输入的设备唤醒词;
第二发送模块,用于将所述设备唤醒词发送至服务器,以使所述服务器根据所述设备唤醒词确定进行语音交互的语言类型,并基于所述语言类型实现语音交互操作。
第七方面,本发明实施例提供了一种电子设备,包括:存储器和处理器;所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第五方面所述的多语音交互方法。
第八方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第五方面所述的多语音交互方法。
第九方面,本发明实施例提供一种多语音交互方法,应用于语音服务器,所述语音服务器与所述语音交互设备通信连接,所述方法还包括:
获取针对语音交互设备输入的设备唤醒词;
根据所述设备唤醒词确定进行语音交互的语言类型;
基于所述语言类型与所述语音交互设备进行语音交互。
第十方面,本发明实施例提供一种多语音交互装置,包括:
第三获取模块,用于获取针对语音交互设备发送的设备唤醒词;
第三确定模块,用于根据所述设备唤醒词确定进行语音交互的语言类型;
第三交互模块,用于基于所述语言类型与所述语音交互设备进行语音交互。
第十一方面,本发明实施例提供了一种电子设备,包括:存储器和处理器;所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第九方面所述的多语音交互方法。
第十二方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第九方面所述的多语音交互方法。
第十三方面,本发明实施例提供了一种显示界面的切换方法,包括:
获取针对语音交互设备输入的设备唤醒词和语音交互信息;
根据所述设备唤醒词和语音交互信息中的至少一个,确定与所述语音交互信息相对应的语言类型;
根据所述语言类型对语音交互界面上所显示的信息进行切换。
第十四方面,本发明实施例提供了一种显示界面的切换装置,包括:
第四获取模块,用于获取针对语音交互设备输入的设备唤醒词和语音交互信息;
第四确定模块,用于根据所述设备唤醒词和语音交互信息中的至少一个,确定与所述语音交互信息相对应的语言类型;
第四切换模块,用于根据所述语言类型对语音交互界面上所显示的信息进行切换。
第十五方面,本发明实施例提供了一种电子设备,包括:存储器和处理器;所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第十三方面所述的显示界面的切换方法。
第十二方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第十三方面所述的显示界面的切换方法。
本发明实施例提供的多语言配置方法、多语音交互方法、装置及电子设备,通过获取针对语音交互设备输入的设备唤醒词,根据所述设备唤醒词确定进行语音交互的语言类型,从而可以基于所述语言类型与所述语音交互设备进行语音交互,有效地实现了通过设备唤醒词即可对语音交互的语言类型进行配置,无需用户对语音交互参数进行配置,即可使得用户使用任意语言类型与语音交互设备进行交互,有效地提高了该方法使用的灵活可靠性,提高了该方法的实用性和适用范围,保证了用户进行语音交互的良好体验性,有利于市场的推广与应用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术提供的一种多语音交互方法的交互示意图;
图2为本发明应用实施例提供的一种多语言配置方法的流程示意图;
图3为本发明应用实施例提供的一种多语音交互方法的流程示意图;
图4为本发明应用实施例提供的一种多语音交互方法的交互示意图;
图5为本发明实施例提供的一种多语音交互方法的流程示意图;
图6为本发明实施例提供的根据所述设备唤醒词确定进行语音交互的语言类型的流程示意图;
图7为本发明实施例提供的基于所述语言类型与所述语音交互设备进行语音交互的流程示意图;
图8为本发明实施例提供的另一种多语音交互方法的流程示意图;
图9为本发明实施例提供的根据所述设备唤醒词和语音交互信息中的至少一个,确定与所述语音交互信息相对应的语言类型的流程示意图一;
图10为本发明实施例提供的根据所述设备唤醒词和语音交互信息中的至少一个,确定与所述语音交互信息相对应的语言类型的流程示意图二;
图11为本发明实施例提供的基于所述语言类型和所述语音交互信息与所述语音交互设备进行语音交互的流程示意图;
图12为本发明实施例提供的根据所述语言类型将所述语音交互信息转换为文本信息的流程示意图;
图13为本发明实施例提供的将所述文本信息转换为与所述语音交互信息相对应的目标语音交互信息的流程示意图;
图14为本发明应用实施例提供的一种多语音交互方法的交互示意图;
图15为本发明应用实施例提供的一种显示界面的切换方法的流程示意图;
图16为本发明实施例提供的一种多语言配置装置的结构示意图;
图17为与图16所示实施例提供的多语言配置装置对应的电子设备的结构示意图;
图18为本发明实施例提供的一种多语音交互装置的结构示意图;
图19为与图18所示实施例提供的多语音交互装置对应的电子设备的结构示意图;
图20为本发明实施例提供的一种多语音交互装置的结构示意图;
图21为与图20所示实施例提供的多语音交互装置对应的电子设备的结构示意图;
图22为本发明实施例提供的一种显示界面的切换装置的结构示意图;
图23为与图22所示实施例提供的显示界面的切换装置对应的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
术语解释:
自动语音识别,Automatic Speech Recognition,简称ASR,是一种将人的语音转换为文本的技术。
从文本到语音,Text To Speech,简称TTS,是人机对话的一部分,可以让机器能够说话。
唤醒词:类似人的名字,对别人说他的名字,他听到就会回应你。智能语音交互设备(例如:智能音箱)的唤醒词,就是让用户唤醒设备开始听用户说话的特定词语。
为了便于理解本申请的技术方案,下面对现有技术进行简要说明:
现有技术中,通常的多语言切换是让用户修改设备的配置参数,通过配置参数的修改,可以使得设备从识别普通话切换到识别英文、方言或者其他语言等等,具体的,参考附图1所示,以智能音箱作为语音交互设备为例,对现有技术中的多语言切换方法进行说明,具体的,该方法主要有以下步骤:
1、用户在APP上修改智能音箱的配置参数,以设置智能音箱的当前语言;
2、APP将用户的操作传输到语音服务器(云端服务器);在语音服务器接收到用户修改的配置参数之后,可以根据配置参数变更语音处理的路径,完成语音的切换操作;
3、用户使用普通话唤醒智能音箱,并用设置的语言(外语或者中文方言)与智能音箱进行对话;
4、智能音箱上传用户的音频;
5、语音服务器在接收到用户的音频后,根据上述已经配置好的当前语音配置来调用对应的ASR服务;
6、语音服务器基于ASR服务对用户的音频进行处理,处理完成后返回文本,并针对文本使用当前语言调用对应的TTS服务进行处理,获得输出音频;
7、语音服务器将TTS服务的输出音频转发到智能音箱,完成了与智能音箱的语音交互过程。
然而,上述的多语言切换方法存在以下缺陷:
(1)当用户想要使用其他语言对话时就需要用APP改变配置参数,过程比较繁琐,影响用户体验;
(2)同一时间智能音箱还是只能使用一种语言;
(3)语言发生切换后,音箱的唤醒词未发生变化,还是只能使用普通话来唤醒,然后,用户再用其他语言进行对话,影响用户体验。
下面结合如下的方法实施例以及附图对本发明实施例提供的多语音交互方法的实现过程进行介绍。另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
图2为本发明应用实施例提供的一种多语言配置方法的流程示意图;参考附图2所示,本实施例提供了一种多语言配置方法,该方法的执行主体可以为多语言配置装置,该多语言配置装置可以实现为软件、或者软件和硬件的组合,在一些实例中,多语言配置装置可以为语音服务器或者语音交互设备,即该多语言配置方法可以应用于服务器或者语音交互设备,可以理解的是,语音交互设备可以是指具有语音交互能力的任意设备。具体的,该方法可以包括:
S1:响应于配置请求,提供多个设备唤醒词,所述多个设备唤醒词各自对应的语言类型不同。
S2:配置语音应用信息,所述语音应用信息对应多种语言类型;
S3:根据所应用的设备唤醒词的语言类型,在所述多种语言类型中确定一目标语言类型,以基于所述标语言类型进行语音交互操作。
其中,在用户针对服务器或者语音交互设备存在多语言配置的需求时,则可以基于配置请求为服务器或者语音交互设备提供多个设备唤醒词,而多个设备唤醒词各自对应的语言类型不同,举例来说,多个设备唤醒词包括:东北话的唤醒词、北京话的唤醒词、英语的唤醒词、韩语的唤醒词、普通话的唤醒词等等,需要注意的是,在首次设置设备唤醒词时,该设备唤醒词所对应的语言类型可以为普通话类型,从而便于实现多个用户可以进行语音交互操作。
此外,为了能够实现语言交互操作,还可以为服务器或者语音交互设备配置语音应用信息,所述语音应用信息对应多种语言类型,该语音应用信息可以是指能够实现语音交互的应用程序,在配置语音应用信息,所述语音应用信息对应多种语言类型时,语音应用信息的语言类型可以由设备唤醒词所对应的语言类型所确定,由于设备唤醒词所对应的语言类型可以包括多个,因此,语言应用信息所对应的语言类型也可以为多个,例如:在设备唤醒词所对应的语言类型为普通话类型时,那么,语音应用信息所对应的语言类型也为普通话类型,一般情况下,语音应用信息的语言类型与所述设备唤醒词所对应的语言类型相同;在配置语音应用信息,所述语音应用信息对应多种语言类型之后,服务器或者语音交互设备可以通过语音应用信息进行语音交互操作。
在配置语音应用信息之后,可以根据所应用的设备唤醒词的语言类型,在所配置的多种该语言类型中确定一目标语言类型,以实现基于目标语言类型进行语言交互操作。
本实施例提供的多语言配置方法,通过提供多个设备唤醒词,所述多个设备唤醒词各自对应的语言类型不同,并配置语音应用信息,所述语音应用信息对应多种语言类型,可以有效地实现多个用户可以通过所述语音应用信息实现多语音的交互操作,并且,多个用户可以使用任意语言类型与语音交互设备进行交互,有效地提高了进行语音交互操作的灵活可靠性,提高了该方法的实用性和适用范围。
在上述实施例的基础上,继续参考附图2所示,本实施例中的方法还可以包括:
S3:配置语音识别信息,以用于接收至少一个语音交互信息,并基于所述语音识别信息确定与至少一个语音交互信息相对应的语言类型。
其中,语音识别信息是指能够识别语音交互信息相对应的语言类型的应用程序,为了能够提高语音服务器或者语音交互设备与用户进行语音交互的体验,则可以在语音服务器或者语音交互设备中配置语音识别信息,被配置后的语音服务器或者语音交互设备可以通过语音识别信息来确定至少一个语音交互信息所对应的语言类型,可以理解的是,该至少一个语音识别信息可以对应有一种或多种语言类型。
在利用所述语音识别信息确定与至少一个语音交互信息相对应的语言类型之后,可以基于该语音交互信息的语言类型和设备唤醒词所对应的语言类型来确定语音应用信息的语言类型。具体的,在语音交互信息的语言类型与设备唤醒词所对应的语言类型相同时,则可以确定语音应用信息的语言类型与设备唤醒词所对应的语言类型相同;在语音交互信息的语言类型与设备唤醒词所对应的语音类型不同时,则可以确定语音应用信息的语言类型与语音交互信息的语言类型相同。
在上述实施例的基础上,继续参考附图2所示,本实施例中的方法还可以包括:
S4:配置语音识别信息,以用于接收至少一个语音交互信息,并基于所述语音识别信息确定与至少一个语音交互信息相对应的语言类型和用户年龄信息。
其中,语音识别信息是指能够识别至少一个语音交互信息相对应的语言类型和用户年龄信息的应用程序,为了能够提高语音服务器或者语音交互设备与用户进行语音交互的体验,则可以在语音服务器或者语音交互设备中配置语音识别信息,被配置后的语音服务器或者语音交互设备可以通过语音识别信息来确定至少一个语音交互信息所对应的语言类型和用户年龄信息,可以理解的是,该至少一个语音识别信息可以对应有一种或多种语言类型,至少一个语音识别信息可以对应有至少一个用户年龄信息。
具体的,在语音识别信息识别语音交互信息所对应的用户年龄信息时,可以提取语音交互信息的音色、音量、音调等特征信息,通过对上述所提取的特征信息进行分析识别,可以确定与该语音交互信息相对应的用户年龄信息,例如:用户年龄信息是否小于或等于12岁,用户年龄信息是否大于或等于60岁等等。
在利用所述语音识别信息确定与至少一个语音交互信息相对应的语言类型和用户年龄信息之后,可以基于该语音交互信息的语言类型和设备唤醒词所对应的语言类型、以及用户年龄信息来确定语音应用信息的语言类型。具体的,在语音交互信息的语言类型与设备唤醒词所对应的语言类型相同时,则可以确定语音交互信息的语言类型与设备唤醒词所对应的语言类型相同,并且可以基于用户年龄信息确定语音交互信息的音色信息可以为预设的儿童声音、成人声音或者老人声音等等;在语音交互信息的语言类型与设备唤醒词所对应的语音类型不同时,则可以确定语音应用信息的语言类型与语音交互信息的语言类型相同,并且可以基于用户年龄信息确定语音交互信息的音色信息可以为预设的儿童声音、成人声音或者老人声音等等。
在上述实施例的基础上,继续参考附图2所示,本实施例中的方法还可以包括:
S5:在用户年龄信息小于或等于第一阈值时,则配置与所述用户年龄信息相对应的第一预设信息。
S6:在用户年龄信息大于或等于第二阈值时,则配置与所述用户年龄信息相对应的第二预设信息,其中,所述第二阈值大于所述第一阈值。
具体的,在获取到用户年龄信息之后,可以对用户年龄信息进行分析识别,在用户年龄信息小于或等于第一阈值时,则配置与所述用户年龄信息相对应的第一预设信息,其中,第一阈值可以是预先配置的用于识别儿童用户的最高年龄信息,本实施例对于其具体的数值范围不做限定,本领域技术人员可以根据具体的应用需求和设计需求进行设置,例如:第一阈值可以为12岁、8岁、10岁等等。在用户年龄信息小于或等于第一阈值时,则说明与该用户年龄信息相对应的用户为儿童用户,此时,则可以配置与儿童用户相对应的第一预设信息,该第一预设信息可以为预设的儿童教育信息、儿童歌舞信息、儿童交互信息等等。
相类似的,第二阈值可以是预先配置的用于识别老年用户的最低年龄信息,本实施例对于其具体的数值范围不做限定,本领域技术人员可以根据具体的应用需求和设计需求进行设置,例如:第一阈值可以为55岁、58岁、60岁等等。在用户年龄信息大于或等于第二阈值时,则说明与该用户年龄信息相对应的用户为老年用户,此时,则可以配置与老年用户相对应的第二预设信息,该第二预设信息可以为预设的老年健康信息、老年饮食信息、老年歌舞信息、老年交互信息等等。
在上述实施例的基础上,继续参考附图2所示,本实施例中的方法还可以包括:
S7:在用户年龄信息小于或等于第一阈值时,则配置所述第一预设信息的显示方式为第一显示方式;或者,
S8:在用户年龄信息大于或等于第二阈值时,则配置所述第二预设信息的显示方式为第二显示方式。
具体的,在获取到用户年龄信息之后,可以对用户年龄信息进行分析识别,在用户年龄信息小于或等于第一阈值时,则配置与所述用户年龄信息相对应的第一预设信息的显示方式为第一显示方式,其中,第一显示方式可以包括以下至少之一:字体大小、字体颜色、显示风格等信息,本实施例对于第一显示方式具体的内容不做限定,本领域技术人员可以根据具体的应用需求和设计需求进行设置,例如:在用户年龄信息小于或等于第一阈值时,则说明与该用户年龄信息相对应的用户为儿童用户,此时,则可以配置与儿童用户相对应的第一预设信息的显示方式为第一显示方式,该第一显示方式可以是指字体大小适中、字体颜色为高亮颜色、显示风格为活泼风格等等。
相类似的,第二显示方式可以包括以下至少之一:字体大小、字体颜色、显示风格等信息,本实施例对于第二显示方式具体的内容不做限定,本领域技术人员可以根据具体的应用需求和设计需求进行设置,例如:在用户年龄信息大于或等于第二阈值时,则说明与该用户年龄信息相对应的用户为老年用户,此时,则可以配置与老年用户相对应的第二预设信息的显示方式为第二显示方式,该第二显示方式可以是指字体大小较大、字体颜色为暗黑颜色、显示风格为沉稳风格等等。
本实施例中,在用户年龄信息小于或等于第一阈值时,则配置所述第一预设信息的显示方式为第一显示方式,在用户年龄信息大于或等于第二阈值时,则配置所述第二预设信息的显示方式为第二显示方式,有效地实现了对于不同用户年龄信息的用户而言,可以以不同的显示方式显示不同的预设信息,从而满足了不同用户的应用需求。
在上述实施例的基础上,继续参考附图2所示,本实施例中的方法还可以包括:
S9:配置语音交互界面,所述语音交互界面用于显示进行语音交互操作的信息。
在一些实例中,本实施例中的方法还可以包括:根据所述用户年龄信息调整所述语音交互界面显示的信息。
在一些实例中,根据所述用户年龄信息调整所述语音交互界面显示的信息可以包括:在所述用户年龄信息小于或等于第一阈值时,则以所述第一显示方式在所述语音交互界面上显示第一预设信息;或者,在所述用户年龄信息大于或等于第二阈值时,则以所述第二显示方式在所述语音交互界面上显示第二预设信息。
其中,为了方便用户及时了解到语音交互操作的相关信息,可以语音交互界面,该语音交互界面用于显示进行语音交互操作的信息。具体的,在利用语音交互界面对进行语音交互操作的信息进行显示时,可以根据所述用户年龄信息调整所述语音交互界面显示的信息。举例来说,以第一阈值为12、第二阈值为55为例,现有多个用户,包括用户甲、用户乙和用户丙,用户甲的用户年龄信息为8岁、用户乙的用户年龄信息为20岁,用户丙的用户年龄信息为60岁时,在用户甲、用户乙和用户丙同时应用被配置的服务器或者语音交互设备时,则可以依次基于不同用户所接收到的语音交互信息来识别该用户所对应的用户年龄信息,而后基于该用户年龄信息对进行语音交互操作的信息进行显示。
例如,在用户乙先与语音交互设备进行语音交互时,则可以对用户乙的语音交互信息进行分析识别,确定用户乙的用户年龄信息,在用户年龄信息大于第一阈值、且小于第二阈值,则可以通过语音交互界面显示语音交互操作的信息。之后,用户甲与语音交互设备进行语音交互时,由于用户甲的用户年龄信息小于第一阈值,则可以通过语音交互界面显示预先配置的儿童教育信息。之后,用户丙与语音交互设备进行语音交互时,由于用户丙的用户年龄信息大于第二阈值,则可以通过语音交互界面显示预先配置的老年健康信息。
图3为本发明应用实施例提供的一种多语音交互方法的流程示意图;参考附图3所示,本实施例提供了一种多语音交互方法,该方法的执行主体可以为语音交互设备,即该方法可以应用于语音交互设备,该语音交互设备可以实现为软件、或者软件和硬件的组合。具体的,该方法可以包括:
S11:获取用户输入的设备唤醒词。
S12:将所述设备唤醒词发送至服务器,以使所述服务器根据所述设备唤醒词确定进行语音交互的语言类型,并基于所述语言类型实现语音交互操作。
其中,不同的语音交互设备可以具有不同的设备唤醒词,在语音交互设备配置为可以实现语音交互操作之后,用户可以针对该语音交互设备输入设备唤醒词,在获取到设备唤醒词之后,可以将设备唤醒词发送至服务器,以使得服务器可以对设备唤醒词进行分析识别,以确定用户与语音交互设备进行语音交互的语言类型,并可以基于该语言类型实现语音交互操作。
举例来说,语音交互设备的设备唤醒词为“小猫精灵”,此时,在用户以东北话的方式来输入上述的设备唤醒词时,在将设备唤醒词发送至服务器,服务器接收到上述设备唤醒词之后,可以对设备唤醒词进行分析识别,从而可以确定进行语音交互的语言类型为东北话,继而则可以基于东北话与用户进行语音交互操作。相类似的,在用户以英语的方式来输入上述的设备唤醒词时,在将设备唤醒词发送至服务器,服务器接收到上述设备唤醒词之后,可以对设备唤醒词进行分析识别,从而可以确定进行语音交互的语言类型为英语,继而则可以基于英语与用户进行语音交互操作,从而实现了无需用户对语音交互参数进行配置,即可使得用户使用任意语言类型与语音交互设备进行交互,有效地提高了该方法使用的灵活可靠性,提高了该方法的实用性和适用范围,保证了用户进行语音交互的良好体验性,有利于市场的推广与应用。
在上述实施例的基础上,继续参考附图3所示,本实施例中的方法还可以包括:
S21:获取所述用户输入的语音交互信息。
S22:将所述语音交互信息发送至服务器,以使所述服务器根据所述设备唤醒词和语音交互信息中的至少一个,确定与所述语音交互信息相对应的语言类型,并基于所述语言类型实现语音交互操作。
在用户输入设备唤醒词的过程中或者之后,用户可以输入语音交互信息,在获取到用户输入的语音交互信息之后,可以将语音交互信息发送至服务器,在服务器获取到语音交互信息之后,可以对语音交互信息进行分析识别,而后确定设备唤醒词和语音交互信息中的至少一个来确定与语音交互信息相对应的语言类型,而后可以基于该语言类型实现语音交互操作。
举例来说,语音交互设备的设备唤醒词为“小猫精灵”,此时,在用户以东北话的方式来输入上述的设备唤醒词的过程中或者之后,用户还可以输入语音交互信息,例如:语音交互信息可以为“调大音量”、“今天天气怎么样?”等等。而后可以将设备唤醒词和语音交互信息同时发送至服务器,在服务器获取到设备唤醒词和语音交互信息之后,可以对设备唤醒词和语音交互信息中的至少一个来确定语音交互信息相对应的语言类型,而后则可以基于所确定的语言类型与用户进行语音交互操作,从而实现了无需用户对语音交互参数进行配置,即可使得用户使用任意语言类型与语音交互设备进行交互,有效地提高了该方法使用的灵活可靠性,提高了该方法的实用性和适用范围,保证了用户进行语音交互的良好体验性,有利于市场的推广与应用。
在上述实施例的基础上,继续参考附图3所示,在所述服务器生成与所述语音交互信息相对应的语音反馈信息,并将所述语音反馈信息发送至所述语音交互设备时,本实施例中的方法还可以包括:
S31:接收所述语音反馈信息。
S32:利用确定与所述语音交互信息相对应的语言类型,对所述语音反馈信息进行播报。
在服务器获取到语音交互信息之后,可以对语音交互信息进行分析识别,并可以生成与该语音交互信息相对应的执行信息,例如:在语音交互信息为“调大音量”时,则可以基于该语音交互信息相对应的执行信息为将声音调大。在一些实例中,服务器在对语音交互信息进行分析识别时,还可以生成与该语音交互信息相对应的语音反馈信息,例如:在语音交互信息为“今天天气怎么样?”时,则可以基于该语音交互信息生成相对应的语音反馈信息,例如:“白天小雨转多云”,在生成语音反馈信息之后,可以将语音反馈信息发送至语音交互设备,从而使得语音交互设备可以接收到语音反馈信息,并利用确定与所述语音交互信息相对应的语言类型,对所述语音反馈信息进行播报,有效地实现了与不同的用户进行友好的语音交互操作,进一步提高了该方法使用的灵活可靠性。
图4为本发明实施例提供的一种多语音交互方法的交互示意图;图5为本发明实施例提供的一种多语音交互方法的流程示意图;参考附图4-5所示,本实施例提供了一种多语音交互方法,该方法的执行主体可以为多语音交互装置,该多语音交互装置可以实现为软件、或者软件和硬件的组合,可选的,多语音交互装置可以为语音服务器,即该方法应用于语音服务器,该语音服务器可以与能够实现语音交互操作的语音交互设备进行通信连接。具体的,该方法可以包括:
S101:获取针对语音交互设备输入的设备唤醒词。
其中,语音交互设备可以是任意类型的具有语音交互功能的设备,例如:语音交互设备可以为音箱、手机、平板电脑、导航设备等等。在用户想要与语音交互设备进行语音交互时,用户可以直接针对语音交互设备输入设备唤醒词,需要注意的是,本实施例中的设备唤醒词的语言类型没有任何限定,用户可以利用普通话、英语、方言或者其他习惯或者擅长的语言类型来输入设备唤醒词。在语音交互设备接收到用户输入的设备唤醒词之后,语音交互设备可以将设备唤醒词发送至语音服务器,从而使得语音服务器可以准确地获取到针对语音交互设备输入的设备唤醒词。
S102:根据设备唤醒词确定进行语音交互的语言类型。
在获取到设备唤醒词之后,可以对设备唤醒词进行分析处理,从而可以确定进行语音交互的语言类型。其中,本实施例对于确定进行语音交互的语言类型的具体实现方式不做限定,本领域技术人员可以根据具体的应用需求和设计需求进行设置,例如:预先存储有多个语言类型的标准设备唤醒词,通过将设备唤醒词与多个标准设备唤醒词进行分析匹配,确定与设备唤醒词相匹配的标准设备唤醒词,需要注意的是,上述的相匹配可以包括设备唤醒词在语音、语调、语速方面中的至少一方面与标准设备唤醒词相匹配,即设备唤醒词的语音与标准设备唤醒词的语音之间的相似度大于或等于预设阈值,和/或,设备唤醒词的语调与标准设备唤醒词的语调之间的相似度大于或等于预设阈值,和/或,设备唤醒词的语速与标准设备唤醒词的语速之间的相似度大于或等于预设阈值。而后可以将标准设备唤醒词所对应的语言类型确定为与该设备唤醒词相对应的语言类型,该语言类型可以作为用于实现语音交互的配置语言。
以智能音箱作为语音交互设备为例进行说明,在用户针对智能音箱输入的设备唤醒词为英文时,则可以根据设备唤醒词确定进行语音交互的语言类型为英文,也即,之后用户可以以英文的形式与智能音箱进行交互;或者,在用户针对智能音箱输入的设备唤醒词为方言(例如:东北话、湖南话、四川话等等)时,则可以根据设备唤醒词确定进行语音交互的语言类型为方言,也即,之后用户可以以方言的形式与智能音箱进行交互。
进一步的,在用户针对智能音箱输入的设备唤醒词为方言之后,可以确定用于语音交互的语言类型为方言,此时,若用户针对智能音箱输入交互信息时,智能音箱也可以对交互信息所对应的语言类型进行分析识别,或者,智能音箱可以将交互信息发送至语音服务器,语音服务器可以对接收到的交互信息所对应的语言类型进行分析识别,在确定交互信息所对应的语言类型为英语或者其他不同于上述方言的其他类型时,则可以将用户进行语音交互的语言类型由方言调整为英语或者其他类型语言,以便利用英语或者其他类型来实现语言交互过程,保证了用户进行语音交互的良好体验性。
S103:基于语言类型与语音交互设备进行语音交互。
在获取到语言类型之后,可以基于语言类型与语音设备进行语音交互,从而实现了无需用户对语言参数进行配置,通过设备唤醒词即可实现对语音交互的语言类型进行配置,有效地提高了该方法使用的灵活可靠性,保证了用户与语音交互进行语音交互操作的稳定可靠性。
本实施例提供的多语音交互方法,通过获取针对语音交互设备输入的设备唤醒词,根据所述设备唤醒词确定进行语音交互的语言类型,从而可以基于所述语言类型与所述语音交互设备进行语音交互,有效地实现了通过设备唤醒词即可对语音交互的语言类型进行配置,无需用户对语音交互参数进行配置,即可使得用户使用任意语言类型与语音交互设备进行交互,有效地提高了该方法使用的灵活可靠性,提高了该方法的实用性和适用范围,保证了用户进行语音交互的良好体验性,有利于市场的推广与应用。
图6为本发明实施例提供的根据设备唤醒词确定进行语音交互的语言类型的流程示意图;在上述实施例的基础上,继续参考附图6可知,本实施例中的根据设备唤醒词确定进行语音交互的语言类型可以包括:
S1021:在预设的多语言类型的标准唤醒词中,确定与设备唤醒词相匹配的至少一个目标唤醒词。
S1022:根据至少一个目标唤醒词所对应的标准语言类型确定进行语音交互的语言类型。
其中,预先设置有多种语言类型的标准唤醒词,该多种语言类型可以是指包括两种及两种以上的语言类型,具体的,多种语言类型的标准唤醒词可以是根据具体的应用需求、设计需求进行设置的,本实施例对于多种语言类型的标准唤醒词不做限定,例如:多种语言类型的标准唤醒词可以包括:英语类型的标准唤醒词、俄语类型的标准唤醒词、法语类型的标准唤醒词、四川话类型的标准唤醒词、东北话类型的标准唤醒词等等。在获取到用户输入的设备唤醒词之后,可以将多种语言类型的标准唤醒词与设备唤醒词进行分析匹配,主要是在语音方面、语调方面、语速方面中的至少一方面进行分析识别,若设备唤醒词的语音、语调、语速与某一标准唤醒词的语音、语调、语速方面的相似度均大于或等于预设阈值,则可以将该标准唤醒词确定为与设备唤醒词相对应的目标唤醒词,可以想到的是,目标唤醒词的个数可以为一个或多个。
在获取到至少一个目标唤醒词之后,可以根据至少一个目标唤醒词所对应的标准语言类型确定进行语音交互的语言类型。具体的,在目标唤醒词的个数为一个时,则可以直接将目标唤醒词所对应的标准语言类型确定为进行语音交互的语言类型;在目标唤醒词的个数为多个时,则可以对多个目标唤醒词与设备唤醒词之间再次进行分析匹配,获取到与每个目标唤醒词相对应的置信度信息,将置信度最高的目标唤醒词所对应的标准语言类型确定为进行语音交互的语言类型。当然的,本领域技术人员也可以采用其他的方式来确定进行语音交互的语言类型,只要能够保证对语言类型进行确定的准确可靠性即可,在此不再赘述。
本实施例中,通过在预设的多种语言类型的标准唤醒词中,确定与设备唤醒词相匹配的至少一个目标唤醒词,而后根据至少一个目标唤醒词所对应的标准语言类型确定进行语音交互的语言类型,有效地保证了对语言类型进行确定的准确可靠性,进一步提高了该方法使用的准确可靠性。
图7为本发明实施例提供的基于语言类型与语音交互设备进行语音交互的流程示意图;在上述实施例的基础上,继续参考附图7可知,本实施例中的基于语言类型与语音交互设备进行语音交互可以包括:
S1031:获取针对语音交互设备输入的语音交互信息。
S1032:基于语言类型和语音交互信息与语音交互设备进行语音交互。
其中,用户与语音交互设备进行语音交互时,用户可以针对语音交互设备输入语音交互信息,在用户针对语音交互设备输入语音交互信息之后,语音交互设备可以将所接收到的语音交互信息转发至语音服务器,从而使得语音服务器可以获取到针对语音交互设备输入的语音交互信息,之后,语音服务器可以基于语言类型和语音交互信息与语音交互设备进行语音交互操作,从而保证了与语音交互设备进行语音交互的稳定可靠性。
具体应用时,一种可实现的方式为,语音交互信息所对应的交互语言类型与之前确定的语言类型相同,也即,通过设备唤醒词所确定的语言类型与该语音交互信息所对应的交互语言类型相同,此时,则可以直接基于语言类型和语音交互信息与语音交互设备进行语音交互,在语音交互的过程中,若需要语音交互设备发送针对语音交互信息的反馈信息时,语音交互设备也可以基于该语言类型向用户发送反馈信息。又一种可实现的方式为:语音交互信息所对应的交互语言类型与之前确定的语言类型不同,也即,通过设备唤醒词所确定的语言类型与该语音交互信息所对应的交互语言类型不同,此时,则可以将进行语音交互的语言类型调整至交互语言类型,从而实现了基于交互语言类型和语音交互信息与语音交互设备进行语音交互操作,在语音交互的过程中,若需要语音交互设备发送针对语音交互信息的反馈信息时,语音交互设备也可以基于该交互语言类型向用户发送反馈信息。
本实施例中,通过获取针对语音交互设备输入的语音交互信息,并基于语言类型和语音交互信息与语音交互设备进行语音交互,有效地实现了基于语言类型与语音交互设备进行语音交互操作,保证了语音交互操作的稳定可靠性。
图8为本发明实施例提供的另一种多语音交互方法的流程示意图;在上述实施例的基础上,继续参考附图8所示,为了提高该方法使用的方便可靠性,本实施例中的方法还可以包括:
S201:获取针对语音交互设备输入的语音交互信息。
在获取针对语音交互设备输入的设备唤醒词的过程中,或者,在获取针对语音交互设备输入的设备唤醒词之后,用户可以与语音交互设备进行语音交互操作,也即用户可以向语音交互设备输入语音交互信息,在语音交互设备接收到语音交互信息之后,可以将语音交互信息转发至语音服务器,从而使得语音服务器可以获取到针对语音交互设备输入的语音交互信息。
S202:根据设备唤醒词和语音交互信息中的至少一个,确定与语音交互信息相对应的语言类型。
在获取到设备唤醒词和语音交互信息之后,可以根据设备唤醒词和语音交互信息中的至少一个来确定语音交互信息相对应的语言类型。具体的,一种可实现的方式为:根据设备唤醒词来确定与语音交互信息相对应的语言类型,此时,设备唤醒词所对应的语言类型与语音交互信息所对应的语言类型相同;另一种可实现的方式为:根据语音交互信息来确定与语音交互信息相对应的语言类型,此时,设备唤醒词所对应的语言类型可以与语音交互信息所对应的语言类型相同或者不同;又一种可实现的方式为:根据设备唤醒词和语音交互信息来确定与语音交互信息相对应的语言类型,此时,设备唤醒词所对应的语言类型可以与语音交互信息所对应的语言类型相同或者不同。
其中,在根据设备唤醒词来确定与语音交互信息相对应的语言类型时,参考附图9所示,本实施例中的根据设备唤醒词和语音交互信息中的至少一个,确定与语音交互信息相对应的语言类型可以包括:
S2021:在预设的多语言类型的标准唤醒词中,确定与设备唤醒词相匹配的至少一个目标唤醒词。
S2022:根据至少一个目标唤醒词所对应的标准语言类型确定与语音交互信息相对应的语言类型。
此时,本实施例中各个步骤的实现过程、实现效果与上述实施例中图6所对应的方法步骤的实现过程、实现效果相类似,具体可参考上述陈述内容,在此不再赘述。
另外,在根据语音交互信息来确定与语音交互信息相对应的语言类型时,参考附图10所示,本实施例中的根据设备唤醒词和语音交互信息中的至少一个,确定与语音交互信息相对应的语言类型可以包括:
S2023:调取位于语音交互设备上的语音识别模块;
S2024:利用语音识别模块对语音交互信息进行识别,确定与语音交互信息相对应的语言类型。
其中,在利用语音交互信息来确定与语音交互信息相对应的语言类别时,可以利用位于语音交互设备本地的语音识别模块来对语音交互信息进行分析处理,具体的,可以先调取位于语音交互设备上的语音识别模块,在获取到语音识别模块之后,可以利用语音识别模块对语音交互信息进行识别,具体可以获取与语音交互信息相对应的语音、语速、语调信息,通过对语音、语速和语调信息的分析识别即可以确定与语音交互信息相对应的语言类型,这样有效地保证了对与语音交互信息相对应的语言类型进行确定的准确可靠性。
需要注意的是,在设备唤醒词所对应的语言类型与语音交互信息所对应的语言类型相同时,可以根据设备唤醒词和/或语音交互信息来确定与语音交互信息相对应的语言类型;在设备唤醒词所对应的语言类型与语音交互信息所对应的语言类型不同时,假设,设备唤醒词所对应的语言类型为第一语言类型,语音交互信息所对应的语言类型为第二语言类型,此时,若已经根据设备唤醒词确定了进行语音交互的第一语言类型,而通过对语音交互信息的分析识别,确定与语音交互信息相对应的第二语言类型之后,则可以将进行语音交互的语言类型由第一语言类型调整为第二语言类型,从而实现了利用第二语言类型对语音交互信息进行语音交互操作。
S203:基于语言类型和语音交互信息与语音交互设备进行语音交互。
在获取到语言类型和语音交互信息之后,则可以基于所确定的语言类型和语音交互信息与语音交互设备进行语音交互操作,从而保证了语音交互的稳定可靠性。进一步的,在需要语音交互设备发送反馈信息的,语音交互设备可以基于语言类型发送与语音交互信息相对应的反馈信息,使得用户可以及时获取到反馈信息,进而提高了该方法的实用性。
图11为本发明实施例提供的基于语言类型和语音交互信息与语音交互设备进行语音交互的流程示意图;在上述实施例的基础上,继续参考附图11所示,本实施例对于基于语言类型和语音交互信息与语音交互设备进行语音交互的具体实现方式不做限定,本领域技术人员可以根据具体的应用需求和设计需求进行设置,较为优选的,本实施例中的基于语言类型和语音交互信息与语音交互设备进行语音交互可以包括:
S10321:根据语言类型将语音交互信息转换为文本信息。
其中,在获取到语言类型之后,可以根据语言类型将语音交互信息转换为文本信息,具体的,参考附图12所示,本实施例中的根据语言类型将语音交互信息转换为文本信息可以包括:
S103211:根据语言类型确定语音识别方式。
S103212:利用语音识别方式将语音交互信息转换为文本信息。
需要说明的是,不同的语言类型对应有不同的语音识别方式ASR,在获取到语言类型之后,可以根据语言类型与ASR之间的对应关系来确定用于对语音交互信息进行处理的ASR,在获取到ASR之后,可以利用ASR将语音交互信息转换为文本信息,从而有效地保证了对语音交互信息进行处理的准确可靠性。
S10322:将文本信息转换为与语音交互信息相对应的目标语音交互信息。
在获取到文本信息之后,可以将文本信息转换为与语言类型相对应的目标语音交互信息,该目标语音交互信息用于供语音交互设备进行识别。具体的,本实施例对于将文本信息转换为与语音交互信息相对应的目标语音交互信息的具体实现方式不做限定,本领域技术人员可以根据具体的应用需求和设计需求进行设置,较为优选的,参考附图13所示,本实施例中的将文本信息转换为与语音交互信息相对应的目标语音交互信息可以包括:
S103221:根据语言类型确定文本到语音方式。
S103222:利用文本到语音方式将文本信息转换为与语音交互信息相对应的目标语音交互信息。
其中,不同的语言类型对应有不同的文本到语音方式TTS,在获取到语言类型之后,可以根据语言类型与TTS之间的对应关系来确定用于对语音交互信息进行处理的TTS。在获取到TTS之后,可以利用TTS将文本信息转换为与语音交互信息相对应的目标语音交互信息,该目标语音交互信息用于供语音交互设备进行识别,从而有效地保证了对语音交互信息进行处理的准确可靠性。
S10323:将目标语音交互信息发送至语音交互设备。
在获取到目标语音交互信息之后,可以将目标语音交互信息发送至语音交互设备,从而使得语音交互设备可以识别出目标语音交互信息,并可以根据目标语音交互信息执行相应的操作,并根据用户的需求返回相应的反馈信息。
在上述任意一个实施例的基础上,在获取针对所述语音交互设备输入的语音交互信息之后,本实施例中的方法还可以包括:
S301:确定与所述语音交互信息相对应的用户年龄信息。
S302:根据所述用户年龄信息确定在语音交互界面上所显示的信息。
具体的,根据所述用户年龄信息确定在语音交互界面上所显示的信息可以包括:
S3021:在所述用户年龄信息小于或等于第一阈值时,则在所述语音交互界面上显示第一预设信息;或者,
S3022:在所述用户年龄信息大于或等于第二阈值时,则在所述语音交互界面上显示第二预设信息。
在一些实例中,在所述语音交互界面上显示第一预设信息可以包括:获取与所述第一预设信息相对应的第一显示方式;以所述第一显示方式在所述语音交互界面上显示第一预设信息。
在一些实例中,在所述语音交互界面上显示第二预设信息可以包括:获取与所述第二预设信息相对应的第二显示方式;以所述第二显示方式在所述语音交互界面上显示第二预设信息。
本实施例中步骤的具体实现过程、实现效果与上述步骤S4-步骤S9的具体实现过程、实现效果相类似,具体可参考上述陈述内容,在此不再赘述。
具体应用时,参考附图14所示,本应用实施例提供了一种多语音交互方法,该多语音交互方法的执行主体为语音服务器,以智能音箱作为语音交互设备为例进行说明,此时,在语音服务器执行该多语音交互方法时,可以实现在同一个智能音箱上使用普通话、英语、四川话、粤语等多种语言进行对话。该多语言对话方法可以实现如下操作:
(1)多语言的切换操作,即:在用户说不同语言时,智能音箱可以识别对应的语言类型,即识别出当前用户说的什么语言,并判断是否进行切换操作。
(2)多语言的语音识别,即:能将不同的语言转换为指定语言的文本。
(3)多语言的语音合成,即:能将不同语言的文本转化为对应语言的音频。
具体的,该方法包括如下步骤:
step1:用户使用当前想用的语言(外语或者方言)唤醒智能音箱,并且说出对话(语音交互信息),即用户向智能音箱发送设备唤醒词和当前语言对话(语音交互信息),其中,设备唤醒词用于唤醒智能音箱,当前语言对话用于实现与智能音箱的语音交互操作。
step2:智能音箱将用户当前的设备唤醒词和当前语言对话的音频上传至语音服务器。
step3:在语音服务器接收到设备唤醒词和当前语言对话的音频后,根据设备唤醒词和/或当前语言对话的音频匹配到用户的当前语言类型(外语或者方言),并设置此次语音交互的语言类型为当前语言类型。
step4:语音服务器根据当前语言对话的请求调用相对应的ASR服务,并利用ASR服务对当前语言对话进行处理,获得文本信息。
step5:语音服务器对当前语言对话进行处理完成后,返回文本信息,而后根据当前语言对话的请求调用相对应的TTS服务,将文本信息转换为目标音频信息。
step6:语音服务器将目标音频信息转发到智能音箱,从而使得智能音箱可以识别出用户输入的对话内容信息。
本应用实施例提供的多语音交互方法,无需用户设置智能音箱使用的当前语言,直接根据设备唤醒词和/或语音对话即可判断语音对话的当前语言,即无需用户手动设备,优化了用户体验,提高了使用的方便程度;并且,该方法能够支撑多语言场景的交互,比如:用户同时使用英语和中文,在一次对话可以用使一种语言,下次对话又可以使用其他语言,实现了可以自由灵活的在多语言之间进行交互切换,有效地增加了在家庭使用中的灵活便利程度;另外,在输入设备唤醒词时,用户可以使用任何想使用的语言进行说明,并不限定于普通话类型;从而有效地提高了该方法的适用范围和实用性,有利于市场的推广与应用。
图15为本发明应用实施例提供的一种显示界面的切换方法的流程示意图;参考附图15所示,本实施例提供了一种显示界面的切换方法,该方法的执行主体可以为显示界面的切换装置,该显示界面的切换装置可以实现为软件、或者软件和硬件的组合。具体的,该方法可以包括:
S401:获取针对语音交互设备输入的设备唤醒词和语音交互信息。
S402:根据所述设备唤醒词和语音交互信息中的至少一个,确定与所述语音交互信息相对应的语言类型。
本实施例中步骤的具体实现过程、实现效果与上述步骤S201-步骤S202的具体实现过程、实现效果相类似,具体可参考上述陈述内容,在此不再赘述。
S403:根据所述语言类型对语音交互界面上所显示的信息进行切换。
其中,对于语音交互界面上所显示的信息而言,在进行语音交互操作的语言类型不同时,语音交互界面上可以显示不同的信息。举例来说,在语言类型为儿童语言类型时,则可以将语音交互界面上所显示的信息调整至与儿童语言类型相对应的信息,例如:信息的显示字体适中、信息的显示字体颜色较为鲜亮等等;在语言类型为老人语言类型时,则可以将语音交互界面上所显示的信息调整至老人语言类型相对应的信息,例如:信息的显示字体较大、信息的显示字体颜色较为鲜亮等等。
本实施例中,通过获取针对语音交互设备输入的设备唤醒词和语音交互信息,根据所述设备唤醒词和语音交互信息中的至少一个,确定与所述语音交互信息相对应的语言类型,并根据所述语言类型对语音交互界面上所显示的信息进行切换,有效地实现了根据用户输入的设备唤醒词和语音交互信息对语音交互界面上所显示的信息进行切换,进一步提高了语音交互界面上显示的信息可以满足不同用户的需求,进一步提高了信息显示的质量和效果。
在上述实施例的基础上,继续参考附图15所示,本实施例中的根据所述语言类型对语音交互界面上所显示的信息进行切换可以包括:
S4031:获取与所述语音交互界面上所显示的信息相对应的预设语言类型。
S4032:在所述预设语言类型与所述语言类型不同时,则将所述语音交互界面上述所显示的信息切换为符合所述语言类型的目标信息。
其中,在利用语音交互界面显示信息时,可以配置有与显示信息相对应的预设语言类型;因此,在获取与所述语音交互信息相对应的语言类型之后,可以获取与语音交互界面上所显示的信息相对应的预设语言类型,而后将预设语言类型与上述的语言类型进行分析比较,在预设语言类型与语言类型不同时,则可以将语音交互界面上所显示的信息切换为符合语言类型的目标信息。
举例来说:对语音交互界面上所显示的信息相对应的预设语言类型为普通话类型,在语音交互界面上所显示的信息为“你在干什么呢?”,那么,在与所述语音交互信息相对应的语言类型为东北话类型时,由于东北话类型与普通话类型不同,因此,则可以将语音交互界面上所显示的信息“你在干什么呢?”切换为符合东北话类型的“你在干啥呢?”,从而实现了可以根据不同用户的语言类型来调整语音交互界面上所显示的信息,提高了语音交互界面切换的灵活可靠性。
在上述实施例的基础上,继续参考附图15所示,在获取语音交互信息之后,本实施例中的方法还可以包括:
S501:确定与所述语音交互信息相对应的用户年龄信息。
S502:根据所述用户年龄信息对所述语音交互界面上所显示的信息进行切换。
具体的,根据所述用户年龄信息确定在语音交互界面上所显示的信息可以包括:
S5021:在所述用户年龄信息小于或等于第一阈值时,则在所述语音交互界面上显示第一预设信息;或者,
S5022:在所述用户年龄信息大于或等于第二阈值时,则在所述语音交互界面上显示第二预设信息。
在一些实例中,在所述语音交互界面上显示第一预设信息可以包括:
S50211:获取与所述第一预设信息相对应的第一显示方式。
S50212:以所述第一显示方式在所述语音交互界面上显示第一预设信息。
在一些实例中,在所述语音交互界面上显示第二预设信息可以包括:
S50221:获取与所述第二预设信息相对应的第二显示方式。
S50222:以所述第二显示方式在所述语音交互界面上显示第二预设信息。
本实施例中步骤的具体实现过程、实现效果与上述步骤S301-步骤S302、步骤S3021-步骤S3022的具体实现过程、实现效果相类似,具体可参考上述陈述内容,在此不再赘述。
图16为本发明实施例提供的一种多语言配置装置的结构示意图;参考附图16所示,本实施例提供了一种多语言配置装置,该多语言配置装置可以执行上述的多语言配置方法,具体的,该多语言配置装置可以包括:第一提供模块11、第一配置模块12和第一处理模块13。其中,
第一提供模块11,用于响应于配置请求,提供多个设备唤醒词,所述多个设备唤醒词各自对应的语言类型不同;
第一配置模块12,用于配置语音应用信息,所述语音应用信息对应多种语言类型;
第一处理模块13,用于根据所应用的设备唤醒词的语言类型,在所述多种语言类型中确定一目标语言类型,以基于所述标语言类型进行语音交互操作。
在一些实例中,所述多语言配置装置可以为服务器或者语音交互设备。
在一些实例中,本实施例中的第一配置模块12还用于:配置语音识别信息,以用于接收至少一个语音交互信息,并基于所述语音识别信息确定与至少一个语音交互信息相对应的语言类型。
在一些实例中,本实施例中的第一配置模块12还用于:配置语音识别信息,以用于接收至少一个语音交互信息,并基于所述语音识别信息确定与至少一个语音交互信息相对应的语言类型和用户年龄信息。
在一些实例中,本实施例中的第一配置模块12还用于:在用户年龄信息小于或等于第一阈值时,则配置与所述用户年龄信息相对应的第一预设信息;或者,在用户年龄信息大于或等于第二阈值时,则配置与所述用户年龄信息相对应的第二预设信息,其中,所述第二阈值大于所述第一阈值。
在一些实例中,本实施例中的第一配置模块12还用于:在用户年龄信息小于或等于第一阈值时,则配置所述第一预设信息的显示方式为第一显示方式;或者,在用户年龄信息大于或等于第二阈值时,则配置所述第二预设信息的显示方式为第二显示方式。
在一些实例中,本实施例中的第一配置模块12还用于:配置语音交互界面,所述语音交互界面用于显示进行语音交互操作的信息。
在一些实例中,本实施例中的第一配置模块12还用于:根据所述用户年龄信息调整所述语音交互界面显示的信息。
在一些实例中,在第一配置模块12根据所述用户年龄信息调整所述语音交互界面显示的信息时,该第一配置模块12用于:在所述用户年龄信息小于或等于第一阈值时,则以所述第一显示方式在所述语音交互界面上显示第一预设信息;或者,在所述用户年龄信息大于或等于第二阈值时,则以所述第二显示方式在所述语音交互界面上显示第二预设信息。
图16所示装置可以执行图2所示实施例的方法,本实施例未详细描述的部分,可参考对图2所示实施例的相关说明。该技术方案的执行过程和技术效果参见图2所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图16所示数据的多语言配置装置的结构可实现为一电子设备,该电子设备可以是手机、平板电脑、服务器等各种设备。如图17所示,该电子设备可以包括:第一处理器21和第一存储器22。其中,第一存储器22用于存储支持电子设备执行上述图2所示实施例中多语言配置方法的程序,第一处理器21被配置为用于执行第一存储器22中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第一处理器21执行时能够实现如下步骤:
响应于配置请求,提供多个设备唤醒词,所述多个设备唤醒词各自对应的语言类型不同;
配置语音应用信息,所述语音应用信息对应多种语言类型;
根据所应用的设备唤醒词的语言类型,在所述多种语言类型中确定一目标语言类型,以基于所述目标语言类型进行语音交互操作。
其中,电子设备的结构中还可以包括第一通信接口23,用于电子设备与其他设备或通信网络通信。
进一步的,第一处理器21还用于执行前述图2所示实施例中的全部或部分步骤。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图2所示方法实施例中多语言配置方法所涉及的程序。
图18为本发明实施例提供的一种多语音交互装置的结构示意图;参考附图18所示,本实施例提供了一种多语音交互装置,该多语音交互装置可以执行上述的多语音交互方法,具体的,该多语音交互装置可以包括:第二获取模块31和第二发送模块32。其中,
第二获取模块31,用于获取用户输入的设备唤醒词;
第二发送模块32,用于将所述设备唤醒词发送至服务器,以使所述服务器根据所述设备唤醒词确定进行语音交互的语言类型,并基于所述语言类型实现语音交互操作。
在一些实例中,本实施例中的第二获取模块31和第二发送模块32还可以用于执行以下步骤:
第二获取模块31,用于获取所述用户输入的语音交互信息;
第二发送模块32,用于将所述语音交互信息发送至服务器,以使所述服务器根据所述设备唤醒词和语音交互信息中的至少一个,确定与所述语音交互信息相对应的语言类型,并基于所述语言类型实现语音交互操作。
在一些实例中,在所述服务器生成与所述语音交互信息相对应的语音反馈信息,并将所述语音反馈信息发送至所述语音交互设备时,本实施例中的第二获取模块31还可以用于执行:接收所述语音反馈信息;利用确定与所述语音交互信息相对应的语言类型,对所述语音反馈信息进行播报。
图18所示装置可以执行图3所示实施例的方法,本实施例未详细描述的部分,可参考对图3所示实施例的相关说明。该技术方案的执行过程和技术效果参见图3所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图18所示数据的多语音交互装置的结构可实现为一电子设备,该电子设备可以是手机、平板电脑、服务器等各种设备。如图19所示,该电子设备可以包括:第二处理器41和第二存储器42。其中,第二存储器42用于存储支持电子设备执行上述图3所示实施例中多语音交互方法的程序,第二处理器41被配置为用于执行第二存储器42中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第二处理器41执行时能够实现如下步骤:
获取用户输入的设备唤醒词;
将所述设备唤醒词发送至服务器,以使所述服务器根据所述设备唤醒词确定进行语音交互的语言类型,并基于所述语言类型实现语音交互操作。
其中,电子设备的结构中还可以包括第二通信接口43,用于电子设备与其他设备或通信网络通信。
进一步的,第二处理器41还用于执行前述图3所示实施例中的全部或部分步骤。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图3所示方法实施例中多语音交互方法所涉及的程序。
图20为本发明实施例提供的一种多语音交互装置的结构示意图;参考附图20所示,本实施例提供了一种多语音交互装置,该多语音交互装置可以执行上述的多语音交互方法,具体的,该多语音交互装置可以包括:第三获取模块51、第三确定模块52和第三交互模块53。其中,
第三获取模块51,用于获取针对语音交互设备发送的设备唤醒词;
第三确定模块52,用于根据设备唤醒词确定进行语音交互的语言类型;
第三交互模块53,用于基于语言类型与语音交互设备进行语音交互。
进一步的,在第三确定模块52根据设备唤醒词确定进行语音交互的语言类型时,该第三确定模块52可以用于执行:在预设的多语言类型的标准唤醒词中,确定与设备唤醒词相匹配的至少一个目标唤醒词;根据至少一个目标唤醒词所对应的标准语言类型确定进行语音交互的语言类型。
进一步的,在第三交互模块53基于语言类型与语音交互设备进行语音交互时,该第三交互模块53可以用于执行:获取针对语音交互设备输入的语音交互信息;基于语言类型和语音交互信息与语音交互设备进行语音交互。
进一步的,本实施例中的第三获取模块51、第三确定模块52和第三交互模块53还可以用于执行以下步骤:
第三获取模块51,用于获取针对语音交互设备输入的语音交互信息;
第三确定模块52,用于根据设备唤醒词和语音交互信息中的至少一个,确定与语音交互信息相对应的语言类型;
第三交互模块53,用于基于语言类型和语音交互信息与语音交互设备进行语音交互。
进一步的,在第三确定模块52根据设备唤醒词和语音交互信息中的至少一个,确定与语音交互信息相对应的语言类型时,该第三确定模块52可以用于执行:在预设的多语言类型的标准唤醒词中,确定与设备唤醒词相匹配的至少一个目标唤醒词;根据至少一个目标唤醒词所对应的标准语言类型确定与语音交互信息相对应的语言类型。
进一步的,与设备唤醒词相对应的语言类型与语音交互信息相对应的语言类型相同。
进一步的,在第三确定模块52根据设备唤醒词和语音交互信息中的至少一个,确定与语音交互信息相对应的语言类型时,该第三确定模块52可以用于执行:调取位于语音交互设备上的语音识别模块;利用语音识别模块对语音交互信息进行识别,确定与语音交互信息相对应的语言类型。
进一步的,与设备唤醒词相对应的语言类型与语音交互信息相对应的语言类型相同或不同。
进一步的,在第三交互模块53基于语言类型和语音交互信息与语音交互设备进行语音交互时,该第三交互模块53可以用于执行:根据语言类型将语音交互信息转换为文本信息;将文本信息转换为与语音交互信息相对应的目标语音交互信息;将目标语音交互信息发送至语音交互设备。
进一步的,在第三交互模块53根据语言类型将语音交互信息转换为文本信息时,该第三交互模块53可以用于执行:根据语言类型确定语音识别方式;利用语音识别方式将语音交互信息转换为文本信息。
进一步的,在第三交互模块53将文本信息转换为与语音交互信息相对应的目标语音交互信息时,该第三交互模块53可以用于执行:根据语言类型确定文本到语音方式;利用文本到语音方式将文本信息转换为与语音交互信息相对应的目标语音交互信息。
进一步的,在获取针对所述语音交互设备输入的语音交互信息之后,本实施例中的第三确定模块52和第三交互模块53还可以用于执行以下步骤:
第三确定模块52,用于确定与所述语音交互信息相对应的用户年龄信息;
第三交互模块53,用于根据所述用户年龄信息确定在语音交互界面上所显示的信息。
进一步的,在第三交互模块53根据所述用户年龄信息确定在语音交互界面上所显示的信息时,第三交互模块53可以用于执行:在所述用户年龄信息小于或等于第一阈值时,则在所述语音交互界面上显示第一预设信息;或者,在所述用户年龄信息大于或等于第二阈值时,则在所述语音交互界面上显示第二预设信息。
进一步的,在第三交互模块53在所述语音交互界面上显示第一预设信息时,第三交互模块53用于执行:获取与所述第一预设信息相对应的第一显示方式;以所述第一显示方式在所述语音交互界面上显示第一预设信息。
进一步的,在第三交互模块53在所述语音交互界面上显示第二预设信息时,第三交互模块53用于执行:获取与所述第二预设信息相对应的第二显示方式;以所述第二显示方式在所述语音交互界面上显示第二预设信息。
图20所示装置可以执行图4-图14所示实施例的方法,本实施例未详细描述的部分,可参考对图4-图14所示实施例的相关说明。该技术方案的执行过程和技术效果参见图4-图14所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图20所示数据的多语音交互装置的结构可实现为一电子设备,该电子设备可以是手机、平板电脑、服务器等各种设备,在电子设备为语音服务器时,所述语音服务器可以与所述语音交互设备通信连接。如图21所示,该电子设备可以包括:第三处理器61和第三存储器62。其中,第三存储器62用于存储支持电子设备执行上述图4-图14所示实施例中多语音交互方法的程序,第三处理器61被配置为用于执行第三存储器62中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第三处理器61执行时能够实现如下步骤:
获取针对语音交互设备输入的设备唤醒词;
根据设备唤醒词确定进行语音交互的语言类型;
基于语言类型与语音交互设备进行语音交互。
其中,电子设备的结构中还可以包括第三通信接口63,用于电子设备与其他设备或通信网络通信。
进一步的,第三处理器61还用于执行前述图4-图14所示实施例中的全部或部分步骤。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图4-图14所示方法实施例中多语音交互方法所涉及的程序。
图22为本发明实施例提供的一种显示界面的切换装置的结构示意图;参考附图22所示,本实施例提供了一种显示界面的切换装置,该显示界面的切换装置可以执行上述的显示界面的切换方法,具体的,该显示界面的切换装置可以包括:第四获取模块71、第四确定模块72和第四切换模块73。其中,
第四获取模块71,用于获取针对语音交互设备输入的设备唤醒词和语音交互信息;
第四确定模块72,用于根据所述设备唤醒词和语音交互信息中的至少一个,确定与所述语音交互信息相对应的语言类型;
第四切换模块73,用于根据所述语言类型对语音交互界面上所显示的信息进行切换。
进一步的,在第四切换模块73根据所述语言类型对语音交互界面上所显示的信息进行切换时,该第四切换模块73可以用于执行:获取与所述语音交互界面上所显示的信息相对应的预设语言类型;在所述预设语言类型与所述语言类型不同时,则将所述语音交互界面上述所显示的信息切换为符合所述语言类型的目标信息。
进一步的,在获取语音交互信息之后,本实施例中的第四确定模块72和第四切换模块73还可以用于执行以下步骤:
第四确定模块72,用于确定与所述语音交互信息相对应的用户年龄信息;
第四切换模块73,用于根据所述用户年龄信息对所述语音交互界面上所显示的信息进行切换。
进一步的,在第四切换模块73根据所述用户年龄信息确定在语音交互界面上所显示的信息时,该第四切换模块73可以用于执行:在所述用户年龄信息小于或等于第一阈值时,则在所述语音交互界面上显示第一预设信息;或者,在所述用户年龄信息大于或等于第二阈值时,则在所述语音交互界面上显示第二预设信息。
进一步的,在第四切换模块73在所述语音交互界面上显示第一预设信息时,该第四切换模块73可以用于执行:获取与所述第一预设信息相对应的第一显示方式;以所述第一显示方式在所述语音交互界面上显示第一预设信息。
进一步的,在第四切换模块73在所述语音交互界面上显示第二预设信息时,该第四切换模块73用于执行:获取与所述第二预设信息相对应的第二显示方式;以所述第二显示方式在所述语音交互界面上显示第二预设信息。
图22所示装置可以执行图15所示实施例的方法,本实施例未详细描述的部分,可参考对图15所示实施例的相关说明。该技术方案的执行过程和技术效果参见图15所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图22所示数据的显示界面的切换装置的结构可实现为一电子设备,该电子设备可以是手机、平板电脑、服务器等各种设备。如图23所示,该电子设备可以包括:第四处理器81和第四存储器82。其中,第四存储器82用于存储支持电子设备执行上述图15所示实施例中显示界面的切换方法的程序,第四处理器81被配置为用于执行第四存储器82中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第四处理器81执行时能够实现如下步骤:
获取针对语音交互设备输入的设备唤醒词和语音交互信息;
根据所述设备唤醒词和语音交互信息中的至少一个,确定与所述语音交互信息相对应的语言类型;
根据所述语言类型对语音交互界面上所显示的信息进行切换。
其中,电子设备的结构中还可以包括第四通信接口83,用于电子设备与其他设备或通信网络通信。
进一步的,第四处理器81还用于执行前述图15所示实施例中的全部或部分步骤。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图15所示方法实施例中显示界面的切换方法所涉及的程序。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程网络连接设备的处理器以产生一个机器,使得通过计算机或其他可编程网络连接设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程网络连接设备以特定方式楼层的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程网络连接设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (41)
1.一种多语言配置方法,其特征在于,包括:
响应于配置请求,提供多个设备唤醒词,所述多个设备唤醒词各自对应的语言类型不同;
配置语音应用信息,所述语音应用信息对应多种语言类型;
根据所应用的设备唤醒词的语言类型,在所述多种语言类型中确定一目标语言类型,以基于所述目标语言类型进行语音交互操作。
2.根据权利要求1所述的方法,其特征在于,所述多语言配置方法应用于服务器或者语音交互设备。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
配置语音识别信息,以用于接收至少一个语音交互信息,并基于所述语音识别信息确定与至少一个语音交互信息相对应的语言类型。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
配置语音识别信息,以用于接收至少一个语音交互信息,并基于所述语音识别信息确定与至少一个语音交互信息相对应的语言类型和用户年龄信息。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在用户年龄信息小于或等于第一阈值时,则配置与所述用户年龄信息相对应的第一预设信息;或者,
在用户年龄信息大于或等于第二阈值时,则配置与所述用户年龄信息相对应的第二预设信息,其中,所述第二阈值大于所述第一阈值。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在用户年龄信息小于或等于第一阈值时,则配置所述第一预设信息的显示方式为第一显示方式;或者,
在用户年龄信息大于或等于第二阈值时,则配置所述第二预设信息的显示方式为第二显示方式。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
配置语音交互界面,所述语音交互界面用于显示进行语音交互操作的信息。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
根据所述用户年龄信息调整所述语音交互界面显示的信息。
9.根据权利要求8所述的方法,其特征在于,根据所述用户年龄信息调整所述语音交互界面显示的信息,包括:
在所述用户年龄信息小于或等于第一阈值时,则以所述第一显示方式在所述语音交互界面上显示第一预设信息;或者,
在所述用户年龄信息大于或等于第二阈值时,则以所述第二显示方式在所述语音交互界面上显示第二预设信息。
10.一种多语音交互方法,其特征在于,应用于语音交互设备,所述方法包括:
获取用户输入的设备唤醒词;
将所述设备唤醒词发送至服务器,以使所述服务器根据所述设备唤醒词确定进行语音交互的语言类型,并基于所述语言类型实现语音交互操作。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
获取所述用户输入的语音交互信息;
将所述语音交互信息发送至服务器,以使所述服务器根据所述设备唤醒词和语音交互信息中的至少一个,确定与所述语音交互信息相对应的语言类型,并基于所述语言类型实现语音交互操作。
12.根据权利要求11所述的方法,其特征在于,在所述服务器生成与所述语音交互信息相对应的语音反馈信息,并将所述语音反馈信息发送至所述语音交互设备时,所述方法还包括:
接收所述语音反馈信息;
利用确定与所述语音交互信息相对应的语言类型,对所述语音反馈信息进行播报。
13.一种多语音交互方法,其特征在于,应用于语音服务器,所述语音服务器与所述语音交互设备通信连接,所述方法还包括:
获取针对语音交互设备输入的设备唤醒词;
根据所述设备唤醒词确定进行语音交互的语言类型;
基于所述语言类型与所述语音交互设备进行语音交互。
14.根据权利要求13所述的方法,其特征在于,根据所述设备唤醒词确定进行语音交互的语言类型,包括:
在预设的多语言类型的标准唤醒词中,确定与所述设备唤醒词相匹配的至少一个目标唤醒词;
根据至少一个所述目标唤醒词所对应的标准语言类型确定进行语音交互的语言类型。
15.根据权利要求13所述的方法,其特征在于,基于所述语言类型与所述语音交互设备进行语音交互,包括:
获取针对所述语音交互设备输入的语音交互信息;
基于所述语言类型和所述语音交互信息与所述语音交互设备进行语音交互。
16.根据权利要求13所述的方法,其特征在于,所述方法还包括:
获取针对语音交互设备输入的语音交互信息;
根据所述设备唤醒词和语音交互信息中的至少一个,确定与所述语音交互信息相对应的语言类型;
基于所述语言类型和所述语音交互信息与所述语音交互设备进行语音交互。
17.根据权利要求16所述的方法,其特征在于,根据所述设备唤醒词和语音交互信息中的至少一个,确定与所述语音交互信息相对应的语言类型,包括:
在预设的多语言类型的标准唤醒词中,确定与所述设备唤醒词相匹配的至少一个目标唤醒词;
根据至少一个所述目标唤醒词所对应的标准语言类型确定与所述语音交互信息相对应的语言类型。
18.根据权利要求17所述的方法,其特征在于,与所述设备唤醒词相对应的语言类型与所述语音交互信息相对应的语言类型相同。
19.根据权利要求16所述的方法,其特征在于,根据所述设备唤醒词和语音交互信息中的至少一个,确定与所述语音交互信息相对应的语言类型,包括:
调取位于所述语音交互设备上的语音识别模块;
利用所述语音识别模块对所述语音交互信息进行识别,确定与所述语音交互信息相对应的语言类型。
20.根据权利要求19所述的方法,其特征在于,与所述设备唤醒词相对应的语言类型与所述语音交互信息相对应的语言类型相同或不同。
21.根据权利要求15或16所述的方法,其特征在于,基于所述语言类型和所述语音交互信息与所述语音交互设备进行语音交互,包括:
根据所述语言类型将所述语音交互信息转换为文本信息;
将所述文本信息转换为与所述语音交互信息相对应的目标语音交互信息;
将所述目标语音交互信息发送至语音交互设备。
22.根据权利要求21所述的方法,其特征在于,根据所述语言类型将所述语音交互信息转换为文本信息,包括:
根据所述语言类型确定语音识别方式;
利用所述语音识别方式将所述语音交互信息转换为文本信息。
23.根据权利要求21所述的方法,其特征在于,将所述文本信息转换为与所述语音交互信息相对应的目标语音交互信息,包括:
根据所述语言类型确定文本到语音方式;
利用所述文本到语音方式将所述文本信息转换为与所述语音交互信息相对应的目标语音交互信息。
24.根据权利要求15所述的方法,其特征在于,在获取针对所述语音交互设备输入的语音交互信息之后,所述方法还包括:
确定与所述语音交互信息相对应的用户年龄信息;
根据所述用户年龄信息确定在语音交互界面上所显示的信息。
25.根据权利要求24所述的方法,其特征在于,根据所述用户年龄信息确定在语音交互界面上所显示的信息,包括:
在所述用户年龄信息小于或等于第一阈值时,则在所述语音交互界面上显示第一预设信息;或者,
在所述用户年龄信息大于或等于第二阈值时,则在所述语音交互界面上显示第二预设信息。
26.根据权利要求25所述的方法,其特征在于,在所述语音交互界面上显示第一预设信息,包括:
获取与所述第一预设信息相对应的第一显示方式;
以所述第一显示方式在所述语音交互界面上显示第一预设信息。
27.根据权利要求25所述的方法,其特征在于,在所述语音交互界面上显示第二预设信息,包括:
获取与所述第二预设信息相对应的第二显示方式;
以所述第二显示方式在所述语音交互界面上显示第二预设信息。
28.一种显示界面的切换方法,其特征在于,包括:
获取针对语音交互设备输入的设备唤醒词和语音交互信息;
根据所述设备唤醒词和语音交互信息中的至少一个,确定与所述语音交互信息相对应的语言类型;
根据所述语言类型对语音交互界面上所显示的信息进行切换。
29.根据权利要求28所述的方法,其特征在于,根据所述语言类型对语音交互界面上所显示的信息进行切换,包括:
获取与所述语音交互界面上所显示的信息相对应的预设语言类型;
在所述预设语言类型与所述语言类型不同时,则将所述语音交互界面上述所显示的信息切换为符合所述语言类型的目标信息。
30.根据权利要求28所述的方法,其特征在于,在获取语音交互信息之后,所述方法还包括:
确定与所述语音交互信息相对应的用户年龄信息;
根据所述用户年龄信息对所述语音交互界面上所显示的信息进行切换。
31.根据权利要求30所述的方法,其特征在于,根据所述用户年龄信息确定在语音交互界面上所显示的信息,包括:
在所述用户年龄信息小于或等于第一阈值时,则在所述语音交互界面上显示第一预设信息;或者,
在所述用户年龄信息大于或等于第二阈值时,则在所述语音交互界面上显示第二预设信息。
32.根据权利要求30所述的方法,其特征在于,在所述语音交互界面上显示第一预设信息,包括:
获取与所述第一预设信息相对应的第一显示方式;
以所述第一显示方式在所述语音交互界面上显示第一预设信息。
33.根据权利要求30所述的方法,其特征在于,在所述语音交互界面上显示第二预设信息,包括:
获取与所述第二预设信息相对应的第二显示方式;
以所述第二显示方式在所述语音交互界面上显示第二预设信息。
34.一种多语言配置装置,其特征在于,包括:
第一提供模块,用于响应于配置请求,提供多个设备唤醒词,所述多个设备唤醒词各自对应的语言类型不同;
第一配置模块,用于配置语音应用信息,所述语音应用信息对应多种语言类型;
第一处理模块,用于根据所应用的设备唤醒词的语言类型,在所述多种语言类型中确定一目标语言类型,以基于所述标语言类型进行语音交互操作。
35.一种电子设备,其特征在于,包括:第一存储器和第一处理器;所述第一存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述第一处理器执行时实现如权利要求1至9中任一项所述的多语言配置方法。
36.一种多语音交互装置,其特征在于,包括:
第二获取模块,用于获取用户输入的设备唤醒词;
第二发送模块,用于将所述设备唤醒词发送至服务器,以使所述服务器根据所述设备唤醒词确定进行语音交互的语言类型,并基于所述语言类型实现语音交互操作。
37.一种电子设备,其特征在于,包括:第二存储器和第二处理器;所述第二存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述第二处理器执行时实现如权利要求10至12中任一项所述的多语音交互方法。
38.一种多语音交互装置,其特征在于,包括:
第三获取模块,用于获取针对语音交互设备发送的设备唤醒词;
第三确定模块,用于根据所述设备唤醒词确定进行语音交互的语言类型;
第三交互模块,用于基于所述语言类型与所述语音交互设备进行语音交互。
39.一种电子设备,其特征在于,包括:存储器和处理器;所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求13至27中任一项所述的多语音交互方法。
40.一种显示界面的切换装置,其特征在于,包括:
第四获取模块,用于获取针对语音交互设备输入的设备唤醒词和语音交互信息;
第四确定模块,用于根据所述设备唤醒词和语音交互信息中的至少一个,确定与所述语音交互信息相对应的语言类型;
第四切换模块,用于根据所述语言类型对语音交互界面上所显示的信息进行切换。
41.一种电子设备,其特征在于,包括:存储器和处理器;所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求28至33中任一项所述的显示界面的切换方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911304407.2A CN113077790B (zh) | 2019-12-17 | 2019-12-17 | 多语言配置方法、多语音交互方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911304407.2A CN113077790B (zh) | 2019-12-17 | 2019-12-17 | 多语言配置方法、多语音交互方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113077790A true CN113077790A (zh) | 2021-07-06 |
CN113077790B CN113077790B (zh) | 2023-05-26 |
Family
ID=76608277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911304407.2A Active CN113077790B (zh) | 2019-12-17 | 2019-12-17 | 多语言配置方法、多语音交互方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113077790B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230054011A1 (en) * | 2021-08-20 | 2023-02-23 | Beijing Xiaomi Mobile Software Co., Ltd. | Voice collaborative awakening method and apparatus, electronic device and storage medium |
CN118246910A (zh) * | 2024-05-28 | 2024-06-25 | 国网山东省电力公司营销服务中心(计量中心) | 一种对话式线上缴费方法、系统、介质、设备及程序产品 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106997762A (zh) * | 2017-03-08 | 2017-08-01 | 广东美的制冷设备有限公司 | 家用电器的语音控制方法以及装置 |
CN109255053A (zh) * | 2018-09-14 | 2019-01-22 | 北京奇艺世纪科技有限公司 | 资源搜索方法、装置、终端、服务器、计算机可读存储介质 |
CN109487491A (zh) * | 2017-09-13 | 2019-03-19 | 青岛海尔洗衣机有限公司 | 洗衣机显示切换控制方法及洗衣机 |
CN109885277A (zh) * | 2019-02-26 | 2019-06-14 | 百度在线网络技术(北京)有限公司 | 人机交互设备、方法、系统和装置 |
WO2019142976A1 (ko) * | 2018-01-16 | 2019-07-25 | 주식회사 머니브레인 | 사용자 발화 입력에 대한 대화 응답 후보를 표시하도록 하는 디스플레이 제어 방법, 컴퓨터 판독가능 기록 매체 및 컴퓨터 장치 |
CN110148399A (zh) * | 2019-05-06 | 2019-08-20 | 北京猎户星空科技有限公司 | 一种智能设备的控制方法、装置、设备及介质 |
CN110164427A (zh) * | 2018-02-13 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 语音交互方法、装置、设备以及存储介质 |
-
2019
- 2019-12-17 CN CN201911304407.2A patent/CN113077790B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106997762A (zh) * | 2017-03-08 | 2017-08-01 | 广东美的制冷设备有限公司 | 家用电器的语音控制方法以及装置 |
CN109487491A (zh) * | 2017-09-13 | 2019-03-19 | 青岛海尔洗衣机有限公司 | 洗衣机显示切换控制方法及洗衣机 |
WO2019142976A1 (ko) * | 2018-01-16 | 2019-07-25 | 주식회사 머니브레인 | 사용자 발화 입력에 대한 대화 응답 후보를 표시하도록 하는 디스플레이 제어 방법, 컴퓨터 판독가능 기록 매체 및 컴퓨터 장치 |
CN110164427A (zh) * | 2018-02-13 | 2019-08-23 | 阿里巴巴集团控股有限公司 | 语音交互方法、装置、设备以及存储介质 |
CN109255053A (zh) * | 2018-09-14 | 2019-01-22 | 北京奇艺世纪科技有限公司 | 资源搜索方法、装置、终端、服务器、计算机可读存储介质 |
CN109885277A (zh) * | 2019-02-26 | 2019-06-14 | 百度在线网络技术(北京)有限公司 | 人机交互设备、方法、系统和装置 |
CN110148399A (zh) * | 2019-05-06 | 2019-08-20 | 北京猎户星空科技有限公司 | 一种智能设备的控制方法、装置、设备及介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230054011A1 (en) * | 2021-08-20 | 2023-02-23 | Beijing Xiaomi Mobile Software Co., Ltd. | Voice collaborative awakening method and apparatus, electronic device and storage medium |
US12008993B2 (en) * | 2021-08-20 | 2024-06-11 | Beijing Xiaomi Mobile Software Co., Ltd. | Voice collaborative awakening method and apparatus, electronic device and storage medium |
CN118246910A (zh) * | 2024-05-28 | 2024-06-25 | 国网山东省电力公司营销服务中心(计量中心) | 一种对话式线上缴费方法、系统、介质、设备及程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN113077790B (zh) | 2023-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112262430B (zh) | 自动确定经由自动助理界面接收到的口头话语的语音识别的语言 | |
CN107632980B (zh) | 语音翻译方法和装置、用于语音翻译的装置 | |
US9542956B1 (en) | Systems and methods for responding to human spoken audio | |
US20150371628A1 (en) | User-adapted speech recognition | |
US11113481B2 (en) | Adapting automated assistants for use with multiple languages | |
US10811005B2 (en) | Adapting voice input processing based on voice input characteristics | |
US20200151258A1 (en) | Method, computer device and storage medium for impementing speech interaction | |
KR20210103002A (ko) | 감정 정보 기반의 음성 합성 방법 및 장치 | |
CN111627432B (zh) | 主动式外呼智能语音机器人多语种交互方法及装置 | |
CN113168336B (zh) | 基于实验参数适配功能电话的客户端应用 | |
CN110910903B (zh) | 语音情绪识别方法、装置、设备及计算机可读存储介质 | |
WO2020024620A1 (zh) | 语音信息的处理方法以及装置、设备和存储介质 | |
TW201923736A (zh) | 語音識別方法、裝置及系統 | |
CN107844470B (zh) | 一种语音数据处理方法及其设备 | |
CN109710949B (zh) | 一种翻译方法及翻译机 | |
US20190147851A1 (en) | Information processing apparatus, information processing system, information processing method, and storage medium which stores information processing program therein | |
CN109543021B (zh) | 一种面向智能机器人的故事数据处理方法及系统 | |
CN108877800A (zh) | 语音交互方法、装置、电子设备及可读存储介质 | |
US20180288109A1 (en) | Conference support system, conference support method, program for conference support apparatus, and program for terminal | |
CN113077790B (zh) | 多语言配置方法、多语音交互方法、装置及电子设备 | |
US20240055003A1 (en) | Automated assistant interaction prediction using fusion of visual and audio input | |
KR20190115405A (ko) | 검색 방법 및 이 방법을 적용하는 전자 장치 | |
CN113611316A (zh) | 人机交互方法、装置、设备以及存储介质 | |
CN116013257A (zh) | 语音识别、语音识别模型训练方法、装置、介质及设备 | |
CN107886940B (zh) | 语音翻译处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |