CN113920996A

CN113920996A - 语音交互的处理方法、装置、电子设备与存储介质

Info

Publication number: CN113920996A
Application number: CN202111196567.7A
Authority: CN
Inventors: 王施冶
Original assignee: Shanghai Xianta Intelligent Technology Co Ltd
Current assignee: Shanghai Xianta Intelligent Technology Co Ltd
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2022-01-11

Abstract

本发明提供了一种语音交互的处理方法、装置、电子设备与存储介质，语音交互的处理方法，包括：确定语音交互的当前唤醒词；基于所述当前唤醒词，确定当前语音交互数据；其中，所述当前语音交互数据是N组语音交互数据中的一组；基于所述当前语音交互数据，执行语音交互。

Description

语音交互的处理方法、装置、电子设备与存储介质

技术领域

本发明涉及语音交互领域，尤其涉及一种语音交互的处理方法、装置、电子设备与存储介质。

背景技术

在语音交互领域中，用户可发出语音唤醒指令，交互设备在获取其中的唤醒词之后，可触发语音交互过程，并在该过程中基于语音交互数据进行人机交互。

现有相关技术中，用户可主动选择所欲交互的语音交互数据(例如可选择某明星、家人、卡通人物的语音交互数据)，在选择之后，在未主动变化的情况下，语音交互数据通常是不变的，然而，实际将执行语音交互的人是变化的，其对交互所听到的声音的需求、偏好可能是不同的，现有技术不便于适配不同需求、偏好。

发明内容

本发明提供一种语音交互的处理方法、装置、电子设备与存储介质，以解决不便于适配不同需求、偏好的问题。

根据本发明的第一方面，提供了一种语音交互的处理方法，包括：

确定语音交互的当前唤醒词；

基于所述当前唤醒词，确定当前语音交互数据；其中，所述当前语音交互数据是N组语音交互数据中的一组；

基于所述当前语音交互数据，执行语音交互。

可选的，N组语音交互数据为N个不同发音人的语音交互数据。

可选的，所述确定语音交互的当前唤醒词，包括：

获取语音唤醒指令；

识别所述语音唤醒指令中的当前唤醒词。

可选的，所述基于所述当前唤醒词，确定当前语音交互数据，包括：

基于所述当前唤醒词，以及预设的对应关系，确定所述当前语音交互数据；所述预设的对应关系至少记录了：不同唤醒词与不同组语音交互数据的对应关系。

可选的，所述预设的对应关系是通过以下过程确定的：

获取适配于指定发音人的指定唤醒词；

确定所述指定唤醒词与指定语音交互数据相对应，以确定至少部分所述预设的对应关系。

可选的，所述N组语音交互数据中至少之一指定语音交互数据是通过以下过程确定的：

获取指定发音人的多组指定语音素材；

基于所述指定语音素材，形成所述指定发音人对应的指定语音交互数据。

基于所述当前唤醒词与当前交互场景，确定所述当前语音交互数据，所述当前交互场景表征了当前的时间，和/或：发生语音交互的车辆当前所处的位置。

根据本发明的第二方面，提供了一种语音交互的处理装置，包括：

唤醒词确定模块，用于确定车辆内语音交互的当前唤醒词；

交互数据确定模块，用于基于所述当前唤醒词，确定当前语音交互数据；其中，所述当前语音交互数据是N组语音交互数据中的一组；

语音交互模块，用于基于所述当前语音交互数据，执行语音交互。

根据本发明的第三方面，提供了一种存储介质，其上存储有程序，所述程序被处理器执行时实现第一方面及其可选方案涉及的方法的步骤。

根据本发明的第四方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器上并在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现第一方面及其可选方案涉及的方法的步骤。

本发明提供的语音交互的处理方法、装置、电子设备与存储介质中，可基于语音交互时的当前唤醒词，确定当前语音交互数据，并基于所述当前语音交互数据，执行语音交互，进而，用户根据自己想要听到的交互声音，可采用对应的当前唤醒词，在此基础上，所确定并使用的当前语音交互数据可满足用户当前的需求、偏好，可见，本发明可便于适配满足用户的需求、偏好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语音交互的处理方法的流程示意图；

图2是本发明一实施例中步骤S11的流程示意图；

图3是本发明一实施例中确定指定语音交互数据过程的流程示意图；

图4是本发明一实施例中步骤S12的一种流程示意图；

图5是本发明一实施例中确定预设的对应关系的流程示意图；

图6是本发明一实施例中步骤S12的另一种流程示意图；

图7是本发明一实施例中语音交互的处理装置的程序模块示意图；

图8是本发明一实施例中的电子设备的构造示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

本发明实施例提供的语音交互的处理方法，可应用于终端，该终端可以为用户的终端，具体的，该终端可以为车载终端(即车机)、移动终端(例如手机、平板电脑、计算机)，也可以为服务器。

在一种举例中，语音交互的处理方法可应用于车载终端或与车载终端通信的服务器。

请参考图1，本发明实施例提供了一种语音交互的处理方法，包括：

S11：确定语音交互的当前唤醒词；

S12：基于所述当前唤醒词，确定当前语音交互数据；

S13：基于所述当前语音交互数据，执行语音交互。

其中的当前唤醒词，可理解为用户当前交互时所使用的唤醒词，其可以是标准的，也可以是在多个唤醒词中选出来的，还可以是任意自定义的词，此外，其虽描述为“词”，但其非但可以是词语、词组，也可以是句子，其可以是中文的，也可以是英文的，不论采用何种语言何种形式，均不脱离本发明实施例的范围。

其中的当前语音交互数据，可理解为当前用于交互的语音交互数据；其中的语音交互数据可例如表征了语音交互时需向用户输出的数据，包括用于交互的至少部分内容，以及播放各种内容时的语音参数(例如声调、音色、频率等相关的参数)。所述当前语音交互数据可以是N组语音交互数据中的一组；其中一种实施方式中，N组语音交互数据可以为N个不同发音人的语音交互数据。

其中的发音人，可以为任意的发音人，可以包括预定义的标准发音人，也可以包括明星发言人，还可以包括自定义的发言人，例如车辆对应用户可作为发言人、用户的亲属、朋友等也可作为发言人，再例如，其他任意人员均可作为发言人，也可以包括虚构人物(例如卡通人物、角色人物)。

当前语音交互数据可以包括第一交互内容的数据，该第一交互内容可理解为固定不变的语音内容，例如“请问有什么可以帮您”之类的；对应的，基于所述当前语音交互数据，执行语音交互的过程可例如是以对应语音参数播放第一交互内容；

当前语音交互数据也可包括第二交互内容的数据，该第二交互内容可理解为能够随实际情况而变化的语音内容，对应的，基于所述当前语音交互数据，执行语音交互的过程可例如先确定第二交互内容，再以对应语音参数播放第二交互内容。

以上方案中，可基于语音交互时的当前唤醒词，确定当前语音交互数据，并基于所述当前语音交互数据，执行语音交互，进而，用户根据自己想要听到的交互声音，可采用对应的当前唤醒词，在此基础上，所确定并使用的当前语音交互数据可满足用户当前的需求、偏好，可见，本发明可便于适配满足用户的需求、偏好。

其中一种实施方式中，请参考图2，步骤S11可以包括：

S111：获取语音唤醒指令；

S112：识别所述语音唤醒指令中的当前唤醒词。

其中的语音唤醒指令，可理解为用户所说出的语音指令，步骤S111的过程可例如采集语音信号(涵盖了语音唤醒指令的信息)的过程，部分举例中，步骤S111的过程还可包括在采集到的语音信号中提取出信息的过程，例如将语音信号文本化而得到语音唤醒指令的过程；

步骤S112中对当前唤醒词进行识别的方式可例如：通过将已知的唤醒词与语音唤醒指令中的文本进行匹配，找到匹配的唤醒词，然后，可以此作为当前唤醒词。

以上方案中，实现了当前唤醒词的匹配确定，进而为步骤S12至步骤S13的实施提供准确的依据。

其中一种实施方式中，部分语音交互数据可以是自定义而确定的，对应的，发言人可以为自定义的人。

例如：所述N组语音交互数据中至少之一指定语音交互数据是通过以下过程确定的：

S14：获取指定发音人的多组指定语音素材；

S15：基于所述指定语音素材，形成所述指定发音人对应的指定语音交互数据。

以上步骤S14与步骤S15的过程，可以是语音交互的处理方法的执行主体执行的，也可以是由其他设备实施的。

以上步骤S14的一种举例中，指定发音人可录入各种语音素材作为指定语音素材，例如阅读相应内容而产生的指定语音素材，再例如日常聊天、语音交互时而手机的指定语音素材。该指定发言人可例如为用户的亲戚朋友，亦或是其他自定义的人员。

以上步骤S15的一种举例中，可利用已有或改进的算法而确定指定语音素材的语音参数作为语音交互数据的一部分，也可利用已有或改进的算法而将指定语音素材中的部分用词造句(例如某些特定的语气词，对于某些语义的特定用词等)作为语音交互数据的一部分，还可将某些语义的表达逻辑作为语音交互数据的一部分。

以上方案中，通过指定语音素材的获取，以及指定语音交互数据的形成，可实现语音交互数据的自动形成，并满足用户个性化定义的需求，并为进一步满足用户的偏好、需求提供依据。

其中一种实施方式中，步骤S12可以包括：

S121：基于所述当前唤醒词，以及预设的对应关系，确定所述当前语音交互数据；

其中，预设的对应关系至少记录了：不同唤醒词与不同组语音交互数据的对应关系，其中，一个唤醒词可能对应一组语音交互数据，也可能对应多组，多组唤醒词也可能对应一组语音交互数据。

此外，除了唤醒词与语音交互数据的对应关系，还可包含其他信息与语音交互数据的对应关系。该其他信息可例如包括时间、地点、天气、车辆信息、用户信息、用户对唤醒词、语音交互数据的历史选择记录等等，不论结合了哪些信息，均不脱离步骤S121的范围。

其中一种实施方式中，请参考图5，所述预设的对应关系是通过以下过程确定的：

S16：获取适配于指定发音人的指定唤醒词；

S17：确定所述指定唤醒词与指定语音交互数据相对应，以确定至少部分所述预设的对应关系。

步骤S16的过程可以是用户输入和/或选择的，例如：基于相应界面，用户(或其他人员)可通过语音、手写或其他输入法输入文字、词等的文本，从而将该文本作为指定唤醒词，再例如，基于相应界面，可向用户显示(或播报)多种候选唤醒词，然后，用户可从中选出一个或多个唤醒词作为指定唤醒词。

其中的界面可例如为车载终端的界面或移动终端的界面。

此外，部分举例中，候选唤醒词还可以是自人机交互的历史记录或监听到的特定用户的语音数据中选出或生成的，例如可在日常生活、行车过程中监听的语音数据(例如监听车内的语音数据)中，然后基于语音参数(例如音色、频率等)，从中识别出特定用户的语音数据，再在特定用户的语音数据中提取出出现频率和/或次数较高的词，以此作为候选唤醒词。

以上方案中，实现了唤醒词的人为指定，保障了唤醒词能区分适配不同用户的需求和偏好。

其中一种实施方式中，请参考图6，步骤S12可以包括：

S122：基于所述当前唤醒词与当前交互场景，确定所述当前语音交互数据，所述当前交互场景表征了当前的时间，和/或：所述车辆当前所处的位置。

以上方案中，可针对于不同场景而选择适配的当前语音交互数据。

此外，以上步骤S122可与步骤S121相结合，进而，在预设的对应关系中，还记录了交互场景与语音交互数据的对应关系，或者：唤醒词、交互场景与语音交互数据的对应关系。

进而，同一唤醒词在不同交互场景下，可能会对应于不同的语音交互数据，也可能会对应于同一语音交互数据。例如：在某些时间，唤醒词A对应于语音交互数据a1，在另一些时间，唤醒词A对应于语音交互数据a2；例如，在上班时，唤醒词A可对应于妻子的语音交互数据，下班时，唤醒词A可对应于孩子的语音交互数据。再例如，在接近家时，唤醒词A可对应于家人的语音交互数据，在远离家时，唤醒词A可对应于同时的语音交互数据。

以上方案中，可有助于保障：当前唤醒词下所使用的语音交互数据能适配满足对应场景(时间和/或地点)下的需求和偏好。

其中一种实施方式中，步骤S122中，具体可以包括：基于所述当前唤醒词、当前交互场景，以及用户的情绪信息，确定所述当前语音交互数据。

该情绪信息可以是自语音交互时的语音数据而识别出的，例如可以是基于用户说出唤醒词时的语音数据而识别出的。一种举例中，可在用户愤怒时确定一组语音交互数据作为当前语音交互数据，在用户高兴时确定另一组语音交互数据作为当前语音交互数据。

可见，以上方案中，可有助于保障：当前唤醒词下所使用的语音交互数据能适配用户实际的情绪，满足用户个性化的需求和偏好。

请参考图7，本发明实施例还提供了一种语音交互的处理装置2，包括：

唤醒词确定模块21，用于确定车辆内语音交互的当前唤醒词；

交互数据确定模块22，用于基于所述当前唤醒词，确定当前语音交互数据；其中，所述当前语音交互数据是N组语音交互数据中的一组；

语音交互模块23，用于基于所述当前语音交互数据，执行语音交互。

可选的，所述唤醒词确定模块21，具体用于：

获取语音唤醒指令；

识别所述语音唤醒指令中的当前唤醒词。

可选的，所述交互数据确定模块22，具体用于：

可选的，所述预设的对应关系是通过以下过程确定的：

获取适配于指定发音人的指定唤醒词；

获取指定发音人的多组指定语音素材；

可选的，所述交互数据确定模块22，具体用于：

基于所述当前唤醒词与当前交互场景，确定所述当前语音交互数据，所述当前交互场景表征了当前的时间，和/或：所述车辆当前所处的位置。

请参考图8，提供了一种电子设备3，包括：

处理器31；以及，

存储器32，用于存储所述处理器的可执行指令；

其中，所述处理器31配置为经由执行所述可执行指令来执行以上所涉及的方法。

处理器31能够通过总线33与存储器32通讯。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以上所涉及的方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音交互的处理方法，其特征在于，包括：

确定语音交互的当前唤醒词；

基于所述当前语音交互数据，执行语音交互。

2.根据权利要求1所述的处理方法，其特征在于，N组语音交互数据为N个不同发音人的语音交互数据。

3.根据权利要求1所述的处理方法，其特征在于，

所述确定语音交互的当前唤醒词，包括：

获取语音唤醒指令；

识别所述语音唤醒指令中的当前唤醒词。

4.根据权利要求1所述的处理方法，其特征在于，

所述基于所述当前唤醒词，确定当前语音交互数据，包括：

5.根据权利要求4所述的处理方法，其特征在于，

所述预设的对应关系是通过以下过程确定的：

获取适配于指定发音人的指定唤醒词；

6.根据权利要求1至5任一项所述的处理方法，其特征在于，

所述N组语音交互数据中至少之一指定语音交互数据是通过以下过程确定的：

获取指定发音人的多组指定语音素材；

7.根据权利要求1至5任一项所述的处理方法，其特征在于，

所述基于所述当前唤醒词，确定当前语音交互数据，包括：

8.一种语音交互的处理装置，其特征在于，包括：

唤醒词确定模块，用于确定车辆内语音交互的当前唤醒词；

9.一种存储介质，其上存储有程序，其特征在于，所述程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。

10.一种电子设备，包括存储器、处理器以及存储在存储器上并在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。