CN111899717A

CN111899717A - 一种语音回复方法及装置

Info

Publication number: CN111899717A
Application number: CN202010741193.1A
Authority: CN
Inventors: 向岩; 吕曼瑶
Original assignee: Beijing Ruying Intelligent Technology Co ltd
Current assignee: Beijing Ruying Intelligent Technology Co ltd
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2020-11-06

Abstract

本发明公开了一种语音回复方法及装置，其中，方法包括：获取用户在室内输入的语音信息，并确定所述用户的特征信息；根据所述语音信息确定对应的当前位置信息和当前时间信息，并识别出所述语音信息对应的文字信息；根据所述特征信息、当前位置信息和当前时间信息确定所述语音信息对应的目标情境信息；根据所述文字信息和所述目标情境信息确定对应的目标回复信息；根据所述目标情境信息和所述目标回复信息输出与所述语音信息对应的语音回复信息。通过该技术方案，使得情感随着情境的改变而改变，使得用户说话的情境不同，回复的内容和情感也不同。

Description

一种语音回复方法及装置

技术领域

本发明涉及智能语音交互技术领域，更具体地，涉及一种语音回复方法及装置。

背景技术

在人机交互过程中，将文字转为语音(语音合成技术)并传递给用户信息的功能已经逐渐渗透到人的生活中。随着这项技术的不断成熟，使用场景日趋扩大，人们已经不满足于“听清楚”“声音好听”等单一维度的合成语音。如何将语音与当前的情境匹配，传递出适合的语义和情感信息，从而使人们的体验更加舒适，成为了当前的迫切需求。

现有技术的实现方案一：使用一种情感的语音，针对用户的问题，均用此种情感的语音来回复对应的答案。这样，成语音的情感只有一种等于没有情感。文字信息和语音表达的情感信息不匹配。不能通过情境的变化，改变回复的话术和情感。

现有技术的实现方案二：合成语音存在多种情感，如高兴、愤怒、悲伤，但当情境改变时，仍然用同一种情感的语音来回复对应的答案。这样，没有情景定义，情感不能根据情境改变。

发明内容

鉴于上述问题，本发明提出了一种语音回复方法和相应的装置，其可以将场景与语音结合，情感随着情景的改变而改变，从而使得时间、季节、地点、面对的人、说话的话题的不同，回复的话述及情感不同。

根据本发明实施例的第一方面，提供一种语音回复方法，包括：

获取用户在室内输入的语音信息，并确定所述用户的特征信息，其中，所述特征信息包括以下至少一项：性别和所属年龄段；

根据所述语音信息确定对应的当前位置信息和当前时间信息，并识别出所述语音信息对应的文字信息；

根据所述特征信息、当前位置信息和当前时间信息确定所述语音信息对应的目标情境信息；

根据所述文字信息和所述目标情境信息确定对应的目标回复信息；

根据所述目标情境信息和所述目标回复信息输出与所述语音信息对应的语音回复信息。

在一个实施例中，优选地，根据所述特征信息、当前位置信息和当前时间信息确定所述语音信息对应的目标情境信息之前，所述方法还包括：

将所有的特征信息、位置信息和时间信息进行排列组合，并将不同排列组合的结果分别进行情境编号；

根据所述用户的特征信息、当前位置信息和当前时间信息确定所述语音信息对应的目标情境信息，包括：

根据所述特征信息、当前位置信息和当前时间信息确定所述语音信息对应的目标情境编号。

在一个实施例中，优选地，根据所述目标情境信息和所述目标回复信息输出与所述语音信息对应的语音回复信息，包括：

根据预设的情感语音合成模型与情境编号的对应关系，确定与所述目标情境编号对应的目标情感语音合成模型；

根据所述目标情感语音合成模型和所述目标回复信息，生成并输出与所述语音信息对应的语音回复信息。

在一个实施例中，优选地，所述获取用户在室内输入的语音信息，包括：

在接收到预设唤醒词时，通过设置在室内不同房间内的收声装置获取用户在室内输入的语音信息；

根据所述语音信息确定对应的当前位置信息，包括：

根据接收所述语音信息的收声装置的位置确定所述语音信息对应的当前位置信息。

在一个实施例中，优选地，所述确定所述用户的特征信息，包括：

对所述语音信息进行声纹识别，根据声纹识别结果确定所述用户的性别和所属年龄段。

根据本发明实施例的第二方面，提供一种语音回复装置，包括：

获取模块，用于获取用户在室内输入的语音信息，并确定所述用户的特征信息，其中，所述特征信息包括以下至少一项：性别和所属年龄段；

信息识别模块，用于根据所述语音信息确定对应的当前位置信息和当前时间信息，并识别出所述语音信息对应的文字信息；

情境定义模块，用于根据所述特征信息、当前位置信息和当前时间信息确定所述语音信息对应的目标情境信息；

对话模块，用于根据所述文字信息和所述目标情境信息确定对应的目标回复信息；

语音合成模块，用于根据所述目标情境信息和所述目标回复信息输出与所述语音信息对应的语音回复信息。

在一个实施例中，优选地，所述情境定义模块包括：

预处理单元，用于将所有的特征信息、位置信息和时间信息进行排列组合，并将不同排列组合的结果分别进行情境编号；

编号确定单元，用于根据所述用户的特征信息、当前位置信息和当前时间信息确定所述语音信息对应的目标情境编号。

在一个实施例中，优选地，所述语音合成模块包括：

模型确定单元，用于根据预设的情感语音合成模型与情境编号的对应关系，确定与所述目标情境编号对应的目标情感语音合成模型；

输出单元，用于根据所述目标情感语音合成模型和所述目标回复信息，生成并输出与所述语音信息对应的语音回复信息。

在一个实施例中，优选地，所述获取模块用于：

所述信息识别模块用于：

在一个实施例中，优选地，所述获取模块用于：

根据本发明实施例的第三方面，提供一种语音回复装置，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序被配置为执行如第一方面或第一方面任一实施例中所述的方法。

本发明实施例中，将场景与语音结合，情感随着情境的改变而改变，从而使得用户说话的情境不同，回复的内容和情感也不同。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的一种语音回复方法的流程图。

图2是本发明一个实施例的另一种语音回复方法的流程图。

图3是本发明一个实施例的另一种语音回复方法的流程图。

图4是本发明一个实施例的一种语音回复装置的框图。

图5是本发明一个实施例的一种语音回复装置中情境定义模块的框图。

图6是本发明一个实施例的一种语音回复装置中语音合成模块45的框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明一个实施例的一种语音回复方法的流程图，如图1所示，所述语音回复方法包括：

步骤S101，获取用户在室内输入的语音信息，并确定所述用户的特征信息，其中，所述特征信息包括以下至少一项：性别和所属年龄段；

获取用户在室内输入的语音信息，包括：

根据所述语音信息确定对应的当前位置信息，包括：

步骤S102，根据所述语音信息确定对应的当前位置信息和当前时间信息，并识别出所述语音信息对应的文字信息；

步骤S103，根据所述特征信息、当前位置信息和当前时间信息确定所述语音信息对应的目标情境信息；

步骤S104，根据所述文字信息和所述目标情境信息确定对应的目标回复信息；

步骤S105，根据所述目标情境信息和所述目标回复信息输出与所述语音信息对应的语音回复信息。

在该实施例中，根据用户的性别，年龄，当前所处位置和当前时间等确定和语音信息对应的目标情境信息，并根据目标情境信息和对应的目标回复信息输出语音回复信息，从而使得情感随着情境的改变而改变，使得用户说话的情境不同，回复的内容和情感也不同。

图2是本发明一个实施例的另一种语音回复方法的流程图。

如图2所示，在一个实施例中，优选地，上述步骤S103之前，所述方法还包括：

步骤S201，将所有的特征信息、位置信息和时间信息进行排列组合，并将不同排列组合的结果分别进行情境编号；

步骤S103包括：

步骤S202，根据所述特征信息、当前位置信息和当前时间信息确定所述语音信息对应的目标情境编号。

图3是本发明一个实施例的另一种语音回复方法的流程图。

如图3所示，在一个实施例中，优选地，上述步骤S105包括：

步骤S301，根据预设的情感语音合成模型与情境编号的对应关系，确定与所述目标情境编号对应的目标情感语音合成模型。

可以预设情感语音合成模型与情境编号的对应关系，同样的，也可以对情感语音合成模型进行编号，并将情感语音合成模型编号与情境编号进行匹配。例如，情境编号为001的情境信息对应情感语音合成模型编号为001的情感语音合成模型。

步骤S302，根据所述目标情感语音合成模型和所述目标回复信息，生成并输出与所述语音信息对应的语音回复信息。

图4是本发明一个实施例的一种语音回复装置的框图。

如图4所示，根据本发明实施例的第二方面，提供一种语音回复装置，包括：

获取模块41，用于获取用户在室内输入的语音信息，并确定所述用户的特征信息，其中，所述特征信息包括以下至少一项：性别和所属年龄段；

信息识别模块42，用于根据所述语音信息确定对应的当前位置信息和当前时间信息，并识别出所述语音信息对应的文字信息；

情境定义模块43，用于根据所述特征信息、当前位置信息和当前时间信息确定所述语音信息对应的目标情境信息；

对话模块44，用于根据所述文字信息和所述目标情境信息确定对应的目标回复信息；

语音合成模块45，用于根据所述目标情境信息和所述目标回复信息输出与所述语音信息对应的语音回复信息。

如图5所示，在一个实施例中，优选地，所述情境定义模块43包括：

预处理单元51，用于将所有的特征信息、位置信息和时间信息进行排列组合，并将不同排列组合的结果分别进行情境编号；

编号确定单元52，用于根据所述用户的特征信息、当前位置信息和当前时间信息确定所述语音信息对应的目标情境编号。

如图6所示，在一个实施例中，优选地，所述语音合成模块45包括：

模型确定单元61，用于根据预设的情感语音合成模型与情境编号的对应关系，确定与所述目标情境编号对应的目标情感语音合成模型；

输出单元62，用于根据所述目标情感语音合成模型和所述目标回复信息，生成并输出与所述语音信息对应的语音回复信息。

在一个实施例中，优选地，所述获取模块41用于：

所述信息识别模块用于：

在一个实施例中，优选地，所述获取模块41用于：

一个或多个处理器；

存储器；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上对本发明所提供的一种便捷式多功能设备进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音回复方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据所述特征信息、当前位置信息和当前时间信息确定所述语音信息对应的目标情境信息之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，根据所述目标情境信息和所述目标回复信息输出与所述语音信息对应的语音回复信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取用户在室内输入的语音信息，包括：

根据所述语音信息确定对应的当前位置信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述确定所述用户的特征信息，包括：

6.一种语音回复装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述情境定义模块包括：

8.根据权利要求7所述的装置，其特征在于，所述语音合成模块包括：

9.根据权利要求6所述的装置，其特征在于，所述获取模块用于：

所述信息识别模块用于：

10.根据权利要求6所述的装置，其特征在于，所述获取模块用于：