CN105280183B

CN105280183B - 语音交互方法和系统

Info

Publication number: CN105280183B
Application number: CN201510574318.5A
Authority: CN
Inventors: 穆向禹
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-09-10
Filing date: 2015-09-10
Publication date: 2017-06-20
Anticipated expiration: 2035-09-10
Also published as: CN105280183A

Abstract

本发明提出一种语音交互方法和系统，该语音交互方法包括：确定目标用户，并获取目标用户的用户信息；在需要语音交互时，获取多人同时说话时的混合声源，以及，根据目标用户的用户信息，在所述混合声源中识别出目标声源；对目标声源中的语音信息进行语音识别，得到语音识别结果，并将所述语音识别结果作为目标指令对交互设备进行操控。该方法能够在多人说话的场景下依然可以识别出目标声源，从而扩大语音交互系统的适用范围，提升用户体验。

Description

语音交互方法和系统

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音交互方法和系统。

背景技术

随着汽车工业的发展，车载逐渐成为人们生活中的一个重要场景。由于安全性的要求和移动互联的发展，人们已经逐渐习惯了通过语音输入对车载设备进行操控。

通过语音输入对车载设备进行操控时，如果同时有多人说话，语音交互系统就难以区分出目标指令，为此，通常会要求除了指令的发出者之外的其他人尽量不要说话，但是，这种方式由于增加了对用户的限制，会使得语音交互系统的适应范围受限，并且也会影响用户体验。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种语音交互方法，该方法可以在多人说话的场景下依然可以识别出目标声源，从而扩大语音交互系统的适用范围，提升用户体验。

本发明的另一个目的在于提出一种语音交互系统。

为达到上述目的，本发明第一方面实施例提出的语音交互方法，包括：确定目标用户，并获取目标用户的用户信息；在需要语音交互时，获取多人同时说话时的混合声源，以及，根据目标用户的用户信息，在所述混合声源中识别出目标声源；对目标声源中的语音信息进行语音识别，得到语音识别结果，并将所述语音识别结果作为目标指令对交互设备进行操控。

本发明第一方面实施例提出的语音交互方法，通过根据目标用户的用户信息在混合声源中识别出目标声源，进而根据目标声源进行操作，可以在多人说话的场景下依然可以识别出目标声源，从而扩大语音系统的适用范围，提升用户体验。

为达到上述目的，本发明第二方面实施例提出的语音交互系统，包括：获取模块，用于确定目标用户，并获取目标用户的用户信息；识别模块，用于在需要语音交互时，获取多人同时说话时的混合声源，以及，根据目标用户的用户信息，在所述混合声源中识别出目标声源；操控模块，用于对目标声源中的语音信息进行语音识别，得到语音识别结果，并将所述语音识别结果作为目标指令对交互设备进行操控。

本发明第二方面实施例提出的语音交互系统，通过根据目标用户的用户信息在混合声源中识别出目标声源，进而根据目标声源进行操作，可以在多人说话的场景下依然可以识别出目标声源，从而扩大语音系统的适用范围，提升用户体验。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的语音交互方法的流程示意图；

图2是本发明另一实施例提出的语音交互方法的流程示意图；

图3是本发明实施例中声纹注册的示意图；

图4是本发明实施例中声纹登录的示意图；

图5是本发明实施例中在混合声源中识别目标声源的示意图；

图6是本发明另一实施例提出的语音交互系统的结构示意图；

图7是本发明另一实施例提出的语音交互系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的语音交互方法的流程示意图，该方法包括：

S11：确定目标用户，并获取目标用户的用户信息。

目标用户是指在需要语音交互时，发出目标指令的用户。例如，可以将当前登录语音交互系统的用户确定为目标用户，此时，如果需要更改目标用户，需要更换当前登录的用户。

用户信息例如包括：声纹信息，和/或，方位信息。

其中，在用户注册时，语音交互系统可以采集并保存用户的声纹信息。相应的，在用户登录时可以采集当前登录用户的声纹信息，如果当前的声纹信息属于已保存的声纹信息，则允许用户登录，并将当前登录的用户确定为目标用户，由于用户登录时采集了声纹信息，因此可以获取到目标用户的声纹信息。

另外，语音交互系统根据声源定位技术可以确定当前登录用户发出的语音信息的方位，从而获取目标用户的方位信息。

S12：在需要语音交互时，获取多人同时说话时的混合声源，以及，根据目标用户的用户信息，在所述混合声源中识别出目标声源。

例如，目标用户需要对车载设备进行操控时，可以发出目标指令，而同时还可能存在其他人在说话，从而语音交互系统获取的声源不仅包括目标用户发出的声源，还包括其他人发出的声源。

为了准确获取目标指令，需要先从混合声源中识别出目标声源。本实施例中，根据目标用户的用户信息进行识别。

其中，当根据目标用户的声纹信息进行识别时，例如，可以分别提取混合声源中的每个声源的声音信息，再与预先获取的目标用户的声纹信息进行比对，获取与目标用户的声纹信息匹配一致的声源，将该匹配一致的声源确定为目标声源。

当根据目标用户的方位信息进行识别时，例如，可以采用声源定位技术分别确定混合声源中的每个声源的方位信息，再与预先获取的目标用户的方位信息进行比对，获取与目标用户的方位信息匹配一致的声源，将该匹配一致的声源确定为目标声源。

当根据目标用户的方位信息和声纹信息进行识别时，例如，先根据方位信息排除到部分的声源，在剩下的声源中再逐一比对声纹信息，从而确定出目标声源。

其中，在将混合声源区分为单个声源时，可以采用听觉场景分析技术。听觉场景分析技术是借鉴视觉场景分析技术产生的，可以对多个同时的语音信号进行区分。

S13：对目标声源中的语音信息进行语音识别，得到语音识别结果，并将所述语音识别结果作为目标指令对交互设备进行操控。

在识别出目标声源后，可以对其采用语言识别技术，将目标声源中的声音数据转换为文字数据，将文字数据作为目标指令，之后可以根据目标指令进行操控，例如，目标指令是搜索某个目的地的路线，则可以给出到该目的地的路线图。

本实施例以车载控制为例，相应的，交互设备是车载设备。可以理解的是，本实施例也可以应用在其他场景，例如，应用在对智能家电的控制等场景。

本实施例中，通过根据目标用户的用户信息在混合声源中识别出目标声源，进而根据目标声源进行操作，可以在多人说话的场景下依然可以识别出目标声源，从而扩大语音系统的适用范围，提升用户体验。

图2是本发明另一实施例提出的语音交互方法的流程示意图，本实施例以对车载设备进行操控为例。该方法包括：

S21：用户进行声纹注册。

例如，参见图3，在用户注册时，获取用户输入的语音信息(S31)，并根据语音信息获取并保存用户的声纹信息(S32)。

例如，用户在语音交互系统中注册时，语音交互系统可以向用户展示预设个数的提示文本，用户对提示文本进行朗读，从而获取用户输入的语音信息。预设个数例如为3个，提示文本例如为字符串。

语音交互系统获取到用户的语音信息后，可以采用已有的声纹识别技术对语音信息进行声纹识别，获取对应的声纹信息。

本实施例中的语音交互系统可以是本地语音交互系统(如设置在车载设备内)，或者，也可以是在线语音交互系统。

可以理解的，S21可以在用户开车之前完成。

S22：在用户登录时，将当前登录的用户作为目标用户，采集目标用户在登录时产生的语音信息，以及，根据声源定位技术，确定目标用户的方位信息。

例如，参见图4，用户登录流程可以包括：

S41：接收用户输入的预设语音指令。

预设语音指令用于登录语音交互系统。

S42：根据预设语音指令进行声纹登录，并判断是否登录成功，若是，执行，S44，否则，执行S43。

例如，语音交互系统根据预设语音指令确定对应的声纹信息，如果该声纹信息在预先保存的声纹信息中，则可以允许用户登录，否则登录失败。

S43：提示用户进行声纹注册。

例如，采用图3所示的流程，用户通过语音输入进行声纹注册。

S44：将当前登录的用户确定为目标用户，对目标用户的声音信息进行声源定位，确定目标用户的方位信息。

其中，用户(如司机)可以通过预设指令登录语音交互系统，预设指令例如为预设的语音指令，因此，当用户输入预设的语音指令后，一方面可以实现对语音交互系统的登录，另一方面，还可以对预设的语音指令采用声源定位技术，从而确定出当前登录的用户，也就是目标用户的方位信息。

本实施例中，以目标用户是当前登录的用户为例，如果在用户A登录后在后续需要用户B进行语音操控，则需要更改登录的用户，需要用户A退出，用户B登录。

S45：保存目标用户的声纹信息和方位信息。

目标用户的声纹信息和方位信息可以用于后续目标声源的识别。

S23：在需要进行语音操控时，接收唤醒指令，并根据唤醒指令激活语音交互系统。

其中，唤醒指令可以是用户通过语音发送的，当然，唤醒指令也可以是用户通过按键等形式产生的。

语音交互系统在接收到唤醒指令后可以被激活，在被激活后可以为用户提供语音交互服务。

S24：采集当前场景下的语音信息。

例如，需要进行语音操控时，目标用户可以产生语音形式的目标指令，从而采集的语音信息包括目标用户的语音信息，另外，同时可能其他人也在说话，因此，采集的语音信息还可以包括其他人的语音信息，相应的，此时采集的语音信息是混合声源。

一些实施例中，为了提高有效语音信号的指令，可以采用降噪麦克风采集当前场景下的语音信息。降噪麦克风可以将一定噪声水平下的语音信号滤掉，以提高噪声门槛来防止噪声干扰。

S25：如果当前场景是多人说话的混合声源场景，则根据目标用户的方位信息和声纹信息，在混合声源中识别出目标声源。

目标声源是指目标用户对应的声源。而同时其他人也可能在说话，从而可能处于多人说话的混合声源场景下。

参见图5，在混合声源中识别目标声源的流程可以具体包括：

S51：获取混合声源。

例如，对多人同时说话的语音数据进行采集，获取混合声源。

S52：采用听觉场景分析技术区分出每个声源。

听觉场景分析技术是能够对同时存在的多个声源进行区分，从而可以区分出单个声源。

S53：获取单个声源的声纹信息和方位信息，并与保存的目标用户的声纹信息和方位信息进行比对，确定出目标声源。

例如，通过声纹识别技术可以从单个声源的声源数据中获取对应的声纹信息，根据声源定位技术可以获取相应的方位信息。

在识别目标声源时，可以先根据目标用户的方位信息排除那些方位信息不匹配的声源，进一步的，在车载场景下，由于各用户之间的距离比较近，因此，还可以进一步在剩余的声源中确定与目标用户的声纹信息匹配一致的声源，得到目标声源。

S26：对目标声源中的语音信息进行语音识别，获取语音识别结果，根据语音识别结果进行操控。

其中，目标声源中的语音信息是目标用户产生的语音形式的目标指令，采用语音识别技术后，可以将语音信息识别为文本信息，之后可以根据文本信息进行相应的操控。例如，目标指令是查询某个目的地的路线，则进行相应的操控具体是查询到该目的地的路线，并将路线展示给用户。或者，目标指令是查询天气情况，则进行相应的操控具体是查询天气情况并将天气情况展示给用户。可以理解的是，在将查询结果展示给用户时，可以采用文本、语音或图像等形式。

本实施例中，可以在目标用户发出目标指令时，不需要其他人保持静默，是一种更加自然的车载交互方式，扩大语音交互的适用范围，提升用户体验。

图6是本发明另一实施例提出的语音交互系统的结构示意图，该系统30包括：获取模块31、识别模块32和操控模块33。

获取模块31，用于确定目标用户，并获取目标用户的用户信息；

可选的，所述获取模块31用于确定目标用户，包括：

将当前登录的用户确定为目标用户。

可选的，所述获取模块31用于获取目标用户的用户信息，包括：

根据用户注册时保存的声纹信息，获取与当前登录的用户对应的声纹信息；和/或，

采集当前登录的用户的声音信息，并对所述声音信息进行声源定位处理，确定当前登录的用户的方位信息。

用户信息例如包括：声纹信息，和/或，方位信息。

识别模块32，用于在需要语音交互时，获取多人同时说话时的混合声源，以及，根据目标用户的用户信息，在所述混合声源中识别出目标声源；

可选的，所述识别模块32用于根据目标用户的用户信息，在所述混合声源中识别出目标声源，包括：

采用听觉场景分析技术，将所述混合声源区分为单个声源；

根据目标用户的用户信息，与单个声源的相应信息进行比对，识别出目标声源。

可选的，所述识别模块32用于获取多人同时说话时的混合声源，包括：

采用降噪麦克风，获取多人同时说话时的混合声源。

操控模块33，用于对目标声源中的语音信息进行语音识别，得到语音识别结果，并将所述语音识别结果作为目标指令对交互设备进行操控。

一些实施例中，参见图7，该系统还可以包括：

唤醒模块64，用于接收唤醒指令，并根据唤醒指令激活语音交互系统，以便在激活后提供语音交互服务，其中，所述唤醒指令包括：语音形式的唤醒指令。

其中，唤醒指令可以是用户通过语音发送的，当然，唤醒指令也可以是用户通过按键产生的。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音交互方法，其特征在于，包括：确定目标用户，并获取目标用户的用户信息；

在需要语音交互时，获取多人同时说话时的混合声源，以及，根据目标用户的用户信息，在所述混合声源中识别出目标声源；

对目标声源中的语音信息进行语音识别，得到语音识别结果，并将所述语音识别结果作为目标指令对交互设备进行操控；

所述用户信息包括：声纹信息和方位信息；

其中，当根据目标用户的方位信息和声纹信息进行识别时，先根据方位信息排除掉部分的声源，在剩下的声源中再逐一比对声纹信息，从而确定出目标声源；

所述确定目标用户，包括：

接收用户输入的预设语音指令；

根据预设语音指令进行声纹登录；

在声纹登录成功后，将当前登录的用户确定为目标用户；以及，对所述预设语音指令采用声源定位技术，确定出目标用户的方位信息；

其中，当前登录的用户为后续需要进行语音操控的用户，且在其他已登录用户退出后进行登录操作；

还包括：

接收唤醒指令，并根据唤醒指令激活语音交互系统，以便在激活后提供语音交互服务，其中，所述唤醒指令包括：语音形式的唤醒指令。

2.根据权利要求1所述的方法，其特征在于，所述获取目标用户的用户信息，包括：

3.根据权利要求1-2任一项所述的方法，其特征在于，所述根据目标用户的用户信息，在所述混合声源中识别出目标声源，包括：

采用听觉场景分析技术，将所述混合声源区分为单个声源；

4.根据权利要求1-2任一项所述的方法，其特征在于，所述获取多人同时说话时的混合声源，包括：

采用降噪麦克风，获取多人同时说话时的混合声源。

5.根据权利要求1-2任一项所述的方法，其特征在于，所述交互设备包括：车载设备。

6.一种语音交互系统，其特征在于，包括：

获取模块，用于确定目标用户，并获取目标用户的用户信息；

识别模块，用于在需要语音交互时，获取多人同时说话时的混合声源，以及，根据目标用户的用户信息，在所述混合声源中识别出目标声源；

操控模块，用于对目标声源中的语音信息进行语音识别，得到语音识别结果，并将所述语音识别结果作为目标指令对交互设备进行操控；

所述用户信息包括：声纹信息和方位信息；

所述获取模块用于确定目标用户，包括：

接收用户输入的预设语音指令；

根据预设语音指令进行声纹登录；

还包括：

唤醒模块，用于接收唤醒指令，并根据唤醒指令激活语音交互系统，以便在激活后提供语音交互服务，其中，所述唤醒指令包括：语音形式的唤醒指令。

7.根据权利要求6所述的系统，其特征在于，所述获取模块用于获取目标用户的用户信息，包括：

8.根据权利要求6-7任一项所述的系统，其特征在于，所述识别模块用于根据目标用户的用户信息，在所述混合声源中识别出目标声源，包括：

采用听觉场景分析技术，将所述混合声源区分为单个声源；

9.根据权利要求6-7任一项所述的系统，其特征在于，所述识别模块用于获取多人同时说话时的混合声源，包括：

采用降噪麦克风，获取多人同时说话时的混合声源。