CN105448293A

CN105448293A - 语音监听及处理方法和设备

Info

Publication number: CN105448293A
Application number: CN201410431443.6A
Authority: CN
Inventors: 雷欣
Original assignee: Beijing Yushanzhi Information Technology Co Ltd
Current assignee: China Innovation Technology Co., Ltd; Volkswagen China Investment Co Ltd
Priority date: 2014-08-27
Filing date: 2014-08-27
Publication date: 2016-03-30
Anticipated expiration: 2034-08-27
Also published as: CN105448293B

Abstract

本发明提供一种语音监听及处理方法和设备。该方法包括：接收用户发出的第一语音指令；对所述语音指令进行识别并检索，从而获取候选检索结果列表；如果所述候选检索结果列表包含多个候选检索结果，在第一时间段内只对与所述多个候选检索结果相关的第二语音指令进行反应，以选择所述多个候选检索结果之一。本发明实施例能够减少非对候选检索结果的选择的说话导致的误触发，并使操作简单。

Description

语音监听及处理方法和设备

技术领域

本发明涉及语音检索，更具体地，涉及一种语音监听及处理方法和设备。

背景技术

当前，移动网络的发展非常迅速，基于移动网络的应用可以让人们在移动中获得更多更丰富的资讯和服务。车载服务就是一种基于移动通信网络的车载应用。用户可以通过设置在车辆上的车载设备，从网络的业务提供商获取诸如车辆定位，行车路线查询，播放影音视频，收听广播节目等一系列的车载服务。

同时随着社会文明的不断发展，人类已渐渐步入智能时代，对工具的智能化要求程度也越来越高，便捷时尚，智能化成为当代人们的追求目标。智能控制、信息电子的概念由此应运而生。语音检索技术能够为驾驶者提供友好的交互界面，避免驾驶员在驾车时由于手动操作导致的潜在危险。

例如，用户在驾驶时说“出门问问，附近的餐馆有哪些？”。车上安装的“出门问问”应用会给用户提供一个候选检索结果列表。用户口头选择其中一个候选检索结果。此时，由于车内其它人可能也在说话，其它人的说话可能会误触发应用。另外，由于用户可能同时在与车内其它人说话，自己的说话也可能误触发应用。当然可以规定用户口头选择时仍然必须以“出门问问，……”作为唤醒词，但这种操作繁琐且不自然，因为用户看到一个候选检索结果列表时往往对一个选项脱口而出忘了说唤醒词。同时，目前的应用语音提示不友好，用户难以判断是否处于选择候选检索结果的状态中。

发明内容

有鉴于此，本发明提供一种语音监听及处理方法，能够减少非对候选检索结果的选择的说话的误触发，并使操作简单。

根据本发明的一个实施例，提供了一种语音监听及处理方法，包括：

接收用户发出的第一语音指令；

对所述语音指令进行识别并检索，从而获取候选检索结果列表；

如果所述候选检索结果列表包含多个候选检索结果，在第一时间段内只对与所述多个候选检索结果相关的第二语音指令进行反应，以选择所述多个候选检索结果之一。

可选地，除了第一时间段内的第二语音指令外，接收用户发出的监听唤醒请求后接收用户发出的语音指令。

可选地，监听唤醒请求包括以下中的至少一个：

用户说出的特定唤醒词；

特定按键或旋钮的激活或屏幕上特定位置的激活。

可选地，在第一时间段内只对与所述多个候选检索结果相关的第二语音指令进行反应包括：

分析在第一时间段内接收的语音，其中如果在第一时间段内接收的语音来自不同的人，将来自不同的人的语音分开，分别进行语音识别；

基于所述多个候选检索结果中的每个候选检索结果，基于预定模板生成每个候选检索结果各自的候选表达；

将来自不同的人的语音识别结果分别与所述多个候选检索结果中的每个候选检索结果各自的候选表达进行比较，如果与所述多个候选检索结果中的特定候选检索结果的候选表达匹配，则选择该特定候选检索结果。

可选地，基于规定规则生成每个候选检索结果各自的候选表达包括：

获取所述多个候选检索结果中的每个候选检索结果的别称；

将所述多个候选检索结果中的每个候选检索结果及其别称分别代入预定模板的预定位置，形成候选表达。

可选地，第一时间段起始于获取候选检索结果列表后第二时间段结束。

可选地，第一时间段为6-10秒。

可选地，第二时间段为2秒。

可选地，在第一时间段的开始或在第二时间段中，提示用户选择候选检索结果。

可选地，在第一时间段的结束，提示用户自由发出语音指令。

根据本发明的一个实施例，提供了一种语音监听及处理设备，包括：

接收单元，被配置为接收用户发出的第一语音指令；

识别检索单元，被配置为对所述语音指令进行识别并检索，从而获取候选检索结果列表；

选择单元，被配置为如果所述候选检索结果列表包含多个候选检索结果，在第一时间段内只对与所述多个候选检索结果相关的第二语音指令进行反应，以选择所述多个候选检索结果之一。

可选地，除了第一时间段内的第二语音指令外，选择单元接收用户发出的监听唤醒请求后接收用户发出的语音指令。

可选地，监听唤醒请求包括以下中的至少一个：

用户说出的特定唤醒词；

特定按键或旋钮的激活或屏幕上特定位置的激活。

可选地，选择单元被配置为：

可选地，选择单元被配置为获取所述多个候选检索结果中的每个候选检索结果的别称，将所述多个候选检索结果中的每个候选检索结果及其别称分别代入预定模板的预定位置，形成候选表达。

可选地，第一时间段为6-10秒。

可选地，第二时间段为2秒。

可选地，选择单元被配置为在第一时间段的开始或在第二时间段中，提示用户选择候选检索结果。

可选地，选择单元被配置为在第一时间段的结束，提示用户自由发出语音指令。

由于本发明实施例中，如果所述候选检索结果列表包含多个候选检索结果，在第一时间段内只对与所述多个候选检索结果相关的第二语音指令进行反应，这时即使车内其它人说话或用户自己与其它人交谈，这些说话内容也往往与所述多个候选检索结果无关，因此不对这些说话内容反应，减少不相关的说话导致的误触发。而且，用户选择即发出第二语音指令时也不用说特定唤醒词，如“出门问问，……”，提高了操作的便利性。

另外，由于本发明实施例在第一时间段的开始或在第一时间段前的第二时间段中，提示用户选择候选检索结果，并在第一时间段的结束，提示用户自由发出语音指令，提高了用户界面的友好度，使用户能够知道是处于选择候选检索结果的状态中(只能选择候选检索结果)还是可以自由说话。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1示出了本发明一个实施例的语音监听及处理方法的流程图；

图2示出了本发明一个实施例的语音监听及处理设备的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本发明的一个实施例提供了一种语音监听及处理方法，如图1所示。该语音监听及处理方法可以用在车载软件(如车载“出门问问”)的语音搜索中，也可以用于其它情形，如非车载环境但也有多个人、多个人的语音可能形成相互干扰的语音搜索中。

该语音监听及处理方法包括以下步骤：

步骤101：接收用户发出的第一语音指令。

在车载环境下，用户在发出第一语音指令之前还要发出监听唤醒请求。例如，用户说出特定唤醒词(例如“出门问问，……”)，或用户按特定按键或旋转特定旋钮或用户点击触摸屏上的特定位置等等。因为车载环境下，必须运行车上的人正常说话，如果车上的人正常说一句话都可能被应用当作语音搜索指令而开始语音搜索的话，都会造成频繁搜索，引起不必要的打扰。

例如在特定唤醒词作为监听唤醒请求的情况下，应用平时是不监听的，只有当识别出特定唤醒词才开始监听用户发出的语音指令。对特定唤醒词是开机状态下一直监听的，但是一种特殊的监听。一般的监听是指，接收到语音后，基于声学模型识别出音节，通过查询字典中音节与文本的可能映射关系，利用语言学模型进行语音解码，识别出对应的文本作为输入识别结果。在对特定唤醒词的监听中，只存储特定唤醒词的音节模型，当接收到语音后，与存储的音节模型进行对比，相似度到达一定程度则认为唤醒，它不进行后续的语音解码等，属于低功耗的监听。

步骤102：对第一语音指令进行识别并检索，从而获取候选检索结果列表。

对第一语音指令进行识别是指接收到第一语音指令后，基于声学模型识别出音节，通过查询字典中音节与文本的可能映射关系，利用语言学模型进行语音解码，识别出对应的文本作为输入识别结果。检索是指得到输入识别结果后，对输入识别结果解析其含义，然后去互联网和/或存储库搜索相关内容作为检索结果。目前有通用识别及检索技术。

第一语音指令一般有两种。一种是可能产生多种候选检索结果的语音指令，例如，用户说“附近的餐馆有哪些”，此时可能会给用户产生一个附近餐馆的列表，让用户选择。还有一种语音指令是一般会产生唯一候选检索结果的语音指令，如“海淀图书城在哪里”、“中关村南大街158号的地理位置”。对于后一种情况，不需要执行后面的步骤103，因为给用户产生的是唯一的候选检索结果。

步骤103：如果所述候选检索结果列表包含多个候选检索结果，在第一时间段内只对与所述多个候选检索结果相关的第二语音指令进行反应，以选择所述多个候选检索结果之一。

例如，第一时间段是8秒。在这8秒内，仅对与所述多个候选检索结果相关的第二语音指令进行反应，因为这可能是用户对所述多个候选检索结果的选择。例如，候选检索结果列表中列出“莫斯科餐厅”、“麻辣诱惑”、“仙踪林”三项。在8秒内，用户说“我要去麻辣诱惑”，车上的另一个人问用户“在哪停车”，用户说“地下有停车场”。在这三句话中，只有第一句话是用户的选择，因此仅对第一句话而不对后两句话进行反应，选择“麻辣诱惑”。

在第一时间段内，用户是可以不用说唤醒词而直接说出第二语音指令的。因为用户看到一个候选检索结果列表时往往对一个选项脱口而出忘了说唤醒词，如果此时仍然要求用户说“出门问问，我要去麻辣诱惑”，显得不自然且繁琐。当超出了第一时间段，就可以认为用户作出选择的合理时间已经过了，如果仍然保持不对与候选检索结果无关的语音指令进行反应，就可能漏掉对正常语音指令的反应。

除了第一时间段内的第二语音指令外，都要在接收用户发出的监听唤醒请求后接收用户发出的语音指令。也就是说，在第一时间段之后，用户如想选择“麻辣诱惑”，则需要说“出门问问，我要去麻辣诱惑”。此时用户还可以说出针对非候选检索结果列表中的内容的语音指令，例如“出门问问，我想去思念餐厅”。

除了特定唤醒词，如“出门问问，……”外，也可以通过特定按键或旋钮的激活(例如按下按键或旋转旋钮)或屏幕上特定位置的激活(例如电机屏幕上的虚按钮)来发出监听唤醒请求。

在一个实施例中，步骤103包含下面的子步骤。

步骤1031：分析在第一时间段内接收的语音，其中如果在第一时间段内接收的语音来自不同的人，将来自不同的人的语音分开，分别进行语音识别。

例如，在第一时间段，用户说“我要去麻辣诱惑”，车上另一个人问用户“在哪停车”，用户回答“有地下室车库”。因此，在第一时间段接收到的是两个不同人的语音的混合，由于不同的人的声纹不同，可以利用声纹提取技术等将不同的人的语音分开，分别基于声学模型和语言学模型识别出对应的文本，作为分别的输入识别结果。在本例中，识别出用户的输入识别结果是“我要去麻辣诱惑”和“有地下室车库”，车上另一个人的输入识别结果是“在哪停车”。

步骤1032：基于所述多个候选检索结果中的每个候选检索结果，基于预定模板生成每个候选检索结果各自的候选表达。

候选表达是指选择某一候选检索结果时用户可能采取的表达方式。例如，用户想选择“麻辣诱惑”时，可能直接说“麻辣诱惑”，也可能说“去麻辣诱惑”，也可能说“我要去麻辣诱惑”等。“麻辣诱惑”、“去麻辣诱惑”、“我要去麻辣诱惑”都是候选表达。

具体地，先获取所述多个候选检索结果中的每个候选检索结果的别称。例如“老莫”是“莫斯科餐厅”别称。它可以通过事先将一些常见的候选检索结果，如“莫斯科餐厅”，相对应的是哪些别称存储在一个存储库中。针对每个候选检索结果，就可以检索该存储库，从而得到对应的别称。针对一些不是很常见的候选检索结果，可能事先没有存储在存储库中，此时可能需要在互联网上爬取其对应的别称。

然后，将所述多个候选检索结果中的每个候选检索结果及其别称分别代入预定模板的预定位置，形成候选表达。模板是提取的反复地出现在人的说话中的语言模式。例如“XXX”、“去XXX”、“我想去XXX”、“我想吃XXX”是四个模板。当将候选检索结果“莫斯科餐厅”及其别称“老莫”代入这四个模板后，就形成“莫斯科餐厅”、“去莫斯科餐厅”、“我想去莫斯科餐厅”、“我想吃莫斯科餐厅”、“老莫”、“去老莫”、“我想去老莫”、“我想吃老莫”八个候选表达。

步骤1033：将来自不同的人的语音识别结果分别与所述多个候选检索结果中的每个候选检索结果各自的候选表达进行比较，如果与所述多个候选检索结果中的特定候选检索结果的候选表达匹配，则选择该特定候选检索结果。

例如，在第一时间段，用户说“我想吃老莫”、“有地下室车库”两句话，车上另一个人说了“到哪里停车”一句话。将“我想吃老莫”、“有地下室车库”与各候选检索结果的候选表达比较，其中“我想吃老莫”与一个候选表达匹配。将“到哪里停车”与各候选检索结果的候选表达比较，没有找到匹配结果。“我想吃老莫”这个候选表达是“莫斯科餐厅”的候选表达，因此选择“莫斯科餐厅”。

另外，由于获取到候选检索结果列表并显示后，用户看到并作出选择是需要一定时间的，因此可以设置一个第二时间段。第一时间段起始于获取候选检索结果列表后第二时间段结束。在这个第二时间段，一般认为车上的人说的话应该也是与选择无关的，因为用户看到候选检索结果列表并进行选择需要时间。第二时间段很短，可以设置为2秒。在第二时间段，用户仍然要发出一个监听唤醒请求，例如说“出门问问，……”后，才能发出语音指令。这样做是合理的，因为这段时间用户不太可能会这么快对候选检索结果列表作出反应，如果车上有人没有说“出门问问，……”而直接说出一句似乎与候选检索结果列表有关的话，反而可能是偶然说出的，不设置第二时间段反而会导致误触发。

实验证明，第一时间段为6-10秒时，防止误触发的性能较好。

实验证明，第二时间段为2秒时，防止误触发的性能较好。

为了提高用户界面友好度，可以在第一时间段的开始或在第二时间段中，提示用户选择候选检索结果，这样可以使用户能够知道是处于选择候选检索结果的状态中(只能选择候选检索结果)还是可以自由说话。提示的方式可以通过语音、在显示屏上显示等方式进行。在显示屏上显示的方式下，提示可以显示在候选检索结果列表的上面或旁边，也可以采用闪烁显示的方式。

为了提高用户界面友好度，可以在第一时间段的结束，提示用户自由发出语音指令。提示的方式可以通过语音、在显示屏上显示等方式进行。在显示屏上显示的方式下，也可以采用闪烁显示的方式。

如图2所示，根据本发明一个实施例的语音监听及处理设备2包括：接收单元201，被配置为接收用户发出的第一语音指令；识别检索单元202，被配置为对所述语音指令进行识别并检索，从而获取候选检索结果列表；选择单元203，被配置为如果所述候选检索结果列表包含多个候选检索结果，在第一时间段内只对与所述多个候选检索结果相关的第二语音指令进行反应，以选择所述多个候选检索结果之一。

可选地，除了第一时间段内的第二语音指令外，选择单元203可以接收用户发出的监听唤醒请求后接收用户发出的语音指令。

可选地，监听唤醒请求可以包括以下中的至少一个：用户说出的特定唤醒词；特定按键或旋钮的激活或屏幕上特定位置的激活。

可选地，选择单元203可以被配置为：分析在第一时间段内接收的语音，其中如果在第一时间段内接收的语音来自不同的人，将来自不同的人的语音分开，分别进行语音识别；基于所述多个候选检索结果中的每个候选检索结果，基于预定模板生成每个候选检索结果各自的候选表达；将来自不同的人的语音识别结果分别与所述多个候选检索结果中的每个候选检索结果各自的候选表达进行比较，如果与所述多个候选检索结果中的特定候选检索结果的候选表达匹配，则选择该特定候选检索结果。

可选地，选择单元203可以被配置为获取所述多个候选检索结果中的每个候选检索结果的别称，将所述多个候选检索结果中的每个候选检索结果及其别称分别代入预定模板的预定位置，形成候选表达。

可选地，第一时间段可以起始于获取候选检索结果列表后第二时间段结束。

可选地，第一时间段可以为6-10秒。

可选地，第二时间段可以为2秒。

可选地，选择单元203可以被配置为在第一时间段的开始或在第二时间段中，提示用户选择候选检索结果。

可选地，选择单元203可以被配置为在第一时间段的结束，提示用户自由发出语音指令。

图2中的各单元可以通过软件的方式实现，也可以通过硬件(诸如集成电路、FPGA等)方式实现。

对于设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明。以上所描述的实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及设备；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音监听及处理方法，其特征在于，包括：

接收用户发出的第一语音指令；

对第一语音指令进行识别并检索，从而获取候选检索结果列表；

2.根据权利要求1所述的语音监听及处理方法，其特征在于，除了第一时间段内的第二语音指令外，接收用户发出的监听唤醒请求后接收用户发出的语音指令。

3.根据权利要求2所述的语音监听及处理方法，其特征在于，监听唤醒请求包括以下中的至少一个：

用户说出的特定唤醒词；

特定按键或旋钮的激活或屏幕上特定位置的激活。

4.根据权利要求1所述的语音监听及处理方法，其特征在于，在第一时间段内只对与所述多个候选检索结果相关的第二语音指令进行反应包括：

5.根据权利要求4所述的语音监听及处理方法，其特征在于，基于规定规则生成每个候选检索结果各自的候选表达包括：

获取所述多个候选检索结果中的每个候选检索结果的别称；

6.根据权利要求1所述的语音监听及处理方法，其特征在于，第一时间段起始于获取候选检索结果列表后第二时间段结束。

7.根据权利要求6所述的语音监听及处理方法，其特征在于，第一时间段为6-10秒。

8.根据权利要求6所述的语音监听及处理方法，其特征在于，第二时间段为2秒。

9.根据权利要求6所述的语音监听及处理方法，其特征在于，在第一时间段的开始或在第二时间段中，提示用户选择候选检索结果。

10.根据权利要求1所述的语音监听及处理方法，其特征在于，在第一时间段的结束，提示用户自由发出语音指令。