CN104168353A

CN104168353A - 蓝牙耳机及其语音交互控制方法

Info

Publication number: CN104168353A
Application number: CN201410337203.XA
Authority: CN
Inventors: 杨晓东; 陈建; 祝锋; 冯宇红
Original assignee: Wuxi Vimicro Corp
Current assignee: Wuxi Vimicro Corp
Priority date: 2013-07-30
Filing date: 2014-07-15
Publication date: 2014-11-26
Anticipated expiration: 2034-07-15
Also published as: CN104079699A; CN103401984A; US9497317B2; US9553979B2; US20160006849A1; US9769296B2; US20160036968A1; CN104168353B; US20170134552A1

Abstract

本发明公开了一种蓝牙耳机及其语音交互控制方法，通过在所述蓝牙耳机中形成有关来电号码的语音通讯录条目，该语音通讯录条目中包括有用来来电提醒的个性化用户语音，从而实现在利用极少的资源的前提下对来电号码进行清晰的、个性化的语音提醒。此外，由于在语音通讯录条目中还可以包括由来电号码的用户的姓名或代号训练而成的参考模板，从而可以利用蓝牙耳机本身就可以实现语音拨打电话功能，摆脱了与蓝牙耳机配对的手机的种种限制。

Description

蓝牙耳机及其语音交互控制方法

技术领域

本发明涉及电子领域，尤其涉及一种个性化的蓝牙耳机及其语音交互控制方法。

技术背景

目前蓝牙耳机的应用已经非常普遍。用户在使用蓝牙耳机来监听是否有电话呼入与该蓝牙耳机相配对的移动通讯终端，比如手机或平板电脑等。目前有电话呼入所述移动通讯终端时，所述蓝牙耳机可以通过如下方法对打入的电话进行声音提示：第一，合成音调提示，比如普通电话的铃声或嘟嘟声等，这种提示方式仅能够提醒有电话呼入，无法获得更多的提示信息；第二、提示来电的电话号码，用户可以听到打入电话的号码，该号码通过蓝牙免提规范(HFP)规定的命令从移动通讯终端传给蓝牙，然而用户很难记住很多电话号码，多数情况下提示的号码数字并不能给用户带来有用信息；第三、声音提示来电号码在移动通信终端的电话簿中所记录的联系人名字，用户可以直接听到来电人在所述电话簿中的名字(如果有的话)，从而可以直观的得到来电人信息，该方法通过使用蓝牙电话本存取规范(PBAP)根据从HFP中获取的电话号码从移动通讯终端的电话簿中查询获得联系人名单，成功之后通过语音合成技术(TTS)将报出联系人名字，该方法的弊端是PBAP规范较为庞大，TTS算法则比较复杂，均对系统资源的开销较大，都不适合用于蓝牙耳机这样的小型嵌入式消费电子产品中，同时，TTS算法也很难同时支持多国语言、方言等。而对于不支持PBAP的移动通信终端，蓝牙耳机则无法获取来电人的名字，从而造成蓝牙耳机必须与支持PBAP协议的移动通信终端配对使用，限制了蓝牙耳机的通用性。此外，实践证明PBAP协议本身并不稳定，也就是说，即便是移动通讯终端和蓝牙耳机都支持PBAP协议，他们之间在利用PBAP协议实现电话本存取功能时同样可能由于PBAP协议本身的不稳定而导致电话本存取不成功，影响使用。

蓝牙耳机本身体积较小，并且在正常使用时都是戴在耳朵上，如果蓝牙耳机采用显示屏或触摸屏进行人机交互存在很多问题，比如成本高，需要将耳机从耳朵上摘下才能借助显示屏或触摸屏进行人机交互，操作非常不方便。而对于未设置显示屏或触摸屏的蓝牙耳机，其拨打电话的功能非常简单，通常只能实现回拨或事先设定好的一键拨号，很显然这远远无法满足用户的需求。用户非常期望能够通过语音来控制所述蓝牙耳机实现电话的拨打，这样可以彻底的解放出他们的双手。虽然目前手机上能够实现语音拨打功能，但是这种功能需要强大的计算资源，并会消耗很大的功耗，不适于应用于蓝牙耳机中。

因此，有必要已提出一种改进的技术方案来克服上述问题。

发明内容

有鉴于此，本发明的目的在于提供了一种蓝牙耳机及其语音交互控制方法，其可以为来电号码建立语音通讯录条目，进而可以在利用极少的资源的前提下对来电号码进行清晰的、个性化的语音提示或实现语音拨打电话。

为了达到上述目的，根据本发明的一方面，本发明提供一种具有语音通讯录建立模式的蓝牙耳机，其包括音频输入模块、处理模块、存储模块和音频输出模块。所述蓝牙耳机进入语音通讯录建立模式以为所述蓝牙耳机的一个来电号码建立一条语音通讯录条目，在语音通讯录建立模式时，所述音频输入模块采集一段用户语音，所述处理模块将所述用户语音或/和基于所述用户语音训练得到的参考模板与所述蓝牙耳机中的所述来电号码建立对应关系以为所述来电号码建立一条语音通讯录条目，并将所述来电号码的语音通讯录条目存储于所述存储模块中，一条或多条语音通讯录条目形成蓝牙耳机中的语音通讯录。

优选的，在所述蓝牙耳机与移动通讯终端完成配对后，所述移动通讯终端上有来电时，处理模块还用于基于蓝牙免提规范从移动通讯终端获得当前来电号码，并在确定已经为该当前来电号码建立了语音通讯录条目时提取所述当前来电号码对应的用户语音，并交由所述音频输出模块播放。所述处理模块在确定并未为该当前来电号码建立语音通讯录条目时，使得所述音频输出模块直接语音播报该当前来电号码，或播放预定的一段音频数据，或进行合成音调来电提示。

优选的，在语音通讯录建立模式下为一个来电号码建立语音通讯录条目时是为所述蓝牙耳机的最近的来电号码建立语音通讯录条目。在语音通讯录建立模式时，所述音频输入模块采集的用户语音中包含对应的来电号码所代表的用户的姓名或代号。

优选的，所述参考模板是从对应的用户语音中提取的特征参数生成的一组参考特征矢量序列。所述蓝牙耳机具有语音拨打模式，在语音拨打模式时，音频输入模块采集一段包括有呼叫用户的姓名或代号的用户语音，所述处理模块基于采集的包括有呼叫用户的姓名或代号的用户语音生成测试模板，其中所述测试模板为从所述用户语音中提取的特征参数生成的一组测试特征矢量序列；所述处理模块将所述测试模板与语音通讯录中的各个来电号码对应的参考模板进行匹配以找到与所述测试模板最终相匹配的参考模板，将与所述测试模板最终相匹配的参考模板对应的来电号码作为呼叫号码发送至与所述蓝牙耳机配对的移动通讯终端中，由移动通讯终端拨打来自所述蓝牙耳机中的呼叫号码。

优选的，将所述测试模板与语音通讯录中的各个来电号码对应的参考模板进行匹配以找到与所述测试模板最终相匹配的参考模板包括：将得到的测试模板与语音通讯录中的各个来电号码对应的参考模板进行匹配以生成所述测试模板与每个参考模板的匹配分数；将各个参考模板的匹配分数和预设的得分门限值以及预设的差距门限值进行比对，如果各个参考模板的匹配分数中的次小得分和最小得分的差值大于差距门限值，且所述最小得分小于得分门限值，则最小得分的参考模板被认为是与所述测试模板最终相匹配的参考模板。

根据本发明的另一个方面，本发明提供一种蓝牙耳机的语音交互控制方法，其包括：进入语音通讯录建立模式以为所述蓝牙耳机的一个来电号码建立一条语音通讯录条目；在语音通讯录建立模式时，所述蓝牙耳机采集一段用户语音，将所述用户语音或/和基于所述用户语音训练得到的参考模板与所述蓝牙耳机中的所述来电号码建立对应关系以为所述来电号码建立一条语音通讯录条目；将所述来电号码的语音通讯录条目存储于存储模块中，其中一条或多条语音通讯录条目形成蓝牙耳机中的语音通讯录。

优选的，在所述蓝牙耳机与移动通讯终端完成配对后，所述移动通讯终端上有来电时，所述蓝牙耳机基于蓝牙免提规范从移动通讯终端获得当前来电号码；在所述蓝牙耳机已经为该当前来电号码建立了语音通讯录条目时，所述蓝牙耳机播放该当前来电号码对应的用户语音。在所述蓝牙耳机并未为该当前来电号码建立语音通讯录条目时，所述蓝牙耳机直接语音播报该来电号码，或播放预定的一段音频数据，或进行合成音调来电提示。

优选的，在语音通讯录建立模式下为一个来电号码建立语音通讯录条目时是为所述蓝牙耳机的最近的来电号码建立语音通讯录条目。在语音通讯录建立模式时采集的用户语音中包含对应的来电号码所代表的用户的姓名或代号。

优选的，所述参考模板是从对应的用户语音中提取的特征参数生成的一组参考特征矢量序列。蓝牙耳机具有语音拨打模式，在语音拨打模式时，采集一段包含有呼叫用户的姓名或代号的用户语音；基于包含有呼叫用户的姓名或代号的用户语音生成测试模板，其中所述测试模板为从包含有呼叫用户的姓名或代号的用户语音中提取的特征参数生成的一组测试特征矢量序列；将所述测试模板与语音通讯录中的各个来电号码对应的参考模板进行匹配以找到与所述测试模板最终相匹配的参考模板；将与所述测试模板最终相匹配的参考模板对应的来电号码作为呼叫号码发送至与所述蓝牙耳机配对的移动通讯终端中，由移动通讯终端拨打来自所述蓝牙耳机中的呼叫号码。

与现有技术相比，本发明中的蓝牙耳机能够为来电号码建立语音通讯录条目，所述语音通讯录条目可以将所述用户语音或/和基于所述用户语音训练得到的参考模板与所述来电号码建立对应关系。这样使得所述蓝牙耳机可以在利用极少的资源的前提下实现对来电号码进行清晰的、个性化的语音提示，此外也为实现语音拨打电话奠定了基础。

附图说明

图1是本发明中的蓝牙耳机在一个实施例中的结构框图；

图2是本发明中的语音通讯录在一个实施例中的结构示意图；

图3是本发明中的蓝牙耳机的来电号码的语音播报方法在一个实施例中的流程示意图；

图4是本发明中的语音通讯录在另一个实施例中的结构示意图；

图5本发明提供的一种蓝牙耳机的语音拨打电话方法在一个实施例中的流程示意图；

图6为本发明中的语音通讯录在再一个实施例中的结构示意图；

图7为本发明中的一种离线语音端点检测方法在一个实施例中的流程示意图。

具体实施方式

下面结合说明书附图来说明本发明的具体实施方式。

如图1所示，其示出了本发明中的蓝牙耳机100的一个实施例，所述蓝牙耳机100包括音频输入模块110、存储模块130、处理模块140和音频输出模块160。所述音频输入模块110用于采集音频数据。所述音频输出模块160用于播放所述处理模块160输出的音频数据。

为了方便用户的使用，提高用户的使用体验，丰富蓝牙耳机的功能，本发明的蓝牙耳机100能够支持语音交互控制。在一个实施例中，所述蓝牙耳机100可以具有如下语音交互控制功能的一种或多种：第一、所述蓝牙耳机100可以以很小的资源代价实现来电号码的个性化语音播报；第二、所述蓝牙耳机100可以在各种环境下基于语音识别来实现语音拨打指定用户的电话，其语音识别的成功率很高，用户体验很好。下文将对这些语音交互控制功能逐一进行介绍。

来电号码的个性化语音播报

所述蓝牙耳机100具有语音通讯录建立模式，用户可以通过蓝牙耳机100上的指令输入接口(未图示)驱使所述蓝牙耳机100进入语音通讯录建立模式。所述指令输入接口可以一个按键，也可以是语音命令输入接口。所述蓝牙耳机100在语音通讯录建立模式下可以为所述蓝牙耳机的一个来电号码建立一条语音通讯录条目。在语音通讯录建立模式时，所述音频输入模块采集一段用户语音，该段语音可以是用户读出的该来电号码的用户的姓名或代号等的语音，用户可以用任何语言、方言(比如英语、汉语、四川话等)来表达，所述处理模块140将采集的用户语音与所述来电号码建立对应关系以为所述来电号码建立一条语音通讯录条目，并将所述来电号码的语音通讯录条目存储于所述存储模块130中。需要知道的是，所述处理模块130在将采集的用户语音存储为一条语音通讯录条目时，可以事先对采集的用户语音进行了一些处理，比如编码等，这不属于本发明的重点，因此在本文中并未详细描述。本文中的用户的姓名或代号可以表示姓名、代号、昵称、称谓等能指代一个用户的所有称呼。

在一个优选的实施例中，由于蓝牙耳机100结构比较简单，通常不设置显示屏，并且通常只缓存一个最近的来电号码，因此在语音通讯录建立模式下为一个来电号码建立语音通讯录条目时，所述蓝牙耳机100通常是为所述蓝牙耳机的最近的来电号码建立语音通讯录条目。举例来说，在用户通过所述蓝牙耳机接听了一个来电后，所述蓝牙耳机只缓存有该最近呼入的来电号码，此时可以使得蓝牙耳机进入语音通讯录建立模式，并为该最近的来电号码建立语音通讯录条目。

如图2所示，其为本发明中建立的语音通讯录在一个实施例中的原理示意图，其中显示了在蓝牙耳机的存储模块130中已经为n个来电号码建立了语音通讯录条目，其中来电号码1和用户语音1形成有对应关系，来电号码2和用户语音2形成有对应关系，来电号码n和用户语音n形成有对应关系，每条具有对应关系的来电号码和用户语音可以被称为是一条语音通讯录条目，所有的语音通讯录条目联合形成了本发明中的蓝牙耳机中的语音通讯录，该语音通讯录由于包含了用户个性化的语音信息而变得独一无二。

所述蓝牙耳机100通常可以与移动通讯终端(未图示)，比如手机、平板电脑等建立无线连接，并代所述移动通讯终端接听或挂断呼入所述移动通讯终端的来电。在一个实施例中，在所述蓝牙耳机100与移动通讯终端完成配对后，所述移动通讯终端上有来电时，所述处理模块140基于蓝牙免提规范(HFP)从移动通讯终端获得当前来电号码，并确定是否在所述存储模块130中已经为该当前来电号码建立了语音通讯录条目。如果在所述存储模块130中已经为该当前来电号码建立了语音通讯录条目，则所述处理模块140提取该当前来电号码对应的用户语音交由所述音频输出模块110播放。这样，在实现了个性化语音来电提醒的同时，也绕开了复杂的蓝牙电话本存取规范(PBAP)，使得语音提醒不受移动通讯终端是否支持PBAP的限制，也不受提醒语音的语言类型的限制，实现简单、成本低。

如果所述存储模块中并未为该当前来电号码建立语音通讯录条目，则所述蓝牙耳机100可以直接语音播报该当前来电号码，也可以播放预定的一段音频数据，比如事先录好的一段读出“未语音记录号码”的用户语音，再比如一段事先保存的一段音乐，还可以进行合成音调来电提示，比如普通电话的铃声或嘟嘟声等。

如图3所示，本发明提供了一种蓝牙耳机100的来电号码的个性化语音播报方法，其包括如下步骤。

步骤310，所述蓝牙耳机进入语音通讯录建立模式以为所述蓝牙耳机的一个来电号码建立一条语音通讯录条目。

优选的，在语音通讯录建立模式下为一个来电号码建立语音通讯录条目时，是为所述蓝牙耳机的最近的来电号码建立语音通讯录条目。

步骤320，在语音通讯录建立模式时，所述蓝牙耳机记录一段用户语音，所述用户语音中可以包含对应的来电号码所代表的用户的姓名或代号，将记录的用户语音与所述来电号码建立对应关系以形成所述来电号码的语音通讯录条目。

步骤330，在所述蓝牙耳机100与移动通讯终端完成配对后，所述移动通讯终端上有来电时，所述蓝牙耳机100基于蓝牙免提规范从移动通讯终端获得当前来电号码。

步骤340，所述蓝牙耳机100确定是否已经为该当前来电号码建立了语音通讯录条目，如果是，则进入步骤350，如果否，则进入步骤360。

步骤350，在所述蓝牙耳机已经为该当前来电号码建立了语音通讯录条目时，所述蓝牙耳机播放该当前来电号码对应的用户语音。

步骤360，在所述蓝牙耳机并未为该当前来电号码建立语音通讯录条目时，所述蓝牙耳机直接语音播报该来电号码，或播放预定的一段音频数据，或进行合成音调来电提示。

本发明中的蓝牙耳机和其来电号码的个性化语音播报方法，其能够为最近的来电号码建立语音通讯录条目，这样在所述移动通讯终端上有来电时，所述蓝牙耳机可以基于蓝牙免提规范从移动通讯终端获得当前来电号码，在所述蓝牙耳机已经为该当前来电号码建立了语音通讯录条目时，所述蓝牙耳机可以播放该当前来电号码对应的用户语音。这样，使得本发明中的蓝牙耳机具有如下优点中的一个或几个：第一、可以实现个性化提醒，用户可以根据需要录制各种搞怪的、有趣的语音，并且录制的语音可以是各种语言、方言等，这样在基于蓝牙耳机进行来电提醒时用户体验很好；第二、可以使得蓝牙耳机绕开复杂的、不稳定的蓝牙电话本存取规范，而只需要使得蓝牙耳机符合蓝牙免提规范(HFP)就可以实现来电的语音播报功能；第三、不需要采用复杂的TTS，降低了成本和功耗，同时脱离了语言种类的限制；第四、不需要对于其配对的移动通讯终端进行任何改动就可以实现来电的个性化语音播报功能，降低了对移动通讯终端的要求，也就是说，即便该移动通讯终端自身不支持蓝牙耳机的语音播放提醒，只要其支持普通的蓝牙免提规范(HFP)，通过将本发明的蓝牙耳机与该移动通讯终端进行配对就可以实现个性化的来电的语音播报功能。

语音拨打电话

类似在上文中有关来电号码的个性化语音播报中介绍的，在此部分所述蓝牙耳机100也具有语音通讯录建立模式，所述蓝牙耳机100在语音通讯录建立模式下可以为所述蓝牙耳机的一个来电号码建立一条语音通讯录条目。不同之处在于，在此部分所述语音通讯录条目的结构发生了一些改变，接下来将详细描述。

在语音通讯录建立模式时，所述音频输入模块110采集一段用户语音，该段语音可以是用户读出的该来电号码的用户的姓名或代号等的语音，用户可以用任何语言、方言(比如英语、汉语、四川话等)来表达，所述处理模块140基于所述音频输入模块采集的用户语音训练构建一个参考模板，并将训练得到的参考模板与所述来电号码建立对应关系以构建所述来电号码的语音通讯录条目，其中该参考模板是从对应的用户语音中提取的特征参数生成的一组参考特征矢量序列。

类似上文中有关来电号码的个性化语音播报中介绍的，在语音通讯录建立模式下为一个来电号码建立语音通讯录条目时，所述蓝牙耳机100通常是为所述蓝牙耳机的最近的来电号码建立语音通讯录条目。

如图4所示，其为本发明中建立的语音通讯录在另一个实施例中的原理示意图，其中显示了在蓝牙耳机的存储模块130中已经为n个来电号码建立了语音通讯录条目，其中来电号码1和用户语音的参考模板1形成有对应关系，来电号码2和用户语音的参考模板2形成有对应关系，来电号码n和用户语音的参考模板n形成有对应关系，每条具有对应关系的来电号码和用户语音的参考模板可以被称为是一条语音通讯录条目，所有的语音通讯录条目联合形成了所述语音通讯录，该语音通讯录由于包含了用户个性化的语音的参考模板而变得独一无二。

所述蓝牙耳机100还具有语音拨打模式。用户可以通过蓝牙耳机100上的指令输入接口使得所述蓝牙耳机100进入语音拨打模式。

在语音拨打模式时，所述音频输入模块110采集一段包含呼叫用户的姓名或代号时的用户语音，所述处理模块140从采集的用户语音中提取待测用户语音，基于提取的待测用户语音生成测试模板，将得到的测试模板与语音通讯录中的各个来电号码对应的参考模板进行匹配以识别出与所述测试模板最终相匹配的参考模板，将与所述测试模板最终相匹配的参考模板对应的来电号码作为呼叫号码发送至与所述蓝牙耳机100配对的移动通讯终端中，由移动通讯终端拨打来自所述蓝牙耳机100传输过来的呼叫号码，从而实现语音拨打功能，其中所述测试模板为从提取的待测用户语音中提取的特征参数生成的一组测试特征矢量序列。

在一个应用中，所述蓝牙耳机100与张三的手机实现配对，在张三使用所述蓝牙耳机100接听到了王鹏的来电(其电话号码为1380023457)后，张三希望在蓝牙耳机100中为王鹏建立语音通讯录条目，可以使得所述蓝牙耳机100进入语音通讯录建立模式。在语音通讯录建立模式时，张三可以以自己的方式(比如四川口音)说出王鹏的姓名或代号，蓝牙耳机100对张三的用户语音进行记录，基于记录的张三的用户语音训练构建一个参考模板，并将训练得到的参考模板与所述来电号码1380023457建立对应关系以构建所述来电号码的语音通讯录条目，这样就在蓝牙耳机100中为王鹏建立了语音通讯录条目。在语音拨打模式下，只要张三对着蓝牙耳机100再次说出张三的姓名或代号，蓝牙耳机100就可以找到与此次语音输入信号的测试模板最终相匹配的参考模板及该参考模板对应的来电号码1380023457，蓝牙耳机将来电号码1380023457作为呼叫号码发送至与所述蓝牙耳机100配对的手机中，由手机拨打该电话号码1380023457，从而实现语音拨打功能。需要注意的是，形成参考模板的用户语音和用来进行语音识别的用户语音应该是同一个人，比如都是张三，这种方案被称为基于孤立词的特定人语音识别算法。孤立词，指的是用户发音方式，需要为识别联系人列表中的每个联系人建立一个参考模板；特定人，指的是识别和训发音人为同一个人，很容易支持多种语音和地方方言的支持。

如图5所示，本发明提供了一种蓝牙耳机100的语音拨打电话的方法500，其包括如下步骤。

步骤510，所述蓝牙耳机进入语音通讯录建立模式以为所述蓝牙耳机的一个来电号码建立一条语音通讯录条目。优选的，所述来电号码为所述蓝牙耳机的最近的来电号码。可以通过指令输入接口使得所述蓝牙耳机进入语音通讯录建立模式。

步骤520，在语音通讯录建立模式时，所述蓝牙耳机100记录一段包含所述来电号码的用户的姓名或代号的用户语音，基于这段用户语音训练得到参考模板，其中所述参考模板是从这段用户语音中提取的特征参数生成的一组参考特征矢量序列。这个过程被称为参考模板的训练，用户可以用任何语言、方言(比如英语、汉语、四川话等)来读出该来电号码的用户的姓名或代号。

步骤530，将训练得到的参考模板与所述来电号码建立对应关系以构建所述来电号码的语音通讯录条目。

重复步骤510至530可以在所述蓝牙耳机100中建立具有用户语音的参考模板的语音通讯录。

步骤535，使得所述蓝牙耳机100进入语音拨打模式。可以通过指令输入接口使得所述蓝牙耳机进入语音通讯录建立模式。

步骤540，在语音拨打模式时，所述蓝牙耳机100采集一段用户语音。由于此时用户语音并未经过语音端点检测，因此其也可以别称为原始用户语音。

步骤550，通过语音端点检测(Voice Activity Detector,VAD)从采集的用户语音中提取待测用户语音。

在蓝牙耳机的实际环境中采集的原始用户语音不仅仅包括用户说话的语音信号，还会包括背景的噪音信号，为了后续的语音识别提供强有力的支持使得后续的语音识别的成功率能够一直维持较高的水平，因此非常有必要将实际的用户语音(即前述的待测用户语音)从采集的用户语音(原始语音信号)中抽出，这个过程就被称为语音端点的检测。

步骤560，从待测用户语音中提取特征参数，生成待测特征矢量序列，其中所述待测特征矢量序列构成测试模板。

步骤570，将得到的测试模板与语音通讯录中的各个来电号码对应的参考模板进行匹配以识别出与所述测试模板最终相匹配的参考模板。

具体的，所述步骤570包括：将得到的测试模板与语音通讯录中的各个来电号码对应的参考模板进行匹配以生成所述测试模板与每个参考模板的匹配分数；将各个参考模板的匹配分数和预设的得分门限值以及预设的差距门限值进行比对，如果各个参考模板的匹配分数中的次小得分和最小得分的差值大于差距门限值，且所述最小得分小于得分门限值，则最小得分的参考模板被认为是与所述测试模板最终相匹配的参考模板。

步骤580，将与所述测试模板最终相匹配的参考模板对应的来电号码作为呼叫号码发送至与所述蓝牙耳机100配对的移动通讯终端中，由移动通讯终端拨打来自所述蓝牙耳机100传输过来的呼叫号码，从而基于蓝牙耳机实现了语音拨打功能。

在本发明中的蓝牙耳机和其语音拨打电话的方法500中，能够为最近的来电号码形成对应的用户语音的参考模板，从而构成语音通讯录条目，这样通过蓝牙耳机可以在语音拨打模式下实现语音拨打电话，给用户带来很大的方便。这样，使得本发明中的蓝牙耳机及其语音拨打方法具有如下优点中的一个或几个：第一、不论移动通信终端是否支持蓝牙耳机的语音拨打功能，使用本发明中的蓝牙耳机均可以实现语音拨打电话功能；第二、不需要对于其配对的移动通讯终端进行任何改动就可以通过蓝牙耳机来实现语音拨打电话功能，降低了对移动通讯终端的要求；第三、语音识别在蓝牙耳机中完成，这样蓝牙耳机只需要将需要呼叫的电话号码通过蓝牙相关协议传输给移动通讯终端即可，而不需要传输用户语音，这样可以降低蓝牙的功耗，实现更为简便；第四、由于蓝牙耳机中存储了语音通讯录，这样即便是用户换了一个新手机，他在使用所述蓝牙耳机与所述新手机配对后，仍然可以采用蓝牙耳机语音拨打熟悉的朋友的电话；第五，相较于显示屏或触摸屏的人机交互方式，语音拨打电话能够很好的应用于蓝牙耳机中，用户非常操作。

来电号码的个性化语音播报和语音拨打电话的组合

在一个实施例中，所述蓝牙耳机100还可以同时支持来电号码的个性化语音播报和语音拨打电话的功能。为了同时实现来电号码的个性化语音播报和语音拨打电话的功能，最重要的就是改变语音通讯录的结构。

在此实施例中，在所述蓝牙耳机100进入语音通讯录建立模式后，同样需要所述音频输入模块110采集一段用户语音，该段语音可以是用户读出的该来电号码的用户的姓名、代号或昵称等的语音，所述处理模块140将采集的用户语音与所述来电号码建立对应关系。此外，所述处理模块140还会基于所述音频输入模块采集的用户语音训练构建一个参考模板，并将训练得到的参考模板与所述来电号码建立对应关系。这样，来电号码、用户语音、参考模板三者建立了对应关系，它们共同形成一条语音通讯录条目。很显然，这里只需要录制一次用户语音，就可以建立如图6所示的语音通讯录条目，用户使用非常方便。

如图6所示，其为本发明中的语音通讯录在再一个实施例中的结构示意图，其中显示了在蓝牙耳机的存储模块130中已经为n个来电号码建立了语音通讯录条目，其中来电号码1、用户语音1、用户语音的参考模板1形成有对应关系，来电号码2、用户语音2和用户语音的参考模板2形成有对应关系，来电号码n和参考模板用户语音n形成有对应关系，每条具有对应关系的来电号码、用户语音和用户语音的参考模板可以被称为是一条语音通讯录条目。

形成了如图6所示的语音通讯录条目后，所述蓝牙耳机既可以实现上文中描述的来电号码的个性化语音播报功能，也可以实现语音拨打电话。

孤立词特定人语音识别

语音拨打功能实现的关键都是语音识别技术，所述语音识别技术通常包括：参考模板的训练、用户语音采集、语音端点检测、测试模板生成和模板匹配识别。

其中上文中的步骤520涉及参考模板的训练，上文中的步骤540涉及用户语音采集，上文中的步骤550涉及语音端点检测，上文中的步骤560涉及测试模板生成，上文中的步骤570涉及模板匹配识别。上文中对于语音识别中的各个步骤做了初步介绍，下面将逐一进行详细介绍。

下面介绍一下步骤520中的参考模板的训练的一种实现方式。

用户读出需要训练的来电号码的用户的姓名或代号，所述蓝牙耳机100对此进行记录得到一段用户语音，提取该段用户语音中各帧的特征参数，该特征参数可以以Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)中的C1-C12倒谱分量和1阶差分系数构成的24维特征参数表示，将获取到的各帧的24维特征参数构成一组参考特征矢量序列，其可以A＝{a₁,a₂,...,a_I}表示，其中α为每帧信号的C1-C12倒谱分量和1阶差分系数构成的24维特征参数，I为最后一帧语音信号的帧序号。一般，每帧语音信号对应时间长度为10～20ms。

步骤540中的用户语音采集比较常规，这里就不再重复介绍了。步骤550中的语音端点检测将在下文做单独介绍。

下面介绍一下步骤560中的测试模板生成的具体执行。

从待检测语音信号中提取特征参数，该特征参数可以是由步骤520中的提到的MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数表示，提取到的24维特征参数构成待测特征矢量序列，该待测特征矢量序列即为测试模板，该测试模板可以以B＝{b₁,b₂,...,b_J}表示。

下面介绍一下570中的模板匹配识别的一种实现方式。

首先，利用动态时间规整(Dynamic Time Warping，DTW)算法，将所述测试模板的待测特征矢量序列中由MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数和多个参考模板中的每个参考模板的参考特征矢量序列中由MFCC的CI-C12倒谱分量和1阶差分系数构成的24维特征参数分别进行运算，获取所述测试模板相对于每个参考模板的匹配分数。

其次，将各个参考模板的匹配分数和预设的得分门限值以及预设的差距门限值进行比对，如果各个参考模板的匹配分数中的次小得分和最小得分的差值大于差距门限值，且所述最小得分小于得分门限值，则最小得分的参考模板被认为是与所述测试模板最终相匹配的参考模板，其中预设的得分门限值可以以threhold_score表示，预设的差距门限值可以以threhold_dist表示。

在一个示例中，以语音通讯录中训练了4个用户的姓名或代号为例，该4个用户的姓名或代号可以是张三、李四、王五和周六，利用DTW算法，将待测特征矢量序列分别与各个命令词对应的参考模板的参考特征矢量序列进行匹配后，可以获得一组匹配分数，假如张三、李四、王五和周六获得的匹配分数分别为113，302，278，269，在这一组匹配分数中，最小得分为113，最小得分和次小得分的差值为269-113＝156，假设预设的得分门限值threhold_score的值为200，差距门限值threhold_dist的值为100，最小得分113和次小得分269的差值大于差距门限值100，且最小得分113小于得分门限值200，这样最小得分113的参考模板，即张三的参考模板将被认为是与所述测试模板最终相匹配的参考模板。

得分门限值和差距门限值可以根据各种各样的方式获得。在一个实施例中，可以通过经验来设置，随后根据误识别率和误拒绝率来确定识别效果，看是否需要调整两个门限值，直到得到最优的得分门限值和差距门限值。

在一个优选的实施例中，在预设环境下，对语音通讯录外的用户名和语音通讯录内的用户名分别进行录音和特征提取，将获取到的特征矢量序列与所述参考模板集中的各个参考模板进行匹配，生成所述特征矢量序列的得分，利用直方图统计方法，生成得分门限值和差距门限值，实验选取语音通讯录内的用户名有张三、李四、王五和周六，实验选取语音通讯录外的用户名有张战、李师、王虎、周陆以及咳嗽声，共5个。

比如，选取20位特定人，该20位特定人男女可以各占一半。首先在安静会议室环境下进行集内命令词训练，得到每个特定人语音通讯录内的用户名的参考模板集。然后在三种环境下，比如办公室、会议室、户外，进行录音，可以对每个语音通讯录内的用户名录10遍，可以采集到的语音通讯录内的用户名样本每个特定人有4*3*10＝120个，可以采集到的语音通讯录外的用户名样本每个特定人有5*3*10＝150个，每个特定人总共采集到的样本有270个。针对每个特定人，对这270个样本，可以进行DTW匹配计算，将该270个样本和对应特定人的参考模板集进行匹配，得到270组匹配分数。20位特定人可以得到270*20＝5400组匹配分数。然后对这5400组匹配分数统计出每一组匹配分数的最小得分以及最小得分和次小得分的差值，可以使用直方图统计方法，通过分析集内命令和集外命令匹配分数的最小得分以及最小得分和次小得分的差值的分布，获得得分门限值和差距门限值。

在本发明中，在threhold_score参数取值为200，而threhold_dist参数取值为100时，集内命令的识别率为95％，而集外命令拒绝率为95％。当采用传统的单一门限值方法，即threhold_score参数取值为200时，集内命令的识别率为95％，而集外命令的拒绝率为70％。显然采用双门限判决方法后，在保证集内命令识别率不下降的前提下去，集外命令的误识别率由30％降低为5％。

在本发明中的语音识别方案中，通过设置得分门限值和差距门限值，可以降低了集外命令词的误识别率，这样实现了特定人孤立词识别时较低的误识别率和误拒绝率，而且用户体验性较好。

离线语音端点检测

语音端点检测在语音识别应用中具有重要的作用，好的语音端点检测算法能够提供好的系统鲁棒性，无论用户在何种环境下使用，语音识别率都能维持在同一水平上几乎保持不变。目前，孤立词语音识别通常采用实时语音端点检测算法。采用实时语音端点检测，可以在用户讲话完毕之后马上进行识别，感觉不到延迟。但该方法对噪声比较敏感，当外界环境存在非平稳噪声，例如人声、音乐声等干扰较强的噪声时，对实时语音端点检测算法影响很大，错误判定孤立词语音的起点和终点概率很高。因此采用实时端点检测算法很难在噪声较强的情况下准确检测到孤立词的语音端点。

在本发明中提供了一种离线语音端点检测方法，如图7所示，其可以用于上文中步骤550中，其包括如下步骤。

步骤801，获取多帧连续的语音数据。

在一个实施例中，所述蓝牙耳机100采集语音信号，将采集的语音信号进行模数转换形成语音数据，之后进行PCM编码得到PCM数据，将PCM数据以帧为单位进行处理。

步骤802，提取每帧语音数据的特征参数和语音能量值。

所述特征参数包括参考特征矢量，所述参考特征矢量可以包括但不限于：梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)或线性预测系数(Linear Prediction Coefficient，LPC)。

步骤803，获取所述多帧的语音数据中具有最大的语音能量值的语音数据帧。

步骤804，判断所述最大的语音能量值是否低于第一能量门限值。当最大的语音能量值不低于语音能量的第一能量门限值时，继续所述离线语音端点检测，执行步骤805，否则直接结束此次离线语音端点检测。

步骤805，从参考模板库中选择一个未被选择过的参考模板。

所述参考模板库由一个或多个训练而成的参考模板组成，所述参考模板的训练过程上文中已经描述，这里不再重复。

步骤806，根据当前选择的参考模板的长度和具有最大的语音能量值的语音数据帧确定所述多帧语音数据中孤立词语音的搜索范围和搜索窗长度的范围.

在一个实施例中，以具有最大的语音能量值的语音数据帧为中心，向语音数据的起始方向和终止方向进行扩展，其扩展的长度以当前选择的参考模板的长度为参考，以最终确定搜索范围。将获取的当前参考模板的长度用L来表示，在一个具体的例子中，搜索范围可以是以具有最大的语音能量值的语音数据帧为中心向两个方向各扩展一个L。在另一个例子中，可以向两个方向各扩展2L。搜索范围的大小与L的关系可以根据需要设定。

此外，根据当前参考模板的长度L确定搜索窗长度,比如搜索窗的长度的范围为[0.5L,2L]。

步骤807，根据预设的第一搜索步长确定所述搜索范围内的多个搜索起点i；

具体的，在所述搜索范围内，由所述搜索范围的一侧端点开始，每步进一个第一搜索步长S1，都是一个新的搜索起点i，由此确定所述搜索范围内全部的搜索起点i。

步骤808，根据预设的第二搜索步长和所述搜索窗长度的范围确定多个搜索窗长度j；

具体的，如前述步骤806所述，搜索窗长度j的范围为[0.5L,2L]，则在这个范围中每步进一个第二搜索步长S2，都是一个确定的搜索窗长度j。即搜索窗长度j为：0.5L，0.5L+S2，0.5L+2S2，0.5L+3S2，……，2L。

上述第一搜索步长S1和第二搜索步长S2分别可以根据需要进行设定，可以相同或者不同。它们分别以帧为单位，例如可以设定为1帧、2帧、5帧等等。

步骤809，对所述搜索范围内的每个搜索起点i按照所述多个搜索窗长度j分别进行搜索，根据搜索起点和搜索窗长度的每个组合(i，j)，获取一个相应的测试模板。

具体的，对确定的每一个搜索起点，都逐步改变搜索窗长度j，按照j＝0.5L，0.5L+S2，0.5L+2S2，0.5L+3S2，……，2L依次进行搜索，从而对于每一个确定的(i,j),都能获得一个对应的测试模板。

当第一步长S1和第二步长S2都为1帧的时候，该搜索为逐点移动搜索。

步骤810，利用DTW算法计算每一所述测试模板与当前选择的参考模板的匹配距离得分。

步骤811，识别与当前选择的参考模板的匹配距离得分最小的测试模板，检测该测试模板的语音能量平均值。

步骤812，判断与当前选择的参考模板的匹配距离得分最小的测试模板的语音能量平均值是否低于第二能量门限值，如果是，执行步骤814；否则，执行步骤813。

有关最小的测试模板的语音能量平均值的计算以及后续的与第二能量门限值的比较，是为了滤除一些容易出现误识别的情况，提高识别率。在一些实施例中，也可以不执行最小的测试模板的语音能量平均值的计算以及后续的与第二能量门限值的比较，而直接从步骤811进入步骤813。

步骤813，记录所述与当前选择的参考模板的匹配距离得分最小的测试模板的搜索窗的起点和终点，并记录该测试模板与当前选择的参考模板的最小的匹配距离得分。

步骤814，判断所述参考模板库中是否还有剩余的未被选择过的参考模板。

当所述参考模板库中还有剩余的未被选择过的参考模板时，返回到步骤805，当所述参考模板库中没有剩余的未被选择过的参考模板时，执行步骤816。

步骤816，从记录的与各个选择的参考模板的匹配距离得分最小的测试模板中选择匹配距离得分最小的测试模板，将所述选择的测试模板的搜索窗的起点和终点作为孤立词语音的端点，即找到了用于进行语音识别的待测语音。

需要说明的是，如果所述参考模板库中只包括一个参考模板，并且与该参考模板的匹配距离得分最小的测试模板的语音能量平均值不低于第二门限值，则在步骤816中直接将与这一个参考模板的匹配距离得分最小的测试模板的搜索窗的起点和终点作为孤立语音词的端点。但如果与该参考模板的匹配距离得分最小的测试模板的语音能量平均值低于第二门限值时，则跳过步骤816，认为没有识别到有效语音数据，退出离线语音端点检测。

通过本发明实施例提供的离线语音检测方法，能够准确有效的对孤立词的语音端点进行检测。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种具有语音通讯录建立模式的蓝牙耳机，其特征在于，其包括音频输入模块、处理模块、存储模块和音频输出模块，

所述蓝牙耳机进入语音通讯录建立模式以为所述蓝牙耳机的一个来电号码建立一条语音通讯录条目，在语音通讯录建立模式时，所述音频输入模块采集一段用户语音，所述处理模块将所述用户语音或/和基于所述用户语音训练得到的参考模板与所述蓝牙耳机中的所述来电号码建立对应关系以为所述来电号码建立一条语音通讯录条目，并将所述来电号码的语音通讯录条目存储于所述存储模块中，一条或多条语音通讯录条目形成蓝牙耳机中的语音通讯录。

2.如权利要求1所述的蓝牙耳机，其特征在于，在所述蓝牙耳机与移动通讯终端完成配对后，所述移动通讯终端上有来电时，处理模块还用于基于蓝牙免提规范从移动通讯终端获得当前来电号码，并在确定已经为该当前来电号码建立了语音通讯录条目时提取所述当前来电号码对应的用户语音，并交由所述音频输出模块播放。

3.如权利要求2所述的蓝牙耳机，其特征在于，所述处理模块在确定并未为该当前来电号码建立语音通讯录条目时，使得所述音频输出模块直接语音播报该当前来电号码，或播放预定的一段音频数据，或进行合成音调来电提示。

4.如权利要求1所述的蓝牙耳机，其特征在于，在语音通讯录建立模式下为一个来电号码建立语音通讯录条目时是为所述蓝牙耳机的最近的来电号码建立语音通讯录条目。

5.如权利要求1所述的蓝牙耳机，其特征在于，在语音通讯录建立模式时，所述音频输入模块采集的用户语音中包含对应的来电号码所代表的用户的姓名或代号。

6.如权利要求1-5任一所述的蓝牙耳机，其特征在于，所述参考模板是从对应的用户语音中提取的特征参数生成的一组参考特征矢量序列。

7.如权利要求6所述的蓝牙耳机，其特征在于，其具有语音拨打模式，在语音拨打模式时，音频输入模块采集一段包括有呼叫用户的姓名或代号的用户语音，所述处理模块基于采集的包括有呼叫用户的姓名或代号的用户语音生成测试模板，其中所述测试模板为从所述用户语音中提取的特征参数生成的一组测试特征矢量序列；所述处理模块将所述测试模板与语音通讯录中的各个来电号码对应的参考模板进行匹配以找到与所述测试模板最终相匹配的参考模板，将与所述测试模板最终相匹配的参考模板对应的来电号码作为呼叫号码发送至与所述蓝牙耳机配对的移动通讯终端中，由移动通讯终端拨打来自所述蓝牙耳机中的呼叫号码。

8.如权利要求7所述的蓝牙耳机，其特征在于，将所述测试模板与语音通讯录中的各个来电号码对应的参考模板进行匹配以找到与所述测试模板最终相匹配的参考模板包括：

将得到的测试模板与语音通讯录中的各个来电号码对应的参考模板进行匹配以生成所述测试模板与每个参考模板的匹配分数；

将各个参考模板的匹配分数和预设的得分门限值以及预设的差距门限值进行比对，如果各个参考模板的匹配分数中的次小得分和最小得分的差值大于差距门限值，且所述最小得分小于得分门限值，则最小得分的参考模板被认为是与所述测试模板最终相匹配的参考模板。

9.一种蓝牙耳机的语音交互控制方法，其特征在于，其包括：

进入语音通讯录建立模式以为所述蓝牙耳机的一个来电号码建立一条语音通讯录条目；

在语音通讯录建立模式时，所述蓝牙耳机采集一段用户语音，将所述用户语音或/和基于所述用户语音训练得到的参考模板与所述蓝牙耳机中的所述来电号码建立对应关系以为所述来电号码建立一条语音通讯录条目；

将所述来电号码的语音通讯录条目存储于存储模块中，其中一条或多条语音通讯录条目形成蓝牙耳机中的语音通讯录。

10.如权利要求9所述的蓝牙耳机的语音交互控制方法，其特征在于，其还包括：

在所述蓝牙耳机与移动通讯终端完成配对后，所述移动通讯终端上有来电时，所述蓝牙耳机基于蓝牙免提规范从移动通讯终端获得当前来电号码；

在所述蓝牙耳机已经为该当前来电号码建立了语音通讯录条目时，所述蓝牙耳机播放该当前来电号码对应的用户语音。

11.如权利要求10所述的蓝牙耳机的语音交互控制方法，其特征在于，其还包括：在所述蓝牙耳机并未为该当前来电号码建立语音通讯录条目时，所述蓝牙耳机直接语音播报该来电号码，或播放预定的一段音频数据，或进行合成音调来电提示。

12.如权利要求9所述的蓝牙耳机的语音交互控制方法，其特征在于，在语音通讯录建立模式下为一个来电号码建立语音通讯录条目时是为所述蓝牙耳机的最近的来电号码建立语音通讯录条目。

13.如权利要求9所述的蓝牙耳机的语音交互控制方法，其特征在于，在语音通讯录建立模式时采集的用户语音中包含对应的来电号码所代表的用户的姓名或代号。

14.如权利要求9-13任一所述的蓝牙耳机的语音交互控制方法，其特征在于，所述参考模板是从对应的用户语音中提取的特征参数生成的一组参考特征矢量序列。

15.如权利要求14所述的蓝牙耳机的语音交互控制方法，其特征在于，蓝牙耳机具有语音拨打模式，所述方法还包括：在语音拨打模式时，

采集一段包含有呼叫用户的姓名或代号的用户语音；

基于包含有呼叫用户的姓名或代号的用户语音生成测试模板，其中所述测试模板为从包含有呼叫用户的姓名或代号的用户语音中提取的特征参数生成的一组测试特征矢量序列；

将所述测试模板与语音通讯录中的各个来电号码对应的参考模板进行匹配以找到与所述测试模板最终相匹配的参考模板；

将与所述测试模板最终相匹配的参考模板对应的来电号码作为呼叫号码发送至与所述蓝牙耳机配对的移动通讯终端中，由移动通讯终端拨打来自所述蓝牙耳机中的呼叫号码。

16.如权利要求15所述的蓝牙耳机的语音交互控制方法，其特征在于，将所述测试模板与语音通讯录中的各个来电号码对应的参考模板进行匹配以找到与所述测试模板最终相匹配的参考模板包括：