CN112216277A

CN112216277A - 通过耳机进行语音识别的方法、耳机、语音识别装置

Info

Publication number: CN112216277A
Application number: CN201910629195.9A
Authority: CN
Inventors: 刘绍斌; 唐强; 刘佳
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2021-01-12
Also published as: US20210012773A1; EP3764352A1; WO2021008458A1; EP3764352B1; US11348584B2

Abstract

本申请提供了一种通过耳机进行语音识别的方法，包括通过第一麦克风接收F音频数据；识别所述F音频数据中是否含有语音唤醒词对应的数据信息。其中，所述F音频数据包括第一时间段内接收并缓存的第一音频数据和第二时间段内接收的第二音频数据。本申请提供的通过耳机进行语音识别的方法，将第一时间段内接收并缓存的第一音频数据和第二时间段内接收的第二音频数据进行合并识别，确保在进行语音识别唤醒词时不会丢词。

Description

通过耳机进行语音识别的方法、耳机、语音识别装置

技术领域

本申请涉及语音识别技术领域，具体是涉及一种通过耳机进行语音识别的方法、耳机、语音识别装置。

背景技术

随着人工智能(Artificial Intelligence,AI)技术的进步，语音控制技术在手机、平板电脑等消费电子产品上的应用越来越广泛。现在市面上有许多的语音助手产品，例如苹果公司的Siri，谷歌公司的Google Assistant，微软公司的微软小冰等。这些语音助手产品安装在手机、平板电脑等终端设备中，或者安装在智能音箱、机器人等智能产品中，通过识别用户的语音指令来执行相应的操作，极大的方便了用户的使用。

语音助手在使用中基本都是先检测到人体振动再打开MIC的录音，然而，这个过程需要一定的时间，这样在进行语音识别唤醒词时，会有部分词被丢失，造成识别的不可靠。

发明内容

本申请要解决的技术问题在于提供一种通过耳机进行语音识别的方法、耳机、语音识别装置，以解决语音识别唤醒词时被漏掉一部分声音使得识别率低的问题。

本申请实施例提供了一种通过耳机进行语音识别的方法，包括通过第一麦克风接收F音频数据；识别所述F音频数据中是否含有语音唤醒词对应的数据信息。其中，所述F音频数据包括第一时间段内接收并缓存的第一音频数据和第二时间段内接收的第二音频数据。

本申请实施例还提供了一种耳机，包括第一麦克风，用于接收F音频数据；第一缓存，与所述第一麦克风电连接，用于缓存所述F音频数据；处理器，分别与所述第一麦克风、所述第一缓存电连接，用于识别所述F音频数据中是否含有语音唤醒词对应的数据信息及向所述第一麦克风发送接收所述F音频数据的控制指令；其中，所述第一麦克风接收的F音频数据包括第一时间段内接收并缓存的第一音频数据和第二时间段内接收的第二音频数据。

本申请实施例还提供了一种语音识别装置，包括第一接收单元，用于接收F音频数据；第一缓存单元，连接于所述第一接收单元，用于缓存所述F音频数据；执行单元，分别连接于所述第一接收单元和所述第一缓存单元，用于识别所述F音频数据中是否含有语音唤醒词对应的数据信息及向所述第一接收单元发送接收所述F音频数据的控制指令；其中，所述第一接收单元接收的F音频数据包括第一时间段内接收并缓存的第一音频数据和第二时间段内接收的第二音频数据。

本申请实施例提供的通过耳机进行语音识别的方法，通过第一麦克风接收F音频数据，进而识别F音频数据中是否含有语音唤醒词对应的数据信息，该F音频数据包括第一时间段内接收并缓存的第一音频数据和第二时间段内接收的第二音频数据，将第一时间段内接收并缓存的第一音频数据和第二时间段内接收的第二音频数据进行合并识别，确保在进行语音识别唤醒词时不会丢词。

本申请实施例提供的耳机，通过第一麦克风接收F音频数据，第一缓存存储F音频数据，进而通过处理器识别F音频数据中是否含有语音唤醒词对应的数据信息，以此来判断是否向移动终端发送控制指令。进一步地，该F音频数据包括第一时间段内接收并缓存至第一缓存的第一音频数据和第二时间段内第一麦克风接收的第二音频数据，将第一时间段内接收并缓存的第一音频数据和第二时间段内接收的第二音频数据进行合并并发送至处理器识别，确保在进行语音识别唤醒词时不会丢词。

本申请实施提供的语音识别装置，通过第一接收单元接收F音频数据，第一缓存单元存储F音频数据，进而通过执行单元识别F音频数据中是否含有语音唤醒词对应的数据信息，以此来判断是否向移动终端发送控制指令。进一步地，该F音频数据包括第一时间段内接收并缓存至第一缓存单元的第一音频数据和第二时间段内第一接收单元接收的第二音频数据，将第一时间段内接收并缓存的第一音频数据和第二时间段内接收的第二音频数据进行合并并发送至执行单元识别，确保在进行语音识别唤醒词时不会丢词。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请通过耳机进行语音识别的方法实施例的流程示意图；

图2是本申请通过耳机进行语音识别的方法实施例的流程示意图；

图3是本申请通过耳机进行语音识别的方法实施例的流程示意图；

图4是本申请通过耳机进行语音识别的方法实施例的时序示意图；

图5是本申请通过耳机进行语音识别的方法实施例的流程示意图；

图6是本申请通过耳机进行语音识别的方法实施例耳机的结构示意图；

图7是图6中A部的局部放大示意图；

图8是本申请通过耳机进行语音识别的方法实施例的流程示意图；

图9是本申请通过耳机进行语音识别的方法实施例的流程示意图；

图10是本申请耳机一实施例的结构示意图；

图11是本申请耳机一实施例的结构示意图；

图12是本申请耳机一实施例的结构示意图；

图13是本申请耳机一实施例的结构示意图；

图14是本申请耳机一实施例的结构示意图；

图15是本申请语音识别装置一实施例的结构示意框图；

图16是本申请语音识别装置一实施例的结构示意框图；

图17是本申请语音识别装置一实施例的结构示意框图；

图18是本申请语音识别装置一实施例的结构示意框图。

具体实施方式

下面结合附图和实施例，对本申请作进一步的详细描述。特别指出的是，以下实施例仅用于说明本申请，但不对本申请的范围进行限定。同样的，以下实施例仅为本申请的部分实施例而非全部实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例提供一种通过耳机进行语音识别的方法，可以避免耳机在进行语音识别唤醒词过程中易丢词的问题。可以理解的是，基于耳机传感器检测人体嘴巴动作到麦克风拾音的过程中，需要一定的时间来完成，这样在进行语音识别唤醒词时，会有部分词被丢失，造成识别的不可靠。因此，本申请实施例提供一种通过耳机进行语音识别的方法，在耳机麦克风拾音时对麦克风拾取的音频数据进行缓存，并和传感器检测到人体嘴巴动作后拾取的音频数据进行合并识别，确保在进行语音识别唤醒词时，保证唤醒词的完整，避免丢词现象。

本申请一实施例提供一种通过耳机进行语音识别的方法，该通过耳机进行语音识别的方法由处理器实施，该处理器可以是耳机的处理器，也可以是电子设备的处理器，该电子设备可以是手机、平板电脑、MP3、 MP4等电子设备，具体地，请参阅图1，该方法包括：

S101、通过第一麦克风接收F音频数据。

耳机在通电使用的情况下不管是否带入耳朵里都是可以接收声音数据的，有的用户在未断电的情况下无意中将耳机随手放置，使得耳机一直处于工作状态下，此时耳机接收的大多数是噪音，且还造成电源的浪费。尤其是耳机的语音唤醒功能处于常开的状态下，接收的噪音使得语音唤醒功能一直工作且是做无用功，同时还带动与耳机关联的电子设备或者处理器也处于无意义的工作状态，浪费电源。

可以理解的，本申请实施例中的耳机的语音唤醒功能设置为常闭状态，语音唤醒功能需要满足一定的条件才会打开，以此来避免语音唤醒功能处于常开状态浪费电源，提升耳机的续航能力。

进一步地，本申请实施例中的耳机通过第一麦克风接收F音频数据，也可以说是通过第一麦克风接收F音频数据并将F音频数据输出。需要说明的是，本申请实施例中的术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括至少一个该特征。更进一步地，将该耳机带入耳中，使得该第一麦克风接收用户的F音频数据更为清楚，该F音频数据可以是日常用语、含有特定词汇的词语或短句、数字、曲调等等音频数据。

S102、识别F音频数据中是否含有语音唤醒词对应的数据信息。

处理器接收来自第一麦克风输出的F音频数据，并识别F音频数据是中否含有语音唤醒词对应的数据信息。语音唤醒词用于唤醒命令词识别功能，通常为某些特定的包含4-6个字的词汇，尽量避免日常用语，例如语音唤醒词可以包括“你好，OPPO”、“你好、手机”等。

进一步地，处理器接收来自第一麦克风输出的F音频数据，并识别 F音频数据中是否含有用于唤醒命令词识别功能的语音唤醒词对应的数据信息，该语音唤醒词可以是用户预先设定的词语或短句、数字、曲调等，也可以是从处理器中选择关联的语音唤醒词。

进一步地，F音频数据包括第一时间段内接收并缓存的第一音频数据和第二时间段内接收的第二音频数据。在第一麦克风开始接收F音频数据时对第一麦克风在第一时间段内接收的的第一音频数据进行缓存，并和第一麦克风在第二时间段内接收的第二音频数据进行合并识别，使得处理器在进行语音识别时不会出现丢词现象。

具体地，第一时间段的起始时间节点可以是从耳机带入耳朵时开始计时，以此表明第一麦克风即将开始接收第一音频数据，而第一时间段可以是截止到检测到人体嘴巴动作信号时。人体嘴巴动作发出声音到检测到人体嘴巴动作信号这一过程需要一定的时间，将这一定时间内的第一音频数据通过第一麦克风接收并进行缓存，就不会出现丢词现象。

具体地，第二时间段的起始时间节点可以是接收到人体嘴巴动作信号开始计时，以此表明人体嘴巴已经发出声音并通过人体嘴巴动作信号触发处理器进行识别，而第二时间段可以是截止到处理器开始识别F音频数据时。人体嘴巴动作信号触发识别到识别开始这第二时间段内接收第二音频数据，将第一时间段内接收并缓存的第一音频数据和第二时间段内接收的第二音频数据进行合并识别，确保在进行语音识别唤醒词时，保证唤醒词的完整，避免丢词现象。

可以理解的，在识别F音频数据中是否含有语音唤醒词对应的数据信息之后可以包括：若F音频数据中含有语音唤醒词对应的数据信息，则耳机向移动终端发送控制指令。处理器识别F音频数据中是否含有语音唤醒词对应的数据信息，以此来判断是否向移动终端发送相应的控制指令。

本申请实施例通过第一麦克风接收F音频数据，进而识别F音频数据中是否含有语音唤醒词对应的数据信息，以此来判断是否向移动终端发送控制指令。进一步地，该F音频数据包括第一时间段内接收并缓存的第一音频数据和第二时间段内接收的第二音频数据，将第一时间段内接收并缓存的第一音频数据和第二时间段内接收的第二音频数据进行合并识别，确保在进行语音识别唤醒词时不会丢词。

在本申请的一些实施例中，在接收F音频数据之前还包括接收第一触发信号，请参阅图2，该实施例提供的通过耳机进行语音识别的方法包括如下步骤：

S201、接收第一触发信号。该第一触发信号用于触发接收并缓存第一音频数据。该第一触发信号是指示耳机被佩戴在耳中的信号。

具体地，当耳机被佩戴在耳中时，耳机上设置的检测元器件会给出一个信号即第一触发信号，该信号指示耳机被佩戴在耳中用于触发接收并缓存第一音频数据。该检测元器件可以是接近传感器、触控屏等可以检测耳机被佩戴在耳中并给出信号的元器件。

进一步地，当耳机或者处理器接收到第一触发信号指示耳机已经被佩戴在耳中时，即可触发第一麦克风接收并缓存第一音频数据，也就是可以进入步骤S202。

S202、通过第一麦克风接收F声音数据。该步骤同前述实施例中的步骤S101。

S203、识别F音频数据中是否含有语音唤醒词对应的数据信息。该步骤同前述实施例中的步骤S102。

S204、若F音频数据中含有语音唤醒词对应的数据信息，则耳机向移动终端发送控制指令。识别F音频数据中是否含有语音唤醒词对应的数据信息，以此来判断是否向移动终端发送相应的控制指令。

在本申请实施例中，通过接收第一触发信号来触发接收并缓存第一音频数据，进而将第一时间段内接收并缓存的第一音频数据和第二时间段内接收的第二音频数据进行合并识别，确保在进行语音识别唤醒词时不会丢词。

在本申请的一些实施例中，在识别F音频数据中是否含有语音唤醒词对应的数据信息之前还包括：接收第二触发信号，请参阅图3，该实施例提供的通过耳机进行语音识别的方法包括如下步骤：

S301、接收第一触发信号。该步骤同前述实施例中的步骤S201。

S302、通过第一麦克风接收F声音数据。该步骤同前述实施例中的步骤S202。

S303、接收第二触发信号。该第二触发信号用于触发识别F音频数据。该第二触发信号是指示人体动作的信号。

具体地，当人体嘴巴动作开始发声时，耳机中设置的传感器会给出一个信号即第二触发信号，该第二触发信号指示人体嘴巴有发声动作以触发耳机或者电子设备的处理器开始识别F音频数据。

可以理解的，传感器可以是G-sensor(加速度传感器)、VPU(语音传感器)等其他可以用来检测人体嘴巴动作并给出信号的传感器。音频数据由人体嘴巴发出，带在耳朵里的耳机在人体嘴巴动作时会有一定程度的动作，此时，设置在耳机内的传感器会做出反应，以此来检测音频数据是否由人体动作引起的，进而将检测结果反馈至处理器。

进一步地，当耳机或者处理器接收到第二触发信号指示人体动作时，即可触发处理器开始识别F音频数据，也就是可以进入步骤S304。

S304、识别F音频数据中是否含有语音唤醒词对应的数据信息。该步骤同前述实施例中的步骤S203。

S305、若F音频数据中含有语音唤醒词对应的数据信息，则耳机向移动终端发送控制指令。该步骤同前述实施例中的步骤S204。

具体地，通过第一麦克风接收F音频数据后，再进行人体动作检测以得到触发信号触发处理器识别，这个过程需要一定的时间，这也就使得第一麦克风接收的F音频数据与触发信号触发处理器识别的音频数据有一定的差异，有部分词丢失，造成识别不可靠。

本申请实施例在接收F音频数据后，对第一时间段内接收的第一音频数据进行缓存，再结合人体动作检测的触发信号触发识别这第二时间段内接收的第二音频数据，进而将第一音频数据和第二音频数据进行合并识别，确保在进行语音识别唤醒词时不会丢词。

进一步地，缓存第一音频数据是为了保证不会丢词，但是也不能对所有第一麦克风接收的声音数据进行缓存，这样会造成存储空间的浪费。因此在接收到第一触发信号后第一麦克风才开始接收音频数据，第一触发信号指示耳机被佩戴在耳中的信号，即接收到第一触发信号表明用户将耳机戴在耳中可以接收所需的音频信号，避免接收多余的音频信号造成存储空间的浪费。

在本申请的一些实施例中，请参阅图4，第一时间段是始于接收第一触发信号和止于接收第二触发信号的时间，第二时间段是始于接收第二触发信号和止于识别F音频数据中是否含有语音唤醒词对应的数据信息的时间。可以理解的，第一触发信号是指示耳机被佩戴在耳中的信号，第二触发信号是指示人体动作的信号。

具体地，第一触发信号指示耳机被佩戴在耳中用于触发接收并缓存第一音频数据。当耳机或者处理器接收到第一触发信号指示耳机已经被佩戴在耳中时，即可触发第一麦克风接收并缓存第一音频数据。当人体嘴巴动作开始发声时，耳机中设置的传感器会给出一个信号即第二触发信号，该第二触发信号指示人体嘴巴有发声动作以触发耳机或者电子设备的处理器开始识别F音频数据。当耳机或者处理器接收到第二触发信号指示人体动作时，即可触发处理器开始识别F音频数据。在接收第二触发信号和处理器开始识别F音频数据这一过程中，第一麦克风接收第二音频数据。

请继续参阅图5，图5提供了本申请实施例通过耳机进行语音识别的方法的工作流程示意图，包括：

S401、开机，耳机连通电源启动；

S402、第一麦克风工作，第一麦克风可以接收音频数据；需要说明的是，此时第一麦克风接收的音频数据并不一定是用户所需的音频数据；

S403、是否有第一触发信号，第一触发信号是指示耳机被佩戴在耳中的信号。当没有第一触发信号即第一麦克风没有接收到第一触发信号，表明耳机没有被佩戴在耳中，此时返回S402；当第一麦克风接收到第一触发信号，表明耳机被佩戴在耳中，此时进入步骤S404；

S404、接收并缓存第一音频数据；缓存第一音频数据是为了保证不会丢词，为了避免接收多余的音频信号造成存储空间的浪费，在接收到第一触发信号后第一麦克风才开始接收音频数据，第一触发信号指示耳机被佩戴在耳中的信号，即接收到第一触发信号表明用户将耳机戴在耳中可以接收所需的音频信号；

S405、是否有第二触发信号，第二触发信号是指示人体动作的信号，用于触发识别音频数据。当没有第二触发信号即表明音频数据不是人体嘴巴动作引起的，此时返回S402；当接收到第二触发信号时，表明音频数据是由人体嘴巴动作引起的，此时进入步骤S406；

S406、接收第二音频数据，当接收到第二触发信号指示人体动作时，即可触发处理器开始识别F音频数据。在接收第二触发信号和处理器开始识别F音频数据这一过程中，第一麦克风接收第二音频数据。

S407、导入第一音频数据，将缓存的第一音频数据导入与第二音频数据合并，以使得处理器即将识别的F音频数据完整；

S408、语音识别启动，识别将第一音频数据和第二音频数据合并后的音频数据。

本申请实施例通过第一触发信号和第二触发信号作为接收第一音频数据、第二音频数据及语音识别启动的时间节点，进而将第一音频数据和第二音频数据合并后进行识别，避免语音识别出现丢词现象，保证了语音识别的完整性。

在本申请的一些实施例中，请参阅图6，通过第一麦克风接收F音频数据，该第一麦克风01设置于耳机000。可以理解的，第一麦克风 01可以设置于耳机000的外表面，也可以设置于耳机000的内表面。优选地，本申请实施例中第一麦克风01设置于耳机000的内表面。显然的，耳机000开设有拾音口02，第一麦克风01设置于耳机000的内表面与拾音口02对应的位置，以便于第一麦克风01拾音。

进一步地，耳机000设置有缓存03，请结合参阅图7，缓存03与第一麦克风01连接，该缓存03用于缓存第一麦克风01在第一时间段内接收的第一音频数据。可以理解的，缓存03同样可以设置于耳机000 的外表面或者内表面。优选地，在本申请实施例中，缓存03设置于耳机000的内表面，以便于与第一麦克风01连接，使得耳机000在外观上简洁，更具美观。

在本申请的一些实施例中，通过耳机进行语音识别的方法还包括通过第二麦克风接收S音频数据并缓存S音频数据，以对F音频数据进行降噪处理。具体地，请参阅图8，该实施例提供的通过耳机进行语音识别的方法包括如下步骤：

S501、接收第一触发信号；该步骤同前述实施例中的步骤S301；

S502、通过第一麦克风接收F音频数据；该步骤同前述实施例中的步骤S302；

S503、通过第二麦克风接收S音频数据；在该步骤中，通过第二麦克风接收S音频数据并缓存S音频数据，以根据S音频数据对F音频数据进行降噪处理。

具体地，通过第二麦克风接收S音频数据，并根据S音频数据对F 音频数据进行降噪处理。可以理解的，在耳机通信过程中，麦克风接收的音频信号有人嘴发出的音频信号，也有周围环境的噪音。为了达到降低周围环境噪音对声音信号的影响，通过设置2个麦克风来实现，2个麦克风接入电路极性相反，一个麦克风采集的是正信号，另一个麦克风采集的是负信号。另外，该2个麦克风也不设置在同一位置，以使得一个麦克风距离人嘴发声处较近，另一个麦克风距离人嘴发声处较远。

进一步地，周围噪音到达两个麦克风的距离几乎相等，而在两个麦克风采集相反信号的情况下，可以对周围噪音起到降噪的效果。进一步地，第一麦克风接收的F音频数据包括人嘴发出的音频信号和周围环境的噪音，第二麦克风接收的S音频数据为周围环境的噪音。可以理解的，第一麦克风接收F音频数据和第二麦克风接收S音频数据是同时进行的，也就是说F音频数据和S音频数据同时被接收。

进一步地，因S音频数据和F音频数据同时被接收，在对F音频数据中的第一音频数据进行缓存时，S音频数据中同步于第一音频数据的那一部分音频数据也需要同步缓存，这样使得S音频数据在对F音频数据进行降噪的过程中不会产生数据丢失。

S504、接收第二触发信号；该步骤同前述实施例中的步骤S303；

S505、识别F音频数据中是否含有语音唤醒词对应的数据信息；该步骤同前述实施例中的步骤S304；

S506、若F音频数据中含有语音唤醒词对应的数据信息，则耳机向移动终端发送控制指令；该步骤同前述实施例中的步骤S305。

本申请实施例通过设置第二麦克风降低F音频数据中的噪音，以使得音质更为清晰，降低语音识别错误的风险。

在本申请的一些实施例中，提供一种通过耳机进行语音识别的方法，该方法由处理器实施，该处理器可以是耳机的处理器，也可以是电子设备的处理器，该电子设备可以是手机、平板电脑、MP3、MP4等电子设备，具体地，请参阅图9，该方法包括：

S601、通过第一麦克风接收F音频数据并识别F音频数据。

可以理解的，该第一麦克风通过其内设置的数字信号处理器识别F 音频数据，也可以通过与该第一麦克风关联的电子设备的处理器，也就是说，通过可以识别F音频数据的处理器对F音频数据进行识别处理。

具体地，通过第一麦克风接收F音频数据并识别F音频数据中是否含有用于唤醒命令词识别功能的语音唤醒词对应的数据信息，若F音频数据中含有语音唤醒词对应的数据信息，则进入步骤S602。其中，该语音唤醒词可以是用户预先设定的词语或短句、数字、曲调等，也可以是从处理器中选择关联的语音唤醒词。

S602、接收第二触发信号。该第二触发信号是指示人体动作的信号。

具体地，当人体嘴巴动作开始发声时，耳机中设置的传感器会给出一个信号即第二触发信号，该第二触发信号指示人体嘴巴有发声动作以表明音频数据是由人体发出的。

进一步地，当接收到第二触发信号指示人体动作时，进入步骤S603。

S603、向移动终端发送控制指令。

本申请实施例通过第一麦克风接收F音频数据并识别F音频数据中是否含有语音唤醒词对应的数据信息，也就是F音频数据接收即被识别，不会出现丢词现象。同时，以是否接收到第二触发信号来表明F音频数据是否由人体嘴巴发出，进而判断是否向移动终端发送控制指令，响应速度快，识别效率高。

在本申请的一些实施例中，还提供了一种耳机100，请综合参阅图 10及图11，该耳机100包括处理器11、第一麦克风12和第一缓存13，处理器11分别与第一麦克风12、第一缓存13电连接，第一麦克风12 与第一缓存13电连接。第一麦克风12用于接收F音频数据，第一缓存 13用于缓存F音频数据，处理器11用于识别F音频数据中是否含有语音唤醒词对应的数据信息及向第一麦克风12发送接收F音频数据的控制指令。

具体地，处理器11接收F音频数据并进行识别以判断F音频数据中是否含有语音唤醒词对应的数据信息，第一麦克风12将接收到的F 音频数据输出至第一缓存13中进行存储，以避免处理器11在识别F音频数据的时候出现丢词现象。

具体地，第一麦克风12接收的F音频数据包括第一时间段内接收并缓存的第一音频数据和第二时间段内接收的第二音频数据。在第一麦克风12开始接收F音频数据时将第一麦克风12在第一时间段内接收的的第一音频数据输出至第一缓存13中进行存储，并和第一麦克风12在第二时间段内接收的第二音频数据进行合并后输出给处理器11进行识别，使得处理器11在进行语音识别时不会出现丢词现象。

具体地，第一时间段的起始时间节点可以是从耳机带入耳朵时开始计时，以此表明第一麦克风12即将开始接收第一音频数据，而第一时间段可以是截止到检测到人体嘴巴动作信号时。人体嘴巴动作发出声音到检测到人体嘴巴动作信号这一过程需要一定的时间，将这一定时间内的第一音频数据通过第一麦克风12接收并输出至第一缓存13进行存储，就不会出现丢词现象。

更进一步地，第二时间段的起始时间节点可以是接收到人体嘴巴动作信号开始计时，以此表明人体嘴巴已经发出声音并通过人体嘴巴动作信号触发处理器11进行识别，而第二时间段可以是截止到处理器11开始识别F音频数据时。人体嘴巴动作信号触发识别到识别开始这第二时间段内接收第二音频数据，将第一时间段内接收并缓存的第一音频数据和第二时间段内接收的第二音频数据进行合并识别，确保在进行语音识别唤醒词时，保证唤醒词的完整，避免丢词现象。

本申请实施例通过第一麦克风12接收F音频数据，第一缓存13存储对应的音频信号，进而通过处理器11识别F音频数据中是否含有语音唤醒词对应的数据信息，以此来判断是否向移动终端发送控制指令。进一步地，该F音频数据包括第一时间段内接收并缓存至第一缓存13 的第一音频数据和第二时间段内第一麦克风12接收的第二音频数据，将第一时间段内接收并缓存的第一音频数据和第二时间段内接收的第二音频数据进行合并并发送至处理器11识别，确保在进行语音识别唤醒词时不会丢词。

在本申请的一些实施例中，耳机100还包括传感器，请参阅图12，耳机100包括传感器14，传感器14与处理器11电连接，以发送触发信号至处理器11使得处理器11执行相应的操作。进一步地，请结合参阅图13，传感器14包括接近传感器141和人体振动传感器142，接近传感器141用于发送第一触发信号以触发处理器11向第一麦克风12发送接收F音频数据的控制指令，人体振动传感器142用于发送第二触发信号以触发处理器11识别F音频数据中是否含有语音唤醒词对应的数据信息。

具体地，接近传感器141是一种具有感知物体接近能力的器件，并输出相应的信号，能检测对象的移动和存在信息并转化成电信号。接近传感器有多种，主要有电容式接近传感器、电感式接近传感器和光电式接近传感器，本申请实施例优选采用电容式接近传感器。

具体地，人体振动传感器142是用于感应人体振动的传感器。例如骨传导传感器。骨传导传感器是一种感应骨头的振动，并将该振动转换为电信号、光信号或者其他信号的装置。本申请实施例可以选用已有的骨传导传感器，例如Sonion公司的13x2型传感器。本申请的实施例中，人体振动传感器142也可以是其他传感器，例如附着在人体皮肤上的加速度传感器，可感知皮肤的振动；或者连接在人体上的生物电传感器，可以感知人体的生物电变化从而检测到人体振动引起的生物电变化。

进一步地，接近传感器141发送第一触发信号，人体振动传感器142 发送第二触发信号，第一触发信号是指示耳机被佩戴在耳中的信号，第二触发信号是指示人体动作的信号。第一触发信号指示耳机被佩戴在耳中用于触发接收并缓存第一音频数据，第二触发信号指示人体嘴巴有发声动作以触发耳机或者电子设备的处理器开始识别F音频数据。可以理解的，第一触发信号早于第二触发信号发出。

更进一步地，第一音频数据在第一时间段内被接收并缓存，第二音频数据在第二时间段内被接收。第一时间段是始于第一触发信号发出和止于第二触发信号发出的时间，第二时间段是始于第二触发信号发出和止于处理器11识别F音频数据中是否含有语音唤醒词对应的数据信息的时间。

具体地，当耳机已经被佩戴在耳中时，接近传感器141会给出一个信号即第一触发信号，即可触发第一麦克风12接收第一音频数据并缓存至第一缓存13。当人体嘴巴动作开始发声时，人体振动传感器142会给出一个信号即第二触发信号，即可触发处理器11开始识别F音频数据。

本申请实施例通过接近传感器141和人体振动传感器142分别发出第一触发信号和第二触发信号，以此来在第一时间段内接收并缓存第一音频数据，及在第二时间段内接收第二音频数据，并将第一音频数据和第二音频数据合并后输出至处理器11进行识别，保证识别的完整性，避免丢词现象。

在本申请的一些实施例中，请参阅图14，耳机100还包括第二麦克风15和第二缓存16，第二麦克风15用于接收S音频数据，第二缓存 16与第二麦克风15电连接并缓存S音频数据。进一步地，第二麦克风 15和第二缓存16分别与处理器11电连接，以使得第二麦克风接收S音频数据和第一麦克风12接收F音频数据同时进行，以根据S音频数据对F音频数据进行降噪处理。

具体地，第二麦克风15接收S音频数据，并根据S音频数据对F 音频数据进行降噪处理。可以理解的，在耳机通信过程中，麦克风接收的音频信号有人嘴发出的音频信号，也有周围环境的噪音。通过设置2 个麦克风来实现降噪的目的，周围环境噪音到达两个麦克风的距离几乎相等，而在两个麦克风采集相反信号的情况下，可以对周围噪音起到降噪的效果。

进一步地，第一麦克风12接收的F音频数据包括人嘴发出的音频信号和周围环境的噪音，第二麦克风15接收的S音频数据为周围环境的噪音。可以理解的，第一麦克风12接收F音频数据和第二麦克风15 接收S音频数据是同时进行的，也就是说F音频数据和S音频数据同时被接收。

进一步地，因S音频数据和F音频数据同时被接收，在将第一音频数据存储至第一缓存13时时，S音频数据中同步于第一音频数据的那一部分音频数据也需要同步存储至第二缓存16，这样使得S音频数据在对 F音频数据进行降噪的过程中不会产生数据丢失，降噪效果更好。

在本申请的一些实施例中，还提供了一种语音识别装置200，请参阅图15，该语音识别装置200包括执行单元21、第一接收单元22和第一缓存单元23，执行单元21分别连接于第一接收单元22和第一缓存单元23，第一接收单元22与第一缓存单元23连接。第一接收单元22用于接收F音频数据，第一缓存单元23用于缓存F音频数据，执行单元 21用于识别F音频数据中是否含有语音唤醒词对应的数据信息及向第一接收单元22发送接收F音频数据的控制指令。

具体地，执行单元21接收F音频数据并进行识别以判断F音频数据中是否含有语音唤醒词对应的数据信息，第一接收单元22将接收到的F音频数据输出至第一缓存单元23中进行存储，以避免执行单元21 在识别F音频数据的时候出现丢词现象。

具体地，第一接收单元22接收的F音频数据包括第一时间段内接收并缓存的第一音频数据和第二时间段内接收的第二音频数据。在第一接收单元22开始接收F音频数据时将第一接收单元22在第一时间段内接收的的第一音频数据输出至第一缓存单元23中进行存储，并和第一接收单元22在第二时间段内接收的第二音频数据进行合并后输出给执行单元21进行识别，使得执行单元21在进行语音识别时不会出现丢词现象。

具体地，第一时间段的起始时间节点可以是从耳机带入耳朵时开始计时，以此表明第一接收单元22即将开始接收第一音频数据，而第一时间段可以是截止到检测到人体嘴巴动作信号时。人体嘴巴动作发出声音到检测到人体嘴巴动作信号这一过程需要一定的时间，将这一定时间内的第一音频数据通过第一接收单元22接收并输出至第一缓存单元23进行存储，就不会出现丢词现象。

更进一步地，第二时间段的起始时间节点可以是接收到人体嘴巴动作信号开始计时，以此表明人体嘴巴已经发出声音并通过人体嘴巴动作信号触发执行单元21进行识别，而第二时间段可以是截止到执行单元 21开始识别F音频数据时。人体嘴巴动作信号触发识别到识别开始这第二时间段内接收第二音频数据，将第一时间段内接收并缓存的第一音频数据和第二时间段内接收的第二音频数据进行合并识别，确保在进行语音识别唤醒词时，保证唤醒词的完整，避免丢词现象。

本申请实施例通过第一接收单元22接收F音频数据，第一缓存单元23存储对应的音频信号，进而通过执行单元21识别F音频数据中是否含有语音唤醒词对应的数据信息，以此来判断是否向移动终端发送控制指令。进一步地，该F音频数据包括第一时间段内接收并缓存至第一缓存单元23的第一音频数据和第二时间段内第一接收单元22接收的第二音频数据，将第一时间段内接收并缓存的第一音频数据和第二时间段内接收的第二音频数据进行合并并发送至执行单元21识别，确保在进行语音识别唤醒词时不会丢词。

在本申请的一些实施例中，语音识别装置200还包括感应单元，请参阅图16，语音识别装置200包括感应单元24，感应单元24与执行单元21连接，以发送触发信号至执行单元21使得执行单元21执行相应的操作。进一步地，请结合参阅图17，感应单元24包括接近传感器241 和人体振动传感器242，接近传感器241用于发送第一触发信号以触发执行单元21向第一接收单元22发送接收F音频数据的控制指令，人体振动传感器242用于发送第二触发信号以触发执行单元21识别F音频数据中是否含有语音唤醒词对应的数据信息。

需要说明的是，感应单元24、执行单元21可以为独立设置的传感器或者处理器，也可以集成在处理器中实现，此外，也可以以程序代码的形式存储于存储器中，由处理器调用并执行各单元的功能。这里说的处理器可以是中央处理器(Central Processing Unit，CPU)，或者是特定集成电路(Application Specific Integrated Circuit，ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

具体地，接近传感器241是一种具有感知物体接近能力的器件，并输出相应的信号，能检测对象的移动和存在信息并转化成电信号。接近传感器有多种，主要有电容式接近传感器、电感式接近传感器和光电式接近传感器，本申请实施例优选采用电容式接近传感器。

具体地，人体振动传感器242是用于感应人体振动的传感器，并将该振动转换为电信号、光信号或者其他信号的装置。本申请实施例可以选用已有的人体振动传感器，例如Sonion公司的13x2型传感器。本申请的实施例中，人体振动传感器242也可以是其他传感器，例如附着在人体皮肤上的加速度传感器，可感知皮肤的振动；或者连接在人体上的生物电传感器，可以感知人体的生物电变化从而检测到人体振动引起的生物电变化。

进一步地，接近传感器241发送第一触发信号，人体振动传感器242 发送第二触发信号，第一触发信号是指示耳机被佩戴在耳中的信号，第二触发信号是指示人体动作的信号。第一触发信号指示耳机被佩戴在耳中用于触发接收并缓存第一音频数据，第二触发信号指示人体嘴巴有发声动作以触发耳机或者电子设备的处理器开始识别F音频数据。可以理解的，第一触发信号早于第二触发信号发出。

更进一步地，第一音频数据在第一时间段内被接收并缓存，第二音频数据在第二时间段内被接收。第一时间段是始于第一触发信号发出和止于第二触发信号发出的时间，第二时间段是始于第二触发信号发出和止于执行单元21识别F音频数据中是否含有语音唤醒词对应的数据信息的时间。

具体地，当耳机已经被佩戴在耳中时，接近传感器241会给出一个信号即第一触发信号，即可触发第一接收单元22接收第一音频数据并缓存至第一缓存单元23。当人体嘴巴动作开始发声时，人体振动传感器 242会给出一个信号即第二触发信号，即可触发执行单元21开始识别F 音频数据。

本申请实施例通过接近传感器241和人体振动传感器242分别发出第一触发信号和第二触发信号，以此来在第一时间段内接收并缓存第一音频数据，及在第二时间段内接收第二音频数据，并将第一音频数据和第二音频数据合并后输出至执行单元21进行识别，保证识别的完整性，避免丢词现象。

在本申请的一些实施例中，请参阅图18，语音识别装置200还包括第二接收单元25和第二缓存单元26，第二接收单元25用于接收S音频数据，第二缓存单元26与第二接收单元25连接并缓存S音频数据。进一步地，第二接收单元25和第二缓存单元26分别与执行单元21连接，以使得第二接收单元25接收S音频数据和第一接收单元22接收F音频数据同时进行，以根据S音频数据对F音频数据进行降噪处理。

具体地，第二接收单元25接收S音频数据，并根据S音频数据对F 音频数据进行降噪处理。可以理解的，在耳机通信过程中，麦克风接收的音频信号有人嘴发出的音频信号，也有周围环境的噪音。通过设置2 个麦克风来实现降噪的目的，周围环境噪音到达两个麦克风的距离几乎相等，而在两个麦克风采集相反信号的情况下，可以对周围噪音起到降噪的效果。

进一步地，第一接收单元22接收的F音频数据包括人嘴发出的音频信号和周围环境的噪音，第二接收单元25接收的S音频数据为周围环境的噪音。可以理解的，第一接收单元22接收F音频数据和第二接收单元25接收S音频数据是同时进行的，也就是说F音频数据和S音频数据同时被接收。

进一步地，因S音频数据和F音频数据同时被接收，在将第一音频数据存储至第一缓存单元23时时，S音频数据中同步于第一音频数据的那一部分音频数据也需要同步存储至第二缓存单元26，这样使得S音频数据在对F音频数据进行降噪的过程中不会产生数据丢失，降噪效果更好，保证识别识别清楚准确。

以上所述仅为本申请的部分实施例，并非因此限制本申请的保护范围，凡是利用本申请说明书及附图内容所作的等效装置或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种通过耳机进行语音识别的方法，其特征在于，包括：

通过第一麦克风接收F音频数据；

识别所述F音频数据中是否含有语音唤醒词对应的数据信息；

其中，所述F音频数据包括第一时间段内接收并缓存的第一音频数据和第二时间段内接收的第二音频数据。

2.根据权利要求1所述的方法，其特征在于，所述接收F音频数据之前包括：接收第一触发信号，所述第一触发信号用于触发接收并缓存所述第一音频数据。

3.根据权利要求2所述的方法，其特征在于，所述第一触发信号是指示所述耳机被佩戴在耳中的信号。

4.根据权利要求2所述的方法，其特征在于，所述识别所述F音频数据中是否含有语音唤醒词对应的数据信息之前包括：接收第二触发信号，所述第二触发信号用于触发识别所述F音频数据。

5.根据权利要求4所述的方法，其特征在于，所述第二触发信号是指示人体动作的信号。

6.根据权利要求4所述的方法，其特征在于，所述第一时间段是始于接收所述第一触发信号和止于接收所述第二触发信号的时间。

7.根据权利要求6所述的方法，其特征在于，所述第二时间段是始于接收所述第二触发信号和止于识别所述F音频数据中是否含有语音唤醒词对应的数据信息的时间。

8.根据权利要求1所述的方法，其特征在于，所述识别所述F音频数据中是否含有语音唤醒词对应的数据信息之后包括：若所述F音频数据中含有语音唤醒词对应的数据信息，则所述耳机向移动终端发送控制指令。

9.根据权利要求1所述的方法，其特征在于，所述第一麦克风设置于所述耳机。

10.根据权利要求9所述的方法，其特征在于，所述耳机设置有缓存，所述缓存与所述第一麦克风连接，所述缓存用于缓存所述第一时间段内接收的第一音频数据。

11.根据权利要求1所述的方法，其特征在于，包括通过第二麦克风接收S音频数据并缓存所述S音频数据，所述S音频数据和所述F音频数据同时被接收，根据所述S音频数据对所述F音频数据进行降噪处理。

12.一种耳机，其特征在于，包括：

第一麦克风，用于接收F音频数据；

第一缓存，与所述第一麦克风电连接，用于缓存所述F音频数据；

处理器，分别与所述第一麦克风、所述第一缓存电连接，用于识别所述F音频数据中是否含有语音唤醒词对应的数据信息及向所述第一麦克风发送接收所述F音频数据的控制指令；

其中，所述第一麦克风接收的F音频数据包括第一时间段内接收并缓存的第一音频数据和第二时间段内接收的第二音频数据。

13.根据权利要求12所述的耳机，其特征在于，包括传感器，所述传感器与所述处理器电连接，以发送触发信号至所述处理器使得所述处理器执行相应的操作。

14.根据权利要求13所述的耳机，其特征在于，所述传感器包括接近传感器和人体振动传感器，所述接近传感器用于发送第一触发信号以触发所述处理器向所述第一麦克风发送接收所述F音频数据的控制指令，所述人体振动传感器用于发送第二触发信号以触发所述处理器识别所述F音频数据中是否含有语音唤醒词对应的数据信息。

15.根据权利要求14所述的耳机，其特征在于，所述第一触发信号早于所述第二触发信号发出，所述第一时间段是始于所述第一触发信号发出和止于所述第二触发信号发出的时间，所述第二时间段是始于所述第二触发信号发出和止于所述处理器识别所述F音频数据中是否含有语音唤醒词对应的数据信息的时间。

16.根据权利要求12-15任一项权利要求所述的耳机，其特征在于，包括第二麦克风和第二缓存，所述第二麦克风用于接收S音频数据，所述第二缓存与所述第二麦克风电连接并缓存所述S音频数据。

17.根据权利要求16所述的耳机，其特征在于，所述第二麦克风和所述第二缓存分别与所述处理器电连接，以使得所述第二麦克风接收S音频数据和所述第一麦克风接收F音频数据同时进行，以根据所述S音频数据对所述F音频数据进行降噪处理。

18.一种语音识别装置，其特征在于，包括：

第一接收单元，用于接收F音频数据；

第一缓存单元，连接于所述第一接收单元，用于缓存所述F音频数据；

执行单元，分别连接于所述第一接收单元和所述第一缓存单元，用于识别所述F音频数据中是否含有语音唤醒词对应的数据信息及向所述第一接收单元发送接收所述F音频数据的控制指令；

其中，所述第一接收单元接收的F音频数据包括第一时间段内接收并缓存的第一音频数据和第二时间段内接收的第二音频数据。

19.根据权利要求18所述的语音识别装置，其特征在于，包括感应单元，所述感应单元与所述执行单元连接，以发送感应触发信号至所述执行单元使得所述执行单元执行相应的操作。

20.根据权利要求19所述的语音识别装置，其特征在于，所述感应单元包括接近传感器和人体振动传感器，所述接近传感器用于发送第一触发信号以触发所述执行单元向所述第一接收单元发送接收所述F音频数据的控制指令，所述人体振动传感器用于发送第二触发信号以触发所述执行单元识别所述F音频数据中是否含有语音唤醒词对应的数据信息。

21.根据权利要求20所述的语音识别装置，其特征在于，所述第一触发信号早于所述第二触发信号发出，所述第一时间段是始于所述第一触发信号发出和止于所述第二触发信号发出的时间，所述第二时间段是始于所述第二触发信号发出止于所述执行单元识别所述F音频数据中是否含有语音唤醒词对应的数据信息的时间。

22.根据权利要求18-21任一项权利要求所述的语音识别装置，其特征在于，包括第二接收单元和第二缓存单元，所述第二接收单元用于接收S音频数据，所述第二缓存单元与所述第二接收单元连接并缓存所述S音频数据。

23.根据权利要求22所述的语音识别装置，其特征在于，所述第二接收单元和所述第二缓存单元分别与所述执行单元连接，以使得所述第二接收单元接收S音频数据和所述第一接收单元接收F音频数据同时进行，以根据所述S音频数据对所述F音频数据进行降噪处理。