CN114999496A

CN114999496A - 音频传输方法、控制设备及终端设备

Info

Publication number: CN114999496A
Application number: CN202210602093.XA
Authority: CN
Inventors: 杨香斌
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-09-02

Abstract

本申请一些实施例提供了一种音频传输方法、控制设备及终端设备，接收用户输入的语音数据流，响应于语音数据流，语音数据流包括多个语音数据块；在语音数据块中识别特征词，特征词包括第一特征词和第二特征词；第一特征词对应语音的输入时间先于第二特征词对应语音的输入时间；如果在语音数据块中识别出第一特征词，则为语音数据流设置识别成功标志，将带有识别成功标志的语音数据流发送至终端设备，以使终端设备在语音数据流中识别第二特征词。本申请通过实现在控制设备和终端设备的快速响应，缩短唤醒时间，改善唤醒性能。因此，本申请不仅可以高效快速地完成音频传输和终端设备的二次校验，还能够提升用户体验感。

Description

音频传输方法、控制设备及终端设备

技术领域

本申请涉及语音识别技术领域，尤其涉及一种音频传输方法、控制设备及终端设备。

背景技术

终端设备是指能够输出具体显示画面的一些电子设备，如智能电视、移动终端、智能广告屏、投影仪等。随着终端设备的快速发展，终端设备的功能将越来越丰富，性能也越来越强大，可实现双向人机交互功能，集影音、娱乐、数据等多种功能于一体，用于满足用户多样化和个性化需求。

随着终端设备的发展，人们对终端设备的要求也越来越高，通过手动操作进行已经不能满足方便快捷的需要,更多的终端设备是通过语音来进行控制,但语音控制一直处于等待状态，造成终端设备的功耗很大，这个时候就突显唤醒词识别的重要性。唤醒词识别是语音识别任务的一个分支，需要从一串语音流里检测出有限个预先定义的激活词或者关键词，而不需要对所有的语音进行识别。唤醒词是通过预先设定，一般唤醒词是由四个字组成，因为音节覆盖越多，音节差异越大，相对唤醒的性能和误唤醒性能越好。

但是现有基于唤醒词的语音识别传输方式中，在目标说话人使用唤醒词进行唤醒的过程中，需要目标说话人说出完整的唤醒词，才将完整保存下来的音频进行传输。导致整个唤醒过程时间很长，无法高效快速地完成语音传输，带来的用户体验感较差。

发明内容

本发明提供了一种音频传输方法、终端设备及终端设备。以解决用户在启动唤醒指令时，整个唤醒过程时间过长，无法高效快速地完成语音传输的问题。

第一方面，本申请一些实施例提供了一种控制设备，所述控制设备包括：

通信模块，被配置为与终端设备通信连接；

控制模块，被配置为：

接收用户输入的语音数据流；

响应于所述语音数据流，所述语音数据流包括多个语音数据块；

在所述语音数据块中识别特征词，所述特征词包括语音交互唤醒词中的至少一个关键字；所述特征词包括第一特征词和第二特征词；所述第一特征词对应语音的输入时间先于所述第二特征词对应语音的输入时间；

如果在所述语音数据块中识别出所述第一特征词，则为所述语音数据流设置识别成功标志，所述识别成功标志中包括所述第一特征词；

将带有所述识别成功标志的语音数据流发送至终端设备，以使所述终端设备在所述语音数据流中识别所述第二特征词。

第二方面，本申请一些实施例提供了一种终端设备，所述终端设备包括：

通信器，被配置为与控制设备通信连接；

控制器，被配置为：

获取语音数据流，所述语音数据流包括多个所述语音数据块；所述语音数据流为所述终端设备在所述语音数据块中识别出第一特征词时发送的流媒体数据，所述语音数据流带有识别成功标志，所述识别成功标志中包括所述第一特征词；

在所述语音数据流中识别第二特征词，所述第一特征词对应语音的输入时间先于所述第二特征词对应语音的输入时间。

第三方面，本申请一些实施例提供了一种音频传输方法，所述方法包括：

控制设备接收用户输入的语音数据流；

并响应于所述语音数据流，所述语音数据流包括多个数据块；以及，在所述语音数据块中识别特征词，所述特征词包括语音交互唤醒词中的至少一个关键字；所述特征词包括第一特征词和第二特征词；所述第一特征词对应语音的输入时间先于所述第二特征词对应语音的输入时间；

由以上技术方案可以看出，本申请一些实施例提供了一种音频传输方法、控制设备及终端设备，通过接收用户输入的语音数据流，语音数据流包括多个语音数据块，在语音数据块中识别特征词，特征词包括第一特征词和第二特征词。第一特征词对应语音的输入时间先于第二特征词对应语音的输入时间，如果在语音数据块中识别出第一特征词，则为语音数据流设置识别成功标志，将带有识别成功标志的语音数据流发送至终端设备，以使终端设备在语音数据流中识别所述第二特征词。本申请通过实现终端设备和终端设备的快速响应，缩短唤醒时间，改善唤醒性能。本申请不仅可以高效快速地完成音频传输和终端设备的二次校验，还能够提升用户体验感。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据一些实施例的音频传输方法、控制设备100及终端设备200的系统架构示意图；

图2示出了根据一些实施例的控制设备100的硬件配置框图；

图3示出了根据一些实施例的终端设备200的硬件配置框图；

图4示出了根据一些实施例的终端设备200中软件配置图；

图5示出了根据一些实施例的一种语音交互网络架构示意图；

图6示出了根据一些实施例中一种终端设备200的用户界面唤醒后的状态示意图；

图7示出了根据一些实施例中现有的一种控制设备100与终端设备200的唤醒过程示意图；

图8示出了根据一些实施例中一种控制设备100与终端设备200的唤醒过程示意图；

图9示出了根据一些实施例中另一种控制设备100与终端设备200的唤醒过程示意图；

图10示出了根据一些实施例中特征词识别模型训练学习过程示意图；

图11示出了根据一些实施例中采用现有唤醒流程计算唤醒时间的示意图；

图12示出了根据一些实施例中采用本申请实施例提供的唤醒流程计算唤醒时间的示意图。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请描述的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请所附权利要求保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

图1示出了可以应用本申请的音频传输方法、控制设备及终端设备的示例性系统架构。如图1所示，其中，10为服务器，100为控制设备，200为终端设备，示例性包括(智能电视200a，移动设备200b，智能音箱200c)。控制设备100可以是遥控器，遥控器和终端设备200的通信包括红外协议通信、蓝牙协议通信，无线或其他有线方式来控制终端设备200。用户可以通过遥控器上按键，语音输入、控制面板输入等输入用户指令，来控制终端设备200。

本申请中服务器10与终端设备200通过多种通信方式进行数据通信。可允许终端设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器10可以向终端设备200提供各种内容和互动。示例性的，终端设备200与服务器10可以通过发送和接收信息，以及接收软件程序更新。

服务器10可以是提供各种服务的服务器，例如对终端设备200采集的音频数据提供支持的后台服务器。后台服务器可以对接收到的音频等数据进行分析等处理，并将处理结果(例如端点信息)反馈给终端设备200。服务器10可以是一个服务器集群，也可以是多个服务器集群，可以包括一类或多类服务器。

终端设备200可以是硬件，也可以是软件。当终端设备200为硬件时，可以是具有声音采集功能的各种电子设备，包括但不限于智能音箱、智能手机、电视、平板电脑、电子书阅读器、智能手表、播放器、计算机、AI设备、机器人、智能车辆等等。当终端设备200为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供声音采集服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的用于音频传输的方法可以通过服务器10执行，也可以通过终端设备200执行，还可以通过服务器10和终端设备200共同执行，本申请对此不做限定。

图2示例性示出了根据示例性实施例中控制设备100的配置框图。如图2所示，控制设备100包括控制模块110、通信模块130、用户输入/输出接口140、存储器、供电电源。控制设备100可接收用户的输入操作指令，且将操作指令转换为终端设备200可识别和响应的指令，在用户与终端设备200之间起交互中介作用。通信模块130用于和外部通信，包含WIFI芯片，蓝牙模块，NFC或可替代模块中的至少一种。用户输入/输出接口140包含麦克风，触摸板，传感器，按键或可替代模块中的至少一种。

图3示出了根据示例性实施例中终端设备200的硬件配置框图。如图3所示终端设备200包括通信器220、检测器230、外部装置接口240、控制器250、音频输出接口260、存储器、供电电源、用户接口270中的至少一种。控制器250包括中央处理器，音频处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器220可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。终端设备200可以通过通信器220服务器10建立控制信号和数据信号的发送和接收。

用户接口，可用于接收外部的控制信号。

检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

声音采集器可以是麦克风，也称“话筒”，“传声器”，可以用于接收用户的声音，将声音信号转换为电信号。终端设备200可以设置至少一个麦克风。在另一些实施例中，终端设备200可以设置两个麦克风，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端设备200还可以设置三个，四个或更多麦克风，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

此外，麦克风可以是内置在终端设备200上，或者麦克风通过有线或者无线的方式与终端设备200相连接。当然，本申请实施例对麦克风在终端设备200上的位置不作限定。或者，终端设备200可以不包括麦克风，即上述麦克风并未设置于终端设备200中。终端设备200可以通过接口(如USB接口130)外接麦克风(也可以称为话筒)。该外接的话筒可以通过外部固定件(如带夹子的摄像头支架)固定在终端设备200上。

控制器250，通过存储在存储器上中各种软件控制程序，来控制终端设备200的工作和响应用户的操作。控制器250控制终端设备200的整体操作。

示例性的，控制器包括中央处理器(Central Processing Unit，CPU)，音频处理器，RAM Random Access Memory，RAM)，ROM(Read-Only Memory,ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

在一些示例中，终端设备200的操作系统为Android系统为例，如图4所示，智能电视200-1从逻辑上可以分为应用程序(Applications)层(简称“应用层”)21，内核层22和硬件层23。

其中，如图4所示，硬件层可包括图2所示的控制器250、通信器220、检测器230等。应用层21包括一个或多个应用。应用可以为系统应用，也可以为第三方应用。如，应用层21包括语音识别应用，语音识别应用可以提供语音交互界面和服务，用于实现智能电视200-1与服务器10的连接。

内核层22作为硬件层和应用层21之间的软件中间件，用于管理和控制硬件与软件资源。

在一些示例中，内核层22包括检测器驱动，检测器驱动用于将检测器230采集的语音数据发送至语音识别应用。示例性的，终端设备200中的语音识别应用启动，终端设备200与服务器10建立了通信连接的情况下，检测器驱动用于将检测器230采集的用户输入的语音数据发送至语音识别应用。之后，语音识别应用将包含该语音数据的查询信息发送至服务器中的意图识别模块202。意图识别模块202用于将终端设备200发送的语音数据输入至意图识别模型。

为清楚说明本申请的实施例，下面结合图5对本申请实施例提供的一种语音识别网络架构进行描述。

参见图5，图5为本申请实施例提供的一种语音交互网络架构示意图。图5中，终端设备用于接收输入的信息以及输出对该信息的处理结果。语音识别模块部署有语音识别服务，用于将音频识别为文本；语义理解模块部署有语义理解服务，用于对文本进行语义解析；业务管理模块部署有业务指令管理服务，用于提供业务指令；语言生成模块部署有语言生成服务(Natural Language Generation，NLG)，用于将指示终端设备执行的指令转化为文本语言；语音合成模块部署有语音合成(Text To Speech，TTS)服务，用于将指令对应的文本语言处理后发送至扬声器进行播报。在一个实施例中，图5所示架构中可存在部署有不同业务服务的多个实体服务设备，也可以一个或多个实体服务设备中集合一项或多项功能服务。

一些实施例中，下面对基于图5所示架构处理输入终端设备的信息的过程进行举例描述，以输入终端设备200的信息为通过语音输入的查询语句为例：

[语音识别]

终端设备200可在接收到通过语音输入的查询语句后，终端设备200可对查询语句的音频进行降噪处理和特征提取，这里的去噪处理可包括去除回声和环境噪声等步骤。

[语义理解]

利用声学模型和语言模型，对识别出的候选文本和相关联的上下文信息进行自然语言理解，将文本解析为结构化的、机器可读的信息，业务领域、意图、词槽等信息以表达语义等。得到可执行意图确定意图置信度得分，语义理解模块基于所确定的意图置信度得分选择一个或者多个候选可执行意图。

[业务管理]

语义理解模块根据对查询语句的文本的语义解析结果，向相应的业务管理模块下发查询指令以获取业务服务给出的查询结果，以及执行“完成”用户最终请求所需的动作，并将查询结果对应的设备执行指令进行反馈。

需要说明的是，图5所示架构只是一种示例，并非对本申请保护范围的限定。本申请实施例中，也可采用其他架构来实现类似功能，例如：上述过程全部或部分可以由智能终端来完成，在此不做赘述。

以上实施例介绍了终端设备200的硬件/软件架构和控制设备100以及功能实现等内容。随着语音识别技术的不断发展及智能家居的不断发展，人机交互对于用户体验的要求也越来越高。其中，语音唤醒是语音识别任务的一个分支，需要从一串语音流里检测出有限个预先定义的激活词或者关键词，而不需要对所有的语音进行识别。这类技术可以被应用到各种领域，比如手机、智能音箱、机器人、智能家居、车载设备和可穿戴的终端设备等等。在一些场景中，若用户需要通过语音控制终端设备200进行相关操作时，需要用户说出完整的唤醒词，例如“朋友出来”、“你好天天”、或“你好同学”等等，再通过唤醒确认，确认是唤醒词“朋友出来”之后，才能够唤醒终端设备200上的语音交互功能。在整个唤醒过程中，终端设备200需要识别出完整的唤醒词如“朋友出来”，才能开启语音唤醒功能。可见，整个唤醒过程时间会比较长，不利于用户体验。

为了提高终端设备200的唤醒时间效率，以便快速地完成控制设备100和终端设备200之间的音频传输，本申请实施例提供一种基于控制设备100与终端设备200的音频传输，实现唤醒性能的提升，缩短唤醒时间。在一些实施例中，控制设备100在任何情况下，都能够接收到用户输入的语音唤醒词，例如，当用户说出唤醒词，如“朋友出来”，即“朋友出来”为语音唤醒词，还可以是“hi电视”，即“hi电视”为语音唤醒词。语音唤醒词是终端设备200预先设定好的唤醒词，也可以是非预先设定的唤醒词。用户可以自行设定，如“我爱我家”、“小狗电视”或“hey朋友”等，用户也可以在使用过程中任意修改唤醒词，以及唤醒词的词数。若唤醒词设定的字节数过多，会造成唤醒识别所用的时间也会过长，因此大部分中文唤醒词是采用四个字组合，因为音节覆盖越多，音节差异越大，相对唤醒和误唤醒性能就越好。

在一些实施例中，控制设备100获取用户发出的语音数据流，其中，语音数据流是通过获取音频信号所得到，而音频信号是通过麦克风的流式收音方式生成。例如，当用户发出声音时，用户的声音会通过控制设备100上的麦克风进行收音，此时的麦克风收音是流式收音，进而生成音频信号。音频信号最终的波长长度取决于用户说话时间的时长，例如，用户说出“朋友出来”，所用时长为1秒，那么音频信号的长度就是这1秒所产生的波长长度。然后按照预设时间间隔截取音频信号，该时间间隔是可以自行设定的时间间隔，一般预设的时间间隔是以20ms为一个时间间隔进行音频信号截取，截取后会生成多个语音数据块。例如，将1秒的音频信号按照时间间隔20ms进行截取一次，会截取得到50个语音数据块，这50个语音数据块按照截取的时间顺序组合起来，就是语音数据流。也就是说语音数据流中包括多个语音数据块。

在一些实施例中，在语音数据块中识别特征词，特征词包括语音交互唤醒词中的至少一个关键字。例如，语音交互唤醒词为“朋友出来”，而用户向控制设备100发出的声音是“朋友你好”，从“朋友你好”这四个字中能够识别出特征词“朋友”这两个字，控制设备100开始将语音数据流传输至终端设备200。说明本申请实施例在特征词中至少要识别出唤醒词中的一个关键字，就可以进行控制设备100与终端设备200之间语音数据流的传输。

在一些实施例中，如果在语音数据块中识别出特征词，则将语音数据流发送至终端设备200，例如，当用户说“朋友出来，今天的天气怎么样啊”，需要完整识别出特征词是“朋友出来”这四个关键字，才能够将“朋友出来”这段语音数据流发送至终端设备200进行语音数据流保存，终端设备200再对保存下来的这段语音数据流进行识别判断是否是唤醒词“朋友出来”，即进行二次校验，如果校验成功确实有唤醒词“朋友出来”，终端设备200响应语音数据流中的语音交互唤醒指令。此时，如图6所示，为本申请实施例提供的一种终端设备200的用户界面唤醒后的状态示意图，终端设备200会执行反馈，包括：动画显示、提示音“Hi，有什么可以帮您”等。如图7所示，为现有的唤醒流程图，这种唤醒流程是依赖于用户在完整说出唤醒词之后“如朋友出来”，才将语音数据流保存下来并进行语音传输，此时用户完整说完唤醒词的时间、对唤醒词识别的时间和传输语音数据流的时间，以及终端设备200进行二次校验的时间，到最终终端设备200弹出唤醒界面的时间，这些时间全部加到一起，会发现整个唤醒过程用的时间较长，唤醒响应时间也会很慢，用户体验感较差。

在一些实施例中，在语音数据块中识别特征词，由于语音数据流中有多个语音数据块，因此还可以通过按照时间顺序依次在多个语音数据块中识别特征词。如果在任一语音数据块中识别出特征词，控制设备100则向终端设备200发送识别出特征词的语音数据块，以及识别出特征词的语音数据块后的剩余语音数据块。例如，语音数据流中有五个语音数据块，在语音数据块识别过程中，第一个语音数据块中没有识别出特征词，则控制设备100不向终端设备200发送语音数据块，按照时间顺序依次对后面的语音数据块进行识别，如果在第二个语音数据块中识别出特征词，则控制设备100立刻向终端设备200发送第二个语音数据块以及剩余的三个语音数据块。

在一些实施例中，还有一种情况是在所有语音数据块中均没有识别出特征词，也就是上述所说的五个语音数据块中均没有识别出特征词，控制设备100则不向终端设备200发送语音数据流。这样可以为终端设备200节省了大量不必要的唤醒识别时间，能够更加快速的完成唤醒语音交互功能。

在一些实施例中，特征词包括第一特征词和第二特征词，如“朋友出来”是特征词，那么第一特征词是“朋友”，第二特征词就是“出来”。并且第一特征词对应语音的输入时间先于第二特征词对应语音的输入时间，在语音数据流传输至终端设备200时，第一特征词所对应的语音数据流输入至终端设备200的时间要比第二特征词对应的语音数据流输入至终端设备200的时间早。例如，终端设备200先接收到第一特征词“朋友”对应的语音数据流，然后再接收第二特征词“出来”所对应的语音数据流。

如图8所示，为本申请实施例提供的一种控制设备100与终端设备200的唤醒过程示意图，通过在语音数据块中识别第一特征词，如果在语音数据块中识别出第一特征词“朋友”，控制设备100则为语音数据流设置识别成功标志，也就是说识别成功标志中包括第一特征词。例如，当识别到“朋友”这两个字，控制设备100立刻将“朋友”的语音数据流发送至终端设备200，即不需要等用户说出完整的唤醒词“朋友出来”才进行语音数据流的传输。此时控制设备100继续对语音数据块进行识别第二特征词，如果识别出第二特征词“出来”，则控制设备100将“出来”的语音数据流也发送至终端设备200。终端设备200对接收到的第一特征词和第二特征词进行二次校验判断是否是唤醒词“朋友出来”，如果是“朋友出来”，则终端设备200就可以唤醒语音交互功能了。

在一些实施例中，由于第一特征词“朋友”已带有识别成功标志，终端设备200无需再进行二次校验来判断是不是第一特征词“朋友”，终端设备200只需要对语音数据块中的第二特征词“出来”进行唤醒识别即可，如果识别出的第二特征词不是“出来”，终端设备200不会给出任何反应，用户界面也不会出现任何反应，说明语音交互动能没有被唤醒成功。当然终端设备200为了确保唤醒识别的准确性也可以对“朋友出来”再进行二次校验。本申请中一些实施例在整个语音交互功能唤醒过程中，实现了边传输语音数据流边进行唤醒识别，以达到节省时间的目的，同时还能够使用户的体验感大幅提升。

在一些实施例中，如图9所示，为了使控制设备100和终端设备200之间的唤醒响应时间更进一步的缩短，唤醒效率再进一步提升。控制设备100还可以通过将唤醒词拆分为多个关键字，例如，唤醒词为“你好朋友”，可以拆分为“你”、“好”、“朋”和“友”，这四个关键字。控制设备100在语音数据块中识别唤醒词中的第一个关键字，如果是“你”这个关键字，则控制设备100将语音数据流通过无线方式传输至终端设备200，终端设备200再对控制设备100传输过来的语音数据流中剩余的关键字“好”、“朋”和“友”，进行唤醒识别，如果是“好”、“朋”和“友”这三个关键字，则终端设备200唤醒语音交互功能。如果识别出的关键字不是“好”、“朋”和“友”这三个关键字，那么终端设备200将不会唤醒语音交互功能。

在一些实施例中，如图10所示，为本申请实施例提供的特征词识别模型，在语音数据块中识别特征词时，通过调用特征词识别模型进行特征词识别。其中，特征词识别模型是基于预先收集到的大量语音样本数据训练学习获得的一种神经网络模型。在进行语音样本数据训练时，可以通过多种形式进行训练学习，例如可以选择两个特征词为一组的训练模式进行语音样本训练，还可以是以其中一个特征词为一组，剩余特征词为一组进行语音样本训练学习。

例如，图10中底层数据是“朋友出来”的音频样本数据，神经网络学习是指将用户说出的音频样本数据输入进神经网络以两个特征词为一组进行学习，经过神经网络学习后将“朋友出来”分类输出“朋友”和“出来”。或者还可以是将特征词中的第一个字为一组，剩余字成为一组的进行训练学习，例如，底层数据还是“朋友出来”的音频样本数据，同样将用户说出的音频样本数据输入进神经网络以第一个字为一组，其余三个字为一组进行学习，经过神经网络学习后将“朋友出来”分类输出“朋”和“友出来”。通过特征词识别模型内部的设定，在进行特征词识别时，可以选择相对应的特征词识别模型。例如，当对特征词“朋友”进行识别时，属于两个特征词为一组的形式，所以可以相应的选择两个特征词为一组进行语音训练并完成学习的特征词识别模型。从而实现唤醒识别更加准确，不仅能够降低误唤醒率，还能够提升唤醒识别的时间效率。

在一些实施例中，由于语音数据块是由音频信号所生成，需要将语音数据块转化为文本信息，也就是将音频信号转化为文字，例如，“朋”这个字它会对应一个音频信号，对应的音频信号还会对应一个语音数据块。由于语音数据块是由音频信号生成，不能直接输入至特征词识别模型中，因此需要将语音数据块转化为文字的形式。转化后的文字形成文本信息，输入至特征词识别模型中。根据输入的文本信息，特征词识别模型输出的是当前语音数据块对特征词的分类概率，比如输入的文本信息是“你好电话”，而唤醒词是“你好电视”其中语音数据模块为4个，特征词识别出3个即“你好电”，则输出的分类概率为0.75，而此时的识别概率阈值设定为0.7，可以看出分类概率大于识别概率阈值，可以确定在语音数据块中识别出了特征词。如果分类概率等于识别概率阈值，同样也能够确定语音数据块中识别出了特征词。

在一些实施例中，可以在语音数据流中直接识别唤醒词，如果在语音数据流中识别出唤醒词，则控制设备100直接将唤醒词发送至终端设备200。例如，“你好电视”是唤醒词，当用户说出的是“你好电视，播放音乐”，那在对这段语音数据流中进行识别，可以识别出唤醒词“你好电视”，控制设备100就可以直接将“你好电视”的语音数据流发送至终端设备200。终端设备200需要对语音数据流中的唤醒词进行二次校验判断是否是真的唤醒词“你好电视”，如果判断出是真的唤醒词，终端设备200就可以直接根据唤醒词唤醒语音交互功能。终端设备200也可以不再对语音数据流中的唤醒词进行二次校验，即当“你好电视”的语音数据流发送至终端设备200时，终端设备200根据唤醒词“你好电视”直接进行语音唤醒功能。

在一些实施例中，本申请实施例还提供了一种终端设备，终端设备200用于接收控制设备100发送的语音数据流，同样语音数据流中包括多个语音数据块。语音数据流为控制设备100在语音数据块中识别出特征词时发送的流媒体数据，特征词包括语音交互唤醒词中的至少一个关键字。例如，语音交互唤醒词为“朋友出来”，而用户向控制设备100发出的声音即语音数据流是“朋友你好”，从“朋友你好”这语音数据流中能够识别出特征词“朋友”这两个字，是语音交互唤醒词其中的两个字，终端设备200将接收到“朋友你好”的语音数据流。并在语音数据流中识别唤醒词进行二次校验，发现识别出的唤醒词不是“朋友出来”，则终端设备200不响应语音数据流中的语音交互唤醒指令，若是“朋友出来”，则终端设备200响应语音数据流中的语音交互唤醒指令，唤醒语音交互功能。

在一些实施例中，终端设备200获取控制设备100发送的带有识别成功标志的语音数据流，识别成功标志中包括第一特征词，终端设备200从识别成功标志中提取第一特征词，并在语音数据流中识别第二特征词。第一特征词对应语音的输入时间先于第二特征词对应语音的输入时间，即终端设备200先接收到第一特征词的语音数据流之后再接收第二特征词的语音数据流。

其中，第一特征词与第二特征词所对应的语音特征可以是完全相同，也可以是完全不同，将第一特征词和第二特征词组合，生成特征词进而唤醒终端设备200的语音交互功能。例如，识别成功标志带有的第一特征词是“你好”，终端设备200从语音数据流中识别出的第二特征词是“小聚”，将第一特征词与第二特征词组合起来就是能够唤醒语音交互功能的特征词“你好小聚”，那么第一特征词还可以是“小海”，而第二特征词也是“小海”，将其组合就是特征词“小海小海”。

在一些实施例中，如图11所示，为采用现有唤醒流程计算唤醒时间的示意图，当控制设备100检测到用户以正常语速说出完整的唤醒词“朋友出来”耗时2000毫秒，然后再通过唤醒词识别模块识别唤醒词“朋友出来”，该过程耗时100毫秒，然后再将唤醒词“朋友出来”的音频打包并通过无线发送至终端设备200，音频打包加无线传送该过程一共耗时2800毫秒，终端设备200接收控制设备100发送的音频数据，并对音频数据进行解码，该过程耗时200毫秒，然后终端设备200再进行二次校验即再次对唤醒词进行唤醒识别，判断是否真的是唤醒词“朋友出来”，该过程耗时100毫秒，所以从用户完整说出唤醒词“朋友出来”到终端设备200进行二次校验判断出是否是真正的唤醒词“朋友出来”，最后展示用户界面(耗时200毫秒)，综上，从用户开始说出完整唤醒词“朋友出来”，直到展示用户界面总共耗时5400毫秒，即5.4秒。

通过分析上述整个过程的时间计算，音频传输时间需要2800毫秒，占用了大量的时间，因此，本申请在控制设备100与终端设备200之间进行音频传输方面进行了优化处理，即不需要用户说出完整的唤醒词，控制设备100就可以向终端设备200开始传输音频数据，这样能够极大的缩短音频传输时间，进而使得整个唤醒响应过程更加快速的完成。

在一些实施例中，如图12所示，为本申请实施例提供的采用本申请唤醒流程计算唤醒时间的示意图，当控制设备100检测到用户以正常语速刚说出“朋友”耗时1000毫秒，然后再通过本申请采用两个字为一组进行训练学习的特征词识别模型识别特征词“朋友”，该过程耗时50毫秒，同时控制设备100开始将“朋友”的语音数据流通过无线方式发送至终端设备200，此时用户以正常语速说出“出来”耗时1000毫秒，语音传输的同时特征词识别模型继续识别特征词“出来”，一边进行语音数据流传输一边识别特征词的这个过程耗时950毫秒，终端设备200接收语音数据流并对其进行解码，该过程耗时200毫秒，然后终端设备200再进行二次校验即再次对特征词进行唤醒识别，判断是否是真的唤醒词“朋友出来”，该过程耗时100毫秒，所以从用户说出唤醒词“朋友”和“出来”到终端设备200进行二次校验判断出是否是真正的唤醒词“朋友出来”，最后展示用户界面(耗时200毫秒)，综上，从用户开始说出唤醒词“朋友”和“出来”，直到展示用户界面总共耗时3500毫秒，即3.5秒。通过对比图11和图12中的唤醒时间，可以得出采用本申请实施例提供的唤醒流程进行唤醒所需要的唤醒时间，比采用现有唤醒流程进行唤醒所需要的唤醒时间小1.9秒，也就是说，采用本申请唤醒流程进行唤醒，整体唤醒速度提升1.9秒。

在本申请中另一种实施例是将唤醒词“朋友出来”拆分成四个关键字分别进行做唤醒识别，当用户刚说出“朋”(耗时500毫秒)的时候，控制设备100就开始对其“朋”进行唤醒识别并将“朋友出来”的语音数据流发送至终端设备200(耗时850毫秒)，以使终端设备200在语音数据流中识别唤醒词中其他的三个关键字“友”、“出”和“来”，该过程耗时1600毫秒。所以从用户说出唤醒词“朋”和“友出来”到终端设备200进行二次校验判断出是否是真正的唤醒词“朋友出来”，最后展示用户界面(耗时200毫秒)，综上，从用户开始说出唤醒词“朋”和“友出来”，直到展示用户界面总共耗时3150毫秒，即3.15秒，这样唤醒速度还会再提升一些时间。

本申请一些实施例通过实现控制设备100和终端设备200的快速响应，将唤醒识别和音频传输同步进行，进而缩短唤醒时间，改善唤醒性能，能够给用户带来更好的体验感。

本申请一些实施例还提供了一种音频传输方法，所述方法包括：

控制设备100接收用户输入的语音数据流。

控制设备100并响应于语音数据流，语音数据流包括多个数据块；以及，在语音数据块中识别特征词，特征词包括语音交互唤醒词中的至少一个关键字；特征词包括第一特征词和第二特征词；第一特征词对应语音的输入时间先于第二特征词对应语音的输入时间。

如果在语音数据块中识别出第一特征词，则为语音数据流设置识别成功标志，识别成功标志中包括第一特征词。

将带有识别成功标志的语音数据流发送至终端设备200，以使终端设备200在语音数据流中识别所述第二特征词。

在上述方法实施例中，实现控制设备100对语音数据流边传输至终端设备200边识别，这样用户等待唤醒响应的时间就会比较短，从而提升用户体验。

综上所述，本申请实施例提供了一种音频传输方法、控制设备100及终端设备200，通过接收用户输入的语音数据流，语音数据流包括多个语音数据块，在语音数据块中识别特征词，特征词包括第一特征词和第二特征词。第一特征词对应语音的输入时间先于第二特征词对应语音的输入时间，如果在语音数据块中识别出第一特征词，则为语音数据流设置识别成功标志，将带有识别成功标志的语音数据流发送至终端设备，以使终端设备在语音数据流中识别所述第二特征词。本申请通过实现控制设备100和终端设备200的快速响应，缩短唤醒时间，改善唤醒性能。本申请不仅可以高效快速地完成音频传输和终端设备200的二次校验，还能够提升用户体验感。

本说明书中各个实施例之间相同相似的部分互相参照即可，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种控制设备，其特征在于，所述控制设备包括：

通信模块，被配置为与终端设备通信连接；

控制模块，被配置为：

接收用户输入的语音数据流；

2.根据权利要求1所述的控制设备，其特征在于，所述控制模块还被配置为：

将所述唤醒词拆分为多个关键字；

在所述语音数据块中识别所述唤醒词中的第一个关键字；

如果在所述语音数据块中识别出第一个关键字，则向所述终端设备发送所述语音数据流，以使所述终端设备在所述语音数据流中识别所述唤醒词中除第一个关键字外的剩余关键字。

3.根据权利要求1所述的控制设备，其特征在于，所述控制模块还被配置为：

在所述语音数据块中识别特征词的步骤中，调用特征词识别模型，所述特征词识别模型为根据语音样本数据训练获得的神经网络模型；

将所述语音数据块转化为文本信息；

将所述文本信息输入所述特征词识别模型；

获取所述特征词识别模型输出的当前所述语音数据块对所述特征词的分类概率；

如果所述分类概率大于或等于识别概率阈值，确定在所述语音数据块中识别出所述特征词。

4.根据权利要求1所述的控制设备，其特征在于，所述控制模块还被配置为：

在所述语音数据流中识别所述唤醒词；

如果在所述语音数据流中识别出所述唤醒词，则将所述唤醒词发送至所述终端设备，以使所述终端设备根据所述唤醒词唤醒语音交互功能。

5.根据权利要求1所述的控制设备，其特征在于，所述控制模块进一步被配置为：

在所述语音数据块中识别特征词的步骤中，按照时间顺序依次在多个所述语音数据块中识别所述特征词；

如果在任一所述语音数据块中识别出所述特征词，则向所述终端设备发送识别出所述特征词的语音数据块，以及识别出所述特征词的语音数据块后的剩余语音数据块；

如果在所有所述语音数据块中均没有识别出所述特征词，则不向终端设备发送所述语音数据流。

6.根据权利要求1所述的控制设备，其特征在于，所述控制模块进一步被配置为：

在响应于所述语音数据流的步骤中，获取音频信号，所述音频信号通过流式收音方式生成；

按照预设时间间隔截取所述音频信号，以生成多个所述语音数据块；

将多个所述语音数据块按照时间顺序组合，以获取所述语音数据流。

7.一种终端设备，其特征在于，所述终端设备包括：

通信器，被配置为与控制设备通信连接；

控制器，被配置为：

8.根据权利要求7所述的终端设备，其特征在于，所述控制器还被配置为：

获取所述语音数据流；

如果所述语音数据流识别出所述第二特征词，在所述语音数据流中识别语音交互指令；

响应所述语音数据流中的语音交互指令。

9.根据权利要求7所述的终端设备，其特征在于，所述控制器还被配置为：

获取所述控制设备发送的带有识别成功标志的语音数据流，所述识别成功标志中包括所述第一特征词；

从所述识别成功标志中提取所述第一特征词；

在所述语音数据流中识别所述第二特征词；

将所述第一特征词和所述第二特征词组合，生成所述特征词。

10.一种音频传输方法，其特征在于，所述方法包括：

控制设备接收用户输入的语音数据流；