CN212588503U

CN212588503U - 一种嵌入式音频播放装置

Info

Publication number: CN212588503U
Application number: CN202020594937.7U
Authority: CN
Inventors: 张时嘉; 曾娟鹃; 张亦农; 王海业; 由海
Original assignee: Nanjing Xijueshuo Information Technology Co ltd
Current assignee: Nanjing Xijueshuo Information Technology Co ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2021-02-23
Anticipated expiration: 2030-04-20

Abstract

本实用新型提供一种嵌入式音频播放装置，包括扬声器、通信单元、控制单元、存储单元、语音识别单元及提醒单元，其中，语音识别单元内设置有关键词识别模型单元，用于存储基于场景的关键词识别模型。所述语音识别单元自所述音频流中提取语音信号，并采用所述基于场景的关键词识别模型实时检测所述语音信号中是否包含所述关键词。相对现有技术，本实用新型可独立完成基于场景的连续语音关键信息实时检测、提醒、录制和回放，使用方便、便捷且私密性好。

Description

一种嵌入式音频播放装置

技术领域

本实用新型涉及嵌入式设备技术领域，尤其涉及一种嵌入式音频播放装置。

背景技术

当前，互联网、移动通信网络已经进入千家万户，遍布人们生活的角角落落。基于这些远程通信平台的网络会议、网络教学、网络商务洽谈、网络销售等各种远程音视频应用也随着计算机网络技术、音视频处理技术和以片上系统SoC为核心的嵌入式设备等相关技术和产品的高度成熟而日渐兴起。这些配合手机、耳机、平板电脑、音箱等嵌入式设备使用的远程音视频应用，完全打破了地域的限制，使身处异地的人们可以随时实现实时的语音和视频的交流互动，为人们的生产生活提供了极大的便利。例如在当前疫情汹涌的情势下，学生通过网络教学平台得以继续在家上课。学生们经常会通过头戴式耳机参加网课，并在授课过程戴着耳机在一定范围内随意走动。但不利的是，网络教学时因为缺少课堂氛围，老师也无法及时观察到每个孩子的听课状态，因此非常依赖学生个人的自律性。而学生一旦走神或私下玩耍，就没有人能够给予及时提醒和纠正，而老师传授的课业内容也被错过了。这种情形在网络视频会议时其实也类似地存在，例如会议中因为私事的打扰或者接听电话等，而错失会议的关键的语音信息。通常，在手机或者电脑上的网课、视频会议软件中没有针对对端说话者的内容的关键信息提醒功能。即使有，本地用户也未必在手机或电脑边上。因此，非常有必要在头戴式耳机或者音箱这类最贴近本地用户的手机或电脑的附属型设备中直接实现关键信息提醒的功能，使本地用户的思维能在第一时间内被拉回网课或视频会议。

近年来，语音识别技术被越来越多的用于语音监测和识别重要信息中。特别是在摩尔定律和大数据的强力支撑下，基于人工智能技术的语音识别已经从浅层识别迈入了深度学习阶段。基于深度学习理论和神经网络模型的语音识别技术可输出更高正确率的识别结果，因此在智能语音唤醒、智能语音控制、智能语音对话等诸多领域被广泛应用。

但实用新型人深入研究后发现，如果将人工智能的语音识别技术用于当前远程音视频应用中实现关键语音信息提醒功能，却存在诸多技术瓶颈，例如：

第一方面，人工智能的语音识别技术中，语音识别模型是保障识别准确率的关键。而现在的各种智能语音唤醒、智能语音控制、智能语音对话技术应用中，往往都是采用通用版的语音识别模型，即由设备/应用的提供方预先完成语音识别模型的训练，重要信息的判断标准、训练样本的选择，全部都由设备/应用的提供方决定。如果将这种通用版的语音识别模型简单用于远程音视频应用中，难以适应各种不同的应用场景，甚至可能因为无法保障识别准确率而导致糟糕的用户体验。

第二方面，人工智能的语音识别技术，特别是深度学习技术的实现，需要大量高精度计算，这依赖于硬件系统在内存、计算开销和功耗等方面的强大支撑。因此目前这类技术大多是用在GPU、FPGA等高成本、高功耗、高性能的大型专用计算平台上，而在普通消费者使用得最多的各种低功耗、低性能的嵌入式设备(如耳机、便携式音箱、电话手表、会议终端设备等等手机或电脑的附属型设备)进行不依赖于手机或者云端的、独立的关键词识别却非常少见，或者仅采用较简单的孤立词或者固定关键词集合，限定句型识别等技术，实现一些简单、低层次的语音识别功能，如，简单的语音唤醒、智能家居语音控制等，却未能在复杂且连续的语音流中实现关键语音信息提醒功能。如目前市场上为大家所熟知的一些智能语音助理，均是将嵌入式设备采集到的语音流上载到手机或者云端后进行识别，通常只能实现单一语句的语音识别；而将采集的语音流上传到云端或远端设备识别后再返回结果，通常因延时长而导致用户体验差，并且用户的隐私难以得到保障。究其原因，其中很重要的一点是嵌入式设备硬件算力和功耗限制，难以为现行的大词汇量连续语音识别技术提供足够的支撑。

第三方面，目前的消费领域的语音识别，均是对本地输入的语音流进行关键词或者全语音的识别后进行一定的交互，缺少在特定场景中对另一方向的/来自于远端的语音进行感兴趣关键词识别后进行提醒的功能。

因此有必要提出一种基于场景的关键信息提醒技术，以解决上述的至少一个技术缺陷。

实用新型内容

有鉴于此，本实用新型提出一种嵌入式音频播放装置，可以有效提醒用户注意关键信息。

为实现上述目的，作为本实用新型的第一方面，提供一种嵌入式音频播放装置，包括扬声器和通信单元，还包括控制单元、存储单元、语音识别单元及提醒单元，

所述通信单元接收来自远端的音频流；

所述语音识别单元内设置有关键词识别模型单元，所述关键词识别模型单元用于存储基于场景的关键词识别模型；所述关键词和应用场景关联，其中包含一组在该应用场景中需要重点关注的词汇，所述词汇中的一个或多个由用户预先指定；

所述语音识别单元自所述音频流中提取语音信号，并采用所述基于场景的关键词识别模型实时检测所述语音信号中是否包含所述关键词；

所述控制单元用于在所述语音信号中包含关键词时，开始录制所接收的音频流，并控制所述提醒单元输出关键信息提醒；

所述存储单元用于存储被录制的音频流；

所述扬声器用于播放所述音频流，或响应于回放指令，回放所录制的音频流。

优选的，所述基于场景的关键词识别模型为预先在远端或云端基于包含针对所述关键词的语音样本，和/或针对所述关键词的特定人的语音样本的训练样本库，采用深度学习算法训练获得；

所述控制单元还可以用于通过所述通信单元自远端下载所述基于场景的关键词识别模型。

进一步的，所述语音识别单元内还可以设置有语音预处理单元，其接收音频流，并对所述音频流进行预处理，以消除噪声、背景人声、音乐声，提取语音信号；

进一步的，所述语音识别单元内还可以设置有神经网络处理单元，用于基于所述关键词识别模型，采用深度学习算法对所述语音信号或所述语音预处理单元处理后的语音信号进行数据处理，从而对语音信号中出现的词汇进行推理和判决，以确定其中是否包含关键词词汇，并将判决结果反馈给所述控制单元。

进一步的，所述提醒单元可以为指示灯模组、振动器模组、文字消息生成模组、语音消息生成模组、音乐消息生成模组中的一种或多种。

进一步的，还可以包括输入单元，用于接收用户输入的录制停止指令、回放指令；

所述控制单元在接收到语音识别单元反馈的所述语音信号中包含关键词时，开始对接收到的音频流进行持续压缩编码并本地存储；

所述控制单元在接收到录制停止指令或持续录制时间超过第一预定时长时，停止录制；

所述控制单元在接收到回放本地音频指令时，播放本地存储的录制音频流；

所述控制单元还用于在接收到语音识别单元反馈的所述语音信号中包含关键词时，向远端发送用于使远端开始对所发送的音频流持续录制的录制开始指令；并当持续录制时间未超过第二预定时长且接收到停止录制指令时，向远端发送录制停止指令；

所述控制单元在接收到回放远端音频指令时，向远端发送回放请求，并接收和播放远端存储的录制音频流。

优选的，所述嵌入式音频播放装置可以为耳机或带通话功能的音箱。

优选的，所述神经网络处理单元可以为嵌入式神经网络处理器、专用神经网络处理阵列处理单元、DSP、嵌入式处理器中的一种。

本实用新型的有益效果是：相对现有技术，本实用新型所提供的嵌入式音频播放设备，可独立完成基于场景的连续语音关键信息实时检测、提醒、录制和回放，使用方便、便捷且私密性好。

附图说明

为了更清楚地说明本实用新型实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本实用新型的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本实用新型实施例1的关键信息提醒方法的流程图；

图2为本实用新型实施例2的嵌入式音频播放装置的电路原理方框图；

图3为本实用新型实施例3的关键信息提醒系统的系统架构图。

具体实施方式

在摩尔定律应用的40多年里，半导体芯片设计技术、制造工艺水平得到飞速提高，芯片计算能力得到大幅度提升，片上存储容量大幅度提升，而同时功耗不断降低，这使得人工智能技术在小型低功耗的嵌入式设备中广泛应用已成为可能。本实用新型是针对现有技术中人们在使用远程音视频应用时容易遗漏来自于对端的重要信息的缺陷所提出的技术改进。具体为，在嵌入式设备上，针对语音信息，采用基于场景的人工智能语音识别技术实时识别来自于对端的感兴趣信息，并及时输出提醒和保存关键音频流。本实用新型可适用于不同应用场景，满足不同用户的个性化需求，因此可有效解决现有技术的缺陷。本文中所述的“实时”是指嵌入式音频播放装置有足够的算力对原速播放的音频流中的关键词进行识别。

下面通过附图和实施例，对本实用新型的技术方案做进一步的示例性的描述。显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例1：

如图1所示，根据本实用新型的核心思想，本实施例提供一种关键信息提醒方法，其中，

步骤100，初始化步骤。

本步骤为进入关键信息提醒之前的处理流程，主要用于检查和更新关键信息提醒所需的软、硬件环境配置、参数准备、程序准备等。其中可以包括采用无线通信方式或有线通信方式使本地设备与远端设备建立通信连接的步骤，还可以包括获取基于场景的关键词识别模型的步骤。

需要说明的是，本文中所称的“本地”和“远端”是相对概念，其中“本地”是指接收音频流并产生关键信息提醒的一方或一端，而“远端”是指独立于“本地”但与“本地”直接或通过一个或多个媒介体间接地以有线方式或无线方式通信，且向“本地”发送音频流的另一方或另一端。另外，需要说明的是，本文中所称的“远端“和本领域内在描述语音通话时常用的“对端”不是一个概念，“对端”是指音频流的另一发起方，而“远端”是指通话音频流自对端发起后的最初接收方，相应的“本地”是指通话音频流的最终接收方。

作为一种具体实施方式，“本地”可以为基于嵌入式系统的音频播放装置(简称：嵌入式音频播放装置)。本文中所称的“嵌入式系统”是嵌入到对象体系中的专用计算机系统，是以应用为中心，以计算机技术为基础，并且软硬件可裁剪，适用于应用系统对功能、可靠性、成本、体积、功耗有严格要求的专用计算机系统。“嵌入式装置”是指内部包含嵌入式系统的装置，其一般基于ARM内核和架构或者其它低功耗内核和架构，并用于实现特定的功能和应用，是相对于泛用的具有多种功能的PC机而言的装置，具体可以是耳机、音箱、电话手表、会议终端设备等等。而“远端”可以是最终用户计算机系统、网络服务器或服务器系统、移动计算设备、消费电子设备或其它适当的电子设备或它们的任何组合或部分，具体如手机、平板电脑、计算机、智能电视等。

远程音视频应用可以适用的场景各式各样，所传输的语音信息量巨大，其中关键信息的类别也因人而异，因场景而异，各不相同。譬如，人们经常会通过头戴式耳机或者音箱这类手机或电脑的附属型设备参加视频会议或者网课。在视频会议中,对于用户而言，可能最关注的是会议中涉及到自己的那部分内容，如自己所在的部门、自己的上司、与自己相关的业务等，因而用于识别关键信息的关键词应该为部门名称、上司的名字、自己的名字、业务名称、任务布置、交付期限等；在网课中，对于学生而言，可能最关注的是老师讲授的知识点，因而用于识别关键信息的关键词应该为重点、难点、考点、总结、回顾等等；而在客服中心，对于客服人员而言，则可能最关注顾客提及的投诉事件，因而关键词需要包括投诉、建议、质量、服务态度等等。如果在这些不同的场景中采用全文的语音识别模型，并想要保证识别准确率，则必须基于海量语音样本训练语音识别模型。然而通常情况下这在手机或电脑的附属型设备中很难实现，一方面，海量的语音样本很难获取，另一方面，基于海量的语音样本训练对计算机硬件的要求非常高，高昂的实施成本限制了技术在手机或电脑的附属型设备中的推广应用。

因此，本实施例中，所述获取基于场景的关键词识别模型的步骤，特别是在手机或电脑的附属型嵌入式设备中获取所述关键词识别模型，是用于根据实际应用场景，调整、更新关键词识别模型，以使关键词识别模型更加契合当前场景，满足用户需求。所述关键词和应用场景关联，包含一组在该应用场景中需要重点关注的词汇。不同的应用场景可以对应不同的关键词。用户可以根据实际需求而自行设置、指定关键词中的一个或多个词汇。

所述获取基于场景的关键词识别模型的步骤具体可以包括：接收用户自定义的关键词词汇，和/或接收用户提供的至少包含所述关键词的特定人的语音样本；将所述关键词和所述特定人的语音样本用于对标准样本库进行扩充，从而形成训练样本库，并基于训练样本库训练获得基于场景的关键词识别模型。其中，所述标准样本库可以是基于预先采集的广泛的语音样本而形成的训练样本集合。

所述接收用户自定义的关键词词汇，和/或接收用户提供的至少包含所述关键词的特定人的语音样本的步骤通常在基于手机或者电脑上更丰富的用户界面，在远端进行。

作为一种可选实施方式，用户可以根据自己的喜好、需求、使用场景，预先通过远端设置自定义关键词集合；音频流的提供方也可以根据使用场景、音频流内容、用户使用习惯等各种因素生成默认关键词集合。远端还可以预先显示若干默认关键词词汇，以供用户选择、增加、删减，以形成与应用场景关联的关键词词汇集合。

为了匹配嵌入式装置的硬件环境，可以设置所述关键词中词汇的数量上限，例如30组词汇等。

另外，鉴于语音识别中，说话人的性别、年龄、发音的生理特征、方言、非母语发音、说话时的情感、环境噪声等各种因素都可能影响识别的准确率，例如，同一个单词“重点”，四川人和广东人的读音就大相径庭。因此，本实施例中还可以获取用户提供的至少包含关键词的带特定人口音的语音样本，并用其扩充标准样本库，例如，学生可以提供一些老师上课的录音，职员可以提供一段老板开会时的录音等等。

在获取用户设置好的关键词后，将针对所述关键词用于对已有的海量语音标准样本库进行选择，形成训练样本库；在接收到用户提供的至少包含关键词的特定人的语音样本后，也将该特定人的语音样本扩充所述训练样本库。本实施例基于包含这些与应用场景密切相关的语音样本的样本库训练获得基于场景的关键词识别模型，将可有效提高识别准确率。

本实施例中训练获得关键词识别模型的过程，既可以采用目前已成功用于语音识别、文字识别的隐马尔可夫模型(Hidden Markov Model，HMM)、动态主题模型(DynamicTopic Models,DTM)以及基于此类技术衍生的各种经典人工智能的语音识别算法实现，也可以采用基于深度学习的算法以及未来各类相关算法来实现。深度学习是机器学习(Machine Learning)研究中的重要领域之一，其动机在于建立、模拟人脑进行分析学习的神经网络，通过模仿人脑的机制来解释数据，例如图像、声音和文本。深度学习的核心是通过构建具有多个隐层的机器学习模型和大量的训练数据来学习更有用的特征，从而最终提升分类或预测的准确性。目前，在计算机视觉和自然语言中，主流的深度学习算法是卷积神经网络(Convolutional neural network，CNN)、循环神经网络(Recurrent NeuralNetwork，简称RNN)算法，另外也有长短期记忆网络(Long Short-Term Memory,简称LSTM)算法、深度全序列卷积神经网络(Deep Fully Convolutional Neural Network，简称DFCNN)算法等。就提实施时，本实施例可采用包括但不限于这些现有的或未来将有的各种适用的深度学习算法。

作为一种优选实施方式，本实施例采用基于深度学习算法的连续语音关键词识别技术。例如，在获得所述训练样本库后，采用卷积神经网络(Convolutional NeuralNetwork，简称CNN)算法、循环神经网络(Recurrent Neural Network，简称RNN)算法等深度学习算法，基于所述训练样本库训练获得基于场景的关键词识别模型。

所述采用深度学习算法的关键词识别模型的训练过程可以是在远端完成，也可以是在云端完成。需要说明的是，本文中所述的“云端”，是指具有强大处理和存储能力的云计算的服务器端或云计算的后台服务器。作为一种优选实施方式，所述训练的过程在云端完成，以便充分利用云端的硬件资源及强大的计算能力。具体包括：用户在远端输入关键词词汇或者上传包含关键词的特定人的语音样本后，远端将所述关键词和/或语音样本发送至云端，使得云端可以采用从互联网等各种方式获取包括所述关键词的语音样本，并将所述语音样本和特定人的语音样本扩充至其标准样本库中，形成训练样本库，再采用所述训练样本库训练获得基于场景的关键词识别模型。

进一步的，在训练完成后，远端接收来自云端的所述基于场景的关键词识别模型。

所述训练的过程在远端完成的过程可以参照上述云端训练的过程，此处不再赘述。

在所述初始化步骤中，还可以包括更新本地关键词识别模型的步骤，其具体包括：远端将所述基于场景的关键词识别模型下载至本地。其可以是远端主动向本地发送更新请求，亦可是远端响应于本地的更新请求，而启动下载执行。

在完成初始化步骤后，即可进入以下关键信息实时检测和提醒流程。

步骤110，在接收和播放音频流时，自所述音频流中获取语音信号；

本实施例的关键信息提醒流程，是在远程音视频应用中，接收和播放远程音视频应用中的音频流的同时，识别语音信息中包含的关键信息，并进行提醒。

作为一种优选实施方式，本步骤在获取所述音频流中的语音信号时，还对所述音频流进行背景声消除，去除背景中的噪声、背景人声、音乐声等，提取高信噪比的前景语音信号，以提升信噪比，进而提升语音识别的成功率。

步骤120，采用所述基于场景的关键词识别模型针对所述语音信号进行语音识别，实时检测所述语音信号中是否包含预设关键词；

检测所述语音信号中是否包含关键词时，只要检测到其中的一组关键词词汇，即可认为所述语音信号中包含关键词。

作为一种较佳实施方式，采用基于深度学习算法的连续语音关键词识别技术进行基于场景的关键信息识别，具体包括，构建基于所述关键词识别模型的深度学习神经网络，将待识别的连续语音信号输入所述深度学习神经网络进行数据处理，以对所述语音信号中出现的词汇进行推理和判决，确定其中是否包含关键词词汇。

本实施例中，采用基于深度学习算法的连续语音关键词识别技术进行基于场景的关键信息识别，相对现有技术中的大词汇量连续语音识别，不必识别全部文字，而只是检测用户设置的一组或多组关键词是否在连续语音流中出现，一方面可以针对连续的语音流进行实时检测，另一方面，其对硬件的运算能力、存储空间和功耗要求较低，可应用于小型低功耗的嵌入式系统中，同时，基于场景的识别可有效提高识别准确率，提升语音识别的用户体验。

当检测所述语音信号中未包含关键词时，则返回步骤110，持续检测后续获取的音频流。

当所述语音信号中至少包含一组关键词时，执行步骤130和140；

步骤130，产生关键信息提醒。

所述关键信息提醒可以包括视觉提醒、触觉提醒和听觉提醒；

所述视觉提醒包括光效提醒、文字消息提醒，如LED指示灯闪烁或显示特定光效、远端屏幕上出现闪烁图案、远端文字消息(如，手机应用程序APP 的通知消息)等；

所述触觉提醒包括振动提醒，如按照预定规律的振铃；

所述听觉提醒包括语音提醒、音乐提醒，如采用预定语音内容或音乐进行提醒。

在具体实施时，可以根据实际应用场景选择上述的一种或几种提醒方式，例如，可以只设置光效提醒或音乐提醒，也可以在振动提醒的同时，向关联的计算机应用程序APP发送消息，以便获得双重提醒的效果。

步骤140，开始录制所接收的音频流；

本实施例中，在判断当前音频流的语音信息中包含关键词时，为了帮助使用者能够尽量少的遗漏重要内容，在产生提醒的同时，还对接收到的音频流启动录制。

录制所述音频流时，可以将关键词本身作为录制起点，也可以自关键词出现后所接收的音频流作为录制起点，还可以将关键词出现时的当前音频流中已经滚动压缩编码的一段音频流以关键词为起点向前推移固定时间作为录制起点。即，所录制的音频流中可以包含关键词出现时的音频流，也可以不包含，还可以包含关键词出现前的音频流。

录制的音频流将被压缩编码后存储在本地，以便本地回放。所述音频流被持续录制直至接收到录制停止指令或持续录制时间超过第一预定时长时，则停止录制。第一预定时长兼顾到本地存储载体的有限容量，可以设置比较短，例如1～2分钟。通常情况下，重要内容会出现在关键词出现后的较短时间的语音信息中，因此较短的第一预定时长，虽然简短却可能保存了最重要的语音内容，便于用户回放录音时快速了解重要信息。

作为一种优选方式，在所述语音信号中包含关键词时，还可以向远端发送录制开始指令，该指令可以使远端开始对其所发送的音频流持续录制，并进行远端存储；在发送所述录制开始指令后还可以开始计时，当计算远端持续录制时间未超过第二预定时长且接收到停止录制指令时，则向远端发送录制停止指令，以使得远端可以在第二预定时长内随时因收到录制停止指令而终止录制，增加了录音时长的可控性。远端在持续录制时间超过第二预定时长时，可以自动停止录制。

为了尽可能地帮助用户充分掌握重要信息，减少信息遗漏，第二预定时长可以设置为大于或者等于第一预定时长，即，使第二预定时比较长，如2～5 分钟，这样可将包含关键信息的较长时间的音频流保存下来以备用户回放。

当然，在本地存储空间足够大的情况下，也可以设置第一预定时长大于或者等于第二预定时长，这样，本地存储足够长时间的录音，而远端则保留较短时长的录音，使得用户或者其它人可以在远端回放录音以快速了解关键信息。

另外，作为一种可选实施方式，远端在录制音频流时还可以对所录制的音频流进行全文语音识别，以获得相应的文字，并存储该文字信息。

步骤150，响应于回放指令，播放所录制的音频流。

本步骤中，可以响应于回放本地音频指令，播放本地录制并存储的音频流；也可以响应于回放远端音频指令，向远端发送回放请求，并接收和播放远端存储的录制音频流。

作为一种可选实施方式，本地存储所录制的音频流时，可以按照录制开始时间的先后顺序存储；相应的，在回放时，可以按照录制开始时间的先后顺序依次播放。

应当说明的时，步骤104是基于获得的回放指定而执行的步骤，因此它不必一定在步骤103之后实施，或者说，它可被实施为在使用过程中随时检测回放指令，以回放录音。

在一种典型应用场景中，本实施例的关键信息提醒方法可以应用在呼叫中心系统中。通常呼叫中心的接线员每天要接听数以百计的语音电话，工作强度很大。而打进电话的对方因口头表达能力差异、口音问题、甚至情绪问题，往往很难在短时间内清楚表达其主要的通话目的。接线员如果精神不能高度集中，很容易错过对方的重要信息，甚至误解对方的意思，而导致不良后果。采用本实施例的方法，接线员在接听呼叫电话时，佩戴可进行关键信息提醒的耳机，耳机自动识别通话对方的语音信息中是否含有诸如“报警”、“投诉”、“骗子”之类的关键词，并及时提醒接线员注意关键信息；并且，耳机还可以录制关键信息，或者通知与其通信连接的远端(如呼叫中心管理平台、呼叫电话转接平台等)录制关键信息。这样，接线员可以通过回放功能更准确全面的了解关键信息，加深对对方通话意图的理解。可见，本实施例的关键信息提醒方法，不仅可以及时、有效地提醒接线员，还可以帮助其回顾通话内容，既减少信息损失，更将大大减轻接线员的工作压力。

实施例2

参考图2，根据本实用新型的核心思想，本实施例提供一种嵌入式音频播放装置，包括通信单元、扬声器、控制单元、存储单元、语音识别单元及提醒单元，

所述存储单元用于存储于本装置运行相关的数据、程序等。

所述通信单元可以为有线通信单元，亦可为无线通信单元，还可以既包括有线通信模组，也包括无线通信模组。具体的，所述通信单元可以被实施为蓝牙通信单元、WIFi通信单元、Internet网络接口、音频专用有线传输接口、 USB接口、micro USB接口、mini usb接口、Type-C接口、Lightning接口等各种已知的或未来可用于本实施例中的通信单元。

所述通信单元接收来自远端的音频流；

所述语音识别单元用于自所述音频流中提取语音信号，并采用基于场景的关键词识别模型实时检测所述语音信号中是否包含关键词；

所述控制单元是本装置的控制中心，其利用各种接口和线路连接本装置中的其它单元，并对各个单元进行整体监控和调度，以实现本装置的各项功能，特别是在所述语音信号中包含关键词时，开始录制所接收的音频流，并控制所述提醒单元输出关键信息提醒；

本实施例中，所述关键词和应用场景关联，其中包含一组在该应用场景中需要重点关注的词汇，所述词汇中的一个或多个由用户预先指定；

所述语音识别单元包括关键词识别模型单元，所述关键词识别模型单元用于存储所述基于场景的关键词识别模型。所述基于场景的关键词识别模型为预先基于包含针对所述关键词的语音样本，和/或针对所述关键词的特定人的语音样本的训练样本库，训练获得；作为一种优选实施方式，所述基于场景的关键词识别模型为采用深度学习算法训练获得，所述语音识别单元可以采用该关键词识别模型，进行连续语音关键词识别，以实时地检测所述语音信号中是否包含关键词；

所述语音识别单元还可以包括语音预处理单元，用于对输入的音频流进行预处理，以消除噪声、音乐声、背景人声等，提取高信噪比的语音信号；

所述语音识别单元还可以包括神经网络处理单元，用于基于所述关键词识别模型，采用深度学习算法对所述语音信号进行数据处理，从而对所述语音信号中出现的词汇进行推理和判决，以确定其中是否包含关键词词汇。所述的神经网络处理单元可以是嵌入式神经网络处理器(neural-network processunits，NPU)、专用神经网络处理阵列处理单元、DSP、嵌入式处理器等各种可用于神经网络中处理海量多媒体数据的处理模组。

本实施例中，所述关键词识别模型是在外部训练完成，并在使用前被下载到本装置内的。因此，所述控制单元还用于通过所述通信单元自远端下载所述基于场景的关键词识别模型。

所述提醒单元为指示灯模组、振动器模组、文字消息生成模组、语音消息生成模组、音乐消息生成模组中的一种或多种。其中，所述指示灯模组可以为LED指示灯，其可以以灯光闪烁、或显示特定图形的方式输出提醒；所述振动器模组可以产生预定频率的振动；所述文字消息生成模组可以为根据预定的消息格式生成文字消息，如包含当前被识别出的关键词的文字消息；所述语音消息生成模组可以根据预定的语音消息格式生成语音消息，如生成包含当前被识别出的关键词的语音消息；所述声音消息生成模组可以根据预先设定的方式从预存的声音数据中选择一段，以作为声音消息，如“滴滴”“叮咚”等Tone音等。

所述扬声器用于播放所述音频流，或回放所录制的音频流，或者播放所述语音消息或声音消息等。应当能理解的是，在一些具体实施方式中，所述扬声器可以与控制单元、存储单元配合，取代提醒单元的功能，例如仅采用声音提醒的方式。

所述嵌入式音频播放装置还包括输入单元，用于接收用户输入的各项控制指令，例如，接收用户输入的回放指令、停止提醒指令、录制停止指令等。

所述输入单元可以为触控面板、按键、语音命令输入模组等各种机械或语音输入模组。

所述存储单元用于存储被录制的音频流；

在一种可选实施方式中，所述控制单元在所述语音信号中包含关键词时，开始对接收到的音频流进行持续压缩编码并本地存储；所述控制单元在接收到录制停止指令或持续录制时间超过第一预定时长时，停止录制；

所述控制单元还用于在所述语音信号中包含关键词时，向远端发送录制开始指令，用于使远端开始对所发送的音频流持续录制，当持续录制时间未超过第二预定时长且接收到停止录制指令时，向远端发送录制停止指令；

另外，所述嵌入式音频播放装置还可以包括供电单元，所述供电单元用于提供本装置工作时的所需电源，其可以是通过纽扣电池或可充电电池供电的供电电路模组，亦可是通过外部输入电源为本装置供电的供电管理模组，还可以是基于有线通信接口自取电的电路模组。

显然，本实施例的嵌入式音频播放装置可以用于实现实施例1所述的关键信息提醒方法中的部分或全部的方法、流程或步骤。其中与实施例1相同或相似部分的描述，本实施例不再赘述。

所述嵌入式音频播放装置可以被具体实施为头戴式音频播放设备，如各种有线耳机装置、无线耳机装置等，还可以被实施为各种便携式音箱；亦可以被具体实施为电话手表、便携式游戏机、便携式多媒体播放器等等手机或电脑的附属型设备。例如，在一种典型应用场景中，所述嵌入式音频播放装置为带通话功能的音箱。所述音箱的外壳上设置有LED指示灯，其内部被预先下载基于场景的关键词识别模型，可以对音箱当前播放的语音信息进行实时的连续检测。在当前语音信息中包含关键词时，LED指示灯开始闪烁，以提醒用户。所述音箱具有智能语音控制功能，用户可以语音发出控制指令，以控制音箱执行LED指示灯关闭、录音停止、回放等功能。所述音箱用于实现关键信息提醒的详细过程可参照前述实施例1和本实施例的部分描述，此处不再赘述。

实施例3

根据本实用新型的核心思想，本实施例提供一种关键信息提醒系统，包括嵌入式音频播放装置和远端设备，

所述远端设备接收用户自定义的关键词词汇，和/或用户提供的、至少包含所述关键词的特定人的语音样本，以用于获取基于场景的关键词识别模型；所述关键词和应用场景关联，其中包含一组在该应用场景中需要重点关注的词汇；

所述基于场景的关键词识别模型为预先基于包含针对所述关键词的语音样本，和/或针对所述关键词的特定人的语音样本的训练样本库，训练获得；

所述嵌入式音频播放装置与所述远端设备通信，接收来自远端设备的音频流，并播放；所述通信可以为任何适用的通信形式，诸如有线(例如以太网、USB、闪电、光纤)通信或无线(例如WiFi、蓝牙、IR)通信。

所述嵌入式音频播放装置还自所述音频流中获取语音信号，并采用基于场景的关键词识别模型针对所述语音信号进行语音识别，实时检测所述语音信号中是否包含关键词；

当所述语音信号中包含关键词时，所述嵌入式音频播放装置产生关键信息提醒，并开始录制所接收的音频流；

所述嵌入式音频播放装置响应于回放指令，播放所录制的音频流。

作为一种可选方式，所述关键识别模型在所述远端设备上完成训练，所述远端设备将用户自定义的关键词词汇和/或用户提供的至少包含所述关键词的特定人的语音样本用于对其标准样本库进行扩充，形成训练样本库，并基于所述训练样本库训练获得基于场景的关键词识别模型；

所述远端设备将所述基于场景的关键词识别模型下载至所述嵌入式音频播放装置。

作为另一种可选实施方式，所述关键词识别模型在云端完成训练，所述系统还包括云服务器；

所述远端设备与所述云服务器通信，将所述关键词和/或特定人的语音样本发送至所述云服务器；

所述云服务器将接收到的关键词和所述特定人的语音样本用于对其标准样本库进行扩充，并基于所述训练样本库训练获得基于场景的关键词识别模型；

所述远端设备接收来自所述云服务器的基于场景的关键词识别模型，并将所述基于场景的关键词识别模型下载至所述嵌入式音频播放装置。

显然，本实施例提供的关键信息提醒系统可以被用于实现实施例1所述的关键信息提醒方法中的部分或者全部的方法、流程或步骤。实施例2所述的嵌入式音频播放装置亦可被用于实现本实施例的关键信息提醒系统。其类似的技术细节可以参考前述实施例的描述，此处不再赘述。

以下将以一种典型应用场景为例，以更加清楚、详细地描述本实用新型实施例的核心思想。

参考图3，本应用场景中，所述关键信息提醒系统包括视频播放设备(如平板电脑)300、耳机310和云服务器320。

所述耳机310可以是头戴式耳机、入耳式耳机或耳挂式耳机；可以是有线耳机，也可以是无线耳机；可以只有1个耳麦311，还可以具有左右耳麦 311；其左右耳麦311可以是连体式，亦可是分体式。

所述耳机310与视频播放设备300有线通信或无线通信，从而接收来自视频播放设备300的音频流。所述视频播放设备300可以是用户的个人计算机、平板电脑、智能电视、手机等。用户通过视频播放设备300收看视频节目。图3所示为学生通过平板电脑收看网课。

所述视频播放设备300还可以基于网络访问云服务器320，所述网络可以是局域网、广域网、蜂窝网络、或它们的组合。

所述耳机310上设置LED指示灯312、按键313～316。所述LED指示灯 312可发出闪烁的红光；所述按键313为音量增加键，按键314为播放/暂停键，按键315为停止提醒/停止录制/回放键，按键316为音量降低键。其中按键315可以被设置为1次按压即同时执行停止提醒、停止录制和开始回放三种功能，也可以被设置为1次按压即同时执行停止提醒和录制，连续两次按压即开始回放。具体可根据实际实施环境而设置，本实用新型对此不作具体限制。

所述LED指示灯312也可以被设置于所述耳机310的外置式麦克风(图中未示出)上，用户在佩戴耳机时，可将外置式麦克风调至自己的嘴唇前方位置，这样LED指示灯312如发光提醒，用户更容易看到。

另外，所述耳机310内还设置有振动器(图中未示出)。所述振动器可以采用现有的或未来适用的技术实现，本实用新型不做具体限制。例如，可以是具有凸轮的偏心电动机。

所述云服务器320可以基于前述的深度学习算法训练产生关键词识别模型。在具体实施时，所述云服务器320上可以预先采集广泛的语音样本，并对语音样本进行词汇标注等处理后，形成标准样本库。

本应用场景下，关键信息提醒系统实现关键信息提醒的流程如下：

步骤一，初始化步骤。

在启动关键信息提醒流程之前，先进行初始化步骤，检查和更新系统内各装置、设备运行、通信所需的软、硬件环境配置以及各项参数设置。

其中包括设置关键词，获得新的关键词识别模型。具体为：

用户通过视频播放设备300设置关键词词汇，如学生在上网课前可以输入“重点”、“考试”、“总结”以及自己的名字等文字作为关键词。通过用户的自主设置可以形成符合当前应用场景、且具有个性化的关键词。

为了匹配耳机310的硬件功耗和算力，设置关键词词汇数量的上限为20。

当视频播放设备300的关键词中被输入新的词汇时，视频播放设备300 访问云服务器320，向云服务器320发送更新关键词识别模型请求，并将关键词送至云服务器320。

云服务器320接收到关键词后，可将其中的关键词词汇与云服务器320 上现存的关键词词汇比对，当视频播放设备300发送的关键词中的所有词汇均包含在云服务器320现存的关键词中时，则直接将现有的标准样本库作为训练样本库，针对所述关键词采用所述的深度学习算法训练获得新的基于场景的关键词识别模型；当关键词中的部分词汇未包含在云服务器320现存的关键词中时，则从互联网获取包含该部分词汇的语音样本，并将其扩充标准样本库以形成训练样本库后，再训练产生新的关键词识别模型。

用户也可以通过视频播放设备300上传包含关键词中一个或多个词汇的特定人的语音样本，如学生将某位老师的语音音频资料上传至所述视频播放设备300。视频播放设备300将该特定人的语音样本上传至云服务器320，以使扩充云服务器320的标准样本库，使得云服务器320可以基于至少包含所述关键词的特定人的语音样本的训练样本库，训练获得新的关键词识别模型。

云服务器320响应于视频播放设备300的更新请求，将训练所得的基于场景的关键词识别模型发送给视频播放设备300。

视频播放设备300从所述云服务器320接收所述关键词识别模型后，将关键词识别模型下载至所述耳机310，以使耳机310更新自己本地存储的关键词识别模型。

需要说明的是，所述设置关键词，获得新的关键词识别模型的过程可以在初始化步骤完成，亦可在系统运行中的各个适宜的时间内完成，具体可以根据实际情况确定，本实用新型对此不做限制。

步骤二，耳机310接收音频流。

在完成系统初始化后，用户可以通过耳机310上的按键314开始接收和播放来自视频播放设备300的音频流。如学生此时通过耳机310和平板电脑 300，收看网络课程。

步骤三，耳机310获取音频流中的语音信号，并针对所述语音信号进行语音识别，采用所述基于场景的关键词识别模型，实时检测所述语音信号中是否包含预设关键词。

耳机310中内置语音识别单元，其可以为嵌入式神经网络处理器，用于基于所述关键词识别模型构建神经网络，采用深度学习算法进行数据处理，以对连续输入的语音信号进行实时的关键词识别。

网络课程的音频流中可能包括音乐、语音等各种声音信号，耳机310提取其中的语音信号，并采用基于场景的关键词识别模型和深度学习算法，检测语音信号中是否包含预设关键词。例如，学生预先设置了关键词“总结”，则当网课老师讲到“下面我们总结一下这节课的主要内容”时，则可检测识别当前语音信号中包含了关键词；而如果学生将自己的姓名或学号也作为关键词，则在被网课老师点名时，耳机310可以很好的发挥辅助提醒的作用。

而未识别出关键词时，耳机310继续接收和播放音频流，不进入以下步骤的执行。应当能够理解的是，在本系统进行关键信息提醒时，耳机310接收和播放音频流的过程可以不受影响。

步骤四，耳机310产生关键信息提醒，及录制音频流。

当耳机310检测识别当前语音信号中包含预设关键词时，将使其振动器开始振动。用户可以通过按键315使耳机310停止振动。如果振动超过预定的振动时间，如10秒钟，用户没有停止振动，则可以自动停止振动，并使其 LED指示灯312开始发出闪烁的红光。红光可以在较长的闪烁时间内持续闪烁，或者一直闪烁，直到用户通过按键315使其停止。当耳机310在产生新的振动前，检测发现LED指示灯312当前的状态为工作状态(红光闪烁)时，则不产生新的振动，而是继续保持LED指示灯312的当前工作状态。如此，则学生如果此时还戴着耳机，则可以通过振动方式使其注意关键信息；而如果他已摘掉耳机，则可以通过光效方式达到提醒目的。

耳机310在产生关键信息提醒的同时，还开始录制所接收的音频流。具体为：

在第一预定时长内，将所录制的音频流进行本地存储。第一预定时长应当小于或等于耳机310最多可存储音频流的时长。第一预定时长可以为预先设置的定值，如耳机310最多可存储音频流的时长为2分钟，则第一预定时长可以为2分钟，或者第一预定时长可以为30秒，则可以使耳机310最多可以存储4条最长时长为30秒的音频流。

耳机310在开始录制所接收的音频流的同时，还向视频播放设备300发送录制开始指令和检测所得的关键词词汇。

视频播放设备300接收到耳机310发送的录制开始指令后，开始对所发送的音频流进行录制。

步骤五，视频播放设备300将录制的语音信号转换成文字信息并存储。

所述视频播放设备300可以获取所录制的音频流中的语音信号，并采用现有技术中各种语音转换文字的方法将其全文转换成文字后存储。存储时，还可以将接收到的耳机310检测所得的关键词词汇、文字和录音关联存储，以便用户后续选择查阅。

步骤六，录制停止。

当用户通过按键315输入录制停止指令，或者当持续录制的时长超过第一预定时长却依然未收到用户发出的停止录制指令时，耳机310将自动停止录制音频流。

当用户通过按键315输入录制停止指令，或者当持续录制的时长超过第二预定时长却依然未收到用户发出的停止录制指令时，视频播放设备300将自动停止录制音频流。

步骤七，录音回放。

本实施例中，用户可以在耳机310上回放录音，也可以在视频播放设备 300上回放录音。

例如，学生通过连续按压2次按键315启动本地回放功能时，耳机310 将在播放来自视频播放设备300的音频流的同时，播放本地存储的录制音频流。播放时，可以使两路音频流混合后再播放，也可以使两个耳麦311中的一个播放一路音频流，另一个耳麦播放另一路音频流。

或者，学生通过连续按压3次按键315启动远端回放功能时，耳机310 向视频播放设备300发送回放请求指令，视频播放设备300接收到该回放请求指令后，将其所录制的音频流发送给耳机310。

另外，学生也可以直接在视频播放设备300上输入回放指令，播放视频播放设备300中存储的录制音频流。

学生还可以在视频播放设备300上指定播放其中的录制音频流。

步骤八，查阅文字信息。

本步骤中，学生可以在所述视频播放设备300中查阅被录制的音频流所对应的文字信息，以便于学生根据文字信息复习和记笔记。

通过上述实施例及典型应用场景的描述可见，本实用新型实施例提供的关键信息提醒方法、系统以及嵌入式音频播放装置，实现了在小型、低功耗的嵌入式设备上进行连续语音的关键信息实时检测、提醒和回放，使用方便、操作简单、适用范围广，并可以有效提醒、保存和回顾关键信息，减少用户遗漏关键信息的损失，增加用户对远程音视频应用满意度。

以上所述的具体实施方式，对本实用新型的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本实用新型的具体实施方式而已，并不用于限定本实用新型的保护范围，凡在本实用新型的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本实用新型的保护范围之内。

Claims

1.一种嵌入式音频播放装置，包括扬声器和通信单元，其特征在于：还包括控制单元、存储单元、语音识别单元及提醒单元，

所述通信单元接收来自远端的音频流；

所述语音识别单元内设置有关键词识别模型单元，所述关键词识别模型单元内存储有基于场景的关键词识别模型；所述关键词和应用场景关联，其中包含一组在该应用场景中需要重点关注的词汇，所述词汇中的一个或多个由用户预先指定；

所述存储单元用于存储被录制的音频流；

2.如权利要求1所述嵌入式音频播放装置，其特征在于：所述基于场景的关键词识别模型为预先在远端或云端基于包含针对所述关键词的语音样本，和/或针对所述关键词的特定人的语音样本的训练样本库，采用深度学习算法训练获得；

所述控制单元还用于通过所述通信单元自远端下载所述基于场景的关键词识别模型。

3.如权利要求2所述嵌入式音频播放装置，其特征在于：所述语音识别单元内还设置有语音预处理单元，其接收音频流，并对所述音频流进行预处理，以消除噪声、背景人声、音乐声，提取语音信号；

所述语音识别单元还设置有神经网络处理单元，用于基于所述关键词识别模型，采用深度学习算法对所述语音信号或所述语音预处理单元处理后的语音信号进行数据处理，从而对语音信号中出现的词汇进行推理和判决，以确定其中是否包含关键词词汇，并将判决结果反馈给所述控制单元。

4.如权利要求1所述装置，其特征在于：所述提醒单元为指示灯模组、振动器模组、文字消息生成模组、语音消息生成模组、音乐消息生成模组中的一种或多种。

5.如权利要求1所述装置，其特征在于：还包括输入单元，用于接收用户输入的录制停止指令、回放指令；

6.如权利要求1至5中之一所述装置，其特征在于：所述嵌入式音频播放装置为耳机或带通话功能的音箱。

7.如权利要求3所述装置，其特征在于：所述神经网络处理单元为嵌入式神经网络处理器、专用神经网络处理阵列处理单元、DSP、嵌入式处理器中的一种。