CN114627859A

CN114627859A - 一种脱机语义识别电子相框的方法及系统

Info

Publication number: CN114627859A
Application number: CN202210127071.2A
Authority: CN
Inventors: 郑谷川; 赵炳涛
Original assignee: Beijing Zhixiang Information Technology Co ltd
Current assignee: Beijing Zhixiang Information Technology Co ltd
Priority date: 2022-02-11
Filing date: 2022-02-11
Publication date: 2022-06-14

Abstract

本发明提供了一种脱机语义识别电子相框的方法及系统，所述方法包括：设置操作指令，并创建对应的语义处理模块；在电子相框中导入对应的语义处理模块；通过相框触发器监听预置的唤醒关键字后，由相框主程序采集音频流信息，并将所述音频流信息发送给语义处理模块；在所述语义处理模块接收到音频流信息后，将所述音频流转换成文字，对所述文字进行识别，将识别出来的结果转换为对应的操作指令回传给相框主程序；通过相框主程序根据接收到的操作指令后执行对应操作。采用本发明实现的电子相框可以实现离线状态的语义识别与操作，使其更加智能化，操作更加便捷，提升用户体验。

Description

一种脱机语义识别电子相框的方法及系统

技术领域

本发明涉及通信技术领域，特别涉及一种脱机语义识别电子相框的方法及系统。

背景技术

目前，随着电子技术的飞速发展，电子相框已为普通消费者所熟悉。电子相框被作为音乐视频照片的播放器，为用户提供照片、视频的播放与切换，其一般通过遥控器实现非接触性操作，随着电子相册的功能不断强大，为了实现强大的功能，电子相册需要有一个后台云服务器作为支持，使其能够正常使用云服务器中提供的比如语音识别等功能，现有的对电子相册的操作要么通过遥控器实现基本操作，要么通过线上语音识别功能实现基本操作，当电子相册为语音控制的电子相册时，其语音识别功能是需要先采集音频然后上报给服务器解析之后识别出指令意图后再下发给电子相框，即在没有网络的时候，这个功能就无法使用，这导致一些简单的页面切换等最常用最基础的操作都无法使用，这类电子相框对网络环境要求较高，一旦网络出现故障，就连基本的操作都实现不了，用户体验不高。

发明内容

本发明要解决的技术问题，在于提供一种脱机语义识别电子相框的方法及系统，解决现有电子相册需要依赖网络实现基本语言识别给用户操作带来不便的问题。

第一方面，本发明提供了一种脱机语义识别电子相框的方法，所述方法包括：

设置操作指令，并创建语义处理模块；

设置操作指令，并创建对应的语义处理模块；

在电子相框中导入对应的语义处理模块；

通过相框触发器监听预置的唤醒关键字后，由相框主程序采集音频流信息，并将所述音频流信息发送给语义处理模块；

在所述语义处理模块接收到音频流信息后，将所述音频流转换成文字，对所述文字进行识别，将识别出来的结果转换为对应的操作指令回传给相框主程序；

通过相框主程序根据接收到的操作指令后执行对应操作。

进一步的，所述语义处理模块创建过程如下：

针对预设的操作指令，选择机器学习模型构建语音音频模型，通过预置的语音训练集及对应的操作指令对所述语音音频模型进行训练，得到特定类型的语音音频模型，通过所述特定类型的语音音频模型将待识别音频流信息转成文字，再获取所述文字中的关键字匹配到对应的指令后输出相应的JSON格式的操作指令；

其中，训练时，通过自然语言处理音频文件中的关键字，存入脱机语义库，脱机语义库供后续识别时调用匹配。

进一步的，所述操作指令包括上一个视频、上一张照片、下一个视频、下一张照片、播放X的影集、回到首页和打开设置。

进一步的，所述触发器采用DSPG芯片实现触发监听功能。

进一步的，所述唤醒关键字支持用户修改，具体如下：用户通过设置中修改相框名称，完成对电子相框的命名，之后通过呼唤所述电子相框的名称实现唤醒电子相框，并进行语音控制。

第二方面，本发明提供了一种脱机语义识别电子相框的系统，所述系统包括：

脱机语义模块，用于设置操作指令，并创建对应的语义处理模块；

导入模块，用于在电子相框中导入对应的语义处理模块；

音频采集模块，用于通过相框触发器监听预置的唤醒关键字后，由相框主程序采集音频流信息，并将所述音频流信息发送给语义处理模块；

识别模块，用于在所述语义处理模块接收到音频流信息后，将所述音频流转换成文字，对所述文字进行识别，将识别出来的结果转换为对应的操作指令回传给相框主程序；以及

响应模块，用于通过相框主程序根据接收到的操作指令后执行对应操作。

进一步的，所述语义处理模块创建过程如下：

其中，训练时，通过自然语言处理音频文件中的关键字，存入脱机语义库，脱机语义库供后续识别时调用匹配；

进一步的，所述触发器采用DSPG芯片实现触发监听功能。

本发明的优点在于：

本发明通过脱机的交互可以使得相框不需要网络环境也能很好识别用户发出的语音指令，使得即使没有wifi也能够体验到人机交互功能，使其更加智能化，对于一些家人不在身边的老人家减少了WiFi连接等复杂操作，操作更加便捷，提升用户体验。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1是本发明一种脱机语义识别电子相框的方法的流程图。

图2是本发明一种脱机语义识别电子相框的系统的系统框图。

具体实施方式

请参照图1所示，本发明提供一种脱机语义识别电子相框的方法，所述方法包括：

设置操作指令，并创建对应的语义处理模块；

在电子相框中导入对应的语义处理模块；

通过相框触发器监听预置的唤醒关键字后，由相框主程序采集音频流信息，并将所述音频流信息发送给语义处理模块；通过该相框触发器实时获取mic采集到的监听音频流信息，当监听到预置的唤醒关键词之后，才进行音频流信息的进一步采集。

通过相框主程序根据接收到的操作指令后执行对应操作。

较佳的，所述语义处理模块创建过程如下：

针对预设的操作指令，选择机器学习模型构建语音音频模型，通过预置的语音训练集及对应的操作指令对所述语音音频模型进行训练，得到特定类型的语音音频模型(即最终的语音音频模型)，通过所述特定类型的语音音频模型将待识别音频流信息转成文字，再获取所述文字中的关键字匹配到对应的指令后输出相应的JSON格式的操作指令，所述操作指令信息描述例如{”action:next...”}；

较佳的，所述操作指令包括上一个视频、上一张照片、下一个视频、下一张照片、播放X的影集、回到首页和打开设置，所述X为预置的相片中人物或动物的称呼，比如女儿、儿子等。

较佳的，所述触发器采用DSPG芯片实现触发监听功能。

较佳的，所述唤醒关键字支持用户修改，具体如下：用户通过设置中修改相框名称，完成对电子相框的命名，之后通过呼唤所述电子相框的名称实现唤醒电子相框，并进行语音控制。本发明可以通过在实际使用中更改唤醒关键词，特别是针对一些口音较重的的使用人群，有时候无法对特定名词准确发音，通过系统预选名称进行切换选择，可以最大程度提高唤醒关键词的识别率，使得无需联网也能准确无误的进行识别，提高用户体验。

请参照图2所示，本发明提供一种脱机语义识别电子相框的系统，所述系统包括：

导入模块，用于在电子相框中导入对应的语义处理模块；

音频采集模块，用于通过相框触发器监听预置的唤醒关键字后，由相框主程序采集音频流信息，并将所述音频流信息发送给语义处理模块；通过该相框触发器实时获取mic采集到的监听音频流信息，当监听到预置的唤醒关键词之后，才进行音频流信息的进一步采集。

较佳的，所述语义处理模块创建过程如下：

较佳的，所述触发器采用DSPG芯片实现触发监听功能。

本发明通过在电子相框中设置语义处理模块，实现脱机下的人机交互，不需要网络环境也能很好识别用户发出的语音指令，执行常用的语音操作，比如上一张、下一张、回到首页等操作，使其更加智能化，减少手动操作，特别是对于一些家人不在身边的老人家，一旦WiFi出现问题就不懂手动操作，可以通过本申请方法省去其WiFi连接等复杂操作，整体操作更加便捷，提升用户体验。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种脱机语义识别电子相框的方法，其特征在于：所述方法包括：

设置操作指令，并创建对应的语义处理模块；

在电子相框中导入对应的语义处理模块；

通过相框主程序根据接收到的操作指令后执行对应操作。

2.如权利要求1所述的一种脱机语义识别电子相框的方法，其特征在于：所述语义处理模块创建过程如下：

3.如权利要求1所述的一种脱机语义识别电子相框的方法，其特征在于：所述操作指令包括上一个视频、上一张照片、下一个视频、下一张照片、播放X的影集、回到首页和打开设置。

4.如权利要求1所述的一种脱机语义识别电子相框的方法，其特征在于：所述触发器采用DSPG芯片实现触发监听功能。

5.如权利要求4所述的一种脱机语义识别电子相框的方法，其特征在于：所述唤醒关键字支持用户修改，具体如下：用户通过设置中修改相框名称，完成对电子相框的命名，之后通过呼唤所述电子相框的名称实现唤醒电子相框，并进行语音控制。

6.一种脱机语义识别电子相框的系统，其特征在于：所述系统包括：

导入模块，用于在电子相框中导入对应的语义处理模块；

7.如权利要求6所述的一种脱机语义识别电子相框的系统，其特征在于：所述语义处理模块创建过程如下：

8.如权利要求6所述的一种脱机语义识别电子相框的系统，其特征在于：所述操作指令包括上一个视频、上一张照片、下一个视频、下一张照片、播放X的影集、回到首页和打开设置。

9.如权利要求6所述的一种脱机语义识别电子相框的系统，其特征在于：所述触发器采用DSPG芯片实现触发监听功能。

10.如权利要求9所述的一种脱机语义识别电子相框的系统，其特征在于：所述唤醒关键字支持用户修改，具体如下：用户通过设置中修改相框名称，完成对电子相框的命名，之后通过呼唤所述电子相框的名称实现唤醒电子相框，并进行语音控制。