CN112802470A

CN112802470A - 一种离线语音控制方法及终端

Info

Publication number: CN112802470A
Application number: CN202011607240.XA
Authority: CN
Inventors: 陈姗姗; 王艺筱; 黄志炜; 朱国锋; 翟晓飞; 严小飞; 田钊; 吴倩
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-05-14

Abstract

本发明提供的一种离线语音控制方法及终端，包括：接收输入的语音信号，所述语音信号不带唤醒词；对所述语音信号基于裁剪过的离线自训练语音模型进行识别，所述语音模型与预设领域对应；根据所述预设领域对识别出的语音信号进行过滤，并进行语义分析，根据语义分析结果进行对应的反馈；通过与预设领域对应的剪裁过的离线自训练语音模型对语音信号进行识别，裁剪过的自训练语音模型容量小、响应快，并且又与预设领域对应，因此，能够有效快速地识别特定领域的专有词汇，并可以对其它领域识别出的内容进行领域专有词汇过滤，在此基础上进行语义分析，判断当前语音输入是否为有效输入，根据判断结果作出对应的反馈，从而实现不带唤醒词的语音交互。

Description

一种离线语音控制方法及终端

技术领域

本发明涉及人工智能语音控制技术领域，具体涉及一种离线语音控制方法及终端。

背景技术

随着人工智能的蓬勃发展，产品越来越智能化，语音交互作为人类最自然的交互方式，是人工智能和自然语言处理领域的一个研究热点，越来越多的智能语音产品被相继推出；现有智能语音系统的实现有采用在线语音方案、采用离线语音方案、采用离线与在线语音结合的方案。

在线语音方案需要连接网络，把语音送上百度语音识别、讯飞语音等引擎系统，通过部署在云端的语音识别/语义分析引擎，获得在线的语音功能服务，云端内容丰富，但是由于对某些专有词汇没有进行优化训练，语音识别率不高甚至出现误识别，因此在线语音产品适用于那些需要大量内容服务，专业性不强的领域；离线语音方案不需要联网，对训练过的语音词能够快速、有效识别，对硬件成本需求较低，但是建立语音模型工作量较大，离线语音产品不适合多内容语音交互，仅适用于简单的定制的语音控制；离线和在线语音结合的方案，增加对专有词的识别，又可以获得云端的内容服务。

不论是在线语音的应用，还是离线智能语音控制，又或是其他离线和在线语音混合应用，仍存在以下不足：

1)当前智能语音产品多以智能音箱的形态出现，或是智能移动终端的一项功能，或是智能客服服务。以唤醒词控制、手动辅助或是提示引导方式完成语音交互，过程生硬、影响用户体验。

2)现有离线语音部署方式单一，功能较为单一，多应用于简单的语音控制场景，可扩展性差，所支持的语音范围极小且固定。

发明内容

本发明所要解决的技术问题是：提出一种离线语音控制方法及终端，适用于不同业务领域的无网络或网络受限的场景，并支持用户实现无需唤醒词的语音交互功能。

为了解决上述技术问题，本发明采用的技术方案为：

一种离线语音控制方法，包括步骤：

接收输入的语音信号，所述语音信号不带唤醒词；

对所述语音信号基于裁剪过的离线自训练语音模型进行识别，所述语音模型与预设领域对应；

根据所述预设领域对识别出的语音信号进行过滤，并进行语义分析，根据语义分析结果进行对应的反馈。

为了解决上述技术问题，本发明采用的另一种技术方案为：

一种离线语音控制终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种离线语音控制方法中的各个步骤。

从上述描述可知，本发明的有益效果在于：本发明提供的一种离线语音控制方法及终端，通过与预设领域对应的剪裁过的离线自训练语音模型对语音信号进行识别，裁剪过的自训练语音模型容量小、响应快，并且又与预设领域对应，因此，能够有效快速地识别特定领域的专有词汇，并可以对其它领域识别出的内容进行领域专有词汇过滤，在此基础上进行语义分析，判断当前语音输入是否为有效输入，根据判断结果作出对应的反馈，从而实现不带唤醒词的语音交互，这样的语音交互方式更加自然，适用性强，能够适用于不同业务领域的无网络或网络受限的场景。

附图说明

图1为本发明实施例的一种离线语音控制方法的步骤示意图；

图2为本发明实施例的现有语音交互方式和本发明的语音交互方式的对比示意图；

图3为本发明实施例的一种离线语音控制系统的结构示意图；

图4为本发明实施例的采用外接语音终端实现语音交互的流程示意图；

图5为本发明实施例的采用和主机设备终端相连的语音助手实现语音交互的流程示意图；

图6为本发明实施例的一种离线语音控制终端的结构示意图。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

请参照图1，一种离线语音控制方法，包括步骤：

接收输入的语音信号，所述语音信号不带唤醒词；

进一步的，根据语音信号对应的电流幅度计算能量值；

设置语音信号的预设能量值；

过滤掉能量值低于所述预设能量值的语音信号；

对所述预设领域包含的词汇设置权重分值；

所述权重分值根据所述词汇的领域专业度设置；

根据所述语音信号包含的词汇对应的所述权重分值计算所述语音信号的得分；

设置语音信号的限定得分；

过滤掉所述得分低于所述限定得分的语音信号。

进一步的，所述接收输入的语音信号包括：

在不休眠不间断的接收状态下接收输入的语音信号。

由上述描述可知，通过设置为连续不间断的接收状态，可以实现不休眠不间断的聆听用户语音输入，对用户提问进行接收、识别与反馈，从而一直处于语音交互状态，不再需要唤醒词，设备会一直醒着，省略了语音识别终端唤醒响应的步骤。

进一步的，所述接收输入的语音信号之前还包括：

接收语音输入设置方式，设置的语音输入方式与使用场景适配；

根据所述语音输入设置方式对语音输入方式进行设置。

由上述描述可知，用户可以根据使用场景灵活选择接收方式，在嘈杂环境时可以选用成熟耳机方案，能起到很好的降噪效果；对于可扩展性有需求的，可以设置外接语音终端并配备设备自身不具备的附加功能扩展使用，从而扩大了支持的语音范围，提高适用性。

进一步的，所述对所述语音信号基于裁剪过的离线自训练语音模型进行识别之前还包括步骤：

收集所述预设领域的领域知识，并梳理所述预设领域的业务场景，得到非结构化的数据，将所述非结构化的数据转换成结构化数据，形成与所述预设领域对应的知识数据库；

采用所述知识数据库在离线状态下对语音模型进行自训练；

对离线自训练完成后的语音模型进行裁剪，得到与所述预设领域对应的裁剪过的离线自训练语音模型。

由上述描述可知，通过与预设领域适配的知识数据库可以明确知识整理的范围、要求和规范，利用知识数据库已有的储备生成文本语料对语音模型进行训练，可以强化该语音模型对预设领域范围内词汇的识别能力；并对训练完成的语音模型进行裁剪，裁剪后的语音模型容量小，响应快，可以确保训练得到的语音模型能够正确高效地识别预设领域词汇。

进一步的，所述进行语义分析包括：

将过滤后的语音信号转化成文本信息；

对所述文本信息结合上下文信息进行意图分析，实现对所述文本信息的语义理解，并基于所述知识数据库进行匹配，根据匹配结果得到语义分析结果。

由上述描述可知，通过结合上下文信息对所述文本信息进行意图分析，可以提高对所述文本信息的语义理解程度，从而可以更好的给出用户需要的反馈，提高了人机交互的效率，更加满足用户的使用需求。

进一步的，所述根据语义分析结果进行对应的反馈包括：

若所述语义分析结果为匹配成功，则根据所述语义分析结果执行相应的操作；

若所述语义分析结果为匹配失败，则对所述语音信号和其对应的文本信息进行回收。

由上述描述可知，通过对过滤后的语音信号识别出的文本信息，实现语义理解，并基于知识数据库进行匹配，匹配成功后根据匹配结果执行相应的操作，从而实现语音控制功能。

进一步的，根据所述回收的所述语音信号和其对应的文本信息对所述知识数据库进行补充。

由上述描述可知，通过回收无法识别的音频文件和文本信息，可以补充和完善领域知识库，实现对用户需求的学习，不断更新迭代。

请参照图6，本发明另一实施例提供了一种离线语音控制终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种离线语音控制方法中的各个步骤。

请参照图1，本发明的实施例一为：

一种离线语音控制方法，包括步骤：

接收输入的语音信号，所述语音信号不带唤醒词；

所述接收输入的语音信号包括：

在不休眠不间断的接收状态下接收输入的语音信号；

本实施例中，进入语音交互后，设备会一直醒着，接收用户的语音信号，并且所述语音信号不带唤醒词，用户可以直接提问题和要求，比如“今天天气怎么样”，“播放适合今天天气的歌曲”；

根据所述预设领域对识别出的语音信号进行过滤，并进行语义分析，根据语义分析结果进行对应的反馈；

本实施例中，设备基于裁剪过的语音模型对所述语音信号进行识别，并通过预设领域的专有词汇过滤掉无效语音输入，这样只能识别训练过的领域专有词汇，在此基础上，对识别后的语音信号进行语义理解和分析，并根据语义分析结果进行对应的反馈；

所述根据所述预设领域对识别出的语音信号进行过滤包括：

根据语音信号对应的电流幅度计算能量值；

设置语音信号的预设能量值；

过滤掉能量值低于所述预设能量值的语音信号；

对所述预设领域包含的词汇设置权重分值；

所述权重分值根据所述词汇的领域专业度设置；

具体的，本实施例中，最常见词汇比如"的"、"是"、"在"设置最小的权重分值，比较多见的通用词汇比如“我们”、“今天”设置较小的权重分值，其它少见的专业词汇按照领域专业相关度设置权重分值，专业相关度根据词汇在该领域出现的频率与在所有领域出现的频率两者的比值计算得到；

设置语音信号的限定得分；

过滤掉所述得分低于所述限定得分的语音信号；

如图2所示，传统语音控制方案中采用唤醒交互的方式，需要先设定一个唤醒词，比如“小明”，每次对话之前都需要带唤醒词“小明”来激活设备，这与日常生活当中人与人交流行为有异；本实施例所述技术方案中裁剪过的语音模型只能识别训练过的领域词汇，过滤无效语音输入，提高了语音的连续识别和准确性，去掉唤醒词后的人机交流体验会更加自然。

本发明的实施例二为：

本实施例在上述实施例一的基础上，所述对所述语音信号基于裁剪过的离线自训练语音模型进行识别之前还包括步骤：

收集所述预设领域的领域知识，并梳理所述预设领域的业务场景，得到非结构化的数据，将所述非结构化的数据梳理成结构化数据，形成与所述预设领域对应的知识数据库；

所述知识数据库的结构和形式可以多样化，不局限于一种样式，具体的，本实施例中对所述领域知识根据其所适合的业务场景类型进行分类设置，在另一种可选的实施例中，也可对所述业务场景根据其所需要用到的领域知识进行分类设置；

采用所述知识数据库在离线状态下对语音模型进行自训练；

对离线自训练完成后的语音模型进行裁剪，得到与所述预设领域对应的裁剪过的离线自训练语音模型；

本实施例中利用领域的知识数据库生成文本语料训练裁剪后的语言模型，将训练好的语音模型封装到软件包中，实现离线语音识别功能；

所述进行语义分析包括：

将过滤后的语音信号转化成文本信息；

对所述文本信息结合上下文信息进行意图分析，实现对所述文本信息的语义理解，并基于所述知识数据库进行匹配，根据匹配结果得到语义分析结果；

本实施中所述实现对所述文本信息的语义理解，并基于所述知识数据库进行匹配，采用了基于TF-IDF的相似度计算方法，所述匹配过程具体包括：

根据知识数据库构建索引表和词库；

对待匹配的文本进行分词；

根据分词结果判断待匹配文本是否包含关键词；

根据分词结果构建词向量，基于索引表和词库依据TF-IDF算法计算句子相似度；

筛选出相似度最高的结果；

所述根据语义分析结果进行对应的反馈包括：

若所述语义分析结果为匹配失败，则对所述语音信号和其对应的文本信息进行回收，并根据所述回收的所述语音信号和其对应的文本信息对所述知识数据库进行补充。

请参照图3，本发明的实施例三为：

一种离线语音控制系统，包括以下部件：外接语音终端、语音录制组件、其他控制功能组件、语音功能模块、语音助手、显示屏、主机设备终端、知识数据库、语音控制中间件、执行模块和回收模块；

其中语音功能模块由实施例二中所述离线自训练的语音模型构成，可以实现语音识别和语音合成功能，包括实施例一中所述对语音信号基于裁剪过的离线自训练语音模型进行识别，所述语音模型与预设领域对应，并根据所述预设领域对识别出的语音信号进行过滤；

语音功能模块分别部署在外接语音终端和主机设备终端上；

本实例中，语音功能模块可灵活部署，语音终端和主机设备终端上都可以通用；主机设备终端本身具有语音识别和语音合成功能，可以取代外接语音终端，设备终端本身作为独立的智能设备，通过语音直接控制设备，具有响应更敏捷的优点；

外接语音终端除了语音功能模块外还包括语音录制组件和其他控制功能组件，其他控制功能组件用来实现一些附加功能，比如摄像头录像；

语音助手直接和本机设备终端相连；

语音录制组件和语音助手可以采集语音音频数据和播报语音，并支持无唤醒词唤醒和休眠模式；

主机设备终端除了语音功能模块外，还包括知识数据库、语音控制中间件、执行模块和回收模块；

知识数据库由上述实施例二中所述方法形成，用于限定语言控制功能模块支持的领域知识范围和业务场景，并且为离线语音模型提供训练数据，确保训练得到的语音模型能够正确有效地识别领域词汇；

语音控制中间件可以接收从位于外接语音终端或主机设备终端的语音功能模块采集到的语音信号，用于实现实施例一中所述对过滤后的语音信号进行语义分析，基于知识数据库进行知识匹配，根据语义分析结果进行对应的反馈；

执行模块用于接受语音控制中间件的指令，执行相应的操作，以实现语音控制功能；

回收模块可以存储系统无法识别的音频文件和文本信息，补充和完善数据库，用于学习用户需求；

显示屏用于提供友好的人机交互界面，可以显示语音识别后的文本信息、语音控制情况反馈等；显示屏、语音录制组件和语音助手共同为用户提供实施例一中所述对应的反馈中多样的反馈形式。

请参照图4，本发明的实施例四为：

本实施例在上述实施例一至三中任一个的基础上，所述接收输入的语音信号之前还包括：

根据所述语音输入设置方式对语音输入方式进行设置；

具体的，本实施例中根据实际场景的需求，参照图4中箭头指示的路径，采用外接语音终端的语音输入方式，在环境下由语音录制组件采集语音音频数据和播报语音；

本实施例中上述采集到的语音信号通过布置于外接语音终端的语音功能模块进行过滤后转化成文本信息，并将所述文本信息传送到语音控制中间件，语音控制中间件根据所述文本信息结合上下文信息进行意图分析，实现对文本的语义理解，获取用户意图，并基于知识数据库进行知识匹配，根据匹配结果得到语义分析结果；

如果匹配成功，则语音控制中间件根据语义分析结果发送指令给对应的执行模块，执行模块接受语音控制中间件的指令，并执行相应的操作，从而实现语音控制功能；如果匹配失败，则语音控制中间件记录下该音频文件和文本信息，并存放到回收模块；

通过回收模块存储无法识别的音频文件和文本信息，通过定期回收和客户反馈，学习用户需求，用于后续对知识库的补充和完善；

所述根据语义分析结果进行对应的反馈，其反馈的方式涵盖多种以供用户选择；

具体的，本实施例中除了采用语音播报反馈以外，还可以采用显示屏提供友好的人机交互界面，通过显示屏向用户展示语音识别后的文本信息和语音控制情况反馈；比如当用户语音提问，系统返回答案，其中对于晦涩难懂的专业解答也可以提供列表展示，供用户选择，例如使用网页展示或视频讲解等，多样化的反馈形式可以满足用户的不同需求。

请参照图5，本发明的实施例五为：

本实施例与上述实施例四的区别在于：

用户根据实际的使用场景需求，参照图5中箭头指示的路径，设置的语音输入方式为直接和主机设备终端相连的语音助手，通过所述语音助手采集语音音频数据和接收语音播报；

比如可以通过无线、蓝牙或WiFi的方式将耳机麦克风与主机连接，相比于外接语音终端受周边环境噪声、距离远近等因素干扰，在吵杂环境时可以选用耳机麦克风方案，能起到很好的降噪效果；

上述采集到的语音信号由布置于主机设备终端的语音功能模块进行识别和合成；

主机设备终端通过与之相连的语音助手和布置于其上的语音功能模块，可以作为独立的智能设备实现语音交互，具有响应更敏捷的优点。

请参照图6，本发明的实施例六为：

一种离线语音控制终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例一至二中任意一种离线语音控制方法中的各个步骤。

综上所述，本发明提供的一种离线语音控制方法及终端，支持用户根据使用场景需求来设置语音输入方式，特别在吵杂的环境中，可以选择耳机方案来降噪；并在不休眠不间断的接收状态下接收输入的语音信号，在此基础上采用与预设领域对应的剪裁过的离线自训练语音模型对语音信号进行识别，裁剪过的自训练语音模型容量小、响应快，并且又与预设领域对应，因此，能够有效快速地识别特定领域的专有词汇，并可以对其它领域识别出的内容进行领域专有词汇过滤，在此基础上进行语义分析，判断当前语音输入是否为有效输入，根据判断结果作出对应的反馈，从而实现不带唤醒词的语音交互，这样的语音交互方式更加自然，适用性强，能够适用于不同业务领域的无网络或网络受限的场景。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种离线语音控制方法，其特征在于，包括步骤：

接收输入的语音信号，所述语音信号不带唤醒词；

2.根据权利要求1所述的一种离线语音控制方法，其特征在于，所述根据所述预设领域对识别出的语音信号进行过滤包括：

根据语音信号对应的电流幅度计算能量值；

设置语音信号的预设能量值；

过滤掉能量值低于所述预设能量值的语音信号；

对所述预设领域包含的词汇设置权重分值；

所述权重分值根据所述词汇的领域专业度设置；

设置语音信号的限定得分；

过滤掉所述得分低于所述限定得分的语音信号。

3.根据权利要求1所述的一种离线语音控制方法，其特征在于，所述接收输入的语音信号包括：

在不休眠不间断的接收状态下接收输入的语音信号。

4.根据权利要求1所述的一种离线语音控制方法，其特征在于，所述接收输入的语音信号之前还包括：

根据所述语音输入设置方式对语音输入方式进行设置。

5.根据权利要求1至4中任一项所述的一种离线语音控制方法，其特征在于，所述对所述语音信号基于裁剪过的离线自训练语音模型进行识别之前还包括步骤：

采用所述知识数据库在离线状态下对语音模型进行自训练；

6.根据权利要求5所述的一种离线语音控制方法，其特征在于，所述进行语义分析包括：

将过滤后的语音信号转化成文本信息；

7.根据权利要求6所述的一种离线语音控制方法，其特征在于，所述根据语义分析结果进行对应的反馈包括：

8.根据权利要求7所述的一种离线语音控制方法，其特征在于，还包括步骤：

根据所述回收的所述语音信号和其对应的文本信息对所述知识数据库进行补充。

9.一种离线语音控制终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-8任意一项所述的一种离线语音控制方法中的各个步骤。