CN113643711B - 用于智能家具的基于离线模式和在线模式的语音系统 - Google Patents

用于智能家具的基于离线模式和在线模式的语音系统 Download PDF

Info

Publication number
CN113643711B
CN113643711B CN202110885961.5A CN202110885961A CN113643711B CN 113643711 B CN113643711 B CN 113643711B CN 202110885961 A CN202110885961 A CN 202110885961A CN 113643711 B CN113643711 B CN 113643711B
Authority
CN
China
Prior art keywords
mode
voice
instruction
module
music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110885961.5A
Other languages
English (en)
Other versions
CN113643711A (zh
Inventor
焦长平
徐梅钧
刘芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Jiangxinduju Intelligent Household Co ltd
Original Assignee
Changzhou Jiangxinduju Intelligent Household Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Jiangxinduju Intelligent Household Co ltd filed Critical Changzhou Jiangxinduju Intelligent Household Co ltd
Priority to CN202110885961.5A priority Critical patent/CN113643711B/zh
Publication of CN113643711A publication Critical patent/CN113643711A/zh
Application granted granted Critical
Publication of CN113643711B publication Critical patent/CN113643711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Abstract

本发明公开了一种用于智能家具的基于离线模式和在线模式的语音系统,唤醒模式使用离线语音识别模块将音频数据转换为文本信息;使用唤醒词检测模块对识别的文本信息进行唤醒词检测,存在唤醒词则进入指令模式;指令模式使用离线语音识别模块将音频数据转换为文本信息;使用指令关键字检测模块对识别的文本信息进行指令关键字的检测;指令关键字为基础操作指令,则会进行指令控制和管理;指令关键字为聊天,进入聊天模式,进行指令关键字的在线识别和检测;指令关键字为音乐,进入音乐模式播放本地音乐。本发明能够解决离线模式下指令关键字识别数量有限且准确性低的问题以及人机交互效果和个性化体验差的问题。

Description

用于智能家具的基于离线模式和在线模式的语音系统
技术领域
本发明涉及语音服务设备领域,特别是涉及一种用于智能家具的基于离线模式和在线模式的语音系统。
背景技术
随着人工智能技术的不断发展和日趋成熟,智能化产品在逐渐地影响和改变着我们的生活,并且现在已经成为了我们生活中不可或缺的一部分,而智能语音家具也在智能化技术迅速发展的浪潮之中逐渐兴起。
智能语音家具是智能语音技术与功能性沙发相结合的产物。在传统沙发的基础上,功能性沙发增加了姿态调整、形态变换、储物、充电、按摩功能。但是,功能性沙发所谓的“智能”仅仅是局限于机械硬件层面的自动化,而非程序应用层面的智能化。于是,智能语音家具应运而生,它不仅继承了功能性沙发的所有功能,还将智能语音技术融入其中,使得用户可以通过语音交互的方式实现对智能语音家具的控制和管理。但是,离线的智能语音识别技术虽然稳定,但识别准确性不高;在线的语音识别技术虽然识别准确性高,但稳定可靠性不足。另外,当前的智能语音家具系统功能模式单一,无法充分发挥系统的人机交互能力,更无法满足用户的日益增长的个性化体验的需求。
对于当前的智能语音家具系统,虽然能进行离线语音的识别,但是在离线模式下,语音识别指令关键字数量非常有限,且仅支持简短指令关键字的识别,否则将会严重影响指令关键字识别的准确性。另外,当前的智能语音家具系统仅局限于功能性家具的功能模式,没有与智能语音技术所带来的聊天、音乐模式相结合,导致人机交互能力不足和个性化体验差问题的出现。
发明内容
本发明主要解决的技术问题是提供一种用于智能家具的基于离线模式和在线模式的语音系统,能够解决离线模式下指令关键字识别数量有限且准确性低的问题,以及人机交互效果和个性化体验差的问题。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种用于智能家具的基于离线模式和在线模式的语音系统,包括唤醒模式、指令模式、聊天模式和音乐模式;唤醒模式:通过语音获取模块获得用户语音,并将语音数据通过离线语音识别模块获得关键词文本信息后发送至唤醒词检测模块,唤醒词检测模块检测关键词文本信息是否包含唤醒词,包含唤醒词则进入指令模式并将提示信息以语音的形式反馈给用户;指令模式:通过语音获取模块获得用户语音,并将语音数据通过离线语音识别模块获得关键词文本信息后发送至指令关键词检测模块,指令关键词检测模块检测关键词文本信息是否包含指令关键词,根据指令关键词进入唤醒模式、聊天模式、音乐模式或通过指令控制模块控制智能家具做相应动作并将提示信息以语音的形式反馈给用户;聊天模式:通过网络检测模块检测是否连接互联网,未连接互联网则退回指令模块,若连接互联网则进入聊天模式;通过语音获取模块获得用户语音,并将语音数据通过在线语音识别模块获得文本信息后发送至指令关键词检测模块,指令关键词检测模块检测文本信息是否包含指令关键词,包含指令关键词进入指令模式、音乐模式或通过指令控制模块控制智能家具做相应动作并将提示信息以语音的形式反馈给用户,不包含指令关键词则通过在线聊天机器人与用户语音聊天;音乐模式:通过语音获取模块获得用户语音,并将语音数据通过离线语音识别模块获得关键词文本信息后发送至指令关键词检测模块,根指令关键词检测模块据检测关键词文本信息是否包含指令关键词,包含指令关键词进入指令模式、控制音乐播放模块播放音乐或通过指令控制模块控制智能家具做相应动作。
在本发明一个较佳实施例中,所述语音获取模块用于对用户发出的语音信息进行实时的接收和获取,并且对接收的语音信息进行降噪处理,以提高语音识别的准确率。
在本发明一个较佳实施例中,所述离线语音识别模块用于唤醒词和简短指令关键字的离线识别,将语音数据转换为文本信息。
在本发明一个较佳实施例中,所述用于对离线语音识别模块识别的语音文本信息进行检测,确定是否存在唤醒词,如果存在,则将预设的文本提示信息以语音的形式反馈给用户,如果不存在,则一直在唤醒模式中不断进行唤醒词的检测。
在本发明一个较佳实施例中,所述语音反馈模块将预设的文本提示信息以语音的形式反馈给用户。
在本发明一个较佳实施例中,所述指令关键字检测模块用于对离线语音识别模块识别的语音文本进行检测,确定是否存在指令关键字,如果存在,则对检测到的不同指令关键字的类型分别进行处理,指令关键字如果是基础操作指令,则会通过指令控制模块进行指令控制和管理,如果是“聊天”,则会进入聊天模式,如果是“音乐”,则会进入音乐模式。
在本发明一个较佳实施例中,所述指令控制模块对系统检测到的基础操作指令进行处理,将基础操作指令转换为对应的可执行的控制指令。
在本发明一个较佳实施例中,所述在线语音识别模块用于对语音获取模块获取的语音数据进行在线识别,将在线语音数据转换为文本信息,识别得到的文本信息用于人机聊天和指令关键字检测。
在本发明一个较佳实施例中,所述在线聊天机器人通过在线语音识别模块的数据返回应答信息,并将应答信息通过文本转语音模块向进行播放。
在本发明一个较佳实施例中,所述音乐播放模块用于实现音乐的播放,并对音乐进行播放循环、开始位置和音量设置。
本发明的有益效果是:本发明用于智能家具的基于离线模式和在线模式的语音系统,能够解决离线模式下指令关键字识别数量有限且准确性低的问题,以及人机交互效果和个性化体验差的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
图1是本发明用于智能家具的基于离线模式和在线模式的语音系统一较佳实施例的功能模式转换图;
图2是唤醒模式的工作流程图;
图3是指令模式的工作流程图;
图4是聊天模式的工作流程图;
图5是音乐模式的工作流程图;
附图中各部件的标记如下。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1,请参阅图1至图5,一种基于离线和在线双模式多功能的语音系统,该语音系统内置在电动沙发中。
唤醒模式是智能沙发语音系统的功能模式入口,用于检测用户的语音中是否包含唤醒词,如果包含唤醒词,则进入指令模式,否则,会一直在唤醒模式中不断进行唤醒词检测。
指令模式,是智能语音沙发系统的功能模式转换中枢,用于离线检测用户的关键字中是否包含指令关键字。在已识别的语音文本信息中,如果包含指令关键字,则会对不同类型的指令关键字分别进行处理,如果包含的是基础操作指令,则会进行指令的控制和管理,如果包含的是“聊天”,则会进入聊天模式,如果包含的是“音乐”,则会进入音乐模式,如果包含的是“退出”,则会返回到唤醒模式,如果不包含指令关键字,则会一直在指令模式中不断进行指令关键字的检测。
聊天模式,是智能语音沙发系统重要的功能模式,不仅能够实现在线的人机聊天,还能够实现在线的复杂指令关键字的准确识别,如果包含指令关键字,则会对不同类型的指令关键字分别进行处理,如果包含的是基础操作指令,则会进行指令的控制和管理,如果包含的是“音乐”,则会进入音乐模式,如果包含的是“退出”,则会返回到指令模式,如果不包含指令关键字,则会进行人机对话。
音乐模式,是智能语音沙发系统重要的功能模式,不仅能够实现音乐的离线播放,还能够通过指令关键字实现对音乐和沙发的控制和管理。在已识别的语音文本信息中,如果包含指令关键字,则会对不同类型的指令关键字分别进行处理,如果包含的是基础操作指令,则会进行指令的控制和管理,如果包含的是“退出”,则会返回到指令模式,如果不包含指令关键字,则会一直在音乐模式中不断进行音乐的播放。
当处于唤醒模式中:
语音获取模块,用于对用户发出的语音信息进行实时的接收和获取,并且对接收的语音信息进行降噪处理,以提高语音识别的准确率。
离线语音识别模块,用于对语音获取模块获取的语音数据进行离线识别,即离线语音数据转换为文本信息。由于离线语音识别模块对于复杂长语句的识别准确率较低,所以仅用于唤醒词的识别和简短指令关键字的识别。
唤醒词检测模块,用于对离线语音识别模块识别的语音文本信息进行检测,确定是否存在唤醒词,如果存在,则将预设的文本提示信息以语音的形式反馈给用户,如果不存在,则一直在唤醒模式中不断进行唤醒词的检测。
语音反馈模块,用于将预设的文本提示信息以语音的形式反馈给用户,提高了智能沙发语音系统的人机交互性。
处于指令模式中:
语音获取模块,用于对用户发出的语音信息进行实时的接收和获取,并且对接收的语音信息进行降噪处理,以提高语音识别的准确率。
离线语音识别模块,用于对语音获取模块获取的语音数据进行离线识别,即离线语音数据转换为文本信息。由于离线语音识别模块对于复杂长语句的识别准确率较低,所以仅用于唤醒词的识别和简短指令关键字的识别。
指令关键字检测模块,用于对离线语音识别模块识别的语音文本进行检测,确定是否存在指令关键字,如果存在,则对检测到的不同指令关键字的类型分别进行处理,指令关键字如果是基础操作指令,则会进行相应的指令控制和管理,如果是“聊天”,则会进入聊天模式,如果是“音乐”,则会进入音乐模式。
指令控制模块,对系统检测到的基础操作指令进行处理,将基础操作指令转换为对应的可执行的控制指令,在电送沙发中可以通过相应的控制指令实现电动沙发的背靠、腰托、腿部等运动组件伸展、收缩、抬升和降低等功能。
语音反馈模块,如果在指令模式下检测到基础操作指令关键字,则系统会将已检测到的基础操作指令关键字以语音的形式反馈给用户,提示用户将进行相关的基础指令的操作,如果在指令模式下检测到“聊天”或“音乐”指令关键字,则系统会将预设的进入聊天模式或音乐模式的文本提示信息以语音的形式反馈给用户。
处于聊天模式中:
网络检测模块,用于检测当前的网络连接状态是否满足聊天模式所需的基本条件,如果检测到网络连接成功,则会正常进入到聊天模式,如果网络连接失败,则会返回到指令模式。
语音获取模块,用于对用户发出的语音信息进行实时的接收和获取,并且对接收的语音信息进行降噪处理,以提高语音识别的准确率。
在线语音识别模块,用于对语音获取模块获取的语音数据进行在线识别,即在线语音数据转换为文本信息,识别得到的文本信息不仅用于人机聊天,而且还用于指令关键字的检测,并且对于复杂长语句的识别准确率高,可用于对复杂指令关键字的识别和检测,弥补了离线语音识别模块对于复杂长语句识别准确率低的缺点。
指令关键字的检测,在线指令关键字的检测不仅能够识别和检测简短的指令关键字,而且还能够准确地识别和检测复杂的指令关键字,如果检测到基础操作指令关键字,则系统会进行相关的指令控制和管理,如果检测到“音乐”指令关键字,系统会从聊天模式进入到音乐模式,如果检测到“退出”指令关键字,系统会从聊天模式退回到指令模式,聊天模式连接了指令模式和音乐模式,并且聊天模式与指令模式之间可进行相互转换,但是聊天模式与音乐模式之间的转换是单向的,即可从聊天模式进入音乐模式,而无法从音乐模式进入聊天模式,如果没有检测到指令关键字,则系统会将识别的文本信息发送给聊天机器人;
聊天机器人,会根据接收到的用户语音文本信息,返回对应的应答文本信息。该功能需要在在线条件实现,实现了文本层面的人机交互。
文本转语音模块,将聊天机器人返回的应答文本信息转换为语音数据并播放,实现语音层面的人机交互。
语音反馈模块,如果检测到网络连接成功,则系统会以语音的形式提示用户进入聊天模式,如果检测到网络连接异常,系统会将预设的网络连接异常的文本提示信息以语音的形式反馈给用户,提示用户检测当前的网络的连接状态。如果检测到当前的指令关键字是“音乐”,则系统会以语音的形式提示用户要进入音乐模式,如果检测到当前的指令关键字是“退出”,则系统会提示用户要进入指令模式。
指令控制模块,对系统检测到的基础操作指令进行处理,将基础操作指令转换为对应的可执行的控制指令,在电送沙发中可以通过相应的控制指令实现电动沙发的背靠、腰托、腿部等运动组件伸展、收缩、抬升和降低等功能。
处于音乐模式中:
语音获取模块,用于对用户发出的语音信息进行实时的接收和获取,并且对接收的语音信息进行降噪处理,以提高语音识别的准确率。
离线语音识别模块,用于对语音获取模块获取的语音数据进行离线识别,即离线语音数据转换为文本信息。由于离线语音识别模块对于复杂长语句的识别准确率较低,所以仅用于唤醒词的识别和简短指令关键字的识别。
音乐播放并同步获取麦克风音频信息,在音乐播放的同时,实时地获取麦克风的音频信息,并对接收的音频数据做降噪处理,以提高离线语音识别的准确性;
离线语音识别,将获取的麦克风音频数据通过离线语音识别转换为文本信息,得到的文本信息用于对指令关键字的检测;
指令关键字检测,在已识别的文本信息中确认是否存在指令关键字,如果检测到基础操作指令关键字,则系统会进行相关的指令控制和管理,如果检测到“聊天”指令关键字,则系统会从指令模式进入到聊天模式,如果检测到“暂停”指令关键字,系统会暂停音乐的播放,如果检测到“继续”指令关键字,系统会继续音乐的播放,如果检测到“退出”指令关键字,系统会从音乐模式退回到指令模式,音乐模式可以与指令模式之间进行相互转换。
指令控制模块,对系统检测到的基础操作指令进行处理,将基础操作指令转换为对应的可执行的控制指令,在电送沙发中可以通过相应的控制指令实现电动沙发的背靠、腰托、腿部等运动组件伸展、收缩、抬升和降低等功能。
音乐播放模块,用于实现音乐的播放,并可对音乐进行播放循环、开始位置和音量设置。
音乐暂停程序,用于控制音乐的播放,中断音乐播放模块对音乐播放的执行。
音乐继续程序,用于控制音乐的播放,继续音乐播放模块对音乐播放的执行。
实施例2,一种基于离线和在线双模式多功能的语音系统,该语音系统内置在电动床中。
唤醒模式是智能沙发语音系统的功能模式入口,用于检测用户的语音中是否包含唤醒词,如果包含唤醒词,则进入指令模式,否则,会一直在唤醒模式中不断进行唤醒词检测。
指令模式,是智能语音沙发系统的功能模式转换中枢,用于离线检测用户的关键字中是否包含指令关键字。在已识别的语音文本信息中,如果包含指令关键字,则会对不同类型的指令关键字分别进行处理,如果包含的是基础操作指令,则会进行指令的控制和管理,如果包含的是“聊天”,则会进入聊天模式,如果包含的是“音乐”,则会进入音乐模式,如果包含的是“退出”,则会返回到唤醒模式,如果不包含指令关键字,则会一直在指令模式中不断进行指令关键字的检测。
聊天模式,是智能语音沙发系统重要的功能模式,不仅能够实现在线的人机聊天,还能够实现在线的复杂指令关键字的准确识别,如果包含指令关键字,则会对不同类型的指令关键字分别进行处理,如果包含的是基础操作指令,则会进行指令的控制和管理,如果包含的是“音乐”,则会进入音乐模式,如果包含的是“退出”,则会返回到指令模式,如果不包含指令关键字,则会进行人机对话。
音乐模式,是智能语音沙发系统重要的功能模式,不仅能够实现音乐的离线播放,还能够通过指令关键字实现对音乐和沙发的控制和管理。在已识别的语音文本信息中,如果包含指令关键字,则会对不同类型的指令关键字分别进行处理,如果包含的是基础操作指令,则会进行指令的控制和管理,如果包含的是“退出”,则会返回到指令模式,如果不包含指令关键字,则会一直在音乐模式中不断进行音乐的播放。
当处于唤醒模式中:
语音获取模块,用于对用户发出的语音信息进行实时的接收和获取,并且对接收的语音信息进行降噪处理,以提高语音识别的准确率。
离线语音识别模块,用于对语音获取模块获取的语音数据进行离线识别,即离线语音数据转换为文本信息。由于离线语音识别模块对于复杂长语句的识别准确率较低,所以仅用于唤醒词的识别和简短指令关键字的识别。
唤醒词检测模块,用于对离线语音识别模块识别的语音文本信息进行检测,确定是否存在唤醒词,如果存在,则将预设的文本提示信息以语音的形式反馈给用户,如果不存在,则一直在唤醒模式中不断进行唤醒词的检测。
语音反馈模块,用于将预设的文本提示信息以语音的形式反馈给用户,提高了智能沙发语音系统的人机交互性。
处于指令模式中:
语音获取模块,用于对用户发出的语音信息进行实时的接收和获取,并且对接收的语音信息进行降噪处理,以提高语音识别的准确率。
离线语音识别模块,用于对语音获取模块获取的语音数据进行离线识别,即离线语音数据转换为文本信息。由于离线语音识别模块对于复杂长语句的识别准确率较低,所以仅用于唤醒词的识别和简短指令关键字的识别。
指令关键字检测模块,用于对离线语音识别模块识别的语音文本进行检测,确定是否存在指令关键字,如果存在,则对检测到的不同指令关键字的类型分别进行处理,指令关键字如果是基础操作指令,则会进行相应的指令控制和管理,如果是“聊天”,则会进入聊天模式,如果是“音乐”,则会进入音乐模式。
指令控制模块,对系统检测到的基础操作指令进行处理,将基础操作指令转换为对应的可执行的控制指令,在电送床中可以通过相应的控制指令实现电动床的背靠和床板等运动组件伸展、收缩、抬升和降低等功能。
语音反馈模块,如果在指令模式下检测到基础操作指令关键字,则系统会将已检测到的基础操作指令关键字以语音的形式反馈给用户,提示用户将进行相关的基础指令的操作,如果在指令模式下检测到“聊天”或“音乐”指令关键字,则系统会将预设的进入聊天模式或音乐模式的文本提示信息以语音的形式反馈给用户。
处于聊天模式中:
网络检测模块,用于检测当前的网络连接状态是否满足聊天模式所需的基本条件,如果检测到网络连接成功,则会正常进入到聊天模式,如果网络连接失败,则会返回到指令模式。
语音获取模块,用于对用户发出的语音信息进行实时的接收和获取,并且对接收的语音信息进行降噪处理,以提高语音识别的准确率。
在线语音识别模块,用于对语音获取模块获取的语音数据进行在线识别,即在线语音数据转换为文本信息,识别得到的文本信息不仅用于人机聊天,而且还用于指令关键字的检测,并且对于复杂长语句的识别准确率高,可用于对复杂指令关键字的识别和检测,弥补了离线语音识别模块对于复杂长语句识别准确率低的缺点。
指令关键字的检测,在线指令关键字的检测不仅能够识别和检测简短的指令关键字,而且还能够准确地识别和检测复杂的指令关键字,如果检测到基础操作指令关键字,则系统会进行相关的指令控制和管理,如果检测到“音乐”指令关键字,系统会从聊天模式进入到音乐模式,如果检测到“退出”指令关键字,系统会从聊天模式退回到指令模式,聊天模式连接了指令模式和音乐模式,并且聊天模式与指令模式之间可进行相互转换,但是聊天模式与音乐模式之间的转换是单向的,即可从聊天模式进入音乐模式,而无法从音乐模式进入聊天模式,如果没有检测到指令关键字,则系统会将识别的文本信息发送给聊天机器人;
聊天机器人,会根据接收到的用户语音文本信息,返回对应的应答文本信息。该功能需要在在线条件实现,实现了文本层面的人机交互。
文本转语音模块,将聊天机器人返回的应答文本信息转换为语音数据并播放,实现语音层面的人机交互。
语音反馈模块,如果检测到网络连接成功,则系统会以语音的形式提示用户进入聊天模式,如果检测到网络连接异常,系统会将预设的网络连接异常的文本提示信息以语音的形式反馈给用户,提示用户检测当前的网络的连接状态。如果检测到当前的指令关键字是“音乐”,则系统会以语音的形式提示用户要进入音乐模式,如果检测到当前的指令关键字是“退出”,则系统会提示用户要进入指令模式。
指令控制模块,对系统检测到的基础操作指令进行处理,将基础操作指令转换为对应的可执行的控制指令,在电送床中可以通过相应的控制指令实现电动床的背靠和床板等运动组件伸展、收缩、抬升和降低等功能。
处于音乐模式中:
语音获取模块,用于对用户发出的语音信息进行实时的接收和获取,并且对接收的语音信息进行降噪处理,以提高语音识别的准确率。
离线语音识别模块,用于对语音获取模块获取的语音数据进行离线识别,即离线语音数据转换为文本信息。由于离线语音识别模块对于复杂长语句的识别准确率较低,所以仅用于唤醒词的识别和简短指令关键字的识别。
音乐播放并同步获取麦克风音频信息,在音乐播放的同时,实时地获取麦克风的音频信息,并对接收的音频数据做降噪处理,以提高离线语音识别的准确性;
离线语音识别,将获取的麦克风音频数据通过离线语音识别转换为文本信息,得到的文本信息用于对指令关键字的检测;
指令关键字检测,在已识别的文本信息中确认是否存在指令关键字,如果检测到基础操作指令关键字,则系统会进行相关的指令控制和管理,如果检测到“聊天”指令关键字,则系统会从指令模式进入到聊天模式,如果检测到“暂停”指令关键字,系统会暂停音乐的播放,如果检测到“继续”指令关键字,系统会继续音乐的播放,如果检测到“退出”指令关键字,系统会从音乐模式退回到指令模式,音乐模式可以与指令模式之间进行相互转换。
指令控制模块,对系统检测到的基础操作指令进行处理,将基础操作指令转换为对应的可执行的控制指令,在电送床中可以通过相应的控制指令实现电动床的背靠和床板等运动组件伸展、收缩、抬升和降低等功能。
音乐播放模块,用于实现音乐的播放,并可对音乐进行播放循环、开始位置和音量设置。
音乐暂停程序,用于控制音乐的播放,中断音乐播放模块对音乐播放的执行。
音乐继续程序,用于控制音乐的播放,继续音乐播放模块对音乐播放的执行。
区别于现有技术,本发明针对单一离线模式下对于复杂指令关键字识别准确率低的问题,以及现有的智能语音沙发功能模式单一的问题,提出了基于离线和在线相结合的双连接模式和唤醒模式、指令模式、聊天模式和音乐模式多功能模式的智能语音沙发系统,不仅实现对于复杂指令关键字的准确识别,而且还丰富了智能语音家具的功能模式。通过将智能语音技术和功能家具紧密结合,提高了智能语音家具的人机交互性,并且给用户带来了更好的个性化体验。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种用于智能家具的基于离线模式和在线模式的语音系统,其特征在于,包括唤醒模式、指令模式、聊天模式和音乐模式;
唤醒模式:通过语音获取模块获得用户语音,并将语音数据通过离线语音识别模块获得关键词文本信息后发送至唤醒词检测模块,唤醒词检测模块检测关键词文本信息是否包含唤醒词,包含唤醒词则进入指令模式并将提示信息以语音的形式反馈给用户;
指令模式:通过语音获取模块获得用户语音,并将语音数据通过离线语音识别模块获得关键词文本信息后发送至指令关键词检测模块,指令关键词检测模块检测关键词文本信息是否包含指令关键词,根据指令关键词进入唤醒模式、聊天模式、音乐模式或通过指令控制模块控制智能家具做相应动作并将提示信息以语音的形式反馈给用户;
聊天模式:通过网络检测模块检测是否连接互联网,未连接互联网则退回指令模块,若连接互联网则进入聊天模式;通过语音获取模块获得用户语音,并将语音数据通过在线语音识别模块获得文本信息后发送至指令关键词检测模块,指令关键词检测模块检测文本信息是否包含指令关键词,包含指令关键词进入指令模式、音乐模式或通过指令控制模块控制智能家具做相应动作并将提示信息以语音的形式反馈给用户,不包含指令关键词则通过在线聊天机器人与用户语音聊天;
音乐模式:通过语音获取模块获得用户语音,并将语音数据通过离线语音识别模块获得关键词文本信息后发送至指令关键词检测模块,根指令关键词检测模块据检测关键词文本信息是否包含指令关键词,包含指令关键词进入指令模式、控制音乐播放模块播放音乐或通过指令控制模块控制智能家具做相应动作。
2.根据权利要求1所述的用于智能家具的基于离线模式和在线模式的语音系统,其特征在于,所述语音获取模块用于对用户发出的语音信息进行实时的接收和获取,并且对接收的语音信息进行降噪处理,以提高语音识别的准确率。
3.根据权利要求1所述的用于智能家具的基于离线模式和在线模式的语音系统,其特征在于,所述离线语音识别模块用于唤醒词和简短指令关键字的离线识别,将语音数据转换为文本信息。
4.根据权利要求1所述的用于智能家具的基于离线模式和在线模式的语音系统,其特征在于,所述用于对离线语音识别模块识别的语音文本信息进行检测,确定是否存在唤醒词,如果存在,则将预设的文本提示信息以语音的形式反馈给用户,如果不存在,则一直在唤醒模式中不断进行唤醒词的检测。
5.根据权利要求1所述的用于智能家具的基于离线模式和在线模式的语音系统,其特征在于,所述语音反馈模块将预设的文本提示信息以语音的形式反馈给用户。
6.根据权利要求1所述的用于智能家具的基于离线模式和在线模式的语音系统,其特征在于,所述指令关键词检测模块用于对离线语音识别模块识别的语音文本进行检测,确定是否存在指令关键字,如果存在,则对检测到的不同指令关键字的类型分别进行处理,指令关键字如果是基础操作指令,则会通过指令控制模块进行指令控制和管理,如果是“聊天”,则会进入聊天模式,如果是“音乐”,则会进入音乐模式。
7.根据权利要求6所述的用于智能家具的基于离线模式和在线模式的语音系统,其特征在于,所述指令控制模块对系统检测到的基础操作指令进行处理,将基础操作指令转换为对应的可执行的控制指令。
8.根据权利要求1所述的用于智能家具的基于离线模式和在线模式的语音系统,其特征在于,所述在线语音识别模块用于对语音获取模块获取的语音数据进行在线识别,将在线语音数据转换为文本信息,识别得到的文本信息用于人机聊天和指令关键字检测。
9.根据权利要求8所述的用于智能家具的基于离线模式和在线模式的语音系统,其特征在于,所述在线聊天机器人通过在线语音识别模块的数据返回应答信息,并将应答信息通过文本转语音模块向进行播放。
10.根据权利要求1所述的用于智能家具的基于离线模式和在线模式的语音系统,其特征在于,所述音乐播放模块用于实现音乐的播放,并对音乐进行播放循环、开始位置和音量设置。
CN202110885961.5A 2021-08-03 2021-08-03 用于智能家具的基于离线模式和在线模式的语音系统 Active CN113643711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110885961.5A CN113643711B (zh) 2021-08-03 2021-08-03 用于智能家具的基于离线模式和在线模式的语音系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110885961.5A CN113643711B (zh) 2021-08-03 2021-08-03 用于智能家具的基于离线模式和在线模式的语音系统

Publications (2)

Publication Number Publication Date
CN113643711A CN113643711A (zh) 2021-11-12
CN113643711B true CN113643711B (zh) 2024-04-19

Family

ID=78419400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110885961.5A Active CN113643711B (zh) 2021-08-03 2021-08-03 用于智能家具的基于离线模式和在线模式的语音系统

Country Status (1)

Country Link
CN (1) CN113643711B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106952646A (zh) * 2017-02-27 2017-07-14 深圳市朗空亿科科技有限公司 一种基于自然语言的机器人交互方法和系统
CN107424607A (zh) * 2017-07-04 2017-12-01 珠海格力电器股份有限公司 语音控制模式切换方法、装置及具有该装置的设备
WO2019007245A1 (zh) * 2017-07-04 2019-01-10 阿里巴巴集团控股有限公司 一种处理方法、控制方法、识别方法及其装置和电子设备
CN109754788A (zh) * 2019-01-31 2019-05-14 百度在线网络技术(北京)有限公司 一种语音控制方法、装置、设备及存储介质
CN110265012A (zh) * 2019-06-19 2019-09-20 泉州师范学院 基于开源硬件可交互智能语音家居控制装置及控制方法
CN111640435A (zh) * 2020-06-09 2020-09-08 合肥飞尔智能科技有限公司 基于智能音箱控制红外家电的方法及装置
CN112201246A (zh) * 2020-11-19 2021-01-08 深圳市欧瑞博科技股份有限公司 基于语音的智能控制方法、装置、电子设备及存储介质
CN112863522A (zh) * 2021-01-12 2021-05-28 重庆邮电大学 一种基于ros的智能机器人语音交互系统及交互方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11024307B2 (en) * 2018-02-08 2021-06-01 Computime Ltd. Method and apparatus to provide comprehensive smart assistant services
US11200900B2 (en) * 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106952646A (zh) * 2017-02-27 2017-07-14 深圳市朗空亿科科技有限公司 一种基于自然语言的机器人交互方法和系统
CN107424607A (zh) * 2017-07-04 2017-12-01 珠海格力电器股份有限公司 语音控制模式切换方法、装置及具有该装置的设备
WO2019007245A1 (zh) * 2017-07-04 2019-01-10 阿里巴巴集团控股有限公司 一种处理方法、控制方法、识别方法及其装置和电子设备
CN109754788A (zh) * 2019-01-31 2019-05-14 百度在线网络技术(北京)有限公司 一种语音控制方法、装置、设备及存储介质
CN110265012A (zh) * 2019-06-19 2019-09-20 泉州师范学院 基于开源硬件可交互智能语音家居控制装置及控制方法
CN111640435A (zh) * 2020-06-09 2020-09-08 合肥飞尔智能科技有限公司 基于智能音箱控制红外家电的方法及装置
CN112201246A (zh) * 2020-11-19 2021-01-08 深圳市欧瑞博科技股份有限公司 基于语音的智能控制方法、装置、电子设备及存储介质
CN112863522A (zh) * 2021-01-12 2021-05-28 重庆邮电大学 一种基于ros的智能机器人语音交互系统及交互方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于语音交互的智能家居系统;王俊之;王彦;孙毅;;南华大学学报(自然科学版);20200229(01);全文 *

Also Published As

Publication number Publication date
CN113643711A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
TWI576825B (zh) 一種機器人系統的聲音識別系統及方法
US11302302B2 (en) Method, apparatus, device and storage medium for switching voice role
CN107358954A (zh) 一种实时更换唤醒词的设备及方法
US9336773B2 (en) System and method for standardized speech recognition infrastructure
JP7348288B2 (ja) 音声対話の方法、装置、及びシステム
CN108766441A (zh) 一种基于离线声纹识别和语音识别的语音控制方法及装置
TW201743319A (zh) 語音控制系統及其方法
CN109949808A (zh) 兼容普通话和方言的语音识别家电控制系统和方法
CN112201246A (zh) 基于语音的智能控制方法、装置、电子设备及存储介质
CN106847291A (zh) 一种本地和云端相结合的语音识别系统及方法
JP3000999B1 (ja) 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体
CN109671427B (zh) 一种语音控制方法、装置、存储介质及空调
CN110738994A (zh) 一种智能家居的控制方法、装置、机器人及系统
CN109036406A (zh) 一种语音信息的处理方法、装置、设备和存储介质
CN113096653A (zh) 一种基于人工智能的个性化口音语音识别方法及系统
CN114155854B (zh) 语音数据的处理方法及装置
CN113643711B (zh) 用于智能家具的基于离线模式和在线模式的语音系统
CN109767767A (zh) 一种语音交互方法、系统、电子设备及存储介质
WO2016027909A1 (ja) データ構造、音声対話装置及び電子機器
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
CN109830232A (zh) 人机交互方法、装置和存储介质
CN114495981A (zh) 语音端点的判定方法、装置、设备、存储介质及产品
CN114999496A (zh) 音频传输方法、控制设备及终端设备
CN210265228U (zh) 一种基于ai语音芯片的风扇控制器
CN114360533A (zh) 一种基于机器学习的交互方法、系统、电梯设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant