CN112420044A - 语音识别方法、语音识别装置及电子设备 - Google Patents

语音识别方法、语音识别装置及电子设备 Download PDF

Info

Publication number
CN112420044A
CN112420044A CN202011409489.XA CN202011409489A CN112420044A CN 112420044 A CN112420044 A CN 112420044A CN 202011409489 A CN202011409489 A CN 202011409489A CN 112420044 A CN112420044 A CN 112420044A
Authority
CN
China
Prior art keywords
information
voice
voice broadcast
control command
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011409489.XA
Other languages
English (en)
Inventor
何海亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Oribo Technology Co Ltd
Original Assignee
Shenzhen Oribo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Oribo Technology Co Ltd filed Critical Shenzhen Oribo Technology Co Ltd
Priority to CN202011409489.XA priority Critical patent/CN112420044A/zh
Publication of CN112420044A publication Critical patent/CN112420044A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本申请实施例提供了一种语音识别方法、语音识别装置及电子设备,涉及智能家居技术领域,既可省去用户按键操作,还可以改善误唤醒的问题。该语音识别方法包括:监测语音播报,并确定所述语音播报的信息中是否包括目标语音信息;当确认包括,且智能设备当前为离线状态时,所述智能设备从所述离线状态转为唤醒状态;当监测到所述语音播报停止时,确定预设时长内的所述语音播报的信息是否包括对应的控制命令;当确认包括时,执行所述控制命令。

Description

语音识别方法、语音识别装置及电子设备
技术领域
本申请涉及智能家居技术领域,尤其涉及一种语音识别方法、语音识别装置及电子设备。
背景技术
随着智能设备的不断发展,智能设备的功能多且杂,用户需要繁杂的手动按键操作,才能唤醒对应的功能或获取有用的信息,从而降低用户体验。
发明内容
本申请实施例提供了一种语音识别方法、语音识别装置及电子设备,以解决上述问题。
第一方面,提供一种语音识别方法,包括:监测语音播报,并确定语音播报的信息中是否包括目标语音信息;当确认包括,且智能设备当前为离线状态时,智能设备从所述离线状态转为唤醒状态;当监测到语音播报停止时,确定预设时长内的语音播报的信息是否包括对应的控制命令;当确认包括时,执行控制命令。
第二方面,提供一种语音识别方法,包括:智能设备监测语音播报,并确定语音播报的信息中是否包括目标语音信息;智能设备在确认包括,且智能设备当前为离线状态时,从离线状态转为唤醒状态;智能设备在监测到语音播报停止时,将语音播报中预设时长内的语音播报的信息发送至服务器;服务器接收预设时长内的语音播报的信息,确定预设时长内的语音播报的信息是否包括对应的控制命令;服务器在确认包括时,将所述控制命令发送至智能设备;智能设备接收控制命令,执行控制命令。
第三方面,提供一种语音识别装置,包括:监测模块以及处理模块。监测模块,用于监测语音播报,并确定语音播报的信息中是否包括目标语音信息;处理模块,用于当确认包括,且智能设备当前为离线状态时,控制智能设备从离线状态转为唤醒状态;处理模块,还用于当监测到语音播报停止时,确定预设时长内的语音播报的信息是否包括对应的控制命令;处理模块,还用于当确认包括时,执行控制命令。
第四方面,提供一种智能设备,其特征在于,包括:一个或多个处理器;存储器;以及一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个应用程序配置用于执行第一方面或第二方面所述的方法。
第五方面,提供一种计算机可读取存储介质,计算机可读取存储介质中存储有程序代码,程序代码可被处理器调用执行如第一方面或第二方面所述的方法。
本申请实施例提供的语音识别方法、语音识别装置及电子设备中,智能设备可以实时监测语音播报,一旦监测到语音播报的信息中包括目标语音信息,则智能设备从离线状态转为唤醒状态,同时,继续监测语音播报,直到智能设备监测到语音播报停止;当智能设备监测到语音播报停止时,可以确定预设时长内的语音播报的信息是否包括对应的控制命令,若包括,则执行控制命令。在确定语音播报的信息中是否包括目标语音信息时,智能设备只需根据语音播报的信息确定是否包括目标语音信息即可,无需确定语音播报的信息是否包括其他信息、以及其他信息对应命令。由于在唤醒智能设备之前,智能设备未完全确定语音播报的内容,因此,可以在监测到语音播报停止时,确定预设时长内的语音信息对应的控制命令,以根据控制命令执行相应的操作。相较于现有技术,本申请可以省去用户按键操作;相较于相关技术,本申请只需基于目标语音信息执行唤醒操作,无需在唤醒前识别语音播报中的其他信息,识别的内容越少,误唤醒的几率越小,可改善智能设备误唤醒的问题。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的应用环境示意图;
图2为本申请实施例提供的语音识别方法的流程图;
图3为本申请实施例提供的应用环境示意图;
图4为本申请实施例提供的应用环境示意图;
图5为本申请实施例提供的语音识别方法的流程图;
图6为本申请实施例提供的语音识别方法的流程图;
图7为本申请实施例提供的语音智能识别方法的交互时序图;
图8为本申请实施例提供的应用环境示意图;
图9为本申请实施例提供的应用环境示意图;
图10为本申请实施例提供的语音智能识别装置的框图;
图11为本申请实施例提供的智能设备的框图;
图12为本申请实施例的语音识别方法的应用程序的存储器。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
基于背景技术提出的问题,相关技术将语音识别功能应用到智能设备中,拉近用户与智能设备之间的“距离”,用户可以更加直接、便捷地控制智能设备。
多数智能设备需处于唤醒状态,才能执行功能性的操作。使智能设备从离线状态转为唤醒状态,需要用户说出唤醒词,再由服务器对唤醒词进行识别,唤醒词越长,服务器需识别的内容越多,越容易误唤醒。
发明人经过研究后提出以下方案,既可省去用户按键操作,还可以改善误唤醒的问题。
智能设备可以是智能手机、平板电脑、电子书、智能控制面板、智能电视、智能窗帘、智能音箱、智能冰箱、智能电饭煲等。
如图1所示,智能设备10在接收到语音播报的信息后,可以在本地对语音播报的信息进行处理,以根据处理结果确定自身应执行的操作。
在本申请实施例中,可以将目标语音信息预存储在智能设备10中,智能设备监测语音播报的过程中,可以与目标语音信息进行匹配,以确定语音播报的信息中是否包括目标语音信息。
下面将结合附图对本申请的实施例进行详细的说明。
如图2所示,本申请实施例提供了一种语音识别方法,可应用于智能设备10,本实施例描述的是智能设备侧的步骤流程,该方法可以包括:
S110、监测语音播报,并确定语音播报的信息中是否包括目标语音信息。
在被允许的情况下,智能设备10可以实时监测语音播报,识别语音播报的信息中是否包含目标语音信息。在识别语音播报的信息的过程中,智能设备10可以先将语音播报的信息解析成自身可以理解的语言,在解析到目标语音信息之前,可以暂时不去确定语音播报的信息对应的控制命令。
在一些实施例中,不对智能设备10识别语音播报的方式进行限定,只要解析后的语音播报的信息可以被智能设备10识别即可。
示例的,可以利用自然语言处理(Natural Language Understanding,简称NLU)技术,通过使语音信息与计算机进行通信,以使服务器可以识别语音信息;或者,可以利用动态时间归整(Dynamic Time Warping,简称DTW)算法,根据语音信息的声学特征向量,识别语音信息对应的文本信息。当然,还可以利用其他技术解析语音信息,本申请实施例对此不作特殊限定。
在一些实施例中,不对目标语音信息的具体内容进行限定,考虑到本申请的智能设备10可以通过监测语音播报,并对语音播报的信息进行处理,以使自身执行对应的操作,可选的,目标语音信息可以包含智能设备10的功能状态。
示例的,目标语音信息可以是“打开”、“关闭”等。
示例的,目标语音信息为“打开”,用户说“帮我把音箱打开”,并作为语音播报的信息被智能设备10监测到,智能设备10在监测到“帮我把音箱打开”中的“打开”时,可以确认语音播报的信息中包括目标语音信息。
或者,目标语音信息为“打开”,用户说“请打开音箱”,并作为语音播报的信息被智能设备10监测到,智能设备10在监测到“请打开音箱”中的“打开”时,可以确认语音播报的信息中包括目标语音信息。
在一些实施例中,智能设备10在实时监测语音播报的同时,可以将监测到的语音播报的信息保存在本地。
考虑到本地内存有限,本申请可以设置保存时间阈值或保存内存阈值等,保存部分语音播报的信息。
示例的,可以保存最近24小时内的语音播报的信息;或者,保存的语音播报的信息最多占2G。
在一些实施例中,智能设备10处于离线状态,是指:智能设备10的后台可进行离线语音识别(Automatic Speech Recognition,简称ASR)的半休眠状态。智能设备10处于唤醒状态,是指:智能设备10处于预备工作状态,可以随时根据用户说出的命令执行相应的功能性操作。
S120、当确认包括,且智能设备当前为离线状态时,智能设备从离线状态转为唤醒状态。
在智能设备10处于离线状态的情况下,当智能设备10确认语音播报的信息中包括目标语音信息时,智能设备10可以从离线状态转为唤醒状态。
示例的,目标语音信息为“打开”,在智能设备10处于离线状态的情况下,用户说“帮我把音箱打开”,智能设备10在监测到“帮我把音箱打开”中的“打开”时,可以确认语音播报的信息中包括目标语音信息,并从离线状态转为唤醒状态。
或者,目标语音信息为“打开”,在智能设备10处于离线状态的情况下,用户说“请打开音箱”,智能设备10在监测到“请打开音箱”中的“打开”时,可以确认语音播报的信息中包括目标语音信息,并从离线状态转为唤醒状态。
在一些实施例中,监测语音播报的信息的智能设备10不同,在监测到语音播报的信息中包括目标语音信息时,智能设备10执行的操作也不同。
示例的,若监测语音播报的信息的智能设备10为智能音箱,则智能音箱在监测到语音播报的信息中包括目标语音信息时,可以从离线状态转为唤醒状态。
示例的,若监测语音播报的信息的智能设备10为智能控制面板,则智能控制面板在监测到语音播报的信息中包括目标语音信息时,可以从离线状态转为唤醒状态。
S130、当监测到语音播报停止时,确定预设时长内的语音播报的信息是否包括对应的控制命令。
智能设备10在监测到语音播报的信息包括目标语音信息后,还可以继续监测语音播报,当监测到语音播报停止时,可以以语音播报停止的时间为终点,提取预设时长内的语音播报的信息,并确定预设时长内的语音播报的信息是否包括对应的控制命令。
在一些实施例中,可以根据语音端点检测(Voice Activity Detection,简称VAD)方法,从智能设备监测到的语音播报的信息中识别静音期,以确定语音播报是否停止。
示例的,目标语音信息为“打开”,用户说“帮我把音箱打开”,智能设备10在监测到“帮我把音箱打开”中的“打开”后,用户未说其他话,智能设备10监测到用户说完“打开”后,存在一定时长的静音期,以此确定语音播报停止。
或者,目标语音信息为“打开”,用户说“请打开音箱”,智能设备10在监测到“请打开音箱”中的“打开”后,用户还说了“音箱”,智能设备10监测到用户说完“音箱”后,存在一定时长的静音期,以此确定语音播报停止。
在一些实施例中,不对预设时长的具体时长进行限定。
基于用户语速以及意图说法的长度,可以将预设时长设为10s~15s,例如,提取10s内的语音播报的信息,并确定10s内的语音播报的信息是否包括对应的控制命令;或者,提取15s内的语音播报的信息,并确定15s内的语音播报的信息是否包括对应的控制命令。
在一些实施例中,“确定预设时长内的语音播报的信息是否包括对应的控制命令”中的“预设时长”是指:以语音播报停止的时间为终点,向前推预设时长的时间。
示例的,假设预设时长为10s,智能设备10监测到第20s时语音播报停止,则预设时长内的语音播报的信息为第10s~20s的语音播报的信息。
示例的,假设预设时长为10s,智能设备10监测到第5s时语音播报停止,则预设时长内的语音播报的信息为全部的5s语音播报的信息。
在一些实施例中,不对确定预设时长内的语音播报的信息,是否包括对应的控制命令的方式进行限定。
S140、当确认包括时,执行控制命令。
当确认语音播报的信息包括对应的控制命令时,智能设备10可以执行该控制命令。
在一些实施例中,在预设时长内,语音播报的内容可以对应唤醒智能设备10的控制命令,或者,语音播报的内容也可以对应唤醒智能设备10的命令以及使智能设备10执行其他操作的命令。
由于智能设备10已经从离线状态转为唤醒状态,若预设时长内的语音播报内容对应唤醒智能设备10的控制命令,则智能设备10无需再基于预设时长内的语音播报内容执行操作。
示例的,智能音箱在预设时长内监测到用户说“请打开音箱”,则智能音箱经确认后,无需再执行唤醒操作。
由于智能设备10已经从离线状态转为唤醒状态,若预设时长内的语音播报内容对应唤醒智能设备10的命令以及使智能设备10执行其他操作的的命令,则智能设备10可以执行其他操作,无需执行唤醒操作。
示例的,智能音箱在预设时长内监测到用户说“我要听xxx,请打开音箱”,则智能音箱经确认后,播放歌曲xxx,且无需执行唤醒操作。
在一些实施例中,对于同一控制命令,监测语音播报的智能设备10不同,该智能设备10根据控制命令执行的操作也不相同。
示例的,控制命令为“打开智能音箱”,如图3所示,若监测语音播报的智能设备10为智能音箱,由于智能音箱在步骤S120已经转为唤醒状态,因此,智能音箱确认语音播报的信息包括“打开智能音箱”的控制命令后,直接确认自身无需执行唤醒的操作。
控制命令为“打开智能音箱”,如图4所示,若监测语音播报的智能设备10为智能控制面板,则智能控制面板确认语音播报的信息包括“打开智能音箱”的控制命令后,控制智能音箱执行唤醒的操作。
其中,智能控制面板与智能音箱等智能家居设备之间,可以通过无线保真(Wireless-Fidelity,简称WiFi)、蓝牙、Zigbee、热点等通信方式进行交互。
本申请实施例提供一种语音识别方法,智能设备10可以实时监测语音播报,一旦监测到语音播报的信息中包括目标语音信息,则智能设备10从离线状态转为唤醒状态,同时,继续监测语音播报,直到智能设备10监测到语音播报停止;当智能设备10监测到语音播报停止时,可以确定预设时长内的语音播报的信息是否包括对应的控制命令,若包括,则执行控制命令。在确定语音播报的信息中是否包括目标语音信息时,智能设备10只需根据语音播报的信息确定是否包括目标语音信息即可,无需确定语音播报的信息是否包括其他信息、以及其他信息对应命令。由于在唤醒智能设备10之前,智能设备10未完全确定语音播报的内容,因此,可以在监测到语音播报停止时,确定预设时长内的语音信息对应的控制命令,以根据控制命令执行相应的操作。相较于现有技术,本申请可以省去用户按键操作;相较于相关技术,本申请只需基于目标语音信息执行唤醒操作,无需在唤醒前识别语音播报中的其他信息,识别的内容越少,误唤醒的几率越小,可改善智能设备10误唤醒的问题。
如图5所示,本申请实施例提供了一种语音识别方法,可应用于智能设备10,本实施例描述的是智能设备侧的步骤流程,该方法可以包括:
S111、监测语音播报。
在被允许的情况下,智能设备10可以实时监测语音播报。
S112、将语音播报的信息与唤醒词语料库进行匹配,唤醒词语料库包括至少一个唤醒词。
可以实时将语音播报的信息与唤醒词语料库进行匹配,以确定语音播报的信息中是否包括目标语音信息。
在一些实施例中,可以将唤醒词语料库预存储在智能设备10中。
在一些实施例中,不对唤醒词的具体内容进行限定,考虑到本申请的智能设备10可以通过监测语音播报,并对语音播报的信息进行处理,以使自身执行对应的操作,可选的,唤醒词可以包含智能设备10的功能状态。
示例的,唤醒词可以是“打开”、“关闭”等。
S113、当语音播报的信息与所述唤醒词匹配时,确认语音播报的信息包括目标语音信息。
在一些实施例中,匹配的目标语音信息与唤醒词,二者可以完全相同,或者,二者不完全相同,但语义相同。
示例的,唤醒词为“打开”,目标语音信息为“开”。
S121、当确认包括,且智能设备当前为离线状态时,确认语音播报的声纹信息与预存储的声纹信息是否一致。
为了提高智能设备10的使用安全性,本申请实施例仅使目标用户可以控制智能设备10工作。智能设备10在确认包括目标语音信息后,还可以进一步确认接收到的语音播报的声纹信息是否与目标用户的声纹信息一致。
在一些实施例中,智能设备10可以提前录入目标用户的声纹信息,并存储目标用户的声纹信息。
S122、当一致时,智能设备从离线状态转为唤醒状态。
当语音播报的声纹信息与目标用户的声纹信息一致时,确认当前语音播报的用户为目标用户,智能设备10从离线状态转为唤醒状态;当语音播报的声纹信息与目标用户的声纹信息一致时,确认当前语音播报的用户不是目标用户,智能设备10可以仍保持离线状态。
S131、当监测到语音播报停止时,确定预设时长内的语音播报的信息中的关键词。
智能设备10从离线状态转为唤醒状态后,还可以继续监测语音播报,当监测到语音播报停止时,可以以语音播报停止的时间为终点,提取预设时长内的语音播报的信息,并将预设时长内的语音播报的信息拆分为至少一个关键词。
示例的,智能设备10提取预设时长内的语音播报的信息为“把音箱打开”,可以将“把音箱打开”拆分成“把”、“音箱”以及“打开”。
S132、根据关键词,确定预设时长内的语音播报的信息是否包括对应的控制命令。
智能设备10将预设时长内的语音播报的信息拆分为多个关键词后,可以根据关键词,确定预设时长内的语音播报的信息是否包括与关键词对应的控制命令。
在一些实施例中,不对根据关键词确定控制命令的方式进行限定,可以在关键词与意图说法完全匹配的情况下,根据意图说法确定控制命令;也可以在关键词与意图说法不完全相同、但语义相同的情况下,根据意图说法确定控制命令。
S140、当确认包括时,执行控制命令。
步骤S140的解释说明,与前述实施例中步骤S140的解释说明相同,在此不再赘述。
本申请实施例提供一种语音识别方法,智能设备10在确定语音播报的信息中包括目标语音信息之后,还可以确定语音播报的声纹信息是否与目标用户的声纹信息一致,当一致时,智能设备10才从离线状态转为唤醒状态,以提高智能设备10的使用安全性。在此基础上,本申请还可以将语音播报的信息拆分成至少一个关键词,以根据关键词确定语音播报的信息中是否包括对应的控制命令。
如图6所示,本申请实施例提供了一种语音识别方法,可应用于智能设备10,本实施例描述的是智能设备侧的步骤流程,该方法可以包括:
S111、监测所述语音播报;
S112、将所述语音播报的信息与唤醒词语料库进行匹配,所述唤醒词语料库包括至少一个唤醒词;
S113、当所述语音播报的内容与所述唤醒词匹配时,确认所述语音播报的信息包括目标语音信息。
S121、当确认包括,且所述智能设备当前为离线状态时,确认所述语音播报的声纹信息与预存储的声纹信息是否一致;
S122、当一致时,所述智能设备从离线状态转为唤醒状态。
S1311、当监测到语音播报停止时,将预设时长内的语音播报的信息与关键词语料库进行匹配,确定与关键词语料库中的至少一个识别语料对应的关键词,关键词语料库中包括至少一个识别语料。
智能设备10监测到语音播报之后,可以对语音播报进行解析,以将语音播报的信息转换为计算机可识别的语言。智能设备10识别解析后的语音播报的信息后,可以将用户说的一句完整的话拆分成至少一个关键词,并将至少一个关键词与关键词语料库中的识别语料进行匹配,确定与关键词语料库中的至少一个识别语料对应的关键词。
示例的,智能设备10监测到的语音播报的信息为“把音箱打开”,可以将“把音箱打开”拆分成“把”、“音箱”以及“打开”,并分别将“把”、“音箱”以及“打开”与关键词语料库中的识别语料进行匹配。若关键词语料库中的识别语料包括“打开”以及“智能音箱”,则确认关键词“打开”与识别语料“打开”匹配,关键词“音箱”与识别语料“智能音箱”匹配。
在一些实施例中,在用户说的一句完整的话拆分成多个关键词的情况下,多个关键词可以全部与关键词语料库匹配,并作为目标关键词;或者,多个关键词中的部分关键词与关键词语料库匹配,多个关键词中与关键词语料库匹配的部分关键词可以作为目标关键词。
在一些实施例中,关键词语料库中的识别语料可以包括智能设备10的名称、智能设备10的功能、以及智能设备10的功能状态。
可选的,智能家居设备与用户的生活息息相关,且可以通过语音控制的方式控制智能家居设备工作,因此可选智能设备10为智能家居设备,关键词语料库可以为智能家居语料库,关键词语料库中的识别语料可以包括智能家居设备的名称、智能家居设备的功能、以及智能家居设备的功能状态。
以智能家居设备为智能电视,用户当前的需求为看电视为例,用户可以说“打开智能电视的开关”,其中,“智能电视”为智能家居设备的名称,“开关”为智能家居设备的功能,“打开”为智能家居设备的功能状态。
在一些实施例中,可以将关键词语料库预存储在智能设备10中,关键词语料库包括与至少一个识别语料。智能设备10监测到语音播报后,可以直接调用预存储的关键词语料库,确定语音播报中与识别语料对应的关键词,该关键词作为目标关键词。
S1312、将与关键词语料库中的至少一个识别语料对应的关键词,作为预设时长内的语音播报的目标关键词。
当至少一个关键词与关键词语料库中的识别语料对应时,该关键词可以作为语音播报的信息中的目标关键词。
示例的,在确认关键词“打开”与识别语料“打开”匹配,关键词“音箱”与识别语料“智能音箱”匹配的情况下,语音播报的信息中的“音箱”以及“打开”可以作为目标关键字。
S1321、将关键词与业务逻辑库进行匹配,确定是否包括与业务逻辑库匹配的技能语句,业务逻辑库包括至少一个技能语句。
根据步骤S1312确定目标关键词之后,可以将目标关键词与业务逻辑库进行匹配,以确定与目标关键词对应的技能语句。
示例的,目标关键词为“音箱”以及“打开”,业务逻辑库中的技能语句包括“打开智能音箱”,这样一来,可以确定与“音箱”以及“打开”匹配的技能语句为“打开智能音箱”。
在一些实施例中,在语音播报的信息具有多个目标关键词的情况下,目标关键词在语音播报的信息中的顺序,与目标关键词在技能语句中的顺序可以相同,也可以不相同。
示例的,用户说“把音箱打开”,其中,“音箱”以及“打开”为目标关键词,在语音播报的信息中,“音箱”以及“打开”的顺序为:先“音箱”后“打开”;而与目标关键词匹配的技能语句为“打开智能音箱”,在技能语句中,“智能音箱”以及“打开”的顺序为:先“打开”后“智能音箱”。
或者,用户说“请打开音箱”,其中,“音箱”以及“打开”为目标关键词,在语音播报的信息中,“音箱”以及“打开”的顺序为:先“打开”后“音箱”;而与目标关键词匹配的技能语句为“打开智能音箱”,在技能语句中,“智能音箱”以及“打开”的顺序也为:先“打开”后“智能音箱”。
在一些实施例中,可以将业务逻辑库预存储在智能设备10中,业务逻辑库包括至少一个技能语句。智能设备10通过语料数据库确定与语音播报的信息对应的目标关键词后,可以直接调用预存储的业务逻辑库,确定与目标关键词对应的技能语句。
S1322、根据技能语句,确定与预设时长内的语音播报的信息对应的控制命令。
根据步骤S1321确定技能语句之后,可以根据与目标关键词对应的技能语句确定与语音播报的信息对应的控制命令。
在一些实施例中,在根据与目标关键词匹配的技能语句确定控制命令时,可以先根据与目标关键词匹配的技能语句,触发技能业务逻辑;之后,根据技能业务逻辑,确定与语音播报的信息对应的控制命令。
S140、当确认包括时,执行控制命令。
步骤S111~S122、以及S140的解释说明,与前述实施例中步骤S111~S122、以及S140的解释说明相同,在此不再赘述。
本申请实施例提供一种语音识别方法,智能设备10在监测到语音播报的之后,可以将语音播报的信息拆分成至少一个关键词,将至少一个关键词与关键词语料库中的识别语料进行匹配,以确定至少一个关键词中与识别语料对应的目标关键词,再将目标关键词与业务逻辑库进行匹配,确定与目标关键词对应的技能语句,进而根据与目标关键词对应的技能语句确定控制命令,从而实现根据泛化的语音播报信息,确定精确的控制命令。在上述过程中,本申请可以在用户未完全说出智能设备10掌握的语料的情况下,使智能设备10根据语音播报的信息工作。
如图7所示,本申请实施例提供了一种语音识别方法,可应用于智能设备10与服务器20之间的交互,本实施例描述的是智能设备10以及服务器12之间的交互流程,该方法可以包括:
S210、智能设备监测语音播报,并确定语音播报的信息中是否包括目标语音信息。
S220、智能设备在确认包括,且智能设备当前为离线状态时,从离线状态转为唤醒状态。
步骤S210以及S220的解释说明,与前述实施例步骤S110以及步骤S120的解释说明相同,在此不再赘述。
S230、智能设备在监测到语音播报停止时,将语音播报中预设时长内的语音播报的信息发送至服务器。
如图8所示,智能设备10在监测到语音播报的信息包括目标语音信息后,还可以继续监测语音播报,当监测到语音播报停止时,可以以语音播报停止的时间为终点,提取预设时长内的语音播报的信息,并将预设时长内的语音播报的信息发送至服务器,由服务器20对预设时长内的语音播报的信息进行识别。其中,服务器20可以是传统服务器或云服务器等。
对步骤S230的其他解释说明,可以参考前述实施例步骤S130的解释说明。
S240、服务器接收预设时长内的语音播报的信息,确定预设时长内的语音播报的信息是否包括对应的控制命令。
服务器20接收到语音播报的信息后,可以对预设时长内的语音播报的信息进行处理,确定出与语音信息对应的控制命令。
S250、服务器在确认包括时,将控制命令发送至智能设备。
如图9所示,服务器20根据预设时长内的语音播报的信息确定控制命令后,可以将控制命令发送至智能设备10。
S260、智能设备接收控制命令,执行控制命令。
步骤S260的解释说明,与步骤S140的解释说明相同,在此不再赘述。本申请实施例提供一种语音识别方法,智能设备10处于唤醒状态后,若监测到语音播报停止,则可以提取预设时长内的语音播报的信息,并将预设时长内的语音播报的信息发送至服务器20,以使根据预设时长内的语音播报的信息,确认控制命令的步骤在服务器20中执行,以缓解智能设备10的处理压力以及存储压力。
如图10所示,其示出了本申请另一实施例提供的一种语音识别装置100的结构框图,语音智能识别装置100可以包括监测模块101以及处理模块102。
监测模块101,用于监测语音播报,并确定语音播报的信息中是否包括目标语音信息。
处理模块102,用于当确认包括,且智能设备当前为离线状态时,使智能设备从离线状态转为唤醒状态。
处理模块102,还用于当监测到语音播报停止时,确定预设时长内的语音播报的信息是否包括对应的控制命令。
处理模块102,还用于当确认包括时,执行控制命令。
在此基础上,监测模块101还用于监测语音播报;处理模块102还用于将语音播报的信息与唤醒词语料库进行匹配,唤醒词语料库包括至少一个唤醒词;当语音播报的信息与所述唤醒词匹配时,确认语音播报的信息包括目标语音信息。
处理模块102还用于当确认包括,且智能设备当前为离线状态时,确认语音播报的声纹信息与预存储的声纹信息是否一致;当一致时,智能设备从离线状态转为唤醒状态。
处理模块102还用于当监测到所述语音播报停止时,确定预设时长内的语音播报的信息中的关键词;根据关键词,确定预设时长内的语音播报的信息是否包括对应的控制命令。
处理模块102还用于当监测到语音播报停止时,将预设时长内的语音播报的信息与关键词语料库进行匹配,确定与关键词语料库中的至少一个识别语料对应的关键词,关键词语料库中包括至少一个识别语料;将与关键词语料库中的至少一个识别语料对应的所述关键词,作为预设时长内的语音播报的目标关键词。
处理模块102还用于将关键词与业务逻辑库进行匹配,确定是否包括与业务逻辑库匹配的技能语句,业务逻辑库包括至少一个技能语句;根据技能语句,确定与预设时长内的语音播报的信息对应的控制命令。
本申请实施例提供一种语音识别装置100,其解释说明以及有益效果,与前述实施例的解释说明以及有益效果相同,在此不再赘述。
如图11所示,其示出了本申请另一实施例提供的一种智能设备10的结构框图,该智能设备10包括:一个或多个处理器11;存储器12;以及一个或多个应用程序13,其中一个或多个应用程序13被存储在存储器中并被配置为由一个或多个处理器11执行,一个或多个应用程序13配置用于执行前述实施例所述的方法。
处理器11可以包括一个或者多个处理核。处理器11利用各种接口和线路连接整个智能设备10内的各个部分,通过运行或执行存储在存储器12内的指令、程序、代码集或指令集,以及调用存储在存储器12内的数据,执行智能设备10的各种功能和处理数据。可选地,处理器11可以采用数字信号处理(Digital Signal Processing,简称DSP)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)、可编程逻辑阵列(ProgrammableLogic Array,简称PLA)中的至少一种硬件形式来实现。处理器11可集成中央处理器(Central Processing Unit,简称CPU)、图像处理器(Graphics Processing Unit,简称GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器11中,单独通过一块通信芯片进行实现。
存储器12可以包括随机存储器(Random Access Memory,简称RAM),也可以包括只读存储器(Read-Only Memory,简称ROM)。存储器12可用于存储指令、程序、代码、代码集或指令集。存储器12可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储智能设备10在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
如图12所示,其示出了本申请另一实施例提供的一种计算机可读存储介质200的结构框图。该计算机可读存储介质200中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质200可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选的,计算机可读存储介质400包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。
计算机可读存储介质200具有执行上述方法中的任何方法步骤的应用程序13的存储空间。这些应用程序13可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。应用程序13可以例如以适当形式进行压缩。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
监测语音播报,并确定所述语音播报的信息中是否包括目标语音信息;
当确认包括,且智能设备当前为离线状态时,所述智能设备从所述离线状态转为唤醒状态;
当监测到所述语音播报停止时,确定预设时长内的所述语音播报的信息是否包括对应的控制命令;
当确认包括时,执行所述控制命令。
2.根据权利要求1所述的方法,其特征在于,所述监测语音播报,并确定所述语音播报中是否包括目标语音信息,包括:
检测所述语音播报;
将所述语音播报的信息与唤醒词语料库进行匹配,所述唤醒词语料库包括至少一个唤醒词;
当所述语音播报的信息与所述唤醒词匹配时,确认所述语音播报的信息包括目标语音信息。
3.根据权利要求2所述的方法,其特征在于,所述当确认包括,且智能设备当前为离线状态时,所述智能设备从离线状态转为唤醒状态的步骤,具体包括:
当确认包括,且所述智能设备当前为离线状态时,确认所述语音播报的声纹信息与预存储的声纹信息是否一致;
当一致时,所述智能设备从离线状态转为唤醒状态。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述当监测到所述语音播报停止时,确定预设时长内的所述语音播报的信息是否包括对应的控制命令的步骤,具体包括:
当监测到所述语音播报停止时,确定所述预设时长内的所述语音播报的信息中的关键词;
根据所述关键词,确定所述预设时长内的所述语音播报的信息是否包括对应的控制命令。
5.根据权利要求4所述的方法,其特征在于,所述当监测到所述语音播报停止时,确定所述预设时长内的所述语音播报的信息中的关键词的步骤,具体包括:
当监测到所述语音播报停止时,将所述预设时长内的所述语音播报的信息与关键词语料库进行匹配,确定与所述关键词语料库中的至少一个识别语料对应的关键词,所述关键词语料库中包括至少一个识别语料;
将与所述关键词语料库中的至少一个识别语料对应的所述关键词,作为所述预设时长内的所述语音播报的目标关键词。
6.根据权利要求5所述的方法,其特征在于,所述根据所述关键词,确定所述预设时长内的所述语音播报的信息是否包括对应的控制命令的步骤,具体包括:
将所述关键词与业务逻辑库进行匹配,确定是否包括与所述业务逻辑库匹配的技能语句,所述业务逻辑库包括至少一个技能语句;
根据所述技能语句,确定与所述预设时长内的语音播报的信息对应的控制命令。
7.一种语音识别方法,其特征在于,包括:
智能设备监测语音播报,并确定所述语音播报的信息中是否包括目标语音信息;
所述智能设备在确认包括,且智能设备当前为离线状态时,从离线状态转为唤醒状态;
所述智能设备在监测到所述语音播报停止时,将所述语音播报中预设时长内的语音播报的信息发送至服务器;
所述服务器接收所述预设时长内的语音播报的信息,确定所述预设时长内的所述语音播报的信息是否包括对应的控制命令;
所述服务器在确认包括时,将所述控制命令发送至所述智能设备;
所述智能设备接收所述控制命令,执行所述控制命令。
8.一种语音识别装置,其特征在于,包括:
监测模块,用于监测语音播报,并确定所述语音播报的信息中是否包括目标语音信息;
处理模块,用于当确认包括,且智能设备当前为离线状态时,控制所述智能设备从离线状态转为唤醒状态;
所述处理模块,还用于当监测到所述语音播报停止时,确定预设时长内的所述语音播报的信息是否包括对应的控制命令;
所述处理模块,还用于当确认包括时,执行所述控制命令。
9.一种智能设备,其特征在于,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行权利要求1-6任一项或权利要求7所述的方法。
10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-6任一项或权利要求7所述的方法。
CN202011409489.XA 2020-12-03 2020-12-03 语音识别方法、语音识别装置及电子设备 Pending CN112420044A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011409489.XA CN112420044A (zh) 2020-12-03 2020-12-03 语音识别方法、语音识别装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011409489.XA CN112420044A (zh) 2020-12-03 2020-12-03 语音识别方法、语音识别装置及电子设备

Publications (1)

Publication Number Publication Date
CN112420044A true CN112420044A (zh) 2021-02-26

Family

ID=74830277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011409489.XA Pending CN112420044A (zh) 2020-12-03 2020-12-03 语音识别方法、语音识别装置及电子设备

Country Status (1)

Country Link
CN (1) CN112420044A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590207A (zh) * 2021-07-30 2021-11-02 思必驰科技股份有限公司 提升唤醒效果的方法和装置
CN113611294A (zh) * 2021-06-30 2021-11-05 展讯通信(上海)有限公司 语音唤醒方法、装置、设备及介质
CN113759869A (zh) * 2021-08-16 2021-12-07 深圳Tcl新技术有限公司 智能家电测试方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000181492A (ja) * 1998-12-16 2000-06-30 Olympus Optical Co Ltd 音声情報処理装置および音声情報を処理するための処理プログラムを記録した記録媒体
CN105654943A (zh) * 2015-10-26 2016-06-08 乐视致新电子科技(天津)有限公司 一种语音唤醒方法、装置及系统
CN106504756A (zh) * 2016-12-02 2017-03-15 珠海市杰理科技股份有限公司 嵌入式语音识别系统及方法
CN109754788A (zh) * 2019-01-31 2019-05-14 百度在线网络技术(北京)有限公司 一种语音控制方法、装置、设备及存储介质
CN110232916A (zh) * 2019-05-10 2019-09-13 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000181492A (ja) * 1998-12-16 2000-06-30 Olympus Optical Co Ltd 音声情報処理装置および音声情報を処理するための処理プログラムを記録した記録媒体
CN105654943A (zh) * 2015-10-26 2016-06-08 乐视致新电子科技(天津)有限公司 一种语音唤醒方法、装置及系统
CN106504756A (zh) * 2016-12-02 2017-03-15 珠海市杰理科技股份有限公司 嵌入式语音识别系统及方法
CN109754788A (zh) * 2019-01-31 2019-05-14 百度在线网络技术(北京)有限公司 一种语音控制方法、装置、设备及存储介质
CN110232916A (zh) * 2019-05-10 2019-09-13 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113611294A (zh) * 2021-06-30 2021-11-05 展讯通信(上海)有限公司 语音唤醒方法、装置、设备及介质
CN113590207A (zh) * 2021-07-30 2021-11-02 思必驰科技股份有限公司 提升唤醒效果的方法和装置
CN113759869A (zh) * 2021-08-16 2021-12-07 深圳Tcl新技术有限公司 智能家电测试方法及装置
CN113759869B (zh) * 2021-08-16 2024-04-02 深圳Tcl新技术有限公司 智能家电测试方法及装置

Similar Documents

Publication Publication Date Title
AU2019246868B2 (en) Method and system for voice activation
CN112420044A (zh) 语音识别方法、语音识别装置及电子设备
US20210210071A1 (en) Methods and devices for selectively ignoring captured audio data
CN112201246B (zh) 基于语音的智能控制方法、装置、电子设备及存储介质
TWI535258B (zh) 語音接聽方法與行動終端裝置
TWI489372B (zh) 語音操控方法與行動終端裝置
CN109643549B (zh) 基于说话者识别的语音识别方法和装置
CN108962262B (zh) 语音数据处理方法和装置
CN111161714B (zh) 一种语音信息处理方法、电子设备及存储介质
CN113327609B (zh) 用于语音识别的方法和装置
KR20200052638A (ko) 전자 장치 및 전자 장치의 음성 인식 방법
KR102029820B1 (ko) 음성 인식을 이용하여 전원을 제어하는 전자 장치 및 이의 전원 제어 방법
CN112562670A (zh) 语音智能识别方法、语音智能识别装置及智能设备
CN109955270B (zh) 语音选项选择系统与方法以及使用其的智能机器人
TW201926315A (zh) 音頻處理方法、裝置及終端設備
CN105912111A (zh) 人机交互中的结束语音对话的方法及语音识别装置
WO2019007247A1 (zh) 人机会话的处理方法、装置及电子设备
CN110718225A (zh) 一种语音控制方法、终端以及存储介质
CN111862965A (zh) 唤醒处理方法、装置、智能音箱及电子设备
CN110782886A (zh) 语音处理的系统、方法、电视、设备和介质
CN111862943A (zh) 语音识别方法和装置、电子设备和存储介质
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
CN113643684A (zh) 语音合成方法、装置、电子设备及存储介质
CN114999496A (zh) 音频传输方法、控制设备及终端设备
CN113096651A (zh) 语音信号处理方法、装置、可读存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination