CN110232916A - 语音处理方法、装置、计算机设备及存储介质 - Google Patents

语音处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110232916A
CN110232916A CN201910390372.2A CN201910390372A CN110232916A CN 110232916 A CN110232916 A CN 110232916A CN 201910390372 A CN201910390372 A CN 201910390372A CN 110232916 A CN110232916 A CN 110232916A
Authority
CN
China
Prior art keywords
real time
voice signal
time environment
user
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910390372.2A
Other languages
English (en)
Inventor
王健宗
贾雪丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910390372.2A priority Critical patent/CN110232916A/zh
Publication of CN110232916A publication Critical patent/CN110232916A/zh
Priority to PCT/CN2019/116513 priority patent/WO2020228270A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明涉及语音处理领域,公开了一种语音处理方法、装置、计算机设备及存储介质。其方法包括:通过音频缓冲器缓存实时环境声音信号;检测所述实时环境声音信号是否包含指定关键词;若检测到所述实时环境声音信号包含所述指定关键词,则通过语音识别模型对所述实时环境声音信号进行识别,获得用户口语指令;将所述用户口语指令转化为机器逻辑指令;将所述机器逻辑指令发送到执行设备,以使执行设备执行所述机器逻辑指令。本发明提供的语音处理方法,可以克服现有技术中唤醒和语音识别不同步,实时对用户的语音指令进行识别,提高了用户体验。

Description

语音处理方法、装置、计算机设备及存储介质
技术领域
本发明涉及语音处理领域,尤其涉及一种语音处理方法、装置、计算机设备及存储介质。
背景技术
现有的一部分语音识别系统,是依赖于语音进行激活的。这种语音交互系统,往往依赖于对用户语音中的关键词进行识别。例如,一具有语音交互功能的智能音箱,其设置的唤醒关键词为“Hello”,当用户在智能音箱附近说出“Hello”,智能音箱的语音识别模块在关键词监测模式下监测到该“Hello”语音,然后将语音识别模块切换工作模式(从关键词监测模式切换为语音识别模式),监听用户发出的语音指令(语音指令可以用于命令智能音箱打开音乐或播报新闻等)。
然而,在现有的语音识别过程中,关键词识别与语音指令识别之间存在一定的时间间隔(切换工作模式需要一定时间),导致用户在连续说出唤醒关键词与语音指令时,语音指令无法被正确识别(因为此时语音识别模式尚未启用)。虽然,在时间间隔内,可以通过播放一个简短的铃声或者产生一些视觉反馈来通知用户设备已经完成加载,可以使用语音指令进行下一步操作。然而,这种时间间隔产生的停顿在语音的自然流中产生中断,对用户体验的质量产生负面影响。
发明内容
基于此,有必要针对上述技术问题,提供一种语音处理方法、装置、计算机设备及存储介质,以克服现有技术中,唤醒和语音识别不同步,导致用户体验不佳的问题。
一种语音处理方法,包括:
通过音频缓冲器缓存实时环境声音信号;
检测所述实时环境声音信号是否包含指定关键词;
若检测到所述实时环境声音信号包含所述指定关键词,则通过语音识别模型对所述实时环境声音信号进行识别,获得用户口语指令;
将所述用户口语指令转化为机器逻辑指令;
将所述机器逻辑指令发送到执行设备,以使执行设备执行所述机器逻辑指令。
一种语音处理装置,包括:
缓存模块,用于通过音频缓冲器缓存实时环境声音信号;
检测模块,用于检测所述实时环境声音信号是否包含指定关键词;
识别模块,用于若检测到所述实时环境声音信号包含所述指定关键词,则通过语音识别模型对所述实时环境声音信号进行识别,获得用户口语指令;
指令转化模块,用于将所述用户口语指令转化为机器逻辑指令;
执行模块,用于将所述机器逻辑指令发送到执行设备,以使执行设备执行所述机器逻辑指令。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述语音处理方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语音处理方法。
上述语音处理方法、装置、计算机设备及存储介质,通过音频缓冲器缓存实时环境声音信号,以实时获取环境中的声音信息(即为上述实时环境声音信号)。检测所述实时环境声音信号是否包含指定关键词,通过关键词检测以确定是否唤醒语音处理装置。若检测到所述实时环境声音信号包含所述指定关键词,则通过语音识别模型对所述实时环境声音信号进行识别,获得用户口语指令,以快速唤醒设备,同时对音频缓冲器中的实时环境声音信号进行处理,获得用户口语指令。将所述用户口语指令转化为机器逻辑指令,以将用户口语指令转化为机器可识别的指令。将所述机器逻辑指令发送到执行设备,以使执行设备执行所述机器逻辑指令,以完成用户口语指令所要求完成的操作。本发明提供的语音处理方法,可以克服现有技术中唤醒和语音识别不同步,实时对用户的语音指令进行识别,提高了用户体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中语音处理方法的一应用环境示意图;
图2是本发明一实施例中语音处理方法的一流程示意图;
图3是本发明一实施例中语音处理方法的一流程示意图;
图4是本发明一实施例中语音处理方法的一流程示意图;
图5是本发明一实施例中语音处理方法的一流程示意图;
图6是本发明一实施例中语音处理方法的一流程示意图;
图7是本发明一实施例中语音处理方法的一流程示意图;
图8是本发明一实施例中语音处理装置的一结构示意图;
图9是本发明一实施例中语音处理装置的一结构示意图;
图10是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供的语音处理方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信。客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种语音处理方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
S10、通过音频缓冲器缓存实时环境声音信号。
本实施例中,音频缓冲器可以指用于临时记录实时环境声音信号的存储器。音频存储器的存储大小可以调整为超过最长的指定关键字或关键短语的持续时间的存储空间。例如,指定关键字的长度为10秒钟,则音频存储器的存储空间可以设置为可存储大于10秒的实时环境声音信号。实时环境声音信号指的是当前环境下所录制的声音信号。由于音频存储器的存储空间有限,因而,音频存储器中仅保存距离当前最近一段时间(长度为音频存储器的存储空间的上限)的实时环境声音信号。
S20、检测所述实时环境声音信号是否包含指定关键词。
可以使用语音唤醒处理模块检测实时环境声音信号是否包含指定关键词。语音唤醒处理模块中可以包含相应的语音识别模型。语音唤醒处理模块可以基于现有的关键字定位技术,如微软小娜的WoV唤醒处理单元。指定关键词可以根据用户自主设置,也可以基于系统内的预先设置。
语音唤醒处理模块可以检测音频缓冲器中的实时环境声音信号是否包含指定关键词,并确定检测结果。例如,指定关键词设置为“你好,电脑”,若实时环境声音信号中包含“你好,电脑”,语音唤醒处理模块可以检测到实时环境声音信号中包含的“你好,电脑”,并确定实时环境声音信号包含指定关键词。在判断实时环境声音信号是否包含指定关键词时,预先设置匹配度阈值,计算实时环境声音信号与指定关键词的匹配度(可以先生成指定关键词的标准语音,从标准语音提取声学特征,如声音能量、波形等,然后从实时环境声音信号提取声学特征,然后,计算指定关键字对应的声学特征与实时环境声音信号与的匹配度),判断计算出的匹配度是否不小于匹配度阈值,若计算出的匹配度不小于匹配度阈值,则判定实时环境声音信号包含指定关键词,若计算出的匹配度小于匹配度阈值,则判定实时环境声音信号不包含指定关键词。在此处,匹配度用于表征由指定关键词生成的标准语音与实时环境声音信号的相似程度。
S30、若检测到所述实时环境声音信号包含所述指定关键词,则通过语音识别模型对所述实时环境声音信号进行识别,获得用户口语指令。
可以使用语音识别模块中预设的语音识别模型对实时环境声音信号进行识别,获取用户的口语指令。语音识别模块可以是独立于语音唤醒处理模块的语音处理模块,如,可以是基于ASR(Automatic Speech Recognition的缩写,自动语音识别)技术的语音处理模块。语音唤醒处理模块可以内嵌或连接触发器,该触发器与语音识别模块连接。当语音唤醒处理模块检测到实时环境声音信号包含指定关键词,则激活触发器,由触发器发出唤醒信号,唤醒语音识别模块。语音识别模块唤醒后,将从休眠或待机状态转换到激活状态,并通过该语音识别模块中预置的语音识别模型对音频缓冲器缓存的实时环境声音信号进行识别。此时,语音识别模块可以识别音频缓冲器缓存的指定关键词之后的实时环境声音信号,并将指定关键词之后的实时环境声音信号转化为用户口语指令。例如,用户开始讲话,具体内容为:你好电脑,请打开厨房的灯。由于“你好电脑”是指定关键词,语音识别模块可以识别音频缓冲器缓存的指定关键词之后的实时环境声音信号,识别出用户口语指定“请打开厨房的灯”。
语音识别模型可以是内部自建的,也可以使用外部的计算资源。若使用外部的语音识别模型,则可以通过专用的接口向该语音识别模型发送待识别的实时环境声音信号,并获取该语音识别模型反馈的识别结果(即用户口语指令)。若语音识别模型为自建的模型,可获取大量的语音样本(如可以使用公用网络的开源数据),然后将语音样本输入预设的神经网络模型中进行训练。这里的神经网络模型可以是基于Markov算法、N-gram算法或递归神经网络的统计语言模型。在训练完毕后,使用测试样本对训练后的模型进行测试,若测试通过,则可以将训练后的模型用作本实施例的语音识别模型。
需要注意的是,若语音唤醒处理模块检测到音频缓冲器中的实时环境声音信号不包含指定关键词,则继续检测音频缓冲器中的实时环境声音信号的变化。
S40、将所述用户口语指令转化为机器逻辑指令。
本实施例中,可以使用自然语言理解模块将用户口语指令转化为机器逻辑指令。自然语言理解模块可以基于用户口语指令生成机器逻辑指令。由于机器并无法识别用户口语指令,需要自然语言理解模块对用户口语指令中的信息进行提取,生成机器可以识别的机器逻辑指令。例如,用户口语指令为“请打开厨房的灯”,自然语言理解模块可以从“请打开厨房的灯”提取出关键信息:“打开”、“厨房”、“灯”,并生成相应的开启厨房的灯的控制指令(即机器逻辑指令)。
S50、将所述机器逻辑指令发送到执行设备,以使执行设备执行所述机器逻辑指令。
执行设备可以是与语音处理装置连接的受控设备,如家用设备,智能汽车等。当执行设备接收到语音处理装置发送的机器逻辑指令时,可以根据机器逻辑指令执行相应的操作。如当厨房的灯接收到自然语言理解模块发送的开启指令时,则厨房的灯响应该开启指令,并完成开启操作。在一些情况下,执行设备也可以是非实体的设备,如手机或其他设备上的音乐播放器、收音机等。
步骤S10-S50中,通过音频缓冲器缓存实时环境声音信号,以实时获取环境中的声音信息(即为上述实时环境声音信号)。检测所述实时环境声音信号是否包含指定关键词,通过关键词检测以确定是否唤醒语音处理装置。若检测到所述实时环境声音信号包含所述指定关键词,则通过语音识别模型对所述实时环境声音信号进行识别,获得用户口语指令,以快速唤醒设备,同时对音频缓冲器中的实时环境声音信号进行处理,获得用户口语指令。将所述用户口语指令转化为机器逻辑指令,以将用户口语指令转化为机器可识别的指令。将所述机器逻辑指令发送到执行设备,以使执行设备执行所述机器逻辑指令,以完成用户口语指令所要求完成的操作。
可选的,如图3所示,所述通过音频缓冲器缓存实时环境声音信号,包括:
S101、采集环境声音,生成所述实时环境声音信号;
S102、在所述音频缓冲器以循环缓冲的方式存储所述实时环境声音信号。
本实施例中,可以使用采集模块采集环境声音。声音采集模块可以是诸如麦克风或麦克风阵列之类的音频捕抓设备。声音采集模块可以录制其所在环境内的声音(可以包括用户的语音),并将环境内的声音转化为实时环境声音信号。
音频缓冲器可以配置为存储由声音采集模块提供的实时环境声音信号。实时环境声音信号可以包括用户讲话时的用户语音片段(或从这些用户语音片段中提取的音频特征)。
具体的,音频缓冲器可以是循环缓冲器或环形缓冲器。音频缓冲器以循环缓冲的方式存储实时环境声音信号,即,时间最久的实时环境声音信号被更新的实时环境声音信号所覆盖。
步骤S101-S102中,采集环境声音,生成所述实时环境声音信号,以获得声音信号的初始数据。在所述音频缓冲器以循环缓冲的方式存储所述实时环境声音信号,以将实时采集到的声音信号缓存于音频缓存器中。
可选的,如图4所示,所述检测所述实时环境声音信号是否包含指定关键词之前,还包括:
S21、获取用户输入的关键词设置信息;
S22、判断所述关键词设置信息是否符合预设规范;
S23、若所述关键词设置信息符合所述预设规范,则确定所述关键词设置信息为所述指定关键词。
本实施例中,可以提供多种形式获取用户输入的关键词设置信息,可以是语音输入,也可以是文本输入。关键词设置信息指的是用户输入的用于设置指定关键词的信息。例如,用户打算使用“你好电脑”作为指定关键词,则可以通过语音输入的方式录入关键词设置信息(如,在关键词设置程序中,说出“你好电脑”,由声音采集模块采集到该关键词设置信息),也可以通过输入“你好电脑”文本的方式录入关键词设置信息(如,使用与语音处理装置连接智能手机,智能手机上安装有控制语音处理装置的应用程序,用户可以在该应用程序上输入“你好电脑”的关键词设置信息)。
预设规范用于确定关键词设置信息是否适于作为语音处理装置的指定关键词。例如,而预设规范可以定义一些非法字符,如非法字符可以是标点符号,当关键词设置信息包括标点符号,则该关键词设置信息不符合预设规范。
预设规范还可以规定一些非法、或不文明词句不能作为指定关键词。例如,若关键词设置信息中包含“fuck”、“法西斯”等词语时,该关键词设置信息也是不符合预设规范。
在另一些情况下,如关键词设置信息以语音方式进行输入,当用户发出的语音无法被正常识别(如用户发出模仿动物的叫声),也可以判断用户输入的关键词设置信息不符合预设规范。
当关键词设置信息不符合预设规范时,可以提醒用户当前输入的关键词信息不可用,需要重新输入关键词设置信息。
若关键词设置信息符合预设规范,则确定所述关键词设置信息为所述指定关键词。
步骤S21-S23中,获取用户输入的关键词设置信息,以获得用于唤醒设备的关键词。判断所述关键词设置信息是否符合预设规范,以确保关键词设置信息中设置的关键词可用或适用。若所述关键词设置信息符合所述预设规范,则确定所述关键词设置信息为所述指定关键词,以完成关键词的设置。
可选的,如图5所示,所述若检测到所述实时环境声音信号包含关键词的语音,则对所述实时环境声音信号进行识别,获得用户口语指令,包括:
S301、当检测到所述实时环境声音信号包含关键词的语音时,生成唤醒指令;
S302、根据所述唤醒指令监测所述实时环境声音信号中的用户语句终点;
S303、若监测到所述实时环境声音信号中的用户语句终点,则对所述用户语句终点前的所述实时环境声音信号进行识别,并将所述用户语句终点前的所述实时环境声音信号转化为所述用户口语指令。
本实施例中,可以设置触发器来响应关键词的检测结果。例如,当语音唤醒处理模块检测到实时环境声音信号包含关键词的语音,则可以基于语音唤醒处理模块内嵌的或与连接语音唤醒处理模块连接的触发器产生唤醒信号(也即唤醒指令),并将该唤醒信号发送至语音识别模块。当接收唤醒信号,语音识别模块可以从低功率空闲状态转换为高功率识别状态。此时,语音唤醒处理模块处于空置状态。
处于高功率识别状态时,语音识别模块可以监测实时环境声音信号中的用户语句终点,来确定需要处理的实时环境声音信号。可以基于预设时长范围和实时环境声音信号的能量变化来确定用户语句终点。如可以定义预设时长范围为3-10秒,能量阈值为当前环境的背景噪音平均值,当检测到的实时环境声音信号低于能量阈值,则认为用户发言完毕(也可以是停顿),即监测到实时环境声音信号中的用户语句终点(此处的用户语句终点也可能不是实际的用户语音的终点)。
在一些实施例中,需要处理的实时环境声音信号可以包括音频缓冲器缓冲的初始段(即包括指定关键词的实时环境声音信号)和实时环境声音信号之后的一个或多个附加接收段的音频信号。其中,附加接收段包括来自用户的进一步语音。在另一些实施例中,指定关键词可以同时被语音唤醒处理模块和语音识别模块所识别。
语音识别模块还可以设置停止进行语音识别的终点。例如,在指定时长的时间内未检测到语音活动,则语音识别模块从高功率识别状态转换到低功率空闲状态。
步骤S301-S303中,当检测到所述实时环境声音信号包含关键词的语音时,生成唤醒指令,以及时响应用户的口语指令。根据所述唤醒指令监测所述实时环境声音信号中的用户语句终点,以确保获取到的用户口语指令是完整的。若监测到所述实时环境声音信号中的用户语句终点,则对所述用户语句终点前的所述实时环境声音信号进行识别,并将所述用户语句终点前的所述实时环境声音信号转化为所述用户口语指令,以获得需要进行处理的用户口语指令。
可选的,如图6所示,所述通过音频缓冲器缓存实时环境声音信号之前,包括:
S11、检测当前环境中的所有声音信号,并判断在所有声音信号中是否存在符合预设声源要求的目标声源;
S12、在存在符合预设声源要求的目标声源时,为所述目标声源添加识别标识;
S13、通过声源定位运算对所述目标声源进行定位,获取所述目标声源的声源位置,所述声源位置与所述识别标识关联。
在本实施例中,在音频缓冲器缓存实时环境声音信号之前,可以先对获取到的环境中的所有声音信号进行检测,判断各个声音信号是否符合预设声源要求。在此处,可以对获取到的环境中的所有声音信号进行分离,获得多个独立的声音信号。如,可以使用ManyEars技术对声音信号进行分离。
具体的,符合预设声源要求的目标声源,是指在预设音量大小范围中的持续时长大于预设时长的声音信号。其中,预设音量大小范围可以根据需求进行设定,可以设定该音量大小范围的最小值和最大值。超出所述音量大小范围的最大值的即视为噪音,此时将其排除在目标声源的范围之外。小于所述音量大小的最小值的,可以视为其不是该当前环境中所需要进行追踪的追踪对象所发出的目标声源。可理解地,预设音量大小范围以及预设时长可以根据当前环境的不同进行设定。
进一步地,在不存在符合预设声源要求的目标声源时,此时继续获取当前环境中的声音信号进行检测。
在确定存在符合预设声源要求的目标声源时,可以为该目标声源添加识别标识。在声音信号中存在多个符合预设声源要求的目标声源时,可以为各个目标声源添加不同的识别标识,如,可以标记为第一目标声源、第二目标声源等。
作为优选,可以由通过ManyEars技术中的声源定位运算对属于目标声源的声音信息进行定位,确定目标声源的具体的实时位置。在此处,声音的采集设备可以是麦克风阵列,可以根据采集到的声音信号的时序上的微小差别计算出目标声源的声源位置。声源位置可以包括方向和距离。
步骤S11-S13中,检测当前环境中的所有声音信号,并判断在所有声音信号中是否存在符合预设声源要求的目标声源,以确定目标声源的存在。在存在符合预设声源要求的目标声源时,为所述目标声源添加识别标识,以区分可能存在的不同目标声源。通过声源定位运算对所述目标声源进行定位,获取所述目标声源的声源位置,所述声源位置与所述识别标识关联,以确定目标声源对应的位置(即声源位置)。
可选的,所述通过语音识别模型对所述实时环境声音信号进行识别,获得用户口语指令,包括:
S304、获取与所述声源位置匹配的调校参数;
S305、根据所述调校参数对所述实时环境声音信号进行处理,生成优化声音信号;
S306、使用所述语音识别模型对所述优化声音信号进行处理,获得所述用户口语指令。
本实施例中,为了提高对实时环境信号的识别率,可以根据计算出的声源位置对实时环境信号进行优化处理。在此处,调校参数包括但不限于音量增益、特定噪音特征参数、混响回音特征参数。调教参数因所在环境的不同而存在差异,同时,也受到声音信号采集设备的放置位置影响。在一些情况下,调教参数可以是根据在先采集的语音数据自主学习而获得(如,可使用无监督学习算法自行对已采集的语音数据进行处理)。
在获得与声源位置匹配的调校参数后,可以使用该调校参数对实时环境声音信号进行优化处理,生成更利于语音识别模型识别的优化声音信号。
最后,由语音识别模型对优化声音信号进行处理,获得需要的用户口语指令。由于优化声音信号的质量更高,获得的用户口语指令也更为精确。在一些特定环境下,优化声音信号可以有效消除原有的实时环境信号中的环境杂音、混响信号,大大提高用户口语指令的识别正确率,减少用户重复发出口语指令的次数。
步骤S304-S306中,获取与所述声源位置匹配的调校参数,以进一步对实时环境信号进行优化处理。根据所述调校参数对所述实时环境声音信号进行处理,生成优化声音信号,以获得更适于语音识别模型处理的声音信号。使用所述语音识别模型对所述优化声音信号进行处理,获得所述用户口语指令,以识别出用户的口语指令。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种语音处理装置,该语音处理装置与上述实施例中语音处理方法一一对应。如图8所示,该语音处理装置包括缓存模块10、检测模块20、识别模块30、指令转化模块40和执行模块50。各功能模块详细说明如下:
缓存模块10,用于通过音频缓冲器缓存实时环境声音信号;
检测模块20,用于检测所述实时环境声音信号是否包含指定关键词;
识别模块30,用于若检测到所述实时环境声音信号包含所述指定关键词,则通过语音识别模型对所述实时环境声音信号进行识别,获得用户口语指令;
指令转化模块40,用于将所述用户口语指令转化为机器逻辑指令;
执行模块50,用于将所述机器逻辑指令发送到执行设备,以使执行设备执行所述机器逻辑指令。
可选的,如图9所示,缓存模块10包括:
采集单元101,用于采集环境声音,生成所述实时环境声音信号;
存储单元102,用于在所述音频缓冲器以循环缓冲的方式存储所述实时环境声音信号。
可选的,语音处理装置还包括设置模块,该设置模块包括:
获取设置信息单元,用于获取用户输入的关键词设置信息;
规范判断单元,用于判断所述关键词设置信息是否符合预设规范;
确定关键词单元,用于若所述关键词设置信息符合所述预设规范,则确定所述关键词设置信息为所述指定关键词。
可选的,识别模块30包括:
唤醒单元,用于当检测到所述实时环境声音信号包含关键词的语音时,生成唤醒指令;
语句终点检测单元,用于根据所述唤醒指令监测所述实时环境声音信号中的用户语句终点;
口语指令转化单元,用于若监测到所述实时环境声音信号中的用户语句终点,则对所述用户语句终点前的所述实时环境声音信号进行识别,并将所述用户语句终点前的所述实时环境声音信号转化为所述用户口语指令。
可选的,语音处理装置还包括定位模块,该定位模块包括:
目标声源判断单元,用于检测当前环境中的所有声音信号,并判断在所有声音信号中是否存在符合预设声源要求的目标声源;
添加标识单元,用于在存在符合预设声源要求的目标声源时,为所述目标声源添加识别标识;
确定声源位置单元,用于通过声源定位运算对所述目标声源进行定位,获取所述目标声源的声源位置,所述声源位置与所述识别标识关联。
可选的,识别模块30包括:
获取参数单元,用于获取与所述声源位置匹配的调校参数;
声音优化单元,用于根据所述调校参数对所述实时环境声音信号进行处理,生成优化声音信号;
语音识别单元,用于使用所述语音识别模型对所述优化声音信号进行处理,获得所述用户口语指令。
关于语音处理装置的具体限定可以参见上文中对于语音处理方法的限定,在此不再赘述。上述语音处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述语音处理方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音处理方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
通过音频缓冲器缓存实时环境声音信号;
检测所述实时环境声音信号是否包含指定关键词;
若检测到所述实时环境声音信号包含所述指定关键词,则通过语音识别模型对所述实时环境声音信号进行识别,获得用户口语指令;
将所述用户口语指令转化为机器逻辑指令;
将所述机器逻辑指令发送到执行设备,以使执行设备执行所述机器逻辑指令。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
通过音频缓冲器缓存实时环境声音信号;
检测所述实时环境声音信号是否包含指定关键词;
若检测到所述实时环境声音信号包含所述指定关键词,则通过语音识别模型对所述实时环境声音信号进行识别,获得用户口语指令;
将所述用户口语指令转化为机器逻辑指令;
将所述机器逻辑指令发送到执行设备,以使执行设备执行所述机器逻辑指令。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音处理方法,其特征在于,包括:
通过音频缓冲器缓存实时环境声音信号;
检测所述实时环境声音信号是否包含指定关键词;
若检测到所述实时环境声音信号包含所述指定关键词,则通过语音识别模型对所述实时环境声音信号进行识别,获得用户口语指令;
将所述用户口语指令转化为机器逻辑指令;
将所述机器逻辑指令发送到执行设备,以使执行设备执行所述机器逻辑指令。
2.如权利要求1所述的语音处理方法,其特征在于,所述通过音频缓冲器缓存实时环境声音信号,包括:
采集环境声音,生成所述实时环境声音信号;
在所述音频缓冲器以循环缓冲的方式存储所述实时环境声音信号。
3.如权利要求1所述的语音处理方法,其特征在于,所述检测所述实时环境声音信号是否包含指定关键词之前,还包括:
获取用户输入的关键词设置信息;
判断所述关键词设置信息是否符合预设规范;
若所述关键词设置信息符合所述预设规范,则确定所述关键词设置信息为所述指定关键词。
4.如权利要求1所述的语音处理方法,其特征在于,所述若检测到所述实时环境声音信号包含关键词的语音,则对所述实时环境声音信号进行识别,获得用户口语指令,包括:
当检测到所述实时环境声音信号包含关键词的语音时,生成唤醒指令;
根据所述唤醒指令监测所述实时环境声音信号中的用户语句终点;
若监测到所述实时环境声音信号中的用户语句终点,则对所述用户语句终点前的所述实时环境声音信号进行识别,并将所述用户语句终点前的所述实时环境声音信号转化为所述用户口语指令。
5.如权利要求1所述的语音处理方法,其特征在于,所述通过音频缓冲器缓存实时环境声音信号之前,包括:
检测当前环境中的所有声音信号,并判断在所有声音信号中是否存在符合预设声源要求的目标声源;
在存在符合预设声源要求的目标声源时,为所述目标声源添加识别标识;
通过声源定位运算对所述目标声源进行定位,获取所述目标声源的声源位置,所述声源位置与所述识别标识关联。
6.如权利要求5所述的语音处理方法,其特征在于,所述通过语音识别模型对所述实时环境声音信号进行识别,获得用户口语指令,包括:
获取与所述声源位置匹配的调校参数;
根据所述调校参数对所述实时环境声音信号进行处理,生成优化声音信号;
使用所述语音识别模型对所述优化声音信号进行处理,获得所述用户口语指令。
7.一种语音处理装置,其特征在于,包括:
缓存模块,用于通过音频缓冲器缓存实时环境声音信号;
检测模块,用于检测所述实时环境声音信号是否包含指定关键词;
识别模块,用于若检测到所述实时环境声音信号包含所述指定关键词,则通过语音识别模型对所述实时环境声音信号进行识别,获得用户口语指令;
指令转化模块,用于将所述用户口语指令转化为机器逻辑指令;
执行模块,用于将所述机器逻辑指令发送到执行设备,以使执行设备执行所述机器逻辑指令。
8.如权利要求7所述的语音处理装置,其特征在于,所述缓存模块包括:
采集单元,用于采集环境声音,生成所述实时环境声音信号;
存储单元,用于在所述音频缓冲器以循环缓冲的方式存储所述实时环境声音信号。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述语音处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音处理方法。
CN201910390372.2A 2019-05-10 2019-05-10 语音处理方法、装置、计算机设备及存储介质 Pending CN110232916A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910390372.2A CN110232916A (zh) 2019-05-10 2019-05-10 语音处理方法、装置、计算机设备及存储介质
PCT/CN2019/116513 WO2020228270A1 (zh) 2019-05-10 2019-11-08 语音处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910390372.2A CN110232916A (zh) 2019-05-10 2019-05-10 语音处理方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN110232916A true CN110232916A (zh) 2019-09-13

Family

ID=67860467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910390372.2A Pending CN110232916A (zh) 2019-05-10 2019-05-10 语音处理方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN110232916A (zh)
WO (1) WO2020228270A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110970028A (zh) * 2019-12-26 2020-04-07 杭州中科先进技术研究院有限公司 一种规范语音识别设备的语音识别指令与操作指令的方法
CN111208736A (zh) * 2019-12-17 2020-05-29 中移(杭州)信息技术有限公司 智能音箱控制方法、装置、电子设备及存储介质
CN111681655A (zh) * 2020-05-21 2020-09-18 北京声智科技有限公司 语音控制方法、装置、电子设备及存储介质
CN111739515A (zh) * 2019-09-18 2020-10-02 北京京东尚科信息技术有限公司 语音识别方法、设备、电子设备和服务器、相关系统
WO2020228270A1 (zh) * 2019-05-10 2020-11-19 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质
CN112153397A (zh) * 2020-09-16 2020-12-29 北京达佳互联信息技术有限公司 视频处理方法、装置、服务器及存储介质
CN112201246A (zh) * 2020-11-19 2021-01-08 深圳市欧瑞博科技股份有限公司 基于语音的智能控制方法、装置、电子设备及存储介质
CN112420044A (zh) * 2020-12-03 2021-02-26 深圳市欧瑞博科技股份有限公司 语音识别方法、语音识别装置及电子设备
CN112416776A (zh) * 2020-11-24 2021-02-26 天津五八到家货运服务有限公司 运行环境的选择方法、装置、测试设备及存储介质
CN112435670A (zh) * 2020-11-11 2021-03-02 青岛歌尔智能传感器有限公司 语音识别方法、语音识别设备和计算机可读存储介质
CN112765335A (zh) * 2021-01-27 2021-05-07 上海三菱电梯有限公司 语音呼梯系统
WO2022121184A1 (zh) * 2020-12-11 2022-06-16 平安科技(深圳)有限公司 声音事件检测与定位方法、装置、设备及可读存储介质
WO2023283965A1 (zh) * 2021-07-16 2023-01-19 华为技术有限公司 用于语音代听和生成语音识别模型的方法、装置、电子设备和介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012169783A (ja) * 2011-02-10 2012-09-06 Canon Inc 音声処理装置及び方法
CN104538030A (zh) * 2014-12-11 2015-04-22 科大讯飞股份有限公司 一种可以通过语音控制家电的控制系统与方法
US20160203828A1 (en) * 2015-01-14 2016-07-14 Honda Motor Co., Ltd. Speech processing device, speech processing method, and speech processing system
US20180033436A1 (en) * 2015-04-10 2018-02-01 Huawei Technologies Co., Ltd. Speech recognition method, speech wakeup apparatus, speech recognition apparatus, and terminal
CN107705785A (zh) * 2017-08-01 2018-02-16 百度在线网络技术(北京)有限公司 智能音箱的声源定位方法、智能音箱及计算机可读介质
CN107808670A (zh) * 2017-10-25 2018-03-16 百度在线网络技术(北京)有限公司 语音数据处理方法、装置、设备及存储介质
CN108682414A (zh) * 2018-04-20 2018-10-19 深圳小祺智能科技有限公司 语音控制方法、语音系统、设备和存储介质
CN108962262A (zh) * 2018-08-14 2018-12-07 苏州思必驰信息科技有限公司 语音数据处理方法和装置
CN109147779A (zh) * 2018-08-14 2019-01-04 苏州思必驰信息科技有限公司 语音数据处理方法和装置
US20190141445A1 (en) * 2017-11-08 2019-05-09 Alibaba Group Holding Limited Sound Processing Method and Interactive Device

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103943105A (zh) * 2014-04-18 2014-07-23 安徽科大讯飞信息科技股份有限公司 一种语音交互方法及系统
CN105654943A (zh) * 2015-10-26 2016-06-08 乐视致新电子科技(天津)有限公司 一种语音唤醒方法、装置及系统
CN108831483A (zh) * 2018-09-07 2018-11-16 马鞍山问鼎网络科技有限公司 一种人工智能语音识别系统
CN109584896A (zh) * 2018-11-01 2019-04-05 苏州奇梦者网络科技有限公司 一种语音芯片及电子设备
CN110232916A (zh) * 2019-05-10 2019-09-13 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012169783A (ja) * 2011-02-10 2012-09-06 Canon Inc 音声処理装置及び方法
CN104538030A (zh) * 2014-12-11 2015-04-22 科大讯飞股份有限公司 一种可以通过语音控制家电的控制系统与方法
US20160203828A1 (en) * 2015-01-14 2016-07-14 Honda Motor Co., Ltd. Speech processing device, speech processing method, and speech processing system
US20180033436A1 (en) * 2015-04-10 2018-02-01 Huawei Technologies Co., Ltd. Speech recognition method, speech wakeup apparatus, speech recognition apparatus, and terminal
CN107705785A (zh) * 2017-08-01 2018-02-16 百度在线网络技术(北京)有限公司 智能音箱的声源定位方法、智能音箱及计算机可读介质
CN107808670A (zh) * 2017-10-25 2018-03-16 百度在线网络技术(北京)有限公司 语音数据处理方法、装置、设备及存储介质
US20190141445A1 (en) * 2017-11-08 2019-05-09 Alibaba Group Holding Limited Sound Processing Method and Interactive Device
CN108682414A (zh) * 2018-04-20 2018-10-19 深圳小祺智能科技有限公司 语音控制方法、语音系统、设备和存储介质
CN108962262A (zh) * 2018-08-14 2018-12-07 苏州思必驰信息科技有限公司 语音数据处理方法和装置
CN109147779A (zh) * 2018-08-14 2019-01-04 苏州思必驰信息科技有限公司 语音数据处理方法和装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020228270A1 (zh) * 2019-05-10 2020-11-19 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质
CN111739515A (zh) * 2019-09-18 2020-10-02 北京京东尚科信息技术有限公司 语音识别方法、设备、电子设备和服务器、相关系统
CN111739515B (zh) * 2019-09-18 2023-08-04 北京京东尚科信息技术有限公司 语音识别方法、设备、电子设备和服务器、相关系统
CN111208736A (zh) * 2019-12-17 2020-05-29 中移(杭州)信息技术有限公司 智能音箱控制方法、装置、电子设备及存储介质
CN111208736B (zh) * 2019-12-17 2023-10-27 中移(杭州)信息技术有限公司 智能音箱控制方法、装置、电子设备及存储介质
CN110970028A (zh) * 2019-12-26 2020-04-07 杭州中科先进技术研究院有限公司 一种规范语音识别设备的语音识别指令与操作指令的方法
CN111681655A (zh) * 2020-05-21 2020-09-18 北京声智科技有限公司 语音控制方法、装置、电子设备及存储介质
CN112153397B (zh) * 2020-09-16 2023-03-14 北京达佳互联信息技术有限公司 视频处理方法、装置、服务器及存储介质
CN112153397A (zh) * 2020-09-16 2020-12-29 北京达佳互联信息技术有限公司 视频处理方法、装置、服务器及存储介质
CN112435670A (zh) * 2020-11-11 2021-03-02 青岛歌尔智能传感器有限公司 语音识别方法、语音识别设备和计算机可读存储介质
CN112201246A (zh) * 2020-11-19 2021-01-08 深圳市欧瑞博科技股份有限公司 基于语音的智能控制方法、装置、电子设备及存储介质
CN112201246B (zh) * 2020-11-19 2023-11-28 深圳市欧瑞博科技股份有限公司 基于语音的智能控制方法、装置、电子设备及存储介质
CN112416776A (zh) * 2020-11-24 2021-02-26 天津五八到家货运服务有限公司 运行环境的选择方法、装置、测试设备及存储介质
CN112420044A (zh) * 2020-12-03 2021-02-26 深圳市欧瑞博科技股份有限公司 语音识别方法、语音识别装置及电子设备
WO2022121184A1 (zh) * 2020-12-11 2022-06-16 平安科技(深圳)有限公司 声音事件检测与定位方法、装置、设备及可读存储介质
CN112765335A (zh) * 2021-01-27 2021-05-07 上海三菱电梯有限公司 语音呼梯系统
CN112765335B (zh) * 2021-01-27 2024-03-08 上海三菱电梯有限公司 语音呼梯系统
WO2023283965A1 (zh) * 2021-07-16 2023-01-19 华为技术有限公司 用于语音代听和生成语音识别模型的方法、装置、电子设备和介质

Also Published As

Publication number Publication date
WO2020228270A1 (zh) 2020-11-19

Similar Documents

Publication Publication Date Title
CN110232916A (zh) 语音处理方法、装置、计算机设备及存储介质
CN108520743B (zh) 智能设备的语音控制方法、智能设备及计算机可读介质
US11887582B2 (en) Training and testing utterance-based frameworks
WO2021093449A1 (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
EP3923273B1 (en) Voice recognition method and device, storage medium, and air conditioner
WO2021051544A1 (zh) 语音识别方法及其装置
CN102568478B (zh) 一种基于语音识别的视频播放控制方法和系统
EP2959474B1 (en) Hybrid performance scaling for speech recognition
WO2020119448A1 (zh) 语音信息验证
EP3933831B1 (en) Control method and control apparatus for speech interaction, electronic device, storage medium, and system
CN107767863A (zh) 语音唤醒方法、系统及智能终端
CN110534099A (zh) 语音唤醒处理方法、装置、存储介质及电子设备
CN112825248B (zh) 语音处理方法、模型训练方法、界面显示方法及设备
WO2020024620A1 (zh) 语音信息的处理方法以及装置、设备和存储介质
WO2020233363A1 (zh) 语音识别的方法、装置、电子设备和存储介质
CN110223687B (zh) 指令执行方法、装置、存储介质及电子设备
CN110706707B (zh) 用于语音交互的方法、装置、设备和计算机可读存储介质
CN113129867B (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
CN110544468B (zh) 应用唤醒方法、装置、存储介质及电子设备
WO2020125038A1 (zh) 语音控制方法及装置
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
CN110853669A (zh) 音频识别方法、装置及设备
CN109065026B (zh) 一种录音控制方法及装置
CN112037772B (zh) 基于多模态的响应义务检测方法、系统及装置
WO2020073839A1 (zh) 语音唤醒方法、装置、系统及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190913

RJ01 Rejection of invention patent application after publication