CN114400001A - 作业机械语音交互方法、系统及作业机械 - Google Patents

作业机械语音交互方法、系统及作业机械 Download PDF

Info

Publication number
CN114400001A
CN114400001A CN202111564549.XA CN202111564549A CN114400001A CN 114400001 A CN114400001 A CN 114400001A CN 202111564549 A CN202111564549 A CN 202111564549A CN 114400001 A CN114400001 A CN 114400001A
Authority
CN
China
Prior art keywords
voice
signal
noise reduction
target
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111564549.XA
Other languages
English (en)
Inventor
刘勇
郭长城
马曼曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Huaxing Digital Technology Co Ltd
Original Assignee
Shanghai Huaxing Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Huaxing Digital Technology Co Ltd filed Critical Shanghai Huaxing Digital Technology Co Ltd
Priority to CN202111564549.XA priority Critical patent/CN114400001A/zh
Publication of CN114400001A publication Critical patent/CN114400001A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • EFIXED CONSTRUCTIONS
    • E02HYDRAULIC ENGINEERING; FOUNDATIONS; SOIL SHIFTING
    • E02FDREDGING; SOIL-SHIFTING
    • E02F9/00Component parts of dredgers or soil-shifting machines, not restricted to one of the kinds covered by groups E02F3/00 - E02F7/00
    • E02F9/20Drives; Control devices
    • E02F9/2058Electric or electro-mechanical or mechanical control devices of vehicle sub-units
    • E02F9/2062Control of propulsion units
    • EFIXED CONSTRUCTIONS
    • E02HYDRAULIC ENGINEERING; FOUNDATIONS; SOIL SHIFTING
    • E02FDREDGING; SOIL-SHIFTING
    • E02F9/00Component parts of dredgers or soil-shifting machines, not restricted to one of the kinds covered by groups E02F3/00 - E02F7/00
    • E02F9/20Drives; Control devices
    • E02F9/2058Electric or electro-mechanical or mechanical control devices of vehicle sub-units
    • E02F9/2095Control of electric, electro-mechanical or mechanical equipment not otherwise provided for, e.g. ventilators, electro-driven fans
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mining & Mineral Resources (AREA)
  • Civil Engineering (AREA)
  • General Engineering & Computer Science (AREA)
  • Structural Engineering (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明提供一种作业机械语音交互方法、系统及作业机械,该方法包括:获取作业机械驾驶室内的目标语音信号;基于作业环境噪声样本数据对目标语音信号进行降噪处理,确定降噪音频信号;基于降噪音频信号进行语音识别,确定语音识别结果;基于语音识别结果,控制作业机械的目标执行装置。本发明提供的作业机械语音交互方法、系统及作业机械,基于作业机械在真实作业环境下作业时采集的作业环境噪声样本数据对目标语音信号进行降噪,能够提高语音识别精确度,以准确控制目标执行装置,使得作业机械操作手能够通过语音直接控制目标执行装置,降低长时间手动操作带来的疲劳感,丰富人机交互形式。

Description

作业机械语音交互方法、系统及作业机械
技术领域
本发明涉及作业机械技术领域,尤其涉及一种作业机械语音交互方法、系统及作业机械。
背景技术
以挖掘机、起重机和泵送设备为例的作业机械,往往在恶劣嘈杂的环境下作业,且作业机械往往有较多的待控制元器件,需要驾驶员能够兼顾各种待控制元器件的控制操作。
目前在工程机械领域的挖掘机设备,依旧采用常规按钮方式或触摸屏按钮方式控制大灯、空调与发动机转速调整,这样的操控方式使得用户需要长时间用手操作待控制元器件,容易出现疲劳,人机交互方式比较机械单一,交互程度较低。
发明内容
本发明提供一种作业机械语音交互方法、系统及作业机械,用以解决现有技术中使得用户需要长时间用手操作待控制元器件,容易出现疲劳,人机交互方式比较机械单一,交互程度较低的缺陷,实现用户通过语音直接控制目标执行装置,能够降低长时间用手操作带来的疲劳感,能够丰富人机交互的形式,提高交互程度。
本发明提供一种作业机械语音交互方法,包括:
获取作业机械驾驶室内的目标语音信号;
基于作业环境噪声样本数据对所述目标语音信号进行降噪处理,确定降噪音频信号,所述作业环境噪声样本数据为作业机械在真实作业环境下作业时获取的;
基于所述降噪音频信号进行语音识别,确定语音识别结果;
基于所述语音识别结果,控制作业机械的目标执行装置。
根据本发明提供的一种作业机械语音交互方法,所述获取作业机械驾驶室内的目标语音信号,包括:
获取原始声源信号;
基于预存的唤醒词库对所述原始声源信号进行检测,在所述原始声源信号与所述唤醒词库匹配的情况下,从所述原始声源信号中确定目标语音信号。
根据本发明提供的一种作业机械语音交互方法,所述基于所述降噪音频信号进行语音识别,确定语音识别结果,包括:
将所述降噪音频信号与预设指令库进行匹配,确定控制指令。
根据本发明提供的一种作业机械语音交互方法,在所述将所述降噪音频信号与预设指令库进行匹配,确定控制指令之后,还包括:
基于所述控制指令,输出询问请求;
在接收到用户基于所述询问请求输入的确认指令后,基于所述控制指令控制所述作业机械的目标执行装置。
根据本发明提供的一种作业机械语音交互方法,所述基于作业环境噪声样本数据对所述目标语音信号进行降噪处理,确定降噪音频信号,包括:
将所述目标语音信号输入到降噪处理模型中,得到所述降噪处理模型输出的所述降噪音频信号;其中,所述降噪处理模型为以语音样本信号为样本,以与所述语音样本信号对应的作业环境噪声样本数据为样本标签进行训练得到的,所述语音样本信号为从作业机械在多种作业工况下采集到的语音数据。
根据本发明提供的一种作业机械语音交互方法,所述基于所述降噪音频信号进行语音识别,确定语音识别结果,包括:
将所述降噪音频信号输入到语音识别模型中,得到所述语音识别模型输出的所述语音识别结果;其中,所述语音识别模型为以音频样本信号为样本,以与所述音频样本信号对应的语音识别结果样本数据为样本标签进行训练得到的,所述音频样本信号包括中文方言语种或者多国语种的音频数据。
根据本发明提供的一种作业机械语音交互方法,所述获取作业机械驾驶室内的目标语音信号,包括:
从所述作业机械驾驶室内的目标拾音位置采集所述目标语音信号,所述目标拾音位置为基于声音传递函数和/或语音清晰程度参数确定。
本发明还提供一种作业机械语音交互系统,该作业机械语音交互系统,包括:
获取模块,用于获取作业机械驾驶室内的目标语音信号;
第一确定模块,用于基于作业环境噪声样本数据对所述目标语音信号进行降噪处理,确定降噪音频信号,所述作业环境噪声样本数据为作业机械在真实作业环境下作业时获取的;
第二确定模块,用于基于所述降噪音频信号进行语音识别,确定语音识别结果;
控制模块,用于基于所述语音识别结果,控制作业机械的目标执行装置。
本发明还提供一种作业机械,该作业机械包括:
语音采集装置、目标执行装置、以及如上述描述的作业机械语音交互系统;所述作业机械语音交互系统基于所述语音采集装置所采集的目标语音信号来控制所述目标执行装置。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上述任一种所述作业机械语音交互方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述作业机械语音交互方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述作业机械语音交互方法的步骤。
本发明提供的作业机械语音交互方法、系统及作业机械,基于作业机械在真实作业环境下作业时采集的作业环境噪声样本数据对目标语音信号进行降噪,能够提高语音识别精确度,以准确控制目标执行装置,使得作业机械操作手能够通过语音直接控制目标执行装置,降低长时间手动操作带来的疲劳感,丰富人机交互形式。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的作业机械语音交互方法的流程示意图;
图2是本发明提供的作业机械语音交互系统的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1至图3描述本发明的作业机械语音交互方法、系统及作业机械。
该作业机械语音交互方法可以应用在作业机械的车载控制器中,车载控制器可以安装在作业机械的驾驶室。
如图1所示,本发明提供一种作业机械语音交互方法,该作业机械语音交互方法包括如下步骤110至步骤140。
步骤110、获取作业机械驾驶室内的目标语音信号。
可以理解的是,作业机械的驾驶室内可以安装有语音采集装置,语音采集装置可以为全向麦克风或者定向麦克风,驾驶员可以坐在驾驶室中朝着语音采集装置讲话,语音采集装置就能够采集到驾驶员的声音信号,目标语音信号可以是该声音信号,也可以是从声音信号中筛选出来的有效语音,该有效语音是该声音信号在触发一定的筛选条件之后确定的。
在一些实施例中,上述步骤110、获取作业机械驾驶室内的目标语音信号,包括:从作业机械驾驶室内的目标拾音位置采集目标语音信号,目标拾音位置为基于声音传递函数和语音清晰程度参数确定。
可以理解的是,在采集目标语音信号之前,可以结合驾驶室特点,通过声学专业分析设备,在驾驶室布控声学专业分析设备作为麦克风采样点,检测出目标拾音位置,目标拾音位置是麦克风的最佳拾音位置。具体地,可以利用体积声源在驾驶员嘴巴位置发声,测试声源位置至各麦克风位置的声音传递函数,可以结合语音清晰程度参数来综合分析得到测试数据结果;语音清晰程度参数可以用于衡量在驾驶室背景噪声下说话的清晰程度,越清晰越好。根据测试数据分析结果,选取麦克风最佳拾音点,设计驾驶室安装位置并部署定制化的麦克风,利用定制化的麦克风来获取作业机械驾驶室内的目标语音信号。
步骤120、基于作业环境噪声样本数据对目标语音信号进行降噪处理,确定降噪音频信号,作业环境噪声样本数据为作业机械在真实作业环境下作业时获取的。
可以理解的是,目标语音信号是驾驶室的麦克风采集到的,由于作业机械的作业环境往往比较嘈杂,目标语音信号中可能包含有大量的噪声,此处可以对目标语音信号进行降噪处理,消除目标语音信号中的噪声,得到降噪音频信号,降噪音频信号中的人声音频被突出,环境噪声被弱化。
可以在声学实验室中开展一整套工程机械驾驶室内的显示屏产品的麦克风与喇叭声学分析,验证产品中麦克风信噪比、幅度一致性、频响、音频通道噪声和干扰等,可以针对产品分析数据,优化降噪算法,利用优化后的降噪算法来对目标语音信号进行降噪处理,得到降噪音频信号。
此处可以采集大量的作业环境噪声样本数据,作业环境噪声样本数据是作业机械在真实作业环境下作业时获取的,比如可以是挖掘机在挖掘施工现场所采集到的作业环境的噪声,还比如可以是起重机在起吊作业场景下采集到的作业环境的噪声。
可以从目标语音信号中剔除与作业环境噪声样本数据所对应的声纹特征,还可以利用作业环境噪声样本数据来训练神经网络,得到降噪处理模型,利用降噪处理模型来对目标语音信号进行降噪。
此处不对具体的降噪算法进行限定,本领域技术人员可以选择合适的方法来实现对目标语音信号的降噪,得到降噪音频信号。
通过利用作业环境噪声样本数据对目标语音信号进行降噪,相比于普通的语音识别过程来说,更加适合作业机械这种复杂的作业场景,能够更适应作业机械,便于在作业机械上开展语音识别。
步骤130、基于降噪音频信号进行语音识别,确定语音识别结果。
可以理解的是,可以对降噪音频信号进行语音识别,识别出降噪音频信号中传递的控制信息,从而确定语音识别结果,语音识别结果可以文本的形式呈现,也可以控制指令的形式呈现,还可以语音的形式呈现,此处不具体限定。
可以利用预设指令库来对降噪音频信号进行语音识别,,还可以利用神经网络模型来对降噪音频信号进行识别,得到语音识别结果,语音识别结果可以用于控制作业机械的目标执行装置,此处不限定语音识别的具体方法,本领域技术人员可以选择可行的语音识别方法来实现。
在一些实施例中,基于降噪音频信号进行语音识别,确定语音识别结果,包括:将降噪音频信号与预设指令库进行匹配,确定控制指令。
可以理解的是,语音识别可以是和预设的语音指令库进行对比,判断降噪音频信号是否是语音指令库中的预存的语音指令,从而得到语音识别结果,此处的语音识别结果可以为控制指令,控制指令可以用于控制目标执行装置。
步骤140、基于语音识别结果,控制作业机械的目标执行装置。
可以理解的是,车载控制器在得到语音识别结果后,可以根据语音识别结果来控制作业机械的目标执行装置,目标执行装置可以为作业机械上的各种执行元件,比如当作业机械为挖掘机时,目标执行装置可以为臂架、铲斗、探照灯、空调、风扇、显示屏或者扬声器,比如当语音识别结果为“将空调温度调到25度”,此时车载控制器可以控制驾驶室内的空调,将工作温度调节到25度;还比如当语音识别结果为“鸣笛提醒前方车辆”,此时车载控制器可以控制驾驶室前的扬声器鸣笛,以提醒前方车辆。
当然,也可以直接将语音识别结果以文本的形式在显示屏上进行显示,还可以将语音识别结果通过通信装置发送给与作业机械通信连接的其他终端设备。
本发明提供的作业机械语音交互方法,通过对目标语音信号进行降噪处理,得到降噪音频信号,对降噪音频信号进行语音识别,得到语音识别结果,根据语音识别结果控制目标执行装置,这样可以使得用户通过语音直接控制目标执行装置,能够降低长时间用手操作带来的疲劳感,能够丰富人机交互的形式,提高交互程度。
在一些实施例中,上述步骤110、获取作业机械驾驶室内的目标语音信号,包括:获取原始声源信号;基于预存的唤醒词库对原始声源信号进行检测,在原始声源信号与唤醒词库匹配的情况下,从原始声源信号中确定目标语音信号。
可以理解的是,车载控制器中可以预存有唤醒词库,唤醒词库中可以具有多个唤醒词条,驾驶室内的麦克风可以持续采集原始声源信号,并将原始声源信号和唤醒词库进行比较,如果原始声源信号和唤醒词库相匹配,则认为出现了有效语音,则从与唤醒词库匹配的原始声源信号中提取出有效语音,将该有效语音作为目标语音信号。
也就是说,车载控制器并不是对实时采集到的所有原始声源信号都进行降噪处理和语音识别,而是先对原始声源信号进行筛选,只有在原始声源信号和唤醒词库相匹配的情况下,再对降噪处理和语音识别步骤进行唤醒,进而对目标语音信号进行降噪处理和语音识别,这样可以节省电能,降低能耗。
在一些实施例中,基于降噪音频信号进行语音识别,确定语音识别结果,包括:基于降噪音频信号进行语音识别,确定动作控制指令或者音频输出信息,动作控制指令用于控制目标执行装置的作业动作,音频输出信息用于供作业机械的扬声器向外播放。
可以理解的是,对降噪音频信号进行语音识别得到的语音识别结果可以是动作控制指令或者音频输出信息,动作控制指令可以是以计算机代码或者电路通断状态的形式呈现,能够直接控制目标执行装置的作业动作,比如可以直接控制臂架的升降,音频输出信息可以是扬声器能够播放的音频数据,比如扬声器可以直接播放出“请注意倒车”,当然,此处并不限制动作控制指令和音频输出信息的具体形式。
在一些实施例中,基于降噪音频信号进行语音识别,确定动作控制指令,包括:基于降噪音频信号进行语音识别,确定文本内容;基于文本内容,确定动作控制指令或者音频输出信息。
可以理解的是,可以先对降噪音频信号进行语音转文字处理,从降噪音频信号中提取出文本内容,再根据文本内容来确定对应的动作控制指令或者音频输出信息。
比如,可以先将降噪音频信号转化为文本内容“打开大灯”,再根据该文本内容查找到开启驾驶室前探照灯的动作控制指令;还比如可以将降噪音频信号转化为文本内容“请注意倒车”,再将“请注意倒车”转换为中文普通话的音频输出信息,通过扬声器播放出该音频输出信息。
在一些实施例中,在将降噪音频信号与预设指令库进行匹配,确定控制指令之后,还包括:基于控制指令,输出询问请求;在接收到用户基于询问请求输入的确认指令后,基于控制指令控制作业机械的目标执行装置。
可以理解的是,在对降噪音频信号进行语音识别,得到了控制指令之后,可以根据控制指令来输出询问请求,比如可以通过作业机械的显示屏或者扬声器来输出询问请求,或者向与作业机械通信连接的移动终端发送询问请求,用户在看到询问请求之后,可以对询问请求进行确认,也就是用户可以判断该控制指令是否和自己的控制意愿一致,如果用户确认无误,则可以输入确认指令,此时作业机械在接收到确认指令之后,可以根据控制指令来控制作业机械的目标执行装置。
此处添加了用户确认环节,能够进一步提高控制的准确性,能够给用户赋予决定权,提升用户的操作体验。
在一些实施例中,上述步骤120、基于作业环境噪声样本数据对目标语音信号进行降噪处理,确定降噪音频信号,作业环境噪声样本数据为作业机械在真实作业环境下作业时获取的。
包括:将目标语音信号输入到降噪处理模型中,得到降噪处理模型输出的降噪音频信号;其中,降噪处理模型为基于卷积神经网络构建而成的,降噪处理模型为以语音样本信号为样本,以与语音样本信号对应的作业环境噪声样本数据为样本标签进行训练得到的,语音样本信号为从作业机械在多种作业工况下采集到的语音数据。
可以理解的是,降噪处理模型可以为神经网络模型。比如,可以将目标语音信号输入到降噪处理模型中,输出降噪音频信号,降噪处理模型可以为卷积神经网络模型,降噪处理模型可以语音样本信号为样本,以与语音样本信号所对应的作业环境噪声样本数据为样本标签进行训练得到,比如可以通过有监督学习或者无监督学习的方式来训练降噪处理模型。
值得一提的是,语音样本信号可以为作业机械的真实作业场景下采集到的语音数据,语音样本信号的数量可以为海量,比如可以为作业机械在不同的作业工况下采集到的语音数据,这样训练出来的降噪处理模型就能够适应较多的作业场景,能够提升降噪处理模型的适应程度和准确度。
在一些实施例中,上述步骤130、基于降噪音频信号进行语音识别,确定语音识别结果,包括:将降噪音频信号输入到语音识别模型中,得到语音识别模型输出的语音识别结果;其中,语音识别模型为以音频样本信号为样本,以与音频样本信号对应的语音识别结果样本数据为样本标签进行训练得到的,音频样本信号包括中文方言语种或者多国语种的语音数据。语音识别模型的训练过程包括:获取第一预设语种数量的音频样本信号;将第一预设语种数量的音频样本信号依次输入语音识别模型,并利用第二预设语种数量的音频样本信号校验训练后的语音识别模型;若训练后的语音识别模型的识别准确率大于或等于预设阈值,则训练完成;若训练后的语音识别模型的识别准确率小于预设阈值,则发出提醒信息,提醒用户增加音频样本信号的语种数量重新训练语音识别模型。
可以理解的是,语音识别模型可以为神经网络模型。比如,可以将降噪音频信号输入到语音识别模型中,输出语音识别结果,语音识别模型可以为神经网络模型,比如卷积神经网络或者残差神经网络,语音识别模型可以音频样本信号为样本,以与音频样本信号所对应的语音识别结果样本数据为样本标签进行训练得到,比如可以通过有监督学习或者无监督学习的方式来训练语音识别模型。
值得一提的是,音频样本信号可以包括中文方言语种,比如可以由习惯讲A地区方言的驾驶员在真实的作业场景下朝着麦克风用方言讲话,形成音频样本信号,可以采用不同地区方言语种来形成音频样本信号,当然还可以用不同国家的语言来形成音频样本信号,这样音频样本信号就比较丰富,训练出来的语音识别模型就能够对中文方言语种和多国语种的语音数据进行识别,能够提高语音识别模型的识别准确率和效率。
音频样本信号分为两组,其中一组为第一预设语种数量的音频样本信号,另一组为第二预设语种数量的音频样本信号,可以利用第一预设语种数量的音频样本信号来训练语音识别模型,利用第二预设语种数量的音频样本信号来对训练后的语音识别模型进行校验,若校验通过后,则训练完成,若校验不通过,可以向用户发出提醒信息,提醒用户增加音频样本信号的语种数量,来重新训练语音识别模型,直到语音识别模型的识别准确率大于或等于预设阈值,通过这样的训练方法,可以极大提升语音识别模型的识别准确率。
下面对本发明提供的作业机械语音交互系统进行描述,下文描述的作业机械语音交互系统与上文描述的作业机械语音交互方法可相互对应参照。
如图2所示,本发明提供一种作业机械语音交互系统,该作业机械语音交互系统包括:获取模块210、第一确定模块220、第二确定模块230和控制模块240。
获取模块210,用于获取作业机械驾驶室内的目标语音信号。
第一确定模块220,基于作业环境噪声样本数据对目标语音信号进行降噪处理,确定降噪音频信号,作业环境噪声样本数据为作业机械在真实作业环境下作业时获取的。
第二确定模块230,用于基于降噪音频信号进行语音识别,确定语音识别结果。
控制模块240,用于基于语音识别结果,控制作业机械的目标执行装置。
在一些实施例中,获取模块210,还用于获取原始声源信号;基于预存的唤醒词库对所述原始声源信号进行检测,在所述原始声源信号与所述唤醒词库匹配的情况下,从所述原始声源信号中确定目标语音信号。
在一些实施例中,第二确定模块230,还用于将所述降噪音频信号与预设指令库进行匹配,确定控制指令。
在一些实施例中,第二确定模块230,还用于基于所述控制指令,输出询问请求;在接收到用户基于所述询问请求输入的确认指令后,基于所述控制指令控制所述作业机械的目标执行装置。
在一些实施例中,第一确定模块220,还用于将所述目标语音信号输入到降噪处理模型中,得到所述降噪处理模型输出的所述降噪音频信号;其中,所述降噪处理模型为基于卷积神经网络构建的,所述降噪处理模型为以语音样本信号为样本,以与所述语音样本信号对应的作业环境噪声样本数据为样本标签进行训练得到的,所述语音样本信号为从作业机械在多种作业工况下采集到的语音数据。
在一些实施例中,第二确定模块230,还用于将所述降噪音频信号输入到语音识别模型中,得到所述语音识别模型输出的所述语音识别结果;其中,所述语音识别模型为以音频样本信号为样本,以与所述音频样本信号对应的语音识别结果样本数据为样本标签进行训练得到的,所述音频样本信号包括中文方言语种或者多国语种的语音数据。
在一些实施例中,获取模块210,还用于从所述作业机械驾驶室内的目标拾音位置采集所述目标语音信号,所述目标拾音位置为基于声音传递函数和语音清晰程度参数确定。
本发明提供的作业机械语音交互系统,通过对目标语音信号进行降噪处理,得到降噪音频信号,对降噪音频信号进行语音识别,得到语音识别结果,根据语音识别结果控制目标执行装置,这样可以使得用户通过语音直接控制目标执行装置,能够降低长时间用手操作带来的疲劳感,能够丰富人机交互的形式,提高交互程度。
本发明还提供一种作业机械,该作业机械包括:语音采集装置、目标执行装置以及如上述实施例中的作业机械语音交互系统,所述作业机械语音交互系统基于所述语音采集装置所采集的目标语音信号来控制所述目标执行装置。
本发明提供的作业机械,通过对目标语音信号进行降噪处理,得到降噪音频信号,对降噪音频信号进行语音识别,得到语音识别结果,根据语音识别结果控制目标执行装置,这样可以使得用户通过语音直接控制目标执行装置,能够降低长时间用手操作带来的疲劳感,能够丰富人机交互的形式,提高交互程度。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行作业机械语音交互方法,该方法包括:获取作业机械驾驶室内的目标语音信号;基于作业环境噪声样本数据对目标语音信号进行降噪处理,确定降噪音频信号,作业环境噪声样本数据为作业机械在真实作业环境下作业时获取的;基于降噪音频信号进行语音识别,确定语音识别结果;基于语音识别结果,控制作业机械的目标执行装置。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的作业机械语音交互方法,该方法包括:获取作业机械驾驶室内的目标语音信号;基于作业环境噪声样本数据对目标语音信号进行降噪处理,确定降噪音频信号,作业环境噪声样本数据为作业机械在真实作业环境下作业时获取的;基于降噪音频信号进行语音识别,确定语音识别结果;基于语音识别结果,控制作业机械的目标执行装置。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的作业机械语音交互方法,该方法包括:获取作业机械驾驶室内的目标语音信号;基于作业环境噪声样本数据对目标语音信号进行降噪处理,确定降噪音频信号,作业环境噪声样本数据为作业机械在真实作业环境下作业时获取的;基于降噪音频信号进行语音识别,确定语音识别结果;基于语音识别结果,控制作业机械的目标执行装置。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种作业机械语音交互方法,其特征在于,包括:
获取作业机械驾驶室内的目标语音信号;
基于作业环境噪声样本数据对所述目标语音信号进行降噪处理,确定降噪音频信号;
基于所述降噪音频信号进行语音识别,确定语音识别结果;
基于所述语音识别结果,控制作业机械的目标执行装置。
2.根据权利要求1所述的作业机械语音交互方法,其特征在于,所述获取作业机械驾驶室内的目标语音信号,包括:
获取原始声源信号;
基于预存的唤醒词库对所述原始声源信号进行检测,在所述原始声源信号与所述唤醒词库匹配的情况下,从所述原始声源信号中确定目标语音信号。
3.根据权利要求1所述的作业机械语音交互方法,其特征在于,所述基于所述降噪音频信号进行语音识别,确定语音识别结果,包括:
将所述降噪音频信号与预设指令库进行匹配,确定控制指令。
4.根据权利要求3所述的作业机械语音交互方法,其特征在于,在所述将所述降噪音频信号与预设指令库进行匹配,确定控制指令之后,还包括:
基于所述控制指令,输出询问请求;
在接收到用户基于所述询问请求输入的确认指令后,基于所述控制指令控制所述作业机械的目标执行装置。
5.根据权利要求1至4中任一项所述的作业机械语音交互方法,其特征在于,所述基于作业环境噪声样本数据对所述目标语音信号进行降噪处理,确定降噪音频信号,包括:
将所述目标语音信号输入到降噪处理模型中,得到所述降噪处理模型输出的所述降噪音频信号;其中,所述降噪处理模型为以语音样本信号为样本,以与所述语音样本信号对应的作业环境噪声样本数据为样本标签进行训练得到的,所述语音样本信号为从作业机械在多种作业工况下采集到的语音数据。
6.根据权利要求1至4中任一项所述的作业机械语音交互方法,其特征在于,所述基于所述降噪音频信号进行语音识别,确定语音识别结果,包括:
将所述降噪音频信号输入到语音识别模型中,得到所述语音识别模型输出的所述语音识别结果;其中,所述语音识别模型为以音频样本信号为样本,以与所述音频样本信号对应的语音识别结果样本数据为样本标签进行训练得到的,所述音频样本信号包括中文方言语种或者多国语种的音频数据。
7.根据权利要求1至4中任一项所述的作业机械语音交互方法,其特征在于,所述获取作业机械驾驶室内的目标语音信号,包括:
从所述作业机械驾驶室内的目标拾音位置采集所述目标语音信号,所述目标拾音位置为基于声音传递函数和/或语音清晰程度参数确定的。
8.一种作业机械语音交互系统,其特征在于,包括:
获取模块,用于获取作业机械驾驶室内的目标语音信号;
第一确定模块,用于基于作业环境噪声样本数据对所述目标语音信号进行降噪处理,确定降噪音频信号;
第二确定模块,用于基于所述降噪音频信号进行语音识别,确定语音识别结果;
控制模块,用于基于所述语音识别结果,控制作业机械的目标执行装置。
9.一种作业机械,其特征在于,包括:
语音采集装置、目标执行装置、以及如权利要求8所述的作业机械语音交互系统;所述作业机械语音交互系统基于所述语音采集装置所采集的目标语音信号来控制所述目标执行装置。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7中任一项所述作业机械语音交互方法的步骤。
CN202111564549.XA 2021-12-20 2021-12-20 作业机械语音交互方法、系统及作业机械 Pending CN114400001A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111564549.XA CN114400001A (zh) 2021-12-20 2021-12-20 作业机械语音交互方法、系统及作业机械

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111564549.XA CN114400001A (zh) 2021-12-20 2021-12-20 作业机械语音交互方法、系统及作业机械

Publications (1)

Publication Number Publication Date
CN114400001A true CN114400001A (zh) 2022-04-26

Family

ID=81227049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111564549.XA Pending CN114400001A (zh) 2021-12-20 2021-12-20 作业机械语音交互方法、系统及作业机械

Country Status (1)

Country Link
CN (1) CN114400001A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104347072A (zh) * 2013-08-02 2015-02-11 广东美的制冷设备有限公司 遥控器控制的方法、装置和遥控器
CN105739977A (zh) * 2016-01-26 2016-07-06 北京云知声信息技术有限公司 一种语音交互设备的唤醒方法及装置
CN109243454A (zh) * 2018-10-31 2019-01-18 天地科技股份有限公司上海分公司 采掘机械的控制系统及其控制方法
CN111128192A (zh) * 2019-12-31 2020-05-08 深圳市优必选科技股份有限公司 语音识别降噪方法、系统、移动终端及存储介质
CN111554285A (zh) * 2020-04-26 2020-08-18 三一重机有限公司 一种语音控制系统及其控制方法
CN111583924A (zh) * 2020-04-28 2020-08-25 山推工程机械股份有限公司 一种工程机械的控制方法、装置、电子设备及存储介质
CN111916068A (zh) * 2019-05-07 2020-11-10 北京地平线机器人技术研发有限公司 音频检测方法和装置
CN112820290A (zh) * 2020-12-31 2021-05-18 广东美的制冷设备有限公司 家电设备及其语音控制方法、语音装置、计算机存储介质
CN113053381A (zh) * 2021-03-30 2021-06-29 三一汽车制造有限公司 消防车的控制系统、控制方法、控制装置和电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104347072A (zh) * 2013-08-02 2015-02-11 广东美的制冷设备有限公司 遥控器控制的方法、装置和遥控器
CN105739977A (zh) * 2016-01-26 2016-07-06 北京云知声信息技术有限公司 一种语音交互设备的唤醒方法及装置
CN109243454A (zh) * 2018-10-31 2019-01-18 天地科技股份有限公司上海分公司 采掘机械的控制系统及其控制方法
CN111916068A (zh) * 2019-05-07 2020-11-10 北京地平线机器人技术研发有限公司 音频检测方法和装置
CN111128192A (zh) * 2019-12-31 2020-05-08 深圳市优必选科技股份有限公司 语音识别降噪方法、系统、移动终端及存储介质
CN111554285A (zh) * 2020-04-26 2020-08-18 三一重机有限公司 一种语音控制系统及其控制方法
CN111583924A (zh) * 2020-04-28 2020-08-25 山推工程机械股份有限公司 一种工程机械的控制方法、装置、电子设备及存储介质
CN112820290A (zh) * 2020-12-31 2021-05-18 广东美的制冷设备有限公司 家电设备及其语音控制方法、语音装置、计算机存储介质
CN113053381A (zh) * 2021-03-30 2021-06-29 三一汽车制造有限公司 消防车的控制系统、控制方法、控制装置和电子设备

Similar Documents

Publication Publication Date Title
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
JP7281496B2 (ja) 音声認識方法、装置、機器及び記憶媒体
JP4166153B2 (ja) 鳴声の音声的特徴分析に基づく犬の感情判別装置及びその方法
JP4304952B2 (ja) 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム
CN110998720A (zh) 话音数据处理方法及支持该方法的电子设备
CN105609101B (zh) 语音识别系统及语音识别方法
JP6977004B2 (ja) 車載装置、発声を処理する方法およびプログラム
JPH11502953A (ja) 厳しい環境での音声認識方法及びその装置
CN1856820A (zh) 语音识别方法和通信设备
JP2011059659A (ja) 第1の機能及び第2の機能を含む複数の機能を有効にするためのシステムおよび方法
CN113643693B (zh) 以声音特征为条件的声学模型
CN112562681B (zh) 语音识别方法和装置、存储介质
CN110232924A (zh) 车载语音管理方法、装置、车辆及存储介质
JP2003330485A (ja) 音声認識装置、音声認識システム及び音声認識方法
CN110580897B (zh) 音频校验方法、装置、存储介质及电子设备
CN110728993A (zh) 一种变声识别方法及电子设备
CN113053402A (zh) 一种语音处理方法、装置和车辆
CN114400001A (zh) 作业机械语音交互方法、系统及作业机械
JPH06236196A (ja) 音声認識方法および装置
JP2000029486A (ja) 音声認識システムおよび方法
CN113707156B (zh) 一种用于车载的语音识别方法及系统
CN115691478A (zh) 语音唤醒方法、装置、人机交互设备和存储介质
CN115132173A (zh) 语音交互系统的测试方法、音频识别方法及相关设备
Martinek et al. Hybrid In-Vehicle Background Noise Reduction for Robust Speech Recognition: The Possibilities of Next Generation 5G Data Networks.
JP2019191477A (ja) 音声認識装置及び音声認識方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination