CN108447479B - 嘈杂工况环境的机器人语音控制系统 - Google Patents

嘈杂工况环境的机器人语音控制系统 Download PDF

Info

Publication number
CN108447479B
CN108447479B CN201810104069.7A CN201810104069A CN108447479B CN 108447479 B CN108447479 B CN 108447479B CN 201810104069 A CN201810104069 A CN 201810104069A CN 108447479 B CN108447479 B CN 108447479B
Authority
CN
China
Prior art keywords
voice
data
module
recognition
voice control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810104069.7A
Other languages
English (en)
Other versions
CN108447479A (zh
Inventor
刘丽兰
孙干
高增桂
陈恩来
孙鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201810104069.7A priority Critical patent/CN108447479B/zh
Publication of CN108447479A publication Critical patent/CN108447479A/zh
Application granted granted Critical
Publication of CN108447479B publication Critical patent/CN108447479B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Manipulator (AREA)

Abstract

本发明公开一种用于嘈杂工况环境的机器人语音控制系统,涉及工业机器人语音控制技术领域。本发明在嘈杂工况环境下,通过本地降噪处理和在线语音识别相结合的方式,完成人机协作。系统包括语音语义在线识别数据平台、移动客户端、本地语音控制装置和工业协作机器人。移动客户端实现系统的组网,本地语音控制装置集成麦克风阵列模块有效克服工业噪声环境,采集语音信号传输给语音数据核心模块,降噪后传输至基于深度学习的语音语义在线识别数据平台,实现语音在线识别,识别数据返回给本地语音控制装置,进行数据的处理并传输给工业协作机器人,机器人解析并完成指令动作。本发明公布的系统有效克服了工业噪声环境,使用性能突出,适用范围广。

Description

嘈杂工况环境的机器人语音控制系统
技术领域
本发明涉及工业机器人语音控制技术领域,尤其是一种嘈杂工况环境的机器人语音控制系统,具体来说是一套智能语音装置,在工业环境下通过本地降噪处理和在线语音识别相结合的方式,克服嘈杂工况环境,控制工业机器人完成指定动作,实现人机协作的自然化和智能化。
背景技术
语音控制技术一直以来是机器人研究领域中最具有前景的技术,其优点在于友好的人机交互性,大大降低机器人操作所需的技术门槛。目前语音控制技术广泛应用于服务机器人、智能家居以及人工智能等领域,但在工业生产中却不太普及。主要是由于语音识别技术在工业生产中的嘈杂工况环境下,识别率会大幅降低的原因。但是随着“中国制造2025”规划的出台,将语音控制技术与工业机器人相结合,运用语音识别技术到嘈杂工况环境,改变传统生产方式,这一研究需求愈来愈突出。
目前工业生产中的语音控制技术因为受限于嘈杂工况环境而不能广泛应用,通常也只是应用在工业控制室等室内环境或者通过远程控制、佩戴麦克风等方式尽量提高语音控制技术的适用性,但是这些做法很难达到将语音控制技术普遍应用到工业生产中的要求。并且目前的工业应用,经常只是基于离线方式的一些控制指令的识别,不能提供大量的任意的指令控制,这也是目前工业生产中语音控制系统的不足之处。
近年来,随着深度学习热潮的再次涌起,基于深度神经网络的语音语义识别技术的研究也突飞猛进。以神经网络为基础的语音识别系统主要模仿了神经元的活动机制,通过各种不同的算法以及网络结构来辅助完成其工作,因神经网络技术采用了非线性动态机制,具有自主化以及高效等显著的特点,因此极好地促进了语音识别技术的发展。与此同时,麦克风阵列技术的发展使得高质量的语音拾取成为可能,麦克风阵列信号处理具有传统语音信号处理无法比拟的优势,尤其在噪声抑制、声源定位、去混响等性能上有很大的提高,能够在嘈杂工况环境下自动高效地从接收的语音信号中提取有用信息,适用于智能化领域。因此,基于目前的大数据计算能力,借助FPGA的高性能计算平台,运用深度学习技术进行在线的高性能识别,在保证拾音质量的情况下,能够大大提高嘈杂工况环境下的语音识别正确率和效率,使得工业环境下的语音控制技术的应用能够进一步推广。
作为工业生产中人机交互的代表,人机协作机器人是应用语音控制技术的最佳对象。目前,工业人机协作机器人往往注重安全、布置灵活、操作简单、轻便灵敏等性能的研究,却忽略了最直接的人机交互方式——语音控制技术的研究。因此在工业环境下,以人机协作机器人作为语音控制的对象,不仅能够深化工业生产的智能化程度,而且也能够为枯燥的生产工作带来乐趣,同时也为语音技术在工业生产中的普遍应用提供了很好的范例。
发明内容
本发明目的在于针对已有技术的不足,提供一种嘈杂工况环境的机器人语音控制系统,通过该语音控制系统所包括的本地降噪处理和在线语音识别相结合的技术方式,以工业人机协作机器人为控制对象,克服嘈杂工况环境,实现人机协作的自然化和智能化。
本发明的目的是通过下述技术方案来实现的。
一种嘈杂工况环境的机器人语音控制系统,包括语音语义在线识别数据平台、移动客户端、本地语音控制装置和工业协作机器人,语音语义在线识别数据平台、移动客户端和本地语音控制装置,三者通过无线网络相互连接,本地语音控制装置和工业协作机器人通过串口线连接。通过所述移动客户端连接或组建无线网络,由于本地语音控制装置中有集成的无线连接模块,所以本地语音控制装置可联网。所述移动客户端扫描连接本地语音控制装置,并请求语音语义在线识别数据平台的服务,完成本地语音控制装置和语音语义在线识别数据平台的网络连接,由于本地语音控制装置中有集成的语音数据核心模块,运行Android系统,可基于语音数据核心模块的主服务,实现客户端服务,完成本地语音控制装置和语音语义在线识别数据平台的数据传输。所述本地语音控制装置采集语音信号并进行降噪处理,将处理后的语音信号传输至语音语义在线识别数据平台,实现在线的语音语义识别,识别结果数据再返回给本地语音控制装置,本地语音控制装置接收数据并进行处理,处理后的数据按照既定通信协议传输给工业协作机器人,工业协作机器人获得数据后进行指令解析并执行相应的动作或姿态。
进一步地,所述语音语义在线识别数据平台是基于深度学习的大数据平台,可采用科大讯飞股份有限公司的语音开放平台,接入语音识别服务,具有语义VAD、特征识别、基于上下文识别、连续语音识别和上下文理解功能,能够对上传至数据平台的语音信号进行在线的语音语义识别,并将识别后的数据返回给本地语音控制装置,基于深度神经网络技术的在线语音识别提高了语音控制系统对嘈杂工况环境中复杂噪声的鲁棒性。
进一步地,所述本地语音控制装置内置有装置电源、集成电路板和左右声道音响。所述装置电源和左右声道音响均通过飞线连接集成电路板,以保证三者在本地语音控制装置内的安装合理。所述本地语音控制装置在结构上包括上盖和底座,二者通过螺栓连接,形成一个盒体,上盖结构四周设计成镂空状,采用阵列孔的设计形式,开孔面尽可能大,孔数尽量密集,以保证内置集成电路板所集成的麦克风阵列模块的拾音效果,避免掩蔽效应。底座设计有左右两个独立的密封腔体放置左右声道音响,使音响的声音不至于干扰内置集成电路板所集成的麦克风阵列模块拾音。
进一步地,所述集成电路板包含麦克风阵列模块、无线连接模块、语音数据核心模块、识别结果发送模块以及USB电源接口、RS485/232串口、复位开关、无线连接按钮和电源开关。本地语音控制装置开机上电,通过移动客户端连接或者建立无线局域网络,扫描连接本地语音控制装置,按下无线连接按钮,本地语音控制装置通过无线连接模块联网,移动客户端发送语音语义在线识别数据平台服务请求,实现本地语音控制装置与语音语义在线识别数据平台的数据传输,麦克风阵列模块采集语音信号,将语音信号传输给语音数据核心模块,语音数据核心模块对语音信号进行处理后,将语音信号上传至语音语义在线识别数据平台,并接收返回的语音识别数据,将数据预处理后传输给识别结果发送模块,进行识别数据的进一步处理,然后经过RS485/232串口向机器人发送数据信息。所述麦克风阵列模块采用圆形六麦麦克风阵列形式,利用空间分布的多路麦克风拾取声音信号,通过对麦克风阵列的各路输出信号进行分析和处理,得到一个或多个声源的位置信息,实现声源定位功能,同时利用麦克风阵列的空域滤波特性,通过对唤醒人的角度定位,形成定向拾音波束,并对波束以外的噪音进行抑制,提升远场拾音质量,保证识别效果,有效克服了工业场景下的噪声环境,因此采用的圆形六麦麦克风阵列模块具有拾音降噪、回声消除和声源定位功能。
进一步地,所述语音数据核心模块包括AD模块、FPGA语音处理模块、电源管理模块、R16处理器、动态随机存储器DRAM和闪存Flash。所述AD模块将麦克风阵列模块传输过来的带噪语音模拟信号转换成数字信号,经过FPGA语音处理模块和R16处理器的降噪和回声消除处理,转换成比较纯净的语音信号,然后按照语音数据核心模块主服务定义的传输协议,传输给语音语义在线识别数据平台,进行在线的语音语义识别,语音数据核心模块接收识别后的返回数据,进行数据预处理,同时电源管理模块、动态随机存储器DRAM和闪存Flash作为辅助芯片,完成电路的电源管理和数据存储功能,这些模块封装为一个整体,通过引脚连接其他模块,包括麦克风阵列模块、无线连接模块和识别结果发送模块。所述语音数据核心模块运行Android系统,定义了和语音语义在线识别数据平台的通信协议,具有人声检测、语音唤醒、合成播报、数据传输和状态管理功能,并集成了合成播报接口、客户端服务接口和串口服务接口。通过调用合成播报接口,实现了语音合成播报功能,并输出音频;通过调用客户端服务接口,实现了客户端的组网功能以及在线数据传输;通过调用串口服务接口,实现了预处理数据的串口传输,定义了串口传输协议。
进一步地,所述的识别结果发送模块包含STM处理器以及集成USB电源接口、RS485/232串口、复位开关、无线连接按钮和电源开关组成所需的电子元器件。所述识别结果发送模块通过调用语音数据核心模块的串口服务接口,实现语音识别预处理数据的读取,经过STM处理器的进一步处理,完成语音数据的定义和组包,同时集成一些电子元器件,实现整个集成电路板的供电、串口输出、重启、联网和开断功能,这些模块封装为一个整体。所述STM处理器运行嵌入式操作系统系统,识别结果发送模块接收语音数据核心模块预处理完的数据,并按照与工业协作机器人的通信协议完成数据的过滤,定义和串口传输。
进一步地,所述的USB电源接口、RS485/232串口、复位开关、无线连接按钮和电源开关,这些组成通过飞线和焊接引脚方式连接到集成电路板上,完成本地语音控制装置与外界其他设备或人员的衔接。
进一步地,所述工业协作机器人具有拖动示教和碰撞检测功能,使用了标准化的编程语言,可直接在Visual Studio中写程序控制机器人,能够方便灵活的编程调试。工业协作机器人通过串口接收语音控制装置传输来的语音识别数据,进行指令解析并执行相应的操作。
本发明和目前的现有技术相比较,具有以下显而易见的突出实质性特点和显著优点:
1)对比目前的工业生产状况,运用了语音控制技术,以工业协作机器人为控制范例,在具体的人机协作工作过程中,通过自然的语音对话,控制机器人的动作和状态,不仅深化了工业生产的智能化程度,提高了人机协作的便捷性,丰富了人机协作的模式,增添了工业生产的趣味性,而且促进了语音控制技术在工业生产应用中的普遍性。
2)对比目前的语音识别控制技术,大都是运用在智能家居、服务机器人等领域,而忽略了工业生产中的应用。本发明以工业生产中人机协作机器人这一领域为切入点,很好的扩展了语音识别控制技术的应用范畴。
3)本发明采用了麦克风阵列模块,利用麦克风阵列的空域滤波特性,通过对唤醒人的角度定位,形成定向拾音波束,并对波束以外的噪音进行抑制,提升远场拾音质量,保证识别效果,有效克服了工业场景下的嘈杂工况环境。
4)本发明采用的语音数据核心模块所集成的FPGA语音处理模块,与R16处理器共同完成对带噪语音信号的噪声抑制、回声消除和声源定位处理,进一步提高整个语音控制系统的降噪能力。
5)本发明采用的语音语义在线识别数据平台,将连续的大词汇语音数据交由基于深度学习的大数据系统处理,基于深度神经网络技术增强语音识别系统对噪声的鲁棒性,使得识别准确率和效率大大提高,可以在线识别大量的任意的语音信息,提升了整个语音控制系统的智能化水平。
6)本发明采用的移动客户端模式,为整个控制系统的组网提供了便利,即便是在无网络环境下,通过客户端分享无线热点,也能随时随地组网。
7)本发明的语音数据核心模块,负责了本地语音控制装置和语音语义在线识别数据平台的信息交互,集成了语音信号处理、上传、识别数据接收和预处理的功能,具有独立一体化特点,不会因为语音控制系统控制对象的改变而发生改变。
8)本发明的识别结果发送模块,负责了处理后的语音识别数据与工业协作机器人的通信,主要定义了通信协议和数据格式,具有独立一体化特点,如果语音控制系统的控制对象发生改变,只需更改该模块的通信协议和数据格式即可,这保证了本发明所提供的语音控制系统的通用性。
附图说明
图1是本发明的语音控制系统原理示意图。
图2是语音控制系统的功能示意图。
图3是移动客户端组网流程示意图。
图4是本地语音控制装置结构示意图。
图5是集成电路板模块运行概念图。
图6是集成电路板模块连接示意图。
图7是语音数据核心模块软件关系图。
图8是语音控制系统运行流程图。
具体实施方式
下面本发明的优选实施例结合附图对本发明作进一步详细描述:
实施例一:参见图1、图5、图8说明本发明的系统整体工作原理。本用于嘈杂工况环境的机器人语音控制系统,可通过该系统,以自然语音作为媒介,控制工业机器人(这里以工业协作机器人为例)做出指定的动作。整个系统采用本地降噪处理和在线语音识别相结合的技术框架,包括语音语义在线识别数据平台1,移动客户端2,本地语音控制装置3和工业协作机器人4,语音语义在线识别数据平台1、移动客户端2和本地语音控制装置3,三者通过无线网络相互连接,本地语音控制装置3和工业协作机器人4通过串口线连接。通过移动客户端2连接或组建无线网络,由于本地语音控制装置3中有集成的无线连接模块14,所以本地语音控制装置3可联网。移动客户端2扫描连接本地语音控制装置3,并请求语音语义在线识别数据平台1的服务,完成本地语音控制装置3和语音语义在线识别数据平台1的网络连接和数据传输。本地语音控制装置3采集语音信号并进行降噪处理,将处理后的语音信号传输至语音语义在线识别数据平台1,实现在线的语音语义识别,识别结果数据再返回给本地语音控制装置3,本地语音控制装置3接收数据并进行处理。处理后的数据按照既定通信协议传输给工业协作机器人4,工业协作机器人4获得数据后进行指令解析并执行相应的动作或姿态。
在实施例一中,参见图1、图3、图5具体说明整个控制系统的组网方式。由于本地语音控制装置3中集成了无线连接模块14,可连接网络。移动客户端2连接局域网络,如果没有网络,可通过移动客户端2建立无线热点。按下无线连接按钮21,移动客户端2扫描连接本地语音控制装置3,完成参见图3的步骤1:无线连接本地语音控制装置。下一步,通过移动客户端2请求语音语义在线识别数据平台1的服务,连接语音语义在线识别数据平台1,完成步骤2:请求语音语义在线识别数据平台服务。至此,就可以实现本地语音控制装置3和语音语义在线识别数据平台1的数据传输,完成步骤3:完成本地语音控制装置和语音语义在线识别数据平台的组网。第一次连接后,可以设置为默认连接,以后连接无需重新组网,直接跳过步骤1和步骤2,实现步骤3。如果更换网络,需要重新组网,按照步骤1、2、3实现。参见图7为本地语音控制装置3中集成的语音数据核心模块15的软件关系图,语音数据核心模块15基于Android系统,通过数据核心模块主服务和客户端服务,实现本地语音控制装置3和语音语义在线识别数据平台1的数据传输。
实施例二:本实施例与实施例一基本相同,特别之处在于:参见图2、图5说明语音语义在线识别数据平台1的形式和功能,所述语音语义在线识别数据平台1是基于深度学习的大数据平台,可采用科大讯飞股份有限公司的语音开放平台,接入语音识别服务,具有语义VAD、特征识别、基于上下文识别、连续语音识别和上下文理解功能,能够对上传至数据平台的语音信号进行在线的语音语义识别,同时也能完成传统本地离线识别很难完成的基于上下文的大词汇连续语音识别,识别效率和准确率得到了很大提高。在语音识别声学建模中,用DNN来替换GMM-HMM声学建模框架中的GMM进行状态输出概率的计算,建立深度神经网络-隐马尔可夫(DNN-HMM)混合模型,DNN的输入是连续多帧传统频谱特征,输出是三音子音素的绑定状态,对DNN完成训练之后,就可以得到每一帧数据所对应的在各绑定状态上的后验概率,DNN生成的状态后验概率需要按照贝叶斯公式除以每个状态的先验概率,利用从训练集估计得到的各绑定状态的先验概率将后验概率转换成各状态的输出概率,再结合HMM进行Viterbi解码,就可以得到最终的识别结果。参见图5,v为输入层,h为隐藏层。所述语音语义在线识别数据平台1基于深度学习技术训练了大量的语音样本,建立了海量的声学模型模板库,提高了对噪声的鲁棒性。
实施例三:本实施例与实施例一基本相同,特别之处在于:参见图4、图5具体说明本地语音控制装置3的结构形式和功能作用。参见图4,本地语音控制装置3结构上包括上盖7和底座5,二者通过螺栓连接,形成一个盒体,其中上盖7周边采用阵列孔的形式,开孔面尽可能大,孔数尽量密集,以保证内置集成电路板9所集成的麦克风阵列模块13的拾音效果,避免掩蔽效应。本地语音控制装置3内置装置电源8、集成电路板9和左右声道音响6,参见图4,装置电源8和左右声道音响6均通过飞线连接集成电路板9,其中装置电源8安装在底座5的12位置处,集成电路板9安装在底座5的10位置处,左右声道音响6分别置于底座5的左右11独立腔体中,保证密封效果,避免音响声音影响内置集成电路板9所集成的麦克风阵列模块13的拾音效果。
实施例四:本实施例与实施例一基本相同,特别之处在于:参见图5、图6、图8说明机器人语音控制系统中集成电路板9的结构和功能作用。所述集成电路板9包括麦克风阵列模块13、无线连接模块14、语音数据核心模块15、识别结果发送模块16以及USB电源接口17、RS485/232串口18、复位开关20、无线连接按钮21和电源开关22。通过无线连接模块14,本地语音控制装置3实现联网。通过移动客户端2实现本地语音控制装置3和语音语义在线识别数据平台1的组网,并基于语音数据核心模块15运行的主服务和客户端服务功能,实现了本地语音控制装置3和语音语义在线识别数据平台1的数据传输。麦克风阵列模块13实时检测采集语音信号,将采集到的带噪语音模拟信号传输给语音数据核心模块15,语音数据核心模块15对语音信号进行处理,通过无线连接模块14实现语音信号上传至语音语义在线识别数据平台1,并接收返回的语音识别数据,将数据预处理后传输给识别结果发送模块16,进行识别数据的进一步处理,然后经过RS485/232串口18向机器人发送数据信息。所述麦克风阵列模块13采用圆形六麦麦克风阵列形式,麦克风阵列信号处理是阵列信号处理的一个新兴分支,在语音信号处理上具有其他信号处理方法无法比拟的优势。麦克风阵列技术利用空间分布的多路麦克风拾取声音信号,通过对麦克风阵列的各路输出信号进行分析和处理,得到一个或多个声源的位置信息,实现声源定位功能;同时利用麦克风阵列的空域滤波特性,通过对唤醒人的角度定位,形成定向拾音波束,并对波束以外的噪音进行抑制,提升远场拾音质量,保证识别效果,有效克服了工业场景下的噪声环境。因此图5采用的圆形六麦麦克风阵列模块具有拾音降噪、回声消除和声源定位功能。
实施例五:本实施例与实施例一基本相同,特别之处在于:参见图5、图6、图7、图8,所述语音数据核心模块15包括AD模块19、FPGA语音处理模块23、电源管理模块24、R16处理器25、动态随机存储器DRAM26和闪存Flash27。这些模块封装为一个整体,通过引脚连接其他模块,包括麦克风阵列模块13、无线连接模块14和识别结果发送模块16。语音数据核心模块15基于Android系统,定义了和语音语义在线识别数据平台1的通信协议,具有人声检测、语音唤醒、合成播报、数据传输和状态管理功能,并集成了合成播报接口、客户端服务接口和串口服务接口。通过调用合成播报接口,实现了语音合成播报功能,并输出音频;通过调用客户端服务接口,实现了移动客户端的组网功能以及在线数据传输;通过调用串口服务接口,实现了预处理数据的串口传输,定义了串口传输协议。一旦检测到唤醒词,会通过左右声道音响6作出应答,整个系统就会进入到识别控制模式。参见图5和图6,首先,麦克风阵列模块13采集到的带噪语音模拟信号会经过语音数据核心模块15的AD模块19转换成数字信号,再经过FPGA语音处理模块23和R16处理器25的降噪和回声消除处理,转换成比较纯净的语音信号。再者,经过降噪后的语音信号按照语音数据核心模块15的主服务定义的传输协议,传输给语音语义在线识别数据平台1,进行在线的语音语义识别。基于深度学习的语音语义在线识别数据平台1将识别后的数据返回给语音数据核心模块15。语音数据核心模块15接收到识别数据后,会进行数据的预处理,包括对数据的解析和组包,然后按照串口服务定义的通信协议将数据信息传输给识别结果发送模块16。预处理后的数据已经按照串口协议组包,经过串口查看,是16进制的8数据位字符串。参见图7,语音数据核心模块15不仅负责与语音语义在线识别数据平台1的通信,而且负责与识别结果发送模块16的通信,语音数据核心模块15会不断地向识别结果发送模块16发送心跳信息,识别结果发送模块16不断地读取语音数据核心模块15的串口数据,并进行不同的应答,一旦读取到语音数据,就会进行自己的处理。
实施例六:本实施例与实施例一基本相同,特别之处在于:参见图5、图6、图8,所述识别结果发送模块16包括STM处理器28以及集成USB电源接口17、RS485/232串口18、复位开关20、无线连接按钮21和电源开关22组成所需的电子元器件,这些模块封装为一个整体。识别结果发送模块16基于嵌入式操作系统
Figure 791699DEST_PATH_IMAGE001
系统,通过调用语音数据核心模块15的串口服务接口,实现语音识别预处理数据的读取,经过STM处理器28对数据信息作进一步的解析,识别结果发送模块16不仅负责与语音数据核心模块15的通信,而且定义了与工业协作机器人4的通信协议,按照通信协议格式化数据并组包,将识别数据通过RS485/232串口18传输给工业协作机器人4。RS485/232串口18的输出也是整个本地语音控制装置3的输出,输出数据经过串口查看是一连串的十六进制字符串数据,不同的语音信息对应不同的固定的字符串数据。
实施例七:本实施例与实施例一基本相同,特别之处在于:参见图5、图6,所述本地语音控制装置3通过USB电源接口17、RS485/232串口18、复位开关20、无线连接按钮21、电源开关22实现与外界其他设备或人员的衔接。USB电源接口17完成内置装置电源8的充电,复位开关20完成本地语音控制装置3的重启,电源开关22完成本地语音控制装置3的开关机。
实施例八:本实施例与实施例一基本相同,特别之处在于:参见图5,所述工业协作机器人4通过串口获得最终的处理数据。工业协作机器人4具有拖动示教和碰撞检测功能,使用了标准化的编程语言,可直接在Visual Studio中写程序控制机器人,能够方便灵活的编程调试。工业协作机器人4通过RS485/232串口18读取本地语音控制装置3传输来的语音识别数据,进行相应的解析,匹配出指令信息,然后调用相应的方法执行相应的动作或姿态。
以下参见图8具体说明整个机器人语音控制系统的运行流程,包括如下步骤:
1)在内置装置电源8有电的情况下,按下电源开关22,启动本地语音控制装置3。
2)按下无线连接按钮21,移动客户端2连接无线局域网,扫描连接本地语音控制装置3,并请求语音语义在线识别数据平台1的服务,实现本地语音控制装置3和语音语义在线识别数据平台1的数据传输。
3)麦克风阵列模块13实时检测外界语音信号,并将采集到的语音信号传输给语音数据核心模块15。
4)语音数据核心模块15将获得的语音信号经过降噪处理后,传输给语音语义在线识别数据平台1。
5)语音语义在线识别数据平台1对接收的语音信号进行语音语义识别,将识别数据传输给语音数据核心模块15。当说话人讲出唤醒词后,语音数据核心模块15检测到唤醒词,整个系统进入到识别控制模式。
6)语音数据核心模块15对接收的语音数据进行预处理,将预处理数据传输给识别结果发送模块16。
7)识别结果发送模块16按照既定的通信协议和数据格式处理识别数据,并传输给工业协作机器人4。
8)工业协作机器人4对接收的数据信息进行解析,匹配出指令信息,执行相应的动作或姿态。
9)在语音控制系统唤醒期间,重复进行3—8步骤。
10)说出“停止”类似口令,工业协作机器人4停止动作,语音控制系统进入待机状态,关闭电源开关22。
以上描述了本发明的组成、基本原理、主要特征和本发明的优点。可以理解的是,以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围之内。

Claims (8)

1.用于嘈杂工况环境的机器人语音控制系统,其特征在于:包括语音语义在线识别数据平台(1)、移动客户端(2)、本地语音控制装置(3)和工业协作机器人(4),语音语义在线识别数据平台(1)、移动客户端(2)和本地语音控制装置(3),三者通过无线网络相互连接,本地语音控制装置(3)和工业协作机器人(4)通过串口线连接;通过所述移动客户端(2)连接或组建无线网络,由于本地语音控制装置(3)中有集成的无线连接模块(14),所以本地语音控制装置(3)可联网;所述移动客户端(2)扫描连接本地语音控制装置(3),并请求语音语义在线识别数据平台(1)的服务,完成本地语音控制装置(3)和语音语义在线识别数据平台(1)的网络连接,由于本地语音控制装置(3)中有集成的语音数据核心模块(15),运行Android系统,可基于语音数据核心模块(15)的主服务,实现客户端服务,完成本地语音控制装置(3)和语音语义在线识别数据平台(1)的数据传输;所述本地语音控制装置(3)采集语音信号并进行降噪处理,将处理后的语音信号传输至语音语义在线识别数据平台(1),实现在线的语音语义识别,识别结果数据再返回给本地语音控制装置(3),本地语音控制装置(3)接收数据并进行处理,处理后的数据按照既定通信协议传输给工业协作机器人(4),工业协作机器人(4)获得数据后进行指令解析并执行相应的动作或姿态。
2.根据权利要求1所述的用于嘈杂工况环境的机器人语音控制系统,其特征在于:所述语音语义在线识别数据平台(1)是基于深度学习的大数据平台,可采用科大讯飞股份有限公司的语音开放平台,接入语音识别服务,具有语义VAD、特征识别、基于上下文识别、连续语音识别和上下文理解功能,能够对上传至数据平台的语音信号进行在线的语音语义识别,并将识别后的数据返回给本地语音控制装置(3)中集成的语音数据核心模块(15),基于深度神经网络技术的在线语音识别提高了语音控制系统对嘈杂工况环境中复杂噪声的鲁棒性。
3.根据权利要求1所述的用于嘈杂工况环境的机器人语音控制系统,其特征在于:所述本地语音控制装置(3)内置有装置电源(8)、集成电路板(9)和左右声道音响(6);所述装置电源(8)和左右声道音响(6)均通过飞线连接集成电路板(9),以保证三者在本地语音控制装置(3)内的安装合理;所述本地语音控制装置(3)在结构上包括上盖(7)和底座(5),二者通过螺栓连接,形成一个盒体,其中上盖(7)周边采用阵列孔的设计形式,开孔面尽可能大,孔数尽量密集,以保证内置集成电路板(9)所集成的麦克风阵列模块(13)的拾音效果,避免掩蔽效应,底座(5)设计有左右两个独立的密封腔体放置左右声道音响(6),用以避免外放合成语音影响内置集成电路板(9)所集成的麦克风阵列模块(13)的拾音效果。
4.根据权利要求3所述的用于嘈杂工况环境的机器人语音控制系统,其特征在于:所述集成电路板(9)包含麦克风阵列模块(13)、无线连接模块(14)、语音数据核心模块(15)、识别结果发送模块(16)以及USB电源接口(17)、RS485/232串口(18)、复位开关(20)、无线连接按钮(21)和电源开关(22);所述麦克风阵列模块(13)采集语音信号,将语音信号传输给语音数据核心模块(15),语音数据核心模块(15)对语音信号进行处理,通过无线连接模块(14)实现语音信号上传至语音语义在线识别数据平台(1),并接收返回的语音识别数据,将数据预处理后传输给识别结果发送模块(16),进行识别数据的进一步处理,然后经过RS485/232串口(18)向机器人发送数据信息;所述集成电路板(9)的麦克风阵列模块(13)采用圆形六麦麦克风阵列形式,利用空间分布的多路麦克风拾取声音信号,通过对麦克风阵列的各路输出信号进行分析和处理,得到一个或多个声源的位置信息,实现声源定位功能,同时利用麦克风阵列的空域滤波特性,通过对唤醒人的角度定位,形成定向拾音波束,并对波束以外的噪音进行抑制,提升远场拾音质量,保证识别效果,有效克服了工业场景下的噪声环境,因此采用的圆形六麦麦克风阵列模块具有拾音降噪、回声消除和声源定位功能。
5.根据权利要求3所述的用于嘈杂工况环境的机器人语音控制系统,其特征在于:所述集成电路板(9)的语音数据核心模块(15)包括AD模块(19)、FPGA语音处理模块(23)、电源管理模块(24)、R16处理器(25)、动态随机存储器DRAM(26)和闪存Flash(27);所述AD模块(19)将麦克风阵列模块(13)传输过来的带噪语音模拟信号转换成数字信号,经过FPGA语音处理模块(23)和R16处理器(25)的降噪和回声消除处理,转换成比较纯净的语音信号,然后按照语音数据核心模块(15)主服务定义的传输协议,传输给语音语义在线识别数据平台(1),进行在线的语音语义识别,语音数据核心模块(15)接收识别后的返回数据,进行数据预处理,同时电源管理模块(24)、动态随机存储器DRAM(26)和闪存Flash(27)作为辅助芯片,完成电路的电源管理和数据存储功能,这些模块封装为一个整体,通过引脚连接其他模块,包括麦克风阵列模块(13)、无线连接模块(14)和识别结果发送模块(16);所述语音数据核心模块(15)运行Android系统,定义了和语音语义在线识别数据平台(1)的通信协议,具有人声检测、语音唤醒、合成播报、数据传输和状态管理功能,并集成了合成播报接口、客户端服务接口和串口服务接口;通过调用合成播报接口,实现了语音合成播报功能,并输出音频;通过调用客户端服务接口,实现了客户端的组网功能以及在线数据传输;通过调用串口服务接口,实现了预处理数据的串口传输,定义了串口传输协议。
6.根据权利要求3所述的用于嘈杂工况环境的机器人语音控制系统,其特征在于:所述集成电路板(9)的识别结果发送模块(16)包括STM处理器(28)以及集成USB电源接口(17)、RS485/232串口(18)、复位开关(20)、无线连接按钮(21)和电源开关(22)组成所需的电子元器件;所述识别结果发送模块(16)通过调用语音数据核心模块(15)的串口服务接口,实现语音识别预处理数据的读取,经过STM处理器(28)的进一步处理,完成语音数据的定义和组包,同时集成一些电子元器件,实现整个集成电路板(9)的供电、串口输出、重启、联网和开断功能,这些模块封装为一个整体;所述STM处理器(28)运行嵌入式操作系统
Figure DEST_PATH_IMAGE001
系统,识别结果发送模块(16)接收到语音数据核心模块(15)传输来的预处理数据后,对数据信息作进一步的解析,并定义了与工业协作机器人(4)的通信协议,按照通信协议格式化数据并组包,将识别数据通过串口传输给工业协作机器人(4)。
7.根据权利要求3所述的用于嘈杂工况环境的机器人语音控制系统,其特征在于:所述本地语音控制装置(3)集成了USB电源接口(17)、RS485/232串口(18)、复位开关(20)、无线连接按钮(21)和电源开关(22),这些组成通过飞线和焊接引脚方式连接集成电路板(9),实现与外界其他设备或人员的衔接。
8.根据权利要求1所述的用于嘈杂工况环境的机器人语音控制系统,其特征在于:所述工业协作机器人(4)具有拖动示教和碰撞检测功能,使用了标准化的编程语言,可直接在Visual Studio中写程序控制机器人,能够方便灵活的编程调试,读取串口数据,进行相应的解析,匹配出指令信息,然后调用相应的方法执行相应的动作或姿态。
CN201810104069.7A 2018-02-02 2018-02-02 嘈杂工况环境的机器人语音控制系统 Active CN108447479B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810104069.7A CN108447479B (zh) 2018-02-02 2018-02-02 嘈杂工况环境的机器人语音控制系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810104069.7A CN108447479B (zh) 2018-02-02 2018-02-02 嘈杂工况环境的机器人语音控制系统

Publications (2)

Publication Number Publication Date
CN108447479A CN108447479A (zh) 2018-08-24
CN108447479B true CN108447479B (zh) 2020-11-24

Family

ID=63191359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810104069.7A Active CN108447479B (zh) 2018-02-02 2018-02-02 嘈杂工况环境的机器人语音控制系统

Country Status (1)

Country Link
CN (1) CN108447479B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694957B (zh) * 2018-04-08 2021-08-31 湖北工业大学 基于圆形麦克风阵列波束形成的回声抵消设计方法
CN109036379B (zh) * 2018-09-06 2021-06-11 百度时代网络技术(北京)有限公司 语音识别方法、设备及存储介质
CN109318232A (zh) * 2018-10-22 2019-02-12 佛山智能装备技术研究院 一种工业机器人的多元感知系统
CN109664307A (zh) * 2018-12-16 2019-04-23 哈尔滨理工大学 一种基于深度学习的对话机器人
CN109885001A (zh) * 2019-02-25 2019-06-14 中船第九设计研究院工程有限公司 一种基于可穿戴语音交互设备的生产线节点管控方法
CN109686373A (zh) * 2019-02-27 2019-04-26 北京声智科技有限公司 一种语音识别方法及系统
CN109920433B (zh) * 2019-03-19 2021-08-20 上海华镇电子科技有限公司 嘈杂环境下电子设备的语音唤醒方法
CN109917753A (zh) * 2019-04-18 2019-06-21 中船第九设计研究院工程有限公司 一种基于可穿戴语音交互设备的人机协同作业系统
CN110428821A (zh) * 2019-07-26 2019-11-08 广州市申迪计算机系统有限公司 一种用于巡检机器人的语音指令控制方法及装置
CN110493092B (zh) * 2019-08-28 2022-02-01 深圳市云之尚网络科技有限公司 基于远场语音和iot的万能遥控以及家电遥控方法
CN110780779A (zh) * 2019-09-25 2020-02-11 北京爱接力科技发展有限公司 一种机器人服务方法、装置和机器人终端
CN110827828A (zh) * 2019-11-27 2020-02-21 云南电网有限责任公司电力科学研究院 一种电力设备用语音交互系统
CN112185372A (zh) * 2020-08-31 2021-01-05 中国煤炭科工集团太原研究院有限公司 用于采掘装备远程控制的人机语音对讲平台
CN114255763A (zh) * 2020-09-11 2022-03-29 华为技术有限公司 基于多设备的语音处理方法、介质、电子设备及系统
CN112863522A (zh) * 2021-01-12 2021-05-28 重庆邮电大学 一种基于ros的智能机器人语音交互系统及交互方法
CN113976300A (zh) * 2021-10-26 2022-01-28 芜湖职业技术学院 一种粉碎机智能系统控制方法
CN116021250B (zh) * 2023-03-29 2023-06-06 清华大学 智能装配系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111314A (zh) * 2010-12-30 2011-06-29 广州市聚晖电子科技有限公司 一种基于蓝牙传输的智能家居语音控制系统及方法
CN204390737U (zh) * 2014-07-29 2015-06-10 科大讯飞股份有限公司 一种家庭语音处理系统
JP2016091324A (ja) * 2014-11-05 2016-05-23 富士通株式会社 発話検知装置、発話検知プログラムおよび発話検知方法
CN105828266A (zh) * 2016-03-11 2016-08-03 苏州奇梦者网络科技有限公司 一种麦克风阵列的信号处理方法与系统
CN106205631A (zh) * 2015-05-28 2016-12-07 三星电子株式会社 用于消除音频信号的噪声的方法及其电子装置
CN106537849A (zh) * 2014-05-28 2017-03-22 三星电子株式会社 用于控制物联网设备的装置和方法
CN106777960A (zh) * 2016-12-12 2017-05-31 浙江侍维波机器人科技有限公司 一种Ros分布式系统架构在医疗护理领域的应用
CN206533520U (zh) * 2016-12-23 2017-09-29 深圳先进技术研究院 一种中控系统
CN206669978U (zh) * 2017-03-14 2017-11-24 珠海荣邦智能科技有限公司 基于linux系统的空调语音控制系统及空调

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111314A (zh) * 2010-12-30 2011-06-29 广州市聚晖电子科技有限公司 一种基于蓝牙传输的智能家居语音控制系统及方法
CN106537849A (zh) * 2014-05-28 2017-03-22 三星电子株式会社 用于控制物联网设备的装置和方法
CN204390737U (zh) * 2014-07-29 2015-06-10 科大讯飞股份有限公司 一种家庭语音处理系统
JP2016091324A (ja) * 2014-11-05 2016-05-23 富士通株式会社 発話検知装置、発話検知プログラムおよび発話検知方法
CN106205631A (zh) * 2015-05-28 2016-12-07 三星电子株式会社 用于消除音频信号的噪声的方法及其电子装置
CN105828266A (zh) * 2016-03-11 2016-08-03 苏州奇梦者网络科技有限公司 一种麦克风阵列的信号处理方法与系统
CN106777960A (zh) * 2016-12-12 2017-05-31 浙江侍维波机器人科技有限公司 一种Ros分布式系统架构在医疗护理领域的应用
CN206533520U (zh) * 2016-12-23 2017-09-29 深圳先进技术研究院 一种中控系统
CN206669978U (zh) * 2017-03-14 2017-11-24 珠海荣邦智能科技有限公司 基于linux系统的空调语音控制系统及空调

Also Published As

Publication number Publication date
CN108447479A (zh) 2018-08-24

Similar Documents

Publication Publication Date Title
CN108447479B (zh) 嘈杂工况环境的机器人语音控制系统
CN109599124B (zh) 一种音频数据处理方法、装置及存储介质
US10728656B1 (en) Audio device and audio processing method
EP3923273B1 (en) Voice recognition method and device, storage medium, and air conditioner
US20020107591A1 (en) "controllable toy system operative in conjunction with a household audio entertainment player"
CN107682240A (zh) 一种用于智慧家居的分布式语音交互系统
US20150208191A1 (en) Information processing system and storage medium
KR102056330B1 (ko) 통역장치 및 그 방법
CN106782519A (zh) 一种机器人
WO2021244056A1 (zh) 一种数据处理方法、装置和可读介质
JP2019009770A (ja) 音声入出力装置
CN111883161A (zh) 一种音频采集和位置识别的方法及装置
CN110517702B (zh) 信号生成的方法、基于人工智能的语音识别方法及装置
CN110716181A (zh) 声音信号采集方法以及分离式麦克风阵列
CN208367199U (zh) 分离式麦克风阵列
JP2006243555A (ja) 対応決定システム、ロボット、イベント出力サーバ、および対応決定方法
JP7400364B2 (ja) 音声認識システム及び情報処理方法
CN208538474U (zh) 语音识别系统
CN114664303A (zh) 连续语音指令快速识别控制系统
CN210265228U (zh) 一种基于ai语音芯片的风扇控制器
JP6908636B2 (ja) ロボットおよびロボットの音声処理方法
CN112420046A (zh) 适合听障人士参与的多人会议方法、系统及装置
CN109637555B (zh) 一种商务会议用日语语音识别翻译系统
CN111383650B (zh) 一种机器人及其音频数据处理方法
CN108109614A (zh) 一种新型的机器人带噪音语音识别装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant