CN107910002A - 一种人机语音图形交互系统及方法 - Google Patents
一种人机语音图形交互系统及方法 Download PDFInfo
- Publication number
- CN107910002A CN107910002A CN201711385318.6A CN201711385318A CN107910002A CN 107910002 A CN107910002 A CN 107910002A CN 201711385318 A CN201711385318 A CN 201711385318A CN 107910002 A CN107910002 A CN 107910002A
- Authority
- CN
- China
- Prior art keywords
- machine language
- man machine
- signal
- module
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000005236 sound signal Effects 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000006243 chemical reaction Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 16
- 230000009467 reduction Effects 0.000 claims abstract description 16
- 239000000463 material Substances 0.000 claims description 44
- 238000004891 communication Methods 0.000 claims description 38
- 238000000605 extraction Methods 0.000 claims description 14
- 238000013016 damping Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 7
- 239000002184 metal Substances 0.000 claims description 7
- 239000003973 paint Substances 0.000 claims description 4
- 238000006386 neutralization reaction Methods 0.000 claims description 2
- 238000010422 painting Methods 0.000 claims 1
- 230000002452 interceptive effect Effects 0.000 abstract description 17
- 238000013461 design Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000011946 reduction process Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005253 cladding Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种人机语音图形交互系统及方法,该系统包括声音采集模块、语音处理模块以及动态表情反馈模块;声音采集模块,用于获取用户输入的音频信号;语音处理模块,与声音采集模块连接,用于对获取的音频信号进行滤波、降噪、转换处理,输出有效文字信号;动态表情反馈模块,与语音处理模块连接,用于接收有效文字信号,并根据有效文字信号反馈相应的动态图形。因此,采用本发明提供系统或方法,能够在嘈杂环境或者用户语音命令表达略模糊时做出准确的音频信息提取与辨别,输出有效文字信号,并根据有效文字信号以图形形式反馈与用户,避免呈现形式单一,提高用户的互动体验感。
Description
技术领域
本发明涉及智能控制与人机交互领域,特别涉及一种人机语音图形交互系统及方法。
背景技术
随着人类社会的发展和人类生活质量水平的提高,对智能机器人与用户之间的交互形式要求不断提高,一种更智能化、更和谐化的人机交互系统的需求愈发迫切。目前,大多数人机交互系统的语音识别成功率特别低,无法在嘈杂环境或者用户语音命令表达略模糊时做出准确的信息提取与辨别,处理语音指令的能力非常有限。此外,人机交互系统的回馈机制,呈现形式过于单一,用户的互动体验感不强。因此,现有的人机交互系统有待改善与提高。
发明内容
本发明目的是提供一种人机语音图形交互系统及方法,能够在嘈杂环境或者用户语音命令表达略模糊时做出准确的信息提取与辨别,输出语音指令,并根据语音指令以图形形式反馈与用户,避免呈现形式单一,提高用户的互动体验感。
为实现上述目的,本发明提供了如下方案:
一种人机语音图形交互系统,所述人机语音图形交互系统包括声音采集模块、语音处理模块以及动态表情反馈模块;
所述声音采集模块,用于获取用户输入的音频信号;
所述语音处理模块,与所述声音采集模块连接,用于对获取的所述音频信号进行滤波、降噪、转换处理,输出有效文字信号;
所述动态表情反馈模块,与所述语音处理模块连接,用于接收所述有效文字信号,并根据所述有效文字信号反馈相应的动态图形。
可选的,所述声音采集模块包括:麦克风接口和外部声道接口;所述麦克风接口用于直接获取用户输入的音频信号;所述外部声道接口用于获取外部声源部件输入的音频信号。
可选的,所述语音处理模块包括:无源低通滤波电路、主控芯片、低功率音频运算放大器以及音频转化芯片;所述低功率音频运算放大器与所述无源低通滤波电路、所述主控芯片、所述音频转化芯片均连接;所述主控芯片还与所述音频转化芯片连接;所述无源低通滤波电路还与所述声音采集模块连接;所述主控芯片的型号为AT89S51;所述音频数字转换芯片型号为TLV5580;
其中,所述主控芯片包括相等声波产生单元、词汇存储库以及控制单元;所述相等声波产生单元用于产生与所述音频信号振幅相同,相位差180度的相等声波;所述词汇存储库内存储有效词汇和无效词汇;所述无源低通滤波电路用于对获取的所述音频信号进行滤波处理,得到滤波后的音频信号;所述低功率音频运算放大器用于根据所述相等声波,中和所述滤波后的音频信号的噪声,得到声音信号;所述音频转化芯片用于将所述声音信号转化为文字信号;所述控制单元用于根据所述文字信号和所述词汇存储库,剔除无效文字信号,保留有效文字信号。
可选的,所述语音处理模块还包括通信串口;所述通信串口与所述语音处理模块、所述动态表情反馈模块均连接,用于将所述有效文字信号传送至所述动态表情反馈模块。
可选的,所述动态表情反馈模块具体为显示屏;所述显示屏内置Android Studio程序、表情素材存储库以及分类器;通过所述Android Studio程序中的python中的serial库的调用进行串口通信获取所述有效文字信号,并根据所述有效文字信号和所述表情素材存储库,调取所述分类器进行表情素材的选择,再使用所述Android Studio程序中的pillow库提取所述有效文字信号对应的表情素材,逐帧呈现为动态图形。
可选的,所述人机语音图形交互系统还包括外壳、辅助金属元件;所述外壳的材料为阻尼材料;所述辅助金属元件的外部涂层材料为阻尼涂料。
可选的,所述人机语音图形交互系统还包括通讯指示灯;所述通讯指示灯与所述动态表情反馈模块连接,用于显示所述动态表情反馈模块的工作状态。
本发明还提供了一种人机语音图形交互方法,所述人机语音图形交互方法应用于所述的人机语音图形交互系统,所述人机语音图形交互方法包括:
获取用户输入的音频信号;
根据用户输入的所述音频信号,确定有效文字;
将所述有效文字与预先存储的关键词进行匹配,确定所述有效文字的预置值;所述关键词与所述预置值一一对应;
根据所述预置值和预先存储的表情素材,确定所述音频信号对应的动态图形;所述预置值还与所述预先存储的表情素材一一对应。
可选的,所述根据用户输入的所述音频信号,确定有效文字,具体包括:
对用户输入的所述音频信号进行滤波、降噪,得到声音信号;
将所述声音信号转化为文字信号,并根据所述文字信号和词汇存储库,剔除无效文字,保留有效文字。
可选的,在根据所述预置值和预先存储的表情素材,确定所述音频信号对应的动态图形之前,还包括:
判断动态表情反馈模块是否接收到所述预置值,得到第一判断结果;
若所述第一判断结果表示所述动态表情模块接收到所述预置值,则输出通讯指示灯闪亮指令和所述预置值对应的动态图形;
若所述第一判断结果表示所述动态表情模块未接收到所述预置值,则输出所述通讯指示灯长闪亮指令,并返回将所述有效文字与预先存储的词汇进行匹配确定所述有效文字的预置值的步骤。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了一种人机语音图形交互系统及方法,该系统包括声音采集模块、语音处理模块以及动态表情反馈模块;所述声音采集模块,用于获取用户输入的音频信号;所述语音处理模块,与所述声音采集模块连接,用于对获取的所述音频信号进行滤波、降噪、转换处理,输出有效文字信号;所述动态表情反馈模块,与所述语音处理模块连接,用于接收所述有效文字信号,并根据所述有效文字信号反馈相应的动态图形。因此,采用本发明提供系统或方法,能够在嘈杂环境或者用户语音命令表达略模糊时做出准确的音频信息提取与辨别,输出有效文字信号,并根据有效文字信号以图形形式反馈与用户,避免呈现形式单一,提高用户的互动体验感。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例人机语音图形交互系统的结构示意图;
图2为本发明实施例人机语音图形交互系统的平面结构示意图;
图3为本发明实施例人机语音图形交互系统的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明目的是提供一种人机语音图形交互系统及方法,能够在嘈杂环境或者用户语音命令表达略模糊时做出准确的信息提取与辨别,输出语音指令,并根据语音指令以图形形式反馈与用户,避免呈现形式单一,提高用户的互动体验感。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例人机语音图形交互系统的结构示意图,如图1所示,本发明提供的人机语音图形交互系统包括声音采集模块1、语音处理模块2以及动态表情反馈模块3。
所述声音采集模块1,用于获取用户输入的音频信号。
所述语音处理模块2,与所述声音采集模块1连接,用于对获取的所述音频信号进行滤波、降噪、转换处理,输出有效文字信号。
所述动态表情反馈模块3,与所述语音处理模块2连接,用于接收所述有效文字信号,并根据所述有效文字信号反馈相应的动态图形。
其中,所述声音采集模块1包括麦克风接口和外部声道接口;所述麦克风接口用于直接获取用户输入的音频信号;所述外部声道接口用于获取外部声源部件输入的音频信号。
所述语音处理模块2包括无源低通滤波电路、主控芯片、低功率音频运算放大器以及音频转化芯片;所述低功率音频运算放大器与所述无源低通滤波电路、所述主控芯片、所述音频转化芯片均连接;所述主控芯片还与所述音频转化芯片连接;所述无源低通滤波电路还与所述声音采集模块连接;所述主控芯片的型号为AT89S51;所述音频数字转换芯片型号为TLV5580。
所述主控芯片包括相等声波产生单元、词汇存储库以及控制单元;所述相等声波产生单元用于产生与所述音频信号振幅相同,相位差180度的相等声波;所述词汇存储库包括有效词汇和无效词汇;所述无源低通滤波电路用于对获取的所述音频信号进行滤波处理,得到滤波后的音频信号;所述低功率音频运算放大器用于根据所述相等声波,中和所述滤波后的音频信号的噪声,得到声音信号;所述音频转化芯片用于将所述声音信号转化为文字信号;所述控制单元用于根据所述文字信号和所述词汇存储库,剔除无效文字信号,保留有效文字信号。
所述语音处理模块2还包括通信串口;所述通信串口与所述语音处理模块、所述动态表情反馈模块均连接,用于将所述有效文字信号传送至所述动态表情反馈模块。
所述动态表情反馈模块3的硬件为显示屏;所述显示屏内置Android Studio程序、表情素材存储库以及分类器;通过所述Android Studio程序中的python中的serial库的调用进行串口通信获取所述有效文字信号,并根据所述有效文字信号和所述表情素材存储库,调取所述分类器进行表情素材的选择,再使用所述Android Studio程序中的pillow库提取所述有效文字信号对应的表情素材,逐帧呈现为动态图形。
所述人机语音图形交互系统还包括外壳、辅助金属元件;所述外壳的材料为阻尼材料;所述辅助金属元件的外部涂层材料为阻尼涂料。
所述人机语音图形交互系统还包括通讯指示灯;所述通讯指示灯与所述动态表情反馈模块连接,用于显示所述动态表情反馈模块的工作状态。
图2为本发明实施例人机语音图形交互系统的平面结构示意图;如图2所示,本发明实施例提供的一种人机语音图形交互系统包括语音接口和动态表情系统两部分组成。语音接口主要由声音采集模块、降噪模块、信息处理单元组成。
其中,声音采集模块包括麦克风接口、外部声道输入接口构成。此处的设计目的在于可以使该人机语音图形交互系统的语音接口对于声音的采集方式更加多样化,它既可以通过麦克风让进行交互的用户直接输入语音命令,也可以连接外部声源部件于外部声道输入接口进行声音信息的采集,进而实现远程或预设指令的接收。比如说,可以将录音文件通过有线连接的方式录入该系统。用于智能家具的控制——可以将这个外部接口与某一台手机、平板进行有线连接,只要拨通电话,手机端自动接听,这个外部声道输入接口会接收到远程的声音指令。
降噪模块的工作原理采用软硬件结合的方式来进行声音的锐化。软件的作用在于产生同语音命令的音频信号振幅相同,相位差180度的相等声波,进而中和音频信号中的噪声,降低干扰。硬件为一种降噪电路,包括低功率音频运算放大器、无源低通滤波电路以及电阻电容等。通过降噪模块充分抵消音频信号噪声部分,大大提高语音信号被识别的精准度;此外,为了语音接口的降噪效果更加显著,本发明在硬件搭建方面采用的是阻尼材料定制的外壳并且对必要的金属元件进行阻尼涂料的涂抹以降低噪音,减少噪声辐射面积;这些金属元件比如像金属外壳,或者挡在主要芯片外面的保护金属壳。实现软件作用的芯片为AT89S51单片机。
信息处理单元主要就是将处理后的音频信号进行识别。识别过程就是需要跟预设的词汇存储库里的有效词汇、垃圾词汇做比对,根据比对结果来进行语音命令的识别以及情况的分类输出。技术难点在于建立词汇存储库。要在实现该交互系统的功能的基础上进行情况的设定以及词汇的录入、词库的搭建。词库的存储依赖于主控芯片中的存储器(主控芯片为AT89S51单片机内)。在进行识别之前,信息处理单元还需要将降噪处理后的音频信号转化为文字信号(数字信号)再进与词汇存储库的对比。这里数模转化的硬件依赖与TLV5580(一种专门用来进行数据转化的芯片)。最终语音接口会将声音辨识结果输出值通过串口输出给动态表情系统。通信采用有线连接或者蓝牙通信。
语音接口还包括:外接扬声器接口、耳机接口、通信接口、电源接口以及下载。
动态表情系统里的包括用户界面的设计以及通信模块的构建。人机图形交互的用户界面是基于Android studio设计并开发的一个可以在任何Android操作系统下运行的应用程序。其中,APP的程序设计是通过对表情数据库中素材的分类编码,进行与上一级判断值相对应的表情包提取,通过逐帧显示的方式实现动画表情的结果。其中,Android Studio是一个Android集成开发工具,基于IntelliJ IDEA.类似Eclipse ADT。Android Studio提供了集成的Android开发工具用于开发和调试。对于动态表情系统的呈现依托于对Android应用程序的开发。本发明采用Java语言对APP的设计与空间布局。
Android studio利用平板电脑或手机等显示屏来进行最终的运行和呈现。用户界面同样也是依赖内置Android studio程序的显示屏,此显示屏也可触摸。
该动态表情系统通过Android studio程序中的python中serial库的调用进行串口通信以获得语音接口的声音辨识结果输出值。Android Studio中APP的开发设计会对该声音辨识结果输出值进行监听设置,当监听信号得到响应后会调取表情数据库的分类器进行表情素材的选择;再使用pillow库来实现表情素材的提取并逐帧呈现为动态图展示。
表情素材的设计利用的是3D MAX来进行构图与动画编程,最终生成图形或者视频。利用3DMAX来进行表情包的绘制与设计的优点是:构图是3D效果,可观赏性强,提高人机交互的体验感。
该动态表情系统的硬件方面,显示屏选择的是分辨率为1280*800的LED显示屏,显示屏依托于Android平台的手机或者平板。通过蓝牙模块或者IO口来与语音接口进行数据通信。动态表情系统还包括:通信接口、电源接口以及下载接口。硬件搭建上更加节省空间并且在外观上也更加地简洁、直观。
所述人机语音图形交互系统的工作流程具体步骤如下:
步骤一:上电后自动初始化进入正常的人机语音图形交互界面,输出预设语音信息以提示获取用户的语音指令。
步骤二:用户根据提示表达自己的语音指令信息,声音采集模块自动采集、接收该指令信息,并将其发送给降噪模块以处理获取清晰化、准确化的语句。
具体为将接收到的用户的语音命令(音频信号),音频信号经过降噪模块处理锐化后就会以声音信号的形式被传送到信息处理单元。
步骤三:信息处理单元对降噪处理后的声音信号进行提取与识别,判断是否与系统预设库中的有效词汇、语句是否匹配,进一步整理实现与判断结果相应的预置值输出;若未能识别用户的语音指令,系统自动跳回步骤一以重新接收正确的用户语音信息。
识别过程:在设计初期会根据人机语音图形交互系统的预设功能建立词汇存储库,其中词汇存储库包括有效词汇(关键词)以及无效词汇。对降噪处理后的声音信号经过数模转化之后得到文字信息,并与预设词汇存储库的词汇进行匹配,对比,从而进行有效词汇识别与判断,得到声音辨识结果输出值(预置值)。(这里垃圾词汇的设置是根据有效词汇的同音、谐音、声调等不同进行设立的,从而达到精确识别命令)。
步骤四:通过串口通信的方式将信息处理单元的预置值发送给动态表情系统的接收端。若接收端没有得到预置值输入,系统会通过其他串口输出电平信号来控制通讯指示灯长亮以提示系统内部通信中断,继而会自动返回步骤三;若接收端成功获得预置值输入,串口会输出电平信号来使通讯指示灯闪亮并且系统会进入表情素材的提取阶段。
步骤五:系统后台根据预置值进行结果分类,随后会对表情素材库进行搜索、匹配、提取。
具体为语音接口在对不同语音命令进行识别后输出不同的数字(十六进制)通过IO口或者蓝牙通信传输给动态表情系统,动态表情系统中的不同表情素材是有不同编号的,这个传送的十六进制数与素材图的标号对应,然后进行提取,匹配。也就是说哪个表情对应哪个命令是预先设计的,语音接口和动态表情系统标号对应就实现了不同情况的表情提取,将动态表情呈现出来使得用户可以直观地观赏反馈结果。
步骤六:提醒用户此次交互完成,语音提示用户进行选择——是否继续新的交互,根据用户所表达的语句指令意图判断、决策结束人机交互系统的运行或是返回步骤一进行新一轮的交互历程。
本发明提供的人机语音图形交互系统包括以下的功能阶段:
语音接口对语音命令的采集与接收功能
语音接口通过声音采集模块来实现对用户语音命令信息的接收与采集。可以通过有源麦克风来采集用户语音命令信息。除此之外,也可以通过立体声输入通道声音文件以获得用户语音命令信息。本发明中对声音的多种采集方式进行了融合,为用户提供了除直接输入语音指令以外的交互方式,使得用户可以在特殊情况下,使用声音文件的输入实现远程的用户语音命令信息的输入。
语音接口对用户语音命令信息处理功能
在成功接收、采集到用户语音命令信息后,接下来会被处理成更加清晰、准确的指令以便系统进行之后的反馈输出。其中信息处理阶段包括:
降噪处理
降噪处理模块的电路设计首先是通过改变噪点阈值、端点检测位置、麦克风灵敏度等来实现粗略的清晰化的语音采集,并且通过滤波电路来实现主动降噪:利用该模块中的运放电路快速分析噪声特性后,滤波会产生一种与语音信号相位差180度、大小相等的声波以叠加给原本信号,这样就可以充分抵消噪声部分,进而使得用户即使在嘈杂环境中或表达的语音指令意图较模糊情况下也可以被系统准确接收、识别。
识别指令信息
经过降噪处理后的语音指令会继续进入信息处理模块接受预处理与特征提取,通过与词汇存储库中的有效词汇匹配,进行相似度的判断最终处理形成识别结果。
语音接口与动态表情系统之间的连接与通信功能
处理过后的语音命令在被识别之后形成的识别结果会影响着语音接口对动态表情系统通讯信号的输出。根据不同的识别结果,系统会做出相应的选择来对串口输出该有的通讯信号,进而动态表情系统才能接收到通讯信号指示命令以控制表情素材的提取与呈现。其中,语音接口与动态表情系统的连接、通信是依赖于软件控制,实现快速、直接地连接系统的两大部分,准确进行信号的传递。
系统对表情素材的选择、提取以及最终的动画呈现功能
动态表情系统接收到语音接口的通讯信号后会在后台进行信号识别、判断,进而来进行对动态表情素材的提取,通过软件的控制来实现呈现功能。
本发明公开了一种人与机器人之间进行语音、图形交互的系统,其涉及智能控制与人机交互领域。该系统由一组可以准确接收、处理并识别用户语音命令的接口和一套基于动画表情设计出的动态表情系统构成。其中,语音接口由主控芯片、声音采集模块、降噪模块、信息处理单元、通讯串口组成,实现在较为嘈杂的环境下对用户的语音指令进行接收并且按照预设关键词来识别语音命令意图的功能,并可以依托通讯串口输出特定信号值以供触发动态表情系统的反馈程序。动态表情系统的设计主要是利用软件编程来实现对语音接口输出值的通讯接收,再根据对该值的判断进行选择并提取对应的动态表情进行反馈呈现。本发明提供的交互系统可以清晰地接收并识别用户的语音指令,大大提高了传统语音接口的采集精度;利用动态表情机制来反馈用户的人机交互形式,极大的增加了人机交互系统的可观赏性与趣味性,使得用户体验更加灵活、生动。
为实现上述目的,本发明还提供了一种人机语音图形交互方法。
图3为本发明实施例人机语音图形交互系统的流程示意图,如图3所示,本发明提供的所述人机语音图形交互方法应用于所述的人机语音图形交互系统,所述人机语音图形交互方法包括具体以下步骤:
步骤301:获取用户输入的音频信号。
步骤302:根据用户输入的所述音频信号,确定有效文字。
步骤303:将所述有效文字与预先存储的关键词进行匹配,确定所述有效文字的预置值;所述关键词与所述预置值一一对应。
步骤304:根据所述预置值和预先存储的表情素材,确定所述音频信号对应的动态图形;所述预置值还与所述预先存储的表情素材一一对应。
其中所述步骤302具体包括:
对用户输入的所述音频信号进行滤波、降噪,得到声音信号。
将所述声音信号转化为文字信号,并根据所述文字信号和词汇存储库,剔除无效文字信号,保留有效文字信号。
所述步骤302具体包括:将所述有效文字与预先存储的关键词进行匹配,确定与所述所述有效文字相匹配的所述关键词,并根据所述关键词确定与所述关键词相对应的预置值,进而确定所述有效文字的预置值。
在执行步骤304之前,所述人机语音图形交互方法还包括:
判断动态表情反馈模块是否接收到所述预置值,得到第一判断结果。
若所述第一判断结果表示所述动态表情模块接收到所述预置值,则输出通讯指示灯闪亮指令和所述预置值对应的动态图形。
若所述第一判断结果表示所述动态表情模块未接收到所述预置值,则输出所述通讯指示灯长闪亮指令,并返回将所述有效文字与预先存储的词汇进行匹配确定所述有效文字的预置值的步骤。
步骤304具体包括:根据所述预置值和预先存储的表情素材,确定与预置值相对应的表情素材,并根据所述音频信号-所述有效文字-所述关键词-所述预置值-所述表情素材,确定所述音频信号对应的动态图形。
本发明实施例提供的交互系统或者方法能够实现用户与机器人之间的和谐交互,使得用户的语音需求即使在比较嘈杂的环境中或是指令比较模糊的情况下也可以被系统准确、清晰地采集、识别,进而快速处理语音内容以形成判断信号输出、提取相应的反馈表情来用生动的形式完成人与机器人之间的智能交互。同时,该交互系统有良好的人机交互顺畅性、其控制方式直接且明了,表情反馈机制可观赏性强,趣味性大,对用户能够形成较好的人机交互体验效果。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种人机语音图形交互系统,其特征在于,所述人机语音图形交互系统包括声音采集模块、语音处理模块以及动态表情反馈模块;
所述声音采集模块,用于获取用户输入的音频信号;
所述语音处理模块,与所述声音采集模块连接,用于对获取的所述音频信号进行滤波、降噪、转换处理,输出有效文字信号;
所述动态表情反馈模块,与所述语音处理模块连接,用于接收所述有效文字信号,并根据所述有效文字信号反馈相应的动态图形。
2.根据权利要求1所述的人机语音图形交互系统,其特征在于,所述声音采集模块包括:麦克风接口和外部声道接口;所述麦克风接口用于直接获取用户输入的音频信号;所述外部声道接口用于获取外部声源部件输入的音频信号。
3.根据权利要求1所述的人机语音图形交互系统,其特征在于,所述语音处理模块包括:无源低通滤波电路、主控芯片、低功率音频运算放大器以及音频转化芯片;所述低功率音频运算放大器与所述无源低通滤波电路、所述主控芯片、所述音频转化芯片均连接;所述主控芯片还与所述音频转化芯片连接;所述无源低通滤波电路还与所述声音采集模块连接;所述主控芯片的型号为AT89S51;所述音频数字转换芯片型号为TLV5580;
其中,所述主控芯片包括相等声波产生单元、词汇存储库以及控制单元;所述相等声波产生单元用于产生与所述音频信号振幅相同、相位差180度的相等声波;所述词汇存储库内存储有效词汇和无效词汇;所述无源低通滤波电路用于对获取的所述音频信号进行滤波处理,得到滤波后的音频信号;所述低功率音频运算放大器用于根据所述相等声波,中和所述滤波后的音频信号的噪声,得到声音信号;所述音频转化芯片用于将所述声音信号转化为文字信号;所述控制单元用于根据所述文字信号和所述词汇存储库,剔除无效文字信号,保留有效文字信号。
4.根据权利要求3所述的人机语音图形交互系统,其特征在于,所述语音处理模块还包括通信串口;所述通信串口与所述语音处理模块、所述动态表情反馈模块均连接,用于将所述有效文字信号传送至所述动态表情反馈模块。
5.根据权利要求1所述的人机语音图形交互系统,其特征在于,所述动态表情反馈模块具体为显示屏;所述显示屏内置Android Studio程序、表情素材存储库以及分类器;通过所述Android Studio程序中的python中的serial库的调用进行串口通信获取所述有效文字信号,并根据所述有效文字信号和所述表情素材存储库,调取所述分类器进行表情素材的选择,再使用所述Android Studio程序中的pillow库提取所述有效文字信号对应的表情素材,逐帧呈现为动态图形。
6.根据权利要求1所述的人机语音图形交互系统,其特征在于,所述人机语音图形交互系统还包括外壳、辅助金属元件;所述外壳的材料为阻尼材料;所述辅助金属元件的外部涂层材料为阻尼涂料。
7.根据权利要求1所述的人机语音图形交互系统,其特征在于,所述人机语音图形交互系统还包括通讯指示灯;所述通讯指示灯与所述动态表情反馈模块连接,用于显示所述动态表情反馈模块的工作状态。
8.一种人机语音图形交互方法,其特征在于,所述人机语音图形交互方法应用于权利要求1-7任意一项所述的人机语音图形交互系统,所述人机语音图形交互方法包括:
获取用户输入的音频信号;
根据用户输入的所述音频信号,确定有效文字;
将所述有效文字与预先存储的关键词进行匹配,确定所述有效文字的预置值;所述关键词与所述预置值一一对应;
根据所述预置值和预先存储的表情素材,确定所述音频信号对应的动态图形;所述预置值还与所述预先存储的表情素材一一对应。
9.根据权利要求8所述的人机语音图形交互方法,其特征在于,所述根据用户输入的所述音频信号,确定有效文字,具体包括:
对用户输入的所述音频信号进行滤波、降噪,得到声音信号;
将所述声音信号转化为文字信号,并根据所述文字信号和词汇存储库,剔除无效文字,保留有效文字。
10.根据权利要求8所述的人机语音图形交互方法,其特征在于,在根据所述预置值和预先存储的表情素材,确定所述音频信号对应的动态图形之前,还包括:
判断动态表情反馈模块是否接收到所述预置值,得到第一判断结果;
若所述第一判断结果表示所述动态表情模块接收到所述预置值,则输出通讯指示灯闪亮指令和所述预置值对应的动态图形;
若所述第一判断结果表示所述动态表情模块未接收到所述预置值,则输出所述通讯指示灯长闪亮指令,并返回将所述有效文字与预先存储的词汇进行匹配确定所述有效文字的预置值的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711385318.6A CN107910002A (zh) | 2017-12-20 | 2017-12-20 | 一种人机语音图形交互系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711385318.6A CN107910002A (zh) | 2017-12-20 | 2017-12-20 | 一种人机语音图形交互系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107910002A true CN107910002A (zh) | 2018-04-13 |
Family
ID=61870562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711385318.6A Pending CN107910002A (zh) | 2017-12-20 | 2017-12-20 | 一种人机语音图形交互系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107910002A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111475131A (zh) * | 2020-04-07 | 2020-07-31 | 上海思依暄机器人科技股份有限公司 | 音频绘图方法、装置及音频绘图设备 |
CN111898923A (zh) * | 2020-08-12 | 2020-11-06 | 中国人民解放军总医院第二医学中心 | 一种信息分析方法 |
CN112382288A (zh) * | 2020-11-11 | 2021-02-19 | 湖南常德牌水表制造有限公司 | 一种语音调试设备的方法、系统、计算机设备和存储介质 |
CN112530432A (zh) * | 2020-12-01 | 2021-03-19 | 苏州三六零智能安全科技有限公司 | 动态显示系统、装置及方法 |
CN113223518A (zh) * | 2021-04-16 | 2021-08-06 | 讯飞智联科技(江苏)有限公司 | 一种基于ai语音分析的边缘计算网关的人机互动的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102013254A (zh) * | 2010-11-17 | 2011-04-13 | 广东中大讯通信息有限公司 | 一种数字电视语音识别人机交互系统及方法 |
CN202634678U (zh) * | 2012-05-09 | 2012-12-26 | 深圳市禹欣鑫电子有限公司 | 一种降噪电路 |
CN104635574A (zh) * | 2014-12-15 | 2015-05-20 | 山东大学 | 一种面向幼儿的早教陪护机器人系统 |
CN107066477A (zh) * | 2016-12-13 | 2017-08-18 | 合网络技术(北京)有限公司 | 一种智能推荐视频的方法及装置 |
CN207651166U (zh) * | 2017-12-20 | 2018-07-24 | 北京工业大学 | 一种人机语音图形交互系统 |
-
2017
- 2017-12-20 CN CN201711385318.6A patent/CN107910002A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102013254A (zh) * | 2010-11-17 | 2011-04-13 | 广东中大讯通信息有限公司 | 一种数字电视语音识别人机交互系统及方法 |
CN202634678U (zh) * | 2012-05-09 | 2012-12-26 | 深圳市禹欣鑫电子有限公司 | 一种降噪电路 |
CN104635574A (zh) * | 2014-12-15 | 2015-05-20 | 山东大学 | 一种面向幼儿的早教陪护机器人系统 |
CN107066477A (zh) * | 2016-12-13 | 2017-08-18 | 合网络技术(北京)有限公司 | 一种智能推荐视频的方法及装置 |
CN207651166U (zh) * | 2017-12-20 | 2018-07-24 | 北京工业大学 | 一种人机语音图形交互系统 |
Non-Patent Citations (1)
Title |
---|
高艳玲: "物理污染控制", 31 July 2005, 中国建材工业出版社, pages: 84 - 87 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111475131A (zh) * | 2020-04-07 | 2020-07-31 | 上海思依暄机器人科技股份有限公司 | 音频绘图方法、装置及音频绘图设备 |
CN111898923A (zh) * | 2020-08-12 | 2020-11-06 | 中国人民解放军总医院第二医学中心 | 一种信息分析方法 |
CN112382288A (zh) * | 2020-11-11 | 2021-02-19 | 湖南常德牌水表制造有限公司 | 一种语音调试设备的方法、系统、计算机设备和存储介质 |
CN112382288B (zh) * | 2020-11-11 | 2024-04-02 | 湖南常德牌水表制造有限公司 | 一种语音调试设备的方法、系统、计算机设备和存储介质 |
CN112530432A (zh) * | 2020-12-01 | 2021-03-19 | 苏州三六零智能安全科技有限公司 | 动态显示系统、装置及方法 |
CN113223518A (zh) * | 2021-04-16 | 2021-08-06 | 讯飞智联科技(江苏)有限公司 | 一种基于ai语音分析的边缘计算网关的人机互动的方法 |
CN113223518B (zh) * | 2021-04-16 | 2024-03-22 | 讯飞智联科技(江苏)有限公司 | 一种基于ai语音分析的边缘计算网关的人机互动的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107910002A (zh) | 一种人机语音图形交互系统及方法 | |
CN107644642B (zh) | 语义识别方法、装置、存储介质及电子设备 | |
CN110310623A (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
CN106021606B (zh) | 一种指纹模板更新方法及终端设备 | |
DE69833703T2 (de) | Verfahren und System zur Zeichenerkennung für ein mobiles Kommunikationsendgerät | |
CN102193633B (zh) | 一种数据手套动态手语识别方法 | |
CN105163234B (zh) | 一种自拍杆的适配方法、装置及相应移动设备 | |
CN207651166U (zh) | 一种人机语音图形交互系统 | |
CN107491286A (zh) | 移动终端的语音输入方法、装置、移动终端及存储介质 | |
CN106297657A (zh) | 一种amoled显示屏的亮度调节方法及终端 | |
CN206312566U (zh) | 一种车载智能音频装置 | |
CN105011486A (zh) | 一种智能手环及其解锁终端设备的方法 | |
CN113033245A (zh) | 一种功能调节方法、装置、存储介质及电子设备 | |
CN105551490A (zh) | 一种电子测量仪器的智能语音交互系统及方法 | |
CN106462256A (zh) | 一种基于主动唤醒的功能推荐方法、系统及机器人 | |
CN103514879A (zh) | 一种基于bp神经网络的本地语音识别方法 | |
CN106156583A (zh) | 一种语音解锁的方法及终端 | |
CN111462741B (zh) | 语音数据处理方法、装置及存储介质 | |
CN108053822A (zh) | 一种语音信号处理方法、装置、终端设备及介质 | |
CN105225665A (zh) | 一种语音识别方法及语音识别装置 | |
CN108769850A (zh) | 设备控制方法及相关产品 | |
CN107783763A (zh) | 一种应用程序生成方法、装置、服务器和可读存储介质 | |
CN109144454A (zh) | 双面屏显示控制方法及相关产品 | |
CN111081254B (zh) | 一种语音识别方法和装置 | |
CN105357641A (zh) | 一种位置更新控制方法及用户终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |