CN101246687A - 一种智能语音交互系统及交互方法 - Google Patents

一种智能语音交互系统及交互方法 Download PDF

Info

Publication number
CN101246687A
CN101246687A CNA2008101023467A CN200810102346A CN101246687A CN 101246687 A CN101246687 A CN 101246687A CN A2008101023467 A CNA2008101023467 A CN A2008101023467A CN 200810102346 A CN200810102346 A CN 200810102346A CN 101246687 A CN101246687 A CN 101246687A
Authority
CN
China
Prior art keywords
processor
voice
module
processing unit
interactive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008101023467A
Other languages
English (en)
Inventor
魏洪兴
王田苗
陶永
邹莹
刘淼
李仕毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Beijing University of Aeronautics and Astronautics
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CNA2008101023467A priority Critical patent/CN101246687A/zh
Publication of CN101246687A publication Critical patent/CN101246687A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Toys (AREA)

Abstract

本发明公开了一种智能语音交互系统及交互方法,该系统包括:处理器、存储器、语音处理单元、语音输入装置、语音输出装置、通信处理单元构成;处理器、存储器、语音处理单元及通信处理单元均设置在电路板上,存储器、语音处理单元及通信处理单元通过总线与处理器连接构成嵌入式控制板;语音输入装置、语音输出装置分别与嵌入式控制板上的所述的语音处理单元连接;通信处理单元上设有通信接口,所述通信接口用于与安装定制用客户端软件的计算机连接。该系统可以作为通用的智能语音交互平台,且用户可自己设置不同的交互情景和识别内容,应用在多种场合,如人机对话系统、智能玩具或服务机器人等,应用性更强,实用性更强,可脱离计算机进行工作。

Description

一种智能语音交互系统及交互方法
技术领域
本发明涉及智能语音控制技术领域,尤其涉及一种嵌入式结构的智能语音交互系统及交互方法。
背景技术
目前基于语音处理技术的消费类电子产品在市场上大为流行,交互型产品已有很多种,但这些产品中多数基于专用的语音识别芯片,其内核为单片机或数字信号中央处理器,其实质是将麦克风输入的声音信号采样编码,再通过内部处理器与其事先录制好的语音信息匹配,再将相应的语音信息通过片内的模块经过外置的扬声器输出。但由于硬件技术限制,现有的产品无法更新固化存储到硬件内的语音对话内容,容量有限,而且语音识别的字数也受到限制,一般6~10字,并且其交互过程中,对语音的智能识别效果并不好,识别率较低,其交互的方式、场合、可靠性、可更新性等均受到很大的限制,导致该技术无法普及使用。
如现有一种语音交互玩具,其发出的声音信号为拟人信号且对话的内容为固化到该装置内的语音内容,当使用者为儿童时,存在其不易接受其拟人化的声音,且该装置还存在不能自由及时更改交互所用的对话内容的问题,用户使用一段时间后,失去新鲜感,从而趣味性降低,同时不能发挥用户的设计能力,用户不能定制其个性化的交互内容和发音。
发明内容
本发明提供了一种智能语音交互系统及交互方法,通过对采集后的语音信息的比对,根据比对结果进行准确应答,完成人机对话交互,并可以及时更新所存储的语音信息达到变更对话场景的目的。
本发明的目的是通过以下技术方案实现的:
本发明实施方式提供一种智能语音交互系统,该系统包括:
处理器、存储器、语音处理单元、语音输入装置、语音输出装置、通信处理单元构成;
处理器、存储器、语音处理单元及通信处理单元均设置在电路板上,存储器、语音处理单元及通信处理单元通过总线与处理器连接构成嵌入式控制板;
语音输入装置、语音输出装置分别与嵌入式控制板上的所述的语音处理单元连接;
通信处理单元上设有通信接口,所述通信接口用于与安装定制用客户端软件的计算机连接。
所述存储器包括:
动态存储器与FLASH存储器,两者分别通过地址/数据总线与处理器连接。
所述语音处理单元包括:
语音采集模块,与所述语音输入装置及处理器连接,用于接收语音输入装置输入的语音信息并传送至处理器;
语音输出模块,与所述处理器及语音输出装置连接,用于将处理器处理后的语音信息输出至语音输出装置。
所述通信处理单元包括:
USB接口处理模块,与连接安装定制用客户端软件的计算机的USB接口连接,对经所述USB接口从计算机获取的数据传送至FLASH存储器,并由所述处理器进行处理;
无线处理模块,与安装定制用客户端软件的计算机进行无线连接,用于对通过无线连接从计算机中获取的数据传送至所述处理器进行处理。
所述无线处理模块包括:
蓝牙模块或无线网络模块WLAN。
所述系统还包括:
显示处理模块,通过总线与处理器连接,用于处理处理器输出的图形界面信息,显示处理模块上设有用于连接显示装置的显示接口;
显示装置,与所述显示处理模块的显示接口连接,用于显示由所述显示处理模块输出的图形界面信息。
本发明实施方式还提供一种智能语音交互系统的交互方法,该方法包括:
系统启动,处理器加载存储器中的语音识别模块及语音库模块;
语音输入装置录入外部声音命令并传送至语音处理单元,外部声音命令经语音处理单元转化为数字声音信号;
语音处理单元将所述数字声音信号传送至处理器,处理器调用所述语音识别模块对所述数字声音信号进行比对;
处理器根据比对结果,将语音库模块中的对应的应答数字声音信号通过语音处理单元经语音输出装置输出。
所述处理器加载存储器中的语音识别模块及语音库模块包括:
通过处理器的控制,将存储在FLASH存储器中的语音识别模块、语音库模块加载到动态存储器中。
所述方法还包括:从处于联机状态的计算机中,通过定制用客户端软件对所述语音库模块对应的配置文件及相应的数据进行定制更新;
或者,
通过处于联机状态的计算机从网络服务器下载与语音库模块相对应的配置文件及相应的数据,通过所述配置文件及相应的数据对语音库模块进行更新;
或者,
通过无线连接方式与网络或智能设备连接,并从网络服务器或智能设备下载与语音库模块相对应的配置文件及相应的数据,通过所述配置文件及相应的数据对语音库模块进行更新。
所述方法还包括:通过无线网络模块与网络建立连接后,使用者通过网络与该语音交互系统进行对话,将本地的语音交互扩展为通过网络进行的语音交互。
由上述本发明实施例提供的技术方案可以看出,本发明实施方式通过将采集的使用者发出的命令语音信息与系统内存储在XML配置文件中关于交互内容的设置信息比对,并根据比对结果进行准确的应答,完成与使用者进行对话的交互过程,所存储的交互的回答信息完全使用人的录音,对话场景可通过与安装客户端软件的计算机连接的方式方便的进行定制,且可以通过网上下载来及时更新系统内存储的语音信息来达到变更对话场景的目的。该系统可以作为通用的智能语音交互平台,且用户可自己设置不同的交互情景和识别内容,应用在多种场合,如人机对话系统、智能玩具或服务机器人、智能电子宠物、老年人陪护机器人等,应用性更强,实用性更强,语音交互更加亲切、自然,如同两个人进行正常谈话一般;可脱离计算机进行工作,识别率更高、数据处理速度更快、识别词表更广。
附图说明
图1为本发明实施例的语音智能系统结构框图;
图2为本发明实施例的另一语音系统结构框图;
图3为本发明实施例的语音智能系统的交互流程图;
图4为本发明实施例的语音信息定制流程图;
图5为本发明实施例的系统中各部件连接结构框图;
图6为本发明实施例的中央处理器S3C2410电路图;
图7为本发明实施例的存储器SDRAM1 HY57v56的电路图;
图8为本发明实施例的存储器SDRAM2 HY57v56的电路图;
图9为本发明实施例的存储器Flash K9F1208的电路图;
图10为本发明实施例的音频芯片WM8731的电路图;
图11为本发明实施例的USB接口部分的电路图;
图12为本发明实施例的LCD显示接口部分的电路图;
图13为本发明实施例的供电的电源部分的电路图;
图14为本发明实施例的软件体系结构示意图;
图15为本发明实施例的客户端软件定制界面示意图;
图16为本发明实施例的语音交互系统的状态转换图。
具体实施方式
本发明实施方式提供一种用于智能玩具的语音智能系统交互方法,通过语音输入装置与语音处理单元及处理器的配合,对使用者的语音信息进行采集,并经处理器将采集的语音信息与存储器中预先存储的语音识别引擎中的语音发音特征库的发音特征进行比对,根据比对结果输出准确的应答,达到人机语音交互的目的,根据存储器中存储不同的交互内容的配置信息,则可以实现不同对话场景的交互。该系统还可以通过与所连接计算机进行定制并更新对话场景,或经连接的计算机从网络上的服务器中下载并更新存储器中的相应的语音信息,达到更新语音交互对话场景的目的。该系统结构简单,使用方便,识别率高,可应用在智能玩具、服务机器人、电子宠物等需要语音交互多种语音交互平台上。
为便于理解,下面结合附图和具体实施例进行说明。
实施例一
如图1所示,本实施例提供一种用于智能玩具的语音智能系统,该系统可应用在多种话音平台上,实现语音交互,如语音智能玩具、机器人,人机对话系统等,具体结构如图1所示,包括:
处理器、存储器、语音处理单元及通信处理单元均设置在电路板上,存储器、语音处理单元及通信处理单元通过总线与处理器连接构成嵌入式控制板;
语音输入装置、语音输出装置分别与嵌入式控制板上的所述的语音处理单元连接;
通信处理单元上设有通信接口,所述通信接口与安装定制用客户端软件的计算机连接的通信接口。
其中,所述存储器包括:动态存储器与FLASH存储器,两者分别通过地址/数据总线与处理器连接。
如图2所示,上述系统中,所述的语音处理单元包括:语音采集模块,与所述语音输入装置及处理器连接,用于接收语音输入装置输入的语音信息并传送至处理器;
语音输出模块,与所述处理器及语音输出装置连接,用于将处理器处理后的语音信息输出至语音输出装置。
所述通信处理单元包括:
USB接口处理模块,与连接安装定制用客户端软件的计算机的USB接口连接,对经所述USB接口从计算机获取的数据传送至所述处理器进行处理;
无线处理模块,与安装定制用客户端软件的计算机进行无线连接,用于对通过无线连接从计算机中获取的数据传送至所述处理器进行处理。其中,所述无线处理模块可以采用蓝牙模块或无线网卡WIFI模块等,主要目的通过该无线处理模块与计算机进行数据交互。
所述系统还可以包括:显示处理模块,通过总线与处理器连接,用于处理处理器输出的图形界面信息(如:所述的语音智能系统与网络连接时,各种使用状态的界面等),显示处理模块上设有用于连接显示装置的显示接口。在具有显示处理模块的系统上,还可以设置显示装置,显示装置与所述显示处理模块的显示接口连接,用于显示由显示处理模块输出的图形界面信号,实际中显示装置可以采用液晶显示屏等。
实施例二
本实施例提供了一种基于实施例一中的智能玩具的语音智能系统的交互方法,该方法包括:
系统启动后,通过处理器的控制,将存储在FLASH存储器中的语音识别模块、语音库模块加载到动态存器中,实际中,这两个模块都是软件的形式,如基于HMM的语音识别引擎;
由语音输入装置将外部声音命令录入,通过语音处理单元(如通过语音处理单元中的语音采集芯片)将所述外部声音命令的模拟声音信号转化为数字声音信号;
将所述数字声音信号发送到处理器,同时处理器调用动态存储器中的语音识别模块,结合动态存储器中的信息对语音识别引擎中的语音发音特征库的发音特征进行比对;
处理器根据比对结果,将语音库模块中的对应的应答数字声音信号输出到语音处理单元中的语音输出模块(如语音采集芯片);
语音输出模块通过语音输出装置(扬声器)将语音输出,完成一次人机语音交互过程。
上述方法还包括:从处于联机状态的计算机中,通过定制用客户端软件对所述语音库模块对应的配置文件进行定制并更新;或者,通过处于联机状态的计算机从网络服务器下载与语音库模块相对应的配置文件,通过所述配置文件对语音库模块进行更新,达到更新系统的对话场景的目的。
具体更新定制对话场景的过程如图3所示,包括:
步骤31,打开计算机中的定制用的客户端软件;
步骤32,设置对话的起始音;
步骤33,用户进行对话场景设计;
步骤34,设置完成后生成对话配置文件,一般可以为XML文件;
步骤35,连接智能语音系统的USB接口(或无线接口)到所述的计算机;
步骤36,将所述的计算机中用户定制的对话情景(包括配置文件与打包的语音文件)下载到智能语音系统,完成对话场景的定制更新;
经连接的计算机从网络的服务器下载更新语音智能系统的对话场景,与上述处理过程基本相同,只不过配置文件及相应的语音文件是由服务提供者已定制好的存储在网络服务器中的,下载后,直接更新即可。
其中,具体的定制过程如图4所示,包括:
步骤41,设置场景起始音;
步骤42,用户进行第一组对话的设计,如设计用户的第一句问话(文字输入),设置玩具的语音回答;
步骤43,判读是否具有状态跳转?
步骤44,若为否,则用户进行第二组对话的设计,第二句问话(文字输入),设置系统的语音回答;若为是,则进行步骤46,用户进行第N组对话的设计,第N句问话(文字输入),设置系统的语音回答;
步骤45,判断是否具有状态跳转?若为否,则用户依次进行后续的下一组的对话的设计,并设计该组问话的对应的回答(可以用文字输入的方式),再设置系统的与输入文字对应的语音回答;
步骤46,若为是,则用户进行第N组对话的设计,第N句问话(文字输入),设置系统的语音回答;
步骤47,场景定制结束。
实施例三
本实施例中通过具体的实现过程对本发明的智能语音系统及其交互方法作进一步说明,如图6~13所示,该系统分为软、硬件两个方面,具体包括:
(一)硬件部分:
硬件基于ARM9的高性能SOC处理器S3C2410,主频200Mhz,以ARM9 SC2410嵌入式控制器为中心,通过外置的麦克风传感器完成语音信号的采集,语音信号的采样、放大及预滤波及后续的语音播放由音频芯片WM8731完成,板上配置32×16bit的扩展SDRAM存储空间及64M×16bit的NAND Flash存储空间,系统利用USB接口与用户应用开发层的客户端接口进行通讯。该系统中以USB接口为例进行说明,此处也可以增加无线网卡,蓝牙接口等模块,可以实现与S3C2410连接进行数据交换即可。并且可以在S3C2410处理器模块上增加LED显示,达到3D动画输出等效果。
硬件的电路部分具体分为几下几部分:
①前端处理电路
系统采用无指向性麦克风进行语音输入,可以对正面120度夹角范围内的语音信号进行采集;前置放大抗混叠滤波以及A/D转换采用WOLFSON公司的适合于语音应用的CODEC芯片WM8731,该语音处理芯片功耗较低,内部有2组ADC(模/数转换器)和DAC(数/模转换器),其抽样频率由外接的晶振频率和寄存器设置为8KHz,16位A/D采样,关闭了BYPASS模式,芯片设置为Slave(从)模式;并调节输入功放的增益,使得麦克采集语音的效果在50-60cm的范围内达到最佳;同时为了使得喇叭的输出声音足够大,将输出增益调为最大值。
②系统功能电路
系统核心处理器采用基于ARM 920T内核的SAMSUNG S3C2410处理器,主频203Mhz,外部扩展64M×16bit的NAND Flash存储器,用于存储嵌入式实时操作系统,语音识别引擎和语音交互的情景内容;32×16bit的扩展SDRAM存储器作为语音交互系统运行的数据缓冲区,使得S3C2410能够正常的进行信号的处理和状态的判断转换。
③人机接口电路
语音交互系统通过USB接口与计算机相连的接口,USB接口的连接电路见图11,从而可以方便用户进行设计语音交互的情景内容定制后,快捷的通过USB接口下载到该系统中,从而实现交互内容的更新,实际中该接口部分也可以采用无线接口,如:蓝牙模块、无线网络模块WLAN等。
(三)软件部分:
①语音交互系统的软件结构:
如图14所示,该语音交互系统的软件体系结构分为三层,依次为嵌入式Linux实时操作系统,语音识别引擎层,用户应用开发层,其中用户应用开发层包含:用户客户端软件、基于XML配置文件的情景对话设置、USB下载接口,其中,基于隐马尔可夫模型(HMM)的语音识别引擎,可以对非特定人200条命令语句进行识别。
用户通过客户端软件(如图15所示的定制界面)生成基于语音识别配置文件(XML文件)的情景对话。可扩展的标识语言(extensible markuplanguage,XML)采用自描述性的中立数据为结构,可以表示复杂的数据并使其可读。在该软件结构中,XML文档被用来作为语音交互的配置文件并储存了交互对话的初始状态信息和参数。语音交互系统启动时都会从XML文件读取需要加载对话内容的信息和参数,通过对XML配置文件的加载和分析,将获得的状态信息传递给有限状态机,并动态地建立起连接。
用户通过客户端软件定制语音交互情景的流程如图3所示,用户需首先设置情景对话的起始音,然后围绕服务机器人在某一场景下的对话内容(如家庭娱乐、巡逻监控等)展开设计,其中可包括用户主动询问,机器人进行回答;或机器人根据状态的判断,主动与人进行搭讪,并开始交互的过程,从而使得更加的亲切和自然;设计完成后,点击客户端中的生成,从而生成语音配置的XML文件,并将音频文件进行压缩打包,并通过连接台式机和语音交互系统的USB接口,完成对外接设备的识别,最后下载用户定制的语音交互情景内容到语音交互系统的Flash中,实现语音交互内容的设计和更新。
场景设计的流程如图4所示,用户设计场景的起始音后,输入第一组对话的文字,并指定该输入事件对应的状态,并根据语音识别状态的结果,通过状态转移函数δ的分析,得到是否进行跳转及后续交互进程。接下来,继续第二组对话流程的设计,根据事件的输入进行识别和判断,并确定状态的转移及机器人的反应。依次进行,直到完成整个场景交互内容的设计。
②有限状态机(Finite State Machine)在语音交互中的应用
语音交互模块中的不同事件,即不同的语音或按键输入,这里的有限状态集合Q包括四类状态,分别为:声音的采集和A/D转换状态,语音识别状态、转换逻辑查询状态、语音回答输出状态、交互结束退出状态;有限的事件集合∑,即不同的声音输入或按键输入;状态转移函数δ指根据不同输入完成数据处理,实现不同状态输出的对应规则。
如图16所示,五种不同的状态之间,通过状态转移函数δ的具体规则,即E1、E2...E7,实现状态的转移,E1为从语音采集和A/D转换状态正常运行后,跳转到语音识别状态;E2为对输入事件进行正确的语音识别后跳转到转换逻辑查询状态;E3为满足语音输出时,跳转到语音回答输出状态;E4为当语音交互过程中的输出反应完成时,跳转到结束推出状态;E5为当在某一状态下,不能进行判断时,返回到上一状态;E6为当在某一状态下发生错误时,直接跳转到结束状态,从而结束该词对话,开始新的交互。
将有限状态机的理论与语音交互过程相结合,将语音采集和A/D转换、语音识别、XML配置文件解析、转换规则对应、语音回答输出等作为不同的状态,在状态机中进行状态的判断和转换,从而实现自然和谐的语音交互过程。
FSM作为语音交互系统的动态行为模型,基于“事件驱动”的“状态转移”,适合于动态控制流程的表达,使系统具有了交互行为的逻辑表达能力,大大增强了可操作性。基于有限状态机的语音交互的优点是:一方面规范了交互系统的行为和控制流程,缩短了用户在某一情景下进行语音交互的设计开发周期,增加了交互的自然和顺畅;另一方面,使用FSM模型,将语音交互过程所需实现的控制功能的状态,及其继承、转移关系的程度,更清晰的表达出该交互系统中各输入事件、对应规则、状态跳转、交互输出的构成结构。利用该方法成功地设计了面向儿童“寓教于乐”智能玩具的语音交互系统,并在实际的产品运行中验证了上述设计方法的可行性。
本实施例的系统还可以通过多种连接方式与计算机连接,可以实现多种扩展功能:
上述系统除USB接口外,还可采用无线网络模块,在支持无线网络的环境下,使该语音交互系统能够自动连接到配套的网站,并根据用户的要求,(如针对将该系统应用在智能玩具上的情况,在按动玩具上某个部位的按键时),实现对话内容、歌曲、故事、数学闯关或其它网站上提供的对话主题(如生日祝福对话、恋人表白对话、对父母亲人的思念问候对话)等主题的下载,从而实现网络的自动更新。
每个语音系统的无线模块都具有单独的IP地址,当在支持无线网络的环境中时,该无线模块会自动搜索,并与无线路由器建立链接,无线路由器与外部Internet网相连,从而该语音系统与Internet网络建立连接,并具有独立的IP地址;该语音系统内部预选内置了下载网站(网络服务器)的地址,当与外部网络联通后,会自动登陆到该网站,并根据用户按动下载按键的指令,下载对应的网络内容,实现内容的更新。
②通过无线网络的实时亲人、朋友对话
该语音系统通过无线模块与Internet网络自动连接后,使该系统具有独立的IP地址,使在其它任何可以上网的地方,都可以与该语音系统建立连接,并实现网络的通话功能,如:该语音交互系统以智能玩具的形式抱在儿童的怀中,在单位的父母可通过网络实时与自己的小孩进行通话,了解其情况,并进行亲情的交流,儿童只需按动玩具的某个部位的按键即可实现。
在上述处理过程中,当语音系统通过无线网络模块与外部Internet网络建立连接后,该系统具有相应的IP地址,外部用户通过该IP地址,可与语音系统建立连接,并发送通话请求,在语音系统这边会有提示音,用户通过按动回答按键,建立与互联网网上的其他用户的通话连接,并复用上述语音系统的音频输入、输出装置,进行通话。实现了在任何地方的用户,只要能够上网即可与该语音系统进行对话,从而实现将本地的语音交互扩展为网络上的语音交互。
③蓝牙功能
该语音系统还可以设置蓝牙模块,通过蓝牙可实现与具有蓝牙功能的PC、手机及其它智能设备的互联,从而方便的通过无线的方式,与PC上的客户端软件建立连接,并实现语音识别对话内容、歌曲、故事等形式的更新。还可完成内置软件的智能升级等功能。
当开启该系统中的蓝牙模块后,该蓝牙模块会自动的搜寻周围的蓝牙通讯,当发现某蓝牙装置(如带有蓝牙功能的笔记本电脑或高端手机)后,会与发出与该设备进行连接的请求,笔记本允许连接后,该蓝牙模块即与笔记本电脑建立的基于蓝牙的无线连接,从而实现运行在笔记本电脑上的客户端软件与该语音系统的通讯及对话内容及其它文件的下载。
本实施例所述系统还可以在无计算机的前提下,实现交互系统的设置及3D、动画的演示,具体如下:
①无计算机连接进行交互系统的设置:
该语音系统可以包括一个真彩色的TFT LCD及外面的触摸屏,能够对该交互系统的一些运行情况及信息进行显示,同时用户可通过触摸屏方便的实现对话内容的设置,及歌曲、故事播放顺序等的设置,从而不需与PC相连,即可实现该交互系统的设置和更新。
②3D、动画的演示:
通过该系统所具有的LCD显示器,可实现3D、动画的播放,从而使得该交互系统的内容更加的丰富,同时该LCD显示器可播放不同情绪的图案(如喜怒哀乐、哭脸、笑脸、垂头丧气等),与语音对话识别相结合,从而使得交互过程更加的自然逼真,仿佛两个人在进行交流对话一样。
LCD部分的硬件电路结构见图12,LCD的驱动程序在嵌入式Linux操作系统中支持,如同台式机的显示器一样,通过线路进行连接,同时该系统还可以设置触摸屏,设置触摸屏时,其控制信号也与中央处理器S3C2410相连,用户在首次使用时进行校准,当用户使用触摸笔点击触摸屏时,触摸屏对应的(x,y)坐标信息传到CPU,根据其位置信息进行相应的操作。
3D、动画的演示存储在Flash存储器中,由中央处理器S3C2410进行调用,并在LCD显示屏上进行显示,同时和语音识别的状态机(FSM)相结合,中央处理器S3C2410根据语音系统的状态进行判断,从而在输出语音信息的同时,在LCD上显示不同的动画和图案。
综上所述,本发明实施例中的系统通过USB连接线(或无线连接的方式)与计算机连接,安装在计算机上的客户端软件能够自动识别系统并建立连接,用户通过具有图形化界面的客户端软件,能够方便的定制出自己的语音交互情景,包括可以自己设置识别的问话,将自己的录音作为系统的回答,并且可以在中间插入歌曲、故事等情景,还可以设计基于语音识别的游戏环节,如故事接龙、数学闯关、智力问答等,按客户端软件规定的步骤操作完成后,就可以通过USB接口线方便快捷的下载到系统的存储器中,从而成为一个具有全新内容并有自己声音的语音交互装置。其可以用户自己定制,充分发挥想象力,创造出不同的情景和内容,更具有灵活性、智能性、参与性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1、一种智能语音交互系统,其特征在于,该系统包括:
处理器、存储器、语音处理单元、语音输入装置、语音输出装置、通信处理单元构成;
处理器、存储器、语音处理单元及通信处理单元均设置在电路板上,存储器、语音处理单元及通信处理单元通过总线与处理器连接构成嵌入式控制板;
语音输入装置、语音输出装置分别与嵌入式控制板上的所述的语音处理单元连接;
通信处理单元上设有通信接口,所述通信接口用于与安装定制用客户端软件的计算机连接。
2、根据权利要求1所述的系统,其特征在于,所述存储器包括:
动态存储器与FLASH存储器,两者分别通过地址/数据总线与处理器连接。
3、根据权利要求1所述的系统,其特征在于,所述语音处理单元包括:
语音采集模块,与所述语音输入装置及处理器连接,用于接收语音输入装置输入的语音信息并传送至处理器;
语音输出模块,与所述处理器及语音输出装置连接,用于将处理器处理后的语音信息输出至语音输出装置。
4、根据权利要求1所述的系统,其特征在于,所述通信处理单元包括:
USB接口处理模块,与连接安装定制用客户端软件的计算机的USB接口连接,对经所述USB接口从计算机获取的数据传送至FLASH存储器,并由所述处理器进行处理;
无线处理模块,与安装定制用客户端软件的计算机进行无线连接,用于对通过无线连接从计算机中获取的数据传送至所述处理器进行处理。
5、根据权利要求4所述的系统,其特征在于,所述无线处理模块包括:
蓝牙模块或无线网络模块WLAN。
6、根据权利要求1所述的系统,其特征在于,所述系统还包括:
显示处理模块,通过总线与处理器连接,用于处理处理器输出的图形界面信息,显示处理模块上设有用于连接显示装置的显示接口;
显示装置,与所述显示处理模块的显示接口连接,用于显示由所述显示处理模块输出的图形界面信息。
7、一种智能语音交互系统的交互方法,其特征在于,包括:
系统启动,处理器加载存储器中的语音识别模块及语音库模块;
语音输入装置录入外部声音命令并传送至语音处理单元,外部声音命令经语音处理单元转化为数字声音信号;
语音处理单元将所述数字声音信号传送至处理器,处理器调用所述语音识别模块对所述数字声音信号进行比对;
处理器根据比对结果,将语音库模块中的对应的应答数字声音信号通过语音处理单元经语音输出装置输出。
8、根据权利要求7所述的方法,其特征在于,所述处理器加载存储器中的语音识别模块及语音库模块包括:
通过处理器的控制,将存储在FLASH存储器中的语音识别模块、语音库模块加载到动态存储器中。
9、根据权利要求7所述的方法,其特征在于,所述方法还包括:从处于联机状态的计算机中,通过定制用客户端软件对所述语音库模块对应的配置文件及相应的数据进行定制更新;
或者,
通过处于联机状态的计算机从网络服务器下载与语音库模块相对应的配置文件及相应的数据,通过所述配置文件及相应的数据对语音库模块进行更新;
或者,
通过无线连接方式与网络或智能设备连接,并从网络服务器或智能设备下载与语音库模块相对应的配置文件及相应的数据,通过所述配置文件及相应的数据对语音库模块进行更新。
10.根据权利要求7所述的方法,其特征在于,所述方法还包括:通过无线网络模块与网络建立连接后,使用者通过网络与该语音交互系统进行对话,将本地的语音交互扩展为通过网络进行的语音交互。
CNA2008101023467A 2008-03-20 2008-03-20 一种智能语音交互系统及交互方法 Pending CN101246687A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008101023467A CN101246687A (zh) 2008-03-20 2008-03-20 一种智能语音交互系统及交互方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008101023467A CN101246687A (zh) 2008-03-20 2008-03-20 一种智能语音交互系统及交互方法

Publications (1)

Publication Number Publication Date
CN101246687A true CN101246687A (zh) 2008-08-20

Family

ID=39947104

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008101023467A Pending CN101246687A (zh) 2008-03-20 2008-03-20 一种智能语音交互系统及交互方法

Country Status (1)

Country Link
CN (1) CN101246687A (zh)

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012037900A1 (zh) * 2010-09-25 2012-03-29 北京天地融科技有限公司 以语音方式与外部设备通信的电子设备
CN103152655A (zh) * 2012-12-12 2013-06-12 南充市奥生电子科技有限公司 蜂窝式语音监控系统
CN103164479A (zh) * 2011-12-16 2013-06-19 上海博泰悦臻电子设备制造有限公司 车载设备及词条库更新方法
CN103164483A (zh) * 2011-12-16 2013-06-19 上海博泰悦臻电子设备制造有限公司 车载设备及词条库更新方法
CN103312891A (zh) * 2013-05-15 2013-09-18 江苏奇异点网络有限公司 一种基于无线传感器的手机对话系统
CN103544724A (zh) * 2013-05-27 2014-01-29 华夏动漫集团有限公司 一种利用增强现实与卡片识别技术在移动智能终端实现虚拟动漫角色的系统及方法
CN103760984A (zh) * 2014-01-24 2014-04-30 成都万先自动化科技有限责任公司 人机对话系统
CN104123939A (zh) * 2014-06-06 2014-10-29 国家电网公司 基于变电站巡检机器人的语音交互控制方法
CN104538031A (zh) * 2014-12-15 2015-04-22 北京云知声信息技术有限公司 智能语音服务开发云平台及方法
CN104535225A (zh) * 2014-12-29 2015-04-22 合肥瑞纳表计有限公司 带语音播报系统的声控式超声波热表
CN104635574A (zh) * 2014-12-15 2015-05-20 山东大学 一种面向幼儿的早教陪护机器人系统
CN104793522A (zh) * 2015-04-21 2015-07-22 西北农林科技大学 一种喷药机器人的声控系统
CN105206263A (zh) * 2015-08-11 2015-12-30 东莞市凡豆信息科技有限公司 基于动态字典的语音语义识别方法
CN105323314A (zh) * 2015-10-15 2016-02-10 珠海格力电器股份有限公司 一种语音更新方法及系统
CN105446491A (zh) * 2015-12-16 2016-03-30 北京光年无限科技有限公司 一种基于智能机器人的交互方法和装置
CN105477788A (zh) * 2015-11-25 2016-04-13 张冬梅 一种中药电磁仪
CN105551486A (zh) * 2015-12-02 2016-05-04 珠海市杰理科技有限公司 语音识别玩具及语音互动装置
CN105575411A (zh) * 2014-11-07 2016-05-11 孤山电子科技(上海)有限公司 针对儿童的音频处理系统及方法
CN105589848A (zh) * 2015-12-28 2016-05-18 百度在线网络技术(北京)有限公司 对话管理方法和装置
CN105653229A (zh) * 2014-11-14 2016-06-08 中兴通讯股份有限公司 一种实现语音控制的方法和装置
CN105719670A (zh) * 2016-01-15 2016-06-29 北京光年无限科技有限公司 一种面向智能机器人的音频处理方法和装置
CN105793923A (zh) * 2013-09-20 2016-07-20 亚马逊技术股份有限公司 本地和远程语音处理
WO2016112644A1 (zh) * 2015-01-13 2016-07-21 中兴通讯股份有限公司 语音控制方法、装置及终端
CN106200977A (zh) * 2016-07-20 2016-12-07 成都我的科技有限公司 用于珠宝首饰设计及销售的智能机器人
WO2017016135A1 (zh) * 2015-07-24 2017-02-02 百度在线网络技术(北京)有限公司 语音合成方法和系统
CN106409295A (zh) * 2015-07-31 2017-02-15 腾讯科技(深圳)有限公司 从自然语音信息中识别时间信息的方法和装置
CN106653017A (zh) * 2016-11-05 2017-05-10 杭州畅动智能科技有限公司 机器鱼语音交互方法及系统
CN106707805A (zh) * 2015-11-18 2017-05-24 施政 交互板上的多物体的语音控制系统
CN106737686A (zh) * 2017-01-18 2017-05-31 成都黑盒子电子技术有限公司 一种机器人互动内容扩展方法及系统
CN106921091A (zh) * 2017-04-17 2017-07-04 深圳市睿德电子实业有限公司 语音控制插座
CN107016997A (zh) * 2016-01-28 2017-08-04 邓国良 一种智能人车交互系统
CN107087026A (zh) * 2017-04-13 2017-08-22 王海洋 具有语音交互的自行车智能辅助装置及其数据处理方法
CN107112013A (zh) * 2014-09-14 2017-08-29 谷歌公司 用于创建可定制对话系统引擎的平台
CN107433591A (zh) * 2017-08-01 2017-12-05 上海未来伙伴机器人有限公司 多维度交互机器人应用控制系统及方法
CN107733722A (zh) * 2017-11-16 2018-02-23 百度在线网络技术(北京)有限公司 用于配置语音服务的方法和装置
CN108597509A (zh) * 2018-03-30 2018-09-28 百度在线网络技术(北京)有限公司 智能语音交互实现方法、装置、计算机设备及存储介质
CN108810175A (zh) * 2018-08-14 2018-11-13 陕西科技大学 一种老年人生活护理智能交互系统及其操作方法
CN109346041A (zh) * 2018-08-09 2019-02-15 北京云迹科技有限公司 用于机器人的音频数据处理方法及装置
CN109473111A (zh) * 2018-12-29 2019-03-15 苏州思必驰信息科技有限公司 一种语音赋能装置及方法
CN109637544A (zh) * 2018-12-25 2019-04-16 它酷科技(大连)有限公司 一种仿真机器人的语言控制方法
WO2019071599A1 (en) * 2017-10-13 2019-04-18 Microsoft Technology Licensing, Llc PROVIDING AN ANSWER IN A SESSION
CN109979452A (zh) * 2019-03-21 2019-07-05 中山安信通机器人制造有限公司 车载机器人自然语言处理方法、计算机装置及计算机可读存储介质
CN110428833A (zh) * 2019-07-26 2019-11-08 阿尔法巴人工智能(深圳)有限公司 一种用于无人驾驶的智能语音交互系统
CN111383636A (zh) * 2019-06-28 2020-07-07 深圳国威电子有限公司 一种语音操作控制的无线通讯装置
CN111475206A (zh) * 2019-01-04 2020-07-31 优奈柯恩(北京)科技有限公司 用于唤醒可穿戴设备的方法及装置
CN111611357A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 人机对话系统的配置方法、多轮对话配置平台及电子设备
CN112148850A (zh) * 2020-09-08 2020-12-29 北京百度网讯科技有限公司 动态交互方法、服务器、电子设备及存储介质
CN112378026A (zh) * 2020-11-19 2021-02-19 常州固高智能装备技术研究院有限公司 一种智能机器人的控制方法、装置和智能机器人
CN113160724A (zh) * 2021-02-02 2021-07-23 上海锦子昌电子科技有限公司 一种公益宣传智能播报系统
CN117995174A (zh) * 2024-04-07 2024-05-07 广东实丰智能科技有限公司 一种基于人机交互的学习型电动玩具控制方法

Cited By (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012037900A1 (zh) * 2010-09-25 2012-03-29 北京天地融科技有限公司 以语音方式与外部设备通信的电子设备
JP2013539293A (ja) * 2010-09-25 2013-10-17 テンディロン コーポレイション 音声方式で外部設備と通信を行う電子機器
CN103164479A (zh) * 2011-12-16 2013-06-19 上海博泰悦臻电子设备制造有限公司 车载设备及词条库更新方法
CN103164483A (zh) * 2011-12-16 2013-06-19 上海博泰悦臻电子设备制造有限公司 车载设备及词条库更新方法
CN103152655A (zh) * 2012-12-12 2013-06-12 南充市奥生电子科技有限公司 蜂窝式语音监控系统
CN103312891A (zh) * 2013-05-15 2013-09-18 江苏奇异点网络有限公司 一种基于无线传感器的手机对话系统
CN103544724A (zh) * 2013-05-27 2014-01-29 华夏动漫集团有限公司 一种利用增强现实与卡片识别技术在移动智能终端实现虚拟动漫角色的系统及方法
CN105793923A (zh) * 2013-09-20 2016-07-20 亚马逊技术股份有限公司 本地和远程语音处理
CN103760984A (zh) * 2014-01-24 2014-04-30 成都万先自动化科技有限责任公司 人机对话系统
CN104123939A (zh) * 2014-06-06 2014-10-29 国家电网公司 基于变电站巡检机器人的语音交互控制方法
CN107112013A (zh) * 2014-09-14 2017-08-29 谷歌公司 用于创建可定制对话系统引擎的平台
CN107112013B (zh) * 2014-09-14 2020-10-23 谷歌有限责任公司 用于创建可定制对话系统引擎的平台
CN105575411A (zh) * 2014-11-07 2016-05-11 孤山电子科技(上海)有限公司 针对儿童的音频处理系统及方法
CN105653229A (zh) * 2014-11-14 2016-06-08 中兴通讯股份有限公司 一种实现语音控制的方法和装置
CN104538031A (zh) * 2014-12-15 2015-04-22 北京云知声信息技术有限公司 智能语音服务开发云平台及方法
CN104635574B (zh) * 2014-12-15 2017-07-25 山东大学 一种面向幼儿的早教陪护机器人系统
CN104635574A (zh) * 2014-12-15 2015-05-20 山东大学 一种面向幼儿的早教陪护机器人系统
CN104535225A (zh) * 2014-12-29 2015-04-22 合肥瑞纳表计有限公司 带语音播报系统的声控式超声波热表
WO2016112644A1 (zh) * 2015-01-13 2016-07-21 中兴通讯股份有限公司 语音控制方法、装置及终端
CN104793522A (zh) * 2015-04-21 2015-07-22 西北农林科技大学 一种喷药机器人的声控系统
WO2017016135A1 (zh) * 2015-07-24 2017-02-02 百度在线网络技术(北京)有限公司 语音合成方法和系统
CN106409295B (zh) * 2015-07-31 2020-06-16 腾讯科技(深圳)有限公司 从自然语音信息中识别时间信息的方法和装置
CN106409295A (zh) * 2015-07-31 2017-02-15 腾讯科技(深圳)有限公司 从自然语音信息中识别时间信息的方法和装置
CN105206263A (zh) * 2015-08-11 2015-12-30 东莞市凡豆信息科技有限公司 基于动态字典的语音语义识别方法
CN105323314A (zh) * 2015-10-15 2016-02-10 珠海格力电器股份有限公司 一种语音更新方法及系统
CN106707805B (zh) * 2015-11-18 2019-02-05 施政 交互板上的多物体的语音控制系统
CN106707805A (zh) * 2015-11-18 2017-05-24 施政 交互板上的多物体的语音控制系统
WO2017084537A1 (en) * 2015-11-18 2017-05-26 Zheng Shi System and method for controlling physical objects placed on an interactive board with voice commands
CN105477788A (zh) * 2015-11-25 2016-04-13 张冬梅 一种中药电磁仪
CN105551486A (zh) * 2015-12-02 2016-05-04 珠海市杰理科技有限公司 语音识别玩具及语音互动装置
CN105446491A (zh) * 2015-12-16 2016-03-30 北京光年无限科技有限公司 一种基于智能机器人的交互方法和装置
CN105446491B (zh) * 2015-12-16 2018-09-18 北京光年无限科技有限公司 一种基于智能机器人的交互方法和装置
CN105589848A (zh) * 2015-12-28 2016-05-18 百度在线网络技术(北京)有限公司 对话管理方法和装置
CN105719670A (zh) * 2016-01-15 2016-06-29 北京光年无限科技有限公司 一种面向智能机器人的音频处理方法和装置
CN105719670B (zh) * 2016-01-15 2018-02-06 北京光年无限科技有限公司 一种面向智能机器人的音频处理方法和装置
CN107016997A (zh) * 2016-01-28 2017-08-04 邓国良 一种智能人车交互系统
CN106200977A (zh) * 2016-07-20 2016-12-07 成都我的科技有限公司 用于珠宝首饰设计及销售的智能机器人
CN106653017A (zh) * 2016-11-05 2017-05-10 杭州畅动智能科技有限公司 机器鱼语音交互方法及系统
CN106737686A (zh) * 2017-01-18 2017-05-31 成都黑盒子电子技术有限公司 一种机器人互动内容扩展方法及系统
CN107087026A (zh) * 2017-04-13 2017-08-22 王海洋 具有语音交互的自行车智能辅助装置及其数据处理方法
CN106921091A (zh) * 2017-04-17 2017-07-04 深圳市睿德电子实业有限公司 语音控制插座
CN107433591A (zh) * 2017-08-01 2017-12-05 上海未来伙伴机器人有限公司 多维度交互机器人应用控制系统及方法
US11487986B2 (en) 2017-10-13 2022-11-01 Microsoft Technology Licensing, Llc Providing a response in a session
WO2019071599A1 (en) * 2017-10-13 2019-04-18 Microsoft Technology Licensing, Llc PROVIDING AN ANSWER IN A SESSION
CN110121706A (zh) * 2017-10-13 2019-08-13 微软技术许可有限责任公司 提供会话中的响应
CN107733722A (zh) * 2017-11-16 2018-02-23 百度在线网络技术(北京)有限公司 用于配置语音服务的方法和装置
CN107733722B (zh) * 2017-11-16 2021-07-20 百度在线网络技术(北京)有限公司 用于配置语音服务的方法和装置
CN108597509A (zh) * 2018-03-30 2018-09-28 百度在线网络技术(北京)有限公司 智能语音交互实现方法、装置、计算机设备及存储介质
CN109346041A (zh) * 2018-08-09 2019-02-15 北京云迹科技有限公司 用于机器人的音频数据处理方法及装置
CN108810175A (zh) * 2018-08-14 2018-11-13 陕西科技大学 一种老年人生活护理智能交互系统及其操作方法
CN109637544A (zh) * 2018-12-25 2019-04-16 它酷科技(大连)有限公司 一种仿真机器人的语言控制方法
CN109473111A (zh) * 2018-12-29 2019-03-15 苏州思必驰信息科技有限公司 一种语音赋能装置及方法
CN109473111B (zh) * 2018-12-29 2024-03-08 思必驰科技股份有限公司 一种语音赋能装置及方法
CN111475206A (zh) * 2019-01-04 2020-07-31 优奈柯恩(北京)科技有限公司 用于唤醒可穿戴设备的方法及装置
CN111611357A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 人机对话系统的配置方法、多轮对话配置平台及电子设备
CN111611357B (zh) * 2019-02-25 2023-08-15 北京嘀嘀无限科技发展有限公司 人机对话系统的配置方法、多轮对话配置平台及电子设备
CN109979452A (zh) * 2019-03-21 2019-07-05 中山安信通机器人制造有限公司 车载机器人自然语言处理方法、计算机装置及计算机可读存储介质
CN111383636A (zh) * 2019-06-28 2020-07-07 深圳国威电子有限公司 一种语音操作控制的无线通讯装置
CN110428833A (zh) * 2019-07-26 2019-11-08 阿尔法巴人工智能(深圳)有限公司 一种用于无人驾驶的智能语音交互系统
CN112148850A (zh) * 2020-09-08 2020-12-29 北京百度网讯科技有限公司 动态交互方法、服务器、电子设备及存储介质
CN112378026A (zh) * 2020-11-19 2021-02-19 常州固高智能装备技术研究院有限公司 一种智能机器人的控制方法、装置和智能机器人
CN113160724A (zh) * 2021-02-02 2021-07-23 上海锦子昌电子科技有限公司 一种公益宣传智能播报系统
CN117995174A (zh) * 2024-04-07 2024-05-07 广东实丰智能科技有限公司 一种基于人机交互的学习型电动玩具控制方法

Similar Documents

Publication Publication Date Title
CN101246687A (zh) 一种智能语音交互系统及交互方法
EP3652734B1 (en) Voice data processing method and electronic device supporting the same
TWI511125B (zh) 語音操控方法、行動終端裝置及語音操控系統
CN100578614C (zh) 用语音应用语言标记执行的语义对象同步理解
KR20190006403A (ko) 음성 처리 방법 및 이를 지원하는 시스템
KR20180121758A (ko) 사용자 발화를 처리하는 전자 장치 및 이 전자 장치의 제어 방법
AU2019201441B2 (en) Electronic device for processing user voice input
US20220020358A1 (en) Electronic device for processing user utterance and operation method therefor
KR20190032026A (ko) 자연어 표현 제공 방법 및 이를 지원하는 전자 장치
JP2019040602A (ja) 人工知能機器における連続会話機能
CN111919248A (zh) 用于处理用户发声的系统及其控制方法
US20210217406A1 (en) Voice recognition service operating method and electronic device supporting same
EP3550449A1 (en) Search method and electronic device using the method
KR102380717B1 (ko) 사용자 발화를 처리하는 전자 장치 및 이 전자 장치의 제어 방법
CN111816168A (zh) 一种模型训练的方法、语音播放的方法、装置及存储介质
US20220270604A1 (en) Electronic device and operation method thereof
CN112219235A (zh) 包括处理用户语音的电子设备和控制电子设备上语音识别的方法的系统
US20210110825A1 (en) Method of generating wakeup model and electronic device therefor
CN112633473A (zh) 基于ai的可穿戴设备及其应用数据处理方法
Montoro et al. Spoken interaction in intelligent environments: a working system
Dhal Controlling Devices Through Voice Based on AVR Microcontroller
US20220328043A1 (en) Electronic device for processing user utterance and control method thereof
CN101212731A (zh) 一种语言转换电话及其实现方法
KR102685417B1 (ko) 사용자 입력을 처리하는 전자 장치 및 방법
US20220319497A1 (en) Electronic device and operation method thereof

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20080820