CN101013571A - 一种使用语音命令的互动方法及其系统 - Google Patents

一种使用语音命令的互动方法及其系统 Download PDF

Info

Publication number
CN101013571A
CN101013571A CNA2007100173246A CN200710017324A CN101013571A CN 101013571 A CN101013571 A CN 101013571A CN A2007100173246 A CNA2007100173246 A CN A2007100173246A CN 200710017324 A CN200710017324 A CN 200710017324A CN 101013571 A CN101013571 A CN 101013571A
Authority
CN
China
Prior art keywords
data
interactive
identification
voice command
interactive data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007100173246A
Other languages
English (en)
Inventor
陈建安
陈淮琰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Besta Xian Co Ltd
Original Assignee
Inventec Besta Xian Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Besta Xian Co Ltd filed Critical Inventec Besta Xian Co Ltd
Priority to CNA2007100173246A priority Critical patent/CN101013571A/zh
Publication of CN101013571A publication Critical patent/CN101013571A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明为一种使用语音命令的互动方法及其系统,尤其是一种利用辨识语音命令来控制呈现相对应的互动数据,使显示的图像产生与人互动的效果的方法及系统。其技术解决方案为:该方法包括以下步骤:1)建立存储有互动数据,以及互动数据和辨识数据对应关系的互动数据库;2)接收语音命令;3)辨识该语音命令,辨识后产生对应于该语音命令的辨识数据;4)根据该辨识数据,从互动数据库中读出对应于该辨识数据的互动数据;5)呈现互动数据。本发明解决了普通技术中存在的技术问题,具有使显示的图像和声音与人产生互动的优点。

Description

一种使用语音命令的互动方法及其系统
技术领域
一种使用语音命令的互动方法及其系统,尤其是一种利用辨识语音命令来控制呈现相对应的互动数据,使显示的图像产生与人互动的效果的方法及系统。
背景技术
声音辨识的对象包括人类发出的语音、乐器发出的音乐、机器发出的噪音、动物的叫声、声纳、大自然的声音等。简单的说,声音辨识就是以机器进行人类耳朵的听觉功能,进而使机器执行相对应的工作,来达到自动化的效果。
计算机借助模拟到数字的转换装置将语音取样的数据数字化成为数值数据之后,会将输入的声音样本与预录的声音样本进行比对工作,比对完成后计算机会输出一个它认为最像的声音样本序号,于是就可以知道输入的语音要它做什么样的工作。
但是,要知道即使同一个人在同一环境使用同样的麦克风连续发出两次同样的语音,语音取样数据也不可能完全相同,所以如何把语音在异中求同,这就是声音辨识技术的问题所在。也因此,在辨识人类发出的语音方面,根据词汇声音样本数量分为小字汇(<100词)、中字汇(100-1000词)、大字汇1001-10000词)、极大字汇(>10000词)几类,各类有着不同复杂度的辨识技术,以尽量提高词汇数多的类别的辨识率。
虽然在数年前就已经有人提出未来语音输入将是主要的输入方式,甚至连不少大型软件商也都看好这个有着璀璨未来和庞大商机的市场,但是,由于上述所提到的语音辨识的困难度,因此语音辨识技术一直无法有效的提高输入的语音的辨识率,是故语音输入一直没有象预期的那样使用在各软件上。
虽然如此,在消费性电子产品方面,随着功能上的进步,输入方式发生了显著的改变,从传统的按键输入进步到触控式屏幕的输入,甚至到现在的手写输入以及语音输入,而目前在消费性电子产品上语音输入使用的语音辨识技术,大多是语音指令&控制(Voice Command/Control)的部份,其使用的是中或小字汇的辨识技术。因此,它实际上可以辨识的词汇并不多,所以由就目前的使用情况来看,不具有亲和力,因此使用者对于目前的语音辨识技术的接受度不高。
发明内容
本发明为解决背景技术中存在的上述技术问题,而提供一种利用辨识语音命令的结果来控制呈现该语音命令所对应的声音或动画,使得显示的图像和声音与人产生互动的方法及系统。
本发明的技术解决方案是:本发明为一种使用语音命令的互动方法,其特殊之处在于:该方法包括以下步骤:
1)建立存储有互动数据,以及互动数据和辨识数据对应关系的互动数据库;
2)接收语音命令;
3)辩识该语音命令,辨识后产生对应于该语音命令的辨识数据;
4)根据该辨识数据,从互动数据库中读出对应于该辨识数据的互动数据;
5)呈现互动数据。
上述互动数据库可下载新的互动数据,并存入该互动数据库中。
上述互动数据包括动画数据、声音数据或动画数据和声音数据的合成数据。
上述辨识数据还可为事件数据,当侦测到有事件发生时产生该事件数据,其中该事件可以为开机、进入屏幕保护模式、显示提示信息或关机。
一种应用上述使用语音命令的互动方法的互动系统,其特殊之处在于:该系统包括用来接收语音命令的语音接收模块;用来辨识该语音命令,在辨识后产生对应于该语音命令的辨识数据的语音辨识模块;用来储存互动数据的互动数据库模块;以及根据辨识数据由互动数据库模块中读出互动数据,并呈现该互动数据的互动模块,语音接收模块接入语音辨识模块,语音辨识模块和互动数据库模块分别和互动模块相接。
上述系统还包括用来下载互动数据的下载模块,下载模块接入互动数据库模块。
通过本发明的方法,在使用者利用语音命令进行输入之后,会响应该语音命令所对应的画面或声音给使用者,造成与使用者互动的效果,如此一来,将可以让语音输入的环境具有更大的亲和力,进而提高语音输入的可接受度。
附图说明
图1为本发明的互动系统的系统框图。
具体实施方式
本发明的具体实现方法如下:
1)建立存储有互动数据,以及互动数据和辨识数据对应关系的互动数据库;
2)接收语音命令;
3)辩识该语音命令,辨识后产生对应于该语音命令的辨识数据;
4)根据该辨识数据,从互动数据库中读出对应于该辨识数据的互动数据;
5)呈现互动数据。
其中互动数据库可下载新的互动数据,并存入该互动数据库中。互动数据包括动画数据、声音数据或动画数据和声音数据的合成数据。
辨识数据还可为事件数据,当侦测到有事件发生时产生该事件数据,其中该事件可以为开机、进入屏幕保护模式、显示提示信息或关机。
参见图1,本发明的系统包括语音接收模块110、语音辨识模块120、互动模块140、互动数据库模块150和下载模块160。其中语音接收模块110负责接收语音命令,并将接收到的语音命令送往语音辨识模块120;语音辨识模块120负责辨识语音接收模块110所接收到的语音命令,并在辨识后产生对应于语音命令的辨识数据,并将该辨识数据送往互动模块140;互动模块140负责在取得语音辨识模块120所送来的辨识数据之后,依据接收到的辨识数据由互动数据库模块150中读出对应于该辨识数据的互动数据,并且在互动数据读取完毕之后将读出的互动数据呈现出来,使使用者在听觉或视觉上受到回馈;互动数据库模块150负责储存包含有动画数据、声音数据或动画数据和声音数据的合成数据的互动数据;下载模块160用来下载互动数据,并将下载的互动数据存入互动数据库模块150。
下面结合具体实施例对本发明做进一步的详细描述:
实施例一:当使用者使用执行含有本发明的电子辞典时,使用者可以下达第一语音命令「查剑桥百科」,于是本发明就会接收到第一语音命令「查剑桥百科」的声音,并对第一语音命令「查剑桥百科」进行辨识,经过辨识后,本发明可以由互动数据库取得第一语音命令「查剑桥百科」的第一声音「没问题,请使用!」(第一互动数据),并播放第一声音给使用者听到,同时将电子字典的显示画面切换至剑桥百科的输入画面。
本发明的互动模块140还可以侦测系统的所发生的事件(Event),并由互动数据库模块150中取得对应于系统发生的事件数据的互动数据,以呈现给使用者。当使用者将电子辞典关机时,本发明会侦测到系统发生关机的事件,于是本发明由互动数据库取得关机事件的第二声音(第二互动数据),并播放出第二声音「谢谢您的使用!」。
实施例二:使用者在执行含有本发明的个人数字助理机(PDA)进行开机时,本发明会在显示屏上,显示一个虚拟的图像,该虚拟的图像包含人像、动物照片、卡通人物、植物图案等,但不以此为限,第一图像以可爱美少女为例,开机画面会显示一个可爱美少女,并播放第三声音「主人您好,您需要什么服务呢?」及播放「嘴巴开阖」的第一动画(第三互动数据),使得可爱美少女看似在与使用者说话,如此会使得使用者更有与可爱美少女互动的感觉。当开机完成至使用者下达语音命令的中途,可以由本发明侦测发现使用者正处于闲置状态,于是读出使用者闲置的第二动画「眨眼」(第四互动数据),于是便会播放可爱美少女眨眼的动画呈现于画面上。若使用者依然继续闲置,则会进入屏幕保护模式。直到使用者下达第二语音命令「玩游戏」时,本发明读出对应于第二语音命令「玩游戏」的第五互动数据--可爱美少女移动到游戏选项,并有将该游戏取出的动作,接着游戏便开始执行,如此将使得可爱美少女与使用者之间互动关系更为密切。
本发明更包括有一个下载模块160,负责将互动数据或者新的图像下载并储存至互动数据库模块150,使得使用者与图像的互动方式可以不断的改变,甚至更换显示的图像。延续上述实施例二,在进入屏幕保护模式时,因为互动数据库未存有对应屏幕保护模式的事件的互动数据,故本发明无法呈现相关的互动数据给使用者。但是在下载了可爱美少女所属的屏幕保护模式的第六互动数据之后,当进入屏幕保护模式之前,本发明会播放「需要时在叫我!」的声音及问候动画的动作画面与使用者产生互动。除了下载互动数据之外,本发明也可以下载新的图像,使用者欲将显示的虚拟的图像由可爱美少女更换为卡通图案,于是下载第二图像--卡通图案的图像,当下载完成之后,本发明会侦测到有下载完成的系统事件发生,于是可以播放可爱美少女的声音或动画(第七互动数据)来告知使用者以下载完成,此时使用者便可以将第一图像(可爱美少女)进行更换,并继续下载卡通图案(第二图像)的互动数据,例如开机、进入屏幕保护模式、关机等,当下载完成之后,如有互动数据库中存有卡通图案(第二图像)的下载完成事件的第八互动数据,则原先播放的可爱美少女(第一图像)的第七互动数据会改为播放卡通图案(第二图像)的第八互动数据来告知使用者下载完毕,若互动数据库没有该系统事件的互动数据则不产生互动。

Claims (6)

1、一种使用语音命令的互动方法,其特征在于:该方法包括以下步骤:
1)建立存储有互动数据,以及互动数据和辨识数据对应关系的互动数据库;
2)接收语音命令;
3)辩识该语音命令,辨识后产生对应于该语音命令的辨识数据;
4)根据该辨识数据,从互动数据库中读出对应于该辨识数据的互动数据;
5)呈现互动数据。
2、根据权利要求1所述的使用语音命令的互动方法,其特征在于:所述互动数据库可下载新的互动数据,并存入该互动数据库中。
3、根据权利要求2所述的使用语音命令的互动方法,其特征在于:所述互动数据包括动画数据、声音数据或动画数据和声音数据的合成数据。
4、根据权利要求3所述的使用语音命令的互动方法,其特征在于:所述辨识数据还可为事件数据,当侦测到有事件发生时产生该事件数据,其中该事件可以为开机、进入屏幕保护模式、显示提示信息或关机。
5、一种应用权利要求1所述的使用语音命令的互动方法的互动系统,其特征在于:该系统包括用来接收语音命令的语音接收模块;用来辨识该语音命令,在辨识后产生对应于该语音命令的辨识数据的语音辨识模块;用来储存互动数据的互动数据库模块;以及根据辨识数据由互动数据库模块中读出互动数据,并呈现该互动数据的互动模块,所述语音接收模块接入语音辨识模块,所述语音辨识模块和互动数据库模块分别和互动模块相接。
6、根据权利要求5所述的使用语音命令的互动系统,其特征在于:该系统还包括用来下载互动数据的下载模块,所述下载模块接入互动数据库模块。
CNA2007100173246A 2007-01-30 2007-01-30 一种使用语音命令的互动方法及其系统 Pending CN101013571A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007100173246A CN101013571A (zh) 2007-01-30 2007-01-30 一种使用语音命令的互动方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007100173246A CN101013571A (zh) 2007-01-30 2007-01-30 一种使用语音命令的互动方法及其系统

Publications (1)

Publication Number Publication Date
CN101013571A true CN101013571A (zh) 2007-08-08

Family

ID=38701049

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007100173246A Pending CN101013571A (zh) 2007-01-30 2007-01-30 一种使用语音命令的互动方法及其系统

Country Status (1)

Country Link
CN (1) CN101013571A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013185606A1 (zh) * 2012-07-26 2013-12-19 中兴通讯股份有限公司 一种终端语音辅助编辑的方法及装置
CN103596051A (zh) * 2012-08-14 2014-02-19 金运科技股份有限公司 电视装置及其虚拟主持人显示方法
CN103839548A (zh) * 2012-11-26 2014-06-04 腾讯科技(北京)有限公司 一种语音交互方法、装置、系统和移动终端
CN105184718A (zh) * 2015-08-28 2015-12-23 上海市同济医院 一种多媒体宣教系统及方法
CN106205612A (zh) * 2016-07-08 2016-12-07 北京光年无限科技有限公司 面向智能机器人的信息处理方法及系统
CN108717270A (zh) * 2018-05-30 2018-10-30 珠海格力电器股份有限公司 智能设备的控制方法、装置、存储介质和处理器

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013185606A1 (zh) * 2012-07-26 2013-12-19 中兴通讯股份有限公司 一种终端语音辅助编辑的方法及装置
CN103577072A (zh) * 2012-07-26 2014-02-12 中兴通讯股份有限公司 一种终端语音辅助编辑的方法及装置
CN103596051A (zh) * 2012-08-14 2014-02-19 金运科技股份有限公司 电视装置及其虚拟主持人显示方法
CN103839548A (zh) * 2012-11-26 2014-06-04 腾讯科技(北京)有限公司 一种语音交互方法、装置、系统和移动终端
US9728192B2 (en) 2012-11-26 2017-08-08 Tencent Technology (Shenzhen) Company Limited Method and apparatus for voice interaction control of movement base on material movement
CN103839548B (zh) * 2012-11-26 2018-06-01 腾讯科技(北京)有限公司 一种语音交互方法、装置、系统和移动终端
CN105184718A (zh) * 2015-08-28 2015-12-23 上海市同济医院 一种多媒体宣教系统及方法
CN106205612A (zh) * 2016-07-08 2016-12-07 北京光年无限科技有限公司 面向智能机器人的信息处理方法及系统
CN108717270A (zh) * 2018-05-30 2018-10-30 珠海格力电器股份有限公司 智能设备的控制方法、装置、存储介质和处理器

Similar Documents

Publication Publication Date Title
CN110288077B (zh) 一种基于人工智能的合成说话表情的方法和相关装置
Tanaka Mapping out instruments, affordances, and mobiles
CN108352168A (zh) 用于语音唤醒的低资源关键短语检测
Corradini et al. Multimodal input fusion in human-computer interaction
CN109785820A (zh) 一种处理方法、装置及设备
CN108922525B (zh) 语音处理方法、装置、存储介质及电子设备
Gatica-Perez Analyzing group interactions in conversations: a review
US20090153341A1 (en) Motion activated user interface for mobile communications device
CN101013571A (zh) 一种使用语音命令的互动方法及其系统
Renals Multimodal Signal Processing: Human Interactions in Meetings
CN111538456A (zh) 基于虚拟形象的人机交互方法、装置、终端以及存储介质
Mattar et al. Small talk is more than chit-chat: Exploiting structures of casual conversations for a virtual agent
WO2023246163A9 (zh) 一种虚拟数字人驱动方法、装置、设备和介质
Furui Speech recognition technology in the ubiquitous/wearable computing environment
CN111063024A (zh) 三维虚拟人驱动方法、装置、电子设备及存储介质
CN111241802B (zh) 一种作业生成方法、装置、存储介质及终端
CN115116437B (zh) 语音识别方法、装置、计算机设备、存储介质及产品
CN116956814A (zh) 标点预测方法、装置、设备及存储介质
Ding et al. Interactive multimedia mirror system design
Qu et al. Context-based word acquisition for situated dialogue in a virtual world
CN112742024B (zh) 虚拟对象的控制方法、装置、设备及存储介质
Gonzalez et al. Passing an enhanced Turing test–interacting with lifelike computer representations of specific individuals
Esnaola et al. Whistling to machines
CN111091807A (zh) 语音合成方法、装置、计算机设备及存储介质
CN112309365B (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20070808