CN103839548A - 一种语音交互方法、装置、系统和移动终端 - Google Patents
一种语音交互方法、装置、系统和移动终端 Download PDFInfo
- Publication number
- CN103839548A CN103839548A CN201210487130.3A CN201210487130A CN103839548A CN 103839548 A CN103839548 A CN 103839548A CN 201210487130 A CN201210487130 A CN 201210487130A CN 103839548 A CN103839548 A CN 103839548A
- Authority
- CN
- China
- Prior art keywords
- picture material
- key word
- mutual key
- file
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000003993 interaction Effects 0.000 title claims abstract description 20
- 239000000463 material Substances 0.000 claims abstract description 276
- 230000033001 locomotion Effects 0.000 claims abstract description 94
- 230000002452 interceptive effect Effects 0.000 claims abstract description 28
- 230000008859 change Effects 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 17
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 244000078534 Vaccinium myrtillus Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 235000012489 doughnuts Nutrition 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 101000934888 Homo sapiens Succinate dehydrogenase cytochrome b560 subunit, mitochondrial Proteins 0.000 description 1
- 235000017848 Rubus fruticosus Nutrition 0.000 description 1
- 241000304405 Sedum burrito Species 0.000 description 1
- 102100025393 Succinate dehydrogenase cytochrome b560 subunit, mitochondrial Human genes 0.000 description 1
- 235000003095 Vaccinium corymbosum Nutrition 0.000 description 1
- 235000017537 Vaccinium myrtillus Nutrition 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 235000021029 blackberry Nutrition 0.000 description 1
- 235000021014 blueberries Nutrition 0.000 description 1
- 150000001875 compounds Chemical group 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 235000012432 gingerbread Nutrition 0.000 description 1
- 235000015243 ice cream Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 235000012459 muffins Nutrition 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 235000013618 yogurt Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明实施方式提出了一种语音交互方法、装置、系统和移动终端。方法包括:设置画面素材移动命令与交互关键字的对应关系,该方法还包括:展示画面素材;录制用户语音文件,分析用户语音文件以解析出交互关键字;根据解析出的交互关键字确定对应于该交互关键字的画面素材移动命令,并基于所确定的画面素材移动命令控制画面素材的移动。本发明实施方式可以由用户基于语音来控制画面素材的移动方式,有效地提高画面素材的交互成功率。
Description
技术领域
本发明实施方式涉及信息处理技术领域,更具体地,涉及一种语音交互方法、装置、系统和移动终端。
背景技术
随着计算机技术和网络技术的飞速发展,互联网(Internet)和即时通信技术在人们的日常生活、学习和工作中发挥的作用也越来越大。而且,随着移动互联网的发展,互联网也在向移动化发展。
当今社会已经进入了高度发达的信息时代,其企业竞争形态也已经由过去主要以产品功能质量为主的单一竞争形态转变为以企业形象、商品、品牌等作为重要手段和主要倾向的复合竞争形态。这种形态的转变与现代画面展示事业的迅速发展是分不开的。
在传统的画面展示活动中,画面主、画面内容、画面内容受众、画面表现等基本要素都在一定的区域里反映着各个时期的文明程度。所有的这些图像元素,都在不同程度上作为一种文化反映着社会、经济的时代痕迹。
在目前的画面展示方法中,通常由画面提供商自己直接提供画面素材,而且单向在网络上主动展示画面。然而,这种展示方式并没有考虑到画面受众的个人参与程度,因此仅是一种片面的画面展示,与画面浏览受众缺乏有效交互,因此交互成功率很低。
发明内容
本发明实施方式提出一种语音交互方法,以提高交互成功率。
本发明实施方式还提出了一种语音交互装置,以提高交互成功率。
本发明实施方式还提出了一种移动终端,以提高交互成功率。
本发明实施方式还提出了一种语音交互系统,以提高交互成功率。
本发明实施方式的具体方案如下:
一种语音交互方法,设置画面素材移动命令与交互关键字的对应关系,该方法还包括:
展示画面素材;
录制用户语音文件,分析所述用户语音文件以解析出交互关键字;
根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令,并基于所确定的画面素材移动命令控制所述画面素材的移动。
一种语音交互装置,包括对应关系设置单元、画面素材展示单元、交互关键字解析单元和画面素材移动单元,其中:
对应关系设置单元,用于设置画面素材移动命令与交互关键字的对应关系;
画面素材展示单元,用于展示画面素材;
交互关键字解析单元,用于录制用户语音文件,分析所述用户语音文件以解析出交互关键字;
画面素材移动单元,用于根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令,并基于所确定的画面素材移动命令控制所述画面素材的移动。
一种移动终端,该移动终端包括显示单元、语音录制单元和计算单元,其中:
显示单元,用于展示画面素材;
语音录制单元,用于录制用户语音文件;
计算单元,用于保存画面素材移动命令与交互关键字的对应关系,分析所述用户语音文件以解析出交互关键字;根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令,并基于所确定的画面素材移动命令控制所述画面素材的移动。
一种语音交互系统,该系统包括移动终端和服务器,其中:
服务器,用于接收画面素材,并将画面素材发送到移动终端;
移动终端,用于设置画面素材移动命令与交互关键字的对应关系;展示从服务器接收的画面素材;录制用户语音文件,分析所述用户语音文件以解析出交互关键字;根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令,并基于所确定的画面素材移动命令控制所述画面素材的移动。
从上述技术方案可以看出,在本发明实施方式中,设置画面素材移动命令与交互关键字的对应关系;展示画面素材;制用户语音文件,分析用户语音文件以解析出交互关键字;根据解析出的交互关键字确定对应于该交互关键字的画面素材移动命令,并基于所确定的画面素材移动命令控制述画面素材的移动。由此可见,应用本发明实施方式之后,不同于现有技术中画面提供者的单片面画面展示,画面浏览受众可以基于语音方式控制画面素材的移动,因此画面浏览受众可以通过语音方式与画面素材有效交互,提高了交互成功率。
而且,本发明实施方式通过感应用户语音来控制画面素材,同时还提高了画面素材的曝光程度,从而进一步能够提高画面素材投放效果。
附图说明
图1为根据本发明实施方式的语音交互方法流程图;
图2为根据本发明实施方式的汽车类型的画面素材示意图;
图3为根据本发明实施方式的汽车类型的画面素材交互移动示意图;
图4为根据本发明实施方式的语音交互装置结构图;
图5为根据本发明实施方式的移动终端结构示意图;
图6为根据本发明实施方式的语音交互系统结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
图1为根据本发明实施方式的语音交互方法流程图。
如图1所示,该方法包括:
步骤101:设置画面素材移动命令与交互关键字的对应关系。
在这里,优选可以设置画面素材加速命令、画面素材减速命令、画面素材启动命令、画面素材停止命令、画面素材移动速度保持命令、或画面素材移动轨迹等各种画面素材移动命令与交互关键字的对应关系。
比如,可以设置交互关键字“启动”对应于画面素材启动命令;交互关键字“停止”对应于画面素材停止命令;设置交互关键字“加速”对应于画面素材加速命令;设置交互关键字“减速”对应于画面素材减速命令;交互关键字“曲线”对应于设置画面素材移动轨迹为曲线的命令;交互关键字“直线”对应于设置画面素材移动轨迹为直线的命令,等等。
以上虽然详细罗列了画面素材移动命令与交互关键字的具体实例,本领域技术人员可以意识到,这种罗列仅仅是示范性的,并不用于限定本发明实施方式的保护范围。
在一个实施方式中,可以将画面素材移动速度与交互关键字的对应关系保存在移动终端上。移动终端可以包括但是不局限于:功能手机、智能手机、掌上电脑、个人电脑(PC)、平板电脑或个人数字助理(PDA),等等。
以上虽然详细罗列了移动终端的具体实例,本领域人员可以意识到,这些罗列仅是阐述目的,并不用于限定本发明实施方式的保护范围。
移动终端可以适用于任意的智能终端操作系统,具体可以采用的操作系统包括但是不局限于:安卓(Andorid)、Palm OS、Symbian(塞班)、Windows mobile、Linux、Android(安卓)、iPhone(苹果)OS、Black Berry(黑莓)OS6.0、Windows Phone系列,等等。
优选地,移动终端具体可以采用安卓操作系统,而且移动终端可以采用到Andorid的各个版本之中,包括但是不局限于:阿童木(Android Beta)、发条机器人(Android1.0)、纸杯蛋糕(Android1.5)、甜甜圈(Android1.6)、松饼(Android2.0/2.1),冻酸奶(Android2.2)、姜饼(Android2.3)、蜂巢(Android3.0)、冰激凌三明治(Android4.0)、果冻豆(Jelly Bean,Android4.1)等版本。以上详细罗列了Android平台的具体版本,本领域技术人员可以意识到,本发明实施方式并不局限于上述罗列版本,而还可以适用于其他基于Android软件架构的任意版本之中。
步骤102:展示画面素材,录制用户语音文件,分析所述用户语音文件以解析出交互关键字。
在这里,图像受众、图像提供商或任意的第三方都可以通过各种信息传输方式,将画面素材上传到位于网络侧的服务器中,然后由移动终端从服务器中获取到画面素材,并展示画面素材。
画面素材的具体内容与期望向用户展示的素材本身相关。比如,假设期望投放关于品牌汽车的信息推送,则可以上传品牌汽车的实物模型图像;假如期望投放关于某款电子产品的信息推送,则可以上传该款电子产品的实物模型图像;等等。
在移动终端上还可以展示与画面素材相对应的背景图像。背景图像和画面素材的种类可以有多种。比如,背景图像和画面素材可以分别为:位图;联合照片专家组(JPEG);签图像文件格式(TIFF);图像互换格式(GIF);流式网络图形格式(PNG);或三维图像,等等。GIF图像文件的数据是经过压缩的,而且是采用了可变长度等压缩算法。GIF格式的另一个特点是其在一个GIF文件中可以存多幅彩色图像,如果把存于一个文件中的多幅图像数据逐幅读出并显示到屏幕上,就可构成一种最简单的画面。
本发明实施方式中,可以通过将该画面类型的画面素材叠加到背景图像上,实现共同显示。
示范性地,图2为根据本发明实施方式的汽车类型的画面素材示意图。由图2可见,画面素材为汽车模型,背景图像为房屋。汽车模型与房屋融合显示在一起,而且汽车模型停留在房屋之中。
而且,信息推送受众、图像提供商或任意的第三方还可以通过多种方式上传画面素材。比如,可以由图像受众直接在移动终端上,通过无线上网的方式将画面素材上传到服务器;也可以由图像提供商通过个人计算机(PC)等方式将画面素材上传到服务器,等等。
优选的,移动终端可以通过通用网关接口(CGI)的方式从服务器获取到背景图像和画面素材,并在移动终端的浏览器窗口上显示背景图像和画面素材。
移动终端浏览器是运行在移动终端上的浏览器,可以通过通用分组无线服务技术(GPRS)等多种方式上网浏览互联网内容。目前,一些移动终端浏览器需要JAVA或移动终端的系统(如苹果的IOS系统以及Android平台等)支持。
服务器可以向移动终端提供背景图像,也可以在移动终端本地预先存储背景图像。优选在服务器中保存背景图像,这是因为相比较移动终端,服务器可以具有更大的储存空间,因此可以在服务器中保存海量的背景图像。示范性地,背景图像可以包括:蓝天、白云、大桥、公路等等。
在一个实施方式中,图像受众、图像提供商或任意第三方除了上传画面素材之外,还进一步上传用于描述该画面素材类型的图像属性信息。图像属性信息可以是文本信息。还可以直接通过画面素材的命名来描述其类型。服务器可以根据图像属性信息确定出画面素材的类型,并检索与该画面素材相匹配的背景图像。
比如,假设画面素材是针对汽车的信息推送,则服务器可以检索出适于汽车的背景图像(比如为跑道);假设画面素材是针对电子产品的信息推送,则服务器可以检索出适于电子产品的背景图像(比如为办公桌)。
在这里,当由服务器提供背景图像时,服务器可以首先将上传来的画面素材和自身保存的背景图像发送到移动终端,而且优选顺带发送定单信息和/或广告位信息等,并提供给移动终端进行相应展示。
在移动终端上将背景图像和画面素材共同显示,从而实现融合显示。优选地,画面素材显示在背景图像的上面或前面。
当向用户展示画面素材之后,可以基于用户的语音实现针对画面素材的互动过程。
用户在浏览画面素材时,或者浏览画面素材之后,可以发出语音。此时录制用户语音文件,分析用户语音文件以解析出交互关键字。
在这里,可以基于各种语音识别技术分析用户语音文件以解析出交互关键字。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术等方面。
本发明实施方式可以采用的语音识别的种类有很多,比如连续语音识别、关键词检出、说话人辨认、说话人确认、语音合成、音频检索等方式。更具体地,连续语音识别可以采用隐马尔科夫模型,而且本发明实施方式还可以采用动态时间规正、神经网络、支持向量机、矢量量化等各种语音识别算法。
在具体实施中,可以将各种语音识别技术通过内置插件或接口等方式嵌入到各种终端的浏览器窗口中,从而使得浏览器窗口自身可以具备相应语音识别功能。
比如,可以将用户输入的语音文件转换成文本文件,再将文本文件与数据库中的文本格式的关键字进行比较,如果匹配成功则可确定出交互关键字。也可以将用户输入的语音文件与语音格式的交互关键字进行波形比较,若与语音格式的交互关键字波形一致,则可确定出交互关键字。
在一个实施方式中,可以首先获取语音训练文件和文本训练文件,并利用所述语音训练文件和文本训练文件,对语音识别器采用语音自适应方式估计语音参数,并利用该已估计语音参数的语音识别器识别所述用户语音文件,以将该用户语音文件转换为文本文件;再从所述文本文件中检索交互关键字。
在另一个实施方式中,可以确定该用户语音文件的语音波形图;判断该用户语音文件的语音波形图中是否包含与交互关键字的语音波形保持一致的波形区域,如果是,则基于该所包含的交互关键字的语音波形确定该交互关键字。
在本发明实施方式中,还可以基于语音来实现变更画面素材。
具体地,可以设置画面素材变更命令与画面素材变更关键字的对应关系;然后通过录制用户语音文件,分析所述用户语音文件以解析出画面素材变更关键字;再根据解析出的所述画面素材变更关键字确定对应于该画面素材变更关键字的更新后画面素材,并展示更新后画面素材。
步骤103:根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令,并基于所确定的画面素材移动命令控制所述画面素材的移动。
在这里,可以根据在步骤101设置的画面素材移动命令与交互关键字的对应关系,根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令。
比如,假如在步骤101中设置有关键字“启动”对应于画面素材启动命令、交互关键字“停止”对应于画面素材停止命令、设置交互关键字“加速”对应于画面素材加速命令、设置交互关键字“减速”对应于画面素材减速命令、交互关键字“曲线”对应于设置画面素材移动轨迹为曲线的命令、交互关键字“直线”对应于设置画面素材移动轨迹为直线的命令。
则当步骤102中解析出交互关键字为“启动”时,则可确定画面素材移动命令具体为:画面素材启动命令;当步骤102中解析出交互关键字为“停止”时,则可确定画面素材移动命令具体为:画面素材停止命令;当步骤102中解析出交互关键字为“加速”时,则可确定画面素材移动命令具体为:画面素材加速命令;当步骤102中解析出交互关键字为“减速”时,则可确定画面素材移动命令具体为:画面素材减速命令;当步骤102中解析出交互关键字为“曲线”时,则可确定画面素材移动命令具体为:设置画面素材移动轨迹为曲线的命令;当步骤102中解析出交互关键字为“直线”时,则可确定画面素材移动命令具体为:设置画面素材移动轨迹为直线的命令,等等。
当解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令,可以基于所确定的画面素材移动命令控制所述画面素材的移动。
在本发明实施方式中,还可以在步骤101中预先设置交互关键字与画面素材移动速度之间的对应关系。比如:设置交互关键字“高速运动”对应于画面素材保持预先设置的高速移动速度,即针对画面素材的高速移动速度保持命令;还可以设置交互关键字“中速运动”对应于画面素材保持为预先设置的中速移动速度,即针对画面素材的中速移动速度保持命令;还可以设置交互关键字“低速运动”对应于画面素材保持为预先设置的低速移动速度,即针对画面素材的低速移动速度保持命令。
当步骤102中解析出交互关键字为“高速运动”时,则可确定画面素材移动命令具体为:画面素材保持预先设置的高速移动速度,则此时控制画面素材移动速度加速到该预先设置的高速移动速度,并保持该高速移动速度。
当步骤102中解析出交互关键字为“中速运动”时,则可确定画面素材移动命令具体为:画面素材保持预先设置的高速移动速度,则此时控制画面素材移动速度加速到该预先设置的中速移动速度,并保持该中速移动速度。
当步骤102中解析出交互关键字为“低速运动”时,则可确定画面素材移动命令具体为:画面素材保持预先设置的低速移动速度,则此时控制画面素材移动速度加速到该预先设置的低速移动速度,并保持该低速移动速度。
图3为根据本发明实施方式的汽车类型的画面素材交互移动示意图。
由图3可见,画面素材为汽车模型,背景图像为房屋。汽车模型与房屋融合显示在一起,而且汽车模型停留在房屋之上。当感应到用户的语音之后,可以根据包含于该语音中的画面素材移动命令,汽车模型从该房屋中移开。
而且,在用户将手指或脚趾放到摄像头附近时,可以由摄像头的热传感器检测到用户的热量,并开始播放预先设定的引擎启动声音,以预示汽车模型已经启动。
基于上述详细分析,本发明实施方式还提出了一种语音交互装置。
图4为根据本发明实施方式的语音交互装置结构图。
如图4所示,该装置包括对应关系设置单元401、画面素材展示单元402、交互关键字解析单元403和画面素材移动单元404,其中:
对应关系设置单元401,用于设置画面素材移动命令与交互关键字的对应关系;
画面素材单元402,用于展示画面素材;
交互关键字解析单元403,用于录制用户语音文件,分析所述用户语音文件以解析出交互关键字;
画面素材移动单元404,用于根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令,并基于所确定的画面素材移动命令控制所述画面素材的移动。
在一个实施方式中,交互关键字解析单元403,用于获取语音训练文件和文本训练文件,并利用所述语音训练文件和文本训练文件,对语音识别器采用语音自适应方式估计语音参数,并利用该已估计语音参数的语音识别器识别所述用户语音文件,以将该用户语音文件转换为文本文件;从所述文本文件中检索交互关键字。
在另一个实施方式中,交互关键字解析单元403,用于确定该用户语音文件的语音波形图;判断该用户语音文件的语音波形图中是否包含与交互关键字的语音波形保持一致的波形区域,如果是,则基于该所包含的交互关键字的语音波形确定该交互关键字。
优选地,对应关系设置单元401,用于设置画面素材加速命令、画面素材减速命令、画面素材启动命令、画面素材停止命令、画面素材移动速度保持命令、或画面素材移动轨迹与交互关键字的对应关系。
该装置进一步包括画面素材变更单元405;
对应关系设置单元401,进一步用于设置画面素材变更命令与画面素材变更关键字的对应关系;
交互关键字解析单元403,进一步用于录制用户语音文件,分析所述用户语音文件以解析出画面素材变更关键字;
画面素材变更单元405,用于根据解析出的所述画面素材变更关键字确定对应于该画面素材变更关键字的更新后画面素材,并向画面素材展示单元402发送该更新后画面素材;
画面素材展示单元402,进一步用于展示该更新后画面素材。
可以基于上述方法和装置,在多种应用环境中实施本发明实施方式。比如,可以将本发明实施方式应用到移动终端的广告应用中。可以预先设置互动关键字“奥迪启动”。在用户点击广告后,提示用户利用麦克风说提示语:“奥迪启动”;当用户说出奥迪启动后,该语音关键字被解析成文本,与广告设定的互动关键字比较。若互动关键字一致,则将触发广告的行为,放出汽车启动的引擎声音,预示着广告内的汽车已经启动,而且广告横幅内的汽车轮胎转动,迅速移动开出广告可见范围,因此更能提高广告的互动性和新颖性。
基于上述分析,本发明实施方式还提出了一种移动终端。
图5为根据本发明实施方式的移动终端结构示意图。
如图5所示,该移动终端包括显示单元501、语音录制单元502和计算单元503。其中:
显示单元501,用于展示画面素材;
语音录制单元502,用于录制用户语音文件;
计算单元503,用于保存画面素材移动命令与交互关键字的对应关系,分析所述用户语音文件以解析出交互关键字;根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令,并基于所确定的画面素材移动命令控制所述画面素材的移动。
优选地,进一步包括摄像单元504,进一步用于感应用户的热量,并在感应到用户热量后向显示单元501发出热量提示消息;
显示单元501,进一步用于收到热量提示消息之后,播放画面素材移动启动音频。
基于上述详细分析,本发明实施方式还提出了一种语音交互系统。
图6为根据本发明实施方式的语音交互系统结构图。
如图6所示,该系统包括移动终端和服务器,其中:
服务器,用于接收画面素材,并将画面素材发送到移动终端;
移动终端,用于设置画面素材移动命令与交互关键字的对应关系;展示从服务器接收的画面素材;录制用户语音文件,分析所述用户语音文件以解析出交互关键字;根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令,并基于所确定的画面素材移动命令控制所述画面素材的移动。
优选地,移动终端,进一步用于保存画面素材变更命令与画面素材变更关键字的对应关系,录制用户语音文件,分析所述用户语音文件以解析出画面素材变更关键字,用于根据解析出的所述画面素材变更关键字确定对应于该画面素材变更关键字的更新后画面素材,并展示所述更新后画面素材。
在一个实施方式中,移动终端,用于从服务器获取该更新后画面素材,或者在本地检索以获取该更新后画面素材。
其中,移动终端可以包括但是不局限于:功能手机、智能手机、掌上电脑、个人电脑(PC)、平板电脑或个人数字助理(PDA),等等。
而且,在这里,图像受众、图像提供商或任意的第三方都可以通过各种信息传输方式,将画面素材上传到位于网络侧的服务器中,然后由移动终端从服务器中获取到画面素材,并展示画面素材。
实际上,可以通过多种形式来具体实施本发明实施方式所提出的语音互动方法和装置。比如,可以遵循一定规范的应用程序接口,将语音互动方法编写为安装到移动终端中的插件程序,也可以将其封装为应用程序以供用户自行下载使用。当编写为插件程序时,可以将其实施为ocx、dll、cab等多种插件形式。也可以通过Flash插件、RealPlayer插件、MMS插件、MIDI五线谱插件、ActiveX插件等具体技术来实施本发明实施方式所提出的语音互动方法。
可以通过指令或指令集存储的储存方式将本发明实施方式所提出的语音互动方法存储在各种存储介质上。这些存储介质包括但是不局限于:软盘、光盘、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒(Memory Stick)、xD卡等。
另外,还可以将本发明实施方式所提出的语音互动方法应用到基于闪存(Nand flash)的存储介质中,比如U盘、CF卡、SD卡、SDHC卡、MMC卡、SM卡、记忆棒、xD卡等。
综上所述,在本发明实施方式中,设置画面素材移动命令与交互关键字的对应关系,该方法还包括:展示画面素材;制用户语音文件,分析所述用户语音文件以解析出交互关键字;根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令,并基于所确定的画面素材移动命令控制所述画面素材的移动。由此可见,应用本发明实施方式之后,不同于现有技术中画面提供者的单片面画面展示,而是可以基于语音文件的交互关键字控制画面素材的移动,因此画面浏览受众可以通过语音方式与画面素材有效交互,提高了交互成功率。
而且,本发明实施方式通过感应用户语音来控制画面素材,同时还提高了画面素材的曝光程度,从而进一步能够提高画面素材投放效果。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (15)
1.一种语音交互方法,其特征在于,设置画面素材移动命令与交互关键字的对应关系,该方法还包括:
展示画面素材;
录制用户语音文件,分析所述用户语音文件以解析出交互关键字;
根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令,并基于所确定的画面素材移动命令控制所述画面素材的移动。
2.根据权利要求1所述的语音交互方法,其特征在于,所述分析用户语音文件以解析出交互关键字包括:
获取语音训练文件和文本训练文件,并利用所述语音训练文件和文本训练文件,对语音识别器采用语音自适应方式估计语音参数,并利用该已估计语音参数的语音识别器识别所述用户语音文件,以将该用户语音文件转换为文本文件;
从所述文本文件中检索交互关键字。
3.根据权利要求1所述的语音交互方法,其特征在于,所述分析用户语音文件以解析出交互关键字包括:
确定该用户语音文件的语音波形图;
判断该用户语音文件的语音波形图中是否包含与交互关键字的语音波形保持一致的波形区域,如果是,则基于该所包含的交互关键字的语音波形确定该交互关键字。
4.根据权利要求1所述的语音交互方法,其特征在于,所述设置画面素材移动命令与交互关键字的对应关系为:设置画面素材加速命令、画面素材减速命令、画面素材启动命令、画面素材停止命令、画面素材移动速度保持命令、或画面素材移动轨迹与交互关键字的对应关系。
5.根据权利要求1所述的语音交互方法,其特征在于,进一步设置画面素材变更命令与画面素材变更关键字的对应关系;该方法还包括:
录制用户语音文件,分析所述用户语音文件以解析出画面素材变更关键字;
根据解析出的所述画面素材变更关键字确定对应于该画面素材变更关键字的更新后画面素材,并展示所述更新后画面素材。
6.一种语音交互装置,其特征在于,包括对应关系设置单元、画面素材展示单元、交互关键字解析单元和画面素材移动单元,其中:
对应关系设置单元,用于设置画面素材移动命令与交互关键字的对应关系;
画面素材展示单元,用于展示画面素材;
交互关键字解析单元,用于录制用户语音文件,分析所述用户语音文件以解析出交互关键字;
画面素材移动单元,用于根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令,并基于所确定的画面素材移动命令控制所述画面素材的移动。
7.根据权利要求6所述的语音交互装置,其特征在于,
交互关键字解析单元,用于获取语音训练文件和文本训练文件,并利用所述语音训练文件和文本训练文件,对语音识别器采用语音自适应方式估计语音参数,并利用该已估计语音参数的语音识别器识别所述用户语音文件,以将该用户语音文件转换为文本文件;从所述文本文件中检索交互关键字。
8.根据权利要求6所述的语音交互装置,其特征在于,
交互关键字解析单元,用于确定该用户语音文件的语音波形图;判断该用户语音文件的语音波形图中是否包含与交互关键字的语音波形保持一致的波形区域,如果是,则基于该所包含的交互关键字的语音波形确定该交互关键字。
9.根据权利要求6所述的语音交互装置,其特征在于,
对应关系设置单元,用于设置画面素材加速命令、画面素材减速命令、画面素材启动命令、画面素材停止命令、画面素材移动速度保持命令、或画面素材移动轨迹与交互关键字的对应关系。
10.根据权利要求6所述的语音交互装置,其特征在于,进一步包括画面素材变更单元;
对应关系设置单元,进一步用于设置画面素材变更命令与画面素材变更关键字的对应关系;
交互关键字解析单元,进一步用于录制用户语音文件,分析所述用户语音文件以解析出画面素材变更关键字;
画面素材变更单元,用于根据解析出的所述画面素材变更关键字确定对应于该画面素材变更关键字的更新后画面素材,并向画面素材展示单元发送该更新后画面素材;
画面素材展示单元,进一步用于展示该更新后画面素材。
11.一种移动终端,其特征在于,该移动终端包括显示单元、语音录制单元和计算单元,其中:
显示单元,用于展示画面素材;
语音录制单元,用于录制用户语音文件;
计算单元,用于保存画面素材移动命令与交互关键字的对应关系,分析所述用户语音文件以解析出交互关键字;根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令,并基于所确定的画面素材移动命令控制所述画面素材的移动。
12.根据权利要求11所述的移动终端,进一步包括摄像单元,
摄像单元,进一步用于感应用户的热量,并在感应到用户热量后向显示单元发出热量提示消息;
显示单元,进一步用于收到热量提示消息之后,播放画面素材移动启动音频。
13.一种语音交互系统,其特征在于,该系统包括移动终端和服务器,其中:
服务器,用于接收画面素材,并将画面素材发送到移动终端;
移动终端,用于设置画面素材移动命令与交互关键字的对应关系;展示从服务器接收的画面素材;录制用户语音文件,分析所述用户语音文件以解析出交互关键字;根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令,并基于所确定的画面素材移动命令控制所述画面素材的移动。
14.根据权利要求13所述的语音交互系统,其特征在于,
移动终端,进一步用于保存画面素材变更命令与画面素材变更关键字的对应关系,录制用户语音文件,分析所述用户语音文件以解析出画面素材变更关键字,用于根据解析出的所述画面素材变更关键字确定对应于该画面素材变更关键字的更新后画面素材,并展示所述更新后画面素材。
15.根据权利要求14所述的语音交互系统,其特征在于,
移动终端,用于从服务器获取该更新后画面素材,或者在本地检索以获取该更新后画面素材。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210487130.3A CN103839548B (zh) | 2012-11-26 | 2012-11-26 | 一种语音交互方法、装置、系统和移动终端 |
PCT/CN2013/086734 WO2014079324A1 (zh) | 2012-11-26 | 2013-11-08 | 一种语音交互方法和装置 |
US14/719,981 US9728192B2 (en) | 2012-11-26 | 2015-05-22 | Method and apparatus for voice interaction control of movement base on material movement |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210487130.3A CN103839548B (zh) | 2012-11-26 | 2012-11-26 | 一种语音交互方法、装置、系统和移动终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103839548A true CN103839548A (zh) | 2014-06-04 |
CN103839548B CN103839548B (zh) | 2018-06-01 |
Family
ID=50775525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210487130.3A Active CN103839548B (zh) | 2012-11-26 | 2012-11-26 | 一种语音交互方法、装置、系统和移动终端 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9728192B2 (zh) |
CN (1) | CN103839548B (zh) |
WO (1) | WO2014079324A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104253902A (zh) * | 2014-07-21 | 2014-12-31 | 宋婉毓 | 与智能语音设备进行语音交互的方法 |
CN107659603A (zh) * | 2016-09-22 | 2018-02-02 | 腾讯科技(北京)有限公司 | 用户与推送信息互动的方法及装置 |
CN109041258A (zh) * | 2018-06-07 | 2018-12-18 | 安徽爱依特科技有限公司 | 储钱罐网络任务下发及动态交互展示方法及其系统 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105528393A (zh) * | 2015-11-30 | 2016-04-27 | 何磊 | 一种编辑文件的方法和装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1371090A (zh) * | 2002-03-25 | 2002-09-25 | 苏州孔雀电器集团有限责任公司 | 一种将语音文件转换成文本文件的方法 |
US20050151851A1 (en) * | 2001-01-10 | 2005-07-14 | Tim Schnell | Motion detector camera |
US20060149558A1 (en) * | 2001-07-17 | 2006-07-06 | Jonathan Kahn | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile |
CN1991982A (zh) * | 2005-12-29 | 2007-07-04 | 摩托罗拉公司 | 一种使用语音数据激励图像的方法 |
CN101013571A (zh) * | 2007-01-30 | 2007-08-08 | 无敌科技(西安)有限公司 | 一种使用语音命令的互动方法及其系统 |
CN201117218Y (zh) * | 2007-11-15 | 2008-09-17 | 邹鹏 | 自动控制的广告播放装置 |
CN101855521A (zh) * | 2007-11-12 | 2010-10-06 | 大众汽车有限公司 | 用于信息的输入和展示的驾驶员辅助系统的多形态的用户接口 |
CN101911146A (zh) * | 2008-01-14 | 2010-12-08 | 佳明有限公司 | 用于自动语音识别的动态用户界面 |
CN102253710A (zh) * | 2010-05-21 | 2011-11-23 | 台达电子工业股份有限公司 | 多模式互动操作的电子装置及其多模式互动操作方法 |
CN102374864A (zh) * | 2010-08-13 | 2012-03-14 | 国基电子(上海)有限公司 | 语音导航设备及语音导航方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US9076448B2 (en) * | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
JP2002318132A (ja) * | 2001-04-23 | 2002-10-31 | Hitachi Ltd | 音声対話型ナビゲーションシステムおよび移動端末装置および音声対話サーバ |
US8718262B2 (en) * | 2007-03-30 | 2014-05-06 | Mattersight Corporation | Method and system for automatically routing a telephonic communication base on analytic attributes associated with prior telephonic communication |
EP2262493B1 (en) * | 2008-03-07 | 2015-02-25 | Topotarget A/S | Methods of treatment employing prolonged continuous infusion of belinostat |
US8898568B2 (en) * | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
CN101742110A (zh) * | 2008-11-10 | 2010-06-16 | 天津三星电子有限公司 | 采用语音识别系统进行设置的摄像机 |
TW201142686A (en) * | 2010-05-21 | 2011-12-01 | Delta Electronics Inc | Electronic apparatus having multi-mode interactive operation method |
-
2012
- 2012-11-26 CN CN201210487130.3A patent/CN103839548B/zh active Active
-
2013
- 2013-11-08 WO PCT/CN2013/086734 patent/WO2014079324A1/zh active Application Filing
-
2015
- 2015-05-22 US US14/719,981 patent/US9728192B2/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050151851A1 (en) * | 2001-01-10 | 2005-07-14 | Tim Schnell | Motion detector camera |
US20060149558A1 (en) * | 2001-07-17 | 2006-07-06 | Jonathan Kahn | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile |
CN1371090A (zh) * | 2002-03-25 | 2002-09-25 | 苏州孔雀电器集团有限责任公司 | 一种将语音文件转换成文本文件的方法 |
CN1991982A (zh) * | 2005-12-29 | 2007-07-04 | 摩托罗拉公司 | 一种使用语音数据激励图像的方法 |
CN101013571A (zh) * | 2007-01-30 | 2007-08-08 | 无敌科技(西安)有限公司 | 一种使用语音命令的互动方法及其系统 |
CN101855521A (zh) * | 2007-11-12 | 2010-10-06 | 大众汽车有限公司 | 用于信息的输入和展示的驾驶员辅助系统的多形态的用户接口 |
CN201117218Y (zh) * | 2007-11-15 | 2008-09-17 | 邹鹏 | 自动控制的广告播放装置 |
CN101911146A (zh) * | 2008-01-14 | 2010-12-08 | 佳明有限公司 | 用于自动语音识别的动态用户界面 |
CN102253710A (zh) * | 2010-05-21 | 2011-11-23 | 台达电子工业股份有限公司 | 多模式互动操作的电子装置及其多模式互动操作方法 |
CN102374864A (zh) * | 2010-08-13 | 2012-03-14 | 国基电子(上海)有限公司 | 语音导航设备及语音导航方法 |
Non-Patent Citations (2)
Title |
---|
王炳锡等: ""实用语音识别基础"", 《实用语音识别基础》 * |
马洪等: ""现代管理百科全书(下)"", 《现代管理百科全书(下)》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104253902A (zh) * | 2014-07-21 | 2014-12-31 | 宋婉毓 | 与智能语音设备进行语音交互的方法 |
CN107659603A (zh) * | 2016-09-22 | 2018-02-02 | 腾讯科技(北京)有限公司 | 用户与推送信息互动的方法及装置 |
CN107659603B (zh) * | 2016-09-22 | 2020-11-27 | 腾讯科技(北京)有限公司 | 用户与推送信息互动的方法及装置 |
CN109041258A (zh) * | 2018-06-07 | 2018-12-18 | 安徽爱依特科技有限公司 | 储钱罐网络任务下发及动态交互展示方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
US9728192B2 (en) | 2017-08-08 |
US20150255072A1 (en) | 2015-09-10 |
WO2014079324A1 (zh) | 2014-05-30 |
CN103839548B (zh) | 2018-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11200895B2 (en) | Interaction with a portion of a content item through a virtual assistant | |
US20220092635A1 (en) | Adaptive real time modeling and scoring | |
CN108416003A (zh) | 一种图片分类方法和装置、终端、存储介质 | |
US20160041981A1 (en) | Enhanced cascaded object-related content provision system and method | |
US20130076788A1 (en) | Apparatus, method and software products for dynamic content management | |
CN110460872B (zh) | 视频直播的信息显示方法、装置、设备和存储介质 | |
US20140245140A1 (en) | Virtual Assistant Transfer between Smart Devices | |
CN103649982A (zh) | 非交互广告到交互广告的情境转变 | |
CN105453070A (zh) | 基于机器学习的用户行为表征 | |
KR102318642B1 (ko) | 음성 분석 결과를 이용하는 온라인 플랫폼 | |
CN111126390A (zh) | 一种用于识别媒体内容中标识图案的相关方法及装置 | |
CN105589835A (zh) | 用于文本消息传递系统的字体服务提供商的可选择样式 | |
CN103839548A (zh) | 一种语音交互方法、装置、系统和移动终端 | |
CN110827058A (zh) | 多媒体推广资源插入方法、设备以及计算机可读介质 | |
CN105611049A (zh) | 用于文本消息传递系统的出版商的可选择样式 | |
CN114817755A (zh) | 一种用户互动内容管理方法、装置和存储介质 | |
TW201106191A (en) | Viral advertisements | |
CN110413834B (zh) | 语音评论修饰方法、系统、介质和电子设备 | |
CN110309470A (zh) | 一种基于空气成像的虚拟新闻主播系统及其实现方法 | |
CN103838357A (zh) | 一种画面交互方法、装置、系统和移动终端 | |
CN112100501A (zh) | 信息流的处理方法、装置及电子设备 | |
CN110992930A (zh) | 声纹特征提取方法、装置、终端及可读存储介质 | |
CN113971581A (zh) | 一种机器人的控制方法、装置、终端设备及存储介质 | |
CN111159472A (zh) | 多模态聊天技术 | |
CN118042235A (zh) | 一种业务信息推送方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |