CN104123085A - 通过语音访问多媒体互动网站的方法和装置 - Google Patents

通过语音访问多媒体互动网站的方法和装置 Download PDF

Info

Publication number
CN104123085A
CN104123085A CN201410015324.2A CN201410015324A CN104123085A CN 104123085 A CN104123085 A CN 104123085A CN 201410015324 A CN201410015324 A CN 201410015324A CN 104123085 A CN104123085 A CN 104123085A
Authority
CN
China
Prior art keywords
voice
link
visited
page
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410015324.2A
Other languages
English (en)
Other versions
CN104123085B (zh
Inventor
林雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410015324.2A priority Critical patent/CN104123085B/zh
Publication of CN104123085A publication Critical patent/CN104123085A/zh
Priority to PCT/CN2015/070706 priority patent/WO2015106688A1/en
Application granted granted Critical
Publication of CN104123085B publication Critical patent/CN104123085B/zh
Priority to US15/177,369 priority patent/US10936280B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/134Hyperlinking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • G06F9/453Help systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提供了通过语音访问多媒体互动网站的方法和装置。其中,该方法包括:为所述多媒体互动网站上的至少一个链接编译可选的人机交互方式,所述可选的人机交互方式至少包括:语音方式和非语音方式;监听用户在所述多媒体互动网站上选择的待访问链接,并识别用户针对所述待访问链接选择的人机交互方式;当识别出用户选择语音方式时,跳转至用于引导用户提供语音的页面,引导用户在所述页面提供语音,并获取用户在所述页面提供的语音数据;判断所述语音数据是否满足设定的用于触发所述待访问链接的要求,如果是,提供所述待访问链接对应的信息。采用本发明,能够通过语音实现用户与多媒体网站互动。

Description

通过语音访问多媒体互动网站的方法和装置
技术领域
本申请涉及网络技术,特别涉及通过语音访问多媒体互动网站的方法和装置。
背景技术
目前,随着网站技术的不断发展,已产生了很多多媒体网站。其中,在多媒体网站中,有一种人机强交互性质的网站,简称多媒体互动网站。
其中,用户与多媒体互动网站交互的方式很多,包括但不限于以下几种:
1,点击触发方式,比如,用户通过鼠标点击多媒体互动网站中的链接进入链接对应的网页等;
2,滚轮触发方式,比如,用户通过鼠标中的滚轮触发多媒体互动网站中的链接进入链接对应的网页等;
3,键盘触发方式,比如用户通过键盘触发多媒体互动网站中的链接进入链接对应的网页等;
4、触控方式,比如,用户通过触控选择多媒体互动网站中的链接进入链接对应的网页等。
在上述用户与多媒体互动网站交互的方式中,不管采用哪种方式,都无法实现通过语音实现用户访问多媒体互动网站。
因此,一种通过语音实现用户访问多媒体互动网站的方法是当前亟待解决的技术问题。
发明内容
本申请提供了本申请提供了通过语音访问多媒体互动网站的方法和装置,以通过语音实现用户访问多媒体互动网站。
本申请提供的技术方案包括:
一种通过语音访问多媒体互动网站的方法,所述多媒体互动网站具有人机交互功能,该方法包括:
为所述多媒体互动网站上的至少一个链接编译可选的人机交互方式,所述可选的人机交互方式至少包括:语音方式和非语音方式;
监听用户在所述多媒体互动网站上选择的待访问链接,并识别用户针对所述待访问链接选择的人机交互方式;
当识别出用户选择语音方式时,跳转至用于引导用户提供语音的页面,引导用户在所述页面提供语音,并获取用户在所述页面提供的语音数据;
判断所述语音数据是否满足设定的用于触发所述待访问链接的要求,如果是,提供所述待访问链接对应的信息。
一种通过语音访问多媒体互动网站的装置,所述多媒体互动网站具有人机交互功能,该装置应用于多媒体网站的客户端,包括:
显示单元,用于显示多媒体互动网站,所述多媒体互动网站上的至少一个链接编译了可选的人机交互方式,所述可选的人机交互方式至少包括:语音方式和非语音方式;
监听单元,用于监听用户在所述多媒体互动网站选择的待访问链接;
识别单元,用于识别用户针对所述待访问链接选择的人机交互方式;
引导单元,用于所述识别单元识别出用户选择语音方式时,跳转至用于引导用户提供语音的页面,引导用户在所述页面提供语音,并获取用户在所述页面提供的语音数据;
判断单元,用于判断所述语音数据是否满足设定的用于触发所述待访问链接的要求,如果是,提供所述待访问链接对应的信息。
由以上技术方案可以看出,本发明中,通过在多媒体互动网站上的链接编译可选的人机交互方式,监听用户在所述多媒体互动网站选择的待访问链接,识别用户针对所述待访问链接选择的人机交互方式;当识别出用户选择语音方式时,跳转至用于引导用户提供语音的页面;引导用户在所述页面提供语音,并获取用户在所述页面提供的语音数据;判断所述语音数据是否满足设定的用于触发所述待访问链接的要求,如果是,提供所述待访问链接对应的信息,这能够通过语音方式代替传统的鼠标、键盘等方式实现用户与多媒体互动网站之间的互动,这能够提高用户访问多媒体互动网站的效率。
附图说明
图1为本发明实施例提供的方法流程图;
图2为本发明实施例提供的多媒体网站上的链接示意图;
图3为本发明实施例提供的包含语音方式的页面示意图;
图4为本发明实施例提供的步骤104实现流程图;
图5为本发明实施例提供的语音音谱示意图;
图6为本发明实施例提供的另一语音音谱示意图;
图7为本发明实施例提供的装置结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本申请提供了通过语音访问多媒体互动网站的方法。这里,多媒体互动网站具有人机交互功能。
参见图1,图1为本发明提供的方法流程图。如图1所示,该流程可应用于客户端,包括以下步骤:
步骤101,为所述多媒体互动网站上的至少一个链接编译可选的人机交互方式。
这里,多媒体互动网站,其一般是人机强交互性质的网站。本发明中,在现有多媒体互动网站上做了少许改进,即:针对多媒体互动网站上部分或全部的链接编译可选的人机交互方式。
其中,作为本发明的一个实施例,所述可选的人机交互方式至少包括:语音方式和非语音方式。
作为本发明的一个实施例,所述语音方式通过用于表示有麦克风的提示按钮实现;而所述非语音方式通过用于表示无麦克风的提示按钮实现。图2示出了多媒体互动网站上一个链接比如“我要当男主角”上编译的可选的人机交互方式。
步骤102,监听用户在所述多媒体互动网站上选择的待访问链接,并识别用户针对所述待访问链接选择的人机交互方式。
当用户进入多媒体互动网站时,用户会根据自己的兴趣在多媒体互动网站上选择待访问的链接。
当用户在所述多媒体互动网站选择完待访问链接后,基于步骤101描述的,假如针对该待访问链接编译了可选的人机交互方式,则用户会从可选的人机交互方式中选择其待使用的交互方式,比如选择语音方式,或者选择非语音方式。
步骤103,当识别出用户选择语音方式时,跳转至用于引导用户提供语音的页面,引导用户在所述页面提供语音,并获取用户在所述页面提供的语音数据。
作为本发明的一个实施例,本步骤103中,所述跳转至用于引导用户提供语音的页面包括:
通过动画形式展示一个与所述待访问链接关联且用于引导用户提供语音的新的页面;其中,所述页面中包含用于引导用户提供语音的引导信息。如图3所示,图3示出了通过动画形式展示的一个与待访问链接关联且用于引导用户提供语音的新的页面。在该新页面中,“请对着麦克风说:”为引导信息,引导用户对着麦克风提供语音数据。并且,在图3中,还包括一个进程框,用于表示用户的状态,当用户对着麦克风提供语音数据时,该进程框内的进程动态变化,反之,当用户停止对着麦克风提供语音数据时,该进程框内的进程不变。
基于跳转的页面包含引导信息的前提,则本步骤103中,引导用户在所述页面提供语音具体可为:
通过所述页面中的引导信息引导用户在所述页面提供语音。
需要说明的是,本步骤103是以识别出用户选择语音方式为前提执行的,而如果本发明中,当识别出用户选择非语音方式时,则可执行以下步骤:
提示用户基于设定的非语音方式触发所述链接。
其中,该非语音方式与现有人机交互方式类似,包括但不限于以下任一种方式或任意组合:
鼠标;
键盘;
触控。
步骤104,判断所述语音数据是否满足设定的用于触发所述待访问链接的要求,如果是,提供所述待访问链接对应的信息。
优选地,作为本发明的一个优选实施例,本步骤104中,当判断出所述语音数据不满足设定的用于触发所述待访问链接的要求,则可引导用户在所述页面提供语音,并获取用户在所述页面提供的语音数据,即返回执行步骤103。
至此,完成图1所示流程。
从图1所示流程可以看出,本发明中,通过语音方式代替传统的鼠标、键盘等方式实现用户与多媒体网站之间的互动,这能够提高用户访问多媒体网站的效率。
优选地,作为本发明的一个实施例,在上面描述中,多媒体互动网站上的链接编译的可选人机交互方式可通过Flash工具编译。
基于多媒体互动网站上的链接编译的可选人机交互方式通过Flash工具编译,则在上述步骤103中,获取用户在所述页面提供的语音数据可为:
通过Flash中脚本语言ActionScript的声音应用接口(SoundMixer API)获取用户在所述页面提供的语音数据。
另外,本发明中,作为本发明的一个实施例,上述步骤104中的判断可通过图4所示流程实现:
参见图4,图4为本发明实施例提供的步骤104实现流程图。如图4所示,该流程可包括以下步骤:
步骤401,从获取的语音数据中提取出语音音谱。
本发明中,该获取的语音数据是一个二进制数据。而从该二进制数据组成的语音数据中提取出语音音谱可通过隐马尔可夫模型(HMM)状态关联的数据进行操作的快速傅立叶变换(fft)实现。
其中,该提取出的语音音谱由左通道、右通道组成。图5示出了fftmode为true时的一种语音音谱,图6示出了fftmode为false时的另一种语音音谱。
从图5或图6示出的语音音谱可以看出,该语音音谱具体可由左通道、右通道组成。
步骤402,依据所述语音音谱中左通道或者右通道中语音的高低起伏识别出所述语音音谱关联的文字数量。
本发明中,其中,从语音音谱中的两个不同通道识别出的文字数量结果相同,因此,可选择从语音音谱中的单一通道比如左通道或者右通道即可识别出语音音谱关联的文字数量。
具体地,在语音音谱中,不同起伏的两个语音就是两个不同的汉字,基于此,依据该不同起伏的两个语音就是两个不同汉字的原则从语音音谱中左通道或者右通道中语音的高低起伏识别出所述语音音谱关联的文字数量。
步骤403,判断在步骤402识别出的文字数量是否为所述待访问链接要求的文字数量,如果是,确定所述语音数据满足设定的用于触发所述待访问链接的要求,如果否,确定所述语音数据不满足设定的用于触发所述待访问链接的要求。
假如所述待访问链接要求的文字数量为3个汉字,则本步骤403就判断在步骤402识别出的文字数量是否为3个汉字,如果是,则确定所述语音数据满足设定的用于触发所述待访问链接的要求,如果否,确定所述语音数据不满足设定的用于触发所述待访问链接的要求。
至此,完成图4所示的流程。
可以看出,通过图4所示的流程,能够完成步骤104中判断语音数据是否满足设定的用于触发所述待访问链接的要求,但是,需要说明的是,图4所示流程只是判断语音数据是否满足设定的用于触发所述待访问链接的要求的一种举例,并非用于限定本发明。
本领域技术人员还可以采用其他方式判断语音数据是否满足设定的用于触发所述待访问链接的要求,下面仅举2个例子说明:
例1,基于现有语音识别系统识别获取的语音数据中是否存在设定的语音数据,假如设定的语音数据为“我愿意”,则就基于现有语音识别系统识别获取的语音数据中是否“我愿意”,如果是,则确定所述语音数据满足设定的用于触发所述待访问链接的要求,如果否,确定所述语音数据不满足设定的用于触发所述待访问链接的要求。
例2,该例2主要是例1和图4所示流程的结合,即先基于现有语音识别系统识别获取的语音数据中是否存在设定的语音数据,只有从获取的语音数据中识别出设定的语音数据时,才执行图4所示流程,否则,确定所述语音数据不满足设定的用于触发所述待访问链接的要求。通过例2,能够更加精准依据用户需求触发所述待访问链接。
至此,完成本发明提供的方法描述。
下面对本发明提供的装置进行描述:
参见图7,图7为本发明实施例提供的装置结构图。该装置应用于多媒体互动网站的客户端,所述多媒体互动网站具有人机交互功能,如图7所示,该装置可包括:
显示单元,用于显示多媒体互动网站,所述多媒体互动网站上的至少一个链接编译了可选的人机交互方式,所述可选的人机交互方式至少包括:语音方式和非语音方式;
监听单元,用于监听用户在所述多媒体互动网站选择的待访问链接;
识别单元,用于识别用户针对所述待访问链接选择的人机交互方式;
引导单元,用于所述识别单元识别出用户选择语音方式时,跳转至用于引导用户提供语音的页面,引导用户在所述页面提供语音,并获取用户在所述页面提供的语音数据;
判断单元,用于判断所述语音数据是否满足设定的用于触发所述待访问链接的要求,如果是,提供所述待访问链接对应的信息。
优选地,作为本发明的一个实施例,所述跳转至用于引导用户提供语音的页面包括:
通过动画形式展示一个与所述待访问链接关联且用于引导用户提供语音的新的页面;其中,所述页面中包含用于引导用户提供语音的引导信息;
基于此,所述引导用户在所述页面提供语音包括:
通过所述新页面中的引导信息引导用户在所述页面提供语音。
优选地,本发明中,所述所述判断语音数据是否满足设定的用于触发所述待访问链接的要求包括:
从所述语音数据中提取出语音音谱,所述语音音谱由左通道、右通道组成;
依据所述语音音谱中左通道或者右通道中语音的高低起伏识别出所述语音音谱关联的文字数量;
判断所述文字数量是否为所述待访问链接要求的文字数量,
如果是,确定所述语音数据满足设定的用于触发所述待访问链接的要求;
如果否,确定所述语音数据不满足设定的用于触发所述待访问链接的要求。
优选地,本发明中,所述语音方式通过用于表示有麦克风的提示按钮实现;
所述非语音方式通过用于表示无麦克风的提示按钮实现。
优选地,本发明中,所述多媒体互动网站上的链接是通过Flash编译的;
所述语音数据是通过Flash中脚本语言ActionScript的声音应用接口SoundMixer API获取的。
至此,完成图7所示的装置描述。
由以上技术方案可以看出,本发明中,通过在多媒体互动网站上的链接编译可选的人机交互方式,监听用户在所述多媒体互动网站选择的待访问链接;识别用户针对所述待访问链接选择的人机交互方式;当识别出用户选择语音方式时,跳转至用于引导用户提供语音的页面;引导用户在所述页面提供语音,并获取用户在所述页面提供的语音数据;判断所述语音数据是否满足设定的用于触发所述待访问链接的要求,如果是,提供所述待访问链接对应的信息,这能够通过语音方式代替传统的鼠标、键盘等方式实现用户与多媒体互动网站之间的互动,这能够提高用户访问多媒体互动网站的效率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种通过语音访问多媒体互动网站的方法,所述多媒体互动网站具有人机交互功能,其特征在于,该方法包括:
为所述多媒体互动网站上的至少一个链接编译可选的人机交互方式,所述可选的人机交互方式至少包括:语音方式和非语音方式;
监听用户在所述多媒体互动网站上选择的待访问链接,并识别用户针对所述待访问链接选择的人机交互方式;
当识别出用户选择语音方式时,跳转至用于引导用户提供语音的页面,引导用户在所述页面提供语音,并获取用户在所述页面提供的语音数据;
判断所述语音数据是否满足设定的用于触发所述待访问链接的要求,如果是,提供所述待访问链接对应的信息。
2.根据权利要求1所述的方法,其特征在于,所述跳转至用于引导用户提供语音的页面包括:
通过动画形式展示一个与所述待访问链接关联且用于引导用户提供语音的新的页面;其中,所述页面中包含用于引导用户提供语音的引导信息;
所述引导用户在所述页面提供语音包括:
通过所述页面中的引导信息引导用户在所述页面提供语音。
3.根据权利要求1所述的方法,其特征在于,
所述判断语音数据是否满足设定的用于触发所述待访问链接的要求包括:
从所述语音数据中提取出语音音谱,所述语音音谱由左通道、右通道组成;
依据所述语音音谱中左通道或者右通道中语音的高低起伏识别出所述语音音谱关联的文字数量;
判断所述文字数量是否为所述待访问链接要求的文字数量,
如果是,确定所述语音数据满足设定的用于触发所述待访问链接的要求;
如果否,确定所述语音数据不满足设定的用于触发所述待访问链接的要求。
4.根据权利要求1至3任一所述的方法,其特征在于,
所述语音方式通过用于表示有麦克风的提示按钮实现;
所述非语音方式通过用于表示无麦克风的提示按钮实现。
5.根据权利要求1至3任一所述的方法,其特征在于,所述多媒体互动网站上的链接是通过Flash编译的;
所述语音数据是通过Flash中脚本语言ActionScript的声音应用接口SoundMixer API获取的。
6.一种通过语音访问多媒体互动网站的装置,所述多媒体互动网站具有人机交互功能,其特征在于,该装置应用于多媒体网站的客户端,包括:
显示单元,用于显示多媒体互动网站,所述多媒体互动网站上的至少一个链接编译了可选的人机交互方式,所述可选的人机交互方式至少包括:语音方式和非语音方式;
监听单元,用于监听用户在所述多媒体互动网站选择的待访问链接;
识别单元,用于识别用户针对所述待访问链接选择的人机交互方式;
引导单元,用于所述识别单元识别出用户选择语音方式时,跳转至用于引导用户提供语音的页面,引导用户在所述页面提供语音,并获取用户在所述页面提供的语音数据;
判断单元,用于判断所述语音数据是否满足设定的用于触发所述待访问链接的要求,如果是,提供所述待访问链接对应的信息。
7.根据权利要求6所述的装置,其特征在于,所述跳转至用于引导用户提供语音的页面包括:
通过动画形式展示一个与所述待访问链接关联且用于引导用户提供语音的新的页面;其中,所述页面中包含用于引导用户提供语音的引导信息;
所述引导用户在所述页面提供语音包括:
通过所述新页面中的引导信息引导用户在所述页面提供语音。
8.根据权利要求6所述的装置,其特征在于,所述所述判断语音数据是否满足设定的用于触发所述待访问链接的要求包括:
从所述语音数据中提取出语音音谱,所述语音音谱由左通道、右通道组成;
依据所述语音音谱中左通道或者右通道中语音的高低起伏识别出所述语音音谱关联的文字数量;
判断所述文字数量是否为所述待访问链接要求的文字数量,
如果是,确定所述语音数据满足设定的用于触发所述待访问链接的要求;
如果否,确定所述语音数据不满足设定的用于触发所述待访问链接的要求。
9.根据权利要求6至8任一所述的装置,其特征在于,
所述语音方式通过用于表示有麦克风的提示按钮实现;
所述非语音方式通过用于表示无麦克风的提示按钮实现。
10.根据权利要求6至8任一所述的装置,其特征在于,所述多媒体互动网站上的链接是通过Flash编译的;
所述语音数据是通过Flash中脚本语言ActionScript的声音应用接口SoundMixer API获取的。
CN201410015324.2A 2014-01-14 2014-01-14 通过语音访问多媒体互动网站的方法和装置 Active CN104123085B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201410015324.2A CN104123085B (zh) 2014-01-14 2014-01-14 通过语音访问多媒体互动网站的方法和装置
PCT/CN2015/070706 WO2015106688A1 (en) 2014-01-14 2015-01-14 Method and apparatus for voice access to multimedia interactive website
US15/177,369 US10936280B2 (en) 2014-01-14 2016-06-09 Method and apparatus for accessing multimedia interactive website by determining quantity of characters in voice spectrum

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410015324.2A CN104123085B (zh) 2014-01-14 2014-01-14 通过语音访问多媒体互动网站的方法和装置

Publications (2)

Publication Number Publication Date
CN104123085A true CN104123085A (zh) 2014-10-29
CN104123085B CN104123085B (zh) 2015-08-12

Family

ID=51768514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410015324.2A Active CN104123085B (zh) 2014-01-14 2014-01-14 通过语音访问多媒体互动网站的方法和装置

Country Status (3)

Country Link
US (1) US10936280B2 (zh)
CN (1) CN104123085B (zh)
WO (1) WO2015106688A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015106688A1 (en) * 2014-01-14 2015-07-23 Tencent Technology (Shenzhen) Company Limited Method and apparatus for voice access to multimedia interactive website
CN111124229A (zh) * 2019-12-24 2020-05-08 山东舜网传媒股份有限公司 通过语音交互实现网页动画控制的方法、系统及浏览器

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108369804A (zh) * 2015-12-07 2018-08-03 雅马哈株式会社 语音交互设备和语音交互方法
US20240077983A1 (en) * 2022-09-01 2024-03-07 Lei Zhang Interaction recording tools for creating interactive ar stories

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102520792A (zh) * 2011-11-30 2012-06-27 江苏奇异点网络有限公司 用于网络浏览器的语音式交互方法
CN102567321A (zh) * 2010-12-14 2012-07-11 许德武 一种基于语音识别的域名访问和搜索方法
CN103377028A (zh) * 2012-04-20 2013-10-30 纽安斯通讯公司 用于以语音启动人机界面的方法和系统

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6282511B1 (en) * 1996-12-04 2001-08-28 At&T Voiced interface with hyperlinked information
US6101472A (en) * 1997-04-16 2000-08-08 International Business Machines Corporation Data processing system and method for navigating a network using a voice command
US6208965B1 (en) * 1997-11-20 2001-03-27 At&T Corp. Method and apparatus for performing a name acquisition based on speech recognition
JPH11224179A (ja) * 1998-02-05 1999-08-17 Fujitsu Ltd 対話インタフェース・システム
US7082397B2 (en) * 1998-12-01 2006-07-25 Nuance Communications, Inc. System for and method of creating and browsing a voice web
US6788768B1 (en) * 1999-09-13 2004-09-07 Microstrategy, Incorporated System and method for real-time, personalized, dynamic, interactive voice services for book-related information
US7203721B1 (en) * 1999-10-08 2007-04-10 At Road, Inc. Portable browser device with voice recognition and feedback capability
US6633846B1 (en) * 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7516190B2 (en) * 2000-02-04 2009-04-07 Parus Holdings, Inc. Personal voice-based information retrieval system
US6629077B1 (en) * 2000-11-22 2003-09-30 Universal Electronics Inc. Universal remote control adapted to receive voice input
GB0029576D0 (en) * 2000-12-02 2001-01-17 Hewlett Packard Co Voice site personality setting
US6999916B2 (en) * 2001-04-20 2006-02-14 Wordsniffer, Inc. Method and apparatus for integrated, user-directed web site text translation
US7054939B2 (en) * 2001-06-28 2006-05-30 Bellsouth Intellectual Property Corportion Simultaneous visual and telephonic access to interactive information delivery
JP2003108475A (ja) * 2001-09-27 2003-04-11 Brother Ind Ltd 通信システム、通信装置、およびコンピュータプログラム
US7650284B2 (en) * 2004-11-19 2010-01-19 Nuance Communications, Inc. Enabling voice click in a multimodal page
US7788248B2 (en) * 2005-03-08 2010-08-31 Apple Inc. Immediate search feedback
US7962842B2 (en) * 2005-05-30 2011-06-14 International Business Machines Corporation Method and systems for accessing data by spelling discrimination letters of link names
IL174107A0 (en) * 2006-02-01 2006-08-01 Grois Dan Method and system for advertising by means of a search engine over a data network
US8036894B2 (en) * 2006-02-16 2011-10-11 Apple Inc. Multi-unit approach to text-to-speech synthesis
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8056070B2 (en) * 2007-01-10 2011-11-08 Goller Michael D System and method for modifying and updating a speech recognition program
US8060371B1 (en) * 2007-05-09 2011-11-15 Nextel Communications Inc. System and method for voice interaction with non-voice enabled web pages
KR101359715B1 (ko) * 2007-08-24 2014-02-10 삼성전자주식회사 모바일 음성 웹 제공 방법 및 장치
US20100306153A1 (en) * 2009-05-27 2010-12-02 Ruicao Mu Rule based multimedia communication system on web pages
GB0911353D0 (en) * 2009-06-30 2009-08-12 Haq Saad U Discrete voice command navigator
CN101667188A (zh) * 2009-07-24 2010-03-10 刘雪英 一种在博客上实现音频视频留言和评论的方法和系统
US20130031476A1 (en) * 2011-07-25 2013-01-31 Coin Emmett Voice activated virtual assistant
CN103226950A (zh) * 2012-01-29 2013-07-31 特克特朗尼克公司 电信网络中的语音处理
US9223537B2 (en) * 2012-04-18 2015-12-29 Next It Corporation Conversation user interface
US10175938B2 (en) * 2013-11-19 2019-01-08 Microsoft Technology Licensing, Llc Website navigation via a voice user interface
US9536067B1 (en) * 2014-01-01 2017-01-03 Bryant Christopher Lee Password submission without additional user input
CN104123085B (zh) 2014-01-14 2015-08-12 腾讯科技(深圳)有限公司 通过语音访问多媒体互动网站的方法和装置
US9288321B2 (en) * 2014-03-07 2016-03-15 Paypal, Inc. Interactive voice response interface for webpage navigation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567321A (zh) * 2010-12-14 2012-07-11 许德武 一种基于语音识别的域名访问和搜索方法
CN102520792A (zh) * 2011-11-30 2012-06-27 江苏奇异点网络有限公司 用于网络浏览器的语音式交互方法
CN103377028A (zh) * 2012-04-20 2013-10-30 纽安斯通讯公司 用于以语音启动人机界面的方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015106688A1 (en) * 2014-01-14 2015-07-23 Tencent Technology (Shenzhen) Company Limited Method and apparatus for voice access to multimedia interactive website
US10936280B2 (en) 2014-01-14 2021-03-02 Tencent Technology (Shenzhen) Company Limited Method and apparatus for accessing multimedia interactive website by determining quantity of characters in voice spectrum
CN111124229A (zh) * 2019-12-24 2020-05-08 山东舜网传媒股份有限公司 通过语音交互实现网页动画控制的方法、系统及浏览器

Also Published As

Publication number Publication date
CN104123085B (zh) 2015-08-12
US20160283193A1 (en) 2016-09-29
US10936280B2 (en) 2021-03-02
WO2015106688A1 (en) 2015-07-23

Similar Documents

Publication Publication Date Title
US10289433B2 (en) Domain specific language for encoding assistant dialog
RU2699399C2 (ru) Система и способ обнаружения орфанных высказываний
US20210074295A1 (en) Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
US9633004B2 (en) Better resolution when referencing to concepts
CN103026318A (zh) 输入法编辑器
CN104380284A (zh) 针对多种语言处理内容的语音合成
WO2018082462A1 (zh) 应用界面遍历方法、系统和测试设备
CN104123085B (zh) 通过语音访问多媒体互动网站的方法和装置
CN110288995B (zh) 基于语音识别的交互方法、装置、存储介质和电子设备
CN109891374B (zh) 用于与数字代理的基于力的交互的方法和计算设备
US11354754B2 (en) Generating self-support metrics based on paralinguistic information
CN104347075A (zh) 以语音识别来选择控制客体的装置及方法
TWI509432B (zh) 電子設備及其自然語言分析方法
CN103399766B (zh) 更新输入法系统的方法和设备
KR20080086791A (ko) 음성 기반 감정 인식 시스템
CN101751530A (zh) 检测漏洞攻击行为的方法及设备
KR20120038686A (ko) 단말기의 어학 어플리케이션을 통한 학습 평가 방법 및 시스템
CN111079029A (zh) 敏感账号的检测方法、存储介质和计算机设备
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
CN104199917A (zh) 一种网页页面内容的翻译方法、装置以及客户端
CN113050808A (zh) 在输入框中突出显示目标文本的方法及装置
CN108733555A (zh) 一种应用测试方法及装置
CN104363349A (zh) 短消息处理方法及应用该方法的便携式终端
US11756544B2 (en) Selectively providing enhanced clarification prompts in automated assistant interactions
KR20170048008A (ko) 질의의도를 분석하기 위한 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant