CN1564123A

CN1564123A - 网页语音接口的操作方法

Info

Publication number: CN1564123A
Application number: CN 200410031317
Authority: CN
Inventors: 王文良
Original assignee: Acer Inc
Current assignee: Acer Inc
Priority date: 2004-03-26
Filing date: 2004-03-26
Publication date: 2005-01-12
Anticipated expiration: 2024-03-26
Also published as: CN100424630C

Abstract

本发明公开了一种网页语音接口的操作方法，适用于一图形使用者接口系统，用以借助一语音命令来操控一网页，其中该网页根据多个内容事件的选择而运作，该方法包含下列步骤：接收该网页的多个内容事件的注册，因应这些内容事件的数据而别产生一相对应的对照信号，并储存于一对照表数据库中；接收该语音命令，将该语音命令转换成与该对照信号相同形式的信号，将转换所得的信号于该对照表数据库中比对出相对应的内容事件；以及选择该内容事件显示于该网页上或是执行该内容事件的指令。

Description

网页语音接口的操作方法

技术领域

本发明涉及一种操作方法，尤其是关于一种网页语音接口的操作方法。

背景技术

在传统的操作系统MS-DOS文字模式下，屏幕上显示的是单调的文字接口，使用者必须通过键盘输入指令，才能操作计算机。因此DOS时代所谓的学计算机常常和背指令划上等号，这是许多人的刻板印象，也是许多学计算机人的痛苦回忆，直到图形使用者接口系统的出现才改变了这样的情况。

所谓的图形使用者接口为Graphical User Interface，可缩写为GUI。其中GUI的系统很多，有熟知的微软Windows操作系统、苹果计算机的MacOS、UNIX底下的X Window System等PC GUI系统，Embedded领域里头也有不少的GUI系统如QNX Photon microGUI等等。

图形使用者接口是目前最主要的计算机系统与程序采用的接口，其操作环境以图形及窗口方式显示，使用者只要用鼠标进行操作，就可以看图标找到需要的指令来进行操作，其亲和性的设计可说是操作系统设计上的一大突破。

随着计算机的普及，采用语音与计算机进行交互操作是未来人机接口设计的一个发展方向，这里的语音技术包括两项内容：语音识别(speechrecognition，SR)与语音合成(speech synthesis，SS)。因为这两项技术很复杂，需要相关的语音引擎(speech engine)来支持，而许多软件厂商都出品过自己的语音合成或语音识别引擎，但是这些引擎之间并不兼容，如果一个软件要使用语音功能，开发者必须得从众多的语音引擎中挑选一个来使用，如果将来想要换一个语音引擎，就必须为新引擎重新改写程序，为了解决这个问题，微软公司推出了一组新的应用程序开发接口(API)。然而，应用程序开发接口只提供了一系列接口，它本身并不能做任何事情，以此应用程序开发接口编写的程序还需要语音引擎的支持才能运行。于是微软在此基础上推出语音软件开发工具(Speech SDK)这个开发工具，帮助软件开发者开发语音软件，并在此工具中提供了一系列语音引擎(包括SR和SS)，使得软件开发人员轻而易举地就能使自己的程序能说又能听。

虽然，微软的语音软件开发工具提供ASP.NET的平台，程序开发人员可使用ASP.NET+HTML来开发网页语音应用(Web Speech Application)，但是现行的语音应用并无法以内容为导向的方式来操作网页。

因此，如何开发一种可改善上述已知技术缺陷，且能提供以内容导向的方式来操作网页的语音接口的操作方法，实为目前迫切需要解决的问题。

发明内容

本发明的主要目的在于提供一种网页语音接口的操作方法，以解决传统的语音应用无法以内容为导向的方式来操作网页等缺陷。

为实现上述目的，本发明提供一种网页语音接口的操作方法，适用于一图形使用者接口系统，用以借助一语音命令来操控一网页，其中该网页根据多个内容事件的选择而运作，该方法包含下列步骤：接收该网页的多个内容事件的注册，因应这些内容事件的数据而各别产生一相对应的对照信号，并储存于一对照表数据库中；接收该语音命令，将该语音命令转换成与该对照信号相同形式的信号，将转换所得的信号于该对照表数据库中比对出相对应的内容事件；以及选择该内容事件显示于该网页上或是执行该内容事件的指令。

根据上述的操作方法，其中该网页为一超文本标记语言(HypertextMarkup Language，HTML)网页。

根据上述的操作方法，其中该语音命令借助一语音引擎(speech engine)所接收。

根据上述的操作方法，其中该网页语音接口的操作方法利用一语音软件开发工具(Speech SDK)所开发。

根据上述的操作方法，其中这些内容事件的数据包含一使用者接口识别码(user interface id)、事件形式(event type)和/或事件内容名称。

根据上述的操作方法，其中该图形使用者接口系统为一订单系统，用以借助该语音命令来操控该网页。

根据上述的操作方法，其中该图形使用者接口系统为一操作系统。

根据上述的操作方法，其中该图形使用者接口系统为一窗口(Windows)操作系统。

根据上述的操作方法，其中该图形使用者接口系统为一Mac OS操作系统或是UNIX操作系统的X窗口系统(X Window System)。

本发明结合下列图示与实施例说明，使得更深入的了解：

附图说明

图1为本发明较佳实施例的网页语音接口的操作方法的流程图。

图2为使用本发明较佳实施例的网页语音接口的操作方法的结构示意图。

图3为使用本发明较佳实施例的网页语音接口的操作方法的HTML网页示意图。

其中，附图标记说明如下：

S11～S13：网页语音接口的操作方法的软件流程步骤

20：网页语音接口的操作软件

21：HTML网页

22：语音引擎

30：HTML网页

具体实施方式

本发明为一种网页语音接口的操作方法，适用于一图形使用者接口系统，其使用微软公司的语音软件开发工具(Speech SDK)所开发的网页语音应用(Web Speech Application)软件，用以借助一语音引擎(speech engine)所接收的语音命令来操控网页的多个内容事件的选择，其中该网页以一超文本标记语言(Hypertext Markup Language，HTML)网页为佳，且HTML网页根据多个内容事件的选择而运作。

请参阅图1，其为本发明较佳实施例的网页语音接口的操作方法的流程图。首先，接收HTML网页的多个内容事件的注册，根据这些内容事件的数据而各别产生相对应的对照信号，并储存于一对照表数据库中(步骤S11)。至于，这些内容事件的数据为该内容事件所属的使用者接口识别码(userinterface id)、事件形式(event type)及/或事件内容名称等。

接着，接收由语音引擎(speech engine)所接收的语音命令，将该语音命令转换成与这些内容事件所产生的对照信号相同形式的信号，并根据语音命令转换所得的信号于该对照表数据库中搜寻并比对出与该语音命令相对应的内容事件(步骤S12)。

最后，根据该语音命令所比对的结果，选择相对应的内容事件显示于HTML网页上或是执行内容事件的指令(步骤S13)。

当然，本发明的网页语音接口的操作方法所适用的图形使用者接口系统可为一订单系统或是一操作系统，但不限定于此。且该操作系统为微软的窗口(Windows)操作系统、苹果计算机的Mac OS操作系统或是UNIX操作系统的X窗口系统(X Window System)，但不限定于此。

本发明的网页语音接口的操作方法可以安装软件的形式执行于图形使用者接口系统的系统目录下，因此以网页语音接口的操作软件来代表本发明网页语音接口的操作方法的结构，用以描述本发明网页语音接口的操作方法与其它结构之间的运作方式。请参阅图2，其为使用本发明较佳实施例的网页语音接口的操作方法的结构示意图。如图2所示，网页语音接口的操作软件20与HTML网页21及语音引擎22连接，HTML网页21所包含的所有内容事件必须对网页语音接口的操作软件20进行注册，并于注册完成后将内容事件所各别对应的对照信号储存于对照表数据库中(未图标)。当使用者所发出的语音命令借助语音引擎22被接收时，网页语音接口的操作软件20必须对语音命令进行信号转换后，与存放于对照表数据库中的对照信号进行比对，进而判断出与语音命令对应的内容事件，最后操控该内容事件显示于HTML网页上或是执行内容事件的指令。

图3为使用本发明较佳实施例的网页语音接口的操作方法的HTML网页示意图。在此实施例中，网页语音接口的操作方法适用于一订单系统。如图3所示，该HTML网页30包含“产品类别”、“演出地点”、“演出年度”、“演出月份”等标的，其中产品类别的内容事件为音乐及戏剧等，演出地点的内容事件为地点1、地点2...地点N等。因此，在此HTML网页30初始化时，网页中所有的内容事件需对图2所示的网页语音接口的操作软件20进行注册，进而让使用者可借助语音命令来操控网页的显示。

请再参阅图3，以下将举例描述使用者所发出的语音命令如何造成HTML网页30图形接口的反应：

1、使用者语音命令：地点2音乐；

网页的图形接口反应：节目类别→音乐；演出地点→地点2。

2、使用者语音命令：2003年5月；

网页的图形接口反应：演出年度→2003年；演出月份→5月。

3、使用者语音命令：地点2情境夜上海；

网页的图形接口反应：演出地点→地点2；产品名称→情境夜上海。

4、使用者语音命令：开始查询→如同按下“开使查询”按钮。

由于网页中使用的图形使用者接口(GUI)一般包括：文字输入盒(TextBox)及选项(Radio button，Check Box，ComboBox)等，同时存在于一复杂网页，因此使用本发明的网页语音接口的操作方法能够辅助图形操作接口，再加上直接以内容来控制网页的图形操作接口，使用者可直接说出任何出现在图形使用者接口中的文字，当系统辨识后会直接操作适当的使用者接口(UI)组件，使其正确反应出使用者的意图。

而且，对网页设计者而言，只需在网页初使化时，增加一小段程序代码，例如Java Script or VB Script，使用本发明的网页语音接口的操作方法即可使该网页成为能够以语音内容为导向的网页(Content-oriented Speech EnabledPage)。

另外，由于使用者欲使用网页语音接口来操控网页时，需要按压一热键或是网页中的一个按钮才能触发语音引擎来接收语音命令。反之，如未按压热键或是网页中的按钮时，图形操作接口仍然可正常使用，故使用者可以任何的顺序交互使用图形接口及网页语音接口。

纵上所述，本发明的网页语音接口的操作方法具有下述优点：

1、提供使用者以内容导向的方式来操作网页。

2、提供使用者以语音操作接口来辅助图形操作接口。对使用者而言，图形操作接口仍然可正常使用，故使用者可以任何的顺序交互使用图形接口及网页语音接口。

3、对网页设计者而言，仅需作些微小修改即可。

Claims

1、一种网页语音接口的操作方法，适用于一图形使用者接口系统，用以借助一语音命令来操控一网页，其中该网页根据多个内容事件的选择而运作，该方法包含下列步骤：

接收该网页的多个内容事件的注册，因应这些内容事件的数据而各别产生一相对应的对照信号，并储存于一对照表数据库中；

接收该语音命令，将该语音命令转换成与该对照信号相同形式的信号，将转换所得的信号于该对照表数据库中比对出相对应的内容事件；以及

选择该内容事件显示于该网页上或是执行该内容事件的指令。

2、如权利要求1所述的网页语音接口的操作方法，其特征在于该网页为一超文本标记语言网页。

3、如权利要求1所述的网页语音接口的操作方法，其特征在于该语音命令借助一语音引擎所接收。

4、如权利要求1所述的网页语音接口的操作方法，其特征在于该网页语音接口的操作方法利用一语音软件开发工具所开发。

5、如权利要求1所述的网页语音接口的操作方法，其特征在于这些内容事件的数据包含一使用者接口识别码、事件形式和/或事件内容名称。

6、如权利要求1所述的网页语音接口的操作方法，其特征在于该图形使用者接口系统为一订单系统，用以借助该语音命令来操控该网页。

7、如权利要求1所述的网页语音接口的操作方法，其特征在于该图形使用者接口系统为一操作系统。

8、如权利要求7所述的网页语音接口的操作方法，其特征在于该图形使用者接口系统为一窗口操作系统。

9、如权利要求7所述的网页语音接口的操作方法，其特征在于该图形使用者接口系统为一Mac OS操作系统或是UNIX操作系统的X窗口系统。