CN1779782A - 用户界面设计装置和方法 - Google Patents

用户界面设计装置和方法 Download PDF

Info

Publication number
CN1779782A
CN1779782A CNA2005101241580A CN200510124158A CN1779782A CN 1779782 A CN1779782 A CN 1779782A CN A2005101241580 A CNA2005101241580 A CN A2005101241580A CN 200510124158 A CN200510124158 A CN 200510124158A CN 1779782 A CN1779782 A CN 1779782A
Authority
CN
China
Prior art keywords
semantic structure
user interface
rule
semantic
deviser
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005101241580A
Other languages
English (en)
Other versions
CN1779782B (zh
Inventor
中川贤一郎
广田诚
山本宽树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of CN1779782A publication Critical patent/CN1779782A/zh
Application granted granted Critical
Publication of CN1779782B publication Critical patent/CN1779782B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/38Creation or generation of source code for implementing user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Stored Programmes (AREA)
  • Input From Keyboards Or The Like (AREA)

Abstract

提供一种用户界面设计装置和方法,该装置减轻了与设计者的输入操作有关的负担。当获取包括语义结构生成规则的语音识别语法时,从包括在该语法中的语义结构生成规则中提取至少一个语义结构。将该语义结构呈现给设计者。设计者可以使用输入装置来选择所呈现的语义结构要素。当设计者的选择完成时,提取所选择的信息,并将其反映在用户界面内容中。

Description

用户界面设计装置和方法
技术领域
本发明涉及一种用户界面设计装置和方法,用于为提供模式识别功能的应用程序设计用户界面。
背景技术
目前,用于描述语音用户界面(以下称之为“语音UI”)的标记语言规范有以下几种:
(1)VoiceXML(参见http://www.w3.org/TR/voicexml20/)
(2)SALT(参见http://www.saltforum.org/)
(3)XHTML+Voice(参见http://www.w3.org/TR/xhtml+voice/)
让浏览器读入根据这种规范所写的内容,就可以在用户和装置(或服务)之间实现语音UI。
通常,设计者(author)(内容创建者)通过使用专用的设计工具(authoring tool)来创建这些语音UI内容(参见,例如日本特开平03279684和日本特开平09-114623号公报)。
为了实现语音UI,需要用于识别语音的语音识别技术。语音识别是这样一种处理:其通过使用被称作声学模型的人类语音的声学统计,从满足指定的语言约束(language constraint)的词序中选择最接近该发音的一个。该语言约束也被称为语音识别语法。
可以采用现有的语法作为识别“是”或“否”的通用语音识别语法。然而,设计者需要创建其它应用程序专用的语法。W3C正致力于这种语音识别语法的标准化工作,其现在作为“语音识别语法规范1.0版”(以下称之为“SRGS”)推荐。根据SRGS的规范公开于http://www.w3.org/TR/speech-grammar/。图3和图4示出由SRGS所描述的语音识别语法的描述的例于。
同样,关于规范“语音识别的语义解释”(以下称之为“SISR”),现在也在提倡标准化。这是用于指定语音识别结果的语义结构的规范。使用该规范能提取包含在对应的发音中的语义信息作为语音识别结果。参考图3,附图标记302表示SISR语义结构生成规则的例子。如在这种情况下,在SRGS或“tag(标签)”属性中的<tag>和</tag>之间描述语义结构生成规则。注意,SISR规范公开于http://www.w3.org/TR/semantic-interpretation/。
例如,考虑以下这种情况:使用图3和图4中所示的语音识别语法,在语音识别处理中发出“我想要可口可乐和三个顶料为意大利辣香肠和蘑菇的大比萨饼(I would like a coca cola andthree large pizzas with pepperoni and mushrooms)”的声音。结果,生成如图5所示的结构数据。在该规范中,根据用户输入的数据结构501被称为“语义结构”,而构成该语义结构的每个数据502被称为“语义结构要素(semantic structural element)”。通常,与接收字符串“我想要可口可乐和三个顶料为意大利辣香肠和蘑菇的大比萨饼”作为识别结果相比,接收识别结果的应用程序可以更加容易地使用这种语义结构。
图6A示出数据输入前语音识别应用程序窗口的例子。该应用程序被设计用来通过语音或GUI输入定购比萨饼。用户可通过GUI输入填写每个表单(form),或者可以在点击语音输入按钮602后,发出声音“我想要可口可乐和三个顶料为意大利辣香肠和蘑菇的大比萨饼”。当发出以上声音时,每个表单自动填写如图6B所示的数据。
通常通过使用UI设计工具来创建这种语音UI。图7示出UI设计工具窗口的例子。在许多通用UI设计工具中,在编辑下可见例如表单工具板(form palette)702和GUI窗口703。应用设计者通过将所期望的表单控件从表单工具板中拖放到UI窗口,来创建GUI窗口。
在用户发出声音后,为了根据用户的发音来更新如图6B中的窗口603所表示的每个表单控件的值,应用程序设计者需要执行将每个表单绑定到语音识别结果的语义结构要素的操作。例如,应用程序设计者必须将语音识别结果的语义结构中的数据502(比萨饼的数量)绑定到存储比萨饼的数量的表单704。当通过这种方式将每个表单或对象绑定到语音识别结果的语义结构要素上时,最简单的实现是如图8所示的UI。即,向设计者呈现语义结构绑定对话框801,以通过文本输入使他/她将语音识别语法名称802和路径803输入到由语音识别所生成的特定的结构要素。在这种情况下,到这种语义结构要素的路径被称为“语义结构路径”。语义结构路径中所写的“/”表示父子(parent-child)关系。因此,“/比萨饼/数量”表示“比萨饼”要素的子要素“数量”,也就是数据502。
如图8所示,让设计者通过文本输入来输入语音识别结果的语义结构路径,能设置每个表单控件(或对象)与语音识别结果的语义结构要素的绑定。
该文本输入给设计者施加负担。因此,需要减轻设计者的这种负担。
发明内容
在本发明的一个方面,提供一种用户界面设计装置,用于生成提供模式识别功能的应用程序的用户界面内容,该装置包括:获取装置,用于获取包括语义结构生成规则的识别语法,该语义结构生成规则用于生成模式识别结果的语义结构;提取装置,用于从包括在所述获取装置所获取的识别语法中的语义结构生成规则中提取至少一个语义结构;显示装置,用于显示构成由所述提取装置所提取的语义结构的语义结构要素;以及选择装置,用于从由所述显示装置所显示的语义结构要素中选择至少一个语义结构要素。
在本发明的另一方面,提供一种用户界面设计装置,用于生成提供模式识别功能的应用程序的用户界面内容,包括:第一获取装置,用于获取包括语义结构生成规则的识别语法,该语义结构生成规则用于生成模式识别结果的语义结构;第二获取装置,用于获取设计者输入的语义结构路径;确认装置,用于确认根据该识别语法可生成的语义结构是否包括与该语义结构路径相匹配的语义结构;以及输出装置,用于当通过所述确认装置不能获得确认时,输出错误信息。
在本发明的另一方面,提供一种用于生成提供模式识别功能的应用程序的用户界面内容的方法,该方法包括以下步骤:获取步骤,用于获取包括语义结构生成规则的识别语法,该语义结构生成规则用于生成模式识别结果的语义结构;提取步骤,用于从包括在所获取的识别语法中的语义结构生成规则中提取至少一个语义结构;显示步骤,用于在显示单元上显示构成所提取的语义结构的语义结构要素;以及选择步骤,用于从所显示的语义结构要素中选择至少一个语义结构要素。
在本发明的另一方面,提供一种用于生成提供模式识别功能的应用程序的用户界面内容的方法,该方法包括以下步骤:获取包括语义结构生成规则的识别语法,该语义结构生成规则用于生成模式识别结果的语义结构;获取设计者输入的语义结构路径;确认根据该识别语法可生成的语义结构是否包括与该语义结构路径相匹配的语义结构;以及当不能获得确认时,输出错误信息。
通过考虑以下结合其中通过例子示出一个实施例的附图的详细说明,本发明的上述及其它目的和优点将更加明显。
附图说明
包括在说明书中并构成说明书的一部分的附图,示出了本发明的实施例,并与说明书一起用来解释本发明的原理。
图1A是示出根据本发明的实现用户界面设计装置的功能的计算机系统的硬件配置的例子的框图;
图1B是示出根据本发明的该实施例的用户界面设计装置的功能配置的框图;
图2是示出根据本发明的该实施例的UI设计装置的语义结构指定模式中的UI设计处理的流程图;
图3和图4是分别示出语音识别语法的描述例子的视图;
图5是示出从语音识别语法可生成的语义结构的例子的视图;
图6A是示出通用语音UI应用程序的窗口例子(数据输入前)的视图;
图6B是示出通用语音UI应用程序的窗口例子(数据输入后)的视图;
图7是示出通用UI设计工具的窗口例子的视图;
图8是示出通过传统的UI设计工具指定语义结构的GUI的例子的视图;
图9A是示出在该实施例中语音识别语法选择对话框的例子的视图;
图9B是示出在该实施例中语义结构路径生成对话框的例子的视图;
图10是示出根据可选实施例1的UI设计处理的流程图;
图11是示出根据可选实施例1的发音例子生成算法的例子的视图;
图12A是示出在可选实施例1中语音识别语法指定对话框的例子的视图;
图12B是示出在可选实施例1中语义结构简图(rough sketch)选择对话框的例子的视图;
图12C是示出在可选实施例1中语义结构路径指定对话框的例子的视图;
图13是示出在可选实施例2中包含发音例子信息的语音识别语法的例子的视图;
图14是示出包含可在可选实施例2中生成的语义结构信息的语音识别语法的例子的视图;
图15是示出根据可选实施例3的UI设计处理的流程图;
图16A是示出在可选实施例3中语音识别语法指定对话框的例子的视图;
图16B是示出在可选实施例3中语义结构路径指定对话框的例子的视图;以及
图17A和17B是分别示出在其它实施例中的手写字符识别应用程序中所提供的GUI的例子的视图。
具体实施方式
根据附图来详细说明本发明的优选实施例。本发明不局限于所公开的实施例,并且实施例中所述特征的全部组合对于本发明的解决方案不总是必须的。
图1A是示出根据本发明的实现用户界面设计装置的功能的计算机系统的硬件配置的例子的框图。注意,在以下说明中,“用户界面”也被称为“UI”。
图1A所示的计算机系统除控制整个装置的CPU 1外,还包括以下组件:存储引导程序、永久数据等的ROM 2;以及用作主存储器的RAM 3。
HDD 4是硬盘驱动器,其中除存储OS 10外,还存储:UI设计程序11、语音识别语法112、以及通过执行UI设计程序11所形成的UI内容111。
另外,VRAM 5是将待显示的图像数据位图化的存储器。该存储器中的位图图像数据等使得可以在作为窗口输出装置的例子的CRT 6上显示图像。附图标记7和8分别表示作为输入装置的键盘和鼠标,其被连接到向CPU 1传送中断信号的键盘控制器7a和鼠标控制器8b。
根据来自键盘7或鼠标8的特定指令事件激活UI设计程序11。在这种情况下,UI设计程序11被加载到RAM 3,并通过CPU 1来执行。因而,该计算机系统发挥UI设计装置的功能。
图1B是示出根据该实施例的UI设计装置的功能配置的框图。
UI设计装置101通过包括键盘7和鼠标8的输入装置105、以及由CRT 6形成的窗口输出装置108,生成设计者所期望的UI内容111。
假设要生成如图6A所示的用于定购比萨饼的应用程序的UI内容。该UI允许用户使用GUI以表单控件输入数据。可选地,通过按下语音输入按键602,并发出声音“我想要可口可乐和三个顶料为意大利辣香肠和蘑菇的大比萨饼”,该用户可以如图6B所示立即填写每个表单。
图7示出该UI设计装置的UI窗口。这基本上是根据设计者输入的命令执行操作的消息驱动的应用程序。例如,当输入文件保存命令或设计工具结束命令时,该应用程序执行相应的操作。
考虑这样一种情况,即当比萨饼的数量作为语音识别结果输入时,创建将表单604(图6A)的值反映在语音识别结果的值中的UI。在这种情况下,设计者需要将GUI和其它对象的表单控件绑定到语音识别结果的语义结构上。绑定到该语义结构的操作被称为“语义结构指定模式”。该“语义结构指定模式”是本装置的特有操作。
例如,设计者在图7所示的窗口中右键点击表单704,以从上下文菜单中选择“绑定到语音识别结果”。因而,激活“语义结构指定模式”。在“语义结构指定模式”中,首先,出现图9A中的语音识别语法选择对话框901,设计者输入所期望的语音识别语法名称。如果在另一窗口中指定语音识别语法,则可省略该对话框显示。
图2是示出根据该实施例在UI设计装置的语义结构指定模式中的处理的流程图。
当在语音识别语法选择对话框901中以上述方式输入语义识别语法名称时,语音识别语法获取单元110(参见图1B)获取所指定的语音识别语法112(步骤S201)。在这种情况下,如图3和4所示来描述所获取的语音识别语法。假定在所获取的语音识别语法中,写入用于生成发音内容的语义结构的语义结构生成规则302。
将所获取的语音识别语法发送到语义结构提取单元106。该语义结构提取单元106分析所获取的语音识别语法,并从包含在该语法中的语义结构生成规则中提取至少一个语义结构(步骤S202)。
例如,语义结构提取单元106可搜索包含在语音识别语法中的语义结构生成规则中的所有属性,以提取其列表,并将其组合为语义结构。属性是出现在语义结构生成规则中左手侧的标识符。这种语义结构生成规则中的属性的详细描述公开于http://www.w3.org/TR/semantic-interpretation/。
下面是图3和图4的语法中的所有属性的列表,供参考:[drink(饮料),drinksize(饮料大小),liquid(液体),number(数量),pizza(比萨饼),pizzasize(比萨饼大小),topping(顶料),type(类型)]。
将所提取的语义结构发送到语义结构呈现单元107,并通过窗口输出装置108将其呈现给设计者(步骤S203)。例如,如图9B所示的语义结构路径生成对话框902作为一个语义结构来显示。在看对话框902的同时,设计者可通过操作输入装置105指定特定的语义结构路径。更具体地,设计者从列表框903中选择属性,并构造所期望的语义结构路径。注意,通过使用路径长度编辑按钮904增加或减少路径的长度。
当设计者完成选择,并按下“确定”按钮时,设计者输入信息获取单元104获取设计者输入的信息(所选择的信息)(步骤S204)。将所获取的信息发送到语义结构路径生成单元103。在这种情况下,从设计者所选择的各属性名称及其关系生成特定的语义结构路径(步骤S205)。在上述情况下,生成字符串“/比萨饼/数量”。设计者仅通过以这种方式执行从列表框903中的选择操作,就可以生成语义结构路径。这时,设计者无需如现有技术中那样输入任何指定语义结构要素的文本等。这就减轻了设计者与输入操作有关的负担。
将该结果发送到UI内容构造单元102,以将其反映在通过标记语言,例如VoiceXML、SALT、或XHTML+Voice,所表达的UI内容中。将所生成的UI内容发送到UI内容输出单元109,从该UI内容输出单元109将内容输出到外部UI内容文件111。
可选实施例1
在上述实施例中,将语义结构生成规则中的属性呈现给设计者,设计者通过选择属性的组合来生成特定的语义结构路径。根据该方法,设计者可能以错误的顺序指定形成路径的正确词汇。例如,在图5的语义结构中,可能指定不能从该语法生成的语义结构路径“/数量/比萨饼”。为了防止这种情况,可从该语法自动生成发音信息作为符合语音识别语法的有效输入信息,并向设计者呈现当输入发音时所生成的语义结构。下面将引入这种处理的情况作为可选实施例1进行说明。
图10是示出根据可选实施例1的UI设计处理的流程图。
当设计者在图7的窗口中右键点击表单704,并从上下文菜单中选择“绑定到语音识别结果”时,开始图10中的流程。当该流程开始时,首先,显示图12A中的语音识别语法指定对话框1201,在该对话框中获取设计者输入的语音识别语法名称(步骤S1001)。注意,当已经指定语音识别语法时,这部分可以省略。
将内部变量N初始化为1(步骤S1002),并且从所获取的语音识别语法中生成一个发音例子(步骤S1004)。例如,可通过使用如图11所示的算法从该语法生成发声例子。
首先,以语法中的路径规则名称为自变量调用“Generate”程序(第00行)。在“Generate”程序中,清空内部变量列表(第02行),并且从输入的规则名称扩展右手侧。逐标记(token)地删除所扩展的右手侧,并将该标记存储在标记列表中(第03行)。
对于所有所删除的标记,进行以下检查。首先,检查每个标记是否涉及其它规则如<ruleref>。如果涉及,则以相应的规则名称为自变量递归调用该“Generate”程序。将结果添加到列表变量(第06行)。然后,检查标记是否为选择要素例如<one-of>。如果是,则以该选择要素为自变量调用“Select”子程序(稍后将说明)。将结果添加到列表变量(第09行)。如果标记既不涉及其它规则,也不是选择要素,则认为该标记为终止符号(发音词),并将其不加任何改变地添加到列表中(第12行)。对所有所删除的标记执行这些操作,并在结束时返回列表变量(第15行)。
在“Select”子程序中,首先,初始化内部变量列表(第21行)。选择由输入选择要素的<item>所指定的其中一个选项(第22行)。在该选择方案中,可以选择首先出现的选项,或随机选择由<item>所指定的其中一项。对于所选择的选项,执行如“Generate”程序中的相同检查(第23行到第31行)。检查后,返回列表变量。
通过执行该算法,可以提取语音识别语法所接受的发音例子的文本信息。然而,注意,该算法不能处理指定重复发音的语法描述。此外,包括规则递归的语法描述会导致死循环。因此,为了处理这些通用语音识别语法,必须改进上述算法。
当通过这些算法可以生成新的发音例子的文本信息时(步骤S1005中的否),从所生成的发音例子生成语义结构(步骤S1006)。更具体地,通过使用语音识别语法,来执行发音例子文本的语法分析。通过对相应的路径执行语义信息生成规则,可以生成语义结构。关于语义结构的生成,参见http://www.w3.org/RT/semantic-interpretation/中的描述。
之后,检查所生成的语义结构是否与已经在列表中注册的语义结构相同(步骤S1007)。如果该语义结构还没有注册,则在列表中注册该结构(步骤S1008),并且内部变量N加1(步骤S1009)。
重复上述步骤S1004~S1009中的处理,直到变量N的数量变为预定的数量M(例如,3),并从语音识别语法生成新的发音例子。如果不满足这些条件,该流程退出循环,并在例如图12B所示的语义结构简图选择对话框1202中将列表中的数据呈现给设计者(步骤S1010)。在图12B所示的窗口中,显示由语音识别语法自动生成的语义结构的最多M个概图(overview)。设计者可以从这些语义结构中选择语义结构。当获取该所选择的信息时(步骤S1011),扩展所选择的语义结构的内部结构,以呈现允许设计者选择语义结构要素的窗口(步骤S1012)。图12C示出这时所显示的对话框1203。通过使用鼠标等,设计者可以选择语义结构要素。当获取该所选择的语义结构要素时(步骤S1013),在设计者所选择的位置生成路径,并将其反映在UI内容中(步骤S1014)。
在该例子中,将装置所呈现的语义结构的最大数量限制为M。因此,有可能不呈现设计者想要的语义结构。在这种情况下,备有图12B中的按钮1204。当按下该按键时,当前所用的路径指定方法可被切换到其它方法。例如,可能呈现图9B中所示的对话框902。
可选实施例2
在可选实施例1中,通过语音识别语法自动生成发音例子。然而,在本方法中,设计者想要的语义结构可能不包括在装置所呈现的M个语义结构中。为了解决该问题,可以增大M。然而,如果增大M,则会增加用于搜索设计者想要的语义结构的负担。因此,在可选实施例2中,通过使用语音识别语法和写入语法中的发音例子信息生成语义结构,并将其呈现给设计者。
图13示出通过SRGS所写的语音识别语法的例子。在SRGS中,备有描述发音例子的标签<example>,并且写入该标签中的例子可被用作发音例子信息。图13中的附图标记1301表示发音例子信息的例子。
由于在这种情况下的处理流程与图10所示的相同,因此将省略其详细说明。然而,注意,在步骤S1004中的处理与可选实施例1中的处理不同。在上述可选实施例1中,从语音识别语法自动生成发音例子。在可选实施例2中,可以使用写入语音识别语法中的发音例子文本。
另外,在语音识别语法中,可以提前写入可由语法生成的语义结构信息。图14示出可由语法生成的语义结构信息被写入语法中的例子。在SRGS中的注释字段设置该语义结构信息。使用这个的优点在于无需生成语义结构的处理(步骤S1006)。
可选实施例3
在可选实施例2中,在语音识别语法生成的时候,输入发音例子。然而,在使用设计工具的时候,输入发音例子是有效的。图15示出实现该处理的UI设计处理的流程图。
当设计者右键点击在图7中的窗口中的表单704,并从上下文菜单中选择“绑定到语音识别结果”时,图15中的流程开始。当该流程开始时,首先,显示图16A所示的语音识别语法指定对话框1601,在该对话框中获取由设计者输入的语音识别语法名称(步骤S1501)。在语音识别语法指定对话框1601中,也备有语音识别按钮1603。当按下该语音识别按钮1603时,获取来自设计者的发音(步骤S1502)。然后,通过使用在步骤S1501所获取的语音识别语法来执行语音识别处理(步骤S1503)。
当语音识别完成时,从语音识别结果生成语义结构(步骤S1504)。将该语义结构呈现给设计者(步骤S1505)。在这种情况下,例如,显示图16B中所示的语义结构路径指定对话框1604。如图16B所示,与值(数量:“3”等)一起呈现来自设计者的发音内容的语义结构。通过使用输入装置105,设计者从该窗口选择特定的语义结构要素。例如,如果设计者想要指定比萨饼的数量,则他/她点击“比萨饼”下的“数量”部分。当指定特定的语义结构要素时,相应的信息被获取到该装置(步骤S1506)。
将所获取的信息与在步骤S1504所生成的语义结构进行比较,以生成相应的语义结构路径。例如,生成字符串“/比萨饼/数量”。然后,将该字符串包括在将要生成的UI内容中(步骤S1507)。
在上述例子中,通过设计者的发音来生成语义结构。然而,可以从设计者输入的文本数据来生成语义结构。例如,备有图16A中的发音例子文本输入表单1602。当设计者以文本在该表单中输入发音内容,并按下预定的确定按钮(例如,图16A中的“下一步”按钮)时,可以从文本和语音识别语法生成语义结构。
可选实施例4
让设计者负责输入语义结构路径并限制UI设计装置检查该路径的功能就足够了。
例如,如果激活“语义结构指定模式”,则显示图8中所示的语义结构绑定对话框801,以使设计者通过文本在字段803中指定语义结构路径。之后,对字段802中所指定的语音识别语法进行分析。然后,检查可由语法生成的语义结构是否包括与设计者所指定的语义结构路径相匹配的任何语义结构。如果可由语法生成的任何一个语义结构都不与设计者所指定的语义结构路径相匹配,则判定设计者的输入出现错误,并输出错误信息。
其它实施例
在假定SRGS被用作语音识别语法,以及SISR被用作语义结构生成规则的情况下,已对上述实施例进行了说明。然而,本发明也可适用于其它语音识别语法形式。此外,从UI设计装置输出的内容可以有其自己的规范或使用现有的语言规范(例如,SALT、VoiceXML、及XHTML+Voice)。而且,可以使用以文本格式描述的格式或以二进制格式描述的格式。
尽管上述实施例是基于语音识别的,但是本发明不局限于语音识别,也可适用于其它使用识别语法的模式识别(例如,手写字符识别和姿态识别)。
例如,同样在手写字符识别中,仅根据识别语法就可生成该识别语法所接受的手写字符输入结果。使用这个能向设计者呈现如可选实施例1中所述而生成的语义结构。
此外,如可选实施例3,设计者可以输入输入例子。图17A和17B分别示出在手写字符识别应用程序中所提供的GUI的例子。具有该GUI的应用程序以与可选实施例3相同的方式进行操作。然而,在可选实施例3中,将语音输入操作或使用键盘的文本输入操作作为设计者的输入操作。在这种情况下,设计者通过手写在图17A中的手写字符输入表单1702中输入字符。
通过使用手写字符识别语法指定表单1701(图17A)所指定的语法和在手写字符输入表单1702中输入的手写字符的数据,UI设计装置执行手写字符识别。通过图17B中的语义结构路径指定对话框1703,向设计者呈现从该结果所生成的语义结构,并且,从设计者关于特定语义结构的鼠标操作中获取该结构的路径信息。
注意,本发明可适用于包括单个设备的装置或者由多个设备构成的系统。
而且,通过直接或间接地向系统或装置提供实现上述实施例功能的软件程序、利用该系统或装置的计算机读取所提供的程序代码、然后执行该程序代码,可以实现本发明。在这种情况下,只要该系统或装置具有程序的功能,实现的方式无需依赖于程序。
因此,由于本发明的功能由计算机来实现,所以安装在计算机中的程序代码也实现本发明。换句话说,本发明的权利要求也包括用于实现本发明的功能的计算机程序。
在这种情况下,只要该系统或装置具有程序的功能,程序可以任何形式来执行,例如目标代码、由解释程序执行的程序、或提供给操作系统的脚本数据。
可用于提供程序的存储介质的例子有软盘、硬盘、光盘、磁光盘、CD-ROM、CD-R、CD-RW、磁带、非易失型存储卡、ROM、及DVD(DVD-ROM和DVD-R)。
至于提供程序的方法,可使用客户计算机的浏览器将客户计算机连接到因特网上的网站,并将本发明的计算机程序或该程序的可自动安装的压缩文件下载到记录介质例如硬盘上。此外,可以通过将构成程序的程序代码分成多个文件,并从不同的网站下载这些文件,来提供本发明的程序。换句话说,本发明的权利要求也覆盖将通过计算机实现本发明的功能的程序文件下载到多个用户的WWW(World Wide Web,万维网)服务器。
也可以将本发明的程序进行加密,并将其存储在存储介质例如CD-ROM上,将该存储介质分发给用户,允许满足某种要求的用户通过因特网从网站上下载解密密钥信息,并允许这些用户通过使用该密钥信息对所加密的程序进行解密,从而将程序安装在用户计算机上。
除通过计算机执行读取的程序来实现根据实施例的上述功能的情况而外,运行在计算机上的操作系统等可以执行全部或部分实际处理,从而通过该处理可以实现上述实施例的功能。
而且,在将从存储介质读取的程序写入插入计算机中的功能扩展板或者与计算机相连接的功能扩展单元所提供的存储器中之后,安装在该功能扩展板或功能扩展单元上的CPU等执行全部或部分实际处理,从而通过该处理可以实现上述实施例的功能。
由于在不脱离本发明的精神和范围的情况下,可以做出很多明显不同的本发明的实施例,应该理解,除由所附权利要求书定义外,本发明不局限于特定的实施例。

Claims (11)

1.一种用户界面设计装置,用于生成提供模式识别功能的应用程序的用户界面内容,该装置包括:
获取装置,用于获取包括语义结构生成规则的识别语法,该语义结构生成规则用于生成模式识别结果的语义结构;
提取装置,用于从包括在所述获取装置所获取的识别语法中的语义结构生成规则中提取至少一个语义结构;
显示装置,用于显示构成由所述提取装置所提取的语义结构的语义结构要素;以及
选择装置,用于从由所述显示装置所显示的语义结构要素中选择至少一个语义结构要素。
2.根据权利要求1所述的用户界面设计装置,其特征在于,还包括:
生成装置,用于基于由所述选择装置所选择的语义结构要素,生成语义结构路径;以及
反映装置,用于将由所述生成装置所生成的语义结构路径反映在用户界面内容中。
3.根据权利要求1或2所述的用户界面设计装置,其特征在于,还包括输入信息生成装置,该输入信息生成装置用于根据由所述获取装置所获取的识别语法,生成可以被接受的输入信息,
其中,当输入由所述输入信息生成装置所生成的输入信息时,所述提取装置提取语义结构。
4.根据权利要求1或2所述的用户界面设计装置,其特征在于,还包括输入例句提取装置,该输入例句提取装置用于提取以所述获取装置所获取的识别语法所描述的输入例句。
其中,当输入由所述输入例句提取装置所提取的输入例句时,所述提取装置提取语义结构。
5.根据权利要求1或2所述的用户界面设计装置,其特征在于,还包括设计者输入获取装置,该设计者输入获取装置用于获取来自设计者的模式识别输入,
其中,所述提取装置提取关于由所述设计者输入获取装置所获取的模式识别输入的模式识别结果的语义结构。
6.根据权利要求1到5中任一项所述的用户界面设计装置,其特征在于,该模式识别是语音识别,并且该识别语法是语音识别语法。
7.根据权利要求1到5中任一项所述的用户界面设计装置,其特征在于,模式识别是手写字符识别,并且识别语法是手写字符识别语法。
8.根据权利要求6所述的用户界面设计装置,其特征在于,按照由W3C所推荐的语音识别语法规范的规范描述该语音识别语法,并且按照由W3C所推荐的语音识别的语义解释的规范描述语义结构生成规则。
9.一种用户界面设计装置,用于生成提供模式识别功能的应用程序的用户界面内容,该装置包括:
第一获取装置,用于获取包括语义结构生成规则的识别语法,该语义结构生成规则用于生成模式识别结果的语义结构;
第二获取装置,用于获取设计者输入的语义结构路径;
确认装置,用于确认根据该识别语法可生成的语义结构是否包括与该语义结构路径相匹配的语义结构;以及
输出装置,用于当通过所述确认装置不能获得确认时,输出错误信息。
10.一种用于生成提供模式识别功能的应用程序的用户界面内容的方法,该方法包括以下步骤:
获取步骤,用于获取包括语义结构生成规则的识别语法,该语义结构生成规则用于生成模式识别结果的语义结构;
提取步骤,用于从包括在所获取的识别语法中的语义结构生成规则中提取至少一个语义结构;
显示步骤,用于在显示单元上显示构成所提取的语义结构的语义结构要素;以及
选择步骤,用于从所显示的语义结构要素中选择至少一个语义结构要素。
11.一种用于生成提供模式识别功能的应用程序的用户界面内容的方法,该方法包括以下步骤:
获取包括语义结构生成规则的识别语法,该语义结构生成规则用于生成模式识别结果的语义结构;
获取设计者输入的语义结构路径;
确认根据该识别语法可生成的语义结构是否包括与该语义结构路径相匹配的语义结构;以及
当不能获得确认时,输出错误信息。
CN2005101241580A 2004-11-26 2005-11-25 用户界面设计装置和方法 Expired - Fee Related CN1779782B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004-342898 2004-11-26
JP2004342898 2004-11-26
JP2004342898A JP3984988B2 (ja) 2004-11-26 2004-11-26 ユーザインタフェース設計装置およびその制御方法

Publications (2)

Publication Number Publication Date
CN1779782A true CN1779782A (zh) 2006-05-31
CN1779782B CN1779782B (zh) 2010-04-21

Family

ID=36204718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005101241580A Expired - Fee Related CN1779782B (zh) 2004-11-26 2005-11-25 用户界面设计装置和方法

Country Status (4)

Country Link
US (1) US7412391B2 (zh)
EP (1) EP1662363A3 (zh)
JP (1) JP3984988B2 (zh)
CN (1) CN1779782B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183409A (zh) * 2015-08-12 2015-12-23 深圳市卡迪尔通讯技术有限公司 一种基于自动标注的屏幕控制方法
CN107341017A (zh) * 2017-06-30 2017-11-10 百度在线网络技术(北京)有限公司 Ui设计方法、装置、设备及存储介质

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4027269B2 (ja) * 2003-06-02 2007-12-26 キヤノン株式会社 情報処理方法及び装置
US7881932B2 (en) * 2006-10-02 2011-02-01 Nuance Communications, Inc. VoiceXML language extension for natively supporting voice enrolled grammars
US7962344B2 (en) * 2007-06-29 2011-06-14 Microsoft Corporation Depicting a speech user interface via graphical elements
US8731939B1 (en) 2010-08-06 2014-05-20 Google Inc. Routing queries based on carrier phrase registration
US8682661B1 (en) 2010-08-31 2014-03-25 Google Inc. Robust speech recognition
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
US9472196B1 (en) 2015-04-22 2016-10-18 Google Inc. Developer voice actions system
US9740751B1 (en) 2016-02-18 2017-08-22 Google Inc. Application keywords
US9922648B2 (en) 2016-03-01 2018-03-20 Google Llc Developer voice actions system
US9691384B1 (en) 2016-08-19 2017-06-27 Google Inc. Voice action biasing system

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3279684B2 (ja) 1992-11-17 2002-04-30 株式会社日立製作所 音声インタフェース・ビルダ・システム
JPH09114623A (ja) 1995-10-13 1997-05-02 Toshiba Corp ユーザインタフェース設計ツール
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
US6526382B1 (en) * 1999-12-07 2003-02-25 Comverse, Inc. Language-oriented user interfaces for voice activated services
CN1177312C (zh) * 2000-09-13 2004-11-24 中国科学院自动化研究所 多种语音工作模式的统一识别方法
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7149694B1 (en) * 2002-02-13 2006-12-12 Siebel Systems, Inc. Method and system for building/updating grammars in voice access systems
WO2003071422A1 (en) * 2002-02-18 2003-08-28 Kirusa, Inc. A technique for synchronizing visual and voice browsers to enable multi-modal browsing
CN1452159A (zh) * 2002-04-18 2003-10-29 赵荣椿 语音控制装置及方法
US7302383B2 (en) * 2002-09-12 2007-11-27 Luis Calixto Valles Apparatus and methods for developing conversational applications
US7398261B2 (en) * 2002-11-20 2008-07-08 Radar Networks, Inc. Method and system for managing and tracking semantic objects
US7389235B2 (en) * 2003-09-30 2008-06-17 Motorola, Inc. Method and system for unified speech and graphic user interfaces
US7529657B2 (en) * 2004-09-24 2009-05-05 Microsoft Corporation Configurable parameters for grammar authoring for speech recognition and natural language understanding

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183409A (zh) * 2015-08-12 2015-12-23 深圳市卡迪尔通讯技术有限公司 一种基于自动标注的屏幕控制方法
CN105183409B (zh) * 2015-08-12 2018-10-30 深圳市卡迪尔通讯技术有限公司 一种基于自动标注的屏幕控制方法
CN107341017A (zh) * 2017-06-30 2017-11-10 百度在线网络技术(北京)有限公司 Ui设计方法、装置、设备及存储介质
CN107341017B (zh) * 2017-06-30 2020-09-15 百度在线网络技术(北京)有限公司 Ui设计方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20060116863A1 (en) 2006-06-01
JP3984988B2 (ja) 2007-10-03
US7412391B2 (en) 2008-08-12
CN1779782B (zh) 2010-04-21
EP1662363A2 (en) 2006-05-31
JP2006155086A (ja) 2006-06-15
EP1662363A3 (en) 2012-04-11

Similar Documents

Publication Publication Date Title
CN1779782A (zh) 用户界面设计装置和方法
JP4202041B2 (ja) 入力モードバイアスを適用するための方法およびシステム
TWI496012B (zh) 管理電子形式之中文、日文及韓文語言資料的模組系統與方法
US7895534B2 (en) Information processing apparatus, control method therefor, and program
TWI437449B (zh) 多重模式輸入方法及輸入方法編輯器系統
CN1140871C (zh) 实现多源文件的音频信号重放的方法和系统
CN1495609A (zh) 在计算机生成文档中提供语境感测工具和帮助内容
CN1726488A (zh) 用于构建自然语言理解应用的集成开发工具
US20110264705A1 (en) Method and system for interactive generation of presentations
CN1855009A (zh) 可搜索控制模板功能的基于任务的界面
CN1457041A (zh) 为一个自然语言理解系统用来自动注解训练数据的一个系统
CN104485105A (zh) 一种电子病历生成方法和电子病历系统
JP2010537315A (ja) アンカーを用いた文書編集
CN1920829A (zh) 字符输入辅助方法和信息处理装置
US20110314446A1 (en) Method and system for selectively copying portions of a document contents in a computing system (smart copy and paste
CN1259706A (zh) 以可选显示语言提供用户接口的方法、系统和计算机程序产品
JP2009545077A (ja) 利用可能なソースデータ及びローカライゼーションの再利用
KR100738175B1 (ko) 정보 처리 방법 및 장치
JP2004252944A (ja) プログラム、文字入力編集方法、装置及び記録媒体
WO2004001570A1 (ja) 自然言語による既存データの記述方法及びそのためのプログラム
TW200842662A (en) Stroke number input
CN1670715A (zh) 在公共语言运行时语言中的资源地址支持
US20060117265A1 (en) Method for constructing user interface
US20050086057A1 (en) Speech recognition apparatus and its method and program
CN102193789A (zh) 一种实现可配置跳转链接的方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100421

Termination date: 20141125

EXPY Termination of patent right or utility model