CN1291307C - 信息处理装置和方法 - Google Patents

信息处理装置和方法 Download PDF

Info

Publication number
CN1291307C
CN1291307C CNB028069471A CN02806947A CN1291307C CN 1291307 C CN1291307 C CN 1291307C CN B028069471 A CNB028069471 A CN B028069471A CN 02806947 A CN02806947 A CN 02806947A CN 1291307 C CN1291307 C CN 1291307C
Authority
CN
China
Prior art keywords
form item
input form
speech recognition
input
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB028069471A
Other languages
English (en)
Other versions
CN1537267A (zh
Inventor
酒井桂一
小坂哲夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of CN1537267A publication Critical patent/CN1537267A/zh
Application granted granted Critical
Publication of CN1291307C publication Critical patent/CN1291307C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Communication Control (AREA)
  • Debugging And Monitoring (AREA)
  • Digital Computer Display Output (AREA)

Abstract

与输入表单项相关联的输入表单项信息存储在表单项名称保存单元中。输入语音由语音识别单元进行识别,并且选择与该语音识别结果相对应的输入表单项信息。与所选输入表单项信息相对应的输入表单项的显示模式由GUI显示单元进行控制。

Description

信息处理装置和方法
技术领域
本发明涉及一种信息处理装置和方法,用于根据通过输入语音对于显示在显示屏幕上的输入表单项(form)作出的操作来执行处理。
背景技术
当将数据如文本等输入到GUI(graphic user interface,图形用户界面)上的输入区域(输入表单项)时,通过从多个输入表单项中选择一个来确定要接收输入的输入表单项,然后使用键盘输入数据或者使用定点设备如鼠标等从所要选择的多个候选项中选择一个来进行输入。另外,对于将数据输入到该输入表单项,已经提出使用语音识别技术来通过语音输入数据的技术。
然而,根据上述现有技术,当通过语音将数据输入到输入表单项时,必须使用键盘或鼠标来选择要接收数据的输入表单项。因此,必须组合语音输入和手工输入操作,并且操作性不总是良好。
发明内容
本发明是为了解决前述问题而提出的,并且它的目的是提供一种可以通过输入语音高效且灵活地对显示在显示窗口上的输入表单项执行操作的信息处理装置和方法,以及一种程序。
为了实现上述目的,本发明的一种信息处理装置包括如下结构。也就是,提供一种信息处理装置,用于根据输入语音对于显示在显示屏幕上的输入表单项执行处理,包括:
存储部件,用于存储与输入表单项相关联的输入表单项信息;
语音识别部件,用于识别输入语音;以及
选择部件,用于选择与语音识别部件的语音识别结果相对应的输入表单项信息。
最好,该装置还包括显示控制部件,用于控制与由选择部件选择的输入表单项信息相对应的输入表单项的显示模式。
最好,输入表单项信息包括输入表单项的输入表单项名称。
最好,输入表单项信息包括表示输入表单项位置的布局信息。
最好,显示控制部件以与其他输入表单项的第一显示模式不同的第二显示模式,显示与由选择部件选择的输入表单项信息相对应的输入表单项。
最好,显示控制部件在显示屏幕的中央显示与由选择部件选择的输入表单项信息相对应的输入表单项。
最好,该装置还包括通知部件,用于当确定选择部件的选择时,通知该消息。
最好,输入表单项信息包括输入表单项的输入表单项名称和表示输入表单项位置的布局信息。
该装置还包括判定部件,用于判定语音识别部件的语音识别结果是对应于输入表单项名称还是对应于布局信息,并且选择部件根据判定部件的判定结果,选择与语音识别部件的语音识别结果相对应的输入表单项信息。
最好,输入表单项信息包括表示输入表单项位置的布局信息。
语音识别部件使用语音识别语法数据来识别输入语音,其中,语音识别语法数据用来识别用于指定布局信息的语音。
最好,语音识别语法数据包括用来识别相对位置表达和绝对位置表达中的至少一种的数据,其中,相对位置表达表示输入表单项的相对位置,并且绝对位置表达表示输入表单项的绝对位置。
最好,语音识别语法数据包括用来识别绝对位置表达是对应于包括输入表单项的全部内容还是对应于显示屏幕上的显示范围的数据。
最好,当输入表单项用超文本文档实现时,输入表单项信息包括表示输入表单项的标记。
最好,超文本文档描述用来通过语音识别部件执行语音识别的标记。
为了实现上述目的,本发明的一种信息处理方法包括如下结构。也就是,提供一种信息处理方法,用于根据输入语音对于显示在显示屏幕上的输入表单项执行处理,包括:
语音识别步骤,识别输入语音;以及
选择步骤,选择语音识别步骤的语音识别结果所对应的与输入表单项相关联的输入表单项信息。
为了实现上述目的,本发明的一种程序包括如下结构。也就是,提供一种程序,用于使计算机用于根据输入语音对于显示在显示屏幕上的输入表单项执行处理的信息处理,包括:
语音识别步骤程序码,识别输入语音;
选择步骤程序码,选择语音识别步骤的语音识别结果所对应的与输入表单项相关联的输入表单项信息;以及
显示控制步骤程序码,控制与在选择步骤所选的输入表单项信息相对应的输入表单项的显示模式。
附图说明
图1是根据本发明各实施例的信息处理装置的硬件结构的示例方框图;
图2是根据本发明实施例1的信息处理装置的功能方框图;
图3示出本发明实施例1中的输入表单项信息表例子;
图4示出本发明实施例1中的识别语法格式;
图5是示出由本发明实施例1的信息处理装置执行的处理的流程图;
图6示出本发明实施例1中的GUI例子;
图7示出本发明实施例1中的GUI例子;
图8示出本发明实施例1中的GUI例子;
图9示出本发明实施例1中的GUI例子;
图10是根据本发明实施例2的信息处理装置的功能方框图;
图11示出本发明实施例2中的输入表单项信息表例子;
图12是示出由本发明实施例2的信息处理装置执行的处理的流程图;
图13示出本发明实施例2中的GUI例子;
图14是根据本发明实施例3的信息处理装置的功能方框图;
图15是根据本发明实施例5的信息处理装置的功能方框图;
图16是示出由本发明实施例5的信息处理装置执行的处理的流程图;
图17示出根据本发明实施例6的输入表单项信息表例子;以及
图18示出根据本发明实施例7的用来使用置标语言执行语音识别的标记例子。
具体实施方式
现在将参照附图对本发明的优选实施例进行详细描述。
图1是根据本发明各实施例的信息处理装置的硬件结构的示例方框图。
在信息处理装置中,标号1表示显示设备,用于显示GUI。标号2表示中央处理单元如CPU等,用于执行包括数值算术运算控制等的处理。标号3表示存储设备,用于存储后面将要描述的各实施例的处理序列和过程所需的临时数据和程序或者存储各种数据如语音识别语法数据、语音模型等。该存储设备3包括外部存储器设备如硬盘设备等或者内部存储器设备如RAM、ROM等。
标号5表示麦克风,用于输入用户所发出的语音。标号4表示A/D转换器,用于将通过麦克风5输入的语音数据从模拟信号转换成数字信号。标号6表示通信设备,用于通过网络与外部设备如Web(万维网)服务器等交换数据。标号7表示总线,用于互连信息处理装置的各构建组件。
<实施例1>
图2是根据本发明实施例1的信息处理装置的功能方框图。
标号101表示内容保存单元,用于保存要在GUI上显示的内容,其中,该内容通过使用描述语言(例如,HTML文档置标语言等)所描述的超文本文档来实现。标号102表示GUI显示单元如浏览器,用于在GUI上显示保存在内容保存单元101中的内容。标号103表示焦点保存单元,用于保存显示在GUI显示单元102上的各内容中具有焦点(focus)的输入表单项。标号104表示表单项名称生成单元,用于从显示在GUI显示单元102上的内容中提取输入表单项名称(符号),并且给出它们的发音。由表单项名称生成单元104生成的输入表单项名称和发音保存在表单项名称保存单元105中。另外,发音用作移动识别语法数据,并且输入表单项名称和发音保存在识别语法106中。
图3示出以相互对应的方式存储输入表单项名称(符号)和字典发音来管理与输入表单项相关联的信息的输入表单项信息表例子。在图3中,用于输入表单项信息表的字典发音仅是示例性的,并且其他类型的发音可以用于输入表单项信息表。
图4示出识别语法106的格式。
如图4所示,识别语法106包括三种语音识别语法数据,包括:移动识别语法数据,用来通过输入语音选择所要给予焦点的输入表单项;操作控制识别语法数据,用于各种操作如对用户确认的响应、帮助请求等;以及区域(field)值识别语法数据,用来识别通过语言输入到输入表单项的内容。这些语音识别语法数据可以组合为单个文件或者可以形成独立文件。
注意,语音识别语法数据可以包括正常用于语音识别的语法数据如在单词语音识别的情况下描述单词的表示和发音的单词列表、基于CFG(context-free grammar,上下文无关语法)的网络语法等。
描述将回到图2。
标号107表示语音输入单元,包括麦克风5和用于对通过麦克风5输入的语音数据进行A/D转换的A/D转换器4。标号108表示语音识别单元,用于读出保存在识别语法106中的语音识别语法数据,并且对从语音输入单元107输入的数字信号进行语音识别。标号109表示焦点位置改变单元,用于当语音识别单元108的语音识别结果表示给定输入表单项名称时,参考焦点保存单元103改变显示在GUI显示单元102上的焦点位置。
下面将使用图5描述由实施例1的信息处理装置执行的处理。
图5是示出由本发明实施例1的信息处理装置执行的处理的流程图。
注意,在存储设备3中例如作为程序存储图5的流程图中各步骤的操作,并且中央处理单元2读出并执行该程序。
在步骤S1,GUI显示单元102显示包括多个输入表单项的GUI以在显示设备1上显示。GUI可以通过载入和显示外部数据如以置标语言描述且可以仅通过专用程序显示的HTML数据来显示。
下面将使用图6描述GUI例子。
图6示出在显示设备1上显示的包括多个输入表单项的GUI例子。该GUI担当作为与给定用户相关的用户信息的个人登记数据的登记(输入/改变)GUI,并且图6的矩形框分别是各种输入表单项。例如,输入表单项6用来输入作为字符串数据的ID号。另外,输入表单项7、9到13以及15到22用来输入各种字符串数据。输入表单项8和14是用来从预先准备的(男、女、商人等)这些数据中选择所需选项数据的圆形按钮类型输入表单项。按钮23用来将输入到GUI上的各种输入表单项的各种数据提交给例如应用。
当在显示设备1上显示这些输入表单项时,表单项名称生成单元104生成它们的输入表单项名称和发音,如上所述,这些输入表单项名称和发音作为输入表单项信息表存储在表单项名称保存单元105和识别语法106中。
在包括Web服务器和安装Web浏览器的客户机的服务器-客户机类型GUI显示系统的情况下,由表单项名称生成单元104执行的用于产生输入表单项名称的处理可以在Web服务器端对各内容预先执行,或者可以在客户机端的Web浏览器上动态执行。
在实施例1中,要接收数据的输入表单项(以下也称作具有焦点的输入表单项)用虚线表示(第一显示模式),并且没有焦点的输入表单项用实线(第二显示模式)表示。图6举例示出输入表单项6具有焦点的情况。
图6所示的个人登记数据的登记GUI是用于说明要改变个人登记数据的情况的一个例子,并且假定在改变之前个人登记数据已经存在。在改变个人登记数据的情况下,当如图7所示用户将ID号(例如,1234)输入到输入表单项6并且按提交按钮23时,显示对应于该ID号的当前所登记的个人登记数据,并且例如输入表单项9具有焦点。
描述将回到图5。
在步骤S2,语音识别单元108从存储在存储设备3中的识别语法106,读出各种语音识别语法数据。如上所述,语音识别语法数据包括:移动识别语法数据,用来通过输入语音选择所要给予焦点的输入表单项;操作控制识别语法数据;以及区域值识别语法数据,用来识别输入到当前具有焦点的输入表单项的语音。
在步骤S3,语音输入单元107开始输入语音。用户所发出的语音由麦克风5转换成电信号,并且电信号由A/D转换器4进一步转换成数字信号(语音数据)。
在步骤S4,语音识别单元108使用所读取的各种语音识别语法数据,执行输入语音数据的语音识别。在这种情况下,分别使用移动识别语法数据和区域值识别语法数据来进行语音识别。由于使用这两种语音识别语法数据,因此从各自的语音识别语法数据中获得语音识别结果。使用表示语音识别确定度的数值如似然度来比较这些结果,并且选择具有较高确定度的语音识别结果作为最终的语音识别结果。
在步骤S5判定语音识别结果是否为选择输入表单项。也就是,判定使用移动识别语法数据所获得的语音识别结果的似然性是否高于使用区域值识别语法数据所获得的语音识别结果。如果语音识别结果不是选择输入表单项(步骤S5为否),则流程进入步骤S8,显示输入到具有焦点的输入表单项的语音数据的语音识别结果。由于该处理与现有技术相同,因此将省略其描述。另一方面,如果语音识别结果是选择输入表单项(步骤S5为是),则流程进入步骤S6。
在步骤S6,选择对应于语音识别结果(输入表单项名称)的输入表单项。例如,如果获得输入表单项名称“附属关系”或“地址”作为语音识别结果,则流程从步骤S5进入该步骤S6,并且指定与对应于语音识别结果的输入表单项名称相匹配的输入表单项。图9示出当语音识别结果为“附属关系(affiliation)”时的显示设备1上的GUI例子。
在步骤S7,进行选择确认操作。这是用于将所选输入表单项提供给用户的确认处理。例如,执行通过闪烁所选输入表单项(在预定时间内改变表单项颜色)等改变该输入表单项的显示模式从而与其他未选输入表单项相区分的显示控制,或者执行用于滚动窗口以将所选输入表单项定位于窗口中央等的显示控制。另外,可以产生通知音来表示输入表单项被选。
如上所述,根据实施例1,当用户念出输入表单项名称时,可以选择与通过该话语的语音识别而获得的语音识别结果相对应的输入表单项。这样,用户不需要使用键盘、鼠标等手工选择输入表单项,并且可以仅通过输入语音来对于GUI选择输入表单项并输入数据,从而与现有技术相比改善GUI操作性。
<实施例2>
在实施例1中,当用户念出输入表单项名称时,根据通过该语音的语音识别而获得的语音识别结果选择作为数据输入目标的输入表单项。另外,当用户念出表示输入表单项相对位置的相对位置表达例如“向上第三”或“向下第二”时,可以根据通过该语音的语音识别而获得的语音识别结果来选择作为数据输入目标的输入表单项。
根据本实施例的信息处理装置的功能结构如图10所示。
图10是根据本发明实施例2的信息处理装置的功能方框图。
参照图10,除了实施例1的图2中的内容保存单元101、GUI显示单元102、识别语法106、语音输入单元107和语音识别单元108之外,该装置还包括:焦点位置改变单元109,用于当用户念出相对位置表达时,改变焦点位置;焦点位置保存单元111,用于保存当前具有焦点的输入表单项的位置;布局关系生成单元112,用于生成表示输入表单项名称及其位置的布局信息;布局关系保存单元113,用于保存由布局关系生成单元112保存的输入表单项名称和布局信息;以及相对位置判定单元114,用于判定所念内容是否为相对位置表达。
由布局关系生成单元112生成的输入表单项名称和布局信息作为输入表单项信息表存储在存储设备3中。图11示出该表的一个例子,它是作为以相互对应的关系存储输入表单项名称和布局信息(例如,当定义GUI上的左上角为原点时的垂直和水平位置坐标)的输入表单项信息表来管理的。该输入表单项信息表通过当显示内容时分析内容来生成。当内容通过网络从外部装置如Web服务器等传送时,可以在内容提供者端预先生成输入表单项信息表,并且可以与内容的提交同步进行提交。另外,在包括Web服务器和安装Web浏览器的客户机的服务器-客户机类型GUI显示系统的情况下,由布局关系生成单元112执行的用于生成输入表单项名称和布局信息的处理可以在Web服务器端对各内容预先执行,或者可以在客户机端的Web浏览器上动态执行。
在实施例2中,图10的识别语法106中的移动识别语法数据包含对相对位置表达进行语音识别所需的数据,并且管理用来识别例如数字、“第”、“上”、“下”、“左”、“右”、“从”等的数据。
下面将使用图12说明由实施例2的信息处理装置执行的处理。
图12是示出由本发明实施例2的信息处理装置执行的处理的流程图。
注意,图12仅示出与实施例1的图5的流程图不同的部分。
当语音识别单元108在步骤S4参考所读取的识别语法106执行输入语音数据的语音识别时,相对位置判定单元114在步骤S70判定语音识别结果是否为相对位置表达。也就是,判定使用移动识别语法数据获得的语音识别结果的似然性是否高于使用区域值识别语法数据获得的语音识别结果。尤其是当使用移动识别语法数据获得的语音识别结果的似然性高于使用其他语音识别语法数据获得的语音识别结果时,判定语音识别结果为相对位置表达。
如果在步骤S71判定语音识别结果不是相对位置表达(步骤S70为否),则流程进入步骤S8。另一方面,如果语音识别结果是相对位置表达(步骤S70为是),则流程进入步骤S71,并且焦点位置改变单元109确定由相对位置表达指定的输入表单项。在这种情况下,使用当前具有焦点的输入表单项的布局信息、布局关系保存单元113和相对位置表达的语音识别结果来确定输入表单项。
例如,如果当前具有焦点的输入表单项是输入表单项16(图9),则焦点位置保存单元111保存对应输入表单项名称“附属关系”的布局信息(8,1)(图11)。如果用户所发语音的语音识别结果为“向上第三”,则根据图11中的输入表单项信息表确定(5,1)为焦点位置的移动目的地。这样,保存在焦点位置保存单元111中的布局信息更新为(5,1)。结果,如图13所示,焦点位置从输入表单项16变至输入表单项12。
如上所述,根据实施例2,当用户念出表示输入表单项相对位置的相对位置表达时,可以选择与通过该话语的语音识别而获得的语音识别结果相对应的输入表单项作为数据的输入目标。这样,用户不需要使用键盘、鼠标等手工选择输入表单项,并且可以仅通过输入语音对于GUI选择输入表单项并输入数据,从而,与现有技术相比改善GUI操作性。用户可以在不念出输入表单项名称的情况下,通过比实施例1简单的语音表达来选择输入表单项,并且可以实现通过输入语音进行灵活且准确的输入表单项选择。
<实施例3>
在实施例2中,输入表单项通过相对位置表达来选择。例如,也可以通过表示绝对位置的绝对位置表达如用户所念的“上起第五”或“下起第二”来选择输入表单项。
根据本实施例的信息处理装置的功能结构如图14所示。
图14是根据本发明实施例3的信息处理装置的功能方框图。
参照图14,除实施例1的图2中的内容保存单元101、GUI显示单元102、识别语法106、语音输入单元107和语音识别单元108,以及实施例2的图10中的焦点位置改变单元109、布局关系生成单元112和布局关系保存单元113之外,该装置还包括绝对位置判定单元121和显示范围保存单元122。绝对位置判定单元121实现类似于图10中的相对位置判定单元114的功能,并且判定所念内容是否为绝对位置表达。注意,显示范围保存单元122的详细信息将在后面的实施例4中进行说明。识别语法106中的移动识别语法数据包含对绝对位置表达进行语音识别所需的数据,并且管理用来识别“上起”、“下起”、“右起”、“左起”、数字、“第”等的数据。
由实施例3的信息处理装置执行的处理为由实施例1的信息处理装置执行的处理的一个应用。尤其是在实施例1的图5中的流程图的步骤S6的处理中,识别用户所发出的语音,并且绝对位置判定单元121参考图11中的输入表单项信息表选择所要给予焦点的输入表单项。例如,当用户念出“下起第二”时,由于图11中输入表单项信息表的垂直位置的最大值为11,因此选择垂直位置=10的电话号码输入表单项,并且焦点位置移至该位置。然后,流程进入步骤S7。
如上所述,根据实施例3,输入表单项可以通过绝对位置表达而不是相对位置表达来选择,并且可以如同实施例2实现通过输入语音进行更灵活准确的输入表单项选择。
<实施例4>
当在窗口应用如浏览器等或者显示区域狭窄的便携式设备上浏览内容时,GUI显示单元102可以仅部分显示内容,并且用户必须使用定点设备如鼠标等来滚动内容以在显示窗口上进行浏览。在上述各实施例中,例如,当用户念出“上起第三”时,该装置将焦点给予全部内容范围内的上起第三表单项,但是,例如,该装置可以将焦点给予显示窗口上的内容显示范围内的第三表单项。
在这种情况下,图14中的显示范围保存单元122可以保存目前显示在GUI显示单元102上的显示范围的布局信息,并且绝对位置判定单元121可以在图5的步骤S6的处理中判定显示范围内的绝对位置。
当用户显式念出显示范围内或者针对全部内容的绝对位置表达时,可以区分任一表达,并且执行相应的操作。在这种情况下,图14的识别语法106中的移动识别语法数据包含对这些绝对位置表达进行语音识别所需的数据,并且除在实施例3中所述的数据之外,还管理用来管理例如“全部”、“显示范围内”等的数据。
在这种情况下,如果用户指定如“全部上起第三”或者“显示范围内上起第三”,则全部内容的绝对位置或者显示范围保存单元122中的显示范围内的绝对位置可以根据语音识别结果来确定。
当省略表示全部内容或者显示范围内的绝对位置的指定信息时,将产生歧义。在这种情况下,这些绝对位置均可以固定为规定值,或者绝对位置可以动态变为先前指定的位置。当绝对位置动态改变时,用于选择任一绝对位置的指定信息可以保存在显示范围保存单元122中。
由实施例4的信息处理装置执行的处理是由实施例1的信息处理装置执行的处理的一个应用。尤其是在实施例1的图5中的流程图的步骤S6的处理中,例如,如果图6中的内容输入表单项9到18显示在GUI显示单元102上,则显示范围保存单元122保存左上位置(3,1)和右下位置(9,2)作为显示范围的布局信息。
当用户念出“下起第二”时,并且尤其是当显示范围保存单元122设为采用显示范围作为缺省时,绝对位置判定单元121参考显示范围保存单元122和图11中的输入表单项信息表,确定输入表单项名称“附属关系”的布局信息(8,1)作为显示范围内的下起第二输入表单项,并且将焦点位置移至该位置。另一方面,当显示范围保存单元122设为采用全部内容作为缺省时,绝对位置判定单元121确定输入表单项名称“电话号码”的布局信息(10,1)作为全部内容的下起第二输入表单项,并且将焦点位置移至该位置。
如上所述,根据实施例4,通过语音显式或自动输入全部内容的绝对位置表达/显示范围内的绝对位置表达,并且可以通过该输入语音来选择输入表单项。除在实施例3中所述的效果之外,可以实现根据所显示的显示范围通过输入语音进行更灵活准确的输入表单项选择。
<实施例5>
在上述实施例1到4的移动识别语法数据中,仅管理实现各实施例所需的数据。可选地,移动识别语法数据可以被配置为能够通过输入表单项名称、相对位置表达和绝对位置表达中的任一种来选择输入表单项。
根据本实施例的信息处理装置的功能结构如图15所示。
图15是根据本发明实施例5的信息处理装置的功能方框图。
参照图15,除了实施例1至4的图2、10和14的各构建组件之外,该装置还包括位置选择方法判定单元151,用于判定焦点位置选择方法的类型(输入表单项名称、相对位置表达和绝对位置表达)。
下面将使用图16描述由实施例5的信息处理装置执行的处理。
图16是示出由本发明实施例5的信息处理装置执行的处理的流程图。
注意,图16仅示出与实施例1的图5的流程图不同的部分。
当语音识别单元108参考所读取的识别语法106对输入语音数据执行语音识别时,位置选择方法判定单元151在步骤S51参考表单项名称保存单元105判定语音识别结果是否为选择输入表单项。如果语音识别结果是选择输入表单项(步骤S51为是),则流程进入步骤S61以执行与实施例1的图5中的流程图的步骤S6相同的处理。另一方面,如果语音识别结果不是选择输入表单项(步骤S51为否),则流程进入步骤S52。
位置选择方法判定单元151在步骤S52判定语音识别结果是否为相对位置表达。在该判定中,例如,如果语音识别结果的首部为位置表达(例如,“向上”、“向下”、“向左”、“向右”),则判定语音识别结果为相对位置表达。
如果在步骤S52判定语音识别结果为相对位置表达(步骤S52为是),则流程进入步骤S62,以执行与实施例2的图12中的步骤S71和S72相同的处理。另一方面,如果语音识别结果不是相对位置表达(步骤S52为否),则流程进入步骤S53。
位置选择方法判定单元151在步骤S53判定语音识别结果是否为绝对位置表达。在该判定中,例如,如果语音识别结果的首部为位置表达(例如,“上起”、“下起”、“右起”或“左起”或者“全部”、“显示范围内”以及它们的同义词),则判定语音识别结果为绝对位置表达。
如果在步骤S53判定语音识别结果是绝对位置表达(步骤S53为是),则流程进入步骤S63以执行已在实施例3或4中说明的用于根据绝对位置表达改变焦点位置的处理。另一方面,如果语音识别结果不是绝对位置表达(步骤S53为否),则流程进入步骤S8。
在实施例5的描述中,焦点位置可以通过使用输入表单项名称、相对位置和绝对位置之一的选择方法来选择。另外,不必说,可以实现能够使用这些方法中的两种或更多任意选择方法来选择焦点位置的结构。
如上所述,根据实施例5,除了在实施例1到4中所述的效果之外,由于输入表单项可以采用多种选择方法通过输入语音来选择,因此可以实现通过输入语音的更灵活输入表单项选择环境,从而可以应用于各种装置。
<实施例6>
当保存在内容保存单元101中的内容是使用置标语言来描述的时,布局关系保存单元113可以保存表示输入表单项的标记类型,并且可以通过输入如“第n(标记名称)”的语音来选择输入表单项。图17示出在该结构中保存在布局关系保存单元113中的输入表单项信息表的内容。在该情况下,绝对位置判定单元121识别第一圆形按钮为性别,并且识别第二圆形按钮为职业。当用户输入语音“第二圆形按钮”时,焦点位置移至职业,并且流程进入步骤S7。
注意,保存在布局关系保存单元113中的标记类型不受限于“input(输入框)”和“radio(圆形按钮)”,并且如果保存表示菜单的“select(选择)”标记或者表示链接目的地的“a”标记,也可以执行相同的处理。
如上所述,根据实施例6,由于可以根据表示输入表单项的标记类型通过输入语音来选择输入表单项,因此可以实现通过输入语音进行更灵活的输入表单项选择。
<实施例7>
当内容是使用置标语言来描述的时,存在很多不用于语音识别输入的标记,如表示居中的“center”标记,表示换行的“br”标记等。
因此,在实施例6中,可以在声明语音识别的部分中列出用于通过语音识别进行焦点移动的标记类型。
图18示出使用置标语言的用来执行语音识别的标记例子。在图18中,表示与实施例7相关联的语音识别的标记例子,并且语音识别标记[<SpeechRecog...>]是用于通过语音识别执行输入的描述。
在实施例7的GUI显示单元102中,[<SpeechRecog...>]被解释为“进行语音识别,并且显示其语音识别结果”。用于语音识别的识别语法106以及在语音识别中用于焦点移动的标记类型列表可以分别用[grammar]和[used_tag]来指定。在本例中,标记[<SpeechRecog...>]声明使用识别语法字典[command.grm],并且三种不同标记即“input”标记、“radio”标记和“a”标记用于焦点移动。
如上所述,根据实施例7,由于用来执行语音识别的标记是一起在内容中描述的,因此可以更高效地确定内容的标记中用来执行语音识别的标记。另外,由于用来执行语音识别的标记是针对各内容来描述的,因此即使当根据表示输入表单项的标记类型通过输入语音来选择输入表单项时,布局关系保存单元113也不需要保存图17中的任何输入表单项信息,并且可以节省存储资源。
注意,本发明包括通过将实现前述实施例功能的软件程序(与各实施例中的所示流程图相对应的程序)直接或远端提供给一个系统或装置并且由该系统或装置的计算机读出并执行所提供的程序码来实现本发明的情况。在该情况下,形式并不限于程序,只要可以提供程序功能即可。
因此,安装在计算机中以使用计算机实现本发明的功能处理的程序码本身实现本发明。也就是,本发明包括用于实现本发明的功能处理的计算机程序本身。
在这种情况下,程序的形式不受到特定的限制,并且可以使用目标码、由解释器执行的程序、提供给OS的脚本数据等,只要它们具有程序功能即可。
可以使用例如软盘、硬盘、光盘、磁光盘、MO、CD-ROM、CD-R、CD-RW、磁带、非易失性存储卡、ROM、DVD(DVD-ROM、DVD-R)等作为用于提供程序的记录介质。
作为另一种程序提供方法,可以在客户计算机上使用浏览器建立与因特网上的给定主页的连接,并且可以将经过压缩且包括自动安装功能的本发明计算机程序本身或文件从该主页下载到记录介质如硬盘等,从而提供程序。另外,形成本发明程序的程序码可以分成多个文件,并且可以从不同主页下载这些文件。也就是,本发明还包括使多个用户下载用于使用计算机实现本发明的功能处理的程序文件的WWW服务器。
另外,存储本发明加密程序的存储介质如CD-ROM等可以交付给用户,已清除预定条件的用户可以允许通过因特网从网页下载对程序解密的密钥信息,并且可以使用该密钥信息执行加密程序以安装在计算机上,从而实现本发明。
前述实施例的功能可以不仅通过由计算机执行读出程序码而且通过根据该程序指令由运行在计算机上的OS等执行的一些或所有实际处理操作来实现。
而且,在从记录介质读出的程序写入在功能扩展板或单元的存储器中之后,前述实施例的功能可以通过安置在功能扩展板或功能扩展单元中的CPU等所执行的一些或所有实际处理来实现,其中,功能扩展板或功能扩展单元插入在计算机中或者连接到计算机。

Claims (24)

1.一种信息处理装置,用于根据输入语音对显示在显示屏幕上的输入表单项执行处理,包括:
存储部件,用于存储与输入表单项相关联的输入表单项信息;
语音识别部件,用于利用包括移动识别语法数据、操作控制识别语法数据以及区域值识别语法数据的语音识别语法数据识别输入语音;
选择部件,用于选择与所述语音识别部件的语音识别结果相对应的输入表单项信息;以及
显示控制部件,用于控制与由所述选择部件选择的输入表单项信息相对应的输入表单项的显示模式。
2.如权利要求1所述的装置,其中,输入表单项信息包括输入表单项的输入表单项名称。
3.如权利要求1所述的装置,其中,输入表单项信息包括表示输入表单项位置的布局信息。
4.如权利要求1所述的装置,其中,所述显示控制部件以与其他输入表单项的第一显示模式不同的第二显示模式,显示与由所述选择部件选择的输入表单项信息相对应的输入表单项。
5.如权利要求1所述的装置,其中,所述显示控制部件在显示屏幕的中央显示与由所述选择部件选择的输入表单项信息相对应的输入表单项。
6.如权利要求1所述的装置,还包括:
通知部件,用于当确定所述选择部件的选择时,通知该消息。
7.如权利要求1所述的装置,其中,输入表单项信息包括输入表单项的输入表单项名称和表示输入表单项位置的布局信息,
所述装置还包括判定部件,用于判定所述语音识别部件的语音识别结果是对应于输入表单项名称还是对应于布局信息,并且
所述选择部件根据所述判定部件的判定结果,选择与所述语音识别部件的语音识别结果相对应的输入表单项信息。
8.如权利要求1所述的装置,其中,输入表单项信息包括表示输入表单项位置的布局信息,并且
所述语音识别部件使用语音识别语法数据来识别输入语音,其中,语音识别语法数据用来识别用于指定布局信息的语音。
9.如权利要求8所述的装置,其中,语音识别语法数据包括用来识别相对位置表达和绝对位置表达中的至少一种的数据,其中,相对位置表达表示输入表单项的相对位置,并且绝对位置表达表示输入表单项的绝对位置。
10.如权利要求8所述的装置,其中,语音识别语法数据包括用来识别绝对位置表达是对应于包括输入表单项的全部内容还是对应于显示屏幕上的显示范围的数据。
11.如权利要求1所述的装置,其中,当输入表单项用超文本文档实现时,输入表单项信息包括表示输入表单项的标记。
12.如权利要求11所述的装置,其中,超文本文档描述用来由所述语音识别部件执行语音识别的标记。
13.一种信息处理方法,用于根据输入语音对显示在显示屏幕上的输入表单项执行处理,包括:
语音识别步骤,利用包括移动识别语法数据、操作控制识别语法数据以及区域值识别语法数据的语音识别语法数据识别输入语音;
选择步骤,选择语音识别步骤的语音识别结果所对应的与输入表单项相关联的输入表单项信息;以及
显示控制步骤,控制与在选择步骤选择的输入表单项信息相对应的输入表单项的显示模式。
14.如权利要求13所述的方法,其中,输入表单项信息包括输入表单项的输入表单项名称。
15.如权利要求13所述的方法,其中,输入表单项信息包括表示输入表单项位置的布局信息。
16.如权利要求13所述的方法,其中,显示控制步骤包括如下步骤:以与其他输入表单项的第一显示模式不同的第二显示模式,显示与在选择步骤选择的输入表单项信息相对应的输入表单项。
17.如权利要求13所述的方法,其中,显示控制步骤包括如下步骤:在显示屏幕的中央显示与在选择步骤选择的输入表单项信息相对应的输入表单项。
18.如权利要求13所述的方法,还包括:
通知步骤,当确定选择步骤的选择时,通知该消息。
19.如权利要求13所述的方法,其中,输入表单项信息包括输入表单项的输入表单项名称和表示输入表单项位置的布局信息,
所述方法还包括判定步骤,判定语音识别步骤的语音识别结果是对应于输入表单项名称还是对应于布局信息,并且
选择步骤包括如下步骤:根据判定步骤的判定结果,选择与语音识别步骤的语音识别结果相对应的输入表单项信息。
20.如权利要求13所述的方法,其中,输入表单项信息包括表示输入表单项位置的布局信息,并且
语音识别步骤包括如下步骤:使用语音识别语法数据来识别输入语音,其中,语音识别语法数据用来识别用于指定布局信息的语音。
21.如权利要求20所述的方法,其中,语音识别语法数据包括用来识别相对位置表达和绝对位置表达中的至少一种的数据,其中,相对位置表达表示输入表单项的相对位置,并且绝对位置表达表示输入表单项的绝对位置。
22.如权利要求20所述的方法,其中,语音识别语法数据包括用来识别绝对位置表达是对应于包括输入表单项的全部内容还是对应于显示屏幕上的显示范围的数据。
23.如权利要求13所述的方法,其中,当输入表单项用超文本文档实现时,输入表单项信息包括表示输入表单项的标记。
24.如权利要求23所述的方法,其中,超文本文档描述用来在语音识别步骤执行语音识别的标记。
CNB028069471A 2001-03-22 2002-03-19 信息处理装置和方法 Expired - Fee Related CN1291307C (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2001083038 2001-03-22
JP083038/01 2001-03-22
JP083038/2001 2001-03-22
JP386192/01 2001-12-19
JP2001386192 2001-12-19
JP386192/2001 2001-12-19

Publications (2)

Publication Number Publication Date
CN1537267A CN1537267A (zh) 2004-10-13
CN1291307C true CN1291307C (zh) 2006-12-20

Family

ID=26611818

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB028069471A Expired - Fee Related CN1291307C (zh) 2001-03-22 2002-03-19 信息处理装置和方法

Country Status (9)

Country Link
US (1) US7165034B2 (zh)
EP (1) EP1405169B1 (zh)
JP (1) JP4006338B2 (zh)
KR (1) KR100549482B1 (zh)
CN (1) CN1291307C (zh)
AT (1) ATE345526T1 (zh)
AU (1) AU2002238961A1 (zh)
DE (1) DE60216096T2 (zh)
WO (1) WO2002077790A2 (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3542578B2 (ja) * 2001-11-22 2004-07-14 キヤノン株式会社 音声認識装置及びその方法、プログラム
US7509260B2 (en) * 2004-09-20 2009-03-24 International Business Machines Corporation Systems and methods for inputting graphical data into a graphical input field
JP2008035494A (ja) * 2006-06-30 2008-02-14 Ricoh Co Ltd 画像処理装置及び画像処理方法
US8612230B2 (en) * 2007-01-03 2013-12-17 Nuance Communications, Inc. Automatic speech recognition with a selection list
CN102156538A (zh) * 2011-03-15 2011-08-17 北京航空航天大学 一种通过语音识别技术控制鼠标操作完成人机交互的方法
KR102009316B1 (ko) * 2013-01-07 2019-08-09 삼성전자주식회사 대화형 서버, 디스플레이 장치 및 그 제어 방법
CN103235643A (zh) * 2013-04-09 2013-08-07 青岛旲天下智能科技有限公司 采用声控式的人机交互设备
JP5735075B2 (ja) * 2013-10-07 2015-06-17 株式会社東芝 電子機器、表示方法、およびプログラム
CN104735634B (zh) * 2013-12-24 2019-06-25 腾讯科技(深圳)有限公司 一种关联支付账号管理方法、移动终端、服务器以及系统
JP6642424B2 (ja) * 2014-06-03 2020-02-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10083688B2 (en) * 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
CN106713111B (zh) * 2015-11-17 2020-04-07 腾讯科技(深圳)有限公司 一种添加好友的处理方法、终端及服务器
JP6451907B2 (ja) * 2016-08-16 2019-01-16 ソニー株式会社 情報処理装置
JP6762819B2 (ja) * 2016-09-14 2020-09-30 株式会社東芝 入力支援装置およびプログラム
CN108279839A (zh) * 2017-01-05 2018-07-13 阿里巴巴集团控股有限公司 基于语音的交互方法、装置、电子设备及操作系统
CN107168551A (zh) * 2017-06-13 2017-09-15 重庆小雨点小额贷款有限公司 一种表单填写的输入方法
CN107240400B (zh) * 2017-07-03 2020-08-11 重庆小雨点小额贷款有限公司 终端操作方法及装置
CN108287815A (zh) * 2017-12-29 2018-07-17 重庆小雨点小额贷款有限公司 信息录入方法、装置、终端及计算机可读存储介质
KR102519635B1 (ko) 2018-01-05 2023-04-10 삼성전자주식회사 음성 명령을 처리하기 위한 전자 문서 표시 방법 및 그 전자 장치
CN108664199A (zh) * 2018-05-07 2018-10-16 平安普惠企业管理有限公司 表单填写方法、装置、设备及计算机可读存储介质
JP7327939B2 (ja) * 2019-01-09 2023-08-16 キヤノン株式会社 情報処理システム、情報処理装置、制御方法、プログラム
US11838459B2 (en) 2019-06-07 2023-12-05 Canon Kabushiki Kaisha Information processing system, information processing apparatus, and information processing method
JP2020201911A (ja) * 2019-06-13 2020-12-17 キヤノン株式会社 情報処理システム、情報処理装置、情報処理方法
CN110839998A (zh) * 2019-09-30 2020-02-28 佛山市威格特电气设备有限公司 智能安全帽语音填写作业表单方法
JP7388272B2 (ja) 2020-03-31 2023-11-29 ブラザー工業株式会社 情報処理装置、情報処理方法及びプログラム
JP7383667B2 (ja) 2021-07-16 2023-11-20 株式会社東芝 情報処理装置、方法およびプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4710763A (en) * 1984-10-19 1987-12-01 Texas Instruments Incorporated Method for generating and displaying tree structures in a limited display area
US5787414A (en) * 1993-06-03 1998-07-28 Kabushiki Kaisha Toshiba Data retrieval system using secondary information of primary data to be retrieved as retrieval key
JPH0793124A (ja) 1993-09-24 1995-04-07 Toshiba Corp 文書作成装置及びスクロール方法
US5619708A (en) * 1994-10-25 1997-04-08 Korteam International, Inc. System and method for generating database input forms
JPH08129476A (ja) 1994-10-31 1996-05-21 Kitsusei Comtec Kk 音声データ入力装置
GB9705926D0 (en) 1997-03-21 1997-05-07 Medical Talk Systems Limited Improved document completion
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US6044347A (en) * 1997-08-05 2000-03-28 Lucent Technologies Inc. Methods and apparatus object-oriented rule-based dialogue management
JPH11120269A (ja) 1997-10-20 1999-04-30 Pca Kk 音声入力会計システム及び音声入力会計プログラムを記憶した媒体
JPH11228047A (ja) 1998-02-10 1999-08-24 Hitachi Building Systems Co Ltd 保全作業支援装置
KR100620826B1 (ko) * 1998-10-02 2006-09-13 인터내셔널 비지네스 머신즈 코포레이션 대화형 컴퓨팅 시스템 및 방법, 대화형 가상 머신, 프로그램 저장 장치 및 트랜잭션 수행 방법
US6246981B1 (en) * 1998-11-25 2001-06-12 International Business Machines Corporation Natural language task-oriented dialog manager and method
US6745165B2 (en) * 1999-06-16 2004-06-01 International Business Machines Corporation Method and apparatus for recognizing from here to here voice command structures in a finite grammar speech recognition system
US6510411B1 (en) * 1999-10-29 2003-01-21 Unisys Corporation Task oriented dialog model and manager

Also Published As

Publication number Publication date
DE60216096D1 (de) 2006-12-28
KR100549482B1 (ko) 2006-02-08
EP1405169A2 (en) 2004-04-07
DE60216096T2 (de) 2007-06-28
EP1405169B1 (en) 2006-11-15
JP2005500591A (ja) 2005-01-06
US7165034B2 (en) 2007-01-16
KR20030086612A (ko) 2003-11-10
JP4006338B2 (ja) 2007-11-14
WO2002077790A3 (en) 2004-01-15
US20040044523A1 (en) 2004-03-04
ATE345526T1 (de) 2006-12-15
CN1537267A (zh) 2004-10-13
WO2002077790A2 (en) 2002-10-03
AU2002238961A1 (en) 2002-10-08

Similar Documents

Publication Publication Date Title
CN1291307C (zh) 信息处理装置和方法
CN1265208A (zh) 数据通信
CN1639707A (zh) 用于并行多模通信的系统和方法
CN1269104C (zh) 语音合成方法和语音合成设备
CN1639696A (zh) 用于并行多模通信会话持续的系统和方法
CN1797400A (zh) 用于向网站添加个人化的值的系统、Web服务器和方法
CN1086484C (zh) 能识别口述命令的交互式计算机系统
CN1573928A (zh) 用语音应用语言标记执行的语义对象同步理解
CN1285233C (zh) 修改移动电话机的显示信息的系统和方法
CN1639681A (zh) 使用并行多模标签的进行并行多模通信的系统和方法
CN1755670A (zh) 翻译系统、翻译通信系统、机器翻译方法及包含程序的介质
CN1942875A (zh) 对话支援装置
CN1752975A (zh) 用于支持话音的自动填充的方法和系统
CN1783212A (zh) 转换文本为语音的系统和方法
CN101038743A (zh) 向语音使能应用提供帮助的方法和系统
CN1752897A (zh) 把图形数据输入图形输入区的系统和方法
CN1639736A (zh) 信息处理装置和方法
CN1732461A (zh) 基于要素的多个文件的分析系统和方法
CN1744605A (zh) 能实现环球网服务的数字视/音频处理装置、方法及系统
CN1739100A (zh) 同步程序
CN1294459A (zh) 无线电通信系统以及改变无线电客户机显示语言的方法
CN1359501A (zh) 提供基于网络的咨询服务的方法和装置
CN1799020A (zh) 信息处理方法和设备
CN109326284A (zh) 语音搜索的方法、装置和存储介质
KR102357620B1 (ko) 챗봇 채널연계 통합을 위한 챗봇 통합 에이전트 플랫폼 시스템 및 그 서비스 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20061220

Termination date: 20150319

EXPY Termination of patent right or utility model