CN1115057A

CN1115057A - 复合输入的信息处理装置中误输入的处理方法及装置

Info

Publication number: CN1115057A
Application number: CN95104565A
Authority: CN
Inventors: 安藤春; 菊池英明; 畑冈信夫; 松田泰昌; 大条成人; 长谷川司
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1994-04-25
Filing date: 1995-04-24
Publication date: 1996-01-17
Also published as: JP3267047B2; JPH07295784A; EP0680035B1; EP0680035A1; US5864808A

Abstract

用户参照显示器上显示的画面用指示或触摸笔等边指示边通过语音识别程序13、麦克风8及A/D变换装置7输入语音。对于所输入的语音的识别结果，进行识别可靠性第1级的备选所示的处理或显示，把可靠性第2级以下的多个备选所示的指令菜单显示在画面上。根据识别可靠性第1级的备选进行的处理或显示是用户的非意图处理时，或者用户误输入时(把这样的处理统称为“错误”)，根据第2级以下的识别备选所显示的菜单用手指和笔等从该备选中选择正确的输入备选，再次进行伴随该备选的处理操作或显示而进行纠错。

Description

复合输入的信息处理装置中误输入的处理方法及装置

本发明涉及搭载在微机、工作站、文字处理机等办公自动化(OA)设备的利用语音的图形编辑系统和具有显示画面的语音应用系统等的用户接口。作为输入形态不局限于语音，也包括把直接获得的输入信号暂时读入系统内部，经过识别处理后确定所指示的输入的输入装置。在本发明中，提供了在作为输入装置具有以包含语音输入在内的复合形态的输入装置的信息处理装置中非意图输入时简便的纠错处理方法。

本发明以复合地利用语音输入信息和其它输入信息的处理中错误输入的处理为对象。关于这种输入形态中的错误输入纠正处理在先有技术中尚未见到有关例子。因而，在命令的输入中，利用语音输入装置时的错误输入的纠正处理例子示出了关于纠错处理的类似技术。

以往，只在具有包括语音输入在内的多种输入装置的装置中，只用语音输入代替键盘输入。

在具有语音输入装置根据语音识别准确度进行处理的系统的例子中，有设在日铁(JR)品川车站的利用语音识别输入和触模式面板输入的售票机。在该售票机中，识别输入的声音，在准确度第1位的候选的识别准确度高时，直接实行处理。另外，当输入的语音的识别结果的准确度第1位的候选的识别准确度低时，则提示准确度第1位的候选和其它候选，由用户通过触模式面板输入从候选中选择正确的识别结果，或者再次输入正确的指示，然后进行实际的售票处理。

上述先有技术存在有这样的问题，即需要用户的确认处理和二次输入，在信息输入方面过于花费时间。此外，在输入的语音的识别可靠性低但却符合用户的意图时，也向用户请求确认输入语音的识别结果，反之则强烈要求繁杂的操作。

另外，在输入语音的错误识别的准确度高并实行完由输入语音开始的处理时，不能纠下该处理，或者必须取消全部处理而再次从头开始重新输入。

本发明的目的在于提供在使用语音输入和其它输入方法(例如，触模式面板指示输入、键盘输入、鼠标输入)复合输入操作指示的装置中，能够简便处理复合形态输入中的输入错误又不对其它输入信息产生影响的图形编辑、图象编辑等的接口。特别是要对输入装置提供非常适用于伴有使用了语音识别的语音输入的图形编辑、图象编辑等的接口。

本发明的目的还在于提供使用了复合形态的信息处理装置的输入方法及装置，该输入方法和装置例如在用语音输入和触模式面板输入复合地进行输入动作时，即使由于输入语音的错误识别动作而对装置进行了和应输入操作指令不同的处理，也能够简便且迅速地进行处理纠正。

为实现上述目的，本发明构成如下。

在信息处理装置中，至少具有：

显示信息的信息显示电路；

用户用指示手势等输入连续的位置信息的位置信息输入电路；

输入语音信息的语音信息输入电路；

存储由上述输入电路输入的位置信息及语音信息的存储电路；

存储语音标准模式或单词信息或语法信息中至少1种信息的标准模式信息存储电路；

用存储在上述标准模式信息存储电路中的语音标准模式或单词信息或语法信息中至少1种信息算出通过上述输入电路输入的语音的准确度的语音信息分析电路。

在这样构成的信息处理装置中，首先进行由语音识别结果的准确度第1位的候选所决定的处理或显示，并将第2位以下的多个语音识别结果的候选用菜单显示在画面上并且还具有，当由准确度第1位的候选的处理或显示错误时或者用户误输入时根据所显示的菜单，利用手或笔等从第2位以下的候选中选译正确的输入候选，再次进行与其相伴的处理操作或显示的纠错处理电路。

还具有当选择语音识别候选时，已存储了输入的指示信息等纠错处理电路，以使在进行纠正时不必再次输入指示信息等语音输入之外的信息。

还具有在显示的菜单中设有正确的候选时通过仅再次进行语音输入所需要的信息就能够进行纠正的纠错处理电路。

还具有再次进行语音输入时把语音识别结果第1候选和菜单上显示的第2位以下的候选与识别对象分开的电路。

还具有在实行由准确度第1位的候选所决定的处理或显示的同时把识别结果的内容显示在画面或把该内容用声音输出的功能。

在由用户用语音输入“移动”、“拷贝”等指令，进而用手和笔等指示对象物和移动位置等进行编辑的图象编辑系统中输入信息时进行根据作为语音识别第1候选的指令的操作、在菜单上显示语音识别第2候选以下的指令，并且，还具有在根据语音识别第1备选的操作是错误和用户误输入时通过存储已输入的指示信息等语音以外的信息，用手和笔等仅选择菜单所显示的语音识别候选第2位以下的多个指令再次进行伴随该指令的的处理操作或者显示这样的纠错处理电路。

在阅读和理解了下面对实施例的详细描述后，将会了解到与先有技术相比，本发明的上述和进一步的优点是十分明显的。

应用一些附图说明本发明，这些附图的目的仅是为描述本发明的权利要求和实施例，本发明并不局限于这些形式。

图1是本发明的系统结构图。

图2是显示器显示画面的一个例子。

图3是图形描绘表的一个例子。

图4是语音识别程序的结构例。

图5是显示器显示画面例。

图6是指示区域表的数据结构例。

图7是单词辞典17的数据结构例。

图8是显示器显示画面例。

图9是表示本发明处理动作概况的流程图。

〈实施例〉

下面，用附图说明本发明的实施例。这里，假定以复合形态进行输入的图形编辑系统进行说明。然而，本发明不局限于该系统，能够应用到CAD系统、图象处理系统、情报检索系统等一般系统中。

图1是表示本发明一实施例的框图。图1中，磁盘上的系统程序11、图形编辑程序12、语音识别程序13、指示区域读入程序14、信息综合程序15、语音标准模式数据16及单语辞典17，在系统起动时装入主存储器2。图2是通过被装载到主存储器2中的图形编辑程序12在显示器4上显示的一个图形编辑画面的例子。画面21上，起动图形编辑程序12，参照存储在主存储器2中的图形描绘表(图3、30)，用绘图模式描画出2个圆(22)、2个三角形(23)、3个长方形(24)。

本发明中，用户指示画面上的显示物，指定1个对象物，对被指定的对象物进行用语音输入指示的编辑作业。首先，为了进行系统内的编辑处理，信息处理装置1起动主存储器2上的语音识别程序13，进而起动指示区域读入程序14。使用其详细内容后面介绍的指示区域读入程序14，通过在对应于显示器4而设置的触模式面板5上进行指示操作，能够输入位置信息。显示器4由显示控制装置6控制。

图9中示出本发明动作例的概况。下面，按顺序说明图9的各个步骤。

如图4所示，语音识别程序13由语音输入程序131、特征抽取程序132、标准模式适配程序133及辞典适配程序134构成。若起动语音识别程序13，则首先语音输入程序131起动。用户在触模式面板5上指示对象物、移动位置等的同时，以声音用麦克风8指示编辑操作(步骤901)。该图形编辑系统接受从触模式面板输入的位置信息和用语音输入的编辑命令信息，从这些信息理解用户的意图，按照用语音输入的编辑命令进行图形编辑。本实施例，如图5那样叙述了用户向麦克风发出(“把这个圆拷贝到这里”)的声音，同时在触摸式而板5上依次指示作为对象物的圆的近傍点A和拷贝位置地点B，通过起动语音输入程序131，从麦克风8输入的语音由A/D变换装置7变换为数字信号后送入到主存储器2，实施后续的外理(步骤902)。接着，起动特征抽取程序132，把对应于输入语音指示的数字信号以10ms的帧周期，变换为LPC倒频谱系数的时间系列作为特征矢量。(对于特征矢量的变换子例，有齐藤、中田《音声情报处理の基础》(オ-ム社、昭50))(步骤903)。这时，设置在主存储装置2中的缓冲存储器P置O。在指示区域读入程序14中，用户的手指或笔等触摸触接面板5时的接触座标(X、Y)经面板控制装置3读入，而每读入一组座标就把缓冲存储器P加1。进而，被读入的座标写入主存储装置2的指示区域表中。指示区域表由阵列存储器X、Y、T构成，读入的座标信息中，把X座标写入阵列存储器X[P]，把Y座标写入阵列存储器Y[P]，另外，把输入座标信息的时刻写入阵列存储器T[P]。该指示区域表如图6所示，由座标编号200、写入X座标的阵列存储器X201、写入Y座标的阵列存储器Y202、写入座标输入时刻的阵列存储器T构成，各个存储器按输入的顺序从座标编号“1”开始存入接触面板的手指的X座标、Y座标及输入时刻数据(步骤904)。指尖或笔等离开触模式面板5或者经过一定时间T₀则终止写入动作。即使用其它方法经过一定时间也同样终止写入。

如果终止把由用户通过指示和发声而输入的座标和编辑命令写入指示区域表的动作，则标准模式匹配程序133和辞典匹配程序134起动。辞典匹配程疗134起动时被查询的单词辞典17如图7所示由单词191、单词内容192、概念编号193构成。该概念编号193是分类意义相近单词的识别编号。首先，进行从输入声得到的特征矢量与予先存储在系统内的语音标准纠模式数据，16之间的匹配。匹配的方法可以使用例如北原等《由声音输入的情报检索系统中口语受理方法的讨论》(日本音响学套、3-5-7、平3)中记述的方法。匹配的结果，输入语音被变换为文字串(步骤905)。例如，成为“この/ぇん/そ/こちぅ/ん/どこ/”。这时，每个形态成分(用“/”划开的词)都被算出准确度．标上候选的顺序。而且，通过匹配得到的文字串应用至今一直沿用的方法(例如，相泽等著《计算机的假名汉字变换》(NHK技术研究、25、5、昭48)中记述的最长一致法)进行形态成分分析，进行和单词辞典17的匹配结果，得到这样的形态成分信息(この，指示词，803)、(

，名词，501)，(そ，格助词，804)，(こちぅ名词，901)。(ん，格助词，805)，(移动して、动词，301)。动词按识别准确度从高到低的顺序赋予指令序号Com[i](i＝1～n)(步骤906)。本例中，“移动”为Com[1]＝30l。接着，起动信息综合程序l5，例如．如北原等著《复合形态输入方式(特願平04—221234号)》中记载的那样，进行第500级的概念序号的名词和第900级的概念序号的名词的输入顺序与多个指示输入顺序之间的时间对应(步骤907)。本例中，由于物体名词

先于位置名词“こちぅ”输入，所以，座标编号A指示对象物，座标编号B指示移动位置。接着，进行对象物的概念序号(图7的193)和图形描绘表30中图形序号上3位的匹配。抽出候选图形。本实施例中，把所得到的画面上的候选图形抽出为图形描绘表30中的序号5011、5012。接着，具有距指示从输入声得到的物体名词位置的座标编号A(XA，YA)最近的中心座标的圆被确定为指示对象图形，该图形的轮廓闪烁。本例的情况，图5的51A对应于图3的图形序号5011，5011作为候选图形被识别。被识别的图形序号顺序以obj[1]＝5011的形式存储(步骤908)。另外，已经用指示而被存储的关于对象物和拷贝位置的信息一直存储到图形编辑区域中输入下一个指示之前。接着，在作为形态成分信息的动词的识别侯选的准确度按“移动”、“复写”、“交换”的顺序排列顺序时，指令序号被输入为Com[1]＝301，Com[2]＝302。首先，由于识别候选的准确度最高，故根据Com[1]＝301进行“移动”操作(步骤909)。被选择的圆移动到被指定位置的主存储装置2上的座标序号“B”(XB、YB3)。另外，这时如图8所示，在上述操作结果的输出显示的同时还显示所进行过的操作指令。进而，在同一画面上还以菜单显示关于准确度第2位以下的操作指令的输入声识别候选(步骤910)。还有，既可以予先限制显示个数，也可以仅显示指定的准确度以上的候选。本例中，根据从输入声识别了的动作而把操作指令特定为“移动”。然而，如果实际上用户要求“拷贝”而不是“移动”，则不是用户所希望的操作结果而成为起因于输入声音识别结果的纠错处理。因而，用户在触摸式面板5上从显示在显示画面上的操作指令第2位以下的候选菜单中选择符合自己意图的指令“拷贝”，进行良好效率的错误处理纠正(步骤911)。若从第2位以下的菜单中选择了用户意图的操作指令，则查询菜单各项目的座标区域和指示位置，选择Com[2]＝302。接着，前面实行过的“移动”操作被擦除，而主存储装置2中在纠错处理时使用的指示信息是能够共同利用的信息故原样保存，在纠错处理纠正后的处理中再次被利用。根据Com[2]＝302利用被保存的指示信息进行“拷贝”操作(步骤912)。错误处理纠正的结果，在主存储装置2上的座标编号“B”(XB、YB)上拷贝对象物。另一方面，显示菜单中没有指令的该候选时，如果再次用音声仅输入处理指令名，则应用除去前面显示在画面上的识别准确度第1位的候选和菜单显示的识别准确度第2位以下的候选之外的识别候选通过语音识别外理进行处理指令的输入。

如本发明这样。在复合地应用多个输入进行处理的系统中，错误处理纠正时因为能够仅对应输入想修正的内容，所以能够省去重复数据再次输入的工夫。还有，由于用语音再输入时确实地排除了不同的识别候选，故可以有效地进行识别处理。

发明总体的效果综述如下。

一旦用户用语音和其它输入方法输入信息，则上述装置就进行由语音识别结果的准确度第1位的候选决定的处理或显示，把第2位以下的多个语音识别结果以菜单显示在画面上。在基于准确度第1位的候选的处理或显示是错误时，或者在用户输入错误时，根据显示的菜单，用手指和笔等从第2位以下的候选中选择正确的候选，再次进行伴随该候选的操作处理或显示，通过进行这样实行错误处理的动作，能够简便地进行纠错处理。还有，选择语音识别候选时，具备把已经输入的指示信息等存储起来，故在纠正时没有必要再次输入指示信息等语音输入之外的信息的纠错处理电路，由此，在用户语音输入的同时还输入了语音之外的信息时就没有必要再次输入已经正确地输入了的信息，而能够仅输入出错的信息。另外，在显示的菜单中设有正确的候选时，把语音识别结果第1候选和菜单上表示的第2位以下的候选与识别对象分离，通过仅再次以语音输入所需要的信息进行纠正误识别的纠错处理，可以筛选识别候选，提高识别准确度。还有，在通过用户语音输入“移动”、“复写”等指令，进而用手指和笔等指示对象物和移动位置而进行编辑操作的图象编辑系统中，若输入信息，则按照语音识别第1候选的指令进行操作，菜单显示语音识别第2候选以下的指令，在根据语音识别第1候选进行的操作错误时或用户误输入时，通过存储已经输入的指示信息等语音之外的信息，则用手指和笔等仅选择菜单显示的语音识别候选第2位以下的多条指令，就能够进行再次实行伴随该指令的处理操作或显示这样的错误处理，使减轻纠错处理花费的工夫成为可能。进而，实行由准确度第1位的候选决定的处理或显示的同时，把确认结果的内容显示在画面上或用语音输出该内容，由于具有这样的功能，用户就能够确认识别结果。

以上参照实施例说明了本发明。显然在阅读和理解了本发明后将引起那些熟练技术的修改和替换。这里意指由包括这些修改和替换而构成的发明处在附加的权利受求及其等效的范围之内。

Claims

1.利用语音的信息处理装置，

至少具有：

显示信息的显示电路；

用户用指示手势等输入连续的位置信息的位置信息电路；

输入语音信息的语音信息输入电路；

用存储在上述标准模式信息存储电路中的语音标准模式或单词信息或语法信息中至少1种信息计算出通过上述输入电路输入的语音的可靠性的语音信息分析电路；其特征在于：

在这样的信息处理装置中，首先进行由语音识别结果的准确度第1位的候选所决定的处理或显示，第2位以下的多个语音识别结果的候选以菜单显示在画面上，并且还具有当准确度第1位的候选次定的处理或显示是错误时，根据显示的菜单用手指和笔等从第2位以下的候选中选择正确的输入候选并再次进行伴随该候选的处理操作或显示的纠错处理电路。

2.权利要求1中记述的利用语音的信息处理装置中的纠错处理电路，特征在于：

选择语音识别候选时，由于已存储了输入的指示信息，故在纠正时没有必要再次输入指示信息等利用语音输入之外的信息。

3.权利要求1中记述的利用语音的信息处理装置中的纠错处理电路，特征在于：

在显示的菜单中没有正确的候选时，通过仅再次进行语音输入所需要的信息便能进行纠正。

4.权利要求1中记述的利用语音的信息处理装置，特征在于：

在该信息处理装置中，再次进行语音输入时，把语音识别结果第1候选和菜单表示的第2位以下的候选与识别对象分离。

5.权利要求1中记述的利用语音的信息处理装置，特征在于：

具有实行由准确度第1位的候选所决定的处理或显示的同时把识别结果的内容显示在画面上或者用声音输出该内容的功能。

6.利用语音的信息处理装置，特征在于：

在包含有权利要求1中记述的利用语音的信息处理装置，用户通过用语音输入“移动”、“复写”等指令，并进而用手指和笔等指示对象物和移动位置等而进行编辑操作的图象编辑系统中，若输入信息时，就进行由语音识别第1候选即指令所决定的操作，以菜单显示语音识别第2候选以下的指令，并且，还具有当基于语音识别第1候选的操作是错误时和用户误输入时通过存储已输入的指示信息等语音之外的信息而用手指或笔等仅选择菜单显示的语音识别候选第2位以下的多条指令，再次进行伴随被选指令的处理操作或显示的纠错处理电路。

7.复合输入的信息处理装置中误输入的纠正方法，特征在于：

直接指定所显示的对象，同时，用语音输入表示上述对象的变形和位置的变更的编辑命令；

存储该对象的位置信息；

识别上述输入语音，实行识别准确度第1位的编辑命令；

与该实行结果一起在进行上述语音识别时，显示识别准确度第2位以下的编辑命令菜单；

选择上述识别准确度第2位以下的编辑命令菜单的处理命令；

对上述位置信息实行上述处理命令。