JPH0689158A - 複合形態情報入力方法 - Google Patents

複合形態情報入力方法

Info

Publication number
JPH0689158A
JPH0689158A JP23983292A JP23983292A JPH0689158A JP H0689158 A JPH0689158 A JP H0689158A JP 23983292 A JP23983292 A JP 23983292A JP 23983292 A JP23983292 A JP 23983292A JP H0689158 A JPH0689158 A JP H0689158A
Authority
JP
Japan
Prior art keywords
voice
pointing
instruction content
instruction
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP23983292A
Other languages
English (en)
Inventor
Yoshinori Kitahara
義典 北原
Haru Andou
ハル 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP23983292A priority Critical patent/JPH0689158A/ja
Publication of JPH0689158A publication Critical patent/JPH0689158A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【構成】 表示装置の表示画面上のオブジェクトをポイ
ンティングしながら、音声入力装置を介して前記オブジ
ェクトに関する処理を音声により指示する複合形態情報
入力方法であって、音声による指示に伴うポインティン
グの位置および個数を求めるステップs202,s20
3と、音声による指示に対して音声認識処理により複数
の指示内容候補を求める際に、ポインティングの個数に
応じて前記指示内容候補の数を低減するステップs2a
と、該低減された指示内容候補の中から認識指示内容を
確定するステップs8と、該認識指示内容および前記求
められた位置に基づいて、当該認識指示内容を実行する
ステップs9〜s15とを備えた。 【効果】 ユーザがシステムに入力したポインティング
情報により音声認識結果の候補列を削減するので、音声
認識の性能向上や処理速度の高速化につながり、ユーザ
が使いやすい対話システムを構成することができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、パソコン、ワークステ
ーション、ワープロ、電子ファイリングシステム等のO
A機器をはじめ、ナビゲーションシステム、QAシステ
ムなど情報検索システム等のユーザインタフェース方式
に関し、ユーザにとって使い勝手のよい情報入力方式を
提供する。
【0002】
【従来の技術】従来のマンマシン対話方式では、北原他
「音声入力による情報検索システムにおける口語文受理
文法の検討」(日本音響学会春季講演論文集 3−5−
7 1991.3)等に見られるように、音声のみを用
いたものや、藤沢他「概念ネットワークを用いた知的フ
ァイリングシステム」(信学技報 OS86−48 1
987.3)等に見られるように、キーボードとマウス
を用いたものがある。
【0003】
【発明が解決しようとする課題】上記の従来技術では、
音声入力であれば音声のみ、キーボード入力であればキ
ーボードのみというように、単一メディアによる入力方
式となっていた。しかし、人間同士が対話をするときに
は、単一メディアによることは希で、視線、指先による
オブジェクト(対象物)のポインティング、および音声
による指示等を併用した複合メディアによる場合がほと
んどである。
【0004】このような観点から、「言語・画像情報を
統合化するユーザインタフェース」情報処理学会第36
回(昭和63年前記)全国大会の論文誌第1371〜1372頁
に、自然言語と画像情報とをリンクさせ、言葉から画像
の特定部分を同定する手法が開示されている。
【0005】日経バイト誌1992年6月号、第228
〜233頁には、画像データベースに対して位置情報を
持たせることにより、地図中の建物などをデータグロー
ブによる指先の指示と、あいまいな言語表現で検索する
システムが開示されている。
【0006】また、コンピュータグラフィックス(Compu
ter Graphics)誌、Vol.14, No.3,1980の第262〜27
0頁には、音声入力およびジェスチャー認識を統合する
ことにより、グラフィックスディスプレイ上でのイベン
トを指令するものが開示されている。例えば、“Move t
hat to the right of the green square"という音声お
よびジェスチャーによる指令により、図形の移動を行う
ことを示している。
【0007】これらの従来技術は、マルチメディアを利
用した検索等の実現を示唆しているが、ディスプレイ上
の位置のポインティングに付随した入力音声の具体的な
認識手法については開示していない。特に、複数の箇所
をポインティングしながら音声指示を行う場合の処理に
は全く言及していない。複数文書編集、図形編集、情報
検索システム等においては、複数の箇所をポインティン
グしながらの音声指示が必要な場合があり、このような
場合にも良好な応答性を確保するためには、音声認識の
精度および処理速度が問題となる。
【0008】そこで、本発明の目的は、複合形態(複合
メディア)を利用して文書編集、図形編集、情報検索シ
ステム等のインタフェースを実現する際に、ポインティ
ング情報を利用して音声認識の精度および速度を向上さ
せることができる複合形態情報入力方法を提供すること
にある。
【0009】
【課題を解決するための手段】本発明による複合形態情
報入力方法は、表示装置の表示画面上のオブジェクトを
ポインティングしながら、音声入力装置を介して前記オ
ブジェクトに関する処理を音声により指示する複合形態
情報入力方法であって、前記音声による指示に伴うポイ
ンティングの位置および個数を求めるステップと、前記
音声による指示に対して音声認識処理により複数の指示
内容候補を求める際に、前記ポインティングの個数に応
じて前記指示内容候補の数を低減するステップと、該低
減された指示内容候補の中から認識指示内容を確定する
ステップと、該認識指示内容および前記求められた位置
に基づいて、当該認識指示内容を実行するステップとを
備えたことを特徴とする。
【0010】ポインティングは、タッチパネル、マウ
ス、ペン、トラックボール等の任意のデバイスを用いて
行うことができる。ポインティングは、オブジェクトを
指示するだけでなく、画面上の任意の位置を指示するこ
とができる。
【0011】音声による指示においてオブジェクトを指
示する単語としては、「これ」、「それ」、「あれ」、
「ここ」、「そこ」、「あそこ」等の指示代名詞、「こ
の」、「その」、「あの」等の連体詞を含む。
【0012】
【作用】本発明の代表的な装置構成における作用を以下
説明する。
【0013】ユーザがタッチパネル上をポインティング
しながらマイクを用いて発話した音声は、音響認識プロ
グラムにより、A/D変換装置に取り込まれ、ディジタ
ル信号に変換された後、特徴ベクトル列に変換される。
前記音響認識プログラムが起動されるのと同時にポイン
ティング座標読み込みプログラムが起動され、ユーザの
指がタッチパネルの表面に接触する度に、該接触座標を
パネル制御装置を通じて、主記憶装置のポインティング
座標テーブルに取り込む。
【0014】ユーザによるポインティング及び発声が終
了すると、情報統合プログラムが起動され、標準音響パ
ラメータ、文法ファイル、単語辞書を用いて、最も尤も
らしい候補文(指示内容)を選択し、該候補文中のオブ
ジェクト代名詞及び位置代名詞に、時間的順序に従っ
て、ポインティング情報を対応させる。最も尤もらしい
候補文の選択に先立ち、ポインティングの個数に応じて
該当しえないスロットを含む候補文が除外される。
【0015】続いて、指示代名詞に対応する位置とオブ
ジェクトとの距離を算出し、該距離値の最小であるもの
を該指示代名詞に対応するオブジェクトと判定する。さ
らに、前記候補文中の特定スロットに対応する指示(コ
マンド)を該対象オブジェクトに適用するように動作
し、ユーザは音声とポインティングにより容易に文書編
集、図形編集、情報検索等を行うことができる。
【0016】
【実施例】以下、本発明の実施例を図を用いて説明す
る。図1は、本発明の複合形態情報入力方法を実現する
装置の構成を示すブロック図である。ここでは、図形編
集システムを想定して説明を行なう。
【0017】本システムは、情報処理装置1、主記憶装
置2、パネル制御装置3、ディスプレイ4、タッチパネ
ル5、表示制御装置6、A/D変換装置7、マイク8、
磁気ディスク9からなる。磁気ディスク9には、システ
ムプログラム11、図形編集プログラム12、音響認識
プログラム13、ポインティング座標読み込みプログラ
ム14、情報統合プログラム15、音響標準パタンデー
タ16、文法ファイル17、単語辞書18が格納されて
おり、これらは、システム立ち上げ時に、主記憶装置2
にロードされる。
【0018】音響認識プログラム13は、図4に示すよ
うに、音声入力プログラム1300、特徴抽出プログラ
ム1301より構成される。
【0019】情報統合プログラム15は、図6に示すよ
うに、文法照合プログラム1500、オブジェクト図形
抽出プログラム1501、コマンド抽出プログラム15
02のモジュールから構成される。
【0020】音響標準パタンデータ16は、予め、例え
ば音節単位で、LPCケプストラム係数の時系列の集合
を記憶しておくものであり、その詳細については後述す
る。
【0021】文法ファイル17は、認識対象とする文の
テンプレートを正規文法として記憶したファイルであ
り、詳細は後述する。
【0022】単語辞書18は、図7に示すように、互い
に意味の近い類義語の集合301ごとに別個のスロット
番号300を付したものであり、例えば、スロット番号
“800”には、単語群「これ」、「この図形」、「こ
ちら」を登録し、スロット番号“802”には、単語群
「複写し」、「コピーし」を登録しておく。
【0023】図2に、主記憶装置2にロードされた図形
編集プログラム12を通じてディスプレイ4に表示され
た図形編集画面の一例を示す。
【0024】同図においては、円C及び長方形Dが、図
形編集プログラム12によって主記憶装置2に記憶され
た円描画テーブル及び長方形描画テーブルに基づいて、
グラフィックモードで描かれている。図3に示すよう
に、該円描画テーブル104は、円番号100、中心x
座標101、中心y座標102および半径103より構
成され、長方形描画テーブル109は、左上頂点の長方
形番号104、x座標105、y座標106及び縦長1
07、横長108より構成される。同図の円描画テーブ
ル104の例では、中心(290、410)、半径30
の円が1パタン描画されており、同長方形描画テーブル
109の例では、左上頂点の座標が(310,20)、
縦長50、横長90である長方形が1パタン描画されて
いる。この時、描画テーブル104、109に書かれて
いる円の個数及び長方形の個数が、主記憶装置2上の、
図形個数変数として使用するバッファメモリ領域F1、
F2(図示せず)にそれぞれ格納されているものとす
る。すなわち、前記の例では、F1に“1”、F2に
“1”がそれぞれ格納されている。
【0025】図5に、ユーザによる指示座標を管理する
ポインティング座標テーブル203の構成を示す。ポイ
ンティング座標テーブル203は、座標番号200、x
座標201、y座標202より構成されており、入力さ
れた順序にx座標及びy座標が、座標番号“1”から順
に格納されていく。
【0026】図1に示したシステムの動作について、図
15、図16及び図17に示すPAD(Problem Analysi
s Diagram)により説明を進める。
【0027】まず、図15により、音響認識プログラム
13起動後の処理の流れを説明する。
【0028】ユーザは、図2に示すように、円CをB点
に移動させたい意図を指先による指示により入力するも
のとする。すなわち、タッチパネル5上で、A点、続い
てB点をポインティングすることにより行われる。これ
に応じて、情報処理装置1は、主記憶装置2上の音響認
識プログラム13を起動する。音響認識プログラム13
が起動されると、最初に、音声入力プログラム1300
が起動される。ユーザは、指先による指示に伴い、“こ
れをここに移動して。”と発話し、この音声をマイク4
から入力する(s101)。入力された音声は、音声入
力プログラム1300によって、A/D変換装置7に取
り込まれ、ディジタル信号に変換された後、主記憶装置
2に送られる(s102)。続いて、特徴抽出プログラ
ム1301が起動され、前記ディジタル信号が、10m
sのフレーム周期で、特徴ベクトルとしてのLPCケプ
ストラム係数の時系列に変換される(s103)。特徴
ベクトルとしてのLPCケプストラム係数についての詳
細は、例えば、斉藤、中田「音声情報処理の基礎」(オ
ーム社、昭56)に記載されている。なお、フレーム周
期は10msに限定するものではなく、20ms、30
ms等任意に設定することができる。また、特徴ベクト
ルも、LPCケプストラム係数のみに限定されず、バン
ドパスフィルタの出力等を使用することも可能である。
【0029】一方、主記憶装置2上のポインティング座
標読み込みプログラム14は、音響認識プログラム13
が起動されるのと同時に、情報処理装置1によって起動
され、並列処理が行なわれる。図16により、ポインテ
ィング座標読み込みプログラム14起動後の処理の流れ
を説明する。
【0030】まず、主記憶装置2上の、座標番号変数と
して使用するバッファメモリ領域P0をゼロリセットす
る(s201)。ポインティング座標読み込みプログラ
ム14は、ユーザの指がタッチパネル5の表面に接触す
る度に、主記憶装置2上のバッファメモリ領域P0をイ
ンクリメントし(s202)、該接触座標を、パネル制
御装置3を通じて、主記憶装置2のポインティング座標
テーブル203中の、バッファメモリ領域P0の値で指
定される「座標番号」の個所に書き込む(s203)。
図5の例では、図2の図形編集において、A点の座標が
(350,428)、B点の座標が(676,154)
である場合のポインティング座標テーブル203を表わ
している。
【0031】以上の動作終了後、主記憶装置2上のバッ
ファメモリ領域P0にはポインティング座標の個数(こ
の例では“2”)が格納されていることになる。
【0032】ユーザによるポインティング及び発声が終
了すると、主記憶装置2上の情報統合プログラム15が
起動される。情報統合プログラム15は、前述のよう
に、文法照合プログラム1500、オブジェクト図形抽
出プログラム1501、コマンド抽出プログラム150
2のモジュールから構成されており、まず、文法照合プ
ログラム1500が起動される。
【0033】文法照合プログラム1500は、音響標準
パタンデータ(標準音響パラメータ)16、文法ファイ
ル17、および単語辞書18を用いて、尤もらしい候補
文を選択する。
【0034】文法ファイル17は、前述のように、認識
対象とする文のテンプレートを正規文法として記憶した
ファイルであり、図7に示した単語辞書中の単語の可能
な組み合わせをスロット番号の列(スロット列)とし
て、例えば図8のような有限オートマトンの形で書き込
んでおく。スロット列の代わりに、単語辞書18中の単
語あるいは音響パラメータをそのままアークに書き込ん
でおいてもよい。同図における状態901〜909の中
で、二重丸を施してあるものは最終状態を表わす。同図
の文法例では、以下の9通りの文が表現されていること
になる。
【0035】 1) 800−807−801−806−802−808 2) 800−807−801−806−802−805
−809 3) 800−807−801−806−802−805 4) 800−807−801−806−804−805
−809 5) 800−807−801−806−804−805 6) 800−807−801−806−804−808 7) 800−807−803−805−809 8) 800−807−803−805 9) 800−807−803−808 ここで、後述する処理で使用する禁止パステーブル50
2の構成を図9により説明する。本実施例では、ユーザ
の発声した音声認識処理にポインティング座標の個数を
利用する。これは、ポインティング個数が特定数の場
合、図8の9個のパスの内、特定のパスは通過すること
がない、ということが予め分かっていることを前提とし
ている。そこで、図9に示すように、ポインティング個
数ごとに通過することがないと分かっているパスのアー
クを禁止パステーブル502に登録しておく。本実施例
では、ポインティング個数が“1”の場合、複写を意味
するスロット802および移動を意味するスロット80
4は該当しえない。そこで、これらのアークを禁止パス
テーブル502に登録することができる。但し、図8の
有限オートマトンでは、スロット802および804の
アークを通る場合は、必ずアーク903−904を通る
ので、本例ではこのアークを禁止パスとして登録してい
る。勿論、アーク903−904の代わりに、アーク9
05−907およびアーク905−906を禁止パスと
して登録してもよい。また、ポインティング個数が
“2”の場合、削除を意味するスロット803は該当し
えない。そこで、スロット803のアーク903−90
6を禁止パスとして登録している。これにより、ユーザ
が入力したポインティング情報により音声認識結果の候
補列を削減でき、音声認識の性能向上や処理速度の高速
化を図ることができる。
【0036】図17に、情報統合プログラム15起動後
の処理の流れを示す。文法照合プログラム1500(図
6)は、文法ファイル17より文法を読み込み(s
1)、主記憶装置2上の、有効パス番号変数として使用
するバッファメモリ領域M0をゼロリセットした(s
2)後、該文法中の全てのパスについて以下のステップ
s3からステップs7までの動作手続きを繰り返す。但
し、図9に示す禁止パステーブル502を参照し、主記
憶装置2上のバッファメモリ領域P0に格納されている
ポインティング座標の個数に対応する該禁止パステーブ
ル502に格納されているポインティング個数500に
対応する禁止パス501が、当該パス中に存在するなら
ば、そのパスについてはs3からステップs7の処理を
省略する(s2a)。
【0037】まず、バッファメモリ領域M0の値をイン
クリメントし(s3)、第M0番目のパスについて、初
期状態901から順次状態遷移をしていき、遷移によっ
て得られるスロット系列を主記憶装置2上のバッファメ
モリ領域M0を要素とする配列バッファメモリ領域M1
[M0]に格納する(s4)。さらに、単語辞書18中
のスロット300に対応する単語301を用いて、各ア
ーク上のスロットを単語で置換して単語系列を生成する
(s5)。
【0038】例えば図8の例では、第1回目には、初期
状態901から状態902、903、904、905、
907、最終状態909、と順次遷移する(第1番目の
パス)。このパスでは、アーク901−902に対応す
るスロットである“800”からアーク907−909
に対応するスロットである“808”までのスロットの
系列を作る。主記憶装置2上のバッファメモリ領域M0
の値“1”を要素とする配列として使用するバッファメ
モリ領域M1[1]に、該スロット系列“800−80
7−801−806−802−808”を格納する。こ
の時、主記憶装置2上のバッファメモリ領域P0に格納
されているポインティング座標の個数は“2”であり、
禁止パステーブル502(図9)中のポインティング個
数500の“2”に対応する禁止パス501としてアー
ク903−906が存在する。したがって、このパスに
ついては、ステップs3〜s7は省略される。これによ
り、認識精度が向上するとともに、処理速度が向上す
る。
【0039】次に、前記スロットについて、単語辞書1
8中のスロット300に対応する単語301との照合を
順次行なう。すなわち、まず、第1項目“800”を、
単語辞書18中のスロット300中より検出し、続い
て、対応する単語301の各々、「これ」、「このずけ
い」、「こちら」、「こっち」を用いて、図10に示す
ように該系列を項目とするラティスを生成する。
【0040】以下、第2項目“807”、第3項目“8
01”、第4項目“806”、第5項目“802”、第
6項目“808”について、単語辞書18中のスロット
番号300に対応する単語301を順次設定する。
【0041】次に、該ラティス上の各単語401につい
て、音響標準パタンデータ16を用いて音響パラメータ
を付加する。音響標準パタンデータ16には、予め、音
節単位で、LPCケプストラム係数の時系列の集合、例
えば、音節「あ」については{c1 1,c1 2,…,c1n}
tア、音節「い」については{c2 1,c2 2,…,c2n}
tイを記憶しておき、前記生成された文の単語毎の読み
列にしたがって配列する(s6)。例えば、単語が「こ
れ」であると、 {c3 1,c3 2,…,c3n}tコ {c4 1,c4 2,…,c4n}tレ が、この順に配列される。標準音響パラメータの単位は
音節のみに限らず、音韻、音韻連鎖、単語、文節等を使
用することもできる。
【0042】次に、該ラティス上の音響パラメータの付
加された単語の行方向の組み合わせにより、以下のよう
に、すべての単語系列を求める。
【0043】 1.これ を ここ に ふくしゃし たい 2.このずけい を ここ に ふくしゃし たい 3.こちら を ここ に ふくしゃし たい 4.これ を こちら に ふくしゃし たい : 36.こちら を こっち に こぴいし たい これらの各々について、特徴抽出プログラム1301よ
り送出された入力音声のLPCケプストラム係数の時系
列{C1、C2、…、Cn}Tと照合し、両系列間の距離d
を算出し、前記ラティス上の全ての組合せから生成され
る単語系列の中の距離dの最小値を求める。この最小値
を、主記憶装置2上のバッファメモリ領域M0を要素と
する配列として使用するバッファメモリ領域M2[M
0]に書き込む(s7)。LPCケプストラム係数間の
距離dとしては、次式で示すようなLPCケプストラム
係数のユークリッド距離を用いる。時系列間の距離D
は、前記距離dを用いて求める。そのためには、例え
ば、小池他「音声情報工学」((株)NTT技術移転発
行、昭和62−8)に記載されているような動的計画法
等の手法によって非線形に両系列を伸縮照合しながら距
離を算出する。
【0044】
【数1】
【0045】ここで、nは分析次数であり、正の整数の
範囲内で任意に設定することができる。例えば、前記3
6単語系列のうち、“これ を こちら に ふくしゃ
したい”の距離D“1234”が最小であれば、主記憶
装置2上のバッファメモリ領域M0の値“1”を要素と
する配列バッファメモリ領域M2[1]に“1234”
を格納する。
【0046】文法中の全文について、前記手続きにより
算出された配列バッファメモリ領域M2[1]からM2
[M0]に格納されている入力音声の特徴ベクトルの時
系列との距離の最小値のうち、値が最小であるものを検
出し、該要素番号をiとしたとき、M1[i]を認識候
補スロット列とする(s8)。前記の例では、図11に
示すような候補系列が得られたとすると、6番目の系列 800−807−801−806−804−808 と、入力音声の特徴ベクトルの時系列との距離値M2
[6]=“345”が最小であり、該系列M1[6]が
認識候補スロット列となる。以上の正規文法を用いた音
声言語解析は、一例であり、一般によく知られている形
態素解析等の手法を用いて行うこともできる。
【0047】次に、オブジェクト図形抽出プログラム1
501が起動される。認識候補スロット列M1[i]の
うち、スロット800はオブジェクト代名詞であり、ス
ロット801は位置代名詞である。該両スロットには、
時間的順序に従って、前記ポインティング座標テーブル
203(図5)に格納されているポインティング座標が
座標番号200の順に対応する(s9)。まず、前記認
識候補スロット列の例M1[6]においては、スロット
800が時間的に最初に存在するものであり、ポインテ
ィング座標テーブル203に格納されている第1ポイン
ティング座標すなわちA点の座標(350,428)が
対応する。次に、スロット801に、ポインティング座
標テーブル203に格納されている第2ポインティング
座標すなわちB点の座標(676,154)が対応す
る。このとき、スロット801に後続してスロット80
6が存在すれば、該第2ポインティングx座標及びy座
標を、それぞれ主記憶装置2上のバッファメモリ領域P
1、P2に格納する(s10、s11)。したがって、
前記の例では、P1に“676”、P2に“154”が
各々格納される。
【0048】続いて、該オブジェクト代名詞スロットす
なわちA点が対応するオブジェクト図形を抽出する。前
述のように、本実施例では、ディスプレイ上に2種類の
図形C及びDが円描画テーブル及び長方形描画テーブル
に基づいて各々描かれている。そこで、図2で示したA
点の座標(350,428)と図形C及びDとの距離を
各々求め(s12)、該距離値の最小である方の図形を
オブジェクト図形と判定し(s13)、本実施例では図
形Cすなわち円であれば値“1”を、図形Dすなわち長
方形であれば値“2”を主記憶装置2上の、図形番号変
数としてのバッファメモリ領域M3に格納する。ここ
で、点と図形間の距離とは点と図形の輪郭線との幾何学
的最短距離とする。
【0049】一般に、中心が(x0,y0)、半径aの円
Sの輪郭線と、中心以外の点T(x1,y1)との距離d
STは、次式で求められる。
【0050】
【数2】
【0051】ただし、このとき、
【0052】
【数3】
【0053】であれば、他の図形の距離と比較すること
なく、該円がユーザのポインティングしているオブジェ
クト図形であると判定する。
【0054】まず、図形Cと第1ポイント座標すなわち
A点の座標(350,428)との間の距離を求める。
図形Cは中心(290,410)、半径30の円であ
り、A点との距離dACは“33”となる。
【0055】次に、図形Dと第1ポイント座標すなわち
A点の座標(350,428)との間の距離を求める。
一般に、左上頂点の座標が(x0,y0)、縦長h、横長
wである長方形Uの輪郭線と点T(x1,y1)との距離
UTは、次式で求められる。
【0056】
【数4】
【0057】また、このとき、
【0058】
【数5】
【0059】であれば、該長方形がユーザのポインティ
ングしているオブジェクト図形であると判定する。
【0060】そこで、図形Dと第1ポイント座標すなわ
ちA点の座標(350,428)との間の距離を求め
る。図形Dは左上頂点の座標が(310,20)、縦長
50、横長90の長方形であり、A点との距離dAD
“358”となる。
【0061】よって、dUT<dADであり、円である図形
Cをオブジェクト図形と判定する。したがって、主記憶
装置2上のバッファメモリ領域M3には値“1”が格納
される。
【0062】次に、コマンド抽出プログラム1502が
起動される。該プログラムは、認識候補スロット列中に
存在する特定のスロット、主記憶装置2上のバッファメ
モリ領域M3、F1及びF2の値に応じて、図形描画テ
ーブル制御ルール602(図12で後述)を参照し、図
形描画テーブルを書換える。主記憶装置2上のバッファ
メモリ領域M3の値が“1”であれば、図形描画テーブ
ル制御ルール602にしたがって円描画テーブル104
を書換え(s14)、M3の値が“2”であれば、図形
描画テーブル制御ルール602にしたがって長方形描画
テーブル109を書換えることになる(s15)。
【0063】描画テーブル制御ルール602は、図12
に示すように、スロット番号600及び制御ルール60
1より構成される。まず、認識候補スロット列の全スロ
ットと図形描画テーブル制御ルール602中のスロット
番号600とを順次比較し、一致したスロット番号に対
応する制御ルール601を適用する。前記の認識候補ス
ロット列“800−807−801−806−804−
808”の例では、スロット800、807、…808
を順次図形描画テーブル制御ルール中のスロット番号6
00とを比較していき、804が一致をみる。該スロッ
ト番号804に対応する制御ルール601において、主
記憶装置2上のバッファメモリ領域M3の値は“1”で
あるので、円描画テーブル104の円番号がバッファメ
モリ領域F1の値すなわち“1”である行の中心のx座
標をP1の値“676”、y座標をP2の値“154”
に書換え、図13に示すような円描画テーブル104が
得られる。該円描画テーブル104により、図形編集プ
ログラム12は図14に示すような編集画面を再表示す
る。
【0064】以上、本発明の好適な実施例についてのみ
説明したが、種々の変更が可能である。例えば、上記実
施例では説明を簡単にするために表示図形を円および長
方形に限定して説明したが、他の図形を排除するもので
はない。
【0065】
【発明の効果】以上説明したように、本発明によれば、
ユーザがシステムに入力したポインティング情報により
音声認識結果の候補列を削減するので、音声認識の性能
向上や処理速度の高速化につながり、ユーザが使いやす
い対話システムを構成することができる。
【図面の簡単な説明】
【図1】本発明の一実施例の構成を示すブロック図であ
る。
【図2】図形編集画面の一例を示す図である。
【図3】円描画テーブル及び長方形描画テーブルのデー
タ構造を示す図である。
【図4】音響認識プログラムのモジュール構成を示す図
である。
【図5】ポインティング座標テーブルのデータ構造を示
す図である。
【図6】情報統合プログラムのモジュール構成を示す図
である。
【図7】単語辞書のデータ構造を示す図である。
【図8】文法ファイルに書き込まれる有限オートマトン
の一例を示す図である。
【図9】禁止パステーブルのデータ構造を示す図であ
る。
【図10】スロット列より生成されるラティスの一例を
示す図である。
【図11】候補系列と距離の一例を示す図である。
【図12】図形描画テーブル制御ルールを示す図であ
る。
【図13】書換えられた円描画テーブルを示す図であ
る。
【図14】再表示後の画面の一例を示す図である。
【図15】音響認識プログラム起動後の処理の流れを示
すPADである。
【図16】ポインティング座標読み込みプログラム起動
後の処理の流れを示すPADである。
【図17】情報統合プログラム起動後の処理の流れを示
すPADである。
【符号の説明】
1…情報処理装置、2…主記憶装置、3…パネル制御装
置、4…ディスプレイ、5…タッチパネル、6…表示制
御装置、7…A/D変換装置、8…マイク、9…磁気デ
ィスク、11…システムプログラム、12…図形編集プ
ログラム、13…音響認識プログラム、14…ポインテ
ィング座標読み込みプログラム、15…情報統合プログ
ラム、16…音響標準パタンデータ、17…文法ファイ
ル、18…単語辞書、104…円描画テーブル、109
…長方形描画テーブル、602…図形描画テーブル制御
ルール、203…ポインティング座標テーブル。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】表示装置の表示画面上のオブジェクトをポ
    インティングしながら、音声入力装置を介して前記オブ
    ジェクトに関する処理を音声により指示する複合形態情
    報入力方法であって、 前記音声による指示に伴うポインティングの位置および
    個数を求めるステップと、 前記音声による指示に対して音声認識処理により複数の
    指示内容候補を求める際に、前記ポインティングの個数
    に応じて前記指示内容候補の数を低減するステップと、 該低減された指示内容候補の中から認識指示内容を確定
    するステップと、 該認識指示内容および前記求められた位置に基づいて、
    当該認識指示内容を実行するステップと、 を備えたことを特徴とする複合形態情報入力方法。
  2. 【請求項2】前記実行するステップでは、前記指示内容
    が、複数のオブジェクトを指示する単語を含む場合、該
    複数の単語と前記ポインティングの位置とを、それぞれ
    入力された時間的順序で対応させることを特徴とする請
    求項1記載の複合形態情報入力方法。
  3. 【請求項3】前記確定するステップは、前記音声による
    指示に用いられる単語を予め定めた単語辞書を用いて入
    力音声と比較するステップを含むことを特徴とする請求
    項1記載の複合形態情報入力方法。
  4. 【請求項4】前記単語辞書では前記単語を類義語ごとに
    別個のスロットとして管理し、該スロットの可能な組合
    せを文法情報として予め用意し、該文法情報に基づいて
    前記指示内容候補を求めることを特徴とする請求項3記
    載の複合形態情報入力方法。
  5. 【請求項5】前記低減するステップにおいて、前記ポイ
    ンティングの個数ごとに、使用されえないスロットを予
    め定めておき、前記求められたポインティングの個数に
    基づいて当該使用されえないスロットを含むスロットの
    組合せを排除することにより、前記指示内容候補の数の
    低減を行うことを特徴とする請求項4記載の複合形態情
    報入力方法。
  6. 【請求項6】前記実行するステップは、前記表示画面に
    複数のオブジェクトが表示されている場合、前記ポイン
    ティングの位置と、各オブジェクトの輪郭線との幾何学
    的最短距離を求め、該幾何学的最短距離が最小であるオ
    ブジェクトが指示されたと判断するステップを含むこと
    を特徴とする請求項1記載の複合形態情報入力方法。
JP23983292A 1992-09-08 1992-09-08 複合形態情報入力方法 Pending JPH0689158A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23983292A JPH0689158A (ja) 1992-09-08 1992-09-08 複合形態情報入力方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23983292A JPH0689158A (ja) 1992-09-08 1992-09-08 複合形態情報入力方法

Publications (1)

Publication Number Publication Date
JPH0689158A true JPH0689158A (ja) 1994-03-29

Family

ID=17050523

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23983292A Pending JPH0689158A (ja) 1992-09-08 1992-09-08 複合形態情報入力方法

Country Status (1)

Country Link
JP (1) JPH0689158A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0863319A (ja) * 1994-08-24 1996-03-08 Hitachi Ltd 情報処理装置
EP0926588A2 (en) * 1997-12-24 1999-06-30 Sharp Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium containing a program for controlling information processing apparatus

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0863319A (ja) * 1994-08-24 1996-03-08 Hitachi Ltd 情報処理装置
EP0926588A2 (en) * 1997-12-24 1999-06-30 Sharp Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium containing a program for controlling information processing apparatus
EP0926588A3 (en) * 1997-12-24 2004-12-15 Sharp Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium containing a program for controlling information processing apparatus

Similar Documents

Publication Publication Date Title
US5600765A (en) Display system capable of accepting user commands by use of voice and gesture inputs
JP3267047B2 (ja) 音声による情報処理装置
JP5257330B2 (ja) 発言記録装置、発言記録方法、プログラム及び記録媒体
US9251791B2 (en) Multi-modal input on an electronic device
US6789231B1 (en) Method and system for providing alternatives for text derived from stochastic input sources
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
JP2001272995A (ja) 音声認識方法及び装置
TW201510774A (zh) 以語音辨識來選擇控制客體的裝置及方法
JPH08166866A (ja) 対話型インターフェースを具備した編集支援システム
JP2007018290A (ja) 手書き文字入力表示支援装置及び方法並びにプログラム
JPH0689158A (ja) 複合形態情報入力方法
CN109933788B (zh) 类型确定方法、装置、设备和介质
TWI554983B (zh) 電子裝置、學習方法及其電腦程式產品
JPH086940A (ja) 音声入力方式およびそれを用いた情報処理装置
JP3006497B2 (ja) 音声認識装置
JP3170103B2 (ja) 複合形態による対象物指示方法
JP2002259426A (ja) 類似文書検索装置、類似文書検索方法、類似文書検索プログラムを記録した記録媒体及び類似文書検索プログラム
JPH09274555A (ja) 情報入力・表示装置およびこれを利用した列車運転管理表作成システム
JPH09237098A (ja) 音声入力を用いた情報処理装置
JPH0677252B2 (ja) 和文データ入力処理装置
JP5204529B2 (ja) 翻訳プログラム、翻訳システム及び対訳データ生成方法
JPH07319909A (ja) 文書検索装置、文書検索方法、文字認識装置及び辞書作成方法
Suhm Lessons learned for visual and verbal Interfaces from multimodal error correction
JPH083795B2 (ja) 質問推定装置
JPH08110837A (ja) 情報処理装置