JPH0375860A

JPH0375860A - パーソナライズド端末

Info

Publication number: JPH0375860A
Application number: JP1211320A
Authority: JP
Inventors: Toru Umaji; 馬路　徹; Yoshiki Noguchi; 孝樹野口; Tetsuya Nakagawa; 哲也中川; Motonobu Tonomura; 元伸外村; Hajime Akimoto; 肇秋元; Toshiaki Masuhara; 増原　利明
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1989-08-18
Filing date: 1989-08-18
Publication date: 1991-03-29
Also published as: US5426745A; US5163111A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】【産業上の利用分野】本発明は、ワードプロセッサ、パーソナルコンピュータ
、ワークステーション、計算機等の端末に関し、特にユ
ーザ個別にユーザ特有の操作嗜好、ユーザの肉声・手書
き文字等の特徴を用いて個別対応化されたパーソナライ
ズド端末及び該パーソナライズド端末のデータ携行技術
に関する。［従来の技術］従来のマンマシンインタフェースとしては、（１）ｒ”
マツキントラシュ・マニュアル″米国アップル社」（２）ｒ”ニューラルネソ１−で音声認識、従来誤った
子音の７０％を判別”ＮＥレポート、日経エレクトロニ
クス、１９８８年１１月工４日」（３）ｒ”ニューラル
ネットをパターン処理、信号処理、知識処理に使う″′
日経エレク１〜〇二クス、１９８８年８月１０日」等に記載されているものがある。従来、最も進んだマンマシンインタフェースを持つ端末
は、」―記文献（１）に示すマツキントラシュであった
。そのマニュアルにも記載されているように、この端末
においては、キーのカナ・ロマ字設定、漢字コード入力
方法、カーソルの点滅速度、マウスの応答速度、ファイ
ルの表示モト、スピーカボリューム、印刷・通信ポート
の設定等、基本的な操作環境をユーザの嗜好に合わせる
ことか出来、またフロンピディスクを媒体として」二記
の操作パラメータを他のマツキントシュ端末に携行可能
である。一方、ニューラルネットを用いた音声認識、テキストデ
ータの朗読、文字認識等の技術が個別に開発されている
。」二記のようにニューラルネノ１〜を用いることによっ
て認識率を向」ニさせることか出来る。例えば、前記文
献（２）で報告されているように、従来誤って認識され
た子音のうち約７０％を正しく認識することが出来た。また、学習機能付きのニューラルネノ１−を用いること
により、認識やテキスｌ−合或（合成音声によるテキス
トデータ朗読）の特性を学習させることが出来る。例え
ば、前記文献（３）に記載されているＮＥＴｔａｌｋで
は、子供向けの発音練習の本から採取した土ＯＯＯ語程
度の文書とウエブスタ（ｌｌａｂｓｔｅｒ　）辞書から
採取した２００００語の単語及びこれらに対応した正し
い発音記号を用いることにより、テキスＩ−データの正
しい発音方法を学習している。それによれば、５０回の
学習で発音の正確さは９５％に達している。［発明が解決しようとする課題］前記（１）のマツキントラシュに見られるような従来技
術においては、データ入力はあくまでもキーボード又は
マウスを用いて行なう必要かあるなど、音声認識は勿論
のこと文字認識の機能もない。またユーザフレンドリで
あるとはいっても誤った命令（形式に適合していない命
令）入力に苅しては、命令を受は付けないか若しくは命
令が間違っているというメツセージを出すのみであって
柔軟な対応ができない、という問題がある。また、ニューラルネットを用いた音声認識やテキストデ
ータ朗読の技術等は、それぞれ個々に開発されており、
一つの端末で有機的に機能させることが出来ない。した
がって、唇の動き等の画像情報と音声とを組合せて認識
率を」二げることなどは全く考えられていない。また、
音声で入力し、テキス１−合戊音て命令を確認するとい
ったことも出来ない。さらに、ニューラルネットの重み係数を他の端末に携行
する簡便な手段を持たない、等多くの問題があった。本発明の目的は、ニューラルネットを用いた音声認識手
段、テキストデータ朗読手段、文字・画像認識手段、命
令認識手段等を端末に設け、これらを有機的に結合させ
て高機能で高性能のマンマシンインタフェースを提供す
ると共に、端末ユザ固有のニューラルネット重み係数及
び従来からの端末操作環境パラメータ、知識データベー
スを簡便に他の端末に携行可能にすることである。［課題を解決するための手段］上記の目的を達成するため、本発明においては、特許請
求の範囲に記載するように構成している。すなわち、本発明の第１請求項においては、（１）音声
認識手段、テキストデータ朗読手段（音声合成手段）、
文字画像認識手段、命令認識手段のうちの少なくとも二
組上にニューラルネットを用いると共に、それらに知識
ベースを設ける。この知識ベースとしては、例えは、音声認識プロツク内
には入力音波の波形と単語との対応を示す音声認識用辞
書、音声合成ブロック内には読み書き変換用のデータベ
ース、文字画像認識ブロック内には画像パターンと意味
との対応を示すデータベース、命令認識ブロックにはオ
ペランドテーブル等を設ける。（２）各ニューラルネットの重み係数、メモリ及び非線
型変換用のメモリルックアップテーブルの内容を、ホス
１〜プロセツサに接続されているメインバス又は周辺回
路が接続されているペリフェラルバスを介して読み出し
・書き込み可能に構威し、かつ、ニューラルネットの入
出力端子も同」ニデタバスに接続する。上記（１）、（２）のように構成することにより、各ニ
ューラルネットの重み係数及び知識ベスを保持したメモ
リをホスＩ−ＣＰ　ＵまたはペリフェラルＣＰＵからア
クセス可能にすることが出来る。」二記第１−請求項に記載の構成に関しては、例えば、
後記第１図で概略を説明し、各部の詳細については、第
２〜２３図で説明している。また、第２請求項は、音声認識手段、テキストデータ朗
読手段、及び文字・画像認識手段の入力として、光ディ
スクまたは磁気ディスクを記憶媒体として記憶されたサ
ンプルデータを与え、該サンプルデータと同一記憶媒体
または別の記憶媒体に記憶された認識または朗読結果の
期待値とを比較することにより、認識またはテキスト朗
読用のニューロプロセッサの重み係数を調整する手段を
備えたものである。上記の構成により、認識をより適確に行なうことが出来
る。この構成に関しては、例えば、後記第８図及び第４図等
で説明している。また、第３請求項は、ニューラルネノ１へを内蔵した音
声認識手段内に設けられた音声入力ブロックの入力とし
て、端未使用者の音声、通信回線を介して与えられる相
手方の音声、及び記憶媒体に記録された音声を任意に選
択して与える手段を備えたものである。」−記の構成により、端未使用者の音声情報のみならず
、外部音声情報や記憶音声情報をもこの端末で認識可能
になる。この構成に関しては、例えば、後記第３図等で説明して
いる。また、第４請求項は、ニューラルネソ１〜を内蔵した音
声認識手段内に設けられた音声入力ブロック内の単語認
識ブロックの入力として、文字・画像認識手段で認識さ
れた文字データを入力する手段を備えたものである。上記の構成により、画像として認識された文字列も単語
に編成することが出来る。この構成に関しては、例えば、後記第３図等で説明して
いる。また、第５請求項は、認識を行なう際に、音声情報と画
像情報とを組合せて認識を行なう手段を備えたものであ
る。」１記の手段は、例えば、使用者の音声情報と、使用者
の唇の画像情報とを組み合わせ、画情報から使用者が発
生した音声を認識するものであり、１この構成により、認識結果をより正確にすることが出来
る。この構成に関しては、例えば、後記第３図及び第８図等
で説明している。また、第６請求項は、各ニューロプロセッサの重み係数
、及び操作環境パラメータを含むメモリ」二の知識ベー
スを、携行可能なメモリカードにダウンロードする手段
とメモリカードからアップ口１〜する手段とを備えたも
のである。」１記の構成により、重み係数や操作環境パラメータを
、メモリカードに記憶して携行し、他の端末に移転する
ことが出来る。この構成に関しては、例えは、後記第７図等で説明して
いる。また、第７請求項は、各ニューロプロセッサの重み係数
及び知識ベースの読み出し・書き込みを禁止する手段を
備えたものである。」１記の構成により、必要な記憶情報を、不注意で消去
する畏れがなくなる。この構成に関しては、例えば、後記第７図等で］２説明している。また、第８請求項は、認識結果が正しいか否かを端未使
用者に確認させる手段を備えたものである。上記の構成により、認識結果を正確にし、かつ、それを
学習することによって、順次、使用者の個性に合った認
識を行なうことが可能となる。この構成に関しては、例えば、後記節玉８〜２工図等で
説明している。また、第９請求項は、ニューロプロセッサの重み係数及
び操作環境パラメータをメモリカー１〜との間で転送す
る手段を有し、また、音声インタフェースユニット、メ
モリカード、ペリフェラルＣＰＵ及びメモリの一部を取
外し可能に構成すると共に、それらを電池駆動で携帯可
能に構成したものである。上記の構成により、音声入力手段の一部を携帯し、任意
の場所で音声入力を行なうことが可能となる。この構成に関しては、例えば、後記第１２、１３図等で
説明している。［作　用］本発明の全体構成を示す第１請求項においては、上記（
１）の構成により、端末に音声認識、文字認識の機能を
与えることが出来る。また、誤った命令入力に対しても
、誤りを正したり、ユーザ固有の命令を学習したりする
柔軟な対応が出来る。また、上記（２）の構成により、各ニューロプロセッサ
間のデータ転送、ホス１〜プロセツサとの間のデータ転
送が可能となり、これによって各ニューロプロセッサ及
びホス１−プロセッサを有機的に結合させた効率的な認
識、学習、ニューラルネットと知識ベースを組合せた高
レベルの命令認識等、高機能・高性能のマンマシンイン
タフェースを提伏することが出来る。［実施例］第１図は、本発明の一実施例のブロック図である。節玉図において、パーソナライズド端末の主な処理はホ
ス１〜ＣＰＵ９で行ない、そこに使用するデータ及びプ
ログラムは主記憶１０に保持されている。上記要素はメ
インバス１２に接続されており、メインバス１２はテユ
アルポートメモリ１１を介してペリフェラルバス］３に
接続されている。上記のデュアルポー１〜メモリ１１はデータのバッファ
として使用される。ペリフェラルバス土３には、周辺回路を制御するペリフ
ェラルＣＰＵ１４．ハードディスクコン１−〇−ラ１５
が接続されている。更に、音声、画像データ等を大量に
記憶できるＣＤ（コンパクトディスク）１８を使用する
ため、ＣＤコン１〜ロラ１７及びＣＤバス１９を設ける
こともある。なお、ここでのＣＤは書き込み可能なもの
である。以上の構成は従来の端末にも見られたが、本発明では、
優れたマンマシンインタフェースを提供する目的で、以
下に示すインタフェースユニット及び同インタフェース
ユニットの操作・認識パラメータを記憶する手段を追加
している。すなわち、音声インタフェースユニツ１〜２ｏは、端未
使用者からの肉声、または通信回線、ＣＤに５記録された音声による入力を受は付けるところであり、
後述の音韻特徴抽出用ニューラルネット３及び音韻選択
回路５によって音声波形を音韻列に変換した後、音声認
識用辞書４（音声波形を変換した音韻列と単語との対応
を示すデータベース）を参照してこれを意味のあるテキ
ス）へデータ（単語列）に変換する。この変換結果はペ
リフェラルハス］−３、デュアルポー１−メモリ１　］
、、メインパス１２を介して命令認識用ニューラルネッ
ト７７及びホスｌ−ＣＰ　Ｕ等に転送され、より高位の
判断に供される。また本実施例では、テキスト音声合成用ニューラルネッ
ト２を用いて、ペリフェラルバス土３を介して入力され
る連続したテキストデ−タを音声に変換する。つまりテ
キス１−テータを朗読する。なお、」−記の変換のため、読み書き変換用のデータベ
ース（図示省略）を備えている。画像インタフェースユニット２１では、画像入力をＷＪ
像認識前処理プロセッサ７で雑音除去、輪郭抽出等の処
理した後、画像認識ニューラルネノ６１−６で文字或いは図形として認識させる。なお、上記
の認識のため、画像バタンと意味との対応を示すデータ
ベース（図示省略）を備えている。文字として認識された結果は、ペリフェラルバス土３を
介して音声インタフェースユニツｈ　２０に転送され、
同二二ノ１−の音声認識用辞書４を参照して意味のある
テキストデータ（単語列）に変換される。この変換結果
はペリフェラルバスエ３を介してホス１〜ＣＰＵ等に転
送され、より高位の判断に供される。通信ユニット２２は、通信回線を介して他の端末或いは
計算機とデータの通信を行なうためのインタフェースユ
ニットである。以上のマンマシンインタフェースにかかわるこユーラル
ネッ１〜の重み係数及び音韻選択回路５や画像認識前処
理プロセッサ７等の信号処理パラメータは、ペリフェラ
ルバス土３を介してホストＣＰＵ及びメモリカート２３
に接続されており、これによってホストＣＰＵ９．ペリ
フェラルＣＰＵ１４の計算処理結果またはメモリカード
２３に記憶されているデータによってその内容を更新し
たり、またはメモリカードにダウンロードしたりするこ
とが出来る。以下、」１記実施例の各構成要素を詳細に説明する。第２図は、音声インタフェースユニット２０の構成概要
を示すブロック図である。第２図において、音声入力ブロック２４は、マイクロホ
ン２６から入力されたアナログ音声入力、またはペリフ
ェラルハス１３を介して通信ユニッＩ・２２から送られ
てくる音声通信信号またはＣＤ１８に記録された音声信
号を認識する機能を有する。本ブロックにおいて単語の段階まで認識された結果のテ
キストデータは、ペリフェラルバス１３を介してホスト
ＣＰＵ等に転送され、より高位の認識に供される。また音声入力ブロック２４では、アナログ音声入力をそ
のままテイジタル化してＣＤバス１９に送出することも
可能である。また、後述の画像認識ブロック５４て認識された文字デ
ータも上記音声入力ブロック２４に入力され、同ブロッ
ク内の単語辞書４の内容に基ついて単語として認識され
る。音声出力ブロック２５は、出力すべきテキストデータ（
単語列）をペリフェラルバス」３またはＣＤバス１９か
ら受は取り、テキス１へ音声合成を行なって音声出力を
送出する。そしてアナログ信号に変換された音声出力で
スピーカ２７を駆動して端未使用者に音声で応答する。またディジタル音声出力は、ＣＤ１８や通信ユニット２
２へ転送され、そのまま記録されたり、通信回線を介し
て先方に伝えられたりする。次に、第３図は、本実施例の音声入力ブロック２４の構
成を示すブロック図である。第３図において、音声を認識する部分は、音韻認識ブロ
ック２８、単語認識ブロック２９及びテキストバンファ
３０で構成されている。この構成は、基本的には前記（
２）の文献「″ニューラルネットで音声認識、従来誤っ
た子音の７０％を判９＞３１４”ＮＥレポート、日経エレクトロニクス、１９
８８年１１月玉４日」と類（Ｉｆｆしている。」１記の音韻認識ブロック２８においては、ディジタル
音声情報を入力音声前処理回路３４によって処理し、処
理の容易な母音に関してはその種類を直接分析し、分析
の困難な子音に関してはそのスペクトル（周波数成分）
及びパワーを導出する。続いて、これらのデータから音韻候補抽出用ＤＰ（ダイ
ナミックパターン）マツチング回路３６によって音韻候
補の上位５個までが選択される。また同データを音韻特
徴抽出用ニューラルネット３に通すことにより、多値の
音韻特徴データを得る。ここで用いるニューラルネットの構造は固定であり、音
声帯域の比較的低速の処理であるため、本出願人が既に
出願している特願昭６３−３２３３０２号に示したニュ
ーロツプロセッサのうち、複数ニューロンを処理する固
定データバスのものを用いるか、又はＤＳＰ　（テイシ
タル信号処理プロセッサ）、ＲＩＳＣプロセッサを含む
汎用プロセッサを用いることが出来る。０音韻選択回路５は、音韻候補抽出用Ｄ　１？マツチング
回路３６から送られてくる音韻候補の中から、ニューラ
ルネット３の出力である多値の音韻特徴データに基づい
て正しい音韻を選択する一種のファジー回路である。候
補選択の基準はメンバシップ関数として同回路内のメモ
リに設定する。さらに、この実施例においては、画像インタフェースユ
ニット２１で認識された唇の動き認識結果が音韻選択回
路５の入力に加えられ、それによって更に正確な音声認
識も可能としている。このとき重要となる音声認識と画
像認識の同期関係はホストＣＰＵ９またはペリフェラル
ＣＰＵ１４によって管理される。上記の音韻選択回路５の出力音韻列（文字列）は単語認
識ブロック２９に渡され、ここの単語辞書４に基づいて
単語列として認識される。この単語列はテキス１−バッ
ファ３０を介してペリフェラルバス１３に出力される。単語認識ブロック２９の入力としては、画像インタフェ
ースユニット２工で処理された画像認識結果も存在する
。これにより、画像として認識された文字列も単語に編
成され得る。また、音韻識別ブロック２８の入力は、Ａ／Ｄ変換器３
１を介して入力する端未使用者の生の音声入力の他に、
ＣＤ１８に記録されたティジタル省声データ或いは通信
ユニツ１へ２２で受信した他者の声もある。そして後者
を用いることによって本端末を遠隔地から音声で操作す
ることが可能となる。また、上記の入力の切り換えはマルチプレクサ３２によ
って行なわれる。また、本実施例の音声入力ブロック２４では、さらに入
力音声データを直接ＣＤ　１．８に記録することも出来
る。ここで重要な点は、音声認識の特性を決めるニューラル
ネノ１−の重み係数、メンバシップ関数、辞書データか
ペリフェラルハスエ３を介してホス１−　ＣＰ　Ｕ　９
、ペリフェラルＣＰＵ王４或いはメモリカード２３と接
続されていることである。これにより、認識の個人デー
タをメモリカーｌ−から設定することか出来たり、逆に
同データをメモリカドにダウンロートすることが出来る
。また、ホスｌ−ＣＰ　Ｕを利用することにより、ハック
プロッパゲーション等のアルゴリズムに従ってニューラ
ルネットを学習させることか出来る。第８図は上記の音声認識ブロックの学習を実行する場合
のデータの流れを示す図である。第８図においては、音韻特徴抽出用ニューラルネッＩ〜
３の学習を行なう場合を示す。学習の仕方には、ＣＤ１８等に記憶された音声サンプル
及びニューロ出力期待値を用いて自動的に学習を行なう
方法と、端未使用者が生の音声を入力し、対話的に学習
を実行する手動学習方法とがある。ます、自動的な学習では、ＣＤ１８に記憶されている端
未使用者等の音声サンプルがマルチプレクサ３２を介し
て前処理回路３４に入力され、その処理結果はニューラ
ルネット３に入力される。ニューラルネノ１〜３の認識結果は、ペリフェラルバス
土３、デュアルポー１〜メモリ」−工及びメイ３ンハスエ２を介してホス１〜ＣＰＴＪ　９に転送される
。これに合わせて、同しくＣＤ１８から音声サンプルに対
応するニューロ出力の期待値がホス１〜ＣＰＵに入力さ
れる。ホス１〜ＣＰＵはこれらの出力を比較し、ハソク
プロバケーション学習アルゴリズム等に従ってニューラ
ルネット３の重み係数を更新する。なお、」１記のＣＤ　１８に記録された音声は、特に区
別の困難な子音のデータであっても良いし、特定のサン
プル文書を端未使用者が朗読したものでも良い。特定のサンプル文書を端未使用者が朗読した場合におけ
るＣＤ↓８上の音声サンプル及びニュロ出力の期待値は
、第１４図に示したフォーマントで記録される。すなわ
ち、ステレオチャンネルの一方のＲチャンネルにはサン
プル番号識別コトの後に端未使用者の音声サンプルが記
録され、最後にサンプルデータ終了コードが自動的に挿
入される。これに対して、Ｌチャンネルには音声サンプ
ル入力時のメソセージに続いて、サンプル文４書（すなわちサンプル音声に対応したニューラルネット
の出力期待値）が当初から記録されている。第１４図では、ハンチングを施した音韻が期待されるも
のである。なお、第１４図においては、判り易くするため各音韻ご
とに区分しているが、実際の期待値のコドは多値で表現
されており、あいまいな音韻に対しては複数の音韻に値
が割当てられることもある。また、記録された音声データとニューラルネット期待値
の各音韻の変化タイミングとは厳密に同期されていなく
とも良く、データの並びが合っていさえすれば良い。こ
れは音声入力ブロック２４の入力音声前処理回路３４が
各音韻間の切目を検出し、これに同期してホストＣＰＵ
９がＣＤ↓８を制御すると共に、そこから読み出される
ニューラルネット期待値データを適切に遅延させて同期
を取るからである。なお、学習時は、ニュー−ラルネット３からの出力とＣ
Ｄ１８からのニューラルネジ１〜期待値との誤差が規定
値内に収まるまで繰返し学習を行なう。学習用音声サンプル入力時は、最初に下記のような入力
を要求するメツセージを発声する。メツセージは前述の
ようにＣＤ　１．８のＬチャンネルに記録されている。「″ピッ″と鳴ったらＸ番の文書の朗読を開始してくだ
さい。」または「パピノ″と鳴ったら、以下の文章を復唱して下さい。 ″子音の特徴をＨＨＨＩＩ　Ｈ”　Ｊ前者の場合はＣＲ
Ｔ６１Ｊ二に朗読すべき文章が表示される。つまり、Ｃ
Ｄ　ｉ　８にはサンプル文章のコードデータも記録され
ている。手動学習の場合は、マイタロホン２６を介して端未使用
者の肉声を入力し、その認識結果をやはリホス１〜ＣＰ
Ｕ９に入力する。これと同時に、キボード７２またはマ
ウスを用いて期待される認識結果を入力し、ホスｌ−Ｃ
Ｐ　Ｕ　９にそのデータを転送する。ホストＣＰＵ９で
は、先程の自動処理と同様の学習処理を行なう。入力すべきデータは、文章または単語の形でＣＲＴ６］
−上に表示されたり、或いはスピーカから発声される。学習の手続きはＣＤ１８或いはハードディスク１６に記
録されている。なお、学習処理を行うプロセッサとしては、」１記ホス
トＣＰＵ９の他にペリフェラルＣＰＵ１４の使用も可能
である。次に、第４図は、前記第２図に示した音声インタフェー
ス二二ノ１−２０のうちの音声出力ブロック２５を示す
ブロック図である。ここで使用されるニューラルネットを用いた音声合成方
式としては、例えば、前記の文献「″ニューラルボッ１
〜をパターン処理、信号処理、知識処理に使う”Ｉ］経
エレク１〜ロニクス、１９８８年８月、＋−０日」に記
載の方式を適用することが出来る。第４図において、ＣＤバス１９あるいはペリフェラルパ
ス１３からテキス１〜バッファ４２に出カフす尺きテキス１ヘテ゛−タコートが入力される。バッフ
ァリングされたテキストコードはテキスト音声合成用ニ
ューラルネット２に入力され、ここでしかるへき発音記
号列か生成される。なお、ここに用いるニューラルネットの構造は固定であ
り、音声帯域の比較的低速の処理であるため、本出願人
が既に出願している特願昭６３−３２３３０２号に示し
たニューロップロセノサのうち、複数ニューロンを処理
する固定データバスのものを用いるか、又はＤＳＰ　（
ディジタル信号処理プロセッサ）、ＲＩＳＣプロセッサ
を含む汎用プロセッサを用いることが出来る。上記ニューラルネット２て生成された発音記号列は、音
素合成回路３８によってディジタル音声に変換される。このほかに、ＣＤ１８から再生されたディジタル音、ま
たはディジタルサウンドシンセサイザ３９によって生成
されたディジタル音も発生させることが出来る。上記のテイジタル信号はディジタルミキサ３５によって
適切に混合され、Ｄ／Ａ変換器３７によ８ってアナログ信号に変換されてスピーカ２７等を凍動す
る。ここでも先の音声入力ブロック２４と同様に、テキ
スト朗読の特性を決めるテキス１〜音声合戊用ニューラ
ルネットの重み係数及び発生の特性を決める音素合成回
路３８の音素データはペリフェラルバス］３を介してア
クセス可能である。上記ニューラルネソ１〜の学習には、やはり自動学習及
び対話的な手動学習がある。次に、自動学習の場合のデータの流れを第１５図を用い
て説明する。この学習には、音声穴カニニット学習時に用いたものと
同じデータ（前記第１４図に記載のデータ）を用いる。たたし、ここでニューラルネット２に入力される信号は
、文章のテキストコート（ＡＳＣＩＩコード等）である
。また、ニューラルネット出力の期待値としては、上記
文章の音韻データまたは発音記号である。ホストＣＰＵ９は、ニューラルネットの出力と上記期待
値との誤差パワーがある規定値以−ドとなるようにニュ
ーラルネットの重み係数を調整する。ここでは、例えば最急降下法等のアルゴリスムか用いら
れる。次に、第５図は、画像インタフェースユニノＩ〜２１の
概要構造を示すブロック図である。第５図において、ます、画像認識の部分に関して説明す
る。画像はビテオカメラ４３またはイメージスキャナ４４で
取り込まれる。いずれを用いるかの選択はマルチプレク
サ４７及び４８を用いて行なう。前者は同期信号の選択、後者は画像信号の選択を行なう
。選択されたアナログ入力画像信号はＡ／Ｄ変換器４５
によってディジタル化され、マルチプレクサ４９を介し
てビデオメモリ５２の入出カポ−１〜工１０１に書き込
まれる。また、ヒデオカメラ４３またはイメージスキャナ４４の
同期信号に同期したビデオメモリ５２の書き込み７１−
レスは、書き込み７１ヘレス発生回路４６によって発生
され、マルチプレクサ５１を介してビデオメモリ５２の
アドレスポー１−　Ａ　１に与えられる。画像認識ブロック５４は、読みたし７１ヘレスを発生し
、これをマルチプレクサ５０を介してビデオメモリ５２
のアドレスポートＡ２に与える。同時に、ビデオメモリ
５２の別ポー１−　Ｉ　１０２から入力画像信号を読み
取る。この認識結果はペリフェラルバス１３に出力する
。また、画像認識ブロック５４内のニューラルネット重
み係数の書き換えもペリフェラルパス１３を介して行な
う。この他に、画像信号帯域圧縮回路５６は、ビデオメモリ
５２の入出力ポートｌ１０２から入力画像信号を取り込
み、その圧縮された結果をＣＤハス１９またはペリフェ
ラルハス１３に出力する。ＣＤパス上９に出力された画像信号はＣＤ↓８に配録さ
れ、ペリフェラルハスエ３に出力された信号は通信ユニ
ノ１−２２を介して通信回線に出力される。また、ビデオメモリ５２から画像信号４１！：域圧縮回
路５６にデータを読み込んでいる間は、マルチプレクサ
５２を介してアドレス入カポ−１−Ａ　２にアドレスを
与える。１また、画像表示の部分に関しては、従来のパソナルコン
ピュータやワークステーションと変わるところはあまり
ない。ます、−船釣なグラフィックスはグラフィックプロセッ
サ５５て生威し、その結果（描画データ）をマルチプレ
クサ４９を介してビデオメモリ５２に一旦記憶する。こ
れと同時に、描画アドレスをマルチプレクサ５１を介し
てアドレス入力ポートＡ、　１に与える。描画データはＣＲＴＣＣコン−ローラ５３で発生ずるア
ドレスで読み出し、マルチプレクサ５９及びＤ／Ａ変換
器６ｏを通した後、ＣＲＴ６］に表示する。このときＣ
ＲＴコントローラ５３は、マルチプレクサ５０を介して
ビデオメモリ５２のア１ヘレス入カポ−１−Ａ２に読み
出し７１ヘレスを与えると共に、ＣＲＴ６１にこれと同
期した走査信号を与える。表示データとしては、上記の他に、通信回線を介して電
送される帯域圧縮された画像データ及びＣＤ１８に記録
された帯域圧縮された画像データ２かある。これらを表示する場合には、画像信号帯域伸長
回路５７が、ペリフェラルハス１３またはＣＤパス上９
を介して帯域圧縮された画像データを受は取ってそれを
帯域伸長し、その部域伸長された画像データをマルチプ
レクサ５９及びＤ／Ａ変換器６０を介してＣＲＴ６］−
に表示する。次に、第６図は、画像インタフェースユニソ１〜２上中
の画像認識ブロック５４を示すブロック図である。この画像認識ブロック５４は、画像認識ニュラルネッ１
−６及び画像認識前処理プロセッサ７から構成されてい
る。ビデオメモリ５２からの出力は、画像認識前処理プロセ
ッサ７において、ディジタルフィルタによる雑音除去、
色分析、輪郭抽出等の前処理を受ける。また、回転して
いる文字の認識に際しては、重心抽出、極座標変換及び
フーリエ変換等の連続処理を実行する。ここに用いられ
るのは画像処理用の汎用ＤＳＰ等である。ニューラルネン１−６は、前処理後側像データに対して
、ニューラルネット内の最も近いパターンとのマｙチン
クを取り、その認識結果をペリフェラルハス１３に出力
する。第９図は、文字認識を行なう場合の処理内容を示す一実
施例図である。ビデオカメラ４３またはイメージスキャナ４４から入力
された画像は、第９図（ａ）に示したように雑音を含み
、その傾き、大きさが揃っていない。そのため、まず、
２値化及び雑音除去を行なって第９図（ｂ）に示すよう
な画像を得る。上記の２値化に当たっては、成る画像領域の平均濃淡値
を算出し、これを基準にして０．１の判定を行なう。こ
れに続くディジタル雑音除去フィルタリングの内容は、
成る画像領域内の多数決を取り、その結果を該領域の中
心画素の値とする処理等である。次に、各文字ごとに積分を行なうことにより、各文字の
重心計算を行なう。この際、同時に文字の分割も行なう
。例えば、第９図（ｃ）のように、これまでの文字の重
心間のピッチＰｉ−１，Ｐ：１２０９．をみて次の文字
の重心位置までのピッチＰ１を予測するとか、重心と同
時に分散をも観測していき、規定の分散値以下となるよ
うに領域を分割する等の方法によって実現することが出
来る。この後、ラプラシアン等の空間微分フィルタリンク゛に
よって輪郭を抽出し、更に細線化処理によって文字を線
画素化するにの細線化処理は、例えば３Ｘ３画素の空間
領域の画素の論理積を取り、その結果を該空間領域の中
心画素の値とする処理を繰返し実行することによって実
現することが出来る。上記の繰返し回数は、細線化の結
果が土木の直線になるまで行なわれる。その判定は３×
３画素の空間領域で考えられる線画の候補のいずれかに
一致することを見て行なわれる。次に、上記の文字線画を重心を中心にして極座標で表す
。すなわち、重心からのＥＦｉＨｒ及びＸ軸となす角Ｏ
を用いて表す。ところで、文字ＡやＢのように、文字の内側にも第９図
の６３に示したようむ閉領域を形成する５曲線を持っている文字もある。これも文字を認識する」
二で重要な特徴である。この場合、この内側の輪郭の部
分で極座標を求めると第９図（ｅ）の６４．６５の曲線
で示したように、１つの角度Ｏに対して２個の極座標が
求まることになる。ここで曲線６４は、第９図（ｄ）で
示した閉領域を形成する曲線６３に対応する。この後、角度０の実空間から周波数ｆの空間にフーリエ
変換を行なう。これにより、文字の回転や大きさの違い
を取り除いた文字データを作成することが出来る。ここ
で、曲線６４に対するフリエ変換結果は曲線７７であり
、曲線６５に対するフーリエ変換結果は曲線７２である
。以上が画像認識のための前処理である。第１０図は、上記の前処理データに基すいて文字認識を
行なうニューラルネットの一実施例を示すブロック図で
ある。ここでは、入力データの各周波数成分が、該当する入力
端子ｆｌ、ｆ２．ｆ３．．．．に与えられ、これらが第
上層のニューラルネットの各ニュ３６０ンに転送される。そして前記の文字Ａのように閉領域
を持つ文字パターンに対しては、複数の周波数スベク１
−ルが算出されるので、入力端子ｆｌ、ｆ２．ｆ３．．
．．のセットを複数持つことになる。また、第１層、第２Ｎニユーロンにわたって、各文字の
周波数パターンを、ニューラルネツ１〜の重み係数とし
て持っている。各ニューロンは、重み係数として持って
いる文字周波数パターンと入力文字周波数パターンに従
って以下のような出力μを送出する。ここで上記の非線形関数ｆ（ｘ）は、メモリに記憶され
たシグモイド関数ルックアップテーブル７４によって実
現され、その関数の内容は以下のような単調増加関数で
ある。ｆ（Ｘ）＝工／〔工＋ｅＸｐ（−Ｘ）〕　・　（２）ま
た、第２Ｍニューラルネットからは最終的な認識結果が
出力され、これしこ続くエンコーダ７３からは文字コー
１〜（アスキコード等）として文字画像認識結果をペリ
フェラルハス１３に伝える。第１−０図は、上記のようなニューラルネットを直接的
に実現したものである。ここでは各ニュロン積和回路７
６．７５で積和演算が行なわれ、シク゛モイド関数ルッ
クアップチーフル７４て非線形関数変換か行なわれる。また、各層ニューロンに対しては、ペリフェラルハス１
３を介してその重み係数の読み書きを行なうことの出来
る手段が設けである。次に、第１］。図は、本出願人が既に出願（特願昭６３
−３２３３０２号）しているニューラルネット用高速信
号処理プロセッサを用いて上記のニューラルネットを構
成した実施例のフロック図である。ここでは入力端子７７から周波数成分直列デタＦｌ、Ｆ
２．Ｆ３・・を順次入力する。第１−層ニューラルネッ
１への各ニューロンはシスＩ〜リック・プロセッサ・ニ
レメン１−で実現されており、上記直列データか第１Ｗ
Ｊの各ニレメンＩ−に順次供給される。また、積和の完
了した順から直列データの形で順次出力される。このよ
うな直列テークのため、第１ＲｉＪの積和結果は、たた
」個のシタモイ）−関数ルックアップテーブル７４た（
プで非線形関数変換が行なわれる。また、第１Ｎニユー
ラルネツ１〜と第１Ｎニユーラルネツ１〜の結線はただ
土木で済む。また、第２層ニューラルネットは、第］層ニュラルネッ
１−からの直列テークを受は取り、その直列出力テーク
は、やはりたた］−個のシグモイ１〜関数ルックアンプ
テーブル７４たしづて非線形関数変換か行なわれ、その
結果かエンコータ８０を介してペリフェラルバス」−３
に転送される。処理速度は、シストリックプロセッサニレメン１〜単位
でパイプライン処理を行なっているため、工入力データ
／毎クロックサイクルと速い。例えばタロツクサイクル
か１００　ｎ　ｓの場合、１００ｎｓことに１データを
入力し、処理することが出来る。次に、第１６図は、画像インタフェースユニノ９１〜２」−の学習法の処理の流れを示す図である。ます、自動学習の場合には、端太使用者が所定の様式に
所定の文字を記入し、これをイメージスキャナ４４等で
読め込んでＣＤ１８に記録しておく。」１記の所定様式
および文字に苅応するニュラルネノトの出力期待値は予
め判っている。学習時にはＣＤ　１．８に記憶されている」１記すンプ
ルデータを画像信号帯域伸長回路５７及びヒデオメモリ
５２を介して画像認識ブロック５４に入力する。これと
同時に上記サンモル画像テータに対応するニューラルネ
ジ１〜出力期待値をホス１−ＣＰＵ９に転送する。画像
認識フロック５４の認識結果もやはりホストＣＰＵ９に
転送され、上記の期待値と比較して、再急降下法等の適
応化アルゴリズムを用いて画像認識ブロック５４内のニ
ュラルネットの重み係数を更新する。なお、この学習方
法はパックプロパゲーション法と呼ばれている。次に、対話型の学習の場合には、イメージスキャナ４４
で手書き文字等を入力した後、それをＣ０ＲＴ　６１に表示しながら、それらがどの文字に当たる
かをキーボード等によって入力する。その際、既に設定
しである重み係数を用いて認識した結果を重ねることも
ある。このうちで修正すべきものたけをマウスでセレク
トした後、キーボー１〜で修正する。この方が作業スピ
ードか高い。第１７図は、」−記の初期認識状態におけるＣＲＴモニ
タ上の画面の一例を示す図である。第１７図に示すように、」二段にはイメージスキャナ４
４で読み取った文字がそのまま表示される。また下段には、既にニューラルネッｈに設定しである係
数を用いて認識した結果が表示されている。第１７図の例では、端太使用者はΔ、Ｂ、Ｃ。Ｄ、Ｅ”の手書き文字を入力している。しかし、手書き
文字ＩＩ　ＤＩ＋が特に文字″○″とまきられしく、初
期の係数設定では、これを○″と誤認識してしまった場
合を示している。端太使用者か自分の手書き文字をＩＩ　ＤＩ＋と認識し
て欲しい場合は、マウスやキーポー１〜等を用いて下段
の認識結果をＤ　”に修正する。すると端末は、このよ
うな手書き文字をｒｒ　Ｄ　ｕと認識するようにパック
プロパゲーション等によって学習を行なう。この場合、
キーボードからの入力文字が出力の期待値となり、それ
がホスｌ−ＣＰ　Ｕ　９に渡されて誤差計算を行なった
後、この誤差を少なくするへく、最急降下法等のアルコ
リズムに従って画像認識ニューラルネノ１−の重み係数
を修正していく。次に、命令認識動作に関して説明する。マンキントシュのようなパーソナルコンピュタでは、キ
ーボー１〜を用いて命令を入力するか、或いは画面上の
アイコン／メニューをマウスのようなポインティング装
置を使用して選択することによって命令を入力した。こ
のような従来の命令指示方法では、命令（コマンド）認
識に曖昧性がない。しかし、このため、融通性の焦い応
答を行なう可能性がある。たとえば、キーボード入力の
場合には、コマンド入力が誤り（形式的に適合していな
い命令）であると、もう−度正しい入力をするように拒
否情報（通常は警告音声を発する）を出す。そして端未
使用者か正しいコマンＩ−を入力するまで全く応答しな
い。これに対して、本発明の端末においては、命令の判定に
もニューラルネノ１〜を用いてフレキシブルな命令判定
を行なうことか出来る。これによって誤ったコマンド入
力に対しても、その内容を確認したり、またはそれを新
たに学習して今後使用出来るようにすることが出来る。以下、第１８図で命令認識過程について説明し、それを
実現する手段を第１９図以下で説明する。ます、端末のＣＲＴ６　Ｕに第１８図（ａ）に示したよ
うなマルチウィンドウ画面が表示されているものとする
。この中では、グラフを描画した画面が一番−にに来て
いる。この状態でこのグラフをｇ　ｒ　ａ　ｐ　ｈ　１
　”としてＣＤ（コンバク１〜デイスク）１８に記録す
る操作を行なう場合を例として説明する。上孔の記録操作を音声またはキーボードによって指示す
るか、以下の説明ではこの区別はしない。これは、以下に説明する命令認識ブロックが、音４３声またはキーボー１−いずれの入力に対しても同様の命
令認識処理を行なうからである。ます、最も完全な命令形態を第」−８図（ｂ）に示す。ここでは全表示されているｒｒ　ｇ　ｙ＋　ａｐ　ｌ”
”’を“ｇｒ・ａｐｈｌ”というファイル名で、ＣＤ中
の階層的なフォルダのうち”ｇ　Ｐａｐ　ｈｓｒ＋とい
うフォルダに記録することを一度に指示している。フォルダとは、−塊のファイル群をまとめておくための
グループ名のようなものである。ところで、このようなコマンドを一気に入力することは
困難である。特に音声入力では困難である。そこで、本
実施例ては、第１８図（ｃ）に示すような対話処理によ
って以下のような柔軟な対応が出来るようになっている
。ます、単に“記録せよ″というコマンｌ−’　Ｉｆ　ｓ
ａｖ　ｅ　”を入力したとする。ただしスペルを誤って
、もしくは下手な英語の発音でＩＩ　５ａｂｅＩ＋と入
力したとする。従来の端末であれば、このような誤った
命令入力は拒絶する。しかし、本実施例の端末では、ニ
ューラルネノ１へを用いることにより、４登録されている命令のうちから上記”　ｓ　ａ　ｂ　ｅ
にもっとも近い命令”　ｓ　ａ　ｖ　ｅ”を連想し、ユ
ザに”Ｄｏ　　ｙｏｕ　　ｗａｎｔ、ｔｏ　　５ａｖｅ
？”と問いかけて確認を取る。以下、上記の命令認識処理の詳細を節玉９図及び第２０
図を用いて説明する。第１９図は、音声命令入力を行なう場合の命令認識ニュ
ーラルネットの動作を示した図である。第１９図において、音声認識ブロック２４で認識された
音声入力命令は、デュアルポートメモリ１１を介して単
語単位で文字レジスタ７８に入力される。そして単語″
５ａｂｅ″が揃った段階でそのテキス１へデータの文字
コードを第１９図の命令認識ニューラルネット７７に入
力する。５ａｂｅ”という誤った単語を音声認識ブロックに登録
していない場合には、これが単語としては認識されず、
文字レジスタ７８にはＩｆ　ｓｔｒ　ｂ”　ｅ″′とい
う文字の連続データとして転送される。この場合も、こ
れに続く単語が明確な場合もしくはこれ以上のデータが
入力されない場合は、」二記４文字を一つの単語として
取り扱い、命令認識ニューラルネノ１へ７７に入力する
。これにより、このような辞書には黒い誤った命令入力に
も対処することか出来る。命令認識ニューラルネソｌ−７７は、命令文字コＩ−を
係数の形で記憶している第１Ｍニューラルネット、及び
その出力を受けて判定結果を強調する第１層ニューラル
ネットからなっている。第１層ニューラルネット〜は、複数の第１Ｎニユーロン
８２からなり、入力文字コー１−と記憶している文字コ
ー１〜とのマノチンクを取り、これらのパターンが接近
しているニューロンはど高い出力を示す。第２Ｍニューラルネソ１〜は、複数の第２層ニューロン
８３からなり、」二記第１　Ｍニューロン８２の判定結
果を受は取り、その入力に対する処理結果をマルチプレ
クサ８４を介して再び第２層ニュロン８３に入力する。第２層ニューラルネノＩ−の重み係数は、自分自身から
の入力によって出力値か増加し、他ニュロンからの入力
によっては出力が抑制されるように設定されている。こ
れによって他出力に比較して少しでも値の高いものはま
すます強調され、そうでないものはますます小さくなっ
ていく。これにより、第１層ニューラルネットの判定結
果を強調し、最も確からしい命令候補をたた一つ選択す
る。その結果はプログラマフル命令テコーダ８５によっ
て命令コードに変換される。命令コードは、命令コード／文字コート変換テブル８０
によって出力文字コードに変換され。入出力文字比較器７９によって入力文字コートと比較さ
れる。もし、入力された文字が命令認識ニューラルネノ
１〜７７に登録されているなら、入出力文字コードは一
致する。しかし、先の例のような誤った入力″５ａｂｅ
″が命令認識ニューラルネット７７に登録されていない
場合には、命令認識ニューラルネッｈ　７７はｒｒ　５
ａｂｅ＋＋文字コトに最も類似しているｒｒ　ｓａｖ　
ｅｕに対応する命令コートを出力し、これを変換テーブ
ル８０によって５ａｖｅ″という出力文字コードに変換
す７る。」二記の場合には、入出力文字コードが一致しないため
、比較器７９がこれを検出し、ホスｌ−ＣＰＨ１の誤り
処理ルーチンを起動する。第２０図は、」二記の誤り処理ルーチンを示す図である
。第２０図において、ます、命令認識ニューラルネット７
７によって実行されるオペレーションコド認識ルーチン
により、　　ｓ　ａ　ｖ　ｅ　”という命令コードが誤
り処理ルーチンに伝えられる。ここで、まず入力文字は正しいか否か、すなわち命令認
識ニューラルネノ１−７７に登録されたものか否かがチ
エツクされる。これは、さきほどの比較器７９の出力を
用いることによって実現される。入力命令が正しいならば入出力文字コーＩ〜は一致して
おり、正しくない場合は不一致となる。入力文字か正しい場合は、次のオペランド処理ルーチン
に移行する。また、正しくない場合は、以下のメソセー
ジを音声またはＣＲＴ上のメッセ４８ジとして示し、命令の真意を確認する ”Ｄｏ　　ｙｏｕ　　ｗａｎｔ　　ｔｏ　　５ａｖｅ？
”ここで端未使用者がｙｅＳ″と入力すると、以下のメ
ツセージを出して誤った入力を新たに登録するかどうか
尋ねる。 “Ｄ　ｏ　　ｙ　ｏ　ｕ　　ｗ　ａ　ｎ　１；　　ｔ　
ｏ　　ｒ　ｅ　ｇ　Ｉ　Ｓ　ｔ　ａ　ｒｓａｂｅ　　ａ
ｓ　　５ａｖｅ？” 上記の処理は、ユーザの癖で今後も”　ｓ　ａ　ｂ　ｅ
という誤った入力が度々行なわれる可能性がある場合に
対処するためである。」二記の質問に対して“ｙｅＳ”と答えると、命令認識
ニューラルネット７７及び命令ツー１−／文字コード変
換テーブル８０に５ａｂｅ゛′を新規登録する。これに
より、今後“５ａｂｅ″′と入力しても５ａｖｅコマン
ドが実行される。また、　　ｎＯ″と入力すると、以下のメッセジを出し
て正しいコマンドを要求する。 “Ｅｎｔｅｒ　ｔｈｅ　　ｒ］、ｇｈｔ　ｃｏｍｍａｎ
ｄ！”また、」二言己のように”　ｓ　ａ　ｖ　ｅ”と
“５ａｂｅのように類似したコマンドを登録する他に、
全く異Ａっだコマンドを登録することも出来る。例えば
”　ｒ　ｅ　ｃ　ｏ　ｒ　ｄ”を”　ｓ　ａ　ｖ　ｅ　
”と登録したい場合には、別途強制的に命令認識ニュー
ラルネット７７及び命令コード／文字コーＩ〜変換テー
ブル８０に“ｒ　ｅ　ｃ　ａ　ｒ　ｄ　”を新規登録す
る。この場合には、下記のような対話形式の設定法を用
いる。ユーザ：　　　ｒｅｇｉｓｔｅｒ　　ｒｅｃｏｒｄａｓ
　　５ａｖｅ！” 端末応答：　“ｄ　ｏ　　ｙ　ｏ　ｕ　　ｗ　ａ　ｎ　
ｔ　　ｔ　。ｒｅｇｉ、５ｔｅｒ　　ｒｅｃｏｒｄ　　ａｓ　　ｔｈ
ｅｃｏｍｍａｎｄ　　５ａｖｅ？” ユーザ：　　　ｙｅｓ以上のように、元来の命令文字コー１くと異なる命令コ
ー１〜が入力された場合に対しても、１−ノブダウン的
な学習（ユーザ管理のもとての学習）によって柔軟に対
応することが出来る。このような学習は、純粋に信号処
理によって学習を行なうハックプロバケーション法しこ
比較して、命令認識のような明確な正誤が判定出来るよ
うな場合に右動である。次に、音声による命令入力の場合と異なり、キボード入
力の場合には、スペルの間違いを考慮して“ｓ　ａ　ｂ
　ｅ　　　　ｓ　ｅ　ｉ　ｂ　ｕ　”等の入力に苅して
も、　　ｓ　ａ　ｖ　ｅ　”命令を発行するようにニュ
ロの重み係数を設定する。また、第２王図に示した手書き命令入力のように画像認
識を用いて命令を入力する場合には、」二記のスペル間
違いと共に、　　Ｓ″′を５”と誤ったようなｒＬ　５
８ＶｃＩ＋に対しても”　ｓ　ａ　ｖ　ｅ　”と認識す
るようのいニューロの重み係数を設定する。この設定は誤りの可能性のある事例、例えばａ　ｂ　ｅ
　’　　　”　Ｓ　ａ　ｖ　ｅ”をも”　ｓ　ａ　ｖ　
ｅ”とＪ忍Ｊ哉するように登録することによって実現す
ることか出来る。また、音声１手書き文字画像、キーボー１−入力を検出
し、それに最も適したニューロの重み係数を設定する。これらの係数は予めニューロプロセッサのローカルメモ
リに設定されており、命令入力手段によってこれらから
選択する。次に、命令が正しく解釈されると、命令コート１は命令オペランド処理ルーチンにはいる。第２２図は、上記の処理フローを示す図である。ここでは命令実行に必要なオペランド（変数、パラメー
タ）を認識し、必要であれは使用者に催促する。この場
合には、まず最初に、入力された命令コー１−に続く単
語かあるかどうかをみる。無い場合はオペランドテーブ
ル８６のデータ確定フィール１−を児にいく。このオペラン１くチーフル８６は各命令ごとに登録され
ており、命令を実行するために必要なオペラン１−の情
報を持っている。例えは、　　５ａｖｅ命令に対しては
、ｓ　ａｖｅする対象、Ｓ　ａ　Ｖ　ｅする際のファイ
ル名、記憶する媒体、記憶先のフォルダ名の以上４つの
オペランドを指定する。しかしこの中で必須なものはＩ
′ｌ１Ｊ３者であり、これを必須項目フィールドで指定
している。確定フィールドはこれらのオペランドか既に
入力されて確定しているかどうかを示すフィール１〜で
ある。第２２図に示す状態では、まだ、とのオペランド
も確定していない。２ところで、自然言語では各オペランドを参照するのに、
これに付随する冠詞、前置詞、名詞等を用いることが出
来る。オペラン１−テーブルはこの情報をも記憶してい
る。例えば、５ａｖｅする対象を指示する場合は、ｓ　ａ　
ｖ　ｅ　ｔ　ｈ　：ｉ、　ｓ　−匿土ａ、、ｑ　”とい
ったように、ｔｈｉｓという冠詞を用いるのが自然であ
る。また、前置詞ＩＩ　ａ５Ｉ＋の後のパラメータはファイ
ル名、前置詞ＬＬ　ｏｎＩ＋のあとのパラメータは記録
先の記録媒体（ＣＤ等）、前置詞Ｉｆ　ｉ　■】Ｈのあ
とのパラメータはフォルタ名となる。このオペラン１−
テーブルも使用者によってプログラマブルである。さて、このようなオペラン１〜チーフルのどのステー１
〜（状態）にあるかトこよってその処理が変わる。第２３図は、」二記の状態遷移に示した図である。第２３図において、命令がまた入力されていない状態で
は、オペレーションコート入力待ちの状態（ステートＯ
）にある。ここで命令が入力され、先の例のように後に
続く単語か無い場合は、順次次のステー１−（ステート
１）に移行する。そのステー１〜１において、第２２図中のオペランドテ
ーブル８６の右端に記載されている該当メンセージへの
ポインタａに従ってメモリ（第１図主記憶↓Ｏ）をアク
セスし、第２２図に示すように使用者に５ａｖｅする対
象の入力を催促するための下記メソセージを発行する。 ”Ｗｈ、ａｔ　　ｄｏ　　ｙｏｕ　　ｗａｎｔ　　ｔ。５ａＶｅＱ” −に記のメツセージを発行した後、Ｔ秒だけ使用者から
の入力待ちをする。Ｔ秒以」二経って、しかも１回目の
待ちであった場合は、再び使用者に上記メツセージを発
行する。そうでない場合はこの命令はキャンセルされた
ものとみなされ、下記のメソセージを発行してオペレー
ションコード認識ルーチンに戻る。 ”Ｅｎ　ｔｅｒ　　ｔｈｅ　　ｎｅｘｔ　　ｃｏｍｍａ
ｎｄ　！”これに対してオペラン１−入力があった場合
は、音声認識ブロックから認識結果と同時に発行される
品詞分類コートに従って、その品詞を認識し、オペラン
ドテーブルを参照して命令の組立（命令に必要なパラメ
ータの収集）を行なうと同時に、第２３図に従って状態
（ステート）を更新していく。組立か完了しない間は、再び第２２図の先頭の処理、す
なわち続く単語の右前判定に戻る。置型の組立が完了する、すなわち命令に対する必須オペ
ランドが全て確定した段階で、フルセラ１へのコマンド
がＯ８（オペレーティングシステム）やアプリケーショ
ン・プログラムに渡される。次に、第２３図の状態遷移に関して、さらに詳細にその
動作を説明する。前記のように、命令入力待ちの状態（ステー１−〇）か
ら、これに続く単語が無い場合は次のステ１−１に移行
して５ａｖｅする対象の入力を催促するメツセージを発
行するが、ここで、次の単語が入力されると、その内容
にしたかってステー１へを遷移する。例えば、冠詞ｔ　
ｈ　コ、　ｓか入力された場合にはステート１に留まり
、これに続く名詞を５ｓａｖｅする対象とする。もし、前記のメソセージによって５ａｖｅする対象の入
力を催促したにもがかわらす前置詞ｉｎが入力された場
合は、フォルタ名を入力するステ１−４に遷移し、これ
に続く名詞をフォルダ名として登録する。ただし、発行
したメツセージで要求したものとは異なるものが来たこ
とから、以下のような警告メツセージを発行することも
ある。 “Ｎｏｔ　　ｔｈｅ　　ｏｂ、ｊｅｃｔ　　ｔｏ　　ｂ
ｅｓ　　ａ　　ｖ　　ｅ　　ｄ　　、　　　ｌ）　ｕ　
　ｔ；　　　　ｔ　　ｈ　　ｅ　　　ｎ　　ａ　　ｒｎ
　　ｅ　　　　ｏ　　ｆｔ　ｈ　ｅ　　ｆ　ｏ　］、　
ｄ　ｅ　ｒ　　ｉ　ｓ　　ａ　ｃ　ｑ　ｕ　ｉ　ｒ　ｅ
　ｄ　。このように、各段階の入力に対して、その内容をチエツ
クしながら命令を組立ていく。以」二の状Ｓ遷移はオペラン１−テーブルに従って構成
され、このテーブルは各命令に固有のものであると共に
、使用者がプログラム出来るものである。次に、データの携行、移植について説明する。第１図に示したように、命令認識用ニューラルネノ１〜
７７とも合わせ、メインバス」２及びペリ６フエラルパス１３を介してメモリカード２３とテタのや
り取りが可能である。これにより、使用者固有の使い方
（命令認識方法）か携行することが出来、したがって他
の端末にこれを移植することか出来る。第７図はメモリカード２３の一実施例を示すブロック図
である。第７図では、メモリとして揮発性の半導体メモリ６８を
使用した場合を例示しているが、不揮発性：メモリを使
用することによって、電池バンクアンプ制御回路６６及
び電池６７を省略することも勿論可能である。第７図に示すメモリカード２３は、接続コネクタ７０を
介して端末本体に接続される。この接続は直接電気的に
行なうことも出来るし、或いは電磁結合や光結合のよう
な間接的な結合で行なうことも出来る。次に動作を説明する。Ａ端子からアドレスか入力され、
■／○端子を介してデータのやり取りが行なわれる。デ
ータの書き込みを行ないたい場合は端末から書き込み要
求信号ＷＲか入力される。この信号はメモリアクセス許可回路６９に入り、ここで
実際にメモリを書き込む際に用いられる書き込みイネー
ブル信号ＷＥＮが発行される。たたし、これを行なうた
めには、端末はメモリアクセス許可回路６９の特定のア
１〜レスに丁／○端子を介して定められたパスワードを
書き込む必要がある。また、書き込み時には、書き込み禁止スイッチ７］が禁
止側に設定されていないことが必要である。この書き込
み禁止スイッチ７エにより、許可を受けたものだけがメ
モリカード２３に書き込みを行なうことが出来る。また
許可を受けたものでも、不用意にデータを泪去しないよ
うに、書き込み禁止スイチ７１を禁止側に設定しておく
ことも出来る・なお、メモリアクセスか許可された場合には、メモリア
クセス許可信号ＡＣＣＰが発行される。これによって使用者もしくは端末が書き込み可能である
ことを検知し、書き込みを開始することが出来る。」二記と同様に、メモリカード２３の内容を呼び出す時
も、読みたし要求信号ＲＲが入力される。この信号はメモリアクセス許可回路６９に入り、ここで
実際にメモリ内容を読み出す際に用いられる読み出しイ
ネーブル信号ＲＥ　Ｎが発行される。ただし、これを行なうためには、端末はメモリアクセス
許可回路６９の特定のアＩ−レスにＩ１０端子を介して
定められたパスワーＩ・を書き込む必要がある。また、電池バンクアップ制御回路６（３は、メモリカー
ド２３が端末本体から切り離されているときは電池６７
か１らメモリ６８に給電し、端末本体に接続されている
場合は端末本体の電源から給電すると同時に、電池６７
の充電を行なうように制御する。第１２図は本発明の一応用例を示すブロック図であり、
音声インタフェースユニッ１へのみヲ端末本体から切り
離してポータプル化した場合を例示する。９このポータプル音声インタフェースユニノ１へ８８は、
音声入力ブロック２４、音声出力ブロック２５、これら
を制御するためのペリフェラルＣＰ　Ｕ　１４及びペリ
フェラルメモリ８２という音声認識合成に必要な最小限
の構成部品からなっている。ここでは、先の命令認識の基本的なもののみがペリフェ
ラルＣＩ）　Ｕ　１−４で処理される。また、ニューラ
ルネジ１〜処理もホス１〜ＣＰＵ９の積和処理プログラ
ムを用いて遅いながらも実行することが出来る。このポータプル音声インタフェースユニット８８の主目
的は、任意の時間、任意の場所で使用者の口述筆記を可
能にすることである。その口述筆記されたデータは、−旦ペリフエラルメモリ
８２またはメモリカード２３に入力される。そしてペリ
フェラルメモリ８２またはメモリカード２３を端末本体
に接続することにより、口述筆記されたデータをワード
プロセッサ・アプリケーション・プロクラムによって清
書したり、通０信回線を通して他の計算機や端末に転送したりすること
が出来る。第１３図は、」二記の使用法の具体的な一例を示した図
である。ここではラップＩ〜ツブ型端末本体８７の１部となって
いるポータプル音声インタフェースユニノｌ−８８及び
メモリカー１く２３か端末本体８７から取り外して携行
可能となっている場合を例示している。図示のように、このユニノｈを端末本体から取り外して
通勤電車に持込み、ヘッＩヘセッ１−８９に付属のマイ
クロホン９０を用いて口述筆記することが出来る。勿論
、歩行中や車、飛行機等で移動中にも入力可能である。なお９上はモニタ用のイヤホーンである。」二記の構成により、文章入力時間を大幅に節約するこ
とが出来る。【発明の効果１本発明によれば、ニューラルネソ１〜を用いたことによ
り、音声入力、手書き文字入力に柔軟に対応することの
出来るコンピュータ端末を実現する出来る。また、ニュ
ーラルネットの柔軟な処理及び知識データベース（オペ
ラン）へチーフル等）による正確な処理を組合せたこと
によって、より高位レヘルでの命怜認識等も柔軟に処理
することが出来る。これらの柔軟性は、使用者固有の操
作嗜好や発声、筆記パラメータ等を学習することによっ
て実現されている。また、本発明の横取によれば、」１
記のようム使用者［Ｉｒ１１有のデータを、ニュラルネ
ン）−の重み係数や操作環境パラメータの形で、メモリ
カードに記憶して携行することが可能であり、これによ
って使用者固有の操作環境を保存すると共に、他の端末
にダウンロー１〜して使用者向けにバーソナライスドす
ること出来る、等の多くの優れた効果がある。

【図面の簡単な説明】

第１図は本発明のパーソナライズド端末の一実施例の全
体構成を示すブロック図。第２図は音声インタフェース・二二ノ１への一実施例の
ブロック図。第３図は音声入力ブロックの一実施例のブロック図。第４図は音声出力ブロックの一実施例のブロック図。第５図は画像インタフェース・ユニットの一実施例のブ
ロック図。第６図は画像認識ブロックの一実施例のブロック図。第７図はメモリカートの一実施例のブロック図。第８図：音声入力ブロック内におけるニューラルネット
の学習方式の流れを示す図。第９図は手書き文字認識アルゴリズムの一実施例図。第１０図は画像認識用ニューラルネットのテタの流れを
示す図。第↓］図はデータの流れを直接回路化した場合の回路構
成を示す一実施例図。第１２図はポータプル音声インタフェース・ユソＩ〜の
一実施例のフロック図。第１３図はポータプル音声インタフェース・ユ３ニット使用方法の一例を示す図。第」４図はＣＤ上に記憶された音声認識用学習データの
フォーマノ１−の−倒閣。第１５図は音声用カフロック内ニューラルネッ１への学
習方式の流れを示す１ｇ。第１６図は画像インタフェース・ユニット内画像認識ブ
ロックの学習方式の流れを示す図。第１７図は画像認識された文字の修正法を示す図。節玉８図（ａ）は操作対象のマルチウィン１〜つ端末画
面の一例を示す図。節玉８図（ｂ）は完全な命令形態の一例を示す図。節玉８図（ｃ）は対話処理による命令入力の一例を示す
図。第１−９図：音声命令入力の場合の命令認識ニュラルネ
ソ１への動作第２０図は誤り処理ルーチンの動作の一実施例を示す図
。第２１図は手書き命令入力の場合の命令認識ニ４ューラルネノ１〜の動作の一例を示す図。第２２図は命令オペランド処理ルーチンの一実施例図。第２３図は命令オペランド処理ルーチン状態遷移図。〈符号の説明〉王：命令認識用ニューラルネノ１〜２：テキス１〜音声合成用ニューラルネノ１〜３：音韻
特徴抽出用ニューラルネット４：音声認識用辞書５：音韻選択回路６：画像認識ニュ〜ラルネノ１− ７：画像認識前処理プロセッサ８：通信条件設定用ニューラルネノ］・９：ホス１〜Ｃ
ＰＵ］Ｏ：主記憶工１：デュアルポ−１へメモリ工２：メインバス１３：ペリフェラルハス１４：ベリフエラルＣ丁）Ｕｌ５：ハートディスクコン１〜ローラ１６：バー１ヘテイスク１７　：　ＣＤコントローラ］８：コンバク１へ・ディスク１９：ＣＤハス２０：音声インタフェースユニット２ｉ：画像インタフェース二二ツ１− ２２二通信二二ノ１〜２３：メモリカー１〜２４：音声入力ブロック２５：音声出力ブロック２６：マイク２７：スピーカ２９：単語認識ブロック３０：テキス１〜バッファ３１　：　Ａ／Ｄ変換器３２：ディジ音声音声テサ３３：認識音韻列選択用マルチプレクサ３４：入力音声
前処理回路夕選択用マルチプレク３５：ミキサ３６：音韻候補抽出用ＤＰマノチンク回路３７’：Ｄ／
Ａ変換回路３８：音素合成回路３９：ディジタル・サウンド・シンセサイザ４２：テキ
ス１〜バッファ４３：ビデオカメラ４４：イメーシスキャナ４５：Ａ、／Ｄ変換器４６：書き込みア）−レス発生回路４７：マルチプレクサ４８：マルチプレクサ４９：マルチプレクサ５０：マルチプレクサ５１：マルチプレクサ５２：ビデオメモリ５３二ＣＲＴコン１〜ローラ５４：画像認識ブロック５５：クラブインクブロセソサ５Ｇ：画像信は嵜域圧縮回路７５７：画像信号帯域伸長回路５９：マルチプレクサ６０　：　Ｄ／Ａ変換器６１：ＣＲＴデイスプレィ６３：文字閉領域を形成する曲線６６：電池パックアンプ制御回路６７：電池６８：半導体メモリ６９：メモリアクセス許可回路７０：端末／カー１〜間接続コネクタ７」：書き込み禁止スイッチ７３：エンコータ７４ニジタモイト関数ルソタアツプテーブル７５：第２
層ニューロン積和回路７６：第１．Ｎニューロン積和回路７７：命令認識ニューラルネタ１− フ８二文字レジスタ７９：入出力文字比較器８０：命令コード／文字コーｉ〜変換テーブル８１：文
字入力端子８８２：第２層ニューロン８３：第２層ニューロン８４：データ巡回用マルチプレクサ８５：プロクラマフル命令デコーダ８６：オペラントテーブル８７：ランブ１−ツブ型端末本体８８：ボータモル音声インタフェース・ユニット８９：
へラドセラ１〜９０：マイク９１：イヤホーン

Claims

【特許請求の範囲】１、音声認識、テキストデータ朗読、文字・画像認識及
び命令認識のうちの少なくとも選択された二つ以上を行
うパーソナル端末であって、音声認識手段、テキストデ
ータ朗読手段、文字・画像認識手段及び命令認識手段の
うちの少なくとも二つ以上にニューラルネットを用いる
と共に、それらの手段内に知識ベースを設け、かつ、各
ニューラルネットの重み係数、メモリ及び非線型変換用
のメモリルックアップテーブルの内容を、ホストＣＰＵ
に接続されているメインバス又は周辺回路が接続されて
いるペリフェラルバスを介して読み出し・書き込み可能
に構成し、さらにニューラルネットの入出力端子も上記
データバスに接続することにより、各ニューラルネット
の重み係数及び知識ベースを保持したメモリをホストＣ
ＰＵまたはペリフェラルＣＰＵからアクセス可能に構成
したことを特徴とするパーソナライズド端末。２、第１請求項に記載のパーソナライズド端末において
、音声認識手段、テキストデータ朗読手段、及び文字・
画像認識手段の入力として、光ディスクまたは磁気ディ
スクを記憶媒体として記憶されたサンプルデータを与え
、該サンプルデータと同一記憶媒体または別の記憶媒体
に記憶された認識または朗読結果の期待値とを比較する
ことにより、認識またはテキスト朗読用のニューロプロ
セッサの重み係数を調整する手段を備えたことを特徴と
するパーソナライズド端末。３、第１請求項に記載のパーソナライズド端末において
、ニューラルネットを内蔵した音声認識手段内に設けら
れた音声入力ブロックの入力として、端未使用者の音声
、通信回線を介して与えられる相手方の音声、及び記憶
媒体に記録された音声を任意に選択して与える手段を備
えたことを特徴とするパーソナライズド端末。４、第１請求項に記載のパーソナライズド端末において
、ニューラルネットを内蔵した音声認識手段内に設けら
れた音声入力ブロック内の単語認識ブロックの入力とし
て、文字・画像認識手段で認識された文字データを入力
する手段を備えたことを特徴とするパーソナライズド端
末。５、第１請求項に記載のパーソナライズド端末において
、認識を行なう際に、音声情報と画像情報とを組合せて
認識を行なう手段を備えたことを特徴とするパーソナラ
イズド端末。６、第１請求項に記載のパーソナライズド端末において
、各ニューロプロセッサの重み係数、及び操作環境パラ
メータを含むメモリ上の知識ベースを、携行可能なメモ
リカードにダウンロードする手段とメモリカードからア
ップロードする手段とを備えたことを特徴とするパーソ
ナライズド端末。７、第６請求項に記載の、ニューロプロセッサの重み係
数及び知識ベースをメモリカードとの間で転送する手段
を有するパーソナライズド端末において、各ニューロプ
ロセッサの重み係数及び知識ベースの読み出し・書き込
みを禁止する手段を備えたことを特徴とするパーソナラ
イズド端末。８、第１請求項に記載のパーソナライズド端末において
、認識結果が正しいか否かを端未使用者に確認させる手
段を備えたことを特徴とするパーソナライズド端末。９、音声認識、テキストデータ朗読、文字・画像認識及
び命令認識のうちの少なくとも選択された一つ以上を行
うパーソナル端末であって、音声認識手段、テキストデ
ータ朗読手段、文字・画像認識手段及び命令認識手段の
うちの少なくとも一つ以上にニューラルネットを用いる
と共に、それらの手段内に知識ベースを設け、かつ、各
ニューラルネットの重み係数、メモリ及び非線型変換用
のメモリルックアップテーブルの内容を、ホストＣＰＵ
に接続されているメインバス又は周辺回路が接続されて
いるペリフェラルバスを介して読み出し・書き込み可能
に構成し、さらにニューラルネットの入出力端子も上記
データバスに接続することにより、各ニューラルネット
の重み係数及び知識ベースを保持したメモリをホストＣ
ＰＵまたはペリフェラルＣＰＵからアクセス可能に構成
し、かつ、上記ニューロプロセッサの重み係数及び操作
環境パラメータをメモリカードとの間で転送する手段を
有し、さらに、音声インタフェースユニット、メモリカ
ード、ペリフェラルＣＰＵ及びメモリの一部を取外し可
能に構成すると共に、それらを電池駆動で携帯可能に構
成したことを特徴とするパーソナライズド端末。