JPH0375860A - パーソナライズド端末 - Google Patents

パーソナライズド端末

Info

Publication number
JPH0375860A
JPH0375860A JP1211320A JP21132089A JPH0375860A JP H0375860 A JPH0375860 A JP H0375860A JP 1211320 A JP1211320 A JP 1211320A JP 21132089 A JP21132089 A JP 21132089A JP H0375860 A JPH0375860 A JP H0375860A
Authority
JP
Japan
Prior art keywords
recognition
neural network
input
voice
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1211320A
Other languages
English (en)
Inventor
Toru Umaji
馬路 徹
Yoshiki Noguchi
孝樹 野口
Tetsuya Nakagawa
哲也 中川
Motonobu Tonomura
元伸 外村
Hajime Akimoto
肇 秋元
Toshiaki Masuhara
増原 利明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP1211320A priority Critical patent/JPH0375860A/ja
Priority to US07/567,010 priority patent/US5163111A/en
Publication of JPH0375860A publication Critical patent/JPH0375860A/ja
Priority to US08/206,195 priority patent/US5426745A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/186Extraction of features or characteristics of the image by deriving mathematical or geometrical properties from the whole image
    • G06V30/187Frequency domain transformation; Autocorrelation
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/20Individual registration on entry or exit involving the use of a pass
    • G07C9/22Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder
    • G07C9/25Individual registration on entry or exit involving the use of a pass in combination with an identity check of the pass holder using biometric data, e.g. fingerprints, iris scans or voice recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 【産業上の利用分野】 本発明は、ワードプロセッサ、パーソナルコンピュータ
、ワークステーション、計算機等の端末に関し、特にユ
ーザ個別にユーザ特有の操作嗜好、ユーザの肉声・手書
き文字等の特徴を用いて個別対応化されたパーソナライ
ズド端末及び該パーソナライズド端末のデータ携行技術
に関する。 [従来の技術] 従来のマンマシンインタフェースとしては、(1)r”
マツキントラシュ・マニュアル″米国アップル社」 (2)r”ニューラルネソ1−で音声認識、従来誤った
子音の70%を判別”NEレポート、日経エレクトロニ
クス、1988年11月工4日」(3)r”ニューラル
ネットをパターン処理、信号処理、知識処理に使う″′
日経エレク1〜〇二クス、1988年8月10日」 等に記載されているものがある。 従来、最も進んだマンマシンインタフェースを持つ端末
は、」―記文献(1)に示すマツキントラシュであった
。そのマニュアルにも記載されているように、この端末
においては、キーのカナ・ロマ字設定、漢字コード入力
方法、カーソルの点滅速度、マウスの応答速度、ファイ
ルの表示モト、スピーカボリューム、印刷・通信ポート
の設定等、基本的な操作環境をユーザの嗜好に合わせる
ことか出来、またフロンピディスクを媒体として」二記
の操作パラメータを他のマツキントシュ端末に携行可能
である。 一方、ニューラルネットを用いた音声認識、テキストデ
ータの朗読、文字認識等の技術が個別に開発されている
。 」二記のようにニューラルネノ1〜を用いることによっ
て認識率を向」ニさせることか出来る。例えば、前記文
献(2)で報告されているように、従来誤って認識され
た子音のうち約70%を正しく認識することが出来た。 また、学習機能付きのニューラルネノ1−を用いること
により、認識やテキスl−合或(合成音声によるテキス
トデータ朗読)の特性を学習させることが出来る。例え
ば、前記文献(3)に記載されているNETtalkで
は、子供向けの発音練習の本から採取した土OOO語程
度の文書とウエブスタ(llabster )辞書から
採取した20000語の単語及びこれらに対応した正し
い発音記号を用いることにより、テキスI−データの正
しい発音方法を学習している。それによれば、50回の
学習で発音の正確さは95%に達している。 [発明が解決しようとする課題] 前記(1)のマツキントラシュに見られるような従来技
術においては、データ入力はあくまでもキーボード又は
マウスを用いて行なう必要かあるなど、音声認識は勿論
のこと文字認識の機能もない。またユーザフレンドリで
あるとはいっても誤った命令(形式に適合していない命
令)入力に苅しては、命令を受は付けないか若しくは命
令が間違っているというメツセージを出すのみであって
柔軟な対応ができない、という問題がある。 また、ニューラルネットを用いた音声認識やテキストデ
ータ朗読の技術等は、それぞれ個々に開発されており、
一つの端末で有機的に機能させることが出来ない。した
がって、唇の動き等の画像情報と音声とを組合せて認識
率を」二げることなどは全く考えられていない。また、
音声で入力し、テキス1−合戊音て命令を確認するとい
ったことも出来ない。 さらに、ニューラルネットの重み係数を他の端末に携行
する簡便な手段を持たない、等多くの問題があった。 本発明の目的は、ニューラルネットを用いた音声認識手
段、テキストデータ朗読手段、文字・画像認識手段、命
令認識手段等を端末に設け、これらを有機的に結合させ
て高機能で高性能のマンマシンインタフェースを提供す
ると共に、端末ユザ固有のニューラルネット重み係数及
び従来からの端末操作環境パラメータ、知識データベー
スを簡便に他の端末に携行可能にすることである。 [課題を解決するための手段] 上記の目的を達成するため、本発明においては、特許請
求の範囲に記載するように構成している。 すなわち、本発明の第1請求項においては、(1)音声
認識手段、テキストデータ朗読手段(音声合成手段)、
文字画像認識手段、命令認識手段のうちの少なくとも二
組上にニューラルネットを用いると共に、それらに知識
ベースを設ける。 この知識ベースとしては、例えは、音声認識プロツク内
には入力音波の波形と単語との対応を示す音声認識用辞
書、音声合成ブロック内には読み書き変換用のデータベ
ース、文字画像認識ブロック内には画像パターンと意味
との対応を示すデータベース、命令認識ブロックにはオ
ペランドテーブル等を設ける。 (2)各ニューラルネットの重み係数、メモリ及び非線
型変換用のメモリルックアップテーブルの内容を、ホス
1〜プロセツサに接続されているメインバス又は周辺回
路が接続されているペリフェラルバスを介して読み出し
・書き込み可能に構威し、かつ、ニューラルネットの入
出力端子も同」ニデタバスに接続する。 上記(1)、(2)のように構成することにより、各ニ
ューラルネットの重み係数及び知識ベスを保持したメモ
リをホスI−CP UまたはペリフェラルCPUからア
クセス可能にすることが出来る。 」二記第1−請求項に記載の構成に関しては、例えば、
後記第1図で概略を説明し、各部の詳細については、第
2〜23図で説明している。 また、第2請求項は、音声認識手段、テキストデータ朗
読手段、及び文字・画像認識手段の入力として、光ディ
スクまたは磁気ディスクを記憶媒体として記憶されたサ
ンプルデータを与え、該サンプルデータと同一記憶媒体
または別の記憶媒体に記憶された認識または朗読結果の
期待値とを比較することにより、認識またはテキスト朗
読用のニューロプロセッサの重み係数を調整する手段を
備えたものである。 上記の構成により、認識をより適確に行なうことが出来
る。 この構成に関しては、例えば、後記第8図及び第4図等
で説明している。 また、第3請求項は、ニューラルネノ1へを内蔵した音
声認識手段内に設けられた音声入力ブロックの入力とし
て、端未使用者の音声、通信回線を介して与えられる相
手方の音声、及び記憶媒体に記録された音声を任意に選
択して与える手段を備えたものである。 」−記の構成により、端未使用者の音声情報のみならず
、外部音声情報や記憶音声情報をもこの端末で認識可能
になる。 この構成に関しては、例えば、後記第3図等で説明して
いる。 また、第4請求項は、ニューラルネソ1〜を内蔵した音
声認識手段内に設けられた音声入力ブロック内の単語認
識ブロックの入力として、文字・画像認識手段で認識さ
れた文字データを入力する手段を備えたものである。 上記の構成により、画像として認識された文字列も単語
に編成することが出来る。 この構成に関しては、例えば、後記第3図等で説明して
いる。 また、第5請求項は、認識を行なう際に、音声情報と画
像情報とを組合せて認識を行なう手段を備えたものであ
る。 」1記の手段は、例えば、使用者の音声情報と、使用者
の唇の画像情報とを組み合わせ、画情報から使用者が発
生した音声を認識するものであり、1 この構成により、認識結果をより正確にすることが出来
る。 この構成に関しては、例えば、後記第3図及び第8図等
で説明している。 また、第6請求項は、各ニューロプロセッサの重み係数
、及び操作環境パラメータを含むメモリ」二の知識ベー
スを、携行可能なメモリカードにダウンロードする手段
とメモリカードからアップ口1〜する手段とを備えたも
のである。 」1記の構成により、重み係数や操作環境パラメータを
、メモリカードに記憶して携行し、他の端末に移転する
ことが出来る。 この構成に関しては、例えは、後記第7図等で説明して
いる。 また、第7請求項は、各ニューロプロセッサの重み係数
及び知識ベースの読み出し・書き込みを禁止する手段を
備えたものである。 」1記の構成により、必要な記憶情報を、不注意で消去
する畏れがなくなる。 この構成に関しては、例えば、後記第7図等で]2 説明している。 また、第8請求項は、認識結果が正しいか否かを端未使
用者に確認させる手段を備えたものである。 上記の構成により、認識結果を正確にし、かつ、それを
学習することによって、順次、使用者の個性に合った認
識を行なうことが可能となる。 この構成に関しては、例えば、後記節玉8〜2工図等で
説明している。 また、第9請求項は、ニューロプロセッサの重み係数及
び操作環境パラメータをメモリカー1〜との間で転送す
る手段を有し、また、音声インタフェースユニット、メ
モリカード、ペリフェラルCPU及びメモリの一部を取
外し可能に構成すると共に、それらを電池駆動で携帯可
能に構成したものである。 上記の構成により、音声入力手段の一部を携帯し、任意
の場所で音声入力を行なうことが可能となる。 この構成に関しては、例えば、後記第12、13図等で
説明している。 [作 用] 本発明の全体構成を示す第1請求項においては、上記(
1)の構成により、端末に音声認識、文字認識の機能を
与えることが出来る。また、誤った命令入力に対しても
、誤りを正したり、ユーザ固有の命令を学習したりする
柔軟な対応が出来る。 また、上記(2)の構成により、各ニューロプロセッサ
間のデータ転送、ホス1〜プロセツサとの間のデータ転
送が可能となり、これによって各ニューロプロセッサ及
びホス1−プロセッサを有機的に結合させた効率的な認
識、学習、ニューラルネットと知識ベースを組合せた高
レベルの命令認識等、高機能・高性能のマンマシンイン
タフェースを提伏することが出来る。 [実施例] 第1図は、本発明の一実施例のブロック図である。 節玉図において、パーソナライズド端末の主な処理はホ
ス1〜CPU9で行ない、そこに使用するデータ及びプ
ログラムは主記憶10に保持されている。上記要素はメ
インバス12に接続されており、メインバス12はテユ
アルポートメモリ11を介してペリフェラルバス]3に
接続されている。 上記のデュアルポー1〜メモリ11はデータのバッファ
として使用される。 ペリフェラルバス土3には、周辺回路を制御するペリフ
ェラルCPU14.ハードディスクコン1−〇−ラ15
が接続されている。更に、音声、画像データ等を大量に
記憶できるCD(コンパクトディスク)18を使用する
ため、CDコン1〜ロラ17及びCDバス19を設ける
こともある。なお、ここでのCDは書き込み可能なもの
である。 以上の構成は従来の端末にも見られたが、本発明では、
優れたマンマシンインタフェースを提供する目的で、以
下に示すインタフェースユニット及び同インタフェース
ユニットの操作・認識パラメータを記憶する手段を追加
している。 すなわち、音声インタフェースユニツ1〜2oは、端未
使用者からの肉声、または通信回線、CDに5 記録された音声による入力を受は付けるところであり、
後述の音韻特徴抽出用ニューラルネット3及び音韻選択
回路5によって音声波形を音韻列に変換した後、音声認
識用辞書4(音声波形を変換した音韻列と単語との対応
を示すデータベース)を参照してこれを意味のあるテキ
ス)へデータ(単語列)に変換する。この変換結果はペ
リフェラルハス]−3、デュアルポー1−メモリ1 ]
、、メインパス12を介して命令認識用ニューラルネッ
ト77及びホスl−CP U等に転送され、より高位の
判断に供される。 また本実施例では、テキスト音声合成用ニューラルネッ
ト2を用いて、ペリフェラルバス土3を介して入力され
る連続したテキストデ−タを音声に変換する。つまりテ
キス1−テータを朗読する。 なお、」−記の変換のため、読み書き変換用のデータベ
ース(図示省略)を備えている。 画像インタフェースユニット21では、画像入力をWJ
像認識前処理プロセッサ7で雑音除去、輪郭抽出等の処
理した後、画像認識ニューラルネノ6 1−6で文字或いは図形として認識させる。なお、上記
の認識のため、画像バタンと意味との対応を示すデータ
ベース(図示省略)を備えている。 文字として認識された結果は、ペリフェラルバス土3を
介して音声インタフェースユニツh 20に転送され、
同二二ノ1−の音声認識用辞書4を参照して意味のある
テキストデータ(単語列)に変換される。この変換結果
はペリフェラルバスエ3を介してホス1〜CPU等に転
送され、より高位の判断に供される。 通信ユニット22は、通信回線を介して他の端末或いは
計算機とデータの通信を行なうためのインタフェースユ
ニットである。 以上のマンマシンインタフェースにかかわるこユーラル
ネッ1〜の重み係数及び音韻選択回路5や画像認識前処
理プロセッサ7等の信号処理パラメータは、ペリフェラ
ルバス土3を介してホストCPU及びメモリカート23
に接続されており、これによってホストCPU9.ペリ
フェラルCPU14の計算処理結果またはメモリカード
23に記憶されているデータによってその内容を更新し
たり、またはメモリカードにダウンロードしたりするこ
とが出来る。 以下、」1記実施例の各構成要素を詳細に説明する。 第2図は、音声インタフェースユニット20の構成概要
を示すブロック図である。 第2図において、音声入力ブロック24は、マイクロホ
ン26から入力されたアナログ音声入力、またはペリフ
ェラルハス13を介して通信ユニッI・22から送られ
てくる音声通信信号またはCD18に記録された音声信
号を認識する機能を有する。 本ブロックにおいて単語の段階まで認識された結果のテ
キストデータは、ペリフェラルバス13を介してホスト
CPU等に転送され、より高位の認識に供される。 また音声入力ブロック24では、アナログ音声入力をそ
のままテイジタル化してCDバス19に送出することも
可能である。 また、後述の画像認識ブロック54て認識された文字デ
ータも上記音声入力ブロック24に入力され、同ブロッ
ク内の単語辞書4の内容に基ついて単語として認識され
る。 音声出力ブロック25は、出力すべきテキストデータ(
単語列)をペリフェラルバス」3またはCDバス19か
ら受は取り、テキス1へ音声合成を行なって音声出力を
送出する。そしてアナログ信号に変換された音声出力で
スピーカ27を駆動して端未使用者に音声で応答する。 またディジタル音声出力は、CD18や通信ユニット2
2へ転送され、そのまま記録されたり、通信回線を介し
て先方に伝えられたりする。 次に、第3図は、本実施例の音声入力ブロック24の構
成を示すブロック図である。 第3図において、音声を認識する部分は、音韻認識ブロ
ック28、単語認識ブロック29及びテキストバンファ
30で構成されている。この構成は、基本的には前記(
2)の文献「″ニューラルネットで音声認識、従来誤っ
た子音の70%を判9 >314”NEレポート、日経エレクトロニクス、19
88年11月玉4日」と類(Iffしている。 」1記の音韻認識ブロック28においては、ディジタル
音声情報を入力音声前処理回路34によって処理し、処
理の容易な母音に関してはその種類を直接分析し、分析
の困難な子音に関してはそのスペクトル(周波数成分)
及びパワーを導出する。 続いて、これらのデータから音韻候補抽出用DP(ダイ
ナミックパターン)マツチング回路36によって音韻候
補の上位5個までが選択される。また同データを音韻特
徴抽出用ニューラルネット3に通すことにより、多値の
音韻特徴データを得る。 ここで用いるニューラルネットの構造は固定であり、音
声帯域の比較的低速の処理であるため、本出願人が既に
出願している特願昭63−323302号に示したニュ
ーロツプロセッサのうち、複数ニューロンを処理する固
定データバスのものを用いるか、又はDSP (テイシ
タル信号処理プロセッサ)、RISCプロセッサを含む
汎用プロセッサを用いることが出来る。 0 音韻選択回路5は、音韻候補抽出用D 1?マツチング
回路36から送られてくる音韻候補の中から、ニューラ
ルネット3の出力である多値の音韻特徴データに基づい
て正しい音韻を選択する一種のファジー回路である。候
補選択の基準はメンバシップ関数として同回路内のメモ
リに設定する。 さらに、この実施例においては、画像インタフェースユ
ニット21で認識された唇の動き認識結果が音韻選択回
路5の入力に加えられ、それによって更に正確な音声認
識も可能としている。このとき重要となる音声認識と画
像認識の同期関係はホストCPU9またはペリフェラル
CPU14によって管理される。 上記の音韻選択回路5の出力音韻列(文字列)は単語認
識ブロック29に渡され、ここの単語辞書4に基づいて
単語列として認識される。この単語列はテキス1−バッ
ファ30を介してペリフェラルバス13に出力される。 単語認識ブロック29の入力としては、画像インタフェ
ースユニット2工で処理された画像認識結果も存在する
。これにより、画像として認識された文字列も単語に編
成され得る。 また、音韻識別ブロック28の入力は、A/D変換器3
1を介して入力する端未使用者の生の音声入力の他に、
CD18に記録されたティジタル省声データ或いは通信
ユニツ1へ22で受信した他者の声もある。そして後者
を用いることによって本端末を遠隔地から音声で操作す
ることが可能となる。 また、上記の入力の切り換えはマルチプレクサ32によ
って行なわれる。 また、本実施例の音声入力ブロック24では、さらに入
力音声データを直接CD 1.8に記録することも出来
る。 ここで重要な点は、音声認識の特性を決めるニューラル
ネノ1−の重み係数、メンバシップ関数、辞書データか
ペリフェラルハスエ3を介してホス1− CP U 9
、ペリフェラルCPU王4或いはメモリカード23と接
続されていることである。これにより、認識の個人デー
タをメモリカーl−から設定することか出来たり、逆に
同データをメモリカドにダウンロートすることが出来る
。 また、ホスl−CP Uを利用することにより、ハック
プロッパゲーション等のアルゴリズムに従ってニューラ
ルネットを学習させることか出来る。 第8図は上記の音声認識ブロックの学習を実行する場合
のデータの流れを示す図である。 第8図においては、音韻特徴抽出用ニューラルネッI〜
3の学習を行なう場合を示す。 学習の仕方には、CD18等に記憶された音声サンプル
及びニューロ出力期待値を用いて自動的に学習を行なう
方法と、端未使用者が生の音声を入力し、対話的に学習
を実行する手動学習方法とがある。 ます、自動的な学習では、CD18に記憶されている端
未使用者等の音声サンプルがマルチプレクサ32を介し
て前処理回路34に入力され、その処理結果はニューラ
ルネット3に入力される。 ニューラルネノ1〜3の認識結果は、ペリフェラルバス
土3、デュアルポー1〜メモリ」−工及びメイ3 ンハスエ2を介してホス1〜CPTJ 9に転送される
。 これに合わせて、同しくCD18から音声サンプルに対
応するニューロ出力の期待値がホス1〜CPUに入力さ
れる。ホス1〜CPUはこれらの出力を比較し、ハソク
プロバケーション学習アルゴリズム等に従ってニューラ
ルネット3の重み係数を更新する。 なお、」1記のCD 18に記録された音声は、特に区
別の困難な子音のデータであっても良いし、特定のサン
プル文書を端未使用者が朗読したものでも良い。 特定のサンプル文書を端未使用者が朗読した場合におけ
るCD↓8上の音声サンプル及びニュロ出力の期待値は
、第14図に示したフォーマントで記録される。すなわ
ち、ステレオチャンネルの一方のRチャンネルにはサン
プル番号識別コトの後に端未使用者の音声サンプルが記
録され、最後にサンプルデータ終了コードが自動的に挿
入される。これに対して、Lチャンネルには音声サンプ
ル入力時のメソセージに続いて、サンプル文4 書(すなわちサンプル音声に対応したニューラルネット
の出力期待値)が当初から記録されている。 第14図では、ハンチングを施した音韻が期待されるも
のである。 なお、第14図においては、判り易くするため各音韻ご
とに区分しているが、実際の期待値のコドは多値で表現
されており、あいまいな音韻に対しては複数の音韻に値
が割当てられることもある。 また、記録された音声データとニューラルネット期待値
の各音韻の変化タイミングとは厳密に同期されていなく
とも良く、データの並びが合っていさえすれば良い。こ
れは音声入力ブロック24の入力音声前処理回路34が
各音韻間の切目を検出し、これに同期してホストCPU
9がCD↓8を制御すると共に、そこから読み出される
ニューラルネット期待値データを適切に遅延させて同期
を取るからである。 なお、学習時は、ニュー−ラルネット3からの出力とC
D18からのニューラルネジ1〜期待値との誤差が規定
値内に収まるまで繰返し学習を行なう。 学習用音声サンプル入力時は、最初に下記のような入力
を要求するメツセージを発声する。メツセージは前述の
ようにCD 1.8のLチャンネルに記録されている。 「″ピッ″と鳴ったらX番の文書の朗読を開始してくだ
さい。」 または 「パピノ″と鳴ったら、以下の文章を復唱して下さい。 ″子音の特徴をHHHII H” J前者の場合はCR
T61J二に朗読すべき文章が表示される。つまり、C
D i 8にはサンプル文章のコードデータも記録され
ている。 手動学習の場合は、マイタロホン26を介して端未使用
者の肉声を入力し、その認識結果をやはリホス1〜CP
U9に入力する。これと同時に、キボード72またはマ
ウスを用いて期待される認識結果を入力し、ホスl−C
P U 9にそのデータを転送する。ホストCPU9で
は、先程の自動処理と同様の学習処理を行なう。 入力すべきデータは、文章または単語の形でCRT6]
−上に表示されたり、或いはスピーカから発声される。 学習の手続きはCD18或いはハードディスク16に記
録されている。 なお、学習処理を行うプロセッサとしては、」1記ホス
トCPU9の他にペリフェラルCPU14の使用も可能
である。 次に、第4図は、前記第2図に示した音声インタフェー
ス二二ノ1−20のうちの音声出力ブロック25を示す
ブロック図である。 ここで使用されるニューラルネットを用いた音声合成方
式としては、例えば、前記の文献「″ニューラルボッ1
〜をパターン処理、信号処理、知識処理に使う”I]経
エレク1〜ロニクス、1988年8月、+−0日」に記
載の方式を適用することが出来る。 第4図において、CDバス19あるいはペリフェラルパ
ス13からテキス1〜バッファ42に出カフ す尺きテキス1ヘテ゛−タコートが入力される。バッフ
ァリングされたテキストコードはテキスト音声合成用ニ
ューラルネット2に入力され、ここでしかるへき発音記
号列か生成される。 なお、ここに用いるニューラルネットの構造は固定であ
り、音声帯域の比較的低速の処理であるため、本出願人
が既に出願している特願昭63−323302号に示し
たニューロップロセノサのうち、複数ニューロンを処理
する固定データバスのものを用いるか、又はDSP (
ディジタル信号処理プロセッサ)、RISCプロセッサ
を含む汎用プロセッサを用いることが出来る。 上記ニューラルネット2て生成された発音記号列は、音
素合成回路38によってディジタル音声に変換される。 このほかに、CD18から再生されたディジタル音、ま
たはディジタルサウンドシンセサイザ39によって生成
されたディジタル音も発生させることが出来る。 上記のテイジタル信号はディジタルミキサ35によって
適切に混合され、D/A変換器37によ8 ってアナログ信号に変換されてスピーカ27等を凍動す
る。ここでも先の音声入力ブロック24と同様に、テキ
スト朗読の特性を決めるテキス1〜音声合戊用ニューラ
ルネットの重み係数及び発生の特性を決める音素合成回
路38の音素データはペリフェラルバス]3を介してア
クセス可能である。 上記ニューラルネソ1〜の学習には、やはり自動学習及
び対話的な手動学習がある。 次に、自動学習の場合のデータの流れを第15図を用い
て説明する。 この学習には、音声穴カニニット学習時に用いたものと
同じデータ(前記第14図に記載のデータ)を用いる。 たたし、ここでニューラルネット2に入力される信号は
、文章のテキストコート(ASCIIコード等)である
。また、ニューラルネット出力の期待値としては、上記
文章の音韻データまたは発音記号である。 ホストCPU9は、ニューラルネットの出力と上記期待
値との誤差パワーがある規定値以−ドとなるようにニュ
ーラルネットの重み係数を調整する。 ここでは、例えば最急降下法等のアルゴリスムか用いら
れる。 次に、第5図は、画像インタフェースユニノI〜21の
概要構造を示すブロック図である。 第5図において、ます、画像認識の部分に関して説明す
る。 画像はビテオカメラ43またはイメージスキャナ44で
取り込まれる。いずれを用いるかの選択はマルチプレク
サ47及び48を用いて行なう。 前者は同期信号の選択、後者は画像信号の選択を行なう
。選択されたアナログ入力画像信号はA/D変換器45
によってディジタル化され、マルチプレクサ49を介し
てビデオメモリ52の入出カポ−1〜工101に書き込
まれる。 また、ヒデオカメラ43またはイメージスキャナ44の
同期信号に同期したビデオメモリ52の書き込み71−
レスは、書き込み71ヘレス発生回路46によって発生
され、マルチプレクサ51を介してビデオメモリ52の
アドレスポー1− A 1に与えられる。 画像認識ブロック54は、読みたし71ヘレスを発生し
、これをマルチプレクサ50を介してビデオメモリ52
のアドレスポートA2に与える。同時に、ビデオメモリ
52の別ポー1− I 102から入力画像信号を読み
取る。この認識結果はペリフェラルバス13に出力する
。また、画像認識ブロック54内のニューラルネット重
み係数の書き換えもペリフェラルパス13を介して行な
う。 この他に、画像信号帯域圧縮回路56は、ビデオメモリ
52の入出力ポートl102から入力画像信号を取り込
み、その圧縮された結果をCDハス19またはペリフェ
ラルハス13に出力する。 CDパス上9に出力された画像信号はCD↓8に配録さ
れ、ペリフェラルハスエ3に出力された信号は通信ユニ
ノ1−22を介して通信回線に出力される。 また、ビデオメモリ52から画像信号41!:域圧縮回
路56にデータを読み込んでいる間は、マルチプレクサ
52を介してアドレス入カポ−1−A 2にアドレスを
与える。 1 また、画像表示の部分に関しては、従来のパソナルコン
ピュータやワークステーションと変わるところはあまり
ない。 ます、−船釣なグラフィックスはグラフィックプロセッ
サ55て生威し、その結果(描画データ)をマルチプレ
クサ49を介してビデオメモリ52に一旦記憶する。こ
れと同時に、描画アドレスをマルチプレクサ51を介し
てアドレス入力ポートA、 1に与える。 描画データはCRTCCコン−ローラ53で発生ずるア
ドレスで読み出し、マルチプレクサ59及びD/A変換
器6oを通した後、CRT6]に表示する。このときC
RTコントローラ53は、マルチプレクサ50を介して
ビデオメモリ52のア1ヘレス入カポ−1−A2に読み
出し71ヘレスを与えると共に、CRT61にこれと同
期した走査信号を与える。 表示データとしては、上記の他に、通信回線を介して電
送される帯域圧縮された画像データ及びCD18に記録
された帯域圧縮された画像データ2 かある。これらを表示する場合には、画像信号帯域伸長
回路57が、ペリフェラルハス13またはCDパス上9
を介して帯域圧縮された画像データを受は取ってそれを
帯域伸長し、その部域伸長された画像データをマルチプ
レクサ59及びD/A変換器60を介してCRT6]−
に表示する。 次に、第6図は、画像インタフェースユニソ1〜2上中
の画像認識ブロック54を示すブロック図である。 この画像認識ブロック54は、画像認識ニュラルネッ1
−6及び画像認識前処理プロセッサ7から構成されてい
る。 ビデオメモリ52からの出力は、画像認識前処理プロセ
ッサ7において、ディジタルフィルタによる雑音除去、
色分析、輪郭抽出等の前処理を受ける。また、回転して
いる文字の認識に際しては、重心抽出、極座標変換及び
フーリエ変換等の連続処理を実行する。ここに用いられ
るのは画像処理用の汎用DSP等である。 ニューラルネン1−6は、前処理後側像データに対して
、ニューラルネット内の最も近いパターンとのマyチン
クを取り、その認識結果をペリフェラルハス13に出力
する。 第9図は、文字認識を行なう場合の処理内容を示す一実
施例図である。 ビデオカメラ43またはイメージスキャナ44から入力
された画像は、第9図(a)に示したように雑音を含み
、その傾き、大きさが揃っていない。そのため、まず、
2値化及び雑音除去を行なって第9図(b)に示すよう
な画像を得る。 上記の2値化に当たっては、成る画像領域の平均濃淡値
を算出し、これを基準にして0.1の判定を行なう。こ
れに続くディジタル雑音除去フィルタリングの内容は、
成る画像領域内の多数決を取り、その結果を該領域の中
心画素の値とする処理等である。 次に、各文字ごとに積分を行なうことにより、各文字の
重心計算を行なう。この際、同時に文字の分割も行なう
。例えば、第9図(c)のように、これまでの文字の重
心間のピッチPi−1,P:1209.をみて次の文字
の重心位置までのピッチP1を予測するとか、重心と同
時に分散をも観測していき、規定の分散値以下となるよ
うに領域を分割する等の方法によって実現することが出
来る。 この後、ラプラシアン等の空間微分フィルタリンク゛に
よって輪郭を抽出し、更に細線化処理によって文字を線
画素化するにの細線化処理は、例えば3X3画素の空間
領域の画素の論理積を取り、その結果を該空間領域の中
心画素の値とする処理を繰返し実行することによって実
現することが出来る。上記の繰返し回数は、細線化の結
果が土木の直線になるまで行なわれる。その判定は3×
3画素の空間領域で考えられる線画の候補のいずれかに
一致することを見て行なわれる。 次に、上記の文字線画を重心を中心にして極座標で表す
。すなわち、重心からのEFiHr及びX軸となす角O
を用いて表す。 ところで、文字AやBのように、文字の内側にも第9図
の63に示したようむ閉領域を形成する5 曲線を持っている文字もある。これも文字を認識する」
二で重要な特徴である。この場合、この内側の輪郭の部
分で極座標を求めると第9図(e)の64.65の曲線
で示したように、1つの角度Oに対して2個の極座標が
求まることになる。ここで曲線64は、第9図(d)で
示した閉領域を形成する曲線63に対応する。 この後、角度0の実空間から周波数fの空間にフーリエ
変換を行なう。これにより、文字の回転や大きさの違い
を取り除いた文字データを作成することが出来る。ここ
で、曲線64に対するフリエ変換結果は曲線77であり
、曲線65に対するフーリエ変換結果は曲線72である
。 以上が画像認識のための前処理である。 第10図は、上記の前処理データに基すいて文字認識を
行なうニューラルネットの一実施例を示すブロック図で
ある。 ここでは、入力データの各周波数成分が、該当する入力
端子fl、f2.f3....に与えられ、これらが第
上層のニューラルネットの各ニュ36 0ンに転送される。そして前記の文字Aのように閉領域
を持つ文字パターンに対しては、複数の周波数スベク1
−ルが算出されるので、入力端子fl、f2.f3..
..のセットを複数持つことになる。 また、第1層、第2Nニユーロンにわたって、各文字の
周波数パターンを、ニューラルネツ1〜の重み係数とし
て持っている。各ニューロンは、重み係数として持って
いる文字周波数パターンと入力文字周波数パターンに従
って以下のような出力μを送出する。 ここで上記の非線形関数f(x)は、メモリに記憶され
たシグモイド関数ルックアップテーブル74によって実
現され、その関数の内容は以下のような単調増加関数で
ある。 f(X)=工/〔工+eXp(−X)〕 ・ (2)ま
た、第2Mニューラルネットからは最終的な認識結果が
出力され、これしこ続くエンコーダ73からは文字コー
1〜(アスキコード等)として文字画像認識結果をペリ
フェラルハス13に伝える。 第1−0図は、上記のようなニューラルネットを直接的
に実現したものである。ここでは各ニュロン積和回路7
6.75で積和演算が行なわれ、シク゛モイド関数ルッ
クアップチーフル74て非線形関数変換か行なわれる。 また、各層ニューロンに対しては、ペリフェラルハス1
3を介してその重み係数の読み書きを行なうことの出来
る手段が設けである。 次に、第1]。図は、本出願人が既に出願(特願昭63
−323302号)しているニューラルネット用高速信
号処理プロセッサを用いて上記のニューラルネットを構
成した実施例のフロック図である。 ここでは入力端子77から周波数成分直列デタFl、F
2.F3・・を順次入力する。第1−層ニューラルネッ
1への各ニューロンはシスI〜リック・プロセッサ・ニ
レメン1−で実現されており、上記直列データか第1W
Jの各ニレメンI−に順次供給される。また、積和の完
了した順から直列データの形で順次出力される。このよ
うな直列テークのため、第1RiJの積和結果は、たた
」個のシタモイ)−関数ルックアップテーブル74た(
プで非線形関数変換が行なわれる。また、第1Nニユー
ラルネツ1〜と第1Nニユーラルネツ1〜の結線はただ
土木で済む。 また、第2層ニューラルネットは、第]層ニュラルネッ
1−からの直列テークを受は取り、その直列出力テーク
は、やはりたた]−個のシグモイ1〜関数ルックアンプ
テーブル74たしづて非線形関数変換か行なわれ、その
結果かエンコータ80を介してペリフェラルバス」−3
に転送される。 処理速度は、シストリックプロセッサニレメン1〜単位
でパイプライン処理を行なっているため、工入力データ
/毎クロックサイクルと速い。例えばタロツクサイクル
か100 n sの場合、100nsことに1データを
入力し、処理することが出来る。 次に、第16図は、画像インタフェースユニノ9 1〜2」−の学習法の処理の流れを示す図である。 ます、自動学習の場合には、端太使用者が所定の様式に
所定の文字を記入し、これをイメージスキャナ44等で
読め込んでCD18に記録しておく。」1記の所定様式
および文字に苅応するニュラルネノトの出力期待値は予
め判っている。 学習時にはCD 1.8に記憶されている」1記すンプ
ルデータを画像信号帯域伸長回路57及びヒデオメモリ
52を介して画像認識ブロック54に入力する。これと
同時に上記サンモル画像テータに対応するニューラルネ
ジ1〜出力期待値をホス1−CPU9に転送する。画像
認識フロック54の認識結果もやはりホストCPU9に
転送され、上記の期待値と比較して、再急降下法等の適
応化アルゴリズムを用いて画像認識ブロック54内のニ
ュラルネットの重み係数を更新する。なお、この学習方
法はパックプロパゲーション法と呼ばれている。 次に、対話型の学習の場合には、イメージスキャナ44
で手書き文字等を入力した後、それをC0 RT 61に表示しながら、それらがどの文字に当たる
かをキーボード等によって入力する。その際、既に設定
しである重み係数を用いて認識した結果を重ねることも
ある。このうちで修正すべきものたけをマウスでセレク
トした後、キーボー1〜で修正する。この方が作業スピ
ードか高い。 第17図は、」−記の初期認識状態におけるCRTモニ
タ上の画面の一例を示す図である。 第17図に示すように、」二段にはイメージスキャナ4
4で読み取った文字がそのまま表示される。 また下段には、既にニューラルネッhに設定しである係
数を用いて認識した結果が表示されている。 第17図の例では、端太使用者はΔ、B、C。 D、E”の手書き文字を入力している。しかし、手書き
文字II DI+が特に文字″○″とまきられしく、初
期の係数設定では、これを○″と誤認識してしまった場
合を示している。 端太使用者か自分の手書き文字をII DI+と認識し
て欲しい場合は、マウスやキーポー1〜等を用いて下段
の認識結果をD ”に修正する。すると端末は、このよ
うな手書き文字をrr D uと認識するようにパック
プロパゲーション等によって学習を行なう。この場合、
キーボードからの入力文字が出力の期待値となり、それ
がホスl−CP U 9に渡されて誤差計算を行なった
後、この誤差を少なくするへく、最急降下法等のアルコ
リズムに従って画像認識ニューラルネノ1−の重み係数
を修正していく。 次に、命令認識動作に関して説明する。 マンキントシュのようなパーソナルコンピュタでは、キ
ーボー1〜を用いて命令を入力するか、或いは画面上の
アイコン/メニューをマウスのようなポインティング装
置を使用して選択することによって命令を入力した。こ
のような従来の命令指示方法では、命令(コマンド)認
識に曖昧性がない。しかし、このため、融通性の焦い応
答を行なう可能性がある。たとえば、キーボード入力の
場合には、コマンド入力が誤り(形式的に適合していな
い命令)であると、もう−度正しい入力をするように拒
否情報(通常は警告音声を発する)を出す。そして端未
使用者か正しいコマンI−を入力するまで全く応答しな
い。 これに対して、本発明の端末においては、命令の判定に
もニューラルネノ1〜を用いてフレキシブルな命令判定
を行なうことか出来る。これによって誤ったコマンド入
力に対しても、その内容を確認したり、またはそれを新
たに学習して今後使用出来るようにすることが出来る。 以下、第18図で命令認識過程について説明し、それを
実現する手段を第19図以下で説明する。 ます、端末のCRT6 Uに第18図(a)に示したよ
うなマルチウィンドウ画面が表示されているものとする
。この中では、グラフを描画した画面が一番−にに来て
いる。この状態でこのグラフをg r a p h 1
 ”としてCD(コンバク1〜デイスク)18に記録す
る操作を行なう場合を例として説明する。 上孔の記録操作を音声またはキーボードによって指示す
るか、以下の説明ではこの区別はしない。 これは、以下に説明する命令認識ブロックが、音43 声またはキーボー1−いずれの入力に対しても同様の命
令認識処理を行なうからである。 ます、最も完全な命令形態を第」−8図(b)に示す。 ここでは全表示されているrr g y+ ap l”
”’を“gr・aphl”というファイル名で、CD中
の階層的なフォルダのうち”g Pap hsr+とい
うフォルダに記録することを一度に指示している。 フォルダとは、−塊のファイル群をまとめておくための
グループ名のようなものである。 ところで、このようなコマンドを一気に入力することは
困難である。特に音声入力では困難である。そこで、本
実施例ては、第18図(c)に示すような対話処理によ
って以下のような柔軟な対応が出来るようになっている
。 ます、単に“記録せよ″というコマンl−’ If s
av e ”を入力したとする。ただしスペルを誤って
、もしくは下手な英語の発音でII 5abeI+と入
力したとする。従来の端末であれば、このような誤った
命令入力は拒絶する。しかし、本実施例の端末では、ニ
ューラルネノ1へを用いることにより、4 登録されている命令のうちから上記” s a b e
にもっとも近い命令” s a v e”を連想し、ユ
ザに”Do  you  want、to  5ave
?”と問いかけて確認を取る。 以下、上記の命令認識処理の詳細を節玉9図及び第20
図を用いて説明する。 第19図は、音声命令入力を行なう場合の命令認識ニュ
ーラルネットの動作を示した図である。 第19図において、音声認識ブロック24で認識された
音声入力命令は、デュアルポートメモリ11を介して単
語単位で文字レジスタ78に入力される。そして単語″
5abe″が揃った段階でそのテキス1へデータの文字
コードを第19図の命令認識ニューラルネット77に入
力する。 5abe”という誤った単語を音声認識ブロックに登録
していない場合には、これが単語としては認識されず、
文字レジスタ78にはIf str b” e″′とい
う文字の連続データとして転送される。この場合も、こ
れに続く単語が明確な場合もしくはこれ以上のデータが
入力されない場合は、」二記4文字を一つの単語として
取り扱い、命令認識ニューラルネノ1へ77に入力する
。 これにより、このような辞書には黒い誤った命令入力に
も対処することか出来る。 命令認識ニューラルネソl−77は、命令文字コI−を
係数の形で記憶している第1Mニューラルネット、及び
その出力を受けて判定結果を強調する第1層ニューラル
ネットからなっている。 第1層ニューラルネット〜は、複数の第1Nニユーロン
82からなり、入力文字コー1−と記憶している文字コ
ー1〜とのマノチンクを取り、これらのパターンが接近
しているニューロンはど高い出力を示す。 第2Mニューラルネソ1〜は、複数の第2層ニューロン
83からなり、」二記第1 Mニューロン82の判定結
果を受は取り、その入力に対する処理結果をマルチプレ
クサ84を介して再び第2層ニュロン83に入力する。 第2層ニューラルネノI−の重み係数は、自分自身から
の入力によって出力値か増加し、他ニュロンからの入力
によっては出力が抑制されるように設定されている。こ
れによって他出力に比較して少しでも値の高いものはま
すます強調され、そうでないものはますます小さくなっ
ていく。これにより、第1層ニューラルネットの判定結
果を強調し、最も確からしい命令候補をたた一つ選択す
る。その結果はプログラマフル命令テコーダ85によっ
て命令コードに変換される。 命令コードは、命令コード/文字コート変換テブル80
によって出力文字コードに変換され。 入出力文字比較器79によって入力文字コートと比較さ
れる。もし、入力された文字が命令認識ニューラルネノ
1〜77に登録されているなら、入出力文字コードは一
致する。しかし、先の例のような誤った入力″5abe
″が命令認識ニューラルネット77に登録されていない
場合には、命令認識ニューラルネッh 77はrr 5
abe++文字コトに最も類似しているrr sav 
euに対応する命令コートを出力し、これを変換テーブ
ル80によって5ave″という出力文字コードに変換
す7 る。 」二記の場合には、入出力文字コードが一致しないため
、比較器79がこれを検出し、ホスl−CPH1の誤り
処理ルーチンを起動する。 第20図は、」二記の誤り処理ルーチンを示す図である
。 第20図において、ます、命令認識ニューラルネット7
7によって実行されるオペレーションコド認識ルーチン
により、  s a v e ”という命令コードが誤
り処理ルーチンに伝えられる。 ここで、まず入力文字は正しいか否か、すなわち命令認
識ニューラルネノ1−77に登録されたものか否かがチ
エツクされる。これは、さきほどの比較器79の出力を
用いることによって実現される。 入力命令が正しいならば入出力文字コーI〜は一致して
おり、正しくない場合は不一致となる。 入力文字か正しい場合は、次のオペランド処理ルーチン
に移行する。また、正しくない場合は、以下のメソセー
ジを音声またはCRT上のメッセ48 ジとして示し、命令の真意を確認する ”Do  you  want  to  5ave?
”ここで端未使用者がyeS″と入力すると、以下のメ
ツセージを出して誤った入力を新たに登録するかどうか
尋ねる。 “D o  y o u  w a n 1;  t 
o  r e g I S t a rsabe  a
s  5ave?” 上記の処理は、ユーザの癖で今後も” s a b e
という誤った入力が度々行なわれる可能性がある場合に
対処するためである。 」二記の質問に対して“yeS”と答えると、命令認識
ニューラルネット77及び命令ツー1−/文字コード変
換テーブル80に5abe゛′を新規登録する。これに
より、今後“5abe″′と入力しても5aveコマン
ドが実行される。 また、  nO″と入力すると、以下のメッセジを出し
て正しいコマンドを要求する。 “Enter the  r]、ght comman
d!”また、」二言己のように” s a v e”と
“5abeのように類似したコマンドを登録する他に、
全く異Aっだコマンドを登録することも出来る。例えば
” r e c o r d”を” s a v e 
”と登録したい場合には、別途強制的に命令認識ニュー
ラルネット77及び命令コード/文字コーI〜変換テー
ブル80に“r e c a r d ”を新規登録す
る。この場合には、下記のような対話形式の設定法を用
いる。 ユーザ:   register  recordas
  5ave!” 端末応答: “d o  y o u  w a n 
t  t 。 regi、5ter  record  as  th
ecommand  5ave?” ユーザ:   yes 以上のように、元来の命令文字コー1くと異なる命令コ
ー1〜が入力された場合に対しても、1−ノブダウン的
な学習(ユーザ管理のもとての学習)によって柔軟に対
応することが出来る。このような学習は、純粋に信号処
理によって学習を行なうハックプロバケーション法しこ
比較して、命令認識のような明確な正誤が判定出来るよ
うな場合に右動である。 次に、音声による命令入力の場合と異なり、キボード入
力の場合には、スペルの間違いを考慮して“s a b
 e    s e i b u ”等の入力に苅して
も、  s a v e ”命令を発行するようにニュ
ロの重み係数を設定する。 また、第2王図に示した手書き命令入力のように画像認
識を用いて命令を入力する場合には、」二記のスペル間
違いと共に、  S″′を5”と誤ったようなrL 5
8VcI+に対しても” s a v e ”と認識す
るようのいニューロの重み係数を設定する。 この設定は誤りの可能性のある事例、例えばa b e
 ’   ” S a v e”をも” s a v 
e”とJ忍J哉するように登録することによって実現す
ることか出来る。 また、音声1手書き文字画像、キーボー1−入力を検出
し、それに最も適したニューロの重み係数を設定する。 これらの係数は予めニューロプロセッサのローカルメモ
リに設定されており、命令入力手段によってこれらから
選択する。 次に、命令が正しく解釈されると、命令コート1 は命令オペランド処理ルーチンにはいる。 第22図は、上記の処理フローを示す図である。 ここでは命令実行に必要なオペランド(変数、パラメー
タ)を認識し、必要であれは使用者に催促する。この場
合には、まず最初に、入力された命令コー1−に続く単
語かあるかどうかをみる。無い場合はオペランドテーブ
ル86のデータ確定フィール1−を児にいく。 このオペラン1くチーフル86は各命令ごとに登録され
ており、命令を実行するために必要なオペラン1−の情
報を持っている。例えは、  5ave命令に対しては
、s aveする対象、S a V eする際のファイ
ル名、記憶する媒体、記憶先のフォルダ名の以上4つの
オペランドを指定する。しかしこの中で必須なものはI
′l1J3者であり、これを必須項目フィールドで指定
している。確定フィールドはこれらのオペランドか既に
入力されて確定しているかどうかを示すフィール1〜で
ある。第22図に示す状態では、まだ、とのオペランド
も確定していない。 2 ところで、自然言語では各オペランドを参照するのに、
これに付随する冠詞、前置詞、名詞等を用いることが出
来る。オペラン1−テーブルはこの情報をも記憶してい
る。 例えば、5aveする対象を指示する場合は、s a 
v e t h :i、 s −匿土a、、q ”とい
ったように、thisという冠詞を用いるのが自然であ
る。 また、前置詞II a5I+の後のパラメータはファイ
ル名、前置詞LL onI+のあとのパラメータは記録
先の記録媒体(CD等)、前置詞If i ■】Hのあ
とのパラメータはフォルタ名となる。このオペラン1−
テーブルも使用者によってプログラマブルである。 さて、このようなオペラン1〜チーフルのどのステー1
〜(状態)にあるかトこよってその処理が変わる。 第23図は、」二記の状態遷移に示した図である。 第23図において、命令がまた入力されていない状態で
は、オペレーションコート入力待ちの状態(ステートO
)にある。ここで命令が入力され、先の例のように後に
続く単語か無い場合は、順次次のステー1−(ステート
1)に移行する。 そのステー1〜1において、第22図中のオペランドテ
ーブル86の右端に記載されている該当メンセージへの
ポインタaに従ってメモリ(第1図主記憶↓O)をアク
セスし、第22図に示すように使用者に5aveする対
象の入力を催促するための下記メソセージを発行する。 ”Wh、at  do  you  want  t。 5aVeQ” −に記のメツセージを発行した後、T秒だけ使用者から
の入力待ちをする。T秒以」二経って、しかも1回目の
待ちであった場合は、再び使用者に上記メツセージを発
行する。そうでない場合はこの命令はキャンセルされた
ものとみなされ、下記のメソセージを発行してオペレー
ションコード認識ルーチンに戻る。 ”En ter  the  next  comma
nd !”これに対してオペラン1−入力があった場合
は、音声認識ブロックから認識結果と同時に発行される
品詞分類コートに従って、その品詞を認識し、オペラン
ドテーブルを参照して命令の組立(命令に必要なパラメ
ータの収集)を行なうと同時に、第23図に従って状態
(ステート)を更新していく。 組立か完了しない間は、再び第22図の先頭の処理、す
なわち続く単語の右前判定に戻る。 置型の組立が完了する、すなわち命令に対する必須オペ
ランドが全て確定した段階で、フルセラ1へのコマンド
がO8(オペレーティングシステム)やアプリケーショ
ン・プログラムに渡される。 次に、第23図の状態遷移に関して、さらに詳細にその
動作を説明する。 前記のように、命令入力待ちの状態(ステー1−〇)か
ら、これに続く単語が無い場合は次のステ1−1に移行
して5aveする対象の入力を催促するメツセージを発
行するが、ここで、次の単語が入力されると、その内容
にしたかってステー1へを遷移する。例えば、冠詞t 
h コ、 sか入力された場合にはステート1に留まり
、これに続く名詞を5 saveする対象とする。 もし、前記のメソセージによって5aveする対象の入
力を催促したにもがかわらす前置詞inが入力された場
合は、フォルタ名を入力するステ1−4に遷移し、これ
に続く名詞をフォルダ名として登録する。ただし、発行
したメツセージで要求したものとは異なるものが来たこ
とから、以下のような警告メツセージを発行することも
ある。 “Not  the  ob、ject  to  b
es  a  v  e  d  、   l) u 
 t;    t  h  e   n  a  rn
  e    o  ft h e  f o ]、 
d e r  i s  a c q u i r e
 d 。 このように、各段階の入力に対して、その内容をチエツ
クしながら命令を組立ていく。 以」二の状S遷移はオペラン1−テーブルに従って構成
され、このテーブルは各命令に固有のものであると共に
、使用者がプログラム出来るものである。 次に、データの携行、移植について説明する。 第1図に示したように、命令認識用ニューラルネノ1〜
77とも合わせ、メインバス」2及びペリ6 フエラルパス13を介してメモリカード23とテタのや
り取りが可能である。これにより、使用者固有の使い方
(命令認識方法)か携行することが出来、したがって他
の端末にこれを移植することか出来る。 第7図はメモリカード23の一実施例を示すブロック図
である。 第7図では、メモリとして揮発性の半導体メモリ68を
使用した場合を例示しているが、不揮発性:メモリを使
用することによって、電池バンクアンプ制御回路66及
び電池67を省略することも勿論可能である。 第7図に示すメモリカード23は、接続コネクタ70を
介して端末本体に接続される。この接続は直接電気的に
行なうことも出来るし、或いは電磁結合や光結合のよう
な間接的な結合で行なうことも出来る。 次に動作を説明する。A端子からアドレスか入力され、
■/○端子を介してデータのやり取りが行なわれる。デ
ータの書き込みを行ないたい場合は端末から書き込み要
求信号WRか入力される。 この信号はメモリアクセス許可回路69に入り、ここで
実際にメモリを書き込む際に用いられる書き込みイネー
ブル信号WENが発行される。たたし、これを行なうた
めには、端末はメモリアクセス許可回路69の特定のア
1〜レスに丁/○端子を介して定められたパスワードを
書き込む必要がある。 また、書き込み時には、書き込み禁止スイッチ7]が禁
止側に設定されていないことが必要である。この書き込
み禁止スイッチ7エにより、許可を受けたものだけがメ
モリカード23に書き込みを行なうことが出来る。また
許可を受けたものでも、不用意にデータを泪去しないよ
うに、書き込み禁止スイチ71を禁止側に設定しておく
ことも出来る・ なお、メモリアクセスか許可された場合には、メモリア
クセス許可信号ACCPが発行される。 これによって使用者もしくは端末が書き込み可能である
ことを検知し、書き込みを開始することが出来る。 」二記と同様に、メモリカード23の内容を呼び出す時
も、読みたし要求信号RRが入力される。 この信号はメモリアクセス許可回路69に入り、ここで
実際にメモリ内容を読み出す際に用いられる読み出しイ
ネーブル信号RE Nが発行される。 ただし、これを行なうためには、端末はメモリアクセス
許可回路69の特定のアI−レスにI10端子を介して
定められたパスワーI・を書き込む必要がある。 また、電池バンクアップ制御回路6(3は、メモリカー
ド23が端末本体から切り離されているときは電池67
か1らメモリ68に給電し、端末本体に接続されている
場合は端末本体の電源から給電すると同時に、電池67
の充電を行なうように制御する。 第12図は本発明の一応用例を示すブロック図であり、
音声インタフェースユニッ1へのみヲ端末本体から切り
離してポータプル化した場合を例示する。 9 このポータプル音声インタフェースユニノ1へ88は、
音声入力ブロック24、音声出力ブロック25、これら
を制御するためのペリフェラルCP U 14及びペリ
フェラルメモリ82という音声認識合成に必要な最小限
の構成部品からなっている。 ここでは、先の命令認識の基本的なもののみがペリフェ
ラルCI) U 1−4で処理される。また、ニューラ
ルネジ1〜処理もホス1〜CPU9の積和処理プログラ
ムを用いて遅いながらも実行することが出来る。 このポータプル音声インタフェースユニット88の主目
的は、任意の時間、任意の場所で使用者の口述筆記を可
能にすることである。 その口述筆記されたデータは、−旦ペリフエラルメモリ
82またはメモリカード23に入力される。そしてペリ
フェラルメモリ82またはメモリカード23を端末本体
に接続することにより、口述筆記されたデータをワード
プロセッサ・アプリケーション・プロクラムによって清
書したり、通0 信回線を通して他の計算機や端末に転送したりすること
が出来る。 第13図は、」二記の使用法の具体的な一例を示した図
である。 ここではラップI〜ツブ型端末本体87の1部となって
いるポータプル音声インタフェースユニノl−88及び
メモリカー1く23か端末本体87から取り外して携行
可能となっている場合を例示している。 図示のように、このユニノhを端末本体から取り外して
通勤電車に持込み、ヘッIヘセッ1−89に付属のマイ
クロホン90を用いて口述筆記することが出来る。勿論
、歩行中や車、飛行機等で移動中にも入力可能である。 なお9上はモニタ用のイヤホーンである。 」二記の構成により、文章入力時間を大幅に節約するこ
とが出来る。 【発明の効果1 本発明によれば、ニューラルネソ1〜を用いたことによ
り、音声入力、手書き文字入力に柔軟に対応することの
出来るコンピュータ端末を実現する出来る。また、ニュ
ーラルネットの柔軟な処理及び知識データベース(オペ
ラン)へチーフル等)による正確な処理を組合せたこと
によって、より高位レヘルでの命怜認識等も柔軟に処理
することが出来る。これらの柔軟性は、使用者固有の操
作嗜好や発声、筆記パラメータ等を学習することによっ
て実現されている。また、本発明の横取によれば、」1
記のようム使用者[Ir11有のデータを、ニュラルネ
ン)−の重み係数や操作環境パラメータの形で、メモリ
カードに記憶して携行することが可能であり、これによ
って使用者固有の操作環境を保存すると共に、他の端末
にダウンロー1〜して使用者向けにバーソナライスドす
ること出来る、等の多くの優れた効果がある。
【図面の簡単な説明】
第1図は本発明のパーソナライズド端末の一実施例の全
体構成を示すブロック図。 第2図は音声インタフェース・二二ノ1への一実施例の
ブロック図。 第3図は音声入力ブロックの一実施例のブロック図。 第4図は音声出力ブロックの一実施例のブロック図。 第5図は画像インタフェース・ユニットの一実施例のブ
ロック図。 第6図は画像認識ブロックの一実施例のブロック図。 第7図はメモリカートの一実施例のブロック図。 第8図:音声入力ブロック内におけるニューラルネット
の学習方式の流れを示す図。 第9図は手書き文字認識アルゴリズムの一実施例図。 第10図は画像認識用ニューラルネットのテタの流れを
示す図。 第↓]図はデータの流れを直接回路化した場合の回路構
成を示す一実施例図。 第12図はポータプル音声インタフェース・ユソI〜の
一実施例のフロック図。 第13図はポータプル音声インタフェース・ユ3 ニット使用方法の一例を示す図。 第」4図はCD上に記憶された音声認識用学習データの
フォーマノ1−の−倒閣。 第15図は音声用カフロック内ニューラルネッ1への学
習方式の流れを示す1g。 第16図は画像インタフェース・ユニット内画像認識ブ
ロックの学習方式の流れを示す図。 第17図は画像認識された文字の修正法を示す図。 節玉8図(a)は操作対象のマルチウィン1〜つ端末画
面の一例を示す図。 節玉8図(b)は完全な命令形態の一例を示す図。 節玉8図(c)は対話処理による命令入力の一例を示す
図。 第1−9図:音声命令入力の場合の命令認識ニュラルネ
ソ1への動作 第20図は誤り処理ルーチンの動作の一実施例を示す図
。 第21図は手書き命令入力の場合の命令認識ニ4 ューラルネノ1〜の動作の一例を示す図。 第22図は命令オペランド処理ルーチンの一実施例図。 第23図は命令オペランド処理ルーチン状態遷移図。 〈符号の説明〉 王:命令認識用ニューラルネノ1〜 2:テキス1〜音声合成用ニューラルネノ1〜3:音韻
特徴抽出用ニューラルネット 4:音声認識用辞書 5:音韻選択回路 6:画像認識ニュ〜ラルネノ1− 7:画像認識前処理プロセッサ 8:通信条件設定用ニューラルネノ]・9:ホス1〜C
PU ]O:主記憶 工1:デュアルポ−1へメモリ 工2:メインバス 13:ペリフェラルハス 14:ベリフエラルC丁)U l5:ハートディスクコン1〜ローラ 16:バー1ヘテイスク 17 : CDコントローラ ]8:コンバク1へ・ディスク 19:CDハス 20:音声インタフェースユニット 2i:画像インタフェース二二ツ1− 22二通信二二ノ1〜 23:メモリカー1〜 24:音声入力ブロック 25:音声出力ブロック 26:マイク 27:スピーカ 29:単語認識ブロック 30:テキス1〜バッファ 31 : A/D変換器 32:ディジ音声音声テ サ 33:認識音韻列選択用マルチプレクサ34:入力音声
前処理回路 夕選択用マルチプレク 35:ミキサ 36:音韻候補抽出用DPマノチンク回路37’:D/
A変換回路 38:音素合成回路 39:ディジタル・サウンド・シンセサイザ42:テキ
ス1〜バッファ 43:ビデオカメラ 44:イメーシスキャナ 45:A、/D変換器 46:書き込みア)−レス発生回路 47:マルチプレクサ 48:マルチプレクサ 49:マルチプレクサ 50:マルチプレクサ 51:マルチプレクサ 52:ビデオメモリ 53二CRTコン1〜ローラ 54:画像認識ブロック 55:クラブインクブロセソサ 5G:画像信は嵜域圧縮回路 7 57:画像信号帯域伸長回路 59:マルチプレクサ 60 : D/A変換器 61:CRTデイスプレィ 63:文字閉領域を形成する曲線 66:電池パックアンプ制御回路 67:電池 68:半導体メモリ 69:メモリアクセス許可回路 70:端末/カー1〜間接続コネクタ 7」:書き込み禁止スイッチ 73:エンコータ 74ニジタモイト関数ルソタアツプテーブル75:第2
層ニューロン積和回路 76:第1.Nニューロン積和回路 77:命令認識ニューラルネタ1− フ8二文字レジスタ 79:入出力文字比較器 80:命令コード/文字コーi〜変換テーブル81:文
字入力端子 8 82:第2層ニューロン 83:第2層ニューロン 84:データ巡回用マルチプレクサ 85:プロクラマフル命令デコーダ 86:オペラントテーブル 87:ランブ1−ツブ型端末本体 88:ボータモル音声インタフェース・ユニット89:
へラドセラ1〜 90:マイク 91:イヤホーン

Claims (1)

  1. 【特許請求の範囲】 1、音声認識、テキストデータ朗読、文字・画像認識及
    び命令認識のうちの少なくとも選択された二つ以上を行
    うパーソナル端末であって、音声認識手段、テキストデ
    ータ朗読手段、文字・画像認識手段及び命令認識手段の
    うちの少なくとも二つ以上にニューラルネットを用いる
    と共に、それらの手段内に知識ベースを設け、かつ、各
    ニューラルネットの重み係数、メモリ及び非線型変換用
    のメモリルックアップテーブルの内容を、ホストCPU
    に接続されているメインバス又は周辺回路が接続されて
    いるペリフェラルバスを介して読み出し・書き込み可能
    に構成し、さらにニューラルネットの入出力端子も上記
    データバスに接続することにより、各ニューラルネット
    の重み係数及び知識ベースを保持したメモリをホストC
    PUまたはペリフェラルCPUからアクセス可能に構成
    したことを特徴とするパーソナライズド端末。 2、第1請求項に記載のパーソナライズド端末において
    、音声認識手段、テキストデータ朗読手段、及び文字・
    画像認識手段の入力として、光ディスクまたは磁気ディ
    スクを記憶媒体として記憶されたサンプルデータを与え
    、該サンプルデータと同一記憶媒体または別の記憶媒体
    に記憶された認識または朗読結果の期待値とを比較する
    ことにより、認識またはテキスト朗読用のニューロプロ
    セッサの重み係数を調整する手段を備えたことを特徴と
    するパーソナライズド端末。 3、第1請求項に記載のパーソナライズド端末において
    、ニューラルネットを内蔵した音声認識手段内に設けら
    れた音声入力ブロックの入力として、端未使用者の音声
    、通信回線を介して与えられる相手方の音声、及び記憶
    媒体に記録された音声を任意に選択して与える手段を備
    えたことを特徴とするパーソナライズド端末。 4、第1請求項に記載のパーソナライズド端末において
    、ニューラルネットを内蔵した音声認識手段内に設けら
    れた音声入力ブロック内の単語認識ブロックの入力とし
    て、文字・画像認識手段で認識された文字データを入力
    する手段を備えたことを特徴とするパーソナライズド端
    末。 5、第1請求項に記載のパーソナライズド端末において
    、認識を行なう際に、音声情報と画像情報とを組合せて
    認識を行なう手段を備えたことを特徴とするパーソナラ
    イズド端末。 6、第1請求項に記載のパーソナライズド端末において
    、各ニューロプロセッサの重み係数、及び操作環境パラ
    メータを含むメモリ上の知識ベースを、携行可能なメモ
    リカードにダウンロードする手段とメモリカードからア
    ップロードする手段とを備えたことを特徴とするパーソ
    ナライズド端末。 7、第6請求項に記載の、ニューロプロセッサの重み係
    数及び知識ベースをメモリカードとの間で転送する手段
    を有するパーソナライズド端末において、各ニューロプ
    ロセッサの重み係数及び知識ベースの読み出し・書き込
    みを禁止する手段を備えたことを特徴とするパーソナラ
    イズド端末。 8、第1請求項に記載のパーソナライズド端末において
    、認識結果が正しいか否かを端未使用者に確認させる手
    段を備えたことを特徴とするパーソナライズド端末。 9、音声認識、テキストデータ朗読、文字・画像認識及
    び命令認識のうちの少なくとも選択された一つ以上を行
    うパーソナル端末であって、音声認識手段、テキストデ
    ータ朗読手段、文字・画像認識手段及び命令認識手段の
    うちの少なくとも一つ以上にニューラルネットを用いる
    と共に、それらの手段内に知識ベースを設け、かつ、各
    ニューラルネットの重み係数、メモリ及び非線型変換用
    のメモリルックアップテーブルの内容を、ホストCPU
    に接続されているメインバス又は周辺回路が接続されて
    いるペリフェラルバスを介して読み出し・書き込み可能
    に構成し、さらにニューラルネットの入出力端子も上記
    データバスに接続することにより、各ニューラルネット
    の重み係数及び知識ベースを保持したメモリをホストC
    PUまたはペリフェラルCPUからアクセス可能に構成
    し、かつ、上記ニューロプロセッサの重み係数及び操作
    環境パラメータをメモリカードとの間で転送する手段を
    有し、さらに、音声インタフェースユニット、メモリカ
    ード、ペリフェラルCPU及びメモリの一部を取外し可
    能に構成すると共に、それらを電池駆動で携帯可能に構
    成したことを特徴とするパーソナライズド端末。
JP1211320A 1989-08-18 1989-08-18 パーソナライズド端末 Pending JPH0375860A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP1211320A JPH0375860A (ja) 1989-08-18 1989-08-18 パーソナライズド端末
US07/567,010 US5163111A (en) 1989-08-18 1990-08-14 Customized personal terminal device
US08/206,195 US5426745A (en) 1989-08-18 1994-03-03 Apparatus including a pair of neural networks having disparate functions cooperating to perform instruction recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1211320A JPH0375860A (ja) 1989-08-18 1989-08-18 パーソナライズド端末

Publications (1)

Publication Number Publication Date
JPH0375860A true JPH0375860A (ja) 1991-03-29

Family

ID=16603998

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1211320A Pending JPH0375860A (ja) 1989-08-18 1989-08-18 パーソナライズド端末

Country Status (2)

Country Link
US (2) US5163111A (ja)
JP (1) JPH0375860A (ja)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05290013A (ja) * 1992-04-06 1993-11-05 Sharp Corp ニューラルネットワーク演算装置
JP2018189904A (ja) * 2017-05-11 2018-11-29 オリンパス株式会社 収音装置、収音方法、収音プログラム、ディクテーション方法、情報処理装置及び情報処理プログラム
JP2020064638A (ja) * 2017-09-29 2020-04-23 シャンハイ カンブリコン インフォメーション テクノロジー カンパニー リミテッドShanghai Cambricon Information Technology Co.,Ltd. 画像処理装置及び方法
US11397579B2 (en) 2018-02-13 2022-07-26 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11437032B2 (en) 2017-09-29 2022-09-06 Shanghai Cambricon Information Technology Co., Ltd Image processing apparatus and method
US11442786B2 (en) 2018-05-18 2022-09-13 Shanghai Cambricon Information Technology Co., Ltd Computation method and product thereof
US11450319B2 (en) 2017-09-29 2022-09-20 Cambricon (Xi'an) Semiconductor Co., Ltd. Image processing apparatus and method
US11513586B2 (en) 2018-02-14 2022-11-29 Shanghai Cambricon Information Technology Co., Ltd Control device, method and equipment for processor
US11544059B2 (en) 2018-12-28 2023-01-03 Cambricon (Xi'an) Semiconductor Co., Ltd. Signal processing device, signal processing method and related products
US11609760B2 (en) 2018-02-13 2023-03-21 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11630666B2 (en) 2018-02-13 2023-04-18 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11676028B2 (en) 2019-06-12 2023-06-13 Shanghai Cambricon Information Technology Co., Ltd Neural network quantization parameter determination method and related products
US11675676B2 (en) 2019-06-12 2023-06-13 Shanghai Cambricon Information Technology Co., Ltd Neural network quantization parameter determination method and related products
US11703939B2 (en) 2018-09-28 2023-07-18 Shanghai Cambricon Information Technology Co., Ltd Signal processing device and related products
US11762690B2 (en) 2019-04-18 2023-09-19 Cambricon Technologies Corporation Limited Data processing method and related products
US11789847B2 (en) 2018-06-27 2023-10-17 Shanghai Cambricon Information Technology Co., Ltd On-chip code breakpoint debugging method, on-chip processor, and chip breakpoint debugging system
US11847554B2 (en) 2019-04-18 2023-12-19 Cambricon Technologies Corporation Limited Data processing method and related products
US11966583B2 (en) 2018-08-28 2024-04-23 Cambricon Technologies Corporation Limited Data pre-processing method and device, and related computer device and storage medium

Families Citing this family (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0375860A (ja) * 1989-08-18 1991-03-29 Hitachi Ltd パーソナライズド端末
JPH06195326A (ja) * 1992-12-25 1994-07-15 Canon Inc 文書入力方法及び装置
JP2764343B2 (ja) * 1990-09-07 1998-06-11 富士通株式会社 節/句境界抽出方式
US7221475B1 (en) * 1990-10-13 2007-05-22 Canon Kabushiki Kaisha Color image processing apparatus
JPH04319731A (ja) * 1991-04-19 1992-11-10 Hitachi Ltd ファジィ知識の獲得方法
EP0595889B1 (de) * 1991-07-25 1997-10-15 Siemens Aktiengesellschaft Österreich Verfahren und anordnung zum erkennen von einzelwörtern gesprochener sprache
US5305244B2 (en) * 1992-04-06 1997-09-23 Computer Products & Services I Hands-free user-supported portable computer
EP0566015A3 (en) * 1992-04-14 1994-07-06 Eastman Kodak Co Neural network optical character recognition system and method for classifying characters in amoving web
US5621858A (en) * 1992-05-26 1997-04-15 Ricoh Corporation Neural network acoustic and visual speech recognition system training method and apparatus
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
ATE279758T1 (de) * 1992-06-19 2004-10-15 United Parcel Service Inc Verfahren und gerät zur einstellung eines neurons
FR2696574B1 (fr) * 1992-10-06 1994-11-18 Sextant Avionique Procédé et dispositif d'analyse d'un message fourni par des moyens d'interaction à un système de dialogue homme-machine.
EP0607615B1 (en) * 1992-12-28 1999-09-15 Kabushiki Kaisha Toshiba Speech recognition interface system suitable for window systems and speech mail systems
US5668929A (en) * 1993-01-21 1997-09-16 Hirsch Electronics Corporation Speech activated security systems and methods
WO1994027251A1 (en) * 1993-05-18 1994-11-24 Massachusetts Institute Of Technology Automated reading system and method
US5581658A (en) * 1993-12-14 1996-12-03 Infobase Systems, Inc. Adaptive system for broadcast program identification and reporting
KR970006413B1 (ko) * 1993-12-29 1997-04-28 한국전기통신공사 퍼지 컴퓨터
EP0758471B1 (de) * 1994-03-15 1999-07-28 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Personenidentifikation mit bewegungsinformation
US5491774A (en) * 1994-04-19 1996-02-13 Comp General Corporation Handheld record and playback device with flash memory
AU675389B2 (en) * 1994-04-28 1997-01-30 Motorola, Inc. A method and apparatus for converting text into audible signals using a neural network
US5546145A (en) * 1994-08-30 1996-08-13 Eastman Kodak Company Camera on-board voice recognition
EP0706114A3 (en) * 1994-10-03 1996-12-11 At & T Global Inf Solution Device and method for recording and organizing audio data
JP3399674B2 (ja) * 1994-12-19 2003-04-21 エヌイーシーインフロンティア株式会社 画面制御装置とその方法
US5630159A (en) * 1994-12-29 1997-05-13 Motorola, Inc. Method and apparatus for personal attribute selection having delay management method and apparatus for preference establishment when preferences in a donor device are unavailable
DE29501359U1 (de) * 1995-01-25 1995-05-11 Smorra Ulrich Multifunktionales Eingabe- und Steuergerät für Computer und EDV
US5884296A (en) * 1995-03-13 1999-03-16 Minolta Co., Ltd. Network and image area attribute discriminating device and method for use with said neural network
US5749066A (en) * 1995-04-24 1998-05-05 Ericsson Messaging Systems Inc. Method and apparatus for developing a neural network for phoneme recognition
US5751910A (en) * 1995-05-22 1998-05-12 Eastman Kodak Company Neural network solder paste inspection system
JP3697748B2 (ja) * 1995-08-21 2005-09-21 セイコーエプソン株式会社 端末、音声認識装置
US6073101A (en) 1996-02-02 2000-06-06 International Business Machines Corporation Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
JP3241597B2 (ja) * 1996-05-24 2001-12-25 一博 小野 個人用音声再生装置
US6957260B1 (en) 1996-06-03 2005-10-18 Microsoft Corporation Method of improving access to services provided by a plurality of remote service providers
US6473099B1 (en) * 1996-06-03 2002-10-29 Webtv Networks, Inc. Automatically upgrading software over a satellite link
US7191135B2 (en) * 1998-04-08 2007-03-13 Symbol Technologies, Inc. Speech recognition system and method for employing the same
US7903029B2 (en) 1996-09-09 2011-03-08 Tracbeam Llc Wireless location routing applications and architecture therefor
US7714778B2 (en) 1997-08-20 2010-05-11 Tracbeam Llc Wireless location gateway and applications therefor
US6249252B1 (en) 1996-09-09 2001-06-19 Tracbeam Llc Wireless location using multiple location estimators
US9134398B2 (en) 1996-09-09 2015-09-15 Tracbeam Llc Wireless location using network centric location estimators
GB2337386B (en) 1996-09-09 2001-04-04 Dennis J Dupray Location of a mobile station
US6236365B1 (en) 1996-09-09 2001-05-22 Tracbeam, Llc Location of a mobile station using a plurality of commercial wireless infrastructures
US5950162A (en) * 1996-10-30 1999-09-07 Motorola, Inc. Method, device and system for generating segment durations in a text-to-speech system
JP3402100B2 (ja) * 1996-12-27 2003-04-28 カシオ計算機株式会社 音声制御ホスト装置
IL119948A (en) 1996-12-31 2004-09-27 News Datacom Ltd Voice activated communication system and program guide
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6038338A (en) * 1997-02-03 2000-03-14 The United States Of America As Represented By The Secretary Of The Navy Hybrid neural network for pattern recognition
US5907822A (en) * 1997-04-04 1999-05-25 Lincom Corporation Loss tolerant speech decoder for telecommunications
JPH10340575A (ja) * 1997-06-04 1998-12-22 Sony Corp 外部記憶装置及びその制御装置、データ送受信装置
US6802453B1 (en) * 1997-06-04 2004-10-12 Sony Corporation External storage apparatus and control apparatus thereof, and data transmission reception apparatus
US5924070A (en) * 1997-06-06 1999-07-13 International Business Machines Corporation Corporate voice dialing with shared directories
US5897616A (en) 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6073099A (en) * 1997-11-04 2000-06-06 Nortel Networks Corporation Predicting auditory confusions using a weighted Levinstein distance
US6144938A (en) 1998-05-01 2000-11-07 Sun Microsystems, Inc. Voice user interface with personality
US6199044B1 (en) * 1998-05-27 2001-03-06 Intermec Ip Corp. Universal data input and processing device, such as universal point-of-sale device for inputting and processing bar code symbols, document images, and other data
JP2000099306A (ja) * 1998-05-28 2000-04-07 Canon Inc 制御装置およびその制御方法およびその動作処理を実行するプログラムを記憶した記憶媒体
US6260015B1 (en) * 1998-09-03 2001-07-10 International Business Machines Corp. Method and interface for correcting speech recognition errors for character languages
US6304865B1 (en) * 1998-10-27 2001-10-16 Dell U.S.A., L.P. Audio diagnostic system and method using frequency spectrum and neural network
US8135413B2 (en) 1998-11-24 2012-03-13 Tracbeam Llc Platform and applications for wireless location and other complex services
US6963937B1 (en) * 1998-12-17 2005-11-08 International Business Machines Corporation Method and apparatus for providing configurability and customization of adaptive user-input filtration
US6167376A (en) * 1998-12-21 2000-12-26 Ditzik; Richard Joseph Computer system with integrated telephony, handwriting and speech recognition functions
US6243685B1 (en) * 1999-02-08 2001-06-05 Rick C. Bergman Voice operated interactive message display system for vehicles
JP4749522B2 (ja) * 1999-03-26 2011-08-17 ソニー株式会社 再生装置および再生方法
US6178402B1 (en) 1999-04-29 2001-01-23 Motorola, Inc. Method, apparatus and system for generating acoustic parameters in a text-to-speech system using a neural network
US6798914B1 (en) * 1999-05-07 2004-09-28 Galaxy Ip Source, Llc Neural-network-based method of image compression
WO2002000316A1 (en) 1999-09-24 2002-01-03 Goldberg Sheldon F Geographically constrained network services
US6721896B1 (en) * 2000-03-31 2004-04-13 Alcatel System and method for converting a selected signal into a timing signal and inserting the phase of the timing signal into a framed signal
US10641861B2 (en) 2000-06-02 2020-05-05 Dennis J. Dupray Services and applications for a communications network
US9875492B2 (en) 2001-05-22 2018-01-23 Dennis J. Dupray Real estate transaction system
US10684350B2 (en) 2000-06-02 2020-06-16 Tracbeam Llc Services and applications for a communications network
US7006969B2 (en) * 2000-11-02 2006-02-28 At&T Corp. System and method of pattern recognition in very high-dimensional space
US7369993B1 (en) 2000-11-02 2008-05-06 At&T Corp. System and method of pattern recognition in very high-dimensional space
US8082096B2 (en) 2001-05-22 2011-12-20 Tracbeam Llc Wireless location routing applications and architecture therefor
US7293002B2 (en) * 2001-06-19 2007-11-06 Ohio University Self-organizing data driven learning hardware with local interconnections
CA2481432A1 (en) * 2002-04-19 2003-10-30 Ronald Cass Processing mixed numeric and/or non-numeric data
US7777743B2 (en) * 2002-04-19 2010-08-17 Computer Associates Think, Inc. Viewing multi-dimensional data through hierarchical visualization
US7778438B2 (en) 2002-09-30 2010-08-17 Myport Technologies, Inc. Method for multi-media recognition, data conversion, creation of metatags, storage and search retrieval
US10721066B2 (en) 2002-09-30 2020-07-21 Myport Ip, Inc. Method for voice assistant, location tagging, multi-media capture, transmission, speech to text conversion, photo/video image/object recognition, creation of searchable metatags/contextual tags, storage and search retrieval
US6996251B2 (en) 2002-09-30 2006-02-07 Myport Technologies, Inc. Forensic communication apparatus and method
US20050071166A1 (en) * 2003-09-29 2005-03-31 International Business Machines Corporation Apparatus for the collection of data for performing automatic speech recognition
US20060235551A1 (en) * 2005-04-13 2006-10-19 Creative Technology Ltd. Data storage device with audio capability
US20070055523A1 (en) * 2005-08-25 2007-03-08 Yang George L Pronunciation training system
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US8494857B2 (en) 2009-01-06 2013-07-23 Regents Of The University Of Minnesota Automatic measurement of speech fluency
JP5911796B2 (ja) * 2009-04-30 2016-04-27 サムスン エレクトロニクス カンパニー リミテッド マルチモーダル情報を用いるユーザ意図推論装置及び方法
US9538493B2 (en) 2010-08-23 2017-01-03 Finetrak, Llc Locating a mobile station and applications therefor
WO2013138633A1 (en) 2012-03-15 2013-09-19 Regents Of The University Of Minnesota Automated verbal fluency assessment
EP3519975B1 (en) * 2016-09-28 2021-09-08 Nanolock Security Inc. Access control for integrated circuit devices
CN111695421B (zh) * 2020-04-30 2023-09-22 北京迈格威科技有限公司 图像识别方法、装置及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4776016A (en) * 1985-11-21 1988-10-04 Position Orientation Systems, Inc. Voice control system
JPH0375860A (ja) * 1989-08-18 1991-03-29 Hitachi Ltd パーソナライズド端末

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05290013A (ja) * 1992-04-06 1993-11-05 Sharp Corp ニューラルネットワーク演算装置
JP2018189904A (ja) * 2017-05-11 2018-11-29 オリンパス株式会社 収音装置、収音方法、収音プログラム、ディクテーション方法、情報処理装置及び情報処理プログラム
US11532307B2 (en) 2017-09-29 2022-12-20 Shanghai Cambricon Information Technology Co., Ltd Image processing apparatus and method
US11450319B2 (en) 2017-09-29 2022-09-20 Cambricon (Xi'an) Semiconductor Co., Ltd. Image processing apparatus and method
JP2020519923A (ja) * 2017-09-29 2020-07-02 シャンハイ カンブリコン インフォメーション テクノロジー カンパニー リミテッドShanghai Cambricon Information Technology Co.,Ltd. 画像処理装置及び方法
JP2020067665A (ja) * 2017-09-29 2020-04-30 シャンハイ カンブリコン インフォメーション テクノロジー カンパニー リミテッドShanghai Cambricon Information Technology Co.,Ltd. 画像処理装置及び方法
US11437032B2 (en) 2017-09-29 2022-09-06 Shanghai Cambricon Information Technology Co., Ltd Image processing apparatus and method
JP2020064638A (ja) * 2017-09-29 2020-04-23 シャンハイ カンブリコン インフォメーション テクノロジー カンパニー リミテッドShanghai Cambricon Information Technology Co.,Ltd. 画像処理装置及び方法
US11620130B2 (en) 2018-02-13 2023-04-04 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11740898B2 (en) 2018-02-13 2023-08-29 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11507370B2 (en) 2018-02-13 2022-11-22 Cambricon (Xi'an) Semiconductor Co., Ltd. Method and device for dynamically adjusting decimal point positions in neural network computations
US11704125B2 (en) 2018-02-13 2023-07-18 Cambricon (Xi'an) Semiconductor Co., Ltd. Computing device and method
US11720357B2 (en) 2018-02-13 2023-08-08 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11609760B2 (en) 2018-02-13 2023-03-21 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11397579B2 (en) 2018-02-13 2022-07-26 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11630666B2 (en) 2018-02-13 2023-04-18 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11663002B2 (en) 2018-02-13 2023-05-30 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11709672B2 (en) 2018-02-13 2023-07-25 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11513586B2 (en) 2018-02-14 2022-11-29 Shanghai Cambricon Information Technology Co., Ltd Control device, method and equipment for processor
US11442786B2 (en) 2018-05-18 2022-09-13 Shanghai Cambricon Information Technology Co., Ltd Computation method and product thereof
US11442785B2 (en) 2018-05-18 2022-09-13 Shanghai Cambricon Information Technology Co., Ltd Computation method and product thereof
US11789847B2 (en) 2018-06-27 2023-10-17 Shanghai Cambricon Information Technology Co., Ltd On-chip code breakpoint debugging method, on-chip processor, and chip breakpoint debugging system
US11966583B2 (en) 2018-08-28 2024-04-23 Cambricon Technologies Corporation Limited Data pre-processing method and device, and related computer device and storage medium
US11703939B2 (en) 2018-09-28 2023-07-18 Shanghai Cambricon Information Technology Co., Ltd Signal processing device and related products
US11544059B2 (en) 2018-12-28 2023-01-03 Cambricon (Xi'an) Semiconductor Co., Ltd. Signal processing device, signal processing method and related products
US11762690B2 (en) 2019-04-18 2023-09-19 Cambricon Technologies Corporation Limited Data processing method and related products
US11847554B2 (en) 2019-04-18 2023-12-19 Cambricon Technologies Corporation Limited Data processing method and related products
US11934940B2 (en) 2019-04-18 2024-03-19 Cambricon Technologies Corporation Limited AI processor simulation
US11676029B2 (en) 2019-06-12 2023-06-13 Shanghai Cambricon Information Technology Co., Ltd Neural network quantization parameter determination method and related products
US11675676B2 (en) 2019-06-12 2023-06-13 Shanghai Cambricon Information Technology Co., Ltd Neural network quantization parameter determination method and related products
US11676028B2 (en) 2019-06-12 2023-06-13 Shanghai Cambricon Information Technology Co., Ltd Neural network quantization parameter determination method and related products

Also Published As

Publication number Publication date
US5426745A (en) 1995-06-20
US5163111A (en) 1992-11-10

Similar Documents

Publication Publication Date Title
JPH0375860A (ja) パーソナライズド端末
US10522136B2 (en) Method and device for training acoustic model, computer device and storage medium
CN109523989B (zh) 语音合成方法、语音合成装置、存储介质及电子设备
CN108091328A (zh) 基于人工智能的语音识别纠错方法、装置及可读介质
CN108847241A (zh) 将会议语音识别为文本的方法、电子设备及存储介质
WO2021000497A1 (zh) 检索方法、装置、计算机设备和存储介质
JPH04329598A (ja) 音声及び手書き動作の統合型情報を用いたメッセージ認識システム及び方法   
WO1996023298A2 (en) System amd method for generating and using context dependent sub-syllable models to recognize a tonal language
JPS62239231A (ja) 口唇画像入力による音声認識方法
US11410642B2 (en) Method and system using phoneme embedding
CN111653265B (zh) 语音合成方法、装置、存储介质和电子设备
CN113421547B (zh) 一种语音处理方法及相关设备
CN110136689B (zh) 基于迁移学习的歌声合成方法、装置及存储介质
WO2023207541A1 (zh) 一种语音处理方法及相关设备
CN111967334B (zh) 一种人体意图识别方法、系统以及存储介质
CN104538025A (zh) 手势到汉藏双语语音转换方法及装置
Ning et al. Learning cross-lingual knowledge with multilingual BLSTM for emphasis detection with limited training data
JP2004094257A (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
CN108109610A (zh) 一种模拟发声方法及模拟发声系统
CN116129868A (zh) 一种结构化画本的生成方法和生成系统
CN115101042A (zh) 一种文本处理方法、装置及设备
CN114170997A (zh) 发音技巧检测方法、装置、存储介质及电子设备
CN111681467B (zh) 一种词汇学习方法及电子设备、存储介质
Reddy et al. Indian sign language generation from live audio or text for tamil
CN113823271A (zh) 语音分类模型的训练方法、装置、计算机设备及存储介质