JPH1063292A - 音声処理装置および音声処理方法 - Google Patents

音声処理装置および音声処理方法

Info

Publication number
JPH1063292A
JPH1063292A JP8213491A JP21349196A JPH1063292A JP H1063292 A JPH1063292 A JP H1063292A JP 8213491 A JP8213491 A JP 8213491A JP 21349196 A JP21349196 A JP 21349196A JP H1063292 A JPH1063292 A JP H1063292A
Authority
JP
Japan
Prior art keywords
voice
dictionary
key
speech
processing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP8213491A
Other languages
English (en)
Inventor
Hiroaki Ogawa
浩明 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP8213491A priority Critical patent/JPH1063292A/ja
Publication of JPH1063292A publication Critical patent/JPH1063292A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 装置を大型化、高コスト化することなく、多
数の語彙を対象とした、精度の良い音声認識結果を、迅
速に得ることができるようにする。 【解決手段】 携帯型の音声辞書装置100において、
入力された音声が、公衆電話回線網101を介して、複
数の外部コンピュータ102のうちのいずれか1つに送
信され、その音声を受信した外部コンピュータ102で
は、その音声が音声認識される。さらに、その外部コン
ピュータ102では、音声認識結果が、公衆電話回線網
101を介して送信され、これが、音声辞書装置100
で受信される。そして、音声辞書装置100では、その
音声認識結果をキーワードとして辞書検索が行われる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声処理装置およ
び音声処理方法に関する。特に、入力された音声を、例
えばキーワードとして、辞書の検索を行う音声入力型の
電子辞書装置などに用いて好適な音声処理装置および音
声処理方法に関する。
【0002】
【従来の技術】電子辞書装置は、通常の辞書に比較し
て、軽量、小型で、携帯に便利であり、また、検索も短
時間で行うことができる。しかしながら、従来の電子辞
書装置では、意味などを調べようとする単語(検索しよ
うとする単語)の入力は、キーボードを操作することに
より行う必要があり、繁雑であった。即ち、入力しよう
とする単語が英語である場合には、そのスペルに対応す
るキーを操作する必要があり、また、入力しようとする
単語が日本語である場合には、その単語の仮名に対応す
るキーを操作し、さらに、それを仮名漢字変換するため
のキーを操作する必要があった。
【0003】また、電子辞書装置は小型化の要請から、
キーボードを小さく構成する必要があり、このため、そ
の操作は行い易くはなかった。
【0004】そこで、最近では、音声入力型の電子辞書
装置(以下、適宜、音声辞書装置という)が提案されて
いる。音声辞書装置では、単語が音声により入力される
と、その音声が音声認識され、その音声認識結果をキー
ワードとして辞書(電子辞書)の検索が行われるように
なされており、ユーザは、検索しようとする単語を、音
声により、容易、かつ迅速に入力することができる。
【0005】なお、このような音声辞書装置について
は、例えば、特開平4−10166号公報、特開平4−
40557号公報、特開平4−42363号公報など
に、その詳細が開示されている。
【0006】
【発明が解決しようとする課題】ところで、電子辞書装
置(音声辞書装置を含む)の品質を向上させるための1
つの方法として、その辞書(電子辞書)の見出し語の数
を増大させる方法がある(例えば、研究者の新英和大辞
典では約24万語、教育社の現代用語用例辞典では約1
5万例文、岩波書店の広辞苑では約22万語の見出しが
ある)。
【0007】しかしながら、音声辞書装置において、そ
の電子辞書の見出し語の語数を増大させるには、音声認
識の対象とする語の数も増大させる必要があり、装置が
大型化する課題があった。さらに、この場合、そのよう
な大規模の語彙を対象とする音声認識を行うときに、あ
る程度の音声認識結果の精度を維持するには、高速な処
理が可能なハードウェアを用いる必要がり、装置が高コ
スト化する課題があった。
【0008】一方、装置を高コスト化せずに、音声認識
結果の精度を、ある程度維持しようとすると、音声認識
の処理時間が長くなり、また、処理時間を短くしようと
すると、音声認識結果の精度が劣化する課題があった。
【0009】本発明は、このような状況に鑑みてなされ
たものであり、音声認識を、多くの語彙を対象として行
う場合であっても、装置を大型化、高コスト化せず、か
つ短時間で精度の高い音声認識結果を得ることができる
ようにするものである。
【0010】
【課題を解決するための手段】請求項1に記載の音声処
理装置は、入力手段から入力された音声を、外部の情報
処理装置に送信し、その情報処理装置から送信されてく
る音声の音声認識結果を受信する通信手段を備えること
を特徴とする。
【0011】請求項9に記載の音声処理方法は、入力さ
れた音声を、外部の情報処理装置に送信し、情報処理装
置から送信されてくる音声の音声認識結果を受信するこ
とを特徴とする。
【0012】請求項1に記載の音声処理装置において
は、通信手段が、入力手段から入力された音声を、外部
の情報処理装置に送信し、その情報処理装置から送信さ
れてくる音声の音声認識結果を受信するようになされて
いる。
【0013】請求項9に記載の音声処理方法において
は、入力された音声を、外部の情報処理装置に送信し、
情報処理装置から送信されてくる音声の音声認識結果を
受信するようになされている。
【0014】
【発明の実施の形態】図1は、本発明を適用した音声辞
書装置の一実施例の構成を示す斜視図であり、図2は、
その平面図である。なお、この音声処理装置100は、
例えば、持ち運びに便利なように携帯型とされている。
【0015】この音声翻訳装置100の向かって左側面
には、コネクタ1が設けられており、また、その正面パ
ネルには、LCD(液晶ディスプレイ)2、マイク3、
電源スイッチ4、確認実行キー5、カーソルキー6、お
よびファンクションキー7が設けられている。
【0016】コネクタ1には、例えば電話回線のモジュ
ラジャックなどを接続することができるようになされて
おり、これにより、音声辞書装置100は、後述する外
部コンピュータ102(図4)などの外部の情報処理装
置と通信を行うことができるようになされている。
【0017】LCD2(出力手段)には、各種の情報が
表示されるようになされている。即ち、LCD2には、
例えばマイク3に入力された音声の音声認識結果(入
力)や、それを含む用例(検索用例)、その用例の対訳
(用例対訳)などが表示されるようになされている。
【0018】マイク3(入力手段)は、そこに入力され
た、空気の波である音声(音声波形)を、電気信号(電
気的な波)である音声信号に変換するようになされてい
る。電源スイッチ4は、装置の電源をオン、オフする場
合に操作される。確認実行キー5は、例えば、LCD2
に表示された(LCD2から出力された)音声認識結果
などが正しい場合に操作される。さらに、確認実行キー
5は、例えば、LCD2に表示された複数の項目のうち
のいずれかを、カーソルキー6を操作することにより選
択した場合に、その選択を確定するときなどにも操作さ
れる。また、確認実行キー5は、LCD2に表示された
音声認識結果としての単語を含む用例の検索やその他の
辞書検索を開始させるときなどにも操作される。
【0019】カーソルキー6は、上キー6a、下キー6
b、左キー6c、および右キー6dから構成されてい
る。上キー6a、下キー6b、左キー6c、または右キ
ー6dは、LCD2に表示されたカーソル(図示せず)
を上、下、左、または右にそれぞれ移動させる場合や、
LCD2の表示画面を下、上、右、または左にそれぞれ
スクロールさせる場合などに操作される。
【0020】ファンクションキー7は、図2に示すよう
に、辞書検索キー11、学習キー12、英語キー13、
日本語キー14、英和辞書キー15、和英辞書キー1
6、国語辞書キー17、英々辞書キー18、用例辞書キ
ー19、計算キー20、ゲームキー21、メモキー2
2、時計キー23、住所キー24、開始キー25、およ
び終了キー26から構成されており、装置の動作モード
を設定したり、また装置に各種の動作を行わせるときに
操作される。
【0021】即ち、辞書検索キー11は、装置のモード
を、辞書検索モードとし、入力された単語についての辞
書検索を行うときに操作される。装置のモードが辞書検
索モードとされ、所定の単語が入力されると、例えば、
その単語の意味内容が検索され、LCD2に表示され
る。
【0022】学習キー12は、装置のモードを会話学習
モードとするときに操作される。装置のモードが会話学
習モードとされると、LCD2においては、例えば日常
会話において頻繁に使用されるフレーズが、日本語と英
語の両方で表示され、これにより、英会話の学習を行う
ことができるようになされている。
【0023】英語キー13は、英語の音声を入力すると
きに操作される。日本語キー14は、日本語の音声を入
力するときに操作される。英語キー13または日本語キ
ー14が操作された後に、マイク3に音声が入力された
場合、音声辞書装置100または外部コンピュータ10
2では、その音声がそれぞれ英語または日本語であると
して、音声認識が行われる。
【0024】英和辞書キー15、和英辞書キー16、国
語辞書キー17、または英々辞書18は、英和辞書、和
英辞書、国語辞書、または英々辞書をそれぞれ対象に辞
書検索を行うときに操作される。用例辞書キー19は、
用例が登録された用例辞書を対象に辞書検索を行うとき
に操作される。
【0025】計算キー20は、装置のモードを計算モー
ドとするときに操作される。装置のモードが計算モード
とされた場合に、マイク3に、音声で所定の計算式が入
力されたときには、その計算式にしたがった演算(計
算)が行われ、その計算結果が、LCD2に表示され
る。ゲームキー21は、装置のモードをゲームモードと
するときに操作される。装置のモードがゲームモードと
されると、所定のゲームについてのアプリケーションプ
ログラムが実行される。メモキー22は、LCD2の表
示内容を保持(メモ)しておくときに操作される。時計
キー23は、LCD2に現在時刻を表示させるときに操
作される。住所キー22は、所定の住所を登録するとき
や、既に登録してある住所を、LCD2に表示させると
きに操作される。
【0026】開始キー25は、マイク3に対する音声の
入力を開始するときに操作される。終了キー26は、開
始キー25が操作され、音声の入力が開始された後、そ
の入力を終了するときに操作される。音声辞書装置10
0では、開始キー25が操作された後、終了キー26が
操作されるまでの間が音声区間とされ、この間に、マイ
ク3に入力された音声が音声認識の対象とされる。
【0027】以上のように構成される音声辞書装置10
0に対し、例えば、日本語の単語をで音声を入力し、そ
の単語を用いた用例を表示させる場合には、ユーザは、
まず日本語キー14と用例辞書キー19を操作する。さ
らに、ユーザは、開始キー25を操作し、マイク3に日
本語の単語を入力して、その入力の終了後、終了キー2
6を操作する。その後、LCD2には、その音声認識結
果が表示されるので、ユーザは、この表示を見て、その
音声認識結果が正しいかどうかを確認する。音声認識結
果が誤っている場合、ユーザは、上述したように、開始
キー25および終了キー26を操作して音声を再度入力
し、以下、LCD2に正しい音声認識結果が表示される
まで同様の操作を繰り返す。そして、LCD2に正しい
音声認識結果が表示された場合、ユーザは、確認実行キ
ー5を操作する。これにより、音声認識結果が確定され
る。その後、さらに、ユーザが、確認実行キー5を操作
すると、音声辞書装置100では、確定された音声認識
結果を含む用例が、用例辞書から検索され、さらに、そ
の用例に対応付けられている英語の対訳も用例辞書から
検索され、LCD2に表示される。
【0028】なお、図1および図2の実施例では、開始
キー25および終了キー26を操作して音声「非常口」
が入力され、その音声認識結果「非常口」が確認実行キ
ー5を操作することにより確定された後、再び、開始キ
ー25および終了キー26を操作して音声「どこ」が入
力され、その音声認識結果「どこ」が確認実行キー5を
操作することにより確定された後に、さらに、確認実行
キー5が操作されることにより、音声認識結果「非常
口」および「どこ」を含む用例「非常口はどこですか
?」と、その対訳「Where is the emergency exit ?」
が検索され、これらが表示されている様子を示してい
る。
【0029】次に、図3は、音声辞書装置100の内部
構成例を示している。マイク3から出力された音声信号
は、A/D変換器51に供給されるようになされてお
り、A/D変換器51は、マイク3からの音声信号(ア
ナログ信号)を、所定のサンプリングクロックにしたが
ってサンプリングし、さらに量子化することで、ディジ
タルの音声信号に変換するようになされている。A/D
変換器51においてディジタル信号とされた音声信号
は、音声認識回路52に供給されるようになされてい
る。
【0030】音声認識回路52(音声認識手段)は、A
/D変換器51からの音声信号の、例えば音程(周波
数)や、強弱(振幅)、速度(発話速度)などを音響分
析し、その分析結果に基づいて、例えばHMM(Hidden
Markov Model)法や、DP(Dynamic Programming)マ
ッチング法その他の音声認識アルゴリズムにしたがい、
マイク3に入力された音声を音声認識するようになされ
ている。音声認識回路52の音声認識結果は、CPU
(Central Proccessing Unit)55に供給されるように
なされている。また、音声認識回路52は、A/D変換
器51からの音声信号を、そのままCPU55に出力す
るようにもなされている。
【0031】RAM(Random Access Memory)53は、
音声認識回路52が音響分析の結果出力する音響分析結
果(例えば、音声信号の音程や、強弱、速度など)や、
その他音声認識回路52が音声認識処理を行う上で必要
なデータを一時記憶するようになされている。
【0032】ROM(Read Only Memory)54は、音声
認識回路52が認識対象とする単語が登録された辞書を
記憶しており、音声認識回路52は、このROM54に
記憶された辞書(以下、適宜、認識用辞書という)を参
照して、マイク3に入力された音声を認識するようにな
されている。なお、ROM54には、例えば日本語およ
び英語の言語の認識用辞書が記憶されており、英語キー
13または日本語キー14が操作された場合に、それぞ
れ英語または日本語の認識用辞書が用いられるようにな
されている。また、認識用辞書には、例えば、使用頻度
が比較的高いと予想されるもののみが登録されており、
これにより、そこに登録される単語数が莫大な数となる
ことによる、音声認識回路52の音声認識処理の速度お
よび精度の劣化を防止するようになされている。即ち、
認識用辞書には、音声認識回路52の音声認識処理の速
度および精度を、ある程度のレベル以上とすることがで
きるような数の単語が登録されている。
【0033】さらに、ROM54には、音声認識のプロ
グラムが記憶されており、音声認識回路52は、このR
OM54に記憶されたプログラムを読み出して実行する
ことにより音声認識を行うようになされている。
【0034】CPU55(処理手段)は、ROM56に
記憶されたプログラムにしたがって、音声認識回路5
2、後述するモデム58、辞書検索回路70、および文
字表示回路73を制御するようになされている。さら
に、CPU55は、後述するキーインターフェイス62
より供給される、電源スイッチ4、確認実行キー5、カ
ーソルキー6、およびファンクションキー7の操作に対
応した信号にしたがって、各種の処理を実行するように
もなされている。
【0035】ROM56には、音声認識回路52、モデ
ム58、辞書検索回路70、および文字表示回路73を
制御するためのプログラム、その他のアプリケーション
プログラムや必要なデータなどが記憶されている。RA
M57は、CPU55の動作上必要なデータを一時記憶
するようになされている。
【0036】モデム58(通信手段)は、CPU55の
制御の下、外部コンピュータ102との通信に必要な通
信制御を行うようになされている。タイマ回路59は、
CPU55の制御の下、時間を計時するようになされて
いる。
【0037】キーインターフェイス62は、電源スイッ
チ4、確認実行キー5、カーソルキー6、またはファン
クションキー7が操作されると、それぞれの操作に対応
した信号を、CPU55に出力するようになされてい
る。
【0038】辞書検索回路70は、CPU55の制御に
したがって、辞書検索を行うようになされている。RO
M71には、英和辞書、和英辞書、国語辞書、英々辞
書、および用例辞書などの各種の電子辞書が記憶されて
おり、辞書検索回路70では、このROM71に記憶さ
れた電子辞書を対象に検索を行うようになされている。
【0039】なお、英和辞書には、英単語と、その日本
語による意味内容とが対応付けて記憶され、和英辞書に
は、日本語の単語と、その単語に対応する英単語とが対
応付けて記憶されている。また、国語辞書には、日本語
の単語と、その日本語による意味内容とが対応付けて記
憶されており、英々辞書には、英単語と、その英語によ
る意味内容とが対応付けて記憶されている。さらに、用
例辞書には、日本語の用例と、その用例に対応する英語
の対訳とが対応付けて記憶されている。辞書検索回路7
0においていずれの電子辞書を対象に検索を行うかは、
英和辞書キー15、和英辞書キー16、国語辞書キー1
7、英々辞書キー18、または用例辞書キー19の操作
に対応して、CPU55により決定されるようになされ
ている。
【0040】RAM72は、辞書検索回路70の検索結
果や、その処理上必要なデータなどを一時記憶するよう
になされている。
【0041】文字表示回路73は、CPU55から供給
される情報の表示制御を行うようになされている。即
ち、CPU55から文字表示回路73に対しては、表示
すべき情報としての文字が、所定のコードで供給される
ようになされており、文字表示回路73は、CPU55
からコードを受信すると、そのコードを文字発生回路7
6に供給し、対応する文字のビットパターンに変換させ
る。そして、文字表示回路73は、このビットパターン
としてのディジタルの画像信号を、D/A変換器74に
出力するようになされている。
【0042】D/A変換器74は、文字表示回路73か
ら供給されるディジタルの画像信号をD/A変換するこ
とにより、アナログの画像信号とし、LCD2に出力す
るようになされている。これにより、LCD2において
は、CPU55が出力する情報としての文字が表示され
るようになされている。
【0043】文字発生回路76は、文字表示回路73か
ら供給されたコードに対応する文字のビットパターンを
ROM78から読み出し、文字表示回路73に出力する
ようになされている。RAM77は、文字発生回路76
における処理の上で必要なデータを一時記憶するように
なされている。ROM78には、例えば、日本語の文字
(例えば、仮名や漢字など)および英語の文字(例え
ば、アルファベットなど)などのビットパターンが記憶
されている。
【0044】次に、図4は、以上のように構成される音
声辞書装置100の使用形態を示している。音声辞書装
置100は、必要に応じて、同図に示すように、例え
ば、公衆電話回線網101を介して、外部コンピュータ
(例えば、ワークステーションや、ホストコンピュー
タ)102に、マイク3から入力された音声を送信する
ようになされている。外部コンピュータ102は、音声
辞書装置100から送信されてきた音声を音声認識し、
その音声認識結果を、公衆電話回線網101を介して、
音声を送信してきた音声辞書装置100に送信するよう
になされており、音声辞書装置100では、このように
して、外部コンピュータ102から送信されてきた音声
認識結果を用いて、辞書検索などの各種の処理が行われ
るようになされている。
【0045】なお、同図に示すように、外部コンピュー
タ102は、複数の音声辞書装置100から送信されて
くる音声を処理することができるようになされており、
また、音声辞書装置100は、複数の外部コンピュータ
102のいずれにも音声を送信することができるように
なされている。即ち、音声辞書装置100のユーザは、
例えば、外出先などにおいて、最も近い位置に設置され
ている外部コンピュータ102にアクセスすることがで
きる。
【0046】また、外部コンピュータ102は、複数で
はなく1つとすることも可能であるが、1つの外部コン
ピュータ102では、多数の音声辞書装置100からア
クセスがあった場合に、処理に時間を要することとなる
ので、図4に示したように、外部コンピュータ102は
複数設け、これにより、処理を分散することができるよ
うにするのが望ましい。
【0047】次に、図5のフローチャートを参照して、
音声辞書装置100の動作について説明する。まず、ユ
ーザは、コネクタ8に電話回線を接続する。その後、電
源スイッチ4をオンにすると、その操作に対応した信号
が、キーインターフェイス62からCPU55に供給さ
れ、これにより、装置の電源がオン状態にされる。装置
の電源がオン状態になると、CPU55は、ROM56
に記憶されているプログラムにしたがって、処理を開始
する。即ち、CPU55は、まず、ステップS1におい
て、モデム58を制御することにより、公衆電話回線網
101を介して、外部コンピュータ102との通信リン
クを確立させる。なお、外部コンピュータ102へのア
クセスに必要となる電話番号は、例えば、図示せぬテン
キーから入力したり、また、例えば、ROM56などに
あらかじめ記憶させておくようにすることが可能であ
る。
【0048】外部コンピュータ102との通信リンクが
確立すると、ステップS2において、確認実行キー5が
操作されたかどうかが判定される。なお、この判定(電
源スイッチ4、カーソルキー6、およびファンクション
キー7が操作されたかどうかの判定も同様)は、キーイ
ンターフェイス62が出力する信号に基づいて、CPU
55により行われる。
【0049】ステップS2において、確認実行キー5が
操作されていないと判定された場合、ステップS3に進
み、開始キー25が操作されたかどうかが、CPU55
によって判定される。ステップS3において、開始キー
25が操作されていないと判定された場合、ステップS
2に戻る。また、ステップS3において、開始キー25
が操作されたと判定された場合、ステップS4に進み、
音声認識回路52による音声の取り込みが開始される。
【0050】音声認識回路52において音声の取り込み
が開始されると、ステップS5に進み、終了キー26が
操作されたか否かが、CPU55によって判定される。
ステップS5において、終了キー26が操作されていな
いと判定された場合、ステップS5に戻る。また、ステ
ップS5において、終了キー26が操作されたと判定さ
れた場合、ステップS6に進み、音声認識回路52によ
る音声の取り込みが終了される。
【0051】即ち、音声認識回路52では、開始キー2
5が操作されるまでにマイク3およびA/D変換器51
を介して入力された音声信号は無視され、開始キー25
が操作され、その後、終了キー26が操作されるまでの
間に入力される音声信号だけが取り込まれ、これが、音
声認識の対象とされる。
【0052】音声認識回路52は、以上のようにして音
声認識の対象となる音声を取り込むと、ステップS7に
おいて、その音声を対象に音声認識を行う。即ち、音声
認識回路52は、例えば音程(周波数)や、強弱(振
幅)、速度(発話速度)などを音響分析し、その分析結
果に基づいて、HMM法やDPマッチング法などにした
がい、ROM54に記憶されている単語を対象に、取り
込んだ音声を音声認識する。さらに、ステップS7にお
いて、音声認識回路52は、取り込んだ音声を、CPU
55に出力する。CPU55は、音声認識回路52から
音声を受信すると、ステップS8において、その音声
を、モデム58に供給し、公衆電話回線網101(図
4)を介して、外部コンピュータ102に送信させる。
【0053】一方、音声認識回路52は、取り込んだ音
声の音声認識が終了すると、その音声認識結果を、CP
U55に出力する。即ち、音声認識回路52は、取り込
んだ音声の音声認識処理の結果、例えば、その音声に対
する尤度が最も高い単語に対応する単語コードを、その
尤度とともに、CPU55に出力する。CPU55で
は、この単語コードおよび尤度が、ステップS9におい
て受信される。
【0054】また、外部コンピュータ102は、音声辞
書装置100から音声を受信すると、後述するように、
その音声を音声認識し、その音声認識結果としての単語
に対応する単語コードを、公衆電話回線網101を介し
て送信してくるので、CPU55は、ステップS10に
おいて、この単語コードをモデム58に受信させる。モ
デム58で受信された単語コードは、CPU55に供給
される。
【0055】CPU55は、音声認識回路52から受信
した尤度が、所定の閾値以上である場合、音声認識回路
52からの単語コードに対応する単語を選択し、また、
その尤度が所定の閾値未満である場合、音声認識回路5
2で取り込まれた音声に対応する単語が、音声認識対象
として、ROM54に記憶されていなかったものとし、
外部コンピュータ102から送信されてきた単語を選択
する。そして、CPU55は、ステップS11におい
て、選択した単語を、LCD2に表示させる。即ち、C
PU55は、選択した単語の単語コードを、文字表示回
路73に供給する。文字表示回路73は、CPU55よ
り供給された単語コードを、文字発生回路76に供給
し、これにより、対応する単語を構成する文字のビット
パターンを生成させる。このビットパターンは、文字表
示回路73より、D/A変換器74を介して、LCD2
に供給され、これにより、LCD2では、音声認識結果
としての単語が表示される。
【0056】その後、CPU55では、ステップS12
において、開始キー25が操作されたかどうかが判定さ
れる。ステップS12において、開始キー25が操作さ
れたと判定された場合、ステップS13において、LC
D2に表示された単語が消去され、ステップS4に戻
り、再び、ステップS4からの処理を繰り返す。
【0057】即ち、LCD2に表示された単語が、誤っ
た音声認識結果である場合、ユーザは、開始キー25を
操作し、再度、発話を行う。また、音声辞書装置100
では、ステップS4以降の処理が繰り返される。
【0058】一方、ステップS12において、開始キー
25が操作されていないと判定された場合、ステップS
14に進み、確認実行キー5が操作されたか否かが、C
PU55によって判定される。ステップS14におい
て、確認実行キー5が操作されていないと判定された場
合、ステップS12に戻る。また、ステップS14にお
いて、確認実行キー5が操作されたと判定された場合、
即ち、ステップS11で、LCD2に表示された音声認
識結果(単語)が正しい場合、ステップS2に戻り、再
び、ステップS2以降の処理を繰り返す。
【0059】従って、LCD2に音声認識結果が表示さ
れた後、確認実行キー5が操作された場合には、ステッ
プS2およびS3のループ処理において、開始キー25
の操作を待って、再び、ステップS4以降の処理が行わ
れるので、ユーザは、音声辞書装置100に入力すべき
単語が、複数ある場合(例えば、用例辞書を対象に辞書
検索を行う場合など)には、LCD2に音声認識結果が
表示された後、確認実行キー5が操作し、さらに、開始
キー25を操作することで、そのような複数の単語の入
力を行うことができる。
【0060】その後、ステップS2およびS3のループ
処理が行われている場合において、確認実行キー5が操
作された場合、ステップS2において、確認実行キー5
が操作されたと判定される。ステップS2において、確
認実行キー5が操作されたと判定された場合、ステップ
S15に進み、CPU55は、いままでの音声認識結果
としての単語を、辞書検索回路70に供給し、その単語
を対象に、辞書検索を行わせる。そして、辞書検索回路
70は、辞書検索を終了すると、その検索結果を、CP
U55に供給するので、CPU55は、ステップS16
において、これを受信して、文字表示回路73に出力す
ることにより、辞書検索結果を、LCD2に表示させ、
ステップS2に戻る。
【0061】従って、ステップS11において、LCD
2に音声認識結果が表示された後、2回続けて確認実行
キー5が操作されると、いままでに音声認識された単語
を対象として辞書検索が行われ、その辞書検索結果が、
LCD2に表示される。
【0062】そして、その後、例えば、電源スイッチ4
が操作されることにより、装置の電源がオフ状態にされ
ると、モデム58において、外部コンピュータ102と
の回線が切断される。
【0063】なお、以上においては、常に、音声認識回
路52に、入力された音声の音声認識を行わせるととも
に、その音声を、外部コンピュータ102に送信し、外
部コンピュータ102にも音声認識させるようにした
が、外部コンピュータ102には、音声認識回路52に
より音声認識をすることが困難な場合のみ、音声を送信
して音声認識させることが可能である。即ち、外部コン
ピュータ102には、例えば、音声認識回路52におけ
る音声認識の結果得られる尤度が、所定の閾値未満の場
合のみ、音声を送信して音声認識させるようにすること
が可能である。
【0064】また、上述の場合においては、装置の電源
がオン状態の間は、外部コンピュータ102との通信リ
ンクが確立されたままとされるため、モデム58と外部
コンピュータ102との間で、データのやりとりがなさ
れていなくても、通話料がかかることになる。そこで、
CPU55は、外部コンピュータ102との通信リンク
の確立後、データがやりとりされない期間が、所定の時
間以上続いた場合には、モデム58に、外部コンピュー
タ102との回線を切断させ、その後、外部コンピュー
タ102へデータを送信する必要が生じたときに、再
び、外部コンピュータ102との通信リンクを確立させ
るようになされている。なお、この場合、CPU55
は、外部コンピュータ102との間でデータがやりとり
されない期間が、所定の時間以上続いたかどうかは、タ
イマ回路59の出力を参照することにより判断されるよ
うになされている。
【0065】次に、図6は、図4の外部コンピュータ1
02の構成例を示している。ROM81は、CPU82
が実行する各種のプログラムや、必要なデータが記憶さ
れている。CPU82は、ROM81に記憶されている
プログラムを実行することにより、音声認識処理その他
の各種の処理を行うようになされている。RAM83
は、CPU82の動作上必要なデータを記憶するように
なされている。ハードディスク84には、CPU82が
音声認識の対象とする単語が登録された大規模な辞書
(以下、適宜、大規模認識用辞書という)が記憶されて
いる。モデム85は、CPU82の制御にしたがい、所
定の通信制御を行うようになされている。
【0066】なお、CPU82としては、音声辞書装置
100の音声認識回路52と比較して、処理能力の高い
ものが用いられており、従って、外部コンピュータ10
2では、多くの単語を対象とする音声認識処理を迅速、
かつ精度良く行うことができるようになされている。
【0067】また、CPU82は、例えば、DPマッチ
ング法やHMM法その他の音声認識アルゴリズムにした
がって音声認識を行うようになされている。
【0068】ここで、DPマッチング法は、音声の特徴
量を入力パターンとし、この入力パターンと、テンプレ
ートと呼ばれる標準パターンとを、時間軸伸縮を行いな
がらマッチングすることによって音声認識を行うもので
あり、例えば、入力パターンとの距離を最も短くする標
準パターンに対応する文字(文字列)が音声認識結果と
される。また、HMM法は、幾つかの状態からなる確率
モデル(HMM)によって音声認識を行うものであり、
例えば、音声の特徴量の系列が観測される確率が最も高
い確率モデルに対応する単語(文字列)が音声認識結果
とされる。
【0069】次に、図7のフローチャートを参照して、
その動作について説明する。外部コンピュータ102で
は、まず最初に、ステップS21において、音声辞書装
置100からアクセスがあったかどうかが判定される。
ステップS21において、音声辞書装置100からアク
セスがなかったと判定された場合、ステップS21に戻
る。また、ステップS21において、音声辞書装置10
0からアクセスがあったと判定された場合、即ち、モデ
ム85と、音声辞書装置100のモデム58との間で通
信リンクが確立された場合、ステップS22に進み、音
声辞書装置100(モデム58)から回線が切断された
かどうかが判定される。ステップS22において、回線
が切断されたと判定された場合、ステップS21に戻
る。また、ステップS22において、回線が切断されて
いないと判定された場合、ステップS23に進み、モデ
ム85において、音声辞書装置100からの音声が受信
されたかどうかが判定される。ステップS23におい
て、音声辞書装置100からの音声が受信されていない
と判定された場合、ステップS22に戻る。
【0070】また、ステップS23において、音声辞書
装置100からの音声が受信されたと判定された場合、
ステップS24に進み、CPU82は、その音声の音声
認識を、ハードディスク84の大規模認識用辞書に登録
されている単語を対象に行う。そして、CPU82は、
音声認識処理を終了すると、ステップS25において、
その音声認識の結果得られた最も尤度の高い単語の単語
コードを、モデム85を制御することにより、公衆電話
回線網101を介して、音声辞書装置100に送信さ
せ、ステップS22に戻る。
【0071】外部コンピュータ102では、処理能力の
高いCPU82において、多くの単語を対象に、迅速か
つ精度の高い音声認識が行われるので、音声辞書装置1
00では、装置を高コスト化および大規模化することな
く、精度の高い音声認識結果を迅速に得ることが可能と
なる。
【0072】ところで、図4に示した場合においては、
複数の外部コンピュータ102のうちのいずれにアクセ
スするかを、ユーザが選択する必要があるが、この選択
は、ユーザに煩わしさを感じさせることがある。そこ
で、図8に示すように、接続専用外部コンピュータ11
1を新たに設け、音声辞書装置100からは、常に、こ
の接続専用外部コンピュータ111にアクセスするよう
にし、接続専用外部コンピュータ111に、複数の外部
コンピュータ102の中から、比較的空いているものを
選択させ、その外部コンピュータ102に音声認識処理
を行わせるようにすることができる。この場合、ユーザ
は、接続専用外部コンピュータ111にのみアクセスす
れば良く、従って、ユーザに煩わしさを感じさせること
を防止することができる。さらに、この場合、複数の外
部コンピュータ102の中から、比較的空いているもの
が選択されるので、この複数の外部コンピュータ102
の効率的な利用を図ることができる。
【0073】なお、この場合、複数の外部コンピュータ
102および接続専用外部コンピュータ111は、例え
ばインターネットなどの広域コンピュータネットワーク
や、LAN(Local Area Network)などを構成している
ものとすることができる。
【0074】また、接続専用外部コンピュータ111
は、図6に示した外部コンピュータ102と基本的に同
様に構成されている。
【0075】次に、図8に示したような使用形態におけ
る接続専用外部コンピュータ111と外部コンピュータ
102の動作について、図9と図10のフローチャート
をそれぞれ参照して説明する。
【0076】接続専用外部コンピュータ111では、図
9のステップS31乃至S33において、図7のステッ
プS21乃至S23における場合とそれぞれ同様の処理
が行われる。そして、ステップS33において、音声辞
書装置100からの音声が受信されたと判定された場
合、ステップS34に進み、その音声が、複数の外部コ
ンピュータ102のうち、比較的空いているものに送信
される。その後、その音声が送信された外部コンピュー
タ102からは、その音声認識結果が送信されてくるの
で、接続専用外部コンピュータ111では、ステップS
35において、外部コンピュータ102から送信されて
くる音声認識結果が受信されたかどうかが判定される。
ステップS35において、外部コンピュータ102から
の音声認識結果が受信されていないと判定された場合、
ステップS35に戻る。また、ステップS35におい
て、外部コンピュータ102からの音声認識結果が受信
されたと判定された場合、ステップS36に進み、その
音声認識結果が、音声を送信してきた音声辞書装置10
0に送信され、ステップS32に戻る。
【0077】なお、接続専用外部コンピュータ111に
おいて、複数の音声辞書装置100からのアクセスを同
時に受け付けるためには、それに対応した数のモデムが
必要となるが、この場合、接続専用外部コンピュータ1
11では、そのモデムの数と同一の数だけ、図9のフロ
ーチャートにしたがった処理がマルチタスクで行われ
る。
【0078】一方、外部コンピュータ102では、まず
最初に、図10のステップS41において、接続専用外
部コンピュータ111からの音声が受信されたかどうか
が判定される。ステップS41において、音声が受信さ
れていないと判定された場合、ステップS41に戻る。
また、ステップS41において、音声が受信されたと判
定された場合、ステップS42に進み、その音声が音声
認識される。そして、ステップS43に進み、その音声
認識結果が、接続専用外部コンピュータ111に送信さ
れ、ステップS41に戻る。
【0079】以上のように、音声辞書装置100から音
声を外部コンピュータ102に送信して音声認識させる
ようにしたので、音声辞書装置100では、多数の語彙
(単語)を対象とした、精度の良い音声認識結果を、迅
速に得ることが可能となる。
【0080】以上、本発明を、辞書(辞典)検索を行う
音声辞書装置に適用した場合について説明したが、本発
明は、その他、例えば、電子的な住所録や電話帳などデ
ータベースを対象に、所定のキーワードにより検索を行
う装置その他に適用可能である。
【0081】なお、本実施例においては、日本語および
英語を処理の対象としたが、処理の対象とする言語は、
日本語および英語に限定されるものではない。
【0082】また、本実施例では、情報を出力するため
の手段として、LCD2を設けたが、情報の出力は、そ
の他、例えば、合成音などにより行うようにすることも
可能である。
【0083】さらに、本実施例では、音声辞書装置10
0に音声認識回路52を設けるようにしたが、音声辞書
装置100は、音声認識回路52を設けずに構成するこ
とも可能である。この場合、マイク3に入力された音声
は、常に、外部コンピュータ102に送信されて音声認
識される。
【0084】また、本実施例では、公衆電話回線網10
1や、広域コンピュータネットワークであるインターネ
ットを介して、音声辞書装置100と外部コンピュータ
102との間で通信を行うようにしたが、それ以外の有
線回線を介して通信を行うようにすることも可能であ
る。さらに、無線回線を介して通信を行うようにするこ
とも可能である。即ち、例えば、無線LANや、また、
外部コンピュータ102が音声辞書装置100の近くに
設置されている場合には赤外線などにより、通信を行う
ようにすることが可能である。
【0085】
【発明の効果】請求項1に記載の音声処理装置および請
求項9に記載の音声処理方法によれば、入力された音声
が、外部の情報処理装置に送信され、その後、情報処理
装置から送信されてくる音声の音声認識結果が受信され
る。従って、装置を大型化、高コスト化することなく、
多数の語彙を対象とした、精度の良い音声認識結果を、
迅速に得ることが可能となる。
【図面の簡単な説明】
【図1】本発明を適用した音声辞書装置の一実施例の構
成を示す斜視図である。
【図2】図1の音声辞書装置100の平面図である。
【図3】図1の音声辞書装置100の内部構成例を示す
ブロック図である。
【図4】音声辞書装置100の利用形態を説明するため
の図である。
【図5】図3の音声辞書装置100の動作を説明するた
めのフローチャートである。
【図6】図4の外部コンピュータ102の構成例を示す
ブロック図である。
【図7】図6の外部コンピュータ102の動作を説明す
るためのフローチャートである。
【図8】音声辞書装置の他の利用形態を説明するための
図である。
【図9】図8の接続専用外部コンピュータ111の動作
を説明するためのフローチャートである。
【図10】図8の外部コンピュータ102の動作を説明
するためのフローチャートである。
【符号の説明】
1 コネクタ, 2 LCD(出力手段), 3 マイ
ク(入力手段), 5確認実行キー, 25 開始キ
ー, 26 終了キー, 52 音声認識回路(音声認
識手段), 55 CPU(処理手段), 58 モデ
ム(通信手段), 70 辞書検索回路, 100 音
声辞書装置, 101 公衆電話回線網, 102 外
部コンピュータ, 111 接続専用外部コンピュータ
フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G06F 15/38 A

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 音声を入力するための入力手段と、 前記入力手段から入力された前記音声を、外部の情報処
    理装置に送信し、その情報処理装置から送信されてくる
    前記音声の音声認識結果を受信する通信手段と、 前記通信手段で受信された前記音声認識結果に対応し
    て、所定の処理を行う処理手段とを備えることを特徴と
    する音声処理装置。
  2. 【請求項2】 前記処理手段は、前記音声認識結果をキ
    ーワードとして、辞書の検索を行うことを特徴とする請
    求項1に記載の音声処理装置。
  3. 【請求項3】 前記音声認識結果を出力する出力手段を
    さらに備えることを特徴とする請求項1に記載の音声処
    理装置。
  4. 【請求項4】 前記音声を音声認識する音声認識手段を
    さらに備え、 前記通信手段は、前記音声認識手段により前記音声を音
    声認識することが困難なとき、その音声を、前記情報処
    理装置に送信することを特徴とする請求項1に記載の音
    声処理装置。
  5. 【請求項5】 前記通信手段は、前記情報処理装置との
    通信を、広域コンピュータネットワークを介して行うこ
    とを特徴とする請求項1に記載の音声処理装置。
  6. 【請求項6】 前記通信手段は、前記情報処理装置との
    通信を、無線により行うことを特徴とする請求項1に記
    載の音声処理装置。
  7. 【請求項7】 前記情報処理装置は、複数存在すること
    を特徴とする請求項1に記載の音声処理装置。
  8. 【請求項8】 前記情報処理装置は、DP(Dynamic Pr
    ogramming)マッチング法またはHMM(Hidden Markov
    Model)法により音声認識を行うことを特徴とする請求
    項1に記載の音声処理装置。
  9. 【請求項9】 端末に入力された音声を、外部の情報処
    理装置に送信し、 前記情報処理装置において、前記音声を音声認識し、そ
    の音声認識結果を、前記端末に送信し、 前記端末において、前記情報処理装置から送信されてく
    る前記音声認識結果を受信し、その音声認識結果に対応
    して、所定の処理を行うことを特徴とする音声処理方
    法。
  10. 【請求項10】 前記情報処理装置は複数存在し、前記
    音声は、そのうちのいずれか1つに送信されることを特
    徴とする請求項9に記載の音声処理方法。
JP8213491A 1996-08-13 1996-08-13 音声処理装置および音声処理方法 Withdrawn JPH1063292A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8213491A JPH1063292A (ja) 1996-08-13 1996-08-13 音声処理装置および音声処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8213491A JPH1063292A (ja) 1996-08-13 1996-08-13 音声処理装置および音声処理方法

Publications (1)

Publication Number Publication Date
JPH1063292A true JPH1063292A (ja) 1998-03-06

Family

ID=16640086

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8213491A Withdrawn JPH1063292A (ja) 1996-08-13 1996-08-13 音声処理装置および音声処理方法

Country Status (1)

Country Link
JP (1) JPH1063292A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010092645A (ko) * 2000-03-23 2001-10-26 추후제출 클라이언트-서버 음성정보 전송 시스템 및 방법
JP2005031758A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
JP2015102955A (ja) * 2013-11-22 2015-06-04 株式会社アドバンスト・メディア 情報処理装置、サーバ、情報処理方法及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010092645A (ko) * 2000-03-23 2001-10-26 추후제출 클라이언트-서버 음성정보 전송 시스템 및 방법
JP2005031758A (ja) * 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
JP2015102955A (ja) * 2013-11-22 2015-06-04 株式会社アドバンスト・メディア 情報処理装置、サーバ、情報処理方法及びプログラム

Similar Documents

Publication Publication Date Title
KR101109265B1 (ko) 텍스트 입력 방법
US7047195B2 (en) Speech translation device and computer readable medium
US8606582B2 (en) Multimodal disambiguation of speech recognition
US7881936B2 (en) Multimodal disambiguation of speech recognition
JP2848458B2 (ja) 言語翻訳システム
US7260529B1 (en) Command insertion system and method for voice recognition applications
KR100769029B1 (ko) 다언어의 이름들의 음성 인식을 위한 방법 및 시스템
EP1089193A2 (en) Translating apparatus and method, and recording medium used therewith
JP2002116796A (ja) 音声処理装置、音声処理方法及び記憶媒体
US20060173685A1 (en) Method and apparatus for constructing new chinese words by voice input
US20070016420A1 (en) Dictionary lookup for mobile devices using spelling recognition
US20020091520A1 (en) Method and apparatus for text input utilizing speech recognition
JP2000075887A (ja) パターン認識装置、方法及びシステム
JP4230142B2 (ja) 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術
JPH1063292A (ja) 音声処理装置および音声処理方法
KR101250897B1 (ko) 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
JP3411198B2 (ja) 通訳装置及び方法並びに通訳装置制御プログラムを記憶した媒体
JP2011027979A (ja) 音声翻訳装置及び音声翻訳方法
JPH10320397A (ja) 携帯型音声翻訳端末
JPH02238494A (ja) 音声合成装置
JPH03217900A (ja) テキスト音声合成装置
JP2002189490A (ja) ピンイン音声入力の方法
JPS5864548A (ja) 音声日本語処理システム
JP2003216607A (ja) 電子翻訳装置
JPH05119793A (ja) 音声認識方法及び装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20031104