JPH09288493A - 音声認識方法および音声認識装置、並びに情報処理方法および情報処理装置 - Google Patents

音声認識方法および音声認識装置、並びに情報処理方法および情報処理装置

Info

Publication number
JPH09288493A
JPH09288493A JP8100943A JP10094396A JPH09288493A JP H09288493 A JPH09288493 A JP H09288493A JP 8100943 A JP8100943 A JP 8100943A JP 10094396 A JP10094396 A JP 10094396A JP H09288493 A JPH09288493 A JP H09288493A
Authority
JP
Japan
Prior art keywords
voice
voice recognition
time
character string
date
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8100943A
Other languages
English (en)
Other versions
JP3536524B2 (ja
Inventor
Katsuki Minamino
活樹 南野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP10094396A priority Critical patent/JP3536524B2/ja
Publication of JPH09288493A publication Critical patent/JPH09288493A/ja
Application granted granted Critical
Publication of JP3536524B2 publication Critical patent/JP3536524B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 音声の認識対象とされていない単語を、音声
認識する。 【解決手段】 音声認識部16では、日本語の1音韻を
表す文字が音声認識対象とされている。この場合におい
て、音声認識部16から音声の認識結果として、例えば
「し」、「な」、「が」、「わ」、「え」、「き」の6
つの文字が得られると、システム制御部12は、その6
つの文字の中の、連続する複数の文字を配置して連続文
字列を作成する。即ち、この場合、連続する2文字を配
列した連続文字列「しな」、「なが」、・・・、連続す
る3文字を配列した連続文字列「しなが」、「なが
わ」、・・・、連続する4文字を配列した連続文字列
「しながわ」、「ながわえ」、・・・、連続する5文字
を配列した連続文字列「しながわえ」、「ながわえ
き」、連続する6文字を配列した連続文字列「しながわ
えき」が作成される。そして、これらの連続文字列が、
音声認識の対象に追加される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識方法およ
び音声認識装置、並びに情報処理方法および情報処理装
置に関する。特に、例えば、スケジュールや住所録(名
簿)などの管理を行う電子手帳装置などに用いて好適な
音声認識方法および音声認識装置、並びに情報処理方法
および情報処理装置に関する。
【0002】
【従来の技術】従来の、例えば電子手帳装置などの情報
を記憶、管理する装置においては、キーボードや、ポイ
ンティングデバイス(例えば、マウスや、ペン、タッチ
パネルなど)、OCR(Optical Character Reader)な
どの入力装置を用いて、情報の入力が行われて記憶され
る。そして、ユーザの要求に応じて、記憶された情報が
検索され、その検索結果が、ディスプレイや、プリン
タ、音声合成装置などの出力装置から出力されるように
なされている。
【0003】このような電子手帳装置においては、主と
して、スケジュールや住所録などの管理を行うことがで
きる。即ち、例えばキーボードを操作することにより日
時を入力したり、あるいはポインティングデバイスによ
って、画面に表示されたカレンダにおける日時を指示す
ることで、あらかじめ登録(記憶)された、その日時に
おけるスケジュールが検索されて表示される(あるい
は、合成音で出力される)。さらに、電子手帳装置の中
には、スケジュールが記憶されている日時となると、そ
の旨を自動的に報知するようなものもある。
【0004】また、例えば、キーボードを操作すること
により名字などを入力すると、あらかじめ登録された住
所録の中から、その名字を有する人物の住所や電話番号
などが検索されて表示される。同姓の人物についての情
報が複数記憶されており、画面に表示しきれない場合に
は、例えば、そのような同姓の人物についての情報がリ
スト化されて表示されるようになされており、これによ
り、ユーザは、そのリストをスクロールさせることで、
所望する人物の情報を得ることができるようになされて
いる。
【0005】ところで、このような電子手帳装置を、多
数のキーからなるキーボードや、大きなディスプレイな
どを用いて構成した場合においては、キーボードによる
入力や、ディスプレイをポインティングデバイスによっ
て指示することによる入力などは行い易くなるが、その
反面、装置を小型に構成するのが困難となる。
【0006】しかしながら、電子手帳装置は、通常、携
帯して使用される場合が多いことから、小型に構成する
ことが要求される。そこで、キーボードを構成するキー
の数を少なくしたり、ディスプレイを小型にする方法が
あるが、これでは、情報その他の入力を行うのが困難と
なる。
【0007】即ち、例えば、カーソルを上下左右に移動
させるための4つのカーソルキーと、選択の確定を指示
する確定キーの5つのキーからキーボードを構成すると
ともに、ディスプレイに、仮名や、アルファベット、数
字などの他、カーソルも表示するようにし、カーソル
を、カーソルキーを操作することにより、所望する文字
の位置に移動して、確定キーを操作することにより、そ
の文字の入力を確定するようにした場合においては、入
力可能な文字の数に対して、キーの数が非常に少ないた
めに、1つの文字を入力するのに、カーソルキーおよび
確定キーの操作を行う必要があり、操作が繁雑になる。
また、情報を入力を、1文字ずつ行うのは煩わしく、さ
らに、入力可能な文字のすべてをディスプレイに一度に
表示することができない場合に、その表示されていない
文字を入力しようとするときには、画面をスクロールさ
せ、その文字が表示されるようにしなければならない。
【0008】また、例えば、ディスプレイに表示された
文字を、ポインティングデバイスで指示する場合にも同
様の問題がある。
【0009】以上のような問題は、登録、管理すべき情
報を入力する場合だけでなく、登録された情報を検索す
る場合にも生じる。即ち、例えば住所録を検索する場合
において、例えば姓や名だけでなく、郵便番号や、市外
局番、住所の中の都道府県名、市町村名などの多くの検
索項目を対象に検索を可能としたときには、そのような
多くの検索項目を、ディスプレイに表示し、ユーザに、
その中から検索の対象とする検索項目を、上述のような
少ないキーで入力してもらわなければならない。
【0010】そこで、情報その他の入力を容易に行うこ
とができるように、情報を、音声により入力することが
可能な、音声認識装置を内蔵した装置(電子辞書)が、
例えば特開平4−10166号公報や、特開平4−40
557号公報、特開平4−42363号公報などに開示
されている。
【0011】このような装置によれば、ユーザは、音声
により種々の情報を入力することが可能となり、この場
合、繁雑な操作を行わずに済むようになる。
【0012】
【発明が解決しようとする課題】ところで、上述のよう
に、音声により、情報を入力し、これを音声認識する場
合においては、入力されることが予想されるすべての、
例えば単語などを、音声認識の対象として辞書(以下、
適宜、このような音声認識の対象とする語が登録された
辞書を、認識辞書という)に登録しておかなければなら
ない。
【0013】即ち、例えば、スケジュールを入力するに
あたっては、待ち合わせ場所などを入力することが予想
される。従って、これを音声認識することができるよう
にするためには、入力される可能性のある場所を表す地
名(例えば、東京都、神奈川県、埼玉県、・・・、品川
区、渋谷区、横浜市、川崎市、・・・など)や、駅名
(例えば、品川駅、渋谷駅、横浜駅、・・・など)、施
設名(例えば、東京タワー、東京都庁、国立競技場、・
・・など)その他のあらゆるものを認識辞書に登録して
おかなければならない。
【0014】しかしながら、認識辞書に、多くの音声認
識対象語を登録した場合には、認識性能が劣化し、ま
た、音声を入力してから、その音声認識結果が得られる
までに時間を要することとなり、却って、ユーザに煩わ
しさを感じさせることになる。
【0015】一方、例えば所定の日時のスケジュールの
検索を行うために、その日時を入力する場合において
は、例えば西暦と月日による日時や、平成×年○○月△
△日などの元号を用いた日時などの、いわば絶対的な日
時(以下、適宜、絶対日時という)による指定の他、例
えば、明日や、明後日、来週の月曜日などの現在の日時
を基準とした日時(以下、適宜、相対日時という)の指
定を行いたいときもあるが、従来においては、このよう
な相対日時による指定は困難であった。
【0016】本発明は、このような状況に鑑みてなされ
たものであり、情報その他の入力を、装置を大型化する
ことなく、容易かつ柔軟に行うことができるようにする
ものである。
【0017】
【課題を解決するための手段】請求項1に記載の音声認
識方法は、情報を出力する出力手段より出力された文字
列の中の、連続する複数の文字を配置して連続文字列を
作成する作成ステップと、連続文字列を対象に、音声を
音声認識する音声認識ステップとを備えることを特徴と
する。
【0018】請求項2に記載の音声認識装置は、情報を
出力する出力手段より出力された文字列の中の、連続す
る複数の文字を配置して連続文字列を作成する作成手段
と、作成手段により作成された連続文字列を対象に、音
声を音声認識する音声認識手段とを備えることを特徴と
する。
【0019】請求項3に記載の音声認識方法は、音声を
音声認識する音声認識ステップと、音声の音声認識結果
である文字列の中の、連続する複数の文字を配置して連
続文字列を作成する作成ステップと、連続文字列を、認
識辞書に登録することにより、音声認識対象語とする登
録ステップとを備えることを特徴とする。
【0020】請求項7に記載の音声認識装置は、音声認
識の対象とされた音声認識対象語が登録されている認識
辞書を記憶している記憶手段と、認識辞書に登録されて
いる音声認識対象語を対象として、音声を音声認識する
音声認識手段と、音声認識手段の音声認識結果である文
字列の中の、連続する複数の文字を配置して連続文字列
を作成し、その連続文字列を、音声認識対象語として、
認識辞書に登録する登録手段とを備えることを特徴とす
る。
【0021】請求項8に記載の情報処理方法は、入力さ
れた情報が日時を表すものかどうかを判定する第1の判
定ステップと、情報が日時を表すものである場合に、そ
の情報が、現在の日時を基準とした日時である相対日時
を表すものであるかどうかを判定する第2の判定ステッ
プと、情報が相対日時を表すものである場合に、その相
対日時を、絶対的な日時を表す絶対日時に変換する変換
ステップとを備えることを特徴とする。
【0022】請求項10に記載の情報処理装置は、入力
された情報が日時を表すものかどうかを判定する第1の
判定手段と、情報が日時を表すものである場合に、その
情報が、現在の日時を基準とした日時である相対日時を
表すものであるかどうかを判定する第2の判定手段と、
情報が相対日時を表すものである場合に、その相対日時
を、絶対的な日時を表す絶対日時に変換する変換手段と
を備えることを特徴とする。
【0023】請求項1に記載の音声認識方法において
は、情報を出力する出力手段より出力された文字列の中
の、連続する複数の文字を配置して連続文字列を作成
し、連続文字列を対象に、音声を音声認識するようにな
されている。
【0024】請求項2に記載の音声認識装置において
は、作成手段は、情報を出力する出力手段より出力され
た文字列の中の、連続する複数の文字を配置して連続文
字列を作成し、音声認識手段は、作成手段により作成さ
れた連続文字列を対象に、音声を音声認識するようにな
されている。
【0025】請求項3に記載の音声認識方法において
は、音声を音声認識し、音声の音声認識結果である文字
列の中の、連続する複数の文字を配置して連続文字列を
作成し、連続文字列を、認識辞書に登録することによ
り、音声認識対象語とするようになされている。
【0026】請求項7に記載の音声認識装置において
は、記憶手段は、音声認識の対象とされた音声認識対象
語が登録されている認識辞書を記憶している。音声認識
手段は、認識辞書に登録されている音声認識対象語を対
象として、音声を音声認識し、登録手段は、音声認識手
段の音声認識結果である文字列の中の、連続する複数の
文字を配置して連続文字列を作成し、その連続文字列
を、音声認識対象語として、認識辞書に登録するように
なされている。
【0027】請求項8に記載の情報処理方法において
は、入力された情報が日時を表すものかどうかを判定
し、情報が日時を表すものである場合に、その情報が、
現在の日時を基準とした日時である相対日時を表すもの
であるかどうかを判定し、情報が相対日時を表すもので
ある場合に、その相対日時を、絶対的な日時を表す絶対
日時に変換するようになされている。
【0028】請求項10に記載の情報処理装置において
は、第1の判定手段は、入力された情報が日時を表すも
のかどうかを判定し、第2の判定手段は、情報が日時を
表すものである場合に、その情報が、現在の日時を基準
とした日時である相対日時を表すものであるかどうかを
判定するようになされている。変換手段は、情報が相対
日時を表すものである場合に、その相対日時を、絶対的
な日時を表す絶対日時に変換するようになされている。
【0029】
【発明の実施の形態】以下に、本発明の実施例を説明す
るが、その前に、特許請求の範囲に記載の発明の各手段
と以下の実施例との対応関係を明らかにするために、各
手段の後の括弧内に、対応する実施例(但し、一例)を
付加して、本発明の特徴を記述すると、次のようにな
る。
【0030】即ち、請求項1に記載の音声認識方法は、
入力された音声を音声認識する音声認識方法であって、
情報を出力する出力手段(例えば、図1に示すディスプ
レイ3やスピーカ4など)より出力された文字列の中
の、連続する複数の文字を配置して連続文字列を作成す
る作成ステップと、連続文字列を対象に、音声を音声認
識する音声認識ステップとを備えることを特徴とする。
【0031】請求項2に記載の音声認識方法は、入力さ
れた音声を音声認識する音声認識装置であって、情報を
出力する出力手段(例えば、図1に示すディスプレイ3
やスピーカ4など)と、出力手段より出力された文字列
の中の、連続する複数の文字を配置して連続文字列を作
成する作成手段(例えば、図3に示すシステム制御部1
2など)と、作成手段により作成された連続文字列を対
象に、音声を音声認識する音声認識手段(例えば、図3
に示す音声認識部16など)とを備えることを特徴とす
る。
【0032】請求項4に記載の音声認識方法は、音声認
識結果の音声認識結果を、情報を表示する表示手段(例
えば、図1に示すディスプレイ3など)に表示する表示
ステップと、音声が、認識辞書に登録された連続文字列
に音声認識されたとき、その連続文字列であって、表示
手段に表示されたものを仮名漢字変換する仮名漢字変換
ステップとをさらに備えることを特徴とする。
【0033】請求項7に記載の音声認識装置は、入力さ
れた音声を音声認識する音声認識装置であって、音声認
識の対象とされた音声認識対象語が登録されている認識
辞書を記憶している記憶手段(例えば、図4に示す認識
辞書記憶部24など)と、認識辞書に登録されている音
声認識対象語を対象として、音声を音声認識する音声認
識手段(例えば、図4に示す認識部22など)と、音声
認識手段の音声認識結果である文字列の中の、連続する
複数の文字を配置して連続文字列を作成し、その連続文
字列を、音声認識対象語として、認識辞書に登録する登
録手段(例えば、図3に示すシステム制御部12など)
とを備えることを特徴とする。
【0034】請求項10に記載の情報処理装置は、入力
された情報が日時を表すものかどうかを判定する第1の
判定手段(例えば、図10に示すプログラムの処理ステ
ップS34など)と、情報が日時を表すものである場合
に、その情報が、現在の日時を基準とした日時である相
対日時を表すものであるかどうかを判定する第2の判定
手段(例えば、図10に示すプログラムの処理ステップ
S36など)と、情報が相対日時を表すものである場合
に、その相対日時を、絶対的な日時を表す絶対日時に変
換する変換手段(例えば、図10に示すプログラムの処
理ステップS37など)とを備えることを特徴とする。
【0035】なお、勿論この記載は、各手段を上記した
ものに限定することを意味するものではない。
【0036】図1は、本発明を適用した電子手帳装置の
一実施例の外観構成を示している。この電子手帳装置
は、持ち運びに便利なように携帯型とされており、その
向かって右側面には、ボタン1が、また、正面パネルに
は、マイク2、ディスプレイ3、スピーカ4、およびカ
ーソルキー5が設けられている。
【0037】ボタン1は、図示せぬバネなどの弾性体に
より保持されており、装置の内部方向に力を加えること
で押下することができるようになされている。なお、ボ
タン1は、そこに力を加えることを停止すると、上述の
バネの弾力により、元の状態に戻るようになされてい
る。また、ボタン1は、電子手帳装置を右手で持った場
合に、その親指で、容易に操作することができるような
位置に設けられている。
【0038】マイク2は、そこに入力された音声を、電
気信号としての音声信号に変換するようになされてい
る。この音声信号は、電子手帳装置において音声認識さ
れ、その音声認識結果は、必要に応じて、ディスプレイ
3に表示されたり、あるいは、また、スピーカ4より、
合成音で出力されるようになされている。
【0039】なお、電子手帳装置においては、ボタン1
が押されている間に、マイク2に入力された音声が音声
認識されるようになされている。即ち、この実施例で
は、マイク2の出力信号に基づいて音声区間が検出され
るのではなく、ボタン1が押されている期間が音声区間
とされるようになされている。但し、音声区間は、例え
ば、マイク2の出力信号のゼロクロスやパワーなどに基
づいて、電子手帳装置において検出するようにし、これ
により、ボタン1を操作しなくても、音声を入力するこ
とができるようにすることが可能である。
【0040】ディスプレイ3は、例えばLCD(液晶デ
ィスプレイ)やCRT(Cathod RayTube)などで構成さ
れ、所定の情報を表示するようになされている。スピー
カ4は、所定の情報を合成音で出力したり、また、ユー
ザに注意を促すための警告音(例えば、いわゆるビープ
音など)を出力するようになされている。
【0041】カーソルキー5は、上キー5a、下キー5
b、左キー5c、および右キー5dで構成されている。
上キー5a、下キー5b、左キー5c、または右キー5
dは、ディスプレイ3に表示されたカーソルを、上、
下、左、または右にそれぞれ移動させるときに操作され
るようになされている。この電子手帳装置においては、
ディスプレイ3に、幾つかの選択可能な項目とともに、
カーソルが表示されている場合において、そのカーソル
を、カーソルキー5を操作することにより、所望する項
目の位置に移動し、ボタン1を1度押して離す(以下、
適宜、クリックするという)と、その項目の選択が確定
されるようになされている。
【0042】なお、ディスプレイ3は、例えば透明なタ
ブレットなどと一体に構成するようにすることができ、
このようにした場合には、ディスプレイ3に表示された
項目の選択は、その項目の表示部分を、指先やペンなど
で指示することにより行うことが可能である。
【0043】以上のように構成される電子手帳装置にお
いては、ボタン1が押された状態の間に、マイク2に音
声が入力されると、その音声が音声認識される。そし
て、その音声認識の結果は、ディスプレイ3に表示(出
力)され、また、スピーカ4から合成音で出力される。
【0044】ユーザは、ディスプレイ3の表示を見て、
あるいはスピーカ4の出力を聴いて、音声認識結果が誤
っている場合には、再び、ボタン1を操作しながら、例
えば「キャンセル」などと発話する。この「キャンセ
ル」は、電子手帳装置において、ある処理が行われた場
合に、装置の状態を、その処理を開始する前の状態に戻
すように指令するコマンドとして登録されており、電子
手帳装置は、ある処理を行った後に、コマンド「キャン
セル」を受信すると、その処理を行う前の状態に戻るよ
うになされている(電子手帳装置におけるこのような処
理を、以下、適宜、キャンセル処理という)。
【0045】従って、例えば、上述したように、ディス
プレイ3に表示された音声認識結果が誤っている場合
に、ユーザが、コマンド「キャンセル」を発話すると、
ディスプレイ3に表示された音声認識結果は消去され、
装置の内部状態も、音声認識を行う前の状態に戻る。
【0046】なお、キャンセル処理は、例えば、ボタン
1を2回連続してクリック(ダブルクリック)すること
によっても行われるようになされている。従って、電子
手帳装置では、コマンド「キャンセル」が音声で入力さ
れるか、またはボタン1がダブルクリックされると、キ
ャンセル処理が行われる。
【0047】また、キャンセル処理は、複数回連続して
行うこともできるようになされている。従って、コマン
ド「キャンセル」の入力が連続して行われた場合、また
はボタン1のダブルクリックが連続して行われた場合、
装置の状態は、順次、前の状態に戻っていく。
【0048】図2は、図1の電子手帳装置の主な機能を
表している。この実施例では、電子手帳装置は、スケジ
ュール管理機能および名簿管理機能(住所録)機能を、
主なアプリケーションとして有しており、スケジュール
管理機能によれば、入力された日時およびスケジュール
を対応付けて記憶し、また、ユーザからの要求に応じ
て、記憶したスケジュールを検索して出力(ディスプレ
イ3に表示、またはスピーカ4から出力)することがで
きるようになされている。また、名簿管理機能によれ
ば、入力された顧客その他の氏名と、電話番号、住所と
を対応付けて記憶し、ユーザからの要求に応じて、記憶
した情報を検索して出力することができるようになされ
ている。
【0049】電子手帳装置は、さらに、スケジュール管
理機能や名簿管理機能において記憶、管理すべき情報
や、コマンドその他の入力を可能とする入力機能も有し
ている。この入力機能には、主として、音声認識機能、
日時相対指定機能、および仮名漢字変換機能があり、音
声認識機能によれば、マイク2に入力された音声を音声
認識することで、音声による情報その他の入力を行うこ
とができるようになされている。日時相対指定機能によ
れば、相対日時が、音声により入力され、これが、音声
認識機能により音声認識された場合に、その相対日時
を、絶対日時に変換することができるようになされてお
り、これにより、スケジュールの入力、または検索をす
るときに、その入力または検索を行うスケジュールの日
時を、相対日時で指定することができるようになされて
いる。仮名漢字変換機能によれば、マイク2に入力され
た音声が音声認識された場合に、その音声認識結果とし
ての文字列を仮名漢字変換することができるようになさ
れている。
【0050】図3は、図1の電子手帳装置の内部構成例
を示している。入力部1は、ボタン1、マイク2、およ
びカーソルキー5の他、例えばA/D変換器2Aなどで
構成されている。入力部1では、ボタン1やカーソルキ
ー5が操作されると、その操作に対応する信号が、シス
テム制御部12に供給されるようになされている。ま
た、入力部1では、マイク2より出力されるアナログの
音声信号が、A/D変換器2AにおいてA/D変換され
ることにより、ディジタルの音声信号とされるようにな
されており、このA/D変換器2Aから出力される音声
信号は、ボタン1が操作されている間だけ、システム制
御部12に供給されるようになされている。
【0051】なお、入力部1には、その他、従来と同様
に、種々のキーを有するキーボードや、ポインティング
デバイス、OCRなどを、オプションで設けることが可
能である。
【0052】システム制御部12は、例えばDSP(Di
gital Signal Processor)やCPU(Central Processo
r Unit)などで構成され、装置全体の制御を行うように
なされている。即ち、システム制御部12は、例えば、
入力部12からの信号を受信して、その信号に対応する
処理を行い、また、記憶部13に対するデータ(情報)
その他の書き込みおよび読み出しを行うようになされて
いる。さらに、システム制御部12は、例えば、出力部
14にデータを供給して出力させ、時計部15から供給
される現在の日時(日付、時刻)に基づいて所定の処理
を行うようにもなされている。また、システム制御部1
2は、例えば、音声認識部16または音声合成装置17
とのデータの送受を行うことにより、それぞれに音声認
識または音声合成を行わせるようにもなされている。
【0053】記憶部13は、例えばROM(Read Only
Memory)や、RAM(Random Access Memory)、磁気デ
ィスク、光ディスク、ICカードその他などで構成さ
れ、例えば、システムプログラムやアプリケーションプ
ログラムを記憶している。システム制御部12は、この
記憶部13に記憶されているシステムプログラムおよび
アプリケーションプログラムを実行することで、種々の
処理、制御を行うようになされている。また、記憶部1
3は、仮名漢字変換を行うための辞書(以下、適宜、仮
名漢字変換用辞書という)も記憶しており、システム制
御部12は、これを参照して、仮名漢字変換を行うよう
になされている。さらに、記憶部13は、システム制御
部12が処理を行う上で必要なデータも記憶するように
なされている。また、記憶部13は、ユーザが入力した
スケジュールや、住所録などの情報(入力データ)も記
憶するようになされている。
【0054】出力部14は、ディスプレイ3やスピーカ
4の他、アンプ4Aなどで構成されている。出力部14
では、システム制御部12からの信号(情報)が、ディ
スプレイ3で表示され、あるいは、アンプ4Aで適正な
レベルに調整された後、スピーカ4から出力されるよう
になされている。時計部15は、所定のクロックをカウ
ントすることにより、現在の年月日(日付)および時刻
(以下、適宜、現在日時という)を発生し、システム制
御部12に供給するようになされている。
【0055】音声認識部16は、音声認識処理を行うよ
うになされている。即ち、入力部1からシステム制御部
12に対し、音声信号が供給されると、システム制御部
12は、その音声信号を、音声認識部16に供給するよ
うになされており、音声認識部16は、システム制御部
12からの音声信号を音響分析し、その分析結果に基づ
いて、音声認識を行うようになされている。この音声認
識結果は、対応する文字列に変換され、音声認識部16
からシステム制御部12に供給されるようになされてい
る。
【0056】音声合成部17は、音声合成処理を行うよ
うになされている。即ち、システム制御部12は合成音
とすべき、例えば文字列(テキスト)を音声合成部17
に供給するようになされており、音声合成部17は、シ
ステム制御部12から文字列を受信すると、その文字列
に対応する合成音(音声信号)を生成し、システム制御
部12に供給するようになされている。
【0057】なお、システム制御部12から音声合成部
17に対しては、文字列とともに、その読みや、アクセ
ントの位置、フレーズ(イントネーション)などを表す
情報(以下、適宜、音韻情報という)も供給されるよう
になされており、音声合成部17では、この音韻情報に
基づいて、合成音の韻律を制御するための韻律情報を生
成し、さらに、この音韻情報および韻律情報に基づい
て、システム制御部12からの文字列に対応する合成音
を生成するようになされている。但し、システム制御部
12から音声合成部17に対しては、文字列だけを供給
するようにすることもでき、この場合には、音声合成部
17において、文字列が言語解析され、その言語解析結
果に基づいて、音韻情報が生成される。
【0058】次に、図4は、図3の音声認識部16の構
成例を示している。システム制御部12から供給される
音声信号は、音響分析部21に供給されるようになされ
ている。音響分析部21は、システム制御部12からの
音声信号が、所定の微小区間であるフレーム単位で音響
分析され、これにより、その特徴量が抽出される。即
ち、音響分析部21では、例えば音声信号のパワー(エ
ネルギ)や、ゼロ交差数、ピッチ周波数、周波数特性、
さらには、必要に応じて、これらの変化量(差分値)な
どが抽出される。
【0059】なお、音声信号の周波数特性を得るにあた
っては、例えばLPC分析(線形予測分析)や、FFT
(高速フーリエ変換)、バンドパスフィルタにより構成
されるフィルタバンクによるフィルタリングなどが行わ
れる。
【0060】音響分析部21は、音声の特徴量を抽出す
ると、例えば、これをベクトルとし、そのまま、あるい
は、そのベクトルをベクトル量子化することによりスカ
ラ量にして、認識部22に出力する。
【0061】以上のようにして、認識部22には、音声
の特徴量(フレーム単位の特徴量)が、時系列として供
給される。
【0062】認識部22は、認識パラメータ記憶部23
および認識辞書記憶部24、さらには必要に応じて、認
識文法記憶部25を参照しながら、音響分析部21から
の特徴量に基づいて、マイク2に入力された音声を音声
認識し、その音声認識結果を表す文字列を出力するよう
になされている。
【0063】ここで、認識部22において音声認識を行
うための音声認識アルゴリズムとしては、例えばDP
(Dynamic Programming)マッチング法や、ニューラル
ネットワークを用いる方法、HMM(Hidden Markov Mo
del)法などがある。
【0064】DPマッチング法は、音声の特徴量を入力
パターンとし、この入力パターンと、テンプレートと呼
ばれる標準パターンとを、時間軸伸縮を行いながらマッ
チングすることによって音声認識を行うものであり、例
えば、入力パターンとの距離を最も短くする標準パター
ンに対応する文字(文字列)が音声認識結果とされる。
【0065】ニューラルネットワークを用いる方法は、
人間の脳を模倣するネットワークモデルによって音声認
識を行うものであり、例えば、ネットワークモデルに対
して音声の特徴量を与えたときに、そこから出力される
データに基づいて、音声認識結果が決定される。
【0066】HMM法は、幾つかの状態からなる確率モ
デル(HMM)によって音声認識を行うものであり、例
えば、音声の特徴量の系列が観測される確率が最も高い
確率モデルに対応する文字(文字列)が音声認識結果と
される。
【0067】認識パラメータ記憶部23には、例えばテ
ンプレートを規定するパラメータや、ネットワークモデ
ルを規定する重み係数、確率モデルを規定する確率など
の認識パラメータが、学習により求められて記憶されて
いる。認識辞書記憶部24には、認識部22における音
声認識の対象とする音声認識対象語が登録された認識辞
書が記憶されている。認識文法記憶部25には、音声認
識の対象とする言語の文法や、認識辞書に登録された音
声認識対象語の意味的な接続関係などが記述された認識
文法が記憶されている。
【0068】認識部22では、1つの音声区間における
音声の特徴量の系列に対する、認識辞書に登録された音
声認識対象語の尤度(スコア)が、認識パラメータ記憶
部23に記憶された認識パラメータを用い、必要に応じ
て認識文法記憶部25に記憶された認識文法による制限
を行いながら求められ、そのスコア(尤度)の最も高い
音声認識対象語(あるいは、上位数個でも良い)が、音
声認識結果として出力される。
【0069】ここで、本実施例では、例えば、HMM法
を用いるものとし、このHMM法にしたがって、音声認
識部16において行われる音声認識処理ついて説明す
る。なお、音声認識部16においては、HMM法以外の
音声認識アルゴリズムを用いることも可能である。ま
た、ここでは、例えば日本語を対象として音声認識を行
うものとする。
【0070】この場合、まず最初に、学習により、例え
ば仮名に対応する確率モデルが求められる。即ち、HM
M(確率モデル)は、複数の状態がパスで接続されて構
成され、状態が、ある状態から他の状態(元の状態も含
む)に遷移する確率(状態遷移確率)と、状態が遷移す
るときに各シンボルが出力される確率(シンボル出力確
率)とによって規定される。学習においては、各仮名に
対応する確率モデルの状態遷移確率およびシンボル出力
確率が、その仮名の音声の学習用のデータに対する所定
の評価値が最大化するように決定される。
【0071】具体的には、状態遷移確率およびシンボル
出力確率は、例えば、ある仮名に対応する確率モデルに
おいて、その仮名の音声の学習用のデータから得られる
特徴量の系列(シンボル系列)が観測される確率(生起
確率)が高くなるように決定される。このようにして決
定された各仮名に対応する確率モデルの状態遷移確率お
よびシンボル出力確率が、認識パラメータとして認識パ
ラメータ記憶部23に記憶される。
【0072】そして、認識時においては、音響分析部2
1において、入力された音声信号が音響分析されること
により、音声の特徴量とされ、さらに、その特徴量がベ
クトル量子化されることで、時系列のシンボルとされ
て、認識部22に供給される。
【0073】認識部22は、シンボルを受信すると、認
識辞書に登録された音声認識対象語を構成する仮名それ
ぞれに対応する確率モデルを連結することで、その音声
認識対象語に対応する確率モデルを生成する。即ち、音
声認識対象語が、例えば「きょう(今日)」である場
合、仮名「き」、「ょ」、「う」それぞれに対応する確
率モデルが連結され、「きょう」に対応する確率モデル
が生成される。また、音声認識対象語が、例えば「あす
(明日)」である場合、仮名「あ」、「す」それぞれに
対応する確率モデルが連結され、「あす」に対応する確
率モデルが生成される。さらに、音声認識対象語が、例
えば「いち(1)」である場合、仮名「い」、「ち」そ
れぞれに対応する確率モデルが連結され、「いち」に対
応する確率モデルが生成される。また、音声認識対象語
が、例えば「に(2)」である場合、仮名「に」の確率
モデルが、そのまま「に」の確率モデルとされる。さら
に、音声認識対象語が、例えば「さん(3)」である場
合、仮名「さ」、「ん」それぞれに対応する確率モデル
が連結され、「さん」に対応する確率モデルが生成され
る。
【0074】認識部22では、このようにして、認識辞
書に登録された音声認識対象語すべてに対応する確率モ
デルが生成され、認識パラメータ記憶部23に記憶され
た状態遷移確率およびシンボル出力確率に基づいて、各
音声認識対象語に対応する確率モデルから、音響分析部
21より供給される音声の特徴量の系列が観測(生起)
される生起確率が計算される。そして、認識部22は、
最も高いスコア、即ち、ここでは生起確率を与える確率
モデルに対応する音声認識対象語を表す文字列を、その
スコアとともに、音声認識結果として出力する。
【0075】本実施例では、仮名に対応する確率モデル
を用意し、その各仮名に対応する確率モデルを、認識辞
書に登録された音声認識対象語にしたがって連結するこ
とで、その音声認識対象語の確率モデルを生成するよう
にしているので、例えば、認識辞書記憶部24に記憶さ
せる認識辞書を他のものと入れ替えたり、また、認識辞
書に、新たに音声認識対象語とするものを追加、削除す
るだけで、音声認識の対象とする語を変更することがで
きる。
【0076】また、例えば、数字の4などは、「よん」
と発話されたり、また、「し」と発話されたりする場合
があるが、両者を、認識辞書に登録しておくことで、い
ずれの発話がなされても、数字の4を音声認識すること
が可能となる。
【0077】さらに、認識辞書には、一般的には、例え
ば単語を、音声認識対象語として登録しておくことが多
いが、単語以外に、例えば「くじからじゅうじまで(9
時から10時まで)」のような任意の文字列も、音声認
識対象語として登録しておくことが可能である。この場
合、単語の他、上述のような任意の文字列も音声認識す
ることが可能となる。
【0078】但し、認識辞書に、あまり多くの音声認識
対象語を登録しておくと、前述したように、認識性能が
劣化し、また、音声認識処理に時間を要することとな
る。そこで、本実施例では、認識部22は、必要に応じ
て、認識文法記憶部25に記憶された認識文法を参照
し、その認識文法により、音声認識対象語の並びを制限
しながら、スコア(ここでは、上述したように生起確
率)の計算を行うようになされている。
【0079】即ち、例えば、「くじからじゅうじまで
(9時から10時まで)」などのような、時刻、「か
ら」、時刻、「まで」という並びの音声を音声認識する
場合には、時刻を表すのに用いる数字「0」乃至「2
4」、「じ(時)」、「から」、「まで」を、音声認識
対象語として認識辞書に登録しておくとともに、上述の
ような並びを表現する認識文法「(数字)」+「じ」+
「から」+「(数字)」+「じ」+「まで」を、認識文
法記憶部25に登録しておく。
【0080】この場合、認識部22では、認識辞書に登
録された音声認識対象語それぞれの単独のスコアだけで
なく、認識文法を参照することで、上述したような音声
認識対象語の並びのスコアも計算される。そして、その
結果、最もスコアの高いものに対応する文字列が、音声
認識結果として出力される。従って、認識部22は、認
識辞書に登録された音声認識対象語それぞれを単独で発
した音声だけでなく、それらを連続発話した音声も音声
認識することができるようになされている。即ち、認識
部22は、孤立単語認識だけでなく、連続音声認識も行
うようになされている。
【0081】なお、認識部22が充分な認識性能を発揮
することができる範囲で扱うことのできる音声認識対象
語や、認識文法の数には制限があるため、音声認識すべ
き音声が入力されたときに、その音声を音声認識するの
に用いる音声認識対象語および認識文法の数は、適応的
に制限するようにするのが望ましい。
【0082】また、上述の場合においては、認識パラメ
ータ記憶部23に、仮名に対応する確率モデル(状態遷
移確率およびシンボル出力確率)を記憶させておくよう
にしたが、確率モデルは、その他、例えば、音素や、音
節、単語などのものを用いるようにすることも可能であ
る。
【0083】次に、図5は、図4の認識辞書記憶部24
に記憶された認識辞書の構成例を示している。この実施
例では、認識辞書は、コマンド辞書、1文字語辞書、連
続文字列辞書、基本辞書、および新規語辞書で構成され
ており、音声認識対象語は、これらの辞書に分類されて
登録されている(登録される)。
【0084】コマンド辞書には、上述したような「キャ
ンセル」などのコマンドが登録されている。さらに、コ
マンド辞書には、記憶部13に記憶されたスケジュール
や住所録の検索の際に、その検索の対象となる検索項目
(例えば、スケジュールや、電話番号、住所など)を指
示する語としての指示語も記憶されている。
【0085】即ち、図1の電子手帳装置においては、例
えばある日時のスケジュールの検索は、音声「(日時)
のスケジュールは?」などを入力することによって行わ
れるようになされている。また、例えばある人物の住所
や電話番号の検索は、音声「(人物の氏名)の住所は
?」や「(人物の氏名)の電話番号は?」などを入力す
ることによって行われるようになされている。この場
合、「のスケジュールは」や、「の住所は」、「の電話
番号は」の中の「スケジュール」や、「住所」、「電話
番号」は、検索の対象が、スケジュールや、住所、電話
番号であることを表している。コマンド辞書には、コマ
ンドの他、このような検索項目(検索の対象)を指示す
る指示語(例えば、「のスケジュールは」や、「の住所
は」、「の電話番号は」など)も登録されている。
【0086】1文字語辞書には、1音節を表す文字(文
字列)および1文字で表される文字(両方含めて、以
下、適宜、1文字語という)が登録されている。即ち、
具体的には、例えば図6に示すように、1音節を表す文
字として「あ」、「い」、「う」、・・・(これらは1
音節でもあるが、1文字でもある)、「きゃ」、「き
ゅ」、「きょ」、・・・などが登録されている。また、
1文字で表される文字として、アルファベットや、数
字、記号などが登録されている。
【0087】連続文字列辞書には、連続文字列が登録さ
れる。なお、連続文字列については、後述する。
【0088】基本辞書には、例えばスケジュールや住所
録の入力などに用いるための単語(システム登録語)が
登録されている。即ち、例えば、スケジュールの入力
(あるいは検索)を行う際には、そのスケジュールの日
時を指定する必要があるが、基本辞書には、そのような
日時を指定するための単語(以下、適宜、日時指定語と
いう)などが登録されている。ここで、日時指定語の例
を、図7に示す。なお、図7(A)は、日時指定語のう
ち、日付を指定するための単語(日付指定語)を表し、
図7(B)は、時刻を指定するための単語(時刻指定
語)を表している。
【0089】新規語辞書には、基本辞書には登録されて
いない単語を、ユーザが音声認識対象語とする場合に、
その単語が登録される。即ち、ユーザが、例えば営業を
行っているものなどである場合には、「会議」や、「出
張、「商談」、「待ち合わせ」、「出発」などの単語
が、スケジュールを入力するときに頻繁に用いられる。
また、ユーザが、例えば学生などである場合には、「授
業」や、「英会話」、「ピアノ」などの単語が、やはり
スケジュールを入力するときに頻繁に用いられる。この
ような単語が、基本辞書に登録されていない場合におい
ては、装置のモードを、後述する仮名漢字変換モードと
することにより、音声で入力することができるが、頻繁
に用いる単語を、毎回、仮名漢字変換モードによって入
力するのは効率的とはいえない。そこで、そのような単
語(以下、適宜、新規語という)は、新規語辞書に登録
することができるようになされており、これにより、基
本辞書には登録されていない単語の入力を、音声により
効率的に行うことができるようになされている。
【0090】なお、音声認識部16では、以上のような
コマンド辞書、1文字語辞書、連続文字列辞書、基本辞
書、および新規語辞書のすべてに登録された音声認識対
象語を対象として音声認識が行われるが、これらの辞書
のうちの、例えば基本辞書および新規語辞書について
は、そこに登録されている語を、例えば、日時や、場
所、用件などを入力するために用いるものに分類すると
ともに、装置に、情報(データ)を入力する際に、どの
ような情報(日時、場所、用件などの情報)を入力する
のかを、ユーザに指定してもらうようにし、その指定に
したがって、上述のように分類された語を、音声認識の
対象とするように切り換えるようにしても良い。
【0091】次に、システム制御部12(図3)は、入
力部11からの音声信号を、音声認識部16に供給する
ことにより音声認識させ、音声認識部16から出力され
る音声認識結果を、そのスコアとともに受信するが、ユ
ーザが発した音声の最終的な音声認識結果は、このシス
テム制御部12において決定されるようになされてい
る。そこで、図8のフローチャートを参照して、システ
ム制御部12において行われる、その決定処理について
説明する。
【0092】システム制御部12は、音声認識部16よ
り出力される音声認識結果およびスコアを受信すると、
ステップS1において、そのスコアが所定値以上かどう
かを判定する。ステップS1において、スコアが所定値
以上でないと判定された場合、ステップS2に進み、シ
ステム制御部12は、出力部14を制御することによ
り、警告を行い、処理を終了する。
【0093】即ち、音声認識結果のスコアが所定値以上
でない場合は、認識辞書に登録されていない語の音声が
入力されたと考えられる。そこで、システム制御部12
は、ディスプレイ3またはスピーカ4から、警告のメッ
セージを出力させ、これにより、ユーザに、入力した音
声が音声認識の対象とされていないことを報知する。
【0094】一方、ステップS1において、スコアが所
定値以上であると判定された場合、ステップS3に進
み、音声認識部16から出力された音声認識結果が複数
あるかどうかが判定される。即ち、音声認識部16は、
最もスコアの高い文字列が複数得られた場合(例えば、
認識辞書を構成する辞書の中の複数に、同一の語が登録
されている場合などに、その語が発話されたときには、
複数の辞書それぞれに登録されている、その語に対応す
る文字(文字列)が、最もスコアの高い音声認識結果と
して得られる)、その複数の音声認識結果を、スコアと
ともに出力するようになされており、この場合、ステッ
プS3では、音声認識結果が複数あると判定される。
【0095】ステップS3において、音声認識結果が複
数存在しないと判定された場合、即ち、音声認識結果が
1つの文字列である場合、ステップS11に進み、その
文字列が最終的な音声認識結果として決定され、処理を
終了する。
【0096】また、ステップS3において、音声認識結
果が複数あると判定された場合、ステップS4に進み、
その複数の音声認識結果のいずれかの中に、コマンド辞
書に登録されているコマンドまたは指示語を有している
ものがあるかどうかが判定される。ステップS4におい
て、複数の音声認識結果のいずれかの中に、コマンド辞
書に登録されているコマンドまたは指示語を有している
ものがあると判定された場合、ステップS5に進み、そ
のコマンドまたは指示語を有している音声認識結果が選
択され、ステップS11に進む。ステップS11では、
その選択された音声認識結果が、最終的な音声認識結果
として決定され、処理を終了する。
【0097】一方、ステップS4において、複数の音声
認識結果のいずれかの中に、コマンドまたは指示語を有
しているものがないと判定された場合、ステップS6に
進み、その複数の音声認識結果のいずれかの中に、1文
字語辞書に登録されている1文字語があるかどうかが判
定される。ステップS6において、複数の音声認識結果
のいずれかの中に、1文字語があると判定された場合、
ステップS7に進み、その1文字語が選択され、ステッ
プS11に進む。ステップS11では、その選択された
1文字語が、最終的な音声認識結果として決定され、処
理を終了する。
【0098】また、ステップS6において、複数の音声
認識結果のいずれかの中に、1文字語がないと判定され
た場合、ステップS8に進み、その複数の音声認識結果
のいずれかの中に、連続文字列辞書に登録された連続文
字列があるかどうかが判定される。ステップS8におい
て、複数の音声認識結果のいずれかの中に、連続文字列
があると判定された場合、ステップS9に進み、その連
続文字列が選択され、ステップS11に進む。ステップ
S11では、その選択された連続文字列が、最終的な音
声認識結果として決定され、処理を終了する。
【0099】一方、ステップS8において、複数の音声
認識結果のいずれかの中に、連続文字列がないと判定さ
れた場合、即ち、複数の音声認識結果が、コマンド、指
示語、1文字語、および連続文字列のいずれでもなく、
従って、基本辞書に登録されているシステム登録語、若
しくは新規語辞書に登録された新規語(以下、適宜、両
方含めて、通常語という)(または通常語で構成される
文字列)である場合、ステップS10に進み、その複数
の通常語の中のいずれかが選択される。
【0100】即ち、この場合、システム制御部12は、
複数の通常語を、ディスプレイ3に、カーソルとともに
表示させる。さらに、システム制御部12は、ディスプ
レイ3に、通常語の選択を要求するメッセージも表示さ
せる。ユーザは、このメッセージを見て、カーソルキー
5を操作し、これにより、正しい音声認識結果としての
通常語の位置にカーソルを移動させ、さらに、その位置
で、ボタン1をクリックすることにより、通常語の選択
を確定する。ステップS10では、このようにして確定
された通常語が選択される。
【0101】ステップS10において、通常語が選択さ
れると、ステップS11に進み、その選択された通常語
が、最終的な音声認識結果として決定され、処理を終了
する。
【0102】以上のように、複数の音声認識結果が得ら
れた場合においては、システム制御部12では、コマン
ドまたは指示語、1文字語、連続文字列、通常語の順の
優先順位で、最終的な音声認識結果が決定される。
【0103】なお、コマンド(および指示語)の優先順
位を最も高くしたのは、ユーザがコマンドを発声したと
きに、その音声が、1文字語、連続文字列、または通常
語に音声認識されてしまうと、そのコマンドに対応する
処理が実行されなくなってしまうからである。
【0104】また、本実施例では、コマンド辞書に登録
されているものが、装置に対するコマンドと認識される
が、上述したようなコマンド「キャンセル」が、例え
ば、通常語などとしても登録されている場合において、
音声「キャンセル」が入力されたときには、その音声
は、上述の優先順位により、常に、コマンドの「キャン
セル」として認識され、通常語としては認識されない。
従って、この場合、「キャンセル」という語を用いて、
スケジュールを記述することが困難となる。そこで、こ
のようなことを防止するために、コマンドを入力する場
合には、例えば「コマンド」その他の通常は発せられな
い音声に続いて、処理を指示するコマンドを入力するよ
うにし、装置には、音声「コマンド」に続いて入力され
る音声を、コマンドを表すものとして認識させるように
することが可能である。
【0105】さらに、ここでは、コマンドおよび指示
語、1文字語、連続文字列、通常語の順に、優先順位を
つけるようにしたが、優先順位は、その他の順番でつけ
ることも可能である。
【0106】また、複数の音声認識結果の中には、複数
のコマンド、指示語、1文字語、または連続文字列があ
る場合があるが、このような場合には、ステップS5,
S7,S9において、例えば、ステップS10における
場合と同様にして、その中のいずれか1つのコマンド、
指示語、1文字語、または連続文字列が選択される。
【0107】さらに、最終的な音声認識結果として通常
語が得られた場合には、システム制御部12は、その通
常語を、例えば、(仮名漢字変換することができるなら
ば)記憶部13を参照することにより漢字に変換し、漢
字の状態で取り扱うようになされている(例えば、ディ
スプレイ3に、その通常語を漢字で表示させるようにな
されている)。
【0108】次に、図9のフローチャートを参照し、マ
イク2に入力された音声に対応して、図3のシステム制
御部12が行う処理について説明する。システム制御部
12では、まず最初に、ステップS21において、マイ
ク2に音声が入力されたか否かが判定される。ここで、
システム制御部12では、マイク2に音声が入力された
かどうかは、ボタン1の操作がなされているかどうかが
によって判定される。即ち、システム制御部12は、ボ
タン1が操作されている状態にある場合には、マイク2
に音声が入力されていると判定する。
【0109】ステップS21において、マイク2に音声
が入力されていないと判定された場合、ステップS21
に戻る。また、ステップS21において、マイク2に音
声が入力されたと判定された場合、ステップS22に進
み、システム制御部12は、その音声信号を、音声認識
部16に供給することにより音声認識させる。その後、
システム制御部12は、音声認識部16から音声認識結
果を受信すると、図8で説明したように最終的な音声認
識結果を決定する。そして、ステップS23に進み、シ
ステム制御部12は、その音声認識結果がコマンドであ
るかどうかを判定する。ステップS23において、音声
認識結果がコマンドでないと判定された場合、ステップ
S24に進み、システム制御部12は、コマンドの入力
を要求するメッセージを生成し、これを、音声合成部1
7に供給することにより、そのメッセージに対応する合
成音を生成させる。さらに、システム制御部12は、ス
テップS24において、そのメッセージとともに、対応
する合成音を出力部14に供給して出力させる。即ち、
これにより、ディスプレイ3には、コマンドの入力を要
求するメッセージが表示され、また、スピーカ4から
は、そのメッセージに対応する合成音が出力される。
【0110】その後、ステップS21に戻り、音声の入
力を待って、再び、ステップS22以降の処理が行われ
る。
【0111】一方、ステップS23において、音声認識
結果がコマンドであると判定された場合、ステップS2
5に進み、装置の動作モードが、そのコマンドに対応し
た処理を行うためのモードに設定され、ステップS26
に進む。ステップS26では、ステップS25で設定さ
れたモードに対応する処理が行われ、その後、ステップ
S25に戻り、以下、ステップS25およびS26の処
理が繰り返される。
【0112】図10のフローチャートは、装置のモード
が、スケジュールを入力するためのスケジュール入力モ
ードとされた場合のステップS26の処理の詳細を示し
ている。装置のモードがスケジュール入力モードとされ
ると、ステップS31乃至S33において、図9のステ
ップS21乃至S23それぞれにおける場合と同様の処
理が行われる。
【0113】そして、ステップS33において、音声認
識結果がコマンドであると判定された場合、スケジュー
ル入力モードを終了し、即ち、図9のステップS26の
処理を終了し、ステップS25にリターンする。従っ
て、ステップS33で、入力された音声がコマンドであ
ると判定された場合、ステップS25において、そのコ
マンドに対応して、装置の動作モードが設定され、ステ
ップS26において、その設定されたモードに対応する
処理が行われる。
【0114】ここで、装置のモードを、キーなどを操作
して設定する場合においては、装置のモードを変更する
ために、通常は、現在のモードから、一旦、上位(ある
いは最上位)のモードに戻り、希望するモードの選択を
行う必要がある。これに対し、図1(図3)の電子手帳
装置では、音声によりモードの選択が可能とされている
ので、装置のモードの変更は、現在のモードから直接行
うことができる。即ち、ユーザは、装置のモードを、所
望するモードに切り換えるにあたって、一旦、上位のモ
ードに戻るためのコマンドを発声し、さらに、所望する
モードに対応するコマンドを発声する必要はなく、現在
のモードにおいて、所望するモードに対応するコマンド
を発声するだけで良い。
【0115】一方、ステップS33において、音声認識
結果がコマンドでないと判定された場合、ステップS3
4に進み、その音声認識結果が日時を表すものであるか
どうかが判定される。ステップS34において、音声認
識結果が日時を表すものでないと判定された場合、ステ
ップS35に進み、図9のステップS24における場合
と同様にして、ユーザに対し、日時の入力が要求され、
ステップS31に戻る。
【0116】即ち、スケジュールを入力するにあたって
は、いつのスケジュールかがわからないと、その管理を
することができない。このため、システム制御部12に
おいては、スケジュールの入力に先だって、そのスケジ
ュールの日時の入力を要求するようになされている。
【0117】ここで、スケジュールの日時の入力は、図
7に示したような日時指定語を用いて行うことができる
ようになされている。また、これらの日時指定語は、単
独でも、また組み合わせても用いることができるように
なされている。即ち、日時の入力は、例えば「今日」
や、「明日」、「13時」、さらには、「来週月曜
日」、「来月1日」、「午前1時」などの音声によって
行うことができるようになされている。また、日時の入
力は、例えば「来週」と「月曜日」との間や、「来月」
と「1日」との間などに「の」を挿入した「来週の月曜
日」や、「来月の1日」などの音声によっても行うこと
ができるようになされている。
【0118】日時指定語は、図7に示したように種々存
在し、これに日付、時刻を表す数字や、上述したような
「の」を挿入した場合なども考慮すると、日時の表現方
法は、莫大な数になる。仮に、このような莫大な数のう
ちのいずれかの表現を選択し、その表現による日時の入
力を、キーボードやポインティングデバイスによって入
力を行おうとする場合には、その操作は、かなり繁雑な
ものとなる。
【0119】一方、音声により日時を入力する場合にお
いては、図7に示したような日時指定語を、認識辞書に
登録し、さらに、日時指定語や、数字などの接続のルー
ルを、認識文法として記述しておけば、上述のような莫
大な数のうちのいずれかの表現により日時が発話されて
も、その音声を認識することができ、その結果、日時の
入力を、容易に行うことができる。即ち、ユーザは、ボ
タン1を操作しながら、例えば「1995年1月1日」
や、「来週月曜日」、「午後1時」、「9時から10時
まで」のように発話を行うだけで、日時の入力を行うこ
とができる。
【0120】なお、日時指定語のうちの時刻指定語(図
7(B))の中には、例えば「〜時頃」や、「朝」、
「昼」、「晩」などの、あいまいな表現があるが、例え
ば「〜時頃」については、その時刻の前後どのくらいを
意味するのか、また、例えば「朝」、「昼」、「晩」に
ついては、何時から何時までをいうのかがあらかじめ設
定されている。
【0121】以上のような日時指定語を用いた音声の入
力があった場合、即ち、音声による日時の入力があった
場合、ステップS34においては、音声認識結果が日時
を表すものであると判定され、ステップS36に進む。
ステップS36では、その音声認識結果としての日時が
相対日時を表すものであるかどうかが判定される。ステ
ップS36において、日時が相対日時を表すものでない
と判定された場合、即ち、日時が絶対日時を表すもので
ある場合、ステップS37をスキップして、ステップS
38に進む。
【0122】また、ステップS36において、日時が相
対日時を表すものであると判定された場合、ステップS
37に進み、その相対日時が絶対日時に変換される。即
ち、システム制御部12は、時計部15から供給される
現在日時を参照して、相対日時を絶対日時に変換する。
具体的には、例えば、相対日時で表現された日時が、
「来週月曜日」である場合において、現在の日付が19
95年3月1日金曜日であれば、相対日時「来週月曜
日」は、絶対日時「1995年3月4日」に変換され
る。
【0123】ステップS37において、相対日時が絶対
日時に変換されると、ステップS38に進み、スケジュ
ール入力処理が行われる。即ち、ユーザに対して、ステ
ップS35における場合と同様にして、スケジュールの
入力が要求され、それに対応して、スケジュールが、音
声により入力されると、その音声が音声認識され、絶対
日時と対応付けられる。この絶対日時と対応付けられた
音声認識結果、即ち、スケジュールは、システム制御部
12から記憶部13に供給されて記憶される。以上のス
ケジュール入力処理が終了すると、ステップS31に戻
り、再び、ステップS31からの処理を繰り返す。
【0124】なお、ユーザから入力された日時が、時刻
のみであって、日付を含まないものである場合には、シ
ステム制御部12では、その時刻は、例えば、現在の日
付における時刻であると認識される。
【0125】ところで、スケジュールなどを音声により
入力し、その後、そのスケジュールを検索して表示させ
る場合に、そのスケジュールの表示が仮名だけなされる
と、それは、非常に見にくいものとなる。従って、スケ
ジュールの入力の際には、そのスケジュールを表す文字
列を仮名漢字変換しておくことが望ましい。
【0126】いま、スケジュールとして、例えば待ち合
わせ場所を表す「品川駅の西口改札前」などを入力する
ことを考えると、これを入力するのに、「しながわえき
のにしぐちかいさつまえ」と発話し、これを音声認識し
て仮名漢字変換を行うためには、例えば単語「しなが
わ」、「えき」、「の」、「にしぐち」、「かいさ
つ」、「まえ」が、音声認識対象語として認識辞書に登
録されており、また、これらが接続されることが、認識
文法として認識文法記憶部25に登録されている必要が
ある。
【0127】しかしながら、すべてのユーザに対応する
ことができるように、このような単語や認識文法を登録
しておくことは、前述したように、認識性能の劣化およ
び認識処理速度の低下を招くことになる。
【0128】そこで、ここでは、例えば、次のようにし
て、音声認識の対象となっていない単語の仮名漢字変換
を行うことができるようになされている。
【0129】即ち、例えば、いま、「品川駅の」という
文字列を入力しようとする場合、これを、「し」、
「な」、「が」、「わ」、「え」、「き」、「の」とい
うように、1文字ずつ発声する(以下、適宜、このよう
な発話を、1文字発話という)。このような1文字は、
上述したように、1文字語として、認識辞書を構成する
1文字語辞書(図6)に登録されているから、1文字発
話は、音声認識部16において音声認識することができ
る。
【0130】そして、1文字発話を音声認識した後は、
その音声認識の結果得られる文字列の中の、連続する複
数の文字を配置して連続文字列を作成する。即ち、例え
ば、上述のような「し」、「な」、「が」、「わ」、
「え」、「き」、「の」については、連続する2文字を
配列した連続文字列「しな」、「なが」、「がわ」、
「わえ」、「えき」、「きの」を作成し、さらに、連続
する3文字を配列した連続文字列「しなが」、「なが
わ」、「がわえ」、「わえき」、「えきの」を作成す
る。同様にして、連続する4文字を配列した連続文字列
「しながわ」、「ながわえ」、「がわえき」、「わえき
の」、連続する5文字を配列した連続文字列「しながわ
え」、「ながわえき」、「がわえきの」、連続する6文
字を配列した連続文字列「しながわえき」、「ながわえ
きの」、連続する7文字を配列した連続文字列「しなが
わえきの」を作成する。
【0131】以上のようにして連続文字列(ここでは、
「しな」、「なが」、「がわ」、「わえ」、「えき」、
「きの」、「しなが」、「ながわ」、「がわえ」、「わ
えき」、「えきの」、「しながわ」、「ながわえ」、
「がわえき」、「わえきの」、「しながわえ」、「なが
わえき」、「がわえきの」、「しながわえき」、「なが
わえきの」、および「しながわえきの」の21の連続文
字列)を作成した後は、その連続文字列を、音声認識対
象語とし、これにより、その後に、連続文字列に対応す
る音声が入力された場合には、その音声を音声認識する
ことができるようにする。
【0132】その結果、例えば「えき」が音声認識対象
語とされていない場合において、上述したような
「し」、「な」、「が」、「わ」、「え」、「き」、
「の」という音声が入力された後、さらに、音声「え
き」が入力されたときには、連続文字列「えき」が音声
認識対象語とされているので、その音声「えき」は、連
続文字列「えき」に音声認識されることになる。そし
て、音声認識結果が連続文字列である場合には、その連
続文字列を対象に仮名漢字変換を行う。
【0133】これにより、例えば、音声「し」、
「な」、「が」、「わ」、「え」、「き」、「の」が入
力された後、さらに、音声「えき」が入力されたときに
は、仮名だけでなる文字列「しながわえきの」のうちの
「えき」が仮名漢字変換され、「しながわ駅の」とされ
る。
【0134】以上のように、連続文字列を作成し、それ
を、新たに音声認識対象語とすることで、仮名漢字変換
すべき文字列を、音声で指定することが可能となる。即
ち、この場合、上述したような1文字語を認識辞書に登
録しておくだけで、一度入力された文字から作成された
連続文字列であれば、その音声認識が可能となり、その
結果、仮名漢字変換すべき文字列を、音声で指定するこ
とができるようになる。
【0135】さらに、この場合、連続文字列を発話する
と、その仮名漢字変換が行われるので、この連続文字列
の発話は、仮名漢字変換すべき文字列の指定を行うとい
う意味の他に、その連続文字列の仮名漢字変換を行わせ
る、いわばトリガとしての意味も有する。
【0136】次に、以上のような仮名漢字変換を行う場
合のシステム制御部12の動作について、図11のフロ
ーチャートを参照して説明する。音声により、仮名漢字
変換を行うコマンドが発せられると、システム制御部1
2は、装置のモードを仮名漢字変換モードとし、図11
に示すフローチャートにしたがった処理を行う。即ち、
まず最初に、ステップS41乃至S43において、図1
0のステップS31乃至S33それぞれにおける場合と
同様の処理が行われる。
【0137】そして、ステップS43において、音声認
識結果がコマンドでないと判定された場合、ステップS
44に進み、音声認識結果が1文字語であるかどうかが
判定される。ステップS44において、音声認識結果が
1文字語であると判定された場合、システム制御部12
は、その1文字語を、ディスプレイ3に表示させ、さら
に、ステップS45において、その1文字語を追加した
形の未処理文字列が作成される。なお、未処理文字列に
ついては後述する。
【0138】その後、ステップS46において、ステッ
プS45で作成された未処理文字列を対象に、上述した
ような連続文字列が作成される。即ち、ステップS46
では、未処理文字列がN文字でなる場合、その未処理文
字列の中の、連続する2文字でなる連続文字列、連続す
る3文字でなる連続文字列、・・・、連続するN文字で
なる連続文字列が作成される。
【0139】連続文字列が作成された後は、ステップS
47に進み、その連続文字列が、連続文字列辞書に登録
され、これにより、連続文字列が、音声認識対象語とさ
れる。
【0140】ここで、連続文字列辞書に、ステップS4
6で作成された連続文字列を順次追加して行くようにし
た場合には、音声認識対象語が増加し、認識性能および
認識処理速度に影響を与えることになる。そこで、ここ
では、ステップS46で作成された連続文字列の、連続
文字列辞書への登録は、既に登録されている連続文字列
を削除して行われるようになされている。このようにす
ることで、連続文字列辞書に登録される連続文字列が無
制限に増加していくのを防止することができる。
【0141】なお、連続文字列辞書に登録された連続文
字列の削除は、ステップS47において、新たな連続文
字列を登録するときの他、例えば、仮名漢字変換モード
を終了するときや、あるいは、ユーザから所定のコマン
ドが入力されたときなどに行うようにすることも可能で
ある。
【0142】以上のようにして、連続文字列が連続文字
列辞書に登録された後は、ステップS47からS41に
戻り、ステップS41において、新たな音声の入力を待
って、再び、ステップS42以降の処理が行われる。
【0143】一方、ステップS44において、音声認識
結果が1文字語ではないと判定された場合、ステップS
48に進み、その音声認識結果が、連続文字列辞書に登
録された連続文字列であるかどうかが判定される。ステ
ップS48において、音声認識結果が連続文字列である
と判定された場合、ステップS49に進み、その連続文
字列が、記憶部13に記憶された仮名漢字変換用辞書を
参照することで漢字に変換される。さらに、ステップS
49では、ディスプレイ3に表示された、その連続文字
列を構成する文字の部分が、対応する漢字に変換され、
ステップS45に進む。
【0144】ステップS45では、ステップS49で漢
字に変換された文字列(連続文字列)の後に続く文字列
が未処理文字列とされ、以下、ステップS46以降の処
理が行われる。
【0145】即ち、例えば、いま、上述したように、
「し」、「な」、「が」、「わ」、「え」、「き」、
「の」が入力されて連続文字列が作成され、連続文字列
「しながわ」が発話された場合には、それが漢字「品
川」に変換される。この場合、ステップS45では、
「品川」の後に続く文字列「えきの」が未処理文字列と
される。そして、この状態において、連続文字列「え
き」が発話された場合には、それが「駅」に変換され、
この場合、ステップS45では、「駅」の後に続く文字
「の」が未処理文字列とされる。
【0146】さらに、その後、例えば、1文字語
「に」、「し」、「ぐ」、「ち」、「か」、「い」、
「さ」、「つ」、「ま」、「え」が順次発話された場合
には、ステップS45において、未処理文字列「の」
に、その発話された1文字語が順次追加されていき、未
処理文字列「のにしぐちかいさつまえ」が作成される。
【0147】この状態において、例えば「にし」を発話
した場合においては、「にし」は連続文字列となってい
るから、未処理文字列「のにしぐちかいさつまえ」のう
ちの「にし」が漢字「西」に変換され、これにより、未
処理文字列は、「ぐちかいさつまえ」とされる。以下、
連続文字列「ぐち」、「かいさつ」、「まえ」が順次発
話されることにより、これらが漢字に変換され、最終的
には、「品川駅の西口改札前」という漢字かな混じり文
が得られる。
【0148】また、このように、1文字語「し」、
「な」、「が」、「わ」、「え」、「き」、「の」が発
話され、さらに連続文字列「しながわ」、「えき」が発
話された後、1文字語「に」、「し」、「ぐ」、
「ち」、「か」、「い」、「さ」、「つ」、「ま」、
「え」が発話され、さらに連続文字列「にし」、「ぐ
ち」、「かいさつ」、「まえ」が発話された場合には、
ディスプレイ3の表示は、「しながわえきの」、「品川
えきの」、「品川駅の」、「品川駅のにしぐちかいさつ
まえ」、「品川駅の西ぐちかいさつまえ」、「品川駅の
西口かいさつまえ」、「品川駅の西口改札まえ」、「品
川駅の西口改札前」と変化していく。なお、ディスプレ
イ3には、未処理文字列の部分を、例えば反転して表示
させるようにすることが可能である。この場合、ユーザ
は、いま現在、未処理文字列となっている部分を、明確
に認識することができる。
【0149】一方、ステップS48において、音声認識
結果が連続文字列でないと判定された場合、ステップS
50に進み、ユーザに対し、1文字語または連続文字列
を発話するように要求がなされ、ステップS41に戻
る。
【0150】以上のように、未処理文字列から連続文字
列を作成し、これを音声認識対象語とすることで、音声
認識対象語としてあらかじめ登録されていない単語であ
っても、音声認識を行うことが可能となり、さらに、そ
の仮名漢字変換を行うことが可能となる。
【0151】なお、仮名漢字変換を行うための仮名漢字
変換用辞書としては、既に大語彙のものが実現されてお
り、ここでの仮名漢字変換には、そのようなものを利用
することができる。その結果、音声によって、そのよう
な大規模の仮名漢字変換用辞書を、そこに登録されてい
る単語すべてをあらかじめ音声認識対象語としておかな
くても扱うことが可能となる。
【0152】次に、図12のフローチャートは、装置の
動作モードが、新規語を登録する新規語モードとされた
場合の、図9のステップS26における処理の詳細を示
している。基本辞書に登録されていない新規語は、上述
したような1文字発話を行うことで入力し、さらにその
仮名漢字変換を行うことができるが、新規語が頻繁に用
いられるものである場合に、そのような新規語を入力す
るたびに、1文字発話を行わなければならないのは面倒
である。
【0153】そこで、本実施例では、そのような新規語
の、新規語辞書への登録を、上述の仮名漢字変換を利用
して行うことができるようになされている。
【0154】ユーザは、新規語の登録を行う場合、音声
により、新規語の登録を行うコマンドを入力する。この
場合、システム制御部12は、装置のモードを新規語登
録モードとし、図12に示すフローチャートにしたがっ
た処理を行う。即ち、システム制御部12では、ステッ
プS61乃至S70において、図11のステップS41
乃至S50における場合とそれぞれ同様の処理を行う。
【0155】但し、図11のステップS49に対応する
ステップS69では、発話された連続文字列が、新規語
として、新規語辞書に登録される。
【0156】従って、ユーザは、登録しようとする新規
語を、1文字発話により入力し、さらに、その新規語を
発話することで、その登録を行うことができる。
【0157】なお、ステップS69では、発話された連
続文字列(新規語)だけを新規語辞書に登録するだけで
なく、その連続文字列の仮名漢字変換も行うようにし、
これを、新規語としての連続文字列と対応付けて新規語
辞書に登録するようにすることが可能である。
【0158】この場合、ユーザにより、その新規語の発
話がなされたとき、その音声認識結果に対応付けられて
いる漢字を、即座に表示するようにすることができる。
【0159】即ち、新規語として、例えば「かていきょ
うし」と、それを漢字に変換した「家庭教師」とを対応
付けて新規語辞書に登録するようにすることで、その
後、音声「かていきょうし」が入力された場合には、そ
の音声の認識結果に対応付けられている漢字「家庭教
師」を、即座に表示することが可能となる。
【0160】また、新規語の登録を無制限に認めると、
音声の認識性能および認識処理速度が低下することにな
るので、登録された新規語が、所定数となったときに
は、ユーザにその旨を報知するようにするのが好まし
い。
【0161】次に、図13のフローチャートを参照し
て、装置のモードが、スケジュールや住所録の検索を行
う検索モードとされた場合の、図9のステップS26の
処理について説明する。なお、ここでは、コマンド辞書
に、指示語として、例えば、上述した「のスケジュール
は」や、「の住所は」、「の電話番号は」などが登録さ
れているものとする。但し、指示語は、これらに限定さ
れるものではない。
【0162】この場合、まず、ステップS81乃至S8
3において、図10のステップS31乃至S33におけ
る場合とそれぞれ同様に処理が行われる。
【0163】そして、ステップS83において、音声認
識結果がコマンドでないと判定された場合、ステップS
84に進み、その音声認識結果が指示語を含むものであ
るかどうかが判定される。ステップS84において、音
声認識結果が指示語を含むものでないと判定された場
合、ステップS85に進み、図9のステップS24にお
ける場合と同様にして、ユーザに対し、検索項目を特定
するための指示語の入力が要求され、ステップS81に
戻る。
【0164】一方、ステップS84において、音声認識
結果が指示語を含むものであると判定された場合、ステ
ップS86に進み、その指示語の前に配置された語(以
下、適宜、前置語という)についての情報の検索が、指
示語が表す検索項目を対象に行われる。
【0165】即ち、例えば、音声「1995年1月1日
のスケジュールは?」が入力された場合には、指示語
「のスケジュールは」の前に配置された前置語「199
5年1月1日」についての情報の検索が、指示語「のス
ケジュールは」が表す検索項目「スケジュール」を対象
に行われる。従って、この場合、ステップS86では、
1995年1月1日のスケジュールが、記憶部13から
検索される。
【0166】また、例えば、音声「(人名)の電話番号
は?」が入力された場合には、前置語「(人名)」につ
いての情報の検索が、指示語「の電話番号は」が表す検
索項目「電話番号」を対象に行われる。従って、この場
合、ステップS86では、(人名)の電話番号が、記憶
部13から検索される。さらに、例えば、音声「(人
名)の住所は?」が入力された場合には、前置語「(人
名)」についての情報の検索が、指示語「の住所は」が
表す検索項目「住所」を対象に行われる。従って、この
場合、ステップS86では、(人名)の住所が、記憶部
13から検索される。
【0167】ステップS86において情報の検索が行わ
れた後は、ステップS87に進み、ステップS86にお
ける検索結果が、出力部14から出力され(ディスプレ
イ3に表示され、またはスピーカ4から出力され)、ス
テップS81に戻る。
【0168】なお、以上のような情報の検索を行う場合
においては、日時の音声認識は、図10で説明したよう
に可能であるが、人名の音声認識については、必ずしも
可能であるとは限らないため、人名については、図12
で説明したようにして、新規語として登録しておくのが
望ましい。
【0169】以上のように、図1の電子手帳装置によれ
ば、情報その他の入力を、音声により行うようにしたの
で、装置を大型化することなく、その入力を容易に行う
ことができる。さらに、情報その他の柔軟な入力、即
ち、例えば相対日時や、あらかじめ音声認識の対象とさ
れていない単語などの入力が可能となる。
【0170】以上、本発明を電子手帳装置に適用した場
合について説明したが、本発明は、音声によりデータの
入力を行うあらゆる装置に適用可能である。
【0171】なお、本実施例では、1文字語辞書に、1
文字語だけを登録しておくようにしたが、1文字語辞書
には、任意の単語を登録するようにすることができる。
【0172】また、本実施例では、1文字発話の音声認
識結果から連続文字列を作成して、これを、新たに音声
認識対象語とするようにしたが、その他、例えば、ディ
スプレイ3またはスピーカ4から出力される、音声認識
結果以外の情報を表す文字列から連続文字列を作成し、
これを、新たに音声認識対象語とするようにすることも
可能である。即ち、例えば、本発明を、電子辞書装置な
どに適用した場合において、入力された音声に対応する
単語の検索結果として、その単語を解説する文章が表示
されているときに、その文章から連続文字列を作成する
ようにすることが可能である。この場合、文章を構成す
る単語が、あらかじめ音声認識対象語とされていなくて
も、その単語を音声認識することが可能となり、従っ
て、その単語が発話された場合に、その単語を検索する
ことが可能となる。
【0173】さらに、本実施例では、音声認識の対象と
する言語を日本語としたが、音声認識の対象とする言語
は、日本語に限定されるものではない。
【0174】
【発明の効果】請求項1に記載の音声認識方法および請
求項2に記載の音声認識装置によれば、情報を出力する
出力手段より出力された文字列の中の、連続する複数の
文字が配置されて連続文字列が作成され、その連続文字
列を対象に、音声が音声認識される。従って、あらかじ
め音声認識の対象とされていない語であっても、音声認
識することが可能となる。
【0175】請求項3に記載の音声認識方法および請求
項7に記載の音声認識装置によれば、音声が音声認識さ
れ、その音声認識結果である文字列の中の、連続する複
数の文字が配置されて連続文字列が作成される。そし
て、その連続文字列が、認識辞書に登録され、これによ
り音声認識対象語とされる。従って、1度発話された文
字(または文字列)からなる文字列を、音声認識するこ
とが可能となる。
【0176】請求項8に記載の情報処理方法および請求
項10に記載の情報処理装置によれば、入力された情報
が日時を表すものかどうかが判定され、情報が日時を表
すものである場合に、その情報が、現在の日時を基準と
した日時である相対日時を表すものであるかどうかが判
定される。そして、情報が相対日時を表すものである場
合に、その相対日時が、絶対的な日時を表す絶対日時に
変換される。従って、相対日時による日時の指定が可能
となる。
【図面の簡単な説明】
【図1】本発明を適用した電子手帳装置の一実施例の構
成を示す斜視図である。
【図2】図1の電子手帳装置の主な機能を示す図であ
る。
【図3】図1の電子手帳装置の電気的構成例を示すブロ
ック図である。
【図4】図3の音声認識部16の構成例を示すブロック
図である。
【図5】図4の認識辞書に記憶されている認識辞書の構
成を示す図である。
【図6】図5の1文字語辞書の登録内容を示す図であ
る。
【図7】図5の基本辞書の登録内容を示す図である。
【図8】最終的な音声認識結果を決定する方法を説明す
るフローチャートである。
【図9】図3のシステム制御部12の処理を説明するフ
ローチャートである。
【図10】図9のステップS26の処理の詳細を説明す
るフローチャートである。
【図11】かな漢字変換処理の詳細を説明するフローチ
ャートである。
【図12】図9のステップS26の処理の詳細を説明す
るフローチャートである。
【図13】図9のステップS26の処理の詳細を説明す
るフローチャートである。
【符号の説明】
1 ボタン, 2 マイク, 3 ディスプレイ, 4
スピーカ, 11入力部, 12 システム制御部,
13 記憶部, 14 出力部, 15時計部, 1
6 音声認識部, 17 音声合成部, 21 音響分
析部, 22 認識部, 23 認識パラメータ記憶
部, 24 認識辞書記憶部, 25認識文法記憶部

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声を音声認識する音声認識
    方法であって、 情報を出力する出力手段より出力された文字列の中の、
    連続する複数の文字を配置して連続文字列を作成する作
    成ステップと、 前記連続文字列を対象に、前記音声を音声認識する音声
    認識ステップとを備えることを特徴とする音声認識方
    法。
  2. 【請求項2】 入力された音声を音声認識する音声認識
    装置であって、 情報を出力する出力手段と、 前記出力手段より出力された文字列の中の、連続する複
    数の文字を配置して連続文字列を作成する作成手段と、 前記作成手段により作成された前記連続文字列を対象
    に、前記音声を音声認識する音声認識手段とを備えるこ
    とを特徴とする音声認識装置。
  3. 【請求項3】 入力された音声を、音声認識の対象とさ
    れた音声認識対象語が登録されている認識辞書を参照し
    ながら音声認識する音声認識方法であって、 前記音声を音声認識する音声認識ステップと、 前記音声の音声認識結果である文字列の中の、連続する
    複数の文字を配置して連続文字列を作成する作成ステッ
    プと、 前記連続文字列を、前記認識辞書に登録することによ
    り、前記音声認識対象語とする登録ステップとを備える
    ことを特徴とする音声認識方法。
  4. 【請求項4】 前記音声認識結果の音声認識結果を、情
    報を表示する表示手段に表示する表示ステップと、 前記音声が、前記認識辞書に登録された前記連続文字列
    に音声認識されたとき、その連続文字列であって、前記
    表示手段に表示されたものを仮名漢字変換する仮名漢字
    変換ステップとをさらに備えることを特徴とする請求項
    3に記載の音声認識方法。
  5. 【請求項5】 前記認識辞書には、少なくとも音節に対
    応する文字が、前記音声認識対象語として、あらかじめ
    登録されていることを特徴とする請求項3に記載の音声
    認識方法。
  6. 【請求項6】 前記認識辞書には、少なくとも1文字で
    表記される文字が、前記音声認識対象語として、あらか
    じめ登録されていることを特徴とする請求項3に記載の
    音声認識方法。
  7. 【請求項7】 入力された音声を音声認識する音声認識
    装置であって、 音声認識の対象とされた音声認識対象語が登録されてい
    る認識辞書を記憶している記憶手段と、 前記認識辞書に登録されている前記音声認識対象語を対
    象として、前記音声を音声認識する音声認識手段と、 前記音声認識手段の音声認識結果である文字列の中の、
    連続する複数の文字を配置して連続文字列を作成し、そ
    の連続文字列を、前記音声認識対象語として、前記認識
    辞書に登録する登録手段とを備えることを特徴とする音
    声認識装置。
  8. 【請求項8】 入力された情報が日時を表すものかどう
    かを判定する第1の判定ステップと、 前記情報が日時を表すものである場合に、その情報が、
    現在の日時を基準とした日時である相対日時を表すもの
    であるかどうかを判定する第2の判定ステップと、 前記情報が前記相対日時を表すものである場合に、その
    相対日時を、絶対的な日時を表す絶対日時に変換する変
    換ステップとを備えることを特徴とする情報処理方法。
  9. 【請求項9】 前記情報が音声で入力された場合に、そ
    の音声を音声認識する音声認識ステップをさらに備える
    ことを特徴とする請求項8に記載の情報処理方法。
  10. 【請求項10】 入力された情報が日時を表すものかど
    うかを判定する第1の判定手段と、 前記情報が日時を表すものである場合に、その情報が、
    現在の日時を基準とした日時である相対日時を表すもの
    であるかどうかを判定する第2の判定手段と、 前記情報が前記相対日時を表すものである場合に、その
    相対日時を、絶対的な日時を表す絶対日時に変換する変
    換手段とを備えることを特徴とする情報処理装置。
JP10094396A 1996-04-23 1996-04-23 音声認識方法および音声認識装置 Expired - Fee Related JP3536524B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10094396A JP3536524B2 (ja) 1996-04-23 1996-04-23 音声認識方法および音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10094396A JP3536524B2 (ja) 1996-04-23 1996-04-23 音声認識方法および音声認識装置

Publications (2)

Publication Number Publication Date
JPH09288493A true JPH09288493A (ja) 1997-11-04
JP3536524B2 JP3536524B2 (ja) 2004-06-14

Family

ID=14287443

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10094396A Expired - Fee Related JP3536524B2 (ja) 1996-04-23 1996-04-23 音声認識方法および音声認識装置

Country Status (1)

Country Link
JP (1) JP3536524B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007248523A (ja) * 2006-03-13 2007-09-27 Denso Corp 音声認識装置、及びナビゲーションシステム
JP2008062733A (ja) * 2006-09-06 2008-03-21 Railway Technical Res Inst 鉄道設備保守検査支援システム及びプログラム
JP2010218473A (ja) * 2009-03-19 2010-09-30 Casio Computer Co Ltd スケジュール管理装置およびスケジュール管理プログラム
JP2012058955A (ja) * 2010-09-08 2012-03-22 Zenrin Datacom Co Ltd 携帯端末装置、情報検索装置、情報検索プログラム、及び情報検索方法
KR20150009336A (ko) * 2013-07-16 2015-01-26 삼성전자주식회사 휴대 단말기에서 음성 인식을 수행하는 방법 및 장치

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007248523A (ja) * 2006-03-13 2007-09-27 Denso Corp 音声認識装置、及びナビゲーションシステム
JP2008062733A (ja) * 2006-09-06 2008-03-21 Railway Technical Res Inst 鉄道設備保守検査支援システム及びプログラム
JP2010218473A (ja) * 2009-03-19 2010-09-30 Casio Computer Co Ltd スケジュール管理装置およびスケジュール管理プログラム
JP2012058955A (ja) * 2010-09-08 2012-03-22 Zenrin Datacom Co Ltd 携帯端末装置、情報検索装置、情報検索プログラム、及び情報検索方法
KR20150009336A (ko) * 2013-07-16 2015-01-26 삼성전자주식회사 휴대 단말기에서 음성 인식을 수행하는 방법 및 장치

Also Published As

Publication number Publication date
JP3536524B2 (ja) 2004-06-14

Similar Documents

Publication Publication Date Title
EP1267326B1 (en) Artificial language generation
Rudnicky et al. Survey of current speech technology
US8170866B2 (en) System and method for increasing accuracy of searches based on communication network
WO2005034082A1 (en) Method for synthesizing speech
Delgado et al. Spoken, multilingual and multimodal dialogue systems: development and assessment
Fellbaum et al. Principles of electronic speech processing with applications for people with disabilities
US20020198712A1 (en) Artificial language generation and evaluation
Pieraccini AI assistants
KR100467590B1 (ko) 발음 사전 갱신 장치 및 방법
Thennattil et al. Phonetic engine for continuous speech in Malayalam
JP3536524B2 (ja) 音声認識方法および音声認識装置
Baker DRAGONDICTATE-30K: Natural language speech recognition with 30000 words
Ronzhin et al. Survey of russian speech recognition systems
KR100848148B1 (ko) 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
Di Fabbrizio et al. AT&t help desk.
Philip et al. Man machine interaction by voice: Developments in speech technology: Part I: the state-of-the-art
JP3576066B2 (ja) 音声合成システム、および音声合成方法
Gardner-Bonneau et al. Spoken language interfaces for embedded applications
Sharman Speech interfaces for computer systems: Problems and potential
Nkosi Creation of a pronunciation dictionary for automatic speech recognition: a morphological approach
Lange et al. Voice technologies in libraries: A look into the future
Amirgaliev et al. SPEECH SYNTHESIS OF THE KAZAKH LANGUAGE USING DEEP CONVOLUTIONAL NEURAL NETWORKS
KR20240073991A (ko) 음성 합성 서비스 제공 방법 및 그 시스템
Turunen et al. Speech application design and development
Curran et al. Catering for disabled surfers–A case study in web site navigation for disabled students

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040308

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080326

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090326

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100326

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees