JP2003140690A

JP2003140690A - 情報システム、電子機器、プログラム

Info

Publication number: JP2003140690A
Application number: JP2001340577A
Authority: JP
Inventors: Ichiro Yoshida; 一郎吉田
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2001-11-06
Filing date: 2001-11-06
Publication date: 2003-05-16
Anticipated expiration: 2021-11-06
Also published as: JP4000828B2

Abstract

(57)【要約】【課題】認識のための学習結果を他の電子機器で利用可
能することのできる電子機器等を提供する。【解決手段】ユーザが外部機器２０へ音声にて入力を行
う場合、携帯情報処理機１０に依頼のための命令を音声
で入力し、携帯情報処理機１０から外部機器２０へ外部
機器利用依頼を出す。外部機器２０は、利用依頼を受信
すると、携帯情報処理機１０に認識モジュールの利用を
依頼する。携帯情報処理機１０が外部機器２０からこの
依頼を受けると、外部機器２０へ認識モジュールを送
る。外部機器２０は認識モジュールを受信し、ユーザへ
音声入力を促す表示をディスプレイに行う。ユーザが音
声入力を行うと、外部機器２０は認識モジュールを用い
て認識を行い、入力に応じた応答を行う。ユーザが外部
機器２０の利用完了を外部機器２０に伝えると、外部機
器２０は、設定時間後にデータを削除する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】音声を入力する電子機器等に
関する。

【０００２】

【従来の技術及び発明が解決しようとする課題】従来か
ら種々の電子機器において、人の言葉を認識して、その
認識結果に応じた動作を行う機器がある。それらは、機
器毎に言葉の認識モジュールが異なるため、機器毎に認
識率が異なる。そのため機器を買いかえる毎に、言葉の
認識率が変動する。このような機器には言葉の学習機能
がある場合があるが、学習結果は移植できないため、機
器を買いかえれば、また一から学習させなければならな
い。そのためユーザはそれぞれの機器毎に言語認識のた
めの学習をさせる時間が必要になる。

【０００３】そこで本発明は、認識のための学習結果を
他の電子機器で利用することのできる電子機器等を提供
することを目的とする。

【０００４】

【課題を解決するための手段及び発明の効果】上述した
問題点を解決するためになされた請求項１に記載の情報
システムによれば、第１の電子機器における音声認識関
連データを第２の電子機器で利用して音声認識を行うこ
とができる。したがって例えば第２の電子機器が音声認
識の学習機能を備えない場合であっても、ユーザの音声
の認識率を高めることが可能となり、第２の電子機器に
対してユーザは所望の機能を実現させることが容易にで
きるようになる。また、学習機能を備える場合であって
も、他の電子機器で学習された音声認識関連データを、
ユーザが用いる別の機器に移動可能であるので、別の機
器でもユーザの言語認識率が落ちないようにすることが
できる。すなわち、ユーザはそれぞれの機器毎に言語認
識のための学習をさせる時間が必要なくなり、使い勝手
のよい電子機器を実現できる。なお、第１の電子機器、
第２の電子機器は、例えば車載機器、ＰＣ、電話、家電
製品等の機器とすることができる。

【０００５】そして例えば第１の電子機器は請求項２の
ように構成することができる。このようにすれば、音声
の認識結果に基づいて変更（更新）された音声認識関連
データを外部の機器、例えば第２の電子機器に送信する
ことができる。このようにすれば、一つの機器で徹底的
に学習させてそのデータを使い回すこともできる。また
従来の電子機器はそれぞれの電子機器がそれぞれ別々に
認識の学習をしていたため、機器間で認識精度が異なっ
ていたが、認識精度をそろえることも容易にできる。

【０００６】また、音声の認識結果に基づく音声認識関
連データの変更は、例えば、入力された音声から特徴量
を求めてその特徴量に基づいて音声認識関連データを変
更することもできるし、請求項３に示すようにして、ユ
ーザに対して認識結果と報知して、ユーザから入力され
た認識結果に対する評価に基づいて変更することもでき
る。例えば、音声の認識結果を表示したり、音声で出力
して、正しいか否かを入力させる。このようにユーザか
らの評価に基づいて音声認識関連データを変更すれば、
よりユーザの意思を反映した認識を第２の電子機器のよ
うな外部の機器で行うことができる。

【０００７】また、電子機器がユーザの音声の認識結果
を学習する場合、ユーザの声質、機器の機能によって
は、ユーザが何度認識させようとしても認識結果が不充
分である場合が考えられる。そこで請求項４のようにす
るとよい。例えば、音声認識関連データ変更手段は、音
声で入力された結果と、音声以外の方法で入力された結
果を比較し、音声の認識がしづらい音を、音声以外の方
法で入力された結果と対応付けしたデータとして記録
し、次回の、同じ（同様な）音声が発音された場合の音
声認識時に利用するようにしてもよい。

【０００８】そして電子機器は、請求項５に示すように
携帯可能に構成するとよい。携帯可能であればユーザが
常に携帯して利用することができ、ユーザの音声の入力
頻度を高められる。このように音声認識関連データを記
憶する機器として、音声の入力機能を装備している音声
入力機会の多い機器を用いて、音声認識の学習時間を増
やし、認識率を高めるとよい。このようにすることで音
声認識関連データをよりユーザの特性（個性）を反映し
たものとすることができ、例えば第２の電子機器におけ
る認識率を高めることができる。

【０００９】また請求項６に示すように音声は通話音声
を入力するとよい。すなわち例えば電話等の通話音声を
取得するようにする。このようにすれば、ユーザが音声
認識データの変更、すなわち学習を明示的に行うことな
く、通話音声から自動的に学習がなされる。したがっ
て、学習の手間を大幅に削減することができる。特に、
請求項５及び請求項６に記載の発明の例として携帯電話
などがあげられる。携帯電話に電子機器としての機能を
組み込むことで、携帯電話での通話中の音声に基づいて
音声認識関連データが変更され、その変更された音声認
識関連データを用いて第２の電子機器は音声認識を行う
ことができる。このような携帯電話は一般的に個人的に
利用されるものであるため、通話音声はそのユーザの個
性を反映するものとなる。特に、電話でのくだけた表現
や、方言のような特殊な言葉の学習時間を増やすことが
できるため、認識性能を向上できる。

【００１０】さらに、音声認識関連データを請求項７に
示すように送信先の機器の種別に適合した音声認識関連
データを送信するとよい。例えば、音声認識関連データ
の送信に先立って、送信先の機器に種別を問い合わせて
もよいし、予め送信先の機器の種別を登録しておき、そ
の登録された種別に基づいて音声認識関連データを送信
してもよい。また送信先の認識手段に適合した音声認識
関連データになるように自己の音声認識関連データを変
換してもよい。

【００１１】また音声認識を行う場合、外部の機器が、
電話のようにあらゆる言語、語彙が用いられる機器もあ
れば、家電機器やオーディオ機器、ナビゲーション機器
のように限られた語彙の認識ができればよい場合もあ
る。よって、どの機器にも同じ語彙の音声認識機能を持
たせるのは、機器の規模が大きくなり不効率である。し
たがってその機器に適した音声認識関連データを送信す
るとよい。

【００１２】そして、さらに音声認識関連データに加
え、請求項８に示すように、音声認識関連データを利用
する処理を実現するためのプログラムを送信するように
してもよい。このようにすることで、予め音声認識関連
データのデータ形式等を外部機器の音声認識関連データ
のデータ形式とあわせることなく、外部の機器に送信し
た音声認識関連データを利用した処理を、容易に実現さ
せることができる。例えば、機器毎の移植性を高めるた
め、音声認識エンジンが動作する標準ＯＳ（カーネル）
を設定するとともに、機器のメモリサイズ等リソースの
サイズに応じて言語認識エンジンのコンポーネントを変
更して、メモリのサイズにあった認識エンジンを構成で
きるようにするとよい。またさらにどのような機器にも
言語認識エンジンを移動できるように、認識機能を持つ
機器に、認識エンジン移植用Ｉ／Ｆ（インターフェー
ス）を持たせてもよい。

【００１３】そして、音声認識関連データの送信は、常
に行うようにしてもよいが、請求項９に示すように所定
のアクションに応じて行うようにするとよい。所定のア
クションとしては、例えばユーザからの送信指示の入力
があった場合や、所定の時間毎のタイマー割り込み等
や、請求項１０に示すように送信対象の機器との距離が
所定範囲内になった場合などがある。請求項１０のよう
にすれば、送信対象の機器に近づくと自動的に音声認識
関連データを送信する。したがって、送信対象の機器に
対して音声認識で所定の機能を実現させる場合に、この
電子機器を持った者が送信対象の機器に近づくだけで、
認識率を高めることが可能となる。

【００１４】また、例えば音声認識機能を設けた携帯電
話における音声認識関連データを定期的にデータを管理
する外部の機器に送信して保存させてもよいし、音声認
識関連データが変更された際に送信して保存させるよう
にしてもよい。なお、音声の認識は、できるだけ簡単に
できるようにするのが望ましく、例えば請求項１１のよ
うにして行うとよい。またこの過程でユーザからの評価
に基づき音声認識関連データを変更することでさらにユ
ーザの特性を加味した認識を行うことが可能となる。

【００１５】例えば、機器がユーザの要求を音声認識で
確認する場合、ユーザ音声が認識された後は、例えばそ
れを復唱し、要求されたことを実行するが、認識されな
い場合は例えば「わからない」という回答を返すだけの電
子機器が従来多かった。そのたびにユーザは、同じ言葉
を何度も話すというわずらわしいことをする必要がある
が、請求項１１のようにすれば、予測結果が報知され、
その予測結果に対する評価を入力できるため、何度も同
じ言葉を話さなくて済む。例えば、ユーザの音声の認識
結果を出すとき、認識結果の正解率を、音声認識の途中
段階の結果から求め、正解率が低くなるに従い、複数の
認識候補を選択して、ユーザに提示するようにしてもよ
い。この場合、認識候補は例えば樹状にメモリ上に配置
し高速に検索できるようにするとよい。このようにすれ
ば、ユーザは、何度も同じ言葉を話す必要がなくなる。

【００１６】一方、例えば第２の電子機器のような音声
認識関連データの送信先の機器は、請求項１２のように
構成することができる。請求項１２に記載の電子機器に
よれば、受信した音声認識関連データを利用して音声の
認識を行い、その認識結果に基づき所定の機能が実現さ
れる。したがって、所定の機能を音声認識によって正し
く実現させることができる可能性が高くなり、ユーザに
とって使い勝手のよい電子機器となる。

【００１７】なお複数のユーザが使用する場合は、音声
の特徴を判定して、自動的にユーザを認識し、そのユー
ザの言語に適合する認識モジュールに切り替えるように
制御するとよい。例えば電子機器がユーザ情報（会話）
を解析して得られた声紋＋性質などに基づくデータグル
ープを用いて、ユーザ認証を行うようにしてもよい。ま
た、複数のマイクを電子機器に接続し、音声認識関連デ
ータと複数の音声入力マイクを１対１で対応させるよう
にしてもよい。

【００１８】こうした音声認識関連データには有効期限
データを添付し、請求項１３に示すようにして、有効期
限データに基づいて音声認識関連データを利用する期間
を限定するとよい。例えば有効期限の経過後に受信した
音声認識関連データを削除するとよい。例えば、ユーザ
が音声を認識させたい機器がユーザのテリトリ外（管理
外など）にある場合、その機器に対して、自己のテリト
リ内の（管理する）機器で学習した音声認識関連データ
を移動して、ユーザの音声認識率を高める。例えば、テ
リトリ外へ移動された音声認識関連データにはユーザに
関連するデータＩＤと利用有効期限を設け、有効期限が
過ぎるとそのデータを無効化する。無効化したユーザの
音声認識が必要な場合、例えば、データＩＤを基に新規
データを自動的に取得できるようにしてもよい。

【００１９】そして音声認識関連データとしては、例え
ばユーザの発生音（発音の特徴、イントネーション、母
音、子音の周波数帯域等）とそれに対応する語彙などを
利用することができる。また請求項１４に示すようにし
て、定型文の認識を容易にすることができる。また、ユ
ーザが話した言葉を機器が認識した場合に、その単語
が、名詞、動詞、形容詞、助詞等を分類して、ユーザの
目的に合致した制御を行うようにしてもよいし、各品詞
を分類しその活用形まで対応付けを行うことで、ユーザ
の意図を把握するようにしてもよい。

【００２０】また、音声の入力が中断した場合には、請
求項１５に示すようにして、予測した言葉を報知するよ
うにしてもよい。ユーザが話した言葉を認識する場合、
例えばテキストとして認識する。もし、ユーザが話す言
葉を途中で止めると、音声認識機能はその音だけを認識
するため、ユーザが何を意図しているかを機器が把握で
きない。この場合は、従来の機器は、例えば「わからな
い」という回答を返すだけのものが多い。このような機
器では、そのたびにユーザは、同じ言葉を何度も話すと
いうわずらわしいことをする必要がある。そこで、請求
項１５に示すようにして、例えば、ユーザが途中まで話
して入力が中断したとき、話されたところまでをそのま
ま発音して、ユーザが会話を中断したかどうかをユーザ
を気にかける言葉とともにユーザに問い合わせる。ユー
ザの返事がなければ、その後、中断した言葉の後に何が
使われるかを、以前に中断した言葉データ履歴（話し方
の癖データ）から検索し、中断した後の言葉をいくつか
の候補から選択して、ユーザに問いかけを行う（ユーザ
との会話が不自然に中断しないようにする）。例えば、
「美しい花はどこで...」という入力で中断された場合、
「美しい花はどこ買えるのだろうか？」や「美しい花は
どこで咲いているのだろうか？」などと予測結果を報知
する。

【００２１】なお、請求項２〜１５は、認識対象が音声
の場合であるが、請求項１６に示すように認識対象を所
定の言語表現としてもよい。例えば、音声以外にも、身
振り、手振り（例えば手話）、手書き文字などでもよ
い。このようにした場合、例えば請求項２は、音声を所
定の言語表現に代えて「所定の言語表現を入力する言語
表現入力手段と、言語表現認識関連データを利用して前
記言語表現入力手段から入力された言語表現の認識を行
う認識手段と、前記認識手段によって認識された言語表
現の認識結果に基づいて前記言語表現認識関連データを
変更する言語表現認識関連データ変更手段と、前記言語
表現認識関連データを外部に送信する送信手段とを備え
ることを特徴とする電子機器。」となる。請求項３〜１
５も同様である。

【００２２】なお、請求項１７に示すように、請求項２
〜１６のいずれかに記載の電子機器における各手段とし
ての機能をコンピュータシステムにて実現する場合、例
えば、コンピュータシステム側で起動するプログラムと
して備えることができる。このようなプログラムの場
合、例えば、フレキシブルディスク、光磁気ディスク、
ＣＤ−ＲＯＭ、ハードディスク、ＲＯＭ、ＲＡＭ等のコ
ンピュータ読み取り可能な記録媒体に記録し、必要に応
じてコンピュータシステムにロードして起動することに
より用いることができ、また、ネットワークを介してロ
ードして起動することにより用いることもできる。

【００２３】また、請求項１と同様に、請求項１８のよ
うに情報システムを構成することができる。

【００２４】

【発明の実施の形態】以下、本発明が適用された実施例
について図面を用いて説明する。なお、本発明の実施の
形態は、下記の実施例に何ら限定されることなく、本発
明の技術的範囲に属する限り種々の形態を採りうること
は言うまでもない。

【００２５】図１は、実施例の情報システムとしてのモ
バイルＡＩシステム１の構成を示す図である。モバイル
ＡＩシステム１は、携帯情報処理機１０と、外部機器２
０とで構成され、携帯情報処理機１０と外部機器２０と
は電話網やインターネット等の通信システム３０によっ
て接続可能に構成されている。

【００２６】携帯情報処理機１０は、携帯電話やＰＤＡ
等であり、ユーザが話す言葉を外部に送信する電話機能
をもち、報知手段としての音声を出力するためのスピー
カ、音声入力手段としての音声を入力するためのマイク
ロホン、送信手段としての発着信・パケット通信などの
制御回路、画像を入力するためのＣＣＤカメラ、入力手
段としての文字等を入力するためのキーボード、タッチ
パネル、操作ボタン、携帯情報処理機１０の位置を測定
するためのＧＰＳレシーバ等が装備されている。また、
ユーザへ表示を行うためのディスプレイ（例えばＬＣ
Ｄ、ＥＬ，有機ＥＬ等で構成される）が備えられてお
り、種々の情報を表示し、ＣＣＤカメラの画像表示やＴ
Ｖ電話のモニタとしても使用できる。さらに、携帯情報
処理機１０は、ユーザを特定するための情報等を記憶し
たＩＣカードから情報を読み取るためのＩＣカードリー
ダを装備している。

【００２７】携帯情報処理機１０は、これらの装置の制
御を行い、各種の機能を実現するための処理を行う制御
回路と、データを記憶するためのメモリを備え、ユーザ
の操作に基づき、制御回路がこれらの装置を制御して必
要なデータの読み書き、記憶、各種処理等を行う。

【００２８】こうした携帯情報処理機１０の通信機能に
より外部へ送信されたデータは、中継局等の通信システ
ム３０を経由して、家や会社、車両、その他に置かれた
ＰＣや家電製品、ＡＴＭや自動販売機、種々組み込み機
器などの外部機器２０によって受信される。このように
送信されるデータの宛先は、機器に設定されたインター
ネットのＩＰアドレスやユーザが独自に設定したユーザ
アドレス等を用いて指定する。外部機器２０には、受信
手段としての通信回路と、音声入力手段としてのマイク
と、音声認識手段及び機能実現手段としての制御回路を
備える。

【００２９】そして、携帯情報処理機１０の制御回路で
は、通話中の音声の認識処理を常に行い、音声認識によ
り得た結果を分析して、ユーザの発生音（発音の特徴、
イントネーション、母音、子音の周波数帯域等）、使用
する語彙、これらの対応関係等から音声認識に利用可能
なユーザの特徴を割り出して音声認識関連データとして
記憶する認識手段及び音声認識関連データ変更手段とし
ての処理を行う。

【００３０】こうした音声認識関連データとメモリに記
憶された個人情報とを含む情報である認識モジュール
は、通信システム３０を介して外部機器２０に対して送
信することができる。このような認識モジュールの外部
機器２０への転送、移動について図２を参照して説明す
る。

【００３１】図２に示すように、携帯情報処理機１０
は、ユーザＡの通話音声を認識して、ユーザＡの特徴を
メモリに記憶する。外部機器２０は、ユーザＡの持つ携
帯情報処理機１０にユーザＡを認識するためのデータの
使用依頼を行い、認証を行い、認証が成功すると、携帯
情報処理機１０からユーザ認識に必要なデータとして認
識モジュールを受信する。

【００３２】このようにして認識モジュールを受信した
外部機器２０はこの認識モジュールを利用して音声認識
を行う。認識モジュールには、ユーザＡの発生音や使用
する語彙、これらの対応関係等の情報が含まれる。した
がってユーザＡが外部機器に対して音声認識で文字や指
示を入力する場合の認識率を高めることができる。よっ
て外部機器２０はユーザＡの音声をより確実に認識でき
るようになる。また認識モジュールにはユーザＡの特徴
量を含むためユーザＡの個人認証等に用いることもで
き、セキュリティの確保のために利用することもでき
る。

【００３３】なお、携帯情報処理機１０は、認識モジュ
ール全体あるいは認識モジュール内の個々のデータにつ
いて有効期限（設定時間）情報を添付しておき、外部機
器２０がこの有効期限情報に基づいて、設定時間が経過
の経過や、設定された日時になった場合に自動的にその
データを消去する。ここで、設定時間は、外部機器２０
の用途等に応じて変更するとよい。例えば外部機器２０
が家電製品のようにある程度長時間使用される機器であ
れば設定時間を日単位で設定し、自動販売機のような機
器であれば分単位で消されるように設定する。また、音
声認識によるセキュリティ確保の目的で認識モジュール
を使用する場合は、月や年単位でデータ変更を行うよう
にしてもよい。

【００３４】なお、上述した例では、携帯情報処理機１
０は、外部機器２０からのデータの使用依頼に基づいて
認識モジュールを外部機器２０に対して送信することと
したが、例えば、携帯情報処理機１０から外部機器２０
に対してデータの送信依頼を行い、外部機器２０に対し
てデータを送信するようにしてもよい。

【００３５】また、通信システム３０に接続されたサー
バやＰＣに、認識モジュールを送信し、サーバやＰＣが
これらの情報を蓄積して、外部機器２０に対して蓄積し
た認識モジュールを送信するようにしてもよい。すなわ
ち、携帯情報処理機１０から直接的に外部機器２０へ認
識モジュールを送信してもよいし、ＰＣやサーバ等を介
して間接的に外部機器２０へ送信するようにしてもよ
い。例えば、ユーザＡの解析、学習結果の蓄積、管理を
情報蓄積センタ等の機関が管理するサーバで行うように
してもよい。

【００３６】次に、携帯情報処理機１０において、認識
結果をもとに事前動作確認を行う例について，図３〜図
５を用いて説明する。ここで、事前動作確認とは、ユー
ザが発した言葉が携帯情報処理機１０において認識でき
ない場合や誤認識した場合、ユーザはどのような目的を
持っていて、それは具体的にどのような処理を期待して
いるかをユーザに確かめるために行われる確認である。
これにより、ユーザの意図に反した動作を行わないよう
にして、機器の動作効率を改善させるとともに、ユーザ
の特性を記録して認識率の改善を図ることができる。ま
た、ユーザの言い間違いや勘違いによる機器の動作ミス
を未然に防止することができる。

【００３７】図３は、携帯情報処理機１０が、認識語彙
に基づく音声認識によって所定の動作を行う機器であ
り、かつ、この動作の事前に事前動作確認を行い、認識
できない部分をユーザに問い合わせて認識語彙を増加さ
せるとともに、その結果を認識改善に役立てるようにし
た場合の概略フローを示す図である。

【００３８】図３のＳ１００では、ユーザからの入力が
あるかをチェックし、情報を収集する。続くＳ１１０で
は、Ｓ１００で、入力された情報を機器が管理するデー
タ構造に変更して記憶する。すなわち、音声データをテ
キストに変更する操作を行う。

【００３９】そしてＳ１２０では、テキストデータを解
析して、テキストデータからユーザの意向を判定する。
すなわち、命令、依頼、質問、その他から機器がすべき
動作を決定する。Ｓ１３０では、ユーザの意向に添える
ソフト、ハードの条件を検証する。ユーザの意向確認
と、動作シミュレートを行う。ここで語彙増加、認識条
件向上用の設定値の調整、マッチングデータを収集、蓄
積する。

【００４０】Ｓ１４０では、検証の結果、動作可能と判
定されると、実際に動作することを確定する。Ｓ１５０
では、動作を行う。図３の概略フローの詳細を図４及び
図５に示して説明する。

【００４１】図４のＳ２００では、入力されたデータか
ら、ユーザが機器に対して入力（会話）を行おうとして
いるか否か判定する。すなわちユーザの音声の有無の検
知、背景雑音の低減等の処理結果を常時出力する。ユー
ザの入力（会話）があれば確実にそれを認識処理に移行
できるようにする。

【００４２】Ｓ２１０では、上記出力結果から、会話が
あるか否かを判定する。会話が無いと判定した場合は
（Ｓ２１０：ＮＯ）、Ｓ２００へ戻る。会話が有りと判
定すると（Ｓ２１０：ＹＥＳ）、会話音声の切り出しを
行う（Ｓ２２０）。Ｓ２３０では、適宜切り出した会話
音声をデジタルデータに変換し、Ｓ２４０ではさらにそ
のデータを認識のためのデータに変換する。

【００４３】Ｓ２５０では、変換されたデータに対して
音声認識処理（音声マッチング）を行い、Ｓ２６０でテ
キストデータに変換する。また、音の大きさ、抑揚デー
タ等も合わせて解析する。Ｓ２７０では、このテキスト
データの単語の並びをもとに文の構造を文法的に分類す
る。

【００４４】Ｓ２８０では、テキストデータから単語を
抽出し、それらを品詞（名詞、動詞、助詞、形容詞等）
にわける。Ｓ２９０では、Ｓ２８０で抽出された単語に
対し、それぞれ品詞を類別するＩＤ（データタイプタ
グ）を付け、Ｓ３００で記憶する。

【００４５】Ｓ３１０では、各単語につけられた品詞の
矛盾や、テキストとして認識できたが意味が通らない単
語（認識データ辞書にはないもの）であるかをチェック
する。問題がなければ（Ｓ３１０：ＮＯ）、図５のＳ３
９０へ進む。一方、単語に矛盾がある場合（Ｓ３1０：
ＹＥＳ）、Ｓ３２０へ移行しユーザに矛盾の有る単語を
示して、再入力を依頼する。ユーザが再入力するのを待
ち（Ｓ３３０）、入力された場合（Ｓ３３０：ＹＥ
Ｓ）、データの認識を行う（Ｓ３５０）。

【００４６】Ｓ３６０では、入力データを解析し、使用
される単語がデータ辞書にあるか否か判定する。認識さ
れたデータに矛盾がないかを再度チェックし（Ｓ３６
０）、まだ、矛盾があれば（Ｓ３６０：ＹＥＳ）、ユー
ザにそのデータを登録するかを聞き（Ｓ３７０）、正し
い語を入力するよう依頼する。ユーザはそこで代替の語
を入力すれば、音データと代替語を関連付けて保存する
（Ｓ３８０）。

【００４７】このように入力データが認識辞書に無い場
合（理解できない場合と称する）、ユーザへ理解できな
い単語を復唱あるいは表示にて知らせる。ユーザはそれ
により理解されなかった単語を入力する。入力結果は解
析され、理解できるか否かが判定される。そして、この
部分で機器は入力された単語を認識するための必要デー
タを記憶し、同じユーザの入力に対し、認識候補を増や
して認識率を向上させることができる。ここで必要なデ
ータとは、基本音素データ、音素変動パラメータ、抑
揚、速度、選択語彙の変化が記憶される。

【００４８】ユーザが設定時間何もしない場合は（Ｓ３
７０：ＮＯ）、データに矛盾があるためそれ以上の処理
ができないので、開始画面へ移動する（Ｓ２００へ移行
する）。単語レベルで矛盾が無くなると次に、図５のＳ
３９０で、認識されたテキストのメッセージタイプを分
類する。まずテキストから動詞を探し、次に動詞の前後
関係からメッセージタイプを決定する。機器はそのメッ
セージタイプに対応できるかを判定する（Ｓ４００）。

【００４９】対応できないと判定すると（Ｓ４００：Ｎ
Ｏ）、ユーザにメッセージタイプの再確認を行う（Ｓ４
１０）。再確認では、ユーザにメッセージタイプの入力
を促すための画面表示を行う。そして入力内容がどのメ
ッセージタイプかをチェックする（Ｓ４２０）。

【００５０】メッセージタイプの再チェックを行っても
それがわからないと判定されると（Ｓ４２０：ＮＯ）、
対応できない旨の表示と、対応できない理由や、入力に
関する推奨項目を表示する（Ｓ４４０）。たとえば、メ
ッセージタイプを明確にするための入力の仕方の案内を
行うとよい。例えば、質問なら「・・か？ですか
？」、依頼なら「「・・してほしい」の語尾を使ってく
ださい」等の表示、または音声の出力を行う。

【００５１】テキストのメッセージタイプに対応できる
と判定されると（Ｓ４００：ＹＥＳまたはＳ４２０：Ｙ
ＥＳ）、そのメッセージタイプに入れられた単語を解析
し、そのメッセージの処理を行うためのリソースの有無
をチェックする。そこでリソース不足と判定されると
（Ｓ４３０：ＹＥＳ）、前述のＳ４４０の対応不可の処
理に移る。一方リソースが機器内部にあれば（Ｓ４４
０：ＮＯ）、それらからアプリの動作内容を設定する
（Ｓ４５０）。

【００５２】アプリの準備が完了すると（Ｓ４６０：Ｙ
ＥＳ）、動作内容をユーザに事前に伝えて動作を行う
（Ｓ４８０）。以上の説明は、携帯情報処理機１０が、
機器内部のアプリモジュールを構成して、認識およびユ
ーザの要求に答える方式の手順である。機器内部にリソ
ースが十分ある場合はこれでよいが、機器がリソースを
保持していない場合、機器はユーザ要求に対応できない
という結果になる。そのため、内部に保持するリソース
では不充分の場合、外部から通信を用いて不足するリソ
ースを収集してもよい。

【００５３】図６及び図７は、このようにして携帯情報
処理機１０で学習された認識モジュールをユーザの携帯
情報処理機１０から直接、外部機器２０へ転送し、外部
機器２０が受信したデータを使って、ユーザの音声を外
部機器２０が認識する手順を示す。

【００５４】図７に示すように、ユーザが外部機器２０
へ音声にて入力を行いたい場合、携帯情報処理機１０に
は依頼のための命令を音声で入力するか、その他、携帯
情報処理機１０に備えた、ＣＣＤ，タッチパネル、スイ
ッチ等から外部機器２０の利用の指示を入力する。ユー
ザが利用できる外部機器２０は、携帯情報処理機１０の
表示画面にリストアップされており、ユーザが利用した
い外部機器２０を選択して、指示が入力されると、携帯
情報処理機１０は外部機器２０へ外部機器利用依頼を送
る。

【００５５】携帯情報処理機１０は選択された外部機器
２０のアドレスまたはＩＤ（インターネットＩＰ）等を
用いてその機器に通信アクセスを行う。（ＴＣＰ／ＩＰ
プロトコルなどが用いられる。）外部機器２０は、利用依頼を受信すると、携帯情報処理
機１０に認識モジュールの利用を依頼する。すなわち、
外部機器２０は常時他の機器からのアクセスを待ち受
け、自分のアドレスまたはＩＤが呼ばれると、呼んだ相
手に対し自分のアドレスと機器タイプ等の応答データを
返す。また、外部機器２０に言語認識機能がある場合、
携帯情報処理機１０に認識関連データ（認識モジュー
ル）の送信を依頼する。

【００５６】携帯情報処理機１０が外部機器２０からこ
の依頼を受けると、外部機器２０へ認識関連データを送
る。外部機器２０は認識関連データを受信し、そのデー
タのセットアップが完了すると、ユーザへ音声（言語）
入力するよう促す。これには外部機器２０の持つディス
プレイを用いてもよいし、携帯情報処理機１０にデータ
を送信して携帯情報処理機１０のディスプレイにデータ
を表示させるようにしてもよい。

【００５７】ユーザが音声入力を行うと、外部機器２０
は認識関連データを用いて認識を行い、入力に応じた応
答を行う。例えば外部機器２０で、図４のＳ２００〜Ｓ
３００の処理によって音声認識を行った後、図５のＳ３
９０〜Ｓ４８０の処理を行うことにより、所望の動作を
外部機器２０にさせることができる。

【００５８】ユーザが外部機器２０の利用完了を外部機
器２０に伝えると、外部機器２０は、設定時間後にデー
タを削除する。こうした音声の認識の際には、予め定義
されたメッセージタイプに基づいて図５のＳ３９０〜Ｓ
４８０で述べた処理を行うことで認識率を高めることが
できる。

【００５９】図８は、ユーザが携帯情報処理機２０へ音
声で依頼する場合のメッセージタイプの例である。この
ように、例えばいつ（Ｗｈｅｎ），なにを（Ｗｈａ
ｔ），どうする（Ｈｏｗ）という順にしたメッセージタ
イプを定義することができる。図９は、メッセージタイ
プを決めるための処理ステップと、ステップ毎に用いる
パラメータ項目を示す。このパラメータ項目は、認識モ
ジュールに含まれる項目である。メッセージタイプを決
める処理は、音声認識、言語解析、言語翻訳、メッセー
ジタイプの決定の手順で行う。

【００６０】音声認識では、基本音素、音素変動パラメ
ータ、抑揚、速度、語彙等のパラメータを用いて認識を
行う。言語解析では、語彙辞書、メッセージタイプ辞
書、文法辞書等を用いて解析を行う。

【００６１】メッセージタイプの決定には、これらのパ
ラメータや辞書が、認識エラーの訂正のプロセスに反映
される。図１０は、言語認識の結果からメッセージタイ
プをどのように決定するかを示すフローを示す。この図
は、ユーザが「今、エンジンをかけてくれないか？」と
車両に搭載された携帯情報処理機１０に音声入力を行
い、それがテキストに変換された場合の処理を示す。

【００６２】メッセージタイプは、テキストを以下の手
順で処理することで決定される。テキストの読み出しを
行い（図８のＳ５００）、テキストを所定の条件により
単語単位に分割する。たとえば、音の区切りの時間、助
詞と名詞と助詞の区別、動詞の類別を行う。「今、エン
ジンをかけてくれないか」は、以下のようになる。

【００６３】

【表１】

【００６４】ここで、ユーザが音声認識機器に話し掛け
る順序を、以下のようにすることをルールとして決めて
おくと、音声認識結果からメッセージタイプを判定する
ことが容易になる。話し掛ける順序のルール１．最初に、時間、タイミングを言う。２．次に目的語（通常操作したい対象の名詞）を言う３．次に目的語に対しどのような操作をするかを言う４．疑問、命令、依頼、問合せ等の優先度を示す動詞を
加える

【００６５】次に、時間を示す単語があるかをチェック
する（Ｓ５１０）。上記の例では、「今」という時間を
設定している。もし、時間を示す単語が無いと判定され
た場合は（Ｓ５１０：ＮＯ）、次の単語の解析を行う
（Ｓ７３０）。上記の話し掛けるルールでは目的語が来
るはずなので、「を」という助詞とその前の単語の有無
をチェックする。目的語が有れば（Ｓ７３０：ＹＥ
Ｓ）、その名詞と属性を判定する（Ｓ７４０）。

【００６６】ここで、名詞の検索の際にはユーザがいる
環境を考慮して検索を行う。たとえば車両内であれば、
車両に設置した車載機器関連の名詞が優先的に検索され
る。ユーザがどこにいるかは、例えば携帯情報処理機１
０が周囲の外部機器２０とＤＳＲＣ（短距離通信）等の
通信を用いて呼びかけを行い、その応答により周囲に何
が存在しているかを判定して、ユーザのいる環境を特定
する。携帯情報処理機１０は、通信電力を変更して、Ｄ
ＳＲＣの通信到達距離を変更できるようにすることが望
ましい。そうすると携帯情報処理機１０の周囲何ｍにど
のような機器があるかを判定できる。

【００６７】また、目的語の名詞に対し、それぞれどの
ような操作が行われるかを、予め決めておき、操作に関
して同義語をグループ化しておく。また、目的語自体の
同義語もグループ化しておく。例えば、次のようにす
る。 ■エンジンを：かける動作する動かす作動する
とめる切る停止するスタート（する） ■エンジン／イグニッション／キー目的語の判定の後には、動詞があるか否かをチェックす
る。動詞がある場合は、その動詞が目的語と関連する動
詞か否かチェックする。また、動詞に付属する助動詞か
ら、ユーザの優先度を判定する。

【００６８】動詞が目的語と関連すると判定されれば、
時間、目的語、動詞、優先度が判定できるため、ユーザ
の意向を仮に判定できる。判定された結果は、ユーザに
音声や文字の表示で確認が行われる（Ｓ５９０）。ユー
ザがそれに対しＯＫかどうかをチェックし（Ｓ６００：
ＹＥＳ）、ＯＫであれば、メッセージタイプを決定する
（Ｓ６１０）。

【００６９】分岐するフローにおいて、時間、目的語、
動詞、優先度の４つの項目の内、わからないものが１つ
であれば、そのわからない品詞をユーザに尋ねる（Ｓ６
３０，Ｓ７００，Ｓ７８０）。２つ以上わからなけれ
ば、ユーザに「もう一度お願いします」と入力を依頼す
る（Ｓ７２０，Ｓ８００，Ｓ８１０）。もし、ユーザが
もう一度言語を入力して、再度２つ以上わからなけれ
ば、「別の方法で入力ください」と表示をユーザに出
し、ユーザにテキストの入力を依頼する。

【００７０】このようにすると、最初の言語認識に失敗
した従来の解析パラメータと、正しい認識を行うための
解析パラメータの差異が明確になる。従来の解析パラメ
ータを一定量以下変化させた値を使うと、言語解析率が
向上すると判定される場合、新たな解析パラメータを通
常使用パラメータの中に携帯情報処理機１０はセットす
る。一方、解析パラメータを大幅に変える必要があると
いう結果が出た場合は、そのパラメータ値を例外使用の
改正パラメータとして記憶する。

【００７１】外国人が、自分の母国語の言語認識用デー
タを外国で使おうとする場合に備え、言語辞書には、言
語に応じた言語類別用ＩＤをつけており、携帯情報処理
機１０は、言語類別用ＩＤを確認して、認識辞書や認識
方式を切りかえる。その際、言語が日本語から、他の外
国語に変わると、携帯情報処理機１０だけで外国語の辞
書を記憶することが難しい場合が考えられる。その際
は、携帯情報処理機１０は外部の機器と協働して（分散
処理を行って）、外国語の認識、翻訳、応答等を行うこ
とが可能になる。

【図面の簡単な説明】

【図１】実施例の情報システムとしてのモバイルＡＩシ
ステムの構成を示す説明図である。

【図２】個人認識モジュールの外部機器２０への転送に
関する説明図である。

【図３】携帯情報処理機における認識処理の概略を示す
フローチャートである。

【図４】携帯情報処理機における認識処理の詳細な内容
を示すフローチャートである。

【図５】図４の続きの認識処理の詳細な内容を示すフロ
ーチャートである。

【図６】携帯情報処理機と外部機器間での認識モジュー
ルの転送の様子を示す説明図である。

【図７】携帯情報処理機と外部機器間での認識モジュー
ルの転送のフローを示す説明図である。

【図８】メッセージタイプの例を示す説明図である。

【図９】メッセージタイプを決めるための処理ステップ
と、ステップ毎に用いるパラメータ項目を示す説明図で
ある。

【図１０】言語認識の結果からメッセージタイプを決定
する処理を示すフローチャートである。

【符号の説明】

１…モバイルＡＩシステム１０…携帯情報処理機２０…外部機器３０…通信システム

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/22 Ｇ１０Ｌ 3/00 ５２１ＶＨ０４Ｍ 1/00 ５５１Ａ 1/725 ５６１Ｄ

Claims

【特許請求の範囲】

【請求項１】音声を入力し、音声認識関連データを利用
して、入力した音声を認識し、その認識結果に基づいて
前記音声認識関連データを変更する機能を備えた第１の
電子機器と、音声を入力し、音声認識関連データを利用
して、入力した音声を認識し、その認識結果に基づく所
定の機能を実現する第２の電子機器とを備えた情報シス
テムにおいて、前記第１の電子機器は、自機器が利用する前記音声認識
関連データを前記第２の電子機器に対して送信する機能
を備え、前記第２の電子機器は、前記第１の電子機器から受信し
た前記音声認識関連データを利用して前記音声の認識を
行うことを特徴とする情報システム。
【請求項２】音声を入力する音声入力手段と、音声認識関連データを利用して前記音声入力手段から入
力された音声の認識を行う認識手段と、前記認識手段によって認識された音声の認識結果に基づ
いて前記音声認識関連データを変更する音声認識関連デ
ータ変更手段と、前記音声認識関連データを外部に送信する送信手段とを
備えることを特徴とする電子機器。
【請求項３】音声を入力する音声入力手段と、前記音声入力手段から入力された音声を音声認識関連デ
ータを利用して認識する認識手段と、前記認識手段によって認識された音声の認識結果を報知
する報知手段と、前記報知手段によって報知された認識結果に対する評価
を入力する入力手段と、前記入力手段によって入力された評価と前記認識結果に
基づいて前記音声認識関連データを変更する音声認識関
連データ変更手段と、前記音声認識関連データを外部に送信する送信手段とを
備えることを特徴とする電子機器。
【請求項４】請求項３に記載の電子機器において、前記認識手段によって所定回数以上音声の認識に失敗し
た場合、前記入力手段はユーザから音声以外の方法で入
力を行い、前記音声認識関連データ変更手段は当該音声
以外の方法による入力内容を前記音声認識関連データの
変更に用いることを特徴とする電子機器。
【請求項５】請求項２〜４のいずれかに記載の電子機器
において、携帯可能に構成されていることを特徴とする電子機器。
【請求項６】請求項２〜５のいずれかに記載の電子機器
において、前記音声入力手段は、通話音声を入力することを特徴と
する電子機器。
【請求項７】請求項２〜６のいずれかに記載の電子機器
において、前記送信手段は、送信先の機器の種別に適合した音声認
識関連データを送信することを特徴とする電子機器。
【請求項８】請求項２〜７のいずれかに記載の電子機器
において、前記送信手段は、前記音声認識関連データを利用する処
理を実現するためのプログラムを送信することを特徴と
する電子機器。
【請求項９】請求項２〜８のいずれかに記載の電子機器
において、前記送信手段は、前記認識データを所定のアクションに
応じて送信することを特徴とする電子機器。
【請求項１０】請求項９に記載の電子機器において、前記所定のアクションは送信対象の機器との距離が所定
範囲内となることであることを特徴とする電子機器。
【請求項１１】請求項３〜１０のいずれかに記載の電子
機器において、前記認識手段は前記認識結果及び前記音声認識関連デー
タに基づきユーザの以後の入力内容を予測し、前記報知手段は、前記予測した入力内容を報知して、前記入力手段から前記予測した入力内容に対する前記評
価を入力することを特徴とする電子機器。
【請求項１２】音声を入力する音声入力手段と、音声認識関連データを外部から受信する受信手段と、前記受信手段によって受信された音声認識関連データを
利用して前記音声入力手段から入力された音声の認識を
行う認識手段と、前記認識手段の認識結果に基づき所定の機能を実現する
機能実現手段とを備えることを特徴とする電子機器。
【請求項１３】請求項１２に記載の電子機器において、前記音声認識関連データには有効期限データが添付され
ており、前記認識手段は、当該有効期限データに基づいて受信し
た音声認識関連データを利用する期間を限定することを
特徴とする電子機器。
【請求項１４】請求項２〜１３のいずれかに記載の電子
機器において、前記音声認識関連データとして、所定の定型文を認識す
るためのデータを含むことを特徴とする電子機器。
【請求項１５】請求項２〜１４のいずれかに記載の電子
機器において、前記入力手段からの音声の入力が中断した場合には、前
記認識手段は前記音声認識関連データに基づいて中断後
に続く言葉を予測し、前記報知手段は該予測した言葉を
報知することを特徴とする電子機器。
【請求項１６】請求項２〜１５のいずれかに記載の電子
機器において、前記音声に代えて所定の言語表現を用いることを特徴と
する電子機器。
【請求項１７】請求項２〜１６のいずれかに記載の電子
機器としての機能をコンピュータに実現させるためのプ
ログラム。
【請求項１８】請求項１に記載の情報システムにおい
て、前記第１の電子機器として、請求項１〜１１のいずれか
に記載の電子機器を用い、前記第２の電子機器として、請求項１２または１３のい
ずれかに記載の電子機器を用いることを特徴とする情報
システム。