JP4000828B2

JP4000828B2 - 情報システム、電子機器、プログラム

Info

Publication number: JP4000828B2
Application number: JP2001340577A
Authority: JP
Inventors: 一郎吉田
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2001-11-06
Filing date: 2001-11-06
Publication date: 2007-10-31
Anticipated expiration: 2021-11-06
Also published as: JP2003140690A

Description

【０００１】
【発明の属する技術分野】
音声を入力する電子機器等に関する。
【０００２】
【従来の技術及び発明が解決しようとする課題】
従来から種々の電子機器において、人の言葉を認識して、その認識結果に応じた動作を行う機器がある。それらは、機器毎に言葉の認識モジュールが異なるため、機器毎に認識率が異なる。そのため機器を買いかえる毎に、言葉の認識率が変動する。このような機器には言葉の学習機能がある場合があるが、学習結果は移植できないため、機器を買いかえれば、また一から学習させなければならない。そのためユーザはそれぞれの機器毎に言語認識のための学習をさせる時間が必要になる。
【０００３】
そこで本発明は、認識のための学習結果を他の電子機器で利用することのできる電子機器等を提供することを目的とする。
【０００４】
【課題を解決するための手段及び発明の効果】
上述した問題点を解決するためになされた請求項１に記載の情報システムによれば、第１の電子機器における特定ユーザに対応する音声認識関連データを第２の電子機器が当該特定ユーザの音声の認識を行う際に第２の電子機器へ送信し、これを第２の電子機器で利用して音声認識を行うことができる。したがって例えば第２の電子機器が音声認識の学習機能を備えない場合であっても、ユーザの音声の認識率を高めることが可能となり、第２の電子機器に対してユーザは所望の機能を実現させることが容易にできるようになる。また、学習機能を備える場合であっても、他の電子機器で学習された音声認識関連データを、ユーザが用いる別の機器に移動可能であるので、別の機器でもユーザの言語認識率が落ちないようにすることができる。すなわち、ユーザはそれぞれの機器毎に言語認識のための学習をさせる時間が必要なくなり、使い勝手のよい電子機器を実現できる。なお、第１の電子機器、第２の電子機器は、例えば車載機器、ＰＣ、電話、家電製品等の機器とすることができる。
【０００５】
そして例えば第１の電子機器は請求項２のように構成することができる。このようにすれば、特定ユーザの音声の認識結果に基づいて変更（更新）された特定ユーザに対応する音声認識関連データを外部の機器、例えば第２の電子機器が特定ユーザの音声の認識を行う際にこの第２の電子機器に送信することができる。このようにすれば、一つの機器で徹底的に学習させてそのデータを使い回すこともできる。また従来の電子機器はそれぞれの電子機器がそれぞれ別々に認識の学習をしていたため、機器間で認識精度が異なっていたが、認識精度をそろえることも容易にできる。
【０００６】
また、音声の認識結果に基づく音声認識関連データの変更は、例えば、入力された音声から特徴量を求めてその特徴量に基づいて音声認識関連データを変更することもできるし、ユーザに対して認識結果と報知して、ユーザから入力された認識結果に対する評価に基づいて変更することもできる。例えば、音声の認識結果を表示したり、音声で出力して、正しいか否かを入力させる。このようにユーザからの評価に基づいて音声認識関連データを変更すれば、よりユーザの意思を反映した認識を第２の電子機器のような外部の機器で行うことができる。
【０００７】
また、電子機器がユーザの音声の認識結果を学習する場合、ユーザの声質、機器の機能によっては、ユーザが何度認識させようとしても認識結果が不充分である場合が考えられる。そこで請求項３のようにするとよい。例えば、音声認識関連データ変更手段は、音声で入力された結果と、音声以外の方法で入力された結果を比較し、音声の認識がしづらい音を、音声以外の方法で入力された結果と対応付けしたデータとして記録し、次回の、同じ（同様な）音声が発音された場合の音声認識時に利用するようにしてもよい。
【０００８】
なお、第１の電子機器は、携帯可能に構成するとよい。携帯可能であればユーザが常に携帯して利用することができ、ユーザの音声の入力頻度を高められる。このように音声認識関連データを記憶する機器として、音声の入力機能を装備している音声入力機会の多い機器を用いて、音声認識の学習時間を増やし、認識率を高めるとよい。このようにすることで音声認識関連データをよりユーザの特性（個性）を反映したものとすることができ、例えば第２の電子機器における認識率を高めることができる。
【０００９】
また、音声は通話音声を入力するとよい。すなわち例えば電話等の通話音声を取得するようにする。このようにすれば、ユーザが音声認識データの変更、すなわち学習を明示的に行うことなく、通話音声から自動的に学習がなされる。したがって、学習の手間を大幅に削減することができる。特に、第１の電子機器の例として携帯電話などがあげられる。携帯電話に第１の電子機器としての機能を組み込むことで、携帯電話での通話中の音声に基づいて音声認識関連データが変更され、その変更された音声認識関連データを用いて第２の電子機器は音声認識を行うことができる。このような携帯電話は一般的に個人的に利用されるものであるため、通話音声はそのユーザの個性を反映するものとなる。特に、電話でのくだけた表現や、方言のような特殊な言葉の学習時間を増やすことができるため、認識性能を向上できる。
【００１０】
さらに、音声認識関連データを請求項４に示すように送信先の機器の種別に適合した音声認識関連データを送信するとよい。例えば、音声認識関連データの送信に先立って、送信先の機器に種別を問い合わせてもよいし、予め送信先の機器の種別を登録しておき、その登録された種別に基づいて音声認識関連データを送信してもよい。また送信先の認識手段に適合した音声認識関連データになるように自己の音声認識関連データを変換してもよい。
【００１１】
また音声認識を行う場合、外部の機器が、電話のようにあらゆる言語、語彙が用いられる機器もあれば、家電機器やオーディオ機器、ナビゲーション機器のように限られた語彙の認識ができればよい場合もある。よって、どの機器にも同じ語彙の音声認識機能を持たせるのは、機器の規模が大きくなり不効率である。したがってその機器に適した音声認識関連データを送信するとよい。
【００１２】
そして、さらに音声認識関連データに加え、請求項５に示すように、音声認識関連データを利用する処理を実現するためのプログラムを送信するようにしてもよい。このようにすることで、予め音声認識関連データのデータ形式等を外部機器の音声認識関連データのデータ形式とあわせることなく、外部の機器に送信した音声認識関連データを利用した処理を、容易に実現させることができる。例えば、機器毎の移植性を高めるため、音声認識エンジンが動作する標準ＯＳ（カーネル）を設定するとともに、機器のメモリサイズ等リソースのサイズに応じて言語認識エンジンのコンポーネントを変更して、メモリのサイズにあった認識エンジンを構成できるようにするとよい。またさらにどのような機器にも言語認識エンジンを移動できるように、認識機能を持つ機器に、認識エンジン移植用Ｉ／Ｆ（インターフェース）を持たせてもよい。
【００１３】
そして、音声認識関連データの送信は、常に行うようにしてもよいが、請求項６に示すように所定のアクションに応じて行うようにするとよい。所定のアクションとしては、例えばユーザからの送信指示の入力があった場合や、所定の時間毎のタイマー割り込み等や、請求項７に示すように送信対象の機器との距離が所定範囲内になった場合などがある。請求項１０のようにすれば、送信対象の機器に近づくと自動的に音声認識関連データを送信する。したがって、送信対象の機器に対して音声認識で所定の機能を実現させる場合に、この電子機器を持った者が送信対象の機器に近づくだけで、認識率を高めることが可能となる。
【００１４】
また、例えば音声認識機能を設けた携帯電話における音声認識関連データを定期的にデータを管理する外部の機器に送信して保存させてもよいし、音声認識関連データが変更された際に送信して保存させるようにしてもよい。
なお、音声の認識は、できるだけ簡単にできるようにするのが望ましく、例えば請求項８のようにして行うとよい。またこの過程でユーザからの評価に基づき音声認識関連データを変更することでさらにユーザの特性を加味した認識を行うことが可能となる。
【００１５】
例えば、機器がユーザの要求を音声認識で確認する場合、ユーザ音声が認識された後は、例えばそれを復唱し、要求されたことを実行するが、認識されない場合は例えば「わからない」という回答を返すだけの電子機器が従来多かった。そのたびにユーザは、同じ言葉を何度も話すというわずらわしいことをする必要があるが、請求項８のようにすれば、予測結果が報知され、その予測結果に対する評価を入力できるため、何度も同じ言葉を話さなくて済む。例えば、ユーザの音声の認識結果を出すとき、認識結果の正解率を、音声認識の途中段階の結果から求め、正解率が低くなるに従い、複数の認識候補を選択して、ユーザに提示するようにしてもよい。この場合、認識候補は例えば樹状にメモリ上に配置し高速に検索できるようにするとよい。このようにすれば、ユーザは、何度も同じ言葉を話す必要がなくなる。
【００１６】
一方、例えば第２の電子機器のような音声認識関連データの送信先の機器は、請求項９のように構成することができる。請求項９に記載の電子機器によれば、受信した特定ユーザに対応する音声認識関連データを利用して特定ユーザの音声の認識を行い、その認識結果に基づき所定の機能が実現される。したがって、所定の機能を音声認識によって正しく実現させることができる可能性が高くなり、ユーザにとって使い勝手のよい電子機器となる。
【００１７】
なお複数のユーザが使用する場合は、音声の特徴を判定して、自動的にユーザを認識し、そのユーザの言語に適合する認識モジュールに切り替えるように制御するとよい。例えば電子機器がユーザ情報（会話）を解析して得られた声紋＋性質などに基づくデータグループを用いて、ユーザ認証を行うようにしてもよい。また、複数のマイクを電子機器に接続し、音声認識関連データと複数の音声入力マイクを１対１で対応させるようにしてもよい。
【００１８】
こうした音声認識関連データには有効期限データを添付し、請求項１０に示すようにして、有効期限データに基づいて音声認識関連データを利用する期間を限定するとよい。例えば有効期限の経過後に受信した音声認識関連データを削除するとよい。例えば、ユーザが音声を認識させたい機器がユーザのテリトリ外（管理外など）にある場合、その機器に対して、自己のテリトリ内の（管理する）機器で学習した音声認識関連データを移動して、ユーザの音声認識率を高める。例えば、テリトリ外へ移動された音声認識関連データにはユーザに関連するデータＩＤと利用有効期限を設け、有効期限が過ぎるとそのデータを無効化する。無効化したユーザの音声認識が必要な場合、例えば、データＩＤを基に新規データを自動的に取得できるようにしてもよい。
【００１９】
そして音声認識関連データとしては、例えばユーザの発生音（発音の特徴、イントネーション、母音、子音の周波数帯域等）とそれに対応する語彙などを利用することができる。また請求項１１に示すようにして、定型文の認識を容易にすることができる。また、ユーザが話した言葉を機器が認識した場合に、その単語が、名詞、動詞、形容詞、助詞等を分類して、ユーザの目的に合致した制御を行うようにしてもよいし、各品詞を分類しその活用形まで対応付けを行うことで、ユーザの意図を把握するようにしてもよい。
【００２０】
また、音声の入力が中断した場合には、請求項１２に示すようにして、予測した言葉を報知するようにしてもよい。ユーザが話した言葉を認識する場合、例えばテキストとして認識する。もし、ユーザが話す言葉を途中で止めると、音声認識機能はその音だけを認識するため、ユーザが何を意図しているかを機器が把握できない。この場合は、従来の機器は、例えば「わからない」という回答を返すだけのものが多い。このような機器では、そのたびにユーザは、同じ言葉を何度も話すというわずらわしいことをする必要がある。そこで、請求項１２に示すようにして、例えば、ユーザが途中まで話して入力が中断したとき、話されたところまでをそのまま発音して、ユーザが会話を中断したかどうかをユーザを気にかける言葉とともにユーザに問い合わせる。ユーザの返事がなければ、その後、中断した言葉の後に何が使われるかを、以前に中断した言葉データ履歴（話し方の癖データ）から検索し、中断した後の言葉をいくつかの候補から選択して、ユーザに問いかけを行う（ユーザとの会話が不自然に中断しないようにする）。例えば、「美しい花はどこで...」という入力で中断された場合、「美しい花はどこ買えるのだろうか？」や「美しい花はどこで咲いているのだろうか？」などと予測結果を報知する。
【００２１】
なお、請求項２〜１２は、認識対象が音声の場合であるが、請求項１３に示すように認識対象を所定の言語表現としてもよい。例えば、音声以外にも、身振り、手振り（例えば手話）、手書き文字などでもよい。このようにした場合、例えば請求項２は、音声及び通話音声を所定の言語表現に代えて「特定ユーザの所定の言語表現を入力する言語表現入力手段と、前記特定ユーザの言語表現の認識結果から割り出した特徴量に基づく言語表現認識関連データを利用して前記言語表現入力手段から入力された前記特定ユーザの言語表現の認識を行う認識手段と、前記認識手段によって認識された言語表現の認識結果を報知する報知手段と、前記報知手段によって報知された認識結果に対する評価を入力する入力手段と、前記入力手段によって入力された評価と前記認識手段によって認識された言語表現から求めた特徴量に基づいて前記特定ユーザに対応する言語表現認識関連データを変更する言語表現認識関連データ変更手段と、前記特定ユーザに対応する前記言語表現認識関連データを、前記言語表現認識関連データを利用して言語表現認識を行う外部装置が前記特定ユーザの言語表現の認識を行う際に前記外部装置に送信する送信手段とを備えることを特徴とする電子機器。」となる。請求項３〜１２も同様である。
【００２２】
なお、請求項１４に示すように、請求項２〜１３のいずれかに記載の電子機器における各手段としての機能をコンピュータシステムにて実現する場合、例えば、コンピュータシステム側で起動するプログラムとして備えることができる。このようなプログラムの場合、例えば、フレキシブルディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ハードディスク、ＲＯＭ、ＲＡＭ等のコンピュータ読み取り可能な記録媒体に記録し、必要に応じてコンピュータシステムにロードして起動することにより用いることができ、また、ネットワークを介してロードして起動することにより用いることもできる。
【００２３】
また、請求項１と同様に、請求項１５のように情報システムを構成することができる。
【００２４】
【発明の実施の形態】
以下、本発明が適用された実施例について図面を用いて説明する。なお、本発明の実施の形態は、下記の実施例に何ら限定されることなく、本発明の技術的範囲に属する限り種々の形態を採りうることは言うまでもない。
【００２５】
図１は、実施例の情報システムとしてのモバイルＡＩシステム１の構成を示す図である。モバイルＡＩシステム１は、携帯情報処理機１０と、外部機器２０とで構成され、携帯情報処理機１０と外部機器２０とは電話網やインターネット等の通信システム３０によって接続可能に構成されている。
【００２６】
携帯情報処理機１０は、携帯電話やＰＤＡ等であり、ユーザが話す言葉を外部に送信する電話機能をもち、報知手段としての音声を出力するためのスピーカ、音声入力手段としての音声を入力するためのマイクロホン、送信手段としての発着信・パケット通信などの制御回路、画像を入力するためのＣＣＤカメラ、入力手段としての文字等を入力するためのキーボード、タッチパネル、操作ボタン、携帯情報処理機１０の位置を測定するためのＧＰＳレシーバ等が装備されている。また、ユーザへ表示を行うためのディスプレイ（例えばＬＣＤ、ＥＬ，有機ＥＬ等で構成される）が備えられており、種々の情報を表示し、ＣＣＤカメラの画像表示やＴＶ電話のモニタとしても使用できる。さらに、携帯情報処理機１０は、ユーザを特定するための情報等を記憶したＩＣカードから情報を読み取るためのＩＣカードリーダを装備している。
【００２７】
携帯情報処理機１０は、これらの装置の制御を行い、各種の機能を実現するための処理を行う制御回路と、データを記憶するためのメモリを備え、ユーザの操作に基づき、制御回路がこれらの装置を制御して必要なデータの読み書き、記憶、各種処理等を行う。
【００２８】
こうした携帯情報処理機１０の通信機能により外部へ送信されたデータは、中継局等の通信システム３０を経由して、家や会社、車両、その他に置かれたＰＣや家電製品、ＡＴＭや自動販売機、種々組み込み機器などの外部機器２０によって受信される。このように送信されるデータの宛先は、機器に設定されたインターネットのＩＰアドレスやユーザが独自に設定したユーザアドレス等を用いて指定する。外部機器２０には、受信手段としての通信回路と、音声入力手段としてのマイクと、音声認識手段及び機能実現手段としての制御回路を備える。
【００２９】
そして、携帯情報処理機１０の制御回路では、通話中の音声の認識処理を常に行い、音声認識により得た結果を分析して、ユーザの発生音（発音の特徴、イントネーション、母音、子音の周波数帯域等）、使用する語彙、これらの対応関係等から音声認識に利用可能なユーザの特徴を割り出して音声認識関連データとして記憶する認識手段及び音声認識関連データ変更手段としての処理を行う。
【００３０】
こうした音声認識関連データとメモリに記憶された個人情報とを含む情報である認識モジュールは、通信システム３０を介して外部機器２０に対して送信することができる。
このような認識モジュールの外部機器２０への転送、移動について図２を参照して説明する。
【００３１】
図２に示すように、携帯情報処理機１０は、ユーザＡの通話音声を認識して、ユーザＡの特徴をメモリに記憶する。外部機器２０は、ユーザＡの持つ携帯情報処理機１０にユーザＡを認識するためのデータの使用依頼を行い、認証を行い、認証が成功すると、携帯情報処理機１０からユーザ認識に必要なデータとして認識モジュールを受信する。
【００３２】
このようにして認識モジュールを受信した外部機器２０はこの認識モジュールを利用して音声認識を行う。認識モジュールには、ユーザＡの発生音や使用する語彙、これらの対応関係等の情報が含まれる。したがってユーザＡが外部機器に対して音声認識で文字や指示を入力する場合の認識率を高めることができる。よって外部機器２０はユーザＡの音声をより確実に認識できるようになる。また認識モジュールにはユーザＡの特徴量を含むためユーザＡの個人認証等に用いることもでき、セキュリティの確保のために利用することもできる。
【００３３】
なお、携帯情報処理機１０は、認識モジュール全体あるいは認識モジュール内の個々のデータについて有効期限（設定時間）情報を添付しておき、外部機器２０がこの有効期限情報に基づいて、設定時間が経過の経過や、設定された日時になった場合に自動的にそのデータを消去する。ここで、設定時間は、外部機器２０の用途等に応じて変更するとよい。例えば外部機器２０が家電製品のようにある程度長時間使用される機器であれば設定時間を日単位で設定し、自動販売機のような機器であれば分単位で消されるように設定する。また、音声認識によるセキュリティ確保の目的で認識モジュールを使用する場合は、月や年単位でデータ変更を行うようにしてもよい。
【００３４】
なお、上述した例では、携帯情報処理機１０は、外部機器２０からのデータの使用依頼に基づいて認識モジュールを外部機器２０に対して送信することとしたが、例えば、携帯情報処理機１０から外部機器２０に対してデータの送信依頼を行い、外部機器２０に対してデータを送信するようにしてもよい。
【００３５】
また、通信システム３０に接続されたサーバやＰＣに、認識モジュールを送信し、サーバやＰＣがこれらの情報を蓄積して、外部機器２０に対して蓄積した認識モジュールを送信するようにしてもよい。すなわち、携帯情報処理機１０から直接的に外部機器２０へ認識モジュールを送信してもよいし、ＰＣやサーバ等を介して間接的に外部機器２０へ送信するようにしてもよい。例えば、ユーザＡの解析、学習結果の蓄積、管理を情報蓄積センタ等の機関が管理するサーバで行うようにしてもよい。
【００３６】
次に、携帯情報処理機１０において、認識結果をもとに事前動作確認を行う例について，図３〜図５を用いて説明する。ここで、事前動作確認とは、ユーザが発した言葉が携帯情報処理機１０において認識できない場合や誤認識した場合、ユーザはどのような目的を持っていて、それは具体的にどのような処理を期待しているかをユーザに確かめるために行われる確認である。これにより、ユーザの意図に反した動作を行わないようにして、機器の動作効率を改善させるとともに、ユーザの特性を記録して認識率の改善を図ることができる。また、ユーザの言い間違いや勘違いによる機器の動作ミスを未然に防止することができる。
【００３７】
図３は、携帯情報処理機１０が、認識語彙に基づく音声認識によって所定の動作を行う機器であり、かつ、この動作の事前に事前動作確認を行い、認識できない部分をユーザに問い合わせて認識語彙を増加させるとともに、その結果を認識改善に役立てるようにした場合の概略フローを示す図である。
【００３８】
図３のＳ１００では、ユーザからの入力があるかをチェックし、情報を収集する。
続くＳ１１０では、Ｓ１００で、入力された情報を機器が管理するデータ構造に変更して記憶する。すなわち、音声データをテキストに変更する操作を行う。
【００３９】
そしてＳ１２０では、テキストデータを解析して、テキストデータからユーザの意向を判定する。すなわち、命令、依頼、質問、その他から機器がすべき動作を決定する。
Ｓ１３０では、ユーザの意向に添えるソフト、ハードの条件を検証する。ユーザの意向確認と、動作シミュレートを行う。ここで語彙増加、認識条件向上用の設定値の調整、マッチングデータを収集、蓄積する。
【００４０】
Ｓ１４０では、検証の結果、動作可能と判定されると、実際に動作することを確定する。
Ｓ１５０では、動作を行う。
図３の概略フローの詳細を図４及び図５に示して説明する。
【００４１】
図４のＳ２００では、入力されたデータから、ユーザが機器に対して入力（会話）を行おうとしているか否か判定する。すなわちユーザの音声の有無の検知、背景雑音の低減等の処理結果を常時出力する。ユーザの入力（会話）があれば確実にそれを認識処理に移行できるようにする。
【００４２】
Ｓ２１０では、上記出力結果から、会話があるか否かを判定する。会話が無いと判定した場合は（Ｓ２１０：ＮＯ）、Ｓ２００へ戻る。会話が有りと判定すると（Ｓ２１０：ＹＥＳ）、会話音声の切り出しを行う（Ｓ２２０）。
Ｓ２３０では、適宜切り出した会話音声をデジタルデータに変換し、Ｓ２４０ではさらにそのデータを認識のためのデータに変換する。
【００４３】
Ｓ２５０では、変換されたデータに対して音声認識処理（音声マッチング）を行い、Ｓ２６０でテキストデータに変換する。また、音の大きさ、抑揚データ等も合わせて解析する。
Ｓ２７０では、このテキストデータの単語の並びをもとに文の構造を文法的に分類する。
【００４４】
Ｓ２８０では、テキストデータから単語を抽出し、それらを品詞（名詞、動詞、助詞、形容詞等）にわける。
Ｓ２９０では、Ｓ２８０で抽出された単語に対し、それぞれ品詞を類別するＩＤ（データタイプタグ）を付け、Ｓ３００で記憶する。
【００４５】
Ｓ３１０では、各単語につけられた品詞の矛盾や、テキストとして認識できたが意味が通らない単語（認識データ辞書にはないもの）であるかをチェックする。問題がなければ（Ｓ３１０：ＮＯ）、図５のＳ３９０へ進む。一方、単語に矛盾がある場合（Ｓ３1０：ＹＥＳ）、Ｓ３２０へ移行しユーザに矛盾の有る単語を示して、再入力を依頼する。ユーザが再入力するのを待ち（Ｓ３３０）、入力された場合（Ｓ３３０：ＹＥＳ）、データの認識を行う（Ｓ３５０）。
【００４６】
Ｓ３６０では、入力データを解析し、使用される単語がデータ辞書にあるか否か判定する。
認識されたデータに矛盾がないかを再度チェックし（Ｓ３６０）、まだ、矛盾があれば（Ｓ３６０：ＹＥＳ）、ユーザにそのデータを登録するかを聞き（Ｓ３７０）、正しい語を入力するよう依頼する。ユーザはそこで代替の語を入力すれば、音データと代替語を関連付けて保存する（Ｓ３８０）。
【００４７】
このように入力データが認識辞書に無い場合（理解できない場合と称する）、ユーザへ理解できない単語を復唱あるいは表示にて知らせる。ユーザはそれにより理解されなかった単語を入力する。入力結果は解析され、理解できるか否かが判定される。そして、この部分で機器は入力された単語を認識するための必要データを記憶し、同じユーザの入力に対し、認識候補を増やして認識率を向上させることができる。ここで必要なデータとは、基本音素データ、音素変動パラメータ、抑揚、速度、選択語彙の変化が記憶される。
【００４８】
ユーザが設定時間何もしない場合は（Ｓ３７０：ＮＯ）、データに矛盾があるためそれ以上の処理ができないので、開始画面へ移動する（Ｓ２００へ移行する）。
単語レベルで矛盾が無くなると次に、図５のＳ３９０で、認識されたテキストのメッセージタイプを分類する。まずテキストから動詞を探し、次に動詞の前後関係からメッセージタイプを決定する。機器はそのメッセージタイプに対応できるかを判定する（Ｓ４００）。
【００４９】
対応できないと判定すると（Ｓ４００：ＮＯ）、ユーザにメッセージタイプの再確認を行う（Ｓ４１０）。再確認では、ユーザにメッセージタイプの入力を促すための画面表示を行う。そして入力内容がどのメッセージタイプかをチェックする（Ｓ４２０）。
【００５０】
メッセージタイプの再チェックを行ってもそれがわからないと判定されると（Ｓ４２０：ＮＯ）、対応できない旨の表示と、対応できない理由や、入力に関する推奨項目を表示する（Ｓ４４０）。たとえば、メッセージタイプを明確にするための入力の仕方の案内を行うとよい。例えば、質問なら「・・か？ですか？」、依頼なら「「・・してほしい」の語尾を使ってください」等の表示、または音声の出力を行う。
【００５１】
テキストのメッセージタイプに対応できると判定されると（Ｓ４００：ＹＥＳまたはＳ４２０：ＹＥＳ）、そのメッセージタイプに入れられた単語を解析し、そのメッセージの処理を行うためのリソースの有無をチェックする。
そこでリソース不足と判定されると（Ｓ４３０：ＹＥＳ）、前述のＳ４４０の対応不可の処理に移る。一方リソースが機器内部にあれば（Ｓ４４０：ＮＯ）、それらからアプリの動作内容を設定する（Ｓ４５０）。
【００５２】
アプリの準備が完了すると（Ｓ４６０：ＹＥＳ）、動作内容をユーザに事前に伝えて動作を行う（Ｓ４８０）。
以上の説明は、携帯情報処理機１０が、機器内部のアプリモジュールを構成して、認識およびユーザの要求に答える方式の手順である。機器内部にリソースが十分ある場合はこれでよいが、機器がリソースを保持していない場合、機器はユーザ要求に対応できないという結果になる。そのため、内部に保持するリソースでは不充分の場合、外部から通信を用いて不足するリソースを収集してもよい。
【００５３】
図６及び図７は、このようにして携帯情報処理機１０で学習された認識モジュールをユーザの携帯情報処理機１０から直接、外部機器２０へ転送し、外部機器２０が受信したデータを使って、ユーザの音声を外部機器２０が認識する手順を示す。
【００５４】
図７に示すように、ユーザが外部機器２０へ音声にて入力を行いたい場合、携帯情報処理機１０には依頼のための命令を音声で入力するか、その他、携帯情報処理機１０に備えた、ＣＣＤ，タッチパネル、スイッチ等から外部機器２０の利用の指示を入力する。ユーザが利用できる外部機器２０は、携帯情報処理機１０の表示画面にリストアップされており、ユーザが利用したい外部機器２０を選択して、指示が入力されると、携帯情報処理機１０は外部機器２０へ外部機器利用依頼を送る。
【００５５】
携帯情報処理機１０は選択された外部機器２０のアドレスまたはＩＤ（インターネットＩＰ）等を用いてその機器に通信アクセスを行う。（ＴＣＰ／ＩＰプロトコルなどが用いられる。）
外部機器２０は、利用依頼を受信すると、携帯情報処理機１０に認識モジュールの利用を依頼する。すなわち、外部機器２０は常時他の機器からのアクセスを待ち受け、自分のアドレスまたはＩＤが呼ばれると、呼んだ相手に対し自分のアドレスと機器タイプ等の応答データを返す。また、外部機器２０に言語認識機能がある場合、携帯情報処理機１０に認識関連データ（認識モジュール）の送信を依頼する。
【００５６】
携帯情報処理機１０が外部機器２０からこの依頼を受けると、外部機器２０へ認識関連データを送る。
外部機器２０は認識関連データを受信し、そのデータのセットアップが完了すると、ユーザへ音声（言語）入力するよう促す。これには外部機器２０の持つディスプレイを用いてもよいし、携帯情報処理機１０にデータを送信して携帯情報処理機１０のディスプレイにデータを表示させるようにしてもよい。
【００５７】
ユーザが音声入力を行うと、外部機器２０は認識関連データを用いて認識を行い、入力に応じた応答を行う。例えば外部機器２０で、図４のＳ２００〜Ｓ３００の処理によって音声認識を行った後、図５のＳ３９０〜Ｓ４８０の処理を行うことにより、所望の動作を外部機器２０にさせることができる。
【００５８】
ユーザが外部機器２０の利用完了を外部機器２０に伝えると、外部機器２０は、設定時間後にデータを削除する。
こうした音声の認識の際には、予め定義されたメッセージタイプに基づいて図５のＳ３９０〜Ｓ４８０で述べた処理を行うことで認識率を高めることができる。
【００５９】
図８は、ユーザが携帯情報処理機１０へ音声で依頼する場合のメッセージタイプの例である。このように、例えばいつ（Ｗｈｅｎ），なにを（Ｗｈａｔ），どうする（Ｈｏｗ）という順にしたメッセージタイプを定義することができる。
図９は、メッセージタイプを決めるための処理ステップと、ステップ毎に用いるパラメータ項目を示す。このパラメータ項目は、認識モジュールに含まれる項目である。メッセージタイプを決める処理は、音声認識、言語解析、言語翻訳、メッセージタイプの決定の手順で行う。
【００６０】
音声認識では、基本音素、音素変動パラメータ、抑揚、速度、語彙等のパラメータを用いて認識を行う。
言語解析では、語彙辞書、メッセージタイプ辞書、文法辞書等を用いて解析を行う。
【００６１】
メッセージタイプの決定には、これらのパラメータや辞書が、認識エラーの訂正のプロセスに反映される。
図１０は、言語認識の結果からメッセージタイプをどのように決定するかを示すフローを示す。この図は、ユーザが「今、エンジンをかけてくれないか？」と車両に搭載された外部機器２０に音声入力を行い、それがテキストに変換された場合の処理を示す。
【００６２】
メッセージタイプは、テキストを以下の手順で処理することで決定される。
テキストの読み出しを行い（図８のＳ５００）、テキストを所定の条件により単語単位に分割する。たとえば、音の区切りの時間、助詞と名詞と助詞の区別、動詞の類別を行う。「今、エンジンをかけてくれないか」は、以下のようになる。
【００６３】
【表１】

【００６４】
ここで、ユーザが音声認識機器に話し掛ける順序を、以下のようにすることをルールとして決めておくと、音声認識結果からメッセージタイプを判定することが容易になる。
話し掛ける順序のルール
１．最初に、時間、タイミングを言う。
２．次に目的語（通常操作したい対象の名詞）を言う
３．次に目的語に対しどのような操作をするかを言う
４．疑問、命令、依頼、問合せ等の優先度を示す動詞を加える
【００６５】
次に、時間を示す単語があるかをチェックする（Ｓ５１０）。上記の例では、「今」という時間を設定している。もし、時間を示す単語が無いと判定された場合は（Ｓ５１０：ＮＯ）、次の単語の解析を行う（Ｓ７３０）。上記の話し掛けるルールでは目的語が来るはずなので、「を」という助詞とその前の単語の有無をチェックする。目的語が有れば（Ｓ７３０：ＹＥＳ）、その名詞と属性を判定する（Ｓ７４０）。
【００６６】
ここで、名詞の検索の際にはユーザがいる環境を考慮して検索を行う。たとえば車両内であれば、車両に設置した車載機器関連の名詞が優先的に検索される。ユーザがどこにいるかは、例えば携帯情報処理機１０が周囲の外部機器２０とＤＳＲＣ（短距離通信）等の通信を用いて呼びかけを行い、その応答により周囲に何が存在しているかを判定して、ユーザのいる環境を特定する。携帯情報処理機１０は、通信電力を変更して、ＤＳＲＣの通信到達距離を変更できるようにすることが望ましい。そうすると携帯情報処理機１０の周囲何ｍにどのような機器があるかを判定できる。
【００６７】
また、目的語の名詞に対し、それぞれどのような操作が行われるかを、予め決めておき、操作に関して同義語をグループ化しておく。また、目的語自体の同義語もグループ化しておく。例えば、次のようにする。
■エンジンを：かける動作する動かす作動するとめる切る停止するスタート（する）
■エンジン／イグニッション／キー
目的語の判定の後には、動詞があるか否かをチェックする。動詞がある場合は、その動詞が目的語と関連する動詞か否かチェックする。また、動詞に付属する助動詞から、ユーザの優先度を判定する。
【００６８】
動詞が目的語と関連すると判定されれば、時間、目的語、動詞、優先度が判定できるため、ユーザの意向を仮に判定できる。判定された結果は、ユーザに音声や文字の表示で確認が行われる（Ｓ５９０）。
ユーザがそれに対しＯＫかどうかをチェックし（Ｓ６００：ＹＥＳ）、ＯＫであれば、メッセージタイプを決定する（Ｓ６１０）。
【００６９】
分岐するフローにおいて、時間、目的語、動詞、優先度の４つの項目の内、わからないものが１つであれば、そのわからない品詞をユーザに尋ねる（Ｓ６３０，Ｓ７００，Ｓ７８０）。
２つ以上わからなければ、ユーザに「もう一度お願いします」と入力を依頼する（Ｓ７２０，Ｓ８００，Ｓ８１０）。もし、ユーザがもう一度言語を入力して、再度２つ以上わからなければ、「別の方法で入力ください」と表示をユーザに出し、ユーザにテキストの入力を依頼する。
【００７０】
このようにすると、最初の言語認識に失敗した従来の解析パラメータと、正しい認識を行うための解析パラメータの差異が明確になる。従来の解析パラメータを一定量以下変化させた値を使うと、言語解析率が向上すると判定される場合、新たな解析パラメータを通常使用パラメータの中に携帯情報処理機１０はセットする。一方、解析パラメータを大幅に変える必要があるという結果が出た場合は、そのパラメータ値を例外使用の改正パラメータとして記憶する。
【００７１】
外国人が、自分の母国語の言語認識用データを外国で使おうとする場合に備え、言語辞書には、言語に応じた言語類別用ＩＤをつけており、携帯情報処理機１０は、言語類別用ＩＤを確認して、認識辞書や認識方式を切りかえる。
その際、言語が日本語から、他の外国語に変わると、携帯情報処理機１０だけで外国語の辞書を記憶することが難しい場合が考えられる。その際は、携帯情報処理機１０は外部の機器と協働して（分散処理を行って）、外国語の認識、翻訳、応答等を行うことが可能になる。
【図面の簡単な説明】
【図１】実施例の情報システムとしてのモバイルＡＩシステムの構成を示す説明図である。
【図２】個人認識モジュールの外部機器２０への転送に関する説明図である。
【図３】携帯情報処理機における認識処理の概略を示すフローチャートである。
【図４】携帯情報処理機における認識処理の詳細な内容を示すフローチャートである。
【図５】図４の続きの認識処理の詳細な内容を示すフローチャートである。
【図６】携帯情報処理機と外部機器間での認識モジュールの転送の様子を示す説明図である。
【図７】携帯情報処理機と外部機器間での認識モジュールの転送のフローを示す説明図である。
【図８】メッセージタイプの例を示す説明図である。
【図９】メッセージタイプを決めるための処理ステップと、ステップ毎に用いるパラメータ項目を示す説明図である。
【図１０】言語認識の結果からメッセージタイプを決定する処理を示すフローチャートである。
【符号の説明】
１…モバイルＡＩシステム
１０…携帯情報処理機
２０…外部機器
３０…通信システム

Claims

特定ユーザの通話音声を入力し、前記特定ユーザの通話音声の認識結果から割り出した特徴量に基づく音声認識関連データを利用して、入力した前記特定ユーザの通話音声を認識し、その認識した通話音声から求めた特徴量に基づいて前記特定ユーザに対応する前記音声認識関連データを変更する機能を備え、携帯可能に構成された第１の電子機器と、音声を入力し、音声認識関連データを利用して、入力した音声を認識し、その認識結果に基づく所定の機能を実現する第２の電子機器とを備えた情報システムにおいて、
前記第１の電子機器は、
前記認識した通話音声の認識結果を報知し、この報知された認識結果に対する評価を入力し、入力した評価と前記認識結果に基づいて前記音声認識関連データを変更する機能と、
自機器が利用する前記特定ユーザに対応する音声認識関連データを、前記第２の電子機器が前記特定ユーザの音声の認識を行う際に前記第２の電子機器に対して送信する機能を備え、
前記第２の電子機器は、前記第１の電子機器から受信した前記特定ユーザに対応する音声認識関連データを利用して前記特定ユーザの音声の認識を行うこと
を特徴とする情報システム。
特定ユーザの通話音声を入力する音声入力手段と、
前記特定ユーザの通話音声の認識結果から割り出した特徴量に基づく音声認識関連データを利用して前記音声入力手段から入力された前記特定ユーザの音声の認識を行う認識手段と、
前記認識手段によって認識された通話音声の認識結果を報知する報知手段と、
前記報知手段によって報知された認識結果に対する評価を入力する入力手段と、
前記入力手段によって入力された評価と前記認識手段によって認識された通話音声から求めた特徴量に基づいて前記特定ユーザに対応する音声認識関連データを変更する音声認識関連データ変更手段と、
前記特定ユーザに対応する前記音声認識関連データを、前記音声認識関連データを利用して音声認識を行う外部装置が前記特定ユーザの音声の認識を行う際に前記外部装置に送信する送信手段とを備え、携帯可能に構成されたこと
を特徴とする電子機器。
請求項２に記載の電子機器において、
前記認識手段によって所定回数以上通話音声の認識に失敗した場合、前記入力手段はユーザから通話音声以外の方法で入力を行い、前記音声認識関連データ変更手段は当該通話音声以外の方法による入力内容を前記音声認識関連データの変更に用いること
を特徴とする電子機器。
請求項２または３に記載の電子機器において、
前記送信手段は、送信先の機器の種別に適合した音声認識関連データを送信すること
を特徴とする電子機器。
請求項２〜４のいずれかに記載の電子機器において、
前記送信手段は、前記音声認識関連データを利用する処理を実現するためのプログラムを送信すること
を特徴とする電子機器。
請求項２〜５のいずれかに記載の電子機器において、
前記送信手段は、前記認識データを所定のアクションに応じて送信すること
を特徴とする電子機器。
請求項７に記載の電子機器において、
前記所定のアクションは送信対象の機器との距離が所定範囲内となることであること
を特徴とする電子機器。
請求項２〜７のいずれかに記載の電子機器において、
前記認識手段は前記認識結果及び前記音声認識関連データに基づきユーザの以後の入力内容を予測し、
前記報知手段は、前記予測した入力内容を報知して、
前記入力手段から前記予測した入力内容に対する前記評価を入力すること
を特徴とする電子機器。
特定ユーザの音声を入力する音声入力手段と、
特定ユーザの通話音声の認識結果から割り出した特徴量に基づく音声認識関連データを利用して、入力した前記特定ユーザの通話音声を認識し、その認識した通話音声から求めた特徴量に基づいて前記特定ユーザに対応する前記音声認識関連データを変更する機能を備えた携帯可能な外部装置から、前記特定ユーザに対応する音声認識関連データを受信する受信手段と、
前記受信手段によって受信された前記特定ユーザに対応する音声認識関連データを利用して前記音声入力手段から入力された前記特定ユーザの音声の認識を行う認識手段と、
前記認識手段の認識結果に基づき所定の機能を実現する機能実現手段とを備えること
を特徴とする電子機器。
請求項９に記載の電子機器において、
前記音声認識関連データには有効期限データが添付されており、
前記認識手段は、当該有効期限データに基づいて受信した音声認識関連データを利用する期間を限定すること
を特徴とする電子機器。
請求項２〜１２のいずれかに記載の電子機器において、
前記音声認識関連データとして、所定の定型文を認識するためのデータを含むこと
を特徴とする電子機器。
請求項２〜１１のいずれかに記載の電子機器において、
前記入力手段からの音声の入力が中断した場合には、前記認識手段は前記音声認識関連データに基づいて中断後に続く言葉を予測し、前記報知手段は該予測した言葉を報知すること
を特徴とする電子機器。
請求項２〜１２のいずれかに記載の電子機器において、
前記音声に代えて所定の言語表現を用いる
ことを特徴とする電子機器。
請求項２〜１３のいずれかに記載の電子機器としての機能をコンピュータに実現させるためのプログラム。
請求項１に記載の情報システムにおいて、
前記第１の電子機器として、請求項２〜８のいずれかに記載の電子機器を用い、
前記第２の電子機器として、請求項９または１０のいずれかに記載の電子機器を用いること
を特徴とする情報システム。