JP4718163B2

JP4718163B2 - 音声処理装置、音声処理方法、音声処理用プログラム及び記録媒体

Info

Publication number: JP4718163B2
Application number: JP2004336484A
Authority: JP
Inventors: 健太郎山本; 淳篠原
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2004-11-19
Filing date: 2004-11-19
Publication date: 2011-07-06
Anticipated expiration: 2024-11-19
Also published as: JP2006145891A

Description

本願は、発話された音声に対応する音声応答や動作を実行する音声処理装置に関する。

従来から、カーナビゲーション等をはじめ、様々な分野で音声処理装置が用いられている。ここで、具体的に音声処理装置とは、ユーザ（カーナビゲーションの場合は運転者又は同乗者となる）が発話した音声に対応する各種の情報等を音声によりそのユーザに提供する装置である（特許文献１）。

また、近年の音声処理装置においては、単語認識方式の場合での音声認識率はある程度高いレベルとなっているため、ユーザが発話した音声が、予め音声処理装置に登録された単語であれば、その発話した音声に対応する情報等を正確にユーザに提供することができる。
特開２００３−２４１７９７号公報

しかしながら、上述した従来の音声処理装置では、ユーザがその音声処理装置に予め登録された単語を発話しなければその内容の認識がされないため、ユーザはいつも決まった定型文を話さなくてはならない。よって、ユーザにとって自由な用語を用いた音声処理ができないという問題点があった。また、たとえ認識されたとしてもそれに対応する応答としては定型文による応答しか為されないので、会話としてはいつも同じような結果しか出力されず、結果として多様性が失われてユーザが音声処理装置を使うこと自体に飽きてしまうという問題点があった。

さらに、音声認識は高いレベルであっても、音声処理装置に登録されていない単語をユーザが発話した場合には、音声処理装置はその単語を認識できず、その音声処理装置が無反応になるという事態が生じ、音声操作への抵抗感、拒否感を抱くことになってしまうという問題点もあった。

本願は、このような問題に鑑みなされたものであり、ユーザが発話した自由な内容の音声に対して、円滑に対応できる音声処理装置を提供することを課題の一例とする。

上記の課題を解決するために、請求項１に記載の発明は、発話された音声を認識し、文字データに変換する音声認識手段と、予め登録された登録動作内容を記憶する記憶手段と、前記文字データにより示される動作内容である認識動作内容と前記記憶手段に記憶されている登録動作内容とが一致しているか否かを判断する制御手段と、前記記憶手段に記憶されている登録動作内容を実行する動作実行手段と、前記認識動作内容に関連し、前記文字データとは異なる関連文字データを生成する文字データ生成手段と、前記文字データ生成手段により生成された関連文字データを用いて応答を行う応答手段と、を備え、前記制御手段は、前記文字データにより示される動作内容である認識動作内容が、記憶手段に記憶されている登録動作内容と一致したと判断した場合に、前記動作実行手段に当該登録動作内容を実行させ、前記文字データにより示される動作内容である認識動作内容が、前記記憶手段に記憶されている登録動作内容と一致しないと判断した場合に、前記動作実行手段に登録動作内容を実行させず、前記文字データ生成手段に前記認識動作内容とは意味の繋がらない意外性のある言葉を前記関連文字データとして生成させることを特徴とする。

上記の課題を解決するために、請求項１３に記載の発明は、予め登録された登録動作内容を記憶する記憶手段を備える音声処理装置における音声処理方法であって、発話された音声を認識し、文字データに変換する音声認識工程と、前記文字データにより示される動作内容である認識動作内容と前記記憶手段に予め記憶されている登録動作内容とが一致しているか否かを判断する制御工程と、前記記憶手段に記憶されている登録動作内容を実行する動作実行工程と、前記認識動作内容に関連し、前記文字データとは異なる関連文字データを生成する文字データ生成工程と、前記文字データ生成工程により生成された関連文字データを用いて応答を行う応答工程と、を有し、前記制御工程は、前記文字データにより示される動作内容である認識動作内容が、前記記憶手段に記憶されている登録動作内容と一致したと判断した場合に、前記動作実行工程に当該登録動作内容を実行させ、前記文字データにより示される動作内容である認識動作内容が、前記記憶手段に記憶されている登録動作内容と一致しないと判断した場合に、前記動作実行工程に登録動作内容を実行させず、前記文字データ生成工程に前記認識動作内容とは意味の繋がらない意外性のある言葉を前記関連文字データとして生成させることを特徴とする。

上記課題を解決するために、請求項１４に記載の発明は、コンピュータを請求項１乃至請求項１２のいずれか一に記載の音声処理装置として機能させる。

上記課題を解決するために、請求項１５に記載の発明は、請求項１４に記載の音声処理用プログラムが、前記コンピュータにより読取可能に記録されている。

次に、本願の音声処理装置について、図面を用いて具体的に説明する。なお、以下に説明する実施形態は、音響再生機能付きカーナビゲーションシステムに対して本願の音声処理装置を適用した場合の実施の形態である。

（Ｉ）実施形態
図１は、本願の音声処理装置の概要構成を示すブロック図である。

図１に示すように、実施形態に係る音声処理装置Ｖは、マイク１と、Ａ／Ｄ変換部２と、音声認識手段としての音声認識部３と、第１動作実行手段、第２動作実行手段としての動作実行部４と、実行処理判断手段及び文字データ生成処理判断手段としての制御部５と、文字データ生成手段としての文字データ生成部６と、解析部７と、記憶手段としてのデータベース８と、第１音声合成手段、第２音声合成手段としての音声合成部９と、Ｄ／Ａ変換部１０、スピーカ１１と、から構成されている。

次に、全体動作を説明する。

上記の構成において、ユーザにより音声が発話された際、マイク１を通して当該音声に対応する音声信号ＳａがＡ／Ｄ変換部２へ出力される。そして、音声信号Ｓａは、Ａ／Ｄ変換部２により、音声データＳｂに変換されて音声認識部３に出力される。その後、音声データＳｂの内容が音声認識部３により音声認識されて対応する文字データＳｃに変換され、制御部５に出力される。

その後、制御部５によって、文字データＳｃに示される動作内容である認識動作内容（以下、単に「認識動作内容」と称する場合がある）が予め登録されている登録動作内容（以下、単に「登録動作内容」と称する場合がある）と一致しているか否かが判断される。なお、当該登録動作内容について具体的には、後述する。

ここで、動作内容とは、実施形態に係るカーナビゲーションシステムにより実行可能なナビゲーション処理の内容、例えば、ナビゲーション用の地図表示、経路探索又はその探索結果を用いた経路案内、或いは音響再生機能としてＭＤ（Mini Disc）に記録された音楽の再生処理等をいう。

そして、認識動作内容が登録動作内容と一致している場合には、動作実行部４により、認識動作内容と同内容の登録動作内容を実行する処理（以下、単に「動作実行処理」と称する場合がある）を行う。

また、その登録動作内容を示す文字データＳｃは、音声合成部９に出力され、当該音声合成部９により音声合成されて音声データＳｄに変換され、Ｄ／Ａ変換部１０を通って、音声信号Ｓeに変換され、スピーカ１１により当該音声信号Ｓeに対応する音声が発話される。

以上の動作により、認識動作内容が登録動作内容と一致している場合には、動作実行部４によりユーザの発話により得られた認識動作内容と同内容の登録動作内容が実行されるため、ユーザの意図した動作が行われることになる。

一方、文字データＳｃに示される動作内容である認識動作内容が登録動作内容と一致しない場合には、当該文字データＳｃが、制御部５から文字データ生成部６に出力される。

ここで、文字データ生成部６は、認識動作内容に関連した動作内容を示す文字データ（以下、「関連文字データ」と称する）を生成するものであって、より具体的には、いわゆる人工無脳としての会話プログラムを動作させることで実現されるものである。

人工無脳とは、一般的な「人工知能」に対峙するものとして用いられる会話プログラムの総称であって、いわゆるボトムアップ的な人工知能としての処理では「人らしさ」に到達するまでに複雑な処理が必要となるため、これとは逆に、トップダウン的に「人らしさ」のモデルを形成することで「人らしさ」を作り出そうとした会話プログラムの総称である。例えばインターネット等の検索エンジンやエキスパートシステムなど、人らしくはないものの役には立つ「人工知能」に対峙して「人工無能」と呼ばれたのがこの語の起源であるが、「無能」の否定的なイメージを嫌われた結果、近年では「人工無脳」という称されるようになったものである。

文字データ生成部６により行われる文字データ生成処理によって生成される関連文字データとは、例えば、認識動作内容が示される文字データの単語キー列（これについては後述する）のいずれかの単語が含まれるもの、読みが同じものが含まれるもの、意味的に似ているもの、意味がつながるもの、ユーザが関連文字データにより発話された言葉を認識した際に、ユーザが発話した音声に基づいて関連文字データが生成されて応答されたということがユーザにわかりやすく理解可能であるもの等をいう。

従って、文字データ生成部６により行われる文字データ生成処理は、ユーザが発話することにより得られた文字データＳｃとは意味の繋がらない意外性のある言葉を関連文字データＳｇとして生成することもあれば、登録動作内容を意味する文字データＳｃを中心とした言葉を関連文字データＳｇとして生成することもある。

これにより、ユーザの発話により得られた認識動作内容が、登録動作内容と一致しない場合であっても、音声処理装置Ｖによってユーザに何らかの応答を行わせることができる。

次に、文字データ生成部６により出力された文字データＳｃの動作内容は、解析部７により品詞分解され、文字データＳｆに変換され、データベース８に保存される。その後、品詞分解の結果により得られた文字データＳｆに関連があり且つ登録動作内容を意味する複数の単語キーＳｉを、データベース８より文字データ生成部６に出力する。文字データ生成部６により単語キーＳｉを基にして関連文字データＳｇが生成され、制御部５に出力される。

その後、動作実行部４により、関連文字データＳｇに示された動作内容、具体的には、上述したような関連文字データＳｇに示された動作内容、つまり、ユーザが発話することにより得られた文字データＳｃとは意味の繋がらない意外性のある言葉を関連文字データＳｇとして生成された動作内容又は、登録動作内容を意味する文字データＳｃを中心とした言葉を関連文字データＳｇとして生成された動作内容等が実行される。

また、文字データＳｇは、音声合成部９に出力されて音声合成され、音声データＳｋに変換され、Ｄ／Ａ変換部１０により音声信号Ｓｌに変換され、スピーカ１１により当該音声信号Ｓｌに対応する音声が発話される。

この動作により、ユーザの発話により得られた認識動作内容が、登録動作内容と一致しない場合であっても、文字データ生成部６により関連文字データＳｇを生成し、音声処理装置Ｖによってユーザに何らかの応答を行わせることにより、ユーザが予め登録されている定型文を話さなくても自由な表現を用いて対話が可能であり、また、音声処理装置Ｖが無反応状態となることを回避することができ、音声操作への抵抗感、拒否感を軽減できる。

次に、音声処理装置の音声処理について、具体的に図２乃至図４を用いて説明する。

先ず、図２は、音声処理装置の音声処理の全体について示したフローチャートである。

実施形態に係る音声処理としては、最初に、ユーザから発話された音声を音声認識部によって音声認識し、文字データＳｃに変換する（ステップＳ２１）。

そして、文字データＳｃに示される動作内容である認識動作内容が登録動作内容と一致しているか否かを判断する（ステップＳ２２）。

ここで、ステップＳ２２に関し、登録動作内容の例について表１を用いて説明する。

当該登録動作内容としては、例えば表１に示すように、「ＭＤ再生」、「ナビ画面表示」、「次の曲を再生」、「前の曲を再生」又は「渋滞情報確認」等の、動作実行部４において実行可能な実施形態に係るナビゲーションシステムとしての具体的な動作内容が、予め登録されている。そして、ステップＳ２２では、これらの登録動作内容と認識動作内容とが一致しているか否かを判断する。

文字データＳｃにより示された動作内容である認識動作内容が登録動作内容と一致しない場合（ステップＳ２２；ＮＯ）には、次に、上記登録動作内容の一部になり得るものとしてデータベース８内に予め登録されている部分的な動作又はその動作に付属する内容である部分内容（以下、単に「部分内容」とする）を認識動作内容が含むか否かを判断する（ステップＳ２３）。

ここで、ステップＳ２３についての部分内容の例について表２を用いて説明する。

ステップＳ２３についての部分内容としては、例えば表２左に示すように、「ＭＤ」、「ナビ」、「次」、「前」、「天気」等が、予め登録されている。

そして、上記ステップＳ２３においては、例えば、ユーザにより「最近天気が悪いね」という音声が発話された場合、ユーザにより発話された音声から得られた文字データＳｃの内容が解析部７により解析され、その解析結果としての内容がステップＳ２３の処理としての部分内容のいずれかに合致しているか否かが判断される。例えば、表２に示す部分内容である「天気」が、認識動作内容に含まれている場合には、認識動作内容が部分内容を含む（すなわち、文字データＳｃにより示された動作内容の一部がステップＳ２３としての部分内容と一致している）と判断される（ステップＳ２３；ＹＥＳ）。同様に、ユーザにより「今日は新しいＭＤを買った」という音声が発話された場合、表２に示す部分内容である「ＭＤ」が、認識動作内容に含まれているので、ステップＳ２３についての部分内容を含むと判断される（ステップＳ２３；ＹＥＳ）。

一方、Ｓ２３の判定において、部分内容を全く含まない場合（ステップＳ２３；ＮＯ）、具体的には、表２に示すような部分内容が、認識動作内容の中に一つもない場合には、文字データ生成部６により、認識動作内容に関連する動作内容を意味する関連文字データを生成する（ステップＳ２８）。この関連文字データＳｇの生成処理の詳細については、後述する。

次に、上記ステップＳ２３の判定において、認識動作内容が部分内容を含む場合（ステップＳ２３；ＹＥＳ）には、部分内容に対応する登録動作内容を実行する処理としての動作実行処理を行うか否かが判断される（ステップＳ２４）。具体的には、上述したように、ユーザにより発話された「ＭＤ」という認識動作内容が部分内容を含む場合、当該部分内容に基づき対応する動作実行処理を行うか否かを判断する。

ここで、ステップＳ２４において、動作実行処理を行うか否かを判断する基準を表３に例示しつつ説明する。

当該動作実行処理を行うかの判断基準としては、例えば、表３に示すように、ユーザが走行中であるか否か、又は他の操作の最中であるか否か等が判断要素となる。更に具体的には、ユーザが車を運転中である場合に、人工無脳としての文字データ生成部６により関連文字データＳｇを生成して応答した結果、それに伴って、例えば急激な音量変化又は強制的なルート変更等が発生した場合、車を運転中であるユーザを驚かせてしまう可能性がある。このような車走行中のユーザを驚かせる可能性があるような応答は回避する必要があるため、ユーザが車を運転中である場合には文字データ生成処理を行わないことが適切であると考えられる。よって、このような可能性がある場合は、人工無脳の機能を用いずに動作実行処理を行うと判断される（ステップＳ２４；ＹＥＳ）。

一方、ステップＳ２４の判定により、動作実行処理を行なわないと判断した場合（ステップＳ２４；ＮＯ）には、文字データ生成部６としての人工無脳の機能を用いて関連文字データＳｇを生成すべく、後述するステップＳ２８の処理に移行する。

次に、ステップＳ２４の判定において、動作実行処理を行うと判断された場合（ステップＳ２４；ＹＥＳ）、上述した表２に示す動作実行処理（部分内容に対応するものとしての動作実行処理）が行われる（ステップＳ２５）。すなわち、具体的には、表２の左側の部分内容に対応する登録動作内容として表２の右側に夫々示された動作内容を動作実行処理により行う。例えば、表２左側の「ＭD」に対応する場合はその右側にある「ＭＤを再生する」を動作実行部４において実行し、「ナビ」に対応する場合はその右側にある「ナビの画面を表示する」を動作実行部４において実行し、「次」に対応する場合はその右側にある「次の曲を再生する」を動作実行部４において実行し、「前」に対応する「前の曲を再生する」、「天気」に対応する場合はその右側にある「天気予測画面を表示する」を動作実行部４において実行することになる。ここで、上述したように、「ＭＤ」に対応する登録動作内容として、「ＭＤを再生する」を選択した場合について示したが、表２に示した登録動作内容の他にも、「ＭＤ」に対応する登録内容として、例えば、「ＭＤを録音する」、「ＭＤを停止する」等が登録されている場合には、これらの登録動作内容のうちどれを実行するかが選択された後に、その動作内容が実行されるため、この場合の動作実行処理は、部分内容に対応する登録内容のうちから動作実行内容を選択し、その動作実行内容を実行する処理が含まれることになる。

次に、以下に示す基準により、文字データ生成部による処理である文字データ生成処理を行うか否かが判断される（ステップＳ２６）。

ここで、ステップＳ２６に関し、文字データ生成処理を行うか否かを判断する基準について表４を用いて説明する。

表４に示すように、ステップＳ２６の判定において文字データ生成処理を行うか否かを判断する基準として、例えば、ＭＤ再生等がなされた場合には、音楽が出力されればＭＤが再生されるという動作が行われたことがわかるので、このような場合には、動作内容を音声で確認するまでもない。また、例えばＭＤの再生、停止、音量調節等の頻度の高い動作がなされた場合であって、この動作内容が行われた際に「ＭＤを再生しました」、「ＭＤを停止しました」等を何度も言われたく無い場合も、動作内容を音声で確認しないことが望まれる。よって、このような場合には、文字データ生成処理を行う（ステップＳ２６；ＹＥＳ）。

そして、文字データ生成処理が適切とされた場合は、関連文字データＳｇを生成する。この場合の文字データ生成処理では、ユーザが発話することにより得られた文字データＳｃとは意味の繋がらない意外性のある言葉を関連文字データＳｇとして生成することもあれば、登録動作内容を意味する文字データを中心とした言葉を関連文字データＳｇとして生成することもある（ステップＳ２８）。例えば、登録動作内容を意味する文字データが「ＭＤ再生」だとすると、「ＭＤ聴きたいけど、いいＭＤが無いな。」等がある。さらに、ユーザにより発話された「自宅へ帰る」という文言が部分内容を含むものであっても、その部分内容に対応する動作を行わず、会話の面白さに重点が置かれる場合には、文字データ生成処理により、「嫌だ」の様な文言を示す関連文字データＳｇが生成される（ステップＳ２８）。

なお、上述した関連文字データＳｇを生成する文字データ生成処理（ステップＳ２８）と並行して、カーナビゲーションシステムとしての正規の動作（すなわち、ユーザが発話したことにより得られた文字データＳｃに対する動作（例えば、自宅へ帰るという指示に対応する動作としての、自宅までの地図表示処理等））は、上述したステップＳ２５の段階で完了しており、上記ステップＳ２８による処理は、あくまで会話を楽しむためのものとして文字データ生成処理により生成された関連文字データＳｇを使うものである。

次に、文字データ生成処理によって生成された関連文字データＳｇは、音声合成部９により音声合成処理、つまり、関連文字データＳｇを音声データＳｋに変換する処理が行われ、音声として上記のように、ユーザへスピーカ１１を通して応答出力されることとなる（ステップＳ２９、Ｓ３０）。例えば、「渋滞情報確認」という登録動作内容を意味する文字データがあった場合には、動作では、カーナビゲーション等の画面に、渋滞情報が表示され、音声によっては「東北道で５キロの渋滞です。」等の対応がなされる。

一方、ステップＳ２６の判定において、上述した判断基準として、例えば走行中のユーザを驚かせる可能性があるような応答を回避して危険を招くことを防ぐべく、会話の面白さよりも処理結果を正しくユーザに伝えることが優先される場合（ステップＳ２６；ＮＯ）には、先程なされた（ステップＳ２５）登録動作内容に対応する音声による応答処理が、音声合成部９により行われ、音声としてスピーカ１１を介して応答出力されることとなる（ステップＳ２９、Ｓ３０）。よって、この場合には、ステップＳ２５の動作実行処理によりなされた動作と、ステップＳ２７により行われる後に音声とされる音声対応処理と、が、共に文字データ生成処理を伴わず、動作実行処理を用いて行われることになる。

他方、ステップＳ２３又はステップＳ２４の判断がＮＯとされた場合（すなわち、認識動作内容が登録動作内容の一部さえも含まない（ステップＳ２３；ＮＯ）場合、又は認識動作内容は登録動作内容の一部は含むが車の運行上人工無脳を用いる処理は実行しない（ステップＳ２４；ＮＯ）場合）、ステップＳ２８の処理に移行することになるが、この場合には動作実行処理（ステップＳ２５）が実行されないため、上述した場合と同様に、動作対応も、音声対応も、全て文字データ生成部６により生成された関連文字データＳｇにより応答がなされることになる。

次に、ステップＳ２２において、認識動作内容が登録動作内容を意味する文字データＳｃと一致していると判断された場合には（ステップＳ２２；ＹＥＳ）、文字データＳｃの動作内容を実行する（ステップＳ３１）。ここで実行される動作内容は、上述したように、認識動作内容と同内容の登録動作内容であり、登録動作内容に示された内容を実行するものである。

次に、上述したステップＳ２６以降の動作として、まず、文字データ生成処理を行うか否かが判断される。すなわち、上述したように、ユーザが発話したことにより得られた文字データＳｃに対する動作と同内容の動作実行処理により登録動作内容が実行され、更に文字データ生成処理により生成された関連文字データＳｇによる応答が行われることが適切な場合（ステップＳ２６；ＹＥＳ）には、文字データ生成処理が行われ（ステップＳ２８）、処理結果を正しくユーザに伝えることが優先される場合（ステップＳ２６；ＮＯ）には、先程なされた動作内容と共に、音声による対応も登録動作内容を意味する文字データによる応答が行われる場合とが判断され、その判断に応じて、音声による対応が音声合成処理により行われる（ステップＳ２９、Ｓ３０）。

次に、図２のステップＳ２８における処理（文字データ生成処理による関連文字データＳｇの生成処理）について、具体的に図３を用いて説明する。なお、図３は、本願に用いられる文字データ生成処理による関連文字データ生成処理を示すフローチャートである。

まず、文字データ生成処理により関連文字データＳｇを生成する前提として、関連文字データＳｇの生成に使用される「単語キー」をデータベース８に登録しておく。

ここで、単語キーとは、図１で説明したように、認識動作内容を品詞分解した結果により得られた文字データＳｆに関連があり且つ登録動作内容を意味するものをいう。例えば、「こんにちは」を単語キーＳｉとして登録する。具体的には表５を用いて説明する。

表５に示すように、第１の単語キーＳｉとして、出現形である「こんにちは」と登録すると共に、当該出現形の読み「コンニチハ」、原形「こんにちは」、原形の読み「コンニチハ」、品詞「感動詞」等の単語キーを登録しておく。同様に、第２の単語キーＳｉとして、出現形である「初め」と登録し、出現形の読み「ハジメ」、原形「初め」、原形の読み「ハジメ」、品詞「名詞」等のデータを登録しておく。このように、第３の単語キーＳｉに「まして」、第４の単語キーＳｉに「お年玉」といった単語キーＳｉを登録する。ここで、単語キーＳｉは自ら登録してもよいし、予めデータベース８に登録されているものを関連文字データ生成に使用してもよい。

ここで、表５に示されているカウンタは、ユーザが単語キーＳｉを使用する際にカウントされるものである。カウンタの数が多いほど、ユーザによって使用された頻度が高いことを示しているため、この情報を基に関連文字データＳｇの生成に使われる確立が高くなる。

更に、具体的には表６を用いて説明する。

表６は、上記表５で登録された単語キーＳｉがユーザによってどの程度の頻度でテーマとして使われたかを登録するため、かつてユーザが使用した単語キーの中から、名詞、動詞、感動詞を抜き出してそれぞれの単語キーＳｉが、テーマとして使われた順番と、単語キーを使用した時間（グリニッジ標準時からの経過時間）と共に登録される。

これにより、テーマ番号が大きく、取得時間が現在の時間と近いものがユーザにより最近使用されたものであることがわかるため、今後関連文字データを生成する際にテーマとなる確率が高くなる。

次に、データベース８に登録されている単語キーＳｉを用いて、関連文字データ生成処理による関連文字データ生成について説明する。

図３に示すように、ユーザにより音声が発話された後、音声処理装置Ｖが確率的に返答するか否かが設定される（ステップＳ４１）。次に、ユーザにより設定された結果が返答するか否かを判断する（ステップＳ４２）。設定結果が返答しないとされた場合（ステップＳ４２；ＮＯ）には、操作を終了する（ステップＳ４３）。設定結果が返答するとされた場合（ステップＳ４２；ＹＥＳ）には、次に、ユーザにより関連文字データ生成に用いるテーマが設定され、これにより関連文字データ生成に用いるテーマを取得する（ステップＳ４４）。このテーマに従い、後に関連文字データＳｇの生成が行われる。

ここでのテーマは、上述したような名詞、動詞、感動詞等である。この単語を用いてその単語を元に関連文字データＳｇを生成する。上述したように、データベース８に登録しておいた単語キーＳｉのうちから、返答の際に関連文字データＳｇを生成するためのテーマを設定する。

その後、ユーザにより発話された音声を認識してから、音声処理装置Ｖによる返答がどのくらいの時間で行われるかの返答時間が記録される（ステップＳ４５）。次に、テーマ選択を行う（ステップＳ４６）。この際、テーマの単語と同じ読みのテーマを探して、ランダムに選択する。その後、単語キー列の取得を行う（ステップＳ４７）。

ここで、具体的には表７を用いて説明する。

表７は、表５に登録された単語キーＳｉに対する番号がそれぞれ第１単語、第２単語、第３単語の順で並んでおり、それを組み合わせて文字データとして表されることになる。

表７に示すように、第１単語に０がある並びはそこが第１の節となる。逆に、第３単語に0がある並びはそこが終わりの節となる。単語キーの並び１は、０−１−０の順で並べられているので、「こんにちは」という文字列になる。さらに単語キーの並び２は、０−２−３であるので、「初めまして」という文字列になる。

関連文字データＳｇを生成する上でのテーマが表５の「８正月」（上記テーマデータの４、もしくは５がテーマとして決定されたとき）である場合、第２単語が「８」のデータを呼び出す。つまり、表７に示すように、単語キーの並びが「７−８−９」である単語キー列を呼び出す。

次に、繋がった関連文字データを生成していく際に、単語キー列の前に繋がる単語キーＳｉがあるかを判断する（ステップＳ４８）。単語キー列の前に繋がる単語キーＳｉがある場合（ステップＳ４８；ＹＥＳ）には、単語キー列の前に単語キーＳｉを付加する（ステップＳ４９）。単語キー列が「７−８−９」の時に、「０−７−８」と繋がって、「０−７−８−９」となる。０が並びの初めにくるまで、単語キー列の前に繋がる単語キーＳｉがある場合には（ステップＳ４８；ＹＥＳ）、単語キー列の前に単語キーＳｉを付加する（ステップＳ４９）という動作が続けられる。０が並びの初めにきたら、この動作を終了し、次に、単語キー列の後に繋がる単語キーＳｉがあるかが判断される（ステップＳ５０）。

単語キー列の前に繋がる単語キーＳｉがない場合には（ステップＳ４８；ＮＯ）、続いて、単語キー列の後に繋がる単語キーＳｉがあるかが判断される（ステップＳ５０）。

次に、単語キー列の後に繋がる単語キーＳｉがない場合には（ステップＳ５０；ＮＯ）、続いて、単語キー列を文字列に変換する（ステップＳ５２）。

単語キー列の後に繋がる単語キーＳｉがある場合には（ステップＳ５０；ＹＥＳ）、単語キー列の前に単語キーＳｉを付加する（ステップＳ５１）。単語キー列が「０−７−８−９」の時に、「８−９−１０」と繋がって、「０−７−８−９−１０」となる。同様にして、０が並びの終わりにくるまで、単語キー列の前に繋がる単語キーＳｉがある場合には（ステップＳ４８；ＹＥＳ）、単語キー列の前に単語キーＳｉを付加する（ステップＳ４９）という動作が続けられる。０が並びの終わりにきたら、この動作を終了し、次に、単語キー列を文字列に変換する（ステップＳ５２）。

単語キーの並び「０−７−８−９−１０−０」が決定されると、それに基づいた単語の出現形を割り当てる。

０は、始まりと終わりの記号として考えられ、実際単語は割り当てられてないため、表５により、７、８、９、１０に相当するそれぞれの単語を割り出し、「そろそろ-正月-だ-な」という言葉が生成される。

このように、テーマとなった言葉を中心にそれと異なる３単語をデータベース８から検索し、それをつなぎあわせて文字データを生成する。
データベース８に登録されている３単語のつながりが自然であればあるほど、出力される文は人間にとって意味をなしたものとなる。

上述したように、ユーザの発話により得られた認識動作内容が、登録動作内容と一致しない場合であっても、文字データ生成部６により関連文字データＳｇを生成し、音声処理装置Ｖによってユーザに何らかの応答を行わせることが可能であるが、関連文字データＳｇの生成に用いられる単語キーＳｉを更新できなければ、関連文字データ生成を行う際に用いられる単語キーＳｉの新鮮味が保たれなくなり、会話の面白さが半減してしまう。

よって、文字データ生成処理により、新鮮味のあり、面白い関連文字データが生成されるため、関連文字データＳｇの生成に使用される単語キーＳｉが更新される。

以下に、図４を用いて、本願に用いられるデータベース８に保存されている単語キーＳｉが更新される手法について説明する。なお、図４は、本願に用いられるデータベースに保存されている文字データが更新される際のフローチャートである。

データベース８を更新する場合には、まず、ユーザにより発話されたことにより得られた文字データを解析部により解析して、品詞分解し、単語に区切る（ステップＳ６１）。表７に示したように、単語キーＳｉが、3単語の並びがあるか否かを判断する（ステップＳ６２）。３単語の並びが無い場合（ステップＳ６２；ＮＯ）には、登録しない（ステップＳ６６）。３単語の並びがある場合（ステップＳ６２；ＹＥＳ）には、次に、データベースに登録されている並びか否かの判断する（ステップＳ６３）。

データベース８に登録されている並びである場合（ステップＳ６３；ＹＥＳ）には、改めて登録する必要がないので、登録しない（ステップＳ６６）。データベース８に登録されていない並び場合（ステップＳ６３；ＮＯ）には、単語データ、単語並びデータを登録するかを判断する（ステップＳ６４）。そして、登録しない場合（ステップＳ６４；ＮＯ）には、登録されず（ステップＳ６６）、登録する場合（ステップＳ６４；ＹＥＳ）には、名詞、動詞、感動詞等の単語キーＳｉ又は、単語キーの並びを登録する（ステップＳ６５）。

このようにして、関連文字データＳｇの生成に用いられるために、データベース８に保存されている文字データを更新することができるので、関連文字データ生成を行う際に用いられる文字データの新鮮味が保たれることになる。

なお、ネットワークを使ってデータベース８を更新することも考えられる。

上述したように、ユーザが音声処理装置に登録されている定型文を発話しなくても、文字データ生成手段により、ユーザによって発話された単語を基に、又は時にそれを無視し、ランダム性のある文が作成されるので、定型文を話さなくても自由な表現を用いて対話が可能である。

よって、会話はいつも違った結果を生ずるので多様性があり、何が出るかわからない言葉のキャッチボールとして会話を楽しむことができ、飽きさせない音声装置を実現することができる。

また、ユーザが音声処理装置に登録されていない単語を発話した場合であっても、文字データ生成し応答するため、ユーザがどんな言葉を発話しても、受け答えをしてくれるため、無反応という事態を無くし、音声操作への抵抗感、拒否感を軽減できる。

ざらに、音声が誤認識された場合であっても、会話としての面白さを重視すれば、なんらかの応答はされるので、無反応という状態を回避できる。

なお上述した実施形態につき、認識動作内容が登録動作内容と一致する場合、又は一致しない場合のいずれであっても会話としての面白さに重点が置かれる場合には、動作対応も音声対話も両者とも文字データ生成処理を行うこととしてもよい。この場合は、はじめから文字データと登録動作内容を意味する文字データと一致しているか否かの判断を行わないことになる。

さらに、上述した実施形態は動作による対応が先になされ、音声による対応がその後なされるという形態を示したが、音声による対応が先であってもよい。

なお、上述した実施形態は、ユーザが発話した音声が正しく認識された場合を前提としているものであるが、仮に、音声が認識されて文字データに変換される際に既に誤認識されていた場合であっても本発明を有効に利用することができる。

ここで、誤認識とは、認識動作内容が登録動作内容と一致するか否かを判断する場合や、認識動作内容が部分内容を含有するか否かを判断する場合に、正しく判断されなかった場合をいう。例えば、認識動作内容と登録動作内容が一致する場合に、認識動作内容と登録動作内容が一致しない（Ｓ２２；Ｎｏ）と判断された場合や、認識動作内容が登録動作内容と一致していないが、認識動作内容に部分内容を含んでいる場合に、認識動作内容が登録動作内容と一致せず、認識動作内容に部分内容を含まない（Ｓ２２；Ｎｏ→Ｓ２３；Ｎｏ）と判断された場合、更には、登録動作内容と部分内容を共に含まない場合に、登録動作内容と一致はしないが、部分内容は含む（Ｓ２２；Ｎｏ→Ｓ２３；Yes）と判断された場合等が考えられる。誤認識がなされた場合には、ユーザの真に意図した応答がなされない場合もあるが、このような場合であっても会話としての面白さを重視すれば、誤認識文字データにより動作実行処理又は文字データ生成処理によって何らかの応答がなされることとなるため、無反応という状態を回避できる。

更に、上記の様に、会話を楽しむためにあえて誤認識させる場合、例えば１分間に１０回誤認識が実行されると、その後は正しい認識をし、それに基づいて文字データ生成処理が行われるようにする等の設定をすることも可能である。

上述したように、音声処理装置、音声処理方法、音声処理用プログラム、記録媒体について説明したが、音声のみならず、映像、音の組み合わせにも同様に対応することができる。

例えば、上述した実施形態では、ユーザにより発話された音声に対する音声処理装置の応答を示してきたが、ユーザにより発話された音声に対して映像を用いた処理装置による応答処理についても応用が可能である。その場合には上述した、図２のＳ２８〜Ｓ３０は、映像を用いた処理がなされることになる。

更に、これらの変形形態として、映像を用いた処理装置による応答処理について説明する。

（II）変形形態
上述した実施形態では、ユーザから入力された音声の内容を認識動作内容として用いたのに対し、以下の変形形態では、ユーザの動きを映像として捉えその内容を認識した結果を認識動作内容として用いる。

より具体的には、先ず、ユーザの動きをカメラで認識し、その動きをデータとして取得し、同様の動きをするデータをデータベースから検索し、その読み出したデータを人工無脳機能を用いて組み合わせて新たな動きを生成し、それを図示しない表示部において表示する。この場合、時には完全に動きを真似する動作になることもあるが、人工無脳の活用時には元々画一的な動作を期待しないなので、ユーザがどのような動きをしても色々な反応を画像表示して応答することが可能である。

更に、図１に示すフローチャートに対応するプログラムをフレキシブルディスク又はハードディスク等の記録媒体に記録しておき、或いはインターネット等のネットワークを介して取得して記録しておき、これをマイクロコンピュータ等により読み出して実行することにより、当該マイクロコンピュータを各実施形態に係る制御部として機能させることも可能である。

なお、本願の音声処理装置、音声処理方法、音声処理用プログラム、記録媒体は、上記実施の形態に限定されるものではなく、テレビ、オーディオシステム等に搭載したり、自由な言葉に応答する音声装置等にも本願発明を用いることができる。

本願の音声処理装置の概要構成を示すブロック図である。本願の音声処理装置の音声処理の全体を示すフローチャートである。本願に用いられる文字データ生成処理による関連文字データ生成を示すフローチャートである。本願に用いられるデータベースに保存されている文字データが更新される際のフローチャートである。

符号の説明

１・・・マイク
２・・・Ａ／Ｄ変換部
３・・・音声認識部
４・・・動作実行部
５・・・制御部
６・・・文字データ生成部
７・・・解析部
８・・・データベース
９・・・音声合成部
１０・・・Ｄ／Ａ変換部
１１・・・スピーカ

Claims

発話された音声を認識し、文字データに変換する音声認識手段と、
予め登録された登録動作内容を記憶する記憶手段と、
前記文字データにより示される動作内容である認識動作内容と前記記憶手段に記憶されている登録動作内容とが一致しているか否かを判断する制御手段と、
前記記憶手段に記憶されている登録動作内容を実行する動作実行手段と、
前記認識動作内容に関連し、前記文字データとは異なる関連文字データを生成する文字データ生成手段と、
前記文字データ生成手段により生成された関連文字データを用いて応答を行う応答手段と、
を備え、
前記制御手段は、前記文字データにより示される動作内容である認識動作内容が、前記記憶手段に記憶されている登録動作内容と一致したと判断した場合に、前記動作実行手段に当該登録動作内容を実行させ、前記文字データにより示される動作内容である認識動作内容が、前記記憶手段に記憶されている登録動作内容と一致しないと判断した場合に、前記動作実行手段に登録動作内容を実行させず、前記文字データ生成手段に前記認識動作内容とは意味の繋がらない意外性のある言葉を前記関連文字データとして生成させることを特徴とする音声処理装置。
請求項１に記載の音声処理装置であって、
前記文字データ生成手段は、前記認識動作内容が前記登録動作内容と一致せず、且つ、前記登録動作内容の一部になり得るものとして前記記憶手段に記憶されている部分内容のいずれかを前記認識動作内容が含まない場合に、前記関連文字データを生成することを特徴とする音声処理装置。
請求項２に記載の音声処理装置であって、
前記認識動作内容が前記登録動作内容と一致せず、且つ、前記認識動作内容が前記部分内容を含む場合に、前記部分内容に対応する前記登録動作内容を実行するか否かを更に判断する実行処理判断手段を更に備え、
前記文字データ生成手段は、前記実行処理判断手段により前記部分内容に対応する前記登録動作内容を実行しないと判断された場合に、前記関連文字データを生成することを特徴とする音声処理装置。
請求項３に記載の音声処理装置であって、
前記実行処理判断手段により前記部分内容に対応する前記登録動作内容を実行すると判断された場合に、当該登録動作内容を実行する第１動作実行手段を更に備えることを特徴とする音声処理装置。
請求項４に記載の音声処理装置であって、
前記文字データ生成手段は、前記第１動作実行手段が前記部分内容に対応する前記登録動作内容を実行する場合に、前記関連文字データを生成することを特徴とする音声処理装置。
請求項１乃至請求項５のいずれか一に記載の音声処理装置であって、
前記文字データ生成手段により生成された前記関連文字データを音声データに変換し、対応する音声を発する第１音声合成手段を更に備えることを特徴とする音声処理装置。
請求項４乃至請求項６のいずれか一に記載の音声処理装置であって、
前記第１動作実行手段は、前記文字データ生成手段により生成された前記関連文字データの動作内容を実行することを特徴とする音声処理装置。
請求項１乃至請求項７のいずれか一に記載の音声処理装置であって、
前記認識動作内容が前記登録動作内容と一致している場合に、当該登録動作内容を実行する第２動作実行手段を更に備えることを特徴とする音声処理装置。
請求項８に記載の音声処理装置であって、
前記文字データ生成手段は、前記第２動作実行手段が前記登録動作内容を実行する場合に、前記関連文字データを生成することを特徴とする音声処理装置。
請求項８に記載の音声処理装置であって、
前記文字データ生成手段は、前記第２動作実行手段が前記登録動作内容を実行する場合に、前記登録動作内容に関連する登録動作文字データを生成することを特徴とする音声処理装置。
請求項８乃至請求項１０のいずれか一に記載の音声処理装置であって、
前記第２動作実行手段により実行される動作内容を示す文字データを音声データに変換し、対応する音声を発する第２音声合成手段を更に備えることを特徴とする音声処理装置。
請求項８乃至請求項１１のいずれか一に記載の音声処理装置であって、
前記第２動作実行手段は、前記文字データ生成手段により生成された前記関連文字データの動作内容を実行することを特徴とする音声処理装置。
予め登録された登録動作内容を記憶する記憶手段を備える音声処理装置における音声処理方法であって、
発話された音声を認識し、文字データに変換する音声認識工程と、
前記文字データにより示される動作内容である認識動作内容と前記記憶手段に予め記憶されている登録動作内容とが一致しているか否かを判断する制御工程と、
前記記憶手段に記憶されている登録動作内容を実行する動作実行工程と、
前記認識動作内容に関連し、前記文字データとは異なる関連文字データを生成する文字データ生成工程と、
前記文字データ生成工程により生成された関連文字データを用いて応答を行う応答工程と、
を有し、
前記制御工程は、前記文字データにより示される動作内容である認識動作内容が、前記記憶手段に記憶されている登録動作内容と一致したと判断した場合に、前記動作実行工程に当該登録動作内容を実行させ、前記文字データにより示される動作内容である認識動作内容が、前記記憶手段に記憶されている登録動作内容と一致しないと判断した場合に、前記動作実行工程に登録動作内容を実行させず、前記文字データ生成工程に前記認識動作内容とは意味の繋がらない意外性のある言葉を前記関連文字データとして生成させることを特徴とする音声処理方法。
コンピュータを請求項１乃至請求項１２のいずれか一に記載の音声処理装置として機能させることを特徴とする音声処理用プログラム。
請求項１４に記載の音声処理用プログラムが、前記コンピュータにより読取可能に記録されていることを特徴とする情報記録媒体。