JP4718163B2 - 音声処理装置、音声処理方法、音声処理用プログラム及び記録媒体 - Google Patents

音声処理装置、音声処理方法、音声処理用プログラム及び記録媒体 Download PDF

Info

Publication number
JP4718163B2
JP4718163B2 JP2004336484A JP2004336484A JP4718163B2 JP 4718163 B2 JP4718163 B2 JP 4718163B2 JP 2004336484 A JP2004336484 A JP 2004336484A JP 2004336484 A JP2004336484 A JP 2004336484A JP 4718163 B2 JP4718163 B2 JP 4718163B2
Authority
JP
Japan
Prior art keywords
character data
operation content
content
processing apparatus
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004336484A
Other languages
English (en)
Other versions
JP2006145891A (ja
Inventor
健太郎 山本
淳 篠原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corp filed Critical Pioneer Corp
Priority to JP2004336484A priority Critical patent/JP4718163B2/ja
Publication of JP2006145891A publication Critical patent/JP2006145891A/ja
Application granted granted Critical
Publication of JP4718163B2 publication Critical patent/JP4718163B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本願は、発話された音声に対応する音声応答や動作を実行する音声処理装置に関する。
従来から、カーナビゲーション等をはじめ、様々な分野で音声処理装置が用いられている。ここで、具体的に音声処理装置とは、ユーザ(カーナビゲーションの場合は運転者又は同乗者となる)が発話した音声に対応する各種の情報等を音声によりそのユーザに提供する装置である(特許文献1)。
また、近年の音声処理装置においては、単語認識方式の場合での音声認識率はある程度高いレベルとなっているため、ユーザが発話した音声が、予め音声処理装置に登録された単語であれば、その発話した音声に対応する情報等を正確にユーザに提供することができる。
特開2003−241797号公報
しかしながら、上述した従来の音声処理装置では、ユーザがその音声処理装置に予め登録された単語を発話しなければその内容の認識がされないため、ユーザはいつも決まった定型文を話さなくてはならない。よって、ユーザにとって自由な用語を用いた音声処理ができないという問題点があった。また、たとえ認識されたとしてもそれに対応する応答としては定型文による応答しか為されないので、会話としてはいつも同じような結果しか出力されず、結果として多様性が失われてユーザが音声処理装置を使うこと自体に飽きてしまうという問題点があった。
さらに、音声認識は高いレベルであっても、音声処理装置に登録されていない単語をユーザが発話した場合には、音声処理装置はその単語を認識できず、その音声処理装置が無反応になるという事態が生じ、音声操作への抵抗感、拒否感を抱くことになってしまうという問題点もあった。
本願は、このような問題に鑑みなされたものであり、ユーザが発話した自由な内容の音声に対して、円滑に対応できる音声処理装置を提供することを課題の一例とする。
上記の課題を解決するために、請求項1に記載の発明は、発話された音声を認識し、文字データに変換する音声認識手段と、予め登録された登録動作内容を記憶する記憶手段と、前記文字データにより示される動作内容である認識動作内容と前記記憶手段に記憶されている登録動作内容と一致しているか否かを判断する制御手段と、前記記憶手段に記憶されている登録動作内容を実行する動作実行手段と、前記認識動作内容に関連し、前記文字データとは異なる関連文字データを生成する文字データ生成手段と、前記文字データ生成手段により生成された関連文字データを用いて応答を行う応答手段と、を備え、前記制御手段は、前記文字データにより示される動作内容である認識動作内容が、記憶手段に記憶されている登録動作内容と一致したと判断した場合に、前記動作実行手段に当該登録動作内容を実行させ、前記文字データにより示される動作内容である認識動作内容が、前記記憶手段に記憶されている登録動作内容と一致しないと判断した場合に、前記動作実行手段に登録動作内容を実行させず、前記文字データ生成手段に前記認識動作内容とは意味の繋がらない意外性のある言葉を前記関連文字データとして生成させることを特徴とする
上記の課題を解決するために、請求項13に記載の発明は、予め登録された登録動作内容を記憶する記憶手段を備える音声処理装置における音声処理方法であって、発話された音声を認識し、文字データに変換する音声認識工程と、前記文字データにより示される動作内容である認識動作内容と前記記憶手段に予め記憶されている登録動作内容と一致しているか否かを判断する制御工程と、前記記憶手段に記憶されている登録動作内容を実行する動作実行工程と、前記認識動作内容に関連し、前記文字データとは異なる関連文字データを生成する文字データ生成工程と、前記文字データ生成工程により生成された関連文字データを用いて応答を行う応答工程と、を有し、前記制御工程は、前記文字データにより示される動作内容である認識動作内容が、前記記憶手段に記憶されている登録動作内容と一致したと判断した場合に、前記動作実行工程に当該登録動作内容を実行させ、前記文字データにより示される動作内容である認識動作内容が、前記記憶手段に記憶されている登録動作内容と一致しないと判断した場合に、前記動作実行工程に登録動作内容を実行させず、前記文字データ生成工程に前記認識動作内容とは意味の繋がらない意外性のある言葉を前記関連文字データとして生成させることを特徴とする。
上記課題を解決するために、請求項14に記載の発明は、コンピュータを請求項1乃至請求項12のいずれか一に記載の音声処理装置として機能させる。
上記課題を解決するために、請求項15に記載の発明は、請求項14に記載の音声処理用プログラムが、前記コンピュータにより読取可能に記録されている。
次に、本願の音声処理装置について、図面を用いて具体的に説明する。なお、以下に説明する実施形態は、音響再生機能付きカーナビゲーションシステムに対して本願の音声処理装置を適用した場合の実施の形態である。
(I)実施形態
図1は、本願の音声処理装置の概要構成を示すブロック図である。
図1に示すように、実施形態に係る音声処理装置Vは、マイク1と、A/D変換部2と、音声認識手段としての音声認識部3と、第1動作実行手段、第2動作実行手段としての動作実行部4と、実行処理判断手段及び文字データ生成処理判断手段としての制御部5と、文字データ生成手段としての文字データ生成部6と、解析部7と、記憶手段としてのデータベース8と、第1音声合成手段、第2音声合成手段としての音声合成部9と、D/A変換部10、スピーカ11と、から構成されている。
次に、全体動作を説明する。
上記の構成において、ユーザにより音声が発話された際、マイク1を通して当該音声に対応する音声信号SaがA/D変換部2へ出力される。そして、音声信号Saは、A/D変換部2により、音声データSbに変換されて音声認識部3に出力される。その後、音声データSbの内容が音声認識部3により音声認識されて対応する文字データScに変換され、制御部5に出力される。
その後、制御部5によって、文字データScに示される動作内容である認識動作内容(以下、単に「認識動作内容」と称する場合がある)が予め登録されている登録動作内容(以下、単に「登録動作内容」と称する場合がある)と一致しているか否かが判断される。なお、当該登録動作内容について具体的には、後述する。
ここで、動作内容とは、実施形態に係るカーナビゲーションシステムにより実行可能なナビゲーション処理の内容、例えば、ナビゲーション用の地図表示、経路探索又はその探索結果を用いた経路案内、或いは音響再生機能としてMD(Mini Disc)に記録された音楽の再生処理等をいう。
そして、認識動作内容が登録動作内容と一致している場合には、動作実行部4により、認識動作内容と同内容の登録動作内容を実行する処理(以下、単に「動作実行処理」と称する場合がある)を行う。
また、その登録動作内容を示す文字データScは、音声合成部9に出力され、当該音声合成部9により音声合成されて音声データSdに変換され、D/A変換部10を通って、音声信号Seに変換され、スピーカ11により当該音声信号Seに対応する音声が発話される。
以上の動作により、認識動作内容が登録動作内容と一致している場合には、動作実行部4によりユーザの発話により得られた認識動作内容と同内容の登録動作内容が実行されるため、ユーザの意図した動作が行われることになる。
一方、文字データScに示される動作内容である認識動作内容が登録動作内容と一致しない場合には、当該文字データScが、制御部5から文字データ生成部6に出力される。
ここで、文字データ生成部6は、認識動作内容に関連した動作内容を示す文字データ(以下、「関連文字データ」と称する)を生成するものであって、より具体的には、いわゆる人工無脳としての会話プログラムを動作させることで実現されるものである。
人工無脳とは、一般的な「人工知能」に対峙するものとして用いられる会話プログラムの総称であって、いわゆるボトムアップ的な人工知能としての処理では「人らしさ」に到達するまでに複雑な処理が必要となるため、これとは逆に、トップダウン的に「人らしさ」のモデルを形成することで「人らしさ」を作り出そうとした会話プログラムの総称である。例えばインターネット等の検索エンジンやエキスパートシステムなど、人らしくはないものの役には立つ「人工知能」に対峙して「人工無能」と呼ばれたのがこの語の起源であるが、「無能」の否定的なイメージを嫌われた結果、近年では「人工無脳」という称されるようになったものである。
文字データ生成部6により行われる文字データ生成処理によって生成される関連文字データとは、例えば、認識動作内容が示される文字データの単語キー列(これについては後述する)のいずれかの単語が含まれるもの、読みが同じものが含まれるもの、意味的に似ているもの、意味がつながるもの、ユーザが関連文字データにより発話された言葉を認識した際に、ユーザが発話した音声に基づいて関連文字データが生成されて応答されたということがユーザにわかりやすく理解可能であるもの等をいう。
従って、文字データ生成部6により行われる文字データ生成処理は、ユーザが発話することにより得られた文字データScとは意味の繋がらない意外性のある言葉を関連文字データSgとして生成することもあれば、登録動作内容を意味する文字データScを中心とした言葉を関連文字データSgとして生成することもある。
これにより、ユーザの発話により得られた認識動作内容が、登録動作内容と一致しない場合であっても、音声処理装置Vによってユーザに何らかの応答を行わせることができる。
次に、文字データ生成部6により出力された文字データScの動作内容は、解析部7により品詞分解され、文字データSfに変換され、データベース8に保存される。その後、品詞分解の結果により得られた文字データSfに関連があり且つ登録動作内容を意味する複数の単語キーSiを、データベース8より文字データ生成部6に出力する。文字データ生成部6により単語キーSiを基にして関連文字データSgが生成され、制御部5に出力される。
その後、動作実行部4により、関連文字データSgに示された動作内容、具体的には、上述したような関連文字データSgに示された動作内容、つまり、ユーザが発話することにより得られた文字データScとは意味の繋がらない意外性のある言葉を関連文字データSgとして生成された動作内容又は、登録動作内容を意味する文字データScを中心とした言葉を関連文字データSgとして生成された動作内容等が実行される。
また、文字データSgは、音声合成部9に出力されて音声合成され、音声データSkに変換され、D/A変換部10により音声信号Slに変換され、スピーカ11により当該音声信号Slに対応する音声が発話される。
この動作により、ユーザの発話により得られた認識動作内容が、登録動作内容と一致しない場合であっても、文字データ生成部6により関連文字データSgを生成し、音声処理装置Vによってユーザに何らかの応答を行わせることにより、ユーザが予め登録されている定型文を話さなくても自由な表現を用いて対話が可能であり、また、音声処理装置Vが無反応状態となることを回避することができ、音声操作への抵抗感、拒否感を軽減できる。
次に、音声処理装置の音声処理について、具体的に図2乃至図4を用いて説明する。
先ず、図2は、音声処理装置の音声処理の全体について示したフローチャートである。
実施形態に係る音声処理としては、最初に、ユーザから発話された音声を音声認識部によって音声認識し、文字データScに変換する(ステップS21)。
そして、文字データScに示される動作内容である認識動作内容が登録動作内容と一致しているか否かを判断する(ステップS22)。
ここで、ステップS22に関し、登録動作内容の例について表1を用いて説明する。
Figure 0004718163
当該登録動作内容としては、例えば表1に示すように、「MD再生」、「ナビ画面表示」、「次の曲を再生」、「前の曲を再生」又は「渋滞情報確認」等の、動作実行部4において実行可能な実施形態に係るナビゲーションシステムとしての具体的な動作内容が、予め登録されている。そして、ステップS22では、これらの登録動作内容と認識動作内容とが一致しているか否かを判断する。
文字データScにより示された動作内容である認識動作内容が登録動作内容と一致しない場合(ステップS22;NO)には、次に、上記登録動作内容の一部になり得るものとしてデータベース8内に予め登録されている部分的な動作又はその動作に付属する内容である部分内容(以下、単に「部分内容」とする)を認識動作内容が含むか否かを判断する(ステップS23)。
ここで、ステップS23についての部分内容の例について表2を用いて説明する。
Figure 0004718163
ステップS23についての部分内容としては、例えば表2左に示すように、「MD」、「ナビ」、「次」、「前」、「天気」等が、予め登録されている。
そして、上記ステップS23においては、例えば、ユーザにより「最近天気が悪いね」という音声が発話された場合、ユーザにより発話された音声から得られた文字データScの内容が解析部7により解析され、その解析結果としての内容がステップS23の処理としての部分内容のいずれかに合致しているか否かが判断される。例えば、表2に示す部分内容である「天気」が、認識動作内容に含まれている場合には、認識動作内容が部分内容を含む(すなわち、文字データScにより示された動作内容の一部がステップS23としての部分内容と一致している)と判断される(ステップS23;YES)。同様に、ユーザにより「今日は新しいMDを買った」という音声が発話された場合、表2に示す部分内容である「MD」が、認識動作内容に含まれているので、ステップS23についての部分内容を含むと判断される(ステップS23;YES)。
一方、S23の判定において、部分内容を全く含まない場合(ステップS23;NO)、具体的には、表2に示すような部分内容が、認識動作内容の中に一つもない場合には、文字データ生成部6により、認識動作内容に関連する動作内容を意味する関連文字データを生成する(ステップS28)。この関連文字データSgの生成処理の詳細については、後述する。
次に、上記ステップS23の判定において、認識動作内容が部分内容を含む場合(ステップS23;YES)には、部分内容に対応する登録動作内容を実行する処理としての動作実行処理を行うか否かが判断される(ステップS24)。具体的には、上述したように、ユーザにより発話された「MD」という認識動作内容が部分内容を含む場合、当該部分内容に基づき対応する動作実行処理を行うか否かを判断する。
ここで、ステップS24において、動作実行処理を行うか否かを判断する基準を表3に例示しつつ説明する。
Figure 0004718163
当該動作実行処理を行うかの判断基準としては、例えば、表3に示すように、ユーザが走行中であるか否か、又は他の操作の最中であるか否か等が判断要素となる。更に具体的には、ユーザが車を運転中である場合に、人工無脳としての文字データ生成部6により関連文字データSgを生成して応答した結果、それに伴って、例えば急激な音量変化又は強制的なルート変更等が発生した場合、車を運転中であるユーザを驚かせてしまう可能性がある。このような車走行中のユーザを驚かせる可能性があるような応答は回避する必要があるため、ユーザが車を運転中である場合には文字データ生成処理を行わないことが適切であると考えられる。よって、このような可能性がある場合は、人工無脳の機能を用いずに動作実行処理を行うと判断される(ステップS24;YES)。
一方、ステップS24の判定により、動作実行処理を行なわないと判断した場合(ステップS24;NO)には、文字データ生成部6としての人工無脳の機能を用いて関連文字データSgを生成すべく、後述するステップS28の処理に移行する。
次に、ステップS24の判定において、動作実行処理を行うと判断された場合(ステップS24;YES)、上述した表2に示す動作実行処理(部分内容に対応するものとしての動作実行処理)が行われる(ステップS25)。すなわち、具体的には、表2の左側の部分内容に対応する登録動作内容として表2の右側に夫々示された動作内容を動作実行処理により行う。例えば、表2左側の「MD」に対応する場合はその右側にある「MDを再生する」を動作実行部4において実行し、「ナビ」に対応する場合はその右側にある「ナビの画面を表示する」を動作実行部4において実行し、「次」に対応する場合はその右側にある「次の曲を再生する」を動作実行部4において実行し、「前」に対応する「前の曲を再生する」、「天気」に対応する場合はその右側にある「天気予測画面を表示する」を動作実行部4において実行することになる。ここで、上述したように、「MD」に対応する登録動作内容として、「MDを再生する」を選択した場合について示したが、表2に示した登録動作内容の他にも、「MD」に対応する登録内容として、例えば、「MDを録音する」、「MDを停止する」等が登録されている場合には、これらの登録動作内容のうちどれを実行するかが選択された後に、その動作内容が実行されるため、この場合の動作実行処理は、部分内容に対応する登録内容のうちから動作実行内容を選択し、その動作実行内容を実行する処理が含まれることになる。
次に、以下に示す基準により、文字データ生成部による処理である文字データ生成処理を行うか否かが判断される(ステップS26)。
ここで、ステップS26に関し、文字データ生成処理を行うか否かを判断する基準について表4を用いて説明する。
Figure 0004718163
表4に示すように、ステップS26の判定において文字データ生成処理を行うか否かを判断する基準として、例えば、MD再生等がなされた場合には、音楽が出力されればMDが再生されるという動作が行われたことがわかるので、このような場合には、動作内容を音声で確認するまでもない。また、例えばMDの再生、停止、音量調節等の頻度の高い動作がなされた場合であって、この動作内容が行われた際に「MDを再生しました」、「MDを停止しました」等を何度も言われたく無い場合も、動作内容を音声で確認しないことが望まれる。よって、このような場合には、文字データ生成処理を行う(ステップS26;YES)。
そして、文字データ生成処理が適切とされた場合は、関連文字データSgを生成する。この場合の文字データ生成処理では、ユーザが発話することにより得られた文字データScとは意味の繋がらない意外性のある言葉を関連文字データSgとして生成することもあれば、登録動作内容を意味する文字データを中心とした言葉を関連文字データSgとして生成することもある(ステップS28)。例えば、登録動作内容を意味する文字データが「MD再生」だとすると、「MD聴きたいけど、いいMDが無いな。」等がある。さらに、ユーザにより発話された「自宅へ帰る」という文言が部分内容を含むものであっても、その部分内容に対応する動作を行わず、会話の面白さに重点が置かれる場合には、文字データ生成処理により、「嫌だ」の様な文言を示す関連文字データSgが生成される(ステップS28)。
なお、上述した関連文字データSgを生成する文字データ生成処理(ステップS28)と並行して、カーナビゲーションシステムとしての正規の動作(すなわち、ユーザが発話したことにより得られた文字データScに対する動作(例えば、自宅へ帰るという指示に対応する動作としての、自宅までの地図表示処理等))は、上述したステップS25の段階で完了しており、上記ステップS28による処理は、あくまで会話を楽しむためのものとして文字データ生成処理により生成された関連文字データSgを使うものである。
次に、文字データ生成処理によって生成された関連文字データSgは、音声合成部9により音声合成処理、つまり、関連文字データSgを音声データSkに変換する処理が行われ、音声として上記のように、ユーザへスピーカ11を通して応答出力されることとなる(ステップS29、S30)。例えば、「渋滞情報確認」という登録動作内容を意味する文字データがあった場合には、動作では、カーナビゲーション等の画面に、渋滞情報が表示され、音声によっては「東北道で5キロの渋滞です。」等の対応がなされる。
一方、ステップS26の判定において、上述した判断基準として、例えば走行中のユーザを驚かせる可能性があるような応答を回避して危険を招くことを防ぐべく、会話の面白さよりも処理結果を正しくユーザに伝えることが優先される場合(ステップS26;NO)には、先程なされた(ステップS25)登録動作内容に対応する音声による応答処理が、音声合成部9により行われ、音声としてスピーカ11を介して応答出力されることとなる(ステップS29、S30)。よって、この場合には、ステップS25の動作実行処理によりなされた動作と、ステップS27により行われる後に音声とされる音声対応処理と、が、共に文字データ生成処理を伴わず、動作実行処理を用いて行われることになる。
他方、ステップS23又はステップS24の判断がNOとされた場合(すなわち、認識動作内容が登録動作内容の一部さえも含まない(ステップS23;NO)場合、又は認識動作内容は登録動作内容の一部は含むが車の運行上人工無脳を用いる処理は実行しない(ステップS24;NO)場合)、ステップS28の処理に移行することになるが、この場合には動作実行処理(ステップS25)が実行されないため、上述した場合と同様に、動作対応も、音声対応も、全て文字データ生成部6により生成された関連文字データSgにより応答がなされることになる。
次に、ステップS22において、認識動作内容が登録動作内容を意味する文字データScと一致していると判断された場合には(ステップS22;YES)、文字データScの動作内容を実行する(ステップS31)。ここで実行される動作内容は、上述したように、認識動作内容と同内容の登録動作内容であり、登録動作内容に示された内容を実行するものである。
次に、上述したステップS26以降の動作として、まず、文字データ生成処理を行うか否かが判断される。すなわち、上述したように、ユーザが発話したことにより得られた文字データScに対する動作と同内容の動作実行処理により登録動作内容が実行され、更に文字データ生成処理により生成された関連文字データSgによる応答が行われることが適切な場合(ステップS26;YES)には、文字データ生成処理が行われ(ステップS28)、処理結果を正しくユーザに伝えることが優先される場合(ステップS26;NO)には、先程なされた動作内容と共に、音声による対応も登録動作内容を意味する文字データによる応答が行われる場合とが判断され、その判断に応じて、音声による対応が音声合成処理により行われる(ステップS29、S30)。
次に、図2のステップS28における処理(文字データ生成処理による関連文字データSgの生成処理)について、具体的に図3を用いて説明する。なお、図3は、本願に用いられる文字データ生成処理による関連文字データ生成処理を示すフローチャートである。
まず、文字データ生成処理により関連文字データSgを生成する前提として、関連文字データSgの生成に使用される「単語キー」をデータベース8に登録しておく。
ここで、単語キーとは、図1で説明したように、認識動作内容を品詞分解した結果により得られた文字データSfに関連があり且つ登録動作内容を意味するものをいう。例えば、「こんにちは」を単語キーSiとして登録する。具体的には表5を用いて説明する。
Figure 0004718163
表5に示すように、第1の単語キーSiとして、出現形である「こんにちは」と登録すると共に、当該出現形の読み「コンニチハ」、原形「こんにちは」、原形の読み「コンニチハ」、品詞「感動詞」等の単語キーを登録しておく。同様に、第2の単語キーSiとして、出現形である「初め」と登録し、出現形の読み「ハジメ」、原形「初め」、原形の読み「ハジメ」、品詞「名詞」等のデータを登録しておく。このように、第3の単語キーSiに「まして」、第4の単語キーSiに「お年玉」といった単語キーSiを登録する。ここで、単語キーSiは自ら登録してもよいし、予めデータベース8に登録されているものを関連文字データ生成に使用してもよい。
ここで、表5に示されているカウンタは、ユーザが単語キーSiを使用する際にカウントされるものである。カウンタの数が多いほど、ユーザによって使用された頻度が高いことを示しているため、この情報を基に関連文字データSgの生成に使われる確立が高くなる。
更に、具体的には表6を用いて説明する。
Figure 0004718163
表6は、上記表5で登録された単語キーSiがユーザによってどの程度の頻度でテーマとして使われたかを登録するため、かつてユーザが使用した単語キーの中から、名詞、動詞、感動詞を抜き出してそれぞれの単語キーSiが、テーマとして使われた順番と、単語キーを使用した時間(グリニッジ標準時からの経過時間)と共に登録される。
これにより、テーマ番号が大きく、取得時間が現在の時間と近いものがユーザにより最近使用されたものであることがわかるため、今後関連文字データを生成する際にテーマとなる確率が高くなる。
次に、データベース8に登録されている単語キーSiを用いて、関連文字データ生成処理による関連文字データ生成について説明する。
図3に示すように、ユーザにより音声が発話された後、音声処理装置Vが確率的に返答するか否かが設定される(ステップS41)。次に、ユーザにより設定された結果が返答するか否かを判断する(ステップS42)。設定結果が返答しないとされた場合(ステップS42;NO)には、操作を終了する(ステップS43)。設定結果が返答するとされた場合(ステップS42;YES)には、次に、ユーザにより関連文字データ生成に用いるテーマが設定され、これにより関連文字データ生成に用いるテーマを取得する(ステップS44)。このテーマに従い、後に関連文字データSgの生成が行われる。
ここでのテーマは、上述したような名詞、動詞、感動詞等である。この単語を用いてその単語を元に関連文字データSgを生成する。上述したように、データベース8に登録しておいた単語キーSiのうちから、返答の際に関連文字データSgを生成するためのテーマを設定する。
その後、ユーザにより発話された音声を認識してから、音声処理装置Vによる返答がどのくらいの時間で行われるかの返答時間が記録される(ステップS45)。次に、テーマ選択を行う(ステップS46)。この際、テーマの単語と同じ読みのテーマを探して、ランダムに選択する。その後、単語キー列の取得を行う(ステップS47)。
ここで、具体的には表7を用いて説明する。
Figure 0004718163
表7は、表5に登録された単語キーSiに対する番号がそれぞれ第1単語、第2単語、第3単語の順で並んでおり、それを組み合わせて文字データとして表されることになる。
表7に示すように、第1単語に0がある並びはそこが第1の節となる。逆に、第3単語に0がある並びはそこが終わりの節となる。単語キーの並び1は、0−1−0の順で並べられているので、「こんにちは」という文字列になる。さらに単語キーの並び2は、0−2−3であるので、「初めまして」という文字列になる。
関連文字データSgを生成する上でのテーマが表5の「8 正月」(上記テーマデータの4、もしくは5がテーマとして決定されたとき)である場合、第2単語が「8」のデータを呼び出す。つまり、表7に示すように、単語キーの並びが「7−8−9」である単語キー列を呼び出す。
次に、繋がった関連文字データを生成していく際に、単語キー列の前に繋がる単語キーSiがあるかを判断する(ステップS48)。単語キー列の前に繋がる単語キーSiがある場合(ステップS48;YES)には、単語キー列の前に単語キーSiを付加する(ステップS49)。単語キー列が「7−8−9」の時に、「0−7−8」と繋がって、「0−7−8−9」となる。0が並びの初めにくるまで、単語キー列の前に繋がる単語キーSiがある場合には(ステップS48;YES)、単語キー列の前に単語キーSiを付加する(ステップS49)という動作が続けられる。0が並びの初めにきたら、この動作を終了し、次に、単語キー列の後に繋がる単語キーSiがあるかが判断される(ステップS50)。
単語キー列の前に繋がる単語キーSiがない場合には(ステップS48;NO)、続いて、単語キー列の後に繋がる単語キーSiがあるかが判断される(ステップS50)。
次に、単語キー列の後に繋がる単語キーSiがない場合には(ステップS50;NO)、続いて、単語キー列を文字列に変換する(ステップS52)。
単語キー列の後に繋がる単語キーSiがある場合には(ステップS50;YES)、単語キー列の前に単語キーSiを付加する(ステップS51)。単語キー列が「0−7−8−9」の時に、「8−9−10」と繋がって、「0−7−8−9−10」となる。同様にして、0が並びの終わりにくるまで、単語キー列の前に繋がる単語キーSiがある場合には(ステップS48;YES)、単語キー列の前に単語キーSiを付加する(ステップS49)という動作が続けられる。0が並びの終わりにきたら、この動作を終了し、次に、単語キー列を文字列に変換する(ステップS52)。
単語キーの並び「0−7−8−9−10−0」が決定されると、それに基づいた単語の出現形を割り当てる。
0は、始まりと終わりの記号として考えられ、実際単語は割り当てられてないため、表5により、7、8、9、10に相当するそれぞれの単語を割り出し、「そろそろ-正月-だ-な」という言葉が生成される。
このように、テーマとなった言葉を中心にそれと異なる3単語をデータベース8から検索し、それをつなぎあわせて文字データを生成する。
データベース8に登録されている3単語のつながりが自然であればあるほど、出力される文は人間にとって意味をなしたものとなる。
上述したように、ユーザの発話により得られた認識動作内容が、登録動作内容と一致しない場合であっても、文字データ生成部6により関連文字データSgを生成し、音声処理装置Vによってユーザに何らかの応答を行わせることが可能であるが、関連文字データSgの生成に用いられる単語キーSiを更新できなければ、関連文字データ生成を行う際に用いられる単語キーSiの新鮮味が保たれなくなり、会話の面白さが半減してしまう。
よって、文字データ生成処理により、新鮮味のあり、面白い関連文字データが生成されるため、関連文字データSgの生成に使用される単語キーSiが更新される。
以下に、図4を用いて、本願に用いられるデータベース8に保存されている単語キーSiが更新される手法について説明する。なお、図4は、本願に用いられるデータベースに保存されている文字データが更新される際のフローチャートである。
データベース8を更新する場合には、まず、ユーザにより発話されたことにより得られた文字データを解析部により解析して、品詞分解し、単語に区切る(ステップS61)。表7に示したように、単語キーSiが、3単語の並びがあるか否かを判断する(ステップS62)。3単語の並びが無い場合(ステップS62;NO)には、登録しない(ステップS66)。3単語の並びがある場合(ステップS62;YES)には、次に、データベースに登録されている並びか否かの判断する(ステップS63)。
データベース8に登録されている並びである場合(ステップS63;YES)には、改めて登録する必要がないので、登録しない(ステップS66)。データベース8に登録されていない並び場合(ステップS63;NO)には、単語データ、単語並びデータを登録するかを判断する(ステップS64)。そして、登録しない場合(ステップS64;NO)には、登録されず(ステップS66)、登録する場合(ステップS64;YES)には、名詞、動詞、感動詞等の単語キーSi又は、単語キーの並びを登録する(ステップS65)。
このようにして、関連文字データSgの生成に用いられるために、データベース8に保存されている文字データを更新することができるので、関連文字データ生成を行う際に用いられる文字データの新鮮味が保たれることになる。
なお、ネットワークを使ってデータベース8を更新することも考えられる。
上述したように、ユーザが音声処理装置に登録されている定型文を発話しなくても、文字データ生成手段により、ユーザによって発話された単語を基に、又は時にそれを無視し、ランダム性のある文が作成されるので、定型文を話さなくても自由な表現を用いて対話が可能である。
よって、会話はいつも違った結果を生ずるので多様性があり、何が出るかわからない言葉のキャッチボールとして会話を楽しむことができ、飽きさせない音声装置を実現することができる。
また、ユーザが音声処理装置に登録されていない単語を発話した場合であっても、文字データ生成し応答するため、ユーザがどんな言葉を発話しても、受け答えをしてくれるため、無反応という事態を無くし、音声操作への抵抗感、拒否感を軽減できる。
ざらに、音声が誤認識された場合であっても、会話としての面白さを重視すれば、なんらかの応答はされるので、無反応という状態を回避できる。
なお上述した実施形態につき、認識動作内容が登録動作内容と一致する場合、又は一致しない場合のいずれであっても会話としての面白さに重点が置かれる場合には、動作対応も音声対話も両者とも文字データ生成処理を行うこととしてもよい。この場合は、はじめから文字データと登録動作内容を意味する文字データと一致しているか否かの判断を行わないことになる。
さらに、上述した実施形態は動作による対応が先になされ、音声による対応がその後なされるという形態を示したが、音声による対応が先であってもよい。
なお、上述した実施形態は、ユーザが発話した音声が正しく認識された場合を前提としているものであるが、仮に、音声が認識されて文字データに変換される際に既に誤認識されていた場合であっても本発明を有効に利用することができる。
ここで、誤認識とは、認識動作内容が登録動作内容と一致するか否かを判断する場合や、認識動作内容が部分内容を含有するか否かを判断する場合に、正しく判断されなかった場合をいう。例えば、認識動作内容と登録動作内容が一致する場合に、認識動作内容と登録動作内容が一致しない(S22;No)と判断された場合や、認識動作内容が登録動作内容と一致していないが、認識動作内容に部分内容を含んでいる場合に、認識動作内容が登録動作内容と一致せず、認識動作内容に部分内容を含まない(S22;No→S23;No)と判断された場合、更には、登録動作内容と部分内容を共に含まない場合に、登録動作内容と一致はしないが、部分内容は含む(S22;No→S23;Yes)と判断された場合等が考えられる。誤認識がなされた場合には、ユーザの真に意図した応答がなされない場合もあるが、このような場合であっても会話としての面白さを重視すれば、誤認識文字データにより動作実行処理又は文字データ生成処理によって何らかの応答がなされることとなるため、無反応という状態を回避できる。
更に、上記の様に、会話を楽しむためにあえて誤認識させる場合、例えば1分間に10回誤認識が実行されると、その後は正しい認識をし、それに基づいて文字データ生成処理が行われるようにする等の設定をすることも可能である。
上述したように、音声処理装置、音声処理方法、音声処理用プログラム、記録媒体について説明したが、音声のみならず、映像、音の組み合わせにも同様に対応することができる。
例えば、上述した実施形態では、ユーザにより発話された音声に対する音声処理装置の応答を示してきたが、ユーザにより発話された音声に対して映像を用いた処理装置による応答処理についても応用が可能である。その場合には上述した、図2のS28〜S30は、映像を用いた処理がなされることになる。
更に、これらの変形形態として、映像を用いた処理装置による応答処理について説明する。
(II)変形形態
上述した実施形態では、ユーザから入力された音声の内容を認識動作内容として用いたのに対し、以下の変形形態では、ユーザの動きを映像として捉えその内容を認識した結果を認識動作内容として用いる。
より具体的には、先ず、ユーザの動きをカメラで認識し、その動きをデータとして取得し、同様の動きをするデータをデータベースから検索し、その読み出したデータを人工無脳機能を用いて組み合わせて新たな動きを生成し、それを図示しない表示部において表示する。この場合、時には完全に動きを真似する動作になることもあるが、人工無脳の活用時には元々画一的な動作を期待しないなので、ユーザがどのような動きをしても色々な反応を画像表示して応答することが可能である。
更に、図1に示すフローチャートに対応するプログラムをフレキシブルディスク又はハードディスク等の記録媒体に記録しておき、或いはインターネット等のネットワークを介して取得して記録しておき、これをマイクロコンピュータ等により読み出して実行することにより、当該マイクロコンピュータを各実施形態に係る制御部として機能させることも可能である。
なお、本願の音声処理装置、音声処理方法、音声処理用プログラム、記録媒体は、上記実施の形態に限定されるものではなく、テレビ、オーディオシステム等に搭載したり、自由な言葉に応答する音声装置等にも本願発明を用いることができる。
本願の音声処理装置の概要構成を示すブロック図である。 本願の音声処理装置の音声処理の全体を示すフローチャートである。 本願に用いられる文字データ生成処理による関連文字データ生成を示すフローチャートである。 本願に用いられるデータベースに保存されている文字データが更新される際のフローチャートである。
符号の説明
1・・・マイク
2・・・A/D変換部
3・・・音声認識部
4・・・動作実行部
5・・・制御部
6・・・文字データ生成部
7・・・解析部
8・・・データベース
9・・・音声合成部
10・・・D/A変換部
11・・・スピーカ

Claims (15)

  1. 発話された音声を認識し、文字データに変換する音声認識手段と、
    予め登録された登録動作内容を記憶する記憶手段と、
    前記文字データにより示される動作内容である認識動作内容と前記記憶手段に記憶されている登録動作内容と一致しているか否かを判断する制御手段と、
    前記記憶手段に記憶されている登録動作内容を実行する動作実行手段と、
    前記認識動作内容に関連し、前記文字データとは異なる関連文字データを生成する文字データ生成手段と、
    前記文字データ生成手段により生成された関連文字データを用いて応答を行う応答手段と、
    を備え、
    前記制御手段は、前記文字データにより示される動作内容である認識動作内容が、前記記憶手段に記憶されている登録動作内容と一致したと判断した場合に、前記動作実行手段に当該登録動作内容を実行させ、前記文字データにより示される動作内容である認識動作内容が、前記記憶手段に記憶されている登録動作内容と一致しないと判断した場合に、前記動作実行手段に登録動作内容を実行させず、前記文字データ生成手段に前記認識動作内容とは意味の繋がらない意外性のある言葉を前記関連文字データとして生成させることを特徴とする音声処理装置。
  2. 請求項1に記載の音声処理装置であって、
    前記文字データ生成手段は、前記認識動作内容が前記登録動作内容と一致せず、且つ、前記登録動作内容の一部になり得るものとして前記記憶手段に記憶されている部分内容のいずれかを前記認識動作内容が含まない場合に、前記関連文字データを生成することを特徴とする音声処理装置。
  3. 請求項2に記載の音声処理装置であって、
    前記認識動作内容が前記登録動作内容と一致せず、且つ、前記認識動作内容が前記部分内容を含む場合に、前記部分内容に対応する前記登録動作内容を実行するか否かを更に判断する実行処理判断手段を更に備え、
    前記文字データ生成手段は、前記実行処理判断手段により前記部分内容に対応する前記登録動作内容を実行しないと判断された場合に、前記関連文字データを生成することを特徴とする音声処理装置。
  4. 請求項3に記載の音声処理装置であって、
    前記実行処理判断手段により前記部分内容に対応する前記登録動作内容を実行すると判断された場合に、当該登録動作内容を実行する第1動作実行手段を更に備えることを特徴とする音声処理装置。
  5. 請求項4に記載の音声処理装置であって、
    前記文字データ生成手段は、前記第1動作実行手段が前記部分内容に対応する前記登録動作内容を実行する場合に、前記関連文字データを生成することを特徴とする音声処理装置。
  6. 請求項1乃至請求項5のいずれか一に記載の音声処理装置であって、
    前記文字データ生成手段により生成された前記関連文字データを音声データに変換し、対応する音声を発する第1音声合成手段を更に備えることを特徴とする音声処理装置。
  7. 請求項4乃至請求項6のいずれか一に記載の音声処理装置であって、
    前記第1動作実行手段は、前記文字データ生成手段により生成された前記関連文字データの動作内容を実行することを特徴とする音声処理装置。
  8. 請求項1乃至請求項7のいずれか一に記載の音声処理装置であって、
    前記認識動作内容が前記登録動作内容と一致している場合に、当該登録動作内容を実行する第2動作実行手段を更に備えることを特徴とする音声処理装置。
  9. 請求項8に記載の音声処理装置であって、
    前記文字データ生成手段は、前記第2動作実行手段が前記登録動作内容を実行する場合に、前記関連文字データを生成することを特徴とする音声処理装置。
  10. 請求項8に記載の音声処理装置であって、
    前記文字データ生成手段は、前記第2動作実行手段が前記登録動作内容を実行する場合に、前記登録動作内容に関連する登録動作文字データを生成することを特徴とする音声処理装置。
  11. 請求項8乃至請求項10のいずれか一に記載の音声処理装置であって、
    前記第2動作実行手段により実行される動作内容を示す文字データを音声データに変換し、対応する音声を発する第2音声合成手段を更に備えることを特徴とする音声処理装置。
  12. 請求項8乃至請求項11のいずれか一に記載の音声処理装置であって、
    前記第2動作実行手段は、前記文字データ生成手段により生成された前記関連文字データの動作内容を実行することを特徴とする音声処理装置。
  13. 予め登録された登録動作内容を記憶する記憶手段を備える音声処理装置における音声処理方法であって、
    発話された音声を認識し、文字データに変換する音声認識工程と、
    前記文字データにより示される動作内容である認識動作内容と前記記憶手段に予め記憶されている登録動作内容と一致しているか否かを判断する制御工程と、
    前記記憶手段に記憶されている登録動作内容を実行する動作実行工程と、
    前記認識動作内容に関連し、前記文字データとは異なる関連文字データを生成する文字データ生成工程と、
    前記文字データ生成工程により生成された関連文字データを用いて応答を行う応答工程と、
    を有し、
    前記制御工程は、前記文字データにより示される動作内容である認識動作内容が、前記記憶手段に記憶されている登録動作内容と一致したと判断した場合に、前記動作実行工程に当該登録動作内容を実行させ、前記文字データにより示される動作内容である認識動作内容が、前記記憶手段に記憶されている登録動作内容と一致しないと判断した場合に、前記動作実行工程に登録動作内容を実行させず、前記文字データ生成工程に前記認識動作内容とは意味の繋がらない意外性のある言葉を前記関連文字データとして生成させることを特徴とする音声処理方法。
  14. コンピュータを請求項1乃至請求項12のいずれか一に記載の音声処理装置として機能させることを特徴とする音声処理用プログラム。
  15. 請求項14に記載の音声処理用プログラムが、前記コンピュータにより読取可能に記録されていることを特徴とする情報記録媒体。
JP2004336484A 2004-11-19 2004-11-19 音声処理装置、音声処理方法、音声処理用プログラム及び記録媒体 Expired - Fee Related JP4718163B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004336484A JP4718163B2 (ja) 2004-11-19 2004-11-19 音声処理装置、音声処理方法、音声処理用プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004336484A JP4718163B2 (ja) 2004-11-19 2004-11-19 音声処理装置、音声処理方法、音声処理用プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2006145891A JP2006145891A (ja) 2006-06-08
JP4718163B2 true JP4718163B2 (ja) 2011-07-06

Family

ID=36625654

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004336484A Expired - Fee Related JP4718163B2 (ja) 2004-11-19 2004-11-19 音声処理装置、音声処理方法、音声処理用プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP4718163B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107293292A (zh) * 2016-03-31 2017-10-24 深圳光启合众科技有限公司 基于云端的设备及其操作方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001216326A (ja) * 2000-01-31 2001-08-10 Sony Corp 情報処理装置及び方法並びに記録媒体
JP2002287793A (ja) * 2001-03-28 2002-10-04 Just Syst Corp コマンド処理装置、コマンド処理方法、及びコマンド処理プログラム
JP2003084791A (ja) * 2001-09-07 2003-03-19 Olympus Optical Co Ltd 音声制御システム
JP2004021937A (ja) * 2002-06-20 2004-01-22 P To Pa:Kk 商品排出装置、商品排出制御方法及びプログラム
JP2004287016A (ja) * 2003-03-20 2004-10-14 Sony Corp 音声対話装置及び方法並びにロボット装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11119792A (ja) * 1997-10-20 1999-04-30 Toyota Motor Corp 音声認識機能付き機器制御装置および音声認識装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001216326A (ja) * 2000-01-31 2001-08-10 Sony Corp 情報処理装置及び方法並びに記録媒体
JP2002287793A (ja) * 2001-03-28 2002-10-04 Just Syst Corp コマンド処理装置、コマンド処理方法、及びコマンド処理プログラム
JP2003084791A (ja) * 2001-09-07 2003-03-19 Olympus Optical Co Ltd 音声制御システム
JP2004021937A (ja) * 2002-06-20 2004-01-22 P To Pa:Kk 商品排出装置、商品排出制御方法及びプログラム
JP2004287016A (ja) * 2003-03-20 2004-10-14 Sony Corp 音声対話装置及び方法並びにロボット装置

Also Published As

Publication number Publication date
JP2006145891A (ja) 2006-06-08

Similar Documents

Publication Publication Date Title
JP6463825B2 (ja) 多重話者音声認識修正システム
US10074369B2 (en) Voice-based communications
US11170776B1 (en) Speech-processing system
JP3984207B2 (ja) 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム
JP4260788B2 (ja) 音声認識機器制御装置
US9640175B2 (en) Pronunciation learning from user correction
US11538478B2 (en) Multiple virtual assistants
JP5459680B2 (ja) 音声処理システム及び方法
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JP2006098993A (ja) 音声処理装置およびそのためのコンピュータプログラム
WO2007118020A2 (en) Method and system for managing pronunciation dictionaries in a speech application
JP2006201749A (ja) 音声による選択装置、及び選択方法
JP2003022087A (ja) 音声認識方法
JP2004109323A (ja) 音声対話装置及びプログラム
JP2005342862A (ja) ロボット
JP2000347681A (ja) テキスト・ベースの音声合成を利用した音声制御システム用の再生方法
WO2018045154A1 (en) Voice-based communications
JP5257680B2 (ja) 音声認識装置
JP2008287193A (ja) 音声対話装置
Cheng et al. A wizard of Oz framework for collecting spoken human-computer dialogs
CN116312471A (zh) 语音迁移、语音交互方法、装置、电子设备及存储介质
JP4718163B2 (ja) 音声処理装置、音声処理方法、音声処理用プログラム及び記録媒体
US11763809B1 (en) Access to multiple virtual assistants
JP2009116075A (ja) 音声認識装置
US10854196B1 (en) Functional prerequisites and acknowledgments

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071012

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110329

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110331

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140408

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees