JP2004226881A - 会話システム及び会話処理プログラム - Google Patents
会話システム及び会話処理プログラム Download PDFInfo
- Publication number
- JP2004226881A JP2004226881A JP2003017179A JP2003017179A JP2004226881A JP 2004226881 A JP2004226881 A JP 2004226881A JP 2003017179 A JP2003017179 A JP 2003017179A JP 2003017179 A JP2003017179 A JP 2003017179A JP 2004226881 A JP2004226881 A JP 2004226881A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- user
- conversation
- information
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】ユーザの発言意図を正しく解釈して会話として適切な対応を取ることのできる会話システムを提供する。
【解決手段】音声入力部12を通じて入力されたユーザの発言はA/D変換部13にてA/D変換されてCPU11に与えられる。CPU11はそのユーザの発言を音声認識すると共に音量抽出またはピッチ抽出し、これらの情報をワークメモリ16に保持しておく。そして、例えば各語句のピッチ情報に基づいて、音声認識情報(文字情報)の中から音量の最も大きい語句をキーワードとして適切な語句として選択し、その語句を用いてユーザの発言に対する返事としての発言を作成する。この発言はD/A変換部15を介して音声出力部14から出力される。このように、ユーザ発言に含まれる各語句の音量情報またはピッチ情報に基づいてユーザの発言を解析することで、ユーザの発言意図を正しく解釈して、そのユーザの発言意図に合った返事を返すことができる。
【選択図】 図1
【解決手段】音声入力部12を通じて入力されたユーザの発言はA/D変換部13にてA/D変換されてCPU11に与えられる。CPU11はそのユーザの発言を音声認識すると共に音量抽出またはピッチ抽出し、これらの情報をワークメモリ16に保持しておく。そして、例えば各語句のピッチ情報に基づいて、音声認識情報(文字情報)の中から音量の最も大きい語句をキーワードとして適切な語句として選択し、その語句を用いてユーザの発言に対する返事としての発言を作成する。この発言はD/A変換部15を介して音声出力部14から出力される。このように、ユーザ発言に含まれる各語句の音量情報またはピッチ情報に基づいてユーザの発言を解析することで、ユーザの発言意図を正しく解釈して、そのユーザの発言意図に合った返事を返すことができる。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、会話型ロボット等の玩具類やテレビゲーム機などに用いられる会話システムであって、ユーザがコンピュータを相手に会話することで楽しみや安らぎなどを得ることのできる会話システム及び会話処理プログラムに関する。
【0002】
【従来の技術】
従来、テレビゲーム機や玩具等に用いられる会話システムの多くは、通常、予め決められたシナリオに沿って会話を行う方式(以下、「シナリオ方式」と呼ぶ)を採用している(例えば特許文献1参照)。
【0003】
この「シナリオ方式」で用いられるシナリオは、実現性を考慮して、会話システムがまず話題を限定するような発言を行い、その後の会話の進展も、分岐が極力少なくなるように作られている。このため、人間(ユーザ)が会話の主導権をとれず、会話の流れが平凡だったり、不自然だったりするなどの欠点がある。そこで、ユーザの発言を音声認識により文字情報に変換し、その文字情報から返事を作り出すための情報を得て発言することが考えられている。
【0004】
その1つの方法として、例えば音声認識結果として得られた文字情報から2文字以上の漢字やカタカナからなる語句をキーワードとして抽出し、そのキーワードを利用してユーザに発言するものがある。しかしながら、このキーワードによる方法では、ユーザの発言の中に複数のキーワードが含まれていた場合に、最も適切なキーワード(つまり、ユーザの発言意図を最も反映したキーワード)をどうやって選択するのかといった問題がある。
【0005】
すなわち、例えば、「彼は野球部のキャプテンだ」といった発言をユーザがしたとすると、その中には「野球部」と「キャプテン」といった2つのキーワードが含まれる。しかし、ユーザの発言を音声認識して得られた文字情報からだけでは、ユーザの発言意図が「野球部」にあったのか「キャプテン」にあったのか判らないない。
【0006】
また、ユーザの発言をフィードバックして発言する方法がある。これは、例えば「彼は野球部のキャプテンだ」といったユーザの発言に対し、「そうですか。キャプテンなんですか」といったように発言する方法である。しかしながら、自然な会話においては、例えばケーキがおいしいかどうかを質問するような場合に、文末のピッチを上げて(尻上がりに)「このケーキおいしい」などと言うことがある。これを音声認識すると、単に「このケーキおいしい」となるので、文章を見る限りでは疑問文かどうかは判らない。このため、ユーザの発言をそのままフィードバックしてしまうと、「そうですか。おいしいのですか」などと的外れな返事をしてしまうことになる。
【0007】
また、通常は否定の意味を示す「ない」という言葉が含まれる場合にはフィードバック型発言は行われないようになっている。例えば、ユーザが「きれいじゃない」と言った時はフィードバック型発言は行われない。ところが、この「きれいじゃない」は、アクセントの付け方によっては、「きれいではない」という否定的な意味と、「きれいだ」という肯定的な意味に取れる場合がある。「フィードバック型会話システム」では、「きれいじゃない」が「きれいだ」の意味の場合に適切に対応することができない。
【0008】
【特許文献1】
特開2002−169590号公報
【0009】
【発明が解決しようとする課題】
上述したように、従来の会話システムでは、ユーザの発言意図がどこにあるのか、疑問調で言ったのか、どのような意味で言ったかといったことが判らず、会話として適切に対応することができなかった。
【0010】
そこで、本発明は、ユーザの発言意図を正しく解釈して会話として適切な対応を取ることのできる会話システム及び会話処理プログラムを提供することを目的とする。
【0011】
【課題を解決するための手段】
(1) 本発明の会話システムは、ユーザとの間で会話を行う会話システムであって、会話相手であるユーザの発言を入力する入力手段と、この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、ユーザの発言に含まれる各語句の音量情報またはピッチ情報を抽出する情報抽出手段と、この情報抽出手段によって抽出された各語句の音量情報またはピッチ情報に基づいて、前記音声認識手段によって得られた認識結果情報を解析してユーザの発言に対する返事としての発言を作成する発言作成手段と、この発言作成手段によって作成された発言を出力する出力手段とを具備して構成される。
【0012】
このような構成の会話システムによれば、会話相手であるユーザの発言が入力されると、そのユーザの発言が音声認識されると共に、当該発言に含まれる各語句の音量情報またはピッチ情報が抽出される。そして、各語句の音量情報またはピッチ情報に基づいて、音声認識にて得られた認識結果情報が解析されてユーザの発言に対する返事としての発言が作成されて出力される。このように、音声認識と共に音量抽出またはピッチ抽出を行うことで、音声認識結果として得られる文字情報かせだけでは判らないユーザの発言意図を正しく解析して、ユーザの発言意図に合った返事を返すことができる。
【0013】
(2) 本発明の会話システムは、ユーザとの間で会話を行う会話システムであって、会話相手であるユーザの発言を入力する入力手段と、この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、ユーザの発言に含まれる各語句の音量情報を抽出する音量抽出手段と、この音量抽出手段によって抽出された各語句の音量情報に基づいて、前記音声認識手段によって得られた認識結果情報の中からキーワードとする語句を選択するキーワード選択手段と、このキーワード選択手段によって選択された語句を用いてユーザの発言に対する返事としての発言を作成する発言作成手段と、この発言作成手段によって作成された発言を出力する出力手段とを具備して構成される。
【0014】
このような構成の会話システムによれば、会話相手であるユーザの発言が入力されると、そのユーザの発言が音声認識されると共に、当該発言に含まれる各語句の音量情報が抽出される。そして、各語句の音量情報に基づいて、音声認識にて得られた認識結果情報の中からキーワードとする語句が選択され、その選択された語句を用いてユーザの発言に対する返事としての発言が作成されて出力される。このように、音声認識と共に音量抽出を行うことで、例えばユーザ発言の中に複数のキーワードが含まれているような場合に、最も大きく発せられた語句をキーワードとして用いることで、ユーザの発言意図に合った返事を返すことができる。
【0015】
また、前記構成の会話システムにおいて、前記キーワード選択手段は、特定の品詞を対象としてキーワードとする語句の選択を行うことを特徴とする。これにより、例えば名詞のように、キーワードとして適切な品詞だけを対象にしてキーワードの選択が行われるので、より適切な返事を返すことができる。
【0016】
(3) 本発明の会話システムは、ユーザとの間で会話を行う会話システムであって、会話相手であるユーザの発言を入力する入力手段と、この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、ユーザの発言に含まれる各語句のピッチ情報を抽出するピッチ抽出手段と、このピッチ抽出手段によって抽出された各語句のピッチ情報に基づいて、前記音声認識手段によって得られた認識結果情報の中に疑問の意味が含まれているか否かを判定する第1の判定手段と、この第1の判定手段の判定結果に応じてユーザの発言に対する返事としての発言を作成する発言作成手段と、この発言作成手段によって作成された発言を出力する出力手段とを具備して構成される。
【0017】
このような構成の会話システムによれば、会話相手であるユーザの発言が入力されると、そのユーザの発言が音声認識されると共に、当該発言に含まれる各語句のピッチ情報が抽出される。そして、各語句のピッチ情報に基づいて、音声認識にて得られた認識結果情報の中に疑問の意味が含まれているか否かが判定され、その判定結果に応じてユーザの発言に対する返事としての発言が作成されて出力される。このように、音声認識と共にピッチ抽出を行うことで、例えばユーザが疑問調で発言したような場合に、その疑問に答えるような形で返事を返すことができる。
【0018】
また、前記構成の会話システムにおいて、前記第1の判定手段は、特定の品詞を対象として、その品詞の前半部分と後半部分のピッチ情報を比較することにより疑問の意味であるか否かを判断することを特徴とする。これにより、例えば形容詞または形容動詞を対象として、ユーザがその品詞の前半部分よりも後半部分を発声しているような場合(つまり、尻上がりに発声しているような場合)に、疑問の意味が含まれているものとして、その疑問に答えるような形で返事を返すことができる。
【0019】
また、前記構成の会話システムにおいて、認識結果情報の中に否定または肯定の意味を持つ特定の語句がある場合に、その語句の音量変化を調べて否定または肯定の意味であるかを判定する第2の判定手段をさらに備え、前記発言作成手段は、前記第2の判定手段の判定結果に応じて当該ユーザの発言に対する返事としての発言を作成することを特徴とする。これにより、例えば「きれいじゃない」のように、アクセントの違いによって否定または肯定の意味を持つような語句に対し、その語句の音量変化から否定または肯定の意味であるかことを判定して適切な対応を取ることができる。
【0020】
(4) 本発明の会話システムは、ユーザとの間で会話を行う会話システムであって、会話相手であるユーザの発言を入力する入力手段と、この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、この音声認識手段によって得られた認識結果情報の中から同音異義語として指定された語句を抽出する同音異義語抽出手段と、この同音異義語抽出手段によって抽出された語句のピッチ変化または音量変化に基づいて当該語句が正しいか否かを判定する判定手段と、この判定手段により当該語句が間違っていると判定された場合に、そのピッチ変化または音量変化に基づいて正しい同音異義語に置き換える置換手段と、この置換手段によって置き換えられた語句を用いてユーザの発言に対する返事としての発言を作成する発言作成手段と、この発言作成手段によって作成された発言を出力する出力手段とを具備して構成される。
【0021】
このような構成の会話システムによれば、会話相手であるユーザの発言が入力されると、そのユーザの発言が音声認識されると共に、その認識結果情報から同音異義語として指定された語句が抽出され、その語句のピッチ変化または音量変化に基づいて当該語句が正しいか否か否かが判定される。そして、当該語句が間違っていると判定された場合には正しい同音異義語に置き換えられ、その置き換え後の語句を用いてユーザの発言に対する返事としての発言が作成されて出力される。このように、同音異義語として指定された語句のピッチ変化または音量変化から当該語句が意味的に正しい語句に置き換えられるので、その置き換え後の語句を用いて適切な返事を返すことができる。
【0022】
また、前記構成の会話システムにおいて、前記発言作成手段は、前記判定手段により当該語句を判別できなかった場合に、どの同音異義語であるかをユーザに確認するための発言発言を作成することを特徴とする。これにより、例えばユーザの発声が悪いなどで、ピッチ変化または音量変化から当該語句を判別できなかった場合にユーザに確認することで正すことができる。
【0023】
(5) 本発明の会話システムは、ユーザとの間で会話を行う会話システムであって、会話相手であるユーザの発言を入力する入力手段と、この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、ユーザの発言に含まれる各語句の音量情報またはピッチ情報を抽出する情報抽出手段と、この情報抽出手段によって抽出された各語句の音量情報またはピッチ情報に基づいて、前記音声認識手段によって得られた認識結果情報の中に通常とは異なる音量あるいはピッチで発せられた語句が含まれているか否かを判定する第1の判定手段と、この第1の判定手段の判定結果に応じて音量的あるいはピッチ的な特徴を加味してユーザの発言に対する返事としての発言を作成する発言作成手段と、この発言作成手段によって作成された発言を出力する出力手段とを具備して構成される。
【0024】
このような構成の会話システムによれば、会話相手であるユーザの発言が入力されると、そのユーザの発言が音声認識されると共に、当該発言に含まれる各語句の音量情報またはピッチ情報が抽出される。そして、各語句の音量情報またはピッチ情報に基づいて、音声認識にて得られた認識結果情報の中に通常とは異なる音量あるいはピッチで発せられた語句が含まれているか否かが判定され、その判定結果に応じてユーザの発言に対する返事としての発言が作成されて出力される。このように、通常とは異なる音量あるいはピッチで発せられた語句がある場合に、その音量あるいはピッチに対応した発言を返すことで、より自然な会話を実現できる。
【0025】
また、前記構成の会話システムにおいて、前記音声認識手段によって得られた認識結果情報の中に音量あるいはピッチが適正範囲を外れる語句が含まれているか否かを判定する第2の判定手段をさらに備え、前記発言作成手段は、前記第2の判定手段により適正範囲を外れる語句が含まれていると判定された場合に当該語句について再度発声を促す発言を作成することを特徴とする。これにより、音量あるいはピッチが適正範囲を外れる語句があれば、その語句を再度発声させて正しい会話を進めることができる。
【0026】
(6) 本発明の会話システムは、ユーザとの間で会話を行う会話システムであって、会話相手であるユーザの発言を入力する入力手段と、この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、ユーザの発言に含まれる各語句の音量情報またはピッチ情報を抽出する情報抽出手段と、この情報抽出手段によって抽出された各語句の音量情報またはピッチ情報に基づいて、前記音声認識手段によって得られた認識結果情報の中の音量的あるいはピッチ的に特徴のある語句をその特徴に応じて加工する加工手段と、この加工手段によって加工された語句を含む認識結果情報を発言日時と共に過去の発言情報として記憶する記憶手段と、この記憶手段に記憶された過去の発言情報を利用してユーザの発言に対する返事としての発言を作成する発言作成手段と、この発言作成手段によって作成された発言を出力する出力手段とを具備して構成される。
【0027】
このような構成の会話システムによれば、会話相手であるユーザの発言が入力されると、そのユーザの発言が音声認識されると共に、当該発言に含まれる各語句の音量情報またはピッチ情報が抽出される。そして、各語句の音量情報またはピッチ情報に基づいて、認識結果情報の中から音量的あるいはピッチ的に特徴のある語句が抽出され、その抽出された語句がその音量的あるいはピッチ的な特徴に応じて加工される。この加工後の語句を含む認識結果情報は発言日時と共に過去の発言情報として記憶され、以後、その過去の発言情報を利用した発言が作成されて出力される。このように、例えば大きく発声された語句は太字にしたり、「!」を付加しておくなど、その特徴に応じた加工を施してから発言日時と共に過去の発言情報として記憶しておくことにより、過去の発言情報を利用して発言する場合に、ユーザがどのような意図で発言した語句であるかを判別することができ、適切な返事を返すことができる。
【0028】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を説明する。
【0029】
(第1の実施形態)
図1は本発明の一実施形態に係る会話システムのハードウェア構成を示すブロック図である。本発明の会話システムは、ユーザの発言に対し、あたかも人間が返事をしているかの如く発言して会話を進めるためのものであり、例えば会話型ロボット等の玩具類やテレビゲーム機などに搭載される。
【0030】
図1では、本システムを汎用のコンピュータによって実現した場合の基本的な構成が示されており、CPU11、音声入力部12、A/D変換部13、音声出力部14、D/A変換部15、ワークメモリ16、不揮発性メモリ17によって構成されている。
【0031】
CPU11は、不揮発性メモリ17などに記憶されたプログラムを読み込むことにより、そのプログラムに記述された手順に従って所定の処理を実行する。音声入力部12は、会話時にユーザの音声を入力するためのマイクである。この音声入力部12から入力されたユーザの音声(アナログデータ)はA/D変換部13でデジタルデータに変換されてCPU11に取り込まれる。CPU11はワークメモリ16を用いて処理を行い、ユーザの発言に対する返事をD/A変換部15を介して出力する。D/A変換部15は、CPU11によって生成された音声データをアナログデータに変換して音声出力部14に与える。音声出力部14は、これを外部に出力するためのスピーカである。
【0032】
ワークメモリ16には、CPU11の処理動作に必要なデータが記憶される。このワークメモリ16には、音声認識結果情報(文字情報)をバッファしておくための認識結果バッファ16a(図2参照)や、その音声認識結果に対する音量情報をバッファしておくための音量バッファ16b、ピッチ情報をバッファしておくためのピッチバッファ16cなどが設けられている。
【0033】
音声認識結果情報は、ユーザの発言を音声認識した結果のテキスト情報と、音声認識結果のそれぞれの単位語句が発声開始された時刻を表すスタート時刻とそれが発声終了した時刻を表すエンド時刻からなるデータである。音量情報とピッチ情報は、それぞれユーザが発言している間の各時刻と対応させた音量とピッチの情報である。例えば、ユーザの発言が時刻t1からt6まで発声されたとすると、時刻t1からt6までの音量とピッチが一定の時間間隔毎に記録されている。なお、この時間間隔は音声認識結果情報の単位語句が発声されている時間よりも十分に短いものとする。
【0034】
不揮発性メモリ17は、例えばフラッシュメモリからなり、電源が切れても記憶内容が消えない書き換え可能なメモリである。この不揮発性メモリ17には、本発明の会話システムを実現するためのプログラムが記憶されたプログラム領域17aの他、会話処理に必要な各種情報が記憶された情報記憶領域18〜25が設けられている。
【0035】
この不揮発性メモリ17の情報記憶領域18には、ユーザに対する返事としての発言を作成するための発言作成用データが記憶されている。情報記憶領域19には、肯定の意味と否定の意味を持つ語句を確認するための否定確認データが記憶されている(図3参照)。情報記憶領域20には、複数の意味を持つ同音異義語を確認するための同音異義語確認データが記憶されている(図4参照)。情報記憶領域21には、ユーザの発した過去の平均音量が語句単位で記憶されている。情報記憶領域22には、ユーザの音声を正しく音声認識するための適正音量範囲が記憶されている。情報記憶領域23には、大声に対応した発言を作成するための大声専用発言作成用データが記憶されている。情報記憶領域24には、小声に対応した発言を作成するための小声専用発言作成用データが記憶されている。情報記憶領域25には、会話ログが記憶される。この会話ログについては、後に第2の実施形態で説明する。
【0036】
図2はワークメモリ16の認識結果バッファ16aに記憶される音声認識結果情報の一例を示す図であり、ユーザの複数の発言例に対する音声認識結果情報が示されている。
【0037】
ユーザの発言はその発言を構成する語句の単位に分解されて、それぞれの単位について、それが発声された時刻を表すスタート時刻とエンド時刻の情報がある。例えば、図2(a)に示す音声認識結果情報例1では、「彼は野球部のキャプテンだ」とユーザが発言した場合において、「彼」という語句は時刻t1からt2の間に発声されたことを表している。同様に、「は」という語句は時刻t3からt4の間に発声され、「野球部」という語句は時刻t5からt6の間に発声され、「の」という語句は時刻t7からt8の間に発声され、「キャプテン」という語句は時刻t9からt10の間に発声され、「だ」という語句は時刻t11からt12の間に発声されたことを表している。
【0038】
図3は不揮発性メモリ17の情報記憶領域19に記憶される否定確認データの一例を示す図である。
【0039】
否定確認データは、「確認対象パターン」、「平均音量変化」、「意味」からなる。例えば、「きれいじゃない」の「じゃない」といった語句は、アクセントの違いによって否定の意味または肯定の意味を持つ。そこで、「じゃない」に対し、前半部の「じゃ」の平均音量と後半部の「ない」の平均音量を比較した場合に、前者が後者より大きい場合(大→小といった音量変化の場合)には肯定の意味とし、前者が後者より小さい場合(小→大といった音量変化の場合)には否定の意味として判定するための否定確認データが情報記憶領域19に予め登録されている。
【0040】
図4は不揮発性メモリ17の情報記憶領域20に記憶される同音異義語確認データの一例を示す図である。
【0041】
同音異義語確認データは、「グループ番号」、「分割数」、「確認対象語句」、「平均ピッチ変化」からなる。例えば、「はし」といった読みに対しては「端」,「橋」,「箸」といった同音異義語があり、それぞれアクセントが違う。そこで、「はし」を「は」と「し」に2分割して、平均ピッチ変化が「高高」の場合に「端」、「高低」の場合に「橋」、「低高」の場合に「箸」として判定するための同音異義語確認データが情報記憶領域20に予め登録されている。
【0042】
このような構成の会話システムにおいて、音声入力部12から入力されたユーザの音声はA/D変換部13にてデジタルデータに変換された後、CPU11に与えられる。
【0043】
図5に本システムに搭載されたCPU11が行うA/D変換後のデータの処理の流れを示す。A/D変換された音声データは音声認識処理(a)によりディクテーションされ、テキスト形式の文章に変換されると同時に、ピッチ抽出処理(b)によりピッチ情報が抽出され、音量抽出処理(b)により音量情報が抽出される。
【0044】
次に、このテキスト形式の文章に対して会話処理(d)が施され、ユーザの発言に対する返事としての発言が作成され、読み上げ処理(e)によって読み上げられる。このとき、CPU11にてユーザに対する返事として作成された発言の音声データはD/A変換部15によってアナログデータに変換された後、スピーカ等の音声出力部14を通じて出力される。
【0045】
ここで、「音声認識処理」、「ピッチ抽出処理」、「音量抽出処理」、「読み上げ処理」については一般的に知られている手法を用いるものとしてその詳しい説明は省略する。以下では、本システムの「会話処理」を中心に、図6乃至図9に示すフローチャートを参照して具体的な処理手順について詳しく説明する。なお、これらのフローチャートで示される処理は、本システムに備えられたCPU11がプログラムを読み込むことで実行する。
【0046】
また、本出願人によって出願済みの会話処理(特願2002−233090号公報参照)や、人工知能のような高度な処理を行わずに本当の会話らしいものを実現する、一般に人工無能と称される方式の会話処理を併用して「相手にフィードバックする発言」を作り出す会話処理(特願2002−355628号公報参照)はすべて行えるものとする。すなわち、キーワードを利用した発言、フィードバック型の発言、人工無能方式による発言などが可能である。図1に示す不揮発性メモリ17の発言作成用データは、これらの発言を作成する時に用いるすべてのデータである。
【0047】
以下では、個々の発明の本質に焦点をあてて分かりやすくするために、複数の会話処理(1)〜(5)に分けて説明するが、実際には、これらの会話処理(1)〜(5)が組み合わさった形で本システムの会話処理が構成される。本システムでは、ユーザの発言を音声認識してテキスト化すると共に音量抽出またはピッチ抽出を行い、その音量情報またはピッチ情報に基づいてユーザの発言を解析して、ユーザの発言に対する返事としての発言を作成する。
【0048】
・会話処理(1)
まず、本発明の会話システムによって実現される会話処理(1)について説明する。
【0049】
会話処理(1)では、ユーザの発言に対し、音声認識結果として得られたテキスト情報(文字情報)に対応した各語句の音量情報を調べることにより、その音量情報に基づいて、ユーザ発言の中からキーワードを選択して発言(返事)を作成することを特徴とする。
【0050】
図6は本発明の第1の実施形態における会話システムの会話処理(1)を示すフローチャートであり、この会話処理(1)はユーザの発言を音声認識処理すると同時に音量抽出処理およびピッチ抽出処理した後に実行される。
【0051】
CPU11は、ユーザ発言の音声認識結果として得られたテキスト情報を品詞解析して、そのテキスト情報の中からキーワード対象として指定された名詞を抽出する(ステップA11)。その際、名詞が1つだけ抽出された場合には(ステップA12→A13のNo)、CPU11は、当該名詞をキーワードとして特定してワークメモリ16内の図示せぬバッファに記憶した後(ステップA14)、そのキーワードを用いてユーザの発言に対する返事としての発言を作成する(ステップA17)。なお、キーワードを用いた発言作成処理については、例えば特願2002−233090号公報に開示されており、ここではその詳しい説明は省略するものとする。
【0052】
一方、複数の名詞が存在する場合には(ステップA13のYes)、CPU11はこれらの名詞のスタート時刻からエンド時刻までの音量情報を用いて各名詞が発生されている間の平均音量を計算する(ステップA15)。そして、CPU11は、その平均音量の最も大きい名詞をキーワードとして選択し、これをワークメモリ16内の図示せぬバッファに記憶した後(ステップA14)、そのキーワードを用いてユーザの発言に対する返事としての発言を作成する(ステップA17)。
【0053】
また、ユーザ発言の音声認識結果情報(テキスト情報)に名詞がなかった場合には(ステップA12のNo)、CPU11はキーワードを用いない他の手法にてユーザの発言に対する返事としての発言を作成する(ステップA18)。キーワードを用いない他の手法とは、例えば特願2002−233090号公報の従来技術して開示されているシナリオ方式などである。
【0054】
ここで、ステップA15〜A17の処理について、図2(a)の音声認識結果情報例1を用いて具体的に説明する。
【0055】
音声認識結果情報例1に示すように、ユーザが「彼は野球部のキャプテンだ」と発言したとすると、その中の「彼」,「野球部」,「キャプテン」が名詞として抽出される。そして、「彼」については時刻t1からt2の間の平均音量、「野球部」については時刻t5からt6の間の平均音量、「キャプテン」については時刻t9からt10の間の平均音量が計算され、最も平均音量の高いものがキーワードとなる。
【0056】
このように、キーワードの候補が複数得られた場合に、その中の最も平均音量の高いキーワードを用いて発言を作成することで、例えば「野球部」が強調されて発言された時には「そうですか、野球部なんですか」、「キャプテン」が強調されて発言された時には「そうですか、キャプテンなんですか」、「彼」が強調されて発言された時には「そうですか、彼なんですか」などといったように、ユーザの発言意図とかみ合った発言を返事として返すことができ、自然な会話を楽しむことができるようになる。
【0057】
この例とは異なる例も考えられる。例えば、「彼は野球部のキャプテンだ」の場合、「彼が」ではなく「彼は」となっているので、ユーザが「彼」を強調する意図がある可能性は少ないと考えられる。このような音声認識結果情報のテキストから得られる判断を併用してキーワードを決めても良い。つまり、例えば「彼」を候補から外す、あるいは、平均音量で比較する前に「彼」の平均音量から一定値を差し引くなどである。
【0058】
なお、ここでは名詞をキーワードの対象としたが、他の品詞も候補として選んでも良い。また、候補を絞るのに品詞を利用したが、他の方法で候補を選んでも良い。例えば提案書「会話システム」のように漢字やカタカナで候補を絞り込んでも良い。また、キーワードの候補となれる語句のリストを予め設けて、そのリストにあった語句だけを候補としても良い。
【0059】
・会話処理(2)
次に、本発明の会話システムによって実現される会話処理(2)について説明する。
【0060】
会話処理(2)では、フィードバック型発言を行う場合を想定しており、ユーザの発言に対し、音声認識結果として得られたテキスト情報(文字列情報)に対応したピッチ情報を調べることにより、そのピッチ情報に基づいて疑問の意味が含まれているかどうかを判定して発言を作成することを特徴とする。
【0061】
図7は本発明の第1の実施形態における会話システムの会話処理(2)を示すフローチャートであり、この会話処理(2)はユーザの発言を音声認識処理すると同時に音量抽出処理およびピッチ抽出処理した後に実行される。
【0062】
なお、ここでは簡単のために、形容詞または形容動詞がひとつだけ抽出されるものとして処理を示してある。また、同じく簡単のために、疑問または否定の可能性がある場合だけフィードバック型発言を避ける例を示した。ステップB13はそのための処理であり、例えば「か」という文字が文末にある場合や文中に「なぜ」がある場合には疑問の可能性ありと判断する。また、「ない」やこの活用形が文中にある場合には否定の可能性ありと判断するものとする。
【0063】
CPU11は、ユーザ発言の音声認識結果として得られたテキスト情報を品詞解析して、そのテキスト情報の中から形容詞または形容動詞を抽出する(ステップB11)。形容詞または形容動詞があれば(ステップB12のYes)、続いて、CPU11は当該テキスト情報の中に疑問または否定の可能性を示す語句があるか否かを判断する(ステップB13)。
【0064】
上述したように、例えば「か」という文字が文末にある場合や文中に「なぜ」がある場合には疑問の可能性ありと判断する。また、「ない」やこの活用形が文中にある場合には否定の可能性ありと判断する。不揮発性メモリ17には、このときの判断条件を示す情報が記憶されており、CPU11はその情報を参照することで疑問または否定の判断を行う。
【0065】
ここで、疑問または否定の可能性を示す語句がない場合には(ステップB13のNo)、CPU11は当該テキスト情報から抽出した形容詞または形容動詞のスタート時刻からエンド時刻までのピッチ情報を用いて、その語句の前半部分の平均ピッチと後半部分の平均ピッチをそれぞれ計算し(ステップB14)、どちらの平均ピッチが高いのかを調べる(ステップB15)。前半部分の平均ピッチより後半部分の平均ピッチが高い場合、つまり、尻上がりの発音であった場合には(ステップB15のYes)、疑問の意味が含まれている可能性があるので、CPU11はフィードバック型以外の手法にてユーザの発言に対する返事としての発言を作成する(ステップB19)。フィードバック型以外の手法とは、例えばシナリオ方式などである。
【0066】
一方、前半部分の平均ピッチより後半部分の平均ピッチが低い場合、つまり、尻下がりの発音であった場合には(ステップB15のNo)、当該テキスト情報から抽出した形容詞または形容動詞を用いてフィードバック型の発言を作成する(ステップB16)。すなわち、形容詞や形容動詞の前後に予め用意された特定の文字列を接続して、ユーザの発言に対する返事としての発言を作成する。例えば、形容詞の前に「そうですか。」、形容詞の後に「のですか」をつなげて、形容詞が「おいしい」の場合には、「そうですか。おいしいのですか」などの発言を作成する。なお、このフィードバック型の発言作成処理については、例えば特願2002−355628号公報に開示されており、ここではその詳しい説明は省略するものとする。
【0067】
また、前記ステップB13において、疑問または否定の可能性を示す語句があった場合には(ステップB13のYes)、CPU11はその語句が否定確認データの確認対象パターンに含まれるか否かを調べる(ステップB17)。否定認確認データとは、図3に示すように、「じゃない」といったようなアクセントの違いによって否定の意味または肯定の意味を持つ語句を対象としたデータであり、これは不揮発性メモリ17の情報記憶領域19に記憶されている。
【0068】
前記疑問または否定の可能性を示す語句が否定認確認データの確認対象パターンに含まれていれば(ステップB17のYes)、CPU11はその語句の平均音量変化から肯定の意味であるか否定の意味であるかを判断する(ステップB18)。その結果、CPU11は当該語句が肯定の意味であった場合には前記ステップB14からの処理を行い、否定の意味であった場合には前記ステップB19の処理を行う。
【0069】
ここで、上述した処理について具体例を挙げて説明する。
【0070】
図2(b)に示す音声認識結果情報例2で説明すると、まず、ユーザ発言である「このケーキおいしい」の中から「おいしい」といった形容詞が抽出される。この場合、「このケーキおいしい」には疑問や否定を示す語句がないのでステップB14へ進み、「おいしい」が発声された中間の時刻t56=(t5+t6)/2が計算される。これを用いてピッチ情報によりt5からt56までの平均ピッチとt56からt6までの平均ピッチが計算される。t5からt56までの平均ピッチが「前半部分の平均ピッチ」、t56からt6までの平均ピッチが「後半部分の平均ピッチ」である。前半部分の平均ピッチよりも後半部分の平均ピッチが高い場合には、「おいしい」を尻上がりに発声した場合なので、疑問の意味が含まれている可能性がある。
【0071】
そこで、このような場合にはフィードバック型の発言を行わない。この手法だと、口語では頻繁に行われる語順の逆転にも対応できる。例えば、「おいしい、このケーキ」と言った場合にも対応できる。つまり、音声認識結果の文字列からは知ることができない疑問の判定が可能となる。
【0072】
また、図2(c)に示す音声認識結果情報例3で説明すると、ユーザ発言「きれいじゃない」には「ない」が含まれているのでステップB17へ進むが、図3に示すように、「じゃない」が否定確認データの確認対象パターンに該当するので、ステップB18にて否定確認データの平均音量変化に従い、「じゃ」の平均音量(時刻t3からt4の平均音量)と「ない」の平均音量(時刻t5からt6の平均音量)が比較される。そして、前者が後者より平均音量が大きい場合には、否定確認データの「意味」に従って肯定の意味であると判定され、それ以外は否定の意味であると判定される。これにより、「きれいだ」といった肯定の意味である「きれいじゃない」といったユーザ発言に対して、フィードバック型発言ができるようになる。
【0073】
なお、ここでは簡単のために、形容詞または形容動詞のみのピッチ変化を調べたが、形容詞や形容動詞に接続される他の品詞も含めてピッチ変化を調べても良い。例えば、「このケーキおいしかった」であれば、「おいしかっ」が活用変化した形容詞で「た」が助動詞だが、形容詞+助動詞である「おいしかった」の部分のピッチ変化を調べれば、これが疑問文かどうかが分かる。
【0074】
また、形容詞または形容動詞を用いた「フィードバック型発言」を行ったが、動詞や名詞などの他の品詞を用いても良い。もちろん「フィードバック型発言」以外に利用しても良い。例えば、これと同様の手法によりユーザの発言が質問なのかどうかを判定して、質問と判定した場合には、その質問に答える発言をしても良い。否定である肯定であるかの判定を用いて、それぞれの場合に正しく反論するような発言を行っても良い。
【0075】
また、品詞を解析するだけではなく、文の構造も解析して、疑問文であるかどうかを判定するにふさわしい語句を見つけ出しても良い。
【0076】
反対に、品詞解析も構文解析も行わずに、他の解析手法を用いても良い。例えば、質問かどうかを判定する際に、文末に限定してそのピッチの高低変化を調べて疑問文であるかどうかを判定しても良い。あるいは、発言の途中に一定時間以上の無音がある時には、その直前の部分のピッチ変化を調べて、そこに疑問の意味が含まれているかどうかを判定しても良い。
【0077】
また、形容詞または形容動詞を前半と後半に分けてピッチを調べたが、最後の一定部分をそれ以前と比べるなど、他の方法を用いても良い。
【0078】
また、疑問の意味を含まない時の各語句のピッチ変化の情報を予め持ち、それと比較することで疑問の意味が含まれているかを判定しても良い。「じゃない」の判定では、単位語句の平均音量の比較を利用したが、他の手法で音量を利用しても良い。例えば、肯定の場合と否定の場合の典型的な音量差を示す情報を持ち、どちらの差に近いかで判定しても良い。語句単位ではなく、語句を細分した単位で調べても良い。否定か肯定かの判定に音量を用いたが、ピッチまたはピッチと音量の両方を利用して判定しても良い。
【0079】
・会話処理(3)
次に、本発明の会話システムによって実現される会話処理(3)について説明する。
【0080】
現状の音声認識技術では、同音異義語を正しく認識することは難しい。このため、同音異義語がユーザの発言に含まれていると、会話システムがその発言の意味を誤解してしまうことが多かった。会話処理(3)では、このような同音異義語に対し、ピッチ変化からユーザの意図していた同音異義語を正しく認識して発言することを特徴とするものである。
【0081】
図8は本発明の第1の実施形態における会話システムの会話処理(3)を示すフローチャートであり、この会話処理(3)はユーザの発言を音声認識処理すると同時に音量抽出処理およびピッチ抽出処理した後に実行される。
【0082】
CPU11は、ユーザ発言の音声認識結果として得られたテキスト情報の中に同音異義語確認データの確認対象語句があるか否かを調べる(ステップC11)。同音異義語確認データとは、図4に示すように、「はし」に対して「端」,「橋」,「箸」といったようにアクセントの違いによって意味の異なる語句を対象としたデータであり、これは不揮発性メモリ17の情報記憶領域20に記憶されている。
【0083】
テキスト情報の中に該当する語句があった場合には(ステップC11のYes)、CPU11はその語句のスタート時刻からエンド時刻までの時間をその語句の分割数で分割し(ステップC12)、その分割した各部分の平均ピッチを計算する(ステップC13)。その結果、各部分間の平均ピッチの変化が同音異義語確認データの平均ピッチ変化で示される通りであった場合には(ステップC14のYes)、CPU11は語句の置き換えなしに、現在の音声認識結果情報であるテキスト情報を用いてユーザの発言に対する返事としての発言を作成する(ステップC17)。すなわち、例えば当該語句をキーワードとした発言を作成する。
【0084】
一方、各部分間の平均ピッチの変化が同音異義語確認データの平均ピッチ変化で示される通りでなかった場合には(ステップC14のNo)、CPU11は当該語句と同一グループ番号に属する各語句の中から平均ピッチ変化が一致する語句があるか否かを調べる(ステップC15)。平均ピッチ変化が一致する語句があれば(ステップC15のYes)、CPU11は当該語句を前記平均ピッチ変化が一致した語句に置き換えた後(ステップC16)、その置き換え後の語句を含んだ音声認識結果情報を用いてユーザの発言に対する返事としての発言を作成する(ステップC17)。
【0085】
また、平均ピッチ変化が一致する語句がない場合には(ステップC15のNo)、CPU11はユーザに対して何と言ったのか、今対象となっている同音異義語を並べて表示するなどしてユーザに語句を確認するための発言を作成する(ステップC18)。
【0086】
ここで、上述した処理について具体例を挙げて説明する。
【0087】
図2(d)に示す音声認識結果情報例4で説明すると、まず、ユーザ発言である「きたない橋だ」の中から「橋」といった同音異義語が抽出される。この場合、「橋」の発音である「はし」の平均ピッチ変化が「高低」であれば、ステップC14にて「橋」が正しい語句であると認識されて、その語句を用いてユーザに対する発言が作成される。一方、「はし」の平均ピッチ変化が「高低」でない場合には別の意味の語句である可能性があるので、ステップC16にて「はし」の平均ピッチ変化に対応した語句に置き換えられる。この場合、「高高」であれば「端」、「低高」であれば「箸」といった語句に置き換えられる。
【0088】
ステップC18では、例えば「川にかかる橋ですか、食事に使う箸ですか、真中ではない端ですか」といった発言をしてユーザに確認すれば良いし、その際に同音異義語の各漢字を表示して確認するようにしても良い。
【0089】
なお、ここでは、同音異義語を発声している時間を等間隔に分けてそれぞれの時間の平均ピッチを比較したが、音素単位や読みとしての文字単位などで比較するなど、他の方法を用いても良い。
【0090】
また、ピッチ変化のパターンに合致しているかどうかで判定したが、正しいピッチ変化の情報を持つなどして、その中でもっとも近いものと判定しても良い。同音異義語の前後の単語などからどの意味の可能性が高いかを推定して、その結果も考慮に入れるようにしても良い。
【0091】
また、ここではピッチ変化で判定したが音量変化を用いて判定しても良いし、ピッチ変化と音量変化の両方を用いて判定しても良い。
【0092】
また、ここでは平均ピッチ変化が一致した語句がある場合には無条件でそれに置き換えたが、この語句が音声認識結果と異なる場合には、例えば「はしというのは、食事に使う箸のことですか」などといったように、ユーザに確認をとる発言を作成するようにしても良い。
【0093】
・会話処理(4)
次に、本発明の会話システムによって実現される会話処理(4)について説明する。
【0094】
ユーザの発言の音量が適正音量範囲を外れると、音声認識の精度に問題が出る可能性が高まる。会話処理(4)では、このようなユーザ発言の音量に応じた発言を行うことを特徴とするものである。
【0095】
図9は本発明の第1の実施形態における会話システムの会話処理(4)を示すフローチャートであり、この会話処理(4)はユーザの発言を音声認識処理すると同時に音量抽出処理およびピッチ抽出処理した後に実行される。
【0096】
CPU11は、ユーザ発言の音声認識結果として得られたテキスト情報の中に平均音量が不揮発性メモリ17の情報記憶領域22に記憶された適正音量範囲を外れる単位語句があるか否かを調べる(ステップD11)。適正音量範囲とは、ユーザの発した音声を正しく音声認識できる音量の範囲を示すものである。平均音量がこの適正音量範囲の上限を超える場合あるいは同範囲の下限を下回ると誤認識してしまう可能性がある。そこで、適正音量範囲を外れる単位語句があった場合には(ステップD11のYes)、CPU11はその語句について再度発声を促す発言を作成する(ステップD12)。
【0097】
また、情報記憶領域21には、ユーザの発した過去の平均音量が語句単位で記憶されている。前記適正音量範囲を外れる単位語句がなかった場合(ステップD11のNo)、CPU11はこの情報記憶領域21に記憶された過去の平均音量との比較を行う(ステップD13)。なお、複数のユーザで本システムを共有する場合には、各ユーザ毎に固有のID(識別情報)を用いて、そのIDにて過去の平均音量を個別に記憶することが好ましい。
【0098】
ここで、ユーザ発言の音声認識結果として得られたテキスト情報の中に過去の平均音量と比べて平均音量が著しく小さな単位語句(過去の平均音量よりも平均音量が一定量以上小さい単位語句)があった場合には(ステップD13のYes)、CPU11は不揮発性メモリ17の情報記憶領域24に記憶された小声専用発言作成用データを用いて小声に対応した発言を作成する(ステップD14)。その際、CPU11は今回の音量情報を用いて情報記憶領域21内の過去の平均音量を更新しておく(ステップD15)。更新方法としては、例えば今回の平均音量を計算し、それと過去の平均音量で加重平均を取り、その値を新たな平均音量として書き込むなどの方法がある。
【0099】
一方、当該テキスト情報の中に過去の平均音量と比べて平均音量が過去の平均音量よりも著しく大きな単位語句(過去の平均音量よりも平均音量が一定量以上大きい単位語句)があった場合には(ステップD16のYes)、CPU11は不揮発性メモリ17の情報記憶領域23に記憶された大声専用発言作成用データを用いて大声に対応した発言を作成する(ステップD17)。また、平均音量が過去の平均音量と比べて同程度であれば(ステップD16のNo)、CPU11は不揮発性メモリ17の情報記憶領域18に記憶された発言作成用データを用いて通常の発声に対する発言を作成する(ステップD18)。いずれの場合も発言作成後は上述したように今回の音量情報を用いて情報記憶領域21内の過去の平均音量を更新しておく(ステップD15)。
【0100】
ここで、上述した処理について具体例を挙げて説明する。
【0101】
例えば、図2(a)に示す音声認識結果情報例1において、t9からt10までの平均音量が適正音量範囲を外れていると、ステップD12にて、「彼は野球部の何ですって?」などといったように、音声認識結果が間違っている可能性の高い語句を問い直す。あるいは、「もう一度少し大きな声で言ってください」、「今キャプテンと言いましたか?」などと発言しても良い。
【0102】
また、過去の平均音量は、その時点までのユーザの発言の平均音量を示すデータである。これと比べて著しく大きな声または小さな声で発せられた単位語句がある場合には、そのことを利用して通常とは異なる発言を言う。
【0103】
例えば、人工無能方式の発言データとして、「黙れ」がユーザ発言の中にあれば、「黙りますよ。黙ればいいんでしょう」などと発言するような大声専用発言作成用データを作成しておき、通常の発言を作成する時に使用する発言作成用データには、「黙れ」に対応するものとして「はい、静かにします」を入れておく。これにより、ユーザが普通の声の大きさで「黙れ」と言った時には、ステップD18で「はい、静かにします」といった発言をさせ、ユーザが大声で「黙れ」と言った時には、ステップD17で「黙りますよ。黙ればいいんでしょう」とふてくされたような発言をさせることができる。
【0104】
また、ステップD14では、小声専用発言作成用データを利用することにより、同様の対応が小さな声での発言に対しても行うことができる。
【0105】
なお、大声の時や小さな声の時に、通常時とは異なる発言作成アルゴリズムを用いても良い。
【0106】
さらに、ここでは音量情報を利用して会話処理を行うようにしたが、ピッチ情報を利用して同様の会話処理を行うことも可能である。この場合には、適正ピッチ範囲、過去の平均ピッチ、高ピッチ専用発言作成データ、低ピッチ専用発言作成データといった情報を不揮発性メモリ17の所定の領域に予め用意しておき、CPU11がこれらの情報を用いて前記図9と同様の会話処理を行うことになる。
【0107】
すなわち、まず、ユーザ発言の音声認識結果として得られたテキスト情報の中に平均ピッチが適正ピッチ範囲を外れる単位語句があるか否かを調べ、該当する単位語句があれば、その単位語句について再度発を促す発言を作成する(図9のステップD11〜D12に相当する処理)。
【0108】
また、テキスト情報の中に過去の平均ピッチよりも著しく低い単位語句があれば、低ピッチ専用発言作成データを用いて低ピッチに対応した発言を作成する(図9のステップD13〜D14に相当する処理)。テキスト情報の中に過去の平均ピッチよりも著しく高い単位語句があれば、高ピッチ専用発言作成データを用いて高ピッチに対応した発言を作成する(図9のステップD16〜D17に相当する処理)。平均ピッチが過去の平均ピッチと比べて同程度であれば、発言作成用データを用いて通常の発声に対する発言を作成する(図9のステップD18に相当する処理)。発言作成後は今回のピッチ情報を用いて過去の平均ピッチを更新しておく(図9のステップD15に相当する処理)。
【0109】
以上のように本発明の会話システムによれば、ユーザが強く発音した語句をキーワードとして適切な語句として選択して、その語句を用いて発言を作成するので、ユーザの発言意図にあった発言を返事として返すことができる(会話処理(1))。この場合、音声認識結果情報を品詞解析してキーワードの候補を見つけているので、平仮名の語句や平仮名の混じった語句もキーワードにすることができる。
【0110】
また、尻上がりにピッチを上げるだけで疑問の意味を持つような発言を疑問文として正しく判定することができるので、的外れな発言を避けることができる(会話処理(2))。
【0111】
また、同じ語句で複数の意味を有するユーザ発言を正しく解釈できるので、適切な発言を返事として返すことができる(会話処理(3))。同音異義語の誤認識を自動的に修正できるので、手間をかけずに同音異義語が含まれた会話をより正しく行うことができる。同音異義語を判定しきれない場合にそれについてユーザに質問するので、同音異義語を間違って解釈したままで会話を続けてしまうような事態を回避できる。
【0112】
音量やピッチに特徴のある発言があった時には、その音量やピッチの特徴に見合った発言を返事として返すことができるので、より自然で豊富な会話を展開することができる(会話処理(4))。
【0113】
なお、前記実施形態では、平均音量や平均ピッチなど、ある時刻間の音量やピッチの平均値を用いたが、音量やピッチに他の処理を施した値を用いても良い。あるいは、処理を施さないで、音量やピッチそのものを用いても良いし、最低値、最高値など、何らかの選択を施した値を用いても良い。
【0114】
また、単位語句に対応させて音量やピッチを利用したが、文字単位、音素単位など、それを更に細分した形で対応させて利用しても良い。
【0115】
また、音声認識結果として得られたテキスト情報(文字列情報)と音量情報やピッチ情報を対応させるために、音声認識結果情報を単位語句に分解し、各単位語句にスタート時刻とエンド時刻を設けたが、他の手法で対応させても良い。例えば、文字単位や音素単位で時刻情報を設けても良い。あるいは、音声認識処理とピッチ抽出処理と音量抽出処理を各時刻において常に対応づけて行うことで、時刻情報を介さずに、直接、各単位語句や各文字や各音素に対応するピッチ情報や音量情報を得ても良い。この場合には音声認識結果情報の中に、音声認識結果の文字情報と直接対応する形で、ピッチ情報、音量情報が含まれることになる。
【0116】
また、背景に騒音などがある場合には、複数のマイクを用いて背景騒音を除去するなどの仕組みを取り入れれば良い。
【0117】
(第2の実施形態)
次に、本発明の第2の実施形態に係る会話システムについて説明する。
【0118】
第2の実施形態では、会話相手であるユーザの発言(必要に応じて会話システムの発言も含めて)を日時情報と共に過去の発言情報として記憶しておくことで(これを「会話ログ」と呼ぶことにする)、その会話ログを利用して発言する場合を想定している。
【0119】
すなわち、今回のユーザの発言の中に含まれるキーワードが、会話ログのユーザの過去の発言の中にある場合に、会話システムでは、それを思い出す発言ができるものとする。例えば、一年前に「チーズっておいしい」とユーザが言っていたとすると、会話ログにはそのことが発言日時と共に記録されている。したがって、今回、ユーザが「今日の給食でチーズが出たよ」と言ったとすると、「チーズっておいしい、と去年言いましたよね」などと発言したりすることができる。
【0120】
ここで、例えば一年前にユーザが「おいしい」の部分をしり上がりに発音し、「チーズというのはおいしいですか」という意味の質問していた場合において、会話システムが前記第1の実施形態で述べた手法にてその質問に正しく対応できていたとしても、会話ログとして単に「チーズっておいしい」といった記録がなされていると、後にどのような意味で使われたのか判らなくなり、正しい会話を行うことができない。そこで、ユーザの発言意図を正しく反映させた会話ログを作成し、これを利用して会話処理を行うするものとする。
【0121】
以下に、第2の実施形態としての動作を説明する。以下のフローチャートで示される処理は、本システムに備えられたCPU11がプログラムを読み込むことで実行する。
【0122】
図10は本発明の第2の実施形態における会話システムの会話ログ作成処理を示すフローチャートである。この会話ログ作成処理は、上記第1の実施形態で説明したような会話処理の後に実行される。
【0123】
なお、例えば同音異義語で自動的に修正ができる部分については、対応する音声認識結果情報(文字列)がすでに修正されているものとする。また、ここでは単位語句に「!」や「?」の記号を付加するための条件として一定時間以上の無音時間を挙げているが、これは、強調や疑問の意図を含む場合は無音時間が長くなることが一般的であるからである。この無音時間は、対象単位語句のエンド時刻と次の単位語句のスタート時刻から計算できる。
【0124】
まず、CPU11は、ユーザ発言の音声認識結果として得られたテキスト情報の中に平均音量が適正音量範囲を外れる単位語句があるか否かを調べる(ステップE11)。適正音量範囲を示す情報は、不揮発性メモリ17の情報記憶領域22に記憶されている。該当する単位語句があれば(ステップE11のYes)、CPU11はそれらのすべての単位語句の各文字を特定の記号「*」に置き換える(ステップE12)。この「*」は適正音量範囲を外れたことを示す記号である。
【0125】
次に、CPU11は、当該テキスト情報の中から先頭の単位語句を処理対象として抽出し(ステップE13)、その処理対象として抽出した単位語句(以下、これを対象単位語句と呼ぶ)の平均音量が過去の平均音量よりも一定量以上に著しく大きいか否かを調べる(ステップE14)。過去の平均音量を示す情報は、不揮発性メモリ17の情報記憶領域21に記憶されている。なお、ステップE14において、前記ステップE11にて適正音量範囲を外れているものは除外するものとする。
【0126】
過去の平均音量よりも著しく大きい場合には(ステップE14のYes)、CPU11はその対象単位語句が文末にあるか、あるいは、次の単位語句との間に一定時間以上の無音時間があるか否かを調べる(ステップE15)。その結果、対象単位語句が文末にある場合、あるいは、次の単位語句との間に一定時間以上の無音時間がある場合には(ステップE15のYes)、CPU11は対象単位語句の直後に会話の区切りを示す特定の記号「!」を挿入する(ステップE16)。そうでない場合には(ステップE15のNo)、CPU11は対象単位語句を太字に変える(ステップE17)。
【0127】
次に、CPU11は対象単位語句の前半の平均ピッチと後半の平均ピッチを求め、前半の平均ピッチより後半の平均ピッチが高いか否かを調べる(ステップE18)。前半の平均ピッチより後半の平均ピッチが高い場合には(ステップE18のYes)、CPU11はその対象単位語句が文末にあるか、あるいは、次の単位語句との間に一定時間以上の無音時間があるか否かを調べる(ステップE19)。その結果、対象単位語句が文末にある場合、あるいは、次の単位語句との間に一定時間以上の無音時間がある場合には(ステップE19のYes)、CPU11は対象単位語句の直後に疑問文を示す特定の記号「?」を挿入する(ステップE20)。
【0128】
このようにして、当該テキスト情報の中から先頭の単位語句から順に処理対象として抽出して前記同様の処理を繰り返す(ステップE21,E22→E14)。対象単位語句が文末の単位語句になると(ステップE21のYes)、CPU11は最終的に得られたテキスト情報を日時情報と共に会話ログとして不揮発性メモリ17の情報記憶領域25に記憶しておく(ステップE23)。
【0129】
以上の処理により、以下のような会話ログに用いられるテキスト情報が作成される。
【0130】
例1)ユーザが「彼は野球部のキャプテンだ」と発言したが、単位語句「キャプテン」を言う時の声が大きすぎて、音声認識のための適正音量範囲を外れた場合には、特定記号「*」の置き換えがなされて、会話ログのテキスト情報として「彼は野球部の*****だ」が作成される。
【0131】
例2)ユーザが大声で(しかし適正音量範囲内の音量で)、「黙れ」と言った場合には、特定記号「!」の挿入により、会話ログのテキスト情報として「黙れ!」が作成される。
【0132】
例3)ユーザが「おいしい」の部分を尻上がりに「チーズっておいしい」といったように尋ねるように言った場合には、会話ログのテキスト情報として「チーズっておいしい?」が作成される。
【0133】
例4)ユーザが「信念」を(適正音量範囲内の大きな声で)強調し、「勇気と信念が大切だ」と言った場合には、会話ログのテキスト情報として「勇気と信念が大切だ」の「信念」を太字にして作成される。
【0134】
例5)ユーザが「きたない箸だ」と正しい発音で言ったが、音声認識で「きたない橋」といったように誤認識された場合には、会話ログのテキスト情報は「きたない箸だ」となる。これは、会話ログ作成処理に入る前の会話処理で「橋」が「箸」に修正されているためである。
【0135】
このように、ユーザが尻上がりに発音して疑問の意図を表した場合に「?」が挿入されるので、会話ログにも疑問の意味が反映され、また、大きな声で発言した部分には「!」が挿入されたり、太字に変更されるので、会話ログからそのことが分かる。
【0136】
また、音声認識結果に疑いがある部分は「*」で置き換えるので、間違いを会話ログに残す可能性が少なくなり、後に会話ログを利用して発言を作成する際に誤解を避けられる。誤認識した同音異義語は自動的に修正されて会話ログに残る。形容詞や形容動詞以外の単位語句についてもピッチが尻上がりになるかを調べるので、例えば「犬のえさを食べたのはたぬき?」のような他の品詞の疑問文にも対応できる。
【0137】
図11は本発明の第2の実施形態における会話システムの会話処理を示すフローチャートであり、前記会話ログ作成処理にて作成された会話ログを用いて会話する場合の処理が示されている。この会話処理はユーザの発言を音声認識処理すると同時に音量抽出処理およびピッチ抽出処理した後に実行される。
【0138】
CPU11は、ユーザ発言の音声認識結果として得られたテキスト情報の中から不揮発性メモリ17の情報記憶領域25に記憶された会話ログと一致するものを探す(ステップF11)。ユーザ発言に会話ログと一致するものがあれば(ステップF12のYes)、CPU11は当該会話ログを用いてユーザの発言に対する返事としての発言を作成する(ステップF13)。すなわち、ユーザが過去に発言した文句を利用して、例えば一年前に「チーズっておいしい」とユーザが言っていたとすると、今回のユーザ発言「今日の給食でチーズが出たよ」に対し、「チーズっておいしい、と去年言いましたよね」などと発言する。
【0139】
一方、ユーザ発言に会話ログと一致するものがあれば(ステップF12のYes)、CPU11は会話ログを用いない他の手法にてユーザの発言に対する返事としての発言を作成する(ステップF14)。これは、他の手法とは、例えば第1の実施形態で説明したようなキーワードを用いた発言作成などである。
【0140】
このように、第2の実施形態によれば、ユーザの過去の発言情報を利用して返事を返すことができ、ユーザにとっては自分のことをよく分かってくれていると思いながら楽しく会話することができるようになる。
【0141】
なお、本システムを複数のユーザで共有するような場合には、各ユーザ毎に固有のID(識別情報)を用いて、そのIDにて会話ログを個別に記憶しておく必要がある。
【0142】
また、会話ログを表示することで、後日、ユーザが会話日記のような形で会話ログをパソコン上で読めるようにすることもできる。この場合、会話ログの作成に際して他の加工処理を行っても良い。例えば、ピッチ情報や音声情報を用いて話者の感情を推量して、メールなどで用いられる「顔文字」などを挿入しても良い。最も強く発音したキーワードの書式を変えても良い(例えば斜体にしたり、下線を付けるなど)。
【0143】
また、適正音量範囲をはみ出すなどの理由で音声認識結果が疑わしい部分は削除してしまっても良い。あるいは、その部分の書式を変える、その部分の書式を変えるとともに最後に「?」を挿入するなどしても良い。徐々に音量が小さくなってやがて適正音量範囲をはみ出した部分についてはその部分の文字を「…」で置き換えても良い。
【0144】
また、単位語句毎に平均音量や平均ピッチを利用したが、その単位語句が助詞や助動詞などの時には、それにつながる他の単位語句も含めた平均音量や平均ピッチを利用しても良い。
【0145】
また、会話システムの会話ログに適用したが、音声で入力し文章を作成するワープロなどに適用しても良い。
【0146】
要するに、本発明は前記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。更に、前記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、実施形態で示される全構成要件から幾つかの構成要件が削除されても、「発明が解決しようとする課題」で述べた効果が解決でき、「発明の効果」の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【0147】
また、上述した書く実施形態において記載した手法は、コンピュータに実行させることのできるプログラムとして、例えば磁気ディスク(フロッピーディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリなどの記録媒体に書き込んで各種装置に適用したり、通信媒体により伝送して各種装置に適用することも可能である。本装置を実現するコンピュータは、記録媒体に記録されたプログラムを読み込み、このプログラムによって動作が制御されることにより、上述した処理を実行する。
【0148】
【発明の効果】
以上詳記したように本発明によれば、ユーザの発言を音声認識してテキスト化すると共に音量抽出またはピッチ抽出を行い、その音量情報またはピッチ情報に基づいてユーザの発言を解析するようにしたため、ユーザの発言意図を正しく解釈して、そのユーザの発言意図に合った返事を返すことができる。
【0149】
また、ユーザの発言の中で、例えば大きく発した語句や疑問調で発した語句など、音量的あるいはピッチ的に特徴にある語句についてはその特徴に応じた加工を施して過去の発言情報(会話ログ)として記憶しておくことで、以後、その過去の発言情報の意味を誤解せずに利用して発言できるようになる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る会話システムのハードウェア構成を示すブロック図。
【図2】前記会話システムのワークメモリの認識結果バッファに記憶される音声認識結果情報の一例を示す図。
【図3】前記会話システムの不揮発性メモリの情報記憶領域に記憶される否定確認データの一例を示す図。
【図4】前記会話システムの不揮発性メモリの情報記憶領域に記憶される同音異義語確認データの一例を示す図。
【図5】前記会話システムのCPUが行うA/D変換後のデータの処理の流れを示す図。
【図6】本発明の第1の実施形態における会話システムの会話処理(1)を示すフローチャート。
【図7】本発明の第1の実施形態における会話システムの会話処理(2)を示すフローチャート。
【図8】本発明の第1の実施形態における会話システムの会話処理(3)を示すフローチャート。
【図9】本発明の第1の実施形態における会話システムの会話処理(4)を示すフローチャート。
【図10】本発明の第2の実施形態における会話システムの会話ログ作成処理を示すフローチャート。
【図11】本発明の第2の実施形態における会話システムの会話処理を示すフローチャート。
【符号の説明】
11…CPU
12…音声入力部
13…A/D変換部
14…音声出力部
15…D/A変換部
16…ワークメモリ
16a…認識結果バッファ
16b…音量バッファ
16c…ピッチバッファ
17…不揮発性メモリ
17a…プログラム領域
18〜25…情報記憶領域
【発明の属する技術分野】
本発明は、会話型ロボット等の玩具類やテレビゲーム機などに用いられる会話システムであって、ユーザがコンピュータを相手に会話することで楽しみや安らぎなどを得ることのできる会話システム及び会話処理プログラムに関する。
【0002】
【従来の技術】
従来、テレビゲーム機や玩具等に用いられる会話システムの多くは、通常、予め決められたシナリオに沿って会話を行う方式(以下、「シナリオ方式」と呼ぶ)を採用している(例えば特許文献1参照)。
【0003】
この「シナリオ方式」で用いられるシナリオは、実現性を考慮して、会話システムがまず話題を限定するような発言を行い、その後の会話の進展も、分岐が極力少なくなるように作られている。このため、人間(ユーザ)が会話の主導権をとれず、会話の流れが平凡だったり、不自然だったりするなどの欠点がある。そこで、ユーザの発言を音声認識により文字情報に変換し、その文字情報から返事を作り出すための情報を得て発言することが考えられている。
【0004】
その1つの方法として、例えば音声認識結果として得られた文字情報から2文字以上の漢字やカタカナからなる語句をキーワードとして抽出し、そのキーワードを利用してユーザに発言するものがある。しかしながら、このキーワードによる方法では、ユーザの発言の中に複数のキーワードが含まれていた場合に、最も適切なキーワード(つまり、ユーザの発言意図を最も反映したキーワード)をどうやって選択するのかといった問題がある。
【0005】
すなわち、例えば、「彼は野球部のキャプテンだ」といった発言をユーザがしたとすると、その中には「野球部」と「キャプテン」といった2つのキーワードが含まれる。しかし、ユーザの発言を音声認識して得られた文字情報からだけでは、ユーザの発言意図が「野球部」にあったのか「キャプテン」にあったのか判らないない。
【0006】
また、ユーザの発言をフィードバックして発言する方法がある。これは、例えば「彼は野球部のキャプテンだ」といったユーザの発言に対し、「そうですか。キャプテンなんですか」といったように発言する方法である。しかしながら、自然な会話においては、例えばケーキがおいしいかどうかを質問するような場合に、文末のピッチを上げて(尻上がりに)「このケーキおいしい」などと言うことがある。これを音声認識すると、単に「このケーキおいしい」となるので、文章を見る限りでは疑問文かどうかは判らない。このため、ユーザの発言をそのままフィードバックしてしまうと、「そうですか。おいしいのですか」などと的外れな返事をしてしまうことになる。
【0007】
また、通常は否定の意味を示す「ない」という言葉が含まれる場合にはフィードバック型発言は行われないようになっている。例えば、ユーザが「きれいじゃない」と言った時はフィードバック型発言は行われない。ところが、この「きれいじゃない」は、アクセントの付け方によっては、「きれいではない」という否定的な意味と、「きれいだ」という肯定的な意味に取れる場合がある。「フィードバック型会話システム」では、「きれいじゃない」が「きれいだ」の意味の場合に適切に対応することができない。
【0008】
【特許文献1】
特開2002−169590号公報
【0009】
【発明が解決しようとする課題】
上述したように、従来の会話システムでは、ユーザの発言意図がどこにあるのか、疑問調で言ったのか、どのような意味で言ったかといったことが判らず、会話として適切に対応することができなかった。
【0010】
そこで、本発明は、ユーザの発言意図を正しく解釈して会話として適切な対応を取ることのできる会話システム及び会話処理プログラムを提供することを目的とする。
【0011】
【課題を解決するための手段】
(1) 本発明の会話システムは、ユーザとの間で会話を行う会話システムであって、会話相手であるユーザの発言を入力する入力手段と、この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、ユーザの発言に含まれる各語句の音量情報またはピッチ情報を抽出する情報抽出手段と、この情報抽出手段によって抽出された各語句の音量情報またはピッチ情報に基づいて、前記音声認識手段によって得られた認識結果情報を解析してユーザの発言に対する返事としての発言を作成する発言作成手段と、この発言作成手段によって作成された発言を出力する出力手段とを具備して構成される。
【0012】
このような構成の会話システムによれば、会話相手であるユーザの発言が入力されると、そのユーザの発言が音声認識されると共に、当該発言に含まれる各語句の音量情報またはピッチ情報が抽出される。そして、各語句の音量情報またはピッチ情報に基づいて、音声認識にて得られた認識結果情報が解析されてユーザの発言に対する返事としての発言が作成されて出力される。このように、音声認識と共に音量抽出またはピッチ抽出を行うことで、音声認識結果として得られる文字情報かせだけでは判らないユーザの発言意図を正しく解析して、ユーザの発言意図に合った返事を返すことができる。
【0013】
(2) 本発明の会話システムは、ユーザとの間で会話を行う会話システムであって、会話相手であるユーザの発言を入力する入力手段と、この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、ユーザの発言に含まれる各語句の音量情報を抽出する音量抽出手段と、この音量抽出手段によって抽出された各語句の音量情報に基づいて、前記音声認識手段によって得られた認識結果情報の中からキーワードとする語句を選択するキーワード選択手段と、このキーワード選択手段によって選択された語句を用いてユーザの発言に対する返事としての発言を作成する発言作成手段と、この発言作成手段によって作成された発言を出力する出力手段とを具備して構成される。
【0014】
このような構成の会話システムによれば、会話相手であるユーザの発言が入力されると、そのユーザの発言が音声認識されると共に、当該発言に含まれる各語句の音量情報が抽出される。そして、各語句の音量情報に基づいて、音声認識にて得られた認識結果情報の中からキーワードとする語句が選択され、その選択された語句を用いてユーザの発言に対する返事としての発言が作成されて出力される。このように、音声認識と共に音量抽出を行うことで、例えばユーザ発言の中に複数のキーワードが含まれているような場合に、最も大きく発せられた語句をキーワードとして用いることで、ユーザの発言意図に合った返事を返すことができる。
【0015】
また、前記構成の会話システムにおいて、前記キーワード選択手段は、特定の品詞を対象としてキーワードとする語句の選択を行うことを特徴とする。これにより、例えば名詞のように、キーワードとして適切な品詞だけを対象にしてキーワードの選択が行われるので、より適切な返事を返すことができる。
【0016】
(3) 本発明の会話システムは、ユーザとの間で会話を行う会話システムであって、会話相手であるユーザの発言を入力する入力手段と、この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、ユーザの発言に含まれる各語句のピッチ情報を抽出するピッチ抽出手段と、このピッチ抽出手段によって抽出された各語句のピッチ情報に基づいて、前記音声認識手段によって得られた認識結果情報の中に疑問の意味が含まれているか否かを判定する第1の判定手段と、この第1の判定手段の判定結果に応じてユーザの発言に対する返事としての発言を作成する発言作成手段と、この発言作成手段によって作成された発言を出力する出力手段とを具備して構成される。
【0017】
このような構成の会話システムによれば、会話相手であるユーザの発言が入力されると、そのユーザの発言が音声認識されると共に、当該発言に含まれる各語句のピッチ情報が抽出される。そして、各語句のピッチ情報に基づいて、音声認識にて得られた認識結果情報の中に疑問の意味が含まれているか否かが判定され、その判定結果に応じてユーザの発言に対する返事としての発言が作成されて出力される。このように、音声認識と共にピッチ抽出を行うことで、例えばユーザが疑問調で発言したような場合に、その疑問に答えるような形で返事を返すことができる。
【0018】
また、前記構成の会話システムにおいて、前記第1の判定手段は、特定の品詞を対象として、その品詞の前半部分と後半部分のピッチ情報を比較することにより疑問の意味であるか否かを判断することを特徴とする。これにより、例えば形容詞または形容動詞を対象として、ユーザがその品詞の前半部分よりも後半部分を発声しているような場合(つまり、尻上がりに発声しているような場合)に、疑問の意味が含まれているものとして、その疑問に答えるような形で返事を返すことができる。
【0019】
また、前記構成の会話システムにおいて、認識結果情報の中に否定または肯定の意味を持つ特定の語句がある場合に、その語句の音量変化を調べて否定または肯定の意味であるかを判定する第2の判定手段をさらに備え、前記発言作成手段は、前記第2の判定手段の判定結果に応じて当該ユーザの発言に対する返事としての発言を作成することを特徴とする。これにより、例えば「きれいじゃない」のように、アクセントの違いによって否定または肯定の意味を持つような語句に対し、その語句の音量変化から否定または肯定の意味であるかことを判定して適切な対応を取ることができる。
【0020】
(4) 本発明の会話システムは、ユーザとの間で会話を行う会話システムであって、会話相手であるユーザの発言を入力する入力手段と、この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、この音声認識手段によって得られた認識結果情報の中から同音異義語として指定された語句を抽出する同音異義語抽出手段と、この同音異義語抽出手段によって抽出された語句のピッチ変化または音量変化に基づいて当該語句が正しいか否かを判定する判定手段と、この判定手段により当該語句が間違っていると判定された場合に、そのピッチ変化または音量変化に基づいて正しい同音異義語に置き換える置換手段と、この置換手段によって置き換えられた語句を用いてユーザの発言に対する返事としての発言を作成する発言作成手段と、この発言作成手段によって作成された発言を出力する出力手段とを具備して構成される。
【0021】
このような構成の会話システムによれば、会話相手であるユーザの発言が入力されると、そのユーザの発言が音声認識されると共に、その認識結果情報から同音異義語として指定された語句が抽出され、その語句のピッチ変化または音量変化に基づいて当該語句が正しいか否か否かが判定される。そして、当該語句が間違っていると判定された場合には正しい同音異義語に置き換えられ、その置き換え後の語句を用いてユーザの発言に対する返事としての発言が作成されて出力される。このように、同音異義語として指定された語句のピッチ変化または音量変化から当該語句が意味的に正しい語句に置き換えられるので、その置き換え後の語句を用いて適切な返事を返すことができる。
【0022】
また、前記構成の会話システムにおいて、前記発言作成手段は、前記判定手段により当該語句を判別できなかった場合に、どの同音異義語であるかをユーザに確認するための発言発言を作成することを特徴とする。これにより、例えばユーザの発声が悪いなどで、ピッチ変化または音量変化から当該語句を判別できなかった場合にユーザに確認することで正すことができる。
【0023】
(5) 本発明の会話システムは、ユーザとの間で会話を行う会話システムであって、会話相手であるユーザの発言を入力する入力手段と、この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、ユーザの発言に含まれる各語句の音量情報またはピッチ情報を抽出する情報抽出手段と、この情報抽出手段によって抽出された各語句の音量情報またはピッチ情報に基づいて、前記音声認識手段によって得られた認識結果情報の中に通常とは異なる音量あるいはピッチで発せられた語句が含まれているか否かを判定する第1の判定手段と、この第1の判定手段の判定結果に応じて音量的あるいはピッチ的な特徴を加味してユーザの発言に対する返事としての発言を作成する発言作成手段と、この発言作成手段によって作成された発言を出力する出力手段とを具備して構成される。
【0024】
このような構成の会話システムによれば、会話相手であるユーザの発言が入力されると、そのユーザの発言が音声認識されると共に、当該発言に含まれる各語句の音量情報またはピッチ情報が抽出される。そして、各語句の音量情報またはピッチ情報に基づいて、音声認識にて得られた認識結果情報の中に通常とは異なる音量あるいはピッチで発せられた語句が含まれているか否かが判定され、その判定結果に応じてユーザの発言に対する返事としての発言が作成されて出力される。このように、通常とは異なる音量あるいはピッチで発せられた語句がある場合に、その音量あるいはピッチに対応した発言を返すことで、より自然な会話を実現できる。
【0025】
また、前記構成の会話システムにおいて、前記音声認識手段によって得られた認識結果情報の中に音量あるいはピッチが適正範囲を外れる語句が含まれているか否かを判定する第2の判定手段をさらに備え、前記発言作成手段は、前記第2の判定手段により適正範囲を外れる語句が含まれていると判定された場合に当該語句について再度発声を促す発言を作成することを特徴とする。これにより、音量あるいはピッチが適正範囲を外れる語句があれば、その語句を再度発声させて正しい会話を進めることができる。
【0026】
(6) 本発明の会話システムは、ユーザとの間で会話を行う会話システムであって、会話相手であるユーザの発言を入力する入力手段と、この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、ユーザの発言に含まれる各語句の音量情報またはピッチ情報を抽出する情報抽出手段と、この情報抽出手段によって抽出された各語句の音量情報またはピッチ情報に基づいて、前記音声認識手段によって得られた認識結果情報の中の音量的あるいはピッチ的に特徴のある語句をその特徴に応じて加工する加工手段と、この加工手段によって加工された語句を含む認識結果情報を発言日時と共に過去の発言情報として記憶する記憶手段と、この記憶手段に記憶された過去の発言情報を利用してユーザの発言に対する返事としての発言を作成する発言作成手段と、この発言作成手段によって作成された発言を出力する出力手段とを具備して構成される。
【0027】
このような構成の会話システムによれば、会話相手であるユーザの発言が入力されると、そのユーザの発言が音声認識されると共に、当該発言に含まれる各語句の音量情報またはピッチ情報が抽出される。そして、各語句の音量情報またはピッチ情報に基づいて、認識結果情報の中から音量的あるいはピッチ的に特徴のある語句が抽出され、その抽出された語句がその音量的あるいはピッチ的な特徴に応じて加工される。この加工後の語句を含む認識結果情報は発言日時と共に過去の発言情報として記憶され、以後、その過去の発言情報を利用した発言が作成されて出力される。このように、例えば大きく発声された語句は太字にしたり、「!」を付加しておくなど、その特徴に応じた加工を施してから発言日時と共に過去の発言情報として記憶しておくことにより、過去の発言情報を利用して発言する場合に、ユーザがどのような意図で発言した語句であるかを判別することができ、適切な返事を返すことができる。
【0028】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を説明する。
【0029】
(第1の実施形態)
図1は本発明の一実施形態に係る会話システムのハードウェア構成を示すブロック図である。本発明の会話システムは、ユーザの発言に対し、あたかも人間が返事をしているかの如く発言して会話を進めるためのものであり、例えば会話型ロボット等の玩具類やテレビゲーム機などに搭載される。
【0030】
図1では、本システムを汎用のコンピュータによって実現した場合の基本的な構成が示されており、CPU11、音声入力部12、A/D変換部13、音声出力部14、D/A変換部15、ワークメモリ16、不揮発性メモリ17によって構成されている。
【0031】
CPU11は、不揮発性メモリ17などに記憶されたプログラムを読み込むことにより、そのプログラムに記述された手順に従って所定の処理を実行する。音声入力部12は、会話時にユーザの音声を入力するためのマイクである。この音声入力部12から入力されたユーザの音声(アナログデータ)はA/D変換部13でデジタルデータに変換されてCPU11に取り込まれる。CPU11はワークメモリ16を用いて処理を行い、ユーザの発言に対する返事をD/A変換部15を介して出力する。D/A変換部15は、CPU11によって生成された音声データをアナログデータに変換して音声出力部14に与える。音声出力部14は、これを外部に出力するためのスピーカである。
【0032】
ワークメモリ16には、CPU11の処理動作に必要なデータが記憶される。このワークメモリ16には、音声認識結果情報(文字情報)をバッファしておくための認識結果バッファ16a(図2参照)や、その音声認識結果に対する音量情報をバッファしておくための音量バッファ16b、ピッチ情報をバッファしておくためのピッチバッファ16cなどが設けられている。
【0033】
音声認識結果情報は、ユーザの発言を音声認識した結果のテキスト情報と、音声認識結果のそれぞれの単位語句が発声開始された時刻を表すスタート時刻とそれが発声終了した時刻を表すエンド時刻からなるデータである。音量情報とピッチ情報は、それぞれユーザが発言している間の各時刻と対応させた音量とピッチの情報である。例えば、ユーザの発言が時刻t1からt6まで発声されたとすると、時刻t1からt6までの音量とピッチが一定の時間間隔毎に記録されている。なお、この時間間隔は音声認識結果情報の単位語句が発声されている時間よりも十分に短いものとする。
【0034】
不揮発性メモリ17は、例えばフラッシュメモリからなり、電源が切れても記憶内容が消えない書き換え可能なメモリである。この不揮発性メモリ17には、本発明の会話システムを実現するためのプログラムが記憶されたプログラム領域17aの他、会話処理に必要な各種情報が記憶された情報記憶領域18〜25が設けられている。
【0035】
この不揮発性メモリ17の情報記憶領域18には、ユーザに対する返事としての発言を作成するための発言作成用データが記憶されている。情報記憶領域19には、肯定の意味と否定の意味を持つ語句を確認するための否定確認データが記憶されている(図3参照)。情報記憶領域20には、複数の意味を持つ同音異義語を確認するための同音異義語確認データが記憶されている(図4参照)。情報記憶領域21には、ユーザの発した過去の平均音量が語句単位で記憶されている。情報記憶領域22には、ユーザの音声を正しく音声認識するための適正音量範囲が記憶されている。情報記憶領域23には、大声に対応した発言を作成するための大声専用発言作成用データが記憶されている。情報記憶領域24には、小声に対応した発言を作成するための小声専用発言作成用データが記憶されている。情報記憶領域25には、会話ログが記憶される。この会話ログについては、後に第2の実施形態で説明する。
【0036】
図2はワークメモリ16の認識結果バッファ16aに記憶される音声認識結果情報の一例を示す図であり、ユーザの複数の発言例に対する音声認識結果情報が示されている。
【0037】
ユーザの発言はその発言を構成する語句の単位に分解されて、それぞれの単位について、それが発声された時刻を表すスタート時刻とエンド時刻の情報がある。例えば、図2(a)に示す音声認識結果情報例1では、「彼は野球部のキャプテンだ」とユーザが発言した場合において、「彼」という語句は時刻t1からt2の間に発声されたことを表している。同様に、「は」という語句は時刻t3からt4の間に発声され、「野球部」という語句は時刻t5からt6の間に発声され、「の」という語句は時刻t7からt8の間に発声され、「キャプテン」という語句は時刻t9からt10の間に発声され、「だ」という語句は時刻t11からt12の間に発声されたことを表している。
【0038】
図3は不揮発性メモリ17の情報記憶領域19に記憶される否定確認データの一例を示す図である。
【0039】
否定確認データは、「確認対象パターン」、「平均音量変化」、「意味」からなる。例えば、「きれいじゃない」の「じゃない」といった語句は、アクセントの違いによって否定の意味または肯定の意味を持つ。そこで、「じゃない」に対し、前半部の「じゃ」の平均音量と後半部の「ない」の平均音量を比較した場合に、前者が後者より大きい場合(大→小といった音量変化の場合)には肯定の意味とし、前者が後者より小さい場合(小→大といった音量変化の場合)には否定の意味として判定するための否定確認データが情報記憶領域19に予め登録されている。
【0040】
図4は不揮発性メモリ17の情報記憶領域20に記憶される同音異義語確認データの一例を示す図である。
【0041】
同音異義語確認データは、「グループ番号」、「分割数」、「確認対象語句」、「平均ピッチ変化」からなる。例えば、「はし」といった読みに対しては「端」,「橋」,「箸」といった同音異義語があり、それぞれアクセントが違う。そこで、「はし」を「は」と「し」に2分割して、平均ピッチ変化が「高高」の場合に「端」、「高低」の場合に「橋」、「低高」の場合に「箸」として判定するための同音異義語確認データが情報記憶領域20に予め登録されている。
【0042】
このような構成の会話システムにおいて、音声入力部12から入力されたユーザの音声はA/D変換部13にてデジタルデータに変換された後、CPU11に与えられる。
【0043】
図5に本システムに搭載されたCPU11が行うA/D変換後のデータの処理の流れを示す。A/D変換された音声データは音声認識処理(a)によりディクテーションされ、テキスト形式の文章に変換されると同時に、ピッチ抽出処理(b)によりピッチ情報が抽出され、音量抽出処理(b)により音量情報が抽出される。
【0044】
次に、このテキスト形式の文章に対して会話処理(d)が施され、ユーザの発言に対する返事としての発言が作成され、読み上げ処理(e)によって読み上げられる。このとき、CPU11にてユーザに対する返事として作成された発言の音声データはD/A変換部15によってアナログデータに変換された後、スピーカ等の音声出力部14を通じて出力される。
【0045】
ここで、「音声認識処理」、「ピッチ抽出処理」、「音量抽出処理」、「読み上げ処理」については一般的に知られている手法を用いるものとしてその詳しい説明は省略する。以下では、本システムの「会話処理」を中心に、図6乃至図9に示すフローチャートを参照して具体的な処理手順について詳しく説明する。なお、これらのフローチャートで示される処理は、本システムに備えられたCPU11がプログラムを読み込むことで実行する。
【0046】
また、本出願人によって出願済みの会話処理(特願2002−233090号公報参照)や、人工知能のような高度な処理を行わずに本当の会話らしいものを実現する、一般に人工無能と称される方式の会話処理を併用して「相手にフィードバックする発言」を作り出す会話処理(特願2002−355628号公報参照)はすべて行えるものとする。すなわち、キーワードを利用した発言、フィードバック型の発言、人工無能方式による発言などが可能である。図1に示す不揮発性メモリ17の発言作成用データは、これらの発言を作成する時に用いるすべてのデータである。
【0047】
以下では、個々の発明の本質に焦点をあてて分かりやすくするために、複数の会話処理(1)〜(5)に分けて説明するが、実際には、これらの会話処理(1)〜(5)が組み合わさった形で本システムの会話処理が構成される。本システムでは、ユーザの発言を音声認識してテキスト化すると共に音量抽出またはピッチ抽出を行い、その音量情報またはピッチ情報に基づいてユーザの発言を解析して、ユーザの発言に対する返事としての発言を作成する。
【0048】
・会話処理(1)
まず、本発明の会話システムによって実現される会話処理(1)について説明する。
【0049】
会話処理(1)では、ユーザの発言に対し、音声認識結果として得られたテキスト情報(文字情報)に対応した各語句の音量情報を調べることにより、その音量情報に基づいて、ユーザ発言の中からキーワードを選択して発言(返事)を作成することを特徴とする。
【0050】
図6は本発明の第1の実施形態における会話システムの会話処理(1)を示すフローチャートであり、この会話処理(1)はユーザの発言を音声認識処理すると同時に音量抽出処理およびピッチ抽出処理した後に実行される。
【0051】
CPU11は、ユーザ発言の音声認識結果として得られたテキスト情報を品詞解析して、そのテキスト情報の中からキーワード対象として指定された名詞を抽出する(ステップA11)。その際、名詞が1つだけ抽出された場合には(ステップA12→A13のNo)、CPU11は、当該名詞をキーワードとして特定してワークメモリ16内の図示せぬバッファに記憶した後(ステップA14)、そのキーワードを用いてユーザの発言に対する返事としての発言を作成する(ステップA17)。なお、キーワードを用いた発言作成処理については、例えば特願2002−233090号公報に開示されており、ここではその詳しい説明は省略するものとする。
【0052】
一方、複数の名詞が存在する場合には(ステップA13のYes)、CPU11はこれらの名詞のスタート時刻からエンド時刻までの音量情報を用いて各名詞が発生されている間の平均音量を計算する(ステップA15)。そして、CPU11は、その平均音量の最も大きい名詞をキーワードとして選択し、これをワークメモリ16内の図示せぬバッファに記憶した後(ステップA14)、そのキーワードを用いてユーザの発言に対する返事としての発言を作成する(ステップA17)。
【0053】
また、ユーザ発言の音声認識結果情報(テキスト情報)に名詞がなかった場合には(ステップA12のNo)、CPU11はキーワードを用いない他の手法にてユーザの発言に対する返事としての発言を作成する(ステップA18)。キーワードを用いない他の手法とは、例えば特願2002−233090号公報の従来技術して開示されているシナリオ方式などである。
【0054】
ここで、ステップA15〜A17の処理について、図2(a)の音声認識結果情報例1を用いて具体的に説明する。
【0055】
音声認識結果情報例1に示すように、ユーザが「彼は野球部のキャプテンだ」と発言したとすると、その中の「彼」,「野球部」,「キャプテン」が名詞として抽出される。そして、「彼」については時刻t1からt2の間の平均音量、「野球部」については時刻t5からt6の間の平均音量、「キャプテン」については時刻t9からt10の間の平均音量が計算され、最も平均音量の高いものがキーワードとなる。
【0056】
このように、キーワードの候補が複数得られた場合に、その中の最も平均音量の高いキーワードを用いて発言を作成することで、例えば「野球部」が強調されて発言された時には「そうですか、野球部なんですか」、「キャプテン」が強調されて発言された時には「そうですか、キャプテンなんですか」、「彼」が強調されて発言された時には「そうですか、彼なんですか」などといったように、ユーザの発言意図とかみ合った発言を返事として返すことができ、自然な会話を楽しむことができるようになる。
【0057】
この例とは異なる例も考えられる。例えば、「彼は野球部のキャプテンだ」の場合、「彼が」ではなく「彼は」となっているので、ユーザが「彼」を強調する意図がある可能性は少ないと考えられる。このような音声認識結果情報のテキストから得られる判断を併用してキーワードを決めても良い。つまり、例えば「彼」を候補から外す、あるいは、平均音量で比較する前に「彼」の平均音量から一定値を差し引くなどである。
【0058】
なお、ここでは名詞をキーワードの対象としたが、他の品詞も候補として選んでも良い。また、候補を絞るのに品詞を利用したが、他の方法で候補を選んでも良い。例えば提案書「会話システム」のように漢字やカタカナで候補を絞り込んでも良い。また、キーワードの候補となれる語句のリストを予め設けて、そのリストにあった語句だけを候補としても良い。
【0059】
・会話処理(2)
次に、本発明の会話システムによって実現される会話処理(2)について説明する。
【0060】
会話処理(2)では、フィードバック型発言を行う場合を想定しており、ユーザの発言に対し、音声認識結果として得られたテキスト情報(文字列情報)に対応したピッチ情報を調べることにより、そのピッチ情報に基づいて疑問の意味が含まれているかどうかを判定して発言を作成することを特徴とする。
【0061】
図7は本発明の第1の実施形態における会話システムの会話処理(2)を示すフローチャートであり、この会話処理(2)はユーザの発言を音声認識処理すると同時に音量抽出処理およびピッチ抽出処理した後に実行される。
【0062】
なお、ここでは簡単のために、形容詞または形容動詞がひとつだけ抽出されるものとして処理を示してある。また、同じく簡単のために、疑問または否定の可能性がある場合だけフィードバック型発言を避ける例を示した。ステップB13はそのための処理であり、例えば「か」という文字が文末にある場合や文中に「なぜ」がある場合には疑問の可能性ありと判断する。また、「ない」やこの活用形が文中にある場合には否定の可能性ありと判断するものとする。
【0063】
CPU11は、ユーザ発言の音声認識結果として得られたテキスト情報を品詞解析して、そのテキスト情報の中から形容詞または形容動詞を抽出する(ステップB11)。形容詞または形容動詞があれば(ステップB12のYes)、続いて、CPU11は当該テキスト情報の中に疑問または否定の可能性を示す語句があるか否かを判断する(ステップB13)。
【0064】
上述したように、例えば「か」という文字が文末にある場合や文中に「なぜ」がある場合には疑問の可能性ありと判断する。また、「ない」やこの活用形が文中にある場合には否定の可能性ありと判断する。不揮発性メモリ17には、このときの判断条件を示す情報が記憶されており、CPU11はその情報を参照することで疑問または否定の判断を行う。
【0065】
ここで、疑問または否定の可能性を示す語句がない場合には(ステップB13のNo)、CPU11は当該テキスト情報から抽出した形容詞または形容動詞のスタート時刻からエンド時刻までのピッチ情報を用いて、その語句の前半部分の平均ピッチと後半部分の平均ピッチをそれぞれ計算し(ステップB14)、どちらの平均ピッチが高いのかを調べる(ステップB15)。前半部分の平均ピッチより後半部分の平均ピッチが高い場合、つまり、尻上がりの発音であった場合には(ステップB15のYes)、疑問の意味が含まれている可能性があるので、CPU11はフィードバック型以外の手法にてユーザの発言に対する返事としての発言を作成する(ステップB19)。フィードバック型以外の手法とは、例えばシナリオ方式などである。
【0066】
一方、前半部分の平均ピッチより後半部分の平均ピッチが低い場合、つまり、尻下がりの発音であった場合には(ステップB15のNo)、当該テキスト情報から抽出した形容詞または形容動詞を用いてフィードバック型の発言を作成する(ステップB16)。すなわち、形容詞や形容動詞の前後に予め用意された特定の文字列を接続して、ユーザの発言に対する返事としての発言を作成する。例えば、形容詞の前に「そうですか。」、形容詞の後に「のですか」をつなげて、形容詞が「おいしい」の場合には、「そうですか。おいしいのですか」などの発言を作成する。なお、このフィードバック型の発言作成処理については、例えば特願2002−355628号公報に開示されており、ここではその詳しい説明は省略するものとする。
【0067】
また、前記ステップB13において、疑問または否定の可能性を示す語句があった場合には(ステップB13のYes)、CPU11はその語句が否定確認データの確認対象パターンに含まれるか否かを調べる(ステップB17)。否定認確認データとは、図3に示すように、「じゃない」といったようなアクセントの違いによって否定の意味または肯定の意味を持つ語句を対象としたデータであり、これは不揮発性メモリ17の情報記憶領域19に記憶されている。
【0068】
前記疑問または否定の可能性を示す語句が否定認確認データの確認対象パターンに含まれていれば(ステップB17のYes)、CPU11はその語句の平均音量変化から肯定の意味であるか否定の意味であるかを判断する(ステップB18)。その結果、CPU11は当該語句が肯定の意味であった場合には前記ステップB14からの処理を行い、否定の意味であった場合には前記ステップB19の処理を行う。
【0069】
ここで、上述した処理について具体例を挙げて説明する。
【0070】
図2(b)に示す音声認識結果情報例2で説明すると、まず、ユーザ発言である「このケーキおいしい」の中から「おいしい」といった形容詞が抽出される。この場合、「このケーキおいしい」には疑問や否定を示す語句がないのでステップB14へ進み、「おいしい」が発声された中間の時刻t56=(t5+t6)/2が計算される。これを用いてピッチ情報によりt5からt56までの平均ピッチとt56からt6までの平均ピッチが計算される。t5からt56までの平均ピッチが「前半部分の平均ピッチ」、t56からt6までの平均ピッチが「後半部分の平均ピッチ」である。前半部分の平均ピッチよりも後半部分の平均ピッチが高い場合には、「おいしい」を尻上がりに発声した場合なので、疑問の意味が含まれている可能性がある。
【0071】
そこで、このような場合にはフィードバック型の発言を行わない。この手法だと、口語では頻繁に行われる語順の逆転にも対応できる。例えば、「おいしい、このケーキ」と言った場合にも対応できる。つまり、音声認識結果の文字列からは知ることができない疑問の判定が可能となる。
【0072】
また、図2(c)に示す音声認識結果情報例3で説明すると、ユーザ発言「きれいじゃない」には「ない」が含まれているのでステップB17へ進むが、図3に示すように、「じゃない」が否定確認データの確認対象パターンに該当するので、ステップB18にて否定確認データの平均音量変化に従い、「じゃ」の平均音量(時刻t3からt4の平均音量)と「ない」の平均音量(時刻t5からt6の平均音量)が比較される。そして、前者が後者より平均音量が大きい場合には、否定確認データの「意味」に従って肯定の意味であると判定され、それ以外は否定の意味であると判定される。これにより、「きれいだ」といった肯定の意味である「きれいじゃない」といったユーザ発言に対して、フィードバック型発言ができるようになる。
【0073】
なお、ここでは簡単のために、形容詞または形容動詞のみのピッチ変化を調べたが、形容詞や形容動詞に接続される他の品詞も含めてピッチ変化を調べても良い。例えば、「このケーキおいしかった」であれば、「おいしかっ」が活用変化した形容詞で「た」が助動詞だが、形容詞+助動詞である「おいしかった」の部分のピッチ変化を調べれば、これが疑問文かどうかが分かる。
【0074】
また、形容詞または形容動詞を用いた「フィードバック型発言」を行ったが、動詞や名詞などの他の品詞を用いても良い。もちろん「フィードバック型発言」以外に利用しても良い。例えば、これと同様の手法によりユーザの発言が質問なのかどうかを判定して、質問と判定した場合には、その質問に答える発言をしても良い。否定である肯定であるかの判定を用いて、それぞれの場合に正しく反論するような発言を行っても良い。
【0075】
また、品詞を解析するだけではなく、文の構造も解析して、疑問文であるかどうかを判定するにふさわしい語句を見つけ出しても良い。
【0076】
反対に、品詞解析も構文解析も行わずに、他の解析手法を用いても良い。例えば、質問かどうかを判定する際に、文末に限定してそのピッチの高低変化を調べて疑問文であるかどうかを判定しても良い。あるいは、発言の途中に一定時間以上の無音がある時には、その直前の部分のピッチ変化を調べて、そこに疑問の意味が含まれているかどうかを判定しても良い。
【0077】
また、形容詞または形容動詞を前半と後半に分けてピッチを調べたが、最後の一定部分をそれ以前と比べるなど、他の方法を用いても良い。
【0078】
また、疑問の意味を含まない時の各語句のピッチ変化の情報を予め持ち、それと比較することで疑問の意味が含まれているかを判定しても良い。「じゃない」の判定では、単位語句の平均音量の比較を利用したが、他の手法で音量を利用しても良い。例えば、肯定の場合と否定の場合の典型的な音量差を示す情報を持ち、どちらの差に近いかで判定しても良い。語句単位ではなく、語句を細分した単位で調べても良い。否定か肯定かの判定に音量を用いたが、ピッチまたはピッチと音量の両方を利用して判定しても良い。
【0079】
・会話処理(3)
次に、本発明の会話システムによって実現される会話処理(3)について説明する。
【0080】
現状の音声認識技術では、同音異義語を正しく認識することは難しい。このため、同音異義語がユーザの発言に含まれていると、会話システムがその発言の意味を誤解してしまうことが多かった。会話処理(3)では、このような同音異義語に対し、ピッチ変化からユーザの意図していた同音異義語を正しく認識して発言することを特徴とするものである。
【0081】
図8は本発明の第1の実施形態における会話システムの会話処理(3)を示すフローチャートであり、この会話処理(3)はユーザの発言を音声認識処理すると同時に音量抽出処理およびピッチ抽出処理した後に実行される。
【0082】
CPU11は、ユーザ発言の音声認識結果として得られたテキスト情報の中に同音異義語確認データの確認対象語句があるか否かを調べる(ステップC11)。同音異義語確認データとは、図4に示すように、「はし」に対して「端」,「橋」,「箸」といったようにアクセントの違いによって意味の異なる語句を対象としたデータであり、これは不揮発性メモリ17の情報記憶領域20に記憶されている。
【0083】
テキスト情報の中に該当する語句があった場合には(ステップC11のYes)、CPU11はその語句のスタート時刻からエンド時刻までの時間をその語句の分割数で分割し(ステップC12)、その分割した各部分の平均ピッチを計算する(ステップC13)。その結果、各部分間の平均ピッチの変化が同音異義語確認データの平均ピッチ変化で示される通りであった場合には(ステップC14のYes)、CPU11は語句の置き換えなしに、現在の音声認識結果情報であるテキスト情報を用いてユーザの発言に対する返事としての発言を作成する(ステップC17)。すなわち、例えば当該語句をキーワードとした発言を作成する。
【0084】
一方、各部分間の平均ピッチの変化が同音異義語確認データの平均ピッチ変化で示される通りでなかった場合には(ステップC14のNo)、CPU11は当該語句と同一グループ番号に属する各語句の中から平均ピッチ変化が一致する語句があるか否かを調べる(ステップC15)。平均ピッチ変化が一致する語句があれば(ステップC15のYes)、CPU11は当該語句を前記平均ピッチ変化が一致した語句に置き換えた後(ステップC16)、その置き換え後の語句を含んだ音声認識結果情報を用いてユーザの発言に対する返事としての発言を作成する(ステップC17)。
【0085】
また、平均ピッチ変化が一致する語句がない場合には(ステップC15のNo)、CPU11はユーザに対して何と言ったのか、今対象となっている同音異義語を並べて表示するなどしてユーザに語句を確認するための発言を作成する(ステップC18)。
【0086】
ここで、上述した処理について具体例を挙げて説明する。
【0087】
図2(d)に示す音声認識結果情報例4で説明すると、まず、ユーザ発言である「きたない橋だ」の中から「橋」といった同音異義語が抽出される。この場合、「橋」の発音である「はし」の平均ピッチ変化が「高低」であれば、ステップC14にて「橋」が正しい語句であると認識されて、その語句を用いてユーザに対する発言が作成される。一方、「はし」の平均ピッチ変化が「高低」でない場合には別の意味の語句である可能性があるので、ステップC16にて「はし」の平均ピッチ変化に対応した語句に置き換えられる。この場合、「高高」であれば「端」、「低高」であれば「箸」といった語句に置き換えられる。
【0088】
ステップC18では、例えば「川にかかる橋ですか、食事に使う箸ですか、真中ではない端ですか」といった発言をしてユーザに確認すれば良いし、その際に同音異義語の各漢字を表示して確認するようにしても良い。
【0089】
なお、ここでは、同音異義語を発声している時間を等間隔に分けてそれぞれの時間の平均ピッチを比較したが、音素単位や読みとしての文字単位などで比較するなど、他の方法を用いても良い。
【0090】
また、ピッチ変化のパターンに合致しているかどうかで判定したが、正しいピッチ変化の情報を持つなどして、その中でもっとも近いものと判定しても良い。同音異義語の前後の単語などからどの意味の可能性が高いかを推定して、その結果も考慮に入れるようにしても良い。
【0091】
また、ここではピッチ変化で判定したが音量変化を用いて判定しても良いし、ピッチ変化と音量変化の両方を用いて判定しても良い。
【0092】
また、ここでは平均ピッチ変化が一致した語句がある場合には無条件でそれに置き換えたが、この語句が音声認識結果と異なる場合には、例えば「はしというのは、食事に使う箸のことですか」などといったように、ユーザに確認をとる発言を作成するようにしても良い。
【0093】
・会話処理(4)
次に、本発明の会話システムによって実現される会話処理(4)について説明する。
【0094】
ユーザの発言の音量が適正音量範囲を外れると、音声認識の精度に問題が出る可能性が高まる。会話処理(4)では、このようなユーザ発言の音量に応じた発言を行うことを特徴とするものである。
【0095】
図9は本発明の第1の実施形態における会話システムの会話処理(4)を示すフローチャートであり、この会話処理(4)はユーザの発言を音声認識処理すると同時に音量抽出処理およびピッチ抽出処理した後に実行される。
【0096】
CPU11は、ユーザ発言の音声認識結果として得られたテキスト情報の中に平均音量が不揮発性メモリ17の情報記憶領域22に記憶された適正音量範囲を外れる単位語句があるか否かを調べる(ステップD11)。適正音量範囲とは、ユーザの発した音声を正しく音声認識できる音量の範囲を示すものである。平均音量がこの適正音量範囲の上限を超える場合あるいは同範囲の下限を下回ると誤認識してしまう可能性がある。そこで、適正音量範囲を外れる単位語句があった場合には(ステップD11のYes)、CPU11はその語句について再度発声を促す発言を作成する(ステップD12)。
【0097】
また、情報記憶領域21には、ユーザの発した過去の平均音量が語句単位で記憶されている。前記適正音量範囲を外れる単位語句がなかった場合(ステップD11のNo)、CPU11はこの情報記憶領域21に記憶された過去の平均音量との比較を行う(ステップD13)。なお、複数のユーザで本システムを共有する場合には、各ユーザ毎に固有のID(識別情報)を用いて、そのIDにて過去の平均音量を個別に記憶することが好ましい。
【0098】
ここで、ユーザ発言の音声認識結果として得られたテキスト情報の中に過去の平均音量と比べて平均音量が著しく小さな単位語句(過去の平均音量よりも平均音量が一定量以上小さい単位語句)があった場合には(ステップD13のYes)、CPU11は不揮発性メモリ17の情報記憶領域24に記憶された小声専用発言作成用データを用いて小声に対応した発言を作成する(ステップD14)。その際、CPU11は今回の音量情報を用いて情報記憶領域21内の過去の平均音量を更新しておく(ステップD15)。更新方法としては、例えば今回の平均音量を計算し、それと過去の平均音量で加重平均を取り、その値を新たな平均音量として書き込むなどの方法がある。
【0099】
一方、当該テキスト情報の中に過去の平均音量と比べて平均音量が過去の平均音量よりも著しく大きな単位語句(過去の平均音量よりも平均音量が一定量以上大きい単位語句)があった場合には(ステップD16のYes)、CPU11は不揮発性メモリ17の情報記憶領域23に記憶された大声専用発言作成用データを用いて大声に対応した発言を作成する(ステップD17)。また、平均音量が過去の平均音量と比べて同程度であれば(ステップD16のNo)、CPU11は不揮発性メモリ17の情報記憶領域18に記憶された発言作成用データを用いて通常の発声に対する発言を作成する(ステップD18)。いずれの場合も発言作成後は上述したように今回の音量情報を用いて情報記憶領域21内の過去の平均音量を更新しておく(ステップD15)。
【0100】
ここで、上述した処理について具体例を挙げて説明する。
【0101】
例えば、図2(a)に示す音声認識結果情報例1において、t9からt10までの平均音量が適正音量範囲を外れていると、ステップD12にて、「彼は野球部の何ですって?」などといったように、音声認識結果が間違っている可能性の高い語句を問い直す。あるいは、「もう一度少し大きな声で言ってください」、「今キャプテンと言いましたか?」などと発言しても良い。
【0102】
また、過去の平均音量は、その時点までのユーザの発言の平均音量を示すデータである。これと比べて著しく大きな声または小さな声で発せられた単位語句がある場合には、そのことを利用して通常とは異なる発言を言う。
【0103】
例えば、人工無能方式の発言データとして、「黙れ」がユーザ発言の中にあれば、「黙りますよ。黙ればいいんでしょう」などと発言するような大声専用発言作成用データを作成しておき、通常の発言を作成する時に使用する発言作成用データには、「黙れ」に対応するものとして「はい、静かにします」を入れておく。これにより、ユーザが普通の声の大きさで「黙れ」と言った時には、ステップD18で「はい、静かにします」といった発言をさせ、ユーザが大声で「黙れ」と言った時には、ステップD17で「黙りますよ。黙ればいいんでしょう」とふてくされたような発言をさせることができる。
【0104】
また、ステップD14では、小声専用発言作成用データを利用することにより、同様の対応が小さな声での発言に対しても行うことができる。
【0105】
なお、大声の時や小さな声の時に、通常時とは異なる発言作成アルゴリズムを用いても良い。
【0106】
さらに、ここでは音量情報を利用して会話処理を行うようにしたが、ピッチ情報を利用して同様の会話処理を行うことも可能である。この場合には、適正ピッチ範囲、過去の平均ピッチ、高ピッチ専用発言作成データ、低ピッチ専用発言作成データといった情報を不揮発性メモリ17の所定の領域に予め用意しておき、CPU11がこれらの情報を用いて前記図9と同様の会話処理を行うことになる。
【0107】
すなわち、まず、ユーザ発言の音声認識結果として得られたテキスト情報の中に平均ピッチが適正ピッチ範囲を外れる単位語句があるか否かを調べ、該当する単位語句があれば、その単位語句について再度発を促す発言を作成する(図9のステップD11〜D12に相当する処理)。
【0108】
また、テキスト情報の中に過去の平均ピッチよりも著しく低い単位語句があれば、低ピッチ専用発言作成データを用いて低ピッチに対応した発言を作成する(図9のステップD13〜D14に相当する処理)。テキスト情報の中に過去の平均ピッチよりも著しく高い単位語句があれば、高ピッチ専用発言作成データを用いて高ピッチに対応した発言を作成する(図9のステップD16〜D17に相当する処理)。平均ピッチが過去の平均ピッチと比べて同程度であれば、発言作成用データを用いて通常の発声に対する発言を作成する(図9のステップD18に相当する処理)。発言作成後は今回のピッチ情報を用いて過去の平均ピッチを更新しておく(図9のステップD15に相当する処理)。
【0109】
以上のように本発明の会話システムによれば、ユーザが強く発音した語句をキーワードとして適切な語句として選択して、その語句を用いて発言を作成するので、ユーザの発言意図にあった発言を返事として返すことができる(会話処理(1))。この場合、音声認識結果情報を品詞解析してキーワードの候補を見つけているので、平仮名の語句や平仮名の混じった語句もキーワードにすることができる。
【0110】
また、尻上がりにピッチを上げるだけで疑問の意味を持つような発言を疑問文として正しく判定することができるので、的外れな発言を避けることができる(会話処理(2))。
【0111】
また、同じ語句で複数の意味を有するユーザ発言を正しく解釈できるので、適切な発言を返事として返すことができる(会話処理(3))。同音異義語の誤認識を自動的に修正できるので、手間をかけずに同音異義語が含まれた会話をより正しく行うことができる。同音異義語を判定しきれない場合にそれについてユーザに質問するので、同音異義語を間違って解釈したままで会話を続けてしまうような事態を回避できる。
【0112】
音量やピッチに特徴のある発言があった時には、その音量やピッチの特徴に見合った発言を返事として返すことができるので、より自然で豊富な会話を展開することができる(会話処理(4))。
【0113】
なお、前記実施形態では、平均音量や平均ピッチなど、ある時刻間の音量やピッチの平均値を用いたが、音量やピッチに他の処理を施した値を用いても良い。あるいは、処理を施さないで、音量やピッチそのものを用いても良いし、最低値、最高値など、何らかの選択を施した値を用いても良い。
【0114】
また、単位語句に対応させて音量やピッチを利用したが、文字単位、音素単位など、それを更に細分した形で対応させて利用しても良い。
【0115】
また、音声認識結果として得られたテキスト情報(文字列情報)と音量情報やピッチ情報を対応させるために、音声認識結果情報を単位語句に分解し、各単位語句にスタート時刻とエンド時刻を設けたが、他の手法で対応させても良い。例えば、文字単位や音素単位で時刻情報を設けても良い。あるいは、音声認識処理とピッチ抽出処理と音量抽出処理を各時刻において常に対応づけて行うことで、時刻情報を介さずに、直接、各単位語句や各文字や各音素に対応するピッチ情報や音量情報を得ても良い。この場合には音声認識結果情報の中に、音声認識結果の文字情報と直接対応する形で、ピッチ情報、音量情報が含まれることになる。
【0116】
また、背景に騒音などがある場合には、複数のマイクを用いて背景騒音を除去するなどの仕組みを取り入れれば良い。
【0117】
(第2の実施形態)
次に、本発明の第2の実施形態に係る会話システムについて説明する。
【0118】
第2の実施形態では、会話相手であるユーザの発言(必要に応じて会話システムの発言も含めて)を日時情報と共に過去の発言情報として記憶しておくことで(これを「会話ログ」と呼ぶことにする)、その会話ログを利用して発言する場合を想定している。
【0119】
すなわち、今回のユーザの発言の中に含まれるキーワードが、会話ログのユーザの過去の発言の中にある場合に、会話システムでは、それを思い出す発言ができるものとする。例えば、一年前に「チーズっておいしい」とユーザが言っていたとすると、会話ログにはそのことが発言日時と共に記録されている。したがって、今回、ユーザが「今日の給食でチーズが出たよ」と言ったとすると、「チーズっておいしい、と去年言いましたよね」などと発言したりすることができる。
【0120】
ここで、例えば一年前にユーザが「おいしい」の部分をしり上がりに発音し、「チーズというのはおいしいですか」という意味の質問していた場合において、会話システムが前記第1の実施形態で述べた手法にてその質問に正しく対応できていたとしても、会話ログとして単に「チーズっておいしい」といった記録がなされていると、後にどのような意味で使われたのか判らなくなり、正しい会話を行うことができない。そこで、ユーザの発言意図を正しく反映させた会話ログを作成し、これを利用して会話処理を行うするものとする。
【0121】
以下に、第2の実施形態としての動作を説明する。以下のフローチャートで示される処理は、本システムに備えられたCPU11がプログラムを読み込むことで実行する。
【0122】
図10は本発明の第2の実施形態における会話システムの会話ログ作成処理を示すフローチャートである。この会話ログ作成処理は、上記第1の実施形態で説明したような会話処理の後に実行される。
【0123】
なお、例えば同音異義語で自動的に修正ができる部分については、対応する音声認識結果情報(文字列)がすでに修正されているものとする。また、ここでは単位語句に「!」や「?」の記号を付加するための条件として一定時間以上の無音時間を挙げているが、これは、強調や疑問の意図を含む場合は無音時間が長くなることが一般的であるからである。この無音時間は、対象単位語句のエンド時刻と次の単位語句のスタート時刻から計算できる。
【0124】
まず、CPU11は、ユーザ発言の音声認識結果として得られたテキスト情報の中に平均音量が適正音量範囲を外れる単位語句があるか否かを調べる(ステップE11)。適正音量範囲を示す情報は、不揮発性メモリ17の情報記憶領域22に記憶されている。該当する単位語句があれば(ステップE11のYes)、CPU11はそれらのすべての単位語句の各文字を特定の記号「*」に置き換える(ステップE12)。この「*」は適正音量範囲を外れたことを示す記号である。
【0125】
次に、CPU11は、当該テキスト情報の中から先頭の単位語句を処理対象として抽出し(ステップE13)、その処理対象として抽出した単位語句(以下、これを対象単位語句と呼ぶ)の平均音量が過去の平均音量よりも一定量以上に著しく大きいか否かを調べる(ステップE14)。過去の平均音量を示す情報は、不揮発性メモリ17の情報記憶領域21に記憶されている。なお、ステップE14において、前記ステップE11にて適正音量範囲を外れているものは除外するものとする。
【0126】
過去の平均音量よりも著しく大きい場合には(ステップE14のYes)、CPU11はその対象単位語句が文末にあるか、あるいは、次の単位語句との間に一定時間以上の無音時間があるか否かを調べる(ステップE15)。その結果、対象単位語句が文末にある場合、あるいは、次の単位語句との間に一定時間以上の無音時間がある場合には(ステップE15のYes)、CPU11は対象単位語句の直後に会話の区切りを示す特定の記号「!」を挿入する(ステップE16)。そうでない場合には(ステップE15のNo)、CPU11は対象単位語句を太字に変える(ステップE17)。
【0127】
次に、CPU11は対象単位語句の前半の平均ピッチと後半の平均ピッチを求め、前半の平均ピッチより後半の平均ピッチが高いか否かを調べる(ステップE18)。前半の平均ピッチより後半の平均ピッチが高い場合には(ステップE18のYes)、CPU11はその対象単位語句が文末にあるか、あるいは、次の単位語句との間に一定時間以上の無音時間があるか否かを調べる(ステップE19)。その結果、対象単位語句が文末にある場合、あるいは、次の単位語句との間に一定時間以上の無音時間がある場合には(ステップE19のYes)、CPU11は対象単位語句の直後に疑問文を示す特定の記号「?」を挿入する(ステップE20)。
【0128】
このようにして、当該テキスト情報の中から先頭の単位語句から順に処理対象として抽出して前記同様の処理を繰り返す(ステップE21,E22→E14)。対象単位語句が文末の単位語句になると(ステップE21のYes)、CPU11は最終的に得られたテキスト情報を日時情報と共に会話ログとして不揮発性メモリ17の情報記憶領域25に記憶しておく(ステップE23)。
【0129】
以上の処理により、以下のような会話ログに用いられるテキスト情報が作成される。
【0130】
例1)ユーザが「彼は野球部のキャプテンだ」と発言したが、単位語句「キャプテン」を言う時の声が大きすぎて、音声認識のための適正音量範囲を外れた場合には、特定記号「*」の置き換えがなされて、会話ログのテキスト情報として「彼は野球部の*****だ」が作成される。
【0131】
例2)ユーザが大声で(しかし適正音量範囲内の音量で)、「黙れ」と言った場合には、特定記号「!」の挿入により、会話ログのテキスト情報として「黙れ!」が作成される。
【0132】
例3)ユーザが「おいしい」の部分を尻上がりに「チーズっておいしい」といったように尋ねるように言った場合には、会話ログのテキスト情報として「チーズっておいしい?」が作成される。
【0133】
例4)ユーザが「信念」を(適正音量範囲内の大きな声で)強調し、「勇気と信念が大切だ」と言った場合には、会話ログのテキスト情報として「勇気と信念が大切だ」の「信念」を太字にして作成される。
【0134】
例5)ユーザが「きたない箸だ」と正しい発音で言ったが、音声認識で「きたない橋」といったように誤認識された場合には、会話ログのテキスト情報は「きたない箸だ」となる。これは、会話ログ作成処理に入る前の会話処理で「橋」が「箸」に修正されているためである。
【0135】
このように、ユーザが尻上がりに発音して疑問の意図を表した場合に「?」が挿入されるので、会話ログにも疑問の意味が反映され、また、大きな声で発言した部分には「!」が挿入されたり、太字に変更されるので、会話ログからそのことが分かる。
【0136】
また、音声認識結果に疑いがある部分は「*」で置き換えるので、間違いを会話ログに残す可能性が少なくなり、後に会話ログを利用して発言を作成する際に誤解を避けられる。誤認識した同音異義語は自動的に修正されて会話ログに残る。形容詞や形容動詞以外の単位語句についてもピッチが尻上がりになるかを調べるので、例えば「犬のえさを食べたのはたぬき?」のような他の品詞の疑問文にも対応できる。
【0137】
図11は本発明の第2の実施形態における会話システムの会話処理を示すフローチャートであり、前記会話ログ作成処理にて作成された会話ログを用いて会話する場合の処理が示されている。この会話処理はユーザの発言を音声認識処理すると同時に音量抽出処理およびピッチ抽出処理した後に実行される。
【0138】
CPU11は、ユーザ発言の音声認識結果として得られたテキスト情報の中から不揮発性メモリ17の情報記憶領域25に記憶された会話ログと一致するものを探す(ステップF11)。ユーザ発言に会話ログと一致するものがあれば(ステップF12のYes)、CPU11は当該会話ログを用いてユーザの発言に対する返事としての発言を作成する(ステップF13)。すなわち、ユーザが過去に発言した文句を利用して、例えば一年前に「チーズっておいしい」とユーザが言っていたとすると、今回のユーザ発言「今日の給食でチーズが出たよ」に対し、「チーズっておいしい、と去年言いましたよね」などと発言する。
【0139】
一方、ユーザ発言に会話ログと一致するものがあれば(ステップF12のYes)、CPU11は会話ログを用いない他の手法にてユーザの発言に対する返事としての発言を作成する(ステップF14)。これは、他の手法とは、例えば第1の実施形態で説明したようなキーワードを用いた発言作成などである。
【0140】
このように、第2の実施形態によれば、ユーザの過去の発言情報を利用して返事を返すことができ、ユーザにとっては自分のことをよく分かってくれていると思いながら楽しく会話することができるようになる。
【0141】
なお、本システムを複数のユーザで共有するような場合には、各ユーザ毎に固有のID(識別情報)を用いて、そのIDにて会話ログを個別に記憶しておく必要がある。
【0142】
また、会話ログを表示することで、後日、ユーザが会話日記のような形で会話ログをパソコン上で読めるようにすることもできる。この場合、会話ログの作成に際して他の加工処理を行っても良い。例えば、ピッチ情報や音声情報を用いて話者の感情を推量して、メールなどで用いられる「顔文字」などを挿入しても良い。最も強く発音したキーワードの書式を変えても良い(例えば斜体にしたり、下線を付けるなど)。
【0143】
また、適正音量範囲をはみ出すなどの理由で音声認識結果が疑わしい部分は削除してしまっても良い。あるいは、その部分の書式を変える、その部分の書式を変えるとともに最後に「?」を挿入するなどしても良い。徐々に音量が小さくなってやがて適正音量範囲をはみ出した部分についてはその部分の文字を「…」で置き換えても良い。
【0144】
また、単位語句毎に平均音量や平均ピッチを利用したが、その単位語句が助詞や助動詞などの時には、それにつながる他の単位語句も含めた平均音量や平均ピッチを利用しても良い。
【0145】
また、会話システムの会話ログに適用したが、音声で入力し文章を作成するワープロなどに適用しても良い。
【0146】
要するに、本発明は前記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。更に、前記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、実施形態で示される全構成要件から幾つかの構成要件が削除されても、「発明が解決しようとする課題」で述べた効果が解決でき、「発明の効果」の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【0147】
また、上述した書く実施形態において記載した手法は、コンピュータに実行させることのできるプログラムとして、例えば磁気ディスク(フロッピーディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリなどの記録媒体に書き込んで各種装置に適用したり、通信媒体により伝送して各種装置に適用することも可能である。本装置を実現するコンピュータは、記録媒体に記録されたプログラムを読み込み、このプログラムによって動作が制御されることにより、上述した処理を実行する。
【0148】
【発明の効果】
以上詳記したように本発明によれば、ユーザの発言を音声認識してテキスト化すると共に音量抽出またはピッチ抽出を行い、その音量情報またはピッチ情報に基づいてユーザの発言を解析するようにしたため、ユーザの発言意図を正しく解釈して、そのユーザの発言意図に合った返事を返すことができる。
【0149】
また、ユーザの発言の中で、例えば大きく発した語句や疑問調で発した語句など、音量的あるいはピッチ的に特徴にある語句についてはその特徴に応じた加工を施して過去の発言情報(会話ログ)として記憶しておくことで、以後、その過去の発言情報の意味を誤解せずに利用して発言できるようになる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る会話システムのハードウェア構成を示すブロック図。
【図2】前記会話システムのワークメモリの認識結果バッファに記憶される音声認識結果情報の一例を示す図。
【図3】前記会話システムの不揮発性メモリの情報記憶領域に記憶される否定確認データの一例を示す図。
【図4】前記会話システムの不揮発性メモリの情報記憶領域に記憶される同音異義語確認データの一例を示す図。
【図5】前記会話システムのCPUが行うA/D変換後のデータの処理の流れを示す図。
【図6】本発明の第1の実施形態における会話システムの会話処理(1)を示すフローチャート。
【図7】本発明の第1の実施形態における会話システムの会話処理(2)を示すフローチャート。
【図8】本発明の第1の実施形態における会話システムの会話処理(3)を示すフローチャート。
【図9】本発明の第1の実施形態における会話システムの会話処理(4)を示すフローチャート。
【図10】本発明の第2の実施形態における会話システムの会話ログ作成処理を示すフローチャート。
【図11】本発明の第2の実施形態における会話システムの会話処理を示すフローチャート。
【符号の説明】
11…CPU
12…音声入力部
13…A/D変換部
14…音声出力部
15…D/A変換部
16…ワークメモリ
16a…認識結果バッファ
16b…音量バッファ
16c…ピッチバッファ
17…不揮発性メモリ
17a…プログラム領域
18〜25…情報記憶領域
Claims (17)
- ユーザとの間で会話を行う会話システムであって、
会話相手であるユーザの発言を入力する入力手段と、
この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、
ユーザの発言に含まれる各語句の音量情報またはピッチ情報を抽出する情報抽出手段と、
この情報抽出手段によって抽出された各語句の音量情報またはピッチ情報に基づいて、前記音声認識手段によって得られた認識結果情報を解析してユーザの発言に対する返事としての発言を作成する発言作成手段と、
この発言作成手段によって作成された発言を出力する出力手段と
を具備したことを特徴とする会話システム。 - ユーザとの間で会話を行う会話システムであって、
会話相手であるユーザの発言を入力する入力手段と、
この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、
ユーザの発言に含まれる各語句の音量情報を抽出する音量抽出手段と、
この音量抽出手段によって抽出された各語句の音量情報に基づいて、前記音声認識手段によって得られた認識結果情報の中からキーワードとする語句を選択するキーワード選択手段と、
このキーワード選択手段によって選択された語句を用いてユーザの発言に対する返事としての発言を作成する発言作成手段と、
この発言作成手段によって作成された発言を出力する出力手段と
を具備したことを特徴とする会話システム。 - 前記キーワード選択手段は、特定の品詞を対象としてキーワードとする語句の選択を行うことを特徴とする請求項2記載の会話システム。
- ユーザとの間で会話を行う会話システムであって、
会話相手であるユーザの発言を入力する入力手段と、
この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、
ユーザの発言に含まれる各語句のピッチ情報を抽出するピッチ抽出手段と、
このピッチ抽出手段によって抽出された各語句のピッチ情報に基づいて、前記音声認識手段によって得られた認識結果情報の中に疑問の意味が含まれているか否かを判定する第1の判定手段と、
この第1の判定手段の判定結果に応じてユーザの発言に対する返事としての発言を作成する発言作成手段と、
この発言作成手段によって作成された発言を出力する出力手段と
を具備したことを特徴とする会話システム。 - 前記第1の判定手段は、特定の品詞を対象として、その品詞の前半部分と後半部分のピッチ情報を比較することにより疑問の意味であるか否かを判断することを特徴とする請求項4記載の会話システム。
- 認識結果情報の中に否定または肯定の意味を持つ特定の語句がある場合に、その語句の音量変化を調べて否定または肯定の意味であるかを判定する第2の判定手段をさらに備え、
前記発言作成手段は、前記第2の判定手段の判定結果に応じて当該ユーザの発言に対する返事としての発言を作成することを特徴とする請求項4記載の会話システム。 - ユーザとの間で会話を行う会話システムであって、
会話相手であるユーザの発言を入力する入力手段と、
この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、
この音声認識手段によって得られた認識結果情報の中から同音異義語として指定された語句を抽出する同音異義語抽出手段と、
この同音異義語抽出手段によって抽出された語句のピッチ変化または音量変化に基づいて当該語句が正しいか否かを判定する判定手段と、
この判定手段により当該語句が間違っていると判定された場合に、そのピッチ変化または音量変化に基づいて正しい同音異義語に置き換える置換手段と、
この置換手段によって置き換えられた語句を用いてユーザの発言に対する返事としての発言を作成する発言作成手段と、
この発言作成手段によって作成された発言を出力する出力手段と
を具備したことを特徴とする会話システム。 - 前記発言作成手段は、前記判定手段により当該語句を判別できなかった場合に、どの同音異義語であるかをユーザに確認するための発言発言を作成することを特徴とする請求項7記載の会話システム。
- ユーザとの間で会話を行う会話システムであって、
会話相手であるユーザの発言を入力する入力手段と、
この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、
ユーザの発言に含まれる各語句の音量情報またはピッチ情報を抽出する情報抽出手段と、
この情報抽出手段によって抽出された各語句の音量情報またはピッチ情報に基づいて、前記音声認識手段によって得られた認識結果情報の中に通常とは異なる音量あるいはピッチで発せられた語句が含まれているか否かを判定する第1の判定手段と、
この第1の判定手段の判定結果に応じて音量的あるいはピッチ的な特徴を加味してユーザの発言に対する返事としての発言を作成する発言作成手段と、
この発言作成手段によって作成された発言を出力する出力手段と
を具備したことを特徴とする会話システム。 - 前記音声認識手段によって得られた認識結果情報の中に音量あるいはピッチが適正範囲を外れる語句が含まれているか否かを判定する第2の判定手段をさらに備え、
前記発言作成手段は、前記第2の判定手段により適正範囲を外れる語句が含まれていると判定された場合に当該語句について再度発声を促す発言を作成することを特徴とする請求項9記載の会話システム。 - ユーザとの間で会話を行う会話システムであって、
会話相手であるユーザの発言を入力する入力手段と、
この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、
ユーザの発言に含まれる各語句の音量情報またはピッチ情報を抽出する情報抽出手段と、
この情報抽出手段によって抽出された各語句の音量情報またはピッチ情報に基づいて、前記音声認識手段によって得られた認識結果情報の中の音量的あるいはピッチ的に特徴のある語句をその特徴に応じて加工する加工手段と、
この加工手段によって加工された語句を含む認識結果情報を発言日時と共に過去の発言情報として記憶する記憶手段と、
この記憶手段に記憶された過去の発言情報を利用してユーザの発言に対する返事としての発言を作成する発言作成手段と、
この発言作成手段によって作成された発言を出力する出力手段と
を具備したことを特徴とする会話システム。 - ユーザとの間で会話を行うコンピュータに用いられる会話処理プログラムであって、
前記コンピュータに、
会話相手であるユーザの発言を入力する機能と、
前記入力されたユーザの発言を音声認識する機能と、
ユーザの発言に含まれる各語句の音量情報またはピッチ情報を抽出する機能と、
前記抽出された各語句の音量情報またはピッチ情報に基づいて、前記音声認識によって得られた認識結果情報を解析してユーザの発言に対する返事としての発言を作成する機能と、
前記作成された発言を出力する機能と
を実現させるための会話処理プログラム。 - ユーザとの間で会話を行うコンピュータに用いられる会話処理プログラムであって、
前記コンピュータに、
会話相手であるユーザの発言を入力する機能と、
前記入力されたユーザの発言を音声認識する機能と、
ユーザの発言に含まれる各語句の音量情報を抽出する機能と、
前記抽出された各語句の音量情報に基づいて、前記音声認識によって得られた認識結果情報の中からキーワードとする語句を選択する機能と、
前記選択された語句を用いてユーザの発言に対する返事としての発言を作成する機能と、
前記作成された発言を出力する機能と
を実現させるための会話処理プログラム。 - ユーザとの間で会話を行うコンピュータに用いられる会話処理プログラムであって、
前記コンピュータに、
会話相手であるユーザの発言を入力する機能と、
前記入力されたユーザの発言を音声認識する機能と、
ユーザの発言に含まれる各語句のピッチ情報を抽出する機能と、
前記抽出された各語句のピッチ情報に基づいて、前記音声認識によって得られた認識結果情報の中に疑問の意味が含まれているか否かを判定する機能と、
その判定結果に応じてユーザの発言に対する返事としての発言を作成する機能と、
前記作成された発言を出力する機能と
を実現させるための会話処理プログラム。 - ユーザとの間で会話を行うコンピュータに用いられる会話処理プログラムであって、
前記コンピュータに、
会話相手であるユーザの発言を入力する機能と、
前記入力されたユーザの発言を音声認識する機能と、
前記音声認識によって得られた認識結果情報の中から同音異義語として指定された語句を抽出する機能と、
前記抽出された語句のピッチ変化または音量変化に基づいて当該語句が正しいか否かを判定する機能と、
当該語句が間違っていると判定された場合に、そのピッチ変化または音量変化に基づいて正しい同音異義語に置き換える機能と、
前記置き換えられた語句を用いてユーザの発言に対する返事としての発言を作成する機能と、
前記作成された発言を出力する機能と
を実現させるための会話処理プログラム。 - ユーザとの間で会話を行うコンピュータに用いられる会話処理プログラムであって、
前記コンピュータに、
会話相手であるユーザの発言を入力する機能と、
前記入力されたユーザの発言を音声認識する機能と、
ユーザの発言に含まれる各語句の音量情報またはピッチ情報を抽出する機能と、
前記抽出された各語句の音量情報またはピッチ情報に基づいて、前記音声認識によって得られた認識結果情報の中に通常とは異なる音量あるいはピッチで発せられた語句が含まれているか否かを判定する機能と、
その判定結果に応じて音量的あるいはピッチ的な特徴を加味してユーザの発言に対する返事としての発言を作成する機能と、
前記作成された発言を出力する機能と
を実現させるための会話処理プログラム。 - ユーザとの間で会話を行うコンピュータに用いられる会話処理プログラムであって、
前記コンピュータに、
会話相手であるユーザの発言を入力する機能と、
前記入力されたユーザの発言を音声認識する機能と、
ユーザの発言に含まれる各語句の音量情報またはピッチ情報を抽出する機能と、
前記抽出された各語句の音量情報またはピッチ情報に基づいて、前記音声認識によって得られた認識結果情報の中の音量的あるいはピッチ的に特徴のある語句をその特徴に応じて加工する機能と、
前記加工後の語句を含む認識結果情報を発言日時と共に過去の発言情報としてメモリに記憶する機能と、
前記メモリに記憶された過去の発言情報を利用してユーザの発言に対する返事としての発言を作成する機能と、
前記作成された発言を出力する機能と
を実現させるための会話処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003017179A JP2004226881A (ja) | 2003-01-27 | 2003-01-27 | 会話システム及び会話処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003017179A JP2004226881A (ja) | 2003-01-27 | 2003-01-27 | 会話システム及び会話処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004226881A true JP2004226881A (ja) | 2004-08-12 |
Family
ID=32904399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003017179A Pending JP2004226881A (ja) | 2003-01-27 | 2003-01-27 | 会話システム及び会話処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004226881A (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006277567A (ja) * | 2005-03-30 | 2006-10-12 | Nec Corp | 音声感情認識によるメール作成機能付携帯端末、携帯端末システム、及び、音声感情認識によるメール作成方法 |
JP2009198614A (ja) * | 2008-02-19 | 2009-09-03 | Toyota Central R&D Labs Inc | 対話装置及びプログラム |
KR20150089723A (ko) * | 2014-01-28 | 2015-08-05 | 포항공과대학교 산학협력단 | 자연어 대화 시스템을 위한 다중 도메인 식별 방법 및 장치 |
WO2016136062A1 (ja) * | 2015-02-27 | 2016-09-01 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
WO2016157352A1 (ja) * | 2015-03-30 | 2016-10-06 | 富士通株式会社 | 音声認識装置、音声認識システム、及び、プログラム |
WO2017085815A1 (ja) * | 2015-11-18 | 2017-05-26 | 富士通株式会社 | 困惑状態判定装置、困惑状態判定方法、及びプログラム |
JP2017097233A (ja) * | 2015-11-26 | 2017-06-01 | 日本電信電話株式会社 | 異常音検出装置、方法及びプログラム |
CN107004428A (zh) * | 2014-12-01 | 2017-08-01 | 雅马哈株式会社 | 会话评价装置和方法 |
JP2018036580A (ja) * | 2016-09-02 | 2018-03-08 | 日本電信電話株式会社 | 疑問発話判定装置、その方法、及びプログラム |
JP2018169494A (ja) * | 2017-03-30 | 2018-11-01 | トヨタ自動車株式会社 | 発話意図推定装置および発話意図推定方法 |
JP2021099887A (ja) * | 2020-09-25 | 2021-07-01 | 北京百度網訊科技有限公司 | 音声認識によるページ操作方法、装置、機器、媒体及びプログラム |
JP2021144248A (ja) * | 2020-08-27 | 2021-09-24 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. | 音声データ処理方法、装置及びスマート車両 |
EP4331694A1 (en) * | 2022-08-30 | 2024-03-06 | Sony Interactive Entertainment Inc. | Speech assistance apparatus and method |
-
2003
- 2003-01-27 JP JP2003017179A patent/JP2004226881A/ja active Pending
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4670431B2 (ja) * | 2005-03-30 | 2011-04-13 | 日本電気株式会社 | 音声感情認識によるメール作成機能付携帯端末、携帯端末システム、及び、音声感情認識によるメール作成方法 |
JP2006277567A (ja) * | 2005-03-30 | 2006-10-12 | Nec Corp | 音声感情認識によるメール作成機能付携帯端末、携帯端末システム、及び、音声感情認識によるメール作成方法 |
JP2009198614A (ja) * | 2008-02-19 | 2009-09-03 | Toyota Central R&D Labs Inc | 対話装置及びプログラム |
KR20150089723A (ko) * | 2014-01-28 | 2015-08-05 | 포항공과대학교 산학협력단 | 자연어 대화 시스템을 위한 다중 도메인 식별 방법 및 장치 |
KR101577890B1 (ko) | 2014-01-28 | 2015-12-16 | 포항공과대학교 산학협력단 | 자연어 대화 시스템을 위한 다중 도메인 식별 방법 및 장치 |
CN107004428A (zh) * | 2014-12-01 | 2017-08-01 | 雅马哈株式会社 | 会话评价装置和方法 |
WO2016136062A1 (ja) * | 2015-02-27 | 2016-09-01 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JPWO2016136062A1 (ja) * | 2015-02-27 | 2017-12-07 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JPWO2016157352A1 (ja) * | 2015-03-30 | 2017-09-21 | 富士通株式会社 | 音声認識装置、音声認識システム、及び、プログラム |
WO2016157352A1 (ja) * | 2015-03-30 | 2016-10-06 | 富士通株式会社 | 音声認識装置、音声認識システム、及び、プログラム |
WO2017085815A1 (ja) * | 2015-11-18 | 2017-05-26 | 富士通株式会社 | 困惑状態判定装置、困惑状態判定方法、及びプログラム |
JPWO2017085815A1 (ja) * | 2015-11-18 | 2018-09-13 | 富士通株式会社 | 困惑状態判定装置、困惑状態判定方法、及びプログラム |
US10679645B2 (en) | 2015-11-18 | 2020-06-09 | Fujitsu Limited | Confused state determination device, confused state determination method, and storage medium |
JP2017097233A (ja) * | 2015-11-26 | 2017-06-01 | 日本電信電話株式会社 | 異常音検出装置、方法及びプログラム |
JP2018036580A (ja) * | 2016-09-02 | 2018-03-08 | 日本電信電話株式会社 | 疑問発話判定装置、その方法、及びプログラム |
JP2018169494A (ja) * | 2017-03-30 | 2018-11-01 | トヨタ自動車株式会社 | 発話意図推定装置および発話意図推定方法 |
JP2021144248A (ja) * | 2020-08-27 | 2021-09-24 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. | 音声データ処理方法、装置及びスマート車両 |
JP2021099887A (ja) * | 2020-09-25 | 2021-07-01 | 北京百度網訊科技有限公司 | 音声認識によるページ操作方法、装置、機器、媒体及びプログラム |
JP7242737B2 (ja) | 2020-09-25 | 2023-03-20 | 阿波▲羅▼智▲聯▼(北京)科技有限公司 | 音声認識によるページ操作方法、装置、機器、媒体及びプログラム |
EP4331694A1 (en) * | 2022-08-30 | 2024-03-06 | Sony Interactive Entertainment Inc. | Speech assistance apparatus and method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11496582B2 (en) | Generation of automated message responses | |
US10140973B1 (en) | Text-to-speech processing using previously speech processed data | |
CN100371926C (zh) | 通过响应输入语句而输出应答语句的交互对话装置和方法 | |
JP4085130B2 (ja) | 感情認識装置 | |
US6725199B2 (en) | Speech synthesis apparatus and selection method | |
US7062439B2 (en) | Speech synthesis apparatus and method | |
US7062440B2 (en) | Monitoring text to speech output to effect control of barge-in | |
KR100590553B1 (ko) | 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템 | |
US7191132B2 (en) | Speech synthesis apparatus and method | |
JP2001215993A (ja) | 対話処理装置および対話処理方法、並びに記録媒体 | |
US9508338B1 (en) | Inserting breath sounds into text-to-speech output | |
US11798559B2 (en) | Voice-controlled communication requests and responses | |
JP2004226881A (ja) | 会話システム及び会話処理プログラム | |
JP5044783B2 (ja) | 自動回答装置および方法 | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
Campbell | Differences in the speaking styles of a japanese male according to interlocutor; showing the effects of affect in conversational speech | |
JPWO2008056590A1 (ja) | テキスト音声合成装置、そのプログラム及びテキスト音声合成方法 | |
Dall | Statistical parametric speech synthesis using conversational data and phenomena | |
JP2006243213A (ja) | 言語モデル変換装置、音響モデル変換装置、及びコンピュータプログラム | |
Beaufort | Expressive speech synthesis: Research and system design with hidden Markov models | |
US11393451B1 (en) | Linked content in voice user interface | |
Sulír et al. | Speaker adaptation for Slovak statistical parametric speech synthesis based on hidden Markov models | |
Qader | Pronunciation and disfluency modeling for expressive speech synthesis | |
JP2003108170A (ja) | 音声合成学習方法および音声合成学習装置 | |
JP2001134276A (ja) | 音声文字化誤り検出装置および記録媒体 |