JP2004226881A

JP2004226881A - 会話システム及び会話処理プログラム

Info

Publication number: JP2004226881A
Application number: JP2003017179A
Authority: JP
Inventors: Takashi Matsuda; 隆松田
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2003-01-27
Filing date: 2003-01-27
Publication date: 2004-08-12

Abstract

【課題】ユーザの発言意図を正しく解釈して会話として適切な対応を取ることのできる会話システムを提供する。
【解決手段】音声入力部１２を通じて入力されたユーザの発言はＡ／Ｄ変換部１３にてＡ／Ｄ変換されてＣＰＵ１１に与えられる。ＣＰＵ１１はそのユーザの発言を音声認識すると共に音量抽出またはピッチ抽出し、これらの情報をワークメモリ１６に保持しておく。そして、例えば各語句のピッチ情報に基づいて、音声認識情報（文字情報）の中から音量の最も大きい語句をキーワードとして適切な語句として選択し、その語句を用いてユーザの発言に対する返事としての発言を作成する。この発言はＤ／Ａ変換部１５を介して音声出力部１４から出力される。このように、ユーザ発言に含まれる各語句の音量情報またはピッチ情報に基づいてユーザの発言を解析することで、ユーザの発言意図を正しく解釈して、そのユーザの発言意図に合った返事を返すことができる。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、会話型ロボット等の玩具類やテレビゲーム機などに用いられる会話システムであって、ユーザがコンピュータを相手に会話することで楽しみや安らぎなどを得ることのできる会話システム及び会話処理プログラムに関する。
【０００２】
【従来の技術】
従来、テレビゲーム機や玩具等に用いられる会話システムの多くは、通常、予め決められたシナリオに沿って会話を行う方式（以下、「シナリオ方式」と呼ぶ）を採用している（例えば特許文献１参照）。
【０００３】
この「シナリオ方式」で用いられるシナリオは、実現性を考慮して、会話システムがまず話題を限定するような発言を行い、その後の会話の進展も、分岐が極力少なくなるように作られている。このため、人間（ユーザ）が会話の主導権をとれず、会話の流れが平凡だったり、不自然だったりするなどの欠点がある。そこで、ユーザの発言を音声認識により文字情報に変換し、その文字情報から返事を作り出すための情報を得て発言することが考えられている。
【０００４】
その１つの方法として、例えば音声認識結果として得られた文字情報から２文字以上の漢字やカタカナからなる語句をキーワードとして抽出し、そのキーワードを利用してユーザに発言するものがある。しかしながら、このキーワードによる方法では、ユーザの発言の中に複数のキーワードが含まれていた場合に、最も適切なキーワード（つまり、ユーザの発言意図を最も反映したキーワード）をどうやって選択するのかといった問題がある。
【０００５】
すなわち、例えば、「彼は野球部のキャプテンだ」といった発言をユーザがしたとすると、その中には「野球部」と「キャプテン」といった２つのキーワードが含まれる。しかし、ユーザの発言を音声認識して得られた文字情報からだけでは、ユーザの発言意図が「野球部」にあったのか「キャプテン」にあったのか判らないない。
【０００６】
また、ユーザの発言をフィードバックして発言する方法がある。これは、例えば「彼は野球部のキャプテンだ」といったユーザの発言に対し、「そうですか。キャプテンなんですか」といったように発言する方法である。しかしながら、自然な会話においては、例えばケーキがおいしいかどうかを質問するような場合に、文末のピッチを上げて（尻上がりに）「このケーキおいしい」などと言うことがある。これを音声認識すると、単に「このケーキおいしい」となるので、文章を見る限りでは疑問文かどうかは判らない。このため、ユーザの発言をそのままフィードバックしてしまうと、「そうですか。おいしいのですか」などと的外れな返事をしてしまうことになる。
【０００７】
また、通常は否定の意味を示す「ない」という言葉が含まれる場合にはフィードバック型発言は行われないようになっている。例えば、ユーザが「きれいじゃない」と言った時はフィードバック型発言は行われない。ところが、この「きれいじゃない」は、アクセントの付け方によっては、「きれいではない」という否定的な意味と、「きれいだ」という肯定的な意味に取れる場合がある。「フィードバック型会話システム」では、「きれいじゃない」が「きれいだ」の意味の場合に適切に対応することができない。
【０００８】
【特許文献１】
特開２００２−１６９５９０号公報
【０００９】
【発明が解決しようとする課題】
上述したように、従来の会話システムでは、ユーザの発言意図がどこにあるのか、疑問調で言ったのか、どのような意味で言ったかといったことが判らず、会話として適切に対応することができなかった。
【００１０】
そこで、本発明は、ユーザの発言意図を正しく解釈して会話として適切な対応を取ることのできる会話システム及び会話処理プログラムを提供することを目的とする。
【００１１】
【課題を解決するための手段】
（１）本発明の会話システムは、ユーザとの間で会話を行う会話システムであって、会話相手であるユーザの発言を入力する入力手段と、この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、ユーザの発言に含まれる各語句の音量情報またはピッチ情報を抽出する情報抽出手段と、この情報抽出手段によって抽出された各語句の音量情報またはピッチ情報に基づいて、前記音声認識手段によって得られた認識結果情報を解析してユーザの発言に対する返事としての発言を作成する発言作成手段と、この発言作成手段によって作成された発言を出力する出力手段とを具備して構成される。
【００１２】
このような構成の会話システムによれば、会話相手であるユーザの発言が入力されると、そのユーザの発言が音声認識されると共に、当該発言に含まれる各語句の音量情報またはピッチ情報が抽出される。そして、各語句の音量情報またはピッチ情報に基づいて、音声認識にて得られた認識結果情報が解析されてユーザの発言に対する返事としての発言が作成されて出力される。このように、音声認識と共に音量抽出またはピッチ抽出を行うことで、音声認識結果として得られる文字情報かせだけでは判らないユーザの発言意図を正しく解析して、ユーザの発言意図に合った返事を返すことができる。
【００１３】
（２）本発明の会話システムは、ユーザとの間で会話を行う会話システムであって、会話相手であるユーザの発言を入力する入力手段と、この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、ユーザの発言に含まれる各語句の音量情報を抽出する音量抽出手段と、この音量抽出手段によって抽出された各語句の音量情報に基づいて、前記音声認識手段によって得られた認識結果情報の中からキーワードとする語句を選択するキーワード選択手段と、このキーワード選択手段によって選択された語句を用いてユーザの発言に対する返事としての発言を作成する発言作成手段と、この発言作成手段によって作成された発言を出力する出力手段とを具備して構成される。
【００１４】
このような構成の会話システムによれば、会話相手であるユーザの発言が入力されると、そのユーザの発言が音声認識されると共に、当該発言に含まれる各語句の音量情報が抽出される。そして、各語句の音量情報に基づいて、音声認識にて得られた認識結果情報の中からキーワードとする語句が選択され、その選択された語句を用いてユーザの発言に対する返事としての発言が作成されて出力される。このように、音声認識と共に音量抽出を行うことで、例えばユーザ発言の中に複数のキーワードが含まれているような場合に、最も大きく発せられた語句をキーワードとして用いることで、ユーザの発言意図に合った返事を返すことができる。
【００１５】
また、前記構成の会話システムにおいて、前記キーワード選択手段は、特定の品詞を対象としてキーワードとする語句の選択を行うことを特徴とする。これにより、例えば名詞のように、キーワードとして適切な品詞だけを対象にしてキーワードの選択が行われるので、より適切な返事を返すことができる。
【００１６】
（３）本発明の会話システムは、ユーザとの間で会話を行う会話システムであって、会話相手であるユーザの発言を入力する入力手段と、この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、ユーザの発言に含まれる各語句のピッチ情報を抽出するピッチ抽出手段と、このピッチ抽出手段によって抽出された各語句のピッチ情報に基づいて、前記音声認識手段によって得られた認識結果情報の中に疑問の意味が含まれているか否かを判定する第１の判定手段と、この第１の判定手段の判定結果に応じてユーザの発言に対する返事としての発言を作成する発言作成手段と、この発言作成手段によって作成された発言を出力する出力手段とを具備して構成される。
【００１７】
このような構成の会話システムによれば、会話相手であるユーザの発言が入力されると、そのユーザの発言が音声認識されると共に、当該発言に含まれる各語句のピッチ情報が抽出される。そして、各語句のピッチ情報に基づいて、音声認識にて得られた認識結果情報の中に疑問の意味が含まれているか否かが判定され、その判定結果に応じてユーザの発言に対する返事としての発言が作成されて出力される。このように、音声認識と共にピッチ抽出を行うことで、例えばユーザが疑問調で発言したような場合に、その疑問に答えるような形で返事を返すことができる。
【００１８】
また、前記構成の会話システムにおいて、前記第１の判定手段は、特定の品詞を対象として、その品詞の前半部分と後半部分のピッチ情報を比較することにより疑問の意味であるか否かを判断することを特徴とする。これにより、例えば形容詞または形容動詞を対象として、ユーザがその品詞の前半部分よりも後半部分を発声しているような場合（つまり、尻上がりに発声しているような場合）に、疑問の意味が含まれているものとして、その疑問に答えるような形で返事を返すことができる。
【００１９】
また、前記構成の会話システムにおいて、認識結果情報の中に否定または肯定の意味を持つ特定の語句がある場合に、その語句の音量変化を調べて否定または肯定の意味であるかを判定する第２の判定手段をさらに備え、前記発言作成手段は、前記第２の判定手段の判定結果に応じて当該ユーザの発言に対する返事としての発言を作成することを特徴とする。これにより、例えば「きれいじゃない」のように、アクセントの違いによって否定または肯定の意味を持つような語句に対し、その語句の音量変化から否定または肯定の意味であるかことを判定して適切な対応を取ることができる。
【００２０】
（４）本発明の会話システムは、ユーザとの間で会話を行う会話システムであって、会話相手であるユーザの発言を入力する入力手段と、この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、この音声認識手段によって得られた認識結果情報の中から同音異義語として指定された語句を抽出する同音異義語抽出手段と、この同音異義語抽出手段によって抽出された語句のピッチ変化または音量変化に基づいて当該語句が正しいか否かを判定する判定手段と、この判定手段により当該語句が間違っていると判定された場合に、そのピッチ変化または音量変化に基づいて正しい同音異義語に置き換える置換手段と、この置換手段によって置き換えられた語句を用いてユーザの発言に対する返事としての発言を作成する発言作成手段と、この発言作成手段によって作成された発言を出力する出力手段とを具備して構成される。
【００２１】
このような構成の会話システムによれば、会話相手であるユーザの発言が入力されると、そのユーザの発言が音声認識されると共に、その認識結果情報から同音異義語として指定された語句が抽出され、その語句のピッチ変化または音量変化に基づいて当該語句が正しいか否か否かが判定される。そして、当該語句が間違っていると判定された場合には正しい同音異義語に置き換えられ、その置き換え後の語句を用いてユーザの発言に対する返事としての発言が作成されて出力される。このように、同音異義語として指定された語句のピッチ変化または音量変化から当該語句が意味的に正しい語句に置き換えられるので、その置き換え後の語句を用いて適切な返事を返すことができる。
【００２２】
また、前記構成の会話システムにおいて、前記発言作成手段は、前記判定手段により当該語句を判別できなかった場合に、どの同音異義語であるかをユーザに確認するための発言発言を作成することを特徴とする。これにより、例えばユーザの発声が悪いなどで、ピッチ変化または音量変化から当該語句を判別できなかった場合にユーザに確認することで正すことができる。
【００２３】
（５）本発明の会話システムは、ユーザとの間で会話を行う会話システムであって、会話相手であるユーザの発言を入力する入力手段と、この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、ユーザの発言に含まれる各語句の音量情報またはピッチ情報を抽出する情報抽出手段と、この情報抽出手段によって抽出された各語句の音量情報またはピッチ情報に基づいて、前記音声認識手段によって得られた認識結果情報の中に通常とは異なる音量あるいはピッチで発せられた語句が含まれているか否かを判定する第１の判定手段と、この第１の判定手段の判定結果に応じて音量的あるいはピッチ的な特徴を加味してユーザの発言に対する返事としての発言を作成する発言作成手段と、この発言作成手段によって作成された発言を出力する出力手段とを具備して構成される。
【００２４】
このような構成の会話システムによれば、会話相手であるユーザの発言が入力されると、そのユーザの発言が音声認識されると共に、当該発言に含まれる各語句の音量情報またはピッチ情報が抽出される。そして、各語句の音量情報またはピッチ情報に基づいて、音声認識にて得られた認識結果情報の中に通常とは異なる音量あるいはピッチで発せられた語句が含まれているか否かが判定され、その判定結果に応じてユーザの発言に対する返事としての発言が作成されて出力される。このように、通常とは異なる音量あるいはピッチで発せられた語句がある場合に、その音量あるいはピッチに対応した発言を返すことで、より自然な会話を実現できる。
【００２５】
また、前記構成の会話システムにおいて、前記音声認識手段によって得られた認識結果情報の中に音量あるいはピッチが適正範囲を外れる語句が含まれているか否かを判定する第２の判定手段をさらに備え、前記発言作成手段は、前記第２の判定手段により適正範囲を外れる語句が含まれていると判定された場合に当該語句について再度発声を促す発言を作成することを特徴とする。これにより、音量あるいはピッチが適正範囲を外れる語句があれば、その語句を再度発声させて正しい会話を進めることができる。
【００２６】
（６）本発明の会話システムは、ユーザとの間で会話を行う会話システムであって、会話相手であるユーザの発言を入力する入力手段と、この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、ユーザの発言に含まれる各語句の音量情報またはピッチ情報を抽出する情報抽出手段と、この情報抽出手段によって抽出された各語句の音量情報またはピッチ情報に基づいて、前記音声認識手段によって得られた認識結果情報の中の音量的あるいはピッチ的に特徴のある語句をその特徴に応じて加工する加工手段と、この加工手段によって加工された語句を含む認識結果情報を発言日時と共に過去の発言情報として記憶する記憶手段と、この記憶手段に記憶された過去の発言情報を利用してユーザの発言に対する返事としての発言を作成する発言作成手段と、この発言作成手段によって作成された発言を出力する出力手段とを具備して構成される。
【００２７】
このような構成の会話システムによれば、会話相手であるユーザの発言が入力されると、そのユーザの発言が音声認識されると共に、当該発言に含まれる各語句の音量情報またはピッチ情報が抽出される。そして、各語句の音量情報またはピッチ情報に基づいて、認識結果情報の中から音量的あるいはピッチ的に特徴のある語句が抽出され、その抽出された語句がその音量的あるいはピッチ的な特徴に応じて加工される。この加工後の語句を含む認識結果情報は発言日時と共に過去の発言情報として記憶され、以後、その過去の発言情報を利用した発言が作成されて出力される。このように、例えば大きく発声された語句は太字にしたり、「！」を付加しておくなど、その特徴に応じた加工を施してから発言日時と共に過去の発言情報として記憶しておくことにより、過去の発言情報を利用して発言する場合に、ユーザがどのような意図で発言した語句であるかを判別することができ、適切な返事を返すことができる。
【００２８】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を説明する。
【００２９】
（第１の実施形態）
図１は本発明の一実施形態に係る会話システムのハードウェア構成を示すブロック図である。本発明の会話システムは、ユーザの発言に対し、あたかも人間が返事をしているかの如く発言して会話を進めるためのものであり、例えば会話型ロボット等の玩具類やテレビゲーム機などに搭載される。
【００３０】
図１では、本システムを汎用のコンピュータによって実現した場合の基本的な構成が示されており、ＣＰＵ１１、音声入力部１２、Ａ／Ｄ変換部１３、音声出力部１４、Ｄ／Ａ変換部１５、ワークメモリ１６、不揮発性メモリ１７によって構成されている。
【００３１】
ＣＰＵ１１は、不揮発性メモリ１７などに記憶されたプログラムを読み込むことにより、そのプログラムに記述された手順に従って所定の処理を実行する。音声入力部１２は、会話時にユーザの音声を入力するためのマイクである。この音声入力部１２から入力されたユーザの音声（アナログデータ）はＡ／Ｄ変換部１３でデジタルデータに変換されてＣＰＵ１１に取り込まれる。ＣＰＵ１１はワークメモリ１６を用いて処理を行い、ユーザの発言に対する返事をＤ／Ａ変換部１５を介して出力する。Ｄ／Ａ変換部１５は、ＣＰＵ１１によって生成された音声データをアナログデータに変換して音声出力部１４に与える。音声出力部１４は、これを外部に出力するためのスピーカである。
【００３２】
ワークメモリ１６には、ＣＰＵ１１の処理動作に必要なデータが記憶される。このワークメモリ１６には、音声認識結果情報（文字情報）をバッファしておくための認識結果バッファ１６ａ（図２参照）や、その音声認識結果に対する音量情報をバッファしておくための音量バッファ１６ｂ、ピッチ情報をバッファしておくためのピッチバッファ１６ｃなどが設けられている。
【００３３】
音声認識結果情報は、ユーザの発言を音声認識した結果のテキスト情報と、音声認識結果のそれぞれの単位語句が発声開始された時刻を表すスタート時刻とそれが発声終了した時刻を表すエンド時刻からなるデータである。音量情報とピッチ情報は、それぞれユーザが発言している間の各時刻と対応させた音量とピッチの情報である。例えば、ユーザの発言が時刻ｔ１からｔ６まで発声されたとすると、時刻ｔ１からｔ６までの音量とピッチが一定の時間間隔毎に記録されている。なお、この時間間隔は音声認識結果情報の単位語句が発声されている時間よりも十分に短いものとする。
【００３４】
不揮発性メモリ１７は、例えばフラッシュメモリからなり、電源が切れても記憶内容が消えない書き換え可能なメモリである。この不揮発性メモリ１７には、本発明の会話システムを実現するためのプログラムが記憶されたプログラム領域１７ａの他、会話処理に必要な各種情報が記憶された情報記憶領域１８〜２５が設けられている。
【００３５】
この不揮発性メモリ１７の情報記憶領域１８には、ユーザに対する返事としての発言を作成するための発言作成用データが記憶されている。情報記憶領域１９には、肯定の意味と否定の意味を持つ語句を確認するための否定確認データが記憶されている（図３参照）。情報記憶領域２０には、複数の意味を持つ同音異義語を確認するための同音異義語確認データが記憶されている（図４参照）。情報記憶領域２１には、ユーザの発した過去の平均音量が語句単位で記憶されている。情報記憶領域２２には、ユーザの音声を正しく音声認識するための適正音量範囲が記憶されている。情報記憶領域２３には、大声に対応した発言を作成するための大声専用発言作成用データが記憶されている。情報記憶領域２４には、小声に対応した発言を作成するための小声専用発言作成用データが記憶されている。情報記憶領域２５には、会話ログが記憶される。この会話ログについては、後に第２の実施形態で説明する。
【００３６】
図２はワークメモリ１６の認識結果バッファ１６ａに記憶される音声認識結果情報の一例を示す図であり、ユーザの複数の発言例に対する音声認識結果情報が示されている。
【００３７】
ユーザの発言はその発言を構成する語句の単位に分解されて、それぞれの単位について、それが発声された時刻を表すスタート時刻とエンド時刻の情報がある。例えば、図２（ａ）に示す音声認識結果情報例１では、「彼は野球部のキャプテンだ」とユーザが発言した場合において、「彼」という語句は時刻ｔ１からｔ２の間に発声されたことを表している。同様に、「は」という語句は時刻ｔ３からｔ４の間に発声され、「野球部」という語句は時刻ｔ５からｔ６の間に発声され、「の」という語句は時刻ｔ７からｔ８の間に発声され、「キャプテン」という語句は時刻ｔ９からｔ１０の間に発声され、「だ」という語句は時刻ｔ１１からｔ１２の間に発声されたことを表している。
【００３８】
図３は不揮発性メモリ１７の情報記憶領域１９に記憶される否定確認データの一例を示す図である。
【００３９】
否定確認データは、「確認対象パターン」、「平均音量変化」、「意味」からなる。例えば、「きれいじゃない」の「じゃない」といった語句は、アクセントの違いによって否定の意味または肯定の意味を持つ。そこで、「じゃない」に対し、前半部の「じゃ」の平均音量と後半部の「ない」の平均音量を比較した場合に、前者が後者より大きい場合（大→小といった音量変化の場合）には肯定の意味とし、前者が後者より小さい場合（小→大といった音量変化の場合）には否定の意味として判定するための否定確認データが情報記憶領域１９に予め登録されている。
【００４０】
図４は不揮発性メモリ１７の情報記憶領域２０に記憶される同音異義語確認データの一例を示す図である。
【００４１】
同音異義語確認データは、「グループ番号」、「分割数」、「確認対象語句」、「平均ピッチ変化」からなる。例えば、「はし」といった読みに対しては「端」，「橋」，「箸」といった同音異義語があり、それぞれアクセントが違う。そこで、「はし」を「は」と「し」に２分割して、平均ピッチ変化が「高高」の場合に「端」、「高低」の場合に「橋」、「低高」の場合に「箸」として判定するための同音異義語確認データが情報記憶領域２０に予め登録されている。
【００４２】
このような構成の会話システムにおいて、音声入力部１２から入力されたユーザの音声はＡ／Ｄ変換部１３にてデジタルデータに変換された後、ＣＰＵ１１に与えられる。
【００４３】
図５に本システムに搭載されたＣＰＵ１１が行うＡ／Ｄ変換後のデータの処理の流れを示す。Ａ／Ｄ変換された音声データは音声認識処理（ａ）によりディクテーションされ、テキスト形式の文章に変換されると同時に、ピッチ抽出処理（ｂ）によりピッチ情報が抽出され、音量抽出処理（ｂ）により音量情報が抽出される。
【００４４】
次に、このテキスト形式の文章に対して会話処理（ｄ）が施され、ユーザの発言に対する返事としての発言が作成され、読み上げ処理（ｅ）によって読み上げられる。このとき、ＣＰＵ１１にてユーザに対する返事として作成された発言の音声データはＤ／Ａ変換部１５によってアナログデータに変換された後、スピーカ等の音声出力部１４を通じて出力される。
【００４５】
ここで、「音声認識処理」、「ピッチ抽出処理」、「音量抽出処理」、「読み上げ処理」については一般的に知られている手法を用いるものとしてその詳しい説明は省略する。以下では、本システムの「会話処理」を中心に、図６乃至図９に示すフローチャートを参照して具体的な処理手順について詳しく説明する。なお、これらのフローチャートで示される処理は、本システムに備えられたＣＰＵ１１がプログラムを読み込むことで実行する。
【００４６】
また、本出願人によって出願済みの会話処理（特願２００２−２３３０９０号公報参照）や、人工知能のような高度な処理を行わずに本当の会話らしいものを実現する、一般に人工無能と称される方式の会話処理を併用して「相手にフィードバックする発言」を作り出す会話処理（特願２００２−３５５６２８号公報参照）はすべて行えるものとする。すなわち、キーワードを利用した発言、フィードバック型の発言、人工無能方式による発言などが可能である。図１に示す不揮発性メモリ１７の発言作成用データは、これらの発言を作成する時に用いるすべてのデータである。
【００４７】
以下では、個々の発明の本質に焦点をあてて分かりやすくするために、複数の会話処理（１）〜（５）に分けて説明するが、実際には、これらの会話処理（１）〜（５）が組み合わさった形で本システムの会話処理が構成される。本システムでは、ユーザの発言を音声認識してテキスト化すると共に音量抽出またはピッチ抽出を行い、その音量情報またはピッチ情報に基づいてユーザの発言を解析して、ユーザの発言に対する返事としての発言を作成する。
【００４８】
・会話処理（１）
まず、本発明の会話システムによって実現される会話処理（１）について説明する。
【００４９】
会話処理（１）では、ユーザの発言に対し、音声認識結果として得られたテキスト情報（文字情報）に対応した各語句の音量情報を調べることにより、その音量情報に基づいて、ユーザ発言の中からキーワードを選択して発言（返事）を作成することを特徴とする。
【００５０】
図６は本発明の第１の実施形態における会話システムの会話処理（１）を示すフローチャートであり、この会話処理（１）はユーザの発言を音声認識処理すると同時に音量抽出処理およびピッチ抽出処理した後に実行される。
【００５１】
ＣＰＵ１１は、ユーザ発言の音声認識結果として得られたテキスト情報を品詞解析して、そのテキスト情報の中からキーワード対象として指定された名詞を抽出する（ステップＡ１１）。その際、名詞が１つだけ抽出された場合には（ステップＡ１２→Ａ１３のＮｏ）、ＣＰＵ１１は、当該名詞をキーワードとして特定してワークメモリ１６内の図示せぬバッファに記憶した後（ステップＡ１４）、そのキーワードを用いてユーザの発言に対する返事としての発言を作成する（ステップＡ１７）。なお、キーワードを用いた発言作成処理については、例えば特願２００２−２３３０９０号公報に開示されており、ここではその詳しい説明は省略するものとする。
【００５２】
一方、複数の名詞が存在する場合には（ステップＡ１３のＹｅｓ）、ＣＰＵ１１はこれらの名詞のスタート時刻からエンド時刻までの音量情報を用いて各名詞が発生されている間の平均音量を計算する（ステップＡ１５）。そして、ＣＰＵ１１は、その平均音量の最も大きい名詞をキーワードとして選択し、これをワークメモリ１６内の図示せぬバッファに記憶した後（ステップＡ１４）、そのキーワードを用いてユーザの発言に対する返事としての発言を作成する（ステップＡ１７）。
【００５３】
また、ユーザ発言の音声認識結果情報（テキスト情報）に名詞がなかった場合には（ステップＡ１２のＮｏ）、ＣＰＵ１１はキーワードを用いない他の手法にてユーザの発言に対する返事としての発言を作成する（ステップＡ１８）。キーワードを用いない他の手法とは、例えば特願２００２−２３３０９０号公報の従来技術して開示されているシナリオ方式などである。
【００５４】
ここで、ステップＡ１５〜Ａ１７の処理について、図２（ａ）の音声認識結果情報例１を用いて具体的に説明する。
【００５５】
音声認識結果情報例１に示すように、ユーザが「彼は野球部のキャプテンだ」と発言したとすると、その中の「彼」，「野球部」，「キャプテン」が名詞として抽出される。そして、「彼」については時刻ｔ１からｔ２の間の平均音量、「野球部」については時刻ｔ５からｔ６の間の平均音量、「キャプテン」については時刻ｔ９からｔ１０の間の平均音量が計算され、最も平均音量の高いものがキーワードとなる。
【００５６】
このように、キーワードの候補が複数得られた場合に、その中の最も平均音量の高いキーワードを用いて発言を作成することで、例えば「野球部」が強調されて発言された時には「そうですか、野球部なんですか」、「キャプテン」が強調されて発言された時には「そうですか、キャプテンなんですか」、「彼」が強調されて発言された時には「そうですか、彼なんですか」などといったように、ユーザの発言意図とかみ合った発言を返事として返すことができ、自然な会話を楽しむことができるようになる。
【００５７】
この例とは異なる例も考えられる。例えば、「彼は野球部のキャプテンだ」の場合、「彼が」ではなく「彼は」となっているので、ユーザが「彼」を強調する意図がある可能性は少ないと考えられる。このような音声認識結果情報のテキストから得られる判断を併用してキーワードを決めても良い。つまり、例えば「彼」を候補から外す、あるいは、平均音量で比較する前に「彼」の平均音量から一定値を差し引くなどである。
【００５８】
なお、ここでは名詞をキーワードの対象としたが、他の品詞も候補として選んでも良い。また、候補を絞るのに品詞を利用したが、他の方法で候補を選んでも良い。例えば提案書「会話システム」のように漢字やカタカナで候補を絞り込んでも良い。また、キーワードの候補となれる語句のリストを予め設けて、そのリストにあった語句だけを候補としても良い。
【００５９】
・会話処理（２）
次に、本発明の会話システムによって実現される会話処理（２）について説明する。
【００６０】
会話処理（２）では、フィードバック型発言を行う場合を想定しており、ユーザの発言に対し、音声認識結果として得られたテキスト情報（文字列情報）に対応したピッチ情報を調べることにより、そのピッチ情報に基づいて疑問の意味が含まれているかどうかを判定して発言を作成することを特徴とする。
【００６１】
図７は本発明の第１の実施形態における会話システムの会話処理（２）を示すフローチャートであり、この会話処理（２）はユーザの発言を音声認識処理すると同時に音量抽出処理およびピッチ抽出処理した後に実行される。
【００６２】
なお、ここでは簡単のために、形容詞または形容動詞がひとつだけ抽出されるものとして処理を示してある。また、同じく簡単のために、疑問または否定の可能性がある場合だけフィードバック型発言を避ける例を示した。ステップＢ１３はそのための処理であり、例えば「か」という文字が文末にある場合や文中に「なぜ」がある場合には疑問の可能性ありと判断する。また、「ない」やこの活用形が文中にある場合には否定の可能性ありと判断するものとする。
【００６３】
ＣＰＵ１１は、ユーザ発言の音声認識結果として得られたテキスト情報を品詞解析して、そのテキスト情報の中から形容詞または形容動詞を抽出する（ステップＢ１１）。形容詞または形容動詞があれば（ステップＢ１２のＹｅｓ）、続いて、ＣＰＵ１１は当該テキスト情報の中に疑問または否定の可能性を示す語句があるか否かを判断する（ステップＢ１３）。
【００６４】
上述したように、例えば「か」という文字が文末にある場合や文中に「なぜ」がある場合には疑問の可能性ありと判断する。また、「ない」やこの活用形が文中にある場合には否定の可能性ありと判断する。不揮発性メモリ１７には、このときの判断条件を示す情報が記憶されており、ＣＰＵ１１はその情報を参照することで疑問または否定の判断を行う。
【００６５】
ここで、疑問または否定の可能性を示す語句がない場合には（ステップＢ１３のＮｏ）、ＣＰＵ１１は当該テキスト情報から抽出した形容詞または形容動詞のスタート時刻からエンド時刻までのピッチ情報を用いて、その語句の前半部分の平均ピッチと後半部分の平均ピッチをそれぞれ計算し（ステップＢ１４）、どちらの平均ピッチが高いのかを調べる（ステップＢ１５）。前半部分の平均ピッチより後半部分の平均ピッチが高い場合、つまり、尻上がりの発音であった場合には（ステップＢ１５のＹｅｓ）、疑問の意味が含まれている可能性があるので、ＣＰＵ１１はフィードバック型以外の手法にてユーザの発言に対する返事としての発言を作成する（ステップＢ１９）。フィードバック型以外の手法とは、例えばシナリオ方式などである。
【００６６】
一方、前半部分の平均ピッチより後半部分の平均ピッチが低い場合、つまり、尻下がりの発音であった場合には（ステップＢ１５のＮｏ）、当該テキスト情報から抽出した形容詞または形容動詞を用いてフィードバック型の発言を作成する（ステップＢ１６）。すなわち、形容詞や形容動詞の前後に予め用意された特定の文字列を接続して、ユーザの発言に対する返事としての発言を作成する。例えば、形容詞の前に「そうですか。」、形容詞の後に「のですか」をつなげて、形容詞が「おいしい」の場合には、「そうですか。おいしいのですか」などの発言を作成する。なお、このフィードバック型の発言作成処理については、例えば特願２００２−３５５６２８号公報に開示されており、ここではその詳しい説明は省略するものとする。
【００６７】
また、前記ステップＢ１３において、疑問または否定の可能性を示す語句があった場合には（ステップＢ１３のＹｅｓ）、ＣＰＵ１１はその語句が否定確認データの確認対象パターンに含まれるか否かを調べる（ステップＢ１７）。否定認確認データとは、図３に示すように、「じゃない」といったようなアクセントの違いによって否定の意味または肯定の意味を持つ語句を対象としたデータであり、これは不揮発性メモリ１７の情報記憶領域１９に記憶されている。
【００６８】
前記疑問または否定の可能性を示す語句が否定認確認データの確認対象パターンに含まれていれば（ステップＢ１７のＹｅｓ）、ＣＰＵ１１はその語句の平均音量変化から肯定の意味であるか否定の意味であるかを判断する（ステップＢ１８）。その結果、ＣＰＵ１１は当該語句が肯定の意味であった場合には前記ステップＢ１４からの処理を行い、否定の意味であった場合には前記ステップＢ１９の処理を行う。
【００６９】
ここで、上述した処理について具体例を挙げて説明する。
【００７０】
図２（ｂ）に示す音声認識結果情報例２で説明すると、まず、ユーザ発言である「このケーキおいしい」の中から「おいしい」といった形容詞が抽出される。この場合、「このケーキおいしい」には疑問や否定を示す語句がないのでステップＢ１４へ進み、「おいしい」が発声された中間の時刻ｔ５６＝（ｔ５＋ｔ６）／２が計算される。これを用いてピッチ情報によりｔ５からｔ５６までの平均ピッチとｔ５６からｔ６までの平均ピッチが計算される。ｔ５からｔ５６までの平均ピッチが「前半部分の平均ピッチ」、ｔ５６からｔ６までの平均ピッチが「後半部分の平均ピッチ」である。前半部分の平均ピッチよりも後半部分の平均ピッチが高い場合には、「おいしい」を尻上がりに発声した場合なので、疑問の意味が含まれている可能性がある。
【００７１】
そこで、このような場合にはフィードバック型の発言を行わない。この手法だと、口語では頻繁に行われる語順の逆転にも対応できる。例えば、「おいしい、このケーキ」と言った場合にも対応できる。つまり、音声認識結果の文字列からは知ることができない疑問の判定が可能となる。
【００７２】
また、図２（ｃ）に示す音声認識結果情報例３で説明すると、ユーザ発言「きれいじゃない」には「ない」が含まれているのでステップＢ１７へ進むが、図３に示すように、「じゃない」が否定確認データの確認対象パターンに該当するので、ステップＢ１８にて否定確認データの平均音量変化に従い、「じゃ」の平均音量（時刻ｔ３からｔ４の平均音量）と「ない」の平均音量（時刻ｔ５からｔ６の平均音量）が比較される。そして、前者が後者より平均音量が大きい場合には、否定確認データの「意味」に従って肯定の意味であると判定され、それ以外は否定の意味であると判定される。これにより、「きれいだ」といった肯定の意味である「きれいじゃない」といったユーザ発言に対して、フィードバック型発言ができるようになる。
【００７３】
なお、ここでは簡単のために、形容詞または形容動詞のみのピッチ変化を調べたが、形容詞や形容動詞に接続される他の品詞も含めてピッチ変化を調べても良い。例えば、「このケーキおいしかった」であれば、「おいしかっ」が活用変化した形容詞で「た」が助動詞だが、形容詞＋助動詞である「おいしかった」の部分のピッチ変化を調べれば、これが疑問文かどうかが分かる。
【００７４】
また、形容詞または形容動詞を用いた「フィードバック型発言」を行ったが、動詞や名詞などの他の品詞を用いても良い。もちろん「フィードバック型発言」以外に利用しても良い。例えば、これと同様の手法によりユーザの発言が質問なのかどうかを判定して、質問と判定した場合には、その質問に答える発言をしても良い。否定である肯定であるかの判定を用いて、それぞれの場合に正しく反論するような発言を行っても良い。
【００７５】
また、品詞を解析するだけではなく、文の構造も解析して、疑問文であるかどうかを判定するにふさわしい語句を見つけ出しても良い。
【００７６】
反対に、品詞解析も構文解析も行わずに、他の解析手法を用いても良い。例えば、質問かどうかを判定する際に、文末に限定してそのピッチの高低変化を調べて疑問文であるかどうかを判定しても良い。あるいは、発言の途中に一定時間以上の無音がある時には、その直前の部分のピッチ変化を調べて、そこに疑問の意味が含まれているかどうかを判定しても良い。
【００７７】
また、形容詞または形容動詞を前半と後半に分けてピッチを調べたが、最後の一定部分をそれ以前と比べるなど、他の方法を用いても良い。
【００７８】
また、疑問の意味を含まない時の各語句のピッチ変化の情報を予め持ち、それと比較することで疑問の意味が含まれているかを判定しても良い。「じゃない」の判定では、単位語句の平均音量の比較を利用したが、他の手法で音量を利用しても良い。例えば、肯定の場合と否定の場合の典型的な音量差を示す情報を持ち、どちらの差に近いかで判定しても良い。語句単位ではなく、語句を細分した単位で調べても良い。否定か肯定かの判定に音量を用いたが、ピッチまたはピッチと音量の両方を利用して判定しても良い。
【００７９】
・会話処理（３）
次に、本発明の会話システムによって実現される会話処理（３）について説明する。
【００８０】
現状の音声認識技術では、同音異義語を正しく認識することは難しい。このため、同音異義語がユーザの発言に含まれていると、会話システムがその発言の意味を誤解してしまうことが多かった。会話処理（３）では、このような同音異義語に対し、ピッチ変化からユーザの意図していた同音異義語を正しく認識して発言することを特徴とするものである。
【００８１】
図８は本発明の第１の実施形態における会話システムの会話処理（３）を示すフローチャートであり、この会話処理（３）はユーザの発言を音声認識処理すると同時に音量抽出処理およびピッチ抽出処理した後に実行される。
【００８２】
ＣＰＵ１１は、ユーザ発言の音声認識結果として得られたテキスト情報の中に同音異義語確認データの確認対象語句があるか否かを調べる（ステップＣ１１）。同音異義語確認データとは、図４に示すように、「はし」に対して「端」，「橋」，「箸」といったようにアクセントの違いによって意味の異なる語句を対象としたデータであり、これは不揮発性メモリ１７の情報記憶領域２０に記憶されている。
【００８３】
テキスト情報の中に該当する語句があった場合には（ステップＣ１１のＹｅｓ）、ＣＰＵ１１はその語句のスタート時刻からエンド時刻までの時間をその語句の分割数で分割し（ステップＣ１２）、その分割した各部分の平均ピッチを計算する（ステップＣ１３）。その結果、各部分間の平均ピッチの変化が同音異義語確認データの平均ピッチ変化で示される通りであった場合には（ステップＣ１４のＹｅｓ）、ＣＰＵ１１は語句の置き換えなしに、現在の音声認識結果情報であるテキスト情報を用いてユーザの発言に対する返事としての発言を作成する（ステップＣ１７）。すなわち、例えば当該語句をキーワードとした発言を作成する。
【００８４】
一方、各部分間の平均ピッチの変化が同音異義語確認データの平均ピッチ変化で示される通りでなかった場合には（ステップＣ１４のＮｏ）、ＣＰＵ１１は当該語句と同一グループ番号に属する各語句の中から平均ピッチ変化が一致する語句があるか否かを調べる（ステップＣ１５）。平均ピッチ変化が一致する語句があれば（ステップＣ１５のＹｅｓ）、ＣＰＵ１１は当該語句を前記平均ピッチ変化が一致した語句に置き換えた後（ステップＣ１６）、その置き換え後の語句を含んだ音声認識結果情報を用いてユーザの発言に対する返事としての発言を作成する（ステップＣ１７）。
【００８５】
また、平均ピッチ変化が一致する語句がない場合には（ステップＣ１５のＮｏ）、ＣＰＵ１１はユーザに対して何と言ったのか、今対象となっている同音異義語を並べて表示するなどしてユーザに語句を確認するための発言を作成する（ステップＣ１８）。
【００８６】
ここで、上述した処理について具体例を挙げて説明する。
【００８７】
図２（ｄ）に示す音声認識結果情報例４で説明すると、まず、ユーザ発言である「きたない橋だ」の中から「橋」といった同音異義語が抽出される。この場合、「橋」の発音である「はし」の平均ピッチ変化が「高低」であれば、ステップＣ１４にて「橋」が正しい語句であると認識されて、その語句を用いてユーザに対する発言が作成される。一方、「はし」の平均ピッチ変化が「高低」でない場合には別の意味の語句である可能性があるので、ステップＣ１６にて「はし」の平均ピッチ変化に対応した語句に置き換えられる。この場合、「高高」であれば「端」、「低高」であれば「箸」といった語句に置き換えられる。
【００８８】
ステップＣ１８では、例えば「川にかかる橋ですか、食事に使う箸ですか、真中ではない端ですか」といった発言をしてユーザに確認すれば良いし、その際に同音異義語の各漢字を表示して確認するようにしても良い。
【００８９】
なお、ここでは、同音異義語を発声している時間を等間隔に分けてそれぞれの時間の平均ピッチを比較したが、音素単位や読みとしての文字単位などで比較するなど、他の方法を用いても良い。
【００９０】
また、ピッチ変化のパターンに合致しているかどうかで判定したが、正しいピッチ変化の情報を持つなどして、その中でもっとも近いものと判定しても良い。同音異義語の前後の単語などからどの意味の可能性が高いかを推定して、その結果も考慮に入れるようにしても良い。
【００９１】
また、ここではピッチ変化で判定したが音量変化を用いて判定しても良いし、ピッチ変化と音量変化の両方を用いて判定しても良い。
【００９２】
また、ここでは平均ピッチ変化が一致した語句がある場合には無条件でそれに置き換えたが、この語句が音声認識結果と異なる場合には、例えば「はしというのは、食事に使う箸のことですか」などといったように、ユーザに確認をとる発言を作成するようにしても良い。
【００９３】
・会話処理（４）
次に、本発明の会話システムによって実現される会話処理（４）について説明する。
【００９４】
ユーザの発言の音量が適正音量範囲を外れると、音声認識の精度に問題が出る可能性が高まる。会話処理（４）では、このようなユーザ発言の音量に応じた発言を行うことを特徴とするものである。
【００９５】
図９は本発明の第１の実施形態における会話システムの会話処理（４）を示すフローチャートであり、この会話処理（４）はユーザの発言を音声認識処理すると同時に音量抽出処理およびピッチ抽出処理した後に実行される。
【００９６】
ＣＰＵ１１は、ユーザ発言の音声認識結果として得られたテキスト情報の中に平均音量が不揮発性メモリ１７の情報記憶領域２２に記憶された適正音量範囲を外れる単位語句があるか否かを調べる（ステップＤ１１）。適正音量範囲とは、ユーザの発した音声を正しく音声認識できる音量の範囲を示すものである。平均音量がこの適正音量範囲の上限を超える場合あるいは同範囲の下限を下回ると誤認識してしまう可能性がある。そこで、適正音量範囲を外れる単位語句があった場合には（ステップＤ１１のＹｅｓ）、ＣＰＵ１１はその語句について再度発声を促す発言を作成する（ステップＤ１２）。
【００９７】
また、情報記憶領域２１には、ユーザの発した過去の平均音量が語句単位で記憶されている。前記適正音量範囲を外れる単位語句がなかった場合（ステップＤ１１のＮｏ）、ＣＰＵ１１はこの情報記憶領域２１に記憶された過去の平均音量との比較を行う（ステップＤ１３）。なお、複数のユーザで本システムを共有する場合には、各ユーザ毎に固有のＩＤ（識別情報）を用いて、そのＩＤにて過去の平均音量を個別に記憶することが好ましい。
【００９８】
ここで、ユーザ発言の音声認識結果として得られたテキスト情報の中に過去の平均音量と比べて平均音量が著しく小さな単位語句（過去の平均音量よりも平均音量が一定量以上小さい単位語句）があった場合には（ステップＤ１３のＹｅｓ）、ＣＰＵ１１は不揮発性メモリ１７の情報記憶領域２４に記憶された小声専用発言作成用データを用いて小声に対応した発言を作成する（ステップＤ１４）。その際、ＣＰＵ１１は今回の音量情報を用いて情報記憶領域２１内の過去の平均音量を更新しておく（ステップＤ１５）。更新方法としては、例えば今回の平均音量を計算し、それと過去の平均音量で加重平均を取り、その値を新たな平均音量として書き込むなどの方法がある。
【００９９】
一方、当該テキスト情報の中に過去の平均音量と比べて平均音量が過去の平均音量よりも著しく大きな単位語句（過去の平均音量よりも平均音量が一定量以上大きい単位語句）があった場合には（ステップＤ１６のＹｅｓ）、ＣＰＵ１１は不揮発性メモリ１７の情報記憶領域２３に記憶された大声専用発言作成用データを用いて大声に対応した発言を作成する（ステップＤ１７）。また、平均音量が過去の平均音量と比べて同程度であれば（ステップＤ１６のＮｏ）、ＣＰＵ１１は不揮発性メモリ１７の情報記憶領域１８に記憶された発言作成用データを用いて通常の発声に対する発言を作成する（ステップＤ１８）。いずれの場合も発言作成後は上述したように今回の音量情報を用いて情報記憶領域２１内の過去の平均音量を更新しておく（ステップＤ１５）。
【０１００】
ここで、上述した処理について具体例を挙げて説明する。
【０１０１】
例えば、図２（ａ）に示す音声認識結果情報例１において、ｔ９からｔ１０までの平均音量が適正音量範囲を外れていると、ステップＤ１２にて、「彼は野球部の何ですって？」などといったように、音声認識結果が間違っている可能性の高い語句を問い直す。あるいは、「もう一度少し大きな声で言ってください」、「今キャプテンと言いましたか？」などと発言しても良い。
【０１０２】
また、過去の平均音量は、その時点までのユーザの発言の平均音量を示すデータである。これと比べて著しく大きな声または小さな声で発せられた単位語句がある場合には、そのことを利用して通常とは異なる発言を言う。
【０１０３】
例えば、人工無能方式の発言データとして、「黙れ」がユーザ発言の中にあれば、「黙りますよ。黙ればいいんでしょう」などと発言するような大声専用発言作成用データを作成しておき、通常の発言を作成する時に使用する発言作成用データには、「黙れ」に対応するものとして「はい、静かにします」を入れておく。これにより、ユーザが普通の声の大きさで「黙れ」と言った時には、ステップＤ１８で「はい、静かにします」といった発言をさせ、ユーザが大声で「黙れ」と言った時には、ステップＤ１７で「黙りますよ。黙ればいいんでしょう」とふてくされたような発言をさせることができる。
【０１０４】
また、ステップＤ１４では、小声専用発言作成用データを利用することにより、同様の対応が小さな声での発言に対しても行うことができる。
【０１０５】
なお、大声の時や小さな声の時に、通常時とは異なる発言作成アルゴリズムを用いても良い。
【０１０６】
さらに、ここでは音量情報を利用して会話処理を行うようにしたが、ピッチ情報を利用して同様の会話処理を行うことも可能である。この場合には、適正ピッチ範囲、過去の平均ピッチ、高ピッチ専用発言作成データ、低ピッチ専用発言作成データといった情報を不揮発性メモリ１７の所定の領域に予め用意しておき、ＣＰＵ１１がこれらの情報を用いて前記図９と同様の会話処理を行うことになる。
【０１０７】
すなわち、まず、ユーザ発言の音声認識結果として得られたテキスト情報の中に平均ピッチが適正ピッチ範囲を外れる単位語句があるか否かを調べ、該当する単位語句があれば、その単位語句について再度発を促す発言を作成する（図９のステップＤ１１〜Ｄ１２に相当する処理）。
【０１０８】
また、テキスト情報の中に過去の平均ピッチよりも著しく低い単位語句があれば、低ピッチ専用発言作成データを用いて低ピッチに対応した発言を作成する（図９のステップＤ１３〜Ｄ１４に相当する処理）。テキスト情報の中に過去の平均ピッチよりも著しく高い単位語句があれば、高ピッチ専用発言作成データを用いて高ピッチに対応した発言を作成する（図９のステップＤ１６〜Ｄ１７に相当する処理）。平均ピッチが過去の平均ピッチと比べて同程度であれば、発言作成用データを用いて通常の発声に対する発言を作成する（図９のステップＤ１８に相当する処理）。発言作成後は今回のピッチ情報を用いて過去の平均ピッチを更新しておく（図９のステップＤ１５に相当する処理）。
【０１０９】
以上のように本発明の会話システムによれば、ユーザが強く発音した語句をキーワードとして適切な語句として選択して、その語句を用いて発言を作成するので、ユーザの発言意図にあった発言を返事として返すことができる（会話処理（１））。この場合、音声認識結果情報を品詞解析してキーワードの候補を見つけているので、平仮名の語句や平仮名の混じった語句もキーワードにすることができる。
【０１１０】
また、尻上がりにピッチを上げるだけで疑問の意味を持つような発言を疑問文として正しく判定することができるので、的外れな発言を避けることができる（会話処理（２））。
【０１１１】
また、同じ語句で複数の意味を有するユーザ発言を正しく解釈できるので、適切な発言を返事として返すことができる（会話処理（３））。同音異義語の誤認識を自動的に修正できるので、手間をかけずに同音異義語が含まれた会話をより正しく行うことができる。同音異義語を判定しきれない場合にそれについてユーザに質問するので、同音異義語を間違って解釈したままで会話を続けてしまうような事態を回避できる。
【０１１２】
音量やピッチに特徴のある発言があった時には、その音量やピッチの特徴に見合った発言を返事として返すことができるので、より自然で豊富な会話を展開することができる（会話処理（４））。
【０１１３】
なお、前記実施形態では、平均音量や平均ピッチなど、ある時刻間の音量やピッチの平均値を用いたが、音量やピッチに他の処理を施した値を用いても良い。あるいは、処理を施さないで、音量やピッチそのものを用いても良いし、最低値、最高値など、何らかの選択を施した値を用いても良い。
【０１１４】
また、単位語句に対応させて音量やピッチを利用したが、文字単位、音素単位など、それを更に細分した形で対応させて利用しても良い。
【０１１５】
また、音声認識結果として得られたテキスト情報（文字列情報）と音量情報やピッチ情報を対応させるために、音声認識結果情報を単位語句に分解し、各単位語句にスタート時刻とエンド時刻を設けたが、他の手法で対応させても良い。例えば、文字単位や音素単位で時刻情報を設けても良い。あるいは、音声認識処理とピッチ抽出処理と音量抽出処理を各時刻において常に対応づけて行うことで、時刻情報を介さずに、直接、各単位語句や各文字や各音素に対応するピッチ情報や音量情報を得ても良い。この場合には音声認識結果情報の中に、音声認識結果の文字情報と直接対応する形で、ピッチ情報、音量情報が含まれることになる。
【０１１６】
また、背景に騒音などがある場合には、複数のマイクを用いて背景騒音を除去するなどの仕組みを取り入れれば良い。
【０１１７】
（第２の実施形態）
次に、本発明の第２の実施形態に係る会話システムについて説明する。
【０１１８】
第２の実施形態では、会話相手であるユーザの発言（必要に応じて会話システムの発言も含めて）を日時情報と共に過去の発言情報として記憶しておくことで（これを「会話ログ」と呼ぶことにする）、その会話ログを利用して発言する場合を想定している。
【０１１９】
すなわち、今回のユーザの発言の中に含まれるキーワードが、会話ログのユーザの過去の発言の中にある場合に、会話システムでは、それを思い出す発言ができるものとする。例えば、一年前に「チーズっておいしい」とユーザが言っていたとすると、会話ログにはそのことが発言日時と共に記録されている。したがって、今回、ユーザが「今日の給食でチーズが出たよ」と言ったとすると、「チーズっておいしい、と去年言いましたよね」などと発言したりすることができる。
【０１２０】
ここで、例えば一年前にユーザが「おいしい」の部分をしり上がりに発音し、「チーズというのはおいしいですか」という意味の質問していた場合において、会話システムが前記第１の実施形態で述べた手法にてその質問に正しく対応できていたとしても、会話ログとして単に「チーズっておいしい」といった記録がなされていると、後にどのような意味で使われたのか判らなくなり、正しい会話を行うことができない。そこで、ユーザの発言意図を正しく反映させた会話ログを作成し、これを利用して会話処理を行うするものとする。
【０１２１】
以下に、第２の実施形態としての動作を説明する。以下のフローチャートで示される処理は、本システムに備えられたＣＰＵ１１がプログラムを読み込むことで実行する。
【０１２２】
図１０は本発明の第２の実施形態における会話システムの会話ログ作成処理を示すフローチャートである。この会話ログ作成処理は、上記第１の実施形態で説明したような会話処理の後に実行される。
【０１２３】
なお、例えば同音異義語で自動的に修正ができる部分については、対応する音声認識結果情報（文字列）がすでに修正されているものとする。また、ここでは単位語句に「！」や「？」の記号を付加するための条件として一定時間以上の無音時間を挙げているが、これは、強調や疑問の意図を含む場合は無音時間が長くなることが一般的であるからである。この無音時間は、対象単位語句のエンド時刻と次の単位語句のスタート時刻から計算できる。
【０１２４】
まず、ＣＰＵ１１は、ユーザ発言の音声認識結果として得られたテキスト情報の中に平均音量が適正音量範囲を外れる単位語句があるか否かを調べる（ステップＥ１１）。適正音量範囲を示す情報は、不揮発性メモリ１７の情報記憶領域２２に記憶されている。該当する単位語句があれば（ステップＥ１１のＹｅｓ）、ＣＰＵ１１はそれらのすべての単位語句の各文字を特定の記号「＊」に置き換える（ステップＥ１２）。この「＊」は適正音量範囲を外れたことを示す記号である。
【０１２５】
次に、ＣＰＵ１１は、当該テキスト情報の中から先頭の単位語句を処理対象として抽出し（ステップＥ１３）、その処理対象として抽出した単位語句（以下、これを対象単位語句と呼ぶ）の平均音量が過去の平均音量よりも一定量以上に著しく大きいか否かを調べる（ステップＥ１４）。過去の平均音量を示す情報は、不揮発性メモリ１７の情報記憶領域２１に記憶されている。なお、ステップＥ１４において、前記ステップＥ１１にて適正音量範囲を外れているものは除外するものとする。
【０１２６】
過去の平均音量よりも著しく大きい場合には（ステップＥ１４のＹｅｓ）、ＣＰＵ１１はその対象単位語句が文末にあるか、あるいは、次の単位語句との間に一定時間以上の無音時間があるか否かを調べる（ステップＥ１５）。その結果、対象単位語句が文末にある場合、あるいは、次の単位語句との間に一定時間以上の無音時間がある場合には（ステップＥ１５のＹｅｓ）、ＣＰＵ１１は対象単位語句の直後に会話の区切りを示す特定の記号「！」を挿入する（ステップＥ１６）。そうでない場合には（ステップＥ１５のＮｏ）、ＣＰＵ１１は対象単位語句を太字に変える（ステップＥ１７）。
【０１２７】
次に、ＣＰＵ１１は対象単位語句の前半の平均ピッチと後半の平均ピッチを求め、前半の平均ピッチより後半の平均ピッチが高いか否かを調べる（ステップＥ１８）。前半の平均ピッチより後半の平均ピッチが高い場合には（ステップＥ１８のＹｅｓ）、ＣＰＵ１１はその対象単位語句が文末にあるか、あるいは、次の単位語句との間に一定時間以上の無音時間があるか否かを調べる（ステップＥ１９）。その結果、対象単位語句が文末にある場合、あるいは、次の単位語句との間に一定時間以上の無音時間がある場合には（ステップＥ１９のＹｅｓ）、ＣＰＵ１１は対象単位語句の直後に疑問文を示す特定の記号「？」を挿入する（ステップＥ２０）。
【０１２８】
このようにして、当該テキスト情報の中から先頭の単位語句から順に処理対象として抽出して前記同様の処理を繰り返す（ステップＥ２１，Ｅ２２→Ｅ１４）。対象単位語句が文末の単位語句になると（ステップＥ２１のＹｅｓ）、ＣＰＵ１１は最終的に得られたテキスト情報を日時情報と共に会話ログとして不揮発性メモリ１７の情報記憶領域２５に記憶しておく（ステップＥ２３）。
【０１２９】
以上の処理により、以下のような会話ログに用いられるテキスト情報が作成される。
【０１３０】
例１）ユーザが「彼は野球部のキャプテンだ」と発言したが、単位語句「キャプテン」を言う時の声が大きすぎて、音声認識のための適正音量範囲を外れた場合には、特定記号「＊」の置き換えがなされて、会話ログのテキスト情報として「彼は野球部の＊＊＊＊＊だ」が作成される。
【０１３１】
例２）ユーザが大声で（しかし適正音量範囲内の音量で）、「黙れ」と言った場合には、特定記号「！」の挿入により、会話ログのテキスト情報として「黙れ！」が作成される。
【０１３２】
例３）ユーザが「おいしい」の部分を尻上がりに「チーズっておいしい」といったように尋ねるように言った場合には、会話ログのテキスト情報として「チーズっておいしい？」が作成される。
【０１３３】
例４）ユーザが「信念」を（適正音量範囲内の大きな声で）強調し、「勇気と信念が大切だ」と言った場合には、会話ログのテキスト情報として「勇気と信念が大切だ」の「信念」を太字にして作成される。
【０１３４】
例５）ユーザが「きたない箸だ」と正しい発音で言ったが、音声認識で「きたない橋」といったように誤認識された場合には、会話ログのテキスト情報は「きたない箸だ」となる。これは、会話ログ作成処理に入る前の会話処理で「橋」が「箸」に修正されているためである。
【０１３５】
このように、ユーザが尻上がりに発音して疑問の意図を表した場合に「？」が挿入されるので、会話ログにも疑問の意味が反映され、また、大きな声で発言した部分には「！」が挿入されたり、太字に変更されるので、会話ログからそのことが分かる。
【０１３６】
また、音声認識結果に疑いがある部分は「＊」で置き換えるので、間違いを会話ログに残す可能性が少なくなり、後に会話ログを利用して発言を作成する際に誤解を避けられる。誤認識した同音異義語は自動的に修正されて会話ログに残る。形容詞や形容動詞以外の単位語句についてもピッチが尻上がりになるかを調べるので、例えば「犬のえさを食べたのはたぬき？」のような他の品詞の疑問文にも対応できる。
【０１３７】
図１１は本発明の第２の実施形態における会話システムの会話処理を示すフローチャートであり、前記会話ログ作成処理にて作成された会話ログを用いて会話する場合の処理が示されている。この会話処理はユーザの発言を音声認識処理すると同時に音量抽出処理およびピッチ抽出処理した後に実行される。
【０１３８】
ＣＰＵ１１は、ユーザ発言の音声認識結果として得られたテキスト情報の中から不揮発性メモリ１７の情報記憶領域２５に記憶された会話ログと一致するものを探す（ステップＦ１１）。ユーザ発言に会話ログと一致するものがあれば（ステップＦ１２のＹｅｓ）、ＣＰＵ１１は当該会話ログを用いてユーザの発言に対する返事としての発言を作成する（ステップＦ１３）。すなわち、ユーザが過去に発言した文句を利用して、例えば一年前に「チーズっておいしい」とユーザが言っていたとすると、今回のユーザ発言「今日の給食でチーズが出たよ」に対し、「チーズっておいしい、と去年言いましたよね」などと発言する。
【０１３９】
一方、ユーザ発言に会話ログと一致するものがあれば（ステップＦ１２のＹｅｓ）、ＣＰＵ１１は会話ログを用いない他の手法にてユーザの発言に対する返事としての発言を作成する（ステップＦ１４）。これは、他の手法とは、例えば第１の実施形態で説明したようなキーワードを用いた発言作成などである。
【０１４０】
このように、第２の実施形態によれば、ユーザの過去の発言情報を利用して返事を返すことができ、ユーザにとっては自分のことをよく分かってくれていると思いながら楽しく会話することができるようになる。
【０１４１】
なお、本システムを複数のユーザで共有するような場合には、各ユーザ毎に固有のＩＤ（識別情報）を用いて、そのＩＤにて会話ログを個別に記憶しておく必要がある。
【０１４２】
また、会話ログを表示することで、後日、ユーザが会話日記のような形で会話ログをパソコン上で読めるようにすることもできる。この場合、会話ログの作成に際して他の加工処理を行っても良い。例えば、ピッチ情報や音声情報を用いて話者の感情を推量して、メールなどで用いられる「顔文字」などを挿入しても良い。最も強く発音したキーワードの書式を変えても良い（例えば斜体にしたり、下線を付けるなど）。
【０１４３】
また、適正音量範囲をはみ出すなどの理由で音声認識結果が疑わしい部分は削除してしまっても良い。あるいは、その部分の書式を変える、その部分の書式を変えるとともに最後に「？」を挿入するなどしても良い。徐々に音量が小さくなってやがて適正音量範囲をはみ出した部分についてはその部分の文字を「…」で置き換えても良い。
【０１４４】
また、単位語句毎に平均音量や平均ピッチを利用したが、その単位語句が助詞や助動詞などの時には、それにつながる他の単位語句も含めた平均音量や平均ピッチを利用しても良い。
【０１４５】
また、会話システムの会話ログに適用したが、音声で入力し文章を作成するワープロなどに適用しても良い。
【０１４６】
要するに、本発明は前記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。更に、前記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、実施形態で示される全構成要件から幾つかの構成要件が削除されても、「発明が解決しようとする課題」で述べた効果が解決でき、「発明の効果」の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【０１４７】
また、上述した書く実施形態において記載した手法は、コンピュータに実行させることのできるプログラムとして、例えば磁気ディスク（フロッピーディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリなどの記録媒体に書き込んで各種装置に適用したり、通信媒体により伝送して各種装置に適用することも可能である。本装置を実現するコンピュータは、記録媒体に記録されたプログラムを読み込み、このプログラムによって動作が制御されることにより、上述した処理を実行する。
【０１４８】
【発明の効果】
以上詳記したように本発明によれば、ユーザの発言を音声認識してテキスト化すると共に音量抽出またはピッチ抽出を行い、その音量情報またはピッチ情報に基づいてユーザの発言を解析するようにしたため、ユーザの発言意図を正しく解釈して、そのユーザの発言意図に合った返事を返すことができる。
【０１４９】
また、ユーザの発言の中で、例えば大きく発した語句や疑問調で発した語句など、音量的あるいはピッチ的に特徴にある語句についてはその特徴に応じた加工を施して過去の発言情報（会話ログ）として記憶しておくことで、以後、その過去の発言情報の意味を誤解せずに利用して発言できるようになる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係る会話システムのハードウェア構成を示すブロック図。
【図２】前記会話システムのワークメモリの認識結果バッファに記憶される音声認識結果情報の一例を示す図。
【図３】前記会話システムの不揮発性メモリの情報記憶領域に記憶される否定確認データの一例を示す図。
【図４】前記会話システムの不揮発性メモリの情報記憶領域に記憶される同音異義語確認データの一例を示す図。
【図５】前記会話システムのＣＰＵが行うＡ／Ｄ変換後のデータの処理の流れを示す図。
【図６】本発明の第１の実施形態における会話システムの会話処理（１）を示すフローチャート。
【図７】本発明の第１の実施形態における会話システムの会話処理（２）を示すフローチャート。
【図８】本発明の第１の実施形態における会話システムの会話処理（３）を示すフローチャート。
【図９】本発明の第１の実施形態における会話システムの会話処理（４）を示すフローチャート。
【図１０】本発明の第２の実施形態における会話システムの会話ログ作成処理を示すフローチャート。
【図１１】本発明の第２の実施形態における会話システムの会話処理を示すフローチャート。
【符号の説明】
１１…ＣＰＵ
１２…音声入力部
１３…Ａ／Ｄ変換部
１４…音声出力部
１５…Ｄ／Ａ変換部
１６…ワークメモリ
１６ａ…認識結果バッファ
１６ｂ…音量バッファ
１６ｃ…ピッチバッファ
１７…不揮発性メモリ
１７ａ…プログラム領域
１８〜２５…情報記憶領域

Claims

ユーザとの間で会話を行う会話システムであって、
会話相手であるユーザの発言を入力する入力手段と、
この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、
ユーザの発言に含まれる各語句の音量情報またはピッチ情報を抽出する情報抽出手段と、
この情報抽出手段によって抽出された各語句の音量情報またはピッチ情報に基づいて、前記音声認識手段によって得られた認識結果情報を解析してユーザの発言に対する返事としての発言を作成する発言作成手段と、
この発言作成手段によって作成された発言を出力する出力手段と
を具備したことを特徴とする会話システム。
ユーザとの間で会話を行う会話システムであって、
会話相手であるユーザの発言を入力する入力手段と、
この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、
ユーザの発言に含まれる各語句の音量情報を抽出する音量抽出手段と、
この音量抽出手段によって抽出された各語句の音量情報に基づいて、前記音声認識手段によって得られた認識結果情報の中からキーワードとする語句を選択するキーワード選択手段と、
このキーワード選択手段によって選択された語句を用いてユーザの発言に対する返事としての発言を作成する発言作成手段と、
この発言作成手段によって作成された発言を出力する出力手段と
を具備したことを特徴とする会話システム。
前記キーワード選択手段は、特定の品詞を対象としてキーワードとする語句の選択を行うことを特徴とする請求項２記載の会話システム。
ユーザとの間で会話を行う会話システムであって、
会話相手であるユーザの発言を入力する入力手段と、
この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、
ユーザの発言に含まれる各語句のピッチ情報を抽出するピッチ抽出手段と、
このピッチ抽出手段によって抽出された各語句のピッチ情報に基づいて、前記音声認識手段によって得られた認識結果情報の中に疑問の意味が含まれているか否かを判定する第１の判定手段と、
この第１の判定手段の判定結果に応じてユーザの発言に対する返事としての発言を作成する発言作成手段と、
この発言作成手段によって作成された発言を出力する出力手段と
を具備したことを特徴とする会話システム。
前記第１の判定手段は、特定の品詞を対象として、その品詞の前半部分と後半部分のピッチ情報を比較することにより疑問の意味であるか否かを判断することを特徴とする請求項４記載の会話システム。
認識結果情報の中に否定または肯定の意味を持つ特定の語句がある場合に、その語句の音量変化を調べて否定または肯定の意味であるかを判定する第２の判定手段をさらに備え、
前記発言作成手段は、前記第２の判定手段の判定結果に応じて当該ユーザの発言に対する返事としての発言を作成することを特徴とする請求項４記載の会話システム。
ユーザとの間で会話を行う会話システムであって、
会話相手であるユーザの発言を入力する入力手段と、
この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、
この音声認識手段によって得られた認識結果情報の中から同音異義語として指定された語句を抽出する同音異義語抽出手段と、
この同音異義語抽出手段によって抽出された語句のピッチ変化または音量変化に基づいて当該語句が正しいか否かを判定する判定手段と、
この判定手段により当該語句が間違っていると判定された場合に、そのピッチ変化または音量変化に基づいて正しい同音異義語に置き換える置換手段と、
この置換手段によって置き換えられた語句を用いてユーザの発言に対する返事としての発言を作成する発言作成手段と、
この発言作成手段によって作成された発言を出力する出力手段と
を具備したことを特徴とする会話システム。
前記発言作成手段は、前記判定手段により当該語句を判別できなかった場合に、どの同音異義語であるかをユーザに確認するための発言発言を作成することを特徴とする請求項７記載の会話システム。
ユーザとの間で会話を行う会話システムであって、
会話相手であるユーザの発言を入力する入力手段と、
この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、
ユーザの発言に含まれる各語句の音量情報またはピッチ情報を抽出する情報抽出手段と、
この情報抽出手段によって抽出された各語句の音量情報またはピッチ情報に基づいて、前記音声認識手段によって得られた認識結果情報の中に通常とは異なる音量あるいはピッチで発せられた語句が含まれているか否かを判定する第１の判定手段と、
この第１の判定手段の判定結果に応じて音量的あるいはピッチ的な特徴を加味してユーザの発言に対する返事としての発言を作成する発言作成手段と、
この発言作成手段によって作成された発言を出力する出力手段と
を具備したことを特徴とする会話システム。
前記音声認識手段によって得られた認識結果情報の中に音量あるいはピッチが適正範囲を外れる語句が含まれているか否かを判定する第２の判定手段をさらに備え、
前記発言作成手段は、前記第２の判定手段により適正範囲を外れる語句が含まれていると判定された場合に当該語句について再度発声を促す発言を作成することを特徴とする請求項９記載の会話システム。
ユーザとの間で会話を行う会話システムであって、
会話相手であるユーザの発言を入力する入力手段と、
この入力手段から入力されたユーザの発言を音声認識する音声認識手段と、
ユーザの発言に含まれる各語句の音量情報またはピッチ情報を抽出する情報抽出手段と、
この情報抽出手段によって抽出された各語句の音量情報またはピッチ情報に基づいて、前記音声認識手段によって得られた認識結果情報の中の音量的あるいはピッチ的に特徴のある語句をその特徴に応じて加工する加工手段と、
この加工手段によって加工された語句を含む認識結果情報を発言日時と共に過去の発言情報として記憶する記憶手段と、
この記憶手段に記憶された過去の発言情報を利用してユーザの発言に対する返事としての発言を作成する発言作成手段と、
この発言作成手段によって作成された発言を出力する出力手段と
を具備したことを特徴とする会話システム。
ユーザとの間で会話を行うコンピュータに用いられる会話処理プログラムであって、
前記コンピュータに、
会話相手であるユーザの発言を入力する機能と、
前記入力されたユーザの発言を音声認識する機能と、
ユーザの発言に含まれる各語句の音量情報またはピッチ情報を抽出する機能と、
前記抽出された各語句の音量情報またはピッチ情報に基づいて、前記音声認識によって得られた認識結果情報を解析してユーザの発言に対する返事としての発言を作成する機能と、
前記作成された発言を出力する機能と
を実現させるための会話処理プログラム。
ユーザとの間で会話を行うコンピュータに用いられる会話処理プログラムであって、
前記コンピュータに、
会話相手であるユーザの発言を入力する機能と、
前記入力されたユーザの発言を音声認識する機能と、
ユーザの発言に含まれる各語句の音量情報を抽出する機能と、
前記抽出された各語句の音量情報に基づいて、前記音声認識によって得られた認識結果情報の中からキーワードとする語句を選択する機能と、
前記選択された語句を用いてユーザの発言に対する返事としての発言を作成する機能と、
前記作成された発言を出力する機能と
を実現させるための会話処理プログラム。
ユーザとの間で会話を行うコンピュータに用いられる会話処理プログラムであって、
前記コンピュータに、
会話相手であるユーザの発言を入力する機能と、
前記入力されたユーザの発言を音声認識する機能と、
ユーザの発言に含まれる各語句のピッチ情報を抽出する機能と、
前記抽出された各語句のピッチ情報に基づいて、前記音声認識によって得られた認識結果情報の中に疑問の意味が含まれているか否かを判定する機能と、
その判定結果に応じてユーザの発言に対する返事としての発言を作成する機能と、
前記作成された発言を出力する機能と
を実現させるための会話処理プログラム。
ユーザとの間で会話を行うコンピュータに用いられる会話処理プログラムであって、
前記コンピュータに、
会話相手であるユーザの発言を入力する機能と、
前記入力されたユーザの発言を音声認識する機能と、
前記音声認識によって得られた認識結果情報の中から同音異義語として指定された語句を抽出する機能と、
前記抽出された語句のピッチ変化または音量変化に基づいて当該語句が正しいか否かを判定する機能と、
当該語句が間違っていると判定された場合に、そのピッチ変化または音量変化に基づいて正しい同音異義語に置き換える機能と、
前記置き換えられた語句を用いてユーザの発言に対する返事としての発言を作成する機能と、
前記作成された発言を出力する機能と
を実現させるための会話処理プログラム。
ユーザとの間で会話を行うコンピュータに用いられる会話処理プログラムであって、
前記コンピュータに、
会話相手であるユーザの発言を入力する機能と、
前記入力されたユーザの発言を音声認識する機能と、
ユーザの発言に含まれる各語句の音量情報またはピッチ情報を抽出する機能と、
前記抽出された各語句の音量情報またはピッチ情報に基づいて、前記音声認識によって得られた認識結果情報の中に通常とは異なる音量あるいはピッチで発せられた語句が含まれているか否かを判定する機能と、
その判定結果に応じて音量的あるいはピッチ的な特徴を加味してユーザの発言に対する返事としての発言を作成する機能と、
前記作成された発言を出力する機能と
を実現させるための会話処理プログラム。
ユーザとの間で会話を行うコンピュータに用いられる会話処理プログラムであって、
前記コンピュータに、
会話相手であるユーザの発言を入力する機能と、
前記入力されたユーザの発言を音声認識する機能と、
ユーザの発言に含まれる各語句の音量情報またはピッチ情報を抽出する機能と、
前記抽出された各語句の音量情報またはピッチ情報に基づいて、前記音声認識によって得られた認識結果情報の中の音量的あるいはピッチ的に特徴のある語句をその特徴に応じて加工する機能と、
前記加工後の語句を含む認識結果情報を発言日時と共に過去の発言情報としてメモリに記憶する機能と、
前記メモリに記憶された過去の発言情報を利用してユーザの発言に対する返事としての発言を作成する機能と、
前記作成された発言を出力する機能と
を実現させるための会話処理プログラム。