JP3994368B2 - 情報処理装置および情報処理方法、並びに記録媒体 - Google Patents

情報処理装置および情報処理方法、並びに記録媒体 Download PDF

Info

Publication number
JP3994368B2
JP3994368B2 JP2000015265A JP2000015265A JP3994368B2 JP 3994368 B2 JP3994368 B2 JP 3994368B2 JP 2000015265 A JP2000015265 A JP 2000015265A JP 2000015265 A JP2000015265 A JP 2000015265A JP 3994368 B2 JP3994368 B2 JP 3994368B2
Authority
JP
Japan
Prior art keywords
user
same topic
topic
dialogue
utterances
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000015265A
Other languages
English (en)
Other versions
JP2001209662A (ja
Inventor
誠一 青柳
康治 浅野
幸 田中
順 横野
敏生 大江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000015265A priority Critical patent/JP3994368B2/ja
Priority to US09/765,962 priority patent/US6961705B2/en
Publication of JP2001209662A publication Critical patent/JP2001209662A/ja
Application granted granted Critical
Publication of JP3994368B2 publication Critical patent/JP3994368B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、情報処理装置および情報処理方法、並びに記録媒体に関し、特に、例えば、ユーザの趣味、趣向等を表すユーザ情報を、容易に収集することができるようにする情報処理装置および情報処理方法、並びに記録媒体に関する。
【0002】
【従来の技術】
例えば、近年急速に普及しているインターネット上に構築されているWWW(World Wide Web)サーバにおいては、莫大な量の情報が提供されているが、そのような莫大な量の情報から、所望する情報を、ユーザ自身が探し出すことは困難であることから、いわゆる検索エンジンと呼ばれるWebページが提供されている。
【0003】
検索エンジンとしてのWebページとしては、例えば、株式会社インフォシークや、ヤフー株式会社等が提供しているものがある。
【0004】
WWWサーバから提供されている情報を検索しようとするユーザは、検索エンジンとしてのWebページにアクセスし、検索しようとしている情報に関係するキーワードを入力する等の所定操作を行うことで、検索エンジンによる検索結果を得ることができる。
【0005】
【発明が解決しようとする課題】
ところで、検索エンジンによる検索を行う場合であっても、入力したキーワードを含む様々なカテゴリの情報が検索結果として得られる。従って、ユーザは、そのような情報の中から、自身が所望するものを探し出す必要があり、面倒であった。
【0006】
そこで、例えば、ユーザの趣味、趣向に関するユーザ情報としてのプロファイルをあらかじめ作成しておき、検索エンジンの検索結果から、そのプロファイルに合致するものだけを、ユーザに提示する方法が考えられる。
【0007】
しかしながら、従来においては、ユーザのプロファイルとしてのユーザ情報は、各種の質問に対する回答として、ユーザに、キーボードやマウス等を操作して入力してもらう必要があり、ユーザの負担が大である。
【0008】
本発明は、このような状況に鑑みてなされたものであり、ユーザの趣味、趣向等に関するユーザ情報を、容易に収集することができるようにするものである。
【0009】
【課題を解決するための手段】
本発明の情報処理装置は、ユーザの音声を認識する音声認識手段と、音声認識手段による音声認識結果に基づいて、ユーザとの対話を行うための対話文を生成する対話文生成手段と、音声認識結果に基づいて、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数をカウントし、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数が所定の閾値以上である場合、同一の話題に対応するユーザ情報を収集し、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数が所定の閾値未満である場合、同一の話題に対応するユーザ情報を収集しない収集手段とを備えることを特徴とする。
【0010】
この情報処理装置には、ユーザ情報を記憶する記憶手段をさらに設けることができる。
【0011】
対話文生成手段には、対話文を、テキストまたは合成音で出力させることができる。
【0012】
収集手段には、さらに、音声認識結果に含まれる単語の出現頻度を計算し、その出現頻度が所定の閾値以上である場合、その単語の上位概念に対応するユーザ情報を収集させることができる。
【0013】
また、収集手段には、さらに、音声認識結果に含まれる単語の上位概念の出現頻度を計算し、その出現頻度が所定の閾値以上である場合、その上位概念に対応するユーザ情報を収集させることができる。
【0017】
ユーザ情報は、ユーザの趣味または趣向を表す情報とすることができる。
【0018】
本発明の情報処理方法は、ユーザの音声を認識する音声認識手段が、ユーザの音声を認識する音声認識ステップと、音声認識手段による音声認識結果に基づいて、ユーザとの対話を行うための対話文を生成する対話文生成手段が、音声認識手段による音声認識結果に基づいて、ユーザとの対話を行うための対話文を生成する対話文生成ステップと、音声認識結果に基づいて、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数をカウントし、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数が所定の閾値以上である場合、同一の話題に対応するユーザ情報を収集し、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数が所定の閾値未満である場合、同一の話題に対応するユーザ情報を収集しない収集手段が、音声認識結果に基づいて、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数をカウントし、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数が所定の閾値以上である場合、同一の話題に対応するユーザ情報を収集し、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数が所定の閾値未満である場合、同一の話題に対応するユーザ情報を収集しない収集ステップとを備えることを特徴とする。
【0019】
本発明の記録媒体は、ユーザの音声を認識する音声認識手段が、ユーザの音声を認識する音声認識ステップと、音声認識手段による音声認識結果に基づいて、ユーザとの対話を行うための対話文を生成する対話文生成手段が、音声認識手段による音声認識結果に基づいて、ユーザとの対話を行うための対話文を生成する対話文生成ステップと、音声認識結果に基づいて、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数をカウントし、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数が所定の閾値以上である場合、同一の話題に対応するユーザ情報を収集し、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数が所定の閾値未満である場合、同一の話題に対応するユーザ情報を収集しない収集手段が、音声認識結果に基づいて、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数をカウントし、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数が所定の閾値以上である場合、同一の話題に対応するユーザ情報を収集し、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数が所定の閾値未満である場合、同一の話題に対応するユーザ情報を収集しない収集ステップとを含む情報処理を、コンピュータに行わせるプログラムが記録されていることを特徴とする。
【0020】
本発明の情報処理装置および情報処理方法、並びに記録媒体においては、ユーザの音声が認識され、その音声認識結果に基づいて、ユーザとの対話を行うための対話文が生成される。さらに、音声認識結果に基づいて、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数がカウントされ、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数が所定の閾値以上である場合、同一の話題に対応するユーザ情報が収集され、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数が所定の閾値未満である場合、同一の話題に対応するユーザ情報が収集されない
【0021】
【発明の実施の形態】
図1は、本発明を適用したコンピュータの一実施の形態の構成例を示している。
【0022】
このコンピュータには、後述する一連の処理を実行するためのプログラムがインストールされている。
【0023】
ここで、プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク105やROM103に予め記録しておくことができる。
【0024】
あるいはまた、プログラムは、フロッピーディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体111に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体111は、いわゆるパッケージソフトウエアとして提供することができる。
【0025】
なお、プログラムは、上述したようなリムーバブル記録媒体111からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部108で受信し、内蔵するハードディスク105にインストールすることができる。
【0026】
コンピュータは、CPU(Central Processing Unit)102を内蔵している。CPU102には、バス101を介して、入出力インタフェース110が接続されており、CPU102は、入出力インタフェース110を介して、ユーザによって、キーボードやマウス等で構成される入力部107が操作されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)103に格納されているプログラムを実行する。あるいは、また、CPU102は、ハードディスク105に格納されているプログラム、衛星若しくはネットワークから転送され、通信部108で受信されてハードディスク105にインストールされたプログラム、またはドライブ109に装着されたリムーバブル記録媒体111から読み出されてハードディスク105にインストールされたプログラムを、RAM(Random Access Memory)104にロードして実行する。これにより、CPU102は、後述するフローチャートにしたがった処理、あるいは後述するブロック図の構成により行われる処理を行う。そして、CPU102は、その処理結果を、必要に応じて、例えば、入出力インタフェース110を介して、LCD(Liquid CryStal Display)やスピーカ等で構成される出力部106から出力、あるいは、通信部108から送信、さらには、ハードディスク105に記録等させる。
【0027】
本実施の形態においては、コンピュータを、後述するような対話型ユーザプロファイル収集装置として機能させるためのプログラムがインストールされており、CPU102が、このプログラムを実行することで、コンピュータは、図2に示すような対話型ユーザプロファイル収集装置として機能する。
【0028】
即ち、図2は、CPU102がプログラムを実行することにより、図1のコンピュータによって機能的に実現される対話型ユーザプロファイル収集装置の一実施の形態の構成例を示している。
【0029】
この対話型ユーザプロファイル収集装置では、ユーザとの間で、音声対話が行われることにより、その対話の中で、ユーザが発話した音声等に基づいて、ユーザの趣味、趣向等のユーザ情報が収集され、そのユーザ情報としてのユーザのプロファイル(ユーザプロファイル)が記憶(記録)されるようになっている。
【0030】
即ち、音声認識部1には、ユーザが発話した音声が入力されるようになっており、音声認識部1は、入力された音声を音声認識し、その音声認識結果としてのテキスト(音韻情報)を、言語処理部2に出力する。また、音声認識部1は、ユーザが発話した音声の韻律情報を抽出し、対話管理部3に出力する。
【0031】
言語処理部2は、音声認識部1が出力する音声認識結果を言語処理し、その音声認識結果に含まれる単語や、構文および意味に関する情報を、言語処理結果として、対話管理部3に出力する。
【0032】
対話管理部3は、ユーザとの対話を行うための文(対話文)を生成する対話管理を行うとともに、ユーザ情報を抽出する。即ち、対話管理部3は、例えば、言語処理部2が出力する言語処理結果に基づいて、音声認識部1で認識されたユーザの音声に対する応答文等の生成を指示する応答生成情報を生成し、応答生成部5に出力する。また、対話管理部3は、例えば、言語処理部2が出力する言語処理結果や、音声認識部1が出力する韻律情報に基づいて、ユーザの趣味、趣向を表すユーザ情報を収集し、ユーザ情報管理部4に供給する。
【0033】
ユーザ情報管理部4は、対話管理部3から供給されるユーザ情報を、ユーザプロファイルとして記憶する。
【0034】
応答生成部5は、対話管理部3から供給される応答生成情報に基づいて、ユーザの発話に対する応答文等を生成し、合成音で出力する。
【0035】
以上のように構成される対話型ユーザプロファイル収集装置では、ユーザが発話した音声が、音声認識部1で音声認識され、言語処理部2に供給される。言語処理部2では、音声認識部1による音声認識結果の意味内容の理解が行われ、対話管理部3に供給される。対話管理部3は、言語処理部2の出力に基づき、ユーザの発話に対する応答文等を生成するための応答生成情報を生成し、応答生成部5に供給する。応答生成部5は、対話管理部3からの応答生成情報にしたがって、応答文等を生成し、合成音で出力する。
【0036】
応答生成部5が出力する応答文等に対して、ユーザが発話を行うと、音声認識部1において、その発話の音声認識が行われる。そして、以下、上述した処理が繰り返され、これにより、ユーザとの間で対話が行われていく。
【0037】
以上のようにして対話が行われる一方、対話管理部3は、音声認識部1や言語処理部2の出力に基づいて、ユーザの趣味、趣向を表すユーザ情報を収集し、ユーザ情報管理部4に供給する。そして、ユーザ情報管理部4は、対話管理部3から供給されるユーザ情報を、ユーザプロファイルとして記憶する。
【0038】
従って、図2の対話型ユーザプロファイル収集装置では、ユーザとの間で対話が行われ、ユーザが知らないうちに、ユーザ情報が収集されるので、ユーザ情報を、容易に(ユーザに負担を感じさせることなく)収集して記憶することができる。
【0039】
次に、図3は、図2の音声認識部1の機能的構成例を示している。
【0040】
ユーザの発話は、マイク(マイクロフォン)11に入力され、マイク11では、その発話が、電気信号としての音声信号に変換される。この音声信号は、A/D(Analog Digital)変換部12に供給される。A/D変換部12では、マイク11からのアナログ信号である音声信号がサンプリング、量子化され、ディジタル信号である音声データに変換される。この音声データは、特徴抽出部13に供給される。
【0041】
特徴抽出部13は、A/D変換部12からの音声データについて、適当なフレームごとに、例えば、スペクトルや、線形予測係数、ケプストラム係数、線スペクトル対、MFCC(Mel Frequency Cepstrum Coefficient)等の特徴パラメータを抽出し、マッチング部14に供給する。
【0042】
マッチング部14は、特徴抽出部13から供給される特徴パラメータに基づき、音響モデルデータベース15、辞書データベース16、および文法データベース17を必要に応じて参照しながら、マイク11に入力された音声(入力音声)を認識する。
【0043】
即ち、音響モデルデータベース15は、音声認識する音声の言語における個々の音素や音節などの音響的な特徴を表す音響モデルを記憶している。ここで、音響モデルとしては、例えば、HMM(Hidden Markov Model)などを用いることができる。辞書データベース16は、認識対象の各単語について、その発音に関する情報が記述された単語辞書を記憶している。文法データベース17は、辞書データベース16の単語辞書に登録されている各単語が、どのように連鎖する(つながる)かを記述した文法規則を記憶している。ここで、文法規則としては、例えば、文脈自由文法(CFG)やHPSG(Head-driven Phrase Structure Grammar)(主辞駆動句構造文法)、統計的な単語連鎖確率(N−gram)などに基づく規則を用いることができる。
【0044】
マッチング部14は、辞書データベース16の単語辞書を参照することにより、音響モデルデータベース15に記憶されている音響モデルを接続することで、単語の音響モデル(単語モデル)を構成する。さらに、マッチング部14は、幾つかの単語モデルを、文法データベース17に記憶された文法規則を参照することにより接続し、そのようにして接続された単語モデルを用いて、特徴パラメータに基づき、例えば、HMM法等によって、マイク11に入力された音声を認識する。
【0045】
そして、マッチング部14による音声認識結果としての音韻情報は、例えば、テキスト等で、言語処理部2に出力される。
【0046】
また、マッチング部14は、マイク11に入力された音声の韻律情報を抽出し、対話管理部3に出力する。即ち、例えば、マッチング部14は、得られた音声認識結果のモーラ数をカウントし、1フレーム当たりのモーラ数等を計算して、ユーザの発話速度として、対話管理部3に出力する。
【0047】
次に、図4は、図2の言語処理部2の機能的構成例を示している。
【0048】
テキスト解析部21には、音声認識部1(図3のマッチング部14)が出力する音声認識結果としてのテキスト(音韻情報)が入力されるようになっており、テキスト解析部21は、辞書データベース23や解析用文法データベース24を参照しながら、そのテキストを解析する。
【0049】
即ち、辞書データベース23には、各単語の表記や、解析用文法を適用するために必要な品詞情報などが記述された単語辞書が記憶されている。また、解析用文法データベース24には、辞書データベース23の単語辞書に記述された各単語の情報に基づいて、単語連鎖に関する制約等が記述された解析用文法規則が記憶されている。そして、テキスト解析部21は、その単語辞書や解析用文法規則に基づいて、そこに入力されるテキスト(音声認識結果)の形態素解析を行い、その解析結果を、構文/意味解析部22に出力する。
【0050】
構文/意味解析部22は、辞書データベース25や解析用文法データベース26を参照しながら、テキスト解析部21の出力に基づき、音声認識部1による音声認識結果の構文解析、さらには、その意味内容の理解を行う。そして、構文/意味解析部22は、その処理結果として、音声認識部1による音声認識結果に対して、その音声認識結果を構成する各単語の概念や、意味内容を表す情報を付加して、対話管理部3に出力する。
【0051】
ここで、辞書データベース25と解析用文法データベース26には、辞書データベース23と解析用文法データベース24における場合とそれぞれ同様の情報が記憶されている。また、構文/意味解析部22では、例えば、正規文法や、文脈自由文法、HPSG、統計的な単語連鎖確率を用いて、構文解析や意味内容の理解が行われる。
【0052】
次に、図5は、図2の対話管理部3の機能的構成例を示している。
【0053】
対話処理部31には、音声認識部1(図3のマッチング部14)が出力する韻律情報としての発話速度、および言語処理部2(図4の構文/意味解析部22)の処理結果(言語処理結果)が入力されるようになっており、対話処理部31は、言語処理部2の言語処理結果に基づき、シナリオデータベース34や知識データベース35を参照しながら、音声認識部1による音声認識結果に対する応答文等の生成を指示する応答生成情報を生成する。
【0054】
即ち、シナリオデータベース34は、例えば、ユーザとの対話パターンの記述としてのシナリオを、タスク(話題)ごとに記憶しており、対話処理部31は、そのシナリオにしたがって、応答生成情報を生成する。
【0055】
具体的には、例えば、ビデオ予約等の目的志向型のタスクについては、例えば、次のようなシナリオが記憶されている。
【0056】
Figure 0003994368
【0057】
ここで、(1)のシナリオによれば、言語処理部2による言語処理結果が、録画の要求を表すものである場合には、対話処理部31において、録画を行う日付、録画を開始する時刻、録画を終了する時刻、録画を行うチャンネルを、そのような順番で質問する文の生成を指示する応答生成情報が生成される。
【0058】
また、例えば、ELIZA(ELIZAに関しては、Weizenbaum, Joseph, "ELIZA - a computer program for the study of natural language communication between man and machine." ,Communications of the ACM 9. 1966や、James Allen "Natural Language Understanding" The Benjamin/Cunnings Publishing Company Inc. pp.6-9等に記載されている)等の、対話を行うプログラム等に代表される無目的型の対話(いわゆる雑談)を行うためのシナリオとしては、次のようなものが記憶されている。
【0059】
Figure 0003994368
【0060】
ここで、(2)のシナリオによれば、言語処理部2による言語処理結果に、「お金」というキーワードが含まれていれば、対話処理部31において、「何が欲しいの」という、質問を行う文の生成を指示する応答生成情報が生成される。また、言語処理部2による言語処理結果に、「食べたい」というキーワードが含まれていれば、対話処理部31において、「お腹がすいているの」という、質問を行う文の生成を指示する応答生成情報が生成される。
【0061】
知識データベース35には、ユーザと対話を行うにあたっての一般的な知識が記憶されている。即ち、知識データベース35には、例えば、言語処理部2による言語処理結果が、ユーザが挨拶をしたことを表している場合には、その挨拶に対する挨拶を行うことを指示する情報が、一般的な知識として記憶されている。また、知識データベース35には、例えば、雑談時に使用する話題なども、一般的な知識として記憶されている。
【0062】
さらに、知識データベース35には、ユーザの趣味、趣向に関するユーザ情報を問い合わせる方法(例えば、問い合わせる内容や、問い合わせを行う間隔(時間)、問い合わせる回数など)に関する情報も、一般的な知識として記憶されている。
【0063】
対話処理部31は、必要に応じて、知識データベース35の、上述したような知識を参照して、応答生成情報を生成する。
【0064】
また、対話処理部31は、音声認識部1からの韻律情報としての発話速度や、言語処理部2による言語処理結果、抽出部32の出力、対話履歴記憶部33に記憶された対話履歴、ユーザ情報管理部4に記憶されたプロファイル登録情報等に基づいて、ユーザの趣味、趣向に関するユーザ情報を収集し、そのユーザ情報を、ユーザプロファイルに反映させることを指示するプロファイル制御情報を、ユーザ情報管理部4に供給するプロファイル収集処理を行う。
【0065】
即ち、対話処理部31は、例えば、言語処理部2による言語処理結果に含まれる単語(音声認識部1による音声認識結果に含まれる単語)や、その上位概念に基づいて、ユーザの趣味、趣向を認識する。そして、対話処理部31は、その認識結果に基づいて、プロファイル制御情報を生成し、ユーザ情報管理部4に供給する。
【0066】
また、対話処理部31は、音声認識部1からの韻律情報としての発話速度や、言語処理部2による言語処理結果等に基づいて、ユーザとの対話における話題が遷移(変更)したかどうかを判定し、同一の話題についての発話回数や、発話時間等を認識する。そして、対話処理部31は、その認識した情報に基づいて、プロファイル制御情報を生成し、ユーザ情報管理部4に供給する。
【0067】
抽出部32は、対話処理部31からの要求に応じ、言語処理部2による言語処理結果に含まれる単語のうち、ユーザの趣味、趣向に関する情報として利用することのできるものを抽出し、対話処理部31に供給する。また、抽出部32は、概念情報データベース36を参照することで、言語処理部2による言語処理結果に含まれる単語の上位概念を認識し、対話処理部31に供給する。
【0068】
ここで、概念情報データベース36は、例えば、単語の概念を、階層構造で表現したシソーラスが記憶されており、抽出部32は、単語が、シソーラス上のどの概念に属するかを検索することで、その単語の上位概念を認識するようになっている。
【0069】
対話履歴記憶部33は、対話処理部31からの要求に応じて、ユーザとの対話の履歴(対話履歴)を記憶する。ここで、対話履歴には、対話処理部31が、言語処理部2から受信した言語処理結果、およびその言語処理結果に対して生成した応答生成情報の他、同一の話題について応答した回数や、応答を行った時刻、ユーザが発話を行った時刻等も適宜含まれる。これらの対話履歴としての情報は、対話処理部31から対話履歴記憶部33に供給されるようになっている。
【0070】
次に、図6は、図2のユーザ情報管理部4の機能的構成例を示している。
【0071】
記録再生部41には、対話管理部3(図5の対話処理部31)が出力するプロファイル制御情報が供給されるようになっており、記録再生部41は、そのプロファイル制御情報にしたがって、ユーザの趣味、趣向に関するユーザ情報を、プロファイルデータベース42のユーザプロファイルに記録する。
【0072】
また、記録再生部41は、対話管理部3(図5の対話処理部31)の要求に応じて、プロファイルデータベース42に記録されているプロファイル管理情報を読み出し、対話管理部3(図5の対話処理部31)に供給する。
【0073】
プロファイルデータベース42は、例えば、図7に示すようなユーザプロファイルとプロファイル管理情報を記憶している。
【0074】
即ち、図7(A)は、プロファイル管理情報を示しており、図7(A)の実施の形態では、プロファイル管理情報は、識別子、趣向情報、閾値で構成されている。識別子は、趣向情報を識別するためのもので、趣向情報ごとに、ユニークな値になっている。趣向情報は、ユーザの趣味、趣向を表すカテゴリ(分野)を表しており、図7(A)の実施の形態では、映画、音楽、車、本、旅行が登録されている。閾値は、各趣向情報ごとに設定されており、ユーザプロファイルにおける、後述する回数と比較される値が登録されている。
【0075】
図7(B)は、ユーザプロファイルを示しており、図7(B)の実施の形態では、ユーザプロファイルは、識別子、趣向情報、回数、趣向フラグで構成されている。識別子および趣向情報は、プロファイル管理情報と同様のものであり、回数は、趣向情報が表すカテゴリに対して、ユーザが興味を持っていると推測された回数を表す。趣向フラグは、例えば、1ビットのフラグで、ユーザの趣味、趣向に合致するカテゴリを表す趣向情報の趣向フラグのみが、例えば、1とされ、他は、0とされる。従って、図7(B)のユーザプロファイルによれば、趣向フラグが1となっている趣向情報が表すカテゴリが、ユーザの趣味、趣向に合致するものとなる。
【0076】
次に、図8は、図2の応答生成部5の機能的構成例を示している。
【0077】
応答文生成部51には、対話管理部3(図5の対話処理部31)から応答生成情報が供給されるようになっており、応答文生成部51は、必要に応じて、テンプレートデータベース55、生成文法データベース56、および辞書データベース57を参照しながら、応答生成情報に対応する、テキストの応答文を生成し、テキスト解析部52に供給する。
【0078】
即ち、テンプレートデータベース55には、応答文の例のテンプレートが記憶されており、生成文法データベース56には、応答文を生成するのに必要な単語の活用規則や、語順の制約情報等の文法規則が記憶されている。また、辞書データベース57には、各単語の品詞情報や、読み、アクセント等の情報が記述された単語辞書が記憶されている。そして、応答文生成部51は、これらのテンプレート、文法規則、単語辞書を必要に応じて参照し、対話管理部3からの応答生成情報に対応する応答文を生成して、テキスト解析部52に出力する。
【0079】
なお、文の生成の方法としては、テンプレートを用いる方法の他、例えば、格構造に基づく方法等を採用することも可能である。
【0080】
テキスト解析部52は、辞書データベース57や解析用文法データベース58を参照しながら、応答文生成部51からの応答文としてのテキストを解析する。
【0081】
即ち、辞書データベース57には、上述したような単語辞書が記憶されており、また、解析用文法データベース58には、辞書データベース57の単語辞書に記述された単語について、単語連鎖に関する制約等の解析用文法規則が記憶されている。そして、テキスト解析部52は、この単語辞書および解析用文法規則に基づいて、応答文生成部51からの応答文の形態素解析や構文解析等の解析を行い、後段の規則合成部53で行われる規則音声合成に必要な情報を抽出する。ここで、規則音声合成に必要な情報としては、例えば、ポーズの位置や、アクセントおよびイントネーションを制御するための情報その他の韻律情報や、各単語の発音等の音韻情報などがある。
【0082】
テキスト解析部52で得られた情報は、規則合成部53に供給され、規則合成部53では、音素片データベース59を用いて、応答文生成部51において生成された応答文に対応する合成音の音声データ(ディジタルデータ)が生成される。
【0083】
即ち、音素片データベース59には、例えば、CV(Consonant, Vowel)や、VCV、CVC等の形で音素片データが記憶されており、規則合成部53は、テキスト解析部52からの情報に基づいて、必要な音素片データを接続し、さらに、ポーズ、アクセント、イントネーション等を適切に付加することで、応答文生成部51で生成された応答文に対応する合成音の音声データを生成する。
【0084】
この音声データは、D/A(Digital Analog)変換部54に供給され、そこで、アナログ信号としての音声信号に変換される。この音声信号は、図示せぬスピーカに供給され、これにより、応答文生成部51で生成された応答文に対応する合成音が出力される。
【0085】
次に、図9乃至図13のフローチャートを参照して、図5の対話管理部3が行う、ユーザの趣味、趣向に関するユーザ情報を収集してユーザプロファイル(図7(B))に反映するプロファイル収集処理について説明する。
【0086】
ユーザが発話を行い、そのユーザの音声が、音声認識部1で認識され、言語処理部2で言語処理されると、音声認識部1で得られるユーザの音声の韻律情報としての発話速度と、言語処理部2による言語処理結果が、対話管理部3の対話処理部31に供給される。対話処理部31は、言語処理部2による言語処理結果を、抽出部32に供給することで、その言語処理結果に含まれる所定のキーワードを抽出させ、対話履歴記憶部33に、対話履歴として記憶させた後、以下に説明するプロファイル収集処理を行う。
【0087】
従って、ここでは、プロファイル収集処理は、ユーザの発話があるごとに行われるが、プロファイル収集処理は、その他、例えば、ユーザとの間で、何度かやりとりが行われるごとに行ったり、一定時間ごとに行ったりすることも可能である。
【0088】
図9は、プロファイル収集処理の第1実施の形態を示すフローチャートである。
【0089】
図9の実施の形態においては、まず最初に、ステップS1において、対話処理部31は、対話履歴記憶部33に記憶されている対話履歴を参照することで、そこに登録されている、ある単語に注目し、その注目単語の出現回数(出現頻度)を計算する。さらに、対話処理部31は、ステップS1において、注目単語の出現回数が、所定の閾値以上かどうかを判定し、閾値以上でないと判定された場合、ユーザが次の発話を行うのを待って、ステップS1に戻る。
【0090】
また、ステップS1において、注目単語の出現回数が、所定の閾値以上であると判定された場合、ステップS2に進み、対話処理部31は、注目単語を、抽出部32に供給することで、その注目単語の上位概念を取得する。
【0091】
即ち、抽出部32は、対話処理部31から注目単語を受信すると、概念情報データベース36に記憶されているシソーラスを参照することで、注目単語の上位概念を認識し、対話処理部31に供給する。対話処理部31では、このようにして抽出部32から供給される注目単語の上位概念が、ステップS2において取得される。
【0092】
その後、ステップS3に進み、対話処理部31は、注目単語の上位概念をユーザプロファイルに反映させることを指示するプロファイル制御情報を、ユーザ情報管理部4(図6の記録再生部41)に供給し、ユーザが次の発話を行うのを待って、ステップS1に戻る。
【0093】
この場合、ユーザ情報管理部4(図6)の記録再生部41は、プロファイルデータベース42のユーザプロファイル(図7(B))を参照し、そのユーザプロファイルの、対話処理部31からのプロファイル制御情報が表す上位概念に対応する趣向情報の回数を、1だけインクリメントする。
【0094】
その後、対話処理部31は、プロファイルデータベース42のプロファイル管理情報(図7(A))を、記録再生部41に読み出させ、回数をインクリメントした趣向情報の閾値を取得する。さらに、対話処理部31は、その取得した閾値(以下、適宜、取得閾値という)と、インクリメントした回数(以下、適宜、インクリメント回数という)とを比較し、その大小を判定する。即ち、対話処理部31は、プロファイルデータベース42のユーザプロファイルから、インクリメント回数を、記録再生部41に読み出させ、そのインクリメント回数が、取得閾値以上であるかどうかを判定する。そして、対話処理部31は、インクリメント回数が、取得閾値以上である場合において、ユーザプロファイルにおける、インクリメント回数に対応する趣向情報の趣向フラグが0であるときには、記録再生部41を制御することにより、その趣向フラグを1にさせる。
【0095】
従って、例えば、ユーザが映画に興味があり、映画の出演者名や、監督名、タイトル、ロケ地等の単語を、数多く発話した場合には、その上位概念である映画に対応する趣向情報の趣向フラグが1にされることになる。
【0096】
なお、図9のユーザプロファイル収集処理は、対話履歴記憶部33に記憶されている対話履歴に登録されているすべての単語を、注目単語として行われる。
【0097】
次に、図10は、プロファイル収集処理の第2実施の形態を示すフローチャートである。
【0098】
図10の実施の形態においては、まず最初に、ステップS11において、対話処理部31は、対話履歴記憶部33に記憶されている対話履歴を参照し、そこに登録されている各単語の上位概念を、抽出部32を制御することで取得する。
【0099】
そして、ステップS12に進み、対話処理部31は、取得した上位概念のうちの、あるものに注目し、その注目上位概念の出現回数(出現頻度)を計算する。さらに、対話処理部31は、ステップS12において、注目上位概念の出現回数が、所定の閾値以上かどうかを判定し、閾値以上でないと判定された場合、ユーザが次の発話を行うのを待って、ステップS11に戻る。
【0100】
また、ステップS12において、注目上位概念の出現回数が、所定の閾値以上であると判定された場合、ステップS13に進み、対話処理部31は、注目上位概念をユーザプロファイルに反映させることを指示するプロファイル制御情報を、ユーザ情報管理部4(図6の記録再生部41)に供給し、ユーザが次の発話を行うのを待って、ステップS11に戻る。
【0101】
この場合、図9の実施の形態で説明したのと同様の処理が行われ、その結果、例えば、ユーザが映画に興味があり、映画の出演者名や、監督名、タイトル、ロケ地等の、上位概念が映画に属する単語を、数多く発話した場合には、その映画に対応する趣向情報の趣向フラグが1にされることになる。
【0102】
なお、図10のユーザプロファイル収集処理は、対話履歴記憶部33に記憶されている対話履歴に登録されているすべての単語の上位概念を、注目上位概念として行われる。
【0103】
また、ここでは、対話履歴には、単語を登録するようにしたが、図10の実施の形態においては、対話履歴には、単語の上位概念を登録するようにしても良い。
【0104】
次に、図11は、プロファイル収集処理の第3実施の形態を示すフローチャートである。
【0105】
図11の実施の形態においては、まず最初に、ステップS21において、対話処理部31は、ユーザとの対話における話題が遷移したかどうかの簡易判定を行う。
【0106】
ここで、話題が遷移したかどうかの簡易判定(大まかな判定)は、例えば、次のようにして行うことができる。
【0107】
即ち、第1に、音声認識部1から供給される発話速度に基づいて、話題が遷移したかどうかの簡易判定を行うことができる。具体的には、一般に、話題が遷移する場合には、発話速度が減速してから加速する傾向があるので、そのような発話速度の変化があった場合には、話題が遷移したと判定することができる。
【0108】
また、第2に、話題が遷移する場合には、例えば、「ちょっと話が変わるんだけど」や「他のことで」等の特有の言い回しが行われることがあるので、言語処理部2からの言語処理結果に、そのような言い回しが含まれている場合には、話題が遷移したと判定することができる。
【0109】
さらに、第3に、話題が遷移する場合には、言語処理部2が出力する、話題の遷移前と遷移後の言語処理結果に含まれる単語(語彙)どうしの意味内容の類似性、あるいは関連性が低くなる傾向がある。従って、そのような単語どうしの意味内容の類似性、あるいは関連性に基づいて、話題の遷移の有無を判定することができる。
【0110】
なお、単語どうしの意味内容の類似性、あるいは関連性は、例えば、概念情報データベース36に記憶されているシソーラスに基づいて計算することができる。即ち、2つの単語どうしの意味的な類似度は、例えば、シソーラス上において、2つの単語の共通する上位概念に基づいて計算することが可能である。
【0111】
ステップS21における簡易判定の結果、話題が遷移していないと判定された場合は、ユーザからの次の発話を待って、ステップS21に戻る。
【0112】
また、ステップS21において、話題が遷移したと判定された場合、ステップS22に進み、対話処理部31は、ユーザとの対話における話題が遷移したかどうかの詳細判定(簡易判定よりも精度の高い判定)を行う。
【0113】
なお、話題が遷移したかどうかの詳細判定は、例えば、対話履歴を参照し、ユーザの発話の言語処理結果を詳細に検討することで行われる。
【0114】
ステップS22において、話題が遷移していないと判定された場合、ユーザからの次の発話を待って、ステップS21に戻る。また、ステップS23において、話題が遷移したと判定された場合、ステップS23に進む。
【0115】
ここで、図11の実施の形態においては(後述する図12および図13においても同様)、話題が遷移したかどうかについて、簡易判定を行い、さらに、詳細判定を行うようにしたが、話題が遷移したかどうかについては、簡易判定は行わず、詳細判定だけを行うようにしても良い。なお、簡易判定は、判定精度が劣る反面、負荷が軽い処理であるのに対して、詳細判定は、判定精度が高い反面、負荷の重い処理であり、従って、詳細判定だけ行う場合には、処理の冗長性はなくなるが、ユーザが発話を行うごとに、負荷の重い詳細判定を行う必要がある。一方、簡易判定を行い、さらに、詳細判定を行う場合には、処理が多少冗長にはなるが、負荷の重い詳細判定は、簡易判定において、話題が遷移したと判定されたときだけ行えば済む。
【0116】
ステップS23では、対話処理部31は、対話履歴を参照することで、遷移前の話題において、ユーザが発話を行った発話回数を計算し、ステップS24に進む。
【0117】
ここで、ユーザと、対話型ユーザプロファイル収集装置との間で、例えば、
Figure 0003994368
のような会話が交わされた場合には、ユーザによる8番目の発話「8:usr>ちょっと、話が変わるんだけど。」で話題の遷移があったと判定される。
【0118】
ここで、会話(3)において、sys>は、装置(対話型ユーザプロファイル収集装置)による発話(合成音)を表し、usr>は、ユーザによる発話を表す。また、sys>やusr>の前の数字は、発話が行われた順番を表す。
【0119】
会話(3)においては、上述のように、ユーザによる8番目の発話で話題の遷移があり、遷移前の話題は、装置による1番目の発話から、装置による7番目の発話までの話題となる。この間、ユーザは、2番目、4番目、6番目の3回の発話を行っており、従って、この場合、ステップS23では、遷移前の話題についての発話回数は3回と計算される。
【0120】
なお、会話(3)の1番目の発話から7番目の発話までの話題は、映画に関する話題となっている。
【0121】
ステップS24では、対話処理部31は、発話回数が、所定の閾値以上であるかどうかを判定し、所定の閾値以上でないと判定された場合、即ち、遷移前の話題について、ユーザがそれほどの回数の発話を行わず、従って、ユーザが、その話題に、あまり興味がないと考えられる場合、ユーザからの次の発話を待って、ステップS21に戻る。
【0122】
また、ステップS24において、発話回数が、所定の閾値以上であると判定された場合、即ち、遷移前の話題について、ユーザが、多くの回数の発話を行い、従って、ユーザが、その話題に、興味があると考えられる場合、ステップS25に進み、対話処理部31は、遷移前の話題をユーザプロファイルに反映させることを指示するプロファイル制御情報を、ユーザ情報管理部4(図6の記録再生部41)に供給し、ユーザが次の発話を行うのを待って、ステップS21に戻る。
【0123】
この場合、ユーザ情報管理部4(図6)の記録再生部41は、プロファイルデータベース42のユーザプロファイル(図7(B))を参照し、そのユーザプロファイルの、対話処理部31からのプロファイル制御情報が表す話題に対応する趣向情報の回数を、1だけインクリメントする。
【0124】
その後、対話処理部31は、プロファイルデータベース42のプロファイル管理情報(図7(A))を、記録再生部41に読み出させ、回数をインクリメントした趣向情報の閾値を取得する。さらに、対話処理部31は、その取得した閾値(取得閾値)と、インクリメントした回数(インクリメント回数)とを比較し、その大小を判定する。即ち、対話処理部31は、プロファイルデータベース42のユーザプロファイルから、インクリメント回数を、記録再生部41に読み出させ、そのインクリメント回数が、取得閾値以上であるかどうかを判定する。そして、対話処理部31は、インクリメント回数が、取得閾値以上である場合において、ユーザプロファイルにおける、インクリメント回数に対応する趣向情報の趣向フラグが0であるときには、記録再生部41を制御することにより、その趣向フラグを1にさせる。
【0125】
従って、例えば、ユーザが映画に興味があり、映画が話題となっている場合において、発話を、数多くしたときには、その話題である映画に対応する趣向情報の趣向フラグが1にされることになる。
【0126】
なお、図11の実施の形態では、遷移前の話題についてのユーザの発話回数を計算するようにしたが、発話回数は、ユーザによるもののみならず、装置によるものも含めて計算するようにしても良い。
【0127】
次に、図12は、プロファイル収集処理の第4実施の形態を示すフローチャートである。
【0128】
図12の実施の形態においては、まず最初に、ステップS31,S32において、図11におけるステップS21,S22における場合とそれぞれ同様のそりが行われる。
【0129】
そして、ステップS32において、話題が遷移したと判定された場合、ステップS33に進み、対話処理部31は、対話履歴を参照することで、遷移前の話題において、ユーザが発話を行った時間と、装置が発話を行った時間との合計の発話時間を計算し、ステップS34に進む。
【0130】
即ち、例えば、上述した(3)のような会話が、ユーザと装置との間で交わされた場合には、ユーザによる8番目の発話「8:usr>ちょっと、話が変わるんだけど。」で話題の遷移があったと判定されるが、この場合、ステップS33では、遷移前の話題についての発話時間として、装置による1番目の発話の開始時刻から、装置による7番目の発話の終了時刻までの時間が計算される。
【0131】
なお、対話履歴には、上述したように、ユーザが発話を行った時刻等も登録されるので、発話時刻は、そのような時刻を参照することで計算される。
【0132】
ステップS34では、対話処理部31は、発話時間が、所定の閾値以上であるかどうかを判定し、所定の閾値以上でないと判定された場合、即ち、遷移前の話題について、ユーザと装置との間で、それほどの時間の会話が行わず、従って、ユーザが、その話題に、あまり興味がないと考えられる場合、ユーザからの次の発話を待って、ステップS31に戻る。
【0133】
また、ステップS34において、発話時間が、所定の閾値以上であると判定された場合、即ち、遷移前の話題について、ユーザと装置との間で、比較的長い時間の会話が行われ、従って、ユーザが、その話題に、興味があると考えられる場合、ステップS35に進み、対話処理部31は、遷移前の話題をユーザプロファイルに反映させることを指示するプロファイル制御情報を、ユーザ情報管理部4(図6の記録再生部41)に供給し、ユーザが次の発話を行うのを待って、ステップS31に戻る。
【0134】
この場合、図11の実施の形態で説明したのと同様の処理が行われ、その結果、例えば、ユーザが映画に興味があり、ユーザと装置との間で、映画の出演者名や、監督名、タイトル、ロケ地等の映画に関連する会話を長時間交わした場合には、その映画に対応する趣向情報の趣向フラグが1にされることになる。
【0135】
なお、図12の実施の形態では、遷移前の話題についてのユーザと装置の発話時間の合計を計算するようにしたが、発話時間は、ユーザによるものだけ、あるいは装置によるものだけ計算するようにしても良い。
【0136】
次に、図13は、プロファイル収集処理の第5実施の形態を示すフローチャートである。
【0137】
図13の実施の形態においては、まず最初に、ステップS41,S42において、図11におけるステップS21,S22における場合とそれぞれ同様のそりが行われる。
【0138】
そして、ステップS42において、話題が遷移したと判定された場合、ステップS43に進み、対話処理部31は、対話履歴を参照することで、遷移後の話題について、会話が交わされた回数(遷移後の話題の出現回数)を計算し、ステップS44に進む。
【0139】
ステップS44では、対話処理部31は、遷移後の話題の出現回数が、所定の閾値以上であるかどうかを判定し、所定の閾値以上でないと判定された場合、即ち、遷移後の話題について、ユーザと装置との間で、それほどの回数の会話が行われておらず、従って、ユーザが、その話題に、あまり興味がないと考えられる場合、ユーザからの次の発話を待って、ステップS41に戻る。
【0140】
また、ステップS44において、遷移後の話題の出現回数が、所定の閾値以上であると判定された場合、即ち、遷移前の話題について、ユーザと装置との間で、比較的多い回数の会話が行われ、従って、ユーザが、その話題に、興味があると考えられる場合、ステップS45に進み、対話処理部31は、遷移後の話題をユーザプロファイルに反映させることを指示するプロファイル制御情報を、ユーザ情報管理部4(図6の記録再生部41)に供給し、ユーザが次の発話を行うのを待って、ステップS41に戻る。
【0141】
この場合、図11の実施の形態で説明したのと同様の処理が行われ、その結果、例えば、ユーザが映画に興味があり、ユーザと装置との間で、映画の出演者名や、監督名、タイトル、ロケ地等の映画に関連する話題についての会話を多い回数交わした場合には、その映画に対応する趣向情報の趣向フラグが1にされることになる。
【0142】
即ち、いま、ユーザと装置との間で会話が行われ、例えば、映画に関する話題、音楽に関する話題、作業依頼、映画に関する話題、本に関する話題、映画に関する話題、映画に関する話題の順で、話題が遷移したとすると、最後の映画に関する話題に遷移した時点では、その映画に関する話題の出現回数が4回と計算される。そして、ステップS44で用いられる所定の閾値が4回であるとすると、最後の映画に関する話題に遷移した後、ユーザプロファイル(図7(B))の映画に対応する趣向情報の回数が1だけインクリメントされる。さらに、そのインクリメントされた回数(インクリメント回数)が、プロファイル管理情報(図7(A))における、映画に対応する趣向情報の閾値(図7(A)の実施の形態では、4回)以上であれば、ユーザプロファイルにおける、映画に対応する趣向情報の趣向フラグは1とされる。
【0143】
以上のように、プロファイル収集処理によれば、ユーザが、装置と何らかの会話を交わす中で、ユーザの趣味、趣向に関するユーザ情報が収集され、ユーザプロファイルに反映される。従って、ユーザの趣味、趣向を反映したユーザプロファイルを、ユーザに負担をかけることなく、容易に作成することができ、さらに、そのユーザプロファイルを参照することで、ユーザの趣味、趣向を認識することができる。その結果、例えば、WWWサーバから提供されている情報を検索する場合には、検索エンジンの検索結果から、ユーザプロファイルに合致するものだけを、ユーザに提示するようにすることで、ユーザは、所望の情報を容易に得ることができる。
【0144】
また、プロファイル収集処理では、ユーザが、装置と何らかの会話を交わす中で、ユーザの趣味、趣向が収集されるので、ユーザプロファイルには、ユーザ自身が意識していない趣味、趣向も反映されることがある。
【0145】
なお、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。
【0146】
また、プログラムは、1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
【0147】
さらに、上述した一連の処理は、ソフトウェアによって行う他、それ専用のハードウェアにより行うこともできる。
【0148】
また、本実施の形態では、装置から、応答文を、合成音で出力するようにしたが、応答文は、ディスプレイに表示するようにすることも可能である。
【0149】
さらに、本実施の形態では、ユーザプロファイル(図7(B))に、1ビットの趣向フラグを設け、回数が、プロファイル管理情報(図7(A))の閾値以上になった場合に、対応する趣向フラグを0から1にセットするようにしたが、趣向フラグは、3以上の異なる値をとるものとすることができる。この場合、例えば、回数が、プロファイル管理情報(図7(A))の閾値の1倍、2倍、・・・となるごとに、趣向フラグを1ずつインクリメントするようにすることで、趣向フラグの値に、対応する趣向情報に対するユーザの興味の度合いを反映させることができる。
【0150】
また、本実施の形態では、ユーザの趣味、趣向に関するユーザ情報を収集するようにしたが、本発明は、その他のユーザ情報を収集するのにも適用可能である。
【0151】
【発明の効果】
本発明の情報処理装置および情報処理方法、並びに記録媒体によれば、ユーザの音声が認識され、その音声認識結果に基づいて、ユーザとの対話を行うための対話文が生成される。さらに、音声認識結果に基づいて、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数がカウントされ、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数が所定の閾値以上である場合、同一の話題に対応するユーザ情報が収集される。従って、例えば、ユーザの趣味、趣向等に関するユーザ情報を、容易に収集することが可能となる。
【図面の簡単な説明】
【図1】本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
【図2】図1のコンピュータにより機能的に実現される対話型ユーザプロファイル収集装置の一実施の形態のブロック図である。
【図3】音声認識部1の構成例を示すブロック図である。
【図4】言語処理部2の構成例を示すブロック図である。
【図5】対話管理部3の構成例を示すブロック図である。
【図6】ユーザ情報管理部4の構成例を示すブロック図である。
【図7】プロファイル管理情報とユーザプロファイルの例を示す図である。
【図8】応答生成部5の構成例を示すブロック図である。
【図9】プロファイル収集処理の第1実施の形態を示すフローチャートである。
【図10】プロファイル収集処理の第2実施の形態を示すフローチャートである。
【図11】プロファイル収集処理の第3実施の形態を示すフローチャートである。
【図12】プロファイル収集処理の第4実施の形態を示すフローチャートである。
【図13】プロファイル収集処理の第5実施の形態を示すフローチャートである。
【符号の説明】
1 音声認識部, 2 言語処理部, 3 対話管理部, 4 ユーザ情報管理部, 5 応答生成部, 11 マイク, 12 A/D変換部, 13 特徴抽出部, 14 マッチング部, 15 音響モデルデータベース, 16 辞書データベース, 17 文法データベース, 21 テキスト解析部, 22 構文/意味解析部, 23 辞書データベース, 24 解析用文法データベース, 25 辞書データベース, 26 解析用文法データベース, 31対話処理部, 32 抽出部, 33 対話履歴記憶部, 34 シナリオデータベース, 35 知識データベース, 36 概念情報データベース, 41 記録再生部, 42 プロファイルデータベース, 51 応答文生成部,52 テキスト解析部, 53 規則合成部, 54 D/A変換部, 55テンプレートデータベース, 56 生成文法データベース, 57 辞書データベース, 58 解析用文法データベース, 59 音素片データベース,101 バス, 102 CPU, 103 ROM, 104 RAM, 105 ハードディスク, 106 出力部, 107 入力部, 108 通信部, 109 ドライブ, 110 入出力インタフェース, 111 リムーバブル記録媒体

Claims (8)

  1. ユーザに関するユーザ情報を収集する情報処理装置であって、
    ユーザの音声を認識する音声認識手段と、
    前記音声認識手段による音声認識結果に基づいて、前記ユーザとの対話を行うための対話文を生成する対話文生成手段と、
    前記音声認識結果に基づいて、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数をカウントし、同一の話題についての前記発話回数、前記発話時間、または同一の話題が出現した前記出現回数が所定の閾値以上である場合、前記同一の話題に対応する前記ユーザ情報を収集し、同一の話題についての前記発話回数、前記発話時間、または同一の話題が出現した前記出現回数が所定の閾値未満である場合、前記同一の話題に対応する前記ユーザ情報を収集しない収集手段と
    を備えることを特徴とする情報処理装置。
  2. 前記ユーザ情報を記憶する記憶手段をさらに備える
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記対話文生成手段は、前記対話文を、テキストまたは合成音で出力する
    ことを特徴とする請求項1に記載の情報処理装置。
  4. 前記収集手段は、さらに、前記音声認識結果に含まれる単語の出現頻度を計算し、その出現頻度が所定の閾値以上である場合、前記単語の上位概念に対応する前記ユーザ情報を収集する
    ことを特徴とする請求項1に記載の情報処理装置。
  5. 前記収集手段は、さらに、前記音声認識結果に含まれる単語の上位概念の出現頻度を計算し、その出現頻度が所定の閾値以上である場合、前記上位概念に対応する前記ユーザ情報を収集する
    ことを特徴とする請求項1に記載の情報処理装置。
  6. 前記ユーザ情報は、前記ユーザの趣味または趣向を表す情報である
    ことを特徴とする請求項1に記載の情報処理装置。
  7. ユーザに関するユーザ情報を収集する情報処理方法であって、
    ユーザの音声を認識する音声認識手段が、ユーザの音声を認識する音声認識ステップと、
    前記音声認識手段による音声認識結果に基づいて、前記ユーザとの対話を行うための対話文を生成する対話文生成手段が、前記音声認識手段による音声認識結果に基づいて、前記ユーザとの対話を行うための対話文を生成する対話文生成ステップと、
    前記音声認識結果に基づいて、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数をカウントし、同一の話題についての前記発話回数、前記発話時間、または同一の話題が出現した前記出現回数が所定の閾値以上である場合、前記同一の話題に対応する前記ユーザ情報を収集し、同一の話題についての前記発話回数、前記発話時間、または同一の話題が出現した前記出現回数が所定の閾値未満である場合、前記同一の話題に対応する前記ユーザ情報を収集しない収集手段が、前記音声認識結果に基づいて、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数をカウントし、同一の話題についての前記発話回数、前記発話時間、または同一の話題が出現した前記出現回数が所定の閾値以上である場合、前記同一の話題に対応する前記ユーザ情報を収集し、同一の話題についての前記発話回数、前記発話時間、または同一の話題が出現した前記出現回数が所定の閾値未満である場合、前記同一の話題に対応する前記ユーザ情報を収集しない収集ステップと
    を備えることを特徴とする情報処理方法。
  8. ユーザに関するユーザ情報を収集する情報処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、
    ユーザの音声を認識する音声認識手段が、ユーザの音声を認識する音声認識ステップと、
    前記音声認識手段による音声認識結果に基づいて、前記ユーザとの対話を行うための対話文を生成する対話文生成手段が、前記音声認識手段による音声認識結果に基づいて、前記ユーザとの対話を行うための対話文を生成する対話文生成ステップと、
    前記音声認識結果に基づいて、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数をカウントし、同一の話題についての前記発話回数、前記発話時間、または同一の話題が出現した前記出現回数が所定の閾値以上である場合、前記同一の話題に対応する前記ユーザ情報を収集し、同一の話題についての前記発話回数、前記発話時間、または同一の話題が出現した前記出現回数が所定の閾値未満である場合、前記同一の話題に対応する前記ユーザ情報を収集しない収集手段が、前記音声認識結果に基づいて、同一の話題についての発話回数、発話時間、または同一の話題が出現した出現回数をカウントし、同一の話題についての前記発話回数、前記発話時間、または同一の話題が出現した前記出現回数が所定の閾値以上である場合、前記同一の話題に対応する前記ユーザ情報を収集し、同一の話題についての前記発話回数、前記発話時間、または同一の話題が出現した前記出現回数が所定の閾値未満である場合、前記同一の話題に対応する前記ユーザ情報を収集しない収集ステップと
    含む情報処理を、コンピュータに行わせるプログラムが記録されている
    ことを特徴とする記録媒体。
JP2000015265A 2000-01-25 2000-01-25 情報処理装置および情報処理方法、並びに記録媒体 Expired - Lifetime JP3994368B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000015265A JP3994368B2 (ja) 2000-01-25 2000-01-25 情報処理装置および情報処理方法、並びに記録媒体
US09/765,962 US6961705B2 (en) 2000-01-25 2001-01-19 Information processing apparatus, information processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000015265A JP3994368B2 (ja) 2000-01-25 2000-01-25 情報処理装置および情報処理方法、並びに記録媒体

Publications (2)

Publication Number Publication Date
JP2001209662A JP2001209662A (ja) 2001-08-03
JP3994368B2 true JP3994368B2 (ja) 2007-10-17

Family

ID=18542591

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000015265A Expired - Lifetime JP3994368B2 (ja) 2000-01-25 2000-01-25 情報処理装置および情報処理方法、並びに記録媒体

Country Status (2)

Country Link
US (1) US6961705B2 (ja)
JP (1) JP3994368B2 (ja)

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7158935B1 (en) * 2000-11-15 2007-01-02 At&T Corp. Method and system for predicting problematic situations in a automated dialog
CN1248193C (zh) * 2001-09-27 2006-03-29 松下电器产业株式会社 会话装置、会话主机装置、会话子机装置、会话控制方法及会话控制程序
JP2003141149A (ja) * 2001-10-31 2003-05-16 Nippon Soken Holdings:Kk 対話型配信システムおよび方法
US20050154588A1 (en) * 2001-12-12 2005-07-14 Janas John J.Iii Speech recognition and control in a process support system
JP2004053742A (ja) * 2002-07-17 2004-02-19 Matsushita Electric Ind Co Ltd 音声認識装置
JP2004287016A (ja) * 2003-03-20 2004-10-14 Sony Corp 音声対話装置及び方法並びにロボット装置
JP2004348658A (ja) * 2003-05-26 2004-12-09 Nissan Motor Co Ltd 車両用情報提供方法および車両用情報提供装置
JP4267385B2 (ja) * 2003-06-30 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
JP2005157494A (ja) * 2003-11-20 2005-06-16 Aruze Corp 会話制御装置及び会話制御方法
JP4839838B2 (ja) * 2003-12-12 2011-12-21 日本電気株式会社 情報処理システム、情報処理方法および情報処理用プログラム
TWI237991B (en) * 2004-06-28 2005-08-11 Delta Electronics Inc Integrated dialogue system and method thereof
US7716056B2 (en) * 2004-09-27 2010-05-11 Robert Bosch Corporation Method and system for interactive conversational dialogue for cognitively overloaded device users
US8340971B1 (en) * 2005-01-05 2012-12-25 At&T Intellectual Property Ii, L.P. System and method of dialog trajectory analysis
WO2006073095A1 (ja) * 2005-01-07 2006-07-13 Matsushita Electric Industrial Co., Ltd. 連想辞書作成装置
KR100764174B1 (ko) 2006-03-03 2007-10-08 삼성전자주식회사 음성 대화 서비스 장치 및 방법
US7814048B2 (en) * 2006-08-14 2010-10-12 Microsoft Corporation Knowledge extraction from online discussion forums
US8073681B2 (en) * 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
WO2008070860A2 (en) * 2006-12-07 2008-06-12 Linker Sheldon O Method and system for machine understanding, knowledge, and conversation
US8359188B2 (en) * 2006-12-28 2013-01-22 Verizon Patent And Licensing Inc. Network-based systems and methods for providing access to remote language services assets
JP2008217370A (ja) * 2007-03-02 2008-09-18 Nec Corp プロファイル登録システム、プロファイル登録方法およびプロファイル登録プログラム
US8620658B2 (en) * 2007-04-16 2013-12-31 Sony Corporation Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition
US20090077180A1 (en) * 2007-09-14 2009-03-19 Flowers John S Novel systems and methods for transmitting syntactically accurate messages over a network
US8364469B2 (en) * 2007-11-26 2013-01-29 Red Hat, Inc. Natural language enhanced user interface in a business rule management system
JP4547721B2 (ja) * 2008-05-21 2010-09-22 株式会社デンソー 自動車用情報提供システム
JP2010154397A (ja) * 2008-12-26 2010-07-08 Sony Corp データ処理装置、データ処理方法、及び、プログラム
US20100169352A1 (en) * 2008-12-31 2010-07-01 Flowers John S Novel systems and methods for transmitting syntactically accurate messages over a network
US8706643B1 (en) 2009-01-13 2014-04-22 Amazon Technologies, Inc. Generating and suggesting phrases
US8423349B1 (en) 2009-01-13 2013-04-16 Amazon Technologies, Inc. Filtering phrases for an identifier
US8768852B2 (en) 2009-01-13 2014-07-01 Amazon Technologies, Inc. Determining phrases related to other phrases
US8706644B1 (en) 2009-01-13 2014-04-22 Amazon Technologies, Inc. Mining phrases for association with a user
US9569770B1 (en) * 2009-01-13 2017-02-14 Amazon Technologies, Inc. Generating constructed phrases
US9298700B1 (en) 2009-07-28 2016-03-29 Amazon Technologies, Inc. Determining similar phrases
US10007712B1 (en) 2009-08-20 2018-06-26 Amazon Technologies, Inc. Enforcing user-specified rules
EP2299440B1 (en) * 2009-09-11 2012-10-31 Vodafone Holding GmbH Method and Device for automatic recognition of given keywords and/or terms within voice data
US8799658B1 (en) 2010-03-02 2014-08-05 Amazon Technologies, Inc. Sharing media items with pass phrases
US9652999B2 (en) * 2010-04-29 2017-05-16 Educational Testing Service Computer-implemented systems and methods for estimating word accuracy for automatic speech recognition
CN103297389B (zh) * 2012-02-24 2018-09-07 腾讯科技(深圳)有限公司 人机对话方法及装置
JP6205700B2 (ja) * 2012-10-15 2017-10-04 富士通株式会社 情報提供システム、提供情報を受信する装置、提供情報を送信する装置、プログラム、及び情報提供方法
JP2014241498A (ja) * 2013-06-11 2014-12-25 三星電子株式会社Samsung Electronics Co.,Ltd. 番組推薦装置
JP6310150B2 (ja) 2015-03-20 2018-04-11 株式会社東芝 意図理解装置、方法およびプログラム
JP6589514B2 (ja) * 2015-09-28 2019-10-16 株式会社デンソー 対話装置及び対話制御方法
JP6497372B2 (ja) * 2016-09-29 2019-04-10 トヨタ自動車株式会社 音声対話装置および音声対話方法
US20180315414A1 (en) * 2017-04-26 2018-11-01 International Business Machines Corporation Adaptive digital assistant and spoken genome
JP6927318B2 (ja) * 2017-10-13 2021-08-25 ソニーグループ株式会社 情報処理装置、情報処理方法、及びプログラム
JP7276129B2 (ja) * 2017-12-22 2023-05-18 ソニーグループ株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP7010073B2 (ja) * 2018-03-12 2022-01-26 株式会社Jvcケンウッド 出力内容制御装置、出力内容制御方法、及び出力内容制御プログラム
JP2019169112A (ja) * 2018-03-26 2019-10-03 エヌ・ティ・ティ・コミュニケーションズ株式会社 情報管理装置、情報管理方法および情報管理プログラム
JP7111488B2 (ja) * 2018-03-29 2022-08-02 旭化成ホームズ株式会社 発話量積算装置、接客支援装置及びプログラム
CN109147800A (zh) * 2018-08-30 2019-01-04 百度在线网络技术(北京)有限公司 应答方法和装置
WO2020066019A1 (ja) * 2018-09-28 2020-04-02 富士通株式会社 対話装置、対話方法及び対話プログラム
CN110970021B (zh) * 2018-09-30 2022-03-08 航天信息股份有限公司 一种问答控制方法、装置及系统

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5309355A (en) * 1984-05-24 1994-05-03 Lockwood Lawrence B Automated sales system
US5697844A (en) * 1986-03-10 1997-12-16 Response Reward Systems, L.C. System and method for playing games and rewarding successful players
CA2028566A1 (en) * 1990-10-25 1992-04-26 John N. Bassili Method and apparatus for the measurement of response time in attitude survey research
JP2804403B2 (ja) * 1991-05-16 1998-09-24 インターナショナル・ビジネス・マシーンズ・コーポレイション 質問回答システム
FR2680255B1 (fr) * 1991-08-09 1994-01-28 Gerbaulet Jean Pierre Dispositif pour une meilleure gestion des operations courantes d'achat de produits et de services.
US6076068A (en) * 1992-09-17 2000-06-13 Ad Response Micromarketing Corporation Coupon delivery system
GB9314296D0 (en) * 1993-07-10 1993-08-25 Ibm Audio data processing
US5774860A (en) * 1994-06-27 1998-06-30 U S West Technologies, Inc. Adaptive knowledge base of complex information through interactive voice dialogue
US5765142A (en) * 1994-08-18 1998-06-09 Creatacard Method and apparatus for the development and implementation of an interactive customer service system that is dynamically responsive to change in marketing decisions and environments
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US6029195A (en) * 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
US5685000A (en) * 1995-01-04 1997-11-04 U S West Technologies, Inc. Method for providing a linguistically competent dialogue with a computerized service representative
US5809471A (en) * 1996-03-07 1998-09-15 Ibm Corporation Retrieval of additional information not found in interactive TV or telephony signal by application using dynamically extracted vocabulary
US5930757A (en) * 1996-11-21 1999-07-27 Freeman; Michael J. Interactive two-way conversational apparatus with voice recognition
JP2001016335A (ja) * 1999-06-28 2001-01-19 Forval Corp 通信懸賞システム及びこれに使用される端末装置並びに通信市場調査システム及びこれに使用される端末装置
AU2592701A (en) * 1999-12-23 2001-07-03 My-E-Surveys.Com, Llc System and methods for internet commerce and communication based on customer interaction and preferences
US6477509B1 (en) * 2000-01-06 2002-11-05 Efunz.Com Internet marketing method and system

Also Published As

Publication number Publication date
US20010041977A1 (en) 2001-11-15
JP2001209662A (ja) 2001-08-03
US6961705B2 (en) 2005-11-01

Similar Documents

Publication Publication Date Title
JP3994368B2 (ja) 情報処理装置および情報処理方法、並びに記録媒体
US11496582B2 (en) Generation of automated message responses
US11062694B2 (en) Text-to-speech processing with emphasized output audio
US11594215B2 (en) Contextual voice user interface
US10140973B1 (en) Text-to-speech processing using previously speech processed data
EP3387646B1 (en) Text-to-speech processing system and method
US10176809B1 (en) Customized compression and decompression of audio data
US11837225B1 (en) Multi-portion spoken command framework
CN114203147A (zh) 用于文本到语音的跨说话者样式传递以及用于训练数据生成的系统和方法
JP2001215993A (ja) 対話処理装置および対話処理方法、並びに記録媒体
JP2006039120A (ja) 対話装置および対話方法、並びにプログラムおよび記録媒体
KR20030076686A (ko) 계층적 언어 모델
JP2001101187A (ja) 翻訳装置および翻訳方法、並びに記録媒体
US20210327434A1 (en) Voice-controlled communication requests and responses
US20220293091A1 (en) System and method for cross-speaker style transfer in text-to-speech and training data generation
Furui Automatic speech recognition and its application to information extraction
US20040006469A1 (en) Apparatus and method for updating lexicon
Ronzhin et al. Survey of russian speech recognition systems
JP2001209644A (ja) 情報処理装置および情報処理方法、並びに記録媒体
Yoshino et al. Parallel speech corpora of Japanese dialects
JP2001117921A (ja) 翻訳装置および翻訳方法、並びに記録媒体
JP2001117752A (ja) 情報処理装置および情報処理方法、並びに記録媒体
JP2001117583A (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP2001117922A (ja) 翻訳装置および翻訳方法、並びに記録媒体
Schulz et al. A spoken language front-end for a multilingual music data base

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070207

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070502

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070621

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070706

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070719

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100810

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 3994368

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100810

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110810

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120810

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130810

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term