JP2003202895A

JP2003202895A - 対話装置及び対話制御方法、記憶媒体、並びにコンピュータ・プログラム

Info

Publication number: JP2003202895A
Application number: JP2002002891A
Authority: JP
Inventors: Yasunori Oto; 康紀大戸
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2002-01-10
Filing date: 2002-01-10
Publication date: 2003-07-18

Abstract

(57)【要約】【課題】装置の電力消費効率やマルチタスク環境下に
おける対話処理のリアルタイム性を考慮して対話処理を
円滑に行う。【解決手段】音声入力部２、パワー・スペクトル解析
部３、音声認識部４、形態素解析／応答文作成部５、及
び相槌処理部６によって行なわれる対話処理は、リアル
タイム処理である。配分マネージャ７は、対話処理のリ
アルタイム性を確保するために、パワー・スペクトル解
析並びに形態素解析によって得られた各単語の重要度を
基に、単語毎にそれに関わる処理能力の配分を調整す
る。これら各機能モジュールに対する計算機資源の配分
を動的にコントロールする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ユーザと会話を行
なう対話装置及び対話制御方法、記憶媒体、並びにコン
ピュータ・プログラムに係り、特に、ユーザからの入力
音声を音声認識及び解析し、さらには応答文を作成して
相槌応答を行なう対話装置及び対話制御方法、記憶媒
体、並びにコンピュータ・プログラムに関する。

【０００２】さらに詳しくは、本発明は、ユーザからの
入力音声の認識及び形態素解析や、相槌応答などの対話
処理を円滑に行なう対話装置及び対話制御方法、記憶媒
体、並びにコンピュータ・プログラムに係り、特に、装
置の電力消費効率やマルチタスク環境下における対話処
理のリアルタイム性を考慮して対話処理を円滑に行う対
話装置及び対話制御方法、記憶媒体、並びにコンピュー
タ・プログラムに関する。

【０００３】

【従来の技術】音声は、人間にとって自然な情報伝達手
段であり、また、"ｈａｎｄ−ｆｒｅｅ"，"ｅｙｅ−ｆ
ｒｅｅ"であることから他の動作との併用が可能である
ので、コマンド入力やフィードバックへの利用に適して
いる。

【０００４】自然で制約の少ない音声言語はコンピュー
タとのインターフェースとして有望であり、音声認識は
コンピュータへの情報入力手段となり得る。また、音声
合成は、ユーザへの提示手段となり得る。

【０００５】このため、人間とコンピュータが自然に対
話できるように、ユーザからの音声入力に対応すること
ができる対話装置に関しては、従来から考えられてき
た。

【０００６】音声ベースでの対話処理は、一般に、入力
した音声の信号処理、音声認識による単語列の生成、単
語列に関する形態素解析、さらには解析結果に基づく応
答文の作成や相槌処理などで構成される。例えば、あら
かじめ予想しておいた認識単語のみを認識対象としてお
き、有限状態オートマトンなどによって、それに対応す
る文章を返す。

【０００７】ユーザとの対話処理はリアルタイム性が要
求される。例えば、相槌などのような発話タイミングが
重要となる処理に間に合わなければ、ユーザ・インター
フェースとしてほとんど意味をなさなくなる。

【０００８】しかしながら、音声認識処理は一般に演算
量が多いので、音声入力の有無に拘わらず常に音声認識
処理を行なっていると、無駄が多く、装置の消費電力を
いたずらに増大させるなど効率的でない。

【０００９】また、マルチタスク環境下では、リアルタ
イム性が要求される対話処理に関する処理を優先させる
べきであるが、音声が未入力であったり相槌処理を行な
う必要のない状態で対話処理を優先させると、他の処理
をいたずらに遅延させる結果となり、効率的ではない。

【００１０】

【発明が解決しようとする課題】本発明の目的は、ユー
ザからの入力音声を音声認識及び解析し、さらには応答
文を作成して相槌応答を行なうことができる、優れた対
話装置及び対話制御方法、記憶媒体、並びにコンピュー
タ・プログラムを提供することにある。

【００１１】本発明のさらなる目的は、ユーザからの入
力音声の認識及び形態素解析や、相槌応答などの対話処
理を円滑に行なう優れた対話装置及び対話制御方法、記
憶媒体、並びにコンピュータ・プログラムを提供するこ
とにある。

【００１２】本発明のさらなる目的は、装置の電力消費
効率やマルチタスク環境下における対話処理のリアルタ
イム性を考慮して対話処理を円滑に行うことができる、
優れた対話装置及び対話制御方法、記憶媒体、並びにコ
ンピュータ・プログラムを提供することにある。

【００１３】

【課題を解決するための手段及び作用】本発明は、上記
課題を参酌してなされたものであり、その第１の側面
は、ユーザと会話を行なう対話装置又は対話制御方法で
あって、ユーザの発話を入力する音声入力部又はステッ
プと、音声波形の強さの経時変化を取得するパワー・ス
ペクトル解析部又はステップと、入力されたユーザ発話
を音声認識して単語列に変換する音声認識部又はステッ
プと、音声認識された単語列に対する音声波形の強さを
基に各単語の重要度の計算を行なう形態素解析部又はス
テップと、単語列の解析結果に応じて応答文を作成する
応答文作成部又はステップと、作成された応答文に従っ
て相槌を発する相槌処理部又はステップと、パワー・ス
ペクトルの解析結果に応じて前記の各部の処理に対する
計算機資源の配分をコントロールする資源配分管理部又
はステップと、を具備することを特徴とする対話装置又
は対話制御方法である。

【００１４】前記資源配分管理部又はステップは、パワ
ー・スペクトルの強弱に応じて演算処理を活性化又は抑
制することができる。

【００１５】したがって、本発明の第１の側面に係る対
話装置又は対話制御方法によれば、前記資源配分管理部
又はステップがユーザ発話における語調の強弱情報を利
用することによって、発話語彙を処理する際の処理時間
やタスクを重要度に応じて計算機資源を動的に配分す
る。

【００１６】この結果、相槌処理などのように発話タイ
ミングが重要になるリアルタイム処理への迅速な処理
と、より複雑な語彙の処理に時間をかけることができ
る。したがって、計算機の処理速度や演算能力に応じた
より効率的な対話処理を実現することができる。

【００１７】前記資源配分管理部又はステップは、対話
処理のリアルタイム性、すなわち対話の連続性を考慮し
て、前記相槌処理部又はステップ、前記音声認識部又は
ステップ、前記形態素解析部又はステップ、前記応答文
作成部又はステップの順で計算機資源を優先的に割り当
てるようにしてもよい。

【００１８】また、前記資源配分管理部又はステップ
は、マルチスレッド動作環境における各スレッドの優先
順位を管理し、パワー・スペクトルの解析結果に応じて
スレッドの優先順位を割り振るようにしてもよい。

【００１９】前記資源配分管理部又はステップは、マル
チスレッド動作環境における各スレッドの優先順位を管
理することによって、計算機資源を動的に配分するよう
にしてもよい。このような場合、対話のリアルタイム性
を考慮して、相槌処理、音声認識、形態素解析、応答文
作成、その他の非実時間処理の順でスレッドの優先順位
を割り振るようにすればよい。

【００２０】また、前記資源配分管理部又はステップ
は、単語列を音声認識する複数のスレッドが起動したと
きには、形態素解析により得られる各単語列の重要度に
応じて各スレッドの優先順位を割り振るようにしてもよ
い。

【００２１】また、前記資源配分管理部又はステップ
は、単語列を音声認識する複数のスレッドが起動中に、
計算機負荷が過剰となった場合には、対話処理のリアル
タイム性を維持するために、形態素解析により得られる
重要度が低いと判断された単語列を処理するスレッドを
廃棄するようにしてもよい。

【００２２】また、本発明の第２の側面は、ユーザとの
対話を制御するための処理をコンピュータ・システム上
で実行するように記述されたコンピュータ・ソフトウェ
アをコンピュータ可読形式で物理的に格納した記憶媒体
であって、前記コンピュータ・ソフトウェアは、ユーザ
の発話を入力する音声入力ステップと、音声波形の強さ
の経時変化を取得するパワー・スペクトル解析ステップ
と、入力されたユーザ発話を音声認識して単語列に変換
する音声認識ステップと、音声認識された単語列に対す
る音声波形の強さを基に各単語の重要度の計算を行なう
形態素解析ステップと、単語列の解析結果に応じて応答
文を作成する応答文作成ステップと、作成された応答文
に従って相槌を発する相槌処理ステップと、パワー・ス
ペクトルの解析結果に応じて前記の各処理ステップに対
する計算機資源の配分をコントロールする資源配分管理
ステップと、を具備することを特徴とする記憶媒体であ
る。

【００２３】本発明の第２の側面に係る記憶媒体は、例
えば、さまざまなプログラム・コードを実行可能な汎用
コンピュータ・システムに対して、コンピュータ・ソフ
トウェアをコンピュータ可読な形式で提供する媒体であ
る。このような媒体は、例えば、ＤＶＤ（Digital Vers
atile Disc）、ＣＤ（Compact Disc）やＦＤ（Flexible
Disk）、ＭＯ（Magneto-Optical disc）などの着脱自
在で可搬性の記憶媒体である。あるいは、ネットワーク
（ネットワークは無線、有線の区別を問わない）などの
伝送媒体などを経由してコンピュータ・ソフトウェアを
特定のコンピュータ・システムに提供することも技術的
に可能である。

【００２４】本発明の第２の側面に係る記憶媒体は、コ
ンピュータ・システム上で所定のコンピュータ・ソフト
ウェアの機能を実現するための、コンピュータ・ソフト
ウェアと記憶媒体との構造上又は機能上の協働的関係を
定義したものである。換言すれば、本発明の第２の側面
に係る記憶媒体を介して所定のコンピュータ・ソフトウ
ェアをコンピュータ・システムにインストールすること
によって、コンピュータ・システム上では協働的作用が
発揮され、本発明の第１の側面に係る対話装置又は対話
制御方法と同様の作用効果を得ることができる。

【００２５】また、本発明の第３の側面は、ユーザとの
対話を制御するための処理をコンピュータ・システム上
で実行するように記述されたコンピュータ・プログラム
であって、ユーザの発話を入力する音声入力ステップ
と、音声波形の強さの経時変化を取得するパワー・スペ
クトル解析ステップと、入力されたユーザ発話を音声認
識して単語列に変換する音声認識ステップと、音声認識
された単語列に対する音声波形の強さを基に各単語の重
要度の計算を行なう形態素解析ステップと、単語列の解
析結果に応じて応答文を作成する応答文作成ステップ
と、作成された応答文に従って相槌を発する相槌処理ス
テップと、パワー・スペクトルの解析結果に応じて前記
の各処理ステップに対する計算機資源の配分をコントロ
ールする資源配分管理ステップと、を具備することを特
徴とするコンピュータ・プログラムである。

【００２６】本発明の第３の側面に係るコンピュータ・
プログラムは、コンピュータ・システム上で所定の処理
を実現するようにコンピュータ可読形式で記述されたコ
ンピュータ・プログラムを定義したものである。換言す
れば、本発明の第３の側面に係るコンピュータ・プログ
ラムをコンピュータ・システムにインストールすること
によって、コンピュータ・システム上では協働的作用が
発揮され、本発明の第１の側面に係る対話装置又は対話
制御方法と同様の作用効果を得ることができる。

【００２７】本発明のさらに他の目的、特徴や利点は、
後述する本発明の実施形態や添付する図面に基づくより
詳細な説明によって明らかになるであろう。

【００２８】

【発明の実施の形態】以下、図面を参照しながら本発明
の実施形態について詳解する。

【００２９】図１には、本発明の実施に供される対話装
置１００のハードウェア構成を模式的に示している。以
下、同図を参照しながら、各部について説明する。

【００３０】メイン・コントローラであるＣＰＵ（Cent
ral Processing Unit）１０１は、オペレーティング・シ
ステム（ＯＳ）の制御下で、各種のアプリケーションを
実行する。ＣＰＵ１０１は、例えば、入力音声の認識及
び形態素解析や、相槌応答などの対話処理を行なうため
の対話アプリケーションや、対話処理のリアルタイム性
を考慮してＣＰＵ１０１のパフォーマンスやマルチタス
ク環境下におけるタスク管理（若しくは、各タスクに対
する計算機資源の動的配分）を行なうための制御プログ
ラムなどを実行することができる。

【００３１】ＣＰＵ１０１を利用する単位のことを「ス
レッド（Thread）」と呼び、オペレーティング・システ
ムは、アプリケーションのスレッド単位で分割してスケ
ジューリングすなわち計算機資源の配分を行なう。ま
た、複数のスレッドを並列して動作させることが可能で
ある。

【００３２】図示の通り、ＣＰＵ１０１は、バス１０８
によって他の機器類（後述）と相互接続されている。

【００３３】メモリ１０２は、ＣＰＵ１０１において実
行されるプログラム・コードを格納したり、実行中の作
業データを一時保管するために使用される記憶装置であ
る。同図に示すメモリ１０２は、ＲＯＭなどの不揮発性
メモリ及びＤＲＡＭなどの揮発性メモリの双方を含むも
のと理解されたい。

【００３４】ディスプレイ・コントローラ１０３は、Ｃ
ＰＵ１０１が発行する描画命令を実際に処理するための
専用コントローラである。ディスプレイ・コントローラ
１０３において処理された描画データは、例えばフレー
ム・バッファ（図示しない）に一旦書き込まれた後、デ
ィスプレイ１１１によって画面出力される。

【００３５】入力機器インターフェース１０４は、キー
ボード１１２やマウス１１３などのユーザ入力機器を対
話装置１００に接続するための装置である。

【００３６】ネットワーク・インターフェース１０５
は、Ｅｔｈｅｒｎｅｔなどの所定の通信プロトコルに従
って、システム１００をＬＡＮ（Local Area Network）
などの局所的ネットワーク、さらにはインターネットの
ような広域ネットワークに接続することができる。

【００３７】ネットワーク上では、複数のホスト端末
（図示しない）がトランスペアレントな状態で接続さ
れ、分散コンピューティング環境が構築されている。ネ
ットワーク上では、ソフトウェア・プログラムやデータ
・コンテンツなどの配信サービスを行うことができる。
例えば、入力音声の認識及び形態素解析や、相槌応答な
どの対話処理を行なうための対話アプリケーションや、
対話処理のリアルタイム性を考慮してＣＰＵ１０１のパ
フォーマンスやマルチタスク環境下におけるタスク管理
（若しくは、各タスクに対する計算機資源の動的配分）
を行なうための制御プログラム、対話処理に使用する単
語間相関グラフなどを、ネットワーク経由でダウンロー
ドすることができる。

【００３８】外部機器インターフェース１０７は、ハー
ド・ディスク・ドライブ（ＨＤＤ）１１４やメディア・ド
ライブ１１５などの外部装置を本対話装置１００に接続
するための装置である。

【００３９】ＨＤＤ１１４は、記憶担体としての磁気デ
ィスクを固定的に搭載した外部記憶装置であり（周
知）、記憶容量やデータ転送速度などの点で他の外部記
憶装置よりも優れている。ソフトウェア・プログラムを
実行可能な状態でＨＤＤ１１４上に置くことをプログラ
ムのシステムへの「インストール」と呼ぶ。通常、ＨＤ
Ｄ１１４には、ＣＰＵ１０１が実行すべきオペレーティ
ング・システムのプログラム・コードや、アプリケーショ
ン・プログラム、デバイス・ドライバなどが不揮発的に格
納されている。例えば、入力音声の認識及び形態素解析
や、相槌応答などの対話処理を行なうための対話アプリ
ケーションや、対話処理のリアルタイム性を考慮してＣ
ＰＵ１０１のパフォーマンスやマルチタスク環境下にお
けるタスク管理（若しくは、各タスクに対する計算機資
源の動的配分）を行なうための制御プログラムなどを、
ＨＤＤ１１４上にインストールすることができる。ま
た、対話処理に使用する単語間相関グラフをＨＤＤ１１
４上に格納しておいてもよい。

【００４０】メディア・ドライブ１１５は、ＣＤ（Compa
ct Disc）やＭＯ（Magneto-Opticaldisc）、ＤＶＤ（Di
gital Versatile Disc）などの可搬型メディアを装填し
て、そのデータ記録面にアクセスするための装置であ
る。

【００４１】可搬型メディアは、主として、ソフトウェ
ア・プログラムやデータ・ファイルなどをコンピュータ可
読形式のデータとしてバックアップすることや、これら
をシステム間で移動（すなわち販売・流通・配布を含む）
する目的で使用される。入力音声の認識及び形態素解析
や、相槌応答などの対話処理を行なうための対話アプリ
ケーションや、対話処理のリアルタイム性を考慮してＣ
ＰＵ１０１のパフォーマンスやマルチタスク環境下にお
けるタスク管理（若しくは、各タスクに対する計算機資
源の動的配分）を行なうための制御プログラム、対話処
理に使用する単語間相関グラフなどを、これら可搬型メ
ディアを利用して複数の機器間で物理的に流通・配布す
ることができる。

【００４２】音声入出力インターフェース１０９は、マ
イクなどの音声入力装置１１６を介してユーザ発話を本
対話装置１００内に取り込んだり、発話の音声認識並び
に形態素解析を基に作成された応答文をスピーカなどの
音声出力装置１１７から音声出力して相槌処理するため
の装置である。

【００４３】なお、図１に示すような対話装置１００の
一例は、米ＩＢＭ社のパーソナル・コンピュータ"ＰＣ／
ＡＴ（Personal Computer/Advanced Technology）"の互
換機又は後継機である。勿論、他のアーキテクチャを備
えたコンピュータを、本実施形態に係る対話装置１００
として適用することも可能である。

【００４４】図２には、本実施形態に係る対話装置１０
０上で実行される、入力音声の認識及び形態素解析や、
相槌応答などを行なう対話処理の機能構成を模式的に示
している。同図に示す各機能モジュールは、実際には、
ＣＰＵ１０１が所定のプログラム・コードを実行するこ
とによって実現される。

【００４５】参照番号１は、単語間相関を表すグラフを
取得する単語間相関グラフ取得部である。ここで取得す
るグラフは、例えばシステム提供者がマニュアルで作成
してもよい。また、このグラフを初期値として、ネット
ワークを通じて新しい単語間相関グラフの配給を受けた
り、初期値グラフと融合して使用するようにしてもよ
い。

【００４６】音声入力部２は、ユーザの発話音声を信号
入力して、これをパワー・スペクトル解析部３と音声認
識部４に分配する。

【００４７】音声認識部４は、ＤＰマッチングやＨＭＭ
（Hidden Markov Model：隠れマルコフ・モデル）など
によって、ユーザの発話音声を単語列に変換する。ＤＰ
マッチングでは、登録されている単語モデルと入力音声
がどれくらい似ているかを示すために距離という概念を
用いる。ＨＭＭでは、各単語や音素を標準的な確率状態
遷移機械(マルコフモデル)で表現するので、個人差や調
音結合、発声法（早さ、強さ、明瞭さ）などによる音声
パターンの変動を確率モデルとして扱って、統計的処理
を行なうことができる。

【００４８】パワー・スペクトル解析部３は、音声波形
の強さの経時変化を取得して、後続の形態素解析部／応
答文作成部５、配分マネージャ７、並びに相槌処理部６
に出力する。

【００４９】形態素解析／応答文作成部５は、音声認識
部４によって認識された単語に対する音声波形の強さを
基に各単語の重要度の計算を行なう。

【００５０】相槌処理部６では、パワー・スペクトル解
析結果を基に、音声波形の強さが小さくなる部分を検出
して、相槌を打つタイミングとして使用する。

【００５１】また、後続の配分マネージャ７では、パワ
ー・スペクトル解析結果を基に、音声認識や形態素解
析、応答文作成などの各タスクに割り当てるべき計算機
資源を動的に配分する。資源配分は、ＣＰＵ１０１のパ
フォーマンス制御や、マルチタスク環境下における各タ
スクの優先順位付けなどによって実現される。例えば、
形態素解析によって得られた各単語の重要度を基に、単
語毎にそれに関わる処理能力の配分を調整する。本実施
形態では、認識単語の重要度を設定した後、重要度の高
い単語群を用いて、応答文の中心となる単語を決定し、
確率を付与したテンプレートを用いて、文章に拡張す
る。なお、本明細書では採り上げていないが、音声波形
の強さが強いものから順に音声認識（単語認識）を行な
うようにしてもよい。計算機資源を動的配分する仕組み
について後に詳解する。

【００５２】単語群相関グラフ抽出部１による相関グラ
フ抽出処理は、実際に音声が入力される前にあらかじめ
行なわれる前処理に位置付けられる。これに対し、音声
入力部２、パワー・スペクトル解析部３、音声認識部
４、形態素解析／応答文作成部５、及び相槌処理部６に
よって行なわれる対話処理は、リアルタイム処理であ
る。配分マネージャ７は、対話処理のリアルタイム性を
確保するために、これら各機能モジュールに対する計算
機資源の配分を動的にコントロールする。

【００５３】図３には、単語間相関グラフ取得部１にお
いて機械可読な文書から単語の相関を表すグラフを取得
する様子を示している。

【００５４】同図中、参照番号１１は、機械可読な文書
である。機械可読な文書は、例えば印刷媒体や手書き文
字が描かれた用紙など、システム提供者が用意した文書
であってもよいが、ネットワーク上に存在するＨＴＭＬ
ドキュメントなどのコンテンツもその対象として含まれ
る。

【００５５】対話の処理対象となるのは、基本的には、
コンテンツ内に含まれる文章１２であり、文書中に含ま
れる絵１３や表など単語列に変換できない部分は基本的
には処理対象とならない。また、段落１４毎に処理を行
なうことによって、段落を跨いだ位置関係にある単語群
は、その関係性を低いものとして扱うことができる。

【００５６】本実施形態では、文書の処理単位を段落毎
にしている。但し、段落を接続する語彙が例えば「つま
り」などのように文脈を示して関係性が強いことを示唆
する場合には、複数の段落を復号した処理単位を設定す
るようにしてもよい。あるいは、同じ段落内であって
も、「ところで」などのように話題を転換することが示
唆されている場合には、段落をさらに分割して処理単位
とすることもできる。

【００５７】参照番号１５〜２２は、文書中に含まれる
各単語を示している。但し、これらの単語の種類は重複
しないものとする。

【００５８】単語Ａのように、木構造の根に相当する場
所にある単語以外は、単語が出現しないことを示す状態
となることがある。図３に示す例では、単語Ａの後に単
語Ｂが出現する確率は６５％であり、単語Ｃが出現する
確率は３５％である。

【００５９】なお、単語間相関グラフは、図３に示すよ
うな木構造に限定されるものではなく、ループがない有
向グラフや、その他の一般的なグラフ構造を採用するこ
とができる。

【００６０】図４には、形態素解析／応答文作成部４に
おいて、ユーザ発話のパワー・スペクトルに応じて、処
理を行なう単語の優先順位付けを行なう様子を示してい
る。同図では、ケプストラムなどによって得られた、ユ
ーザ発話のパワー・スペクトルの経時変化を示してい
る。一定時間前のユーザ発話に対して指定された時間分
の平均をとることによって、パワー・スペクトルの平均
値を計算している。

【００６１】図４に示すパワー・スペクトルの変動曲線
上では、Ｔ１，Ｔ２，及びＴ３という３箇所の極大点が
存在し、Ｔ３、Ｔ１、Ｔ２の順で単語を発音する強度が
高いことが判る。このうち、Ｔ１及びＴ３が平均レベル
を越えていることから、重要語と推定することができ
る。配分マネージャ７は、このようなパワー・スペクト
ル解析結果を基に、極大点Ｔ１及びＴ３の発音部分につ
いての処理に割り当てられる計算機資源を増大させる。

【００６２】一方、極大点Ｔ２の発音部分は、平均レベ
ルを越えていないことから、実装された対話装置１００
の計算速度や、その時点での計算機負荷や他のタスクへ
の影響を考慮して、割り当てる計算機資源を適宜抑制す
る。例えば、相槌応答のようなタイミングを要する処理
から外したりする。

【００６３】また、図４に示すパワー・スペクトルの変
動曲線上では、Ｂ１及びＢ２という極小点が存在する。
これらのユーザ発話位置ではユーザの発話と相槌が衝突
して対話の障害となる可能性が低いと推定されることか
ら、相槌処理部６は、このような極小点となるユーザ発
話位置に相槌を挿入する。

【００６４】図５には、相槌の挿入確率の経時変化を示
している。同図に示す例では、前回の相槌挿入位置から
の時間が経つにつれて挿入確率が大きくなる。また、前
回相槌を挿入してから一定時間Ｒ（例えば初期値をＲ＝
１［ｓｅｃ］とする）が経過するまでの間は、相槌の挿
入が抑制されている期間であり、挿入確率は０に保たれ
ている。

【００６５】また、相槌挿入抑制期間Ｒが経過すると、
挿入確率は線形的に増大する。挿入確率が１に到達する
までの所要時間Ｔは、システム提供者が適当に設定して
もよいが、例えば実際の会話例から、個人単位で相槌が
挿入されている間隔を求めることもできる。

【００６６】また、図４には、パワー・スペクトル変動
グラフの下に、各極大点Ｔ１、Ｔ２、Ｔ３発話された単
語の音声認識結果が得られるタイミングを時間軸上に配
置して示している。例えば、極大点Ｔ１における音声認
識結果として文字列「そういえば」が得られ、極大点Ｔ
２における音声認識結果として文字列「きのうみた」が
得られ、極大点Ｔ１における音声認識結果として文字列
「テレビ番組Ａ」が得られる。実際の音声認識では、同
図に示すように、発話されたタイミングから少し遅れて
認識される。但し、極大点Ｔ２は平均レベルに到達して
いないことから、利用可能な計算機資源によっては、そ
の時点での音声認識処理（発話された単語「きのうみ
た」の認識処理）を省略することもある。

【００６７】形態素解析／応答文作成部５では、さらに
音声認識された単語の形態素解析を行う。例えば、極大
点Ｔ１における認識文字列「そういえば」を接続詞又は
間投詞として認識する。同様に、極大点Ｔ２における認
識文字列「きのうみた」を名詞と動詞の連結として認識
し、極大点Ｔ３における認識文字列「そういえば」を名
詞として認識する。さらに、今日が１０月１４日であっ
た場合には、名詞「昨日」を１０月１３日と同値なもの
として扱う。また、「テレビ番組Ａ」は、名詞として認
識される。

【００６８】なお、この形態素解析は並列計算されてお
り、発話音声のパワーに応じて、形態素解析／応答文処
理部５に対して割り当てられる計算機資源が動的に調整
される。

【００６９】極大点Ｔ１における発話「そういえば」
は、その直後の極小点Ｔ２のにおける相槌タイミングに
利用されることはない。極大点Ｔ３における発話「テレ
ビ番組Ａ」は、発話パワーが大きいこと、並びに、その
直後の極小点Ｂ３における相槌タイミングに間に合うこ
とから、この時点における相槌に用いられる確率が高く
なる。

【００７０】図６には、図４に示すようなユーザ発話内
容に対して適用される単語群相関グラフの構成例を示し
ている。図６に示すように、「そういえば」を用いてい
ないが、その種類が「間投詞／接続詞」ではなく、ま
た、図６で用いる単語群相関グラフに単語が存在する場
合、応答文生成で用いられることになる。

【００７１】図６に示した例では、「登場人物Ａ」なる
単語がパワー・スペクトル解析処理により重要語として
認識されていることから、これを基に関連単語を推測す
る。この処理で用いるグラフは、単語間相関グラフ取得
部１による処理結果として得られる。グラフは、システ
ム提供者が手動で作成したものを用いてもよいし、イン
ターネットなどのネットワークを介して新しい単語間相
関グラフの配給を受けることもできる。

【００７２】例えば、「テレビ番組Ａ」という発話に続
いて、「ゾナー」が発話された場合、システムは、リン
クに付与されている確率を基に、次に単語「なぞなぞ」
が発話されることを予想して、応答文作成のための基と
なる単語として用いる。このような応答文の作り方は、
実際の会話において、単語を先取りして発話するという
例が散見されること、また、これによってコミュニケー
ションが円滑化するという報告があること（例えば、谷
泰編「コミュニケーションの自然誌」（新曜社））など
に依拠する。本実施形態では、後者の現象を利用するこ
とによって、ユーザとの円滑な対話を実現している。ま
た、単語が常に選ばれる訳ではなく、例えば後続する単
語がない（「なし」）という選択肢を用意することがで
きる。この場合、１つ前の段階で示されている単語が用
いられることになる。

【００７３】図７及び図８には、発話予定名詞から発話
文を生成する流れを示している。このうち、図７にはユ
ーザ発話中に出現した単語の処理を示し、また、図８に
は図６に示した推測方法によって得られた単語の処理を
示している。これらは、単語から応答文を作成するため
のテンプレートを示している。

【００７４】例えば、出現名詞である「登場人物Ａ」が
図７に示すテンプレートに入力された場合、「ねえ〜」
又は「は好きなの？」といった語句が後ろに付加される
ことによって、応答文が形成される。

【００７５】一方、推測名詞である「なぞなぞ」がテン
プレートに入力された場合、「はどうだった？」又は
「は好きなの？」といった語句が後ろに付加されること
によって、応答文が形成される。

【００７６】図９には、相槌処理部６がパワー・スペク
トルの解析結果を基に決定される相槌タイミングに沿っ
て相槌処理を行なうための手順をフローチャートの形式
で示している。図７及び図８に示した処理によって得ら
れた応答文は、図９で示す処理単位が参照できる記憶領
域に保存されることによって、非同期的に受け渡しを行
なっている。

【００７７】相槌処理部６は、パワー・スペクトル解析
部３から出力されるパワー・スペクトルを監視して、相
槌タイミングを待機している（ステップＳ１）。

【００７８】相槌タイミングが到来すると、パワー・ス
ペクトルの時間平均より下回ったときに、応答文の確認
を行なう（ステップＳ２）。

【００７９】ここで、応答文がない場合には、頷き動作
の準備を行ない、発話強度が極小となるタイミングを待
って、頷き動作を行なう（ステップＳ５）。

【００８０】また、応答文がある場合には、それに応じ
た音声合成を行い（ステップＳ３）、相槌動作の準備を
行なう。そして、発話強度が極小となるタイミングで相
槌を挿入する（ステップＳ４）。

【００８１】なお、ステップＳ３における音声合成処理
は、応答文生成処理が終了した時点で行うこともでき
る。

【００８２】次いで、配分マネージャ７による計算機資
源の配分コントロールについて詳解する。既に述べたよ
うに、配分マネージャ７は、図２に示した対話処理のリ
アルタイム性を確保するために、音声認識や形態素解
析、応答文作成などの各タスクに割り当てるべき計算機
資源を動的に配分する。

【００８３】資源配分は、例えば、ＣＰＵ１０１のパフ
ォーマンス制御や、マルチタスク環境下における各タス
クの優先順位付けなどによって実現される。

【００８４】図１０には、ＣＰＵ１０１のパフォーマン
ス制御により計算機資源の動的配分を行なうためのメカ
ニズムを模式的に示している。

【００８５】同図に示す例では、配分マネージャ７は、
パフォーマンス制御部７１を備えている。このパフォー
マンス制御部７１は、パワー・スペクトル解析部３によ
る入力音声の強度や、形態素解析／応答文作成部５によ
り解析された認識単語の重要度に応じて、ＣＰＵ１０１
のパフォーマンスを増大又は抑制する。

【００８６】例えば、音声入力のない状態や低強度の状
態から、高い強度の音声入力が検出された場合には、強
い話者の意図が推測されるので、遅滞なく対話処理を行
なわしめるべく、ＣＰＵ１０１のパフォーマンスを向上
させる。他方、音声入力が低強度になっていたり音声入
力が途絶えている期間中は、ＣＰＵ１０１をフル稼働さ
せる必要がなくなるので、ＣＰＵ１０１のパフォーマン
スを低下させる。

【００８７】この結果、対話処理のリアルタイム性を最
大限に維持しつつ、ＣＰＵ１０１の無駄な動作を抑制し
て電力消費を効率化することができる。

【００８８】ここで、ＣＰＵ１０１のパフォーマンス制
御を行なう形態としては、例えば動作クロックの変更
や、チップ内の演算モジュールへの駆動電力の供給／遮
断などを挙げることができる。

【００８９】また、図１１には、マルチタスク若しくは
マルチスレッド環境下においてスケジューリングすなわ
ち各スレッドの優先順位付けにより計算機資源の動的配
分を行なうためのメカニズムを模式的に示している。

【００９０】同図に示す例では、配分マネージャ７は、
処理の最小単位であるスレッドを生成するスレッド生成
部７２と、未使用中のスレッドをあらかじめ蓄積してお
くスレッド・フォルダ７３と、各スレッドに優先順位を
与えるプライオリタイザ７４と、付与された優先順位に
従って各スレッドの実行を管理するスレッド実行管理部
７５とで構成される。

【００９１】スレッド生成部７２は、システム・イベン
トが発生するとイベント処理を行うべく、スレッドを生
成して、プライオリタイザ７４に投入する。また、スレ
ッド生成処理は所定の遅延時間を伴うので、あらかじめ
生成しておいたスレッドをスレッド・フォルダ７３に蓄
積しておき、このスレッド・フォルダ７３から未処理
（スリープ状態）のスレッドを取り出して使用するよう
にしてもよい。

【００９２】スレッド・フォルダ７３を配設することに
より、対話処理などのリアルタイム性が厳しく要求され
る場合に、スレッドを生成する時間を節約できるという
メリットがある。

【００９３】プライオリタイザ７４は、パワー・スペク
トルの解析結果に応じて、投入された各スレッドに対し
て優先順位を与える。本実施形態では、対話の継続性を
保つ、すなわち対話の途切れを回避するために、相槌処
理、音声処理、形態素解析、応答文作成、非実時間処理
の順で、使用する優先順位レベルの帯域を設定して、ス
レッドに優先順位を与えるようになっている。すなわ
ち、相槌処理のスレッドは常に高い優先順位レベルの帯
域が割り当てられる。この場合、１つの発話内容の処理
であっても、相槌処理、音声処理、形態素解析、応答文
作成という各処理フェーズ毎に割り当てられる優先順位
が逐次変動する。

【００９４】また、プライオリタイザ７４は、パワー・
スペクトル解析や形態素解析によって得られた各単語列
の重要度を基に、単語列毎にそれに関わる処理能力の配
分を調整する。同じ処理フェーズ内であっても、処理対
象となる単語列の重要度に応じて各スレッドに優先順位
が動的に再配置される。例えば、後から発話された単語
列の方の重要度が高い場合には、先に発話された単語を
処理するスレッドの優先順位が低下していったり、場合
によっては、優先順位が低下したスレッドを廃棄したり
する。

【００９５】スレッド実行管理部７５は、プライオリタ
イザ７４によって割り振られた優先順位に従ってスレッ
ドを取り出して、その実行を管理する。実行が終了した
スレッドは、廃棄されたり、あるいは、スレッド・フォ
ルダ７３に戻されて次の単語列処理のために再利用に供
される。

【００９６】図１２には、図４で用いた「そういえば
きのうみたテレビ番組Ａなんだけどさ」とい
うユーザ発話に関する対話処理時において配分マネージ
ャ７により資源配分を動的にコントロールする様子を例
示している。

【００９７】まず、時刻ｔ₁において、最初のユーザ発
話「きのうみた」が入力されると、これを音声認識する
ためのスレッド８１が生成される。このスレッド８１に
は、音声認識に割り当てられた帯域の優先順位が与えら
れる。

【００９８】そして、時刻ｔ₂において、「きのうみ
た」に対する相槌「うん」を処理するためのスレッド８
２が生成される。このスレッド８２には、相槌処理に割
り当てられた帯域の優先順位が与えられる。相槌処理に
は最も高い帯域の優先順位が割り当てられているので、
スレッド８２はスレッド８１よりも高い優先順位が与え
られる。

【００９９】次いで、時刻ｔ₃において、次のユーザ発
話「きのうみた」が入力され、これを音声認識するため
のスレッド８３が生成される。このスレッド８３には、
音声認識に割り当てられた帯域の優先順位が与えられ
る。パワー・スペクトルを解析した結果、「きのうみ
た」は、「そういえば」よりも重要度が低いので、同じ
音声認識処理であっても、スレッド８３には、スレッド
８１よりも低い優先順位が与えられる。

【０１００】次いで、時刻ｔ₄において、次のユーザ発
話「テレビ番組Ａなんだ」が入力され、これを音声認識
するためのスレッド８４が生成される。このスレッド８
４には、音声認識に割り当てられた帯域の優先順位が与
えられる。パワー・スペクトルを解析した結果、「テレ
ビ番組Ａなんだ」は、「そういえば」よりも重要度が高
いので、同じ音声認識処理であっても、スレッド８４に
は、スレッド８１よりも高い優先順位が与えられる。ま
た、資源の再配分により、スレッド８１はより低い優先
順位のスレッド８５に移行する。また、システム全体の
ワークロードの増大を抑制してリアルタイム性を維持す
るために、優先順位が低いスレッド８３は、スレッド８
４の投入に応答して、廃棄される。廃棄されたスレッド
は、スレッド・フォルダ７３に回収される。

【０１０１】その後、発話「そういえば」の音声認識を
行なうスレット８５が実行を終了すると、続いて、この
発話に関して形態素解析を行なうスレッド８６が生成さ
れる。同様に、発話「テレビ番組Ａなんだ」の音声認識
を行なうスレット８４が実行を終了すると、続いて、こ
の発話に関して形態素解析を行なうスレッド８７が生成
される。

【０１０２】形態素解析に関する２つのスレッド８６及
びスレッド８７は、パワー・スペクトルの解析による重
要度の相違により、スレッド８７の方が高い優先順位に
設定される。

【０１０３】また、発話「テレビ番組Ａなんだ」の形態
素解析を行なうスレッド８７が実行を終了すると、続い
て、この発話に対する応答文を作成するためのスレッド
８８が生成される。

【０１０４】［追補］以上、特定の実施形態を参照しな
がら、本発明について詳解してきた。しかしながら、本
発明の要旨を逸脱しない範囲で当業者が該実施形態の修
正や代用を成し得ることは自明である。すなわち、例示
という形態で本発明を開示してきたのであり、本明細書
の記載内容を限定的に解釈するべきではない。本発明の
要旨を判断するためには、冒頭に記載した特許請求の範
囲の欄を参酌すべきである。

【０１０５】

【発明の効果】以上詳記したように、本発明によれば、
ユーザからの入力音声を音声認識及び解析し、さらには
応答文を作成して相槌応答を行なうことができる、優れ
た対話装置及び対話制御方法、記憶媒体、並びにコンピ
ュータ・プログラムを提供することができる。

【０１０６】また、本発明によれば、ユーザからの入力
音声の認識及び形態素解析や、相槌応答などの対話処理
を円滑に行なう優れた対話装置及び対話制御方法、記憶
媒体、並びにコンピュータ・プログラムを提供すること
ができる。

【０１０７】また、本発明によれば、装置の電力消費効
率やマルチタスク環境下における対話処理のリアルタイ
ム性を考慮して対話処理を円滑に行うことができる、優
れた対話装置及び対話制御方法、記憶媒体、並びにコン
ピュータ・プログラムを提供することができる。

【０１０８】本発明によれば、ユーザ発話における語調
の強弱情報を利用することによって、発話語彙を処理す
る際の処理時間やタスクを重要度に応じて計算機資源を
配分することができる。この結果、相槌などのように発
話タイミングが重要になる処理への迅速な処理と、より
複雑な語彙の処理に時間をかけることができる。このこ
とから、計算機の処理速度や演算能力に応じた対話処理
を行なうことができる。

【図面の簡単な説明】

【図１】本発明の実施に供される対話装置１００のハー
ドウェア構成を模式的に示した図である。

【図２】入力音声の認識及び形態素解析や、相槌応答な
どを行なう対話処理の機能構成を模式的に示した図であ
る。

【図３】単語間相関グラフ取得部１において機械可読な
文書から単語の相関を表すグラフを取得する様子を示し
た図である。

【図４】ユーザ発話のパワー・スペクトルに応じて、処
理を行なう単語の優先順位付けを行なう様子を示した図
である。

【図５】相槌の挿入確率を示した図である。

【図６】図４に示すようなユーザ発話内容に対して適用
される単語群相関グラフの構成例を示した図である。

【図７】発話予定名詞から発話文を生成する流れを示し
た図である。

【図８】発話予定名詞から発話文を生成する流れを示し
た図である。

【図９】パワー・スペクトルの解析結果を基に決定され
る相槌タイミングに沿って相槌処理を行なうための手順
を示した図である。

【図１０】ＣＰＵ１０１のパフォーマンス制御により計
算機資源の動的配分を行なうためのメカニズムを模式的
に示した図である。

【図１１】マルチタスク環境下において各タスクの優先
順位付けにより計算機資源の動的配分を行なうためのメ
カニズムを模式的に示した図である。

【図１２】ユーザ発話に関する対話処理時において配分
マネージャ７により資源配分を動的にコントロールする
様子を示した図である。

【符号の説明】

１…単語間相関グラフ取得部２…音声入力部３…パワー・スペクトル解析部４…音声認識部５…形態素解析／応答文作成部６…相槌処理部７…配分マネージャ１１…機械可読文書７１…パフォーマンス制御部７２…スレッド生成部７３…スレッド・フォルダ７４…プライオリタイザ７５…スレッド実行管理部１００…対話装置１０１…ＣＰＵ，１０２…メモリ１０３…ディスプレイ・コントローラ１０４…入力機器インターフェース１０５…ネットワーク・インターフェース１０７…外部機器インターフェース，１０８…バス１０９…音声入出力インターフェース１１１…ディスプレイ１１２…キーボード，１１３…マウス１１４…ハード・ディスク装置１１５…メディア・ドライブ１１６…音声入力装置１１７…音声出力装置

Claims

【特許請求の範囲】

【請求項１】ユーザと会話を行なう対話装置であって、ユーザの発話を入力する音声入力部と、音声波形の強さの経時変化を取得するパワー・スペクト
ル解析部と、入力されたユーザ発話を音声認識して単語列に変換する
音声認識部と、音声認識された単語列に対する音声波形の強さを基に各
単語の重要度の計算を行なう形態素解析部と、単語列の解析結果に応じて応答文を作成する応答文作成
部と、作成された応答文に従って相槌を発する相槌処理部と、パワー・スペクトルの解析結果に応じて前記の各部の処
理に対する計算機資源の配分をコントロールする資源配
分管理部と、を具備することを特徴とする対話装置。
【請求項２】前記資源配分管理部は、パワー・スペクト
ルの強弱に応じて演算処理を活性化又は抑制する、こと
を特徴とする請求項１に記載の対話装置。
【請求項３】前記資源配分管理部は、前記相槌処理部、
前記音声認識部、前記形態素解析部、前記応答文作成部
の順で計算機資源を優先的に割り当てる、ことを特徴と
する請求項１に記載の対話装置。
【請求項４】前記資源配分管理部は、マルチスレッド動
作環境における各スレッドの優先順位を管理し、パワー
・スペクトルの解析結果に応じてスレッドの優先順位を
割り振る、ことを特徴とする請求項１に記載の対話装
置。
【請求項５】前記資源配分管理部は、マルチスレッド動
作環境における各スレッドの優先順位を管理し、相槌処
理、音声認識、形態素解析、応答文作成、その他の非実
時間処理の順でスレッドの優先順位を割り振る、ことを
特徴とする請求項１に記載の対話装置。
【請求項６】前記資源配分管理部は、単語列を音声認識
する複数のスレッドが起動したときには、形態素解析に
より得られる各単語列の重要度に応じて各スレッドの優
先順位を割り振る、ことを特徴とする請求項６に記載の
対話装置。
【請求項７】前記資源配分管理部は、単語列を音声認識
する複数のスレッドが起動中に、計算機負荷が過剰とな
ったことに応答して形態素解析により得られる重要度が
低いと判断された単語列を処理するスレッドを廃棄す
る、ことを特徴とする請求項６に記載の対話装置。
【請求項８】ユーザと会話を行なう対話制御方法であっ
て、ユーザの発話を入力する音声入力ステップと、音声波形の強さの経時変化を取得するパワー・スペクト
ル解析ステップと、入力されたユーザ発話を音声認識して単語列に変換する
音声認識ステップと、音声認識された単語列に対する音声波形の強さを基に各
単語の重要度の計算を行なう形態素解析ステップと、単語列の解析結果に応じて応答文を作成する応答文作成
ステップと、作成された応答文に従って相槌を発する相槌処理ステッ
プと、パワー・スペクトルの解析結果に応じて前記の各処理ス
テップに対する計算機資源の配分をコントロールする資
源配分管理ステップと、を具備することを特徴とする対
話制御方法。
【請求項９】前記資源配分管理ステップでは、パワー・
スペクトルの強弱に応じて演算処理を活性化又は抑制す
る、ことを特徴とする請求項８に記載の対話制御方法。
【請求項１０】前記資源配分管理ステップでは、前記相
槌処理ステップ、前記音声認識ステップ、前記形態素解
析ステップ、前記応答文作成ステップの順で計算機資源
を優先的に割り当てる、ことを特徴とする請求項８に記
載の対話制御方法。
【請求項１１】前記資源配分管理ステップでは、マルチ
スレッド動作環境における各スレッドの優先順位を管理
し、パワー・スペクトルの解析結果に応じてスレッドの
優先順位を割り振る、ことを特徴とする請求項８に記載
の対話制御方法。
【請求項１２】前記資源配分管理ステップでは、マルチ
スレッド動作環境における各スレッドの優先順位を管理
し、相槌処理、音声認識、形態素解析、応答文作成、そ
の他の非実時間処理の順でスレッドの優先順位を割り振
る、ことを特徴とする請求項８に記載の対話制御方法。
【請求項１３】前記資源配分管理ステップでは、単語列
を音声認識する複数のスレッドが起動したときには、形
態素解析により得られる各単語列の重要度に応じて各ス
レッドの優先順位を割り振る、ことを特徴とする請求項
８に記載の対話制御方法。
【請求項１４】前記資源配分管理ステップでは、単語列
を音声認識する複数のスレッドが起動中に、計算機負荷
が過剰となったことに応答して形態素解析により得られ
る重要度が低いと判断された単語列を処理するスレッド
を廃棄する、ことを特徴とする請求項８に記載の対話制
御方法。
【請求項１５】ユーザとの対話を制御するための処理を
コンピュータ・システム上で実行するように記述された
コンピュータ・ソフトウェアをコンピュータ可読形式で
物理的に格納した記憶媒体であって、前記コンピュータ
・ソフトウェアは、ユーザの発話を入力する音声入力ステップと、音声波形の強さの経時変化を取得するパワー・スペクト
ル解析ステップと、入力されたユーザ発話を音声認識して単語列に変換する
音声認識ステップと、音声認識された単語列に対する音声波形の強さを基に各
単語の重要度の計算を行なう形態素解析ステップと、単語列の解析結果に応じて応答文を作成する応答文作成
ステップと、作成された応答文に従って相槌を発する相槌処理ステッ
プと、パワー・スペクトルの解析結果に応じて前記の各処理ス
テップに対する計算機資源の配分をコントロールする資
源配分管理ステップと、を具備することを特徴とする記
憶媒体。
【請求項１６】ユーザとの対話を制御するための処理を
コンピュータ・システム上で実行するように記述された
コンピュータ・プログラムであって、ユーザの発話を入力する音声入力ステップと、音声波形の強さの経時変化を取得するパワー・スペクト
ル解析ステップと、入力されたユーザ発話を音声認識して単語列に変換する
音声認識ステップと、音声認識された単語列に対する音声波形の強さを基に各
単語の重要度の計算を行なう形態素解析ステップと、単語列の解析結果に応じて応答文を作成する応答文作成
ステップと、作成された応答文に従って相槌を発する相槌処理ステッ
プと、パワー・スペクトルの解析結果に応じて前記の各処理ス
テップに対する計算機資源の配分をコントロールする資
源配分管理ステップと、を具備することを特徴とするコ
ンピュータ・プログラム。