JP2003202895A - 対話装置及び対話制御方法、記憶媒体、並びにコンピュータ・プログラム - Google Patents

対話装置及び対話制御方法、記憶媒体、並びにコンピュータ・プログラム

Info

Publication number
JP2003202895A
JP2003202895A JP2002002891A JP2002002891A JP2003202895A JP 2003202895 A JP2003202895 A JP 2003202895A JP 2002002891 A JP2002002891 A JP 2002002891A JP 2002002891 A JP2002002891 A JP 2002002891A JP 2003202895 A JP2003202895 A JP 2003202895A
Authority
JP
Japan
Prior art keywords
processing
thread
response
analysis
resource allocation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002002891A
Other languages
English (en)
Inventor
Yasunori Oto
康紀 大戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2002002891A priority Critical patent/JP2003202895A/ja
Publication of JP2003202895A publication Critical patent/JP2003202895A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 装置の電力消費効率やマルチタスク環境下に
おける対話処理のリアルタイム性を考慮して対話処理を
円滑に行う。 【解決手段】 音声入力部2、パワー・スペクトル解析
部3、音声認識部4、形態素解析/応答文作成部5、及
び相槌処理部6によって行なわれる対話処理は、リアル
タイム処理である。配分マネージャ7は、対話処理のリ
アルタイム性を確保するために、パワー・スペクトル解
析並びに形態素解析によって得られた各単語の重要度を
基に、単語毎にそれに関わる処理能力の配分を調整す
る。これら各機能モジュールに対する計算機資源の配分
を動的にコントロールする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ユーザと会話を行
なう対話装置及び対話制御方法、記憶媒体、並びにコン
ピュータ・プログラムに係り、特に、ユーザからの入力
音声を音声認識及び解析し、さらには応答文を作成して
相槌応答を行なう対話装置及び対話制御方法、記憶媒
体、並びにコンピュータ・プログラムに関する。
【0002】さらに詳しくは、本発明は、ユーザからの
入力音声の認識及び形態素解析や、相槌応答などの対話
処理を円滑に行なう対話装置及び対話制御方法、記憶媒
体、並びにコンピュータ・プログラムに係り、特に、装
置の電力消費効率やマルチタスク環境下における対話処
理のリアルタイム性を考慮して対話処理を円滑に行う対
話装置及び対話制御方法、記憶媒体、並びにコンピュー
タ・プログラムに関する。
【0003】
【従来の技術】音声は、人間にとって自然な情報伝達手
段であり、また、"hand−free","eye−f
ree"であることから他の動作との併用が可能である
ので、コマンド入力やフィードバックへの利用に適して
いる。
【0004】自然で制約の少ない音声言語はコンピュー
タとのインターフェースとして有望であり、音声認識は
コンピュータへの情報入力手段となり得る。また、音声
合成は、ユーザへの提示手段となり得る。
【0005】このため、人間とコンピュータが自然に対
話できるように、ユーザからの音声入力に対応すること
ができる対話装置に関しては、従来から考えられてき
た。
【0006】音声ベースでの対話処理は、一般に、入力
した音声の信号処理、音声認識による単語列の生成、単
語列に関する形態素解析、さらには解析結果に基づく応
答文の作成や相槌処理などで構成される。例えば、あら
かじめ予想しておいた認識単語のみを認識対象としてお
き、有限状態オートマトンなどによって、それに対応す
る文章を返す。
【0007】ユーザとの対話処理はリアルタイム性が要
求される。例えば、相槌などのような発話タイミングが
重要となる処理に間に合わなければ、ユーザ・インター
フェースとしてほとんど意味をなさなくなる。
【0008】しかしながら、音声認識処理は一般に演算
量が多いので、音声入力の有無に拘わらず常に音声認識
処理を行なっていると、無駄が多く、装置の消費電力を
いたずらに増大させるなど効率的でない。
【0009】また、マルチタスク環境下では、リアルタ
イム性が要求される対話処理に関する処理を優先させる
べきであるが、音声が未入力であったり相槌処理を行な
う必要のない状態で対話処理を優先させると、他の処理
をいたずらに遅延させる結果となり、効率的ではない。
【0010】
【発明が解決しようとする課題】本発明の目的は、ユー
ザからの入力音声を音声認識及び解析し、さらには応答
文を作成して相槌応答を行なうことができる、優れた対
話装置及び対話制御方法、記憶媒体、並びにコンピュー
タ・プログラムを提供することにある。
【0011】本発明のさらなる目的は、ユーザからの入
力音声の認識及び形態素解析や、相槌応答などの対話処
理を円滑に行なう優れた対話装置及び対話制御方法、記
憶媒体、並びにコンピュータ・プログラムを提供するこ
とにある。
【0012】本発明のさらなる目的は、装置の電力消費
効率やマルチタスク環境下における対話処理のリアルタ
イム性を考慮して対話処理を円滑に行うことができる、
優れた対話装置及び対話制御方法、記憶媒体、並びにコ
ンピュータ・プログラムを提供することにある。
【0013】
【課題を解決するための手段及び作用】本発明は、上記
課題を参酌してなされたものであり、その第1の側面
は、ユーザと会話を行なう対話装置又は対話制御方法で
あって、ユーザの発話を入力する音声入力部又はステッ
プと、音声波形の強さの経時変化を取得するパワー・ス
ペクトル解析部又はステップと、入力されたユーザ発話
を音声認識して単語列に変換する音声認識部又はステッ
プと、音声認識された単語列に対する音声波形の強さを
基に各単語の重要度の計算を行なう形態素解析部又はス
テップと、単語列の解析結果に応じて応答文を作成する
応答文作成部又はステップと、作成された応答文に従っ
て相槌を発する相槌処理部又はステップと、パワー・ス
ペクトルの解析結果に応じて前記の各部の処理に対する
計算機資源の配分をコントロールする資源配分管理部又
はステップと、を具備することを特徴とする対話装置又
は対話制御方法である。
【0014】前記資源配分管理部又はステップは、パワ
ー・スペクトルの強弱に応じて演算処理を活性化又は抑
制することができる。
【0015】したがって、本発明の第1の側面に係る対
話装置又は対話制御方法によれば、前記資源配分管理部
又はステップがユーザ発話における語調の強弱情報を利
用することによって、発話語彙を処理する際の処理時間
やタスクを重要度に応じて計算機資源を動的に配分す
る。
【0016】この結果、相槌処理などのように発話タイ
ミングが重要になるリアルタイム処理への迅速な処理
と、より複雑な語彙の処理に時間をかけることができ
る。したがって、計算機の処理速度や演算能力に応じた
より効率的な対話処理を実現することができる。
【0017】前記資源配分管理部又はステップは、対話
処理のリアルタイム性、すなわち対話の連続性を考慮し
て、前記相槌処理部又はステップ、前記音声認識部又は
ステップ、前記形態素解析部又はステップ、前記応答文
作成部又はステップの順で計算機資源を優先的に割り当
てるようにしてもよい。
【0018】また、前記資源配分管理部又はステップ
は、マルチスレッド動作環境における各スレッドの優先
順位を管理し、パワー・スペクトルの解析結果に応じて
スレッドの優先順位を割り振るようにしてもよい。
【0019】前記資源配分管理部又はステップは、マル
チスレッド動作環境における各スレッドの優先順位を管
理することによって、計算機資源を動的に配分するよう
にしてもよい。このような場合、対話のリアルタイム性
を考慮して、相槌処理、音声認識、形態素解析、応答文
作成、その他の非実時間処理の順でスレッドの優先順位
を割り振るようにすればよい。
【0020】また、前記資源配分管理部又はステップ
は、単語列を音声認識する複数のスレッドが起動したと
きには、形態素解析により得られる各単語列の重要度に
応じて各スレッドの優先順位を割り振るようにしてもよ
い。
【0021】また、前記資源配分管理部又はステップ
は、単語列を音声認識する複数のスレッドが起動中に、
計算機負荷が過剰となった場合には、対話処理のリアル
タイム性を維持するために、形態素解析により得られる
重要度が低いと判断された単語列を処理するスレッドを
廃棄するようにしてもよい。
【0022】また、本発明の第2の側面は、ユーザとの
対話を制御するための処理をコンピュータ・システム上
で実行するように記述されたコンピュータ・ソフトウェ
アをコンピュータ可読形式で物理的に格納した記憶媒体
であって、前記コンピュータ・ソフトウェアは、ユーザ
の発話を入力する音声入力ステップと、音声波形の強さ
の経時変化を取得するパワー・スペクトル解析ステップ
と、入力されたユーザ発話を音声認識して単語列に変換
する音声認識ステップと、音声認識された単語列に対す
る音声波形の強さを基に各単語の重要度の計算を行なう
形態素解析ステップと、単語列の解析結果に応じて応答
文を作成する応答文作成ステップと、作成された応答文
に従って相槌を発する相槌処理ステップと、パワー・ス
ペクトルの解析結果に応じて前記の各処理ステップに対
する計算機資源の配分をコントロールする資源配分管理
ステップと、を具備することを特徴とする記憶媒体であ
る。
【0023】本発明の第2の側面に係る記憶媒体は、例
えば、さまざまなプログラム・コードを実行可能な汎用
コンピュータ・システムに対して、コンピュータ・ソフ
トウェアをコンピュータ可読な形式で提供する媒体であ
る。このような媒体は、例えば、DVD(Digital Vers
atile Disc)、CD(Compact Disc)やFD(Flexible
Disk)、MO(Magneto-Optical disc)などの着脱自
在で可搬性の記憶媒体である。あるいは、ネットワーク
(ネットワークは無線、有線の区別を問わない)などの
伝送媒体などを経由してコンピュータ・ソフトウェアを
特定のコンピュータ・システムに提供することも技術的
に可能である。
【0024】本発明の第2の側面に係る記憶媒体は、コ
ンピュータ・システム上で所定のコンピュータ・ソフト
ウェアの機能を実現するための、コンピュータ・ソフト
ウェアと記憶媒体との構造上又は機能上の協働的関係を
定義したものである。換言すれば、本発明の第2の側面
に係る記憶媒体を介して所定のコンピュータ・ソフトウ
ェアをコンピュータ・システムにインストールすること
によって、コンピュータ・システム上では協働的作用が
発揮され、本発明の第1の側面に係る対話装置又は対話
制御方法と同様の作用効果を得ることができる。
【0025】また、本発明の第3の側面は、ユーザとの
対話を制御するための処理をコンピュータ・システム上
で実行するように記述されたコンピュータ・プログラム
であって、ユーザの発話を入力する音声入力ステップ
と、音声波形の強さの経時変化を取得するパワー・スペ
クトル解析ステップと、入力されたユーザ発話を音声認
識して単語列に変換する音声認識ステップと、音声認識
された単語列に対する音声波形の強さを基に各単語の重
要度の計算を行なう形態素解析ステップと、単語列の解
析結果に応じて応答文を作成する応答文作成ステップ
と、作成された応答文に従って相槌を発する相槌処理ス
テップと、パワー・スペクトルの解析結果に応じて前記
の各処理ステップに対する計算機資源の配分をコントロ
ールする資源配分管理ステップと、を具備することを特
徴とするコンピュータ・プログラムである。
【0026】本発明の第3の側面に係るコンピュータ・
プログラムは、コンピュータ・システム上で所定の処理
を実現するようにコンピュータ可読形式で記述されたコ
ンピュータ・プログラムを定義したものである。換言す
れば、本発明の第3の側面に係るコンピュータ・プログ
ラムをコンピュータ・システムにインストールすること
によって、コンピュータ・システム上では協働的作用が
発揮され、本発明の第1の側面に係る対話装置又は対話
制御方法と同様の作用効果を得ることができる。
【0027】本発明のさらに他の目的、特徴や利点は、
後述する本発明の実施形態や添付する図面に基づくより
詳細な説明によって明らかになるであろう。
【0028】
【発明の実施の形態】以下、図面を参照しながら本発明
の実施形態について詳解する。
【0029】図1には、本発明の実施に供される対話装
置100のハードウェア構成を模式的に示している。以
下、同図を参照しながら、各部について説明する。
【0030】メイン・コントローラであるCPU(Cent
ral Processing Unit)101は、オペレーティング・シ
ステム(OS)の制御下で、各種のアプリケーションを
実行する。CPU101は、例えば、入力音声の認識及
び形態素解析や、相槌応答などの対話処理を行なうため
の対話アプリケーションや、対話処理のリアルタイム性
を考慮してCPU101のパフォーマンスやマルチタス
ク環境下におけるタスク管理(若しくは、各タスクに対
する計算機資源の動的配分)を行なうための制御プログ
ラムなどを実行することができる。
【0031】CPU101を利用する単位のことを「ス
レッド(Thread)」と呼び、オペレーティング・システ
ムは、アプリケーションのスレッド単位で分割してスケ
ジューリングすなわち計算機資源の配分を行なう。ま
た、複数のスレッドを並列して動作させることが可能で
ある。
【0032】図示の通り、CPU101は、バス108
によって他の機器類(後述)と相互接続されている。
【0033】メモリ102は、CPU101において実
行されるプログラム・コードを格納したり、実行中の作
業データを一時保管するために使用される記憶装置であ
る。同図に示すメモリ102は、ROMなどの不揮発性
メモリ及びDRAMなどの揮発性メモリの双方を含むも
のと理解されたい。
【0034】ディスプレイ・コントローラ103は、C
PU101が発行する描画命令を実際に処理するための
専用コントローラである。ディスプレイ・コントローラ
103において処理された描画データは、例えばフレー
ム・バッファ(図示しない)に一旦書き込まれた後、デ
ィスプレイ111によって画面出力される。
【0035】入力機器インターフェース104は、キー
ボード112やマウス113などのユーザ入力機器を対
話装置100に接続するための装置である。
【0036】ネットワーク・インターフェース105
は、Ethernetなどの所定の通信プロトコルに従
って、システム100をLAN(Local Area Network)
などの局所的ネットワーク、さらにはインターネットの
ような広域ネットワークに接続することができる。
【0037】ネットワーク上では、複数のホスト端末
(図示しない)がトランスペアレントな状態で接続さ
れ、分散コンピューティング環境が構築されている。ネ
ットワーク上では、ソフトウェア・プログラムやデータ
・コンテンツなどの配信サービスを行うことができる。
例えば、入力音声の認識及び形態素解析や、相槌応答な
どの対話処理を行なうための対話アプリケーションや、
対話処理のリアルタイム性を考慮してCPU101のパ
フォーマンスやマルチタスク環境下におけるタスク管理
(若しくは、各タスクに対する計算機資源の動的配分)
を行なうための制御プログラム、対話処理に使用する単
語間相関グラフなどを、ネットワーク経由でダウンロー
ドすることができる。
【0038】外部機器インターフェース107は、ハー
ド・ディスク・ドライブ(HDD)114やメディア・ド
ライブ115などの外部装置を本対話装置100に接続
するための装置である。
【0039】HDD114は、記憶担体としての磁気デ
ィスクを固定的に搭載した外部記憶装置であり(周
知)、記憶容量やデータ転送速度などの点で他の外部記
憶装置よりも優れている。ソフトウェア・プログラムを
実行可能な状態でHDD114上に置くことをプログラ
ムのシステムへの「インストール」と呼ぶ。通常、HD
D114には、CPU101が実行すべきオペレーティ
ング・システムのプログラム・コードや、アプリケーショ
ン・プログラム、デバイス・ドライバなどが不揮発的に格
納されている。例えば、入力音声の認識及び形態素解析
や、相槌応答などの対話処理を行なうための対話アプリ
ケーションや、対話処理のリアルタイム性を考慮してC
PU101のパフォーマンスやマルチタスク環境下にお
けるタスク管理(若しくは、各タスクに対する計算機資
源の動的配分)を行なうための制御プログラムなどを、
HDD114上にインストールすることができる。ま
た、対話処理に使用する単語間相関グラフをHDD11
4上に格納しておいてもよい。
【0040】メディア・ドライブ115は、CD(Compa
ct Disc)やMO(Magneto-Opticaldisc)、DVD(Di
gital Versatile Disc)などの可搬型メディアを装填し
て、そのデータ記録面にアクセスするための装置であ
る。
【0041】可搬型メディアは、主として、ソフトウェ
ア・プログラムやデータ・ファイルなどをコンピュータ可
読形式のデータとしてバックアップすることや、これら
をシステム間で移動(すなわち販売・流通・配布を含む)
する目的で使用される。入力音声の認識及び形態素解析
や、相槌応答などの対話処理を行なうための対話アプリ
ケーションや、対話処理のリアルタイム性を考慮してC
PU101のパフォーマンスやマルチタスク環境下にお
けるタスク管理(若しくは、各タスクに対する計算機資
源の動的配分)を行なうための制御プログラム、対話処
理に使用する単語間相関グラフなどを、これら可搬型メ
ディアを利用して複数の機器間で物理的に流通・配布す
ることができる。
【0042】音声入出力インターフェース109は、マ
イクなどの音声入力装置116を介してユーザ発話を本
対話装置100内に取り込んだり、発話の音声認識並び
に形態素解析を基に作成された応答文をスピーカなどの
音声出力装置117から音声出力して相槌処理するため
の装置である。
【0043】なお、図1に示すような対話装置100の
一例は、米IBM社のパーソナル・コンピュータ"PC/
AT(Personal Computer/Advanced Technology)"の互
換機又は後継機である。勿論、他のアーキテクチャを備
えたコンピュータを、本実施形態に係る対話装置100
として適用することも可能である。
【0044】図2には、本実施形態に係る対話装置10
0上で実行される、入力音声の認識及び形態素解析や、
相槌応答などを行なう対話処理の機能構成を模式的に示
している。同図に示す各機能モジュールは、実際には、
CPU101が所定のプログラム・コードを実行するこ
とによって実現される。
【0045】参照番号1は、単語間相関を表すグラフを
取得する単語間相関グラフ取得部である。ここで取得す
るグラフは、例えばシステム提供者がマニュアルで作成
してもよい。また、このグラフを初期値として、ネット
ワークを通じて新しい単語間相関グラフの配給を受けた
り、初期値グラフと融合して使用するようにしてもよ
い。
【0046】音声入力部2は、ユーザの発話音声を信号
入力して、これをパワー・スペクトル解析部3と音声認
識部4に分配する。
【0047】音声認識部4は、DPマッチングやHMM
(Hidden Markov Model:隠れマルコフ・モデル)など
によって、ユーザの発話音声を単語列に変換する。DP
マッチングでは、登録されている単語モデルと入力音声
がどれくらい似ているかを示すために距離という概念を
用いる。HMMでは、各単語や音素を標準的な確率状態
遷移機械(マルコフモデル)で表現するので、個人差や調
音結合、発声法(早さ、強さ、明瞭さ)などによる音声
パターンの変動を確率モデルとして扱って、統計的処理
を行なうことができる。
【0048】パワー・スペクトル解析部3は、音声波形
の強さの経時変化を取得して、後続の形態素解析部/応
答文作成部5、配分マネージャ7、並びに相槌処理部6
に出力する。
【0049】形態素解析/応答文作成部5は、音声認識
部4によって認識された単語に対する音声波形の強さを
基に各単語の重要度の計算を行なう。
【0050】相槌処理部6では、パワー・スペクトル解
析結果を基に、音声波形の強さが小さくなる部分を検出
して、相槌を打つタイミングとして使用する。
【0051】また、後続の配分マネージャ7では、パワ
ー・スペクトル解析結果を基に、音声認識や形態素解
析、応答文作成などの各タスクに割り当てるべき計算機
資源を動的に配分する。資源配分は、CPU101のパ
フォーマンス制御や、マルチタスク環境下における各タ
スクの優先順位付けなどによって実現される。例えば、
形態素解析によって得られた各単語の重要度を基に、単
語毎にそれに関わる処理能力の配分を調整する。本実施
形態では、認識単語の重要度を設定した後、重要度の高
い単語群を用いて、応答文の中心となる単語を決定し、
確率を付与したテンプレートを用いて、文章に拡張す
る。なお、本明細書では採り上げていないが、音声波形
の強さが強いものから順に音声認識(単語認識)を行な
うようにしてもよい。計算機資源を動的配分する仕組み
について後に詳解する。
【0052】単語群相関グラフ抽出部1による相関グラ
フ抽出処理は、実際に音声が入力される前にあらかじめ
行なわれる前処理に位置付けられる。これに対し、音声
入力部2、パワー・スペクトル解析部3、音声認識部
4、形態素解析/応答文作成部5、及び相槌処理部6に
よって行なわれる対話処理は、リアルタイム処理であ
る。配分マネージャ7は、対話処理のリアルタイム性を
確保するために、これら各機能モジュールに対する計算
機資源の配分を動的にコントロールする。
【0053】図3には、単語間相関グラフ取得部1にお
いて機械可読な文書から単語の相関を表すグラフを取得
する様子を示している。
【0054】同図中、参照番号11は、機械可読な文書
である。機械可読な文書は、例えば印刷媒体や手書き文
字が描かれた用紙など、システム提供者が用意した文書
であってもよいが、ネットワーク上に存在するHTML
ドキュメントなどのコンテンツもその対象として含まれ
る。
【0055】対話の処理対象となるのは、基本的には、
コンテンツ内に含まれる文章12であり、文書中に含ま
れる絵13や表など単語列に変換できない部分は基本的
には処理対象とならない。また、段落14毎に処理を行
なうことによって、段落を跨いだ位置関係にある単語群
は、その関係性を低いものとして扱うことができる。
【0056】本実施形態では、文書の処理単位を段落毎
にしている。但し、段落を接続する語彙が例えば「つま
り」などのように文脈を示して関係性が強いことを示唆
する場合には、複数の段落を復号した処理単位を設定す
るようにしてもよい。あるいは、同じ段落内であって
も、「ところで」などのように話題を転換することが示
唆されている場合には、段落をさらに分割して処理単位
とすることもできる。
【0057】参照番号15〜22は、文書中に含まれる
各単語を示している。但し、これらの単語の種類は重複
しないものとする。
【0058】単語Aのように、木構造の根に相当する場
所にある単語以外は、単語が出現しないことを示す状態
となることがある。図3に示す例では、単語Aの後に単
語Bが出現する確率は65%であり、単語Cが出現する
確率は35%である。
【0059】なお、単語間相関グラフは、図3に示すよ
うな木構造に限定されるものではなく、ループがない有
向グラフや、その他の一般的なグラフ構造を採用するこ
とができる。
【0060】図4には、形態素解析/応答文作成部4に
おいて、ユーザ発話のパワー・スペクトルに応じて、処
理を行なう単語の優先順位付けを行なう様子を示してい
る。同図では、ケプストラムなどによって得られた、ユ
ーザ発話のパワー・スペクトルの経時変化を示してい
る。一定時間前のユーザ発話に対して指定された時間分
の平均をとることによって、パワー・スペクトルの平均
値を計算している。
【0061】図4に示すパワー・スペクトルの変動曲線
上では、T1,T2,及びT3という3箇所の極大点が
存在し、T3、T1、T2の順で単語を発音する強度が
高いことが判る。このうち、T1及びT3が平均レベル
を越えていることから、重要語と推定することができ
る。配分マネージャ7は、このようなパワー・スペクト
ル解析結果を基に、極大点T1及びT3の発音部分につ
いての処理に割り当てられる計算機資源を増大させる。
【0062】一方、極大点T2の発音部分は、平均レベ
ルを越えていないことから、実装された対話装置100
の計算速度や、その時点での計算機負荷や他のタスクへ
の影響を考慮して、割り当てる計算機資源を適宜抑制す
る。例えば、相槌応答のようなタイミングを要する処理
から外したりする。
【0063】また、図4に示すパワー・スペクトルの変
動曲線上では、B1及びB2という極小点が存在する。
これらのユーザ発話位置ではユーザの発話と相槌が衝突
して対話の障害となる可能性が低いと推定されることか
ら、相槌処理部6は、このような極小点となるユーザ発
話位置に相槌を挿入する。
【0064】図5には、相槌の挿入確率の経時変化を示
している。同図に示す例では、前回の相槌挿入位置から
の時間が経つにつれて挿入確率が大きくなる。また、前
回相槌を挿入してから一定時間R(例えば初期値をR=
1[sec]とする)が経過するまでの間は、相槌の挿
入が抑制されている期間であり、挿入確率は0に保たれ
ている。
【0065】また、相槌挿入抑制期間Rが経過すると、
挿入確率は線形的に増大する。挿入確率が1に到達する
までの所要時間Tは、システム提供者が適当に設定して
もよいが、例えば実際の会話例から、個人単位で相槌が
挿入されている間隔を求めることもできる。
【0066】また、図4には、パワー・スペクトル変動
グラフの下に、各極大点T1、T2、T3発話された単
語の音声認識結果が得られるタイミングを時間軸上に配
置して示している。例えば、極大点T1における音声認
識結果として文字列「そういえば」が得られ、極大点T
2における音声認識結果として文字列「きのうみた」が
得られ、極大点T1における音声認識結果として文字列
「テレビ番組A」が得られる。実際の音声認識では、同
図に示すように、発話されたタイミングから少し遅れて
認識される。但し、極大点T2は平均レベルに到達して
いないことから、利用可能な計算機資源によっては、そ
の時点での音声認識処理(発話された単語「きのうみ
た」の認識処理)を省略することもある。
【0067】形態素解析/応答文作成部5では、さらに
音声認識された単語の形態素解析を行う。例えば、極大
点T1における認識文字列「そういえば」を接続詞又は
間投詞として認識する。同様に、極大点T2における認
識文字列「きのうみた」を名詞と動詞の連結として認識
し、極大点T3における認識文字列「そういえば」を名
詞として認識する。さらに、今日が10月14日であっ
た場合には、名詞「昨日」を10月13日と同値なもの
として扱う。また、「テレビ番組A」は、名詞として認
識される。
【0068】なお、この形態素解析は並列計算されてお
り、発話音声のパワーに応じて、形態素解析/応答文処
理部5に対して割り当てられる計算機資源が動的に調整
される。
【0069】極大点T1における発話「そういえば」
は、その直後の極小点T2のにおける相槌タイミングに
利用されることはない。極大点T3における発話「テレ
ビ番組A」は、発話パワーが大きいこと、並びに、その
直後の極小点B3における相槌タイミングに間に合うこ
とから、この時点における相槌に用いられる確率が高く
なる。
【0070】図6には、図4に示すようなユーザ発話内
容に対して適用される単語群相関グラフの構成例を示し
ている。図6に示すように、「そういえば」を用いてい
ないが、その種類が「間投詞/接続詞」ではなく、ま
た、図6で用いる単語群相関グラフに単語が存在する場
合、応答文生成で用いられることになる。
【0071】図6に示した例では、「登場人物A」なる
単語がパワー・スペクトル解析処理により重要語として
認識されていることから、これを基に関連単語を推測す
る。この処理で用いるグラフは、単語間相関グラフ取得
部1による処理結果として得られる。グラフは、システ
ム提供者が手動で作成したものを用いてもよいし、イン
ターネットなどのネットワークを介して新しい単語間相
関グラフの配給を受けることもできる。
【0072】例えば、「テレビ番組A」という発話に続
いて、「ゾナー」が発話された場合、システムは、リン
クに付与されている確率を基に、次に単語「なぞなぞ」
が発話されることを予想して、応答文作成のための基と
なる単語として用いる。このような応答文の作り方は、
実際の会話において、単語を先取りして発話するという
例が散見されること、また、これによってコミュニケー
ションが円滑化するという報告があること(例えば、谷
泰編「コミュニケーションの自然誌」(新曜社))など
に依拠する。本実施形態では、後者の現象を利用するこ
とによって、ユーザとの円滑な対話を実現している。ま
た、単語が常に選ばれる訳ではなく、例えば後続する単
語がない(「なし」)という選択肢を用意することがで
きる。この場合、1つ前の段階で示されている単語が用
いられることになる。
【0073】図7及び図8には、発話予定名詞から発話
文を生成する流れを示している。このうち、図7にはユ
ーザ発話中に出現した単語の処理を示し、また、図8に
は図6に示した推測方法によって得られた単語の処理を
示している。これらは、単語から応答文を作成するため
のテンプレートを示している。
【0074】例えば、出現名詞である「登場人物A」が
図7に示すテンプレートに入力された場合、「ねえ〜」
又は「は好きなの?」といった語句が後ろに付加される
ことによって、応答文が形成される。
【0075】一方、推測名詞である「なぞなぞ」がテン
プレートに入力された場合、「はどうだった?」又は
「は好きなの?」といった語句が後ろに付加されること
によって、応答文が形成される。
【0076】図9には、相槌処理部6がパワー・スペク
トルの解析結果を基に決定される相槌タイミングに沿っ
て相槌処理を行なうための手順をフローチャートの形式
で示している。図7及び図8に示した処理によって得ら
れた応答文は、図9で示す処理単位が参照できる記憶領
域に保存されることによって、非同期的に受け渡しを行
なっている。
【0077】相槌処理部6は、パワー・スペクトル解析
部3から出力されるパワー・スペクトルを監視して、相
槌タイミングを待機している(ステップS1)。
【0078】相槌タイミングが到来すると、パワー・ス
ペクトルの時間平均より下回ったときに、応答文の確認
を行なう(ステップS2)。
【0079】ここで、応答文がない場合には、頷き動作
の準備を行ない、発話強度が極小となるタイミングを待
って、頷き動作を行なう(ステップS5)。
【0080】また、応答文がある場合には、それに応じ
た音声合成を行い(ステップS3)、相槌動作の準備を
行なう。そして、発話強度が極小となるタイミングで相
槌を挿入する(ステップS4)。
【0081】なお、ステップS3における音声合成処理
は、応答文生成処理が終了した時点で行うこともでき
る。
【0082】次いで、配分マネージャ7による計算機資
源の配分コントロールについて詳解する。既に述べたよ
うに、配分マネージャ7は、図2に示した対話処理のリ
アルタイム性を確保するために、音声認識や形態素解
析、応答文作成などの各タスクに割り当てるべき計算機
資源を動的に配分する。
【0083】資源配分は、例えば、CPU101のパフ
ォーマンス制御や、マルチタスク環境下における各タス
クの優先順位付けなどによって実現される。
【0084】図10には、CPU101のパフォーマン
ス制御により計算機資源の動的配分を行なうためのメカ
ニズムを模式的に示している。
【0085】同図に示す例では、配分マネージャ7は、
パフォーマンス制御部71を備えている。このパフォー
マンス制御部71は、パワー・スペクトル解析部3によ
る入力音声の強度や、形態素解析/応答文作成部5によ
り解析された認識単語の重要度に応じて、CPU101
のパフォーマンスを増大又は抑制する。
【0086】例えば、音声入力のない状態や低強度の状
態から、高い強度の音声入力が検出された場合には、強
い話者の意図が推測されるので、遅滞なく対話処理を行
なわしめるべく、CPU101のパフォーマンスを向上
させる。他方、音声入力が低強度になっていたり音声入
力が途絶えている期間中は、CPU101をフル稼働さ
せる必要がなくなるので、CPU101のパフォーマン
スを低下させる。
【0087】この結果、対話処理のリアルタイム性を最
大限に維持しつつ、CPU101の無駄な動作を抑制し
て電力消費を効率化することができる。
【0088】ここで、CPU101のパフォーマンス制
御を行なう形態としては、例えば動作クロックの変更
や、チップ内の演算モジュールへの駆動電力の供給/遮
断などを挙げることができる。
【0089】また、図11には、マルチタスク若しくは
マルチスレッド環境下においてスケジューリングすなわ
ち各スレッドの優先順位付けにより計算機資源の動的配
分を行なうためのメカニズムを模式的に示している。
【0090】同図に示す例では、配分マネージャ7は、
処理の最小単位であるスレッドを生成するスレッド生成
部72と、未使用中のスレッドをあらかじめ蓄積してお
くスレッド・フォルダ73と、各スレッドに優先順位を
与えるプライオリタイザ74と、付与された優先順位に
従って各スレッドの実行を管理するスレッド実行管理部
75とで構成される。
【0091】スレッド生成部72は、システム・イベン
トが発生するとイベント処理を行うべく、スレッドを生
成して、プライオリタイザ74に投入する。また、スレ
ッド生成処理は所定の遅延時間を伴うので、あらかじめ
生成しておいたスレッドをスレッド・フォルダ73に蓄
積しておき、このスレッド・フォルダ73から未処理
(スリープ状態)のスレッドを取り出して使用するよう
にしてもよい。
【0092】スレッド・フォルダ73を配設することに
より、対話処理などのリアルタイム性が厳しく要求され
る場合に、スレッドを生成する時間を節約できるという
メリットがある。
【0093】プライオリタイザ74は、パワー・スペク
トルの解析結果に応じて、投入された各スレッドに対し
て優先順位を与える。本実施形態では、対話の継続性を
保つ、すなわち対話の途切れを回避するために、相槌処
理、音声処理、形態素解析、応答文作成、非実時間処理
の順で、使用する優先順位レベルの帯域を設定して、ス
レッドに優先順位を与えるようになっている。すなわ
ち、相槌処理のスレッドは常に高い優先順位レベルの帯
域が割り当てられる。この場合、1つの発話内容の処理
であっても、相槌処理、音声処理、形態素解析、応答文
作成という各処理フェーズ毎に割り当てられる優先順位
が逐次変動する。
【0094】また、プライオリタイザ74は、パワー・
スペクトル解析や形態素解析によって得られた各単語列
の重要度を基に、単語列毎にそれに関わる処理能力の配
分を調整する。同じ処理フェーズ内であっても、処理対
象となる単語列の重要度に応じて各スレッドに優先順位
が動的に再配置される。例えば、後から発話された単語
列の方の重要度が高い場合には、先に発話された単語を
処理するスレッドの優先順位が低下していったり、場合
によっては、優先順位が低下したスレッドを廃棄したり
する。
【0095】スレッド実行管理部75は、プライオリタ
イザ74によって割り振られた優先順位に従ってスレッ
ドを取り出して、その実行を管理する。実行が終了した
スレッドは、廃棄されたり、あるいは、スレッド・フォ
ルダ73に戻されて次の単語列処理のために再利用に供
される。
【0096】図12には、図4で用いた「そういえば
きのう みた テレビ番組A なんだ けど さ」とい
うユーザ発話に関する対話処理時において配分マネージ
ャ7により資源配分を動的にコントロールする様子を例
示している。
【0097】まず、時刻t1において、最初のユーザ発
話「きのうみた」が入力されると、これを音声認識する
ためのスレッド81が生成される。このスレッド81に
は、音声認識に割り当てられた帯域の優先順位が与えら
れる。
【0098】そして、時刻t2において、「きのうみ
た」に対する相槌「うん」を処理するためのスレッド8
2が生成される。このスレッド82には、相槌処理に割
り当てられた帯域の優先順位が与えられる。相槌処理に
は最も高い帯域の優先順位が割り当てられているので、
スレッド82はスレッド81よりも高い優先順位が与え
られる。
【0099】次いで、時刻t3において、次のユーザ発
話「きのうみた」が入力され、これを音声認識するため
のスレッド83が生成される。このスレッド83には、
音声認識に割り当てられた帯域の優先順位が与えられ
る。パワー・スペクトルを解析した結果、「きのうみ
た」は、「そういえば」よりも重要度が低いので、同じ
音声認識処理であっても、スレッド83には、スレッド
81よりも低い優先順位が与えられる。
【0100】次いで、時刻t4において、次のユーザ発
話「テレビ番組Aなんだ」が入力され、これを音声認識
するためのスレッド84が生成される。このスレッド8
4には、音声認識に割り当てられた帯域の優先順位が与
えられる。パワー・スペクトルを解析した結果、「テレ
ビ番組Aなんだ」は、「そういえば」よりも重要度が高
いので、同じ音声認識処理であっても、スレッド84に
は、スレッド81よりも高い優先順位が与えられる。ま
た、資源の再配分により、スレッド81はより低い優先
順位のスレッド85に移行する。また、システム全体の
ワークロードの増大を抑制してリアルタイム性を維持す
るために、優先順位が低いスレッド83は、スレッド8
4の投入に応答して、廃棄される。廃棄されたスレッド
は、スレッド・フォルダ73に回収される。
【0101】その後、発話「そういえば」の音声認識を
行なうスレット85が実行を終了すると、続いて、この
発話に関して形態素解析を行なうスレッド86が生成さ
れる。同様に、発話「テレビ番組Aなんだ」の音声認識
を行なうスレット84が実行を終了すると、続いて、こ
の発話に関して形態素解析を行なうスレッド87が生成
される。
【0102】形態素解析に関する2つのスレッド86及
びスレッド87は、パワー・スペクトルの解析による重
要度の相違により、スレッド87の方が高い優先順位に
設定される。
【0103】また、発話「テレビ番組Aなんだ」の形態
素解析を行なうスレッド87が実行を終了すると、続い
て、この発話に対する応答文を作成するためのスレッド
88が生成される。
【0104】[追補]以上、特定の実施形態を参照しな
がら、本発明について詳解してきた。しかしながら、本
発明の要旨を逸脱しない範囲で当業者が該実施形態の修
正や代用を成し得ることは自明である。すなわち、例示
という形態で本発明を開示してきたのであり、本明細書
の記載内容を限定的に解釈するべきではない。本発明の
要旨を判断するためには、冒頭に記載した特許請求の範
囲の欄を参酌すべきである。
【0105】
【発明の効果】以上詳記したように、本発明によれば、
ユーザからの入力音声を音声認識及び解析し、さらには
応答文を作成して相槌応答を行なうことができる、優れ
た対話装置及び対話制御方法、記憶媒体、並びにコンピ
ュータ・プログラムを提供することができる。
【0106】また、本発明によれば、ユーザからの入力
音声の認識及び形態素解析や、相槌応答などの対話処理
を円滑に行なう優れた対話装置及び対話制御方法、記憶
媒体、並びにコンピュータ・プログラムを提供すること
ができる。
【0107】また、本発明によれば、装置の電力消費効
率やマルチタスク環境下における対話処理のリアルタイ
ム性を考慮して対話処理を円滑に行うことができる、優
れた対話装置及び対話制御方法、記憶媒体、並びにコン
ピュータ・プログラムを提供することができる。
【0108】本発明によれば、ユーザ発話における語調
の強弱情報を利用することによって、発話語彙を処理す
る際の処理時間やタスクを重要度に応じて計算機資源を
配分することができる。この結果、相槌などのように発
話タイミングが重要になる処理への迅速な処理と、より
複雑な語彙の処理に時間をかけることができる。このこ
とから、計算機の処理速度や演算能力に応じた対話処理
を行なうことができる。
【図面の簡単な説明】
【図1】本発明の実施に供される対話装置100のハー
ドウェア構成を模式的に示した図である。
【図2】入力音声の認識及び形態素解析や、相槌応答な
どを行なう対話処理の機能構成を模式的に示した図であ
る。
【図3】単語間相関グラフ取得部1において機械可読な
文書から単語の相関を表すグラフを取得する様子を示し
た図である。
【図4】ユーザ発話のパワー・スペクトルに応じて、処
理を行なう単語の優先順位付けを行なう様子を示した図
である。
【図5】相槌の挿入確率を示した図である。
【図6】図4に示すようなユーザ発話内容に対して適用
される単語群相関グラフの構成例を示した図である。
【図7】発話予定名詞から発話文を生成する流れを示し
た図である。
【図8】発話予定名詞から発話文を生成する流れを示し
た図である。
【図9】パワー・スペクトルの解析結果を基に決定され
る相槌タイミングに沿って相槌処理を行なうための手順
を示した図である。
【図10】CPU101のパフォーマンス制御により計
算機資源の動的配分を行なうためのメカニズムを模式的
に示した図である。
【図11】マルチタスク環境下において各タスクの優先
順位付けにより計算機資源の動的配分を行なうためのメ
カニズムを模式的に示した図である。
【図12】ユーザ発話に関する対話処理時において配分
マネージャ7により資源配分を動的にコントロールする
様子を示した図である。
【符号の説明】
1…単語間相関グラフ取得部 2…音声入力部 3…パワー・スペクトル解析部 4…音声認識部 5…形態素解析/応答文作成部 6…相槌処理部 7…配分マネージャ 11…機械可読文書 71…パフォーマンス制御部 72…スレッド生成部 73…スレッド・フォルダ 74…プライオリタイザ 75…スレッド実行管理部 100…対話装置 101…CPU,102…メモリ 103…ディスプレイ・コントローラ 104…入力機器インターフェース 105…ネットワーク・インターフェース 107…外部機器インターフェース,108…バス 109…音声入出力インターフェース 111…ディスプレイ 112…キーボード,113…マウス 114…ハード・ディスク装置 115…メディア・ドライブ 116…音声入力装置 117…音声出力装置

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】ユーザと会話を行なう対話装置であって、 ユーザの発話を入力する音声入力部と、 音声波形の強さの経時変化を取得するパワー・スペクト
    ル解析部と、 入力されたユーザ発話を音声認識して単語列に変換する
    音声認識部と、 音声認識された単語列に対する音声波形の強さを基に各
    単語の重要度の計算を行なう形態素解析部と、 単語列の解析結果に応じて応答文を作成する応答文作成
    部と、 作成された応答文に従って相槌を発する相槌処理部と、 パワー・スペクトルの解析結果に応じて前記の各部の処
    理に対する計算機資源の配分をコントロールする資源配
    分管理部と、を具備することを特徴とする対話装置。
  2. 【請求項2】前記資源配分管理部は、パワー・スペクト
    ルの強弱に応じて演算処理を活性化又は抑制する、こと
    を特徴とする請求項1に記載の対話装置。
  3. 【請求項3】前記資源配分管理部は、前記相槌処理部、
    前記音声認識部、前記形態素解析部、前記応答文作成部
    の順で計算機資源を優先的に割り当てる、ことを特徴と
    する請求項1に記載の対話装置。
  4. 【請求項4】前記資源配分管理部は、マルチスレッド動
    作環境における各スレッドの優先順位を管理し、パワー
    ・スペクトルの解析結果に応じてスレッドの優先順位を
    割り振る、ことを特徴とする請求項1に記載の対話装
    置。
  5. 【請求項5】前記資源配分管理部は、マルチスレッド動
    作環境における各スレッドの優先順位を管理し、相槌処
    理、音声認識、形態素解析、応答文作成、その他の非実
    時間処理の順でスレッドの優先順位を割り振る、ことを
    特徴とする請求項1に記載の対話装置。
  6. 【請求項6】前記資源配分管理部は、単語列を音声認識
    する複数のスレッドが起動したときには、形態素解析に
    より得られる各単語列の重要度に応じて各スレッドの優
    先順位を割り振る、ことを特徴とする請求項6に記載の
    対話装置。
  7. 【請求項7】前記資源配分管理部は、単語列を音声認識
    する複数のスレッドが起動中に、計算機負荷が過剰とな
    ったことに応答して形態素解析により得られる重要度が
    低いと判断された単語列を処理するスレッドを廃棄す
    る、ことを特徴とする請求項6に記載の対話装置。
  8. 【請求項8】ユーザと会話を行なう対話制御方法であっ
    て、 ユーザの発話を入力する音声入力ステップと、 音声波形の強さの経時変化を取得するパワー・スペクト
    ル解析ステップと、 入力されたユーザ発話を音声認識して単語列に変換する
    音声認識ステップと、 音声認識された単語列に対する音声波形の強さを基に各
    単語の重要度の計算を行なう形態素解析ステップと、 単語列の解析結果に応じて応答文を作成する応答文作成
    ステップと、 作成された応答文に従って相槌を発する相槌処理ステッ
    プと、 パワー・スペクトルの解析結果に応じて前記の各処理ス
    テップに対する計算機資源の配分をコントロールする資
    源配分管理ステップと、を具備することを特徴とする対
    話制御方法。
  9. 【請求項9】前記資源配分管理ステップでは、パワー・
    スペクトルの強弱に応じて演算処理を活性化又は抑制す
    る、ことを特徴とする請求項8に記載の対話制御方法。
  10. 【請求項10】前記資源配分管理ステップでは、前記相
    槌処理ステップ、前記音声認識ステップ、前記形態素解
    析ステップ、前記応答文作成ステップの順で計算機資源
    を優先的に割り当てる、ことを特徴とする請求項8に記
    載の対話制御方法。
  11. 【請求項11】前記資源配分管理ステップでは、マルチ
    スレッド動作環境における各スレッドの優先順位を管理
    し、パワー・スペクトルの解析結果に応じてスレッドの
    優先順位を割り振る、ことを特徴とする請求項8に記載
    の対話制御方法。
  12. 【請求項12】前記資源配分管理ステップでは、マルチ
    スレッド動作環境における各スレッドの優先順位を管理
    し、相槌処理、音声認識、形態素解析、応答文作成、そ
    の他の非実時間処理の順でスレッドの優先順位を割り振
    る、ことを特徴とする請求項8に記載の対話制御方法。
  13. 【請求項13】前記資源配分管理ステップでは、単語列
    を音声認識する複数のスレッドが起動したときには、形
    態素解析により得られる各単語列の重要度に応じて各ス
    レッドの優先順位を割り振る、ことを特徴とする請求項
    8に記載の対話制御方法。
  14. 【請求項14】前記資源配分管理ステップでは、単語列
    を音声認識する複数のスレッドが起動中に、計算機負荷
    が過剰となったことに応答して形態素解析により得られ
    る重要度が低いと判断された単語列を処理するスレッド
    を廃棄する、ことを特徴とする請求項8に記載の対話制
    御方法。
  15. 【請求項15】ユーザとの対話を制御するための処理を
    コンピュータ・システム上で実行するように記述された
    コンピュータ・ソフトウェアをコンピュータ可読形式で
    物理的に格納した記憶媒体であって、前記コンピュータ
    ・ソフトウェアは、 ユーザの発話を入力する音声入力ステップと、 音声波形の強さの経時変化を取得するパワー・スペクト
    ル解析ステップと、 入力されたユーザ発話を音声認識して単語列に変換する
    音声認識ステップと、 音声認識された単語列に対する音声波形の強さを基に各
    単語の重要度の計算を行なう形態素解析ステップと、 単語列の解析結果に応じて応答文を作成する応答文作成
    ステップと、 作成された応答文に従って相槌を発する相槌処理ステッ
    プと、 パワー・スペクトルの解析結果に応じて前記の各処理ス
    テップに対する計算機資源の配分をコントロールする資
    源配分管理ステップと、を具備することを特徴とする記
    憶媒体。
  16. 【請求項16】ユーザとの対話を制御するための処理を
    コンピュータ・システム上で実行するように記述された
    コンピュータ・プログラムであって、 ユーザの発話を入力する音声入力ステップと、 音声波形の強さの経時変化を取得するパワー・スペクト
    ル解析ステップと、 入力されたユーザ発話を音声認識して単語列に変換する
    音声認識ステップと、 音声認識された単語列に対する音声波形の強さを基に各
    単語の重要度の計算を行なう形態素解析ステップと、 単語列の解析結果に応じて応答文を作成する応答文作成
    ステップと、 作成された応答文に従って相槌を発する相槌処理ステッ
    プと、 パワー・スペクトルの解析結果に応じて前記の各処理ス
    テップに対する計算機資源の配分をコントロールする資
    源配分管理ステップと、を具備することを特徴とするコ
    ンピュータ・プログラム。
JP2002002891A 2002-01-10 2002-01-10 対話装置及び対話制御方法、記憶媒体、並びにコンピュータ・プログラム Pending JP2003202895A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002002891A JP2003202895A (ja) 2002-01-10 2002-01-10 対話装置及び対話制御方法、記憶媒体、並びにコンピュータ・プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002002891A JP2003202895A (ja) 2002-01-10 2002-01-10 対話装置及び対話制御方法、記憶媒体、並びにコンピュータ・プログラム

Publications (1)

Publication Number Publication Date
JP2003202895A true JP2003202895A (ja) 2003-07-18

Family

ID=27642628

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002002891A Pending JP2003202895A (ja) 2002-01-10 2002-01-10 対話装置及び対話制御方法、記憶媒体、並びにコンピュータ・プログラム

Country Status (1)

Country Link
JP (1) JP2003202895A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005110726A (ja) * 2003-10-02 2005-04-28 Toshiba Corp 学習装置及びその方法
JP2005196134A (ja) * 2003-12-12 2005-07-21 Toyota Central Res & Dev Lab Inc 音声対話システム及び方法並びに音声対話プログラム
JP2006139134A (ja) * 2004-11-12 2006-06-01 Pioneer Electronic Corp 音声出力制御装置、音声出力制御システム、それらの方法、それらのプログラム、および、それらのプログラムを記録した記録媒体
JP2007301272A (ja) * 2006-05-15 2007-11-22 Sony Computer Entertainment Inc ゲーム装置及びゲーム制御方法
JP2007301271A (ja) * 2006-05-15 2007-11-22 Sony Computer Entertainment Inc ゲーム装置、ゲーム制御方法、及びゲーム制御プログラム
JP2009003040A (ja) * 2007-06-20 2009-01-08 Univ Waseda 音声対話装置、音声対話方法及びロボット装置
JP2009541800A (ja) * 2006-06-22 2009-11-26 マルチモダル テクノロジーズ,インク. 音声認識方法
JP2012058311A (ja) * 2010-09-06 2012-03-22 Alpine Electronics Inc 動的音声認識辞書の生成方法及びその生成装置
US8959102B2 (en) 2010-10-08 2015-02-17 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
JP2020024522A (ja) * 2018-08-06 2020-02-13 株式会社エルブズ 情報提供装置、情報提供方法およびプログラム
WO2020054451A1 (ja) * 2018-09-13 2020-03-19 株式会社Nttドコモ 対話装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005110726A (ja) * 2003-10-02 2005-04-28 Toshiba Corp 学習装置及びその方法
JP4729902B2 (ja) * 2003-12-12 2011-07-20 株式会社豊田中央研究所 音声対話システム
JP2005196134A (ja) * 2003-12-12 2005-07-21 Toyota Central Res & Dev Lab Inc 音声対話システム及び方法並びに音声対話プログラム
JP2006139134A (ja) * 2004-11-12 2006-06-01 Pioneer Electronic Corp 音声出力制御装置、音声出力制御システム、それらの方法、それらのプログラム、および、それらのプログラムを記録した記録媒体
JP2007301272A (ja) * 2006-05-15 2007-11-22 Sony Computer Entertainment Inc ゲーム装置及びゲーム制御方法
JP2007301271A (ja) * 2006-05-15 2007-11-22 Sony Computer Entertainment Inc ゲーム装置、ゲーム制御方法、及びゲーム制御プログラム
US9892734B2 (en) 2006-06-22 2018-02-13 Mmodal Ip Llc Automatic decision support
JP2009541800A (ja) * 2006-06-22 2009-11-26 マルチモダル テクノロジーズ,インク. 音声認識方法
US8321199B2 (en) 2006-06-22 2012-11-27 Multimodal Technologies, Llc Verification of extracted data
US8560314B2 (en) 2006-06-22 2013-10-15 Multimodal Technologies, Llc Applying service levels to transcripts
JP2009003040A (ja) * 2007-06-20 2009-01-08 Univ Waseda 音声対話装置、音声対話方法及びロボット装置
JP2012058311A (ja) * 2010-09-06 2012-03-22 Alpine Electronics Inc 動的音声認識辞書の生成方法及びその生成装置
US8959102B2 (en) 2010-10-08 2015-02-17 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
JP2020024522A (ja) * 2018-08-06 2020-02-13 株式会社エルブズ 情報提供装置、情報提供方法およびプログラム
WO2020054451A1 (ja) * 2018-09-13 2020-03-19 株式会社Nttドコモ 対話装置
JPWO2020054451A1 (ja) * 2018-09-13 2021-08-30 株式会社Nttドコモ 対話装置
JP7166350B2 (ja) 2018-09-13 2022-11-07 株式会社Nttドコモ 対話装置

Similar Documents

Publication Publication Date Title
US11869506B2 (en) Selectively generating expanded responses that guide continuance of a human-to-computer dialog
RU2352979C2 (ru) Синхронное понимание семантических объектов для высокоинтерактивного интерфейса
US9431005B2 (en) System and method for supplemental speech recognition by identified idle resources
US6513009B1 (en) Scalable low resource dialog manager
US20210142174A1 (en) Unified Endpointer Using Multitask and Multidomain Learning
JP2003202895A (ja) 対話装置及び対話制御方法、記憶媒体、並びにコンピュータ・プログラム
KR20210154849A (ko) 2-패스 방식의 종단간 음성 인식
JP2011504624A (ja) 自動同時通訳システム
US20120330667A1 (en) Speech synthesizer, navigation apparatus and speech synthesizing method
KR20220028128A (ko) 화자 종속 음성 모델(들)을 사용한 화자 인식
JP2023536563A (ja) 自動アシスタントとのユーザ対話を介したアプリケーション動作の取消し
Foster et al. Multimodal generation in the COMIC dialogue system
US11960852B2 (en) Robust direct speech-to-speech translation
JP4377718B2 (ja) 対話制御システム及び方法
JP7250180B2 (ja) グラフィカルユーザインターフェース内への内容の音声制御入力
WO2022203701A1 (en) Recurrent neural network-transducer model for performing speech recognition
Lee et al. Accelerating conversational agents built with off-the-shelf modularized services
US11915682B2 (en) Speech synthesis utilizing audio waveform difference signal(s)
US20240161729A1 (en) Speech synthesis utilizing audio waveform difference signal(s)
JPH0764583A (ja) テキスト読み上げ方法および装置
US20240029719A1 (en) Unified End-To-End Speech Recognition And Endpointing Using A Switch Connection
JP2011075870A (ja) 音声合成システム、音声合成装置及び音声合成プログラム
CN112669848B (zh) 一种离线语音识别方法、装置、电子设备及存储介质
US20230097338A1 (en) Generating synthesized speech input
US20240161743A1 (en) Selectively generating expanded responses that guide continuance of a human-to-computer dialog