JPH08339288A

JPH08339288A - 情報処理装置及びその制御方法

Info

Publication number: JPH08339288A
Application number: JP7147291A
Authority: JP
Inventors: Keiichi Sakai; 桂一酒井; Tsuyoshi Yagisawa; 津義八木沢; Minoru Fujita; 稔藤田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1995-06-14
Filing date: 1995-06-14
Publication date: 1996-12-24

Abstract

(57)【要約】【目的】応答文の形態およびその合成音声をタスク毎に
変化させることを可能とし、音声対話処理において利用
者にタスクが変わったことを認識させる。【構成】実行可能な複数のタスクを有する情報処理装置
（音声対話装置）において、複数のタスクのそれぞれに
対応して異なるエージェントが割り当てられ、エージェ
ント属性保持部１０８に格納される。一方、音声認識部
１０２で認識された入力文は入力文解析部１０３で解析
される。タスク判定部１０４はこの解析結果に基づいて
使用すべきタスクを決定し、上記入力文に基づく、実行
タスクに適応するコマンドを生成する。文生成部１０９
は、このコマンドを実行タスクで実行して得られた実行
結果に基づく応答文を生成する。この応答文は、当該実
行タスクに対応するエージェントの属性情報に従って形
成されるとともに、音声合成部１１０はこの応答文を上
記属性情報に従って音声合成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は複数のタスクを切り替え
ることで複数種類の処理の実行が可能な情報処理装置及
びその制御方法に関し、特に、音声対話装置への適用に
好適な情報処理装置及びその制御方法に関するものであ
る。

【０００２】

【従来の技術】近年の自然言語処理技術の向上、音声認
識／合成技術の向上により、複数のタスクを扱える音声
対話装置が実現されるようになってきた。この種の音声
対話装置においては、音声によって入力された情報に基
づいて処理すべきタスクを選択、起動し、起動されたタ
スクにより入力された情報に対応する処理が実行され
る。そして、この処理結果に基づいて、合成音声が生成
され、出力される。

【０００３】

【発明が解決しようとする課題】しかしながら、上記従
来の装置では、出力である応答文の形態および合成音声
が画一的であるため、利用者は、異なるタスクが起動さ
れたか否かをその音声出力から把握することはできなか
った。従って、利用者が音声対話装置の各タスクの能力
を把握できず、複数のタスクにまたがった処理を要求し
てしまう可能性がある。即ち、利用者は、音声対話装置
の能力を把握できず、タスクの複合を必要とする処理な
ど、当該音声対話装置の能力以上の処理を要求をしてし
まうという問題があった。

【０００４】本発明は、上記従来技術の問題に鑑みてな
されたものであり、タスク毎に出力される応答文の形態
を変化させることを可能とし、利用者にタスクが変わっ
たことを認識させることが可能な情報処理装置及びその
制御方法を提供することを目的とする。

【０００５】また、本発明の他の目的は、応答文の形態
およびその合成音声をタスク毎に変化させることを可能
とし、音声対話処理において利用者にタスクが変わった
ことを認識させる情報処理装置及びその制御方法を提供
することにある。

【０００６】また、利用者にタスクの切り替わりを認識
させることで、各タスクの能力を把握させ、これによ
り、利用者が音声対話装置の能力以上の要求を行うこと
を抑制する。

【０００７】

【課題を解決するための手段】上記の目的を達成するた
めの本発明の情報処理装置は以下の構成を備えている。
即ち、実行可能な複数のタスクを有する情報処理装置で
あって、前記複数のタスクのそれぞれに対応して異なる
生成情報を格納する格納手段と、入力文を解析して前記
複数のタスクの中から使用すべき実行タスクを決定する
決定手段と、前記入力文に基づいて前記決定手段で決定
された実行タスクに適応するコマンドを生成し、該コマ
ンドを該実行タスクで実行して実行結果を得る実行手段
と、前記格納手段に格納されている前記実行タスクに対
応する生成情報と前記実行手段で得られた実行結果とに
基づいて応答文を生成する生成手段と、前記生成手段で
生成された応答文を出力する出力手段とを備える。

【０００８】また、好ましくは、前記生成情報は、前記
生成手段で生成される応答文の文体を規定する。例え
ば、「です・ます調」、「である調」、「ございます
調」というように文体を変更することで、利用者は容易
にタスクの切り換えを認識できようになる。この場合、
応答文を音声出力しても表示出力しても利用者はタスク
の切り換えを認識できる。

【０００９】また、好ましくは、前記生成情報は、前記
生成手段で生成される応答文の表示色を規定する。表示
色の変化でタスクの切り換えを表すので、利用者は極め
て容易にタスクの切り換えを判断できる。

【００１０】また、好ましくは、前記出力手段は、前記
応答文に基づいて音声合成を行い、音声出力を行う。

【００１１】また、上記の目的を達成する本発明の他の
構成による情報処理装置は、実行可能な複数のタスクを
有する情報処理装置であって、前記複数のタスクのそれ
ぞれに対応して異なる生成情報を格納する格納手段と、
入力文を解析して前記複数のタスクの中から使用すべき
実行タスクを決定する決定手段と、前記入力文に基づい
て前記決定手段で決定された実行タスクに適応するコマ
ンドを生成し、該コマンドを該実行タスクで実行して実
行結果を得る実行手段と、前記格納手段に格納されてい
る前記実行タスクに対応する生成情報と前記実行手段で
得られた実行結果とに基づいて応答文を生成する生成手
段と、前記格納手段に格納されている前記実行タスクに
対応する生成情報と前記生成手段で生成された応答文と
に基づいて音声合成する合成手段とを備える。

【００１２】また、好ましくは、入力された音声信号に
基づいて入力文を生成する入力文生成手段を更に備え
る。音声によって入力文を入力でき、これに対する応答
文を音声合成する音声対話装置を構成できるからであ
る。

【００１３】また、好ましくは、前記応答文を表示する
表示手段を更に備える。応答文を視覚的に認識でき、タ
スクの切り換えをより容易に把握できる。

【００１４】また、好ましくは、前記生成情報は、前記
生成手段で生成される応答文の前記表示手段による表示
色を規定する。応答文の表示色で切り換えを認識でき、
より直観的にタスクの切り換えを判断できるからであ
る。

【００１５】また、好ましくは、前記生成情報は、前記
合成手段における音声合成処理の各パラメータを含む。

【００１６】

【作用】上記の構成によれば、実行可能な複数のタスク
を有する情報処理装置において、複数のタスクのそれぞ
れに対応して異なる生成情報が格納される。入力文を解
析することにより、複数のタスクの中から使用すべきタ
スクが実行タスクとして決定される。そして、入力文に
基づく、実行タスクに適応するコマンドが生成される。
このコマンドを実行タスクで実行することにより、当該
コマンドに対する実行結果（入力文に対応する応答に相
当する）を得る。そして、予め格納されている生成情報
の中から、実行タスクに対応する生成情報を得て、この
生成情報と上記実行結果とに基づいて応答文を生成し、
出力する。

【００１７】また、上記の他の構成によれば、実行可能
な複数のタスクを有する情報処理装置において、複数の
タスクのそれぞれに対応して異なる生成情報が格納され
る。入力文を解析することにより、複数のタスクの中か
ら使用すべきタスクが実行タスクとして決定される。そ
して、上記入力文に基づく、実行タスクに適応するコマ
ンドが生成される。このコマンドを実行タスクで実行す
ることによりして実行結果を得る。次に、予め格納され
ている生成情報の中から実行タスクに対応する生成情報
を得て、この生成情報と実行結果とに基づいて応答文を
生成する生成し、更に生成情報と応答文に基づいて音声
合成を行う。

【００１８】

【実施例】以下、添付の図面を参照して本発明の実施例
を詳細に説明する。

【００１９】図１は実施例の音声対話装置のブロック構
成を示すブロック図である。同図において、１０１は音
声入出力部であり、マイクより入力された音声をＡ／Ｄ
変換して当該装置内部に取り込む一方、生成された応答
をＤ／Ａ変換して、音声としてスピーカより出力する。
１０２は音声認識部であり、音声入出力部１０１より入
力された音声に対して音声認識を行い、入力文を生成す
る。１０３は文解析部であり、音声認識部１０２におい
て認識された入力文に対し、形態素解析、構文解析、意
味解析を行う。

【００２０】１０４はタスク判定部であり、文解析部１
０３における入力文の解析結果に基づいて実行するタス
クを判別し、実行するタスクに適応したコマンドを生成
する。タスク判別部１０４は、タスクを判別するための
タスク判別辞書３０１を保持している。本実施例では、
説明をわかりやすくするため２つのタスクを扱うものと
し、タスクＡを内線案内のデータベース検索（例えば、
ＳＱＬを用いて検索の行えるリレーショナルデータベー
ス）、タスクＢを観光案内の全文検索（例えばプレーン
テキスト（べた文字列）から条件とした文字列を含む文
書を検索するもの）とする。もちろん上記のデータベー
スの形態は一例であることは、いうまでもない。

【００２１】図３はタスク判別辞書３０１のデータ構成
例を示す図である。タスク判別部１０４では、文解析部
１０３で解析された解析結果中にタスク判別辞書３０１
に登録されている語が現れた場合に、そのタスクを扱う
ものとして、タスクを切り替える。例えば、「総務部の
鈴木部長の内線を知りたい。」という入力文についてタ
スク判定辞書３０１を参照すると、「総務部」、「部
長」、「内線」という語が存在するタスクＡが選択され
る。

【００２２】この結果、タスク判定部１０４は、タスク
Ａが解釈可能な、select（内線）from（内線テーブル）
where（名称＝鈴木、所属＝総務部、役職＝部長）とい
うコマンドを生成し、これをタスクＡに渡すことにな
る。

【００２３】同様に、「箱根町にある美術館を教え
て。」という入力文に対しては、タスク判定辞書３０１
の参照によりタスクＢが選択される。そして、タスク判
定部１０４はタスクＢが解釈可能な、（（Ｃ分類美術
館）（Ｃ所在地箱根町）（Ｒ名称？））というコマ
ンドを生成し、これをタスクＢに送ることになる。

【００２４】１０５はエージェント決定部であり、タス
ク判別部１０４で判別されたタスクに応じてエージェン
トを決定し、エージェントの切り替えを行う。１０６，
１０７は、それぞれ異なるタスクを実行するタスクＡ実
行部、タスクＢ実行部である。本例では、タスクＡ（内
線案内）に対しては「内線エージェント」が、タスクＢ
（観光案内）に対しては「観光エージェント」が夫々選
択されるとする。

【００２５】１０８はエージェント属性保持部であり、
性別、語調などの文生成情報、及び声の高さ、発声速度
などの合成音声情報をエージェントごとに属性として保
持するエージェント属性保持部である。図４はエージェ
ント属性保持部１０８におけるデータ格納状態を表す図
である。図４に示されているように、エージェント属性
保持部１０８には、エージェント決定部で決定される
「内線エージェント」と「観光エージェント」の夫々
に、文生成情報及び合成音声情報が格納されている。

【００２６】１０９は文生成部であり、エージェント決
定部１０５で決定されたエージェントの文生成情報をエ
ージェント属性保持部１０８より獲得し、これを参照し
てタスクＡ実行部１０６或はタスクＢ実行部１０７の実
行結果に基づく応答文を生成する。図５は応答文の生成
例を表す図である。図５では、上述のコマンドを用いた
対話例が示されいる。即ち、コマンドに含まれている検
索条件「鈴木」、「部長」、「内線」と、タスクＡの実
行結果として得られた内線番号（ここでは「１２３
４」）を用いるとともに、内線エージェントの文生成情
報（女性、ございます調）に基づいて応答文が生成され
る。もちろん、観光エージェントのように結果のみで応
答するようにしても良い。この場合、応答文は、「１２
３４でございます」となる。なお、タスクＢの実行結果
を出力する観光エージェントによる応答文も、上記内線
エージェントと同様である。

【００２７】１１０は音声合成部であり、エージェント
決定部１０５で決定されたエージェントの合成音声情報
をエージェント属性保持部１０８より獲得し、これを参
照して、文生成部１０９で生成された応答文の合成音声
を生成する。音声合成部１１０で生成された合成音声は
音声入出力部１０１のスピーカより音声として出力され
る。１１１は表示部であり、音声認識結果、対話の流
れ、タスクの実行結果、応答文などを出力する。上記に
おいて、女性、男性のエージェント属性は、文生成部１
０９では、応答文において女性の話し言葉、男性の話し
言葉のいずれを用いるかを設定するのに参照され、音声
合成部１１０では女性、男性の声を生成するための音素
データの設定に用いられる。

【００２８】次に図２のフローチャートを参照して、本
装置の動作を説明する。図２は実施例の音声対話装置の
制御手順を表すフローチャートである。

【００２９】まず、ステップＳ２０１では、音声入出力
部１０１よりの音声入力を待ち、音声入力が行われる
と、この入力情報を音声認識部１０２に送る。ステップ
Ｓ２０２では、音声認識部１０２により音声認識を行い
入力文を得る。また、この認識結果（入力文）を表示部
１１１に表示してステップＳ２０３に移る。ステップＳ
２０３では、文解析部１０３が、認識結果である入力部
に対して形態素解析、構文解析、意味解析を行い、ステ
ップＳ２０４に移る。ステップＳ２０４では、タスク判
別部１０４において、文解析部１０３で解析された解析
結果から実行するタスクを判別し、実行するタスクに対
応したコマンドを生成する。

【００３０】ステップＳ２０５では、エージェント決定
部１０５において、タスク判別部１０４で判別されたタ
スクに応じてエージェントを決定し、切り替える。ステ
ップＳ２０６では、タスク判別部１０４で判別されたタ
スク実行部（タスクＡ実行部１０６あるいはタスクＢ実
行部１０７のいずれか）において、ステップＳ２０４で
生成されたコマンドを実行し、ステップＳ２０７に移
る。

【００３１】ステップＳ２０７では、文生成部１０９
が、タスクＡ実行部１０６あるいはタスクＢ実行部１０
７で実行された実行結果から応答文を生成する。この応
答文の生成にあたって、文生成部１０９はエージェント
決定部１０５で決定されたエージェントの文生成情報を
エージェント属性保持部１０８より獲得し、この文生成
情報を参照しながら応答文を生成する。生成された応答
文は表示部１１１に表示すされるとともに、音声合成部
１１０に送られる。

【００３２】ステップＳ２０８では、音声合成部１１０
が、文生成部１０９で生成された応答文の合成音声を生
成する。この合成音声の生成にあたって、音声合成部１
１０はエージェント決定部１０５で決定されたエージェ
ントの合成音声情報を属性保持部１０８より獲得し、こ
の合成音声情報を参照する。生成された合成音声は音声
入出力部１０１でＤ／Ａ変換されてスピーカより出力さ
れる。その後、処理はステップＳ２０１へ戻る。

【００３３】以上述べたように、上記実施例の音声対話
装置によれば、性別、語調、声の高さ、発声速度などの
属性を与えたエージェント（担当者）をタスクごとに設
定し、タスクの切り替わりによってエージェントを切り
替えることが可能となる。すなわち、性別や語調（文生
成情報）に基づいて応答文を切り替え、声の高さや発声
速度（合成音声情報）に基づいて合成音声の音声を切り
替えることで、ユーザにタスクが変わったことを意識さ
せることができる。

【００３４】従ってユーザは１つのタスクによる処理範
囲を把握することが可能となり、これから与えようとす
る要求が複数のタスクを必要とするような当該音声対話
装置の能力を超えたものであるか否かを判断することが
可能となる。

【００３５】なお、上記実施例では、説明を簡潔にする
ために、扱うタスクを２つとして説明しているが、もち
ろん、３つ以上のタスクを扱うものにも適応できるもの
である。

【００３６】また、上記実施例では、エージェントごと
に切り替える応答文の属性として、性別、語調を用いた
がこれに限らない。応答文の属性として、例えば表示部
に表示する応答文の色や字体を用いることで、エージェ
ントの交代を表すようにしても構わない。

【００３７】また、上記実施例では、エージェントごと
に切り替える合成音声の属性として、声の高さ、発声速
度を用いたこれに限らない。他の例えば、学習音素デー
タや自然降下成分、ポーズ長などを用いることで、エー
ジェントの交代を表すようにしても構わない。

【００３８】また、上記実施例では、単一の文生成部に
対して属性を与えることによって異なる応答文を生成し
ているが、生成方式が単なる複数の文生成部を用意し、
エージェントごとに文生成部を切り替えることにより、
異なる応答文を生成するようにしても構わない。

【００３９】また、上記実施例では、単一の音声合成部
に対して属性を与えることによって異なる合成音声を生
成しているが、生成方式が異なる複数の音声合成部を用
意し、エージェントごとに合成音声部を切り替えること
により、異なる合成音声を生成するようにしても構わな
い。

【００４０】また、上記実施例では、タスクの切り換え
に伴って応答文の形態と合成音声の形態の両方を変化さ
せているが、何れか一方の形態を変化させるようにして
も良い。

【００４１】以上説明したように、本実施例によれば、
扱うタスクを複数持ち、入力された音声を認識、文解析
し、その解析結果からタスクを判定し、タスクごとに属
性を切り替えるエージェントを設定することで、応答文
および合成音声の切り替えを実現できる。

【００４２】尚、本発明は、複数の機器から構成される
システムに適用しても、１つの機器から成る装置に適用
しても良い。また、本発明はシステム或は装置にプログ
ラムを供給することによって達成される場合にも適用で
きることはいうまでもない。

【００４３】

【発明の効果】以上説明したように本発明によれば、タ
スク毎に出力される応答文の形態を変化させることが可
能となり、利用者にタスクが変わったことを認識させる
ことが可能となる。

【００４４】また、本発明によれば、応答文の形態およ
びその合成音声をタスク毎に変化させることが可能とな
り、音声対話処理において利用者にタスクが変わったこ
とを認識させることが可能となる。

【００４５】以上のように、利用者にタスクの切り替わ
りを認識させることで、各タスクの能力を把握させ、こ
れにより、利用者が音声対話装置の能力以上の要求を行
うことを抑制できる。

【００４６】

【図面の簡単な説明】

【図１】実施例の音声対話装置のブロック構成を示す図
である。

【図２】実施例の音声対話装置の制御手順を表すフロー
チャートである。

【図３】タスク判別辞書３０１のデータ構成例を示す図
である。

【図４】エージェント属性保持部１０８におけるデータ
格納状態を表す図である。

【図５】応答文の生成例を表す図である。

【符号の説明】

１０１音声入出力部１０２音声認識部１０３文解析部１０４タスク判別部１０５エージェント決定部１０６タスクＡ実行部１０７タスクＢ実行部１０８エージェント属性保持部１０９文生成部１１０音声合成部１１１表示部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｇ１０Ｌ 5/02 9289−5ＬＧ０６Ｆ 15/403 ３１０Ｚ

Claims

【特許請求の範囲】

【請求項１】実行可能な複数のタスクを有する情報処
理装置であって、前記複数のタスクのそれぞれに対応して異なる生成情報
を格納する格納手段と、入力文を解析して前記複数のタスクの中から使用すべき
実行タスクを決定する決定手段と、前記入力文に基づいて前記決定手段で決定された実行タ
スクに適応するコマンドを生成し、該コマンドを該実行
タスクで実行して実行結果を得る実行手段と、前記格納手段に格納されている前記実行タスクに対応す
る生成情報と前記実行手段で得られた実行結果とに基づ
いて応答文を生成する生成手段と、前記生成手段で生成された応答文を出力する出力手段と
を備えることを特徴とする情報処理装置。
【請求項２】前記生成情報は、前記生成手段で生成さ
れる応答文の文体を規定することを特徴とする請求項１
に記載の情報処理装置。
【請求項３】前記生成情報は、前記生成手段で生成さ
れる応答文の表示色を規定することを特徴とする請求項
１に記載の情報処理装置。
【請求項４】前記出力手段は、前記応答文に基づいて
音声合成を行い、音声出力を行うことを特徴とする請求
項１に記載の情報処理装置。
【請求項５】実行可能な複数のタスクを有する情報処
理装置であって、前記複数のタスクのそれぞれに対応して異なる生成情報
を格納する格納手段と、入力文を解析して前記複数のタスクの中から使用すべき
実行タスクを決定する決定手段と、前記入力文に基づいて前記決定手段で決定された実行タ
スクに適応するコマンドを生成し、該コマンドを該実行
タスクで実行して実行結果を得る実行手段と、前記格納手段に格納されている前記実行タスクに対応す
る生成情報と前記実行手段で得られた実行結果とに基づ
いて応答文を生成する生成手段と、前記格納手段に格納されている前記実行タスクに対応す
る生成情報と前記生成手段で生成された応答文とに基づ
いて音声合成する合成手段とを備えることを特徴とする
情報処理装置。
【請求項６】入力された音声信号に基づいて入力文を
生成する入力文生成手段を更に備えることを特徴とする
請求項５に記載の情報処理装置。
【請求項７】前記生成情報は、前記生成手段で生成さ
れる応答文の文体を規定する情報を含むことを特徴とす
る請求項５に記載の情報処理装置。
【請求項８】前記応答文を表示する表示手段を更に備
えることを特徴とする請求項５に記載の情報処理装置。
【請求項９】前記生成情報は、前記生成手段で生成さ
れる応答文の前記表示手段による表示色を規定すること
を特徴とする請求項８に記載の情報処理装置。
【請求項１０】前記生成情報は、前記合成手段におけ
る音声合成処理の各パラメータを含むことを特徴とする
請求項５に記載の情報処理装置。式。
【請求項１１】実行可能な複数のタスクを有する情報
処理装置の制御方法であって、前記複数のタスクのそれぞれに対応して異なる生成情報
を格納する格納工程と、入力文を解析して前記複数のタスクの中から使用すべき
実行タスクを決定する決定工程と、前記入力文に基づいて前記決定工程で決定された実行タ
スクに適応するコマンドを生成し、該コマンドを該実行
タスクで実行して実行結果を得る実行工程と、前記格納工程で格納された前記実行タスクに対応する生
成情報と前記実行工程で得られた実行結果とに基づいて
応答文を生成する生成工程と、前記生成工程で生成された応答文を出力する出力工程と
を備えることを特徴とする制御方法。
【請求項１２】実行可能な複数のタスクを有する情報
処理装置の制御方法であって、前記複数のタスクのそれぞれに対応して異なる生成情報
を格納する格納工程と、入力文を解析して前記複数のタスクの中から使用すべき
実行タスクを決定する決定工程と、前記入力文に基づいて前記決定工程で決定された実行タ
スクに適応するコマンドを生成し、該コマンドを該実行
タスクで実行して実行結果を得る実行工程と、前記格納工程にて格納された前記実行タスクに対応する
生成情報と前記実行工程で得られた実行結果とに基づい
て応答文を生成する生成工程と、前記格納工程にて格納された前記実行タスクに対応する
生成情報と前記生成工程で生成された応答文とに基づい
て音声合成する合成工程とを備えることを特徴とする制
御方法。