JP2024092451A

JP2024092451A - 対話支援システム、対話支援方法、およびコンピュータプログラム

Info

Publication number: JP2024092451A
Application number: JP2022208380A
Authority: JP
Inventors: 達也河原; 昂治井上
Original assignee: Kyoto University
Current assignee: Kyoto University
Filing date: 2022-12-26
Publication date: 2024-07-08

Abstract

【課題】応対者が複数の相手と同時に対話する際のこれらの相手の待ち時間を短くする。
【解決手段】複数の相手それぞれの対話の活性度または優先度を算出して、複数の相手それぞれに対して応対者が応答すべきか自律的に応答すべきかをそれぞれの活性度または優先度に基づいて決定する応答者決定部１４６と、応対者が応答すべきであると決定された相手の発言に応答するように応対者へ指令する応答指令部１４７と、自律的に応答すべきと決定された相手の発言に対するセンテンスである自律応答を生成する応答センテンス決定部１４８と、応対者が応答すべきと決定された相手に対して、応対者から得られたセンテンスであるオペレータ応答を与え、自律的に応答すべきと決定された相手に対して、応答センテンス決定部１４８によって生成された自律応答を与える、言動データ送信部１４２とを、サーバ１に設ける。
【選択図】図４

Description

本発明は、応対者が１人で同時に複数の相手と音声で対話するのを支援する技術に関する。

従来、医療介護施設、展示施設、店舗や様々なサービス施設、およびコールセンタなど様々な場所または場面において、対面または電話で対話するサービスが数多くあり、近年の新型コロナウイルス感染症の世界的な流行以来、電子会議システムで対話する機会も急増している。これらの場所または場面の例では、対話者をホスト（応対者またはオペレータ）とゲスト（顧客）とに分けることができる。例えば、コールセンタの場合は、商品またはサービスの提供者のスタッフがホストであり、問合せ者がゲストである。ゲストの人数が増えるにつれて、ホストが対応できなくなり、ゲストの待ち時間が長くなる。

そこで、ＡＩ（Artificial Intelligence）チャットボットが提案され、実用化されている。ＡＩチャットポットによると、ホストは、機械学習によって予め生成したＡＩを用いてゲストからの質問に回答することができる。そのほか、ルールベース型のチャットポットが実用化されている。

しかし、質問の内容は千差万別であり、ＡＩチャットポットがすべてに応答するには限界があり、ゲストのストレスの一因にもなっている。また、質問応答以外に、おしゃべりをするような場合でも、システムの応答はそっけなく、ゲストの満足度は低い。ＡＩチャットポットからから人間のスタッフへ引き継ぐこともできるが、対話の途中でかなりの間延びが生じることになり、テキストチャットの場合はともかく、音声対話の場合にはかなり不自然な中断となる。

そのほか、次のような技術が提案されている。特許文献１に記載される警備システムは、複数の監視表示装置と、複数の監視表示装置と通信可能に接続された管理装置とを有する警備システムであって、監視表示装置のそれぞれは、立哨する警備員を模したキャラクタの画像を表示し、監視空間を撮像し、監視空間内の人物を検知し、キャラクタに人物と対話させることによって第１応対を行い、対話の対話状況を特定し、撮像された画像と対話状況とを対応付けて管理装置に送信し、管理装置は、各監視表示装置から受信した画像と対話状況とをそれぞれ対応付けて表示する。さらに、前記複数の監視表示装置のそれぞれは、前記検知された人物の動作及び発話又は前記対話に関する所定の切替条件が満たされるか否かを判定する判定部をさらに備え、前記送信部は、前記切替条件が満たされると判定された場合、前記第１応対から前記管理装置を操作するオペレータとの通話による第２応対への切替要求を前記管理装置に送信し、前記管理装置は、前記監視表示装置を介して前記検知された人物との前記通話を可能とする通話部と、受信した前記切替要求に基づいて前記第２応対への切替処理を行う第２応対部と、を備え、前記第２表示部は、前記切替要求を受信した場合に、当該切替要求を送信した監視表示装置から受信した画像に、前記対話状況を対応付けて表示する。

このように、この警備システムは、複数の人物と同時に対話を自律的に行いつつ、切替条件が満たされた人物については対話の相手をオペレータへ切り替える。ただし、対話サービスを行うものでなく、対話がしばらく中断もしくは中止しても支障はない。

特許文献２に記載される情報処理装置は、インタラクション部と、検知部と、変更部とを備える。インタラクション部は、端末装置のユーザとの端末装置を利用した対話によるインタラクションを行う。検知部は、インタラクションの局面の遷移を検知する。変更部は、検知部によって局面の遷移が検知された場合に、インタラクション部によるインタラクションの態様を変更させる。さらに、前記変更部は、前記ネガティブな局面の打開策となる情報として、前記ユーザとの対話の相手を前記インタラクション部からオペレータへ切り替えることを示す情報を前記端末装置へ出力するように前記インタラクションの態様を変更させる。

このように、この情報処理装置は、ユーザとのインタラクションを自律的に行うが、ネガティブな局面になるとオペレータにインタラクションを行わせる。

特開２０２２－１１１１２８号公報特開２０１８－１５６４７５号公報

上述の通り、最初はゲストとの対話の相手をＡＩ等のコンピュータに担当させ、手動または自動でオペレータ（ホスト）に担当させる技術が従来、提案されている。

しかし、特許文献１、２に記載されるような従来の技術によると、１人のオペレータが複数のユーザと同時に対話を行うことが不可能であり想定もされていないので、時間が経過するにつれてオペレータが担当すべき相手が徐々に増えていく。つまり、従来の技術によると、オペレータが１人で同時に複数の相手と音声で対話するのを十分に支援できていない。結果として、相手を待たせる時間が長くなり、相手の対話意欲が大きく減退する。

本発明は、このような問題点に鑑み、応対者（ホスト、オペレータ）が１人で複数の相手と同時に対話する際にこれらの相手を待たせる時間を従来よりも短くすることを目的とする。

本発明の一形態に係る対話支援システムは、１人の応対者が複数の相手と音声で対話するのを支援する対話支援システムであって、前記応対者と前記複数の相手それぞれとが対話している際に、所定または任意のタイミングごとに当該複数の相手それぞれの対話の活性の度合を算出する算出手段と、前記複数の相手それぞれについて、前記応対者が応答すべきであるか自律的に応答すべきであるかを当該複数の相手それぞれの前記度合に基づいて決定する決定手段と、前記複数の相手のうちの前記応対者が応答すべきであると決定された相手の発言に応答するように前記応対者へ指令する指令手段と、前記複数の相手のうちの自律的に応答すべきであると決定された相手の発言に対するセンテンスである自律応答を生成する生成手段と、前記複数の相手のうちの前記応対者が応答すべきであると決定された相手に対しては、当該相手のために当該応対者から得られたセンテンスであるオペレータ応答を与え、自律的に応答すべきであると決定された相手に対しては、当該相手のために前記生成手段によって生成された前記自律応答を与える、応答手段と、を有することを特徴とする。

本発明によると、応対者が１人で複数の相手と同時に対話する際にこれらの相手を待たせる時間を従来よりも短くすることができる。

音声対話支援システムの全体的な構成の例を示す図である。サーバのハードウェア構成の例を示す図である。オペレータ端末のハードウェア構成の例を示す図である。サーバの機能的構成の例を示す図である。オペレータ端末およびユーザ端末それぞれの機能的構成の例を示す図である。対話状況画面の例を示す図である。アバター画面の例を示す図である。対話履歴データの例を示す図である。対話状況画面において応答者アイコンの態様が変化した際の様子の例を示す図である。応答センテンス決定部の構成の例を示す図である。対話支援プログラムによって実現される全体的な処理の流れの例を説明するフローチャートである。点数リストの例を示す図である。質問への回答を支援する処理の流れの例を説明するフローチャートである。質問データの例および待機リストの遷移の例を示す図である。

〔１．全体の構成〕
図１は、音声対話支援システム４の全体的な構成の例を示す図である。図２は、サーバ１のハードウェア構成の例を示す図である。図３は、オペレータ端末２のハードウェア構成の例を示す図である。

音声対話支援システム４は、ホストが１人で複数のゲストと同時に対話するのを支援するシステムであって、図１に示すように、サーバ１、１台または複数台のオペレータ端末２、複数台のユーザ端末３、および通信回線４００などによって構成される。以下、各オペレータ端末２を「オペレータ端末２１」、「オペレータ端末２２」、…と区別して記載することがある。同様に、各ユーザ端末３を「ユーザ端末３１」、「ユーザ端末３２」…と区別して記載することがある。

サーバ１と、各オペレータ端末２および各ユーザ端末３とは、通信回線４００を介して互いに接続される。通信回線４００として、インターネット、ＬＡＮ（Local Area Network）回線、固定電話回線、または携帯電話回線などが用いられる。

ホストは、各ゲストとの対話をオペレーションする。そこで、以下、ホストを「オペレータ」と記載する。また、ゲストは、音声対話支援システム４によって提供される対話サービスを使用する。そこで、以下、ゲストを「ユーザ」と記載する。

ユーザによる発言への応答は、オペレータが行ったり、サーバ１がＡＩ（Artificial Intelligence）によって行ったりする。したがって、サーバ１は、ハイブリッド型の対話システムのためのサーバであると言える。サーバ１として、いわゆるサーバ機またはクラウドサーバが用いられる。以下、サーバ１としてサーバ機が用いられる場合を例に説明する。

サーバ１は、図１または図２に示すように、サーバ本体１０、ディスプレイ１１、キーボード１２、およびポインティングデバイス１３などによって構成される。サーバ本体１０は、図２に示すように、メインプロセッサ１０１、ＲＡＭ（Random Access Memory）１０２、ＲＯＭ（Read Only Memory）１０３、補助記憶装置１０４、ネットワークアダプタ１０５、および入出力インタフェース１０６などによって構成される。

ＲＯＭ１０３または補助記憶装置１０４には、対話支援プログラム１４（図４参照）がインストールされている。対話支援プログラム１４は、ＲＡＭ１０２にロードされ、メインプロセッサ１０１によって実行される。

ネットワークアダプタ１０５は、ＮＩＣ（Network Interface Card）などの通信装置であって、オペレータ端末２およびユーザ端末３などと通信するために用いられる。

入出力インタフェース１０６は、ＵＳＢ（Universal Serial Bus）などの規格に対応した入出力ボードであって、ディスプレイ１１、キーボード１２、およびポインティングデバイス１３が接続される。

ディスプレイ１１は、コマンドまたは情報を入力するための画面およびメインプロセッサ１０１による処理の実行結果を示す画面などを表示する。キーボード１２およびポインティングデバイス１３は、コマンドまたは情報を入力するために用いられる。

オペレータ端末２は、オペレータが複数のユーザと対話するために使用する端末装置である。オペレータ端末２として、ノート型パーソナルコンピュータ、タブレットコンピュータ、またはスマートフォンなどが用いられる。以下、オペレータ端末２としてノート型パーソナルコンピュータが用いられる場合を例に説明する。

オペレータ端末２は、図３に示すように、メインプロセッサ２００、ＲＡＭ２０１、ＲＯＭ２０２、補助記憶装置２０３、ネットワークアダプタ２０４、ディスプレイ２０５、キーボード２０６、ポインティングデバイス２０７、デジタルビデオカメラ２０８、および音声ユニット２０９などによって構成される。

ＲＯＭ２０２または補助記憶装置２０３には、オペレータ用プログラム２４（図５参照）がインストールされている。オペレータ用プログラム２４は、ＲＡＭ２０１にロードされ、メインプロセッサ２００によって実行される。

ネットワークアダプタ２０４は、ＮＩＣなどの通信装置であって、サーバ１などと通信するために用いられる。ディスプレイ２０５は、コマンドまたは情報を入力するための画面およびメインプロセッサ２００による処理の実行結果を示す画面などを表示する。キーボード２０６およびポインティングデバイス２０７は、コマンドまたは情報を入力するために用いられる。

デジタルビデオカメラ２０８は、オペレータの上半身を撮影し、その画像または動画像のデータを生成する。

音声ユニット２０９は、音声ボード、スピーカ、およびマイクなどによって構成される。マイクがオペレータの音声を集音し、音声ボードがその音声を音声データに変換する。または、サーバ１から送信されてきた音声データに基づいて音声ボードがユーザの音声に変換し、スピーカがユーザの音声を出力する。

ユーザ端末３は、ユーザがオペレータと対話するために使用する端末装置である。ユーザ端末３として、ノート型パーソナルコンピュータ、タブレットコンピュータ、またはスマートフォンなどが用いられる。以下、ユーザ端末３としてノート型パーソナルコンピュータが用いられる場合を例に説明する。したがって、ユーザ端末３のハードウェア構成も、図３に示した、オペレータ端末２のハードウェア構成と基本的に同様である。ただし、ＲＯＭ２０２または補助記憶装置２０３には、ユーザ用プログラム３４（図５参照）がインストールされている。

なお、対話支援プログラム１４をサーバ１へインストールする作業は、管理者によって行われる。オペレータ用プログラム２４をオペレータ端末２へインストールする作業は、管理者が行ってもよいしオペレータが行ってもよい。同様に、ユーザ用プログラム３４をユーザ端末３へインストールする作業は、管理者が行ってもよいしユーザが行ってもよい。

〔２．オペレータと複数のユーザとの同時の対話の支援の仕組み〕
図４は、サーバ１の機能的構成の例を示す図である。図５は、オペレータ端末２およびユーザ端末３それぞれの機能的構成の例を示す図である。

次に、１人のオペレータが複数のユーザと同時に対話するのを音声対話支援システム４によって支援する具体的な仕組みについて説明する。

対話支援プログラム１４によると、図４に示す対話履歴データ記憶部１４０、アバター制御部１４１、言動データ送信部１４２、音声生成部１４３、音声認識部１４４、ユーザ状況データ送信部１４５、応答者決定部１４６、応答指令部１４７、および応答センテンス決定部１４８などの機能がサーバ１に実現される。

オペレータ用プログラム２４によると、図５に示す対話状況画面表示部２４１、ユーザ音声出力部２４２、およびオペレータ音声送信部２４３などの機能がオペレータ端末２に実現される。また、ユーザ用プログラム３４によると、アバター画面表示部３４１、オペレータ音声出力部３４２、およびユーザデータ送信部３４３などの機能がユーザ端末３に実現される。

以下、ある１人のオペレータ２８１（図１参照）が３人のユーザ３８１、３８２、３８３と同時に対話する場合を例に、図４～図５の各部の処理を説明する。オペレータ２８１は、オペレータ端末２１を使用し、ユーザ３８１、３８２、および３８３は、それぞれ、ユーザ端末３１、３２、および３３を使用するものとする。

〔２．１オペレータ端末２およびユーザ端末３の基本的な処理〕
〔２．１．１画面の構成〕
図６は、対話状況画面５１の例を示す図である。図７は、アバター画面５３の例を示す図である。

オペレータ端末２１において、対話状況画面表示部２４１（図５参照）は、図６のような対話状況画面５１をディスプレイ２０５に表示させる。

対話状況画面５１は、オペレータ２８１が担当するユーザごとに１つずつ小ウィンドウ５２が設けられる。本例では、ユーザ３８１、３８２、３８３をオペレータ２８１が担当するので、それぞれの小ウィンドウ５２として、小ウィンドウ５２１、５２２、５２３が設けられる。

それぞれの小ウィンドウ５２は、動画像領域５２ａ、スクリプト領域５２ｂ、および応答者アイコン５２ｃなどによって構成される。

動画像領域５２ａには、ユーザ端末３において撮影された、ユーザの上半身の動画像が配置される。例えば、小ウィンドウ５２１の動画像領域５２ａには、ユーザ端末３１において撮影された、ユーザ３８１の上半身の動画像が配置される。

スクリプト領域５２ｂには、オペレータ２８１とユーザとの対話のセンテンスを表わすスクリプト（テキスト）が配置される。例えば、小ウィンドウ５２１のスクリプト領域５２ｂには、オペレータ２８１とユーザ３８１との対話のスクリプトが配置される。初期の状態においては、スクリプト領域５２ｂには何も配置されず、対話が進むにつれてスクリプトがタイムラインのように増えていく。

応答者アイコン５２ｃは、ユーザの発言に対してＡＩが応答すべきかオペレータ２８１が応答すべきかを区別するためのアイコンである。本実施形態では、ＡＩが応答すべきである場合は、応答者アイコン５２ｃとして白いマイクを表わすアイコンが配置され、オペレータ２８１が応答すべきである場合は、応答者アイコン５２ｃとして赤いマイクを表わすアイコンが配置される。例えば、ユーザ３８１の発言に対してＡＩが応答すべきである場合は、小ウィンドウ５２１の応答者アイコン５２ｃとして白いマイクを表わすアイコンが配置される。

なお、動画像のデータおよびスクリプトのデータは、サーバ１からオペレータ端末２１へ適宜、送信されてくる。これについては、後述する。

ユーザ端末３１において、アバター画面表示部３４１（図５参照）は、図７（Ａ）のようなアバター画面５３をディスプレイに表示させる。アバター画面５３には、ユーザ３８１のアバター２９のアニメーションが再生される。

同様に、ユーザ端末３２において、アバター画面表示部３４１は、アバター２９のアニメーションを再生するために、図７（Ｂ）のようなアバター画面５３をディスプレイに表示させる。また、ユーザ端末３３において、アバター画面表示部３４１は、アバター２９のアニメーションを再生するために、図７（Ｃ）のような、アバター画面５３をディスプレイに表示させる。

ただし、オペレータ２８１は、各ユーザに応対するためのアバター２９を１つずつ有している。したがって、本例では、３つのアバター２９を有している。以下、ユーザ３８１、３８２、および３８３それぞれに応対するためのアバター２９を「アバター２９１」、「アバター２９２」、および「アバター２９３」と区別して記載することがある。また、ユーザ端末３１、３２、および３３それぞれのアバター画面５３を「アバター画面５３１」、「アバター画面５３２」、および「アバター画面５３３」と区別して記載することがある。

なお、アバター２９のデータおよびスクリプトのデータは、サーバ１からユーザ端末３１、３２、３３へ適宜、送信されてくる。これについては、後述する。

〔２．１．２音声の出力〕
オペレータ端末２１において、ユーザ音声出力部２４２（図５参照）は、ユーザ３８１、３８２、３８３それぞれの音声を音声ユニット２０９から選択的に出力させる。なお、ユーザ３８１、３８２、３８３それぞれの音声のデータは、サーバ１からオペレータ端末２１へ適宜、送信されてくる。これについては、後述する。

ユーザ端末３１において、オペレータ音声出力部３４２は、ユーザ３８１に対してオペレータ２８１が発した音声を音声ボードから出力させる。同様に、ユーザ端末３２において、オペレータ音声出力部３４２は、ユーザ３８２に対してオペレータ２８１が発した音声を音声ボードから出力させる。ユーザ端末３３において、オペレータ音声出力部３４２は、ユーザ３８３に対してオペレータ２８１が発した音声を音声ボードから出力させる。

ただし、オペレータ２８１の音声の代わりにＡＩが決定した言葉を表わす音声が出力されることがある。オペレータ２８１の音声のデータは、サーバ１からユーザ端末３１、３２、３３へ適宜、送信されてくる。これについては、後述する。

〔２．１．３動画像および音声の収録〕
オペレータ端末２１において、オペレータ２８１が発した音声は、音声ユニット２０９によって音声データ６１に変換される。そして、オペレータ音声送信部２４３（図５参照）は、音声データ６１をサーバ１へ送信する。

ユーザ端末３１において、ユーザ３８１が発した音声は、音声ボードによって音声データ６２に変換される。そして、ユーザデータ送信部３４３は、音声データ６２をサーバ１へ送信する。同様に、ユーザ端末３２において、ユーザ３８２の音声の音声データ６２がユーザ３８１によってサーバ１へ送信される。また、ユーザ端末３３において、ユーザ３８３の音声の音声データ６２がユーザ３８１によってサーバ１へ送信される。以下、ユーザ３８１、３８２、および３８３それぞれの音声データ６２を「音声データ６２１」、「音声データ６２２」、および「音声データ６２３」と区別して記載することがある。

また、ユーザ端末３１において、デジタルビデオカメラは、ユーザ３８１の上半身を撮影する。そして、ユーザデータ送信部３４３は、その動画像の動画像データ６３をサーバ１へ送信する。なお、音声データ６２と動画像データ６３とをＭＰ４のようなマルチメディアコンテナに格納して送信してもよい。

同様に、ユーザ端末３２において、デジタルビデオカメラは、ユーザ３８２の上半身を撮影し、ユーザデータ送信部３４３は、その動画像の動画像データ６３をサーバ１へ送信する。ユーザ端末３３において、デジタルビデオカメラは、ユーザ３８３の上半身を撮影し、ユーザデータ送信部３４３は、その動画像の動画像データ６３をサーバ１へ送信する。以下、ユーザ３８１、３８２、および３８３それぞれの動画像データ６３を「動画像データ６３１」、「動画像データ６３２」、および「動画像データ６３３」と区別して記載することがある。

〔２．２サーバ１の処理〕
〔２．２．１履歴の保存〕
図８は、対話履歴データ６４の例を示す図である。

サーバ１において、対話履歴データ記憶部１４０（図４参照）には、図８に示すように、オペレータとユーザとの対話ごとの対話履歴データ６４が予め用意され、記憶されている。本例では、オペレータ２８１とユーザ３８１、３８２、および３８３それぞれとの対話が行われるので、３つの対話履歴データ６４が対話履歴データ記憶部１４０に記憶されている。以下、ユーザ３８１、３８２、および３８３それぞれとの対話の対話履歴データ６４を「対話履歴データ６４１」、「対話履歴データ６４２」、および「対話履歴データ６４３」と区別して記載することがある。

対話履歴データ６４には、発言ごとの時刻（発言時刻）、発言者、およびセンテンスが示される。活性度スコアを使用する場合は、さらに、点数が示される。活性度スコアおよび点数それぞれの意味については、後述する。

〔２．２．２ユーザへの発言（対話の開始時）〕
ユーザ３８１～３８３への発言は、オペレータ２８１またはＡＩによって、主に対話の開始時およびユーザの発言に対する応答時に行われる。ここでは、対話の開始時における処理について説明し、ユーザの発言に対する応答時における処理については後述する。

対話の開始時にオペレータ２８１がオペレータ端末２１に向かって発言すると、上述の通り、オペレータ２８１の音声のデータが音声データ６１としてオペレータ端末２１のオペレータ音声送信部２４３（図５参照）によってサーバ１へ送信される。ただし、オペレータ２８１は予め、ユーザ３８１～３８３のうちの今回の発言の相手を指定しておく。１人だけでなく複数人、指定することもできる。

すると、サーバ１において、アバター制御部１４１は、音声データ６１に基づいて今回の発言のセンテンスに合うようにアバター２９を動作させるための制御データ６５を生成する。

そして、言動データ送信部１４２は、音声データ６１および制御データ６５を、オペレータ２８１によって指定されたユーザのユーザ端末３へ送信する。

例えば、今回の発言の相手がユーザ３８２であり、発言のセンテンスが「こんにちは、お元気ですか。」である場合は、アバター制御部１４１は、「こんにちは、お元気ですか。」と発言しているかのようにアバター２９２を動作させるデータを制御データ６５として生成する。そして、言動データ送信部１４２は、音声データ６１および制御データ６５をユーザ端末３２へ送信する。

対話の開始時に、オペレータ２８１に発言させる代わりに、予め決められたセンテンスを次のようにユーザ３８１～３８３へ与えてもよい。

音声生成部１４３は、予め決められたセンテンスの音声データを、オペレータ２８１の声色に合わせて（声音を真似て）生成する。これは、公知の音声合成技術（音声読上げ技術）によって実現することができる。音声合成技術にはＡＩが用いられているので、音声生成部１４３はＡＩの１つであると言える。アバター制御部１４１は、そのセンテンスを発言しているかのようにアバター２９を動作させるデータを制御データ６５として生成する。

そして、言動データ送信部１４２は、生成された音声データを音声データ６１として、制御データ６５とともに、対話を開始する相手のユーザ端末３へ送信する。

ユーザ端末３において、音声データ６１および制御データ６５がサーバ１から送信されてくると、オペレータ音声出力部３４２は、音声データ６１に基づいて音声を出力し、アバター画面表示部３４１は、音声と同期させて制御データ６５に基づいてアバター２９を動作させる。

その結果、例えば、オペレータ２８１が上述の通りユーザ３８２に対して「こんにちは、お元気ですか。」と発言した場合は、ユーザ端末３２において、オペレータ音声出力部３４２は、「こんにちは、お元気ですか。」という音声を音声ユニットによって出力させ、アバター画面表示部３４１は、「こんにちは、お元気ですか。」と発言しているようにアバター２９２（図７（Ｂ）参照）を動作させる。

〔２．２．３ユーザの発言等の提示〕
ユーザ３８１～３８３は、それぞれ、オペレータ２８１の発言が音声として出力されると自らのユーザ端末３に向かって応答する。例えば、ユーザ３８２は、ユーザ端末３２から「こんにちは、お元気ですか。」と出力されると、ユーザ端末３２に向かって「一昨日から風邪気味です。」または「はい、元気です。」などのように発言することによって応答する。

すると、上述の通り、ユーザデータ送信部３４３（図５参照）によって、ユーザが発した音声が音声データ６２としてサーバ１へ送信される。また、対話中（厳密には、対話の開始の少し前から対話の終了後少し経過するまで間）、ユーザの動画像が動画像データ６３としてサーバ１へ送信される。

サーバ１において、音声認識部１４４（図４参照）は、対話中、音声データ６２を公知の音声認識技術によってテキスト化する。すなわち、音声データ６２の音声（発言）のセンテンスを認識し、それを表わすテキストデータを生成する。そして、音声データ６２の送信元であるユーザ端末３のユーザに対応する対話履歴データ６４（図８参照）へそのセンテンスを追記する。この際に、発言時刻および発言者も一緒に追記する。なお、ここではユーザ同士を識別する必要がないので、発言者を単に「ユーザ」と追記すればよい。点数は、追記されない。

これにより、対話中、対話履歴データ６４１、６４２、および６４３のそれぞれに、ユーザ３８１、３８２、および３８３の発言のセンテンスが、発言の時刻および発言者とともに記録されていく。

ユーザ状況データ送信部１４５は、ユーザ端末３１～３３のそれぞれから送信されてくる音声データ６２および動画像データ６３をオペレータ端末２へ転送する。さらに、発言のセンテンスが音声認識部１４４によって認識されテキストデータが生成されるごとに、そのテキストデータを発言テキストデータ６６としてオペレータ端末２へ送信する。ただし、音声データ６２および動画像データ６３は、ユーザ端末３１～３３のうちの送信元であるユーザ端末３のユーザの識別子と対応付けてオペレータ端末２へ転送される。また、発言テキストデータ６６は、ユーザ端末３１～３３のうち発言者であるユーザの識別子と対応付けてオペレータ端末２へ送信される。

オペレータ端末２において、対話状況画面表示部２４１（図５参照）は、ユーザ３８１、３８２、および３８３それぞれに対応する動画像データ６３（６３１、６３２、６３３）に基づいて、ユーザ３８１、３８２、および３８３それぞれの動画像を対話状況画面５１の動画像領域５２ａ、５２ｂ、および５３ｃで再生させる。さらに、発言テキストデータ６６を受信するごとに、その発言テキストデータ６６に対応するユーザのスクリプト領域５２ｂに、その発言テキストデータ６６に示される発言のセンテンスのテキスト（最新のテキスト）を配置する。ただし、既に過去の発言のセンテンスのテキスト（古いテキスト）が配置されている場合は、その直下に配置する。この際に適宜、古いテキストを上方へスクロールさせる。

ユーザ音声出力部２４２は、音声データ６２に基づいて音声を出力させる。ただし、ユーザ３８１～３８３のうちオペレータ２８１が指定したユーザの音声のみを出力させる。したがって、例えば、オペレータ２８１がユーザ３８２を指定した場合は、音声データ６２２に基づいて音声を出力させる。

〔２．２．４応答者の決定〕
サーバ１において、応答者決定部１４６（図４参照）は、ユーザの発言に対してオペレータ２８１が応答すべきかＡＩが応答すべきかを、後述するように、活性度スコア、優先度、または所定の語句の出現の有無などに基づいて決定する。すなわち、活性度スコアが最も低いユーザに対してオペレータが応答するよう、あるいは優先度が最も高い質問に対してオペレータが回答するように指示する。

〔２．２．５ユーザの発言に対する応答〕
図９は、対話状況画面５１において応答者アイコン５２ｃの態様が変化した際の様子の例を示す図である。図１０は、応答センテンス決定部１４８の構成の例を示す図である。

応答指令部１４７は、ユーザの発言に対してオペレータ２８１が応答すべきであると応答者決定部１４６によって決定された場合に、そのユーザの識別子を示す応答指令データ６７をオペレータ端末２へ送信する。

オペレータ端末２において、対話状況画面表示部２４１（図５参照）は、応答指令データ６７を受信すると、対話状況画面５１（図６参照）を、応答指令データ６７に示される識別子に対応するユーザの小ウィンドウ５２の応答者アイコン５２ｃの色が赤色になるように、かつ、その小ウィンドウ５２の外枠の線の色が赤色になるように、更新する。これにより、例えば、ユーザ３８３の識別子が応答指令データ６７に示される場合は、対話状況画面５１が図９に示すように更新される。

そして、オペレータ２８１は、外枠の線が赤色になった小ウィンドウ５２のスクリプト領域５２ｂに示されるスクリプト（発言のセンテンス）を読み、応答のメッセージを決めてオペレータ端末２１に向かって発する。

すると、オペレータ音声送信部２４３は、その小ウィンドウ５２に対応するユーザの識別子を対応付けて、オペレータ２８１が発した音声の音声データ６１をサーバ１へ送信する。さらに、対話状況画面表示部２４１は、そのユーザに対応する応答者アイコン５２ｃを元の態様に戻す。

サーバ１において、アバター制御部１４１（図４参照）は、音声データ６１を受信すると、音声データ６１に基づいて今回の発言のセンテンス（オペレータ応答）に合うようにアバター２９を動作させるための制御データ６５を生成する。言動データ送信部１４２は、音声データ６１および制御データ６５を、音声データ６１に対応付けられているユーザのユーザ端末３へ送信する。

そして、そのユーザ端末３において、上述の通り、オペレータ２８１の音声が再生されるとともに、それに合わせてアバター２９が動作する。

さらに、今回の発言のセンテンスが、発言時刻および発言者とともに、そのユーザの対話履歴データ６４（図８参照）へ追記される。ここでは、発言者として「オペレータ」が追記される。

一方、ユーザの発言に対してＡＩが応答すべきであると応答者決定部１４６によって決定された場合は、その発言のセンテンスが応答者決定部１４６から応答センテンス決定部１４８へ渡され、応答センテンス決定部１４８によって、その発言に対する応答のセンテンスが次のように決定される。

応答センテンス決定部１４８は、図１０に示すように、韻律解析部１８０、相槌生成部１８１、焦点語検出部１８２、繰返応答生成部１８３、掘下質問生成部１８４、感情分析部１８５、評価応答生成部１８６、極性語彙的応答生成部１８７、語彙的応答生成部１８８、および応答センテンス選出部１８９などによって構成される。また、後に順次説明するように、ＡＩの技術が用いられている。

韻律解析部１８０は、音声データ６２に基づいて、ユーザの音声の韻律を解析する。相槌生成部１８１は、韻律解析部１８０によって解析された韻律に基づいて、ユーザの発言に応じて相槌を表わす応答のセンテンスを公知の方法によって生成する。例えば、「傾聴対話システムのための言語情報と韻律情報に基づく多様な形態の相槌の生成」（人工知能学会論文誌３１巻４号（２０１６）; http://doi.org/10.1527/tjsai.C-G31）に記載される技術によって生成する。

焦点語検出部１８２は、音声認識部１４４によって認識された発言のセンテンスから焦点語を次のように検出する。

予め、音声対話支援システム４の開発者は、様々な文章を集め、それぞれの文章に対して形態素解析を行うとともにそれぞれの文章の中から焦点語を指定することによって学習データを用意する。そして、形態素解析された文章を説明変数として用いかつ指定された焦点語を目的変数として用いて機械学習を行うことによって学習済モデルを生成する。以下、この学習済モデルを「焦点語学習済モデル」と記載する。

そして、焦点語検出部１８２は、音声認識部１４４によって得られたテキストに対して形態素解析を行い、焦点語学習済モデルへ入力することによって、焦点語を検出（推論）する。

繰返応答生成部１８３は、焦点語検出部１８２によって検出された焦点語に基づいて、繰返し応答のセンテンスを生成する。「繰返し応答」は、相手の発言のセンテンスに含まれる焦点語を繰り返す応答方法である。繰返応答生成部１８３は、焦点語の品詞に応じた語句を焦点語の末尾に付すことによって、繰返し応答のセンテンスを生成する。例えば、「先週、家族でケーキを食べました。」というテキストから焦点語として「ケーキ」が検出された場合は、「ですか。」という語句を焦点語に付すことによって「ケーキですか。」という繰返し応答のセンテンスを生成する。

掘下質問生成部１８４は、焦点語検出部１８２によって検出された焦点語に基づいて、掘下げ質問のセンテンスを生成する。「掘下げ質問」は、相手の発言を掘り下げるために質問を投げ掛ける応答方法であって、次の２つの方法のうちのいずれかを用いればよい。

掘下質問生成部１８４は、「どんな」、「どの」、「なんの」、「なにの」、「どこの」、「いつの」、「だれの」の７種の疑問詞のうちのいずれかを焦点語に組み合わせることによって、掘下げ質問のセンテンスを生成する。これらの疑問詞のうちのどれを組み合わせるかは、予め用意したコーパスにおける、その焦点語の出現する形態の分布に基づいて決めればよい。これは、「「アンドロイドERICAの傾聴対話システム--人間による傾聴との比較評価--」(人工知能学会論文誌３６巻５号（２０２１）; https://doi.org/10.1527/tjsai.36-5_H-L51)）に詳細に説明されている。この方法によると、例えば、「ケーキ」という焦点語から「どんなケーキですか。」という掘下げ質問のセンテンスが生成される。

感情分析部１８５は、音声データ６２、音声認識部１４４によって認識された発言のセンテンス、および韻律解析部１８０によって解析された韻律、すなわち、音響、言語、および韻律の情報に基づいてユーザの感情を判別する。この処理は、公知の感情分析技術によって実現される。例えば、「アンドロイドを用いた音声対話研究」（日本音響学会誌７６巻４号（２０２０）第２３６－２４３頁; https://doi.org/10.20697/jasj.76.4_236）で紹介される技術が用いられる。

評価応答生成部１８６は、感情分析部１８５によって判別された感情に基づいて評価応答のセンテンスを生成する。「評価応答」は、称賛または労いを伝えることによって相手の発言への評価を示す応答方法である。本実施形態では、感情がポジティブなものである場合は、「いいですね。」または「素敵ですね。」のような、評価応答のセンテンスを生成する。一方、ネガティブなものである場合は、「大変ですね。」または「残念でしたね。」のような、評価応答のセンテンスを生成する。感情がポジティブかネガティブかは、公知の方法によって判別することができる。

極性語彙的応答生成部１８７は、感情分析部１８５によって判別された感情に基づいて極性語彙的応答のセンテンスを生成する。「極性語彙的応答」は、同意を意味する定型表現の韻律パターンを極性によって使い分ける応答方法である。本実施形態では、感情がポジティブなものである場合は、「そうですか↑」または「そうなんですね↑」という、極性語彙的応答のセンテンスを生成する。「↑」は、語尾を上げることを意味する。一方、ネガティブなものである場合は、「そうですか↓」または「そうなんですね↓」という、極性語彙的応答のセンテンスを生成する。「↓」は、語尾を下げることを意味する。

語彙的応答生成部１８８は、音声認識部１４４によって認識された発言のセンテンスに基づいて語彙的応答のセンテンスを生成する。語彙的応答は、バックアップ的な応答として用いられる。語彙的応答生成部１８８は、「そうですか。」、「そうなんですね。」、または「なるほど。」のような、語彙的応答のセンテンスを生成する。なお、語尾を上げたり下げたりせず、平坦なものとする。

ただし、これらの６つの生成部（相槌生成部１８１、繰返応答生成部１８３、掘下質問生成部１８４、評価応答生成部１８６、極性語彙的応答生成部１８７、語彙的応答生成部１８８）すべてから同時期に応答のセンテンスが得られるとは、限らない。例えば、焦点語がコーパスに含まれない場合に、掘下質問生成部１８４は、応答（掘下げ質問）のセンテンスを生成しない。

そして、応答センテンス選出部１８９は、所定のインターバルで、直前の所定の時間（例えば、１秒間）に得られた応答のセンテンスのうちの１つをランダムに、ユーザの発言に対する応答のセンテンスとして選出する。

図４に戻って、ユーザの発言に対する応答のセンテンスが応答センテンス決定部１４８によって決定（選出）されると、音声生成部１４３は、そのセンテンスの音声データを、オペレータ２８１の声の特徴に合わせて生成する。アバター制御部１４１は、そのセンテンス（自律応答）の読上げに合うようにアバター２９を動作させるための制御データ６５を生成する。そして、言動データ送信部１４２は、生成された音声データを音声データ６１として、制御データ６５とともに、そのユーザのユーザ端末３へ送信する。すると、ユーザ端末３において、音声およびアバター２９の再生の処理が上述の通り行われる。

また、応答センテンス決定部１４８は、そのユーザに対応する対話履歴データ６４（図８参照）へ、そのセンテンスを追記する。この際に、対話履歴データ６４へ、言動データ送信部１４２による送信の時刻を発言時刻として追記し、「ＡＩ」を発言者として追記する。

〔３．対話支援プログラム１４による全体的な処理の流れ〕
図１１は、対話支援プログラム１４によって実現される全体的な処理の流れの例を説明するフローチャートである。

次に、対話支援プログラム１４によるサーバ１の全体的な処理の流れを、フローチャートを参照しながら説明する。サーバ１は、対話支援プログラム１４に従って、図１１に示す手順で処理を実行する。

サーバ１は、オペレータ端末２およびユーザ端末３と接続されると、対話の開始のための処理を行う（図１１の＃７０１）。この処理は、対話の目的などに応じて予め決めておけばよい。

例えば、お年寄りの傾聴が目的である場合は、サーバ１は、「こんにちは、お元気ですか。」のような所定のメッセージの、オペレータの人工の音声を発する音声データ６１を生成するとともに、そのメッセージに合わせて制御データ６５を生成する。そして、そのメッセージ等を、オペレータの対話の相手であるユーザ（以下、「対話対象」と記載する。）の対話履歴データ６４（図８参照）に記録するとともに、音声データ６１および制御データ６５を対話対象のユーザ端末３へ送信する。

サーバ１は、対話対象のユーザ端末３から音声データ６２および動画像データ６３を受信し始めると（＃７０２）、音声データ６２に対して音声認識処理を行うことによって対話対象の発言のセンテンスを判別しテキスト化する（＃７０３）。オペレータのオペレータ端末２へ音声データ６２および動画像データ６３を転送し（＃７０４）、テキスト化された発言のセンテンスが対話対象の小ウィンドウ５２のスクリプト領域５２ｂに表われるようにオペレータのオペレータ端末２を制御する（＃７０５）。さらに、発言のセンテンスを対話対象の対話履歴データ６４（図８参照）に記録する（＃７０６）。

サーバ１は、所定のインターバルで、すなわち定期的に、オペレータおよびＡＩのどちらが発言へ応答すべきなのかを、活性度スコアに基づいて決定する（＃７０７）。

サーバ１は、オペレータが応答すべきであると決定した場合は（＃７０８でＹｅｓ）、オペレータのオペレータ端末２へ応答指令データ６７を送信する（＃７０９）。そして、オペレータによる応答の音声の音声データ６１をオペレータ端末２から受信すると（＃７１０）、制御データ６５を生成するとともに（＃７１１）、その応答のセンテンスを対話対象の対話履歴データ６４に記録する（＃７１２）。そして、音声データ６１および制御データ６５を対話対象のユーザ端末３へ送信する（＃７１６）。

一方、ＡＩが応答すべきであると決定した場合は（＃７０８でＮｏ）、サーバ１は、ＡＩすなわち図１０で説明した仕組みによって応答のセンテンスを決定し（＃７１３）、そのセンテンスの音声データ６１および制御データ６５を生成するとともに（＃７１４）、そのセンテンスを対話対象の対話履歴データ６４へ記録する（＃７１５）。そして、生成した音声データ６１および制御データ６５を対話対象のユーザ端末３へ送信する（＃７１６）。

サーバ１は、対話が継続している間（＃７１７でＹｅｓ）、ステップ＃７０２～＃７１６の各処理を適宜、実行する。

また、サーバ１は他の対話についても同様に、ステップ＃７０１～＃７１７の処理を実行する。

なお、オペレータおよびＡＩのどちらがユーザからの発言へ応答すべきなのかを、応答者決定部１４６とともにオペレータが決定してもよい。例えば、あるユーザの表情が不満そうであれば、オペレータは、そのユーザからの発言に自らが応答すべきであると決定し、そのユーザを指定するとともに所定のコマンドを入力すればよい。すると、応答者決定部１４６は、そのユーザからの発言に対する応答者の決定を一時的に停止し、オペレータは、そのユーザからの発言に応答する。

〔４．本実施形態の効果〕
本実施形態によると、音声対話支援システム４は、ユーザの発言ごとにオペレータが応答すべきかＡＩが応答すべきかを決定する。そして、オペレータが応答すべきであると決定した場合にオペレータに応答させ、ＡＩが応答すべきであると決定した場合にサーバ１がＡＩによって自律的に応答する。これにより、オペレータに待たされる時間を極力短くすることができ、複数のユーザそれぞれにとっての満足度やエンゲージメントの低下を抑えながら、従来よりも確実に対話を継続させることができる。

さらに、音声対話支援システム４は、オペレータが応答する際にオペレータ本人の音声を提供し、ＡＩによって応答する際にオペレータの音声を生成して提供する。そして、どちらの音声にも合わせてアバター２９を動作させる。これにより、同一の人物がユーザのすべての発言に応対してくれているように思わせることができ、対話を支援するシステムにおけるユーザの満足度およびユーザとオペレータとのエンゲージメントを従来よりも向上させることができる。

〔５．適用例〕
音声対話支援システム４は、様々な場面に適用することができる。しかし、場面ごとに条件が異なるので、音声対話支援システム４をより好適に活用するには、条件に応じて調整することが望ましい。そこで、以下、傾聴、プレゼンテーション、および面接の３つの場面を例に、音声対話支援システム４の調整について説明する。

〔５．１傾聴〕
図１２は、点数リスト８１の例を示す図である。

オペレータが複数のユーザの傾聴を同時期に行うのを音声対話支援システム４によって支援することができる。「傾聴」は、話し手の語りに対して聞き手が耳を傾けながら聴くことである。したがって、傾聴を目的として音声対話支援システム４を使用する場合は、話し手がユーザ（ゲスト）であり、聞き手がオペレータ（ホスト）である。

傾聴においては、話し手の発言に対して相槌などの応答を適切に示すことによって、聞き手の理解または共感が話し手へ伝わり、話し手の語りをより効果的に促進することができる。そこで、図４に示すサーバ１の各部は、次のように処理を行う。

応答者決定部１４６は、ユーザの発言のセンテンスが音声認識部１４４によって認識されると、そのユーザの活性度スコアをそのユーザの対話履歴データ６４（図８参照）に基づいて算出する。

「活性度スコア」は、そのユーザとオペレータ２８１との対話の活性の度合を表わしており、その計算の一例として、そのユーザの対話履歴データ６４に示される直前の所定の時間における発言の点数の合計値で求めることができる。例えば、所定の時間が２分である場合は、ユーザ３８１の活性度スコアは、対話履歴データ６４１に示される直前の２分間の発言の点数の合計値とする。なお、対話履歴データ６４への点数の記録の方法については、後述する。

そして、応答者決定部１４６は、活性度スコアが所定の値（例えば、１２点）未満であれば、オペレータ２８１が応答すべきであると決定し、所定の値以上であれば、ＡＩが応答すべきであると決定する。

オペレータ２８１が応答すべきであると決定された場合も、ＡＩが応答すべきであると決定された場合も、上述の通りに処理が実行される。ただし、後者の場合は、さらに、図１２に示される点数リスト８１に基づいて、ＡＩによる応答の態様に係る点数が対話履歴データ６４（図８参照）に追記される。例えば、その応答の態様が相槌であり、かつ、その応答先がユーザ３８３である場合は、その応答に係るセンテンスなどとともに、「１点」が点数として対話履歴データ６４３へ追記される。なお、点数リスト８１に示される各態様の点数は、ユーザの年齢等の属性その他の条件に応じて適宜、変更可能である。

より具体的な適用例として、高齢者の傾聴が想定される。この適用例においては、複数の高齢者のそれぞれにユーザ端末３を与え、１人のオペレータがこれらの高齢者の傾聴を行う。傾聴においては特に相槌が重要であり、人間のような相槌を示せば、ユーザ（高齢者）の満足度を高めることができる。

そこで、前掲の「アンドロイドERICAの傾聴対話システム--人間による傾聴との比較評価--」および「アンドロイドを用いた音声対話研究」に記載されるＥＲＩＣＡの技術を使用すればよい。この技術は、ユーザの発言中の１００ミリ秒ごとのタイミングで、その時点から５００ミリ秒以内に相槌を打つか否かを、韻律情報を用いてロジスティック回帰モデルによって予測する。つまり、傾聴以外の目的に音声対話支援システム４を使用する場合よりも相槌を生成するタイミングのインターバルを狭くする。

サーバ１は、この方法を、相槌生成部１８１（図１０参照）において使用する。高齢者の発言がゆっくりであるので、６つの生成部のうちの相槌生成部１８１のみが応答のセンテンス（「うん。」、「うんうん。」など）を生成する機会が他の相手との対話の場合よりも多くなる。そうすると、センテンスの長さ当たりの、相槌のセンテンスが選出される機会が多くなり、しっかりと相手（オペレータ）が話を聞いてくれているという安心感をユーザに与えることができる。

なお、１００ミリ秒以外のタイミングまたは５００ミリ秒以外のタイムラグであってもよい。これは、傾聴の対象に応じて変更すればよい。例えば、早口のユーザの場合は、これらをより短くしてもよいし、とてもゆっくり話すユーザの場合は、これらをより長くしてもよい。または、ランダムのタイミングであってもよい。

〔５．２プレゼンテーション〕
図１３は、質問への回答を支援する処理の流れの例を説明するフローチャートである。図１４は、質問データ６８の例および待機リスト８２の遷移の例を示す図である。

プレゼンテーションのために音声対話支援システム４を使用することができる。１回のプレゼンテーションの相手は、１人ないし数人である場合もあれば、多数である場合もある。どちらの場合にも音声対話支援システム４を使用することができるが、前者の場合に特に好適に用いられる。例えば、展示会のブースでの製品の紹介、学会でのポスター発表、および博物館での展示物の案内などの場合である。

以下、展示会の中の、あるブースを訪れる複数の来場者へ製品を紹介する場合を例に、プレゼンテーションにおける音声対話支援システム４の使用方法を説明する。

各来場者は、自分のスマートフォンまたはタブレットコンピュータをユーザ端末３として使用する。オペレータは、ブースから離れたところで待機する。

来場者は、ブースを訪れると、自分のユーザ端末３でユーザ用プログラム３４を起動し、興味のある製品を指定する。

すると、その製品がユーザ端末３からサーバ１へ通知され、サーバ１は、対話開始の処理（図１１のステップ＃７０１の処理）として、その製品の予め用意された説明文をアバター２９に読み上げさせるための処理を行う。具体的には、その説明文の音声データ６１をオペレータの声に合わせて生成するとともに、その説明文を発言しているようにアバター２９を動作させる制御データ６５を生成し、ユーザ端末３へ送信する。

来場者は、説明文を聞き終わると、オペレータへ口頭で質問したり感想を述べたりすることができる。来場者が発言し始めると、来場者の音声がユーザ端末３からサーバ１へ音声データ６２として送信され、オペレータ端末２へ転送される。また、サーバ１は、音声認識を行い、発言に対する応答者を決定する。

そして、サーバ１は、応答者をオペレータに決定した場合は、応答指令データ６７をオペレータ端末２へ送信し、オペレータに応答させる。一方、ＡＩに決定した場合は、さらに、応答のセンテンスを決定する。いずれの場合も、その後の処理は基本的に上述の通りである。

発言が質問である場合であっても、発言の途中であれば、相槌または語彙的応答を来場者（ユーザ）に対して与えてもあまり不自然でない。しかし、質問が終わった後は、６つの生成部それぞれから生成される応答のセンテンスのいずれも、質問に対する回答として不自然である。

そこで、サーバ１は、質問が終わった場合は、質問に対する回答のセンテンスを生成する。生成は、企業等のカスタマーサポートで使用されている既存のＡＩの技術によって実現すればよい。ただし、ＡＩによる回答が不能である場合は、応答指令データ６７をオペレータ端末２へ送信することによって、回答するようにオペレータに促す。なお、ＡＩによる回答が不能である場合の一例は、予め想定し回答を用意しておいたいずれの質問にも、来場者からの質問が該当しない場合である。

オペレータがある来場者と対話している最中に他の来場者が次々にブースに訪れてプレゼンテーションを要求する場合がある。このような場合であっても、オペレータは、音声対話支援システム４に支援してもらうことによって、これらの来場者に応対することができる。

しかし、ＡＩが回答することができない質問すなわちオペレータが回答しなければならない質問が同時期に複数、発生することがある。そこで、サーバ１は、例えば図１３に示す手順で処理を行うことによって、オペレータを支援する。

サーバ１は、新たな質問が来場者から発せられ、その質問に対してオペレータが回答すべきであると決定すると（図１３の＃７３１）、その質問の優先度スコアＳを次の（１）式によって算出する（＃７３２）。
優先度スコアＳ＝客観性確率Ｒ×文長Ｌ …… （１）

客観性確率Ｒは、その質問がどれくらい客観的なものであるかを表わす確率である。したがって、「この製品の価格はいくらですか。」または「この製品は従来品との互換性がありますか。」のような事実に関する質問であれば客観性確率Ｒが高く、「この製品をどう思いますか。」または「この製品の使い心地はいかがですか。」のような主観的な事項に関する質問であれば客観性確率Ｒが低い。

客観性確率Ｒは、焦点語を検出する場合と同様、機械学習によって算出される。すなわち、予め、音声対話支援システム４の開発者は、様々な質問の文章を集め、それぞれの文章に対する客観性確率ｒを決めて与えることによって、学習データを用意する。そして、文章を説明変数として用いかつ客観性確率ｒを目的変数として用いて機械学習を行うことによって学習済モデルを生成する。以下、この学習済モデルを「客観性確率学習済モデル」と記載する。

そして、サーバ１は、来場者からの新たな質問のセンテンスを客観性確率学習済モデルへ入力することによって、客観性確率Ｒを算出（推論）する。なお、学習フェーズおよび推論フェーズにおいて、文章を、形態素解析を施してから使用してもよい。

文長Ｌは、質問のセンテンスの長さである。文字数であっても構わないが、単語数のほうが望ましい。

サーバ１は、新たな質問の質問データ６８を生成する（＃７３３）。質問データ６８には、図１４に示すように、質問番号、質問センテンス、ステップ＃７３２で算出した優先度スコアＳ、および保留フラグＦが示される。質問番号は、質問を識別するためのシーケンシャル番号である。保留フラグＦは、選出を保留されたか否かを示す。具体的には、「ＯＦＦ」は選出を保留されたことがないことを意味し、「ＯＮ」は、保留されたことがあることを意味する。保留フラグＦの初期値は「ＯＦＦ」である。以下、ｉ番目の質問の質問データ６８を「質問データ６８ｉ」のように記載することがある。

そして、サーバ１は、ステップ＃７３３で生成した、つまり新規の質問データ６８を、待機リスト８２へ次の（ａ）および（ｂ）の規則に従って格納する（＃７３４）。なお、待機リスト８２に格納されている先頭の質問データ６８から順に優先順位として１位、２位、…が与えられる。図１４において質問データ６８（既存の質問データ６８）の左側に記す「１」、「２」、…の数値は、優先順位を表わしている。
（ａ）既存の質問データ６８のうち保留フラグＦが「ＯＮ」であるものの優先順位よりも新規の質問データ６８の優先順位のほうが低くなるようにする。
（ｂ）既存の質問データ６８のうち保留フラグＦが「ＯＦＦ」であるものおよび新規の質問データ６８それぞれの優先順位が、優先度スコアＳの小さい順に高くなるようにする

サーバ１は、オペレータが質問へ回答することができる状態である場合は（＃７３５でＹｅｓ）、待機リスト８２の中から優先順位が１位である質問データ６８および２位である質問データ６８を選出し（＃７３６）、３位以降の質問データ６８の保留フラグＦを「ＯＮ」に切り換える（＃７３７）。

そして、サーバ１は、１位に対する処理（＃７３８～＃７３９）、２位に対する処理（＃７４０～＃７４２）、および３位以下に対する処理（＃７４３）を並行して実行する。

サーバ１は、選出した１位の質問データ６８に係る質問に回答するようにオペレータへ指令する（＃７３８）。そして、その質問データ６８を待機リスト８２から削除する（＃７３９）。

サーバ１は、選出した２位の質問データ６８に示される質問センテンスを自律的に聞き返す処理を行う（＃７４０）。すなわち、オペレータの人工の音声で「もう一度、質問してください。」のように発する音声データ６１を生成するとともに、その質問センテンスに合わせて制御データ６５を生成し、音声データ６１および制御データ６５を質問元の来場者のユーザ端末３へ送信する。

そして、選出した１位の質問データ６８に係る質問にオペレータが回答し終えたら直ちに、サーバ１は、選出した２位の質問データ６８に係る質問に回答するようにオペレータへ指令し（＃７４１）、その質問データ６８を待機リスト８２から削除する（＃７４２）。

サーバ１は、保留フラグＦを「ＯＮ」にした３位以下の質問への回答を保留し、当該質問を行ったユーザに対して次の項目の説明を自律的に行う（＃７４３）。

サーバ１は、サービスの継続中（＃７４４でＹｅｓ）、ステップ＃７３１～＃７４３の各処理を適宜、実行する。

ここで、図１４を参照しながら、待機リスト８２の遷移の例を説明する。ある時点において、オペレータが来場者へ応対中であり、図１４（Ａ）のように３つの質問データ６８１～６８３が待機リスト８２に格納されている。

しばらくしてオペレータが質問へ回答することができる状態になったら、サーバ１は、図１４（Ｂ）に示すように１位、２位の質問データ６８すなわち質問データ６８２、６８１を選出し、質問データ６８２に係る質問へ回答するようにオペレータに指令するとともに、３位以降の質問データ６８すなわち質問データ６８３の保留フラグＦを「ＯＮ」に更新する。

さらに、サーバ１は、質問データ６８１に係る質問をその質問者へ聞き返す。そして、質問データ６８２に係る質問への回答が終わったら、質問データ６８１に係る質問へ回答するようにオペレータに指令する。質問データ６８２、６８１は、それぞれ、指令後、待機リスト８２から削除される。

この時点で、待機リスト８２には、３位以下であった質問データ６８が、図１４（Ｃ）のように、優先順位が２つずつ繰り上がった状態でかつ保留フラグＦが「ＯＮ」である状態で格納されている。

その後、サーバ１は、オペレータが回答すべき質問の質問データ６８として質問データ６８４を新たに生成すると、上記の（ａ）および（ｂ）の規則に従って、図１４（Ｄ）のように質問データ６８４を待機リスト８２に格納する。さらに、質問データ６８５を新たに生成すると、図１４（Ｅ）のように質問データ６８５を待機リスト８２に格納する。

なお、質問に対する回答の機能を、上述の傾聴の場面または次に説明する面接の場面において使用してもよい。

〔５．３面接〕
企業等の従業員募集に応募した複数の応募者を面接官が面接するのを音声対話支援システム４によって支援することができる。

傾聴においては、オペレータは、ユーザから積極的に情報を聞き出す必要性があまりなく、基本的に聞き手に徹すればよい。したがって、対話の活性度スコアが所定の値を下回ったときにオペレータが応答し、そうでないときはサーバ１が自律的に応答していればよい。

しかし、面接においては、応募者（ユーザ）から特定の事項に関する情報を聞き出すことが要求される。以下、１人の面接官（オペレータ）がオンラインで複数の応募者それぞれから複数の特定の事項それぞれに関する情報を聞き出す場合を例に、サーバ１の処理などについて説明する。

面接すなわち対話は、面接官側から開始される。サーバ１は、複数の特定の事項のうち１つ目の事項の質問のセンテンス（例えば、「こんにちは、お名前を教えてください。」）が面接官の人工の音声で各応募者のユーザ端末３から再生され、面接官のアバター２９が動作するように、音声データ６１および制御データ６５を生成し各ユーザ端末３へ送信する。

その後、サーバ１は、基本的に、１つ目の事項の質問と同様に２つ目の事項の質問が与えられるように処理を行う。ただし、次の事項の質問へ移るまでに、適宜、相槌、繰返し応答、掘下げ質問、評価応答、極性語彙的応答、および語彙的応答のうちのいずれかを上述の方法でランダムに行ってもよい。例えば、応募者が「学生時代は、スポーツに励みました。」と回答した場合に、サーバ１は、「どんなスポーツですか。」のように掘下げ質問を行ってもよいし、「スポーツですか。」のように繰返し応答を行ってもよい。

しかし、重要な事項に関しては、面接官はＡＩに依らず直接、応募者へ質問したい。そこで、重要な事項を表わす所定の語句が応募者からの回答のセンテンスの中に含まれる場合に、サーバ１は、面接官のオペレータ端末２へその旨を通知する。すると、面接官は、その応募者へ自らその事項に関して質問する。

また、サーバ１は、応募者それぞれの面接中の動画像、音声、および回答の内容などに基づいて公知の方法によって応募者それぞれの適切性、具体性、および簡潔性などを評価する。さらに、回答に表われた所定のキーワードを記録する。そして、評価および記録を次の段階の面接を担当する面接官へ引き継ぐ。

なお、サーバ１は、面接中にリアルタイムで評価および記録を行い、一定のレベルを超えた応募者のみを面接官へ知らせてもよい。面接官は、知らされた応募者に対してのみ重要な事項に関する質問を行って対話を深め、それ以外の応募者との対話を最後までＡＩに委ねてもよい。

重要な事項を表わす所定の語をユーザの発言から検出する機能を、上述の傾聴の場面またはプレゼンテーションの場面において使用してもよい。

〔５．４その他の適用例〕
教育、介護、身の上相談、接客、および営業などの場面においても、それぞれの条件に応じて音声対話支援システム４をカスタマイズして使用することができる。

〔６．変形例〕
本実施形態では、サーバ１は、複数のユーザのうち活性度スコアが所定の値未満であるユーザへの応答をオペレータに行わせた。しかし、所定の時間（例えば、１分）ごとに各ユーザの活性度スコアを算出し、活性度スコアが最も低いユーザへの応答をオペレータに行わせてもよい。

本実施形態では、サーバ１は、優先度スコアＳをとして、（１）式によって算出した値を用いたが、他の値を用いてもよい。例えば、客観性確率Ｒまたは文長Ｌを優先度スコアＳとして用いてもよい。また、ゲストの属性、例えば年齢やこれまでの訪問回数などに応じて、優先度を設定することも可能である。

本実施形態では、活性度スコアとして、ユーザの対話履歴データ６４（図８参照）に示される直前の所定の時間における発言ごとの態様に対応する点数（図１２参照）の合計値を用いたが、他の値を用いてもよい。

例えば、サーバ１は、直前の所定の時間においてユーザが発言（発話）していない時間を用いてもよい。または、ＡＩすなわちサーバ１による応答の適切性を用いてもよい。適切性は、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）をファインチューニングしたモデルによって算出することができる。適切性が低いほど対話が破綻していると推定される。

本実施形態では、対話状況画面５１（図６参照）のスクリプト領域５２ｂにオペレータおよびユーザそれぞれの発言のセンテンスが表われたが、焦点語を目立つように着色しまたは太字にしてもよい。同様に、特定のキーワードを着色しまたは太字にしてもよい。

本実施形態では、サーバ１が自律的に応答する際の音声をオペレータの声色に合わせて生成したが、サーバ１が自律的に応答する際の音声とオペレータが直接応答する際の音声とが同一人物のものとユーザに認識されるのであれば、オペレータの声色に合わせなくてもよい。例えば、サーバ１が自律的に応答する際の音声およびオペレータが直接応答する際の音声の両方を、プロのアナウンサまたは声優の声色に合わせて生成してもよい。

本実施形態では、オペレータ端末２としてパーソナルコンピュータを用いたが、人間を模したロボットを用いてもよい。

サーバ１は、ユーザの発言の内容を解析することによってユーザの嗜好および性格などの情報を取得し、オペレータへ通知してもよい。また、これらの情報を、ＡＩが応答のセンテンスを生成するために用いてもよい。さらに、次回以降の対話のためにこれらの情報を保存しておいてもよい。

本実施形態では、図４に示した各機能を１台の装置によって実現したが、複数台の装置に分散して実現してもよい。例えば、アバター制御部１４１をユーザ端末３によって実現してもよい。すなわち、音声に合わせてアバター２９を動作させるデータ（制御データ６５）をユーザ端末３に生成させてもよい。

または、アバター制御部１４１、音声生成部１４３、および応答センテンス決定部１４８をユーザ端末３によって実現してもよい。つまり、応答者の決定の処理（応答者の切換えの処理）をサーバ１が行い、ＡＩによるセンテンスの生成の処理、生成したセンテンスの人工音声の生成の処理、および生成したセンテンスまたはオペレータが発したセンテンスに基づくアバターの制御の処理をユーザ端末３が行ってもよい。

本実施形態では、制御データ６５に基づいてアバター２９を動作させる処理をユーザ端末３に実行させたが、サーバ１においてアバター２９のアニメーションを生成しユーザ端末３に表示させてもよい。

本実施形態では、１人のオペレータが応対する場合を例に説明したが、複数のオペレータが応対する場合も、サーバ１は、上に説明した処理をオペレータごとに実行する。また、多数のユーザそれぞれとの対話を数人のオペレータが１つのグループとして行ってもよい。この場合は、あるユーザの発言に対して複数のオペレータが交代で応答することがある。この際に、複数のオペレータそれぞれの音声および人工の音声すべての声色を共通にすればよい。

面接においては、活性度スコアを使用しなくても構わない。つまり、サーバ１は、基本的に、対話の活性度が低くなっても、所定の語句が発言されるまで、面接官への通知を行うことなく所定の順に質問を自律的に応募者に与えればよい。面接の対象者などの条件によっては、活性度スコアを使用し、所定の語句が発言されるまでに対話の活性度が低くなったら面接官に直接応対させてもよい。プレゼンテーションにおいても、同様である。

その他、音声対話支援システム４、サーバ１、オペレータ端末２、ユーザ端末３の全体または各部の構成、処理の内容、処理の順序、デーの構成、および画面の構成などは、本発明の趣旨に沿って適宜変更することができる。

１サーバ（コンピュータ）
１４１アバター制御部（再生手段、アバター表示手段）
１４３音声生成部（生成手段）
１４６応答者決定部（算出手段、決定手段）
１４７応答指令部（指令手段）
１４８応答センテンス決定部（応答手段）
３４２オペレータ音声出力部（再生手段）
３４３ユーザデータ送信部（アバター表示手段））
４音声対話支援システム

Claims

１人の応対者が複数の相手と音声で対話するのを支援する対話支援システムであって、
前記応対者と前記複数の相手それぞれとが対話している際に、所定または任意のタイミングごとに当該複数の相手それぞれの対話の活性度または優先度を算出する算出手段と、
前記複数の相手それぞれについて、前記応対者が応答すべきであるか自律的に応答すべきであるかを当該複数の相手それぞれの前記活性度または前記優先度に基づいて決定する決定手段と、
前記複数の相手のうちの前記応対者が応答すべきであると決定された相手の発言に応答するように前記応対者へ指令する指令手段と、
前記複数の相手のうちの自律的に応答すべきであると決定された相手の発言に対するセンテンスである自律応答を生成する生成手段と、
前記複数の相手のうちの前記応対者が応答すべきであると決定された相手に対しては、当該相手のために当該応対者から得られたセンテンスであるオペレータ応答を与え、自律的に応答すべきであると決定された相手に対しては、当該相手のために前記生成手段によって生成された前記自律応答を与える、応答手段と、
を有することを特徴とする対話支援システム。
応答の複数の態様それぞれについて予め点数が決められており、
前記生成手段は、前記自律応答として前記複数の態様のうちのいずれかのセンテンスを生成し、
前記算出手段は、前記複数の相手それぞれの前記活性度を、前記複数の態様のうちの、直前の所定の時間に当該相手のために生成された前記自律応答それぞれの態様の前記点数の合計に基づいて算出する、
請求項１に記載の対話支援システム。
前記決定手段は、前記複数の相手のうちの前記活性度が最も小さい相手に対して前記応対者が応答すべきであると決定し、それ以外の相手に対して自律的に応答すべきであると決定する、
請求項１または請求項２に記載の対話支援システム。
前記複数の相手それぞれが発言したセンテンスを前記応対者のディスプレイに表示させるセンテンス表示手段、を有する、
請求項１または請求項２に記載の対話支援システム。
前記複数の相手それぞれの音声再生装置に、当該相手への前記自律応答および前記オペレータ応答を同一または類似の声色で再生させる、再生手段と、
前記複数の相手それぞれのディスプレイに、当該相手への前記自律応答および前記オペレータ応答を発言しているように動作するアバターを表示させるアバター表示手段と、
を有する、
請求項１または請求項２に記載の対話支援システム。
前記指令手段は、複数の質問が同時期に発言された場合に、質問の長さや客観性等に基づいて算出される優先度に基づいて対応を決定し、順次選出した質問に応答するように前記応対者へ指令する、
請求項１または請求項２に記載の対話支援システム。
前記決定手段は、前記複数の相手のうちの面接中における評価の高い相手に対して前記応対者が応答すべきであると決定する、
請求項１に記載の対話支援システム。
１人の応対者が複数の相手と音声で対話するのをコンピュータによって支援する対話支援方法であって、
前記応対者と前記複数の相手それぞれとが対話している際に、所定または任意のタイミングごとに当該複数の相手それぞれの対話の活性度または優先度を算出し、
前記複数の相手それぞれについて、前記応対者が応答すべきであるか自律的に応答すべきであるかを当該複数の相手それぞれの前記活性度または前記優先度に基づいて決定し、
前記複数の相手のうちの前記応対者が応答すべきであると決定された相手の発言に応答するように前記応対者へ指令し、
前記複数の相手のうちの自律的に応答すべきであると決定された相手の発言に対するセンテンスである自律応答を生成し、
前記複数の相手のうちの前記応対者が応答すべきであると決定された相手に対しては、当該相手のために当該応対者から得られたセンテンスであるオペレータ応答を与え、自律的に応答すべきであると決定された相手に対しては、当該相手のために生成した前記自律応答を与える、
ことを特徴とする対話支援方法。
１人の応対者が複数の相手と音声で対話するのを支援するコンピュータに用いられるコンピュータプログラムであって、
前記コンピュータに、
前記応対者と前記複数の相手それぞれとが対話している際に、所定または任意のタイミングごとに当該複数の相手それぞれの対話の活性度または優先度を算出する処理を実行させ、
前記複数の相手それぞれについて、前記応対者が応答すべきであるか自律的に応答すべきであるかを当該複数の相手それぞれの前記活性度または前記優先度に基づいて決定する処理を実行させ、
前記複数の相手のうちの前記応対者が応答すべきであると決定された相手の発言に応答するように前記応対者へ指令する処理を実行させ、
前記複数の相手のうちの自律的に応答すべきであると決定された相手の発言に対するセンテンスである自律応答を生成する処理を実行させ、
前記複数の相手のうちの前記応対者が応答すべきであると決定された相手に対しては、当該相手のために当該応対者から得られたセンテンスであるオペレータ応答を与え、自律的に応答すべきであると決定された相手に対しては、当該相手のために生成した前記自律応答を与える処理を実行させる、
ことを特徴とするコンピュータプログラム。