JP2022100996A

JP2022100996A - 会話制御装置、会話制御方法及びコンピュータープログラム

Info

Publication number: JP2022100996A
Application number: JP2020215319A
Authority: JP
Inventors: 修平早川; Shuhei Hayakawa; 大輝宮岸; Daiki Miyagishi
Original assignee: Ntt Ltd Japan; NTT Communications Corp
Current assignee: Ntt Ltd Japan; NTT Communications Corp
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2022-07-06

Abstract

【課題】ネットワークを介して行われる会話や会議において、状況の変化をより容易に参加者に認識させることが可能となる会話制御装置、会話制御方法及びコンピュータープログラムを提供する。【解決手段】会話システム１００において、会話制御装置２０は、ネットワーク４０を介して複数のユーザーによって行われている会話において、ユーザーの画像とともに表示される付加画像を決定する付加画像決定部と、ユーザーの画像と、付加画像決定部によって決定された付加画像と、をユーザーによって使用されるユーザー端末１０に表示させるために必要な表示データを生成する表示情報生成部と、複数のユーザーによって行われる会話を制御する会話制御部と、を備える。【選択図】図１

Description

本発明は、オンラインで会話することを実現するための技術に関する。

従来から、ネットワークを介して会話や会議を行うためのシステムが提案されている。以前は音声のみを用いた会話や会議として使用されることが多かったが、近年の通信環境の発達により映像を用いた会話や会議が実現されてきている。そのようなシステムでは、カメラで撮影された参加者の顔画像が表示されることが一般的である。参加者は、自身の顔画像を提示することで、他者に対し自身の状況を伝えることができる。例えば、特許文献１には、撮影されたユーザーの顔領域の画像を抽出して背景にはぼかしをかけて表示することが記載されている。

特開２０１２－２１３０１３号公報

複数人が参加する会話や会議では、表示される画面が人数分に分けて表示されることがある。この場合、一人の顔画像が表示される画面の領域が狭くなってしまう。このことに応じて、各参加者の表情等の様子が認識しにくくなり、会話や会議の状況の変化が認識しにくくなってしまう可能性があった。

上記事情に鑑み、本発明は、ネットワークを介して行われる会話や会議において、状況の変化をより容易に参加者に認識させることが可能となる技術の提供を目的としている。

本発明の一態様は、ネットワークを介して複数のユーザーによって行われている会話において、ユーザーの画像とともに表示される付加画像を決定する付加画像決定部と、前記ユーザーの画像と、前記付加画像決定部によって決定された付加画像と、をユーザーによって使用されるユーザー端末に表示させるために必要な表示データを生成する表示情報生成部と、前記複数のユーザーによって行われる会話を制御する会話制御部と、を備える会話制御装置である。

本発明の一態様は、上記の会話制御装置であって、前記ユーザーの発話に関連すると推定される単語である関連単語を取得する認識部をさらに備え、前記付加画像決定部は、前記認識部において取得された前記関連単語に基づいて前記画像情報を選択する。

本発明の一態様は、上記の会話制御装置であって、前記ユーザーの画像に基づいて表情又は感情の推定を行う認識部をさらに備え、前記付加画像決定部は、前記認識部において取得された表情又は感情に基づいて前記画像情報を選択する。

本発明の一態様は、上記の会話制御装置であって、前記付加画像決定部は、前記ユーザーに関する情報であるユーザー情報に基づいて得られる１又は複数の文字列を含むタグ画像を前記付加画像として決定する。

本発明の一態様は、ネットワークを介して複数のユーザーによって行われている会話において、ユーザーの画像とともに表示される付加画像を決定する付加画像決定ステップと、前記ユーザーの画像と、前記付加画像決定ステップにおいて決定された付加画像と、をユーザーによって使用されるユーザー端末に表示させるために必要な表示データを生成する表示情報生成ステップと、前記複数のユーザーによって行われる会話を制御する会話制御ステップと、を有する会話制御方法である。

本発明の一態様は、上記の会話制御装置としてコンピューターを機能させるためのコンピュータープログラムである。

本発明により、ネットワークを介して行われる会話や会議において、状況の変化をより容易に参加者に認識させることが可能となる。

本発明の会話システム１００のシステム構成を示す概略ブロック図である。ユーザー端末１０の機能構成の具体例を示す概略ブロック図である。会話制御装置２０の機能構成の具体例を示す概略ブロック図である。画像情報の具体例の一つを示す図である。画像情報の具体例の一つを示す図である。認識装置３０の機能構成の具体例を示す概略ブロック図である。ユーザー端末１０の表示部１３に表示される画像の具体例を示す図である。ユーザー端末１０の表示部１３に表示される画像の具体例を示す図である。会話システム１００の処理の流れの具体例を示すシーケンスチャートである。

以下、本発明の具体的な構成例について、図面を参照しながら説明する。なお、以下の説明では、２名以上のユーザーが会話を行うための仮想的な繋がりを示す概念を会議室と呼ぶ。そのため、以下の説明における会議室は、必ずしもその名称が会議室である必要は無く、例えば単に会話と呼ばれたりセッションと呼ばれたりするものであっても、２名以上のユーザーが会話を行う仮想的な場であれば全て以下の説明における会議室に相当する。

図１は、本発明の会話システム１００のシステム構成を示す概略ブロック図である。会話システム１００は、ユーザー端末１０を操作するユーザー同士がネットワーク４０を介して会話を行うためのシステムである。会話システム１００は、複数のユーザー端末１０、会話制御装置２０及び認識装置３０を含む。複数のユーザー端末１０、会話制御装置２０及び認識装置３０は、ネットワーク４０を介して通信可能に接続される。ネットワーク４０は、無線通信を用いたネットワークであってもよいし、有線通信を用いたネットワークであってもよい。ネットワーク４０は、複数のネットワークが組み合わされて構成されてもよい。

図２は、ユーザー端末１０の機能構成の具体例を示す概略ブロック図である。ユーザー端末１０は、例えばスマートフォン、タブレット、パーソナルコンピューター、携帯ゲーム機、据え置き型ゲーム機、専用機器などの情報機器を用いて構成される。ユーザー端末１０は、通信部１１、操作部１２、表示部１３、音声入力部１４、音声出力部１５、記憶部１６及び制御部１７を備える。

通信部１１は、通信機器である。通信部１１は、例えばネットワークインターフェースとして構成されてもよい。通信部１１は、制御部１７の制御に応じて、ネットワーク４０を介して他の装置とデータ通信する。通信部１１は、無線通信を行う装置であってもよいし、有線通信を行う装置であってもよい。

操作部１２は、キーボード、ポインティングデバイス（マウス、タブレット等）、ボタン、タッチパネル等の既存の入力装置を用いて構成される。操作部１２は、ユーザーの指示をユーザー端末１０に入力する際にユーザーによって操作される。操作部１２は、入力装置をユーザー端末１０に接続するためのインターフェースであっても良い。この場合、操作部１２は、入力装置においてユーザーの入力に応じ生成された入力信号をユーザー端末１０に入力する。操作部１２は、マイク及び音声認識装置を用いて構成されてもよい。この場合、操作部１２はユーザーによって発話された文言を音声認識し、認識結果の文字列情報をユーザー端末１０に入力する。操作部１２は、ユーザーの指示をユーザー端末１０に入力可能な構成であればどのように構成されてもよい。

表示部１３は、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイ等の画像表示装置である。表示部１３は、会話を行う際に用いられる画像データを表示する。表示部１３は、画像表示装置をユーザー端末１０に接続するためのインターフェースであっても良い。この場合、表示部１３は、画像データを表示するための映像信号を生成し、自身に接続されている画像表示装置に映像信号を出力する。

音声入力部１４は、マイクを用いて構成される。音声入力部１４は、マイクそのものとして構成されてもよいし、外部機器としてマイクをユーザー端末１０に接続するためのインターフェースとして構成されてもよい。マイクは、会話を行うユーザーの発話音声を取得する。音声入力部１４は、マイクによって取得された音声のデータを制御部１７に出力する。

音声出力部１５は、スピーカーやヘッドホンやイヤホン等の音声出力装置を用いて構成される。音声出力部１５は、音声出力装置そのものとして構成されてもよいし、外部機器として音声出力装置をユーザー端末１０に接続するためのインターフェースとして構成されてもよい。音声出力装置は、会話を行うユーザーが音声を聞き取ることができるように音声を出力することが望ましい。音声出力部１５は、制御部１７によって出力される音声信号に応じた音声を出力する。

記憶部１６は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。記憶部１６は、制御部１７によって使用されるデータを記憶する。記憶部１６は、例えばユーザー情報記憶部１６１及び発話情報記憶部１６２として機能してもよい。

ユーザー情報記憶部１６１は、ユーザー端末１０を操作するユーザーに関する情報（以下「ユーザー情報」という。）を記憶する。ユーザー情報は、例えばユーザーのハンドルネーム、ユーザーのアイコンデータ、ユーザーの属性情報、ユーザーのプロフィールの情報を含んでもよい。ハンドルネームとは、ユーザーが会話システム１００において会話を行う際に使用する名前（ニックネーム又は本名）である。アイコンデータとは、ユーザーが会話システム１００において会話を行う際に使用する画像データである。属性情報は、例えばユーザーの年齢、性別、出身地、趣味、使用しているＳＮＳアプリケーション、所属に関する情報を含んでもよい。

発話情報記憶部１６２は、ユーザー端末１０のユーザーの発話情報を記憶する。発話情報とは、ユーザーが発話することによって得られる音声データを含む。発話情報は、音声データに加えてさらに、その発話を行ったユーザーの識別情報（ユーザーＩＤ）を含んでもよい。例えば、発話情報記憶部１６２は、音声入力部１４から入力された音声データを、そのユーザーのユーザーＩＤと対応付けて発話情報として記録する。

制御部１７は、ＣＰＵ（Central Processing Unit）等のプロセッサーとメモリーとを用いて構成される。制御部１７は、プロセッサーがプログラムを実行することによって、表示制御部１７１、会議制御部１７２、会話制御部１７３及び認識制御部１７４として機能する。なお、制御部１７の各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されても良い。上記のプログラムは、コンピューター読み取り可能な記録媒体に記録されても良い。コンピューター読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、半導体記憶装置（例えばＳＳＤ：Solid State Drive）等の可搬媒体、コンピューターシステムに内蔵されるハードディスクや半導体記憶装置等の記憶装置である。上記のプログラムは、電気通信回線を介して送信されてもよい。

表示制御部１７１は、通信部１１を介して会話制御装置２０から表示情報を受信する。表示制御部１７１は、取得された表示情報に基づいて画像信号を生成し、表示部１３に表示させる。表示情報は、例えば表示される画像そのものを示す画像データであってもよい。この場合、画像データを生成する主体（画像データ生成部）は会話制御装置２０の表示情報生成部２３３である。表示情報は、例えば表示される画像を生成するために必要となる情報（例えば、参加しているユーザーに関する情報）を示すデータであってもよい。この場合、表示制御部１７１は、表示データに基づいて、表示部１３に表示するための画像データを生成する。この場合、画像データを生成する主体（画像データ生成部）は表示制御部１７１である。

会議制御部１７２は、会話制御装置２０において仮想的に設けられる会議に関する制御を行う。例えば、ユーザーが操作部１２を操作することによって会話制御装置２０が提供する会話サービスへログインすることを指示した場合、会議制御部１７２は、ログインするための処理を行う。例えば、ユーザーが操作部１２を操作することによって新規の会議室を設置することを指示した場合、会議制御部１７２は、新規の会議室を設置するための処理を行う。例えば、ユーザーが操作部１２を操作することによって会議室に入室することを指示した場合、会議制御部１７２は、指示された会議室へ入室するための処理を行う。

会話制御部１７３は、他のユーザー端末１０のユーザーとの間で行われる会話に関する制御を行う。他のユーザー端末１０のユーザーとの会話は、いずれか１つの会議室に入室することで実現される。会議室に入室すると、その会議室に入室している他のユーザーとの間で会話を行うことができる。会議室への入室はどのような形で行われてもよい。例えば、会議室を示す文字やボタンやアイコンが１又は複数表示されている画面において、いずれかの文字、ボタン又はアイコンが操作されることによってその会議室への入室が行われてもよい。会議室毎に割り当てられたアドレス（例えば特定の識別番号やＵＬＲ（Uniform Resource Locator）など）に対してアクセスが行われることによって、その会議室への入室が行われてもよい。会話制御部１７３は、例えば音声入力部１４から入力された音声データを、通信部１１を介して会話制御装置２０へ送信する。会話制御部１７３は、会話制御装置２０から音声データを受信すると、受信された音声データを音声出力部１５から出力する。

認識制御部１７４は、発話情報記憶部１６２に記録されている発話情報に対する認識処理の実行を認識装置３０に対して依頼する。認識制御部１７４は、例えば所定の周期で、その１つの周期の間に発話情報記憶部１６２に新たに記録された発話情報について認識処理の実行を認識装置３０に対して依頼してもよい。

図３は、会話制御装置２０の機能構成の具体例を示す概略ブロック図である。会話制御装置２０は、例えばパーソナルコンピューターやサーバー装置などの情報処理装置を用いて構成される。会話制御装置２０は、通信部２１、記憶部２２及び制御部２３を備える。

通信部２１は、通信機器である。通信部２１は、例えばネットワークインターフェースとして構成されてもよい。通信部２１は、制御部２３の制御に応じて、ネットワーク４０を介して他の装置とデータ通信する。通信部２１は、無線通信を行う装置であってもよいし、有線通信を行う装置であってもよい。

記憶部２２は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。記憶部２２は、制御部２３によって使用されるデータを記憶する。記憶部２２は、例えばユーザー情報記憶部２２１、会議室情報記憶部２２２及び画像情報記憶部２２３として機能してもよい。ユーザー情報記憶部２２１は、ユーザー端末１０を操作する複数のユーザーに関する情報（ユーザー情報）を記憶する。ユーザー情報記憶部２２１は、さらにそのユーザーが会話システム１００において参加したことのあるイベントの履歴（以下「自身イベント履歴情報」という。）、会話システム１００において他のユーザーとの間で行った会話に関する情報（以下「他者会話履歴」という。）、会話システム１００において過去に行った会話に関する情報（以下「自身会話履歴」という。）などを記憶してもよい。複数のユーザーのユーザー情報は、予め会話制御装置２０に登録されてもよい。

自身イベント履歴情報は、例えばそのユーザーが過去に参加したことのあるイベントの日時、イベントの名前などを含んでもよい。他者会話履歴は、例えば過去に会議室で同席したことのある他のユーザー毎に、その会議室において両者が参加している間に行われた会話の情報を含んでもよいし、その会議室において両者が参加している間に行われた会話の中でも上記他のユーザーの発言の情報を含んでもよい。会話の情報とは、例えば会話の文字列そのものであってもよいし、会話において取得された関連単語であってもよい。発言の情報とは、例えば発言の文字列そのものであってもよいし、発言において取得された関連単語であってもよい。自身会話履歴は、例えば過去に会議室において自身が行った発言の情報を含んでもよい。

関連単語とは、会話の内容に関連すると推定される単語である。例えば、関連単語は、その会話における主題に関連すると推定される重要な単語（以下「重要単語」という。）であってもよいし、その会話において所定の基準を越えて頻繁に出現する単語（以下「頻出単語」という。）であってもよいし、他の単語であってもよい。関連単語は、例えば会話を行っている主体（ユーザー）の感情を示す単語であってもよい。

会議室情報記憶部２２２は、会議室に関する情報（以下「会議室情報」という。）を記憶する。会議室とは、会話システム１００においてユーザーが会話を行うために設置する仮想的な部屋である。会議室情報は、例えばその会議室のＩＤ、その会議室において行われている会話から抽出された重要単語や頻出単語を示す情報、会議室に設定されている名前を示す情報、会議室が設置される予約の日時を示す情報、会議室の属性に関する情報を含んでもよい。会議室の属性に関する情報とは、例えばその会議室に入室可能な人数や、会議室に入室可能なユーザーを示す情報を含んでもよい。

画像情報記憶部２２３は、画像情報を記憶する。画像情報は、会議室における会話が行われているユーザー端末１０において、１又は複数のユーザーの画像と合わせて表示される画像の情報である。画像情報記憶部２２３は、画像情報と、関連情報とを対応付けて記憶する。関連情報は、その画像の属性や内容と関連する文言や物や事象を示す情報である。より具体的には、関連情報は、ユーザーの表情、発話内容、発話量、発話の音量、ユーザーの動きなどに基づいて得られる情報であってもよい。関連情報は、ユーザーの表情、発話内容、発話量、発話の音量、ユーザーの動きなどに基づいて推定されるユーザーの感情や行動を示す情報であってもよい。関連情報は、その画像が表示される際の条件を示す情報であってもよい。

図４は、画像情報の具体例の一つを示す図である。図４に示される画像は、例えばユーザーの画像（アイコンデータや撮像されたユーザーの画像等）の背景として表示される画像である。図４に示される画像は、ユーザーの感情として威嚇、自信、誇張、傲慢、驚きなどの関連情報と対応付けて記憶されてもよい。図４に示される画像は、所定以上の発話の音量を示す関連情報と対応付けて記憶されてもよい。

図５は、画像情報の具体例の一つを示す図である。図５に示される画像は、例えばユーザーの画像（アイコンデータや撮像されたユーザーの画像等）の頭部付近に重畳して表示される画像である。図５に示される画像は、ユーザーの感情として威嚇、怒り、不満などの関連情報と対応付けて記憶されてもよい。画像情報は、表示される位置を示す情報と対応付けて定義されてもよい。例えば、図５に示される画像情報は、人の頭部付近に一部重畳して表示されるように定義されてもよい。このような定義と、画像における認識結果とに基づいて、画像の実際の表示位置が決定されてもよい。例えば、人の頭部付近に表示されると定義されている場合には、ユーザーの画像において画像認識が行われることでユーザーの頭部が認識され、その部分に図５の画像が重畳して表示されてもよい。

制御部２３は、ＣＰＵ等のプロセッサーとメモリーとを用いて構成される。制御部２３は、プロセッサーがプログラムを実行することによって、ユーザー制御部２３１、会議室制御部２３２、表示情報生成部２３３、会話制御部２３４、認識部２３５及び付加画像決定部２３６として機能する。なお、制御部２３の各機能の全て又は一部は、ＡＳＩＣやＰＬＤやＦＰＧＡ等のハードウェアを用いて実現されても良い。上記のプログラムは、コンピューター読み取り可能な記録媒体に記録されても良い。コンピューター読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、半導体記憶装置（例えばＳＳＤ）等の可搬媒体、コンピューターシステムに内蔵されるハードディスクや半導体記憶装置等の記憶装置である。上記のプログラムは、電気通信回線を介して送信されてもよい。

ユーザー制御部２３１は、ユーザーに関する制御処理を行う。例えば、ユーザー制御部２３１は、会話制御装置２０にアクセスしてくるユーザー端末１０についてログインのための処理（例えば認証処理）を行ってもよい。ユーザー制御部２３１は、ユーザー端末１０から受信されたユーザー情報をユーザー情報記憶部２２１に登録してもよい。

会議室制御部２３２は、会議室に関する制御処理を行う。例えば、会議室制御部２３２は、会議室を新たに設置することについてユーザー端末１０から指示を受けた場合には、受信される情報に基づいて会議室情報を生成し、会議室情報記憶部２２２に登録してもよい。また、会議室制御部２３２は、会議室を設置するタイミングになった場合には、その会議室を仮想的に設置する。会議室を設置するタイミングとは、例えば即時に会議室を新設することについてユーザー端末１０から指示された場合にはその時であるし、予め会議室の設置の予約が登録されていた場合にはその日時が到来した時である。会議室制御部２３２は、ユーザーによって会議室へ参加するための所定の操作が行われた場合、所定の条件が満たされると、その会議室へユーザーを参加させるための処理を行う。例えば、会議室制御部２３２は、会議室情報記憶部２２２を更新することによって、会議室に新たなユーザーが参加したことを登録する。

表示情報生成部２３３は、ユーザー端末１０において表示される画像の生成に必要となる情報（表示情報）を生成する。表示情報は、例えば現在設置されている会議室に関する情報や、各会議室に入室している各ユーザー端末１０のユーザーに関する情報を含んでもよい。表示情報は、さらに付加画像決定部２３６において決定された付加画像を含んでもよい。表示情報生成部２３３は、生成された表示情報を、ユーザー端末１０に対して送信する。

会話制御部２３４は、ユーザー端末１０から音声データを受信する。会話制御部２３４は、各ユーザー端末１０に対して出力されるべき音声データ（以下「会話音声データ」という。）を生成し、各ユーザー端末１０に会話音声データを送信する。会話制御部２３４は、例えば各ユーザー端末１０に対し、そのユーザーが入室している会議室における会話音声データを送信してもよい。

認識部２３５は、各会議室の会話について認識結果を取得する。認識部２３５は、各会話を示す文字列（音声認識の結果）を取得してもよいし、各会話における関連単語を取得してもよい。認識部２３５は、認識処理そのものを実行することで認識結果を取得してもよいし、認識処理の実行を認識装置３０に対して依頼し認識結果を取得してもよい。このような認識処理は、例えば予め行われた学習処理の結果を用いることで行われてもよい。認識部２３５は、各ユーザーの発話について認識結果を取得してもよい。認識部２３５は、各発話を示す文字列（音声認識の結果）を取得してもよいし、各発話における関連単語を取得してもよい。各ユーザーの発話に関して取得された認識結果は、各ユーザーのユーザー情報としてユーザー情報記憶部２２１に登録される。会議室の会話に関して取得された認識結果は、各会議室の会議室情報として会議室情報記憶部２２２に登録される。

付加画像決定部２３６は、ユーザーの画像とともに表示される画像（付加画像）を決定する。付加画像決定部２３６は、例えば画像情報記憶部２２３に記憶されている複数の画像情報の中から、その画像情報に対応付けられている関連情報に基づいて画像情報を付加画像として選択してもよい。

例えば、付加画像決定部２３６は、各画像情報に対応付けて記録されている関連情報と、認識部２３５によって取得された各ユーザーの発話に関する認識結果と、に基づいて画像情報を選択してもよい。より具体的には、付加画像決定部２３６は、各画像情報に対応付けて記録されている関連情報と、認識部２３５によって取得された各ユーザーの発話に関する認識結果と、が一致する画像情報を選択してもよい。

例えば、付加画像決定部２３６は、各画像情報に対応付けて記録されている関連情報が示す条件を、ユーザーの発話の状況が満たした場合に、その画像情報を選択してもよい。関連情報が示す条件とは、例えばユーザーの発話内容に特定の文字列が含まれていることや、ユーザーの発話の音量が閾値を超えていることなどであってもよい。

付加画像決定部２３６は、例えばユーザー情報やユーザーの発話の認識結果において得られる文字列を含むタグ画像を生成し、タグ画像を付加画像として決定してもよい。ユーザーの発話の認識結果は、例えば認識部２３５の認識結果であってもよい。

図６は、認識装置３０の機能構成の具体例を示す概略ブロック図である。認識装置３０は、例えばパーソナルコンピューターやサーバー装置などの情報処理装置を用いて構成される。認識装置３０は、通信部３１、記憶部３２及び制御部３３を備える。

通信部３１は、通信機器である。通信部３１は、例えばネットワークインターフェースとして構成されてもよい。通信部３１は、制御部３３の制御に応じて、ネットワーク４０を介して他の装置とデータ通信する。通信部３１は、無線通信を行う装置であってもよいし、有線通信を行う装置であってもよい。

記憶部３２は、磁気ハードディスク装置や半導体記憶装置等の記憶装置を用いて構成される。記憶部３２は、制御部３３によって使用されるデータを記憶する。記憶部３２は、例えば制御部３３の認識部３３１が認識処理を行う際に使用するデータを記憶する。このようなデータの具体例として、予め学習処理を行うことによって得られる学習済みモデルのデータがある。

制御部３３は、ＣＰＵ等のプロセッサーとメモリーとを用いて構成される。制御部３３は、プロセッサーがプログラムを実行することによって、認識部３３１として機能する。なお、制御部３３の各機能の全て又は一部は、ＡＳＩＣやＰＬＤやＦＰＧＡ等のハードウェアを用いて実現されても良い。上記のプログラムは、コンピューター読み取り可能な記録媒体に記録されても良い。コンピューター読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、半導体記憶装置（例えばＳＳＤ）等の可搬媒体、コンピューターシステムに内蔵されるハードディスクや半導体記憶装置等の記憶装置である。上記のプログラムは、電気通信回線を介して送信されてもよい。

認識部３３１は、ユーザー端末１０又は会話制御装置２０から認識処理の要求を受けると、要求された音声について認識処理を実行する。例えば、認識処理は、音声データに対する音声認識処理であってもよいし、音声認識処理の結果として得られたテキストデータについて関連単語を取得する処理であってもよい。認識部３３１が関連単語を取得する処理は、例えば以下のように行われてもよい。上述したように記憶部３２は、予め得られた学習済みモデルを記憶している。この学習済みモデルは、例えば発話の音声データ又は音声認識結果の文字データと、その発話における関連単語と、を対応付けた教師データを用いて機械学習を行うことによって得られる。認識部３３１は、記憶部３２に記憶されている学習済みモデルに基づいて、ユーザー端末１０又は会話制御装置２０から要求された処理対象の音声に対して認識処理を行うことで、処理対象の音声における関連単語を取得する。

認識部３３１は、認識処理の結果を、会話制御装置２０に送信する。例えば、認識部３３１は、ユーザー端末１０から認識処理の依頼を受けた場合であっても、認識結果（例えば取得された関連単語）に発話者を示すユーザーＩＤを対応付けて会話制御装置２０に送信する。

次に、ユーザー端末１０において表示される画像について説明する。

図７は、ユーザー端末１０の表示部１３に表示される画像の具体例を示す図である。図７において、表示部１３には、会議室内画面が表示されている。会議室内画面とは、ユーザーが会議室に入室している最中に表示される画像である。会議室内画面では、その会議室に入室している一部又は全部のユーザーの画像が表示される。表示される画面は１又は複数のユーザー領域５１で形成される。各ユーザー領域５１には、入室しているユーザーの画像が表示される。ユーザー領域５１に表示される各ユーザーの画像は、カメラで撮影されている動画像であってもよいし、静止画像（例えばアイコン画像）であってもよい。

各ユーザー領域５１には、タグ画像４３が表示される。一つのユーザー領域５１に対して、一つのタグ画像４３が関連づけられて表示されてもよいし、複数のタグ画像４３が関連づけて表示されてもよい。複数のユーザー領域５１が表示される場合には、各ユーザー領域５１に関連づけられるタグ画像４３の数は全て同じであってもよいし異なってもよい。

タグ画像４３には、関連づけられているユーザー領域５１のユーザーの発話において取得された関連単語の文字列や、ユーザー情報（例えば属性情報やプロフィールの情報）を示す文字列の一部や全部が表示される。例えば、左上のユーザー領域５１のタグ画像４３には、“バスケ”という単語と“横浜”という単語と“ＩＴエンジニア”という単語とが表示されている。このうち、例えば“バスケ”はユーザーの過去の発話から得られた関連単語の文字列であり、“横浜”はユーザー情報から得られた属性情報（例えば出身地）を示す文字列であり、“ＩＴエンジニア”はユーザー情報から得られた属性情報（例えば現在の職業）を示す文字列であってもよい。ユーザーの過去の発話とは、現在開催されている会議室における会話での発話に限られる必要は無い。例えば、ユーザーの過去の発話とは、既に終了している過去の会議室におけるそのユーザーの発話であってもよい。その過去の会議室には、現在開催中の会議室におけるユーザーが必ずしも参加していなくてもよい。他のユーザー領域５１の画像についても同様である。

このようなタグ情報が表示されることによって、表示されている他のユーザーに関して、どのようなユーザーであるのか判断することが可能となる。例えば、過去の会話においてどのような発言をしてきたユーザーであるかや、そのユーザーのプロフィール等に関する情報を容易に取得することができる。

図８は、ユーザー端末１０の表示部１３に表示される画像の具体例を示す図である。図８において、表示部１３には、図７において各ユーザー領域５１のユーザーが発話を行った後の画像が表示されている。

左上のユーザー領域５１には、図４に示される画像情報が示す画像がユーザーの画像とともに表示されている。例えば、左上のユーザー領域５１に対応付けられたユーザーが、その発話の内容や音量等に基づいて傲慢の感情であると判定されたことに応じて、このような画像情報の画像とともにユーザー画像が表示されてもよい。

左上のユーザー領域５１には、図７の状態に比べてさらに“ドヤッ”という文字列を含むタグ画像４３が追加して表示されている。例えば、左上のユーザー領域５１に対応付けられたユーザーが、その発話の内容や音量等に基づいて傲慢の感情であると判定されたことに応じて、このような文字列を含むタグ画像４３がさらに追加でユーザー領域５１内に表示されてもよい。

右下のユーザー領域５１には、図５に示される画像情報が示す画像がユーザーの画像とともに表示されている。例えば、右下のユーザー領域５１に対応付けられたユーザーが、その発話の内容や音量等に基づいて怒りの感情であると判定されたことに応じて、このような画像情報の画像とともにユーザー画像が表示されてもよい。

右下のユーザー領域５１には、図７の状態に比べてさらに“怒り”という文字列を含むタグ画像４３が追加して表示されている。例えば、右下のユーザー領域５１に対応付けられたユーザーが、その発話の内容や音量等に基づいて怒りの感情であると判定されたことに応じて、このような文字列を含むタグ画像４３がさらに追加でユーザー領域５１内に表示されてもよい。特定の文字列（例えば“怒り”）を含むタグ画像４３では、その文字やタグ画像４３が他のタグ画像とは異なる態様で表示されてもよい。例えば、図８に示される例では、“怒り”を含むタグ画像４３では、“怒り”の文字列の色が他のタグ画像と異なる色（例えば赤）であり、他のタグ画像とは異なる属性（例えば太文字）で表示されてもよい。

このように画像情報やタグ画像４３がユーザー領域５１において表示されることによって、ネットワークを介して行われる会話や会議において、状況の変化をより容易に参加者に認識させることが可能となる。すなわち、参加するユーザーの数が多くなることに応じてユーザー領域５１が小さくなる場合があるが、このような場合であっても、画像情報やタグ画像４３はユーザー個々の表情や動きよりも認識しやすい。そのため、状況を認識しやすくすることが可能である。

図９は、会話システム１００の処理の流れの具体例を示すシーケンスチャートである。より具体的には、図９は、ユーザー端末１０においてタグ画像４３等の画像や文字が表示される際の処理の流れの具体例を示す。まず、ユーザー端末１０の認識制御部１７４が所定のタイミングで発話情報を認識装置３０に送信する（ステップＳ１０１）。

認識装置３０の認識部３３１は、受信された発話情報に基づいて認識処理を実行し、関連単語を取得する（ステップＳ１０２）。認識部３３１は、取得された関連単語と、関連単語が取得された発話情報に関連づけられているユーザーＩＤと、を含む情報（以下「関連単語情報」という。）を生成する。認識部３３１は、生成された関連単語情報を会話制御装置２０に送信する（ステップＳ１０３）。

会話制御装置２０の認識部２３５は、受信された関連単語情報を会議室情報記憶部２２２に記録する（ステップＳ１０４）。例えば、認識部２３５は、関連単語情報に含まれるユーザーＩＤに応じたユーザーに関連単語を対応付けて記録する。画像選択部２３６は、認識部２３５における認識結果に基づいて、ユーザーＩＤに応じたユーザーの画像とともに表示される画像情報を選択する（ステップＳ１０５）。このとき、画像選択部２３６は、必ずしも画像情報を選択する必要はない。関連情報に基づいて、選択されるべき画像情報が存在する場合にのみ画像情報が選択されればよい。

表示情報生成部２３３は、会議室情報記憶部２２２に記録されている会議室情報に基づいて表示情報を生成する（ステップＳ１０６）。この表示情報には、関連単語等に基づいて選択された画像情報やタグ画像４３が含まれてもよい。表示情報生成部２３３は、生成された表示情報をユーザー端末１０に送信する（ステップＳ１０７）。ユーザー端末１０の表示制御部１７１は、受信された表示情報に基づいて表示部１３に画像や文字を表示する（ステップＳ１０８）。

画像情報は、予め学習処理を行うことによって得られた学習済モデルとユーザーの発話内容とに基づいて動的に生成されてもよい。例えば、ＧＡＮ等の技術を用いてこのような画像の生成が行われてもよい。

画像選択部２３６は、ユーザーの発話内容ではなく、ユーザーの画像に基づいて画像情報を選択してもよい。例えば、ユーザーの顔の画像に基づいて表情又は感情の推定が行われた結果として“怒り”等の表情又は感情を示す情報が得られる場合には、このような情報に基づいて画像情報が選択されてもよい。このような表情又は感情の推定は、例えば認識部２３５によって行われてもよいし、認識装置３０によって行われてもよい。このように、画像選択部２３６は、ユーザーの状況（発話の内容や画像）に基づいて画像情報を選択する。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１００…会話システム，１０…ユーザー端末，２０…会話制御装置，３０…認識装置，１１…通信部，１２…操作部，１３…表示部，１４…音声入力部，１５…音声出力部，１６…記憶部，１６１…ユーザー情報記憶部，１６２…発話情報記憶部，１７…制御部，１７１…表示制御部，１７２…会議制御部，１７３…会話制御部，１７４…認識制御部，２１…通信部，２２…記憶部，２２１…ユーザー情報記憶部，２２２…会議室情報記憶部，２２３…画像情報記憶部，２３…制御部，２３１…ユーザー制御部，２３２…会議室制御部，２３３…表示情報生成部，２３４…会話制御部，２３５…認識部，２３６…画像選択部，３１…通信部，３２…記憶部，３３…制御部，３３１…認識部，４１…会議室領域画像，４２…アイコン画像，４３…タグ画像，４４…プロフィール画像，５１…ユーザー領域

Claims

ネットワークを介して複数のユーザーによって行われている会話において、ユーザーの画像とともに表示される付加画像を決定する付加画像決定部と、
前記ユーザーの画像と、前記付加画像決定部によって決定された付加画像と、をユーザーによって使用されるユーザー端末に表示させるために必要な表示データを生成する表示情報生成部と、
前記複数のユーザーによって行われる会話を制御する会話制御部と、
を備える会話制御装置。
前記ユーザーの発話に関連すると推定される単語である関連単語を取得する認識部をさらに備え、
前記付加画像決定部は、前記認識部において取得された前記関連単語に基づいて前記画像情報を選択する、請求項１に記載の会話制御装置。
前記ユーザーの画像に基づいて表情又は感情の推定を行う認識部をさらに備え、
前記付加画像決定部は、前記認識部において取得された表情又は感情に基づいて前記画像情報を選択する、請求項１に記載の会話制御装置。
前記付加画像決定部は、前記ユーザーに関する情報であるユーザー情報に基づいて得られる１又は複数の文字列を含むタグ画像を前記付加画像として決定する、請求項１に記載の会話制御装置。
ネットワークを介して複数のユーザーによって行われている会話において、ユーザーの画像とともに表示される付加画像を決定する付加画像決定ステップと、
前記ユーザーの画像と、前記付加画像決定ステップにおいて決定された付加画像と、をユーザーによって使用されるユーザー端末に表示させるために必要な表示データを生成する表示情報生成ステップと、
前記複数のユーザーによって行われる会話を制御する会話制御ステップと、
を有する会話制御方法。
請求項１から４のいずれか一項に記載の会話制御装置としてコンピューターを機能させるためのコンピュータープログラム。