JP2021135935A

JP2021135935A - コミュニケーション管理装置及び方法

Info

Publication number: JP2021135935A
Application number: JP2020033828A
Authority: JP
Inventors: 篤掛村; Atsushi Kakemura; 秀樹筒井; Hideki Tsutsui
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2021-09-13
Also published as: US20230083706A1; CN115004297A; WO2021172124A1

Abstract

【課題】複数のユーザ間での情報伝達の品質向上を支援する。【解決手段】実施形態のコミュニケーションシステムは、一の移動通信端末から受信した発話音声データを他の複数の移動通信端末それぞれに同報配信する第１制御部と、受信した発話音声データを音声認識処理して得られる発話音声認識結果を、ユーザ同士のコミュニケーション履歴として時系列に蓄積するとともに、各移動通信端末においてコミュニケーション履歴が同期して表示されるようにテキスト配信制御を行う第２制御部と、を有するコミュニケーション制御部と、受信した発話音声データの音声品質評価処理を行い、音声品質評価結果を出力する発話音声評価部と、を備える。コミュニケーション制御部は、発話音声に基づく音声認識結果及び対応する音声品質評価結果が、複数の各ユーザ端末において表示されるようにテキスト配信制御を行う。【選択図】図１

Description

本発明の実施形態は、音声及びテキストを使用したコミュニケーション（認識共有、意思疎通など）支援技術に関する。

音声コミュニケーションの一例として、トランシーバ(transceiver)がある。トランシーバは、無線電波の送信機能と受信機能を兼ね備えた無線機であり、１人のユーザが複数人のユーザと通話（一方向又は双方向の情報伝達）を行うことができる。トランシーバの活用例は、工事現場やイベント会場、ホテルや旅館などの施設等で目にすることができる。また、タクシー無線もトランシーバ活用の一例として挙げることができる。

特開２０００−１５５６００号公報特許第４６７８７７３号

ユーザの発話音声の聴き取り易さの評価結果を、コミュニケーショングループ内で共有する環境を実現し、複数のユーザ間での情報伝達の品質向上を支援することを目的とする。

実施形態のコミュニケーションシステムは、複数の各ユーザがそれぞれ携帯する移動通信端末を通じて、ユーザの発話音声を他のユーザの移動通信端末に同報配信する。本コミュニケーションシステムは、移動通信端末から受信した発話音声データを他の複数の移動通信端末それぞれに同報配信する第１制御部と、受信した発話音声データを音声認識処理して得られる発話音声認識結果を、ユーザ同士のコミュニケーション履歴として時系列に蓄積するとともに、前記各移動通信端末において前記コミュニケーション履歴が同期して表示されるようにテキスト配信制御を行う第２制御部と、を有するコミュニケーション制御部と、受信した発話音声データの音声品質評価処理を行い、音声品質評価結果を出力する発話音声評価部と、を備える。前記コミュニケーション制御部は、発話音声に基づく前記音声認識結果及び対応する音声品質評価結果が、複数の前記各ユーザ端末において表示されるようにテキスト配信制御を行う。

第１実施形態のコミュニケーションシステムのネットワーク構成図である。第１実施形態のコミュニケーション管理装置及びユーザ端末の各構成ブロック図である。第１実施形態のユーザ情報及びグループ情報の一例を示す図である。第１実施形態のユーザ端末に表示される画面例である。第１実施形態の音声波形の一例と、音声品質評価情報の一例を示す図である。第１実施形態のコミュニケーションシステムの処理フローを示す図である。第１実施形態の音声品質評価履歴に基づく品質向上又は品質低下に応じたバイブレーション制御の一例を示す処理フローである。第１実施形態のコミュニケーショングループ内の各ユーザの音声品質評価結果の統計履歴の表示例を示す図である。第２実施形態のコミュニケーション管理装置及びユーザ端末の各構成ブロック図である。第２実施形態のユーザ位置別評価カスタマイズ情報の一例を示す図である。第２実施形態のコミュニケーションシステムの処理フローを示す図である。

（第１実施形態）
図１から図８は、第１実施形態に係るコミュニケーションシステムのネットワーク構成図である。コミュニケーションシステムは、コミュニケーション管理装置（以下、管理装置と称する）１００を中心に、音声及びテキストを用いた情報伝達支援機能を提供する。以下では、宿泊施設などの施設運営管理を一例に、コミュニケーションシステムを適用した態様について説明する。

管理装置１００は、複数の各ユーザがそれぞれ携帯する各ユーザ端末（移動通信端末）５００と無線通信で接続される。管理装置１００は、一のユーザ端末５００から受信した発話音声データを、他のユーザ端末５００に同報配信する。

ユーザ端末５００は、例えば、スマートフォンなどの多機能携帯電話機やＰＤＡ(Personal Digital Assistant)、タブレット型端末などの持ち運び可能な携帯端末（モバイル端末）である。ユーザ端末５００は、通信機能、演算機能及び入力機能を備え、ＩＰ（Internet protocol）網又は移動通信回線網（Mobile communication network）を通じて無線通信で管理装置１００と接続し、データ通信を行う。

一のユーザの発話音声が他の複数のユーザ端末５００に同報配信される範囲（又は後述するコミュニケーション履歴が同期して表示される範囲）は、コミュニケーショングループとして設定され、対象ユーザ（現場ユーザ）のユーザ端末５００それぞれが登録される。

本実施形態のコミュニケーションシステムは、複数の各ユーザがハンズフリーで対話を行うことができることを前提とした、認識共有や意思疎通のための情報伝達を支援する。特に、本コミュニケーションシステムは、ユーザの発話音声の聴き取り易さを評価し、コミュニケーショングループ内での評価結果の共有機能及び発話したユーザへの評価結果のフィードバック機能を提供する。これにより、ユーザ間の情報伝達の品質向上を促進させる。

１対１の発話や１対多の発話において、ユーザの発話音声が聴き取り難いと、情報伝達が円滑に行われないことがある。例えば、聞き直したり、発話内容とは異なった解釈で情報が伝達されてしまったりする。聞き直しは、情報伝達効率が低下するので、時間的なロスが発生し、ユーザアクションの遅延などの非効率化を招くおそれがある。また、異なった解釈で情報伝達が行われると、作業ミスや作業のやり直しが生じてしまう。

一方で、ユーザの発話音声が聴き取り辛かったり耳障りだったりすると、不快感をユーザに与えやすい。コミュニケーション環境は、ユーザの発話音声が他のユーザに快く聴こえれば、複数の各ユーザ間で円滑な情報伝達の環境（例えば、作業しやすい環境）を構築し易くなる。

しかしながら、多数のユーザのコミュニケーショングループにおいて、各ユーザに聴き取りやすい発話を指導したり、煩わしい発話音声を改善するように指導したりすることは、労力的、時間的、人間関係的にも難しい側面がある。このため、ユーザ自身が自発的に、自分の発話音声に改善が必要であることを認識し、かつ改善に向けたユーザアクションを起こしやすい環境が必要である。

本コミュニケーションシステムは、各ユーザの発話音声の品質を評価し、自主的に改善を促すことができる環境として、コミュニケーショングループ内で各ユーザの発話音声品質の評価結果を共有する機能を提供する。また、ユーザ自身に自分の発話音声の品質の良し悪しをフィードバックする機能を追加的に提供することで、より発話音声の品質向上に向けたユーザアクションを起こしやすい環境を実現し易くする。

なお、以下の説明では、本コミュニケーションシステムが、コミュニケーショングループ内で各ユーザの発話音声品質の評価結果を共有する機能と、ユーザ自身に自分の発話音声の品質の良し悪しをフィードバックする機能の双方を備えた態様を一例に説明しているが、コミュニケーショングループ内で各ユーザの発話音声品質の評価結果を共有する機能のみを備えるシステム構成であってもよい。

図２は、管理装置１００及びユーザ端末５００の各構成ブロック図である。

管理装置１００は、制御装置１１０、記憶装置１２０及び通信装置１３０を含む。通信装置１３０は、複数の各ユーザ端末５００との間の通信接続管理及びデータ通信制御を行い、一のユーザによる発話音声データ及びその発話内容のテキスト情報（発話音声データを音声認識処理して得られたテキスト情報）を複数の各ユーザ端末５００に一斉に送る同報配信通信制御を行う。

制御装置１１０は、ユーザ管理部１１１、コミュニケーション制御部１１２、音声認識部１１３、音声合成部１１４、及び発話音声評価部１１５を含んで構成されている。記憶装置１２０は、ユーザ情報１２１、グループ情報１２２、コミュニケーション履歴（コミュニケーションログ）情報１２３、音声認識辞書１２４、音声合成辞書１２５及び音声品質評価情報を含んで構成されている。

音声合成部１１４及び音声合成辞書１２５は、ユーザ端末５００からテキスト入力された文字情報や、ユーザ端末５００以外の情報入力装置（例えば、管理者や運営者、監督者が操作するモバイル端末やデスクトップＰＣ）からテキスト入力された文字情報を受信し、音声データに変換する音声合成機能を提供する。しかしながら、本実施形態のコミュニケーションシステムの音声合成機能は、任意の機能である。つまり、本実施形態のコミュニケーションシステムは、当該音声合成機能を具備しない構成であってもよい。音声合成機能を備える場合、管理装置１００のコミュニケーション制御部１１２は、ユーザ端末５００から入力されたテキスト情報を受信し、音声合成部１１４が音声合成辞書１２５を用いて、受信したテキストの文字に対応する音声データを合成し、音声合成データを生成する。このとき、音声合成データを構成する音声データの素材は、任意である。そして、合成音声データ及び受信したテキスト情報を、他のユーザ端末５００に同報配信する。

ユーザ端末５００は、通信・通話部５１０、コミュニケーションＡｐｐ制御部５２０、マイク５３０、スピーカー５４０、タッチパネル等の表示入力部５５０、及び記憶部５６０を含んで構成されている。なお、スピーカー５４０は、実際には、イヤホンやヘッドホン（有線又はワイヤレス）などで構成される。また、バイブレーション装置５７０は、ユーザ端末５００の振動装置である。

図３は、各種情報の一例を示す図であり、ユーザ情報１２１は、本コミュニケーションシステムを利用するユーザ登録情報である。ユーザ管理部１１１は、所定の管理画面を通じて、ユーザＩＤ、ユーザ名、属性、グループを設定することができるように制御する。また、ユーザ管理部１１１は、各ユーザ端末５００における本コミュニケーションシステムへのログイン履歴と、ログインしたユーザＩＤとそのユーザ端末５００の識別情報（ユーザ端末５００固有のＭＡＣアドレスや固体識別情報など）との対応リストと、を管理する。

グループ情報１２２は、コミュニケーショングループの区画するグループ識別情報である。コミュニケーショングループＩＤ別に伝達情報の送受信及び同報配信を制御し、異なるコミュニケーショングループ間で情報が混在しないように制御される。ユーザ情報１２１において、グループ情報１２２に登録されたコミュニケーショングループを、各ユーザに紐付けることができる。

本実施形態のユーザ管理部１１１は、複数の各ユーザの登録制御を行い、後述する第１制御（発話音声データの同報配信）及び第２制御（エージェント発話テキストまたは／及びユーザの発話音声認識結果のテキスト同報配信）の対象のコミュニケーショングループを設定する機能を提供する。

なお、グループ分けについては、本実施形態のコミュニケーションシステムを導入する施設等に応じて施設を複数の部門に分割して管理することもできる。例えば、宿泊施設を一例に説明すると、ベルパーソン（荷物運び）、コンシェルジュ、ハウスキーピング（清掃）をそれぞれ異なるグループに設定し、客室管理をそれぞれのグループ毎に細分化したコミュニケーション環境を構築することもできる。他の観点として、役割的にコミュニケーションが不要なケースも考えられる。例えば、料理の配膳係と、ベルパーソン（荷物運び）は、直接コミュニケーションをとる必要がないのでグループを分けることができる。また、地理的にコミュニケーションが不要なケースも考えられ、例えば、Ａ支店、Ｂ支店などが地理的に離れており、かつ頻繁にコミュニケーションをする必要がない場合などは、グループを分けることができる。

管理装置１００のコミュニケーション制御部１１２は、第１制御部と第２制御部の各制御部として機能する。第１制御部は、一のユーザ端末５００から受信した発話音声データを他の複数のユーザ端末５００それぞれに同報配信制御を行う。第２制御部は、受信した発話音声データを音声認識処理して得られる発話音声認識結果を、ユーザ同士のコミュニケーション履歴１２３として時系列に蓄積するとともに、発話したユーザのユーザ端末５００を含む全てのユーザ端末５００においてコミュニケーション履歴１２３が同期して表示されるようにテキスト配信制御を行う。

第１制御部としての機能は、発話音声データの同報配信である。発話音声データは、主に、ユーザが発声した音声データである。また、上述したように、音声合成機能を備える場合は、ユーザ端末５００から入力されたテキスト情報から人工的に生成された音声合成データも、第１制御部による同報配信の対象となる。

第２制御部としての機能は、ユーザの発話音声認識結果のテキスト同報配信である。ユーザ端末５００において入力された音声及びユーザ端末５００において再生される音声は、すべてテキスト化されてコミュニケーション履歴１２３に時系列に蓄積され、各ユーザ端末５００において同期して表示されるように制御される。音声認識部１１３は、音声認識辞書１２４を用いて音声認識処理を行い、発話音声認識結果としてテキストデータを出力する。音声認識処理については公知の技術を適用することができる。

また、発話音声評価部１１５は、受信したユーザの発話音声、すなわち、他のユーザに同報配信する発話音声データに対し、所定の音声品質評価処理を行い、音声品質評価結果を生成する。

本実施形態では、各音声品質評価結果が、コミュニケーション履歴１２３に蓄積されるユーザの発話音声認識結果に紐付けられて蓄積される。そして、第２制御部は、ユーザの発話音声認識結果とその音声品質評価結果をセットにして、テキスト同報配信を行う。

このとき、コミュニケーション制御部１１２（例えば、第２制御部）は、発話したユーザ、つまり、音声品質評価処理が行われた音声データの発話者に対し、フィードバック処理を行う。フィードバック処理については後述する。

コミュニケーション履歴情報１２３は、各ユーザの発話内容が時間情報と共に、テキストベースで時系列に蓄積されたログ情報である。各テキストに対応する音声データは、音声ファイルとして所定の記憶領域に格納しておくことができ、例えば、コミュニケーション履歴１２３には、音声ファイルの格納場所を記録する。コミュニケーション履歴情報１２３は、コミュニケーショングループ別にそれぞれ生成され、蓄積される。なお、音声品質評価結果は、コミュニケーション履歴情報１２３に含まれるように蓄積したり、対応する発話内容と紐付けて個別の記憶領域に蓄積したりしてもよい。

図４は、各ユーザ端末５００で表示されるコミュニケーション履歴１２３の一例を示す図である。ユーザ端末５００それぞれは、管理装置１００からリアルタイムに又は所定のタイミングでコミュニケーション履歴１２３を受信し、複数のユーザ間で表示同期が取られる。各ユーザは、時系列に過去のコミュニケーションログを参照することができる。

図４の例のように、各ユーザ端末５００は、自分の発話内容及び自分以外の他のユーザの発話内容が表示欄Ｄに時系列に表示され、管理装置１００に蓄積されるコミュニケーション履歴１２３がログ情報として共有される。なお、表示欄Ｄにおいて、ユーザ自身の発話音声に対応するテキストには、マイクマークＨを表示し、発話者以外の他のユーザに対しては、マイクマークＨの代わりに、表示欄ＤにおいてスピーカーマークＭを表示したりすることができる。

また、図４に示すように、表示欄Ｄの発話内容の各テキスト表示欄には、音声品質評価情報（音声品質評価コメント）Ｃが一緒に表示されている。

ここで、ユーザの発話音声に対する音声品質評価処理について説明する。図５は、音声波形の一例と、音声品質評価情報の一例を示す図である。

図５に示す音声波形例は、縦軸が振幅、横軸が時間である。聴き取り難い発話の例としては、「声が大きい発話」が挙げられる。ユーザの声が大きいと、マイクで集音される音域の上限（音声入力上限値）を超えてしまい、発話全体で音がこもった音声となり、一般的に聴き取り辛い。つまり、ユーザの声が大きいと、図５の例のように、塗りつぶされた振幅波形の連続となり、発話を構成する子音、母音の各波形の特徴が聴こえ難くなる。また、マイクの性能にもよるが、音声入力上限値を超えた部分は一律カットされるので、子音、母音の振幅波形の特徴が捉え辛くなる。なお、ユーザ自身の声が大きいケース以外にも、マイクとユーザの口との距離が近くなることで低い音が強調されるケースも、声が大きいケースと同様の理由により、聴き取り辛い。

一方で、声が小さいケースも、聴き取り辛いことがある。声が小さい場合は、声が大きい場合とは逆に、振幅波形が小さくなり、発話を構成する子音、母音の各波形の特徴も聴こえ難くなる。さらに、周囲の騒音（ノイズ）の影響で発話内容が聴き取り辛いことがある。

本実施形態では、このような聴き取り難い、聴こえ辛い、言い換えれば、聴き取りやすい、聴こえやすいといった観点で、ユーザの発話音声品質を定量的に評価する指標として、図５に示す音声品質評価情報を予め設定する。音声品質評価情報は任意に設定することができる。例えば、オピニオン評価法で主観品質評価された複数のサンプル音声を用いて、音声の振幅等の物理的特徴を抽出・推定し、ランク分けされた客観品質評価を作成する。作成した客観品質評価の物理的特徴と、ユーザの発話音声データの物理的特徴とをマッチングし、発話音声データの音声品質を評価することができる。

図５の例では、音声評価ランクが、「良い」、「普通」、「悪い」の３段階に区分されており、ランク別に１つ又は複数の評価設定値が規定されている。各音声評価ランクに対して設けられる評価設定値は、例えば、受信した発話音声データの振幅波形と音声入力上限値との関係を評価基準として設定することができる。また、音声評価ランク毎に、１つ又は複数の音声品質評価コメントが設定されている。なお、一例として、音声評価ランク「悪い」は、３つの評価設定値が設定されており、各評価設定値別に異なる音声品質評価コメントを設定するように構成してもよい。音声評価ランクのランク分けや各ランクに対応する評価設定値、音声品質評価コメントは任意である。

音声品質評価コメントは、例えば、音声評価ランク「良い」に対して「Ｃｌｅａｒ」を、音声評価ランク「普通」に対して、「ＯＫ」を、音声評価ランク「悪い」に対して複数の「ＴｏｏＬｏｕｄ」、「ＳｍａｌｌＶｏｉｃｅ」、「ＴｏｏＮｏｉｓｙ」を設定することができる。

コミュニケーション制御部１１２（第２制御部）は、音声認識結果と一緒に音声品質評価コメント（音声品質評価結果）をテキスト同報配信し、コミュニケーショングループ内の各ユーザで音声品質評価結果を共有させる。

一方で、発話音声が評価されたユーザに対しては、フィードバック機能を提供する。図５の例において、フィードバック制御情報として、音声評価ランク別に１つ又は複数のバイブレーション制御値が設定されている。バイブレーション制御値とは、ユーザ端末５００のバイブレーション装置５７０の制御コマンド（振動パターンを含む）である。バイブレーション制御値は、評価対象のユーザ端末５００に出力される。コミュニケーション制御部１１２（第２制御部）は、評価対象のユーザ端末５００に対しては、音声認識結果、音声品質評価コメント及びバイブレーション制御値を配信し、評価対象以外のユーザ端末５００に対しては、音声認識結果及び音声品質評価コメントを配信する。また、音声品質評価コメントは、音声品質評価結果としてコミュニケーション履歴１２３に格納される。

ユーザ端末５００は、受信したテキスト情報の表示制御に伴って、バイブレーション制御値を受信した場合、バイブレーション装置５７０を動作させてユーザ端末５００を振動させる。これにより、ハンズフリーを前提としてユーザ端末５００を使用するユーザに、音声品質評価結果をフィードバックして知らせることができる。

なお、バイブレーション制御値は、複数のパターンを用意し、各評価内容に応じて適宜設定することができる。例えば、声が大きいと評価された場合のバイブレーション制御値Ａ−１と、声が小さいと評価された場合のバイブレーション制御値Ａ−２とが、異なる振動パターン（振動リズムパターン）に設定されている。

さらに、バイブレーション制御値は、所定の条件を満たす場合にユーザ端末５００に提供するように構成してもよい。所定の条件は、例えば、音声評価ランク「悪い」のときだけバイブレーション制御値を出力し、音声評価ランクが「良い」ときと「普通」のときは、出力しないように制御し、ユーザに音声品質が悪くなっていないことを把握できるようにすることもできる。

図６は、本実施形態のコミュニケーションシステムの処理フローを示す図である。

各ユーザは、ユーザ端末５００において、コミュニケーションＡｐｐ制御部５２０を起動し、コミュニケーションＡｐｐ制御部５２０が管理装置１００との接続処理を行う。そして、所定のログイン画面から自分のユーザＩＤ及びパスワードを入力して管理装置１００にログインする。ログイン認証処理は、ユーザ管理部１１１によって遂行される。ログイン後の各ユーザ端末５００は、任意のタイミングで又は所定の時間間隔で、管理装置１００との間で情報取得処理を行う。

ユーザＡが発話すると、コミュニケーションＡｐｐ制御部５２０は、発話音声を集音し、発話音声データを管理装置１００に送信する（Ｓ５０１ａ）。管理装置１００の音声認識部１１３は、受信した発話音声データを音声認識処理し（Ｓ１０１）、発話内容の音声認識結果を出力する。また、発話音声評価部１１５は、音声認識処理と並行に又は個別に、音声品質評価情報に基づいて、受信した発話音声データに対する音声品質評価処理を行い、音声品質評価結果を出力する（Ｓ１０２）。コミュニケーション制御部１１２は、音声認識結果とその音声品質評価結果をコミュニケーション履歴１２３に記憶し、発話音声データを記憶装置１２０に記憶する（Ｓ１０３）。

コミュニケーション制御部１１２は、発話音声品質評価部１１５から出力された音声品質評価結果に基づいてバイブレーション制御値を評価対象のユーザ端末５００に送信するか否かを判別する処理を行う（Ｓ１０４）。バイブレーション制御値を評価対象のユーザ端末５００に送信すると判別された場合（Ｓ１０４のＹＥＳ）、コミュニケーション制御部１１２は、評価対象であるユーザＡのユーザ端末５００に、表示同期のための音声品質評価結果を含む音声認識結果と共に、バイブレーション制御値を送信する（Ｓ１０５）。一方、発話したユーザＡ以外の他のユーザ端末５００それぞれには、ユーザＡの発話音声データを同報送信すると共に、表示同期のための音声品質評価結果を含む音声認識結果のテキスト配信を行う。

まず、ユーザＡのユーザ端末５００のバイブレーション装置５７０は、受信したバイブレーション制御値に基づいて、バイブレーション動作を行う（Ｓ５０２ａ）。また、コミュニケーションＡｐｐ制御部５２０は、受信したテキスト形式の発話内容及び音声品質評価結果を表示欄Ｄに表示させる（Ｓ５０３ａ）。

そして、ユーザＡ以外の各ユーザ端末５００は、受信した発話音声データの自動再生処理を行い、発話音声出力を行いつつ（Ｓ５０１ｂ，Ｓ５０１ｃ）、音声出力された発話音声に対応するテキスト形式の発話内容及び音声品質評価結果を表示欄Ｄに表示させる（Ｓ５０２ｂ，Ｓ５０２ｃ）。

ステップ１０４において、バイブレーション制御値を評価対象のユーザ端末５００に送信しないと判別された場合（Ｓ１０４のＮＯ）、コミュニケーション制御部１１２は、評価対象のユーザＡに対するバイブレーション制御値の送信を行わず、コミュニケーション履歴１２３に記憶したユーザＡの発話内容（テキスト）とその音声品質評価結果を、表示同期のために、ユーザＡ自身を含むコミュニケーショングループ内の各ユーザ端末５００に送信する（Ｓ１０６）。また、発話したユーザＡ以外の他のユーザ端末５００それぞれにユーザＡの発話音声データを同報送信する。

この場合、ユーザＡのユーザ端末５００は、バイブレーション制御値を受信しないので、コミュニケーションＡｐｐ制御部５２０が、受信したテキスト形式の発話内容及び音声品質評価結果を表示欄Ｄに表示させる（Ｓ５０４ａ）。また、ユーザＡ以外の各ユーザ端末５００は、上記各ステップと同様に、発話音声データの自動再生処理を行い、発話音声出力を行いつつ（Ｓ５０３ｂ，Ｓ５０３ｃ）、音声出力された発話音声に対応するテキスト形式の発話内容及び音声品質評価結果を表示欄Ｄに表示させる（Ｓ５０４ｂ，Ｓ５０４ｃ）。

なお、コミュニケーション制御部１１２は、発話音声データの同報配信及びテキスト配信の各配信処理と、バイブレーション制御値を評価対象のユーザ端末５００に送信する処理とを、互いに独立した処理として実行するように構成してもよい。つまり、配信処理は、コミュニケーショングループに属する各ユーザへのマルチキャストデータ転送方式で行い、バイブレーション制御値の送信処理は、評価対象へのユニキャストデータ転送方式で行うことができる。マルチキャストデータ転送方式での配信処理と、ユニキャストデータ転送方式の送信処理の各個別処理を並行して行うことで、コミュニケーショングループ内の情報伝達の円滑性を、評価対象へのフィードバックとは独立して担保することができる。

図７は、第１実施形態のコミュニケーションシステムの過去の音声品質評価履歴を考慮したバイブレーション制御の一例を示す処理フローである。なお、図６の処理と同様の処理については、同符号を付して説明を省略する。

発話音声評価部１１５（又はコミュニケーション制御部１１２）は、受信した発話音声データに対する音声品質評価処理に伴い、音声品質評価結果の対象ユーザの過去の評価結果を参照し（Ｓ１０３１）、過去の評価結果と現在の評価結果とに基づいて異なる振動パターンのバイブレーション制御値を選択し、評価対象のユーザ端末５００に送信する。

今回の音声品質評価結果が「良い」ときに、前回の音声品質評価結果が「悪い」ときは、音声品質が向上したと判定し（Ｓ１０３２のＹＥＳ）、振動パターンＢのバイブレーション制御値を選択して、評価対象のユーザ端末５００に送信する（Ｓ１０４１）。なお、振動パターンＢは、音声品質評価結果が「悪い」と判定されたときの振動パターンＡとは異なる振動パターンである。今回の音声品質評価結果が「普通」ときに、前回の音声品質評価結果が「悪い」ときのケース、今回の音声品質評価結果が「良い」ときに、前回の音声品質評価結果が「普通」ときのケースも同様である。

すなわち、音声品質評価結果（音声評価ランク）が直近（前回）よりも改善したときに、バイブレーション制御値を出力して、音声品質の向上に対するフィードバックをユーザ端末５００に提供することで、ユーザは、感覚的に発話音声品質が改善したことを把握することができる。

評価対象のユーザＡのユーザ端末５００は、受信したバイブレーション制御値に基づいて、バイブレーション装置５７０の動作制御を行う（Ｓ５０６ａ）。また、コミュニケーションＡｐｐ制御部５２０は、受信したテキスト形式の発話内容及び音声品質評価結果を表示欄Ｄに表示させる（Ｓ５０７ａ）。

ユーザＡ以外の各ユーザ端末５００は、受信した発話音声データの自動再生処理を行い、発話音声出力を行いつつ（Ｓ５０５ｂ，Ｓ５０５ｃ）、音声出力された発話音声に対応するテキスト形式の発話内容及び音声品質評価結果を表示欄Ｄに表示させる（Ｓ５０６ｂ，Ｓ５０６ｃ）。

また、今回の音声品質評価結果が「悪い」とき、または、前回の音声品質評価結果「良い」に引き続き、今回の音声品質評価結果が「良い」ときは（又は、前回の音声品質評価結果「普通」に引き続き、今回の音声品質評価結果が「普通」ときは）、ステップＳ１０３３に進む。ステップＳ１０３３において、前回の音声品質評価結果「良い」に引き続き、今回の音声品質評価結果が「良い」とき（又は、前回の音声品質評価結果「普通」に引き続き、今回の音声品質評価結果が「普通」とき）は、図６のステップＳ１０６と同様の処理を行う。

一方、今回の音声品質評価結果が「悪い」ときは、音声品質が低下したと判定し（Ｓ１０３３のＹＥＳ）、前回の音声品質評価結果を参照する。そして、品質劣化の連続性又は品質劣化の頻度（回数）の判定を行う（Ｓ１０３４）。

ステップＳ１０３４では、前回の音声品質評価結果が「良い」場合は、例えば、品質劣化の連続性又は品質劣化の頻度（回数）を満たさないと判定し（Ｓ１０３４のＮＯ）、図６のステップＳ１０５と同様の処理を行う。前回も音声品質評価結果が「悪い」である場合は、品質劣化の連続性又は品質劣化の頻度を満たすと判定し（Ｓ１０３４のＹＥＳ）、ステップＳ１０４２に進む。ステップＳ１０４２では、図６のステップＳ１０５で送信するバイブレーション制御値とは異なり、品質劣化の連続性又は品質劣化の頻度が高い旨を示す振動パターンＡＢのバイブレーション制御値を選択してユーザＡのユーザ端末５００に送信する。

評価対象のユーザＡのユーザ端末５００は、受信したバイブレーション制御値（振動パターンＡＢ）に基づいて、バイブレーション装置５７０の動作制御を行う（Ｓ５０８ａ）。また、コミュニケーションＡｐｐ制御部５２０は、受信したテキスト形式の発話内容及び音声品質評価結果を表示欄Ｄに表示させる（Ｓ５０９ａ）。

ユーザＡ以外の各ユーザ端末５００は、受信した発話音声データの自動再生処理を行い、発話音声出力を行いつつ（Ｓ５０７ｂ，Ｓ５０７ｃ）、音声出力された発話音声に対応するテキスト形式の発話内容及び音声品質評価結果を表示欄Ｄに表示させる（Ｓ５０８ｂ，Ｓ５０８ｃ）。

このように、音声品質の向上又は音声品質の低下に対し、バイブレーション装置５７０が作動するように制御してユーザに通知する。音声品質に対するフィードバックをユーザ端末５００に提供することで、ユーザは、感覚的に自身の発話音声品質の状態を把握することができ、ユーザの自発的な音声品質に対する意識向上を図ることができる。

音声品質の低下については、音声品質の劣化の連続性を考慮することもできる。例えば、現在の音声品質評価結果が「悪い」ときは、所定回数分の過去の評価結果までさかのぼり、音声品質評価結果「悪い」の連続性をチェックし、連続性に応じて異なる振動パターンのバイブレーション制御値を適用するように構成することができる。

例示として、前回の音声品質評価結果が「悪い」とき、２回連続の品質低下であるため、「ブ・ブ」という振動パターンのバイブレーション制御値を該当のユーザ端末５００に提供する。さらに、前々回の音声品質評価結果も「悪い」ときは、３回連続での品質低下であるため、２回連続とは異なる、「ブ・ブ・ブ」という振動パターンのバイブレーション制御値を該当のユーザ端末５００に提供する。

なお、音声品質評価結果「悪い」の連続性以外にも、上述のように、所定期間中の音声品質評価結果「悪い」の数をカウントし、品質劣化の頻度（回数）に応じて制御することもできる。例えば、所定期間中の音声品質評価結果「悪い」の数に応じて異なる振動パターンのバイブレーション制御値を適用して制御してもよい。

一方で、音声品質評価結果「悪い」が何度も連続して出力されたり、所定期間中に音声品質評価結果「悪い」が何度も出力されたりしたときは、コミュニケーショングループの責任者や管理者に通知する機能を備えるように構成してもよい。例えば、コミュニケーショングループ内の責任者のユーザ端末５００に、音声品質が著しく悪化している特定のユーザを通知したり、当該通知に対応するバイブレーション制御値を送信したりすることができる。特定のユーザは、音声品質の悪化に対して責任者から指導を受けるように構成することができる。

なお、音声品質評価結果「悪い」の連続性や回数に対する制御は、その時系列の評価履歴に対し、途中で音声品質評価結果が「普通」又は「良い」に改善した場合は、改善した時点でカウンターをリセットすることができる。コミュニケーション制御部１１２は、所定のタイミングで、音声品質評価結果「悪い」の連続回数のカウント、所定期間中の音声品質評価結果「悪い」のカウントを、０から数え直すように制御することができる。

図８は、コミュニケーショングループ内の各ユーザの音声品質評価結果の統計履歴の表示例を示す図である。

発話音声評価部１１５は、コミュニケーション履歴１２３と紐付いて蓄積される各ユーザ別の音声品質評価結果を用いて、図８に示すようなコミュニケーショングループ内の音声品質評価統計情報を生成し、各ユーザ端末５００に提供することができる。例えば、時間帯別、日別、月別などの任意の期間単位で、各ユーザの音声品質ランク別集計処理を行い、表形式の音声品質評価統計情報を作成することができる。

図８の例において、「通常発話」は、音声品質ランク「良い」又は「普通」の音声品質評価結果である。「声大」は、音声品質ランク「悪い」において、「ＴｏｏＬｏｕｄ」と評価された音声品質評価結果である。「声小」は、音声品質ランク「悪い」において、「ＳｍａｌｌＶｏｉｃｅ」と評価された音声品質評価結果である。「ノイズ」は、音声品質ランク「悪い」において、「ＴｏｏＮｏｉｓｙ」と評価された音声品質評価結果である。

このように、各ユーザ及びコミュニケーショングループ内の責任者や管理者は、発話音声品質評価履歴を、年／月／日／時などの任意の期間、特定の日や時間帯で閲覧することができ、自身の発話及び他のユーザの発話を振り返ることができる。これにより、ユーザの自発的な音声品質に対する意識向上をより図ることができる。

（第２実施形態）
図９から図１１は、第２実施形態に係るコミュニケーションシステムのネットワーク構成図である。本実施形態のコミュニケーションシステムは、上記第１実施形態に対し、ユーザ（ユーザ端末５００）の位置に応じて、音声品質評価をカスタマイズしている。なお、上記第１実施形態と同様の構成については、同符号を付して説明を省略する。

図９は、本実施形態のコミュニケーション管理装置１００及びユーザ端末５００の各構成ブロック図である。上記第１実施形態の図２に比べて、ユーザ端末５００がＧＰＳ装置（位置情報取得装置）５８０を備えている。ＧＰＳ装置５８０は、既知の位置情報取得手段である。

本実施形態では、発話したユーザのユーザ端末５００から、発話音声データと共に発話したユーザの位置情報を取得し、ユーザ位置に応じて音声品質評価処理の対象から除外したり、音声品質評価を緩和したり、強化したりする機能を提供する。

図１０は、ユーザ位置別評価カスタマイズ情報の一例を示す図である。図１０に示すように、評価対象ユーザ、位置条件、カスタマイズ条件を含む評価カスタマイズ情報が設定される。例えば、キッチン（厨房）付近などの常時騒音が大きいと想定される場所にユーザが位置している場合、音声品質評価において「声が大きい」、「声が小さい」、「騒音が大きい」といった評価結果は、ユーザ側の責任ではなく環境面の要素が強い。そこで、評価除外場所として、図１０に示すように、ユーザ全員を対象に、ユーザが発話した場所がキッチン付近であると判別されるときは、一時的に音声品質評価対象から除外するように制御することができる。

また、宿泊施設のフロント付近のように、周囲への配慮から声を小さめにして発話する必要がある場所もある。この場合も、「声が小さい」と音声品質が低下傾向にあると評価するよりは、逆に「大きな声」で発話する方が、好ましくない。そこで、上述のように、評価除外場所として、ユーザが発話した場所がフロント付近であると判別されるときは、一時的に音声品質評価対象から除外したり、図１０に示すように、声が小さいと評価された場合であっても、当該ユーザの発話音声評価を「悪い」としないように制御したりすることができる。

後者の場合、発話音声データに基づく音声品質評価結果に対し、ユーザの位置情報に基づいて音声品質評価結果を緩和する補正処理を行うように構成することができる。例えば、音声品質評価結果「悪い」から音声品質評価結果「普通」に変更し、上記第１実施形態同様に、コミュニケーショングループ内の各ユーザに、変更した音声品質評価結果を提供して共有することができる。

また、音声品質評価結果を強化するカスタマイズも行うことができる。宿泊施設のフロント付近では、周囲への配慮から普段よりも「声が小さい」方が高評価となり、「声が大きい」方が低評価とすることもできる。そこで、発話音声データに基づく音声品質評価結果が「普通」であった場合、ユーザの位置情報に基づいて音声品質評価を強化する補正処理を行う。フロント付近での発話音声の音声品質評価結果「普通」であった場合、フロント付近というユーザ位置を考慮して、音声品質評価結果「悪い」に変更する補正処理を行うことができる。上記第１実施形態同様に、コミュニケーショングループ内の各ユーザに、変更した音声品質評価結果を提供して共有することができる。フィードバック処理も同様に行うことができる。

このように、ユーザが発話する場所に応じて、音声品質評価自体を免除したり、音声品質の評価基準を変更したりすることで、ユーザが発話する環境に応じて適切な音声品質評価環境を提供することができる。このため、位置別の配慮を伴ったユーザの発話音声を適切に評価することができる。また、例えば、発話者が「現在、フロント付近にいるので、周囲に配慮し、声のトーンを落として発話します。」といった場所に応じた発話環境の説明を発話したとする。この場合、当該発話の音声品質評価が低評価とならないので、コミュニケーショングループ内で、フロント付近の場合は、あまり大きな声で発話しない方が良いという認識を共有することができ、発話位置に応じた音声品質向上を支援することができる。

なお、評価対象ユーザは、図１０に示すように、位置条件で設定した場所に応じて、１人、複数のユーザ、又はユーザ全員を任意に設定することができる。例えば、フロント係、客室係など、各ユーザの担当業務が予め決められていることがある。この場合、そのユーザが発話する位置を予め想定できるので、該当するユーザが想定した位置で発話した場合は、カスタマイズ評価を行うように制御することができる。また、位置条件で設定した場所以外でユーザが発話した場合、評価対象ユーザの範囲外であれば、カスタマイズ評価を行わないように制御することで、公平な音声品質評価を行うことができる。

図１１は、本実施形態のコミュニケーションシステムの処理フローを示す図である。なお、図６の処理と同様の処理については、同符号を付して説明を省略する。

ユーザＣが発話すると、コミュニケーションＡｐｐ制御部５２０は、発話音声を集音すると共にＧＰＳ装置５８０から位置情報を取得して、発話音声データ及び位置情報を管理装置１００に送信する（Ｓ５０９ａ）。管理装置１００の音声認識部１１３は、受信した発話音声データを音声認識処理し（Ｓ１０１）、発話内容の音声認識結果を出力する。また、発話音声評価部１１５は、音声認識処理と並行に又は個別に、音声品質評価情報に基づいて、受信した発話音声データに対する音声品質評価処理を行い、音声品質評価結果を出力する（Ｓ１０２）。

このとき、発話音声評価部１１５は、ユーザ端末５００から受信した位置情報を用いて、ユーザ位置別評価カスタマイズ情報を参照し、対象ユーザでありかつ位置条件を満たすカスタマイズ条件を抽出する（Ｓ２００１）。なお、位置条件には、例えば、予めフロント付近の位置情報の範囲が設定されている。

発話音声評価部１１５は、カスタマイズ条件が抽出されたときは、カスタマイズ条件に従って音声品質評価の除外処理を行ったり、上述したステップＳ２００１の音声品質評価結果に対する補正処理を行う。図１１の例では、カスタマイズ条件が音声品質評価除外であるか否かを判定する態様を例示しており、ステップＳ２００２において、音声品質評価が除外であると判定された場合、ステップＳ２００３に進み、コミュニケーション制御部１１２は、音声認識結果をコミュニケーション履歴１２３に記憶し、ステップＳ１０２での音声品質評価結果は記憶しない。

そして、コミュニケーション制御部１１２は、ユーザＣのユーザ端末５００に音声認識結果を送信し、コミュニケーションＡｐｐ制御部５２０は、受信したテキスト形式の発話内容を表示欄Ｄに表示させる（Ｓ５１０ｃ）。

そして、ユーザＣ以外の各ユーザ端末５００は、受信した発話音声データの自動再生処理を行い、発話音声出力を行いつつ（Ｓ５１０ａ，Ｓ５０９ｂ）、音声出力された発話音声に対応するテキスト形式の発話内容及び音声品質評価結果を表示欄Ｄに表示させる（Ｓ５１１ａ，Ｓ５１０ｂ）。

尚、本実施形態ではフィードバック制御情報はバイブレーション制御値として説明したが、これに限らずユーザに気づきを与える様々な音（例えば、目覚まし時計のような音（ピーピー）やブザー音など）であってもよい。制御値としては音量を変えたり、連続音の数などとすることができる。品質評価結果自体を合成音で出力（声大、声小など）するようにしてもよい。

以上、本実施形態について説明したが、コミュニケーション管理装置１００及びユーザ端末５００の各機能は、プログラムによって実現可能であり、各機能を実現するために予め用意されたコンピュータプログラムが補助記憶装置に格納され、ＣＰＵ等の制御部が補助記憶装置に格納されたプログラムを主記憶装置に読み出し、主記憶装置に読み出された該プログラムを制御部が実行することで、各部の機能を動作させることができる。

また、上記プログラムは、コンピュータ読取可能な記録媒体に記録された状態で、コンピュータに提供することも可能である。コンピュータ読取可能な記録媒体としては、ＣＤ−ＲＯＭ等の光ディスク、ＤＶＤ−ＲＯＭ等の相変化型光ディスク、ＭＯ（Magnet Optical）やＭＤ(Mini Disk)などの光磁気ディスク、フロッピー（登録商標）ディスクやリムーバブルハードディスクなどの磁気ディスク、コンパクトフラッシュ（登録商標）、スマートメディア、SDメモリカード、メモリスティック等のメモリカードが挙げられる。また、本発明の目的のために特別に設計されて構成された集積回路（ICチップ等）等のハードウェア装置も記録媒体として含まれる。

なお、本発明の実施形態を説明したが、当該実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００コミュニケーション管理装置
１１０制御装置
１１１ユーザ管理部
１１２コミュニケーション制御部（第１制御部，第２制御部）
１１３音声認識部
１１４音声合成部
１１５発話音声評価部
１２０記憶装置
１２１ユーザ情報
１２２グループ情報
１２３コミュニケーション履歴情報
１２４音声認識辞書
１２５音声合成辞書
１２６音声品質評価情報
１３０通信装置
５００ユーザ端末（移動通信端末）
５１０通信・通話部
５２０コミュニケーションＡｐｐ制御部
５３０マイク（集音部）
５４０スピーカー（音声出力部）
５５０表示・入力部
５６０記憶部
５７０バイブレーション装置
５８０ＧＰＳ装置
Ｄ表示欄

Claims

複数の各ユーザがそれぞれ携帯する移動通信端末を通じて、ユーザの発話音声を他のユーザの移動通信端末に同報配信するコミュニケーションシステムであって、
移動通信端末から受信した発話音声データを他の複数の移動通信端末それぞれに同報配信する第１制御部と、受信した発話音声データを音声認識処理して得られる発話音声認識結果を、ユーザ同士のコミュニケーション履歴として時系列に蓄積するとともに、前記各移動通信端末において前記コミュニケーション履歴が同期して表示されるようにテキスト配信制御を行う第２制御部と、を有するコミュニケーション制御部と、
受信した発話音声データの音声品質評価処理を行い、音声品質評価結果を出力する発話音声評価部と、を備え、
前記コミュニケーション制御部は、発話音声に基づく前記音声認識結果及び対応する音声品質評価結果が、複数の前記各ユーザ端末において表示されるようにテキスト配信制御を行うことを特徴とするコミュニケーションシステム。
前記コミュニケーション制御部は、前記音声品質評価結果のテキスト配信制御に連動して、音声品質評価処理が行われた発話ユーザの前記ユーザ端末に、前記音声品質評価結果に応じたフィードバック制御情報を送信することを特徴とする請求項１に記載のコミュニケーションシステム。
前記フィードバック制御情報は、バイブレーションであることを特徴とする請求項２に記載のコミュニケーションシステム。
前記音声品質評価結果は、各ユーザ別に、前記コミュ二ケーション履歴と紐付いて時系列に蓄積されており、
前記コミュニケーション制御部は、前回の音声品質評価結果よりも今回の音声品質評価結果の品質が向上しているか、または、前回の音声品質評価結果よりも今回の音声品質評価結果の品質が低下しているかを判別し、品質が向上している場合と品質が低下している場合とで、異なるフィードバック制御情報を選択し、発話ユーザの前記ユーザ端末に送信することを特徴とする請求項２または３に記載のコミュニケーションシステム。
前記音声品質評価結果は、各ユーザ別に、前記コミュ二ケーション履歴と紐付いて時系列に蓄積されており、
前記コミュニケーション制御部は、今回の音声品質評価結果が、過去の音声品質評価結果から所定回数連続して同じ評価結果である場合、その連続回数に応じて異なるフィードバック制御情報を選択し、発話ユーザの前記ユーザ端末に送信することを特徴とする請求項２または３に記載のコミュニケーションシステム。
前記音声品質評価結果は、各ユーザ別に、前記コミュ二ケーション履歴と紐付いて時系列に蓄積されており、
前記コミュニケーション制御部は、今回の音声品質評価結果と同じ評価結果を、過去一定期間中の音声品質評価結果の中からカウントし、同じ評価結果のカウント数に応じて異なるフィードバック制御情報を選択し、発話ユーザの前記ユーザ端末に送信することを特徴とする請求項２または３に記載のコミュニケーションシステム。
前記音声品質評価結果は、各ユーザ別に、前記コミュ二ケーション履歴と紐付いて時系列に蓄積されており、
前記発話音声評価部は、前記各ユーザ端末に提供される、コミュニケーショングループ内のユーザ別音声品質評価統計情報を生成することを特徴とする請求項１から６のいずれか１つに記載のコミュニケーションシステム。
前記コミュニケーション制御部は、発話者のユーザ端末から発話音声データと共に前記ユーザ端末で取得された位置情報を受信し、
前記発話音声評価部は、発話者の発話場所が予め設定された場所に該当するか否かを判定し、該当すると判定された場合に、受信した発話音声データに対する音声品質評価処理を行わない、又は音声品質評価結果を出力しない除外処理を行うことを特徴とする請求項１から７のいずれか１つに記載のコミュニケーションシステム。
前記コミュニケーション制御部は、発話者のユーザ端末から発話音声データと共に前記ユーザ端末で取得された位置情報を受信し、
前記発話音声評価部は、発話者の発話場所が予め設定された場所に該当するか否かを判定し、該当すると判定された場合に、受信した発話音声データに対する音声品質評価結果を補正する補正処理を行うことを特徴とする請求項１から８のいずれか１つに記載のコミュニケーションシステム。
複数の各ユーザがそれぞれ携帯する移動通信端末を通じて、ユーザの発話音声を他のユーザの移動通信端末に同報配信する管理装置によって実行されるプログラムであって、
移動通信端末から受信した発話音声データを他の複数の移動通信端末それぞれに同報配信する第１機能と、
受信した発話音声データを音声認識処理して得られる発話音声認識結果を、ユーザ同士のコミュニケーション履歴として時系列に蓄積するとともに、前記各移動通信端末において前記コミュニケーション履歴が同期して表示されるようにテキスト配信制御を行う第２機能と、
受信した発話音声データの音声品質評価処理を行い、音声品質評価結果を出力する第３機能と、を前記管理装置に実現させ、
前記第２機能は、発話音声に基づく前記音声認識結果及び対応する音声品質評価結果が、複数の前記各ユーザ端末において表示されるようにテキスト配信制御を行うことを特徴とするプログラム。