まず、本発明者らが本開示に係る各態様の開示をするにあたって、検討した事項を説明する。
(本発明の基礎となった知見)
非特許文献1による遠隔会議システムにおいては、遠隔地とネットワークを通じて通信を行う通信端末に、スマートフォンを接続し、スマートフォンのマイクを用いて音声の収音を行うことで、単独のマイクに比べ、多くの参加者の音声を収音することができる。
しかし、汎用的なスマートフォンを、通信端末に接続するためには、接続のためのさまざまな手順が必要となるが、その方法について、非特許文献1には、開示がない。
また、非特許文献1は、遠隔会議のための専用の通信端末を用いるものであり、そのような専用の装置の準備がない、通常の会議室で、スマートフォンのみを用いて遠隔会議を実施する方法については、開示がない。
さらに、スマートフォンのような端末を持ち寄り、協調して動作させるときは、端末間の認証と接続処理(以下、ペアリングと記す)が必要となる。このペアリングは、一般的に、無線LANやBluetooth(登録商標)などの、電波を用いた方法が用いられる。しかし、会議支援のための端末接続において、電波によるペアリングを用いるのは、危険である。なぜなら、会議に参加していない、悪意のある利用者が、こっそりと端末を接続させ、会議内容を盗聴することが可能となってしまうからである。ペアリングにおいて、パスワード認証などを義務付けることで、前記したような盗聴を防ぐことは可能だが、その場合、通常の会議の参加者までも、会議のために、いちいちパスワードを設定しなければならないという、利便性における課題が発生してしまう。
本収音システムの構成方法は、上記の課題に鑑み、参加者が会議室へ持ち寄ったスマートフォンに備わるマイクを利用して、会議の発話を収音する方法であって、スマートフォンの接続を、簡便で安全に行うことを目的とするものである。
前記したように、本収音システムの構成方法は、主に会議の際、スマートフォンのような汎用的な端末を用いて、端末のマイクを用いて参加者の発話を収音するシステムにおいて、会議への参加確認や、各端末の接続・同期、端末の設定などを簡便に行うことを目的としている。
本開示の収音システムの構成方法は複数の端末から音声を取得する会議向け収音システムの構成方法であって、前記複数の端末の各々が収音した外部の音響を収音データとして、前記複数の端末の各々から受信する受信ステップと、前記複数の収音データ間の類似度に応じて、前記複数の端末各々が属する会議を決定する会議決定ステップとを含む。
これにより、各人が持ち寄った端末を用いて収音した収音データを利用することで、会議室に専用の特別な装置を必要とすることなく容易に会議に参加した端末が属する会議を決定することが出来る。
また、複数の端末が同じ会議に属する場合、複数の端末のそれぞれが収音する外部の音響に対応する収音データの類似度は高くなる。よって類似度が高い端末を同じ会議に属すると決定することで、容易に会議に参加した端末が属する会議を決定することが出来る。
なお、前記会議決定ステップは、前記複数の端末のうち第1の端末が取得した第1の収音データと、前記複数の端末のうち第2の端末が取得した第2の収音データとを比較し、類似度が予め設定された閾値以上である場合に、前記第1の端末が属する会議と前記第2の端末が属する会議が同一の会議であることを決定してもよい。
これにより、各端末が属する会議の決定に関して、誤認識を低減することが出来る。
なお、前記会議決定ステップは、前記受信ステップにて受信した前記複数の収音データに、前記会議決定ステップによって属する会議が決定されていない第2の端末によって取得された第2の収音データが含まれていることを判断した際に、前記第2の収音データと、前記会議決定ステップによってすでに第1の会議に属すると決定された第1の端末によって取得された第1の収音データとを比較し、当該比較の結果、類似度が予め設定された閾値以上である場合に、前記第2の端末が前記第1の会議に属することを決定してもよい。
これにより、各端末が属する会議の決定に関して、誤認識を低減することが出来る。
なお、第1の端末によって取得された第1の収音データは、第1の会議において第1の会議の参加者が発話したときの音声データを含む。
第2の端末を利用するユーザが第1の会議に属する第1の端末を利用するユーザと同じ会議に参加をしている場合、第1の端末および第2の端末がそれぞれ収音する収音データには、第1の会議の参加者が発話したときの音声データが含まれる。従って、第1の収音データおよび第2の収音データを比較したときの類似度(第1の類似度)は高い。
一方、第2の端末を利用するユーザが第1の会議に属する第1の端末を利用するユーザと同じ会議に参加をしていない場合、第1の端末が収音する収音データには、第1の会議の参加者が発話したときの音声データが含まれるが、第2の端末が収音する収音データには、第1の会議の参加者が発話したときの音声データが含まれない。従って、第1の収音データおよび第2の収音データを比較したときの類似度(第2の類似度)は低い。
したがって、第1の類似度と第2の類似度を識別できる値(例えば第2の類似度よりも大きく、第1の類似度よりも小さい値)を閾値として設定をすれば、第2の端末が属する会議の決定に関して、誤認識を更に低減することが出来る。
なお、前記会議決定ステップは、前記第2の収音データと、前記第1の収音データおよび受信ステップにて受信した他の収音データとを比較し、当該比較の結果類似度が予め設定された閾値以上となる収音データが存在しなかった場合に、新規会議として第2の会議を設定し、前記第2の端末を前記第2の会議に属する端末と決定してもよい。
これにより、複数の会議の把握や管理を行なうことが出来る。
なお、前記複数の収音データに対し音声認識を行い、前記会議ごとに議事録を作成する議事録作成ステップを含んでもよい。
これにより、特別な装置を用いることなく、会議にて収音した発話を会議後に確認可能な議事録サービスを提供出来る。
なお、前記複数の収音データのうち第1の端末が取得した第1の収音データを、前記会議決定ステップにて前記第1の端末が属する会議と異なる会議に属すると決定された第2の端末に送信する、遠隔送信ステップと、前記第2の端末に、前記第1の収音データを出力させる音声出力ステップと、を含んでもよい。
これにより、特別な装置を用いることなく、複数拠点の会議室間で遠隔の会議を行なう遠隔会議サービスを提供することができる。
なお、会議ごとに異なる複数の会議決定用音響信号を生成する会議決定用音響信号生成ステップと、前記複数の会議決定用音響信号のうち第1の会議決定用音響信号を、第1の会議に属する第1の端末に送信する会議決定用音響信号送信ステップと、前記第1の端末に、前記第1の会議決定用音響信号を出力させる出力ステップと、前記第1の端末に前記第1の会議決定用音響信号を出力させているとき、前記第2の端末に前記外部の音響を収音させ、前記第2の端末に収音させた収音データを受信する、収音・受信ステップと、を更に含み、前記会議決定ステップは、前記第1の会議決定用音響信号と前記第2の端末から受信した収音データとの類似度に応じて、前記第2の端末が属する会議を決定してもよい。
第2の端末を利用するユーザが第1の会議に属する第1の端末を利用するユーザと同じ会議に参加をしている場合、第1の端末に第1の会議決定用音響信号を出力させているとき、第2の端末に外部の音響を収音させると、第2の端末に収音させた収音データには、第1の端末による第1の会議決定用音響信号の出力が含まれる。
よって、第1の会議決定用音響信号と第2の端末に収音させた収音データとの類似度(第1の類似度)は高い。
一方で、第2の端末を利用するユーザが第1の会議に属する第1の端末を利用するユーザと同じ会議に参加をしていない場合、第1の端末に第1の会議決定用音響信号を出力させているとき、第2の端末に外部の音響を収音させると、第2の端末に収音させた収音データには、第1の端末による第1の会議決定用音響信号の出力は含まれない。
よって、第1の会議決定用音響信号と第2の端末に収音させた収音データとの類似度(第2の類似度)は低い。
したがって、第1の類似度と第2の類似度を識別できる値(例えば第2の類似度よりも大きく、第1の類似度よりも小さい値)を閾値として設定をすれば、第2の端末が属する会議の決定に関して、誤認識を更に低減することが出来る。
これにより、前記第1の会議決定用音響信号と前記第2の端末から受信した収音データとの類似度を利用することにより第2の端末の属する会議の決定をより精度よく行なうことが出来る。
なお、会議ごとに異なる複数の会議確認用音響信号を生成する会議確認用音響信号生成ステップと、前記複数の会議確認用音響信号のうち第1の会議に割り当てられた第1の会議確認用音響信号を、前記第2の端末に送信する会議決定用音響信号送信ステップと、前記第2の端末に、前記第1の会議確認用音響信号を出力させる出力ステップと、前記第2の端末に前記第1の会議確認用音響信号を出力させているとき、前記第1の端末に前記外部の音響を収音させ、前記第1の端末に収音させた収音データを受信する、収音・受信ステップと、前記第1の会議確認用音響信号と前記第1の端末から受信した収音データとの類似度に応じて、前記会議決定ステップによって決定された前記第2の端末の属する会議が正しかったか否かを確認する確認ステップと、を含んでいてもよい。
第2の端末の属する会議の決定が正しければ、第2の端末に第1の会議確認用音響信号を出力させているとき、第2の端末の属する会議と同じ会議に属する第1の端末に外部の音響を収音させるので、第1の端末に収音させた収音データには、第2の端末による第1の会議確認用音響信号を出力が含まれる。
よって、第2の端末の属する会議の決定が正しかったのかどうかを確認することができる。
これにより、第2の端末の属する会議の決定をより精度良く行なうことが出来る。また会議室周辺の空間からの会議の盗聴を防止することが出来る。
なお、会議ごとに、前記会議決定ステップが決定した当該会議に属する一または複数の端末の状況を示す一覧情報を生成し、当該会議に属する一または複数の端末の何れかに送信する一覧情報生成ステップと、前記一覧情報を受信した、当該会議に属する一または複数の端末の何れかに、前記一覧情報を表示させる表示ステップと、をさらに含んでもよい。
これにより、ユーザが同じ会議に参加する参加者を確認することが出来るので、会議に参加する参加者の端末に関してシステム側の誤認識等を指摘・修正することができる。また、会議室周辺の空間からの会議の盗聴を防止することが出来る。
本開示のサーバ装置は、複数の端末から音声を取得する会議向け収音システムに用いるサーバ装置であって、
前記複数の端末のそれぞれが収音した外部の音響を収音データとして、前記複数の端末の各々から受信する受信部と、
前記複数の収音データ間の類似度に応じて、前記複数の端末各々が属する会議を決定する会議決定部とを備える。
これにより、各人が持ち寄った端末を用いて収音した収音データを利用することで、会議室に専用の特別な装置を必要とすることなく容易に会議に参加した端末が属する会議を決定することが出来る。
また、複数の端末が同じ会議に属する場合、複数の端末のそれぞれが収音する外部の音響に対応する収音データの類似度は高くなる。よって類似度が高い端末を同じ会議に属すると決定することで、容易に議に参加した端末が属する会議を決定することが出来る。
このように、本複数の端末による会議向け収音システムの構成方法では、会議の参加者が持ち寄ったスマートフォン等の複数の端末を、ネットワーク上のサーバに接続し、複数のスマートフォンのマイクを会議用のマイクとして利用して収音した音声データをサーバに送ることで、例えば、サーバで複数の音声データを合成して一つの音声データとして他の会議拠点に転送して遠隔会議を行ったり、音声データを音声認識することで、議事録を自動作成したりすることができる。その際、参加者が持ち寄ったスマートフォンが、どの会議に属しているかを判定するために、スマートフォンから送信された音声データの類似度を用いる。
会議に参加し、サーバに接続されたスマートフォンは、その会議室の中の音声を収音し、音声データとしてサーバに送信する。同じ会議室の中のスマートフォンは、置かれた位置によって多少の音量の大小はあるものの、会議室の中で交わされた同じ音声を収音している。そこで、サーバでは、これらの音声の類似度を判定し、一定の閾値以上の類似度を持つ複数のスマートフォンを、同じ会議室に置かれたスマートフォンとして認識し、これらのスマートフォンに対して、収音した音声データを合成して他拠点に転送して遠隔会議を行い、あるいは、音声認識して得られた議事録を送信するなどの、会議支援サービスを提供する。
このように本開示の収音システムの構成方法では、会議のために用いるスマートフォンを協調動作させるためのペアリングを、電波を用いるのではなく、収音された音声の類似度をもって行う。このため、会議室の壁の向こうなどに置かれた、盗聴目的のスマートフォンは、音声の類似度が低くなるため、会議への参加を拒否することができる。また、電波によるセキュリティの高いペアリングに必要なパスワードの入力も、音声の類似度を判定するため、必要がなく、簡便にスマートフォンを協調動作させることができる。
なお、以下で説明する実施の形態は、いずれも本収音システムの構成方法の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本収音システムの構成方法を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることも出来る。
(提供するサービスの全体像)
図1Aには、本実施の形態における情報提供システムの全体像が示されている。
グループ100は、例えば企業、団体、家庭等の部屋(会議室)であり、その規模を問わない。グループ100には、マイクを持つスマートフォンやPCや音楽プレーヤーやゲーム機などの複数の機器101である機器A、機器Bおよびホームゲートウェイ102が存在する。複数の機器101には、インターネットと接続可能な機器(例えばスマートフォン)もあれば、それ自身ではインターネットと接続不可能な機器(例えば、ゲーム機など)も存在する。それ自身ではインターネットと接続不可能な機器であっても、ホームゲートウェイ102を介してインターネットと接続可能となる機器が存在してもよい。またグループ100には複数の機器101を使用するユーザ10が存在する。
データセンタ運営会社110には、クラウドサーバ111が存在する。クラウドサーバ111とはインターネットを介して様々な機器と連携する仮想化サーバである。主に通常のデータベース管理ツール等で扱うことが困難な巨大なデータ(ビッグデータ)等を管理する。データセンタ運営会社110は、データ管理やクラウドサーバ111の管理、それらを行うデータセンタの運営等を行っている。データセンタ運営会社110が行っている役務については詳細を後述する。ここで、データセンタ運営会社110は、データ管理やクラウドサーバ111の運営等のみを行っている会社に限らない。例えば複数の機器101のうちの一つの機器を開発・製造している機器メーカーが、併せてデータ管理やクラウドサーバ111の管理等を行っている場合は、機器メーカーがデータセンタ運営会社110に該当する(図1B)。また、データセンタ運営会社110は一つの会社に限らない。例えば機器メーカー及び他の管理会社が共同もしくは分担してデータ管理やクラウドサーバ111の運営を行っている場合は、両者もしくはいずれか一方がデータセンタ運営会社110に該当するものとする(図1C)。
サービスプロバイダ120は、サーバ121を保有している。ここで言うサーバ121とは、その規模は問わず例えば、個人用PC内のメモリ等も含む。また、サービスプロバイダがサーバ121を保有していない場合もある。
なお、上記サービスにおいてホームゲートウェイ102は必須ではない。例えば、クラウドサーバ111が全てのデータ管理を行っている場合等は、ホームゲートウェイ102は不要となる。また、家庭内のあらゆる機器がインターネットに接続されている場合のように、それ自身ではインターネットと接続不可能な機器は存在しない場合もある。
次に、上記サービスにおける情報の流れを説明する。
まず、グループ100の機器A又は機器Bは、各ログ情報をデータセンタ110のクラウドサーバ111に送信する。クラウドサーバ111は機器A又は機器Bのマイクを用いて収音した収音データ(または音響信号ともいう)等のログ情報を集積する(図1A(a))。ここで、ログ情報とは、例えば、収音データ(音響信号)に含まれる音声データ(または、音声信号ともいう)が中心であることはもちろんだが、複数の機器101が取得した、ユーザ10の機器の操作に関する情報や、ユーザ10が機器を操作して入力した情報なども含む。例えば、ユーザ10は、スマートフォンを会議のマイクとして用いる際、スマートフォンが置かれた位置情報(GPSや無線LANステーションのマックアドレス等を用いて取得する)を、ログ情報として集積してよい。その他、ユーザ10が許諾するならば、ユーザ10のスマートフォンの操作履歴や、ユーザ10が撮影した写真、さらにユーザ10の個人情報なども、ログ情報として用いてもよい。ログ情報は、インターネットを介して複数の機器101自体からクラウドサーバ111に直接提供される場合もある。また複数の機器101から一旦ホームゲートウェイ102にログ情報が集積され、ホームゲートウェイ102からクラウドサーバ111に提供されてもよい。
次に、データセンタ運営会社110のクラウドサーバ111は、集積したログ情報を一定の単位でサービスプロバイダ120に提供する。ここで、データセンタ運営会社が集積した情報を整理してサービスプロバイダ120に提供することの出来る単位でもいいし、サービスプロバイダ120が要求した単位でもいい。一定の単位と記載したが一定でなくてもよく、状況に応じて提供する情報量が変化する場合もある。前記ログ情報は、必要に応じてサービスプロバイダ120が保有するサーバ121に保存される(図1A(b))。そして、サービスプロバイダ120は、ログ情報をユーザに提供するサービスに適合する情報に整理し、ユーザに提供する。すなわち、提供するユーザは、複数の機器101を使用するユーザ10でもよいし、外部のユーザ20でもよい。ユーザへのサービス提供方法は、例えば、サービスプロバイダから直接ユーザへ提供されてもよい(図1A(e)、(f))。また、ユーザへのサービス提供方法は、例えば、データセンタ運営会社110のクラウドサーバ111を再度経由して、ユーザに提供されてもよい(図1A(c)、(d))。また、データセンタ運営会社110のクラウドサーバ111がログ情報をユーザに提供するサービスに適合する情報に整理し、サービスプロバイダ120に提供してもよい。
なお、ユーザ10とユーザ20とは、別でも同一でもよい。
以下本収音システムの構成方法の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図6は、本収音システムの構成方法の実施の形態1における複数の端末による会議向け収音システムの構成の一例を説明するための図(第1の構成図)である。
図6において、601は代表端末であり、ある会議室603における参加者が持ち込んだスマートフォン等である。602は参加端末であり、代表端末601と同じ会議室603に存在し、代表端末601を持ち込んだ参加者と同じ会議に参加する参加者のものである。参加端末602は1つ以上あればよい。
代表端末601は、参加端末602と異なり、クラウドサーバ609が提供する会議支援サービスを享受するため、クラウドサーバ609に対して、設定を行うものである。例えば代表端末601は、遠隔会議を行うため、別の拠点の会議室606を指定する。このような設定を行うこと以外は、代表端末601と参加端末602の違いはない。会議室603の会議に参加する端末のうち、もっとも早くクラウドサーバ609に接続した端末が、代表端末601となってもよいし、ユーザが、明示的に指定してもよい。
会議に参加する端末(例えば、代表端末601、参加端末602)は、会議支援アプリケーションを起動することで、クラウドサーバ609と接続する。会議支援アプリケーションは、サービスプロバイダ120によって提供され、各端末は、会議に先立ち、このアプリケーションをダウンロードし、インストールしておくものとする。このアプリケーションは、起動されると、プリセットされたURLで示されるクラウドサーバ609と接続し、端末のマイクで収音した音声データを、クラウドサーバ609に転送する。
606は、603の会議室とは別の会議室であり、会議室603と同様に、会議室606には、代表端末604と、参加端末605が存在する。
607は、基地局であり、会議に参加している端末と、携帯電話の無線通信を行うものである。基地局は、インターネット608と有線接続され、さらに、インターネット608には、クラウドサーバ609が接続されている。つまり、基地局607とインターネット608は、会議に参加している端末と、クラウドサーバ609とが通信できるように無線と有線で接続している。
クラウドサーバ609では、インターネット608を介して取得した情報の蓄積や、取得した情報を基に様々な処理を行う。クラウドサーバ609が行う処理の詳細については後述する。また、クラウドサーバ609は、図1に示すデータセンタ運営会社110が管理していてもよいし、サービスプロバイダ120が管理していてもよい。
端末とクラウドサーバ609を接続する構成は図6の構成だけではない。図7は、第1の実施の形態における収音システムの他の構成の一例を示す図(第2の構成図)である。図7では、会議に参加している端末は、無線LANにより、無線LANステーション701、702に接続されている。無線LANステーションはインターネット608に接続される。他は、図6と同様である。つまり、図6と図7の構成の違いは、端末がクラウドサーバに接続する方法が、携帯電話の無線通信か、無線LANによるものかの違いである。このほかの方法で、会議に参加する参加者が所有する端末がクラウドサーバ609に接続されてもよい。
図6ないし図7の構成でクラウドサーバ609に接続された端末が享受する第1の会議支援サービスを、図8に示す。本図で例示する会議支援サービスは、遠隔会議である。代表端末601によって、あらかじめ、遠隔会議を行う拠点(会議室603と会議室606)が、クラウドサーバ609に指定されている。そして、例えば会議室603のテーブル801の上に、代表端末601と、複数の参加端末602が置かれている。
また、例えば、代表端末601が置かれた位置の近くに代表端末601の所有者(会議の参加者)が着席している。また、例えば、参加端末602が置かれた位置の近くに参加端末602の所有者(会議の参加者)が着席している。
また、例えば、会議室606のテーブル801の上に、代表端末604と、複数の参加端末605が置かれている。
また、例えば、代表端末604が置かれた位置の近くに代表端末604の所有者(会議の参加者)が着席している。また、例えば、参加端末605が置かれた位置の近くに参加端末605の所有者(会議の参加者)が着席している。
例えば、代表端末601と、複数の参加端末602は、それぞれ、外部の音響を収音する。この収音は、代表端末601と、複数の参加端末602がそれぞれ備えるマイク(図示せず)を用いて行われる。
例えば、代表端末604と、複数の参加端末605は、それぞれ、外部の音響を収音する。この収音は、代表端末604と、複数の参加端末605がそれぞれ備えるマイク(図示せず)を用いて行われる。
代表端末601と、参加端末602は、それぞれ外部の音響を収音した収音データ(または、音響信号)をクラウドサーバ609にインターネット608を介して送信する。
例えば、会議室603内の参加者802による発話803があった場合、代表端末601と、参加端末602のそれぞれにおいて、外部の音響を収音した収音データには参加者802の発話803に対応する音声データ(または、音声信号)が含まれる。
本実施の形態では、特に説明のない限りは、会議に参加する参加者が会議室に持ち寄った端末(例えば、代表端末601、604、参加端末602、604)において、外部の音響を収音した収音データを音声データとして説明を行う。
代表端末601と、複数の参加端末602は、それぞれ、参加者802の発話803を、収音し、音声データとして、インターネット608を通じ、クラウドサーバ609に転送している。
一方、別の拠点の会議室606でも、同様に端末(代表端末604、参加端末605)を会議室606内のテーブル801において、発話803を収音し、音声データとして、クラウドサーバ609に送信している。
図8は、本実施の形態の収音システムにおける第1の会議支援サービスを説明するための図である。
図8に示す第1の会議支援サービスを提供する場合、クラウドサーバ609は、会議管理部810と、会議決定部811と、音声データ転送部812とを含む。なお、クラウドサーバ609は、会議管理部810、会議決定部811および音声データ転送部812、以外の構成を含んでいてもよいものとする。
会議管理部810は、クラウドサーバ609に接続され、音声データを送信している端末が、どの会議に属しているかを、管理している。そして、会議管理部810に従い、音声データ転送部812が、会議室603での発話803を会議室606へ、また、会議室606での発話803を会議室603へ、それぞれ転送する。
転送された音声データは、各拠点(または、各会議室)の端末から出力される(出力804)。これにより、遠隔会議が可能となる。
新たな端末がクラウドサーバ609に接続されたとき、その端末が、どの会議室に属しているかを決定するのが、会議決定部811である。会議決定部の動作は本収音システムの構成方法の主眼であるので、後で詳細に説明する。
図6ないし図7の構成でクラウドサーバ609に接続された端末が享受する第2の会議支援サービスを、図9に示す。図9は、本実施の形態の収音システムにおける第2の会議支援サービスを説明するための図である。本図で例示する第2の会議支援サービスは、議事録作成システムである。
図9に示す第2の会議支援サービスを提供する場合、クラウドサーバ609は、会議管理部810と、会議決定部811と、議事録作成部901とを含む。なお、クラウドサーバ609は、会議管理部810、会議決定部811および議事録作成部901、以外の構成を含んでいてもよいものとする。
図8と同様に、会議室603のテーブル801の上に、代表端末601と、複数の参加端末602が置かれ、参加者802の発話803を、それぞれの端末で収音し、音声データとして、インターネット608を通じ、クラウドサーバ609に転送している。
会議管理部810は、クラウドサーバ609に接続され、音声データを送信している端末が、どの会議に属しているかを、管理している。そして、会議管理部810に従い、同じ会議室603からの音声データを統合し、議事録作成部901が音声認識して、会議室603のための議事録を作成する。さらに、会議管理部810に従い、会議室603に参加している端末に対して、作成した議事録を転送する。なお音声認識とは、収音データから人が発話した音声データを抽出し、文字列に変換する一連の処理を含む。変換した文字列により議事録が作成される。音声データの抽出とは、人が発話した音声以外の、環境音(ノイズ)を除去することを言う。
例えば、人の音声に含まれる周波数帯域のデータを通過させる帯域通過フィルタ(図示せず)を用いて収音データから音声データを抽出しても良い。
クラウドサーバ609は、第1および第2の会議支援サービス両方に、会議管理部810と、会議決定部811は存在する。会議管理部810が管理する情報を、図10に示す。1001は会議テーブルであり、会議管理部810が管理する。会議テーブル1001は、クラウドサーバ609が備えるメモリ(図示せず)に記憶される。会議テーブル1001には、例えば、会議支援サービスを利用して行われている会議に対応する情報と、それぞれの会議に参加している参加者が利用する端末に対応する情報が記録されている。
会議テーブル1001に記録される端末に対応する情報は、端末が持つユニークなIDによって識別される。例えば、ユニークであることが確認されている各端末に付与されたMACアドレスなどが利用できる。
また、端末に対応する情報は、例えば、代表端末であるのか、参加端末であるのかを示す情報を含んでいても良い。
このとき、新たな端末Xが、クラウドサーバ609に接続された場合の動作を、図17Aおよび図17Bを用いて、説明する。
図17Aは、新たな端末Xが、クラウドサーバ609に接続された場合の動作の一例を説明するフローチャートである。図17Bは、クラウドサーバ609に接続された場合の動作の一例を説明するフローチャートである。
新たな端末Xは、クラウドサーバ609への接続は完了しているが、例えば、図10に示す会議テーブル1001において、記録されている会議のうちのどの会議と端末Xとを関連付けて、テーブル1001に登録するのかが決定されていないとする。
クラウドサーバ609は、接続された端末から送信された音声データを受信する(S1701)。そして、受信した音声データを送信した端末が、会議テーブル1001に登録されているか否かをチェックする(S1702)。登録されている場合、図17Bに示すステップS1708の処理を行う。登録されていなかった場合(ステップS1702でNo)は、会議テーブル1001に登録されている会議の数に相当する回数分のループを実行する(S1703)。ステップS1703の処理が終了すると、図17Bに示すステップS1705の処理を行う。ループの中では、ループで選択された会議に参加している参加者が利用する端末(第1の端末、例えば選択された会議に対応する代表端末、参加端末)が送信している音声データと、新たに接続された端末X(第2の端末)が送信している音声データとの、類似度を計測する(S1704)。すべての会議について類似度を計測したら、もっとも類似度が高い値が、あらかじめ定められた閾値以上か判定する(S1705)。
閾値より大きかった場合は、最も類似度が高い音声データを送信した第1の端末を利用する参加者が参加する会議に、新たに端末Xを利用する参加者が参加していると考えられる。つまり、第1の端末が属する会議に対応する会議室と同じ会議室に端末Xが置かれていると考えられる。よって、最も類似度が高い音声データを送信した第1の端末が属する会議と同じ会議に第2の端末(端末X)が属すると決定する。
この場合、会議テーブル1001において、最も類似度が高い音声データを送信した第1の端末が属する会議と同じ会議に、端末Xを登録する(S1706)。
閾値より小さかった場合は、端末Xが収音した音声データと十分に類似した音声データを収音している端末がなかったのであるから、端末Xを所有する参加者は、クラウドサーバ609(より具体的には会議テーブル1001)に未登録の新たな会議に参加をしていると決定する。
この場合、会議テーブル1001に、新たな会議のエントリし、その会議の代表端末または参加端末として、端末Xを登録するとともに、端末Xに対応するバッファメモリ(またはバッファ)を割り当てる(S1707)。これで、端末Xの属する会議が決定されたので、端末Xから受信したデータを、端末Xに関するバッファに格納する(S1708)。
例えば、第2の端末を利用するユーザが、会議テーブル1001に登録された会議のうちのいずれか1つの会議(第1の会議)に新たに参加した場合を考える。この場合、新たに参加した第2の端末、および第1の会議に属する端末(または、第1の会議に対応する会議室に置かれた端末)がそれぞれ収音した収音データには、第1の会議の参加者が発話したときの音声データが含まれる。
よって、第1の会議に属する端末が収音した収音データ(第1の収音データ)および第2の端末が収音した収音データ(第2の収音データ)を比較したときの類似度(第1の類似度)は高いと考えられる。
一方、会議テーブル1001に登録された会議のうち、第1の会議とは異なる会議(第2の会議)に属する端末が収音する収音データには、第1の会議の参加者が発話したときの音声データが含まれないと考えられる。
または、仮に、第2の会議に属する端末が収音した収音データに第1の会議の参加者が発話した音声が含まれたとしても、この音声の信号レベルは、第1の会議に属する端末と比べると、小さいと考えられる。
第1の会議と、第2の会議とは、例えば別々の会議室(または別々の空間)で行われているからである。
よって、第1の会議以外の会議に属する端末が収音した収音データ(第1の収音データ)および第2の端末が収音した収音データ(第2の収音データ)を比較したときの類似度(第2の類似度)は低いと考えられる。
よって、ステップS1705の閾値として、第2の類似度よりも大きく、第1の類似度よりも小さい値を設定すれば、新たに参加した端末Xがどの会議に属している(またはどの会議室に置かれている)のか、または未登録の新たな会議であるのかを決定することができる。
上述の処理は収音データに含まれる会議の参加者の発話に対応する音声データを用いて処理を行っているので、例えば、収音データから音声データを抽出した後に図17Aおよび図17Bのフローチャートを実行しても良い。
収音データに含まれる音声データの抽出は、例えば、クラウドサーバ609が行っても良い。
または、代表端末601と、参加端末602のそれぞれが収音した収音データに含まれる音声データを抽出した後、クラウドサーバ609へ送信するのでも良い。
前記のように、端末ごとに割り当てたバッファに格納された音声データの処理の一例を、図18A、図18Bを用いて説明する。図18Aは、遠隔会議に関する処理の一例を示すフローチャートである。図18Bは、記事録作成に関する処理の一例を示すフローチャートである。
まず、図18Aにおける動作について説明する。音声処理は、一定の時間間隔において起動される(S1801)。この時間間隔は、音声データのバッファ量に依存する。バッファは、端末とクラウドサーバ609の間のネットワーク遅延を吸収するためのもので、バッファが小さい、つまり、早い時間間隔で音声処理をすると、ネットワーク遅延を吸収できず、音声データの欠落の原因となる。バッファが大きい、つまり、遅い時間間隔で音声処理を行うと、処理の遅延の原因となる。提供したい会議支援サービスに応じて、適切な時間間隔が設定される。
音声処理は、会議の数に相当する回数分のループ処理を行う(S1802)。ループ処理の中で、その会議に参加している端末の数に相当する回数分のループ処理をさらに行う(S1803)。このループ処理の中で、個々の端末ごとに蓄積された音声データを読み込み、会議単位に統合して、一つの音声データを作成する(S1804)。前記の処理をその会議の参加端末分だけ繰り返した後、統合された音声データを、遠隔地の会議に参加している端末に送信する(S1805)。
次に図18Bにおける動作について説明する。符号が同一の場合は、図18Aと同様である。図18Aでは、会議ごとに、音声データを統合し、一つの音声データを作成したが、図18Bでは、端末ごとに音声データを認識し(S1806)、得られたテキストデータを会議単位で統合する(S1807)。この統合したテキストデータを、会議に参加している端末に送信する。
上述の音声処理は、一例であり、そのほかの用途のための音声処理がなされてもよい。
上述の図17Aフローチャートのうち、音声データの類似度を計測する(S1704)処理のより具体的な内容について、図11を用いて説明する。図11は、本実施の形態において、会議テーブル1001に登録されている端末から受信した音声データの一例を示す図である。例えば図11では、会議テーブル1001に登録されている端末から受信した音声データを模式的に表現している(1101)。さらに、まだ会議テーブル1001に登録されていない、新たに接続された端末である端末Xの音声データも、模式的に表現している(1102)。
1101において、「会議1」には、端末A、端末B、端末Cの3台の端末が登録され、「会議2」には、端末D、端末Eの2台の端末が登録されている。同じ会議に属している端末は、同じ会議室で交わされている会話を収音しているのであるから、端末が置かれた場所の違いにより多少の差はあるものの、似通った音声データを送信している。しかし、違う会議に属する端末とは、会話の内容が異なるのだから、音声データに大きな違いがある。
この特徴を利用し、新たに接続された端末Xが、どの会議に属しているかを、決定する。すなわち、端末Xが収音した音声データと、各会議に属する端末が収音した音声データとの類似度を計算し、端末Xが収音した音声データともっとも高い類似度を有する音声データを収音した端末を特定する。最も高い類似度が閾値を越えていれば、特定した端末が属する会議に対応する会議室(つまり、特定した端末が置かれている会議室)に端末Xが置かれていると考えられる。この場合、特定した端末が属する会議と同じ会議に端末Xが属すると決定する。
なお、最も高い類似度が閾値を越えていなければ、会議テーブル1001に登録された端末が属する会議に対応するいずれの会議室にも、端末Xが置かれていないと考えられる。
よって、会議テーブル1001に、新たな会議のエントリし、その会議の代表端末または参加端末として、端末Xを登録する。
会議ごとの類似度の計算は、例えば、会議に属する端末(例えばA,B,C)の音声データと、端末Xの音声データとの、差分の絶対値をそれぞれ求め、その差分の絶対値の会議ごとの平均値を求めてもよい。また、平均値を求めるのではなく、会議の代表となる一台の端末との差分の絶対値を求めてもよい。代表となる端末は、その会議の中で、もっとも大きいレベルの音声データを送信した端末に決定してもよい。レベルが大きければ、一般的にSN比が大きいから、より正確な類似度が計算できる可能性がある。また、差分の絶対値で類似度を計算するとしたが、本収音システムの構成方法はこれに限らない。人間は息継ぎをするので、必ず、発話には、無音部分が存在する。その、無音部分の分布を比較する方法で、類似度を求めてもよい。さらに、各端末の音声データを、音声認識し、発話を文字列に変換してから、文字列の一致度を求めて類似度としてもよい。
上述したような方法で、会議で交わされた発話と、端末Xが収音した発話との類似度を判定する。その類似度の中で、もっとも大きい類似度が、閾値以上であれば、端末Xはその類似度を算出した会議に属するものとして、会議テーブル1001のその会議のエントリに端末Xを加える。閾値よりも小さければ、端末Xの収音した会話と類似の会話がなかったわけであるから、端末Xだけが参加している新たな会議のエントリを会議テーブル1001に作成する。
上述した方法は、会議テーブル1001に未登録の端末が接続された際、その端末が属する会議を音声データの類似度を用いて決定するものであった。しかし、本収音システムの構成方法はこのような方法に限定されるものではない。既に会議テーブル1001に登録されている各端末が収音した音声データの類似度を常に判定してもよい。例えば、図11における「会議1」に属する端末A,B,Cが収音した音声データの類似度を、常に判定し、端末Cの音声データの類似度が、端末AとBに比べ低くなったときに、端末Cを、「会議1」のエントリから消去するようにしてもよい。このような方法を用いれば、端末Cの持ち主が、「会議1」の途中で、会議を行っている会議室から端末Cを持って離れたとき、端末Cが収音した会議とは無関係な音声データを、他の会議拠点に送信してしまう、といった、不具合を防ぐことができる。
前記した方法で計算した類似度を、会議に参加している端末に送信し、それぞれの端末で表示してもよい。図16は、会議1に属する端末の表示画面に表示される表示の一例を示す図である。図16の画面1601は、会議1に参加している端末が4台であることや、端末それぞれの状況を表示していることを示している。1602は、それぞれの端末が収音している音声データの類似度を、円グラフで表わしたものである。このような表示を行うことで、会議の参加者は、自分の端末が会議に参加していることを確認することができる。また、類似度が他の端末と比べて著しく低い端末は、会議のエントリから消される可能性があるので、その場合はその端末を会議の発話がより収音しやすい位置に移動するなどの対処をすることもできる。さらに、盗聴防止にも有効である。このことは、実施の形態3で詳細に説明する。
なお、図17A、図17Bでは、新たにクラウドサーバ609に接続された端末Xが属する会議を決定するため、すべての会議に対して類似度を求めるとしたが、例えばGPSによる位置特定機能を用いて、端末Xが存在する位置の近くで開催されている会議に絞って類似度を求めることで、類似度を求める処理を低減することができる。位置特定はGPSによって行う以外にも、会議室の付近に設置された無線LANステーションのMACアドレスを用いることによっても行える。
なお、図17B(より具体的には、ステップS1705)で、類似度があらかじめ決められた閾値以上だったら会議を特定するとしたが、この閾値は、固定値である必要はない。例えば、図11において、既に「会議1」に属している端末A,端末B,端末C間の類似度を計測し、この類似度に近い値を、閾値として決定してもよい。会議室が広かったり、ノイズが大きかったりした場合は、もともと、会議に属している端末間の類似度は低い。ゆえに、新たに参加した端末においても、低い類似度で、会議の決定を行う必要がある。しかし、狭い会議室で、少人数で会議を行っている場合は、会議に属している端末間の音声の類似度は高い。この場合は、その類似度と同程度の高い類似度で、会議の決定をすべきである。類似度の閾値を高くすれば、会議室の外で盗聴を行おうとする端末を、排除することができる。
次に図20を用いて、本実施の形態の収音システムにおいて、各装置の情報のやり取りを示すシーケンスを説明する。図20は、本実施の形態の収音システムにおいて、会議に参加する参加者が保有する端末(例えば、代表端末または参加端末ここでは単に端末(602)と称す)とクラウドサーバ609との情報のやり取りの一例を示すシーケンス図である。
まずステップS2001にて、会議参加者の保有する端末(602)のマイクによって会議の音声データを取得する。
次に、ステップS2002にて、端末(602)は取得した音声データをクラウドサーバ609に送信する。クラウドサーバ609は、インターネット608を介して音声データを受信する。
次に、ステップS2003にて、クラウドサーバ609は端末(602)が所属する会議の決定および/または会議テーブル1001の更新を行う。ステップS2003の処理に関しては図17のフローチャートを用いて説明したとおりである。
次に、ステップS2004にて、クラウドサーバ609は取得した音声データに関して音声認識を行う。このとき、他の端末より取得した音声データとステップS2002で取得した音声データとの統合を行ってもよい。他の端末とは、ステップS2002で取得した音声データを送信した端末(602)と同じ会議に属する端末であって、ステップS2002で取得した音声データを送信した端末(602)とは異なる端末のことである。
ステップS2004の処理に関しては図18のフローチャートを用いて説明したとおりである。
次に、ステップS2005にて、クラウドサーバ609は、ステップS2003にて決定した端末(602)の所属する会議に関する情報を端末(602)に送信する。ここで、ステップS2004にて処理した、音声認識の結果および/または作成した議事録(図18B)を端末(602)へ送信する。また、S2004において、音声データの統合を行った場合、統合した音声データ(図18A)を、端末(602)に送信してもよい。
ステップS2003にて決定した端末(602)の所属する会議に関する情報とは、例えば、端末(602)の所属する会議に属する全ての端末の一覧情報であっても良い。
また、ステップS2004にて処理した、音声認識の結果および作成した議事録(図18B)、統合した音声データは、それぞれ、端末(602)が属する会議とは異なる会議に属する他の端末へ送信しても良い。
例えば、端末(602)が属する会議の代表端末が、遠隔会議を行う拠点を、クラウドサーバ609に指定している場合、指定した拠点の会議室と対応する会議に属する端末(例えば、代表端末604、参加端末605)へ送信しても良い。
端末(602)は、クラウドサーバ609が送信した情報を受信する。ここでクラウドサーバ609が送信した情報を受信する端末(602)は、ステップS2002にて音声データを送信した端末であってもよいし、端末(602)が所属すると決定された会議に属する他の端末であってもよい。また、図18Bで説明した遠隔会議の場合は、S2005において、送信される会議に関する情報は、ステップS2002にて音声データを送信した端末と異なる端末であって、端末(602)が所属すると決定された会議と遠隔会議を行なっている他の会議に属する端末が受信する。
そしてステップS2006にて、端末(602)は会議に参加している端末(例えば、代表端末601、参加端末602など)に関する情報を表示する。表示する情報に関しては、図16にその例を示したとおりである。なお、表示する情報はこの例に限られず、例えば図18Bに示すフローチャートを実行し、議事録を作成した場合は、作成した議事録を表示してもよい。
なお、ステップS2004からステップS2006の処理は必須ではなく、各処理のタイミングも図20に示したものに限られない。
このように、本実施の形態によれば、主に会議の際、参加者が保有するスマートフォンのような汎用的な端末(例えば、代表端末601および参加端末602)に備わるマイクを会議用のマイクとして用いて参加者の発話を収音するシステムにおいて、端末の設定を、端末が収音した音声データの類似度を用いて行う。このため、端末の属する会議を指定する際、パスワードなどの設定が必要なく、また、電波でペアリングを行うものより、盗聴の危険が少ないという格別の効果を奏する。
(実施の形態2)
実施の形態1では、新たな端末が属する会議を決定する際、新たな端末が収音した収音データと、他の端末(属する会議が既に決定している端末)が収音した収音データの類似度を測定し、測定結果に基づいて、新たな端末が属する会議を決定するものであった。
これは、例えばクラウドサーバ609に登録された端末(例えば、代表端末または参加端末)が属する会議に対応する会議室に新たな端末に置かれている場合、その会議室内で行われる会議で交わされている発話を新たな端末と、この会議に属する端末とのそれぞれで収音するので、収音データには同じ音声データが含まれるので、収音データ(音声データ)の類似度が高いという特徴を用いて、新たな端末が属する会議を決定するものであった。
しかしながら、この方法を実現するためには、会議で、収音される収音データに音声データが常に含まれていることが望ましい。そもそも発話がなければ、端末において収音される収音データに音声データは含まれない。よって、収音データに音声データが含まれなければ、その類似度を計測することはできない。しかし、たまたま会話が途切れるなど、音声データが収音されないことも現実には起こりうる。実施の形態2では、このような状況が生じた場合でも、新たな端末の属する会議を決定するための方法を提供する。
図12を用いて、実施の形態2を説明する。図12は、本実施の形態の収音システムの構成の一例を示す図である。なお、図12において、図6または図8に付した符号が同一の場合は、図6または図8の内容と同様である。図12では、離れた位置で、会議1(1201)と、会議2(1205)とが行われている。会議1(1201)では、端末A(1202)、端末B(1203)、および端末C(1204)が、参加している。一方、会議2(1205)では、端末D(1206)と端末E(1207)が参加している。
図19は、本実施の形態における収音システムの動作の一例を示すフローチャートである。また、図19は、図17Bに示すフローチャートの変形例である。本実施の形態における収音システムの動作において、図17Aに示したフローチャートの動作は本実施の形態においても行われるものとする。
ここで、会議1(1201)において、端末X(1208)が、新たに参加した。システムは、端末Xが属する会議を、実施の形態1の方法を用いて決定しようとしたが、たまたま、会議1(1201)の参加者802が沈黙していて、音声データの類似度の検出に失敗した。つまり、図17Bの1705において、最も類似度の高い値が閾値より小さい、という状態となった。1705からの実施の形態2の動作を、図19と図12を用いて説明する。
図19において、前記したように、最も類似度の高い値は閾値より小さい(S1705)。そこで、会議管理部に登録された会議の数のループを開始する(S1901)。ループの中で、会議ごとに、ユニークな音響信号(会議室決定用音響信号)を生成する(S1902)。音響信号は、例えば、会議管理部が管理する会議の通し番号を符号化したものを含むものであってよい。
図12の音響信号1211は、この音響信号を模式的に示したものである。会議決定部811は、この音響信号1211のうち音響信号1212を各会議室の代表端末(端末A、あるいは、端末D)に送信し、各代表端末が備えるスピーカで出力するように指示する(S1903)。例えば、指示を受けた代表端末である端末A(1202)はこれを出力する(出力1213)。ステップS1903により、会議テーブル1001に登録された各会議の代表端末は、互いに異なる音響信号を受信するので、各代表端末のスピーカから出力される音は互いに異なる。
各代表端末のスピーカから音響信号1212に対応する音を出力しているとき、端末X(1208)は、外部の音響を収音する。
例えば図12に示す例では、端末Xは、会議1に対応する会議室に置いてあるので、端末Xは、外部の音響を収音するとき、収音した収音データ(または、音響信号)には、会議1の代表端末(端末A)のスピーカから出力される音に対応するデータが含まれる。この場合、端末Xが収音した収音データ(音響信号)と、クラウドサーバ609から会議1の代表端末(端末A)に送信される音響信号とを比較すると、これらの類似度(第1の類似度)が高い(または相関が高い)と考えられる。
一方、端末Xが、収音した収音データ(または、音響信号)には、会議2の代表端末(端末D)のスピーカから出力される音に対応するデータが含まれない。この場合、端末Xが収音した収音データ(音響信号)と、会議2の代表端末(端末D)に送信される音響信号とを比較すると、これらの類似度(第2の類似度)が低い(または相関が低い)と考えられる。
また、図12には、図示していないが、端末Xが、例えば図12に示す会議2に対応する会議室にあれば、端末Xは、外部の音響を収音するとき、収音した収音データには、会議2の代表端末(端末D)のスピーカから出力される音(音響信号)に対応するデータが含まれる。この場合、端末Xが収音した収音データ(音響信号)と、クラウドサーバ609から会議2の代表端末(端末D)に送信される音響信号とを比較すると、これらの類似度(第1の類似度)が高い(または相関が高い)と考えられる。
一方、端末Xが、収音した収音データ(または、音響信号)には、会議1の代表端末(端末A)のスピーカから出力される音に対応するデータが含まれない。この場合、端末Xが収音した収音データ(音響信号)と、会議1の代表端末(端末A)に送信される音響信号とを比較すると、これらの類似度(第2の類似度)が低い(または相関が低い)と考えられる。
また、図12には、図示していないが、端末Xが、例えば図12に示す会議1および会議2に対応する会議室になければ、端末Xは、会議1の代表端末(端末A)のスピーカおよび会議2の代表端末(端末D)のスピーカのそれぞれから出力される音は、収音されない。
または、端末Xが、例えば図12に示す会議1および会議2に対応する会議室にない場合、端末Xは、会議1の代表端末(端末A)のスピーカおよび会議2の代表端末(端末D)のスピーカのそれぞれから出力される音を収音したとしても、これらの音を収音したときの信号のレベルは、端末Xが上述の会議室にある場合に比べ、小さくなる。
したがって、閾値として、第2の類似度よりも大きく、第1の類似度よりも小さい値を設定すれば、クラウドサーバ609(より具体的には、会議決定部811)は、新たに参加した端末Xがどの会議に属している(またはどの会議室に置かれている)のか、または未登録の新たな会議であるのかを決定することができる。
端末X(1208)は、外部の音響を収音した収音データ(音響信号)をクラウドサーバ609に送信する(出力1214)。
なお、音響信号1211、音響信号1212、出力1213、出力1214と符号を分けたが、各々は基本的には同一もしくは類似の信号となる。会議決定部811は、端末X(1208)からの音響信号を受信する(S1904)。図12の判定1215では、受信した音響信号および作成した音響信号1211を比較する様子を模式的に示している。ここで、1902で作成した会議ごとにユニークな音響信号と、受信した音響信号との類似度を計算する(S1905)。この類似度が閾値以上であったら(S1906)、ループ処理の対象の会議に、端末Xを登録して、ループから抜ける(S1907)。閾値としては、ループ処理の対象の会議に端末Xが属する(つまり、ループの対象の会議に対応する会議室に端末Xが置かれている)と決定できる値を設定すればよい。ループから抜けた後、端末Xの属する会議が決定されていなかったら(S1908)、端末Xが属する新しい会議のエントリを作成する(S1707)。
上記のように、実施の形態2においては、端末Xが収音した収音データを用いて、端末Xが属する会議を決定する点は実施の形態1と同様である。
実施の形態1では、収音データに含まれる会議の参加者の発話に対応する音声データを用いて端末Xが属する会議を決定するのに対し、本実施の形態では、クラウドサーバ602(つまり、会議テーブル1001)に登録されている会議の代表端末のスピーカから出力される音を用いて、端末Xが属する会議を決定する点が異なる。
この構成により、会議の参加者が沈黙していて、収音データに類似度を判定すべき音声が含まれないという状況でも、端末Xが属する会議を決定することができる。また、会議における通常の発話を収音する場合と比べ、類似度を判定するために、会議決定部811で作成された音響信号を収音するので、類似度の判定が容易となる。
実施の形態2では、実施の形態1の方法で会議の決定ができなかった場合に、実施の形態2の方法を実施するとしたが、実施の形態2の方法のみで、会議の決定を行ってもよい。
会議決定部811で作成される音響信号は、人間の耳には聞こえない、例えば超音波を用いてもよい。超音波を用いることで、類似度を判定するための音を聞いて参加者が不快になることを防ぐことができる。
また、クラウドサーバ609から送信された音響信号を代表端末のスピーカから出力する前に、会議の参加者に対して、「これより端末接続用の音響信号を発生します。できるだけ静かにしてください」とのガイダンスを代表端末のスピーカから出力するようにしてもよい。これにより、代表端末のスピーカから音響信号を出力する前に参加者は沈黙し、音響信号の出力だけが聞こえるので、SN比があがり、類似度の判定の精度を向上させることができる。
また、実施の形態2では、音響信号を出力するのは、代表端末のスピーカからとしたが、会議に参加している他の端末(例えば参加端末)のスピーカを用いて音響信号を出力するのでもよい。
さらに、音響信号を、新規の端末の属する会議の決定のみに用いるのではなく、他の用途に利用することもできる。例えば、属する会議が既に決定している他の端末も、外部の音響を収音し、収音データ(音響信号)をクラウドサーバ609に送信する。これらの収音データは、属する会議の代表端末から出力された同一の音響信号を収音したものであることがわかっているので、これらの収音データの違いをクラウドサーバ609で解析することで、各端末のマイクの収音上の特性を特定することができる。そして、これらの特性を打ち消すよう、収音された音声データを調整すれば、会議に属するすべての端末が、同一の特性で、収音を行うことができるようになる。このことは、例えば遠隔会議の音質を向上させる。また、各端末で収音した音響信号の時間的遅れを解析すれば、音響信号を出力した代表端末と、この代表端末が属する会議と同じ会議に属する他の端末(例えば参加端末)または、この代表端末が属する会議と遠隔会議を行っている会議に属する端末(例えば、代表端末、参加端末など)との、物理的距離を判定することができる。このことは、遠隔会議における相手側参加者の相対的な位置の特定に役立てることができる。
次に、図21を用いて、本実施の形態における収音システムにおいて、各装置の情報のやり取りを示すシーケンスを説明する。
ステップ2101からステップ2103までの処理は図20にて説明したステップ2001からステップ2003までの処理と同様であるので、その説明を省略する。なおここではステップS2103における図17に示したステップS1705にて、類似度が閾値よりも小さいと判定された後、図19に示すフローチャートにおけるステップS1901からステップS1902まで処理が進んだものとする。
ステップS2104では、クラウドサーバ609は、ステップS2102にて音声データを送信した端末と異なる端末であって、会議の代表端末である端末1202に、作成した音響信号(会議決定用音響信号)を出力するように指示する。また、ステップS2104において、端末1202以外の端末(例えば参加端末)に作成した音響信号(会議決定用音響信号)を出力するように指示してもよい。なお、ステップS2104は図19に示すステップS1903に相当する。端末1202はクラウドサーバ609からの指示を受信する。
次にステップS2105にて、端末1202は受信した指示に従い、音響信号を端末1202のスピーカから出力する。
次にステップS2106にて、端末1208はステップS2105にて端末1202が音響信号をスピーカから出力しているとき、例えば、端末1208のマイクを用いて外部の音響を収音した収音データ(または音響信号)を取得する。
端末1202と端末1208とが同じ会議の会議室にある場合、端末1208が収音した収音データには、端末1202のスピーカから出力された音響信号が含まれる。
端末1202と端末1208とが同じ会議の会議室にない場合、端末1208が収音した収音データには、端末1202のスピーカから出力された音響信号が含まれない。
または、端末1202と端末1208とが同じ会議の会議室にない場合、端末1208が収音した収音データに端末1202のスピーカから出力された音響信号が含まれたとしてもその信号のレベルは小さい。
次にステップS2107にて、端末1208はステップS2106にて取得した音響信号をクラウドサーバ609に送信する。クラウドサーバ609は、端末1208が送信した音響信号を取得する。なお、ステップS2107は図19に示すステップS1904に相当する。
次にステップS2108にて、クラウドサーバ609はステップS2107にて受信した音響信号に基づき、端末1208が所属する会議の決定および/または会議テーブル1001の更新を行う。ステップS2108の処理に関しては図19に示すS1904からS1908を用いて説明したとおりである。
以降ステップS2009からステップS2011の処理は、図20にて説明したステップS2004からステップS2006の処理と同様であるので説明を省略する。
このように、本実施の形態、主に会議の際、会議の参加者が保有するスマートフォン等の汎用的な端末を用いて、端末が備えるマイクを会議用マイクとして用いて参加者の発話を収音するシステムにおいて、クラウドサーバ609が生成した音響信号(会議室決定用音響信号)を代表端末に送信し、代表端末が受信した音響信号を代表端末が備えるスピーカを用いて出力しているとき、新たな端末Xは外部の音響を収音し、収音した収音データ(または音響信号)をクラウドサーバ609へ送信する。
クラウドサーバ609は、端末Xが収音した収音データ(または音響信号)と、代表端末が出力に用いた音響信号(会議室決定用音響信号)との類似度に応じて新たな端末の設定(例えば、新たな端末がどの会議に属するかの決定)を行う。
このため、実施の形態1による効果に加え、会議室で交わされる発話の有無によらず、新たな端末が属する会議の決定ができるという、格別の効果を奏する。
(実施の形態3)
これまで説明した実施の形態が解決する課題の1つに、盗聴があったが、実施の形態3では、より一層、盗聴が防止できることを目的とする。
図13は、盗聴が可能となる状況を説明する図である。なお、符号が同一の場合は、図8の内容と同様である。図13では、端末A(1302),B(1303),C(1304)が、会議室1301で会議中である。ここで、会議室の外で、悪意のある人物1305が、盗聴用の端末Z(1306)を会議室の壁の近くにおいて、クラウドサーバ609との接続を行った。
ここで、実施の形態1の方法が行われると、端末Z(1306)が、会議室1301で交わされる発話を収音し、音声データとしてクラウドサーバ609に送信し、会議決定部811が音声データの類似度を判定して会議を決定する。端末Z(1306)は会議室1301の外に存在するので、通常は、会議室1301で交わされる発話がうまく収音できず、したがって類似度が低いので会議に参加できない。しかし、会議室1301の壁が著しく薄いと、収音が成功し、会議の参加者802が意図しない端末Z(1306)が会議に参加してしまうかもしれない。すると、例えば参加者802が議事録作成サービスを運用していると、機密であるはずの議事録が悪意のある人物1305の端末Z(1306)にも送信されてしまい、大きな問題となる。
実施の形態3は、このような盗聴を防止する方法を、図14を用いて説明する。図14は、本開示の収音システムの一例を示す図である。図14は、図12とほとんど同じであるため、詳細は割愛する。今、会議1(1201)において、端末X(1208)が新たに会議に参加し、実施の形態1ないし2の方法を用いて、端末X(1208)が属する会議は会議1(1201)であることが決定されたところだとする。実施の形態3では、さらに、端末X(1208)が確かに会議室に存在するかどうか、確認する方法をとる。すなわち、会議決定部811は、確認用の音響信号1401を作成する。この音響信号は、実施の形態2で会議ごとにユニークとなるよう作成した音響信号1211と同様でよい。そして、作成された音響信号1401のうち音響信号1402を、端末X(1208)に送信する。端末X(1208)は、音響信号1402を受信し、端末X(1208)のスピーカから出力する(1403)。
端末X(1208)が音響信号1403をスピーカから出力しているとき、会議1(1201)に参加している代表端末である端末A(1202)は、外部の音響を収音する。
端末X(1208)が出力した音響信号1403を収音した収音データ(または音響信号)1404をクラウドサーバ609に送信する(1404)。会議決定部811は、受信した収音データ1404と、端末X(1208)に出力を命じた音響信号1402との類似度を判定し(判定1405)、類似度が閾値以上であれば、端末X(1208)が会議1(1201)に属していると決定する。
上記した実施の形態3の方法では、実施の形態1、2で、新たな端末の属する会議が決定されたあとに、当該新たな端末が音響信号(会議確認用音響信号)をスピーカから出力し、その音を既に会議に参加している他の端末が収音して、出力された音響信号と比較することで、端末が本当にその会議に属しているか確認する。そして、クラウドサーバ609は、新たな端末、および新たな端末の属する会議と同じ会議に属する他の端末(例えば、代表端末、または参加端末)の一覧情報を生成し、他の端末へ送信しても良い。一覧情報を受信した他の端末は一覧情報を他の端末が備えるディスプレイ(図示せず)に表示をしても良い。
この方法は、二つの課題を解決することができる。一つ目は、新たに接続された端末が、本当にその会議に属しているか、確認できるということである。二つ目は、新たに接続された端末が確認用の音を出力することで、属する会議が決定された端末を、同じ会議の参加者に気づかせることができるということである。
上記した二つ目の課題の解決の効果を、図15を用いて説明する。図15は、図13とほとんど同じであり、端末Z(1306)が、盗聴をしようとしていることを示している。ここで、実施の形態3の方法で、端末Z(1306)が属する会議の決定を行う。上述したように、端末Z(1306)は、確認用の音響信号を出力する(1501)。この音を、会議1301に参加している他の端末(例えば端末A)が収音しなければ、端末Z(1306)が会議1301に参加することはできない。しかし、その音は、当然、会議1301)の参加者802も、聞こえることになる。会議室の壁の向こうから聞こえてくる確認用の音を聞き、会議の参加者802は、盗聴が行われていることに気づき、悪意のある人物1305の行動を未然に防止することができる。
実施の形態1で説明した、図16で示したような表示を端末で行うことは、より一層、盗聴の防止に役立つ。図16においては、参加端末(例えば、会議テーブル1001に登録された会議1に登録された端末)は4台であるが、もし、図15のように、実際には、この会議1に参加する参加者は3人、つまり3台の端末しかこの会議1に対応する会議室に持ち込んでいないときに参加端末が4台と表示されれば、どこかで盗聴されている可能性があることに、会議1の参加者は気づくことができる。
また、図16において、端末Xは、他の端末に比べて、著しく、類似度が低い。このことは、端末Xが、図15の端末Z(1306)のように、会議室の壁の向こう側で盗聴している可能性があることを示している。
他の端末に比べて著しく類似度が低い端末は、他の端末とは異なる色で表示するなどの実装は、参加者に、盗聴している端末に気づかせるため、より一層効果的である。
次に図22を用いて、本実施の形態における収音システムにおいて、各装置の情報のやり取りを示すシーケンスを説明する。
まずステップ2201からステップ2203までの処理は図20にて説明したステップ2001からステップ2003までの処理と同様であるので、その説明を省略する。なおここではステップS2203における図17に示したステップS1705もしくは図19に示したステップS1705またはステップS1906にて、類似度が閾値以上と判定されたものとする。
ステップS2204にてクラウドサーバ609は、ステップS2202にて音声データを送信した端末1208に、作成した音響信号(会議確認用音響信号)を出力する旨の指示を送信する。
次にステップS2205にて、端末1208は受信した指示に従い、音響信号を出力する。
次にステップS2206にて、端末1202はステップS2205にて端末1208が出力した音響信号を取得する。
次にステップS2207にて、端末1202はステップS2206にて取得した音響信号をクラウドサーバ609に送信する。クラウドサーバ609は、端末1202が送信した音響信号を取得する。
次にステップS2208にて、クラウドサーバ609はステップS2203における図17もしくは図19に示したステップS1706またはステップS1906にて、類似度が閾値以上と判定された会議が、端末1208の所属する会議で正しかったか否かを確認する。すなわちステップS2203にて端末1208の取得した音声が会議1の音声と類似度が高いと判定されていた場合、ステップS2207にて会議1に属する端末1202から音響信号を取得した場合は、確かに端末1208が会議1に属する端末であることを確定できる。一方、ステップS2203にて端末1208の取得した音声が会議1の音声と類似度が高いと判定されていたのに、ステップS2207にて会議1以外の会議に属する端末1202から音響信号を取得した場合は、端末1208が会議1に属する端末であることを確定できない。この場合再度ステップS2201からステップS2208の処理を繰り返してもよい。
実施の形態1から3において説明したクラウドサーバ609のハードウェア構成について説明をする。図23は、本実施の形態に係るクラウドサーバ609のハードウェア構成の一例を示す図である。
クラウドサーバ609は、例えば、プロセッサに対応するCPU(Central Processing Unit)609a、制御プログラムを格納した記憶媒体609b、通信回路609cを有するコンピュータである。
通信回路609cは、インターネットを介して代表端末、通信端末のそれぞれにデータを送信し、または代表端末、通信端末のそれぞれからデータを受信する。
記憶媒体609bは、例えばメモリである。メモリとは例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、ハードディスク等である。
記憶媒体609bに記録された制御プログラムをCPU609aが実行することにより、コンピュータは、クラウドサーバ609として機能する(またはクラウドサーバ609が備える各ブロックが機能する)。
図23では、制御プログラムをCPU609aが実行することにより、クラウドサーバ609として機能させる構成を説明したが、これに限定をされるものではない。
例えば、クラウドサーバ609が備える各ブロックの機能は、図示しない専用の信号処理を用いて構成しても良い。この信号処理回路は、例えばASIC(Application Specific Integrated Circuit)またはFPGA(Field Programmable Gate Array)等を含む。
また、クラウドサーバ609が備える複数のブロックのうち、いずれかのブロックの機能については、このブロックの機能に対応するプログラムをCPU609aが実行してもよい。そして、残りのブロックの機能を専用の信号処理を用いて構成しても良い。
実施の形態1から3において説明した参加端末のハードウェア構成について説明をする。図24は、本実施の形態の参加端末602のハードウェア構成の一例を示す図である。
参加端末602は、例えば、プロセッサに対応するCPU602a、制御プログラムを格納した記憶媒体602b、通信回路602c、マイク602d、スピーカ602eを有するコンピュータである。
通信回路602cは、インターネットを介してクラウドサーバ609にデータを送信し、またはクラウドサーバ609からデータを受信する。
記憶媒体602bは、例えばメモリである。メモリとは例えば、ROM、RAM、ハードディスク等である。
記憶媒体602bに記録された制御プログラムをCPU602aが実行することにより、通信回路602c、マイク609d、スピーカ602eを制御し、コンピュータは、参加端末602として機能する。
図24では、制御プログラムをCPU602aが実行することにより、参加端末602として機能させる構成を説明したが、これに限定をされるものではない。
例えば、制御プログラムに対応する機能を図示しない専用の信号処理を用いて構成しても良い。この信号処理回路は、例えばASICまたはFPGA等を含む。 なお、図24では、参加端末602のハードウェア構成について説明をしたが参加端末605のハードウェア構成についても同様であるので、ここではその説明を省略する。
また、代表端末601、604のハードウェア構成についても、図24と同様の構成であるので、ここではその説明を省略する。
(実施の形態4)
上記態様において説明された技術は、例えば、以下のクラウドサービスの類型において実現されうる。しかし、上記態様において説明された技術が実現される類型はこれに限られるものでない。
(サービスの類型1:自社データセンタ型)
図2は、サービスの類型1(自社データセンタ型)を示す。本類型は、サービスプロバイダ120がグループ100から情報を取得し、ユーザに対してサービスを提供する類型である。本類型では、サービスプロバイダ120が、データセンタ運営会社の機能を有している。即ち、サービスプロバイダが、ビッグデータの管理をするクラウドサーバ111を保有している。従って、データセンタ運営会社は存在しない。
本類型では、サービスプロバイダ120は、データセンタ(クラウドサーバ111)を運営、管理している(203)。また、サービスプロバイダ120は、OS202及びアプリケーション201を管理する。サービスプロバイダ120は、サービスプロバイダ120が管理するOS202及びアプリケーション201を用いてサービス提供を行う(204)。
(サービスの類型2:IaaS利用型)
図3は、サービスの類型2(IaaS利用型)を示す。ここでIaaSとはインフラストラクチャー・アズ・ア・サービスの略であり、コンピュータシステムを構築および稼動させるための基盤そのものを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。
本類型では、データセンタ運営会社がデータセンタ(クラウドサーバ111)を運営、管理している(203)。また、サービスプロバイダ120は、OS202及びアプリケーション201を管理する。サービスプロバイダ120は、サービスプロバイダ120が管理するOS202及びアプリケーション201を用いてサービス提供を行う(204)。
(サービスの類型3:PaaS利用型)
図4は、サービスの類型3(PaaS利用型)を示す。ここでPaaSとはプラットフォーム・アズ・ア・サービスの略であり、ソフトウェアを構築および稼動させるための土台となるプラットフォームを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。
本類型では、データセンタ運営会社110は、OS202を管理し、データセンタ(クラウドサーバ111)を運営、管理している(203)。また、サービスプロバイダ120は、アプリケーション201を管理する。サービスプロバイダ120は、データセンタ運営会社が管理するOS202及びサービスプロバイダ120が管理するアプリケーション201を用いてサービス提供を行う(204)。
(サービスの類型4:SaaS利用型)
図5は、サービスの類型4(SaaS利用型)を示す。ここでSaaSとはソフトウェア・アズ・ア・サービスの略である。例えばデータセンタ(クラウドサーバ)を保有しているプラットフォーム提供者が提供するアプリケーションを、データセンタ(クラウドサーバ)を保有していない会社・個人(利用者)がインターネットなどのネットワーク経由で使用できる機能を有するクラウドサービス提供モデルである。
本類型では、データセンタ運営会社110は、アプリケーション201を管理し、OS202を管理し、データセンタ(クラウドサーバ111)を運営、管理している(203)。また、サービスプロバイダ120は、データセンタ運営会社110が管理するOS202及びアプリケーション201を用いてサービス提供を行う(204)。
以上いずれの類型においても、サービスプロバイダ120がサービス提供行為を行ったものとする。また例えば、サービスプロバイダ若しくはデータセンタ運営会社は、OS、アプリケーション若しくはビックデータのデータベース等を自ら開発してもよいし、また、第三者に外注させてもよい。