JP6580362B2

JP6580362B2 - 会議決定方法およびサーバ装置

Info

Publication number: JP6580362B2
Application number: JP2015082485A
Authority: JP
Inventors: 亜旗米田; 剛樹西川; 敦坂口
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2014-04-24
Filing date: 2015-04-14
Publication date: 2019-09-25
Anticipated expiration: 2035-04-14
Also published as: US9843683B2; JP2015215601A; US20150312419A1

Description

本開示は、スマートフォン等の複数の端末を会議用マイクとして利用する収音システムの構成方法およびサーバ装置に関する。

会議の参加者の発言を収音し、遠隔地の別の会議会場へ相互に送信することで行う遠隔会議（電話会議）は、古くから行われてきた。また、会議での発言を収音し、音声認識して、自動的に議事録を作成するシステムも、昔から知られており、様々な解決手段が考案されてきた。

これらのシステムは、専用の装置を用いるものが多く、典型的には、あらかじめ、そのような装置が設置された会議室を利用するものであり、専用の装置が設置されていない通常の会議室で、手軽にできるものではなかった。

一方、最近は、多くの人がスマートフォンを日常的に利用するようになった。スマートフォンは、ネットワークに単体で接続できる上、カメラやマイクを備えており、外部アプリケーションプログラムを動作させることができる汎用的なコンピュータであるので、スマートフォンを様々なことに積極的に利用しようという機運が高まってきている。

遠隔会議システムにおいても、いわゆるＷｅｂ会議システムにおいては、端末としてスマートフォンの利用が増えてきている。また、非特許文献１にあるように、遠隔会議システムに、スマートフォンを接続し、スマートフォンが備えるマイクを利用して、参加者の発言をもれなく収音する、というアイデアも公開されている。

"遠隔会議のストレスはあなたのスマホをプラスして解消"、［online］、平成２６年２月１３日、［平成２６年４月２４日検索］、ＮＴＴＲ＆Ｄフォーラム２０１４、インターネット（URL:http://labevent.ecl.ntt.co.jp/forum2014/elements/pdf_jpn/V-1_j.pdf）

非特許文献１による遠隔会議システムにおいては、遠隔地とネットワークを通じて通信を行う通信端末に、スマートフォンを接続し、スマートフォンのマイクを用いて音声の収音を行うことで、単独のマイクに比べ、多くの参加者の音声を収音することができる。

しかし、汎用的なスマートフォンを、通信端末に接続するためには、接続のためのさまざまな手順が必要となるが、その方法について、非特許文献１には、開示がない。

また、非特許文献１は、遠隔会議のための専用の通信端末を用いるものであり、そのような専用の装置の準備がない、通常の会議室で、スマートフォンのみを用いて遠隔会議を実施する方法については、開示がない。

さらに、スマートフォンのような端末を持ち寄り、協調して動作させるときは、端末間の認証と接続処理（以下、ペアリングと記す）が必要となる。このペアリングは、一般的に、無線ＬＡＮやＢｌｕｅｔｏｏｔｈ（登録商標）などの、電波を用いた方法が用いられる。しかし、会議支援のための端末接続において、電波によるペアリングを用いるのは、危険である。なぜなら、会議に参加していない、悪意のある利用者が、こっそりと端末を接続させ、会議内容を盗聴することが可能となってしまうからである。ペアリングにおいて、パスワード認証などを義務付けることで、前記したような盗聴を防ぐことは可能だが、その場合、通常の会議の参加者までも、会議のために、いちいちパスワードを設定しなければならないという、利便性における課題が発生してしまう。

本収音システムの構成方法は、上記の課題に鑑み、参加者が持ち寄ったスマートフォンのマイクを利用して、会議の発話を収音する方法であって、スマートフォンの接続を、簡便で安全に行うことを目的とするものである。

本開示にかかる複数の端末による会議向け収音システムの構成方法は、
前記複数の端末の各々が収音した外部の音響を収音データとして、前記複数の端末の各々から受信する受信ステップと、
前記複数の収音データ間の類似度に応じて、前記複数の端末各々が属する会議を決定する会議決定ステップとを含む。

なお、これらの包括的または具体的な側面は、システム、装置、方法、および、コンピュータプログラムで実現されてもよく、システム、装置、方法、およびコンピュータプログラムの任意な組み合わせで実現されてもよい。

本開示によれば、各人が会議室へ持ち寄った端末を用いて収音した収音データを利用することで、会議室に専用の特別な装置を必要とすることなく容易に会議に参加した端末が属する会議を決定することが出来る。

図１Ａは、本開示の収音システムの構成方法にて提供するサービスの全体像の一例を説明する図である。図１Ｂは、本開示の収音システムにおけるデータセンタ運営会社と機器メーカーとの関係の一例について説明する図である。図１Ｃは、本開示の収音システムにおけるデータセンタ運営会社と機器メーカーおよび管理会社との関係の一例について説明する図である。図２は、本開示の収音システムの構成方法にて提供するサービスの第１の形態を説明する図である。図３は、本開示の収音システムの構成方法にて提供するサービスの第２の形態を説明する図である。図４は、本開示の収音システムの構成方法にて提供するサービスの第３の形態を説明する図である。図５は、本開示の収音システムの構成方法にて提供するサービスの第４の形態を説明する図である。図６は、本開示の収音システムの一例を示す図である。図７は、本開示の収音システムの一例を示す図である。図８は、本開示の収音システムの構成方法における第１の会議支援サービスを説明するための図である。図９は、本開示の収音システムの構成方法における第２の会議支援サービスを説明するための図である。図１０は、本開示の収音システムの構成方法の実施の形態１における会議管理部が有する会議テーブルの一例を示す図である。図１１は、実施の形態１において、会議テーブルに登録されている端末から受信した音声データの一例を示す図である。図１２は、本開示の収音システムの構成の一例を示す図である。図１３は、本開示の収音システムの課題を説明する図である。図１４は、本開示の収音システムの一例を示す図である。図１５は、本開示の収音システムの効果を説明する図である。図１６は、本開示の収音システムの構成方法における端末の表示画面の一例を示す図である。図１７Ａは、実施の形態１において、新たな端末が、クラウドサーバに接続された場合の動作の一例を説明するフローチャートである。図１７Ｂは、実施の形態１において、新たな端末が、クラウドサーバに接続された場合の動作の一例を説明するフローチャートである。図１８Ａは、実施の形態１において、遠隔会議に関する処理の一例を示すフローチャートである。図１８Ｂは、実施の形態１において、記事録作成に関する処理の一例を示すフローチャートである。図１９は、本開示の収音システムの構成方法の実施の形態２における収音システムの動作の一例を示すフローチャートである。図２０は、本開示の収音システムにおいて、端末とクラウドサーバとの情報のやり取りの一例を示すシーケンス図である。図２１は、本開示の収音システムにおいて、端末とクラウドサーバとの情報のやり取りの一例を示すシーケンス図である。図２２は、本開示の収音システムにおいて、端末とクラウドサーバとの情報のやり取りの一例を示すシーケンス図である。図２３は、本実施の形態に係るクラウドサーバのハードウェア構成の一例を示す図である。図２４は、本実施の形態に係る参加端末のハードウェア構成の一例を示す図である。

まず、本発明者らが本開示に係る各態様の開示をするにあたって、検討した事項を説明する。

（本発明の基礎となった知見）
非特許文献１による遠隔会議システムにおいては、遠隔地とネットワークを通じて通信を行う通信端末に、スマートフォンを接続し、スマートフォンのマイクを用いて音声の収音を行うことで、単独のマイクに比べ、多くの参加者の音声を収音することができる。

本収音システムの構成方法は、上記の課題に鑑み、参加者が会議室へ持ち寄ったスマートフォンに備わるマイクを利用して、会議の発話を収音する方法であって、スマートフォンの接続を、簡便で安全に行うことを目的とするものである。

前記したように、本収音システムの構成方法は、主に会議の際、スマートフォンのような汎用的な端末を用いて、端末のマイクを用いて参加者の発話を収音するシステムにおいて、会議への参加確認や、各端末の接続・同期、端末の設定などを簡便に行うことを目的としている。

本開示の収音システムの構成方法は複数の端末から音声を取得する会議向け収音システムの構成方法であって、前記複数の端末の各々が収音した外部の音響を収音データとして、前記複数の端末の各々から受信する受信ステップと、前記複数の収音データ間の類似度に応じて、前記複数の端末各々が属する会議を決定する会議決定ステップとを含む。

これにより、各人が持ち寄った端末を用いて収音した収音データを利用することで、会議室に専用の特別な装置を必要とすることなく容易に会議に参加した端末が属する会議を決定することが出来る。

また、複数の端末が同じ会議に属する場合、複数の端末のそれぞれが収音する外部の音響に対応する収音データの類似度は高くなる。よって類似度が高い端末を同じ会議に属すると決定することで、容易に会議に参加した端末が属する会議を決定することが出来る。

なお、前記会議決定ステップは、前記複数の端末のうち第１の端末が取得した第１の収音データと、前記複数の端末のうち第２の端末が取得した第２の収音データとを比較し、類似度が予め設定された閾値以上である場合に、前記第１の端末が属する会議と前記第２の端末が属する会議が同一の会議であることを決定してもよい。

これにより、各端末が属する会議の決定に関して、誤認識を低減することが出来る。

なお、前記会議決定ステップは、前記受信ステップにて受信した前記複数の収音データに、前記会議決定ステップによって属する会議が決定されていない第２の端末によって取得された第２の収音データが含まれていることを判断した際に、前記第２の収音データと、前記会議決定ステップによってすでに第１の会議に属すると決定された第１の端末によって取得された第１の収音データとを比較し、当該比較の結果、類似度が予め設定された閾値以上である場合に、前記第２の端末が前記第１の会議に属することを決定してもよい。

なお、第１の端末によって取得された第１の収音データは、第１の会議において第１の会議の参加者が発話したときの音声データを含む。

第２の端末を利用するユーザが第１の会議に属する第１の端末を利用するユーザと同じ会議に参加をしている場合、第１の端末および第２の端末がそれぞれ収音する収音データには、第１の会議の参加者が発話したときの音声データが含まれる。従って、第１の収音データおよび第２の収音データを比較したときの類似度（第１の類似度）は高い。

一方、第２の端末を利用するユーザが第１の会議に属する第１の端末を利用するユーザと同じ会議に参加をしていない場合、第１の端末が収音する収音データには、第１の会議の参加者が発話したときの音声データが含まれるが、第２の端末が収音する収音データには、第１の会議の参加者が発話したときの音声データが含まれない。従って、第１の収音データおよび第２の収音データを比較したときの類似度（第２の類似度）は低い。

したがって、第１の類似度と第２の類似度を識別できる値（例えば第２の類似度よりも大きく、第１の類似度よりも小さい値）を閾値として設定をすれば、第２の端末が属する会議の決定に関して、誤認識を更に低減することが出来る。

なお、前記会議決定ステップは、前記第２の収音データと、前記第１の収音データおよび受信ステップにて受信した他の収音データとを比較し、当該比較の結果類似度が予め設定された閾値以上となる収音データが存在しなかった場合に、新規会議として第２の会議を設定し、前記第２の端末を前記第２の会議に属する端末と決定してもよい。

これにより、複数の会議の把握や管理を行なうことが出来る。

なお、前記複数の収音データに対し音声認識を行い、前記会議ごとに議事録を作成する議事録作成ステップを含んでもよい。

これにより、特別な装置を用いることなく、会議にて収音した発話を会議後に確認可能な議事録サービスを提供出来る。

なお、前記複数の収音データのうち第１の端末が取得した第１の収音データを、前記会議決定ステップにて前記第１の端末が属する会議と異なる会議に属すると決定された第２の端末に送信する、遠隔送信ステップと、前記第２の端末に、前記第１の収音データを出力させる音声出力ステップと、を含んでもよい。

これにより、特別な装置を用いることなく、複数拠点の会議室間で遠隔の会議を行なう遠隔会議サービスを提供することができる。

なお、会議ごとに異なる複数の会議決定用音響信号を生成する会議決定用音響信号生成ステップと、前記複数の会議決定用音響信号のうち第１の会議決定用音響信号を、第１の会議に属する第１の端末に送信する会議決定用音響信号送信ステップと、前記第１の端末に、前記第１の会議決定用音響信号を出力させる出力ステップと、前記第１の端末に前記第１の会議決定用音響信号を出力させているとき、前記第２の端末に前記外部の音響を収音させ、前記第２の端末に収音させた収音データを受信する、収音・受信ステップと、を更に含み、前記会議決定ステップは、前記第１の会議決定用音響信号と前記第２の端末から受信した収音データとの類似度に応じて、前記第２の端末が属する会議を決定してもよい。

第２の端末を利用するユーザが第１の会議に属する第１の端末を利用するユーザと同じ会議に参加をしている場合、第１の端末に第１の会議決定用音響信号を出力させているとき、第２の端末に外部の音響を収音させると、第２の端末に収音させた収音データには、第１の端末による第１の会議決定用音響信号の出力が含まれる。

よって、第１の会議決定用音響信号と第２の端末に収音させた収音データとの類似度（第１の類似度）は高い。

一方で、第２の端末を利用するユーザが第１の会議に属する第１の端末を利用するユーザと同じ会議に参加をしていない場合、第１の端末に第１の会議決定用音響信号を出力させているとき、第２の端末に外部の音響を収音させると、第２の端末に収音させた収音データには、第１の端末による第１の会議決定用音響信号の出力は含まれない。

よって、第１の会議決定用音響信号と第２の端末に収音させた収音データとの類似度（第２の類似度）は低い。

これにより、前記第１の会議決定用音響信号と前記第２の端末から受信した収音データとの類似度を利用することにより第２の端末の属する会議の決定をより精度よく行なうことが出来る。

なお、会議ごとに異なる複数の会議確認用音響信号を生成する会議確認用音響信号生成ステップと、前記複数の会議確認用音響信号のうち第１の会議に割り当てられた第１の会議確認用音響信号を、前記第２の端末に送信する会議決定用音響信号送信ステップと、前記第２の端末に、前記第１の会議確認用音響信号を出力させる出力ステップと、前記第２の端末に前記第１の会議確認用音響信号を出力させているとき、前記第１の端末に前記外部の音響を収音させ、前記第１の端末に収音させた収音データを受信する、収音・受信ステップと、前記第１の会議確認用音響信号と前記第１の端末から受信した収音データとの類似度に応じて、前記会議決定ステップによって決定された前記第２の端末の属する会議が正しかったか否かを確認する確認ステップと、を含んでいてもよい。

第２の端末の属する会議の決定が正しければ、第２の端末に第１の会議確認用音響信号を出力させているとき、第２の端末の属する会議と同じ会議に属する第１の端末に外部の音響を収音させるので、第１の端末に収音させた収音データには、第２の端末による第１の会議確認用音響信号を出力が含まれる。

よって、第２の端末の属する会議の決定が正しかったのかどうかを確認することができる。

これにより、第２の端末の属する会議の決定をより精度良く行なうことが出来る。また会議室周辺の空間からの会議の盗聴を防止することが出来る。

なお、会議ごとに、前記会議決定ステップが決定した当該会議に属する一または複数の端末の状況を示す一覧情報を生成し、当該会議に属する一または複数の端末の何れかに送信する一覧情報生成ステップと、前記一覧情報を受信した、当該会議に属する一または複数の端末の何れかに、前記一覧情報を表示させる表示ステップと、をさらに含んでもよい。

これにより、ユーザが同じ会議に参加する参加者を確認することが出来るので、会議に参加する参加者の端末に関してシステム側の誤認識等を指摘・修正することができる。また、会議室周辺の空間からの会議の盗聴を防止することが出来る。

本開示のサーバ装置は、複数の端末から音声を取得する会議向け収音システムに用いるサーバ装置であって、
前記複数の端末のそれぞれが収音した外部の音響を収音データとして、前記複数の端末の各々から受信する受信部と、
前記複数の収音データ間の類似度に応じて、前記複数の端末各々が属する会議を決定する会議決定部とを備える。

また、複数の端末が同じ会議に属する場合、複数の端末のそれぞれが収音する外部の音響に対応する収音データの類似度は高くなる。よって類似度が高い端末を同じ会議に属すると決定することで、容易に議に参加した端末が属する会議を決定することが出来る。

このように、本複数の端末による会議向け収音システムの構成方法では、会議の参加者が持ち寄ったスマートフォン等の複数の端末を、ネットワーク上のサーバに接続し、複数のスマートフォンのマイクを会議用のマイクとして利用して収音した音声データをサーバに送ることで、例えば、サーバで複数の音声データを合成して一つの音声データとして他の会議拠点に転送して遠隔会議を行ったり、音声データを音声認識することで、議事録を自動作成したりすることができる。その際、参加者が持ち寄ったスマートフォンが、どの会議に属しているかを判定するために、スマートフォンから送信された音声データの類似度を用いる。

会議に参加し、サーバに接続されたスマートフォンは、その会議室の中の音声を収音し、音声データとしてサーバに送信する。同じ会議室の中のスマートフォンは、置かれた位置によって多少の音量の大小はあるものの、会議室の中で交わされた同じ音声を収音している。そこで、サーバでは、これらの音声の類似度を判定し、一定の閾値以上の類似度を持つ複数のスマートフォンを、同じ会議室に置かれたスマートフォンとして認識し、これらのスマートフォンに対して、収音した音声データを合成して他拠点に転送して遠隔会議を行い、あるいは、音声認識して得られた議事録を送信するなどの、会議支援サービスを提供する。

このように本開示の収音システムの構成方法では、会議のために用いるスマートフォンを協調動作させるためのペアリングを、電波を用いるのではなく、収音された音声の類似度をもって行う。このため、会議室の壁の向こうなどに置かれた、盗聴目的のスマートフォンは、音声の類似度が低くなるため、会議への参加を拒否することができる。また、電波によるセキュリティの高いペアリングに必要なパスワードの入力も、音声の類似度を判定するため、必要がなく、簡便にスマートフォンを協調動作させることができる。

なお、以下で説明する実施の形態は、いずれも本収音システムの構成方法の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本収音システムの構成方法を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることも出来る。

（提供するサービスの全体像）
図１Ａには、本実施の形態における情報提供システムの全体像が示されている。

グループ１００は、例えば企業、団体、家庭等の部屋（会議室）であり、その規模を問わない。グループ１００には、マイクを持つスマートフォンやＰＣや音楽プレーヤーやゲーム機などの複数の機器１０１である機器Ａ、機器Ｂおよびホームゲートウェイ１０２が存在する。複数の機器１０１には、インターネットと接続可能な機器（例えばスマートフォン）もあれば、それ自身ではインターネットと接続不可能な機器（例えば、ゲーム機など）も存在する。それ自身ではインターネットと接続不可能な機器であっても、ホームゲートウェイ１０２を介してインターネットと接続可能となる機器が存在してもよい。またグループ１００には複数の機器１０１を使用するユーザ１０が存在する。

データセンタ運営会社１１０には、クラウドサーバ１１１が存在する。クラウドサーバ１１１とはインターネットを介して様々な機器と連携する仮想化サーバである。主に通常のデータベース管理ツール等で扱うことが困難な巨大なデータ（ビッグデータ）等を管理する。データセンタ運営会社１１０は、データ管理やクラウドサーバ１１１の管理、それらを行うデータセンタの運営等を行っている。データセンタ運営会社１１０が行っている役務については詳細を後述する。ここで、データセンタ運営会社１１０は、データ管理やクラウドサーバ１１１の運営等のみを行っている会社に限らない。例えば複数の機器１０１のうちの一つの機器を開発・製造している機器メーカーが、併せてデータ管理やクラウドサーバ１１１の管理等を行っている場合は、機器メーカーがデータセンタ運営会社１１０に該当する（図１Ｂ）。また、データセンタ運営会社１１０は一つの会社に限らない。例えば機器メーカー及び他の管理会社が共同もしくは分担してデータ管理やクラウドサーバ１１１の運営を行っている場合は、両者もしくはいずれか一方がデータセンタ運営会社１１０に該当するものとする（図１Ｃ）。

サービスプロバイダ１２０は、サーバ１２１を保有している。ここで言うサーバ１２１とは、その規模は問わず例えば、個人用ＰＣ内のメモリ等も含む。また、サービスプロバイダがサーバ１２１を保有していない場合もある。

なお、上記サービスにおいてホームゲートウェイ１０２は必須ではない。例えば、クラウドサーバ１１１が全てのデータ管理を行っている場合等は、ホームゲートウェイ１０２は不要となる。また、家庭内のあらゆる機器がインターネットに接続されている場合のように、それ自身ではインターネットと接続不可能な機器は存在しない場合もある。

次に、上記サービスにおける情報の流れを説明する。

まず、グループ１００の機器Ａ又は機器Ｂは、各ログ情報をデータセンタ１１０のクラウドサーバ１１１に送信する。クラウドサーバ１１１は機器Ａ又は機器Ｂのマイクを用いて収音した収音データ（または音響信号ともいう）等のログ情報を集積する（図１Ａ（ａ））。ここで、ログ情報とは、例えば、収音データ（音響信号）に含まれる音声データ（または、音声信号ともいう）が中心であることはもちろんだが、複数の機器１０１が取得した、ユーザ１０の機器の操作に関する情報や、ユーザ１０が機器を操作して入力した情報なども含む。例えば、ユーザ１０は、スマートフォンを会議のマイクとして用いる際、スマートフォンが置かれた位置情報（ＧＰＳや無線ＬＡＮステーションのマックアドレス等を用いて取得する）を、ログ情報として集積してよい。その他、ユーザ１０が許諾するならば、ユーザ１０のスマートフォンの操作履歴や、ユーザ１０が撮影した写真、さらにユーザ１０の個人情報なども、ログ情報として用いてもよい。ログ情報は、インターネットを介して複数の機器１０１自体からクラウドサーバ１１１に直接提供される場合もある。また複数の機器１０１から一旦ホームゲートウェイ１０２にログ情報が集積され、ホームゲートウェイ１０２からクラウドサーバ１１１に提供されてもよい。

次に、データセンタ運営会社１１０のクラウドサーバ１１１は、集積したログ情報を一定の単位でサービスプロバイダ１２０に提供する。ここで、データセンタ運営会社が集積した情報を整理してサービスプロバイダ１２０に提供することの出来る単位でもいいし、サービスプロバイダ１２０が要求した単位でもいい。一定の単位と記載したが一定でなくてもよく、状況に応じて提供する情報量が変化する場合もある。前記ログ情報は、必要に応じてサービスプロバイダ１２０が保有するサーバ１２１に保存される（図１Ａ（ｂ））。そして、サービスプロバイダ１２０は、ログ情報をユーザに提供するサービスに適合する情報に整理し、ユーザに提供する。すなわち、提供するユーザは、複数の機器１０１を使用するユーザ１０でもよいし、外部のユーザ２０でもよい。ユーザへのサービス提供方法は、例えば、サービスプロバイダから直接ユーザへ提供されてもよい（図１Ａ（ｅ）、（ｆ））。また、ユーザへのサービス提供方法は、例えば、データセンタ運営会社１１０のクラウドサーバ１１１を再度経由して、ユーザに提供されてもよい（図１Ａ（ｃ）、（ｄ））。また、データセンタ運営会社１１０のクラウドサーバ１１１がログ情報をユーザに提供するサービスに適合する情報に整理し、サービスプロバイダ１２０に提供してもよい。

なお、ユーザ１０とユーザ２０とは、別でも同一でもよい。

以下本収音システムの構成方法の実施の形態について、図面を参照しながら説明する。

（実施の形態１）
図６は、本収音システムの構成方法の実施の形態１における複数の端末による会議向け収音システムの構成の一例を説明するための図（第１の構成図）である。

図６において、６０１は代表端末であり、ある会議室６０３における参加者が持ち込んだスマートフォン等である。６０２は参加端末であり、代表端末６０１と同じ会議室６０３に存在し、代表端末６０１を持ち込んだ参加者と同じ会議に参加する参加者のものである。参加端末６０２は１つ以上あればよい。

代表端末６０１は、参加端末６０２と異なり、クラウドサーバ６０９が提供する会議支援サービスを享受するため、クラウドサーバ６０９に対して、設定を行うものである。例えば代表端末６０１は、遠隔会議を行うため、別の拠点の会議室６０６を指定する。このような設定を行うこと以外は、代表端末６０１と参加端末６０２の違いはない。会議室６０３の会議に参加する端末のうち、もっとも早くクラウドサーバ６０９に接続した端末が、代表端末６０１となってもよいし、ユーザが、明示的に指定してもよい。

会議に参加する端末（例えば、代表端末６０１、参加端末６０２）は、会議支援アプリケーションを起動することで、クラウドサーバ６０９と接続する。会議支援アプリケーションは、サービスプロバイダ１２０によって提供され、各端末は、会議に先立ち、このアプリケーションをダウンロードし、インストールしておくものとする。このアプリケーションは、起動されると、プリセットされたＵＲＬで示されるクラウドサーバ６０９と接続し、端末のマイクで収音した音声データを、クラウドサーバ６０９に転送する。

６０６は、６０３の会議室とは別の会議室であり、会議室６０３と同様に、会議室６０６には、代表端末６０４と、参加端末６０５が存在する。

６０７は、基地局であり、会議に参加している端末と、携帯電話の無線通信を行うものである。基地局は、インターネット６０８と有線接続され、さらに、インターネット６０８には、クラウドサーバ６０９が接続されている。つまり、基地局６０７とインターネット６０８は、会議に参加している端末と、クラウドサーバ６０９とが通信できるように無線と有線で接続している。

クラウドサーバ６０９では、インターネット６０８を介して取得した情報の蓄積や、取得した情報を基に様々な処理を行う。クラウドサーバ６０９が行う処理の詳細については後述する。また、クラウドサーバ６０９は、図１に示すデータセンタ運営会社１１０が管理していてもよいし、サービスプロバイダ１２０が管理していてもよい。

端末とクラウドサーバ６０９を接続する構成は図６の構成だけではない。図７は、第１の実施の形態における収音システムの他の構成の一例を示す図（第２の構成図）である。図７では、会議に参加している端末は、無線ＬＡＮにより、無線ＬＡＮステーション７０１、７０２に接続されている。無線ＬＡＮステーションはインターネット６０８に接続される。他は、図６と同様である。つまり、図６と図７の構成の違いは、端末がクラウドサーバに接続する方法が、携帯電話の無線通信か、無線ＬＡＮによるものかの違いである。このほかの方法で、会議に参加する参加者が所有する端末がクラウドサーバ６０９に接続されてもよい。

図６ないし図７の構成でクラウドサーバ６０９に接続された端末が享受する第１の会議支援サービスを、図８に示す。本図で例示する会議支援サービスは、遠隔会議である。代表端末６０１によって、あらかじめ、遠隔会議を行う拠点（会議室６０３と会議室６０６）が、クラウドサーバ６０９に指定されている。そして、例えば会議室６０３のテーブル８０１の上に、代表端末６０１と、複数の参加端末６０２が置かれている。

また、例えば、代表端末６０１が置かれた位置の近くに代表端末６０１の所有者（会議の参加者）が着席している。また、例えば、参加端末６０２が置かれた位置の近くに参加端末６０２の所有者（会議の参加者）が着席している。

また、例えば、会議室６０６のテーブル８０１の上に、代表端末６０４と、複数の参加端末６０５が置かれている。

また、例えば、代表端末６０４が置かれた位置の近くに代表端末６０４の所有者（会議の参加者）が着席している。また、例えば、参加端末６０５が置かれた位置の近くに参加端末６０５の所有者（会議の参加者）が着席している。

例えば、代表端末６０１と、複数の参加端末６０２は、それぞれ、外部の音響を収音する。この収音は、代表端末６０１と、複数の参加端末６０２がそれぞれ備えるマイク（図示せず）を用いて行われる。

例えば、代表端末６０４と、複数の参加端末６０５は、それぞれ、外部の音響を収音する。この収音は、代表端末６０４と、複数の参加端末６０５がそれぞれ備えるマイク（図示せず）を用いて行われる。

代表端末６０１と、参加端末６０２は、それぞれ外部の音響を収音した収音データ（または、音響信号）をクラウドサーバ６０９にインターネット６０８を介して送信する。

例えば、会議室６０３内の参加者８０２による発話８０３があった場合、代表端末６０１と、参加端末６０２のそれぞれにおいて、外部の音響を収音した収音データには参加者８０２の発話８０３に対応する音声データ（または、音声信号）が含まれる。

本実施の形態では、特に説明のない限りは、会議に参加する参加者が会議室に持ち寄った端末（例えば、代表端末６０１、６０４、参加端末６０２、６０４）において、外部の音響を収音した収音データを音声データとして説明を行う。

代表端末６０１と、複数の参加端末６０２は、それぞれ、参加者８０２の発話８０３を、収音し、音声データとして、インターネット６０８を通じ、クラウドサーバ６０９に転送している。

一方、別の拠点の会議室６０６でも、同様に端末（代表端末６０４、参加端末６０５）を会議室６０６内のテーブル８０１において、発話８０３を収音し、音声データとして、クラウドサーバ６０９に送信している。

図８は、本実施の形態の収音システムにおける第１の会議支援サービスを説明するための図である。

図８に示す第１の会議支援サービスを提供する場合、クラウドサーバ６０９は、会議管理部８１０と、会議決定部８１１と、音声データ転送部８１２とを含む。なお、クラウドサーバ６０９は、会議管理部８１０、会議決定部８１１および音声データ転送部８１２、以外の構成を含んでいてもよいものとする。

会議管理部８１０は、クラウドサーバ６０９に接続され、音声データを送信している端末が、どの会議に属しているかを、管理している。そして、会議管理部８１０に従い、音声データ転送部８１２が、会議室６０３での発話８０３を会議室６０６へ、また、会議室６０６での発話８０３を会議室６０３へ、それぞれ転送する。

転送された音声データは、各拠点（または、各会議室）の端末から出力される（出力８０４）。これにより、遠隔会議が可能となる。

新たな端末がクラウドサーバ６０９に接続されたとき、その端末が、どの会議室に属しているかを決定するのが、会議決定部８１１である。会議決定部の動作は本収音システムの構成方法の主眼であるので、後で詳細に説明する。

図６ないし図７の構成でクラウドサーバ６０９に接続された端末が享受する第２の会議支援サービスを、図９に示す。図９は、本実施の形態の収音システムにおける第２の会議支援サービスを説明するための図である。本図で例示する第２の会議支援サービスは、議事録作成システムである。

図９に示す第２の会議支援サービスを提供する場合、クラウドサーバ６０９は、会議管理部８１０と、会議決定部８１１と、議事録作成部９０１とを含む。なお、クラウドサーバ６０９は、会議管理部８１０、会議決定部８１１および議事録作成部９０１、以外の構成を含んでいてもよいものとする。

図８と同様に、会議室６０３のテーブル８０１の上に、代表端末６０１と、複数の参加端末６０２が置かれ、参加者８０２の発話８０３を、それぞれの端末で収音し、音声データとして、インターネット６０８を通じ、クラウドサーバ６０９に転送している。

会議管理部８１０は、クラウドサーバ６０９に接続され、音声データを送信している端末が、どの会議に属しているかを、管理している。そして、会議管理部８１０に従い、同じ会議室６０３からの音声データを統合し、議事録作成部９０１が音声認識して、会議室６０３のための議事録を作成する。さらに、会議管理部８１０に従い、会議室６０３に参加している端末に対して、作成した議事録を転送する。なお音声認識とは、収音データから人が発話した音声データを抽出し、文字列に変換する一連の処理を含む。変換した文字列により議事録が作成される。音声データの抽出とは、人が発話した音声以外の、環境音（ノイズ）を除去することを言う。

例えば、人の音声に含まれる周波数帯域のデータを通過させる帯域通過フィルタ（図示せず）を用いて収音データから音声データを抽出しても良い。

クラウドサーバ６０９は、第１および第２の会議支援サービス両方に、会議管理部８１０と、会議決定部８１１は存在する。会議管理部８１０が管理する情報を、図１０に示す。１００１は会議テーブルであり、会議管理部８１０が管理する。会議テーブル１００１は、クラウドサーバ６０９が備えるメモリ（図示せず）に記憶される。会議テーブル１００１には、例えば、会議支援サービスを利用して行われている会議に対応する情報と、それぞれの会議に参加している参加者が利用する端末に対応する情報が記録されている。

会議テーブル１００１に記録される端末に対応する情報は、端末が持つユニークなＩＤによって識別される。例えば、ユニークであることが確認されている各端末に付与されたＭＡＣアドレスなどが利用できる。

また、端末に対応する情報は、例えば、代表端末であるのか、参加端末であるのかを示す情報を含んでいても良い。

このとき、新たな端末Ｘが、クラウドサーバ６０９に接続された場合の動作を、図１７Ａおよび図１７Ｂを用いて、説明する。

図１７Ａは、新たな端末Ｘが、クラウドサーバ６０９に接続された場合の動作の一例を説明するフローチャートである。図１７Ｂは、クラウドサーバ６０９に接続された場合の動作の一例を説明するフローチャートである。

新たな端末Ｘは、クラウドサーバ６０９への接続は完了しているが、例えば、図１０に示す会議テーブル１００１において、記録されている会議のうちのどの会議と端末Ｘとを関連付けて、テーブル１００１に登録するのかが決定されていないとする。

クラウドサーバ６０９は、接続された端末から送信された音声データを受信する（Ｓ１７０１）。そして、受信した音声データを送信した端末が、会議テーブル１００１に登録されているか否かをチェックする（Ｓ１７０２）。登録されている場合、図１７Ｂに示すステップＳ１７０８の処理を行う。登録されていなかった場合（ステップＳ１７０２でＮｏ）は、会議テーブル１００１に登録されている会議の数に相当する回数分のループを実行する（Ｓ１７０３）。ステップＳ１７０３の処理が終了すると、図１７Ｂに示すステップＳ１７０５の処理を行う。ループの中では、ループで選択された会議に参加している参加者が利用する端末（第１の端末、例えば選択された会議に対応する代表端末、参加端末）が送信している音声データと、新たに接続された端末Ｘ（第２の端末）が送信している音声データとの、類似度を計測する（Ｓ１７０４）。すべての会議について類似度を計測したら、もっとも類似度が高い値が、あらかじめ定められた閾値以上か判定する（Ｓ１７０５）。

閾値より大きかった場合は、最も類似度が高い音声データを送信した第１の端末を利用する参加者が参加する会議に、新たに端末Ｘを利用する参加者が参加していると考えられる。つまり、第１の端末が属する会議に対応する会議室と同じ会議室に端末Ｘが置かれていると考えられる。よって、最も類似度が高い音声データを送信した第１の端末が属する会議と同じ会議に第２の端末（端末Ｘ）が属すると決定する。

この場合、会議テーブル１００１において、最も類似度が高い音声データを送信した第１の端末が属する会議と同じ会議に、端末Ｘを登録する（Ｓ１７０６）。

閾値より小さかった場合は、端末Ｘが収音した音声データと十分に類似した音声データを収音している端末がなかったのであるから、端末Ｘを所有する参加者は、クラウドサーバ６０９（より具体的には会議テーブル１００１）に未登録の新たな会議に参加をしていると決定する。

この場合、会議テーブル１００１に、新たな会議のエントリし、その会議の代表端末または参加端末として、端末Ｘを登録するとともに、端末Ｘに対応するバッファメモリ（またはバッファ）を割り当てる（Ｓ１７０７）。これで、端末Ｘの属する会議が決定されたので、端末Ｘから受信したデータを、端末Ｘに関するバッファに格納する（Ｓ１７０８）。

例えば、第２の端末を利用するユーザが、会議テーブル１００１に登録された会議のうちのいずれか１つの会議（第１の会議）に新たに参加した場合を考える。この場合、新たに参加した第２の端末、および第１の会議に属する端末（または、第１の会議に対応する会議室に置かれた端末）がそれぞれ収音した収音データには、第１の会議の参加者が発話したときの音声データが含まれる。

よって、第１の会議に属する端末が収音した収音データ（第１の収音データ）および第２の端末が収音した収音データ（第２の収音データ）を比較したときの類似度（第１の類似度）は高いと考えられる。

一方、会議テーブル１００１に登録された会議のうち、第１の会議とは異なる会議（第２の会議）に属する端末が収音する収音データには、第１の会議の参加者が発話したときの音声データが含まれないと考えられる。

または、仮に、第２の会議に属する端末が収音した収音データに第１の会議の参加者が発話した音声が含まれたとしても、この音声の信号レベルは、第１の会議に属する端末と比べると、小さいと考えられる。

第１の会議と、第２の会議とは、例えば別々の会議室（または別々の空間）で行われているからである。

よって、第１の会議以外の会議に属する端末が収音した収音データ（第１の収音データ）および第２の端末が収音した収音データ（第２の収音データ）を比較したときの類似度（第２の類似度）は低いと考えられる。

よって、ステップＳ１７０５の閾値として、第２の類似度よりも大きく、第１の類似度よりも小さい値を設定すれば、新たに参加した端末Ｘがどの会議に属している（またはどの会議室に置かれている）のか、または未登録の新たな会議であるのかを決定することができる。

上述の処理は収音データに含まれる会議の参加者の発話に対応する音声データを用いて処理を行っているので、例えば、収音データから音声データを抽出した後に図１７Ａおよび図１７Ｂのフローチャートを実行しても良い。

収音データに含まれる音声データの抽出は、例えば、クラウドサーバ６０９が行っても良い。

または、代表端末６０１と、参加端末６０２のそれぞれが収音した収音データに含まれる音声データを抽出した後、クラウドサーバ６０９へ送信するのでも良い。

前記のように、端末ごとに割り当てたバッファに格納された音声データの処理の一例を、図１８Ａ、図１８Ｂを用いて説明する。図１８Ａは、遠隔会議に関する処理の一例を示すフローチャートである。図１８Ｂは、記事録作成に関する処理の一例を示すフローチャートである。

まず、図１８Ａにおける動作について説明する。音声処理は、一定の時間間隔において起動される（Ｓ１８０１）。この時間間隔は、音声データのバッファ量に依存する。バッファは、端末とクラウドサーバ６０９の間のネットワーク遅延を吸収するためのもので、バッファが小さい、つまり、早い時間間隔で音声処理をすると、ネットワーク遅延を吸収できず、音声データの欠落の原因となる。バッファが大きい、つまり、遅い時間間隔で音声処理を行うと、処理の遅延の原因となる。提供したい会議支援サービスに応じて、適切な時間間隔が設定される。

音声処理は、会議の数に相当する回数分のループ処理を行う（Ｓ１８０２）。ループ処理の中で、その会議に参加している端末の数に相当する回数分のループ処理をさらに行う（Ｓ１８０３）。このループ処理の中で、個々の端末ごとに蓄積された音声データを読み込み、会議単位に統合して、一つの音声データを作成する（Ｓ１８０４）。前記の処理をその会議の参加端末分だけ繰り返した後、統合された音声データを、遠隔地の会議に参加している端末に送信する（Ｓ１８０５）。

次に図１８Ｂにおける動作について説明する。符号が同一の場合は、図１８Ａと同様である。図１８Ａでは、会議ごとに、音声データを統合し、一つの音声データを作成したが、図１８Ｂでは、端末ごとに音声データを認識し（Ｓ１８０６）、得られたテキストデータを会議単位で統合する（Ｓ１８０７）。この統合したテキストデータを、会議に参加している端末に送信する。

上述の音声処理は、一例であり、そのほかの用途のための音声処理がなされてもよい。

上述の図１７Ａフローチャートのうち、音声データの類似度を計測する（Ｓ１７０４）処理のより具体的な内容について、図１１を用いて説明する。図１１は、本実施の形態において、会議テーブル１００１に登録されている端末から受信した音声データの一例を示す図である。例えば図１１では、会議テーブル１００１に登録されている端末から受信した音声データを模式的に表現している（１１０１）。さらに、まだ会議テーブル１００１に登録されていない、新たに接続された端末である端末Ｘの音声データも、模式的に表現している（１１０２）。

１１０１において、「会議１」には、端末Ａ、端末Ｂ、端末Ｃの３台の端末が登録され、「会議２」には、端末Ｄ、端末Ｅの２台の端末が登録されている。同じ会議に属している端末は、同じ会議室で交わされている会話を収音しているのであるから、端末が置かれた場所の違いにより多少の差はあるものの、似通った音声データを送信している。しかし、違う会議に属する端末とは、会話の内容が異なるのだから、音声データに大きな違いがある。

この特徴を利用し、新たに接続された端末Ｘが、どの会議に属しているかを、決定する。すなわち、端末Ｘが収音した音声データと、各会議に属する端末が収音した音声データとの類似度を計算し、端末Ｘが収音した音声データともっとも高い類似度を有する音声データを収音した端末を特定する。最も高い類似度が閾値を越えていれば、特定した端末が属する会議に対応する会議室（つまり、特定した端末が置かれている会議室）に端末Ｘが置かれていると考えられる。この場合、特定した端末が属する会議と同じ会議に端末Ｘが属すると決定する。

なお、最も高い類似度が閾値を越えていなければ、会議テーブル１００１に登録された端末が属する会議に対応するいずれの会議室にも、端末Ｘが置かれていないと考えられる。

よって、会議テーブル１００１に、新たな会議のエントリし、その会議の代表端末または参加端末として、端末Ｘを登録する。

会議ごとの類似度の計算は、例えば、会議に属する端末（例えばＡ，Ｂ，Ｃ）の音声データと、端末Ｘの音声データとの、差分の絶対値をそれぞれ求め、その差分の絶対値の会議ごとの平均値を求めてもよい。また、平均値を求めるのではなく、会議の代表となる一台の端末との差分の絶対値を求めてもよい。代表となる端末は、その会議の中で、もっとも大きいレベルの音声データを送信した端末に決定してもよい。レベルが大きければ、一般的にＳＮ比が大きいから、より正確な類似度が計算できる可能性がある。また、差分の絶対値で類似度を計算するとしたが、本収音システムの構成方法はこれに限らない。人間は息継ぎをするので、必ず、発話には、無音部分が存在する。その、無音部分の分布を比較する方法で、類似度を求めてもよい。さらに、各端末の音声データを、音声認識し、発話を文字列に変換してから、文字列の一致度を求めて類似度としてもよい。

上述したような方法で、会議で交わされた発話と、端末Ｘが収音した発話との類似度を判定する。その類似度の中で、もっとも大きい類似度が、閾値以上であれば、端末Ｘはその類似度を算出した会議に属するものとして、会議テーブル１００１のその会議のエントリに端末Ｘを加える。閾値よりも小さければ、端末Ｘの収音した会話と類似の会話がなかったわけであるから、端末Ｘだけが参加している新たな会議のエントリを会議テーブル１００１に作成する。

上述した方法は、会議テーブル１００１に未登録の端末が接続された際、その端末が属する会議を音声データの類似度を用いて決定するものであった。しかし、本収音システムの構成方法はこのような方法に限定されるものではない。既に会議テーブル１００１に登録されている各端末が収音した音声データの類似度を常に判定してもよい。例えば、図１１における「会議１」に属する端末Ａ，Ｂ，Ｃが収音した音声データの類似度を、常に判定し、端末Ｃの音声データの類似度が、端末ＡとＢに比べ低くなったときに、端末Ｃを、「会議１」のエントリから消去するようにしてもよい。このような方法を用いれば、端末Ｃの持ち主が、「会議１」の途中で、会議を行っている会議室から端末Ｃを持って離れたとき、端末Ｃが収音した会議とは無関係な音声データを、他の会議拠点に送信してしまう、といった、不具合を防ぐことができる。

前記した方法で計算した類似度を、会議に参加している端末に送信し、それぞれの端末で表示してもよい。図１６は、会議１に属する端末の表示画面に表示される表示の一例を示す図である。図１６の画面１６０１は、会議１に参加している端末が４台であることや、端末それぞれの状況を表示していることを示している。１６０２は、それぞれの端末が収音している音声データの類似度を、円グラフで表わしたものである。このような表示を行うことで、会議の参加者は、自分の端末が会議に参加していることを確認することができる。また、類似度が他の端末と比べて著しく低い端末は、会議のエントリから消される可能性があるので、その場合はその端末を会議の発話がより収音しやすい位置に移動するなどの対処をすることもできる。さらに、盗聴防止にも有効である。このことは、実施の形態３で詳細に説明する。

なお、図１７Ａ、図１７Ｂでは、新たにクラウドサーバ６０９に接続された端末Ｘが属する会議を決定するため、すべての会議に対して類似度を求めるとしたが、例えばＧＰＳによる位置特定機能を用いて、端末Ｘが存在する位置の近くで開催されている会議に絞って類似度を求めることで、類似度を求める処理を低減することができる。位置特定はＧＰＳによって行う以外にも、会議室の付近に設置された無線ＬＡＮステーションのＭＡＣアドレスを用いることによっても行える。

なお、図１７Ｂ（より具体的には、ステップＳ１７０５）で、類似度があらかじめ決められた閾値以上だったら会議を特定するとしたが、この閾値は、固定値である必要はない。例えば、図１１において、既に「会議１」に属している端末Ａ，端末Ｂ，端末Ｃ間の類似度を計測し、この類似度に近い値を、閾値として決定してもよい。会議室が広かったり、ノイズが大きかったりした場合は、もともと、会議に属している端末間の類似度は低い。ゆえに、新たに参加した端末においても、低い類似度で、会議の決定を行う必要がある。しかし、狭い会議室で、少人数で会議を行っている場合は、会議に属している端末間の音声の類似度は高い。この場合は、その類似度と同程度の高い類似度で、会議の決定をすべきである。類似度の閾値を高くすれば、会議室の外で盗聴を行おうとする端末を、排除することができる。

次に図２０を用いて、本実施の形態の収音システムにおいて、各装置の情報のやり取りを示すシーケンスを説明する。図２０は、本実施の形態の収音システムにおいて、会議に参加する参加者が保有する端末（例えば、代表端末または参加端末ここでは単に端末（６０２）と称す）とクラウドサーバ６０９との情報のやり取りの一例を示すシーケンス図である。

まずステップＳ２００１にて、会議参加者の保有する端末（６０２）のマイクによって会議の音声データを取得する。

次に、ステップＳ２００２にて、端末（６０２）は取得した音声データをクラウドサーバ６０９に送信する。クラウドサーバ６０９は、インターネット６０８を介して音声データを受信する。

次に、ステップＳ２００３にて、クラウドサーバ６０９は端末（６０２）が所属する会議の決定および／または会議テーブル１００１の更新を行う。ステップＳ２００３の処理に関しては図１７のフローチャートを用いて説明したとおりである。

次に、ステップＳ２００４にて、クラウドサーバ６０９は取得した音声データに関して音声認識を行う。このとき、他の端末より取得した音声データとステップＳ２００２で取得した音声データとの統合を行ってもよい。他の端末とは、ステップＳ２００２で取得した音声データを送信した端末（６０２）と同じ会議に属する端末であって、ステップＳ２００２で取得した音声データを送信した端末（６０２）とは異なる端末のことである。

ステップＳ２００４の処理に関しては図１８のフローチャートを用いて説明したとおりである。

次に、ステップＳ２００５にて、クラウドサーバ６０９は、ステップＳ２００３にて決定した端末（６０２）の所属する会議に関する情報を端末（６０２）に送信する。ここで、ステップＳ２００４にて処理した、音声認識の結果および／または作成した議事録（図１８Ｂ）を端末（６０２）へ送信する。また、Ｓ２００４において、音声データの統合を行った場合、統合した音声データ（図１８Ａ）を、端末（６０２）に送信してもよい。

ステップＳ２００３にて決定した端末（６０２）の所属する会議に関する情報とは、例えば、端末（６０２）の所属する会議に属する全ての端末の一覧情報であっても良い。

また、ステップＳ２００４にて処理した、音声認識の結果および作成した議事録（図１８Ｂ）、統合した音声データは、それぞれ、端末（６０２）が属する会議とは異なる会議に属する他の端末へ送信しても良い。

例えば、端末（６０２）が属する会議の代表端末が、遠隔会議を行う拠点を、クラウドサーバ６０９に指定している場合、指定した拠点の会議室と対応する会議に属する端末（例えば、代表端末６０４、参加端末６０５）へ送信しても良い。

端末（６０２）は、クラウドサーバ６０９が送信した情報を受信する。ここでクラウドサーバ６０９が送信した情報を受信する端末（６０２）は、ステップＳ２００２にて音声データを送信した端末であってもよいし、端末（６０２）が所属すると決定された会議に属する他の端末であってもよい。また、図１８Ｂで説明した遠隔会議の場合は、Ｓ２００５において、送信される会議に関する情報は、ステップＳ２００２にて音声データを送信した端末と異なる端末であって、端末（６０２）が所属すると決定された会議と遠隔会議を行なっている他の会議に属する端末が受信する。

そしてステップＳ２００６にて、端末（６０２）は会議に参加している端末（例えば、代表端末６０１、参加端末６０２など）に関する情報を表示する。表示する情報に関しては、図１６にその例を示したとおりである。なお、表示する情報はこの例に限られず、例えば図１８Ｂに示すフローチャートを実行し、議事録を作成した場合は、作成した議事録を表示してもよい。

なお、ステップＳ２００４からステップＳ２００６の処理は必須ではなく、各処理のタイミングも図２０に示したものに限られない。

このように、本実施の形態によれば、主に会議の際、参加者が保有するスマートフォンのような汎用的な端末（例えば、代表端末６０１および参加端末６０２）に備わるマイクを会議用のマイクとして用いて参加者の発話を収音するシステムにおいて、端末の設定を、端末が収音した音声データの類似度を用いて行う。このため、端末の属する会議を指定する際、パスワードなどの設定が必要なく、また、電波でペアリングを行うものより、盗聴の危険が少ないという格別の効果を奏する。

（実施の形態２）
実施の形態１では、新たな端末が属する会議を決定する際、新たな端末が収音した収音データと、他の端末（属する会議が既に決定している端末）が収音した収音データの類似度を測定し、測定結果に基づいて、新たな端末が属する会議を決定するものであった。

これは、例えばクラウドサーバ６０９に登録された端末（例えば、代表端末または参加端末）が属する会議に対応する会議室に新たな端末に置かれている場合、その会議室内で行われる会議で交わされている発話を新たな端末と、この会議に属する端末とのそれぞれで収音するので、収音データには同じ音声データが含まれるので、収音データ（音声データ）の類似度が高いという特徴を用いて、新たな端末が属する会議を決定するものであった。

しかしながら、この方法を実現するためには、会議で、収音される収音データに音声データが常に含まれていることが望ましい。そもそも発話がなければ、端末において収音される収音データに音声データは含まれない。よって、収音データに音声データが含まれなければ、その類似度を計測することはできない。しかし、たまたま会話が途切れるなど、音声データが収音されないことも現実には起こりうる。実施の形態２では、このような状況が生じた場合でも、新たな端末の属する会議を決定するための方法を提供する。

図１２を用いて、実施の形態２を説明する。図１２は、本実施の形態の収音システムの構成の一例を示す図である。なお、図１２において、図６または図８に付した符号が同一の場合は、図６または図８の内容と同様である。図１２では、離れた位置で、会議１（１２０１）と、会議２（１２０５）とが行われている。会議１（１２０１）では、端末Ａ（１２０２）、端末Ｂ（１２０３）、および端末Ｃ（１２０４）が、参加している。一方、会議２（１２０５）では、端末Ｄ（１２０６）と端末Ｅ（１２０７）が参加している。

図１９は、本実施の形態における収音システムの動作の一例を示すフローチャートである。また、図１９は、図１７Ｂに示すフローチャートの変形例である。本実施の形態における収音システムの動作において、図１７Ａに示したフローチャートの動作は本実施の形態においても行われるものとする。

ここで、会議１（１２０１）において、端末Ｘ（１２０８）が、新たに参加した。システムは、端末Ｘが属する会議を、実施の形態１の方法を用いて決定しようとしたが、たまたま、会議１（１２０１）の参加者８０２が沈黙していて、音声データの類似度の検出に失敗した。つまり、図１７Ｂの１７０５において、最も類似度の高い値が閾値より小さい、という状態となった。１７０５からの実施の形態２の動作を、図１９と図１２を用いて説明する。

図１９において、前記したように、最も類似度の高い値は閾値より小さい（Ｓ１７０５）。そこで、会議管理部に登録された会議の数のループを開始する（Ｓ１９０１）。ループの中で、会議ごとに、ユニークな音響信号（会議室決定用音響信号）を生成する（Ｓ１９０２）。音響信号は、例えば、会議管理部が管理する会議の通し番号を符号化したものを含むものであってよい。

図１２の音響信号１２１１は、この音響信号を模式的に示したものである。会議決定部８１１は、この音響信号１２１１のうち音響信号１２１２を各会議室の代表端末（端末Ａ、あるいは、端末Ｄ）に送信し、各代表端末が備えるスピーカで出力するように指示する（Ｓ１９０３）。例えば、指示を受けた代表端末である端末Ａ（１２０２）はこれを出力する（出力１２１３）。ステップＳ１９０３により、会議テーブル１００１に登録された各会議の代表端末は、互いに異なる音響信号を受信するので、各代表端末のスピーカから出力される音は互いに異なる。

各代表端末のスピーカから音響信号１２１２に対応する音を出力しているとき、端末Ｘ（１２０８）は、外部の音響を収音する。

例えば図１２に示す例では、端末Ｘは、会議１に対応する会議室に置いてあるので、端末Ｘは、外部の音響を収音するとき、収音した収音データ（または、音響信号）には、会議１の代表端末（端末Ａ）のスピーカから出力される音に対応するデータが含まれる。この場合、端末Ｘが収音した収音データ（音響信号）と、クラウドサーバ６０９から会議１の代表端末（端末Ａ）に送信される音響信号とを比較すると、これらの類似度（第１の類似度）が高い（または相関が高い）と考えられる。

一方、端末Ｘが、収音した収音データ（または、音響信号）には、会議２の代表端末（端末Ｄ）のスピーカから出力される音に対応するデータが含まれない。この場合、端末Ｘが収音した収音データ（音響信号）と、会議２の代表端末（端末Ｄ）に送信される音響信号とを比較すると、これらの類似度（第２の類似度）が低い（または相関が低い）と考えられる。

また、図１２には、図示していないが、端末Ｘが、例えば図１２に示す会議２に対応する会議室にあれば、端末Ｘは、外部の音響を収音するとき、収音した収音データには、会議２の代表端末（端末Ｄ）のスピーカから出力される音（音響信号）に対応するデータが含まれる。この場合、端末Ｘが収音した収音データ（音響信号）と、クラウドサーバ６０９から会議２の代表端末（端末Ｄ）に送信される音響信号とを比較すると、これらの類似度（第１の類似度）が高い（または相関が高い）と考えられる。

一方、端末Ｘが、収音した収音データ（または、音響信号）には、会議１の代表端末（端末Ａ）のスピーカから出力される音に対応するデータが含まれない。この場合、端末Ｘが収音した収音データ（音響信号）と、会議１の代表端末（端末Ａ）に送信される音響信号とを比較すると、これらの類似度（第２の類似度）が低い（または相関が低い）と考えられる。

また、図１２には、図示していないが、端末Ｘが、例えば図１２に示す会議１および会議２に対応する会議室になければ、端末Ｘは、会議１の代表端末（端末Ａ）のスピーカおよび会議２の代表端末（端末Ｄ）のスピーカのそれぞれから出力される音は、収音されない。

または、端末Ｘが、例えば図１２に示す会議１および会議２に対応する会議室にない場合、端末Ｘは、会議１の代表端末（端末Ａ）のスピーカおよび会議２の代表端末（端末Ｄ）のスピーカのそれぞれから出力される音を収音したとしても、これらの音を収音したときの信号のレベルは、端末Ｘが上述の会議室にある場合に比べ、小さくなる。

したがって、閾値として、第２の類似度よりも大きく、第１の類似度よりも小さい値を設定すれば、クラウドサーバ６０９（より具体的には、会議決定部８１１）は、新たに参加した端末Ｘがどの会議に属している（またはどの会議室に置かれている）のか、または未登録の新たな会議であるのかを決定することができる。

端末Ｘ（１２０８）は、外部の音響を収音した収音データ（音響信号）をクラウドサーバ６０９に送信する（出力１２１４）。

なお、音響信号１２１１、音響信号１２１２、出力１２１３、出力１２１４と符号を分けたが、各々は基本的には同一もしくは類似の信号となる。会議決定部８１１は、端末Ｘ（１２０８）からの音響信号を受信する（Ｓ１９０４）。図１２の判定１２１５では、受信した音響信号および作成した音響信号１２１１を比較する様子を模式的に示している。ここで、１９０２で作成した会議ごとにユニークな音響信号と、受信した音響信号との類似度を計算する（Ｓ１９０５）。この類似度が閾値以上であったら（Ｓ１９０６）、ループ処理の対象の会議に、端末Ｘを登録して、ループから抜ける（Ｓ１９０７）。閾値としては、ループ処理の対象の会議に端末Ｘが属する（つまり、ループの対象の会議に対応する会議室に端末Ｘが置かれている）と決定できる値を設定すればよい。ループから抜けた後、端末Ｘの属する会議が決定されていなかったら（Ｓ１９０８）、端末Ｘが属する新しい会議のエントリを作成する（Ｓ１７０７）。

上記のように、実施の形態２においては、端末Ｘが収音した収音データを用いて、端末Ｘが属する会議を決定する点は実施の形態１と同様である。

実施の形態１では、収音データに含まれる会議の参加者の発話に対応する音声データを用いて端末Ｘが属する会議を決定するのに対し、本実施の形態では、クラウドサーバ６０２（つまり、会議テーブル１００１）に登録されている会議の代表端末のスピーカから出力される音を用いて、端末Ｘが属する会議を決定する点が異なる。

この構成により、会議の参加者が沈黙していて、収音データに類似度を判定すべき音声が含まれないという状況でも、端末Ｘが属する会議を決定することができる。また、会議における通常の発話を収音する場合と比べ、類似度を判定するために、会議決定部８１１で作成された音響信号を収音するので、類似度の判定が容易となる。

実施の形態２では、実施の形態１の方法で会議の決定ができなかった場合に、実施の形態２の方法を実施するとしたが、実施の形態２の方法のみで、会議の決定を行ってもよい。

会議決定部８１１で作成される音響信号は、人間の耳には聞こえない、例えば超音波を用いてもよい。超音波を用いることで、類似度を判定するための音を聞いて参加者が不快になることを防ぐことができる。

また、クラウドサーバ６０９から送信された音響信号を代表端末のスピーカから出力する前に、会議の参加者に対して、「これより端末接続用の音響信号を発生します。できるだけ静かにしてください」とのガイダンスを代表端末のスピーカから出力するようにしてもよい。これにより、代表端末のスピーカから音響信号を出力する前に参加者は沈黙し、音響信号の出力だけが聞こえるので、ＳＮ比があがり、類似度の判定の精度を向上させることができる。

また、実施の形態２では、音響信号を出力するのは、代表端末のスピーカからとしたが、会議に参加している他の端末（例えば参加端末）のスピーカを用いて音響信号を出力するのでもよい。

さらに、音響信号を、新規の端末の属する会議の決定のみに用いるのではなく、他の用途に利用することもできる。例えば、属する会議が既に決定している他の端末も、外部の音響を収音し、収音データ（音響信号）をクラウドサーバ６０９に送信する。これらの収音データは、属する会議の代表端末から出力された同一の音響信号を収音したものであることがわかっているので、これらの収音データの違いをクラウドサーバ６０９で解析することで、各端末のマイクの収音上の特性を特定することができる。そして、これらの特性を打ち消すよう、収音された音声データを調整すれば、会議に属するすべての端末が、同一の特性で、収音を行うことができるようになる。このことは、例えば遠隔会議の音質を向上させる。また、各端末で収音した音響信号の時間的遅れを解析すれば、音響信号を出力した代表端末と、この代表端末が属する会議と同じ会議に属する他の端末（例えば参加端末）または、この代表端末が属する会議と遠隔会議を行っている会議に属する端末（例えば、代表端末、参加端末など）との、物理的距離を判定することができる。このことは、遠隔会議における相手側参加者の相対的な位置の特定に役立てることができる。

次に、図２１を用いて、本実施の形態における収音システムにおいて、各装置の情報のやり取りを示すシーケンスを説明する。

ステップ２１０１からステップ２１０３までの処理は図２０にて説明したステップ２００１からステップ２００３までの処理と同様であるので、その説明を省略する。なおここではステップＳ２１０３における図１７に示したステップＳ１７０５にて、類似度が閾値よりも小さいと判定された後、図１９に示すフローチャートにおけるステップＳ１９０１からステップＳ１９０２まで処理が進んだものとする。

ステップＳ２１０４では、クラウドサーバ６０９は、ステップＳ２１０２にて音声データを送信した端末と異なる端末であって、会議の代表端末である端末１２０２に、作成した音響信号（会議決定用音響信号）を出力するように指示する。また、ステップＳ２１０４において、端末１２０２以外の端末（例えば参加端末）に作成した音響信号（会議決定用音響信号）を出力するように指示してもよい。なお、ステップＳ２１０４は図１９に示すステップＳ１９０３に相当する。端末１２０２はクラウドサーバ６０９からの指示を受信する。

次にステップＳ２１０５にて、端末１２０２は受信した指示に従い、音響信号を端末１２０２のスピーカから出力する。

次にステップＳ２１０６にて、端末１２０８はステップＳ２１０５にて端末１２０２が音響信号をスピーカから出力しているとき、例えば、端末１２０８のマイクを用いて外部の音響を収音した収音データ（または音響信号）を取得する。

端末１２０２と端末１２０８とが同じ会議の会議室にある場合、端末１２０８が収音した収音データには、端末１２０２のスピーカから出力された音響信号が含まれる。

端末１２０２と端末１２０８とが同じ会議の会議室にない場合、端末１２０８が収音した収音データには、端末１２０２のスピーカから出力された音響信号が含まれない。

または、端末１２０２と端末１２０８とが同じ会議の会議室にない場合、端末１２０８が収音した収音データに端末１２０２のスピーカから出力された音響信号が含まれたとしてもその信号のレベルは小さい。

次にステップＳ２１０７にて、端末１２０８はステップＳ２１０６にて取得した音響信号をクラウドサーバ６０９に送信する。クラウドサーバ６０９は、端末１２０８が送信した音響信号を取得する。なお、ステップＳ２１０７は図１９に示すステップＳ１９０４に相当する。

次にステップＳ２１０８にて、クラウドサーバ６０９はステップＳ２１０７にて受信した音響信号に基づき、端末１２０８が所属する会議の決定および／または会議テーブル１００１の更新を行う。ステップＳ２１０８の処理に関しては図１９に示すＳ１９０４からＳ１９０８を用いて説明したとおりである。

以降ステップＳ２００９からステップＳ２０１１の処理は、図２０にて説明したステップＳ２００４からステップＳ２００６の処理と同様であるので説明を省略する。

このように、本実施の形態、主に会議の際、会議の参加者が保有するスマートフォン等の汎用的な端末を用いて、端末が備えるマイクを会議用マイクとして用いて参加者の発話を収音するシステムにおいて、クラウドサーバ６０９が生成した音響信号（会議室決定用音響信号）を代表端末に送信し、代表端末が受信した音響信号を代表端末が備えるスピーカを用いて出力しているとき、新たな端末Ｘは外部の音響を収音し、収音した収音データ（または音響信号）をクラウドサーバ６０９へ送信する。

クラウドサーバ６０９は、端末Ｘが収音した収音データ（または音響信号）と、代表端末が出力に用いた音響信号（会議室決定用音響信号）との類似度に応じて新たな端末の設定（例えば、新たな端末がどの会議に属するかの決定）を行う。

このため、実施の形態１による効果に加え、会議室で交わされる発話の有無によらず、新たな端末が属する会議の決定ができるという、格別の効果を奏する。

（実施の形態３）
これまで説明した実施の形態が解決する課題の１つに、盗聴があったが、実施の形態３では、より一層、盗聴が防止できることを目的とする。

図１３は、盗聴が可能となる状況を説明する図である。なお、符号が同一の場合は、図８の内容と同様である。図１３では、端末Ａ（１３０２），Ｂ（１３０３），Ｃ（１３０４）が、会議室１３０１で会議中である。ここで、会議室の外で、悪意のある人物１３０５が、盗聴用の端末Ｚ（１３０６）を会議室の壁の近くにおいて、クラウドサーバ６０９との接続を行った。

ここで、実施の形態１の方法が行われると、端末Ｚ（１３０６）が、会議室１３０１で交わされる発話を収音し、音声データとしてクラウドサーバ６０９に送信し、会議決定部８１１が音声データの類似度を判定して会議を決定する。端末Ｚ（１３０６）は会議室１３０１の外に存在するので、通常は、会議室１３０１で交わされる発話がうまく収音できず、したがって類似度が低いので会議に参加できない。しかし、会議室１３０１の壁が著しく薄いと、収音が成功し、会議の参加者８０２が意図しない端末Ｚ（１３０６）が会議に参加してしまうかもしれない。すると、例えば参加者８０２が議事録作成サービスを運用していると、機密であるはずの議事録が悪意のある人物１３０５の端末Ｚ（１３０６）にも送信されてしまい、大きな問題となる。

実施の形態３は、このような盗聴を防止する方法を、図１４を用いて説明する。図１４は、本開示の収音システムの一例を示す図である。図１４は、図１２とほとんど同じであるため、詳細は割愛する。今、会議１（１２０１）において、端末Ｘ（１２０８）が新たに会議に参加し、実施の形態１ないし２の方法を用いて、端末Ｘ（１２０８）が属する会議は会議１（１２０１）であることが決定されたところだとする。実施の形態３では、さらに、端末Ｘ（１２０８）が確かに会議室に存在するかどうか、確認する方法をとる。すなわち、会議決定部８１１は、確認用の音響信号１４０１を作成する。この音響信号は、実施の形態２で会議ごとにユニークとなるよう作成した音響信号１２１１と同様でよい。そして、作成された音響信号１４０１のうち音響信号１４０２を、端末Ｘ（１２０８）に送信する。端末Ｘ（１２０８）は、音響信号１４０２を受信し、端末Ｘ（１２０８）のスピーカから出力する（１４０３）。

端末Ｘ（１２０８）が音響信号１４０３をスピーカから出力しているとき、会議１（１２０１）に参加している代表端末である端末Ａ（１２０２）は、外部の音響を収音する。

端末Ｘ（１２０８）が出力した音響信号１４０３を収音した収音データ（または音響信号）１４０４をクラウドサーバ６０９に送信する（１４０４）。会議決定部８１１は、受信した収音データ１４０４と、端末Ｘ（１２０８）に出力を命じた音響信号１４０２との類似度を判定し（判定１４０５）、類似度が閾値以上であれば、端末Ｘ（１２０８）が会議１（１２０１）に属していると決定する。

上記した実施の形態３の方法では、実施の形態１、２で、新たな端末の属する会議が決定されたあとに、当該新たな端末が音響信号（会議確認用音響信号）をスピーカから出力し、その音を既に会議に参加している他の端末が収音して、出力された音響信号と比較することで、端末が本当にその会議に属しているか確認する。そして、クラウドサーバ６０９は、新たな端末、および新たな端末の属する会議と同じ会議に属する他の端末（例えば、代表端末、または参加端末）の一覧情報を生成し、他の端末へ送信しても良い。一覧情報を受信した他の端末は一覧情報を他の端末が備えるディスプレイ（図示せず）に表示をしても良い。

この方法は、二つの課題を解決することができる。一つ目は、新たに接続された端末が、本当にその会議に属しているか、確認できるということである。二つ目は、新たに接続された端末が確認用の音を出力することで、属する会議が決定された端末を、同じ会議の参加者に気づかせることができるということである。

上記した二つ目の課題の解決の効果を、図１５を用いて説明する。図１５は、図１３とほとんど同じであり、端末Ｚ（１３０６）が、盗聴をしようとしていることを示している。ここで、実施の形態３の方法で、端末Ｚ（１３０６）が属する会議の決定を行う。上述したように、端末Ｚ（１３０６）は、確認用の音響信号を出力する（１５０１）。この音を、会議１３０１に参加している他の端末（例えば端末Ａ）が収音しなければ、端末Ｚ（１３０６）が会議１３０１に参加することはできない。しかし、その音は、当然、会議１３０１）の参加者８０２も、聞こえることになる。会議室の壁の向こうから聞こえてくる確認用の音を聞き、会議の参加者８０２は、盗聴が行われていることに気づき、悪意のある人物１３０５の行動を未然に防止することができる。

実施の形態１で説明した、図１６で示したような表示を端末で行うことは、より一層、盗聴の防止に役立つ。図１６においては、参加端末（例えば、会議テーブル１００１に登録された会議１に登録された端末）は４台であるが、もし、図１５のように、実際には、この会議１に参加する参加者は３人、つまり３台の端末しかこの会議１に対応する会議室に持ち込んでいないときに参加端末が４台と表示されれば、どこかで盗聴されている可能性があることに、会議１の参加者は気づくことができる。

また、図１６において、端末Ｘは、他の端末に比べて、著しく、類似度が低い。このことは、端末Ｘが、図１５の端末Ｚ（１３０６）のように、会議室の壁の向こう側で盗聴している可能性があることを示している。

他の端末に比べて著しく類似度が低い端末は、他の端末とは異なる色で表示するなどの実装は、参加者に、盗聴している端末に気づかせるため、より一層効果的である。

次に図２２を用いて、本実施の形態における収音システムにおいて、各装置の情報のやり取りを示すシーケンスを説明する。

まずステップ２２０１からステップ２２０３までの処理は図２０にて説明したステップ２００１からステップ２００３までの処理と同様であるので、その説明を省略する。なおここではステップＳ２２０３における図１７に示したステップＳ１７０５もしくは図１９に示したステップＳ１７０５またはステップＳ１９０６にて、類似度が閾値以上と判定されたものとする。

ステップＳ２２０４にてクラウドサーバ６０９は、ステップＳ２２０２にて音声データを送信した端末１２０８に、作成した音響信号（会議確認用音響信号）を出力する旨の指示を送信する。

次にステップＳ２２０５にて、端末１２０８は受信した指示に従い、音響信号を出力する。

次にステップＳ２２０６にて、端末１２０２はステップＳ２２０５にて端末１２０８が出力した音響信号を取得する。

次にステップＳ２２０７にて、端末１２０２はステップＳ２２０６にて取得した音響信号をクラウドサーバ６０９に送信する。クラウドサーバ６０９は、端末１２０２が送信した音響信号を取得する。

次にステップＳ２２０８にて、クラウドサーバ６０９はステップＳ２２０３における図１７もしくは図１９に示したステップＳ１７０６またはステップＳ１９０６にて、類似度が閾値以上と判定された会議が、端末１２０８の所属する会議で正しかったか否かを確認する。すなわちステップＳ２２０３にて端末１２０８の取得した音声が会議１の音声と類似度が高いと判定されていた場合、ステップＳ２２０７にて会議１に属する端末１２０２から音響信号を取得した場合は、確かに端末１２０８が会議１に属する端末であることを確定できる。一方、ステップＳ２２０３にて端末１２０８の取得した音声が会議１の音声と類似度が高いと判定されていたのに、ステップＳ２２０７にて会議１以外の会議に属する端末１２０２から音響信号を取得した場合は、端末１２０８が会議１に属する端末であることを確定できない。この場合再度ステップＳ２２０１からステップＳ２２０８の処理を繰り返してもよい。

実施の形態１から３において説明したクラウドサーバ６０９のハードウェア構成について説明をする。図２３は、本実施の形態に係るクラウドサーバ６０９のハードウェア構成の一例を示す図である。

クラウドサーバ６０９は、例えば、プロセッサに対応するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）６０９ａ、制御プログラムを格納した記憶媒体６０９ｂ、通信回路６０９ｃを有するコンピュータである。

通信回路６０９ｃは、インターネットを介して代表端末、通信端末のそれぞれにデータを送信し、または代表端末、通信端末のそれぞれからデータを受信する。

記憶媒体６０９ｂは、例えばメモリである。メモリとは例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ハードディスク等である。

記憶媒体６０９ｂに記録された制御プログラムをＣＰＵ６０９ａが実行することにより、コンピュータは、クラウドサーバ６０９として機能する（またはクラウドサーバ６０９が備える各ブロックが機能する）。

図２３では、制御プログラムをＣＰＵ６０９ａが実行することにより、クラウドサーバ６０９として機能させる構成を説明したが、これに限定をされるものではない。

例えば、クラウドサーバ６０９が備える各ブロックの機能は、図示しない専用の信号処理を用いて構成しても良い。この信号処理回路は、例えばＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）またはＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等を含む。

また、クラウドサーバ６０９が備える複数のブロックのうち、いずれかのブロックの機能については、このブロックの機能に対応するプログラムをＣＰＵ６０９ａが実行してもよい。そして、残りのブロックの機能を専用の信号処理を用いて構成しても良い。

実施の形態１から３において説明した参加端末のハードウェア構成について説明をする。図２４は、本実施の形態の参加端末６０２のハードウェア構成の一例を示す図である。

参加端末６０２は、例えば、プロセッサに対応するＣＰＵ６０２ａ、制御プログラムを格納した記憶媒体６０２ｂ、通信回路６０２ｃ、マイク６０２ｄ、スピーカ６０２ｅを有するコンピュータである。

通信回路６０２ｃは、インターネットを介してクラウドサーバ６０９にデータを送信し、またはクラウドサーバ６０９からデータを受信する。

記憶媒体６０２ｂは、例えばメモリである。メモリとは例えば、ＲＯＭ、ＲＡＭ、ハードディスク等である。

記憶媒体６０２ｂに記録された制御プログラムをＣＰＵ６０２ａが実行することにより、通信回路６０２ｃ、マイク６０９ｄ、スピーカ６０２ｅを制御し、コンピュータは、参加端末６０２として機能する。

図２４では、制御プログラムをＣＰＵ６０２ａが実行することにより、参加端末６０２として機能させる構成を説明したが、これに限定をされるものではない。

例えば、制御プログラムに対応する機能を図示しない専用の信号処理を用いて構成しても良い。この信号処理回路は、例えばＡＳＩＣまたはＦＰＧＡ等を含む。なお、図２４では、参加端末６０２のハードウェア構成について説明をしたが参加端末６０５のハードウェア構成についても同様であるので、ここではその説明を省略する。

また、代表端末６０１、６０４のハードウェア構成についても、図２４と同様の構成であるので、ここではその説明を省略する。

（実施の形態４）
上記態様において説明された技術は、例えば、以下のクラウドサービスの類型において実現されうる。しかし、上記態様において説明された技術が実現される類型はこれに限られるものでない。

（サービスの類型１：自社データセンタ型）
図２は、サービスの類型１（自社データセンタ型）を示す。本類型は、サービスプロバイダ１２０がグループ１００から情報を取得し、ユーザに対してサービスを提供する類型である。本類型では、サービスプロバイダ１２０が、データセンタ運営会社の機能を有している。即ち、サービスプロバイダが、ビッグデータの管理をするクラウドサーバ１１１を保有している。従って、データセンタ運営会社は存在しない。

本類型では、サービスプロバイダ１２０は、データセンタ（クラウドサーバ１１１）を運営、管理している（２０３）。また、サービスプロバイダ１２０は、ＯＳ２０２及びアプリケーション２０１を管理する。サービスプロバイダ１２０は、サービスプロバイダ１２０が管理するＯＳ２０２及びアプリケーション２０１を用いてサービス提供を行う（２０４）。

（サービスの類型２：ＩａａＳ利用型）
図３は、サービスの類型２（ＩａａＳ利用型）を示す。ここでＩａａＳとはインフラストラクチャー・アズ・ア・サービスの略であり、コンピュータシステムを構築および稼動させるための基盤そのものを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。

本類型では、データセンタ運営会社がデータセンタ（クラウドサーバ１１１）を運営、管理している（２０３）。また、サービスプロバイダ１２０は、ＯＳ２０２及びアプリケーション２０１を管理する。サービスプロバイダ１２０は、サービスプロバイダ１２０が管理するＯＳ２０２及びアプリケーション２０１を用いてサービス提供を行う（２０４）。

（サービスの類型３：ＰａａＳ利用型）
図４は、サービスの類型３（ＰａａＳ利用型）を示す。ここでＰａａＳとはプラットフォーム・アズ・ア・サービスの略であり、ソフトウェアを構築および稼動させるための土台となるプラットフォームを、インターネット経由のサービスとして提供するクラウドサービス提供モデルである。

本類型では、データセンタ運営会社１１０は、ＯＳ２０２を管理し、データセンタ（クラウドサーバ１１１）を運営、管理している（２０３）。また、サービスプロバイダ１２０は、アプリケーション２０１を管理する。サービスプロバイダ１２０は、データセンタ運営会社が管理するＯＳ２０２及びサービスプロバイダ１２０が管理するアプリケーション２０１を用いてサービス提供を行う（２０４）。

（サービスの類型４：ＳａａＳ利用型）
図５は、サービスの類型４（ＳａａＳ利用型）を示す。ここでＳａａＳとはソフトウェア・アズ・ア・サービスの略である。例えばデータセンタ（クラウドサーバ）を保有しているプラットフォーム提供者が提供するアプリケーションを、データセンタ（クラウドサーバ）を保有していない会社・個人（利用者）がインターネットなどのネットワーク経由で使用できる機能を有するクラウドサービス提供モデルである。

本類型では、データセンタ運営会社１１０は、アプリケーション２０１を管理し、ＯＳ２０２を管理し、データセンタ（クラウドサーバ１１１）を運営、管理している（２０３）。また、サービスプロバイダ１２０は、データセンタ運営会社１１０が管理するＯＳ２０２及びアプリケーション２０１を用いてサービス提供を行う（２０４）。

以上いずれの類型においても、サービスプロバイダ１２０がサービス提供行為を行ったものとする。また例えば、サービスプロバイダ若しくはデータセンタ運営会社は、ＯＳ、アプリケーション若しくはビックデータのデータベース等を自ら開発してもよいし、また、第三者に外注させてもよい。

本収音システムの構成方法は、スマートフォン等の端末を会議用マイクとして利用する収音システムに有用である。

６０１代表端末
６０２参加端末
６０９クラウドサーバ
８１０会議管理部
８１１会議決定部

Claims

複数の端末から音声を取得する会議向け収音システムにおける会議決定方法であって、
前記複数の端末の各々が収音した外部の音響を収音データとして、前記複数の端末の各々から受信する受信ステップと、
前記複数の収音データ間の類似度に応じて、前記複数の端末各々が属する会議を決定する会議決定ステップとを含む、
会議決定方法。
前記会議決定ステップは、前記複数の端末のうち第１の端末が取得した第１の収音データと、前記複数の端末のうち第２の端末が取得した第２の収音データとを比較し、類似度が予め設定された閾値以上である場合に、前記第１の端末が属する会議と前記第２の端末が属する会議が同一の会議であることを決定する、
請求項１に記載の会議決定方法。
前記会議決定ステップは、
前記受信ステップにて受信した前記複数の収音データに、前記会議決定ステップによって属する会議が決定されていない第２の端末によって取得された第２の収音データが含まれていることを判断した際に、
前記第２の収音データと、前記会議決定ステップによってすでに第１の会議に属すると決定された第１の端末によって取得された第１の収音データとを比較し、
当該比較の結果、類似度が予め設定された閾値以上である場合に、前記第２の端末が前記第１の会議に属することを決定する、
請求項１に記載の会議決定方法。
前記第１の端末によって取得された第１の収音データは、前記第１の会議において前記第１の会議の参加者が発話したときの音声データを含む、
請求項３に記載の会議決定方法。
前記会議決定ステップは、
前記第２の収音データと、前記第１の収音データおよび受信ステップにて受信した他の収音データとを比較し、当該比較の結果類似度が予め設定された閾値以上となる収音データが存在しなかった場合に、
新規会議として第２の会議を設定し、
前記第２の端末を前記第２の会議に属する端末と決定する、
請求項３に記載の会議決定方法。
前記複数の収音データに対して音声認識を行い、前記会議ごとに議事録を作成する議事録作成ステップを含む、
請求項１に記載の会議決定方法。
前記複数の収音データのうち第１の端末が取得した第１の収音データを、前記会議の決定において、前記第１の端末が属する会議と異なる会議に属すると決定された第２の端末に送信する、遠隔送信ステップと、
前記第２の端末に、前記第１の収音データを出力させる出力ステップと、を更に含む、
請求項１に記載の会議決定方法。
会議ごとに異なる複数の会議決定用音響信号を生成する会議決定用音響信号生成ステップと、
前記複数の会議決定用音響信号のうち第１の会議決定用音響信号を、第１の会議に属する第１の端末に送信する会議決定用音響信号送信ステップと、
前記第１の端末に、前記第１の会議決定用音響信号を出力させる出力ステップと、
前記第１の端末に前記第１の会議決定用音響信号を出力させているとき、第２の端末に前記外部の音響を収音させ、前記第２の端末に収音させた収音データを受信する、収音・受信ステップと、
を更に含み、
前記会議決定ステップは、前記第１の会議決定用音響信号と前記第２の端末から受信した収音データとの類似度に応じて、前記第２の端末が属する会議を決定する、
請求項１に記載の会議決定方法。
会議ごとに異なる複数の会議確認用音響信号を生成する会議確認用音響信号生成ステップと、
前記複数の会議確認用音響信号のうち第１の会議に割り当てられた第１の会議確認用音響信号を、前記第２の端末に送信する会議決定用音響信号送信ステップと、
前記第２の端末に、前記第１の会議確認用音響信号を出力させる出力ステップと、
前記第２の端末に前記第１の会議確認用音響信号を出力させているとき、前記第１の端末に前記外部の音響を収音させ、前記第１の端末に収音させた収音データを受信する、収音・受信ステップと、
前記第１の会議確認用音響信号と前記第１の端末から受信した収音データとの類似度に応じて、前記会議決定ステップによって決定された前記第２の端末の属する会議が正しかったか否かを確認する確認ステップと、を更に含む、
請求項３に記載の会議決定方法。
会議ごとに、前記会議決定ステップが決定した当該会議に属する一または複数の端末の状況を示す一覧情報を生成し、当該会議に属する一または複数の端末の何れかに送信する一覧情報生成ステップと、
前記一覧情報を受信した、当該会議に属する一または複数の端末の何れかに、前記一覧情報を表示させる表示ステップと、をさらに含む、
請求項１に記載の会議決定方法。
複数の端末から音声を取得する会議向け収音システムに用いるサーバ装置であって、
前記複数の端末のそれぞれが収音した外部の音響を収音データとして、前記複数の端末の各々から受信する受信部と、
前記複数の収音データ間の類似度に応じて、前記複数の端末各々が属する会議を決定する会議決定部とを備える、
サーバ装置。