JP4735640B2

JP4735640B2 - 音声会議システム

Info

Publication number: JP4735640B2
Application number: JP2007299295A
Authority: JP
Inventors: 幸生多田
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2007-11-19
Filing date: 2007-11-19
Publication date: 2011-07-27
Anticipated expiration: 2023-09-02
Also published as: JP2008109686A

Description

本発明は、音声会議システムに係り、特に聞き手が容易に話者を区別することができる音声会議システムに関する。

近年、ビジネスのグローバル化、スピードアップ化に伴い、地理的に離れた地点間でリアルタイムに会議を行うことができる通信会議システムの重要性が高まっている。
このような通信会議システムが、音声と共に画像（動画）の通信を伴う、いわゆるテレビ会議システムの場合は、聞き手は通信相手の表情を見ながら会議できるため話者を識別するのは容易であるが、画像を伴わない音声会議システムの場合は、聞き手は話者を識別するのが困難であった。

この問題を解決するための技術として、ＩＳＤＮ（ＩｎｔｅｇｒａｔｅｄＳｅｒｖｉｃｅｓＤｉｇｉｔａｌＮｅｔｗｏｒｋ）を利用した音声会議システムにおいて、（１）話者ごとに通信チャネルを振り分けるチャネル制御手段、および（２）話者ごとに音声の出力位置を変えるか、話者ごとに音声信号を変化させるか、あるいは話者の名前を表示することにより、話者を識別することを容易にする音声会議システムが提案されている（例えば特許文献１）。
特開平８−１２５７３８号公報

しかしながら、ＩＳＤＮ回線を用いた従来の技術では、会議の出席者の人数分ＩＳＤＮ回線を用意する必要があった。すなわち、一地点（例えば、事務所内の一会議室）から複数人が音声会議に参加する場合にはその会議室においてその人数分のＩＳＤＮ回線を用意する必要があり、実施が困難であった。

本発明は上記の事情に鑑みてなされたものであり、複数の回線を用いなくても一地点から複数人が音声会議に参加することができ、かつ、話者の識別が容易な音声会議システムを提供することを目的とする。

本発明は、複数の話者の音声を集音し、当該話者の音声を示す音声信号を出力する複数のマイクと、前記音声信号により示される音声の話者を識別する話者識別手段と、前記話者識別手段の識別結果に基づいて、前記音声信号に、当該音声信号により示される音声を発している発話者の前記識別情報を付加する識別情報付加手段と、前記識別情報が付加された前記音声信号を送信する送信手段とを有する送信側音声会議端末装置と、話者を識別する識別情報が付加された音声信号を受信する受信手段と、前記受信した識別情報に基づいて、前記音声信号を補正することにより音声に特徴を付加する特徴付加手段と、前記特徴付加手段により特徴を付加された音声を出力する音声出力手段とを有する受信側音声会議端末装置とを有する音声会議システムを提供する。
この音声会議システムによれば、その音声を発した話者を識別する識別情報を、話者の識別情報を記録した記録媒体を用いなくても、音声の識別結果に基づいて話者を識別する識別情報が取得され、音声信号に付加される。

前記送信側音声会議端末装置は、前記複数のマイクで収音した音声を所定の音源分離方法を用いて複数の話者の音声信号に分離して出力する音源分離手段をさらに有し、前記話者識別手段は、前記音源分離手段で分離された音声信号に対して話者を識別してもよい。

前記特徴付加手段は、音声の周波数成分を補正するイコライジングパターンと前記識別情報とを対応付けたテーブルを有し、前記テーブルに記憶されたイコライジングパターンのうち前記受信手段で受信した識別情報に対応するイコライジングパターンに応じて、受信した音声信号の周波数成分を補正してもよい。

前記特徴付加手段は、音声を音像定位させる位置と前記識別情報とを対応付けたテーブルを有し、前記テーブルに記憶された位置のうち前記受信手段で受信した識別情報に対応する位置に、前記受信した音声信号を音像定位させてもよい。

本発明によれば、一地点から複数人が参加する音声会議において、聞き手が容易に話者を識別できる音声会議システムを実現することができる。また、本発明によれば、音声会議で記録された音声データの再利用時にも話者を容易に識別することができる。

以下、本発明の実施形態について図面を参照しながら説明する。
［１第１実施形態］
まず、本発明の第１実施形態について説明する。本発明に係る音声会議システムは、話者を識別する識別情報を出力する識別手段、話者を識別する識別情報を音声データに付加する識別情報付加手段、および音声データに対し話者毎に異なった特徴を付加する特徴付加処理を行う特徴付加手段を主要な構成要素とするものである。第１実施形態においては、識別手段としてＲＦＩＤ（ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩＤｅｎｔｉｆｉｃａｔｉｏｎ）タグおよびＲＦＩＤタグ読取装置、並びに特徴付加手段としてイコライザを使用している。

［１−１音声会議システムの構成］
図１は本実施形態における音声会議システム１００の構成を示すブロック図である。図１に示されるように、本実施形態における音声会議システム１００は、地理的に離れて位置する会議室Ａ、Ｂ間での音声会議を可能にするものである。
各会議室に設置された各メインユニット２００は、通信網３００を介して接続され、各会議室間での音声データの送受信を行う機能を有する。メインユニット２００は、他の会議室に送信すべき音声データが発生した場合に、その発生元である話者を識別し、その話者の識別情報を音声データへ付加する。また、メインユニット２００は、識別情報の付加された音声データを他の会議室のメインユニット２００から受信した場合に、識別情報に基づいた特徴付加処理を行う。なお、特徴付加処理の詳細については後述する。
通信網３００は、例えばインターネットである。なお、通信網３００はインターネットに限られず、無線通信網、専用線等、パケット通信可能な他の通信網であってもよい。

会議室Ａ、Ｂにはマイク１０が備えられている。このマイク１０は、会議の出席者の音声を集音する装置である。本実施形態においては、マイク１０は指向性を有し、マイク１０の正面に座った出席者の音声のみを集音する。また、本実施形態においては、マイク１０は少なくとも会議室の定員分用意されており、出席者は１人１本のマイクを使用できるようになっている。なお、以下では、指向性マイクを用い、出席者が１人１本のマイクを使用できる状態を「オンマイク状態」という。このオンマイク状態において、マイク１０の各々は１人の出席者の音声のみを集音する。

マイク１０の各々には、ＲＦＩＤタグ読取装置２０が取り付けられている。ＲＦＩＤタグ読取装置２０は、マイク１０の前に着席した出席者の所有するＲＦＩＤタグから情報を読み取る装置である。ＲＦＩＤとは、電波を用い非接触で所有者を認識する個体認識技術である。ＲＦＩＤシステムは、情報の記録媒体である「ＲＦＩＤタグ」と、あらかじめＲＦＩＤタグ書き込み装置によってＲＦＩＤタグに書き込まれた情報の読み取りを行うための「ＲＦＩＤタグ読み取り装置」から構成される。このシステムでは、ＲＦＩＤタグとＲＦＩＤ読み取り装置を一定距離範囲内に近づけることでＲＦＩＤタグ内の情報の読み取りが行われる。本発明は、ＲＦＩＤシステムの代わりに、バーコードや磁気カード等の技術を用いても実施可能である。しかしながら、ＲＦＩＤシステムは、バーコード等の技術と比較して、情報の更新や追加が可能、複数個体の一括認識が可能、透過性がある（カバンの中に入れていても認識可能）等の特徴があり、本発明の識別手段として好適である。

マイク１０、ＲＦＩＤタグ読取装置２０は、全てメインユニット２００に接続されている。メインユニット２００は、ＲＦＩＤタグ読取装置２０から送られてくるデータに基づいて、マイク１０から送られてくる音声信号の発生元である話者を識別する識別処理を行うとともに、話者を特定する情報を音声信号に付加する話者情報付加処理を実行し、通信網３００を介して通信相手に送信する機能を有している。

また、音声データ受信時には、メインユニット２００は、他の会議室のメインユニット２００から通信網３００を介して送信されてきた音声データをイコライザ２７０によって補正する。その後、補正した音声データを音声信号に変換し、音声信号をスピーカ３０に出力する。スピーカ３０は、このようにして与えられる音声信号を音として再生する装置であり、各会議室内に適切に配置されている。

図２は、各会議室に設置されたメインユニット２００の構成を示すブロック図である。メインユニット２００は、通信Ｉ／Ｆ２４０を介して図１に示す通信網３００に接続され、通信網３００を介して他の通信機器と通信可能である。ＣＰＵ２１０は、この通信の制御および各種演算処理を行うプロセッサである。メモリ２５０は、ＣＰＵ２１０のワークエリアとして機能するほか、後述する出席者テーブルＴＢＬ１および通信相手テーブルＴＢＬ２を記憶する。音声信号受信部２３０は、図１に示すマイク１０からアナログ音声信号（以下、単に音声信号という）を受信する機能を有する。ＣＯＤＥＣ２２０は、マイク１０から出力された音声信号をデジタル音声データ（以下、単に音声データという）に変換するとともに、通信網３００を介して受信された音声データを音声信号に変換する機能を有する。イコライザ２７０は、通信網３００を介して受信された音声データのうち特定の周波数成分を増加あるいは減少させることにより、音声データを再生したときに得られる音声の音質を補正する機能を有する。イコライザ２７０により補正された音声データは、ＣＯＤＥＣ２２０により音声信号に変換された後、音声信号出力部２６０を介し、図１に示すスピーカ３０から音声として出力される。

［１−２音声会議システムの動作］
以下、図２および図３を参照して本実施形態における音声会議システムの動作について説明する。本実施形態では、図３に示すように、ある会社のＡ事業所の会議室Ａと、Ｂ事業所の会議室Ｂとの間で音声会議を行うものとする。Ａ事業所側の会議の出席者は、Ｃ部に所属する社員５人（社員Ｃ１、社員Ｃ２、社員Ｃ３、社員Ｃ４、社員Ｃ５）、Ｂ事業所側の会議の出席者は、Ｄ部に所属する社員２人（社員Ｄ１、社員Ｄ２）およびＥ部に所属する社員２人（社員Ｅ１、社員Ｅ２）である。なお、この会社において、各社員は、各人の社員番号が記録されたＲＦＩＤタグを取り付けた社員証を使用しており、会議の出席者はみな自分の社員証を胸ポケットに付けているものとする。

図３に示されるように、会議室Ａ、会議室Ｂの定員はともに６人であり、したがってマイク１０およびＲＦＩＤタグ読取装置２０はそれぞれ６台づつ用意されている。各会議室において、マイク１０の各々には、あらかじめＩＤ番号が割り当てられており、メインユニット２００は、各会議室内の各マイク１０をそれぞれ区別できるようになっている。
また、両会議室のメインユニット２００は、音声データの特定の周波数成分を増加、減少させる補正パターン（以下、イコライジング・パターンという）を、それぞれあらかじめ十分な数（例えば６個）記憶している。各イコライジング・パターンには、それを参照するためのイコライジング・パターン番号が割り当てられている。

まず、会議室Ａの出席者のうち１人が、メインユニット２００の操作盤を操作し、会議室Ｂに割り当てられた会議室番号を入力する。すると会議室Ａのメインユニット２００は、通信網３００を介して会議室Ｂのメインユニット２００に接続要求を送信する。会議室Ａのメインユニット２００からの接続要求を受信した会議室Ｂのメインユニット２００は、会議室Ａとの間の通信回線を開く。双方の出席者が全員マイク１０の前の着席していることを確認したところで（このとき、出席者はそれぞれ図３に示される席に着席しているものとする）、出席者の１人は、メインユニット２００の操作盤にある「出席者登録」のボタンを押す。この操作により、音声会議システム１００の動作モードは、会議の出席者を登録する出席者登録モードになる。

出席者登録モードになると、会議室Ａおよび会議室Ｂ双方のメインユニット２００は、マイク１０に取り付けられたＲＦＩＤタグ読取装置２０に対し、ＲＦＩＤタグのデータを読み取るように指令する。ＲＦＩＤタグ読取装置２０の各々は、ＲＦＩＤタグ読取装置２０の前に座っている出席者のＲＦＩＤタグから社員番号を読み取り、読み取った社員番号をメインユニット２００に送信する。このとき、ＲＦＩＤタグ読取装置２０は、あらかじめ決められたしきい値以上の強度を有する信号のみを受信するように構成されており、そのＲＦＩＤタグ読取装置２０が取り付けられたマイク１０の前に着席した参加者以外のＲＦＩＤタグからは情報を読み取らないようになっている。空席のＲＦＩＤタグ読取装置２０は、空席を示す信号をメインユニット２００に送信する。メインユニット２００は、各ＲＦＩＤ読取装置２０から社員番号を受信すると、各社員番号を各々の送信元であるＲＦＩＤ読取装置２０の取り付けられたマイク１０のＩＤ番号と対応付けて、自室の出席者テーブルＴＢＬ１としてメモリ２５０に記憶する。

なお、以下の説明ではＲＦＩＤタグを用いた態様について説明するが、話者を識別する方法はＲＦＩＤを用いる方法に限られない。非接触式のＲＦＩＤタグに代えて、接触式の磁気カードやバーコード等を用いて話者の識別情報を入力する構成としてもよい。この場合、メインユニット２００に磁気カード読取装置あるいはバーコード読取装置を設ける必要がある。あるいは、メインユニット２００にキーボード等の入力装置を設けて、出席者の操作入力により社員番号や氏名を入力する構成としてもよい。

続いて、両会議室のメインユニット２００は、自室の出席者テーブルＴＢＬ１を通信相手のメインユニット２００に送信する。通信相手の出席者テーブルＴＢＬ１を受信したメインユニット２００は、出席者テーブルＴＢＬ１に記載された各社員番号にそれぞれ別のイコライジング・パターン番号を割り当て、社員番号とイコライジング・パターン番号とを対応付けて通信相手の出席者テーブル（以下、「通信相手テーブルＴＢＬ２」という）としてメモリ２５０に記憶する。以上で音声会議の準備が完了する。準備が完了すると、メインユニット２００は、操作盤上のランプを点灯させる等の手段により会議の準備が完了した旨を出席者に報知する。会議の出席者は、それを確認してメインユニット２００の操作盤上の「会議開始」のボタンを押す。この操作によりメインユニット２００の動作モードは会議モードとなり、会議を開始することができる。

ここで、会議モードにおいて社員Ｃ１が発言を行った場合を考える。本実施形態においては、オンマイク状態が実現されているので、発言を集音した時点で複数話者の音声が混合されるおそれはない。社員Ｃ１の音声を集音したＩＤ番号０１のマイク１０は、社員Ｃ１の音声を音声信号としてメインユニット２００に送信する。マイク１０から送信された音声信号は、メインユニット２００内のＣＯＤＥＣ２２０により音声データに変換される。メインユニット２００のＣＰＵ２１０は、出席者テーブルＴＢＬ１からＩＤ番号０１のマイク１０に対応付けられている社員番号（社員Ｃ１の社員番号）を抽出し、音声データにヘッダとして付加する。社員番号を付加された音声データは、通信網３００を介して通信相手である会議室Ｂのメインユニット２００に送信される。本実施形態においては、インターネットを利用しているため、複数の音声データを１つの通信回線で送信することができる。

会議室Ｂのメインユニット２００のＣＰＵ２１０は、社員番号の付加された音声データを受信すると、そこから社員番号データを抽出する。続いて、メモリ２５０内の通信相手テーブルＴＢＬ２内を検索し、その社員番号に対応するイコライジング・パターン番号を抽出する。音声データは、イコライジング・パターン番号と共にイコライザ２７０に送信される。イコライザ２７０は、このイコライジング・パターン番号に対応付けられたイコライジング・パターンを読み出し、読み出したイコライジング・パターンを用いて音声データを補正する。

メインユニット２００は、こうして処理した音声データを、ＣＯＤＥＣ２２０および音声信号出力部２６０を介して音声信号として複数のスピーカ３０に出力し、スピーカ３０からはイコライザ２７０により補正された音声信号が再生される。こうして、話者ごとに特定の周波数成分が変化させられた音声が再生されることにより、聞き手は話者を容易に区別できるようになる。
例えば、社員Ｃ１と社員Ｃ２の声が非常に似ていて区別しにくいと仮定する。このとき、議論が白熱して、社員Ｃ１が「私は賛成です」、社員Ｃ２が「私は反対です」とほぼ同時に発言しても、それぞれの音声は各話者に対して割り当てられたマイク１０から別個に収集され、社員Ｃ１と社員Ｃ２それぞれの社員番号をヘッダに付加されて会議室Ｂのメインユニット２００に送信される。そして会議室Ｂでは、社員Ｃ１の音声と社員Ｃ２の音声は、それぞれ別個のイコライジング・パターンで補正されて再生される。このため、会議室Ｂの出席者は、社員Ｃ１と社員Ｃ２のどちらが賛成しどちらが反対したかを容易に認識することができる。

なお、以上説明した実施形態において、各会議室のメインユニット２００は、音声会議の開始前に、社員番号と、マイクＩＤとを対応付け、音声会議中は、話者の音声を集音したマイクのマイクＩＤに基づき、話者の社員番号を特定した。しかし、このようなマイクＩＤおよび社員番号の使用が不要な態様もある。まず、ある会議室において、ある出席者が発言を行うと、これと同時にＲＦＩＤタグ読取装置２０は話者のＲＦＩＤタグからＲＦＩＤを読み取る。読み取ったＲＦＩＤは、メインユニット２００から他の会議室のメインユニット２００に送信される。ＲＦＩＤを受信した他の会議室のメインユニット２００は、このＲＦＩＤをキーとして出席者テーブルＴＢＬ１内を検索し、対応するイコライジング・パターン番号を抽出する。この態様によれば、発言の度にＲＦＩＤから情報を読み取るので、会議の途中で参加者同士が席を変わっても話者を正しく認識することができる。

［２第２実施形態］
続いて、本発明の第２実施形態について説明する。図４は、本発明の第２実施形態における音声会議システムの構成を示すブロック図である。本実施形態においては、会議の内容を記録するための装置として、通信網３００に録音サーバ３２０が接続されている。また、本実施形態においては話者を識別する情報として、その話者に関する各種の情報を保存しているリソースを特定するＵＲＩ（ＵｎｉｆｏｒｍＲｅｓｏｒｃｅＩｄｅｎｔｉｆｉｅｒ）を使用する。この情報を提供するサーバとして、本実施形態では、情報サーバ３１０が通信網３００に接続されている。ここで、ＵＲＩとは、統一された書式を持った、リソースを識別するための文字列のことである。本実施形態では、具体的にはＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を指す。

［２−１音声会議システムの構成］
本実施形態において、各会議室に設けられる各装置の構成は第１実施形態と同一であるので説明を省略する。
情報サーバ３１０は、図５に示すように、あらかじめ顔写真、所属部署、社員番号、電話番号、メールアドレス、およびその社員に関する情報が保存されている場所を示すＵＲＩ等、出席者に関する情報を記録した名簿データベースを有するサーバである。録音サーバ３２０は、会議中に送受信された音声データを記録するためのサーバである。情報サーバ３１０および録音サーバ３２０はそれぞれ、ＣＰＵ、メモリ、ハードディスク等の外部記憶装置、およびネットワークを介して通信を行う手段を有するサーバ装置である。なお、図４においては会議室Ａおよび会議室Ｂに共通の情報サーバを設けたが、会議室Ａ、Ｂの各々のための情報サーバを別個に設けてもよい。また、情報サーバ３１０と録音サーバ３２０は同一の装置であってもよい。また、メインユニット２００自身が情報サーバ３１０および／あるいは録音サーバ３２０と同様の機能を有していてもよい。

［２−２音声会議システムの動作］
以下、図２および図４を参照して本実施形態における音声会議システムの動作について説明する。本実施形態においても、第１実施形態と同様に、ある会社のＡ事業所の会議室Ａと、Ｂ事業所の会議室Ｂとの間で音声会議を行うものとする。会議の出席者等の状況は第１実施形態と同一であるとする。双方の会議室において、出席者が全員揃ったところで、メインユニット２００の操作盤上にある「出席者登録」のボタンを押すと、メインユニット２００の動作モードは参加者登録モードになる。以下、出席者テーブルＴＢＬ１をメモリ２５０に記憶するところまでの動作は第１実施形態と同一である。

出席者テーブルＴＢＬ１をメモリ２５０に記憶した後、メインユニット２００は、ＵＲＩ要求と出席者テーブルＴＢＬ１を情報サーバ３１０に送信する。ＵＲＩ要求を受信した情報サーバ３１０は、自身の保有する名簿データベース内を検索し、出席者テーブルＴＢＬ１に記載された社員番号に対応するＵＲＩを抽出する。抽出されたＵＲＩは、社員番号と対応付けられて出席者テーブルＴＢＬ１に追加される。ＵＲＩが付加された出席者テーブルＴＢＬ１は、ＵＲＩ要求の送信元のメインユニット２００に送信される。メインユニット２００は、受信した出席者テーブルＴＢＬ１を新たな出席者テーブルＴＢＬ１としてメモリ２５０に記憶する。続いて、両会議室のメインユニット２００は、出席者テーブルＴＢＬ１を通信相手のメインユニット２００に送信する。通信相手から出席者テーブルＴＢＬ１を受信したメインユニット２００は、受信した出席者テーブルＴＢＬ１中の各ＵＲＩに、第１実施形態で説明したイコライジング・パターン番号を対応付けて、通信相手テーブルＴＢＬ２としてメモリ２５０に記憶する。以上で音声会議の準備が完了する。

会議の出席者は、準備が完了したことを確認して会議を開始する。メインユニット２００の操作盤にある「会議開始」のボタンが押されると、メインユニット２００は、通信網３００を介し録音サーバ３２０に対して出席者登録完了を示す信号を送信する。録音サーバ３２０はその信号を受信すると、記録用のファイルを作成し、会議の日時などの情報を用いて、そのファイルに他と識別可能なファイル名を自動的に付与する。
この記録用ファイルは、マルチトラックの記録、再生が可能なファイル形式を有している。会議の参加者の各々に対して１つのトラックが割り当てられ、各トラックには特定の話者の音声データがヘッダと共に記録され、特定の話者の特定の発言を抽出することが可能である。なお、記録用ファイルの形式はマルチトラック形式に限られず、話者および発言が識別可能な状態で保存できればどのような形式でもよい。

出席者が発言した場合、第１実施形態と同様に、会議の出席者の発言は、出席者の各々に割り当てられたマイク１０を介して音声信号としてメインユニット２００に送信される。マイク１０から入力された音声信号は、メインユニット２００内のＣＯＤＥＣ２２０により音声データに変換される。メインユニット２００は、出席者テーブルＴＢＬ１からＩＤ番号０１のマイク１０に対応付けられているＵＲＩを抽出し、抽出したＵＲＩをヘッダとして音声データに付加する。
以上のようにメインユニット２００は、ＵＲＩを付加した音声データを、通信網３００を介して会議室Ｂのメインユニット２００および録音サーバ３２０に送信する。会議室Ｂにおける音声の再生は、第１実施形態における「社員番号」を「ＵＲＩ」に変更した点以外は第１実施形態と同様である。
録音サーバ３２０は、音声データを受信すると、記録用ファイルに受信した音声データを記録する。ヘッダとして付加されたＵＲＩも同時に記録される。こうして、会議の内容は録音サーバ３２０の記録用ファイルに記録される。

ここで、会議後、会議の出席者のうち１人が、例えば議事録の作成のために、会議の内容が記録されたファイルを再度聞く場合を考える。議事録の作成を行う社員は、まず、自分の端末（図示略）から、通信網３００を介して録音サーバ３２０にアクセスし、先の会議が録音されたファイルを開く。端末にはあらかじめこの音声会議システムによって記録されたファイルを再生するための再生ソフトがインストールされている。
この再生ソフトは、記録ファイルを再生するに際し、各トラックにおいて音声データを検出すると、ヘッダとして付加されたＵＲＩが示すリソース（情報サーバ３１０内の社員Ｃ１に関する情報を記したファイル）にアクセスし、社員の氏名のデータを得る。再生ソフトは、情報サーバ３１０から得た話者の氏名を画面に表示することにより話者毎に特徴付けを行いながらその音声データを再生する。なお、音声データ再生時に話者毎に特徴付けを行う方法は氏名の表示に限られず、話者毎に異なる色で音声波形を表示してもよい。あるいは、話者の氏名ではなく話者の顔写真を表示しながら音声データを再生する構成としてもよい。あるいは、話者の社員番号や電子メールアドレス等の情報を表示してもよい。あるいは、録音を再生する際も音声会議中と同様に、話者毎に異なる周波数成分を増加／減少させるイコライザを適用してもよい。あるいは、スピーカ／ヘッドホンから話者毎に異なる音像定位で音声を再生してもよい。
本実施形態によれば、音声会議の記録ファイルを聞いている使用者は、話者が誰であったか迷うことなく、あるいは話者を誤認することなく会議の録音を聞くことができる。

［３第３実施形態］
続いて、本発明の第３実施形態について説明する。本実施形態においては、識別手段としては音声認識技術を、特徴付加手段としては複数のスピーカを用いて話者ごとに音像の定位を変化させる技術を採用する。なお、以下の説明において、第１実施形態および第２実施形態と同一の構成要素に関しては同一の参照番号を使用している。

［３−１音声会議システムの構成］
図６は、本発明の第３実施形態による音声会議システムの構成を示すブロック図である。本実施形態においては、第１実施形態および第２実施形態において使用されたメインユニット２００に代わりメインユニット５００が使用される。
図７は、本実施形態におけるメインユニット５００の構成を示すブロック図である。図７において、音声認識部５５０および音像定位処理部５７０は本実施形態に特有の構成要素である。音声認識部５５０は、図６に示されるマイク１０から入力された音声信号に対して音声認識処理を行う機能を有する。音像定位処理部５７０は、スピーカ３０から再生される音声の音像定位を変化させる処理を行う機能を有する。ここで、音像が定位される位置は、音像定位処理部５７０が記憶する音像定位情報によって定められる。音像定位処理部５７０はあらかじめ十分な数（本実施形態においては６つ）の音像定位情報（例えば、ある基準点からの距離、角度）を記憶しており、その各々には音像定位情報を参照するための音像定位番号が割り当てられている。いま、図１０に示される位置にそれぞれ音像を定位させる設定を仮定する。この場合、音像定位処理部５７０は、基準点からの距離および角度の組み合わせからなる音像定位情報を６つ有し、それぞれには１から６までの音像定位番号が割り当てられている。すなわち、音声データと音像定位番号が与えられると、音像定位処理部５７０は、音像定位番号に対応する音像定位情報に基づいて、図６に示されるスピーカ３０の各々から出力される音声の位相、強度を変化させる方法により音像に定位を与える。

［３−２音声会議システムの動作］
以下、図６および図７を参照して本実施形態における音声会議システムの動作について説明する。会議を開始するにあたり、出席者のうち１人は、メインユニット５００の操作盤にある「出席者登録」のボタンを押す。この操作によりメインユニット５００の動作モードは、出席者登録モードになる。本実施形態においては、各出席者が自分の名前をマイク１０に向かって名乗り、メインユニット５００はその音声に対して音声認識処理を行い出席者の名前を得ることにより話者識別を行う。詳細には以下の通りである。

社員Ｃ１が、マイク１０に向かって「鈴木一朗」と自らの名前を名乗ると、その音声はマイク１０を介して音声信号としてメインユニット５００に送信される。メインユニット５００は音声信号を受信すると、受信した音声信号を音声認識部５５０に送信する。音声認識部５５０は音声信号に対して音声認識処理を行い、「スズキイチロウ」という名前のテキストデータを抽出する。メインユニット５００は、抽出した名前のテキストデータおよびＵＲＩ要求を通信網３００を介して情報サーバ３１０に送信する。
情報サーバ３１０は、名前のテキストデータおよびＵＲＩ要求を受信すると、自身の保有する名簿データベース（図５）から、名前のテキストデータをキーとして名簿データベース内を検索する。情報サーバ３１０は、「スズキイチロウ」というテキストデータに対応する社員のデータを検出すると、その社員に関するデータが保存されている場所を示すＵＲＩを名簿データベースから抽出し、メインユニット５００に返信する。なお、同姓同名がいる場合には、名前を名乗る際に「Ｃ部鈴木一朗」など氏名以外の情報を付加して、氏名および所属部署でデータベース内を検索するようにしてもよい。あるいは、情報サーバ３１０は同姓同名の社員が存在した場合は、同姓同名の社員の氏名および社員番号のリストをメインユニット２００に送信し、社員Ｃ１がメインユニット２００のディスプレイに表示されたそのリストから自分のデータを選択するようにしてもよい。
メインユニット５００は、ＵＲＩを受信すると、受信したＵＲＩと、社員Ｃ１のマイク１０のＩＤ番号を対応付けて出席者テーブルＴＢＬ１として記憶する。

以上の処理を、出席者全員について実行することで、それぞれの会議室のメインユニット５００は、会議の出席者全員について、出席者の各々が座っている席のマイク１０のＩＤ番号と、その出席者に関する情報が保存されている場所を示すＵＲＩとが関連付けられた出席者テーブルＴＢＬ１を記憶する。自らが設置されている会議室の出席者に関する出席者テーブルＴＢＬ１の作成が完了すると、両会議室のメインユニット５００は保有する出席者テーブルＴＢＬ１を通信相手に送信する。通信相手の出席者テーブルＴＢＬ１を受信したメインユニット５００は、受信した出席者テーブルＴＢＬ１に記録された各ＵＲＩにそれぞれ音像定位番号を対応付けて、通信相手テーブルＴＢＬ２として記憶する。以上で出席者登録モードは終了する。出席者登録モード終了後は、通常会議モードに移行する。通常会議モードにおいては、音声会議システムは以下のように動作する。

社員Ｃ１が発言すると、その発言はマイク１０を介して音声信号としてメインユニット５００に送信される。受信された音声信号は、メインユニット５００内のＣＯＤＥＣ２２０において音声データに変換され、変換された音声データにその音声信号を集音したマイクのＩＤ番号に対応付けられているＵＲＩ（この場合、社員Ｃ１に関する情報の保存場所を示すＵＲＩ）がヘッダとして付加される。ＵＲＩが付加された音声データは、通信網３００を介して通信先のメインユニット５００に送信される。ＵＲＩが付加された音声データを受信したメインユニット５００は、自身のメモリ内に記憶された通信相手テーブルＴＢＬ２にそのＵＲＩが登録されているか検索し、そのＵＲＩと対応付けられて記憶されている音像定位情報を抽出する。

メインユニット５００は、音像定位情報を音声データのヘッダに付加して、その音声データをメインユニット５００内の音像定位処理部５７０に送信する。音像定位処理部５７０は、ヘッダに付加された音像定位情報に基づいてその音声の音像定位を決定し、その音像定位で音声が再生されるように音声信号を補正する。補正された音声信号は、スピーカ３０から音声として再生される。本実施形態によれば、複数のスピーカ３０から話者毎に異なった音像定位で音声が再生されるため、会議の出席者は話者を容易に識別することができる。
なお、本実施形態においては、複数のスピーカ３０から話者毎に異なる音像定位で音声を再生したが、スピーカ３０を会議の出席者の人数分用意し、各話者に１台のスピーカを割り当て、各話者の音声は話者毎に特定されたスピーカから再生される構成としてもよい。また、メインユニット２００にディスプレイを設け、発言している話者の社員番号あるいは氏名をディスプレイに表示するようにしてもよい。

［４第４実施形態］
続いて、本発明の第４実施形態について説明する。図８は、本発明の第４実施形態に係る音声会議システムの構成を示す図である。本実施形態に係る音声会議システムが前述の第１〜第３実施形態と異なる点は、会議室におけるマイク１０の本数が会議室の定員よりも少ない（以下、「オフマイク状態」という）点である。本実施形態において、マイク１０は無指向性マイクであり、複数の話者の発言は、混合された音声として複数のマイク１０から集音される。マイク１０から集音された音声は、まず音源ごとに分離され、続いて分離された音声に対して話者認識処理が行われる。なお、以下の説明において第１〜第３実施形態と同一の構成要素には同一の参照番号を付している。

［４−１音声会議システムの構成］
図８に示されるように、本実施形態における音声会議システム７００は、通信網３００、メインユニット８００、情報サーバ３１０、マイク１０、スピーカ３０から構成される。なお、本実施形態において、情報サーバ３１０に記憶される名簿データベースには、各社員が自分の氏名を名乗った音声を示す音声信号から抽出された特徴量があらかじめ記録されている。

図９は、メインユニット８００の構成を示すブロック図である。音像定位測定部９１０は、図８に示される３本のマイク１０から入力された音声の音源の音像定位を測定する機能を有する。メインユニット８００は、音像定位測定部９１０の測定した音源の音像定位情報を記憶する。話者認識部９５０は、後述する音源分離部９００により分離された話者毎の音声データに対し、話者を認識する処理を行い、その話者を識別する情報をその音声データに付加する機能を有する。音源分離部９００は、複数のマイク１０を介して入力された音声信号に対して、音源の音像定位情報に基づいて音源分離処理を行い、話者毎の音声に分離する機能を有する。具体的には、音源分離部９００は、図８に示される３本のマイク１０から入力される音声信号の位相をそれぞれ変化させる３つの遅延器からなる同期加算部を会議室の定員分、すなわち６つ有している。各同期加算部には、音源が１つずつ割り当てられる。各同期加算部は、対応する音源の音像定位情報（角度）から推定される位相差を補正して、その音源からの音声信号を同相化して加算する機能を有する。これにより特定の音源からの音声信号は同相化されるが、それ以外の音源からの信号は同相化されないため、特定の音源からの音声信号のみが強調され、音源を分離することができる。なお、音源分離の方法はこの方法に限られず、独立成分分析（ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ：ＩＣＡ）に基づくブラインド音源分離（ＢｌｉｎｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ：ＢＳＳ）の手法、あるいは音声の調波構造を仮定した分離手法等、他の技術を用いてもよい。

［４−２音声会議システムの動作］
以下、図８および図９を参照して本実施形態における音声会議システムの動作について説明する。まず、出席者登録モードで出席者の登録が行われる。出席者は順番に自分の氏名を名乗る。出席者の発した音声は複数のマイク１０を介して音声信号としてメインユニット８００に送信される。音像定位測定部９１０は、複数のマイク１０から出力された複数の音声信号の位相差から、マイク１０に対する音源（話者）の角度を算出する。音源分離部９００の各同期加算部には、あらかじめＩＤ番号が割り当てられている。

話者認識部９５０は、音声データに対して例えばスペクトルやホルマントを解析して特徴量を抽出するといった処理により声の特徴を抽出する。続いて話者認識部９５０は、通信網３００を介して情報サーバ３１０に対して、話者識別要求および抽出した特徴量を送信する。情報サーバ３１０は、話者識別要求を受信すると、受信した特徴量に基づいて、自身が保有する名簿データベースを検索し、その特徴量から話者が社員Ｃ１であると識別する。話者を識別したら、情報サーバ３１０は、社員Ｃ１の社員番号あるいは社員Ｃ１に関する情報が保存されている場所を示すＵＲＩ等、話者を識別するための情報をメインユニット８００に送信する。話者を識別する情報を受信したメインユニット８００は、受信したＵＲＩと、先ほど算出した話者の音像定位情報（角度）と、空いている同期加算部のＩＤ番号とを対応付けて出席者テーブルＴＢＬ１として記憶する。各同期加算部は、自身のＩＤ番号と対応付けられている音像定位情報に基づき同期加算処理を行う。両会議室のメインユニット８００が出席者テーブルＴＢＬ１を通信相手のメインユニット８００に送信し、通信相手テーブルＴＢＬ２を作成する動作は第１〜第３実施形態のいずれかと同様である。以上で出席者登録モードは終了する。

会議モードにおいては、出席者（例えば社員Ｃ１）が発言をすると、社員Ｃ１の音声は複数のマイク１０を介して複数の音声信号としてメインユニット８００に送信される。メインユニット８００は受信した各音声信号をメインユニット８００内の音源分離部９００に送信する。音源分離部９００は、前述のように、話者毎に音声データを抽出することが可能である。音源分離部９００は、抽出した音声データに対して、その音声データが出力された同期加算部のＩＤ番号と対応付けられているＵＲＩを出席者テーブルＴＢＬ１から抽出する。抽出されたＵＲＩは、ヘッダとして音声データに付加される。以上のようにして話者を識別する情報を付加された音声データは、通信網３００を介して通信相手のメインユニット８００に送信される。以下、通信先の会議室での再生処理および会議後の音声データの再利用は、前述の第１〜第３実施形態の再生処理、音声データの再利用のいずれかと同様である。

［５変形例］
上述した実施形態は本発明の実施形態の例示であり、上記実施形態に対しては、本発明の主旨から逸脱しない範囲で様々な変形を加えることができる。

［５−１第１変形例］
前述のように、本発明は、概ね次の３つの要素から構成される。
（１）識別手段
（２）話者の識別情報の音声データへの付加手段
（３）特徴付加手段
（１）〜（３）の要素の組み合わせとして、第１〜第４実施形態で具体的な態様および変形例を例示したが、組み合わせは各実施形態に記載された組み合わせに限られず、変形例を含めて任意の組み合わせが可能である。

［５−２第２変形例］
前述の各実施形態においては、２地点間の音声会議について説明したが、３地点間以上の多地点間で音声会議を行う構成にしてもよい。この場合、メインユニットは、出席者登録モード時には、複数の通信相手に出席者テーブルＴＢＬ１を送信し、複数の通信相手の通信相手テーブルＴＢＬ２を記憶することになる。

［５−３第３変形例］
第４実施形態においては、オフマイク状態において、音源分離を行った上で話者認識を行ったが、話者認識を行う際にＲＦＩＤタグを補助的に用いて、話者認識時に検索するデータベースの絞込みを行う構成としてもよい。この場合、音声会議システムの動作は次の通りである。

マイク１０には、ＲＦＩＤタグ読取装置２０が取り付けられている。会議の出席者が、メインユニット８００の操作盤上の「出席者登録」のボタンを押すと、メインユニット８００は、ＲＦＩＤタグ読取装置２０に対して、会議の出席者の社員番号を読み取るように指令する。ＲＦＩＤタグはある程度離れた距離でも読み取ることができるので、会議室Ａのマイク１０に取り付けられたＲＦＩＤタグ読取装置２０は、会議室Ａに在席している社員（社員Ｃ１、社員Ｃ２、社員Ｃ３、社員Ｃ４、社員Ｃ５）の社員証に取り付けられたＲＦＩＤから、社員番号のデータを読み出す。読み出された社員番号のデータは、メインユニット８００に送信される。メインユニット８００は、音声特徴量要求を社員番号のデータと共に情報サーバ３１０に送信する。音声特徴量要求を受信した情報サーバ３１０は、受信した社員番号をキーとして自身の保有する話者情報データベースを検索し、社員Ｃ１、社員Ｃ２、社員Ｃ３、社員Ｃ４、社員Ｃ５の音声特徴量を抽出する。情報サーバ３１０は、抽出した音声特徴量をメインユニット８００に送信する。メインユニット８００は、音声特徴量を受信すると、音声認識テーブルとして、各出席者の社員番号と音声特徴量を対応付けて記憶する。以上で会議の準備が完了する。

会議中、音声データを受信した話者認識部９５０は、第４実施形態で説明した通り音声データに対して例えばスペクトルやホルマントを解析して特徴量を抽出するといった処理により声の特徴を抽出する。続いて話者認識部９５０は、抽出した特徴量を検索キーとして、音声認識テーブル内を検索し、話者の社員番号を抽出する。抽出した社員番号を音声データに付加する処理以降は、第４実施形態と同一である。

［５−４第４変形例］
第４実施形態においては、出席者登録モードにおいて各出席者の音声認識を行い、その結果得た音像定位情報と各出席者のＵＲＩとを対応付けて出席者テーブルＴＢＬ１に記録した。しかし、出席者登録モードにおいては各出席者と音像定位情報を対応付けず、会議モードにおいて、発言毎に話者認識処理を行い話者の識別情報（ＵＲＩあるいは社員番号）を音声データに付加する構成としてもよい。

本発明の第１実施形態における音声会議システムの構成を示すブロック図である。同実施形態におけるメインユニットの構成を示すブロック図である。同実施形態における音声会議システムの構成を示す模式図である。本発明の第２実施形態における音声会議システムの構成を示すブロック図である。同実施形態における情報サーバに記録される名簿データベースを例示する図である。本発明の第３実施形態における音声会議システムの構成を示すブロック図である。同実施形態におけるメインユニットの構成を示すブロック図である。本発明の第４実施形態における音声会議システムの構成を示す図である。同実施形態におけるメインユニットの構成を示すブロック図である。第３実施形態における音像定位位置を例示する図である。

符号の説明

１０…マイク、２０…ＲＦＩＤタグ読取装置、３０…スピーカ、１００…音声会議システム、２００…メインユニット、２１０…ＣＰＵ、２２０…ＣＯＤＥＣ、２３０…音声信号受信部、２４０…通信Ｉ／Ｆ、２５０…メモリ、２６０…音声信号出力部、２７０…イコライザ、３００…通信網、３１０…情報サーバ、３２０…録音サーバ、４００…端末、５００…メインユニット、５５０…音声認識部、５７０…音像定位処理部、７００…音声会議システム、８００…メインユニット、９００…音源分離部、９１０…音像定位測定部、９５０…話者認識部

Claims

複数の話者の音声を集音し、当該話者の音声を示す音声信号を出力する複数のマイクと、
前記音声信号により示される音声の話者を識別する話者識別手段と、
前記話者識別手段の識別結果に基づいて、前記音声信号に、当該音声信号により示される音声を発している話者の前記識別情報を付加する識別情報付加手段と、
前記識別情報が付加された前記音声信号を送信する送信手段と
を有する送信側音声会議端末装置と、
話者を識別する識別情報が付加された音声信号を受信する受信手段と、
前記受信した識別情報に基づいて、前記音声信号を補正することにより音声に特徴を付加する特徴付加手段と、
前記特徴付加手段により特徴を付加された音声を出力する音声出力手段と
を有する受信側音声会議端末装置と
を有する音声会議システム。
前記送信側音声会議端末装置は、前記複数のマイクで収音した音声を所定の音源分離方法を用いて複数の話者の音声信号に分離して出力する音源分離手段をさらに有し、
前記話者識別手段は、前記音源分離手段で分離された音声信号に対して話者を識別する
ことを特徴とする請求項１に記載の音声会議システム。
前記特徴付加手段は、
音声の周波数成分を補正するイコライジングパターンと前記識別情報とを対応付けたテーブルを有し、
前記テーブルに記憶されたイコライジングパターンのうち前記受信手段で受信した識別情報に対応するイコライジングパターンに応じて、受信した音声信号の周波数成分を補正する
ことを特徴とする請求項１または２に記載の音声会議システム。
前記特徴付加手段は、
音声を音像定位させる位置と前記識別情報とを対応付けたテーブルを有し、
前記テーブルに記憶された位置のうち前記受信手段で受信した識別情報に対応する位置に、前記受信した音声信号を音像定位させる
ことを特徴とする請求項１または２に記載の音声会議システム。