JP4735640B2 - 音声会議システム - Google Patents

音声会議システム Download PDF

Info

Publication number
JP4735640B2
JP4735640B2 JP2007299295A JP2007299295A JP4735640B2 JP 4735640 B2 JP4735640 B2 JP 4735640B2 JP 2007299295 A JP2007299295 A JP 2007299295A JP 2007299295 A JP2007299295 A JP 2007299295A JP 4735640 B2 JP4735640 B2 JP 4735640B2
Authority
JP
Japan
Prior art keywords
speaker
audio
voice
main unit
conference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007299295A
Other languages
English (en)
Other versions
JP2008109686A (ja
Inventor
幸生 多田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007299295A priority Critical patent/JP4735640B2/ja
Publication of JP2008109686A publication Critical patent/JP2008109686A/ja
Application granted granted Critical
Publication of JP4735640B2 publication Critical patent/JP4735640B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、音声会議システムに係り、特に聞き手が容易に話者を区別することができる音声会議システムに関する。
近年、ビジネスのグローバル化、スピードアップ化に伴い、地理的に離れた地点間でリアルタイムに会議を行うことができる通信会議システムの重要性が高まっている。
このような通信会議システムが、音声と共に画像(動画)の通信を伴う、いわゆるテレビ会議システムの場合は、聞き手は通信相手の表情を見ながら会議できるため話者を識別するのは容易であるが、画像を伴わない音声会議システムの場合は、聞き手は話者を識別するのが困難であった。
この問題を解決するための技術として、ISDN(Integrated Services Digital Network)を利用した音声会議システムにおいて、(1)話者ごとに通信チャネルを振り分けるチャネル制御手段、および(2)話者ごとに音声の出力位置を変えるか、話者ごとに音声信号を変化させるか、あるいは話者の名前を表示することにより、話者を識別することを容易にする音声会議システムが提案されている(例えば特許文献1)。
特開平8−125738号公報
しかしながら、ISDN回線を用いた従来の技術では、会議の出席者の人数分ISDN回線を用意する必要があった。すなわち、一地点(例えば、事務所内の一会議室)から複数人が音声会議に参加する場合にはその会議室においてその人数分のISDN回線を用意する必要があり、実施が困難であった。
本発明は上記の事情に鑑みてなされたものであり、複数の回線を用いなくても一地点から複数人が音声会議に参加することができ、かつ、話者の識別が容易な音声会議システムを提供することを目的とする。
本発明は、複数の話者の音声を集音し、当該話者の音声を示す音声信号を出力する複数のマイクと、前記音声信号により示される音声の話者を識別する話者識別手段と、前記話者識別手段の識別結果に基づいて前記音声信号に、当該音声信号により示される音声を発している発話者の前記識別情報を付加する識別情報付加手段と、前記識別情報が付加された前記音声信号を送信する送信手段とを有する送信側音声会議端末装置と、話者を識別する識別情報が付加された音声信号を受信する受信手段と、前記受信した識別情報に基づいて、前記音声信号を補正することにより音声に特徴を付加する特徴付加手段と、前記特徴付加手段により特徴を付加された音声を出力する音声出力手段とを有する受信側音声会議端末装置とを有する音声会議システムを提供する。
この音声会議システムによれば、その音声を発した話者を識別する識別情報を、話者の識別情報を記録した記録媒体を用いなくても、音声の識別結果に基づいて話者を識別する識別情報が取得され、音声信号に付加される。
前記送信側音声会議端末装置は、前記複数のマイクで収音した音声を所定の音源分離方法を用いて複数の話者の音声信号に分離して出力する音源分離手段をさらに有し、前記話者識別手段は、前記音源分離手段で分離された音声信号に対して話者を識別してもよい。
前記特徴付加手段は、音声の周波数成分を補正するイコライジングパターンと前記識別情報とを対応付けたテーブルを有し、前記テーブルに記憶されたイコライジングパターンのうち前記受信手段で受信した識別情報に対応するイコライジングパターンに応じて、受信した音声信号の周波数成分を補正してもよい。
前記特徴付加手段は、音声を音像定位させる位置と前記識別情報とを対応付けたテーブルを有し、前記テーブルに記憶された位置のうち前記受信手段で受信した識別情報に対応する位置に、前記受信した音声信号を音像定位させてもよい。
本発明によれば、一地点から複数人が参加する音声会議において、聞き手が容易に話者を識別できる音声会議システムを実現することができる。また、本発明によれば、音声会議で記録された音声データの再利用時にも話者を容易に識別することができる。
以下、本発明の実施形態について図面を参照しながら説明する。
[1 第1実施形態]
まず、本発明の第1実施形態について説明する。本発明に係る音声会議システムは、話者を識別する識別情報を出力する識別手段、話者を識別する識別情報を音声データに付加する識別情報付加手段、および音声データに対し話者毎に異なった特徴を付加する特徴付加処理を行う特徴付加手段を主要な構成要素とするものである。第1実施形態においては、識別手段としてRFID(Radio Frequency IDentification)タグおよびRFIDタグ読取装置、並びに特徴付加手段としてイコライザを使用している。
[1−1 音声会議システムの構成]
図1は本実施形態における音声会議システム100の構成を示すブロック図である。図1に示されるように、本実施形態における音声会議システム100は、地理的に離れて位置する会議室A、B間での音声会議を可能にするものである。
各会議室に設置された各メインユニット200は、通信網300を介して接続され、各会議室間での音声データの送受信を行う機能を有する。メインユニット200は、他の会議室に送信すべき音声データが発生した場合に、その発生元である話者を識別し、その話者の識別情報を音声データへ付加する。また、メインユニット200は、識別情報の付加された音声データを他の会議室のメインユニット200から受信した場合に、識別情報に基づいた特徴付加処理を行う。なお、特徴付加処理の詳細については後述する。
通信網300は、例えばインターネットである。なお、通信網300はインターネットに限られず、無線通信網、専用線等、パケット通信可能な他の通信網であってもよい。
会議室A、Bにはマイク10が備えられている。このマイク10は、会議の出席者の音声を集音する装置である。本実施形態においては、マイク10は指向性を有し、マイク10の正面に座った出席者の音声のみを集音する。また、本実施形態においては、マイク10は少なくとも会議室の定員分用意されており、出席者は1人1本のマイクを使用できるようになっている。なお、以下では、指向性マイクを用い、出席者が1人1本のマイクを使用できる状態を「オンマイク状態」という。このオンマイク状態において、マイク10の各々は1人の出席者の音声のみを集音する。
マイク10の各々には、RFIDタグ読取装置20が取り付けられている。RFIDタグ読取装置20は、マイク10の前に着席した出席者の所有するRFIDタグから情報を読み取る装置である。RFIDとは、電波を用い非接触で所有者を認識する個体認識技術である。RFIDシステムは、情報の記録媒体である「RFIDタグ」と、あらかじめRFIDタグ書き込み装置によってRFIDタグに書き込まれた情報の読み取りを行うための「RFIDタグ読み取り装置」から構成される。このシステムでは、RFIDタグとRFID読み取り装置を一定距離範囲内に近づけることでRFIDタグ内の情報の読み取りが行われる。本発明は、RFIDシステムの代わりに、バーコードや磁気カード等の技術を用いても実施可能である。しかしながら、RFIDシステムは、バーコード等の技術と比較して、情報の更新や追加が可能、複数個体の一括認識が可能、透過性がある(カバンの中に入れていても認識可能)等の特徴があり、本発明の識別手段として好適である。
マイク10、RFIDタグ読取装置20は、全てメインユニット200に接続されている。メインユニット200は、RFIDタグ読取装置20から送られてくるデータに基づいて、マイク10から送られてくる音声信号の発生元である話者を識別する識別処理を行うとともに、話者を特定する情報を音声信号に付加する話者情報付加処理を実行し、通信網300を介して通信相手に送信する機能を有している。
また、音声データ受信時には、メインユニット200は、他の会議室のメインユニット200から通信網300を介して送信されてきた音声データをイコライザ270によって補正する。その後、補正した音声データを音声信号に変換し、音声信号をスピーカ30に出力する。スピーカ30は、このようにして与えられる音声信号を音として再生する装置であり、各会議室内に適切に配置されている。
図2は、各会議室に設置されたメインユニット200の構成を示すブロック図である。メインユニット200は、通信I/F240を介して図1に示す通信網300に接続され、通信網300を介して他の通信機器と通信可能である。CPU210は、この通信の制御および各種演算処理を行うプロセッサである。メモリ250は、CPU210のワークエリアとして機能するほか、後述する出席者テーブルTBL1および通信相手テーブルTBL2を記憶する。音声信号受信部230は、図1に示すマイク10からアナログ音声信号(以下、単に音声信号という)を受信する機能を有する。CODEC220は、マイク10から出力された音声信号をデジタル音声データ(以下、単に音声データという)に変換するとともに、通信網300を介して受信された音声データを音声信号に変換する機能を有する。イコライザ270は、通信網300を介して受信された音声データのうち特定の周波数成分を増加あるいは減少させることにより、音声データを再生したときに得られる音声の音質を補正する機能を有する。イコライザ270により補正された音声データは、CODEC220により音声信号に変換された後、音声信号出力部260を介し、図1に示すスピーカ30から音声として出力される。
[1−2 音声会議システムの動作]
以下、図2および図3を参照して本実施形態における音声会議システムの動作について説明する。本実施形態では、図3に示すように、ある会社のA事業所の会議室Aと、B事業所の会議室Bとの間で音声会議を行うものとする。A事業所側の会議の出席者は、C部に所属する社員5人(社員C1、社員C2、社員C3、社員C4、社員C5)、B事業所側の会議の出席者は、D部に所属する社員2人(社員D1、社員D2)およびE部に所属する社員2人(社員E1、社員E2)である。なお、この会社において、各社員は、各人の社員番号が記録されたRFIDタグを取り付けた社員証を使用しており、会議の出席者はみな自分の社員証を胸ポケットに付けているものとする。
図3に示されるように、会議室A、会議室Bの定員はともに6人であり、したがってマイク10およびRFIDタグ読取装置20はそれぞれ6台づつ用意されている。各会議室において、マイク10の各々には、あらかじめID番号が割り当てられており、メインユニット200は、各会議室内の各マイク10をそれぞれ区別できるようになっている。
また、両会議室のメインユニット200は、音声データの特定の周波数成分を増加、減少させる補正パターン(以下、イコライジング・パターンという)を、それぞれあらかじめ十分な数(例えば6個)記憶している。各イコライジング・パターンには、それを参照するためのイコライジング・パターン番号が割り当てられている。
まず、会議室Aの出席者のうち1人が、メインユニット200の操作盤を操作し、会議室Bに割り当てられた会議室番号を入力する。すると会議室Aのメインユニット200は、通信網300を介して会議室Bのメインユニット200に接続要求を送信する。会議室Aのメインユニット200からの接続要求を受信した会議室Bのメインユニット200は、会議室Aとの間の通信回線を開く。双方の出席者が全員マイク10の前の着席していることを確認したところで(このとき、出席者はそれぞれ図3に示される席に着席しているものとする)、出席者の1人は、メインユニット200の操作盤にある「出席者登録」のボタンを押す。この操作により、音声会議システム100の動作モードは、会議の出席者を登録する出席者登録モードになる。
出席者登録モードになると、会議室Aおよび会議室B双方のメインユニット200は、マイク10に取り付けられたRFIDタグ読取装置20に対し、RFIDタグのデータを読み取るように指令する。RFIDタグ読取装置20の各々は、RFIDタグ読取装置20の前に座っている出席者のRFIDタグから社員番号を読み取り、読み取った社員番号をメインユニット200に送信する。このとき、RFIDタグ読取装置20は、あらかじめ決められたしきい値以上の強度を有する信号のみを受信するように構成されており、そのRFIDタグ読取装置20が取り付けられたマイク10の前に着席した参加者以外のRFIDタグからは情報を読み取らないようになっている。空席のRFIDタグ読取装置20は、空席を示す信号をメインユニット200に送信する。メインユニット200は、各RFID読取装置20から社員番号を受信すると、各社員番号を各々の送信元であるRFID読取装置20の取り付けられたマイク10のID番号と対応付けて、自室の出席者テーブルTBL1としてメモリ250に記憶する。
なお、以下の説明ではRFIDタグを用いた態様について説明するが、話者を識別する方法はRFIDを用いる方法に限られない。非接触式のRFIDタグに代えて、接触式の磁気カードやバーコード等を用いて話者の識別情報を入力する構成としてもよい。この場合、メインユニット200に磁気カード読取装置あるいはバーコード読取装置を設ける必要がある。あるいは、メインユニット200にキーボード等の入力装置を設けて、出席者の操作入力により社員番号や氏名を入力する構成としてもよい。
続いて、両会議室のメインユニット200は、自室の出席者テーブルTBL1を通信相手のメインユニット200に送信する。通信相手の出席者テーブルTBL1を受信したメインユニット200は、出席者テーブルTBL1に記載された各社員番号にそれぞれ別のイコライジング・パターン番号を割り当て、社員番号とイコライジング・パターン番号とを対応付けて通信相手の出席者テーブル(以下、「通信相手テーブルTBL2」という)としてメモリ250に記憶する。以上で音声会議の準備が完了する。準備が完了すると、メインユニット200は、操作盤上のランプを点灯させる等の手段により会議の準備が完了した旨を出席者に報知する。会議の出席者は、それを確認してメインユニット200の操作盤上の「会議開始」のボタンを押す。この操作によりメインユニット200の動作モードは会議モードとなり、会議を開始することができる。
ここで、会議モードにおいて社員C1が発言を行った場合を考える。本実施形態においては、オンマイク状態が実現されているので、発言を集音した時点で複数話者の音声が混合されるおそれはない。社員C1の音声を集音したID番号01のマイク10は、社員C1の音声を音声信号としてメインユニット200に送信する。マイク10から送信された音声信号は、メインユニット200内のCODEC220により音声データに変換される。メインユニット200のCPU210は、出席者テーブルTBL1からID番号01のマイク10に対応付けられている社員番号(社員C1の社員番号)を抽出し、音声データにヘッダとして付加する。社員番号を付加された音声データは、通信網300を介して通信相手である会議室Bのメインユニット200に送信される。本実施形態においては、インターネットを利用しているため、複数の音声データを1つの通信回線で送信することができる。
会議室Bのメインユニット200のCPU210は、社員番号の付加された音声データを受信すると、そこから社員番号データを抽出する。続いて、メモリ250内の通信相手テーブルTBL2内を検索し、その社員番号に対応するイコライジング・パターン番号を抽出する。音声データは、イコライジング・パターン番号と共にイコライザ270に送信される。イコライザ270は、このイコライジング・パターン番号に対応付けられたイコライジング・パターンを読み出し、読み出したイコライジング・パターンを用いて音声データを補正する。
メインユニット200は、こうして処理した音声データを、CODEC220および音声信号出力部260を介して音声信号として複数のスピーカ30に出力し、スピーカ30からはイコライザ270により補正された音声信号が再生される。こうして、話者ごとに特定の周波数成分が変化させられた音声が再生されることにより、聞き手は話者を容易に区別できるようになる。
例えば、社員C1と社員C2の声が非常に似ていて区別しにくいと仮定する。このとき、議論が白熱して、社員C1が「私は賛成です」、社員C2が「私は反対です」とほぼ同時に発言しても、それぞれの音声は各話者に対して割り当てられたマイク10から別個に収集され、社員C1と社員C2それぞれの社員番号をヘッダに付加されて会議室Bのメインユニット200に送信される。そして会議室Bでは、社員C1の音声と社員C2の音声は、それぞれ別個のイコライジング・パターンで補正されて再生される。このため、会議室Bの出席者は、社員C1と社員C2のどちらが賛成しどちらが反対したかを容易に認識することができる。
なお、以上説明した実施形態において、各会議室のメインユニット200は、音声会議の開始前に、社員番号と、マイクIDとを対応付け、音声会議中は、話者の音声を集音したマイクのマイクIDに基づき、話者の社員番号を特定した。しかし、このようなマイクIDおよび社員番号の使用が不要な態様もある。まず、ある会議室において、ある出席者が発言を行うと、これと同時にRFIDタグ読取装置20は話者のRFIDタグからRFIDを読み取る。読み取ったRFIDは、メインユニット200から他の会議室のメインユニット200に送信される。RFIDを受信した他の会議室のメインユニット200は、このRFIDをキーとして出席者テーブルTBL1内を検索し、対応するイコライジング・パターン番号を抽出する。この態様によれば、発言の度にRFIDから情報を読み取るので、会議の途中で参加者同士が席を変わっても話者を正しく認識することができる。
[2 第2実施形態]
続いて、本発明の第2実施形態について説明する。図4は、本発明の第2実施形態における音声会議システムの構成を示すブロック図である。本実施形態においては、会議の内容を記録するための装置として、通信網300に録音サーバ320が接続されている。また、本実施形態においては話者を識別する情報として、その話者に関する各種の情報を保存しているリソースを特定するURI(Uniform Resorce Identifier)を使用する。この情報を提供するサーバとして、本実施形態では、情報サーバ310が通信網300に接続されている。ここで、URIとは、統一された書式を持った、リソースを識別するための文字列のことである。本実施形態では、具体的にはURL(Uniform Resource Locator)を指す。
[2−1 音声会議システムの構成]
本実施形態において、各会議室に設けられる各装置の構成は第1実施形態と同一であるので説明を省略する。
情報サーバ310は、図5に示すように、あらかじめ顔写真、所属部署、社員番号、電話番号、メールアドレス、およびその社員に関する情報が保存されている場所を示すURI等、出席者に関する情報を記録した名簿データベースを有するサーバである。録音サーバ320は、会議中に送受信された音声データを記録するためのサーバである。情報サーバ310および録音サーバ320はそれぞれ、CPU、メモリ、ハードディスク等の外部記憶装置、およびネットワークを介して通信を行う手段を有するサーバ装置である。なお、図4においては会議室Aおよび会議室Bに共通の情報サーバを設けたが、会議室A、Bの各々のための情報サーバを別個に設けてもよい。また、情報サーバ310と録音サーバ320は同一の装置であってもよい。また、メインユニット200自身が情報サーバ310および/あるいは録音サーバ320と同様の機能を有していてもよい。
[2−2 音声会議システムの動作]
以下、図2および図4を参照して本実施形態における音声会議システムの動作について説明する。本実施形態においても、第1実施形態と同様に、ある会社のA事業所の会議室Aと、B事業所の会議室Bとの間で音声会議を行うものとする。会議の出席者等の状況は第1実施形態と同一であるとする。双方の会議室において、出席者が全員揃ったところで、メインユニット200の操作盤上にある「出席者登録」のボタンを押すと、メインユニット200の動作モードは参加者登録モードになる。以下、出席者テーブルTBL1をメモリ250に記憶するところまでの動作は第1実施形態と同一である。
出席者テーブルTBL1をメモリ250に記憶した後、メインユニット200は、URI要求と出席者テーブルTBL1を情報サーバ310に送信する。URI要求を受信した情報サーバ310は、自身の保有する名簿データベース内を検索し、出席者テーブルTBL1に記載された社員番号に対応するURIを抽出する。抽出されたURIは、社員番号と対応付けられて出席者テーブルTBL1に追加される。URIが付加された出席者テーブルTBL1は、URI要求の送信元のメインユニット200に送信される。メインユニット200は、受信した出席者テーブルTBL1を新たな出席者テーブルTBL1としてメモリ250に記憶する。続いて、両会議室のメインユニット200は、出席者テーブルTBL1を通信相手のメインユニット200に送信する。通信相手から出席者テーブルTBL1を受信したメインユニット200は、受信した出席者テーブルTBL1中の各URIに、第1実施形態で説明したイコライジング・パターン番号を対応付けて、通信相手テーブルTBL2としてメモリ250に記憶する。以上で音声会議の準備が完了する。
会議の出席者は、準備が完了したことを確認して会議を開始する。メインユニット200の操作盤にある「会議開始」のボタンが押されると、メインユニット200は、通信網300を介し録音サーバ320に対して出席者登録完了を示す信号を送信する。録音サーバ320はその信号を受信すると、記録用のファイルを作成し、会議の日時などの情報を用いて、そのファイルに他と識別可能なファイル名を自動的に付与する。
この記録用ファイルは、マルチトラックの記録、再生が可能なファイル形式を有している。会議の参加者の各々に対して1つのトラックが割り当てられ、各トラックには特定の話者の音声データがヘッダと共に記録され、特定の話者の特定の発言を抽出することが可能である。なお、記録用ファイルの形式はマルチトラック形式に限られず、話者および発言が識別可能な状態で保存できればどのような形式でもよい。
出席者が発言した場合、第1実施形態と同様に、会議の出席者の発言は、出席者の各々に割り当てられたマイク10を介して音声信号としてメインユニット200に送信される。マイク10から入力された音声信号は、メインユニット200内のCODEC220により音声データに変換される。メインユニット200は、出席者テーブルTBL1からID番号01のマイク10に対応付けられているURIを抽出し、抽出したURIをヘッダとして音声データに付加する。
以上のようにメインユニット200は、URIを付加した音声データを、通信網300を介して会議室Bのメインユニット200および録音サーバ320に送信する。会議室Bにおける音声の再生は、第1実施形態における「社員番号」を「URI」に変更した点以外は第1実施形態と同様である。
録音サーバ320は、音声データを受信すると、記録用ファイルに受信した音声データを記録する。ヘッダとして付加されたURIも同時に記録される。こうして、会議の内容は録音サーバ320の記録用ファイルに記録される。
ここで、会議後、会議の出席者のうち1人が、例えば議事録の作成のために、会議の内容が記録されたファイルを再度聞く場合を考える。議事録の作成を行う社員は、まず、自分の端末(図示略)から、通信網300を介して録音サーバ320にアクセスし、先の会議が録音されたファイルを開く。端末にはあらかじめこの音声会議システムによって記録されたファイルを再生するための再生ソフトがインストールされている。
この再生ソフトは、記録ファイルを再生するに際し、各トラックにおいて音声データを検出すると、ヘッダとして付加されたURIが示すリソース(情報サーバ310内の社員C1に関する情報を記したファイル)にアクセスし、社員の氏名のデータを得る。再生ソフトは、情報サーバ310から得た話者の氏名を画面に表示することにより話者毎に特徴付けを行いながらその音声データを再生する。なお、音声データ再生時に話者毎に特徴付けを行う方法は氏名の表示に限られず、話者毎に異なる色で音声波形を表示してもよい。あるいは、話者の氏名ではなく話者の顔写真を表示しながら音声データを再生する構成としてもよい。あるいは、話者の社員番号や電子メールアドレス等の情報を表示してもよい。あるいは、録音を再生する際も音声会議中と同様に、話者毎に異なる周波数成分を増加/減少させるイコライザを適用してもよい。あるいは、スピーカ/ヘッドホンから話者毎に異なる音像定位で音声を再生してもよい。
本実施形態によれば、音声会議の記録ファイルを聞いている使用者は、話者が誰であったか迷うことなく、あるいは話者を誤認することなく会議の録音を聞くことができる。
[3 第3実施形態]
続いて、本発明の第3実施形態について説明する。本実施形態においては、識別手段としては音声認識技術を、特徴付加手段としては複数のスピーカを用いて話者ごとに音像の定位を変化させる技術を採用する。なお、以下の説明において、第1実施形態および第2実施形態と同一の構成要素に関しては同一の参照番号を使用している。
[3−1 音声会議システムの構成]
図6は、本発明の第3実施形態による音声会議システムの構成を示すブロック図である。本実施形態においては、第1実施形態および第2実施形態において使用されたメインユニット200に代わりメインユニット500が使用される。
図7は、本実施形態におけるメインユニット500の構成を示すブロック図である。図7において、音声認識部550および音像定位処理部570は本実施形態に特有の構成要素である。音声認識部550は、図6に示されるマイク10から入力された音声信号に対して音声認識処理を行う機能を有する。音像定位処理部570は、スピーカ30から再生される音声の音像定位を変化させる処理を行う機能を有する。ここで、音像が定位される位置は、音像定位処理部570が記憶する音像定位情報によって定められる。音像定位処理部570はあらかじめ十分な数(本実施形態においては6つ)の音像定位情報(例えば、ある基準点からの距離、角度)を記憶しており、その各々には音像定位情報を参照するための音像定位番号が割り当てられている。いま、図10に示される位置にそれぞれ音像を定位させる設定を仮定する。この場合、音像定位処理部570は、基準点からの距離および角度の組み合わせからなる音像定位情報を6つ有し、それぞれには1から6までの音像定位番号が割り当てられている。すなわち、音声データと音像定位番号が与えられると、音像定位処理部570は、音像定位番号に対応する音像定位情報に基づいて、図6に示されるスピーカ30の各々から出力される音声の位相、強度を変化させる方法により音像に定位を与える。
[3−2 音声会議システムの動作]
以下、図6および図7を参照して本実施形態における音声会議システムの動作について説明する。会議を開始するにあたり、出席者のうち1人は、メインユニット500の操作盤にある「出席者登録」のボタンを押す。この操作によりメインユニット500の動作モードは、出席者登録モードになる。本実施形態においては、各出席者が自分の名前をマイク10に向かって名乗り、メインユニット500はその音声に対して音声認識処理を行い出席者の名前を得ることにより話者識別を行う。詳細には以下の通りである。
社員C1が、マイク10に向かって「鈴木一朗」と自らの名前を名乗ると、その音声はマイク10を介して音声信号としてメインユニット500に送信される。メインユニット500は音声信号を受信すると、受信した音声信号を音声認識部550に送信する。音声認識部550は音声信号に対して音声認識処理を行い、「スズキイチロウ」という名前のテキストデータを抽出する。メインユニット500は、抽出した名前のテキストデータおよびURI要求を通信網300を介して情報サーバ310に送信する。
情報サーバ310は、名前のテキストデータおよびURI要求を受信すると、自身の保有する名簿データベース(図5)から、名前のテキストデータをキーとして名簿データベース内を検索する。情報サーバ310は、「スズキイチロウ」というテキストデータに対応する社員のデータを検出すると、その社員に関するデータが保存されている場所を示すURIを名簿データベースから抽出し、メインユニット500に返信する。なお、同姓同名がいる場合には、名前を名乗る際に「C部 鈴木一朗」など氏名以外の情報を付加して、氏名および所属部署でデータベース内を検索するようにしてもよい。あるいは、情報サーバ310は同姓同名の社員が存在した場合は、同姓同名の社員の氏名および社員番号のリストをメインユニット200に送信し、社員C1がメインユニット200のディスプレイに表示されたそのリストから自分のデータを選択するようにしてもよい。
メインユニット500は、URIを受信すると、受信したURIと、社員C1のマイク10のID番号を対応付けて出席者テーブルTBL1として記憶する。
以上の処理を、出席者全員について実行することで、それぞれの会議室のメインユニット500は、会議の出席者全員について、出席者の各々が座っている席のマイク10のID番号と、その出席者に関する情報が保存されている場所を示すURIとが関連付けられた出席者テーブルTBL1を記憶する。自らが設置されている会議室の出席者に関する出席者テーブルTBL1の作成が完了すると、両会議室のメインユニット500は保有する出席者テーブルTBL1を通信相手に送信する。通信相手の出席者テーブルTBL1を受信したメインユニット500は、受信した出席者テーブルTBL1に記録された各URIにそれぞれ音像定位番号を対応付けて、通信相手テーブルTBL2として記憶する。以上で出席者登録モードは終了する。出席者登録モード終了後は、通常会議モードに移行する。通常会議モードにおいては、音声会議システムは以下のように動作する。
社員C1が発言すると、その発言はマイク10を介して音声信号としてメインユニット500に送信される。受信された音声信号は、メインユニット500内のCODEC220において音声データに変換され、変換された音声データにその音声信号を集音したマイクのID番号に対応付けられているURI(この場合、社員C1に関する情報の保存場所を示すURI)がヘッダとして付加される。URIが付加された音声データは、通信網300を介して通信先のメインユニット500に送信される。URIが付加された音声データを受信したメインユニット500は、自身のメモリ内に記憶された通信相手テーブルTBL2にそのURIが登録されているか検索し、そのURIと対応付けられて記憶されている音像定位情報を抽出する。
メインユニット500は、音像定位情報を音声データのヘッダに付加して、その音声データをメインユニット500内の音像定位処理部570に送信する。音像定位処理部570は、ヘッダに付加された音像定位情報に基づいてその音声の音像定位を決定し、その音像定位で音声が再生されるように音声信号を補正する。補正された音声信号は、スピーカ30から音声として再生される。本実施形態によれば、複数のスピーカ30から話者毎に異なった音像定位で音声が再生されるため、会議の出席者は話者を容易に識別することができる。
なお、本実施形態においては、複数のスピーカ30から話者毎に異なる音像定位で音声を再生したが、スピーカ30を会議の出席者の人数分用意し、各話者に1台のスピーカを割り当て、各話者の音声は話者毎に特定されたスピーカから再生される構成としてもよい。また、メインユニット200にディスプレイを設け、発言している話者の社員番号あるいは氏名をディスプレイに表示するようにしてもよい。
[4 第4実施形態]
続いて、本発明の第4実施形態について説明する。図8は、本発明の第4実施形態に係る音声会議システムの構成を示す図である。本実施形態に係る音声会議システムが前述の第1〜第3実施形態と異なる点は、会議室におけるマイク10の本数が会議室の定員よりも少ない(以下、「オフマイク状態」という)点である。本実施形態において、マイク10は無指向性マイクであり、複数の話者の発言は、混合された音声として複数のマイク10から集音される。マイク10から集音された音声は、まず音源ごとに分離され、続いて分離された音声に対して話者認識処理が行われる。なお、以下の説明において第1〜第3実施形態と同一の構成要素には同一の参照番号を付している。
[4−1 音声会議システムの構成]
図8に示されるように、本実施形態における音声会議システム700は、通信網300、メインユニット800、情報サーバ310、マイク10、スピーカ30から構成される。なお、本実施形態において、情報サーバ310に記憶される名簿データベースには、各社員が自分の氏名を名乗った音声を示す音声信号から抽出された特徴量があらかじめ記録されている。
図9は、メインユニット800の構成を示すブロック図である。音像定位測定部910は、図8に示される3本のマイク10から入力された音声の音源の音像定位を測定する機能を有する。メインユニット800は、音像定位測定部910の測定した音源の音像定位情報を記憶する。話者認識部950は、後述する音源分離部900により分離された話者毎の音声データに対し、話者を認識する処理を行い、その話者を識別する情報をその音声データに付加する機能を有する。音源分離部900は、複数のマイク10を介して入力された音声信号に対して、音源の音像定位情報に基づいて音源分離処理を行い、話者毎の音声に分離する機能を有する。具体的には、音源分離部900は、図8に示される3本のマイク10から入力される音声信号の位相をそれぞれ変化させる3つの遅延器からなる同期加算部を会議室の定員分、すなわち6つ有している。各同期加算部には、音源が1つずつ割り当てられる。各同期加算部は、対応する音源の音像定位情報(角度)から推定される位相差を補正して、その音源からの音声信号を同相化して加算する機能を有する。これにより特定の音源からの音声信号は同相化されるが、それ以外の音源からの信号は同相化されないため、特定の音源からの音声信号のみが強調され、音源を分離することができる。なお、音源分離の方法はこの方法に限られず、独立成分分析(Independent Component Analysis:ICA)に基づくブラインド音源分離(Blind Source Separation:BSS)の手法、あるいは音声の調波構造を仮定した分離手法等、他の技術を用いてもよい。
[4−2 音声会議システムの動作]
以下、図8および図9を参照して本実施形態における音声会議システムの動作について説明する。まず、出席者登録モードで出席者の登録が行われる。出席者は順番に自分の氏名を名乗る。出席者の発した音声は複数のマイク10を介して音声信号としてメインユニット800に送信される。音像定位測定部910は、複数のマイク10から出力された複数の音声信号の位相差から、マイク10に対する音源(話者)の角度を算出する。音源分離部900の各同期加算部には、あらかじめID番号が割り当てられている。
話者認識部950は、音声データに対して例えばスペクトルやホルマントを解析して特徴量を抽出するといった処理により声の特徴を抽出する。続いて話者認識部950は、通信網300を介して情報サーバ310に対して、話者識別要求および抽出した特徴量を送信する。情報サーバ310は、話者識別要求を受信すると、受信した特徴量に基づいて、自身が保有する名簿データベースを検索し、その特徴量から話者が社員C1であると識別する。話者を識別したら、情報サーバ310は、社員C1の社員番号あるいは社員C1に関する情報が保存されている場所を示すURI等、話者を識別するための情報をメインユニット800に送信する。話者を識別する情報を受信したメインユニット800は、受信したURIと、先ほど算出した話者の音像定位情報(角度)と、空いている同期加算部のID番号とを対応付けて出席者テーブルTBL1として記憶する。各同期加算部は、自身のID番号と対応付けられている音像定位情報に基づき同期加算処理を行う。両会議室のメインユニット800が出席者テーブルTBL1を通信相手のメインユニット800に送信し、通信相手テーブルTBL2を作成する動作は第1〜第3実施形態のいずれかと同様である。以上で出席者登録モードは終了する。
会議モードにおいては、出席者(例えば社員C1)が発言をすると、社員C1の音声は複数のマイク10を介して複数の音声信号としてメインユニット800に送信される。メインユニット800は受信した各音声信号をメインユニット800内の音源分離部900に送信する。音源分離部900は、前述のように、話者毎に音声データを抽出することが可能である。音源分離部900は、抽出した音声データに対して、その音声データが出力された同期加算部のID番号と対応付けられているURIを出席者テーブルTBL1から抽出する。抽出されたURIは、ヘッダとして音声データに付加される。以上のようにして話者を識別する情報を付加された音声データは、通信網300を介して通信相手のメインユニット800に送信される。以下、通信先の会議室での再生処理および会議後の音声データの再利用は、前述の第1〜第3実施形態の再生処理、音声データの再利用のいずれかと同様である。
[5 変形例]
上述した実施形態は本発明の実施形態の例示であり、上記実施形態に対しては、本発明の主旨から逸脱しない範囲で様々な変形を加えることができる。
[5−1 第1変形例]
前述のように、本発明は、概ね次の3つの要素から構成される。
(1)識別手段
(2)話者の識別情報の音声データへの付加手段
(3)特徴付加手段
(1)〜(3)の要素の組み合わせとして、第1〜第4実施形態で具体的な態様および変形例を例示したが、組み合わせは各実施形態に記載された組み合わせに限られず、変形例を含めて任意の組み合わせが可能である。
[5−2 第2変形例]
前述の各実施形態においては、2地点間の音声会議について説明したが、3地点間以上の多地点間で音声会議を行う構成にしてもよい。この場合、メインユニットは、出席者登録モード時には、複数の通信相手に出席者テーブルTBL1を送信し、複数の通信相手の通信相手テーブルTBL2を記憶することになる。
[5−3 第3変形例]
第4実施形態においては、オフマイク状態において、音源分離を行った上で話者認識を行ったが、話者認識を行う際にRFIDタグを補助的に用いて、話者認識時に検索するデータベースの絞込みを行う構成としてもよい。この場合、音声会議システムの動作は次の通りである。
マイク10には、RFIDタグ読取装置20が取り付けられている。会議の出席者が、メインユニット800の操作盤上の「出席者登録」のボタンを押すと、メインユニット800は、RFIDタグ読取装置20に対して、会議の出席者の社員番号を読み取るように指令する。RFIDタグはある程度離れた距離でも読み取ることができるので、会議室Aのマイク10に取り付けられたRFIDタグ読取装置20は、会議室Aに在席している社員(社員C1、社員C2、社員C3、社員C4、社員C5)の社員証に取り付けられたRFIDから、社員番号のデータを読み出す。読み出された社員番号のデータは、メインユニット800に送信される。メインユニット800は、音声特徴量要求を社員番号のデータと共に情報サーバ310に送信する。音声特徴量要求を受信した情報サーバ310は、受信した社員番号をキーとして自身の保有する話者情報データベースを検索し、社員C1、社員C2、社員C3、社員C4、社員C5の音声特徴量を抽出する。情報サーバ310は、抽出した音声特徴量をメインユニット800に送信する。メインユニット800は、音声特徴量を受信すると、音声認識テーブルとして、各出席者の社員番号と音声特徴量を対応付けて記憶する。以上で会議の準備が完了する。
会議中、音声データを受信した話者認識部950は、第4実施形態で説明した通り音声データに対して例えばスペクトルやホルマントを解析して特徴量を抽出するといった処理により声の特徴を抽出する。続いて話者認識部950は、抽出した特徴量を検索キーとして、音声認識テーブル内を検索し、話者の社員番号を抽出する。抽出した社員番号を音声データに付加する処理以降は、第4実施形態と同一である。
[5−4 第4変形例]
第4実施形態においては、出席者登録モードにおいて各出席者の音声認識を行い、その結果得た音像定位情報と各出席者のURIとを対応付けて出席者テーブルTBL1に記録した。しかし、出席者登録モードにおいては各出席者と音像定位情報を対応付けず、会議モードにおいて、発言毎に話者認識処理を行い話者の識別情報(URIあるいは社員番号)を音声データに付加する構成としてもよい。
本発明の第1実施形態における音声会議システムの構成を示すブロック図である。 同実施形態におけるメインユニットの構成を示すブロック図である。 同実施形態における音声会議システムの構成を示す模式図である。 本発明の第2実施形態における音声会議システムの構成を示すブロック図である。 同実施形態における情報サーバに記録される名簿データベースを例示する図である。 本発明の第3実施形態における音声会議システムの構成を示すブロック図である。 同実施形態におけるメインユニットの構成を示すブロック図である。 本発明の第4実施形態における音声会議システムの構成を示す図である。 同実施形態におけるメインユニットの構成を示すブロック図である。 第3実施形態における音像定位位置を例示する図である。
符号の説明
10…マイク、20…RFIDタグ読取装置、30…スピーカ、100…音声会議システム、200…メインユニット、210…CPU、220…CODEC、230…音声信号受信部、240…通信I/F、250…メモリ、260…音声信号出力部、270…イコライザ、300…通信網、310…情報サーバ、320…録音サーバ、400…端末、500…メインユニット、550…音声認識部、570…音像定位処理部、700…音声会議システム、800…メインユニット、900…音源分離部、910…音像定位測定部、950…話者認識部

Claims (4)

  1. 複数の話者の音声を集音し、当該話者の音声を示す音声信号を出力する複数のマイクと、
    前記音声信号により示される音声の話者を識別する話者識別手段と、
    前記話者識別手段の識別結果に基づいて、前記音声信号に、当該音声信号により示される音声を発している話者の前記識別情報を付加する識別情報付加手段と、
    前記識別情報が付加された前記音声信号を送信する送信手段と
    を有する送信側音声会議端末装置と、
    話者を識別する識別情報が付加された音声信号を受信する受信手段と、
    前記受信した識別情報に基づいて、前記音声信号を補正することにより音声に特徴を付加する特徴付加手段と、
    前記特徴付加手段により特徴を付加された音声を出力する音声出力手段と
    を有する受信側音声会議端末装置と
    を有する音声会議システム。
  2. 前記送信側音声会議端末装置は、前記複数のマイクで収音した音声を所定の音源分離方法を用いて複数の話者の音声信号に分離して出力する音源分離手段をさらに有し、
    前記話者識別手段は、前記音源分離手段で分離された音声信号に対して話者を識別する
    ことを特徴とする請求項1に記載の音声会議システム。
  3. 前記特徴付加手段は、
    音声の周波数成分を補正するイコライジングパターンと前記識別情報とを対応付けたテーブルを有し、
    前記テーブルに記憶されたイコライジングパターンのうち前記受信手段で受信した識別情報に対応するイコライジングパターンに応じて、受信した音声信号の周波数成分を補正する
    ことを特徴とする請求項1または2に記載の音声会議システム。
  4. 前記特徴付加手段は、
    音声を音像定位させる位置と前記識別情報とを対応付けたテーブルを有し、
    前記テーブルに記憶された位置のうち前記受信手段で受信した識別情報に対応する位置に、前記受信した音声信号を音像定位させる
    ことを特徴とする請求項1または2に記載の音声会議システム。
JP2007299295A 2007-11-19 2007-11-19 音声会議システム Expired - Fee Related JP4735640B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007299295A JP4735640B2 (ja) 2007-11-19 2007-11-19 音声会議システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007299295A JP4735640B2 (ja) 2007-11-19 2007-11-19 音声会議システム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2003310445A Division JP2005080110A (ja) 2003-09-02 2003-09-02 音声会議システム、音声会議端末装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2008109686A JP2008109686A (ja) 2008-05-08
JP4735640B2 true JP4735640B2 (ja) 2011-07-27

Family

ID=39442612

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007299295A Expired - Fee Related JP4735640B2 (ja) 2007-11-19 2007-11-19 音声会議システム

Country Status (1)

Country Link
JP (1) JP4735640B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4867516B2 (ja) * 2006-08-01 2012-02-01 ヤマハ株式会社 音声会議システム
KR101414412B1 (ko) * 2008-05-09 2014-07-01 노키아 코포레이션 오디오 신호의 인코딩 장치, 오디오 신호의 디코딩 장치, 오디오 신호의 인코딩 방법, 스케일러블 인코딩 오디오 신호의 디코딩 방법, 인코더, 디코더, 전자기기 및 컴퓨터 판독가능한 기록 매체
JP5493551B2 (ja) * 2009-07-30 2014-05-14 沖電気工業株式会社 情報処理システム、情報処理装置、及び情報処理方法
JP2012103845A (ja) * 2010-11-09 2012-05-31 Panasonic Corp 音声制御装置および音声制御方法
JPWO2019187521A1 (ja) * 2018-03-28 2020-04-30 株式会社村田製作所 音声情報送信装置、音声情報送信方法、音声情報送信プログラム、音声情報解析システム及び音声情報解析サーバ

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10215331A (ja) * 1997-01-30 1998-08-11 Toshiba Corp 音声会議システムとその情報端末装置
JPH11112672A (ja) * 1997-09-30 1999-04-23 Mitsubishi Electric Corp 多地点通話装置
JP3031320B2 (ja) * 1997-12-11 2000-04-10 日本電気株式会社 ビデオ会議装置
JP3828099B2 (ja) * 2003-07-17 2006-09-27 エヌ・ティ・ティ・コムウェア北海道株式会社 個人認証システムおよび個人認証方法、並びに個人認証プログラム

Also Published As

Publication number Publication date
JP2008109686A (ja) 2008-05-08

Similar Documents

Publication Publication Date Title
JP2005080110A (ja) 音声会議システム、音声会議端末装置およびプログラム
US6687671B2 (en) Method and apparatus for automatic collection and summarization of meeting information
CN108346034B (zh) 一种会议智能管理方法及系统
CN107609045B (zh) 一种会议记录生成装置及其方法
US8538753B2 (en) Generating representations of group interactions
JP2012018412A (ja) 会話の話題を決定して関連するコンテンツを取得して提示する方法及びシステム
CN107172167A (zh) 一种基于移动终端的签到控制方法、系统及存储装置
JP4735640B2 (ja) 音声会議システム
CN103514165A (zh) 用于识别对话中所提及的人的方法和装置
CN109560941A (zh) 会议记录方法、装置、智能终端及存储介质
JP4469867B2 (ja) コミュニケーションの状況を管理する装置、方法およびプログラム
CN108320761B (zh) 音频录制方法、智能录音设备及计算机可读存储介质
JP2023033634A (ja) サーバ装置、会議支援方法及びプログラム
JP6091690B1 (ja) 議会運営支援システム及び議会運営支援方法
CN108364638A (zh) 一种语音数据处理方法、装置、电子设备和存储介质
JP2006234890A (ja) 通信カラオケシステム用通信装置
TW200824408A (en) Methods and systems for information retrieval during communication, and machine readable medium thereof
WO2023087287A1 (zh) 一种会议内容显示的方法、会议系统及会议设备
CN114257778A (zh) 一种远程会议系统及多麦克风语音识别播放方法
WO2021134284A1 (zh) 语音信息处理方法、中枢设备、控制终端及存储介质
JP2008124597A (ja) 音声会議システム
JP6023523B2 (ja) 音声メッセージカード作成システム及びサーバ
JP7389070B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP3346758B2 (ja) 情報提供システム
JP7163968B2 (ja) サーバ装置、会議支援システム、会議支援方法及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090407

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100823

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110411

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees