JP4735640B2 - 音声会議システム - Google Patents
音声会議システム Download PDFInfo
- Publication number
- JP4735640B2 JP4735640B2 JP2007299295A JP2007299295A JP4735640B2 JP 4735640 B2 JP4735640 B2 JP 4735640B2 JP 2007299295 A JP2007299295 A JP 2007299295A JP 2007299295 A JP2007299295 A JP 2007299295A JP 4735640 B2 JP4735640 B2 JP 4735640B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- audio
- voice
- main unit
- conference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Description
このような通信会議システムが、音声と共に画像(動画)の通信を伴う、いわゆるテレビ会議システムの場合は、聞き手は通信相手の表情を見ながら会議できるため話者を識別するのは容易であるが、画像を伴わない音声会議システムの場合は、聞き手は話者を識別するのが困難であった。
この音声会議システムによれば、その音声を発した話者を識別する識別情報を、話者の識別情報を記録した記録媒体を用いなくても、音声の識別結果に基づいて話者を識別する識別情報が取得され、音声信号に付加される。
[1 第1実施形態]
まず、本発明の第1実施形態について説明する。本発明に係る音声会議システムは、話者を識別する識別情報を出力する識別手段、話者を識別する識別情報を音声データに付加する識別情報付加手段、および音声データに対し話者毎に異なった特徴を付加する特徴付加処理を行う特徴付加手段を主要な構成要素とするものである。第1実施形態においては、識別手段としてRFID(Radio Frequency IDentification)タグおよびRFIDタグ読取装置、並びに特徴付加手段としてイコライザを使用している。
図1は本実施形態における音声会議システム100の構成を示すブロック図である。図1に示されるように、本実施形態における音声会議システム100は、地理的に離れて位置する会議室A、B間での音声会議を可能にするものである。
各会議室に設置された各メインユニット200は、通信網300を介して接続され、各会議室間での音声データの送受信を行う機能を有する。メインユニット200は、他の会議室に送信すべき音声データが発生した場合に、その発生元である話者を識別し、その話者の識別情報を音声データへ付加する。また、メインユニット200は、識別情報の付加された音声データを他の会議室のメインユニット200から受信した場合に、識別情報に基づいた特徴付加処理を行う。なお、特徴付加処理の詳細については後述する。
通信網300は、例えばインターネットである。なお、通信網300はインターネットに限られず、無線通信網、専用線等、パケット通信可能な他の通信網であってもよい。
以下、図2および図3を参照して本実施形態における音声会議システムの動作について説明する。本実施形態では、図3に示すように、ある会社のA事業所の会議室Aと、B事業所の会議室Bとの間で音声会議を行うものとする。A事業所側の会議の出席者は、C部に所属する社員5人(社員C1、社員C2、社員C3、社員C4、社員C5)、B事業所側の会議の出席者は、D部に所属する社員2人(社員D1、社員D2)およびE部に所属する社員2人(社員E1、社員E2)である。なお、この会社において、各社員は、各人の社員番号が記録されたRFIDタグを取り付けた社員証を使用しており、会議の出席者はみな自分の社員証を胸ポケットに付けているものとする。
また、両会議室のメインユニット200は、音声データの特定の周波数成分を増加、減少させる補正パターン(以下、イコライジング・パターンという)を、それぞれあらかじめ十分な数(例えば6個)記憶している。各イコライジング・パターンには、それを参照するためのイコライジング・パターン番号が割り当てられている。
例えば、社員C1と社員C2の声が非常に似ていて区別しにくいと仮定する。このとき、議論が白熱して、社員C1が「私は賛成です」、社員C2が「私は反対です」とほぼ同時に発言しても、それぞれの音声は各話者に対して割り当てられたマイク10から別個に収集され、社員C1と社員C2それぞれの社員番号をヘッダに付加されて会議室Bのメインユニット200に送信される。そして会議室Bでは、社員C1の音声と社員C2の音声は、それぞれ別個のイコライジング・パターンで補正されて再生される。このため、会議室Bの出席者は、社員C1と社員C2のどちらが賛成しどちらが反対したかを容易に認識することができる。
続いて、本発明の第2実施形態について説明する。図4は、本発明の第2実施形態における音声会議システムの構成を示すブロック図である。本実施形態においては、会議の内容を記録するための装置として、通信網300に録音サーバ320が接続されている。また、本実施形態においては話者を識別する情報として、その話者に関する各種の情報を保存しているリソースを特定するURI(Uniform Resorce Identifier)を使用する。この情報を提供するサーバとして、本実施形態では、情報サーバ310が通信網300に接続されている。ここで、URIとは、統一された書式を持った、リソースを識別するための文字列のことである。本実施形態では、具体的にはURL(Uniform Resource Locator)を指す。
本実施形態において、各会議室に設けられる各装置の構成は第1実施形態と同一であるので説明を省略する。
情報サーバ310は、図5に示すように、あらかじめ顔写真、所属部署、社員番号、電話番号、メールアドレス、およびその社員に関する情報が保存されている場所を示すURI等、出席者に関する情報を記録した名簿データベースを有するサーバである。録音サーバ320は、会議中に送受信された音声データを記録するためのサーバである。情報サーバ310および録音サーバ320はそれぞれ、CPU、メモリ、ハードディスク等の外部記憶装置、およびネットワークを介して通信を行う手段を有するサーバ装置である。なお、図4においては会議室Aおよび会議室Bに共通の情報サーバを設けたが、会議室A、Bの各々のための情報サーバを別個に設けてもよい。また、情報サーバ310と録音サーバ320は同一の装置であってもよい。また、メインユニット200自身が情報サーバ310および/あるいは録音サーバ320と同様の機能を有していてもよい。
以下、図2および図4を参照して本実施形態における音声会議システムの動作について説明する。本実施形態においても、第1実施形態と同様に、ある会社のA事業所の会議室Aと、B事業所の会議室Bとの間で音声会議を行うものとする。会議の出席者等の状況は第1実施形態と同一であるとする。双方の会議室において、出席者が全員揃ったところで、メインユニット200の操作盤上にある「出席者登録」のボタンを押すと、メインユニット200の動作モードは参加者登録モードになる。以下、出席者テーブルTBL1をメモリ250に記憶するところまでの動作は第1実施形態と同一である。
この記録用ファイルは、マルチトラックの記録、再生が可能なファイル形式を有している。会議の参加者の各々に対して1つのトラックが割り当てられ、各トラックには特定の話者の音声データがヘッダと共に記録され、特定の話者の特定の発言を抽出することが可能である。なお、記録用ファイルの形式はマルチトラック形式に限られず、話者および発言が識別可能な状態で保存できればどのような形式でもよい。
以上のようにメインユニット200は、URIを付加した音声データを、通信網300を介して会議室Bのメインユニット200および録音サーバ320に送信する。会議室Bにおける音声の再生は、第1実施形態における「社員番号」を「URI」に変更した点以外は第1実施形態と同様である。
録音サーバ320は、音声データを受信すると、記録用ファイルに受信した音声データを記録する。ヘッダとして付加されたURIも同時に記録される。こうして、会議の内容は録音サーバ320の記録用ファイルに記録される。
この再生ソフトは、記録ファイルを再生するに際し、各トラックにおいて音声データを検出すると、ヘッダとして付加されたURIが示すリソース(情報サーバ310内の社員C1に関する情報を記したファイル)にアクセスし、社員の氏名のデータを得る。再生ソフトは、情報サーバ310から得た話者の氏名を画面に表示することにより話者毎に特徴付けを行いながらその音声データを再生する。なお、音声データ再生時に話者毎に特徴付けを行う方法は氏名の表示に限られず、話者毎に異なる色で音声波形を表示してもよい。あるいは、話者の氏名ではなく話者の顔写真を表示しながら音声データを再生する構成としてもよい。あるいは、話者の社員番号や電子メールアドレス等の情報を表示してもよい。あるいは、録音を再生する際も音声会議中と同様に、話者毎に異なる周波数成分を増加/減少させるイコライザを適用してもよい。あるいは、スピーカ/ヘッドホンから話者毎に異なる音像定位で音声を再生してもよい。
本実施形態によれば、音声会議の記録ファイルを聞いている使用者は、話者が誰であったか迷うことなく、あるいは話者を誤認することなく会議の録音を聞くことができる。
続いて、本発明の第3実施形態について説明する。本実施形態においては、識別手段としては音声認識技術を、特徴付加手段としては複数のスピーカを用いて話者ごとに音像の定位を変化させる技術を採用する。なお、以下の説明において、第1実施形態および第2実施形態と同一の構成要素に関しては同一の参照番号を使用している。
図6は、本発明の第3実施形態による音声会議システムの構成を示すブロック図である。本実施形態においては、第1実施形態および第2実施形態において使用されたメインユニット200に代わりメインユニット500が使用される。
図7は、本実施形態におけるメインユニット500の構成を示すブロック図である。図7において、音声認識部550および音像定位処理部570は本実施形態に特有の構成要素である。音声認識部550は、図6に示されるマイク10から入力された音声信号に対して音声認識処理を行う機能を有する。音像定位処理部570は、スピーカ30から再生される音声の音像定位を変化させる処理を行う機能を有する。ここで、音像が定位される位置は、音像定位処理部570が記憶する音像定位情報によって定められる。音像定位処理部570はあらかじめ十分な数(本実施形態においては6つ)の音像定位情報(例えば、ある基準点からの距離、角度)を記憶しており、その各々には音像定位情報を参照するための音像定位番号が割り当てられている。いま、図10に示される位置にそれぞれ音像を定位させる設定を仮定する。この場合、音像定位処理部570は、基準点からの距離および角度の組み合わせからなる音像定位情報を6つ有し、それぞれには1から6までの音像定位番号が割り当てられている。すなわち、音声データと音像定位番号が与えられると、音像定位処理部570は、音像定位番号に対応する音像定位情報に基づいて、図6に示されるスピーカ30の各々から出力される音声の位相、強度を変化させる方法により音像に定位を与える。
以下、図6および図7を参照して本実施形態における音声会議システムの動作について説明する。会議を開始するにあたり、出席者のうち1人は、メインユニット500の操作盤にある「出席者登録」のボタンを押す。この操作によりメインユニット500の動作モードは、出席者登録モードになる。本実施形態においては、各出席者が自分の名前をマイク10に向かって名乗り、メインユニット500はその音声に対して音声認識処理を行い出席者の名前を得ることにより話者識別を行う。詳細には以下の通りである。
情報サーバ310は、名前のテキストデータおよびURI要求を受信すると、自身の保有する名簿データベース(図5)から、名前のテキストデータをキーとして名簿データベース内を検索する。情報サーバ310は、「スズキイチロウ」というテキストデータに対応する社員のデータを検出すると、その社員に関するデータが保存されている場所を示すURIを名簿データベースから抽出し、メインユニット500に返信する。なお、同姓同名がいる場合には、名前を名乗る際に「C部 鈴木一朗」など氏名以外の情報を付加して、氏名および所属部署でデータベース内を検索するようにしてもよい。あるいは、情報サーバ310は同姓同名の社員が存在した場合は、同姓同名の社員の氏名および社員番号のリストをメインユニット200に送信し、社員C1がメインユニット200のディスプレイに表示されたそのリストから自分のデータを選択するようにしてもよい。
メインユニット500は、URIを受信すると、受信したURIと、社員C1のマイク10のID番号を対応付けて出席者テーブルTBL1として記憶する。
なお、本実施形態においては、複数のスピーカ30から話者毎に異なる音像定位で音声を再生したが、スピーカ30を会議の出席者の人数分用意し、各話者に1台のスピーカを割り当て、各話者の音声は話者毎に特定されたスピーカから再生される構成としてもよい。また、メインユニット200にディスプレイを設け、発言している話者の社員番号あるいは氏名をディスプレイに表示するようにしてもよい。
続いて、本発明の第4実施形態について説明する。図8は、本発明の第4実施形態に係る音声会議システムの構成を示す図である。本実施形態に係る音声会議システムが前述の第1〜第3実施形態と異なる点は、会議室におけるマイク10の本数が会議室の定員よりも少ない(以下、「オフマイク状態」という)点である。本実施形態において、マイク10は無指向性マイクであり、複数の話者の発言は、混合された音声として複数のマイク10から集音される。マイク10から集音された音声は、まず音源ごとに分離され、続いて分離された音声に対して話者認識処理が行われる。なお、以下の説明において第1〜第3実施形態と同一の構成要素には同一の参照番号を付している。
図8に示されるように、本実施形態における音声会議システム700は、通信網300、メインユニット800、情報サーバ310、マイク10、スピーカ30から構成される。なお、本実施形態において、情報サーバ310に記憶される名簿データベースには、各社員が自分の氏名を名乗った音声を示す音声信号から抽出された特徴量があらかじめ記録されている。
以下、図8および図9を参照して本実施形態における音声会議システムの動作について説明する。まず、出席者登録モードで出席者の登録が行われる。出席者は順番に自分の氏名を名乗る。出席者の発した音声は複数のマイク10を介して音声信号としてメインユニット800に送信される。音像定位測定部910は、複数のマイク10から出力された複数の音声信号の位相差から、マイク10に対する音源(話者)の角度を算出する。音源分離部900の各同期加算部には、あらかじめID番号が割り当てられている。
上述した実施形態は本発明の実施形態の例示であり、上記実施形態に対しては、本発明の主旨から逸脱しない範囲で様々な変形を加えることができる。
前述のように、本発明は、概ね次の3つの要素から構成される。
(1)識別手段
(2)話者の識別情報の音声データへの付加手段
(3)特徴付加手段
(1)〜(3)の要素の組み合わせとして、第1〜第4実施形態で具体的な態様および変形例を例示したが、組み合わせは各実施形態に記載された組み合わせに限られず、変形例を含めて任意の組み合わせが可能である。
前述の各実施形態においては、2地点間の音声会議について説明したが、3地点間以上の多地点間で音声会議を行う構成にしてもよい。この場合、メインユニットは、出席者登録モード時には、複数の通信相手に出席者テーブルTBL1を送信し、複数の通信相手の通信相手テーブルTBL2を記憶することになる。
第4実施形態においては、オフマイク状態において、音源分離を行った上で話者認識を行ったが、話者認識を行う際にRFIDタグを補助的に用いて、話者認識時に検索するデータベースの絞込みを行う構成としてもよい。この場合、音声会議システムの動作は次の通りである。
第4実施形態においては、出席者登録モードにおいて各出席者の音声認識を行い、その結果得た音像定位情報と各出席者のURIとを対応付けて出席者テーブルTBL1に記録した。しかし、出席者登録モードにおいては各出席者と音像定位情報を対応付けず、会議モードにおいて、発言毎に話者認識処理を行い話者の識別情報(URIあるいは社員番号)を音声データに付加する構成としてもよい。
Claims (4)
- 複数の話者の音声を集音し、当該話者の音声を示す音声信号を出力する複数のマイクと、
前記音声信号により示される音声の話者を識別する話者識別手段と、
前記話者識別手段の識別結果に基づいて、前記音声信号に、当該音声信号により示される音声を発している話者の前記識別情報を付加する識別情報付加手段と、
前記識別情報が付加された前記音声信号を送信する送信手段と
を有する送信側音声会議端末装置と、
話者を識別する識別情報が付加された音声信号を受信する受信手段と、
前記受信した識別情報に基づいて、前記音声信号を補正することにより音声に特徴を付加する特徴付加手段と、
前記特徴付加手段により特徴を付加された音声を出力する音声出力手段と
を有する受信側音声会議端末装置と
を有する音声会議システム。 - 前記送信側音声会議端末装置は、前記複数のマイクで収音した音声を所定の音源分離方法を用いて複数の話者の音声信号に分離して出力する音源分離手段をさらに有し、
前記話者識別手段は、前記音源分離手段で分離された音声信号に対して話者を識別する
ことを特徴とする請求項1に記載の音声会議システム。 - 前記特徴付加手段は、
音声の周波数成分を補正するイコライジングパターンと前記識別情報とを対応付けたテーブルを有し、
前記テーブルに記憶されたイコライジングパターンのうち前記受信手段で受信した識別情報に対応するイコライジングパターンに応じて、受信した音声信号の周波数成分を補正する
ことを特徴とする請求項1または2に記載の音声会議システム。 - 前記特徴付加手段は、
音声を音像定位させる位置と前記識別情報とを対応付けたテーブルを有し、
前記テーブルに記憶された位置のうち前記受信手段で受信した識別情報に対応する位置に、前記受信した音声信号を音像定位させる
ことを特徴とする請求項1または2に記載の音声会議システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007299295A JP4735640B2 (ja) | 2007-11-19 | 2007-11-19 | 音声会議システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007299295A JP4735640B2 (ja) | 2007-11-19 | 2007-11-19 | 音声会議システム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003310445A Division JP2005080110A (ja) | 2003-09-02 | 2003-09-02 | 音声会議システム、音声会議端末装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008109686A JP2008109686A (ja) | 2008-05-08 |
JP4735640B2 true JP4735640B2 (ja) | 2011-07-27 |
Family
ID=39442612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007299295A Expired - Fee Related JP4735640B2 (ja) | 2007-11-19 | 2007-11-19 | 音声会議システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4735640B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4867516B2 (ja) * | 2006-08-01 | 2012-02-01 | ヤマハ株式会社 | 音声会議システム |
KR101414412B1 (ko) * | 2008-05-09 | 2014-07-01 | 노키아 코포레이션 | 오디오 신호의 인코딩 장치, 오디오 신호의 디코딩 장치, 오디오 신호의 인코딩 방법, 스케일러블 인코딩 오디오 신호의 디코딩 방법, 인코더, 디코더, 전자기기 및 컴퓨터 판독가능한 기록 매체 |
JP5493551B2 (ja) * | 2009-07-30 | 2014-05-14 | 沖電気工業株式会社 | 情報処理システム、情報処理装置、及び情報処理方法 |
JP2012103845A (ja) * | 2010-11-09 | 2012-05-31 | Panasonic Corp | 音声制御装置および音声制御方法 |
JPWO2019187521A1 (ja) * | 2018-03-28 | 2020-04-30 | 株式会社村田製作所 | 音声情報送信装置、音声情報送信方法、音声情報送信プログラム、音声情報解析システム及び音声情報解析サーバ |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10215331A (ja) * | 1997-01-30 | 1998-08-11 | Toshiba Corp | 音声会議システムとその情報端末装置 |
JPH11112672A (ja) * | 1997-09-30 | 1999-04-23 | Mitsubishi Electric Corp | 多地点通話装置 |
JP3031320B2 (ja) * | 1997-12-11 | 2000-04-10 | 日本電気株式会社 | ビデオ会議装置 |
JP3828099B2 (ja) * | 2003-07-17 | 2006-09-27 | エヌ・ティ・ティ・コムウェア北海道株式会社 | 個人認証システムおよび個人認証方法、並びに個人認証プログラム |
-
2007
- 2007-11-19 JP JP2007299295A patent/JP4735640B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008109686A (ja) | 2008-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005080110A (ja) | 音声会議システム、音声会議端末装置およびプログラム | |
US6687671B2 (en) | Method and apparatus for automatic collection and summarization of meeting information | |
CN108346034B (zh) | 一种会议智能管理方法及系统 | |
CN107609045B (zh) | 一种会议记录生成装置及其方法 | |
US8538753B2 (en) | Generating representations of group interactions | |
JP2012018412A (ja) | 会話の話題を決定して関連するコンテンツを取得して提示する方法及びシステム | |
CN107172167A (zh) | 一种基于移动终端的签到控制方法、系统及存储装置 | |
JP4735640B2 (ja) | 音声会議システム | |
CN103514165A (zh) | 用于识别对话中所提及的人的方法和装置 | |
CN109560941A (zh) | 会议记录方法、装置、智能终端及存储介质 | |
JP4469867B2 (ja) | コミュニケーションの状況を管理する装置、方法およびプログラム | |
CN108320761B (zh) | 音频录制方法、智能录音设备及计算机可读存储介质 | |
JP2023033634A (ja) | サーバ装置、会議支援方法及びプログラム | |
JP6091690B1 (ja) | 議会運営支援システム及び議会運営支援方法 | |
CN108364638A (zh) | 一种语音数据处理方法、装置、电子设备和存储介质 | |
JP2006234890A (ja) | 通信カラオケシステム用通信装置 | |
TW200824408A (en) | Methods and systems for information retrieval during communication, and machine readable medium thereof | |
WO2023087287A1 (zh) | 一种会议内容显示的方法、会议系统及会议设备 | |
CN114257778A (zh) | 一种远程会议系统及多麦克风语音识别播放方法 | |
WO2021134284A1 (zh) | 语音信息处理方法、中枢设备、控制终端及存储介质 | |
JP2008124597A (ja) | 音声会議システム | |
JP6023523B2 (ja) | 音声メッセージカード作成システム及びサーバ | |
JP7389070B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP3346758B2 (ja) | 情報提供システム | |
JP7163968B2 (ja) | サーバ装置、会議支援システム、会議支援方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090407 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090608 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100622 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100823 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110329 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110411 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140513 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |