JP5030868B2

JP5030868B2 - 会議音声録音システム

Info

Publication number: JP5030868B2
Application number: JP2008152030A
Authority: JP
Inventors: 直之神田; 貴志住吉; 康成大淵
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2008-06-10
Filing date: 2008-06-10
Publication date: 2012-09-19
Anticipated expiration: 2028-06-10
Also published as: JP2009301125A

Description

本発明は、打ち合わせやブレインストーミングなどの会議の場において、その音声を録音・検索・共有する会議音声録音システムに関するものである。

これまでに会議における音声を録音し、その音声から議事録を作成する技術が示されている。特許文献１では、会議での音声を音声認識装置によって文字化し、自動的に議事録を作成する方法が記載されている。非特許文献１には、会議中の発言を書記が専用ツールで全て書き起こし、それを議事録として保存する技術が記載されている。

また特許文献２では、複数の参加者がドキュメントを編集・共有するようなシステムにおいて、個々の発言に対して参加者がドキュメント編集の管理権を持つことで、利害関係の複雑な議題においてもドキュメントを適切に管理しつつ、自由な意見発信を可能としている。この技術では、参加者の発言を特定するために、個々人を識別するための何らかの端末を前提としている。

特許文献３には、マイクロホンを用いて会議を録音し、話者識別を用いて各発話に承認権を付与する技術が記載されている。話者識別ができなかった場合には、全員の承諾のもと議長が書き起しを行う。特許文献４には、公開したくない発言を行う場合に、特定のボタンを押すことにより録音を中断することが記載されている。

特開２０００−１１２９３１号公報特開２００７−３２８４７１号公報特開２０００−３５２９９５号公報特開２００５−０７２７６８号公報ディスカッションマイニング：議事録からの知識、発見，情報処理学会第６７回全国大会，２００５．

特許文献１や非特許文献１では、参加者の発言は公式な発言として扱われ、参加者が自身の発言を修正する権限の管理や、容易に自身の発言を修正する枠組みが提供されていない。実際の会議の場面では、全ての発言が公式なものとして扱われることはむしろ稀であり、このような前提は参加者の自由な発言を阻害する恐れがある。特に、打ち合わせやブレインストーミングなどの会議で、広く意見を収集して知識の醸成を図るという目的であった場合には、その本来の目的が十分達成されない恐れがある。

また、参加者が面と向かって打ち合わせをするような会議（ＴＶ会議を含む）において、各参加者がそれぞれ専用の入力端末を保持するという状況は、以下の点において不便である。まず第１に、専用の入力端末の数以上の参加者は会議に参加できない。第２に、専用の入力端末ごしにしか発言できない状況は、参加者に過度の心的ストレスを感じさせる。第３に、専用の入力端末ごしに発言するという状況は従来の打ち合わせの方法と大きく異なり、参加者がシステムに慣れるまでに相当の時間を要する。第４に、このような専用システムを設置するのは非常にコストがかかる。上記観点から鑑みて、各人が専用の入力端末を保持するような会議の場というのは限られた環境でのみ有効なものと考えられる。

特許文献３の方法は、参加者が専用の入力端末を保持する必要がなく、また発言の管理も行われているものの、その目的はあくまで正確な議事録を作成することにあり、参加者が自由な発言を行える環境を提供するという点は考慮されていない。録音しても参加者が自由に発言を行えるようにするためには、各参加者が自身の発言を容易に検索・編集できる機能を備えることが必要である。また、この方法では、話者識別に失敗した場合に一律で全員の承諾を必要としており、議事録作成までの全員の作業量が多いという問題もある。打ち合わせの録音システムを日常的に利用することを考えると、打ち合わせ後の作業は最小限であることが望ましく、この点でも改善が必要である。

ボタンを押して録音を中断する方法の場合、参加者は自身の発言が不適切だったと後から気付いた場合に対処できない。結果として、参加者の自由な発言が阻害されるという問題が生じる。

上記のように、従来技術は打ち合わせでの音声を録音・共有するシステムを提供しているものの、参加者が自由な発言を行うための枠組みを十分に提供していなかった。本発明は、打ち合わせ参加者の作業を最小にしつつ、必要であれば参加者が容易に自身の発言を検索・修正できる枠組みを提供する。また、参加者の利害関係が複雑な会議においても、発言の修正を適切な権限で行えるようにするための枠組みの提供も行う。

本発明では、打ち合わせの発話音声の話者音響特徴量や方向情報などからそれぞれの発話の話者を識別し、その際の信頼度に応じた適切な音声修正権を発話ごとに付与する。また録音後に、音声を容易に検索・修正できる音声検索部、音声修正部を備えることにより、会議参加者が会議後に容易かつ適切な権限でもって会議音声を修正することができるようにする。このことにより、適切な会議音声の記録・共有を最低限の作業で行いつつ、参加者が自由に議論を行うことを可能とする。

本発明によると、会議録を録音・共有するシステムにおいて、参加者が自由な議論を行うことが可能となる。

以下、図面を参照して本発明の実施の形態を説明する。
図１は、本発明による会議音声記録・共有システムの構成例を示す機能ブロック図である。本システムは、会議の参加者を予め登録しておくためのユーザ管理部００１、会議音声を録音する際に動作する音声記録部００２、及び会議終了後に会議の録音内容を修正する会議録音修正・認証部００３を有する。

以下、図１に示した会議音声記録・共有システムにおける処理を、順を追って説明する。

まず、ユーザ管理部００１における処理を図２のフローチャートに示した。ユーザが初めて本システムを利用するときには、ユーザ登録部１１６で当該ユーザの情報を登録する。この際にはユーザ名などを登録する。また、当該ユーザの声も併せて録音し、ユーザ情報保持部１１８へ保存する。また必要であればパスワードの登録か、ユーザ固有のＩＤカードの登録・発行を行う。さらに、この際にユーザの顔写真などを保存しておくこともできる。

次に、音声記録部００２における処理について説明する。音声記録部００２は、会議の参加者を同定する参加者同定部１１０、音声入力部１０１、入力された音声を蓄積する音声録音部１０２、録音された多チャンネル音声から話者の方向を特定する話者方向検出部１０３、入力された音声を話者ごとに分離する音源分離部１０４、分離された音声それぞれから話者性を現す特徴量を抽出する話者音響特徴抽出部１０５、話者方向情報と話者音響特徴及び参加者同定部で同定した参加者情報から当該音声の話者を判定する話者識別部１０６、識別された話者の信頼度に基づき当該音声に修正権や修正権譲渡証を設定する修正権設定部１０７、上記の修正権情報を蓄積するアクセス権情報登録部１０８、音声やアクセス権限を保存する音声データベース１０９、及び音声インデキシング部１１９を有する。

本実施例では音声入力部１０１において、複数のマイクロホンからの同期入力を受け付けるものとする。また、音声記録部００２は、その他に画像入力部と画像蓄積部を備えていてもよい。このような応用は、特にＴＶ会議システムにおいて利用可能と考えられる。

音声記録部００２における処理のフローチャートを図３に示した。
会議が始まる前に、まず参加者同定部１１０が会議の参加者を同定する。このために、例えば冒頭で参加者名を各参加者、もしくは議長が発話し、それを音声認識することによって参加者を同定する。この際に、ユーザ登録部１１６においてユーザ情報保持部１１８に登録されたユーザ名から、音声認識辞書を作成することも可能である。なお、音声認識の手法自体は本技術分野において周知であるため説明は省略する。

そのほかに、話者ごとにＩＤカードを発行しておき、参加時にカードリーダに読み取らせる方法や、キーボードから会議参加者を入力する方法、参加者の候補を表示デバイス上に示し選択させる方法などが考えられる。また会議中の発話の音響的な話者性から参加名を特定する方法や、顔画像から参加者名を特定する方法もある。

さらに、ユーザ管理部でシステムに登録していないユーザが会議に加わった場合には、ゲストアカウントで会議に参加する。また、この時に「ゲストです」といった発話を行ってもらい、当該音声から話者の声質を学習して、後段の話者識別部１０６で利用することも考えられる。

上記で同定された会議の参加者は、当該会議で録音される全ての音声の視聴権を与えられる。

実際に会議が始まると、システムは複数マイクロホンを持つ音声入力部１０１から逐次会議の音声を取り込み、音声データベース１０９へ保存する。それぞれのマイクロホンは直線や円周など既定の配置で設置されており、各マイクロホンからの入力は専用のＡ／Ｄボードを通して同期して話者方向検出部１０３へと渡される。話者方向検出部１０３では、上記の多チャンネルの音声から音源の方向を検出する。この場合、複数の話者が同時に発話する可能性もあり、そのような場合でも全ての音源方向を正確に検出できることが望ましい。

ここでマイクロホンの素子数をＭ＝２とし、それぞれのマイクロホンから得られる信号をｘ_i(τ)（ｉ＝１，２）と表す。まずそれぞれのｘ_i(τ)に対して短時間フーリエ変換を行い、この結果をＸ_i(ｆ，τ)とする。ここでｆは周波数、τは短時間フーリエ変換のフレームインデクスを表す。

得られた時間周波数ごとに、０番目のマイクロホン入力を基準とした位相差θを推定する。

音源方向γは以下の式によって導かれる。

ここでｒはマイクロホン１とマイクロホン２の距離、ｖは音速を表す。また音源方向はマイクロホン１と２の２等分直線方向を０(degree)とした時の角度で示されている。

上記を時間周波数帯ごとに求めたのち、音源方向を横軸にとったヒストグラムを作成してピークサーチを行うことにより、複数音源の定位を行うことができる。

上記にはマイクロホン素子数Ｍ＝２の時の例を示したが、マイクロホンの数が２より多い場合でも、上記アルゴリズムの拡張によって対処できる。また、上記の定位精度を向上した「戸上真人他：逐次的な位相差補正処理に基づく音源定位方式ＳＰＩＲＥの定位性能評価，２００７年春季音響学会，２００７」などの方法も利用できる。これらの詳細は、当業者であれば周知であるため、ここでは記述しない。

さらに音源分離部１０４では、上記で求めた方向情報を元に音声を音源ごとに分離する。これは、例えば最小分散ビームフォーマを用いることで実現することができる。なお、もちろんこの代わりに独立成分分析などその他の音源分離手法を用いることも可能である。

最小分散ビームフォーマでは、Ｘ_i(ｆ，τ)に対し、以下の式で求めた線形フィルタｗ(ｆ)を掛け合わせることにより、目的方向の音を強調し、それ以外の音を抑圧する。

ここで、ａ(ｆ)は目的音方向の空間伝達特性、Ｒ(ｆ)は空間相関行列を表す。
本処理のこれ以上の詳細は当業者であれば周知であるため、ここでは記述しない。
上記で示した音源分離処理により、複数人が同時に発話したような状況においても、発話ごとに分離された音声が得られる。以下の処理は、分離されたそれぞれの音声を音声セグメントとし、個々の音声セグメントに対して別個に行う。

まず話者音響特徴抽出部１０５が、分離されたそれぞれの音声セグメントＸに対して、話者性を現す話者音響特徴量を抽出する。ここで話者音響特徴量としては、ＭＦＣＣ（Mel Frequency Cestrum Coefficient）などが利用できる。この特徴量の詳細は、この分野の当業者には周知であるため説明を省略する。

次に、上記話者音響特徴量と、話者方向検出部で求めた話者方向及び参加者同定部から得られる参加者情報を元に話者識別部１０６が話者の判定を行う。この実施例ではＧＭＭ（Gaussian Mixture Model）を用いた話者識別を用いる。話者音響特徴量の列Ｘ＝｛Ｘ₁，…，Ｘ_n｝が与えられたとき、それが話者Ａである尤度は以下で表される。

ここでｍ_j，ｖ_j，λ_jはそれぞれ番目の正規分布の平均、分散と分布の混合重みであり、あらかじめユーザ情報保持部において保持されている話者Ａの音声から値を学習しておいたものである。

当該音声が話者Ａである音響的信頼度ＣＭ_AC(Ａ|Ｘ)を求めるためには、さらにBack-ground Modelと呼ばれる、一般的な音響情報を表現するＧＭＭの尤度Ｐ(Ｘ|ＧＭＭ_bg)を求め、話者尤度との比を計算する。

また上記に加えて、音声方向検出部で推定した話者方向に基づき、当該音声が話者Ａの発話である信頼度ＣＭ_DOA(Ａ|Ｘ)を算出することもできる。このためには、例えば話者Ａが特定の席に着席していることが多いという情報を確率Ｐ(Ｄ|Ａ)として表しておき、下記のように求めることが考えられる。

ここでＤは音声の到来方向を表す。
Ｐ(Ａ|Ｄ)の求め方としては、これまでの会議もしくは現在録音中の会議で得られた音声発話集合を元に下記で求めることなどが考えられる。

上記のＸの和は、これまでの会議もしくは現在録音中の会議で得られた音声セグメントの集合に関しての和とする。またａはＡの要素である個々のユーザとする。
上記で得られたＣＭ_AC(Ａ|Ｘ)とＣＭ_DOA(Ａ|Ｘ)から当該音声が話者Ａの発話である信頼度ＣＭ(Ａ|Ｘ)を求める。例えば、上記の線形和で

と表現することができる。この信頼度の値が大きいほど、当該音声セグメントが当該話者の発言である確率が高いと判断できる。

なお、上記では例として話者音響情報から得られる信頼度ＣＭ_AC(Ａ|Ｘ)と話者方向情報から得られる信頼度ＣＭ_DOA(Ａ|Ｘ)の２つのみを用いているが、そのほかにシステムが会議場や会議参加者を撮像するカメラなどの撮像手段を備えており、当該撮像手段から得られた画像を元に、話者の顔画像の特徴情報から当該発話の話者ごとの信頼度を求めて組み合わせることも可能である。同様に話者の顔画像と方向情報から、当該発話の話者ごとの信頼度を求めることも可能である。

修正権設定部１０７では、上記で得られた話者信頼度に基づき、各音声に話者ごとの修正権を付与していく。ここで、下記（１）〜（３）で異なる修正権付与を行う。
（１）話者信頼度が予め定めた閾値θ₁以上の話者が１名だけ存在する場合
当該話者に対する修正権を付与する
（２）話者信頼度が閾値θ₁以上の話者が複数存在する場合
当該話者全てに対する修正権譲渡証を付与する。
（３）話者信頼度が閾値θ₁以上の話者が存在しない場合
全ての参加者に対する修正権譲渡証を付与する。

ここで修正権とは、当該音声セグメントＸの内容を修正もしくは消去する権限である。また修正権譲渡証とは、修正権譲渡証を持つ全てのユーザの修正権譲渡証を受け取った時点で修正権を得ることができるものである。

なお、（１）と判定された話者がゲストアカウントだった場合には、当該会議の参加ユーザ全てに対する修正権譲渡証を付与する。もしくは、予め議長を定めておき、そのユーザに対する修正権を付与するように定めることもできる。

上記の処理の流れを図４に示した。音声セグメントが入力されると、当該音声がどの会議参加者の発言であるかを推定し、その信頼度を計算する。その後、上記（１）〜（３）のルールに従って、修正権もしくは修正権譲渡証を発行する。

最後にアクセス権情報登録部１０８が、上記の修正権・修正権譲渡証及び、会議参加者に与えられている視聴権を音声データベース１０９の中で保存する。またここでは、話者方向検出部１０３で求めた方向情報や、話者識別部１０６で求めた話者情報も併せて保存しておくこともできる。

これらの情報を音声データベース１０９に格納した例を図５に示す。ここで音声ファイルＩＤとは会議の録音ごとに固有に割り振られる識別子であり、音声セグメントＩＤとは音声セグメントごとに固有に割り振られる識別子である。また図５においては、「話者」という列において話者識別部１０６で得られた話者とその信頼度を保存している。また「方向」という列において、話者方向検出部１０３から得られた話者方向を保存している。これらの情報は後述の音声データ検索部１１１において利用することができる。

また上記に加えて、音声ファイルＩＤと会議名、参加者、録音日時、ファイルのストレージデバイス上での保管場所を示した図６のようなデータも併せて保存しておく。

次に、音声インデキシング部１１９では、音声セグメントＸそれぞれについて、音声データ検索部１１１が音声データをキーワードによって検索するためのデータベースを作成する。音声データベースの検索方法は既に様々な公知技術が存在するが、ここでは大語彙連続音声認識を用いた方法について説明する。

まず音声インデキシング部１１９では、話者識別された音声セグメントＸを大語彙連続音声認識器を用いて単語列へと変換する。単語列中の各単語には大語彙連続音声認識器から出力される信頼度が付与されている。なお、大語彙連続音声認識の技術については、この分野の当業者には公知であるため説明を省略する。

次に、得られた単語列から、ある単語がどの音声ファイルＩＤ／音声セグメントＩＤに出現するかを表現した索引データを作成する。この例を図７に示した。ここでは、ある単語に対応する｛音声ファイルＩＤ／音声セグメントＩＤ／音声認識から出力される信頼度｝の３つ組みを索引として作成する。例えば「製品」という単語は音声ファイルＩＤ００１２、音声セグメントＩＤ０００３において信頼度０．８で発話されており、また音声ファイルＩＤ００１０、音声セグメントＩＤ０００１において信頼度０．５で発話されているということが分かる。

これによりユーザは後述の音声データ検索部１１１においてキーワードを用いて、当該キーワードが発話された音声ファイルとそのセグメント位置を求めることが可能となる。

音声インデキシング部では、上記で作成した索引データを音声データベースに保存する。

なお、音声データベースをキーワードを用いて検索する方法として、上記のほかに大語彙連続音声認識器を用いて単語ラティスを作成する方法や、単語よりも細かいサブワードを単位としたサブワード音声認識器を用いた検索方法などが知られており、これらを代わりに利用することも可能である。またキーワードを検索する際に、複数のキーワードが入力された場合や、複合語が入力された場合の処理に関して対処することも可能である。当該技術については、この分野の当業者に公知であるため、説明を省略する。以上が、音声記録部００２における処理である。

次に、会議の参加者が録音した音声を検索・編集し、公開する録音修正・認証部００３における処理について述べる。

録音修正・認証部００３は、ユーザの認証を行うユーザ認証部１１７と、キーワードや話者などから音声データを検索することができる音声データ検索部１１１と、ユーザが修正権を持つ音声データのみ修正・削除できる音声修正部１１２と、ユーザが公開権を持つ音声のみ公開の認証を行うことができる音声公開認証部１１３を持つ。さらに修正権譲渡証を持つユーザが修正権譲渡の依頼を行う修正権譲渡依頼部１１４と、修正権譲渡依頼の承認を行う修正権譲渡承認部１１５を持つ。

まず、ユーザは会議録音の視聴・修正・公開承認を行うために、ユーザ認証部１１７においてユーザ固有の情報を入力する。ユーザ認証部１１７では上記入力された情報とユーザ情報保持部１１８に保存された情報から、システムを操作しているユーザを特定する。ここではユーザにパスワードを入力させることも可能であるし、指静脈認証などのより高度な認証技術を利用することもできる。またユーザ登録部１１６においてユーザごとにＩＤカードを発行しておき、それを認証に利用することも可能である。

ユーザがユーザ認証部を通してシステムにアクセスすると、図８のようなインタフェースのもと、音声の視聴、検索や、自身が参加した会議の公開承認・修正・修正権譲渡依頼・修正権譲渡承認を選択することができる。

ある会議において参加者同定部１１０で同定されたユーザには、当該会議中の音声全てに視聴権が付与されているため、その音声を視聴・検索することができる。この場合、図８の「会議を一覧から視聴」２０２をクリックすると、図９のように自身が視聴できる会議の一覧が表示され、内容を聞くことができる。このとき当該会議中の音声の視聴権が付与されていない会議は表示されず、視聴することができない。また会議に参加していたユーザは当該会議音声に自由に名前をつけることができる。この名前はユーザごとに個別に設定できるようにすることもできるし、会議参加者間で自動的に共有するようにすることもできる。

また図８の会議音声検索２０３では、会議名やキーワードを用いて会議の内容を検索することができる。図８のテキストボックス２０８へ検索したいキーワードを入力し、検索ボタン２０９を押下する。会議名もしくはキーワード検索の一方だけを利用したい場合には、利用したくない項目のチェックボックス２１０を解除すればよい。検索ボタンが押下されると音声データ検索部１１１が動作し、該当するファイルの一覧をユーザへ表示する。

ここでは会議名とキーワードによる検索を示したが、そのほかに話者による音声の検索や話者の方向に基づく検索などを行うことも可能である。さらに会議中の画像を蓄積していた場合には、ユーザ情報保持部１１８に保存されている顔画像に基づく検索なども可能である。

会議に参加していたユーザで、当該ユーザへ修正権及び修正譲渡権が付与された発言に関して、公開してもよいと判断した場合は、音声公開承認部１１３において当該ユーザの発話の公開承認を行う。この際に、例えば図１０のようなインタフェースを備えておき、個々の発話に対して公開承認を行うこともできるし、全ての発話を一括して公開承認できるとよい。個々の音声の公開承認を行いたい場合は、公開したい音声セグメントのみにチェックをしてから、「チェックした音声を公開承認」ボタンを押下する。全ての発話を一括して公開承認したい場合には、まず「全ての音声をチェック」にチェックすると、全ての音声セグメントがチェックされる。

あるユーザに修正権が付与されている発話は、当該ユーザが公開承認をした時点で、会議に参加していないユーザから視聴・検索できるようになる。複数のユーザに修正権譲渡証が付与されている発話は、修正権譲渡証を保持するユーザ全てが公開承認をした時点で、会議に参加していないユーザから視聴・検索できるようになる。

会議に参加していたユーザで、公開する際に編集が必要な発言があると判断したユーザは、まず図８の会議音声修正２０５をクリックし、音声修正部１１２を起動する。音声修正部１１２は、図８と同様の検索インタフェースを備えており、キーワードによる音声の検索や、会議名による検索を行うこともできる。

編集したい音声セグメントを発見した後のユーザの行動は、当該ユーザが当該音声セグメントのどのアクセス権を保持しているかによって変化する。当該音声セグメントの修正権をユーザが保持していた場合には、その音声の削除や不要部分にマスキングをほどこすなどの操作を行う。

ここで音声修正部１１２は、例えば図１１のようなインタフェースを備えており、マウスのドラッグによって修正したい区間の開始点と終了点を指定する。また、キーワードを入力することによって当該音声中のキーワード部分のみを切り出すこともできる。テキストボックス３０１にキーワードを入力すると、当該キーワード区間の開始点と終了点が設定される。当該技術はワードスポッティングと呼ばれ、この分野の当業者には周知の技術であるため、ここでは詳細は述べない。

上記で指定した区間に対して、「指定区間をマスキング」をクリックすると、指定した区間がホワイトノイズやビープ音と差し替えられる。また指定区間を消去すると、指定した区間が消去される。

なお、ここで修正した結果はユーザが会議音声を視聴するときに反映されが、実際の音声データベース自体は修正されないようにすることができる。この場合、システムの管理者権限によって、音声波形をもとに戻すなどの操作を行うことも可能である。

以上が、当該音声セグメントの修正権をユーザが保持していた場合の処理である。ユーザが編集したい音声の修正権を持っていない場合には、そのままでは当該音声を修正することができない。この場合、ユーザは図８の修正権譲渡依頼２０６をクリックし、修正権譲渡依頼部１１４を起動する。

修正権譲渡依頼部１１４は図１２のようなインタフェースを持ち、当該音声セグメントの修正権譲渡依頼を、当該音声の修正権譲渡証を保持する全てのユーザへ通知する。この際に例えばメールシステムと本システムが連携し、修正権譲渡依頼の通知が出された参加者にはメールで通知されるなどしてもよい。また修正権譲渡依頼に、ユーザＡのメッセージを付与しておいてもよい。

修正権譲渡依頼の通知を受け取ったユーザは、ユーザ承認部１１７からシステムへアクセスした後、図８の修正権譲渡承認２０７をクリックし、修正権譲渡承認部１１５を起動する。修正権譲渡承認部１１５は図１３のようなインタフェースを持ち、依頼ユーザ名と依頼された当該音声の聴取と依頼者からのメッセージを確認できる。また必要であれば、当該音声前後の文脈を確認できるように、指定した区間の視聴ができる図１３のようなインタフェースを備えているとよい。

当該音声を聴取し、当該音声の修正権を依頼ユーザに与えてもよいと判断したら、「音声の修正権譲渡承認」ボタンをクリックすることにより、当該音声の修正権譲渡証を依頼ユーザへ発行する。

修正権譲渡証を持つ全てのユーザがユーザＡへ修正権譲渡証を発行した時点で、修正権譲渡承認部１１５がユーザＡに当該音声の修正権を付与する。これによりユーザＡは当該音声を修正・削除などすることができる。

以上が、会議音声を視聴・検索・修正・公開する枠組みである。本枠組みでは、当該音声を発話したかどうかが定かでない数名の会議参加者のみがユーザＡからの修正権譲渡証発行依頼に対応すればよく、その他の大多数のユーザは、当該処理に関与しなくてすむために、全体としてユーザの手間を大幅に削減できる。また発話ごとに発言の修正権やアクセス権が管理されているため、仮に利害関係の異なるユーザどうしが話しあった後にお互いの音声を不適切に修正する心配を避けられ、より自由な論議を行うことが可能となる。

なお、上述の例では、修正権を持つユーザが当該発話の公開を承認した時点で、他のユーザが当該音声を聴取できるようになるが、これとは異なり、当該会議に参加していた全てのユーザが全ての音声の公開承認した時点で、当該音声を公開することも可能である。

上記のシステムのハードウェア構成について図１４に示す。システムは、ＣＰＵとメモリからなる計算機を備え、計算機には音声入力装置、データ蓄積装置、キーボード、表示装置を備えている。図１に示した機能部１０１〜１１９は、全て計算機のメモリの中に格納されている。また、画像入力も受け付ける場合には、画像入力装置も計算機に接続する。

また本システムをＴＶ会議システムと組み合わせたときのハードウェア構成を図１５に示した。ここでは音声入力装置と画像入力装置が複数の拠点に分散しており、ネットワークを介して計算機に接続されている点が図１４と大きく異なる。

本発明によるシステムの構成例を示す機能ブロック図。ユーザ管理部における処理を示すフローチャート。音声記録部における処理を示すフローチャート。アクセス権設定の処理手順を示すフローチャート。音声ファイル及び音声セグメント情報の格納例を示す図。音声ファイル情報の格納例を示す図。音声インデキシング部によって作成される索引データの例を示す図。ユーザ認証後のユーザ画面例を示す図。会議音声の一覧表示例を示す図。公開承認のインタフェースを示す図。音声修正部のインタフェースを示す図。修正権譲渡依頼部のインタフェースを示す図。修正権譲渡承認部のインタフェースを示す図。システムのハードウェア構成例を示す図。ＴＶ会議システムと組み合わせた場合のハードウェア構成例を示す図。

符号の説明

００１：ユーザ管理部
００２：音声記録部
００３：録音修正・認証部

Claims

音声を録音する音声録音部と、
入力された音声から話者を特定する話者識別部と、
前記話者識別部による話者識別の信頼度に応じて前記入力された音声の発話ごとに異なる種類の修正権を参加者に対して付与する修正権設定部と、
ユーザの認証を行うユーザ認証部と、
前記修正権設定部で修正権を付与されたユーザが当該修正権を付与された発話を修正できる音声修正部と
を有することを特徴とする会議音声録音システム。
請求項１に記載の会議音声録音システムにおいて、前記修正権設定部は、発話を話者識別した結果の信頼度が予め定めた閾値より高い話者が１名だけの場合には当該話者へ当該発話の修正権を付与し、話者識別の信頼度が前記閾値より高い話者が複数いた場合にはそれら複数の話者へ当該発話の修正権譲渡証を発行することを特徴とする会議音声録音システム。
請求項１に記載の会議音声録音システムにおいて、前記修正権設定部は、ある発話を話者識別した結果の信頼度が予め定めた閾値より高い話者が存在しなかった場合には、全ての話者へ修正権譲渡証を発行することを特徴とする会議音声録音システム。
請求項２又は３に記載の会議音声録音システムにおいて、修正権譲渡証を持つ全てのユーザから修正権譲渡証を発行されたユーザに当該発話の修正権が付与されることを特徴とする会議音声録音システム。
請求項１に記載の会議音声録音システムにおいて、参加者がキーワードや話者名によって音声を検索することが可能な音声検索部を備えていることを特徴とする会議音声録音システム。
請求項１に記載の会議音声録音システムにおいて、会議の参加者を同定するための参加者同定部を有することを特徴とする会議音声録音システム。
請求項６に記載の会議音声録音システムにおいて、前記参加者同定部は、会議中に発話された音声を認識した結果に基づき参加者を同定することを特徴とする会議音声録音システム。
請求項１に記載の会議音声録音システムにおいて、会議場を撮像する撮像部と話者方向検出部のいずれかもしくは両方を備え、前記話者識別部は、前記話者方向検出部から出力される話者方向検出結果と話者性を表す音響特徴量と前記撮像部によって撮像された画像から得られる話者性を表す画像特徴量のいずれかもしくはその組み合わせから話者識別を行うことを特徴とする会議音声録音システム。
請求項８に記載の会議音声録音システムにおいて、音声入力部として複数のマイクロホンを用いることを特徴とする会議音声録音システム。