JP2010054991A

JP2010054991A - 録音装置

Info

Publication number: JP2010054991A
Application number: JP2008222067A
Authority: JP
Inventors: Noriyuki Hata; 紀行畑; Eiko Kobayashi; 詠子小林
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2008-08-29
Filing date: 2008-08-29
Publication date: 2010-03-11
Also published as: WO2010024426A1

Abstract

【課題】出席者の発言区間や非発言区間を区分して表示するとともに、各区間の雰囲気を一覧表示することができる録音装置を提供する。
【解決手段】録音端末１では、収音部１０が収音した音声を、解析部１１が会議出席者の発言ごとの区間に区分するとともに、各区間の情況を解析する。再生端末２では、各発言者の発言区間および非発言区間をタイムチャート形式で表示するとともに、各区間の情況を示すマークを表示し、そのマークに基づいて区間を選択して個別に再生できるようにする。
【選択図】図２

Description

この発明は、会議等の音声を録音し、所望の位置から再生する録音装置に関する。

従来より会議を録音する装置が提案されている。たとえば、特許文献１には、会議の音声を録音するだけでなく、録音した音声データを発言者ごとの区間に区切ってタイムチャート形式で一覧表示することにより、どの区間が誰の発言であるかが一見して判るようにされたものが一覧表示できるものが提案されている。

特開２００７−２５６４９８号公報

上記特許文献１の装置では、だれがいつ発言したかを一覧表示することができるが、それぞれの発言がどのような雰囲気であったか、また、どのような情況で発言されたものであったかを知ることはできず、録音を聴いてみなければわからなかった。

また、会議においては、出席者が発言していない時間帯が存在し、このような時間帯は、録音データにおいては無音区間等の非発言区間となる。従来、会議の録音において、無音区間等の非発言区間は議事録として意味のない区間であるとしてデータを削除されていたが、会議の雰囲気等を計り知るためにはこのような非発言区間も情況としての意味を持つ場合がある。しかし、非発言区間がどのような雰囲気の時間帯であったかも録音を聴いてみないとわからなかった。

この発明は、出席者の発言区間や非発言区間を区分して表示するとともに、各区間の雰囲気を一覧表示することができる録音装置を提供することを目的とする。

請求項１の発明である録音装置は、音声データを記憶する音声データ記憶部と、該音声データを音声の発生源に基づいて複数の区間に区分する区間情報を記憶する区間情報記憶部と、各区間の音声の情況を分析した情況データを記憶する情況データ記憶部と、各区間の時間的範囲を時間軸に沿って帯状に表示するとともに、各区間の情況を示す図形を前記帯に重ねて表示する表示部と、を備えたことを特徴とする。

この発明では、音声データを音声の発生源に基づいて複数の区間に区分する。会議の場合、複数の出席者の各々が音声の発生源となる。なお、特定の発生源が発生した音声が存在しない時間帯（たとえば無音区間、不特定の音声が発生している区間等）も区間として分割される。これにより、どの音声区間が誰の発言かを区分することができる。さらに、この発明では、各区間の音声の情況を分析結果を記憶する。音声の情況とは、明るい声、怒った声等の音声やその場の雰囲気である。そして、各区間とその雰囲気を表示する。これにより利用者は、一見して区間の分布とその雰囲気を知ることができる。

請求項２の発明は、請求項１の発明において、前記音声データの波形データに基づき各区間の情況を解析し、解析した各区間の情況を前記情況データ記憶部に書き込む情況解析部を備えたことを特徴とする。

請求項３の発明は、請求項２の発明において、前記情況解析部は、無音の区間の情況を直前の有音区間の情況に基づいて解析することを特徴とする。

請求項４の発明は、請求項２、３の発明において、前記音声データをストリーム入力して前記音声データ記憶部に書き込む音声データ入力部を備え、前記情況解析部は、ストリーム入力される音声データの情況をリアルタイムに解析することを特徴とする。

請求項５の発明は、請求項１〜４の発明において、区間の選択操作、および、選択された区間の情況データの入力操作を受け付け、入力された情況データを前記選択された区間の情況データとして前記情況データ記憶部に書き込む情況データ入力手段をさらに備えたことを特徴とする。

請求項２〜４の発明では、情況データ記憶部に記憶される情況データを音声データに基づき分析する情況解析部を設けた。情況解析部は、バッチ処理で情況を解析しても請求項４に示すようにリアルタイムで情況を解析してもよい。また、無音区間の情況はその前後の有音区間の情況に基づいて解析してもよい。一方、請求項５の発明では、情況データ記憶部に記憶される情況データを操作者がマニュアル入力するための情況データ入力手段を設けた。これにより、操作者が録音された音声データを聴きながら情況データを入力することができる。

請求項６の発明は、請求項１〜５の発明において、前記音声データ記憶部は、会議における複数の出席者の発言を収音した音声データを記憶し、前記区間情報記憶部は、前記音声データを各出席者の発言の区間および発言でない区間ごとに区分する区間情報を記憶することを特徴とする。

請求項７の発明は、請求項６の発明において、前記区間情報記憶部は、笑い声、拍手、物音または無音の区間を前記発言でない区間として記憶することを特徴とする。

本発明の録音装置は、会議の録音に適用するのが好適であり、その場合、各出席者の発言ごとに区間が分割されるとともに、発言でない時間帯（たとえば笑い声、拍手、物音、無音）も発言でない区間（非発言区間）として区間に分割し、情況が解析される。

請求項８の発明は、請求項１〜７の発明において、前記表示部上で、前記区間を指定する操作を受け付ける操作部と、前記操作部で指定された区間の音声データを再生する再生部と、を備えたことを特徴とする。

請求項１に示すように、各区間は音声の発生源、時間帯を示す帯状の形状に表示されるため、この表示エリアをマウスでクリックする等の操作で指定することにより、容易に所望の区間の再生が可能になる。

この発明によれば、音声データを会議の発言者等の音声の発生源に基づいて複数の区間に区分し、その音声の情況を示す図形を表示することにより、発言者等の音声の発生源の分布を一覧で知ることができるとともに、各区間の情況を一見して知ることができる。

図１はこの発明の実施形態である議事記録システムの構成図、図２は、同議事記録システムのブロック図である。この実施形態において、議事記録システムは、録音端末１、再生端末２および記録メディア３で構成されている。

図１において、録音端末１は会議が行われる部屋に設置され、各出席者の発言を収音して記録メディア３に音声データとして記録する。記録時に音声データを各出席者の発言単位の区間に区切り、各区間の情況を解析したデータを収音した音声データとともに記録する。このため、録音端末１は、図２に示すように、収音部１０、解析部１１、記録部１２を備えている。

収音部１０は、図１に示すように複数の出席者（出席者Ａ〜Ｇ）の音声を収音し、デジタル音声信号に変換して解析部１１および記録部１２に入力する。収音部１０は、必要数のマイクを備えている。マイクは、マイクアレイ、各出席者に個別に向けられた複数の単一指向性マイク、全話者の音声を一括して収音する１または複数の単一指向性または無指向性マイクのいずれであってもよい。マイクアレイを用いる場合、狭指向性の収音ビームを複数形成して各出席者の音声を別々に収音してもよく、広角の指向特性を持つ収音特性を持たせて複数の出席者の音声を一括して収音するようにしてもよい。なお、収音ビームを形成して各出席者の音声を個別に収音する方式については、本出願人の特開２００７−２５６４９８号公報に詳細に記載されている。

解析部１１は、収音部から入力されたデジタル音声信号をリアルタイムに解析して、各出席者の発言の区切りを検出することにより、各出席者の発言区間、および、特定の出席者の発言区間でない非発言区間を割り出す。さらに、各発言区間については、どの出席者の発言であるかの発言者を特定し、非発言区間については、その区間が無音区間、笑い区間、拍手区間、物音区間のいずれであるかの非発言音声を特定する。

ここで、各出席者の発言は、音声波形を認識することによって識別することができる。また、各出席者に個別にマイクが設けられている場合、マイクアレイを用いて各出席者に個別に収音ビームが向けられている場合には、どのマイク、収音ビームで収音されたかによって発言者を識別することができる。

また、笑い区間とは、不特定の出席者の笑い声が収音された区間である。拍手区間とは、不特定の出席者の拍手が収音された区間である。また、物音区間とは、出席者の発言・笑い声・拍手以外の物音（たとえば書類を配布するときの紙の擦れる音など）が収音された区間である。また、無音区間とは、発言者が沈黙し、他の物音も聴こえない区間である。

上記の解析部１１による処理結果の例を図４に示す。この図では、各発言者、各非発音音声が縦軸に、会議の経過時間が横軸に割り当てられ、各発言者の発言区間、各非発言音声の非発言区間がその区間時間の長さの帯状に表示されている。

さらに、解析部１１は、各発言区間、非発言区間の情況を解析し、解析結果を情況データとして出力する。ここで、情況とは、たとえば、発言者の語調等から割り出される発言区間の雰囲気、前後の発言から推測される非発言区間の雰囲気等である。発言区間の場合、解析の結果「怒っている」、「楽しい」、「無感情」等の雰囲気に分類され、この雰囲気を示す情況データが割り当てられる。また、非発言区間であっても、前後の発言区間との関係で、その場の雰囲気を表す時間として意味を持つものがある。たとえば、無音区間の場合、「話題が無くなってしまった沈黙」、「怒ったあとの沈黙」、「考え込んでいる沈黙」等である。解析部１１は、前後の発言区間の雰囲気（情況データ）を参照して非発言区間の雰囲気（情況データ）を解析する。

このため、解析部１１は、情況を解析するための解析エンジン、知識ベースを備えている。なお、この情況の解析は、たとえば、特開２００２−９１４８２号公報等に記載の技術を適用して実現することができる。この技術では、発言に含まれる感情を強度、テンポ、抑揚等に基づいて解析している。

また、解析部１１は、情況を解析できなかった区間については、解析データに代えて解析不可であった旨を示す解析不可データを付加する。解析不可の区間は、図５に示す発言一覧表示において「？」のマークが表示されるが、再生端末２の操作者がマニュアル操作で情況データ（マーク）を入力することができる。

記録部１２は、記憶メディア３のスロットを有し、このスロットにセットされている記録メディア３に、図３に示す議事録データを記録する。議事録データは、会議中に録音したデジタル音声信号列である音声データ、各発言区間・非発言区間を区分するとともに発言者・非発言音声を特定するデータである区間データ、各発言区間・非発言区間の情況を解析したデータである情況データからなる。なお、記憶メディア３としては、たとえばＳＤカードなどの半導体メディアが用いられる。

一方、再生端末２は、録音端末１で議事録データが記録された記憶メディア３を読み込んで、再生・編集するための装置であり、たとえばノートパソコンにプログラムを実行させて実現される。再生端末２は、記憶メディア３に記録されている議事録データに基づき、図５に示すような発言一覧を表示する。そして、ユーザの指定した区間を再生するとともに、ユーザが聴いた結果、その発言の雰囲気が情況データと異なると判断された場合に、情況データの訂正を受け付ける。このため、再生端末２は、図２に示すように、記憶管理部２０、表示部２１、再生部２２および操作部２３を機能的に備えている。

記憶管理部２０はノートパソコンのメディアスロットを含み、スロットに挿入されたＳＤカードの読み出しや書き込みを実行する。また、表示部２１は、ノートパソコンのディスプレイを含み、記録管理部２０に表示されているマークデータ、情況データを、図５に示すようなグラフ状に時系列に表示する。なお、表示部２１は各情況データに対応するマーク画像を記憶する画像メモリを含んでいる。再生部２２は、ノートパソコンのオーディオ回路・スピーカ等を含み、指定された区間の音声データを読み出して再生し、音響として放音する。

操作部２３は、ノートパソコンのキーボードやマウスを含み、発言一覧（図５）の表示、発言区間・非発言区間の指定、音声データの再生／停止、発言区間・非発言区間の情況データの訂正などの操作を受け付ける。

図３は、議事録データの例を示す図である。議事録データは、会議中に録音したデジタル音声信号列である音声データ、各発言区間・非発言区間を区分するとともに発言者・非発言音声を特定するデータである区間データ、各発言区間・非発言区間の情況を解析したデータである情況データからなる。音声データトラックには、音声データがタイムコードを付されて時系列に書き込まれており、区間データトラックには、区間の開始タイミング、終了タイミングの時刻（タイムコード）およびその区間の発言者または非発言音声からなる区間データが、各区間ごとに時系列に書き込まれる。情況データトラックには、各発言区間・非発言区間の情況解析結果である情況データが各区間に対応づけて書き込まれる。

図５は、再生装置２のディスプレイに表示される発言一覧の画面を示す図である。この表示は、発言者および非発言音声を縦軸に、経過時間を横軸に配し、各発言者、非発言音声の区間をその占有時間の長さの帯状に表示するとともに、各区間の情況データに対応するマークをその区間の帯状エリアの上に表示したものである。たとえば、発言区間３１の表示は、出席者１（キャラ１）が、会議開始００時００分００秒から５０秒発言したこと、および、その発言情況はおおむね明るい口調であった旨を表示している。ここで、発言区間のマークは、晴れマーク＝明るい口調、雨マーク＝暗い口調、曇りマーク＝やや暗い口調、雷マーク＝怒った口調の情況データに対応している。発言区間３１のように１つの発言区間中で口調が変化したとき（情況データが変化したとき）には、発言区間内に複数のマークが付される場合もある。

また、無音区間３３のマークは、重い沈黙を表すマークである。この情況は、たとえば、その直前の区間３２で話者４が怒ったことに対応して会議の出席者全員が沈黙してしまったことによって発生した無音区間であると考えられるため、重い沈黙の情況データ（マーク）が割り当てられる。

また、笑い区間３５、３６および拍手区間３７には音符のマークが割り当てられる。これら笑い区間・拍手区間の情況データはその笑い・拍手の大きさを示しており、発言一覧の表示においては、音符の大きさで笑い・拍手の大きさが表現される。

図６は、再生装置２の再生動作を示すフローチャートである。この再生動作では、操作者の操作に応じて音声データを再生するとともに、操作者の操作に応じて各区間に割り当てられているマーク（情況データ）を修正する。

再生動作がスタートすると、まず図５に示す発言一覧をディスプレイに表示する（Ｓ１）。そして指定操作、再生操作、再生停止操作、マーク変更操作、終了操作があるまで待機ルーチン（Ｓ２〜Ｓ６）で待機する。

ここで、指定操作（Ｓ２）とは、ディスプレイに表示されている発言一覧（図５参照）のなかから、１つの区間を指定する操作である。この指定操作は、操作者がマウスで所望の区間の表示エリアをクリックすることで行われる。また、再生操作（Ｓ３）／再生停止操作（Ｓ４）は、音声データの再生の開始／停止を指示する操作であり、ディスプレイに表示される開始ボタン／停止ボタンのマウスクリック、または、キーボードの特定操作（たとえばＣｔｒｌ＋ａ／Ｃｔｒｌ＋ｚなど）によって行われる。また、マーク変更操作
（Ｓ５）は、指定された（選択状態の）区間に割り当てられている情況データ（マーク）を変更する操作であり、ディスプレイに表示されるマーク変更ボタンのマウスクリックまたはキーボードの特定操作（たとえばＣｔｒｌ＋ｘなど）の操作によってディスプレイにマーク一覧をウィンドウを表示させ、そのウィンドウ内の所望のマークをマウスクリックすることによって行われる。また、終了操作（Ｓ６）は、この再生動作の終了を指示する操作であり、発言一覧ウィンドウのクローズボタン「×」のマウスクリックまたはキーボードの特定操作（たとえばＣｔｒｌ＋ｑなど）によって行われる。

指定操作が行われると（Ｓ２：Ｙ）
、その指定された区間を選択状態とする（Ｓ１０）。選択状態とは、再生操作やマーク変更操作が行われたとき、その処理を行う対象となる区間として選択されている状態をいう。このときディスプレイのその区間の表示色を反転させる等、指定された区間が操作者に判るように表示形態を変更する。そして、現在Ｓ３の操作で音声データを再生中であるかを判定する（Ｓ１１）。音声データを再生中であれば（Ｓ１１：Ｙ）、指定された区間に再生位置をジャンプさせる（Ｓ１２）。再生中でないときは、そのまま待機ルーチンにもどる。

再生操作が行われると（Ｓ３：Ｙ）、選択状態の区間があるかを判断する（Ｓ１３）、選択状態の区間が存在すれば（Ｓ１３：Ｙ）、その区間から再生をスタートする（Ｓ１４）。選択状態の区間が存在しない場合には（Ｓ１３：Ｎ）、音声データの先頭から再生をスタートさせる（Ｓ１５）。なお、音声データの再生中は、その時点の再生位置が属する区間を選択状態とし、再生位置が進行してゆくのに伴って選択状態の区間も進行させてゆく。

再生停止操作があった場合には（Ｓ４：Ｙ）、再生操作（Ｓ３）により、現在再生中であるか否かを判断する（Ｓ２０）。再生中の場合には（Ｓ２０：Ｙ）、再生を停止して（Ｓ２１）待機ルーチンにもどる。なお、このとき、再生を停止した時点での再生位置が属する区間を選択状態にしておく。一方、再生中でなければ（Ｓ２０：Ｎ）何もしないで待機ルーチンへもどる。

マーク変更操作（Ｓ５）があると、現在選択状態の区間があるかを判断する（Ｓ２２）、選択状態の区間がない場合には（Ｓ２２：Ｎ）何もしないで待機ルーチンにもどる。一方、選択状態の区間が存在する場合には（Ｓ２２：Ｙ）、操作にしたがって選択状態の区間の情況データを書き換える（Ｓ２３）とともに、ディスプレイに表示されている発言一覧（図５参照）中の対応する区間のマークを書き換える（Ｓ２４）。

また、終了操作が行われた場合（Ｓ６）には、再生の停止・ディスプレイの消去等の終了処理を行ったのち（Ｓ２５）、動作を終了する。

なお、再生部２２に複数の効果音を記憶しておき、再生する区間の情況データに応じた効果音を音声データとともに再生するようにしてもよい。

なお、この実施形態では、録音端末１に解析部１１を設け、収音されたデジタル音声信号の情況（雰囲気）をリアルタイムに解析しているが、情況の解析は録音後にバッチ処理で行ってもよい。この場合、解析部を再生端末２側に設けてもよい。

また、この実施形態では、本発明の録音装置を録音端末１、再生端末２および記憶メディア３からなる議事記録システムで構成しているが、これらを一体に構成した録音装置としてもよい。

上記実施形態では、録音装置を会議に適用する例を示しているが、本発明の録音装置は会議以外にも適用することができる。たとえば、屋外録音に適用することも可能である。また、野鳥の鳴き声の録音に適用することも可能であり、鳥の種類ごとに区間を分割すれば利用者が所望の鳴き声を自由に再生することができる。

この発明の実施形態である議事記録システムの構成図である。同議事記録システムの機能を示すブロック図である。同議事記録システムで記録される議事録データの例を示す図である。議事録データの区間分割例を示す図である。同議事記録システムの発言一覧の表示例を示す図である。同議事記録システムの再生装置の動作を示すフローチャートである。

符号の説明

１…録音端末
２…再生端末
３…記録メディア
１１…解析部

Claims

音声データを記憶する音声データ記憶部と、
該音声データを音声の発生源に基づいて複数の区間に区分する区間情報を記憶する区間情報記憶部と、
各区間の音声の情況を分析した情況データを記憶する情況データ記憶部と、
各区間の時間的範囲を時間軸に沿って帯状に表示するとともに、各区間の情況を示す図形を前記帯に重ねて表示する表示部と、
を備えた録音装置。
前記音声データの波形データに基づき各区間の情況を解析し、解析した各区間の情況を前記情況データ記憶部に書き込む情況解析部を備えた請求項１に記載の録音装置。
前記情況解析部は、無音の区間の情況を直前の有音区間の情況に基づいて解析する請求項２に記載の録音装置。
前記音声データをストリーム入力して前記音声データ記憶部に書き込む音声データ入力部を備え、
前記情況解析部は、ストリーム入力される音声データの情況をリアルタイムに解析する請求項２または請求項３に記載の録音装置。
区間の選択操作、および、選択された区間の情況データの入力操作を受け付け、入力された情況データを前記選択された区間の情況データとして前記情況データ記憶部に書き込む情況データ入力手段をさらに備えた請求項１乃至請求項４のいずれかに記載の録音装置。
前記音声データ記憶部は、会議における複数の出席者の発言を収音した音声データを記憶し、
前記区間情報記憶部は、前記音声データを各出席者の発言の区間および発言でない区間ごとに区分する区間情報を記憶する
請求項１乃至請求項５のいずれかに記載の録音装置。
前記区間情報記憶部は、笑い声、拍手、物音または無音の区間を前記発言でない区間として記憶する請求項６に記載の録音装置。
前記表示部上で、前記区間を指定する操作を受け付ける操作部と、
前記操作部で指定された区間の音声データを再生する再生部と、
を備えた請求項１乃至請求項７のいずれかに記載の録音装置。