JP4082611B2

JP4082611B2 - 音声収録システム、音声処理方法およびプログラム

Info

Publication number: JP4082611B2
Application number: JP2004156571A
Authority: JP
Inventors: 雅史西村; 哲也滝口; 治市川
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2004-05-26
Filing date: 2004-05-26
Publication date: 2008-04-30
Anticipated expiration: 2024-05-26
Also published as: US20050267762A1; JP2005338402A; US7599836B2

Description

本発明は、複数の話者による音声を収録し、収録された音声から話者を特定する方法およびシステムに関する。

音声認識技術の進歩と精度向上に伴って、その適用分野は大きく広がりつつあり、ディクテーション（口述筆記）によるビジネス文書の作成、医療所見、法律文書の作成、テレビ放送の字幕作成などに利用され始めている。また、裁判や会議等において、その進行を録音しておき、テキストに書き起こすことによって調書や議事録を作成するために、音声認識を用いたテキスト化技術を導入することが考えられている。

このような音声認識技術が用いられる場面において、単に収録された音声を認識するだけでなく、複数話者が発した音声から個々の音声の話者を特定することが必要となる場合がある。従来、この話者特定のための手法としては、マイクロフォンアレイ等によって得られる指向特性を用いて音声が到来する方向に基づき話者を特定する技術（例えば、特許文献１参照）や、話者ごとに個別に収録された音声をデータ化して話者を特定するための識別情報を付加する技術（例えば、特許文献２参照）等、種々の手法が提案されている。

特開２００３−１１４６９９号公報特開平１０−２１５３３１号公報

上述したように、音声認識技術においては、収録された複数話者による音声から個々の音声の話者を特定することが必要となる場合があり、従来から種々の手法が提案されている。しかし、マイクロフォンアレイ等の指向性マイクロフォンを用いて話者を特定する手法では、複数話者がマイクロフォンから見て同じ様な方向に存在する場合等、音声の収録環境その他の条件によっては十分な精度を得られなかった。

また、話者ごとに個別に音声を収録する手法は、話者ごとに録音装置を用意しなければならず、システム規模が大きくなるため、コストやシステム導入および装置保守の際の手間が増大する。

ところで、裁判や会議における発話には、次のような特徴がある。
・質疑応答が対話の大部分を占め、質問者と回答者が逐次入れ替わることはない。
・やじなどの突発的なものを除けば、同時に発話するのは一人であり、音声が重なることが稀である。
・質問者の順序が決まっており、複数の相手に同時に質問することはほとんどない。そのため、同一トピックに関する回答が音声データの様々な部分に散在することが多い。
このような特殊な収録環境では、複数話者による音声から個々の音声の話者を特定するために、以上のような収録環境の特徴を利用することが考えられる。

そこで本発明は、簡単な装置構成で、収録された複数話者による音声から個々の音声の話者を特定する方法およびこの方法を用いたシステムを提供することを目的とする。
また本発明は、特に、裁判や会議といった特殊な状況で収録される音声に対して、その収録環境の特徴を利用して、個々の音声の話者を特定する方法およびこの方法を用いたシステムを提供することを目的とする。

上記の目的を達成するため、本発明は、次のように構成された音声収録システムとして実現される。すなわち、このシステムは、話者ごとに設けられたマイクロフォンと、このマイクロフォンごとに収録された２チャンネルの音声信号に対して、それぞれ異なる音声処理を行って固有の特性を付与し、かつチャンネルごとにミキシングする音声処理部と、この音声処理部の処理によってマイクロフォンごとの音声信号に付与された固有の特性に応じた解析を行い、音声信号の発話区間ごとに話者を特定する解析部とを備えることを特徴とする。

より詳細には、この音声処理部は、収録された２チャンネルの音声信号のうち、一方のチャンネルの音声信号における音声波形の極性を反転し、あるいは収録された２チャンネルの音声信号における信号パワーを各々異なる値で増加または減少させ、あるいは収録された２チャンネルの音声信号のうち、一方のチャンネルの音声信号を遅延させる。
そして、解析部は、それぞれミキシングされた２つのチャンネルの音声信号の和または差を取ることで、あるいはそれぞれミキシングされた２つのチャンネルの音声信号の遅延によるずれを補正した後に音声信号の和または差を取ることで、この音声信号の話者を特定する。

また、このシステムは、音声処理部により音声処理を施された音声信号を所定の記録媒体に録音する録音部をさらに備える構成とすることができる。この場合、解析部は、録音部により録音された音声を再生して上記のように解析し、話者を特定する。

また、上記の目的を達成する他の本発明は、次のような音声収録システムとしても実現される。すなわち、このシステムは、４人の話者に対応させたマイクロフォンと、このマイクロフォンにより収録された４つの２チャンネルの音声信号のうち、１つの音声信号に対しては何ら加工を行わず、他の１つの音声信号に対しては２チャンネルの一方の音声信号を極性反転し、さらに他の１つの音声信号に対しては２チャンネルの一方の音声信号を消去し、さらに他の１つの音声信号に対しては２チャンネルの他方の音声信号を消去し、かつこれらの音声信号をチャンネルごとにミキシングする音声処理部と、この音声処理部によって処理された２チャンネルの音声信号を録音する録音部とを備えることを特徴とする。

さらにこのシステムは、録音部により録音された音声を再生し、再生された２チャンネルの音声信号に対して、下記（１）〜（４）の解析を行う解析部を備える構成とすることもできる。
（１）２チャンネルの音声信号を足し合わせて取得される音声信号を第１の話者の発話とする。
（２）２チャンネルの音声信号の一方から他方を差し引いて取得される音声信号を第２の話者の発話とする。
（３）２チャンネルの音声信号の一方からのみ取得される音声信号を第３の話者の発話とする。
（４）２チャンネルの音声信号の他方からのみ取得される音声信号を第４の話者の発話とする。

また、本発明は、次のような録音装置としても実現される。すなわち、この装置は、話者ごとに設けられたマイクロフォンと、このマイクロフォンごとに収録された２チャンネルの音声信号に対して、それぞれ異なる音声処理を行う音声処理部と、この音声処理部により音声処理を施された音声信号を所定の記録媒体に録音する録音部とを備えることを特徴とする。

さらに本発明は、次のような音声解析装置としても実現される。すなわち、この装置は、所定のメディアに２チャンネルで録音された音声を再生する音声再生手段と、この音声再生手段により再生された２チャンネルの音声信号の和または差を取ることで、音声信号の話者を特定する解析手段とを備えることを特徴とする。

また、上記の目的を達成するさらに他の本発明は、次のような音声収録方法としても実現される。すなわち、この方法は、話者ごとに設けられたマイクロフォンで音声を入力する第１のステップと、マイクロフォンごとに収録された音声信号に対して、それぞれ異なる音声処理を行い、固有の特性を付与する第２のステップと、音声処理によってマイクロフォンごとの音声信号に付与された固有の特性に応じた解析を行い、音声信号の発話区間ごとに話者を特定する第３のステップとを含むことを特徴とする。

さらに本発明は、コンピュータを制御して上述したシステム、録音装置あるいは音声解析装置の各機能を実現するプログラム、またはコンピュータに上記の音声収録方法の各ステップに対応する処理を実行させるプログラムとしても実現される。このプログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記録媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供される。

以上のように構成された本発明によれば、収録された音声信号にそれぞれ異なる音声処理を施すことにより、各音声信号に固有の特性を与え、再生時に音声信号に施された音声処理に対応した解析を行うことで、再生時に個々の音声の話者を確実に識別することができる。しかも、音声信号自体は一般的な２チャンネル（ステレオ）録音が可能な録音機器にて録音保存することができるので、本発明は、比較的簡単な装置構成で実現される。
また、話者の数が限定され、原則として複数話者が同時に発話することがないような特殊な収録環境では、話者の数に応じてより簡単な構成でシステムを実現することが可能である。

以下、添付図面を参照して、本発明を実施するための最良の形態（以下、実施形態）について詳細に説明する。
本実施形態では、複数話者が各々に割り当てられたマイクロフォンにより２チャンネルの音声を収録し、収録時に、マイクロフォンごと（すなわち話者ごと）に異なる音声処理を行う。そして、録音された音声に対して、収録時に施された処理に応じた解析を行うことにより、個々の音声の話者を特定する。
図１は、本実施形態による音声収録システムの全体構成を示す図である。
図１に示すように、本実施形態のシステムは、音声を入力するマイクロフォン１０と、入力された音声に対する処理を行う音声処理部２０と、音声処理部２０で処理された音声を録音する録音部３０と、録音された音声を解析して個々の音声の話者を特定する解析部４０とを備える。

図１において、マイクロフォン１０は、通常のモノラルマイクロフォンである。上述したようにマイクロフォン１０からは２チャンネルの音声を収録するが、本実施形態では、モノラルマイクロフォンで収録した音声を２チャンネルに分離して用いる。なお、マイクロフォン１０としてステレオマイクロフォンを使用し、初めから２チャンネルで音声を収録することも可能である。しかし、後述する解析部４０による解析で２つのチャンネルの音声を比較することを考慮すると、モノラルマイクロフォンで収録した音声を分離して用いるのが好ましい。
音声処理部２０は、マイクロフォン１０により入力された音声に対して、音声波形の極性を反転したり、音声パワー（信号パワー）を増減させたり、音声信号を遅延させたりといった処理を行い、マイクロフォン１０ごと（話者ごと）の音声信号にそれぞれ固有の特性を付与する。
録音部３０は、通常の２チャンネルの録音装置であり、ＭＤ（Mini Disc）等の録音再生用メディアを用いた録音再生機や音声収録機能を備えたパーソナルコンピュータ等を用いることができる。
解析部４０は、録音部３０により録音された音声を、音声処理部２０による処理により付与された各音声の特性に応じた解析を行い、個々の音声の話者を特定する。

以上の構成において、音声処理部２０、録音部３０および解析部４０は別個の装置として構成できるが、これらをパーソナルコンピュータ等のコンピュータシステムで実現した場合は、単一の装置で構成することも可能である。また、音声処理部２０と録音部３０とを合わせて録音装置とし、この録音装置で録音された音声を解析部４０に相当するコンピュータ（解析装置）で解析する構成としても良い。本実施形態を適用する環境や実施態様に応じて、これらの機能を適宜組み合わせた装置構成をとることが可能である。

図２は、本実施形態における音声処理部２０、録音部３０および解析部４０を実現するのに好適なコンピュータ装置のハードウェア構成の例を模式的に示した図である。
図２に示すコンピュータ装置は、演算手段であるＣＰＵ（Central Processing Unit：中央処理装置）１０１と、Ｍ／Ｂ（マザーボード）チップセット１０２およびＣＰＵバスを介してＣＰＵ１０１に接続されたメインメモリ１０３と、同じくＭ／Ｂチップセット１０２およびＡＧＰ（Accelerated Graphics Port）を介してＣＰＵ１０１に接続されたビデオカード１０４と、ＰＣＩ（Peripheral Component Interconnect）バスを介してＭ／Ｂチップセット１０２に接続された磁気ディスク装置（ＨＤＤ）１０５、ネットワークインタフェース１０６と、さらにこのＰＣＩバスからブリッジ回路１０７およびＩＳＡ（Industry Standard Architecture）バスなどの低速なバスを介してＭ／Ｂチップセット１０２に接続されたフレキシブルディスクドライブ１０８およびキーボード／マウス１０９とを備える。

なお、図２は本実施形態を実現するコンピュータ装置のハードウェア構成を例示するに過ぎず、本実施形態を適用可能であれば、他の種々の構成を取ることができる。例えば、ビデオカード１０４を設ける代わりに、ビデオメモリのみを搭載し、ＣＰＵ１０１にてイメージデータを処理する構成としても良いし、外部記憶装置として、ＡＴＡ（AT Attachment）やＳＣＳＩ（Small Computer System Interface）などのインタフェースを介してＣＤ−Ｒ（Compact Disc Recordable）やＤＶＤ−ＲＡＭ（Digital Versatile Disc Random Access Memory）のドライブを設けても良い。

本実施形態では、話者を識別するための音声処理として、音声波形の極性反転、音声パワーの増減、音声信号の遅延を用いる。
すなわち、何も処理を行わない２チャンネル音声を基準とし、所定の話者の収録音声に対しては、２チャンネルの音声波形の一方を極性反転する。また、他の所定の話者の収録音声に対しては、２つのチャンネルの音声パワーを各々異なる値で増加または減少させる。さらに、他の所定の話者の収録音声に対しては、２チャンネルの音声信号の一方を遅延させる。

このように収録された音声では、何も処理を行っていない音声では、２つのチャンネルの音声を足し合わせると音声パワーがおおよそ２倍になり、一方のチャンネルの音声から他方のチャンネルの音声を差し引くと音声パワーがおおよそ０になる。反対に、一方のチャンネルの音声波形を極性反転した音声では、２つのチャンネルの音声を足し合わせると音声パワーがおおよそ０になり、一方のチャンネルの音声から他方のチャンネルの音声を差し引くと音声パワーがおおよそ２倍になる。
２チャンネルの一方の音声信号を遅延させた収録音声では、２チャンネルの音声信号間の遅延によるずれを補正し、その後に、２つのチャンネルの音声を足し合わせると音声パワーがおおよそ２倍になり、一方のチャンネルの音声から他方のチャンネルの音声を差し引くと音声パワーがおおよそ０になる。

また、各チャンネルの音声パワーを増減した収録音声では、収録時の増減幅に応じて各チャンネルの音声パワーをさらに適当に増加または減少させた後に、２つのチャンネルの音声を足し合わせたり差し引いたりすることにより、音声パワーを元の音声の整数倍や０にすることができる。
例えば、収録時に一方のチャンネル（このチャンネルを第１チャンネルとする）の音声パワーを１倍にし、他方のチャンネル（このチャンネルを第２チャンネルとする）の音声パワーを０．５倍にすると、再生時に第２チャンネルの音声パワーを２倍にして第１チャンネルの音声と足し合わせれば、音声パワーが第１チャンネルの音声のおおよそ２倍になる。一方、音声パワーを２倍にした第２チャンネルの音声を第１チャンネルの音声から差し引けば音声パワーがおおよそ０になる。
特殊な場合では、収録時に第１チャンネルの音声パワーを１倍にし、第２チャンネルの音声パワーを０倍にすると、再生時に２つのチャンネルの音声パワーを足し合わせても第１チャンネルの音声パワーと等しくなる。

本実施形態では、以上のような、収録時の音声処理により収録音声に付与される特性を利用して、個々の音声の話者を特定する。以下、具体的な処理の例を挙げて本実施形態の動作、特に音声処理部２０と解析部４０の動作についてさらに詳細に説明する。なお、以下の動作例では、複数の話者が同時に発話することはないか、あるいは複数話者による同時発話があった場合にはその部分の話者を正確に識別する必要はないものとする。
図３は、音声処理部２０による処理を説明する図である。
図３に示す例では、話者１〜８の８人の話者を想定し、音声処理部２０が、マイクロフォン１０により入力される２チャンネルの音声にそれぞれ異なる処理を施した後、チャンネルごとに音声をミキサで合成して録音部３０に送信している。また、音声処理部２０は、音声波形の極性を反転する極性反転部２１、音声パワーを増減させる増減幅部２２、音声信号を一定時間遅延させる遅延部２３を備えるものとする。

図３を参照すると、話者１の音声は、何も加工を行わずに録音部３０に送られる。話者２の音声は、極性反転部２１により第２チャンネルの音声波形が極性反転された後に録音部３０に送られる。話者３の音声は、増減幅部２２により、第１チャンネルの音声パワーがα倍され、第２チャンネルの音声パワーがβ倍されて録音部３０に送られる。話者４の音声は、増減幅部２２により、第１チャンネルの音声パワーがα’倍され、第２チャンネルの音声パワーがβ’倍されて録音部３０に送られる。話者５の音声は、増減幅部２２により、第１チャンネルの音声パワーがα’’倍され、第２チャンネルの音声パワーがβ’’倍されて録音部３０に送られる。話者６の音声は、増減幅部２２により、第１チャンネルの音声パワーがα’’’倍され、第２チャンネルの音声パワーがβ’’’倍されて録音部３０に送られる。話者７の音声は、遅延部２３により第２チャンネルの音声信号が遅延量Ｌだけ遅延されて録音部３０に送られる。話者８の音声は、遅延部２３により第２チャンネルの音声信号が遅延量Ｌ’だけ遅延されて録音部３０に送られる。
ここで、上記の各パラメータは、例えば、α’＝β＝０、α＝β’＝α’’’＝β’’’＝１、α’’＝β’’’＝０．５、Ｌ＝１ｍｓｅｃ（ミリ秒）、Ｌ’＝２Ｌ＝２ｍｓｅｃのように任意に設定することができる。

解析部４０は、録音部３０により所定のメディアに録音された音声を再生する再生手段と、再生された音声信号を解析する解析手段とを備える。
図４は、解析部４０の動作を説明するフローチャートである。
図４に示すように、解析部４０の再生手段は、録音部３０により所定のメディアに録音された２チャンネル音声を再生する（ステップ４０１）。ここで、第１チャンネルの音声信号をａ(ｔ)、第２チャンネルの音声信号をｂ(ｔ)とする。
次に解析部４０の解析手段は、下記の計算により、再生された音声信号の短区間Ｎにおけるそれぞれの音声パワーを算出する（ステップ４０２）。

次に解析部４０は、ステップ４０２で算出された短区間Ｎの音声パワーを順次調べ、音声パワーＡ(ｔ)またはＢ(ｔ)の少なくとも一方が、予め設定された閾値以上である区間を発話区間として検出する（ステップ４０３）。なお、話者７、８の音声は、上述したように音声処理部２０の遅延部２３によって遅延されているが、遅延量Ｌはわずかな量であるので、発話区間の検出には影響しない。

次に解析部４０は、ステップ４０３で検出された発話区間ごとに、音声処理部２０による処理とステップ４０２の計算に基づく下記の判別条件を適用し、各発話区間における話者を判別する（ステップ４０４）。
１）ＡＢ⁺(ｔ) ≒ ４Ａ(ｔ) ならば話者１
２）ＡＢ^-(ｔ) ≒ ４Ａ(ｔ) ならば話者２
３）Ａ(ｔ) ≒ ＡＢ⁺(ｔ) ならば話者３
４）Ｂ(ｔ) ≒ ＡＢ⁺(ｔ) ならば話者４
５）ＡＢ^2a+(ｔ) ≒ ４Ｂ(ｔ) ならば話者５
６）ＡＢ^2b+(ｔ) ≒ ４Ａ(ｔ) ならば話者６
７）ＡＢ^L(ｔ) ≒ ４Ａ(ｔ) ならば話者７
８）ＡＢ^2L(ｔ) ≒ ４Ａ(ｔ) ならば話者８

この後、解析部４０は、ステップ４０３で検出された各発話区間に対して、ステップ４０４における話者の判別結果に基づいて、第１チャンネルの音声信号ａ(ｔ)または第２チャンネルの音声信号をｂ(ｔ)を選択的に出力する（ステップ４０５）。具体的には、話者１、２による発話区間では、音声信号ａ(ｔ)、ｂ(ｔ)のいずれを出力しても良い。話者３、６による発話区間では、音声信号ａ(ｔ)の方が音声信号ｂ(ｔ)よりも音声パワーが強いので、音声信号ａ(ｔ)を出力することが好ましい。反対に、話者４、５による発話区間では、音声信号ｂ(ｔ)の方が音声信号ａ(ｔ)よりも音声パワーが強いので、音声信号ｂ(ｔ)を出力することが好ましい。話者７、８による発話区間では、音声信号ｂ(ｔ)は遅延されているので、音声信号ａ(ｔ)を出力することが好ましい。

以上のように、本実施形態は、複数話者にそれぞれ対応させたマイクロフォン１０から２チャンネルの音声を収録し、収録時に各マイクロフォン１０の収録音声に対して音声処理部２０によりそれぞれ異なる音声処理を施し、音声処理の施された音声信号をチャンネルごとにミキシングする。そして、ミキシングされた音声信号に対して、音声処理部２０による音声処理によって付与された、マイクロフォン１０ごと（話者ごと）に固有の特性に応じた解析を行うことにより、個々の発話区間における音声の話者を特定することが可能となる。
音声処理部２０および解析部４０の各機能は、これらの構成を図２に示したコンピュータにて実現する場合は、プログラム制御されたＣＰＵ１０１とメインメモリ１０３や磁気ディスク装置１０５等の記憶手段によって実現される。また、音声処理部２０の極性反転部２１、増減幅部２２および遅延部２３の機能は、それぞれの機能を持つ回路によってハードウェア的に実現しても良い。

図１に示した構成では、音声処理部２０により音声処理の施された音声信号を録音部３０によって録音し、解析部４０は録音部３０に録音されている音声信号を解析して話者を特定するようになっている。しかし、本実施形態は、上記のように音声収録時に音声信号を処理して話者を特定できるような特性を音声信号に付与するものであり、この技術思想の範囲であれば、種々のシステム構成を取り得ることは言うまでもない。
例えば、録音部３０および解析部４０の機能を単一のコンピュータシステムにて実現する場合、音声処理部２０により音声処理され、ミキシングされた後に入力した音声信号に対して、まず解析部４０による話者の特定を行ってしまい、その後に話者ごとの音声ファイルを作成して、図２の磁気ディスク装置１０５に格納するようにしても良い。

次に、裁判における発言を収録し、その収録音声からテキスト（電子調書）を作成するシステムに、上述した本実施形態を適用した例を説明する。
図５は、本実施形態を裁判における電子調書作成システムの音声収録手段として用いた場合の構成例を示す図である。
図５の構成において、極性反転器５１およびマイクミキサ５２ａ、５２ｂは、図１の音声処理部２０に対応する。また、音声をＭＤに録音するＭＤレコーダ５３は、図１の録音部３０に対応する。
マイクロフォン１０としては、ピンマイク（pin microphone）が用いられ、裁判官、証人、代理人Ａ、Ｂがそれぞれ装着しているものとし、図示されていない。また、図５の構成では、ＭＤに録音された音声が、別途にコンピュータで解析されることとし、図１の解析部４０に対応するコンピュータも図示されていない。

図５を参照すると、このシステムでは、裁判官の発話音声は、直接マイクミキサ５２ａ、５２ｂへ送られる。また、証人の発話音声は、第１チャンネルの音声が直接マイクミキサ５２ａへ送られ、第２チャンネルの音声が極性反転器５１を介してマイクミキサ５２ｂへ送られる。さらに、代理人Ａの発話音声は、第１チャンネルの音声のみがマイクミキサ５２ａへ送られる。一方、代理人Ｂの発話音声は、第２チャンネルの音声のみがマイクミキサ５２ｂへ送られる。
したがって、裁判官は図３の話者１に相当し、証人は図３の話者２に相当する。また、図３でα’＝β＝０、α＝β’＝１とすると、代理人Ａは話者３に、代理人Ｂは話者４に相当する。

図６は、図５に示したシステムで所定の時間に収録された音声の波形を示すタイムチャートである。
図６を参照すると、代理人Ａの音声と裁判官および証人のマイクロフォン１０における第１チャンネルの音声がマイクミキサ５２ａで合成されている。そして、代理人Ｂの音声と裁判官および証人のマイクロフォン１０における第２チャンネルの音声がマイクミキサ５２ｂで合成されている。この図６に示す第１、第２チャンネルの音声が、ＭＤレコーダ５３によって、それぞれＭＤの第１、第２チャンネルに記録される。

次に、図１の解析部４０に相当するコンピュータ（以下、解析装置）が、図５のシステムでＭＤに録音された音声を再生して解析し、個々の発話における話者（裁判官、証人、代理人Ａ、代理人Ｂ）を特定する。具体的な方法は、図４を参照して上述した方法において、話者１〜４を識別した方法によれば良いが、裁判という特殊な状況で収録された音声から話者を特定する場合、次のような簡単化した方法をとることができる。

すなわち、裁判における発話には、次のような特徴がある。
・質疑応答が対話の大部分を占め、質問者と回答者が逐次入れ替わることはない。
・やじなどの突発的なものを除けば、同時に発話するのは一人であり、音声が重なることが稀である。
・質問者の順序が決まっており、複数の相手に同時に質問することはほとんどない。そのため、同一トピックに関する回答が音声データの様々な部分に散在することが多い。
そして、図５のシステムで収録される発話音声の話者は、裁判官、証人、代理人Ａおよび代理人Ｂの４人に限られる。

これらの事情を考慮すると、図５のシステムでＭＤに録音された音声の話者は、次のようにして特定される。
１．第１チャンネルと第２チャンネルの音声信号の和を取ったときに音声パワーが増大する部分が裁判官の発話である。
２．第１チャンネルと第２チャンネルの音声信号の差を取ったときに音声パワーが増大する部分が証人の発話である。
３．上記１．２．の操作では音声パワーに大きな変化が見られず、第１チャンネルにのみ信号が存在する部分が代理人Ａの発話である。
４．上記１．２．の操作では音声パワーに大きな変化が見られず、第２チャンネルのみに信号が存在する部分が代理人Ｂの発話である。
したがって、コンピュータは、ＭＤに録音された音声の各発話区間に対して、以上４つの場合のいずれに該当するかを判断すれば、各発話区間の話者を特定することができる。

ところで、裁判では代理人が証人に接近して質問を行うことがある。この場合、証人のマイクロフォン１０が、証人に接近して発話した代理人の音声を拾ってしまう。図６において、証人の音声波形には代理人Ａの発話音声が含まれ、代理人Ａの音声波形には証人の発話音声が含まれている。このため、第１チャンネルの音声は、一種のエコーがかかった様な状態となる。
しかし、図６の第１、第２チャンネルの音声信号を比較すると、この第１チャンネルにおけるエコー成分のうち、証人の音声波形に混入した代理人Ａの音声成分は、第２チャンネルではエコー成分ではなく独立の音声として記録されている。これは、図５のシステム構成から、代理人Ａのマイクロフォン１０は第２チャンネルの音声信号を形成しないためである。したがって、証人の音声波形に代理人Ａの音声成分が混入した箇所では、第１チャンネルの音声信号から第２チャンネルの音声信号を差し引くことで、代理人Ａのクリーンな発話音声を推定することができる。
同様に、代理人Ａのマイクロフォン１０は第２チャンネルの音声信号を形成しないため、代理人Ａの音声波形に混入した証人の音声成分は、第２チャンネルには記録されない。したがって、代理人Ａの音声波形に証人の音声成分が混入した箇所では、第２チャンネルの音声信号を選択することにより、エコーのかかっていないクリーンな証人の発話音声を得ることができる。
以上のようなエコー成分の有無の判定は、数十ミリ秒〜数百ミリ秒程度の短区間の音声パワーを比較することで容易に可能なので、エコー成分が発見された時点で該当する発話区間に対して上記の操作を行うことにより、各話者のクリーンな発話音声が得られる。

図７は、図５のシステムで録音された音声を解析する方法を説明するフローチャートである。
図７に示すように、解析装置は、まずＭＤレコーダ５３によりＭＤに録音された音声を再生する（ステップ７０１）。次に解析装置は、図４のステップ４０２〜４０４と同様の処理または上述した簡単化した処理により、音声信号の各発話区間における話者を推定する（ステップ７０２）。そして、推定された話者に応じて、各発話区間における音声信号を次のように制御しながら出力を行う（ステップ７０３）。
１）話者１（裁判官）の発話区間に関しては、第１チャンネルまたは第２チャンネルの音声をそのまま出力。
２）話者３（代理人Ａ）の発話区間に関しては、ａ(ｔ)＋ｂ(ｔ)を出力（証人の音声が混入しているケースでも、混入重畳した音声信号は−ｂ(ｔ)であるため、＋ｂ(ｔ)とすることでキャンセルすることができる）。
３）話者４（代理人Ｂ）の発話区間に関しては、ａ(ｔ)＋ｂ(ｔ)を出力（証人の音声が混入しているケースでも、混入重畳した音声信号は−ａ(ｔ)であるため、＋ａ(ｔ)とすることでキャンセルすることができる）。
４）話者２（証人）の発話区間に関しては、これに先行する質問者の発話区間が話者３（代理人Ａ）である場合はｂ(ｔ)を出力し、話者４（代理人Ｂ）である場合はａ(ｔ)を出力する。また、先行する発話区間が話者１である場合は、第１、第２チャンネルのいずれか一方の音声信号を出力すればよい（代理人が証人に近づいたために、接近した代理人の音声が証人側のマイクに混入しているおそれがあるが、質問者ではない代理人を含む側の音声信号を用いることで混入のない音声信号を出力できる）。

以上、本実施形態では、収録時に各話者のマイクロフォン１０の収録音声に対してそれぞれ異なる音声処理を施し、施された音声処理に応じた解析を行うことにより個々の音声の話者を特定した。そして、音声処理の内容として、音声波形の極性反転、音声パワーの増減、音声信号の遅延といった、音声信号（波形）自体を操作する処理を行った。
本実施形態の拡張として、各マイクロフォン１０の収録音声に対して、データハイディングの手法を用いて、可聴帯域外の音声信号による識別情報を埋め込むことが考えられる。この場合、音声信号に埋め込まれた識別情報を検出することによって、容易に話者を特定することが可能となる。

本実施形態による音声収録システムの全体構成を示す図である。本実施形態における音声処理部、録音部および解析部を実現するのに好適なコンピュータ装置のハードウェア構成の例を模式的に示した図である。本実施形態の音声処理部による処理を説明する図である。本実施形態の解析部の動作を説明するフローチャートである。本実施形態を裁判における電子調書作成システムの音声収録手段として用いた場合の構成例を示す図である。図５に示したシステムで所定の時間に収録された音声の波形を示すタイムチャートである。図５のシステムで録音された音声を解析する方法を説明するフローチャートである。

符号の説明

１０１…ＣＰＵ（Central Processing Unit：中央処理装置）、１０３…メインメモリ、１０５…磁気ディスク装置（ＨＤＤ）、１０…マイクロフォン、２０…音声処理部、２１…極性反転部、２２…増減幅部、２３…遅延部、３０…録音部、４０…解析部

Claims

複数の話者の音声を収録するシステムにおいて、
話者ごとに設けられたマイクロフォンと、
前記マイクロフォンから各々２チャンネルの音声信号を取得し、取得された音声信号のうち、所定のマイクロフォンから取得された音声信号に対して音声処理を行い、チャンネルごとにミキシングする音声処理部と、
前記音声処理部により音声処理を施され、ミキシングされた音声信号を解析し、発話区間ごとに音声信号を収録した前記マイクロフォンを特定する解析部とを備え、
前記音声処理部は、
所定のマイクロフォンから取得された音声信号に関して２チャンネルの音声信号の一方の極性を反転する第１の処理と、
所定のマイクロフォンから取得された音声信号に関して２チャンネルの音声信号の一方の信号パワーを所定の割合で変化させる第２の処理と、
所定のマイクロフォンから取得された音声信号に関して２チャンネルの音声信号の一方を遅延させる音声処理を行う第３の処理の、少なくともいずれか一つを前記音声処理として行い、
前記解析部は、
ミキシングされた２つのチャンネルの前記音声信号の差を取り、所定の発話区間の音声信号の信号パワーが増大した場合に、その発話区間の音声信号が前記第１の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定し、
ミキシングされた２つのチャンネルの前記音声信号の一方の信号パワーを、前記第２の処理に対応する割合で逆方向に変化させ、当該２つのチャンネルの音声信号の和を取り、所定の発話区間の音声信号の信号パワーが元の信号パワーの整数倍に増大した場合に、その発話区間の音声信号が前記第２の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定し、
ミキシングされた２つのチャンネルの前記音声信号の一方に対して、前記音声処理部による遅延分を補正する処理を行った後、当該２つのチャンネルの音声信号の和を取り、所定の発話区間の音声信号の信号パワーが元の信号パワーの整数倍に増大した場合に、その発話区間の音声信号が前記第３の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定する、音声収録システム。
前記音声処理部により音声処理を施された音声信号を所定の記録媒体に録音する録音部をさらに備え、
前記解析部は、前記録音部により録音された音声を再生して解析し、話者を特定することを特徴とする請求項１に記載の音声収録システム。
複数の話者の音声を収録するシステムにおいて、
話者ごとに設けられたマイクロフォンと、
前記マイクロフォンから各々２チャンネルの音声信号を取得し、取得された音声信号のうち、所定のマイクロフォンから取得された音声信号に対して、２チャンネルの音声信号の一方の極性を反転する音声処理を行い、チャンネルごとにミキシングする音声処理部と、
前記音声処理部により音声処理を施され、ミキシングされた２つのチャンネルの前記音声信号の差を取り、所定の発話区間の音声信号の信号パワーが増大した場合に、その発話区間の音声信号が前記所定のマイクロフォンで収録された音声信号と判断する解析部と、
を備える音声収録システム。
複数の話者の音声を収録するシステムにおいて、
話者ごとに設けられたマイクロフォンと、
前記マイクロフォンから各々２チャンネルの音声信号を取得し、取得された音声信号のうち、所定のマイクロフォンから取得された音声信号に対して、２チャンネルの音声信号の一方の信号パワーを所定の割合で変化させる音声処理を行い、チャンネルごとにミキシングする音声処理部と、
前記音声処理部により音声処理を施され、ミキシングされた２つのチャンネルの前記音声信号の一方の信号パワーを、前記音声処理に対応する割合で逆方向に変化させ、当該２つのチャンネルの音声信号の和を取り、所定の発話区間の音声信号の信号パワーが元の信号パワーの整数倍に増大した場合に、その発話区間の音声信号が前記所定のマイクロフォンで収録された音声信号と判断する解析部と、
を備える音声収録システム。
複数の話者の音声を収録するシステムにおいて、
話者ごとに設けられたマイクロフォンと、
前記マイクロフォンから各々２チャンネルの音声信号を取得し、取得された音声信号のうち、所定のマイクロフォンから取得された音声信号に対して、２チャンネルの音声信号の一方を遅延させる音声処理を行い、チャンネルごとにミキシングする音声処理部と、
前記音声処理部により音声処理を施され、ミキシングされた２つのチャンネルの前記音声信号の一方に対して、前記音声処理部による遅延分を補正する処理を行った後、当該２つのチャンネルの音声信号の和を取り、所定の発話区間の音声信号の信号パワーが元の信号パワーの整数倍に増大した場合に、その発話区間の音声信号が前記所定のマイクロフォンで収録された音声信号と判断する解析部と、
を備える音声収録システム。
複数の話者の音声を収録するシステムにおいて、
４人の話者に対応させたマイクロフォンと、
前記マイクロフォンにより収録された４つの２チャンネルの音声信号のうち、第１のマイクロフォンで収録された音声信号に対しては何ら加工を行わず、第２のマイクロフォンで収録された音声信号に対しては２チャンネルの一方の音声信号を極性反転し、第３のマイクロフォンで収録された音声信号に対しては２チャンネルの一方の音声信号を消去し、第４のマイクロフォンで収録された音声信号に対しては２チャンネルの他方の音声信号を消去し、かつこれらの音声信号をチャンネルごとにミキシングする音声処理部と、
前記音声処理部によって処理された２チャンネルの音声信号を録音する録音部と、
前記録音部により録音された音声を再生し、再生された２チャンネルの前記音声信号に対して、下記（１）〜（４）の解析を行う解析部と
を備える、音声収録システム。
（１）２チャンネルの前記音声信号を足し合わせて所定の発話区間の音声信号の信号パワーが増大した場合に、その発話区間の音声信号が前記第１のマイクロフォンで収録された音声信号と判断とする。
（２）２チャンネルの前記音声信号の差を取って所定の発話区間の音声信号の信号パワーが増大した場合に、その発話区間の音声信号が前記第２のマイクロフォンで収録された音声信号と判断とする。
（３）２チャンネルの前記音声信号のうち、所定の発話区間では特定の１つのチャンネルからのみ音声信号が取得される場合に、その発話区間の音声信号が前記第３のマイクロフォンで収録された音声信号と判断する。
（４）２チャンネルの前記音声信号のうち、所定の発話区間では前記特定の１つのチャンネルとは異なる他の１つのチャンネルからのみ音声信号が取得される場合に、その発話区間の音声信号が前記第４のマイクロフォンで収録された音声信号と判断する。
コンピュータにより実現される音声処理手段が、話者ごとに設けられたマイクロフォンごとに収録された音声信号に対して、
所定のマイクロフォンから取得された音声信号に関して２チャンネルの音声信号の一方の極性を反転する第１の処理と、
所定のマイクロフォンから取得された音声信号に関して２チャンネルの音声信号の一方の信号パワーを所定の割合で変化させる第２の処理と、
所定のマイクロフォンから取得された音声信号に関して２チャンネルの音声信号の一方を遅延させる音声処理を行う第３の処理の、少なくともいずれか一つの音声処理を行い、チャンネルごとにミキシングする第１のステップと、
コンピュータにより実現される解析手段が、ミキシングされた音声信号を解析し、
ミキシングされた２つのチャンネルの前記音声信号の差を取り、所定の発話区間の音声信号の信号パワーが増大した場合に、その発話区間の音声信号が前記第１の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定し、
ミキシングされた２つのチャンネルの前記音声信号の一方の信号パワーを、前記第２の処理に対応する割合で逆方向に変化させ、当該２つのチャンネルの音声信号の和を取り、所定の発話区間の音声信号の信号パワーが元の信号パワーの整数倍に増大した場合に、その発話区間の音声信号が前記第２の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定し、
ミキシングされた２つのチャンネルの前記音声信号の一方に対して、前記音声処理部による遅延分を補正する処理を行った後、当該２つのチャンネルの音声信号の和を取り、所定の発話区間の音声信号の信号パワーが元の信号パワーの整数倍に増大した場合に、その発話区間の音声信号が前記第３の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定する第２のステップと、
を含む、音声処理方法。
前記音声処理手段が前記音声処理を施された音声信号を所定の記録媒体に録音するステップをさらに含み、
前記第２のステップでは、前記記録媒体に録音された音声を再生して解析し、話者を特定することを特徴とする請求項７に記載の音声処理方法。
コンピュータを、
話者ごとに設けられたマイクロフォンごとに収録された音声信号に対して、
所定のマイクロフォンから取得された音声信号に関して２チャンネルの音声信号の一方の極性を反転する第１の処理と、
所定のマイクロフォンから取得された音声信号に関して２チャンネルの音声信号の一方の信号パワーを所定の割合で変化させる第２の処理と、
所定のマイクロフォンから取得された音声信号に関して２チャンネルの音声信号の一方を遅延させる音声処理を行う第３の処理の、少なくともいずれか一つの音声処理を行い、チャンネルごとにミキシングする音声処理手段と、
前記音声処理手段により音声処理を施され、ミキシングされた音声信号を解析し、
ミキシングされた２つのチャンネルの前記音声信号の差を取り、所定の発話区間の音声信号の信号パワーが増大した場合に、その発話区間の音声信号が前記第１の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定し、
ミキシングされた２つのチャンネルの前記音声信号の一方の信号パワーを、前記第２の処理に対応する割合で逆方向に変化させ、当該２つのチャンネルの音声信号の和を取り、所定の発話区間の音声信号の信号パワーが元の信号パワーの整数倍に増大した場合に、その発話区間の音声信号が前記第２の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定し、
ミキシングされた２つのチャンネルの前記音声信号の一方に対して、前記音声処理部による遅延分を補正する処理を行った後、当該２つのチャンネルの音声信号の和を取り、所定の発話区間の音声信号の信号パワーが元の信号パワーの整数倍に増大した場合に、その発話区間の音声信号が前記第３の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定する解析手段として、
機能させる、プログラム。
前記コンピュータを、前記音声処理手段により音声処理を施された音声信号を所定の記録媒体に録音する録音手段としてさらに機能させ、
前記解析手段では、前記コンピュータに、前記記録媒体に録音された音声を再生して解析することを特徴とする請求項９に記載のプログラム。