JP4082611B2 - 音声収録システム、音声処理方法およびプログラム - Google Patents
音声収録システム、音声処理方法およびプログラム Download PDFInfo
- Publication number
- JP4082611B2 JP4082611B2 JP2004156571A JP2004156571A JP4082611B2 JP 4082611 B2 JP4082611 B2 JP 4082611B2 JP 2004156571 A JP2004156571 A JP 2004156571A JP 2004156571 A JP2004156571 A JP 2004156571A JP 4082611 B2 JP4082611 B2 JP 4082611B2
- Authority
- JP
- Japan
- Prior art keywords
- audio
- signal
- microphone
- audio signal
- predetermined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003672 processing method Methods 0.000 title claims 3
- 230000005236 sound signal Effects 0.000 claims description 179
- 238000004458 analytical method Methods 0.000 claims description 49
- 238000000034 method Methods 0.000 claims description 45
- 230000007423 decrease Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 7
- 230000003111 delayed effect Effects 0.000 description 6
- 230000003247 decreasing effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001934 delay Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Stereophonic Arrangements (AREA)
Description
・質疑応答が対話の大部分を占め、質問者と回答者が逐次入れ替わることはない。
・やじなどの突発的なものを除けば、同時に発話するのは一人であり、音声が重なることが稀である。
・質問者の順序が決まっており、複数の相手に同時に質問することはほとんどない。そのため、同一トピックに関する回答が音声データの様々な部分に散在することが多い。
このような特殊な収録環境では、複数話者による音声から個々の音声の話者を特定するために、以上のような収録環境の特徴を利用することが考えられる。
また本発明は、特に、裁判や会議といった特殊な状況で収録される音声に対して、その収録環境の特徴を利用して、個々の音声の話者を特定する方法およびこの方法を用いたシステムを提供することを目的とする。
そして、解析部は、それぞれミキシングされた2つのチャンネルの音声信号の和または差を取ることで、あるいはそれぞれミキシングされた2つのチャンネルの音声信号の遅延によるずれを補正した後に音声信号の和または差を取ることで、この音声信号の話者を特定する。
(1)2チャンネルの音声信号を足し合わせて取得される音声信号を第1の話者の発話とする。
(2)2チャンネルの音声信号の一方から他方を差し引いて取得される音声信号を第2の話者の発話とする。
(3)2チャンネルの音声信号の一方からのみ取得される音声信号を第3の話者の発話とする。
(4)2チャンネルの音声信号の他方からのみ取得される音声信号を第4の話者の発話とする。
また、話者の数が限定され、原則として複数話者が同時に発話することがないような特殊な収録環境では、話者の数に応じてより簡単な構成でシステムを実現することが可能である。
本実施形態では、複数話者が各々に割り当てられたマイクロフォンにより2チャンネルの音声を収録し、収録時に、マイクロフォンごと(すなわち話者ごと)に異なる音声処理を行う。そして、録音された音声に対して、収録時に施された処理に応じた解析を行うことにより、個々の音声の話者を特定する。
図1は、本実施形態による音声収録システムの全体構成を示す図である。
図1に示すように、本実施形態のシステムは、音声を入力するマイクロフォン10と、入力された音声に対する処理を行う音声処理部20と、音声処理部20で処理された音声を録音する録音部30と、録音された音声を解析して個々の音声の話者を特定する解析部40とを備える。
音声処理部20は、マイクロフォン10により入力された音声に対して、音声波形の極性を反転したり、音声パワー(信号パワー)を増減させたり、音声信号を遅延させたりといった処理を行い、マイクロフォン10ごと(話者ごと)の音声信号にそれぞれ固有の特性を付与する。
録音部30は、通常の2チャンネルの録音装置であり、MD(Mini Disc)等の録音再生用メディアを用いた録音再生機や音声収録機能を備えたパーソナルコンピュータ等を用いることができる。
解析部40は、録音部30により録音された音声を、音声処理部20による処理により付与された各音声の特性に応じた解析を行い、個々の音声の話者を特定する。
図2に示すコンピュータ装置は、演算手段であるCPU(Central Processing Unit:中央処理装置)101と、M/B(マザーボード)チップセット102およびCPUバスを介してCPU101に接続されたメインメモリ103と、同じくM/Bチップセット102およびAGP(Accelerated Graphics Port)を介してCPU101に接続されたビデオカード104と、PCI(Peripheral Component Interconnect)バスを介してM/Bチップセット102に接続された磁気ディスク装置(HDD)105、ネットワークインタフェース106と、さらにこのPCIバスからブリッジ回路107およびISA(Industry Standard Architecture)バスなどの低速なバスを介してM/Bチップセット102に接続されたフレキシブルディスクドライブ108およびキーボード/マウス109とを備える。
すなわち、何も処理を行わない2チャンネル音声を基準とし、所定の話者の収録音声に対しては、2チャンネルの音声波形の一方を極性反転する。また、他の所定の話者の収録音声に対しては、2つのチャンネルの音声パワーを各々異なる値で増加または減少させる。さらに、他の所定の話者の収録音声に対しては、2チャンネルの音声信号の一方を遅延させる。
2チャンネルの一方の音声信号を遅延させた収録音声では、2チャンネルの音声信号間の遅延によるずれを補正し、その後に、2つのチャンネルの音声を足し合わせると音声パワーがおおよそ2倍になり、一方のチャンネルの音声から他方のチャンネルの音声を差し引くと音声パワーがおおよそ0になる。
例えば、収録時に一方のチャンネル(このチャンネルを第1チャンネルとする)の音声パワーを1倍にし、他方のチャンネル(このチャンネルを第2チャンネルとする)の音声パワーを0.5倍にすると、再生時に第2チャンネルの音声パワーを2倍にして第1チャンネルの音声と足し合わせれば、音声パワーが第1チャンネルの音声のおおよそ2倍になる。一方、音声パワーを2倍にした第2チャンネルの音声を第1チャンネルの音声から差し引けば音声パワーがおおよそ0になる。
特殊な場合では、収録時に第1チャンネルの音声パワーを1倍にし、第2チャンネルの音声パワーを0倍にすると、再生時に2つのチャンネルの音声パワーを足し合わせても第1チャンネルの音声パワーと等しくなる。
図3は、音声処理部20による処理を説明する図である。
図3に示す例では、話者1〜8の8人の話者を想定し、音声処理部20が、マイクロフォン10により入力される2チャンネルの音声にそれぞれ異なる処理を施した後、チャンネルごとに音声をミキサで合成して録音部30に送信している。また、音声処理部20は、音声波形の極性を反転する極性反転部21、音声パワーを増減させる増減幅部22、音声信号を一定時間遅延させる遅延部23を備えるものとする。
ここで、上記の各パラメータは、例えば、α’=β=0、α=β’=α’’’=β’’’=1、α’’=β’’’=0.5、L=1msec(ミリ秒)、L’=2L=2msecのように任意に設定することができる。
図4は、解析部40の動作を説明するフローチャートである。
図4に示すように、解析部40の再生手段は、録音部30により所定のメディアに録音された2チャンネル音声を再生する(ステップ401)。ここで、第1チャンネルの音声信号をa(t)、第2チャンネルの音声信号をb(t)とする。
次に解析部40の解析手段は、下記の計算により、再生された音声信号の短区間Nにおけるそれぞれの音声パワーを算出する(ステップ402)。
1)AB+(t) ≒ 4A(t) ならば話者1
2)AB-(t) ≒ 4A(t) ならば話者2
3)A(t) ≒ AB+(t) ならば話者3
4)B(t) ≒ AB+(t) ならば話者4
5)AB2a+(t) ≒ 4B(t) ならば話者5
6)AB2b+(t) ≒ 4A(t) ならば話者6
7)ABL(t) ≒ 4A(t) ならば話者7
8)AB2L(t) ≒ 4A(t) ならば話者8
音声処理部20および解析部40の各機能は、これらの構成を図2に示したコンピュータにて実現する場合は、プログラム制御されたCPU101とメインメモリ103や磁気ディスク装置105等の記憶手段によって実現される。また、音声処理部20の極性反転部21、増減幅部22および遅延部23の機能は、それぞれの機能を持つ回路によってハードウェア的に実現しても良い。
例えば、録音部30および解析部40の機能を単一のコンピュータシステムにて実現する場合、音声処理部20により音声処理され、ミキシングされた後に入力した音声信号に対して、まず解析部40による話者の特定を行ってしまい、その後に話者ごとの音声ファイルを作成して、図2の磁気ディスク装置105に格納するようにしても良い。
図5は、本実施形態を裁判における電子調書作成システムの音声収録手段として用いた場合の構成例を示す図である。
図5の構成において、極性反転器51およびマイクミキサ52a、52bは、図1の音声処理部20に対応する。また、音声をMDに録音するMDレコーダ53は、図1の録音部30に対応する。
マイクロフォン10としては、ピンマイク(pin microphone)が用いられ、裁判官、証人、代理人A、Bがそれぞれ装着しているものとし、図示されていない。また、図5の構成では、MDに録音された音声が、別途にコンピュータで解析されることとし、図1の解析部40に対応するコンピュータも図示されていない。
したがって、裁判官は図3の話者1に相当し、証人は図3の話者2に相当する。また、図3でα’=β=0、α=β’=1とすると、代理人Aは話者3に、代理人Bは話者4に相当する。
図6を参照すると、代理人Aの音声と裁判官および証人のマイクロフォン10における第1チャンネルの音声がマイクミキサ52aで合成されている。そして、代理人Bの音声と裁判官および証人のマイクロフォン10における第2チャンネルの音声がマイクミキサ52bで合成されている。この図6に示す第1、第2チャンネルの音声が、MDレコーダ53によって、それぞれMDの第1、第2チャンネルに記録される。
・質疑応答が対話の大部分を占め、質問者と回答者が逐次入れ替わることはない。
・やじなどの突発的なものを除けば、同時に発話するのは一人であり、音声が重なることが稀である。
・質問者の順序が決まっており、複数の相手に同時に質問することはほとんどない。そのため、同一トピックに関する回答が音声データの様々な部分に散在することが多い。
そして、図5のシステムで収録される発話音声の話者は、裁判官、証人、代理人Aおよび代理人Bの4人に限られる。
1.第1チャンネルと第2チャンネルの音声信号の和を取ったときに音声パワーが増大する部分が裁判官の発話である。
2.第1チャンネルと第2チャンネルの音声信号の差を取ったときに音声パワーが増大する部分が証人の発話である。
3.上記1.2.の操作では音声パワーに大きな変化が見られず、第1チャンネルにのみ信号が存在する部分が代理人Aの発話である。
4.上記1.2.の操作では音声パワーに大きな変化が見られず、第2チャンネルのみに信号が存在する部分が代理人Bの発話である。
したがって、コンピュータは、MDに録音された音声の各発話区間に対して、以上4つの場合のいずれに該当するかを判断すれば、各発話区間の話者を特定することができる。
しかし、図6の第1、第2チャンネルの音声信号を比較すると、この第1チャンネルにおけるエコー成分のうち、証人の音声波形に混入した代理人Aの音声成分は、第2チャンネルではエコー成分ではなく独立の音声として記録されている。これは、図5のシステム構成から、代理人Aのマイクロフォン10は第2チャンネルの音声信号を形成しないためである。したがって、証人の音声波形に代理人Aの音声成分が混入した箇所では、第1チャンネルの音声信号から第2チャンネルの音声信号を差し引くことで、代理人Aのクリーンな発話音声を推定することができる。
同様に、代理人Aのマイクロフォン10は第2チャンネルの音声信号を形成しないため、代理人Aの音声波形に混入した証人の音声成分は、第2チャンネルには記録されない。したがって、代理人Aの音声波形に証人の音声成分が混入した箇所では、第2チャンネルの音声信号を選択することにより、エコーのかかっていないクリーンな証人の発話音声を得ることができる。
以上のようなエコー成分の有無の判定は、数十ミリ秒〜数百ミリ秒程度の短区間の音声パワーを比較することで容易に可能なので、エコー成分が発見された時点で該当する発話区間に対して上記の操作を行うことにより、各話者のクリーンな発話音声が得られる。
図7に示すように、解析装置は、まずMDレコーダ53によりMDに録音された音声を再生する(ステップ701)。次に解析装置は、図4のステップ402〜404と同様の処理または上述した簡単化した処理により、音声信号の各発話区間における話者を推定する(ステップ702)。そして、推定された話者に応じて、各発話区間における音声信号を次のように制御しながら出力を行う(ステップ703)。
1)話者1(裁判官)の発話区間に関しては、第1チャンネルまたは第2チャンネルの音声をそのまま出力。
2)話者3(代理人A)の発話区間に関しては、a(t)+b(t)を出力(証人の音声が混入しているケースでも、混入重畳した音声信号は−b(t)であるため、+b(t)とすることでキャンセルすることができる)。
3)話者4(代理人B)の発話区間に関しては、a(t)+b(t)を出力(証人の音声が混入しているケースでも、混入重畳した音声信号は−a(t)であるため、+a(t)とすることでキャンセルすることができる)。
4)話者2(証人)の発話区間に関しては、これに先行する質問者の発話区間が話者3(代理人A)である場合はb(t)を出力し、話者4(代理人B)である場合はa(t)を出力する。また、先行する発話区間が話者1である場合は、第1、第2チャンネルのいずれか一方の音声信号を出力すればよい(代理人が証人に近づいたために、接近した代理人の音声が証人側のマイクに混入しているおそれがあるが、質問者ではない代理人を含む側の音声信号を用いることで混入のない音声信号を出力できる)。
本実施形態の拡張として、各マイクロフォン10の収録音声に対して、データハイディングの手法を用いて、可聴帯域外の音声信号による識別情報を埋め込むことが考えられる。この場合、音声信号に埋め込まれた識別情報を検出することによって、容易に話者を特定することが可能となる。
Claims (10)
- 複数の話者の音声を収録するシステムにおいて、
話者ごとに設けられたマイクロフォンと、
前記マイクロフォンから各々2チャンネルの音声信号を取得し、取得された音声信号のうち、所定のマイクロフォンから取得された音声信号に対して音声処理を行い、チャンネルごとにミキシングする音声処理部と、
前記音声処理部により音声処理を施され、ミキシングされた音声信号を解析し、発話区間ごとに音声信号を収録した前記マイクロフォンを特定する解析部とを備え、
前記音声処理部は、
所定のマイクロフォンから取得された音声信号に関して2チャンネルの音声信号の一方の極性を反転する第1の処理と、
所定のマイクロフォンから取得された音声信号に関して2チャンネルの音声信号の一方の信号パワーを所定の割合で変化させる第2の処理と、
所定のマイクロフォンから取得された音声信号に関して2チャンネルの音声信号の一方を遅延させる音声処理を行う第3の処理の、少なくともいずれか一つを前記音声処理として行い、
前記解析部は、
ミキシングされた2つのチャンネルの前記音声信号の差を取り、所定の発話区間の音声信号の信号パワーが増大した場合に、その発話区間の音声信号が前記第1の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定し、
ミキシングされた2つのチャンネルの前記音声信号の一方の信号パワーを、前記第2の処理に対応する割合で逆方向に変化させ、当該2つのチャンネルの音声信号の和を取り、所定の発話区間の音声信号の信号パワーが元の信号パワーの整数倍に増大した場合に、その発話区間の音声信号が前記第2の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定し、
ミキシングされた2つのチャンネルの前記音声信号の一方に対して、前記音声処理部による遅延分を補正する処理を行った後、当該2つのチャンネルの音声信号の和を取り、所定の発話区間の音声信号の信号パワーが元の信号パワーの整数倍に増大した場合に、その発話区間の音声信号が前記第3の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定する、音声収録システム。 - 前記音声処理部により音声処理を施された音声信号を所定の記録媒体に録音する録音部をさらに備え、
前記解析部は、前記録音部により録音された音声を再生して解析し、話者を特定することを特徴とする請求項1に記載の音声収録システム。 - 複数の話者の音声を収録するシステムにおいて、
話者ごとに設けられたマイクロフォンと、
前記マイクロフォンから各々2チャンネルの音声信号を取得し、取得された音声信号のうち、所定のマイクロフォンから取得された音声信号に対して、2チャンネルの音声信号の一方の極性を反転する音声処理を行い、チャンネルごとにミキシングする音声処理部と、
前記音声処理部により音声処理を施され、ミキシングされた2つのチャンネルの前記音声信号の差を取り、所定の発話区間の音声信号の信号パワーが増大した場合に、その発話区間の音声信号が前記所定のマイクロフォンで収録された音声信号と判断する解析部と、
を備える音声収録システム。 - 複数の話者の音声を収録するシステムにおいて、
話者ごとに設けられたマイクロフォンと、
前記マイクロフォンから各々2チャンネルの音声信号を取得し、取得された音声信号のうち、所定のマイクロフォンから取得された音声信号に対して、2チャンネルの音声信号の一方の信号パワーを所定の割合で変化させる音声処理を行い、チャンネルごとにミキシングする音声処理部と、
前記音声処理部により音声処理を施され、ミキシングされた2つのチャンネルの前記音声信号の一方の信号パワーを、前記音声処理に対応する割合で逆方向に変化させ、当該2つのチャンネルの音声信号の和を取り、所定の発話区間の音声信号の信号パワーが元の信号パワーの整数倍に増大した場合に、その発話区間の音声信号が前記所定のマイクロフォンで収録された音声信号と判断する解析部と、
を備える音声収録システム。 - 複数の話者の音声を収録するシステムにおいて、
話者ごとに設けられたマイクロフォンと、
前記マイクロフォンから各々2チャンネルの音声信号を取得し、取得された音声信号のうち、所定のマイクロフォンから取得された音声信号に対して、2チャンネルの音声信号の一方を遅延させる音声処理を行い、チャンネルごとにミキシングする音声処理部と、
前記音声処理部により音声処理を施され、ミキシングされた2つのチャンネルの前記音声信号の一方に対して、前記音声処理部による遅延分を補正する処理を行った後、当該2つのチャンネルの音声信号の和を取り、所定の発話区間の音声信号の信号パワーが元の信号パワーの整数倍に増大した場合に、その発話区間の音声信号が前記所定のマイクロフォンで収録された音声信号と判断する解析部と、
を備える音声収録システム。 - 複数の話者の音声を収録するシステムにおいて、
4人の話者に対応させたマイクロフォンと、
前記マイクロフォンにより収録された4つの2チャンネルの音声信号のうち、第1のマイクロフォンで収録された音声信号に対しては何ら加工を行わず、第2のマイクロフォンで収録された音声信号に対しては2チャンネルの一方の音声信号を極性反転し、第3のマイクロフォンで収録された音声信号に対しては2チャンネルの一方の音声信号を消去し、第4のマイクロフォンで収録された音声信号に対しては2チャンネルの他方の音声信号を消去し、かつこれらの音声信号をチャンネルごとにミキシングする音声処理部と、
前記音声処理部によって処理された2チャンネルの音声信号を録音する録音部と、
前記録音部により録音された音声を再生し、再生された2チャンネルの前記音声信号に対して、下記(1)〜(4)の解析を行う解析部と
を備える、音声収録システム。
(1)2チャンネルの前記音声信号を足し合わせて所定の発話区間の音声信号の信号パワーが増大した場合に、その発話区間の音声信号が前記第1のマイクロフォンで収録された音声信号と判断とする。
(2)2チャンネルの前記音声信号の差を取って所定の発話区間の音声信号の信号パワーが増大した場合に、その発話区間の音声信号が前記第2のマイクロフォンで収録された音声信号と判断とする。
(3)2チャンネルの前記音声信号のうち、所定の発話区間では特定の1つのチャンネルからのみ音声信号が取得される場合に、その発話区間の音声信号が前記第3のマイクロフォンで収録された音声信号と判断する。
(4)2チャンネルの前記音声信号のうち、所定の発話区間では前記特定の1つのチャンネルとは異なる他の1つのチャンネルからのみ音声信号が取得される場合に、その発話区間の音声信号が前記第4のマイクロフォンで収録された音声信号と判断する。 - コンピュータにより実現される音声処理手段が、話者ごとに設けられたマイクロフォンごとに収録された音声信号に対して、
所定のマイクロフォンから取得された音声信号に関して2チャンネルの音声信号の一方の極性を反転する第1の処理と、
所定のマイクロフォンから取得された音声信号に関して2チャンネルの音声信号の一方の信号パワーを所定の割合で変化させる第2の処理と、
所定のマイクロフォンから取得された音声信号に関して2チャンネルの音声信号の一方を遅延させる音声処理を行う第3の処理の、少なくともいずれか一つの音声処理を行い、チャンネルごとにミキシングする第1のステップと、
コンピュータにより実現される解析手段が、ミキシングされた音声信号を解析し、
ミキシングされた2つのチャンネルの前記音声信号の差を取り、所定の発話区間の音声信号の信号パワーが増大した場合に、その発話区間の音声信号が前記第1の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定し、
ミキシングされた2つのチャンネルの前記音声信号の一方の信号パワーを、前記第2の処理に対応する割合で逆方向に変化させ、当該2つのチャンネルの音声信号の和を取り、所定の発話区間の音声信号の信号パワーが元の信号パワーの整数倍に増大した場合に、その発話区間の音声信号が前記第2の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定し、
ミキシングされた2つのチャンネルの前記音声信号の一方に対して、前記音声処理部による遅延分を補正する処理を行った後、当該2つのチャンネルの音声信号の和を取り、所定の発話区間の音声信号の信号パワーが元の信号パワーの整数倍に増大した場合に、その発話区間の音声信号が前記第3の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定する第2のステップと、
を含む、音声処理方法。 - 前記音声処理手段が前記音声処理を施された音声信号を所定の記録媒体に録音するステップをさらに含み、
前記第2のステップでは、前記記録媒体に録音された音声を再生して解析し、話者を特定することを特徴とする請求項7に記載の音声処理方法。 - コンピュータを、
話者ごとに設けられたマイクロフォンごとに収録された音声信号に対して、
所定のマイクロフォンから取得された音声信号に関して2チャンネルの音声信号の一方の極性を反転する第1の処理と、
所定のマイクロフォンから取得された音声信号に関して2チャンネルの音声信号の一方の信号パワーを所定の割合で変化させる第2の処理と、
所定のマイクロフォンから取得された音声信号に関して2チャンネルの音声信号の一方を遅延させる音声処理を行う第3の処理の、少なくともいずれか一つの音声処理を行い、チャンネルごとにミキシングする音声処理手段と、
前記音声処理手段により音声処理を施され、ミキシングされた音声信号を解析し、
ミキシングされた2つのチャンネルの前記音声信号の差を取り、所定の発話区間の音声信号の信号パワーが増大した場合に、その発話区間の音声信号が前記第1の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定し、
ミキシングされた2つのチャンネルの前記音声信号の一方の信号パワーを、前記第2の処理に対応する割合で逆方向に変化させ、当該2つのチャンネルの音声信号の和を取り、所定の発話区間の音声信号の信号パワーが元の信号パワーの整数倍に増大した場合に、その発話区間の音声信号が前記第2の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定し、
ミキシングされた2つのチャンネルの前記音声信号の一方に対して、前記音声処理部による遅延分を補正する処理を行った後、当該2つのチャンネルの音声信号の和を取り、所定の発話区間の音声信号の信号パワーが元の信号パワーの整数倍に増大した場合に、その発話区間の音声信号が前記第3の処理が施された音声信号と判断し、当該音声信号を収録したマイクロフォンを特定する解析手段として、
機能させる、プログラム。 - 前記コンピュータを、前記音声処理手段により音声処理を施された音声信号を所定の記録媒体に録音する録音手段としてさらに機能させ、
前記解析手段では、前記コンピュータに、前記記録媒体に録音された音声を再生して解析することを特徴とする請求項9に記載のプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004156571A JP4082611B2 (ja) | 2004-05-26 | 2004-05-26 | 音声収録システム、音声処理方法およびプログラム |
US11/136,831 US7599836B2 (en) | 2004-05-26 | 2005-05-25 | Voice recording system, recording device, voice analysis device, voice recording method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004156571A JP4082611B2 (ja) | 2004-05-26 | 2004-05-26 | 音声収録システム、音声処理方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005338402A JP2005338402A (ja) | 2005-12-08 |
JP4082611B2 true JP4082611B2 (ja) | 2008-04-30 |
Family
ID=35426541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004156571A Expired - Fee Related JP4082611B2 (ja) | 2004-05-26 | 2004-05-26 | 音声収録システム、音声処理方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7599836B2 (ja) |
JP (1) | JP4082611B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11087767B2 (en) | 2018-11-16 | 2021-08-10 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8183013B2 (en) | 2005-11-24 | 2012-05-22 | Riken | Method for production of protein having non-natural type amino acid integrated therein |
US8395653B2 (en) | 2010-05-18 | 2013-03-12 | Polycom, Inc. | Videoconferencing endpoint having multiple voice-tracking cameras |
US9723260B2 (en) * | 2010-05-18 | 2017-08-01 | Polycom, Inc. | Voice tracking camera with speaker identification |
JP2013235050A (ja) * | 2012-05-07 | 2013-11-21 | Sony Corp | 情報処理装置及び方法、並びにプログラム |
WO2014097748A1 (ja) * | 2012-12-18 | 2014-06-26 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 特定の話者の音声を加工するための方法、並びに、その電子装置システム及び電子装置用プログラム |
JP5761318B2 (ja) * | 2013-11-29 | 2015-08-12 | ヤマハ株式会社 | 識別情報重畳装置 |
JP2014082770A (ja) * | 2013-11-29 | 2014-05-08 | Yamaha Corp | 表示装置およびオーディオ信号処理装置 |
CN106303876B (zh) * | 2015-05-19 | 2019-08-13 | 比亚迪股份有限公司 | 语音系统、异音检测方法及电子装置 |
CN109510905B (zh) * | 2018-12-06 | 2020-10-30 | 中通天鸿(北京)通信科技股份有限公司 | 多路语音的混音方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02257472A (ja) | 1989-03-29 | 1990-10-18 | Sharp Corp | Datを使った会議録作成方法 |
JPH10215331A (ja) | 1997-01-30 | 1998-08-11 | Toshiba Corp | 音声会議システムとその情報端末装置 |
US6457043B1 (en) * | 1998-10-23 | 2002-09-24 | Verizon Laboratories Inc. | Speaker identifier for multi-party conference |
WO2002063828A1 (en) * | 2001-02-06 | 2002-08-15 | Polycom Israel Ltd. | Control unit for multipoint multimedia/audio conference |
JP2003060792A (ja) | 2001-08-16 | 2003-02-28 | Fujitsu Ltd | 複数音声録音再生装置 |
JP2003114699A (ja) | 2001-10-03 | 2003-04-18 | Auto Network Gijutsu Kenkyusho:Kk | 車載音声認識システム |
-
2004
- 2004-05-26 JP JP2004156571A patent/JP4082611B2/ja not_active Expired - Fee Related
-
2005
- 2005-05-25 US US11/136,831 patent/US7599836B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11087767B2 (en) | 2018-11-16 | 2021-08-10 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
Also Published As
Publication number | Publication date |
---|---|
JP2005338402A (ja) | 2005-12-08 |
US7599836B2 (en) | 2009-10-06 |
US20050267762A1 (en) | 2005-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7599836B2 (en) | Voice recording system, recording device, voice analysis device, voice recording method and program | |
Zmolikova et al. | Neural target speech extraction: An overview | |
JP4558308B2 (ja) | 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム | |
JP5049117B2 (ja) | 音声および映像ソースデータを分離および評価する技術 | |
US20210243528A1 (en) | Spatial Audio Signal Filtering | |
US8315866B2 (en) | Generating representations of group interactions | |
US20050182627A1 (en) | Audio signal processing apparatus and audio signal processing method | |
JP2006301223A (ja) | 音声認識システム及び音声認識プログラム | |
JP5018773B2 (ja) | 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム | |
JP6594839B2 (ja) | 話者数推定装置、話者数推定方法、およびプログラム | |
WO2010024426A1 (ja) | 録音装置 | |
KR100930039B1 (ko) | 음성 인식기의 성능 평가 장치 및 그 방법 | |
JP2006209069A (ja) | 音声区間検出装置および音声区間検出プログラム | |
JP2006251545A (ja) | 音声対話システム及びコンピュータプログラム | |
JP2006330170A (ja) | 記録文書作成支援システム | |
JP3859612B2 (ja) | 会議録音・書き起こしシステム | |
WO2020195924A1 (ja) | 信号処理装置および方法、並びにプログラム | |
US20190272828A1 (en) | Speaker estimation method and speaker estimation device | |
Watanabe et al. | Communication support system of smart glasses for the hearing impaired | |
JP6942289B2 (ja) | 情報処理装置、サウンドマスキングシステム、制御方法、及び制御プログラム | |
JP4772041B2 (ja) | 音声トラック中の誤り自動検出方法及び装置 | |
JP2000099097A (ja) | 信号再生装置及び方法、音声信号再生装置、並びに、音声信号の速度変換方法 | |
US20060020457A1 (en) | Techniques for improving collaboration effectiveness | |
JP7007616B2 (ja) | 学習データ生成装置、学習データ生成方法およびプログラム | |
Katoh et al. | State estimation of meetings by information fusion using Bayesian network. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070802 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070828 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071122 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20080104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080129 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20080131 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080207 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110222 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110222 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110222 Year of fee payment: 3 |
|
S202 | Request for registration of non-exclusive licence |
Free format text: JAPANESE INTERMEDIATE CODE: R315201 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110222 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120222 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130222 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130222 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140222 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |