JP2017034519A

JP2017034519A - 音声処理装置、音声処理システム及び音声処理方法

Info

Publication number: JP2017034519A
Application number: JP2015153718A
Authority: JP
Inventors: 石橋　孝昭; Takaaki Ishibashi; 孝昭石橋; 清輝葉山; Kiyoteru Hayama
Original assignee: Institute of National Colleges of Technologies Japan
Current assignee: Institute of National Colleges of Technologies Japan
Priority date: 2015-08-03
Filing date: 2015-08-03
Publication date: 2017-02-09

Abstract

【課題】音声が入来する方向に関する感度である指向性とは異なり、空間上の一定の範囲内で発生する音声を選択的に強調又は当該一定範囲外で発生する音声を選択的に抑制することにより、当該一定範囲内で発生する音声を選択的に収録可能にする。【解決手段】音声を電気信号に変換する２以上の音声入力部と、２以上の前記音声入力部が出力する電気信号を重み付け合成することにより、前記音声入力部が設置された空間の特定エリア内の音声を強調又は抑制した音声信号を生成する音声合成部と、を備えることを特徴とする音声処理装置。【選択図】図１

Description

本発明は、音声処理装置、音声処理システム及び音声処理方法に関する。

従来、マイクロホンの指向性制御については種々の工夫が為されており、その一例として下記の特許文献１〜３がある。

特許文献１には、少なくとも３つの単一指向性のマイクロホン素子を指向性の主軸と直交する方向に略等間隔で配し、加算器を用いて各マイクロホン素子からの出力信号を加算している。各マイクロホン素子は、集音面が同一方向を向いている。このように、マイクロホン素子を配置して構成したマイクロホン装置では、音声認識装置の入力手段に要求される中音域で鋭い指向性が実現され、正面からの音声入力に対して高感度であり且つ側面から入力されるノイズ成分が極めて少ない集音を実現できる。

特許文献２には、基準マイクロホンと、当該基準マイクロホンを中心に配置される第１の１対のマイクロホンと、基準マイクロホンを中心に前記第１の１対のマイクロホンに直交して配置される第２の１対のマイクロホンと、前記基準マイクロホンを中心に前記第１の１対のマイクロホンおよび前記第２の１対のマイクロホンに対して４５度傾けて配置される第３の１対のマイクロホンとを同一平面上に備え、前記基準マイクロホン、第１、第２および第３の１対の各マイクロホンに基づく指向特性の主軸および／または指向性の鋭度を可変に制御するマイクロホン装置が開示されている。これにより、マイクロホンを中心とする左右の音源を分離してリアルタイムに音声収録又は音声認識をすることが可能になる。

特許文献３には、それぞれが実質的に同じ傾斜次数と周波数応答を有する３個以下のマイクロホンであって、各マイクロホンが各マイクロホンにおける音圧に応答する電気信号を生成する３個のマイクロホン、および、各マイクロホンから電気信号を受信するように結合され、各マイクロホンの傾斜次数よりも少なくとも２傾斜次数だけ高い傾斜次数を有する傾斜指向性マイクロホン・システムのための出力信号を生成するように動作するプロセッサによって構成される傾斜指向性マイクロホン・システムについて開示されている。この傾斜指向性マイクロホン・システムによれば、システムサイズと複雑性とを、従来に比較して実質的に軽減することができる。

特再公表平０８ー２５０１８号公報特開２００２−２７１８８５号公報特表平０８−５０５５１４号公報

ところで、ターゲット音声を録音するための従来のマイクロホン技術では、遅延和アレーによって超指向性マイクロホンを形成したり、適応型マイクロホンアレーで死角を形成したりすることで、雑音の少ないターゲット音声を録音している。しかしながら、指向性を鋭くするためには多数のマイクロホンが必要であり、高価になるという問題がある。

また、従来のマイクの指向性は、向きに対してのみ議論されており、マイクロホンと音源との距離についての議論は見当たらない。すなわち、指向性を様々に調整したとしても、マイク近傍の目的音の背後にある指向性の方向から入来する雑音も収録されてしまうという問題がある。

本発明は、音声が入来する方向に関する感度である指向性とは異なり、空間上の一定の範囲内で発生する音声を選択的に強調したり当該一定範囲外で発生する音声を選択的に抑制したりすることにより、当該一定範囲内で発生する音声を選択的に収録可能な音声処理装置、音声処理システム及び音声処理方法を実現することを目的とする。

本発明の態様の１つは、音声を電気信号に変換する２以上の音声入力部と、２以上の前記音声入力部が出力する電気信号を重み付け合成することにより、前記音声入力部が設置された空間に閉空間として形成される特定エリア内の音源から入来する音声を強調した音声信号を生成する音声合成部と、を備えることを特徴とする音声処理装置である。

このように構成された音声処理装置においては、２以上の音声入力部に入来した音声を変換して生成する電気信号を重みづけ合成するだけで、指向性とは異なる特定エリアという空間上の一定の範囲内の音源から入来する音声を選択的に強調した音声信号を生成することができる。これにより、当該特定エリア内で発生する音声が聞き取りやすく当該特定エリア外で発生する音声が聞き取りにくい音声をとすることが可能となる。

本発明の態様の１つは、音声を電気信号に変換する２以上の音声入力部と、２以上の前記音声入力部が出力する電気信号を重み付け合成することにより、前記音声入力部が設置された空間に閉空間として形成される特定エリア外の音源から入来する音声を抑制した音声信号を生成する音声合成部と、を備えることを特徴とする音声処理装置である。

このように構成された音声処理装置においては、２以上の音声入力部に入来した音声を変換して生成する電気信号を重みづけ合成するだけで、指向性とは異なる特定エリアという空間上の一定の範囲外の音源から入来する音声を選択的に抑制した音声信号を生成することができる。これにより、当該特定エリア外で発生する音声が聞き取りにくく当該特定エリア内で発生する音声が聞き取りやすい音声とすることが可能となる。

本発明の選択的な態様の１つは、前記音声合成部は、２以上の前記マイクロホン入力を所定のサンプリング周波数でアナログ／デジタル変換したデジタル音声信号をデジタル処理することにより前記重み付け合成を行うものであり、２以上の前記マイクロホンの間の間隔は、前記サンプリング周波数の半波長以下である、ことを特徴とする音声処理装置である。

このように構成された音声処理装置においては、２以上の前記マイクロホン入力を所定のサンプリング周波数でアナログ／デジタル変換したデジタル音声信号をデジタル処理するにあたり、同じ音源から入来する音声が各マイクロホンへ到達するまでの時間差が入力音声の波長に比べて十分に短く、両マイクロホンの入力音声の位相をほぼ同位相とみなせるため、入力音声の位相差の影響が無視できるようになる。

本発明の選択的な態様の１つは、位置情報を入力する位置情報入力手段を更に備え、前記音声合成部は、前記特定エリアが前記位置情報に対応する位置を含むように２以上の前記音声入力部が出力する電気信号を重み付け合成することを特徴とする音声処理装置である。

このように構成された音声処理装置においては、位置情報入力手段から入力された位置情報を含むように特定エリアを構成するため、その位置の音源から入来する音声を聞き取りやすくしたり、逆に、その位置の音源から入来する音声を聞き取りにくくしたりすることができる。位置情報入力手段が入力する位置情報としては、例えば、話者等のように録音したい音源の位置を示す情報や、ノイズ源等のように録音したくない音源の位置を示す情報等が例示される。

本発明の他の態様の１つは、音声を電気信号に変換する２以上の音声入力部と、２以上の前記音声入力部が出力する電気信号を重み付け合成することにより、前記音声入力部が設置された空間の特定エリア内の音源から入来する音声を強調した音声信号を生成する音声合成部と、を備えることを特徴とする音声処理システムである。

本発明の他の態様の１つは、音声を電気信号に変換する２以上の音声入力部と、２以上の前記音声入力部が出力する電気信号を重み付け合成することにより、前記音声入力部が設置された空間の特定エリア外の音源から入来する音声を抑制した音声信号を生成する音声合成部と、を備えることを特徴とする音声処理システムである。

本発明の他の態様の１つは、音声を電気信号に変換する２以上の音声入力部を用いて行う音声処理方法であって、２以上の前記音声入力部が出力する電気信号を重み付け合成することにより、前記音声入力部が設置された空間の特定エリア内の音源から入来する音声を強調した音声信号を生成することを特徴とする音声処理方法である。

本発明の他の態様の１つは、音声を電気信号に変換する２以上の音声入力部を用いて行う音声処理方法であって、２以上の前記音声入力部が出力する電気信号を重み付け合成することにより、前記音声入力部が設置された空間の特定エリア外の音源から入来する音声を抑制した音声信号を生成することを特徴とする音声処理方法である。

なお、上述した音声処理装置や音声処理システムは、他の機器に組み込まれた状態で実施されたり他の方法とともに実施されたりする等の各種の態様を含む。また、上述した音声処理方法は、他の方法の一環として実施されたりする等の各種の態様を含む。また、上述した音声処理方法の構成に対応した機能をコンピュータに実現させるプログラム、該プログラムを記録したコンピュータ読み取り可能な記録媒体、等としても実現可能である。

請求項１，５，７に係る発明によれば、２以上の音声入力部に入来した音声を変換して生成する電気信号を重みづけ合成するだけで、指向性とは異なる特定エリアという空間上の一定の範囲内の音源から入来する音声を選択的に強調した音声信号を生成することができる。これにより、当該特定エリア内で発生する音声が聞き取りやすく当該特定エリア外で発生する音声が聞き取りにくい音声とすることが可能となる。

請求項２，６，８に係る発明によれば、２以上の音声入力部に入来した音声を変換して生成する電気信号を重みづけ合成するだけで、特定エリアという空間上の一定の範囲外の音源から入来する音声を選択的に抑制した音声信号を生成することができる。これにより、当該特定エリア外で発生する音声が聞き取りにくく当該特定エリア内で発生する音声が聞き取りやすい音声とすることが可能となる。

請求項３に係る発明によれば、２以上の前記マイクロホン入力を所定のサンプリング周波数でアナログ／デジタル変換したデジタル音声信号をデジタル処理するにあたり、入力音声の位相差の影響が無視できるようになる。

請求項４に係る発明によれば、位置情報入力手段から入力された位置情報を含むように特定エリアを構成するため、その位置の音源から入来する音声を聞き取りやすくしたり、逆に、その位置の音源から入来する音声を聞き取りにくくしたりすることができる。

第１の実施形態の音声処理装置の概略構成を示すブロック図である。音声入力部の指向性を示す図である。２つの音声信号を単純加算した合成音声信号の特定エリアを示す図である。２つの音声信号を重み付け加算した合成音声信号の特定エリアを示す図である。２つの音声信号を単純減算した合成音声信号の特定エリアを示す図である。２つの音声信号を重み付け減算した合成音声信号の特定エリアを示す図である。第２の実施形態の音声処理装置の概略構成を示すブロック図である。左２つの音声信号を重み付け加算した合成音声信号の特定エリアを示す図である。右２つの音声信号を重み付け加算した合成音声信号の特定エリアを示す図である。３つの音声信号を加算した合成音声信号の特定エリアを示す図である。第３の実施形態の音声処理装置の構成を示す図である。

以下、下記の順序に従って本技術を説明する。
（１）第１の実施形態：
（２）第２の実施形態：
（３）第３の実施形態：

（１）第１の実施形態：
図１は、本実施形態の音声処理装置１００の概略構成を示すブロック図である。

音声処理装置１００は、音声を電気信号に変換する２以上の音声入力部としての音声入力部１１，１２、音声入力部１１，１２が出力する音声信号を重み付けし合成して合成音声信号Ｓｍｉｘを生成する音声合成部２０、音声合成部２０が出力する合成音声信号Ｓｍｉｘを音声に変換する音声出力部３０、及び、音声処理装置１００を操作するための操作部４０を備える。

音声処理装置１００は、液晶表示パネル等の表示部を更に備えてもよく、表示部は、音声入力部１１，１２への音声入力状況、音声合成部２０における音声処理状況、音声出力部３０における音声出力状況、操作部４０の操作メニュー、等の表示を行う。

音声入力部１１，１２は、入来する音声を電気信号に変換するものである。音声入力部１１は入来する音声に応じた音声信号Ｓ１１を出力し、音声入力部１２は入来する音声に応じた音声信号Ｓ１２を出力する。本実施形態においては各音声入力部をマイクロホンで構成した場合を例にとり説明する。

なお、音声入力部１１，１２は、単一のマイクロホンで構成してもよいし、複数のマイクロホンで構成してもよい。複数のマイクロホンで１つの音声入力部を構成する場合は、音声入力部は、当該１つの音声入力部を構成する複数のマイクロホン出力を合成した電気信号を音声信号として出力する。

また、本実施形態では、音声入力部１１，１２が同じ感度であるものとして説明を行うが、音声入力部の感度は異なってもよく、その場合、後述する重み付けと同様の重み付けが予め音声信号に為されているのと同じこととなる。

図２は、音声入力部１１，１２の指向性を示す図である。同図及び後述する図３〜図５においては、音声入力部１１，１２の指向性を２点鎖線で示してある。

図２には、音声入力部１１，１２としてＥＣＭ（エレクトレットコンデンサマイクロホン）の記号を示し、音声入力部１１，１２は、単一指向性に似た指向性を図示してある。ただし、音声入力部１１，１２を構成するマイクロホンの種類はこれに限るものではなく、各音声入力部の指向性の種類にも特に制限等は無く、様々な指向性を採用可能である（全指向性（無指向性）、双指向性、単一指向性、狭指向性、鋭指向性、超指向性、等）。また、後述する音声合成による特定エリアの形成範囲の制御が複雑になるものの、各音声入力部の指向性は同一である必要はない。

音声合成部２０は、マイクロコンピュータ等の演算処理能力を有する演算部２１、音声入力部の数に応じた複数の信号入力ポート２２，２３、音声出力部の数に応じた数の音声出力ポート２４、及び、制御部の数に応じた数の制御信号入力ポート２５を有する。

信号入力ポート２２，２３には、音声入力部１１，１２からそれぞれ音声信号Ｓ１１，Ｓ１２が入力される。信号出力ポート２４からは合成音声信号Ｓｍｉｘが出力される。制御信号入力ポート２５には操作部４０から音声合成部２０内で実行する演算処理を制御する制御信号Ｓｃが入力される。

なお、後述する特定エリアを操作部４０の操作に応じて変更したり後述する音源位置に基づいて変更したりせずに固定とする場合は、操作部４０を設けなくともよい。この場合、音声合成部２０の制御信号入力ポート２５についても設けなくともよい。

音声出力部３０は、入力される合成音声信号Ｓｍｉｘを音声に変換して出力する。音声出力部３０は、いわゆるスピーカにより構成することができる。なお、音声出力部３０は、音声処理装置１００の必須構成ではなく、イヤホンジャックやラインアウト端子等の出力ポートを設けて音声出力部としてのヘッドホンやスピーカ等を外部接続可能に構成してもよい。

以下、音声合成部２０が実行する音声合成の一例について説明する。以下で説明する音声合成では、音声信号をアナログ／デジタル変換して生成したデジタル音声信号を用いたデジタル演算処理を利用した音声合成について説明する。

むろん、音声合成は、デジタル演算処理に限るものではなく、各音声入力部から入力される音声信号をアナログのままアナログ回路を用いて加算、減算等の合成を行うことで同様の合成音声信号を得ることもできる。

本実施形態に係る演算処理では、音声入力部１１，１２が出力する音声信号Ｓ１１，Ｓ１２を重み付けしつつ合成するデジタル演算処理を行うことにより、音声入力部１１，１２が設置された空間の特定エリア内の音源から入来する音声を強調した合成音声信号Ｓｍｉｘ、又は、当該特定エリア内の音源から入来する音声を抑制した合成音声信号Ｓｍｉｘを生成する。

デジタル演算処理を行う場合、複数の音声入力部を構成する音声入力部１１，１２の距離は、サンプリング周波数の波長以下とする。これにより、同じ音源から入来する音声が各マイクロホンへ到達するまでの時間差が入力音声の波長に比べて十分に短くなり、両マイクロホンの入力音声の位相をほぼ同位相とみなせることとなり、入力音声の位相差の影響が無視できるようになる。

サンプリング周波数（実際には、そのサンプリング周波数で検出可能な最大周波数）は、ターゲット音声の周波数に応じて決定される。例えば、ターゲット音声を人声とする場合、人声の周波数（３ｋＨｚ〜４ｋＨｚ）の約２倍の周波数をサンプリング周波数（８ｋＨｚ等）とし、音声入力部１１，１２の音声入力中心１１ｃ，１２ｃの距離をサンプリング周波数の波長（約５ｃｍ）以下に設定する。

このように構成した音声処理装置１００においては、音声入力部１１，１２の音声信号Ｓ１１，Ｓ１２を加算、減算することにより、特定エリア内の音源から入来する音声を強調したり、特定エリア外の音源から入来する音声を抑制したりすることができる。

すなわち、音声信号Ｓ１１，Ｓ１２を加算すると、音声入力部１１，１２近傍の音源の音声については強調され、音声入力部１１，１２から離間した音源から入来する音声ほど音声の強調度合いが減少するため相対的に音声が抑制される。なお、音声入力部１１，１２近傍とは、半径がターゲット音声の周波数の１波長程度の範囲であり、この範囲の重心は音声入力部１１，１２の指向性に応じて変動する。

また、音声信号Ｓ１１，Ｓ１２を減算すると、音声入力部１１，１２近傍の音声入力部１１，１２の中間距離の音源の音声は音量が拮抗するため互いに打ち消し合って抑制される一方、この中間距離を除く音声入力部１１，１２それぞれの近傍の音源の音声については音声信号Ｓ１１，Ｓ１２の間で有意な音量差が生じるため抑制されずに音声が残る。他方、音声入力部１１，１２遠方の音源の音声については音声信号Ｓ１１，Ｓ１２の間の音量差が徐々に減少して均一化していくため、音声信号Ｓ１１，Ｓ１２を減算することで互いに打ち消し合って抑制される。

以下では、音声が強調される特定エリア又は音声が抑制されない特定エリアを有感エリアＲｐとし、有感エリアＲｐ以外のエリアを不感エリアＲｎとして説明する。なお、図３〜図５においては、音声入力部１１，１２の指向性を２点鎖線で示し、特定エリアの境界については1点鎖線で示してある。

図３〜図５は、デジタル演算処理により合成音声信号Ｓｍｉｘを生成する場合の特定エリアを説明する図をそれぞれ示してある。

図３には、音声信号Ｓ１１と音声信号Ｓ１２を単純加算した合成音声信号Ｓｍｉｘの有感エリアＲｐと不感エリアＲｎを示してある。同図において、有感エリアＲｐは、音声入力部１１と音声入力部１２の略中間を通る線上のいずれかの点を重心（本実施形態では音声入力部１１，１２が指向性を有しているため重心は音声入力部１１，１２の前方に位置する）とする閉空間内に形成され、当該閉空間外に不感エリアＲｎが形成される。

図４には、重みづけをして音声信号Ｓ１１と音声信号Ｓ１２を加算した合成音声信号Ｓｍｉｘの有感エリアＲｐと不感エリアＲｎを示してある。同図に示す例では、音声信号Ｓ１１の重みづけを音声信号Ｓ１２よりも大きくしてある。この場合、単純加算した場合に比べて、有感エリアＲｐの閉空間の重心が音声入力部１１寄りに位置し、この有感エリアＲｐの閉空間外が不感エリアＲｎとなる。すなわち、音声信号を加算した場合、有感エリアＲｐの閉空間の重心は、重み付けの大きい音声入力部寄りに位置することになる。

図５には、音声信号Ｓ１１から音声信号Ｓ１２を単純減算した合成音声信号Ｓｍｉｘの有感エリアＲｐと不感エリアＲｎを示してある。同図では、有感エリアＲｐとして、音声入力部１１寄りの有感エリアＲｐと音声入力部１２寄りの有感エリアＲｐとが形成される。一方の有感エリアＲｐは、音声入力部１１の外方を通る線上のいずれかの点を重心とする閉空間内に形成され、他方の有感エリアＲｐは、音声入力部１２の外方を通る線上のいずれかの点を重心とする閉空間内に形成され、不感エリアＲｎは、これら閉空間外に形成される。

図６には、重みづけをして音声信号Ｓ１１から音声信号Ｓ１２を減算した合成音声信号Ｓｍｉｘの有感エリアＲｐと不感エリアＲｎを示してある。同図に示す例では、音声信号Ｓ１１の重みづけを音声信号Ｓ１２よりも大きくしてある。

この場合も、有感エリアＲｐとして、音声入力部１１寄りの有感エリアＲｐ１と音声入力部１２寄りの有感エリアＲｐ２とが形成されるが、音声入力部１１寄りの有感エリアＲｐ１は音声入力部１２寄りの有感エリアＲｐ２よりも大きく形成され、有感エリアＲｐ１の閉空間の重心の音声入力部１１からの離間度は、有感エリアＲｐ２の閉空間の重心の音声入力部１２からの離間度よりも大きくなる。

すなわち、音声信号Ｓ１１，Ｓ１２を減算した場合、重み付けの大きい音声信号の音声入力部寄りの有感エリアＲｐは、重み付けの小さい音声信号の音声入力部寄りの有感エリアＲｐに比べて広く形成される。また、重み付けの大きい音声信号の音声入力部寄りに形成される有感エリアＲｐの重心の当該音声入力部からの離間度は、重み付けの小さい音声信号の音声入力部寄りに形成される有感エリアＲｐの重心の当該音声入力部からの離間度よりも大きくなる。

このように、２つの音声入力部を有する音声処理装置１００では、一定の範囲内に形成される閉空間としての有感エリアＲｐ内の音源から入来する音声を強調したり、有感エリアＲｐ外の不感エリアＲｎの音源から入来する音声を抑制した合成音声信号Ｓｍｉｘを生成したりすることができる。また、音声信号Ｓ１１と音声信号Ｓ１２の重みづけを調整することにより、有感エリアＲｐ及び不感エリアＲｎの範囲を増減調整したり、有感エリアＲｐと不感エリアＲｎの形成位置を調整したりすることができる。

（２）第２の実施形態：
図７は、本実施形態の音声処理装置２００の概略構成を示すブロック図である。同図に示す音声処理装置２００は、音声入力部の数が３つである点を除くと音声処理装置１００と同様の構成であるため、音声処理装置１００と共通する構成については第１の実施形態と同じ符号を付して詳細な説明を省略する。なお、音声入力部１３の構成は他の音声入力部１１，１２と同様であり、音声入力部１３は音声信号Ｓ１３を音声合成部２０の信号入力ポート２６へ入力する。

音声入力部１１〜１３は、３つの音声入力部が直線上に並ばないように、それぞれが互いに異なる三角形の頂点を構成する位置関係で配置される。デジタル演算処理を行う場合、複数の音声入力部を構成する音声入力部１１，１２，１３のそれぞれの間の距離は、サンプリング周波数の波長以下とする。

このように構成した音声処理装置２００によれば、音声入力部１１，１２，１３の音声信号Ｓ１１，Ｓ１２，Ｓ１３を加算・減算することにより、様々な位置と形状で特定エリアを形成し、特定エリア内の音源から入来する音声を強調したり、特定エリア外の音源から入来する音声を抑制したりすることができる。

図８〜図１０には、３入力構成の音声処理装置２００を用いたデジタル演算処理により合成音声信号Ｓｍｉｘを生成する場合の特定エリアを説明する図をそれぞれ示してある。

図８には、重みづけをして音声信号Ｓ１３から音声信号Ｓ１１を減算した合成音声信号Ｓｍｉｘの有感エリアＲｐと不感エリアＲｎを示してある。同図に示す例では、音声信号Ｓ１３の重みづけを音声信号Ｓ１１よりも大きくしてある。この場合、図６に示す有感エリアＲｐと不感エリアＲｎと同様に、有感エリアＲｐとして、音声入力部１３寄りの有感エリアＲｐと音声入力部１１寄りの有感エリアＲｐとが形成されるが、音声入力部１３寄りの有感エリアＲｐは音声入力部１１寄りの有感エリアＲｐよりも大きく形成され、大きく形成される有感エリアＲｐの閉空間の重心の音声入力部１３からの離間度は、小さく形成される有感エリアＲｐの閉空間の重心の音声入力部１１からの離間度よりも大きくなる。

図９には、重みづけをして音声信号Ｓ１３から音声信号Ｓ１２を減算した合成音声信号Ｓｍｉｘの有感エリアＲｐと不感エリアＲｎを示してある。同図に示す例では、音声信号Ｓ１３の重みづけを音声信号Ｓ１２よりも大きくしてある。この場合も、図６に示す有感エリアＲｐと不感エリアＲｎと同様に、有感エリアＲｐとして、音声入力部１３寄りの有感エリアＲｐと音声入力部１２寄りの有感エリアＲｐとが形成されるが、音声入力部１３寄りの有感エリアＲｐは音声入力部１２寄りの有感エリアＲｐよりも大きく形成され、大きく形成される有感エリアＲｐの閉空間の重心の音声入力部１３からの離間度は、小さく形成される有感エリアＲｐの閉空間の重心の音声入力部１２からの離間度よりも大きくなる。

図１０には、図８に示す重み付け減算の結果と図９に示す重みづけ減算の結果とを単純加算した合成音声信号Ｓｍｉｘの有感エリアＲｐと不感エリアＲｎを示してある。同図に示す例では、図８と図９とでそれぞれ音声入力部１３付近に形成された有感エリアＲｐが加算され、これら有感エリアＲｐの双方を含みつつ音声入力部１３の指向性の方向に広い有感エリアＲｐが形成される。

このように、音声入力部を３つそれぞれが三角形の頂点位置となる位置関係で配置することにより、音声入力部が２つの場合に比べて、有感エリアＲｐの形成される位置や大きさを、３つの音声入力部が配置される平面の延びる方向において、高い自由度で調整可能になる。

更に言えば、音声入力部を４つそれぞれが三角錐の頂点位置となる位置関係で配置することにより、有感エリアＲｐの形成される位置や大きさを、４つの音声入力部が配置される３次元空間において様々に調整可能になる。

また、録音したい所望の音源の方向と距離が判明すれば、当該音源のあるエリアに感度を持つ有感エリアＲｐが形成される演算処理を行い、当該音源の発する音声が選択的に録音された合成音声信号Ｓｍｉｘを生成することも可能である。また、逆に、録音したくない所望の音源の方向と距離が判明すれば、当該音源のあるエリアに感度を持たない有感エリアＲｐが形成される演算処理を行い、当該音源の発する音声が選択的に録音されない合成音声信号Ｓｍｉｘを生成することも可能である。むろん、録音したい所望の音源の音声を録音しつつ録音したくない所望の音源を録音しない合成音声信号Ｓｍｉｘを生成することも可能である。なお、所望の音源の方向と距離は、利用者が操作部の操作により指定して演算部に入力してもよいし、公知の又は今後開発される様々な手法で所望の音源（例えば、話者）の位置を自動的に特定して演算部に入力してもよい。

（３）第３の実施形態：
図１１は、音声処理装置を具体的に実現した回路の一例を示す図である。

同図に示す音声処理装置３００においては、それぞれ１０ｋΩの抵抗Ｒ１，Ｒ１，Ｒ１と直列接続したコンデンサマイク３１１，３１２，３１３で、定電圧源Ｖｃｃ（３．３Ｖ等）とグランドＧｎｄの間をそれぞれ接続してある。抵抗Ｒとコンデンサマイク３１１，３１２，３１３の接続点Ｊ１，Ｊ２，Ｊ３は、マイクロコンピュータ３２０の入力ポート３２１，３２２，３２３にそれぞれ接続されている。コンデンサマイク３１１，３１２，３１３と入力ポート３２１，３２２，３２３の間は、位相関係を可能な限り忠実に伝送することが望ましく、図１１では伝送信号に位相変動を発生させる素子であるキャパシタを介さず直結してある。

入力ポート３２１，３２２，３２３へ入力される電圧はマイクロコンピュータ３２０内のアナログ／デジタル変換部によりデジタル信号に変換され、このデジタル信号を用いてマイクロコンピュータ３２０内の演算部３２４が合成音声信号Ｓｍｉｘを生成する。デジタルの合成音声信号Ｓｍｉｘは、マイクロコンピュータ３２０内のデジタル／アナログ変換部によりアナログ信号に変換され、マイクロコンピュータ３２０の出力ポート３２５にアナログ出力される。

図１１に示す音声処理装置３００においては、コンデンサマイク３１１，３１２，３１３がそれぞれ音声入力部を構成し、マイクロコンピュータ３２０が音声合成部を構成する。

出力ポート３２５は、抵抗Ｒ２を介してオペアンプＯｐの非反転入力端子に接続されており、オペアンプＯｐの反転入力端子には、オペアンプＯｐの出力端子電圧を一定割合に抵抗分割した電圧がフィードバック入力されている。オペアンプＯｐは、非反転増幅回路として機能する。オペアンプＯｐの出力端子には、コンデンサＣを介してスピーカ等が接続される出力端子３３０が設けられており、出力端子３３０へは直流分がカットされた合成音声信号Ｓｍｉｘが入力される。

以上のように構成した音声処理装置３００は、マイクロコンピュータ３２０内のプログラムによって次のように動作する。

マイクロコンピュータ３２０内では、装置が起動すると、まず各種変数の初期化等の起動処理を行った後、各コンデンサマイクからの入力のゼロレベルのセットを行う。このゼロレベルのセットは、例えば、無音状態で各コンデンサマイクの出力を所定回数積算し、当該所定回数で割ることで直流分を検出することにより行う。

次に、ターゲット音声の周波数以上に設定されたサンプリング周波数（ターゲット音声が人声の場合、人声の周波数（３ｋＨｚ〜４ｋＨｚ）の約２倍の８ｋＨｚ等）で繰り返しコンデンサマイク３１１，３１２，３１３からの音声入力をＡ／Ｄ変換（アナログ／デジタル変換）して取得し、上述した特定エリアの音声を強調又は抑制する演算を行い、その結果として生成される合成音声信号Ｓｍｉｘを出力ポート３２５にアナログ出力する。

なお、本発明は上述した実施形態に限られず、上述した実施形態の中で開示した各構成を相互に置換したり組み合わせを変更したりした構成、公知技術並びに上述した実施形態の中で開示した各構成を相互に置換したり組み合わせを変更したりした構成、等も含まれる。また，本発明の技術的範囲は上述した実施形態に限定されず，特許請求の範囲に記載された事項とその均等物まで及ぶものである。

１１…音声入力部、１２…音声入力部、１３…音声入力部、２０…音声合成部、２１…演算部、２２…信号入力ポート、２３…信号入力ポート、２４…音声出力ポート、２５…制御信号入力ポート、３０…音声出力部、４０…操作部、１００…音声処理装置、２００…音声処理装置、３００…音声処理装置、３１１…コンデンサマイク、３１２…コンデンサマイク、３２０…マイクロコンピュータ、３２１…入力ポート、３２２…入力ポート、３２３…演算部、３２４…アナログ変換部、３２５…アナログ変換部、３２６…出力ポート、３３０…出力端子、Ｒｎ…不感エリア、Ｒｐ…有感エリア

Claims

音声を電気信号に変換する２以上の音声入力部と、
２以上の前記音声入力部が出力する電気信号を重み付け合成することにより、前記音声入力部が設置された空間に閉空間として形成される特定エリア内の音源から入来する音声を強調した音声信号を生成する音声合成部と、
を備えることを特徴とする音声処理装置。
音声を電気信号に変換する２以上の音声入力部と、
２以上の前記音声入力部が出力する電気信号を重み付け合成することにより、前記音声入力部が設置された空間に閉空間として形成される特定エリア外の音源から入来する音声を抑制した音声信号を生成する音声合成部と、
を備えることを特徴とする音声処理装置。
前記音声合成部は、２以上の前記マイクロホン入力を所定のサンプリング周波数でアナログ／デジタル変換したデジタル音声信号をデジタル処理することにより前記重み付け合成を行うものであり、
２以上の前記マイクロホンの間の間隔は、前記サンプリング周波数の半波長以下である、ことを特徴とする請求項１又は請求項２に記載の音声処理装置。
位置情報を入力する位置情報入力手段を更に備え、
前記音声合成部は、前記特定エリアが前記位置情報に対応する位置を含むように２以上の前記音声入力部が出力する電気信号を重み付け合成する、ことを特徴とする請求項１〜請求項３の何れか１項に記載の音声処理装置。
音声を電気信号に変換する２以上の音声入力部と、
２以上の前記音声入力部が出力する電気信号を重み付け合成することにより、前記音声入力部が設置された空間の特定エリア内の音源から入来する音声を強調した音声信号を生成する音声合成部と、
を備えることを特徴とする音声処理システム。
音声を電気信号に変換する２以上の音声入力部と、
２以上の前記音声入力部が出力する電気信号を重み付け合成することにより、前記音声入力部が設置された空間の特定エリア外の音源から入来する音声を抑制した音声信号を生成する音声合成部と、
を備えることを特徴とする音声処理システム。
音声を電気信号に変換する２以上の音声入力部を用いて行う音声処理方法であって、
２以上の前記音声入力部が出力する電気信号を重み付け合成することにより、前記音声入力部が設置された空間の特定エリア内の音源から入来する音声を強調した音声信号を生成することを特徴とする音声処理方法。
音声を電気信号に変換する２以上の音声入力部を用いて行う音声処理方法であって、
２以上の前記音声入力部が出力する電気信号を重み付け合成することにより、前記音声入力部が設置された空間の特定エリア外の音源から入来する音声を抑制した音声信号を生成することを特徴とする音声処理方法。