JP2015222847A - 音声処理装置、音声処理方法および音声処理プログラム - Google Patents

音声処理装置、音声処理方法および音声処理プログラム Download PDF

Info

Publication number
JP2015222847A
JP2015222847A JP2014105825A JP2014105825A JP2015222847A JP 2015222847 A JP2015222847 A JP 2015222847A JP 2014105825 A JP2014105825 A JP 2014105825A JP 2014105825 A JP2014105825 A JP 2014105825A JP 2015222847 A JP2015222847 A JP 2015222847A
Authority
JP
Japan
Prior art keywords
voice
user
phase difference
sound
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2014105825A
Other languages
English (en)
Inventor
千里 塩田
Chisato Shioda
千里 塩田
太郎 外川
Taro Togawa
太郎 外川
猛 大谷
Takeshi Otani
猛 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014105825A priority Critical patent/JP2015222847A/ja
Priority to US14/711,284 priority patent/US20150340048A1/en
Priority to EP15168123.6A priority patent/EP2947659A1/en
Publication of JP2015222847A publication Critical patent/JP2015222847A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】音声が聞き取り易くなる音声処理装置を提供する。
【解決手段】音声処理装置1は、第2ユーザよりも第1ユーザに近接する第1マイク9に入力される、第1ユーザの第1音声と第2ユーザの第2音声と、第1ユーザよりも第2ユーザに近接する第2マイク11に入力される、第1ユーザの第3音声と第2ユーザの第4音声と、を含む複数音声を、通信網117を介して受信する受信部2を備える。更に、受信部が受信する、第1音声と第2音声の第1位相差、ならびに第3音声と第4音声の第2位相差を算出する算出部3を備える。更に、第2ユーザよりも第1ユーザに近接する第1スピーカ10に対する、第2音声または第4音声の送信を、第1位相差と第2位相差に基づいて制御、または、第1ユーザよりも第2ユーザに近接する第2スピーカに対する、第1音声または第3音声の送信を、第1位相差と第2位相差に基づいて制御する制御部5を備える。
【選択図】図1

Description

本発明は、例えば、音声信号を制御する音声処理装置、音声処理方法および音声処理プログラムに関する。
近年、パケットに変換された音声信号をインターネット回線でリアルタイムに伝送するVoIP(Voice over Internet Protocol)を利用した音声処理装置やソフトウェアアプリケーションが利用されている。VoIPを利用した音声処理装置やソフトウェアアプリケーションにおいては、公衆交換電話網を介さずに複数のユーザ間で通話が実施出来る利点に加えて、テキストデータや画像データを通話中に送受信出来る利点等を有している。また、VoIPを利用した音声処理装置において、インターネット回線による通信遅延の変動の影響を、音声処理装置のバッファで緩和する方法も開示されている。
Goode, B., "Voice over Internet protocol (VoIP)", Proceedings of the IEEE, vol. 90, issue 9, Sep 2002
VoIPを利用した音声処理装置は、回線を占有する公衆交換電話網とは異なり、既存のインターネット回線を利用する為、音声信号が受話音として届くまで300msec程度の遅延が生じる。この為、例えば、複数のユーザで通話を行う場合、互いに距離が遠いユーザ同士は、互いの音声を受話音のみから聞き取ることになるが、互いに距離が近いユーザ同士は、互いの音声を受話音と直接音の2つから、300msec程度の時間差を有する状態で重畳的に聞き取ることになる為、音声が聞き取り難くなる問題が生じる。本発明においては、音声が聞き取り易くなる音声処理装置を提供することを目的とする。
本発明が開示する音声処理装置は、第2ユーザよりも第1ユーザに近接する第1マイクに入力される、第1ユーザの第1音声と第2ユーザの第2音声と、第1ユーザよりも第2ユーザに近接する第2マイクに入力される、第1ユーザの第3音声と第2ユーザの第4音声と、を含む複数音声を、通信網を介して受信する受信部を備える。更に当該音声処理装置は、受信部が受信する、第1音声と第2音声の第1位相差、ならびに第3音声と第4音声の第2位相差を算出する算出部を備える。更に当該音声処理装置は、第2ユーザよりも第1ユーザに近接する第1スピーカに対する、第2音声または第4音声の送信を、第1位相差と第2位相差に基づいて制御、または、第1ユーザよりも第2ユーザに近接する第2スピーカに対する、第1音声または第3音声の送信を、第1位相差と第2位相差に基づいて制御する制御部を備える。
なお、本発明の目的及び利点は、例えば、請求項におけるエレメント及び組み合わせにより実現され、かつ達成されるものである。また、上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を制限するものではないことを理解されたい。
本明細書に開示される音声処理装置では、音声の聞き取り易さを向上させることが可能となる。
第1の実施形態による音声処理装置の機能ブロック図を含むハードウェア構成図である。 音声処理装置の音声処理の第1のフローチャートである。 一つの実施形態による算出部の機能ブロック図である。 算出部による有音区間と無音区間の検出結果を示す図である。 (a)は、第1ユーザ、第2ユーザ、第1マイク、ならびに、第2マイクの位置関係を示す図である。(b)は、第1位相差と第2位相差の概念図である。 遅延による推定距離の誤差発生の概念図である。 (a)は、遅延が発生していない場合の第1位相差と第2位相差の概念図である。(b)は、遅延が第1マイクに発生している場合の第1位相差と第2位相差の概念図である。(c)は、遅延が第1マイクと第2マイクの双方に発生している場合の第1位相差と第2位相差の概念図である。 音声処理装置の音声処理の第2のフローチャートである。 (a)は位相差テーブルのデータ構造の一例である。(b)は端末間位相差テーブルのデータ構造の一例である。 音声処理装置の音声処理の第3のフローチャートである。 一つの実施形態による音声処理装置として機能するコンピュータのハードウェア構成図である。
以下に、一つの実施形態による音声処理装置、音声処理方法及び音声処理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例は、開示の技術を限定するものではない。
(実施例1)
図1は、一つの実施形態による音声処理装置1の機能ブロック図を含むハードウェア構成図である。音声処理装置1は、受信部2、算出部3、推定部4、制御部5を有する。音声処理装置1は、通信網の一例となる有線回路または無線回路のネットワーク117を介して、複数の端末(例えば、PCやソフトウェアアプリケーションがインストール可能な高機能携帯端末)が接続される。例えば、第1端末6には、第1マイク9と第1スピーカ10が接続され、当該第1マイク9と第1スピーカ10は、第1ユーザに近接した状態で配置される。また、第2端末7には、第2マイク11と第2スピーカ12が接続され、当該第2マイク11と第2スピーカ12は、第2ユーザに近接した状態で配置される。更に、第n端末8には、第nマイク13と第nスピーカ14が接続され、当該第nマイク13と第nスピーカ14は、第nユーザに近接した状態で配置される。図2は、音声処理装置1の音声処理の第1のフローチャートである。実施例1においては、図2に示す音声処理装置1による音声処理のフローを、図1に示す音声処理装置1の機能ブロック図の各機能の説明に対応付けて説明する。
実施例1においては、説明の便宜上、第1ユーザと第2ユーザは、同一の拠点(フロアと称しても良い)に存在し、互いに近接するものとし、第1マイク9には第1ユーザの第1音声と第2ユーザの第2音声が入力される(換言すると、第1ユーザは第1マイク9に対して発話しても、第2マイク11も当該発話を収音する)。また、第2マイク1には第1ユーザの第3音声と第2ユーザの第4音声が入力される(換言すると、第2ユーザは第2マイク11に対して発話しても、第1マイク9も当該発話を収音する)。ここで、第1音声と第3音声は、第1ユーザが時系列に沿って発話する任意の時間(区間と称しても良い)の音声であり、第2音声と第4音声は、第2ユーザが時系列に沿って発話する任意の時間(区間と称しても良い)の音声である。更に、第1音声と第3音声の発話内容は同一であり、第2音声と第4音声の発話内容は同一である。換言すると、図1において、第1ユーザ、第2ユーザ、第1マイク9、ならびに、第2マイク11の位置関係を考慮した場合、第1ユーザが第1マイク9に対して発話した場合、当該発話内容が、第1音声として第1マイク9に対して入力されると同時に、当該発話内容の音波が空気中を伝搬して第3音声として第2マイク11に対して入力される。同様に、第2ユーザが第2マイク11に対して発話した場合、当該発話内容が、第4音声として第2マイク11に対して入力されると同時に、当該発話内容の音波が空気中を伝搬して第2音声として第1マイク9に対して入力される。
受信部2は、例えば、ワイヤードロジックによるハードウェア回路である。また、受信部2は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。受信部2は、第1マイク9〜第nマイク13に入力される複数の入力音声(複数音声と称しても良い)を、第1端末6〜第n端末8ならびに通信網の一例となるネットワーク117を介して受信する。なお、当該処理は、図2に示すフローチャートのステップS201に対応する。受信部2は、例えば、第1音声、第2音声、第3音声ならびに第4音声を含む複数音声を算出部3に出力する。
算出部3は、例えば、ワイヤードロジックによるハードウェア回路である。また、算出部3は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。算出部3は、第1音声、第2音声、第3音声ならびに第4音声を含む複数音声(複数の入力音声と称しても良い)を受信部2から受け取る。算出部3は、例えば、第1マイク9と第2マイク11に入力される入力音声を有音区間と無音区間に区別し、当該有音区間から第1音声、第2音声、第3音声ならびに第4音声を一意に特定する。
始めに、算出部3における入力音声を有音区間と無音区間に区別する方法について説明する。なお、当該処理は、図2に示すフローチャートのステップS202に対応する。算出部3は、入力音声に含まれる有音区間を示す呼気区間を検出する。なお、呼気区間は、例えば、ユーザが発話中において吸気を行ってから発話を開始し、再び吸気を実施するまでの区間(換言すると第1の呼吸と第2呼吸の間の区間、または発話を続けている区間)となる。算出部3は、例えば、入力音声に含まれる複数のフレームから信号品質の一例となる信号電力対雑音比となる平均SNRを検出し、当該平均SNRが所定の条件を満たしている区間を有音区間(換言すると呼気区間)として検出することが出来る。また、算出部3は、入力音声に含まれる有音区間の後端に連接する無音区間を示す吸気区間を検出する。算出部3は、例えば、上述の当該平均SNRが所定の条件を満たさない区間を無音区間(換言すると吸気区間)として検出することが出来る。
ここで、算出部3による有音区間と無音区間の検出処理の詳細について説明する。図3は、一つの実施形態による算出部3の機能ブロック図である。算出部3は、音量算出部20、雑音推定部21、平均SNR算出部22、区間決定部23を有する。なお、算出部3は、音量算出部20、雑音推定部21、平均SNR算出部22、区間決定部23を必ずしも有する必要はなく、各部が有する機能を、一つのまたは複数のワイヤードロジックによるハードウェア回路で実現させても良い。また、算出部3に含まれる各部が有する機能をワイヤードロジックによるハードウェア回路に代えて、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールで実現させても良い。
図3において、入力音声が算出部3を介して音量算出部20に入力される。なお、音量算出部20は、図示しない長さMのバッファまたはキャッシュを有する。音量算出部20は、入力音声に含まれる各フレームの音量を算出し、当該音量を雑音推定部21と平均SNR算出部22へ出力する。なお、入力音声に含まれる各フレーム長は、例えば0.2msecである。各フレームの音量Sは、次式の通り、算出することが出来る。
(数1)

Figure 2015222847
但し、上述の(数1)において、nは、入力音声に含まれる音響フレームの入力開始から各フレームに連続して付されるフレーム番号(nは0以上の整数)、Mは1フレームの時間長、tは時間、c(t)は、入力音声の振幅(電力)を示す。
雑音推定部21は、各フレームの音量S(n)を音量算出部20から受け取る。雑音推定部21は、各フレームにおける雑音を推定して、雑音推定結果を平均SNR算出部22へ出力する。ここで、雑音推定部21による各フレームの雑音推定は、例えば、以下の(雑音推定方法1)または、(雑音推定方法2)を用いることが出来る。
(雑音推定方法1)
雑音推定部21は、フレームnにおける雑音の大きさ(電力)N(n)を、フレームnにおける音量S(n)、前フレーム(n−1)における音量S(n−1)ならびに、雑音の大きさN(n−1)に基づいて、次式を用いて推定することが出来る。
(数2)

Figure 2015222847
但し、上述の(数2)において、α、βは、定数であり、実験的に決定されれば良い。例えば、α=0.9、β=2.0であれば良い。また、雑音電力の初期値N(−1)も、実験的に決定されれば良い。上述の(数2)において、フレームnの音量S(n)が、1つ前のフレームn−1の音量S(n−1)に対して一定値β以上変化しない場合には、フレームnの雑音電力N(n)が更新される。一方、フレームnの音量S(n)が、1つ前のフレームn−1の音量S(n−1)に対して一定値β以上変化する場合には、1つ前のフレームn−1の雑音電力N(n−1)をフレームnの雑音電力N(n)とする。なお、雑音電力N(n)を上述の雑音推定結果と称しても良い。
(雑音推定方法2)
雑音推定部21は、雑音の大きさの更新を、次式の(数3)を用いて、フレームnの音量S(n)と、1つ前のフレームn−1の雑音電力N(n−1)との比に基づいて実施しても良い。
(数3)

Figure 2015222847

但し、上述の(数3)において、γは定数であり、実験的に決定されれば良い。例えば、γ=2.0であれば良い。また、雑音電力の初期値N(−1)も、実験的に決定されれば良い。上述の(数3)において、フレームnの音量S(n)が、1つ前のフレームn−1の雑音電力N(n−1)に対して一定値γ倍以下である場合には、フレームnの雑音電力N(n)を更新する。一方、フレームnの音量S(n)が、1つ前のフレームn−1の雑音電力N(n−1)に対して一定値γ倍以上である場合には、1つ前のフレームn−1の雑音電力N(n−1)をフレームnの雑音電力N(n)とする。
図3において、平均SNR算出部22は、音量算出部20から各フレームの音量S(n)を受け取り、雑音推定部21から雑音推定結果となる各フレームの雑音電力N(n)を受け取る。なお、平均SNR算出部22は、図示しないキャッシュまたはメモリを有しており、過去Lフレーム分の音量S(n)、雑音電力N(n)を保持する。平均SNR算出部22は、次式を用いて、分析対象時間(フレーム)内の平均SNRを算出し、当該平均SNRを区間決定部23へ出力する。
(数4)

Figure 2015222847

但し、上述の(数4)において、Lは促音の一般的な長さよりも大きな値に規定すれば良く、例えば、0.5msecに相当するフレーム数を規定すれば良い。
区間決定部23は、平均SNRを平均SNR算出部22から受け取る。区間決定部23は、図示しないバッファまたはキャッシュを有しており、区間決定部23による前処理フレームが、有音区間内(換言すると呼気区間内)であるか否かを示すフラグn_breathを保持する。区間決定部23は、平均SNRとn_breathに基づいて、次式の(数5)を用いて有音区間の始端tbを検出し、次式の(数6)に用いて有音区間の終端teを検出する。
(数5)
tb=n×M
(if n_breath=有音区間ではない、かつ、SNR(n)>THSNR)
(数6)
te=n×M−1
(if n_breath=有音区間、かつ、SNR(n)<THSNR)

ここで、THSNRは、区間決定部23による処理フレームnが雑音ではないと看做すための閾値であり、実験的に規定されれば良い。また、区間決定部23は、入力音声において有音区間以外の区間を無音区間として検出することが出来る。
図4は、算出部3による有音区間と無音区間の検出結果を示す図である。図4の横軸は時間を示し、縦軸は入力音声の音量(振幅)を示している。図4に示される通り、各有音区間の後端に連接する区間が無音区間として検出される。また、図4に示される通り、実施例1に開示する算出部3による有音区間の検出においては、背景騒音に合わせて雑音を学習し、SNRに基づいて有音区間を判別している。この為、背景騒音による有音区間の誤検出を防ぐことができる。また、平均SNRを複数フレームから求めることで、有音区間内で瞬間的に無音となる時間があっても、連続した有音区間として抽出することができる利点を有している。なお、算出部3は、国際公開第2009/145192号パンフレットに記載の方法を用いることも可能である。
次に、算出部3による有音区間から第1音声、第2音声、第3音声ならびに第4音声を一意に特定する方法について説明する。なお、当該処理は、図2に示すフローチャートのステップS203に対応する。先ず、算出部3は、入力音声に含まれるパケットを参照することにより、当該入力音声が第1マイク9に入力されたのか、第2マイク9に入力されたのかを特定することが出来る。ここで、例えば、第1マイク9に入力された入力音声が、第1ユーザの第1音声か第2ユーザの第2音声であるかを一意に特定し、第2マイク11に入力された入力音声が、第1ユーザの第3音声か第2ユーザの第4音声であるかを一意に特定する方法について説明する。
先ず、算出部3は、例えば、第1マイク9に入力された入力音声と、第2マイク11に入力された入力音声から、同一の発話内容となる第1音声と第3音声の候補を、第1音声と第3音声の第1相関に基づいて同定する。算出部3は、第1マイク9に入力された入力音声に含まれる任意の有音区間ci(t)と、第2マイク11に入力された入力音声に含まれる任意の有音区間cj(t)の相互相関となる第1相関R1(d)を次式に基づいて算出する。
(数7)
Figure 2015222847
なお、上述の(数7)において、tbiは有音区間ci(t)の始点であり、teiは有音区間ci(t)の終点である。tbjは有音区間cj(t)の始点であり、tejは、有音区間cj(t)の終点である。また、m=tbj−tbi、L=tbe−tbiである。
次に、算出部3は、第1相関R1(d)の最大値を、任意の閾値MAX_R(例えば、MAX_R=0.95)よりも大きい場合に、有音区間ci(t)と有音区間cj(t)の発話内容が同一であると次式に基づいて判定する(換言すると第1音声と第3音声の候補とを対応付ける)。
(数8)
判定結果 = 同一発話 if ( max(R(d))> MAX_R)
= 同一発話ではない else

なお、上述の(数8)において、有音区間長の差|(tei−tbi)−(tej−tbj)|が任意の閾値TH_dL(例えば、TH_dL=1秒)よりも大きくなる場合は、異なる発話内容として予め判定対象から除外しても良い。実施例1においては、第1音声と第3音声の候補の同定方法について説明したが、第2音声と第4音声の候補の同定方法も第1音声と第3音声の候補の同定方法を同様に適用することが出来る。算出部3は、第1マイク9に入力された入力音声と、第2マイク11に入力された入力音声から同一の発話内容となる、例えば、第2音声と第4音声の候補を、第2音声と第4音声の第2相関R2(d)に基づいて同定する。第2相関R2(d)は、上述の(数7)の右辺をそのまま適用することが出来る。
次に、算出部3は、同一の発話内容として対応付けた有音区間が、第1ユーザが発話したものなのか、第2ユーザが発話したものを区別する。例えば、算出部3は、例えば、同一の発話内容として対応付けた2つの有音区間(換言すると、上述の(数7)と(数8)で同定した第1音声と第3音声の候補、または第2音声と第4音声の候補)の音声レベル(振幅と称しても良い)となる平均RMS(Root Mean Square)を比較し、相対的に大きい値を有する有音区間を含む入力音声を入力したマイクを特定し、当該特定されたマイクに基づいてユーザを特定することが出来る。更に、ユーザを特定することで、第1音声と第2音声を一意に特定、または、第3音声と第4音声を一意に特定することが出来る。例えば、図1において、第1ユーザ、第2ユーザ、第1マイク9、ならびに、第2マイク11の位置関係を考慮した場合、第1ユーザが第1マイク9に対して発話した場合、当該発話内容が、第1音声として第1マイク9に対して入力されると同時に、当該発話内容の音波が空気中を伝搬して第3音声として第2マイク11に対して入力される。この場合、音波の減衰を考慮すると、第1ユーザの入力音声は、第1ユーザの使用を想定している第1マイク9に対して最も大きく入力され、例えば、平均RMSは−27dBとなる。この場合、第2マイク11に入力される第1ユーザの入力音声の平均RMSは、例えば、−50dBとなる。第1マイクへの入力音声は、第1ユーザの第1音声か第2ユーザの第2音声の何れかであることを考慮すると、入力音声は、平均RMSの大きさから第1ユーザが発話したものと区別することが出来る。この様に、算出部3は、第1音声と第3音声の振幅に基づいて、第1音声と第2音声を区別することが出来る。同様に、算出部3は、第2音声と第4音声の振幅に基づいて、第2音声と第4音声を区別することが出来る。
図5(a)は、第1ユーザ、第2ユーザ、第1マイク9、ならびに、第2マイク11の位置関係を示す図である。図5(a)に示す通り、実施例1においては、説明の便宜上、第1ユーザと第1マイク9の相対位置は十分に近く、また、第2ユーザと第2マイク11の相対位置は十分近いものとする。この為、第1ユーザと第2マイク11の距離と、第2ユーザと第1マイク9の距離は同等となる為、空気中を音波が伝播する時に生じる遅延量も同等になる。換言すると、第1ユーザの入力音声(第1音声または第3音声)が、第1マイク9と第2マイク11に到達する第1位相差と、第2ユーザの入力音声(第2音声または第4音声)が第2マイク11と第1マイク9に到達する第2位相差は同等と見做すことが出来る。
図5(b)は、第1位相差と第2位相差の概念図である。図5(b)に示される通り、第1マイク9には、第1ユーザの第1音声と第2ユーザの第2音声が任意の時刻(t)に入力されている。また、第2マイク9には、第1ユーザの第3音声と第2ユーザの第4音声が任意の時刻(t)に入力されている。図5(a)で説明した通り、第1音声と第3音声には第1位相差(図5(b)においては、差分Δd1に相当)が生じ、第2音声と第4音声には第2位相差(図5(b)においては、差分Δd2に相当)が生じる。算出部3は、例えば、第1音声を基準として第1位相差を算出し、第4音声を基準として第2位相差を算出する。具体的には、算出部3は、第1音声の始点の時刻から第3音声の始点の時刻を差し引くことで第1位相差を算出し、第4音声の始点の時刻から第2音声の始点の時刻を差し引くことで第2位相差を算出することが出来る。また、算出部3は、例えば、第3音声を基準として第1位相差を算出し、第2音声を基準として第2位相差を算出しても良い。具体的には、算出部3は、第3音声の始点の時刻から第1音声の始点の時刻を差し引くことで第1位相差を算出し、第2音声の始点の時刻から第4音声の始点の時刻を差し引くことで第2位相差を算出することが出来る。なお、当該処理は、図2に示すフローチャートのステップS204に対応する。算出部3は、算出した第1位相差と、第2位相差を推定部4に出力する。また、算出部3は、一意に特定した第1音声、第2音声、第3音声、ならびに第4音声を制御部5に出力する。
図1の推定部4は、例えば、ワイヤードロジックによるハードウェア回路である。また、推定部4は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。推定部4は、第1位相差と第2位相差を算出部5から受け取る。推定部4は、第1位相差と第2位相差の比較に基づいて第1マイク9と第2マイク11の距離を推定、または、第1位相差と第2位相差の合計値を算出する。なお、当該処理は、図2に示すフローチャートのステップS205に対応する。例えば、推定部4は、第1位相差と第2位相差の合計値を2で除算した値(平均値と称しても良い)に音速(例えば、音速=343m/s)を乗じた値を、第1マイク9と第2マイク11の距離として推定する。具体的には、推定部4は次式に基づいて、第1マイク9と第2マイク11の推定距離dmを推定する。
(数9)
dm=(第1位相差+第2位相差)/2×vs

但し、上述の(数9)において、vsは音速である。また、推定部4は、推定距離の推定に代えて、第1位相差と第2位相差の比較として、第1位相差と第2位相差の合計値を算出しても良い。推定部4は、第1マイク9と第2マイク11の推定距離または、第1位相差と第2位相差の合計値を制御部5に出力する。
ここで、推定部4が第1位相差と第2位相差の比較に基づいて、第1マイク9と第2マイク11の距離を推定する技術的意義について説明する。本発明者らの鋭意検証の結果、以下に示す技術的事項を新たに見出した。例えば、第1マイク9と第2マイク11、または、第1端末6と第2端末7をそれぞれ比較した場合、何れか一方に、例えば、雑音低減や速度調整等の付加的処理が施されていると、当該付加的処理により遅延Δtが発生する。また、当該遅延Δtは、第1端末6とネットワーク117の間の回線速度と、第2端末7とネットワーク117の間の回線速度の相違によっても生じ得る。回線速度の相違による遅延Δtは、付加的処理に起因するものではないが、説明の便宜上、遅延Δtと統一して称するものとする。
図6は、遅延Δtによる推定距離の誤差発生の概念図である。図6においては、第1マイク9の付加的処理で遅延Δtが発生した場合の推定距離の誤差発生の概念を図示している。図1の受信部2に対しては、第1ユーザの第1音声が遅延Δt経過後に入力される。一方、第2マイク11には、第1ユーザの第3音声が遅延Δtが発生すること無く入力される。ここで、算出部3は、上述の通り、第1音声の始点の時刻から第3音声の始点の時刻を差し引くことで第1位相差を算出する。しかしながら、遅延Δtの影響により、第1音声の始点の時刻が、本来の始点と異なる(遅延Δtの終点が第1音声の始点となる)。この為、算出部3は、第1位相差を遅延Δt終点の時刻から第3音声の始点の時刻を差し引くことで算出することになる。この場合、遅延Δtが発生しない場合の本来の第1位相差(差分Δd1に相当)と異なる為、第1マイク9と第2マイク11の推定距離に誤差が生じる。例えば、遅延Δtが30msecの場合、推定距離の誤差は約10mとなる。換言すると、推定部4は、第1位相差か第2位相差の何れか一方のみに基づいて第1マイク9と第2マイクの距離を推定した場合、推定距離に誤差が生じる場合がある。
図7(a)は、遅延Δtが発生していない場合の第1位相差と第2位相差の概念図である。図7(a)に示される通り、第1マイク9には、第1ユーザの第1音声と第2ユーザの第2音声が任意の時刻(t)に入力されている。また、第1音声と第3音声、ならびに第2音声と第4音声においては、空気中を音波が伝播する時に生じる位相差(図7(a)においては、差分Δd1、差分Δd2に相当)のみが発生する。この為、図7(a)に示す様に、遅延Δtが発生しない場合は、第1位相差は差分Δd1に等しく、第2位相差は差分Δd2に等しい。この場合、「第1位相差と第2位相差の合計はΔd1+Δd2」となる。
図7(b)は、遅延Δtが第1マイク9に発生している場合の第1位相差と第2位相差の概念図である。図7(b)に示される様に、第1マイク9に遅延量Δtが発生している場合、算出部3が算出する第1位相差はΔd1−Δtとなり、第2位相差はΔd2+Δtとなる。この場合、「第1位相差と第2位相差の合計はΔd1+Δd2」となる(第1位相差と第2位相差それぞれのΔtは相殺されて0となる)。よって、遅延が発生していない場合の第1位相差と第2位相差の合計と同一となる。
図7(c)は、遅延Δtが第1マイク9と第2マイク11の双方に発生している場合の第1位相差と第2位相差の概念図である。なお、説明の便宜上、第1マイク9の遅延をΔt1とし、第2マイク11の遅延をΔt2とする。図7(c)に示す通り、算出部3が算出する第1位相差は、「Δd1−(Δt1−Δt2)」となり、第2位相差は、「Δd2+(Δt1−Δt2)」となる。この場合、「第1位相差と第2位相差の合計はΔd1+Δd2」となる(第1位相差と第2位相差のそれぞれのΔt1、Δt2は相殺されて0となる)。この様に、推定部4は、第1位相差と第2位相差を比較することで(換言すると合計値を用いることで)、遅延の発生に有無に係らず、第1マイク9と第2マイク11の距離を正確に推定することが出来る。
更に、推定部4が第1位相差と第2位相差の比較に基づいて、第1マイク9と第2マイク11の距離を正確に推定することが出来る定性的理由について説明する。第1マイク9と第2マイク10に第1ユーザの第1音声と第3音声がそれぞれ入力されることで、第1マイク8および第2マイク11に対する第1ユーザの入力音声に関する位相差を得ることが可能となる。また、第1マイク9と第2マイク11に第2ユーザの第2音声と第4音声がそれぞれ入力されることで、第1マイク9および第2マイク11に対する第2ユーザの入力音声に関する位相差を得ることが可能となる。
ここで、例えば、入力音声が音声処理装置1の受信部2に入力される迄の遅延量が第1マイク9と第2マイク11で異なる場合、例えば、第1ユーザが使用する第1マイク9を基準に、第1ユーザの音声に関する位相差を求めると、ユーザ間の距離によって発生した位相差と、基準のマイク(第1マイク9)に対する他方のマイク(第2マイク11)の遅延の合計値となる。よって、第1ユーザの音声に関する位相差は、第1ユーザと第2ユーザの間の距離によって発生した遅延量と、第1マイク9に対する第2マイク11の遅延量の合計値である。また、第2ユーザの音声に関する位相差は、第1ユーザと第2ユーザの間の距離によって発生した遅延量と、第2マイク11に対する第1マイク9の遅延量の合計値である。第1マイク9に対する第2マイク11の遅延量と、第2マイク11に対する第1マイク9の遅延量は、絶対値が同じであり、かつ符号が逆となる為、第1ユーザの音声に関する位相差と第2ユーザの音声に関する位相差を組み合わせることで、第1マイク9に対する第2マイク11の遅延量ならびに第2マイク11に対する第1マイク9の遅延量を位相差から除去することが出来る。
図1において、制御部5は、例えば、ワイヤードロジックによるハードウェア回路である。また、制御部5は、音声処理装置1で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。制御部5は、推定部4から第1マイク9と第2マイク11の推定距離または、第1位相差と第2位相差の合計値を受け取る。また、制御部5は、一意に特定された第1音声、第2音声、第3音声、ならびに第4音声を算出部3から受け取る。制御部5は、第1マイク9と第2マイク11の推定距離または、第1位相差と第2位相差の合計値が所定の第1閾値(例えば、2mまたは、12msec)未満の場合に、第2ユーザよりも第1ユーザに近接する第1スピーカ10に対する、第2音声または第4音声の送信を制御し、第1ユーザよりも第2ユーザに近接する第2スピーカ12に対する、第1音声または第3音声の送信を制御する。具体的には、第1マイク9と第2マイク11の推定距離または、第1位相差と第2位相差の合計値が第1閾値未満の場合、第1ユーザと第2ユーザの距離は近いことを意味する為、互いの音声を受話音と直接音の2つから、時間差を有する状態で重畳的に聞き取ることになる。この為、制御部5は、第1スピーカに対しては第2ユーザの音声となる第2音声または第4音声の出力を行わない制御を行う。また、第2スピーカに対しては、第1ユーザの音声となる第1音声または第3音声の出力を行わない制御を行う。なお、当該処理は、図2に示すフローチャートのステップS206に対応する。当該制御により、互いに距離が近いユーザ同士は、互いの音声を直接音のみから聞き取ることになる為、音声が聞き取り易くなる効果を奏する。
また、制御部5は、第1マイク9と第2マイク11の推定距離または、第1位相差と第2位相差の合計値が所定の第1閾値以上の場合に、第1スピーカ10に対する、第1音声または第3音声以外の複数音声(例えば、第2音声、第4音声)の送信を制御し、第2スピーカ12に対する、第2音声または第4音声以外の複数音声(例えば、第1音声、第3音声)の送信を制御する。具体的には、第1マイク9と第2マイク11の推定距離または、第1位相差と第2位相差の合計値が第1閾値以上の場合、第1ユーザと第2ユーザの距離は遠いことを意味する為、互いの音声を受話音のみから聞き取ることになる。この為、制御部5は、第1スピーカ10に対しては、第1ユーザの音声となる第1音声または第3音声以外の音声の出力を行う制御を行う。また、制御部5は、第2スピーカ12に対しては、第2ユーザの音声となる第2音声または第4音声以外の音声の出力を行う制御を行う。当該制御により、第1ユーザまたは第2ユーザは、第1ユーザ自身または第2ユーザ自身の音声を受話音と直接音の2つから時間差を有する状態で重畳的に聞き取ることが無くなる為、音声が聞き取り易くなる効果を有する。
実施例1における音声処理装置1においては、複数のユーザで通話を行う場合、ユーザ同士の距離を正確に推定し、互いに距離が近いユーザ同士においては、互いの音声を受話音と直接音の2つから、時間差を有する状態で重畳的に聞き取ることが無くなる為、音声を聞き取り易くすることが可能になる。
(実施例2)
実施例1においては、第1ユーザと第2ユーザを対象とした音声処理について説明したが、本発明は、複数のユーザで通話を行う場合においても、当該複数のユーザ同士の距離を正確に推定することが可能である。この為、実施例2においては、図1の第1ユーザに対応する第1端末6ないし第nユーザに対応する第n端末8までを対象にした音声処理について説明する。
図8は、音声処理装置1の音声処理の第2のフローチャートである。受信部2は、第1マイク9〜第nマイク13に入力される複数の入力音声(複数音声と称しても良い)を、第1端末6〜第n端末8ならびに通信網の一例となるネットワーク117を介して受信する。換言すると、受信部2は、音声処理装置1にネットワーク117を介して接続される端末数分(第1端末6〜第n端末8)の入力音声を受信する(ステップS801)。算出部3は、実施例1に記載した方法に基づいて、複数の入力音声のそれぞれの有音区間ci(t)を検出する(ステップS802)。
算出部3は、基準音声を決定し、当該基準音声の発信源の端末番号をnに格納する(ステップS803)。具体的には、ステップS803において、算出部3は、複数の入力音声のそれぞれの有音区間について、次式に基づいて音声レベルviを算出する。
(数10)
Figure 2015222847
上述の(数10)において、ci(t)は第i端末からの入力音声iであり、viは入力音声iの音声レベルであり、tbiとteiは、入力音声iにおける有音区間の開始フレーム(始点と称しても良い)と終了フレーム(終点と称しても良い)である。次に、算出部3は、上述の(数10)で算出された複数の音声レベルviの値を比較し、最も大きな値を有する入力音声iを、発話の発信源の端末番号であると推定する。実施例2においては、説明の便宜上、発信源と推定した端末番号がn(第n端末8)であるものとして以下の説明を続ける。
算出部3は、i=0をセットした後(ステップS804)、ステップS805の条件(i≠nかつci(t)の有音区間とcn(t)の有音区間が同一か否か)を満たすか否かを、例えば、上述の(数7)と(数8)に基づいて判定する。ステップS805の条件を満たす場合(ステップS805−Yes)、算出部3は、同一の有音区間である条件を満たすm番目の入力音声iを入力音声kmと規定する。なお、ステップS805の条件を満たさない場合(ステップS805−No)、ステップS809へ処理が進む。
図9(a)は位相差テーブルのデータ構造の一例である。図9(b)は端末間位相差テーブルのデータ構造の一例である。テーブル91においては、入力音声の発信源IDと、入力音声が混入される混入先IDの位相差が格納される。テーブル92においては、端末間(第1端末6〜第n端末8に相当。また、第1マイク9〜第nマイク13に相当すると考えることも出来る)の位相差が格納される。算出部3は、入力音声nと入力音声kmについて、次式に従って、入力音声nと入力音声kmに関する位相差θ(n、km)を算出し、図9(a)に示すテーブル91に記録する(ステップS806)。なお、テーブル91とテーブル92は、例えば、算出部3の図示しないキャッシュまたはメモリに記録されれば良い。
(数11)
θ(n,km) = tbn − tbkm
次に、算出部3は、テーブル92に、入力音声nと入力音声kmに関する位相差θ(km,n)が記録済であるか否かをテーブル91を参照し(ステップS807)、記録済である場合(ステップS807−Yes)、テーブル92の値を次式に基づいて更新する(ステップS808)。なお、ステップS807の条件を満たさない場合(ステップS805−No)、ステップS809へ処理が進む。
(数12)
θ’(n,km) =(θ(n,km)+θ(km,n))/2
θ’(km,n) =(θ(n,km)+θ(km,n))/2

上述の(数12)において、θ(km,n)は、発信源と推定した端末番号がkmであり、ckm(t)の有音区間が、cn(t)の有音区間と同一の発話であった場合に、次式により算出される値である。
(数13)
θ(km,n) = tbkm−tbn

なお、テーブル92の初期値は、端末間(マイク間)の距離が十分離れていることを示す任意の閾値TH_OFF以上の値に設定しておけば良い。なお、TH_OFFの値は、例えば約10mの距離により生じる位相差の30msであれば良い。もしくは、設定可能な値以上を表すinfでも良い。
ステップS808の処理が完了後、または、ステップS805−No、ステップS807−Noの条件を満たした場合、算出部3はiをインクリメントさせ(ステップS809)、iが端末数より小さいか否かを判断する(ステップS810)。ステップS810の条件を満たさない場合(ステップS810−No)、ステップS804の処理に戻る。ステップS810の条件を満たした場合(ステップS810−Yes)、音声処理装置1は、図8のフローチャートに示す処理を完了させる。
次に、音声処理装置1によるテーブル92に基づいた出力音声の制御方法について説明する。図10は、音声処理装置1の音声処理の第3のフローチャートである。制御部5は、フレーム毎に、全端末(第1端末6〜第n端末8に相当)から、1フレーム分の入力音声ci(t)を取得する(ステップS1001)。次に、制御部5は、端末番号0から端末番号N−1のそれぞれに対して、テーブル92を参照しながら出力音声を制御する。実施例2においては、説明の便宜上、端末番号n(第n端末8)に対する出力音声の制御方法について説明する。制御部5は、n=0をセット(ステップS1002)した後、端末番号nに対する出力音声on(t)を0で初期化(on(t)=0)する(ステップS1003)。
次に、端末番号m以外の端末番号kを0にセットする(ステップS1004)。制御部5は、端末番号n以外の端末番号k(k≠n, k=0,…,N−1)について、nとkの端末間位相差θ’(n,k)をテーブル92から参照し、端末間位相差θ’が閾値TH_OFFより小さいか否かを判定する(ステップS1005)。ステップS1005の条件を満たさない場合(ステップS1005−No)、ステップS1007に処理を進める。ステップS1005の条件を満たす場合(ステップS1005−Yes)、制御部5は、次式に基づいて
出力音声on(t)を更新する(ステップS1005)。
(数14)
on(t) = on(t) + ck(t)
ステップS1006の処理が完了後、または、ステップS1005−Noの場合、kをインクリメントし(ステップS1007)、端末番号kが端末数Nより小さいか否かを判断する(ステップS1008)。ステップS1008の条件を満たさない場合(ステップS1008−No)、ステップS1005の処理に戻り、ステップS1008の条件を満たす場合(ステップS1008−Yes)、制御部5は、出力音声on(t)を端末番号nへ出力する(ステップS1009)。次に、nをインクリメントし(ステップS1010)、制御部5は、nが端末数より小さいか否かを判断する(ステップS1011)。ステップS1011の条件を満たさない場合(ステップS1011−No)、ステップS1003の処理に戻る。ステップS1011の条件を満たす場合(ステップS1011−Yes)、音声処理装置1は、図10のフローチャートに示す処理を完了させる。
(実施例3)
図11は、一つの実施形態による音声処理装置1として機能するコンピュータのハードウェア構成図である。図11に示す通り、音声処理装置1は、コンピュータ100、およびコンピュータ100に接続する入出力装置(周辺機器)を含んで構成される。
コンピュータ100は、プロセッサ101によって装置全体が制御されている。プロセッサ101には、バス109を介してRAM(Random Access Memory)102と複数の周辺機器が接続されている。なお、プロセッサ101は、マルチプロセッサであってもよい。また、プロセッサ101は、例えば、CPU、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、またはPLD(Programmable Logic Device)である。更に、プロセッサ101は、CPU、MPU、DSP、ASIC、PLDのうちの2以上の要素の組み合わせであってもよい。なお、例えば、プロセッサ101は、図1に記載の受信部2、算出部3、推定部4、制御部5等の機能ブロックの処理を実行することが出来る。
RAM102は、コンピュータ100の主記憶装置として使用される。RAM102には、プロセッサ101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、プロセッサ101による処理に必要な各種データが格納される。バス109に接続されている周辺機器としては、HDD(Hard Disk Drive)103、グラフィック処理装置104、入力インタフェース105、光学ドライブ装置106、機器接続インタフェース107およびネットワークインタフェース108がある。
HDD103は、内蔵したディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。HDD103は、例えば、コンピュータ100の補助記憶装置として使用される。HDD103には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。なお、補助記憶装置としては、フラッシュメモリなどの半導体記憶装置を使用することも出来る。
グラフィック処理装置104には、モニタ110が接続されている。グラフィック処理装置104は、プロセッサ101からの命令にしたがって、各種画像をモニタ110の画面に表示させる。モニタ110としては、CRT(Cathode Ray Tube)を用いた表示装置や液晶表示装置などがある。
入力インタフェース105には、キーボード111とマウス112とが接続されている。入力インタフェース105は、キーボード111やマウス112から送られてくる信号をプロセッサ101に送信する。なお、マウス112は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。
光学ドライブ装置106は、レーザ光などを利用して、光ディスク113に記録されたデータの読み取りを行う。光ディスク113は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク113には、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。可搬型の記録媒体となる光ディスク113に格納されたプログラムは光学ドライブ装置106を介して音声処理装置1にインストールされる。インストールされた所定のプログラムは、音声処理装置1より実行可能となる。
機器接続インタフェース107は、コンピュータ100に周辺機器を接続するための通信インタフェースである。例えば、機器接続インタフェース107には、メモリ装置114やメモリリーダライタ115を接続することが出来る。メモリ装置114は、機器接続インタフェース107との通信機能を搭載した記録媒体である。メモリリーダライタ115は、メモリカード116へのデータの書き込み、またはメモリカード116からのデータの読み出しを行う装置である。メモリカード116は、カード型の記録媒体である。
ネットワークインタフェース108は、ネットワーク117に接続されている。ネットワークインタフェース108は、ネットワーク117を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。例えば、ネットワークインタフェース108は、図1の第1マイク9〜第nマイク13に入力される複数の入力音声(複数音声と称しても良い)を、第1端末6〜第n端末8ならびにネットワーク117を介して受信する。
コンピュータ100は、たとえば、コンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、上述した音声処理機能を実現する。コンピュータ100に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことが出来る。上記プログラムは、1つのまたは複数の機能モジュールから構成することが出来る。例えば、図1に記載の受信部2、算出部3、推定部4、制御部5等の処理を実現させた機能モジュールからプログラムを構成することが出来る。なお、コンピュータ100に実行させるプログラムをHDD103に格納しておくことができる。プロセッサ101は、HDD103内のプログラムの少なくとも一部をRAM102にロードし、プログラムを実行する。また、コンピュータ100に実行させるプログラムを、光ディスク113、メモリ装置114、メモリカード116などの可搬型記録媒体に記録しておくことも出来る。可搬型記録媒体に格納されたプログラムは、例えば、プロセッサ101からの制御により、HDD103にインストールされた後、実行可能となる。またプロセッサ101が、可搬型記録媒体から直接プログラムを読み出して実行することも出来る。
以上に図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。
以上、説明した実施形態に関し、更に以下の付記を開示する。
(付記1)
第2ユーザよりも第1ユーザに近接する第1マイクに入力される、前記第1ユーザの第1音声と前記第2ユーザの第2音声と、
前記第1ユーザよりも前記第2ユーザに近接する第2マイクに入力される、前記第1ユーザの第3音声と前記第2ユーザの第4音声と、
を含む複数音声を、通信網を介して受信する受信部と、
前記受信部が受信する、前記第1音声と前記第2音声の第1位相差、ならびに前記第3音声と前記第4音声の第2位相差を算出する算出部と、
前記第2ユーザよりも前記第1ユーザに近接する第1スピーカに対する、前記第2音声または前記第4音声の送信を、前記第1位相差と前記第2位相差に基づいて制御、または、
前記第1ユーザよりも前記第2ユーザに近接する第2スピーカに対する、前記第1音声または前記第3音声の送信を、前記第1位相差と前記第2位相差に基づいて制御する制御部
を備えることを特徴とする音声処理装置。
(付記2)
前記算出部は、
前記第1音声を基準として前記第1位相差を算出し、前記第4音声を基準として前記第2位相差を算出し、または、
前記第3音声を基準として前記第1位相差を算出し、前記第2音声を基準として前記第2位相差を算出する
ことを特徴とする付記1記載の音声処理装置。
(付記3)
前記算出部は、前記複数音声の中から、
前記第1音声と前記第3音声の第1相関に基づいて、前記第1音声と前記第3音声を同定し、
前記第2音声と前記第4音声の第2相関に基づいて、前記第2音声と前記第4音声を同定することを特徴とする付記1または付記2記載の音声処理装置。
(付記4)
前記算出部は、
前記第1音声と前記第3音声の振幅に基づいて、前記第1音声と前記第2音声を区別し、
前記第2音声と前記第4音声の前記振幅に基づいて、前記第3音声と前記第4音声を区別することを特徴とする付記1ないし付記3の何れか一つに記載の音声処理装置。
(付記5)
前記第1位相差と前記第2位相差に基づいて、前記第1マイクと前記第2マイクの距離を推定する推定部を更に備えることを特徴とする付記1ないし付記4の何れか一つに記載の音声処理装置。
(付記6)
前記推定部は、前記第1位相差と前記第2位相差の合計値に基づいて前記距離を推定することを特徴とする付記5に記載の音声処理装置。
(付記7)
前記制御部は、前記距離が第1閾値未満の場合に、
前記第1スピーカに対する、前記第2音声または前記第4音声の送信を制御し、
前記第2スピーカに対する、前記第1音声または前記第3音声の送信を制御することを特徴とする付記5または付記6に記載の音声処理装置。
(付記8)
前記制御部は、前記距離が前記第1閾値以上の場合に、
前記第1スピーカに対する、前記第1音声または前記第3音声以外の前記複数音声の送信を制御し、
前記第2スピーカに対する、前記第2音声または前記第4音声以外の前記複数音声の前記送信を制御することを特徴とする付記5ないし付記7の何れか一つに記載の音声処理装置。
(付記9)
第2ユーザよりも第1ユーザに近接する第1マイクに入力される、前記第1ユーザの第1音声と前記第2ユーザの第2音声と、
前記第1ユーザよりも前記第2ユーザに近接する第2マイクに入力される、前記第1ユーザの第3音声と前記第2ユーザの第4音声と、
を含む複数音声を、通信網を介して受信し、
前記受信することが受信する、前記第1音声と前記第2音声の第1位相差、ならびに前記第3音声と前記第4音声の第2位相差を算出し、
前記第2ユーザよりも前記第1ユーザに近接する第1スピーカに対する、前記第2音声または前記第4音声の送信を、前記第1位相差と前記第2位相差に基づいて制御、または、
前記第1ユーザよりも前記第2ユーザに近接する第2スピーカに対する、前記第1音声または前記第3音声の送信を、前記第1位相差と前記第2位相差に基づいて制御する
ことを含むことを特徴とする音声処理方法。
(付記10)
前記算出することは、
前記第1音声を基準として前記第1位相差を算出し、前記第4音声を基準として前記第2位相差を算出し、または、
前記第3音声を基準として前記第1位相差を算出し、前記第2音声を基準として前記第2位相差を算出する
ことを特徴とする付記9記載の音声処理方法。
(付記11)
前記算出することは、前記複数音声の中から、
前記第1音声と前記第3音声の第1相関に基づいて、前記第1音声と前記第3音声を同定し、
前記第2音声と前記第4音声の第2相関に基づいて、前記第2音声と前記第4音声を同定することを特徴とする付記9または付記10記載の音声処理方法。
(付記12)
前記算出することは、
前記第1音声と前記第3音声の振幅に基づいて、前記第1音声と前記第2音声を区別し、
前記第2音声と前記第4音声の前記振幅に基づいて、前記第3音声と前記第4音声を区別することを特徴とする付記9ないし付記11の何れか一つに記載の音声処理方法。
(付記13)
前記第1位相差と前記第2位相差に基づいて、前記第1マイクと前記第2マイクの距離を推定することを更に含むことを特徴とする付記9ないし付記12の何れか一つに記載の音声処理方法。
(付記14)
前記推定することは、前記第1位相差と前記第2位相差の合計値に基づいて前記距離を推定することを特徴とする付記13に記載の音声処理方法。
(付記15)
前記制御することは、前記距離が第1閾値未満の場合に、
前記第1スピーカに対する、前記第2音声または前記第4音声の送信を制御し、
前記第2スピーカに対する、前記第1音声または前記第3音声の送信を制御することを特徴とする付記13または付記14に記載の音声処理方法。
(付記16)
前記制御することは、前記距離が前記第1閾値以上の場合に、
前記第1スピーカに対する、前記第1音声または前記第3音声以外の前記複数音声の送信を制御し、
前記第2スピーカに対する、前記第2音声または前記第4音声以外の前記複数音声の前記送信を制御することを特徴とする付記13ないし付記15の何れか一つに記載の音声処理方法。
(付記17)
コンピュータに、
第2ユーザよりも第1ユーザに近接する第1マイクに入力される、前記第1ユーザの第1音声と前記第2ユーザの第2音声と、
前記第1ユーザよりも前記第2ユーザに近接する第2マイクに入力される、前記第1ユーザの第3音声と前記第2ユーザの第4音声と、
を含む複数音声を、通信網を介して受信し、
前記受信することが受信する、前記第1音声と前記第2音声の第1位相差、ならびに前記第3音声と前記第4音声の第2位相差を算出し、
前記第2ユーザよりも前記第1ユーザに近接する第1スピーカに対する、前記第2音声または前記第4音声の送信を、前記第1位相差と前記第2位相差に基づいて制御、または、
前記第1ユーザよりも前記第2ユーザに近接する第2スピーカに対する、前記第1音声または前記第3音声の送信を、前記第1位相差と前記第2位相差に基づいて制御する
ことを実行させることを特徴とする音声処理プログラム。
1 音声処理装置
2 受信部
3 算出部
4 推定部
5 制御部

Claims (10)

  1. 第2ユーザよりも第1ユーザに近接する第1マイクに入力される、前記第1ユーザの第1音声と前記第2ユーザの第2音声と、
    前記第1ユーザよりも前記第2ユーザに近接する第2マイクに入力される、前記第1ユーザの第3音声と前記第2ユーザの第4音声と、
    を含む複数音声を、通信網を介して受信する受信部と、
    前記受信部が受信する、前記第1音声と前記第2音声の第1位相差、ならびに前記第3音声と前記第4音声の第2位相差を算出する算出部と、
    前記第2ユーザよりも前記第1ユーザに近接する第1スピーカに対する、前記第2音声または前記第4音声の送信を、前記第1位相差と前記第2位相差に基づいて制御、または、
    前記第1ユーザよりも前記第2ユーザに近接する第2スピーカに対する、前記第1音声または前記第3音声の送信を、前記第1位相差と前記第2位相差に基づいて制御する制御部
    を備えることを特徴とする音声処理装置。
  2. 前記算出部は、
    前記第1音声を基準として前記第1位相差を算出し、前記第4音声を基準として前記第2位相差を算出し、または、
    前記第3音声を基準として前記第1位相差を算出し、前記第2音声を基準として前記第2位相差を算出する
    ことを特徴とする請求項1記載の音声処理装置。
  3. 前記算出部は、前記複数音声の中から、
    前記第1音声と前記第3音声の第1相関に基づいて、前記第1音声と前記第3音声を同定し、
    前記第2音声と前記第4音声の第2相関に基づいて、前記第2音声と前記第4音声を同定することを特徴とする請求項1または請求項2記載の音声処理装置。
  4. 前記算出部は、
    前記第1音声と前記第3音声の振幅に基づいて、前記第1音声と前記第2音声を区別し、
    前記第2音声と前記第4音声の前記振幅に基づいて、前記第3音声と前記第4音声を区別することを特徴とする請求項1ないし請求項3の何れか一項に記載の音声処理装置。
  5. 前記第1位相差と前記第2位相差に基づいて、前記第1マイクと前記第2マイクの距離を推定する推定部を更に備えることを特徴とする請求項1ないし請求項4の何れか一項に記載の音声処理装置。
  6. 前記推定部は、前記第1位相差と前記第2位相差の合計値に基づいて前記距離を推定することを特徴とする請求項5に記載の音声処理装置。
  7. 前記制御部は、前記距離が第1閾値未満の場合に、
    前記第1スピーカに対する、前記第2音声または前記第4音声の送信を制御し、
    前記第2スピーカに対する、前記第1音声または前記第3音声の送信を制御することを特徴とする請求項5または請求項6に記載の音声処理装置。
  8. 前記制御部は、前記距離が前記第1閾値以上の場合に、
    前記第1スピーカに対する、前記第1音声または前記第3音声以外の前記複数音声の送信を制御し、
    前記第2スピーカに対する、前記第2音声または前記第4音声以外の前記複数音声の前記送信を制御することを特徴とする請求項5ないし請求項7の何れか一項に記載の音声処理装置。
  9. 第2ユーザよりも第1ユーザに近接する第1マイクに入力される、前記第1ユーザの第1音声と前記第2ユーザの第2音声と、
    前記第1ユーザよりも前記第2ユーザに近接する第2マイクに入力される、前記第1ユーザの第3音声と前記第2ユーザの第4音声と、
    を含む複数音声を、通信網を介して受信し、
    前記受信することが受信する、前記第1音声と前記第2音声の第1位相差、ならびに前記第3音声と前記第4音声の第2位相差を算出し、
    前記第2ユーザよりも前記第1ユーザに近接する第1スピーカに対する、前記第2音声または前記第4音声の送信を、前記第1位相差と前記第2位相差に基づいて制御、または、
    前記第1ユーザよりも前記第2ユーザに近接する第2スピーカに対する、前記第1音声または前記第3音声の送信を、前記第1位相差と前記第2位相差に基づいて制御する
    ことを含むことを特徴とする音声処理方法。
  10. コンピュータに、
    第2ユーザよりも第1ユーザに近接する第1マイクに入力される、前記第1ユーザの第1音声と前記第2ユーザの第2音声と、
    前記第1ユーザよりも前記第2ユーザに近接する第2マイクに入力される、前記第1ユーザの第3音声と前記第2ユーザの第4音声と、
    を含む複数音声を、通信網を介して受信し、
    前記受信することが受信する、前記第1音声と前記第2音声の第1位相差、ならびに前記第3音声と前記第4音声の第2位相差を算出し、
    前記第2ユーザよりも前記第1ユーザに近接する第1スピーカに対する、前記第2音声または前記第4音声の送信を、前記第1位相差と前記第2位相差に基づいて制御、または、
    前記第1ユーザよりも前記第2ユーザに近接する第2スピーカに対する、前記第1音声または前記第3音声の送信を、前記第1位相差と前記第2位相差に基づいて制御する
    ことを実行させることを特徴とする音声処理プログラム。
JP2014105825A 2014-05-22 2014-05-22 音声処理装置、音声処理方法および音声処理プログラム Ceased JP2015222847A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014105825A JP2015222847A (ja) 2014-05-22 2014-05-22 音声処理装置、音声処理方法および音声処理プログラム
US14/711,284 US20150340048A1 (en) 2014-05-22 2015-05-13 Voice processing device and voice processsing method
EP15168123.6A EP2947659A1 (en) 2014-05-22 2015-05-19 Voice processing device and voice processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014105825A JP2015222847A (ja) 2014-05-22 2014-05-22 音声処理装置、音声処理方法および音声処理プログラム

Publications (1)

Publication Number Publication Date
JP2015222847A true JP2015222847A (ja) 2015-12-10

Family

ID=53189701

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014105825A Ceased JP2015222847A (ja) 2014-05-22 2014-05-22 音声処理装置、音声処理方法および音声処理プログラム

Country Status (3)

Country Link
US (1) US20150340048A1 (ja)
EP (1) EP2947659A1 (ja)
JP (1) JP2015222847A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108630223A (zh) * 2017-03-21 2018-10-09 株式会社东芝 信号处理装置以及信号处理方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
JP6641832B2 (ja) * 2015-09-24 2020-02-05 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
US10142730B1 (en) * 2017-09-25 2018-11-27 Cirrus Logic, Inc. Temporal and spatial detection of acoustic sources
WO2021226503A1 (en) 2020-05-08 2021-11-11 Nuance Communications, Inc. System and method for data augmentation for multi-microphone signal processing
US11545024B1 (en) 2020-09-24 2023-01-03 Amazon Technologies, Inc. Detection and alerting based on room occupancy

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06350724A (ja) * 1993-06-08 1994-12-22 Mitsubishi Electric Corp 通信制御装置
US6771779B1 (en) * 2000-09-28 2004-08-03 Telefonaktiebolaget Lm Ericsson (Publ) System, apparatus, and method for improving speech quality in multi-party devices
JP2006066988A (ja) * 2004-08-24 2006-03-09 Nippon Telegr & Teleph Corp <Ntt> 収音方法、収音装置、収音プログラム、およびこれを記録した記録媒体
JP2007243724A (ja) * 2006-03-09 2007-09-20 Omron Corp 復調方法とその装置とそのユニット、距離測定装置、およびデータ受信装置
US20120170760A1 (en) * 2009-06-08 2012-07-05 Nokia Corporation Audio Processing
GB2493801A (en) * 2011-08-18 2013-02-20 Ibm Improved audio quality in teleconferencing system with co-located devices

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004005998B3 (de) * 2004-02-06 2005-05-25 Ruwisch, Dietmar, Dr. Verfahren und Vorrichtung zur Separierung von Schallsignalen
US20050180582A1 (en) * 2004-02-17 2005-08-18 Guedalia Isaac D. A System and Method for Utilizing Disjoint Audio Devices
US8126129B1 (en) * 2007-02-01 2012-02-28 Sprint Spectrum L.P. Adaptive audio conferencing based on participant location
JP5381982B2 (ja) 2008-05-28 2014-01-08 日本電気株式会社 音声検出装置、音声検出方法、音声検出プログラム及び記録媒体
DE102010001935A1 (de) * 2010-02-15 2012-01-26 Dietmar Ruwisch Verfahren und Vorrichtung zum phasenabhängigen Verarbeiten von Schallsignalen
US8818800B2 (en) * 2011-07-29 2014-08-26 2236008 Ontario Inc. Off-axis audio suppressions in an automobile cabin
JP5862349B2 (ja) * 2012-02-16 2016-02-16 株式会社Jvcケンウッド ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
EP3024542A4 (en) * 2013-07-24 2017-03-22 Med-El Elektromedizinische Geräte GmbH Binaural cochlear implant processing

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06350724A (ja) * 1993-06-08 1994-12-22 Mitsubishi Electric Corp 通信制御装置
US6771779B1 (en) * 2000-09-28 2004-08-03 Telefonaktiebolaget Lm Ericsson (Publ) System, apparatus, and method for improving speech quality in multi-party devices
JP2006066988A (ja) * 2004-08-24 2006-03-09 Nippon Telegr & Teleph Corp <Ntt> 収音方法、収音装置、収音プログラム、およびこれを記録した記録媒体
JP2007243724A (ja) * 2006-03-09 2007-09-20 Omron Corp 復調方法とその装置とそのユニット、距離測定装置、およびデータ受信装置
US20120170760A1 (en) * 2009-06-08 2012-07-05 Nokia Corporation Audio Processing
GB2493801A (en) * 2011-08-18 2013-02-20 Ibm Improved audio quality in teleconferencing system with co-located devices

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108630223A (zh) * 2017-03-21 2018-10-09 株式会社东芝 信号处理装置以及信号处理方法
CN108630223B (zh) * 2017-03-21 2022-01-04 株式会社东芝 信号处理装置以及信号处理方法

Also Published As

Publication number Publication date
US20150340048A1 (en) 2015-11-26
EP2947659A1 (en) 2015-11-25

Similar Documents

Publication Publication Date Title
JP2015222847A (ja) 音声処理装置、音声処理方法および音声処理プログラム
US10269374B2 (en) Rating speech effectiveness based on speaking mode
US9407680B2 (en) Quality-of-experience measurement for voice services
US8909534B1 (en) Speech recognition training
US9293133B2 (en) Improving voice communication over a network
JP6078964B2 (ja) 音声対話システム及びプログラム
CN110473525B (zh) 获取语音训练样本的方法和装置
JP2017535809A (ja) サウンド検出モデルを生成するためのサウンドサンプル検証
US8620670B2 (en) Automatic realtime speech impairment correction
JP2013011830A (ja) 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
JP6641832B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP6098149B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP6524674B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP2017049364A (ja) 発話状態判定装置、発話状態判定方法、及び判定プログラム
US11641592B1 (en) Device management using stored network metrics
JP2017216525A (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
JP6394103B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP2019219468A (ja) 生成装置、生成方法及び生成プログラム
US20230125307A1 (en) Video conference verbal junction identification via nlp
JP6544439B2 (ja) 困惑状態判定装置、困惑状態判定方法、及びプログラム
US20240112691A1 (en) Synthesizing audio for synchronous communication
CN113436644B (zh) 音质评估方法、装置、电子设备及存储介质
US20240257811A1 (en) System and Method for Providing Real-time Speech Recommendations During Verbal Communication
JP6538002B2 (ja) 目的音集音装置、目的音集音方法、プログラム、記録媒体
WO2024163127A1 (en) System and method for providing real-time speech recommendations during verbal communication

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20160401

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180123

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180320

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20180528

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180821

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20181218