JP6800809B2 - 音声処理装置、音声処理方法およびプログラム - Google Patents

音声処理装置、音声処理方法およびプログラム Download PDF

Info

Publication number
JP6800809B2
JP6800809B2 JP2017108959A JP2017108959A JP6800809B2 JP 6800809 B2 JP6800809 B2 JP 6800809B2 JP 2017108959 A JP2017108959 A JP 2017108959A JP 2017108959 A JP2017108959 A JP 2017108959A JP 6800809 B2 JP6800809 B2 JP 6800809B2
Authority
JP
Japan
Prior art keywords
sound
signal
voice
separation
sound sources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017108959A
Other languages
English (en)
Other versions
JP2018205449A (ja
Inventor
寧 丁
寧 丁
籠嶋 岳彦
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2017108959A priority Critical patent/JP6800809B2/ja
Priority to US15/891,075 priority patent/US10504523B2/en
Publication of JP2018205449A publication Critical patent/JP2018205449A/ja
Application granted granted Critical
Publication of JP6800809B2 publication Critical patent/JP6800809B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1831Tracking arrangements for later retrieval, e.g. recording contents, participants activities or behavior, network status
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Description

本発明の実施形態は、音声処理装置、音声処理方法およびプログラムに関する。
複数の話者が参加する会議での発話を認識し、議事録の作成などを行う会議システムが知られている。このような会議システムでは、例えば、複数の話者ごとにマイクが割り当てられ、マイクから入力された音声が認識される。
特開2008−309856号公報 特開2014−041308号公報
しかしながら、従来技術では、複数の話者が同時に発話したときに、ある話者のマイクに他の話者の声が回り込み、認識精度が劣化する場合があった。
実施形態の音声処理装置は、受付部と、分離部と、出力制御部と、を備える。受付部は、n個(nは2以上の整数)の音源に対応するn個の音声入力装置に入力されたn個の入力信号を受け付ける。分離部は、入力信号を、音源ごとに分離してn個の分離信号を生成する。出力制御部は、音声を発した音源の個数に応じて、入力信号に基づいて生成される出力信号と、分離信号に基づいて生成される出力信号と、を切り替えて出力する。
第1の実施形態にかかる音声処理装置のハードウェア構成図。 第1の実施形態にかかる音声処理装置の機能ブロック図。 第1の実施形態における音声処理のフローチャート。 音源数が1と判定される場合の処理の例を示す図。 音源数が2と判定される場合の処理の例を示す図。 第2の実施形態にかかる音声処理装置の機能ブロック図。 音源数が1と判定される場合の処理の例を示す図。 第3の実施形態にかかる音声処理システムの構成ブロック図。
以下に添付図面を参照して、この発明にかかる音声処理装置の好適な実施形態を詳細に説明する。
(第1の実施形態)
第1の実施形態にかかる音声処理装置は、音声を発した音源の個数(音源数)に応じて、入力信号に基づいて生成される出力信号と、分離信号に基づいて生成される出力信号と、を切り替えて出力する。入力信号は、例えばマイクなどの音声入力装置により取得される音声の信号である。分離信号は、入力信号を音源ごとに分離して得られる信号である。
例えば、音源の個数が2以上の場合は、分離信号が出力信号として出力される。これにより回り込み音声を抑制可能となる。また、音源の個数が1つの場合は、音源に対応するマイクから入力される入力信号が出力信号として出力される。これにより、音源分離に伴う信号の歪みの発生を回避可能となる。音声の回り込みの抑制、および、信号の歪みの回避により、後段の音声認識などの処理の精度を向上させることが可能となる。
図1は、第1の実施形態にかかる音声処理装置100のハードウェア構成例を示す説明図である。なお第2の実施形態以降の各実施形態についても同様のハードウェア構成を適用できる。
音声処理装置100は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM(Random Access Memory)53などの記憶装置と、マイク54−1〜54−nと、ネットワークに接続して通信を行う通信I/F55と、各部を接続するバス61を備えている。
マイク54−1〜54−nは、音源からの音を入力する音声入力装置の一例である。例えば、n個(nは2以上の整数)の音源それぞれに対応してn個のマイク54−1〜54−nが備えられる。区別する必要がない場合は、マイク54−1〜54−nを単にマイク54という場合がある。
例えば音声処理装置100が会議システムに適用される場合であれば、会議の参加者(話者)ごとに、1つのマイク54が割り当てられる。参加者は、遠隔会議を行う場合の遠隔地に存在する参加者であってもよい。この場合、遠隔地の参加者の発話を出力するスピーカなどの音声出力装置が音源の1つに相当する。マイク54は、入力された音に対応する入力信号を出力する。
図2は、第1の実施形態にかかる音声処理装置100の機能構成例を示すブロック図である。図2に示すように、音声処理装置100は、受付部111と、分離部112と、判定部113と、出力制御部114と、認識部115と、を有する。
図2の各部は、例えば、1または複数のプロセッサにより実現される。例えば各部は、CPU51などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。各部は、専用のIC(Integrated Circuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
各部は、必要に応じて、処理に用いるデータなどを記憶装置に記憶したり、データなどを記憶装置から読み出して利用したりしてもよい。記憶装置は、上記のROM52およびRAM53の他、HDD(Hard Disk Drive)、光ディスク、および、メモリカードなどの任意の記憶媒体を用いることができる。記憶装置は、物理的に異なる記憶媒体としてもよいし、物理的に同一の記憶媒体の異なる記憶領域として実現してもよい。さらに記憶装置のそれぞれは、物理的に異なる複数の記憶媒体により実現してもよい。
受付部111は、n個のマイク54−1〜54−nに入力されたn個の入力信号を受け付ける。
分離部112は、入力信号を音源ごとに分離する音源分離を実行し、複数の分離信号を生成する。分離部112は、n個の音源に対応するn個の入力信号を入力し、n個の音源に対応するn個の分離信号を生成する。分離部112は、例えば、複数の入力信号をマイクアレイ分離方法により、逐次で音源ごとに分離する。分離方法は、独立成分分析(ICA:Independent Component Analysis)に基づく方法でもよいし、時間−周波数マスキング(Time-frequency Masking)に基づく方法でもよい。
特許文献2の方法に基づく実時間の音源分離方法を適用してもよい。この方法では、入力信号を用いて補助変数が推定される。そして、推定された補助変数の値と分離行列とに基づいて、近似補助関数の関数値が最小になるように分離行列が更新される。最後に更新された分離行列を用いて入力信号が分離される。
判定部113は、所定の期間に同時に音声を発した音源の個数を判定する。所定の期間は、例えば、音声認識の単位となる信号を取得する期間に相当する。例えば判定部113は、分離信号が音声の信号であることの尤度(音声らしさ)を求める。判定部113は、尤度が閾値以上である分離信号の個数を、音声を発した音源の個数であると判定する。音声の信号であることの尤度は、例えば、SNR(Signal to Noise Ratio:信号対雑音比)、スペクトルエントロピー、および、クロスエントロピーなどを用いた任意の指標を用いることができる。
判定部113は、分離信号のパワーを用いて音源の個数を判定してもよい。例えば判定部113は、分離信号ごとにパワーを計算する。判定部113は、パワーが閾値以上となる分離信号の個数を、音声を発した音源の個数であると判定する。
パワーと比較する閾値は、予め決めた閾値であってもよいし、計算した各分離信号のパワーから算出した値であってもよい。例えば判定部113は、分離信号のパワーの平均値(平均パワー)を算出し、この平均値を閾値としてもよい。判定部113は、パワーが平均パワー以上となる分離信号の個数を、音声を発した音源の個数であると判定する。
出力制御部114は、認識部115に対する出力信号の出力を制御する。例えば出力制御部114は、音声を発した音源の個数に応じて、入力信号に基づいて生成される出力信号と、分離信号に基づいて生成される出力信号と、を切り替えて出力する。
より具体的には、出力制御部114は、音声を発した音源の個数が1の場合、入力信号に基づいて生成される出力信号を出力する。例えば出力制御部114は、n個の入力信号のうち、音声認識に対してより有効な1つの入力信号を選択し、出力信号として出力する。より具体的には、出力制御部114は、複数の入力信号のパワーまたはSNRを計算し、パワーまたはSNRが最も大きい入力信号を、音源である話者から最も近いマイク54で取得された入力信号であると判定し、選択する。
音源と入力信号との対応がわかっている場合は、出力制御部114は、n個の入力信号のうち、音声を発したと判定された1の音源に対応する入力信号を選択し、出力信号として出力してもよい。
音声を発していないと判定された音源に対しては、出力制御部114は、出力信号を出力しなくてもよい(ミュートにする)。なお、入力信号から1つを選択する方法は、後述する第2の実施形態のように信号を強調する処理などが不要であり、計算量を抑制することができる。
出力制御部114は、音声を発した音源の個数が2以上の場合、分離信号に基づいて生成される出力信号を出力する。出力制御部114は、例えば、n個の分離信号を、n個の音源それぞれに対応するn個の出力信号として出力する。
なお音声を発した音源がない場合(音源数=0)、出力制御部114は、例えば、出力信号を出力しない。
認識部115は、出力信号に対して音声認識を実行する。例えば認識部115は、音源(話者)ごとに、音源に対応して出力された出力信号の音声認識を実行する。音声認識とともに、または、音声認識の代わりに、音声認識以外の音声処理を実行してもよい。
なお、音声処理装置100を会議システムに適用する場合であれば、音声処理装置100が、会議を制御するための機能部をさらに備えてもよい。例えば音声処理装置100は、音声認識の結果を表示する機能、音声認識の結果を用いて議事録を作成する機能、および、入力信号または出力信号に基づく音声を出力する機能などを備えてもよい。
次に、このように構成された第1の実施形態にかかる音声処理装置100による音声処理について図3を用いて説明する。図3は、第1の実施形態における音声処理の一例を示すフローチャートである。
受付部111は、マイク54により取得された入力信号の入力を受け付ける(ステップS101)。分離部112は、入力信号に対して音源分離を実行し、音源ごとの分離信号を出力する(ステップS102)。判定部113は、分離信号に基づいて、音声を発した音源の個数(音源数)を判定する(ステップS103)。
出力制御部114は、音源数が1であるか否かを判定する(ステップS104)。音源数が1の場合(ステップS104:Yes)、出力制御部114は、入力信号を用いて出力信号を生成する(ステップS105)。例えば出力制御部114は、n個の入力信号のうち1つの入力信号を選択し、出力信号として出力する。
音源数が1でない場合(ステップS104:No)、出力制御部114は、音源数が2以上であるか否かを判定する(ステップS106)。音源数が2以上の場合(ステップS106:Yes)、出力制御部114は、分離信号を用いて出力信号を生成する(ステップS107)。例えば出力制御部114は、n個の分離信号を、n個の音源それぞれに対応するn個の出力信号とする。
音源数が2以上でない場合(ステップS106:No)、および、ステップS105またはステップS107で出力信号が生成された後、認識部115は、出力信号に対する音声認識を実行する(ステップS108)。なお、音源数が2以上でない場合とは、例えば、音声を発した音源がない場合である。上記のように、このような状況では出力信号が出力されない場合がある。出力信号が出力されない場合は、認識部115は、音声認識を実行しなくてよい。
次に、音声処理装置100による音声処理の具体例について図4および図5を用いて説明する。図4は、音源数が1と判定される場合の処理の例を示す図である。図5は、音源数が2と判定される場合の処理の例を示す図である。
図4および図5は、音源である話者が3人(話者401−1、401−2、401−3)である場合の例である。各話者に対応して、3つのマイク54−1、54−2、54−3が設置される。
入力信号の数はマイク54の本数と同じである。例えば、図4に示すように話者401−1のみが発話した場合、話者401−1の発話402−1に対して、マイク54−1、54−2、および、54−3から、それぞれ、入力信号403−1、403−2、および、403−3が出力される。
分離部112は、3つの入力信号に対して音源分離を実行し、各音源(各マイク54)に対応する3つの分離信号404−1、404−2、404−3を出力する(ステップS401)。
なお、音源分離では、分離信号の振幅を決めるために、バックプロジェクション(back-projection)処理が必要となる場合がある。バックプロジェクションは、分離信号を、選択した入力信号に逆投影し、分離信号の振幅を決める処理である。
複数のマイク54間の距離が近い場合、各マイク54の入力信号の振幅はあまり変わらない。このため、任意のマイク54の入力信号を用いてバックプロジェクションを実行すればよい。一方、複数のマイク54間の距離が遠い場合、各マイク54の入力信号の振幅は大きく異なる。このため、任意のマイク54の入力信号を用いてバックプロジェクションを実行すると、分離信号に悪影響が生じる場合がある。
図4の例では、複数のマイク54間の距離が遠い場合、マイク54−1を用いて話者401−1の発話402−1を取得した入力信号403−1は、マイク54−3を用いて話者401−1の発話402−1を取得した入力信号403−3より振幅が大きい。入力信号403−3を用いて話者401−1の分離信号404−1のバックプロジェクションを実行すると、話者401−1の分離信号404−1は小さくなる。
本実施形態では、各話者から一番近いマイクの入力信号に基づいて、バックプロジェクションを行う。図4の例では、入力信号403−1を用いて話者401−1の分離信号404−1のバックプロジェクションを実行する。入力信号403−2を用いて話者401−2の分離信号404−2のバックプロジェクションを実行する。入力信号403−3を用いて話者401−3の分離信号404−3のバックプロジェクションを実行する。
音源分離により回り込み音声を完全に抑制できればよいが、実際には、抑制しきれない回り込み音声が残ることがある。図4の例では、話者401−1の発話に対して、分離信号404−2では回り込み音声が十分に抑制されているが、分離信号404−3では抑制しきれない回り込み音声が残っている。
判定部113は、分離信号に基づき音声を発した音源の個数を判定する(ステップS402)。例えば、判定部113は、図4に示すように、分離信号404−1、分離信号404−2、および、分離信号404−3それぞれの音声らしさを計算する。
例えば、分離信号404−1は話者401−1の発話402−1を分離した信号であるため、音声らしさが高くなる。分離信号404−2は回り込み音声を抑制できたため、音声らしさが非常に低くなる。分離信号404−3は抑制しきれていない回り込み音声が残っているが、音声らしさは低くなる。例えば、分離信号404−1、404−2、および、404−3の音声らしさが、それぞれ0.9、0、および、0.2であったとする。また、予め定められた音声らしさの閾値が0.5であったとする。判定部113は、閾値以上の分離信号の個数が1つであるため、音声を発した音源の個数は1つと判定する。
分離信号のパワーを用いて音源数を判定する場合は以下のようになる。例えば、分離信号404−1、404−2、および、404−3のパワーが、それぞれ、0.9、0、および、0.2であったとする。判定部113は、閾値以上の分離信号の個数が1つであるため、音声を発した音源の個数は1つと判定する。
平均パワーを用いて判定する場合は以下のようになる。例えば、分離信号404−1、404−2、および、404−3のパワーが、それぞれ、0.9、0、および、0.2であったとする。判定部113は、これらの平均値0.37を平均パワーとして計算する。判定部113は、平均パワー以上の分離信号の個数が1つであるため、音声を発した音源の個数は1つと判定する。
出力制御部114は、判定結果に応じて出力信号を生成する(ステップS403)。図4の例では音源数が1と判定されたため、出力制御部114は、音源(話者401−1)に対応する入力信号403−1を、出力信号405−1として生成する。話者401−2と話者401−3の発話がないため、出力制御部114は、これらの話者に対する出力信号はミュートにする。
認識部115は、出力信号に対して音声認識を実行する(ステップS404)。
図5は、話者401−1および話者401−2が同時に発話した場合の例である。この場合、話者401−1の発話502−1、および、話者401−2の発話502−2に対して、マイク54−1、54−2、および、54−3から、それぞれ、入力信号503−1、503−2、および、503−3が出力される。
また、音源分離により、分離信号504−1、504−2、および、504−3が得られる(ステップS401)。分離信号504−1は、話者401−1の発話502−1を分離した信号である。分離信号504−2は、話者401−2の発話502−2を分離した信号である。分離信号504−3は、抑制しきれない回り込み音声の信号である。
判定部113は、分離信号に基づき音声を発した音源の個数を判定する。例えば、分離信号504−1、504−2、および、504−3の音声らしさが、それぞれ、0.9、0.7、および、0.2であったとする。また、予め定められた音声らしさの閾値が0.5であったとする。判定部113は、閾値以上の分離信号の個数が2つであるため、音声を発した音源の個数は2つと判定する(ステップS402)。
音源数が2と判定されたため、出力制御部114は、分離信号に基づき出力信号を生成する(ステップS403)。例えば出力制御部114は、分離信号504−1を、話者401−1に対する出力信号505−1として生成する。出力制御部114は、分離信号504−2を、話者401−2に対する出力信号505−2として生成する。話者401−3の発話がないため、出力制御部114は、話者401−3に対する出力信号はミュートに(音声を出さない、または無音に)する。
認識部115は、出力信号に対して音声認識を実行する(ステップS404)。
本実施形態のようにマイク54と話者とが1対1に対応する場合であっても、話者が同時に発話すると回り込みが発生しうる。発話した話者が1人の場合(音源が1つの場合)は回り込みがないと判断できるので、入力信号を使って音声を認識しても精度が低下する可能性は小さい。なお、音声を発した音源数が1つの場合、分離信号を出力信号として出力することも可能である。しかし、本実施形態のように入力信号を出力信号として出力すれば、音源分離に伴う信号の歪みの発生を回避可能となる。
以上のように、第1の実施形態にかかる音声処理装置では、複数の話者(音源)に対して、複数のマイクを用いて入力信号を取得する。取得した入力信号を音源ごとに分離し、同時に音声を発した音源数を判定する。そして、音源数に応じて、入力信号と分離信号とを切り替えて出力信号として出力し、音声認識を実行する。これにより、回り込み音声を抑制し、それぞれの話者の音声をより高精度に認識可能となる。
(第2の実施形態)
第2の実施形態にかかる音声処理装置は、音声を発した音源の個数が1の場合、音源の方向の音声を強調した出力信号を生成して出力する。これにより、例えば後段の音声認識などの処理の精度をさらに向上させることが可能となる。
図6は、第2の実施形態にかかる音声処理装置100−2の構成の一例を示すブロック図である。図6に示すように、音声処理装置100−2は、受付部111と、分離部112と、判定部113と、出力制御部114−2と、認識部115と、を有する。
第2の実施形態では、出力制御部114−2の機能が第1の実施形態と異なっている。その他の構成および機能は、第1の実施形態にかかる音声処理装置100のブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
出力制御部114−2は、音声を発した音源の個数が1の場合、入力信号を用いて音源の方向の音声を強調した出力信号を生成する点が、第1の実施形態の出力制御部114と異なっている。出力制御部114−2は、例えば複数の入力信号を用いたビームフォーミングにより、音源方向の音声を強調した信号を生成する。ビームフォーミングとは指向性を制御する信号処理技術で、例えば各マイクへの音声到達時間のずれを計算して補正する方法である。音源の方向の音声が強調されるため、後段の音声認識などの処理をさらに高精度に実行可能となる。入力信号を用いて音源方向の音声を強調できる方法であれば、ビームフォーミング以外の方法を適用してもよい。
なお、第2の実施形態にかかる音声処理装置100−2による音声処理の全体の流れは、図3と同様である。第2の実施形態では、ステップS105で、出力制御部114−2が、複数の入力信号を用いてビームフォーミングを実行し、音源方向の音声を強調した出力信号を生成する。
次に、第2の実施形態の音声処理装置100−2による音声処理の具体例について図7を用いて説明する。図7は、音源数が1と判定される場合の処理の例を示す図である。また図7は、話者401−3の発話の代わりに、雑音源の例であるエアコンディショナー701−3からの雑音702−3が入力される例を示す。
図7に示すように、話者401−1のみが発話し、かつ、エアコンディショナー701−3からの雑音702−3がある場合、話者401−1の発話702−1および雑音702−3に対して、マイク54−1、54−2、および、54−3から、それぞれ、入力信号703−1、703−2、および、703−3が出力される。
分離部112は、3つの入力信号に対して音源分離を実行し、各音源(各マイク54)に対応する3つの分離信号704−1、704−2、704−3を出力する(ステップS401)。分離信号704−1は、話者401−1の発話702−1の分離信号である。分離信号704−2は、抑制しきれない回り込み音声の信号である。分離信号704−3は、エアコンディショナー701−3の雑音702−3の分離信号である。
判定部113は、分離信号に基づき音声を発した音源の個数を判定する(ステップS402)。例えば、判定部113は、図7に示すように、分離信号704−1、分離信号704−2、および、分離信号704−3それぞれの音声らしさを計算する。
例えば、分離信号704−1、704−2、および、704−3の音声らしさが、それぞれ0.9、0.2、および、0であったとする。また、予め定められた音声らしさの閾値が0.5であったとする。判定部113は、閾値以上の分離信号の個数が1つであるため、音声を発した音源の個数は1つと判定する。
このように、判定部113は、雑音がある場合でも、音源の個数を正しく判定できる。従って、雑音がある場合でも、回り込み音声を抑制し、各話者の音声を認識できる。判定部113の機能は共通するため、第1の実施形態でも雑音を考慮した音源数の判定が実現できる。
なお信号のパワーを用いて音源数を判定してもよいが、例えば雑音のパワーが大きい状況では、音源数を誤判定する可能性がある。このような場合は、パワーではなく音声らしさを用いて音源数を判定することが望ましい。
出力制御部114−2は、判定結果に応じて出力信号を生成する(ステップS403−2)。図7の例では音源数が1と判定されたため、出力制御部114−2は、入力信号703−1、703−2、および、703−3を用いたビームフォーミングにより、話者401−1の発話702−1を強調した出力信号705−1を生成して出力する。話者401−2と話者401−3の発話がないため、出力制御部114−2は、これらの話者に対する出力信号はミュートにする。
認識部115は、出力信号705−1に対して音声認識を実行する(ステップS404)。
このように、第2の実施形態によれば、音源の方向の音声を強調した出力信号を生成して出力できる。これにより、後段の音声認識などの処理の精度をさらに向上させることが可能となる。
(第3の実施形態)
第3の実施形態では、音声処理装置の機能を複数の装置に分散した音声処理システムとして実現した例を説明する。以下では、第1の実施形態の音声処理装置100の機能を分散する例を説明するが、第2の実施形態の音声処理装置100−2の機能を分散するように構成してもよい。
図8は、第3の実施形態にかかる音声処理システムの構成の一例を示すブロック図である。図8に示すように、音声処理システムは、サーバ装置300−3と、クライアント装置200−3と、がネットワーク400−3で接続された構成となっている。ネットワーク400−3は、インターネットなどのあらゆるネットワーク形態を適用できる。
クライアント装置200−3は、例えば通常のパーソナルコンピュータなどの単体の装置により構成することができる。クライアント装置200−3は1台に限られず、複数のクライアント装置200−3が備えられてもよい。
サーバ装置300−3は、クライアント装置200−3からの要求に応じて音声処理を実行する装置である。サーバ装置300−3は、物理的に1つの装置により構成してもよいし、クラウドコンピューティング環境上の仮想的な装置として実現してもよい。複数のサーバ装置300−3が備えられてもよい。
クライアント装置200−3およびサーバ装置300−3は、図1に示す音声処理装置100と同様のハードウェア構成とすることができる。サーバ装置300−3で音声の取得が不要な場合は、図1からマイク54を除いたハードウェア構成としてもよい。
クライアント装置200−3は、受付部111と、通信制御部201−3と、を有する。サーバ装置300−3は、通信制御部301−3と、分離部112と、判定部113と、出力制御部114と、認識部115と、を有する。
受付部111、分離部112、判定部113、出力制御部114、および、認識部115の機能は、第1の実施形態と同様であるので、同一符号を付し、説明は省略する。
通信制御部201−3は、サーバ装置300−3などの外部装置との間の通信を制御する。例えば通信制御部201−3は、受付部111により受け付けられたマイク54からの入力信号を、リアルタイムで、または、ユーザの指示等に応じて、サーバ装置300−3に送信する。
本実施形態の音声処理システムが会議システムに適用される場合であれば、クライアント装置200−3が、会議を制御するための機能部をさらに備えてもよい。この場合、通信制御部201−3は、会議に関する情報をさらにサーバ装置300−3との間で送受信してもよい。
通信制御部301−3は、クライアント装置200−3などの外部装置との間の通信を制御する。例えば通信制御部301−3は、クライアント装置200−3から送信された入力信号を受信する。受信された入力信号は、分離部112に渡される。以降は、第1の実施形態と同様の手順で、分離部112、判定部113、出力制御部114、および、認識部115の各機能が実行される。
音声認識の結果は、例えば通信制御部301−3によりクライアント装置200−3に送信されてもよい。本実施形態の音声処理システムが会議システムに適用される場合であれば、サーバ装置300−3が、会議を制御するための機能部をさらに備えてもよい。この場合、通信制御部301−3は、会議に関する情報をさらにクライアント装置200−3との間で送受信してもよい。
図8では、分離部112、判定部113、出力制御部114、および、認識部115の機能をサーバ装置300−3が備える例を説明した。機能の分散方法はこれに限られるものではない。例えば、これらの4つの機能部のうち一部をクライアント装置200−3が備えるように構成してもよい。また、音声処理システムが複数のサーバ装置を備え、複数のサーバ装置が、これらの4つの機能部をさらに分散して備えるように構成してもよい。
以上説明したとおり、第1から第3の実施形態によれば、音声の回り込みの抑制、および、信号の歪みの回避が可能となる。この結果、後段の音声認識などの処理の精度を向上させることが可能となる。
上記各実施形態にかかる装置(音声処理装置、クライアント装置、サーバ装置)で実行されるプログラムは、ROM52等に予め組み込まれて提供される。
実施形態にかかる装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、実施形態にかかる装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、実施形態にかかる装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
実施形態にかかる装置で実行されるプログラムは、コンピュータを上述した装置の各部として機能させうる。このコンピュータは、CPU51がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100、100−2 音声処理装置
111 受付部
112 分離部
113 判定部
114、114−2 出力制御部
115 認識部
200−3 クライアント装置
201−3 通信制御部
300−3 サーバ装置
301−3 通信制御部
400−3 ネットワーク

Claims (12)

  1. n個(nは2以上の整数)の音源に対応するn個の音声入力装置に入力されたn個の入力信号を受け付ける受付部と、
    前記入力信号を、前記音源ごとに分離してn個の分離信号を生成する分離部と、
    音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御部と、を備え、
    前記出力制御部は、音声を発した音源の個数が1の場合、前記入力信号に基づいて生成される出力信号を出力し、音声を発した音源の個数が2以上の場合、前記分離信号に基づいて生成される出力信号を出力し、
    前記出力制御部は、音声を発した音源の個数が1の場合、前記入力信号を用いたビームフォーミングにより、音源の方向の音声を強調した出力信号を生成する、
    声処理装置。
  2. n個(nは2以上の整数)の音源に対応するn個の音声入力装置に入力されたn個の入力信号を受け付ける受付部と、
    前記入力信号を、前記音源ごとに分離してn個の分離信号を生成する分離部と、
    音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御部と、
    前記分離信号が音声の信号であることの尤度を求め、前記尤度が閾値以上である前記分離信号の個数を、音声を発した音源の個数であると判定する判定部と、
    を備える音声処理装置。
  3. n個(nは2以上の整数)の音源に対応するn個の音声入力装置に入力されたn個の入力信号を受け付ける受付部と、
    前記入力信号を、前記音源ごとに分離してn個の分離信号を生成する分離部と、
    音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御部と、
    パワーが閾値以上である前記分離信号の個数を、音声を発した音源の個数であると判定する判定部と、
    を備える音声処理装置。
  4. 前記出力制御部は、音声を発した音源の個数が1の場合、n個の前記入力信号のうち1つを出力信号として選択する、
    請求項1から請求項3のいずれか1項に記載の音声処理装置。
  5. 前記出力信号に対して音声認識を実行する認識部をさらに備える、
    請求項1から請求項3のいずれか1項に記載の音声処理装置。
  6. 前記閾値は、複数の前記分離信号のパワーの平均値である、
    請求項2または請求項3に記載の音声処理装置。
  7. n個(nは2以上の整数)の音源に対応するn個の音声入力装置で取得されたn個の入力信号を受け付ける受付ステップと、
    前記入力信号を、前記音源ごとに分離してn個の分離信号を生成する分離ステップと、
    音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御ステップと、を含み、
    前記出力制御ステップは、音声を発した音源の個数が1の場合、前記入力信号に基づいて生成される出力信号を出力し、音声を発した音源の個数が2以上の場合、前記分離信号に基づいて生成される出力信号を出力し、
    前記出力制御ステップは、音声を発した音源の個数が1の場合、前記入力信号を用いたビームフォーミングにより、音源の方向の音声を強調した出力信号を生成する、
    声処理方法。
  8. n個(nは2以上の整数)の音源に対応するn個の音声入力装置で取得されたn個の入力信号を受け付ける受付ステップと、
    前記入力信号を、前記音源ごとに分離してn個の分離信号を生成する分離ステップと、
    音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御ステップと、
    前記分離信号が音声の信号であることの尤度を求め、前記尤度が閾値以上である前記分離信号の個数を、音声を発した音源の個数であると判定する判定ステップと、
    を含む音声処理方法。
  9. n個(nは2以上の整数)の音源に対応するn個の音声入力装置で取得されたn個の入力信号を受け付ける受付ステップと、
    前記入力信号を、前記音源ごとに分離してn個の分離信号を生成する分離ステップと、
    音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御ステップと、
    パワーが閾値以上である前記分離信号の個数を、音声を発した音源の個数であると判定する判定ステップと、
    を含む音声処理方法。
  10. コンピュータを、
    n個(nは2以上の整数)の音源に対応するn個の音声入力装置で取得されたn個の入力信号を受け付ける受付部と、
    前記入力信号を、前記音源ごとに分離してn個の分離信号を生成する分離部と、
    音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御部と、として機能させ、
    前記出力制御部は、音声を発した音源の個数が1の場合、前記入力信号に基づいて生成される出力信号を出力し、音声を発した音源の個数が2以上の場合、前記分離信号に基づいて生成される出力信号を出力し、
    前記出力制御部は、音声を発した音源の個数が1の場合、前記入力信号を用いたビームフォーミングにより、音源の方向の音声を強調した出力信号を生成する、
    ログラム。
  11. コンピュータを、
    n個(nは2以上の整数)の音源に対応するn個の音声入力装置で取得されたn個の入力信号を受け付ける受付部と、
    前記入力信号を、前記音源ごとに分離してn個の分離信号を生成する分離部と、
    音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御部と、
    前記分離信号が音声の信号であることの尤度を求め、前記尤度が閾値以上である前記分離信号の個数を、音声を発した音源の個数であると判定する判定部と、
    として機能させるためのプログラム。
  12. コンピュータを、
    n個(nは2以上の整数)の音源に対応するn個の音声入力装置で取得されたn個の入力信号を受け付ける受付部と、
    前記入力信号を、前記音源ごとに分離してn個の分離信号を生成する分離部と、
    音声を発した音源の個数に応じて、前記入力信号に基づいて生成される出力信号と、前記分離信号に基づいて生成される出力信号と、を切り替えて出力する出力制御部と、
    パワーが閾値以上である前記分離信号の個数を、音声を発した音源の個数であると判定する判定部と、
    として機能させるためのプログラム。
JP2017108959A 2017-06-01 2017-06-01 音声処理装置、音声処理方法およびプログラム Active JP6800809B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017108959A JP6800809B2 (ja) 2017-06-01 2017-06-01 音声処理装置、音声処理方法およびプログラム
US15/891,075 US10504523B2 (en) 2017-06-01 2018-02-07 Voice processing device, voice processing method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017108959A JP6800809B2 (ja) 2017-06-01 2017-06-01 音声処理装置、音声処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2018205449A JP2018205449A (ja) 2018-12-27
JP6800809B2 true JP6800809B2 (ja) 2020-12-16

Family

ID=64460532

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017108959A Active JP6800809B2 (ja) 2017-06-01 2017-06-01 音声処理装置、音声処理方法およびプログラム

Country Status (2)

Country Link
US (1) US10504523B2 (ja)
JP (1) JP6800809B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102190986B1 (ko) * 2019-07-03 2020-12-15 주식회사 마인즈랩 개별 화자 별 음성 생성 방법
JP2021135462A (ja) * 2020-02-28 2021-09-13 日本電信電話株式会社 ソースイメージ推定装置、ソースイメージ推定方法及びソースイメージ推定プログラム
CN113576527A (zh) * 2021-08-27 2021-11-02 复旦大学 一种利用声控进行超声输入判断的方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3859612B2 (ja) 2003-04-10 2006-12-20 株式会社アドバンスト・メディア 会議録音・書き起こしシステム
JP4411959B2 (ja) * 2003-12-18 2010-02-10 ソニー株式会社 音声集音・映像撮像装置
JP4867804B2 (ja) 2007-06-12 2012-02-01 ヤマハ株式会社 音声認識装置及び会議システム
US9552840B2 (en) 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
US8918197B2 (en) * 2012-06-13 2014-12-23 Avraham Suhami Audio communication networks
JP6005443B2 (ja) 2012-08-23 2016-10-12 株式会社東芝 信号処理装置、方法及びプログラム
JP6543844B2 (ja) 2015-08-27 2019-07-17 本田技研工業株式会社 音源同定装置および音源同定方法

Also Published As

Publication number Publication date
JP2018205449A (ja) 2018-12-27
US20180350370A1 (en) 2018-12-06
US10504523B2 (en) 2019-12-10

Similar Documents

Publication Publication Date Title
EP2898508B1 (en) Methods and systems for selecting layers of encoded audio signals for teleconferencing
US20190172476A1 (en) Deep learning driven multi-channel filtering for speech enhancement
EP2446642B1 (en) Method and apparatus for processing audio signals
US9955277B1 (en) Spatial sound characterization apparatuses, methods and systems
CN107168518B (zh) 一种用于头戴显示器的同步方法、装置及头戴显示器
CN112205006B (zh) 音频内容的自适应再混合
JP2019518985A (ja) 分散したマイクロホンからの音声の処理
Han et al. Real-time binaural speech separation with preserved spatial cues
JP6800809B2 (ja) 音声処理装置、音声処理方法およびプログラム
US20190138603A1 (en) Coordinating Translation Request Metadata between Devices
US11399253B2 (en) System and methods for vocal interaction preservation upon teleportation
US9837100B2 (en) Ambient sound rendering for online meetings
EP3005362B1 (en) Apparatus and method for improving a perception of a sound signal
WO2010105695A1 (en) Multi channel audio coding
US8793128B2 (en) Speech signal processing system, speech signal processing method and speech signal processing method program using noise environment and volume of an input speech signal at a time point
CN113784274A (zh) 三维音频系统
WO2020017518A1 (ja) 音声信号処理装置
KR102112018B1 (ko) 영상 회의 시스템에서의 음향 반향 제거 장치 및 방법
CN112005492B (zh) 用于动态声音均衡的方法
JP6361360B2 (ja) 残響判定装置及びプログラム
KR102575293B1 (ko) 음성을 처리하기 위한 음성 처리 장치, 음성 처리 시스템 및 음성 처리 방법
JP6994221B2 (ja) 抽出発生音補正装置、抽出発生音補正方法、プログラム
JP2015103824A (ja) 音声発生システムおよび音声発生機器用スタンド
WO2020017517A1 (ja) 音声信号処理システム、及び音声信号処理装置
CN117896666A (zh) 用于回放音频数据的方法、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190813

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201027

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201125

R151 Written notification of patent or utility model registration

Ref document number: 6800809

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151