JP6542705B2 - 発話検出装置、発話検出方法、プログラム、記録媒体 - Google Patents

発話検出装置、発話検出方法、プログラム、記録媒体 Download PDF

Info

Publication number
JP6542705B2
JP6542705B2 JP2016077462A JP2016077462A JP6542705B2 JP 6542705 B2 JP6542705 B2 JP 6542705B2 JP 2016077462 A JP2016077462 A JP 2016077462A JP 2016077462 A JP2016077462 A JP 2016077462A JP 6542705 B2 JP6542705 B2 JP 6542705B2
Authority
JP
Japan
Prior art keywords
speech
power spectrum
power
microphone
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016077462A
Other languages
English (en)
Other versions
JP2017187688A (ja
Inventor
小林 和則
和則 小林
健太 丹羽
健太 丹羽
智子 川瀬
智子 川瀬
悠馬 小泉
悠馬 小泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016077462A priority Critical patent/JP6542705B2/ja
Publication of JP2017187688A publication Critical patent/JP2017187688A/ja
Application granted granted Critical
Publication of JP6542705B2 publication Critical patent/JP6542705B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、発話検出技術に関するものであり、特にマイクロホンごとに発話を検出する技術に関する。
多くの人が参加する会議では、マイクロホンが複数用意され、会議が進められることがある。例えば、図12に示すようにテーブルに複数のマイクロホンが配置され、参加者のひとりが発話すると、その発話は参加者が使用するマイクロホンで検出・収音される。
このような状況で利用することができる、話者の音声を収音する技術として、特許文献1で開示された技術がある(図13参照)。特許文献1の技術では、話者(チャネル)ごとに独立して発話検出をおこなっている。
特開2015−155982号公報
上述の通り特許文献1の技術では、マイクロホンごとに独立して発話検出処理が行われる。このため、発話の音声の回り込みにより発話した者が使用するマイクロホン以外にも複数のマイクロホンが反応し、発話を検出してしまうことがある。複数のマイクロホンがONになることにより、マイクロホンミキシングでは雑音レベルが上昇したり、部屋の響きを拾いやすくなり、その結果音声の明瞭度が低下してしまう。また、録音では無用な録音が増えてしまう。さらに、音声認識では誤検出されたマイクロホンの音声が雑音や残響を多く含むため、誤認識を起こしてしまう。
そこで本発明では、1人の発話を複数のマイクロホンで検出してしまうことを防ぐことができる発話検出装置を提供することを目的とする。
本発明の一態様は、Nを2以上の整数とし、マイクロホンn(n=1,…,N)で収音した収音信号を用いて発話があったマイクロホンを発話チャネルとして検出する発話検出装置であって、前記マイクロホンnで収音した収音信号を周波数領域変換した周波数変換信号X(ω)(ωは周波数)のパワースペクトルP(ω)を補正後パワースペクトルY(ω)の初期値とし、前記補正後パワースペクトルY(ω)から前記発話チャネルに対応する周波数領域信号のパワースペクトルである発話チャネルスペクトルの影響である発話チャネル影響量を減算することにより、前記補正後パワースペクトルY(ω)を更新する発話チャネル影響量減算部と、前記補正後パワースペクトルY(ω)から周波数平均パワーZを計算するパワー計算部と、前記周波数平均パワーZが最大となるmを選択し、マイクロホンm(mは1以上N以下の整数)を前記発話チャネルとして検出する最大パワー検出部とを含む。
本発明によれば、複数のマイクロホンの収音信号を相互に利用することにより、1人の発話を複数のマイクロホンで検出してしまうことを防ぐことが可能となる。
発話検出装置100の構成を示すブロック図。 発話検出装置100の動作を示すフローチャート。 発話チャネル影響量計算部140の構成を示すブロック図。 発話チャネル影響量計算部140の動作を示すフローチャート。 減算係数テーブルの一例を示す図。 発話検出装置200の構成を示すブロック図。 定常雑音推定部230−nの構成を示すブロック図。 定常雑音推定部230−nの動作を示すフローチャート。 発話検出装置300の構成を示すブロック図。 減算係数更新部330の構成を示すブロック図。 減算係数更新部330の動作を示すフローチャート。 本願発明の利用シーンの一例である発話検出の様子を示す図。 特許文献1の技術による処理の様子を示す図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
<実施形態1>
以下、図1〜図2を参照して実施形態1の発話検出装置100を説明する。図1は、発話検出装置100の構成を示すブロック図である。図2は、発話検出装置100の動作を示すフローチャートである。図1に示すように発話検出装置100は、周波数領域変換部110−1、…、110−Nと、パワースペクトル計算部120−1、…、120−Nと、パワースペクトル記録部130−1、…、130−Nと、発話チャネル影響量計算部140と、発話チャネル影響量減算部150−1、…、150−Nと、パワー計算部160−1、…、160−Nと、最大パワー検出部170を含む(ただし、Nは2以上の整数とする)。発話検出装置100は、発話者の音声を収音信号として収音するためにマイクロホン910−1、…、910−Nに接続している。
マイクロホン910−1、…、910−Nは、複数の音源からの音、例えば、会議参加者の発話を収音し、収音信号を生成する(S910)。周波数領域変換部110−1、…、110−Nは、マイクロホン910−1、…、910−Nで収音された収音信号をそれぞれ周波数領域変換し、周波数領域信号を生成する(S110)。以下、周波数領域信号をX(ω)(n=1,…,N、ωは周波数)と表す。したがって、X(ω)は周波数領域変換した信号を表す複素数となる。
パワースペクトル計算部120−1、…、120−Nは、周波数領域変換部110−1、…、110−Nの出力である周波数領域信号X(ω)のパワースペクトルをそれぞれ計算する(S120)。以下、パワースペクトルをP(ω)と表す。例えば、P(ω)=X(ω)と計算するとよい。また、P(ω)=|X(ω)|と計算してもよい。
パワースペクトル記録部130−1、…、130−Nは、補正後パワースペクトルY(ω)(n=1,…,N)を記録する(S130)。補正後パワースペクトルY(ω)の初期値としてパワースペクトル計算部120−nの出力であるパワースペクトルP(ω)を記録する。
発話チャネル影響量計算部140は、発話チャネル影響量減算部150−nの出力である補正後パワースペクトルY(ω)(n=1,…,N)と最大パワー検出部170の出力である発話チャネル(発話が検出されたチャネル)のチャネル番号mから発話チャネル影響量αmn・Y(ω)を計算する。
以下、図3〜図4を参照して発話チャネル影響量計算部140について説明する。図3は、発話チャネル影響量計算部140の構成を示すブロック図である。図4は、発話チャネル影響量計算部140の動作を示すフローチャートである。図3に示すように発話チャネル影響量計算部140は、発話チャネルパワースペクトル選択部141と、発話チャネルパワースペクトル記録部142と、減算係数乗算部143−1、…、143−Nと、減算係数記録部190を含む。
ここで、減算係数αmnは、マイクロホンmとマイクロホンnの位置に応じて決まる値である。減算係数αmnは、事前に求めておき、減算係数記録部190に記録しておく。減算係数を表にした減算係数テーブルの一例を図5に示す。なお、αnnは、1となる。
減算係数αmnは、例えば、マイクロホンmの前で話すことを想定したときの発話場所からマイクロホンmまでの距離rとその発話場所からマイクロホンnまでの距離rの比として計算することができる。
Figure 0006542705
まず、発話チャネルパワースペクトル選択部141は、チャネル番号mを用いて補正後パワースペクトルY(ω)(n=1,…,N)の中からY(ω)を選択し(S141)、発話チャネルパワースペクトル記録部142は、Y(ω)を発話チャネルパワースペクトルとして記録する(S142)。なお、発話チャネルパワースペクトル記録部142には発話チャネルパワースペクトルの初期値としてゼロが記録されているものとする。このように初期値を設定しておくことで、発話チャネルパワースペクトルが記録されていないことにより発話チャネル影響量減算部150−1、…、150−Nで計算エラーが起きることを防ぐことができる。
減算係数乗算部143−nは、減算係数記録部190から読出した減算係数αmnを発話チャネルパワースペクトル記録部142から読出した発話チャネルパワースペクトルY(ω)に乗じ、発話チャネル影響量αmn・Y(ω)を計算する(S143)。発話チャネル影響量計算部140は、発話チャネル影響量αmn・P(ω)を発話チャネル影響量減算部150−nに出力する。
発話チャネル影響量減算部150−n(n=1,…,N)は、パワースペクトル記録部130−nに記録した補正後パワースペクトルY(ω)から発話チャネル影響量αmn・Y(ω)を減算し、補正後パワースペクトルY(ω)を計算する(S150)。
Figure 0006542705
ただし、記号:=は右辺の計算式の値を左辺の変数に代入することを示す。つまり、Y(ω)の値が更新されることになる。なお、n=mの場合、つまり発話チャネルについては、αnn=1となるため、Y(ω)=0となる。
ここで、この新たに計算した補正後パワースペクトルY(ω)でパワースペクトル記録部130−nを更新しておく(S150)。
パワー計算部160−nは、補正後パワースペクトルY(ω)から周波数平均パワーZを計算する(S160)。周波数平均パワーZは周波数ωについて補正後パワースペクトルY(ω)の総和をとり、周波数の総数ωMAXで割ることにより計算される。
Figure 0006542705
最大パワー検出部170は、パワー計算部160−nの出力である周波数平均パワーZのうち最大となるチャネル番号mを選択する(S170−1)。Zの最大値がゼロ未満、すなわちZの値がすべてゼロ未満であるか判定する(S170−2)。Zの値がすべてゼロ未満であると判定した場合は、処理を終了する。一方、Zの値のうち、1つでもゼロ以上のものがある場合は、チャネル番号mを発話チャネルのチャネル番号として出力し、S150〜S170−2の処理とS141〜S143の処理を繰り返す(S170−3)。
処理が繰り返される間、最大パワー検出部170から出力されるチャネル番号すべてが発話チャネルとなる。
本実施形態の発明によれば、周波数平均パワーが最大となる発話に対応するマイクロホンが検出され、そのマイクロホンに対応する発話の音声が他のマイクロホンに入った成分αmn・P(ω)を推定して減算する。次に、減算した補正後パワースペクトルからサイン出される周波数平均パワーについて、最大となる発話に対応するマイクロホンが検出する。このように他のマイクロホンへの音の回り込み成分を減算しながら、発話のあるマイクロホン(発話チャネル)を検出していくことにより、1人の発話を複数のマイクロホンで検出してしまうことを防ぐことができる。
<実施形態2>
マイクロホンで収音される信号には、発話者の発話音声以外に空調の音やパソコンのファンの音などの定常雑音が含まれている。そこで、定常雑音を推定し、パワースペクトルP(ω)から定常雑音を除去したものを用いて補正後パワースペクトルY(ω)を計算する。これにより、空調やファンの音による誤動作を防ぐことができる。
実施形態2の発話検出装置200の構成を図6に示す。実施形態2の発話検出装置200は定常雑音推定部230−1、…、230−Nと定常雑音減算部240−1、…、240−Nを含む点において発話検出装置100と異なる。
定常雑音推定部230−nは、パワースペクトルP(ω)に含まれる定常雑音成分R(ω)を推定する。定常雑音減算部240−nは、パワースペクトルP(ω)から定常雑音成分R(ω)を減算し、新たにパワースペクトルP(ω)を計算する。
そこで、以下では、図7〜図8を参照して定常雑音推定部230−nについて説明する。図7は、定常雑音推定部230−nの構成を示すブロック図である。図8は、定常雑音推定部230−nの動作を示すフローチャートである。図7に示すように定常雑音推定部230−nは、時間平均パワー計算部235と、ディップホールド処理部236と、重み記録部239を含む。
まず、時間平均パワー計算部235は、パワースペクトルP(ω)からその時間平均である時間平均パワースペクトルP (ω)を計算する(S235)。ディップホールド処理部236は、P(ω)の最小値を保持するディップホールド処理を行い、重み記録部239から重みβ、γを読出し、以下の式によりディップホールドパワーD(ω)を求め、最終的に定常雑音成分R(ω)を推定する(S236)。
Figure 0006542705
ただし、β、γは、いずれも0以上1以下の実数であり、β>γを満たす。
βまたはγが1に近いほど、長時間での平滑化したパワーの計算が行われる。時間平均パワースペクトルP (ω)がディップホールドパワーD(ω)よりも大きい場合に適用される係数βを、時間平均パワースペクトルP (ω)がディップホールドパワーD(ω)以下の場合に適用される係数γより大きくすることで、パワーの上昇時は緩やかな変化に、パワー下降時は急速なパワー変化になる。これにより計算後のディップホールドパワーD(ω)は、時間平均パワースペクトルP (ω)の最小値付近のパワーとなり、定常雑音に近いパワーを推定することができる。
定常雑音成分R(ω)は、ディップホールドパワーD(ω)にあらかじめ設定した固定の係数λを乗じることで算出できる。
Figure 0006542705
本実施形態の発明によれば、定常雑音を除去したパワースペクトルP(ω)を用いて補正後パワースペクトルY(ω)を計算することにより、雑音環境下でも安定した動作を行うことができる。
<実施形態3>
実施形態1では、減算係数を事前に減算係数記録部190に記録しているものとした。しかし、このように減算係数を事前に設定したものに固定すると、配置変更などマイクロホンの相対的位置関係が変わるような場合、発話チャネル影響量αmn・Y(ω)を正しく計算することができなくなる。そこで、発話を検出したチャネルのパワースペクトルの平均と当該チャネルを含むすべてのチャネルのパワースペクトルの平均の比を適宜計算し、この比を減算係数として減係数テーブルを更新する。これにより、マイクロホンの相対的位置関係に変動があった場合でも発話チャネル影響量αmn・Y(ω)を正しく計算することができるようになる。
実施形態3の発話検出装置300の構成を図9に示す。実施形態3の発話検出装置300は減算係数更新部330を含む点において発話検出装置100と異なる。減算係数更新部330は、パワースペクトルP(ω)(n=1,…,N)と発話チャネルのチャネル番号mから、減算係数αmnを計算し、減算係数記録部190に記録してある減算係数テーブルの第m行を更新する(図5参照)。
以下では、図10〜図11を参照して減算係数更新部330について説明する。図10は、減算係数更新部330の構成を示すブロック図である。図11は、減算係数更新部330の動作を示すフローチャートである。図10に示すように減算係数更新部330は、平均パワー計算部331と、パワー比計算部332を含む。
平均パワー計算部331は、パワースペクトルP(ω)(n=1,…,N)から時間周波数で平均をとった平均パワースペクトルQを計算する(S331)。パワー比計算部332は、入力されたチャネル番号mの平均パワースペクトルQを分母、mを含むチャネル番号nの平均パワースペクトルQを分子として平均パワースペクトルの比Q/Qを計算する(S332)。これを減算係数αmnとして減算係数記録部190を更新する(S190)。
なお、減算係数αmnの初期値は、実施形態1と同様に事前に設定されているものとする。
本実施形態の発明によれば、マイクロホンmとマイクロホンnの位置に応じて決定する必要がある減算係数αmnを発話のあったマイクロホンの信号の平均パワースペクトルQとmを含むマイクロホンの信号の平均パワースペクトルQを用いて適宜更新することができるため、マイクロホンの配置に変更があっても、その相対的位置関係に応じた適切な減算係数が設定することができる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
100 発話検出装置
110 周波数領域変換部
120 パワースペクトル計算部
130 パワースペクトル記録部
140 発話チャネル影響量計算部
141 発話チャネルパワースペクトル選択部
142 発話チャネルパワースペクトル記録部
143 減算係数乗算部
150 発話チャネル影響量減算部
160 パワー計算部
170 最大パワー検出部
190 減算係数記録部
200 発話検出装置
230 定常雑音推定部
235 時間平均パワー計算部
236 ディップホールド処理部
239 重み記録部
240 定常雑音減算部
300 発話検出装置
330 減算係数更新部
331 平均パワー計算部
332 パワー比計算部
910 マイクロホン

Claims (7)

  1. Nを2以上の整数とし、
    マイクロホンn(n=1,…,N)で収音した収音信号を用いて発話があったマイクロホンを発話チャネルとして検出する発話検出装置であって、
    前記マイクロホンnで収音した収音信号を周波数領域変換した周波数変換信号X(ω)(ωは周波数)のパワースペクトルP(ω)を補正後パワースペクトルY(ω)の初期値とし、
    前記補正後パワースペクトルY(ω)から前記発話チャネルに対応する周波数領域信号のパワースペクトルである発話チャネルスペクトルの影響である発話チャネル影響量を減算することにより、前記補正後パワースペクトルY(ω)を更新する発話チャネル影響量減算部と、
    前記補正後パワースペクトルY(ω)から周波数平均パワーZを計算するパワー計算部と、
    前記周波数平均パワーZが最大となるmを選択し、マイクロホンm(mは1以上N以下の整数)を前記発話チャネルとして検出する最大パワー検出部と
    を含む発話検出装置。
  2. Nを2以上の整数とし、
    マイクロホンn(n=1,…,N)で収音した収音信号を用いて発話があったマイクロホンを発話チャネルとして検出する発話検出装置であって、
    (ω)をマイクロホンnで収音される定常雑音成分とし、
    前記マイクロホンnで収音した収音信号を周波数領域変換した周波数変換信号X(ω)(ωは周波数)のパワースペクトルP(ω)から前記定常雑音成分R(ω)を減算した値を補正後パワースペクトルY(ω)の初期値とし、
    前記補正後パワースペクトルY(ω)から前記発話チャネルに対応する周波数領域信号のパワースペクトルである発話チャネルスペクトルの影響である発話チャネル影響量を減算することにより、前記補正後パワースペクトルY(ω)を更新する発話チャネル影響量減算部と、
    前記補正後パワースペクトルY(ω)から周波数平均パワーZを計算するパワー計算部と、
    前記周波数平均パワーZが最大となるmを選択し、マイクロホンm(mは1以上N以下の整数)を前記発話チャネルとして検出する最大パワー検出部と
    を含む発話検出装置。
  3. 請求項1または2に記載の発話検出装置であって、
    αmnをマイクロホンmとマイクロホンnの相対的位置に応じて定まる減算係数とし、
    前記発話チャネル影響量は、αmn・P(ω)として計算されることを特徴とする発話検出装置。
  4. 請求項3に記載の発話検出装置であって、
    さらに、
    前記パワースペクトルP(ω)の時間周波数平均である平均パワースペクトルQから計算される比Q/Qを前記減算係数αmnとして更新する減算係数更新部を含む発話検出装置。
  5. Nを2以上の整数とし、
    発話チャネル影響量減算部と、パワー計算部と、最大パワー検出部とを含む発話検出装置が、マイクロホンn(n=1,…,N)で収音した収音信号を用いて発話があったマイクロホンを発話チャネルとして検出する発話検出方法であって、
    前記マイクロホンnで収音した収音信号を周波数領域変換した周波数変換信号X(ω)(ωは周波数)のパワースペクトルP(ω)を補正後パワースペクトルY(ω)の初期値とし、
    前記発話チャネル影響量減算部が、前記補正後パワースペクトルY(ω)から前記発話チャネルに対応する周波数領域信号のパワースペクトルである発話チャネルスペクトルの影響である発話チャネル影響量を減算することにより、前記補正後パワースペクトルY(ω)を更新する発話チャネル影響量減算ステップと、
    前記パワー計算部が、前記補正後パワースペクトルY(ω)から周波数平均パワーZを計算するパワー計算ステップと、
    前記最大パワー検出部が、前記周波数平均パワーZが最大となるmを選択し、マイクロホンm(mは1以上N以下の整数)を前記発話チャネルとして検出する最大パワー検出ステップと
    を含む発話検出方法。
  6. 請求項1ないし4のいずれか1項に記載の発話検出装置としてコンピュータを機能させるためのプログラム。
  7. 請求項6に記載したいずれかのプログラムを記録したコンピュータで読み取り可能な記録媒体。
JP2016077462A 2016-04-07 2016-04-07 発話検出装置、発話検出方法、プログラム、記録媒体 Active JP6542705B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016077462A JP6542705B2 (ja) 2016-04-07 2016-04-07 発話検出装置、発話検出方法、プログラム、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016077462A JP6542705B2 (ja) 2016-04-07 2016-04-07 発話検出装置、発話検出方法、プログラム、記録媒体

Publications (2)

Publication Number Publication Date
JP2017187688A JP2017187688A (ja) 2017-10-12
JP6542705B2 true JP6542705B2 (ja) 2019-07-10

Family

ID=60046395

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016077462A Active JP6542705B2 (ja) 2016-04-07 2016-04-07 発話検出装置、発話検出方法、プログラム、記録媒体

Country Status (1)

Country Link
JP (1) JP6542705B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7001029B2 (ja) 2018-09-11 2022-01-19 日本電信電話株式会社 キーワード検出装置、キーワード検出方法、およびプログラム

Also Published As

Publication number Publication date
JP2017187688A (ja) 2017-10-12

Similar Documents

Publication Publication Date Title
JP5452655B2 (ja) 音声状態モデルを使用したマルチセンサ音声高品質化
CN103650040B (zh) 使用多特征建模分析语音/噪声可能性的噪声抑制方法和装置
RU2407074C2 (ru) Улучшение речи с помощью нескольких датчиков с использованием предшествующей чистой речи
JP6668995B2 (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
JP6135106B2 (ja) 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
JP4787851B2 (ja) エコー抑圧ゲイン推定方法とそれを用いたエコー消去装置と、装置プログラムと記録媒体
JP2013250548A (ja) 処理装置、処理方法、プログラム及び処理システム
US9601124B2 (en) Acoustic matching and splicing of sound tracks
CN113613112B (zh) 抑制麦克风的风噪的方法和电子装置
JP6542705B2 (ja) 発話検出装置、発話検出方法、プログラム、記録媒体
JP5769671B2 (ja) エコー抑圧ゲイン推定方法とそれを用いたエコー消去装置とプログラム
JP5889224B2 (ja) エコー抑圧ゲイン推定方法とそれを用いたエコー消去装置とプログラム
JP5769672B2 (ja) エコー抑圧ゲイン推定方法とそれを用いたエコー消去装置とプログラム
JP5769670B2 (ja) エコー抑圧ゲイン推定方法とそれを用いたエコー消去装置とプログラム
JP4051325B2 (ja) 話者位置検出方法、装置、プログラム、および記録媒体
JP5044594B2 (ja) 多チャネルエコー消去装置とその方法、そのプログラム
JP6537997B2 (ja) エコー抑圧装置、その方法、プログラム、及び記録媒体
JP6556657B2 (ja) 音源分離装置、音源分離方法、プログラム、記録媒体
CN110265048B (zh) 回声消除方法、装置、设备及存储介质
JP5562451B1 (ja) エコー抑圧ゲイン推定方法とそれを用いたエコー消去装置とプログラム
JP4478071B2 (ja) エコー抑圧装置、エコー抑圧方法、エコー抑圧プログラムおよびその記録媒体
JP7235117B2 (ja) エコー消去装置、エコー消去方法、プログラム
JP5097148B2 (ja) 音響結合量算出装置とその方法と、プログラム
CN112544088B (zh) 拾音扩音装置、其方法以及记录介质
WO2023013019A1 (ja) 発話フィードバック装置、発話フィードバック方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180626

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190513

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190613

R150 Certificate of patent or registration of utility model

Ref document number: 6542705

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150