JP7515121B2

JP7515121B2 - 発話区間検出装置、発話区間検出方法、および発話区間検出プログラム

Info

Publication number: JP7515121B2
Application number: JP2021526069A
Authority: JP
Inventors: 良文廣瀬
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2019-06-11
Filing date: 2020-06-05
Publication date: 2024-07-12
Anticipated expiration: 2040-06-05
Also published as: JPWO2020250828A1; CN113939871A; WO2020250828A1; US20220093102A1

Description

本開示は、発話者の音声を含む音響データにおいて、発話者が音声を発声している発話区間を検出するための装置、方法、およびプログラムに関する。

例えば、特許文献１には、カメラによって取得された画像（画像データ）に写る発話者の口唇形状の変化に基づいて、マイクによって集音された音響（音響データ）における発話者の音声の発話区間（発話区間）を検出する装置および方法が開示されている。

特開２００８－１５２１２５号公報

しかしながら、特許文献１に記載された装置および方法の場合、カメラの撮影範囲で発話者が、歩行している、頭部を動かしているなど運動している場合、そのカメラの撮影画像データにおける発話者の口唇領域を抽出する精度が低下する。その結果、発話者が音声を発声していない音響データの区間を発話区間として誤検出するなど、発話区間の検出精度が低下する可能性がある。

そこで、本開示は、発話者の音声を含む音響データにおいて、発話者が音声を発声している発話区間を高い精度で検出することを課題とする。

本開示の一態様によれば、
発話者の音声を含む音響データに基づいて前記発話者の第１の口唇形状を推定する第１１の口唇形状推定部と、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第２の口唇形状を推定する第２の口唇形状推定部と、
前記第１の口唇形状の変化と前記第２の口唇形状の変化に基づいて、前記音響データにおいて前記発話者が音声を発声している発話区間を検出する発話区間検出部と、を含む、発話区間検出装置が提供される。

また、本開示の別の態様によれば、
発話者の音声を含む音響データにおいて、前記発話者が音声を発声している発話区間を検出する発話区間検出方法であって、
前記音響データを取得し、
前記発話者の顔が少なくとも写る画像データを取得し、
前記音響データに基づいて前記発話者の第１の口唇形状の変化を推定し、
前記画像データに基づいて前記発話者の第２の口唇形状の変化を推定し、
前記第１の口唇形状の変化と前記第２の口唇形状の変化に基づいて前記音響データにおける前記発話区間を検出する、発話区間検出方法が提供される。

さらに、本開示のさらに別の態様によれば、
プロセッサを備える装置の記憶デバイスにインストールされ、前記プロセッサに、発話者の音声を含む音響データにおいて、前記発話者が音声を発声している発話区間を検出させるための発話区間検出プログラムであって、
前記プロセッサに、
前記音響データに基づいて前記発話者の第１の口唇形状を推定させ、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第２の口唇形状を推定させ、および
前記第１の口唇形状の変化と前記第２の口唇形状の変化に基づいて前記音響データにおいて前記発話区間を検出させるための発話区間検出プログラムが提供される。

加えて、本開示の異なる態様によれば、
発話者の音声を含む音響データに基づいて前記発話者の第１の開口度を算出する第１の口唇形状推定部と、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第２の開口度を算出する第２の口唇形状推定部と、
前記第１の開口度の変化と前記第２の開口度の変化に基づいて、前記音響データにおいて前記発話者が音声を発声している発話区間を検出する発話区間検出部と、を含む、発話区間検出装置が提供される。

さらに加えて、本開示のさらに異なる態様によれば、
発話者の音声を含む音響データに基づいて前記発話者の第１の口唇運動量を算出する第１の口唇形状推定部と、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第２の口唇運動量を算出する第２の口唇形状推定部と、
前記第１の口唇運動量と第２の口唇運動量の変化に基づいて、前記音響データにおいて前記発話者が音声を発声している発話区間を検出する発話区間検出部と、を含む、発話区間検出装置が提供される。

本開示によれば、発話者の音声を含む音響データにおいて、発話者が音声を発声している発話区間を高い精度で検出することができる。

本開示の一実施の形態に係る発話区間検出装置の構成を概略的に示す図音響データの一例を示す図発声中の声道の複数の領域における声道断面積の一例を示す図音響データに基づいて算出された口唇の開口度の変化を示す図発話者の口唇が写る画像データの一例を示す図口唇画像データＬｄの一例を示す図画像データに基づいて算出された口唇の開口度の変化を示す図音響データにおいて発話区間を検出する一例のフローを示すフローチャート

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

なお、発明者は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。

以下に、本開示の一実施の形態に係る発話区間検出装置について図面を参照しながら説明する。

図１は、本開示の一実施の形態に係る発話区間検出装置の構成を概略的に示している。

図１に示す本実施の形態に係る発話区間検出装置１０は、マイクデバイス１２によって取得された複数の発話者Ｐ１、Ｐ２の音声を含む音響データＳｄにおいて、発話者Ｐ１、Ｐ２それぞれが音声を発声している区間である発話区間を検出するように構成されている。そのために、発話区間出装置１０は、カメラデバイス１４によって取得され、複数の発話者Ｐ１、Ｐ２の顔が少なくとも写る画像データＩｄを使用するように構成されている。

図１に示すように、本実施の形態に係る発話区間検出装置１０には、マイクデバイス１２とカメラデバイス１４が接続される。発話区間検出装置１０は、そのマイクデバイス１２からの音響データＳｄが入力される音響データ入力部２０と、カメラデバイス１４からの画像データＩｄが入力される画像データ入力部２２とを有する。

また、発話区間検出装置１０は、音響データ入力部２０に入力された音響データＳｄに基づいて、発話者Ｐ１、Ｐ２の口唇形状（第１の口唇形状）を推定する第１の口唇形状推定部２４と、画像データ入力部２２に入力された画像データＩｄに基づいて、発話者Ｐ１、Ｐ２の口唇形状（第２の口唇形状）を推定する第２の口唇形状推定部２６とを有する。さらに、発話区間検出装置１０は、第１の口唇形状推定部２４によって推定された口唇形状の変化と第２の口唇形状推定部２６によって推定された口唇形状の変化に基づいて音響データＳｄにおける発話区間を検出する発話区間検出部２８とを有する。

本実施の形態の場合、発話区間検出装置１０はさらに、検出した発話区間をユーザに対して出力する発話区間出力部３０と、音響データＳｄのＳＮ比を算出するＳＮ比算出部３２と、画像データＩｄに基づいて発話者Ｐ１、Ｐ２の運動量を算出する運動量算出部３４とを有する。

このような発話区間検出装置１０は、例えば、ＣＰＵなどのプロセッサとハードディスクなどの記憶デバイスとを備えるパーソナルコンピュータによって実現される。この場合、発話区間検出装置１０は、マイクデバイス１２とカメラデバイス１４に接続するための外部接続端子を備える、または、マイクデバイス１２とカメラデバイス１４を備えている。その記憶デバイスには、プロセッサを、第１の口唇形状推定部２４、第２の口唇形状推定部２６、発話区間検出部２８、ＳＮ比算出部３２、および運動量算出部３４として機能させるための発話区間検出プログラムが保存されている。また、記憶デバイスには、音響データＳｄ、画像データＩｄ、および発話区間を検出するために作成された中間データなどが記憶される。

また例えば、発話区間検出装置１０は、マイクデバイス１２とカメラデバイス１４とを一体的に備えるとともに、プロセッサとメモリなどの記憶デバイスとを備えるスマートフォンなどの携帯端末であってもよい。例えば、携帯端末を発話区間検出装置１０として機能させるための発話区間検出プログラムが、携帯端末の記憶デバイスにインストールされる。

マイクデバイス１２は、発話者Ｐ１、Ｐ２が居る空間（例えば会議室）内の音響を集音し、その集音した音響を音響データＳｄとして発話区間検出装置１０に出力する。マイクデバイス１２は、図２に示すように、音響データＳｄとして、波形データを出力する。なお、図２に一例として示す音響データは、発話者が順番に「ａ」、「ｉ」、「ｕ」、「ｅ」、「ｏ」と発声している発話区間を含んでいる。また、ノイズが波形データ全体に重畳している。

カメラデバイス１４は、発話者Ｐ１、Ｐ２を撮影するデバイスであって、発話者Ｐ１、Ｐ２の顔が少なくとも撮影範囲に入るように設置されている。また、カメラデバイス１４は、発話者Ｐ１、Ｐ２の顔が少なくとも写る複数の画像データＩｄを作成し、その作成した画像データＩｄを発話区間検出装置１０に出力する。

ここからは、図１に示す本実施の形態に係る発話区間検出装置１０の各構成要素の詳細について説明する。

発話区間検出装置１０の音響データ入力部２０は、マイクデバイス１２から音響データＳｄを受け取り、その音響データＳｄを第１の口唇形状推定部２４とＳＮ比算出部３２とに出力する。

発話区間検出装置１０の第１の口唇形状推定部２４は、音響データＳｄに基づいて、発話者の口唇形状を推定する。本実施の形態の場合、口唇形状を数値化したパラメータとして口唇の開口度が算出される。そのために、第１の口唇形状推定部２４は、音響データＳｄに基づいて発話者の声道形状を分析する声道形状分析部２４Ａと、分析された声道形状に基づいて口唇の開口度を分析する開口度分析部２４Ｂとを含んでいる。

声道形状分析部２４Ａは、音響データＳｄと下記の数式１とを用いて声道形状を分析（算出）する。

数式１において、Ｓ（ｚ）は、集音開始から経過時間ｔが経過したタイミングでの振幅Ｓ（ｔ）をｚ変換して算出される。

声道音源モデルとして線形予測モデル（ＬＰＣモデル）を用いた場合、音声波形（音声信号）のある標本値ｓ（ｎ）は、それより前のｐ個の標本値から予測される。標本値ｓ（ｎ）は、下記の数式２のように表すことができる。

ｐ個の標本値に対する係数α_ｉ（ｉ＝１～ｐ）は、相関法や共分散法などを用いることによって算出することができる。数式１におけるＡ（ｚ）は、このα_ｉを用いて、下記の数式３のように表すことができる。

Ｕ（ｚ）は、同一タイミングでの音源信号ｕ（ｔ）のｚ変換であり、Ｓ（ｚ）Ａ（ｚ）により算出することができる。

以上の処理により集音開始から経過時間ｔが経過したタイミングでの声道形状１／Ａ（ｚ）が算出される。なお、本実施の形態の場合、声道形状１／Ａ（ｚ）には、ＰＡＲＣＯＲ係数が用いられる。

開口度分析部２４Ｂは、声道形状分析部２４Ａによって分析された（算出された）声道形状１／Ａ（ｚ）、すなわちＰＡＲＣＯＲ係数と下記の数式４とを用いて声道断面積を分析（算出）する。

数式４において、ｋｉはｉ次のＰＡＲＣＯＲ係数であって、Ａ_ｉはｉ番目の声道断面積である。なお、Ａ_Ｎ＋１＝１である。

図３は、発声中の声道の複数の領域における声道断面積の一例を示す図である。

開口度分析部２４Ｂは、図３に示すように、まず、声門から口唇までの声道を１１個の領域に分割し、口唇から数えてｉ番目の声道断面積Ａ_ｉを算出する。Ａ_１が口唇での声道断面積を示し、Ａ_１１が声門での声道断面積を示している。

声道の各領域の声道断面積Ａ_１～Ａ_１１を算出すると、開口度分析部２４Ｂは、下記の数式５を用いて開口度Ｃｓを算出する。

数式５に示すように、開口度Ｃｓは、1番目（口唇）からＴ番目の領域それぞれについての声道断面積の和である。Ｔは１～５の範囲で設定され、本実施の形態の場合、Ｔ＝３である。

図４は、第１の口唇形状推定部２４によって算出された、すなわち音響データＳｄに基づいて算出された口唇の開口度の変化を示す図である。なお、図４に示す開口度の変化は、図２に示す音響データに基づいて算出されたものである。

図２および図４を比較すると、相対的に大きく口をあけて発声する「ａ」および「ｅ」のタイミングでは開口度Ｃｓは大きく算出され、相対的に小さく口を開けて発声する「ｉ」、「ｕ」、および「ｏ」のタイミングでは開口度Ｃｓが小さく算出されている。また、発声していないタイミングでは、開口度Ｃｓは、実質的にゼロである。したがって、音響データＳｄに基づいて口唇の開口度Ｃｓが適切に算出されていることが分かる。ただし、本実施の形態のように、複数の発話者Ｐ１、Ｐ２の音声が音響データＳｄに含まれている場合、算出された開口度Ｃｓがいずれの発話者のものであるかはわからない。

図１に戻って、第１の口唇形状推定部２４によって算出された開口度Ｃｓ（そのデータ）は、詳細は後述する発話区間検出部２８に出力される。

発話区間検出装置１０の画像データ入力部２２は、カメラデバイス１４から画像データＩｄを受け取り、その画像データＩｄを第２の口唇形状推定部２６と運動量算出部３４とに出力する。

発話区間検出装置１０の第２の口唇形状推定部２６は、画像データＩｄに基づいて、発話者の口唇形状を推定する。本実施の形態の場合、口唇形状を数値化したパラメータとして口唇の開口度が算出される。そのために、第２の口唇形状推定部２６は、画像データＩｄにおける発話者の口唇領域を抽出する口唇抽出部２６Ａと、抽出した口唇領域に基づいて口唇の開口度を算出する開口度算出部２６Ｂとを含んでいる。

口唇抽出部２６Ａは、画像データＩｄ内で発話者Ｐ１、Ｐ２の口唇が写る領域（口唇領域）を特定して抽出する。

図５は、発話者の口唇が写る画像データの一例を示している。

図５に示すように、口唇抽出部２６Ａは、画像データＩｄにおいて発話者Ｐ１、Ｐ２の口唇Ｌが写る口唇領域Ｌｒを特定して抽出し、図６に示すような口唇が全体にわたって写る口唇画像データＬｄを作成する。

なお、カメラデバイス１４と発話者Ｐ１、Ｐ２それぞれとの間の距離によって画像データＩｄにおける口唇の大きさが異なるため、作成された口唇画像データＬｄの大きさを正規化してもよい。その正規化のために、口唇画像データＬｄは、例えば、画像データＩｄにおける発話者Ｐ１、Ｐ２の顔が写る顔領域Ｆｒを特定して抽出し、その顔領域Ｆｒの大きさと基準の顔領域の大きさとの比率を算出し、その比率に基づいてリサイズされてもよい。

開口度算出部２６Ｂは、口唇抽出部２６Ａによって作成された口唇画像データＬｄに基づいて、口唇の開口度Ｃｉを算出する。本実施の形態の場合、開口度Ｃｉは、図６に示すように、口唇画像データＬｄにおける上唇Ｌｔと下唇Ｌｂとの間の距離ｄ１と口角間距離ｄ２との積である。あるいは、単に上唇Ｌｔと下唇Ｌｂとの間の距離ｄ１により開口度Ｃｉとしてもよい。

なお、上述したように、口唇画像データＬｄの大きさが正規化されている場合、口唇画像データＬｄにおいて上唇Ｌｔと下唇Ｌｂとに囲まれた領域内の画素数を、開口度Ｃｉとして算出してもよい。

図７は、口唇形状算出部２６によって算出された、すなわち画像データＩｄに基づいて算出された口唇の開口度の変化を示す図である。なお、図７に示す開口度の変化は、図２に示す音響データＳｄと同期するカメラデバイス１４の画像データ（動画データ）に基づいて算出されたものである。

図２および図７を比較すると、相対的に大きく口をあけて発声する「ａ」および「ｅ」のタイミングでは開口度Ｃｉは大きく算出され、相対的に小さく口を開けて発声する「ｉ」、「ｕ」、および「ｏ」のタイミングでは開口度Ｃｉが小さく算出されている。したがって、開口度Ｃｉが適切に算出されていることが分かる。

図１に戻って、第２の口唇形状推定部２６によって算出された開口度Ｃｉ（そのデータ）は、発話区間検出部２８に出力される。

なお、本実施の形態のように、複数の発話者Ｐ１、Ｐ２がカメラデバイス１４によって撮影される場合、発話者Ｐ１、Ｐ２それぞれの口唇の開口度Ｃｉが算出される。

発話区間検出部２８は、第１の口唇形状推定部２４によって算出された口唇の開口度Ｃｓと第２の口唇形状推定部２６によって算出された口唇の開口度Ｃｉとに基づいて、音響データＳｄにおける発話区間を検出する。そのために、発話区間検出部２８は、相関値算出部２８Ａと、重み付け係数補正部２８Ｂとを含んでいる。

本実施の形態の場合、まず、発話区間検出部２８の相関値算出部２８Ａは、下記の数式６を用いて開口度Ｃｓと開口度Ｃｉの相関の程度を示す相関値Ｒを算出する。

数式６において、Ｃｓ（ｔ）、Ｃｉ（ｔ）、およびＲ（ｔ）は、集音開始から経過時間ｔが経過したタイミングでの開口度Ｃｓ、Ｃｉ、およびＲを示している。また、βおよびγは、重み付け係数（乗数）である。

発話区間検出部２８は、音響データＳｄにおいて、相関値Ｒ（ｔ）が所定のしきい値に比べて大きいタイミングを含む区間を、発話者Ｐ１、Ｐ２が口唇を動かして音声を発声している発話区間として検出する。例えば、図２に示すデータにおいては、集音開始をゼロ秒としたとき、約１．２～３．８秒の区間が発話区間として検出される。

相関値Ｒ（ｔ）の値が所定のしきい値に比べて大きい場合には、すなわち、開口度Ｃｓ、Ｃｉの両方が大きい場合には、発話者Ｐ１、Ｐ２が口唇を動かして音声を発声している確度が高い。

一方、相関値Ｒ（ｔ）が所定のしきい値に比べて小さい場合、すなわち開口度Ｃｓおよび開口度Ｃｉの少なくとも一方が小さい場合には、発話者Ｐ１、Ｐ２が口唇を動かして音声を発声している確度が低い。

例えば、開口度Ｃｓが大きく、開口度Ｃｉが小さい場合には、カメラデバイス１４の撮影範囲にいない人物の音声、例えば、発話者が居る部屋の外から聞こえる第三者の音声、テレビやラジオなどから聞こえる第三者の音声などを、マイクデバイス１２が集音している可能性がある。

また例えば、開口度Ｃｓが小さく、開口度Ｃｉが大きい場合には、発話者Ｐ１、Ｐ２が音声を発声することなく口唇を動かしている可能性がある。

したがって、相関値Ｒ（ｔ）を用いることにより、発話区間検出部２８は、音響データＳｄにおいて発話者Ｐ１、Ｐ２が音声を発声している発話区間を高い確度で検出することができる。

なお、図１に示すように、複数の発話者Ｐ１、Ｐ２がカメラデバイス１４によって撮影される場合、それぞれの開口度Ｃｉを用いて相関値Ｒを算出することにより、発話者Ｐ１、Ｐ２それぞれの発話区間を高い確度で検出することができる。

また、本実施の形態の場合、発話区間検出部２８は、開口度Ｃｓ、Ｃｉそれぞれの信頼度を考慮して相関値Ｒを算出するように構成されている。そのために、図１に示すように、ＳＮ比算出部３２と運動量算出部３４が、発話区間検出装置１０に含まれている。

ＳＮ比算出部３２は、音響データＳｄのＳＮ比を算出し、その算出したＳＮ比を発話区間検出部２８に出力する。

発話区間検出部２８の重み付け係数補正部２８Ｂは、ＳＮ比が所定のしきいＳＮ比に比べて低い場合、相関値Ｒ（ｔ）を算出するための上述の数式６において、開口度Ｃｉを開口度Ｃｓに比べて重み付けする。すなわち、ＳＮ比が低い音響データＳｄに基づいて算出された開口度Ｃｓは信頼度が低いので、画像データＩｄに基づいて算出された開口度Ｃｉを重み付けする。例えば、上述の数式６における開口度Ｃｓの乗数である重み付け係数βを小さくする補正するとともに、開口度Ｃｉの乗数である重み付け係数γを大きく補正する。これにより、発話区間検出部２８は、高い信頼度を備えた相関値Ｒ（ｔ）を算出することができる。

運動量算出部３４は、画像データＩｄに写る発話者Ｐ１、Ｐ２の身体の少なくとも一部分に基づいて、発話者Ｐ１、Ｐ２の運動量を算出する。例えば、画像データＩｄにおける頭部の変位量を発話者Ｐ１、Ｐ２の運動量として、運動量算出部３４は算出する。算出した運動量は、発話区間検出部２８に出力される。

発話区間検出部２８の重み付け係数補正部２８Ｂは、運動量が所定のしきい運動量に比べて大きい場合、相関値Ｒ（ｔ）を算出するための上述の数式６において、開口度Ｃｓを開口度Ｃｉに比べて重み付けする。すなわち、運動量が大きい場合には、画像データＩｄにおける口唇領域の抽出精度が低下し、そのような口唇領域に基づいて算出された開口度Ｃｉは信頼度が低い。そのため、音響データＳｄに基づいて算出された開口度Ｃｓを重み付けする。例えば、上述の数式６における開口度Ｃｓの乗数である重み付け係数βを大きく補正するとともに、開口度Ｃｉの乗数である重み付け係数γを小さく補正する。これにより、発話区間検出部２８は、高い信頼度を備えた相関値Ｒ（ｔ）を算出することができる。

発話区間検出部２８によって検出された発話区間は、発話区間出力部３０を介してユーザに対して出力される。発話区間出力部３０は、例えば、発話区間検出装置１０に接続されたディスプレイなどの表示デバイスに、図２に示す音響データＳｄ（波形データ）を表示するとともに、発話区間検出部２８によって検出された発話区間を表示する。また例えば、発話区間出力部３０は、発話区間検出部２８によって検出された発話区間の部分を音響データＳｄからトリミングし、音声データを作成し、その作成した音声データを出力する。

ここからは、音響データにおいて発話区間を検出するフローについて図８を参照しながら説明する。

図８は、音響データにおいて発話区間を検出する一例のフローを示すフローチャートである。

図８に示すように、発話区間検出装置１０（その音響データ入力部２０）は、ステップＳ１００において、発話者Ｐ１、Ｐ２の音声を含む音響データＳｄを取得する。

ステップＳ１１０において、発話区間検出装置１０（その第１の口唇形状推定部２４の声道形状分析部２４Ａ）は、ステップＳ１００で取得した音響データＳｄに基づいて発話者Ｐ１、Ｐ２の声道形状を分析する。

ステップＳ１２０において、発話区間検出装置１０（その第１の口唇形状推定部２４の開口度分析部２４Ｂ）は、ステップＳ１１０で分析された声道形状に基づいて発話者Ｐ１、Ｐ２の口唇の開口度Ｃｓを分析する。

続くステップＳ１３０において、発話区間検出装置１０（その画像データ入力部２２）は、発話者Ｐ１、Ｐ２の口唇が写る画像データＩｄを取得する。

ステップＳ１４０において、発話区間検出装置１０（その第２の口唇形状推定部２６の口唇抽出部２６Ａ）は、ステップＳ１３０で取得した画像データＩｄにおいて口唇領域を特定して抽出する。

ステップＳ１５０において、発話区間検出装置１０（その第２の口唇形状推定部２６の開口度算出部２６Ｂ）は、ステップＳ１４０で抽出した口唇領域に基づいて発話者Ｐ１、Ｐ２の口唇の開口度Ｃｉを算出する。

ステップＳ１６０において、発話区間検出装置１０は、ＳＮ比算出部３２によって算出された音響データＳｄのＳＮ比が所定のしきいＳＮ比に比べて低いか否かを判定する。また、発話区間検出装置１０は、運動量算出部３４によって算出された発話者Ｐ１、Ｐ２の運動量が所定のしきい運動量に比べて大きいか否かを判定する。ＳＮ比が低いまたは運動量が大きい場合、ステップＳ１７０に進む。そうでない場合、ステップＳ１７０をスキップしてステップＳ１８０に進む。

ステップＳ１７０において、ＳＮ比が低いまたは運動量が大きいため、発話区間検出装置１０（その発話区間検出部２８の重み付け係数補正部２８Ｂ）は、相関値Ｒ（ｔ）の算出式（数式６）の重み付け係数を補正する。

ステップＳ１８０において、発話区間検出装置１０（その発話区間検出部２８の相関値算出部２８Ａ）は、相関値Ｒ（ｔ）を算出する。

ステップＳ１９０において、発話区間検出装置１０（その発話区間検出部２８）は、ステップＳ１８０で算出された相関値Ｒ（ｔ）に基づいて、音響データＳｄにおける発話区間を検出する。

ステップＳ２００において、発話区間検出装置１０（その発話区間出力部３０）は、ステップＳ１９０で検出された発話区間をユーザに対して出力する。

なお、音響データＳｄに基づいて開口度Ｃｓを算出するステップ（ステップＳ１００～Ｓ１２０）の前にまたは同時に、画像データＩｄに基づいて開口度Ｃｉを算出するステップ（ステップＳ１３０～Ｓ１５０）を実行してもよい。

以上のような本実施の形態によれば、発話者の音声を含む音響データにおいて、発話者が音声を発声している発話区間を高い精度で検出することができる。

具体的に説明すると、音響データにおける発話区間を判断するときに、音響データに基づいて推定された発話者の口唇形状（具体的には算出された開口度Ｃｓ）の変化と画像データに基づいて推定された発話者の口唇形状（具体的には算出された開口度Ｃｉ）の変化、すなわち２つの判断材料が用いられる。したがって、画像データに基づいて推定された発話者の口唇形状の変化のみを用いて音響データにおける発話区間を検出する場合に比べて、高い精度で発話区間を検出することができる。

以上、上述の実施の形態を挙げて本開示を説明したが、本開示の実施の形態はこれに限定されない。

例えば、上述の実施の形態の場合、数式６に示す算出式を用いて、音響データＳｄに基づいて算出された開口度Ｃｓと画像データＩｄに基づいて算出された開口度Ｃｉとの相関を示す相関値Ｒが算出されている。しかしながら、相関値の算出式はこれに限らない。

例えば、下記の数式７に示すように、相関値Ｒ（ｔ）は、開口度Ｃｓ（ｔ）、Ｃｉ（ｔ）の和であってもよい。

また、下記の数式８に示すように、相関値Ｒは、開口度Ｃｓ、Ｃｉを変数とするＣＯＲＲＥＬ関数であってもよい。

数式８の算出式を用いる場合、まず、音響データＳｄが複数の区間に分割される。分割した各区間それぞれについて、相関値Ｒが算出される。そして、相関値Ｒが所定のしいき値に比べて高い少なくとも１つの区間が、発話区間として検出される。

なお、開口度Ｃｓ、Ｃｉの信頼度が高い場合、例えば、発話者が居る空間が静かである場合、画像データにおいて口唇領域を抽出する精度が高い場合（画像処理能力が高い場合）などの場合には、重み付け係数β、γの少なくとも一方を省略してもよい。

また、上述の実施の形態の場合、音響データＳｄに基づいて算出された開口度Ｃｓと画像データＩｄに基づいて算出された開口度Ｃｉの相関の程度を示す相関値Ｒを用いて、音響データＳｄにおける発話区間が検出されている。しかしながら、本開示の実施の形態はこれに限らない。

例えば、図４に示すような音響データＳｄに基づいて算出された開口度Ｃｓの波形と図７に示すような画像データに基づいて算出された開口度Ｃｉの波形とを比較し、それらの一致の程度に基づいて発話区間を検出してもよい。

さらに、上述の実施の形態の場合、ノイズを含んだ状態の音響データＳｄに基づいて発話者の口唇形状が推定（具体的には開口度Ｃｓを算出）されている。これに代わって、ノイズフィルタなどによってノイズが除去された音響データを用いて発話者の口唇形状を推定してもよい。この場合、高い精度で口唇形状を推定することができる。また、図１に示すＳＮ比算出部３２および重み付け係数補正部３０Ｂを省略することができる。

さらにまた、上述の実施の形態の場合、音響データＳｄ全体にわたって、発話者の口唇形状が推定（具体的には開口度Ｃｓを算出）されている。すなわち、発話区間ではない範囲でも口唇形状が推定されている。これに代わって、口唇形状を推定する前に、音響データＳｄにおいて、発話区間が存在しうる範囲について見当をつけてもよい。例えば、音響データにおいて振幅が所定のしきい値に比べて大きい範囲に発話区間が存在しうると見当し、その範囲において口唇形状を推定してもよい。また例えば、音響データにおいて、周期性を有する範囲を発話区間が存在しうる範囲として見当してもよい。例えば自己相関関数が所定の値以上である範囲を、周期性を有する範囲としてもよい。

加えて、上述の実施の形態の場合、１つのマイクデバイス１２で、複数の発話者Ｐ１、Ｐ２の音声を集音している。そのため、複数の発話者の音声がオーバーラップしてマイクデバイス１２に集音される可能性がある。この対処として、マイクデバイスは、指向性が異なる複数の指向性マイクを含むマイクアレイであってもよい。指向性マイクそれぞれが一人の発話者に向いて集音し、複数の指向性マイクそれぞれが音響データを取得する。複数の音響データそれぞれから発話者の口唇形状が推定される。

加えてまた、上述の実施の形態の場合、音響データＳｄにおける発話区間は、音響データＳｄに基づいて算出された口唇の開口度Ｃｓと、画像データＩｄに基づいて算出された口唇の開口度Ｃｉとを用いて検出される。しかしながら、本開示の実施の形態はこれに限らない。

例えば、画像データにおける発話者の口唇領域を抽出し、抽出した口唇領域に基づいて、その発話者の口唇の動き量を算出してもよい。図２に示すように、発話者が複数の音を発声する場合、その音と音の間で口唇形状が変化する。また、複数の音からなるフレーズの場合、フレーズの開始（最初の音の開始タイミング）と終了後（最後の音の終了タイミング）にも口唇形状が変化する。したがって、画像データに基づいて、口唇形状を数値化したパラメータとして例えば上唇に対する下唇の単位時間あたりの動き量を算出し、その算出した動き量の変化と音響データに基づいて算出された開口度とを用いて、発話区間を検出してもよい。

また例えば、音響データから発話者の口唇の動き量を算出してもよい。図２を用いて説明すると、発話者が音を発すると、その音の開始タイミングと終了タイミングとで振幅が大きく変化する。その振幅の単位時間あたりの変化量は、口唇の単位時間あたりの動き量とみなすことができる。したがって、音響データの振幅に基づいて、口唇形状を数値化したパラメータとして口唇の単位時間あたりの動き量を算出し、その算出した動き量の変化と画像データに基づいて算出された開口度とを用いて、発話区間を検出してもよい。

さらに例えば、上述のように音響データに基づいて算出された口唇の動き量と画像データに基づいて算出された口唇の動き量とを用いて、音響データにおける発話区間を検出してもよい。

すなわち、本開示のある実施の形態は、広義には、発話者の音声を含む音響データに基づいて発話者の第１の口唇形状を推定し、また、発話者の顔が少なくとも写る画像データに基づいて発話者の第２の口唇形状を推定し、第１の口唇形状の変化と第２の口唇形状の変化に基づいて音響データにおいて発話者が音声を発声している発話区間を検出するものである。

なお、本実施の形態では開口度を線形予測分析に基づく声道形状により算出したが、これに限るものではなく、音声情報から口唇の開口度を算出する方法であればよい。例えば、ＡＲＸ音声分析法により分析された伝達特性より開口度を算出するようにしてもよい。あるいは、発生された音声と口唇形状の関係をニューラルネット等の機械学習によりあらかじめ学習させておくことにより、音声から直接口唇形状を推定するようにしてもよい。

また、開口度分析部２４Ｂは音響データから発話者の開口度の特徴量として開口度の変化量を運動量として算出してもよい。具体的には運動量は開口度の時間差分により算出することができる。同様に開口度算出部２６Ｂは画像データから発話者の口唇の動き量を運動量として算出してもよい。具体的には口唇抽出部２６Ａにより抽出した口唇形状の時間差分により運動量を算出する。音響データの振幅に基づいて、口唇形状を数値化したパラメータとして口唇の単位時間あたりの動き量を運動量として算出し、算出した運動量としての時間変化と、画像データに基づいて算出された口唇の動き量である運動量の時間変化とを用いて、発話区間検出部２８は発話区間を検出してもよい。具体的には相関算出部２８Ａは、開口度分析部２４Ｂにより算出された音響データに基づく口唇の運動量の時間変化と、開口度算出部２６Ｂにより算出された画像データに基づく口唇の運動量の時間変化の相関を所定の時間幅で算出することにより、時間変化の連動性を算出するようにしてもよい。

以上のように、本開示における技術の例示として、上述の実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。

したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、前記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

また、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

本開示は、発話者の音声を含む音響データにおいて、その発話者が音声を発声している区間を特定する必要がある場合、例えば会議の議事録をとる必要がある場合などに適用可能である。

Claims

発話者の音声を含む音響データに基づいて前記発話者の第１の口唇形状を推定する第１の口唇形状推定部と、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第２の口唇形状を推定する第２の口唇形状推定部と、
前記第１の口唇形状の変化と前記第２の口唇形状の変化に基づいて、前記音響データにおいて前記発話者が音声を発声している発話区間を検出する発話区間検出部と、を含む、発話区間検出装置。
前記第１の口唇形状推定部が、前記音響データから前記発話者の声道形状を推定し、その推定した声道形状に基づいて、前記第１の口唇形状を数値化した第１のパラメータとして口唇の開口度を算出し、
前記第２の口唇形状推定部が、前記画像データにおいて前記発話者の口唇領域を抽出し、抽出した口唇領域に基づいて、前記第２の口唇形状を数値化した第２のパラメータとして口唇の開口度を算出する、請求項１に記載の発話区間検出装置。
前記第１の口唇形状推定部が、前記音響データから前記発話者の声道形状を推定し、その推定した声道形状に基づいて、前記第１の口唇形状を数値化した第１のパラメータとして口唇の開口度を算出し、
前記第２の口唇形状推定部が、前記画像データにおける前記発話者の口唇領域を抽出し、抽出した口唇領域に基づいて、前記第２の口唇形状を数値化した第２のパラメータとして口唇の動き量を算出する、請求項１に記載の発話区間検出装置。
前記発話区間検出部が、前記第１のパラメータと前記第２のパラメータの相関の程度を示す相関値を算出し、算出された相関値が所定のしきい値に比べて大きい前記音響データの区間を前記発話区間として検出する、請求項２または３に記載の発話区間検出装置。
前記画像データには前記発話者の身体の少なくとも一部分が写り、
前記画像データにおける前記発話者の前記身体の少なくとも一部分に基づいて前記発話者の運動量を算出する運動量算出部をさらに有し、
前記発話区間検出部が、前記運動量が所定のしきい運動量に比べて大きい場合、前記第１のパラメータを前記第２のパラメータに比べて大きく重み付けして前記相関値を算出する、請求項４に記載の発話区間検出装置。
前記音響データのＳＮ比を算出するＳＮ比算出部をさらに有し、
前記発話区間検出部が、前記ＳＮ比が所定のしきいＳＮ比に比べて低い場合、前記第２のパラメータを前記第１のパラメータに比べて大きく重み付けして前記相関値を算出する、請求項４に記載の発話区間検出装置。
前記音響データを取得するマイクデバイスと、
前記画像データを取得するカメラと、をさらに有する、請求項１から６のいずれか一項に記載の発話区間検出装置。
前記マイクデバイスが、指向性が異なる複数の指向性マイクを含むマイクアレイである、請求項７に記載の発話区間検出装置。
発話者の音声を含む音響データにおいて、前記発話者が音声を発声している発話区間を検出する発話区間検出方法であって、
前記音響データを取得し、
前記発話者の顔が少なくとも写る画像データを取得し、
前記音響データに基づいて前記発話者の第１の口唇形状の変化を推定し、
前記画像データに基づいて前記発話者の第２の口唇形状の変化を推定し、
前記第１の口唇形状の変化と前記第２の口唇形状の変化に基づいて、前記音響データにおける前記発話区間を検出する、発話区間検出方法。
プロセッサを備える装置の記憶デバイスにインストールされ、前記プロセッサに、発話者の音声を含む音響データにおいて、前記発話者が音声を発声している発話区間を検出させるための発話区間検出プログラムであって、
前記プロセッサに、
前記音響データに基づいて前記発話者の第１の口唇形状を推定させ、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第２の口唇形状を推定させ、および
前記第１の口唇形状の変化と前記第２の口唇形状の変化に基づいて前記音響データにおいて前記発話区間を検出させるための発話区間検出プログラム。
発話者の音声を含む音響データに基づいて前記発話者の第１の開口度を算出する第１の口唇形状推定部と、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第２の開口度を算出する第２の口唇形状推定部と、
前記第１の開口度の変化と前記第２の開口度の変化に基づいて、前記音響データにおいて前記発話者が音声を発声している発話区間を検出する発話区間検出部と、を含む、発話区間検出装置。
発話者の音声を含む音響データに基づいて前記発話者の第１の口唇運動量を算出する第１の口唇形状推定部と、
前記発話者の顔が少なくとも写る画像データに基づいて前記発話者の第２の口唇運動量を算出する第２の口唇形状推定部と、
前記第１の口唇運動量と第２の口唇運動量の変化に基づいて、前記音響データにおいて前記発話者が音声を発声している発話区間を検出する発話区間検出部と、を含む、発話区間検出装置。