JP7388188B2

JP7388188B2 - 発話者認識システム、発話者認識方法、及び発話者認識プログラム

Info

Publication number: JP7388188B2
Application number: JP2019236314A
Authority: JP
Inventors: 悠斗後藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2023-11-29
Anticipated expiration: 2039-12-26
Also published as: JP2021105808A

Description

本発明は、発話者認識システム、発話者認識方法、及び発話者認識プログラムに関する。

様々な場所で開催される会議向けの音声認識システムにおいて、周囲の雑音や、他者の発話との重複の影響により、音声単独による認識精度が低下する問題がある。この問題に対し、音声情報を補完するために、音響的なノイズに影響を受けない画像情報を使った発話者の口唇の動きから発話内容を認識する機械読唇技術（リップリーディング）や、対象の発話が会議参加者のうち誰の発話なのか分類する話者認識技術（話者ダイアライゼーション）が既に知られている。

特許文献１には、会議において正確に参加者の発話状態を認識する目的で、会議卓の中心に魚眼レンズを用いた広角撮影装置を設置し、歪みを補正するために、撮影された顔画像を平面正則画像に変換し、口唇領域を抽出し、参加者が発話しているか否かを判定することが開示されている。

しかし、今までの画像情報を使った発話内容認識システムにおける機械読唇や話者ダイアライゼーションは、正確に会議参加者の口唇の位置を検出し続けなくてはならず、例えば、カメラの正面を参加者が見ていない時や、手などで顔の領域の一部が隠れている時などに起こる顔認識誤りによって、機械読唇ができる機会が減ってしまうという問題があった。

本発明は、会議向けの発話者認識システムにおいて、会議参加者の顔が隠れていても正確に口唇領域を追跡しつづけ、機械読唇をする機会を増やすことを目的とする。

上述した課題を解決するために、本発明の一観点に係る発話者認識システムは、撮影された映像内の人物の身体部位を検出する身体部位認識部と、前記映像内の前記人物の顔領域を認識する顔領域認識部と、前記顔領域の認識結果に基づき前記顔領域から口唇領域を抽出する口唇領域抽出部と、抽出された前記口唇領域の画像シーケンスに基づき口唇特徴量を算出する口唇特徴量算出部と、前記口唇特徴量に基づき発話の有無を判定する発話検出部と、前記映像内の前記人物の顔特徴量に基づき前記発話の発話者を特定する発話者認識部と、を備え、前記顔領域認識部は、前記顔領域の認識に失敗した場合に、前回の顔認識結果、または、認識された前記身体部位の情報を用いて、前記顔領域の認識結果を補正し、前記口唇領域抽出部は、補正された前記顔領域の認識結果に基づき前記口唇領域を抽出し、前記発話検出部は、複数の話者の発話データを用いた汎用検出モデル、および、既知の特定の１話者の発話データを用いた特化型検出モデルを切り替えて用いて、発話検出を行う。

会議向けの発話者認識システムにおいて、会議参加者の顔が隠れていても正確に口唇領域を追跡しつづけ、機械読唇をする機会を増やすことができる。

画像情報を用いた発話者認識システムについて説明する図第１実施形態に係る発話者認識システムの機能ブロック図処理装置のハードウェア構成図顔特徴量抽出処理のフローチャート認識した身体部位座標を使った顔認識の補正に関するフローチャート口唇画像抽出補正手法の概要について説明する図発話者認識手法に関するフローチャート第２実施形態に係る発話者認識システムの機能ブロック図発話者モデルの切り替え処理のフローチャート第３実施形態に係る発話者認識システムの機能ブロック図マルチモーダル発話者認識システムの出力結果の表示例を示す図

以下、添付図面を参照しながら実施形態について説明する。説明の理解を容易にするため、各図面において同一の構成要素に対しては可能な限り同一の符号を付して、重複する説明は省略する。

［第１実施形態］
図１～図７を参照して第１実施形態を説明する。図１は、画像情報を用いた発話者認識システム１について説明する図である。

図１は、本実施形態を説明する会議の場の一例であり、参加者Ａ、Ｂ、Ｃ、Ｄの４名による会議を例とする。発話内容の認識を始めとする、複数のカメラ（この例では３台とする）とマイクが備わった集録デバイス２と、その入力データ等の基本制御を行うＰＣのような処理装置３とが有線、もしくは無線で接続されており、集録デバイス２で参加者Ａ、Ｂ、Ｃ、Ｄを撮影する。

発話者の認識を処理装置３自身で行う他には、処理装置３がＬＡＮにネットワーク接続されており、ＬＡＮ内、もしくはインターネット上のクラウドサーバへ撮影したデータを転送して、発話者の認識をし、認識結果を処理装置３が受け取る方法も考えられる。

処理装置３が認識した、あるいはサーバ等別の装置から受け取った認識結果を電子白板４上に表示させることで発話者や発話内容を可視化する。また、電子白板４に表示させずとも、テキスト化した発話者および、発話内容を保存しておき、会議終了後に議事録として出力する方法も考えられる。

なお、集録デバイス２は、会議の参加者Ａ～Ｄの全員を撮影できればよく、カメラの種類や台数に制限はない。例えば１台の全方位カメラを用いてもよい。

図２は、第１実施形態に係る発話者認識システム１の機能ブロック図である。図２に示すように、第1実施形態に係る発話者認識システム１は、口唇画像を用いて発話者を特定する。

映像入力部５は、集録デバイス２のカメラによって撮影された、会議の参加者Ａ～Ｄが含まれる映像を取得する。

身体部位認識部６は、映像入力部５により取得された連続したフレーム画像シーケンス（例えば２５フレーム）に対して複数の人物がいる領域を認識し、身体の目、鼻、耳、首、肩、肘などの部位の座標を取得する。予め大量のデータをニューラルネットワークなどで学習させたモデルを利用する。ＯｐｅｎＰｏｓｅ（https://github.com/CMU-Perceptual-Computing-Lab/openpose）などの既存の技術を利用しても良い。身体部位認識部６が座標を取得する身体部位のパーツ数は、例えば２６個である。なお、身体部位認識部６は、少なくとも首の座標を取得できればよい。

顔領域認識部７は、身体部位認識部６と同様に、取得した連続したフレーム画像に対して複数の人の顔の領域を認識し、目、鼻、口等、顔のパーツの詳細な座標を取得する。予め大量のデータをニューラルネットワークなどで学習させたモデル（例えばfacenetなど）を利用する。Ｄｌｉｂ（http://dlib.net/）などの既存の技術を利用しても良い。なお、顔領域認識部７は、映像入力部５により取得された映像から人物の身体の各部の座標を取得する点では身体部位認識部６と共通する。しかし、顔領域認識部７は、座標を取得する部位を身体のうち顔のみに限定している点、及び、顔領域の中で座標を取得する顔のパーツがより細分化されて多い点で、身体部位認識部６と異なる。顔領域認識部７が座標を取得する顔領域のパーツ数は、例えば６８個である。

顔特徴量保存部８は、顔領域認識部７で顔を認識する際に画像を入力したニューラルネットワークなどの出力ベクトルを保存する。このベクトルは、話者の顔の特徴を表す埋込情報であり、１２８次元などのものである。顔特徴量保存部８に保存される出力ベクトルとは、例えば、顔認識用のニューラルネットワークとして知られているfacenetの学習済みモデルに、顔領域認識部７で用いた顔画像を入力したときに、学習済みモデルの各出力層（例えば１２８個）の出力値の組である。

口唇領域抽出部９は、顔領域認識部７で認識された顔領域の画像から、パーツの座標データを用いて、口唇領域のみの画像に変換する（図６参照）。つまり口唇領域抽出部９は、顔領域の画像から口唇領域の画像を切り出して抽出する。また、口唇領域抽出部９は、口唇領域の座標を取得して、口唇領域座標保存部１０に保存する。

口唇領域抽出部９により抽出された口唇領域の画像は、カメラと会議参加者との距離によって大きさが異なるので、口唇画素数変換部１１によって、例えば１５０×７５ｐｉｘｅｌのような一律のサイズに拡大、または縮小されて画一化される。

口唇特徴量算出部１２は、口唇画素数変換部１１によりサイズが画一化された連続の口唇画像シーケンスから、特徴ベクトル（口唇特徴量）を抽出する。

発話検出部１３は、口唇特徴量算出部１２により抽出された口唇画像の特徴ベクトルに基づき、その口唇画像シーケンスに写っている口唇領域は発話しているものなのか、それとも発話をしていないものなのかの分類を行う。特徴ベクトル（口唇特徴量）は、発話検出部１３の分類がしやすいような特徴量であり、例えば、唇の中央部分の上唇と下唇の差分が挙げられる。この差分が変動している場合に、発話していると判定できる。

なお、口唇特徴量の抽出（畳み込みパラメータの最適化）から分類までを１つのニューラルネットワークで実現するＥｎｄ－ｔｏ－Ｅｎｄの構成でもよい。実際には、収録したデータを使用して学習することになり、それによって最適化された学習済みのニューラルネットワークを検出モデル１４として利用する。つまり、口唇特徴量算出部１２及び発話検出部１３の機能を纏めて、１つの検出モデル１４に置き換えてもよい。

発話者認識部１５は、発話検出部１３によって発話が検出された際に、顔特徴量保存部８に保存されている顔特徴量を参照して、会議中の誰が発言したのかを認識する。話者認識は、例えば、顔特徴量保存部８に保存されているすべての会議参加者の顔特徴量と、発話検出部１３により発話していると判定された人物の顔特徴量との類似度を算出し、類似度が最も高い会議参加者を発話者と判定できる。

認識結果出力部１６は、発話者認識部１５の認識結果を電子白板４などの画面に表示したり、テキストファイルとして保存する。また、認識結果出力部１６は、集録デバイス２のマイクによって録音された発話音声に基づき、発話内容を認識して、発話者の情報と紐づけて出力してもよい。

図３は、処理装置３のハードウェア構成図である。図３に示すように、処理装置３は、物理的には、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１、主記憶装置であるＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０２およびＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１０３、入力デバイスであるキーボード及びマウス等の入力装置１０４、ディスプレイやタッチパネル等の出力装置１０５、ネットワークカード等のデータ送受信デバイスである通信モジュール１０６、ハードディスク等の記憶装置１０７、などを含むコンピュータシステムとして構成することができる。

図２に示す発話者認識システム１の各要素の機能は、ＣＰＵ１０１、ＲＡＭ１０２等のハードウェア上に所定のコンピュータソフトウェア（発話者認識プログラム）を読み込ませることにより、ＣＰＵ１０１の制御のもとで通信モジュール１０６、入力装置１０４、出力装置１０５を動作させるとともに、ＲＡＭ１０２や補助記憶装置１０７におけるデータの読み出し及び書き込みを行うことで実現される。すなわち、本実施形態の発話者認識プログラムをコンピュータ上で実行させることで、処理装置３は、図２に示す各要素として機能する。

本実施形態の発話者認識プログラムは、例えばコンピュータが備える記憶装置内に格納される。なお、発話者認識プログラムは、その一部又は全部が、通信回線等の伝送媒体を介して伝送され、コンピュータが備える通信モジュール等により受信されて記録（インストールを含む）される構成としてもよい。また、発話者認識プログラムは、その一部又は全部が、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、フラッシュメモリなどの持ち運び可能な記憶媒体に格納された状態から、コンピュータ内に記録（インストールを含む）される構成としてもよい。

図４は、顔特徴量抽出処理のフローチャートである。図４のフローチャートの各処理は、図２に示す機能ブロックのうち、主に身体部位認識部６、顔領域認識部７、顔特徴量保存部８、口唇領域抽出部９、口唇領域座標保存部１０により実行される。

Ｓ１０２でカメラからの映像に対して、身体部位を認識させる。身体認識結果は正しく取得できるという仮定の下で以下の処理を説明する。身体部位認識結果からＳ１０３で参加者が何人いるかを算出する。同時にＳ１０４で参加者の顔領域を認識させる。

Ｓ１０５からＳ１１５まで算出された参加者の人数だけ繰り返す処理をする。ここでは、説明の簡略化のため、認識された複数の参加者のうち、一人についての処理のみを説明をする。

まず、Ｓ１０６で身体部位情報を保存しておく。Ｓ１０７の分岐は、２回目以降に行われ、初回はＴｒｕｅ（図中のＳ１０７のＹＥＳ）のルートに入る。Ｓ１０８で、顔認識器の埋め込み情報である、顔特徴量を算出する。Ｓ１１９で、口唇領域座標保存部１０に保存済みの顔特徴量との類似度を算出するが、初回は保存済みのものが存在しないので、このステップは飛ばす。ここでの類似度はベクトル同士の多次元のユークリッド距離とする。顔特徴量の場合、一般的にこの距離が０．６未満であれば、同一人物とみなされる。Ｓ１１０の分岐で、口唇領域座標保存部１０に保存されている複数の顔特徴量との距離が０．６未満のものがあった場合（Ｓ１１０のＹＥＳ）、口唇領域座標保存部１０に保存されている該当の顔特徴量を更新する。

尚、一つの顔画像に対して、０．６未満の保存されている顔特徴量が複数ある場合は、距離が最小のものを選択して、口唇領域座標保存部１０に保存されている選択した顔特徴量の更新を行う。

Ｓ１１０の分岐で、保存されているものの中に距離が０．６未満の顔特徴量が存在しない場合（Ｓ１１０のＮＯ）、新たな参加者が増えたと考えられるため、Ｓ１１１でその顔特徴量を口唇領域座標保存部１０に保存する。

Ｓ１１３で顔認識結果に基づいて口唇領域を抽出し、その座標をＳ１１４でバッファに保存しておく。

Ｓ１１６のステップでは、もし検出された人数分のこの作業が終わったあとに、口唇領域座標保存部１０に保存されている顔特徴量のうち、更新されなかったものがあった場合、その参加者がその場から去ったと考えられるため、Ｓ１１７でその顔特徴量を口唇領域座標保存部１０から破棄する。これにより、口唇領域座標保存部１０に保存されている顔特徴量の数が増え続けることを避けることができる。

尚Ｓ１０７の判定は毎フレーム行う必要はなく、数秒、数十秒毎で行ってもよい。

このように、口唇領域座標保存部１０には、カメラ映像に写っているすべての会議参加者の顔特徴量が保存されている。

図５は、認識した身体部位座標を使った顔認識の補正に関するフローチャートである。この処理はカメラから取得された映像に対して、毎フレーム行う。図５のフローチャートの各処理は、図２に示す機能ブロックのうち、主に身体部位認識部６、顔領域認識部７、顔特徴量保存部８により実行される。

Ｓ２０２、Ｓ２０３、Ｓ２０４は、それぞれ図４のＳ１０２、Ｓ１０３、Ｓ１０４と同じ処理であり、図５のフローチャートのＳ２０５以降の各処理は、図４のＳ２０４の顔領域の認識の際の、顔認識の異常を修正する手法である。ここでは、説明の簡略のため、一人の参加者についての処理のみを述べるが、実際にはこの処理が検出された人数分行われる。

Ｓ２０２で検出される身体部位は、目、鼻など顔のパーツの大まかな位置、及び、首や肩、肘や膝、踵などの部位の座標が２６点取得できる。これらの部位は全てを検出できなくてもよく、例えば会議シーンだと卓があることが多く、下半身は撮影されないが、その場合は、上半身のみの座標を取得できる。また、Ｓ２０３では、Ｓ２０２で検出される身体部位のグループの数で、参加者の人数を算出できる。

Ｓ２０４で検出された顔領域は、顔認識の結果得られる目や鼻、口や輪郭などの６８点の座標から決定される。そのうち口の中心座標を口の周辺の座標から算出する。

Ｓ２０５で、撮影された複数の人物のパーツのうち、Ｓ２０２で検出された首の座標と、Ｓ２０４で求めた口唇中心座標の身体部位のそれぞれのユークリッド距離を算出する。首が検出されない場合は、鼻などでも良い。これらを身体部位データとする。そして、口唇中心座標と首座標とのユークリッド距離が近い身体部位データの有無を探索する。

顔認識は、身体認識と比べると認識が困難であり、カメラに対して横を向いていたり、手で口元や鼻を触っていたりする時に認識されなかったり（図６のＣ氏とＤ氏の画像参照）、認識される座標が、実際の顔の位置から大きく外れることがある（図６のＢ氏の画像参照）。この場合、口唇中心座標と首座標とのユークリッド距離は離れたものとなったり、顔領域自体を認識できなくなるなど、顔認識に何らかの異常が生じ、口唇領域の判定精度が低下すると考えられる。図５のフローチャートのＳ２０５以降の処理は、顔認識異常時に、口唇領域の判定精度が低下しないように補正するための手法である。

Ｓ２０６では、取得された口唇中心座標と身体部位データの座標が近いものがあるか否かが判定される。例えば、ユークリッド距離が所定値以下の場合に、口唇中心座標と首座標とが近いと判定できる。口唇中心座標と身体部位データの座標が近いものがあれば（Ｓ２０６のＹＥＳ）、顔と身体が正しく認識されたとして、Ｓ２０７では認識した顔座標を更新する。

一方で、身体部位データと口唇中心座標が大きく乖離していた場合、または顔領域の座標を取得できない場合（Ｓ２０６のＮＯ）、顔認識が失敗したと判断され、Ｓ２０８では前回の顔認識結果の座標を使用して、顔座標の更新を行わない。

更に、もし顔認識が失敗して、身体部位データに対して、顔の数が足りない場合も、顔認識が失敗したと判断され、前回の顔認識結果の座標を使用して顔座標の更新を行わない。

なお、Ｓ２０８の処理は、顔認識異常時に、口唇領域の判定精度が低下させないための処理であればよく、前回の顔領域座標を使用する手法以外の手法を用いてもよい。例えば、首座標の直上の領域を顔領域とみなす手法など、Ｓ２０２で認識された身体部位の情報から顔領域の位置を推定する手法でもよい。

このような図５のフローチャートの一連の処理により、後のステップで、高精度に口唇画像を抽出することができ、発話検出の機会を増やすことができ、また、高精度に検出を行うことができる。

図６は、口唇画像抽出補正手法の概要について説明する図である。図６では、図５で説明した顔認識結果の補正、及び口唇抽出の概要を表す。

カメラが３台あった場合、座席への座り方によってＡ、Ｂ、Ｃ、Ｄの参加者が図６に示す３枚の画像のように撮像される。参加者Ａの顔認識結果から、顔領域３１が抽出され、また口唇領域３２が抽出される。

この顔認識結果は、図５で説明した身体部位データ（首座標３３）を元に補正することができる。

例えばカメラから近い距離で、かつカメラの方向を向いている参加者Ａは、正確に口唇領域３２を抽出できるが、カメラから遠い座席に着席している参加者Ｃ、Ｄは口唇領域３２の認識精度が下がる。

また、参加者Ｃは、口を隠していることで顔領域３１を検出できず、顔認識に失敗している。本実施形態では、このように顔認識に失敗している場合でも、身体データ（首座標３３）と、直前の顔領域３１Ａの座標データを使用して、口唇領域３２の位置を取得し続けている。これにより、口唇の一部が隠れていたとしても、発話検出の機会を得られる。

参加者Ｄは、カメラの方向を向いていないため顔領域３１を検出できず、顔認識に失敗しているが、参加者Ｃの場合と同様に、首座標３３と、直前の顔領域３１Ａの座標とを使用して、口唇領域３２の位置を取得し続けられる。これにより横向きの口唇画像だとしても、発話検出の機会を得られる。

また、参加者Ｂの画像では、例えば背景の色や模様などの影響によって、認識された顔領域３１が実際の顔の位置と異なる場合がある。この場合でも、顔領域３１と首座標３３との距離が大きく、顔認識に失敗していると認識して、首座標３３の直上に仮想顔領域３１Ｂを設定することによって、仮想顔領域３１Ｂの中で口唇領域３２を取得できる。

図７は、発話者認識手法に関するフローチャートである。図７では、図４のフローチャートで抽出した顔特徴量と、図５のフローチャートで抽出した口唇画像を用いた、具体的な発話者認識手法に関するフローチャートが示されている。図７のフローチャートの各処理は、図２に示す機能ブロックのうち、主に口唇画素数変換部１１、口唇特徴量算出部１２、発話検出部１３、発話者認識部１５、認識結果出力部１６により実行される。

Ｓ３０２で、抽出した口唇領域を元に口唇画像を生成する。Ｓ３０３で口唇画像をリサイズし、Ｓ３０４でこの画像から口唇特徴量を算出する。そして、Ｓ３０５でこの口唇特徴量を発話検出させる単位のフレーム数分だけスタックする。Ｓ３０６の分岐において、発話検出させるフレーム数を３０フレームと設定すると、スタックしたフレーム数が３０フレームに達成する（Ｓ３０６のＹＥＳ）まで口唇画像の生成を繰り返す。

３０フレーム分スタックさたらものを１ユニットとする。Ｓ３０７でこのユニットに対して発話検出を行う。Ｓ３０８の分岐で、このユニットに対して発話が検出されない場合（Ｓ３０７のＮＯ）、また次のフレームから口唇画像を生成する。

発話が検出された場合（Ｓ３０７のＹＥＳ）、ユニットの中の１フレームを使用してＳ３０９で話者認識を行う。Ｓ３１０では、図４で保存していた顔特徴量と比較し、一致と判断された顔特徴量が保存されていた場合（Ｓ３１０のＹＥＳ）、既知の特定の話者であるという情報をＳ３１１で出力結果に付与する。この際の条件は、顔特徴量を保存したときと同様で、スタックした口唇特徴量に相当する顔画像の、顔特徴量を算出したものと、保存されている顔特徴量とのユークリッド距離を算出し、０．６未満かつ、最小のものを採用する。

もし保存している顔特徴量のうち、一致と判断されたものが該当しなかった場合（Ｓ３１０のＮＯ）は、話者情報を付与せず、Ｓ３１２では、不明の話者の発話であるという結果が出力される。

Ｓ３１１で話者情報が付与された場合は、Ｓ３１２で誰による発話なのか出力される。

第１実施形態に係る発話者認識システム１は、撮影された映像内の人物の身体部位を検出する身体部位認識部６と、映像内の人物の顔領域を認識する顔領域認識部７と、顔領域の認識結果に基づき顔領域から口唇領域を抽出する口唇領域抽出部９と、抽出された口唇領域の画像シーケンスに基づき口唇特徴量を算出する口唇特徴量算出部１２と、口唇特徴量に基づき発話の有無を判定する発話検出部１３と、映像内の人物の顔特徴量に基づき発話の発話者を特定する発話者認識部１５と、を備える。顔領域認識部７は、顔領域の認識に失敗した場合に、前回の顔認識結果、または、認識された身体部位の情報を用いて、顔領域の認識結果を補正し、口唇領域抽出部９は、補正された顔領域の認識結果に基づき口唇領域を抽出する。

この構成により、撮影された映像内の人物の顔認識に失敗した場合でも、前回の顔認識結果、または、認識された身体部位の情報を用いて、顔領域の認識結果を補正し、補正された顔領域の認識結果に基づき口唇領域を抽出することが可能となる。これにより、会議向けの発話者認識システム１において、会議参加者Ａ～Ｄの顔が隠れていても、正確に口唇領域を追跡しつづけ、機械読唇をする機会を増やすことができる。

また、第１実施形態に係る発話者認識システム１は、口唇領域抽出部９により抽出された口唇領域の画素数を所定の画素数に変換する口唇画素数変換部１１を備える。口唇特徴量算出部１２は、口唇画素数変換部１１により所定の画素数に変換された口唇領域を用いて口唇特徴量を算出する。

口唇領域抽出部９により抽出された口唇領域の画像は、カメラと会議参加者との距離によって大きさが異なるが、本実施形態では上記構成によって、口唇画素数変換部１１により口唇領域の画像が所定の画素数に変換されて画一化される。これにより、口唇特徴量算出部１２により算出される口唇特徴量は、カメラと会議参加者との距離の影響を受けずに安定したものとなり、口唇特徴量に基づく発話検出を高精度に行うことができる。

また、第１実施形態に係る発話者認識システム１は、映像内のすべての人物の顔特徴量を保存する顔特徴量保存部８を備える。発話者認識部１５は、顔特徴量保存部８に保存されている顔特徴量と、発話検出部１３により発話していると判定された人物の顔特徴量との類似度を算出し、類似度が最も高い人物を発話者と判定する。この構成により、発話者の判定を精度良く行うことができる。

［第２実施形態］
図８～図９を参照して第２実施形態を説明する。

図８は、第２実施形態に係る発話者認識システム１Ａの機能ブロック図である。図８に示すように、第２実施形態に係る発話者認識システム１Ａは、話者モデルの切り替えを考慮する。

発話者認識システム１Ａは、主な構成は図２の第１実施形態の発話者認識システム１のものと同様である。第１実施形態との相違点は、発話者認識部１５は顔特徴量保存部８と関係している点である。また、新たにモデル切替部１７を備える。例えばよくこのシステムを利用する既知の話者毎の発話検出モデル１８を用意しており、モデル切替部１７は、発話者認識部１５の結果に応じて適切なモデルを選択する。発話検出部１３は、選択されたモデルを用いて発話検出を行う。これにより、発話検出部１３による発話検出の精度を向上させる。図８では、発話検出モデル１８は、特定の話者の発話データを用いて学習され特定の話者ごとに特化された検出モデル１～Ｘとして図示されている。また、発話検出モデル１８は、多数の話者の発話データを用いて学習させた汎用検出モデルを含んでもよい。

図９は、発話者モデルの切り替え処理のフローチャートである。

Ｓ４０２、Ｓ４０３、Ｓ４０４、Ｓ４０５、Ｓ４０６は、図７に示した第１実施形態の発話者認識手法のＳ３０２、Ｓ３０３、Ｓ３０４、Ｓ３０５、Ｓ４０６と同じ処理である。

Ｓ４０６の分岐で必要な数フレームがスタックされたとき（Ｓ４０６のＹＥＳ）に、ユニットの中の１フレームを使用してＳ４０７で話者認識を行う。Ｓ４０８はＳ３１０と同じ条件であり、もし一致と判断された顔特徴量が保存されていた場合（Ｓ４０８のＹＥＳ）、Ｓ４０９では、保存していた話者毎の検出モデルから、対象の特定話者の発話検出モデル１８を検索する。対象の特定話者個人の検出モデルが存在しない場合（Ｓ４０９のＮＯ）は、多くの人で学習させた汎用の検出モデルを利用する（Ｓ４１０）が、特定話者の発話検出モデル１８を保有していた場合（Ｓ４０９のＹＥＳ）、Ｓ４１１で発話検出に利用するモデルに、この発話検出モデル１８（特定話者モデル）を設定する。また、この段階でＳ４１２の話者情報の付与を行う。

それぞれの特定話者の発話検出モデル１８、もしくは汎用モデルを使用してＳ４１３で発話検出を行う。Ｓ４１４とＳ４１５は図７のＳ３０８、Ｓ３１２と同様の処理である。

特定話者の発話検出モデル１８（特定話者モデル）は、個人の口唇の特徴や発話スタイルが学習されて作成されたものなので、特定の個人を対象にした場合、汎用モデルを使用するよりも、発話検出の高精度化が期待できる。

［第３実施形態］
図１０～図１１を参照して第３実施形態を説明する。

図１０は、第３実施形態に係る発話者認識システム１Ｂの機能ブロック図である。図１０に示すように、第３実施形態に係る発話者認識システム１Ｂは、音声を利用したマルチモーダル発話者認識システムとなり、口唇画像だけでなく音声も使用する。

映像入力部５に加え、音声入力部１９と、その音声から特徴量を抽出する音声特徴量算出部２０が、図２の第１実施形態の構成に追加される。音声特徴量は、発話検出部１３の分類がしやすいような特徴量であり、例えばＭＦＣＣ（メル周波数ケプストラム係数）が挙げられる。

特徴量融合部２１は、口唇特徴量と、それに同期した話者ごとの音声特徴量とを重みづけして融合する。これにより、発話をより検出しやすい特徴量に変換させることで、高精度な発話検出が期待できる。

映像のフレームレートが３０ｆｐｓ（３３．３ｍｓｅｃ）だとした場合、例えば音声特徴量を、１０ｍｓｅｃを１フレームとして算出したとしても、映像特徴量を算出したフレームのほうがおよそ３倍長い。特徴量融合部２１では、この長さの差を埋めるために、１映像特徴量に対して例えば３フレーム分の音声特徴量を結合させるような、音声同期させる機能を持つ。

また、第１実施形態の検出モデル１４と同様に、口唇特徴量算出部１２、発話検出部１３、音声特徴量算出部２０、特徴量融合部２１の機能を纏めて、１つの検出モデル２２に置き換えてもよい。

図１１は、マルチモーダル発話者認識システム１Ｃの出力結果２３の表示例を示す図である。

出力結果２３は、電子白板４などに表示させる、もしくはドキュメントとして保存させる表示例である。

出力結果２３では、例えば、発話検出したユニットのフレーム番号から、該当の発話の開始時刻と終了時刻を表示させる。

また、出力結果２３では、発話者認識ができた場合は、その代表のフレームの顔画像を同じ行に表示させる。一方で、発話検出はできたが、発話者の認識ができなかった場合は、顔画像は表示させずに空白にする。

出力結果２３では、システムが音声認識も同時に行えるものの場合、発話内容自体も表示させる。つまり出力結果２３では、発話検出部１３の発話検出結果による発話の開始時刻および終了時と、発話者認識部１５の発話者認識結果による発話者の顔画像、及び、発話内容の認識結果が一覧出力される。

なお、図１１に示す出力結果２３は、第３実施形態のマルチモーダル発話者認識システム１Ｃに限らず、第１、第２実施形態の発話者認識システム１、１Ａでも同様のものを作成できる。

以上、具体例を参照しつつ本実施形態について説明した。しかし、本開示はこれらの具体例に限定されるものではない。これら具体例に、当業者が適宜設計変更を加えたものも、本開示の特徴を備えている限り、本開示の範囲に包含される。前述した各具体例が備える各要素およびその配置、条件、形状などは、例示したものに限定されるわけではなく適宜変更することができる。前述した各具体例が備える各要素は、技術的な矛盾が生じない限り、適宜組み合わせを変えることができる。

１、１Ａ、１Ｂ発話者認識システム
６身体部位認識部
７顔領域認識部
８顔特徴量保存部
９口唇領域抽出部
１１口唇画素数変換部
１２口唇特徴量算出部
１３発話検出部
１５発話者認識部

特開２０１５－０１９１６２号公報

Claims

撮影された映像内の人物の身体部位を検出する身体部位認識部と、
前記映像内の前記人物の顔領域を認識する顔領域認識部と、
前記顔領域の認識結果に基づき前記顔領域から口唇領域を抽出する口唇領域抽出部と、
抽出された前記口唇領域の画像シーケンスに基づき口唇特徴量を算出する口唇特徴量算出部と、
前記口唇特徴量に基づき発話の有無を判定する発話検出部と、
前記映像内の前記人物の顔特徴量に基づき前記発話の発話者を特定する発話者認識部と、
を備え、
前記顔領域認識部は、前記顔領域の認識に失敗した場合に、前回の顔認識結果、または、認識された前記身体部位の情報を用いて、前記顔領域の認識結果を補正し、
前記口唇領域抽出部は、補正された前記顔領域の認識結果に基づき前記口唇領域を抽出し、
前記発話検出部は、複数の話者の発話データを用いた汎用検出モデル、および、既知の特定の１話者の発話データを用いた特化型検出モデルを切り替えて用いて、発話検出を行う、
発話者認識システム。
前記口唇領域抽出部により抽出された前記口唇領域の画素数を所定の画素数に変換する口唇画素数変換部を備え、
前記口唇特徴量算出部は、前記所定の画素数に変換された口唇領域を用いて前記口唇特徴量を算出する、請求項１に記載の発話者認識システム。
前記映像内のすべての人物の顔特徴量を保存する顔特徴量保存部を備え、
前記発話者認識部は、前記顔特徴量保存部に保存されている前記顔特徴量と、前記発話検出部により発話していると判定された人物の顔特徴量との類似度を算出し、類似度が最も高い人物を発話者と判定する、
請求項１または２に記載の発話者認識システム。
前記口唇特徴量と、前記口唇特徴量に同期した話者ごとの音声特徴量とを重み付けして融合して、融合した特徴量を用いて発話検出を行う、
請求項１～３のいずれか１項に記載の発話者認識システム。
発話音声に基づき発話内容を認識して出力する、
請求項１～４のいずれか１項に記載の発話者認識システム。
前記発話検出部の発話検出結果による発話の開始時刻および終了時と、前記発話者認識部の発話者認識結果による発話者の顔画像、及び、前記発話内容の認識結果を一覧出力する、
請求項５に記載の発話者認識システム。
撮影された映像内の人物の身体部位を検出する身体部位認識ステップと、
前記映像内の前記人物の顔領域を認識する顔領域認識ステップと、
前記顔領域の認識結果に基づき前記顔領域から口唇領域を抽出する口唇領域抽出ステップと、
抽出された前記口唇領域の画像シーケンスに基づき口唇特徴量を算出する口唇特徴量ステップと、
前記口唇特徴量に基づき発話の有無を判定する発話検出ステップと、
前記映像内の前記人物の顔特徴量に基づき前記発話の発話者を特定する発話者認識ステップと、を含み、
前記顔領域認識ステップは、前記顔領域の認識に失敗した場合に、前回の顔認識結果、または、認識された前記身体部位の情報を用いて、前記顔領域の認識結果を補正し、
前記口唇領域抽出ステップは、補正された前記顔領域の認識結果に基づき前記口唇領域を抽出し、
前記発話検出ステップは、複数の話者の発話データを用いた汎用検出モデル、および、既知の特定の１話者の発話データを用いた特化型検出モデルを切り替えて用いて、発話検出を行う、
発話者認識方法。
撮影された映像内の人物の身体部位を検出する身体部位認識機能と、
前記映像内の前記人物の顔領域を認識する顔領域認識機能と、
前記顔領域の認識結果に基づき前記顔領域から口唇領域を抽出する口唇領域抽出機能と、
抽出された前記口唇領域の画像シーケンスに基づき口唇特徴量を算出する口唇特徴量算出機能と、
前記口唇特徴量に基づき発話の有無を判定する発話検出機能と、
前記映像内の前記人物の顔特徴量に基づき前記発話の発話者を特定する発話者認識機能と、をコンピュータに実現させ、
前記顔領域認識機能は、前記顔領域の認識に失敗した場合に、前回の顔認識結果、または、認識された前記身体部位の情報を用いて、前記顔領域の認識結果を補正し、
前記口唇領域抽出機能は、補正された前記顔領域の認識結果に基づき前記口唇領域を抽出し、
前記発話検出機能は、複数の話者の発話データを用いた汎用検出モデル、および、既知の特定の１話者の発話データを用いた特化型検出モデルを切り替えて用いて、発話検出を行う、
発話者認識プログラム。