JP6127811B2

JP6127811B2 - 画像判別装置、画像判別方法および画像判別プログラム

Info

Publication number: JP6127811B2
Application number: JP2013157645A
Authority: JP
Inventors: 馬場　孝之; 孝之馬場; 正樹石原; 昌彦杉村; 遠藤　進; 進遠藤; 上原　祐介; 祐介上原; 内藤　宏久; 宏久内藤; あきら宮崎
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-07-30
Filing date: 2013-07-30
Publication date: 2017-05-17
Anticipated expiration: 2033-07-30
Also published as: JP2015028691A

Description

本発明は、画像判別装置、画像判別方法および画像判別プログラムに関する。

近年、人の口が映った画像から発話内容を推定する読唇技術が注目されている。読唇技術では、例えば、単語などの所定単位の文字情報と、その文字情報を発音する際の口の形状を示す形状情報とが対応付けられた辞書情報が利用される。そして、読唇処理の際に、口の領域が映った入力画像と、辞書情報に含まれる形状情報とが比較され、入力画像における口領域との一致度が高い形状情報に対応付けられた文字情報が、発話内容と判定される。

辞書情報に含まれる形状情報としては、口の領域を撮影した画像や、口の領域の形状特徴量の計測値などを用いることができる。
また、読唇技術を、携帯端末などの装置の操作に利用することも考えられている。例えば、操作者の口を撮影した画像から発声された単語を判別し、その判別結果に対応付けられた処理を実行する携帯電話機が提案されている。

また、口領域を特定する技術の例としては、色情報や形状情報を有するテンプレートを用いたテンプレートマッチング技術が知られている。

特開２０１２―５９０１７号公報特開２０１２−１１８６７９号公報特開２００６−１２０９３号公報

ところで、上記のような辞書情報を生成する方法としては、例えば、多数の被験者に単語などの文字列を発音させ、発音時の口領域の画像を撮影し、得られた画像を基に辞書情報を生成する方法が考えられる。しかし、この方法では撮影の手間がかかるという問題がある。

これに対し、ネットワーク空間上で、あるいは記録媒体に記録された状態で公開されている様々な映像コンテンツを収集し、それらの映像コンテンツを基に辞書情報を生成する方法も考えられる。しかしながら、このように収集された映像コンテンツの内容は様々であることから、映像コンテンツから辞書情報の生成のために適切な箇所を抽出する作業が膨大になるという問題がある。

１つの側面では、本発明は、読唇処理用の辞書情報の生成作業を効率化することが可能な画像判別装置、画像判別方法および画像判別プログラムを提供することを目的とする。

１つの案では、検出部および判別部を有する画像判別装置が提供される。検出部は、文字列が発音された期間のシーンが映った入力動画像の各フレームから口の領域を検出する。判別部は、入力動画像のフレームのうち、口の領域が検出されなかったフレームの数が所定数以下である場合に、入力動画像を、文字列が発音される際の口の形状を示す辞書情報を生成するための動画像と判別する。

また、１つの案では、上記の画像判別装置と同様の処理が実行される画像判別方法が提供される。
さらに、１つの案では、上記の画像判別装置と同様の処理をコンピュータに実行させる画像判別プログラムが提供される。

１態様によれば、読唇処理用の辞書情報の生成作業を効率化することができる。

第１の実施の形態に係る画像判別装置の構成例および処理例を示す図である。第２の実施の形態に係る作業支援装置のハードウェア構成例を示す図である。読唇処理の手順の概要を示す図である。作業支援装置が備える機能の例を示すブロック図である。発話画像ファイル生成部の処理例について示す図である。発話画像ファイル生成部の他の処理例について示す図である。単語分割部および単語区間抽出部の処理例について示す図である。口領域検出部の処理例について示す図である。判定部の処理例について示す図である。作業支援装置の処理例を示すフローチャートである。文字別に用意されたテンプレートを用いた口領域の探索処理の概要を示す図である。テンプレートの使用切り替えタイミングの一例を示す図である。補間によって得られたテンプレートを使用する例を示す図である。特徴量ベクトルを用いた場合の補間処理例を示す図である。口領域が複数検出された場合の処理例を示す図である。口領域が複数検出された場合の他の処理例を示す図である。口領域の大きさに応じた検出処理例を示す図である。

以下、本発明の実施の形態について図面を参照して説明する。
〔第１の実施の形態〕
図１は、第１の実施の形態に係る画像判別装置の構成例および処理例を示す図である。

画像判別装置１は、読唇処理用の辞書情報を生成する作業を支援するものである。辞書情報とは、例えば、単語などの意味のある文字列に対して、文字列を発音する際の口の形状を示す形状情報が対応付けられた情報である。読唇処理では、例えば、口の領域が映った入力画像と、辞書情報に含まれる形状情報とが比較され、入力画像における口領域との一致度が高い形状情報に対応付けられた文字列が、発話内容と判定される。

画像判別装置１は、検出部２および判別部３を有する。検出部２および判別部３の処理は、例えば、画像判別装置１が備えるプロセッサが、所定のプログラムを実行することで実現される。

検出部２は、ある文字列が発音された期間のシーンが映った入力動画像の各フレームから、口領域を検出する。口領域を検出する方法としては、テンプレートマッチング法などの様々な方法を用いることができる。また、入力動画像としては、例えば、インターネットなどのネットワーク上で公開されている動画像から抽出したものを使用することができる。なお、検出部２による検出時において、入力動画像に映ったシーンで発音された文字列は、既知であるものとする。

図１の例では、入力動画像４は、「こんにちは」という文字列が発音された期間のシーンを映したものである。ここでは説明をわかりやすくするために、入力動画像４には５つのフレームが含まれるものとする。

判別部３は、入力動画像のフレームのうち、検出部２によって口領域が検出されなかったフレームの数を計数する。そして、口領域が検出されなかったフレームの数が所定の判定しきい値以下である場合に、入力動画像を、辞書情報を生成するための動画像と判別する。また、判別部３は、例えば、口領域が検出されなかったフレームの数が所定の判定しきい値以下である場合、入力動画像を、辞書情報における口の形状情報として登録してもよい。なお、判定しきい値は、０以上の整数である。

図１の例では、入力動画像４のフレームのうち、１番目，２番目，４番目，５番目の各フレームからは口領域が検出されたものの、３番目のフレームからは口領域が検出されなかったものとする（ステップＳ１）。ここで、判定しきい値を“０”とすると、判別部３は、口領域が検出されなかったフレームの数は“１”であり、判定しきい値“０”より大きいと判定する（ステップＳ２）。この場合、判別部３は、入力動画像４を、辞書情報を生成するための動画像でないと判別する。

ここで、辞書情報に含まれる口の形状情報の生成のために利用する動画像は、できるだけ多くのフレームに口領域が映っていることが好ましい。それにより、読唇処理の際に、生成された形状情報を口が映った画像と比較したときの一致度判定の精度を向上させることができる。

画像判別装置１の上記処理により、入力動画像が、高精度な読唇処理を実行するための辞書情報の生成に利用する動画像として適切か否かを、精度よく判定することができる。従って、辞書情報の生成作業の効率を高めることができる。

特に、入力動画像として、ネットワーク上で公開されている動画像など、すでに世の中に流通している大量の動画像から抽出したものを使用した場合、その入力動画像には、対応する文字列が発音されたシーンであるにもかかわらず、発音した人の口が常に映っているとは限らない。また、口どころか顔や人が映っていない場合もあり得る。画像判別装置１の上記処理により、このような入力動画像を用いた場合の辞書情報の生成作業を、顕著に効率化することができる。

〔第２の実施の形態〕
図２は、第２の実施の形態に係る作業支援装置のハードウェア構成例を示す図である。作業支援装置１００は、読唇処理に用いる辞書情報を生成する作業を支援するための装置である。作業支援装置１００は、例えば、図２のようなコンピュータとして実現される。

作業支援装置１００は、プロセッサ１０１によって装置全体が制御されている。プロセッサ１０１は、マルチプロセッサであってもよい。プロセッサ１０１は、例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、またはＰＬＤ（Programmable Logic Device）である。またプロセッサ１０１は、ＣＰＵ、ＭＰＵ、ＤＳＰ、ＡＳＩＣ、ＰＬＤのうちの２以上の要素の組み合わせであってもよい。

プロセッサ１０１には、バス１０８を介して、ＲＡＭ（Random Access Memory）１０２と複数の周辺機器が接続されている。
ＲＡＭ１０２は、作業支援装置１００の主記憶装置として使用される。ＲＡＭ１０２には、プロセッサ１０１に実行させるＯＳ（Operating System）のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、ＲＡＭ１０２には、プロセッサ１０１による処理に必要な各種データが格納される。

バス１０８に接続されている周辺機器としては、ＨＤＤ（Hard Disk Drive）１０３、グラフィック処理装置１０４、入力インタフェース１０５、読み取り装置１０６および通信インタフェース１０７がある。

ＨＤＤ１０３は、作業支援装置１００の補助記憶装置として使用される。ＨＤＤ１０３には、ＯＳプログラム、アプリケーションプログラム、および各種データが格納される。なお、補助記憶装置としては、ＳＳＤ（Solid State Drive）などの他の種類の不揮発性記憶装置を使用することもできる。

グラフィック処理装置１０４には、表示装置１０４ａが接続されている。グラフィック処理装置１０４は、プロセッサ１０１からの命令に従って、画像を表示装置１０４ａの画面に表示させる。表示装置としては、ＣＲＴ（Cathode Ray Tube）を用いた表示装置や液晶表示装置などがある。

入力インタフェース１０５には、入力装置１０５ａが接続されている。入力インタフェース１０５は、入力装置１０５ａから出力される信号をプロセッサ１０１に送信する。入力装置１０５ａとしては、キーボードやポインティングデバイスなどがある。ポインティングデバイスとしては、マウス、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。

読み取り装置１０６には、可搬型記録媒体１０６ａが脱着される。読み取り装置１０６は、可搬型記録媒体１０６ａに記録されたデータを読み取ってプロセッサ１０１に送信する。可搬型記録媒体１０６ａとしては、光ディスク、光磁気ディスク、半導体メモリなどがある。

通信インタフェース１０７は、ネットワーク１０７ａを介して、他の装置との間でデータの送受信を行う。なお、ネットワーク１０７ａは、例えば、インターネットに接続されていてもよい。

以上のようなハードウェア構成によって、作業支援装置１００の処理機能を実現することができる。
次に、図３は、読唇処理の手順の概要を示す図である。この図３を用いて、本実施の形態で生成作業の対象となる辞書情報と、読唇処理での辞書情報の使われ方について説明する。

辞書情報２００には、例えば、それぞれ１つの単語に対応するレコード２０１が登録される。各レコード２０１には、単語を示すテキスト情報（または単語の識別情報）に対して、その単語を発音したときの口領域が撮影された動画像が対応付けて登録される。また、１つのレコード２０１には複数の動画像を対応付けて登録しておくことができる。

読唇エンジン２１０は、例えば、辞書情報２００を用いて次のような読唇処理を行う。読唇エンジン２１０には、処理対象の動画像２２１が入力される。処理対象の動画像２２１には、未知の人の口領域が映っている。読唇エンジン２１０は、処理対象の動画像２２１における口領域の画像と、辞書情報２００に登録されている動画像とのマッチングを行い、類似度を計算する。そして、読唇エンジン２１０は、辞書情報２００の動画像のうち、類似度が最も高い動画像を判定し、判定した動画像に対応付けられている単語のテキスト情報を、処理対象の動画像２２１に映った人が発話した内容の推定結果２２２として出力する。

ここで、前述のように、辞書情報２００においては、１つの単語に対して複数の動画像を対応付けて登録しておくことが可能である。例えば、同じ単語を異なる人が発音したときの口領域が撮影された動画像を、１つのレコード２０１に登録することが可能である。また、例えば、同じ単語を同じ人が発音したときの口領域を、それぞれ異なる角度から撮影することで得られた動画像を、１つのレコード２０１に登録することも可能である。

このように、辞書情報２００において、１つの単語に対して多くの動画像を対応付けておき、それらの動画像を読唇処理のマッチングに利用することで、読唇精度を向上させることができる。

ところで、辞書情報２００に登録する動画像を用意する方法としては、例えば、多数の被験者に単語を発音させ、発音時の口領域の画像を撮影するとい方法があるが、この方法は撮影の手間が大きいという問題がある。特に、上記のように読唇精度を向上させるために辞書情報２００に登録される動画像が多くなるほど、撮影の手間も大きくなる。

これに対し、本件の発明者は、すでに撮影された様々な動画像を収集し、収集された動画像を用いて辞書情報２００に登録する動画像を生成する方法を検討した。収集の対象とする動画像としては、例えば、インターネットなどのネットワーク上で公開されている動画像や、光ディスクなどの記録媒体に記録されて流通している動画像などが考えられる。このような方法により、辞書情報２００の生成のための撮影作業を行う手間を省くことができる。

しかしながら、このような方法により収集された動画像では、たとえ目的とする単語が発音されたシーンが映っていたとしても、その単語を発音した人の口領域が映っているとは限らない。また、口領域が映っていたとしても、その単語の発音の開始時点から終了時点までの全体を通して、発音した人の口領域が映っているとは限らない。

辞書情報２００の動画像として使用するためには、所望の単語の発音の開始時点から終了時点までのできるだけ長い期間（最も好ましくは期間全体で）、発音した人の口領域が映っていることが望ましい。これにより、読唇処理の精度を高くすることができる。しかしながら、収集された動画像から、辞書情報２００の動画像として使用するのに適する動画像を抽出するための作業の手間が非常に大きいという問題があった。

そこで、本実施の形態の作業支援装置１００は、このようにして収集された動画像から、辞書情報２００の動画像として使用するのに適する動画像を抽出する作業の少なくとも一部を自動化して、その作業効率を向上させる。これにより、読唇エンジン２１０の開発作業を効率化し、その読唇処理精度を高めるとともに、開発コストを削減する。

なお、上記の図３の説明では、辞書情報２００の各レコード２０１には１つ以上の動画像が登録されるものとしたが、辞書情報２００の各レコード２０１には、対応する単語が発音されたときの口領域の形状を示す情報が登録されていればよい。動画像は、そのような形状を示す情報の一例である。口領域の形状を示す情報の他の例としては、口領域の特徴量などがある。

ただし、口領域の形状を示す情報は、一般的に、口領域が撮影された動画像を基に生成される。従って、辞書情報２００に、口領域の形状を示す情報として動画像以外の情報が登録されたとしても、そのような辞書情報２００を生成するために、口領域が撮影された動画像が必要となることに変わりはない。

なお、本実施の形態の読唇処理では、上記の図３の説明のように、単語単位で認識を行うものとする。この方法は、例えば、一文字単位（音節単位）で認識を行う方法と比較して、認識精度を高めることができる。

また、本実施の形態で言う「単語」とは、例えば、単語およびこれに後続する付属語などを含む「文節」も包含するものとする。
また、本実施の形態を、単語（あるいは文節）より大きな単位（例えば、複数文節）で認識するように変形することも可能である。この場合、辞書情報２００においては、例えば、複数文節の文字情報ごとに、口領域の形状を示す情報が１つ以上対応付けて登録されればよい。

図４は、作業支援装置が備える機能の例を示すブロック図である。作業支援装置１００は、動画像収集部１１１、発話画像ファイル生成部１１２、単語分割部１１３、単語区間抽出部１１４、口領域検出部１１５および判定部１１６を有する。これらの各処理ブロックの処理は、例えば、作業支援装置１００が備えるプロセッサ１０１が、所定のプログラムを実行することで実現される。

動画像収集部１１１は、ネットワーク１０７ａから動画像を収集する。例えば、動画像収集部１１１は、動画投稿サイトなどの無料で動画像コンテンツを配信しているＷｅｂサイトを提供するＷｅｂサーバにアクセスして、動画像のデータをダウンロードする。収集された動画像のデータは、例えば、作業支援装置１００のＨＤＤ１０３に格納される。

発話画像ファイル生成部１１２は、動画像収集部１１１によって収集された動画像それぞれから、人が言葉を発したシーンの区間（以下、「発話区間」と呼ぶ）を抽出する。発話画像ファイル生成部１１２は、抽出した発話区間の動画像を切り出して、発話画像ファイル１３０を生成する。発話画像ファイル１３０には、発話内容を示す発話内容テキスト１３１と、動画像データ１３２とが対応付けて格納されている。生成された発話画像ファイル１３０は、例えば、作業支援装置１００のＲＡＭ１０２に一時的に格納される。

なお、後述するように、本実施の形態では、基本的に、動画像収集部１１１によって収集された動画像には、字幕テキストが付加されているものとする。例えば、収集された動画像におけるある範囲の隣接する複数フレームに対して、１つの文章（字幕）が表示されるように字幕テキストが付加されている。

単語分割部１１３は、生成された発話画像ファイル１３０それぞれの発話内容テキスト１３１を、形態素解析などを用いて、単語を単位として分割する。
単語区間抽出部１１４は、生成された発話画像ファイル１３０それぞれの動画像データ１３２から、単語分割部１１３によって分割された各単語が発音された区間（以下、「単語区間」と呼ぶ）を切り出して、単語画像ファイル１４０を生成する。単語画像ファイル１４０には、発音された単語を示す単語テキスト１４１と、動画像データ１４２とが対応付けて格納されている。生成された単語画像ファイル１４０は、例えば、作業支援装置１００のＲＡＭ１０２に一時的に格納される。

口領域検出部１１５は、生成された単語画像ファイル１４０それぞれの動画像データ１４２に基づく画像の各フレームから、画像処理によって口領域を検出する。
判定部１１６は、単語画像ファイル１４０それぞれの動画像データ１４２について、口領域検出部１１５によって口領域が検出されなかったフレームの数を計数する。判定部１１６は、口領域が検出されなかったフレームの数が、あらかじめ決められた判定しきい値以下である場合に、検出対象の動画像データ１４２は前述の辞書情報２００の生成のために利用可能であると判定する。この場合、判定部１１６は、対応する単語画像ファイル１４０を基に、辞書情報２００の生成に利用するための辞書候補ファイル１５０を生成する。

辞書候補ファイル１５０には、単語テキスト１５１と、動画像データ１５２と、動画像データ１５２の各フレームにおいて口領域が検出された領域を示す口領域座標１５３とが含まれる。これらのうち、単語テキスト１５１および動画像データ１５２は、対応する単語画像ファイル１４０の単語テキスト１４１および動画像データ１４２と同じである。生成された辞書候補ファイル１５０は、例えば、作業支援装置１００のＨＤＤ１０３に格納される。

なお、作業支援装置１００は、動画像収集部１１１および発話画像ファイル生成部１１２を備えていなくてもよい。この場合、発話画像ファイル１３０は、ネットワークを通じて、または可搬型記録媒体を介して、作業支援装置１００に格納される。

また、作業支援装置１００は、動画像収集部１１１および発話画像ファイル生成部１１２に加えて、さらに単語分割部１１３および単語区間抽出部１１４を備えていなくてもよい。この場合、単語画像ファイル１４０は、ネットワークを通じて、または可搬型記録媒体を介して、作業支援装置１００に格納される。

次に、上記の各処理ブロックの処理について説明する。
まず、図５は、発話画像ファイル生成部の処理例について示す図である。
前述のように、動画像収集部１１１によって収集された動画像には、基本的に、字幕テキストが付加されているものとする。字幕テキストは、例えば、収集された動画像のデータのヘッダ領域などにテキストデータとして付加されていて、発話画像ファイル生成部１１２が、字幕テキストの内容とその表示期間とを認識可能であるものとする。

発話画像ファイル生成部１１２は、収集された動画像から、同一の字幕テキストが表示される期間（以下、「同一字幕表示期間」と呼ぶ）を特定する。発話画像ファイル生成部１１２は、特定した期間の動画像のデータを、発話画像ファイル１３０の動画像データ１３２として切り出し、表示される字幕テキストを記述した発話内容テキスト１３１に対応付ける。これにより、発話画像ファイル１３０が生成される。

図５の例では、「おはよう、きょうは」という字幕テキストが表示される期間Ｔ１が特定され、この期間Ｔ１のフレームが切り出されて動画像データ１３２が生成される。そして、切り出された動画像データ１３２と、「おはよう、きょうは」というテキスト情報が記述された発話内容テキスト１３１とを含む発話画像ファイル１３０が出力される。

なお、発話画像ファイル生成部１１２は、動画像収集部１１１によって収集された、字幕テキストが付加されていない動画像を基に、発話画像ファイル１３０を生成することも可能である。この場合の例について、次の図６を用いて説明する。

図６は、発話画像ファイル生成部の他の処理例について示す図である。
発話画像ファイル生成部１１２は、例えば、動画像収集部１１１によって収集された動画像における音声信号を基に、人が言葉を発した発話区間を検出する。発話区間の検出は、例えば、音声信号の周波数スペクトルを解析することによって行うことができる。発話画像ファイル生成部１１２は、検出した発話区間それぞれの音声信号を基に、さらに音声認識を行って、発話内容を示すテキストを取得する。このような方法により、収集された動画像に字幕テキストが付加されていない場合でも、発話画像ファイル１３０を生成することができる。

図６の例では、収集された動画像における音声信号から、発話区間Ａ１，Ａ２が検出されたものとする。そして、発話区間Ａ１，Ａ２のそれぞれの音声信号から、音声認識によって「おはよう」「きょうは」という発話内容が認識されたものとする。この場合、発話画像ファイル生成部１１２は、発話区間Ａ１におけるフレームを切り出した動画像データ１３２と、「おはよう」というテキスト情報が記述された発話内容テキスト１３１とを含む発話画像ファイル１３０を出力する。また、発話画像ファイル生成部１１２は、発話区間Ａ２におけるフレームを切り出した動画像データ１３２と、「きょうは」というテキスト情報が記述された発話内容テキスト１３１とを含む発話画像ファイル１３０を出力する。

なお、発話画像ファイル１３０からの、または動画像収集部１１１によって収集された動画像からの、発話区間および発話内容の抽出作業の少なくとも一部は、オペレータによる操作によって行われてもよい。また、例えば、単語分割部１１３および単語区間抽出部１１４の処理によって生成された単語画像ファイル１４０について、その動画像の開始時刻や終端時刻の修正や発話内容の修正が、オペレータによる操作によって行われてもよい。

次に、図７は、単語分割部および単語区間抽出部の処理例について示す図である。
単語分割部１１３は、生成された発話画像ファイル１３０それぞれの発話内容テキスト１３１を、形態素解析などを用いて、単語を単位として分割する。

単語区間抽出部１１４は、生成された発話画像ファイル１３０それぞれの動画像データ１３２から、単語分割部１１３によって分割された各単語が発音された区間（以下、「単語区間」と呼ぶ）を切り出して、単語画像ファイル１４０を生成する。単語画像ファイル１４０には、発音された単語を示す単語テキスト１４１と、切り出された動画像データ１４２とが対応付けて格納される。生成された単語画像ファイル１４０は、例えば、作業支援装置１００のＲＡＭ１０２に一時的に格納される。

単語区間抽出部１１４は、例えば、動画像データ１３２に含まれる音声信号を基に音声認識を行い、それぞれの単語が発音された区間の開始時刻と終了時刻とを検出する。そして、単語区間抽出部１１４は、動画像データ１３２から、開始時刻から終了時刻までに表示されるフレームを切り出して、単語画像ファイル１４０の動画像データ１４２を生成する。

なお、例えば、発話画像ファイル生成部１１２が音声認識を用いて発話画像ファイル１３０を生成した場合には、この音声認識の時点で、発話画像ファイル１３０内の動画像データ１３２における単語や音節単位での発音開始時刻および発音終了時刻が検出されている場合がある。この場合、単語区間抽出部１１４は、発話画像ファイル生成部１１２によって検出された発音開始時刻および発音終了時刻に基づいて、動画像データ１３２における単語区間を検出することができる。

図７には、「おはよう、きょうは」という発話内容が記述された発話画像ファイル１３０から、単語画像ファイル１４０が生成される際の例が示されている。単語分割部１１３は、「おはよう、きょうは」という発話内容に対して形態素解析を行って、発話内容を「おはよう」と「きょうは」という単語（文節）に分割する。

単語区間抽出部１１４は、発話画像ファイル１３０の動画像データ１３２から、「おはよう」と発音された単語区間と、「きょうは」と発音された単語区間とを切り出す。図７の例では、時刻Ｔ１１から時刻Ｔ１２までが「おはよう」と発音された単語区間と判定される。そして、発話画像ファイル１３０の動画像データ１３２における、時刻Ｔ１１から時刻Ｔ１２までに表示されるフレームが、単語画像ファイル１４０の動画像データ１４２として切り出される。また、図７の例では、時刻Ｔ１３から時刻Ｔ１４までが「きょうは」と発音された単語区間と判定される。そして、発話画像ファイル１３０の動画像データ１３２における、時刻Ｔ１３から時刻Ｔ１４までに表示されるフレームが、単語画像ファイル１４０の動画像データ１４２として切り出される。

次に、図８は、口領域検出部の処理例について示す図である。
口領域検出部１１５は、単語画像ファイル１４０に含まれる動画像データ１４２の各フレームから、画像処理により口領域を検出する。口領域の検出には、例えば、テンプレートマッチング法を用いることができる。

テンプレートマッチング法を用いた場合、口領域検出部１１５は、動画像データ１４２のそれぞれのフレームと、口領域のテンプレートとを比較する。テンプレートとは、発話時の口領域の形状パターンを含む画像情報であり、例えば、発話時の口領域が撮影された画像、または、そのような撮影画像から、口領域の特徴的な形状パターンのみが抽出された画像などである。

例えば、図８に示すように、口領域検出部１１５は、検出対象のフレーム２３１の左上と、テンプレート２３２の左上とを合わせ、このような位置関係を起点としてテンプレート２３２を右方向に１画素ずつ移動させながら、テンプレート２３２と、テンプレート２３２と重なったフレーム２３１の領域との類似度を計算する。口領域検出部１１５は、テンプレート２３２の右端がフレーム２３１の右端に達すると、テンプレート２３２を１画素分下方向に移動させて、同様の処理を行う。このようにして、フレーム２３１の全領域から口領域を探索する。

さらに、口領域検出部１１５は、テンプレート２３２のサイズを変えて（例えば１段階小さくして）、上記と同様にフレーム２３１の全領域から口領域を探索する。テンプレート２３２のサイズ変更は、３段階以上行われてもよい。

口領域検出部１１５は、このようにして算出された類似度のうち、最も高い類似度が算出されたテンプレート２３２の位置に対応するフレーム２３１の領域２３３を、口領域と判定する。ただし、口領域検出部１１５は、算出された類似度の最大値が所定の判定しきい値より低い場合には、そのフレームからは口領域が検出されなかったと判定する。

なお、テンプレートは、例えば、輝度情報のみの画像データであってもよい。その場合には、フレームの輝度情報とテンプレートとが比較される。
また、テンプレートと、フレームにおけるテンプレートと重なる領域との類似度を計算する際には、例えば、両者の特徴量同士の類似度が計算されてもよい。特徴量の例としては、特徴量ベクトルがある。例えば、テンプレートの特徴量ベクトルをＸ、フレームにおけるテンプレートと重なる領域の特徴量ベクトルをＹとすると、類似度を示す距離Ｄは、Ｄ＝｜Ｘ−Ｙ｜として求めることができる。

なお、口領域の検出のために、顔検出を利用することもできる。例えば、フレームから顔を検出し、顔が検出された領域の一部を、上記のようなテンプレートを用いた口領域の探索領域とする。この方法によれば、テンプレートを用いた口領域の探索領域が限定され、処理負荷を低減することができる。ただし、顔検出が利用できるのは、フレームに顔のほぼ全体が映っている場合に限られる。

図９は、判定部の処理例について示す図である。
判定部１１６は、単語画像ファイル１４０の動画像データ１４２に含まれるフレームのうち、口領域検出部１１５によって口領域が検出されなかったフレームの数を計数する。ここで、動画像データ１４２に含まれるフレーム数をＮ、動画像データ１４２のフレームのうち口領域が検出されたフレームの数をＲ、判定しきい値をＫ（ただし、Ｋは０以上の整数）とする。このとき、判定部１１６は、（Ｎ−Ｒ）≦Ｋである場合に、動画像データ１４２は辞書情報２００の生成のために利用可能であると判定する。この場合、判定部１１６は、対応する単語画像ファイル１４０を基に、辞書情報２００の生成に利用するための辞書候補ファイル１５０を生成する。

図９（Ａ）は、「おはよう」と発音された単語期間における単語画像ファイル１４０を基に判定される例を示し、図９（Ｂ）は、「きょうは」と発音された単語区間における単語画像ファイル１４０を基に判定される例を示す。説明を簡単にするために、図９（Ａ）の場合の動画像データ１４２には４フレームが含まれ、図９（Ｂ）の場合の動画像データ１４２には５フレームが含まれるものとする。また、各フレームに太線で示した矩形領域を、口が検出された領域とする。

ここで、例として判定しきい値Ｋを“０”とする。図９（Ａ）の例では、全フレームから口領域が検出されたものとする。この場合、口領域が検出されなかったフレームの数（上記の“Ｎ−Ｒ”）は判定しきい値“０”以下であることから、判定部１１６は、対象の動画像データ１４２を、辞書情報２００の生成のために利用可能であると判定する。

この場合、判定部１１６は、単語テキスト１５１として「おはよう」が記述され、口領域の検出対象とした動画像データ１４２を動画像データ１５２として格納した辞書候補ファイル１５０を生成して、ＨＤＤ１０３などに保存する。また、生成された辞書候補ファイル１５０の口領域座標１５３には、動画像データ１５２における各フレームについて、検出された口領域の座標を示す情報が登録される。

辞書候補ファイル１５０に登録される動画像は、例えば、各フレームに口領域のみが映った動画像である。辞書候補ファイル１５０の口領域座標１５３は、例えば、辞書候補ファイル１５０から辞書情報２００に登録する動画像を生成する際に、各フレームから口領域を抽出するために利用される。また、判定部１１６により、辞書情報２００に登録する動画像が直接生成されてもよい。

一方、図９（Ｂ）の例では、１番目、２番目、４番目および５番目の各フレームからは口領域が検出されたものの、３番目のフレームからは口領域が検出されていない。この例では、口領域が検出されなかったフレームの数（上記の“Ｎ−Ｒ”）は判定しきい値“０”より大きいことから、判定部１１６は、対象の動画像データ１４２を、辞書情報２００の生成のために利用不可能であると判定する。この場合、辞書候補ファイル１５０は生成されない。

前述したように、辞書情報２００に登録される動画像は、対応する単語の発音の開始時点から終了時点までのできるだけ長い期間（最も好ましくは期間全体で）、発音した人の口領域が映っていることが望ましい。これにより、読唇処理の精度を高くすることができる。例えば、辞書情報２００の生成のために口領域を撮影した場合には、撮影された動画像には当然ながら口領域が確実に映っている。しかしながら、動画像収集部１１１によって収集された動画像から生成された単語画像ファイル１４０の動画像データ１４２においては、各フレームに口領域が映っているとは限らない。

上記の判定部１１６の処理により、単語が発音された区間の多くにおいて口領域が検出された動画像を選別して、選別された動画像を、辞書情報２００の生成のために利用するものとして保存することができる。これにより、生成される辞書情報２００を適正化し、その辞書情報２００を用いた読唇処理の精度を向上させることができる。そして、そのような辞書情報２００の動画像として使用するのに適する動画像を抽出する作業の効率を、高めることができる。

なお、判定しきい値Ｋは“０”であることが望ましい。一方、判定しきい値Ｋを“１”以上とした場合には、例えば、口領域が検出されなかったフレームを含む動画像を基に辞書候補ファイル１５０を生成する際に、口領域が検出されなかったフレームにも口領域が含まれるように補正が行われてもよい。補正の方法としては、例えば、口領域が検出されなかったフレームを、口領域が検出された、その直前または直後のフレームで置き換える方法などが考えられる。

次に、以上で説明した作業支援装置１００の処理を、フローチャートを用いて説明する。図１０は、作業支援装置の処理例を示すフローチャートである。
［ステップＳ１１］発話画像ファイル生成部１１２は、動画像収集部１１１によって収集された動画像から、人が言葉を発したシーンの区間（発話区間）を抽出する。発話画像ファイル生成部１１２は、抽出した発話区間の動画像を切り出して、発話画像ファイル１３０を生成する。発話画像ファイル１３０には、発話内容を示す発話内容テキスト１３１と、動画像データ１３２とが対応付けて格納されている。

［ステップＳ１２］単語分割部１１３は、生成された発話画像ファイル１３０の発話内容テキスト１３１を、形態素解析などを用いて、単語を単位として分割する。
［ステップＳ１３］単語区間抽出部１１４は、発話画像ファイル１３０の動画像データ１３２から、ステップＳ１２で分割されて得られた各単語が発音された区間（単語区間）を切り出して、単語画像ファイル１４０を生成する。単語画像ファイル１４０には、発音された単語を示す単語テキスト１４１と、動画像データ１４２とが対応付けて格納されている。

［ステップＳ１４］判定部１１６は、ステップＳ１３で生成された単語画像ファイル１４０のすべてについて、ステップＳ１５〜Ｓ１８の処理が実行済みかを判定する。すべての単語画像ファイル１４０について処理済みである場合には、処理が終了される。一方、処理済みでない単語画像ファイル１４０がある場合には、処理済みでない単語画像ファイル１４０の１つを処理対象としてステップＳ１５の処理が実行される。

［ステップＳ１５］口領域検出部１１５は、処理対象の単語画像ファイル１４０内の動画像データ１４２のすべてのフレームから、ステップＳ１６での口領域の検出処理が実行されたかを判定する。すべてのフレームからの検出処理が終了した場合には、ステップＳ１７の処理が実行される。一方、検出処理を行っていないフレームがある場合には、動画像データ１４２における次のフレームを検出処理の対象としてステップＳ１６の処理が実行される。

［ステップＳ１６］口領域検出部１１５は、探索対象のフレームから、画像処理によって口領域を検出し、検出結果をＲＡＭ１０２などに一時的に格納する。口領域が検出された場合、検出結果には、検出された口領域の座標情報が含まれる。一方、口領域が検出されなかった場合、検出結果には、例えば、口領域が検出されなかった旨が記述される。

［ステップＳ１７］判定部１１６は、処理対象の単語画像ファイル１４０の動画像データ１４２のフレームのうち、ステップＳ１６の処理によって口領域が検出されなかったフレームの数を計数する。判定部１１６は、口領域が検出されなかったフレームの数が所定の判定しきい値以下である場合には、ステップＳ１８の処理を実行する。一方、口領域が検出されなかったフレームの数が判定しきい値より大きい場合には、ステップＳ１８の処理がスキップされて、ステップＳ１４の処理が実行される。

［ステップＳ１８］判定部１１６は、処理対象の単語画像ファイル１４０を基に、辞書情報２００の生成に利用するための辞書候補ファイル１５０を生成し、ＨＤＤ１０３に保存する。

次に、上記の第２の実施の形態を基にしたいくつかの変形例について説明する。
＜変形例１：文字ごとのテンプレートを用いた口領域の検出処理例＞
図８では、１種類のテンプレートのみを用いた口領域の検出処理について説明した。しかしながら、口領域の形状は、発声する文字によって異なる。このため、文字ごとに適切なテンプレートを用いて口領域を検出することで、一致した場合の類似度の算出値が高くなり、その結果、口領域の判定精度を高めることができる。

図１１は、文字別に用意されたテンプレートを用いた口領域の探索処理の概要を示す図である。図１１に示すテンプレートデータベース（ＤＢ）１６０は、例えば、作業支援装置１００のＨＤＤ１０３に格納されている。テンプレートデータベース１６０には、文字（かな）ごとに、その文字が発音される際の口領域のテンプレートが用意されている。

口領域検出部１１５が検出の対象とする動画像データ１４２には、発話の内容を示す単語テキスト１４１が対応付けられている。このため、口領域検出部１１５は、文字別のテンプレートの中から、口領域の検出処理に用いるべきテンプレートを容易に特定することができる。図１１の例では、単語テキスト１４１には「おはよう」という単語が記述されている。この場合、口領域検出部１１５は、「お」「は」「よ」「う」にそれぞれ対応するテンプレート（図１１のテンプレート＃５，＃２６，＃３８，＃３）をテンプレートデータベース１６０から読み出し、これらのテンプレートを使用して口領域を検出する。

図１２は、テンプレートの使用切り替えタイミングの一例を示す図である。口領域検出部１１５は、テンプレートデータベース１６０から読み出した各テンプレートを、文字の出現順に使用して口領域の検出を行う。ただし、使用するテンプレートをどのタイミングで切り替えるかを決定する必要がある。

切り替えタイミングを決定する方法の一例としては、フレーム数を文字数で均等に分割し、分割されたフレームごとに１つのテンプレートを割り当てる方法がある。また、この方法を変形した例として、基本的には１つのテンプレートに同数のフレームを割り当てるものの、最後の文字だけは割り当てるフレームの数を他の文字より少なくする方法がある。この方法は、単語（または文節）における最後の文字が発音される期間が、それより前の各文字が発音される期間より短い場合があることを利用したものである。

図１２の例では、処理対象の動画像のフレームのうち、「お」「は」「よ」にそれぞれ対応するテンプレートが、それぞれ４つのフレームで使用されて口領域が検出される。しかし、最後の文字「う」に対応するテンプレートは、最後の１フレームでのみ使用される。このような方法により、発声される文字に応じたテンプレートを適切に使用して、口領域を検出することができる。

なお、例えば、単語に含まれる文字ごとに割り当てるフレーム数の、単語全体に対応するフレーム数に対する割合は、単語ごとに決められてもよい。
図１３は、補間によって得られたテンプレートを使用する例を示す図である。

ある文字を発声する状態から、それとは異なる次の文字を発声する状態に遷移する期間では、口領域の形状が前の文字に対応する形状から次の文字に対応する形状に変化する。このため、前の文字または次の文字のどちらに対応するテンプレートを用いたとしても、口領域を精度よく検出できない可能性がある。

そこで、口領域検出部１１５は、ある文字を発声する状態から、それとは異なる次の文字を発声する状態に遷移する期間では、前の文字に対応するテンプレートと次の文字に対応するテンプレートとから、補間によってテンプレートを生成し、生成したテンプレートを用いて口領域を検出してもよい。

図１３の例では、「お」「は」と連続して発音される際に使用されるテンプレートについて示している。図１３では、「お」と発音される期間と「は」と発音される期間との間の時刻（または所定期間）に対応するフレームについては、「お」に対応するテンプレート１６１と「は」に対応するテンプレート１６２とから補間によって生成された補間テンプレート１６３を使用して、口領域が検出される。これにより、口領域の検出精度を高めることができる。

また、テンプレート自体を補間する代わりに、類似度計算に用いる、テンプレートの特徴量を補間してもよい。以下、特徴量の例として特徴量ベクトルを用いた場合について説明する。

図１４は、特徴量ベクトルを用いた場合の補間処理例を示す図である。図１４の例では、口領域検出部１１５は、発音される文字が切り替わる境界の直前および直後の２フレームから口領域を検出する際に、切り替え前後の各文字に対応するテンプレートの特徴量ベクトルを補間することで得られた補間特徴量ベクトルを利用する。

例えば、図１４に示すように、フレーム番号ｆ＝０，１に対応するフレームは、「お」が発音される期間に含まれ、フレーム番号ｆ＝２，３に対応するフレームは、「は」が発音される期間に含まれるものとする。この場合、フレーム番号ｆ＝１，２に対応するフレームから口領域を検出する際に、「お」に対応するテンプレートの特徴量ベクトルＸ＿ａと、「は」に対応するテンプレートの特徴量ベクトルＸ＿ｂとを基に補間によって得られた補間特徴量ベクトルが用いられる。

補間特徴量ベクトルの計算には、補正係数ｗ＿ａ，ｗ＿ｂが用いられる。補正係数ｗ＿ａは“−ｆ／ｕ＋１”で算出され、補正係数ｗ＿ｂは“ｆ／ｕ”で算出される。ただし、変数ｕは、補間特徴量ベクトルが用いられるフレーム数に、その直前および直後のフレーム数“２”を加算した値であり、図１４の例では“３”である。

このような計算により、フレームの位置ごとに補正係数ｗ＿ａ，ｗ＿ｂが求められる。そして、利用される補間特徴量ベクトルは、“ｗ＿ａ×Ｘ＿ａ＋ｗ＿ｂ×Ｘ＿ｂ”によって算出される。フレーム番号ｆ＝１，２に対応する各フレームについて、このように算出された補間特徴量ベクトルと、フレームの特徴量ベクトルとを用いて類似度が計算されることで、口領域の検出精度を向上させることができる。

なお、以上で説明した変形例１では、文字（かな）ごとに個別のテンプレートが用意されるものとしたが、例えば、発音したときの口領域の形状が似ている文字については、同一のテンプレートが用意されてもよい。また、例えば、文字（かな）ごとではなく、母音ごとにテンプレートが用意されてもよい。

＜変形例２：口領域が複数検出された場合の処理例（１）＞
図１５は、口領域が複数検出された場合の処理例を示す図である。口領域検出部１１５は、例えば、同一のフレームから口領域が複数検出された場合には、算出された類似度の値が最大である検出領域を、口領域と判定する。これにより、口領域の検出精度を向上させることができる。

この方法は、特に、図１１に示したように、発音された文字に対応するテンプレートを用いて口領域を検出する場合に好適である。それは、フレームの中で、対応する文字を発音したときの口領域の形状に類似する領域ほど、その文字が発音された可能性が高いからである。

図１５の例では、同一のフレームから、類似度が所定値以上となった２つの口領域が検出され、一方の領域について算出された類似度が“０．８”、他方の領域について算出された類似度が“０．９”であったとする。ただし、類似度が“０．９”の検出領域の大きさが、類似度が“０．８”の検出領域より小さかったものとする。

この場合、口領域検出部１１５は、類似度が大きい検出領域を口領域と判定する。このように、口領域が複数検出されたとき、類似度が最大の検出領域の大きさが、他の少なくとも１つの検出領域より小さい場合であっても、類似度が最大の検出領域が口領域と判定される。

＜変形例３：口領域が複数検出された場合の処理例（２）＞
図１６は、口領域が複数検出された場合の他の処理例を示す図である。この図１６の処理例は、図１５の処理例とは異なり、判定部１１６は、単語画像ファイル１４０の動画像データ１４２のフレームの中から、口領域が複数検出されたフレームが１つでもあった場合には、その動画像データ１４２は辞書情報２００の生成に適さないと判定して、その動画像データ１４２に基づく辞書候補ファイル１５０を保存しないようにする。

同一のフレームに複数の人物の口が映っている場合、それらのうちのどの人物が目的とする文字を発音しているかを特定することが難しい場合がある。このため、複数の人物の口が映ったフレームを含む動画像データ１４２については、辞書情報２００の生成のために使用しないようにすることで、辞書情報２００の品質を向上させることができる。

なお、判定部１１６は、例えば、動画像データ１４２のフレームの中から、口領域が複数検出されたフレームの数が、２以上の所定の判定しきい値以上である場合に、辞書情報２００の生成に適さないと判定してもよい。この場合、判定部１１６は、口領域が複数検出されたフレームの数が判定しきい値より小さい場合には、複数の口領域が検出されたフレームについては、図１５に示したように類似度が最大の検出領域を口領域と判定すればよい。

＜変形例４：口領域の大きさに応じた検出処理例＞
図１７は、口領域の大きさに応じた検出処理例を示す図である。フレームから口領域が検出されたとしても、検出された口領域の大きさが小さ過ぎる場合には、辞書情報２００の生成のために利用する画像としては不向きである可能性がある。例えば、検出された口領域が小さ過ぎる場合には、フレーム間での口の形状の変化がわかりにくくなるからである。

そこで、口領域検出部１１５は、検出された口領域のフレームに対する面積比が所定の判定しきい値以下である場合には、口領域が検出されなかったと判定する。これにより、生成される辞書情報２００の品質を向上させることができる。なお、面積比は、“口領域の面積（画素数）／フレームの面積（画素数）”によって算出される。

図１７の例では、１番目から４番目のフレームのいずれかも口領域が検出されたものとする。そして、各フレームで検出された口領域の面積比は、１番目から順に“０．０５”，“０．０４”，“０．０３”，“０．０１”であったとする。ここで、判定しきい値を“０．０２”とすると、口領域検出部１１５は、１番目から３番目の各フレームからは口領域が検出されたと判定するが、４番目のフレームからは口領域が検出されなかったと判定する。この場合、判定部１１６は、該当動画像のフレームのうち口領域が検出されなかったフレームの数を“１”と計数する。

なお、口領域検出部１１５は、面積比の代わりに、検出された口領域の面積（画素数）自体に基づいて、口領域が検出されたか否かを判定してもよい。
なお、上記の各実施の形態に示した装置（画像判別装置１、作業支援装置１００）の処理機能は、コンピュータによって実現することができる。その場合、各装置が有すべき機能の処理内容を記述したプログラムが提供され、そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記憶装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記憶装置には、ハードディスク装置（ＨＤＤ）、フレキシブルディスク（ＦＤ）、磁気テープなどがある。光ディスクには、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ、ＣＤ−ＲＯＭ（Compact Disc-Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（Rewritable）などがある。光磁気記録媒体には、ＭＯ（Magneto-Optical disk）などがある。

プログラムを流通させる場合には、例えば、そのプログラムが記録されたＤＶＤ、ＣＤ−ＲＯＭなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。

プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムまたはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、ネットワークを介して接続されたサーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムに従った処理を実行することもできる。

１画像判別装置
２検出部
３判別部
４入力動画像

Claims

文字列が発音された期間のシーンが映った入力動画像の各フレームから口の領域を検出する検出部と、
前記入力動画像のフレームのうち、口の領域が検出されなかったフレームの数が所定数以下である場合に、前記入力動画像を、前記文字列が発音される際の口の形状を示す辞書情報を生成するための動画像と判別する判別部と、
を有することを特徴とする画像判別装置。
前記判別部は、
発話が行われたシーンを含む動画像と、当該動画像に対応付けられた、発話内容を示す文字情報とを参照して、前記文字情報を単語または文節単位の文字列に分割し、
当該動画像から、前記分割された文字列が発音された発音区間を前記分割された文字列ごとに抽出し、
前記発音区間に対応する動画像のそれぞれの中から、前記検出部によって口の領域が検出されなかったフレームの数が前記所定数以下である発音区間に対応する動画像を、前記辞書情報を生成するための動画像として選別する、
ことを特徴とする請求項１記載の画像判別装置。
前記発音区間を前記分割された文字列ごとに抽出する処理は、前記発音区間に対応する動画像と同期する音声に基づく音声認識処理によって行われることを特徴とする請求項２記載の画像判別装置。
前記検出部は、前記動画像における各フレームについて、前記文字列を構成する文字の中のどの文字が発音された画像かを判別し、複数の文字それぞれが発音されたときの口の形状パターンを含む複数のテンプレートの中から、発音された文字に対応するテンプレートをフレームごとに選択し、選択したテンプレートを用いたテンプレートマッチングにより口の領域を検出することを特徴とする請求項１〜３のいずれか１項に記載の画像判別装置。
前記検出部は、テンプレートマッチングにより口の領域を検出し、１つのフレームから複数の口の領域が検出された場合には、検出された領域のうち、テンプレートとの類似度が最大の領域を、口の領域と判定することを特徴とする請求項１〜３のいずれか１項に記載の画像判別装置。
前記判別部は、前記入力動画像のフレームのうち、口の領域が複数検出されたフレームの数が所定のしきい値以上である場合には、前記入力動画像を、前記辞書情報を生成するための動画像でないと判別することを特徴とする請求項１〜５のいずれか１項に記載の画像判別装置。
前記検出部は、フレームから口の領域が検出されたとき、当該フレームの大きさに対する、検出された口の領域の大きさの比率が所定の比率以下である場合には、当該フレームから口の領域が検出されなかったと判定することを特徴とする請求項１〜６のいずれか１項に記載の画像判別装置。
コンピュータが、
文字列が発音された期間のシーンが映った入力動画像の各フレームから口の領域を検出し、
前記入力動画像のフレームのうち、口の領域が検出されなかったフレームの数が所定数以下である場合に、前記入力動画像を、前記文字列が発音される際の口の形状を示す辞書情報を生成するための動画像と判別する、
ことを特徴とする画像判別方法。
コンピュータに、
文字列が発音された期間のシーンが映った入力動画像の各フレームから口の領域を検出し、
前記入力動画像のフレームのうち、口の領域が検出されなかったフレームの数が所定数以下である場合に、前記入力動画像を、前記文字列が発音される際の口の形状を示す辞書情報を生成するための動画像と判別する、
処理を実行させることを特徴とする画像判別プログラム。