JP2022035229A

JP2022035229A - 発話区間抽出方法、発話区間抽出プログラム、及び、発話区間抽出装置

Info

Publication number: JP2022035229A
Application number: JP2020139401A
Authority: JP
Inventors: 陽一景山; Yoichi Kageyama; 悦郎中村; Etsuro Nakamura; 礎成白須; Motonari Shirasu
Original assignee: NIPPON BUSINESS SYST; Akita University NUC; Japan Business Systems Inc
Current assignee: NIPPON BUSINESS SYST; Akita University NUC; Japan Business Systems Inc
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2022-03-04

Abstract

【課題】簡易な設備であるとともに、複数の対象者から発話者の発話区間を精度よく抽出することができる発話区間抽出方法を提供する。【解決手段】映像及び音声データから発話区間を抽出する方法であって、取得した映像から対象者の口内領域の縦幅を時系列に複数得る工程と、取得した音声データに基づいて音声特徴量を時系列に複数得る工程と、発話区間を抽出する工程と、を有し、発話区間を抽出する工程は、口内領域の縦幅から口内領域の縦幅の判定差分を時系列に複数得て、口内領域の縦幅の判定差分から発話区間を抽出する工程と、音声特徴量から音声特徴量の判定差分を時系列に複数得て、音声特徴量の判定差分から発話区間を抽出する工程と、を備え、口内領域の縦幅から抽出した発話区間であり、かつ、音声特徴量から抽出した発話区間を含む区間を発話区間と判別する。【選択図】図３

Description

特許法第３０条第２項適用申請有り１．刊行物に発表発行者名：２０１９年度電気関係学会東北支部連合大会実行委員会刊行物名：２０１９年度電気関係学会東北支部連合大会講演論文集、２Ｆ０７発行年月日：令和１年８月２２日２．集会において発表集会名：２０１９年度電気関係学会東北支部連合大会開催日：令和１年８月２３日３．ウェブサイトにおいて発表掲載アドレス：ｈｔｔｐｓ：／／ｓｉｔｅｓ．ｇｏｏｇｌｅ．ｃｏｍ／ｖｉｅｗ／ｍｉｒｕ２０２０／ｅｘｔｅｎｄｅｄ－ａｂｓｔｒａｃｔｓ上記掲載アドレスにてダウンロードされた第２３回画像の認識・理解シンポジウムＭＩＲＵ２０２０ＥｘｔｅｎｄｅｄＡｂｓｔｒａｃｔｓ予稿集掲載年月日：令和２年７月２８日４．集会において発表集会名：第２３回画像の認識・理解シンポジウムＭＩＲＵ２０２０開催日：令和２年８月４日

本発明は、発話区間抽出方法、発話区間抽出プログラム、及び、発話区間抽出装置に関する。

近年、働き方改革の実現に向けて業務の効率化や労働環境の見直しが行われている。その中の１つとして職場おける労働の改善策として業務の効率化や会議の効率化が挙げられる。
会議における議事録は、議論された内容や取り決めを記録し、決定事項および経緯の共有を目的に行われ、作成される議事録は、その後の会議の質の向上や他の業務の効率化に寄与する。そして、音声認識の技術を応用して構築された議事録自動作成システムによれば、議事録作成におけるヒューマンエラーの低減や議事録作成に要する人員や時間を削減することが可能である。さらにこのような議事録自動作成システムにおいて発言ごとに発話者を自動判別する技術や音声認識精度を向上させる技術は、議事録作成の工数削減に貢献し、会議および業務の効率化に寄与する。

特許文献１は、会議における画像情報および音声情報を取得し、配信先に適切な情報量の議事録を配信することができる議事録配信システムを開示している。会議会場の映像や音声を取得し、録音開示時刻や、撮影開始時刻などを記録するデータベースを備えており、自動生成された議事録を会議関係者へメールで送信可能である。しかしながら、音声に基づいて発話区間を推定する機能が搭載されているが、発話者の判別を目的とした機能ではなく、発話開始と終了の時刻を決定するための機能である。また、顔画像における口唇の動きを用いた発話区間の抽出に関して検討されておらず、かつ発話者の判別に関する機能は搭載されていない。

また、口唇の動きを用いて発話区間を抽出した場合、対象者が発声していない期間が検出された音声期間に含まれてしまい、音声期間の検出を適切に行うことができない場合がある。特許文献２は、口唇の動きおよび音声情報を用いた、発声期間と発声直前呼吸期間の検出を開示している。しかしながら、対象者とロボット間における1対1の対話を想定した手法であるため、複数人が参加する会議などの環境に対して検討されておらず、音声認識精度を向上させることを目的としている。

特許文献３は、処理性能の低いハードウェア上で用いられる場合にも、音声認識結果を得るまでの遅延時間を短縮し、かつ認識処理性能の低下を抑制する音声認識結果および音声認識方法を開示している。口唇の形状をカメラで取得し、発話に伴う口唇形状の変化があらかじめ設定された発話時の口唇形状パターンと一致するか否かにより発話しているか否かの判定を行う。しかしながら、音声認識を行う際に、ボタンを押すことで音声および画像情報の取得が行われるため、会議においてこのような音声取得方法を用いることは困難であると考えられる。また、タブレット端末等の使用者と機材間の距離が近い場合における手法であると考えるため、複数の人物が存在し、かつ人物とカメラ間の距離が離れている会議においての使用は困難であると考えられる。

特許文献４は、単純な構成で各参加者の発話状態を正確に認識する手法を開示している。具体的には、はじめに、魚眼レンズを用いた広角撮影装置を用いて、会議の各参加者の顔を含む歪曲円形画像を撮影する。次に、撮影した画像の唇近傍領域を設定し、唇近傍領域内の輝度もしくは色を示す特徴量を用いて、発話状態を推定する。最後に、各人物画像とともに発話時間をディスプレイ装置上に提示する。しかしながら、音声情報との併用は行われていないため、音声が生じていない状態において会議参加者の口唇が動いた場合、発話が行われたと認識してしまう可能性がある。

特許文献５は、音声における雑音を低減し、音声認識精度を向上させることを目的とした手法を開示している。具体的には、ＭＦＣＣに基づいて算出された特徴量および口唇の動きを用いて、非音声区間における誤認識を抑制可能な音声認識装置を提供している。しかしながら、音声認識の精度を向上させることを目的としている手法であるため、会議における環境下のように、複数名の発話者が同時にカメラ内に存在している場合を考慮していない。

特開２０２０－２７３５１号公報特開２０２０－３７８３号公報国際公開２０１６０－９８２２８号公報特開２０１５－０１９１６２号公報特開２０１１－５９１８６号公報

本発明は、かかる点に鑑み、簡易な設備であるとともに、複数の対象者から発話者の発話区間を精度よく抽出することができる発話区間抽出方法を提供することを課題とする。またそのためのプログラム、及び装置を提供する。

第1の本発明は、映像及び音声データから発話区間を抽出する方法であって、取得した映像から対象者の口内領域の縦幅を時系列に複数得る工程と、取得した音声データに基づいて音声特徴量を時系列に複数得る工程と、発話区間を抽出する工程と、を有し、発話区間を抽出する工程は、口内領域の縦幅から口内領域の縦幅の判定差分を時系列に複数得て、口内領域の縦幅の判定差分から発話区間を抽出する工程と、音声特徴量から音声特徴量の判定差分を時系列に複数得て、音声特徴量の判定差分から発話区間を抽出する工程と、を備え、口内領域の縦幅から抽出した発話区間であり、かつ、音声特徴量から抽出した発話区間を含む区間を発話区間と判別する、発話区間抽出方法である。

第1の本発明における音声特徴量の判定差分から発話区間を抽出する工程において、音声特徴量の判定差分は０．００以上が好ましい。

第1の本発明における口内領域の縦幅の判定差分から発話区間を抽出する工程において、口内領域の縦幅の判定差分は閾値Ａよりも大きく、閾値Ａは、映像の空間分解能Ｒｓを用いた以下の式（１）で表されることが好ましい。

第1の本発明において、音声特徴量の判定差分を時系列に複数得るための、複数の音声特徴量に対してノイズ低減処理をする工程を備えることが好ましい。

第1の本発明において、口内領域の縦幅の判定差分を時系列に複数得るための、複数の口内領域の縦幅に対してノイズ低減処理をする工程を備えることが好ましい。

第1の本発明における口内領域の縦幅の判定差分から発話区間を抽出する工程において無発話区間に分類されたフレームから発話区間のフレームを再抽出する工程を備えることが好ましい。

第２の本発明は、映像及び音声データから発話区間を抽出するプログラムであって、取得した映像から対象者の口内領域の縦幅を時系列に複数得るステップと、取得した音声データに基づいて音声特徴量を時系列に複数得るステップと、発話区間を抽出するステップと、を有し、発話区間を抽出するステップは、口内領域の縦幅から口内領域の縦幅の判定差分を時系列に複数得て、口内領域の縦幅の判定差分から発話区間を抽出するステップと、音声特徴量から音声特徴量の判定差分を時系列に複数得て、音声特徴量の判定差分から発話区間を抽出するステップと、を備え、口内領域の縦幅から抽出した発話区間であり、かつ、音声特徴量から抽出した発話区間を含む区間を発話区間と判別する、発話区間抽出プログラムである。

第２の本発明の発話区間抽出プログラムにおいて、音声特徴量の判定差分から発話区間を抽出するステップにおいて、音声特徴量の判定差分は０．００以上が好ましい。

第２の本発明の発話区間抽出プログラムの口内領域の縦幅の判定差分から発話区間を抽出するステップにおいて、口内領域の縦幅の判定差分は閾値Ａよりも大きく、閾値Ａは、映像の空間分解能Ｒｓを用いた式（１）で表されることが好ましい。

第２の本発明の発話区間抽出プログラムにおいて、音声特徴量の判定差分を時系列に複数得るための、複数の音声特徴量に対してノイズ低減処理をするステップを備えることが好ましい。

第２の本発明の発話区間抽出プログラムにおいて、口内領域の縦幅の判定差分を時系列に複数得るための、複数の口内領域の縦幅に対してノイズ低減処理をするステップを備えることが好ましい。

第２の本発明の発話区間抽出プログラムの口内領域の縦幅の判定差分から発話区間を抽出するステップにおいて誤って無発話区間に分類された発話区間のフレームを再抽出するステップを備えることが好ましい。

第３の本発明は、映像及び音声データから発話区間を抽出する装置であって、映像を取得するカメラと、音声データを取得するマイクと、上記発話区間抽出プログラムが記憶された記憶手段、及び、発区間抽出プログラムに基づいて演算を行う演算手段と、を有し、演算手段は、カメラで取得した映像、及び、マイクで取得した音声データを取得し、取得した映像及び音声データを用いて発話区間抽出プログラムによる演算が行われる、発話区間抽出装置である。

本発明によれば、簡易な設備であるとともに、複数の対象者から発話者の発話区間を精度よく抽出することができる。

図１は、システムにおける発話者出力方法Ｓ１の流れを示す図である。図２（ａ）は映像の一部を模式的に例示した図、図２（ｂ）は音声データの一部を例示した図である。図３は、発話区間抽出工程Ｓ２０の流れを示す図である。図４は、特徴点の配置を説明する図である。図５は、図４のうち口唇部分を拡大し、口内領域の縦幅を説明する図である。図６（ａ）は第一平滑化処理前、図６（ｂ）は第一平滑化処理後の口内領域の縦幅の時系列変化を示す一例である。図７（ａ）は平滑化された口内領域の縦幅の例、図７（ｂ）は図７（ａ）から口内領域の縦幅の判定差分ｄｎを算出した結果を示す一例である。図８は、第一発話区間再抽出処理工程における対象フレームを説明する図である。図９（ａ）、図９（ｂ）は音声データを説明する図である。図１０は、音声データからＭＦＣＣを求めたことを説明する図である。図１１（ａ）は第二平滑化処理前、図１１（ｂ）は第二平滑化処理後の音声特徴量の時系列変化を示す一例である。図１２（ａ）は第二平滑化処理後の音声特徴量の例、図１２（ｂ）は音声特徴量の第一判定差分ｄｍの算出結果の一例、図１２（ｃ）は音声特徴量の第二判定差分Ｄｍの算出結果の一例を示す図である。図１３（ａ）は口内領域の縦幅を用いて抽出された発話区間例、図１３（ｂ）は音声特徴量を用いて抽出された発話区間例である。図１４は、発話区間抽出装置の構成を説明する図である。図１５は、発話開始フレームと発話終了フレームを説明する図である。図１６は、発話区間抽出結果例を示す図である。図１７は、音声特徴量に関するパラメータＳおよびＴの組み合わせにおけるＦ_ａｖｅの算出結果とＦ_ａｖｅの値による分類結果を示す図である。図１８は、空間分解能に関するパラメータＷおよびＡの組み合わせにおけるＦ_ａｖｅの算出結果とＦ_ａｖｅの値による分類結果を示す図である。

｛発話者出力方法｝
図１は、１つの形態にかかるシステムにおける発話者出力方法Ｓ１の流れを示す図である。図１に示されるように、発話者出力方法Ｓ１は、映像・音声データ取得工程Ｓ１０、発話区間抽出工程Ｓ２０、発話人数判別工程Ｓ３０、発話者判別工程Ｓ４０、発話者出力工程Ｓ５０を含んでいる。本開示の発話区間抽出工程Ｓ２０により、複数の対象者から発話者の発話区間を精度よく抽出することができる。

［映像・音声データ取得工程Ｓ１０］
映像・音声データ取得工程Ｓ１０では、発話区間抽出対象者の映像及び音声のデータを取得する。映像の取得はいわゆるカメラ、音声データの取得はマイクにより行うことができるが、本形態によれば、複数の発話区間抽出対象者の映像を同時に撮影できるカメラ（例えば全方位カメラ、広角カメラ）及び、発話区間抽出対象者の音声を取得できるマイクを用いて、後述する工程のデータ処理を行うことにより、どの人物において発話区間が生じているかを抽出することができる。また、絞り込んだ人物の画像情報を発話者判別などの処理工程に使用することも可能である。映像および音声データの取得に際して、複数台のビデオカメラやマイクを用いてもよいが、発話区間抽出対象者全員の情報を取得することができれば、１つのビデオカメラ、１つのマイクの使用でもよく、設備を最小限に抑えることができる。
また、カメラとマイクとは別機器であっても一体であってもよい。従って、カメラに備わっているマイクを利用することもできる。

映像・音声データ取得工程Ｓ１０により、例えば図２（ａ）に模式的に示したように発話区間抽出対象者の顔部分の映像を取得することができる。また図２（ｂ）に模式的に示したように、横軸を時間とした波形として音声データを取得することができる。

［発話区間抽出工程Ｓ２０］
発話区間抽出工程Ｓ２０では、映像・音声データ取得工程Ｓ１０で取得した映像および音声データを用いて発話区間を抽出する。図３に、発話区間抽出工程Ｓ２０の流れを示した。
図３に示されるように、発話区間抽出工程Ｓ２０は、映像データを処理する工程である、顔領域の検出処理工程Ｓ２１、口内領域の縦幅抽出処理工程Ｓ２２、第一平滑化処理工程Ｓ２３、第一発話区間抽出処理工程Ｓ２４、および、第一発話区間再抽出処理工程Ｓ２５と、音声データを処理する工程である、音声特徴量の取得工程Ｓ２６、第二平滑化処理工程Ｓ２７、および、第二発話区間抽出処理工程Ｓ２８と、発話区間判別処理工程Ｓ２９とを有している。以下、各工程について説明する。

＜顔領域の検出処理工程Ｓ２１＞
顔領域の検出処理工程Ｓ２１では、映像・音声データ取得工程Ｓ１０で取得した映像データに対して、発話区間抽出対象者の顔部分に特徴点を配置する。図４に例を示した。図４の例では、図２（ａ）に示した映像の顔部分に「●」で示した特徴点Ａが配置されている（見易さのため、符号Ａは一部の特徴点のみに付し、他は省略した。）。本形態では顔の下半分の輪郭（頬から顎）、眉毛、目、鼻（鼻梁、下端部）、及び口唇（上下の唇）に対してそれぞれの輪郭に沿うように複数の特徴点Ａが配置されている。
特徴点の配置方法については特に限定されることはないが、隣接する画素の輝度差を利用し、所定の閾値以上の輝度差を有する位置を各部の輪郭と判断することができる。その他、市販や公開されているソフトウエアを用いてもよく、これには例えばＤｌｉｂが挙げられる。

本形態では特徴点として後述するように口内領域の縦幅を時系列に把握するため、特徴点Ａは少なくともこれらの把握に必要な位置及び数で配置されていればよい。従って本形態では、少なくとも口唇部に特徴点Ａが配置されている。
ただし、その他の理由によりこれ以外に特徴点Ａが配置されてもよい。例えば、顔の輪郭に沿った特徴点Ａを用いて判別対象者の顔の位置や大きさを得たり、顔以外の情報を削除する処理を行ったりしてもよい。

なお、このような特徴点Ａの配置は映像における画像ごとに行われる。すなわち、映像を構成するための時系列的に連続する複数の画像のそれぞれについて特徴点Ａが配置される。図４はある１つの画像について説明した例である。
時系列的に連続する複数の画像（フレーム）を処理する際に、例えば、１フレーム目の画像に対して顔検出処理を施し、その顔検出結果をもとに、顔周辺の領域をトリミングし、２フレーム以降は前フレームにおける顔周辺領域を対象に顔検出を実施して、処理の効率化を図ってもよい。

＜口内領域の縦幅抽出処理工程Ｓ２２＞
口内領域の縦幅抽出処理工程Ｓ２２では、顔領域の検出処理工程Ｓ２１で配置された特徴点Ａから、口内領域の縦幅を抽出し計算する。図５に、図４のうち口唇部分に注目して拡大した図を表した。
ここで「口内領域の縦幅」とは、口唇部分のうち口内領域上端の特徴点Ａ_１と口内領域下端の特徴点Ａ_２との縦方向の距離Ｂを表す。口内領域の縦幅は、発話区間抽出対象者の口述によって時系列的に変化することが把握できればよく、時系列で連続する複数の画像のそれぞれについて抽出される。図５に示した例では、距離Ｂが最大になりやすい口内領域正中線に最も近い特徴点を選択した。これにより、口内領域の縦幅の時系列的な変化が明確になりやすくなる。

本工程で抽出する距離Ｂは、座標、長さ、画素数等、どのような単位で表現してもよい。本形態の口内領域の縦幅の距離Ｂは、図６（ａ）に示したように、画素数により表現している。

人は、無発話時において、口を閉じている傾向がある。よって、無発話時に口内領域の縦幅は、０画素に近い値、かつ、ほぼ一定の値を保つ傾向がある。さらに、無発話時に口を閉じている傾向は、人物によらずあらゆる発話区間抽出対象者において認められる。また、口を閉じている状態において、口内領域の縦幅は、カメラおよび発話区間抽出対象者間の距離の変動や発話区間抽出対象者の顔の角度に起因して変化しにくい数値である。
本発明は、口内領域の縦幅の時系列変化に着目することで、会議のような環境下においても、顔の動き、人物ごとの口唇の動きの差異、および、カメラと発話区間抽出対象者との距離変化による影響を低減し、発話区間を抽出可能にする。

＜第一平滑化処理工程Ｓ２３＞
第一平滑化処理工程Ｓ２３では、口内領域の縦幅抽出処理工程Ｓ２２で得られた口内領域の縦幅の時系列変化に対して平滑化処理をする。図６（ａ）は第一平滑化処理工程Ｓ２３前、図６（ｂ）は第一平滑化処理工程Ｓ２３後の口内領域の縦幅の時系列変化を示す一例である。第一平滑化処理工程Ｓ２３により、照明等の微細な変化に伴い口内領域縦幅の時系列変化にて生じたノイズによる影響等を低減することができる。
本形態では、本工程において平滑化処理を用いているが、本工程では、口内領域縦幅の時系列変化にて生じたノイズによる影響等を低減することができる公知のノイズ低減処理工程を制限なく用いることができる。

第一平滑化処理工程Ｓ２３における平滑化処理手順については特に限定されることはないが、例えば、任意のｎフレーム目から連続したＰフレーム（ｎフレーム目～ｎ＋Ｐフレーム目）における口内領域の縦幅の平均値を算出し、その平均値をｎフレーム目の口内領域の縦幅に設定する方法が挙げられる。ここで、Ｐは１以上の整数であればよく、本例では、上記Ｐを１０フレームとしたが、後述のとおり、高い発話区間抽出精度を得るために、Ｐは５以上１５以下であることが好ましい。

＜第一発話区間抽出処理工程Ｓ２４＞
第一発話区間抽出処理工程Ｓ２４では、第一平滑化処理工程Ｓ２３を施した口内領域の縦幅の時系列変化を対象として発話区間を抽出する。図７（ａ）は平滑化された口内領域の縦幅の例、図７（ｂ）は図７（ａ）から口内領域の縦幅の判定差分ｄｎを算出した結果を示す一例である。「口内領域の縦幅の判定差分」とは、時系列的に連続する複数のフレームの範囲において、口内領域の縦幅の最大値と最小値とを取得し、その最大値と最小値との差を算出した結果であり、発話区間内のフレームであるか否かの抽出の指標になる。

より具体的には、任意のｎフレーム目およびその前後Ｑフレーム（ｎ－Ｑフレーム目～ｎ＋Ｑフレーム目の合計２×Ｑ＋１フレーム分）から口内領域の縦幅の最大値および最小値を取得し、その最大値と最小値との差である口内領域の縦幅の判定差分ｄｎを算出し、ｎフレーム目の値として設定する。口内領域の縦幅の判定差分の算出は、時系列的に連続する複数フレームに対して行う。ここで、Ｑは１以上の整数であればよく、本例では、上記Ｑを１５フレームとしたが、後述のとおり、高い発話区間抽出精度を得るために、Ｑは１０以上３０以下であることが好ましい。

例えば、任意のｎフレーム目およびその前後Ｑフレームにおいて、無発話区間のフレームが連続していれば、口内領域の縦幅の最大値および最小値はともに０画素に近い値になることから、口内領域の縦幅の判定差分ｄｎは０に近い値となる。また、任意のｎフレーム目およびその前後Ｑフレームにおいて、発話区間のフレームが存在すれば、無発話区間と比較して発話区間では口内領域の縦幅が大きくなることから、口内領域の縦幅の判定差分ｄｎは無発話区間より大きい値になる。
口内領域の縦幅の判定差分ｄｎがある所定の閾値Ａより大きければ発話区間のフレームに分類される。映像データの画素数、映像内での判別対象者の口唇の全画像における割合、広角カメラの歪み等によって変化するが、例えば、３８４０×２１６０画素で、１画素の空間分解能が１ｍｍ程度（口唇の縦幅が約２０ｍｍ、同じ領域が画像上では約２０画素で表示されていることから算出）の映像データを得た図７の場合において、閾値Ａを１．５とすることにより、発話区間の抽出ができる。
閾値Ａは、前記映像の空間分解能Ｒｓを用いた式（１）を満たす値であることが好ましい。口内領域の縦幅の判定差分ｄｎが閾値Ａより大きければ、高抽出精度で、発話区間のフレームに分類される。

＜第一発話区間再抽出処理工程Ｓ２５＞
第一発話区間再抽出処理工程Ｓ２５では、第一発話区間抽出処理工程Ｓ２４において誤って無発話区間に分類された発話区間のフレームを再抽出する。図８は口内領域の縦幅の判定差分ｄｎの算出した結果を示す一例であるが、図８において「〇」で囲まれたフレームは、発話区間のフレームでありながら、誤って無発話区間に分類されたフレームを表す。

本形態では、発話区間のフレームが誤って無発話区間に分類されることを防ぐため、無発話区間であると判定された任意のｎフレーム目以降のＲフレーム以内（ｎフレーム目～ｎ＋Ｒフレーム目）に発話区間であると判定されたフレームが存在する場合には、ｎフレームを発話区間内のフレームとしてもよい。ここで、Ｒは１以上の整数であればよく、本例では、上記Ｒを３０フレームとしたが、後述のとおり、高い発話区間抽出精度を得るために、Ｒは５以上５０以下であることが好ましい。
誤って無発話区間に分類された発話区間のフレームがない場合には、第一発話区間再抽出処理工程Ｓ２５は、行われなくてもよい。

＜音声の特徴量の取得工程Ｓ２６＞
音声の特徴量の取得工程Ｓ２６では、映像・音声データ取得工程Ｓ１０で得た音声データ（例えば図２（ｂ））から音声特徴量を計算して得る。これにより複雑な多くの情報を含む音声データから発話区間抽出に必要な音声データを抽出し、精度を保ちつつデータの取り扱いをし易くすることができる。

音声特徴量は、音声データから発話区間抽出に必要な音声データを抽出し、精度を保ちつつデータの取り扱いをし易くすることができれば特に限定されることはないが、その中でもメル周波数ケプストラム係数（Ｍｅｌ－ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ、ＭＦＣＣ）を用いることが好ましい。そのうち０次元目を用いることがさらに好ましい。これは、音声認識の特徴量に有用な低周波成分の特徴を有していること、及び、低次元（０次元目）成分は声道の音響特性や口腔の形状に起因して変化することによる。

より具体的な例として次のように音声特徴量を得る。図９、図１０に説明のための図を示した。
初めに図９（ａ）に示した映像・音声データ取得工程Ｓ１０で得た音声データから所定の時間長さＤの部分（部分Ｅ_１）を図９（ｂ）のように抽出する。Ｄの大きさは特に限定されることはないが本例は２０ｍｓである。
次にこの部分Ｅ_１の音声データについてＭＦＣＣを求め図１０のようなＭＦＣＣデータを得る。ＭＦＣＣの求め方は公知の通りであるが、例えば、「河原達也編著、音声認識システム改定２版、オーム社、２０１６」に記載の内容を挙げることができる。
例えば次のように算出する。はじめに音声データ（音声波形）をフーリエ変換し、周波数成分を取得し、この周波数成分を用いてパワースペクトル（各周波数成分における音の大きさ）を算出する。次に、このパワースペクトルに対してメルフィルタバンクを掛ける。人間の聴覚は高周波になるにつれて分解能が低くなる特徴を有しているため、メルフィルタバンクを掛けることで、人間の聴覚特性に応じた特徴量を抽出することが可能となる。そして、ここからケプストラム特徴量を算出し、声紋波の高調波成分(人物の違いによって変化する特徴)と声道による包絡成分（発話内容の違いによって変化する特徴）を分離する。ケプストラム特徴量における低次元成分（０次元目～１４次元目）が、主に音声認識に利用されるが、上記したように本形態では０次元目を用いることが好ましい。
このようにして抽出されたケプストラム特徴量をＭＦＣＣと呼び、音声特徴量とする。

そのあと、図９（ａ）に示したように部分Ｅ_１に対して時間ｄだけ遅らせた部分Ｅ_２（時間長さＤ）についても同様に音声特徴量を得る。これを順次繰り返すことで時系列的に複数の音声特徴量を得る。なお、この遅らせる時間ｄの大きさは特に限定されず、Ｄ＞ｄ、Ｄ＝ｄ、Ｄ＜ｄのいずれあってもよいが、精度を高める観点からＤ＞ｄであることが好ましい。本例では上記Ｄが２０ｍｓであるのに対してｄを１０ｍｓとしている。
また、発話が無い部分を除外し、発話がある部分のみを対象とすることもできる。

以上により、ＭＦＣＣの０次元目の数値である音声特徴量の時系列変化を取得することができる。

＜第二平滑化処理工程Ｓ２７＞
第二平滑化処理工程Ｓ２７では、音声の特徴量の取得工程Ｓ２６で得られた音声特徴量の時系列変化に対して平滑化処理をする。第二平滑化処理工程Ｓ２７により、取得した音声特徴量の時系列変化に含まれるノイズ等を低減することができる。図１１（ａ）は第二平滑化処理工程Ｓ２７前、図１１（ｂ）は第二平滑化処理工程Ｓ２７後の音声特徴量の時系列変化を示す一例である。
本形態では、本工程において平滑化処理を用いているが、本工程では、取得した音声特徴量の時系列変化に含まれるノイズ等を低減することができる公知のノイズ低減処理工程を制限なく用いることができる。

第二平滑化処理工程Ｓ２７における平滑化処理手順については特に限定されることはないが、例えば、任意のｎフレーム目から連続したＴフレーム（ｎフレーム目～ｎ＋Ｔフレーム目）における音声特徴量の平均値を算出し、その平均値をｎフレーム目の音声特徴量に設定する方法が挙げられる。ここで、Ｔは１以上の整数であればよく、本例では、上記Ｔを１００フレーム（約１．０秒間）としたが、後述のとおり、高い発話区間抽出精度を得るために、Ｔは１０以上１５０以下であることが好ましい。

＜第二発話区間抽出処理工程Ｓ２８＞
第二発話区間抽出処理工程Ｓ２８では、第二平滑化処理工程Ｓ２７を施した音声特徴量の時系列変化を対象として発話区間を抽出する。図１２（ａ）は第二平滑化処理工程Ｓ２７後の音声特徴量の例、図１２（ｂ）は図１２（ａ）から音声特徴量の仮判定差分ｄｍを算出した結果、図１２（ｃ）は図１２（ａ）および図１２（ｂ）から音声特徴量の判定差分Ｄｍを算出した結果である。「音声特徴量の仮判定差分」とは、時系列的に連続する複数フレームの範囲において、音声特徴量の最大値と最小値とを取得し、その最大値と最小値との差を算出した結果であり、「音声特徴量の判定差分」とは、音声特徴量と音声特徴量の仮判定差分ｄｍとの差分の時系列変化を算出した結果であり、発話区間内のフレームであるか否かの抽出の指標になる。

具体的には、例えば、任意のｎフレーム目およびその前後Ｓフレーム（ｎ－Ｓフレーム目～ｎ＋Ｓフレーム目の合計２×Ｓ＋１フレーム分）から音声特徴量の最大値および最小値を取得し、その最大値と最小値との差である音声特徴量の仮判定差分ｄｍを算出し、ｎフレーム目に設定する。音声特徴量の仮判定差分ｄｍの算出は、時系列的に連続する複数フレームに対して行う。ここで、Ｓは１以上の整数であればよく、本例では、上記Ｓを５０フレームとしたが、後述のとおり、高い発話区間抽出精度を得るために、Ｓは１０以上１５０以下であることが好ましい。さらに、Ｓ≦Ｔ＋３０であることが好ましい。
図１２において矢印で示された「実際の発話区間」のフレームからわかるように、無発話区間のフレームと比較して、発話区間のフレームでは、音声特徴量が高い値になり、かつ、安定した値を維持する傾向が認められる。さらに、音声特徴量の仮判定差分ｄｍが低い値になる傾向がある。
さらに、音声特徴量と音声特徴量の仮判定差分ｄｍとの差分の時系列変化である音声特徴量の判定差分Ｄｍを算出すると、発話区間において音声特徴量の判定差分Ｄｍの値が正の値になる傾向が認められることから、音声特徴量の判定差分Ｄｍの値が０．００以上である領域を発話区間として抽出する。

＜発話区間判別処理工程Ｓ２９＞
発話区間判別処理工程Ｓ２９は、第一発話区間再抽出処理工程Ｓ２５で得られた口内領域の縦幅による発話区間と第二発話区間抽出処理工程Ｓ２８で得られた音声特徴量による発話区間とから発話区間を判別する。
発話区間判別の条件として、発話区間は、口内領域の縦幅を用いて抽出した発話区間であり、かつ、音声特徴量を用いて抽出した発話区間が含まれている区間であることが挙げられる。上記発話区間判別の条件を満たす一連のフレームを発話区間と判別する。

図１３（ａ）は口内領域の縦幅を用いて抽出された発話区間例、図１３（ｂ）は音声特徴量を用いて抽出された発話区間例である。ただし、口内領域の縦幅のフレームと音声特徴量のフレームとは、時系列を一致させて用いる。例えば、図１３では、３フレーム分の口内領域の縦幅の判定差分ｄｎに対して、１０フレーム分の音声特徴量の判定差分Ｄｍが対応する。
口内領域の縦幅のみを用いて発話区間を推定した場合、音声が生じていないのにもかかわらず誤って発話区間とされることがあるが、発話区間判別処理工程Ｓ２９により、誤りを防止できるため、実際に音声の生じている区間のみを発話区間に判別することが可能となる。

図１に示したように、本開示の発話区間抽出工程Ｓ２０後に、発話人数判別工程Ｓ３０、発話者判別工程Ｓ４０、発話者出力工程Ｓ５０を備えて、議事録自動作成システム等に有効な発話者出力方法としてもよい。

［発話人数判別工程Ｓ３０］
発話人数判別工程Ｓ３０は、同時に発話している人数が判別できればよく、公知の方法を限定されず用いることができる。発話区間抽出工程Ｓ２０で得られた発話区間抽出データにおいて、同時に発話区間が抽出された発話者が複数であった場合には、発話者判別工程Ｓ４０に進み、同時に発話区間が抽出された発話者が１名であった場合には、発話者出力工程Ｓ５０に進む。

［発話者判別工程Ｓ４０］
発話者判別工程Ｓ４０は公知の方法を限定されず用いることができるが、例えば、「景山陽一、中村悦郎、白須礎成著、第６２回自動制御連合講演会講演論文集、１Ｊ４－０」および特願２０２０－０００６７３号に記載の内容を挙げることができる。例えば、音声特徴量から口唇挙動特徴量が推定可能なニュートラルネットワーク（ＮＮ）の学習を行う。次に、判別対象者に口唇挙動特徴量および音声特徴量を取得し、学習済のＮＮに、音声特徴量を入力し、口唇挙動特徴量を推定する。最後に、口唇挙動特徴量の推定値および実際の口唇挙動特徴量の差を算出し、最も差が少ない判別対象者を発話者と判定する方法である。
発話者判別工程Ｓ４０により、発話者が判別されたら、発話者出力工程Ｓ５０に進む。

［発話者出力工程Ｓ５０］
発話者出力工程Ｓ５０は、発話者判別工程Ｓ４０で判定された発話者において、発話区間抽出工程Ｓ２０で抽出された発話区間の内容が出力できればよく、公知の方法を限定されず用いることができる。

{発話区間抽出プログラム、及び、発話区間抽出装置｝
図１４は、上記した発話区間抽出方法Ｓ２０を含む発話者出力方法Ｓ１に沿って具体的に演算を行う１つの形態にかかる発話区間抽出装置５０の構成を概念的に表した図である。発話区間抽出装置５０は、入力機器５７、演算装置５１、及び表示手段５８を有している。そして演算装置５１は、演算手段５２、ＲＡＭ５３、記憶手段５４、受信手段５５、及び出力手段５６を備えている。

演算手段５２は、いわゆるＣＰＵ（中央演算子）により構成されており、上記した各構成部材に接続され、これらを制御することができる手段である。また、記憶媒体として機能する記憶手段５４等に記憶された各種プログラムを実行し、これに基づいて上記した発話区間抽出方法Ｓ２０の各処理のためのデータ作成の演算をおこなうのも演算手段５２である。

ＲＡＭ５３は、演算手段５２の作業領域や一時的なデータの記憶手段として機能する構成部材である。ＲＡＭ５３は、ＳＲＡＭ、ＤＲＡＭ、フラッシュメモリ等で構成することができ、公知のＲＡＭと同様である。

記憶手段５４は、各種演算の根拠となるプログラムやデータが保存される記憶媒体として機能する部材である。また記憶手段５４には、プログラムの実行により得られた中間、最終の各種結果を保存することができてもよい。より具体的には記憶手段５４には、プログラムが記憶（保存）されている。またその他情報も併せて保存されていてもよい。

ここで、保存されているプログラムには、上記した発話区間抽出方法Ｓ２０を含む発話者出力方法Ｓ１の各工程を演算する根拠となるプログラムが含まれる。すなわち、発話区間抽出方法プログラムを含む発話者出力方法プログラムは、図１に示した発話者出力方法Ｓ１の各工程（図３に示した発話区間抽出方法Ｓ２０の各工程も含む。）に対応するように、各工程を各ステップに置き換えたステップを含んでいる。発話区間抽出方法プログラムの具体的な演算内容は上記した発話区間抽出方法Ｓ２０で説明した通りである。

受信手段５５は、外部からの情報を演算装置５１に適切に取り入れるための機能を有する構成部材であり、入力機器５７が接続される。いわゆる入力ポート、入力コネクタ等もこれに含まれる。

出力手段５６は、得られた結果のうち外部に出力すべき情報を適切に外部に出力する機能を有する構成部材であり、モニター等の表示手段５８や各種装置がここに接続される。いわゆる出力ポート、出力コネクタ等もこれに含まれる。

入力機器５７は、発話者の映像及び音声を取得する機器が挙げられる。典型的な機器としてはマイク、カメラ、又はマイク付きのビデオカメラである。ただし、これに限らず他の種類の発話者の映像及び音声を取得する機器であってもよい。ここから入力された情報が演算装置５１に取り込まれ、この情報を利用して上記プログラムが実行される。

また、その他、ネットワークや通信により受信手段５５を介して演算装置５１に情報が提供されてもよい。同様にネットワークや通信により出力手段５６を介して外部の機器に情報を送信することができてもよい。

このような発話区間抽出装置５０によれば、上記した発話区間抽出方法Ｓ２０を含む発話者出力方法Ｓ１を効率的に精度よく行なうことが可能となる。このような発話区間抽出装置５０としては例えばコンピュータを用いることができる。

発明者は、実際に発話区間を抽出する試験、各パラメータの範囲に関する検討、分解能と閾値の関係に関する検討を行った。以下に条件、試験および評価の方法を示す。

［条件］
・カメラ：全方位カメラ、ＴＨＩＴＡＶ、ＲＩＣＯＨ社製（３０ｆｐｓ、３８４０×２１６０画素）
・マイク：ＴＡ－１、ＲＩＣＯＨ社製（単一指向性×４チャンネル）
・照明：蛍光灯、照度７００ｌｘ～９００ｌｘ
・被験者：６名（２０代、男性３名、女性３名）
・被験者の配置：カメラから５０ｃｍ離隔した位置、カメラに向かって正面を向いた姿勢

［試験および評価の方法］
（１）被験者６名（２０代、男性３名、女性３名）がそれぞれ別に同じ文章を音読し、これを上記カメラ及びマイクで記録した。
（２）被験者が音読した文章はニュース記事から抜粋した１１種類とした。従って、全部で６６の映像及び音声データを得た。

（３）得られた映像及び音声データに対して本発明の発話区間抽出工程により発話区間を抽出し、発話フレームおよび無発話フレームの抽出結果を得た。
（４）目視によって抽出した実際の発話区間を設定した。具体的には、目視にて、得られた映像及び音声データから、図１５（ａ）のように、発話開始時に口を開き始めるフレームＦ_Ｓ＋１の直前の口を閉じたフレームを発話開始フレームＦ_Ｓとし、および図１５（ｂ）のように、発話終了時に口を閉じたフレームを発話終了フレームＦ_Ｅとする。さらに、発話開始フレームＦ_Ｓと発話終了フレームＦ_Ｅとの間のフレームを発話フレームと設定し、それ以外のフレームを無発話フレームと設定した。

（５）実際の発話区間と本発明の発話区間抽出工程による抽出結果との比較から、表１に示す抽出成功率判定のためのフレーム数（単位：フレーム数）を用いて評価を行った。各指標は、表１に示すように、発話フレームが正しく発話フレームとして判別されたフレーム数をＴＰ、発話フレームが誤って無発話フレームとして分類されたフレーム数をＦＮ、無発話フレームが誤って発話フレームとして分類されたフレーム数をＦＰ、無発話フレームが正しく無発話フレームに判別されたフレーム数をＴＮとし、各指標に該当するフレーム数を算出した。

表１の各指標に該当するフレーム数を用いて、ｐｒｅｃｉｓｉｏｎ（精度）は式（２）により、ｒｅｃａｌｌ（再現率）は式（３）により算出される。ｐｒｅｃｉｓｉｏｎおよびｒｅｃａｌｌは０．０～１．０の数値を取り、値が１．０に近いほど抽出成功率が高いことを示す。

｛発話区間抽出試験｝
上記条件および試験および評価の方法に基づいて、発話区間抽出試験を行った結果を表２に示す。

表２からわかるように、ｐｒｅｃｉｓｉｏｎの平均値は全被験者で０．９０以上の数値となり、かつ、平均で０．９２の数値が得られた。また、ｒｅｃａｌｌの平均値は、全被験者において１．００の数値が得られた。
以上の結果より、本発明が人物間における口唇の動きの差異を低減し、かつ、シンプルな閾値判定法を用いて発話区間の抽出が可能であることが示唆される。

図１６は、被験者Ｂ、１１種類の文章のうちの１つの文章における発話区間抽出結果である。図１６（ａ）は口内領域の縦幅および音声特徴量を用いて抽出された発話区間を、図１６（ｂ）は音声特徴量を用いて抽出された発話区間を示している。図１６（ａ）より、口内領域の縦幅および音声特徴量を併用することで無発話区間を適切に除外し発話区間の存在する領域のみを抽出できていることがわかる。
つまり、本開示の発話区間抽出方法によれば、１台の全方位カメラおよびマイクであっても、取得された発話映像に対して処理を行うことで発話者を判別できるため、人数に応じて機器数を増やす必要がなく利便性がよい。
また、映像データである口内領域の縦幅の時系列変化と音声データである音声特徴量とを照らし合わせて発話区間の抽出に使用しているため、発話区間に誤って抽出された無発話区間を除外することが可能である。

｛各パラメータの範囲に関する検討｝
上記条件および試験および評価の方法に基づいて、各パラメータの範囲に関する検討を行った。各パラメータの範囲は、（２）および（３）で算出されるｐｒｅｃｉｓｉｏｎおよびｒｅｃａｌｌからＦ－ｍｅａｓｕｒｅを算出し、評価指標として用いることで好ましい範囲を検討する。Ｆ－ｍｅａｓｕｒｅは式（４）で算出され、０．０～１．０の数値を取り、値が１．０に近いほど抽出成功率が高いことを示す。各パラメータにおいて、Ｆ－ｍｅａｓｕｒｅが０．９以上であれば、発話区間の抽出精度が良好であると考えられる。

なお、各パラメータとは、口内領域縦幅における平滑化処理のフレーム数Ｐ、ｄｎ算出のためのフレーム数Ｑ、発話区間再抽出処理のためのフレーム数Ｒ、ｄｍ算出のためのフレーム数Ｓ、音声特徴量における平滑化処理のフレーム数Ｔの５種類のパラメータである。

＜口内領域縦幅を用いた発話区間抽出手法におけるパラメータの検討＞
上記条件および試験および評価の方法に基づいて撮影した動画を使用して、パラメータＰ、Ｑ、およびＲの好ましい範囲に関して検討を加えた。具体的には、表３に示す範囲で各パラメータの値を変動させ、１０００パターンのパラメータの組み合わせにおけるＦ－ｍｅａｓｕｒｅの平均値（Ｆ_ａｖｅ）をそれぞれ算出して比較した。なお、パラメータの検討パターン数が膨大になるため、音声特徴量に関するパラメータＳおよびＴは固定値を使用した。

表４に、パラメータＰ、Ｑ、およびＲの範囲と範囲内におけるＦ_ａｖｅの結果を示す。１０００パターン中、２６５パターンにおいてＦ_ａｖｅの値が０．９０を上回る結果を得た。Ｆ_ａｖｅの値が０．９０を上回るパターンのうち、それぞれのパラメータが最大の範囲をとるように設定した結果、表４に示す範囲（１５０パターン）が好ましいことが明らかになった。

＜音声特徴量を用いた発話区間抽出手法におけるパラメータの検討＞
上記条件および試験および評価の方法に基づいて撮影した動画を使用して、パラメータＳおよびＴの好ましい範囲に関して検討を加えた。具体的には、表５に示す範囲で各パラメータの値を変動させ、２２５パターンのパラメータの組み合わせにおけるＦ－ｍｅａｓｕｒｅの平均値（Ｆ_ａｖｅ）をそれぞれ算出して比較した。なお、パラメータの検討パターン数が膨大になるため、口唇の特徴量に関するパラメータＰ、Ｑ、およびＲは固定値を使用した。

図１７（ａ）は、パラメータＳおよびＴの組み合わせにおけるＦ_ａｖｅの算出結果を示し、図１７（ｂ）は、Ｆ_ａｖｅの値が０．９以上か否かによって分類した結果を示す。図１７（ｂ）に示すように、Ｆ_ａｖｅの値が０．９以上になるパラメータＳおよびＴの範囲は、１次関数と定数によって表すことが可能である。表６は、パラメータＳおよびＴの範囲と範囲内におけるＦ_ａｖｅの結果を示す。パラメータＳおよびＴの数値は表６に示す範囲内の値に設定することで、Ｆ_ａｖｅの値が０．９以上となり、高い精度で発話区間を抽出可能である。

｛空間分解能と閾値の関係に関しての検討｝
発話区間抽出処理工程において、口内領域の縦幅の判定差分ｄｎがある所定の閾値Ａより大きければ発話区間のフレームに分類される。閾値Ａの値と画像の空間分解能Ｒｓとの関係に関して検討を加えた。具体的には、得られた口内領域縦幅に対して重みＷを付加し、疑似的に画像の空間分解能Ｒｓを変化させた。上述した通り、本実施例の空間分解能は１．０ｍｍであるため、重みＷの値が１．０の場合の空間分解能Ｒｓは１．０ｍｍである。したがって、口内領域縦幅に付加した重みＷと空間分解能Ｒｓの関係は式（５）で表される。

本検討では、上記条件および試験および評価の方法に基づいて、表７に示すような条件の下撮影した動画を使用して、重みＷの値と閾値Ａを変化させ、各パターンにおけるＦ－ｍｅａｓｕｒｅの平均値Ｆ_ａｖｅを算出して比較した。

図１８（ａ）は、重みＷおよび閾値Ａの組み合わせにおけるＦ_ａｖｅの算出結果を示し、図１８（ｂ）は、Ｆ_ａｖｅの値が０．９以上か否かによって各パターンを分類した結果を示す。図１８（ｂ）に示すように、Ｆ_ａｖｅの値が０．９以上になる重みＷおよび閾値Ａの範囲は、２つの１次関数と定数によって表すことが可能である。表８は、重みＷおよび閾値Ａの範囲と範囲内におけるＦ_ａｖｅの結果を示す。重みＷおよび閾値Ａの数値は表８に示す範囲内の値に設定することで、Ｆ_ａｖｅの値が０．９以上となり、高い精度で発話区間を抽出可能である。

表８におけるパラメータの範囲において、重みＷの値を空間分解能Ｒｓ（単位：ｍｍ）に置き換えて表すと、上述した式（１）が導かれる。閾値Ａは、映像の空間分解能Ｒｓを用いた式（１）を満たす値であることが好ましく、口内領域の縦幅の判定差分ｄｎが閾値Ａより大きければ、高抽出精度で、発話区間のフレームに分類される。

５０発話区間抽出装置
５１演算装置
５２演算手段
５３ＲＡＭ
５４記憶手段
５５受信手段
５６出力手段
５７入力機器
５８表示手段

Claims

映像及び音声データから発話区間を抽出する方法であって、
取得した前記映像から対象者の口内領域の縦幅を時系列に複数得る工程と、
取得した前記音声データに基づいて音声特徴量を時系列に複数得る工程と、
発話区間を抽出する工程と、を有し、
前記発話区間を抽出する工程は、
前記口内領域の縦幅から口内領域の縦幅の判定差分を時系列に複数得て、前記口内領域の縦幅の判定差分から発話区間を抽出する工程と、
前記音声特徴量から音声特徴量の判定差分を時系列に複数得て、前記音声特徴量の判定差分から発話区間を抽出する工程と、を備え、
前記口内領域の縦幅から抽出した発話区間であり、かつ、前記音声特徴量から抽出した発話区間を含む区間を発話区間と判別する、発話区間抽出方法。
前記音声特徴量の判定差分から発話区間を抽出する工程において、音声特徴量の判定差分は０．００以上とする請求項１に記載の発話区間抽出方法。
前記口内領域の縦幅の判定差分から発話区間を抽出する工程において、口内領域の縦幅の判定差分は閾値Ａよりも大きく、
前記閾値Ａは、前記映像の空間分解能Ｒｓを用いた以下の式（１）で表される、

請求項１又は２に記載の発話区間抽出方法。
前記音声特徴量の判定差分を時系列に複数得るための、前記複数の音声特徴量に対してノイズ低減処理をする工程を備える、請求項１乃至３のいずれかに記載の発話区間抽出方法。
前記口内領域の縦幅の判定差分を時系列に複数得るための、前記複数の口内領域の縦幅に対してノイズ低減処理をする工程を備える、請求項１乃至４のいずれかに記載の発話区間抽出方法。
前記口内領域の縦幅の判定差分から発話区間を抽出する工程において無発話区間に分類されたフレームから発話区間のフレームを再抽出する工程を備える、請求項１乃至５のいずれかに記載の発話区間抽出方法。
映像及び音声データから発話区間を抽出するプログラムであって、
取得した前記映像から対象者の口内領域の縦幅を時系列に複数得るステップと、
取得した前記音声データに基づいて音声特徴量を時系列に複数得るステップと、
発話区間を抽出するステップと、を有し、
前記発話区間を抽出するステップは、
前記口内領域の縦幅から口内領域の縦幅の判定差分を時系列に複数得て、前記口内領域の縦幅の判定差分から発話区間を抽出するステップと、
前記音声特徴量から音声特徴量の判定差分を時系列に複数得て、前記音声特徴量の判定差分から発話区間を抽出するステップと、を備え、
前記口内領域の縦幅から抽出した発話区間であり、かつ、前記音声特徴量から抽出した発話区間を含む区間を発話区間と判別する、発話区間抽出プログラム。
前記音声特徴量の判定差分から発話区間を抽出するステップにおいて、音声特徴量の判定差分は０．００以上とする請求項７に記載の発話区間抽出プログラム。
前記口内領域の縦幅の判定差分から発話区間を抽出するステップにおいて、口内領域の縦幅の判定差分は閾値Ａよりも大きく、
前記閾値Ａは、前記映像の空間分解能Ｒｓを用いた以下の式（１）で表される、

請求項７又は８に記載の発話区間抽出プログラム。
前記音声特徴量の判定差分を時系列に複数得るための、前記複数の音声特徴量に対してノイズ低減処理をするステップを備える、請求項７乃至９のいずれかに記載の発話区間抽出プログラム。
前記口内領域の縦幅の判定差分を時系列に複数得るための、前記複数の口内領域の縦幅に対してノイズ低減処理をするステップを備える、請求項７乃至１０のいずれかに記載の発話区間抽出プログラム。
前記口内領域の縦幅の判定差分から発話区間を抽出するステップにおいて誤って無発話区間に分類された発話区間のフレームを再抽出するステップを備える、請求項７乃至１１のいずれかに記載の発話区間抽出プログラム。
映像及び音声データから発話区間を抽出する装置であって、
前記映像を取得するカメラと、
前記音声データを取得するマイクと、
請求項７乃至１２のいずれかに記載の発話区間抽出プログラムが記憶された記憶手段、及び、前記発区間抽出プログラムに基づいて演算を行う演算手段と、を有し、
前記演算手段は、前記カメラで取得した映像、及び、前記マイクで取得した音声データを取得し、取得した前記映像及び前記音声データを用いて前記発話区間抽出プログラムによる演算が行われる、発話区間抽出装置。