JP2007127761A

JP2007127761A - 会話区間検出装置及び会話区間検出プログラム

Info

Publication number: JP2007127761A
Application number: JP2005319361A
Authority: JP
Inventors: Hidenori Kenmochi; 秀紀劔持
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2005-11-02
Filing date: 2005-11-02
Publication date: 2007-05-24

Abstract

【課題】正確に会話シーンを抽出することができ、また語学学習に適した会話シーンを検出することができる会話区間検出装置等を提供する。
【解決手段】映像音声データの音声データを読み込むデータ読み込み部６と、この音声データを所定時間長さ毎の区間に区分し、区間毎に周波波数解析を行う周波数解析部８２と、人の声のフォルマントを記憶する記憶部２と、周波数解析で取得した周波数スペクトルを用いて基本周波数を検出し、検出した基本周波数の倍音成分及び非倍音成分を検出する検出部８２４と、検出した倍音成分の包絡線が記憶部２に記憶しているフォルマントを備える場合には、この区間の音声データが会話シーンの音声データであると判定し、判定区間の非倍音成分のレベルと倍音成分のレベルの比率が一定値より小さい場合に、判定区間の音声データを語学学習に適した音声データであると判断する音声判定部８２を備えた会話区間検出装置１００である。
【選択図】図３

Description

この発明は、会話シーンを含む映像音声データにおける、語学学習に適した会話シーンの音声データを検出する会話区間検出装置及び会話シーン検出プログラムに関する。

近年、語学学習のために、ＤＶＤディスクに記録された映画等の映像音声データがよく利用されている。ＤＶＤディスクには、ＭＰＥＧ方式を用いて圧縮符号化されたビデオデータストリームと、ＭＰＥＧ方式等により圧縮符号化された最大８本の音声データストリームと、最大３２本の副映像（字幕等）のデータストリームとを多重化して記録することができる。

このため、ＤＶＤディスクに記録された映画等の映像音声データを用いると、ユーザは、自らの母国語（例えば日本語）の字幕や学習言語（例えば英語）の字幕を見ながら、学習言語の音声を聴取することができ、効果的に語学学習を行うことができる。

しかしながら、音声データストリームには会話シーンだけが含まれるのではなく、背景音だけのシーン等の非会話シーンも含まれる。このため、ユーザは、会話シーンだけでなく、語学学習には無意味な非会話シーンを聴取しなくてはならず、非効率的であった。

この問題を解決するために、会話シーンの音声データを検出する装置が提案されている。例えば特許文献１には、副映像のデータストリームを参照して、副映像（字幕）のデータが記憶されている位置に対応する音声データを会話シーンの音声データとして検出する装置が記載されている。すなわち、字幕は通常会話シーンで表示されるため、音声データにおいて字幕のデータが記憶されている再生時間に対応する部分が会話シーンであるとして検出される。
特開２００３−１８５０５号公報

しかしながら、字幕の表示と実際の発話のタイミングが必ずしも一致しているとは限らず、字幕が表示されても効果音や背景音だけで会話が存在しない場合もある。このため、従来の会話シーンを抽出する装置では、会話シーンの音声データを正確に検出できない場合があった。

また、会話シーンの音声データであっても、効果音やＢＧＭ、背景音が重ねられている場合もあり、この場合には会話シーンの音声データでも、効果音等に邪魔されてユーザは会話が聴き取りにくく、語学学習に適さない。

そこで、本発明は、上記課題を解決するために、第１の目的としてより正確に会話シーンを抽出することができ、また第２の目的として語学学習に適した会話シーンを検出することができる会話区間検出装置及び会話区間検出プログラムを提供することを目的としている。

上記課題を解決するために本発明では以下の手段を採用している。

（１）本発明は、会話シーンを含む映像音声データにおける、会話シーンの音声データを検出する会話区間検出装置において、前記映像音声データの音声データを読み込むデータ読み込み部と、このデータ読み込み部で読み込んだ音声データを所定時間長さ毎の区間に区分し、区間毎に周波波数解析を行う周波数解析部と、人の声のフォルマントを記憶する記憶部と、この周波数解析によって取得した周波数スペクトルを用いて基本周波数を検出し、検出した基本周波数の倍音成分及び非倍音成分を検出する検出部と、前記検出した倍音成分の包絡線が記憶部に記憶しているフォルマントを備える場合には、この区間の音声データが会話シーンの音声データであると判定するとともに、当該判定区間の前記非倍音成分のレベルと前記倍音成分のレベルを比較し、その比率が一定値より小さい場合に、判定区間の音声データを語学学習に適した音声データであると判断する音声判定部と、を備える。

上記本発明の構成によれば、このデータ読み込み部によって音声データが読み込まれる。そして、読み込まれた音声データが周波数解析部によって、所定時間長さ毎の区間に区分され、区間毎に周波数解析が行われる。この周波数解析によって取得した周波数スペクトルを用いて基本周波数が検出部によって検出され、検出された基本周波数の倍音成分及び非倍音成分が検出される。

そして、この検出した倍音成分の包絡線が記憶部に記憶しているフォルマントを備える場合には、区分した音声データが会話シーンの音声データであると音声判定部によって判定される。この様に音声データの特徴を用いて会話シーンの音声データであるかどうかを判定するため、本発明では、字幕のデータストリームを用いて会話シーンの区間であるかどうかを判定する従来技術に比較して、より正確に会話シーンの音声データを検出することができる。

また、非倍音成分のレベルが倍音成分のレベルを比較して一定値より小さい場合に、音声判定部によって、判定区間の音声データが語学学習に適した音声データであると判断される。一方、非倍音成分のレベルが倍音成分のレベルを比較して一定値以上に大きい場合に、判定区間の音声データが語学学習に不適切な音声データであると判断される。

倍音成分が会話音声成分に対応し、非倍音成分が背景音等の非倍音成分に対応している。このため、非倍音成分と倍音成分との比率が所定レベル以上に大きい場合には、会話音声成分に比較して背景音等の非会話音声成分が多くなり、会話音声をユーザがリスニングすることが困難である。

本発明では上述したように、非倍音成分と倍音成分との比率が一定値以上に大きい場合に、会話シーンであると判定した音声データが語学学習に不適切な音声データであると判断されるため、会話音声成分に比較して背景音等の非会話音声成分が多い音声データを語学学習に不適切であると判断することが可能となる。

（２）本発明は、上述した会話区間検出装置において、前記音声判定部は、前記検出部が異なる複数の基本周波数に対応する複数系統の倍音成分を検出したときには、非倍音成分のレベルが倍音成分のレベルと比較して一定値より小さい場合であっても、判定区間の音声データを語学学習に不適切な音声データであると判断する、ことを特徴とする。

複数人が同時に発話するような会話音声はユーザがリスニングするのは困難であり、会話シーンであっても語学学習に適さない音声である。また、複数の基本周波数に対応する複数系統の倍音成分が検出された音声データは、複数人が同時に発話する会話シーンである可能性が高い。

上述した本発明の構成によれば、検出部が異なった複数の基本周波数に対応する複数系統の倍音成分を検出したときには、非倍音成分のレベルが倍音成分のレベルと比較して一定値より小さい場合であっても、判定区間の音声データが語学学習に不適切な音声データであると判断される。これによって、複数人が同時に発話するような会話シーンの区間を語学学習に適さない音声データであると判定することが可能となる。

（３）本発明は、上述した会話区間検出装置において、前記音声判定部は、所定周波数以下の低周波成分のレベルを更に検出し、所定値以上のレベルを検出したときには、非倍音成分のレベルが倍音成分のレベルと比較して一定値より小さい場合であっても、判定区間の音声データを語学学習に不適切な音声データであると判断する、ことを特徴とする。

所定周波数以下の低周波成分のレベルが大きい場合には、音声データは大きな爆発音や轟音のような騒音の音声成分を含む可能性が高い。上述した本発明の構成によれば、所定周波数以下の低周波成分のレベルが音声判定部によって更に検出される。そして、所定値以上のレベルを検出したときには、非倍音成分のレベルが倍音成分のレベルと比較して一定値より小さい場合であっても、判定区間の音声データが、音声判定部によって語学学習に不適切な音声データであると判断される。これによって、騒音の音声成分を含む区分した音声データを語学学習に不適切な音声データであると判断することが可能となる。

（４）本発明は、オリジナル言語での会話を含む第１言語音声データとこのオリジナル言語を別の言語で翻訳した会話を含む第２言語音声データとをマルチトラックで含む映像音声データにおける、会話シーンの音声データを検出する会話区間検出装置において、前記第１言語音声データと第２言語音声データとを読み込むデータ読み込み部と、この読み込んだ第１言語音声データと第２言語音声データとを所定時間長さの区間毎にそれぞれ区分して、この区分した第１及び第２言語音声データを再生タイミングが互いに同期するデータ同士で比較して、両音声データの一致度を算出する一致度算出部と、この算出した一致度が所定レベルより低い場合に、前記区分した第１及び第２言語音声データが会話シーンのデータであると判定する音声判定部と、を備えたことを特徴とする。

上記構成によれば、オリジナル言語での会話を含む第１言語音声データとこの第１言語音声データの会話を別の言語で翻訳した第２言語音声データとがデータ読み込み部によって読み込まれる。一致度算出部によって、この読み込まれた第１言語音声データと第２言語音声データとが所定時間長さ毎の区間にそれぞれ区分され、この区分された第１及び第２言語音声データは再生タイミングが互いに同期するデータ同士で比較されて、両音声データの一致度が算出される。

ここで、第２言語音声データは、この第１言語音声データの会話を別の言語で翻訳した音声データであるため、第１言語音声データと第２言語音声データとは会話音声成分の他の成分は一致している。そして、会話音声成分のみが一致していない可能性が高い。このため、算出した一致度が所定レベルより低い場合に、音声判定部によって、区分した第１及び第２言語音声データが会話シーンのデータであると判定され、一致度が所定値以上に高い場合に区分した第１及び第２言語音声データが非会話シーンのデータであると判定される。これによって、精度良く会話シーンの音声データを検出することが可能である。

（５）本発明は、会話シーンを含む映像音声データにおける、会話シーンの音声データを会話区間検出装置に検出させる会話区間検出プログラムであって、コンピュータを、前記映像音声データの音声データをデータ読み込み部に読み込ませる手段と、このデータ読み込み部で読み込んだ音声データを所定時間長さ毎の区間に区分し、区間毎に周波波数解析を行う周波数解析部と、人の声のフォルマントを記憶部に記憶させる手段と、この周波数解析によって取得した周波数スペクトルを用いて基本周波数を検出し、検出した基本周波数の倍音成分及び非倍音成分を検出する検出部と、前記検出した倍音成分の包絡線が記憶部に記憶しているフォルマントを備える場合には、この区間の音声データが会話シーンの音声データであると判定するとともに、当該判定区間の前記非倍音成分のレベルと前記倍音成分のレベルを比較し、その比率が一定値より小さい場合に、判定区間の音声データを語学学習に適した音声データであると判断する音声判定部と、して機能させるものである。

上記本発明の構成によれば、上記（１）と同様の作用を奏する。

（６）本発明は、オリジナル言語での会話を含む第１言語音声データとこの第１言語音声データの会話を別の言語で翻訳した第２言語音声データとをマルチトラックで含む映像音声データにおける、会話シーンの音声データを検出させる会話区間検出プログラムにおいて、コンピュータを、前記第１言語音声データと第２言語音声データとをデータ読み込み部に読み込ませる手段と、この読み込んだ第１言語音声データと第２言語音声データとを所定時間長さの区間にそれぞれ区分して、この区分した第１及び第２言語音声データを再生タイミングが互いに同期するデータ同士で比較して、両音声データの一致度を算出する一致度算出部と、この算出した一致度が所定レベルより低い場合に、前記区分した第１及び第２言語音声データが会話シーンのデータであると判定する音声判定部と、して機能させることを特徴とする。

上記本発明の構成によれば、上記（４）と同様の作用を奏する。

請求項１及び５に記載の本発明によれば、音声データの特徴を用いて会話シーンの音声データであるかどうかを判定するため、字幕のデータストリームを用いて会話シーンの音声データであるかどうかを判定する従来技術に比較して、より正確に会話シーンの区間を検出することができる。

また、非倍音成分のレベルと倍音成分のレベルとの比率が一定値より小さいかどうかを判断基準として、会話シーンであると判定した音声データが語学学習に適した音声データであるかを判断する。これによって、会話音声成分に比較して背景音等の非会話音声成分が所定レベルより少ない音声データを語学学習に適した音声データであると検出することができる。

請求項４及び６に記載の本発明によれば、この区分された第１及び第２言語音声データは再生タイミングが互いに同期するデータ同士で比較されて、両音声データの一致度が所定レベルより低い場合に、区分した第１及び第２言語音声データが会話シーンのデータであると判定される。これによって、精度良く会話シーンの音声データを検出することができる。

図１〜図６を参照して本発明の一実施形態である会話区間検出装置１００について詳細に説明する。

以下に、本会話区間検出装置１００の概念を説明する。会話区間検出装置１００は、映画等の映像音声データが記録されたＤＶＤディスク等から音声データを読み出して、読み出した音声データのうち会話シーンの部分を検出する。そして、会話区間検出装置１００は、検出した会話シーンの再生時間を表示する。これによって、ユーザは、表示された再生時間を選択して映像音声データを再生させることができる。このため、ユーザは、背景音や効果音のみの会話シーンではない音声を聴かずに会話シーンの音声のみを聴取することができ、効率良く語学学習を行うことができる。

本実施形態では、会話区間検出装置１００は従来技術より正確に会話シーン（会話区間）を検出するために以下のような会話シーンを検出する処理（会話シーン検出処理）を実行する。まず、第１の会話シーン検出処理では、会話区間検出装置１００は、ＤＶＤディスク等から音声データを読み出して、所定時間長の区間毎に区分する。この区分した音声データは以下「区分音声データ」と記載する。会話区間検出装置１００は、区分音声データに対してＦＦＴ（Fast Fourier Translation）等の周波数解析を行う。

図１は、区分音声データのスペクトル波形の一例を示す図である。会話区間検出装置１００は、スペクトル波形を用いてピークを検出する。そして、会話区間検出装置１００は検出したピークを用いて、基本周波数及びこの基本周波数の倍音成分を検出する。例えば、図１では、会話区間検出装置１００は、ピークＰ（Ｐ１〜Ｐ４）を検出し、ピークＰ１に対応する基本周波数ｆ１、ピークＰ２〜Ｐ４に対応する倍音成分の周波数ｆ２〜ｆ４を検出する。

会話区間検出装置１００は、人の声のフォルマントを記憶し、検出した倍音成分の包絡線（ピークＰ１〜Ｐ４の包絡線）が記憶するフォルマントを備えるかどうかを判断する。そして、周波数スペクトルがフォルマントを備える場合には、区分音声データが会話シーンの音声データであると会話区間検出装置１００は判断する。この様にして、会話区間検出装置１００では、区分音声データの特徴を用いて区分音声データを会話シーンの音声データであるか判定するため、字幕のデータストリームを用いて判定を行った従来技術に比較してより正確に会話シーンを判定することができる。

また、会話区間検出装置１００は、倍音成分のレベル（周波数ｆ２〜ｆ４の成分のレベル）を検出して、周波数の低さの順番で例えば３番目までの倍音成分のレベルと非倍音成分のレベルとを比較する。具体的には、ピークＰ１〜Ｐ４の間で最も小さいレベルＬ（Ｌ１〜Ｌ３）と次のピークＰのレベルとを比較する。ここでは、レベルＬ１とピークＰ２のレベル、レベルＬ２とピークＰ３のレベル、レベルＬ３とピークＬ４のレベルとを比較する。

なお、ピークＰ１〜Ｐ４の間で最も小さいレベルＬではなく非倍音成分における他のレベルで比較する構成であってもよい。例えば各ピークＰの中央の周波数のレベルで比較したり、これらの中央の周波数のレベルやレベルＬの平均値と各ピークＰのレベルの平均値とを比較する構成等であってもよい。

そして、レベルＬがピークＰと比較して一定値よりも小さい場合（レベルＬとピークＰとの比率が一定値よりも小さい場合）には、すなわち各レベルＬとピークＰのレベルの差（同図において太字矢印で示す）が一定値よりも大きければ、会話区間検出装置１００は区分音声データを語学学習に適した音声データであると判断する。また、各レベルＬとピークＰのレベルの差が一定値以上に小さければ、会話区間検出装置１００は会話シーンの音声データであっても区分音声データを語学学習に適した音声データではないと判断する。

この理由は、倍音成分が会話音声の成分に対応し、非倍音成分がＢＧＭや背景音等の非会話成分に対応するからである。すなわち、非倍音成分のレベルが倍音成分のレベルに比較して所定レベル以上に大きいときには、会話シーンの音声データであっても背景音等のノイズ成分のレベルが大きく、区分音声データは語学学習に不適切だからである。

上述の様にして、会話区間検出装置１００では、背景音等のレベルが語学学習に不適切な程に大きいかどうかを比較的正確に判定することができ、会話シーンの音声データであっても語学学習に不適切な音声データを判別することができる。

また、会話区間検出装置１００は、上記第１の会話シーン検出処理において、倍音成分を複数系統検出する場合がある。例えば、図２で示す周波数スペクトルでは、倍音成分が周波数ｆ５〜ｆ７で示す系統と、ｆ８〜ｆ１０で示す系統の２系統がある。

この場合には、複数人（同図では２人）が同時に発話している音声データであると判別することができる。この様な音声データでは、会話シーンであってもユーザは会話音声をリスニングすることは困難である。このため、会話区間検出装置１００は、複数系統の倍音成分を検出した場合には、会話シーンの音声データであると検出しても区分音声データを語学学習には不適切な音声データであると判断する。

また、会話区間検出装置１００は、上述した第１の会話シーン検出処理の他に第２の会話シーン検出処理を実行する。ここで、ＤＶＤディスクは、ビデオデータストリームと、最大８本の音声データストリームと、最大３２本の副映像（字幕等）のデータストリームとを多重化して記録することができる。このため、ＤＶＤディスクには、オリジナル言語で記録された音声データストリームの他に、オリジナル言語を他の言語で翻訳した音声データストリームが記録されていることがある。

第２の会話シーン検出処理では、会話区間検出装置１００は、少なくとも２種類の音声データストリームを読み出して、再生タイミングが互いに同期する位置で両音声データを所定時間長毎に区分する。会話区間検出装置１００は、区分した両音声データを同じ再生タイミングのもの同士で比較して一致度を算出する。

例えば、一致度の算出は、両音声データの波形の相関を検出することで求められる。具体的には、時間領域で一方の音声データのレベルから他方の音声データのレベルを、位相を合わせて減算し、これによって両音声データの相関を検出する。なお、両音声データに対してＦＦＴ変換処理を行い、周波数領域で変換後の一方の音声データのレベルから他方の音声データのレベルを減算し、これによって両音声データの相関を検出してもよい。

そして、上記減算によって算出された各値同士の加算値が基準値より小さいかどうかで両音声データの一致度合いを算出する。

ここで、２種類の音声ストリームの間では会話音声成分が不一致であり、背景音やＢＧＭ等の会話音声の他の成分では一致している可能性が高い。会話区間検出装置１００は、両音声データの一致度が所定値（所定レベル）以上に高い場合には区分音声データは非会話シーンのデータであり、一致度が所定値より低い場合には区分音声データは会話シーンのデータであると判定する。これによって、比較的精度良く、区分音声データが会話シーンの音声データであるかを判定することができる。

会話区間検出装置１００は、３つのモードでＤＶＤディスク等に記録された映像音声データにおける会話シーンを検出することができる。すなわち、第１のモードは、上述した第１の会話シーン検出処理によって会話シーンを検出するモードである。第２のモードは上述した第２の会話シーン検出処理によって会話シーンを検出するモードである。第３のモードは上述した第１及び第２の会話シーン検出処理の双方を実行することによって会話シーンを検出するモードである。これらのモードは、ユーザの操作によって選択的に実行される。

図３は、本実施形態にかかる会話区間検出装置１００の構成を示すブロック図である。図４は、第１のモード設定時の会話シーン検出部８２（後述）の構成を示すブロック図である。図５は、第２のモード設定時の会話シーン検出部８２の構成を示すブロック図である。図６は、第３のモード設定時の会話シーン検出部８２の構成を示すブロック図である。

会話区間検出装置１００は、例えば汎用機等によって実現され、ＲＯＭ（Read Only Memory）１、ＨＤＤ（Hard Disc Drive）２、ＲＡＭ（Random Access Memory）３、操作部４、表示部５及び入力部６がバス７を介してＣＰＵ（CentralProcessing Unit）８に接続されて構成されている。

ＲＯＭ１は、本会話区間検出装置１００を起動させるための起動用プログラム等を記憶する。ＨＤＤ２は、本会話区間検出装置１００に上述した第１及び第２の会話シーン検出処理を実行させる会話シーン検出プログラムを含むプログラムや、このプログラムの実行に必要なデータを記憶する。このデータには、例えば人の声のフォルマント等がある。ＲＡＭ３は、ＣＰＵ８の作業領域として機能し、ＨＤＤ２から読み出されたデータやプログラムを一時的に記憶する。

操作部４は、例えばキーボードやマウス等であり、ユーザからの操作を受け付ける。操作部４は、受け付けた操作内容を示す操作信号をＣＰＵ８に入力する。ユーザからの操作には、上述した第１〜第３のモードのうち１のモードを選択するための操作や、選択したモードで会話シーン検出処理の実行を指示する操作がある。また、ユーザからの操作には、会話シーン検出処理によって取得した、会話シーンの判定結果を表示させる操作がある。

表示部５は、例えば、ＣＲＴ（Cathode Ray Tube）ディスプレイやＬＣＤ（Liquid Crystal Display）等のディスプレイで構成されている。表示部５は、ＣＰＵ８からの指示によってＲＡＭ３に記憶された判定結果情報を用いて会話シーンの判定結果を表示する。

入力部６は、ＣＰＵ８からの指示によって、ＤＶＤドライブ６１を駆動し、このＤＶＤドライブ６１にセットされたＤＶＤディスクから映像音声データを入力するインタフェース回路である。

ＣＰＵ８は、プログラムを実行することでモード切換部８１と会話シーン検出部８２として機能する。モード切換部８１は、モード設定を記録し、操作部４から第１〜第３のモードのうちいずれかのモードを選択する操作信号を入力したときに記録するモード設定を切り換える。

会話シーン検出部８２は、入力部６を用いてＤＶＤドライブ６１にセットされたＤＶＤディスクから音声データを読み出してＨＤＤ２に記憶させる。会話シーン検出部８２は、読み出した音声データに対して会話シーン検出処理を実行する。モード切換部８１に第１のモードが設定されている場合には、会話シーン検出部８２は第１の会話シーン検出処理を実行する。

モード切換部８１に第２のモードが設定されている場合には、会話シーン検出部８２は第２の会話シーン検出処理を実行する。モード切換部８１に第３のモードが設定されている場合には、会話シーン検出部８２は第１及び第２の会話シーン検出処理の双方を実行する。

図４を参照して、第１のモードが設定されている場合には、会話シーン検出部８２は、機能部として、データ区分け部８２１、振幅検出部８２２、周波数解析部８２３、倍音検出部８２４及び音声判定部８２５を備える。

データ区分け部８２１は、入力部６に対してＤＶＤディスクからの映像音声データの読み出しを指示する。この指示によって、ＤＶＤディスクから映像音声データが順次読み出されてＲＡＭ３に記憶される。データ区分け部８２１は、ＲＡＭ３に記憶された映像音声データを読み出して、映像音声データからオリジナル言語の音声データを分離する。データ区分け部８２１は、分離した音声データを復号化して、この伸長した音声データを所定時間長毎に区分する。データ区分け部８２１は、この区分音声データを振幅検出部８２２及び周波数解析部８２３に入力する。

振幅検出部８２２は、入力した区分音声データに対して所定時間間隔毎に振幅の増加を検出する処理を行い、所定値以上の振幅の増加があるときにはこの旨を音声判定部８２５に通知する。周波数解析部８２３は、入力した区分音声データに対して周波数解析（ＦＦＴ）を行う。周波数解析部８２３は周波数解析によって得た周波数スペクトルを倍音検出部８２４及び音声判定部８２５に入力する。

倍音検出部８２４は、図１を用いて上述した方法によって、入力した周波数スペクトルにおいて倍音成分を検出する処理を実行する。倍音検出部８２４は、検出した倍音成分のうち周波数の低さの順番で例えば３番目まで倍音周波数を音声判定部８２５に入力する。ここで、複数系統の倍音成分を検出した場合には、倍音検出部８２４はこの複数系統の倍音周波数を音声判定部８２５に通知する。

音声判定部８２５は、図１を用いて上述した方法によって、ＨＤＤ２から人の声のフォルマントを読み出して、入力した周波数スペクトルが読み出したフォルマントを有するかどうかを検出する。音声判定部８２５は、フォルマントを検出したときには、区分音声データを会話シーンの音声データであると判定する。

また、音声判定部８２５は、会話シーンであると判定した区分音声データを語学学習に適した音声データであるかを判断する。具体的には、音声判定部８２５は、図１を用いて上述した方法によって、倍音検出部８２４から入力した各倍音周波数のレベルと非倍音成分の各レベルＬとを比較する。

音声判定部８２５は、非倍音成分の各レベルＬが各倍音周波数のレベルと比較して一定値より小さいときに区分音声データを語学学習に適した音声データであると判定する。非倍音成分を会話音声分に比較して所定レベル以上に多く含む場合には、背景音等の非会話音に邪魔されて会話音声をユーザがリスニングすることが困難になるが、これによって、非会話音を多く含む区分音声データを語学学習に不適切であると判断することができる。

この他に、音声判定部８２５は、倍音検出部８２４から複数系統の倍音周波数が入力されたときには区分音声データが会話シーンに適した音声データではないと判断する。これによって、複数人が同時に会話する会話シーンの区分音声データを語学学習に不適切な音声データであると判断することができる。

音声判定部８２５は、振幅検出部８２２から所定値以上の振幅の増加があるとの通知があったときには、区分音声データが会話シーンに適した音声データではないと判断する。戦争映画やアクション映画では音声に爆発音や轟音のような騒音の音声成分（以下、騒音）が含まれることが多く、会話シーンに騒音があればユーザは会話音声をリスニングすることが困難である。また、突然に著しい振幅の増幅がある場合には、騒音が含まれる場合が多い。このため、振幅検出部８２２からの通知があった場合に区分音声データを語学学習に不適切な音声データであると判断することで、背景に騒音がある会話シーンの音声データを語学学習に不適切な音声データであると判断することができる。

また、音声判定部８２５は、入力した周波数スペクトルにおいて所定の周波数以下（例えば、５０Ｈｚ以下）の低周波数帯域のレベルを検出して所定値以上であるかを判断する。例えば、音声判定部８２５は、低周波数帯域の平均レベルを算出しこの平均レベルが所定値以上であるかを判断する。音声判定部８２５は、平均レベルが所定値以上であると判断したときには、区分音声データが会話シーンに適した音声データではないと判断する。非常に大きな騒音は低周波成分（例えば５０Ｈｚ以下の成分）が多く含まれる。このため、低周波成分が多い区分音声データを会話シーンに適した音声データではないと判断することで、騒音を含むシーンの音声データを区分音声データが語学学習に適した音声データではないと判断することができる。

なお、低周波帯域のレベルは平均レベルで判断されるのに限定されず、例えば、低周波帯域のうち最大レベルが所定値以上であるかによって上記判断がなされてもよい。

音声判定部８２５は、会話シーンの音声データであると判定し、かつ語学学習に適した音声データであると判断した区分音声データの再生時間を示す判定結果情報をＲＡＭ３に記憶させる。

なお、本実施形態では、判定結果情報を用いて表示部５に判定結果を表示することでユーザに語学学習に適した音声データを報知する構成である。これに限定されず、音声判定部８２５が判定結果情報を用いて映像音声データを編集して、会話シーンの音声データであると判定し、かつ語学学習に適した音声データであると判断した区分音声データのみを合成した映像音声データを生成する構成であってもよい。

また、本会話区間検出装置１００がスピーカ等の音声を出力する機能を備え、ＣＰＵ８が、判定結果情報の示す再生時間のみでＤＶＤディスクの映像音声データを再生してスピーカに出力するようにしてもよい。

図５を参照して、第２のモードが設定されている場合には、会話シーン検出部８２は、機能部として、データ区分け部８２１Ａ、振幅検出部８２２、音声判定部８２５Ａ及び一致度算出部８２６を備える。なお、図４で示す第１のモードの機能部と同一の名称及び同一の符号が付されている機能部は第１のモードと同様の機能を備えるため説明を省略する。

データ区分け部８２１Ａは、ＤＶＤディスクからの映像音声データを読み出して、オリジナル言語の音声データとともに翻訳言語の音声データを分離する。データ区分け部８２１Ａは、分離した両音声データを所定時間長に区分する。データ区分け部８２１Ａは、オリジナル言語の区分音声データを振幅検出部８２２に入力する。これとともに、両言語の区分音声データを一致度算出部８２６に入力する。

一致度算出部８２６は、両言語の区分音声データを比較して両データの一致度を算出して音声判定部８２５Ａに入力する。

音声判定部８２５Ａは、一致度算出部８２６から入力した一致度が所定値より低いときに、この一致度に対応する区分音声データを会話シーンの音声データであると判定し、一致度が所定値以上に高いときに、会話シーンの音声データではないと判定する。上述したように、両区分音声データは、同じ会話シーンであっても異なった言語での会話音声成分が含まれている。このため、会話シーンの音声データであれば、両音声データは一致度が低くなるはずである。一方、会話音声成分の他はＢＧＭや背景音等であるため、両区分音声データには同じ音声成分が含まれているはずである。

このことから、両区分音声データの一致度が所定値より低いときには、区分音声データが会話音声を含むものである。このため、音声判定部８２５Ａは入力した一致度が所定値より低いかを判定することで、この一致度に対応する区分音声データが会話シーンの音声データであるかを比較的正確に判定することができる。

また、第１モードの音声判定部８２５と同様に、音声判定部８２５Ａは、振幅検出部８２２から所定値以上の振幅の増加があるとの通知があったときには、区分音声データが会話シーンに適した音声データではないと判断する。これによって、第１のモードと同様に、会話シーンであっても騒音を含む音声データを語学学習に不適切であると判断することができる。

音声判定部８２５Ａは、第１のモードと同様に、会話シーンの音声データであると判定し、かつ語学学習に適した音声データであると判断した区分音声データの再生時間を示す判定結果情報をＲＡＭ３に記憶させる。

図６を参照して、第３のモードが設定されている場合には、会話シーン検出部８２は、機能部として、データ区分け部８２１Ｂ、振幅検出部８２２、周波数解析部８２３、倍音検出部８２４、音声判定部８２５Ｂ及び一致度算出部８２６を備える。なお、図４及び図５で示す第１及び第２のモードの機能部と同一の名称及び同一の符号が付されている機能部は第１及び第２のモードと同様の機能を備えるため説明を省略する。

データ区分け部８２１Ｂは、ＤＶＤディスクからの映像音声データを読み出して、オリジナル言語の音声データとともに翻訳言語の音声データを分離する。データ区分け部８２１Ａは、分離した両音声データを所定時間長に区分する。データ区分け部８２１Ａは、オリジナル言語の区分音声データを振幅検出部８２２及び周波数解析部８２３に入力する。これとともに、データ区分け部８２１Ａは両言語の区分音声データを一致度算出部８２６に入力する。

音声判定部８２５Ｂは、上述した音声判定部８２５及び音声判定部８２５Ａの機能を兼ね備える。すなわち、音声判定部８２５Ｂは、ＨＤＤ２から人の声のフォルマントを読み出して、入力した周波数スペクトルが読み出したフォルマントを有するかどうかを検出する。そして、音声判定部８２５Ｂは、入力した周波数スペクトルがフォルマントを有すると検出して、かつ、一致度算出部８２６から入力した一致度が所定値より低い場合に、区分音声データを会話シーンの音声データであると判定する。

これによって、第１及び第２モードに比較して、更に精度良く会話シーンの音声データの判定を行うことができる。なお、入力した周波数スペクトルがフォルマントを有すると検出するという条件、又は一致度算出部８２６から入力した一致度が所定値より低いという条件のうちいずれか１の条件を満たす場合に、音声判定部８２５Ｂは区分音声データを会話シーンの音声データであると判定してもよい。この場合には、第１及び第２モードに比較して会話シーンの検出精度は向上しないが、会話シーンとして判定される区分音声データが増えるため、教材となる区分音声データを増やすことができる。

そして、音声判定部８２５Ｂは、第１モードと同様の処理を実行して、会話シーンと判定した区分音声データが語学学習に適した音声データであるかを判断する。これとともに、音声判定部８２５Ｂは、会話シーンの音声データであると判定し、かつ語学学習に適した音声データであると判断した区分音声データの再生時間を示す判定結果情報をＲＡＭ３に記憶させる。

上述したように、本実施形態では、会話区間検出装置１００は、周波数スペクトルがフォルマントを有するかどうかを判定基準として会話シーンの検出を行ったり、オリジナル言語の音声データストリームと翻訳言語の音声データストリームを比較することで、会話シーンを検出する。このため、字幕のデータストリームを用いて会話シーンの音声データであるかを判定する従来技術に比較して、より正確に区分音声データが会話音声データであるかどうかを判定することができる。

また、本実施形態では、会話区間検出装置１００は、倍音成分と非倍音成分のレベルを比較することで、会話シーンであると判定した区分音声データがＢＧＭや背景音の成分を多く含む音声データであるかどうかを比較的正確に判定することができる。これによって、ＢＧＭや背景音の成分を多く含む区分音声データを語学学習に不適切な音声データであると判断することができる。

本実施形態は、以下の変形例を採用することができる。

（１）なお、本実施形態では、映像音声データのコンテンツは映画であるが、これに限定されず、例えば報道番組やドラマ等の会話シーンの含まれたコンテンツであればよい。

（２）また、第２及び第３のモードで比較する音声データはオリジナル言語の音声データとこれの翻訳言語の音声データの２つのデータであるが、これに限定されない。例えば、２つ以上の翻訳言語で翻訳されている場合には、オリジナル言語の音声データと２つ以上の翻訳言語の音声データの３つ以上の音声データが比較されてもよい。

（３）会話区間検出装置１００は、第１〜第３のモードのうちいずれか１のモードで会話シーン検出処理を実行することができるが、本発明は、これに限定されず、何れか１のモードのみで会話シーン検出処理を実行できればよい。

（４）会話区間検出装置１００は汎用機であるが、これに限定されず、専用機であってもよい。

区分音声データのスペクトル波形の一例を示す図である。区分音声データのスペクトル波形の一例を示す図である。本実施形態にかかる会話区間検出装置の構成を示すブロック図である。第１のモード設定時の会話シーン検出部の構成を示すブロック図である。第２のモード設定時の会話シーン検出部の構成を示すブロック図である。第３のモード設定時の会話シーン検出部の構成を示すブロック図である。

符号の説明

２−ＨＤＤ（記憶部）６−入力部（データ読み込み部）１００−会話区間検出装置８２１−データ区分け部（周波数解析部）８２１Ａ−データ区分け部（一致度算出部）８２１Ｂ−データ区分け部（周波数解析部、一致度算出部）８２３−周波数解析部８２４−倍音検出部（検出部）８２５，８２５Ａ，８２５Ｂ−音声判定部８２６−一致度算出部

Claims

会話シーンを含む映像音声データにおける、会話シーンの音声データを検出する会話区間検出装置において、
前記映像音声データの音声データを読み込むデータ読み込み部と、
このデータ読み込み部で読み込んだ音声データを所定時間長さ毎の区間に区分し、区間毎に周波波数解析を行う周波数解析部と、
人の声のフォルマントを記憶する記憶部と、
この周波数解析によって取得した周波数スペクトルを用いて基本周波数を検出し、検出した基本周波数の倍音成分及び非倍音成分を検出する検出部と、
前記検出した倍音成分の包絡線が記憶部に記憶しているフォルマントを備える場合には、この区間の音声データが会話シーンの音声データであると判定するとともに、
当該判定区間の前記非倍音成分のレベルと前記倍音成分のレベルを比較し、その比率が一定値より小さい場合に、判定区間の音声データを語学学習に適した音声データであると判断する音声判定部と、
を備えた会話区間検出装置。
前記音声判定部は、前記検出部が異なる複数の基本周波数に対応する複数系統の倍音成分を検出したときには、非倍音成分のレベルが倍音成分のレベルと比較して一定値より小さい場合であっても、判定区間の音声データを語学学習に不適切な音声データであると判断する、
ことを特徴とする請求項1に記載の会話区間検出装置。
前記音声判定部は、所定周波数以下の低周波成分のレベルを更に検出し、所定値以上のレベルを検出したときには、非倍音成分のレベルが倍音成分のレベルと比較して一定値より小さい場合であっても、判定区間の音声データを語学学習に不適切な音声データであると判断する、
ことを特徴とする請求項１又は２に記載の会話区間検出装置。
オリジナル言語での会話を含む第１言語音声データとこの第１言語音声データの会話を別の言語で翻訳した第２言語音声データとをマルチトラックで含む映像音声データにおける、会話シーンの音声データを検出する会話区間検出装置において、
前記第１言語音声データと第２言語音声データとを読み込むデータ読み込み部と、
この読み込んだ第１言語音声データと第２言語音声データとを所定時間長さの区間にそれぞれ区分して、この区分した第１及び第２言語音声データを再生タイミングが互いに同期するデータ同士で比較して、両音声データの一致度を算出する一致度算出部と、
この算出した一致度が所定レベルより低い場合に、前記区分した第１及び第２言語音声データが会話シーンのデータであると判定する音声判定部と、
を備えたことを特徴とする会話区間検出装置。
会話シーンを含む映像音声データにおける、会話シーンの音声データを会話区間検出装置に検出させる会話区間検出プログラムであって、
コンピュータを、
前記映像音声データの音声データをデータ読み込み部に読み込ませる手段と、
このデータ読み込み部で読み込んだ音声データを所定時間長さ毎の区間に区分し、区間毎に周波波数解析を行う周波数解析部と、
人の声のフォルマントを記憶部に記憶させる手段と、
この周波数解析によって取得した周波数スペクトルを用いて基本周波数を検出し、検出した基本周波数の倍音成分及び非倍音成分を検出する検出部と、
前記検出した倍音成分の包絡線が記憶部に記憶しているフォルマントを備える場合には、この区間の音声データが会話シーンの音声データであると判定するとともに、
当該判定区間の前記非倍音成分のレベルと前記倍音成分のレベルを比較し、その比率が一定値より小さい場合に、判定区間の音声データを語学学習に適した音声データであると判断する音声判定部と、
して機能させる会話区間検出プログラム。
オリジナル言語での会話を含む第１言語音声データとこの第１言語音声データの会話を別の言語で翻訳した第２言語音声データとをマルチトラックで含む映像音声データにおける、会話シーンの音声データを検出させる会話区間検出プログラムにおいて、
コンピュータを、
前記第１言語音声データと第２言語音声データとをデータ読み込み部に読み込ませる手段と、
この読み込んだ第１言語音声データと第２言語音声データとを所定時間長さの区間にそれぞれ区分して、この区分した第１及び第２言語音声データを再生タイミングが互いに同期するデータ同士で比較して、両音声データの一致度を算出する一致度算出部と、
この算出した一致度が所定レベルより低い場合に、前記区分した第１及び第２言語音声データが会話シーンのデータであると判定する音声判定部と、
して機能させることを特徴とする会話区間検出プログラム。