JP2007127761A - 会話区間検出装置及び会話区間検出プログラム - Google Patents

会話区間検出装置及び会話区間検出プログラム Download PDF

Info

Publication number
JP2007127761A
JP2007127761A JP2005319361A JP2005319361A JP2007127761A JP 2007127761 A JP2007127761 A JP 2007127761A JP 2005319361 A JP2005319361 A JP 2005319361A JP 2005319361 A JP2005319361 A JP 2005319361A JP 2007127761 A JP2007127761 A JP 2007127761A
Authority
JP
Japan
Prior art keywords
data
conversation
voice
language
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005319361A
Other languages
English (en)
Inventor
Hidenori Kenmochi
秀紀 劔持
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2005319361A priority Critical patent/JP2007127761A/ja
Publication of JP2007127761A publication Critical patent/JP2007127761A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】正確に会話シーンを抽出することができ、また語学学習に適した会話シーンを検出することができる会話区間検出装置等を提供する。
【解決手段】映像音声データの音声データを読み込むデータ読み込み部6と、この音声データを所定時間長さ毎の区間に区分し、区間毎に周波波数解析を行う周波数解析部82と、人の声のフォルマントを記憶する記憶部2と、周波数解析で取得した周波数スペクトルを用いて基本周波数を検出し、検出した基本周波数の倍音成分及び非倍音成分を検出する検出部824と、検出した倍音成分の包絡線が記憶部2に記憶しているフォルマントを備える場合には、この区間の音声データが会話シーンの音声データであると判定し、判定区間の非倍音成分のレベルと倍音成分のレベルの比率が一定値より小さい場合に、判定区間の音声データを語学学習に適した音声データであると判断する音声判定部82を備えた会話区間検出装置100である。
【選択図】図3

Description

この発明は、会話シーンを含む映像音声データにおける、語学学習に適した会話シーンの音声データを検出する会話区間検出装置及び会話シーン検出プログラムに関する。
近年、語学学習のために、DVDディスクに記録された映画等の映像音声データがよく利用されている。DVDディスクには、MPEG方式を用いて圧縮符号化されたビデオデータストリームと、MPEG方式等により圧縮符号化された最大8本の音声データストリームと、最大32本の副映像(字幕等)のデータストリームとを多重化して記録することができる。
このため、DVDディスクに記録された映画等の映像音声データを用いると、ユーザは、自らの母国語(例えば日本語)の字幕や学習言語(例えば英語)の字幕を見ながら、学習言語の音声を聴取することができ、効果的に語学学習を行うことができる。
しかしながら、音声データストリームには会話シーンだけが含まれるのではなく、背景音だけのシーン等の非会話シーンも含まれる。このため、ユーザは、会話シーンだけでなく、語学学習には無意味な非会話シーンを聴取しなくてはならず、非効率的であった。
この問題を解決するために、会話シーンの音声データを検出する装置が提案されている。例えば特許文献1には、副映像のデータストリームを参照して、副映像(字幕)のデータが記憶されている位置に対応する音声データを会話シーンの音声データとして検出する装置が記載されている。すなわち、字幕は通常会話シーンで表示されるため、音声データにおいて字幕のデータが記憶されている再生時間に対応する部分が会話シーンであるとして検出される。
特開2003−18505号公報
しかしながら、字幕の表示と実際の発話のタイミングが必ずしも一致しているとは限らず、字幕が表示されても効果音や背景音だけで会話が存在しない場合もある。このため、従来の会話シーンを抽出する装置では、会話シーンの音声データを正確に検出できない場合があった。
また、会話シーンの音声データであっても、効果音やBGM、背景音が重ねられている場合もあり、この場合には会話シーンの音声データでも、効果音等に邪魔されてユーザは会話が聴き取りにくく、語学学習に適さない。
そこで、本発明は、上記課題を解決するために、第1の目的としてより正確に会話シーンを抽出することができ、また第2の目的として語学学習に適した会話シーンを検出することができる会話区間検出装置及び会話区間検出プログラムを提供することを目的としている。
上記課題を解決するために本発明では以下の手段を採用している。
(1)本発明は、会話シーンを含む映像音声データにおける、会話シーンの音声データを検出する会話区間検出装置において、前記映像音声データの音声データを読み込むデータ読み込み部と、このデータ読み込み部で読み込んだ音声データを所定時間長さ毎の区間に区分し、区間毎に周波波数解析を行う周波数解析部と、人の声のフォルマントを記憶する記憶部と、この周波数解析によって取得した周波数スペクトルを用いて基本周波数を検出し、検出した基本周波数の倍音成分及び非倍音成分を検出する検出部と、前記検出した倍音成分の包絡線が記憶部に記憶しているフォルマントを備える場合には、この区間の音声データが会話シーンの音声データであると判定するとともに、当該判定区間の前記非倍音成分のレベルと前記倍音成分のレベルを比較し、その比率が一定値より小さい場合に、判定区間の音声データを語学学習に適した音声データであると判断する音声判定部と、を備える。
上記本発明の構成によれば、このデータ読み込み部によって音声データが読み込まれる。そして、読み込まれた音声データが周波数解析部によって、所定時間長さ毎の区間に区分され、区間毎に周波数解析が行われる。この周波数解析によって取得した周波数スペクトルを用いて基本周波数が検出部によって検出され、検出された基本周波数の倍音成分及び非倍音成分が検出される。
そして、この検出した倍音成分の包絡線が記憶部に記憶しているフォルマントを備える場合には、区分した音声データが会話シーンの音声データであると音声判定部によって判定される。この様に音声データの特徴を用いて会話シーンの音声データであるかどうかを判定するため、本発明では、字幕のデータストリームを用いて会話シーンの区間であるかどうかを判定する従来技術に比較して、より正確に会話シーンの音声データを検出することができる。
また、非倍音成分のレベルが倍音成分のレベルを比較して一定値より小さい場合に、音声判定部によって、判定区間の音声データが語学学習に適した音声データであると判断される。一方、非倍音成分のレベルが倍音成分のレベルを比較して一定値以上に大きい場合に、判定区間の音声データが語学学習に不適切な音声データであると判断される。
倍音成分が会話音声成分に対応し、非倍音成分が背景音等の非倍音成分に対応している。このため、非倍音成分と倍音成分との比率が所定レベル以上に大きい場合には、会話音声成分に比較して背景音等の非会話音声成分が多くなり、会話音声をユーザがリスニングすることが困難である。
本発明では上述したように、非倍音成分と倍音成分との比率が一定値以上に大きい場合に、会話シーンであると判定した音声データが語学学習に不適切な音声データであると判断されるため、会話音声成分に比較して背景音等の非会話音声成分が多い音声データを語学学習に不適切であると判断することが可能となる。
(2)本発明は、上述した会話区間検出装置において、前記音声判定部は、前記検出部が異なる複数の基本周波数に対応する複数系統の倍音成分を検出したときには、非倍音成分のレベルが倍音成分のレベルと比較して一定値より小さい場合であっても、判定区間の音声データを語学学習に不適切な音声データであると判断する、ことを特徴とする。
複数人が同時に発話するような会話音声はユーザがリスニングするのは困難であり、会話シーンであっても語学学習に適さない音声である。また、複数の基本周波数に対応する複数系統の倍音成分が検出された音声データは、複数人が同時に発話する会話シーンである可能性が高い。
上述した本発明の構成によれば、検出部が異なった複数の基本周波数に対応する複数系統の倍音成分を検出したときには、非倍音成分のレベルが倍音成分のレベルと比較して一定値より小さい場合であっても、判定区間の音声データが語学学習に不適切な音声データであると判断される。これによって、複数人が同時に発話するような会話シーンの区間を語学学習に適さない音声データであると判定することが可能となる。
(3)本発明は、上述した会話区間検出装置において、前記音声判定部は、所定周波数以下の低周波成分のレベルを更に検出し、所定値以上のレベルを検出したときには、非倍音成分のレベルが倍音成分のレベルと比較して一定値より小さい場合であっても、判定区間の音声データを語学学習に不適切な音声データであると判断する、ことを特徴とする。
所定周波数以下の低周波成分のレベルが大きい場合には、音声データは大きな爆発音や轟音のような騒音の音声成分を含む可能性が高い。上述した本発明の構成によれば、所定周波数以下の低周波成分のレベルが音声判定部によって更に検出される。そして、所定値以上のレベルを検出したときには、非倍音成分のレベルが倍音成分のレベルと比較して一定値より小さい場合であっても、判定区間の音声データが、音声判定部によって語学学習に不適切な音声データであると判断される。これによって、騒音の音声成分を含む区分した音声データを語学学習に不適切な音声データであると判断することが可能となる。
(4)本発明は、オリジナル言語での会話を含む第1言語音声データとこのオリジナル言語を別の言語で翻訳した会話を含む第2言語音声データとをマルチトラックで含む映像音声データにおける、会話シーンの音声データを検出する会話区間検出装置において、前記第1言語音声データと第2言語音声データとを読み込むデータ読み込み部と、この読み込んだ第1言語音声データと第2言語音声データとを所定時間長さの区間毎にそれぞれ区分して、この区分した第1及び第2言語音声データを再生タイミングが互いに同期するデータ同士で比較して、両音声データの一致度を算出する一致度算出部と、この算出した一致度が所定レベルより低い場合に、前記区分した第1及び第2言語音声データが会話シーンのデータであると判定する音声判定部と、を備えたことを特徴とする。
上記構成によれば、オリジナル言語での会話を含む第1言語音声データとこの第1言語音声データの会話を別の言語で翻訳した第2言語音声データとがデータ読み込み部によって読み込まれる。一致度算出部によって、この読み込まれた第1言語音声データと第2言語音声データとが所定時間長さ毎の区間にそれぞれ区分され、この区分された第1及び第2言語音声データは再生タイミングが互いに同期するデータ同士で比較されて、両音声データの一致度が算出される。
ここで、第2言語音声データは、この第1言語音声データの会話を別の言語で翻訳した音声データであるため、第1言語音声データと第2言語音声データとは会話音声成分の他の成分は一致している。そして、会話音声成分のみが一致していない可能性が高い。このため、算出した一致度が所定レベルより低い場合に、音声判定部によって、区分した第1及び第2言語音声データが会話シーンのデータであると判定され、一致度が所定値以上に高い場合に区分した第1及び第2言語音声データが非会話シーンのデータであると判定される。これによって、精度良く会話シーンの音声データを検出することが可能である。
(5)本発明は、会話シーンを含む映像音声データにおける、会話シーンの音声データを会話区間検出装置に検出させる会話区間検出プログラムであって、コンピュータを、前記映像音声データの音声データをデータ読み込み部に読み込ませる手段と、このデータ読み込み部で読み込んだ音声データを所定時間長さ毎の区間に区分し、区間毎に周波波数解析を行う周波数解析部と、人の声のフォルマントを記憶部に記憶させる手段と、この周波数解析によって取得した周波数スペクトルを用いて基本周波数を検出し、検出した基本周波数の倍音成分及び非倍音成分を検出する検出部と、前記検出した倍音成分の包絡線が記憶部に記憶しているフォルマントを備える場合には、この区間の音声データが会話シーンの音声データであると判定するとともに、当該判定区間の前記非倍音成分のレベルと前記倍音成分のレベルを比較し、その比率が一定値より小さい場合に、判定区間の音声データを語学学習に適した音声データであると判断する音声判定部と、して機能させるものである。
上記本発明の構成によれば、上記(1)と同様の作用を奏する。
(6)本発明は、オリジナル言語での会話を含む第1言語音声データとこの第1言語音声データの会話を別の言語で翻訳した第2言語音声データとをマルチトラックで含む映像音声データにおける、会話シーンの音声データを検出させる会話区間検出プログラムにおいて、コンピュータを、前記第1言語音声データと第2言語音声データとをデータ読み込み部に読み込ませる手段と、この読み込んだ第1言語音声データと第2言語音声データとを所定時間長さの区間にそれぞれ区分して、この区分した第1及び第2言語音声データを再生タイミングが互いに同期するデータ同士で比較して、両音声データの一致度を算出する一致度算出部と、この算出した一致度が所定レベルより低い場合に、前記区分した第1及び第2言語音声データが会話シーンのデータであると判定する音声判定部と、して機能させることを特徴とする。
上記本発明の構成によれば、上記(4)と同様の作用を奏する。
請求項1及び5に記載の本発明によれば、音声データの特徴を用いて会話シーンの音声データであるかどうかを判定するため、字幕のデータストリームを用いて会話シーンの音声データであるかどうかを判定する従来技術に比較して、より正確に会話シーンの区間を検出することができる。
また、非倍音成分のレベルと倍音成分のレベルとの比率が一定値より小さいかどうかを判断基準として、会話シーンであると判定した音声データが語学学習に適した音声データであるかを判断する。これによって、会話音声成分に比較して背景音等の非会話音声成分が所定レベルより少ない音声データを語学学習に適した音声データであると検出することができる。
請求項4及び6に記載の本発明によれば、この区分された第1及び第2言語音声データは再生タイミングが互いに同期するデータ同士で比較されて、両音声データの一致度が所定レベルより低い場合に、区分した第1及び第2言語音声データが会話シーンのデータであると判定される。これによって、精度良く会話シーンの音声データを検出することができる。
図1〜図6を参照して本発明の一実施形態である会話区間検出装置100について詳細に説明する。
以下に、本会話区間検出装置100の概念を説明する。会話区間検出装置100は、映画等の映像音声データが記録されたDVDディスク等から音声データを読み出して、読み出した音声データのうち会話シーンの部分を検出する。そして、会話区間検出装置100は、検出した会話シーンの再生時間を表示する。これによって、ユーザは、表示された再生時間を選択して映像音声データを再生させることができる。このため、ユーザは、背景音や効果音のみの会話シーンではない音声を聴かずに会話シーンの音声のみを聴取することができ、効率良く語学学習を行うことができる。
本実施形態では、会話区間検出装置100は従来技術より正確に会話シーン(会話区間)を検出するために以下のような会話シーンを検出する処理(会話シーン検出処理)を実行する。まず、第1の会話シーン検出処理では、会話区間検出装置100は、DVDディスク等から音声データを読み出して、所定時間長の区間毎に区分する。この区分した音声データは以下「区分音声データ」と記載する。会話区間検出装置100は、区分音声データに対してFFT(Fast Fourier Translation)等の周波数解析を行う。
図1は、区分音声データのスペクトル波形の一例を示す図である。会話区間検出装置100は、スペクトル波形を用いてピークを検出する。そして、会話区間検出装置100は検出したピークを用いて、基本周波数及びこの基本周波数の倍音成分を検出する。例えば、図1では、会話区間検出装置100は、ピークP(P1〜P4)を検出し、ピークP1に対応する基本周波数f1、ピークP2〜P4に対応する倍音成分の周波数f2〜f4を検出する。
会話区間検出装置100は、人の声のフォルマントを記憶し、検出した倍音成分の包絡線(ピークP1〜P4の包絡線)が記憶するフォルマントを備えるかどうかを判断する。そして、周波数スペクトルがフォルマントを備える場合には、区分音声データが会話シーンの音声データであると会話区間検出装置100は判断する。この様にして、会話区間検出装置100では、区分音声データの特徴を用いて区分音声データを会話シーンの音声データであるか判定するため、字幕のデータストリームを用いて判定を行った従来技術に比較してより正確に会話シーンを判定することができる。
また、会話区間検出装置100は、倍音成分のレベル(周波数f2〜f4の成分のレベル)を検出して、周波数の低さの順番で例えば3番目までの倍音成分のレベルと非倍音成分のレベルとを比較する。具体的には、ピークP1〜P4の間で最も小さいレベルL(L1〜L3)と次のピークPのレベルとを比較する。ここでは、レベルL1とピークP2のレベル、レベルL2とピークP3のレベル、レベルL3とピークL4のレベルとを比較する。
なお、ピークP1〜P4の間で最も小さいレベルLではなく非倍音成分における他のレベルで比較する構成であってもよい。例えば各ピークPの中央の周波数のレベルで比較したり、これらの中央の周波数のレベルやレベルLの平均値と各ピークPのレベルの平均値とを比較する構成等であってもよい。
そして、レベルLがピークPと比較して一定値よりも小さい場合(レベルLとピークPとの比率が一定値よりも小さい場合)には、すなわち各レベルLとピークPのレベルの差(同図において太字矢印で示す)が一定値よりも大きければ、会話区間検出装置100は区分音声データを語学学習に適した音声データであると判断する。また、各レベルLとピークPのレベルの差が一定値以上に小さければ、会話区間検出装置100は会話シーンの音声データであっても区分音声データを語学学習に適した音声データではないと判断する。
この理由は、倍音成分が会話音声の成分に対応し、非倍音成分がBGMや背景音等の非会話成分に対応するからである。すなわち、非倍音成分のレベルが倍音成分のレベルに比較して所定レベル以上に大きいときには、会話シーンの音声データであっても背景音等のノイズ成分のレベルが大きく、区分音声データは語学学習に不適切だからである。
上述の様にして、会話区間検出装置100では、背景音等のレベルが語学学習に不適切な程に大きいかどうかを比較的正確に判定することができ、会話シーンの音声データであっても語学学習に不適切な音声データを判別することができる。
また、会話区間検出装置100は、上記第1の会話シーン検出処理において、倍音成分を複数系統検出する場合がある。例えば、図2で示す周波数スペクトルでは、倍音成分が周波数f5〜f7で示す系統と、f8〜f10で示す系統の2系統がある。
この場合には、複数人(同図では2人)が同時に発話している音声データであると判別することができる。この様な音声データでは、会話シーンであってもユーザは会話音声をリスニングすることは困難である。このため、会話区間検出装置100は、複数系統の倍音成分を検出した場合には、会話シーンの音声データであると検出しても区分音声データを語学学習には不適切な音声データであると判断する。
また、会話区間検出装置100は、上述した第1の会話シーン検出処理の他に第2の会話シーン検出処理を実行する。ここで、DVDディスクは、ビデオデータストリームと、最大8本の音声データストリームと、最大32本の副映像(字幕等)のデータストリームとを多重化して記録することができる。このため、DVDディスクには、オリジナル言語で記録された音声データストリームの他に、オリジナル言語を他の言語で翻訳した音声データストリームが記録されていることがある。
第2の会話シーン検出処理では、会話区間検出装置100は、少なくとも2種類の音声データストリームを読み出して、再生タイミングが互いに同期する位置で両音声データを所定時間長毎に区分する。会話区間検出装置100は、区分した両音声データを同じ再生タイミングのもの同士で比較して一致度を算出する。
例えば、一致度の算出は、両音声データの波形の相関を検出することで求められる。具体的には、時間領域で一方の音声データのレベルから他方の音声データのレベルを、位相を合わせて減算し、これによって両音声データの相関を検出する。なお、両音声データに対してFFT変換処理を行い、周波数領域で変換後の一方の音声データのレベルから他方の音声データのレベルを減算し、これによって両音声データの相関を検出してもよい。
そして、上記減算によって算出された各値同士の加算値が基準値より小さいかどうかで両音声データの一致度合いを算出する。
ここで、2種類の音声ストリームの間では会話音声成分が不一致であり、背景音やBGM等の会話音声の他の成分では一致している可能性が高い。会話区間検出装置100は、両音声データの一致度が所定値(所定レベル)以上に高い場合には区分音声データは非会話シーンのデータであり、一致度が所定値より低い場合には区分音声データは会話シーンのデータであると判定する。これによって、比較的精度良く、区分音声データが会話シーンの音声データであるかを判定することができる。
会話区間検出装置100は、3つのモードでDVDディスク等に記録された映像音声データにおける会話シーンを検出することができる。すなわち、第1のモードは、上述した第1の会話シーン検出処理によって会話シーンを検出するモードである。第2のモードは上述した第2の会話シーン検出処理によって会話シーンを検出するモードである。第3のモードは上述した第1及び第2の会話シーン検出処理の双方を実行することによって会話シーンを検出するモードである。これらのモードは、ユーザの操作によって選択的に実行される。
図3は、本実施形態にかかる会話区間検出装置100の構成を示すブロック図である。図4は、第1のモード設定時の会話シーン検出部82(後述)の構成を示すブロック図である。図5は、第2のモード設定時の会話シーン検出部82の構成を示すブロック図である。図6は、第3のモード設定時の会話シーン検出部82の構成を示すブロック図である。
会話区間検出装置100は、例えば汎用機等によって実現され、ROM(Read Only Memory)1、HDD(Hard Disc Drive)2、RAM(Random Access Memory)3、操作部4、表示部5及び入力部6がバス7を介してCPU(CentralProcessing Unit)8に接続されて構成されている。
ROM1は、本会話区間検出装置100を起動させるための起動用プログラム等を記憶する。HDD2は、本会話区間検出装置100に上述した第1及び第2の会話シーン検出処理を実行させる会話シーン検出プログラムを含むプログラムや、このプログラムの実行に必要なデータを記憶する。このデータには、例えば人の声のフォルマント等がある。RAM3は、CPU8の作業領域として機能し、HDD2から読み出されたデータやプログラムを一時的に記憶する。
操作部4は、例えばキーボードやマウス等であり、ユーザからの操作を受け付ける。操作部4は、受け付けた操作内容を示す操作信号をCPU8に入力する。ユーザからの操作には、上述した第1〜第3のモードのうち1のモードを選択するための操作や、選択したモードで会話シーン検出処理の実行を指示する操作がある。また、ユーザからの操作には、会話シーン検出処理によって取得した、会話シーンの判定結果を表示させる操作がある。
表示部5は、例えば、CRT(Cathode Ray Tube)ディスプレイやLCD(Liquid Crystal Display)等のディスプレイで構成されている。表示部5は、CPU8からの指示によってRAM3に記憶された判定結果情報を用いて会話シーンの判定結果を表示する。
入力部6は、CPU8からの指示によって、DVDドライブ61を駆動し、このDVDドライブ61にセットされたDVDディスクから映像音声データを入力するインタフェース回路である。
CPU8は、プログラムを実行することでモード切換部81と会話シーン検出部82として機能する。モード切換部81は、モード設定を記録し、操作部4から第1〜第3のモードのうちいずれかのモードを選択する操作信号を入力したときに記録するモード設定を切り換える。
会話シーン検出部82は、入力部6を用いてDVDドライブ61にセットされたDVDディスクから音声データを読み出してHDD2に記憶させる。会話シーン検出部82は、読み出した音声データに対して会話シーン検出処理を実行する。モード切換部81に第1のモードが設定されている場合には、会話シーン検出部82は第1の会話シーン検出処理を実行する。
モード切換部81に第2のモードが設定されている場合には、会話シーン検出部82は第2の会話シーン検出処理を実行する。モード切換部81に第3のモードが設定されている場合には、会話シーン検出部82は第1及び第2の会話シーン検出処理の双方を実行する。
図4を参照して、第1のモードが設定されている場合には、会話シーン検出部82は、機能部として、データ区分け部821、振幅検出部822、周波数解析部823、倍音検出部824及び音声判定部825を備える。
データ区分け部821は、入力部6に対してDVDディスクからの映像音声データの読み出しを指示する。この指示によって、DVDディスクから映像音声データが順次読み出されてRAM3に記憶される。データ区分け部821は、RAM3に記憶された映像音声データを読み出して、映像音声データからオリジナル言語の音声データを分離する。データ区分け部821は、分離した音声データを復号化して、この伸長した音声データを所定時間長毎に区分する。データ区分け部821は、この区分音声データを振幅検出部822及び周波数解析部823に入力する。
振幅検出部822は、入力した区分音声データに対して所定時間間隔毎に振幅の増加を検出する処理を行い、所定値以上の振幅の増加があるときにはこの旨を音声判定部825に通知する。周波数解析部823は、入力した区分音声データに対して周波数解析(FFT)を行う。周波数解析部823は周波数解析によって得た周波数スペクトルを倍音検出部824及び音声判定部825に入力する。
倍音検出部824は、図1を用いて上述した方法によって、入力した周波数スペクトルにおいて倍音成分を検出する処理を実行する。倍音検出部824は、検出した倍音成分のうち周波数の低さの順番で例えば3番目まで倍音周波数を音声判定部825に入力する。ここで、複数系統の倍音成分を検出した場合には、倍音検出部824はこの複数系統の倍音周波数を音声判定部825に通知する。
音声判定部825は、図1を用いて上述した方法によって、HDD2から人の声のフォルマントを読み出して、入力した周波数スペクトルが読み出したフォルマントを有するかどうかを検出する。音声判定部825は、フォルマントを検出したときには、区分音声データを会話シーンの音声データであると判定する。
また、音声判定部825は、会話シーンであると判定した区分音声データを語学学習に適した音声データであるかを判断する。具体的には、音声判定部825は、図1を用いて上述した方法によって、倍音検出部824から入力した各倍音周波数のレベルと非倍音成分の各レベルLとを比較する。
音声判定部825は、非倍音成分の各レベルLが各倍音周波数のレベルと比較して一定値より小さいときに区分音声データを語学学習に適した音声データであると判定する。非倍音成分を会話音声分に比較して所定レベル以上に多く含む場合には、背景音等の非会話音に邪魔されて会話音声をユーザがリスニングすることが困難になるが、これによって、非会話音を多く含む区分音声データを語学学習に不適切であると判断することができる。
この他に、音声判定部825は、倍音検出部824から複数系統の倍音周波数が入力されたときには区分音声データが会話シーンに適した音声データではないと判断する。これによって、複数人が同時に会話する会話シーンの区分音声データを語学学習に不適切な音声データであると判断することができる。
音声判定部825は、振幅検出部822から所定値以上の振幅の増加があるとの通知があったときには、区分音声データが会話シーンに適した音声データではないと判断する。戦争映画やアクション映画では音声に爆発音や轟音のような騒音の音声成分(以下、騒音)が含まれることが多く、会話シーンに騒音があればユーザは会話音声をリスニングすることが困難である。また、突然に著しい振幅の増幅がある場合には、騒音が含まれる場合が多い。このため、振幅検出部822からの通知があった場合に区分音声データを語学学習に不適切な音声データであると判断することで、背景に騒音がある会話シーンの音声データを語学学習に不適切な音声データであると判断することができる。
また、音声判定部825は、入力した周波数スペクトルにおいて所定の周波数以下(例えば、50Hz以下)の低周波数帯域のレベルを検出して所定値以上であるかを判断する。例えば、音声判定部825は、低周波数帯域の平均レベルを算出しこの平均レベルが所定値以上であるかを判断する。音声判定部825は、平均レベルが所定値以上であると判断したときには、区分音声データが会話シーンに適した音声データではないと判断する。非常に大きな騒音は低周波成分(例えば50Hz以下の成分)が多く含まれる。このため、低周波成分が多い区分音声データを会話シーンに適した音声データではないと判断することで、騒音を含むシーンの音声データを区分音声データが語学学習に適した音声データではないと判断することができる。
なお、低周波帯域のレベルは平均レベルで判断されるのに限定されず、例えば、低周波帯域のうち最大レベルが所定値以上であるかによって上記判断がなされてもよい。
音声判定部825は、会話シーンの音声データであると判定し、かつ語学学習に適した音声データであると判断した区分音声データの再生時間を示す判定結果情報をRAM3に記憶させる。
なお、本実施形態では、判定結果情報を用いて表示部5に判定結果を表示することでユーザに語学学習に適した音声データを報知する構成である。これに限定されず、音声判定部825が判定結果情報を用いて映像音声データを編集して、会話シーンの音声データであると判定し、かつ語学学習に適した音声データであると判断した区分音声データのみを合成した映像音声データを生成する構成であってもよい。
また、本会話区間検出装置100がスピーカ等の音声を出力する機能を備え、CPU8が、判定結果情報の示す再生時間のみでDVDディスクの映像音声データを再生してスピーカに出力するようにしてもよい。
図5を参照して、第2のモードが設定されている場合には、会話シーン検出部82は、機能部として、データ区分け部821A、振幅検出部822、音声判定部825A及び一致度算出部826を備える。なお、図4で示す第1のモードの機能部と同一の名称及び同一の符号が付されている機能部は第1のモードと同様の機能を備えるため説明を省略する。
データ区分け部821Aは、DVDディスクからの映像音声データを読み出して、オリジナル言語の音声データとともに翻訳言語の音声データを分離する。データ区分け部821Aは、分離した両音声データを所定時間長に区分する。データ区分け部821Aは、オリジナル言語の区分音声データを振幅検出部822に入力する。これとともに、両言語の区分音声データを一致度算出部826に入力する。
一致度算出部826は、両言語の区分音声データを比較して両データの一致度を算出して音声判定部825Aに入力する。
音声判定部825Aは、一致度算出部826から入力した一致度が所定値より低いときに、この一致度に対応する区分音声データを会話シーンの音声データであると判定し、一致度が所定値以上に高いときに、会話シーンの音声データではないと判定する。上述したように、両区分音声データは、同じ会話シーンであっても異なった言語での会話音声成分が含まれている。このため、会話シーンの音声データであれば、両音声データは一致度が低くなるはずである。一方、会話音声成分の他はBGMや背景音等であるため、両区分音声データには同じ音声成分が含まれているはずである。
このことから、両区分音声データの一致度が所定値より低いときには、区分音声データが会話音声を含むものである。このため、音声判定部825Aは入力した一致度が所定値より低いかを判定することで、この一致度に対応する区分音声データが会話シーンの音声データであるかを比較的正確に判定することができる。
また、第1モードの音声判定部825と同様に、音声判定部825Aは、振幅検出部822から所定値以上の振幅の増加があるとの通知があったときには、区分音声データが会話シーンに適した音声データではないと判断する。これによって、第1のモードと同様に、会話シーンであっても騒音を含む音声データを語学学習に不適切であると判断することができる。
音声判定部825Aは、第1のモードと同様に、会話シーンの音声データであると判定し、かつ語学学習に適した音声データであると判断した区分音声データの再生時間を示す判定結果情報をRAM3に記憶させる。
図6を参照して、第3のモードが設定されている場合には、会話シーン検出部82は、機能部として、データ区分け部821B、振幅検出部822、周波数解析部823、倍音検出部824、音声判定部825B及び一致度算出部826を備える。なお、図4及び図5で示す第1及び第2のモードの機能部と同一の名称及び同一の符号が付されている機能部は第1及び第2のモードと同様の機能を備えるため説明を省略する。
データ区分け部821Bは、DVDディスクからの映像音声データを読み出して、オリジナル言語の音声データとともに翻訳言語の音声データを分離する。データ区分け部821Aは、分離した両音声データを所定時間長に区分する。データ区分け部821Aは、オリジナル言語の区分音声データを振幅検出部822及び周波数解析部823に入力する。これとともに、データ区分け部821Aは両言語の区分音声データを一致度算出部826に入力する。
音声判定部825Bは、上述した音声判定部825及び音声判定部825Aの機能を兼ね備える。すなわち、音声判定部825Bは、HDD2から人の声のフォルマントを読み出して、入力した周波数スペクトルが読み出したフォルマントを有するかどうかを検出する。そして、音声判定部825Bは、入力した周波数スペクトルがフォルマントを有すると検出して、かつ、一致度算出部826から入力した一致度が所定値より低い場合に、区分音声データを会話シーンの音声データであると判定する。
これによって、第1及び第2モードに比較して、更に精度良く会話シーンの音声データの判定を行うことができる。なお、入力した周波数スペクトルがフォルマントを有すると検出するという条件、又は一致度算出部826から入力した一致度が所定値より低いという条件のうちいずれか1の条件を満たす場合に、音声判定部825Bは区分音声データを会話シーンの音声データであると判定してもよい。この場合には、第1及び第2モードに比較して会話シーンの検出精度は向上しないが、会話シーンとして判定される区分音声データが増えるため、教材となる区分音声データを増やすことができる。
そして、音声判定部825Bは、第1モードと同様の処理を実行して、会話シーンと判定した区分音声データが語学学習に適した音声データであるかを判断する。これとともに、音声判定部825Bは、会話シーンの音声データであると判定し、かつ語学学習に適した音声データであると判断した区分音声データの再生時間を示す判定結果情報をRAM3に記憶させる。
上述したように、本実施形態では、会話区間検出装置100は、周波数スペクトルがフォルマントを有するかどうかを判定基準として会話シーンの検出を行ったり、オリジナル言語の音声データストリームと翻訳言語の音声データストリームを比較することで、会話シーンを検出する。このため、字幕のデータストリームを用いて会話シーンの音声データであるかを判定する従来技術に比較して、より正確に区分音声データが会話音声データであるかどうかを判定することができる。
また、本実施形態では、会話区間検出装置100は、倍音成分と非倍音成分のレベルを比較することで、会話シーンであると判定した区分音声データがBGMや背景音の成分を多く含む音声データであるかどうかを比較的正確に判定することができる。これによって、BGMや背景音の成分を多く含む区分音声データを語学学習に不適切な音声データであると判断することができる。
本実施形態は、以下の変形例を採用することができる。
(1)なお、本実施形態では、映像音声データのコンテンツは映画であるが、これに限定されず、例えば報道番組やドラマ等の会話シーンの含まれたコンテンツであればよい。
(2)また、第2及び第3のモードで比較する音声データはオリジナル言語の音声データとこれの翻訳言語の音声データの2つのデータであるが、これに限定されない。例えば、2つ以上の翻訳言語で翻訳されている場合には、オリジナル言語の音声データと2つ以上の翻訳言語の音声データの3つ以上の音声データが比較されてもよい。
(3)会話区間検出装置100は、第1〜第3のモードのうちいずれか1のモードで会話シーン検出処理を実行することができるが、本発明は、これに限定されず、何れか1のモードのみで会話シーン検出処理を実行できればよい。
(4)会話区間検出装置100は汎用機であるが、これに限定されず、専用機であってもよい。
区分音声データのスペクトル波形の一例を示す図である。 区分音声データのスペクトル波形の一例を示す図である。 本実施形態にかかる会話区間検出装置の構成を示すブロック図である。 第1のモード設定時の会話シーン検出部の構成を示すブロック図である。 第2のモード設定時の会話シーン検出部の構成を示すブロック図である。 第3のモード設定時の会話シーン検出部の構成を示すブロック図である。
符号の説明
2−HDD(記憶部) 6−入力部(データ読み込み部) 100−会話区間検出装置 821−データ区分け部(周波数解析部) 821A−データ区分け部(一致度算出部) 821B−データ区分け部(周波数解析部、一致度算出部) 823−周波数解析部 824−倍音検出部(検出部) 825,825A,825B−音声判定部 826−一致度算出部

Claims (6)

  1. 会話シーンを含む映像音声データにおける、会話シーンの音声データを検出する会話区間検出装置において、
    前記映像音声データの音声データを読み込むデータ読み込み部と、
    このデータ読み込み部で読み込んだ音声データを所定時間長さ毎の区間に区分し、区間毎に周波波数解析を行う周波数解析部と、
    人の声のフォルマントを記憶する記憶部と、
    この周波数解析によって取得した周波数スペクトルを用いて基本周波数を検出し、検出した基本周波数の倍音成分及び非倍音成分を検出する検出部と、
    前記検出した倍音成分の包絡線が記憶部に記憶しているフォルマントを備える場合には、この区間の音声データが会話シーンの音声データであると判定するとともに、
    当該判定区間の前記非倍音成分のレベルと前記倍音成分のレベルを比較し、その比率が一定値より小さい場合に、判定区間の音声データを語学学習に適した音声データであると判断する音声判定部と、
    を備えた会話区間検出装置。
  2. 前記音声判定部は、前記検出部が異なる複数の基本周波数に対応する複数系統の倍音成分を検出したときには、非倍音成分のレベルが倍音成分のレベルと比較して一定値より小さい場合であっても、判定区間の音声データを語学学習に不適切な音声データであると判断する、
    ことを特徴とする請求項1に記載の会話区間検出装置。
  3. 前記音声判定部は、所定周波数以下の低周波成分のレベルを更に検出し、所定値以上のレベルを検出したときには、非倍音成分のレベルが倍音成分のレベルと比較して一定値より小さい場合であっても、判定区間の音声データを語学学習に不適切な音声データであると判断する、
    ことを特徴とする請求項1又は2に記載の会話区間検出装置。
  4. オリジナル言語での会話を含む第1言語音声データとこの第1言語音声データの会話を別の言語で翻訳した第2言語音声データとをマルチトラックで含む映像音声データにおける、会話シーンの音声データを検出する会話区間検出装置において、
    前記第1言語音声データと第2言語音声データとを読み込むデータ読み込み部と、
    この読み込んだ第1言語音声データと第2言語音声データとを所定時間長さの区間にそれぞれ区分して、この区分した第1及び第2言語音声データを再生タイミングが互いに同期するデータ同士で比較して、両音声データの一致度を算出する一致度算出部と、
    この算出した一致度が所定レベルより低い場合に、前記区分した第1及び第2言語音声データが会話シーンのデータであると判定する音声判定部と、
    を備えたことを特徴とする会話区間検出装置。
  5. 会話シーンを含む映像音声データにおける、会話シーンの音声データを会話区間検出装置に検出させる会話区間検出プログラムであって、
    コンピュータを、
    前記映像音声データの音声データをデータ読み込み部に読み込ませる手段と、
    このデータ読み込み部で読み込んだ音声データを所定時間長さ毎の区間に区分し、区間毎に周波波数解析を行う周波数解析部と、
    人の声のフォルマントを記憶部に記憶させる手段と、
    この周波数解析によって取得した周波数スペクトルを用いて基本周波数を検出し、検出した基本周波数の倍音成分及び非倍音成分を検出する検出部と、
    前記検出した倍音成分の包絡線が記憶部に記憶しているフォルマントを備える場合には、この区間の音声データが会話シーンの音声データであると判定するとともに、
    当該判定区間の前記非倍音成分のレベルと前記倍音成分のレベルを比較し、その比率が一定値より小さい場合に、判定区間の音声データを語学学習に適した音声データであると判断する音声判定部と、
    して機能させる会話区間検出プログラム。
  6. オリジナル言語での会話を含む第1言語音声データとこの第1言語音声データの会話を別の言語で翻訳した第2言語音声データとをマルチトラックで含む映像音声データにおける、会話シーンの音声データを検出させる会話区間検出プログラムにおいて、
    コンピュータを、
    前記第1言語音声データと第2言語音声データとをデータ読み込み部に読み込ませる手段と、
    この読み込んだ第1言語音声データと第2言語音声データとを所定時間長さの区間にそれぞれ区分して、この区分した第1及び第2言語音声データを再生タイミングが互いに同期するデータ同士で比較して、両音声データの一致度を算出する一致度算出部と、
    この算出した一致度が所定レベルより低い場合に、前記区分した第1及び第2言語音声データが会話シーンのデータであると判定する音声判定部と、
    して機能させることを特徴とする会話区間検出プログラム。
JP2005319361A 2005-11-02 2005-11-02 会話区間検出装置及び会話区間検出プログラム Withdrawn JP2007127761A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005319361A JP2007127761A (ja) 2005-11-02 2005-11-02 会話区間検出装置及び会話区間検出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005319361A JP2007127761A (ja) 2005-11-02 2005-11-02 会話区間検出装置及び会話区間検出プログラム

Publications (1)

Publication Number Publication Date
JP2007127761A true JP2007127761A (ja) 2007-05-24

Family

ID=38150476

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005319361A Withdrawn JP2007127761A (ja) 2005-11-02 2005-11-02 会話区間検出装置及び会話区間検出プログラム

Country Status (1)

Country Link
JP (1) JP2007127761A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479505A (zh) * 2010-11-30 2012-05-30 Jvc建伍株式会社 声音处理装置及声音处理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479505A (zh) * 2010-11-30 2012-05-30 Jvc建伍株式会社 声音处理装置及声音处理方法
JP2012133346A (ja) * 2010-11-30 2012-07-12 Jvc Kenwood Corp 音声処理装置および音声処理方法

Similar Documents

Publication Publication Date Title
US7467088B2 (en) Closed caption control apparatus and method therefor
AU2004267864B2 (en) Method and apparatus for controlling play of an audio signal
KR100707189B1 (ko) 동영상의 광고 검출 장치 및 방법과 그 장치를 제어하는컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록매체
US20080195386A1 (en) Method and a Device For Performing an Automatic Dubbing on a Multimedia Signal
JP5460709B2 (ja) 音響信号処理装置および方法
US20050180462A1 (en) Apparatus and method for reproducing ancillary data in synchronization with an audio signal
JP2009089032A (ja) 電子機器およびシーン種類表示方法
US20080066104A1 (en) Program providing method, program for program providing method, recording medium which records program for program providing method and program providing apparatus
EP1924092A1 (en) Content replay apparatus, content reproducing apparatus, content replay method, content reproducing method, program and recording medium
JP4712812B2 (ja) 記録再生装置
US8234278B2 (en) Information processing device, information processing method, and program therefor
JP5039020B2 (ja) 電子機器および映像コンテンツ情報表示方法
JP2011203480A (ja) 音声認識装置、及びコンテンツ再生装置
JP2007127761A (ja) 会話区間検出装置及び会話区間検出プログラム
JP2010230972A (ja) 音信号処理装置、その方法、そのプログラム、および、再生装置
JP2006350246A (ja) スピーチ/ポーズ区間検出装置
JP2007174074A (ja) 再生装置
JP4280893B2 (ja) 音声のスピーチ/ポーズ区間検出装置
JP2006157108A (ja) 映像記録再生装置
JP2000092435A (ja) 信号特徴抽出方法及びその装置、音声認識方法及びその装置、動画編集方法及びその装置
CN115841808A (zh) 视频处理方法、装置、电子设备、可读存储介质及系统
JP2009086016A (ja) 音楽検出装置および音楽検出方法
JP2006303868A (ja) 信号属性判定装置、信号属性判定方法、情報信号記録装置、情報信号記録方法、情報信号再生装置、情報信号再生方法、情報信号記録再生装置および情報信号記録再生方法並びに記録媒体
JP2005303949A (ja) 擬声語字幕制作装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081017

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090128