しかしながら、実際に録音したデータでは、1.イベント発生時に必ずしも無音になっていないことがあり、2.イベント発生時以外にも多くの無音部分が存在する、という状態であった。その結果、無音部分をそのまま単純にイベントの生起している時間であると対応付けると、誤りが多数発生してしまうという問題点があった。
図15は、一般的な音声データにおける無音区間と有音区間、およびイベント信号との対応を説明する図である。図中、音声データ300において無音区間301が示され、また、イベント信号データ302において、イベント信号303〜307が示されている。ここでイベント信号303は、無音区間以外において発生している。このように、一般的にページめくりのような生起するイベントは無音区間で発生しがちではあるが、必ずしも無音区間において発生するとは限らない。そのため、単純に対応付けるだけでは正確な同期がとれないという問題があった。
図16は、音声データにおける時間の経過に対する音量を模式的に示したグラフである。無音区間を検出するための音量閾値を、レベル401のように設定すると、多くの無音区間401a〜401iが検出されてしまう。また、レベル403のように設定すると、ほとんど無音区間は検出できなくなる。ここでは無音区間の検出のための音量閾値を、レベル402のように設定すると、適切な個数の無音区間402a〜403cが検出できることを示している。このように、無音区間が検出された検出数は、同時に音声データ中に取得されている音量の閾値をどのように設定するかに依存するのであるが、同期操作を行うためにはどの程度の閾値が無音区間検出に好適であるかが不明であるという問題点があった。
本発明は、上記に鑑みてなされたものであって、取得された音声データにおいて、イベント発生時が必ずしも無音区間ではない場合、およびイベント発生時以外にも多くの無音部分が存在する場合があったとしも、音声データとイベント信号とを時間的にずらしながら比較して、簡易な方式によりロバストに最適な同期時間を決定できるデータ同期装置、データ同期方法、およびその方法をコンピュータに実行させるプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、請求項1にかかる発明は、発生する音声を記録した音声データと、前記音声に並行して発生するタイミング信号を含む複数のイベント信号とを、非同期的に取得して同期させるデータ同期装置であって、取得された前記音声データにおける複数の無音区間を検出する区間検出手段と、取得された前記音声データおよび複数のイベント信号を同期させる際の時間的なずれである複数の同期時間差を設定する設定手段と、前記設定手段によって設定された複数の同期時間差ごとに、前記複数のイベント信号が、前記区間検出手段によって検出された無音区間を含む所定の判定区間内に含まれるか否かを判定して、含まれると判定した前記イベント信号に従って、前記複数の無音区間と前記複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出する算出手段と、前記算出手段によって算出された前記複数の同期時間差ごとの一致度に基づいて前記音声データとイベント信号との同期時間を決定する決定手段と、を備えたことを特徴とする。
この請求項1にかかる発明によれば、区間検出手段が、取得された音声データにおける複数の無音区間を検出する。設定手段が、取得された音声データおよび複数のイベント信号を同期させる際の時間的なずれである複数の同期時間差を設定する。算出手段が、設定手段によって設定された複数の同期時間差ごとに、複数のイベント信号が、区間検出手段によって検出された無音区間を含む所定の判定区間内に含まれるか否かを判定して、含まれると判定したイベント信号に従って、複数の無音区間と複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出する。決定手段が、算出手段によって算出された複数の同期時間差ごとの一致度に基づいて音声データとイベント信号との同期時間を決定する。この構成によって、それぞれ無音区間を含んで無音区間以上幅のある判定区間とイベント信号との一致度を同期時間差毎にずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。
また、請求項2にかかる発明は、請求項1に記載のデータ同期装置において、前記算出手段が判定する前記複数の判定区間は前記複数の無音区間であり、かつ前記算出手段は、前記設定手段によって設定された複数の同期時間差ごとに、前記複数のイベント信号が前記区間検出手段によって検出された複数の無音区間内に含まれるか否かを判定して含まれると判定した前記イベント信号に従って、前記複数の無音区間と前記複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出するものであることを特徴とする。
この請求項2にかかる発明によれば、算出手段が判定する複数の判定区間は複数の無音区間であり、かつ算出手段は、設定手段によって設定された複数の同期時間差ごとに、複数のイベント信号が区間検出手段によって検出された複数の無音区間内に含まれるか否かを判定して含まれると判定したイベント信号に従って、複数の無音区間と複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出する。この構成によって、無音区間とイベント信号との一致度を同期時間差毎にずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。
また、請求項3にかかる発明は、発生する音声を記録した音声データと、前記音声に並行して発生するタイミング信号を含む複数のイベント信号とを、非同期的に取得して同期させるデータ同期装置であって、取得された前記音声データにおける複数の無音区間を検出する区間検出手段と、取得された前記音声データおよび複数のイベント信号を同期させる際の時間的なずれである複数の同期時間差を設定する設定手段と、前記設定手段によって設定された複数の同期時間差ごとに、前記複数のイベント信号が前記区間検出手段によって検出された複数の無音区間内に含まれるか否かを判定して含まれると判定した前記イベント信号の個数に従って、前記複数の無音区間と前記複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出する算出手段と、前記算出手段によって算出された前記複数の同期時間差ごとの一致度に基づいて前記音声データとイベント信号との同期時間を決定する決定手段と、を備えたことを特徴とする。
この請求項3にかかる発明によれば、発生する音声を記録した音声データと、音声に並行して発生するタイミング信号を含む複数のイベント信号とを、非同期的に取得して同期させるデータ同期装置であって、区間検出手段が取得された音声データにおける複数の無音区間を検出し、設定手段が取得された音声データおよび複数のイベント信号を同期させる際の時間的なずれである複数の同期時間差を設定する。算出手段が、設定手段によって設定された複数の同期時間差ごとに、複数のイベント信号が区間検出手段によって検出された複数の無音区間内に含まれるか否かを判定して含まれると判定したイベント信号の個数に従って、複数の無音区間と複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出する。決定手段が、算出手段によって算出された複数の同期時間差ごとの一致度に基づいて音声データとイベント信号との同期時間を決定する。この構成によって、無音区間とイベント信号との一致度を同期時間差ごとにずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。
また、請求項4にかかる発明は、請求項1〜3のいずれか1つに記載のデータ同期装置において、前記複数のイベント信号は、前記音声の発生に並行して表示画面に順次表示される各画面画像が切り替わるときの複数の切り替わりタイミング信号であり、前記決定手段は、前記算出手段によって算出された前記複数の同期時間差ごとの一致度に基づいて前記音声データと、前記音声の発生に並行して表示画面に順次表示される各画面画像が切り替わるときの複数の切り替わりタイミング信号との同期時間を決定するものであることを特徴とする。
この請求項4にかかる発明によれば、複数のイベント信号は、音声の発生に並行して表示画面に順次表示される各画面画像が切り替わるときの複数の切り替わりタイミング信号であり、決定手段は、算出手段によって算出された複数の同期時間差ごとの一致度に基づいて音声データと、音声の発生に並行して表示画面に順次表示される各画面画像が切り替わるときの複数の切り替わりタイミング信号との同期時間を決定する。この構成によって、例えば講演者が上映するスライドを変化させながら説明する場合においては、一般に無音区間に生じやすいスライドの変化の切り替わりタイミング信号を使用することによって、講演者の講演による音声データと、講演に対応して切り替わるスライドの切替タイミング信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。
また、請求項5にかかる発明は、請求項1〜4のいずれか1つに記載のデータ同期装置において、前記音声データにおける音量閾値を設定する閾値設定手段を、さらに備え、前記区間検出手段は、前記閾値設定手段によって設定された音量閾値と前記音声データにおける音量との大小を判定して小であると判定した区間を、前記無音区間として検出するものであり、前記算出手段は、前記設定された音量閾値ごとに前記複数の一致度を算出するものであり、前記決定手段は、前記音量閾値ごとに算出された前記複数の一致度の大小を判定して、一致度が大であると判定された音量閾値の一致度における同期時間差を、前記音声データとイベント信号との同期時間として決定するものであることを特徴とする。
この請求項5にかかる発明によれば、音声データにおける音量閾値を設定する閾値設定手段を、さらに備え、区間検出手段は、閾値設定手段によって設定された音量閾値と音声データにおける音量との大小を判定して小であると判定した区間を、無音区間として検出し、算出手段は、設定された音量閾値ごとに複数の一致度を算出し、決定手段は、音量閾値ごとに算出された複数の一致度の大小を判定して、一致度が大であると判定された音量閾値の一致度における同期時間差を、音声データとイベント信号との同期時間として決定する。この構成によって、音量閾値によって設定された無音区間とイベント信号との一致度を同期時間差ごとにずらせながらロバストに算出できるので、音量閾値を調整することにより無音区間を調整しながら音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。
また、請求項6にかかる発明は、請求項1〜5のいずれか1つに記載のデータ同期装置において、前記決定手段は、前記複数の同期時間差に対する前記複数の一致度による極値を検出し、検出された前記極値を与える同期時間差を、前記音声データとイベント信号との同期時間として決定するものであることを特徴とする。
この請求項6にかかる発明によれば、決定手段は、複数の同期時間差に対する複数の一致度による極値を検出し、検出された極値を与える同期時間差を、音声データとイベント信号との同期時間として決定する。この構成によって、複数の同期時間差に対する複数の一致度による極値を与える同期時間差を同期時間として決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。
また、請求項7にかかる発明は、請求項5または6に記載のデータ同期装置において、前記閾値設定手段は、前記区間検出手段によって検出された前記無音区間の個数と前記イベント信号中のイベント信号の個数との比を算出して、算出された前記比が所定の範囲に含まれるように前記音量閾値を設定するものであることを特徴とする。
この請求項7にかかる発明によれば、閾値設定手段は、区間検出手段によって検出された無音区間の個数とイベント信号中のイベント信号の個数との比を算出して、算出された比が所定の範囲に含まれるように音量閾値を設定する。この構成によって、無音区間の個数とイベント信号の個数との比率を、最適な範囲に含まれるように音量閾値を設定して、無音区間とイベント信号との一致度を同期時間差ごとにずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。
また、請求項8にかかる発明は、請求項6または7に記載のデータ同期装置において、前記閾値設定手段は、前記決定手段によって検出された前記極値が複数ある場合、最大の極値(最大値)と第2番目の極値とを算出し、算出された前記最大の極値と第2番目の極値との大小関係が所定の範囲となるように前記音量閾値を設定するものであり、前記決定手段は、前記閾値設定手段によって設定された前記音量閾値において生じた前記最大の極値を与える同期時間差を、前記音声データとイベント信号との同期時間として決定するものであることを特徴とする。
この請求項8にかかる発明によれば、閾値設定手段は、決定手段によって検出された極値が複数ある場合、最大の極値(最大値)と第2番目の極値とを算出し、算出された最大の極値と第2番目の極値との大小関係が所定の範囲となるように音量閾値を設定するものであり、決定手段は、閾値設定手段によって設定された音量閾値において生じた最大の極値を与える同期時間差を、音声データとイベント信号との同期時間として決定する。この構成によって、際立った一致度の極値が現れるように音量閾値を調整して、一致度の際立った極値を与える音量閾値を使用して同期時間を決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。
また、請求項9にかかる発明は、請求項6〜8のいずれか1つに記載のデータ同期装置において、前記閾値設定手段は、前記決定手段によって検出された前記極値が複数ある場合、最大の極値(最大値)と第2番目の極値とを算出し、算出された前記最大の極値と第2番目の極値との大小関係が最大となるように前記音量閾値を設定するものであり、前記決定手段は、前記閾値設定手段によって設定された前記音量閾値において生じた前記最大の極値を与える同期時間差を、前記音声データとイベント信号との同期時間とし決定するものであることを特徴とする。
この請求項9にかかる発明によれば、閾値設定手段は、決定手段によって検出された極値が複数ある場合、最大の極値(最大値)と第2番目の極値とを算出し、算出された最大の極値と第2番目の極値との大小関係が最大となるように音量閾値を設定するものであり、決定手段は、閾値設定手段によって設定された音量閾値において生じた最大の極値を与える同期時間差を、音声データとイベント信号との同期時間とし決定する。この構成によって、際立った一致度の極値が現れるように音量閾値を調整して、一致度の際立った極値を与える音量閾値を使用して同期時間を決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。
また、請求項10にかかる発明は、請求項6または7に記載のデータ同期装置において、前記閾値設定手段は、前記決定手段によって検出された前記極値が複数ある場合、最大の極値(最大値)と第2番目の極値との比を算出し、算出された前記比が所定の範囲に含まれるように前記音量閾値を設定するものであり、前記決定手段は、前記閾値設定手段によって設定された前記音量閾値において生じた前記最大の極値を与える同期時間差を、前記音声データとイベント信号との同期時間として決定するものであることを特徴とする。
この請求項10にかかる発明によれば、閾値設定手段は、決定手段によって検出された極値が複数ある場合、最大の極値(最大値)と第2番目の極値との比を算出し、算出された比が所定の範囲に含まれるように音量閾値を設定し、決定手段は、閾値設定手段によって設定された音量閾値において生じた最大の極値を与える同期時間差を、音声データとイベント信号との同期時間として決定する。この構成によって、際立った一致度の極値が現れるように音量閾値を調整して、一致度の際立った極値を与える音量閾値を使用して同期時間を決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。
また、請求項11にかかる発明は、請求項6,7,10のいずれか1つに記載のデータ同期装置において、前記閾値設定手段は、前記決定手段によって検出された前記極値が複数ある場合、最大の極値(最大値)と第2番目の極値との比を算出し、算出された前記比が最大となる音量閾値を設定するものであり、前記決定手段は、前記閾値設定手段によって設定された前記音量閾値において生じた前記最大の極値を与える同期時間差を、前記音声データとイベント信号との同期時間とし決定するものであることを特徴とする。
この請求項11にかかる発明によれば、閾値設定手段は、決定手段によって検出された極値が複数ある場合、最大の極値(最大値)と第2番目の極値との比を算出し、算出された比が最大となる音量閾値を設定するものであり、決定手段は、閾値設定手段によって設定された音量閾値において生じた最大の極値を与える同期時間差を、音声データとイベント信号との同期時間とし決定する。この構成によって、際立った一致度の極値が現れるように音量閾値を調整して、一致度の際立った極値を与える音量閾値を使用して同期時間を決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。
また、請求項12にかかる発明は、請求項5〜11のいずれか1つに記載のデータ同期装置において、前記閾値設定手段は、前記音声データにおけるノイズレベルを検出し、前記検出されたノイズレベルを使用して前記音量閾値を設定するものであることを特徴とする。
この請求項12にかかる発明によれば、閾値設定手段は、音声データにおけるノイズレベルを検出し、検出されたノイズレベルを使用して音量閾値を設定する。この構成によって、適正な音量閾値を設定でき、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。
また、請求項13にかかる発明は、請求項6〜12のいずれか1つに記載のデータ同期装置において、前記決定手段によって検出された前記複数の同期時間差に対する複数の一致度を表示する表示手段と、前記表示手段によって表示された前記複数の同期時間差に対する複数の一致度による極値のうちから、前記極値を与える同期時間差を操作者が指定する指定入力を受け付ける操作手段と、をさらに備え、前記決定手段は、前記操作手段によって受け付けられた指定入力による同期時間差を、前記音声データとイベント信号との同期時間として決定するものであることを特徴とする。
この請求項13にかかる発明によれば、決定手段によって検出された複数の同期時間差に対する複数の一致度を表示する表示手段と、表示手段によって表示された複数の同期時間差に対する複数の一致度による極値のうちから、極値を与える同期時間差を操作者が指定する指定入力を受け付ける操作手段と、をさらに備え、決定手段は、操作手段によって受け付けられた指定入力による同期時間差を、音声データとイベント信号との同期時間として決定する。この構成によって、操作者が、表示手段に表示された一致度のピークを観察しながら適正な同期時間を決定できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。
また、請求項14にかかる発明は、データ同期方法であって、発生する音声を記録した音声データと、前記音声に並行して発生するタイミング信号を含む複数のイベント信号とを、非同期的に取得して同期させるデータ同期方法であって、取得された前記音声データにおける複数の無音区間を検出する区間検出工程と、取得された前記音声データおよび複数のイベント信号を同期させる際の時間的なずれである複数の同期時間差を設定する設定工程と、前記設定工程によって設定された複数の同期時間差ごとに、前記複数のイベント信号が、前記区間検出工程によって検出された無音区間を含む所定の判定区間内に含まれるか否かを判定して、含まれると判定した前記イベント信号に従って、前記複数の無音区間と前記複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出する算出工程と、前記算出工程によって算出された前記複数の同期時間差ごとの一致度に基づいて前記音声データとイベント信号との同期時間を決定する決定工程と、を含むことを特徴とする。
この請求項14にかかる発明によれば、取得された音声データにおける複数の無音区間を検出する区間検出工程と、取得された音声データおよび複数のイベント信号を同期させる際の時間的なずれである複数の同期時間差を設定する設定工程と、設定工程によって設定された複数の同期時間差ごとに、複数のイベント信号が、区間検出工程によって検出された無音区間を含む所定の判定区間内に含まれるか否かを判定して含まれると判定したイベント信号に従って、複数の無音区間と複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出する算出工程と、算出工程によって算出された複数の同期時間差ごとの一致度に基づいて音声データとイベント信号との同期時間を決定する決定工程と、を含む。この構成によって、それぞれ無音区間を含んで無音区間以上幅のある判定区間とイベント信号との一致度を同期時間差毎にずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期方法を提供できる。
また、請求項15にかかる発明は、請求項14に記載のデータ同期方法において、前記算出工程が判定する前記複数の判定区間は前記複数の無音区間であり、かつ前記算出工程は、前記設定工程によって設定された複数の同期時間差ごとに、前記複数のイベント信号が前記区間検出工程によって検出された複数の無音区間内に含まれるか否かを判定して含まれると判定した前記イベント信号に従って、前記複数の無音区間と前記複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出するものであることを特徴とする。
この請求項15にかかる発明によれば、算出工程が判定する複数の判定区間は複数の無音区間であり、かつ算出工程は、設定工程によって設定された複数の同期時間差ごとに、複数のイベント信号が区間検出工程によって検出された複数の無音区間内に含まれるか否かを判定して含まれると判定したイベント信号に従って、複数の無音区間と複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出するものであることを特徴とする。この構成によって、無音区間とイベント信号との一致度を同期時間差毎にずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期方法を提供できる。
また、請求項16にかかる発明は、発生する音声を記録した音声データと、前記音声に並行して発生するタイミング信号を含む複数のイベント信号とを、非同期的に取得して同期させるデータ同期方法であって、取得された前記音声データにおける複数の無音区間を検出する区間検出工程と、取得された前記音声データおよび複数のイベント信号を同期させる際の時間的なずれである複数の同期時間差を設定する設定工程と、前記設定工程によって設定された複数の同期時間差ごとに、前記複数のイベント信号が前記区間検出工程によって検出された複数の無音区間内に含まれるか否かを判定して含まれると判定した前記イベント信号の個数に従って、前記複数の無音区間と前記複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出する算出工程と、前記算出工程によって算出された前記複数の同期時間差ごとの一致度に基づいて前記音声データとイベント信号との同期時間を決定する決定工程と、を備えたことを特徴とする。
この請求項16にかかる発明によれば、発生する音声を記録した音声データと、音声に並行して発生するタイミング信号を含む複数のイベント信号とを、非同期的に取得して同期させるデータ同期方法であって、区間検出工程が取得された音声データにおける複数の無音区間を検出し、設定工程が取得された音声データおよび複数のイベント信号を同期させる際の時間的なずれである複数の同期時間差を設定し、算出工程が設定工程によって設定された複数の同期時間差ごとに、複数のイベント信号が区間検出工程によって検出された複数の無音区間内に含まれるか否かを判定して含まれると判定したイベント信号の個数に従って、複数の無音区間と複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出し、決定工程が算出工程によって算出された複数の同期時間差ごとの一致度に基づいて音声データとイベント信号との同期時間を決定する。この構成によって、無音区間とイベント信号との一致度を同期時間差ごとにずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期方法を提供できる。
また、請求項17にかかる発明は、請求項14〜16のいずれか1つに記載のデータ同期方法において、前記複数のイベント信号は、前記音声の発生に並行して表示画面に順次表示される各画面画像が切り替わるときの複数の切り替わりタイミング信号であり、前記決定工程は、前記算出工程によって算出された前記複数の同期時間差ごとの一致度に基づいて前記音声データと、前記音声の発生に並行して表示画面に順次表示される各画面画像が切り替わるときの複数の切り替わりタイミング信号との同期時間を決定するものであることを特徴とする。
この請求項17にかかる発明によれば、複数のイベント信号は、音声の発生に並行して表示画面に順次表示される各画面画像が切り替わるときの複数の切り替わりタイミング信号であり、決定工程は、算出工程によって算出された複数の同期時間差ごとの一致度に基づいて音声データと、音声の発生に並行して表示画面に順次表示される各画面画像が切り替わるときの複数の切り替わりタイミング信号との同期時間を決定する。この構成によって、例えば講演者が上映するスライドを変化させながら説明する場合においては、一般に無音区間に生じやすいスライドの変化の切り替わりタイミング信号を使用することによって、講演者の講演による音声データと、講演に対応して切り替わるスライドの切替タイミング信号とをロバストに正確に同期させることができるデータ同期方法を提供できる。
また、請求項18にかかる発明は、請求項14〜17のいずれか1つに記載のデータ同期方法において、前記音声データにおける音量閾値を設定する閾値設定工程を、さらに備え、前記区間検出工程は、前記閾値設定工程によって設定された音量閾値と前記音声データにおける音量との大小を判定して小であると判定した区間を、前記無音区間として検出するものであり、前記算出工程は、前記設定された音量閾値ごとに前記複数の一致度を算出するものであり、前記決定工程は、前記音量閾値ごとに算出された前記複数の一致度の大小を判定して、一致度が大であると判定された音量閾値の一致度における同期時間差を、前記音声データとイベント信号との同期時間として決定するものであることを特徴とする。
この請求項18にかかる発明によれば、音声データにおける音量閾値を設定する閾値設定工程を、さらに備え、区間検出工程は、閾値設定工程によって設定された音量閾値と音声データにおける音量との大小を判定して小であると判定した区間を、無音区間として検出するものであり、算出工程は、設定された音量閾値ごとに複数の一致度を算出するものであり、決定工程は、音量閾値ごとに算出された複数の一致度の大小を判定して、一致度が大であると判定された音量閾値の一致度における同期時間差を、音声データとイベント信号との同期時間として決定する。この構成によって、音量閾値によって設定された無音区間とイベント信号との一致度を同期時間差ごとにずらせながらロバストに算出できるので、音量閾値を調整することにより無音区間を調整しながら音声データとイベント信号とをロバストに正確に同期させることができるデータ同期方法を提供できる。
また、請求項19にかかる発明は、請求項14〜18のいずれか1つに記載のデータ同期方法において、前記決定工程は、前記複数の同期時間差に対する前記複数の一致度による極値を検出し、検出された前記極値を与える同期時間差を、前記音声データとイベント信号との同期時間として決定するものであることを特徴とする。
この請求項19にかかる発明によれば、決定工程は、複数の同期時間差に対する複数の一致度による極値を検出し、検出された極値を与える同期時間差を、音声データとイベント信号との同期時間として決定する。この構成によって、複数の同期時間差に対する複数の一致度による極値を与える同期時間差を同期時間として決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期方法を提供できる。
また、請求項20にかかる発明は、プログラムであって、請求項14〜19のいずれか1つに記載のデータ同期方法をコンピュータに実行させることを特徴とする。
この請求項20にかかる発明によれば、請求項14〜19のいずれか1つに記載のデータ同期方法をコンピュータに実行させるプログラムを提供できる。
本発明(請求項1)にかかるデータ同期装置は、それぞれ無音区間を含んで無音区間以上幅のある判定区間とイベント信号との一致度を同期時間差毎にずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。
また、本発明(請求項2)にかかるデータ同期装置は、無音区間とイベント信号との一致度を同期時間差毎にずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。
また、本発明(請求項3)にかかるデータ同期装置は、無音区間とイベント信号との一致度を同期時間差ごとにずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。
また、本発明(請求項4)にかかるデータ同期装置は、例えば講演者が上映するスライドを変化させながら説明する場合においては、一般に無音区間に生じやすいスライドの変化の切り替わりタイミング信号を使用することによって、講演者の講演による音声データと、講演に対応して切り替わるスライドの切替タイミング信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。
また、本発明(請求項5)にかかるデータ同期装置は、音量閾値によって設定された無音区間とイベント信号との一致度を同期時間差ごとにずらせながらロバストに算出できるので、音量閾値を調整することにより無音区間を調整しながら音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。
また、本発明(請求項6)にかかるデータ同期装置は、複数の同期時間差に対する複数の一致度による極値を与える同期時間差を同期時間として決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。
また、本発明(請求項7)にかかるデータ同期装置は、無音区間の個数とイベント信号の個数との比率を、最適な範囲に含まれるように音量閾値を設定して、無音区間とイベント信号との一致度を同期時間差ごとにずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。
また、本発明(請求項8)にかかるデータ同期装置は、際立った一致度の極値が現れるように音量閾値を調整して、一致度の際立った極値を与える音量閾値を使用して同期時間を決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。
また、本発明(請求項9)にかかるデータ同期装置は、際立った一致度の極値が現れるように音量閾値を調整して、一致度の際立った極値を与える音量閾値を使用して同期時間を決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。
また、本発明(請求項10)にかかるデータ同期装置は、際立った一致度の極値が現れるように音量閾値を調整できるので、一致度の際立った極値を与える音量閾値を使用して同期時間を決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。
また、本発明(請求項11)にかかるデータ同期装置は、際立った一致度の極値が現れるように音量閾値を調整できるので、一致度の際立った極値を与える音量閾値を使用して同期時間を決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。
また、本発明(請求項12)にかかるデータ同期装置は、適正な音量閾値を設定でき、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。
また、本発明(請求項13)にかかるデータ同期装置は、操作者が、表示手段に表示された一致度のピークを観察しながら適正な同期時間を決定できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。
また、本発明(請求項14)にかかるデータ同期方法は、それぞれ無音区間を含んで無音区間以上幅のある判定区間とイベント信号との一致度を同期時間差毎にずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期方法を提供できるという効果を奏する。
また、本発明(請求項15)にかかるデータ同期方法は、無音区間とイベント信号との一致度を同期時間差毎にずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期方法を提供できるという効果を奏する。
また、本発明(請求項16)にかかるデータ同期方法は、無音区間とイベント信号との一致度を同期時間差ごとにずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期方法を提供できるという効果を奏する。
また、本発明(請求項17)にかかるデータ同期方法は、例えば講演者が上映するスライドを変化させながら説明する場合においては、一般に無音区間に生じやすいスライドの変化の切り替わりタイミング信号を使用することによって、講演者の講演による音声データと、講演に対応して切り替わるスライドの切替タイミング信号とをロバストに正確に同期させることができるデータ同期方法を提供できるという効果を奏する。
また、本発明(請求項18)にかかるデータ同期方法は、音量閾値によって設定された無音区間とイベント信号との一致度を同期時間差ごとにずらせながらロバストに算出できるので、音量閾値を調整することにより無音区間を調整しながら音声データとイベント信号とをロバストに正確に同期させることができるデータ同期方法を提供できるという効果を奏する。
また、本発明(請求項19)にかかるデータ同期方法は、複数の同期時間差に対する複数の一致度による極値を与える同期時間差を同期時間として決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期方法を提供できるという効果を奏する。
また、本発明(請求項20)にかかるプログラムは、請求項14〜19のいずれか1つに記載のデータ同期方法をコンピュータに実行させることができるという効果を奏する。
会議等の音声が発せられる場面においては、例えばパーソナルコンピュータを用いたディスプレーシステムにおいて講演内容を表示したページをめくるなどの動作が、並行してディスプレー上で行われる。このページめくりのような場面展開の契機となるような動作を、イベントと称する。イベントが行われた時は、パーソナルコンピュータにおいて、イベント信号を生起させて記録することができる。
このように音声データの場合、人間の所作の常として、例えばスライドを切り換える時とか、あるいは本のページをめくる時などは比較的に音声を発しない場合が多く、従ってデータとしては無音状態になる傾向が強い。もちろん、必ずしも無音時にこのようなイベントが起きるわけではなく、またイベントの時が必ずしも無音であるとは限らない。しかしながら、人間の所作の常として、平均的にはこのようなイベントの時に無音状態に成りやすいという現象を本発明はロバストに利用する。
講演者の映像音声は、例えばデジタルビデオカメラによってテープに録画する。それと並行して別に、講演者によるノートパソコン上のプレゼンテーションソフトウェアを用いたスライドのページめくりのイベントを、イベント記録用のソフトウエアで記録しておく。一般的にプレゼンテーションに使用されるノートパソコンと、デジタルビデオカメラの計時は合っていない。そのため、音声データと、スライドのページめくりを含むイベント信号とは、一般的に同期していないので、データを同期させる必要がある。以下に、この発明にかかるデータ同期装置、データ同期方法、およびその方法をコンピュータに実行させるプログラムの最良な実施の形態を詳細に説明する。
(1.実施の形態1)
(1.1.全体構成)
図1は、実施の形態1によるデータ同期装置の構成を示す機能的ブロック図である。本発明の実施の形態1によるデータ同期装置10は、音声データ入力部11と、区間検出部12と、イベント信号入力部13と、一致度算出部14と、時間差設定部15と、同期決定部16とを、制御部17と、表示部18と、操作部19とを備える。
音声データ入力部11は、講演等において発せられた音声が記録された音声データを、取得する。音声データ入力部11によって取得された音声データは、音声データ中に音声が検出される有音区間と、音声が検出されない無音区間とを含む。
区間検出部12は、音声データ中の有音区間と無音区間とを判別して検出する。検出は、例えば音量閾値による判定の方式が可能である。イベント信号入力部13は、パーソナルコンピュータ(不図示)などによって記録されたイベント信号データを取得する。
一致度算出部14は、イベント信号入力部13を介して取得したイベント信号データ中のイベント信号と、区間検出部12によって検出された無音区間とが時間的に一致するか否かを判定し、その一致度を算出する。
時間差設定部15は、一致度算出部14が一致度を算出する際に、音声データとイベント信号とをどのような時間のずれによって算出するかのずれの時間、即ち同期時間差を設定する。ここで、一致度算出部14は、時間差設定部15によって設定された時間差ごとに、即ち照合する時間をずらせながら一致度を算出する。
同期決定部16は、時間差設定部15によって設定された時間ごとに一致度算出部14によって算出された一致度にもとづいて、最適な同期時間を決定する。即ち、一致度が最も高くなる同期時間差でもって、音声データとイベント信号との同期時間を決定する。
表示部18は、算出された一致度、および一致度を与える同期時間差を表示する。操作部19は、表示された一致度から、操作者による選択入力を受け付ける。制御部17は、表示部18および操作部19を制御する。また制御部17は、操作部19によって受け付けられた入力による一致度を与える同期時間差によって、音声データとイベント信号とを同期させて表示部18に表示するよう制御する。これにより、操作者は目視により同期が実際に正しいかどうかを確認することができる。
ここで、一致度算出部14は本発明の算出手段を構成する。時間差設定部15は本発明の設定手段を構成する。同期決定部16は本発明の決定手段を構成する。制御部17と表示部18とは、本発明の表示手段を構成する。制御部17と操作部19とは本発明の操作手段を構成する。
ここで、音声データ入力部11は、例えば録音テープからA/D変換を行って取得する。音声データは、デジタルビデオカメラによって記録されたマルチメディアデータに含まれる音声データを用いることもできる。この場合、イベント信号と音声データとを同期させることによって、公知技術を用いてイベント信号と映像信号とを同期させることができる。
区間検出部12は、音量レベルを音量閾値として判定し、無音区間を検出する。ここでは例えば、映像音声データの先頭3秒間分から測定したノイズレベルを基準にして音量レベルを求めて音量閾値として使用する。この音量閾値で音声データの音量を判別し、有音区間、および無音区間を検出する。
一致度算出部14において一致度を算出する関数は、例えば一致度をスコアとして算出する。スコアの算出方法は、イベント信号と無音区間とが重なった場合、スコアを1だけ増加させる関数として定義する。スコア関数として他にも、時間軸に対する一致度がより正規分布に近くなるような別の関数を定義することもできる。
ここでスコア関数は、記録されたイベント全部を無音区間と比較して一致度、即ちスコアを算出する。しかし、イベント全部でなく一部を選択し、選択されたイベント信号を無音区間と比較して一致を算出することも可能である。
時間差設定部15は、ここでは音声データとイベント信号との照合時間を300msずつずらせる。即ち、同期を照合する同期時間差は、300msごとに設定される。一致度算出部14は、設定された300ms刻みで両データを照合し、刻まれた同期時間差による一致度を算出する。ここで一致度は具体的には上述のスコアとして表現される。
図2は、音声データに対してイベント信号を、同期時間差ごとに照合することを説明する図である。音声データ500に対して、異なる同期時間でイベント信号データ501〜503を照合させている。図中、○印は無音区間にイベント信号が生起した場合を示し、×印は無音区間にイベント信号が合致しない場合を示している。図の例では、イベント信号データ502が無音区間とイベント信号との一致度が高くなる。
このようにして一致度算出部14は、時間軸上の音声データと、時間軸上のイベント信号データとを、たがいに300msずつ違えさせてイベント信号全体について、無音区間に含まれているか否かを照合して探索する。一致度算出部14は、それぞれの同期時間差における一致度、即ちスコア値を算出する。
図3は、イベント信号の探索範囲を説明する図である。ここで音声データ600に対して、イベント信号データ601〜606による探索の時間範囲は、イベント信号データにおいて最初から2番目のイベント607から最後から2番目のイベント608までを、音声データの有音区間が存在する可能性のある範囲内として探索する。イベント信号は、記録されたデータ中の有音区間が存在する全体的な範囲内にあるはずなので、その範囲よりも少し広く、かつ無駄を少なくして探索するためである。但し、探索範囲は任意に設定できる。
(1.2.データの最適な同期時間を求める手順)
図4は、実施の形態1によるデータ同期装置が、同期時間を決定する手順を説明するフローチャートである。音声データおよびイベント信号がデータ同期装置10によって取得される。イベント信号データ入力部13は、イベント信号を検出動作に入り(ステップS101)、イベント信号を検出しない場合(ステップS101のNo)、そのまま検出動作を継続する。イベント信号を検出した場合(ステップS101のYes)、音声データ入力部11は音声データを検出し(ステップS102)、音声データ入力部11が音声データを検出しない場合は(ステップS102のNo)、そのまま検出動作を継続する。
音声データ入力部11が音声データを検出した場合(ステップS102のYes)、区間検出部12は、音声データ中の音声が記録されていないか、あるいは所定のレベル以下の音量しか記録されていない区間を、無音区間として検出する(ステップS103)。
時間差設定部15は、同期時間差を設定する(ステップS104)。ここでは、例えば上記のように300msごとの時間の刻み幅に設定する。そして、各設定された各同期時間差において、一致度算出部14は、イベント信号におけるイベント信号が無音区間に入っているか否かを検出し、検出された結果、一致していればスコアを1増加させて一致度を算出する(ステップS105)。
ここで、同期決定部16は、各設定時間ごとに算出された一致度(即ち、スコア)を保存し、その中で最大値を判定し(ステップS106)、保存する(ステップS107)。同期決定部16は、全ての同期時間差での算出を終了したか否かを判定し(ステップS108)、終了していない場合(ステップS108のNo)は、ステップS104に戻る。同期決定部16が、全ての同期時間差での算出を終了したと判定した場合(ステップS108のYes)、同期決定部16は、一致度の最大値を与える時間差で、音声データとイベント信号データとの同期時間を決定する(ステップS109)。
ここで、表示部18は、同期決定部16が保存する一致度、即ちスコアを高い順番に表示する。制御部17は、操作者による操作部19からの同期時間差の選択入力によって、音声データとイベント信号とを同期させて表示部18に表示するよう制御する。
また、制御部17は、操作者による操作部19からの同期時間差の選択入力によって、選択された同期時間差によって、同期時間を決定する構成としても良い。
図5は、同期時間差に対する一致度(スコア)の関係を模式的に示したグラフである。ここでは、特定の同期時間差701が顕著なピーク702を与えていることが示されている。この顕著なピーク702を与える同期時間差701をもって、最適な同期時間と決定する。
ここで、複数の無音区間とイベントの対応について他のスコア関数を定義して、最適な同期時間を判定しても良い。
(1.3.効果)
上述の構成によって、イベント発生時に必ずしも無音になっていない場合を含み、イベント発生時以外にも多くの無音部分が存在する音声データに対しても、ロバストにずらし同期時間を検出するので、最適な同期を決定することができる。
イベント1個1個と無音区間の1個1個とを対応付けるのでなく、イベント全体と無音区間とが照合して適合度を表すスコア関数を使用するので、一致する度合いが最大となる同期時間差(ずらし時間)を探索する。これにより、イベント発生が有音区間に含まれた場合があったとしても、スコア関数の最大値を求めることにより、ロバストに最適な同期時間を得ることができる。それ故、同期を取るために、スライドページがめくられたのを目で見て、その時の映像のカウンターの値をメモしたり、映像の一部にプレゼンの画像を入れるなどして余分な手間を省くことができるので、マルチメディアコンテンツの作成が容易になる。
また、最適値であると判定された同期時間によって同期したコンテンツをプレビューして、同期が合っていることを操作者が確認し、好適に同期していれば、判定された同期時間でコンテンツを同期して作成することができる。一致していなければ、次候補の同期時間差で同期させたコンテンツをプレビューし、操作者が適正に同期していると判定して、同期時間として決定するまで表示させることができる。適正に同期していると判定された場合は、判定された同期時間でマルチメディアコンテンツを同期させて作成することにより、映像・音声とスライドをめくるイベントのタイミングが合ったマルチメディアコンテンツが作成できる。
なお、ここでイベントとしては講演会などのページめくりを想定したが、イベント発生時に音声が無音状態になる可能性があるイベントであるならば、如何なるイベントに対しても本発明は適用可能である。
(2.実施の形態2)
(2.1.全体構成)
実施の形態2によるデータ同期装置が実施の形態1と異なる点は、同期決定部16が、算出された一致度および同期時間差によって一致度のピークを検出し、そのピーク値から最適な同期時間を決定することである。同期決定部16は、同期時間差ごとに算出された探索結果の妥当性を表すスコア値(一致度)のピーク値を検出し、スコアが最大となる同期時間を最適値の候補として、その中から最適な同期時間を決定する。
ここで、同一のピーク値が複数あって、かつその複数のピーク値が同一のピークに含まれている場合は、それら複数のピーク値を与える同期時間差の平均時間を最適値の同期時間と決定する。一方、複数のピーク値を与える時間が異なるピークに含まれている場合、それぞれのピーク値を与える同期時間差を、最適な同期時間の候補であると判断する。
(2.2.実施の形態2によるデータ同期の手順)
図6は、実施の形態2によるデータ同期装置が、同期時間を決定する手順を説明するフローチャートである。ここで、ステップS201からステップS204までは、図4に示された実施の形態1によるデータ同期時間決定の動作のフローチャートにおけるステップS101からステップS104までと同様であるので、説明を省略する。
一致度算出部14は、設定された同期時間差における一致度を算出し、算出された一致度と対応する同期時間差を保存する(ステップS205)。同期決定部16は、全ての同期時間差での一致度が算出されたか否かを判定し(ステップS206)、未終了の場合(ステップS206のNo)ステップS204に戻って同じステップを繰り返す。終了している場合(ステップS206のYes)は、同期決定部16は、一致度のピークが存在するか否かを検出する(ステップS207)。
ここで、ピークが存在しないと判定された場合(ステップS207のNo)、同期時間の決定は失敗として終了する。一方、同期決定部16が、一致度のピークがあると判定した場合(ステップS207のYes)、同期決定部16は、判定されたピークから最大のピーク値を与える同期時間を決定する。ピーク値から時間差を選択する方式は既に述べた通りである。
(2.3.効果)
音声データとイベント信号データとの一致度が最大となる同期時間差のみを求めるのではなく、その前後の一致度を比較可能なピークから全体的に最適な同期時間を判定し決定するので、より正確に音声データとイベント信号データとの同期時間を決定できる。
(3.実施の形態3)
(3.1.全体構成)
図7は、実施の形態3によるデータ同期装置の機能的ブロック図である。実施の形態3によるデータ同期装置30が実施の形態2によるデータ同期装置と異なる点は、閾値設定部31を備えた点である。閾値設定部31は、区間検出部12が無音区間を検出する際の音量のレベルである音量閾値を設定する。また、区間検出部12は、設定された音量閾値でもって無音区間を検出する。
ここで、閾値設定部31は、本発明の閾値設定手段を構成する。
また、区間検出部32は、無音区間が適切な個数であるか否かを判定する点が異なる。区間検出部32が検出した無音区間の個数によっては、閾値設定部31は再度、音量閾値を設定し直し、区間検出部32は、設定し直された閾値によって再び無音区間の個数を検出する。
また、同期決定部36が検出した一致度のピーク特性によっては、閾値設定部31は新たに音量閾値を設定し直す点が異なる。同期決定部36が判定した特性により、閾値設定部が設定し直した音量閾値によって、最適な同期時間を探索する。
ここでは、講演者の映像音声をデジタルビデオカメラからIEEE1394インタフェースでノートパソコン100(図14)のハードディスク104上へキャプチャーする。同時に講演者による別のノートパソコン(不図示)上のプレゼンテーションソフトウェアを用いたスライドのページめくりのイベントを、イベント記録用のソフトウエアで記録しておく。このとき、講演会場が広く、映像音声をキャプチャーしているノートパソコン100と、プレゼンテーションに使用されるノートパソコンとは、無線あるいは有線LANによって接続できず、音声データに同期してイベント信号をパーソナルコンピュータ100は取得できない場合とする。それ故、映像音声データと、イベント信号データとは同期していない状態である。
また、講演は1日中複数の人により行われ、複数の映像音声データとイベント信号データが取得された場合を考える。
(3.2.実施の形態3によるデータ同期装置の同期時間決定手順)
図8は、実施の形態3によるデータ同期装置の同期手順を説明するフローチャートである。実施の形態3によるデータ同期装置が使用される場面は、実施の形態1におけると同様に講演会をマルチメディアコンテンツに記録しようとする場合とする。音声データとイベント信号が同期されずに取得されるのは、実施の形態1の場合と同様である。
ここでステップS301からステップS303までは、実施の形態2によるデータ同期装置の動作であるステップS201からステップS203(図6)までと同じであるので、説明を省略する。
区間検出部32は、検出された無音区間の数とイベントの数を比較し、無音区間の数が適当な数、例えばイベントの数の2倍以上であるか否かを判定する(ステップS304)。2倍以上でないと判定されれば(ステップS304のNo)、閾値設定部31は、音量閾値を増加させるなどして調整する(ステップS305)。その反対に、区間検出部32が、無音区間がイベント数の2倍以上であると判定した場合(ステップS305のYes)、時間差設定部15は同期時間差を設定する(ステップS306)。この手順によって、同期処理を行うための適切な無音区間数を設定するために音量閾値に自動調節する。
次のステップS306からステップS309までの手順は、実施の形態2によるデータ同期手順のステップS204からステップS207(図6)までと同様であるので、説明を省略する。ただし、ここでは時間差設定部15は、同期時間を100msずつ増加させながら、各同期時間についてスコアを求めるものとする。閾値設定部31によって音量閾値を調整できるので、同期時間差を実施の形態1によるデータ同期装置を使用する場合よりもより時間差を細密に設定したものである。
同期決定部36は、検出されたピークをのうち最大値を取るピークと他のピークとの差が十分であるか否かを判定する(ステップS310)。例えば、最大のピーク値が、他のピーク値の10倍以上であるか否かを判定する。ここで、10倍以上でないと判定された場合(ステップS310のNo)、ステップS305に戻り、音量閾値を設定し直して再びステップS303からステップS309までを繰り返す。最大ピーク値が他のピーク値の10倍以上であると判定された場合(ステップS310のYes)、同期決定部16は、最大ピークを与える同期時間差によって、最適な同期時間を決定する(ステップS311)。
このようにして、検出された一致度のピークが顕著なものでないと判定された場合、音量閾値を増加させて、無音区間の検出処理のステップまで戻り、スコアの最大値と他のピークのスコア最大値との差を求め直し、十分に顕著な差が検出されるまで繰り返す。例えば、量ピークの差異が最大となる音量閾値が得られるまで繰り返す。最終的に、スコアの最大値と他のピークのスコア最大値との差が最大となる音量閾値を最適な音量閾値と推定し、そのときの同期時間を最適な同期時間と判断する。
判断された同期時間によって同期したコンテンツが作成される。以上に述べた処理が、同期されずに取得された各データについて施されることにより、全自動でバッチ的に同期したコンテンツが作成可能である。
図9〜11は、音量閾値を変化させた場合の同期時間差に対する一致度を示すグラフである。図9は、音量閾値の設定が高すぎる場合に現れるピークを示している。この場合は、現れるピークが多すぎる。図10は、音量閾値の設定が低すぎる場合に現れるピークを示している。この場合は、現れるピークが単純であって、顕著な差を検出することができない。図11は、音量閾値の設定が適正である場合に現れるピークを示している。この場合は、顕著なピーク1001が現れて、適正な同期時間差を検出できる。
実施の形態3によるデータ同期の手順では、音量閾値を増加させる調整を説明したが、増加に限ることなく、場合によっては減少させる調整もあり得る。
音量閾値を調整することによって、最大の極値と2番目の極値の値の比が一定(例えば10)以上になるように調整することが望ましい。その時の最大値を与える同期時間差を同期時間と採用する。
また、音量閾値を調整することによって、最大の極値と2番目の極値の値の比が最大になるように調整することが望ましい。その時の最大値を与える同期時間差を同期時間と採用する。
また、上記の方式によっても正しい同期のためのずらし時間が得られない場合に対応するため、操作者が最適な選択肢から順番に選択が可能となるように、ピークのスコア値の高い方から順番に操作者に提示し、選択できる表示部22と操作部23とを備えることができる。
その際、同期を操作者が確認するためのマンマシーンインタフェースとしてのプレビューは、音声と映像を同期時間分ずらして作成したコンテンツを視聴できるようにしたインタフェースを備えることにより実現できる。同期が適切でなければ、蓄積された探索結果の中から一致度が次に大きい候補を読み出して、その候補地によって同期させたコンテンツをプレビューし、適正な同期であると判断するまで同じ手順を続けることによって、適正な同期時間を取得できる。
入力インタフェースは、GUIのボタンインターフェースなどにより実現できる。適正な同期時間によってマルチメディアコンテンツを作成することによって、映像音声とスライドをめくるイベントのタイミングが合ったマルチメディアコンテンツが作成できる。
この方式の効果を確認するため、本発明者は、実際のプレゼンテーションを撮影した32例のデータに対して上記の同期処理の実験を行い、全て正しい同期を取ることができた。この実験に用いたデータには、検出された無音区間の総数は213、無音区間に入ったイベント数/全体イベント数は16/60であった。このように、イベント数の3倍以上の無音部があり、しかも、ページめくりと無音区間が1/3以下しか対応していないような悪条件のものも含まれていた。しかしながら、実施の形態3によるデータ同期装置を使用したロバストな同期時間決定方式によって、正しい同期時間を得ることができた。また、この実験データには、間違いや言いよどみがあり、無音部の多いプレゼンテーションの練習データも含まれている不良な条件のデータであったにも関わらず、正しい同期時間を取得することができた。
以上の説明では、無音区間において何らかのイベント信号が発生することを前提としたため、閾値を定めて無音区間を設定し、設定された無音区間内にイベント信号が存在するか否かによって一致度を判定した。しかしながら、イベント信号によっては、無音区間内とは限らず、該無音区間の近傍において発生する場合がある。その場合、設定された無音区間を含む区間を判定区間として、該判定区間内にイベント信号が存在するかによって一致度を判定することもできる。このようにして一致度を判定することによって、無音区間の近傍において発生したイベント信号に対して、音声データとの一致度を算出できる。
図17は、音声データにおける無音区間を含む判定区間を模式的に示したグラフである。時間に対する音量のグラフにおいて、音量閾値によって無音区間が設定され、該無音区間を含む判定区間1701〜1707が設定される。ここで、どれくらいの幅を持って判定区間が無音区間を含むかは、任意に設定可能とする。例えば、無音区間の後にイベント信号が起きる可能性が高い場合は、無音区間に対してグラフの時間軸の右側の時間幅を多く設定すればよい。この方式によって、無音区間の近傍においてイベント信号毎が発生する場合の一致度を正確に算出し、同期時間を正確に決定することができる。
また、イベント信号自体が基本的に無音区間とずれて発生する場合は、そのずれ幅を考慮して無音区間あるいは判定区間との一致度を算出して、算出された一致度を基に同期時間を決定することができる。この方式によって、無音区間とずれて発生するイベント信号に対しても一致度を正確に算出し、同期時間を正確に決定することができる。
また、以上の説明では、一致度として個数を単純に加えたスコアとしたが、単純に加えずに個数を独立変数とした関数の値として一致度を表現することもできる。これにより、より詳細に一致度の違いを判定することができる。
また、イベント信号が、無音区間あるいは判定区間内に存在しない場合あっても、最も近傍の該区間までの距離の近さを使用して、各イベント信号毎の一致度を求め、求められた各イベント信号毎の一致度の総和をその時間差における一致度とすることもできる。このようにして各イベント信号毎の一致度を総計することによって、より精密な一致度を算出し、正確に同期時間を決定することができる。
また、極値の大小関係の比較においては、極値同士の比を求めて比較する方法、極値同士の差を求めて比較する方法など種々の方法が考えられる。
(3.3.効果)
無音区間の数とイベントとの数との割合が好適となるように音量閾値を自動調整し、さらに、スコアの最大値と他のピークのスコア最大値との差または比が大きくなるように音量閾値を自動調整することによって、録音時のノイズレベルや音量に左右されずに、ロバストに正確なデータの同期が可能となる。
(4.実施の形態によるデータ同期装置を適用した例)
図12は、実施の形態1によるデータ同期装置と、画像処理部とを備えた画像処理装置の機能的ブロック図である。この構成により、簡易な構成によって音声データとイベント信号データとをロバストに正確に同期させることができる画像処理装置40を提供できる。
図13は、実施の形態1によるデータ同期装置と、画像処理部と、画像出力部とを備えた画像形成装置の機能的ブロック図である。この構成により、簡易な構成によって音声データとイベント信号データとをロバストに正確に同期させて画像形成することができる画像形成装置50を提供できる。
(5.ハードウェア構成)
図14は、実施の形態によるデータ同期装置のハードウェア構成例を示す図である。上述したデータ同期装置は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータシステムで実行することによって実現できる。コンピュータ100は、CPU(Central Processing Unit)101によって装置全体が制御されている。CPU101には、バス107を介してROM(Read Only Memory)102、RAM(Random Access Memory)103、ハードディスクドライブ(HDD:Hard Disk Drive)104、グラフィック処理装置105、入力インタフェース106が接続されている。ROM102、およびRAM103には、CPU101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が格納される。またRAM103には、CPU101による処理に必要な各種データが格納される。HDD104には、OS、各種ドライバプログラム、アプリケーションプログラム、検出されたデータなどが格納される。
グラフィック処理装置105には、モニタ111が接続されている。グラフィック処理装置105は、CPU101からの命令に従って、画像をモニタ111の画面に表示させる。入力インタフェース106には、キーボード112とマウス113とが接続されている。入力インタフェース106は、キーボード112やマウス113から送られてくる信号を、バス107を介してCPU101に送信する。
以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。本実施の形態をコンピュータ100上で実現するには、コンピュータ100にドライバプログラムを実装する。
尚、本実施形態のデータ同期装置で実行されるデータ同期プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フロッピー(R)ディスク、DVD等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、本実施形態のデータ同期プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供および配布するように構成しても良い。