JP2005148161A

JP2005148161A - データ同期装置、データ同期方法、およびその方法をコンピュータに実行させるプログラム

Info

Publication number: JP2005148161A
Application number: JP2003381611A
Authority: JP
Inventors: Satoshi Hikita; 聡疋田; Junichi Takami; 淳一鷹見; Yoshinaga Kato; 喜永加藤; Nozomi Takahashi; 望高橋
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2003-11-11
Filing date: 2003-11-11
Publication date: 2005-06-09
Anticipated expiration: 2023-11-11
Also published as: JP4361347B2

Abstract

【課題】同期せずに取得された音声データとイベント信号データとを時間的にずらしながら照合し、ロバストに最適な同期時間を決定する。
【解決手段】データ同期装置１０は、音声データにおける有音区間と無音区間とを検出する区間検出部１２と、音声データおよびイベント信号を同期させる際の時間的なずれである複数の同期時間差を設定する時間差設定部１５と、時間差設定部１５によって設定された複数の同期時間差ごとに、取得された複数のイベント信号と、区間検出部によって検出された無音区間との時間的な一致を判定して、一致度を算出する一致度算出部１４と、一致度算出部１４によって算出された一致度から音声データとイベント信号データとの同期時間を決定する同期決定部１６とを備える。
【選択図】図１

Description

本発明は、発生する音声を記録した音声データと、該発生する音声に時間的に並行して生起して非同期的に記録されたイベント信号であっても、ロバストに同期させるデータ同期装置、データ同期方法、およびその方法をコンピュータに実行させるプログラムに関するものである。

プレゼンテーションなどの音声による説明を伴う場面において、映像や音声データの取得とプレゼンテーションのスライドをめくる等のイベントの生起を記録するイベント信号とが、別々の機器で記録されていることが多い。従来、これらの両データを記録する機器の間で通信できない場合、取得された映像や音声データとイベント信号との間で同期して動作させるためには、手動で同期をとる作業が必要であった。

例えば、スライドページがめくられたのを目視により確認し、その時点での映像のカウンターの値をメモする方法がとられていた。あるいは映像の一部にプレゼンテーションの画像が入るように画像データを取得する方法もあった。

上記のような余分な人手による操作の手間を減らす方法として、音声が入力されていないか、あるいは音声の入力値がきわめて低い区間である無音区間を、映像や音声とページめくり等のイベントの生起とみなして、同期を自動的にとる技術が考えられている（特許文献１）。

特開平８−２１２１９０号公報

しかしながら、実際に録音したデータでは、１．イベント発生時に必ずしも無音になっていないことがあり、２．イベント発生時以外にも多くの無音部分が存在する、という状態であった。その結果、無音部分をそのまま単純にイベントの生起している時間であると対応付けると、誤りが多数発生してしまうという問題点があった。

図１５は、一般的な音声データにおける無音区間と有音区間、およびイベント信号との対応を説明する図である。図中、音声データ３００において無音区間３０１が示され、また、イベント信号データ３０２において、イベント信号３０３〜３０７が示されている。ここでイベント信号３０３は、無音区間以外において発生している。このように、一般的にページめくりのような生起するイベントは無音区間で発生しがちではあるが、必ずしも無音区間において発生するとは限らない。そのため、単純に対応付けるだけでは正確な同期がとれないという問題があった。

図１６は、音声データにおける時間の経過に対する音量を模式的に示したグラフである。無音区間を検出するための音量閾値を、レベル４０１のように設定すると、多くの無音区間４０１ａ〜４０１ｉが検出されてしまう。また、レベル４０３のように設定すると、ほとんど無音区間は検出できなくなる。ここでは無音区間の検出のための音量閾値を、レベル４０２のように設定すると、適切な個数の無音区間４０２ａ〜４０３ｃが検出できることを示している。このように、無音区間が検出された検出数は、同時に音声データ中に取得されている音量の閾値をどのように設定するかに依存するのであるが、同期操作を行うためにはどの程度の閾値が無音区間検出に好適であるかが不明であるという問題点があった。

本発明は、上記に鑑みてなされたものであって、取得された音声データにおいて、イベント発生時が必ずしも無音区間ではない場合、およびイベント発生時以外にも多くの無音部分が存在する場合があったとしも、音声データとイベント信号とを時間的にずらしながら比較して、簡易な方式によりロバストに最適な同期時間を決定できるデータ同期装置、データ同期方法、およびその方法をコンピュータに実行させるプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、請求項１にかかる発明は、発生する音声を記録した音声データと、前記音声に並行して発生するタイミング信号を含む複数のイベント信号とを、非同期的に取得して同期させるデータ同期装置であって、取得された前記音声データにおける複数の無音区間を検出する区間検出手段と、取得された前記音声データおよび複数のイベント信号を同期させる際の時間的なずれである複数の同期時間差を設定する設定手段と、前記設定手段によって設定された複数の同期時間差ごとに、前記複数のイベント信号が、前記区間検出手段によって検出された無音区間を含む所定の判定区間内に含まれるか否かを判定して、含まれると判定した前記イベント信号に従って、前記複数の無音区間と前記複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出する算出手段と、前記算出手段によって算出された前記複数の同期時間差ごとの一致度に基づいて前記音声データとイベント信号との同期時間を決定する決定手段と、を備えたことを特徴とする。

この請求項１にかかる発明によれば、区間検出手段が、取得された音声データにおける複数の無音区間を検出する。設定手段が、取得された音声データおよび複数のイベント信号を同期させる際の時間的なずれである複数の同期時間差を設定する。算出手段が、設定手段によって設定された複数の同期時間差ごとに、複数のイベント信号が、区間検出手段によって検出された無音区間を含む所定の判定区間内に含まれるか否かを判定して、含まれると判定したイベント信号に従って、複数の無音区間と複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出する。決定手段が、算出手段によって算出された複数の同期時間差ごとの一致度に基づいて音声データとイベント信号との同期時間を決定する。この構成によって、それぞれ無音区間を含んで無音区間以上幅のある判定区間とイベント信号との一致度を同期時間差毎にずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。

また、請求項２にかかる発明は、請求項１に記載のデータ同期装置において、前記算出手段が判定する前記複数の判定区間は前記複数の無音区間であり、かつ前記算出手段は、前記設定手段によって設定された複数の同期時間差ごとに、前記複数のイベント信号が前記区間検出手段によって検出された複数の無音区間内に含まれるか否かを判定して含まれると判定した前記イベント信号に従って、前記複数の無音区間と前記複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出するものであることを特徴とする。

この請求項２にかかる発明によれば、算出手段が判定する複数の判定区間は複数の無音区間であり、かつ算出手段は、設定手段によって設定された複数の同期時間差ごとに、複数のイベント信号が区間検出手段によって検出された複数の無音区間内に含まれるか否かを判定して含まれると判定したイベント信号に従って、複数の無音区間と複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出する。この構成によって、無音区間とイベント信号との一致度を同期時間差毎にずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。

また、請求項３にかかる発明は、発生する音声を記録した音声データと、前記音声に並行して発生するタイミング信号を含む複数のイベント信号とを、非同期的に取得して同期させるデータ同期装置であって、取得された前記音声データにおける複数の無音区間を検出する区間検出手段と、取得された前記音声データおよび複数のイベント信号を同期させる際の時間的なずれである複数の同期時間差を設定する設定手段と、前記設定手段によって設定された複数の同期時間差ごとに、前記複数のイベント信号が前記区間検出手段によって検出された複数の無音区間内に含まれるか否かを判定して含まれると判定した前記イベント信号の個数に従って、前記複数の無音区間と前記複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出する算出手段と、前記算出手段によって算出された前記複数の同期時間差ごとの一致度に基づいて前記音声データとイベント信号との同期時間を決定する決定手段と、を備えたことを特徴とする。

この請求項３にかかる発明によれば、発生する音声を記録した音声データと、音声に並行して発生するタイミング信号を含む複数のイベント信号とを、非同期的に取得して同期させるデータ同期装置であって、区間検出手段が取得された音声データにおける複数の無音区間を検出し、設定手段が取得された音声データおよび複数のイベント信号を同期させる際の時間的なずれである複数の同期時間差を設定する。算出手段が、設定手段によって設定された複数の同期時間差ごとに、複数のイベント信号が区間検出手段によって検出された複数の無音区間内に含まれるか否かを判定して含まれると判定したイベント信号の個数に従って、複数の無音区間と複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出する。決定手段が、算出手段によって算出された複数の同期時間差ごとの一致度に基づいて音声データとイベント信号との同期時間を決定する。この構成によって、無音区間とイベント信号との一致度を同期時間差ごとにずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。

また、請求項４にかかる発明は、請求項１〜３のいずれか１つに記載のデータ同期装置において、前記複数のイベント信号は、前記音声の発生に並行して表示画面に順次表示される各画面画像が切り替わるときの複数の切り替わりタイミング信号であり、前記決定手段は、前記算出手段によって算出された前記複数の同期時間差ごとの一致度に基づいて前記音声データと、前記音声の発生に並行して表示画面に順次表示される各画面画像が切り替わるときの複数の切り替わりタイミング信号との同期時間を決定するものであることを特徴とする。

この請求項４にかかる発明によれば、複数のイベント信号は、音声の発生に並行して表示画面に順次表示される各画面画像が切り替わるときの複数の切り替わりタイミング信号であり、決定手段は、算出手段によって算出された複数の同期時間差ごとの一致度に基づいて音声データと、音声の発生に並行して表示画面に順次表示される各画面画像が切り替わるときの複数の切り替わりタイミング信号との同期時間を決定する。この構成によって、例えば講演者が上映するスライドを変化させながら説明する場合においては、一般に無音区間に生じやすいスライドの変化の切り替わりタイミング信号を使用することによって、講演者の講演による音声データと、講演に対応して切り替わるスライドの切替タイミング信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。

また、請求項５にかかる発明は、請求項１〜４のいずれか１つに記載のデータ同期装置において、前記音声データにおける音量閾値を設定する閾値設定手段を、さらに備え、前記区間検出手段は、前記閾値設定手段によって設定された音量閾値と前記音声データにおける音量との大小を判定して小であると判定した区間を、前記無音区間として検出するものであり、前記算出手段は、前記設定された音量閾値ごとに前記複数の一致度を算出するものであり、前記決定手段は、前記音量閾値ごとに算出された前記複数の一致度の大小を判定して、一致度が大であると判定された音量閾値の一致度における同期時間差を、前記音声データとイベント信号との同期時間として決定するものであることを特徴とする。

この請求項５にかかる発明によれば、音声データにおける音量閾値を設定する閾値設定手段を、さらに備え、区間検出手段は、閾値設定手段によって設定された音量閾値と音声データにおける音量との大小を判定して小であると判定した区間を、無音区間として検出し、算出手段は、設定された音量閾値ごとに複数の一致度を算出し、決定手段は、音量閾値ごとに算出された複数の一致度の大小を判定して、一致度が大であると判定された音量閾値の一致度における同期時間差を、音声データとイベント信号との同期時間として決定する。この構成によって、音量閾値によって設定された無音区間とイベント信号との一致度を同期時間差ごとにずらせながらロバストに算出できるので、音量閾値を調整することにより無音区間を調整しながら音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。

また、請求項６にかかる発明は、請求項１〜５のいずれか１つに記載のデータ同期装置において、前記決定手段は、前記複数の同期時間差に対する前記複数の一致度による極値を検出し、検出された前記極値を与える同期時間差を、前記音声データとイベント信号との同期時間として決定するものであることを特徴とする。

この請求項６にかかる発明によれば、決定手段は、複数の同期時間差に対する複数の一致度による極値を検出し、検出された極値を与える同期時間差を、音声データとイベント信号との同期時間として決定する。この構成によって、複数の同期時間差に対する複数の一致度による極値を与える同期時間差を同期時間として決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。

また、請求項７にかかる発明は、請求項５または６に記載のデータ同期装置において、前記閾値設定手段は、前記区間検出手段によって検出された前記無音区間の個数と前記イベント信号中のイベント信号の個数との比を算出して、算出された前記比が所定の範囲に含まれるように前記音量閾値を設定するものであることを特徴とする。

この請求項７にかかる発明によれば、閾値設定手段は、区間検出手段によって検出された無音区間の個数とイベント信号中のイベント信号の個数との比を算出して、算出された比が所定の範囲に含まれるように音量閾値を設定する。この構成によって、無音区間の個数とイベント信号の個数との比率を、最適な範囲に含まれるように音量閾値を設定して、無音区間とイベント信号との一致度を同期時間差ごとにずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。

また、請求項８にかかる発明は、請求項６または７に記載のデータ同期装置において、前記閾値設定手段は、前記決定手段によって検出された前記極値が複数ある場合、最大の極値（最大値）と第２番目の極値とを算出し、算出された前記最大の極値と第２番目の極値との大小関係が所定の範囲となるように前記音量閾値を設定するものであり、前記決定手段は、前記閾値設定手段によって設定された前記音量閾値において生じた前記最大の極値を与える同期時間差を、前記音声データとイベント信号との同期時間として決定するものであることを特徴とする。

この請求項８にかかる発明によれば、閾値設定手段は、決定手段によって検出された極値が複数ある場合、最大の極値（最大値）と第２番目の極値とを算出し、算出された最大の極値と第２番目の極値との大小関係が所定の範囲となるように音量閾値を設定するものであり、決定手段は、閾値設定手段によって設定された音量閾値において生じた最大の極値を与える同期時間差を、音声データとイベント信号との同期時間として決定する。この構成によって、際立った一致度の極値が現れるように音量閾値を調整して、一致度の際立った極値を与える音量閾値を使用して同期時間を決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。

また、請求項９にかかる発明は、請求項６〜８のいずれか１つに記載のデータ同期装置において、前記閾値設定手段は、前記決定手段によって検出された前記極値が複数ある場合、最大の極値（最大値）と第２番目の極値とを算出し、算出された前記最大の極値と第２番目の極値との大小関係が最大となるように前記音量閾値を設定するものであり、前記決定手段は、前記閾値設定手段によって設定された前記音量閾値において生じた前記最大の極値を与える同期時間差を、前記音声データとイベント信号との同期時間とし決定するものであることを特徴とする。

この請求項９にかかる発明によれば、閾値設定手段は、決定手段によって検出された極値が複数ある場合、最大の極値（最大値）と第２番目の極値とを算出し、算出された最大の極値と第２番目の極値との大小関係が最大となるように音量閾値を設定するものであり、決定手段は、閾値設定手段によって設定された音量閾値において生じた最大の極値を与える同期時間差を、音声データとイベント信号との同期時間とし決定する。この構成によって、際立った一致度の極値が現れるように音量閾値を調整して、一致度の際立った極値を与える音量閾値を使用して同期時間を決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。

また、請求項１０にかかる発明は、請求項６または７に記載のデータ同期装置において、前記閾値設定手段は、前記決定手段によって検出された前記極値が複数ある場合、最大の極値（最大値）と第２番目の極値との比を算出し、算出された前記比が所定の範囲に含まれるように前記音量閾値を設定するものであり、前記決定手段は、前記閾値設定手段によって設定された前記音量閾値において生じた前記最大の極値を与える同期時間差を、前記音声データとイベント信号との同期時間として決定するものであることを特徴とする。

この請求項１０にかかる発明によれば、閾値設定手段は、決定手段によって検出された極値が複数ある場合、最大の極値（最大値）と第２番目の極値との比を算出し、算出された比が所定の範囲に含まれるように音量閾値を設定し、決定手段は、閾値設定手段によって設定された音量閾値において生じた最大の極値を与える同期時間差を、音声データとイベント信号との同期時間として決定する。この構成によって、際立った一致度の極値が現れるように音量閾値を調整して、一致度の際立った極値を与える音量閾値を使用して同期時間を決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。

また、請求項１１にかかる発明は、請求項６，７，１０のいずれか１つに記載のデータ同期装置において、前記閾値設定手段は、前記決定手段によって検出された前記極値が複数ある場合、最大の極値（最大値）と第２番目の極値との比を算出し、算出された前記比が最大となる音量閾値を設定するものであり、前記決定手段は、前記閾値設定手段によって設定された前記音量閾値において生じた前記最大の極値を与える同期時間差を、前記音声データとイベント信号との同期時間とし決定するものであることを特徴とする。

この請求項１１にかかる発明によれば、閾値設定手段は、決定手段によって検出された極値が複数ある場合、最大の極値（最大値）と第２番目の極値との比を算出し、算出された比が最大となる音量閾値を設定するものであり、決定手段は、閾値設定手段によって設定された音量閾値において生じた最大の極値を与える同期時間差を、音声データとイベント信号との同期時間とし決定する。この構成によって、際立った一致度の極値が現れるように音量閾値を調整して、一致度の際立った極値を与える音量閾値を使用して同期時間を決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。

また、請求項１２にかかる発明は、請求項５〜１１のいずれか１つに記載のデータ同期装置において、前記閾値設定手段は、前記音声データにおけるノイズレベルを検出し、前記検出されたノイズレベルを使用して前記音量閾値を設定するものであることを特徴とする。

この請求項１２にかかる発明によれば、閾値設定手段は、音声データにおけるノイズレベルを検出し、検出されたノイズレベルを使用して音量閾値を設定する。この構成によって、適正な音量閾値を設定でき、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。

また、請求項１３にかかる発明は、請求項６〜１２のいずれか１つに記載のデータ同期装置において、前記決定手段によって検出された前記複数の同期時間差に対する複数の一致度を表示する表示手段と、前記表示手段によって表示された前記複数の同期時間差に対する複数の一致度による極値のうちから、前記極値を与える同期時間差を操作者が指定する指定入力を受け付ける操作手段と、をさらに備え、前記決定手段は、前記操作手段によって受け付けられた指定入力による同期時間差を、前記音声データとイベント信号との同期時間として決定するものであることを特徴とする。

この請求項１３にかかる発明によれば、決定手段によって検出された複数の同期時間差に対する複数の一致度を表示する表示手段と、表示手段によって表示された複数の同期時間差に対する複数の一致度による極値のうちから、極値を与える同期時間差を操作者が指定する指定入力を受け付ける操作手段と、をさらに備え、決定手段は、操作手段によって受け付けられた指定入力による同期時間差を、音声データとイベント信号との同期時間として決定する。この構成によって、操作者が、表示手段に表示された一致度のピークを観察しながら適正な同期時間を決定できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できる。

また、請求項１４にかかる発明は、データ同期方法であって、発生する音声を記録した音声データと、前記音声に並行して発生するタイミング信号を含む複数のイベント信号とを、非同期的に取得して同期させるデータ同期方法であって、取得された前記音声データにおける複数の無音区間を検出する区間検出工程と、取得された前記音声データおよび複数のイベント信号を同期させる際の時間的なずれである複数の同期時間差を設定する設定工程と、前記設定工程によって設定された複数の同期時間差ごとに、前記複数のイベント信号が、前記区間検出工程によって検出された無音区間を含む所定の判定区間内に含まれるか否かを判定して、含まれると判定した前記イベント信号に従って、前記複数の無音区間と前記複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出する算出工程と、前記算出工程によって算出された前記複数の同期時間差ごとの一致度に基づいて前記音声データとイベント信号との同期時間を決定する決定工程と、を含むことを特徴とする。

この請求項１４にかかる発明によれば、取得された音声データにおける複数の無音区間を検出する区間検出工程と、取得された音声データおよび複数のイベント信号を同期させる際の時間的なずれである複数の同期時間差を設定する設定工程と、設定工程によって設定された複数の同期時間差ごとに、複数のイベント信号が、区間検出工程によって検出された無音区間を含む所定の判定区間内に含まれるか否かを判定して含まれると判定したイベント信号に従って、複数の無音区間と複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出する算出工程と、算出工程によって算出された複数の同期時間差ごとの一致度に基づいて音声データとイベント信号との同期時間を決定する決定工程と、を含む。この構成によって、それぞれ無音区間を含んで無音区間以上幅のある判定区間とイベント信号との一致度を同期時間差毎にずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期方法を提供できる。

また、請求項１５にかかる発明は、請求項１４に記載のデータ同期方法において、前記算出工程が判定する前記複数の判定区間は前記複数の無音区間であり、かつ前記算出工程は、前記設定工程によって設定された複数の同期時間差ごとに、前記複数のイベント信号が前記区間検出工程によって検出された複数の無音区間内に含まれるか否かを判定して含まれると判定した前記イベント信号に従って、前記複数の無音区間と前記複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出するものであることを特徴とする。

この請求項１５にかかる発明によれば、算出工程が判定する複数の判定区間は複数の無音区間であり、かつ算出工程は、設定工程によって設定された複数の同期時間差ごとに、複数のイベント信号が区間検出工程によって検出された複数の無音区間内に含まれるか否かを判定して含まれると判定したイベント信号に従って、複数の無音区間と複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出するものであることを特徴とする。この構成によって、無音区間とイベント信号との一致度を同期時間差毎にずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期方法を提供できる。

また、請求項１６にかかる発明は、発生する音声を記録した音声データと、前記音声に並行して発生するタイミング信号を含む複数のイベント信号とを、非同期的に取得して同期させるデータ同期方法であって、取得された前記音声データにおける複数の無音区間を検出する区間検出工程と、取得された前記音声データおよび複数のイベント信号を同期させる際の時間的なずれである複数の同期時間差を設定する設定工程と、前記設定工程によって設定された複数の同期時間差ごとに、前記複数のイベント信号が前記区間検出工程によって検出された複数の無音区間内に含まれるか否かを判定して含まれると判定した前記イベント信号の個数に従って、前記複数の無音区間と前記複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出する算出工程と、前記算出工程によって算出された前記複数の同期時間差ごとの一致度に基づいて前記音声データとイベント信号との同期時間を決定する決定工程と、を備えたことを特徴とする。

この請求項１６にかかる発明によれば、発生する音声を記録した音声データと、音声に並行して発生するタイミング信号を含む複数のイベント信号とを、非同期的に取得して同期させるデータ同期方法であって、区間検出工程が取得された音声データにおける複数の無音区間を検出し、設定工程が取得された音声データおよび複数のイベント信号を同期させる際の時間的なずれである複数の同期時間差を設定し、算出工程が設定工程によって設定された複数の同期時間差ごとに、複数のイベント信号が区間検出工程によって検出された複数の無音区間内に含まれるか否かを判定して含まれると判定したイベント信号の個数に従って、複数の無音区間と複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出し、決定工程が算出工程によって算出された複数の同期時間差ごとの一致度に基づいて音声データとイベント信号との同期時間を決定する。この構成によって、無音区間とイベント信号との一致度を同期時間差ごとにずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期方法を提供できる。

また、請求項１７にかかる発明は、請求項１４〜１６のいずれか１つに記載のデータ同期方法において、前記複数のイベント信号は、前記音声の発生に並行して表示画面に順次表示される各画面画像が切り替わるときの複数の切り替わりタイミング信号であり、前記決定工程は、前記算出工程によって算出された前記複数の同期時間差ごとの一致度に基づいて前記音声データと、前記音声の発生に並行して表示画面に順次表示される各画面画像が切り替わるときの複数の切り替わりタイミング信号との同期時間を決定するものであることを特徴とする。

この請求項１７にかかる発明によれば、複数のイベント信号は、音声の発生に並行して表示画面に順次表示される各画面画像が切り替わるときの複数の切り替わりタイミング信号であり、決定工程は、算出工程によって算出された複数の同期時間差ごとの一致度に基づいて音声データと、音声の発生に並行して表示画面に順次表示される各画面画像が切り替わるときの複数の切り替わりタイミング信号との同期時間を決定する。この構成によって、例えば講演者が上映するスライドを変化させながら説明する場合においては、一般に無音区間に生じやすいスライドの変化の切り替わりタイミング信号を使用することによって、講演者の講演による音声データと、講演に対応して切り替わるスライドの切替タイミング信号とをロバストに正確に同期させることができるデータ同期方法を提供できる。

また、請求項１８にかかる発明は、請求項１４〜１７のいずれか１つに記載のデータ同期方法において、前記音声データにおける音量閾値を設定する閾値設定工程を、さらに備え、前記区間検出工程は、前記閾値設定工程によって設定された音量閾値と前記音声データにおける音量との大小を判定して小であると判定した区間を、前記無音区間として検出するものであり、前記算出工程は、前記設定された音量閾値ごとに前記複数の一致度を算出するものであり、前記決定工程は、前記音量閾値ごとに算出された前記複数の一致度の大小を判定して、一致度が大であると判定された音量閾値の一致度における同期時間差を、前記音声データとイベント信号との同期時間として決定するものであることを特徴とする。

この請求項１８にかかる発明によれば、音声データにおける音量閾値を設定する閾値設定工程を、さらに備え、区間検出工程は、閾値設定工程によって設定された音量閾値と音声データにおける音量との大小を判定して小であると判定した区間を、無音区間として検出するものであり、算出工程は、設定された音量閾値ごとに複数の一致度を算出するものであり、決定工程は、音量閾値ごとに算出された複数の一致度の大小を判定して、一致度が大であると判定された音量閾値の一致度における同期時間差を、音声データとイベント信号との同期時間として決定する。この構成によって、音量閾値によって設定された無音区間とイベント信号との一致度を同期時間差ごとにずらせながらロバストに算出できるので、音量閾値を調整することにより無音区間を調整しながら音声データとイベント信号とをロバストに正確に同期させることができるデータ同期方法を提供できる。

また、請求項１９にかかる発明は、請求項１４〜１８のいずれか１つに記載のデータ同期方法において、前記決定工程は、前記複数の同期時間差に対する前記複数の一致度による極値を検出し、検出された前記極値を与える同期時間差を、前記音声データとイベント信号との同期時間として決定するものであることを特徴とする。

この請求項１９にかかる発明によれば、決定工程は、複数の同期時間差に対する複数の一致度による極値を検出し、検出された極値を与える同期時間差を、音声データとイベント信号との同期時間として決定する。この構成によって、複数の同期時間差に対する複数の一致度による極値を与える同期時間差を同期時間として決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期方法を提供できる。

また、請求項２０にかかる発明は、プログラムであって、請求項１４〜１９のいずれか１つに記載のデータ同期方法をコンピュータに実行させることを特徴とする。

この請求項２０にかかる発明によれば、請求項１４〜１９のいずれか１つに記載のデータ同期方法をコンピュータに実行させるプログラムを提供できる。

本発明（請求項１）にかかるデータ同期装置は、それぞれ無音区間を含んで無音区間以上幅のある判定区間とイベント信号との一致度を同期時間差毎にずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。

また、本発明（請求項２）にかかるデータ同期装置は、無音区間とイベント信号との一致度を同期時間差毎にずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。

また、本発明（請求項３）にかかるデータ同期装置は、無音区間とイベント信号との一致度を同期時間差ごとにずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。

また、本発明（請求項４）にかかるデータ同期装置は、例えば講演者が上映するスライドを変化させながら説明する場合においては、一般に無音区間に生じやすいスライドの変化の切り替わりタイミング信号を使用することによって、講演者の講演による音声データと、講演に対応して切り替わるスライドの切替タイミング信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。

また、本発明（請求項５）にかかるデータ同期装置は、音量閾値によって設定された無音区間とイベント信号との一致度を同期時間差ごとにずらせながらロバストに算出できるので、音量閾値を調整することにより無音区間を調整しながら音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。

また、本発明（請求項６）にかかるデータ同期装置は、複数の同期時間差に対する複数の一致度による極値を与える同期時間差を同期時間として決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。

また、本発明（請求項７）にかかるデータ同期装置は、無音区間の個数とイベント信号の個数との比率を、最適な範囲に含まれるように音量閾値を設定して、無音区間とイベント信号との一致度を同期時間差ごとにずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。

また、本発明（請求項８）にかかるデータ同期装置は、際立った一致度の極値が現れるように音量閾値を調整して、一致度の際立った極値を与える音量閾値を使用して同期時間を決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。

また、本発明（請求項９）にかかるデータ同期装置は、際立った一致度の極値が現れるように音量閾値を調整して、一致度の際立った極値を与える音量閾値を使用して同期時間を決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。

また、本発明（請求項１０）にかかるデータ同期装置は、際立った一致度の極値が現れるように音量閾値を調整できるので、一致度の際立った極値を与える音量閾値を使用して同期時間を決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。

また、本発明（請求項１１）にかかるデータ同期装置は、際立った一致度の極値が現れるように音量閾値を調整できるので、一致度の際立った極値を与える音量閾値を使用して同期時間を決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。

また、本発明（請求項１２）にかかるデータ同期装置は、適正な音量閾値を設定でき、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。

また、本発明（請求項１３）にかかるデータ同期装置は、操作者が、表示手段に表示された一致度のピークを観察しながら適正な同期時間を決定できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期装置を提供できるという効果を奏する。

また、本発明（請求項１４）にかかるデータ同期方法は、それぞれ無音区間を含んで無音区間以上幅のある判定区間とイベント信号との一致度を同期時間差毎にずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期方法を提供できるという効果を奏する。

また、本発明（請求項１５）にかかるデータ同期方法は、無音区間とイベント信号との一致度を同期時間差毎にずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期方法を提供できるという効果を奏する。

また、本発明（請求項１６）にかかるデータ同期方法は、無音区間とイベント信号との一致度を同期時間差ごとにずらせながらロバストに算出できるので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期方法を提供できるという効果を奏する。

また、本発明（請求項１７）にかかるデータ同期方法は、例えば講演者が上映するスライドを変化させながら説明する場合においては、一般に無音区間に生じやすいスライドの変化の切り替わりタイミング信号を使用することによって、講演者の講演による音声データと、講演に対応して切り替わるスライドの切替タイミング信号とをロバストに正確に同期させることができるデータ同期方法を提供できるという効果を奏する。

また、本発明（請求項１８）にかかるデータ同期方法は、音量閾値によって設定された無音区間とイベント信号との一致度を同期時間差ごとにずらせながらロバストに算出できるので、音量閾値を調整することにより無音区間を調整しながら音声データとイベント信号とをロバストに正確に同期させることができるデータ同期方法を提供できるという効果を奏する。

また、本発明（請求項１９）にかかるデータ同期方法は、複数の同期時間差に対する複数の一致度による極値を与える同期時間差を同期時間として決定するので、音声データとイベント信号とをロバストに正確に同期させることができるデータ同期方法を提供できるという効果を奏する。

また、本発明（請求項２０）にかかるプログラムは、請求項１４〜１９のいずれか１つに記載のデータ同期方法をコンピュータに実行させることができるという効果を奏する。

会議等の音声が発せられる場面においては、例えばパーソナルコンピュータを用いたディスプレーシステムにおいて講演内容を表示したページをめくるなどの動作が、並行してディスプレー上で行われる。このページめくりのような場面展開の契機となるような動作を、イベントと称する。イベントが行われた時は、パーソナルコンピュータにおいて、イベント信号を生起させて記録することができる。

このように音声データの場合、人間の所作の常として、例えばスライドを切り換える時とか、あるいは本のページをめくる時などは比較的に音声を発しない場合が多く、従ってデータとしては無音状態になる傾向が強い。もちろん、必ずしも無音時にこのようなイベントが起きるわけではなく、またイベントの時が必ずしも無音であるとは限らない。しかしながら、人間の所作の常として、平均的にはこのようなイベントの時に無音状態に成りやすいという現象を本発明はロバストに利用する。

講演者の映像音声は、例えばデジタルビデオカメラによってテープに録画する。それと並行して別に、講演者によるノートパソコン上のプレゼンテーションソフトウェアを用いたスライドのページめくりのイベントを、イベント記録用のソフトウエアで記録しておく。一般的にプレゼンテーションに使用されるノートパソコンと、デジタルビデオカメラの計時は合っていない。そのため、音声データと、スライドのページめくりを含むイベント信号とは、一般的に同期していないので、データを同期させる必要がある。以下に、この発明にかかるデータ同期装置、データ同期方法、およびその方法をコンピュータに実行させるプログラムの最良な実施の形態を詳細に説明する。

（１．実施の形態１）
（１．１．全体構成）
図１は、実施の形態１によるデータ同期装置の構成を示す機能的ブロック図である。本発明の実施の形態１によるデータ同期装置１０は、音声データ入力部１１と、区間検出部１２と、イベント信号入力部１３と、一致度算出部１４と、時間差設定部１５と、同期決定部１６とを、制御部１７と、表示部１８と、操作部１９とを備える。

音声データ入力部１１は、講演等において発せられた音声が記録された音声データを、取得する。音声データ入力部１１によって取得された音声データは、音声データ中に音声が検出される有音区間と、音声が検出されない無音区間とを含む。

区間検出部１２は、音声データ中の有音区間と無音区間とを判別して検出する。検出は、例えば音量閾値による判定の方式が可能である。イベント信号入力部１３は、パーソナルコンピュータ（不図示）などによって記録されたイベント信号データを取得する。

一致度算出部１４は、イベント信号入力部１３を介して取得したイベント信号データ中のイベント信号と、区間検出部１２によって検出された無音区間とが時間的に一致するか否かを判定し、その一致度を算出する。

時間差設定部１５は、一致度算出部１４が一致度を算出する際に、音声データとイベント信号とをどのような時間のずれによって算出するかのずれの時間、即ち同期時間差を設定する。ここで、一致度算出部１４は、時間差設定部１５によって設定された時間差ごとに、即ち照合する時間をずらせながら一致度を算出する。

同期決定部１６は、時間差設定部１５によって設定された時間ごとに一致度算出部１４によって算出された一致度にもとづいて、最適な同期時間を決定する。即ち、一致度が最も高くなる同期時間差でもって、音声データとイベント信号との同期時間を決定する。

表示部１８は、算出された一致度、および一致度を与える同期時間差を表示する。操作部１９は、表示された一致度から、操作者による選択入力を受け付ける。制御部１７は、表示部１８および操作部１９を制御する。また制御部１７は、操作部１９によって受け付けられた入力による一致度を与える同期時間差によって、音声データとイベント信号とを同期させて表示部１８に表示するよう制御する。これにより、操作者は目視により同期が実際に正しいかどうかを確認することができる。

ここで、一致度算出部１４は本発明の算出手段を構成する。時間差設定部１５は本発明の設定手段を構成する。同期決定部１６は本発明の決定手段を構成する。制御部１７と表示部１８とは、本発明の表示手段を構成する。制御部１７と操作部１９とは本発明の操作手段を構成する。

ここで、音声データ入力部１１は、例えば録音テープからＡ／Ｄ変換を行って取得する。音声データは、デジタルビデオカメラによって記録されたマルチメディアデータに含まれる音声データを用いることもできる。この場合、イベント信号と音声データとを同期させることによって、公知技術を用いてイベント信号と映像信号とを同期させることができる。

区間検出部１２は、音量レベルを音量閾値として判定し、無音区間を検出する。ここでは例えば、映像音声データの先頭３秒間分から測定したノイズレベルを基準にして音量レベルを求めて音量閾値として使用する。この音量閾値で音声データの音量を判別し、有音区間、および無音区間を検出する。

一致度算出部１４において一致度を算出する関数は、例えば一致度をスコアとして算出する。スコアの算出方法は、イベント信号と無音区間とが重なった場合、スコアを１だけ増加させる関数として定義する。スコア関数として他にも、時間軸に対する一致度がより正規分布に近くなるような別の関数を定義することもできる。

ここでスコア関数は、記録されたイベント全部を無音区間と比較して一致度、即ちスコアを算出する。しかし、イベント全部でなく一部を選択し、選択されたイベント信号を無音区間と比較して一致を算出することも可能である。

時間差設定部１５は、ここでは音声データとイベント信号との照合時間を３００ｍｓずつずらせる。即ち、同期を照合する同期時間差は、３００ｍｓごとに設定される。一致度算出部１４は、設定された３００ｍｓ刻みで両データを照合し、刻まれた同期時間差による一致度を算出する。ここで一致度は具体的には上述のスコアとして表現される。

図２は、音声データに対してイベント信号を、同期時間差ごとに照合することを説明する図である。音声データ５００に対して、異なる同期時間でイベント信号データ５０１〜５０３を照合させている。図中、○印は無音区間にイベント信号が生起した場合を示し、×印は無音区間にイベント信号が合致しない場合を示している。図の例では、イベント信号データ５０２が無音区間とイベント信号との一致度が高くなる。

このようにして一致度算出部１４は、時間軸上の音声データと、時間軸上のイベント信号データとを、たがいに３００ｍｓずつ違えさせてイベント信号全体について、無音区間に含まれているか否かを照合して探索する。一致度算出部１４は、それぞれの同期時間差における一致度、即ちスコア値を算出する。

図３は、イベント信号の探索範囲を説明する図である。ここで音声データ６００に対して、イベント信号データ６０１〜６０６による探索の時間範囲は、イベント信号データにおいて最初から２番目のイベント６０７から最後から２番目のイベント６０８までを、音声データの有音区間が存在する可能性のある範囲内として探索する。イベント信号は、記録されたデータ中の有音区間が存在する全体的な範囲内にあるはずなので、その範囲よりも少し広く、かつ無駄を少なくして探索するためである。但し、探索範囲は任意に設定できる。

（１．２．データの最適な同期時間を求める手順）
図４は、実施の形態１によるデータ同期装置が、同期時間を決定する手順を説明するフローチャートである。音声データおよびイベント信号がデータ同期装置１０によって取得される。イベント信号データ入力部１３は、イベント信号を検出動作に入り（ステップＳ１０１）、イベント信号を検出しない場合（ステップＳ１０１のＮｏ）、そのまま検出動作を継続する。イベント信号を検出した場合（ステップＳ１０１のＹｅｓ）、音声データ入力部１１は音声データを検出し（ステップＳ１０２）、音声データ入力部１１が音声データを検出しない場合は（ステップＳ１０２のＮｏ）、そのまま検出動作を継続する。

音声データ入力部１１が音声データを検出した場合（ステップＳ１０２のＹｅｓ）、区間検出部１２は、音声データ中の音声が記録されていないか、あるいは所定のレベル以下の音量しか記録されていない区間を、無音区間として検出する（ステップＳ１０３）。

時間差設定部１５は、同期時間差を設定する（ステップＳ１０４）。ここでは、例えば上記のように３００ｍｓごとの時間の刻み幅に設定する。そして、各設定された各同期時間差において、一致度算出部１４は、イベント信号におけるイベント信号が無音区間に入っているか否かを検出し、検出された結果、一致していればスコアを１増加させて一致度を算出する（ステップＳ１０５）。

ここで、同期決定部１６は、各設定時間ごとに算出された一致度（即ち、スコア）を保存し、その中で最大値を判定し（ステップＳ１０６）、保存する（ステップＳ１０７）。同期決定部１６は、全ての同期時間差での算出を終了したか否かを判定し（ステップＳ１０８）、終了していない場合（ステップＳ１０８のＮｏ）は、ステップＳ１０４に戻る。同期決定部１６が、全ての同期時間差での算出を終了したと判定した場合（ステップＳ１０８のＹｅｓ）、同期決定部１６は、一致度の最大値を与える時間差で、音声データとイベント信号データとの同期時間を決定する（ステップＳ１０９）。

ここで、表示部１８は、同期決定部１６が保存する一致度、即ちスコアを高い順番に表示する。制御部１７は、操作者による操作部１９からの同期時間差の選択入力によって、音声データとイベント信号とを同期させて表示部１８に表示するよう制御する。

また、制御部１７は、操作者による操作部１９からの同期時間差の選択入力によって、選択された同期時間差によって、同期時間を決定する構成としても良い。

図５は、同期時間差に対する一致度（スコア）の関係を模式的に示したグラフである。ここでは、特定の同期時間差７０１が顕著なピーク７０２を与えていることが示されている。この顕著なピーク７０２を与える同期時間差７０１をもって、最適な同期時間と決定する。

ここで、複数の無音区間とイベントの対応について他のスコア関数を定義して、最適な同期時間を判定しても良い。

（１．３．効果）
上述の構成によって、イベント発生時に必ずしも無音になっていない場合を含み、イベント発生時以外にも多くの無音部分が存在する音声データに対しても、ロバストにずらし同期時間を検出するので、最適な同期を決定することができる。

イベント１個１個と無音区間の１個１個とを対応付けるのでなく、イベント全体と無音区間とが照合して適合度を表すスコア関数を使用するので、一致する度合いが最大となる同期時間差（ずらし時間）を探索する。これにより、イベント発生が有音区間に含まれた場合があったとしても、スコア関数の最大値を求めることにより、ロバストに最適な同期時間を得ることができる。それ故、同期を取るために、スライドページがめくられたのを目で見て、その時の映像のカウンターの値をメモしたり、映像の一部にプレゼンの画像を入れるなどして余分な手間を省くことができるので、マルチメディアコンテンツの作成が容易になる。

また、最適値であると判定された同期時間によって同期したコンテンツをプレビューして、同期が合っていることを操作者が確認し、好適に同期していれば、判定された同期時間でコンテンツを同期して作成することができる。一致していなければ、次候補の同期時間差で同期させたコンテンツをプレビューし、操作者が適正に同期していると判定して、同期時間として決定するまで表示させることができる。適正に同期していると判定された場合は、判定された同期時間でマルチメディアコンテンツを同期させて作成することにより、映像・音声とスライドをめくるイベントのタイミングが合ったマルチメディアコンテンツが作成できる。

なお、ここでイベントとしては講演会などのページめくりを想定したが、イベント発生時に音声が無音状態になる可能性があるイベントであるならば、如何なるイベントに対しても本発明は適用可能である。

（２．実施の形態２）
（２．１．全体構成）
実施の形態２によるデータ同期装置が実施の形態１と異なる点は、同期決定部１６が、算出された一致度および同期時間差によって一致度のピークを検出し、そのピーク値から最適な同期時間を決定することである。同期決定部１６は、同期時間差ごとに算出された探索結果の妥当性を表すスコア値（一致度）のピーク値を検出し、スコアが最大となる同期時間を最適値の候補として、その中から最適な同期時間を決定する。

ここで、同一のピーク値が複数あって、かつその複数のピーク値が同一のピークに含まれている場合は、それら複数のピーク値を与える同期時間差の平均時間を最適値の同期時間と決定する。一方、複数のピーク値を与える時間が異なるピークに含まれている場合、それぞれのピーク値を与える同期時間差を、最適な同期時間の候補であると判断する。

（２．２．実施の形態２によるデータ同期の手順）
図６は、実施の形態２によるデータ同期装置が、同期時間を決定する手順を説明するフローチャートである。ここで、ステップＳ２０１からステップＳ２０４までは、図４に示された実施の形態１によるデータ同期時間決定の動作のフローチャートにおけるステップＳ１０１からステップＳ１０４までと同様であるので、説明を省略する。

一致度算出部１４は、設定された同期時間差における一致度を算出し、算出された一致度と対応する同期時間差を保存する（ステップＳ２０５）。同期決定部１６は、全ての同期時間差での一致度が算出されたか否かを判定し（ステップＳ２０６）、未終了の場合（ステップＳ２０６のＮｏ）ステップＳ２０４に戻って同じステップを繰り返す。終了している場合（ステップＳ２０６のＹｅｓ）は、同期決定部１６は、一致度のピークが存在するか否かを検出する（ステップＳ２０７）。

ここで、ピークが存在しないと判定された場合（ステップＳ２０７のＮｏ）、同期時間の決定は失敗として終了する。一方、同期決定部１６が、一致度のピークがあると判定した場合（ステップＳ２０７のＹｅｓ）、同期決定部１６は、判定されたピークから最大のピーク値を与える同期時間を決定する。ピーク値から時間差を選択する方式は既に述べた通りである。

（２．３．効果）
音声データとイベント信号データとの一致度が最大となる同期時間差のみを求めるのではなく、その前後の一致度を比較可能なピークから全体的に最適な同期時間を判定し決定するので、より正確に音声データとイベント信号データとの同期時間を決定できる。

（３．実施の形態３）
（３．１．全体構成）
図７は、実施の形態３によるデータ同期装置の機能的ブロック図である。実施の形態３によるデータ同期装置３０が実施の形態２によるデータ同期装置と異なる点は、閾値設定部３１を備えた点である。閾値設定部３１は、区間検出部１２が無音区間を検出する際の音量のレベルである音量閾値を設定する。また、区間検出部１２は、設定された音量閾値でもって無音区間を検出する。

ここで、閾値設定部３１は、本発明の閾値設定手段を構成する。

また、区間検出部３２は、無音区間が適切な個数であるか否かを判定する点が異なる。区間検出部３２が検出した無音区間の個数によっては、閾値設定部３１は再度、音量閾値を設定し直し、区間検出部３２は、設定し直された閾値によって再び無音区間の個数を検出する。

また、同期決定部３６が検出した一致度のピーク特性によっては、閾値設定部３１は新たに音量閾値を設定し直す点が異なる。同期決定部３６が判定した特性により、閾値設定部が設定し直した音量閾値によって、最適な同期時間を探索する。

ここでは、講演者の映像音声をデジタルビデオカメラからＩＥＥＥ１３９４インタフェースでノートパソコン１００（図１４）のハードディスク１０４上へキャプチャーする。同時に講演者による別のノートパソコン（不図示）上のプレゼンテーションソフトウェアを用いたスライドのページめくりのイベントを、イベント記録用のソフトウエアで記録しておく。このとき、講演会場が広く、映像音声をキャプチャーしているノートパソコン１００と、プレゼンテーションに使用されるノートパソコンとは、無線あるいは有線ＬＡＮによって接続できず、音声データに同期してイベント信号をパーソナルコンピュータ１００は取得できない場合とする。それ故、映像音声データと、イベント信号データとは同期していない状態である。

また、講演は１日中複数の人により行われ、複数の映像音声データとイベント信号データが取得された場合を考える。

（３．２．実施の形態３によるデータ同期装置の同期時間決定手順）
図８は、実施の形態３によるデータ同期装置の同期手順を説明するフローチャートである。実施の形態３によるデータ同期装置が使用される場面は、実施の形態１におけると同様に講演会をマルチメディアコンテンツに記録しようとする場合とする。音声データとイベント信号が同期されずに取得されるのは、実施の形態１の場合と同様である。

ここでステップＳ３０１からステップＳ３０３までは、実施の形態２によるデータ同期装置の動作であるステップＳ２０１からステップＳ２０３（図６）までと同じであるので、説明を省略する。

区間検出部３２は、検出された無音区間の数とイベントの数を比較し、無音区間の数が適当な数、例えばイベントの数の２倍以上であるか否かを判定する（ステップＳ３０４）。２倍以上でないと判定されれば（ステップＳ３０４のＮｏ）、閾値設定部３１は、音量閾値を増加させるなどして調整する（ステップＳ３０５）。その反対に、区間検出部３２が、無音区間がイベント数の２倍以上であると判定した場合（ステップＳ３０５のＹｅｓ）、時間差設定部１５は同期時間差を設定する（ステップＳ３０６）。この手順によって、同期処理を行うための適切な無音区間数を設定するために音量閾値に自動調節する。

次のステップＳ３０６からステップＳ３０９までの手順は、実施の形態２によるデータ同期手順のステップＳ２０４からステップＳ２０７（図６）までと同様であるので、説明を省略する。ただし、ここでは時間差設定部１５は、同期時間を１００ｍｓずつ増加させながら、各同期時間についてスコアを求めるものとする。閾値設定部３１によって音量閾値を調整できるので、同期時間差を実施の形態１によるデータ同期装置を使用する場合よりもより時間差を細密に設定したものである。

同期決定部３６は、検出されたピークをのうち最大値を取るピークと他のピークとの差が十分であるか否かを判定する（ステップＳ３１０）。例えば、最大のピーク値が、他のピーク値の１０倍以上であるか否かを判定する。ここで、１０倍以上でないと判定された場合（ステップＳ３１０のＮｏ）、ステップＳ３０５に戻り、音量閾値を設定し直して再びステップＳ３０３からステップＳ３０９までを繰り返す。最大ピーク値が他のピーク値の１０倍以上であると判定された場合（ステップＳ３１０のＹｅｓ）、同期決定部１６は、最大ピークを与える同期時間差によって、最適な同期時間を決定する（ステップＳ３１１）。

このようにして、検出された一致度のピークが顕著なものでないと判定された場合、音量閾値を増加させて、無音区間の検出処理のステップまで戻り、スコアの最大値と他のピークのスコア最大値との差を求め直し、十分に顕著な差が検出されるまで繰り返す。例えば、量ピークの差異が最大となる音量閾値が得られるまで繰り返す。最終的に、スコアの最大値と他のピークのスコア最大値との差が最大となる音量閾値を最適な音量閾値と推定し、そのときの同期時間を最適な同期時間と判断する。

判断された同期時間によって同期したコンテンツが作成される。以上に述べた処理が、同期されずに取得された各データについて施されることにより、全自動でバッチ的に同期したコンテンツが作成可能である。

図９〜１１は、音量閾値を変化させた場合の同期時間差に対する一致度を示すグラフである。図９は、音量閾値の設定が高すぎる場合に現れるピークを示している。この場合は、現れるピークが多すぎる。図１０は、音量閾値の設定が低すぎる場合に現れるピークを示している。この場合は、現れるピークが単純であって、顕著な差を検出することができない。図１１は、音量閾値の設定が適正である場合に現れるピークを示している。この場合は、顕著なピーク１００１が現れて、適正な同期時間差を検出できる。

実施の形態３によるデータ同期の手順では、音量閾値を増加させる調整を説明したが、増加に限ることなく、場合によっては減少させる調整もあり得る。

音量閾値を調整することによって、最大の極値と２番目の極値の値の比が一定（例えば１０）以上になるように調整することが望ましい。その時の最大値を与える同期時間差を同期時間と採用する。

また、音量閾値を調整することによって、最大の極値と２番目の極値の値の比が最大になるように調整することが望ましい。その時の最大値を与える同期時間差を同期時間と採用する。

また、上記の方式によっても正しい同期のためのずらし時間が得られない場合に対応するため、操作者が最適な選択肢から順番に選択が可能となるように、ピークのスコア値の高い方から順番に操作者に提示し、選択できる表示部２２と操作部２３とを備えることができる。

その際、同期を操作者が確認するためのマンマシーンインタフェースとしてのプレビューは、音声と映像を同期時間分ずらして作成したコンテンツを視聴できるようにしたインタフェースを備えることにより実現できる。同期が適切でなければ、蓄積された探索結果の中から一致度が次に大きい候補を読み出して、その候補地によって同期させたコンテンツをプレビューし、適正な同期であると判断するまで同じ手順を続けることによって、適正な同期時間を取得できる。

入力インタフェースは、ＧＵＩのボタンインターフェースなどにより実現できる。適正な同期時間によってマルチメディアコンテンツを作成することによって、映像音声とスライドをめくるイベントのタイミングが合ったマルチメディアコンテンツが作成できる。

この方式の効果を確認するため、本発明者は、実際のプレゼンテーションを撮影した３２例のデータに対して上記の同期処理の実験を行い、全て正しい同期を取ることができた。この実験に用いたデータには、検出された無音区間の総数は２１３、無音区間に入ったイベント数／全体イベント数は１６／６０であった。このように、イベント数の３倍以上の無音部があり、しかも、ページめくりと無音区間が１／３以下しか対応していないような悪条件のものも含まれていた。しかしながら、実施の形態３によるデータ同期装置を使用したロバストな同期時間決定方式によって、正しい同期時間を得ることができた。また、この実験データには、間違いや言いよどみがあり、無音部の多いプレゼンテーションの練習データも含まれている不良な条件のデータであったにも関わらず、正しい同期時間を取得することができた。

以上の説明では、無音区間において何らかのイベント信号が発生することを前提としたため、閾値を定めて無音区間を設定し、設定された無音区間内にイベント信号が存在するか否かによって一致度を判定した。しかしながら、イベント信号によっては、無音区間内とは限らず、該無音区間の近傍において発生する場合がある。その場合、設定された無音区間を含む区間を判定区間として、該判定区間内にイベント信号が存在するかによって一致度を判定することもできる。このようにして一致度を判定することによって、無音区間の近傍において発生したイベント信号に対して、音声データとの一致度を算出できる。

図１７は、音声データにおける無音区間を含む判定区間を模式的に示したグラフである。時間に対する音量のグラフにおいて、音量閾値によって無音区間が設定され、該無音区間を含む判定区間１７０１〜１７０７が設定される。ここで、どれくらいの幅を持って判定区間が無音区間を含むかは、任意に設定可能とする。例えば、無音区間の後にイベント信号が起きる可能性が高い場合は、無音区間に対してグラフの時間軸の右側の時間幅を多く設定すればよい。この方式によって、無音区間の近傍においてイベント信号毎が発生する場合の一致度を正確に算出し、同期時間を正確に決定することができる。

また、イベント信号自体が基本的に無音区間とずれて発生する場合は、そのずれ幅を考慮して無音区間あるいは判定区間との一致度を算出して、算出された一致度を基に同期時間を決定することができる。この方式によって、無音区間とずれて発生するイベント信号に対しても一致度を正確に算出し、同期時間を正確に決定することができる。

また、以上の説明では、一致度として個数を単純に加えたスコアとしたが、単純に加えずに個数を独立変数とした関数の値として一致度を表現することもできる。これにより、より詳細に一致度の違いを判定することができる。

また、イベント信号が、無音区間あるいは判定区間内に存在しない場合あっても、最も近傍の該区間までの距離の近さを使用して、各イベント信号毎の一致度を求め、求められた各イベント信号毎の一致度の総和をその時間差における一致度とすることもできる。このようにして各イベント信号毎の一致度を総計することによって、より精密な一致度を算出し、正確に同期時間を決定することができる。

また、極値の大小関係の比較においては、極値同士の比を求めて比較する方法、極値同士の差を求めて比較する方法など種々の方法が考えられる。

（３．３．効果）
無音区間の数とイベントとの数との割合が好適となるように音量閾値を自動調整し、さらに、スコアの最大値と他のピークのスコア最大値との差または比が大きくなるように音量閾値を自動調整することによって、録音時のノイズレベルや音量に左右されずに、ロバストに正確なデータの同期が可能となる。

（４．実施の形態によるデータ同期装置を適用した例）
図１２は、実施の形態１によるデータ同期装置と、画像処理部とを備えた画像処理装置の機能的ブロック図である。この構成により、簡易な構成によって音声データとイベント信号データとをロバストに正確に同期させることができる画像処理装置４０を提供できる。

図１３は、実施の形態１によるデータ同期装置と、画像処理部と、画像出力部とを備えた画像形成装置の機能的ブロック図である。この構成により、簡易な構成によって音声データとイベント信号データとをロバストに正確に同期させて画像形成することができる画像形成装置５０を提供できる。

（５．ハードウェア構成）
図１４は、実施の形態によるデータ同期装置のハードウェア構成例を示す図である。上述したデータ同期装置は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータシステムで実行することによって実現できる。コンピュータ１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１によって装置全体が制御されている。ＣＰＵ１０１には、バス１０７を介してＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０３、ハードディスクドライブ（ＨＤＤ：ＨａｒｄＤｉｓｋＤｒｉｖｅ）１０４、グラフィック処理装置１０５、入力インタフェース１０６が接続されている。ＲＯＭ１０２、およびＲＡＭ１０３には、ＣＰＵ１０１に実行させるＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）のプログラムやアプリケーションプログラムの少なくとも一部が格納される。またＲＡＭ１０３には、ＣＰＵ１０１による処理に必要な各種データが格納される。ＨＤＤ１０４には、ＯＳ、各種ドライバプログラム、アプリケーションプログラム、検出されたデータなどが格納される。

グラフィック処理装置１０５には、モニタ１１１が接続されている。グラフィック処理装置１０５は、ＣＰＵ１０１からの命令に従って、画像をモニタ１１１の画面に表示させる。入力インタフェース１０６には、キーボード１１２とマウス１１３とが接続されている。入力インタフェース１０６は、キーボード１１２やマウス１１３から送られてくる信号を、バス１０７を介してＣＰＵ１０１に送信する。

以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。本実施の形態をコンピュータ１００上で実現するには、コンピュータ１００にドライバプログラムを実装する。

尚、本実施形態のデータ同期装置で実行されるデータ同期プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フロッピー（Ｒ）ディスク、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

また、本実施形態のデータ同期プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供および配布するように構成しても良い。

以上のように、本発明にかかるデータ同期装置、データ同期方法、およびその方法をコンピュータに実行させるプログラムは、映像、音声、イベント信号などのマルチメディアデータの処理に有用であり、特に、音声データおよびイベント信号をロバストに同期させるデータ同期装置、データ同期方法、およびその方法をコンピュータに実行させるプログラムに適している。

実施の形態１によるデータ同期装置の構成を示す機能的ブロック図である。音声データに対してイベント信号を、同期時間差ごとに照合することを説明する図である。イベント信号データの探索範囲を説明する図である。実施の形態１によるデータ同期装置が、同期時間を決定する手順を説明するフローチャートである。同期時間差に対する一致度（スコア）の関係を模式的に示したグラフである。実施の形態２によるデータ同期装置が、同期時間を決定する手順を説明するフローチャートである。実施の形態３によるデータ同期装置の機能的ブロック図である。実施の形態３によるデータ同期装置の同期手順を説明するフローチャートである。音量閾値を変化させた場合の同期時間差に対するスコアのグラフである。音量閾値を変化させた場合の同期時間差に対するスコアのグラフである。音量閾値を変化させた場合の同期時間差に対するスコアのグラフである。実施の形態１によるデータ同期装置と、画像処理部とを備えた画像処理装置の機能的ブロック図である。実施の形態１によるデータ同期装置と、画像処理部と、画像出力部とを備えた画像形成装置の機能的ブロック図である。実施の形態１によるデータ同期装置のハードウェア構成例を示す図である。一般的な音声データにおける無音区間と有音区間、およびイベント信号との対応を説明する図である。音声データにおける時間の経過に対する音量を模式的に示したグラフである。音声データにおける無音区間を含む判定区間を模式的に示したグラフである。

符号の説明

１０、３０データ同期装置
１１音声データ入力部
１２、３２区間検出部
１３イベント信号入力部
１４一致度算出部
１５時間差設定部
１６、３６同期決定部
１７制御部
１８、３８表示部
１９、３９操作部
３１閾値設定部
４０画像処理装置
４１画像処理部
５０画像形成装置
５１画像出力部
１００パーソナルコンピュータ

Claims

発生する音声を記録した音声データと、前記音声に並行して発生するタイミング信号を含む複数のイベント信号とを、非同期的に取得して同期させるデータ同期装置であって、
取得された前記音声データにおける複数の無音区間を検出する区間検出手段と、
取得された前記音声データおよび複数のイベント信号を同期させる際の時間的なずれである複数の同期時間差を設定する設定手段と、
前記設定手段によって設定された複数の同期時間差ごとに、前記複数のイベント信号が、前記区間検出手段によって検出された無音区間を含む所定の判定区間内に含まれるか否かを判定して、含まれると判定した前記イベント信号に従って、前記複数の無音区間と前記複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出する算出手段と、
前記算出手段によって算出された前記複数の同期時間差ごとの一致度に基づいて前記音声データとイベント信号との同期時間を決定する決定手段と、
を備えたことを特徴とするデータ同期装置。
前記算出手段が判定する前記複数の判定区間は前記複数の無音区間であり、かつ
前記算出手段は、前記設定手段によって設定された複数の同期時間差ごとに、前記複数のイベント信号が前記区間検出手段によって検出された複数の無音区間内に含まれるか否かを判定して含まれると判定した前記イベント信号に従って、前記複数の無音区間と前記複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出するものであることを特徴とする請求項１に記載のデータ同期装置。
発生する音声を記録した音声データと、前記音声に並行して発生するタイミング信号を含む複数のイベント信号とを、非同期的に取得して同期させるデータ同期装置であって、
取得された前記音声データにおける複数の無音区間を検出する区間検出手段と、
取得された前記音声データおよび複数のイベント信号を同期させる際の時間的なずれである複数の同期時間差を設定する設定手段と、
前記設定手段によって設定された複数の同期時間差ごとに、前記複数のイベント信号が前記区間検出手段によって検出された複数の無音区間内に含まれるか否かを判定して含まれると判定した前記イベント信号の個数に従って、前記複数の無音区間と前記複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出する算出手段と、
前記算出手段によって算出された前記複数の同期時間差ごとの一致度に基づいて前記音声データとイベント信号との同期時間を決定する決定手段と、
を備えたことを特徴とするデータ同期装置。
前記複数のイベント信号は、前記音声の発生に並行して表示画面に順次表示される各画面画像が切り替わるときの複数の切り替わりタイミング信号であり、
前記決定手段は、前記算出手段によって算出された前記複数の同期時間差ごとの一致度に基づいて前記音声データと、前記音声の発生に並行して表示画面に順次表示される各画面画像が切り替わるときの複数の切り替わりタイミング信号との同期時間を決定するものであることを特徴とする請求項１〜３のいずれか１つに記載のデータ同期装置。
前記音声データにおける音量閾値を設定する閾値設定手段を、さらに備え、
前記区間検出手段は、前記閾値設定手段によって設定された音量閾値と前記音声データにおける音量との大小を判定して小であると判定した区間を、前記無音区間として検出するものであり、
前記算出手段は、前記設定された音量閾値ごとに前記複数の一致度を算出するものであり、
前記決定手段は、前記音量閾値ごとに算出された前記複数の一致度の大小を判定して、一致度が大であると判定された音量閾値の一致度における同期時間差を、前記音声データとイベント信号との同期時間として決定するものであることを特徴とする請求項１〜４のいずれか１つに記載のデータ同期装置。
前記決定手段は、前記複数の同期時間差に対する前記複数の一致度による極値を検出し、検出された前記極値を与える同期時間差を、前記音声データとイベント信号との同期時間として決定するものであることを特徴とする請求項１〜５のいずれか１つに記載のデータ同期装置。
前記閾値設定手段は、前記区間検出手段によって検出された前記無音区間の個数と前記イベント信号中のイベント信号の個数との比を算出して、算出された前記比が所定の範囲に含まれるように前記音量閾値を設定するものであることを特徴とする請求項５または６に記載のデータ同期装置。
前記閾値設定手段は、前記決定手段によって検出された前記極値が複数ある場合、最大の極値（最大値）と第２番目の極値とを算出し、算出された前記最大の極値と第２番目の極値との大小関係が所定の範囲となるように前記音量閾値を設定するものであり、
前記決定手段は、前記閾値設定手段によって設定された前記音量閾値において生じた前記最大の極値を与える同期時間差を、前記音声データとイベント信号との同期時間として決定するものであることを特徴とする請求項６または７に記載のデータ同期装置。
前記閾値設定手段は、前記決定手段によって検出された前記極値が複数ある場合、最大の極値（最大値）と第２番目の極値とを算出し、算出された前記最大の極値と第２番目の極値との大小関係が最大となるように前記音量閾値を設定するものであり、
前記決定手段は、前記閾値設定手段によって設定された前記音量閾値において生じた前記最大の極値を与える同期時間差を、前記音声データとイベント信号との同期時間とし決定するものであることを特徴とする請求項６〜８のいずれか１つに記載のデータ同期装置。
前記閾値設定手段は、前記決定手段によって検出された前記極値が複数ある場合、最大の極値（最大値）と第２番目の極値との比を算出し、算出された前記比が所定の範囲に含まれるように前記音量閾値を設定するものであり、
前記決定手段は、前記閾値設定手段によって設定された前記音量閾値において生じた前記最大の極値を与える同期時間差を、前記音声データとイベント信号との同期時間として決定するものであることを特徴とする請求項６または７に記載のデータ同期装置。
前記閾値設定手段は、前記決定手段によって検出された前記極値が複数ある場合、最大の極値（最大値）と第２番目の極値との比を算出し、算出された前記比が最大となる音量閾値を設定するものであり、
前記決定手段は、前記閾値設定手段によって設定された前記音量閾値において生じた前記最大の極値を与える同期時間差を、前記音声データとイベント信号との同期時間とし決定するものであることを特徴とする請求項６、７、または１０のいずれか１つに記載のデータ同期装置。
前記閾値設定手段は、前記音声データにおけるノイズレベルを検出し、前記検出されたノイズレベルを使用して前記音量閾値を設定するものであることを特徴とする請求項５〜１１のいずれか１つに記載のデータ同期装置。
前記決定手段によって検出された前記複数の同期時間差に対する複数の一致度を表示する表示手段と、
前記表示手段によって表示された前記複数の同期時間差に対する複数の一致度による極値のうちから、前記極値を与える同期時間差を操作者が指定する指定入力を受け付ける操作手段と、をさらに備え、
前記決定手段は、前記操作手段によって受け付けられた指定入力による同期時間差を、前記音声データとイベント信号との同期時間として決定するものであることを特徴とする請求項６〜１２のいずれか１つに記載のデータ同期装置。
発生する音声を記録した音声データと、前記音声に並行して発生するタイミング信号を含む複数のイベント信号とを、非同期的に取得して同期させるデータ同期方法であって、
取得された前記音声データにおける複数の無音区間を検出する区間検出工程と、
取得された前記音声データおよび複数のイベント信号を同期させる際の時間的なずれである複数の同期時間差を設定する設定工程と、
前記設定工程によって設定された複数の同期時間差ごとに、前記複数のイベント信号が、前記区間検出工程によって検出された無音区間を含む所定の判定区間内に含まれるか否かを判定して、含まれると判定した前記イベント信号に従って、前記複数の無音区間と前記複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出する算出工程と、
前記算出工程によって算出された前記複数の同期時間差ごとの一致度に基づいて前記音声データとイベント信号との同期時間を決定する決定工程と、
を含むことを特徴とするデータ同期方法。
前記算出工程が判定する前記複数の判定区間は前記複数の無音区間であり、かつ
前記算出工程は、前記設定工程によって設定された複数の同期時間差ごとに、前記複数のイベント信号が前記区間検出工程によって検出された複数の無音区間内に含まれるか否かを判定して含まれると判定した前記イベント信号に従って、前記複数の無音区間と前記複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出するものであることを特徴とする請求項１４に記載のデータ同期方法。
発生する音声を記録した音声データと、前記音声に並行して発生するタイミング信号を含む複数のイベント信号とを、非同期的に取得して同期させるデータ同期方法であって、
取得された前記音声データにおける複数の無音区間を検出する区間検出工程と、
取得された前記音声データおよび複数のイベント信号を同期させる際の時間的なずれである複数の同期時間差を設定する設定工程と、
前記設定工程によって設定された複数の同期時間差ごとに、前記複数のイベント信号が前記区間検出工程によって検出された複数の無音区間内に含まれるか否かを判定して含まれると判定した前記イベント信号の個数に従って、前記複数の無音区間と前記複数のイベント信号との一致の度合いを示す複数の同期時間差ごとの一致度を算出する算出工程と、
前記算出工程によって算出された前記複数の同期時間差ごとの一致度に基づいて前記音声データとイベント信号との同期時間を決定する決定工程と、
を備えたことを特徴とするデータ同期方法。
前記複数のイベント信号は、前記音声の発生に並行して表示画面に順次表示される各画面画像が切り替わるときの複数の切り替わりタイミング信号であり、
前記決定工程は、前記算出工程によって算出された前記複数の同期時間差ごとの一致度に基づいて前記音声データと、前記音声の発生に並行して表示画面に順次表示される各画面画像が切り替わるときの複数の切り替わりタイミング信号との同期時間を決定するものであることを特徴とする請求項１４〜１６のいずれか１つに記載のデータ同期方法。
前記音声データにおける音量閾値を設定する閾値設定工程を、さらに備え、
前記区間検出工程は、前記閾値設定工程によって設定された音量閾値と前記音声データにおける音量との大小を判定して小であると判定した区間を、前記無音区間として検出するものであり、
前記算出工程は、前記設定された音量閾値ごとに前記複数の一致度を算出するものであり、
前記決定工程は、前記音量閾値ごとに算出された前記複数の一致度の大小を判定して、一致度が大であると判定された音量閾値の一致度における同期時間差を、前記音声データとイベント信号との同期時間として決定するものであることを特徴とする請求項１４〜１７のいずれか１つに記載のデータ同期方法。
前記決定工程は、前記複数の同期時間差に対する前記複数の一致度による極値を検出し、検出された前記極値を与える同期時間差を、前記音声データとイベント信号との同期時間として決定するものであることを特徴とする請求項１４〜１８のいずれか１つに記載のデータ同期方法。
請求項１４〜１９のいずれか１つに記載のデータ同期方法をコンピュータに実行させることを特徴とするプログラム。