JP2022048131A

JP2022048131A - マルチメディアコンテンツと音源を同期するための電子装置およびその作動方法

Info

Publication number: JP2022048131A
Application number: JP2021148571A
Authority: JP
Inventors: ジョンウンパク; Chan Wung Park; デファンキム; Dae Hwang Kim; ジャンヒイ; Jang Hee Lee
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2020-09-14
Filing date: 2021-09-13
Publication date: 2022-03-25
Anticipated expiration: 2041-09-13
Also published as: JP7261276B2; KR102439201B1; KR20220035636A

Abstract

【課題】マルチメディアコンテンツとマルチメディアコンテンツに使用された音源を同期するための電子装置およびその作動方法を提供する。【解決手段】電子装置は、マルチメディアコンテンツのフィンガープリントに基づいて、マルチメディアコンテンツの少なくとも１つの表示区間にそれぞれマッチングされる音源の少なくとも１つの再生区間を検出し、マルチメディアコンテンツ内の表示区間の時間位置と音源内の再生区間の時間位置との時間差を検出し、時間差に基づいて、表示区間と再生区間を同期させるように構成される。【選択図】図５

Description

多様な実施形態は、マルチメディアコンテンツ（ｍｕｌｔｉｍｅｄｉａｃｏｎｔｅｎｔ）とマルチメディアコンテンツに使用された音源（ａｕｄｉｏｓｏｕｒｃｅ）を同期するための電子装置およびその作動方法に関する。

音源検出技術とは、マルチメディアコンテンツに使用された音源を検出する技術である。一般的に、サーバには、複数の音源が登録されており、音源のフィンガープリント（ｆｉｎｇｅｒｐｒｉｎｔ）がそれぞれ記録されている。このようなサーバは、音源検出技術を利用して、マルチメディアコンテンツのフィンガープリントに基づいて、登録された音源からマルチメディアコンテンツに使用された音源を検出する。これにより、サーバは、音源に関する情報と、音源内でマルチメディアコンテンツに使用された部分の開始位置を提供する。

しかし、このようなサーバは、マルチメディアコンテンツに使用された音源を検出するための動作性能が低いという問題を抱えている。具体的に、サーバが、マルチメディアコンテンツの全体のフィンガープリントと登録された音源のフィンガープリントとを比較しなければならないため、サーバの演算量が増加し、サーバの動作効率性が低下する。さらに、サーバが、音源内からマルチメディアコンテンツに使用された部分を正確に検出することに困難がある。

多様な実施形態は、マルチメディアコンテンツに使用された少なくとも１つの音源を効率的に検出することができる、電子装置およびその作動方法を提供する。

多様な実施形態は、マルチメディアコンテンツと音源内で互いにマッチングする部分を特定することにより、これらを同期することができる、電子装置およびその作動方法を提供する。

多様な実施形態は、マルチメディアコンテンツと音源を自然に切り換えることができる、電子装置およびその作動方法を提供する。

多様な実施形態は、音源の歌詞情報に基づいて、マルチメディアコンテンツに字幕データを表示することができる、電子装置およびその作動方法を提供する。

多様な実施形態に係る電子装置の作動方法は、前記電子装置のプロセッサが、マルチメディアコンテンツのフィンガープリントに基づいて、マルチメディアコンテンツの少なくとも１つの表示区間にそれぞれマッチングされる音源の少なくとも１つの再生区間を検出する段階、前記マルチメディアコンテンツ内の前記表示区間の時間位置と前記音源内の前記再生区間の時間位置との時間差を検出する段階、および前記時間差に基づいて、前記表示区間と前記再生区間を同期する段階を含んでよい。

多様な実施形態に係るコンピュータプログラムは、前記作動方法を前記電子装置に実行させるために非一時的なコンピュータ読み取り可能な記録媒体に記録されてよい。

多様な実施形態に係る非一時的なコンピュータ読み取り可能な記録媒体には、前記作動方法を前記電子装置に実行させるためのプログラムが記録されている。

多様な実施形態に係る電子装置は、メモリ、および前記メモリに連結され、前記メモリに記録された少なくとも１つの命令を実行するように構成されたプロセッサを含み、前記プロセッサは、マルチメディアコンテンツのフィンガープリントに基づいて、マルチメディアコンテンツの少なくとも１つの表示区間にそれぞれマッチングされる音源の少なくとも１つの再生区間を検出し、前記マルチメディアコンテンツ内の前記表示区間の時間位置と前記音源内の前記再生区間の時間位置との時間差を検出し、前記時間差に基づいて、前記表示区間と前記再生区間を同期するように構成されてよい。

多様な実施形態によると、電子装置はマルチメディアコンテンツに使用された少なくとも１つの音源を効率的に検出することができる。具体的に、電子装置は、マルチメディアコンテンツと音源で互いにマッチングする表示区間と再生区間を効率的に検出することができる。すなわち、電子装置は、マルチメディアコンテンツのフィンガープリントで時間範囲を拡張させながら、マルチメディアコンテンツと音源で互いにマッチングする表示区間と再生区間をより正確に特定することができる。また、電子装置は、互いにマッチングする表示区間と再生区間との時間差に基づいて表示区間と再生区間を同期することにより、マルチメディアコンテンツと音源を関連付けることができる。これにより、電子装置は、マルチメディアコンテンツと音源を自然に切り換えることが可能となる上に、音源の歌詞情報に基づいて、マルチメディアコンテンツに字幕データを表示することができる。

多様な実施形態における、電子装置を示した図である。図１のプロセッサの動作特徴を説明するための例示図である。図１のプロセッサの動作特徴を説明するための例示図である。図１のプロセッサを詳しく示した図である。多様な実施形態における、電子装置の作動方法を示した図である。図５の表示区間と再生区間検出段階を詳しく示した図である。図５の表示区間と再生区間同期段階を詳しく示した図である多様な実施形態における、電子装置の作動方法を説明するための例示図である。多様な実施形態における、電子装置の作動方法を説明するための例示図である。多様な実施形態における、電子装置の作動方法を説明するための例示図である。多様な実施形態における、電子装置の作動方法を説明するための例示図である。多様な実施形態における、電子装置の作動方法を説明するための例示図である。多様な実施形態における、電子装置の作動方法を説明するための例示図である。

以下、本文書の多様な実施形態について、添付の図面を参照しながら説明する。

図１は、多様な実施形態における、電子装置１００を示した図である。図２および図３は、図１のプロセッサ１６０の動作特徴を説明するための例示図である。図４は、図１のプロセッサ１６０を詳しく示した図である。

図１を参照すると、多様な実施形態に係る電子装置１００は、連結端子１１０、通信モジュール１２０、入力モジュール１３０、出力モジュール１４０、メモリ１５０、またはプロセッサ１６０のうちの少なくともいずれか１つを含んでよい。一実施形態によっては、電子装置１００の構成要素のうちの少なくともいずれか１つが省略されても、少なくとも１つの他の構成要素が追加されてもよい。一実施形態によっては、電子装置１００の構成要素のうちの少なくともいずれか２つが、１つの統合された回路で実現されてよい。例えば、電子装置１００は、サーバ（ｓｅｒｖｅｒ）、スマートフォン（ｓｍａｒｔｐｈｏｎｅ）、携帯電話、ナビゲーション、ＰＣ、ノート型ＰＣ、デジタル放送用端末、ＰＤＡ（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔｓ）、ＰＭＰ（ｐｏｒｔａｂｌｅｍｕｌｔｉｍｅｄｉａｐｌａｙｅｒ）、タブレット、ゲームコンソール（ｇａｍｅｃｏｎｓｏｌｅ）、ウェアラブルデバイス（ｗｅａｒａｂｌｅｄｅｖｉｃｅ）、ＩｏＴ（ｉｎｔｅｒｎｅｔｏｆｔｈｉｎｇｓ）デバイス、家電機器、医療機器、またはロボット（ｒｏｂｏｔ）のうちの少なくともいずれか１つを含んでよい。

連結端子１１０は、電子装置１００で外部装置１０２と物理的に連結されてよい。例えば、外部装置１０２は、他の電子装置を含んでよい。このために、連結端子１１０は、少なくとも１つのコネクタを含んでよい。例えば、コネクタは、ＨＤＭＩコネクタ、ＵＳＢコネクタ、ＳＤカードコネクタ、またはオーディオコネクタのうちの少なくともいずれか１つを含んでよい。

通信モジュール１２０は、電子装置１００で外部装置１０２、１０４との通信を実行してよい。通信モジュール１２０は、電子装置１００と外部装置１０２、１０４との間に通信チャンネルを樹立し、通信チャンネルを介して外部装置１０２、１０４との通信を実行してよい。ここで、外部装置１０２、１０４は、衛星、基地局、または他の電子装置のうちの少なくともいずれか１つを含んでよい。通信モジュール１２０は、有線通信モジュールまたは無線通信モジュールのうちの少なくともいずれか１つを含んでよい。有線通信モジュールは、連結端子１０２を介して外部装置１０２と有線で接続し、有線で通信してよい。無線通信モジュールは、近距離通信モジュールまたは遠距離通信モジュールのうちの少なくともいずれか１つを含んでよい。近距離通信モジュールは、外部装置１０２と近距離通信方式で通信してよい。例えば、近距離通信方式は、ブルートゥース（Ｂｌｕｅｔｏｏｔｈ）、Ｗｉ－Ｆｉｄｉｒｅｃｔ、または赤外線通信（ＩｒＤＡ：ｉｎｆｒａｒｅｄｄａｔａａｓｓｏｃｉａｔｉｏｎ）のうちの少なくともいずれか１つを含んでよい。遠距離通信モジュールは、外部装置１０４と遠距離通信方式で通信してよい。ここで、遠距離通信モジュールは、ネットワーク１９０を介して外部装置１０４と通信してよい。例えば、ネットワーク１９０は、セルラネットワーク、インターネット、またはＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）やＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）のようなコンピュータネットワークのうちの少なくともいずれか１つを含んでよい。

入力モジュール１３０は、電子装置１００の少なくとも１つの構成要素に使用される信号を入力してよい。入力モジュール１３０は、利用者が電子装置１００に信号を直接入力するように構成される入力装置、周辺環境を感知して信号を発生するように構成されるセンサ装置、または画像を撮影して画像データを生成するように構成されるカメラモジュールのうちの少なくともいずれか１つを含んでよい。例えば、入力装置は、マイクロフォン（ｍｉｃｒｏｐｈｏｎｅ）、マウス（ｍｏｕｓｅ）、またはキーボード（ｋｅｙｂｏａｒｄ）のうちの少なくともいずれか１つを含んでよい。一実施形態において、センサ装置は、タッチを感知するように設定されたタッチ回路（ｔｏｕｃｈｃｉｒｃｕｉｔｒｙ）、またはタッチによって発生する力の強度を測定するように設定されたセンサ回路のうちの少なくともいずれか１つを含んでよい。

出力モジュール１４０は、情報を出力してよい。出力モジュール１４０は、情報を視覚的に表示するように構成される表示モジュール、または情報を聴覚的に再生するように構成されるオーディオモジュールのうちの少なくとも１つを含んでよい。例えば、表示モジュールは、ディスプレイ、ホログラム装置、またはプロジェクタのうちの少なくともいずれか１つを含んでよい。一例として、表示モジュールは、入力モジュール１３０のタッチ回路またはセンサ回路のうちの少なくともいずれか１つと組み立てられて、タッチスクリーンとして実現されてよい。例えば、オーディオモジュールは、スピーカまたはレシーバのうちの少なくともいずれか１つを含んでよい。

メモリ１５０は、電子装置１００の少なくとも１つの構成要素によって使用される多様なデータを記録してよい。例えば、メモリ１５０は、揮発性メモリまたは不揮発性メモリのうちの少なくともいずれか１つを含んでよい。データは、少なくとも１つのプログラム、およびこれと関連する入力データまたは出力データを含んでよい。プログラムは、メモリ１５０に少なくとも１つの命令を含むソフトウェアとして記録されてよく、例えば、オペレーティングシステム、ミドルウェア、またはアプリケーションのうちの少なくともいずれか１つを含んでよい。

プロセッサ１６０は、メモリ１５０のプログラムを実行して、電子装置１００の少なくとも１つの構成要素を制御してよい。これにより、プロセッサ１６０は、データ処理または演算を実行してよい。このとき、プロセッサ１６０は、メモリ１５０に記録された命令を実行してよい。プロセッサ１６０は、マルチメディアコンテンツ（ｍｕｌｔｉｍｅｄｉａｃｏｎｔｅｎｔ）に使用された少なくとも１つの音源（ａｕｄｉｏｓｏｕｒｃｅ）を検出してよい。ここで、マルチメディアコンテンツは、画像データまたはオーディオデータのうちの少なくとも１つで構成されてよい。一例として、マルチメディアコンテンツは、画像データとオーディオデータで構成され、ミュージックビデオやネットワークを介して共有される動画などを含んでよい。他の例として、マルチメディアコンテンツは、オーディオデータで構成され、ポッドキャスト、放送局などで生成されてよい。また、マルチメディアコンテンツのオーディオデータには、音源が使用されてよい。

多様な実施形態によると、プロセッサ１６０は、図２に示すように、マルチメディアコンテンツとマルチメディアコンテンツに使用された音源から、互いにマッチングされる少なくとも１つの表示区間２１０と少なくとも１つの再生区間２２０をそれぞれ検出してよい。ここで、マルチメディアコンテンツの少なくとも１つの表示区間２１０は、音源の少なくとも１つの再生区間２２０がそれぞれ使用された時間領域を示してよい。このとき、互いにマッチングされる表示区間２１０と再生区間２２０との時間差（ＴＤ１、ＴＤ２）が定義されてよい。時間差（ＴＤ１、ＴＤ２）は、マルチメディアコンテンツの開始点（Ｔ_ｍ０）から該当の表示区間２１０の開始点（Ｔ_ｍ１、Ｔ_ｍ２）までの時間オフセット（ΔＴ_ｍ１、ΔＴ_ｍ２）と、音源の開始点（Ｔ_ａ０）から該当の再生区間２２０の開始点（Ｔ_ａ１、Ｔ_ａ２）までの時間オフセット（ΔＴ_ａ１、ΔＴ_ａ２）とのオフセット差を示してよい（ＴＤ１＝ΔＴ_ｍ１－ΔＴ_ａ１、ＴＤ２＝ΔＴ_ｍ２－ΔＴ_ａ２）。ここで、時間差（ＴＤ１、ＴＤ２）としては、１つの値が定義されてもよいし、一定の範囲内の値が定義されてもよい。一例として、時間差（ＴＤ１、ＴＤ２）は、オフセット差を中心とする範囲内の値が定義されてよい。時間差（ＴＤ１、ＴＤ２）が一定の範囲内の値で定義される場合、同じ音源に対する多様な再生速度が考慮されてよい。

多様な実施形態によると、プロセッサ１６０は、図３に示すように、時間差（ＴＤ１、ＴＤ２）に基づいて、互いにマッチングされる表示区間２１０と再生区間２２０を同期してよい。一実施形態によると、プロセッサ１６０は、同一時点に、マルチメディアコンテンツと音源の切り換えを可能にしてよい。言い換えれば、プロセッサ１６０は、同一時点に、同期された表示区間２１０と再生区間２２０を切り換えることができるようにしてよい。他の実施形態によると、プロセッサ１６０は、音源の歌詞情報に基づいて、マルチメディアコンテンツに字幕データが表示されるようにしてよい。すなわち、プロセッサ１６０は、音源の歌詞情報に基づいて、各再生区間２２０にマッピングされる字幕データを生成し、以下の表１のように、表示区間２１０に、該当の表示区間２１０に同期された再生区間２２０の字幕データが表示されるようにしてよい。一実施形態によると、電子装置１００がサーバである場合、プロセッサ１６０は、外部装置１０２、１０４によってマルチメディアコンテンツまたは音源を再生してよい。他の実施形態によると、電子装置１００がサーバである場合、プロセッサ１６０は、出力モジュール１４０によってマルチメディアコンテンツまたは音源を再生してよい。

例えば、マルチメディアコンテンツが第１表示区間２１０および第２表示区間２１０を含み、音源が第１再生区間２２０および第２再生区間２２０を含み、第１表示区間２１０および第２表示区間２１０が第１再生区間２２０および第２再生区間２２０とそれぞれマッチングされる場合を仮定する。このとき、マルチメディアコンテンツで、第１表示区間２１０は００：００：００～００：０３：４０の時間領域に該当し、第２表示区間２１０は００：０３：５７～００：０５：２１の時間領域に該当するとする。また、第１表示区間２１０と第１再生区間２２０の時間差（ＴＤ１）は－０．５８１であり、第２表示区間２１０と第２再生区間２２０の時間差（ＴＤ２）は－１５．８１４であるとする。さらに、第１再生区間２２０内の００：００：０３．０００および００：００：０６．１２５の時間位置のそれぞれに「ａｂｃｄｅｆｇ」および「ｈｉｊｋｌｍｎ」という字幕データがあり、第２再生区間２２０内の００：０３：５２．０５５の時間位置に「ｏｐｑｒｓｔｕ」という字幕データがあるとする。このような場合、プロセッサ１６０は、時間差（ＴＤ１、ＴＤ２）に基づいて、第１表示区間２１０と第１再生区間２２０および第２表示区間２１０と第２再生区間２２０をそれぞれ同期してよい。これにより、プロセッサ１６０は、第１表示区間２１０内の００：００：０３：５８１および００：００：０６．７０６の時間位置のそれぞれに「ａｂｃｄｅｆｇ」および「ｈｉｊｋｌｍｎ」という字幕データを表示し、第２表示区間２１０内の００：０４：０７．８６９の時間位置に「ｈｉｊｋｌｍｎ」という字幕データを表示してよい。

多様な実施形態によると、プロセッサ１６０は、図４に示すように、ＡＰＩ（ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍｍｉｎｇｉｎｔｅｒｆａｃｅ）４６１、プロセスＡＰＩ（ｐｒｏｃｅｓｓ－ＡＰＩ）４６３、制御部４６５、コンテンツ取得部４６７、フィンガープリント部４６９、マッチング部４７１、比較部４７３、またはクラスタリング部４７５のうちの少なくとも１つを含んでよい。一実施形態によっては、プロセッサ１６０の構成要素のうちの少なくともいずれか１つが省略されても、少なくとも１つの他の構成要素が追加されてもよい。一実施形態によっては、プロセッサ１６０の構成要素のうちの少なくともいずれか２つが、１つの統合された回路で実現されてよい。

ＡＰＩ４６１は、利用者の要請を検出してよい。プロセスＡＰＩ４６３は、利用者の要請に基づいて、命令語を生成してよい。制御部４６５は、プロセッサ１６０の構成要素のうちの少なくとも１つを制御してよい。このとき、制御部４６５は、プロセッサ１６０の構成要素のうちの少なくとも２つを仲介する役割を実行してよく、プロセッサ１６０の構成要素のうちの少なくとも１つのための作業を実行してよい。コンテンツ取得部４６７は、命令語に基づいて、マルチメディアコンテンツを取得してよい。フィンガープリント部４６９は、マルチメディアコンテンツのフィンガープリントを取得してよい。このとき、フィンガープリント部４６９は、マルチメディアコンテンツのオーディオデータからフィンガープリントを直接抽出してよい。マッチング部４７１は、マルチメディアコンテンツのフィンガープリントに基づいて、少なくとも１つの音源を検出してよい。このとき、メモリ１５０には、複数の音源が予め登録されており、登録された音源のフィンガープリントがそれぞれ記録されていてよい。マッチング部４７１は、マルチメディアコンテンツのフィンガープリントと登録された音源のフィンガープリントをマッチングさせることにより、登録された音源のフィンガープリントのうちの少なくとも１つを検出してよい。比較部４７３は、マルチメディアコンテンツのフィンガープリントと検出された音源のフィンガープリントとを比較して、検出された音源の信頼度を検出してよい。クラスタリング部４７５は、検出された音源に基づいて、マルチメディアコンテンツに対する比較対象またはマルチメディアコンテンツの比較結果のうちの少なくとも１つを、検出された音源と同一あるいは類似の音源を包括するように拡張させてよい。具体的に、クラスタリング部４７５は、検出された音源と同一あるいは類似の音源の情報を取得し、マルチメディアコンテンツに対する比較対象を、検出された音源と同一あるいは類似の音源に拡張させてよい。一方、クラスタリング部４７５は、比較部４７３の比較結果に基づいて、検出された音源と同一あるいは類似の音源をまとめてよい。

図５は、多様な実施形態における、電子装置１００の作動方法を示した図である。図６は、図５の表示区間２１０と再生区間２２０検出段階（段階５１０）を詳しく示した図である。図７は、図５の表示区間２１０と再生区間２２０同期段階（段階５３０）を詳しく示した図である。図８～１３は、多様な実施形態における、電子装置１００の作動方法を説明するための例示図である。

図５を参照すると、段階５１０で、電子装置１００は、マルチメディアコンテンツの少なくとも１つの表示区間２１０にそれぞれマッチングされる音源の少なくとも１つの再生区間２２０を検出してよい。プロセッサ１６０は、マルチメディアコンテンツに使用された音源を検出してよい。ここで、マルチメディアコンテンツは、画像データまたはオーディオデータのうちの少なくとも１つで構成されてよい。一例として、マルチメディアコンテンツは、画像データとオーディオデータで構成され、ミュージックビデオやネットワークを介して共有される動画などを含んでよい。他の例として、マルチメディアコンテンツは、オーディオデータで構成され、ポッドキャストや放送局などで生成されてよい。また、オーディオデータには、少なくとも１つの音源が使用されてよく、各音源の少なくとも一部が含まれてよい。また、プロセッサ１６０は、マルチメディアコンテンツと音源で互いにマッチングされる表示区間２１０と再生区間２２０をそれぞれ検出してよい。これについては、図６を参照しながらより詳しく説明する。

図６を参照すると、段階６１１で、電子装置１００は、マルチメディアコンテンツのフィンガープリント８１０を複数の検索区間８２０に分割してよい。プロセッサ１６０は、マルチメディアコンテンツのフィンガープリント８１０を取得してよい。一実施形態によると、プロセッサ１６０は、マルチメディアコンテンツのオーディオデータからフィンガープリント８１０を直接抽出してよい。例えば、利用者によってマルチメディアコンテンツが選択されれば、プロセッサ１６０は、マルチメディアコンテンツのオーディオデータからフィンガープリント８１０を抽出してよい。他の実施形態によると、プロセッサ１６０は、外部装置１０２、１０４からマルチメディアコンテンツのフィンガープリント８１０をクエリとして受信してよい。ここで、フィンガープリントは、オーディオデータに対する時間による周波数分布を示してよい。プロセッサ１６０は、図８に示すように、マルチメディアのフィンガープリント８１０を予め設定された時間間隔によって複数の検索区間８２０に分割してよい。一例として、時間間隔は、約３秒であってよい。

段階６１３で、電子装置１００は、検索区間８２０のうちの少なくとも１つがマッチングされる少なくとも１つの検出区間１１１０を有する音源を検出してよい。このとき、メモリ１５０には、複数の音源が予め登録されており、登録された音源のフィンガープリント１０１０がそれぞれ記録されていてよい。プロセッサ１６０は、図９に示すように、検索区間８２０のそれぞれを、登録された音源のフィンガープリント１０１０と比較してよい。これにより、プロセッサ１６０は、検索区間８２０のうちの１つに基づいて、登録された音源のフィンガープリント１０１０のうちの１つを検出してよい。このとき、プロセッサ１６０は、図１０に示すように、検索区間８２０のうちの１つから時間範囲を拡張させながら、マルチメディアコンテンツのフィンガープリント８１０と検出された音源のフィンガープリント１０１０とを比較してよい。これにより、プロセッサ１６０は、図１１に示すように、検出された音源のフィンガープリント１０１０から、検索区間８２０のうちの少なくとも１つがマッチングされる少なくとも１つの検出区間１１１０を検出することができる。

段階６１５で、電子装置１００は、検索区間８２０のうちの少なくとも１つと少なくとも１つの検出区間１１１０を、少なくとも１つの表示区間２１０と少なくとも１つの再生区間２２０としてそれぞれ検出してよい。プロセッサ１６０は、各検出区間１１１０を各再生区間２２０として決定してよい。このとき、プロセッサ１６０は、検出された音源のフィンガープリント１０１０内で各再生区間２２０の時間位置を決定してよい。ここで、各再生区間２２０の時間位置は、検出された音源のフィンガープリント１０１０の開始点（Ｔ_ａ０）から該当の再生区間２２０の開始点（Ｔ_ａ１、Ｔ_ａ２）までの時間オフセット（ΔＴ_ａ１、ΔＴａ２）を示してよい。また、プロセッサ１６０は、各検出区間１１１０にマッチングされる少なくとも１つの検索区間８２０を各表示区間２１０として決定してよい。このとき、プロセッサ１６０は、マルチメディアコンテンツのフィンガープリント８１０内から各表示区間２１０の時間位置を検出してよい。ここで、各表示区間２１０の時間位置は、マルチメディアコンテンツのフィンガープリント８１０の開始点（Ｔ_ｍ０）から該当の表示区間２１０の開始点（Ｔ_ｍ１、Ｔ_ｍ２）までの時間オフセット（ΔＴ_ｍ１、ΔＴ_ｍ２）を示してよい。

この後、電子装置１００は、図５にリターンして、段階５２０に進んでよい。

段階５２０で、電子装置１００は、互いにマッチングされる表示区間２１０と再生区間２２０の時間差（ＴＤ１、ＴＤ２）を検出してよい。プロセッサ１６０は、マルチメディアコンテンツのフィンガープリント８１０内の該当の表示区間２１０の時間位置と検出された音源のフィンガープリント１０１０内の該当の再生区間２２０の時間位置との時間差（ＴＤ１、ＴＤ２）を検出してよい。ここで、時間差（ＴＤ１、ＴＤ２）は、マルチメディアコンテンツのフィンガープリント８１０の開始点（Ｔ_ｍ０）からの時間オフセット（ΔＴ_ｍ１、ΔＴ_ｍ２）と検出された音源のフィンガープリント１０１０の開始点（Ｔ_ａ０）からの時間オフセット（ΔＴ_ａ１、ΔＴ_ａ２）とのオフセット差を示してよい（ＴＤ１＝ΔＴ_ｍ１－ΔＴ_ａ１、ＴＤ２＝ΔＴ_ｍ２－ΔＴ_ａ２）。

段階５３０で、電子装置１００は、時間差（ＴＤ１、ＴＤ２）に基づいて、互いにマッチングされる表示区間２１０と再生区間２２０を同期してよい。プロセッサ１６０は、マルチメディアコンテンツ内の該当の表示区間２１０の時間位置と検出された音源内の該当の再生区間２２０の時間位置を一致させてよい。一実施形態によると、プロセッサ１６０は、同一時点に、マルチメディアコンテンツと検出された音源を切り換えることができるようにしてよい。言い換えれば、プロセッサ１６０は、同一時点に、同期された表示区間２１０と再生区間２２０の切り換えを可能にしてよい。他の実施形態によると、プロセッサ１６０は、音源の歌詞情報に基づいて、マルチメディアコンテンツに字幕データが表示されるようにしてよい。すなわち、プロセッサ１６０は、音源の歌詞情報に基づいて、各再生区間２２０にマッピングされる字幕データを生成し、表示区間２１０に、該当の表示区間２１０に同期された再生区間２２０の字幕データが表示されるようにしてよい。これについては、図７を参照しながらより詳しく説明する。

図７を参照すると、段階７３１で、電子装置１００は、マルチメディアコンテンツを再生するための利用者要請を感知してよい。一実施形態によると、プロセッサ１６０は、外部装置１０２、１０４から受信される利用者要請を感知してよい。他の実施形態によると、プロセッサ１６０は、入力モジュール１３０に入力される利用者要請を感知してよい。これに応答して、段階７３３で、電子装置１００は、マルチメディアコンテンツを再生してよい。一実施形態によると、電子装置１００がサーバである場合、プロセッサ１６０は、外部装置１０２、１０４にマルチメディアコンテンツをストリーミングすることにより、外部装置１０２、１０４によってマルチメディアコンテンツを再生してよい。他の実施形態によると、電子装置１００が利用者装置である場合、サーバからマルチメディアコンテンツがストリーミングされることにより、プロセッサ１６０が出力モジュール１４０を通じてマルチメディアコンテンツを再生してよい。

段階７３５で、電子装置１００は、マルチメディアコンテンツを再生しながら、表示区間２１０に字幕データを表示してよい。プロセッサ１６０は、音源の歌詞情報に基づいて、表示区間２１０と同期する再生区間２２０にマッピングされる字幕データを生成してよい。これにより、プロセッサ１６０は、表示区間２１０に字幕データを表示することができる。一実施形態によると、電子装置１００がサーバである場合、プロセッサ１６０は、外部装置１０２、１０４にマルチメディアコンテンツをストリーミングしながら表示区間２１０に対応して字幕データを提供し、これにより、外部装置１０２、１０４により、図１２に示すように、表示区間２１０に字幕データを表示してよい。他の実施形態によると、電子装置１００が利用者装置である場合、サーバからマルチメディアコンテンツがストリーミングされながら表示区間２１０に対応して字幕データが提供され、これにより、プロセッサ１６０が出力モジュール１４０を通じて、図１２に示すように、表示区間２１０に字幕データを表示してよい。

段階７３７で、電子装置１００は、マルチメディアコンテンツの再生中に、音源への切り換えのための利用者要請を感知してよい。一実施形態によると、プロセッサ１６０は、外部装置１０２、１０４から受信される利用者要請を感知してよい。他の実施形態によると、プロセッサ１６０は、入力モジュール１３０に入力される利用者要請を感知してよい。これに応答して、段階７３９で、電子装置１００は、マルチメディアコンテンツ内の表示区間２１０の再生を中断してよい。プロセッサ１６０は、表示区間２１０内の一時点で表示区間２１０の再生を中断してよい。一実施形態によると、電子装置１００がサーバである場合、プロセッサ１６０は、マルチメディアコンテンツを、表示区間２１０で再生が中断された時点から、外部装置１０２、１０４にこれ以上ストリーミングしなくてよい。他の実施形態によると、電子装置１００が利用者装置である場合、プロセッサ１６０がサーバに表示区間２１０で再生が中断された時点を送信することにより、サーバは、マルチメディアコンテンツを、表示区間２１０で再生が中断された時点からストリーミングしなくてよい。

段階７４１で、電子装置１００は、音源内で表示区間２１０に同期された再生区間２２０を続けて再生してよい。プロセッサ１６０は、再生区間２２０内の一時点から再生区間２２０を続けて再生してよい。ここで、再生区間２２０内の再生時点は、表示区間２１０内で再生が中断された時点と一致してよい。一実施形態によると、電子装置１００がサーバである場合、プロセッサ１６０は、外部装置１０２、１０４に音源を再生区間２２０の再生時点からストリーミングすることにより、外部装置１０２、１０４により、図１３に示すような画面を表示しながら、音源を続けて再生してよい。他の実施形態によると、電子装置１００が利用者装置である場合、サーバから音源が再生区間２２０の再生時点からストリーミングされることにより、プロセッサ１６０が出力モジュール１４０を通じて、図１３に示すような画面を表示しながら、音源を続けて再生してよい。

一方、段階７３１で、マルチメディアコンテンツを再生するための利用者要請を感知する代りに、段階７５１で、電子装置１００は、音源を再生するための利用者要請を感知してよい。一実施形態によると、プロセッサ１６０は、外部装置１０２、１０４から受信される利用者要請を感知してよい。他の実施形態によると、プロセッサ１６０は、入力モジュール１３０に入力される利用者要請を感知してよい。これに応答して、段階７５３で、電子装置１００は、音源を再生してよい。一実施形態によると、電子装置１００がサーバである場合、プロセッサ１６０は、外部装置１０２、１０４に音源をストリーミングすることにより、外部装置１０２、１０４により、図１３に示すような画面を表示しながら、音源を再生してよい。他の実施形態によると、電子装置１００が利用者装置である場合、サーバから音源がストリーミングされることにより、プロセッサ１６０が出力モジュール１４０を通じて、図１３に示すような画面を表示しながら、音源を再生してよい。

段階７５５で、電子装置１００は、音源の再生中に、マルチメディアコンテンツに切り換えるための利用者要請を感知してよい。一実施形態によると、プロセッサ１６０は、外部装置１０２、１０４から受信される利用者要請を感知してよい。他の実施形態によると、プロセッサ１６０は、入力モジュール１３０に入力される利用者要請を感知してよい。これに応答して、段階７５７で、電子装置１００は、音源内の再生区間２２０の再生を中断してよい。プロセッサ１６０は、再生区間２２０内の一時点で再生区間２２０の再生を中断してよい。一実施形態によると、電子装置１００がサーバである場合、プロセッサ１６０は、音源を、再生区間２２０で再生が中断された時点から、外部装置１０２、１０４にこれ以上ストリーミングしなくてよい。他の実施形態によると、電子装置１００が利用者装置である場合、プロセッサ１６０は、再生区間２２０で再生が中断された時点をサーバに送信することにより、サーバは、音源を、再生区間２２０で再生が中断された時点からストリーミングしなくてよい。

段階７５９で、電子装置１００は、マルチメディアコンテンツ内で再生区間２２０に同期された表示区間２１０を続けて再生してよい。プロセッサ１６０は、表示区間２１０内の一時点から表示区間２１０を続けて再生してよい。ここで、表示区間２１０内の再生時点は、再生区間２２０内で再生が中断された時点と一致してよい。一実施形態によると、電子装置１００がサーバである場合、プロセッサ１６０は、外部装置１０２、１０４に、マルチメディアコンテンツを表示区間２１０の再生時点からストリーミングすることにより、外部装置１０２、１０４により、マルチメディアコンテンツを続けて再生してよい。他の実施形態によると、電子装置１００が利用者装置である場合、サーバから、マルチメディアコンテンツが再生区間２２０の再生時点からストリーミングされることにより、プロセッサ１６０が出力モジュール１４０を通じて、マルチメディアコンテンツを続けて再生してよい。この後、電子装置１００は、段階７３５に進んでよい。段階７３５で、電子装置１００は、マルチメディアコンテンツを再生しながら、表示区間２１０に字幕データを表示してよい。プロセッサ１６０は、音源の歌詞情報に基づいて、表示区間２１０に同期された再生区間２２０にマッピングされる字幕データを生成してよい。これにより、プロセッサ１６０は、表示区間２１０に、図１２に示すように、字幕データを表示することができる。

段階７６１で、電子装置１００は、感知されるイベントに対応して、マルチメディアコンテンツまたは音源の再生を終了してよい。一例として、イベントは、マルチメディアコンテンツまたは音源の終了時点で発生してよい。他の例として、イベントは、利用者要請に基づいて発生してよい。段階７３５でマルチメディアコンテンツを再生しながら表示区間２１０に字幕データを表示する間に、段階７３７で音源への切り換えのための利用者要請が感知されなければ、プロセッサ１６０は、マルチメディアコンテンツを続けて再生し、結果的にマルチメディアコンテンツの再生を終了してよい。または、段階７４１または段階７５３で音源を再生する間に、段階７５５でマルチメディアコンテンツへの切り換えのための利用者要請が感知されなければ、プロセッサ１６０は、音源を続けて再生し、結果的に音源の再生を終了してよい。

多様な実施形態によると、電子装置１００は、マルチメディアコンテンツに対応して、検出された音源と関連する情報、位置情報、または信頼度のうちの少なくとも１つを提供してよい。音源と関連する情報は、音源の識別子、名称、またはアーティストのうちの少なくとも１つを含んでよい。位置情報は、マルチメディアコンテンツのフィンガープリント８１０内の検出区間１１１０の時間位置、および検出された音源のフィンガープリント１０１０内の検出区間１１１０の時間位置を示してよい。信頼度は、検出された音源がマルチメディアコンテンツに使用されたものであるかに対する正確度を示すものであり、信頼度が高いほど正確度が高くてよい。このような信頼度は、互いにマッチングされる表示区間２１０と再生区間２２０の比較結果として検出されてよい。一例として、プロセッサ１６０は、互いにマッチングされる表示区間２１０と再生区間２２０のビット演算により、信頼度を検出してよい。ここで、マルチメディアコンテンツから複数の音源が検出された場合、プロセッサ１６０は、音源のリストとして、検出された音源と関連する情報、位置情報、または信頼度のうちの少なくとも１つを提供してよい。

一例として、プロセッサ１６０は、検出された音源の信頼度とは関係なく、検出された音源と関連する情報、位置情報、および信頼度を提供してよい。他の例として、検出された音源の信頼度が基準値以上であれば、プロセッサ１６０は、検出された音源と関連する情報、位置情報、または信頼度のうちの少なくとも１つを提供してよい。言い換えれば、検出された音源の信頼度が基準値未満であれば、プロセッサ１６０は、検出された音源と関連する情報、位置情報、および信頼度を提供しなくてもよい。プロセッサ１６０は、外部装置１０２、１０４のクエリに対する応答として、検出された音源と関連する情報、位置情報、または信頼度のうちの少なくとも１つを提供してよい。一実施形態によると、プロセッサ１６０は、外部装置１０２、１０４に、検出された音源と関連する情報、位置情報、または信頼度のうちの少なくとも１つを送信してよい。他の実施形態によると、プロセッサ１６０は、出力モジュール１４０から、検出された音源と関連する情報、位置情報、または信頼度のうちの少なくとも１つを直接出力してよい。

多様な実施形態によると、利用者は、マルチメディアコンテンツに使用された音源を確認し、これを多様に活用してよい。一例として、マルチメディアコンテンツが放送や公演の動画である場合、利用者は、マルチメディアコンテンツに使用された音源に基づいて、マルチメディアコンテンツのキューシート（ｃｕｅｓｈｅｅｔ）を取得してよい。他の例として、利用者は、マルチメディアコンテンツに使用された音源の著作権保護または著作権精算のために活用してよい。

多様な実施形態によると、検出された音源と関連する情報、位置情報、および信頼度のうちの少なくとも１つを提供した後、電子装置１００は、検出された音源と関連付いた多様なサービスを提供してよい。一実施形態によると、プロセッサ１６０は、外部装置１０２、１０４に、検出された音源を提供してよい。外部装置１０２、１０４によって検出された音源と関連する情報が選択されれば、プロセッサ１６０は、外部装置１０２、１０４に、検出された音源を提供してよい。他の実施形態によると、プロセッサ１６０は、検出された音源と関連付いた他のマルチメディアコンテンツを提供してよい。外部装置１０２、１０４によって検出された音源と関連する情報が選択されれば、プロセッサ１６０は、検出された音源と関連する情報に基づいて、他のマルチメディアコンテンツを検索し、外部装置１０２、１０４に、検索されたマルチメディアコンテンツを提供してよい。また他の実施形態によると、プロセッサ１６０は、検出された音源と関連付いた付加情報を提供してよい。外部装置１０２、１０４によって検出された音源と関連する情報が選択されれば、プロセッサ１６０は、検出された音源と関連する情報に基づいて、例えば、ニュースやソーシャルネットワークサービス（ｓｏｃｉａｌｎｅｔｗｏｒｋｓｅｒｖｉｃｅ：ＳＮＳ）などを利用して付加情報を検索し、外部装置１０２、１０４に検索された付加情報を提供してよい。

多様な実施形態によると、電子装置１００は、マルチメディアコンテンツに使用された少なくとも１つの音源を効率的に検出してよい。具体的に、電子装置１００は、マルチメディアコンテンツと音源で互いにマッチングされる表示区間２１０と再生区間２２０を効率的に検出してよい。すなわち、電子装置１００は、マルチメディアコンテンツのフィンガープリント８１０で時間範囲を拡張させながら、マルチメディアコンテンツと音源で互いにマッチングされる表示区間２１０と再生区間２２０をより正確に特定してよい。また、電子装置１００は、互いにマッチングされる表示区間２１０と再生区間２２０との時間差に基づいて表示区間２１０と再生区間２２０を同期することにより、マルチメディアコンテンツと音源を関連付けてよい。これにより、電子装置１００は、マルチメディアコンテンツと音源を自然に切り換えることが可能となる上に、音源の歌詞情報に基づいて、マルチメディアコンテンツに字幕データを表示することができる。

多様な実施形態に係る電子装置１００の作動方法は、マルチメディアコンテンツのフィンガープリント８１０に基づいて、マルチメディアコンテンツの少なくとも１つの表示区間２１０にそれぞれマッチングされる音源の少なくとも１つの再生区間２２０を検出する段階（段階５１０）、マルチメディアコンテンツ内の表示区間２１０の時間位置と音源内の再生区間２２０の時間位置との時間差（ＴＤ１、ＴＤ２）を検出する段階（段階５２０）、および時間差に基づいて、表示区間２１０と再生区間２２０を同期する段階（段階５３０）を含んでよい。

多様な実施形態によると、電子装置１００の作動方法は、音源の歌詞情報に基づいて、再生区間２２０にマッピングされる字幕データを生成する段階をさらに含んでよい。

多様な実施形態によると、電子装置１００の作動方法は、マルチメディアコンテンツの再中に（段階７３３、段階７５９）、表示区間２１０に、表示区間２１０に同期された再生区間２２０の字幕データを表示する段階（段階７３５）をさらに含んでよい。

多様な実施形態によると、電子装置１００の作動方法は、マルチメディアコンテンツの表示区間２１０の再生中に（段階７３５）、利用者の要請に基づいて（段階７３７）、一時点で表示区間２１０の再生を中断する段階（段階７３９）、および音源で表示区間２１０に同期された再生区間２２０を、中断された時点から続けて再生する段階（段階７４１）をさらに含んでよい。

多様な実施形態によると、電子装置１００の作動方法は、音源の再生区間２２０の再生中に（段階７４１、段階７５３）、利用者の要請に基づいて（段階７５５）、一時点で再生区間２２０の再生を中断する段階（段階７５７）、およびマルチメディアコンテンツで再生区間２２０に同期された表示区間２１０を、中断された時点から続けて再生する段階（段階７５９）をさらに含んでよい。

多様な実施形態によると、再生区間２２０を検出する段階（段階５１０）は、フィンガープリント８１０を予め設定された時間間隔によって複数の検索区間８２０に分割する段階（段階６１１）、検索区間８２０のうちの少なくとも１つがマッチングされる少なくとも１つの検出区間１１１０を有する音源を検出する段階（段階６１３）、および互いにマッチングされた検出区間１１１０のうちの少なくとも１つと検出区間１１１０を表示区間２１０と再生区間２２０としてそれぞれ検出する段階（段階６１５）を含んでよい。

多様な実施形態によると、マルチメディアコンテンツは、画像データまたはオーディオデータのうちの少なくとも１つで構成されてよい。

多様な実施形態によると、電子装置１００の作動方法は、音源と関連する情報、およびマルチメディアコンテンツ内の検出区間１１１０の時間位置および音源内の検出区間１１１０の時間位置を示す位置情報を提供する段階をさらに含んでよい。

多様な実施形態によると、電子装置１００の作動方法は、音源と関連する情報が選択されれば、音源を提供する段階、または音源と関連する情報が選択されれば、音源と関連付いた他のマルチメディアコンテンツを提供する段階のうちの少なくとも１つをさらに含んでよい。

多様な実施形態に係る電子装置１００は、メモリ１５０、およびメモリ１５０に連結され、メモリ１５０に記録された少なくとも１つの命令を実行するように構成されたプロセッサ１６０を含んでよい。

多様な実施形態によると、プロセッサ１６０は、マルチメディアコンテンツのフィンガープリント８１０に基づいて、マルチメディアコンテンツの少なくとも１つの表示区間２１０にそれぞれマッチングされる音源の少なくとも１つの再生区間２２０を検出し、マルチメディアコンテンツ内の表示区間２１０の時間位置と音源内の再生区間２２０の時間位置との時間差を検出し、時間差に基づいて、表示区間２１０と再生区間２２０を同期するように構成されてよい。

多様な実施形態によると、プロセッサ１６０は、音源の歌詞情報に基づいて、再生区間２２０にマッピングされる字幕データを生成するように構成されてよい。

多様な実施形態によると、プロセッサ１６０は、マルチメディアコンテンツの再生中に、表示区間２１０に、表示区間２１０に同期された再生区間２２０の字幕データを表示するように構成されてよい。

多様な実施形態によると、プロセッサ１６０は、マルチメディアコンテンツの表示区間２１０の再生中に、利用者の要請に基づいて、一時点で表示区間２１０の再生を中断し、音源で表示区間２１０に同期された再生区間２２０を、中断された時点から続けて再生するように構成されてよい。

多様な実施形態によると、プロセッサ１６０は、音源の再生区間２２０の再生中に、利用者の要請に基づいて、一時点で再生区間２２０の再生を中断し、マルチメディアコンテンツで再生区間２２０に同期された表示区間２１０を、中断された時点から続けて再生するように構成されてよい。

多様な実施形態によると、プロセッサ１６０は、フィンガープリント８１０を予め設定された時間間隔によって複数の検索区間８２０に分割し、検索区間８２０のうちの少なくとも１つがマッチングされる少なくとも１つの検出区間１１１０を有する音源を検出し、互いにマッチングされた検出区間１１１０のうちの少なくとも１つと検出区間１１１０を表示区間２１０と再生区間２２０としてそれぞれ検出するように構成されてよい。

多様な実施形態によると、プロセッサ１６０は、音源と関連する情報、およびマルチメディアコンテンツ内の検出区間１１１０の時間位置および音源内の検出区間１１１０の時間位置を示す位置情報を提供するように構成されてよい。

多様な実施形態によると、プロセッサ１６０は、音源と関連する情報が選択されれば、音源または音源と関連付いた他のマルチメディアコンテンツのうちの少なくとも１つを提供するように構成されてよい。

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。

本文書の多様な実施形態およびこれに使用された用語は、本文書に記載された技術を特定の実施形態だけに対して限定するためのものではなく、該当の実施例の多様な変更、均等物、および／または代替物を含むものと理解されなければならない。図面の説明と関連し、類似する構成要素に対しては類似する参照符号を付与した。単数の表現は、文脈上で明らかに異なるように意味しない限り、複数の表現を含んでよい。本文書において、「ＡまたはＢ」、「Ａおよび／またはＢのうちの少なくとも１つ」、「Ａ、Ｂ、またはＣ」、または「Ａ、Ｂ、および／またはＣのうちの少なくとも１つ」などの表現は、ともに羅列される項目のすべての可能な組み合わせを含んでよい。「第１」、「第２」、「１番目」、または「２番目」などの表現は、該当の構成要素を順序または重要度とは関係なく修飾するものであり、ある構成要素を他の構成要素と区分するために使用されるものに過ぎず、該当の構成要素を限定するためのものではない。ある（例：第１）構成要素が他の（例：第２）構成要素に「（機能的にまたは通信的に）連結されて」いるか「接続されて」いると記載されるときには、前記ある構成要素が前記他の構成要素に直接に連結されている場合はもちろん、他の構成要素（例：第３構成要素）を介して連結されている場合も含まれる。

本文書で使用される用語「モジュール」は、ハードウェア、ソフトウェア、またはファームウェアで構成されたユニットを含み、例えば、ロジック、論理ブロック、部品、または回路などの用語と互換的に使用されてよい。モジュールは、一体で構成された部品、または１つまたはそれ以上の機能を実行する最小単位またはその一部であってよい。例えば、モジュールは、ＡＳＩＣ（ａｐｐｌｉｃａｔｉｏｎ－ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）で構成されてよい。

多様な実施形態によると、記載した構成要素のそれぞれの構成要素（例：モジュールまたはプログラム）は、単数または複数の個体を含んでよい。多様な実施形態によると、上述した該当の構成要素のうちの１つ以上の構成要素または段階が省略されてもよいし、１つ以上の他の構成要素または段階が追加されてもよい。代替的にまたは追加的に、複数の構成要素（例：モジュールまたはプログラム）は、１つの構成要素として統合されてよい。このような場合、統合された構成要素は、複数の構成要素それぞれの構成要素の１つ以上の機能を、統合される前に複数の構成要素のうちの該当の構成要素によって実行されるときと同一または類似するように実行してよい。多様な実施形態によると、モジュール、プログラム、または他の構成要素によって実行される段階は、順次的に、並列的に、反復的に、または発見的に実行されても、段階のうちの１つ以上が他の順序で実行されても、省略されても、または１つ以上の他の段階が追加されてもよい。

４６０：プロセッサ
４６１：ＡＰＩ
４６２：プロセスＡＰＩ
４６５：制御部
４６７：コンテンツ取得部
４６９：フィンガープリント部
４７１：マッチン部部
４７３：比較部
４７５：クラスタリング部

Claims

電子装置の作動方法であって、前記電子装置のプロセッサが、
マルチメディアコンテンツのフィンガープリントに基づいて、マルチメディアコンテンツの少なくとも１つの表示区間にそれぞれマッチングされる音源の少なくとも１つの再生区間を検出する段階、
前記マルチメディアコンテンツ内の前記表示区間の時間位置と前記音源内の前記再生区間の時間位置との時間差を検出する段階、および
前記時間差に基づいて、前記表示区間と前記再生区間を同期する段階
を含む、方法。
前記電子装置のプロセッサが、
前記音源の歌詞情報に基づいて、前記再生区間にマッピングされる字幕データを生成する段階
をさらに含む、請求項１に記載の方法。
前記電子装置のプロセッサが、
前記マルチメディアコンテンツの再生中に、前記表示区間に、前記表示区間に同期された前記再生区間の前記字幕データを表示する段階
をさらに含む、請求項２に記載の方法。
前記電子装置のプロセッサが、
前記マルチメディアコンテンツの前記表示区間の再生中に、利用者の要請に基づいて、一時点で前記表示区間の再生を中断する段階、および
前記音源で前記表示区間に同期された前記再生区間を、前記中断された時点から続けて再生する段階
をさらに含む、請求項１に記載の方法。
前記電子装置のプロセッサが、
前記音源の前記再生区間の再生中に、利用者の要請に基づいて、一時点で前記再生区間の再生を中断する段階、および
前記マルチメディアコンテンツで前記再生区間に同期された前記表示区間を、前記中断された時点から続けて再生する段階
をさらに含む、請求項１に記載の方法。
前記再生区間を検出する段階は、
前記フィンガープリントを予め設定された時間間隔によって複数の検索区間に分割する段階、
前記検索区間のうちの少なくとも１つがマッチングされる少なくとも１つの検出区間を有する前記音源を検出する段階、および
互いにマッチングされた前記検出区間のうちの少なくとも１つと前記検出区間を前記表示区間と前記再生区間としてそれぞれ検出する段階
を含む、請求項１に記載の方法。
前記マルチメディアコンテンツは、
画像データまたはオーディオデータのうちの少なくとも１つで構成される、
請求項１に記載の方法。
前記電子装置のプロセッサが、
前記音源と関連する情報、および前記マルチメディアコンテンツ内の前記検出区間の時間位置および前記音源内の前記検出区間の時間位置を示す位置情報を提供する段階
をさらに含む、請求項６に記載の方法。
前記電子装置のプロセッサが、
前記音源と関連する情報が選択されれば、前記音源を提供する段階、または
前記音源と関連する情報が選択されれば、前記音源と関連付いた他のマルチメディアコンテンツを提供する段階
のうちの少なくとも１つをさらに含む、請求項８に記載の方法。
請求項１または請求項９のうちのいずれか一項に記載の作動方法を前記電子装置に実行させる、コンピュータプログラム。
請求項１または９のうちのいずれか一項に記載の作動方法を前記電子装置に実行させるためのプログラムが記録されている、非一時的なコンピュータ読み取り可能な記録媒体。
電子装置であって、
メモリ、および
前記メモリに連結され、前記メモリに記録された少なくとも１つの命令を実行するように構成されたプロセッサを含み、
前記プロセッサは、
マルチメディアコンテンツのフィンガープリントに基づいて、マルチメディアコンテンツの少なくとも１つの表示区間にそれぞれマッチングされる音源の少なくとも１つの再生区間を検出し、
前記マルチメディアコンテンツ内の前記表示区間の時間位置と前記音源内の前記再生区間の時間位置との時間差を検出し、
前記時間差に基づいて、前記表示区間と前記再生区間を同期するように構成される、
装置。
前記プロセッサは、
前記音源の歌詞情報に基づいて、前記再生区間にマッピングされる字幕データを生成するように構成される、
請求項１２に記載の装置。
前記プロセッサは、
前記マルチメディアコンテンツの再生中に、前記表示区間に、前記表示区間に同期された前記再生区間の前記字幕データを表示するように構成される、
請求項１３に記載の装置。
前記プロセッサは、
前記マルチメディアコンテンツの前記表示区間の再生中に、利用者の要請に基づいて、一時点で前記表示区間の再生を中断し、
前記音源で前記表示区間に同期された前記再生区間を、前記中断された時点から続けて再生するように構成される、
請求項１２に記載の装置。
前記プロセッサは、
前記音源の前記再生区間の再生中に、利用者の要請に基づいて、一時点で前記再生区間の再生を中断し、
前記マルチメディアコンテンツで前記再生区間に同期された前記表示区間を、前記中断された時点から続けて再生するように構成される、
請求項１２に記載の装置。
前記プロセッサは、
前記フィンガープリントを予め設定された時間間隔によって複数の検索区間に分割し、
前記検索区間のうちの少なくとも１つがマッチングされる少なくとも１つの検出区間を有する前記音源を検出し、
互いにマッチングされた前記検出区間のうちの少なくとも１つと前記検出区間を前記表示区間と前記再生区間としてそれぞれ検出するように構成される、
請求項１２に記載の装置。
前記マルチメディアコンテンツは、
画像データまたはオーディオデータのうちの少なくとも１つで構成される、
請求項１２に記載の装置。
前記プロセッサは、
前記音源と関連する情報、および前記マルチメディアコンテンツ内の前記検出区間の時間位置および前記音源内の前記検出区間の時間位置を示す位置情報を提供するように構成される、
請求項１７に記載の装置。
前記プロセッサは、
前記音源と関連する情報が選択されれば、前記音源または前記音源と関連付いた他のマルチメディアコンテンツのうちの少なくとも１つを提供するように構成される、
請求項１９に記載の装置。