JP2020516004A

JP2020516004A - 音源のハイライト区間を決定する方法、その装置及び該コンピュータプログラム

Info

Publication number: JP2020516004A
Application number: JP2020503683A
Authority: JP
Inventors: ハ，ジョンウ; キム，ジョンミョン; パク，ジャンヨン; キム，チャンジュ; キム，ドンウォン
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2017-04-07
Filing date: 2018-04-06
Publication date: 2020-05-28
Anticipated expiration: 2038-04-06
Also published as: US20200035225A1; JP6998449B2; KR101891778B1; US11462210B2; WO2018186708A1

Abstract

プロセッサを利用し、音源のハイライト区間を決定する方法において、該方法は、音源、及び音源に係わる分類情報を獲得する獲得段階と、音源及び分類情報を利用し、音源を時間軸に分割した複数の区間それぞれの特徴値に対応するノードを含む入力レイヤ、分類情報に対応するノードを含む出力レイヤ、入力レイヤと出力レイヤとの間にある隠れレイヤ、入力レイヤと隠れレイヤとの間の関係を表す第１関数、及び隠れレイヤと出力レイヤとの間の関係を表す第２関数に基づいて決定されるニューラルネットワークを学習する学習段階であって、第１関数は、各区間の特徴値の加重値和を計算するアテンションモデルを含む学習段階と、学習された第１関数に含まれた各区間の特徴値ノードの加重値情報に基づいて、音源のハイライト区間を決定段階と、を含む音源のハイライト区間決定方法である。

Description

本発明は、音源のハイライト区間を決定する方法、その装置及び該コンピュータプログラムに関する。

音源ファイルへの需要が増大しており、ユーザは、電子装置に多様な音源ファイルを保存することにより、いつでもどこでも当該音源ファイルを再生させることができ、これによりユーザの便宜性を向上させている。しかしながら、音源を提供する状況によっては、音源の全体区間ではない一部のハイライト区間を提供しなければならない需要が発生する。

本発明が解決しようとする課題は、音源と分類情報との関係を学習するニューラルネットワークを利用し、音源のハイライト区間を決定する方法、その装置及び該コンピュータプログラムを提供することである。

本発明の一事実施形態は、プロセッサを利用し、音源のハイライト区間を決定する方法において、前記方法は、音源、及び前記音源に係わる分類情報を獲得する獲得段階と、前記音源及び前記分類情報を利用し、前記音源を時間軸に分割した複数の区間それぞれの特徴値に対応するノードを含む入力レイヤ、前記分類情報に対応するノードを含む出力レイヤ、前記入力レイヤと前記出力レイヤとの間にある隠れレイヤ、前記入力レイヤと前記隠れレイヤとの間の関係を表す第１関数、及び前記隠れレイヤと前記出力レイヤとの間の関係を表す第２関数に基づいて決定されるニューラルネットワークを学習する学習段階であって、前記第１関数は、前記各区間の特徴値の加重値和を計算するアテンション（attention）モデルを含む学習段階と、前記学習された第１関数に含まれた前記各区間の特徴値ノードの加重値情報に基づいて、前記音源のハイライト区間を決定する決定段階と、を含む音源のハイライト区間決定方法を開示する。

本実施形態において、前記隠れレイヤは、前記第１関数により、前記各区間の特徴値から獲得される前記音源に係わる統合特徴値に対応するノードを含んでもよい。

本実施形態において、前記第１関数は、前記アテンションモデルの出力値と、循環型または再帰型ニューラルネットワーク（ＲＮＮ：recurrent neural network）モデルの出力値との類似度を計算する第１−１関数をさらに含み、前記隠れレイヤは、前記類似度のノードを含んでもよい。

本実施形態において、前記獲得段階の後に、時間軸に係わる音データを含む前記音源を、時間軸に係わるエネルギーデータを含むように変換する段階をさらに含み、前記複数の区間は、前記変換された音源を時間軸に分割したことを特徴とする。

本実施形態において、前記決定段階は、前記各区間の特徴値ノードの加重値情報、及び前記各区間のエネルギーデータに基づいて、前記ハイライト区間を決定することができる。

本実施形態において、前記決定段階は、前記各区間の特徴値ノードの加重値情報に基づいて重要区間を決定し、前記重要区間の前後にすでに設定されている範囲区間内のエネルギーデータを参照し、前記音源の全体区間において、前記ハイライト区間を決定することができる。

本実施形態において、前記決定段階は、前記すでに設定されている範囲の区間内において、前記エネルギーデータのモメンタムが最大である時点に対応し、前記ハイライト区間を決定することができる。

本発明の他の実施形態は、コンピュータを利用し、前述のいずれか１つの方法を実行するために媒体に保存されたコンピュータプログラムを開示する。

本発明の他の実施形態は、音源、及び前記音源に係わる分類情報を獲得する音源獲得手段；前記音源及び前記分類情報を利用し、前記音源を時間軸に分割した複数の区間それぞれの特徴値に対応するノードを含む入力レイヤ、前記分類情報に対応するノードを含む出力レイヤ、前記入力レイヤと前記出力レイヤとの間にある隠れレイヤ、前記入力レイヤと前記隠れレイヤとの間の関係を表す第１関数、及び前記隠れレイヤと前記出力レイヤとの間の関係を表す第２関数に基づいて決定されるニューラルネットワークを学習するニューラルネットワーク処理手段であって、前記第１関数は、前記各区間の特徴値の加重値和を計算するアテンションモデルを含むニューラルネットワーク処理手段；及び前記学習された第１関数に含まれた前記各区間の特徴値ノードの加重値情報に基づいて、前記音源のハイライト区間を決定するハイライト決定手段；を含む音源のハイライト区間決定装置を開示する。

前述のところ以外の他の側面、特徴、利点は、以下の図面、特許請求の範囲、及び発明の詳細な説明から明確になるであろう。

そのような一般的であり、具体的な側面が、システム、方法、コンピュータプログラム、あるいはあるシステム・方法・コンピュータプログラムの組み合わせを使用しても実施される。

本発明の実施形態に係わるハイライト区間を決定する方法、その装置及び該コンピュータプログラムは、音源と分類情報との関係を学習するニューラルネットワークを利用し、音源のハイライト区間を決定することにより、音源の分類情報が考慮されたハイライト区間を決定することができ、それにより、ハイライト区間決定性能が向上する。

本発明の実施形態に係わるハイライト区間を決定する方法、その装置及び該コンピュータプログラムは、音源の区間別加重値を付与するアテンションモデルを含むニューラルネットワークを利用し、音源の複数区間において、もっとも重要な役割を行う区間を基に、音源のハイライト区間を決定することにより、ハイライト区間決定性能が向上する。

本発明の一実施形態による音源分析システムの構成を示した図面である。本発明の一実施形態による音源ハイライト区間決定方法のフローチャートである。本発明の一実施形態による音源ハイライト区間決定方法のフローチャートである。本発明の一実施形態によるニューラルネットワークの例を図示したフローチャートである。本発明の一実施形態によるニューラルネットワークを他の観点から図示した図面である。本発明の一実施形態による、ハイライト区間を抽出する方法の例を図示した図面である。

本発明は、多様な変換を加えることができ、さまざまな実施形態を有することができるが、特定実施形態を図面に例示し、詳細な説明によって詳細に説明する。本発明の効果、特徴、及びそれらを達成する方法は、図面と共に詳細に後述されている実施形態を参照すれば、明確になるであろう。しかし、本発明は、以下で開示される実施形態に限定されるものではなく、多様な形態にも具現される。

以下、添付された図面を参照し、本発明の実施形態について詳細に説明するが、図面を参照して説明するとき、同一であるか、あるいは対応する構成要素は、同一図面符号を付し、それについての重複説明は、省略する。

以下の実施形態において、第１、第２のような用語は、限定的な意味ではなく、１つの構成要素を他の構成要素と区別する目的に使用された。以下の実施形態において、単数の表現は、文脈上明白に異なって意味しない限り、複数の表現を含む。以下の実施形態において、「含む」または「有する」というような用語は、明細書上に記載された特徴または構成要素が存在するということを意味するものであり、１以上の他の特徴または構成要素が付加される可能性をあらかじめ排除するものではない。図面においては、説明の便宜のために、構成要素がその大きさが誇張されていたり縮小されていたりする。例えば、図面に示された各構成の大きさ及び厚みは、説明の便宜のために任意に示したので、本発明は、必ずしも図示されたところに限定されるものではない。

図１は、本発明の一実施形態による音源分析システムの構成を示した図面である。図１を参照すれば、本発明の一実施形態による音源分析システムは、プロセッサ１０及びメモリ２０を含む。本発明の一実施形態によって提供される音源分析システムは、メモリ２０に保存されたニューラルネットワークを利用し、プロセッサ１０に入力される音源のハイライト区間を決定することができる。該ニューラルネットワークは、複数の音源、及び各音源の分類情報を学習し、音源と分類情報との関係を定義するように構築されたものでもある。該分類情報は、音源に対してラベリングされた一種のタグ情報でもある。例えば、該分類情報は、音源のジャンル、ムード、選好年齢帯、主題、雰囲気のうち１以上を含んでもよい。該分類情報がジャンルである場合、該分類情報は、ヒップホップ、ロック、バラード、Ｒ＆Ｂのような複数の音楽ジャンルのうち１以上のジャンル値を含んでもよい。該分類情報は、各分類に該当する確率を示すベクトル形態によっても表現される。

例えば、ジャンルを示す分類情報は、［ヒップホップ、ロック、バラード、Ｒ＆Ｂ］の４種ジャンルに係わる確率を含むベクトルによっても表現される。「ヒップホップ」とラベリングされた分類情報は、［１，０，０，０］のベクトルによっても表現される。「ヒップホップ」及び「ロック」とラベリングされた分類情報は、［０．５，０．５，０，０］のベクトルによって表現されてもよい。

該ニューラルネットワーク学習には、１以上のマシンラーニングアルゴリズムが使用される。例えば、音源の特徴値をベクトル形態で抽出するために、コンボルーションニューラルネットワーク（ＣＮＮ）アルゴリズムが使用されてもよい。

図１のプロセッサ１０は、データを処理することができる任意の装置に該当する。プロセッサ１０は、例えば、プログラム内に含まれたコードまたは命令によって表現された機能を遂行するために、物理的に構造化された回路を有する、ハードウェアに内蔵されたデータ処理装置を意味する。プロセッサ１０は、１以上の処理装置に該当するか、あるいは１以上の処理装置を含んでもよい。そのように、ハードウェアに内蔵されたデータ処理装置の一例として、マイクロプロセッサ（microprocessor）、中央処理装置（ＣＰＵ）、プロセッサコア（processor core）、マルチプロセッサ（multiprocessor）、ＡＳＩＣ（application-specific integrated circuit）、ＦＰＧＡ（field programmable gate array）などの処理装置を網羅することができるが、本発明の範囲は、それらに限定されるものではない。それにより、プロセッサ１０は、マイクロプロセッサや汎用コンピュータシステムのような他のハードウェア装置に含まれた形態によっても駆動される。

メモリ２０は、プロセッサ１０と通信可能な保存装置であり、プロセッサ１０が処理するデータを一時的または永久に保存する機能を遂行する。メモリ２０とプロセッサ１０は、１つの装置内に具備されて直接連結されるか、あるいは別途の装置にそれぞれ具備され、有線通信または無線通信によっても連結される。メモリ２０は、磁気記録媒体（magnetic storage media）またはフラッシュ記録媒体（flash storage media）を含んでもよいが、本発明の範囲は、それらに限定されるものではない。

図１に図示された音源分析システムは、本実施形態の特徴が不明確になることを防止するために、本実施形態と係わる構成要素のみを図示したものである。従って、図１に図示された構成要素以外に、他の汎用的な構成要素がさらに含まれてもよいということは、本実施形態と係わる技術分野において当業者であるならば、理解することができるであろう。

本発明の一実施形態によるプロセッサ１０は、音源獲得部１１、ニューラルネットワーク処理部１２及びハイライト決定部１３を含む。

本発明の一実施形態による音源獲得部１１は、音源、及び該音源に係わる分類情報を獲得する。音源、及び該音源に係わる分類情報は、ユーザによって入力されるか、サーバによって入力されるか、他の装置によって入力されるか、あるいはメモリ２０から読み取られたり、プロセッサ１０内に含まれているが、図１に図示されていない他のユニットによって入力されたりするものでもあり、入力主体は、限定されるものではない。

本発明の一実施形態によるニューラルネットワーク処理部１２は、音源獲得部１１が獲得した音源及び分類情報を利用し、メモリ２０に保存されたニューラルネットワークを学習する。該ニューラルネットワークは、機械学習によって学習される人工ニューラルネットワークを意味する。人工ニューラルネットワークは、シナプスの結合によってネットワークを形成した人工ニューロン（ノード）が、学習により、シナプスの結合強度を変化させ、問題解決能力を獲得して行くモデルを意味する。本発明の一実施形態によるニューラルネットワークは、分類情報がラベリングされた音源を含むトレーニングデータを利用し、音源と分類情報との関係を学習するニューラルネットワークである。該ニューラルネットワークは、入力対象と出力対象との属性をベクトル形態で含んでもよい。

本発明の一実施形態によるニューラルネットワークは、入力レイヤ、隠れレイヤ及び出力レイヤを含み、各レイヤとの関係関数を含んでもよい。例えば、入力レイヤと隠れレイヤとの間の関係を表す第１関数、及び隠れレイヤと出力レイヤとの間の関係を表す第２関数に基づいて決定されてもよい。該入力レイヤは、音源を時間軸に分割した複数の区間それぞれの特徴値に対応するノードを含んでもよい。該隠れレイヤは、入力レイヤと出力レイヤとの間にあり、１以上のレイヤから構成されてもよい。該出力レイヤは、音源の分類情報に対応するノードを含んでもよい。

該隠れレイヤは、入力レイヤに含まれた各区間の特徴値のノードから、第１関数によって獲得される統合特徴値ノードを含んでもよい。該統合特徴値は、音源全体に係わる特徴値でもある。

該第１関数は、入力レイヤに含まれた音源の区間別特徴値のノードを隠れレイヤに連結する関数であり、区間別に、特徴値の加重値和（weighted sum）を計算するアテンション（attention）モデルを含む。ニューラルネットワーク処理部１２は、アテンションモデルを利用することにより、音源の分類情報推測に各区間が寄与する程度を示す加重値情報を獲得することができる。

第１関数は、各区間の特徴値のシーケンス（sequence）から結果物を出力する循環ニューラルネットワーク（ＲＮＮ：recurrent neural network）モデルを含んでもよい。第１関数は、アテンションモデルによって獲得される加重値和と、循環ニューラルネットワークモデルの出力値との類似度を計算する第１−１関数をさらに含んでもよく、第１−１関数の出力値は、隠れレイヤのノードにもなる。すなわち、該隠れレイヤは、第１−１関数によって出力される類似度のノードを含んでもよく、それにより、ニューラルネットワークは、第１−１関数によって出力される類似度を、分類情報を推測するための変数として考慮することができる。

本発明の一実施形態によるニューラルネットワーク処理部１２は、音源獲得部１１が獲得した音源を、時間軸に分割した複数の区間それぞれに対し、コンボルーションニューラルネットワーク（ＣＮＮ：convolution neural network）を適用し、各区間の特徴値を獲得することができる。各区間の特徴値は、コンボルーションニューラルネットワークのパラメータによって決定されるＮ次元のベクトルによっても表現され、区間別に特徴値は、本発明の一実施形態によるニューラルネットワークの入力レイヤのノード値としても使用される。すなわち、本発明の一実施形態によるニューラルネットワークは、音源データから入力レイヤを計算することができ、この過程において、コンボルーションニューラルネットワークを適用することができる。この過程は、音源データを、ニューラルネットワークで使用されるベクトル形態にエンコーディング（encoding）する過程でもある。

本発明の一実施形態によるハイライト決定部１３は、ニューラルネットワーク処理部１２によって学習された第１関数に含まれた各区間の特徴値ノードに係わる加重値情報に基づいて、音源のハイライト区間を決定する。本発明の一実施形態によるハイライト決定部１３は、音源の分類情報を決定するのに寄与する程度を示す区間別に、加重値情報によってハイライト区間を決定するので、音源の分類情報を考慮するハイライト区間決定メカニズムを提供することができる。例えば、ハイライト決定部１３は、音源の全体区間において、分類情報を決定するのに最も重要な役割を行う区間がどこであるかということを学習し、当該区間を基に、ハイライト区間を抽出することができ、結果として、ハイライト決定部１３は、音源の分類情報を呼び起こす特徴的なシグネチャ区間をハイライト区間として決定することができる。

ハイライト決定部１３は、ニューラルネットワーク処理部１２によって学習された音源区間別に、加重値情報によって重要区間を決定し、決定された重要区間に基づいて、ハイライト区間を決定することができる。例えば、ハイライト決定部１３は、重要区間と同一区間をハイライト区間と決定するか、あるいは重要区間の少なくとも一部を含むハイライト区間を新たに定義することができる。該重要区間は、音源の分類情報を推測するための加重値が最も大きい区間でもある。

ハイライト決定部１３は、各区間の加重値と、各区間の音源データとを共に考慮し、重要区間を決定することができる。例えば、各区間の加重値と、各区間の音源データとを利用し、既設定方法によって算出されるスコアが最も高い区間を、重要区間として決定し、決定された重要区間に基づいて、ハイライト区間を決定することができる。例えば、ハイライト決定部１３は、各区間の加重値と、各区間の音源データとから抽出された周波数別エネルギーやピッチ（pitch）情報などを同時に考慮してスコアを算出し、スコアが最も高い区間を、重要区間として決定する。ハイライト決定部１３は、加重値が高いほどスコアを高く算出し、音源データの抽出情報値が大きいほど、スコアを高く算出することができる。

本発明の一実施形態によれば、プロセッサ１０は、各区間別に加重値と、各区間別にエネルギーデータとを利用し、音源のハイライト区間を決定することができる。本実施形態において、音源獲得部１１は、時間軸に係わる音データを含む音源、及び音源に係わる分類情報を獲得することができる。本実施形態において、ニューラルネットワーク処理部１２は、時間軸に係わる音データを含む音源を、時間軸に係わるエネルギーデータを含むように変換して使用することができる。エネルギーデータは、１以上の周波数チャネルに係わる値を含んでもよい。ニューラルネットワーク処理部１２は、音源のエネルギーデータを、時間軸に分割した複数の区間について特徴値を計算し、入力レイヤのノードとして使用することができる。

本実施形態において、ニューラルネットワーク処理部１２は、ＦＦＴアルゴリズムを利用し、音源データを変換することができる。変換された音源データは、時間軸に対して、複数の周波数チャネルそれぞれに係わるエネルギー値を含んでもよい。本実施形態において、ニューラルネットワーク処理部１２は、音源データをメルスペクトログラム（Mel-spectrogram）変換し、時間と、周波数に係わるエネルギーとによって表現される音源データに変換することができる。音源変換アルゴリズムは、前述の例示に限定されるものではない。

本実施形態において、ハイライト決定部１３は、各区間の特徴値ノードに係わる加重値情報と、各区間のエネルギーあるいはピッチのような他形態の音源因子データとに基づいて、重要区間を決定することができる。例えば、ハイライト決定部１３は、各区間の加重値と、各区間のエネルギー和とを利用し、既設定方法によって算出されるスコアが最も高い区間を重要区間として決定し、決定された重要区間に基づいて、ハイライト区間を決定することができる。例えば、ハイライト決定部１３は、各区間の加重値と、各区間のエネルギー和とを同時に考慮してスコアを算出し、スコアが最も高い区間を重要区間を決定する。ハイライト決定部１３は、加重値が高いほど、スコアを高く算出し、エネルギー和が大きいほど、スコアを高く算出することができる。

それによれば、いくら加重値が大きい区間でも、他の区間に比べてエネルギー和が小さければ、重要区間としては決定されず、分類情報決定に寄与する程度を示す加重値情報と、実際区間のエネルギーとをいずれも考慮して重要区間が決定される。

一例によれば、ハイライト決定部１３は、重要区間のエネルギーデータを参照し、ハイライト区間を決定することができる。例えば、ハイライト決定部１３は、重要区間の特定時点を前後にすでに設定されている範囲以内の区間のエネルギーデータを参照し、音源の全体区間における一部区間であるハイライト区間を決定することができる。

例えば、ハイライト決定部１３は、重要区間の特定時点を前後にすでに設定されている範囲以内の区間において、エネルギーデータの値、またはモメンタムが最大である時点に対応し、ハイライト区間を決定することができる。例えば、ハイライト決定部１３は、エネルギーデータの時間に係わる一次微分値または二次微分値が最大である時点に対応し、ハイライト区間を決定することができる。ハイライト決定部１３は、エネルギーデータの値またはモメンタムが最大である時点を、ハイライト区間の開始時点として決定し、既設定長を有するハイライト区間を決定することができる。

一方、図１に図示されていないが、本発明の一実施形態によるプロセッサ１０は、ハイライト決定部１３によって決定されたハイライト区間を利用してサービスを提供するユニットをさらに含んでもよい。例えば、プロセッサ１０は、１分長のハイライト区間を利用し、音源先聞きサービスを提供するサービス提供部（図示せず）をさらに含んでもよい。また、推薦曲の構成を迅速に確認したり、ユーザの曲趣向を陣族に確認したりするためのサービスを含んでもよい。

図２Ａ及び図２Ｂは、本発明の一実施形態による音源ハイライト区間決定方法のフローチャートである。

図２Ａ及び図２Ｂに図示されたフローチャートは、図１に図示されたプロセッサ１０において、時系列的に処理される段階によって構成される。従って、以下で省略された内容であるとしても、図１で図示された構成について記述された上記内容は、図２Ａ及び図２Ｂに図示されたフローチャートにも適用され得るということが分かる。

図２Ａを参照すれば、段階２１において、図１の音源獲得部１１は、音源及び分類情報を獲得する。

段階２２において、図１のニューラルネットワーク処理部１２は、段階２１で獲得された音源及び分類情報を利用し、ニューラルネットワークを学習する。該ニューラルネットワークは、音源を、時間軸に分割した複数の区間それぞれの特徴値の加重値和を計算するアテンションモデルを含む。段階２２で学習されるニューラルネットワークは、音源から、分類情報を予測するのに使用されるモデルでもある。

段階２３において、図１のハイライト決定部１３は、段階２２で学習されたニューラルネットワークで獲得される各区間別に加重値を参照し、音源でのハイライト区間を決定する。

図２Ｂを参照すれば、本発明の一実施形態による音源ハイライト区間決定方法は、段階２１後、段階２１１をさらに含んでもよい。

図２Ｂを参照すれば、段階２１１において、図１のニューラルネットワーク処理部１２は、段階２１で獲得された音源データを変換し、時間軸に係わる周波数チャネル別にエネルギーデータを含む音源に変換することができる。

段階２２において、ニューラルネットワーク処理部１２は、段階２１１で変換された音源を利用し、変換された音源を時間軸に分割した複数の区間それぞれの特徴値の加重値和を計算するアテンションモデルを含むニューラルネットワークを学習する。

以下では、図３ないし図５についての説明において、図１に図示された構成要素を共に参照する。

図３は、本発明の一実施形態によるニューラルネットワークの例を図示したフローチャートである。図３を参照すれば、本発明の一実施形態によるニューラルネットワークは、複数の入力ノードＩＮを含む入力レイヤＩＬ、複数の隠れノードＨＮを含む隠れレイヤＨＬ、及び複数の出力ノードＯＮを含む出力レイヤＯＬを含む。隠れレイヤＨＬは、全体的に連結された（fully connected）１以上のレイヤを含んでもよい。隠れレイヤが複数のレイヤを含む場合、各レイヤの関数が定義される。

図３に図示されたニューラルネットワークは、入力レイヤＩＬと隠れレイヤＨＬとの関係を定義する第１関数Ｆ１、及び隠れレイヤＨＬと出力レイヤＯＬとの関係を定義する第２関数Ｆ２と、を含む。ニューラルネットワークが学習される過程において、第１関数Ｆ１及び第２関数Ｆ２が学習される。

本発明で説明するニューラルネットワークは、人工ニューラルネットワークであり、人工ニューラルネットワークは、人間の脳がパターンを認識する方式を模写したアルゴリズムである。人工ニューラルネットワークは、一例として、ラベリングされたトレーニングデータを基に学習される。本発明の一実施形態において、トレーニングデータは、分類情報がラベリングされた音源データでもあってもよい。本発明の一実施形態によるニューラルネットワーク処理部１２は、音源データがニューラルネットワークモデルに入力され出力されてきた出力値が、当該音源データにラベリングされた分類情報に近接するように関数を調節する過程を反復することにより、複数のトレーニングデータに基づいて、ニューラルネットワークを学習させることができる。

該人工ニューラルネットワークは、複数のレイヤを含み、各レイヤは、複数のノードを含んでもよい。該ニューラルネットワークに含まれる各ノードは、ベクトルでもある。各レイヤは、複数のノードからなっており、各層の出力は、次の層の入力になる。レイヤ間の関数は、レイヤに含まれたノード間の係数値を含んでもよい。

関数は、各レイヤ間の連結関係を定義する。図３の例において、第１関数Ｆ１は、入力レイヤＩＬと隠れレイヤＨＬとの連結関係を定義する。例えば、第１関数Ｆ１は、入力ノードＩＮと隠れノードＨＬとの連結関係を定義する。ノード間の連結関係は、ノード間の係数値とも表現される。

本発明の一実施形態によれば、ニューラルネットワーク処理部１２は、音源の区間別に、データをコンボルーションニューラルネットワークに入力し、Ｎ次元ベクトルに表現される各区間別に特徴値を獲得し、獲得された区間別に、特徴値を入力ノードＩＮとして使用することができる。

図３に図示された第１関数Ｆ１は、入力ノードＩＮの加重値和を出力するアテンションモデルを含んでもよく、該アテンションモデルは、入力ノードＩＮと加重値和ノードとを連結する係数を含んでもよい。該加重値和ノードは、隠れノードＨＮの一つでもある。各入力ノードＩＮの係数は、各入力ノードＩＮの加重値でもある。

本発明の一実施形態によるニューラルネットワーク処理部１２は、音源獲得部１１が獲得した第１音源及び第１分類情報を利用し、第１音源を入力したとき、第１分類情報に近接した結果を出力するようにニューラルネットワークを学習し、学習されたニューラルネットワークにおいて、第１音源の各区間に対応する入力ノードＩＮと、加重値和ノードとの係数を各区間の加重値として取得することができる。

図３の例において、各レイヤのノードは、複数に図示されているが、必ずしもそれに限定されるものではない。例えば、出力レイヤＯＬは、１つの出力ノードＯＮを含んでもよく、出力ノードＯＮは、１つの分類情報を示すことができる。出力ノードＯＮは、分類情報の各項目に該当する確率値を含むＭ次元ベクトルによっても表現され、そのとき、Ｍは、分類情報の項目個数に対応する。本発明の一実施形態によれば、出力ノードＯＮを複数個設定することにより、複数の分類情報を考慮するハイライト抽出方法を提供することができる。例えば、出力ノードＯＮは、ジャンル情報を示すノードと、ムード情報を示すノードとを含んでもよく、各ノードは、互いに同じであるか、あるいは互いに異なる次元のベクトルによっても表現される。

図４は、本発明の一実施形態によるニューラルネットワークを、他の観点から図示したものである。図４を参照すれば、本発明の一実施形態によるニューラルネットワーク処理部１２は、音源を複数の区間に分割する。例えば、ニューラルネットワーク処理部１２は、音源を、既設定時間長を有する複数の区間に分割する。ニューラルネットワーク処理部１２は、各区間別に、データにコンボルーションニューラルネットワーク（ＣＮＮ）を適用し、区間別特徴値ｆを抽出することができる。

ニューラルネットワーク処理部１２は、区間別特徴値ｆにアテンションモデル４１を適用し、加重値和４３を獲得し、区間別特徴値ｆのシーケンスに対し、循環ニューラルネットワーク４２を適用し、音源全体に係わる特徴値４４を含んでもよい。図４においては、ニューラルネットワーク処理部１２が、特徴値４４を獲得するために、循環ニューラルネットワーク４２を適用するように図示されているが、必ずしも循環ニューラルネットワーク４２を使用しなければならいものではない。例えば、ニューラルネットワークの性能設計により、各区間別に特徴値ｆをいずれも反映させることができる音源全体に係わる特徴値４４を獲得することができる他のアルゴリズムが使用されてもよい。例えば、各区間別に、特徴値ｆのシーケンスをいずれも連結した後、ベクトル次元を調節し、特徴値４４を獲得することができる。

本発明の一実施形態によるニューラルネットワーク処理部１２は、加重値和４３と特徴値４４とを併合（merging）し、統合特徴値４５を獲得することができる。例えば、ニューラルネットワーク処理部１２は、加重値和４３と特徴値４４との類似度を、統合特徴値４５として獲得することができ、統合特徴値４５を、最終関数４６の入力として使用することができる。最終関数４６は、統合特徴値４５と、出力レイヤのノードである分類情報とを全体的に連結する１以上のマトリックスを含んでもよい。

ニューラルネットワーク処理部１２は、最終関数４６を通過して出力される出力レイヤのノード値から、音源に係わる分類情報を推測することができる。

一例により、ニューラルネットワークに入力される音源が、ラベリングされた分類情報を含む場合、ニューラルネットワーク処理部１２は、図４の最終関数４６として出力される出力レイヤのノード値から推測される分類情報が、音源にラベリングされた分類情報に近接するように、ニューラルネットワークに含まれる関数を更新することにより、ニューラルネットワークを学習させることができる。または、ニューラルネットワーク処理部１２は、分類情報を出力し、分類情報を出力する過程において、アテンションモデル４１で利用された係数のみを取得し、各区間に係わる加重値情報を獲得した後、ニューラルネットワークを学習させずに、処理を終了することもできる。

他の例により、ニューラルネットワークに入力される音源が、ラベリングされた分類情報を含まない場合、ニューラルネットワーク処理部１２は、図４の最終関数４６として出力される出力レイヤのノード値から、音源の分類情報を推測することができる。すなわち、本発明の一実施形態による、メモリ２０に保存されたニューラルネットワークは、音源から分類情報を推測するのに使用されるということは言うまでもない。本発明の一実施形態によるニューラルネットワークは、音源の区間別に加重値を考慮し、分類情報を推測することができる。それによれば、該分類情報を推測するために、重要な区間に集中することができるようになるので、分類情報推測性能が向上する。

図５は、本発明の一実施形態による、ハイライト区間を抽出する方法の例を図示したものである。図５を参照すれば、時間軸及び周波数軸に係わるエネルギーデータを含むように変換された音源５０が図示されている。図５に図示された音源５０の横方向は、時間軸に対応し、音源５０は、各時間値に対する周波数チャネル別に、エネルギーデータを含んでもよい。例えば、第１時点ｔ１に対する周波数チャネル別にエネルギーデータ５１１の例が図示されている。データ５１１の横軸は、周波数チャネルに該当する。

一実施形態によるハイライト決定部１３は、ニューラルネットワーク処理部１２によって獲得される各区間別に加重値を考慮し、重要区間５１を決定することができる。または、ハイライト決定部１３は、ニューラルネットワーク処理部１２によって獲得される各区間別に加重値と、区間別にエネルギーデータとの和を考慮し、重要区間５１を決定することができる。

ハイライト決定部１３は、重要区間５１を基準に設定される範囲内において、エネルギーデータ、あるいは時間に対するエネルギーデータのモメンタムが最大である時点ｔ１を選択し、時点ｔ１を考慮し、ハイライト区間を決定することができる。該モメンタムは、エネルギーデータの一次微分値あるいは二次微分値でもある。

例えば、ハイライト決定部１３は、時点ｔ１を含む区間５１をハイライト区間５２１と決定することができる。他の例を挙げれば、ハイライト決定部１３は、時点ｔ１を中心にする既設定長のハイライト区間５２２を決定することができる。他の例を挙げれば、ハイライト決定部１３は、時点ｔ１を開始点にする既設定長のハイライト区間５２３を決定することができる。
一方、図３に図示された本発明の一実施形態によるコンテンツ管理方法は、コンピュータで実行されるプログラムに作成可能であり、コンピュータで読み取り可能な記録媒体を利用し、前記プログラムを動作させる汎用デジタルコンピュータによっても具現される。該媒体は、コンピュータで実行可能なプログラムを保存する装置でもある。また、該媒体は、単一、または数個のハードウェアが結合された形態の多様な記録手段または保存手段でもあるが、あるコンピュータシステムに直接接続される媒体に限定されるものではなく、ネットワーク上にも分散存在する。該媒体の例示としては、ハードディスク、フロッピィーディスク及び磁気テープのような磁気媒体；ＣＤ−ＲＯＭ（compact disc read only memory）及びＤＶＤ（digital versatile disc）のような光記録媒体；フロプティカルディスク（floptical disk）のような磁気・光媒体（magneto-optical medium）；及びＲＯＭ（read-only memory）、ＲＡＭ（random access memory）、フラッシュメモリなどを含み、プログラム命令語が保存されるように構成されたものでもある。また、他の媒体の例示として、アプリケーションを流通するアプリストアや、その他多様なソフトウェアを供給したり流通させたりするサイト、サーバなどで管理する記録媒体ないし記録媒体も挙げることができる。

以上、本発明について、その望ましい実施形態を中心に説明した。本発明は、図面に図示された実施形態を参照して説明されたが、それらは、例示的なものに過ぎず、本発明が属する技術分野において当業者であるならば、本発明が、本発明の本質的な特性から外れない範囲で変形された形態にも具現され、均等な他の実施例が可能であるということを理解することができるであろう。従って、開示された実施形態は、限定的な観点ではなく、説明的な観点から考慮されなければならない。本発明の範囲は、前述の説明ではなく、特許請求の範囲に示されており、それと同等な範囲内にある全ての差異は、本発明に含まれたものであると解釈されなければならないのである。

Claims

プロセッサを利用し、音源のハイライト区間を決定する方法において、前記方法は、
音源、及び前記音源に係わる分類情報を獲得する獲得段階と、
前記音源及び前記分類情報を利用し、前記音源を時間軸に分割した複数の区間それぞれの特徴値に対応するノードを含む入力レイヤ、前記分類情報に対応するノードを含む出力レイヤ、前記入力レイヤと前記出力レイヤとの間にある隠れレイヤ、前記入力レイヤと前記隠れレイヤとの間の関係を表す第１関数、及び前記隠れレイヤと前記出力レイヤとの間の関係を表す第２関数に基づいて決定されるニューラルネットワークを学習する学習段階であって、前記第１関数は、前記各区間の特徴値の加重値和を計算するアテンションモデルを含む学習段階と、
前記学習された第１関数に含まれた前記各区間の特徴値ノードの加重値情報に基づいて、前記音源のハイライト区間を決定する決定段階と、を含む音源のハイライト区間決定方法。
前記隠れレイヤは、前記第１関数により、前記各区間の特徴値から獲得される前記音源に係わる統合特徴値に対応するノードを含むことを特徴とする請求項１に記載の音源のハイライト区間決定方法。
前記第１関数は、前記アテンションモデルの出力値と、循環ニューラルネットワークモデルの出力値との類似度を計算する第１−１関数をさらに含み、前記隠れレイヤは、前記類似度のノードを含むことを特徴とする請求項１に記載の音源のハイライト区間決定方法。
前記獲得段階の後に、
時間軸に係わる音データを含む前記音源を、時間軸に係わるエネルギーデータを含むように変換する段階をさらに含み、
前記複数の区間は、前記変換された音源を時間軸に分割したことを特徴とする請求項１に記載の音源のハイライト区間決定方法。
前記決定段階は、前記各区間の特徴値ノードの加重値情報、及び前記各区間のエネルギーデータに基づいて、前記ハイライト区間を決定することを特徴とする請求項４に記載の音源のハイライト区間決定方法。
前記決定段階は、前記各区間の特徴値ノードの加重値情報に基づいて重要区間を決定し、前記重要区間の前後に前もって設定された範囲区間内のエネルギーデータを参照し、前記音源の全体区間において、前記ハイライト区間を決定することを特徴とする請求項１に記載の音源のハイライト区間決定方法。
前記決定段階は、前記設定された範囲区間内において、前記エネルギーデータのモメンタムが最大である時点に対応し、前記ハイライト区間を決定することを特徴とする請求項６に記載の音源のハイライト区間決定方法。
請求項１ないし７のうちいずれか１項に記載のハイライト区間決定方法をコンピュータに実行させるコンピュータプログラム。
音源、及び前記音源に係わる分類情報を獲得する音源獲得手段と、
前記音源及び前記分類情報を利用し、前記音源を時間軸に分割した複数の区間それぞれの特徴値に対応するノードを含む入力レイヤ、前記分類情報に対応するノードを含む出力レイヤ、前記入力レイヤと前記出力レイヤとの間にある隠れレイヤ、前記入力レイヤと前記隠れレイヤとの間の関係を表す第１関数、及び前記隠れレイヤと前記出力レイヤとの間の関係を表す第２関数に基づいて決定されるニューラルネットワークを学習するニューラルネットワーク処理手段であって、前記第１関数は、前記各区間の特徴値の加重値和を計算するアテンションモデルを含むニューラルネットワーク処理手段と、
前記学習された第１関数に含まれた前記各区間の特徴値ノードの加重値情報に基づいて、前記音源のハイライト区間を決定するハイライト決定手段と、を含む音源のハイライト区間決定装置。