JP2020516004A - 音源のハイライト区間を決定する方法、その装置及び該コンピュータプログラム - Google Patents

音源のハイライト区間を決定する方法、その装置及び該コンピュータプログラム Download PDF

Info

Publication number
JP2020516004A
JP2020516004A JP2020503683A JP2020503683A JP2020516004A JP 2020516004 A JP2020516004 A JP 2020516004A JP 2020503683 A JP2020503683 A JP 2020503683A JP 2020503683 A JP2020503683 A JP 2020503683A JP 2020516004 A JP2020516004 A JP 2020516004A
Authority
JP
Japan
Prior art keywords
sound source
section
highlight
neural network
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020503683A
Other languages
English (en)
Other versions
JP6998449B2 (ja
Inventor
ハ,ジョンウ
キム,ジョンミョン
パク,ジャンヨン
キム,チャンジュ
キム,ドンウォン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2020516004A publication Critical patent/JP2020516004A/ja
Application granted granted Critical
Publication of JP6998449B2 publication Critical patent/JP6998449B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

プロセッサを利用し、音源のハイライト区間を決定する方法において、該方法は、音源、及び音源に係わる分類情報を獲得する獲得段階と、音源及び分類情報を利用し、音源を時間軸に分割した複数の区間それぞれの特徴値に対応するノードを含む入力レイヤ、分類情報に対応するノードを含む出力レイヤ、入力レイヤと出力レイヤとの間にある隠れレイヤ、入力レイヤと隠れレイヤとの間の関係を表す第1関数、及び隠れレイヤと出力レイヤとの間の関係を表す第2関数に基づいて決定されるニューラルネットワークを学習する学習段階であって、第1関数は、各区間の特徴値の加重値和を計算するアテンションモデルを含む学習段階と、学習された第1関数に含まれた各区間の特徴値ノードの加重値情報に基づいて、音源のハイライト区間を決定段階と、を含む音源のハイライト区間決定方法である。

Description

本発明は、音源のハイライト区間を決定する方法、その装置及び該コンピュータプログラムに関する。
音源ファイルへの需要が増大しており、ユーザは、電子装置に多様な音源ファイルを保存することにより、いつでもどこでも当該音源ファイルを再生させることができ、これによりユーザの便宜性を向上させている。しかしながら、音源を提供する状況によっては、音源の全体区間ではない一部のハイライト区間を提供しなければならない需要が発生する。
本発明が解決しようとする課題は、音源と分類情報との関係を学習するニューラルネットワークを利用し、音源のハイライト区間を決定する方法、その装置及び該コンピュータプログラムを提供することである。
本発明の一事実施形態は、プロセッサを利用し、音源のハイライト区間を決定する方法において、前記方法は、音源、及び前記音源に係わる分類情報を獲得する獲得段階と、前記音源及び前記分類情報を利用し、前記音源を時間軸に分割した複数の区間それぞれの特徴値に対応するノードを含む入力レイヤ、前記分類情報に対応するノードを含む出力レイヤ、前記入力レイヤと前記出力レイヤとの間にある隠れレイヤ、前記入力レイヤと前記隠れレイヤとの間の関係を表す第1関数、及び前記隠れレイヤと前記出力レイヤとの間の関係を表す第2関数に基づいて決定されるニューラルネットワークを学習する学習段階であって、前記第1関数は、前記各区間の特徴値の加重値和を計算するアテンション(attention)モデルを含む学習段階と、前記学習された第1関数に含まれた前記各区間の特徴値ノードの加重値情報に基づいて、前記音源のハイライト区間を決定する決定段階と、を含む音源のハイライト区間決定方法を開示する。
本実施形態において、前記隠れレイヤは、前記第1関数により、前記各区間の特徴値から獲得される前記音源に係わる統合特徴値に対応するノードを含んでもよい。
本実施形態において、前記第1関数は、前記アテンションモデルの出力値と、循環型または再帰型ニューラルネットワーク(RNN:recurrent neural network)モデルの出力値との類似度を計算する第1−1関数をさらに含み、前記隠れレイヤは、前記類似度のノードを含んでもよい。
本実施形態において、前記獲得段階の後に、時間軸に係わる音データを含む前記音源を、時間軸に係わるエネルギーデータを含むように変換する段階をさらに含み、前記複数の区間は、前記変換された音源を時間軸に分割したことを特徴とする。
本実施形態において、前記決定段階は、前記各区間の特徴値ノードの加重値情報、及び前記各区間のエネルギーデータに基づいて、前記ハイライト区間を決定することができる。
本実施形態において、前記決定段階は、前記各区間の特徴値ノードの加重値情報に基づいて重要区間を決定し、前記重要区間の前後にすでに設定されている範囲区間内のエネルギーデータを参照し、前記音源の全体区間において、前記ハイライト区間を決定することができる。
本実施形態において、前記決定段階は、前記すでに設定されている範囲の区間内において、前記エネルギーデータのモメンタムが最大である時点に対応し、前記ハイライト区間を決定することができる。
本発明の他の実施形態は、コンピュータを利用し、前述のいずれか1つの方法を実行するために媒体に保存されたコンピュータプログラムを開示する。
本発明の他の実施形態は、音源、及び前記音源に係わる分類情報を獲得する音源獲得手段;前記音源及び前記分類情報を利用し、前記音源を時間軸に分割した複数の区間それぞれの特徴値に対応するノードを含む入力レイヤ、前記分類情報に対応するノードを含む出力レイヤ、前記入力レイヤと前記出力レイヤとの間にある隠れレイヤ、前記入力レイヤと前記隠れレイヤとの間の関係を表す第1関数、及び前記隠れレイヤと前記出力レイヤとの間の関係を表す第2関数に基づいて決定されるニューラルネットワークを学習するニューラルネットワーク処理手段であって、前記第1関数は、前記各区間の特徴値の加重値和を計算するアテンションモデルを含むニューラルネットワーク処理手段;及び前記学習された第1関数に含まれた前記各区間の特徴値ノードの加重値情報に基づいて、前記音源のハイライト区間を決定するハイライト決定手段;を含む音源のハイライト区間決定装置を開示する。
前述のところ以外の他の側面、特徴、利点は、以下の図面、特許請求の範囲、及び発明の詳細な説明から明確になるであろう。
そのような一般的であり、具体的な側面が、システム、方法、コンピュータプログラム、あるいはあるシステム・方法・コンピュータプログラムの組み合わせを使用しても実施される。
本発明の実施形態に係わるハイライト区間を決定する方法、その装置及び該コンピュータプログラムは、音源と分類情報との関係を学習するニューラルネットワークを利用し、音源のハイライト区間を決定することにより、音源の分類情報が考慮されたハイライト区間を決定することができ、それにより、ハイライト区間決定性能が向上する。
本発明の実施形態に係わるハイライト区間を決定する方法、その装置及び該コンピュータプログラムは、音源の区間別加重値を付与するアテンションモデルを含むニューラルネットワークを利用し、音源の複数区間において、もっとも重要な役割を行う区間を基に、音源のハイライト区間を決定することにより、ハイライト区間決定性能が向上する。
本発明の一実施形態による音源分析システムの構成を示した図面である。 本発明の一実施形態による音源ハイライト区間決定方法のフローチャートである。 本発明の一実施形態による音源ハイライト区間決定方法のフローチャートである。 本発明の一実施形態によるニューラルネットワークの例を図示したフローチャートである。 本発明の一実施形態によるニューラルネットワークを他の観点から図示した図面である。 本発明の一実施形態による、ハイライト区間を抽出する方法の例を図示した図面である。
本発明は、多様な変換を加えることができ、さまざまな実施形態を有することができるが、特定実施形態を図面に例示し、詳細な説明によって詳細に説明する。本発明の効果、特徴、及びそれらを達成する方法は、図面と共に詳細に後述されている実施形態を参照すれば、明確になるであろう。しかし、本発明は、以下で開示される実施形態に限定されるものではなく、多様な形態にも具現される。
以下、添付された図面を参照し、本発明の実施形態について詳細に説明するが、図面を参照して説明するとき、同一であるか、あるいは対応する構成要素は、同一図面符号を付し、それについての重複説明は、省略する。
以下の実施形態において、第1、第2のような用語は、限定的な意味ではなく、1つの構成要素を他の構成要素と区別する目的に使用された。以下の実施形態において、単数の表現は、文脈上明白に異なって意味しない限り、複数の表現を含む。以下の実施形態において、「含む」または「有する」というような用語は、明細書上に記載された特徴または構成要素が存在するということを意味するものであり、1以上の他の特徴または構成要素が付加される可能性をあらかじめ排除するものではない。図面においては、説明の便宜のために、構成要素がその大きさが誇張されていたり縮小されていたりする。例えば、図面に示された各構成の大きさ及び厚みは、説明の便宜のために任意に示したので、本発明は、必ずしも図示されたところに限定されるものではない。
図1は、本発明の一実施形態による音源分析システムの構成を示した図面である。図1を参照すれば、本発明の一実施形態による音源分析システムは、プロセッサ10及びメモリ20を含む。本発明の一実施形態によって提供される音源分析システムは、メモリ20に保存されたニューラルネットワークを利用し、プロセッサ10に入力される音源のハイライト区間を決定することができる。該ニューラルネットワークは、複数の音源、及び各音源の分類情報を学習し、音源と分類情報との関係を定義するように構築されたものでもある。該分類情報は、音源に対してラベリングされた一種のタグ情報でもある。例えば、該分類情報は、音源のジャンル、ムード、選好年齢帯、主題、雰囲気のうち1以上を含んでもよい。該分類情報がジャンルである場合、該分類情報は、ヒップホップ、ロック、バラード、R&Bのような複数の音楽ジャンルのうち1以上のジャンル値を含んでもよい。該分類情報は、各分類に該当する確率を示すベクトル形態によっても表現される。
例えば、ジャンルを示す分類情報は、[ヒップホップ、ロック、バラード、R&B]の4種ジャンルに係わる確率を含むベクトルによっても表現される。「ヒップホップ」とラベリングされた分類情報は、[1,0,0,0]のベクトルによっても表現される。「ヒップホップ」及び「ロック」とラベリングされた分類情報は、[0.5,0.5,0,0]のベクトルによって表現されてもよい。
該ニューラルネットワーク学習には、1以上のマシンラーニングアルゴリズムが使用される。例えば、音源の特徴値をベクトル形態で抽出するために、コンボルーションニューラルネットワーク(CNN)アルゴリズムが使用されてもよい。
図1のプロセッサ10は、データを処理することができる任意の装置に該当する。プロセッサ10は、例えば、プログラム内に含まれたコードまたは命令によって表現された機能を遂行するために、物理的に構造化された回路を有する、ハードウェアに内蔵されたデータ処理装置を意味する。プロセッサ10は、1以上の処理装置に該当するか、あるいは1以上の処理装置を含んでもよい。そのように、ハードウェアに内蔵されたデータ処理装置の一例として、マイクロプロセッサ(microprocessor)、中央処理装置(CPU)、プロセッサコア(processor core)、マルチプロセッサ(multiprocessor)、ASIC(application-specific integrated circuit)、FPGA(field programmable gate array)などの処理装置を網羅することができるが、本発明の範囲は、それらに限定されるものではない。それにより、プロセッサ10は、マイクロプロセッサや汎用コンピュータシステムのような他のハードウェア装置に含まれた形態によっても駆動される。
メモリ20は、プロセッサ10と通信可能な保存装置であり、プロセッサ10が処理するデータを一時的または永久に保存する機能を遂行する。メモリ20とプロセッサ10は、1つの装置内に具備されて直接連結されるか、あるいは別途の装置にそれぞれ具備され、有線通信または無線通信によっても連結される。メモリ20は、磁気記録媒体(magnetic storage media)またはフラッシュ記録媒体(flash storage media)を含んでもよいが、本発明の範囲は、それらに限定されるものではない。
図1に図示された音源分析システムは、本実施形態の特徴が不明確になることを防止するために、本実施形態と係わる構成要素のみを図示したものである。従って、図1に図示された構成要素以外に、他の汎用的な構成要素がさらに含まれてもよいということは、本実施形態と係わる技術分野において当業者であるならば、理解することができるであろう。
本発明の一実施形態によるプロセッサ10は、音源獲得部11、ニューラルネットワーク処理部12及びハイライト決定部13を含む。
本発明の一実施形態による音源獲得部11は、音源、及び該音源に係わる分類情報を獲得する。音源、及び該音源に係わる分類情報は、ユーザによって入力されるか、サーバによって入力されるか、他の装置によって入力されるか、あるいはメモリ20から読み取られたり、プロセッサ10内に含まれているが、図1に図示されていない他のユニットによって入力されたりするものでもあり、入力主体は、限定されるものではない。
本発明の一実施形態によるニューラルネットワーク処理部12は、音源獲得部11が獲得した音源及び分類情報を利用し、メモリ20に保存されたニューラルネットワークを学習する。該ニューラルネットワークは、機械学習によって学習される人工ニューラルネットワークを意味する。人工ニューラルネットワークは、シナプスの結合によってネットワークを形成した人工ニューロン(ノード)が、学習により、シナプスの結合強度を変化させ、問題解決能力を獲得して行くモデルを意味する。本発明の一実施形態によるニューラルネットワークは、分類情報がラベリングされた音源を含むトレーニングデータを利用し、音源と分類情報との関係を学習するニューラルネットワークである。該ニューラルネットワークは、入力対象と出力対象との属性をベクトル形態で含んでもよい。
本発明の一実施形態によるニューラルネットワークは、入力レイヤ、隠れレイヤ及び出力レイヤを含み、各レイヤとの関係関数を含んでもよい。例えば、入力レイヤと隠れレイヤとの間の関係を表す第1関数、及び隠れレイヤと出力レイヤとの間の関係を表す第2関数に基づいて決定されてもよい。該入力レイヤは、音源を時間軸に分割した複数の区間それぞれの特徴値に対応するノードを含んでもよい。該隠れレイヤは、入力レイヤと出力レイヤとの間にあり、1以上のレイヤから構成されてもよい。該出力レイヤは、音源の分類情報に対応するノードを含んでもよい。
該隠れレイヤは、入力レイヤに含まれた各区間の特徴値のノードから、第1関数によって獲得される統合特徴値ノードを含んでもよい。該統合特徴値は、音源全体に係わる特徴値でもある。
該第1関数は、入力レイヤに含まれた音源の区間別特徴値のノードを隠れレイヤに連結する関数であり、区間別に、特徴値の加重値和(weighted sum)を計算するアテンション(attention)モデルを含む。ニューラルネットワーク処理部12は、アテンションモデルを利用することにより、音源の分類情報推測に各区間が寄与する程度を示す加重値情報を獲得することができる。
第1関数は、各区間の特徴値のシーケンス(sequence)から結果物を出力する循環ニューラルネットワーク(RNN:recurrent neural network)モデルを含んでもよい。第1関数は、アテンションモデルによって獲得される加重値和と、循環ニューラルネットワークモデルの出力値との類似度を計算する第1−1関数をさらに含んでもよく、第1−1関数の出力値は、隠れレイヤのノードにもなる。すなわち、該隠れレイヤは、第1−1関数によって出力される類似度のノードを含んでもよく、それにより、ニューラルネットワークは、第1−1関数によって出力される類似度を、分類情報を推測するための変数として考慮することができる。
本発明の一実施形態によるニューラルネットワーク処理部12は、音源獲得部11が獲得した音源を、時間軸に分割した複数の区間それぞれに対し、コンボルーションニューラルネットワーク(CNN:convolution neural network)を適用し、各区間の特徴値を獲得することができる。各区間の特徴値は、コンボルーションニューラルネットワークのパラメータによって決定されるN次元のベクトルによっても表現され、区間別に特徴値は、本発明の一実施形態によるニューラルネットワークの入力レイヤのノード値としても使用される。すなわち、本発明の一実施形態によるニューラルネットワークは、音源データから入力レイヤを計算することができ、この過程において、コンボルーションニューラルネットワークを適用することができる。この過程は、音源データを、ニューラルネットワークで使用されるベクトル形態にエンコーディング(encoding)する過程でもある。
本発明の一実施形態によるハイライト決定部13は、ニューラルネットワーク処理部12によって学習された第1関数に含まれた各区間の特徴値ノードに係わる加重値情報に基づいて、音源のハイライト区間を決定する。本発明の一実施形態によるハイライト決定部13は、音源の分類情報を決定するのに寄与する程度を示す区間別に、加重値情報によってハイライト区間を決定するので、音源の分類情報を考慮するハイライト区間決定メカニズムを提供することができる。例えば、ハイライト決定部13は、音源の全体区間において、分類情報を決定するのに最も重要な役割を行う区間がどこであるかということを学習し、当該区間を基に、ハイライト区間を抽出することができ、結果として、ハイライト決定部13は、音源の分類情報を呼び起こす特徴的なシグネチャ区間をハイライト区間として決定することができる。
ハイライト決定部13は、ニューラルネットワーク処理部12によって学習された音源区間別に、加重値情報によって重要区間を決定し、決定された重要区間に基づいて、ハイライト区間を決定することができる。例えば、ハイライト決定部13は、重要区間と同一区間をハイライト区間と決定するか、あるいは重要区間の少なくとも一部を含むハイライト区間を新たに定義することができる。該重要区間は、音源の分類情報を推測するための加重値が最も大きい区間でもある。
ハイライト決定部13は、各区間の加重値と、各区間の音源データとを共に考慮し、重要区間を決定することができる。例えば、各区間の加重値と、各区間の音源データとを利用し、既設定方法によって算出されるスコアが最も高い区間を、重要区間として決定し、決定された重要区間に基づいて、ハイライト区間を決定することができる。例えば、ハイライト決定部13は、各区間の加重値と、各区間の音源データとから抽出された周波数別エネルギーやピッチ(pitch)情報などを同時に考慮してスコアを算出し、スコアが最も高い区間を、重要区間として決定する。ハイライト決定部13は、加重値が高いほどスコアを高く算出し、音源データの抽出情報値が大きいほど、スコアを高く算出することができる。
本発明の一実施形態によれば、プロセッサ10は、各区間別に加重値と、各区間別にエネルギーデータとを利用し、音源のハイライト区間を決定することができる。本実施形態において、音源獲得部11は、時間軸に係わる音データを含む音源、及び音源に係わる分類情報を獲得することができる。本実施形態において、ニューラルネットワーク処理部12は、時間軸に係わる音データを含む音源を、時間軸に係わるエネルギーデータを含むように変換して使用することができる。エネルギーデータは、1以上の周波数チャネルに係わる値を含んでもよい。ニューラルネットワーク処理部12は、音源のエネルギーデータを、時間軸に分割した複数の区間について特徴値を計算し、入力レイヤのノードとして使用することができる。
本実施形態において、ニューラルネットワーク処理部12は、FFTアルゴリズムを利用し、音源データを変換することができる。変換された音源データは、時間軸に対して、複数の周波数チャネルそれぞれに係わるエネルギー値を含んでもよい。本実施形態において、ニューラルネットワーク処理部12は、音源データをメルスペクトログラム(Mel-spectrogram)変換し、時間と、周波数に係わるエネルギーとによって表現される音源データに変換することができる。音源変換アルゴリズムは、前述の例示に限定されるものではない。
本実施形態において、ハイライト決定部13は、各区間の特徴値ノードに係わる加重値情報と、各区間のエネルギーあるいはピッチのような他形態の音源因子データとに基づいて、重要区間を決定することができる。例えば、ハイライト決定部13は、各区間の加重値と、各区間のエネルギー和とを利用し、既設定方法によって算出されるスコアが最も高い区間を重要区間として決定し、決定された重要区間に基づいて、ハイライト区間を決定することができる。例えば、ハイライト決定部13は、各区間の加重値と、各区間のエネルギー和とを同時に考慮してスコアを算出し、スコアが最も高い区間を重要区間を決定する。ハイライト決定部13は、加重値が高いほど、スコアを高く算出し、エネルギー和が大きいほど、スコアを高く算出することができる。
それによれば、いくら加重値が大きい区間でも、他の区間に比べてエネルギー和が小さければ、重要区間としては決定されず、分類情報決定に寄与する程度を示す加重値情報と、実際区間のエネルギーとをいずれも考慮して重要区間が決定される。
一例によれば、ハイライト決定部13は、重要区間のエネルギーデータを参照し、ハイライト区間を決定することができる。例えば、ハイライト決定部13は、重要区間の特定時点を前後にすでに設定されている範囲以内の区間のエネルギーデータを参照し、音源の全体区間における一部区間であるハイライト区間を決定することができる。
例えば、ハイライト決定部13は、重要区間の特定時点を前後にすでに設定されている範囲以内の区間において、エネルギーデータの値、またはモメンタムが最大である時点に対応し、ハイライト区間を決定することができる。例えば、ハイライト決定部13は、エネルギーデータの時間に係わる一次微分値または二次微分値が最大である時点に対応し、ハイライト区間を決定することができる。ハイライト決定部13は、エネルギーデータの値またはモメンタムが最大である時点を、ハイライト区間の開始時点として決定し、既設定長を有するハイライト区間を決定することができる。
一方、図1に図示されていないが、本発明の一実施形態によるプロセッサ10は、ハイライト決定部13によって決定されたハイライト区間を利用してサービスを提供するユニットをさらに含んでもよい。例えば、プロセッサ10は、1分長のハイライト区間を利用し、音源先聞きサービスを提供するサービス提供部(図示せず)をさらに含んでもよい。また、推薦曲の構成を迅速に確認したり、ユーザの曲趣向を陣族に確認したりするためのサービスを含んでもよい。
図2A及び図2Bは、本発明の一実施形態による音源ハイライト区間決定方法のフローチャートである。
図2A及び図2Bに図示されたフローチャートは、図1に図示されたプロセッサ10において、時系列的に処理される段階によって構成される。従って、以下で省略された内容であるとしても、図1で図示された構成について記述された上記内容は、図2A及び図2Bに図示されたフローチャートにも適用され得るということが分かる。
図2Aを参照すれば、段階21において、図1の音源獲得部11は、音源及び分類情報を獲得する。
段階22において、図1のニューラルネットワーク処理部12は、段階21で獲得された音源及び分類情報を利用し、ニューラルネットワークを学習する。該ニューラルネットワークは、音源を、時間軸に分割した複数の区間それぞれの特徴値の加重値和を計算するアテンションモデルを含む。段階22で学習されるニューラルネットワークは、音源から、分類情報を予測するのに使用されるモデルでもある。
段階23において、図1のハイライト決定部13は、段階22で学習されたニューラルネットワークで獲得される各区間別に加重値を参照し、音源でのハイライト区間を決定する。
図2Bを参照すれば、本発明の一実施形態による音源ハイライト区間決定方法は、段階21後、段階211をさらに含んでもよい。
図2Bを参照すれば、段階211において、図1のニューラルネットワーク処理部12は、段階21で獲得された音源データを変換し、時間軸に係わる周波数チャネル別にエネルギーデータを含む音源に変換することができる。
段階22において、ニューラルネットワーク処理部12は、段階211で変換された音源を利用し、変換された音源を時間軸に分割した複数の区間それぞれの特徴値の加重値和を計算するアテンションモデルを含むニューラルネットワークを学習する。
以下では、図3ないし図5についての説明において、図1に図示された構成要素を共に参照する。
図3は、本発明の一実施形態によるニューラルネットワークの例を図示したフローチャートである。図3を参照すれば、本発明の一実施形態によるニューラルネットワークは、複数の入力ノードINを含む入力レイヤIL、複数の隠れノードHNを含む隠れレイヤHL、及び複数の出力ノードONを含む出力レイヤOLを含む。隠れレイヤHLは、全体的に連結された(fully connected)1以上のレイヤを含んでもよい。隠れレイヤが複数のレイヤを含む場合、各レイヤの関数が定義される。
図3に図示されたニューラルネットワークは、入力レイヤILと隠れレイヤHLとの関係を定義する第1関数F1、及び隠れレイヤHLと出力レイヤOLとの関係を定義する第2関数F2と、を含む。ニューラルネットワークが学習される過程において、第1関数F1及び第2関数F2が学習される。
本発明で説明するニューラルネットワークは、人工ニューラルネットワークであり、人工ニューラルネットワークは、人間の脳がパターンを認識する方式を模写したアルゴリズムである。人工ニューラルネットワークは、一例として、ラベリングされたトレーニングデータを基に学習される。本発明の一実施形態において、トレーニングデータは、分類情報がラベリングされた音源データでもあってもよい。本発明の一実施形態によるニューラルネットワーク処理部12は、音源データがニューラルネットワークモデルに入力され出力されてきた出力値が、当該音源データにラベリングされた分類情報に近接するように関数を調節する過程を反復することにより、複数のトレーニングデータに基づいて、ニューラルネットワークを学習させることができる。
該人工ニューラルネットワークは、複数のレイヤを含み、各レイヤは、複数のノードを含んでもよい。該ニューラルネットワークに含まれる各ノードは、ベクトルでもある。各レイヤは、複数のノードからなっており、各層の出力は、次の層の入力になる。レイヤ間の関数は、レイヤに含まれたノード間の係数値を含んでもよい。
関数は、各レイヤ間の連結関係を定義する。図3の例において、第1関数F1は、入力レイヤILと隠れレイヤHLとの連結関係を定義する。例えば、第1関数F1は、入力ノードINと隠れノードHLとの連結関係を定義する。ノード間の連結関係は、ノード間の係数値とも表現される。
本発明の一実施形態によれば、ニューラルネットワーク処理部12は、音源の区間別に、データをコンボルーションニューラルネットワークに入力し、N次元ベクトルに表現される各区間別に特徴値を獲得し、獲得された区間別に、特徴値を入力ノードINとして使用することができる。
図3に図示された第1関数F1は、入力ノードINの加重値和を出力するアテンションモデルを含んでもよく、該アテンションモデルは、入力ノードINと加重値和ノードとを連結する係数を含んでもよい。該加重値和ノードは、隠れノードHNの一つでもある。各入力ノードINの係数は、各入力ノードINの加重値でもある。
本発明の一実施形態によるニューラルネットワーク処理部12は、音源獲得部11が獲得した第1音源及び第1分類情報を利用し、第1音源を入力したとき、第1分類情報に近接した結果を出力するようにニューラルネットワークを学習し、学習されたニューラルネットワークにおいて、第1音源の各区間に対応する入力ノードINと、加重値和ノードとの係数を各区間の加重値として取得することができる。
図3の例において、各レイヤのノードは、複数に図示されているが、必ずしもそれに限定されるものではない。例えば、出力レイヤOLは、1つの出力ノードONを含んでもよく、出力ノードONは、1つの分類情報を示すことができる。出力ノードONは、分類情報の各項目に該当する確率値を含むM次元ベクトルによっても表現され、そのとき、Mは、分類情報の項目個数に対応する。本発明の一実施形態によれば、出力ノードONを複数個設定することにより、複数の分類情報を考慮するハイライト抽出方法を提供することができる。例えば、出力ノードONは、ジャンル情報を示すノードと、ムード情報を示すノードとを含んでもよく、各ノードは、互いに同じであるか、あるいは互いに異なる次元のベクトルによっても表現される。
図4は、本発明の一実施形態によるニューラルネットワークを、他の観点から図示したものである。図4を参照すれば、本発明の一実施形態によるニューラルネットワーク処理部12は、音源を複数の区間に分割する。例えば、ニューラルネットワーク処理部12は、音源を、既設定時間長を有する複数の区間に分割する。ニューラルネットワーク処理部12は、各区間別に、データにコンボルーションニューラルネットワーク(CNN)を適用し、区間別特徴値fを抽出することができる。
ニューラルネットワーク処理部12は、区間別特徴値fにアテンションモデル41を適用し、加重値和43を獲得し、区間別特徴値fのシーケンスに対し、循環ニューラルネットワーク42を適用し、音源全体に係わる特徴値44を含んでもよい。図4においては、ニューラルネットワーク処理部12が、特徴値44を獲得するために、循環ニューラルネットワーク42を適用するように図示されているが、必ずしも循環ニューラルネットワーク42を使用しなければならいものではない。例えば、ニューラルネットワークの性能設計により、各区間別に特徴値fをいずれも反映させることができる音源全体に係わる特徴値44を獲得することができる他のアルゴリズムが使用されてもよい。例えば、各区間別に、特徴値fのシーケンスをいずれも連結した後、ベクトル次元を調節し、特徴値44を獲得することができる。
本発明の一実施形態によるニューラルネットワーク処理部12は、加重値和43と特徴値44とを併合(merging)し、統合特徴値45を獲得することができる。例えば、ニューラルネットワーク処理部12は、加重値和43と特徴値44との類似度を、統合特徴値45として獲得することができ、統合特徴値45を、最終関数46の入力として使用することができる。最終関数46は、統合特徴値45と、出力レイヤのノードである分類情報とを全体的に連結する1以上のマトリックスを含んでもよい。
ニューラルネットワーク処理部12は、最終関数46を通過して出力される出力レイヤのノード値から、音源に係わる分類情報を推測することができる。
一例により、ニューラルネットワークに入力される音源が、ラベリングされた分類情報を含む場合、ニューラルネットワーク処理部12は、図4の最終関数46として出力される出力レイヤのノード値から推測される分類情報が、音源にラベリングされた分類情報に近接するように、ニューラルネットワークに含まれる関数を更新することにより、ニューラルネットワークを学習させることができる。または、ニューラルネットワーク処理部12は、分類情報を出力し、分類情報を出力する過程において、アテンションモデル41で利用された係数のみを取得し、各区間に係わる加重値情報を獲得した後、ニューラルネットワークを学習させずに、処理を終了することもできる。
他の例により、ニューラルネットワークに入力される音源が、ラベリングされた分類情報を含まない場合、ニューラルネットワーク処理部12は、図4の最終関数46として出力される出力レイヤのノード値から、音源の分類情報を推測することができる。すなわち、本発明の一実施形態による、メモリ20に保存されたニューラルネットワークは、音源から分類情報を推測するのに使用されるということは言うまでもない。本発明の一実施形態によるニューラルネットワークは、音源の区間別に加重値を考慮し、分類情報を推測することができる。それによれば、該分類情報を推測するために、重要な区間に集中することができるようになるので、分類情報推測性能が向上する。
図5は、本発明の一実施形態による、ハイライト区間を抽出する方法の例を図示したものである。図5を参照すれば、時間軸及び周波数軸に係わるエネルギーデータを含むように変換された音源50が図示されている。図5に図示された音源50の横方向は、時間軸に対応し、音源50は、各時間値に対する周波数チャネル別に、エネルギーデータを含んでもよい。例えば、第1時点t1に対する周波数チャネル別にエネルギーデータ511の例が図示されている。データ511の横軸は、周波数チャネルに該当する。
一実施形態によるハイライト決定部13は、ニューラルネットワーク処理部12によって獲得される各区間別に加重値を考慮し、重要区間51を決定することができる。または、ハイライト決定部13は、ニューラルネットワーク処理部12によって獲得される各区間別に加重値と、区間別にエネルギーデータとの和を考慮し、重要区間51を決定することができる。
ハイライト決定部13は、重要区間51を基準に設定される範囲内において、エネルギーデータ、あるいは時間に対するエネルギーデータのモメンタムが最大である時点t1を選択し、時点t1を考慮し、ハイライト区間を決定することができる。該モメンタムは、エネルギーデータの一次微分値あるいは二次微分値でもある。
例えば、ハイライト決定部13は、時点t1を含む区間51をハイライト区間521と決定することができる。他の例を挙げれば、ハイライト決定部13は、時点t1を中心にする既設定長のハイライト区間522を決定することができる。他の例を挙げれば、ハイライト決定部13は、時点t1を開始点にする既設定長のハイライト区間523を決定することができる。
一方、図3に図示された本発明の一実施形態によるコンテンツ管理方法は、コンピュータで実行されるプログラムに作成可能であり、コンピュータで読み取り可能な記録媒体を利用し、前記プログラムを動作させる汎用デジタルコンピュータによっても具現される。該媒体は、コンピュータで実行可能なプログラムを保存する装置でもある。また、該媒体は、単一、または数個のハードウェアが結合された形態の多様な記録手段または保存手段でもあるが、あるコンピュータシステムに直接接続される媒体に限定されるものではなく、ネットワーク上にも分散存在する。該媒体の例示としては、ハードディスク、フロッピィーディスク及び磁気テープのような磁気媒体;CD−ROM(compact disc read only memory)及びDVD(digital versatile disc)のような光記録媒体;フロプティカルディスク(floptical disk)のような磁気・光媒体(magneto-optical medium);及びROM(read-only memory)、RAM(random access memory)、フラッシュメモリなどを含み、プログラム命令語が保存されるように構成されたものでもある。また、他の媒体の例示として、アプリケーションを流通するアプリストアや、その他多様なソフトウェアを供給したり流通させたりするサイト、サーバなどで管理する記録媒体ないし記録媒体も挙げることができる。
以上、本発明について、その望ましい実施形態を中心に説明した。本発明は、図面に図示された実施形態を参照して説明されたが、それらは、例示的なものに過ぎず、本発明が属する技術分野において当業者であるならば、本発明が、本発明の本質的な特性から外れない範囲で変形された形態にも具現され、均等な他の実施例が可能であるということを理解することができるであろう。従って、開示された実施形態は、限定的な観点ではなく、説明的な観点から考慮されなければならない。本発明の範囲は、前述の説明ではなく、特許請求の範囲に示されており、それと同等な範囲内にある全ての差異は、本発明に含まれたものであると解釈されなければならないのである。

Claims (9)

  1. プロセッサを利用し、音源のハイライト区間を決定する方法において、前記方法は、
    音源、及び前記音源に係わる分類情報を獲得する獲得段階と、
    前記音源及び前記分類情報を利用し、前記音源を時間軸に分割した複数の区間それぞれの特徴値に対応するノードを含む入力レイヤ、前記分類情報に対応するノードを含む出力レイヤ、前記入力レイヤと前記出力レイヤとの間にある隠れレイヤ、前記入力レイヤと前記隠れレイヤとの間の関係を表す第1関数、及び前記隠れレイヤと前記出力レイヤとの間の関係を表す第2関数に基づいて決定されるニューラルネットワークを学習する学習段階であって、前記第1関数は、前記各区間の特徴値の加重値和を計算するアテンションモデルを含む学習段階と、
    前記学習された第1関数に含まれた前記各区間の特徴値ノードの加重値情報に基づいて、前記音源のハイライト区間を決定する決定段階と、を含む音源のハイライト区間決定方法。
  2. 前記隠れレイヤは、前記第1関数により、前記各区間の特徴値から獲得される前記音源に係わる統合特徴値に対応するノードを含むことを特徴とする請求項1に記載の音源のハイライト区間決定方法。
  3. 前記第1関数は、前記アテンションモデルの出力値と、循環ニューラルネットワークモデルの出力値との類似度を計算する第1−1関数をさらに含み、前記隠れレイヤは、前記類似度のノードを含むことを特徴とする請求項1に記載の音源のハイライト区間決定方法。
  4. 前記獲得段階の後に、
    時間軸に係わる音データを含む前記音源を、時間軸に係わるエネルギーデータを含むように変換する段階をさらに含み、
    前記複数の区間は、前記変換された音源を時間軸に分割したことを特徴とする請求項1に記載の音源のハイライト区間決定方法。
  5. 前記決定段階は、前記各区間の特徴値ノードの加重値情報、及び前記各区間のエネルギーデータに基づいて、前記ハイライト区間を決定することを特徴とする請求項4に記載の音源のハイライト区間決定方法。
  6. 前記決定段階は、前記各区間の特徴値ノードの加重値情報に基づいて重要区間を決定し、前記重要区間の前後に前もって設定された範囲区間内のエネルギーデータを参照し、前記音源の全体区間において、前記ハイライト区間を決定することを特徴とする請求項1に記載の音源のハイライト区間決定方法。
  7. 前記決定段階は、前記設定された範囲区間内において、前記エネルギーデータのモメンタムが最大である時点に対応し、前記ハイライト区間を決定することを特徴とする請求項6に記載の音源のハイライト区間決定方法。
  8. 請求項1ないし7のうちいずれか1項に記載のハイライト区間決定方法をコンピュータに実行させるコンピュータプログラム。
  9. 音源、及び前記音源に係わる分類情報を獲得する音源獲得手段と、
    前記音源及び前記分類情報を利用し、前記音源を時間軸に分割した複数の区間それぞれの特徴値に対応するノードを含む入力レイヤ、前記分類情報に対応するノードを含む出力レイヤ、前記入力レイヤと前記出力レイヤとの間にある隠れレイヤ、前記入力レイヤと前記隠れレイヤとの間の関係を表す第1関数、及び前記隠れレイヤと前記出力レイヤとの間の関係を表す第2関数に基づいて決定されるニューラルネットワークを学習するニューラルネットワーク処理手段であって、前記第1関数は、前記各区間の特徴値の加重値和を計算するアテンションモデルを含むニューラルネットワーク処理手段と、
    前記学習された第1関数に含まれた前記各区間の特徴値ノードの加重値情報に基づいて、前記音源のハイライト区間を決定するハイライト決定手段と、を含む音源のハイライト区間決定装置。
JP2020503683A 2017-04-07 2018-04-06 音源のハイライト区間を決定する方法、その装置及び該コンピュータプログラム Active JP6998449B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020170045391A KR101891778B1 (ko) 2017-04-07 2017-04-07 음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램
KR10-2017-0045391 2017-04-07
PCT/KR2018/004061 WO2018186708A1 (ko) 2017-04-07 2018-04-06 음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램

Publications (2)

Publication Number Publication Date
JP2020516004A true JP2020516004A (ja) 2020-05-28
JP6998449B2 JP6998449B2 (ja) 2022-01-18

Family

ID=63454529

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020503683A Active JP6998449B2 (ja) 2017-04-07 2018-04-06 音源のハイライト区間を決定する方法、その装置及び該コンピュータプログラム

Country Status (4)

Country Link
US (1) US11462210B2 (ja)
JP (1) JP6998449B2 (ja)
KR (1) KR101891778B1 (ja)
WO (1) WO2018186708A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022038958A1 (ja) * 2020-08-17 2022-02-24 ヤマハ株式会社 楽曲構造解析装置および楽曲構造解析方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102153211B1 (ko) * 2019-01-11 2020-09-07 서울과학기술대학교 산학협력단 채팅 데이터와 오디오 데이터를 이용한 하이라이트 영상 생성 장치 및 방법
KR102025652B1 (ko) * 2019-01-21 2019-09-27 휴멜로 주식회사 사운드 이벤트 탐지 모델 학습 방법
KR102397563B1 (ko) * 2019-09-20 2022-05-13 휴멜로 주식회사 사운드 이벤트 탐지 모델 학습 방법
JP7120468B2 (ja) * 2019-09-27 2022-08-17 ヤマハ株式会社 音響解析方法、音響解析装置およびプログラム
CN113297490B (zh) * 2021-06-04 2022-08-02 西南大学 基于图卷积神经网络的双向推荐方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002062892A (ja) * 2000-08-11 2002-02-28 Nippon Hoso Kyokai <Nhk> 音響分類装置
JP2004191780A (ja) * 2002-12-12 2004-07-08 Sony Corp 音響信号処理装置及び方法、信号記録装置及び方法、並びにプログラム
JP2011090290A (ja) * 2009-09-28 2011-05-06 Sanyo Electric Co Ltd 楽曲抽出装置および楽曲録音装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
EP1273205B1 (en) * 2000-04-04 2006-06-21 GN ReSound as A hearing prosthesis with automatic classification of the listening environment
KR101796580B1 (ko) 2011-11-28 2017-11-14 한국전자통신연구원 음악 하이라이트 구간 추출 장치 및 방법
KR102058025B1 (ko) * 2013-03-13 2020-01-22 삼성전자주식회사 음원의 하이라이트 구간을 추출하는 전자 장치 및 그 동작 방법
KR102239714B1 (ko) 2014-07-24 2021-04-13 삼성전자주식회사 신경망 학습 방법 및 장치, 데이터 처리 장치
KR102449837B1 (ko) 2015-02-23 2022-09-30 삼성전자주식회사 신경망 학습 방법 및 장치, 및 인식 방법 및 장치
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002062892A (ja) * 2000-08-11 2002-02-28 Nippon Hoso Kyokai <Nhk> 音響分類装置
JP2004191780A (ja) * 2002-12-12 2004-07-08 Sony Corp 音響信号処理装置及び方法、信号記録装置及び方法、並びにプログラム
JP2011090290A (ja) * 2009-09-28 2011-05-06 Sanyo Electric Co Ltd 楽曲抽出装置および楽曲録音装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHAN, WILLIAM ほか: "Listen, Attend and Spell", ARXIV[ONLINE], JPN6020041429, 20 August 2015 (2015-08-20), pages 1 - 16, ISSN: 0004376199 *
LUONG, MINH-THANG: "Effective Approaches to Attention-based Neural Machine Translation", ARXIV[ONLINE], JPN6020041431, 20 September 2015 (2015-09-20), ISSN: 0004376200 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022038958A1 (ja) * 2020-08-17 2022-02-24 ヤマハ株式会社 楽曲構造解析装置および楽曲構造解析方法

Also Published As

Publication number Publication date
US20200035225A1 (en) 2020-01-30
JP6998449B2 (ja) 2022-01-18
KR101891778B1 (ko) 2018-08-24
US11462210B2 (en) 2022-10-04
WO2018186708A1 (ko) 2018-10-11

Similar Documents

Publication Publication Date Title
JP2020516004A (ja) 音源のハイライト区間を決定する方法、その装置及び該コンピュータプログラム
US11699095B2 (en) Cross-domain recommender systems using domain separation networks and autoencoders
CN111309965B (zh) 音频匹配方法、装置、计算机设备及存储介质
CN111444967B (zh) 生成对抗网络的训练方法、生成方法、装置、设备及介质
US11586909B2 (en) Information processing method, information processing apparatus, and computer readable storage medium
Turnbull et al. Fast recognition of musical genres using RBF networks
CN104574192B (zh) 在多个社交网络中识别同一用户的方法及装置
WO2019233360A1 (zh) 一种基于深度学习的音域平衡方法、装置及系统
CN114822512B (zh) 音频数据的处理方法、装置、电子设备及存储介质
JP7415922B2 (ja) 情報処理方法、情報処理装置及び情報処理プログラム
US8386413B2 (en) System for generating a media playlist
JP2020533723A (ja) パターン認識装置、パターン認識方法、及びパターン認識プログラム
CN110019779B (zh) 一种文本分类方法、模型训练方法及装置
ES2344123T3 (es) Procedimiento y aparato para generar de manera automatica una lista de reproduccion mediante comparacion por segmento de caracteristicas.
CN115867919A (zh) 用于推荐系统的图结构感知增量学习
CN111444379B (zh) 音频的特征向量生成方法及音频片段表示模型的训练方法
Wu et al. Neighbor-guided consistent and contrastive learning for semi-supervised action recognition
CN114781779A (zh) 一种无监督能耗异常检测方法、装置及存储介质
CN111010595B (zh) 一种新节目推荐的方法及装置
Liu An automatic classification method for multiple music genres by integrating emotions and intelligent algorithms
JP7439755B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
Vesperini et al. A capsule neural networks based approach for bird audio detection
Virtanen et al. Proceedings of the Detection and Classification of Acoustic Scenes and Events 2017 Workshop (DCASE2017)
da Silva et al. Audio plugin recommendation systems for music production
Sha et al. Flor: a federated learning-based music recommendation engine

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191001

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201215

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20210414

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20210412

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211013

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20211013

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20211026

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20211102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211220

R150 Certificate of patent or registration of utility model

Ref document number: 6998449

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350