JP2020516004A - 音源のハイライト区間を決定する方法、その装置及び該コンピュータプログラム - Google Patents
音源のハイライト区間を決定する方法、その装置及び該コンピュータプログラム Download PDFInfo
- Publication number
- JP2020516004A JP2020516004A JP2020503683A JP2020503683A JP2020516004A JP 2020516004 A JP2020516004 A JP 2020516004A JP 2020503683 A JP2020503683 A JP 2020503683A JP 2020503683 A JP2020503683 A JP 2020503683A JP 2020516004 A JP2020516004 A JP 2020516004A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- section
- highlight
- neural network
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000004590 computer program Methods 0.000 title claims description 9
- 238000013528 artificial neural network Methods 0.000 claims abstract description 91
- 230000006870 function Effects 0.000 claims abstract description 58
- 238000012545 processing Methods 0.000 claims description 39
- 238000003062 neural network model Methods 0.000 claims description 3
- 239000010410 layer Substances 0.000 description 68
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 125000004122 cyclic group Chemical group 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 239000011435 rock Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 210000000225 synapse Anatomy 0.000 description 1
- 230000000946 synaptic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
一方、図3に図示された本発明の一実施形態によるコンテンツ管理方法は、コンピュータで実行されるプログラムに作成可能であり、コンピュータで読み取り可能な記録媒体を利用し、前記プログラムを動作させる汎用デジタルコンピュータによっても具現される。該媒体は、コンピュータで実行可能なプログラムを保存する装置でもある。また、該媒体は、単一、または数個のハードウェアが結合された形態の多様な記録手段または保存手段でもあるが、あるコンピュータシステムに直接接続される媒体に限定されるものではなく、ネットワーク上にも分散存在する。該媒体の例示としては、ハードディスク、フロッピィーディスク及び磁気テープのような磁気媒体;CD−ROM(compact disc read only memory)及びDVD(digital versatile disc)のような光記録媒体;フロプティカルディスク(floptical disk)のような磁気・光媒体(magneto-optical medium);及びROM(read-only memory)、RAM(random access memory)、フラッシュメモリなどを含み、プログラム命令語が保存されるように構成されたものでもある。また、他の媒体の例示として、アプリケーションを流通するアプリストアや、その他多様なソフトウェアを供給したり流通させたりするサイト、サーバなどで管理する記録媒体ないし記録媒体も挙げることができる。
Claims (9)
- プロセッサを利用し、音源のハイライト区間を決定する方法において、前記方法は、
音源、及び前記音源に係わる分類情報を獲得する獲得段階と、
前記音源及び前記分類情報を利用し、前記音源を時間軸に分割した複数の区間それぞれの特徴値に対応するノードを含む入力レイヤ、前記分類情報に対応するノードを含む出力レイヤ、前記入力レイヤと前記出力レイヤとの間にある隠れレイヤ、前記入力レイヤと前記隠れレイヤとの間の関係を表す第1関数、及び前記隠れレイヤと前記出力レイヤとの間の関係を表す第2関数に基づいて決定されるニューラルネットワークを学習する学習段階であって、前記第1関数は、前記各区間の特徴値の加重値和を計算するアテンションモデルを含む学習段階と、
前記学習された第1関数に含まれた前記各区間の特徴値ノードの加重値情報に基づいて、前記音源のハイライト区間を決定する決定段階と、を含む音源のハイライト区間決定方法。 - 前記隠れレイヤは、前記第1関数により、前記各区間の特徴値から獲得される前記音源に係わる統合特徴値に対応するノードを含むことを特徴とする請求項1に記載の音源のハイライト区間決定方法。
- 前記第1関数は、前記アテンションモデルの出力値と、循環ニューラルネットワークモデルの出力値との類似度を計算する第1−1関数をさらに含み、前記隠れレイヤは、前記類似度のノードを含むことを特徴とする請求項1に記載の音源のハイライト区間決定方法。
- 前記獲得段階の後に、
時間軸に係わる音データを含む前記音源を、時間軸に係わるエネルギーデータを含むように変換する段階をさらに含み、
前記複数の区間は、前記変換された音源を時間軸に分割したことを特徴とする請求項1に記載の音源のハイライト区間決定方法。 - 前記決定段階は、前記各区間の特徴値ノードの加重値情報、及び前記各区間のエネルギーデータに基づいて、前記ハイライト区間を決定することを特徴とする請求項4に記載の音源のハイライト区間決定方法。
- 前記決定段階は、前記各区間の特徴値ノードの加重値情報に基づいて重要区間を決定し、前記重要区間の前後に前もって設定された範囲区間内のエネルギーデータを参照し、前記音源の全体区間において、前記ハイライト区間を決定することを特徴とする請求項1に記載の音源のハイライト区間決定方法。
- 前記決定段階は、前記設定された範囲区間内において、前記エネルギーデータのモメンタムが最大である時点に対応し、前記ハイライト区間を決定することを特徴とする請求項6に記載の音源のハイライト区間決定方法。
- 請求項1ないし7のうちいずれか1項に記載のハイライト区間決定方法をコンピュータに実行させるコンピュータプログラム。
- 音源、及び前記音源に係わる分類情報を獲得する音源獲得手段と、
前記音源及び前記分類情報を利用し、前記音源を時間軸に分割した複数の区間それぞれの特徴値に対応するノードを含む入力レイヤ、前記分類情報に対応するノードを含む出力レイヤ、前記入力レイヤと前記出力レイヤとの間にある隠れレイヤ、前記入力レイヤと前記隠れレイヤとの間の関係を表す第1関数、及び前記隠れレイヤと前記出力レイヤとの間の関係を表す第2関数に基づいて決定されるニューラルネットワークを学習するニューラルネットワーク処理手段であって、前記第1関数は、前記各区間の特徴値の加重値和を計算するアテンションモデルを含むニューラルネットワーク処理手段と、
前記学習された第1関数に含まれた前記各区間の特徴値ノードの加重値情報に基づいて、前記音源のハイライト区間を決定するハイライト決定手段と、を含む音源のハイライト区間決定装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170045391A KR101891778B1 (ko) | 2017-04-07 | 2017-04-07 | 음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램 |
KR10-2017-0045391 | 2017-04-07 | ||
PCT/KR2018/004061 WO2018186708A1 (ko) | 2017-04-07 | 2018-04-06 | 음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020516004A true JP2020516004A (ja) | 2020-05-28 |
JP6998449B2 JP6998449B2 (ja) | 2022-01-18 |
Family
ID=63454529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020503683A Active JP6998449B2 (ja) | 2017-04-07 | 2018-04-06 | 音源のハイライト区間を決定する方法、その装置及び該コンピュータプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US11462210B2 (ja) |
JP (1) | JP6998449B2 (ja) |
KR (1) | KR101891778B1 (ja) |
WO (1) | WO2018186708A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022038958A1 (ja) * | 2020-08-17 | 2022-02-24 | ヤマハ株式会社 | 楽曲構造解析装置および楽曲構造解析方法 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102153211B1 (ko) * | 2019-01-11 | 2020-09-07 | 서울과학기술대학교 산학협력단 | 채팅 데이터와 오디오 데이터를 이용한 하이라이트 영상 생성 장치 및 방법 |
KR102025652B1 (ko) * | 2019-01-21 | 2019-09-27 | 휴멜로 주식회사 | 사운드 이벤트 탐지 모델 학습 방법 |
KR102397563B1 (ko) * | 2019-09-20 | 2022-05-13 | 휴멜로 주식회사 | 사운드 이벤트 탐지 모델 학습 방법 |
JP7120468B2 (ja) * | 2019-09-27 | 2022-08-17 | ヤマハ株式会社 | 音響解析方法、音響解析装置およびプログラム |
CN113297490B (zh) * | 2021-06-04 | 2022-08-02 | 西南大学 | 基于图卷积神经网络的双向推荐方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002062892A (ja) * | 2000-08-11 | 2002-02-28 | Nippon Hoso Kyokai <Nhk> | 音響分類装置 |
JP2004191780A (ja) * | 2002-12-12 | 2004-07-08 | Sony Corp | 音響信号処理装置及び方法、信号記録装置及び方法、並びにプログラム |
JP2011090290A (ja) * | 2009-09-28 | 2011-05-06 | Sanyo Electric Co Ltd | 楽曲抽出装置および楽曲録音装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1091194A (ja) * | 1996-09-18 | 1998-04-10 | Sony Corp | 音声復号化方法及び装置 |
EP1273205B1 (en) * | 2000-04-04 | 2006-06-21 | GN ReSound as | A hearing prosthesis with automatic classification of the listening environment |
KR101796580B1 (ko) | 2011-11-28 | 2017-11-14 | 한국전자통신연구원 | 음악 하이라이트 구간 추출 장치 및 방법 |
KR102058025B1 (ko) * | 2013-03-13 | 2020-01-22 | 삼성전자주식회사 | 음원의 하이라이트 구간을 추출하는 전자 장치 및 그 동작 방법 |
KR102239714B1 (ko) | 2014-07-24 | 2021-04-13 | 삼성전자주식회사 | 신경망 학습 방법 및 장치, 데이터 처리 장치 |
KR102449837B1 (ko) | 2015-02-23 | 2022-09-30 | 삼성전자주식회사 | 신경망 학습 방법 및 장치, 및 인식 방법 및 장치 |
KR102413692B1 (ko) * | 2015-07-24 | 2022-06-27 | 삼성전자주식회사 | 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치 |
-
2017
- 2017-04-07 KR KR1020170045391A patent/KR101891778B1/ko active IP Right Grant
-
2018
- 2018-04-06 JP JP2020503683A patent/JP6998449B2/ja active Active
- 2018-04-06 WO PCT/KR2018/004061 patent/WO2018186708A1/ko active Application Filing
-
2019
- 2019-10-04 US US16/593,488 patent/US11462210B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002062892A (ja) * | 2000-08-11 | 2002-02-28 | Nippon Hoso Kyokai <Nhk> | 音響分類装置 |
JP2004191780A (ja) * | 2002-12-12 | 2004-07-08 | Sony Corp | 音響信号処理装置及び方法、信号記録装置及び方法、並びにプログラム |
JP2011090290A (ja) * | 2009-09-28 | 2011-05-06 | Sanyo Electric Co Ltd | 楽曲抽出装置および楽曲録音装置 |
Non-Patent Citations (2)
Title |
---|
CHAN, WILLIAM ほか: "Listen, Attend and Spell", ARXIV[ONLINE], JPN6020041429, 20 August 2015 (2015-08-20), pages 1 - 16, ISSN: 0004376199 * |
LUONG, MINH-THANG: "Effective Approaches to Attention-based Neural Machine Translation", ARXIV[ONLINE], JPN6020041431, 20 September 2015 (2015-09-20), ISSN: 0004376200 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022038958A1 (ja) * | 2020-08-17 | 2022-02-24 | ヤマハ株式会社 | 楽曲構造解析装置および楽曲構造解析方法 |
Also Published As
Publication number | Publication date |
---|---|
US20200035225A1 (en) | 2020-01-30 |
JP6998449B2 (ja) | 2022-01-18 |
KR101891778B1 (ko) | 2018-08-24 |
US11462210B2 (en) | 2022-10-04 |
WO2018186708A1 (ko) | 2018-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020516004A (ja) | 音源のハイライト区間を決定する方法、その装置及び該コンピュータプログラム | |
US11699095B2 (en) | Cross-domain recommender systems using domain separation networks and autoencoders | |
CN111309965B (zh) | 音频匹配方法、装置、计算机设备及存储介质 | |
CN111444967B (zh) | 生成对抗网络的训练方法、生成方法、装置、设备及介质 | |
US11586909B2 (en) | Information processing method, information processing apparatus, and computer readable storage medium | |
Turnbull et al. | Fast recognition of musical genres using RBF networks | |
CN104574192B (zh) | 在多个社交网络中识别同一用户的方法及装置 | |
WO2019233360A1 (zh) | 一种基于深度学习的音域平衡方法、装置及系统 | |
CN114822512B (zh) | 音频数据的处理方法、装置、电子设备及存储介质 | |
JP7415922B2 (ja) | 情報処理方法、情報処理装置及び情報処理プログラム | |
US8386413B2 (en) | System for generating a media playlist | |
JP2020533723A (ja) | パターン認識装置、パターン認識方法、及びパターン認識プログラム | |
CN110019779B (zh) | 一种文本分类方法、模型训练方法及装置 | |
ES2344123T3 (es) | Procedimiento y aparato para generar de manera automatica una lista de reproduccion mediante comparacion por segmento de caracteristicas. | |
CN115867919A (zh) | 用于推荐系统的图结构感知增量学习 | |
CN111444379B (zh) | 音频的特征向量生成方法及音频片段表示模型的训练方法 | |
Wu et al. | Neighbor-guided consistent and contrastive learning for semi-supervised action recognition | |
CN114781779A (zh) | 一种无监督能耗异常检测方法、装置及存储介质 | |
CN111010595B (zh) | 一种新节目推荐的方法及装置 | |
Liu | An automatic classification method for multiple music genres by integrating emotions and intelligent algorithms | |
JP7439755B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
Vesperini et al. | A capsule neural networks based approach for bird audio detection | |
Virtanen et al. | Proceedings of the Detection and Classification of Acoustic Scenes and Events 2017 Workshop (DCASE2017) | |
da Silva et al. | Audio plugin recommendation systems for music production | |
Sha et al. | Flor: a federated learning-based music recommendation engine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191001 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201014 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201215 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20210414 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20210412 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210713 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211013 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20211013 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20211026 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20211102 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211220 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6998449 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |