JP6713032B2 - 雰囲気コントロールが可能な音源ミキシング方法およびシステム - Google Patents

雰囲気コントロールが可能な音源ミキシング方法およびシステム Download PDF

Info

Publication number
JP6713032B2
JP6713032B2 JP2018218204A JP2018218204A JP6713032B2 JP 6713032 B2 JP6713032 B2 JP 6713032B2 JP 2018218204 A JP2018218204 A JP 2018218204A JP 2018218204 A JP2018218204 A JP 2018218204A JP 6713032 B2 JP6713032 B2 JP 6713032B2
Authority
JP
Japan
Prior art keywords
sound source
song
section
music
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018218204A
Other languages
English (en)
Other versions
JP2019095791A (ja
Inventor
ジョンミン キム
ジョンミン キム
テギュン クォン
テギュン クォン
ソラム パク
ソラム パク
ジョンウ ハ
ジョンウ ハ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2019095791A publication Critical patent/JP2019095791A/ja
Application granted granted Critical
Publication of JP6713032B2 publication Critical patent/JP6713032B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • G10H2210/125Medley, i.e. linking parts of different musical pieces in one single piece, e.g. sound collage, DJ mix

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

以下の説明は、音源を自動選曲してミキシングする技術に関する。
現在は多様なオンライン音楽サービスが存在しているが、一般的なオンライン音楽サービスでは、音源をユーザ端末に提供したりストリーミングサービスを提供したりするなどの方式により、オンライン接続しているユーザにリアルタイムで音源を提供している。
オンライン音楽サービスの一例として、特許文献1(登録日2006年08月17日)には、音楽コンテンツを内容に基づいて分類し、これによってネットワークを介して接続しているユーザに音楽コンテンツを提供する技術が開示されている。
韓国登録特許公報第10−0615522号公報
音源の音楽的特性を考慮しながら、現在の曲と次の曲との間の自動ミキシングを実現することができる方法およびシステムを提供する。
ユーザが希望する雰囲気とユーザの個人的趣向を考慮しながら、音源を自動選曲することができる方法およびシステムを提供する。
ユーザ入力によって音源のミックス雰囲気をリアルタイムでコントロールすることができる方法およびシステムを提供する。
コンピュータシステムで実行される音源ミキシング方法であって、曲ごとに曲の一部区間を再生区間として決定して曲間の再生区間の音源特性を比較し、以前の曲の音源特性に対応する次の曲を選定する段階、および前記選定する段階を繰り返すことにより、各曲の再生区間を含む音源ミックスリストを構成する段階を含む、音源ミキシング方法を提供する。
一側面によると、前記選定する段階は、音源の構造を区分する時間単位であるセグメントポイントを利用して各曲のセグメント区間の一部を再生区間として決定する段階を含む。
他の側面によると、前記決定する段階は、各曲のハイライト(highlight)区間を含むセグメント区間を再生区間として決定してよい。
また他の側面によると、前記選定する段階は、ユーザの電子機器から音源ミキシング要請を受信すると、音源に対する前記ユーザの趣向情報を反映してシード曲を決定する段階を含む。
また他の側面によると、前記選定する段階は、ユーザの電子機器から音源分類基準であるモードについての選択情報を含む音源ミキシング要請を受信すると、前記ユーザにより選択された前記モードに分類されている曲の中から、シード曲を決定する段階を含む。
また他の側面によると、当該音源ミキシング方法は、シード曲が与えられると、前記音源ミックスリストを定められた長さで構成するために、前記長さの分だけ、前記選定する段階を繰り返してよい。
また他の側面によると、前記選定する段階は、選曲対象プール(pool)に属する曲を対象に、再生区間の開始部分に現れる音源特性と前記以前の曲の再生区間の終端部分に現れる音源特性とを比較した曲間の類似度に基づいて、前記次の曲を選定してよい。
また他の側面によると、音源ミキシング方法は、前記以前の曲の再生区間の音源特性を考慮しながら、前記次の曲へのトランジション方法を選択する段階を含んでよい。
また他の側面によると、前記選択する段階は、前記以前の曲の再生区間の終端部分と前記次の曲の再生区間の開始部分に現れる音源特性を考慮しながら、前記トランジション方法を選択してよい。
また他の側面によると、前記選定する段階は、音源の構造を区分する時間単位であるセグメントポイントを利用して各曲のセグメント区間の一部を再生区間として決定する段階を含み、音源ミキシング方法は、ユーザの電子機器から前記音源ミックスリストに対する変更要請を受信すると、前記変更要請に対応するセグメントポイントを基準として新たな音源ミックスリストを構成する段階を含む。
さらに他の側面によると、選曲対象プールに属する音源それぞれに対し、音源のセグメントポイントごとに候補曲が事前に格納され、前記新たな音源ミックスリストを構成する段階は、前記変更要請の受信時点と隣接するセグメントポイントの候補曲の中から曲を選定して新たな音源ミックスリストを構成してよい。
コンピュータと結合して前記音源ミキシング方法をコンピュータに実行させるために、コンピュータ読取可能な記録媒体に格納される、コンピュータプログラムを提供する。
前記音源ミキシング方法をコンピュータに実行させるためのプログラムが記録されていることを特徴とする、コンピュータ読取可能な記録媒体を提供する。
コンピュータシステムであって、少なくとも1つのプロセッサ、および前記少なくとも1つのプロセッサと連結して前記少なくとも1つのプロセッサによって実行可能な命令を含むメモリを含み、前記少なくとも1つのプロセッサは、曲ごとに曲の一部区間を再生区間として決定して曲間の再生区間の音源特性を比較し、以前の曲の音源特性に対応する次の曲を選定する選曲部、および前記選曲部で曲を選定する過程が繰り返されることにより、曲ごとの再生区間を含む音源ミックスリストを構成するミックス構成部を備える、コンピュータシステムを提供する。
本発明の実施形態によると、音源の音楽的特性を考慮したミキシング方法により、現在の曲と次の曲との間により自然なミキシングを実現することができる。
本発明の実施形態によると、ユーザが希望する雰囲気とユーザの個人的趣向を考慮しながら、音源を自動選曲およびミキシングすることができる。
本発明の実施形態によると、ユーザ入力によってミックスの方向や音源再生状態などのような音源のミックス雰囲気をコントロールすることができ、ユーザ入力に対応する選曲とミキシングをリアルタイムで実現することができる。
本発明の一実施形態における、対話基盤インタフェースを活用したサービス環境の例を示した図である。 本発明の一実施形態における、対話基盤インタフェースを活用したサービス環境の他の例を示した図である。 本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。 本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。 本発明の一実施形態における、サーバのプロセッサが含むことができる構成要素の例を示したブロック図である。 本発明の一実施形態における、サーバが実行することができる方法の例を示したフローチャートである。 本発明の一実施形態における、曲ごとの再生区間を決定する過程の例を説明するための図である。 本発明の一実施形態における、曲ごとの再生区間を決定する過程の例を説明するための図である。 本発明の一実施形態における、曲ごとの再生区間を決定する過程の例を説明するための図である。 本発明の一実施形態における、ミックスリストを構成するための選曲過程の例を説明するための図である。 本発明の一実施形態における、ミックスリストを構成するための選曲過程の例を説明するための図である。 本発明の一実施形態における、シード曲を基準としてミックスリストを構成する過程の例を説明するための図である。 本発明の一実施形態における、リアルタイム発話に対応してミックスリストを新たに構成する過程の例を説明するための図である。
以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。
本発明の実施形態は、音源を自動選曲してミキシングする技術に関する。
本明細書で具体的に開示される事項などを含む実施形態は、音源の音楽的特性を考慮しながらミックスを自動で実現することができ、これによって正確性、連係性、効率性などの側面において相当な長所を達成する。
図1は、本発明の一実施形態における、対話基盤インタフェースを活用したサービス環境の例を示した図である。図1の実施形態では、スマートホーム(smart home)やホームネットワークサービスのように宅内のデバイスを連結して制御する技術において、ユーザとの対話を基盤として動作するインタフェースを提供する電子機器100が、ユーザ110の発話によって受信した音声入力「音楽をかけて」を認識および分析し、宅内で電子機器100のスピーカや電子機器100と内部ネットワークを介して繋がっている宅内スピーカを制御する例について示している。
例えば、宅内のデバイスは、上述した宅内スピーカの他にも、照明機器、テレビ、PC(Personal Computer)、周辺機器、エアコン、冷蔵庫、ロボット清掃機などのような家電製品はもちろん、水道、電気、冷暖房機器などのようなエネルギー消費装置、ドアロックや監視カメラなどのような保安機器など、オンライン上で連結して制御される多様なデバイスを含んでよい。また、内部ネットワークには、イーサネット(Ethernet)(登録商標)、HomePNA、IEEE 1394のような有線ネットワーク技術や、ブルートゥース(Bluetooth)(登録商標)、UWB(ultra Wide Band)、ジグビー(ZigBee)(登録商標)、Wireless 1394、Home RFのような無線ネットワーク技術などが活用されてよい。
電子機器100は、宅内のデバイスのうちの1つであってよい。例えば、電子機器100は、宅内に備えられた人工知能スピーカや対話ロボット、ロボット清掃機などのようなデバイスのうちの1つであってよい。また、電子機器100は、スマートフォン(smart phone)、携帯電話、ノート型パンコン、デジタル放送用端末、PDA(Personal Digital Assistants)、PMP(Portable Multimedia Player)、タブレットなどのようなユーザ110のモバイル機器であってもよい。このように、電子機器100は、ユーザ110の音声入力を認識し、これに対応する動作のために各種デバイスと連結可能な機能を含む機器であれば、特に制限されることはない。また、実施形態によっては、上述したユーザ110のモバイル機器が宅内のデバイスとして含まれてもよい。
図2は、本発明の一実施形態における、対話基盤インタフェースを活用したサービス環境の他の例を示した図である。図2は、ユーザとの対話を基盤として動作するインタフェースを提供する電子機器100が、ユーザ110の発話によって受信した音声入力「音楽をかけて」を認識および分析し、外部ネットワークを介して外部サーバ210から音源を取得し、取得した音源を出力する例について示している。
例えば、外部ネットワークは、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。
図2の実施形態でも、電子機器100は、宅内のデバイスのうちの1つであるか、ユーザ110のモバイル機器のうちの1つであってよく、ユーザ110の音声入力を受信して処理するための機能と、外部ネットワークを介して外部サーバ210に接続して外部サーバ210が提供するサービスやコンテンツをユーザ110に提供するための機能を含む機器であれば、特に制限されることはない。
このように、本発明の実施形態に係る電子機器100は、対話基盤インタフェースでユーザ110の音声入力を含むユーザ命令を処理することができる機器であれば、特に制限されなくてよい。例えば、電子機器100は、ユーザの音声入力を直接に認識および分析し、これに対応する動作を実行することによってユーザ命令を処理してよいが、実施形態によっては、ユーザの音声入力の認識や分析、ユーザに提供される音声や情報の合成などの処理を、電子機器100と連係する外部のプラットフォームで実行してもよい。
図3は、本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。図3は、電子機器310とクラウド人工知能プラットフォーム320、およびコンテンツ・サービス330を示している。
一例として、電子機器310は、宅内に備えられるデバイスを意味してよく、少なくとも上述した電子機器100を含んでよい。このような電子機器310や電子機器310にインストールおよび駆動されるアプリケーション(以下、「アプリ」とする。)は、インタフェースコネクト340を介してクラウド人工知能プラットフォーム320と連係することができる。ここで、インタフェースコネクト340は、電子機器310や電子機器310にインストールおよび駆動されるアプリの開発のためのSDK(Software Development Kit)および/または開発文書を開発者に提供してよい。また、インタフェースコネクト340は、電子機器310や電子機器310にインストールおよび駆動されるアプリが、クラウド人工知能プラットフォーム320で提供する機能を活用することを可能にする、API(Application Program Interface)を提供してよい。具体的な例として、開発者は、インタフェースコネクト340により提供されるSDKおよび/または開発文書を利用して開発した機器やアプリが、インタフェースコネクト340が提供するAPIを利用してクラウド人工知能プラットフォーム320により提供される機能を活用できるようにする。
ここで、クラウド人工知能プラットフォーム320は、対話基盤のサービスを提供するための機能を提供してよい。例えば、クラウド人工知能プラットフォーム320は、受信した音声入力を認識し、出力する情報を合成するための音声処理モジュール321、受信した映像や動画を分析して処理するためのビジョン処理モジュール322、受信した音声入力に適した情報を出力するために適切な対話を決定するための対話処理モジュール323、受信した音声入力に適した機能を薦めるための推薦モジュール324、人工知能がデータ学習に基づいて文章単位で言語を翻訳するように支援するニューラル機械翻訳(Neural Machine Translation:NMT)325などのように、対話基盤サービスを提供するための多様なモジュールを含んでよい。
例えば、図1および図2の実施形態において、電子機器100は、ユーザ110の音声入力を、インタフェースコネクト340が提供するAPIを利用してクラウド人工知能プラットフォーム320に送信してよい。この場合、クラウド人工知能プラットフォーム320は、受信した音声入力を上述したモジュール321〜325を活用して認識および分析してよく、受信した音声入力に応じて適切な返答音声を合成して提供したり、適切な動作を推薦したりしてよい。
また、拡張キット350は、第三者コンテンツ開発者または会社がクラウド人工知能プラットフォーム320を基盤とした新たな人工知能対話基盤機能を実現することのできる開発キットを提供してよい。例えば、図2の実施形態において、電子機器100は、ユーザ110から受信した音声入力を外部サーバ210に送信してよく、外部サーバ210は、拡張キット350により提供されるAPIを利用してクラウド人工知能プラットフォーム320に音声入力を送信してよい。この場合、上述したものと同じように、クラウド人工知能プラットフォーム320は、受信した音声入力を認識および分析して適切な返答音声を合成して提供したり、音声入力に応じて処理すべき機能に対する推薦情報を外部サーバ210に提供したりしてよい。一例として、図2において、外部サーバ210は、音声入力「音楽をかけて」をクラウド人工知能プラットフォーム320に送信してよく、クラウド人工知能プラットフォーム320から、音声入力「音楽をかけて」の認識によって抽出されるキーワード「音楽」および「再生」を受信したとする。この場合、外部サーバ210は、キーワード「音楽」および「再生」に基づいて音源リストを生成し、生成された音源リストをクラウド人工知能プラットフォーム320に再送してよい。このとき、クラウド人工知能プラットフォーム320は、音源リストを外部サーバ210に提供してよい。外部サーバ210は、音源リストを電子機器100に送信してよく、電子機器100は、音源リストを再生することにより、ユーザ110から受信した音声入力「音楽をかけて」を処理することができる。
このとき、電子機器100は、ユーザ110の発話のようなユーザ入力に対応する音源提供のために、本発明の実施形態に係る音源ミキシング方法を実行してよい。
図4は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図4の電子機器410は、上述した電子機器100に対応してよく、サーバ420は、上述した外部サーバ210やクラウド人工知能プラットフォーム320を実現する1つのコンピュータ装置に対応してよい。
電子機器410とサーバ420はそれぞれ、メモリ411、421、プロセッサ412、422、通信モジュール413、423、および入力/出力インタフェース414、424を含んでよい。メモリ411、421は、コンピュータ読取可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永久大容量記憶装置(permanent mass storage device)を含んでよい。ここで、ROMやディスクドライブのような永久大容量記憶装置は、メモリ411、421とは区分される別の永久記憶装置として電子機器410やサーバ420に含まれてもよい。また、メモリ411、421には、オペレーティングシステムと、少なくとも1つのプログラムコード(一例として、電子機器410にインストールされ、特定のサービスの提供のために電子機器410で駆動するアプリケーションなどのためのコード)が格納されてよい。このようなソフトウェア構成要素は、メモリ411、421とは別のコンピュータ読取可能な記録媒体からロードされてよい。このような別のコンピュータ読取可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD−ROMドライブ、メモリカードなどのコンピュータ読取可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読取可能な記録媒体ではない通信モジュール413、423を通じてメモリ411、421にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システムがネットワーク430を介して提供するファイルによってインストールされるコンピュータプログラム(一例として、上述したアプリケーション)に基づいて電子機器410のメモリ411にロードされてよい。
プロセッサ412、422は、基本的な算術、ロジック、および入力/出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ411、421または通信モジュール413、423によって、プロセッサ412、422に提供されてよい。例えば、プロセッサ412、422は、メモリ411、421のような記憶装置に格納されたプログラムコードに従って、受信される命令を実行するように構成されてよい。
通信モジュール413、423は、ネットワーク430を介して電子機器410とサーバ420とが互いに通信するための機能を提供してもよく、電子機器410および/またはサーバ420が他の電子機器または他のサーバと通信するための機能を提供してもよい。一例として、電子機器410のプロセッサ412がメモリ411のような記憶装置に格納されたプログラムコードに従って生成した要求が、通信モジュール413の制御に従ってネットワーク430を介してサーバ420に伝達されてよい。これとは逆に、サーバ420のプロセッサ422の制御に従って提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール423およびネットワーク430を経て電子機器410の通信モジュール413を通じて電子機器410で受信されてよい。例えば、通信モジュール413を通じて受信したサーバ420の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ412やメモリ411に伝達されてよく、コンテンツやファイルなどは、電子機器410がさらに含むことができる記録媒体(上述した永久記憶装置)に格納されてよい。
入力/出力インタフェース414は、入力/出力装置415とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、またはマウス、カメラなどの装置を含んでよく、出力装置は、ディスプレイやスピーカのような装置を含んでよい。他の例として、入力/出力インタフェース414は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置415は、電子機器410と1つの装置で構成されてもよい。また、サーバ420の入力/出力インタフェース424は、サーバ420と連結されるかサーバ420が含むことのできる、入力または出力のための装置(図示せず)とのインタフェースのための手段であってよい。
また、他の実施形態において、電子機器410およびサーバ420は、図4の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、電子機器410は、上述した入力/出力装置415のうちの少なくとも一部を含むように実現されてもよく、トランシーバ、GPS(Global Positioning System)モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、電子機器410がスマートフォンである場合、一般的にスマートフォンに含まれている加速度センサやジャイロセンサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力/出力ポート、振動のための振動器などのような多様な構成要素が、電子機器410にさらに含まれるように実現されてよい。電子機器410は、ユーザの音声入力を受信するためのマイク、音源を出力するためのスピーカ、音源に関する情報を表示するためのディスプレイなどを入力/出力装置415として含んでよい。
図5は、本発明の一実施形態における、サーバのプロセッサが含むことができる構成要素の例を示したブロック図であり、図6は、本発明の一実施形態における、サーバが実行することができる方法の例を示したフローチャートである。
本実施形態に係るサーバ420は、電子機器410を対象にして音源提供サービスを提供するプラットフォームの役割を担うものである。サーバ420は、電子機器410上にインストールされるアプリケーションと連動して音源提供サービスを提供することができ、音源を提供するにあたり、ユーザ入力に対応する人工知能の音源ミキシング機能を提供することができる。
図6に係る音源ミキシング方法を実行するために、サーバ420のプロセッサ422は、構成要素として、図5に示すように、選曲部510、トランジション選択部520、およびミックス構成部530を備えることができる。実施形態によっては、プロセッサ422の構成要素は、選択的にプロセッサ422に含まれても除外されてもよい。また、実施形態によっては、プロセッサ422の構成要素は、プロセッサ422の機能の表現のために分離されても併合されてもよい。
このようなプロセッサ422およびプロセッサ422の構成要素は、図6の音源ミキシング方法に含まれる段階610〜段階640を実行するようにサーバ420を制御することができる。例えば、プロセッサ422およびプロセッサ422の構成要素は、メモリ421に含まれるオペレーティングシステムのコードと少なくとも1つのプログラムのコードによる命令(instruction)を実行するように実現されてよい。
ここで、プロセッサ422の構成要素は、サーバ420に格納されたプログラムコードが提供する命令に従ってプロセッサ422によって実行される、プロセッサ422の互いに異なる機能(different functions)の表現であってよい。例えば、サーバ420が音源ミキシングのための選曲を制御するように上述した命令に従ってサーバ420を制御するプロセッサ422の機能的表現として、選曲部510が利用されてよい。
段階610において、プロセッサ422は、サーバ420の制御と関連する命令がロードされたメモリ421から必要な命令を読み取ることができる。この場合、読み取った命令には、プロセッサ422が以下で説明される段階620〜段階640を実行するように制御するための命令が含まれてよい。
段階620において、選曲部510は、基準曲のセグメントポイントを利用して基準曲の再生される区間(以下、「再生区間」とする。)を決定し、曲間の再生区間の音源特性を比較し、基準曲の音源特性に対応する次の曲を選定する。一例として、選曲部510は、基準曲の再生区間の終端部分であるミックスポイントを含む所定の領域の音源特性を考慮しながら、次の曲を選定する。このとき、基準曲とは、ミキシングされる次の曲を選定するために基準とする音源を意味し、最初の基準曲は、自動的に与えられたシード(seed)曲であるか、あるいは現在再生中の曲であるか、あるいはユーザによって選択された指定曲などが該当してよい。また、セグメントポイントとは、音源構造単位で音源の構造を区分する時間単位(例えば、ミリ秒(msec))指標を意味し、セグメント区間とは、音源内のセグメントポイントとセグメントポイントの間の領域を意味する。プロセッサ422は、事前に構築されたセグメントモデルを利用することにより、選曲対象プール(pool)に含まれる音源それぞれに対してセグメンティングを予め計算することができる。
選曲部510は、音源の少なくとも1つのセグメント区間を再生区間として決定することができる。一例として、音源のハイライト(highlight)区間を含むセグメント区間を、再生区間として決定してよい。ハイライト区間とは、曲のハイライト、すなわち主要な特徴部分を含んでいる領域であり、例えば、ディープラーニング(deep learning)モデルを利用して自動抽出されてよい。ハイライト区間の他にも、音源内から意味的確率が最も高い区間を抽出し、抽出された区間を含むセグメント区間を再生区間として決定してよい。
選曲部510は、基準曲のミックスポイントで再生される次の曲を選定することになる。一例として、選曲部510は、ユーザの音源ミキシング要請に対応してシード曲が与えられると、シード曲の特性と選曲対象プールに属する音源の特性を考慮しながら、シード曲のミックスポイントで再生される次の曲を選定する。続いて、選曲部510は、選定された曲を新たな基準曲とし、基準曲の特性とは異なる音源の特性を考慮しながら、基準曲のミックスポイントで再生される次の曲を選定する。このような選曲過程は、事前に定められた長さ(例えば、時間や曲数)の音源ミックスリストを構成するために、その長さの分だけ繰り返される。
音源ミキシング要請は、電子機器410から受信したユーザ入力であって、例えば、ユーザ発話による音声入力(例えば、「パーティーに合う曲をミックスして」など)などが該当する。音源ミキシング要請にはモード選択情報が含まれてよい。モードは、音楽的な雰囲気やテーマ、ジャンルなどを区分するための基準であり、例えば、パーティー、ラウンジ/ヒーリング、集中などに区分されてよく、モードごとに、そのモードの選曲対象プールを定めることができる。また、シード曲は、ユーザが選択したモードに分類されている曲の中から選定されるが、このとき、音源に対するユーザの個人的趣向が反映されてよく、サーバ420と関連する音源推薦システムから、ユーザの音源選好度などのようなユーザ趣向情報を取得し、これに基づいてシード曲を自動で決定することができる。モードごとの選曲対象プールも、与えられるものの他に、ユーザ趣向情報を反映して構成されることも可能である。例えば、選曲対象プールとして、特定のアルバムやユーザによって構成されたプレイリストなどが使用されてもよい。
特に、選曲部510は、曲間の自然な連結のために、基準曲の再生区間の終端部分(ミックスポイントとなる部分)と選曲対象プール内に含まれる曲の再生区間の開始部分とを比較し、類似度が最も高い曲を次の曲として選定することができる。例えば、選曲部510は、音源のBPM(beats per minute)、キー(key)、ビート(beat)、構造(structure)、局所的特徴(local feature)、全体的特徴(global feature)などの音楽的特性を比較することによって曲間の類似度を判断してよい。
段階630において、トランジション選択部520は、基準曲のミックスポイントを含む所定の領域の音源特性を考慮しながら、次の曲へのトランジション方法を選択してよい。ミックスポイントとは、現在の曲から次の曲にトランジションを開始する時点を意味する。トランジション方法とは、曲と曲とを連結するオーディオエフェクト(audio effect)を意味するものであり、例えば、フェードイン(fade in)、フェードアウト(fade out)、クロスフェード(cross fade)、エコーアウト(echo out)、ループ(loop)などの多様な形態のトランジション類型が含まれてよい。トランジション選択部520は、以前の曲の再生区間の終端部分と次の曲の再生区間の開始部分に現れる音楽的特性(例えば、BPM、キー、ビート、構造、局所的特徴、全体的特徴など)を考慮しながら、互いの曲間のトランジション類型を選択してよい。言い換えれば、トランジション選択部520は、ミックスポイントで相互作用する2つの曲の特性に応じて、ミキシングパターンを自動設定することができる。
段階640において、ミックス構成部530は、段階620と段階630を繰り返すことにより、曲ごとの再生区間と曲間のトランジション方法に関する情報を含むミックスリストを構成することができる。すなわち、ミックスリストは、ユーザの音源ミキシング要請に対する応答情報であり、再生される曲のリストと共に、各曲の再生される領域(再生区間)の時間指標、次の曲へのトランジション方法などを含み得る。ミックス構成部530は、ユーザの音源ミキシング要請に対してミックスリストを構成してユーザの電子機器410に伝達することができ、電子機器410は、伝達されたミックスリストに基づき、リスト内の音源を順に再生したり、定められたミキシングパターンで再生したりしてよい。
したがって、プロセッサ422は、特定の雰囲気(モード)をもつ音源ミキシング要請に対し、該当の雰囲気に対応する選曲とミキシングを行うことにより、ユーザが希望する雰囲気の音源ミックスリストを構成することができる。
図7〜図9は、本発明の一実施形態における、曲ごとに再生区間を決定する過程の例を説明するための図である。
音源ミキシングの際には、各音源の全体区間ではなく一部の区間を再生することになるが、このとき、音源内で高い重要度を有する区間を再生区間として決定する必要がある。図7を参照すると、選曲部510は、ディープラーニング基盤のセグメントモデル(Segment model)710を利用して音源700に対するセグメンティングを実行することができ、これによって音源700の構造を区分したセグメントポイント(S0〜S9)を取得することができる。一例として、選曲部510は、音源のセグメントポイント(S0〜S9)のうちのいずれか1つのセグメントポイントを基準とし、一定の長さを含むセグメント区間を再生区間として決定してよい。例えば、選曲部510は、音源のセグメントポイント(S0〜S9)のうち、次のセグメントポイントまでの距離が最も長いセグメントポイント(S2)を基準に、一定の長さ(例えば、10秒)を含む最小セグメント区間を再生区間として決定してよい。他の例として、選曲部510は、図8に示すように、ディープラーニング基盤のハイライトモデル(Hightlight model)820を利用して音源700からハイライト区間801を抽出してよく、図9に示すように、該当の音源700のセグメントポイント(S0〜S9)のうち、ハイライト区間801の前後を含むセグメント区間(S2からS6までの区間)を再生区間として決定してよい。
したがって、選曲部510は、音源それぞれに対し、次のセグメントポイントまでの距離が最も長いセグメントポイントを基準にして一定の長さを含むセグメント区間、あるいはハイライト区間を含むセグメント区間などを、音源内で意味的確率の高い重要区間として認識し、該当の区間を音源ミキシング時に再生される再生区間として決定することができる。
図10および図11は、本発明の一実施形態における、ミックスリストを構成するための選曲過程の例を説明するための図である。
選曲部510は、音源間の再生区間の特徴を比較し、類似度が高い曲をミックスリスト構成のための曲として選択することができる。一例として、図10を参照すると、選曲部510は、各音源700に対し、ディープラーニング基盤の特徴抽出モデル(Feature model)1030を利用して再生区間1003の開始部分(例えば、2秒)の特徴(front feature)と終端部分(例えば、2秒)の特徴(back feature)をそれぞれ抽出することができる。例えば、特徴抽出モデル1030では、再生区間1003の開始部分の特徴(front feature)と終端部分の特徴(back feature)を多次元実数ベクトルで表現することにより、それぞれベクトル化してよい。このとき、開始部分と終端部分の特徴は、音楽信号の特徴を現す多様な方法によって示され得る。具体的に、例えば、ジャンルのように曲を音楽的特性で区分することのできるラベル学習したモデルから出る表現ベクトル(representation vector)値、メル・エネルギー(mel−energy)の平均値、大きさ(loudness)、スペクトル中心特徴(spectral centroid feature)などが使用されてよいが、これに限定されることはなく、音楽信号の区間特徴を示すことのできる多様な値であれば、制限なく使用可能である。
図11を参照すると、選曲部510は、まず、選曲対象プールに属する全体曲のうち、基準曲と音楽的特性(BPM、キー、ビート、構造、局所的特徴、全体的特徴など)が類似する1次候補群1101を選定することができる。続いて、選曲部510は、基準曲の再生区間の終端部分の特徴(back feature)と1次候補群1101の曲の再生区間の開始部分の特徴(front feature)とを比較し、一定の範囲の類似度を有する少なくとも1つの曲を、2次候補群1102として選定することができる。例えば、選曲部510は、終端部分の特徴を示すベクトルと開始部分の特徴を示すベクトルとの距離が所定の範囲以内である曲を、2次候補群1102として選定してよい。最後に、選曲部510は、2次候補群1102内でランダムに選定した曲を、基準曲のミックスポイントで再生される次の曲として選定することができる。実施形態によっては、2次候補群1102を選定せずに、1次候補群1101内において、終端部分の特徴を示すベクトルと開始部分の特徴を示すベクトルとの距離が最も近い曲を次の曲として直ぐに選定することも可能である。
プロセッサ422は、シード曲が与えられると、事前に定められた長さ(例えば、時間や曲数)の音源ミックスリストを構成するために、その長さの分だけ、図10および図11を参照しながら説明した過程を繰り返す。図12を参照すると、プロセッサ422は、特定のモード(例えば、パーティー)の音源ミキシング要請に対してシード曲xが与えられると、選曲対象プールに含まれる曲のうち、再生区間の開始部分の特徴が曲xの再生区間の終端部分の特徴と類似する曲aを、シード曲xの次の曲として選択し、続いて、他の曲のうち、再生区間の開始部分の特徴が曲aの再生区間の終端部分の特徴と類似する次の曲bを選択する方法によって該当の過程を繰り返すことにより、デフォルトミックスリスト1200を構成することができる。このとき、発話などによる追加のユーザ入力がない場合には、以前の曲の再生区間の終端部分がミックスポイントとなり、以前の曲のミックスポイントから次の曲へのトランジションが始まる。
一方、ユーザは、電子機器410でデフォルトミックスリスト1200の曲が再生されている最中に、追加の発話などによって、ミックスの雰囲気(すなわち、モード)や再生曲、現在の再生状態などに対する変更要請をすることができる。ユーザの初期の音源ミキシング要請が、例えば、「パーティーに合う曲をミックスして」や「パーティーに合う曲をデザインして」のようにモード選択情報を含む発話から始まり、その後の変更要請は、例えば「次の曲をかけて」や「他のジャンルの曲をミックスして」や「エネルギーレベルを高めて」などのように、変更しようとする要素が含まれる発話であってよい。
プロセッサ422は、ユーザの電子機器410から変更要請を受信すると、現在の曲の再生区間内の変更要請の受信時点と隣接するセグメントポイントを基準に、変更要請に対する動作を実行することができる。図13を参照すると、ユーザからリアルタイム発話を受信すると、該当の発話時点に最も近いセグメントポイントをミックスポイントに変更し、変更されたミックスポイントを含む所定の領域(y)の音源特性と類似する特性を有する曲(a’、b’、c’、・・・)からなる、新たなミックスリスト1300を構成する。このとき、音源領域yが、新たなミックスリスト1300を構成するためのシード曲となる。ユーザが、現在再生中の曲から次の曲に変更したり、ミキシングの雰囲気や曲の再生状態を変更したりしようとするときにミックスリストを自動更新するようになるが、このとき、ユーザ入力(発話)パラメータとミックスパラメータに応じて、該当のセグメントポイントに対応する候補曲の中から曲を自動的に選び、曲間のトランジション方法を再び選択することにより、新たなミックスリスト1300を構成することができる。選曲対象プールに属する音源それぞれについて、音源のセグメントポイントごとに該当のセグメントポイントと類似する音楽的特性の候補曲を予め格納しておいてよく、ユーザの変更要請の時点から最も近いセグメントポイントに対し、予め格納しておいた候補曲の中から曲を選んでミックスリストを再び構成することができる。他の例として、プロセッサ422は、変更要請としてユーザ発話「エネルギーレベルを高めて」を受信すると、再生中の音源の各セグメントポイントのエネルギーレベルを分析し、ユーザ発話に対応するエネルギーレベルを有するセグメントポイントを基準にしてミックスリストを新たに構成してよい。エネルギーレベルとは、音源が有するスペクトル強度を示すものであり、セグメントの転換に基づいたミックスリストの構成によってユーザにエネルギーの変化を感じさせることができる。
したがって、プロセッサ422は、ユーザ入力によってミックスの雰囲気(すなわち、モード)や再生曲、現在の再生状態などを変化させようとするときに、これに対応するリアルタイム選曲とミキシングを実現することができる。
このように、本発明の実施形態によると、音源の音楽的特性を考慮しながら、ミキシング方法によって現在の曲と次の曲のより自然なミキシングを実現することができる。また、本発明の実施形態によると、ユーザが希望する雰囲気とユーザの個人的趣向を考慮しながら音源を自動選曲およびミキシングすることができ、ユーザ入力に対応するリアルタイム選曲とのミキシングにより、音源のミックス雰囲気や再生状態などを直ぐにコントロールすることができる。
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことを理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサと1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、所望のとおりに動作するように処理装置を構成してもよく、独立的または集合的に処理装置に命令してもよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読取可能な記録媒体に格納されてよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読取可能な媒体に記録されてよい。このとき、媒体は、コンピュータで実行可能なプログラムを継続して格納するものであってもよく、実行またはダウンロードのために一時的に格納するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接に接続する媒体に限定されてはならず、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD−ROM、DVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が格納されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを流通するアプリストアやその他の多様なソフトウェアを供給あるいは流通するサイト、サーバなどで管理する記録媒体あるいは格納媒体が挙げられてもよい。
以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって代替されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
422:プロセッサ
510:選曲部
520:トランジション選択部
530:ミックス構成部

Claims (19)

  1. コンピュータシステムで実行される音源ミキシング方法であって、
    曲ごとに曲の一部区間を再生区間として決定して曲間の再生区間の音源特性を比較し、以前の曲の音源特性と対応する次の曲を選定する段階、および
    前記選定する段階を繰り返すことにより、各曲の再生区間を含む音源ミックスリストを構成する段階
    を含み、
    前記選定する段階は、音源の構造を区分する時間単位であるセグメントポイントを利用して各曲のセグメント区間の一部を再生区間として決定する段階を含み、当該音源ミキシング方法は、
    ユーザの電子機器から前記音源ミックスリストに対する変更要請を受信すると、前記変更要請と対応するセグメントポイントを基準として、新たな音源ミックスリストを構成する段階
    を含む、音源ミキシング方法。
  2. 前記決定する段階は、
    各曲のハイライト区間を含むセグメント区間を再生区間として決定すること
    を特徴とする、請求項に記載の音源ミキシング方法。
  3. 前記選定する段階は、
    ユーザの電子機器から音源ミキシング要請を受信すると、音源に対する前記ユーザの趣向情報を反映してシード曲を決定する段階
    を含む、請求項1に記載の音源ミキシング方法。
  4. 前記選定する段階は、
    ユーザの電子機器から音源分類基準であるモードについての選択情報を含む音源ミキシング要請を受信すると、前記ユーザにより選択された前記モードに分類されている曲の中から、シード曲を決定する段階
    を含む、請求項1に記載の音源ミキシング方法。
  5. 当該音源ミキシング方法は、
    シード曲が与えられると、前記音源ミックスリストを定められた長さで構成するために、前記長さの分だけ前記選定する段階を繰り返すこと
    を特徴とする、請求項1に記載の音源ミキシング方法。
  6. 前記選定する段階は、
    選曲対象プールに属する曲を対象に、再生区間の開始部分に現れる音源特性と前記以前の曲の再生区間の終端部分に現れる音源特性とを比較した曲間の類似度に基づいて、前記次の曲を選定すること
    を特徴とする、請求項1に記載の音源ミキシング方法。
  7. 当該音源ミキシング方法は、
    前記以前の曲の再生区間の音源特性を考慮しながら、前記次の曲へのトランジション方法を選択する段階
    を含む、請求項1に記載の音源ミキシング方法。
  8. 前記選択する段階は、
    前記以前の曲の再生区間の終端部分と前記次の曲の再生区間の開始部分に現れる音源特性を考慮しながら、前記トランジション方法を選択すること
    を特徴とする、請求項に記載の音源ミキシング方法。
  9. 選曲対象プールに属する音源それぞれについて、音源のセグメントポイントごとに候補曲が事前に格納され、
    前記新たな音源ミックスリストを構成する段階は、
    前記変更要請の受信時点と隣接するセグメントポイントの候補曲の中から曲を選定して新たな音源ミックスリストを構成すること
    を特徴とする、請求項に記載の音源ミキシング方法。
  10. 請求項1乃至のうちのいずれか一項に記載の音源ミキシング方法をコンピュータに実行させる、コンピュータプログラム。
  11. 請求項1乃至のうちのいずれか一項に記載の音源ミキシング方法をコンピュータに実行させるためのプログラムが記録されていることを特徴とする、コンピュータ読取可能な記録媒体。
  12. コンピュータシステムであって、
    少なくとも1つのプロセッサ、および
    前記少なくとも1つのプロセッサと連結して前記少なくとも1つのプロセッサによって実行可能な命令を含むメモリ
    を含み、
    前記少なくとも1つのプロセッサは、
    曲ごとに曲の一部区間を再生区間として決定して曲間の再生区間の音源特性を比較し、以前の曲の音源特性と対応する次の曲を選定する選曲部であって、音源の構造を区分する時間単位であるセグメントポイントを利用して各曲のセグメント区間の一部を再生区間として決定する選曲部、および
    前記選曲部で曲を選定する過程が繰り返されることにより、各曲の再生区間を含む音源ミックスリストを構成するミックス構成部であって、ユーザの電子機器から前記音源ミックスリストに対する変更要請を受信すると、前記変更要請と対応するセグメントポイントを基準として、新たな音源ミックスリストを構成するミックス構成部、
    を備える、コンピュータシステム。
  13. 前記選曲部は、
    各曲のハイライト区間を含むセグメント区間を再生区間として決定すること
    を特徴とする、請求項12に記載のコンピュータシステム。
  14. 前記選曲部は、
    ユーザの電子機器から音源ミキシング要請を受信すると、音源に対する前記ユーザの趣向情報を反映してシード曲を決定すること
    を特徴とする、請求項12に記載のコンピュータシステム。
  15. 前記選曲部は、
    ユーザの電子機器から音源分類基準であるモードについての選択情報を含む音源ミキシング要請を受信すると、前記ユーザにより選択された前記モードに分類されている曲の中から、シード曲を決定すること
    を特徴とする、請求項12に記載のコンピュータシステム。
  16. シード曲が与えられると、前記音源ミックスリストを定められた長さで構成するために、前記長さの分だけ、前記選曲部で曲を選定する過程が繰り返されること
    を特徴とする、請求項12に記載のコンピュータシステム。
  17. 前記選曲部は、
    選曲対象プールに属する曲を対象に、再生区間の開始部分に現れる音源特性と前記以前の曲の再生区間の終端部分に現れる音源特性とを比較した曲間の類似度に基づいて、前記次の曲を選定すること
    を特徴とする、請求項12に記載のコンピュータシステム。
  18. 前記少なくとも1つのプロセッサは、
    前記以前の曲の再生区間の音源特性を考慮しながら、前記次の曲へのトランジション方法を選択するトランジション選択部
    を備える、請求項12に記載のコンピュータシステム。
  19. 前記トランジション選択部は、
    前記以前の曲の再生区間の終端部分と前記次の曲の再生区間の開始部分に現れる音源特性を考慮しながら、前記トランジション方法を選択すること
    を特徴とする、請求項18に記載のコンピュータシステム。
JP2018218204A 2017-11-27 2018-11-21 雰囲気コントロールが可能な音源ミキシング方法およびシステム Active JP6713032B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170159159A KR102033720B1 (ko) 2017-11-27 2017-11-27 분위기 컨트롤이 가능한 음원 믹싱 방법 및 시스템
KR10-2017-0159159 2017-11-27

Publications (2)

Publication Number Publication Date
JP2019095791A JP2019095791A (ja) 2019-06-20
JP6713032B2 true JP6713032B2 (ja) 2020-06-24

Family

ID=66845295

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018218204A Active JP6713032B2 (ja) 2017-11-27 2018-11-21 雰囲気コントロールが可能な音源ミキシング方法およびシステム

Country Status (2)

Country Link
JP (1) JP6713032B2 (ja)
KR (1) KR102033720B1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4302967B2 (ja) * 2002-11-18 2009-07-29 パイオニア株式会社 楽曲検索方法、楽曲検索装置及び楽曲検索プログラム
KR101369458B1 (ko) * 2012-02-07 2014-03-06 주식회사 네오위즈인터넷 음원 파일을 편집하는 장치 및 방법
KR102058025B1 (ko) * 2013-03-13 2020-01-22 삼성전자주식회사 음원의 하이라이트 구간을 추출하는 전자 장치 및 그 동작 방법

Also Published As

Publication number Publication date
KR102033720B1 (ko) 2019-10-17
KR20190061127A (ko) 2019-06-05
JP2019095791A (ja) 2019-06-20

Similar Documents

Publication Publication Date Title
JP6731894B2 (ja) デバイス制御方法及び電子機器
KR101949497B1 (ko) 사용자 발화의 표현법을 파악하여 기기의 동작이나 컨텐츠 제공 범위를 조정하여 제공하는 사용자 명령 처리 방법 및 시스템
CN110555126B (zh) 旋律的自动生成
JP6728319B2 (ja) 人工知能機器で複数のウェイクワードを利用したサービス提供方法およびそのシステム
JP6607999B2 (ja) 音声要請に対応する情報提供のためのメディア選択
JP2020030403A (ja) ディープラーニング生成モデルとマルチモーダル分布を利用してマルチターン会話応答を生成する方法およびシステム
CN108806656A (zh) 歌曲的自动生成
US11341966B2 (en) Output for improving information delivery corresponding to voice request
KR20070116853A (ko) 플레이리스트를 작성하기 위한 스캔 셔플
KR20220036956A (ko) 생성적 및 검색-기반 애플리케이션들을 위한 효과적인 음악적 특징들을 학습하는 방법
US20240004606A1 (en) Audio playback method and apparatus, computer readable storage medium, and electronic device
CN110265067A (zh) 录制热门片段方法、装置、电子设备及可读介质
CN105766001A (zh) 用于使用任意触发的音频处理的系统和方法
KR20200067382A (ko) 사운드를 출력하기 위한 전자 장치 및 그의 동작 방법
JP6681940B2 (ja) ユーザの位置及び空間に適した情報を能動的に提供する方法及び装置
CN111970521A (zh) 虚拟主播的直播方法、装置、计算机设备和存储介质
US8681157B2 (en) Information processing apparatus, program, and information processing method
CN104822095A (zh) 复合节拍特效系统及复合节拍特效处理方法
JP6713032B2 (ja) 雰囲気コントロールが可能な音源ミキシング方法およびシステム
US11410706B2 (en) Content pushing method for display device, pushing device and display device
CN104822094A (zh) 复合节拍特效系统及复合节拍特效处理方法
CN110120211A (zh) 基于旋律结构的旋律生成方法及装置
US12010387B1 (en) Content-based voice targeting of devices using slot and task data
KR102152334B1 (ko) 음원 필터링을 위한 방법 및 시스템
KR20240096049A (ko) 화자 분할 방법 및 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200327

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200512

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200602

R150 Certificate of patent or registration of utility model

Ref document number: 6713032

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250