JP6798253B2 - 信号処理方法、および信号処理装置 - Google Patents

信号処理方法、および信号処理装置 Download PDF

Info

Publication number
JP6798253B2
JP6798253B2 JP2016214889A JP2016214889A JP6798253B2 JP 6798253 B2 JP6798253 B2 JP 6798253B2 JP 2016214889 A JP2016214889 A JP 2016214889A JP 2016214889 A JP2016214889 A JP 2016214889A JP 6798253 B2 JP6798253 B2 JP 6798253B2
Authority
JP
Japan
Prior art keywords
pitch
singing voice
section
singing
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016214889A
Other languages
English (en)
Other versions
JP2018072698A (ja
Inventor
嘉山 啓
啓 嘉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2016214889A priority Critical patent/JP6798253B2/ja
Priority to US15/800,462 priority patent/US10134374B2/en
Publication of JP2018072698A publication Critical patent/JP2018072698A/ja
Application granted granted Critical
Publication of JP6798253B2 publication Critical patent/JP6798253B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

本発明は、歌唱音声についての信号処理技術に関する。
近年、プロ歌手ではない者が自らの歌唱する様子を動画に収録して動画投稿サイト等にアップロードすることが一般に行われている。このような動画は「歌ってみた動画」と呼ばれ、動画投稿サイトにおける人気ジャンルの1つとなっている。
特開2007−240564号公報 特開2013−137520号公報
歌ってみた動画の投稿者はカラオケ曲の歌唱と同じような感覚で動画投稿を行っている場合が多い。しかし、動画投稿サイトへ投稿された動画は、カラオケ曲の歌唱とは異なり、不特定多数のユーザが閲覧し得るものである。このため、歌唱技術が十分ではなく、聴くに堪えない歌唱となっている場合には動画を視聴したユーザに不快感を抱かせ、遠慮のない手厳しいコメントが殺到し「炎上」と呼ばれる状態になることがある。このような状態になると以後の動画投稿が困難になるため、歌ってみた動画の投稿者の中には上手く歌っているという印象を聴き手に与える歌唱音声に修正して投稿することを望む者がいる。しかし、従来、このようなニーズに応える技術は無かった。
例えば、歌唱音声についての信号処理技術としては、特許文献1や特許文献2に開示の技術が挙げられる。特許文献1に開示の技術は音符の切り換わり部において、ピッチが連続的に変化するように予め定められたピッチモデルにしたがって、ピッチに動きを付与する技術である。一方、特許文献2に開示の技術は、音高変化を規定する制御情報を音符毎に設け、発音開始時点から目標音高に到達するまでの音高変化を当該制御情報にしたがって制御する技術である。しかし、特許文献1および特許文献2の各文献に開示の技術は何れも歌唱合成スコア等にしたがって自然な歌唱音声を一義的に合成するための技術であって、歌い手毎に個性の異なる人の歌唱音声の巧拙の印象を制御する技術ではない。仮に特許文献1や特許文献2に開示の技術により歌唱音声の修正を行おうとすると、予め定められたピッチモデル(制御情報)の示すピッチの動き(音高変化)となるように修正される結果、どのような歌唱音声であっても全て同じピッチの動き(音高変化)となり、歌い手の個性が完全に消し去られてしまう、といった問題がある。
本発明は以上に説明した課題に鑑みて為されたものであり、歌い手の個性を残しつつ、歌唱音声の巧拙についての印象を変えることを可能にする技術を提供することを目的とする。
上記課題を解決するために本発明は、以下の特定ステップおよび修正ステップを有する信号処理方法を提供する。特定ステップは、曲の歌唱音声を表す歌唱音声データにおける音高の変化態様または当該曲の楽譜における音高の変化態様から、当該歌唱音声についての修正対象区間を特定するステップである。修正ステップは、特定ステップにて特定された修正対象区間における歌唱音声の音高の変化態様と音量の変化態様の少なくとも一方を修正前の歌唱音声データに基づいて修正する処理を上記歌唱音声データに施すステップである。
修正対象区間の特定の仕方については種々の態様が考えられる。例えば、特定ステップでは、上記歌唱曲の歌いだしの区間(所定時間以上継続する無音状態から有音状態へと遷移する区間)と上記歌唱曲にて複数の音が連続しかつ音高が跳躍する区間(すなわち、先行する音符の音高に対して後続する音符の音高が所定値以上高くなっている区間)の少なくとも一方を、歌唱曲の楽譜または歌唱音声を解析して特定し、当該特定した区間を修正対象区間とする態様が考えられる。
歌唱が下手に聴こえる原因の1つとして、歌唱曲の歌いだしの区間や複数の音が連続しかつ音高が跳躍する区間における音高変化や音量変化が緩やかになっていることが挙げられる。歌唱曲の歌いだしの区間や複数の音が連続しかつ音高が跳躍する区間における音高変化や音量変化が緩やかであると、メリハリを欠く間延びした歌唱と感じられるからである。歌唱曲の歌いだしの区間や上記音高が跳躍する区間における音高変化や音量変化がより急峻になるように、修正前の歌唱音声データに基づいて当該歌唱音声データを修正することで、メリハリの利いた上手な歌唱であるという印象を聴き手に与えることができる。なお、歌唱曲の歌いだしの区間等における音高変化や音量変化が十分に急峻である場合には、より緩やかになるように、修正前の歌唱音声データに基づいて当該歌唱音声データを修正することで、その修正前よりも下手な歌唱音声(換言すれば、素人っぽさを強めた歌唱音声)に修正することができる。
本発明では、特定ステップにて特定された修正対象区間についてのみ、その修正対象区間における音高変化と音量変化の少なくとも一方が、修正前の歌唱音声データに基づいて修正されるので、修正対象区間以外については歌い手の個性が残る。また、修正対象区間においても修正前の歌唱音声データに基づいて、すなわち元々の音高等の変化態様に基づいて修正が行われるので、歌い手の個性が完全に消え去る訳ではない。このように、本発明によれば、歌い手の個性を残しつつ、歌唱音声の巧拙についての印象を変えることが可能になる。
修正対象区間の特定態様は上記態様に限定される訳ではない。例えば、特定ステップでは、歌いだしの区間と音高が跳躍する区間の各々における歌唱音声の音高変化の度合いに基づいて修正対象区間を特定しても良い。具体的には、歌いだしの区間または音高が跳躍する区間であって、音高変化が緩やかな区間を修正対象区間とする、といった具合である。このような態様によれば、歌唱音声をその音高の変化態様に即してよりきめ細やかに修正することが可能になる。
また、上記課題を解決するために本発明は、以下の特定手段と修正手段とを有する信号処理装置、を提供する。特定手段は、歌唱曲の歌唱音声における音高の変化態様または当該歌唱曲における音高の変化態様から、当該歌唱音声について修正対象区間を特定する。そして、修正手段は、特定手段により特定された修正対象区間における歌唱音声の音高の変化態様と音量の変化態様の少なくとも一方を、修正前の歌唱音声データに基づいて修正する。このような信号処理装置によっても、歌い手の個性を残しつつ、歌唱音声の印象を変えることが可能になる。
また、本発明の別の態様としては、CPU(Central Processing Unit)などの一般的なコンピュータに上記信号処理方法を実行させるプログラム(換言すれば、コンピュータを上記特定手段および上記修正手段として機能させるプログラム)を提供する態様が考えられる。このような態様によれば一般的なコンピュータを本発明の信号処理装置として機能させることが可能になり、このような態様によっても、歌い手の個性を残しつつ、歌唱音声の印象を変えることが可能になる。なお、上記プログラムの具体的な提供(配布)態様としては、CD−ROM(Compact Disk-Read Only Memory)やフラッシュROMなどのコンピュータ読み取り可能な記録媒体に上記プログラムを書き込んで配布する態様や、インターネットなどの電気通信回線経由のダウンロードにより配布する態様が挙げられる。
本発明の第1実施形態による信号処理装置10Aの構成例を示す図である。 同信号処理装置10Aの制御部100が歌唱音声修正プログラム1340Aにしたがって実行する歌唱音声修正処理の流れを示すフローチャートである。 音高のオーバシュートを説明するための図である。 補正量データの一例を示す図である。 本実施形態の効果を説明するための図である。 本発明の第2実施形態による信号処理装置10Bの構成例を示す図である。 同信号処理装置10Bの制御部100が歌唱音声修正プログラム1340Bにしたがって実行する歌唱音声修正処理の流れを示すフローチャートである。 本実施形態の効果を説明するための図である。
以下、図面を参照しつつ本発明の実施形態を説明する。
(A:第1実施形態)
図1は、本発明の第1実施形態による信号処理装置10Aの構成例を示す図である。信号処理装置10Aは、例えばパーソナルコンピュータであり、図1に示すように、制御部100、外部機器インタフェース(以下、「I/F」と略記)部110、通信I/F部120、記憶部130、およびこれら各構成要素間のデータ授受を仲介するバス140を有する。
信号処理装置10Aは、動画投稿サイトへの歌ってみた動画の投稿の際にその投稿者によって使用される。歌ってみた動画とは、その動画の投稿者等が自らの歌唱する様子を収録して得られた動画である。また、動画投稿サイトへの動画の投稿とは、動画投稿サイトのサーバ装置へ動画データをアップロードすることを言う。歌ってみた動画の動画データには、歌唱対象となった歌唱曲全体の歌唱音声(例えば、1曲分の歌唱音声)を表す歌唱音声データが含まれている。なお、このような歌唱音声データの具体例としては、歌唱音声の音波形を所定のサンプリング周期でサンプリングして得られるサンプル列が挙げられる。
信号処理装置10Aは、歌唱音声データを処理対象として本実施形態の特徴を顕著に示す信号処理である歌唱音声修正処理を実行する装置である。歌唱音声修正処理とは、歌唱音声データの表す歌唱音声の歌い手の個性を残しつつ、上手な歌唱であるとの印象が聴き手に与えられるように当該歌唱音声データを修正する処理である。歌ってみた動画の投稿者は、動画データのアップロードに先立ってその動画データに含まれている歌唱音声データに対して上記歌唱音声修正処理を施すことで、上手な歌唱であるという印象を聴き手に与える歌唱音声に修正して投稿することができる。以下、信号処理装置10Aを構成する各部の役割について説明する。
制御部100は、例えばCPUである。制御部100は、記憶部130(正確には、不揮発性記憶部134)に予め記憶されているプログラムにしたがって作動することにより信号処理装置10Aの制御中枢として機能する。不揮発性記憶部134に予め記憶されている各種プログラムにしたがって制御部100が実行する処理の詳細については後に明らかにする。
外部機器I/F部110は、USB(Universal Serial
Bus)インタフェースやシリアルインタフェース、パラレルインタフェースなどの他の電子機器を接続するためのインタフェースの集合体である。外部機器I/F部110は、自身に接続された他の電子機器から受け取ったデータを制御部100へ引き渡す一方、制御部100から与えられたデータを当該他の電子機器へ出力する。本実施形態では、歌ってみた動画における歌唱音声を表す歌唱音声データを格納した記録媒体(例えばUSBメモリ)が外部機器I/F部110に接続され、制御部100は当該記録媒体に格納されている歌唱音声データを処理対象として読み出し、歌唱音声修正処理を実行する。
通信I/F部120は例えばNIC(Network Interface Card)である。通信I/F部120は、例えばLAN(Local Area Network)ケーブルなどの通信線およびルータ等の中継装置を介して、インターネットなどの電気通信回線に接続されている。通信I/F部120は、自身の接続先の電気通信回線から送信されてくるデータを受信して制御部100へ引き渡す一方、制御部100から引き渡されたデータを当該電気通信回線へと送出する。例えば、制御部100は、ユーザの指示に応じて、歌唱音声修正処理を経た歌唱音声データを含む動画データを通信I/F部120を介して動画投稿サイトのサーバ装置へ送信する。これにより歌ってみた動画の投稿が実現される。
記憶部130は、図1に示すように、揮発性記憶部132と不揮発性記憶部134とを有する。揮発性記憶部132は、例えばRAM(Random Access Memory)である。揮発性記憶部132は、プログラムを実行する際のワークエリアとして制御部100により利用される。不揮発性記憶部134は、例えばフラッシュROM(Read Only Memory)やハードディスクである。不揮発性記憶部134には、歌唱音声修正処理を制御部100に実行させるための歌唱音声修正プログラム1340Aが予め格納されている。また、図1では詳細な図示を省略したが、不揮発性記憶部134には、カーネルプログラムと通信制御プログラムが予め格納されている。カーネルプログラムは、OS(Operating System)を制御部100に実現させるためのプログラムである。通信制御プログラムは、例えばFTP(File Transfer
Protocol)などの所定の通信プロトコルにしたがって、動画データを動画投稿サイトのサーバ装置へアップロードする処理を制御部100に実行させるためのプログラムである。
信号処理装置10Aの電源(図1では図示略)が投入されると、制御部100は、まず、カーネルプログラムを不揮発性記憶部134から揮発性記憶部132へ読み出し、当該カーネルプログラムの実行を開始する。カーネルプログラムにしたがって作動し、OSを実現している状態の制御部100は、外部機器I/F部110に接続された操作入力装置(例えば、マウスやキーボード、図1では図示略)に対する操作により実行を指示されたプログラムを、不揮発性記憶部134から揮発性記憶部132へ読み出し、当該プログラムの実行を開始する。
操作入力装置に対する操作により歌唱音声修正プログラム1340Aの実行を指示された場合には、制御部100は歌唱音声修正プログラム1340Aを不揮発性記憶部134から揮発性記憶部132へ読み出して当該プログラムの実行を開始する。歌唱音声修正プログラム1340Aにしたがって作動している制御部100は、歌唱音声修正処理を実行する。図2は、歌唱音声修正処理の流れを示すフローチャートである。図2に示すように、歌唱音声修正処理は、特定ステップSA100と、修正ステップSA110の2つのステップを含む。
特定ステップSA100は、歌唱音声修正処理の処理対象の歌唱音声データの表す歌唱音声における音高の変化態様から、上手な歌唱であるとの印象を聴き手に与えるための修正を施す区間である修正対象区間を特定するステップである。本実施形態では、制御部100は、上記歌唱音声における「歌いだしの区間」および「複数の音が連続しかつ音高が跳躍する区間」のうち、音高変化が緩やかになっている区間を修正対象区間として特定する。
「歌いだしの区間」とは、所定時間以上継続する無音状態から有音状態へと遷移する区間のことを言う。具体的には、フレーズ毎の出だしの部分、例えば歌唱曲の冒頭部分や、歌唱曲の1番と2番とが間奏を挟んで歌唱された場合における2番の冒頭部分が「歌いだしの区間」となる。また、音高変化が緩やかであるとは、音高の時間変化が小さい状態をいう。音高の時間変化が小さい状態の一例としては、音高のオーバシュートが発生していない状態が挙げられる。音高のオーバシュートとは、図3に示すように、本来の音高と思われる一定値に収束する前に、より高い音高に相当する極大値を示すように時間変化することを言う。図3には、時刻taから時刻tbに亘って音高がP1からP2へ跳躍する場合の音高のオーバシュートの様子を示すピッチカーブPCが図示されている。本実施形態では、「音高の時間変化が小さい状態」の一例として、音高の時間変化にオーバシュートが発生していない状態を挙げたが、オーバシュートは発生しているものの、上記一定値(図3におけるP2)と上記極大値(図3におけるP3)との差が所定の閾値よりも小さく、オーバシュートが不十分である場合を含めても良い。
「歌いだしの区間」および「複数の音が連続しかつ音高が跳躍する区間」のうち、音高変化が緩やかになっている区間を修正対象区間とするは、「歌いだしの区間」や「複数の音が連続しかつ音高が跳躍する区間」における音高変化が緩やかであると、メリハリを欠いた聴感(音高のアクセント感を欠いた聴感)となり、間延びした下手な歌唱であるとの印象を聴き手に与えるからである。なお、「歌いだしの区間」または「複数の音が連続しかつ音高が跳躍する区間」であること(第1の条件)、および「音高変化が緩やか」であること(第2の条件)の2つが「修正対象」の条件であるから、何れか一方のみしか満たしていない場合は修正対象区間とならないことは言うまでもない。
特定ステップSA100では、制御部100は、処理対象の歌唱音声データを所定時間長のフレームに区切って時間周波数変換を施し、周波数領域のデータに変換する。次いで、制御部100は、フレーム毎に周波数領域のデータからピッチ(基本周波数)を抽出し、歌唱曲全体に亘るピッチの時間変化を表すピッチカーブを生成する。なお、ピッチ抽出については既存のピッチ抽出アルゴリズムを適宜用いるようにすれば良い。そして、制御部100は、上記の要領で生成したピッチカーブを参照して、「歌いだしの区間」および「複数の音が連続しかつ音高が跳躍する区間」を時間軸上で特定する。次いで、制御部100は、このようにして特定した各区間における音高のオーバシュートの発生状況を上記ピッチカーブを参照して判定し、オーバシュートが発生していない区間を修正対象区間として特定する。具体的には、制御部100は、処理対象の歌唱音声データの先頭を時刻の起算点とした場合における修正対象区間の開始時刻および終了時刻を示すデータを修正対象区間毎に揮発性記憶部132へ書き込む。
修正ステップSA110は、特定ステップSA100にて特定された修正対象区間(特定ステップSA100にて揮発性記憶部132に格納された時刻データにより区画される時間区間)における音高の変化態様を、当該修正対象区間における修正前の歌唱音声データの表す音高に基づいて、音高変化がより急峻になるように修正するステップである。本実施形態の歌唱音声修正プログラムには、所定時間長の時間区間の各時刻における音高の補正量(音高を引き上げるために修正前の歌唱音声データの表す音高に加算する値:当該値が0であれば、音高の引き上げを行わないことを意味する)を示す補正量データが予め埋め込まれている。図4には、修正前の歌唱音声データの表す音高に値αを加算した極大値までの立上り時間がTuであり、当該極大値から本来の音高までの立下り時間がTdである場合の補正量データが示されている。なお、上記極大値を規定する値、上記立上り時間Tuおよび立下がり時間Tdについては適宜実験等を行って好適な値を設定すれば良い。制御部100は、修正対象区間の時間長に応じて上記補正量データの時間区間を伸縮して対応させ、各時刻における音高が補正量データの示す補正量による補正後の音高となるように、ピッチ変換等を修正対象区間のサンプルデータ列に施すことで、修正対象区間における音高の変化態様を修正する。
図5は、本実施形態の効果を説明するための図である。図5では、信号処理装置10Aによる修正前のピッチカーブが点線で描画されており、同修正後のピッチカーブが実線で描画されている。また、図5では、歌唱された曲の楽譜を構成する音符が矩形で描画されており、図5における時刻t1からt2の区間は「歌いだしの区間」、時刻t3からt4の区間は「複数の音符が連続しかつ音高が跳躍する区間」である。図5における点線のピッチカーブを参照すれば明らかなように、修正前の歌唱音声では「歌いだしの区間」と「複数の音符が連続しかつ音高が跳躍する区間」の何れにおいても音高のオーバシュートは発生しておらず、これら2つの区間の両方が修正対象となる。本実施形態の信号処理装置10Aによれば、これら2つの区間の両方について補正量データに応じた音高の補正が施され、図5にて実線で示すピッチカーブに修正され、メリハリの利いた歌唱音声に修正される。なお、図5では修正対象区間以外については音高の修正が行われないため、実線のピッチカーブと点線のピッチカーブが重なっている。
本実施形態の信号処理装置10Aによれば動画投稿サイトへ投稿する歌ってみた動画の歌唱音声データを、より上手な印象を聴き手に与えるものに修正して動画投稿を行うことが可能になる。加えて、本実施形態では、「歌いだしの区間」および「複数の音符が連続しかつ音高が跳躍する区間」のうち音高変化が緩やかになっている区間にのみ修正が施され、修正が施されない区間には歌い手の個性が残っている。また、修正が施された区間についても、歌い手の個性が完全に消え去る訳ではない。修正後の音高の変化態様は修正前の変化態様に基づくものだからである。このように、本実施形態によれば、歌い手の個性を残しつつ、歌唱音声の印象を変えることが可能になる。
本実施形態では、音高の時間変化が小さい状態の一例として、オーバシュートが発生していない状態やオーバシュートが不十分である状態を挙げたが、音高の変化の直前にプレパレーションが発生していない状態、或いはプレパレーションが不十分である状態を含めても良い。プレパレーションとは、音高変化の直前に発生する逆方向の瞬時的な音高変化のことを言う。例えば「音高変化が緩やか」であることを「プレパレーションが発生していない状態」と定義した場合には、修正ステップSA110ではプレパレーションを付与する信号処理を施せば良い。
(B:第2実施形態)
次いで本発明の第2実施形態について説明する。
図6は、本発明の第2実施形態の信号処理装置10Bの構成例を示す図である。図6では、図1におけるもの同一の構成要素には同一の符号が付されている。図1と図6とを対比すれば明らかなように、信号処理装置10Bのハードウェア構成は信号処理装置10Aのハードウェア構成と同一であるが、歌唱音声修正プログラム1340Aに代えて歌唱音声修正プログラム1340Bが不揮発性記憶部134に格納されている点が異なる。
歌唱音声修正プログラム1340Bは、歌い手の個性を残しつつ、上手な歌唱であるとの印象を聴き手に与える歌唱音声データに修正する歌唱音声修正処理を制御部100に実現させるプログラムという点では、歌唱音声修正プログラム1340Aと同一である。しかし、本実施形態の歌唱音声修正プログラム1340Bは以下の2つの点で第1実施形態の歌唱音声修正プログラム1340Aと異なる。
第1に、第1実施形態における歌唱音声修正処理では、歌唱音声における音高の変化態様を修正したが、本実施形態では音量の変化態様を修正する点である。「歌いだしの区間」や「複数の音が連続しかつ音高が跳躍する区間」における音量変化が緩やか(音量の時間変化が小さい状態:本実施形態では、音量変化にオーバシュートが発生していない状態)であると、メリハリを欠いた聴感(音量のアクセント感を欠いた聴感)となり、間延びした下手な歌唱であるとの印象を聴き手に与えるからである。そして、第2に、第1実施形態における歌唱音声修正処理は歌唱後に実行される非リアルタイム処理であったが、本実施形態における歌唱音声修正処理は、歌唱およびその歌唱音声の放音と並列に実行されるリアルタイム処理であるという点である。
本実施形態の歌唱音声修正処理はリアルタイム処理であるため、信号処理装置10Bの外部機器I/F部110には、図6に示すように、歌唱音声データをリアルタイム入力するためのマイクロホン20と、当該歌唱音声データの表す歌唱音声(すなわち、未修正の歌唱音声)を歌唱者へフィードバックするためのヘッドホンスピーカ30とが接続される。本実施形態では、未修正の歌唱音声を歌唱者にフィードバックするが、修正済みの歌唱音声を歌唱者にフィードバックしても勿論良い。
図7は、本実施形態における歌唱音声修正処理の流れを示すフローチャートである。図7と図2とを対比すれば明らかなように、本実施形態の歌詞音声修正処理は、特定ステップSA100に代えて特定ステップSB100を有する点と、修正ステップSA110に代えて修正ステップSB110を有する点が第1実施形態の歌唱音声修正処理と異なる。
特定ステップSB100は、修正対象区間を特定するステップという点では特定ステップSA100と同一である。しかし、本実施形態と第1実施形態とでは、修正対象区間の定義が異なり、したがって修正対象区間の特定の仕方が異なる。より詳細に説明すると、本実施形態における修正対象区間は、歌唱音声における「歌いだしの区間」および「複数の音が連続しかつ音高が跳躍する区間」である。これらの区間において音量のオーバシュートが発生しているか否かを問わないのは、オーバシュートの有無を見極めようとすると、リアルタイム処理に支障を来すからである。
本実施形態の歌唱音声修正処理はリアルタイム処理であるため、第1実施形態のようにピッチカーブを生成して「歌いだしの区間」および「複数の音が連続しかつ音高が跳躍する区間」を特定することはできない。そこで、本実施形態では、歌唱開始に先立って、修正対象の歌唱音声の楽譜を表す楽譜データを外部機器I/F110を介して信号処理装置10Bに入力しておき、制御部100は、この楽譜データの表す音符配列から「歌いだしの区間」および「複数の音が連続しかつ音高が跳躍する区間」の開始時刻および終了時刻(歌唱開始時点を時刻の起算点とした相対時刻)を予め特定しておく。なお、歌唱開始時点については外部機器I/F部110に接続された操作入力装置に対する操作によりユーザに指示させるようにすれば良い。
修正ステップSB110は、特定ステップSB100にて特定された修正対象区間における音量の変化態様を、当該変化態様に応じて修正するステップである。より詳細に説明すると、制御部100は、歌唱開始時点から計時を開始しつつ外部機器I/F部110からの入力データ(歌唱音声のサンプル列)を監視し、特定ステップSB100にて特定された修正対象区間の歌唱音声データの入力が開始されると、当該区間が終了するまで、
音量にオーバシュートが発生するように補正量データに応じて歌唱音声データの振幅を増幅する際のゲインを修正する。修正ステップSB110にて修正された歌唱音声データは、例えば通信I/F部120を介して所定の宛先へ送信され、その送信先において音として再生される。
図8は、本実施形態の効果を説明するための図である。図8では、信号処理装置10Bによる修正前の音量カーブが点線で描画されており、同修正後の音量カーブが実線で描画されている。また、図8においても、歌唱された曲の楽譜を構成する音符が矩形で描画されており、図8における時刻t1からt2の区間は「歌いだしの区間」、時刻t3からt4の区間は「複数の音符が連続しかつ音高が跳躍する区間」である。これら2つの区間が修正対象となる。本実施形態の信号処理装置10Bによれば、これら2つの区間の両方について補正量データに応じた音量の補正が施され、図8にて実線で示す音量カーブに修正され、メリハリの利いた歌唱音声に修正される。なお、図8においても、修正対象区間以外については音量の修正が行われないため、実線の音量カーブと点線の音量カーブが重なっている。
本実施形態の信号処理装置10Bによっても動画投稿サイトへ投稿する歌ってみた動画の歌唱音声データを、より上手な印象を聴き手に与えるものに修正して動画投稿を行うことが可能になる。また、本実施形態においても「歌いだしの区間」および「複数の音符が連続しかつ音高が跳躍する区間」にのみ修正が施され、修正が施されない区間には歌い手の個性が残っている。また、修正対象区間についても、修正前の歌唱音声データの表す音量に基づいて、音量の変化態様に修正が加えられるため、歌い手の個性が完全に消え去ることはない。このように、本実施形態によっても、歌い手の個性を残しつつ、歌唱音声の印象を変えることが可能になる。
(C:その他の実施形態)
以上、本発明の第1および第2実施形態について説明したが、これらの実施形態に以下の変形を加えても勿論良い。
(1)上記第1および第2実施形態では、「歌いだしの区間」と「複数の音が連続しかつ音高が跳躍する区間」の両方を修正対象区間(或いは修正対象区間の候補)としたが、何れか一方のみを修正対象区間(或いは修正対象区間の候補)としても良い。また、上記第1実施形態における歌唱音声修正処理の修正ステップSA110を第2実形態の修正ステップSB110に置き換えても良く、逆に第2実施形態における歌唱音声修正処理の修正ステップSB110を修正ステップSA110に置き換えても良い。前者の態様は、歌唱音声の音量変化を非リアルタイム処理で修正する態様であり、後者の態様は、歌唱音声の音高の変化態様をリアルタイム処理で修正する態様である。また、リアルタイム処理か非リアルタイム処理かを問わずに音高変化態様の修正と音量変化態様の修正の両方を行うようにしても良い。
上記第2実施形態のように歌唱音声の音量変化をリアルタイム処理で修正する態様においては、未修正の歌唱音声と修正後の歌唱音声の何れを歌唱者へフィードバックしても良かったが、音高の変化態様をリアルタイム修正する態様においては、未修正の歌唱音声を歌唱者にフィードバックすることが好ましい。修正後の歌唱音声をフィードバックすると、歌唱者は、自身が把握している音高変化とは異なる音高変化の歌唱音声を聴くこととなり、「もっと音高変化を抑えなきゃだめだ」などの印象を抱き、歌唱に支障が生じる虞があるからである。
また、上記第1実施形態は、修正対象の歌唱音声を解析して修正対象区間を特定したが、非リアルタイム処理で歌唱音声を修正する態様であっても、楽譜データを参照して修正対象区間を特定しても良い。逆に、リアルタイム処理であっても、歌唱音声の入力からその再生までの間に若干のタイムラグが許容される場合には、修正対象の歌唱音声データを解析することで修正対象区間を特定しても良く、この場合は楽譜データは不要である。
(2)上記各実施形態では、特定ステップにて特定された修正対象区間については音高の変化態様(或いは音量の変化態様)を修正前の歌唱音声データに基づいて常に修正する場合について説明した。しかし、特定ステップにて特定された修正対象区間のうちから音高等の変化態様を修正する修正対象区間(或いは音高等の変化態様を修正しない修正対象区間)を操作入力手段に対する操作等によってユーザに選択させても良く、また、修正対象区間毎に音高の変化態様と音量変化態様のどちら(或いは両方)を修正するのかをユーザに指定させても良い。
(3)上記各実施形態では、歌い手の個性を残しつつ、上手な歌唱であるとの印象を聴き手に与えるように歌唱音声データを修正する場合について説明したが、下手な歌唱であるとの印象を与えるように歌唱音声データを修正しても良い。例えば、修正対象区間における音高変化(或いは音量変化)が緩やかになるように、すなわち、音量(或いは音高)の変化に現れているオーバシュートを小さくする(或いはオーバシュートがなくなる)ように歌唱音声データを修正すれば良い。敢えて下手な歌唱音声に修正することで素人っぽさを強調するなど、演出の幅が広がるからである。
(4)上記各実施形態では、歌ってみた動画の投稿者の使用するパーソナルコンピュータを本発明の信号処理装置として機能させたが、動画投稿サイトにおけるサーバ装置に歌唱音声修正プログラムをインストールしておき、当該サーバ装置を本発明の信号処理装置として機能させても良い。また、上記各実施形態では、本発明の特徴を顕著に示す歌唱音声修正処理を制御部100に実行させる歌唱音声修正プログラムが不揮発性記憶部134に予めインストールされていたが、歌唱音声修正プログラムを単体で提供しても良い。また、特定ステップにおける処理を実行する特定手段と修正ステップにおける処理を実行する修正手段の各々を電子回路等のハードウェアで実現し、これらハードウェアを組み合わせて本発明の信号処理装置を構成しても良い。
(5)上記各実施形態では、動画投稿サイトへ投稿する歌ってみた動画の動画データに含まれる歌唱音声データの修正への本発明の適用例を説明した。しかし、本発明による修正対象は動画データに含まれる歌唱音声データに限定されるものではない。例えば、歌唱音声のみの投稿サイトへ投稿する歌手音声データの修正に本発明を適用しても良い。要は、本発明の信号処理装置は、曲の歌唱音声を表す歌唱音声データにおける音高の変化態様または当該曲の楽譜における音高の変化態様から、当該歌唱音声についての修正対象区間を特定する特定手段と、特定手段により特定された修正対象区間における当該歌唱音声の音高の変化態様と音量の変化態様の少なくとも一方を修正前の歌唱音声データに基づいて修正する処理を上記歌唱音声データに施す修正手段と、を有するものであれば良い。
10A、10B…信号処理装置、100…制御部、110…外部機器I/F部、120…通信I/F部、130…記憶部、132…揮発性記憶部、134…不揮発性記憶部、1340A、1340B…歌唱音声修正プログラム、140…バス、20…マイクロホン、30…ヘッドホンスピーカ。

Claims (7)

  1. 曲の歌唱音声を表す歌唱音声データにおける音高の変化態様または前記曲の楽譜における音高の変化態様から、前記歌唱音声についての修正対象区間を特定する特定ステップと、
    前記特定ステップにて特定された修正対象区間における前記歌唱音声の音高の変化態様と音量の変化態様の少なくとも一方を修正前の歌唱音声データに基づいて修正する処理を前記歌唱音声データに施す修正ステップと、を含み、
    前記特定ステップでは、前記曲の歌いだしの区間と前記曲にて複数の音が連続しかつ音高が跳躍する区間の少なくとも一方を、前記楽譜または前記歌唱音声データにおける音高の変化態様から特定し、特定した区間における前記歌唱音声の音高変化の度合いを参照して前記特定した区間のうちから修正対象区間を特定する
    ことを特徴とする信号処理方法。
  2. 前記特定ステップでは、前記曲の歌いだしの区間と前記曲にて複数の音が連続しかつ音高が跳躍する区間の少なくとも一方の区間であり、且つ、音高変化が緩やかになっている区間を修正対象区間として特定する請求項1に記載の信号処理方法。
  3. 音高変化が緩やかとは、オーバーシュートが発生していない状態、又はオーバーシュートが不十分な状態である、請求項2に記載の信号処理方法。
  4. 音高変化が緩やかとは、プレパレーションが発生していない状態、又はプレパレーションが不十分な状態である、請求項2に記載の信号処理方法。
  5. 前記修正ステップでは、前記特定ステップにて特定された修正対象区間における音高の変化と音量の変化の少なくとも一方をより急峻にする請求項1〜4に記載の信号処理方法。
  6. 前記修正ステップでは、前記特定ステップにて特定された修正対象区間における前記歌唱音声の音高変化と音量変化の両方を修正する請求項1〜5のうちの何れか1項に記載の信号処理方法。
  7. 曲の歌唱音声を表す歌唱音声データにおける音高の変化態様または前記曲の楽譜における音高の変化態様から、前記歌唱音声についての修正対象区間を特定する特定手段と、
    前記特定手段により特定された修正対象区間における前記歌唱音声の音高の変化態様と音量の変化態様の少なくとも一方を修正前の歌唱音声データに基づいて修正する処理を前記歌唱音声データに施す修正手段と、を備え、
    前記特定手段では、前記曲の歌いだしの区間と前記曲にて複数の音が連続しかつ音高が跳躍する区間の少なくとも一方を、前記楽譜または前記歌唱音声データにおける音高の変化態様から特定し、特定した区間における前記歌唱音声の音高変化の度合いを参照して前記特定した区間のうちから前記修正対象区間を特定する
    を有することを特徴とする信号処理装置。
JP2016214889A 2016-11-02 2016-11-02 信号処理方法、および信号処理装置 Active JP6798253B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016214889A JP6798253B2 (ja) 2016-11-02 2016-11-02 信号処理方法、および信号処理装置
US15/800,462 US10134374B2 (en) 2016-11-02 2017-11-01 Signal processing method and signal processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016214889A JP6798253B2 (ja) 2016-11-02 2016-11-02 信号処理方法、および信号処理装置

Publications (2)

Publication Number Publication Date
JP2018072698A JP2018072698A (ja) 2018-05-10
JP6798253B2 true JP6798253B2 (ja) 2020-12-09

Family

ID=62115456

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016214889A Active JP6798253B2 (ja) 2016-11-02 2016-11-02 信号処理方法、および信号処理装置

Country Status (1)

Country Link
JP (1) JP6798253B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7194016B2 (ja) * 2018-12-28 2022-12-21 株式会社第一興商 カラオケ装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007316261A (ja) * 2006-05-24 2007-12-06 Casio Comput Co Ltd カラオケ装置
JP4124247B2 (ja) * 2006-07-05 2008-07-23 ヤマハ株式会社 楽曲練習支援装置、制御方法及びプログラム
JP2015034923A (ja) * 2013-08-09 2015-02-19 ヤマハ株式会社 音高補正装置
JP6497025B2 (ja) * 2013-10-17 2019-04-10 ヤマハ株式会社 音声処理装置
JP6358018B2 (ja) * 2014-09-30 2018-07-18 ブラザー工業株式会社 カラオケ装置、及びプログラム
JP2016186516A (ja) * 2015-03-27 2016-10-27 日本電信電話株式会社 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム

Also Published As

Publication number Publication date
JP2018072698A (ja) 2018-05-10

Similar Documents

Publication Publication Date Title
US10068611B2 (en) Systems and methods for dynamic audio processing
US10971125B2 (en) Music synthesis method, system, terminal and computer-readable storage medium
JP6669883B2 (ja) 音声データ処理方法及び装置
US20120101606A1 (en) Information processing apparatus, content data reconfiguring method and program
US10134374B2 (en) Signal processing method and signal processing apparatus
US11335378B2 (en) Systems and methods for dynamic audio processing
WO2023207472A1 (zh) 一种音频合成方法、电子设备及可读存储介质
CN103871439B (zh) 一种音频播放的方法、装置及系统
WO2012111043A1 (ja) 信号処理方法、信号処理装置、再生装置およびプログラム
CN111105776A (zh) 有声播放装置及其播放方法
JP6798253B2 (ja) 信号処理方法、および信号処理装置
CN110797001B (zh) 电子书语音音频的生成方法、装置及可读存储介质
US9502017B1 (en) Automatic audio remixing with repetition avoidance
CN114067827A (zh) 一种音频处理方法、装置及存储介质
CN108806732B (zh) 一种基于人工智能的背景音乐处理方法以及电子设备
JP6589521B2 (ja) 歌唱基準データ修正装置、カラオケシステム、プログラム
JP6790732B2 (ja) 信号処理方法、および信号処理装置
JP5489900B2 (ja) 音響データ通信装置
JP5533503B2 (ja) 通信装置、通信方法、および通信プログラム
JPWO2020066681A1 (ja) 情報処理装置および方法、並びにプログラム
JP4563418B2 (ja) 音声処理装置、音声処理方法、ならびに、プログラム
US20210286584A1 (en) Reproduction device and reproduction method
JP6089651B2 (ja) 音処理装置、音処理装置の制御方法、プログラム
US11348596B2 (en) Voice processing method for processing voice signal representing voice, voice processing device for processing voice signal representing voice, and recording medium storing program for processing voice signal representing voice
JP6819384B2 (ja) シーケンスデータ加工方法及び情報処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190920

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200707

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201020

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201102

R151 Written notification of patent or utility model registration

Ref document number: 6798253

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151