JP2010060886A - 音声処理装置およびプログラム - Google Patents

音声処理装置およびプログラム Download PDF

Info

Publication number
JP2010060886A
JP2010060886A JP2008226915A JP2008226915A JP2010060886A JP 2010060886 A JP2010060886 A JP 2010060886A JP 2008226915 A JP2008226915 A JP 2008226915A JP 2008226915 A JP2008226915 A JP 2008226915A JP 2010060886 A JP2010060886 A JP 2010060886A
Authority
JP
Japan
Prior art keywords
value
relative
control point
relative value
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008226915A
Other languages
English (en)
Other versions
JP5262464B2 (ja
Inventor
Yasuo Yoshioka
靖雄 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2008226915A priority Critical patent/JP5262464B2/ja
Publication of JP2010060886A publication Critical patent/JP2010060886A/ja
Application granted granted Critical
Publication of JP5262464B2 publication Critical patent/JP5262464B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声信号の特徴量の時系列を編集する利用者の負担を軽減する。
【解決手段】抽出値取得部42は、音声の韻律に関連する特徴量の抽出値Aの時系列を取得する。相対値制御部54は、抽出値Aを基準とした相対値Cの時系列を設定する。編集値算定部56は、抽出値Aを相対値Cに応じて変化させた編集値Bの時系列を算定する。表示制御部46は、相対値Cの時系列を表す相対値画像GCを表示装置24に表示させる。制御点設定部52は、相対値画像GCのうち相対値Cの数値軸の方向における制御点PCの位置を利用者からの指示に応じて可変に設定する。相対値制御部54は、制御点PCの近傍の複数の時点の各々の相対値Cを、数値軸の方向における当該制御点PCの位置に応じて設定する。
【選択図】図1

Description

本発明は、音声の韻律(例えば強弱や高低などの抑揚)を変化させる技術に関する。
音声信号から抽出された特徴量の時間的な変化を利用者が編集する技術が従来から提案されている。例えば特許文献1には、楽曲から取得した特徴量の数値の時系列(グラフ)を利用者による編集のために表示装置に表示させる技術が開示されている。
特開2008−165130号公報
特許文献1の技術のもとで特徴量の数値の時系列を編集すれば、音声の韻律を適宜に変更することが可能である。しかし、時系列に表示された特徴量の多数の数値の各々を個別に変更しようとすれば、極めて煩雑な作業が必要となって利用者の負担が過大となる。以上の事情に鑑みて、本発明は、音声信号の特徴量の時系列を変更する利用者の負担を軽減することを目的とする。
以上の課題を解決するために、本発明に係る音声処理装置は、音声の韻律に関連する特徴量の抽出値の時系列を取得する抽出値取得手段と、抽出値を基準とした相対値の時系列を設定する相対値制御手段と、抽出値を相対値に応じて変化させた編集値の時系列を算定する編集値算定手段と、相対値の時系列を表す相対値画像を表示装置に表示させる表示制御手段と、相対値画像のうち相対値の数値軸の方向における制御点の位置を利用者からの指示に応じて可変に設定する制御点設定手段とを具備し、相対値制御手段は、制御点の近傍(例えば、図3の制御点PC[i-1]から制御点PC[i+1]までの区間内)の複数の時点の各々の相対値を、数値軸の方向における当該制御点の位置に応じて設定する。
以上の態様においては、相対値画像における制御点の位置に応じて当該制御点の近傍の各時点における相対値が設定されるから、抽出値や編集値を1個ずつ個別に変更する構成と比較して、特徴量を編集する作業の負担を軽減することができる。また、相対値画像が表示装置に表示されるから、音声の特徴量が変化する度合を利用者が直感的に把握できるという利点もある。
本発明の好適な態様において、表示制御手段は、抽出値の時系列を表す抽出値画像と編集値の時系列を表す編集値画像とを相対値画像とともに表示装置に表示させる。以上の態様においては、相対値画像とともに抽出値画像と編集値画像とを参照することで、編集の前後における特徴量の変化を利用者が直感的に把握できるという利点がある。以上の効果は、抽出値画像と相対値画像と編集値画像とを共通の時間軸上に配置する構成のもとで格別に顕著となる。
本発明の好適な態様において、相対値制御手段は、制御点に対応する時点から他の時点(例えば他の制御点)にかけて相対値が連続的に(例えば直線的または曲線的に)変化するように、制御点に対応する時点と他の時点との間の各時点における相対値を設定する。以上の態様においては、制御点から他の時点にかけて相対値が連続的に変化するから、相対値の不連続な変化が抑制された自然な音声を生成できるという利点がある。
本発明の好適な態様において、制御点設定手段は、時間軸の方向における制御点の位置を利用者からの指示に応じて可変に設定する。以上の態様においては、時間軸の方向における制御点の位置が利用者からの指示に応じて設定されるから、例えば制御点の位置が自動的に(すなわち利用者からの指示に依存せずに)選定される構成と比較して、利用者の意図を特徴量の編集に精緻に反映させることが可能である。
本発明の好適な態様において、制御点設定手段は、時間軸の方向における制御点の位置を、抽出値の時系列における特徴点に対応した時点に設定する。以上の態様においては、抽出値の時系列における特徴点に応じて制御点の時間軸上の位置が設定されるから、総ての制御点の位置を利用者が指定する構成と比較して、特徴量の編集の負担を軽減することが可能である。なお、特徴点は、例えば、抽出値の時間的な変化の態様(時間軸上の波形)から特定される地点である。例えば、抽出値の時系列の極値点(極大点または極小点)や、抽出値の時系列の変曲点や、相前後する抽出値の差分値が閾値を上回る地点や、抽出値の変化率(傾き)が大きく変化する地点や、抽出値の時系列の端点(始点または終点)である。
また、以上の各態様に係る音声処理装置は、音声の処理(韻律の変換)に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。具体的な態様に係るプログラムは、音声の韻律に関連する特徴量の抽出値の時系列を取得する抽出値取得処理と、抽出値を基準とした相対値の時系列を設定する相対値制御処理と、抽出値を相対値に応じて変化させた編集値の時系列を算定する編集値算定処理と、相対値の時系列を表す相対値画像を表示装置に表示させる表示制御処理と、相対値画像のうち相対値の数値軸の方向における制御点の位置を利用者からの指示に応じて可変に設定する制御点設定処理とをコンピュータに実行させるプログラムであって、相対値制御処理においては、制御点の近傍の複数の時点の各々の相対値を、数値軸の方向における当該制御点の位置に応じて設定する。本発明のプログラムによれば、以上の各態様に係る音声処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
なお、音声の特徴量が変化する度合の把握を容易化するという観点からすると、音声の韻律に関連する特徴量の抽出値の時系列を取得する抽出値取得手段と、抽出値を基準とした相対値の時系列を利用者からの指示に応じて可変に設定する相対値制御手段と、相対値に応じて抽出値を変化させた編集値の時系列を算定する編集値算定手段と、抽出値の時系列を表す抽出値画像と相対値の時系列を表す相対値画像と編集値の時系列を表す編集値画像とを表示装置に表示させる表示制御手段とを具備する音声処理装置も好適である。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声処理装置のブロック図である。図1に示すように、音声処理装置100は、演算処理装置10と記憶装置12とを含むコンピュータシステムで実現される。記憶装置12は、演算処理装置10が実行するプログラムや演算処理装置10が使用するデータを記憶する。例えば、音声の時間軸上の波形を表す音声信号S1が記憶装置12に格納される。半導体記録媒体や磁気記録媒体などの公知の記録媒体が記憶装置12として任意に採用される。
演算処理装置10は、記憶装置12に格納されたプログラムを実行することで複数の機能(抽出値取得部42,特徴量制御部44,表示制御部46,音声処理部48)を実現する。なお、専用の電子回路(DSP)が演算処理装置10と同等の各要素を実現する構成や、演算処理装置10の各要素を複数の集積回路に分散的に搭載した構成も採用される。
図1に示すように、演算処理装置10には、入力装置22と表示装置24と放音装置26とが接続される。入力装置22は、音声処理装置100に対する指示の入力のために利用者が操作する操作子で構成される。表示装置24(例えば液晶表示装置)は、演算処理装置10(表示制御部46)による制御のもとに画像を表示する。
図1の抽出値取得部42は、音声の韻律に関連する特徴量の数値(以下「抽出値」という)Aの時系列を音声信号S1から抽出する。韻律とは、音声の音響的な特徴(例えば音高や音量)に起因して受聴者が知覚する音声の抑揚や調子を意味する。韻律が強調された音声は感情的ないし情緒的な印象を受聴者に与え、韻律が抑制された音声は無機的ないし理性的な印象を受聴者に与える。本形態の抽出値取得部42は、音声の音高(ピッチ)を抽出値Aとして所定の時間(例えば10ミリ秒)毎に音声信号S1から抽出する。音高の検出には公知の技術が任意に採用される。なお、実際には各抽出値Aの時系列に対して移動平均演算などの平滑化処理を実行することで、例えば雑音に起因して抽出値Aの時系列に発生する瞬間的な変動が抑制される。
図1の特徴量制御部44は、抽出値取得部42が取得した抽出値Aの時系列を、入力装置22に対する利用者からの操作に応じて変更することで、抽出値Aと同種の特徴量(音高)を表す編集値Bの時系列を生成する。表示制御部46は、表示装置24に画像を表示させる。例えば、表示制御部46は、音声信号S1の特徴量の編集時に利用者が視認する画像(以下「編集画像」という)を表示装置24に表示させる。音声処理部48は、特徴量制御部44が算定した編集値Bの時系列を利用して音声信号S1を加工することで音声信号S2を生成する。例えば、音声処理部48は、音声信号S1の特徴量を抽出値Aから編集値Bに変換することで音声信号S2を生成する。編集前の音声信号S1や編集後の音声信号S2は、放音装置26(例えばスピーカやヘッドホン)から音響として再生される。
図2は、表示制御部46が表示装置24に表示させる編集画像60の模式図である。図2に示すように、編集画像60は、波形領域62と波形領域63と編集領域65とを含む。波形領域62および波形領域63は、X方向に長尺な矩形状の領域である。表示制御部46は、X方向(横方向)を共通の時間軸として、波形領域62内に音声信号S1の波形を配置するとともに波形領域63内に音声信号S2の波形を配置する。したがって、利用者は、編集前の音声信号S1の波形と編集後の音声信号S2の波形とを容易に対比することが可能である。
編集領域65は、編集の前後の特徴量(例えば抽出値Aや編集値B)の時間的な変化を利用者に提示する領域である。図2に示すように、編集領域65は、波形領域62と波形領域63との間隙に位置する。編集領域65と波形領域62および波形領域63とは時間軸が共通する。したがって、編集領域65と波形領域62と波形領域63との各々においてX方向の位置が共通する時点は時間的に同時である。
編集領域65は、X方向に交差するY方向に相隣接する領域66と領域67とに区分される。表示制御部46は、抽出値画像GAと編集値画像GBとを領域66内に配置する。抽出値画像GAは、Y方向(縦方向)を抽出値Aの数値軸として抽出値Aの時間的な変化を時間軸(X方向)に沿って描画した曲線である。同様に、編集値画像GBは、Y方向を数値軸として編集値Bの時間的な変化を時間軸に沿って描画した曲線である。例えば、図2の抽出値A(t)は、抽出値取得部42が抽出した抽出値Aの時系列のうち時間軸上の時点tにおける数値を意味し、図2の編集値B(t)は、特徴量制御部44が算定した編集値Bの時系列のうち時点tにおける数値を意味する。
抽出値画像GAと編集値画像GBとは相異なる態様(例えば色彩や線種)で表示されて相互に重複し得る。例えば、編集値画像GBは抽出値画像GAと比較して視覚的に顕著な態様(例えば高彩度の色彩)で表示される。以上のように抽出値Aの時系列(抽出値画像GA)と編集値Bの時系列(編集値画像GB)とが対比的に表示されるから、利用者は、抽出値Aと編集値Bとの関係(相違の程度)を容易に把握することが可能である。
なお、抽出値Aは所定の周期で特定された離散的な数値であるが、図2に示すように、各抽出値Aを相互に連結した画像(折線や曲線)が抽出値画像GAとして描画される。編集値画像GBについても同様に、各編集値Bを相互に連結した折線や曲線として描画される。また、音声信号S1の強度(音量)がゼロである区間内では音高(抽出値A)が検出されないから、抽出値画像GAや編集値画像GBは存在しない。
図2に示すように、表示制御部46は、相対値画像GCを領域67内に配置する。相対値画像GCは、抽出値Aを基準値としたときの編集値Bの相対的な数値(以下「相対値」という)Cの時間的な変化を、Y方向を相対値Cの数値軸として描画した折線である。領域66と領域67とで時間軸は共通する。すなわち、領域66および領域67の各々においてX方向(時間軸)の同じ位置にある各時点は時間的に同時である。以下の数式(1)で定義されるように、時点tにおける抽出値A(t)と相対値C(t)との加算値が編集値B(t)に相当する。
B(t)=A(t)+C(t) ……(1)
以上のように、領域66には、編集の前後における特徴量(音高)の絶対的な数値が表示されるのに対し、領域67には、編集前の特徴量に対する編集後の特徴量の相対的な数値が表示される。
領域67のうちY方向の中央にはX方向に延在する基準線L0が配置される。基準線L0は、相対値Cのゼロ(抽出値Aと編集値Bとの合致)を意味する直線である。基準線L0から上方に離間するほど相対値Cは正数の範囲で増加し、基準線L0から下方に離間するほど相対値Cは負数の範囲で減少する。数式(1)の定義から理解されるように、相対値画像GCの表す相対値Cが基準線L0の上方に位置する区間内(C>0)では編集値Bが抽出値Aを上回り、相対値Cが基準線L0の下方に位置する区間内(C<0)では編集値Bが抽出値Aを下回る。特徴量の編集が実行されていない段階では抽出値Aの時系列と編集値Bの時系列とは合致するから、相対値Cは時間軸上の全区間にわたってゼロに設定される。
図1に示すように、特徴量制御部44は、制御点設定部52と相対値制御部54と編集値算定部56とを含んで構成される。制御点設定部52は、図2のように相対値画像GCに設定される制御点PCの位置を、利用者からの指示に応じて可変に制御する。制御点PCは、相対値C(相対値画像GC)の編集時に利用者が操作する地点である。制御点設定部52は、第1に、利用者が入力装置22の操作(例えばマウスによるポイント)で時間軸の方向(X方向)および数値軸の方向(Y方向)について指定した地点を新規な制御点PCとして設定し、第2に、既存の制御点PCの数値軸の方向(Y方向)における位置を利用者による入力装置22の操作(例えばマウスによるドラッグ)に応じて可変に制御する。
相対値制御部54は、相対値Cの時系列を制御点PCの位置に応じて(したがって、利用者からの指示に応じて)可変に設定する。本形態の相対値制御部54は、図2に示すように、特徴量制御部44が位置を制御した各制御点PCを相対値画像GC(相対値Cの時系列)が通過するように相対値Cの時系列を可変に設定する。図1の編集値算定部56は、抽出値取得部42が取得した抽出値Aの時系列と相対値制御部54が設定した相対値Cの時系列とについて数式(1)の演算を実行することで更新後の編集値Bの時系列を算定する。特徴量制御部44(制御点設定部52,相対値制御部54,編集値算定部56)の動作の具体例を以下に説明する。
いま、図3の部分(A)に示すように2個の制御点PC(PC[i-1],PC[i+1])が設定された状態を想定する。制御点PC[i-1]および制御点PC[i+1]は基準線L0の線上に位置するから、時間軸上において制御点PC[i-1]から制御点PC[i+1]までの各時点における相対値Cはゼロである。したがって、図3の部分(A)に示すように、制御点PC[i-1]から制御点PC[i+1]までの区間内において、抽出値Aの時系列(抽出値画像GA)と編集値Bの時系列(編集値画像GB)とは合致する。
図3の部分(B)のように利用者から指示された位置に制御点設定部52が新規な制御点PC[i]を設定すると、相対値制御部54は、制御点PC[i]の時点tに対応する相対値C(t)を、制御点PC[i]の追加前の数値(基準線L0が示すゼロ)から、数値軸の方向における制御点PC[i]の位置に対応する数値C1に変更する。さらに、相対値制御部54は、制御点PC[i]の近傍の各時点における相対値Cを制御点PC[i]での相対値C(t)の数値C1に応じて設定する。さらに詳述すると、相対値制御部54は、新規な制御点PC[i]から当該制御点PC[i]に隣接する既存の制御点PC[i±1]にかけて相対値Cが連続的に変化するように制御点PC[i]と各制御点PC[i±1]との間の各時点における相対値Cを算定する。例えば、図3の部分(B)に示すように、制御点PC[i]と各制御点PC[i±1]との間の各時点における相対値Cは、制御点PC[i]と制御点PC[i±1]とを連結する線分Lの線上の数値(すなわち、制御点PC[i]での数値C1と各制御点PC[i±1]での数値(ゼロ)とを直線補間した数値)に変更される。したがって、図3の部分(B)に示すように、相対値Cは、制御点PC[i-1]から制御点PC[i]にかけてゼロから数値C1に直線的に増加するとともに、制御点PC[i]から制御点PC[i+1]にかけて数値C1からゼロに減少する。
表示制御部46は、図3の部分(B)に示すように、制御点PC[i]の追加前の段階で制御点PC[i-1]と制御点PC[i+1]とを連結していた線分を、新規な制御点P[i]と各制御点P[i±1]とを連結する線分Lに変更する。したがって、図2に示したように、相対値画像GCは、各制御点PCを節点とする折線となる。
また、図3の部分(C)に示すように、利用者からの指示に応じて制御点設定部52が制御点PC[i]を数値軸の方向(Y方向)に移動させると、相対値制御部54は、制御点PC[i]の時点tに対応する相対値C(t)を、移動前の数値C1から移動後の数値軸の方向の位置に対応した数値C2に変更する。そして、相対値制御部54は、制御点PC[i]が新規に追加された場合と同様に、制御点PC[i]の近傍の各時点における相対値Cを制御点PC[i]での相対値C(t)の数値C2に応じて設定する。すなわち、相対値制御部54は、移動後の制御点PC[i]から各制御点PC[i±1]にかけて相対値Cが連続的に変化するように制御点PC[i]と各制御点PC[i±1]との各時点における相対値Cを算定(すなわち直線補間)する。制御点PC[i]と各制御点PC[i±1]とを連結する線分Lを表示制御部46が更新する動作も、制御点PC[i]の追加の場合と同様である。
以上のように制御点PC[i]の追加や移動とともに相対値Cが変更されると、編集値算定部56は、抽出値取得部42が取得した抽出値Aの時系列と相対値制御部54による変更後の相対値Cの時系列とについて数式(1)の演算を実行することで更新後の編集値Bの時系列を算定する。したがって、図3の部分(B)のように基準線L0の上方に制御点PC[i]を追加した場合(または制御点PC[i]を上方に移動した場合)、制御点PC[i]の近傍の各時点における編集値Bは抽出値Aに対して増加する。一方、図3の部分(C)のように制御点PC[i]を下方に移動した場合(または基準線L0の下方に新規な制御点PC[i]を追加した場合)、制御点PC[i]の近傍の各時点における編集値Bは抽出値Aに対して減少する。表示制御部46は、編集値算定部56が編集値Bを更新するたびに(すなわち制御点PC[i]が追加または移動するたびに)、更新後の編集値Bの時系列に対応するように編集値画像GBを変更する。
利用者が図2の操作子(変換)71を操作すると、編集領域65での編集の結果が音声信号S2に反映される。すなわち、音声処理部48は、音声信号S1の特徴量を、抽出値取得部42が生成した抽出値Aから操作子71の操作時の編集値Bに変換することで音声信号S2を生成する。そして、表示制御部46は、音声処理部48による処理後の音声信号S2の波形を波形領域63に配置する。
利用者が操作子72を操作すると、記憶装置12に格納された編集前の音声信号S1が放音装置26に供給され、利用者が操作子73を操作すると、編集後の音声信号S2が放音装置26に供給される。すなわち、利用者は、操作子72や操作子73を操作することで編集の前後の音声を試聴することが可能である。
また、利用者が操作子74を操作すると、表示制御部46は、領域66に配置された抽出値画像GAや編集値画像GBのY方向の縮尺を増減する。同様に、操作子75が操作されると、表示制御部46は、領域67に配置された相対値画像GCのY方向の縮尺を増減する。さらに、操作子76が操作されると、表示制御部46は、音声信号S1,S2の波形や編集領域65内の画像(抽出値画像GA,編集値画像GB,相対値画像GC)のX方向の縮尺を増減する。なお、操作子74〜76の操作で変更されるのは画像のみであり、実際の音声信号S1,S2や各変数(抽出値A,編集値B,相対値C)は操作子74〜76の操作では変化しない。また、利用者がスクロールバー77を操作すると、表示制御部46は、音声信号S1のうち波形領域62内に表示される区間(音声信号S2のうち波形領域63内に表示される区間)を時間軸に沿って移動させる。以上のように編集画像60内の各要素を利用者が視認し易い態様に変更できる。
以上の形態においては、制御点PCの追加や移動に連動して当該制御点PCの周辺の各時点における相対値C(さらには編集値B)が変更されるから、例えば抽出値Aまたは編集値Bを1個ずつ個別に変更する構成(以下「対比例」という)と比較して、特徴量を編集する利用者の負担が軽減されるという利点がある。なお、特徴量を極めて精緻に編集するという観点のみからすれば、抽出値Aを1個ずつ個別に編集する対比例も確かに有効ではある。しかし、抽出値Aの抽出の周期にもよるが、抽出値Aを1個ずつ編集するほどの精緻さが必要となるケースは現実的には殆どない。したがって、特徴量の精緻な編集という観点からしても、対比例に対する本形態の有効性は何ら損なわれない。
また、以上の形態においては、相対値画像GCが表示装置24に表示されるから、音声の特徴量が変化する度合を直感的に把握しながら、利用者が音声の特徴量を編集できるという利点がある。また、抽出値画像GAおよび編集値画像GBも表示されるから、相対値画像GCとともに抽出値画像GAと編集値画像GBとを参照することで、編集の前後で音声の特徴量が変化する様子を利用者が直感的に把握できるという利点もある。
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。なお、以下の各形態において作用や機能が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
図4は、第2実施形態に係る音声処理装置100のブロック図である。本形態の音声処理装置100は、特徴点抽出部43を第1実施形態に追加した構成である。特徴点抽出部43は、抽出値取得部42が特定した抽出値Aの時間的な変化における特徴点Qを特定する。図5の部分(A)に示すように、特徴点Qは、抽出値Aの時間的な変化の態様(時間軸上の波形)から特定される地点である。例えば、抽出値Aの時系列の極値点(抽出値Aが極大となる極大点または抽出値Aが極小となる極小点)や、抽出値Aの時系列の変曲点(曲率の符号が変化する時点)や、相前後する抽出値Aの差分値(変化量)が閾値を上回る地点や、抽出値Aの時系列の端点(始点および終点)が特徴点Qとして特定される。
さらに、特徴点抽出部43は、抽出値A(t)から抽出値a(t)を特定する。図5の部分(B)に示すように、抽出値a(t)は、時間軸上で相前後する各特徴点Qを連結した線分(各特徴点を含む)上にあって抽出値A(t)と同じ時点tにおける数値である。すなわち、抽出値a(t)の時系列は、特徴点Qを節点として抽出値A(t)の時系列を近似する折線として表現される。また、抽出値a(t)は、相前後する特徴点Qにおける抽出値A(t)を直線補間した数値としても把握される。
図6は、表示制御部46が表示装置24に表示させる編集画像60の模式図である。図6に示すように、表示制御部46は、抽出値画像Gaと編集値画像GBとを編集領域65の領域66に配置するとともに、抽出値画像Gaと相対値画像GCとを領域67に配置する。
領域66および領域67の各々の抽出値画像Gaは、抽出値aの時間的な変動を表す折線(図5の部分(B))である。領域66内の編集値画像GBは、第1実施形態と同様に編集値Bの時間的な変化を表す。抽出値画像Gaと編集値画像GBとは相異なる態様で表示される。一方、領域67内の相対値画像GCは、第1実施形態と同様に、基準線L0を基準値(ゼロ)とした相対値Cの時系列を表す。抽出値画像Gaと相対値画像GCとは相異なる態様(例えば色彩や線種)で領域67内に配置されて相互に重複し得る。例えば、相対値画像GCは抽出値画像Gaと比較して視覚的に顕著な態様(例えば高彩度の色彩)で表示される。
図4の制御点設定部52は、図6に示すように、相対値画像GCのうち利用者が指定した地点を第1実施形態と同様に制御点PCとして設定するほか、相対値画像GCのうち特徴点抽出部43が抽出した各特徴点Qに対応する地点を制御点PCとして設定する。特徴点Qを制御点PCとして相対値Cを更新する動作の具体例を以下に説明する。
特徴量の編集を開始した時点においては、図7の部分(A)に示すように、相対値画像GCのうち抽出値Aの各特徴点Qと同時刻に制御点PCが設定される。未編集の段階では各制御点PCは基準線L0の線上に位置するから(C=0)、図7の部分(A)に示すように、抽出値aの時系列(抽出値画像Ga)と編集値Bの時系列(編集値画像GB)とは合致する。
図7の部分(B)のように、利用者からの指示に応じて制御点設定部52が既存の制御点PC[i]をY方向に移動すると、第1実施形態と同様に、相対値制御部54は、制御点PC[i]の周辺(すなわち制御点PC[i-1]からPC[i+1]まで)の各時点における相対値Cを、移動後の制御点PC[i]の位置に対応した相対値Cに応じて更新し、表示制御部46は、制御点PC[i]の移動に応じて相対値画像GCを更新する。さらに、第1実施形態と同様に、特徴点抽出部43の特定した抽出値aと更新後の相対値Cとから編集値算定部56が編集値B(B(t)=a(t)+C(t))の時系列を算定し、表示制御部46は、編集値画像GBを、更新後の編集値Bの時系列を表す内容に更新する。本形態においては相対値画像GCに加えて抽出値画像Gaも折線であるから、図6や図7のように、編集値画像GBは、相対値画像GCの各制御点PCに対応した地点を節点とする折線となる。
なお、以上においては特徴点Qに対応する制御点PCが移動した場合のみを例示したが、第1実施形態と同様に、相対値画像GCのうち利用者から指定された任意の地点に新規な制御点PCを設定することも可能である。また、利用者が任意に設定した制御点PCが移動される点も第1実施形態と同様である。
以上の形態においても第1実施形態と同様の効果が実現される。さらに、本形態においては、抽出値A(抽出値a)の時系列における特徴点Qに応じて相対値画像GCの制御点PCが自動的に(すなわち利用者からの指示を必要とせずに)設定される。したがって、総ての制御点PCを利用者が自分で指定する第1実施形態と比較して、相対値Cを編集する作業の負担が軽減されるという利点がある。また、特徴点Qに対応する位置に加えて、利用者が指定した任意の位置に制御点PCを設定することも可能であるから、第1実施形態と同様に利用者の意図を特徴量の編集に反映させることも可能である。
<C:第3実施形態>
図8は、本発明の第3実施形態に係る表示制御部46が表示装置24に表示させる編集画像60の模式図である。図8に示すように、本形態の編集画像60は、図2に例示した要素(例えば編集領域65)に加えて、既定値適用部81と変数適用部83と仮記憶部85とを含んで構成される。
既定値適用部81は、相対値Cの時系列の編集に既定値(プリセット)を適用するために利用者が操作する領域である。図8に示すように、既定値適用部81には操作子811および操作子812が配置される。利用者が操作子(上昇)811を操作すると、相対値制御部54は、音声信号S1の全区間にわたる各相対値Cに所定値を加算する。したがって、表示制御部46は、相対値画像GCをY方向の上方に移動(平行移動)させる。一方、利用者が操作子(低下)812を操作すると、相対値制御部54は、音声信号S1の全区間にわたる各相対値Cから所定値を減算し、表示制御部46は、相対値画像GCをY方向の下方に移動させる。以上のように既定値適用部81を利用すれば、音声信号S1の特徴量を全体的に変化させる場合の利用者の負担が軽減されるという利点がある。
図8の変数適用部83は、既存の相対値Cの時系列を利用するために利用者が操作する領域である。図8に示すように、変数適用部83には操作子831および操作子832が配置される。例えば図8のように相対値画像GCが編集された状態で利用者が操作子(セーブ)832を操作すると、演算処理装置10は、操作子832の操作時における相対値Cの時系列を表すデータ(以下「相対値データ」という)を記憶装置12に格納する。相対値データは、例えば、相対値画像GCの各制御点PCについて時間軸上の位置(時刻)と数値軸上の位置(相対値C)とを指定する系列である。制御点PCの位置や個数が相違する複数の相対値画像GCの各々について相対値データが個別に記憶される。
一方、利用者が操作子(ロード)831を操作したうえで1個の相対値データを選択すると、相対値制御部54は相対値Cの時系列を相対値データの内容に設定し、表示制御部46は、当該相対値データが示す相対値画像GCを編集領域65の領域67に配置する。以上のように変数適用部83を操作することで既存の相対値Cの時系列(相対値画像GC)を利用できるから、利用者による相対値Cの編集の負担が軽減されるという利点がある。
図8の仮記憶部85は、編集画像60における編集の内容を示すファイル(以下「編集ファイル」という)を記憶装置12に格納して随時に利用するために利用者が操作する領域である。図8に示すように、仮記憶部85は、別個の編集ファイルに対応する複数(3個)の領域86を含む。利用者が何れかの領域86の操作子851を操作すると、当該領域86に対応した編集ファイルが選択される。
1個の領域86内の操作子(記憶)852を利用者が操作すると、演算処理装置10は、当該領域86に対応する編集ファイルに現時点での編集の内容を格納する。編集ファイルには、例えば、編集前の音声信号S1と、抽出値A,編集値Bおよび相対値Cの各々の時系列(抽出値画像GA,編集値画像GB,相対値画像GC)と、編集後の音声信号S2とが格納される。
操作子852の操作後(編集ファイルの作成後または更新後)に、利用者は、特徴量の編集(相対値Cの変更)を継続できる。仮記憶部85内の操作子87を利用者が操作すると、演算処理装置10は、操作子851の操作で選択された編集ファイルを記憶装置12から取得し、当該編集ファイルの音声信号S2を放音装置26に出力する。したがって、操作子852の操作時における音声信号S2の再生音が放音装置26から放射される。
一方、1個の領域86内の操作子(復帰)853を利用者が操作すると、演算処理装置10は、当該領域86に対応する編集ファイルを記憶装置12から取得し、編集ファイルの内容を編集領域65に反映させる。すなわち、編集領域65が操作子852の操作時の内容に復帰する。また、1個の領域86内の操作子(クリア)854が操作されると、演算処理装置10は、当該領域86に対応する編集ファイルを初期化する。すなわち、操作子(記憶)852の操作時の編集の内容が消去される。
以上のように操作子852の操作時の編集の内容が記憶装置12に保持されるとともに操作子853の操作で随時に編集領域65に反映されるから、多様な編集を順次に試行しながら所望の韻律の音声信号S2を生成しようとする利用者の作業の負担を軽減することが可能である。なお、図8においては第1実施形態(図2)を変形した編集画像60を例示したが、本形態の構成は第2実施形態にも同様に適用される。
<D:変形例>
以上に例示した各形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合せてもよい。
(1)変形例1
以上の各形態においては、制御点設定部52が移動または新規に設定した制御点PC[i]の両側の制御点PC[i-1]と制御点PC[i+1]との間の区間内の各相対値Cを制御点PC[i]の相対値Cに連動して設定したが、制御点PC[i]の設定または移動に連動して相対値Cが設定される範囲は適宜に変更される。例えば、制御点PC[i]を中点または端点(始点または終点)とする所定長の範囲内の各時点の相対値Cが制御点PC[i]の相対値Cに応じて設定される構成も好適である。編集値B(抽出値A)を1個ずつ個別に編集する対比例と比較して作業の負担を軽減するという観点からすると、制御点PC[i]の近傍に位置する複数の時点の各々の相対値Cが当該制御点PC[i]の位置(相対値C)に応じて設定される構成が格別に好適である。
(2)変形例2
編集領域65に表示される要素や表示の態様は以上の例示に限定されない。例えば、第1実施形態において、第2実施形態と同様に、抽出値画像GAを相対値画像GCとともに領域67に配置してもよいし、第2実施形態において、抽出値Aの時系列を表す抽出値画像GAを抽出値画像Gaの代わりに表示してもよい。また、編集領域65を領域66と領域67とに区分する必要はない。例えば、抽出値画像GA(または抽出値画像Ga)と編集値画像GBと相対値画像GCとを単一の領域内に配置した構成も好適である。なお、利用者による相対値Cの編集を容易化するという観点からすると、相対値Cの時系列を表す相対値画像GCを表示装置24に表示する構成が好適であり、抽出値画像GA(または抽出値画像Ga)や編集値画像GBは適宜に省略され得る。
(3)変形例3
以上の各形態においては、利用者が指定した任意の時点や抽出値Aの時系列の特徴点Qの時点を相対値画像GCの制御点PCとして設定したが、制御点PCの設定の方法は以上の例示に限定されない。例えば、時間軸上の所定の間隔毎に制御点PCを設定する構成も採用される。
(4)変形例4
編集の対象となる特徴量は音高に限定されない。例えば、音声信号S1の音量(強度)を特徴量として音声信号S1から抽出する構成や、音声信号S1の周波数スペクトルのうち強度が最大となるピークの頂点からみて高域側の成分を近似する直線の傾きを特徴量として音声信号S1から抽出する構成も採用される。以上の説明から理解されるように、音声の韻律に関連する(韻律を特徴づける)数値が特徴量として好適である。また、複数種の特徴量を並列に編集する構成も採用される。例えば、特徴量の種類の変更が利用者から指示されるたびに、当該特徴量に対応する画像(例えば抽出値画像GAまたは抽出値画像Ga,編集値画像GB,相対値画像GC)が、利用者による編集のために編集領域65に表示される。以上の構成によれば、音声信号S2の韻律を多面的に編集することが可能となる。
(5)変形例5
以上の各形態においては利用者からの指示に応じて相対値Cの時系列を編集し、相対値Cの編集の結果から編集値Bの時系列を算定したが、例えば、利用者からの指示に応じて編集値Bを編集し、編集値Bの編集の結果から相対値C(C(t)=A(t)−B(t))の時系列を算定する構成も採用される。編集値Bの編集には、以上の各形態にて例示した相対値Cの編集と同様の方法が適用される。
(6)変形例6
以上の各形態においては音声信号S1を分析することで抽出値Aの時系列を抽出値取得部42が算定する構成を例示したが、音声信号S1から事前に抽出された抽出値Aの時系列を抽出値取得部42が記憶装置12から取得する構成も採用される。抽出値Aの時系列は、音声処理装置100が音声信号S1から抽出した数値でもよいし、音声処理装置100とは別個の装置が音声信号S1から抽出した数値でもよい。すなわち、音声信号S1の分析で抽出値Aを抽出する処理は、抽出値Aの時系列を取得する方法の一例であり、本発明の必須の要件ではない。
本発明の第1実施形態に係る音声処理装置のブロック図である。 編集画像の模式図である。 相対値の編集の手順を説明するための概念図である。 第2実施形態に係る音声処理装置のブロック図である。 特徴点の抽出の手順を説明するための概念図である。 編集画像の模式図である。 相対値の編集の手順を説明するための概念図である。 第3実施形態に係る編集画像の模式図である。
符号の説明
100……音声処理装置、10……演算処理装置、12……記憶装置、22……入力装置、24……表示装置、26……放音装置、42……抽出値取得部、44……特徴量制御部、46……表示制御部、48……音声処理部、52……制御点設定部、54……相対値制御部、56……編集値算定部。

Claims (7)

  1. 音声の韻律に関連する特徴量の抽出値の時系列を取得する抽出値取得手段と、
    前記抽出値を基準とした相対値の時系列を設定する相対値制御手段と、
    前記抽出値を前記相対値に応じて変化させた編集値の時系列を算定する編集値算定手段と、
    前記相対値の時系列を表す相対値画像を表示装置に表示させる表示制御手段と、
    前記相対値画像のうち前記相対値の数値軸の方向における制御点の位置を利用者からの指示に応じて可変に設定する制御点設定手段とを具備し、
    前記相対値制御手段は、前記制御点の近傍の複数の時点の各々の相対値を、前記数値軸の方向における当該制御点の位置に応じて設定する
    音声処理装置。
  2. 前記表示制御手段は、前記抽出値の時系列を表す抽出値画像と前記編集値の時系列を表す編集値画像とを前記相対値画像とともに前記表示装置に表示させる
    請求項1の音声処理装置。
  3. 前記表示制御手段は、前記抽出値画像と前記相対値画像と前記編集値画像とを共通の時間軸上に配置する
    請求項2の音声処理装置。
  4. 前記相対値制御手段は、前記制御点に対応する時点から他の時点にかけて相対値が連続的に変化するように、前記制御点に対応する時点と前記他の時点との間の各時点における相対値を設定する
    請求項1から請求項3の何れかの音声処理装置。
  5. 前記制御点設定手段は、時間軸の方向における前記制御点の位置を利用者からの指示に応じて可変に設定する
    請求項1から請求項4の何れかの音声処理装置。
  6. 前記制御点設定手段は、時間軸の方向における前記制御点の位置を、前記抽出値の時系列における特徴点に対応した時点に設定する
    請求項1から請求項5の何れかの音声処理装置。
  7. 音声の韻律に関連する特徴量の抽出値の時系列を取得する抽出値取得処理と、
    前記抽出値を基準とした相対値の時系列を設定する相対値制御処理と、
    前記抽出値を前記相対値に応じて変化させた編集値の時系列を算定する編集値算定処理と、
    前記相対値の時系列を表す相対値画像を表示装置に表示させる表示制御処理と、
    前記相対値画像のうち前記相対値の数値軸の方向における制御点の位置を利用者からの指示に応じて可変に設定する制御点設定処理とをコンピュータに実行させるプログラムであって、
    前記相対値制御処理においては、前記制御点の近傍の複数の時点の各々の相対値を、前記数値軸の方向における当該制御点の位置に応じて設定する
    プログラム。
JP2008226915A 2008-09-04 2008-09-04 音声処理装置およびプログラム Active JP5262464B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008226915A JP5262464B2 (ja) 2008-09-04 2008-09-04 音声処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008226915A JP5262464B2 (ja) 2008-09-04 2008-09-04 音声処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2010060886A true JP2010060886A (ja) 2010-03-18
JP5262464B2 JP5262464B2 (ja) 2013-08-14

Family

ID=42187749

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008226915A Active JP5262464B2 (ja) 2008-09-04 2008-09-04 音声処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5262464B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012194460A (ja) * 2011-03-17 2012-10-11 Toshiba Corp 音声合成編集装置および音声合成編集方法
JP2013186312A (ja) * 2012-03-08 2013-09-19 Yamaha Corp 音響解析装置
CN103632662A (zh) * 2012-08-20 2014-03-12 株式会社东芝 韵律编辑装置、方法及程序
JP2015060002A (ja) * 2013-09-17 2015-03-30 株式会社東芝 韻律編集装置、方法およびプログラム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01120598A (ja) * 1987-11-04 1989-05-12 Fujitsu Ltd 音声波形表示装置
JPH07282227A (ja) * 1994-04-08 1995-10-27 Toshiba Corp 人物顔領域検出装置
JP2000315092A (ja) * 1999-04-30 2000-11-14 Nec Corp 音声の規則合成のためのピッチパタン生成装置及び方法
JP2001147691A (ja) * 1999-11-19 2001-05-29 Roland Corp オーディオ波形処理方法、オーディオ波形処理装置およびオーディオ波形処理方法のプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004226505A (ja) * 2003-01-20 2004-08-12 Toshiba Corp ピッチパタン生成方法、音声合成方法とシステム及びプログラム
JP2005283788A (ja) * 2004-03-29 2005-10-13 Yamaha Corp 表示制御装置およびプログラム
JP2005345699A (ja) * 2004-06-02 2005-12-15 Toshiba Corp 音声編集装置、音声編集方法および音声編集プログラム
JP2008165130A (ja) * 2007-01-05 2008-07-17 Yamaha Corp 歌唱音合成装置およびプログラム
JP2008268477A (ja) * 2007-04-19 2008-11-06 Hitachi Business Solution Kk 韻律調整可能な音声合成装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01120598A (ja) * 1987-11-04 1989-05-12 Fujitsu Ltd 音声波形表示装置
JPH07282227A (ja) * 1994-04-08 1995-10-27 Toshiba Corp 人物顔領域検出装置
JP2000315092A (ja) * 1999-04-30 2000-11-14 Nec Corp 音声の規則合成のためのピッチパタン生成装置及び方法
JP2001147691A (ja) * 1999-11-19 2001-05-29 Roland Corp オーディオ波形処理方法、オーディオ波形処理装置およびオーディオ波形処理方法のプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004226505A (ja) * 2003-01-20 2004-08-12 Toshiba Corp ピッチパタン生成方法、音声合成方法とシステム及びプログラム
JP2005283788A (ja) * 2004-03-29 2005-10-13 Yamaha Corp 表示制御装置およびプログラム
JP2005345699A (ja) * 2004-06-02 2005-12-15 Toshiba Corp 音声編集装置、音声編集方法および音声編集プログラム
JP2008165130A (ja) * 2007-01-05 2008-07-17 Yamaha Corp 歌唱音合成装置およびプログラム
JP2008268477A (ja) * 2007-04-19 2008-11-06 Hitachi Business Solution Kk 韻律調整可能な音声合成装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012194460A (ja) * 2011-03-17 2012-10-11 Toshiba Corp 音声合成編集装置および音声合成編集方法
JP2013186312A (ja) * 2012-03-08 2013-09-19 Yamaha Corp 音響解析装置
CN103632662A (zh) * 2012-08-20 2014-03-12 株式会社东芝 韵律编辑装置、方法及程序
US9601106B2 (en) 2012-08-20 2017-03-21 Kabushiki Kaisha Toshiba Prosody editing apparatus and method
JP2015060002A (ja) * 2013-09-17 2015-03-30 株式会社東芝 韻律編集装置、方法およびプログラム

Also Published As

Publication number Publication date
JP5262464B2 (ja) 2013-08-14

Similar Documents

Publication Publication Date Title
US7812239B2 (en) Music piece processing apparatus and method
TWI471855B (zh) 語音合成資訊編輯裝置、儲存媒體及方法
JP5262464B2 (ja) 音声処理装置およびプログラム
US8976973B2 (en) Sound control device, computer-readable recording medium, and sound control method
JP6152753B2 (ja) 音声合成管理装置
US8799819B2 (en) Graphical user interface for multi-tap delay
JP2016081045A (ja) コンテンツ制御装置及びコンテンツ制御プログラム
JP5168014B2 (ja) 話速変換装置およびプログラム
JP2019057889A5 (ja)
US8315855B2 (en) Voice processing apparatus and method
KR101142925B1 (ko) 제어 파라미터들의 조합을 조정하기 위한 시스템
JP5251381B2 (ja) 音処理装置およびプログラム
JP2007248518A (ja) 波形編集装置
US20120117373A1 (en) Method for controlling a second modality based on a first modality
JP2007248519A (ja) 波形編集装置
JP2016042117A (ja) オーディオ信号処理装置、オーディオ信号処理方法およびオーディオ信号処理プログラム
JP4613924B2 (ja) 曲編集装置およびプログラム
JP6690445B2 (ja) 音情報設定方法および音情報設定装置
JP4623028B2 (ja) 曲編集装置およびプログラム
Kreković et al. Controlling dynamic stochastic synthesis with an audio signal
JP6286946B2 (ja) 音声合成装置および音声合成方法
JP2004264502A (ja) パラメータ設定装置およびパラメータ設定方法を実現するためのプログラム
JP6729311B2 (ja) 音響信号処理装置およびその制御方法ならびにコンピュータプログラム
JP6400408B2 (ja) 楽音発生装置
JP3972912B2 (ja) 波形編集プログラム及び波形編集装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120724

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130415

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5262464

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150