JP6992612B2 - 音声処理方法および音声処理装置 - Google Patents

音声処理方法および音声処理装置 Download PDF

Info

Publication number
JP6992612B2
JP6992612B2 JP2018043115A JP2018043115A JP6992612B2 JP 6992612 B2 JP6992612 B2 JP 6992612B2 JP 2018043115 A JP2018043115 A JP 2018043115A JP 2018043115 A JP2018043115 A JP 2018043115A JP 6992612 B2 JP6992612 B2 JP 6992612B2
Authority
JP
Japan
Prior art keywords
period
steady
state
fundamental frequency
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018043115A
Other languages
English (en)
Other versions
JP2019159011A (ja
Inventor
竜之介 大道
啓 嘉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2018043115A priority Critical patent/JP6992612B2/ja
Priority to PCT/JP2019/009218 priority patent/WO2019172396A1/ja
Publication of JP2019159011A publication Critical patent/JP2019159011A/ja
Priority to US16/945,615 priority patent/US11348596B2/en
Application granted granted Critical
Publication of JP6992612B2 publication Critical patent/JP6992612B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0091Means for obtaining special acoustic effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/04Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos by additional modulation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/008Means for controlling the transition from one tone waveform to another
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/041Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal based on mfcc [mel -frequency spectral coefficients]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/195Modulation effects, i.e. smooth non-discontinuous variations over a time interval, e.g. within a note, melody or musical transition, of any sound parameter, e.g. amplitude, pitch, spectral response, playback speed
    • G10H2210/221Glissando, i.e. pitch smoothly sliding from one note to another, e.g. gliss, glide, slide, bend, smear, sweep
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Description

本発明は、音声を表す音声信号を処理する技術に関する。
歌唱表現等の音声表現を音声に付加する各種の技術が従来から提案されている。例えば特許文献1には、音声信号の各調波成分を周波数領域で移動させることにより、当該音声信号が表す音声を、濁声または嗄声等の特徴的な声質の音声に変換する技術が開示されている。
特開2014-2338号公報
しかし、特許文献1の技術のもとでは、例えば基本周波数等の音響特性が経時的に遷移する区間について、聴感的に自然な音声を生成するという観点から更なる改善の余地がある。以上の事情を考慮して、本発明は、聴感的に自然な音声を合成することを目的とする。
以上の課題を解決するために、本発明の好適な態様に係る音声処理方法は、音声を表す音声信号について、音響特性が時間的に安定している複数の定常期間のうちの第1定常期間を前方に収縮し、前記複数の定常期間のうち前記第1定常期間の直後において当該第1定常期間とは音高が相違する第2定常期間と前記第1定常期間との間の遷移期間を前方に伸長する。
以上の課題を解決するために、本発明の好適な態様に係る音声処理装置は、 音声を表す音声信号について、音響特性が時間的に安定している複数の定常期間のうちの第1定常期間を前方に収縮し、前記複数の定常期間のうち前記第1定常期間の直後において当該第1定常期間とは音高が相違する第2定常期間と前記第1定常期間との間の遷移期間を前方に伸長する時間伸縮部を具備する。
本発明の実施形態に係る音声処理装置の構成を例示するブロック図である。 音声処理装置の機能的な構成を例示するブロック図である。 音声信号における定常期間の説明図である。 信号解析処理の具体的な手順を例示するフローチャートである。 調整処理部が実行する処理の具体的な手順を例示するフローチャートである。 時間伸縮処理の説明図である。 変動強調処理の説明図である。
図1は、本発明の好適な形態に係る音声処理装置100の構成を例示するブロック図である。本実施形態の音声処理装置100は、利用者が楽曲を歌唱した音声(以下「歌唱音声」という)を調整する信号処理装置である。
図1に例示される通り、音声処理装置100は、制御装置11と記憶装置12と操作装置13と放音装置14とを具備するコンピュータシステムで実現される。例えば携帯電話機もしくはスマートフォン等の可搬型の情報端末、またはパーソナルコンピュータ等の可搬型または据置型の情報端末が、音声処理装置100として好適に利用される。操作装置13は、利用者からの指示を受付ける入力機器である。例えば、利用者が操作する複数の操作子、または利用者による接触を検知するタッチパネルが、操作装置13として好適に利用される。
記憶装置12は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成されたメモリであり、制御装置11が実行するプログラムと制御装置11が使用する各種のデータとを記憶する。例えば、記憶装置12は音声信号Xを記憶する。音声信号Xは、利用者が楽曲を歌唱した歌唱音声を表す時間領域の音響信号である。なお、複数種の記録媒体の組合せにより記憶装置12を構成してもよい。また、音声処理装置100とは別体の記憶装置12(例えばクラウドストレージ)を用意し、制御装置11が通信網を介して記憶装置12に対する書込および読出を実行してもよい。すなわち、記憶装置12を音声処理装置100から省略してもよい。
制御装置11は、例えばCPU(Central Processing Unit)等の処理回路であり、各種の演算処理および制御処理を実行する。本実施形態の制御装置11は、音声信号Xに対する処理で音声信号Yを生成する。音声信号Yは、音声信号Xを調整した音響信号である。放音装置14は、例えばスピーカまたはヘッドホンであり、制御装置11が生成した音声信号Yが表す音声を放音する。なお、制御装置11が生成した音声信号Yをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。また、音声処理装置100が放音装置14を具備する構成を図1では例示したが、音声処理装置100とは別体の放音装置14を音声処理装置100に有線または無線で接続してもよい。
図2は、制御装置11の機能的な構成を例示するブロック図である。図2に例示される通り、制御装置11は、記憶装置12に記憶されたプログラムを実行することで、音声信号Xから音声信号Yを生成するための複数の機能(信号解析部21および調整処理部22)を実現する。なお、相互に別体で構成された複数の装置で制御装置11の機能を実現してもよいし、制御装置11の機能の一部または全部を専用の電子回路で実現してもよい。
信号解析部21は、音声信号Xを解析することで複数の定常期間Qを特定する。各定常期間Qは、音声信号Xのうち音響特性が時間的に安定している期間である。図3は、定常期間Qの説明図である。音声信号Xの波形と基本周波数fの時間変化とが図3には併記されている。信号解析部21は、基本周波数fとスペクトル形状とを含む音響特性が時間的に安定している期間を定常期間Qとして特定する。具体的には、信号解析部21は、各定常期間Qの始点TSと終点TEとを指定する。なお、楽曲内で相前後する2個の音符の間では、基本周波数fまたはスペクトル形状(すなわち音韻)が変化する場合が多い。したがって、各定常期間Qは、楽曲内の1個の音符に相当する期間とも換言される。
図4は、信号解析部21が音声信号Xを解析する処理(以下「信号解析処理」という)Saのフローチャートである。例えば操作装置13に対する利用者からの指示を契機として図4の信号解析処理Saが開始される。図4に例示される通り、信号解析部21は、時間軸上の複数の単位期間(フレーム)の各々について音声信号Xの基本周波数fを算定する(Sa1)。基本周波数fの算定には公知の技術が任意に採用される。各単位期間は、定常期間Qに想定される時間長と比較して充分に短い期間である。
信号解析部21は、音声信号Xのスペクトル形状を表すメルケプストラムMを単位期間毎に算定する(Sa2)。メルケプストラムMは、音声信号Xの周波数スペクトルの包絡線を表す複数の係数で表現される。メルケプストラムMは、歌唱音声の音韻を表す特徴量とも表現される。メルケプストラムMの算定には公知の技術が任意に採用される。なお、音声信号Xのスペクトル形状を表す特徴量として、メルケプストラムMの代わりにMFCC(Mel-Frequency Cepstrum Coefficients)を算定してもよい。
信号解析部21は、音声信号Xが表す歌唱音声の有声性を単位期間毎に推定する(Sa3)。すなわち、歌唱音声が有声音および無声音の何れに該当するかが判定される。有声性(有声/無声)の推定には公知の技術が任意に採用される。なお、基本周波数fの算定(Sa1)とメルケプストラムMの算定(Sa2)と有声性の推定(Sa3)とについて順序は任意であり、以上に例示した順序には限定されない。
信号解析部21は、基本周波数fの時間的な変化の度合を示す第1指標δ1を単位期間毎に算定する(Sa4)。例えば相前後する2個の単位期間の間における基本周波数fの差分が第1指標δ1として算定される。基本周波数fの時間的な変化が顕著であるほど第1指標δ1は大きい数値となる。
信号解析部21は、メルケプストラムMの時間的な変化の度合を示す第2指標δ2を単位期間毎に算定する(Sa5)。例えば、相前後する2個の単位期間の間においてメルケプストラムMの係数毎の差分を複数の係数について合成(例えば加算または平均)した数値が、第2指標δ2として好適である。歌唱音声のスペクトル形状の時間的な変化が顕著であるほど第2指標δ2は大きい数値となる。例えば歌唱音声の音韻が変化する時点の付近では、第2指標δ2は大きい数値となる。
信号解析部21は、第1指標δ1および第2指標δ2に応じた変動指標Δを単位期間毎に算定する(Sa6)。例えば、第1指標δ1と第2指標δ2との加重和が変動指標Δとして単位期間毎に算定される。第1指標δ1および第2指標δ2の各々の加重値は、所定の固定値、または操作装置13に対する利用者からの指示に応じた可変値に設定される。以上の説明から理解される通り、音声信号Xの基本周波数fまたはメルケプストラムM(すなわちスペクトル形状)の時間的な変動が大きいほど、変動指標Δは大きい数値になるという傾向がある。
信号解析部21は、音声信号Xにおける複数の定常期間Qを特定する(Sa7)。本実施形態の信号解析部21は、歌唱音声の有声性の推定の結果(Sa3)と変動指標Δとに応じて定常期間Qを特定する。具体的には、信号解析部21は、歌唱音声が有声音であると推定され、かつ、変動指標Δが所定の閾値を下回る一連の単位期間の集合を定常期間Qとして画定する。歌唱音声が無声音であると推定された単位期間、または、変動指標Δが閾値を上回る単位期間は、定常期間Qから除外される。信号解析部21は、基本周波数fの時系列を時間軸上で平滑化することで基本周波数Fの時系列を算定する(Sa8)。
以上に例示した信号解析処理Saにより、音声信号Xについて時間軸上の複数の定常期間Qが特定される。図3に例示される通り、歌唱音声の有声音が継続する一連の期間(以下「有声期間」という)V内に複数の定常期間Qが包含される場合がある。なお、時間軸上で相前後する2個の定常期間Qの間隔に相当する期間を以下では「遷移期間G」と表記する。遷移期間Gは、相前後する2個の定常期間Qのうち前方の定常期間Qの終点TEから後方の定常期間Qの始点TSまでの期間である。
図2の調整処理部22は、音声信号Xの各遷移期間Gについて調整処理を実行する。本実施形態の調整処理部22は、図2に例示される通り、時間伸縮部31と変動強調部32とを含んで構成される。時間伸縮部31は、遷移期間Gを時間軸上で伸長する時間伸縮処理を実行し、変動強調部32は、遷移期間G内における基本周波数Fの変動を強調する変動強調処理を実行する。調整処理は、時間伸縮処理と変動強調処理とを包含する。図5は、調整処理部22による動作の手順を例示するフローチャートである。信号解析処理Saの終了後に、遷移期間G毎に図5の処理が実行される。
音声信号Xの全部の遷移期間Gについて調整処理を実行すると、音声信号Xが過剰に調整され、音声信号Yの再生音が煩雑で鬱陶しい印象の音声と知覚される可能性がある。以上の事情を考慮して、本実施形態では、音声信号Xの複数の遷移期間Gのうち特定の条件を充足する遷移期間Gに限定して調整処理が実行される。
図5の処理を開始すると、調整処理部22は、処理対象の遷移期間Gについて調整処理Sb2(時間伸縮処理Sb21および変動強調処理Sb22)を実行するか否かを判定する(Sb1)。具体的には、時間伸縮部31は、以下の条件C1および条件C2の何れかを充足する遷移期間Gについて調整処理Sb2を実行すると判定する。ただし、遷移期間Gについて調整処理Sb2を実行するか否かを判定する条件は、以下の例示に限定されない。
[条件C1]有声期間V内で音高が最高である定常期間Qの直前の遷移期間Gである。
[条件C2]直前の定常期間Qの終点TEにおける基本周波数Fと直後の定常期間Qの始点TSにおける基本周波数Fとの差分が所定の閾値を上回る遷移期間Gである。
なお、条件C1の判定に参酌される音高は、例えば、定常期間Q内における基本周波数Fの代表値(例えば平均値または中央値)である。遷移期間Gについて調整処理Sb2を実行しないと判定した場合(Sb1:NO)、調整処理部22は、以下に例示する調整処理Sb2を実行することなく図5の処理を終了する。
<時間伸縮処理Sb21>
遷移期間Gについて調整処理Sb2を実行すると判定した場合(Sb1:YES)、時間伸縮部31は、時間伸縮処理Sb21を実行する。図6は、時間伸縮処理Sb21の説明図である。図6においては、時間軸上で相前後する定常期間Q1(第1定常期間の例示)と定常期間Q2(第2定常期間の例示)との間の遷移期間Gについて調整処理Sb2を実行する場合が想定されている。定常期間Q2は、複数の定常期間Qのうち定常期間Q1の直後に位置する1個の定常期間Qである。定常期間Q1と定常期間Q2との間で音高は相違する。
図6に図示された調整期間Rは、遷移期間Gの一部の期間である。調整期間Rの始点TS_Rは、定常期間Q1の終点TE1と一致する。調整期間Rの終点TE_Rは、定常期間Q1の終点TE1と定常期間Q2の始点TS2との間の時点である。具体的には、調整期間Rの終点TE_Rは、定常期間Q2の始点TS2から所定の時間だけ前方の時点である。
時間伸縮処理Sb21において、時間伸縮部31は、定常期間Q1を前方に収縮する。具体的には、時間伸縮部31は、図6に例示される通り、定常期間Q1の始点TS1を時刻taに維持したまま、当該定常期間Q1の終点TE1が時刻tcから前方の時刻tbまで移動するように定常期間Q1を収縮する。図6の時刻tbは、収縮前の定常期間Q1の始点TS1の時刻taと終点TE1の時刻tcとの間の時刻である。例えば時刻tbは、時刻taから所定の時間だけ後方の時刻、または時刻tcから所定の時間だけ前方の時刻である。定常期間Q1は、始点TS1から終点TE1までの全体にわたり均等に収縮される。なお、定常期間Q内では有声音の周期波形が安定的に反復される。したがって、以上に例示した均等な収縮に代えて、周期波形を単位として定常期間Qを部分的に削除することで、当該定常期間Qを収縮してもよい。
また、時間伸縮処理Sb21において、時間伸縮部31は、遷移期間G内の調整期間Rを前方に伸長する。具体的には、時間伸縮部31は、調整期間Rの終点TE_Rを時刻tdに維持したまま、当該調整期間Rの始点TS_R(すなわち定常期間Q1の終点TE1)が時刻tcから前方の時刻tbまで移動するように調整期間Rを伸長する。調整期間Rは、始点TS_Rから終点TE_Rまでの全体にわたり均等に伸長される。以上に説明した調整期間Rの伸長により遷移期間Gも前方に伸長される。ただし、伸長前の遷移期間Gのうち調整期間Rの終点TE_Rから定常期間Q2の始点TS2までの期間(すなわち調整期間R以外の期間)は伸長されない。
以上に例示した通り、本実施形態においては、定常期間Q1が前方に収縮されるとともに遷移期間Gが前方に伸長されるから、相前後する音符の間で音高を変化させる場合に前方の音符の末尾側の部分において音高の変化を準備するという発音の傾向を反映した聴感的に自然な音声信号Yを生成できる。特に、定常期間Q1の始点TS1を維持したまま定常期間Q1が収縮され、調整期間Rの終点TE_Rを維持したまま調整期間Rが伸長される。したがって、定常期間Q1および定常期間Q2の各々の始点を変化させることなく、前述の傾向を反映した聴感的に自然な音声信号Yを生成できるという利点がある。
<変動強調処理Sb22>
以上に説明した時間伸縮処理Sb21が終了すると、変動強調部32は、遷移期間G内における基本周波数Fの変動を強調する変動強調処理Sb22を実行する。図7は、変動強調処理Sb22の説明図である。
図7に例示される通り、音声信号Xの基本周波数F(t)は、遷移期間Gの始点(定常期間Q1の終点TE1)から単調減少して極小点に到達し、当該極小点から遷移期間Gの終点(定常期間Q2の始点TS2)まで単調増加するという傾向がある。以上に例示した基本周波数Fの変動は「しゃくり」「フォール」とも表現される歌唱表現である。本実施形態にでは、変動強調処理Sb22により、相前後する2個の音符間において基本周波数Fが変動するという発音の傾向が強調された聴感的に自然な音声信号Yを生成できる。
変動強調部32は、図7に例示される通り、遷移期間G内の基本周波数F(t)を基本周波数Fa(t)に変換する。基本周波数Fa(t)は、遷移期間G内における基本周波数F(t)の時間的な変動を強調した周波数である。変換後の基本周波数Fa(t)は、関数h(t)を適用した以下の数式(1)の演算により算定される。
Fa(t)=F(t)-Λ・h(t) …(1)
図7の関数h(t)は、以上に説明した基本周波数Fの変動に対応した形状の曲線を表現する。例えば関数h(t)は、二乗余弦(raised cosine)関数の組合せで表現される。具体的には、図7に例示される通り、関数h(t)は、遷移期間Gの始点の時刻tbから極大点の時刻teまで曲線的に単調増加し、時刻teから遷移期間Gの終点の時刻tfまで曲線的に単調減少する関数である。関数h(t)の極大点の時刻teは、音声信号Xの基本周波数Fの極小点の時刻に調整される。
数式(1)の係数Λは、以下の数式(2)で表現される正数である。
Λ=Λ0-max(λ1,λ2,λ3) …(2)
数式(2)の記号max( )は、括弧内の複数の数値のうちの最大値を選択する演算を意味する。数式(2)の初期値Λ0は所定の正数に設定される。数式(2)の複数の係数λ(λ1,λ2,λ3)は非負値(0または正数)である。数式(1)および数式(2)から理解される通り、係数Λが大きいほど、基本周波数F(t)に対する関数h(t)の影響(基本周波数F(t)の減少幅)が増大し、結果的には基本周波数Fa(t)の時間的な変動が強調される。他方、数式(2)の複数の係数λ(λ1,λ2,λ3)のうちの何れかが大きいほど、係数Λは小さい数値となる。したがって、数式(2)の複数の係数λの何れかが大きいほど、基本周波数Fa(t)の変動を強調する度合が低減される。数式(2)の各係数λは例えば以下のように設定される。
(1)係数λ1
変動強調部32は、時間伸縮処理Sb21による伸長後の遷移期間Gの時間長τに応じて係数λ1を設定する。具体的には、遷移期間Gの時間長τが所定の閾値τthを下回る場合、変動強調部32は、係数λ1を、閾値τthと時間長τとの差分(τth-τ)に応じた正数に設定する。例えば、閾値τthと時間長τとの差分(τth-τ)が大きいほど(すなわち時間長τが短いほど)、係数λ1は大きい数値に設定される。遷移期間Gの時間長τが閾値τthを上回る場合、係数λ1は0に設定される。
以上の説明から理解される通り、変動強調部32は、伸長後の遷移期間Gの時間長τが閾値τthを下回る場合に、遷移期間G内における基本周波数F(t)の変動を強調する度合を低減する。したがって、相前後する音符の間隔が短い場合に当該間隔内における基本周波数の変動が抑制される、という歌唱の傾向を音声信号Yに反映させることができる。
(2)係数λ2
変動強調部32は、定常期間Q1と定常期間Q2との間における音高差Dに応じて係数λ2を設定する。音高差Dは、例えば、図7に例示される通り、定常期間Q1の終点TE1における基本周波数F(tb)と定常期間Q2の始点TS2における基本周波数F(tf)との差分である。具体的には、音高差Dが所定の閾値Dthを下回る場合、変動強調部32は、係数λ2を、閾値Dthと閾値Dとの差分(Dth-D)に応じた正数に設定する。例えば、閾値Dthと閾値Dとの差分(Dth-D)が大きいほど(すなわち音高差Dが小さいほど)、係数λ2は大きい数値に設定される。音高差Dが閾値Dthを上回る場合、係数λ2は0に設定される。
以上の説明から理解される通り、変動強調部32は、音高差Dが閾値Dthを下回る場合に、遷移期間G内における基本周波数F(t)の変動を強調する度合を低減する。したがって、相前後する音符の間で音高差が小さい場合に音符間における基本周波数の変動が抑制される、という歌唱の傾向を音声信号Yに反映させることができる。
(3)係数λ3
変動強調部32は、遷移期間G内における基本周波数Fの変動量Zに応じて係数λ3を設定する。変動量Zは、図7に例示される通り、遷移期間G内における基本周波数Fの最大値と最小値との差分である。具体的には、変動量Zが所定の閾値Zthを下回る場合、変動強調部32は、係数λ3を、閾値Zthと変動量Zとの差分(Zth-Z)に応じた正数に設定する。例えば、閾値Zthと変動量Zとの差分(Zth-Z)が大きいほど(すなわち変動量Zが小さいほど)、係数λ3は大きい数値に設定される。変動量Zが閾値Zthを上回る場合、係数λ3は0に設定される。
以上の説明から理解される通り、変動強調部32は、基本周波数Fの変動量Zが所定の閾値Zthを下回る場合に、遷移期間G内における基本周波数F(t)の変動を強調する度合を低減する。したがって、遷移期間G内における基本周波数の変動の度合が変動強調処理Sb22の前後で極端に変化する可能性が低減される。
以上に説明した時間伸縮処理Sb21および変動強調処理Sb22により生成された音声信号Yが放音装置14に供給されることで音声が放音される。
<変形例>
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の形態では、定常期間Q1を全体にわたり均等に収縮したが、定常期間Q1の収縮の度合を当該定常期間Q1内の位置に応じて変化させてもよい。また、前述の形態では、調整期間Rを全体にわたり均等に伸長したが、調整期間Rの伸長の度合を当該調整期間R内の位置に応じて変化させてもよい。
(2)前述の形態では、時間伸縮処理Sb21および変動強調処理Sb22の双方を実行したが、時間伸縮処理Sb21および変動強調処理Sb22の一方を省略してもよい。また、時間伸縮処理Sb21と変動強調処理Sb22の順序を逆転してもよい。
(3)前述の形態では、第1指標δ1と第2指標δ2とから算定される変動指標Δを利用して音声信号Xの定常期間Qを特定したが、第1指標δ1と第2指標δ2とに応じて定常期間Qを特定する方法は以上の例示に限定されない。例えば、信号解析部21は、第1指標δ1に応じた第1暫定期間と第2指標δ2に応じた第2暫定期間とを特定する。第1暫定期間は、例えば第1指標δ1が閾値を下回る有声音の期間である。すなわち、基本周波数fが時間的に安定している期間が第1暫定期間として特定される。第2暫定期間は、例えば第2指標δ2が閾値を下回る有声音の期間である。すなわち、スペクトル形状が時間的に安定している期間が第2暫定期間として特定される。信号解析部21は、第1暫定期間と第2暫定期間とが相互に重複する期間を定常期間Qとして特定する。すなわち、音声信号Xのうち基本周波数fとスペクトル形状との双方が時間的に安定している期間が定常期間Qとして特定される。以上の説明から理解される通り、定常期間Qの特定において変動指標Δの算定を省略してもよい。
(4)前述の形態では、音声信号Xのうち基本周波数fおよびスペクトル形状の双方が時間的に安定する期間を定常期間Qとして特定したが、音声信号Xのうち基本周波数fおよびスペクトル形状の一方が時間的に安定する期間を定常期間Qとして特定してもよい。
(5)前述の形態では、音声処理装置100の利用者が歌唱した歌唱音声を表す音声信号Xを処理したが、音声信号Xが表す音声は、利用者による歌唱音声に限定されない。例えば、素片接続型または統計モデル型の公知の音声合成技術により合成された音声信号Xを処理してもよい。また、光ディスク等の記録媒体から読出された音声信号Xを処理してもよい。
<付記>
以上に例示した形態から、例えば以下の構成が把握される。
本発明の好適な態様(第1態様)に係る音声処理方法は、音声を表す音声信号について、音響特性が時間的に安定している複数の定常期間のうちの第1定常期間を前方に収縮し、前記複数の定常期間のうち前記第1定常期間の直後において当該第1定常期間とは音高が相違する第2定常期間と前記第1定常期間との間の遷移期間を前方に伸長する。以上の態様では、音声信号の第1定常期間が前方に収縮されるとともに遷移期間が前方に伸長されるから、相前後する2個の定常期間の間で音高を変化させる場合に前方の定常期間の末尾側の部分において音高の変化を準備するという発音の傾向を反映した聴感的に自然な音声信号を生成できる。
第1態様の好適例(第2態様)では、前記第1定常期間の収縮において、前記第1定常期間の始点を維持したまま当該第1定常期間の終点を前方に移動し、前記遷移期間の伸長においては、前記遷移期間のうち前記第1定常期間の終点と前記第2定常期間の始点よりも前方の時点との間の調整期間について、当該終点を維持したまま始点を前方に移動する。以上の態様では、第1定常期間の始点を維持したまま第1定常期間が収縮され、遷移期間のうち調整期間の終点を維持したまま当該調整期間が伸長される。したがって、第1定常期間および第2定常期間の各々に対応する発音の始点を変化させることなく、前方の定常期間の末尾側の部分において音高の変化を準備するという前述の傾向を反映した音声信号を生成できる。
第1態様または第2態様の好適例(第3態様)において、前記伸長後の前記遷移期間内における基本周波数の時間的な変動を強調する。以上の態様によれば、遷移期間内において基本周波数が変動するという発音の傾向を反映した聴感的に自然な音声信号を生成できる。
第3態様の好適例(第4態様)において、前記伸長後の遷移期間の時間長が閾値を下回る場合に、前記遷移期間内における基本周波数の変動を強調する度合を低減する。以上の態様によれば、伸長後の遷移期間が短い場合に当該遷移期間内における基本周波数の変動が抑制されるという傾向を音声信号に反映させることができる。
第3態様または第4態様の好適例(第5態様)において、前記第1定常期間の終点における基本周波数と前記第2定常期間の始点における基本周波数との差分が閾値を下回る場合に、前記遷移期間内における前記基本周波数の変動を強調する度合を低減する。以上の態様によれば、相前後する2個の定常期間における音高差が小さい場合に両者間の遷移期間内における基本周波数の変動が抑制されるという傾向を音声信号に反映させることができる。
第3態様から第5態様の何れかの好適例(第6態様)において、前記遷移期間内における基本周波数の変動量が閾値を下回る場合に、前記遷移期間内における基本周波数の変動を強調する度合を低減する。以上の態様によれば、遷移期間内において基本周波数が過度に変動する可能性を低減できる。
本発明の好適な態様(第7態様)に係る音声処理装置は、音声を表す音声信号について、音響特性が時間的に安定している複数の定常期間のうちの第1定常期間を前方に収縮し、前記複数の定常期間のうち前記第1定常期間の直後において当該第1定常期間とは音高が相違する第2定常期間と前記第1定常期間との間の遷移期間を前方に伸長する時間伸縮部を具備する。
第7態様の好適例(第8態様)に係る音声処理装置は、前記伸長後の前記遷移期間内における基本周波数の時間的な変動を強調する変動強調部を具備する。
100…音声処理装置、11…制御装置、12…記憶装置、13…操作装置、14…放音装置、21…信号解析部、22…調整処理部、31…時間伸縮部、32…変動強調部。

Claims (8)

  1. 音声を表す音声信号について、音響特性が時間的に安定している複数の定常期間のうちの第1定常期間を前方に収縮し、前記複数の定常期間のうち前記第1定常期間の直後において当該第1定常期間とは音高が相違する第2定常期間と前記第1定常期間との間の遷移期間を前方に伸長する
    コンピュータにより実現される音声処理方法。
  2. 前記第1定常期間の収縮においては、前記第1定常期間の始点を維持したまま当該第1定常期間の終点を前方に移動し、
    前記遷移期間の伸長においては、前記遷移期間のうち前記第1定常期間の終点と前記第2定常期間の始点よりも前方の時点との間の調整期間について、当該終点を維持したまま始点を前方に移動する
    請求項1の音声処理方法。
  3. 前記伸長後の前記遷移期間内における基本周波数の時間的な変動を強調する
    請求項1または請求項2の音声処理方法。
  4. 前記伸長後の遷移期間の時間長が閾値を下回る場合に、前記遷移期間内における基本周波数の変動を強調する度合を低減する
    請求項3の音声処理方法。
  5. 前記第1定常期間の終点における基本周波数と前記第2定常期間の始点における基本周波数との差分が閾値を下回る場合に、前記遷移期間内における前記基本周波数の変動を強調する度合を低減する
    請求項3または請求項4の音声処理方法。
  6. 前記遷移期間内における基本周波数の変動量が閾値を下回る場合に、前記遷移期間内における基本周波数の変動を強調する度合を低減する
    請求項3から請求項5の何れかの音声処理方法。
  7. 音声を表す音声信号について、音響特性が時間的に安定している複数の定常期間のうちの第1定常期間を前方に収縮し、前記複数の定常期間のうち前記第1定常期間の直後において当該第1定常期間とは音高が相違する第2定常期間と前記第1定常期間との間の遷移期間を前方に伸長する時間伸縮部
    を具備する音声処理装置。
  8. 前記伸長後の前記遷移期間内における基本周波数の時間的な変動を強調する変動強調部
    を具備する請求項7の音声処理装置。
JP2018043115A 2018-03-09 2018-03-09 音声処理方法および音声処理装置 Active JP6992612B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018043115A JP6992612B2 (ja) 2018-03-09 2018-03-09 音声処理方法および音声処理装置
PCT/JP2019/009218 WO2019172396A1 (ja) 2018-03-09 2019-03-08 音声処理方法、音声処理装置および記録媒体
US16/945,615 US11348596B2 (en) 2018-03-09 2020-07-31 Voice processing method for processing voice signal representing voice, voice processing device for processing voice signal representing voice, and recording medium storing program for processing voice signal representing voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018043115A JP6992612B2 (ja) 2018-03-09 2018-03-09 音声処理方法および音声処理装置

Publications (2)

Publication Number Publication Date
JP2019159011A JP2019159011A (ja) 2019-09-19
JP6992612B2 true JP6992612B2 (ja) 2022-01-13

Family

ID=67846499

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018043115A Active JP6992612B2 (ja) 2018-03-09 2018-03-09 音声処理方法および音声処理装置

Country Status (3)

Country Link
US (1) US11348596B2 (ja)
JP (1) JP6992612B2 (ja)
WO (1) WO2019172396A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009044525A1 (ja) 2007-10-01 2009-04-09 Panasonic Corporation 音声強調装置および音声強調方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5650398A (en) * 1979-10-01 1981-05-07 Hitachi Ltd Sound synthesizer
SE516521C2 (sv) * 1993-11-25 2002-01-22 Telia Ab Anordning och förfarande vid talsyntes
JP3333022B2 (ja) * 1993-11-26 2002-10-07 富士通株式会社 歌声合成装置
EP1160764A1 (en) * 2000-06-02 2001-12-05 Sony France S.A. Morphological categories for voice synthesis
JP3879402B2 (ja) * 2000-12-28 2007-02-14 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
JP3941611B2 (ja) * 2002-07-08 2007-07-04 ヤマハ株式会社 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
GB0228245D0 (en) * 2002-12-04 2003-01-08 Mitel Knowledge Corp Apparatus and method for changing the playback rate of recorded speech
JP5479823B2 (ja) * 2009-08-31 2014-04-23 ローランド株式会社 効果装置
JP5772739B2 (ja) 2012-06-21 2015-09-02 ヤマハ株式会社 音声処理装置
JP6171711B2 (ja) * 2013-08-09 2017-08-02 ヤマハ株式会社 音声解析装置および音声解析方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009044525A1 (ja) 2007-10-01 2009-04-09 Panasonic Corporation 音声強調装置および音声強調方法

Also Published As

Publication number Publication date
JP2019159011A (ja) 2019-09-19
US20200365170A1 (en) 2020-11-19
WO2019172396A1 (ja) 2019-09-12
US11348596B2 (en) 2022-05-31

Similar Documents

Publication Publication Date Title
JP6171711B2 (ja) 音声解析装置および音声解析方法
US11289066B2 (en) Voice synthesis apparatus and voice synthesis method utilizing diphones or triphones and machine learning
JP6024191B2 (ja) 音声合成装置および音声合成方法
EP3065130B1 (en) Voice synthesis
JP5728913B2 (ja) 音声合成情報編集装置およびプログラム
JP6724932B2 (ja) 音声合成方法、音声合成システムおよびプログラム
US11646044B2 (en) Sound processing method, sound processing apparatus, and recording medium
JP7147211B2 (ja) 情報処理方法および情報処理装置
JP5651945B2 (ja) 音響処理装置
JP6390690B2 (ja) 音声合成方法および音声合成装置
JP6992612B2 (ja) 音声処理方法および音声処理装置
JP6747236B2 (ja) 音響解析方法および音響解析装置
JPWO2010050103A1 (ja) 音声合成装置
JP7200483B2 (ja) 音声処理方法、音声処理装置およびプログラム
JP7106897B2 (ja) 音声処理方法、音声処理装置およびプログラム
JP6728660B2 (ja) 音声対話方法、音声対話装置およびプログラム
JP6011039B2 (ja) 音声合成装置および音声合成方法
WO2022190403A1 (ja) 信号処理システム、信号処理方法およびプログラム
JP6784137B2 (ja) 音響解析方法および音響解析装置
WO2022202374A1 (ja) 音響処理方法、音響処理システム、プログラム、および生成モデルの確立方法
JP2018072370A (ja) 音響解析方法および音響解析装置
JP2001312300A (ja) 音声合成装置
JP6047952B2 (ja) 音声合成装置および音声合成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211122

R151 Written notification of patent or utility model registration

Ref document number: 6992612

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151