JP6727477B1 - ピッチパターン補正装置、プログラム及びピッチパターン補正方法 - Google Patents
ピッチパターン補正装置、プログラム及びピッチパターン補正方法 Download PDFInfo
- Publication number
- JP6727477B1 JP6727477B1 JP2020516498A JP2020516498A JP6727477B1 JP 6727477 B1 JP6727477 B1 JP 6727477B1 JP 2020516498 A JP2020516498 A JP 2020516498A JP 2020516498 A JP2020516498 A JP 2020516498A JP 6727477 B1 JP6727477 B1 JP 6727477B1
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- section
- pitch pattern
- correction
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims abstract description 645
- 238000000034 method Methods 0.000 title claims description 212
- 230000006870 function Effects 0.000 claims description 12
- 239000011295 pitch Substances 0.000 description 1234
- 238000000605 extraction Methods 0.000 description 36
- 238000010586 diagram Methods 0.000 description 29
- 238000012545 processing Methods 0.000 description 21
- 239000000284 extract Substances 0.000 description 8
- 239000011306 natural pitch Substances 0.000 description 7
- 238000012790 confirmation Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
Description
特許文献1には、ピッチパターンの文末から最大値を抽出し、最大値と終端音韻のピッチとの間の値に相当する基準ピッチを算出し、基準ピッチより小さい値と基準ピッチより大きい値を算出し文末のピッチとすることで、韻律を補正する韻律補正方法が開示されている。
図1は、実施の形態1に係るピッチパターン補正装置100の構成を概略的に示すブロック図である。
ピッチパターン補正装置100は、音声情報入力部101と、ピッチパターン取得部102と、最大ピッチ特定部103と、文末ピッチ区間特定部104と、言語情報入力部105と、言語属性情報取得部106と、ピッチ補正係数入力部107と、ピッチパターン補正方法記憶部108と、ピッチパターン補正部109とを備える。
音声情報は、ピッチパターンを特定することができればよい。例えば、音声情報は、人が発話した音声を示す音声データであってもよく、音声合成装置における韻律制御のための中間データであってもよく、ピッチパターンそのものであってもよい。
ピッチは、音の高さを示し、ピッチパターンは、音の高さの変化を示すパターンである。ピッチパターンは、例えば、一定時間毎にサンプリングされたピッチ、時間情報とピッチとを組み合わせた系列、音声合成における音声素片単位(音節、子音−母音又は母音−子音等)における制御点のピッチを示すものであればよい。
標準語において、1つのフレーズ内では、一度下がり始めたピッチが再度上昇することはないため、最大ピッチ特定部103は、ピッチパターンの遷移の山谷の位置でフレーズの区切りを推測することで、文末フレーズを特定することができる。また、例えば、単純な単語のように、末尾の発声が1フレーズのみであると保証される場合には、最大ピッチ特定部103は、一定時間以上ピッチが無い区間(ポーズ区間)以降を文末フレーズとみなすことができる。さらに、ピッチパターンが言語情報と紐付けられている場合には、言語情報からフレーズの区切りが分かるため、最大ピッチ特定部103は、言語情報を参照することで、文末フレーズを特定することができる。
文末ピッチ情報は、発話様式の特徴が出現する区間を特定できる情報であればよい。
ピッチパターン補正方法は、例えば、補正式そのものであってもよく、プログラム内の条件分岐を示したものであってもよい。
そして、ピッチパターン補正部109は、選択されたピッチパターン補正方法により、最大ピッチ特定部103から与えられる最大ピッチ情報で示される最大値及び文末ピッチ区間特定部104から与えられる文末ピッチ区間情報で示される文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、ピッチ補正係数入力部107から与えられるピッチ補正係数を必要に応じて使用し、ピッチパターン取得部102から与えられるピッチパターンにおいて、文末ピッチ区間特定部104から与えられる文末ピッチ区間情報で示される文末ピッチ区間を補正する。
なお、補正されたピッチパターンは、補正ピッチパターンとして出力される。
図2に示されているように、ピッチパターン補正装置100は、メモリ131と、プロセッサ132と、ネットワークインタフェース(以下、ネットワークI/Fという)133と、テキスト入力インタフェース(以下、テキスト入力I/Fという)134と、画像入力インタフェース(以下、画像入力I/Fという)135と、音響入力インタフェース(以下、音響入力I/Fという)136とを備えるコンピュータ130により実現することができる。
さらに、メモリ131は、ピッチパターン、音声情報、言語属性情報、言語情報、最大ピッチ情報、文末ピッチ区間情報、ピッチ補正係数及び補正ピッチパターンといった中間データを記憶する。
なお、メモリ131、不揮発性のメモリ又は揮発性のメモリであればよい。
まず、ピッチパターン取得部102は、音声情報入力部101から、少なくともピッチパターンを特定することのできる音声情報を受け取り、その音声情報で特定されるピッチパターンを取得する(S10)。取得されたピッチパターンは、最大ピッチ特定部103、文末ピッチ区間特定部104及びピッチパターン補正部109に与えられる。
古井貞熙著、「音声情報処理」、第1版、森北出版株式会社、1998年6月30日、p.22〜26
この場合、例えば、下記の文献に、公知の自然言語処理技術が記載されている。
匂坂芳典著、「音声合成における自然言語処理」、情報処理、Vol.34,No.10、1993年
なお、公知の音声認識技術としては、下記の文献に記載されている技術がある。
古井貞熙著、「音声情報処理」、第1版、森北出版株式会社、1998年6月30日、p.96〜105
この時、最大ピッチ特定部103は、言語属性情報取得部106から言語属性情報を受け取ることで、アクセント位置付近に絞って探索してもよい。
具体的には、音声情報の中に、末尾音韻の区間情報がある場合、又は、言語属性情報取得部106で取得される言語属性情報から末尾音韻の区間を推定できる場合には、文末ピッチ区間特定部104は、その区間を特定すればよい。例えば、日本語において末尾音韻の子音が無声音である場合には、末尾から連続するピッチパターンは、末尾の母音のピッチパターンとすることができる。
ピッチパターン補正部109は、ピッチパターン補正方法情報を参照して、言語属性情報で示される言語属性に対応するピッチパターン補正方法を選択する。
そして、ピッチパターン補正部109は、選択されたピッチパターン補正方法により、最大ピッチ特定部103から与えられる最大ピッチ情報で示される最大値及び文末ピッチ区間特定部104から与えられる文末ピッチ区間情報で示される文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、ピッチ補正係数入力部107から与えられるピッチ補正係数を必要に応じて使用し、ピッチパターン取得部102から与えられるピッチパターンの内、文末ピッチ区間特定部104から与えられる文末ピッチ区間情報で示される文末ピッチ区間を補正する。なお、補正されたピッチパターンは、補正ピッチパターンとして出力される。
また、図6は、ピッチパターン補正方法記憶部108に記憶されているピッチパターン補正方法情報の一例を示す概略図である。ここでは、言語属性として、音声におけるアクセントの位置であるアクセント位置に応じて、ピッチパターン補正方法を選択する例を示す。
制御対象列108bは、補正を行う対象を示す。ここでは、制御対象の一例として、「始端」、「終端」及び「補間」が示されている。「始端」は、文末ピッチ区間の始端のピッチを示し、「終端」は、文末ピッチ区間の終端のピッチを示す。「補間」は、文末ピッチ区間における始端のピッチと終端のピッチとの間のピッチを示す。
ここでは、「平板」のピッチパターン補正方法として、「−」、「最大ピッチ×ピッチ補正係数」及び「線形補間」が示されている。
「−」は、同じ行の制御対象に補正を行わないことを示している。
「最大ピッチ×ピッチ補正係数」は、最大ピッチ特定部103で特定されたピッチの最大値に、ピッチ補正係数入力部107から与えられるピッチ補正係数を乗算した値を、同じ行の制御対象に加算することを示している。
「線形補間」は、文末ピッチ区間の始端のピッチと、その終端のピッチとの間のピッチの値を、始端のピッチの値及び終端のピッチの値による線形補間で求めることを示している。補間を行う際の始端のピッチの値及び終端のピッチの値は、補正が行われる場合には、補正後の値である。
ここでは、「非平板」のピッチパターン補正方法として、「終端ピッチ−始端ピッチ」、「(最大ピッチ−終端ピッチ)×ピッチ補正係数」及び「スプライン補間」が示されている。
「終端ピッチ−始端ピッチ」は、文末ピッチ区間の終端のピッチの値から、その始端のピッチの値を減算した値を、同じ行の制御対象に加算することを示している。
「(最大ピッチ−終端ピッチ)×ピッチ補正係数」は、最大ピッチ特定部103で特定されたピッチの最大値から、その終端のピッチの値を減算した値に、ピッチ補正係数入力部107から与えられるピッチ補正係数を乗算した値を、同じ行の制御対象に加算することを示している。
「スプライン補間」は、文末ピッチ区間の始端のピッチと、その終端のピッチとの間のピッチの値を、始端のピッチの値及び終端のピッチの値によるスプライン補間で求めることを示している。補間を行う際の始端のピッチの値及び終端のピッチの値は、補正が行われる場合には、補正後の値である。
この場合、属性情報が「平板」を示しているため、ピッチパターン補正部109は、例えば、図6に示されているピッチパターン補正方法情報108aから、平板のピッチパターン補正方法を選択する。
この場合、言語属性情報が「非平板」を示しているため、ピッチパターン補正部109は、例えば、図6に示されているピッチパターン補正方法情報108aから、非平板のピッチパターン補正方法を選択する。
また、ピッチパターン補正部109は、与えられたピッチ補正係数を、ピッチの最大値と、文末ピッチ区間の終端のピッチの値との差分に積算した値を、終端のピッチの値に加算することで補正を行っている。
さらに、ピッチパターン補正部109は、文末ピッチ区間ピッチパターンにおいて、始端のピッチと終端のピッチとの間のピッチの値に対して、補正後の値からスプライン補間を行っている。
例えば、末尾音韻の子音が有声音である場合と、それが無声音である場合とで、末尾から継続するピッチパターンの長さが異なる。このため、例えば、ピッチパターンが長い有声音の場合には緩やかな変化を、ピッチパターンが短い有声音の場合には急激な変化となるように、ピッチパターン補正方法を選択することができる。
また、同様にモーラ数が短い場合(音韻数が少ない場合)に緩やかな変化となるように、モーラ数が長い場合に急激な変化となるように、ピッチパターン補正方法を選択することができる。
さらに、音韻情報の中には、有声情報若しくは無声情報、又は、子音の種類を示す情報が内包されており、それらの情報を用いて、ピッチパターン補正方法が選択されてもよい。
図7は、実施の形態2に係るピッチパターン補正装置200の構成を概略的に示すブロック図である。
ピッチパターン補正装置200は、音声情報入力部101と、ピッチパターン取得部102と、最大ピッチ特定部203と、ピッチ補正係数入力部107と、ピッチパターン補正方法記憶部208と、ピッチパターン補正部209と、部分ピッチ補正部210とを備える。
実施の形態2におけるピッチパターン補正装置200の音声情報入力部101、ピッチパターン取得部102及びピッチ補正係数入力部107は、実施の形態1におけるピッチパターン補正装置100の音声情報入力部101、ピッチパターン取得部102及びピッチ補正係数入力部107と同様である。
但し、ピッチパターン取得部102は、取得されたピッチパターンを部分ピッチ補正部210及びピッチパターン補正部209に与える。
部分ピッチ補正部210は、最大ピッチ区間抽出部211と、最大ピッチ区間補正方法記憶部212と、最大ピッチ区間補正部213と、文末ピッチ区間抽出部214と、文末ピッチ区間補正方法記憶部216と、文末ピッチ区間補正部215とを備える。
例えば、最大ピッチ区間抽出情報は、ピッチの最大値に対応する音韻のピッチパターン、又は、ピッチの最大値に対応する音韻及びその付近の音韻におけるピッチパターンであってもよい。なお、最大ピッチ区間抽出情報は、周波数そのものであってもよく、離散化又はシンボル化された情報であってもよい。
最大ピッチ区間補正方法は、例えば、補正式そのものであってもよく、プログラム内の条件分岐を示したものであってもよい。
文末ピッチ区間補正方法は、例えば、補正式そのものであってもよく、プログラム内の条件分岐を示したものであってもよい。
具体的には、最大ピッチ特定部203は、最大ピッチ区間補正部213から与えられる補正最大ピッチ区間情報で示されるピッチパターンより、ピッチの最大値を特定し、特定された最大値を示す最大ピッチ情報を生成する。そして、最大ピッチ特定部203は、その最大ピッチ情報をピッチパターン補正部209に与える。
ピッチパターン補正方法は、例えば、補正式そのものであってもよく、プログラム内の条件分岐を示したものであってもよい。
そして、ピッチパターン補正部209は、取得されたピッチパターン補正方法により、最大ピッチ特定部203から与えられる最大ピッチ情報で示される最大値及び文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、ピッチ補正係数入力部107から与えられるピッチ補正係数を必要に応じて使用し、文末ピッチ区間補正部215から与えられる補正文末ピッチ区間情報で示されるピッチパターンに対応する区間(即ち、文末ピッチ区間)の部分補正ピッチパターンを補正する。
なお、補正された部分補正ピッチパターンは、補正ピッチパターンとして出力される。
例えば、メモリ131は、プロセッサ132を、ピッチパターン取得部102、最大ピッチ特定部203、ピッチパターン補正部109及び部分ピッチ補正部210として機能させるプログラムを記憶する。
まず、ピッチパターン取得部102は、音声情報入力部101から、少なくともピッチパターンを特定することのできる音声情報を受け取り、その音声情報で特定されるピッチパターンを取得する(S20)。ここでの処理は、図3に示されているステップS10での処理と同様である。取得されたピッチパターンは、最大ピッチ区間抽出部211、文末ピッチ区間抽出部214及びピッチパターン補正部209に与えられる。
まず、ピッチパターン補正部209は、与えられた補正最大ピッチ区間情報で示されるピッチパターンと、与えられた補正文末ピッチ区間情報で示されるピッチパターンとを、与えられたピッチパターンに合成することで、部分補正ピッチパターンを生成する。
次に、ピッチパターン補正部209は、部分補正ピッチパターンを補正する発話様式に対応するピッチパターン補正方法を、ピッチパターン補正方法記憶部208に記憶されているピッチパターン補正方法情報から取得する。
そして、ピッチパターン補正部209は、取得されたピッチパターン補正方法により、与えられる最大ピッチ情報で示される最大値及び文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、ピッチ補正係数入力部107から与えられるピッチ補正係数を必要に応じて使用し、与えられた補正文末ピッチ区間情報で示されるピッチパターンに対応する区間の部分補正ピッチパターンを補正する(S27)。
また、図10は、最大ピッチ区間補正方法記憶部212に記憶されている最大ピッチ区間補正方法情報の一例を示す概略図である。
発話様式列212bは、ピッチパターン補正部209で補正を行うことで生成する発話様式を示している。ここでは、発話様式として、「平叙」、「質問」及び「確認」が示されている。「平叙」は、ピッチパターン補正部209で補正を行うことで平叙調のピッチパターンを生成することを示している。「質問」は、ピッチパターン補正部209で補正を行うことで質問調のピッチパターンを生成することを示している。「確認」は、ピッチパターン補正部209で補正を行うことで確認調のピッチパターンを生成することを示している。
図9(A)は、補正前のピッチパターンを示している。
最大ピッチ区間補正部213は、図10に示されている最大ピッチ区間補正方法情報212aから質問調に対応する最大ピッチ区間補正方法を選択し、図9(B)に示されているように、最大ピッチ区間のピッチを補正する。ここでは、最大ピッチ区間補正部213は、その値を1.2倍している。この例では、最大ピッチ区間は、音韻「o」の2サンプルのピッチであり、それぞれの値が1.2倍されている。
また、図12は、文末ピッチ区間補正方法記憶部216に記憶されている文末ピッチ区間補正方法情報の一例を示す概略図である。
発話様式列216bは、ピッチパターン補正部209で補正を行うことで生成する発話様式を示している。ここでは、発話様式として、「平叙」、「質問」及び「確認」が示されている。
図11(A)は、補正前のピッチパターンを示している。
文末ピッチ区間補正部215は、図12に示されている文末ピッチ区間補正方法情報216aから質問調に対応する文末ピッチ区間補正方法を選択し、図11(B)に示されているように、文末ピッチ区間のピッチを補正する。ここでは、文末ピッチ区間補正部215は、その値を0.9倍している。この例では、文末ピッチ区間は、音韻「e」の2サンプルのピッチであり、それぞれの値が0.9倍されている。
また、図14は、ピッチパターン補正方法記憶部208に記憶されているピッチパターン補正方法情報の一例を示す概略図である。
発話様式列208bは、ピッチパターン補正部209で補正を行うことで生成する発話様式を示している。ここでは、発話様式として、「平叙」、「質問」及び「確認」が示されている。
ピッチパターン補正部209は、図14に示されているピッチパターン補正方法情報208aから質問調に対応するピッチパターン補正方法を選択し、図13(B)に示されているように、文末ピッチ区間のピッチを補正する。ここでは、ピッチパターン補正部209は、最大ピッチ特定部203から与えられるピッチの最大値から、文末ピッチ区間の終端のピッチの値を減算した値に、ピッチ補正係数入力部107から与えられるピッチ補正係数を乗算した値を、文末ピッチ区間の終端のピッチの値に加算している。
なお、最大ピッチ区間の補正を行わない場合には、最大ピッチ区間抽出部211、最大ピッチ区間補正方法記憶部212及び最大ピッチ区間補正部213を省略することができる。この場合、最大ピッチ特定部203は、実施の形態1における最大ピッチ特定部103と同様に、ピッチパターン取得部102から与えられるピッチパターンにおいて、文末フレーズの最大値を特定すればよい。
図15は、実施の形態3に係るピッチパターン補正装置300の構成を概略的に示すブロック図である。
ピッチパターン補正装置300は、音声情報入力部101と、ピッチパターン取得部102と、最大ピッチ特定部103と、文末ピッチ区間特定部104と、ピッチ補正係数入力部107と、ピッチパターン補正方法記憶部208と、ピッチパターン補正部309と、継続長情報入力部320と、ピッチ補正係数修正部321とを備える。
また、実施の形態3に係るピッチパターン補正装置300のピッチパターン補正方法記憶部208は、実施の形態2に係るピッチパターン補正装置200のピッチパターン補正方法記憶部208と同様である。
但し、ピッチ補正係数入力部107は、入力されたピッチ補正係数をピッチ補正係数修正部321に与える。
そして、ピッチパターン補正部309は、選択されたピッチパターン補正方法により、最大ピッチ特定部103から与えられる最大ピッチ情報で示される最大値及び文末ピッチ区間特定部104から与えられる文末ピッチ区間情報で示される文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、ピッチ補正係数修正部321から与えられる修正ピッチ補正係数を必要に応じて使用し、ピッチパターン取得部102から与えられるピッチパターンにおいて、文末ピッチ区間特定部104から与えられる文末ピッチ区間情報で示される文末ピッチ区間を補正する。
なお、補正されたピッチパターンは、補正ピッチパターンとして出力される。
例えば、メモリ131は、プロセッサ132を、ピッチパターン取得部102、最大ピッチ特定部103、文末ピッチ区間特定部104、ピッチ補正係数修正部321及びピッチパターン補正部309として機能させるプログラムを記憶する。
まず、ピッチパターン取得部102は、音声情報入力部101から、少なくともピッチパターンを特定することのできる音声情報を受け取り、その音声情報で特定されるピッチパターンを取得する(S30)。ここでの処理は、図3におけるステップS10の処理と同様である。取得されたピッチパターンは、最大ピッチ特定部103、文末ピッチ区間特定部104及びピッチパターン補正部309に与えられる。
なお、実施の形態3では、継続長情報入力部320が継続長情報の入力を直接受け付けるようにしているが、例えば、ピッチ補正係数修正部321が、音声情報入力部101に入力される音声情報から、継続長を特定するようにしてもよい。この場合、ピッチ補正係数修正部321は、公知の音声認識手法を用いて音韻の時間情報を推測し、文末ピッチ区間の継続長を特定してもよい。
公知の音声認識手法は、例えば、下記の文献に記載されている。
古井貞熙著、「音声情報処理」、第1版、森北出版株式会社、1998年6月30日、p.96〜105
Ow=IDur×Iw÷DefDur (1)
まず、ピッチパターン補正部309は、補正により生成する発話様式に対応するピッチパターン補正方法を取得する。
そして、ピッチパターン補正部309は、取得されたピッチパターン補正方法により、最大ピッチ特定部103から与えられる最大ピッチ情報で示される最大値及び文末ピッチ区間特定部104から与えられる文末ピッチ区間情報で示される文末ピッチ区間に含まれているピッチの少なくとも何れか一方に応じて、ピッチ補正係数修正部321から与えられる修正ピッチ補正係数を必要に応じて使用し、ピッチパターン取得部102から与えられるピッチパターンの内、文末ピッチ区間特定部104から与えられる文末ピッチ区間情報で示される文末ピッチ区間を補正する。なお、補正されたピッチパターンは、補正ピッチパターンとして出力される。
なお、実施の形態3におけるピッチパターン補正方法記憶部208には、図14に示されているようなピッチパターン補正方法情報208aが記憶されているものとする。
図17(A)は、補正前のピッチパターンを示している。
ピッチパターン補正部309は、発話様式を質問にするピッチパターン補正方法に基づいて、図17(B)に示されているように、文末ピッチ区間における後端のピッチの値を補正する。ここでは、修正ピッチ補正係数が「0.8」であり、ピッチの最大値よりも低い値となるように、後端のピッチの値が補正されている。
また、継続長又はピッチの統計値(例えば、平均、分散又は中央値等)に応じて、ピッチ補正係数が修正されてもよい。これらを組み合わせた情報に基づいて、ピッチ補正係数が修正されてもよい。
図18は、実施の形態4に係るピッチパターン補正装置400の構成を概略的に示すブロック図である。
ピッチパターン補正装置400は、音声情報入力部101と、ピッチパターン取得部102と、最大ピッチ特定部203と、言語情報入力部105と、言語属性情報取得部106と、ピッチ補正係数入力部107と、ピッチパターン補正方法記憶部108と、ピッチパターン補正部409と、部分ピッチ補正部210と、継続長情報入力部320と、ピッチ補正係数修正部321とを備える。
このため、部分ピッチ補正部210は、図7に示されているように、最大ピッチ区間抽出部211と、最大ピッチ区間補正方法記憶部212と、最大ピッチ区間補正部213と、文末ピッチ区間抽出部214と、文末ピッチ区間補正方法記憶部216と、文末ピッチ区間補正部215とを備える。
そして、ピッチパターン補正部409は、選択されたピッチパターン補正方法により、最大ピッチ特定部103から与えられる最大ピッチ情報で示される最大値及び文末ピッチ区間に含まれているピッチの少なくとも何れか一方に応じて、ピッチ補正係数修正部321から与えられる修正ピッチ補正係数を必要に応じて使用し、与えられた補正文末ピッチ区間情報で示されるピッチパターンに対応する区間の部分補正ピッチパターンを補正する。
なお、補正された部分補正ピッチパターンは、補正ピッチパターンとして出力される。
例えば、メモリ131は、プロセッサ132をピッチパターン補正部409として機能させるプログラムも記憶する。
まず、ピッチパターン取得部102は、音声情報入力部101から、少なくともピッチパターンを特定することのできる音声情報を受け取り、その音声情報で特定されるピッチパターンを取得する(S40)。ここでの処理は、図3に示されているステップS10の処理と同様である。取得されたピッチパターンは、最大ピッチ区間抽出部211、文末ピッチ区間抽出部214及びピッチパターン補正部409に与えられる。
まず、ピッチパターン補正部409は、補正最大ピッチ区間情報で示されるピッチパターンと、補正文末ピッチ区間情報で示されるピッチパターンとを、ピッチパターン取得部102から与えられるピッチパターンに合成することで、部分補正ピッチパターンを生成する。
次に、ピッチパターン補正部409は、言語属性情報で示される言語属性に対応するピッチパターン補正方法を、ピッチパターン補正方法記憶部108に記憶されているピッチパターン補正方法情報から選択する。
そして、ピッチパターン補正部409は、選択されたピッチパターン補正方法により、最大ピッチ特定部103から与えられる最大ピッチ情報で示される最大値及び文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、ピッチ補正係数修正部321から与えられる修正ピッチ補正係数を必要に応じて使用し、与えられた補正文末ピッチ区間情報で示されるピッチパターンに対応する区間の部分補正ピッチパターンを補正する。
なお、実施の形態4におけるピッチパターン補正方法記憶部108には、図6に示されているようなピッチパターン補正方法情報108aが記憶されているものとする。
図20(A)は、補正最大ピッチ区間情報で示されるピッチパターンと、補正文末ピッチ区間情報で示されるピッチパターンとを、ピッチパターンに合成することで生成された部分補正ピッチパターンを示している。
この場合、言語属性情報が「非平板」を示しているため、ピッチパターン補正部409は、例えば、図6に示されているピッチパターン補正方法情報108aから、非平板のピッチパターン補正方法を選択する。
なお、ここでの終端のピッチの値は、文末ピッチ区間補正部215により、ピッチパターン取得部102から与えられたピッチパターンにおける終端のピッチの値に「0.9」が乗算された値となっている。
Claims (13)
- 音声のピッチパターンにおいて、前記音声における文末フレーズに含まれているピッチの最大値を特定する最大ピッチ特定部と、
前記ピッチパターンにおいて、前記音声の文末の音韻に対応する区間である文末ピッチ区間を特定する文末ピッチ区間特定部と、
前記特定された最大値及び前記特定された文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、前記ピッチパターンを補正することで、前記音声の発話様式を変更するピッチパターン補正部と、を備え、
前記ピッチパターン補正部は、前記音声の韻律(但し、ピッチの最大値を除く)に応じて、前記ピッチパターンを補正する補正量を変更すること
を特徴とするピッチパターン補正装置。 - 前記韻律は、前記ピッチパターンを補正する区間に対応する、前記音声の長さであること
を特徴とする請求項1に記載のピッチパターン補正装置。 - 前記韻律は、前記音声の全体の長さであること
を特徴とする請求項1に記載のピッチパターン補正装置。 - 前記韻律は、前記音声の話速であること
を特徴とする請求項1に記載のピッチパターン補正装置。 - 前記韻律は、前記音声における抑揚の大きさであること
を特徴とする請求項1に記載のピッチパターン補正装置。 - 前記ピッチパターン補正部は、前記音声の韻律に関する統計値(但し、ピッチの最大値を除く)を用いて、前記補正量を変更すること
を特徴とする請求項1に記載のピッチパターン補正装置。 - 前記ピッチパターン補正部は、前記音声における言語の属性である言語属性に応じて、前記ピッチパターンを補正する方法であるピッチパターン補正方法を切り替えること
を特徴とする請求項1から6の何れか一項に記載のピッチパターン補正装置。 - 音声のピッチパターンにおいて、特定の区間を補正する部分ピッチ補正部と、
前記補正された特定の区間を含むピッチパターンにおいて、前記音声における文末フレーズに含まれているピッチの最大値を特定する最大ピッチ特定部と、
前記特定された最大値、及び、前記補正された特定の区間を含むピッチパターンにおいて前記音声の文末の音韻に対応する区間である文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、前記補正された特定の区間を含むピッチパターンを補正することで、前記音声の発話様式を変更するピッチパターン補正部と、を備え、
前記ピッチパターン補正部は、前記音声の韻律(但し、ピッチの最大値を除く)に応じて、前記補正された特定の区間を含むピッチパターンを補正する補正量を変更すること
を特徴とするピッチパターン補正装置。 - 前記ピッチパターン補正部は、前記音声における言語の属性である言語属性に応じて、前記補正された特定の区間を含むピッチパターンを補正する方法であるピッチパターン補正方法を切り替えること
を特徴とする請求項8に記載のピッチパターン補正装置。 - コンピュータを、
音声のピッチパターンにおいて、前記音声における文末フレーズに含まれているピッチの最大値を特定する最大ピッチ特定部、
前記ピッチパターンにおいて、前記音声の文末の音韻に対応する区間である文末ピッチ区間を特定する文末ピッチ区間特定部、並びに、
前記特定された最大値及び前記特定された文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、前記ピッチパターンを補正することで、前記音声の発話様式を変更するピッチパターン補正部、として機能させ、
前記ピッチパターン補正部は、前記音声の韻律(但し、ピッチの最大値を除く)に応じて、前記ピッチパターンを補正する補正量を変更すること
を特徴とするプログラム。 - コンピュータを、
音声のピッチパターンにおいて、特定の区間を補正する部分ピッチ補正部、
前記補正された特定の区間を含むピッチパターンにおいて、前記音声における文末フレーズに含まれているピッチの最大値を特定する最大ピッチ特定部、並びに、
前記特定された最大値、及び、前記補正された特定の区間を含むピッチパターンにおいて前記音声の文末の音韻に対応する区間である文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、前記補正された特定の区間を含むピッチパターンを補正することで、前記音声の発話様式を変更するピッチパターン補正部、として機能させ、
前記ピッチパターン補正部は、前記音声の韻律(但し、ピッチの最大値を除く)に応じて、前記補正された特定の区間を含むピッチパターンを補正する補正量を変更すること
を特徴とするプログラム。 - 音声のピッチパターンにおいて、前記音声における文末フレーズに含まれているピッチの最大値を特定し、
前記ピッチパターンにおいて、前記音声の文末の音韻に対応する区間である文末ピッチ区間を特定し、並びに、
前記特定された最大値及び前記特定された文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、前記ピッチパターンを補正することで、前記音声の発話様式を変更するピッチパターン補正方法であって、
前記ピッチパターンを補正する際に、前記音声の韻律(但し、ピッチの最大値を除く)に応じて、前記ピッチパターンを補正する補正量を変更すること
を特徴とするピッチパターン補正方法。 - 音声のピッチパターンにおいて、特定の区間を補正し、
前記補正された特定の区間を含むピッチパターンにおいて、前記音声における文末フレーズに含まれているピッチの最大値を特定し、並びに、
前記特定された最大値、及び、前記補正された特定の区間を含むピッチパターンにおいて前記音声の文末の音韻に対応する区間である文末ピッチ区間に含まれるピッチの少なくとも何れか一方に応じて、前記補正された特定の区間を含むピッチパターンを補正することで、前記音声の発話様式を変更するピッチパターン補正方法であって、
前記補正された特定の区間を含むピッチパターンを補正する際に、前記音声の韻律(但し、ピッチの最大値を除く)に応じて、前記補正された特定の区間を含むピッチパターンを補正する補正量を変更すること
を特徴とするピッチパターン補正方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/043388 WO2021090381A1 (ja) | 2019-11-06 | 2019-11-06 | ピッチパターン補正装置、プログラム及びピッチパターン補正方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6727477B1 true JP6727477B1 (ja) | 2020-07-22 |
JPWO2021090381A1 JPWO2021090381A1 (ja) | 2021-11-25 |
Family
ID=71663985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020516498A Active JP6727477B1 (ja) | 2019-11-06 | 2019-11-06 | ピッチパターン補正装置、プログラム及びピッチパターン補正方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6727477B1 (ja) |
WO (1) | WO2021090381A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000075880A (ja) * | 1998-09-01 | 2000-03-14 | Nippon Telegr & Teleph Corp <Ntt> | ピッチパタン変形方法及びその記録媒体 |
JP2008015362A (ja) * | 2006-07-07 | 2008-01-24 | Sharp Corp | 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム |
JP2015102773A (ja) * | 2013-11-27 | 2015-06-04 | 日産自動車株式会社 | 音声発生装置、音声変形装置及び方法 |
-
2019
- 2019-11-06 WO PCT/JP2019/043388 patent/WO2021090381A1/ja active Application Filing
- 2019-11-06 JP JP2020516498A patent/JP6727477B1/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000075880A (ja) * | 1998-09-01 | 2000-03-14 | Nippon Telegr & Teleph Corp <Ntt> | ピッチパタン変形方法及びその記録媒体 |
JP2008015362A (ja) * | 2006-07-07 | 2008-01-24 | Sharp Corp | 韻律補正装置、音声合成装置、韻律補正方法、音声合成方法、韻律補正プログラム、および、音声合成プログラム |
JP2015102773A (ja) * | 2013-11-27 | 2015-06-04 | 日産自動車株式会社 | 音声発生装置、音声変形装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2021090381A1 (ja) | 2021-11-25 |
WO2021090381A1 (ja) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5482042B2 (ja) | 合成音声テキスト入力装置及びプログラム | |
EP0831460B1 (en) | Speech synthesis method utilizing auxiliary information | |
US8433573B2 (en) | Prosody modification device, prosody modification method, and recording medium storing prosody modification program | |
JP3070127B2 (ja) | 音声合成装置のアクセント成分制御方式 | |
JP6266372B2 (ja) | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム | |
JP2008268477A (ja) | 韻律調整可能な音声合成装置 | |
JP2008249808A (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP6013104B2 (ja) | 音声合成方法、装置、及びプログラム | |
JP2001109500A (ja) | 音声合成装置および方法 | |
JP3728173B2 (ja) | 音声合成方法、装置および記憶媒体 | |
JP6727477B1 (ja) | ピッチパターン補正装置、プログラム及びピッチパターン補正方法 | |
JP2009133890A (ja) | 音声合成装置及びその方法 | |
JP4584511B2 (ja) | 規則音声合成装置 | |
JP6762454B1 (ja) | ピッチパターン補正装置、プログラム及びピッチパターン補正方法 | |
JP7004872B2 (ja) | ピッチパターン補正装置、プログラム及びピッチパターン補正方法 | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
JP4640063B2 (ja) | 音声合成方法,音声合成装置,およびコンピュータプログラム | |
JP2007271910A (ja) | 合成音声生成装置 | |
JP4525162B2 (ja) | 音声合成装置及びそのプログラム | |
JP2008058379A (ja) | 音声合成システム及びフィルタ装置 | |
JP2536169B2 (ja) | 規則型音声合成装置 | |
JP2018041116A (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP2016122033A (ja) | 記号列生成装置、音声合成装置、音声合成システム、記号列生成方法、及びプログラム | |
JP2003330482A (ja) | 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成方法、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200318 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200318 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200318 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200529 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200602 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200630 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6727477 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |