JP4759827B2 - 音声セグメンテーション装置及びその方法並びにその制御プログラム - Google Patents

音声セグメンテーション装置及びその方法並びにその制御プログラム Download PDF

Info

Publication number
JP4759827B2
JP4759827B2 JP2001091561A JP2001091561A JP4759827B2 JP 4759827 B2 JP4759827 B2 JP 4759827B2 JP 2001091561 A JP2001091561 A JP 2001091561A JP 2001091561 A JP2001091561 A JP 2001091561A JP 4759827 B2 JP4759827 B2 JP 4759827B2
Authority
JP
Japan
Prior art keywords
segmentation
speech
matching
target waveform
synthesized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001091561A
Other languages
English (en)
Other versions
JP2002287785A (ja
Inventor
卓也 滝澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001091561A priority Critical patent/JP4759827B2/ja
Priority to US10/107,670 priority patent/US7010481B2/en
Publication of JP2002287785A publication Critical patent/JP2002287785A/ja
Application granted granted Critical
Publication of JP4759827B2 publication Critical patent/JP4759827B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は音声セグメンテーション装置及びその方法並びにその制御プログラムに関し、特に既知の発声内容の音声信号のセグメンテーションをなす音声セグメンテーション方式に関するものである。
【0002】
【従来の技術】
従来の音声セグメンテーション技術では、音声セグメント境界に特有の特徴パラメータを個々に抽出し、それらの総合判断によってセグメンテーションを行っている。1つのセグメンテーションは1種類の音韻に対応するので、セグメント内では特徴パラメータの変化は少ない。一方、セグメント分割点では、音韻の種類が変化するので、特徴パラメータの変化は大きい。このような事実に基づき、特徴の変化量を基にセグメント分割点を求めることが可能である(以下、従来技術1と呼ぶ)。
【0003】
また、音声データベース構築のための音声データ収集等の目的においては、入力音声の音素系列が既知であることが多い。このような場合には、セグメンテーションに際して、その音素系列に基づいた情報を利用することができる。この一例として、音素系列が既知である入力音声に対し、特徴パラメータを用いて視察によりラベリングを行ったものを参照音声として、それと同じ音素系列の新規入力音声に対して前記参照音声とのDPマッチングによってラベリングを行う方法がある(以下、従来技術2と呼ぶ)。
【0004】
更に、HMM(隠れマルコフモデル)を用いて自動セグメンテーションを行う方法も知られている(以下、従来技術3と呼ぶ)。
【0005】
【発明が解決しようとする課題】
第1の問題点は、従来技術1においては、特徴パラメータの変化によりセグメント分割点を決定するために、特徴パラメータの変化量が少ない音韻境界においてセグメント分割点を決定するのが困難であるということである。
【0006】
第2の問題点は、従来技術2においては、予め新規の入力音声と同じ音素系列の音声に視察によるラベリングを行わなければならないために、人手によるコストが高くなるということである。
【0007】
第3の問題点は、従来技術2において、視察によるラベリングを行った音声と同じ個所にポーズを付加した発声を行う必要があるために、新規音声収録の際に、ポーズ個所を意識して発声しなければならないということである。
【0008】
第4の問題点は、従来技術2において、視察によるラベリングを行った音声と同じ個所の母音を無声化させて発声を行う必要があるために、新規音声収録の際に、母音の無声化を意識して発声しなければならないということである。
【0009】
第5の問題点は、従来技術3において、HMMによる自動セグメンテーションでは、時間的な制約がゆるいために、音韻境界付近での精度が低いということである。特定話者のデータで学習を行うことにより音韻境界付近での精度を向上させることは可能であるが、学習のために特定話者の高精度のセグメント情報が必要となる。
【0010】
本発明の目的は、既知の入力音声に対してセグメンテーションを行う際に、音声合成により正確なセグメント分割点の保証される音声波形を作成し、DPマッチングを行うことにより、人手によるコスト削減と、特徴パラメータの変化量が少ない音韻境界においてのセグメント分割点の選択をより正確に行うことが可能な音声セグメンテーション装置及びその方法並びにその制御プログラムを提供することである。
【0011】
また、本発明の他の目的は、時間的な制約が明確な音声合成による波形とのDPマッチングを行うことにより、HMMが不得意とする音韻境界付近の精度を向上させることが可能な音声セグメンテーション装置及びその方法並びにその制御プログラムを提供することである。
【0012】
【課題を解決するための手段】
本発明によれば、
音声合成手段により生成された合成音声と発声内容が等しいセグメンテーション対象波形のセグメンテーションをなす音声セグメンテーション装置であって、
前記合成音声の波形の音韻毎の継続時間長情報を出力する音声合成手段と、
前記合成音声の波形の特徴パラメータと前記音韻毎の継続時間長情報とを参照情報として、前記セグメンテーション対象波形の特徴パラメータに対してDPマッチングを行って、前記セグメンテーション対象波形のセグメンテーションをなすセグメンテーション手段とを含み、
前記合成音声はポーズを付加されていない合成音声であり、
前記セグメンテーション手段は、前記セグメンテーション対象波形のパワー情報を参照してポーズ区間を判定する手段と、このポーズ区間と判定された個所において、前記DPマッチングにおける検索パス幅及び検索パス重みを制御する手段と、前記ポーズ区間とこのポーズ区間周辺のセグメント分割点情報とを基に、ポーズ境界を決定する手段と、前記ポーズ境界により区切られた区間のDPマッチングをなすDPマッチング手段とを有し、
前記DPマッチング手段は、前記合成音声が無声化母音を含まない場合、前記合成音声の無声化し得る区間の先頭時刻における前記セグメンテーション対象波形との距離を保存し、この保存距離と前記無声化し得る区間の最終時刻における前記セグメンテーション対象波形との距離とを比較してその差に応じて前記セグメンテーション対象波形の母音の無声化を判定する手段を有することを特徴とする音声セグメンテーション装置が得られる。
【0013】
また、本発明によれば、
音声合成手段により生成された合成音声と発声内容が等しいセグメンテーション対象波形のセグメンテーションをなす音声セグメンテーション装置であって、
前記合成音声の波形の音韻毎の継続時間長情報を出力する音声合成手段と、
前記合成音声の波形の特徴パラメータと前記音韻毎の継続時間長情報とを参照情報として、前記セグメンテーション対象波形の特徴パラメータに対してDPマッチングを行って、前記セグメンテーション対象波形のセグメンテーションをなすセグメンテーション手段と、
別話者音声合成用素片を用いて音声合成に必要な素片のセグメーテーションを、前記音声合成手段及び前記セグメンテーション手段を用いて行わせる手段と、
このセグメンテーション手段により得られた素片を同話者音声合成用素片として格納する手段と、
この格納された同話者音声合成用素片を用いて前記音声合成に必要な素片のセグメーテーションを、前記音声合成手段及び前記セグメンテーション手段を用いて、セグメンテーション境界が収束するまで繰り返し行わせる手段と、
を含むことを特徴とする音声セグメンテーション装置が得られる。
【0017】
本発明によれば、
音声合成手段により生成された合成音声と発声内容が等しいセグメンテーション対象波形のセグメンテーションをなす音声セグメンテーション方法であって、
前記合成音声の波形の音韻毎の継続時間長情報を出力する音声合成ステップと、
前記合成音声の波形の特徴パラメータと前記音韻毎の継続時間長情報とを参照情報として、前記セグメンテーション対象波形の特徴パラメータに対してDPマッチングを行って、前記セグメンテーション対象波形のセグメンテーションをなすセグメンテーションステップとを含み、
前記合成音声はポーズを付加されていない合成音声であり、
前記セグメンテーションステップは、前記セグメンテーション対象波形のパワー情報を参照してポーズ区間を判定するステップと、このポーズ区間と判定された個所において、前記DPマッチングにおける検索パス幅及び検索パス重みを制御するステップと、前記ポーズ区間とこのポーズ区間周辺のセグメント分割点情報とを基に、ポーズ境界を決定するステップと、前記ポーズ境界により区切られた区間のDPマッチングをなすDPマッチングステップを有し、
前記DPマッチングステップは、前記合成音声が無声化母音を含まない場合、前記合成音声の無声化し得る区間の先頭時刻における前記セグメンテーション対象波形との距離を保存し、この保存距離と前記無声化し得る区間の最終時刻における前記セグメンテーション対象波形との距離とを比較してその差に応じて前記セグメンテーション対象波形の母音の無声化を判定するようにしたことを特徴とする音声セグメンテーション方法が得られる。
【0018】
また、本発明によれば、
音声合成手段により生成された合成音声と発声内容が等しいセグメンテーション対象波形のセグメンテーションをなす音声セグメンテーション方法であって、
前記合成音声の波形の音韻毎の継続時間長情報を出力する音声合成ステップと、
前記合成音声の波形の特徴パラメータと前記音韻毎の継続時間長情報とを参照情報として、前記セグメンテーション対象波形の特徴パラメータに対してDPマッチングを行って、前記セグメンテーション対象波形のセグメンテーションをなすセグメンテーションステップとを含み、
別話者音声合成用素片を用いて音声合成に必要な素片のセグメーテーションを、前記音声合成ステップ及び前記セグメンテーションステップを用いて行い、
このセグメンテーションステップにより得られた素片を同話者音声合成用素片として格納し、
この格納された同話者音声合成用素片を用いて前記音声合成に必要な素片のセグメーテーションを、前記音声合成ステップ及び前記セグメンテーションステップを用いて、セグメンテーション境界が収束するまで繰り返し行わせるようにしたことを特徴とする音声セグメンテーション方法が得られる。
【0023】
本発明によれば、
音声合成手段により生成された合成音声と発声内容が等しいセグメンテーション対象波形のセグメンテーションをなす音声セグメンテーション方法をコンピュータに実行させるための制御プログラムであって、
前記合成音声の波形の音韻毎の継続時間長情報を出力する音声合成処理と、
前記合成音声の波形の特徴パラメータと前記音韻毎の継続時間長情報とを参照情報として、前記セグメンテーション対象波形の特徴パラメータに対してDPマッチングを行って、前記セグメンテーション対象波形のセグメンテーションをなすセグメンテーション処理とを含み、
前記合成音声はポーズを付加されていない合成音声であり、
前記セグメンテーション処理は、前記セグメンテーション対象波形のパワー情報を参照してポーズ区間を判定する処理と、このポーズ区間と判定された個所において、前記DPマッチングにおける検索パス幅及び検索パス重みを制御する処理と、前記ポーズ区間とこのポーズ区間周辺のセグメント分割点情報とを基に、ポーズ境界を決定する処理と、前記ポーズ境界により区切られた区間のDPマッチングをなすDPマッチング処理とを有し、
前記DPマッチング処理は、前記合成音声が無声化母音を含まない場合、前記合成音声の無声化し得る区間の先頭時刻における前記セグメンテーション対象波形との距離を保存し、この保存距離と前記無声化し得る区間の最終時刻における前記セグメンテーション対象波形との距離とを比較してその差に応じて前記セグメンテーション対象波形の母音の無声化を判定するようにしたことを特徴とする制御プログラムが得られる。
【0024】
【発明の実施の形態】
以下に、図面を参照しつつ本発明の実施の形態につき説明する。図1は本発明の一実施例の概略ブロック図である。音声合成部31はセグメンテーション対象となる音声02と同じ音素系列の発声内容のテキスト01を入力とし、音声合成を行って合成音声104と音韻毎の継続時間長情報103とを出力する。
【0025】
セグメンテーション部32は合成音声104と合成音声の音韻継続時間長情報103とを用いて、セグメンテーション対象音声02のセグメンテーションをなすものである。このセグメンテーション部32は、特徴パラメータ抽出部11と、マッチング部12と、マッチング結果修正部13と、セグメンテーション結果出力部14とを有している。
【0026】
特徴パラメータ抽出部11は合成音声104とセグメンテーション対象音声02とを入力とし、それぞれの特徴パラメータ101及び102を一定時間毎に抽出しつつ出力する。マッチング部12は合成音声104の音韻毎の継続時間長情報103及び合成音声104の特徴パラメータ101、更にはセグメンテーション対象音声02の特徴パラメータ102を入力とし、両特徴パラメータ101及び102を用いてDPマッチング処理を行う。このとき、合成音声の音韻毎の継続時間長情報103との対応付けをも行って、マッチング結果修正部13を介して、セグメンテーション結果出力部からラベル情報03として出力する。
【0027】
図1に示したマッチング部12の具体例を図2のブロック図に示している。図2を参照すると、マッチング部12はDPマッチング(前処理)部21と、ポーズ境界確定部22と、DPマッチング部23と、マッチング部処理終了判定部24とからなっている。DPマッチング(前処理)部21は、合成音声の特徴パラメータ101とセグメンテーション対象音声の特徴パラメータ102の全体に対してDPマッチングを行う。
【0028】
具体例には、図3のフローチャートに示す如く、セグメンテーション対象音声のパワー情報を用いて、そのパワーがある閾値よりも小さい連続した区間があれば(ステップS1,S2)、その区間をポーズ区間とし(ステップS3)、ポーズ区間内では、DPマッチングの検索パス幅を無制限とする(ステップS4)。また、ポーズ区間内では、検索パス毎の重みを一定とする(ステップS5)。そして、DPマッチングを行うことになる(ステップS6)。しかる後に、音韻継続時間長情報103との対応付けを行うことになる(ステップS7)。最終的に、マッチング結果が出力される(ステップS8)。
【0029】
ポーズ確定部22においては、図4のフローチャートに示す如く、DPマッチング(前処理)部21により出力されたマッチング結果を入力とし(ステップS11)当該マッチング結果のポーズ区間情報とポーズ区間近辺のセグメント分割点情報とを基に、ポーズ境界が決定され(ステップS12)、ポーズ境界情報が出力されることになる(ステップS13)。
【0030】
DPマッチング部23はポーズ境界確定部22にて決定されたポーズ境界により区切られた区間毎のDPマッチングをなすものであり、マッチング部処理終了判定部24により、全ての区間のDPマッチング処理が終了したと判定されるまで、区間毎のDPマッチングがなされる。図5はこれらDPマッチング部23とマッチング部処理終了判定部24との動作を示すフローチャートである。
【0031】
図5を参照すると、iをポーズ境界の数(変数)とすると、i=1とおいて(ステップS21)、先ず第1番目のポーズ境界までのDPマッチングがなされる(ステップS22)。このとき、音韻継続時間長情報103との対応付けもなされる(ステップS23)。次の(第2番目の)ポーズ境界までのDPマッチング及び時間長情報との対応付けがなされる(ステップS25)。最後のポーズ境界までの処理がなされると(ステップS24)、セグメンテーション結果が出力されることになる(ステップS26)。
【0032】
図6はマッチング部12におけるマッチング結果を、実際の波形とラベル情報とに対応付けて示したものである。図6(a)はDPマッチング(前処理)部21及びポーズ境界確定部22での処理により得られた結果を、実際の波形とラベル情報とに対応付けたものであり、ラベル情報とは、図6(a)の縦線及びその縦線の範囲がどの音素であるかを示す音素記号からなるものである。図6(a)の波形中のラベル情報102のうち、ポーズ区間のみが必要な情報であって、他のラベル情報は不要なものであって、ここでは廃棄されることになる。
【0033】
図6(b)はDPマッチング部23でのマッチング結果を示したものであり、図6(a)に示したポーズ区間(DPマッチング(前処理)部21及びポーズ境界確定部22で確定されたもの)で区切られた区間毎にDPマッチングを行った結果のラベル情報である。図中の”1”や”2”の数字は、図5のフローチャートにおける”i”の値に相当しており、第i回目のDPマッチングの結果であることを示している。
【0034】
図7はDPマッチング(前処理)部21におけるマッチング結果を示しており、セグメンテーション対象音声で、ポーズ区間と判定された範囲では、検索パス幅の制限をなくし、重みを一定に制御するので(図3のフローのステップS4,S5参照)、合成音声にポーズが付加されていなければ、セグメンテーション対象音声ポーズ区間に、2つ以上のセグメント分割点が割当てられることはないのである。
【0035】
DPマッチング部23におけるDPマッチングの際の無声化自動判定方法の動作例について、図8及び図9を用いて説明する。図8においては”i”が無声化し得る母音であるとし、また合成音声の特徴パラメータの無声化し得る母音の先頭時刻t1及び終了時刻t2とを、予め記憶しておき、セグメンテーション対象音声とのDPマッチングを、図9のフローチャートに従って行う。
【0036】
図9において、合成音声の特徴パラメータのある時刻をt、セグメンテーション対象音声の特徴パラメータのある時刻をt’とすると、マッチングを終えたあとのある時刻(t,t’)において、合成音声の特徴パラメータの一つ前の時刻(t−1)で、一番それまでの距離が小さかった対象音声の特徴パラメータの時刻(t2’)と、ある時刻(t,t’)までの距離が、メモリ等に格納されている。
【0037】
最適パス(一番重みが小さくなるパス:図8)の検索は、特徴パラメータのそれぞれの最終時刻(図8の右上)から検索されるが、その際のフローが図9に示すものである。図9において、L[ t][t’] を、特徴パラメータの一つ前の位置(t−1)で一番それまでの距離が小さかった対象音声の特徴パラメータ位置とし、G[ t][t’] を、ある時刻(t,t’)における距離とする。t1,t2は前述した如く、無声化し得る母音の先頭及び末尾時刻である。
【0038】
先ず、tとして合成音声の特徴パラメータの最終時刻に設定し、またt’として対象音声の特徴パラメータの最終時刻に設定する(ステップS31)。t=t2かどうかを判定し(ステップS32)、そうであれば、G[ t2][t’] >G[ t1][t’] を判定する(ステップS33)。そうであれば、t2からt1までの時刻をTとし、L[ T][ t’] =t’とする(ステップS34)。しかる後に、t’=L[ t][ t’] として(ステップS35)、tを一つ前の時刻(t−1)とする(ステップS36)。このとき、t=0であれば(ステップS37)処理終了となり、そうでなければ、再びステップS32に戻って上述の処理を繰り返すことになる。
【0039】
上述の処理により得られたt,t’をプロットしたものが図8の実線で示す最適パスとなり、ステップS33において、”NO”の判定の場合には、図8の点線で示す方のパスとなり、この場合は無声化しないことを意味する。
【0040】
以上の処理を要約すると、時刻t1とt2における全てのパスの距離を記憶しておき、最適パスを検索するに当り、t2における距離と、対応するt1における距離とを比較し、t1における距離値の方が小さい場合には、無声化していると判定し、図8の如く、セグメンテーション対象音声の特徴パラメータのt2における最適パスの時刻と同時刻の個所まで、最適パスを繋げる。t2における距離値の方が小さい場合には、通常どおり最適パス検索を行うことになる。
【0041】
また、上述したマッチングを行う際、”i”が無声化していた場合、合成音声の”i”直前の無声子音”sh”と、セグメンテーション対象音声の”i”が無声化している”sh+無声化したi”がマッチングしたことになるが、「無声子音+無声化母音」と無声子音のみでは、「無声子音+無声化母音」の方が長いことが多い。そこで、DPマッチングを行う際に、合成音声の無声化し得る母音直前の無声子音区間において、DPマッチングの検索パス幅を広げておく。
【0042】
再び、図1を参照すると、マッチング結果修正部13は、マッチング部12における処理終了後、音韻の種類を参照してセグメント分割点における特徴パラメータの変化量が大きいと判定された境界において、特定の範囲で特徴パラメータの変化量が最大となる時刻にセグメント境界を移動するものである。
【0043】
図10は本発明の他の実施例のブロック図であり、図1と同等部分は同一符号にて示している。本例では、音声合成素片用データベース04と、音声合成用素片作成部33と、同話者音声合成用素片05と、別話者音声合成用素片06とを、図1の構成に追加して設けている。
【0044】
本実施例では、まず、セグメンテーション対象音声とは別話者のもので作成された音声合成用素片06を用い、音声合成素片を作成するのに必要なだけの音声波形のセグメンテーションを行う。音声合成素片を作成するのに必要なセグメンテーション結果と音声波形を音声合成素片用データベース04とする。音声合成用素片作成部33は、音声合成素片用データベース04を分析し音声合成用素片を作成する。ここで作成された素片は、セグメンテーション対象音声と同話者の音声合成用素片05となる。同話者音声合成用素片05が作成された後は、別話者音声合成用素片06の代わりに同話者音声合成用素片05を用いて音声合成を行い、セグメンテーション対象音声に対して際してセグメンテーションを行う。この一巡の処理をセグメンテーション結果がある程度収束するまで繰り返し行う。
【0045】
図11は図10のブロックの動作の詳細を示すフローチャートである。”i”をセグメンテーション対象の音声の数とすると、先ずi=0として(ステップS41)、セグメンテーション対象音声の合成用素片が、同話者音声合成用素片05にあるかどうかを調べ(ステップS42)、なければ、別話者音声合成用素片06を用い、またあれば、同話者音声合成用素片05を用い、音声合成部31で合成音声104と継続時間情報103とを作成する(ステップS43,S44)。
【0046】
そして、セグメンテーション部32において、自動セグメンテーションを行う(ステップS45)。このセグメンテーションの結果を音声合成素片用データベース04へ格納すると共に、合成素片を作成できるだけの音声とラベルが得られたかどうか、また”i”が素片作成に必要な数になったかどうかを判定し(ステップS46)、そうでなければ、i=i+1としてステップS42へ戻り上記処理を繰返す(ステップS47)。ステップS46で”YES”であれば、音声合成用素片作成部33において、音声合成素片用データベース04を用いて合成素片を作成する(ステップS48)。
【0047】
一つ前のセグメンテーション結果との差が所定閾値以内であるかどうかを判定し(ステップS49)、そうでなければ、所定閾値以内に収束するまで上記処理を繰返す(ステップS50)。
【0048】
上述の各実施例における動作フローの処理は、特に図示しないが、プログラムとして記録媒体に格納しておき、これをコンピュータにより読み取って実行することで、実現できることは明らかである。
【図面の簡単な説明】
【図1】本発明の一実施例のブロック図である。
【図2】図1のマッチング部12の具体例を示す図である。
【図3】DPマッチング(前処理)部21の動作フローである。
【図4】ポーズ確定部22の動作フローである。
【図5】DPマッチング部23とマッチング部処理終了判定部24の動作フローである。
【図6】マッチング部12におけるマッチング結果を、実際の波形とラベル情報とに対応付けて示した図である。
【図7】DPマッチング(前処理)部21におけるマッチング結果を示す図である。
【図8】DPマッチングの際の無声化自動判定方法の動作例を説明するための図である。
【図9】DPマッチングの際の無声化自動判定方法の動作を示すフローチャートである。
【図10】本発明の他の実施例のブロック図である。
【図11】図10の実施例の動作を示すフロー図である。
【符号の説明】
01 発声内容(テキスト)
02 音声波形(セグメンテーション対象)
03 セグメンテーション結果
04 音声合成素片用データベース
05 同話者音声合成用素片
06 別話者音声合成用素片
11 特徴パラメータ抽出部
12 マッチング部
13 マッチング結果修正部
14 セグメンテーション結果出力部
21 DPマッチング(前処理)部
22 ポーズ境界確定部
23 DPマッチング部
24 マッチング部処理終了判定部
31 音声合成部
32 セグメンテーション部

Claims (17)

  1. 音声合成手段により生成された合成音声と発声内容が等しいセグメンテーション対象波形のセグメンテーションをなす音声セグメンテーション装置であって、
    前記合成音声の波形の音韻毎の継続時間長情報を出力する音声合成手段と、
    前記合成音声の波形の特徴パラメータと前記音韻毎の継続時間長情報とを参照情報として、前記セグメンテーション対象波形の特徴パラメータに対してDPマッチングを行って、前記セグメンテーション対象波形のセグメンテーションをなすセグメンテーション手段とを含み、
    前記合成音声はポーズを付加されていない合成音声であり、
    前記セグメンテーション手段は、前記セグメンテーション対象波形のパワー情報を参照してポーズ区間を判定する手段と、このポーズ区間と判定された個所において、前記DPマッチングにおける検索パス幅及び検索パス重みを制御する手段と、前記ポーズ区間とこのポーズ区間周辺のセグメント分割点情報とを基に、ポーズ境界を決定する手段と、前記ポーズ境界により区切られた区間のDPマッチングをなすDPマッチング手段とを有し、
    前記DPマッチング手段は、前記合成音声が無声化母音を含まない場合、前記合成音声の無声化し得る区間の先頭時刻における前記セグメンテーション対象波形との距離を保存し、この保存距離と前記無声化し得る区間の最終時刻における前記セグメンテーション対象波形との距離とを比較してその差に応じて前記セグメンテーション対象波形の母音の無声化を判定する手段を有することを特徴とする音声セグメンテーション装置。
  2. 音声合成手段により生成された合成音声と発声内容が等しいセグメンテーション対象波形のセグメンテーションをなす音声セグメンテーション装置であって、
    前記合成音声の波形の音韻毎の継続時間長情報を出力する音声合成手段と、
    前記合成音声の波形の特徴パラメータと前記音韻毎の継続時間長情報とを参照情報として、前記セグメンテーション対象波形の特徴パラメータに対してDPマッチングを行って、前記セグメンテーション対象波形のセグメンテーションをなすセグメンテーション手段と、
    別話者音声合成用素片を用いて音声合成に必要な素片のセグメーテーションを、前記音声合成手段及び前記セグメンテーション手段を用いて行わせる手段と、
    このセグメンテーション手段により得られた素片を同話者音声合成用素片として格納する手段と、
    この格納された同話者音声合成用素片を用いて前記音声合成に必要な素片のセグメーテーションを、前記音声合成手段及び前記セグメンテーション手段を用いて、セグメンテーション境界が収束するまで繰り返し行わせる手段と、
    を含むことを特徴とする音声セグメンテーション装置。
  3. 前記合成音声はポーズを付加されていない合成音声であり、
    前記セグメンテーション手段は、前記セグメンテーション対象波形のパワー情報を参照してポーズ区間を判定する手段と、このポーズ区間と判定された個所において、前記DPマッチングにおける検索パス幅及び検索パス重みを制御する手段とを有することを特徴とする請求項2記載の音声セグメンテーション装置。
  4. 前記セグメンテーション手段は、前記ポーズ区間とこのポーズ区間周辺のセグメント分割点情報とを基に、ポーズ境界を決定する手段を、更に有することを特徴とする請求項3記載の音声セグメンテーション装置。
  5. 前記セグメンテーション手段は、前記ポーズ境界により区切られた区間のDPマッチングをなすDPマッチング手段を、更に有することを特徴とする請求項4記載の音声セグメンテーション装置。
  6. 前記DPマッチング手段は、前記合成音声が無声化母音を含まない場合、前記合成音声の無声化し得る区間の先頭時刻における前記セグメンテーション対象波形との距離を保存し、この保存距離と前記無声化し得る区間の最終時刻における前記セグメンテーション対象波形との距離とを比較してその差に応じて前記セグメンテーション対象波形の母音の無声化を判定する手段を有することを特徴とする請求項5記載の音声セグメンテーション装置。
  7. 前記DPマッチング手段は、前記合成音声の無声化し得る母音直前の無声子音区間において、前記DPマッチングの検索幅を広げるようにしたことを特徴とする請求項1または2記載の音声セグメンテーション装置。
  8. 前記セグメンテーション手段は、セグメンテーションを行った波形の特定音韻境界において、特徴パラメータの変化量を参照して前記音韻境界の修正をなす手段を、更に有することを特徴とする請求項1〜7いずれか記載の音声セグメンテーション装置。
  9. 音声合成手段により生成された合成音声と発声内容が等しいセグメンテーション対象波形のセグメンテーションをなす音声セグメンテーション方法であって、
    前記合成音声の波形の音韻毎の継続時間長情報を出力する音声合成ステップと、
    前記合成音声の波形の特徴パラメータと前記音韻毎の継続時間長情報とを参照情報として、前記セグメンテーション対象波形の特徴パラメータに対してDPマッチングを行って、前記セグメンテーション対象波形のセグメンテーションをなすセグメンテーションステップとを含み、
    前記合成音声はポーズを付加されていない合成音声であり、
    前記セグメンテーションステップは、前記セグメンテーション対象波形のパワー情報を参照してポーズ区間を判定するステップと、このポーズ区間と判定された個所において、前記DPマッチングにおける検索パス幅及び検索パス重みを制御するステップと、前記ポーズ区間とこのポーズ区間周辺のセグメント分割点情報とを基に、ポーズ境界を決定するステップと、前記ポーズ境界により区切られた区間のDPマッチングをなすDPマッチングステップを有し、
    前記DPマッチングステップは、前記合成音声が無声化母音を含まない場合、前記合成音声の無声化し得る区間の先頭時刻における前記セグメンテーション対象波形との距離を保存し、この保存距離と前記無声化し得る区間の最終時刻における前記セグメンテーション対象波形との距離とを比較してその差に応じて前記セグメンテーション対象波形の母音の無声化を判定するようにしたことを特徴とする音声セグメンテーション方法。
  10. 音声合成手段により生成された合成音声と発声内容が等しいセグメンテーション対象波形のセグメンテーションをなす音声セグメンテーション方法であって、
    前記合成音声の波形の音韻毎の継続時間長情報を出力する音声合成ステップと、
    前記合成音声の波形の特徴パラメータと前記音韻毎の継続時間長情報とを参照情報として、前記セグメンテーション対象波形の特徴パラメータに対してDPマッチングを行って、前記セグメンテーション対象波形のセグメンテーションをなすセグメンテーションステップとを含み、
    別話者音声合成用素片を用いて音声合成に必要な素片のセグメーテーションを、前記音声合成ステップ及び前記セグメンテーションステップを用いて行い、
    このセグメンテーションステップにより得られた素片を同話者音声合成用素片として格納し、
    この格納された同話者音声合成用素片を用いて前記音声合成に必要な素片のセグメーテーションを、前記音声合成ステップ及び前記セグメンテーションステップを用いて、セグメンテーション境界が収束するまで繰り返し行わせるようにしたことを特徴とする音声セグメンテーション方法。
  11. 前記合成音声はポーズを付加されていない合成音声であり、
    前記セグメンテーションステップは、前記セグメンテーション対象波形のパワー情報を参照してポーズ区間を判定するステップと、このポーズ区間と判定された個所において、前記DPマッチングにおける検索パス幅及び検索パス重みを制御するステップとを、更に有することを特徴とする請求項10記載の音声セグメンテーション方法。
  12. 前記セグメンテーションステップは、前記ポーズ区間とこのポーズ区間周辺のセグメント分割点情報とを基に、ポーズ境界を決定するステップを、更に有することを特徴とする請求項11記載の音声セグメンテーション方法。
  13. 前記セグメンテーションステップは、前記ポーズ境界により区切られた区間のDPマッチングをなすDPマッチングステップを、更に有することを特徴とする請求項12記載の音声セグメンテーション方法。
  14. 前記DPマッチングステップは、前記合成音声が無声化母音を含まない場合、前記合成音声の無声化し得る区間の先頭時刻における前記セグメンテーション対象波形との距離を保存し、この保存距離と前記無声化し得る区間の最終時刻における前記セグメンテーション対象波形との距離とを比較してその差に応じて前記セグメンテーション対象波形の母音の無声化を判定する手段を有することを特徴とする請求項13記載の音声セグメンテーション方法。
  15. 前記DPマッチングステップは、前記合成音声の無声化し得る母音直前の無声子音区間において、前記DPマッチングの検索幅を広げるようにしたことを特徴とする請求項9または10記載の音声セグメンテーション方法。
  16. 前記セグメンテーションステップは、セグメンテーションを行った波形の特定音韻境界において、特徴パラメータの変化量を参照して前記音韻境界の修正をなすステップを、更に有することを特徴とする請求項9〜15いずれか記載の音声セグメンテーション方法。
  17. 音声合成手段により生成された合成音声と発声内容が等しいセグメンテーション対象波形のセグメンテーションをなす音声セグメンテーション方法をコンピュータに実行させるための制御プログラムであって、
    前記合成音声の波形の音韻毎の継続時間長情報を出力する音声合成処理と、
    前記合成音声の波形の特徴パラメータと前記音韻毎の継続時間長情報とを参照情報として、前記セグメンテーション対象波形の特徴パラメータに対してDPマッチングを行って、前記セグメンテーション対象波形のセグメンテーションをなすセグメンテーション処理とを含み、
    前記合成音声はポーズを付加されていない合成音声であり、
    前記セグメンテーション処理は、前記セグメンテーション対象波形のパワー情報を参照してポーズ区間を判定する処理と、このポーズ区間と判定された個所において、前記DPマッチングにおける検索パス幅及び検索パス重みを制御する処理と、前記ポーズ区間とこのポーズ区間周辺のセグメント分割点情報とを基に、ポーズ境界を決定する処理と、前記ポーズ境界により区切られた区間のDPマッチングをなすDPマッチング処理とを有し、
    前記DPマッチング処理は、前記合成音声が無声化母音を含まない場合、前記合成音声の無声化し得る区間の先頭時刻における前記セグメンテーション対象波形との距離を保存し、この保存距離と前記無声化し得る区間の最終時刻における前記セグメンテーション対象波形との距離とを比較してその差に応じて前記セグメンテーション対象波形の母音の無声化を判定するようにしたことを特徴とする制御プログラム。
JP2001091561A 2001-03-28 2001-03-28 音声セグメンテーション装置及びその方法並びにその制御プログラム Expired - Fee Related JP4759827B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001091561A JP4759827B2 (ja) 2001-03-28 2001-03-28 音声セグメンテーション装置及びその方法並びにその制御プログラム
US10/107,670 US7010481B2 (en) 2001-03-28 2002-03-27 Method and apparatus for performing speech segmentation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001091561A JP4759827B2 (ja) 2001-03-28 2001-03-28 音声セグメンテーション装置及びその方法並びにその制御プログラム

Publications (2)

Publication Number Publication Date
JP2002287785A JP2002287785A (ja) 2002-10-04
JP4759827B2 true JP4759827B2 (ja) 2011-08-31

Family

ID=18946157

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001091561A Expired - Fee Related JP4759827B2 (ja) 2001-03-28 2001-03-28 音声セグメンテーション装置及びその方法並びにその制御プログラム

Country Status (2)

Country Link
US (1) US7010481B2 (ja)
JP (1) JP4759827B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6990445B2 (en) * 2001-12-17 2006-01-24 Xl8 Systems, Inc. System and method for speech recognition and transcription
US20030115169A1 (en) * 2001-12-17 2003-06-19 Hongzhuan Ye System and method for management of transcribed documents
JP2004012698A (ja) * 2002-06-05 2004-01-15 Canon Inc 情報処理装置及び情報処理方法
TWI220511B (en) * 2003-09-12 2004-08-21 Ind Tech Res Inst An automatic speech segmentation and verification system and its method
JP4621936B2 (ja) * 2005-09-16 2011-02-02 株式会社国際電気通信基礎技術研究所 音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム
JP5301376B2 (ja) * 2009-07-03 2013-09-25 日本放送協会 音声合成装置およびプログラム
JP5754141B2 (ja) * 2011-01-13 2015-07-29 富士通株式会社 音声合成装置および音声合成プログラム
CN112241467A (zh) * 2020-12-18 2021-01-19 北京爱数智慧科技有限公司 一种音频查重的方法和装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61203499A (ja) * 1985-03-06 1986-09-09 株式会社リコー 音声認識方式
JPS6444492A (en) 1987-08-12 1989-02-16 Nec Corp Voice segmentation apparatus
JP2536169B2 (ja) * 1989-07-27 1996-09-18 日本電気株式会社 規則型音声合成装置
US5168524A (en) * 1989-08-17 1992-12-01 Eliza Corporation Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation
JPH04130499A (ja) * 1990-09-21 1992-05-01 Oki Electric Ind Co Ltd 音声のセグメンテーション方法
JPH04158397A (ja) * 1990-10-22 1992-06-01 A T R Jido Honyaku Denwa Kenkyusho:Kk 声質変換方式
JPH0511794A (ja) * 1991-07-01 1993-01-22 Ricoh Co Ltd 音声合成装置
JPH07140996A (ja) * 1993-11-16 1995-06-02 Fujitsu Ltd 音声規則合成装置
US5655058A (en) * 1994-04-12 1997-08-05 Xerox Corporation Segmentation of audio data for indexing of conversational speech for real-time or postprocessing applications
DE19508711A1 (de) * 1995-03-10 1996-09-12 Siemens Ag Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind
JP3180655B2 (ja) * 1995-06-19 2001-06-25 日本電信電話株式会社 パターンマッチングによる単語音声認識方法及びその方法を実施する装置
KR100422263B1 (ko) * 1996-02-27 2004-07-30 코닌클리케 필립스 일렉트로닉스 엔.브이. 음성을자동으로분할하기위한방법및장치
JPH09244681A (ja) * 1996-03-12 1997-09-19 N T T Data Tsushin Kk 音声セグメント方法及び装置
US5862519A (en) * 1996-04-02 1999-01-19 T-Netix, Inc. Blind clustering of data with application to speech processing systems
DE69629667T2 (de) * 1996-06-07 2004-06-24 Hewlett-Packard Co. (N.D.Ges.D.Staates Delaware), Palo Alto Sprachsegmentierung
WO1998022936A1 (en) * 1996-11-22 1998-05-28 T-Netix, Inc. Subword-based speaker verification using multiple classifier fusion, with channel, fusion, model, and threshold adaptation
DE19920501A1 (de) * 1999-05-05 2000-11-09 Nokia Mobile Phones Ltd Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese
US6618699B1 (en) * 1999-08-30 2003-09-09 Lucent Technologies Inc. Formant tracking based on phoneme information
US7120575B2 (en) * 2000-04-08 2006-10-10 International Business Machines Corporation Method and system for the automatic segmentation of an audio stream into semantic or syntactic units

Also Published As

Publication number Publication date
US20020143538A1 (en) 2002-10-03
US7010481B2 (en) 2006-03-07
JP2002287785A (ja) 2002-10-04

Similar Documents

Publication Publication Date Title
US9818396B2 (en) Method and device for editing singing voice synthesis data, and method for analyzing singing
US4723290A (en) Speech recognition apparatus
JP5282737B2 (ja) 音声認識装置および音声認識方法
US8108216B2 (en) Speech synthesis system and speech synthesis method
TW440809B (en) Automatically updating language models
KR101587866B1 (ko) 음성 인식용 발음사전 확장 장치 및 방법
US9754024B2 (en) Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium
CN106971743B (zh) 用户演唱数据处理方法和装置
JP2014038282A (ja) 韻律編集装置、方法およびプログラム
CN110808049B (zh) 语音标注文本修正方法、计算机设备和存储介质
JP4759827B2 (ja) 音声セグメンテーション装置及びその方法並びにその制御プログラム
CN104900231A (zh) 语音检索装置以及语音检索方法
JP4639932B2 (ja) 音声合成装置
JP3728173B2 (ja) 音声合成方法、装置および記憶媒体
JP2001306087A (ja) 音声データベース作成装置および音声データベース作成方法および記録媒体
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP2000075880A (ja) ピッチパタン変形方法及びその記録媒体
JP4034751B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2008191334A (ja) 音声合成方法、音声合成プログラム、音声合成装置、音声合成システム
JP6565416B2 (ja) 音声検索装置、音声検索方法及びプログラム
JP6274015B2 (ja) 音響モデル調整装置及びプログラム
JPH11202886A (ja) 音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体
JP6680009B2 (ja) 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101004

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110523

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140617

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees