JP2665902B2 - 音声合成/認識方法 - Google Patents
音声合成/認識方法Info
- Publication number
- JP2665902B2 JP2665902B2 JP59244303A JP24430384A JP2665902B2 JP 2665902 B2 JP2665902 B2 JP 2665902B2 JP 59244303 A JP59244303 A JP 59244303A JP 24430384 A JP24430384 A JP 24430384A JP 2665902 B2 JP2665902 B2 JP 2665902B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- data
- speech synthesis
- single syllable
- synthesized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は音声合成方法、殊に音声の法則合成の方法に
関する。 (従来技術) 単音節の特徴を分析抽出してこれに基づいて人間の音
声を合成し又認識を行うことが試みられ一部実用されて
いる。 しかしながらこれら音声の合成或は認識の手法はいづ
れも大量の情報によってはじめて特徴づけられる音声信
号を通常の発生速度で発声した単音節から抽出した少量
の特徴抽出データに基づいて原音声を再生し或は原音量
又は他の類似した音声と比較せんとするものであった為
合成音声は明瞭度を欠き音声識別はその誤り率が多いと
いう欠陥があった。 尚、ここでいう明瞭度は、単音節を送話したとき受話
者が、その何%を正しく受聴したかを示す尺度であり、
人の音声から取得した単音節を忠実に再現する度合を示
す忠実度とは異なり、受話者がその合成音声をどの程度
正確に認識できるかを示すものである。 (発明の目的) 本発明は上述した如き従来の音声の合成/認識方法の
欠陥を除去すべくなされたものであって,合成音声の明
瞭度を向上し,音声認識に於いては認識の誤り率を低減
した音声合成/認識方法を提供することを目的とする。 (発明の概要) 上述の目的を達成する為,本発明に於いては単音節を
可能な限り明瞭に,従って緩徐に発声せしめることによ
ってその特徴を忠実に分析抽出して得た原単音節に関す
る特徴抽出データに基づいて音声の合成或は認識を行な
わんとするものである。 (発明の実施例) 以下本発明をその理論に基づいて詳細に説明する。 先ず本発明の理解を助ける為,従来一般に行なわれて
いる音声の法則合成の手法について簡単に説明する。 音声の法則合成は第2図にその手順を示す如く人間に
単音節,例えば日本語の法則合成を行う場合には50音,
濁音,撥音及び幼音,につき夫々発声せしめこれらの特
徴を分析し夫々の特徴抽出データによって単音節ファイ
ル1を作成すると共に単音節の接続時の発声形式につい
ての法則を格納した接続法則ファイル2並びに単語のア
クセント或はイントネーション等に関する法則を格納し
たピッチ・パターン・ファイル3を用意し,例えばタイ
プライタ型キーによってテキストの入力部4から入力し
た単語或は文章の意味の解析をテキスト解析部5に於い
て行った後前記ファイル1,2及び3から所要のデータを
呼び出し単音節接続部6及びピッチ・パターン生成部7
を介して音声合成部8にて前記入力した所望の単語或は
文章をあたかも人間が発声しているが如く合成し出力せ
んとするものである。 而して前記単音節ファイル1を作成するに際し従来は
特徴抽出データを採取すべき原単音節は人間が通常単語
或は文章中の単音節を発声する程度の時間,即ち120乃
至200ms程度の発声からその特徴を分析し,その結果得
た特徴抽出データを基にして音声を合成していたが合成
音声の明瞭度が極めて低く満足すべき結果が得られなか
ったこと前述のとうりである。 この理由を勘案するに,人間の発声気候は極く短時間
の発声を以ってしてはその単音節の特徴を充分に表現す
るに足る単音節発声の立上りから定常状態に至るまでを
明瞭に発声することができないので従来の単音節の特徴
分析法では良好な特徴抽出データが得られない為であろ
うと考えられる。 この問題を解決する為本発明に於いては以下の如き単
音節特徴分析法を採用する。 即ち,人間をして極力長時間単音節をその立上りから
定常状態に至るまでの過渡部分を明瞭に発声せしめその
間に特徴の分析を行う。この際,過渡部分の発声時間を
自由に延長することは困難であろうがそれでも通常の単
音節或は文章中の単音節の発声時間より長くすることは
可能であるので特徴分析を実施する上で格別の困難はな
い。 ところで上述した如き原単音節の特徴分析は第1図
(a)に示す如くして行う。 なお、単音節の特徴を分析抽出する方法は、既に文献
等により開示されている方法で行う。、例えば“ケプス
トラム分析”“最尤スペクトル推定による音声分析”
“PARCOR音声分析”“線スペクトル対音声分析”等々の
方法があり、本願発明においては何れの方法で行っても
よい。したがって分析抽出する方法については当業者の
一般的事項であるので煩雑さを避けるため詳細な説明は
省略する。 即ち,原単音節の発声時間Tを(i+1)個の区間
S1,S2,……に分割し各フレームF1,F2,……毎の特徴分析
を行う。この際各フレームの時間は前記各区間の時間に
比し同一又はより小さくしてもよいが一般には大ならし
め各フレームの周期(フレーム周期ftと称する)毎,即
ち原単音節の各区間毎に分析を行いこれによって得た特
徴抽出データD1,D2,……の時系列的集合を以って当該単
音節の特徴抽出データとしこのデータ或はこれに基づく
フィルタ係数FC1,FC2,……を符号化して前記単音節ファ
イルに格納するものである。 斯くの如くして得た各単音節のデータに基づいて法則
合成音声を生成する場合,一般に前記第2図の音声合成
部8に於いて該音声合成部を構成するディジタル・フィ
ルタには前記フィルタ係数FC1,FC2,……を前記フレーム
周期ftに等しい時間毎に更新して与えるから単語或は文
章としての合成音声は極めて間のびしたものとなり具合
が悪い。そこで本発明に於いては前記フィルタ係数の更
新周期を所要の値;即ちKft(0<k<1)に制御する
ことによって合成音声を自然の会話速度(一般的会話速
度)とするものである。 ここで、自然の会話速度即ち一般的会話速度とは、そ
の個人が通常会話するときの速度を意味し、通常とは、
意識的、感情的な状態は除かれ、無意識に平常心で会話
している場合の速度を意味する。一方、上記原単音節音
声は、その個人が自身の一般的会話速度に相当する速度
で単音節を発声する一般的音声速度より遅い緩徐な速度
で発声したものであり「緩徐」か「一般的」かを区別す
る方法は、主観的には一般的会話速度より意図的にゆっ
くり発声した会話速度を、また客観的には一般的会話速
度より20〜30%遅く発声された会話速度を「緩徐」な速
度として考えればよい。尚、ここでいう一般的会話速度
は、その個人を基準としたものであり、万人の平均的な
会話速度、例えばアナウンサーの原稿の読上げ速度とい
ったものを意味するものではない。 したがって比較的早口(1分当たり50語)で会話する
人の場合、1分当たり40語程度の緩徐な速度で発声した
原単音節音声に基づき、音声合成を行い、その人の一般
的会話速度である1分当たり50語の速度で合成音声を出
力し、また比較的遅口(1分当たり30語)で会話する人
の場合、1分当たり24語程度の緩徐な速度で発声した原
単音節音声に基づき、音声合成を行うことによりあたか
もその人が自然にしゃべっているかのような出力を得る
ことができるものである。 尚,本発明は第1図(b)に示す如き単音節特徴分析
法を用いてもよい。 即ち,自然な会話速度での単語或は文章中の単音節の
長さをT′として,常にT′に等しい長さの合成音を得
る場合を考える。そのときの前記フィルタ係数FC′1,F
C′2,……の更新周期がft′に固定されており,原単音
節の長さがT′より長いk′T′(1<k′)である場
合,分析のフレーム周期をフィルタ係数の更新周期より
長いk′ft′として分析データを求め,これを単音節フ
ァイルに格納するようにすればT′より長い発声の任意
の原単音節音声から常に一定の長さT′の合成音声を発
声することができる。 以上述べたように原単音節音声は極めて緩徐に発声せ
しめている為隣接フレーム間で音声の特徴は大きな変化
を示さず特徴分析上格別の問題は生じない。斯くの如く
して作成した単音節データ・ファイルを用いて法則合成
を行えば音声合成部のディジタル・フィルタへのデータ
入力時間に格別の工夫を行なう必要なしに通常の会話速
度の合成音を生成することが可能となる。 更に,上述した手法にて作成した単音節ファイルを用
いて音声の認識を行うことも可能であることは言うまで
もなく,認識を行う為の入力音声と前記単音節ファイル
格納データとの比較手法は従来周知のものと格別の差異
はないので説明の煩雑を避ける為省略する。 尚,本発明に係る音声合成方法によって生成した合成
音を従来の手法によるそれとを比較する為前記kの値を
0.7乃至0.8に設定して官能テストを行った結果合成音声
の明瞭度の向上は被検者の等しく認めるところであった
が,これを定量的に説明することは不可能である故実験
の詳細については省略する。 又,簡単な単語,例えば“東洋通信機株式会社”とい
った如き音声の認識についても単音節データ・ファイル
の原音声と入力音声の発声者が同一人物の場合の認識誤
り率は従来の手法を用いた場合に比して大幅に減少し効
果のあることが確認された。 (発明の効果) 本発明は以上説明した如き手法にて単音節データ・フ
ァイルを作成しこれを基に音声の法則合成或は認識を行
うものであるから少なくとも合成音声の明瞭度を大幅に
向上し或は認識の誤り率を相当程度減少することができ
るので合成音声発声装置或は音声入力装置を有するワー
ド・プロセッサ等を実用化する上で著しい効果を奏す
る。
関する。 (従来技術) 単音節の特徴を分析抽出してこれに基づいて人間の音
声を合成し又認識を行うことが試みられ一部実用されて
いる。 しかしながらこれら音声の合成或は認識の手法はいづ
れも大量の情報によってはじめて特徴づけられる音声信
号を通常の発生速度で発声した単音節から抽出した少量
の特徴抽出データに基づいて原音声を再生し或は原音量
又は他の類似した音声と比較せんとするものであった為
合成音声は明瞭度を欠き音声識別はその誤り率が多いと
いう欠陥があった。 尚、ここでいう明瞭度は、単音節を送話したとき受話
者が、その何%を正しく受聴したかを示す尺度であり、
人の音声から取得した単音節を忠実に再現する度合を示
す忠実度とは異なり、受話者がその合成音声をどの程度
正確に認識できるかを示すものである。 (発明の目的) 本発明は上述した如き従来の音声の合成/認識方法の
欠陥を除去すべくなされたものであって,合成音声の明
瞭度を向上し,音声認識に於いては認識の誤り率を低減
した音声合成/認識方法を提供することを目的とする。 (発明の概要) 上述の目的を達成する為,本発明に於いては単音節を
可能な限り明瞭に,従って緩徐に発声せしめることによ
ってその特徴を忠実に分析抽出して得た原単音節に関す
る特徴抽出データに基づいて音声の合成或は認識を行な
わんとするものである。 (発明の実施例) 以下本発明をその理論に基づいて詳細に説明する。 先ず本発明の理解を助ける為,従来一般に行なわれて
いる音声の法則合成の手法について簡単に説明する。 音声の法則合成は第2図にその手順を示す如く人間に
単音節,例えば日本語の法則合成を行う場合には50音,
濁音,撥音及び幼音,につき夫々発声せしめこれらの特
徴を分析し夫々の特徴抽出データによって単音節ファイ
ル1を作成すると共に単音節の接続時の発声形式につい
ての法則を格納した接続法則ファイル2並びに単語のア
クセント或はイントネーション等に関する法則を格納し
たピッチ・パターン・ファイル3を用意し,例えばタイ
プライタ型キーによってテキストの入力部4から入力し
た単語或は文章の意味の解析をテキスト解析部5に於い
て行った後前記ファイル1,2及び3から所要のデータを
呼び出し単音節接続部6及びピッチ・パターン生成部7
を介して音声合成部8にて前記入力した所望の単語或は
文章をあたかも人間が発声しているが如く合成し出力せ
んとするものである。 而して前記単音節ファイル1を作成するに際し従来は
特徴抽出データを採取すべき原単音節は人間が通常単語
或は文章中の単音節を発声する程度の時間,即ち120乃
至200ms程度の発声からその特徴を分析し,その結果得
た特徴抽出データを基にして音声を合成していたが合成
音声の明瞭度が極めて低く満足すべき結果が得られなか
ったこと前述のとうりである。 この理由を勘案するに,人間の発声気候は極く短時間
の発声を以ってしてはその単音節の特徴を充分に表現す
るに足る単音節発声の立上りから定常状態に至るまでを
明瞭に発声することができないので従来の単音節の特徴
分析法では良好な特徴抽出データが得られない為であろ
うと考えられる。 この問題を解決する為本発明に於いては以下の如き単
音節特徴分析法を採用する。 即ち,人間をして極力長時間単音節をその立上りから
定常状態に至るまでの過渡部分を明瞭に発声せしめその
間に特徴の分析を行う。この際,過渡部分の発声時間を
自由に延長することは困難であろうがそれでも通常の単
音節或は文章中の単音節の発声時間より長くすることは
可能であるので特徴分析を実施する上で格別の困難はな
い。 ところで上述した如き原単音節の特徴分析は第1図
(a)に示す如くして行う。 なお、単音節の特徴を分析抽出する方法は、既に文献
等により開示されている方法で行う。、例えば“ケプス
トラム分析”“最尤スペクトル推定による音声分析”
“PARCOR音声分析”“線スペクトル対音声分析”等々の
方法があり、本願発明においては何れの方法で行っても
よい。したがって分析抽出する方法については当業者の
一般的事項であるので煩雑さを避けるため詳細な説明は
省略する。 即ち,原単音節の発声時間Tを(i+1)個の区間
S1,S2,……に分割し各フレームF1,F2,……毎の特徴分析
を行う。この際各フレームの時間は前記各区間の時間に
比し同一又はより小さくしてもよいが一般には大ならし
め各フレームの周期(フレーム周期ftと称する)毎,即
ち原単音節の各区間毎に分析を行いこれによって得た特
徴抽出データD1,D2,……の時系列的集合を以って当該単
音節の特徴抽出データとしこのデータ或はこれに基づく
フィルタ係数FC1,FC2,……を符号化して前記単音節ファ
イルに格納するものである。 斯くの如くして得た各単音節のデータに基づいて法則
合成音声を生成する場合,一般に前記第2図の音声合成
部8に於いて該音声合成部を構成するディジタル・フィ
ルタには前記フィルタ係数FC1,FC2,……を前記フレーム
周期ftに等しい時間毎に更新して与えるから単語或は文
章としての合成音声は極めて間のびしたものとなり具合
が悪い。そこで本発明に於いては前記フィルタ係数の更
新周期を所要の値;即ちKft(0<k<1)に制御する
ことによって合成音声を自然の会話速度(一般的会話速
度)とするものである。 ここで、自然の会話速度即ち一般的会話速度とは、そ
の個人が通常会話するときの速度を意味し、通常とは、
意識的、感情的な状態は除かれ、無意識に平常心で会話
している場合の速度を意味する。一方、上記原単音節音
声は、その個人が自身の一般的会話速度に相当する速度
で単音節を発声する一般的音声速度より遅い緩徐な速度
で発声したものであり「緩徐」か「一般的」かを区別す
る方法は、主観的には一般的会話速度より意図的にゆっ
くり発声した会話速度を、また客観的には一般的会話速
度より20〜30%遅く発声された会話速度を「緩徐」な速
度として考えればよい。尚、ここでいう一般的会話速度
は、その個人を基準としたものであり、万人の平均的な
会話速度、例えばアナウンサーの原稿の読上げ速度とい
ったものを意味するものではない。 したがって比較的早口(1分当たり50語)で会話する
人の場合、1分当たり40語程度の緩徐な速度で発声した
原単音節音声に基づき、音声合成を行い、その人の一般
的会話速度である1分当たり50語の速度で合成音声を出
力し、また比較的遅口(1分当たり30語)で会話する人
の場合、1分当たり24語程度の緩徐な速度で発声した原
単音節音声に基づき、音声合成を行うことによりあたか
もその人が自然にしゃべっているかのような出力を得る
ことができるものである。 尚,本発明は第1図(b)に示す如き単音節特徴分析
法を用いてもよい。 即ち,自然な会話速度での単語或は文章中の単音節の
長さをT′として,常にT′に等しい長さの合成音を得
る場合を考える。そのときの前記フィルタ係数FC′1,F
C′2,……の更新周期がft′に固定されており,原単音
節の長さがT′より長いk′T′(1<k′)である場
合,分析のフレーム周期をフィルタ係数の更新周期より
長いk′ft′として分析データを求め,これを単音節フ
ァイルに格納するようにすればT′より長い発声の任意
の原単音節音声から常に一定の長さT′の合成音声を発
声することができる。 以上述べたように原単音節音声は極めて緩徐に発声せ
しめている為隣接フレーム間で音声の特徴は大きな変化
を示さず特徴分析上格別の問題は生じない。斯くの如く
して作成した単音節データ・ファイルを用いて法則合成
を行えば音声合成部のディジタル・フィルタへのデータ
入力時間に格別の工夫を行なう必要なしに通常の会話速
度の合成音を生成することが可能となる。 更に,上述した手法にて作成した単音節ファイルを用
いて音声の認識を行うことも可能であることは言うまで
もなく,認識を行う為の入力音声と前記単音節ファイル
格納データとの比較手法は従来周知のものと格別の差異
はないので説明の煩雑を避ける為省略する。 尚,本発明に係る音声合成方法によって生成した合成
音を従来の手法によるそれとを比較する為前記kの値を
0.7乃至0.8に設定して官能テストを行った結果合成音声
の明瞭度の向上は被検者の等しく認めるところであった
が,これを定量的に説明することは不可能である故実験
の詳細については省略する。 又,簡単な単語,例えば“東洋通信機株式会社”とい
った如き音声の認識についても単音節データ・ファイル
の原音声と入力音声の発声者が同一人物の場合の認識誤
り率は従来の手法を用いた場合に比して大幅に減少し効
果のあることが確認された。 (発明の効果) 本発明は以上説明した如き手法にて単音節データ・フ
ァイルを作成しこれを基に音声の法則合成或は認識を行
うものであるから少なくとも合成音声の明瞭度を大幅に
向上し或は認識の誤り率を相当程度減少することができ
るので合成音声発声装置或は音声入力装置を有するワー
ド・プロセッサ等を実用化する上で著しい効果を奏す
る。
【図面の簡単な説明】
第1図(a)及び(b)は夫々本発明に係る単音節の特
徴分析から合成音声発生に至る異ったプロセスを説明す
る説明図,第2図は一般的な音声の法則合成プロセスを
示すフロー図である。 1……単音節ファイル,ft……フレーム周期,FC……フィ
ルタ係数。
徴分析から合成音声発生に至る異ったプロセスを説明す
る説明図,第2図は一般的な音声の法則合成プロセスを
示すフロー図である。 1……単音節ファイル,ft……フレーム周期,FC……フィ
ルタ係数。
─────────────────────────────────────────────────────
フロントページの続き
合議体
審判長 内藤 照雄
審判官 下野 和行
審判官 手島 聖治
(56)参考文献 特開 昭56−121099(JP,A)
特開 昭60−170900(JP,A)
Claims (1)
- (57)【特許請求の範囲】 1.一般的発声速度に比して緩徐に発声せしめた単音節
の特徴を分析抽出すると共に、当該特徴を表した各単音
節のデータを音声合成用ファイルに格納し、合成せんと
する文章を解析して単音節に分解し、該単音節の特徴を
示すデータを前記ファイルから読み出してディジタル・
フィルタに入力することによって該データに基づく合成
音声を生成すると共に、該データをディジタル・フィル
タに入力せしめる時間を短縮するよう制御することによ
って合成する音声を一般的会話速度にしたことを特徴と
する音声合成方法。 2.前記一般的発声速度に比して緩徐に発声せしめた単
音節の特徴を分析抽出する際のフレーム周期がftである
時、該抽出データに基づくフィルタ係数をディジタル・
フィルタに入力する際のフィルタ係数更新周期がkft
(0<k<1)となるよう制御することを特徴とする特
許請求の範囲第1項に記載の音声合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59244303A JP2665902B2 (ja) | 1984-11-19 | 1984-11-19 | 音声合成/認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP59244303A JP2665902B2 (ja) | 1984-11-19 | 1984-11-19 | 音声合成/認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS61122697A JPS61122697A (ja) | 1986-06-10 |
JP2665902B2 true JP2665902B2 (ja) | 1997-10-22 |
Family
ID=17116729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP59244303A Expired - Lifetime JP2665902B2 (ja) | 1984-11-19 | 1984-11-19 | 音声合成/認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2665902B2 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5952840B2 (ja) * | 1980-02-27 | 1984-12-21 | 松下電器産業株式会社 | 音声合成器の補間装置 |
JPS60170900A (ja) * | 1984-02-15 | 1985-09-04 | 富士通株式会社 | 音節音声標準パタン登録方式 |
-
1984
- 1984-11-19 JP JP59244303A patent/JP2665902B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPS61122697A (ja) | 1986-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Botinhao et al. | Speech enhancement for a noise-robust text-to-speech synthesis system using deep recurrent neural networks | |
Kinnunen | Spectral features for automatic text-independent speaker recognition | |
Rudzicz | Adjusting dysarthric speech signals to be more intelligible | |
Zhang et al. | Whisper-island detection based on unsupervised segmentation with entropy-based speech feature processing | |
JP5039865B2 (ja) | 声質変換装置及びその方法 | |
Rudzicz | Acoustic transformations to improve the intelligibility of dysarthric speech | |
WO2013018294A1 (ja) | 音声合成装置および音声合成方法 | |
JP7069386B1 (ja) | 音声変換装置、音声変換方法、プログラム、および記録媒体 | |
El Haddad et al. | Speech-laughs: an HMM-based approach for amused speech synthesis | |
Huang et al. | Towards identity preserving normal to dysarthric voice conversion | |
Tolba et al. | Towards the improvement of automatic recognition of dysarthric speech | |
JP4011844B2 (ja) | 翻訳装置、翻訳方法および媒体 | |
JP2665902B2 (ja) | 音声合成/認識方法 | |
Aso et al. | Speakbysinging: Converting singing voices to speaking voices while retaining voice timbre | |
Ravindran et al. | Cepstral and linear prediction techniques for improving intelligibility and audibility of impaired speech | |
Arpitha et al. | Diagnosis of disordered speech using automatic speech recognition | |
Jankowska et al. | Phonetic convergence in the shadowing for natural and synthesized speech in Polish | |
Apandi et al. | An analysis of Malay language emotional speech corpus for emotion recognition system | |
Zhao et al. | Personalizing tts voices for progressive dysarthria | |
Jeyalakshmi et al. | Alphabet model-based short vocabulary speech recognition for the assessment of profoundly deaf and hard of hearing speeches | |
Inbanila et al. | Investigation of Speech Synthesis, Speech Processing Techniques and Challenges for Enhancements | |
Patil et al. | Prosody Conversion from Neutral speech to Emotional speech | |
Rouf et al. | Madurese Speech Synthesis using HMM | |
Medhi | Analysis of formant frequency F1, F2, and F3 in Assamese vowel phonemes using LPC model | |
Maddela et al. | Phonetic–Acoustic Characteristics of Telugu Lateral Approximants |