JP2001282282A - 音声情報処理方法および装置および記憶媒体 - Google Patents

音声情報処理方法および装置および記憶媒体

Info

Publication number
JP2001282282A
JP2001282282A JP2000099534A JP2000099534A JP2001282282A JP 2001282282 A JP2001282282 A JP 2001282282A JP 2000099534 A JP2000099534 A JP 2000099534A JP 2000099534 A JP2000099534 A JP 2000099534A JP 2001282282 A JP2001282282 A JP 2001282282A
Authority
JP
Japan
Prior art keywords
model
pitch pattern
voice
phoneme
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000099534A
Other languages
English (en)
Other versions
JP2001282282A5 (ja
JP4054507B2 (ja
Inventor
Toshiaki Fukada
俊明 深田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000099534A priority Critical patent/JP4054507B2/ja
Priority to US09/818,599 priority patent/US6826531B2/en
Publication of JP2001282282A publication Critical patent/JP2001282282A/ja
Priority to US10/965,854 priority patent/US7155390B2/en
Publication of JP2001282282A5 publication Critical patent/JP2001282282A5/ja
Application granted granted Critical
Publication of JP4054507B2 publication Critical patent/JP4054507B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress

Abstract

(57)【要約】 【課題】 所定単位の音韻の基本周波数の時間変化をモ
デル化することにより、自然なイントネーションを与え
る音声合成を行う。 【解決手段】 所定単位の音韻系列を入力した後、セグ
メントピッチパターンモデルに基づいて、音韻系列を構
成する各音韻の基本周波数を生成する(S203)。生
成された各音韻の基本周波数に基づいて音韻を合成する
(S204、S205)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声合成或いは音
声認識に際して実施される所定のセグメント単位での時
系列の基本周波数(ピッチパターン)を設定する音声情
報処理方法及びその装置、及び、前記音声合成方法を実
施するプログラムを記憶した、コンピュータにより読取
り可能な記憶媒体に関するものである。
【0002】
【従来の技術】近年、任意の文字系列を音韻系列に変換
し、その音韻系列を所定の音声規則合成方式に従って合
成音声に変換する音声合成装置が開発されている。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
音声合成装置から出力される合成音声は、人間が発声す
る自然音声と比較すると不自然で機械的なものであっ
た。この原因の一つとして、例えば「おんせい」という
文字系列を構成する音韻系列「o,X,s,e,i」に
おいて、各音韻のアクセントやイントネーションを生成
する韻律生成規則の精度が挙げられる。精度が悪い場
合、音韻系列に対して十分なピッチパターンが生成され
ないため、合成される音声は不自然で機械的なものとな
る。
【0004】本発明は上記従来例に鑑みてなされたもの
で、所定単位の音韻の基本周波数の時間変化をモデル化
することにより、自然なイントネーションを与える音声
合成を行うことができる音声情報処理方法及び装置を提
供することを目的とする。
【0005】又本発明の目的は、所定単位の音韻の基本
周波数の時間変化をモデル化することにより、このモデ
ル化した情報を用いて高精度に音声認識ができる音声情
報処理方法及び装置を提供することにある。
【0006】
【課題を解決するための手段】上記目的を達成するため
に本発明の音声情報処理方法は以下のような工程を備え
る。即ち、所定単位の音韻系列を入力する工程と、セグ
メントピッチパターンモデルに基づいて、前記音韻系列
を構成する各音韻の基本周波数を生成する生成工程と、
前記生成工程で生成された前記各音韻の基本周波数に基
づいて音声を合成する音声合成工程とを有することを特
徴とする。
【0007】上記目的を達成するために本発明の音声情
報処理方法は以下のような工程を備える。即ち、音声を
入力する工程と、前記音声の特徴パラメータを抽出する
工程と、セグメントピッチパターンモデルに基づいて、
前記特徴パラメータを認識する音声認識工程と、を有す
ることを特徴とする。
【0008】上記目的を達成するために本発明の音声情
報処理装置は以下のような構成を備える。即ち、所定単
位の音韻系列を入力する入力手段と、セグメントピッチ
パターンモデルに基づいて、前記音韻系列を構成する各
音韻の基本周波数を生成する生成手段と、前記生成手段
により設定された前記各音韻の基本周波数に基づいて音
声を合成する音声合成手段と、を有することを特徴とす
る。
【0009】上記目的を達成するために本発明の音声情
報処理装置は以下のような構成を備える。即ち、音声を
入力する入力手段と、前記音声の特徴パラメータを抽出
する抽出手段と、セグメントピッチパターンモデルに基
づいて、前記特徴パラメータを認識する音声認識手段
と、を有することを特徴とする。
【0010】
【発明の実施の形態】
【0011】本発明の実施の形態における多項式セグメ
ントモデルの概要は以下の通りである。Lフレーム長の
D次元の観測ベクトル{y1,…,yL}yt=[yt,
1,yt,2,…,yt,D]をL×Dの行列で表現した
【0012】
【数1】 をR次の多項式セグメントモデルによって、
【0013】
【数2】 …式(2) と表す。ここで、ZはL×(R+1)のデザインマトリ
クスであり、
【0014】
【数3】 …式(3) と表される。また、Bは(R+1)×Dのパラメータ系
列行列
【0015】
【数4】 …式(4) であり、EはL×Dの予測誤差行列
【0016】
【数5】 …式(5) である。デザインマトリクスZによって異なる長さのセ
グメントを“0”から“1”の間に正規化することがで
きる。
【0017】セグメントYがラベルaによって生成され
るときの尤度は次のように表される。
【0018】
【数6】
【0019】…式(6) 上式(6)において、f(yt)は、ラベルaに対する特
徴ベクトルytの尤度であり、次式によって与えられ
る。
【0020】
【数7】
【0021】…式(7) ここで、BaとΣaはラベルaを表す単一ガウスセグメン
トモデルのパラメータである。上式において、ztは、
【0022】
【数8】 …式(8) と与えられる。いま、ラベルaに対して、K個のセグメ
ントY1,Y2,…YKがある場合に、モデルパラメータ
Ba及びΣaを求めたいとする。このとき、Ba及びΣa
に対するこれらのセグメントの確率は、
【0023】
【数9】 …式(9) と与えられる。これより、上式の確率を最大化するB
a、Σaを求めることによりモデルパラメータが求まる。
これらの推定値は、
【0024】
【数10】 …式(10)
【0025】
【数11】 …式(11) として得ることができる。
【0026】このように、セグメントピッチパターンの
時間変化を多項式によってモデリングすることによっ
て、セグメントピッチパターンの時系列間の相関を考慮
することが可能になり、前記従来例の問題点が解決でき
る。
【0027】以下、添付図面を参照して本発明の好適な
実施の形態を詳細に説明する。
【0028】[実施の形態1]図1は、本発明の実施の
形態1に係る音声合成装置の構成を示すブロック図であ
る。
【0029】図1において、101はCPUで、ROM
102に記憶された制御プログラム、或いは外部記憶装
置104からRAM103にロードされた制御プログラ
ムに従って、本実施の形態の音声合成装置における各種
制御を行う。ROM102は、各種パラメータやCPU
101が実行する制御プログラムなどを格納している。
RAM103は、CPU101による各種制御の実行時
に作業領域を提供するとともに、CPU101により実
行される制御プログラムを記憶する。104はハードデ
ィスク、フロッピー(登録商標)ディスク、CD−RO
M等の外部記憶装置で、この外部記憶装置がハードディ
スクの場合には、CD−ROMやフロッピィディスク等
からインストールされた各種プログラムが記憶されてい
る。105は入力部で、キーボード、マウス等のポイン
ティングデバイスを有している。又、この入力部105
は、例えば通信回線等を介してインターネット等からの
データを入力しても良い。106は液晶やCRT等の表
示部で、CPU101の制御により各種データの表示を
行う。107はスピーカで、音声信号(電気信号)を可
聴音である音声に変換して出力する。108は上記各部
を接続するバスである。109は音声合成・認識ユニッ
トである。
【0030】図2は、本実施の形態1に係る音声合成・
認識ユニット109の動作を示すフローチャートであ
る。以下に示される各ステップは、ROM102に格納
された制御プログラム、或いは外部記憶装置104から
RAM103にロードされた制御プログラムをCPU1
01が実行することによって実現される。
【0031】まずステップS201で、漢字かな混じり
の日本語テキストデータ、又は他の言語のテキストデー
タが入力部105から入力されるとステップS202に
進み、この入力されたテキストデータを、言語解析辞書
201を用いて解析し、入力テキストデータに対する音
韻系列(読み)やアクセントなどの情報を抽出する。次
にステップS203に進み、これらの情報を用いて、ス
テップS202で求めた音韻系列を構成する各音韻の継
続時間長、基本周波数(セグメントピッチパターンとも
いう)、パワー等のプロソディ(韻律情報ともいう)を
生成する。この際、セグメントピッチパターンはピッチ
パターンモデル202を用いて決定され、また継続時間
長、パワー等は韻律制御モデル203を用いて決定され
る。
【0032】次にステップS204に進み、ステップS
202で解析して抽出された音韻系列、及びステップS
203で生成されたプロソディに基づいて、音声素片辞
書204から、その音韻系列に対応する合成音声を生成
するための音声素片(波形もしくは特徴パラメータ)を
複数個選択する。次にステップS205に進み、それら
選択された音声素片を用いて合成音声信号を生成し、ス
テップS206において、その生成された合成音声信号
に基づいて音声をスピーカ107から出力する。最後に
ステップS207において、入力されたテキストデータ
に対する処理が全て終了したか否かの判断を行い、終了
していない場合はステップS201に戻り、前述の処理
が続けられる。
【0033】図3は、図2のステップS203のプロソ
ディ生成処理で使用した上述の多項式セグメントモデル
に基づくセグメントピッチパターンモデルの作成手順を
示すフローチャートである。
【0034】このセグメントピッチパターンモデルを作
成するためには、まずステップS301で、複数個の学
習サンプルを有する音声ファイル301を用いて、所定
単位の音韻系列の基本周波数(ピッチパターン)を抽出
する。この基本周波数の抽出において、有声・無声の判
別結果、ピッチマーク等の情報を使用する場合には、基
本周波数抽出に必要な情報を格納したサイド情報ファイ
ル302も併せて利用する。
【0035】次に、ステップS302に進み、所定単位
の音韻系列を構成する音素、音節、単語などを単位とし
た音韻の時間情報が付与されたラベルファイル303を
用いて、音韻系列のピッチパターンをセグメント単位に
分割する。そして最後にステップS303に進み、同一
カテゴリに属するセグメント毎に、前述の式(10)及
び式(11)を用いてセグメントピッチパターンモデル
のモデルパラメータを計算する。
【0036】以下、具体例を挙げて本実施の形態1に係
る処理手順を、図3乃至図9を参照して説明する。
【0037】図4は、サイド情報ファイル302に記憶
された音韻系列「音声(oNsee)」に関するサイド情報の
一例を示す図、図5は、図4の有声区間(o,N,e,e)に対
する基本周波数の一例を示す図、図6はラベルファイル
303に記憶された音韻系列「音声(oNsee)」に関する
情報の一例を示す図、図7は図5のピッチパターンをモ
デル化した図、図8は音韻系列「アクセント(akuseNt
o)」に対するピッチパターンの一例を示す図、そして図
9はラベルファイル303に記憶された音韻系列「アク
セント(akuseNto)」に関する情報の一例を示す図であ
る。
【0038】いま音韻系列「音声(oNsee)」のサイド情
報ファイル302が図4で与えられるとする。図4で
は、各音素(o,N,s,e,e)の開始時刻、終了時刻、及び有
声か、無声かを示すフラグがセットされている。尚、
「pau」はポーズを示す。このとき、ステップS301
の基本周波数抽出処理では、図4の有声区間(o,N,e,e)
を検出し、それらの基本周波数を図5のように抽出す
る。次にラベルファイル303が図6のように与えらる
とき、開始時刻および終了時刻の情報から、有声音の音
素区間をステップS302においてセグメントに分割
(この場合は各音素に分割)する。次にステップS30
3に進み、例えば、R次(R=1:直線)のセグメント
モデルによって図5に示すピッチパターンの各セグメン
トピッチパターンをモデル化すると図7のように表され
る。
【0039】また、音韻系列「アクセント(akuseNto)」
のピッチパターンが図8のように抽出されたとする。ま
た、このときのラベルファイル303が図9で与えられ
るとする。このときユニット109は、図5及び図8に
示される2つのピッチパターンを用いて、同じ音韻・言
語環境に属するセグメントを検出し、それらをモデリン
グして1つのセグメントピッチパターンモデルを生成す
る。いま、音韻・言語環境として、モーラ位置とアクセ
ント型を選ぶと、「音声」の第1モーラの“o”(図
6)及び「アクセント」の第1モーラの“a”(図9)
は共にアクセント型が“1”であるため、それらを1つ
のセグメントピッチパターンとしてモデリングする(第
2、第3、第4モーラも同様)。
【0040】上述のようにしてモデリングされたセグメ
ントピッチパターンモデルのモデルパラメータを、ピッ
チパターンモデル202に保持することによって、ステ
ップS203のプロソディ生成処理では、音韻系列(p
={pa,…,pJ})に対する音韻・言語環境と継続
時間長モデル203から得られる各音韻の継続時間長
(d={dp1,…,dpJ})に基づいて、各音韻のセグ
メントピッチパターンYpjを、 Ypj=ZdpjBpj …式(12) として生成することができる。ここで、Zdpjはdpjフ
レームのデザインマトリクス、Bpjは音韻pjの音韻・
言語環境に対応するセグメントピッチパターンモデルの
モデルパラメータである。
【0041】以上説明したように本実施の形態1によれ
ば、セグメントピッチパターン時系列の相関を考慮した
多項式セグメントモデルに基づいて、各セグメントピッ
チパターンをモデリングし、このモデルを用いて所定単
位の音韻系列を構成する各音韻のピッチパターンを設定
することにより、自然なイントネーションを与える音声
を合成して出力できるという効果がある。
【0042】[実施の形態2]上述の実施の形態1で
は、モデル化したセグメントピッチパターンモデルを用
いて音声合成する例について説明したが、この実施の形
態2では、セグメントピッチパターンモデルを用いて音
声認識する例について説明する。本実施の形態2に係る
ハードウェア構成は図1と同様のものを用いることがで
きる。ここで、入力部105はマイクロフォンである。
【0043】図10は、本発明の実施の形態2に係る音
声合成・認識ユニット109の動作を示すフローチャー
トである。以下に示される各ステップは、ROM102
に格納された制御プログラムあるいは外部記憶装置10
4からRAM103にロードされた制御プログラムをC
PU101が実行することによって実現される。
【0044】まずステップS401で、マイクロフォン
などを備える入力部105から音声波形が入力される。
次ステップS402に進み、その入力された音声波形の
特徴パラメータの抽出が行われ、広く用いられているケ
プストラムなどの周波数特徴量の時系列Oa(t)に加え、
基本周波数やその回帰パラメータなどのピッチに関する
特徴量の時系列Op(t)を抽出する。
【0045】次にステップS403に進み、言語モデル
401(単語認識の場合は不要)、上述のセグメントピ
ッチパターンモデルを保持する音響・ピッチパターンモ
デル402、認識辞書403を用いて、ステップS40
2で得られた特徴パラメータの尤度を最大とする音声認
識結果を探索処理によって求める。次にステップS40
4に進み、表示部106への画面表示、或いはスピーカ
107による音声出力などの所望の手段によって音声認
識結果を出力する。最後にステップS405において、
入力部105からの音声入力が終了したか否かの判断を
行い、終了していない場合はステップS401に戻り、
前述した処理を実行する。
【0046】いま、音響特徴量ベクトルOaに対する単
語仮説Wの対数音響尤度をPa(Oa|W)、ピッチ特徴量
ベクトルOpに対する単語仮説Wの対数ピッチ尤度をPp
(Op|W)とし、単語仮説Wの対数言語尤度をPl(W)と
すると、ステップS403の探索処理で得られる認識結
果~Wは、 ~W=argmax{waPa(Oa|W)+wpPp(Op|W)+wlPl(W)} (w∈W) …式(13) で表される。ここで、wa,wp,wlは、それぞれ対数
音響尤度、対数ピッチ尤度、対数言語尤度に対する重み
係数である。ここで、対数音響尤度はHMM(隠れマル
コフモデル)、対数言語尤度は単語n-gramに基づく方法
など、従来広く用いられている方法によって求めること
ができる。また、対数ピッチ尤度は、上記式(9)を用
いて求めることができる。
【0047】[実施の形態3]上記実施の形態1及び2
では、上述の式(7)に表されるように、セグメントピ
ッチパターンを単一混合ガウス分布によって作成してい
たが、本実施の形態3では、これを多混合ガウス分布に
よってピッチパターンをモデル化する。
【0048】このとき、f(yt)は以下のように表され
る。
【0049】
【数12】
【0050】…式(14) ここで、
【0051】
【数13】 …式(15) であり、式(14)におけるwmはm番目の混合分布に
おける重みであり、Σwm=1(m=1〜M)を満たす。こ
のとき、式(15)におけるモデルパラメータBm,Σ
m,wmはクラスタリング法、もしくはEM(Expectation
-Maximization)法によって求めることができる。このよ
うにして得られる多混合ガウス分布によるピッチパター
ンモデルを用いれば、上記実施の形態2における音声認
識装置の性能を向上させることが可能となる。
【0052】[実施の形態4]上記実施の形態1では、
基本周波数の絶対値から直接セグメントピッチパターン
モデルを作成し、このモデルを用いて音声合成における
ピッチパターンの設定を行っていたが、一般にピッチパ
ターンはコンテキストや話者による変動が大きいため、
ピッチパターンを抽出する際に、アクセント句、単語、
フレーズ(呼気段落)、文などの所望の発話単位(発話
もひとまとまりとして処理できる単位)ごとに基本周波
数の最大値や最小値などを抽出し、これらの値を利用す
ることによってピッチパターンを正規化し、この正規化
されたピッチパターンを用いて、セグメントピッチパタ
ーンのモデルを作成するようにしても良い。
【0053】図8に示すピッチパターンを基本周波数の
最大値で正規化したときのピッチパターンの例を図11
に示す。このように、正規化したピッチパターンからピ
ッチパターンモデルを作成することにより、よりコンテ
キストなどの変動を大きく吸収した高精度なピッチパタ
ーンモデルが作成できる。
【0054】但し、このピッチパターンモデルを用いて
音声合成装置におけるピッチパターンを生成する場合、
正規化に用いたパラメータ(図11の場合は最大値)を
推定する必要があるが、これは、音韻・言語コンテキス
トを要因とした線形もしくは非線形モデルなどの公知の
方法によって求めることが可能である。
【0055】[実施の形態5]上記実施の形態では、音
素という比較的時間的に短い音韻単位を用いてセグメン
トピッチパターンをモデル化していたが、本発明はこれ
に限らず、例えば単語やアクセントといった比較的長い
音韻単位に対してモデル化することも可能である。この
場合、基本周波数が存在しない無声音の区間をセグメン
トピッチパターンのモデリングから除外する必要がある
が、これは上記式(3)のデザインマトリクスにおい
て、次式のように無声音の区間の行を“0”と置くこと
により、無声音区間を除外してセグメントピッチパター
ンをモデル化することができる。
【0056】
【数14】
【0057】…式(16) このようにして、図5に示される1単語のピッチパター
ンをセグメントピッチパターンとして多項式セグメント
モデルによってモデリングすることにより、図12に示
されるような、無声区間を含むピッチパターンモデルを
得ることができる。
【0058】なお、上記各実施の形態における構成は本
発明の一実施の形態を示したものであり、各種変形が可
能である。この変形例を示せば以下の通りである。
【0059】実施の形態1では、モーラ位置およびアク
セント型を音韻・言語環境として考慮してセグメントピ
ッチパターンモデルを作成したが、モーラ数や品詞など
他の環境を用いてもよい。また、本発明は日本語以外の
言語にも適用可能である。
【0060】また前述の実施の形態1では、回帰次数1
(R=1)によってモデリングする例を示したが、Rは
0以上(ただし、R<L)の任意の整数値を用いてモデ
リングしても良い。
【0061】又前述の実施の形態2では、ワンパスの音
声認識手法を用いた音声認識装置における例を示した
が、従来の音声認識手法を用いてNベスト(Nbest)も
しくは単語(音素)グラフなどによる認識候補に対し
て、セグメントピッチパターンモデルによって得られる
対数ピッチ尤度を用いて認識結果をリスコアリングす
る、マルチパス探索の音声認識手法に基づく音声認識装
置に対しても適用可能である。
【0062】又前述の実施の形態4では、基本周波数の
最大値によってピッチパターンの正規化処理を行った
が、本発明はこれに限定されるものでなく、例えば最小
値を用いた正規化処理や最大値と最小値の差で与えられ
るダイナミックレンジを用いた正規化処理など他の正規
化処理を用いてもよい。
【0063】また本発明の目的は、前述した実施の形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ(またはCPU
やMPU)が記憶媒体に格納されたプログラムコードを
読出し実行することによっても達成される。
【0064】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施の形態の機能を実現する
ことになり、そのプログラムコードを記憶した記憶媒体
は本発明を構成することになる。プログラムコードを供
給するための記憶媒体としては、例えば、フロッピディ
スク、ハードディスク、光ディスク、光磁気ディスク、
CD−ROM、CD−R、DVD、磁気テープ、不揮発
性のメモリカード、ROMなどを用いることができる。
【0065】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施の形態の機
能が実現されるだけでなく、そのプログラムコードの指
示に基づき、コンピュータ上で稼働しているOS(オペ
レーティングシステム)などが実際の処理の一部または
全部を行い、その処理によって前述した実施の形態の機
能が実現される場合も含まれる。
【0066】更に、記憶媒体から読出されたプログラム
コードが、コンピュータに挿入された機能拡張ボードや
コンピュータに接続された機能拡張ユニットに備わるメ
モリに書込まれた後、そのプログラムコードの指示に基
づき、その機能拡張ボードや機能拡張ユニットに備わる
CPUなどが実際の処理の一部または全部を行い、その
処理によって前述した実施の形態の機能が実現される場
合も含まれる。
【0067】以上説明したように本実施の形態によれ
ば、セグメントピッチパターン系列の相関を考慮して各
セグメントピッチパターンを統計的にモデリングするこ
とによって、高精度に所定単位の音韻系列のピッチパタ
ーンをモデル化することができるようになり、音声合成
装置におけるイントネーション生成の自然性の向上、も
しくは基本周波数を特徴量にもつ音声認識装置における
認識性能の向上が可能になるという効果がある。
【0068】
【発明の効果】以上説明したように本発明によれば、所
定単位の音韻の基本周波数の時間変化をモデル化するこ
とにより、自然なイントネーションを与える音声合成を
行うことができる。
【0069】又本発明によれば、所定単位の音韻の基本
周波数の時間変化をモデル化することにより、このモデ
ル化した情報を用いて高精度に音声認識ができるという
効果がある。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る音声合成装置(音声
認識装置)のハードウェア構成を示したブロック図であ
る。
【図2】本実施の形態に係る音声合成装置における音声
合成の処理手順を示したフローチャートである。
【図3】図2のステップS203における多項式セグメ
ントモデルに基づくセグメントピッチパターンモデルの
作成手順を示したフローチャートである。
【図4】本発明の実施の形態に係るサイド情報ファイル
に記憶された「音声(oNsee)」に関するサイド情報の一
例を示す図である。
【図5】本発明の実施の形態に係る「音声」という単語
発声に対するピッチパターンの一例を示す図である。
【図6】本発明の実施の形態に係るラベルファイルに記
憶された「音声(oNsee)」に関する情報の一例を示す図
である。
【図7】図5のピッチパターンを図6に示す音素セグメ
ントごとに回帰次数1のセグメントモデルによってモデ
リングした場合のピッチパターンの一例を示す図であ
る。
【図8】本発明の実施の形態に係る「アクセント」とい
う単語発声に対するピッチパターンの一例を示す図であ
る。
【図9】本発明の実施の形態に係るラベルファイルに記
憶された「アクセント(akuseNto)」に関する情報の一例
を示す図である。
【図10】本発明の実施の形態2に係る音声認識装置に
おける音声認識の処理手順を示したフローチャートであ
る。
【図11】本発明の実施の形態4に係る、図8に示すピ
ッチパターンを基本周波数の最大値で正規化したときの
ピッチパターンの一例を示す図である。
【図12】本発明の実施の形態5に係る、図5に示すピ
ッチパターンを単語全体の有声音部分のピッチパターン
に対して、多項式セグメントモデルによってモデリング
した場合のピッチパターンの一例を示す図である。

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 所定単位の音韻系列を入力する工程と、 セグメントピッチパターンモデルに基づいて、前記音韻
    系列を構成する各音韻の基本周波数を生成する生成工程
    と、 前記生成工程で生成された前記各音韻の基本周波数に基
    づいて音声を合成する音声合成工程と、を有することを
    特徴とする音声情報処理方法。
  2. 【請求項2】 前記セグメントピッチパターンモデル
    は、音素、音節、単語の少なくともいずれかを単位とし
    たモデルであることを特徴とする請求項1に記載の音声
    情報処理方法。
  3. 【請求項3】 前記セグメントピッチパターンモデル
    は、所定の音韻環境に属する音韻の基本周波数の時間変
    化を、多項式セグメントモデルによってモデル化したモ
    デルであることを特徴とする請求項1又は2に記載の音
    声情報処理方法。
  4. 【請求項4】 前記セグメントピッチパターンモデル
    は、アクセント型、モーラ数、モーラ位置、品詞の少な
    くとも1つを考慮したモデルであることを特徴とする請
    求項1乃至3のいずれか1項に記載の音声情報処理方
    法。
  5. 【請求項5】 前記セグメントピッチパターンモデル
    は、単一混合分布、多混合分布の少なくともいずれかに
    よってモデリングされたモデルであることを特徴とする
    請求項1乃至4のいずれか1項に記載の音声情報処理方
    法。
  6. 【請求項6】 前記セグメントピッチパターンモデル
    は、アクセント句、単語、フレーズ、文の少なくともい
    ずれかからなる単位ごとに正規化されたモデルであるこ
    とを特徴とする請求項1乃至5のいずれか1項に記載の
    音声情報処理方法。
  7. 【請求項7】 請求項1乃至6のいずれか1項に記載の
    音声情報処理方法を実行するプログラムを記憶したこと
    を特徴とする、コンピュータにより読取り可能な記憶媒
    体。
  8. 【請求項8】 所定単位の音韻系列を入力する入力手段
    と、 セグメントピッチパターンモデルに基づいて、前記音韻
    系列を構成する各音韻の基本周波数を生成する生成手段
    と、 前記生成手段により設定された前記各音韻の基本周波数
    に基づいて音声を合成する音声合成手段と、を有するこ
    とを特徴とする音声情報処理装置。
  9. 【請求項9】 前記セグメントピッチパターンモデル
    は、音素、音節、単語の少なくともいずれかを単位とし
    たモデルであることを特徴とする請求項8に記載の音声
    情報処理装置。
  10. 【請求項10】 前記セグメントピッチパターンモデル
    は、所定の音韻環境に属する音韻の基本周波数の時間変
    化を多項式セグメントモデルによってモデル化したモデ
    ルであることを特徴とする請求項8又は9に記載の音声
    情報処理装置。
  11. 【請求項11】 前記セグメントピッチパターンモデル
    は、アクセント型、モーラ数、モーラ位置、品詞の少な
    くとも1つを考慮したモデルであることを特徴とする請
    求項10に記載の音声情報処理装置。
  12. 【請求項12】 前記セグメントピッチパターンモデ
    ルは、単一混合分布、多混合分布の少なくともいずれか
    によってモデリングされたモデルであることを特徴とす
    る請求項10に記載の音声情報処理装置。
  13. 【請求項13】 前記セグメントピッチパターンモデル
    は、アクセント句、単語、フレーズ、文の少なくともい
    ずれかからなる単位ごとに正規化されたモデルであるこ
    とを特徴とする請求項8に記載の音声情報処理装置。
  14. 【請求項14】 音声を入力する工程と、 前記音声の特徴パラメータを抽出する工程と、 セグメントピッチパターンモデルに基づいて、前記特徴
    パラメータを認識する音声認識工程と、を有することを
    特徴とする音声情報処理方法。
  15. 【請求項15】 請求項14に記載の音声情報処理方法
    を実行するプログラムを記憶したことを特徴とする、コ
    ンピュータ読取り可能な記憶媒体。
  16. 【請求項16】 音声を入力する入力手段と、 前記音声の特徴パラメータを抽出する抽出手段と、 セグメントピッチパターンモデルに基づいて、前記特徴
    パラメータを認識する音声認識手段と、を有することを
    特徴とする音声情報処理装置。
JP2000099534A 2000-03-31 2000-03-31 音声情報処理方法および装置および記憶媒体 Expired - Fee Related JP4054507B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2000099534A JP4054507B2 (ja) 2000-03-31 2000-03-31 音声情報処理方法および装置および記憶媒体
US09/818,599 US6826531B2 (en) 2000-03-31 2001-03-28 Speech information processing method and apparatus and storage medium using a segment pitch pattern model
US10/965,854 US7155390B2 (en) 2000-03-31 2004-10-18 Speech information processing method and apparatus and storage medium using a segment pitch pattern model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000099534A JP4054507B2 (ja) 2000-03-31 2000-03-31 音声情報処理方法および装置および記憶媒体

Publications (3)

Publication Number Publication Date
JP2001282282A true JP2001282282A (ja) 2001-10-12
JP2001282282A5 JP2001282282A5 (ja) 2005-07-21
JP4054507B2 JP4054507B2 (ja) 2008-02-27

Family

ID=18613874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000099534A Expired - Fee Related JP4054507B2 (ja) 2000-03-31 2000-03-31 音声情報処理方法および装置および記憶媒体

Country Status (2)

Country Link
US (2) US6826531B2 (ja)
JP (1) JP4054507B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009025356A1 (ja) * 2007-08-22 2009-02-26 Nec Corporation 音声認識装置および音声認識方法
JP2009063869A (ja) * 2007-09-07 2009-03-26 Internatl Business Mach Corp <Ibm> 音声合成システム、プログラム及び方法
WO2012164835A1 (ja) * 2011-05-30 2012-12-06 日本電気株式会社 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム
KR101495410B1 (ko) * 2007-10-05 2015-02-25 닛본 덴끼 가부시끼가이샤 음성 합성 장치, 음성 합성 방법 및 컴퓨터 판독가능 기억 매체

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10839321B2 (en) 1997-01-06 2020-11-17 Jeffrey Eder Automated data storage system
US20040215495A1 (en) * 1999-04-16 2004-10-28 Eder Jeff Scott Method of and system for defining and measuring the elements of value and real options of a commercial enterprise
JP4054507B2 (ja) * 2000-03-31 2008-02-27 キヤノン株式会社 音声情報処理方法および装置および記憶媒体
JP2001282279A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理方法及び装置及び記憶媒体
US20040236673A1 (en) * 2000-10-17 2004-11-25 Eder Jeff Scott Collaborative risk transfer system
US20080027769A1 (en) 2002-09-09 2008-01-31 Jeff Scott Eder Knowledge based performance management system
JP2003295882A (ja) 2002-04-02 2003-10-15 Canon Inc 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム
US7546241B2 (en) * 2002-06-05 2009-06-09 Canon Kabushiki Kaisha Speech synthesis method and apparatus, and dictionary generation method and apparatus
JP4080989B2 (ja) * 2003-11-28 2008-04-23 株式会社東芝 音声合成方法、音声合成装置および音声合成プログラム
US6964238B2 (en) * 2003-12-31 2005-11-15 Kimberly-Clark Worldwide, Inc. Process for making a garment having hanging legs
JP3895758B2 (ja) * 2004-01-27 2007-03-22 松下電器産業株式会社 音声合成装置
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
US20090043637A1 (en) * 2004-06-01 2009-02-12 Eder Jeffrey Scott Extended value and risk management system
JP4456537B2 (ja) * 2004-09-14 2010-04-28 本田技研工業株式会社 情報伝達装置
CN1842702B (zh) * 2004-10-13 2010-05-05 松下电器产业株式会社 声音合成装置和声音合成方法
JP2006155404A (ja) * 2004-11-30 2006-06-15 Toshiba Corp 時間情報抽出装置、時間情報抽出方法、及び時間情報抽出プログラム
JP2006309162A (ja) * 2005-03-29 2006-11-09 Toshiba Corp ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
US8713025B2 (en) 2005-03-31 2014-04-29 Square Halt Solutions, Limited Liability Company Complete context search system
US8498915B2 (en) 2006-04-02 2013-07-30 Asset Reliance, Inc. Data processing framework for financial services
US7552467B2 (en) * 2006-04-24 2009-06-23 Jeffrey Dean Lindsay Security systems for protecting an asset
GB2450886B (en) * 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
JP2009042509A (ja) * 2007-08-09 2009-02-26 Toshiba Corp アクセント情報抽出装置及びその方法
JP2009047957A (ja) * 2007-08-21 2009-03-05 Toshiba Corp ピッチパターン生成方法及びその装置
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
US8219386B2 (en) * 2009-01-21 2012-07-10 King Fahd University Of Petroleum And Minerals Arabic poetry meter identification system and method
RU2421827C2 (ru) * 2009-08-07 2011-06-20 Общество с ограниченной ответственностью "Центр речевых технологий" Способ синтеза речи
US9069757B2 (en) * 2010-10-31 2015-06-30 Speech Morphing, Inc. Speech morphing communication system
JP6048726B2 (ja) * 2012-08-16 2016-12-21 トヨタ自動車株式会社 リチウム二次電池およびその製造方法
JP2014038282A (ja) * 2012-08-20 2014-02-27 Toshiba Corp 韻律編集装置、方法およびプログラム
US8886539B2 (en) * 2012-12-03 2014-11-11 Chengjun Julian Chen Prosody generation using syllable-centered polynomial representation of pitch contours
CN108369804A (zh) * 2015-12-07 2018-08-03 雅马哈株式会社 语音交互设备和语音交互方法
CN107564511B (zh) * 2017-09-25 2018-09-11 平安科技(深圳)有限公司 电子装置、语音合成方法和计算机可读存储介质
JP6943158B2 (ja) * 2017-11-28 2021-09-29 トヨタ自動車株式会社 応答文生成装置、方法及びプログラム並びに音声対話システム

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5919358B2 (ja) * 1978-12-11 1984-05-04 株式会社日立製作所 音声内容伝送方式
JPS593497A (ja) 1982-06-30 1984-01-10 富士通株式会社 規則合成方式における補間制御方式
JPH0519780A (ja) 1991-07-12 1993-01-29 Hitachi Ltd 音声規則合成装置および方法
US5276766A (en) 1991-07-16 1994-01-04 International Business Machines Corporation Fast algorithm for deriving acoustic prototypes for automatic speech recognition
JPH0573100A (ja) 1991-09-11 1993-03-26 Canon Inc 音声合成方法及びその装置
JPH0580791A (ja) 1991-09-20 1993-04-02 Hitachi Ltd 音声規則合成装置および方法
JP3425996B2 (ja) 1992-07-30 2003-07-14 株式会社リコー ピッチパターン生成装置
US5333236A (en) 1992-09-10 1994-07-26 International Business Machines Corporation Speech recognizer having a speech coder for an acoustic match based on context-dependent speech-transition acoustic models
JP3450411B2 (ja) 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
JP3559588B2 (ja) 1994-05-30 2004-09-02 キヤノン株式会社 音声合成方法及び装置
JP3548230B2 (ja) 1994-05-30 2004-07-28 キヤノン株式会社 音声合成方法及び装置
JP3085631B2 (ja) * 1994-10-19 2000-09-11 日本アイ・ビー・エム株式会社 音声合成方法及びシステム
US5726769A (en) 1994-11-14 1998-03-10 Canon Kabushiki Kaisha Image processing apparatus capable of connecting external information processing terminal, and including printer unit and data processing unit
EP0823112B1 (en) 1996-02-27 2002-05-02 Koninklijke Philips Electronics N.V. Method and apparatus for automatic speech segmentation into phoneme-like units
JP2923243B2 (ja) 1996-03-25 1999-07-26 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識のための単語モデル生成装置及び音声認識装置
JP3006677B2 (ja) * 1996-10-28 2000-02-07 日本電気株式会社 音声認識装置
JP3029803B2 (ja) 1996-11-20 2000-04-10 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識のための単語モデル生成装置及び音声認識装置
JPH10254471A (ja) 1997-03-14 1998-09-25 Toshiba Corp 音声合成装置
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
JP3667950B2 (ja) 1997-09-16 2005-07-06 株式会社東芝 ピッチパターン生成方法
JP3854713B2 (ja) 1998-03-10 2006-12-06 キヤノン株式会社 音声合成方法および装置および記憶媒体
JP3571925B2 (ja) 1998-07-27 2004-09-29 株式会社東芝 音声情報処理装置
JP2001282279A (ja) 2000-03-31 2001-10-12 Canon Inc 音声情報処理方法及び装置及び記憶媒体
JP4054507B2 (ja) * 2000-03-31 2008-02-27 キヤノン株式会社 音声情報処理方法および装置および記憶媒体

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009025356A1 (ja) * 2007-08-22 2009-02-26 Nec Corporation 音声認識装置および音声認識方法
US8315870B2 (en) 2007-08-22 2012-11-20 Nec Corporation Rescoring speech recognition hypothesis using prosodic likelihood
JP5282737B2 (ja) * 2007-08-22 2013-09-04 日本電気株式会社 音声認識装置および音声認識方法
JP2009063869A (ja) * 2007-09-07 2009-03-26 Internatl Business Mach Corp <Ibm> 音声合成システム、プログラム及び方法
US9275631B2 (en) 2007-09-07 2016-03-01 Nuance Communications, Inc. Speech synthesis system, speech synthesis program product, and speech synthesis method
KR101495410B1 (ko) * 2007-10-05 2015-02-25 닛본 덴끼 가부시끼가이샤 음성 합성 장치, 음성 합성 방법 및 컴퓨터 판독가능 기억 매체
WO2012164835A1 (ja) * 2011-05-30 2012-12-06 日本電気株式会社 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム
JPWO2012164835A1 (ja) * 2011-05-30 2015-02-23 日本電気株式会社 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム
US9324316B2 (en) 2011-05-30 2016-04-26 Nec Corporation Prosody generator, speech synthesizer, prosody generating method and prosody generating program

Also Published As

Publication number Publication date
JP4054507B2 (ja) 2008-02-27
US20050055207A1 (en) 2005-03-10
US7155390B2 (en) 2006-12-26
US20010032078A1 (en) 2001-10-18
US6826531B2 (en) 2004-11-30

Similar Documents

Publication Publication Date Title
JP4054507B2 (ja) 音声情報処理方法および装置および記憶媒体
US6778960B2 (en) Speech information processing method and apparatus and storage medium
US8015011B2 (en) Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases
EP3504709B1 (en) Determining phonetic relationships
US5758320A (en) Method and apparatus for text-to-voice audio output with accent control and improved phrase control
US10692484B1 (en) Text-to-speech (TTS) processing
US11763797B2 (en) Text-to-speech (TTS) processing
JPH10116089A (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
JP2005208652A (ja) 声調言語用分節声調モデリング
US9390709B2 (en) Voice recognition device and method, and semiconductor integrated circuit device
CN115943460A (zh) 从韵律特征预测参数化声码器参数
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP2016151736A (ja) 音声加工装置、及びプログラム
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP7314079B2 (ja) データ生成装置、データ生成方法およびプログラム
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
Mustafa et al. Emotional speech acoustic model for Malay: iterative versus isolated unit training
Rawoof et al. ARM based implementation of Text-To-Speech (TTS) for real time Embedded System
JP6436806B2 (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
JP3378547B2 (ja) 音声認識方法及び装置
JP2005250071A (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
Janyoi et al. F0 modeling for isarn speech synthesis using deep neural networks and syllable-level feature representation.
Sawada et al. Constructing text-to-speech systems for languages with unknown pronunciations
Sayed et al. Convolutional Neural Networks to Facilitate the Continuous Recognition of Arabic Speech with Independent Speakers
IMRAN ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041210

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041210

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20041210

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20041210

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20041210

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20050201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050426

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050826

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20051020

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20051202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071102

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071210

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4054507

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111214

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121214

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131214

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees