JP2001282282A - 音声情報処理方法および装置および記憶媒体 - Google Patents
音声情報処理方法および装置および記憶媒体Info
- Publication number
- JP2001282282A JP2001282282A JP2000099534A JP2000099534A JP2001282282A JP 2001282282 A JP2001282282 A JP 2001282282A JP 2000099534 A JP2000099534 A JP 2000099534A JP 2000099534 A JP2000099534 A JP 2000099534A JP 2001282282 A JP2001282282 A JP 2001282282A
- Authority
- JP
- Japan
- Prior art keywords
- model
- pitch pattern
- voice
- phoneme
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
Abstract
デル化することにより、自然なイントネーションを与え
る音声合成を行う。 【解決手段】 所定単位の音韻系列を入力した後、セグ
メントピッチパターンモデルに基づいて、音韻系列を構
成する各音韻の基本周波数を生成する(S203)。生
成された各音韻の基本周波数に基づいて音韻を合成する
(S204、S205)。
Description
声認識に際して実施される所定のセグメント単位での時
系列の基本周波数(ピッチパターン)を設定する音声情
報処理方法及びその装置、及び、前記音声合成方法を実
施するプログラムを記憶した、コンピュータにより読取
り可能な記憶媒体に関するものである。
し、その音韻系列を所定の音声規則合成方式に従って合
成音声に変換する音声合成装置が開発されている。
音声合成装置から出力される合成音声は、人間が発声す
る自然音声と比較すると不自然で機械的なものであっ
た。この原因の一つとして、例えば「おんせい」という
文字系列を構成する音韻系列「o,X,s,e,i」に
おいて、各音韻のアクセントやイントネーションを生成
する韻律生成規則の精度が挙げられる。精度が悪い場
合、音韻系列に対して十分なピッチパターンが生成され
ないため、合成される音声は不自然で機械的なものとな
る。
で、所定単位の音韻の基本周波数の時間変化をモデル化
することにより、自然なイントネーションを与える音声
合成を行うことができる音声情報処理方法及び装置を提
供することを目的とする。
周波数の時間変化をモデル化することにより、このモデ
ル化した情報を用いて高精度に音声認識ができる音声情
報処理方法及び装置を提供することにある。
に本発明の音声情報処理方法は以下のような工程を備え
る。即ち、所定単位の音韻系列を入力する工程と、セグ
メントピッチパターンモデルに基づいて、前記音韻系列
を構成する各音韻の基本周波数を生成する生成工程と、
前記生成工程で生成された前記各音韻の基本周波数に基
づいて音声を合成する音声合成工程とを有することを特
徴とする。
報処理方法は以下のような工程を備える。即ち、音声を
入力する工程と、前記音声の特徴パラメータを抽出する
工程と、セグメントピッチパターンモデルに基づいて、
前記特徴パラメータを認識する音声認識工程と、を有す
ることを特徴とする。
報処理装置は以下のような構成を備える。即ち、所定単
位の音韻系列を入力する入力手段と、セグメントピッチ
パターンモデルに基づいて、前記音韻系列を構成する各
音韻の基本周波数を生成する生成手段と、前記生成手段
により設定された前記各音韻の基本周波数に基づいて音
声を合成する音声合成手段と、を有することを特徴とす
る。
報処理装置は以下のような構成を備える。即ち、音声を
入力する入力手段と、前記音声の特徴パラメータを抽出
する抽出手段と、セグメントピッチパターンモデルに基
づいて、前記特徴パラメータを認識する音声認識手段
と、を有することを特徴とする。
ントモデルの概要は以下の通りである。Lフレーム長の
D次元の観測ベクトル{y1,…,yL}yt=[yt,
1,yt,2,…,yt,D]をL×Dの行列で表現した
クスであり、
列行列
グメントを“0”から“1”の間に正規化することがで
きる。
るときの尤度は次のように表される。
徴ベクトルytの尤度であり、次式によって与えられ
る。
トモデルのパラメータである。上式において、ztは、
ントY1,Y2,…YKがある場合に、モデルパラメータ
Ba及びΣaを求めたいとする。このとき、Ba及びΣa
に対するこれらのセグメントの確率は、
a、Σaを求めることによりモデルパラメータが求まる。
これらの推定値は、
時間変化を多項式によってモデリングすることによっ
て、セグメントピッチパターンの時系列間の相関を考慮
することが可能になり、前記従来例の問題点が解決でき
る。
実施の形態を詳細に説明する。
形態1に係る音声合成装置の構成を示すブロック図であ
る。
102に記憶された制御プログラム、或いは外部記憶装
置104からRAM103にロードされた制御プログラ
ムに従って、本実施の形態の音声合成装置における各種
制御を行う。ROM102は、各種パラメータやCPU
101が実行する制御プログラムなどを格納している。
RAM103は、CPU101による各種制御の実行時
に作業領域を提供するとともに、CPU101により実
行される制御プログラムを記憶する。104はハードデ
ィスク、フロッピー(登録商標)ディスク、CD−RO
M等の外部記憶装置で、この外部記憶装置がハードディ
スクの場合には、CD−ROMやフロッピィディスク等
からインストールされた各種プログラムが記憶されてい
る。105は入力部で、キーボード、マウス等のポイン
ティングデバイスを有している。又、この入力部105
は、例えば通信回線等を介してインターネット等からの
データを入力しても良い。106は液晶やCRT等の表
示部で、CPU101の制御により各種データの表示を
行う。107はスピーカで、音声信号(電気信号)を可
聴音である音声に変換して出力する。108は上記各部
を接続するバスである。109は音声合成・認識ユニッ
トである。
認識ユニット109の動作を示すフローチャートであ
る。以下に示される各ステップは、ROM102に格納
された制御プログラム、或いは外部記憶装置104から
RAM103にロードされた制御プログラムをCPU1
01が実行することによって実現される。
の日本語テキストデータ、又は他の言語のテキストデー
タが入力部105から入力されるとステップS202に
進み、この入力されたテキストデータを、言語解析辞書
201を用いて解析し、入力テキストデータに対する音
韻系列(読み)やアクセントなどの情報を抽出する。次
にステップS203に進み、これらの情報を用いて、ス
テップS202で求めた音韻系列を構成する各音韻の継
続時間長、基本周波数(セグメントピッチパターンとも
いう)、パワー等のプロソディ(韻律情報ともいう)を
生成する。この際、セグメントピッチパターンはピッチ
パターンモデル202を用いて決定され、また継続時間
長、パワー等は韻律制御モデル203を用いて決定され
る。
202で解析して抽出された音韻系列、及びステップS
203で生成されたプロソディに基づいて、音声素片辞
書204から、その音韻系列に対応する合成音声を生成
するための音声素片(波形もしくは特徴パラメータ)を
複数個選択する。次にステップS205に進み、それら
選択された音声素片を用いて合成音声信号を生成し、ス
テップS206において、その生成された合成音声信号
に基づいて音声をスピーカ107から出力する。最後に
ステップS207において、入力されたテキストデータ
に対する処理が全て終了したか否かの判断を行い、終了
していない場合はステップS201に戻り、前述の処理
が続けられる。
ディ生成処理で使用した上述の多項式セグメントモデル
に基づくセグメントピッチパターンモデルの作成手順を
示すフローチャートである。
成するためには、まずステップS301で、複数個の学
習サンプルを有する音声ファイル301を用いて、所定
単位の音韻系列の基本周波数(ピッチパターン)を抽出
する。この基本周波数の抽出において、有声・無声の判
別結果、ピッチマーク等の情報を使用する場合には、基
本周波数抽出に必要な情報を格納したサイド情報ファイ
ル302も併せて利用する。
の音韻系列を構成する音素、音節、単語などを単位とし
た音韻の時間情報が付与されたラベルファイル303を
用いて、音韻系列のピッチパターンをセグメント単位に
分割する。そして最後にステップS303に進み、同一
カテゴリに属するセグメント毎に、前述の式(10)及
び式(11)を用いてセグメントピッチパターンモデル
のモデルパラメータを計算する。
る処理手順を、図3乃至図9を参照して説明する。
された音韻系列「音声(oNsee)」に関するサイド情報の
一例を示す図、図5は、図4の有声区間(o,N,e,e)に対
する基本周波数の一例を示す図、図6はラベルファイル
303に記憶された音韻系列「音声(oNsee)」に関する
情報の一例を示す図、図7は図5のピッチパターンをモ
デル化した図、図8は音韻系列「アクセント(akuseNt
o)」に対するピッチパターンの一例を示す図、そして図
9はラベルファイル303に記憶された音韻系列「アク
セント(akuseNto)」に関する情報の一例を示す図であ
る。
報ファイル302が図4で与えられるとする。図4で
は、各音素(o,N,s,e,e)の開始時刻、終了時刻、及び有
声か、無声かを示すフラグがセットされている。尚、
「pau」はポーズを示す。このとき、ステップS301
の基本周波数抽出処理では、図4の有声区間(o,N,e,e)
を検出し、それらの基本周波数を図5のように抽出す
る。次にラベルファイル303が図6のように与えらる
とき、開始時刻および終了時刻の情報から、有声音の音
素区間をステップS302においてセグメントに分割
(この場合は各音素に分割)する。次にステップS30
3に進み、例えば、R次(R=1:直線)のセグメント
モデルによって図5に示すピッチパターンの各セグメン
トピッチパターンをモデル化すると図7のように表され
る。
のピッチパターンが図8のように抽出されたとする。ま
た、このときのラベルファイル303が図9で与えられ
るとする。このときユニット109は、図5及び図8に
示される2つのピッチパターンを用いて、同じ音韻・言
語環境に属するセグメントを検出し、それらをモデリン
グして1つのセグメントピッチパターンモデルを生成す
る。いま、音韻・言語環境として、モーラ位置とアクセ
ント型を選ぶと、「音声」の第1モーラの“o”(図
6)及び「アクセント」の第1モーラの“a”(図9)
は共にアクセント型が“1”であるため、それらを1つ
のセグメントピッチパターンとしてモデリングする(第
2、第3、第4モーラも同様)。
ントピッチパターンモデルのモデルパラメータを、ピッ
チパターンモデル202に保持することによって、ステ
ップS203のプロソディ生成処理では、音韻系列(p
={pa,…,pJ})に対する音韻・言語環境と継続
時間長モデル203から得られる各音韻の継続時間長
(d={dp1,…,dpJ})に基づいて、各音韻のセグ
メントピッチパターンYpjを、 Ypj=ZdpjBpj …式(12) として生成することができる。ここで、Zdpjはdpjフ
レームのデザインマトリクス、Bpjは音韻pjの音韻・
言語環境に対応するセグメントピッチパターンモデルの
モデルパラメータである。
ば、セグメントピッチパターン時系列の相関を考慮した
多項式セグメントモデルに基づいて、各セグメントピッ
チパターンをモデリングし、このモデルを用いて所定単
位の音韻系列を構成する各音韻のピッチパターンを設定
することにより、自然なイントネーションを与える音声
を合成して出力できるという効果がある。
は、モデル化したセグメントピッチパターンモデルを用
いて音声合成する例について説明したが、この実施の形
態2では、セグメントピッチパターンモデルを用いて音
声認識する例について説明する。本実施の形態2に係る
ハードウェア構成は図1と同様のものを用いることがで
きる。ここで、入力部105はマイクロフォンである。
声合成・認識ユニット109の動作を示すフローチャー
トである。以下に示される各ステップは、ROM102
に格納された制御プログラムあるいは外部記憶装置10
4からRAM103にロードされた制御プログラムをC
PU101が実行することによって実現される。
などを備える入力部105から音声波形が入力される。
次ステップS402に進み、その入力された音声波形の
特徴パラメータの抽出が行われ、広く用いられているケ
プストラムなどの周波数特徴量の時系列Oa(t)に加え、
基本周波数やその回帰パラメータなどのピッチに関する
特徴量の時系列Op(t)を抽出する。
401(単語認識の場合は不要)、上述のセグメントピ
ッチパターンモデルを保持する音響・ピッチパターンモ
デル402、認識辞書403を用いて、ステップS40
2で得られた特徴パラメータの尤度を最大とする音声認
識結果を探索処理によって求める。次にステップS40
4に進み、表示部106への画面表示、或いはスピーカ
107による音声出力などの所望の手段によって音声認
識結果を出力する。最後にステップS405において、
入力部105からの音声入力が終了したか否かの判断を
行い、終了していない場合はステップS401に戻り、
前述した処理を実行する。
語仮説Wの対数音響尤度をPa(Oa|W)、ピッチ特徴量
ベクトルOpに対する単語仮説Wの対数ピッチ尤度をPp
(Op|W)とし、単語仮説Wの対数言語尤度をPl(W)と
すると、ステップS403の探索処理で得られる認識結
果~Wは、 ~W=argmax{waPa(Oa|W)+wpPp(Op|W)+wlPl(W)} (w∈W) …式(13) で表される。ここで、wa,wp,wlは、それぞれ対数
音響尤度、対数ピッチ尤度、対数言語尤度に対する重み
係数である。ここで、対数音響尤度はHMM(隠れマル
コフモデル)、対数言語尤度は単語n-gramに基づく方法
など、従来広く用いられている方法によって求めること
ができる。また、対数ピッチ尤度は、上記式(9)を用
いて求めることができる。
では、上述の式(7)に表されるように、セグメントピ
ッチパターンを単一混合ガウス分布によって作成してい
たが、本実施の形態3では、これを多混合ガウス分布に
よってピッチパターンをモデル化する。
る。
おける重みであり、Σwm=1(m=1〜M)を満たす。こ
のとき、式(15)におけるモデルパラメータBm,Σ
m,wmはクラスタリング法、もしくはEM(Expectation
-Maximization)法によって求めることができる。このよ
うにして得られる多混合ガウス分布によるピッチパター
ンモデルを用いれば、上記実施の形態2における音声認
識装置の性能を向上させることが可能となる。
基本周波数の絶対値から直接セグメントピッチパターン
モデルを作成し、このモデルを用いて音声合成における
ピッチパターンの設定を行っていたが、一般にピッチパ
ターンはコンテキストや話者による変動が大きいため、
ピッチパターンを抽出する際に、アクセント句、単語、
フレーズ(呼気段落)、文などの所望の発話単位(発話
もひとまとまりとして処理できる単位)ごとに基本周波
数の最大値や最小値などを抽出し、これらの値を利用す
ることによってピッチパターンを正規化し、この正規化
されたピッチパターンを用いて、セグメントピッチパタ
ーンのモデルを作成するようにしても良い。
最大値で正規化したときのピッチパターンの例を図11
に示す。このように、正規化したピッチパターンからピ
ッチパターンモデルを作成することにより、よりコンテ
キストなどの変動を大きく吸収した高精度なピッチパタ
ーンモデルが作成できる。
音声合成装置におけるピッチパターンを生成する場合、
正規化に用いたパラメータ(図11の場合は最大値)を
推定する必要があるが、これは、音韻・言語コンテキス
トを要因とした線形もしくは非線形モデルなどの公知の
方法によって求めることが可能である。
素という比較的時間的に短い音韻単位を用いてセグメン
トピッチパターンをモデル化していたが、本発明はこれ
に限らず、例えば単語やアクセントといった比較的長い
音韻単位に対してモデル化することも可能である。この
場合、基本周波数が存在しない無声音の区間をセグメン
トピッチパターンのモデリングから除外する必要がある
が、これは上記式(3)のデザインマトリクスにおい
て、次式のように無声音の区間の行を“0”と置くこと
により、無声音区間を除外してセグメントピッチパター
ンをモデル化することができる。
ンをセグメントピッチパターンとして多項式セグメント
モデルによってモデリングすることにより、図12に示
されるような、無声区間を含むピッチパターンモデルを
得ることができる。
発明の一実施の形態を示したものであり、各種変形が可
能である。この変形例を示せば以下の通りである。
セント型を音韻・言語環境として考慮してセグメントピ
ッチパターンモデルを作成したが、モーラ数や品詞など
他の環境を用いてもよい。また、本発明は日本語以外の
言語にも適用可能である。
(R=1)によってモデリングする例を示したが、Rは
0以上(ただし、R<L)の任意の整数値を用いてモデ
リングしても良い。
声認識手法を用いた音声認識装置における例を示した
が、従来の音声認識手法を用いてNベスト(Nbest)も
しくは単語(音素)グラフなどによる認識候補に対し
て、セグメントピッチパターンモデルによって得られる
対数ピッチ尤度を用いて認識結果をリスコアリングす
る、マルチパス探索の音声認識手法に基づく音声認識装
置に対しても適用可能である。
最大値によってピッチパターンの正規化処理を行った
が、本発明はこれに限定されるものでなく、例えば最小
値を用いた正規化処理や最大値と最小値の差で与えられ
るダイナミックレンジを用いた正規化処理など他の正規
化処理を用いてもよい。
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ(またはCPU
やMPU)が記憶媒体に格納されたプログラムコードを
読出し実行することによっても達成される。
ラムコード自体が前述した実施の形態の機能を実現する
ことになり、そのプログラムコードを記憶した記憶媒体
は本発明を構成することになる。プログラムコードを供
給するための記憶媒体としては、例えば、フロッピディ
スク、ハードディスク、光ディスク、光磁気ディスク、
CD−ROM、CD−R、DVD、磁気テープ、不揮発
性のメモリカード、ROMなどを用いることができる。
コードを実行することにより、前述した実施の形態の機
能が実現されるだけでなく、そのプログラムコードの指
示に基づき、コンピュータ上で稼働しているOS(オペ
レーティングシステム)などが実際の処理の一部または
全部を行い、その処理によって前述した実施の形態の機
能が実現される場合も含まれる。
コードが、コンピュータに挿入された機能拡張ボードや
コンピュータに接続された機能拡張ユニットに備わるメ
モリに書込まれた後、そのプログラムコードの指示に基
づき、その機能拡張ボードや機能拡張ユニットに備わる
CPUなどが実際の処理の一部または全部を行い、その
処理によって前述した実施の形態の機能が実現される場
合も含まれる。
ば、セグメントピッチパターン系列の相関を考慮して各
セグメントピッチパターンを統計的にモデリングするこ
とによって、高精度に所定単位の音韻系列のピッチパタ
ーンをモデル化することができるようになり、音声合成
装置におけるイントネーション生成の自然性の向上、も
しくは基本周波数を特徴量にもつ音声認識装置における
認識性能の向上が可能になるという効果がある。
定単位の音韻の基本周波数の時間変化をモデル化するこ
とにより、自然なイントネーションを与える音声合成を
行うことができる。
周波数の時間変化をモデル化することにより、このモデ
ル化した情報を用いて高精度に音声認識ができるという
効果がある。
認識装置)のハードウェア構成を示したブロック図であ
る。
合成の処理手順を示したフローチャートである。
ントモデルに基づくセグメントピッチパターンモデルの
作成手順を示したフローチャートである。
に記憶された「音声(oNsee)」に関するサイド情報の一
例を示す図である。
発声に対するピッチパターンの一例を示す図である。
憶された「音声(oNsee)」に関する情報の一例を示す図
である。
ントごとに回帰次数1のセグメントモデルによってモデ
リングした場合のピッチパターンの一例を示す図であ
る。
う単語発声に対するピッチパターンの一例を示す図であ
る。
憶された「アクセント(akuseNto)」に関する情報の一例
を示す図である。
おける音声認識の処理手順を示したフローチャートであ
る。
ッチパターンを基本周波数の最大値で正規化したときの
ピッチパターンの一例を示す図である。
ッチパターンを単語全体の有声音部分のピッチパターン
に対して、多項式セグメントモデルによってモデリング
した場合のピッチパターンの一例を示す図である。
Claims (16)
- 【請求項1】 所定単位の音韻系列を入力する工程と、 セグメントピッチパターンモデルに基づいて、前記音韻
系列を構成する各音韻の基本周波数を生成する生成工程
と、 前記生成工程で生成された前記各音韻の基本周波数に基
づいて音声を合成する音声合成工程と、を有することを
特徴とする音声情報処理方法。 - 【請求項2】 前記セグメントピッチパターンモデル
は、音素、音節、単語の少なくともいずれかを単位とし
たモデルであることを特徴とする請求項1に記載の音声
情報処理方法。 - 【請求項3】 前記セグメントピッチパターンモデル
は、所定の音韻環境に属する音韻の基本周波数の時間変
化を、多項式セグメントモデルによってモデル化したモ
デルであることを特徴とする請求項1又は2に記載の音
声情報処理方法。 - 【請求項4】 前記セグメントピッチパターンモデル
は、アクセント型、モーラ数、モーラ位置、品詞の少な
くとも1つを考慮したモデルであることを特徴とする請
求項1乃至3のいずれか1項に記載の音声情報処理方
法。 - 【請求項5】 前記セグメントピッチパターンモデル
は、単一混合分布、多混合分布の少なくともいずれかに
よってモデリングされたモデルであることを特徴とする
請求項1乃至4のいずれか1項に記載の音声情報処理方
法。 - 【請求項6】 前記セグメントピッチパターンモデル
は、アクセント句、単語、フレーズ、文の少なくともい
ずれかからなる単位ごとに正規化されたモデルであるこ
とを特徴とする請求項1乃至5のいずれか1項に記載の
音声情報処理方法。 - 【請求項7】 請求項1乃至6のいずれか1項に記載の
音声情報処理方法を実行するプログラムを記憶したこと
を特徴とする、コンピュータにより読取り可能な記憶媒
体。 - 【請求項8】 所定単位の音韻系列を入力する入力手段
と、 セグメントピッチパターンモデルに基づいて、前記音韻
系列を構成する各音韻の基本周波数を生成する生成手段
と、 前記生成手段により設定された前記各音韻の基本周波数
に基づいて音声を合成する音声合成手段と、を有するこ
とを特徴とする音声情報処理装置。 - 【請求項9】 前記セグメントピッチパターンモデル
は、音素、音節、単語の少なくともいずれかを単位とし
たモデルであることを特徴とする請求項8に記載の音声
情報処理装置。 - 【請求項10】 前記セグメントピッチパターンモデル
は、所定の音韻環境に属する音韻の基本周波数の時間変
化を多項式セグメントモデルによってモデル化したモデ
ルであることを特徴とする請求項8又は9に記載の音声
情報処理装置。 - 【請求項11】 前記セグメントピッチパターンモデル
は、アクセント型、モーラ数、モーラ位置、品詞の少な
くとも1つを考慮したモデルであることを特徴とする請
求項10に記載の音声情報処理装置。 - 【請求項12】 前記セグメントピッチパターンモデ
ルは、単一混合分布、多混合分布の少なくともいずれか
によってモデリングされたモデルであることを特徴とす
る請求項10に記載の音声情報処理装置。 - 【請求項13】 前記セグメントピッチパターンモデル
は、アクセント句、単語、フレーズ、文の少なくともい
ずれかからなる単位ごとに正規化されたモデルであるこ
とを特徴とする請求項8に記載の音声情報処理装置。 - 【請求項14】 音声を入力する工程と、 前記音声の特徴パラメータを抽出する工程と、 セグメントピッチパターンモデルに基づいて、前記特徴
パラメータを認識する音声認識工程と、を有することを
特徴とする音声情報処理方法。 - 【請求項15】 請求項14に記載の音声情報処理方法
を実行するプログラムを記憶したことを特徴とする、コ
ンピュータ読取り可能な記憶媒体。 - 【請求項16】 音声を入力する入力手段と、 前記音声の特徴パラメータを抽出する抽出手段と、 セグメントピッチパターンモデルに基づいて、前記特徴
パラメータを認識する音声認識手段と、を有することを
特徴とする音声情報処理装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000099534A JP4054507B2 (ja) | 2000-03-31 | 2000-03-31 | 音声情報処理方法および装置および記憶媒体 |
US09/818,599 US6826531B2 (en) | 2000-03-31 | 2001-03-28 | Speech information processing method and apparatus and storage medium using a segment pitch pattern model |
US10/965,854 US7155390B2 (en) | 2000-03-31 | 2004-10-18 | Speech information processing method and apparatus and storage medium using a segment pitch pattern model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000099534A JP4054507B2 (ja) | 2000-03-31 | 2000-03-31 | 音声情報処理方法および装置および記憶媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2001282282A true JP2001282282A (ja) | 2001-10-12 |
JP2001282282A5 JP2001282282A5 (ja) | 2005-07-21 |
JP4054507B2 JP4054507B2 (ja) | 2008-02-27 |
Family
ID=18613874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000099534A Expired - Fee Related JP4054507B2 (ja) | 2000-03-31 | 2000-03-31 | 音声情報処理方法および装置および記憶媒体 |
Country Status (2)
Country | Link |
---|---|
US (2) | US6826531B2 (ja) |
JP (1) | JP4054507B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009025356A1 (ja) * | 2007-08-22 | 2009-02-26 | Nec Corporation | 音声認識装置および音声認識方法 |
JP2009063869A (ja) * | 2007-09-07 | 2009-03-26 | Internatl Business Mach Corp <Ibm> | 音声合成システム、プログラム及び方法 |
WO2012164835A1 (ja) * | 2011-05-30 | 2012-12-06 | 日本電気株式会社 | 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム |
KR101495410B1 (ko) * | 2007-10-05 | 2015-02-25 | 닛본 덴끼 가부시끼가이샤 | 음성 합성 장치, 음성 합성 방법 및 컴퓨터 판독가능 기억 매체 |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10839321B2 (en) | 1997-01-06 | 2020-11-17 | Jeffrey Eder | Automated data storage system |
US20040215495A1 (en) * | 1999-04-16 | 2004-10-28 | Eder Jeff Scott | Method of and system for defining and measuring the elements of value and real options of a commercial enterprise |
JP4054507B2 (ja) * | 2000-03-31 | 2008-02-27 | キヤノン株式会社 | 音声情報処理方法および装置および記憶媒体 |
JP2001282279A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理方法及び装置及び記憶媒体 |
US20040236673A1 (en) * | 2000-10-17 | 2004-11-25 | Eder Jeff Scott | Collaborative risk transfer system |
US20080027769A1 (en) | 2002-09-09 | 2008-01-31 | Jeff Scott Eder | Knowledge based performance management system |
JP2003295882A (ja) | 2002-04-02 | 2003-10-15 | Canon Inc | 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム |
US7546241B2 (en) * | 2002-06-05 | 2009-06-09 | Canon Kabushiki Kaisha | Speech synthesis method and apparatus, and dictionary generation method and apparatus |
JP4080989B2 (ja) * | 2003-11-28 | 2008-04-23 | 株式会社東芝 | 音声合成方法、音声合成装置および音声合成プログラム |
US6964238B2 (en) * | 2003-12-31 | 2005-11-15 | Kimberly-Clark Worldwide, Inc. | Process for making a garment having hanging legs |
JP3895758B2 (ja) * | 2004-01-27 | 2007-03-22 | 松下電器産業株式会社 | 音声合成装置 |
JP4587160B2 (ja) * | 2004-03-26 | 2010-11-24 | キヤノン株式会社 | 信号処理装置および方法 |
US20090043637A1 (en) * | 2004-06-01 | 2009-02-12 | Eder Jeffrey Scott | Extended value and risk management system |
JP4456537B2 (ja) * | 2004-09-14 | 2010-04-28 | 本田技研工業株式会社 | 情報伝達装置 |
CN1842702B (zh) * | 2004-10-13 | 2010-05-05 | 松下电器产业株式会社 | 声音合成装置和声音合成方法 |
JP2006155404A (ja) * | 2004-11-30 | 2006-06-15 | Toshiba Corp | 時間情報抽出装置、時間情報抽出方法、及び時間情報抽出プログラム |
JP2006309162A (ja) * | 2005-03-29 | 2006-11-09 | Toshiba Corp | ピッチパターン生成方法、ピッチパターン生成装置及びプログラム |
US8713025B2 (en) | 2005-03-31 | 2014-04-29 | Square Halt Solutions, Limited Liability Company | Complete context search system |
US8498915B2 (en) | 2006-04-02 | 2013-07-30 | Asset Reliance, Inc. | Data processing framework for financial services |
US7552467B2 (en) * | 2006-04-24 | 2009-06-23 | Jeffrey Dean Lindsay | Security systems for protecting an asset |
GB2450886B (en) * | 2007-07-10 | 2009-12-16 | Motorola Inc | Voice activity detector and a method of operation |
JP2009042509A (ja) * | 2007-08-09 | 2009-02-26 | Toshiba Corp | アクセント情報抽出装置及びその方法 |
JP2009047957A (ja) * | 2007-08-21 | 2009-03-05 | Toshiba Corp | ピッチパターン生成方法及びその装置 |
JP4455633B2 (ja) * | 2007-09-10 | 2010-04-21 | 株式会社東芝 | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
US8219386B2 (en) * | 2009-01-21 | 2012-07-10 | King Fahd University Of Petroleum And Minerals | Arabic poetry meter identification system and method |
RU2421827C2 (ru) * | 2009-08-07 | 2011-06-20 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ синтеза речи |
US9069757B2 (en) * | 2010-10-31 | 2015-06-30 | Speech Morphing, Inc. | Speech morphing communication system |
JP6048726B2 (ja) * | 2012-08-16 | 2016-12-21 | トヨタ自動車株式会社 | リチウム二次電池およびその製造方法 |
JP2014038282A (ja) * | 2012-08-20 | 2014-02-27 | Toshiba Corp | 韻律編集装置、方法およびプログラム |
US8886539B2 (en) * | 2012-12-03 | 2014-11-11 | Chengjun Julian Chen | Prosody generation using syllable-centered polynomial representation of pitch contours |
CN108369804A (zh) * | 2015-12-07 | 2018-08-03 | 雅马哈株式会社 | 语音交互设备和语音交互方法 |
CN107564511B (zh) * | 2017-09-25 | 2018-09-11 | 平安科技(深圳)有限公司 | 电子装置、语音合成方法和计算机可读存储介质 |
JP6943158B2 (ja) * | 2017-11-28 | 2021-09-29 | トヨタ自動車株式会社 | 応答文生成装置、方法及びプログラム並びに音声対話システム |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5919358B2 (ja) * | 1978-12-11 | 1984-05-04 | 株式会社日立製作所 | 音声内容伝送方式 |
JPS593497A (ja) | 1982-06-30 | 1984-01-10 | 富士通株式会社 | 規則合成方式における補間制御方式 |
JPH0519780A (ja) | 1991-07-12 | 1993-01-29 | Hitachi Ltd | 音声規則合成装置および方法 |
US5276766A (en) | 1991-07-16 | 1994-01-04 | International Business Machines Corporation | Fast algorithm for deriving acoustic prototypes for automatic speech recognition |
JPH0573100A (ja) | 1991-09-11 | 1993-03-26 | Canon Inc | 音声合成方法及びその装置 |
JPH0580791A (ja) | 1991-09-20 | 1993-04-02 | Hitachi Ltd | 音声規則合成装置および方法 |
JP3425996B2 (ja) | 1992-07-30 | 2003-07-14 | 株式会社リコー | ピッチパターン生成装置 |
US5333236A (en) | 1992-09-10 | 1994-07-26 | International Business Machines Corporation | Speech recognizer having a speech coder for an acoustic match based on context-dependent speech-transition acoustic models |
JP3450411B2 (ja) | 1994-03-22 | 2003-09-22 | キヤノン株式会社 | 音声情報処理方法及び装置 |
JP3559588B2 (ja) | 1994-05-30 | 2004-09-02 | キヤノン株式会社 | 音声合成方法及び装置 |
JP3548230B2 (ja) | 1994-05-30 | 2004-07-28 | キヤノン株式会社 | 音声合成方法及び装置 |
JP3085631B2 (ja) * | 1994-10-19 | 2000-09-11 | 日本アイ・ビー・エム株式会社 | 音声合成方法及びシステム |
US5726769A (en) | 1994-11-14 | 1998-03-10 | Canon Kabushiki Kaisha | Image processing apparatus capable of connecting external information processing terminal, and including printer unit and data processing unit |
EP0823112B1 (en) | 1996-02-27 | 2002-05-02 | Koninklijke Philips Electronics N.V. | Method and apparatus for automatic speech segmentation into phoneme-like units |
JP2923243B2 (ja) | 1996-03-25 | 1999-07-26 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声認識のための単語モデル生成装置及び音声認識装置 |
JP3006677B2 (ja) * | 1996-10-28 | 2000-02-07 | 日本電気株式会社 | 音声認識装置 |
JP3029803B2 (ja) | 1996-11-20 | 2000-04-10 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声認識のための単語モデル生成装置及び音声認識装置 |
JPH10254471A (ja) | 1997-03-14 | 1998-09-25 | Toshiba Corp | 音声合成装置 |
US6226614B1 (en) * | 1997-05-21 | 2001-05-01 | Nippon Telegraph And Telephone Corporation | Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon |
JP3667950B2 (ja) | 1997-09-16 | 2005-07-06 | 株式会社東芝 | ピッチパターン生成方法 |
JP3854713B2 (ja) | 1998-03-10 | 2006-12-06 | キヤノン株式会社 | 音声合成方法および装置および記憶媒体 |
JP3571925B2 (ja) | 1998-07-27 | 2004-09-29 | 株式会社東芝 | 音声情報処理装置 |
JP2001282279A (ja) | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理方法及び装置及び記憶媒体 |
JP4054507B2 (ja) * | 2000-03-31 | 2008-02-27 | キヤノン株式会社 | 音声情報処理方法および装置および記憶媒体 |
-
2000
- 2000-03-31 JP JP2000099534A patent/JP4054507B2/ja not_active Expired - Fee Related
-
2001
- 2001-03-28 US US09/818,599 patent/US6826531B2/en not_active Expired - Lifetime
-
2004
- 2004-10-18 US US10/965,854 patent/US7155390B2/en not_active Expired - Fee Related
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009025356A1 (ja) * | 2007-08-22 | 2009-02-26 | Nec Corporation | 音声認識装置および音声認識方法 |
US8315870B2 (en) | 2007-08-22 | 2012-11-20 | Nec Corporation | Rescoring speech recognition hypothesis using prosodic likelihood |
JP5282737B2 (ja) * | 2007-08-22 | 2013-09-04 | 日本電気株式会社 | 音声認識装置および音声認識方法 |
JP2009063869A (ja) * | 2007-09-07 | 2009-03-26 | Internatl Business Mach Corp <Ibm> | 音声合成システム、プログラム及び方法 |
US9275631B2 (en) | 2007-09-07 | 2016-03-01 | Nuance Communications, Inc. | Speech synthesis system, speech synthesis program product, and speech synthesis method |
KR101495410B1 (ko) * | 2007-10-05 | 2015-02-25 | 닛본 덴끼 가부시끼가이샤 | 음성 합성 장치, 음성 합성 방법 및 컴퓨터 판독가능 기억 매체 |
WO2012164835A1 (ja) * | 2011-05-30 | 2012-12-06 | 日本電気株式会社 | 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム |
JPWO2012164835A1 (ja) * | 2011-05-30 | 2015-02-23 | 日本電気株式会社 | 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム |
US9324316B2 (en) | 2011-05-30 | 2016-04-26 | Nec Corporation | Prosody generator, speech synthesizer, prosody generating method and prosody generating program |
Also Published As
Publication number | Publication date |
---|---|
JP4054507B2 (ja) | 2008-02-27 |
US20050055207A1 (en) | 2005-03-10 |
US7155390B2 (en) | 2006-12-26 |
US20010032078A1 (en) | 2001-10-18 |
US6826531B2 (en) | 2004-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4054507B2 (ja) | 音声情報処理方法および装置および記憶媒体 | |
US6778960B2 (en) | Speech information processing method and apparatus and storage medium | |
US8015011B2 (en) | Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases | |
EP3504709B1 (en) | Determining phonetic relationships | |
US5758320A (en) | Method and apparatus for text-to-voice audio output with accent control and improved phrase control | |
US10692484B1 (en) | Text-to-speech (TTS) processing | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
JPH10116089A (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
JP2005208652A (ja) | 声調言語用分節声調モデリング | |
US9390709B2 (en) | Voice recognition device and method, and semiconductor integrated circuit device | |
CN115943460A (zh) | 从韵律特征预测参数化声码器参数 | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP2016151736A (ja) | 音声加工装置、及びプログラム | |
JP6631883B2 (ja) | クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム | |
JP7314079B2 (ja) | データ生成装置、データ生成方法およびプログラム | |
Azim et al. | Large vocabulary Arabic continuous speech recognition using tied states acoustic models | |
Mustafa et al. | Emotional speech acoustic model for Malay: iterative versus isolated unit training | |
Rawoof et al. | ARM based implementation of Text-To-Speech (TTS) for real time Embedded System | |
JP6436806B2 (ja) | 音声合成用データ作成方法、及び音声合成用データ作成装置 | |
JP3378547B2 (ja) | 音声認識方法及び装置 | |
JP2005250071A (ja) | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 | |
Janyoi et al. | F0 modeling for isarn speech synthesis using deep neural networks and syllable-level feature representation. | |
Sawada et al. | Constructing text-to-speech systems for languages with unknown pronunciations | |
Sayed et al. | Convolutional Neural Networks to Facilitate the Continuous Recognition of Arabic Speech with Independent Speakers | |
IMRAN | ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041210 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041210 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20041210 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20041210 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20041210 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20050201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050304 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050426 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050627 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050826 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20051020 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20051202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071102 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071210 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101214 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4054507 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111214 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121214 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131214 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |