JP3450411B2 - 音声情報処理方法及び装置 - Google Patents
音声情報処理方法及び装置Info
- Publication number
- JP3450411B2 JP3450411B2 JP05041594A JP5041594A JP3450411B2 JP 3450411 B2 JP3450411 B2 JP 3450411B2 JP 05041594 A JP05041594 A JP 05041594A JP 5041594 A JP5041594 A JP 5041594A JP 3450411 B2 JP3450411 B2 JP 3450411B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch pattern
- information processing
- voice
- environment
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000010365 information processing Effects 0.000 title claims description 25
- 238000003672 processing method Methods 0.000 title claims description 12
- 230000001419 dependent effect Effects 0.000 claims description 13
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims 2
- 239000013589 supplement Substances 0.000 claims 1
- 241001417093 Moridae Species 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 12
- 238000000034 method Methods 0.000 description 10
- 230000007704 transition Effects 0.000 description 4
- 239000006185 dispersion Substances 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
などの音声情報処理において、合成音声の自然な韻律生
成や音声認識率の向上を可能にするために、音声の基本
周波数やパワーなどの特徴量を音韻環境を考慮して統計
処理し、確率的に信頼度の高いピッチパターンモデルを
作成する音声情報処理方法及び装置に関するものであ
る。
の中で最も自然に使われるのが音声である。一方、計算
機の飛躍的な進歩により、計算機は数値計算のみならず
様々な情報を扱えるように進歩してきている。そこで、
音声を人間と計算機の情報交換手段として用いたい要求
がある。
合成装置は、機械が任意のテキストを合成音声に変換す
る装置であり、計算機から人間への重要な情報伝達手段
である。しかしながら、従来の音声合成装置から出力さ
れる合成音声は、人間が発生する自然音声と比較すると
不自然で機械的な音声である。この原因の一つとして、
従来の技術ではアクセントやイントネーションを生成す
る韻律生成規則において、簡単なモデル化しか行われて
いないことが上げられる。
は、合成音声は機械的なもので、人間と機械との情報交
換手段として用いるには人間に不安感を与えるものでし
かなかった。
識を行っていたため、認識率が向上しなかった。
ーなどの特徴量ファイル及びラベルファイルを統計的に
処理する際、本発明では、 1)アクセント型、モーラ数、モーラ位置による環境依
存HMMを用いることにより、ピッチパターンの分散、
平均、遷移確率等の情報が生成され、確率的に確信度の
高いモデルが自動生成できるようになり、上記の問題点
を解決する。
ーラ数、モーラ位置に加え、当該音素の音素環境(無声
摩擦、有声破裂音等)も考慮した環境依存HMMを用い
ることにより、音素環境ごとにピッチパターンの分散、
平均、遷移確率等の情報が生成され、確率的に確信度の
高いモデルが自動生成できるようになり、上記の問題点
を解決する。
は、上記2)で記載したアクセント型、モーラ数、モー
ラ位置、当該音素環境に加え、前後の音韻環境等を考慮
することにより、上記2)で得られたピッチパターンよ
り更に精密なピッチパターンが得られるようになり、上
記の問題点を解決する。
を階層的に構成して利用することにより、大局的な構造
のみを表すピッチパターンモデルから、音韻環境等を考
慮した精密なピッチパターンモデルをデータ量に応じて
選択できるようになり、上記の問題点を解決する。
たピッチパターンモデルと、アクセント情報が付与され
た認識辞書を用意することにより、韻律情報を利用した
音声認識が行えるようになり、上記の問題点を解決す
る。
装置の構成ブロック図を示す。
制御プログラムに従って実行するCPU、2は本実施例
で説明する各処理の制御プログラムを格納するROM、
3は本実施例で説明する各処理に用いるファイル、テー
ブル等のデータを格納する部分及び処理途中で生じるデ
ータを格納するワークメモリ部分を備えるRAM、4は
各処理の指示、例えば音声ファイルへのラベル付与等を
行う為のコード情報が入力できるキーボード、5は所望
の位置の座標情報を入力できるポインティングデバイス
であり、これはペン形等のものにして軌跡を入力できる
ものとしても良い。6はキーボード4やポインティング
デバイス5から入力された情報や、本装置で受けた情
報、処理途中の情報、或いは処理結果を表示する表示手
段であって、CRTや液晶表示器を用いる。7は認識対
象とする音声や各種指示コマンド音声を入力するマイク
ロフォン、8は合成音声やメッセージ音声を出力するス
ピーカである。
図に従って説明する。
どを格納する音声ファイル、12は音声ファイル11に
格納されているデータから特徴量を抽出する特徴量抽出
部、13は音声ファイルに格納されているデータに各音
素のラベルの付与をするラベル付与部、14は音声ファ
イル11に格納されているデータに対応する音韻リスト
を作成する音韻リスト作成部、15は特徴量抽出部12
により抽出された音声ファイル11に格納されているデ
ータの特徴量を音声ファイル番号と共に格納する特徴量
ファイル、16はラベル付与部13及び音韻リスト作成
部14により得られたデータから作成されたラベル毎の
データを格納するラベルファイル、17は特徴量ファイ
ル15及びラベルファイル16をもとに、統計処理を行
う統計処理部、18は統計処理部17において得たデー
タを用いてピッチパターンを作成するピッチパターン作
成部である。
より生ずるデータを示した図を用いて詳細に説明する。
に表示されたデータに対してキーボード等を用いてオペ
レータが目視によりラベルデータを入力する方法、或は
プログラムにより制御する方法の何れかによって、音声
ファイル11に格納されている音声データベース等のデ
ータに対して各音素のラベルを図2のように付与する。
例えば、音声ファイル番号1の「aki」というデータ
は、音素「a」は時間「100〜149」、音素「k」
は時間「150〜179」、音素「i」は時間「180
〜200」というように定める。
ファイルに対応するアクセント型、モーラ数、音素カテ
ゴリ等の音韻リストを図3のように作成する。例えば、
音声ファイル番号1の「aki」というデータは、モー
ラ数が「2」、アクセント型は「0型」であると定め
る。
4により得られたデータからアクセント型、モーラ数、
モーラ位置、音素カテゴリ等の音韻環境を考慮した図4
のようなラベル毎のデータを作成し、ラベルファイル1
6に格納する。
ル11に格納されているデータを表示手段に表示し、こ
のデータに対してキーボード等を用いてオペレータが目
視によりデータを入力する方法、或はプログラムにより
制御する方法の何れかによって、基本周波数やパワー、
これらの変化分(デルタピッチ、デルタパワー)等の特
徴量を抽出し、特徴量ファイル15を作成する。
部13により付与されるラベル情報を利用し、例えば無
声、無音区間は特定のコードを付与する等して音声/無
声/無音に応じて基本周波数を抽出する方法を用いても
良い。
ァイル16をもとに、統計処理部17において統計処理
を行い、ピッチパターン作成部18でピッチパターンを
作成する。
本周波数(あるいはこれを対数変換したもの)、パワ
ー、継続時間長、スペクトル情報(ケプストラム、LP
C係数等)、更にこれらの1次回帰係数、2次回帰係数
等が利用でき、これらの任意の組み合わせにより統計処
理を行うことができる。
の特徴量は、データ毎、カテゴリ別、全データのいづれ
かで正規化したものを用いることもできる。
作成部をアクセント型、モーラ数、モーラ位置とし、1
5の特徴量ファイルを対数基本周波数のみを用いた場合
について説明する。図5はアクセント型、モーラ数、モ
ーラ位置による環境依存HMM(1モーラあたり3状態
3ループの連続HMM)を用いた場合のピッチパターン
テーブルの例である。本実施例の場合、音韻環境は、ア
クセント型、モーラ数、モーラ位置に分類されて統計処
理される。
ける「AZI」に関するピッチパターン作成の手順を図
6、図7を用いて述べる。
22)を選択する。ここで、「AZI」はモーラ数2、
アクセント型はO型であるので、その音韻環境で、モー
ラ位置が1と2であるでデータを選択している。
に応じて先に選択された各モデルの状態を配置する。
μ12、μ13等)を用いて点ピッチを決定する。
の母音間で補間を行う)し、図6のようなピッチパター
ンが作成される。
図7に示すように、図6のピッチパターンに加えてピッ
チのダイナミックレンジ(d)を乗じ、バイアス(b)
を加える。
素)の時間的割り当ての方法は、単純に3等分する方法
或は、遷移確率の比率で分配する方法或は、得られたモ
デルを学習データに通すことにより得られる時間配分の
比率で分配する方法などにより行う。また、時間配分さ
れたピッチパターンモデルは、線形補間、スプライン補
間等の各種補間により、韻律データが作成できる。ま
た、このとき分散を考慮したピッチパターン補正を行う
ことも可能である。
リスト作成部14において作成する音韻リストの音韻環
境をアクセント型、モーラ型、モーラ位置としたが、こ
れに加え、音素または音素カテゴリ(以下これらをまと
めて音素カテゴリと呼ぶ)の環境を考慮して音韻リスト
を作成し、15の特徴量ファイルを対数基本周波数のみ
を用いた場合について本実施例で説明する。図8はアク
セント型、モーラ数、モーラ位置、音素カテゴリを考慮
した音韻環境依存HMM(1モーラあたり3状態3ルー
プの連続HMM)を用いた場合のピッチパターンテーブ
ルの例である。本実施例の場合、音韻環境は、アクセン
ト型、モーラ数、モーラ位置、音素カテゴリに分類され
て統計処理される。
けるピッチパターン作成の手順を図9、図10を用いて
述べる。
Z022、Vz022)を選択する。
に応じて先に選択された各モデルの状態を配置する。
μ12、μ13等)を用いて点ピッチを決定する。
チパターンが作成される。
図10に示すように、図9のピッチパターンに加えてピ
ッチのダイナミックレンジ(d)を乗じ、バイアス
(b)を加える。
例と同様な方法で行うことができる。
関しては、例えば前後の音韻環境等を考慮することによ
り、上述の実施例1より更に精密なピッチパターンを生
成することが可能となる。
音韻の微細変化がより精密に表現できるため、聴感上の
改善が期待できる。しかし、データ量の制限から、細か
い音韻クラスではHMMが作成できない場合もある。従
って、音声規則合成に適用する際は構成を多階層とし、
合成したい音韻環境モデルが下位階層にない場合には、
上位階層のモデルを利用してピッチパターンを生成する
必要がある。
得られたピッチパターンモデルを階層的に構成すること
により、データ量に応じたピッチパターンが選択でき、
データ量の多少に関わらず同じ構成で、かつデータ量が
増えるにつれ、より精密なピッチパターンモデルを利用
することができる。
示す図である。図11中、21は実施例により生成され
るピッチパターンのクラスを表す。22は実施例2の一
例として、音韻環境として当該音韻の種類を有声音か無
声音かの2通りに場合分けしたときに生成されるピッチ
パターンのクラスを表す。23は実施例3の一例とし
て、音韻環境として当該音韻の種類を有声音か無声音か
の2通り及び、次の音韻の種類を有声音か無声音かの2
通りに場合分けしたときに生成されるピッチパターンの
クラスを表す。24は実施例3の別の一例として、音韻
環境として当該音韻の種類を音素カテゴリ(無声摩擦
音、有声破裂音等)及び、次の音韻の種類を音素カテゴ
リ(無声摩擦音、有声破裂音等)に場合分けしたときに
生成されるピッチパターンのクラスを表す。
あり、例えば当該音韻の前の音韻カテゴリ等を考慮する
こともできる。また、図11の各クラス間に異なるモデ
ルを挿入、あるいは図11のいずれかのモデルを削除し
て構成することもできる。
を行う際に、実施例1〜実施例4におけるピッチパター
ンモデルと発声されたピッチパターンとを比較すること
により、音素、アクセント型を決定し、音声認識率を向
上させることが可能になる。この際、アクセント型を付
与した認識用辞書を用意する必要がある。
型)」と、「箸(1型)」という読みとモーラ数が同じ
でアクセント型のみが異なる単語を認識する際、発声さ
れた音声から基本周波数を抽出し、これに実施例1で生
成されたピッチパターンのうち、2モーラ0型及び2モ
ーラ1型のピッチパターンで構成されるモデルを用いて
識別を行うことにより、アクセント型が決定できる。
(1型)」というモーラ数とアクセント型は同一で、1
モーラ目の子音のみが異なる単語を認識する際、発声さ
れた音声から基本周波数を抽出し、これに実施例2また
は実施例3で生成されたピッチパターンのうち、3モー
ラ1型で1モーラ目の子音部がmとkのカテゴリをもつ
2つのモデルを用いることにより、ピッチパターンの観
点から確からしさが求まり、これをスペクトル情報と統
合し評価することにより、音声認識率を向上させること
が可能である。
ンモデルを用いて、アクセント句境界を抽出することも
できる。
量ファイル及びラベルファイルを統計的に処理する際
に、環境依存HMMを用いることにより、ピッチパター
ンの分散、平均、遷移確率等の情報が生成され、確率的
に確信度の高いモデルが自動生成できるようになり、自
然な韻律生成や音声認識率の向上が可能となる効果があ
る。
境依存HMMを用いたピッチパターンテーブルの例示
図。
境依存HMMを用いたピッチパターン作成例示図。
境依存HMMを用いたピッチパターン作成例示図。
用いたピッチパターンテーブルの例示図。
ラ位置による音韻環境依存HMMを用いたピッチパター
ン作成例示図。
ーラ位置による音韻環境依存HMMを用いたピッチパタ
ーン作成例示図。
Claims (20)
- 【請求項1】 格納されている音声データから特徴量を
抽出して作成した特徴量ファイルと、該格納されている
音声データを音韻環境ごとに処理できるよう分析して得
たラベルファイルとを用いて、前記音声データを統計処
理することにより環境依存HMMとしてピッチパターン
モデルを作成し、前記ピッチパターンモデルを配置、補
間することによって、音韻環境を考慮したピッチパター
ンを作成することを特徴とする音声情報処理方法。 - 【請求項2】 前記作成されたピッチパターンを、音声
規則合成に用いることを特徴とする請求項1記載の音声
情報処理方法。 - 【請求項3】 前記ピッチパターンの作成は、前後の音
韻環境を考慮することを特徴とする請求項1記載の音声
情報処理方法。 - 【請求項4】 前記ピッチパターンの作成は、ピッチパ
ターンモデルを階層的に構成して利用することを特徴と
する請求項1記載の音声情報処理方法。 - 【請求項5】 前記作成されたピッチパターンモデル
を、入力音声のピッチパターンと比較することにより、
入力音声の認識に用いることを特徴とする請求項1記載
の音声情報処理方法。 - 【請求項6】 前記音韻環境は、アクセント型を考慮す
るものであることを特徴とする請求項1記載の音声情報
処理方法。 - 【請求項7】 前記音韻環境は、モーラ数を考慮するも
のであることを特徴とする請求項1記載の音声情報処理
方法。 - 【請求項8】 前記音韻環境は、モーラ位置を考慮する
ものであることを特徴とする請求項1記載の音声情報処
理方法。 - 【請求項9】 前記音韻環境は、音素を考慮するもので
あることを特徴とする請求項1記載の音声情報処理方
法。 - 【請求項10】 前記音韻環境は、音素カテゴリを考慮
するものであることを特徴とする請求項1記載の音声情
報処理方法。 - 【請求項11】 音声データを格納する音声ファイル格
納手段と、 前記音声ファイルに格納手段に格納されている音声デー
タから特徴量を抽出し、特徴量ファイルを作成する特徴
量抽出手段と、 前記音声データを音韻環境ごとに処理できるよう分析す
る分析手段と、 前記特徴量抽出手段及び分析手段より得たデータを用い
て、前記音声ファイル格納手段に格納されている音声デ
ータを統計処理することにより環境依存HMMとしてピ
ッチパターンモデルを作成する統計処理手段と、 前記統計処理手段により得たピッチパターンモデルを配
置、補間することによってピッチパターンを作成するピ
ッチパターン作成手段とを有することを特徴とする音声
情報処理装置。 - 【請求項12】 前記作成されたピッチパターンを、音
声規則合成に用いることを特徴とする請求項11記載の
音声情報処理装置。 - 【請求項13】 前記ピッチパターン作成手段は、前後
の音韻環境を考慮することを特徴とする請求項11記載
の音声情報処理装置。 - 【請求項14】 前記ピッチパターン作成手段は、ピッ
チパターンモデルを階層的に構成して利用することを特
徴とする請求項11記載の音声情報処理装置。 - 【請求項15】 前記作成されたピッチパターンモデル
を、入力音声のピッチパターンと比較することにより、
入力音声の認識に用いることを特徴とする請求項11記
載の音声情報処理装置。 - 【請求項16】 前記音韻環境は、アクセント型を考慮
するものであることを特徴とする請求項11記載の音声
情報処理装置。 - 【請求項17】 前記音韻環境は、モーラ数を考慮する
ものであることを特徴とする請求項11記載の音声情報
処理装置。 - 【請求項18】 前記音韻環境は、モーラ位置を考慮す
るものであることを特徴とする請求項11記載の音声情
報処理装置。 - 【請求項19】 前記音韻環境は、音素を考慮するもの
であることを特徴とする請求項11記載の音声情報処理
装置。 - 【請求項20】 前記音韻環境は、音素カテゴリを考慮
するものであることを特徴とする請求項11記載の音声
情報処理装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05041594A JP3450411B2 (ja) | 1994-03-22 | 1994-03-22 | 音声情報処理方法及び装置 |
DE69519887T DE69519887T2 (de) | 1994-03-22 | 1995-03-17 | Verfahren und Vorrichtung zur Verarbeitung von Sprachinformation |
EP95301802A EP0674307B1 (en) | 1994-03-22 | 1995-03-17 | Method and apparatus for processing speech information |
US08/406,487 US5845047A (en) | 1994-03-22 | 1995-03-20 | Method and apparatus for processing speech information using a phoneme environment |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05041594A JP3450411B2 (ja) | 1994-03-22 | 1994-03-22 | 音声情報処理方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07261778A JPH07261778A (ja) | 1995-10-13 |
JP3450411B2 true JP3450411B2 (ja) | 2003-09-22 |
Family
ID=12858238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP05041594A Expired - Fee Related JP3450411B2 (ja) | 1994-03-22 | 1994-03-22 | 音声情報処理方法及び装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5845047A (ja) |
EP (1) | EP0674307B1 (ja) |
JP (1) | JP3450411B2 (ja) |
DE (1) | DE69519887T2 (ja) |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE504177C2 (sv) * | 1994-06-29 | 1996-12-02 | Telia Ab | Metod och anordning att adaptera en taligenkänningsutrustning för dialektala variationer i ett språk |
US6366883B1 (en) | 1996-05-15 | 2002-04-02 | Atr Interpreting Telecommunications | Concatenation of speech segments by use of a speech synthesizer |
JPH1039895A (ja) * | 1996-07-25 | 1998-02-13 | Matsushita Electric Ind Co Ltd | 音声合成方法および装置 |
JP3006677B2 (ja) * | 1996-10-28 | 2000-02-07 | 日本電気株式会社 | 音声認識装置 |
JP3576840B2 (ja) * | 1997-11-28 | 2004-10-13 | 松下電器産業株式会社 | 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体 |
US6055566A (en) * | 1998-01-12 | 2000-04-25 | Lextron Systems, Inc. | Customizable media player with online/offline capabilities |
JP3587048B2 (ja) * | 1998-03-02 | 2004-11-10 | 株式会社日立製作所 | 韻律制御方法及び音声合成装置 |
JP2000047696A (ja) | 1998-07-29 | 2000-02-18 | Canon Inc | 情報処理方法及び装置、その記憶媒体 |
JP3361066B2 (ja) | 1998-11-30 | 2003-01-07 | 松下電器産業株式会社 | 音声合成方法および装置 |
JP3841596B2 (ja) * | 1999-09-08 | 2006-11-01 | パイオニア株式会社 | 音素データの生成方法及び音声合成装置 |
JP3969908B2 (ja) | 1999-09-14 | 2007-09-05 | キヤノン株式会社 | 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法 |
US20040006473A1 (en) * | 2002-07-02 | 2004-01-08 | Sbc Technology Resources, Inc. | Method and system for automated categorization of statements |
JP2001282278A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理装置及びその方法と記憶媒体 |
JP3728172B2 (ja) * | 2000-03-31 | 2005-12-21 | キヤノン株式会社 | 音声合成方法および装置 |
JP3728173B2 (ja) * | 2000-03-31 | 2005-12-21 | キヤノン株式会社 | 音声合成方法、装置および記憶媒体 |
JP4632384B2 (ja) * | 2000-03-31 | 2011-02-16 | キヤノン株式会社 | 音声情報処理装置及びその方法と記憶媒体 |
JP2001282279A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理方法及び装置及び記憶媒体 |
JP4054507B2 (ja) | 2000-03-31 | 2008-02-27 | キヤノン株式会社 | 音声情報処理方法および装置および記憶媒体 |
US7039588B2 (en) * | 2000-03-31 | 2006-05-02 | Canon Kabushiki Kaisha | Synthesis unit selection apparatus and method, and storage medium |
JP3728177B2 (ja) | 2000-05-24 | 2005-12-21 | キヤノン株式会社 | 音声処理システム、装置、方法及び記憶媒体 |
JP2002132287A (ja) * | 2000-10-20 | 2002-05-09 | Canon Inc | 音声収録方法および音声収録装置および記憶媒体 |
US7249018B2 (en) | 2001-01-12 | 2007-07-24 | International Business Machines Corporation | System and method for relating syntax and semantics for a conversational speech application |
DE10120513C1 (de) * | 2001-04-26 | 2003-01-09 | Siemens Ag | Verfahren zur Bestimmung einer Folge von Lautbausteinen zum Synthetisieren eines Sprachsignals einer tonalen Sprache |
JP2003036088A (ja) * | 2001-07-23 | 2003-02-07 | Canon Inc | 音声変換の辞書管理装置 |
JP2003108178A (ja) * | 2001-09-27 | 2003-04-11 | Nec Corp | 音声合成装置及び音声合成用素片作成装置 |
US7266497B2 (en) * | 2002-03-29 | 2007-09-04 | At&T Corp. | Automatic segmentation in speech synthesis |
JP2003295882A (ja) * | 2002-04-02 | 2003-10-15 | Canon Inc | 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム |
US7280968B2 (en) * | 2003-03-25 | 2007-10-09 | International Business Machines Corporation | Synthetically generated speech responses including prosodic characteristics of speech inputs |
US7774196B2 (en) * | 2003-10-01 | 2010-08-10 | Dictaphone Corporation | System and method for modifying a language model and post-processor information |
EP1524650A1 (en) * | 2003-10-06 | 2005-04-20 | Sony International (Europe) GmbH | Confidence measure in a speech recognition system |
US7885391B2 (en) * | 2003-10-30 | 2011-02-08 | Hewlett-Packard Development Company, L.P. | System and method for call center dialog management |
JP4587160B2 (ja) * | 2004-03-26 | 2010-11-24 | キヤノン株式会社 | 信号処理装置および方法 |
JP4541781B2 (ja) * | 2004-06-29 | 2010-09-08 | キヤノン株式会社 | 音声認識装置および方法 |
JP4544933B2 (ja) * | 2004-07-29 | 2010-09-15 | 東芝テック株式会社 | 音声メモプリンタ |
JP4456537B2 (ja) * | 2004-09-14 | 2010-04-28 | 本田技研工業株式会社 | 情報伝達装置 |
US8189783B1 (en) * | 2005-12-21 | 2012-05-29 | At&T Intellectual Property Ii, L.P. | Systems, methods, and programs for detecting unauthorized use of mobile communication devices or systems |
US20080027725A1 (en) * | 2006-07-26 | 2008-01-31 | Microsoft Corporation | Automatic Accent Detection With Limited Manually Labeled Data |
US8346555B2 (en) | 2006-08-22 | 2013-01-01 | Nuance Communications, Inc. | Automatic grammar tuning using statistical language model generation |
JP4264841B2 (ja) | 2006-12-01 | 2009-05-20 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに、プログラム |
US7844457B2 (en) * | 2007-02-20 | 2010-11-30 | Microsoft Corporation | Unsupervised labeling of sentence level accent |
JP4455610B2 (ja) | 2007-03-28 | 2010-04-21 | 株式会社東芝 | 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法 |
JP2008263543A (ja) * | 2007-04-13 | 2008-10-30 | Funai Electric Co Ltd | 記録再生装置 |
JP4882899B2 (ja) * | 2007-07-25 | 2012-02-22 | ソニー株式会社 | 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム |
US8321222B2 (en) * | 2007-08-14 | 2012-11-27 | Nuance Communications, Inc. | Synthesis by generation and concatenation of multi-form segments |
CN101785051B (zh) * | 2007-08-22 | 2012-09-05 | 日本电气株式会社 | 语音识别装置和语音识别方法 |
JP2010190955A (ja) * | 2009-02-16 | 2010-09-02 | Toshiba Corp | 音声合成装置、方法及びプログラム |
JP2011203482A (ja) * | 2010-03-25 | 2011-10-13 | Yamaha Corp | 音声処理装置 |
CN110164437B (zh) * | 2012-03-02 | 2021-04-16 | 腾讯科技(深圳)有限公司 | 一种即时通信的语音识别方法和终端 |
US9972300B2 (en) | 2015-06-11 | 2018-05-15 | Genesys Telecommunications Laboratories, Inc. | System and method for outlier identification to remove poor alignments in speech synthesis |
CN106205622A (zh) | 2016-06-29 | 2016-12-07 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59226400A (ja) * | 1983-06-07 | 1984-12-19 | 松下電器産業株式会社 | 音声認識装置 |
JPH031200A (ja) * | 1989-05-29 | 1991-01-07 | Nec Corp | 規則型音声合成装置 |
DE69028072T2 (de) * | 1989-11-06 | 1997-01-09 | Canon Kk | Verfahren und Einrichtung zur Sprachsynthese |
EP0481107B1 (en) * | 1990-10-16 | 1995-09-06 | International Business Machines Corporation | A phonetic Hidden Markov Model speech synthesizer |
JP3070127B2 (ja) * | 1991-05-07 | 2000-07-24 | 株式会社明電舎 | 音声合成装置のアクセント成分制御方式 |
EP0515709A1 (en) * | 1991-05-27 | 1992-12-02 | International Business Machines Corporation | Method and apparatus for segmental unit representation in text-to-speech synthesis |
US5475796A (en) * | 1991-12-20 | 1995-12-12 | Nec Corporation | Pitch pattern generation apparatus |
JPH05181491A (ja) * | 1991-12-30 | 1993-07-23 | Sony Corp | 音声合成装置 |
-
1994
- 1994-03-22 JP JP05041594A patent/JP3450411B2/ja not_active Expired - Fee Related
-
1995
- 1995-03-17 EP EP95301802A patent/EP0674307B1/en not_active Expired - Lifetime
- 1995-03-17 DE DE69519887T patent/DE69519887T2/de not_active Expired - Lifetime
- 1995-03-20 US US08/406,487 patent/US5845047A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0674307A2 (en) | 1995-09-27 |
DE69519887D1 (de) | 2001-02-22 |
EP0674307A3 (en) | 1996-04-24 |
US5845047A (en) | 1998-12-01 |
JPH07261778A (ja) | 1995-10-13 |
EP0674307B1 (en) | 2001-01-17 |
DE69519887T2 (de) | 2001-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3450411B2 (ja) | 音声情報処理方法及び装置 | |
US7089186B2 (en) | Speech information processing method, apparatus and storage medium performing speech synthesis based on durations of phonemes | |
US7155390B2 (en) | Speech information processing method and apparatus and storage medium using a segment pitch pattern model | |
JP4302788B2 (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
US20100066742A1 (en) | Stylized prosody for speech synthesis-based applications | |
JP2004522192A (ja) | 生成された階層的な音声テンプレートを用いて音声合成装置データベースをカスタマイズするための方法およびツール | |
JPWO2006123539A1 (ja) | 音声合成装置 | |
JP2006084715A (ja) | 素片セット作成方法および装置 | |
JP4586615B2 (ja) | 音声合成装置,音声合成方法およびコンピュータプログラム | |
JP2006227589A (ja) | 音声合成装置および音声合成方法 | |
JP3576840B2 (ja) | 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体 | |
US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
JP2003271194A (ja) | 音声対話装置及びその制御方法 | |
JP6436806B2 (ja) | 音声合成用データ作成方法、及び音声合成用データ作成装置 | |
JP2001265375A (ja) | 規則音声合成装置 | |
Liberman | Computer speech synthesis: its status and prospects. | |
Khalil et al. | Implementation of speech synthesis based on HMM using PADAS database | |
Ahmad et al. | Towards designing a high intelligibility rule based standard malay text-to-speech synthesis system | |
JP3314116B2 (ja) | 音声規則合成装置 | |
IMRAN | ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE | |
Butler et al. | Articulatory constraints on vocal tract area functions and their acoustic implications | |
May et al. | Speech synthesis using allophones | |
Roe et al. | VOICf | |
JPH08160990A (ja) | 音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20030212 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20030701 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080711 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080711 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090711 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090711 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100711 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100711 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110711 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120711 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120711 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130711 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |