JPH10260692A - 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム - Google Patents

音声の認識合成符号化/復号化方法及び音声符号化/復号化システム

Info

Publication number
JPH10260692A
JPH10260692A JP9064933A JP6493397A JPH10260692A JP H10260692 A JPH10260692 A JP H10260692A JP 9064933 A JP9064933 A JP 9064933A JP 6493397 A JP6493397 A JP 6493397A JP H10260692 A JPH10260692 A JP H10260692A
Authority
JP
Japan
Prior art keywords
information
speech
unit
decoding
synthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9064933A
Other languages
English (en)
Inventor
Masami Akamine
政巳 赤嶺
Akinori Koshiba
亮典 小柴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP9064933A priority Critical patent/JPH10260692A/ja
Priority to US09/042,612 priority patent/US6161091A/en
Publication of JPH10260692A publication Critical patent/JPH10260692A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis

Abstract

(57)【要約】 【課題】1kbps以下の極低レートで音声信号を符号
化するために、不完全な音声認識技術でも適用でき、か
つ話者の感情など非言語的な情報も伝送することができ
る認識合成に基づいた音声符号化/復号化システムを提
供する。 【解決手段】送信側において入力音声データをピッチ検
出部101、音素認識部102および継続時間長検出部
103に入力して、ピッチ周期の検出、音節の認識およ
び音素の継続時間長の検出を行い、これらピッチ周期、
音節および継続時間長の情報を符号化回路104,10
5,106により符号化した後、符号列をマルチプレク
サ107を経て通信路に伝送し、受信側においてはデマ
ルチプレクサ110で符号列からピッチ周期、音節およ
び継続時間長の情報を復号化し、これらの復号化された
情報に基づいて合成器114で元の音声信号を合成す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声信号を高能率
に圧縮符号化/復号化する方法及びシステムに係り、特
に音声信号を1kbps以下の極低ビットレートで符号
化する認識合成符号化方法及びこれを用いた音声符号化
/復号化方法及びシステムに関する。
【0002】
【従来の技術】音声信号を高能率に符号化する技術は、
利用できる電波帯域が限られている移動体通信や、メモ
リの有効利用が求められるボイスメールなどの蓄積媒体
において、今や不可欠の技術になっており、より低いビ
ットレートへ向かっている。電話帯域の音声を4kbp
s〜8kbps程度の伝送レートで符号化する方式とし
て、CELP(Code Excited Linear Prediction)は有効
な方式の一つである。
【0003】このCELP方式に関しては、M.R.Schroe
der and B.S.Atal, “Code ExcitedLinear Prediction
(CELP):High Quality Speech at Very Low Bit Rate
s”,Proc.ICASSP,pp.937-940,1985および W.S.Kleijin,
D.J.Krasinski et al. “Improved Speech Quality and
Efficient Vector Quantization in SELP ”,Proc.ICA
SSP,pp.155-158,1988(文献1)で詳しく述べられてい
る。
【0004】同文献1によると、この方式はフレーム単
位に分割された入力音声から、声道をモデル化した音声
合成フィルタを求める処理と、このフィルタの入力信号
に当たる駆動ベクトルを求める処理に大別される。これ
らのうち、後者は符号帳に格納された複数の駆動ベクト
ルを一つずつ音声合成フィルタに通し、合成音声と入力
音声との歪を計算し、この歪が最小となる駆動ベクトル
を探索する処理からなる。これは閉ループ探索と呼ばれ
ており、4kbps〜8kbps程度のビットレートで
良好な音質を再生するために非常に有効な方法である。
【0005】また、音声信号を更に低いビットレートで
符号化する方法として、LPCボコーダが知られてい
る。これは声帯信号をパルス列と白色雑音信号で、また
声道の特性をLPC合成フィルタでモデル化し、それら
のパラメータを符号化する方式であり、音質的に問題は
あるものの音声信号を2.4kbps程度で符号化する
ことができる。これらの符号化方式は、発声者が何を言
っているかという言語情報はもちろん、個人性、声の
質、感情など元の音声波形が持っている情報を人間の聴
覚特性上できるだけ忠実に伝送しようとするもので、主
に電話を中心とする通信の用途に用いられている。
【0006】一方、最近のインターネットブームを背景
にネットチャットと呼ばれるサービスの利用者が増加し
ている。これは、ネットワーク上でリアルタイムに一対
一、または一対多、多対多の会話を楽しむものであり、
音声信号の伝送のため上記のCELP方式を基本にした
ものが用いられている。CELP方式は、PCM方式と
比べビットレートが1/8〜1/16と低く、音声信号
の能率的な伝送を可能にしている。しかし、インターネ
ットを利用するユーザ数は急激に増加しつつあり、これ
に伴いネットワークがしばしば混雑する状況が発生し、
そのため音声情報の伝送に遅延が生じて会話に支障が起
こっている。
【0007】このような状況を解決するためには、音声
信号をCELP方式よりさらに低いビットレートで符号
化する技術が必要である。低ビットレート符号化の究極
の姿としては、音声の言語情報を認識してその言語情報
を表現する文字列を伝送し、受信側で規則合成する認識
合成符号化が知られている。この認識合成符号化は、中
田和男著、「音声の高能率符号化」、森北出版発行(文
献2)で簡単に紹介されているように、数十乃至100
bps程度の極低レートで音声信号を伝送することがで
きると言われている。
【0008】しかし、認識合成符号化方式は音声認識技
術を適用することで得られた文字列から音声を規則的に
合成する必要があるため、音声認識が不完全であるとイ
ントネーションが著しく不自然になったり、会話の内容
が誤ったりという問題が生じる。このため、認識合成符
号化は完全な音声認識技術を仮定しており、今まで具体
的に実現された例はなく、近い将来もその実現は困難で
あると予想される。
【0009】このように音声信号という物理的な情報を
言語情報という高度に抽象化された情報に変換した後、
通信を行う方法では、実現性に問題があるため、音声信
号をより物理的な情報に認識して変換する符号化方法が
提案されている。この方法の一例として、特公平5−7
6040号(文献3)に記述されている「ボコーダ方法
及び装置」が知られている。
【0010】同文献3においては、アナログ音声入力は
音声認識装置へ送られ、音素列に変換される。音素列
は、音素−異音合成器によってそれを近似した異音列に
変換され、この異音列によって音声が再生される。音声
認識装置では、アナログ音声入力はAGCにより信号の
ゲインがある一定の値に保持されつつ、ホルマントトラ
ッカーに入力されて入力信号のホルマントが検出され、
RAMに記憶される。記憶されたホルマントは音素境界
検出装置へ送られ、音素の成分へ区切られる。区切られ
た音素は、認識アルゴリズムによって音素テンプレート
登録表との間でマッチングがとられ、認識された音素が
得られる。
【0011】音素−異音合成器では、入力された音素符
号と対応する異音列をROMから読み出し、音声合成器
へ送る。音声合成器は送られてきた異音列から線形予測
フィルタのパラメータなど音声合成に必要なパラメータ
を求め、それらを用いて音声を合成する。ここで、異音
(Allophone)と呼ぶものは、当該音素とその
前後の音素を用いて予め定めた規則に従って決定された
属性(当該音素が語頭、語中、語尾のどれか、また、鼻
音化や無声化するかといった類)が付加されたものであ
る。
【0012】この文献3に記載された技術のポイント
は、音声信号を言語情報である文字列に変換するのでは
なく、音声信号を単に音素記号列に変換し、その記号列
と音声合成のための物理パラメータを対応付けたことで
ある。このようにすることによって、音素の認識が誤っ
たとしても、誤った音素が別の音素に変わるものの文章
全体としては大きく変わらないという利点が生じる。そ
して、文献3には「人間の耳の自然のフィルタ作用と聞
き手の思考過程での誤り修正のために、完全な認識でな
くても、最も良い一致を取ることで、認識アルゴリズム
によって発生する誤りは最小のものとなる。」と記載さ
れている。
【0013】しかし、文献3に記載の符号化方法では、
符号化側から単に音素を表す記号列を伝送しているのみ
であるため、復号化側で再生される合成音は抑揚やリズ
ムのない不自然なものとなってしまい、単に会話の意味
が伝わるのみで話者に関するの情報や感情といった情報
は伝わらないという問題がある。
【0014】
【発明が解決しようとする課題】上述したように、音声
の言語情報を認識し、その情報を表現する文字列を伝
送、復号化側で規則合成する従来の認識合成方式は完全
な音声認識技術を仮定しているため、現実に実現するこ
とが困難であるという問題があった。
【0015】また、不完全な音声認識技術でも適用でき
る公知の符号化方式では、単に音素を表す記号列を伝送
しているのみであるため、復号化側で再生される合成音
は抑揚やリズムのない不自然なものとなってしまい、単
に会話の意味が伝わるのみで話者に関するの情報や感情
といった情報は伝わらないという問題があった。
【0016】本発明は、1kbps以下の極低レートで
音声信号を符号化するために、不完全な音声認識技術で
も適用でき、かつ話者の感情など非言語的な情報も伝送
することができる認識合成に基づいた音声の認識合成符
号化/復号化方法及びシステムを提供するものである。
【0017】
【課題を解決するための手段】上記の課題を解決するた
め、本発明に係る音声の認識合成符号化/復号化方法
は、入力音声信号から音素、音節または単語などを文字
情報として認識するとともに、該入力音声信号からピッ
チ周期と音素または音節の継続時間長などを韻律情報を
検出して、これら文字情報および韻律情報を符号化デー
タとして伝送または蓄積し、伝送または蓄積された符号
化データから文字情報および韻律情報を復号し、復号さ
れた文字情報および韻律情報に基づいて音声信号を合成
することを特徴とする。
【0018】また、本発明に係る音声符号化/復号化シ
ステムは、入力音声信号から文字情報を認識する認識手
段と、入力音声信号から韻律情報を検出する検出手段
と、これら文字情報および韻律情報を符号化する符号化
手段と、この符号化手段により得られた符号化データを
伝送または蓄積する伝送/蓄積手段と、この伝送/蓄積
手段により伝送または蓄積された符号化データから文字
情報および韻律情報を復号する復号化手段と、この復号
化手段により復号された文字情報および韻律情報に基づ
いて音声信号を合成する合成手段とを備えたことを特徴
とする。
【0019】より具体的には、認識手段は入力音声信号
から音素、音節または単語を文字情報として認識し、韻
律情報検出手段は認識された文字情報の継続時間長と入
力音声信号のピッチ周期を韻律情報として検出する。
【0020】このように本発明では、符号化側(送信
側)において入力音声信号から音素や音節などの文字情
報を認識してその情報を伝送または蓄積することに加え
て、入力音声信号からピッチ周期や継続時間長などの韻
律情報を検出してその情報も伝送または蓄積し、復号化
が(受信側)において伝送または蓄積されてきた音素や
音節などの文字情報とピッチ周期や継続時間長などの韻
律情報に基づいて音声信号を合成することにより、1k
bps以下といった極低レートでの符号化が可能である
上に、話者の抑揚やリズム、話調なども再生されること
によって、従来では困難であった話者の感情などの非言
語的情報の伝送も可能となる。
【0021】また、本発明においては音声信号の合成に
用いる合成単位の情報を格納した合成単位辞書として異
なる話者の音声データから生成された複数個の合成単位
辞書を備え、韻律情報に応じて1個の合成単位辞書を選
択して音声信号を合成するようにしてもよい。このよう
に構成にすると、符号化側(送信側)で音声信号を入力
した話者とより類似した合成音が復号化側(受信側)で
再生される。
【0022】さらに、上述した複数個の合成単位辞書の
中から、指示された合成音の種類に応じて1個の合成単
位辞書を選択して音声信号を合成するようにしてもよ
い。このようにすると、合成される音声信号の種類を送
信側または受信側のユーザを指定でき、声質変換なども
可能となる。
【0023】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。 (第1の実施形態)図1は、本発明の第1の実施形態に
係る音声の認識合成符号化/復号化方法を適用した音声
符号化/復号化システムの構成を示すブロック図であ
る。この符号化/復号化システムは、ピッチ検出部10
1、音素認識部102、継続時間長検出部103、符号
化回路104,105,106、マルチプレクサ10
7、デマルチプレクサ110、復号化回路111,11
2,113および合成器114から構成される。
【0024】まず、符号化側(送信側)においては、音
声入力端子100からディジタル化された音声信号(以
下、入力音声データという)が入力される。この入力音
声データはピッチ検出部101、音素認識部102、継
続時間長検出部103に入力される。ピッチ検出部10
1による検出結果、音素認識部102による認識結果お
よび継続時間長検出部103による検出結果は、符号化
回路104,105,106によってそれぞれ符号化さ
れた後、符号化多重化部であるマルチプレクサ107に
より多重化されて符号化列となり、出力端子108から
通信路に伝送される。
【0025】一方、復号化側(受信側)においては、符
号化側(送信側)から通信路を経て伝送されてきた符号
列が符号化分解部であるデマルチプレクサ110によっ
て、ピッチ周期の符号、音素の符号、継続時間長の符号
に分解された後、復号化回路111,112,113に
入力されて元のデータが復号され、さらに合成器114
により合成されて出力端子115から合成音声信号(復
号音声信号)が出力される。
【0026】次に、図1の各部について詳細に説明す
る。音素認識部102は、公知の認識アルゴリズムを用
いて音声入力端子100からの入力音声データに含まれ
る文字情報を音素単位で識別し、その識別結果を符号化
回路104に出力する。認識のアルゴリズムとしては、
北脇信彦編著、「音のコミュニケーション工学」コロナ
社などのテキストで紹介されているように、種々の方法
を用いることができる。ここでは、音素を認識単位とす
るアルゴリズムとして以下の方法を用いるものとする。
【0027】図2に、このアルゴリズムに基づく音素認
識部102の構成を示す。この音素認識部102におい
て、音声入力端子100からの入力音声データはまず分
析フレーム生成部201に入力される。分析フレーム生
成部201は、入力音声データを分析フレーム長に分割
し、さらに窓関数をかけて信号の打ち切りによる影響を
減じてから、結果を特徴量抽出部202に送る。特徴量
抽出部202は、分析フレーム毎にLPCケプストラム
係数を計算し、これを特徴ベクトルとして音素判定部2
03に送る。音素判定部203は、入力された分析フレ
ーム毎の特徴ベクトルと、代表特徴量メモリ204に予
め用意してある音素毎の代表的な特徴ベクトルとの間の
類似度としてユークリッド距離を計算し、この距離が最
も小さい音素をそのフレームの音素と判定し、この判定
結果を出力する。
【0028】ここでは特徴量としてLPCケプストラム
係数を用いたが、これにさらにΔケプストラムを併せて
用いることにより、認識率を向上させることも可能であ
る。また、入力された分析フレームのLPCケプストラ
ム係数だけを特徴ベクトルとするのではなく、そのフレ
ームの前後一定時間に入力された分析フレームから得ら
れるLPCケプストラム係数も含めて特徴ベクトルとす
ることにより、LPCケプストラム係数の時間方向の変
動を考慮する方法もある。さらに、ここでは特徴ベクト
ルの間の類似度としてユークリッド距離を用いたが、特
徴ベクトルにLPCケプストラム係数を用いていること
を考慮して、LPCケプストラム距離を用いることもで
きる。
【0029】ピッチ検出部101は、音素認識部102
の動作と同期をとりながら、または予め定めた単位時間
毎に、音声入力端子100からの入力音声データが有声
音か無声音かの判定を行い、有声音と判定した場合には
更にピッチ周期を検出する。ここで得られた有声音/無
声音判定結果とピッチ周期の情報は符号化回路105に
送られ、有声音/無声音判定結果とピッチ周期を表す符
号が割り当てられる。有声音/無声音判定とピッチ周期
検出のアルゴリズムとしては、自己相関法など既知の手
法を用いることができる。この場合、音素認識部102
の認識結果とピッチ検出部101の検出結果を互いに利
用し合うことで、音素認識、ピッチ検出の精度を改善さ
せることができる。
【0030】継続時間長検出部103は、音素認識部1
02の動作と同期をとりながら、音素認識部102で認
識された音素の継続時間長を検出する。図3に示すフロ
ーチャートを参照して、継続時間長の検出手順の一例を
説明する。
【0031】まず、ステップS11で音素認識を実行す
るための分析フレーム長を設定し、ステップS12で音
素認識を実行するフレーム番号を初期化する。次に、ス
テップS13で音素の認識を音素認識部102により実
行し、ステップS14でその認識結果が前フレームの認
識結果と同じかどうか判定する。現フレームと前フレー
ムの音素の認識結果が同じである場合は、ステップS1
5でフレーム番号をインクリメントしてステップS13
に戻り、そうでない場合はステップS16でフレーム番
号nを出力する。以上の処理を入力音声データがなくな
るまで行う。
【0032】こうして検出される音素の継続時間時間長
は、nとフレーム長の積になる。また継続時間長の検出
に関しては、ある音素が認識されたとき、次に別の音素
が認識されるまでに最低要する時間を予め定めておき、
音素の認識誤りによって、実際にはありえない継続時間
長が出力されることを抑制する方法も考えられる。継続
時間長検出部103の検出結果は符号化回路106に送
られ、継続時間長を表す符号が割り当てられる。
【0033】符号化回路104,105,106の出力
は符号多重化部107に送られ、ピッチ周期の符号、音
素の符号および継続時間長の符号が多重化されて符号列
となり、出力端子108から通信路に伝送される。以上
が符号化側(送信側)の動作である。
【0034】復号化側(受信側)では、入力端子109
から入力された符号列がまず符号分解部110でピッチ
周期の符号と音素の符号、継続時間長の符号に分解さ
れ、それぞれ復号化回路111,112,113に出力
される。復号化回路111,112,113では、それ
ぞれピッチ周期、音素、継続時間長が元のデータに復号
され、それらのデータが合成器114に送られる。合成
器114はピッチ周期、音素、継続時間長のデータを用
いて音声信号を合成する。
【0035】合成器114での合成方式としては、北脇
信彦編著、「音のコミュニケーション工学」コロナ社で
紹介されているように、合成単位の選択と合成に用いる
パラメータの選択の組合せによって種々の方式を用いる
ことができる。ここでは、音素を合成単位とする方式の
例として、特公昭59−14752に開示されている分
析合成方式による合成器を用いるものとする。
【0036】図4に、この方式による合成器114の構
成を示す。まず、入力端子300,301,302から
ピッチ周期、音素、継続時間長のデータが入力され、こ
れらが入力バッファ303に書き込まれる。パラメータ
結合処理部305は、入力バッファ303から音素のデ
ータ系列を読み出し、各音素に対応したスペクトルパラ
メータをスペクトルパラメータメモリ304から読み出
して単語あるいは文として結合し、バッファ307に出
力する。スペクトルパラメータメモリ304には、合成
単位である音素がPARCOR、LSP、ホルマントな
どのスペクトルパラメータの形で表現され、予め蓄積さ
れている。
【0037】音源生成処理部306は、入力バッファ3
03から音素、ピッチ周期、継続時間長のデータ系列を
読み出し、これらのデータに基づいて音源波形メモリ3
11から音源波形を読み出し、ピッチ周期と継続時間長
に基づいて、この音源波形を加工することにより、合成
フィルタ309の駆動音源信号を生成する。音源波形メ
モリ311には、実音声データ中の各音素信号を線形予
測分析して得られる残差信号から抽出された音源波形が
蓄積されている。
【0038】音源生成処理部306での駆動音源信号の
生成は、合成する音素が有声音のときと無声音のときで
処理が異なる。合成する音素が有声音のときは、音源波
形を入力バッファ303から読み込んだ継続時間と等し
い長さになるまで、入力バッファ303から読み込んだ
ピッチ周期単位で重ね合せ補間または間引き処理を行う
ことによって、駆動音源信号が生成される。合成する音
素が無声音のときは、音源波形メモリから読み出された
音源波形をそのまま、または、一部を切り出したり繰り
返したりして、入力バッファ303から読み込んだ継続
時間と等しい長さに加工することにより生成される。
【0039】最後に、合成フィルタ309によりバッフ
ァ207に書き込まれたスペクトルパラメータとバッフ
ァ308に書き込まれた駆動音源信号が読み出され、音
声合成のモデルに基づいて音声信号が合成されて合成音
声信号が出力端子310から図1の出力端子115へと
出力される。
【0040】(第2の実施形態)図5に、本発明の第2
の実施形態に係る音声の認識合成符号化/復号化方法を
適用した音声符号化/復号化システムの構成を示す。第
1の実施形態では、入力音声データの音素を認識し、合
成単位を音素とする構成を示したが、第2の実施形態は
合成単位を音節単位とするものである。
【0041】図5の構成は、音節認識部122と合成器
124を除いて図1の構成と基本的に同じである。合成
する音節の単位や音節認識法には種々あるが、ここでは
一例として合成単位をCV,VC音節とし、音節認識法
として以下の方法を用いる。ただし、Cは子音、Vは母
音を表す。
【0042】図6に、CV,VC音節を単位とする音節
認識部122の構成を示す。音素認識部401は、前記
の音素単位の認識部102と同じ働きをするものであ
り、音声信号を入力すると、フレーム毎に認識した音素
を出力する。CV音節を単位とする音節認識部402は
音素認識部401から出力された音素列からCV音節を
認識して出力する。VC音節構成部403はCV音節認
識部402から出力されたCV音節列からVC音節を構
成し、これを入力と合わせて結果を出力する。
【0043】図7のフローチャートを参照して、CV音
節認識部402による音節認識処理手順の一例を説明す
る。まず、ステップS21で入力音声データの先頭の音
素にフラグを立てる。ステップS22では、音節認識部
401に入力する音素数nを予め定めておいた数Iに初
期化する。ステップS23で、実際にn個の連続する音
素を予めCV音節毎に用意した音素を出力シンボルとす
る離散型HMMに入力する。ステップS24では、各H
MM毎に、入力した音素列がそのHMMから出力される
確率pを求める。ステップS25では、nが予め定めて
おいた入力音素数の上限Nに達したかどうか判定する。
nがNに達していなければ、ステップS26で入力する
音素数nをn=n+1として、ステップS23から繰り
返す。nがNに達していれば、ステップS27に進む。
ステップS27では、まず確率pを最大とするHMMに
対応するCV音節、および音素数nを求める。次に、フ
ラグを立てた音素に対応するフレームから数えて、求め
た音素数分の区間が該CV音節に対応する区間であると
判定し、これを求めたCV音節とともに出力する。ステ
ップS28では、音素の入力が終了したがどうか判定
し、終了していない場合にはステップS29で出力した
区間の次の音素にフラグを立ててステップS22に戻
り、再びこの操作を繰り返す。
【0044】次に、VC音節構成部403について説明
する。VC音節構成部403には、前記の方法で出力さ
れたCV音節およびその音節の対応する区間が入力され
る。VC音節構成部403は、予め2つのCV音節から
VC音節を構成するための方法を記述したメモリを有
し、入力される音節列をそのメモリに従ってVC音節列
に再構成する。2つのCV音節からVC音節を構成する
方法としては、1つ目のCV音節の中心フレームから次
のフレームの中心フレームまでの区間を1つ目のCV音
節の母音と次のCV音節の子音からなるVC音声と定め
るという方法などが考えられる。
【0045】音節を合成単位とする合成器の他の例とし
て、特公昭58−134697に開示された波形編集型
音声合成装置を用いることができる。図8に、このよう
な合成器124の構成を示す。
【0046】図8において、制御回路510は入力端子
500,501,502を介してピッチ周期、音節、継
続時間長のデータ系列を入力し、単位音声波形メモリ5
03に対して音節データと該メモリ503に蓄積されて
いる単位音声波形の転送先を指示すると共に、ピッチ周
期をピッチ変換回路504に送り、継続時間長を波形編
集回路505に送る。そして、制御回路510は合成し
ようとする当該音節が有声部でピッチを変換する必要が
ある場合はピッチ変換回路504に転送し、当該音節が
無声部である場合は波形編集回路505に転送するよう
指示する。
【0047】単位音声波形メモリ503は、実音声デー
タから切り出された合成単位の音節CV,VCの音声波
形を蓄積しており、制御回路510から入力した音節デ
ータと指示に従って該当する単位音声波形をピッチ変換
回路504または波形編集回路505に出力する。制御
回路510は、ピッチを変換する必要がある場合はピッ
チ変換回路504にピッチ周期を送り、そこでピッチ周
期が変換される。ピッチ周期の変換は波形重畳法など公
知の方法で行われる。
【0048】波形編集回路505は、制御回路510の
指示に従ってピッチを変換する必要がある場合には、ピ
ッチ変換回路504から送られた音声波形を補間または
間引き処理し、また変換する必要がない場合には、単位
音声波形メモリ503から送られた音声波形を補間また
は間引きすることにより入力した継続時間長と等しくな
るよう処理し、音節単位の音声波形を生成する。さら
に、波形編集回路505は各音節の音声波形を結合する
ことにより音声信号を作成する。
【0049】このように図8の合成器124では、音節
単位で音声信号を認識して合成するため、音素単位で認
識して合成を行う図4に示した合成器114と比べて、
より高音質の合成音が得られる利点がある。すなわち、
音素を合成単位とする場合には、合成単位間での接続個
所が多く、しかも子音から母音へ接続するように音声パ
ラメータの変化が激しい場所でも合成単位を接続するた
め、高い品質の合成音を得ることが難しいのに対し、音
節単位では合成単位間の接続個所が少ないばかりでな
く、子音と母音の変化部を合成単位が含むため高品質の
合成音が得られる。また、認識の単位が長くなることに
よって認識率も改善し、合成音の音質が向上する効果も
ある。
【0050】(第3の実施形態)図8の合成器124の
上述した利点に着目して、音質向上のため合成単位を音
節より更に長い単語単位とすることも考えられる。しか
し、合成単位が単語レベルまでになると単語を識別する
ための符号量が増加し、ビットレートが高くなる問題が
生じる。符号量を抑えつつ、認識率を改善し音質向上を
図る方法として、入力音声データを単語単位で認識し音
節単位で合成する折哀案が考えられる。
【0051】図9は、この方法に基づく本発明の第3の
実施形態に係る音声符号化/復号化システムのブロック
図であり、図1における音素認識部102または図5に
おける音節認識部122が単語認識部132と認識され
た単語を音節に変換する単語−音節変換部133に置き
換えられている点が第1および第2の実施形態と異なっ
ている。このような構成により、符号量を増大させるこ
となく、認識率を改善して音質の向上を図ることができ
る。
【0052】(第4の実施形態)以上説明した第1、第
2、第3の実施形態は、ピッチ周期や継続時間長の韻律
情報を入力音声データから抽出して伝送しているもの
の、合成器で用いるスペクトルパラメータや音源波形、
または単位音声波形は、予め作成されたある一種類のも
のを用いる構成となっている。このため、イントネーシ
ョンやリズム、話調などの話者の韻律は復号化側で再生
されるものの、再生される声の質は予め作成されたスペ
クトルパラメータや音源波形、または単位音声波形で定
まるものとなり、話者によらず常に同一の声質が再生さ
れてしまう。より豊かなコミュニケーションのために
は、多様な声質を再生できるものが望まれる。
【0053】本実施形態は、この要求に応えるために合
成器で用いる合成単位辞書を複数備えたものである。こ
こで、スペクトルパラメータや音源波形、または単位音
声波形などを合成単位辞書と呼んでいる。
【0054】図10は、本実施形態に係る成単位辞書を
複数備えた符号化/復号化システムの構成を示すブロッ
ク図である。本実施形態の基本的な構成は図1、図5、
図9で説明した第1、第2、第3の実施形態と同様であ
り、これらの実施形態と異なる点は、復号化側に複数個
(N個)の合成単位辞書143,144,145を備
え、伝送されてきたピッチ周期の情報に応じて、合成に
用いる合成単位辞書を1個選択する構成としたことであ
る。
【0055】図10において、符号化側の文字情報認識
部140は、図1中に示した音素認識部102、図5中
に示した音節認識部122、または図9中に示した単語
認識部132および単語−音節変換部133のいずれか
に相当するものである。
【0056】一方、復号化側の復号化回路111は伝送
されてきたピッチ周期を復号し、これを韻律情報抽出部
141に送る。韻律情報抽出部141は入力されたピッ
チ周期を蓄積し、蓄積されたピッチ周期の系列から平均
ピッチ周期やピッチ周期の最大値、最小値など韻律情報
を抽出する。
【0057】合成単位辞書143,144,145は、
各々異なる話者の音声データから作成されたスペクトル
パラメータや音源波形、または単位音声波形と各々の音
声データから抽出された平均ピッチ周期やピッチ周期の
最大値、最小値などの韻律情報を蓄積している。
【0058】制御回路142は、韻律情報抽出部141
から平均ピッチ周期やピッチ周期の最大値、最小値など
韻律情報を受け取り、これと合成単位辞書143,14
4,145に蓄積されている韻律情報との誤差を計算
し、誤差が最小となる合成単位辞書を選択して合成器1
14に転送する。ここで、韻律情報の誤差は、一例とし
て平均ピッチ周期、最大値、最小値の各々の誤差の二乗
の重み付き平均を計算することで得られる。
【0059】合成器114は、復号化回路111,11
2,113からピッチ周期、音素または音節、継続時間
長のデータをそれぞれ受け取り、これらのデータと制御
回路142から転送された合成単位辞書を用いて音声を
合成する。
【0060】このような構成によると、符号化側で入力
された話者と類似した声の高さの合成音が復号化側で再
生されることになるため、話者の識別が容易になり、よ
り豊かなコミュニケーションが実現される効果がある。
【0061】(第5の実施形態)図11に、複数の合成
単位辞書を備えた別の実施形態として、第5の実施形態
に係る音声符号化/復号化システムの構成を示す。この
実施形態は、復号化側に複数の合成単位辞書を備えると
ともに、符号化側に合成音の種類を指示するための合成
音指示回路を備えることを特徴とする。
【0062】図11において、符号化側に設けられた合
成音指示回路150は、復号化側で用意されている合成
単位辞書143,144,145に関する情報を話者に
提示し、どの合成音を用いるか選択させ、キーボードな
どの入力装置を通して合成音の種類を指示する合成音選
択情報を受け取り、マルチプレクサ107に送る。話者
に提示する情報は、合成単位辞書作成に用いた音声デー
タの性別、年齢、太い声、細い声といった声質の特徴を
表す情報からなる。
【0063】マルチプレクサ107から通信路を経て復
号化側に伝送された合成音選択情報は、デマルチプレク
サ110を介して制御回路152に送られる。制御回路
152は、合成音選択情報に基づいて合成単位辞書14
3,144,145の中から合成に用いる合成単位辞書
を1個選択して合成器114に転送すると同時に、選択
された合成単位辞書に蓄積されている平均ピッチ周期や
ピッチ周期の最大値、最小値などの韻律情報を韻律情報
変換部151に出力する。
【0064】韻律情報変換部151は、復号化回路11
1からピッチ周期を、また制御回路152から合成単位
辞書の韻律情報をそれぞれ受け取り、入力したピッチ周
期の平均ピッチ周期、最大値、最小値などの韻律が合成
単位辞書の韻律情報に近づくようにピッチ周期を変換し
て、その結果を合成器114に与える。合成器114
は、復号化回路112,113と韻律情報変換部151
から音素または音節、継続時間長、ピッチ周期のデータ
を受け取り、これらのデータと制御回路152から転送
された合成単位辞書を用いて音声を合成する。
【0065】このような構成にすると、符号化側のユー
ザである送信者の好みによって、復号化側で再生される
合成音を選択することができるばかりでなく、男性の声
を女性の声で再生するというように男女間の声質の変換
を含む各種声質の変換を容易に実現できる従来の符号化
装置にはなかった効果が生じる。このような声質の変換
など多様な合成音を実現する機能は、インターネットな
どで不特定の人間同士でおしゃべりをしてコミュニケー
ションを図る場合、会話を楽しくしたり、豊かにするの
に有効である。
【0066】(第6の実施形態)図12に、本発明の第
6の実施形態に係る符号化/復号化システムの構成を示
す。図11に示した第5の実施形態では、符号化側に合
成音指示回路150を備える構成としたが、図12に示
すように復号化側に合成音指示回路160を備える構成
としてもよい。このようにすると、符号化側のユーザで
ある受信者が再生される合成音の声質などを選択するこ
とができるという利点がある。
【0067】(第7の実施形態)図13に、本発明の第
7の実施形態に係る符号化/復号化システムの構成を示
す。本実施形態は図11に示した第5の実施形態と同様
に符号化側に合成音指示回路150を備え、復号化側で
合成音指示回路150からの指示に基づいて韻律情報お
よび合成器114のパラメータを変換して合成音の抑揚
や声質を送信者の好みに応じて変えられるようにしたこ
とを特徴とする。
【0068】図13において、符号化側に設けられた合
成音指示回路150は、送信者の指示により例えばロボ
ットの声、アニメーションの声、宇宙人の声など予め作
成された声の特徴を表す分類の中から好みの声を選択
し、それを表すコードを合成音選択情報としてマルチプ
レクサ107に送る。
【0069】マルチプレクサ107から通信路を経て復
号化側に伝送された合成音選択情報は、デマルチプレク
サ110を介して変換テーブル170に送られる。変換
テーブル170は、符号化側で合成音指示回路150を
介して指示されたロボットの声、アニメーションの声、
宇宙人の声などの合成音の特徴に対応して合成音の抑揚
を変換するための抑揚変換パラメータと声質を変換する
ための声質変換パラメータを予め蓄積している。そし
て、変換テーブル170はデマルチプレクサ110を介
して入力された合成音指示回路150からの合成音指示
情報に従って、抑揚変換パラメータおよび声質変換パラ
メータの情報を制御回路152と韻律情報変換部171
および声質変換部172に送る。
【0070】制御回路152は、変換テーブル170か
らの情報に基づいて合成単位辞書143,144,14
5の中から合成に用いる合成単位辞書を1個選択して合
成器114に転送すると同時に、選択された合成単位辞
書に蓄積されている平均ピッチ周期やピッチ周期の最大
値、最小値などの韻律情報を韻律情報変換部171に出
力する。
【0071】韻律情報変換部171は、制御回路152
から合成単位辞書の韻律情報を、変換テーブル170か
ら抑揚変換パラメータの情報をそれぞれ受け取り、入力
したピッチ周期の平均ピッチ周期、最大値、最小値など
の韻律情報を変換して、その結果を合成器114に供給
する。一方、声質変換部172は制御回路152により
選択された合成単位辞書に蓄積されている音源波形、ス
ペクトルパラメータなどを変換して合成器114に送
る。
【0072】図11に示した第5の実施形態では、合成
音の抑揚や声質の種類は合成単位辞書143,144,
145の作成時に用いられた音声の種類によって事実上
制限される構成となっていたが、本実施形態によると韻
律情報や音源波形、スペクトルパラメータの変換規則を
多様にすることにより、合成音の種類を容易により多様
なものとすることができる。
【0073】なお、図13では合成音指示回路150を
符号化側に設けたが、図12と同様に復号化側に設けて
もよい。以上、本発明の実施形態をいくつか説明した
が、本発明の主旨は符号化側において入力音声信号から
音素、音節または単語などの文字情報を認識し、それら
を伝送または蓄積するとともにピッチ周期や継続時間長
などの韻律情報を検出して伝送または蓄積し、復号化側
において伝送または蓄積されてきた音素、音節または単
語などの文字情報と、ピッチ周期や継続時間長などの韻
律情報に基づいて音声信号を合成するものであり、この
主旨の範囲内で様々な変形が可能である。また、認識の
手法、ピッチ検出法、継続時間長の検出法、伝送情報の
符号化法、復号化法、音声合成器の方式などは、本発明
の実施形態で示したもののに限定されるものではなく、
公知の種々の方法、方式を適用することができる。
【0074】
【発明の効果】以上説明したように、本発明によれば入
力音声信号から音素や音節などの文字情報を認識し、そ
れらを伝送または蓄積するのみでなく、入力音声信号か
らピッチ周期や継続時間長などの韻律情報を検出してそ
れらも伝送または蓄積し、伝送または蓄積された音素ま
たは音節などの文字情報とピッチ周期や継続時間長など
の韻律情報に基づいて音声信号を合成するため、認識合
成による1kbps以下の極低レートでの音声信号の符
号化が可能であることに加えて、話者の抑揚やリズム、
話調を再生でき話者の情緒や感情を伝えることができる
という従来にない優れた効果を奏する。
【0075】また、合成に用いるスペクトルパラメータ
や音源波形、または単位音声波形など合成単位辞書を複
数個備え、話者のピッチ情報などの韻律情報や、ユーザ
の指示によって合成単位辞書を選択できるようにすれ
ば、話者の識別が容易になる効果や、ユーザが望む多様
な合成音の実現、声質変換などの機能の実現によって、
コミュニケーションを楽しくしたり、豊かにするという
効果が得られる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る音声符号化/復
号化システムの構成を示すブロック図
【図2】図1における音素認識部の構成例を示すブロッ
ク図
【図3】図1における継続時間長検出の処理手順を示す
フローチャート
【図4】図1における合成器の構成例を示すブロック図
【図5】本発明の第2の実施形態に係る音声符号化/復
号化システムの構成を示すブロック図
【図6】図5における音節認識部の構成例を示すブロッ
ク図
【図7】図6におけるCV音節認識部の処理手順を示す
フローチャート
【図8】本発明で用いる合成器の他の構成例を示すブロ
ック図
【図9】本発明の第3の実施形態に係る音声符号化/復
号化システムの構成を示すブロック図
【図10】本発明の第4の実施形態に係る音声符号化/
復号化システムの構成を示すブロック図
【図11】本発明の第5の実施形態に係る音声符号化/
復号化システムの構成を示すブロック図
【図12】本発明の第6の実施形態に係る音声符号化/
復号化システムの構成を示すブロック図
【図13】本発明の第7の実施形態に係る音声符号化/
復号化システムの構成を示すブロック図
【符号の説明】
100…音声入力端子 101…ピッチ検出部 102…音素認識部 103…継続時間長検出部 104,105,106…符号化回路 107…マルチプレクサ(符号多重化部) 110…デマルチプレクサ(符号分解部) 111,112,113…復号化回路 114…合成器 122…音節認識部 132…単語認識部 133…単語−音節変換部 140…文字情報認識部 141…韻律情報抽出部 142…制御回路 143,144,145…合成単位辞書 150…合成音指示回路 151…韻律情報変換部 152…制御回路 160…合成音指示回路 170…変換テーブル 171…韻律情報変換部 172…音質変換部 201…分析フレーム生成部 202…特徴量抽出部 203…音素判定部 204…代表特徴量メモリ 303…入力バッファ 304…スペクトルパラメータメモリ 305…パラメータ結合処理部 306…音源生成処理部 307,308…バッファ 309…合成フィルタ 311…音源波形メモリ 401…音素認識部 402…CV音節認識部 403…VC音節構成部 510…制御回路 503…単位音声波形メモリ 504…ピッチ変換回路 505…波形編集回路

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】入力音声信号から文字情報を認識するとと
    もに、該入力音声信号から韻律情報を検出して、これら
    文字情報および韻律情報を符号化データとして伝送また
    は蓄積し、伝送または蓄積された符号化データから前記
    文字情報および韻律情報を復号し、復号された文字情報
    および韻律情報に基づいて音声信号を合成することを特
    徴とする音声の認識合成符号化/復号化方法。
  2. 【請求項2】入力音声信号から音素、音節または単語を
    文字情報として認識するとともに、該入力音声信号から
    ピッチ周期と前記音素または音節の継続時間長を韻律情
    報として検出して、これら文字情報および韻律情報を符
    号化データとして伝送または蓄積し、伝送または蓄積さ
    れた符号化データから前記文字情報および韻律情報を復
    号し、復号された文字情報および韻律情報に基づいて音
    声信号を合成することを特徴とする音声の認識合成符号
    化/復号化方法。
  3. 【請求項3】入力音声信号から文字情報を認識する認識
    手段と、 前記入力音声信号から韻律情報を検出する検出手段と、 前記文字情報および韻律情報を符号化する符号化手段
    と、 前記符号化手段により得られた符号化データを伝送また
    は蓄積する伝送/蓄積手段と、 前記伝送/蓄積手段により伝送または蓄積された符号化
    データから前記文字情報および韻律情報を復号する復号
    化手段と、 前記復号化手段により復号された文字情報および韻律情
    報に基づいて音声信号を合成する合成手段とを備えたこ
    とを特徴とする音声符号化/復号化システム。
  4. 【請求項4】入力音声信号から音素、音節または単語を
    文字情報として認識する認識手段と、 前記認識手段により認識された文字情報の継続時間長を
    検出する継続時間長検出手段と、 前記入力音声信号のピッチ周期を検出するピッチ検出手
    段と、 前記文字情報と、前記継続時間長およびピッチ周期から
    なる韻律情報を符号化する符号化手段と、 前記符号化手段により得られた符号化データを伝送また
    は蓄積する伝送/蓄積手段と、 前記伝送/蓄積手段により伝送または蓄積された符号化
    データから前記文字情報および韻律情報を復号する復号
    化手段と、 前記復号化手段により復号された文字情報および韻律情
    報に基づいて音声信号を合成する合成手段とを備えたこ
    とを特徴とする音声符号化/復号化システム。
  5. 【請求項5】前記合成手段は、前記音声信号の合成に用
    いる合成単位の情報を格納した合成単位辞書として、異
    なる話者の音声データから生成された複数個の合成単位
    辞書を備え、前記韻律情報に応じて該複数個の合成単位
    辞書の中から1個の合成単位辞書を選択して前記音声信
    号を合成することを特徴とする請求項3または4記載の
    音声符号化/復号化システム。
  6. 【請求項6】前記合成手段は、前記音声信号の合成に用
    いる合成単位の情報を格納した合成単位辞書として、異
    なる話者の音声データから生成された複数個の合成単位
    辞書を備え、指示された合成音の種類に応じて該複数個
    の合成単位辞書の中から1個の合成単位辞書を選択して
    前記音声信号を合成することを特徴とする請求項3また
    は4記載の音声符号化/復号化システム。
JP9064933A 1997-03-18 1997-03-18 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム Pending JPH10260692A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP9064933A JPH10260692A (ja) 1997-03-18 1997-03-18 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
US09/042,612 US6161091A (en) 1997-03-18 1998-03-17 Speech recognition-synthesis based encoding/decoding method, and speech encoding/decoding system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9064933A JPH10260692A (ja) 1997-03-18 1997-03-18 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム

Publications (1)

Publication Number Publication Date
JPH10260692A true JPH10260692A (ja) 1998-09-29

Family

ID=13272339

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9064933A Pending JPH10260692A (ja) 1997-03-18 1997-03-18 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム

Country Status (2)

Country Link
US (1) US6161091A (ja)
JP (1) JPH10260692A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000040377A1 (fr) * 1999-01-07 2000-07-13 Sony Corporation Appareil de type machine, procede d'actionnement de celui-ci et support enregistre
JP2001086497A (ja) * 1999-09-10 2001-03-30 Mega Chips Corp 情報通信システム
JP2006184921A (ja) * 2006-01-27 2006-07-13 Canon Electronics Inc 情報処理装置及び方法
JP2007534278A (ja) * 2004-04-20 2007-11-22 ボイス シグナル テクノロジーズ インコーポレイテッド ショートメッセージサービスを通じる音声
WO2022158633A1 (ko) * 2021-01-25 2022-07-28 박상래 음성인식 및 음성합성을 이용한 무선통신장치

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69721595T2 (de) * 1996-11-07 2003-11-27 Matsushita Electric Ind Co Ltd Verfahren zur Erzeugung eines Vektorquantisierungs-Codebuchs
EP0970466B1 (en) * 1997-01-27 2004-09-22 Microsoft Corporation Voice conversion
FR2796785A1 (fr) * 1999-07-20 2001-01-26 Koninkl Philips Electronics Nv Systeme de communication, recepteur, dispositif et procede de correction d'erreurs dues au canal
US6721701B1 (en) * 1999-09-20 2004-04-13 Lucent Technologies Inc. Method and apparatus for sound discrimination
JP2001282278A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
US6810379B1 (en) * 2000-04-24 2004-10-26 Sensory, Inc. Client/server architecture for text-to-speech synthesis
JP4296714B2 (ja) * 2000-10-11 2009-07-15 ソニー株式会社 ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム
FR2815457B1 (fr) * 2000-10-18 2003-02-14 Thomson Csf Procede de codage de la prosodie pour un codeur de parole a tres bas debit
AU2002232928A1 (en) * 2000-11-03 2002-05-15 Zoesis, Inc. Interactive character system
JP2002162998A (ja) * 2000-11-28 2002-06-07 Fujitsu Ltd パケット修復処理を伴なう音声符号化方法
US20020116180A1 (en) * 2001-02-20 2002-08-22 Grinblat Zinovy D. Method for transmission and storage of speech
US20030093280A1 (en) * 2001-07-13 2003-05-15 Pierre-Yves Oudeyer Method and apparatus for synthesising an emotion conveyed on a sound
EP1286329B1 (en) * 2001-08-23 2006-03-29 Culturecom Technology (Macau) Ltd. Method and system for phonetic recognition
ATE310302T1 (de) * 2001-09-28 2005-12-15 Cit Alcatel Kommunikationsvorrichtung und verfahren zum senden und empfangen von sprachsignalen unter kombination eines spracherkennungsmodules mit einer kodiereinheit
US20030101045A1 (en) * 2001-11-29 2003-05-29 Peter Moffatt Method and apparatus for playing recordings of spoken alphanumeric characters
US6990445B2 (en) * 2001-12-17 2006-01-24 Xl8 Systems, Inc. System and method for speech recognition and transcription
JP2003255993A (ja) * 2002-03-04 2003-09-10 Ntt Docomo Inc 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
EP1488410B1 (en) * 2002-03-27 2010-06-02 Nokia Corporation Distortion measure determination in speech recognition
US7136811B2 (en) * 2002-04-24 2006-11-14 Motorola, Inc. Low bandwidth speech communication using default and personal phoneme tables
JP2004012698A (ja) * 2002-06-05 2004-01-15 Canon Inc 情報処理装置及び情報処理方法
US7305336B2 (en) * 2002-08-30 2007-12-04 Fuji Xerox Co., Ltd. System and method for summarization combining natural language generation with structural analysis
US20040049391A1 (en) * 2002-09-09 2004-03-11 Fuji Xerox Co., Ltd. Systems and methods for dynamic reading fluency proficiency assessment
US7455522B2 (en) * 2002-10-04 2008-11-25 Fuji Xerox Co., Ltd. Systems and methods for dynamic reading fluency instruction and improvement
JP2004226741A (ja) * 2003-01-23 2004-08-12 Nissan Motor Co Ltd 情報提供装置
US8768701B2 (en) * 2003-01-24 2014-07-01 Nuance Communications, Inc. Prosodic mimic method and apparatus
US7363213B2 (en) * 2003-02-11 2008-04-22 Fuji Xerox Co., Ltd. System and method for dynamically determining the function of a lexical item based on discourse hierarchy structure
US7424420B2 (en) * 2003-02-11 2008-09-09 Fuji Xerox Co., Ltd. System and method for dynamically determining the function of a lexical item based on context
US7369985B2 (en) * 2003-02-11 2008-05-06 Fuji Xerox Co., Ltd. System and method for dynamically determining the attitude of an author of a natural language document
US7260519B2 (en) * 2003-03-13 2007-08-21 Fuji Xerox Co., Ltd. Systems and methods for dynamically determining the attitude of a natural language speaker
FR2861491B1 (fr) * 2003-10-24 2006-01-06 Thales Sa Procede de selection d'unites de synthese
JP4661074B2 (ja) * 2004-04-07 2011-03-30 ソニー株式会社 情報処理システム、情報処理方法、並びにロボット装置
JP4456537B2 (ja) * 2004-09-14 2010-04-28 本田技研工業株式会社 情報伝達装置
KR20060066416A (ko) * 2004-12-13 2006-06-16 한국전자통신연구원 음성 코덱을 이용한 후두 원격 진단 서비스 장치 및 그 방법
US8015009B2 (en) * 2005-05-04 2011-09-06 Joel Jay Harband Speech derived from text in computer presentation applications
JP2008263543A (ja) * 2007-04-13 2008-10-30 Funai Electric Co Ltd 記録再生装置
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
US20090132237A1 (en) * 2007-11-19 2009-05-21 L N T S - Linguistech Solution Ltd Orthogonal classification of words in multichannel speech recognizers
US20090287489A1 (en) * 2008-05-15 2009-11-19 Palm, Inc. Speech processing for plurality of users
US8983832B2 (en) * 2008-07-03 2015-03-17 The Board Of Trustees Of The University Of Illinois Systems and methods for identifying speech sound features
JP5877973B2 (ja) * 2011-08-08 2016-03-08 アイキューブド研究所株式会社 情報システム、情報再現装置、情報生成方法、およびプログラム
CN108014002A (zh) 2011-11-04 2018-05-11 马萨诸塞眼科耳科诊所 自适应视觉辅助装置
TWI573129B (zh) * 2013-02-05 2017-03-01 國立交通大學 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法
US9715873B2 (en) 2014-08-26 2017-07-25 Clearone, Inc. Method for adding realism to synthetic speech
US9390725B2 (en) 2014-08-26 2016-07-12 ClearOne Inc. Systems and methods for noise reduction using speech recognition and speech synthesis
US10622002B2 (en) * 2017-05-24 2020-04-14 Modulate, Inc. System and method for creating timbres
US11289067B2 (en) * 2019-06-25 2022-03-29 International Business Machines Corporation Voice generation based on characteristics of an avatar
US11538485B2 (en) 2019-08-14 2022-12-27 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
CN113177816A (zh) * 2020-01-08 2021-07-27 阿里巴巴集团控股有限公司 一种信息处理方法及装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
FR2553555B1 (fr) * 1983-10-14 1986-04-11 Texas Instruments France Procede de codage de la parole et dispositif pour sa mise en oeuvre
US4802223A (en) * 1983-11-03 1989-01-31 Texas Instruments Incorporated Low data rate speech encoding employing syllable pitch patterns
US4797930A (en) * 1983-11-03 1989-01-10 Texas Instruments Incorporated constructed syllable pitch patterns from phonological linguistic unit string data
US4799261A (en) * 1983-11-03 1989-01-17 Texas Instruments Incorporated Low data rate speech encoding employing syllable duration patterns
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
GB2207027B (en) * 1987-07-15 1992-01-08 Matsushita Electric Works Ltd Voice encoding and composing system
DE69022237T2 (de) * 1990-10-16 1996-05-02 Ibm Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell.
JP3050934B2 (ja) * 1991-03-22 2000-06-12 株式会社東芝 音声認識方式
JPH0576040A (ja) * 1991-09-11 1993-03-26 Canon Inc ビデオカメラ
KR940002854B1 (ko) * 1991-11-06 1994-04-04 한국전기통신공사 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5636325A (en) * 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
GB2290684A (en) * 1994-06-22 1996-01-03 Ibm Speech synthesis using hidden Markov model to determine speech unit durations
GB2291571A (en) * 1994-07-19 1996-01-24 Ibm Text to speech system; acoustic processor requests linguistic processor output
US5704009A (en) * 1995-06-30 1997-12-30 International Business Machines Corporation Method and apparatus for transmitting a voice sample to a voice activated data processing system
DE69622439T2 (de) * 1995-12-04 2002-11-14 Jared C Bernstein Verfahren und vorrichtung zur ermittlung von kombinierten informationen aus sprachsignalen für adaptive interaktion in unterricht und prüfung

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000040377A1 (fr) * 1999-01-07 2000-07-13 Sony Corporation Appareil de type machine, procede d'actionnement de celui-ci et support enregistre
US6980956B1 (en) 1999-01-07 2005-12-27 Sony Corporation Machine apparatus and its driving method, and recorded medium
JP2001086497A (ja) * 1999-09-10 2001-03-30 Mega Chips Corp 情報通信システム
JP2007534278A (ja) * 2004-04-20 2007-11-22 ボイス シグナル テクノロジーズ インコーポレイテッド ショートメッセージサービスを通じる音声
JP2006184921A (ja) * 2006-01-27 2006-07-13 Canon Electronics Inc 情報処理装置及び方法
WO2022158633A1 (ko) * 2021-01-25 2022-07-28 박상래 음성인식 및 음성합성을 이용한 무선통신장치
KR20220107631A (ko) * 2021-01-25 2022-08-02 박상래 음성인식 및 음성합성을 이용한 무선통신장치
US11942072B2 (en) 2021-01-25 2024-03-26 Sang Rae Park Wireless communication device using voice recognition and voice synthesis

Also Published As

Publication number Publication date
US6161091A (en) 2000-12-12

Similar Documents

Publication Publication Date Title
JPH10260692A (ja) 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
US8898055B2 (en) Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
US4975957A (en) Character voice communication system
US8706488B2 (en) Methods and apparatus for formant-based voice synthesis
US7739113B2 (en) Voice synthesizer, voice synthesizing method, and computer program
US6119086A (en) Speech coding via speech recognition and synthesis based on pre-enrolled phonetic tokens
US7269561B2 (en) Bandwidth efficient digital voice communication system and method
WO2008096310A1 (en) Method and system for creating or updating entries in a speech recognition lexicon
WO2003010752A1 (en) Speech bandwidth extension apparatus and speech bandwidth extension method
WO2011151956A1 (ja) 声質変換装置及びその方法、母音情報作成装置並びに声質変換システム
JP3473204B2 (ja) 翻訳装置及び携帯端末装置
CN112908293B (zh) 一种基于语义注意力机制的多音字发音纠错方法及装置
JPS5827200A (ja) 音声認識装置
JP2001034280A (ja) 電子メール受信装置および電子メールシステム
EP1298647B1 (en) A communication device and a method for transmitting and receiving of natural speech, comprising a speech recognition module coupled to an encoder
JP2003029774A (ja) 音声波形辞書配信システム、音声波形辞書作成装置、及び音声合成端末装置
JPH0950286A (ja) 音声合成装置及びこれに使用する記録媒体
JPH0258100A (ja) 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置
JP3431655B2 (ja) 符号化装置及び復号化装置
CN117636842B (zh) 基于韵律情感迁移的语音合成系统及方法
JP3552200B2 (ja) 音声信号伝送装置および音声信号伝送方法
JP3515216B2 (ja) 音声符号化装置
JP2005309164A (ja) 読み上げ用データ符号化装置および読み上げ用データ符号化プログラム
JP4230550B2 (ja) 音声符号化方法及び装置、並びに音声復号化方法及び装置
JPH1185196A (ja) 音声符号化/復号化方式