JP2001296883A - 音声認識方法および装置、音声合成方法および装置、記録媒体 - Google Patents

音声認識方法および装置、音声合成方法および装置、記録媒体

Info

Publication number
JP2001296883A
JP2001296883A JP2000114262A JP2000114262A JP2001296883A JP 2001296883 A JP2001296883 A JP 2001296883A JP 2000114262 A JP2000114262 A JP 2000114262A JP 2000114262 A JP2000114262 A JP 2000114262A JP 2001296883 A JP2001296883 A JP 2001296883A
Authority
JP
Japan
Prior art keywords
data
value
timing
amplitude
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000114262A
Other languages
English (en)
Inventor
Yukio Koyanagi
裕喜生 小柳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2000114262A priority Critical patent/JP2001296883A/ja
Priority to PCT/JP2001/003079 priority patent/WO2001080222A1/ja
Priority to US10/240,664 priority patent/US20030093273A1/en
Priority to KR1020027013658A priority patent/KR20030003252A/ko
Priority to EP01919863A priority patent/EP1288912A4/en
Priority to CNB018080219A priority patent/CN1195293C/zh
Priority to TW090108811A priority patent/TW569180B/zh
Publication of JP2001296883A publication Critical patent/JP2001296883A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01LMEASURING FORCE, STRESS, TORQUE, WORK, MECHANICAL POWER, MECHANICAL EFFICIENCY, OR FLUID PRESSURE
    • G01L13/00Devices or apparatus for measuring differences of two or more fluid pressure values
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

(57)【要約】 【課題】 音声認識度の向上、合成音の高品質化および
処理の簡素化等を図るべく、今までにはない全く新しい
音声認識手法および音声合成手法を提供する。 【解決手段】 入力音声信号を微分してその微分値が所
定の条件を満たす点を標本点として検出し、検出した各
標本点における離散的な振幅データと各標本点間の時間
間隔を表すタイミングデータとを得るデータ生成部3
と、上記振幅データおよびタイミングデータを用いて相
関データを演算する相関演算部4とを備え、ある入力音
声について相関演算部4により生成した相関データと、
種々の音声についてあらかじめ同様に生成してデータメ
モリ6に蓄積しておいた相関データとの照合により入力
音声を認識するようにする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声認識方法および
装置、音声合成方法および装置、更にはこれらの機能を
ソフトウェアにより実現するためのプログラムを格納し
た記録媒体に関し、特に、人間などによる音声を聞き分
ける音声認識技術および、データから音声を作る音声合
成技術に関するものである。
【0002】
【従来の技術】近年、人間が発生した音声を計算機が認
識して自動的に処理を行うといった、いわゆる音声認識
の音声処理インタフェースが注目されている。音声認識
技術には、数字や単語などを認識する単語音声認識か
ら、意味や内容まで理解する連続音声認識まで、様々な
ものがある。また、発生された音声が誰のものであるか
を識別する話者識別の技術も広義には音声認識技術の中
に含まれる。
【0003】特に最近では、単語音声認識から、連続音
声認識や自然な会話を対象にした音声認識の技術に注目
の対象が集まってきている。また、特定の語彙を音声コ
マンドとして用いることによって、計算機や携帯端末な
どを音声により操作する方法の研究も進められている。
【0004】一方、音声認識とは逆に、テキストなどの
データから音声を合成して出力する音声合成技術の開発
も進められている。例えば、テキスト音声合成の技術で
は、漢字や英字等の種々の文字から成る言葉のテキスト
データを解析し、アクセントやイントネーションをあら
かじめ設定した規則に基づき与えることにより、音声を
合成する。
【0005】
【発明が解決しようとする課題】しかしながら、現在の
音声認識技術では、発せられた音声を何でも認識できる
訳ではなく、認識度には限界がある。すなわち、同じ単
語でも発声者よって音声が異なることがあり、話す人に
よって認識精度に差が生じることがある。また、認識対
象とする語彙数や話者が増加すると、音声認識の難易度
は更に増すことになる。
【0006】一方、現在の音声合成技術では、生成され
る合成音はまだ機械音の域を脱することができず、より
人間の肉声に近い合成音を得るべくその高品質化が課題
となっている。さらに、現在の音声認識技術、音声合成
技術の何れも複雑な処理が必要であり、処理の高速化な
どを図るために処理の簡素化も望まれている。
【0007】本発明は、このような実情に鑑みて成され
たものであり、音声認識度の向上、合成音の高品質化、
および処理の簡素化等を図るために、今までにはない全
く新しい音声認識方式および音声合成方式を提供するこ
とを目的とする。
【0008】
【課題を解決するための手段】本発明の音声認識方法
は、入力音声信号を微分してその微分値が所定の条件を
満たす点を標本点として検出し、検出した各標本点にお
ける離散的な振幅データと各標本点間の時間間隔を表す
タイミングデータとを得て、上記振幅データおよびタイ
ミングデータを用いて相関データを生成し、この生成し
た相関データと、種々の音声についてあらかじめ同様に
生成して蓄積しておいた相関データとの照合により入力
音声を認識するようにしたことを特徴とする。ここで、
相関データの下位数ビットを丸める処理を行うようにし
ても良い。また、入力音声信号をオーバーサンプリング
し、当該オーバーサンプリングされたデータをその微分
値が所定の条件を満たす点の時間間隔で標本化するよう
にしても良い。
【0009】また、本発明の音声認識装置は、入力音声
信号をA/D変換するA/D変換手段と、上記A/D変
換手段より出力されるデジタルデータを微分する微分手
段と、上記微分手段により求められた微分値が所定の条
件を満たす点を標本点として検出し、検出した各標本点
における振幅データおよび各標本点間の時間間隔を表す
タイミングデータを生成するデータ生成手段と、上記デ
ータ生成手段により生成された上記振幅データおよびタ
イミングデータを用いて相関データを生成する相関演算
手段と、上記相関演算手段により生成された相関データ
と、種々の音声についてあらかじめ同様に生成して記録
媒体に蓄積しておいた相関データとを照合して入力音声
を認識するデータ照合手段とを備えたことを特徴とす
る。ここで、上記相関演算手段は、上記相関データの下
位数ビットを丸める処理を行うようにしても良い。ま
た、上記A/D変換手段より出力されたデジタルデータ
に対して偶数倍周波数のクロックを用いてオーバーサン
プリングを行うオーバーサンプリング手段を備え、上記
オーバーサンプリングされたデータをその微分値が所定
の条件を満たす点の時間間隔で標本化するようにしても
良い。
【0010】本発明の音声合成方法は、音声以外のデー
タと、当該データに対応する音声信号についてあらかじ
め生成された、上記音声信号の微分値が所定の条件を満
たす標本点における振幅データおよび各標本点間の時間
間隔を表すタイミングデータの組とを互いに関連付けて
おき、所望のデータが指定されたときに、その指定され
たデータに関連付けられている上記振幅データおよびタ
イミングデータの組を用いて、上記タイミングデータに
よって示される時間間隔を有する上記振幅データの間を
補間する補間データを求めることによって音声を合成す
るようにしたことを特徴とする。
【0011】また、本発明の音声合成装置は、音声以外
のデータに対応する音声信号についてあらかじめ生成さ
れた、上記音声信号の微分値が所定の条件を満たす標本
点における振幅データおよび各標本点間の時間間隔を表
すタイミングデータの組を、上記音声以外のデータと互
いに関連付けて記憶した記憶手段と、所望のデータが指
定されたときに、その指定されたデータに関連付けて上
記記憶手段に記憶されている上記振幅データおよびタイ
ミングデータの組を用いて、上記タイミングデータによ
って示される時間間隔を有する上記振幅データの間を補
間する補間データを求める補間処理手段と、上記補間処
理手段により求められた補間データをD/A変換するD
/A変換手段とを備えることを特徴とする。
【0012】また、本発明のコンピュータ読み取り可能
な記録媒体は、請求項1〜8の何れか1項に記載の音声
認識方法の処理手順、あるいは請求項17または18に
記載の音声合成方法の処理手順をコンピュータに実行さ
せるためのプログラムを記録したことを特徴とする。ま
た、請求項9〜16、19〜21の何れか1項に記載の
各手段としてコンピュータを機能させるためのプログラ
ムを記録したことを特徴とする。
【0013】本発明は上記技術手段より成るので、所定
の標本点における振幅データとタイミングデータとを用
いた今までには全くない簡単な音声認識手法および音声
合成手法を提供することが可能となる。ここで、振幅デ
ータおよびタイミングデータをそのまま用いるのではな
く、それらの相関データを用いるようにすることで、音
声の認識度を向上させることが可能となる。さらに、相
関データの下位数ビットを丸める処理や、音声信号のオ
ーバーサンプリング処理を行うことで、音声の認識度を
更に向上させることが可能となる。また、実際の音声信
号から生成された振幅データおよびタイミングデータを
用いて音声を合成することにより、少ないデータを記憶
しておくだけで、より生音に近い音声を合成することが
可能となる。さらに、音声信号のオーバーサンプリング
処理を行った上で生成した振幅データおよびタイミング
データを用いて音声の合成を行うことで、合成音の品質
を更に向上させることが可能となる。
【0014】
【発明の実施の形態】(第1の実施形態)以下、本発明
の一実施形態を図面に基づいて説明する。図1は、本実
施形態による音声認識装置の構成例を示すブロック図で
ある。図1に示すように、本実施形態の音声認識装置
は、ローパスフィルタ(LPF)1と、A/D変換器2
と、データ生成部3と、相関演算部4と、データ登録部
5と、データメモリ6と、データ照合部7と、モード指
定部8とを備えて構成されている。
【0015】図1において、入力アナログ信号は、人間
などが発声した音声を図示しないマイクロフォン等から
入力したものである。この入力アナログ信号は、後述す
る標本点の検出を行いやすくするために、LPF1によ
ってノイズが除去された後、A/D変換器2によってデ
ジタルデータに変換される。このときA/D変換器2
は、所定周波数(例えば、44.1KHz)の入力クロ
ックCK0に従ってA/D変換処理を実行し、入力アナ
ログ信号を例えば16ビットのデジタルデータに変換す
る。
【0016】このA/D変換器2によりデジタル化され
た音声データは、データ生成部3に入力される。データ
生成部3は、A/D変換器2より供給されるデジタルデ
ータを微分し、その微分結果に応じて後述する標本点を
検出する。そして、各検出点におけるデジタルデータの
振幅を表す振幅データと、各標本点間の時間間隔を表す
タイミングデータ(クロックCK0の数)とを求めて出
力する。
【0017】図2は、上記データ生成部3によって行わ
れるデータ生成処理の原理を説明するための図である。
なお、データ生成部3に入力されるデータは、入力アナ
ログ信号をA/D変換した後のデジタルデータである
が、図2では説明のために、A/D変換器2より出力さ
れたデジタルデータの波形をアナログ的に示している。
また、この図2中に示される数値は説明用の数値であっ
て、実際の数値に即したものではない。
【0018】本実施形態においては、例えば、A/D変
換器2より出力されたデジタルデータ101の中から、
微分絶対値(信号の傾斜)が“0”を含む所定値以下と
なる点(これを標本点と称する)102a〜102fを
検出する。そして、これら各標本点102a〜102f
における振幅を表すデジタルデータ値と、各標本点10
2a〜102fが現れる時間間隔を表すタイミングデー
タ値とを求め、この振幅データ値とタイミングデータ値
との組を出力する。
【0019】図2の例では、各標本点102a〜102
fにおけるデジタルの振幅データ値として、“7,3,
9,1,6,3”が求まり、各標本点102a〜102
fが現れる時刻T1−T2間、T2−T3間、T3−T
4間、T4−T5間、T5−T6間のそれぞれの時間間
隔を表すタイミングデータとして、“5,7,3,3,
3”が求まっている。なお、ここでタイミングデータと
して示される数字は、あるサンプリング周波数に基づく
クロックCK0の数を示している。
【0020】時刻T1の時点では、標本点102aの振
幅データ値“7”と、それより前に標本点(図示せず)
が検出された時刻からの時間間隔を表すタイミングデー
タ値(図示せず)とが得られているので、それらデータ
値の組を時刻T1のデータとして出力する。
【0021】次に、標本点102bが検出された時刻T
2の時点では、それより前に標本点102aが検出され
た時刻T1からの時間間隔を表すタイミングデータ値
“5”と、標本点102bの振幅データ値“3”とが得
られているので、これらデータ値の組(5,3)を時刻
T2のデータとして出力する。
【0022】さらに、次に標本点102cが検出された
時刻T3の時点では、それより前に標本点102bが検
出された時刻T2からの時間間隔を表すタイミングデー
タ値“7”と、標本点102cの振幅データ値“9”と
が得られているので、これらデータ値の組(7,9)を
時刻T3のデータとして出力する。
【0023】以下同様にして、時刻T3−T4間、T4
−T5間、T5−T6間の時間間隔を表すタイミングデ
ータ値と、時刻T4,T5,T6で検出された各標本点
102d,102e,102fの振幅データ値との組
(3,1)、(3,6)、(3,3)を、それぞれ時刻
T4,T5,T6におけるデータとして出力する。
【0024】図3は、このデータ生成部3の一構成例を
示すブロック図である。図3において、微分器301
は、A/D変換器2より入力されたデジタルデータを各
サンプリングポイント毎に微分し、その絶対値をとって
標本点検出部302に出力する。標本点検出部302
は、上記微分器301により微分された結果に基づい
て、デジタルデータの微分絶対値が所定値以下となる標
本点を検出する。
【0025】図4は、上記微分器301の一構成例を示
す図である。図4に示すように、本実施形態の微分器3
01は、連続する2つのサンプリングポイントのデータ
間の差分絶対値を演算する差分絶対値回路により構成さ
れる。
【0026】図4において、差分器31,32は、ノー
ドa,bから入力される連続する2つのサンプリングポ
イントにおけるデータの差分をそれぞれ演算する。すな
わち、差分器31は差分a−b、差分器32は差分b−
aをそれぞれ演算し、その結果をそれぞれOR回路3
3,34に出力する。これらの差分器31,32は、演
算された差分値が負の値になるときには、差分値の他に
ボロウとして“1”の値を出力する。
【0027】上記OR回路33は、上記差分器31で演
算された差分値とボロウ出力との論理和をとり、その結
果をAND回路35に出力する。また、もう1つのOR
回路34は、上記差分器32で演算された差分値とボロ
ウ出力との論理和をとり、その結果をAND回路35に
出力する。AND回路35は、上記2つのOR回路3
3,34からの出力の論理積をとり、その結果をノード
cに出力する。また、上記差分器31のボロウ出力をノ
ードdに出力し、上記差分器32で演算された差分値を
ノードeに出力する。
【0028】これにより、ノードcには、連続する2つ
のサンプリングポイントにおけるデータの差分絶対値|
a−b|が出力され、ノードdには、ノードbのデータ
値の方がノードaのデータ値より大きいときに“1”の
値が出力され、ノードeには、ノードa,bのデータ間
の差分値b−aが出力される。なお、図4では説明の都
合上、ノードa,b,c,eのデータ線を1ビット分し
か示していないが、実際にはデータのビット数だけ備え
られている。
【0029】図3のタイミング生成部303は、1つの
標本点が検出されてから次の標本点が検出されるまでに
供給されるクロックCK0の数をカウントし、これをタ
イミングデータとして出力するとともに、各標本点の検
出点のタイミングを表すタイミングクロックを出力す
る。
【0030】また、振幅生成部304は、タイミング生
成部303より出力されるタイミングクロックに従っ
て、該当する標本点位置のデジタルデータのみを取り出
して振幅データとして出力する。このようにして振幅生
成部304により生成された各標本点の振幅データと、
タイミング生成部303により生成された各標本点間の
時間間隔を表すタイミングデータとの組は、図1の相関
演算部4に出力される。
【0031】相関演算部4は、上記データ生成部3より
出力された各振幅データおよび各タイミングデータの相
関を演算する。この相関演算の方法としては種々のもの
が考えられる。ここでは、データ生成部3より出力され
た各振幅データ同士の比率および各タイミングデータ同
士の比率を演算するものとする。例えば、振幅データと
してd1,d2,d3,d4,…が得られ、タイミング
データとしてt1,t2,t3,t4,…が得られたと
すると、相関演算部4は、以下の式(1a),(1b)のような
比率を計算する。 d2/d1,d3/d2,d4/d3,… (1a) t2/t1,t3/t2,t4/t3,… (1b)
【0032】モード指定部8は、上記相関演算部4によ
り生成された相関データを、音声認識処理に用いるため
のマッチングデータとしてデータメモリ6に登録するモ
ードか、データメモリ6に登録された各種のマッチング
データを用いて実際に音声認識処理を行うモードかの何
れかを指定するものである。データ登録部5は、上記モ
ード指定部8により登録モードが指定されているとき
に、相関演算部4により生成された相関データをマッチ
ングデータとしてデータメモリ6に登録するものであ
る。
【0033】データメモリ6は、データを蓄積する記録
媒体であり、相関データ(マッチングデータ)の登録モ
ード時には、相関演算部4により生成された相関データ
を取り込んで記録する。また、音声認識モード時には、
データ照合部7から与えられる要求に応じて、蓄積され
ている相関データ(マッチングデータ)を読み出して出
力する。
【0034】データ照合部7は、相関演算部4から出力
される相関データと、データメモリ6から読み出される
マッチングデータとを用いてパターンマッチングの処理
を行い、データメモリ6に格納されている複数のマッチ
ングデータの中から、相関演算部4からの相関データと
ある確率以上で一致するマッチングデータを検出する。
これにより、図示しないマイクロフォン等から入力され
た音声が上記検出したマッチングデータに対応する音声
であると認識し、その認識結果を図示しないデータ処理
部などに出力する。これによりデータ処理部では、認識
された音声の内容に応じた処理が実行されることにな
る。
【0035】以上のように、本実施形態の音声認識装置
では、マッチングデータの登録時には、人間が発声した
音声をアナログ信号として入力し、それをデジタル化し
て演算することにより、デジタルデータの微分絶対値が
所定値以下となる標本点を検出する。そして、その標本
点における振幅データに関する相関データと、標本点間
の時間間隔を表すタイミングデータに関する相関データ
とを生成し、それをマッチングデータとしてデータメモ
リ6などの記録媒体に登録する。
【0036】また、音声認識の処理時には、人間が発声
した音声を同様に処理して、振幅データの相関データと
タイミングデータの相関データとを生成する。そして、
こうして生成した相関データと、データメモリ6にあら
かじめ登録しておいた複数のマッチングデータとを用い
てパターンマッチングの処理を行うことにより、入力さ
れた音声が何であるか等を認識する。
【0037】ここで、データ生成部3により生成される
振幅データとタイミングデータは、入力される音声の内
容によって異なるユニークなデータとなる。したがっ
て、この振幅データとタイミングデータとから生成した
相関データを用いてパターンマッチングを行うことによ
り、入力された音声が何であるか等の音声認識を行うこ
とが可能である。
【0038】しかも、本実施形態では、データ生成部3
で生成された振幅データとタイミングとをそのままマッ
チングデータとして用いるのではなく、これらの比率を
とった相関データをマッチングデータとして用いてい
る。これにより、音声認識率を向上させることが可能で
ある。
【0039】すなわち、同じ言葉を発声していても、そ
のときの発声の大きさや速さなどによって、振幅データ
の値とタイミングデータの値が異なってくることがあ
る。そのため、振幅データとタイミングデータとをその
ままマッチングデータとして用いると、同じ言葉を発声
していても、そのときの発声の状態によっては間違った
音声として認識してしまうことが考えられる。
【0040】これに対し、本実施形態のように振幅デー
タやタイミングデータの比率をとってこれをマッチング
データとして用いるようにすることにより、全体として
発声の大きさや速さが異なっていても、同じ言葉を発声
していれば、各標本点における振幅値の変化比率や標本
点間のピッチの変化比率はほぼ同じとなり、正しい音声
を認識することが可能である。これにより、例えば特性
の言葉を音声コマンドとして用い、計算機や携帯端末な
どを音声により操作することも可能となる。
【0041】なお、上記実施形態の相関演算部4では、
連続する2つの振幅データ間の比率および連続する2つ
のタイミングデータ間の比率をそれぞれ式(1a),(1b) の
ように計算しているが、相関データの計算はこの例に限
定されない。例えば、上記式(1a),(1b) の比率計算にお
いて、分母と分子は逆であっても良い。また、連続する
2つのデータ間の比率ではなく、離れたデータ間の比率
を演算するようにしても良い。
【0042】また、ここでは2つのデータ間の比率を除
算により演算しているが、加算や減算もしくは乗算、ま
たは加減乗除の任意の組合せ演算によって相関値を求め
るようにしても良い。さらに、2つのデータを用いた相
関演算に限らず、それより多くのデータを用いた相関演
算であっても良い。また、上記実施形態では、振幅デー
タの相関値とタイミングデータの相関値とを別々に演算
しているが、振幅データとタイミングデータとの間の相
関値を演算するようにしても良い。
【0043】すなわち、相関を演算することによって、
同じ音声ならばどんな発声状態でもほぼ同じ値となるよ
うにすれば、相関演算の手法は特に限定しない。もちろ
ん、相関演算のし方によっては、音声の認識率を更に高
めることも可能である。なお、相関を演算しなくても、
データ照合部7によるパターンマッチング処理の際に同
じ音声か否かを判断するための境界値、つまりマッチン
グデータとの一致度に関するしきい値を調整することに
より、音声の認識率をある程度は高めることが可能であ
る。
【0044】また、上記相関演算部4により計算された
相関データに対して下位数ビットを丸める処理を更に行
うことにより、例えば、演算された比率データの小数点
以下を切り捨てるようにしても良い。また、この丸め演
算を行う際に、演算された相関データをまず数倍してか
ら下位数ビットを丸めるようにしても良い。
【0045】このようにすれば、同じ音声でも発声の状
態によってわずかに異なることがある相関データの下位
数ビットを無視してパターンマッチングの処理を行うこ
とができ、相関演算部4より出力される相関データとデ
ータメモリ6より読み出されるマッチングデータとの一
致率を上げて、音声認識率を更に向上させることができ
る。
【0046】また、相関演算部4により得られた一連の
相関データをそのままパターンマッチング処理に用いる
のではなく、一連の相関データのうち最初と最後の数個
の相関データはパターンマッチング処理に用いないよう
にしても良い。あるいは、データ生成部3により得られ
た一連の振幅データおよびタイミングデータのうち、最
初と最後の数個の振幅データおよびタイミングデータは
用いずに相関データを求めるようにしても良い。
【0047】人間が発声した音声を処理して各標本点に
おける振幅データとタイミングデータとを検出する場
合、発声の最初の部分と最後の部分で得られる振幅デー
タとタイミングデータは不正確であることも考えられ
る。そこで、このように信頼性の低い発声の最初と最後
の部分で生成された振幅データとタイミングデータ、あ
るいはこれから作られる相関データを除外してパターン
マッチングを行うようにすることにより、音声認識率を
更に向上させることができる。
【0048】また、上記実施形態のデータ生成部3で
は、入力アナログ信号をデジタル化したデータの中か
ら、デジタルデータの微分絶対値が“0”を含む所定値
以下となる点を標本点として検出しているが、標本点検
出の方法はこれに限定されるものではない。例えば、A
/D変換器2より供給される一連のデジタルデータの中
から、前後の位置と比べて微分絶対値が小さくなる位
置、つまり微分絶対値の極小値が現れる位置を標本点と
して検出するようにしても良い。
【0049】この場合、標本点を検出するための処理と
して、A/D変換器2より供給されるデジタルデータを
1回微分した後、得られた微分絶対値を更に微分するこ
とによって2重微分を実行し、その2重微分値の極性が
マイナスまたはゼロからプラスに変化する直前の点を標
本点として抽出するようにしても良い。さらに、このよ
うに2重微分値の極性に基づき抽出した各点のうち、1
回微分絶対値が一定値より小さくなる点のみを正規の標
本点として検出するような処理を行うようにしても良
い。
【0050】すなわち、1回微分により得られる微分絶
対値の極小点においては、その1回微分絶対値を更に微
分した2重微分値の極性は、必ずマイナスからプラスに
変化する。したがって、デジタルデータの2重微分値を
求めてその極性がマイナスからプラスに変化する点(2
重微分値がゼロの点を含む)を検出すれば、1回微分絶
対値の極小点を正確に検出することができる。このと
き、同じ値の極小点が連続して2つ生じるような場合に
も、その一方を標本点として確実に検出することができ
る。また、1回微分絶対値が一定値より小さくなる点の
みを正規の標本点として検出するようにすれば、不要な
点を標本点として検出しないようにすることができる。
【0051】図5は、上記のように2重微分を行うこと
によって標本点を検出するための構成例を示すブロック
図であり、図3中の微分器301および標本点検出部3
02の構成例を示している。図5に示すように、微分器
301は、第1の微分部21と、丸め演算部22と、第
2の微分部23とを備えている。また、標本点検出部3
02は、極性変化点検出部24と、閾値処理部25とを
備えている。
【0052】上記第1の微分部21は、図4のように構
成され、図1のA/D変換器2より供給されるデジタル
データを各サンプリングポイント毎に微分し、その絶対
値をとって出力する。丸め演算部22は、第1の微分部
21で演算された1回微分絶対値の下位数ビットを落と
す処理を行う。この処理は、微分器301で算出された
微分絶対値に基づき標本点を検出する際に、標本点かど
うかの判定に裕度を持たせるために行っているものであ
る。
【0053】例えば、下位1ビットを落とせば、実際に
算出された微分絶対値が0〜1の範囲は全て微分絶対値
が0であるとみなして判定を行うことができる。また、
下位2ビットを落とせば、実際に算出された微分絶対値
が0〜3の範囲は全て微分絶対値が0であるとみなして
判定を行うことができる。ここでは、上記1回微分絶対
値を8で除算することで下位3ビットを落とす処理を行
う。このようにすることにより、雑音などの微小変動に
よる影響を避け、不要な点を標本点として検出しないよ
うにすることができる。
【0054】上記丸め演算部22より出力されたデータ
は、第2の微分部23および標本点検出部302内の閾
値処理部25に供給される。この第2の微分部23も図
4のように構成され、上記丸め演算部22により丸め演
算が行われた1回微分絶対値を更に各サンプリングポイ
ント毎に微分する。この第2の微分部23により求めら
れた2重微分値およびその極性を表すボロウ値は、標本
点検出部302内の極性変化点検出部24に供給され
る。
【0055】上記極性変化点検出部24は、微分器30
1内の第2の微分部23より供給された2重微分値の極
性がマイナスからプラスに変化する直前の点、例えば、
極性がマイナスの2重微分値が連続して得られている場
合において最後にマイナスとなる点、あるいは2重微分
値がゼロとなる点を標本点の候補として抽出する。極性
がマイナスの2重微分値が連続して得られていない場合
における当該マイナスの点を標本点の候補として更に抽
出しても良い。
【0056】ところで、標本点の検出に裕度を持たせる
ために丸め演算部22で微分絶対値の下位数ビットを落
とした場合には、同じ値の極小値が連続して2つ生じる
ケースが増えることが考えられる。この場合でも、2重
微分値を求めてその極性がマイナスからプラスに変化す
る点(2重微分値がゼロの点を含む)を検出すれば、同
じ値の極小点のうちの一方を標本点として確実に検出す
ることができる。
【0057】なお、同じ値の極小値が連続して2つ生じ
た場合、図4に示すノードdに出力される差分器31の
ボロウ値に基づいて微分値の正負の極性を判断し、微分
値の極性が変化する側を標本点として検出するようにし
ても良い。また、微分値の極性が変化しない場合には、
同じ値が連続する2つのサンプリングポイントの前後に
位置するサンプリングポイントの微分絶対値の大小関係
を見て、その値が小さい方に近い点を標本点として検出
するようにしても良い。
【0058】閾値処理部25は、上記極性変化点検出部
24により抽出された標本点の候補について、丸め演算
部22より供給される1回微分絶対値と、あらかじめ定
められた閾値とを比較し、1回微分絶対値が閾値より小
さくなる点のみを正規の標本点として検出し、図3のタ
イミング生成部303に伝える。
【0059】なお、上記図5の例では、丸め演算部22
にて丸め演算が施された1回微分絶対値を用いて閾値処
理を行っているが、第1の微分部21で求められた、丸
め演算が施される前の1回微分絶対値を用いて閾値処理
を行うようにしても良い。また、上記図5では、2重微
分値の極性がマイナスからプラスに変化する直前の点を
標本点として抽出しているが、マイナスからプラスに変
化した直後の点を標本点として抽出するようにしても良
い。
【0060】また、標本点を検出する他の手法として、
微分絶対値は用いずに、極性を含む微分値に基づいて標
本点を検出するようにしても良い。例えば、A/D変換
器2より出力されたデジタルデータを1回微分して、そ
の微分値の極性が変化する点を標本点として検出するよ
うにすることが可能である。この場合、図3の微分器3
01は、A/D変換器2より入力されたデジタルデータ
を1回微分する。このとき微分器301は、所定周波数
の入力クロックCK0が与えられる毎にデジタルデータ
の微分を行う。微分値は、ある入力クロックCK0のタ
イミングで取り込んだ現データから時間的に1つ前のデ
ータを減算することによって求まる。このとき、データ
のないところはデフォルト値とする。
【0061】また、標本点検出部302は、微分器30
1により算出された微分値の他に、A/D変換器2より
出力されたデジタルデータも入力する。そして、これら
のデータに基づいて、デジタルデータの微分値の極性が
変化する点を標本点として検出する。
【0062】例えば、標本点検出部302は、まず、微
分値の極性が正から負に変わる点、微分値の極性が負か
ら正に変わる点、および微分値が0となる点を検出す
る。そして、微分値の極性が正から負に変わる点に関し
ては、その正負両側の点のうち、A/D変換器2からの
デジタルデータ値が大きい方を標本点として検出する。
また、微分値の極性が負から正に変わる点に関しては、
その正負両側の点のうち、A/D変換器2からのデジタ
ルデータ値が小さい方を標本点として検出する。また、
微分値が0となる点に関しては、その点自体を標本点と
して検出する。また、微分値が0となる点が2つ以上連
続して現れる場合には、例えば、その両端の位置を標本
点として検出する。
【0063】タイミング生成部303は、1つの標本点
が検出されてから次の標本点が検出されるまでに供給さ
れるクロックCK0の数をカウントし、これをタイミン
グデータとして出力するとともに、各標本点の検出点の
タイミングを表すタイミングクロックを出力する。ま
た、上記振幅生成部304は、このタイミング生成部3
03より出力されるタイミングクロックに従って、該当
する標本点位置のデジタルデータのみを取り出して振幅
データとして出力する。
【0064】次に、本実施形態による音声合成装置につ
いて説明する。本実施形態の音声合成装置では、所定の
単語あるいは文章などを表したテキストデータと、その
単語あるいは文章に対応する音声信号から図1の音声認
識装置におけるデータ生成部3までの処理によって生成
した振幅データおよびタイミングデータの組とを互いに
関連付けておく。
【0065】そして、指定されたテキストデータから音
声を合成して出力するときに、そのテキストデータに関
連付けられた振幅データとタイミングデータとを用いて
後述するような補間演算を行うことにより、個々の振幅
データの間を補間する補間データを生成し、これをD/
A変換して出力する。
【0066】図6は、本実施形態による音声合成装置の
構成例を示すブロック図である。図6に示すように、本
実施形態の音声合成装置は、テキスト解析部11と、デ
ータ読出部12と、データメモリ13と、タイミングジ
ェネレータ14と、D型フリップフロップ15と、補間
処理部16と、D/A変換器17と、LPF18とを備
えて構成されている。
【0067】データメモリ13は、様々な音節、単語あ
るいは文章などを表したテキストデータに対応する音声
から生成された振幅データおよびタイミングデータの組
を、上記テキストデータと関連付けて記憶している。こ
こに記憶される振幅データおよびタイミングデータは、
図1に示した音声認識装置のデータ生成部3までと同様
の処理によって生成されるものである。
【0068】なお、ここでは、テキストデータに対応す
る音声から生成した振幅データおよびタイミングデータ
をそのテキストデータに関連付けて記憶しているが、ア
イコン、CGデータ、画像データなどのテキスト以外の
形式によるデータに対応する音声(例えば、解説音声な
ど)から生成した振幅データおよびタイミングデータを
当該データに関連付けて記憶するようにしても良い。
【0069】テキスト解析部11は、指定された所望の
テキストデータを解析し、その音節、単語あるいは文章
などの内容を認識する。なお、アイコン、CGデータ、
画像データなどが指定されたときは、それらを解析して
何が指定されているかを認識することになる。データ読
出部12は、テキスト解析部11による解析結果に基づ
いて、指定されたテキストデータ等の内容に対応する振
幅データとタイミングデータとをデータメモリ13内か
ら読み出す。
【0070】タイミングジェネレータ14は、データメ
モリ13から読み出されるタイミングデータを受けて、
そのタイミングデータで示される不定の時間間隔を表す
読み出しクロックを所定周波数の入力クロックCK0か
ら生成する。D型フリップフロップ15は、データメモ
リ13に上記タイミングデータとの組で記憶されている
振幅データを、上記タイミングジェネレータ14により
生成された読み出しクロックに従ったタイミングで順次
取り込んで保持し、それを補間処理部16に出力する。
【0071】この補間処理部16には、上記D型フリッ
プフロップ15の入出力段の振幅データ、つまりある読
み出しクロックのタイミングでD型フリップフロップ1
5に保持されている振幅データと、次の読み出しクロッ
クのタイミングでD型フリップフロップ15に保持され
るべき振幅データ(連続する2つの標本点における2つ
の振幅データ)が入力されている。
【0072】補間処理部16は、このように入力される
2つの振幅データと、タイミングジェネレータ14より
入力されるタイミングデータとを用いて、後述する補間
演算もしくはコンボリューション演算等によって各標本
点間のデジタル補間データを生成する。そして、このよ
うにして生成したデジタル補間データをD/A変換器1
7によってアナログ信号に変換した後、LPF18を介
してアナログの合成音声信号として出力する。
【0073】次に、図7を用いて、上記補間処理部16
におけるデータ補間処理の原理を説明する。図1のデー
タ生成部3と同様の処理を図2に示した音声信号に施す
ことで生成される振幅データとタイミングデータとの組
がデータメモリ13の中に記憶されている場合、そのデ
ータは、(※,7)(5,3)(7,9)(3,1)
(3,6)(3,3)の数値列となる。なお、※は図2
中には値が図示されていないことを示すものである。デ
ータメモリ13からは、ここに示した順序に従ってデー
タが読み出される。
【0074】すなわち、まず最初にデータメモリ13か
ら読み出される振幅データ値“7”とタイミングデータ
値“5”との2つのデータ値から、補間演算によって波
形a1のデータを生成する。次に、上述のタイミングデ
ータ値“5”と、続いて読み出される振幅データ値
“3”との2つのデータ値から、補間演算によって波形
a2のデータを生成する。
【0075】次に、上述の振幅データ値“3”と、続い
て読み出されるタイミングデータ値“7”との2つのデ
ータ値から、補間演算によって波形b2のデータを生成
する。さらに、上述のタイミングデータ値“7”と、更
に続いて読み出される振幅データ値“9”とから、補間
演算によって波形b1のデータを生成する。以下同様に
して、順に読み出される振幅データ値とタイミングデー
タ値の組合せから、波形c1,c2,d2,d1,e
1,e2のデータを順次生成する。
【0076】以上のような処理により、波形a1,b
1,c1,d1,e1が連続化されたデジタル信号(図
7の上段)と、波形a2,b2,c2,d2,e2が連
続化されたデジタル信号(図7の下段)とが生成され
る。そして、このようにして生成した2つのデジタル信
号を互いに加算してデジタル−アナログ変換することに
より、図2に示したような波形を有するアナログ音声信
号を合成する。
【0077】図8は、図7に示した時刻T1−T2の区
間を取り出して示したものであり、図8(a)は加算前
の2つの波形a1,a2を示し、図8(b)は加算によ
り生成した合成波形a1+a2を示している。図8
(a)において、D1は時刻T1における振幅データ値
(図7の例では“7”)、D2は時刻T2における振幅
データ値(図7の例では“3”)、Tは時刻T1−T2
間の時間間隔を表すタイミングデータ値(図7の例では
“5”)、tは時刻T1−T2間の任意のタイミングを
示している。
【0078】図8(a)に示すように、時刻T1におけ
る振幅データ値D1と時刻T1−T2間の時間間隔を表
すタイミングデータ値Tとを用いて、時刻T1−T2間
の任意のタイミングtを変数として、つまりあるサンプ
リング周波数に基づくクロックCK0に従ってタイミン
グtの値を1つずつインクリメントしながら、波形a1
のデータを補間演算によって生成する。
【0079】また、時刻T2における振幅データ値D2
と時刻T1−T2間の時間間隔を表すタイミングデータ
値Tとを用いて、同様にタイミングtを変数として波形
a2のデータを補間演算によって生成する。そして、こ
のようにして生成した波形a1,a2のデータを上記タ
イミングtを変数として加算することにより、図8
(b)のような波形を合成する。
【0080】以下に、上述のような補間処理によって音
声信号を合成できる原理について説明する。一般に、離
散的なデジタルデータから連続的なアナログ信号を得る
ために、離散的に入力されるデジタルデータの間を補間
して擬似的にサンプリング周波数を上げることが行われ
ている。通常、このようなデータ補間は、t=0の標本
点のみで値が“1”になり、他の全ての標本点では値が
“0”となる標本化関数を用いて行われる。なお、関数
の値が局所的な領域で“0”以外の有限の値を有し、そ
れ以外の領域で“0”となる場合を「有限台」と称す
る。
【0081】図9に、このような有限台の標本化関数の
一例としてsinc関数を示す。図9に示すsinc関
数の例では、t=0の標本点のみで値が“1”になり、
等間隔の他の全ての標本点(t=±1,±2,±3,±
4,…)では値が全て“0”となっている。
【0082】図10は、このような標本化関数を用いた
一般的なデータ補間の動作を説明するための図である。
図10において、等間隔の標本点t1,t2,t3,t
4のそれぞれにおける離散データの値をY(t1),Y
(t2),Y(t3),Y(t4)とし、例えば標本点
t2とt3の間の所定位置t0(t2から距離a)に対
応した補間値yを求める場合を考える。
【0083】一般に、補間値yを標本化関数を用いて求
めるには、与えられた各離散データのそれぞれについて
補間位置t0における標本化関数の値を求め、これを用
いて畳み込み演算を行えばよい。具体的には、t1〜t
4の各標本点毎に、標本化関数の中心位置におけるピー
ク高さを一致させ、このときのそれぞれの補間位置t0
における標本化関数の値(×印で示す)を求めて、それ
らを全て加算する。
【0084】このような補間処理を、時間経過と共に
(サンプリングクロックのインクリメントと共に)補間
位置t0を順次移動させながら行うことにより、連続的
に変化する補間値y(t0)を順次求めていく。これに
より、各離散データ間をより滑らかにつなぐデジタル波
形を得ることができ、これをD/A変換することによっ
て、連続したアナログ信号を得ることができる。
【0085】本実施形態は、このようなデータ補間処理
を応用したものである。すなわち、図8(a)に示した
ように、時刻T2において既に入力されている振幅デー
タ値D1(=7)とタイミングデータ値T(=5)とか
ら、第1の標本点(時刻T1)において“0”以外の値
をとる有限台の標本化関数の一部を形成する波形a1を
求めるとともに、振幅データ値D2(=3)とタイミン
グデータ値T(=5)とから、第2の標本点(時刻T
2)において“0”以外の値をとる有限台の標本化関数
の一部を形成する波形a2を求める。
【0086】そして、これらの波形a1,a2の値を時
間経過と共に順次移動する補間位置tごとに加算するこ
とにより、離散データD1,D2間をより滑らかにつな
ぐデジタル波形を得て、これをD/A変換することによ
って、連続したアナログ信号を得る。
【0087】ところで、本実施形態では図2に示したよ
うに、デジタルデータをその微分絶対値が所定値以下と
なる点の時間間隔で標本化することなどによって離散的
なデータを得ている。そのため、離散データが得られた
それぞれの標本点の間隔は常に等間隔になるとは限ら
ず、多くの場合は不定の間隔となる(図2の例でも、各
標本点の間隔が“5,7,3,3,3”と不定になって
いる)。
【0088】そこで、音声合成装置において、例えば時
刻T1−T2間の補間値を求める際には、図8のよう
に、その時刻T1,T2の標本点間の時間間隔で有限台
となる標本化関数a1,a2のみを用いて上述のような
畳み込み演算を行い、標本点間の時間間隔がこれとは異
なる他の標本化関数b1,b2,c1,c2,d1,d
2,e1,e2についてはこの畳み込み演算の際に考慮
しないようにする。
【0089】また、例えば時刻T2−T3間の補間値を
求める際には、その時刻T2,T3の標本点間の時間間
隔(=7)で有限台となる標本化関数b1,b2のみを
用いて畳み込み演算を行い、標本点間の時間間隔がこれ
とは異なる他の標本化関数a1,a2,c1,c2,d
1,d2,e1,e2についてはこの畳み込み演算の際
に考慮しないようにする。他の標本点間の補間値を求め
る際も同様である。
【0090】次に、上記データ補間の具体的な処理例に
ついて以下に説明する。上述したように、例えば時刻T
1−T2間の補間値を求める際には、時刻T1,T2に
おける各振幅データ値と、時刻T1−T2間の時間間隔
を表すタイミングデータ値とから求められる標本化関数
a1,a2のみを用いる。つまり、時刻T1−T2間に
おける各補間位置tにおける補間値を求めるために必要
なデータは、全て時刻T2の時点で得られており、この
時点で図8(b)に示すような信号を合成することが可
能である。
【0091】そこで、本実施形態では、T1〜T6の各
離散時刻ごとに2つの振幅データ値D1,D2とその時
間間隔を表すタイミングデータ値Tとが得られるごと
に、それらのデータ値を用いて以下に説明するような補
間演算式に従って補間値を算出することにより、デジタ
ル波形を順次合成する。図11は、この補間演算式につ
いて説明するための図である。
【0092】図11に示すように、振幅データ値D1,
D2を有する2つの標本点間の補間値は、補間位置tに
関する2つの2次関数x1,x2がちょうど中間時点で
連続化した関数によって表すことができる。すなわち、
本実施形態では、2つの標本点間を前半部と後半部とに
分けて、それぞれ2次関数x1,x2を用いて補間値を
計算する。
【0093】ここで、標本点間の時間間隔であるタイミ
ングデータ値Tは、奇数の場合もあれば偶数の場合もあ
り、奇数の場合にはちょうど中間時点に補間位置tがこ
ない状態が生じる。そのため、振幅データとタイミング
データの生成時に2倍のオーバーサンプリングを実行す
ることにより、得られるタイミングデータ値が常に偶数
となるようにしても良い。この場合、図2に示した5つ
のタイミングデータ値“5,7,3,3,3”は、実際
には2倍のオーバーサンプリングによって“10,1
4,6,6,6”という値としてデータメモリ13に蓄
積される。図11では、標本点間の時間間隔をオーバー
サンプリングされた後の2Tによって表している。
【0094】図11において、2つの2次関数x1,x
2はそれぞれ、 x1=D1+at2 …(1) x2=D2−a(t−2T)2 …(2) で表される。また、これらの関数x1,x2は、連続す
る標本点のちょうど中間時点Tにおいて連続であるた
め、 x1=x2 (t=T) …(3) である。
【0095】ここで、式(3) に式(1)(2)を代入すると、 D1+aT=D2−aT2 …(4) となり、これをaについて解くと、 a=−(D1−D2)/2T2 …(5) となる。したがって、この式(5) を式(1)(2)を代入する
ことにより、 x1=D1−{(D1−D2)/2T2 }t2 …(6) x2=D2+{(D1−D2)/2T2 }(2T−t)2 …(7) を得る。
【0096】つまり、元の2倍のサンプリング周波数の
クロックに従って順次インクリメントされる補間位置t
を変数として上記式(6)(7)の演算を行うことにより、元
の離散データ間をより滑らかにつなぐデジタル波形を合
成することができる。本実施形態では、このような補間
演算処理を振幅データ値とタイミングデータ値とから成
る信号列が各離散時刻T1〜T6ごとに入力されるに従
って順次行う。
【0097】すなわち、図7の例において、時刻T1,
T2における標本点の振幅データ値とその間のタイミン
グデータ値とが入力された時点で、その標本点間の補間
演算を行って滑らかなデジタル波形を直ちに合成する。
更に時刻T3における標本点の振幅データ値と標本点T
2−T3間のタイミングデータ値とが入力された時点
で、その間の補間演算を行って滑らかなデジタル波形を
直ちに合成する。以下同様にして順次処理を行ってい
く。
【0098】以上説明したように、本実施形態において
は、実際の音声から生成された各標本点における振幅デ
ータと各標本点間の間隔を表すタイミングデータとをテ
キストデータと関連付けておき、所望のテキストデータ
が指定されたときに、それに対応する振幅データとタイ
ミングデータとから、補間演算によってアナログ音声信
号を合成して出力するようにしている。これにより、あ
らかじめ録音した音声信号を利用して音声を合成(再
生)する方式と比べて、極めて少ない量のデータ(振幅
データおよびタイミングデータ)を記憶しておくだけ
で、人間の肉声に近い高品質の音声をテキストデータ等
から合成することができる。また、読み出されるデータ
を簡単な補間演算によって順次に処理して音声を合成す
ることができるので、リアルタイム動作を実現すること
ができる。
【0099】なお、上記式(6)(7)に示す補間演算処理
は、ロジック回路などのハードウェア構成によっても実
現可能であるし、DSP(Digital Signal Processor)
あるいはソフトウェア(ROMやRAMなどに格納され
たプログラム)によっても実現可能である。
【0100】(第2の実施形態)次に、本発明の第2の
実施形態について説明する。第2の実施形態において、
音声認識装置では、少なくともデータ生成部3により振
幅データとタイミングデータとを生成する前の段階で、
与えられたデジタルデータに対してn倍オーバーサンプ
リングと移動平均演算または畳み込み演算(以下では、
コンボリューション演算と称する)とを行うことによ
り、離散的なデータの間を補間によってつないだ、より
滑らかなデータを得るようにする。
【0101】図12は、第2の実施形態による音声認識
装置の全体構成例を示すブロック図である。図12に示
すように、第2の実施形態による音声認識装置は、図1
に示した第1の実施形態による音声認識装置に対して、
オーバーサンプル回路9とPLL(Phase Locked Loop
)回路10とが追加されている。
【0102】上記オーバーサンプル回路9は、A/D変
換器2とデータ生成部3との間にあり、A/D変換器2
より入力されるデジタルデータに対してn倍のオーバー
サンプリングとコンボリューション演算とを行うことに
より、離散データの間を埋めるデジタルの補間値を求め
る。例えば、オーバーサンプル回路9は、44.1KH
zの周波数でサンプリングされた音声データを入力し、
これを8倍の周波数(352.8KHz)でオーバーサ
ンプリングするとともに、コンボリューション演算を実
行する。そして、これによって得られた一連のオーバー
サンプルデータをデータ生成部3に出力する。
【0103】データ生成部3は、上記オーバーサンプル
回路9より供給される一連のオーバーサンプルデータの
中から、上述した何れかの方法によって標本点を検出す
る。そして、検出した各標本点における振幅データ値
と、各標本点が現れる時間間隔を表すタイミングデータ
値との組を、モード指定部8により指定されているその
ときのモードに応じて、データ登録部5あるいはデータ
照合部7に出力する。
【0104】また、PLL回路10は、基準周波数(例
えば44.1KHz)の入力クロックCK0から8倍周
波数(352.8KHz)のクロックCK1を生成し、
それを上述のオーバーサンプル回路9およびデータ生成
部3に供給する。オーバーサンプル回路9およびデータ
生成部3では、この8倍周波数のクロックCK1に同期
して動作することになる。
【0105】一方、音声合成装置において、8倍周波数
のクロックCK1に従って生成された振幅データとタイ
ミングデータとをデータメモリ13に記憶する場合に
は、図6に示した第1の実施形態による音声合成装置に
対して、図示しないクロックジェネレータを追加する必
要がある。このクロックジェネレータは、基準周波数の
入力クロックCK0から8倍周波数のクロックCK1を
生成し、それをタイミングジェネレータ14、補間処理
部16およびD/A変換部17に供給する。
【0106】次に、上記図12に示した音声認識装置内
のオーバーサンプル回路9の構成および動作について、
以下に詳細に説明する。本実施形態のオーバーサンプル
回路9では、2つの離散データ間の補間値を求める際
に、この2つの離散データを含むn個の離散データの値
に応じた振幅を有する基本波形のデジタルデータを夫々
オーバーサンプリングするとともに、得られたn個のデ
ータどうしをコンボリューション演算により合成するこ
とによって、上記2つの離散データ間を埋める補間値を
デジタル的に求める。
【0107】図13は、本実施形態で用いるデジタル基
本波形の説明図である。図13に示すデジタル基本波形
は、オーバーサンプリングによるデータ補間を行う際に
使用する標本化関数の基本となるものである。このデジ
タル基本波形は、基準周波数の1クロック(CK0)毎
にデータ値を−1,1,8,8,1,−1と変化させて
作成したものである。
【0108】以下に、図14を用いて、図13のように
正規化されたデジタル基本波形に応じた離散的なデータ
値(−1,1,8,8,1,−1)/8から、n倍のオ
ーバーサンプリングとコンボリューション演算によって
補間値を生成する場合を例にとって、本実施形態による
データ補間の原理を説明する。なお、図14では、図面
の都合上4倍のオーバーサンプリングを行う例について
示しているが、図12のオーバーサンプル回路9では、
実際には8倍のオーバーサンプリングを行っている。
【0109】図14において、一番左の列に示される一
連の数値列は、元の離散データ値(−1,1,8,8,
1,−1)/8に対して4倍のオーバーサンプリングを
行った値である。また、一番左から右に向かって4列分
の数値列は、一番左の列に示される数値列を1つずつ下
方向にシフトしていったものである。図14の列方向は
時間軸を示しており、数値列を下方向にシフトするとい
うことは、一番左の列に示される数値列を徐々に遅延さ
せていくことに対応する。
【0110】すなわち、左から2列目の数値列は、一番
左の列に示される数値列を4倍周波数のクロック4CL
Kの1/4位相分だけずらした数値列であることを示
す。また、左から3列目の数値列は、左から2列目に示
される数値列を4倍周波数のクロック4CLKの1/4
位相分だけずらした数値列、左から4列目の数値列は、
左から3列目に示される数値列を4倍周波数のクロック
4CLKの1/4位相分だけ更にずらした数値列である
ことを示す。
【0111】また、左から5列目の数値列は、1〜4列
目の各数値列を対応する行どうしで加算して4で割った
値である。この左から5列目までの処理により、4相の
コンボリューション演算を伴う4倍のオーバーサンプリ
ングがデジタル的に実行されることになる。
【0112】上記5列目から右に向かって4列分の数値
列(左から5〜8列の数値列)は、5列目に示される数
値列を1つずつ下方向にシフトしていったものである。
また、左から9列目の数値列は、5〜8列目の各数値列
を対応する行どうしで加算して4で割った値である。こ
の左から9列目までの処理により、4相のコンボリュー
ション演算を伴う4倍のオーバーサンプリングがデジタ
ル的に2回実行されることになる。
【0113】また、左から10列目の数値列は、9列目
に示される数値列を1つ下方向にシフトしたものであ
る。また、左から11列目(一番右の列)の数値列は、
9列目の数値列と10列目の数値列とを対応する行どう
しで加算して2で割った値である。この一番右の数値列
が、目的の補間値ということになる。
【0114】この図14の一番右の列に示される最終的
に得られた数値列をグラフ化したのが、図15である。
図15に示すような波形を有する関数は、全域において
1回微分可能であって、横軸に沿った標本位置tが1か
ら33の間にあるときに0以外の有限な値を有し、それ
以外の領域では値が全て0となる有限台の関数である。
また、図15の関数は、t=17の標本点でのみ極大値
をとり、t=1,9,25,33の4つの標本点におい
て値が0になるという特徴を有する標本化関数であり、
滑らかな波形のデータを得るために必要なサンプル点は
全て通る。
【0115】このように、図15に示す関数は、標本化
関数であって、全域において1回微分可能であり、しか
も標本位置t=1,33において0に収束する有限台の
関数である。したがって、図15の標本化関数を用いて
各離散データに基づく重ね合わせを行うことにより、離
散データ間の値を1回微分可能な関数を用いて補間する
ことが可能である。
【0116】データ補間処理に一般的に用いられる図9
のようなsinc関数は、t=±∞の標本点で0に収束
する関数であるため、補間値を正確に求めようとする
と、t=±∞までの各離散データに対応して補間位置で
のsinc関数の値を計算し、これを用いて畳み込み演
算を行う必要がある。これに対して、本実施形態で用い
る図15の標本化関数は、t=1,33の標本点で0に
収束するため、t=1〜33の範囲内での離散データだ
けを考慮に入れればよい。
【0117】したがって、ある1つの補間値を求める場
合には、限られたn個の離散データの値のみを考慮すれ
ばよいことになり、処理量を大幅に削減することができ
る。しかも、t=1〜33の範囲外の各離散データにつ
いては、本来考慮すべきであるが処理量や精度等を考慮
して無視しているというわけではなく、理論的に考慮す
る必要がないため、打ち切り誤差は発生しない。したが
って、本実施形態のデータ補間手法を用いれば、正確な
補間値を得ることができ、この正確な補間値を用いて音
声認識処理をすることで、認識率を向上させることがで
きる。
【0118】図16は、図12に示したオーバーサンプ
ル回路9の構成例を示すブロック図である。図16に示
すように、本実施形態のオーバーサンプル回路9は、正
規化データ記憶部41と、位相シフト部42と、複数の
デジタル乗算器43a〜43dと、複数のデジタル加算
器44a〜44cとを備えて構成される。なお、図16
中に示されるPLL回路10は、図12に示したのと同
じものである。
【0119】上記正規化データ記憶部41は、図14の
一番右の列に示したように正規化されたデータ列を4相
にずらして記憶している。なお、図14では、図13に
示したデジタル基本波形に対して4倍のオーバーサンプ
リングを行う例を示しているが、図12のオーバーサン
プル回路9では8倍のオーバーサンプリングを実施して
いるので、この正規化データ記憶部41には、デジタル
基本波形が8倍にオーバーサンプリングされてコンボリ
ューション演算により正規化されたデータ列が記憶され
る。この正規化データ記憶部41に記憶された4相の正
規化データは、PLL回路10より供給されるクロック
CK0,CK1に従って読み出され、それぞれ4つのデ
ジタル乗算器43a〜43dの一方の入力端子に供給さ
れる。
【0120】また、位相シフト部42は、A/D変換器
2より入力される離散データの位相を4相にずらす位相
シフト処理を行う。この位相シフト部42により生成さ
れた4相の離散データは、PLL回路10より供給され
るクロックCK0,CK1に従って出力され、それぞれ
4つのデジタル乗算器43a〜43dの他方の入力端子
に供給される。
【0121】上記4つのデジタル乗算器43a〜43d
は、上記正規化データ記憶部41より出力される4相の
正規化データと、上記位相シフト部42より出力される
4相の離散データとをそれぞれ乗算する。これらの後段
に接続された3つのデジタル加算器44a〜44cは、
上記4つのデジタル乗算器43a〜43dでの乗算結果
を全て加算し、その加算結果を図12のデータ生成部3
に出力する。
【0122】この図16に示す構成から明らかなよう
に、本実施形態では、図14に示したようなコンボリュ
ーション演算により得られる一番右の列の正規化データ
をあらかじめROM等の正規化データ記憶部41に記憶
しておく。そして、この正規化データを入力される離散
データの値に応じた振幅に変調し、これにより得られた
データを4相のコンボリューション演算により合成して
出力するようにしている。
【0123】入力される離散データの振幅値を図13に
示したデジタル基本波形に対して乗算し、それにより得
られたデータ値に対して図14に示したようなコンボリ
ューション演算を音声認識時に行うようにしても良い
が、オーバーサンプル回路9を図16のように構成した
場合には、実際の音声認識時に図14のコンボリューシ
ョン演算そのものを行う必要がなく、認識処理を高速化
することができるというメリットを有する。なお、オー
バーサンプル回路9では8倍のオーバーサンプリングを
実施しているが、8倍には限定されない。例えば、2
倍、4倍などであっても良い。
【0124】以上詳しく説明したように、第2の実施形
態においては、音声認識装置において、入力される離散
的なデジタルデータに対してオーバーサンプリングとコ
ンボリューション演算とを行って滑らかに変化する連続
的なデータを生成し、得られたオーバーサンプルデータ
から離散的な振幅データ値とそれらの不定の時間間隔を
表すタイミングデータ値とを得るようにしている。
【0125】ここで、オーバーサンプリングとコンボリ
ューション演算を実行する際にデジタル基本波形から生
成される関数は、有限の標本位置で値が0に収束する有
限台の標本化関数であり、1回微分可能な関数である。
そのため、ある1つの補間値を求める場合には、限られ
た数の離散データの値のみを考慮すればよいことにな
り、処理量を大幅に削減することができる。しかも、打
ち切り誤差が生じないため、正確な補間値を得ることが
でき、この補間値を用いて音声認識処理をした場合に、
音声の認識率を向上させることができる。
【0126】なお、以上に説明した第1、第2の実施形
態による音声認識・音声合成の手法は、ハードウェア構
成、DSP、ソフトウェアの何れによっても実現するこ
とが可能である。例えばソフトウェアによって実現する
場合、本実施形態の音声認識装置および音声合成装置
は、実際にはコンピュータのCPUあるいはMPU、R
AM、ROMなどで構成されるものであり、RAMやR
OMに記憶されたプログラムが動作することによって実
現できる。
【0127】したがって、コンピュータが上記本実施形
態の機能を果たすように動作させるプログラムを例えば
CD−ROMのような記録媒体に記録し、コンピュータ
に読み込ませることによって実現できるものである。上
記プログラムを記録する記録媒体としては、CD−RO
M以外に、フロッピー(登録商標)ディスク、ハードデ
ィスク、磁気テープ、光磁気ディスク、不揮発性メモリ
カード等を用いることができる。
【0128】また、コンピュータが供給されたプログラ
ムを実行することにより上述の実施形態の機能が実現さ
れるだけでなく、そのプログラムがコンピュータにおい
て稼働しているOS(オペレーティングシステム)ある
いは他のアプリケーションソフト等と共同して上述の実
施形態の機能が実現される場合や、供給されたプログラ
ムの処理の全てあるいは一部がコンピュータの機能拡張
ボードや機能拡張ユニットにより行われて上述の実施形
態の機能が実現される場合も、かかるプログラムは本発
明の実施形態に含まれる。
【0129】なお、上記に説明した各実施形態は、何れ
も本発明を実施するにあたっての具体化の一例を示した
ものに過ぎず、これらによって本発明の技術的範囲が限
定的に解釈されてはならないものである。すなわち、本
発明はその精神、またはその主要な特徴から逸脱するこ
となく、様々な形で実施することができる。
【0130】
【発明の効果】以上詳しく説明したように、本発明によ
れば、音声信号上の所定の標本点における振幅データと
タイミングデータとを用いた今までにはない全く新しい
音声認識手法および音声合成手法を提供することがで
き、音声認識度の向上、合成音の高品質化および処理の
簡素化を図ることができる。
【図面の簡単な説明】
【図1】第1の実施形態による音声認識装置の構成例を
示すブロック図である。
【図2】本実施形態による音声認識の原理を説明するた
めの図である。
【図3】データ生成部の構成例を示すブロック図であ
る。
【図4】図3に示した微分器の構成例を示す図である。
【図5】2重微分を行うことによって標本点を検出する
ための構成例を示すブロック図である。
【図6】第1の実施形態による音声合成装置の構成例を
示すブロック図である。
【図7】本実施形態による音声合成の原理を説明するた
めの図である。
【図8】図7に示した時刻T1−T2の区間を取り出し
て本実施形態の補間原理を示した図である。
【図9】有限台の標本化関数の例を示す図である。
【図10】音声合成のための補間動作の説明図である。
【図11】データ補間処理の具体例である補間演算式に
ついて説明するための図である。
【図12】第2の実施形態による音声認識装置の構成例
を示すブロック図である。
【図13】第2の実施形態で用いるデジタル基本波形を
示す図である。
【図14】第2の実施形態のオーバーサンプリングおよ
びコンボリューション演算の動作例を説明するための図
である。
【図15】第2の実施形態のデジタル基本波形から生成
される関数を示す図である。
【図16】図12に示したオーバーサンプル回路の構成
例を示す図である。
【符号の説明】
1 LPF 2 A/D変換器 3 データ生成部 4 相関演算部 5 データ登録部 6 データメモリ 7 データ照合部 8 モード指定部 9 オーバーサンプル回路 10 PLL回路 11 テキスト解析部 12 データ読出部 13 データメモリ 14 タイミングジェネレータ 15 D型フリップフロップ 16 補間処理部 17 D/A変換部 18 LPF 101 デジタルデータ波形 102a〜102f 標本点 301 微分器 302 標本点検出部 303 タイミング生成部 304 振幅生成部

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】 入力音声信号を微分してその微分値が所
    定の条件を満たす点を標本点として検出し、検出した各
    標本点における離散的な振幅データと各標本点間の時間
    間隔を表すタイミングデータとを得て、上記振幅データ
    およびタイミングデータを用いて相関データを生成し、
    この生成した相関データと、種々の音声についてあらか
    じめ同様に生成して蓄積しておいた相関データとの照合
    により入力音声を認識するようにしたことを特徴とする
    音声認識方法。
  2. 【請求項2】 上記入力音声信号をその微分絶対値が所
    定値以下となる点の時間間隔で標本化するようにしたこ
    とを特徴とする請求項1に記載の音声認識方法。
  3. 【請求項3】 上記入力音声信号をその微分絶対値が極
    小となる点の時間間隔で標本化するようにしたことを特
    徴とする請求項1に記載の音声認識方法。
  4. 【請求項4】 上記入力音声信号をその微分値の極性が
    変化する点の時間間隔で標本化するようにしたことを特
    徴とする請求項1に記載の音声認識方法。
  5. 【請求項5】 上記相関データは、連続する標本点の振
    幅データ同士の比率および連続する標本点間のタイミン
    グデータ同士の比率であることを特徴とする請求項1〜
    4の何れか1項に記載の音声認識方法。
  6. 【請求項6】 上記相関データの下位数ビットを丸める
    処理を行うことを特徴とする請求項1〜5の何れか1項
    に記載の音声認識方法。
  7. 【請求項7】 上記入力音声信号をオーバーサンプリン
    グし、当該オーバーサンプリングされたデータをその微
    分値が所定の条件を満たす点の時間間隔で標本化するよ
    うにしたことを特徴とする請求項1〜6の何れか1項に
    記載の音声認識方法。
  8. 【請求項8】 上記入力音声信号をデジタル化して得ら
    れるn個の離散データの値に応じた基本波形のデジタル
    データをオーバーサンプリングと移動平均演算または畳
    み込み演算とにより合成することによって上記離散デー
    タに対するデジタルの補間値を求めた後、上記求めたデ
    ジタルの補間値をその微分値が所定の条件を満たす点の
    時間間隔で標本化するようにしたことを特徴とする請求
    項7に記載の音声認識方法。
  9. 【請求項9】 入力音声信号をA/D変換するA/D変
    換手段と、 上記A/D変換手段より出力されるデジタルデータを微
    分する微分手段と、 上記微分手段により求められた微分値が所定の条件を満
    たす点を標本点として検出し、検出した各標本点におけ
    る振幅データおよび各標本点間の時間間隔を表すタイミ
    ングデータを生成するデータ生成手段と、 上記データ生成手段により生成された上記振幅データお
    よびタイミングデータを用いて相関データを生成する相
    関演算手段と、 上記相関演算手段により生成された相関データと、種々
    の音声についてあらかじめ同様に生成して記録媒体に蓄
    積しておいた相関データとを照合して入力音声を認識す
    るデータ照合手段とを備えたことを特徴とする音声認識
    装置。
  10. 【請求項10】 上記データ生成手段は、上記A/D変
    換手段より出力されたデジタルデータをその微分絶対値
    が所定値以下となる点の時間間隔で標本化することを特
    徴とする請求項9に記載の音声認識装置。
  11. 【請求項11】 上記データ生成手段は、上記A/D変
    換手段より出力されたデジタルデータをその微分絶対値
    が極小となる点の時間間隔で標本化することを特徴とす
    る請求項9に記載の音声認識装置。
  12. 【請求項12】 上記データ生成手段は、上記A/D変
    換手段より出力されたデジタルデータをその微分値の極
    性が変化する点の時間間隔で標本化することを特徴とす
    る請求項9に記載の音声認識装置。
  13. 【請求項13】 上記相関演算手段は、上記相関データ
    として、連続する標本点の振幅データ同士の比率および
    連続する標本点間のタイミングデータ同士の比率を求め
    ることを特徴とする請求項9〜12の何れか1項に記載
    の音声認識装置。
  14. 【請求項14】 上記相関演算手段は、上記相関データ
    の下位数ビットを丸める処理を行うことを特徴とする請
    求項9〜13の何れか1項に記載の音声認識装置。
  15. 【請求項15】 上記A/D変換手段より出力されたデ
    ジタルデータに対して偶数倍周波数のクロックを用いて
    オーバーサンプリングを行うオーバーサンプリング手段
    を備え、 上記データ生成手段は、上記オーバーサンプリングされ
    たデータをその微分値が所定の条件を満たす点の時間間
    隔で標本化することを特徴とする請求項9〜14の何れ
    か1項に記載の音声認識装置。
  16. 【請求項16】 上記オーバーサンプリング手段は、上
    記A/D変換手段より入力されるn個の離散データの値
    に応じた基本波形のデジタルデータをオーバーサンプリ
    ングと移動平均演算または畳み込み演算とにより合成す
    ることによって上記離散データに対するデジタルの補間
    値を求めることを特徴とする請求項15に記載の音声認
    識装置。
  17. 【請求項17】 音声以外のデータと、当該データに対
    応する音声信号についてあらかじめ生成された、上記音
    声信号の微分値が所定の条件を満たす標本点における振
    幅データおよび各標本点間の時間間隔を表すタイミング
    データの組とを互いに関連付けておき、所望のデータが
    指定されたときに、その指定されたデータに関連付けら
    れている上記振幅データおよびタイミングデータの組を
    用いて、上記タイミングデータによって示される時間間
    隔を有する上記振幅データの間を補間する補間データを
    求めることによって音声を合成するようにしたことを特
    徴とする音声合成方法。
  18. 【請求項18】 連続する2つの標本点における2つの
    振幅データとその間のタイミングデータとから得られる
    有限台の標本化関数を用いて、上記2つの振幅データ間
    を補間する補間データを求めることを特徴とする請求項
    17に記載の音声合成方法。
  19. 【請求項19】 音声以外のデータに対応する音声信号
    についてあらかじめ生成された、上記音声信号の微分値
    が所定の条件を満たす標本点における振幅データおよび
    各標本点間の時間間隔を表すタイミングデータの組を、
    上記音声以外のデータと互いに関連付けて記憶した記憶
    手段と、 所望のデータが指定されたときに、その指定されたデー
    タに関連付けて上記記憶手段に記憶されている上記振幅
    データおよびタイミングデータの組を用いて、上記タイ
    ミングデータによって示される時間間隔を有する上記振
    幅データの間を補間する補間データを求める補間処理手
    段と、 上記補間処理手段により求められた補間データをD/A
    変換するD/A変換手段とを備えることを特徴とする音
    声合成装置。
  20. 【請求項20】 上記記憶手段から読み出された各標本
    点間の時間間隔を表すタイミングデータに従って、各標
    本点における振幅データを上記各標本点間の時間間隔ご
    とに順次読み出すようにタイミングを制御するタイミン
    グ制御手段を備え、 上記補間処理手段は、上記タイミング制御手段の制御に
    従って読み出された連続する2つの標本点における2つ
    の振幅データおよびその間のタイミングデータを用い
    て、上記2つの振幅データの間を補間する補間データを
    求めることを特徴とする請求項19に記載の音声合成装
    置。
  21. 【請求項21】 上記補間処理手段は、上記連続する2
    つの標本点における2つの振幅データとその間のタイミ
    ングデータとから得られる有限台の標本化関数を用い
    て、上記2つの振幅データ間を補間する補間データを求
    めることを特徴とする請求項20に記載の音声合成装
    置。
  22. 【請求項22】 請求項1〜8の何れか1項に記載の音
    声認識方法の処理手順をコンピュータに実行させるため
    のプログラムを記録したことを特徴とするコンピュータ
    読み取り可能な記録媒体。
  23. 【請求項23】 請求項9〜16、19〜21の何れか
    1項に記載の各手段としてコンピュータを機能させるた
    めのプログラムを記録したことを特徴とするコンピュー
    タ読み取り可能な記録媒体。
  24. 【請求項24】 請求項17または18に記載の音声合
    成方法の処理手順をコンピュータに実行させるためのプ
    ログラムを記録したことを特徴とするコンピュータ読み
    取り可能な記録媒体。
JP2000114262A 2000-04-14 2000-04-14 音声認識方法および装置、音声合成方法および装置、記録媒体 Pending JP2001296883A (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2000114262A JP2001296883A (ja) 2000-04-14 2000-04-14 音声認識方法および装置、音声合成方法および装置、記録媒体
PCT/JP2001/003079 WO2001080222A1 (fr) 2000-04-14 2001-04-10 Procede et dispositif de reconnaissance vocale, procede et dispositif de synthese vocale, support d'enregistrement
US10/240,664 US20030093273A1 (en) 2000-04-14 2001-04-10 Speech recognition method and device, speech synthesis method and device, recording medium
KR1020027013658A KR20030003252A (ko) 2000-04-14 2001-04-10 음성 인식 방법 및 장치, 음성 합성 방법 및 장치, 기록매체
EP01919863A EP1288912A4 (en) 2000-04-14 2001-04-10 "LANGUAGE RECOGNITION PROCEDURE AND DISTRICT, LANGUAGE SYNTHESIS PROCEDURE AND RECIPIENT, RECORD MEDIUM"
CNB018080219A CN1195293C (zh) 2000-04-14 2001-04-10 声音识别方法及装置、声音合成方法及装置及记录媒体
TW090108811A TW569180B (en) 2000-04-14 2001-04-12 Speech recognition method and device, speech synthesis method and device, recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000114262A JP2001296883A (ja) 2000-04-14 2000-04-14 音声認識方法および装置、音声合成方法および装置、記録媒体

Publications (1)

Publication Number Publication Date
JP2001296883A true JP2001296883A (ja) 2001-10-26

Family

ID=18626092

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000114262A Pending JP2001296883A (ja) 2000-04-14 2000-04-14 音声認識方法および装置、音声合成方法および装置、記録媒体

Country Status (7)

Country Link
US (1) US20030093273A1 (ja)
EP (1) EP1288912A4 (ja)
JP (1) JP2001296883A (ja)
KR (1) KR20030003252A (ja)
CN (1) CN1195293C (ja)
TW (1) TW569180B (ja)
WO (1) WO2001080222A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7680667B2 (en) 2004-12-24 2010-03-16 Kabuhsiki Kaisha Toshiba Interactive robot, speech recognition method and computer program product
JP2012003162A (ja) * 2010-06-18 2012-01-05 Adtex:Kk 人工的に有声音を生成する方法および有声音生成装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI243356B (en) * 2003-05-15 2005-11-11 Mediatek Inc Method and related apparatus for determining vocal channel by occurrences frequency of zeros-crossing
CN100375996C (zh) * 2003-08-19 2008-03-19 联发科技股份有限公司 判断声音信号中是否混有低频声音信号的方法及相关装置
CN100524457C (zh) * 2004-05-31 2009-08-05 国际商业机器公司 文本至语音转换以及调整语料库的装置和方法
JP3827317B2 (ja) * 2004-06-03 2006-09-27 任天堂株式会社 コマンド処理装置
CN100349206C (zh) * 2005-09-12 2007-11-14 周运南 文字语音互转装置
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
JP2010190955A (ja) * 2009-02-16 2010-09-02 Toshiba Corp 音声合成装置、方法及びプログラム
KR101126614B1 (ko) * 2010-01-28 2012-03-26 황여실 음향신호 출력 장치
CN109731331B (zh) * 2018-12-19 2022-02-18 网易(杭州)网络有限公司 声音信息处理方法及装置、电子设备、存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4214125A (en) * 1977-01-21 1980-07-22 Forrest S. Mozer Method and apparatus for speech synthesizing
US4181813A (en) * 1978-05-08 1980-01-01 John Marley System and method for speech recognition
JPH01149099A (ja) * 1987-12-05 1989-06-12 Murakami Kogyosho:Kk 信号の識別装置
JP3776196B2 (ja) * 1997-03-05 2006-05-17 大日本印刷株式会社 音声信号の符号化方法および音声の記録再生装置
JP3958841B2 (ja) * 1997-08-29 2007-08-15 大日本印刷株式会社 音響信号の符号化方法およびコンピュータ読み取り可能な記録媒体
US6898277B1 (en) * 2001-03-05 2005-05-24 Verizon Corporate Services Group Inc. System and method for annotating recorded information from contacts to contact center
JP6077198B2 (ja) * 2011-05-11 2017-02-08 Dowaエレクトロニクス株式会社 六方晶フェライト凝集粒子

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7680667B2 (en) 2004-12-24 2010-03-16 Kabuhsiki Kaisha Toshiba Interactive robot, speech recognition method and computer program product
JP2012003162A (ja) * 2010-06-18 2012-01-05 Adtex:Kk 人工的に有声音を生成する方法および有声音生成装置

Also Published As

Publication number Publication date
CN1195293C (zh) 2005-03-30
US20030093273A1 (en) 2003-05-15
WO2001080222A1 (fr) 2001-10-25
TW569180B (en) 2004-01-01
KR20030003252A (ko) 2003-01-09
EP1288912A4 (en) 2005-09-28
CN1423809A (zh) 2003-06-11
EP1288912A1 (en) 2003-03-05

Similar Documents

Publication Publication Date Title
JP4354653B2 (ja) ピッチ追跡方法および装置
WO1993018505A1 (en) Voice transformation system
JP2001296883A (ja) 音声認識方法および装置、音声合成方法および装置、記録媒体
AU2010219353A1 (en) Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal
US20060070510A1 (en) Musical composition data creation device and method
Zhang et al. Improved modeling for F0 generation and V/U decision in HMM-based TTS
JP2020012855A (ja) テキスト表示用同期情報生成装置および方法
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
JPH0736455A (ja) 音楽イベントインデックス作成装置
US20070011001A1 (en) Apparatus for predicting the spectral information of voice signals and a method therefor
JPH11184497A (ja) 音声分析方法、音声合成方法および媒体
JPH11259066A (ja) 音楽音響信号分離方法、その装置およびそのプログラム記録媒体
JP2001136073A (ja) 圧縮方法及び装置、圧縮伸長システム、記録媒体
JP2000293188A (ja) 和音リアルタイム認識方法及び記憶媒体
JP4430174B2 (ja) 音声変換装置及び音声変換方法
Bonada et al. Spectral approach to the modeling of the singing voice
KR101650739B1 (ko) 음성 합성 방법, 서버 및 컴퓨터 판독가능 매체에 저장된 컴퓨터 프로그램
JP4221986B2 (ja) 音声認識装置
JPH0632037B2 (ja) 音声合成装置
JP3206128B2 (ja) ループ波形生成装置及びループ波形生成方法
JPH09319390A (ja) 音声合成方法及び装置
JPH11305795A (ja) 音声信号処理装置及び情報媒体
JPS63234299A (ja) 音声分析合成方式
JPS6060077B2 (ja) アナログ信号合成装置
JPH01219888A (ja) 自動採譜方法及び装置