JP2000029487A - 発音記号を用いた音声データ変換・復元装置 - Google Patents

発音記号を用いた音声データ変換・復元装置

Info

Publication number
JP2000029487A
JP2000029487A JP10192665A JP19266598A JP2000029487A JP 2000029487 A JP2000029487 A JP 2000029487A JP 10192665 A JP10192665 A JP 10192665A JP 19266598 A JP19266598 A JP 19266598A JP 2000029487 A JP2000029487 A JP 2000029487A
Authority
JP
Japan
Prior art keywords
volume
pronunciation
pitch
voice data
phonetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10192665A
Other languages
English (en)
Inventor
Fumio Tanabe
文雄 田邉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP10192665A priority Critical patent/JP2000029487A/ja
Publication of JP2000029487A publication Critical patent/JP2000029487A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声としての復元率の高い発音記号を用い、
記憶容量を削減でき、格納できる言語の種別に制限のな
い音声データ変換・復元装置を提供する。 【解決手段】 発音認識手段4は、デジタル音声データ
を発音辞書6の基本デジタル音声データと音程,音量お
よび音長を合わせてパターンマッチングすることにより
発音記号,音程,音量および音長の4つのパラメータの
並びに変換する。音声復元手段5は、発音記号,音程,
音量および音長の4つのパラメータの並びを入力し発音
記号をキーとして発音辞書6から基本デジタル音声デー
タを検索し該基本デジタル音声データの音程,音量およ
び音長を入力した音程,音量および音長に合わせてデジ
タル音声データに復元する。発音・文字変換手段7は、
発音記号の列を発音・文字変換辞書8を参照して文字コ
ード列に変換するとともに、文字コード列を発音・文字
変換辞書8を参照して発音記号列に変換する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声データ変換・復
元装置に関し、特に発音記号を用いた音声データ変換・
復元装置に関する。
【0002】
【従来の技術】音声(人間が発生器官を通じて発する言
語音)を記録し、またそれを参照するために、音声デー
タの記憶方法が用いられている。従来の音声データの記
憶方法は、その用途により大きく2つの形式に分類され
る。
【0003】1つは、音声をデジタル音声データ(デジ
タル波形データ)として記憶する方法である。これは、
音声に限らず、人間の可聴範囲の音波を記憶する方法と
してごく一般的に使用されており、音声をデジタル音声
データに変換する音声入力装置と、音声入力装置で変換
されたデジタル音声データを格納する記憶装置と、記憶
装置に格納されたデジタル音声データを音声に変換して
出力する音声出力装置とから構成されている。記憶装置
では、入力されたデジタル音声データをそのまま格納す
ると記憶容量がかさむために、様々な手法を用いてデジ
タル音声データを圧縮して格納し、格納された圧縮デー
タを伸張(解凍)して出力することがある。この方法
は、記憶したデジタル音声データを人間がその耳で再度
聴くことができることに重点におかれている。
【0004】もう1つは、音声内の言葉を既存の文字コ
ードにコード化して記憶する方法である。これは、音声
をデジタル音声データに変換する音声入力装置と、音声
入力装置で変換されたデジタル音声データを文字コード
に変換する音声認識手段と、音声認識手段により変換さ
れた文字コードを格納する記憶装置と、記憶装置に格納
された文字コードを再びデジタル音声データに復元する
音声データ復元手段と、音声データ復元手段により復元
されたデジタル音声データを音声として出力する音声出
力装置とから構成されている。この方法は、文字コード
化したデータをコンピュータで一般に使用されるテキス
トデータとして扱い、言葉としての意味を利用すること
に重点がおかれている(例えば、特開昭62−2359
93号公報,特開平9−281993号公報等参照)。
【0005】
【発明が解決しようとする課題】従来のデジタル音声デ
ータをそのまま格納する方法の場合、第1の問題点は、
そのデータを記憶するのに容量がかさむことである。そ
の理由は、デジタル音声データはその可聴性を高めるた
めにより多くの分割数を以てサンプリングを行わなけれ
ばならないためである。
【0006】第2の問題点は、音声をコンピュータシス
テムが理解できるようにするには、この方法とは別に音
声認識手段を置かなくてはならないことである。その理
由は、デジタル音声データそのものには人間の言葉とし
ての意味を直截的に持つものがないためである。
【0007】一方、従来の文字コード化したデータを格
納する方法の場合、第1の問題点は、格納したデータを
デジタル音声データとして再度出力するときに音声(波
形)としての情報復元率がほぼ無いに等しいことであ
る。その理由は、文字コード化するときに文字情報以外
の情報を削除するためである。
【0008】第2の問題点は、格納できない言葉がある
ことである。その理由は、たとえば音声認識手段で扱う
ことのできる言語以外の言語を入力した場合などに、音
声認識手段はこれをエラーとして捨ててしまうからであ
る。
【0009】本発明の第1の目的は、音声としての復元
率の高い発音記号を用いた音声データ変換・復元装置を
提供することにある。
【0010】本発明第2の目的は、記憶容量を削減でき
る発音記号を用いた音声データ変換・復元装置を提供す
ることにある。
【0011】本発明の第3の目的は、格納できる言語の
種別に制限のない発音記号を用いた音声データ変換・復
元装置を提供することにある。
【0012】
【課題を解決するための手段】本発明の発音記号を用い
た音声データ変換・復元装置は、デジタル音声データを
発音記号,音程,音量および音長の4つのパラメータの
並びに変換する発音認識手段と、発音記号,音程,音量
および音長の4つのパラメータの並びをデジタル音声デ
ータに復元する音声復元手段とを有する。
【0013】また、本発明の発音記号を用いた音声デー
タ変換・復元装置は、発音記号と基本デジタル音声デー
タとを対応して格納する発音辞書と、デジタル音声デー
タを前記発音辞書の基本デジタル音声データと音程,音
量および音長を合わせてパターンマッチングすることに
より発音記号,音程,音量および音長の4つのパラメー
タの並びに変換する発音認識手段と、発音記号,音程,
音量および音長の4つのパラメータの並びを前記発音記
号をキーとして前記発音辞書から基本デジタル音声デー
タを検索し該基本デジタル音声データの音程,音量およ
び音長を前記音程,前記音量および前記音長に合わせる
ことによりデジタル音声データに復元する音声復元手段
とを有する。
【0014】さらに、本発明の発音記号を用いた音声デ
ータ変換・復元装置は、発音記号と基本デジタル音声デ
ータとを対応して格納する発音辞書と、発音記号列と1
つ以上の文字コード列とを対応して格納する発音・文字
変換辞書と、デジタル音声データを前記発音辞書の基本
デジタル音声データと音程,音量および音長を合わせて
パターンマッチングすることにより発音記号,音程,音
量および音長の4つのパラメータの並びに変換する発音
認識手段と、発音記号,音程,音量および音長の4つの
パラメータの並びを前記発音記号をキーとして前記発音
辞書から基本デジタル音声データを検索し該基本デジタ
ル音声データの音程,音量および音長を前記音程,前記
音量および前記音長に合わせることによりデジタル音声
データに復元する音声復元手段と、前記発音記号の列を
前記発音・文字変換辞書を参照して文字コード列に変換
するとともに、文字コード列を前記発音・文字変換辞書
を参照して発音記号列に変換する発音・文字変換手段と
を有する。
【0015】さらにまた、本発明の発音記号を用いた音
声データ変換・復元方法は、デジタル音声データを発音
記号,音程,音量および音長の4つのパラメータの並び
に変換する発音認識工程と、発音記号,音程,音量およ
び音長の4つのパラメータの並びをデジタル音声データ
に復元する音声復元工程とを含む。
【0016】一方、本発明の記録媒体は、コンピュータ
を、デジタル音声データを発音記号,音程,音量および
音長の4つのパラメータの並びに変換する発音認識手
段,ならびに発音記号,音程,音量および音長の4つの
パラメータの並びをデジタル音声データに復元する音声
復元手段として機能させるためのプログラムを記録す
る。
【0017】また、本発明の記録媒体は、コンピュータ
を、発音記号と基本デジタル音声データとを対応して格
納する発音辞書,デジタル音声データを前記発音辞書の
基本デジタル音声データと音程,音量および音長を合わ
せてパターンマッチングすることにより発音記号,音
程,音量および音長の4つのパラメータの並びに変換す
る発音認識手段,ならびに発音記号,音程,音量および
音長の4つのパラメータの並びを前記発音記号をキーと
して前記発音辞書から基本デジタル音声データを検索し
該基本デジタル音声データの音程,音量および音長を前
記音程,前記音量および前記音長に合わせることにより
デジタル音声データに復元する音声復元手段として機能
させるためのプログラムを記録する。
【0018】さらに、本発明の記録媒体は、コンピュー
タを、発音記号と基本デジタル音声データとを対応して
格納する発音辞書,発音記号列と1つ以上の文字コード
列とを対応して格納する発音・文字変換辞書,デジタル
音声データを前記発音辞書の基本デジタル音声データと
音程,音量および音長を合わせてパターンマッチングす
ることにより発音記号,音程,音量および音長の4つの
パラメータの並びに変換する発音認識手段,発音記号,
音程,音量および音長の4つのパラメータの並びを前記
発音記号をキーとして前記発音辞書から基本デジタル音
声データを検索し該基本デジタル音声データの音程,音
量および音長を前記音程,前記音量および前記音長に合
わせることによりデジタル音声データに復元する音声復
元手段,ならびに前記発音記号の列を前記発音・文字変
換辞書を参照して文字コード列に変換するとともに、文
字コード列を前記発音・文字変換辞書を参照して発音記
号列に変換する発音・文字変換手段として機能させるた
めのプログラムを記録する。
【0019】さらにまた、本発明の記録媒体は、コンピ
ュータに、デジタル音声データを発音記号,音程,音量
および音長の4つのパラメータの並びに変換する発音認
識工程,ならびに発音記号,音程,音量および音長の4
つのパラメータの並びをデジタル音声データに復元する
音声復元工程を実行させるためのプログラムを記録す
る。
【0020】本発明の発音記号を用いた音声データ変換
・復元装置では、発音記号,音程,音量および音長から
なる4つのパラメータは、1つの音素(言語で用いる音
を弁別機能の見地から分析・規定した最小単位)に対し
て各8ビット、全体として32ビット程度の容量を必要
とする。ここで、従来のデジタル音声データそのものを
記憶するタイプのものを11キロヘルツ8ビットのデー
タ化性能とすると、1秒間に11025オクテット=8
8200ビットの容量が必要である。通常の日本語会話
で1秒間に4個の仮名が発生されると仮定し、かつ1個
の仮名が1個の子音と1個の母音、つまり2個の音素か
らなると仮定した場合には、本発明の発音記号を用いた
音声データ変換・復元装置では、わずかに8*32=2
56ビットの容量しか必要としない。単純計算でも30
0倍以上の容量圧縮率が達成され、なおかつ言葉として
の情報を保持できる。
【0021】また、本発明の発音記号を用いた音声デー
タ変換・復元装置では、世界の諸言語を表現するための
記号である発音記号を利用しており、現在一般のコンピ
ュータシステムでサポートする言語以外の世界各地の諸
言語についても表現が可能である。
【0022】さらに、本発明の発音記号を用いた音声デ
ータ変換・復元装置では、パラメータとして発音記号の
ほかに、音程,音量および音長を用いることで、より入
力音声に近い音声の再現を可能にしている。
【0023】
【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して詳細に説明する。
【0024】図1は、本発明の第1の実施の形態に係る
発音記号を用いた音声データ変換・復元装置10の構成
を示すブロック図である。本実施の形態に係る発音記号
を用いた音声データ変換・復元装置10は、音声入力装
置1,音声出力装置2および補助記憶装置3に接続され
ており、発音認識手段4と、音声復元手段5と、発音辞
書6と、発音・文字変換手段7と、発音・文字変換辞書
8とから構成されている。
【0025】音声入力装置1は、マイク,アナログ−デ
ジタル変換回路などの電気回路から構成されており、ア
ナログ波形である音声を入力してデジタル信号化しかつ
雑音成分などを取り除いてデジタル音声データとして出
力する。
【0026】音声出力装置2は、デジタル−アナログ変
換回路,スピーカなどの電気回路から構成されており、
デジタル音声データを入力し人間が聞くことができる音
声に変換して出力する。
【0027】補助記憶装置3は、ハードディスク装置,
光ディスク装置,磁気テープ装置等からなり、発音記
号,音程,音量および音長の4つのパラメータの並びを
時系列的に格納する。
【0028】図2を参照すると、発音辞書6は、発音記
号と基本デジタル音声データとを対応してあらかじめ格
納しており、発音認識手段4の変換処理および音声復元
手段5の変換処理の参照データとして利用される。
【0029】図3を参照すると、発音・文字変換辞書8
は、発音記号列と1つ以上の文字コード列とを対応して
あらかじめ格納しており、発音・文字変換手段7の変換
処理の参照データとして利用される。
【0030】発音認識手段4は、音声入力装置1により
入力されたデジタル音声データを分析して、発音記号,
音程,音量および音長の4つのパラメータの時系列の並
びに変換して出力する。
【0031】発音記号は、国際音声記号によって表現す
るものである。国際的な機関である国際音声学協会(I
nternational Phonetic Ass
ociation)によって定められている国際音声記
号(International Phonetic
Alphabet)は100種類強であり、これを数値
化すると8ビットの情報容量があれば表現が可能であ
る。
【0032】音程は、デジタル音声データの周波数成分
のうち一番強いものを値とし、最低8ビットで表現す
る。これは、デジタル音楽を記述できる国際的なMID
I(Musical Instrument Digi
tal Interface)規格で使用されている音
程が半音の分解能で0から127の値、つまり7ビット
で表現できる値で表現されており、この上限下限の範囲
は人間の発する音声の音程を充分網羅できるからであ
る。
【0033】音量は、デジタル音声データの振幅値より
取得し、8ビットの数値で表現する。これは、現在コン
ピュータで一般的に使用されている、音の入出力を制御
できる範囲の値である。
【0034】音長は、パターンマッチングにより取得
し、10ミリ秒(ms)の単位の値として8ビットで表
現する。
【0035】図4を参照すると、発音認識手段4の処理
は、デジタル音声データ入力ステップS101と、基本
デジタル音声データ取り出しステップS102と、音程
合致ステップS103と、音量合致ステップS104
と、音長合致ステップS105と、基本デジタル音声デ
ータ/デジタル音声データ類似度比較ステップS106
と、発音記号特定ステップS107と、発音記号,音
程,音量,音長出力ステップS108とからなる。
【0036】音声復元手段5は、発音記号,音程,音量
および音長の4つのパラメータの時系列の並びをデジタ
ル音声データに変換して出力する。
【0037】図5を参照すると、音声復元手段5の処理
は、発音記号,音程,音量,音長入力ステップS201
と、基本デジタル音声データ探索ステップS202と、
音程合致ステップS203と、音量合致ステップS20
4と、音長合致ステップS205と、音声データ出力ス
テップS206とからなる。
【0038】発音・文字変換手段7は、発音記号の列を
発音・文字変換辞書8を参照して一般的にコンピュータ
システムで利用される文字コード列に変換するととも
に、文字コード列を発音・文字変換辞書8を参照して発
音記号列に変換する。
【0039】次に、このように構成された第1の実施の
形態に係る発音記号を用いた音声データ変換・復元装置
の動作について説明する。
【0040】音声入力装置1は、音声をデジタル音声デ
ータに変換する。一般的に、11キロヘルツ8ビットの
分解能があれば再生したときに音声として認識が可能で
あり、ここでは11キロヘルツ8ビット以上の分解能の
デジタル音声データとする。ここで生成されたデジタル
音声データは、そのまま音声出力装置2に与えて出力す
ることもできるし、補助記憶装置3に記憶して他のアプ
リケーションプログラムに渡すことも可能である。
【0041】次に、発音認識手段4は、音声入力装置1
からのデジタル音声データを入力する(ステップS10
1)。
【0042】続いて、発音認識手段4は、発音辞書6内
に格納されている基本デジタル音声データの1つを取り
出し(ステップS102)、基本デジタル音声データの
音程をデジタル音声データの音程と合わせる(ステップ
S103)。
【0043】次に、発音認識手段4は、基本デジタル音
声データの音量をデジタル音声データの音量と合わせる
(ステップS104)。
【0044】続いて、発音認識手段4は、基本デジタル
音声データの音長をデジタル音声データの音長と合わせ
る(ステップS105)。
【0045】そして、発音認識手段4は、基本デジタル
音声データとデジタル音声データとのパターンマッチン
グを行って比較することにより、両者の類似度を判定す
る(ステップS107)。なお、パターンマッチングに
は、動的計画法,隠れマルコフモデル法等の公知の手法
を用いることができる。
【0046】基本デジタル音声データとデジタル音声デ
ータとの類似度が所定値以下であれば(両者が似ていな
ければ)、発音認識手段4は、ステップS102に制御
を戻して、ステップS102〜S106を繰り返す。
【0047】基本デジタル音声データとデジタル音声デ
ータとの類似度が所定値以上であれば(両者が似ていれ
ば)、発音認識手段4は、この基本デジタル音声データ
の発音記号を発音記号とし(ステップS107)、発音
記号,音程,音量および音長の4つのパラメータを出力
する(ステップS108)。
【0048】以上により、発音認識手段4は、音素とし
て発音記号,音程,音量および音長の4つのパラメータ
を各8ビット、合計32ビットのデータ並びとして出力
する。出力されたデータ並びは、そのまま音声復元手段
5に与えてデジタル音声データとして復元することもで
きるし、補助記憶装置3に格納して他のアプリケーショ
ンソフトウェアに渡すこともできる。さらに、このデー
タ並びを発音・文字変換手段7に与えて、既存のコンピ
ュータシステムの文字列に変換することもできる。
【0049】発音・文字変換手段7は、発音認識手段4
によって出力された発音記号,音程,音量および音長の
4つのパラメータのうちの発音記号を時系列順に並べた
もの(発音記号列)を発音・文字変換辞書8を参照して
該当する文字コード列に変換する。また、発音・文字変
換手段7は、既存のコンピュータシステムから入力され
た文字コード列を発音・文字変換辞書8を参照して該当
する発音記号列に変換する。
【0050】音声復元手段5は、発音認識手段4によっ
て出力された、あるいは補助記憶装置3から読み出され
た発音記号,音程,音量および音長の4つのパラメータ
の並びを入力する(ステップS201)。
【0051】次に、音声復元手段5は、発音記号を元に
発音辞書6から基本デジタル音声データを探す(ステッ
プS202)。
【0052】続いて、音声復元手段5は、基本デジタル
音声データの音程を入力された音程に合わせる(ステッ
プS203)。
【0053】次に、音声復元手段5は、基本デジタル音
声データの音量を入力された音量に合わせる(ステップ
S204)。
【0054】続いて、音声復元手段5は、基本デジタル
音声データの音長を、入力された音長に合わせる(ステ
ップS205)。
【0055】最後に、音声復元手段5は、基本デジタル
音声データをデジタル音声データとして出力する(ステ
ップS206)。
【0056】音声出力装置2は、補助記憶装置3あるい
は音声復元手段5から出力されたデジタル音声データを
入力して、これを人間の聴くことのできる音声に変換し
出力する。
【0057】ここで、具体例について説明する。
【0058】音声入力装置1に対しておよそ0.6秒の
時間でC5(880ヘルツ)の音程で「タッチ」という
音声を発すると、まず、音声入力装置1は、これを11
キロヘルツの8ビットの分解能を持った約6600ビッ
トのデジタル音声データを出力する。
【0059】発音認識手段4は、このデジタル音声デー
タを入力して分析し、4つの発音記号(実際は数値)
t,Λ,t,∫を得る。この際、音程,音量および音長
の各パラメータは、図6に記述されるような内容として
分析されたことにする。そして、発音認識手段4は、発
音記号,音程,音量および音長の4つのパラメータの並
び(32ビット)を、さらに発音記号の数である4つ組
み合わせて128ビットのデータ並びとして出力する。
このデータ並びは、補助記憶装置3に格納してもよい
し、発音・文字変換手段7の入力としてもよい。
【0060】いま、このデータ並びをコンピュータシス
テム上のテキストに変換するために発音・文字変換手段
7の入力とすることにする。発音・文字変換手段7は、
入力された4つのパラメータの並びのうちの発音記号の
列t,Λ,t,∫を発音・文字変換辞書8の発音記号列
と照合する。この際、図7のような項目を見つけて文字
列touchおよび文字列タッチが適合したとすると、
発音・文字変換手段7は、文字列touchまたは文字
列タッチを出力する。
【0061】発音認識手段4が生成した図6の4つのパ
ラメータの時系列の並びを入力した場合、音声復元手段
5は、発音辞書6に格納されている発音記号tの項を参
照し復元のもとになる基本デジタル音声データを得る。
この基本デジタル音声データに対して残りのパラメータ
である音長,音程および音量を用いて変調を加え、新た
なデジタル音声データを出力する。残った発音記号Λ,
t,∫についてもそれぞれ同様な処理を繰り返してデジ
タル音声データを順次出力する。この出力は、補助記憶
装置3に与えてもよいし、音声出力装置2に与えてもよ
い。
【0062】音声出力装置2は、音声復元手段5が生成
したデジタル音声データを順次入力し、アナログ音声に
変換して出力する。
【0063】次に、本発明の第2の実施の形態について
図面を参照して説明する。
【0064】図8を参照すると、本発明の第2の実施の
形態に係る発音記号を用いた音声データ変換・復元装置
は、図1に示した第1の実施の形態に係る発音記号を用
いた音声データ変換・復元装置10となるデータ処理装
置11に対して、音声データ変換・復元プログラムを記
録した記録媒体12を備える点だけが異なっている。こ
の記録媒体12は、磁気ディスク,半導体メモリ,その
他の記録媒体であってよい。
【0065】このような第2の実施の形態に係る発音記
号を用いた音声データ変換・復元装置では、音声データ
変換・復元プログラムは記録媒体12からデータ処理装
置11に読み込まれ、データ処理装置11の動作を発音
認識手段4,音声復元手段5,発音辞書6,発音・文字
変換手段7および発音・文字変換辞書8として制御す
る。音声データ変換・復元プログラムの制御によるデー
タ処理装置11の動作は、第1の実施の形態に係る発音
記号を用いた音声データ変換・復元装置10の動作と全
く同様になるので、その詳しい説明を割愛する。
【0066】
【発明の効果】第1の効果は、従来のデジタル音声デー
タそのものを記憶する形式の方法に比べて必要容量を削
減することができることにある。この結果、コンピュー
タシステムの利用者が用意する資源を節約することがで
きるし、またコンピュータシステム間の通信などにおい
ても無駄のないデータ転送が可能になる。その理由は、
デジタル音声データを、言葉の情報として最低限必要な
発音記号と、音声の情報として最低限必要な音程,音量
および音長とからなるパラメータに変換し、他の不要情
報を捨てたためである。
【0067】第2の効果は、既存のコンピュータシステ
ムでサポートする言語以外の世界各地の諸言語について
も音声データを格納できることにある。その理由は、世
界の諸言語を表現することのできる発音記号をパラメー
タとして持っているからである。
【0068】第3の効果は、音声の復元率が高いことに
ある。この結果、現在の音声合成システムのような固定
的な声やロボットのような声でなく、入力したときの音
声に似通った音声を得ることができる。その理由は、発
音記号のほかに、音程,音量および音長をパラメータと
してともに格納しているためである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る発音記号を用
いた音声データ変換・復元装置の構成を示すブロック図
である。
【図2】図1中の発音辞書の内容を例示する図である。
【図3】図1中の発音・文字変換辞書の内容を例示する
図である。
【図4】図1中の発音認識手段の処理を示すフローチャ
ートである。
【図5】図1中の音声復元手段の処理を示すフローチャ
ートである。
【図6】図1中の発音認識手段によって出力された4つ
のパラメータの並びの例を示す図である。
【図7】図1中の発音・文字変換辞書の内容例を示す図
である。
【図8】本発明の第2の実施の形態に係る発音記号を用
いた音声データ変換・復元装置の構成を示すブロック図
である。
【符号の説明】
1 音声入力装置 2 音声出力装置 3 補助記憶装置 4 発音認識手段 5 音声復元手段 6 発音辞書 7 発音・文字変換手段 8 発音・文字変換辞書 10 音声データ変換・復元装置 11 データ処理装置 12 記録媒体 S101 デジタル音声データ入力ステップ S102 基本デジタル音声データ取り出しステップ S103 音程合致ステップ S104 音量合致ステップ S105 音長合致ステップ S106 基本デジタル音声データ/デジタル音声デー
タ類似度比較ステップ S107 発音記号特定ステップ S108 発音記号,音程,音量,音長出力ステップ S201 発音記号,音程,音量,音長入力ステップ S202 基本デジタル音声データ探索ステップ S203 音程合致ステップ S204 音量合致ステップ S205 音長合致ステップ S206 音声データ出力ステップ
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 9/00 301A

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 デジタル音声データを発音記号,音程,
    音量および音長の4つのパラメータの並びに変換する発
    音認識手段と、発音記号,音程,音量および音長の4つ
    のパラメータの並びをデジタル音声データに復元する音
    声復元手段とを有することを特徴とする発音記号を用い
    た音声データ変換・復元装置。
  2. 【請求項2】 発音記号と基本デジタル音声データとを
    対応して格納する発音辞書と、デジタル音声データを前
    記発音辞書の基本デジタル音声データと音程,音量およ
    び音長を合わせてパターンマッチングすることにより発
    音記号,音程,音量および音長の4つのパラメータの並
    びに変換する発音認識手段と、発音記号,音程,音量お
    よび音長の4つのパラメータの並びを前記発音記号をキ
    ーとして前記発音辞書から基本デジタル音声データを検
    索し該基本デジタル音声データの音程,音量および音長
    を前記音程,前記音量および前記音長に合わせることに
    よりデジタル音声データに復元する音声復元手段とを有
    することを特徴とする発音記号を用いた音声データ変換
    ・復元装置。
  3. 【請求項3】 発音記号と基本デジタル音声データとを
    対応して格納する発音辞書と、発音記号列と1つ以上の
    文字コード列とを対応して格納する発音・文字変換辞書
    と、デジタル音声データを前記発音辞書の基本デジタル
    音声データと音程,音量および音長を合わせてパターン
    マッチングすることにより発音記号,音程,音量および
    音長の4つのパラメータの並びに変換する発音認識手段
    と、発音記号,音程,音量および音長の4つのパラメー
    タの並びを前記発音記号をキーとして前記発音辞書から
    基本デジタル音声データを検索し該基本デジタル音声デ
    ータの音程,音量および音長を前記音程,前記音量およ
    び前記音長に合わせることによりデジタル音声データに
    復元する音声復元手段と、前記発音記号の列を前記発音
    ・文字変換辞書を参照して文字コード列に変換するとと
    もに、文字コード列を前記発音・文字変換辞書を参照し
    て発音記号列に変換する発音・文字変換手段とを有する
    ことを特徴とする発音記号を用いた音声データ変換・復
    元装置。
  4. 【請求項4】 発音記号,音程,音量および音長を各8
    ビット、合計32ビットでパラメータ化する請求項1な
    いし3記載の発音記号を用いた音声データ変換・復元装
    置。
  5. 【請求項5】 デジタル音声データを発音記号,音程,
    音量および音長の4つのパラメータの並びに変換する発
    音認識工程と、発音記号,音程,音量および音長の4つ
    のパラメータの並びをデジタル音声データに復元する音
    声復元工程とを含むことを特徴とする発音記号を用いた
    音声データ変換・復元方法。
  6. 【請求項6】 コンピュータを、デジタル音声データを
    発音記号,音程,音量および音長の4つのパラメータの
    並びに変換する発音認識手段,ならびに発音記号,音
    程,音量および音長の4つのパラメータの並びをデジタ
    ル音声データに復元する音声復元手段として機能させる
    ためのプログラムを記録した記録媒体。
  7. 【請求項7】 コンピュータを、発音記号と基本デジタ
    ル音声データとを対応して格納する発音辞書,デジタル
    音声データを前記発音辞書の基本デジタル音声データと
    音程,音量および音長を合わせてパターンマッチングす
    ることにより発音記号,音程,音量および音長の4つの
    パラメータの並びに変換する発音認識手段,ならびに発
    音記号,音程,音量および音長の4つのパラメータの並
    びを前記発音記号をキーとして前記発音辞書から基本デ
    ジタル音声データを検索し該基本デジタル音声データの
    音程,音量および音長を前記音程,前記音量および前記
    音長に合わせることによりデジタル音声データに復元す
    る音声復元手段として機能させるためのプログラムを記
    録した記録媒体。
  8. 【請求項8】 コンピュータを、発音記号と基本デジタ
    ル音声データとを対応して格納する発音辞書,発音記号
    列と1つ以上の文字コード列とを対応して格納する発音
    ・文字変換辞書,デジタル音声データを前記発音辞書の
    基本デジタル音声データと音程,音量および音長を合わ
    せてパターンマッチングすることにより発音記号,音
    程,音量および音長の4つのパラメータの並びに変換す
    る発音認識手段,発音記号,音程,音量および音長の4
    つのパラメータの並びを前記発音記号をキーとして前記
    発音辞書から基本デジタル音声データを検索し該基本デ
    ジタル音声データの音程,音量および音長を前記音程,
    前記音量および前記音長に合わせることによりデジタル
    音声データに復元する音声復元手段,ならびに前記発音
    記号の列を前記発音・文字変換辞書を参照して文字コー
    ド列に変換するとともに、文字コード列を前記発音・文
    字変換辞書を参照して発音記号列に変換する発音・文字
    変換手段として機能させるためのプログラムを記録した
    記録媒体。
  9. 【請求項9】 コンピュータに、デジタル音声データを
    発音記号,音程,音量および音長の4つのパラメータの
    並びに変換する発音認識工程,ならびに発音記号,音
    程,音量および音長の4つのパラメータの並びをデジタ
    ル音声データに復元する音声復元工程を実行させるため
    のプログラムを記録した記録媒体。
JP10192665A 1998-07-08 1998-07-08 発音記号を用いた音声データ変換・復元装置 Pending JP2000029487A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10192665A JP2000029487A (ja) 1998-07-08 1998-07-08 発音記号を用いた音声データ変換・復元装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10192665A JP2000029487A (ja) 1998-07-08 1998-07-08 発音記号を用いた音声データ変換・復元装置

Publications (1)

Publication Number Publication Date
JP2000029487A true JP2000029487A (ja) 2000-01-28

Family

ID=16295017

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10192665A Pending JP2000029487A (ja) 1998-07-08 1998-07-08 発音記号を用いた音声データ変換・復元装置

Country Status (1)

Country Link
JP (1) JP2000029487A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012074070A1 (ja) * 2010-12-01 2012-06-07 ヤマハ株式会社 リズムパターンの類似度に基づく楽音データの検索

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012074070A1 (ja) * 2010-12-01 2012-06-07 ヤマハ株式会社 リズムパターンの類似度に基づく楽音データの検索
CN102640211A (zh) * 2010-12-01 2012-08-15 雅马哈株式会社 根据与节奏模式的相似度搜索乐音数据组
US9053696B2 (en) 2010-12-01 2015-06-09 Yamaha Corporation Searching for a tone data set based on a degree of similarity to a rhythm pattern

Similar Documents

Publication Publication Date Title
Rudnicky et al. Survey of current speech technology
US20040073428A1 (en) Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database
US6119086A (en) Speech coding via speech recognition and synthesis based on pre-enrolled phonetic tokens
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
WO2004036939A1 (fr) Appareil de communication mobile numerique portable, procede de commande vocale et systeme
JPH10501078A (ja) 音声認識システムの言語モデルのサイズを適応させるための方法および装置
EP1668628A1 (en) Method for synthesizing speech
JP3459712B2 (ja) 音声認識方法及び装置及びコンピュータ制御装置
JP2003022089A (ja) オーディオ専用インターフェースにおけるボイス・スペリング
Lee et al. Voice response systems
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
JPH0573100A (ja) 音声合成方法及びその装置
JP2003036097A (ja) 情報検出装置及び方法、並びに情報検索装置及び方法
JPS5827200A (ja) 音声認識装置
US5706398A (en) Method and apparatus for compressing and decompressing voice signals, that includes a predetermined set of syllabic sounds capable of representing all possible syllabic sounds
JP2000029487A (ja) 発音記号を用いた音声データ変換・復元装置
JPH0950288A (ja) 音声認識装置及び音声認識方法
JP2820093B2 (ja) 単音節認識装置
JPH01202798A (ja) 音声認識方法
CA2597826C (en) Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance
JPH10133678A (ja) 音声再生装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
JP3503862B2 (ja) 音声認識方法及び音声認識プログラムを格納した記録媒体
AU674246B2 (en) Synthesising speech by converting phonemes to digital waveforms
JPS62119591A (ja) 文章読上げ装置