JP2008070564A

JP2008070564A - 音声強調装置、音声登録装置、音声強調プログラム、音声登録プログラム、音声強調方法および音声登録方法

Info

Publication number: JP2008070564A
Application number: JP2006248587A
Authority: JP
Inventors: Chikako Matsumoto; 智佳子松本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-09-13
Filing date: 2006-09-13
Publication date: 2008-03-27
Anticipated expiration: 2026-09-13
Also published as: US20080065381A1; EP1901286A3; CN101145346A; EP1901286B1; EP1901286A2; US8190432B2; CN101145346B; JP4946293B2

Abstract

【課題】再生される音声において、破裂部の有無、破裂部に続く帯気部の音素長などの破裂音に係る問題箇所、あるいは摩擦音の振幅変動等に係る問題箇所を自動的に検出して自動修正する。
【解決手段】本発明の音声強調装置は、子音や無声母音が不明瞭であったり、耳障りであったりする音声を入力として、該音声強調装置において、音声を音素に分解し、各音素を無声破裂音、有声破裂音、無声摩擦音、有声摩擦音、破擦音、無声母音のいずれかに分類し、各音素の修正の必要性の判定に応じて各音素を修正することによって、子音や無声母音が明瞭で、耳障りのないクリアな音声の出力が得られるようにした。
【選択図】図１

Description

本発明は、入力された音声データの不明瞭部分を修正して出力する音声強調装置、音声登録装置、音声強調プログラム、音声登録プログラム、音声強調方法および音声登録方法に関し、特に、破裂部の有無、破裂部に続く帯気部の音素長などの破裂音に係る問題箇所、あるいは摩擦音の振幅変動等に係る問題箇所を自動的に検出して自動修正することを可能とする音声強調装置、音声登録装置、音声強調プログラム、音声登録プログラム、音声強調方法および音声登録方法に関する。

人間の声を含む音声を収録した音声データは、容易に複製可能であることから、何度も再利用されることが一般的である。特に、インターネットにおけるポッドキャスティングのように、音声をデジタル録音した音声データは、再配布が容易であるために、再利用される機会が多い。

しかし、人間の声は、常に明瞭に発声されるものとは限らないため、例えば、カ行やサ行の音量が他に比べて大きかったり、リップノイズが混ざって非常に聞きづらかったりする場合がある。また、複製して再配布が容易であるため、ダウンサンプリングやエンコード・デコードの繰り返しによって、子音部分が不明瞭になってしまう場合もある。子音部分が不明瞭となることが、再生された音声データを聞き取りづらくする大きな原因となっている。

しかし、子音が不明瞭であったりリップノイズが混ざっていたりしても、再収録は工数がかかるために、収録音声のまま配布されることが多い。また、ダウンサンプリングやエンコード・デコードの繰り返しによって、子音部分が不明瞭になってしまった場合も、複製による音質劣化として受忍しなければならない。

そこで、音声データを聞き取りやすく再生するために、収録音声データの問題箇所を自動検出し、自動修正する種々の技術が考案されてきた。例えば、音声の子音部分の明瞭度を向上させる技術として、音声に含まれる雑音周波数成分をローパスフィルタによってカットして音声帯域を聞きやすくする技術がある。

また、特許文献１には、音声の子音部分を強調する方法として、ケプストラムのピッチによって検出された子音部分を、該ケプストラムに制御関数を畳み込むことによって該ケプストラムのピッチが短くなるように制御することによって強調する子音強調方法が開示されている。

また、特許文献２には、音韻情報に基づき、子音部分の帯域強調、もしくは子音あるいは子音とそれに続く母音への連続部分の振幅強調処理を行う音声合成装置が開示されている。さらに、特許文献３には、無声子音の特徴を示すスペクトル特性を伝達関数とするフィルタを構成し、音素のスペクトル分布に対してフィルタ処理を施すことによって、スペクトル分布の特徴を強調する音声合成装置が開示されている。

特開平８−２７５０８７号公報特開２００４−４９５２号公報特開２００３−３４５３７３号公報

しかしながら、音声の明瞭度が低い音や耳障りな音が子音や無声母音にある場合には、破裂部の有無、破裂部に続く帯気部の音素長などの破裂音に起因する問題、あるいは摩擦音の振幅変動等に起因する問題であることが多い。このため、上記特許文献１〜３に代表される従来技術では、子音または有声母音を検出して修正することは可能であるが、音素をさらに分割して破裂音に係る問題箇所、あるいは摩擦音の振幅変動等に係る問題箇所を検出して修正することはできなかった。また、元音声の子音部分を強調するだけでは、元の音声自体に問題がある場合、問題箇所も強調してしまい、さらに音声を聞き取りづらくしてしまうという問題点もあった。

本発明は、上記問題点（課題）を解消するためになされたものであって、再生される音声において、破裂部の有無、破裂部に続く帯気部の音素長などの破裂音に係る問題箇所、あるいは摩擦音の振幅変動等に係る問題箇所を自動的に検出して自動修正することを可能とする音声強調装置、音声登録装置、音声強調プログラム、音声登録プログラム、音声強調方法および音声登録方法を提供することを目的とする。

上述した問題を解決し、目的を達成するため、本発明は、入力された音声データの不明瞭部分を修正して出力する音声強調装置であって、前記音声データを音素に分解する音素境界情報とともに入力された該音声データの波形特徴量を該音素毎に算出する波形特徴量算出手段と、前記波形特徴量算出手段によって算出された前記波形特徴量に基づいて前記音素毎に前記音声データの修正の必要性を判定する修正判定手段と、前記修正判定手段によって修正の必要性があると判定された前記音素毎の音声データを、音素別波形データ記憶手段に予め記憶されている波形データを用いて修正する波形修正手段とを備えたことを特徴とする。

また、本発明は、上記発明において、前記音声データの有声／無声の区切りを判定して有声／無声境界情報を前記音素境界情報として出力する有声／無声境界情報出力手段をさらに備え、前記波形特徴量算出手段は、前記有声／無声境界情報出力手段によって出力された前記有声／無声境界情報とともに入力された前記音声データの波形特徴量を前記音素毎に算出することを特徴とする。

また、本発明は、上記発明において、前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力手段をさらに備え、前記波形特徴量算出手段は、前記音素識別情報出力手段によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を前記音素毎に算出することを特徴とする。

また、本発明は、上記発明において、前記波形特徴量算出手段は、前記入力された音声データを、前記音素境界情報に基づいて前記音素に分割する音声データ分割手段と、前記音声データ分割手段によって分割された前記音素に基づいて該音素の振幅値、振幅変動率および周期性波形の有無を測定する振幅変動測定手段と、前記振幅変動測定手段によって測定された前記振幅値および前記振幅変動率と、前記音声データ分割手段によって分割された前記音素とに基づいて該音素の破裂部および帯気部を検出する破裂部／帯気部検出手段と、前記破裂部／帯気部検出手段による検出結果と、前記振幅変動測定手段によって測定された前記振幅値、前記振幅変動率および前記周期性波形とに基づいて前記音素の音素種別を分類する音素分類手段と、前記音素分類手段によって分類された前記音素それぞれに特徴量を算出する音素別特徴量算出手段とをさらに備えたことを特徴とする。

また、本発明は、上記発明において、前記音素境界情報と、前記修正判定手段による判定結果とに基づいて、前記入力された音声データと、前記波形修正手段によって修正された前記音素毎の音声データとを合成した音声データを出力する出力音声データ合成手段をさらに備えたことを特徴とする。

また、本発明は、入力された音声データを音素別波形データ記憶手段に登録する音声登録装置であって、前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力手段と、前記音素識別情報出力手段によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を該音素毎に算出する波形特徴量算出手段と、前記波形特徴量算出手段によって算出された前記波形特徴量に基づいて前記音声データが所定条件を充足するか否かを前記音素毎に判定する条件充足性判定手段と、前記条件充足性判定手段によって前記所定条件を充足すると判定された前記音素毎の音声データを、前記音素別波形データ記憶手段に登録する音素別波形データ登録手段とを備えたことを特徴とする。

また、本発明は、入力された音声データの不明瞭部分を修正して出力する音声強調手順をコンピュータ・システムに実行させる音声強調プログラムであって、前記音声データを音素に分解する音素境界情報とともに入力された該音声データの波形特徴量を該音素毎に算出する波形特徴量算出手順と、前記波形特徴量算出手順によって算出された前記波形特徴量に基づいて前記音素毎に前記音声データの修正の必要性を判定する修正判定手順と、前記修正判定手順によって修正の必要性があると判定された前記音素毎の音声データを、音素別波形データ記憶手順に予め記憶されている波形データを用いて修正する波形修正手順とを前記コンピュータ・システムに実行させることを特徴とする。

また、本発明は、入力された音声データを音素別波形データ記憶手順に登録する音声登録手順をコンピュータ・システムに実行させる音声登録プログラムであって、前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力手順と、前記音素識別情報出力手順によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を該音素毎に算出する波形特徴量算出手順と、前記波形特徴量算出手順によって算出された前記波形特徴量に基づいて前記音声データが所定条件を充足するか否かを前記音素毎に判定する条件充足性判定手順と、前記条件充足性判定手順によって前記所定条件を充足すると判定された前記音素毎の音声データを、前記音素別波形データ記憶手順に登録する音素別波形データ登録手順とを前記コンピュータ・システムに実行させることを特徴とする。

また、本発明は、入力された音声データの不明瞭部分を修正して出力する音声強調方法であって、前記音声データを音素に分解する音素境界情報とともに入力された該音声データの波形特徴量を該音素毎に算出する波形特徴量算出工程と、前記波形特徴量算出工程によって算出された前記波形特徴量に基づいて前記音素毎に前記音声データの修正の必要性を判定する修正判定工程と、前記修正判定工程によって修正の必要性があると判定された前記音素毎の音声データを、音素別波形データ記憶工程に予め記憶されている波形データを用いて修正する波形修正工程とを含んだことを特徴とする。

また、本発明は、入力された音声データを音素別波形データ記憶工程に登録する音声登録方法であって、前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力工程と、前記音素識別情報出力工程によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を該音素毎に算出する波形特徴量算出工程と、前記波形特徴量算出工程によって算出された前記波形特徴量に基づいて前記音声データが所定条件を充足するか否かを前記音素毎に判定する条件充足性判定工程と、前記条件充足性判定工程によって前記所定条件を充足すると判定された前記音素毎の音声データを、前記音素別波形データ記憶工程に登録する音素別波形データ登録工程とを含んだことを特徴とする。

本発明によれば、音素境界情報によって区切られる音素毎の音声データの波形特徴量に基づいて、修正の必要があると判定された場合に音素別波形データ記憶手段に予め記憶されている波形データを用いて該音素毎の音声データを修正するので、例えば、不明瞭で聞き取りづらいとされる音声データを音素毎に修正を行って、聞き取りやすい音声データを得ることが可能となるという効果を奏する。

また、本発明によれば、有声／無声境界情報によって区切られる音素毎の音声データの波形特徴量に基づいて、修正の必要があると判定された場合に音素別波形データ記憶手段に予め記憶されている波形データを用いて該音素毎の音声データを修正するので、例えば、不明瞭で聞き取りづらいとされる音声データを有声／無声境界情報によって区切られる音素毎に修正を行って、聞き取りやすい音声データを得ることが可能となるという効果を奏する。

また、本発明によれば、テキストデータに言語処理を行って得られる音素列に音素識別情報を付与し、音素識別情報の境界を判定して得られる該音素識別情報の境界情報によって区切られる音素毎の音声データの波形特徴量に基づいて、修正の必要があると判定された場合に音素別波形データ記憶手段に予め記憶されている波形データを用いて該音素毎の音声データを修正するので、例えば、不明瞭で聞き取りづらいとされる音声データを音素識別情報によって区切られる音素毎に修正を行って、聞き取りやすい音声データを得ることが可能となるという効果を奏する。

また、本発明によれば、音声データの音素の振幅値、振幅変動率および周期性波形の有無を測定し、該音素の破裂部および帯気部を検出した結果に基づいて音素の音素種別を分類し、この分類された音素それぞれに特徴量を算出するので、子音や無声母音など不明瞭になりやすい音声部分を検出して修正することが可能となるという効果を奏する。

また、本発明によれば、入力された音声データと、波形修正手段によって修正された音素毎の音声データとを合成した音声データを出力するので、不明瞭な音声部分のみを修正した音声データを出力し、音声データ本来の特性を大きく変えることなく不明瞭部分の修正を行うことが可能となるという効果を奏する。

また、本発明によれば、テキストデータに言語処理を行って得られる音素列に音素識別情報を付与し、音素識別情報の境界を判定して得られる該音素識別情報の境界情報によって区切られる音素毎に、所定条件を充足する音声データを音素別波形データ記憶手段に登録して、この登録された音声データを修正のために利用することを可能になるという効果を奏する。

以下に添付図面を参照し、本発明の音声強調装置、音声登録装置、音声強調プログラム、音声登録プログラム、音声強調方法および音声登録方法に係る実施例を詳細に説明する。なお、以下に示す実施例１および２では、本発明を、出力手段（例えば、スピーカ装置）が接続され、音声データを再生して出力手段から出力するコンピュータ装置に搭載される音声強調装置に適用した場合を示すこととする。しかし、これらに限らず、出力手段から再生された音声を発する音声再生装置一般に広く適用されることとしてもよい。また、以下に示す実施例３では、入力手段（例えば、マイクロホン装置）が接続され、サンプリングされた入力音声を記憶する記憶手段が接続されたコンピュータ装置に搭載される音声登録装置に適用した場合を示すこととする。

先ず、本発明の実施例１〜３の説明に先立って、本発明の特徴について説明する。図１は、本発明の特徴を説明するための説明図である。同図に示すように、本発明の音声強調装置は、子音や無声母音が不明瞭であったり、耳障りであったりする音声を入力として、該音声強調装置において、音声を音素に分解し、各音素を無声破裂音、有声破裂音、無声摩擦音、有声摩擦音、破擦音、無声母音のいずれかに分類し、各音素の修正の必要性の判定に応じて各音素を修正することによって、子音や無声母音が明瞭で、耳障りのないクリアな音声の出力が得られるものである。

ところで、音声の明瞭度の低い音や、耳障りな音が含まれ聞き取りづらい音声は、子音や無声母音が不明瞭であることが多い。特に、音声の明瞭度が低い音や耳障りな音が子音や無声母音にある場合には、破裂部の有無、破裂部に続く帯気部の音素長などの破裂音に起因する問題、あるいは摩擦音の振幅変動等に起因する問題であることが多い。ところが、従来は、子音部分を強調するだけで、元の音声自体に問題がある場合に問題箇所も強調してしまって、さらに音声を聞き取りづらくしてしまったり、破裂音に係る問題箇所、あるいは摩擦音の振幅変動に係る問題箇所を検出して修正したりすることはできなかった。

本発明は、かかる問題点を解決するためになされたものであって、聴取者にとって音声が聞き取りやすいようにするために、音声の音素毎の特徴量および該音素の前後の音素情報に基づいて該音素の種類別に特徴量の算出を行い、破裂部の有無、破裂部に続く帯気部の音素長などの破裂音に係る問題箇所、あるいは摩擦音の振幅変動等に係る問題箇所を自動的に検出し、音素代替や音素足し込みなどの自動修正を可能とした。

以下に図２および３を参照して、本発明の実施例１について説明する。図２は、実施例１に係る音声強調装置の構成を示す機能ブロック図である。同図に示すように、音声強調装置１００は、波形特徴量算出部１０１と、修正判定部１０２と、有声／無声判定部１０３と、波形修正部１０４と、音素別波形データ格納部１０５と、波形生成部１０６とを有する。

波形特徴量算出部１０１は、入力音声を音素に分解して、この音素別に特徴量を出力する処理部であり、音素分割部１０１ａと、振幅変動測定部１０１ｂと、破裂部／帯気部検出部１０１ｃと、音素分類部１０１ｄと、音素別特徴量算出部１０１ｅと、音素環境検出部１０１ｆとをさらに有する。

音素分割部１０１ａは、入力音声を音素境界情報に基づいて分割する。なお、分割された音声データに周期成分がある場合には、パスフィルター等で予め低周波成分の除去を行っておく。

振幅変動測定部１０１ｂは、音素分割部１０１ａによって分割された音声データを、ｎ（ｎ≧２）個のフレームに分割し、各フレームの振幅値を求め、この振幅値の最大値を平均し、この平均の変動率によって振幅変動率を検出する。

破裂部／帯気部検出部１０１ｃは、振幅変動測定部１０１ｂによって求められた振幅値および振幅変動率に基づいて、音素分割部１０１ａによって分割された音声データに破裂部が存在するか否かの検出を行う。なお、破裂部の検出方法の一例としては、有音部、無音部を分割した後に、有音部の０クロス分布（音声データの波形の零点分布）と振幅変動率から検出する。そして、破裂部が存在した場合には、破裂部の長さ、破裂部に続く帯気部の長さの検出を行う。

音素分類部１０１ｄは、振幅変動測定部１０１ｂによって求められた振幅変動率に基づいて、破裂部／帯気部検出部１０１ｃによる検出結果である破裂部の有無、帯気部の有無から、無声破裂音、有声破裂音、無声摩擦音、破擦音、有声摩擦音、周期性波形のいずれの波形であるかの分類を行う。

音素別特徴量算出部１０１ｅは、音素分割部１０１ａによって分類された音素種別毎に特徴量を算出し、これを音素別特徴量として出力する。例えば、音素種別が無声破裂音の場合には、破裂部の有無、破裂部の個数、破裂部の最大振幅値、帯気部の有無、帯気部の長さ、破裂部の前の無音部の長さが特徴量となる。また、音素種別が破擦音の場合には、破裂部の前の無音部の長さ、振幅変動率、振幅最大値が特徴量となる。また、無声摩擦音の場合には、振幅変動率、振幅最大値が特徴量となる。また、音素種別が有声破裂音の場合には、破裂部の有無が特徴量となる。

音素環境検出部１０１ｆは、音素分割部１０１ａによって分割された音声データの音素の前置音、後置音を判定し、前置音、後置音が無音であるか、有音であるか、あるいは有声であるか、無声であるかを判定し、その判定結果を音素環境検出結果として出力する。

修正判定部１０２は、波形特徴量算出部１０１によって算出された音素別特徴量と、音素種類とが入力され、各音素種類と音素別特徴量に基づいて音素が修正を必要とするか否かを判定する処理部であり、音素別データ分配部１０２ａと、無声破裂音判定部１０２ｂと、有声破裂音判定部１０２ｃと、無声摩擦音判定部１０２ｄと、有声摩擦音判定部１０２ｅと、破擦音判定部１０２ｆと、周期性波形判定部１０２ｇとを有する。

音素別データ分配部１０２ａは、音素別特徴量算出部１０１ｅで算出された音素別特徴量を、音素種別と音素環境とに基づいて音素種別の各判定部、即ち無声破裂音判定部１０２ｂ、有声破裂音判定部１０２ｃ、無声摩擦音判定部１０２ｄ、有声摩擦音判定部１０２ｅ、破擦音判定部１０２ｆ、周期性波形判定部１０２ｇのいずれかへ分配する。

無声破裂音判定部１０２ｂは、無声破裂音の音素別特徴量の入力を受け付け、該音素別特徴量を元に音素を修正すべきか否かの判定を行い、判定結果を出力する。有声破裂音判定部１０２ｃは、有声破裂音の音素特徴量の入力を受け付け、該音素特徴量を元に音素を修正すべきか否かの判定を行い、判定結果を出力する。無声摩擦音判定部１０２ｄは、無声摩擦音の音素特徴量の入力を受け付け、該音素特徴量を元に音素を修正すべきか否かの判定を行い、判定結果を出力する。有声摩擦音判定部１０２ｅは、有声摩擦音の音素特徴量の入力を受け付け、該音素特徴量を元に音素を修正すべきか否かの判定を行い、判定結果を出力する。破擦音判定部１０２ｆは、破擦音の音素特徴量の入力を受け付け、該音素特徴量を元に音素を修正すべきか否かの判定を行い、判定結果を出力する。周期性波形判定部１０２ｇは、周期性波形（無声母音）の音素特徴量の入力を受け付け、該音素特徴量を元に音素を修正すべきか否かの判定を行い、判定結果を出力する。

なお、音素別特徴量算出部１０１ｅは、無声音が連続する場合は、無音部を境界として、特徴量の算出を行う。

有声／無声判定部１０３は、入力音声が入力され、この入力音声を有声、無声に分類し、有声／無声情報と、有声か、無声摩擦音や無声破裂音等からなる無声かの有声／無声境界情報とを出力する。有声／無声判定部１０３は、入力音声のある低周波数の閾値（例えば、２５０Ｈｚ）以下のパワーを求め、更に時間フレーム（例えば、０．２秒）あたりのパワー最大値で正規化したデータから、ある閾値以下のものを無声、ある閾値以上の部分を有声であると判定する。

波形修正部１０４は、入力音声と、その有声／無声境界情報と、修正判定部１０２による判定結果と、音素種類との入力を受け付け、修正すべきであると判定された音素について、音素別波形データ格納部１０５に格納されている波形データを用いて代替、もしくは元データに付加する（足し込む）修正を行い、修正後の音声データを出力する。

なお、波形修正部１０４において、音素別特徴量と、音素環境検出結果に基づき、音素を修正すべきかの判定を行う例としては、前置音／後置音が、有音で有声であるという検出結果である場合には、該当音素の音素先頭、音素末尾の振幅が大きくても、前置音／後置音の素片の影響であるとみなし、修正対象としない。音素の音素先頭、音素末尾を除いた中間部分の振幅変動で、修正すべきかどうかの判断を行う。一方、前置音が無音である場合に、音素片の音素頭の振幅変動がみられる場合や、後置音が無音である場合に、音素の音素末尾に振幅変動がみられる場合には、修正すべきであると判断する。

波形生成部１０６は、入力音声と、その有声／無声境界情報と、修正判定部１０２による判定結果と、波形修正部１０４による修正結果との入力を受け付け、入力音声に対して修正を施した部分と、修正を施していない部分とを接続し、出力音声として出力する。

なお、図２において、波形特徴量算出部１０１へは、有声／無声境界情報に限らず、広く一般的な音素境界情報が入力されることとしてもよい。この場合、有声／無声判定部１０３は、省略可能である。この有声／無声判定部１０３が省略されることによって、波形修正部１０４へも、音素境界情報が入力されることとなる。ここで、音素とは、例えば「た」という音節の場合は、“t-a”という子音“ｔ”と母音“a”の２つの音素片から構成されているが、この“ｔ”と“a”の各々の境界という意味である。

また、図２において、音素環境検出部１０１ｆも省略可能である。音素環境検出部１０１ｆが省略された場合には、前後の音が無音であるか、有音であるか、有声であるか、無声であるかの検出はおこなわず、音素別特徴量を、音素種別のみに基づいて音素種別の各判定部、即ち無声破裂音判定部１０２ｂ、有声破裂音判定部１０２ｃ、無声摩擦音判定部１０２ｄ、有声摩擦音判定部１０２ｅ、破擦音判定部１０２ｆ、周期性波形判定部１０２ｇのいずれかへ分配することとなる。

次に、実施例１の音声強調処理について説明する。図３は、実施例１の音声強調処理手順を示すフローチャートである。同図に示すように、先ず、有声／無声判定部１０３は、入力音声の有声／無声境界情報を取得する（ステップＳ１０１）。なお、有声／無声判定部１０３が省略される場合は、実施例１の音声強調装置１００は、広く一般的な音素境界情報を取得し、この音素境界情報を、波形特徴量算出部１０１、波形修正部１０４、波形生成部１０６へ入力することとなる。

続いて、音素分割部１０１ａは、入力音声を、有声／無声境界情報（有声／無声判定部１０３が省略される場合には、広く一般的な音素境界情報）に基づいて、音素に分割する（ステップＳ１０２）。

続いて、振幅変動測定部１０１ｂは、分割された音素の振幅値、振幅変動率を算出する（ステップＳ１０３）。続いて、破裂部／帯気部検出部１０１ｃは、振幅値および振幅変動率に基づき、破裂部／帯気部を検出する（ステップＳ１０４）。続いて、音素分類部１０１ｄは、検出された破裂部／帯気部と、振幅変動率とに基づき、音素を音素種類で分類する（ステップＳ１０５）。続いて、音素別特徴量算出部１０１ｅは、分類された音素の特徴量を算出する（ステップＳ１０６）。

続いて、音素環境検出部１０１ｆは、ステップＳ１０２で分割された音素の前置音／後置音の音声データが、無音であるか、有音であるか、あるいは有声であるか、無声であるかの音素環境を判定する（ステップＳ１０７）。なお、音素環境検出部１０１ｆが省略される場合には、ステップＳ１０７は省略される。

続いて、音素別データ分配部１０２ａは、音素種別と、前置音／後置音の音素環境判定結果とに基づき、各音素の特徴量を各音素種別に分配する（ステップＳ１０８）。なお、音素環境検出部１０１ｆが省略される場合には、音素別データ分配部１０２ａは、音素種別のみに基づいて音素の特徴量を各音素種別に分配することとなる。続いて、無声破裂音判定部１０２ｂ、有声破裂音判定部１０２ｃ、無声摩擦音判定部１０２ｄ、有声摩擦音判定部１０２ｅ、破擦音判定部１０２ｆまたは周期性波形判定部１０２ｇは、音素種別毎に音素の修正の必要性を判定する（ステップＳ１０９）。

続いて、波形修正部１０４は、有声／無声境界情報（有声／無声判定部１０３が省略される場合には、広く一般的な音素境界情報）と、音素種類と、ステップＳ１０９による修正判定結果とに基づいて、音素別波形データ格納部１０５を参照して、音素を修正する（ステップＳ１１０）。続いて、有声／無声境界情報（有声／無声判定部１０３が省略される場合には、広く一般的な音素境界情報）に基づき、修正された音素と、修正されていない音素とを接続して出力する（ステップＳ１１１）。

以下に図４および５を参照して、本発明の実施例２について説明する。実施例２では、実施例１との差分のみを説明する。図４は、実施例２に係る音声強調装置の構成を示す機能ブロック図である。同図に示すように、音声強調装置１００は、波形特徴量算出部１０１と、修正判定部１０２と、波形修正部１０４と、音素別波形データ格納部１０５と、波形生成部１０６と、言語処理部１０７と、音素ラベリング部１０８とを有する。波形特徴量算出部１０１、修正判定部１０２、波形修正部１０４、音素別波形データ格納部１０５および波形生成部１０６は、実施例１と同様であるので、ここでの説明を省略する。

言語処理部１０７は、入力音声の内容を示すテキストデータが入力されると、言語処理が施され、音素列が出力される。音素列は、例えば、テキストデータが「だたいま」であった場合には、音素列は「tadaima」である。音素ラベリング部１０８では、入力音声と音素列とが入力されると、入力音声に対して音素ラベリングを行い、各音素の音素ラベルと各音素の境界情報を出力する。

そして、言語処理部１０７によって出力された音素ラベルおよび音素境界情報は、音素分割部１０１ａ、波形修正部１０４、波形生成部１０６へ入力されることとなる。音素分割部１０１ａは、入力音声を音素ラベルおよび音素境界情報に基づいて分割する。波形修正部１０４は、入力音声と、音素ラベルと、音素境界情報と、修正判定部１０２による判定結果と、音素種類との入力を受け付け、修正すべきであると判定された音素について、音素別波形データ格納部１０５に格納されている波形データを用いて代替、もしくは元データに付加する（足し込む）修正を行い、修正後の音声データを出力する。波形生成部１０６は、入力音声と、音素ラベルと、音素境界情報と、修正判定部１０２による判定結果と、波形修正部１０４による修正結果との入力を受け付け、入力音声に対して修正を施した部分と、修正を施していない部分とを接続し、出力音声として出力する。

なお、波形修正部１０４には音素ラベルが入力されるため、各音素を修正すべきか否かの判定は、音素ラベルに基づく判定基準で行う。例えば、音素ラベルが“ｋ”である場合には、帯気部の長さがある閾値以上であることが判定基準のひとつとなる。

実施例２の修正判定部１０２では、音素ラベルと、音素特徴量が入力されると、各音素ラベルと特徴量に基づいて、音素を修正すべきかどうかの判定を行う。例えば、音素ラベルが“ｋ”であった場合には、破裂部が一つだけであるか、破裂部の振幅絶対値の最大値が閾値以下であるか、帯気部の長さが閾値以上であるかが判定基準となる。音素が“ｐ”、“ｔ”の場合には、破裂部が一つだけであるか、破裂部の振幅絶対値の最大値が閾値以下であるかが判定基準となる。

また、音素が“ｂ”、“ｄ”、“ｇ”である場合には、破裂部が存在するか、周期性波形部分が存在するかが判定基準となる。破裂部がない場合が、修正対象となる。音素ラベルが“ｒ”である場合には、破裂部が存在するかが判定基準となり、破裂部があった場合に、修正対象となる。また、音素ラベルが、“s”、“ｓＨ”、“ｆ”、“ｈ”、“ｊ”、“ｚ”である場合には、振幅変動、振幅絶対値の最大値が閾値以下であるかが判定基準になる。

従って、ここでは音素ラベルが入力されるので、例えば音素ラベルが“ｋ”であるのに帯気部が短いために“ｋ”に聞こえない場合や、ラベルは“ｄ”であるのに破裂部がなく“ｒ”に異聴される音素や、音素ラベルは“ｇ”であるのに破裂部がなくて“ｎ”と区別できない音素や、音素ラベルは“ｎ”であるのにノイズが混ざって“ｇ”のように聴こえてしまうような音素についても、判定によって修正対象となる。

また、実施例２の波形修正部１０４には、入力音声と、その音素ラベル境界情報、判定情報、音素種類が入力される。修正すべきであると判断された音素については、音素別波形データ格納部１０５にあるデータを用いて代替、もしくは元データに足し込む、破裂部の削除、振幅変動率の大きいフレームの削除等の修正を行い、修正後の音声データを出力する。

実施例２で音素別特徴量算出部１０１ｅによって算出される音素別特徴量は、音素ラベルが“ｋ”であった場合は、破裂部の有無、長さ、個数、破裂部の振幅絶対値の最大値、破裂部に続く帯気部の長さのいずれか一つ以上になる。音素ラベルが“b”、“ｄ”または“g”であった場合は、破裂部の有無、周期性波形の有無、前の音素環境のいずれか一つ以上になる。音素ラベルが、“ｓ”、“ｓＨ”であった場合には、特徴量は振幅変動と前後の音素環境のいずれか一つ以上である。

次に、実施例２の音声強調処理について説明する。図５は、実施例２の音声強調処理手順を示すフローチャートである。同図に示すように、先ず、言語処理部１０７は、入力音声に対応するテキストデータの入力を受け付け、このテキストデータに言語処理を施し、音素列を出力する（ステップＳ２０１）。

続いて、音素ラベリング部１０８は、音素列に基づき入力音声に音素ラベルを付加し、各音素の音素ラベルと音素境界情報とを出力する（ステップＳ２０２）。続いて、音素分割部１０１ａは、入力音声を、各音素の音素ラベルと、音素境界情報とに基づいて、入力音声を音素ラベル境界で音素に分割する（ステップＳ２０３）。

続いて、振幅変動測定部１０１ｂは、分割された音素の振幅値、振幅変動率を算出する（ステップＳ２０４）。続いて、破裂部／帯気部検出部１０１ｃは、振幅値および振幅変動率に基づき、破裂部／帯気部を検出する（ステップＳ２０５）。続いて、音素分類部１０１ｄは、検出された破裂部／帯気部と、振幅変動率とに基づき、音素を音素種類で分類する（ステップＳ２０６）。続いて、音素別特徴量算出部１０１ｅは、分類された音素の特徴量を算出する（ステップＳ２０７）。

続いて、音素環境検出部１０１ｆは、ステップＳ２０３で分割された音素の前置音／後置音の音声データが、無音であるか、有音であるか、あるいは有声であるか、無声であるかの音素環境を判定する（ステップＳ２０８）。

続いて、音素別データ分配部１０２ａは、音素種別と、前置音／後置音の音素環境判定結果とに基づき、各音素の特徴量を各音素種別に分配する（ステップＳ２０９）。続いて、無声破裂音判定部１０２ｂ、有声破裂音判定部１０２ｃ、無声摩擦音判定部１０２ｄ、有声摩擦音判定部１０２ｅ、破擦音判定部１０２ｆまたは周期性波形判定部１０２ｇは、音素種別毎に音素の修正の必要性を判定する（ステップＳ２１０）。

続いて、波形修正部１０４は、音素ラベルと、音素境界情報と、音素種類と、ステップＳ１０９による修正判定結果とに基づいて、音素別波形データ格納部１０５を参照して、音素を修正する（ステップＳ２１１）。続いて、音素ラベルと、音素境界情報とに基づき、修正された音素と、修正されていない音素とを接続して出力する（ステップＳ２１２）。

次に、実施例１および実施例２の波形修正部１０４による波形修正の概要について説明する。図６〜８は、波形修正部１０４による波形修正の概要を説明するための説明図である。図６は、破裂部のない音素“ｄ”を波形特徴量算出部１０１の算出結果から検出し、修正判定部１０２で修正すると判定された音素“ｄ”を、音素別波形データ格納部１０５にある破裂部のある音素“ｄ”に代替した例である。

また、図７は、破裂部のない音素“ｄ”に、音素別波形データ格納部１０５の破裂部のある音素“ｄ”を足し込んだ例である。

また、図８は、リップノイズによって、振幅変動が大きい無声摩擦音“ｓＨ”および“ｓ”を、音素別波形データ格納部１０５の振幅変動のない“ｓＨ”および“ｓ”で代替した例である。

例えば、「ただいま」が「たらいま」に聞こえてしまうような場合は、“t-a-d-a-i-m-a”の“ｄ”の部分に破裂部がないために、“ｒ”に異聴してしまう例である。このような例の場合に、図７や８で示すような波形修正を施すと効果的である。

その他の波形修正部１０４の実施例としては、破裂部が２つある破裂音の場合に、破裂部を１つ削除する方法がある。また、摩擦音で振幅変動の大きい短い区間があった場合、その振幅変動の大きい区間を削除する方法がある。以上のように、「音素別波形データ格納部」のデータに代替したり、足し込んだリ、削除したりすることによって、波形修正を行う。

以下に図９および１０を参照して、本発明の実施例３について説明する。実施例３は、実施例１および実施例２の音素別波形データ格納部１０５へ音素を格納するための音声登録装置に関する実施例である。なお、実施例３では、音素別波形データ格納部１０５を音素別波形データ格納部２０５とする。図９は、実施例３に係る音声登録装置の構成を示す機能ブロック図である。同図に示すように、音声登録装置２００は、波形特徴量算出部２０１と、登録判定部２０２と、波形登録部２０４と、音素別波形データ格納部２０５と、言語処理部２０７と、音素ラベリング部２０８とを有する。

波形特徴量算出部２０１は、音素分割部２０１ａと、振幅変動測定部２０１ｂと、破裂部／帯気部検出部２０１ｃと、音素分類部２０１ｄと、音素別特徴量算出部２０１ｅと、音素環境検出部２０１ｆとをさらに有するが、実施例１および実施例２の音素分割部１０１ａと、振幅変動測定部１０１ｂと、破裂部／帯気部検出部１０１ｃと、音素分類部１０１ｄと、音素別特徴量算出部１０１ｅと、音素環境検出部１０１ｆとそれぞれ同一であるので、ここでの説明を省略する。

また、登録判定部２０２は、基本的には実施例１および実施例２の修正判定部１０２と同一であり、音素別データ分配部２０２ａと、無声破裂音判定部２０２ｂと、有声破裂音判定部２０２ｃと、無声摩擦音判定部２０２ｄと、有声摩擦音判定部２０２ｅと、破擦音判定部２０２ｆと、周期性波形判定部２０２ｇとを有するが、実施例１および実施例２の音素別データ分配部１０２ａと、無声破裂音判定部１０２ｂと、有声破裂音判定部１０２ｃと、無声摩擦音判定部１０２ｄと、有声摩擦音判定部１０２ｅと、破擦音判定部１０２ｆと、周期性波形判定部１０２ｇと同一である。

ただし、実施例２の修正判定部１０２では、各音素種類の特徴量から判断して、問題のある音素片を修正すべき素片として選択したが、実施例３の登録判定部２０２では、各音素種類の特徴量から判断して、問題ない音素片を判定する。例えば、無声破裂音の“ｋ”の場合、破裂部が一つだけあり、帯気部がある閾値以上の長さであり、破裂部の振幅値が閾値内であることを判定基準として、登録するか判定する。また、無声摩擦音の“ｓ”、“ｓＨ”等の場合は、振幅変動率が大きくないこと、全振幅値が所定範囲内であること、音素長が閾値以上であることを判定基準として、登録するか判定する。また、有声破裂音である“ｂ”、“ｄ”、“ｇ”の場合、周期成分がないこと、破裂部があることを判定基準として、登録するか判定する。

波形登録部２０４は、登録判定部２０２の破低結果に基づいて、登録すると判定された音素片については、音素ラベルおよび音素境界情報を音素別波形データ格納部２０５に格納する。この音素別波形データ格納部２０５は、実施例１および実施例２において音素別波形データ格納部１０５として提供されるものである。

なお、実施例３の音素別波形データ格納部２０５は、実施例１および実施例２において音素別波形データ格納部１０５として提供されることから、音声登録装置２００とは独立した構成を取る記憶手段としてもよい。また、同様に、実施例１および実施例２の音素別波形データ格納部１０５も、音声強調装置１００とは独立した構成を取ることとしてもよい。

また、言語処理部２０７は、実施例２の言語処理部１０７と、音素ラベリング部２０８は、実施例２の音素ラベリング部１０８と同一であるので、ここでの説明を省略する。

次に、実施例３の音声登録処理について説明する。図１０は、実施例３の音声登録処理手順を示すフローチャートである。同図に示すように、先ず、言語処理部２０７は、入力音声に対応するテキストデータの入力を受け付け、このテキストデータに言語処理を施し、音素列を出力する（ステップＳ３０１）。

続いて、音素ラベリング部２０８は、音素列に基づき入力音声に音素ラベルを付加し、各音素の音素ラベルと音素境界情報とを出力する（ステップＳ３０２）。続いて、音素分割部２０１ａは、入力音声を、各音素の音素ラベルと、音素境界情報とに基づいて、入力音声を音素ラベル境界で音素に分割する（ステップＳ３０３）。

続いて、振幅変動測定部２０１ｂは、分割された音素の振幅値、振幅変動率を算出する（ステップＳ３０４）。続いて、破裂部／帯気部検出部２０１ｃは、振幅値および振幅変動率に基づき、破裂部／帯気部を検出する（ステップＳ３０５）。続いて、音素分類部２０１ｄは、検出された破裂部／帯気部と、振幅変動率とに基づき、音素を音素種類で分類する（ステップＳ３０６）。続いて、音素別特徴量算出部２０１ｅは、分類された音素の特徴量を算出する（ステップＳ３０７）。

続いて、音素環境検出部２０１ｆは、ステップＳ３０３で分割された音素の前置音／後置音の音声データが、無音であるか、有音であるか、あるいは有声であるか、無声であるかの音素環境を判定する（ステップＳ３０８）。

続いて、音素別データ分配部２０２ａは、音素種別と、前置音／後置音の音素環境判定結果とに基づき、各音素の特徴量を各音素種別に分配する（ステップＳ３０９）。続いて、無声破裂音判定部２０２ｂ、有声破裂音判定部２０２ｃ、無声摩擦音判定部２０２ｄ、有声摩擦音判定部２０２ｅ、破擦音判定部２０２ｆまたは周期性波形判定部２０２ｇは、音素種別毎に音素の修正の必要性があるか否かを判定する（ステップＳ３１０）。

続いて、波形登録部２０４は、音素ラベルと，音素境界情報と、音素種類と、ステップＳ３１０による登録判定結果とに基づいて、音素別波形データ格納部２０５へ当該音素を登録する（ステップＳ３１１）。

上記したように、本発明では、子音の種類毎に修正判定基準を設けている。破裂音に関しては破裂部の精度の高い検出を用いている。そのため、破裂部が二つあるものの検出や、破裂部に続く帯気部の長さの検出も可能である。摩擦音に関しても、精度のよい振幅変動を検出することが可能になる。請求項５の場合には、対象音素片の前置音、後置音の情報を使用することで、更に精度の高い修正判定を行うことが可能となる。

修正方法の中には、問題ありと検出された素片を、代替素片に置き換えたり、元音声に代替素片を足し込んだりする方法があり、欠けた破裂部を補うことも可能である。その結果、音量が大きく聴き辛いサ行やカ行の音を修正したり、二重破裂音を一つの破裂音に修正したりすることも可能になる。

また、音声データだけではなく、テキストが入力された場合には、「たらいま」になってしまった「ただいま」を修正したり、「こくがい（国外）」か「こくない（国内）」かのいずれであるかが分りにくい場合に修正したりすることも可能である。

なお、上記実施例で説明した各処理は、該各処理の手順を規定したプログラムをパーソナル・コンピュータ、サーバ又はワークステーションなどのコンピュータ・システムで実行することによって実現することが可能である。

以上、本発明の実施例を説明したが、本発明は、これに限られるものではなく、特許請求の範囲に記載した技術的思想の範囲内で、更に種々の異なる実施例で実施されてもよいものである。また、実施例に記載した効果は、これに限定されるものではない。

（付記１）入力された音声データの不明瞭部分を修正して出力する音声強調装置であって、
前記音声データを音素に分解する音素境界情報とともに入力された該音声データの波形特徴量を該音素毎に算出する波形特徴量算出手段と、
前記波形特徴量算出手段によって算出された前記波形特徴量に基づいて前記音素毎に前記音声データの修正の必要性を判定する修正判定手段と、
前記修正判定手段によって修正の必要性があると判定された前記音素毎の音声データを、音素別波形データ記憶手段に予め記憶されている波形データを用いて修正する波形修正手段と
を備えたことを特徴とする音声強調装置。

（付記２）前記音声データの有声／無声の区切りを判定して有声／無声境界情報を前記音素境界情報として出力する有声／無声境界情報出力手段をさらに備え、
前記波形特徴量算出手段は、前記有声／無声境界情報出力手段によって出力された前記有声／無声境界情報とともに入力された前記音声データの波形特徴量を前記音素毎に算出することを特徴とする付記１に記載の音声強調装置。

（付記３）前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力手段をさらに備え、
前記波形特徴量算出手段は、前記音素識別情報出力手段によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を前記音素毎に算出することを特徴とする付記１に記載の音声強調装置。

（付記４）前記波形特徴量算出手段は、
前記入力された音声データを、前記音素境界情報に基づいて前記音素に分割する音声データ分割手段と、
前記音声データ分割手段によって分割された前記音素に基づいて該音素の振幅値、振幅変動率および周期性波形の有無を測定する振幅変動測定手段と、
前記振幅変動測定手段によって測定された前記振幅値および前記振幅変動率と、前記音声データ分割手段によって分割された前記音素とに基づいて該音素の破裂部および帯気部を検出する破裂部／帯気部検出手段と、
前記破裂部／帯気部検出手段による検出結果と、前記振幅変動測定手段によって測定された前記振幅値、前記振幅変動率および前記周期性波形の有無とに基づいて前記音素の音素種別を分類する音素分類手段と、
前記音素分類手段によって分類された前記音素それぞれに特徴量を算出する音素別特徴量算出手段と
をさらに備えたことを特徴とする付記２または３に記載の音声強調装置。

（付記５）前記音素別特徴量算出手段は、前記振幅変動測定手段によって測定された前記音素の振幅値、振幅変動率、周期性波形の有無、前記破裂部／帯気部検出手段によって検出された前記音素の破裂部の有無、該破裂部の長さ、該破裂部に続く帯気部の有無、該帯気部の長さ、前記音素分類手段によって分類された該音素の前後の音素の音素種別のうちの少なくとも一つを前記特徴量として算出することを特徴とする付記４に記載の音声強調装置。

（付記６）前記修正判定手段は、前記音素分類手段によって分類された前記音素種別に応じて前記音声データの修正の必要性があるか否かを前記音素毎に判定することを特徴とする付記４または５に記載の音声強調装置。

（付記７）前記波形特徴量算出手段は、前記音声データ分割手段によって分割された前記音素の前後の音素の有音／無音の別、有声／無声の別を検出する音素環境検出手段をさらに備え、
前記修正判定手段は、前記波形特徴量算出手段によって算出された前記波形特徴量とともに、前記音素環境検出手段による検出結果に基づいて前記音素毎に前記音声データの修正の必要性を判定することを特徴とする付記４、５または６に記載の音声強調装置。

（付記８）前記音素境界情報と、前記修正判定手段による判定結果とに基づいて、前記入力された音声データと、前記波形修正手段によって修正された前記音素毎の音声データとを合成した音声データを出力する出力音声データ合成手段をさらに備えたことを特徴とする付記１〜７のいずれか一つに記載の音声強調装置。

（付記９）入力された音声データを音素別波形データ記憶手段に登録する音声登録装置であって、
前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力手段と、
前記音素識別情報出力手段によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を該音素毎に算出する波形特徴量算出手段と、
前記波形特徴量算出手段によって算出された前記波形特徴量に基づいて前記音声データが所定条件を充足するか否かを前記音素毎に判定する条件充足性判定手段と、
前記条件充足性判定手段によって前記所定条件を充足すると判定された前記音素毎の音声データを、前記音素別波形データ記憶手段に登録する音素別波形データ登録手段と
を備えたことを特徴とする音声登録装置。

（付記１０）入力された音声データの不明瞭部分を修正して出力する音声強調手順をコンピュータ・システムに実行させる音声強調プログラムであって、
前記音声データを音素に分解する音素境界情報とともに入力された該音声データの波形特徴量を該音素毎に算出する波形特徴量算出手順と、
前記波形特徴量算出手順によって算出された前記波形特徴量に基づいて前記音素毎に前記音声データの修正の必要性を判定する修正判定手順と、
前記修正判定手順によって修正の必要性があると判定された前記音素毎の音声データを、音素別波形データ記憶手順に予め記憶されている波形データを用いて修正する波形修正手順と
を前記コンピュータ・システムに実行させることを特徴とする音声強調プログラム。

（付記１１）前記音声データの有声／無声の区切りを判定して有声／無声境界情報を前記音素境界情報として出力する有声／無声境界情報出力手順を前記コンピュータ・システムにさらに実行させ、
前記波形特徴量算出手順は、前記有声／無声境界情報出力手順によって出力された前記有声／無声境界情報とともに入力された前記音声データの波形特徴量を前記音素毎に算出することを特徴とする付記１０に記載の音声強調プログラム。

（付記１２）前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力手順をコンピュータ・システムにさらに実行させ、
前記波形特徴量算出手順は、前記音素識別情報出力手順によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を前記音素毎に算出することを特徴とする付記１０に記載の音声強調プログラム。

（付記１３）前記波形特徴量算出手順は、
前記入力された音声データを、前記音素境界情報に基づいて前記音素に分割する音声データ分割手順と、
前記音声データ分割手順によって分割された前記音素に基づいて該音素の振幅値、振幅変動率および周期性波形の有無を測定する振幅変動測定手順と、
前記振幅変動測定手順によって測定された前記振幅値および前記振幅変動率と、前記音声データ分割手順によって分割された前記音素とに基づいて該音素の破裂部および帯気部を検出する破裂部／帯気部検出手順と、
前記破裂部／帯気部検出手順による検出結果と、前記振幅変動測定手順によって測定された前記振幅値、前記振幅変動率および前記周期性波形とに基づいて前記音素の音素種別を分類する音素分類手順と、
前記音素分類手順によって分類された前記音素それぞれに特徴量を算出する音素別特徴量算出手順と
をさらに含んだことを特徴とする付記１１または１２に記載の音声強調プログラム。

（付記１４）前記音素別特徴量算出手順は、前記振幅変動測定手順によって測定された前記音素の振幅値、振幅変動率、周期性波形の有無、前記破裂部／帯気部検出手順によって検出された前記音素の破裂部の有無、該破裂部の長さ、該破裂部に続く帯気部の有無、該帯気部の長さ、前記音素分類手順によって分類された該音素の前後の音素の音素種別のうちの少なくとも一つを前記特徴量として算出することを特徴とする付記１３に記載の音声強調プログラム。

（付記１５）前記修正判定手順は、前記音素分類手順によって分類された前記音素種別に応じて前記音声データの修正の必要性があるか否かを前記音素毎に判定することを特徴とする付記１３または１４に記載の音声強調プログラム。

（付記１６）前記波形特徴量算出手順は、前記音声データ分割手順によって分割された前記音素の前後の音素の有音／無音の別、有声／無声の別を検出する音素環境検出手順を前記コンピュータ・システムにさらに実行させ、
前記修正判定手順は、前記波形特徴量算出手順によって算出された前記波形特徴量とともに、前記音素環境検出手順による検出結果に基づいて前記音素毎に前記音声データの修正の必要性を判定することを特徴とする付記１３、１４または１５に記載の音声強調プログラム。

（付記１７）前記音素境界情報と、前記修正判定手順による判定結果とに基づいて、前記入力された音声データと、前記波形修正手順によって修正された前記音素毎の音声データとを合成した音声データを出力する出力音声データ合成手順をさらに前記コンピュータ・システムにさらに実行させることを特徴とする付記１０〜１６のいずれか一つに記載の音声強調プログラム。

（付記１８）入力された音声データを音素別波形データ記憶手順に登録する音声登録手順を
コンピュータ・システムに実行させる音声登録プログラムであって、
前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力手順と、
前記音素識別情報出力手順によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を該音素毎に算出する波形特徴量算出手順と、
前記波形特徴量算出手順によって算出された前記波形特徴量に基づいて前記音声データが所定条件を充足するか否かを前記音素毎に判定する条件充足性判定手順と、
前記条件充足性判定手順によって前記所定条件を充足すると判定された前記音素毎の音声データを、前記音素別波形データ記憶手順に登録する音素別波形データ登録手順と
を前記コンピュータ・システムに実行させることを特徴とする音声登録プログラム。

（付記１９）入力された音声データの不明瞭部分を修正して出力する音声強調方法であって、
前記音声データを音素に分解する音素境界情報とともに入力された該音声データの波形特徴量を該音素毎に算出する波形特徴量算出工程と、
前記波形特徴量算出工程によって算出された前記波形特徴量に基づいて前記音素毎に前記音声データの修正の必要性を判定する修正判定工程と、
前記修正判定工程によって修正の必要性があると判定された前記音素毎の音声データを、音素別波形データ記憶工程に予め記憶されている波形データを用いて修正する波形修正工程と
を含んだことを特徴とする音声強調方法。

（付記２０）入力された音声データを音素別波形データ記憶工程に登録する音声登録方法であって、
前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力工程と、
前記音素識別情報出力工程によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を該音素毎に算出する波形特徴量算出工程と、
前記波形特徴量算出工程によって算出された前記波形特徴量に基づいて前記音声データが所定条件を充足するか否かを前記音素毎に判定する条件充足性判定工程と、
前記条件充足性判定工程によって前記所定条件を充足すると判定された前記音素毎の音声データを、前記音素別波形データ記憶工程に登録する音素別波形データ登録工程と
を含んだことを特徴とする音声登録方法。

本発明は、音声データの不明瞭部分を修正して明瞭な音声データを得たい場合に有用であり、特に、破裂部の有無、破裂部に続く帯気部の音素長などの破裂音に係る問題箇所、あるいは摩擦音の振幅変動等に係る問題箇所を自動的に検出して自動修正したい場合に有効である。

本発明の特徴を説明するための説明図である。実施例１に係る音声強調装置の構成を示す機能ブロック図である。実施例１の音声強調処理手順を示すフローチャートである。実施例２に係る音声強調装置の構成を示す機能ブロック図である。実施例２の音声強調処理手順を示すフローチャートである。破裂部のない音素“ｄ”を破裂部のある音素“ｄ”で代替した例を示す図である。破裂部のない音素“ｄ”に破裂部のある音素“ｄ”を足し込んだ例を示す図である。リップノイズのある“ｓＨ”および“Ｓ”を代替した例を示す図である。実施例３に係る音声登録装置の構成を示す機能ブロック図である。実施例３の音声登録処理手順を示すフローチャートである。

符号の説明

１００音声強調装置
１０１波形特徴量算出部
１０１ａ音素分割部
１０１ｂ振幅変動測定部
１０１ｃ破裂部／帯気部検出部
１０１ｄ音素分類部
１０１ｅ音素別特徴量算出部
１０１ｆ音素環境検出部
１０２修正判定部
１０２ａ音素別データ分配部
１０２ｂ無声破裂音判定部
１０２ｃ有声破裂音判定部
１０２ｄ無声摩擦音判定部
１０２ｅ有声摩擦音判定部
１０２ｆ破擦音判定部
１０２ｇ周期性波形判定部
１０３有声／無声判定部
１０４波形修正部
１０５音素別波形データ格納部
１０６波形生成部
１０７言語処理部
１０８音素ラベリング部
２００音声登録装置
２０１波形特徴量算出部
２０１ａ音素分割部
２０１ｂ振幅変動測定部
２０１ｃ破裂部／帯気部検出部
２０１ｄ音素分類部
２０１ｅ音素別特徴量算出部
２０１ｆ音素環境検出部
２０２登録判定部
２０２ａ音素別データ分配部
２０２ｂ無声破裂音判定部
２０２ｃ有声破裂音判定部
２０２ｄ無声摩擦音判定部
２０２ｅ有声摩擦音判定部
２０２ｆ破擦音判定部
２０２ｇ周期性波形判定部
２０４波形登録部
２０５音素別波形データ格納部
２０７言語処理部
２０８音素ラベリング部

Claims

入力された音声データの不明瞭部分を修正して出力する音声強調装置であって、
前記音声データを音素に分解する音素境界情報とともに入力された該音声データの波形特徴量を該音素毎に算出する波形特徴量算出手段と、
前記波形特徴量算出手段によって算出された前記波形特徴量に基づいて前記音素毎に前記音声データの修正の必要性を判定する修正判定手段と、
前記修正判定手段によって修正の必要性があると判定された前記音素毎の音声データを、音素別波形データ記憶手段に予め記憶されている波形データを用いて修正する波形修正手段と
を備えたことを特徴とする音声強調装置。
前記音声データの有声／無声の区切りを判定して有声／無声境界情報を前記音素境界情報として出力する有声／無声境界情報出力手段をさらに備え、
前記波形特徴量算出手段は、前記有声／無声境界情報出力手段によって出力された前記有声／無声境界情報とともに入力された前記音声データの波形特徴量を前記音素毎に算出することを特徴とする請求項１に記載の音声強調装置。
前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力手段をさらに備え、
前記波形特徴量算出手段は、前記音素識別情報出力手段によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を前記音素毎に算出することを特徴とする請求項１に記載の音声強調装置。
前記波形特徴量算出手段は、
前記入力された音声データを、前記音素境界情報に基づいて前記音素に分割する音声データ分割手段と、
前記音声データ分割手段によって分割された前記音素に基づいて該音素の振幅値、振幅変動率および周期性波形の有無を測定する振幅変動測定手段と、
前記振幅変動測定手段によって測定された前記振幅値および前記振幅変動率と、前記音声データ分割手段によって分割された前記音素とに基づいて該音素の破裂部および帯気部を検出する破裂部／帯気部検出手段と、
前記破裂部／帯気部検出手段による検出結果と、前記振幅変動測定手段によって測定された前記振幅値、前記振幅変動率および前記周期性波形の有無とに基づいて前記音素の音素種別を分類する音素分類手段と、
前記音素分類手段によって分類された前記音素それぞれに特徴量を算出する音素別特徴量算出手段と
をさらに備えたことを特徴とする請求項２または３に記載の音声強調装置。
前記音素境界情報と、前記修正判定手段による判定結果とに基づいて、前記入力された音声データと、前記波形修正手段によって修正された前記音素毎の音声データとを合成した音声データを出力する出力音声データ合成手段をさらに備えたことを特徴とする請求項１〜４のいずれか一つに記載の音声強調装置。
入力された音声データを音素別波形データ記憶手段に登録する音声登録装置であって、
前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力手段と、
前記音素識別情報出力手段によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を該音素毎に算出する波形特徴量算出手段と、
前記波形特徴量算出手段によって算出された前記波形特徴量に基づいて前記音声データが所定条件を充足するか否かを前記音素毎に判定する条件充足性判定手段と、
前記条件充足性判定手段によって前記所定条件を充足すると判定された前記音素毎の音声データを、前記音素別波形データ記憶手段に登録する音素別波形データ登録手段と
を備えたことを特徴とする音声登録装置。
入力された音声データの不明瞭部分を修正して出力する音声強調手順をコンピュータ・システムに実行させる音声強調プログラムであって、
前記音声データを音素に分解する音素境界情報とともに入力された該音声データの波形特徴量を該音素毎に算出する波形特徴量算出手順と、
前記波形特徴量算出手順によって算出された前記波形特徴量に基づいて前記音素毎に前記音声データの修正の必要性を判定する修正判定手順と、
前記修正判定手順によって修正の必要性があると判定された前記音素毎の音声データを、音素別波形データ記憶手順に予め記憶されている波形データを用いて修正する波形修正手順と
を前記コンピュータ・システムに実行させることを特徴とする音声強調プログラム。
入力された音声データを音素別波形データ記憶手順に登録する音声登録手順を
コンピュータ・システムに実行させる音声登録プログラムであって、
前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力手順と、
前記音素識別情報出力手順によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を該音素毎に算出する波形特徴量算出手順と、
前記波形特徴量算出手順によって算出された前記波形特徴量に基づいて前記音声データが所定条件を充足するか否かを前記音素毎に判定する条件充足性判定手順と、
前記条件充足性判定手順によって前記所定条件を充足すると判定された前記音素毎の音声データを、前記音素別波形データ記憶手順に登録する音素別波形データ登録手順と
を前記コンピュータ・システムに実行させることを特徴とする音声登録プログラム。
入力された音声データの不明瞭部分を修正して出力する音声強調方法であって、
前記音声データを音素に分解する音素境界情報とともに入力された該音声データの波形特徴量を該音素毎に算出する波形特徴量算出工程と、
前記波形特徴量算出工程によって算出された前記波形特徴量に基づいて前記音素毎に前記音声データの修正の必要性を判定する修正判定工程と、
前記修正判定工程によって修正の必要性があると判定された前記音素毎の音声データを、音素別波形データ記憶工程に予め記憶されている波形データを用いて修正する波形修正工程と
を含んだことを特徴とする音声強調方法。
入力された音声データを音素別波形データ記憶工程に登録する音声登録方法であって、
前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力工程と、
前記音素識別情報出力工程によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を該音素毎に算出する波形特徴量算出工程と、
前記波形特徴量算出工程によって算出された前記波形特徴量に基づいて前記音声データが所定条件を充足するか否かを前記音素毎に判定する条件充足性判定工程と、
前記条件充足性判定工程によって前記所定条件を充足すると判定された前記音素毎の音声データを、前記音素別波形データ記憶工程に登録する音素別波形データ登録工程と
を含んだことを特徴とする音声登録方法。