JP2008070564A - 音声強調装置、音声登録装置、音声強調プログラム、音声登録プログラム、音声強調方法および音声登録方法 - Google Patents

音声強調装置、音声登録装置、音声強調プログラム、音声登録プログラム、音声強調方法および音声登録方法 Download PDF

Info

Publication number
JP2008070564A
JP2008070564A JP2006248587A JP2006248587A JP2008070564A JP 2008070564 A JP2008070564 A JP 2008070564A JP 2006248587 A JP2006248587 A JP 2006248587A JP 2006248587 A JP2006248587 A JP 2006248587A JP 2008070564 A JP2008070564 A JP 2008070564A
Authority
JP
Japan
Prior art keywords
phoneme
speech
waveform
data
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006248587A
Other languages
English (en)
Other versions
JP4946293B2 (ja
Inventor
Chikako Matsumoto
智佳子 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006248587A priority Critical patent/JP4946293B2/ja
Priority to EP07113439A priority patent/EP1901286B1/en
Priority to US11/882,312 priority patent/US8190432B2/en
Priority to CN2007101466988A priority patent/CN101145346B/zh
Publication of JP2008070564A publication Critical patent/JP2008070564A/ja
Application granted granted Critical
Publication of JP4946293B2 publication Critical patent/JP4946293B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility
    • G10L2021/0575Aids for the handicapped in speaking

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Recording Or Reproducing By Magnetic Means (AREA)

Abstract

【課題】再生される音声において、破裂部の有無、破裂部に続く帯気部の音素長などの破裂音に係る問題箇所、あるいは摩擦音の振幅変動等に係る問題箇所を自動的に検出して自動修正する。
【解決手段】本発明の音声強調装置は、子音や無声母音が不明瞭であったり、耳障りであったりする音声を入力として、該音声強調装置において、音声を音素に分解し、各音素を無声破裂音、有声破裂音、無声摩擦音、有声摩擦音、破擦音、無声母音のいずれかに分類し、各音素の修正の必要性の判定に応じて各音素を修正することによって、子音や無声母音が明瞭で、耳障りのないクリアな音声の出力が得られるようにした。
【選択図】 図1

Description

本発明は、入力された音声データの不明瞭部分を修正して出力する音声強調装置、音声登録装置、音声強調プログラム、音声登録プログラム、音声強調方法および音声登録方法に関し、特に、破裂部の有無、破裂部に続く帯気部の音素長などの破裂音に係る問題箇所、あるいは摩擦音の振幅変動等に係る問題箇所を自動的に検出して自動修正することを可能とする音声強調装置、音声登録装置、音声強調プログラム、音声登録プログラム、音声強調方法および音声登録方法に関する。
人間の声を含む音声を収録した音声データは、容易に複製可能であることから、何度も再利用されることが一般的である。特に、インターネットにおけるポッドキャスティングのように、音声をデジタル録音した音声データは、再配布が容易であるために、再利用される機会が多い。
しかし、人間の声は、常に明瞭に発声されるものとは限らないため、例えば、カ行やサ行の音量が他に比べて大きかったり、リップノイズが混ざって非常に聞きづらかったりする場合がある。また、複製して再配布が容易であるため、ダウンサンプリングやエンコード・デコードの繰り返しによって、子音部分が不明瞭になってしまう場合もある。子音部分が不明瞭となることが、再生された音声データを聞き取りづらくする大きな原因となっている。
しかし、子音が不明瞭であったりリップノイズが混ざっていたりしても、再収録は工数がかかるために、収録音声のまま配布されることが多い。また、ダウンサンプリングやエンコード・デコードの繰り返しによって、子音部分が不明瞭になってしまった場合も、複製による音質劣化として受忍しなければならない。
そこで、音声データを聞き取りやすく再生するために、収録音声データの問題箇所を自動検出し、自動修正する種々の技術が考案されてきた。例えば、音声の子音部分の明瞭度を向上させる技術として、音声に含まれる雑音周波数成分をローパスフィルタによってカットして音声帯域を聞きやすくする技術がある。
また、特許文献1には、音声の子音部分を強調する方法として、ケプストラムのピッチによって検出された子音部分を、該ケプストラムに制御関数を畳み込むことによって該ケプストラムのピッチが短くなるように制御することによって強調する子音強調方法が開示されている。
また、特許文献2には、音韻情報に基づき、子音部分の帯域強調、もしくは子音あるいは子音とそれに続く母音への連続部分の振幅強調処理を行う音声合成装置が開示されている。さらに、特許文献3には、無声子音の特徴を示すスペクトル特性を伝達関数とするフィルタを構成し、音素のスペクトル分布に対してフィルタ処理を施すことによって、スペクトル分布の特徴を強調する音声合成装置が開示されている。
特開平8−275087号公報 特開2004−4952号公報 特開2003−345373号公報
しかしながら、音声の明瞭度が低い音や耳障りな音が子音や無声母音にある場合には、破裂部の有無、破裂部に続く帯気部の音素長などの破裂音に起因する問題、あるいは摩擦音の振幅変動等に起因する問題であることが多い。このため、上記特許文献1〜3に代表される従来技術では、子音または有声母音を検出して修正することは可能であるが、音素をさらに分割して破裂音に係る問題箇所、あるいは摩擦音の振幅変動等に係る問題箇所を検出して修正することはできなかった。また、元音声の子音部分を強調するだけでは、元の音声自体に問題がある場合、問題箇所も強調してしまい、さらに音声を聞き取りづらくしてしまうという問題点もあった。
本発明は、上記問題点(課題)を解消するためになされたものであって、再生される音声において、破裂部の有無、破裂部に続く帯気部の音素長などの破裂音に係る問題箇所、あるいは摩擦音の振幅変動等に係る問題箇所を自動的に検出して自動修正することを可能とする音声強調装置、音声登録装置、音声強調プログラム、音声登録プログラム、音声強調方法および音声登録方法を提供することを目的とする。
上述した問題を解決し、目的を達成するため、本発明は、入力された音声データの不明瞭部分を修正して出力する音声強調装置であって、前記音声データを音素に分解する音素境界情報とともに入力された該音声データの波形特徴量を該音素毎に算出する波形特徴量算出手段と、前記波形特徴量算出手段によって算出された前記波形特徴量に基づいて前記音素毎に前記音声データの修正の必要性を判定する修正判定手段と、前記修正判定手段によって修正の必要性があると判定された前記音素毎の音声データを、音素別波形データ記憶手段に予め記憶されている波形データを用いて修正する波形修正手段とを備えたことを特徴とする。
また、本発明は、上記発明において、前記音声データの有声/無声の区切りを判定して有声/無声境界情報を前記音素境界情報として出力する有声/無声境界情報出力手段をさらに備え、前記波形特徴量算出手段は、前記有声/無声境界情報出力手段によって出力された前記有声/無声境界情報とともに入力された前記音声データの波形特徴量を前記音素毎に算出することを特徴とする。
また、本発明は、上記発明において、前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力手段をさらに備え、前記波形特徴量算出手段は、前記音素識別情報出力手段によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を前記音素毎に算出することを特徴とする。
また、本発明は、上記発明において、前記波形特徴量算出手段は、前記入力された音声データを、前記音素境界情報に基づいて前記音素に分割する音声データ分割手段と、前記音声データ分割手段によって分割された前記音素に基づいて該音素の振幅値、振幅変動率および周期性波形の有無を測定する振幅変動測定手段と、前記振幅変動測定手段によって測定された前記振幅値および前記振幅変動率と、前記音声データ分割手段によって分割された前記音素とに基づいて該音素の破裂部および帯気部を検出する破裂部/帯気部検出手段と、前記破裂部/帯気部検出手段による検出結果と、前記振幅変動測定手段によって測定された前記振幅値、前記振幅変動率および前記周期性波形とに基づいて前記音素の音素種別を分類する音素分類手段と、前記音素分類手段によって分類された前記音素それぞれに特徴量を算出する音素別特徴量算出手段とをさらに備えたことを特徴とする。
また、本発明は、上記発明において、前記音素境界情報と、前記修正判定手段による判定結果とに基づいて、前記入力された音声データと、前記波形修正手段によって修正された前記音素毎の音声データとを合成した音声データを出力する出力音声データ合成手段をさらに備えたことを特徴とする。
また、本発明は、入力された音声データを音素別波形データ記憶手段に登録する音声登録装置であって、前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力手段と、前記音素識別情報出力手段によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を該音素毎に算出する波形特徴量算出手段と、前記波形特徴量算出手段によって算出された前記波形特徴量に基づいて前記音声データが所定条件を充足するか否かを前記音素毎に判定する条件充足性判定手段と、前記条件充足性判定手段によって前記所定条件を充足すると判定された前記音素毎の音声データを、前記音素別波形データ記憶手段に登録する音素別波形データ登録手段とを備えたことを特徴とする。
また、本発明は、入力された音声データの不明瞭部分を修正して出力する音声強調手順をコンピュータ・システムに実行させる音声強調プログラムであって、前記音声データを音素に分解する音素境界情報とともに入力された該音声データの波形特徴量を該音素毎に算出する波形特徴量算出手順と、前記波形特徴量算出手順によって算出された前記波形特徴量に基づいて前記音素毎に前記音声データの修正の必要性を判定する修正判定手順と、前記修正判定手順によって修正の必要性があると判定された前記音素毎の音声データを、音素別波形データ記憶手順に予め記憶されている波形データを用いて修正する波形修正手順とを前記コンピュータ・システムに実行させることを特徴とする。
また、本発明は、入力された音声データを音素別波形データ記憶手順に登録する音声登録手順をコンピュータ・システムに実行させる音声登録プログラムであって、前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力手順と、前記音素識別情報出力手順によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を該音素毎に算出する波形特徴量算出手順と、前記波形特徴量算出手順によって算出された前記波形特徴量に基づいて前記音声データが所定条件を充足するか否かを前記音素毎に判定する条件充足性判定手順と、前記条件充足性判定手順によって前記所定条件を充足すると判定された前記音素毎の音声データを、前記音素別波形データ記憶手順に登録する音素別波形データ登録手順とを前記コンピュータ・システムに実行させることを特徴とする。
また、本発明は、入力された音声データの不明瞭部分を修正して出力する音声強調方法であって、前記音声データを音素に分解する音素境界情報とともに入力された該音声データの波形特徴量を該音素毎に算出する波形特徴量算出工程と、前記波形特徴量算出工程によって算出された前記波形特徴量に基づいて前記音素毎に前記音声データの修正の必要性を判定する修正判定工程と、前記修正判定工程によって修正の必要性があると判定された前記音素毎の音声データを、音素別波形データ記憶工程に予め記憶されている波形データを用いて修正する波形修正工程とを含んだことを特徴とする。
また、本発明は、入力された音声データを音素別波形データ記憶工程に登録する音声登録方法であって、前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力工程と、前記音素識別情報出力工程によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を該音素毎に算出する波形特徴量算出工程と、前記波形特徴量算出工程によって算出された前記波形特徴量に基づいて前記音声データが所定条件を充足するか否かを前記音素毎に判定する条件充足性判定工程と、前記条件充足性判定工程によって前記所定条件を充足すると判定された前記音素毎の音声データを、前記音素別波形データ記憶工程に登録する音素別波形データ登録工程とを含んだことを特徴とする。
本発明によれば、音素境界情報によって区切られる音素毎の音声データの波形特徴量に基づいて、修正の必要があると判定された場合に音素別波形データ記憶手段に予め記憶されている波形データを用いて該音素毎の音声データを修正するので、例えば、不明瞭で聞き取りづらいとされる音声データを音素毎に修正を行って、聞き取りやすい音声データを得ることが可能となるという効果を奏する。
また、本発明によれば、有声/無声境界情報によって区切られる音素毎の音声データの波形特徴量に基づいて、修正の必要があると判定された場合に音素別波形データ記憶手段に予め記憶されている波形データを用いて該音素毎の音声データを修正するので、例えば、不明瞭で聞き取りづらいとされる音声データを有声/無声境界情報によって区切られる音素毎に修正を行って、聞き取りやすい音声データを得ることが可能となるという効果を奏する。
また、本発明によれば、テキストデータに言語処理を行って得られる音素列に音素識別情報を付与し、音素識別情報の境界を判定して得られる該音素識別情報の境界情報によって区切られる音素毎の音声データの波形特徴量に基づいて、修正の必要があると判定された場合に音素別波形データ記憶手段に予め記憶されている波形データを用いて該音素毎の音声データを修正するので、例えば、不明瞭で聞き取りづらいとされる音声データを音素識別情報によって区切られる音素毎に修正を行って、聞き取りやすい音声データを得ることが可能となるという効果を奏する。
また、本発明によれば、音声データの音素の振幅値、振幅変動率および周期性波形の有無を測定し、該音素の破裂部および帯気部を検出した結果に基づいて音素の音素種別を分類し、この分類された音素それぞれに特徴量を算出するので、子音や無声母音など不明瞭になりやすい音声部分を検出して修正することが可能となるという効果を奏する。
また、本発明によれば、入力された音声データと、波形修正手段によって修正された音素毎の音声データとを合成した音声データを出力するので、不明瞭な音声部分のみを修正した音声データを出力し、音声データ本来の特性を大きく変えることなく不明瞭部分の修正を行うことが可能となるという効果を奏する。
また、本発明によれば、テキストデータに言語処理を行って得られる音素列に音素識別情報を付与し、音素識別情報の境界を判定して得られる該音素識別情報の境界情報によって区切られる音素毎に、所定条件を充足する音声データを音素別波形データ記憶手段に登録して、この登録された音声データを修正のために利用することを可能になるという効果を奏する。
以下に添付図面を参照し、本発明の音声強調装置、音声登録装置、音声強調プログラム、音声登録プログラム、音声強調方法および音声登録方法に係る実施例を詳細に説明する。なお、以下に示す実施例1および2では、本発明を、出力手段(例えば、スピーカ装置)が接続され、音声データを再生して出力手段から出力するコンピュータ装置に搭載される音声強調装置に適用した場合を示すこととする。しかし、これらに限らず、出力手段から再生された音声を発する音声再生装置一般に広く適用されることとしてもよい。また、以下に示す実施例3では、入力手段(例えば、マイクロホン装置)が接続され、サンプリングされた入力音声を記憶する記憶手段が接続されたコンピュータ装置に搭載される音声登録装置に適用した場合を示すこととする。
先ず、本発明の実施例1〜3の説明に先立って、本発明の特徴について説明する。図1は、本発明の特徴を説明するための説明図である。同図に示すように、本発明の音声強調装置は、子音や無声母音が不明瞭であったり、耳障りであったりする音声を入力として、該音声強調装置において、音声を音素に分解し、各音素を無声破裂音、有声破裂音、無声摩擦音、有声摩擦音、破擦音、無声母音のいずれかに分類し、各音素の修正の必要性の判定に応じて各音素を修正することによって、子音や無声母音が明瞭で、耳障りのないクリアな音声の出力が得られるものである。
ところで、音声の明瞭度の低い音や、耳障りな音が含まれ聞き取りづらい音声は、子音や無声母音が不明瞭であることが多い。特に、音声の明瞭度が低い音や耳障りな音が子音や無声母音にある場合には、破裂部の有無、破裂部に続く帯気部の音素長などの破裂音に起因する問題、あるいは摩擦音の振幅変動等に起因する問題であることが多い。ところが、従来は、子音部分を強調するだけで、元の音声自体に問題がある場合に問題箇所も強調してしまって、さらに音声を聞き取りづらくしてしまったり、破裂音に係る問題箇所、あるいは摩擦音の振幅変動に係る問題箇所を検出して修正したりすることはできなかった。
本発明は、かかる問題点を解決するためになされたものであって、聴取者にとって音声が聞き取りやすいようにするために、音声の音素毎の特徴量および該音素の前後の音素情報に基づいて該音素の種類別に特徴量の算出を行い、破裂部の有無、破裂部に続く帯気部の音素長などの破裂音に係る問題箇所、あるいは摩擦音の振幅変動等に係る問題箇所を自動的に検出し、音素代替や音素足し込みなどの自動修正を可能とした。
以下に図2および3を参照して、本発明の実施例1について説明する。図2は、実施例1に係る音声強調装置の構成を示す機能ブロック図である。同図に示すように、音声強調装置100は、波形特徴量算出部101と、修正判定部102と、有声/無声判定部103と、波形修正部104と、音素別波形データ格納部105と、波形生成部106とを有する。
波形特徴量算出部101は、入力音声を音素に分解して、この音素別に特徴量を出力する処理部であり、音素分割部101aと、振幅変動測定部101bと、破裂部/帯気部検出部101cと、音素分類部101dと、音素別特徴量算出部101eと、音素環境検出部101fとをさらに有する。
音素分割部101aは、入力音声を音素境界情報に基づいて分割する。なお、分割された音声データに周期成分がある場合には、パスフィルター等で予め低周波成分の除去を行っておく。
振幅変動測定部101bは、音素分割部101aによって分割された音声データを、n(n≧2)個のフレームに分割し、各フレームの振幅値を求め、この振幅値の最大値を平均し、この平均の変動率によって振幅変動率を検出する。
破裂部/帯気部検出部101cは、振幅変動測定部101bによって求められた振幅値および振幅変動率に基づいて、音素分割部101aによって分割された音声データに破裂部が存在するか否かの検出を行う。なお、破裂部の検出方法の一例としては、有音部、無音部を分割した後に、有音部の0クロス分布(音声データの波形の零点分布)と振幅変動率から検出する。そして、破裂部が存在した場合には、破裂部の長さ、破裂部に続く帯気部の長さの検出を行う。
音素分類部101dは、振幅変動測定部101bによって求められた振幅変動率に基づいて、破裂部/帯気部検出部101cによる検出結果である破裂部の有無、帯気部の有無から、無声破裂音、有声破裂音、無声摩擦音、破擦音、有声摩擦音、周期性波形のいずれの波形であるかの分類を行う。
音素別特徴量算出部101eは、音素分割部101aによって分類された音素種別毎に特徴量を算出し、これを音素別特徴量として出力する。例えば、音素種別が無声破裂音の場合には、破裂部の有無、破裂部の個数、破裂部の最大振幅値、帯気部の有無、帯気部の長さ、破裂部の前の無音部の長さが特徴量となる。また、音素種別が破擦音の場合には、破裂部の前の無音部の長さ、振幅変動率、振幅最大値が特徴量となる。また、無声摩擦音の場合には、振幅変動率、振幅最大値が特徴量となる。また、音素種別が有声破裂音の場合には、破裂部の有無が特徴量となる。
音素環境検出部101fは、音素分割部101aによって分割された音声データの音素の前置音、後置音を判定し、前置音、後置音が無音であるか、有音であるか、あるいは有声であるか、無声であるかを判定し、その判定結果を音素環境検出結果として出力する。
修正判定部102は、波形特徴量算出部101によって算出された音素別特徴量と、音素種類とが入力され、各音素種類と音素別特徴量に基づいて音素が修正を必要とするか否かを判定する処理部であり、音素別データ分配部102aと、無声破裂音判定部102bと、有声破裂音判定部102cと、無声摩擦音判定部102dと、有声摩擦音判定部102eと、破擦音判定部102fと、周期性波形判定部102gとを有する。
音素別データ分配部102aは、音素別特徴量算出部101eで算出された音素別特徴量を、音素種別と音素環境とに基づいて音素種別の各判定部、即ち無声破裂音判定部102b、有声破裂音判定部102c、無声摩擦音判定部102d、有声摩擦音判定部102e、破擦音判定部102f、周期性波形判定部102gのいずれかへ分配する。
無声破裂音判定部102bは、無声破裂音の音素別特徴量の入力を受け付け、該音素別特徴量を元に音素を修正すべきか否かの判定を行い、判定結果を出力する。有声破裂音判定部102cは、有声破裂音の音素特徴量の入力を受け付け、該音素特徴量を元に音素を修正すべきか否かの判定を行い、判定結果を出力する。無声摩擦音判定部102dは、無声摩擦音の音素特徴量の入力を受け付け、該音素特徴量を元に音素を修正すべきか否かの判定を行い、判定結果を出力する。有声摩擦音判定部102eは、有声摩擦音の音素特徴量の入力を受け付け、該音素特徴量を元に音素を修正すべきか否かの判定を行い、判定結果を出力する。破擦音判定部102fは、破擦音の音素特徴量の入力を受け付け、該音素特徴量を元に音素を修正すべきか否かの判定を行い、判定結果を出力する。周期性波形判定部102gは、周期性波形(無声母音)の音素特徴量の入力を受け付け、該音素特徴量を元に音素を修正すべきか否かの判定を行い、判定結果を出力する。
なお、音素別特徴量算出部101eは、無声音が連続する場合は、無音部を境界として、特徴量の算出を行う。
有声/無声判定部103は、入力音声が入力され、この入力音声を有声、無声に分類し、有声/無声情報と、有声か、無声摩擦音や無声破裂音等からなる無声かの有声/無声境界情報とを出力する。有声/無声判定部103は、入力音声のある低周波数の閾値(例えば、250Hz)以下のパワーを求め、更に時間フレーム(例えば、0.2秒)あたりのパワー最大値で正規化したデータから、ある閾値以下のものを無声、ある閾値以上の部分を有声であると判定する。
波形修正部104は、入力音声と、その有声/無声境界情報と、修正判定部102による判定結果と、音素種類との入力を受け付け、修正すべきであると判定された音素について、音素別波形データ格納部105に格納されている波形データを用いて代替、もしくは元データに付加する(足し込む)修正を行い、修正後の音声データを出力する。
なお、波形修正部104において、音素別特徴量と、音素環境検出結果に基づき、音素を修正すべきかの判定を行う例としては、前置音/後置音が、有音で有声であるという検出結果である場合には、該当音素の音素先頭、音素末尾の振幅が大きくても、前置音/後置音の素片の影響であるとみなし、修正対象としない。音素の音素先頭、音素末尾を除いた中間部分の振幅変動で、修正すべきかどうかの判断を行う。一方、前置音が無音である場合に、音素片の音素頭の振幅変動がみられる場合や、後置音が無音である場合に、音素の音素末尾に振幅変動がみられる場合には、修正すべきであると判断する。
波形生成部106は、入力音声と、その有声/無声境界情報と、修正判定部102による判定結果と、波形修正部104による修正結果との入力を受け付け、入力音声に対して修正を施した部分と、修正を施していない部分とを接続し、出力音声として出力する。
なお、図2において、波形特徴量算出部101へは、有声/無声境界情報に限らず、広く一般的な音素境界情報が入力されることとしてもよい。この場合、有声/無声判定部103は、省略可能である。この有声/無声判定部103が省略されることによって、波形修正部104へも、音素境界情報が入力されることとなる。ここで、音素とは、例えば「た」という音節の場合は、“t-a”という子音“t”と母音“a”の2つの音素片から構成されているが、この“t”と“a”の各々の境界という意味である。
また、図2において、音素環境検出部101fも省略可能である。音素環境検出部101fが省略された場合には、前後の音が無音であるか、有音であるか、有声であるか、無声であるかの検出はおこなわず、音素別特徴量を、音素種別のみに基づいて音素種別の各判定部、即ち無声破裂音判定部102b、有声破裂音判定部102c、無声摩擦音判定部102d、有声摩擦音判定部102e、破擦音判定部102f、周期性波形判定部102gのいずれかへ分配することとなる。
次に、実施例1の音声強調処理について説明する。図3は、実施例1の音声強調処理手順を示すフローチャートである。同図に示すように、先ず、有声/無声判定部103は、入力音声の有声/無声境界情報を取得する(ステップS101)。なお、有声/無声判定部103が省略される場合は、実施例1の音声強調装置100は、広く一般的な音素境界情報を取得し、この音素境界情報を、波形特徴量算出部101、波形修正部104、波形生成部106へ入力することとなる。
続いて、音素分割部101aは、入力音声を、有声/無声境界情報(有声/無声判定部103が省略される場合には、広く一般的な音素境界情報)に基づいて、音素に分割する(ステップS102)。
続いて、振幅変動測定部101bは、分割された音素の振幅値、振幅変動率を算出する(ステップS103)。続いて、破裂部/帯気部検出部101cは、振幅値および振幅変動率に基づき、破裂部/帯気部を検出する(ステップS104)。続いて、音素分類部101dは、検出された破裂部/帯気部と、振幅変動率とに基づき、音素を音素種類で分類する(ステップS105)。続いて、音素別特徴量算出部101eは、分類された音素の特徴量を算出する(ステップS106)。
続いて、音素環境検出部101fは、ステップS102で分割された音素の前置音/後置音の音声データが、無音であるか、有音であるか、あるいは有声であるか、無声であるかの音素環境を判定する(ステップS107)。なお、音素環境検出部101fが省略される場合には、ステップS107は省略される。
続いて、音素別データ分配部102aは、音素種別と、前置音/後置音の音素環境判定結果とに基づき、各音素の特徴量を各音素種別に分配する(ステップS108)。なお、音素環境検出部101fが省略される場合には、音素別データ分配部102aは、音素種別のみに基づいて音素の特徴量を各音素種別に分配することとなる。続いて、無声破裂音判定部102b、有声破裂音判定部102c、無声摩擦音判定部102d、有声摩擦音判定部102e、破擦音判定部102fまたは周期性波形判定部102gは、音素種別毎に音素の修正の必要性を判定する(ステップS109)。
続いて、波形修正部104は、有声/無声境界情報(有声/無声判定部103が省略される場合には、広く一般的な音素境界情報)と、音素種類と、ステップS109による修正判定結果とに基づいて、音素別波形データ格納部105を参照して、音素を修正する(ステップS110)。続いて、有声/無声境界情報(有声/無声判定部103が省略される場合には、広く一般的な音素境界情報)に基づき、修正された音素と、修正されていない音素とを接続して出力する(ステップS111)。
以下に図4および5を参照して、本発明の実施例2について説明する。実施例2では、実施例1との差分のみを説明する。図4は、実施例2に係る音声強調装置の構成を示す機能ブロック図である。同図に示すように、音声強調装置100は、波形特徴量算出部101と、修正判定部102と、波形修正部104と、音素別波形データ格納部105と、波形生成部106と、言語処理部107と、音素ラベリング部108とを有する。波形特徴量算出部101、修正判定部102、波形修正部104、音素別波形データ格納部105および波形生成部106は、実施例1と同様であるので、ここでの説明を省略する。
言語処理部107は、入力音声の内容を示すテキストデータが入力されると、言語処理が施され、音素列が出力される。音素列は、例えば、テキストデータが「だたいま」であった場合には、音素列は「tadaima」である。音素ラベリング部108では、入力音声と音素列とが入力されると、入力音声に対して音素ラベリングを行い、各音素の音素ラベルと各音素の境界情報を出力する。
そして、言語処理部107によって出力された音素ラベルおよび音素境界情報は、音素分割部101a、波形修正部104、波形生成部106へ入力されることとなる。音素分割部101aは、入力音声を音素ラベルおよび音素境界情報に基づいて分割する。波形修正部104は、入力音声と、音素ラベルと、音素境界情報と、修正判定部102による判定結果と、音素種類との入力を受け付け、修正すべきであると判定された音素について、音素別波形データ格納部105に格納されている波形データを用いて代替、もしくは元データに付加する(足し込む)修正を行い、修正後の音声データを出力する。波形生成部106は、入力音声と、音素ラベルと、音素境界情報と、修正判定部102による判定結果と、波形修正部104による修正結果との入力を受け付け、入力音声に対して修正を施した部分と、修正を施していない部分とを接続し、出力音声として出力する。
なお、波形修正部104には音素ラベルが入力されるため、各音素を修正すべきか否かの判定は、音素ラベルに基づく判定基準で行う。例えば、音素ラベルが“k”である場合には、帯気部の長さがある閾値以上であることが判定基準のひとつとなる。
実施例2の修正判定部102では、音素ラベルと、音素特徴量が入力されると、各音素ラベルと特徴量に基づいて、音素を修正すべきかどうかの判定を行う。例えば、音素ラベルが“k”であった場合には、破裂部が一つだけであるか、破裂部の振幅絶対値の最大値が閾値以下であるか、帯気部の長さが閾値以上であるかが判定基準となる。音素が“p”、“t”の場合には、破裂部が一つだけであるか、破裂部の振幅絶対値の最大値が閾値以下であるかが判定基準となる。
また、音素が“b”、“d”、“g”である場合には、破裂部が存在するか、周期性波形部分が存在するかが判定基準となる。破裂部がない場合が、修正対象となる。音素ラベルが“r”である場合には、破裂部が存在するかが判定基準となり、破裂部があった場合に、修正対象となる。また、音素ラベルが、“s”、“sH”、“f”、“h”、“j”、“z”である場合には、振幅変動、振幅絶対値の最大値が閾値以下であるかが判定基準になる。
従って、ここでは音素ラベルが入力されるので、例えば音素ラベルが“k”であるのに帯気部が短いために“k”に聞こえない場合や、ラベルは“d”であるのに破裂部がなく“r”に異聴される音素や、音素ラベルは“g”であるのに破裂部がなくて“n”と区別できない音素や、音素ラベルは“n”であるのにノイズが混ざって“g”のように聴こえてしまうような音素についても、判定によって修正対象となる。
また、実施例2の波形修正部104には、入力音声と、その音素ラベル境界情報、判定情報、音素種類が入力される。修正すべきであると判断された音素については、音素別波形データ格納部105にあるデータを用いて代替、もしくは元データに足し込む、破裂部の削除、振幅変動率の大きいフレームの削除等の修正を行い、修正後の音声データを出力する。
実施例2で音素別特徴量算出部101eによって算出される音素別特徴量は、音素ラベルが“k”であった場合は、破裂部の有無、長さ、個数、破裂部の振幅絶対値の最大値、破裂部に続く帯気部の長さのいずれか一つ以上になる。音素ラベルが“b”、“d”または“g”であった場合は、破裂部の有無、周期性波形の有無、前の音素環境のいずれか一つ以上になる。音素ラベルが、“s”、“sH”であった場合には、特徴量は振幅変動と前後の音素環境のいずれか一つ以上である。
次に、実施例2の音声強調処理について説明する。図5は、実施例2の音声強調処理手順を示すフローチャートである。同図に示すように、先ず、言語処理部107は、入力音声に対応するテキストデータの入力を受け付け、このテキストデータに言語処理を施し、音素列を出力する(ステップS201)。
続いて、音素ラベリング部108は、音素列に基づき入力音声に音素ラベルを付加し、各音素の音素ラベルと音素境界情報とを出力する(ステップS202)。続いて、音素分割部101aは、入力音声を、各音素の音素ラベルと、音素境界情報とに基づいて、入力音声を音素ラベル境界で音素に分割する(ステップS203)。
続いて、振幅変動測定部101bは、分割された音素の振幅値、振幅変動率を算出する(ステップS204)。続いて、破裂部/帯気部検出部101cは、振幅値および振幅変動率に基づき、破裂部/帯気部を検出する(ステップS205)。続いて、音素分類部101dは、検出された破裂部/帯気部と、振幅変動率とに基づき、音素を音素種類で分類する(ステップS206)。続いて、音素別特徴量算出部101eは、分類された音素の特徴量を算出する(ステップS207)。
続いて、音素環境検出部101fは、ステップS203で分割された音素の前置音/後置音の音声データが、無音であるか、有音であるか、あるいは有声であるか、無声であるかの音素環境を判定する(ステップS208)。
続いて、音素別データ分配部102aは、音素種別と、前置音/後置音の音素環境判定結果とに基づき、各音素の特徴量を各音素種別に分配する(ステップS209)。続いて、無声破裂音判定部102b、有声破裂音判定部102c、無声摩擦音判定部102d、有声摩擦音判定部102e、破擦音判定部102fまたは周期性波形判定部102gは、音素種別毎に音素の修正の必要性を判定する(ステップS210)。
続いて、波形修正部104は、音素ラベルと、音素境界情報と、音素種類と、ステップS109による修正判定結果とに基づいて、音素別波形データ格納部105を参照して、音素を修正する(ステップS211)。続いて、音素ラベルと、音素境界情報とに基づき、修正された音素と、修正されていない音素とを接続して出力する(ステップS212)。
次に、実施例1および実施例2の波形修正部104による波形修正の概要について説明する。図6〜8は、波形修正部104による波形修正の概要を説明するための説明図である。図6は、破裂部のない音素“d”を波形特徴量算出部101の算出結果から検出し、修正判定部102で修正すると判定された音素“d”を、音素別波形データ格納部105にある破裂部のある音素“d”に代替した例である。
また、図7は、破裂部のない音素“d”に、音素別波形データ格納部105の破裂部のある音素“d”を足し込んだ例である。
また、図8は、リップノイズによって、振幅変動が大きい無声摩擦音“sH”および“s”を、音素別波形データ格納部105の振幅変動のない“sH”および“s”で代替した例である。
例えば、「ただいま」が「たらいま」に聞こえてしまうような場合は、“t-a-d-a-i-m-a”の“d”の部分に破裂部がないために、“r”に異聴してしまう例である。このような例の場合に、図7や8で示すような波形修正を施すと効果的である。
その他の波形修正部104の実施例としては、破裂部が2つある破裂音の場合に、破裂部を1つ削除する方法がある。また、摩擦音で振幅変動の大きい短い区間があった場合、その振幅変動の大きい区間を削除する方法がある。以上のように、「音素別波形データ格納部」のデータに代替したり、足し込んだリ、削除したりすることによって、波形修正を行う。
以下に図9および10を参照して、本発明の実施例3について説明する。実施例3は、実施例1および実施例2の音素別波形データ格納部105へ音素を格納するための音声登録装置に関する実施例である。なお、実施例3では、音素別波形データ格納部105を音素別波形データ格納部205とする。図9は、実施例3に係る音声登録装置の構成を示す機能ブロック図である。同図に示すように、音声登録装置200は、波形特徴量算出部201と、登録判定部202と、波形登録部204と、音素別波形データ格納部205と、言語処理部207と、音素ラベリング部208とを有する。
波形特徴量算出部201は、音素分割部201aと、振幅変動測定部201bと、破裂部/帯気部検出部201cと、音素分類部201dと、音素別特徴量算出部201eと、音素環境検出部201fとをさらに有するが、実施例1および実施例2の音素分割部101aと、振幅変動測定部101bと、破裂部/帯気部検出部101cと、音素分類部101dと、音素別特徴量算出部101eと、音素環境検出部101fとそれぞれ同一であるので、ここでの説明を省略する。
また、登録判定部202は、基本的には実施例1および実施例2の修正判定部102と同一であり、音素別データ分配部202aと、無声破裂音判定部202bと、有声破裂音判定部202cと、無声摩擦音判定部202dと、有声摩擦音判定部202eと、破擦音判定部202fと、周期性波形判定部202gとを有するが、実施例1および実施例2の音素別データ分配部102aと、無声破裂音判定部102bと、有声破裂音判定部102cと、無声摩擦音判定部102dと、有声摩擦音判定部102eと、破擦音判定部102fと、周期性波形判定部102gと同一である。
ただし、実施例2の修正判定部102では、各音素種類の特徴量から判断して、問題のある音素片を修正すべき素片として選択したが、実施例3の登録判定部202では、各音素種類の特徴量から判断して、問題ない音素片を判定する。例えば、無声破裂音の“k”の場合、破裂部が一つだけあり、帯気部がある閾値以上の長さであり、破裂部の振幅値が閾値内であることを判定基準として、登録するか判定する。また、無声摩擦音の“s”、“sH”等の場合は、振幅変動率が大きくないこと、全振幅値が所定範囲内であること、音素長が閾値以上であることを判定基準として、登録するか判定する。また、有声破裂音である“b”、“d”、“g”の場合、周期成分がないこと、破裂部があることを判定基準として、登録するか判定する。
波形登録部204は、登録判定部202の破低結果に基づいて、登録すると判定された音素片については、音素ラベルおよび音素境界情報を音素別波形データ格納部205に格納する。この音素別波形データ格納部205は、実施例1および実施例2において音素別波形データ格納部105として提供されるものである。
なお、実施例3の音素別波形データ格納部205は、実施例1および実施例2において音素別波形データ格納部105として提供されることから、音声登録装置200とは独立した構成を取る記憶手段としてもよい。また、同様に、実施例1および実施例2の音素別波形データ格納部105も、音声強調装置100とは独立した構成を取ることとしてもよい。
また、言語処理部207は、実施例2の言語処理部107と、音素ラベリング部208は、実施例2の音素ラベリング部108と同一であるので、ここでの説明を省略する。
次に、実施例3の音声登録処理について説明する。図10は、実施例3の音声登録処理手順を示すフローチャートである。同図に示すように、先ず、言語処理部207は、入力音声に対応するテキストデータの入力を受け付け、このテキストデータに言語処理を施し、音素列を出力する(ステップS301)。
続いて、音素ラベリング部208は、音素列に基づき入力音声に音素ラベルを付加し、各音素の音素ラベルと音素境界情報とを出力する(ステップS302)。続いて、音素分割部201aは、入力音声を、各音素の音素ラベルと、音素境界情報とに基づいて、入力音声を音素ラベル境界で音素に分割する(ステップS303)。
続いて、振幅変動測定部201bは、分割された音素の振幅値、振幅変動率を算出する(ステップS304)。続いて、破裂部/帯気部検出部201cは、振幅値および振幅変動率に基づき、破裂部/帯気部を検出する(ステップS305)。続いて、音素分類部201dは、検出された破裂部/帯気部と、振幅変動率とに基づき、音素を音素種類で分類する(ステップS306)。続いて、音素別特徴量算出部201eは、分類された音素の特徴量を算出する(ステップS307)。
続いて、音素環境検出部201fは、ステップS303で分割された音素の前置音/後置音の音声データが、無音であるか、有音であるか、あるいは有声であるか、無声であるかの音素環境を判定する(ステップS308)。
続いて、音素別データ分配部202aは、音素種別と、前置音/後置音の音素環境判定結果とに基づき、各音素の特徴量を各音素種別に分配する(ステップS309)。続いて、無声破裂音判定部202b、有声破裂音判定部202c、無声摩擦音判定部202d、有声摩擦音判定部202e、破擦音判定部202fまたは周期性波形判定部202gは、音素種別毎に音素の修正の必要性があるか否かを判定する(ステップS310)。
続いて、波形登録部204は、音素ラベルと,音素境界情報と、音素種類と、ステップS310による登録判定結果とに基づいて、音素別波形データ格納部205へ当該音素を登録する(ステップS311)。
上記したように、本発明では、子音の種類毎に修正判定基準を設けている。破裂音に関しては破裂部の精度の高い検出を用いている。そのため、破裂部が二つあるものの検出や、破裂部に続く帯気部の長さの検出も可能である。摩擦音に関しても、精度のよい振幅変動を検出することが可能になる。請求項5の場合には、対象音素片の前置音、後置音の情報を使用することで、更に精度の高い修正判定を行うことが可能となる。
修正方法の中には、問題ありと検出された素片を、代替素片に置き換えたり、元音声に代替素片を足し込んだりする方法があり、欠けた破裂部を補うことも可能である。その結果、音量が大きく聴き辛いサ行やカ行の音を修正したり、二重破裂音を一つの破裂音に修正したりすることも可能になる。
また、音声データだけではなく、テキストが入力された場合には、「たらいま」になってしまった「ただいま」を修正したり、「こくがい(国外)」か「こくない(国内)」かのいずれであるかが分りにくい場合に修正したりすることも可能である。
なお、上記実施例で説明した各処理は、該各処理の手順を規定したプログラムをパーソナル・コンピュータ、サーバ又はワークステーションなどのコンピュータ・システムで実行することによって実現することが可能である。
以上、本発明の実施例を説明したが、本発明は、これに限られるものではなく、特許請求の範囲に記載した技術的思想の範囲内で、更に種々の異なる実施例で実施されてもよいものである。また、実施例に記載した効果は、これに限定されるものではない。
(付記1)入力された音声データの不明瞭部分を修正して出力する音声強調装置であって、
前記音声データを音素に分解する音素境界情報とともに入力された該音声データの波形特徴量を該音素毎に算出する波形特徴量算出手段と、
前記波形特徴量算出手段によって算出された前記波形特徴量に基づいて前記音素毎に前記音声データの修正の必要性を判定する修正判定手段と、
前記修正判定手段によって修正の必要性があると判定された前記音素毎の音声データを、音素別波形データ記憶手段に予め記憶されている波形データを用いて修正する波形修正手段と
を備えたことを特徴とする音声強調装置。
(付記2)前記音声データの有声/無声の区切りを判定して有声/無声境界情報を前記音素境界情報として出力する有声/無声境界情報出力手段をさらに備え、
前記波形特徴量算出手段は、前記有声/無声境界情報出力手段によって出力された前記有声/無声境界情報とともに入力された前記音声データの波形特徴量を前記音素毎に算出することを特徴とする付記1に記載の音声強調装置。
(付記3)前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力手段をさらに備え、
前記波形特徴量算出手段は、前記音素識別情報出力手段によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を前記音素毎に算出することを特徴とする付記1に記載の音声強調装置。
(付記4)前記波形特徴量算出手段は、
前記入力された音声データを、前記音素境界情報に基づいて前記音素に分割する音声データ分割手段と、
前記音声データ分割手段によって分割された前記音素に基づいて該音素の振幅値、振幅変動率および周期性波形の有無を測定する振幅変動測定手段と、
前記振幅変動測定手段によって測定された前記振幅値および前記振幅変動率と、前記音声データ分割手段によって分割された前記音素とに基づいて該音素の破裂部および帯気部を検出する破裂部/帯気部検出手段と、
前記破裂部/帯気部検出手段による検出結果と、前記振幅変動測定手段によって測定された前記振幅値、前記振幅変動率および前記周期性波形の有無とに基づいて前記音素の音素種別を分類する音素分類手段と、
前記音素分類手段によって分類された前記音素それぞれに特徴量を算出する音素別特徴量算出手段と
をさらに備えたことを特徴とする付記2または3に記載の音声強調装置。
(付記5)前記音素別特徴量算出手段は、前記振幅変動測定手段によって測定された前記音素の振幅値、振幅変動率、周期性波形の有無、前記破裂部/帯気部検出手段によって検出された前記音素の破裂部の有無、該破裂部の長さ、該破裂部に続く帯気部の有無、該帯気部の長さ、前記音素分類手段によって分類された該音素の前後の音素の音素種別のうちの少なくとも一つを前記特徴量として算出することを特徴とする付記4に記載の音声強調装置。
(付記6)前記修正判定手段は、前記音素分類手段によって分類された前記音素種別に応じて前記音声データの修正の必要性があるか否かを前記音素毎に判定することを特徴とする付記4または5に記載の音声強調装置。
(付記7)前記波形特徴量算出手段は、前記音声データ分割手段によって分割された前記音素の前後の音素の有音/無音の別、有声/無声の別を検出する音素環境検出手段をさらに備え、
前記修正判定手段は、前記波形特徴量算出手段によって算出された前記波形特徴量とともに、前記音素環境検出手段による検出結果に基づいて前記音素毎に前記音声データの修正の必要性を判定することを特徴とする付記4、5または6に記載の音声強調装置。
(付記8)前記音素境界情報と、前記修正判定手段による判定結果とに基づいて、前記入力された音声データと、前記波形修正手段によって修正された前記音素毎の音声データとを合成した音声データを出力する出力音声データ合成手段をさらに備えたことを特徴とする付記1〜7のいずれか一つに記載の音声強調装置。
(付記9)入力された音声データを音素別波形データ記憶手段に登録する音声登録装置であって、
前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力手段と、
前記音素識別情報出力手段によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を該音素毎に算出する波形特徴量算出手段と、
前記波形特徴量算出手段によって算出された前記波形特徴量に基づいて前記音声データが所定条件を充足するか否かを前記音素毎に判定する条件充足性判定手段と、
前記条件充足性判定手段によって前記所定条件を充足すると判定された前記音素毎の音声データを、前記音素別波形データ記憶手段に登録する音素別波形データ登録手段と
を備えたことを特徴とする音声登録装置。
(付記10)入力された音声データの不明瞭部分を修正して出力する音声強調手順をコンピュータ・システムに実行させる音声強調プログラムであって、
前記音声データを音素に分解する音素境界情報とともに入力された該音声データの波形特徴量を該音素毎に算出する波形特徴量算出手順と、
前記波形特徴量算出手順によって算出された前記波形特徴量に基づいて前記音素毎に前記音声データの修正の必要性を判定する修正判定手順と、
前記修正判定手順によって修正の必要性があると判定された前記音素毎の音声データを、音素別波形データ記憶手順に予め記憶されている波形データを用いて修正する波形修正手順と
を前記コンピュータ・システムに実行させることを特徴とする音声強調プログラム。
(付記11)前記音声データの有声/無声の区切りを判定して有声/無声境界情報を前記音素境界情報として出力する有声/無声境界情報出力手順を前記コンピュータ・システムにさらに実行させ、
前記波形特徴量算出手順は、前記有声/無声境界情報出力手順によって出力された前記有声/無声境界情報とともに入力された前記音声データの波形特徴量を前記音素毎に算出することを特徴とする付記10に記載の音声強調プログラム。
(付記12)前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力手順をコンピュータ・システムにさらに実行させ、
前記波形特徴量算出手順は、前記音素識別情報出力手順によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を前記音素毎に算出することを特徴とする付記10に記載の音声強調プログラム。
(付記13)前記波形特徴量算出手順は、
前記入力された音声データを、前記音素境界情報に基づいて前記音素に分割する音声データ分割手順と、
前記音声データ分割手順によって分割された前記音素に基づいて該音素の振幅値、振幅変動率および周期性波形の有無を測定する振幅変動測定手順と、
前記振幅変動測定手順によって測定された前記振幅値および前記振幅変動率と、前記音声データ分割手順によって分割された前記音素とに基づいて該音素の破裂部および帯気部を検出する破裂部/帯気部検出手順と、
前記破裂部/帯気部検出手順による検出結果と、前記振幅変動測定手順によって測定された前記振幅値、前記振幅変動率および前記周期性波形とに基づいて前記音素の音素種別を分類する音素分類手順と、
前記音素分類手順によって分類された前記音素それぞれに特徴量を算出する音素別特徴量算出手順と
をさらに含んだことを特徴とする付記11または12に記載の音声強調プログラム。
(付記14)前記音素別特徴量算出手順は、前記振幅変動測定手順によって測定された前記音素の振幅値、振幅変動率、周期性波形の有無、前記破裂部/帯気部検出手順によって検出された前記音素の破裂部の有無、該破裂部の長さ、該破裂部に続く帯気部の有無、該帯気部の長さ、前記音素分類手順によって分類された該音素の前後の音素の音素種別のうちの少なくとも一つを前記特徴量として算出することを特徴とする付記13に記載の音声強調プログラム。
(付記15)前記修正判定手順は、前記音素分類手順によって分類された前記音素種別に応じて前記音声データの修正の必要性があるか否かを前記音素毎に判定することを特徴とする付記13または14に記載の音声強調プログラム。
(付記16)前記波形特徴量算出手順は、前記音声データ分割手順によって分割された前記音素の前後の音素の有音/無音の別、有声/無声の別を検出する音素環境検出手順を前記コンピュータ・システムにさらに実行させ、
前記修正判定手順は、前記波形特徴量算出手順によって算出された前記波形特徴量とともに、前記音素環境検出手順による検出結果に基づいて前記音素毎に前記音声データの修正の必要性を判定することを特徴とする付記13、14または15に記載の音声強調プログラム。
(付記17)前記音素境界情報と、前記修正判定手順による判定結果とに基づいて、前記入力された音声データと、前記波形修正手順によって修正された前記音素毎の音声データとを合成した音声データを出力する出力音声データ合成手順をさらに前記コンピュータ・システムにさらに実行させることを特徴とする付記10〜16のいずれか一つに記載の音声強調プログラム。
(付記18)入力された音声データを音素別波形データ記憶手順に登録する音声登録手順を
コンピュータ・システムに実行させる音声登録プログラムであって、
前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力手順と、
前記音素識別情報出力手順によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を該音素毎に算出する波形特徴量算出手順と、
前記波形特徴量算出手順によって算出された前記波形特徴量に基づいて前記音声データが所定条件を充足するか否かを前記音素毎に判定する条件充足性判定手順と、
前記条件充足性判定手順によって前記所定条件を充足すると判定された前記音素毎の音声データを、前記音素別波形データ記憶手順に登録する音素別波形データ登録手順と
を前記コンピュータ・システムに実行させることを特徴とする音声登録プログラム。
(付記19)入力された音声データの不明瞭部分を修正して出力する音声強調方法であって、
前記音声データを音素に分解する音素境界情報とともに入力された該音声データの波形特徴量を該音素毎に算出する波形特徴量算出工程と、
前記波形特徴量算出工程によって算出された前記波形特徴量に基づいて前記音素毎に前記音声データの修正の必要性を判定する修正判定工程と、
前記修正判定工程によって修正の必要性があると判定された前記音素毎の音声データを、音素別波形データ記憶工程に予め記憶されている波形データを用いて修正する波形修正工程と
を含んだことを特徴とする音声強調方法。
(付記20)入力された音声データを音素別波形データ記憶工程に登録する音声登録方法であって、
前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力工程と、
前記音素識別情報出力工程によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を該音素毎に算出する波形特徴量算出工程と、
前記波形特徴量算出工程によって算出された前記波形特徴量に基づいて前記音声データが所定条件を充足するか否かを前記音素毎に判定する条件充足性判定工程と、
前記条件充足性判定工程によって前記所定条件を充足すると判定された前記音素毎の音声データを、前記音素別波形データ記憶工程に登録する音素別波形データ登録工程と
を含んだことを特徴とする音声登録方法。
本発明は、音声データの不明瞭部分を修正して明瞭な音声データを得たい場合に有用であり、特に、破裂部の有無、破裂部に続く帯気部の音素長などの破裂音に係る問題箇所、あるいは摩擦音の振幅変動等に係る問題箇所を自動的に検出して自動修正したい場合に有効である。
本発明の特徴を説明するための説明図である。 実施例1に係る音声強調装置の構成を示す機能ブロック図である。 実施例1の音声強調処理手順を示すフローチャートである。 実施例2に係る音声強調装置の構成を示す機能ブロック図である。 実施例2の音声強調処理手順を示すフローチャートである。 破裂部のない音素“d”を破裂部のある音素“d”で代替した例を示す図である。 破裂部のない音素“d”に破裂部のある音素“d”を足し込んだ例を示す図である。 リップノイズのある“sH”および“S”を代替した例を示す図である。 実施例3に係る音声登録装置の構成を示す機能ブロック図である。 実施例3の音声登録処理手順を示すフローチャートである。
符号の説明
100 音声強調装置
101 波形特徴量算出部
101a 音素分割部
101b 振幅変動測定部
101c 破裂部/帯気部検出部
101d 音素分類部
101e 音素別特徴量算出部
101f 音素環境検出部
102 修正判定部
102a 音素別データ分配部
102b 無声破裂音判定部
102c 有声破裂音判定部
102d 無声摩擦音判定部
102e 有声摩擦音判定部
102f 破擦音判定部
102g 周期性波形判定部
103 有声/無声判定部
104 波形修正部
105 音素別波形データ格納部
106 波形生成部
107 言語処理部
108 音素ラベリング部
200 音声登録装置
201 波形特徴量算出部
201a 音素分割部
201b 振幅変動測定部
201c 破裂部/帯気部検出部
201d 音素分類部
201e 音素別特徴量算出部
201f 音素環境検出部
202 登録判定部
202a 音素別データ分配部
202b 無声破裂音判定部
202c 有声破裂音判定部
202d 無声摩擦音判定部
202e 有声摩擦音判定部
202f 破擦音判定部
202g 周期性波形判定部
204 波形登録部
205 音素別波形データ格納部
207 言語処理部
208 音素ラベリング部

Claims (10)

  1. 入力された音声データの不明瞭部分を修正して出力する音声強調装置であって、
    前記音声データを音素に分解する音素境界情報とともに入力された該音声データの波形特徴量を該音素毎に算出する波形特徴量算出手段と、
    前記波形特徴量算出手段によって算出された前記波形特徴量に基づいて前記音素毎に前記音声データの修正の必要性を判定する修正判定手段と、
    前記修正判定手段によって修正の必要性があると判定された前記音素毎の音声データを、音素別波形データ記憶手段に予め記憶されている波形データを用いて修正する波形修正手段と
    を備えたことを特徴とする音声強調装置。
  2. 前記音声データの有声/無声の区切りを判定して有声/無声境界情報を前記音素境界情報として出力する有声/無声境界情報出力手段をさらに備え、
    前記波形特徴量算出手段は、前記有声/無声境界情報出力手段によって出力された前記有声/無声境界情報とともに入力された前記音声データの波形特徴量を前記音素毎に算出することを特徴とする請求項1に記載の音声強調装置。
  3. 前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力手段をさらに備え、
    前記波形特徴量算出手段は、前記音素識別情報出力手段によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を前記音素毎に算出することを特徴とする請求項1に記載の音声強調装置。
  4. 前記波形特徴量算出手段は、
    前記入力された音声データを、前記音素境界情報に基づいて前記音素に分割する音声データ分割手段と、
    前記音声データ分割手段によって分割された前記音素に基づいて該音素の振幅値、振幅変動率および周期性波形の有無を測定する振幅変動測定手段と、
    前記振幅変動測定手段によって測定された前記振幅値および前記振幅変動率と、前記音声データ分割手段によって分割された前記音素とに基づいて該音素の破裂部および帯気部を検出する破裂部/帯気部検出手段と、
    前記破裂部/帯気部検出手段による検出結果と、前記振幅変動測定手段によって測定された前記振幅値、前記振幅変動率および前記周期性波形の有無とに基づいて前記音素の音素種別を分類する音素分類手段と、
    前記音素分類手段によって分類された前記音素それぞれに特徴量を算出する音素別特徴量算出手段と
    をさらに備えたことを特徴とする請求項2または3に記載の音声強調装置。
  5. 前記音素境界情報と、前記修正判定手段による判定結果とに基づいて、前記入力された音声データと、前記波形修正手段によって修正された前記音素毎の音声データとを合成した音声データを出力する出力音声データ合成手段をさらに備えたことを特徴とする請求項1〜4のいずれか一つに記載の音声強調装置。
  6. 入力された音声データを音素別波形データ記憶手段に登録する音声登録装置であって、
    前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力手段と、
    前記音素識別情報出力手段によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を該音素毎に算出する波形特徴量算出手段と、
    前記波形特徴量算出手段によって算出された前記波形特徴量に基づいて前記音声データが所定条件を充足するか否かを前記音素毎に判定する条件充足性判定手段と、
    前記条件充足性判定手段によって前記所定条件を充足すると判定された前記音素毎の音声データを、前記音素別波形データ記憶手段に登録する音素別波形データ登録手段と
    を備えたことを特徴とする音声登録装置。
  7. 入力された音声データの不明瞭部分を修正して出力する音声強調手順をコンピュータ・システムに実行させる音声強調プログラムであって、
    前記音声データを音素に分解する音素境界情報とともに入力された該音声データの波形特徴量を該音素毎に算出する波形特徴量算出手順と、
    前記波形特徴量算出手順によって算出された前記波形特徴量に基づいて前記音素毎に前記音声データの修正の必要性を判定する修正判定手順と、
    前記修正判定手順によって修正の必要性があると判定された前記音素毎の音声データを、音素別波形データ記憶手順に予め記憶されている波形データを用いて修正する波形修正手順と
    を前記コンピュータ・システムに実行させることを特徴とする音声強調プログラム。
  8. 入力された音声データを音素別波形データ記憶手順に登録する音声登録手順を
    コンピュータ・システムに実行させる音声登録プログラムであって、
    前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力手順と、
    前記音素識別情報出力手順によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を該音素毎に算出する波形特徴量算出手順と、
    前記波形特徴量算出手順によって算出された前記波形特徴量に基づいて前記音声データが所定条件を充足するか否かを前記音素毎に判定する条件充足性判定手順と、
    前記条件充足性判定手順によって前記所定条件を充足すると判定された前記音素毎の音声データを、前記音素別波形データ記憶手順に登録する音素別波形データ登録手順と
    を前記コンピュータ・システムに実行させることを特徴とする音声登録プログラム。
  9. 入力された音声データの不明瞭部分を修正して出力する音声強調方法であって、
    前記音声データを音素に分解する音素境界情報とともに入力された該音声データの波形特徴量を該音素毎に算出する波形特徴量算出工程と、
    前記波形特徴量算出工程によって算出された前記波形特徴量に基づいて前記音素毎に前記音声データの修正の必要性を判定する修正判定工程と、
    前記修正判定工程によって修正の必要性があると判定された前記音素毎の音声データを、音素別波形データ記憶工程に予め記憶されている波形データを用いて修正する波形修正工程と
    を含んだことを特徴とする音声強調方法。
  10. 入力された音声データを音素別波形データ記憶工程に登録する音声登録方法であって、
    前記入力された音声データと、該音声データのテキストデータを言語処理することによって出力された音素列とに基づいて該音声データに音素識別情報を付与し、該音素識別情報の境界を判定して該音素識別情報の境界情報を前記音素境界情報として出力する音素識別情報出力工程と、
    前記音素識別情報出力工程によって出力された前記音素識別情報の境界情報とともに入力された前記音声データの波形特徴量を該音素毎に算出する波形特徴量算出工程と、
    前記波形特徴量算出工程によって算出された前記波形特徴量に基づいて前記音声データが所定条件を充足するか否かを前記音素毎に判定する条件充足性判定工程と、
    前記条件充足性判定工程によって前記所定条件を充足すると判定された前記音素毎の音声データを、前記音素別波形データ記憶工程に登録する音素別波形データ登録工程と
    を含んだことを特徴とする音声登録方法。
JP2006248587A 2006-09-13 2006-09-13 音声強調装置、音声強調プログラムおよび音声強調方法 Expired - Fee Related JP4946293B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2006248587A JP4946293B2 (ja) 2006-09-13 2006-09-13 音声強調装置、音声強調プログラムおよび音声強調方法
EP07113439A EP1901286B1 (en) 2006-09-13 2007-07-30 Speech enhancement apparatus, speech recording apparatus, speech enhancement program, speech recording program, speech enhancing method, and speech recording method
US11/882,312 US8190432B2 (en) 2006-09-13 2007-07-31 Speech enhancement apparatus, speech recording apparatus, speech enhancement program, speech recording program, speech enhancing method, and speech recording method
CN2007101466988A CN101145346B (zh) 2006-09-13 2007-08-24 语音增强设备和语音记录设备及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006248587A JP4946293B2 (ja) 2006-09-13 2006-09-13 音声強調装置、音声強調プログラムおよび音声強調方法

Publications (2)

Publication Number Publication Date
JP2008070564A true JP2008070564A (ja) 2008-03-27
JP4946293B2 JP4946293B2 (ja) 2012-06-06

Family

ID=38691794

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006248587A Expired - Fee Related JP4946293B2 (ja) 2006-09-13 2006-09-13 音声強調装置、音声強調プログラムおよび音声強調方法

Country Status (4)

Country Link
US (1) US8190432B2 (ja)
EP (1) EP1901286B1 (ja)
JP (1) JP4946293B2 (ja)
CN (1) CN101145346B (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010087171A1 (ja) * 2009-01-29 2010-08-05 パナソニック株式会社 補聴器および補聴処理方法
JP2014232245A (ja) * 2013-05-30 2014-12-11 日本電信電話株式会社 音声明瞭化装置、方法及びプログラム
JP2016018042A (ja) * 2014-07-07 2016-02-01 沖電気工業株式会社 音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器
JP2017037250A (ja) * 2015-08-12 2017-02-16 日本電信電話株式会社 音声強調装置、音声強調方法及び音声強調プログラム

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8046218B2 (en) 2006-09-19 2011-10-25 The Board Of Trustees Of The University Of Illinois Speech and method for identifying perceptual features
WO2010003068A1 (en) * 2008-07-03 2010-01-07 The Board Of Trustees Of The University Of Illinois Systems and methods for identifying speech sound features
WO2010078938A2 (de) * 2008-12-18 2010-07-15 Forschungsgesellschaft Für Arbeitsphysiologie Und Arbeitsschutz E. V. Verfahren und vorrichtung zum verarbeiten von akustischen sprachsignalen
AU2010347009B2 (en) * 2010-02-24 2014-05-22 Sivantos Pte. Ltd. Method for training speech recognition, and training device
DE102010041435A1 (de) * 2010-09-27 2012-03-29 Siemens Medical Instruments Pte. Ltd. Verfahren zum Rekonstruieren eines Sprachsignals und Hörvorrichtung
US9158759B2 (en) 2011-11-21 2015-10-13 Zero Labs, Inc. Engine for human language comprehension of intent and command execution
US9961442B2 (en) 2011-11-21 2018-05-01 Zero Labs, Inc. Engine for human language comprehension of intent and command execution
JP6284003B2 (ja) * 2013-03-27 2018-02-28 パナソニックIpマネジメント株式会社 音声強調装置及び方法
US9384731B2 (en) * 2013-11-06 2016-07-05 Microsoft Technology Licensing, Llc Detecting speech input phrase confusion risk
US8719032B1 (en) 2013-12-11 2014-05-06 Jefferson Audio Video Systems, Inc. Methods for presenting speech blocks from a plurality of audio input data streams to a user in an interface
US9472182B2 (en) * 2014-02-26 2016-10-18 Microsoft Technology Licensing, Llc Voice font speaker and prosody interpolation
US9666204B2 (en) 2014-04-30 2017-05-30 Qualcomm Incorporated Voice profile management and speech signal generation
US10332520B2 (en) 2017-02-13 2019-06-25 Qualcomm Incorporated Enhanced speech generation
TWI672690B (zh) * 2018-03-21 2019-09-21 塞席爾商元鼎音訊股份有限公司 人工智慧語音互動之方法、電腦程式產品及其近端電子裝置
CN110322885B (zh) * 2018-03-28 2023-11-28 达发科技股份有限公司 人工智能语音互动的方法、电脑程序产品及其近端电子装置
WO2019216037A1 (ja) * 2018-05-10 2019-11-14 日本電信電話株式会社 ピッチ強調装置、その方法、プログラム、および記録媒体
WO2019245916A1 (en) * 2018-06-19 2019-12-26 Georgetown University Method and system for parametric speech synthesis
CN110097874A (zh) * 2019-05-16 2019-08-06 上海流利说信息技术有限公司 一种发音纠正方法、装置、设备以及存储介质
CN112863531A (zh) * 2021-01-12 2021-05-28 蒋亦韬 通过计算机识别后重新生成进行语音音频增强的方法
CN113035223B (zh) * 2021-03-12 2023-11-14 北京字节跳动网络技术有限公司 音频处理方法、装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6126099A (ja) * 1984-07-16 1986-02-05 シャープ株式会社 音声基本周波数抽出方法
JPH0283595A (ja) * 1988-09-21 1990-03-23 Matsushita Electric Ind Co Ltd 音声認識方法
JPH02203399A (ja) * 1989-02-01 1990-08-13 Nec Corp 音声符号化方式
JPH0916193A (ja) * 1995-06-30 1997-01-17 Hitachi Ltd 話速変換装置
JPH1078798A (ja) * 1996-09-05 1998-03-24 Kazuhiko Shoji 音声信号処理装置
JP2000066694A (ja) * 1998-08-21 2000-03-03 Sanyo Electric Co Ltd 音声合成装置および音声合成方法
JP2002014689A (ja) * 2000-06-01 2002-01-18 Avaya Technology Corp デジタルに圧縮されたスピーチの了解度を向上させる方法および装置
JP2002268672A (ja) * 2001-03-13 2002-09-20 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声データベース用文セットの選択方法
JP2003345373A (ja) * 2002-05-29 2003-12-03 Matsushita Electric Ind Co Ltd 音声合成装置及び音声明瞭化方法
WO2004066271A1 (ja) * 2003-01-20 2004-08-05 Fujitsu Limited 音声合成装置,音声合成方法および音声合成システム
JP2007511793A (ja) * 2003-11-14 2007-05-10 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号処理システム及び方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4783807A (en) * 1984-08-27 1988-11-08 John Marley System and method for sound recognition with feature selection synchronized to voice pitch
CN85100180B (zh) * 1985-04-01 1987-05-13 清华大学 一种利用计算机对汉语语音进行识别的装置
US5146502A (en) * 1990-02-26 1992-09-08 Davis, Van Nortwick & Company Speech pattern correction device for deaf and voice-impaired
JPH08275087A (ja) 1995-04-04 1996-10-18 Matsushita Electric Ind Co Ltd 音声加工テレビ
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
GB9811019D0 (en) * 1998-05-21 1998-07-22 Univ Surrey Speech coders
US6795807B1 (en) * 1999-08-17 2004-09-21 David R. Baraff Method and means for creating prosody in speech regeneration for laryngectomees
US6510407B1 (en) * 1999-10-19 2003-01-21 Atmel Corporation Method and apparatus for variable rate coding of speech
JP3730461B2 (ja) * 1999-10-28 2006-01-05 山洋電気株式会社 防水型ブラシレスファンモータ
US7216079B1 (en) * 1999-11-02 2007-05-08 Speechworks International, Inc. Method and apparatus for discriminative training of acoustic models of a speech recognition system
JP3728172B2 (ja) * 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
US6728680B1 (en) * 2000-11-16 2004-04-27 International Business Machines Corporation Method and apparatus for providing visual feedback of speed production
JP2004004952A (ja) 2003-07-30 2004-01-08 Matsushita Electric Ind Co Ltd 音声合成装置および音声合成方法
US20070038455A1 (en) * 2005-08-09 2007-02-15 Murzina Marina V Accent detection and correction system

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6126099A (ja) * 1984-07-16 1986-02-05 シャープ株式会社 音声基本周波数抽出方法
JPH0283595A (ja) * 1988-09-21 1990-03-23 Matsushita Electric Ind Co Ltd 音声認識方法
JPH02203399A (ja) * 1989-02-01 1990-08-13 Nec Corp 音声符号化方式
JPH0916193A (ja) * 1995-06-30 1997-01-17 Hitachi Ltd 話速変換装置
JPH1078798A (ja) * 1996-09-05 1998-03-24 Kazuhiko Shoji 音声信号処理装置
JP2000066694A (ja) * 1998-08-21 2000-03-03 Sanyo Electric Co Ltd 音声合成装置および音声合成方法
JP2002014689A (ja) * 2000-06-01 2002-01-18 Avaya Technology Corp デジタルに圧縮されたスピーチの了解度を向上させる方法および装置
JP2002268672A (ja) * 2001-03-13 2002-09-20 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声データベース用文セットの選択方法
JP2003345373A (ja) * 2002-05-29 2003-12-03 Matsushita Electric Ind Co Ltd 音声合成装置及び音声明瞭化方法
WO2004066271A1 (ja) * 2003-01-20 2004-08-05 Fujitsu Limited 音声合成装置,音声合成方法および音声合成システム
JP2007511793A (ja) * 2003-11-14 2007-05-10 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号処理システム及び方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010087171A1 (ja) * 2009-01-29 2010-08-05 パナソニック株式会社 補聴器および補聴処理方法
US8374877B2 (en) 2009-01-29 2013-02-12 Panasonic Corporation Hearing aid and hearing-aid processing method
JP2014232245A (ja) * 2013-05-30 2014-12-11 日本電信電話株式会社 音声明瞭化装置、方法及びプログラム
JP2016018042A (ja) * 2014-07-07 2016-02-01 沖電気工業株式会社 音声復号化装置、音声復号化方法、音声復号化プログラム及び通信機器
JP2017037250A (ja) * 2015-08-12 2017-02-16 日本電信電話株式会社 音声強調装置、音声強調方法及び音声強調プログラム

Also Published As

Publication number Publication date
US20080065381A1 (en) 2008-03-13
EP1901286A3 (en) 2008-07-30
CN101145346A (zh) 2008-03-19
EP1901286B1 (en) 2013-03-06
EP1901286A2 (en) 2008-03-19
US8190432B2 (en) 2012-05-29
CN101145346B (zh) 2010-10-13
JP4946293B2 (ja) 2012-06-06

Similar Documents

Publication Publication Date Title
JP4946293B2 (ja) 音声強調装置、音声強調プログラムおよび音声強調方法
US7979274B2 (en) Method and system for preventing speech comprehension by interactive voice response systems
US20050119890A1 (en) Speech synthesis apparatus and speech synthesis method
US7526430B2 (en) Speech synthesis apparatus
JP4878538B2 (ja) 音声合成装置
US20050171778A1 (en) Voice synthesizer, voice synthesizing method, and voice synthesizing system
JP2007086316A (ja) 音声合成装置、音声合成方法、音声合成プログラムおよび音声合成プログラムを記憶したコンピュータ読み取り可能な記憶媒体
Ernestus et al. Qualitative and quantitative aspects of phonetic variation in Dutch eigenlijk
JP4564416B2 (ja) 音声合成装置および音声合成プログラム
JP2010117528A (ja) 声質変化判定装置、声質変化判定方法、声質変化判定プログラム
JP4744338B2 (ja) 合成音声生成装置
JP3159930B2 (ja) 音声処理装置のピッチ抽出方法
JP2008116643A (ja) 音声生成装置
JP2012042974A (ja) 音声合成装置
JP6044490B2 (ja) 情報処理装置、話速データ生成方法、及びプログラム
EP1543503B1 (en) Method for controlling duration in speech synthesis
JP2010175717A (ja) 音声合成装置
JP6807491B1 (ja) 補聴器用合成音声セットの修正方法
WO2011030424A1 (ja) 音声合成装置およびプログラム
JP2005181998A (ja) 音声合成装置および音声合成方法
JP3235747B2 (ja) 音声合成装置及び音声合成方法
JP2010008922A (ja) 音声処理装置、音声処理方法及びプログラム
JP2809769B2 (ja) 音声合成装置
JP2015049309A (ja) 情報処理装置、話速データ生成方法、及びプログラム
JP2001134276A (ja) 音声文字化誤り検出装置および記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090512

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120220

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150316

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees