JP2010266778A

JP2010266778A - 再生装置

Info

Publication number: JP2010266778A
Application number: JP2009119513A
Authority: JP
Inventors: Takeshi Murakami; 武司村上
Original assignee: Panasonic Corp
Current assignee: Panasonic Corp
Priority date: 2009-05-18
Filing date: 2009-05-18
Publication date: 2010-11-25
Anticipated expiration: 2029-05-18
Also published as: JP5326796B2

Abstract

【課題】違和感の少ない短縮された音声信号を作る。
【解決手段】音声データを一区切り毎にブロック化して音声固まりを作り、その音声信号が有声音か無声音か無音かを識別して、音声が始まった位置を始端点とする。有声音の場合には終端に近い複数の音声波形のピーク値から推定近似線を用いて時間軸上にみなし終端点を決定し、無声音の場合にはレベル検出により終端点を決定することにより、有声音に含まれる無音部分と、無声音に含まれる聴感上では短縮できる無声部分と無音部分、音声データが存在しない無音とをカットし、再び音声信号をつなぎ合わせる。
【選択図】図１

Description

本発明は、音声を構成する有声音と無声音と無音とからなる音を再生もしくは録音再生する装置に関するものであり、特には再生音声を短時間で聞いたり、はっきり聞くための機能に関係し、または音声信号を保存する記憶装置の容量低減に関するもので、複雑な演算を行わずにかつ音質劣化を最小限に抑えることができる再生装置に関する。

再生装置に搭載されている機能として、再生音声を短時間で聞いたり、はっきり聞くための話速変換技術にはいろいろな方式が用いられている。まず、単純に時間軸に対して再生速度を速めた場合、再生された音声は速度を速めた比率に比例してその周波数が高くなってしまい、かん高く聞きづらいものになってしまう。また、単純に入力が設定した検知レベル以下の箇所を時間軸上でスキップさせて再生させる場合は、低レベルの領域がない音声信号に対してはスキップさせることができなかった。そのため、この問題を解決するために、特許文献１に開示されているように、音声の入力信号のピッチ周期を抽出し、そのピッチ周期に応じてピッチ２周期分の音声データに重み窓関数をかけて時間軸圧縮を行うデジタル信号処理よる時間軸伸長圧縮技術が採用されている。
また特許文献２に記載されているように、音声区間と無音区間との識別を行い、有声音および無音と判別された音声信号については時間軸を圧縮し、無声音と判別された音声信号については時間軸を圧縮しないか、もしくは時間軸の圧縮比率に比べて低い圧縮率で時間軸圧縮を行う構成になっている。中には、音声区間と無音区間との識別を行い、無音区間は削除させ音声区間をピッチ同期による伸長圧縮制御を行ったり、または再生速度に応じて間引く処理を切り替えるように構成したものもある。

特開平1−２３３８３５号公報特開平７−１２９１９８号公報

このような従来の再生装置において、解決しようとする問題点は、音声区間と無音区間とを一様に時間軸伸長圧縮をする場合は、聞き取りたい部分の明瞭度が悪化したり、時間軸伸長圧縮された無音データを含んだ音声データが生成されてしまう。また、有声音の時間軸伸長圧縮では、周期性のある２ピッチ分の音声信号を１ピッチに圧縮する場合、前部の周期Ｐ１に重み関数Ｗを掛け、後部の周期Ｐ２には反対の重み関数１−Ｗを掛けて、それぞれを加算して１つとするような複雑な信号処理を必要とするために、処理負担が大きく、高速演算を実行する必要があった。

本発明は、高速演算を必要とするような複雑な信号処理方法を用いずに、音声として聞き取る上で必要最低限の有声音と、無声音とを残すことで、明瞭度を確保して、違和感の少ない短縮された音声信号を作り出す再生装置を提供することを目的としてなされたものである。

本発明の請求項１に記載の発明は、音声を構成する有声音と無声音と無音とからなる音を再生もしくは録音再生する装置であって、レベル検出により音声信号データが存在することを検出し始端点を決定する始端点用レベル検出回路と、音声データの一ブロックが有声音か無声音あるいは無音かを識別する音声性質識別回路と、前記音声性質識別回路で識別された音声データを一区切り毎にブロック化して音声固まりを決める音声ブロック化回路と、前記音声性質識別回路で判定された音声データブロックが有声音の場合には、その音声波形の終端に近い複数の波形のピーク値を検出する音声信号ピーク検出回路と、前記複数のピーク値の包絡線によって作る推定近似線からみなし終端点を推定するみなし終端点推定回路と、前記音声性質識別回路で判定された音声データブロックが無声音の場合には、レベル検出により音声データが終了したことを検出する終端点用レベル検出回路と、前記みなし終端点推定回路や終端点用レベル検出回路で決定された始端点と終端点の情報を元に元の音声信号のデータをカットする音声区間カット回路と、カットした後の音声データをつなぎ合わせて生成し直す音声接合回路とを備え、有声音の場合には前記みなし終端点推定回路で決定された終端点から前記始端点用レベル検出回路で決定される次の固まりの始端点までの期間の音声データをカットし、無声音の場合には前記終端点用レベル検出回路で決定された終端点から前記始端点用レベル検出回路で決定される次の固まりの始端点までの期間の音声データをカットし、無音の区間はすべてをカットする制御を行い再びつなぎ合わせたものであり、言葉と言葉の間隙や１つの言葉の中に発生する無音部分および無声音に含まれる聴感上では短縮できる無声部分を削除して、違和感の少ない短縮された音声信号を作り出すことができるという作用を有する。
請求項２に記載の発明は、前記音声信号結合回路から出力される音声出力を保存する記憶回路を備えたものであり、音声データをカットすることにより、記憶するために必要な記憶容量を低減できるという作用を有する。

本発明の再生装置は、有声音の場合には、音声ブロックの終わりに近い音声信号のピーク値の包絡線によって作る推定近似線からみなし終端点を推定し、その推定したみなし終端点から次の音声ブロックの固まりの始端点までの期間の音声データをカットし、無声音の場合にはレベル検出より決定された終端点から次の音声ブロックの固まりの始端点までの期間の音声データをカットし、無音の区間はすべてをカットする制御を行い再びつなぎ合わせて音声信号を生成するように構成したため、言葉と言葉の間隙や１つの言葉の中に発生する無音部分および無声音に含まれる聴感上では短縮できる無声部分を削除した音声信号を生成できるので、違和感の少ない短縮された音声信号を作り出すことができるという利点がある。
また、作り出された音声信号を、短縮された音声信号の形で記憶回路に保存することにより、記憶するために必要な記憶容量を低減できるという有利な効果が得られる。

実施の形態１にかかる再生装置の信号処理部分のブロック構成図実施の形態１にかかる再生装置の音声識別され区間割された音声信号波形を示す図実施の形態１にかかる再生装置の信号合成後の音声出力波形を示す図実施の形態１にかかる再生装置のみなし終端点を推定算出するための近似線関係図

以下、本発明の再生装置を実施すための最良の形態について、図１から図４を用いて詳細に説明する。

（実施の形態１）
図１は本発明の第１の実施の形態における再生装置の信号処理部分のブロック構成図を示し、図２は同じく第１の実施の形態における音声識別され区間割された音声信号波形図、
図３は同じく第１の実施の形態における信号合成後の音声出力波形、図４は同じく第１の実施の形態におけるみなし終端点を推定算出するための近似線関係図である。
図１において、１は音声入力、２は始端点用レベル検出回路、３は音声性質識別回路、４は音声ブロック化回路、５は有声音の信号経路、６は無声音の信号経路、７は無音の信号経路、８は音声信号ピーク検出回路、９はみなし終端点推定回路、１０は終端点用レベル検出回路、１１は音声区間カット回路、１２は音声信号接合回路、１３は音声出力で構成している。

以上のように構成された第１の実施の形態における信号処理部分のブロック構成図について、図２、図３と図４を付加して以下その動作について説明する。

まず、再生装置全体から、本発明の特徴となる信号の処理部分を抜き出したものが、図１の信号処理部分のブロック構成図である。また時間軸上に音声信号波形の一例を示したものが、図２の音声識別され区間割された音声信号波形図である。アナログ信号で構成される音声信号が音声入力１から入力される。始端点用レベル検出回路２は、この音声信号のレベル検出を行っており、決められたしきい値以上のレベルを検知した場合、音声信号の入力があったと判断する。入力があったと判断した時点で、この時間軸上に、始端点としてマークする。図２に示す音声信号波形図のポイントＡ、ポイントＤ、ポイントＧに相当する。この時に設定するしきい値レベルにより、無音として判断するレベルが変化することとなり、しきい値レベルを上げ過ぎると音声の開始部分で頭切れを起こしてしまう可能性があるため、検出するための適切なレベルに設定することが重要なファクターとなる。この時点では音声信号の始まり、つまり始端点は確定できるが、その後に続く音声信号が有声音なのか、無声音なのかはわかっていない。始端点用レベル検出回路２で始端点を付けられた音声信号は、音声性質識別回路３へ送られる。音声性質識別回路３では、音声信号が有声音か無声音あるいは無音かを識別するが、いろいろな周波数成分で構成される音声信号の１波形毎に判断していては、処理が煩雑となってしまい高い信号処理能力も必要となってしまう。本発明は、言葉と言葉の間隙や１つの言葉の中に発生する無音部分を加工することを前提としているため、音声ブロック化回路４で、音声データを一区切り毎にブロック化して音声固まりを決定する。音声データをブロック化する方法として、いろいろな方法あるが、簡易な方法としては信号レベルの有無で分割する方法がある。また周波数成分とレベルおよび音声信号の包絡線形状により高精度でブロック化すると、音の頭切れなどの発生を防ぐことができる。
音声性質識別回路３では、そのブロック化された音声信号の固まりの周波数成分や音声レベルを判断して、音声データの一ブロックが有声音か無声音あるいは無音かを識別する。
図２の上段部に示す音声ブロック化回路による分類のように、ポイントＡまでは無音、ポイントＡからＤは有声音、ポイントＤからＧまでは無声音、ポイントＧからＫまでを有声音というようにまず分類を実施する。無音を判別するには、音声信号の有る無しを判断することで無音を認識できる。有声音か無声音かを判断するためには、その音声信号を構成する周波数と音声レベルとで判断が必要であり、一般的に高い周波数の低いレベルの波形が連続している場合は無声音であり、レベル変動を伴って低い周波数の波形で構成されているものは、有声音である。無声音、有声音を識別する方法に関しては、非常にたくさんの技術的資料や特許などが公開されており、本発明の主目的ではないため、ここでは省略する。

音声性質識別回路３により、有声音、無声音、無音の３種類に分類された音声データは、それぞれ異なった処理に進む。有声音の場合、その音声波形の終端に近い複数の波形のピーク値を検出する音声信号ピーク検出回路８と、複数のピーク値の包絡線によって作る推定近似線からみなし終端点を推定するみなし終端点推定回路９により、次の３つに分ける。１つ目は、ブロック化回路では有声音と識別されたが無声音の性質を持つポイントＡからＢ、ポイントＧからＨの区間と、２つ目は、完全に有声音として分類されるポイントＢからＣ、ポイントＨからＪの区間と、３つ目は、みなし終端点としてマークされたポイントＣとポイントＪにより区切られたポイントＣからＤ、ポイントＪからＫの区間から成る無音部分とに細分化される。ここで、みなし終端点の決定方法については、本発明の要旨であるため、後ほど詳細に述べる。無声音の場合、終端点用レベル検出回路１０はレベル検出により音声データが終了したことを検出し、終端点Ｆをマークする。これにより、無声音に含まれる不要と判断できる無声音であるポイントＤからＥの区間、完全に無声音として分類できるポイントＥからＦの区間、無音とみなすことができるＦからＧの区間に細分化できる。

有声音ブロックの細分化と無声音ブロックの細分化との手法が異なるのは、その音声信号の特性に起因する。無声音はレベルが低く、周波数の高い連続波形で構成される。この波形の終端部は緩やかにレベル低下をしながら無音へと収束していく。終端点の判断は曖昧であり、しきい値によるレベル検出により終端点Ｆを決める必要がある。また低レベルでなだらかに収束しているため、音がなくなった直後から時間軸でデータカットを行い、次の音声ブロックの頭に接続しても、比較的に違和感のない音声を作ることができるためである。

音声区間カット回路１１は、みなし終端点推定回路９や終端点用レベル検出回路１０で決定された始端点と終端点の情報を元に音声信号のデータをカットする操作を行う。詳細な分類を行った後のブロックは、有声音、有声音に含まれる無声音部分、有声音に含まれる無音部分、無声音、無声音に含まれる無声音的な部分、完全に音を含まない無音となる。ここで、有声音に含まれる無音部分であるポイントＣからＤの区間とポイントＪからＫの区間、無声音に含まれるカットしても音質におおきな影響がでない不要な無声音部分であるポイントＤからＥの区間、無声音に含まれる無音部分であるポイントＦからＧの区間の音声データをカットする。そのカットした音声信号データを受けて、音声信号接合回路１２は、終端点として決められた波高レベルが０の位置と始端点として決められた波高レベルが０の位置とを直結させて音声データを接合させる。図３が、図２の音声信号波形図をカットし接続した音声出力の一例である。
本第１の実施例では、有声音内に含まれる無声音部分と有声音間のわずかな無音部分についてはカットが行われていないが、更に短縮された音声信号を作り出すために検出しカットすることも可能である。この場合、図２に記載しているポイントＭからＢの区間、ポイントＮからＨの区間のカットを行うこととなる。
ここで、図４を用いて、先に述べた有声音の場合のみなし終端点の決定方法について説明する。無声音の場合は低いレベルで緩やかにレベルの減衰から音声が収束するが、有声音の場合は、それとは大きく異なった減衰となり、特に標準的な有声音のほとんどの減衰は、以下の特徴を持っている。まず減衰を開始する複数のピーク値の推定近似線の延長線上と時間軸との交点の角度をα、更に減衰が進んで終端側に寄った複数のピーク値によって作られる近似線の延長線上と時間軸との交点の角度をβとすると、β＞αとなっている。つまり２段目の推定近似線の前に現れる減衰を開始した箇所の推定近似線の延長線上と時間軸との交点以降に音声信号が残ってしまうことはない。この交点をみなし終端点として、先の音声信号をカットするポイントとして使用すると、違和感のない合成後の音を再現できる。なぜこのポイントが良いのかは明確にはわからないが、多数の音声信号の加工を行い、試聴を繰り返し行った結果からその効果を確認した。また、複数の音声信号の波形を実際に確認し、推定近似線を形成するピーク値は、３〜５ポイントを用いた場合、良好な終端点を求めやすいデータとなった。
また、音声信号はその性質上、それを構成する周波数成分およびピーク値は、リニアではなく、振られた成分を持っている。そのため、厳格に波形のピーク点を追い求めて近似線を引いた場合、求めようとするみなし終端点を見つけられない場合が考えられる。このように、みなし終端点を算出する時のピーク値に対しては、あいまい度を含んだ判定方法が必要となる。
本第１の実施形態の説明では、図形による推定近似線を用いて行ったが、その具体的な近似の作成方法として、１次線形補間による近似線の作成を用いることにより、デジタル的な処理で終端点をもとめることもできる。

本発明の再生装置は、有声音の場合にはみなし終端点推定回路で決定された終端点から始端点用レベル検出回路で決定される次の固まりの始端点までの期間の音声データをカットし、無声音の場合には終端点用レベル検出回路で決定された終端点から前記始端点用レベル検出回路で決定される次の固まりの始端点までの期間の音声データをカットし、無音の区間はすべてをカットする制御を行い再びつなぎ合わせることにより、言葉と言葉の間隙や１つの言葉の中に発生する無音部分および無声音に含まれる聴感上では短縮できる無声部分を削除して、違和感の少ない短縮された音声信号を作り出すことができ、話速変換としての早聞き用として用いることや、その音声データを記録する装置においては、記憶するために必要な記憶容量を低減する用途にも適用できる。

１音声入力
２始端点用レベル検出回路
３音声性質識別回路
４音声ブロック化回路
５有声音の信号経路
６無声音の信号経路
７無音の信号経路
８音声信号ピーク検出回路
９みなし終端点推定回路
１０終端点用レベル検出回路
１１音声区間カット回路
１２音声信号接合回路
１３音声出力

Claims

音声を構成する有声音と無声音と無音とからなる音を再生もしくは録音再生する装置であって、
レベル検出により音声信号データが存在することを検出し始端点を決定する始端点用レベル検出回路と、
音声データの一ブロックが有声音か無声音あるいは無音かを識別する音声性質識別回路と、
前記音声性質識別回路で識別された音声データを一区切り毎にブロック化して音声固まりを決める音声ブロック化回路と、
前記音声性質識別回路で判定された音声データブロックが有声音の場合には、その音声波形の終端に近い複数の波形のピーク値を検出する音声信号ピーク検出回路と、
前記複数のピーク値の包絡線によって作る推定近似線からみなし終端点を推定するみなし終端点推定回路と、
前記音声性質識別回路で判定された音声データブロックが無声音の場合には、レベル検出により音声データが終了したことを検出する終端点用レベル検出回路と、
前記みなし終端点推定回路や終端点用レベル検出回路で決定された始端点と終端点の情報を元に音声信号のデータをカットする音声区間カット回路と、
カットした後の音声データをつなぎ合わせて生成し直す音声接合回路とを備え、
有声音の場合には前記みなし終端点推定回路で決定された終端点から前記始端点用レベル検出回路で決定される次の固まりの始端点までの期間の音声データをカットし、無声音の場合には前記終端点用レベル検出回路で決定された終端点から前記始端点用レベル検出回路で決定される次の固まりの始端点までの期間の音声データをカットし、無音の区間はすべてをカットする制御を行い再びつなぎ合わせることにより、言葉と言葉の間隙や１つの言葉の中に発生する無音部分および無声音に含まれる聴感上では短縮できる無声部分を削除して、違和感の少ない短縮された音声信号を作り出すことを特徴とする再生装置。
前記音声信号結合回路から出力される音声出力を保存する記憶回路を備え、
音声データをカットすることにより、記憶するために必要な記憶容量を低減したことを特徴とする請求項１記載の再生装置。
前記みなし終端点推定回路は、一次線形補間により推定される近似線を用いてみなし終端点を求めることを特徴とする請求項１記載の再生装置。
信号を判別して処理を行う時間と前期音声区間カット回路との処理のずれが起きないようにするため、音声入力と音声区間カット回路との間に、遅延回路を付加したことを特徴とする請求項１記載の再生装置。