JP2014186347A - 話者速度変換システムおよびその方法ならびに速度変換装置 - Google Patents

話者速度変換システムおよびその方法ならびに速度変換装置 Download PDF

Info

Publication number
JP2014186347A
JP2014186347A JP2014115975A JP2014115975A JP2014186347A JP 2014186347 A JP2014186347 A JP 2014186347A JP 2014115975 A JP2014115975 A JP 2014115975A JP 2014115975 A JP2014115975 A JP 2014115975A JP 2014186347 A JP2014186347 A JP 2014186347A
Authority
JP
Japan
Prior art keywords
speed conversion
dangerous
frame
sound quality
frame boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014115975A
Other languages
English (en)
Other versions
JP6071944B2 (ja
Inventor
Tomoshi Hosokawa
知志 細川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014115975A priority Critical patent/JP6071944B2/ja
Publication of JP2014186347A publication Critical patent/JP2014186347A/ja
Application granted granted Critical
Publication of JP6071944B2 publication Critical patent/JP6071944B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】音質の優れた話者速度変換システムおよびその方法ならびに速度変換装置を提供する。
【解決手段】入力された音声のうち音質上危険な箇所を検出する危険箇所検出部22と、入力された音声の中からフレーム境界の候補となり得るポイントを複数個検索し、これらのうち音質面で最も優れていると予測されるポイントをフレーム境界として出力するフレーム境界検出部23と、フレーム境界検出部23での検出結果に基づき速度変換を行うOLA部25とを有し、フレーム境界検出部23は、危険箇所検出部22手段にて検出された、音質上危険な箇所をフレーム境界の候補から除外する。
【選択図】図3

Description

本発明は、話者速度変換システムおよびその方法ならびに速度変換装置に関し、特に話者音声の速度を遅くする話者速度変換システムおよびその方法ならびに速度変換装置に関する。
ピッチを変えない速度変換の一例として、OLA(overlap and add)という手法が一般に使用されている。
図1Aは、関連する話者速度変換システムにおける速度変換の動作の一例を示す図であり、変換前の音声の元波形を示す。図1Bは、関連する話者速度変換システムにおける速度変換の動作の一例を示す図であり、変換後の音声の波形を示す。なお、図1A,1Bにおいて横軸は時間(sec.)、縦軸は出力電圧(V)を示す。
音声の速度変換をする場合、単に再生速度を変えただけではピッチが変化してしまい正常な音声にはならない。このため、OLAでは以下のようにして音声波形を増やすことでピッチを維持したまま再生時間の伸張を実現する。
(1)音声波形を適当な箇所(ゼロクロスする場所等)で、図1Aに示すように、フレームに分解する。図1Aでは、一例として、フレームをゼロクロスする場所で5個のフレーム(1〜5)に分解している。なお、図1Aでは、1フレームを1周期分としているが、これに限定するものではなく、1フレームを2周期以上とすることも可能である。
(2)図1Bに示すように、予め定められた伸張率に応じて、最適な頻度でフレームを繰り返す。図1Bでは、一例として、フレーム1,3,4をそれぞれ1回繰り返している。
(3)フレームの繰り返し部分の波形をなめらかにつなぐため、図1Bに示すように、繰り返した部分の前後でクロスフェード処理をかける。図1Bでは、一例として、フレーム1とフレーム1との境界、フレーム3とフレーム3との境界、フレーム4とフレーム4との境界の前後にクロスフェード処理をかけている。クロスフェード処理はOLAの手法として必須ではないが、音質を向上させる手法として一般的に行われている。
なお、関連する技術が、特開2006−038956号公報、特開2007−003682号公報、特開2006−126372号公報および特開2000−322061号公報に開示されている。
しかし、ゼロクロスや相関関数によるフレーム境界検出を使用している場合、語頭等の高域が多い箇所では音質が破綻するという課題がある。
また、ピッチ検出に基づくフレーム境界検出を使用している場合、ピッチが不安定となる箇所ではフレーム検出が安定せず、これをOLA処理することで音質が破綻するという課題がある。
本発明は、上記課題を解決し、これにより音質の優れた話者速度変換システムおよびその方法ならびに速度変換装置を提供することを目的とする。
上記目的を達成するために本発明は、
入力される音声の速度を変換する速度変換手段を含む話者速度変換システムであって、
前記速度変換手段は、
入力された音声のうち音質上危険な箇所を検出する危険箇所検出手段と、
入力された音声の中からフレーム境界の候補となり得るポイントを複数個検索し、これらのうち音質面で最も優れていると予測されるポイントをフレーム境界として出力するフレーム境界検出手段と、
前記フレーム境界検出手段での検出結果に基づき速度変換を行うOLA(overlap and add)手段とを有し、
前記フレーム境界検出手段は、前記危険箇所検出手段にて検出された、音質上危険な箇所をフレーム境界の候補から除外する。
また、入力される音声の速度を変換する速度変換手段を含む話者速度変換システムであって、
前記速度変換手段は、
入力された音声のうち音質上危険な箇所を検出する危険箇所検出手段と、
入力された音声のOLA(overlap and add)処理におけるフレーム繰り返し数を決定する反復回数決定処理手段と、
前記反復回数決定処理手段にて決定したフレーム繰り返し数に基づき速度変換を行うOLA(overlap and add)手段とを有し、
前記反復回数決定処理手段は、前記危険箇所検出手段にて検出された、音質上危険な箇所をフレーム繰り返し数の決定の対象外とする。
また、入力された音声の速度を変換する話者速度変換方法であって、
入力された音声のうち音質上危険な箇所を検出する危険箇所検出ステップと、
入力された音声の中からフレーム境界の候補となり得るポイントを複数個検索し、これらのうち音質面で最も優れていると予測されるポイントをフレーム境界として出力するフレーム境界検出ステップと、
前記フレーム境界検出ステップでの検出結果に基づき速度変換を行うOLA(overlap and add)ステップとを有し、
前記フレーム境界検出ステップは、前記危険箇所検出ステップにて検出された、音質上危険な箇所をフレーム境界の候補から除外する。
また、入力される音声の速度を変換する話者速度変換方法であって、
入力された音声のうち音質上危険な箇所を検出する危険箇所検出ステップと、
入力された音声のOLA(overlap and add)処理におけるフレーム繰り返し数を決定する反復回数決定処理ステップと、
前記反復回数決定処理ステップにて決定したフレーム繰り返し数に基づき速度変換を行うOLA(overlap and add)ステップとを有し、
前記反復回数決定処理ステップは、前記危険箇所検出ステップにて検出された、音質上危険な箇所をフレーム繰り返し数の決定の対象外とする。
また、入力される音声の速度を変換する話者速度変換装置であって、
入力された音声のうち音質上危険な箇所を検出する危険箇所検出手段と、
入力された音声の中からフレーム境界の候補となり得るポイントを複数個検索し、これらのうち音質面で最も優れていると予測されるポイントをフレーム境界として出力するフレーム境界検出手段と、
前記フレーム境界検出手段での検出結果に基づき速度変換を行うOLA(overlap and add)手段とを有し、
前記フレーム境界検出手段は、前記危険箇所検出手段にて検出された、音質上危険な箇所をフレーム境界の候補から除外する。
また、入力される音声の速度を変換する話者速度変換装置であって、
入力された音声のうち音質上危険な箇所を検出する危険箇所検出手段と、
入力された音声のOLA(overlap and add)処理におけるフレーム繰り返し数を決定する反復回数決定処理手段と、
前記反復回数決定処理手段にて決定したフレーム繰り返し数に基づき速度変換を行うOLA(overlap and add)手段とを有し、
前記反復回数決定処理手段は、前記危険箇所検出手段にて検出された、音質上危険な箇所をフレーム繰り返し数の決定の対象外とする。
また、入力された音声の速度を変換するためのプログラムであって、
コンピュータに、
入力された音声のうち音質上危険な箇所を検出する危険箇所検出ステップと、
入力された音声の中からフレーム境界の候補となり得るポイントを複数個検索し、これらのうち音質面で最も優れていると予測されるポイントをフレーム境界として出力し、また、前記危険箇所検出ステップにて検出された、音質上危険な箇所をフレーム境界の候補から除外するフレーム境界検出ステップと、
入力された音声のOLA(overlap and add)処理におけるフレーム繰り返し数を決定し、また、前記危険箇所検出ステップにて検出された、音質上危険な箇所をフレーム繰り返し数の決定の対象外とする反復回数決定処理ステップと、
前記フレーム境界検出ステップでの検出結果および前記反復回数決定処理ステップにて決定してフレーム繰り返し数に基づき速度変換を行うOLA(overlap and add)ステップとを実行させる。
本発明によれば、上記課題を解決し、これにより音質の優れた話者速度変換システムおよびその方法ならびに速度変換装置が得られる。
関連する話者速度変換システムにおける速度変換の動作の一例を示す図である。 関連する話者速度変換システムにおける速度変換の動作の一例を示す図である。 本発明に係る話者速度変換システムの最良の実施形態の構成図である。 図1に示した話者速度変換システムの速度変換部の一例の構成図である。 図3に示した危険箇所検出部の一例の構成図である。 図2〜4に示した話者速度変換システムの動作の一例を示す音声波形図である。 図2〜4に示した話者速度変換システムの動作の一例を示すフローチャートである。 図2〜4に示した話者速度変換システムの動作の一例を示すフローチャートである。
以下に、本発明の最良の実施形態について添付図面を参照しながら説明する。
図2は、本発明に係る話者速度変換システムの最良の実施形態の構成図である。
図2を参照すると、本発明に係る話者速度変換システム1の最良の実施形態は、有音・無音分離部11と、音声メモリ12と、速度変換部13と、信号選択部14と、制御部15と、プログラム格納部16とを含んで構成される。
有音・無音分離部11は、入力音声が有音(人間の声等、情報として意味を持つ部分)か無音(背景雑音等、情報として意味を持たない成分)かを判定し、それぞれを分離する。また、有音・無音の判定は、時間ごと(たとえば、20msごと)に行われ、時間ごとに分離される。一例として、音声レベル(一定期間の振幅の平均値)の大小による判定、あるいは音声デコーダ(AMR(adaptive multi-rate)デコーダ等、音声入力前段に配置されるデコーダ)から得られた情報量に関する情報による判定が行われる。
音声メモリ12は、有音・無音分離部11にて有音と判定された音声を蓄積するFIFO(first-in first-out)式のメモリである。リングバッファによりRAM(random access memory)に構成する実装が一般的である。
速度変換部13は、音声のピッチを変えずに速度のみを変化させる音響処理を行う。本発明の中核となる部分である。速度変換部13は、音声メモリ12に音声が蓄積されている場合にのみ動作する。
信号選択部14は、有音ルート、すなわち有音・無音分離部11、音声メモリ12、速度変換部13の順に有音信号が出力されている場合はその有音信号を出力し、有音信号が出力されていない場合は無音信号を出力する。
プログラム格納部16には、後述する所定のプログラムが格納されている。
制御部15は、プログラム格納部16に格納されたプログラムに基づき、有音・無音分離部11、音声メモリ12、速度変換部13および信号選択部14を制御する。
次に、速度変換部13の一例の構成について説明する。
図3は、図1に示した話者速度変換システムの速度変換部13の一例の構成図である。なお、本発明における速度変換部13もOLAの使用を前提としている。
図3を参照すると、速度変換部13の一例は、速度決定機構部21と、危険箇所検出部22と、フレーム境界検出部23と、反復回数決定処理部24と、OLA部25とを含んで構成される。
速度決定機構部21は、以下のような情報に基づいてOLA処理の伸張率を決定する。
(1)音声メモリ12のデータ残量。有音が継続した場合、音声メモリのデータ残量は単調に増加していく。これは伸張方向だからである。一方、音声メモリ12のデータ蓄積量は有限であるため、一定量以上蓄積された場合は伸張率を抑える必要があるためである。
(2)ユーザ操作情報。伸張率を制御する機能をユーザに提供する場合は、ユーザがボタン操作等で入力した情報に従って伸張率を変動させる。
危険箇所検出部22は、入力された音声のうち、OLA処理を適用することで低品質な出力(耳障りな不連続成分の発生等)となる可能性がある部分を検出する。
フレーム境界検出部23は、OLA処理で使用する音声フレームの境界を検出する。入力された音声から特徴を検出するほか、危険箇所検出部22から得られた危険箇所情報に基づいて検出を実施する。
反復回数決定処理部24は、速度決定機構部21および危険箇所検出部22からの情報に基づき、OLAによるフレーム繰り返し処理の回数を決定する。フレーム境界検出部23により検出された各フレームごとに、以下のようにして反復回数を決定する。
(1)速度決定機構部21にて決定した伸張率と、実際の伸張率、たとえば過去1秒間の繰り返し回数の履歴から算出した伸張率とを比較し、実際の伸張率が小さな場合は繰り返し回数を“2”に設定する。このとき、伸張率の乖離が大きな場合は“3”以上の繰り返し回数を設定しても良い。
(2)フレーム中に存在する危険箇所(危険箇所検出部22から得られる)の比率が一定の閾値を超えた場合は、(1)の結果によらずに繰り返し回数を“1”に設定する。閾値は“0”でも良く、この場合はフレーム中に一箇所でも危険箇所があれば、繰り返し回数は“1”になる。
OLA部25の動作は、図1A,1Bを用いて説明したとおりである。
次に、危険箇所検出部22の一例の構成について説明する。
図4は、図3に示した危険箇所検出部22の一例の構成図である。
図4に示す構成は、入力された音声のうち、語頭の急峻な振幅増加が発生している部分であるアタック成分を危険箇所とみなし、このアタック成分を検出した際に危険箇所として出力するよう構成した例である。なお、危険箇所検出部22の構成は、図4に示したもの以外にも種々の構成が考えられる。
図4を参照すると、危険箇所検出部22の一例は、平均レベル測定部31と、レベル変化検出部32と、比較部33とを含んで構成される。
平均レベル測定部31は、入力音声の振幅の時間平均を求めて出力する。たとえば、前後0.5秒間の振幅の絶対値を平均した値等が使用される。
レベル変化検出部32は、振幅の変化を求めて出力する。たとえば、短い時間(50ms等)ごとの振幅絶対値の最大値を計算し、その最大値の時間変化を求めるといった手法により振幅の変化を求める。瞬間的な変化を検出できるよう、平均レベル測定よりも短い時定数が使用される。
比較部33は、レベル変化検出部32の出力値を平均レベル測定部31の出力値で除算し、その除算結果を予め与えられた閾値と比較する。そして、除算結果が閾値を超える場合は、アタック成分が危険箇所であるとして、危険箇所情報を出力する。
次に、本発明の最良の実施形態の動作について図5〜図7を参照しながら説明する。
図5は、図2〜4に示した話者速度変換システムの動作の一例を示す音声波形図であり、図6および図7は、図2〜4に示した話者速度変換システムの動作の一例を示すフローチャートである。
プログラム格納部16には、図6および図7にフローチャートで示す話者速度変換プログラムが格納されている。コンピュータからなる制御部15は、プログラム格納部16からそのプログラムを読み出し、そのプログラムにしたがって有音・無音分離部11、音声メモリ12、速度変換部13および信号選択部14を制御する。以下、その制御の内容について説明する。
まず、ステップS1において、有音・無音分離部11にて有音と無音が分離される。
次に、ステップS2において、音声メモリ12に有音部の音声データが蓄積される。
次に、ステップS3において、音声メモリ12から音声データが速度変換部13の危険箇所検出部22へ入力され、危険箇所検出部22にて音声データから音質上危険な箇所が検出される。なお、音質上危険な箇所とは、上述したように、語頭の急峻な振幅増加が発生している部分を言う。
次に、ステップS4において、音声メモリ12から解析窓に収まる範囲の音声データが速度変換部13のフレーム境界検出部23に入力される。
フレーム境界検出部23では、前回検出したフレームの直後からフレーム境界検出動作が行われる。実際には、一定時間分の解析窓が用意され、解析窓に収まる範囲の音声データについて解析が行われる。これは処理時間を有限に留めるためである。
フレーム境界検出部23では、解析窓中の音声データから、フレーム境界の候補となり得るポイントを複数個検索し、これらのうち最も音質面で優れていると予測されるポイントをフレーム境界として出力する。この処理は、以下のようにして達成される。
次に、ステップS5において、フレーム境界検出部23にて、解析窓中の音声データがゼロクロスする場所が算出される。ゼロクロスとは、出力電圧値がマイナスからプラスに変化する点、あるいはプラスからマイナスに変化する点をいう。
図5を参照すると、音声データのゼロクロスする場所の一例として、ゼロクロス点101〜104が表示されている。
一方、危険箇所検出部22にて危険箇所と判断された部分111が図5に斜線を付して表示されている。
次に、ステップS6において、フレーム境界検出部23にて、危険箇所と判断された部分111に含まれるゼロクロス点102がフレーム境界の候補から除外される。
したがって、ここまで処理が実施されて残ったフレーム境界の候補は候補1(ゼロクロス点101)、候補2(ゼロクロス点103)および候補3(ゼロクロス点104)となる。
次に、ステップS7において、フレーム境界検出部23にて、残った候補1〜3(ゼロクロス点101,103,104)から音質的に最も優れていると予測される候補がフレーム境界として採用される。
ステップS7の処理は、フレーム先頭部分(前回検出したフレームの直後)近辺の音声波形と、各候補付近の音声波形とを比較し、相関が最も高い(波形が類似している)部分を選択することによって行われる。これは、OLA処理により各フレームが繰り返されると、フレームの先頭と末尾の音声が連続して再生されることになるためである。
なお、相関を求める手法には一般的な手法がいくつかあり、相関関数を使用する方法や、各サンプルの符号を比較する方法等がある。
一例として、候補1(ゼロクロス点101)がフレーム境界として採用された場合、ゼロクロス点101から始まる1フレーム分の音声データが繰り返しの対象となる。
次に、ステップS8において、反復回数決定処理部24にて、危険箇所検出部22から得られる情報に基づいてフレームの反復回数が抑制される。
次に、ステップS9において、ステップS7で得られたフレーム境界と、ステップS8で得られたフレームの反復回数に基づき、OLA部25にて速度変換処理が実行される。
次に、ステップS10において、信号選択部14にて有音データまたは無音データが選択され、選択されたデータが出力される。
なお、ステップS8における反復回数の抑制において、反復回数決定処理部24では危険箇所検出部22から得られる情報に基づいて反復回数が抑圧されるため、危険箇所が比較的多い場所(アタック部分)では再生速度が速くなり、比較的少ない場所では遅くなるという動作となる。
以上説明したように、本発明の最良の実施形態によれば、音質上危険な箇所をフレーム繰り返し処理の対象外とすることで、高音質な話者速度変換システムおよびその方法ならびに速度変換装置が得られる。
また、フレーム検出において音質上危険な箇所を避けることにより、高音質な話者速度変換システムおよびその方法ならびに速度変換装置が得られる。
また、音質上危険な場所の検出にあたり、入力音声のアタック成分を調べる方式とすることで、高効率かつ高音質な話者速度変換システムおよびその方法ならびに速度変換装置が得られる。
以上、実施例を参照して本願発明を説明したが、本願発明は上記実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2007年8月22日に出願された日本出願特願2007−215353を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (14)

  1. 入力される音声の速度を変換する速度変換手段を含む話者速度変換システムであって、
    前記速度変換手段は、
    入力された音声のうち音質上危険な箇所を検出する危険箇所検出手段と、
    入力された音声の中からフレーム境界の候補となり得るポイントを複数個検索し、これらのうち音質面で最も優れていると予測されるポイントをフレーム境界として出力するフレーム境界検出手段と、
    前記フレーム境界検出手段での検出結果に基づき速度変換を行うOLA(overlap and add)手段とを有し、
    前記フレーム境界検出手段は、前記危険箇所検出手段にて検出された、音質上危険な箇所をフレーム境界の候補から除外する話者速度変換システム。
  2. 入力される音声の速度を変換する速度変換手段を含む話者速度変換システムであって、
    前記速度変換手段は、
    入力された音声のうち音質上危険な箇所を検出する危険箇所検出手段と、
    入力された音声のOLA(overlap and add)処理におけるフレーム繰り返し数を決定する反復回数決定処理手段と、
    前記反復回数決定処理手段にて決定したフレーム繰り返し数に基づき速度変換を行うOLA(overlap and add)手段とを有し、
    前記反復回数決定処理手段は、前記危険箇所検出手段にて検出された、音質上危険な箇所をフレーム繰り返し数の決定の対象外とする話者速度変換システム。
  3. 請求項1に記載の話者速度変換システムにおいて、
    入力された音声のOLA(overlap and add)処理におけるフレーム繰り返し数を決定し、前記危険箇所検出手段にて検出された、音質上危険な箇所をフレーム繰り返し数の決定の対象外とする反復回数決定処理手段を有し、
    前記OLA(overlap and add)手段は、前記フレーム境界検出手段での検出結果および前記反復回数決定処理手段にて決定したフレーム繰り返し数に基づき速度変換を行う話者速度変換システム。
  4. 請求項1乃至3のいずれか1項に記載の話者速度変換システムにおいて、
    前記危険箇所検出手段は、入力された音声のうち、語頭の急峻な振幅増加が発生している部分を危険箇所として検出する話者速度変換システム。
  5. 請求項1乃至4のいずれか1項に記載の話者速度変換システムにおいて、
    入力された音声を有音と無音に分離する有音・無音分離手段と、
    前記有音・無音分離手段にて分離された有音情報が蓄積される音声メモリ手段と、
    前記速度変換手段から出力される有音情報と、前記有音・無音分離手段から出力される無音情報とのいずれかを選択する信号選択手段とを有し、
    前記速度変換手段は、前記音声メモリ手段から有音情報を読み出す話者速度変換システム。
  6. 入力された音声の速度を変換する話者速度変換方法であって、
    入力された音声のうち音質上危険な箇所を検出する危険箇所検出ステップと、
    入力された音声の中からフレーム境界の候補となり得るポイントを複数個検索し、これらのうち音質面で最も優れていると予測されるポイントをフレーム境界として出力するフレーム境界検出ステップと、
    前記フレーム境界検出ステップでの検出結果に基づき速度変換を行うOLA(overlap and add)ステップとを有し、
    前記フレーム境界検出ステップは、前記危険箇所検出ステップにて検出された、音質上危険な箇所をフレーム境界の候補から除外する話者速度変換方法。
  7. 入力される音声の速度を変換する話者速度変換方法であって、
    入力された音声のうち音質上危険な箇所を検出する危険箇所検出ステップと、
    入力された音声のOLA(overlap and add)処理におけるフレーム繰り返し数を決定する反復回数決定処理ステップと、
    前記反復回数決定処理ステップにて決定したフレーム繰り返し数に基づき速度変換を行うOLA(overlap and add)ステップとを有し、
    前記反復回数決定処理ステップは、前記危険箇所検出ステップにて検出された、音質上危険な箇所をフレーム繰り返し数の決定の対象外とする話者速度変換方法。
  8. 請求項6に記載の話者速度変換方法において、
    入力された音声のOLA(overlap and add)処理におけるフレーム繰り返し数を決定し、前記危険箇所検出ステップにて検出された、音質上危険な箇所をフレーム繰り返し数の決定の対象外とする反復回数決定処理ステップを有し、
    前記OLA(overlap and add)ステップは、前記フレーム境界検出ステップでの検出結果および前記反復回数決定処理ステップにて決定したフレーム繰り返し数に基づき速度変換を行う話者速度変換方法。
  9. 請求項6乃至8のいずれか1項に記載の話者速度変換方法において、
    前記危険箇所検出ステップは、入力された音声のうち、語頭の急峻な振幅増加が発生している部分を危険箇所として検出する話者速度変換方法。
  10. 入力される音声の速度を変換する話者速度変換装置であって、
    入力された音声のうち音質上危険な箇所を検出する危険箇所検出手段と、
    入力された音声の中からフレーム境界の候補となり得るポイントを複数個検索し、これらのうち音質面で最も優れていると予測されるポイントをフレーム境界として出力するフレーム境界検出手段と、
    前記フレーム境界検出手段での検出結果に基づき速度変換を行うOLA(overlap and add)手段とを有し、
    前記フレーム境界検出手段は、前記危険箇所検出手段にて検出された、音質上危険な箇所をフレーム境界の候補から除外する話者速度変換装置。
  11. 入力される音声の速度を変換する話者速度変換装置であって、
    入力された音声のうち音質上危険な箇所を検出する危険箇所検出手段と、
    入力された音声のOLA(overlap and add)処理におけるフレーム繰り返し数を決定する反復回数決定処理手段と、
    前記反復回数決定処理手段にて決定したフレーム繰り返し数に基づき速度変換を行うOLA(overlap and add)手段とを有し、
    前記反復回数決定処理手段は、前記危険箇所検出手段にて検出された、音質上危険な箇所をフレーム繰り返し数の決定の対象外とする話者速度変換装置。
  12. 請求項10に記載の話者速度変換装置において、
    入力された音声のOLA(overlap and add)処理におけるフレーム繰り返し数を決定し、前記危険箇所検出手段にて検出された、音質上危険な箇所をフレーム繰り返し数の決定の対象外とする反復回数決定処理手段を有し、
    前記OLA(overlap and add)手段は、前記フレーム境界検出手段での検出結果および前記反復回数決定処理手段にて決定したフレーム繰り返し数に基づき速度変換を行う話者速度変換装置。
  13. 請求項10乃至12のいずれか1項に記載の話者速度変換装置において、
    前記危険箇所検出手段は、入力された音声のうち、語頭の急峻な振幅増加が発生している部分を危険箇所として検出する話者速度変換装置。
  14. 入力された音声の速度を変換するためのプログラムであって、
    コンピュータに、
    入力された音声のうち音質上危険な箇所を検出する危険箇所検出ステップと、
    入力された音声の中からフレーム境界の候補となり得るポイントを複数個検索し、これらのうち音質面で最も優れていると予測されるポイントをフレーム境界として出力し、また、前記危険箇所検出ステップにて検出された、音質上危険な箇所をフレーム境界の候補から除外するフレーム境界検出ステップと、
    入力された音声のOLA(overlap and add)処理におけるフレーム繰り返し数を決定し、また、前記危険箇所検出ステップにて検出された、音質上危険な箇所をフレーム繰り返し数の決定の対象外とする反復回数決定処理ステップと、
    前記フレーム境界検出ステップでの検出結果および前記反復回数決定処理ステップにて決定してフレーム繰り返し数に基づき速度変換を行うOLA(overlap and add)ステップとを実行させるためのプログラム。
JP2014115975A 2007-08-22 2014-06-04 話者速度変換システムおよびその方法ならびに速度変換装置 Expired - Fee Related JP6071944B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014115975A JP6071944B2 (ja) 2007-08-22 2014-06-04 話者速度変換システムおよびその方法ならびに速度変換装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007215353 2007-08-22
JP2007215353 2007-08-22
JP2014115975A JP6071944B2 (ja) 2007-08-22 2014-06-04 話者速度変換システムおよびその方法ならびに速度変換装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2009528982A Division JP5609111B2 (ja) 2007-08-22 2008-07-22 話者速度変換システム

Publications (2)

Publication Number Publication Date
JP2014186347A true JP2014186347A (ja) 2014-10-02
JP6071944B2 JP6071944B2 (ja) 2017-02-01

Family

ID=40378050

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2009528982A Expired - Fee Related JP5609111B2 (ja) 2007-08-22 2008-07-22 話者速度変換システム
JP2014115975A Expired - Fee Related JP6071944B2 (ja) 2007-08-22 2014-06-04 話者速度変換システムおよびその方法ならびに速度変換装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2009528982A Expired - Fee Related JP5609111B2 (ja) 2007-08-22 2008-07-22 話者速度変換システム

Country Status (3)

Country Link
US (1) US8392197B2 (ja)
JP (2) JP5609111B2 (ja)
WO (1) WO2009025142A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5956936B2 (ja) 2013-01-28 2016-07-27 シナノケンシ株式会社 音声データ再生速度変換方法および音声データ再生速度変換装置
CN108352165B (zh) * 2015-11-09 2023-02-03 索尼公司 解码装置、解码方法以及计算机可读存储介质
CN107767880B (zh) * 2016-08-16 2021-04-16 杭州萤石网络有限公司 一种语音检测方法、摄像机和智能家居看护系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000511651A (ja) * 1996-06-05 2000-09-05 インターバル リサーチ コーポレイション 記録されたオーディオ信号の非均一的時間スケール変更
JP2001242900A (ja) * 2000-02-25 2001-09-07 Yamaha Corp 音の時間伸長装置、方法、および音の時間伸長プログラムを記録した記録媒体
JP2003345397A (ja) * 2002-03-19 2003-12-03 Matsushita Electric Ind Co Ltd 再生速度変換装置
JP2005275010A (ja) * 2004-03-25 2005-10-06 Casio Comput Co Ltd 音声伸張装置、音声伸張方法及びプログラム
JP2007094004A (ja) * 2005-09-29 2007-04-12 Kowa Co 音声信号の時間軸圧伸方法および音声信号の時間軸圧伸装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2874607B2 (ja) * 1994-09-14 1999-03-24 松下電器産業株式会社 音声時間軸変換装置
US5694521A (en) * 1995-01-11 1997-12-02 Rockwell International Corporation Variable speed playback system
JP3453898B2 (ja) * 1995-02-17 2003-10-06 ソニー株式会社 音声信号の雑音低減方法及び装置
JP3546755B2 (ja) 1999-05-06 2004-07-28 ヤマハ株式会社 リズム音源信号の時間軸圧伸方法及び装置
JP3430974B2 (ja) * 1999-06-22 2003-07-28 ヤマハ株式会社 ステレオ信号の時間軸圧伸方法及び装置
US6505153B1 (en) * 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
US6999922B2 (en) * 2003-06-27 2006-02-14 Motorola, Inc. Synchronization and overlap method and system for single buffer speech compression and expansion
JP2006038956A (ja) 2004-07-22 2006-02-09 Sony Corp 音声速度遅延装置及び方法
JP4471780B2 (ja) * 2004-08-24 2010-06-02 株式会社神戸製鋼所 音声信号処理装置及びその方法
JP2006126372A (ja) 2004-10-27 2006-05-18 Canon Inc オーディオ信号符号化装置、方法及びプログラム
JP4630876B2 (ja) * 2005-01-18 2011-02-09 富士通株式会社 話速変換方法及び話速変換装置
JP4675692B2 (ja) 2005-06-22 2011-04-27 富士通株式会社 話速変換装置
JP2007047313A (ja) * 2005-08-08 2007-02-22 Sony Corp 話速変換装置
JP2007072045A (ja) * 2005-09-06 2007-03-22 Victor Co Of Japan Ltd 音声処理装置
US7957960B2 (en) * 2005-10-20 2011-06-07 Broadcom Corporation Audio time scale modification using decimation-based synchronized overlap-add algorithm
JP2008203421A (ja) * 2007-02-19 2008-09-04 Animo:Kk 話速変換プログラム、方法及び装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000511651A (ja) * 1996-06-05 2000-09-05 インターバル リサーチ コーポレイション 記録されたオーディオ信号の非均一的時間スケール変更
JP2001242900A (ja) * 2000-02-25 2001-09-07 Yamaha Corp 音の時間伸長装置、方法、および音の時間伸長プログラムを記録した記録媒体
JP2003345397A (ja) * 2002-03-19 2003-12-03 Matsushita Electric Ind Co Ltd 再生速度変換装置
JP2005275010A (ja) * 2004-03-25 2005-10-06 Casio Comput Co Ltd 音声伸張装置、音声伸張方法及びプログラム
JP2007094004A (ja) * 2005-09-29 2007-04-12 Kowa Co 音声信号の時間軸圧伸方法および音声信号の時間軸圧伸装置

Also Published As

Publication number Publication date
JP5609111B2 (ja) 2014-10-22
US8392197B2 (en) 2013-03-05
WO2009025142A1 (ja) 2009-02-26
US20110224990A1 (en) 2011-09-15
JP6071944B2 (ja) 2017-02-01
JPWO2009025142A1 (ja) 2010-11-18

Similar Documents

Publication Publication Date Title
JP4587160B2 (ja) 信号処理装置および方法
US8775173B2 (en) Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
JP2014240940A (ja) 書き起こし支援装置、方法、及びプログラム
JP6071944B2 (ja) 話者速度変換システムおよびその方法ならびに速度変換装置
JP5367932B2 (ja) オーディオ速度変換を可能にするシステムおよび方法
JP2011237753A (ja) 信号処理装置および方法、並びにプログラム
WO2007026436A1 (ja) ボーカル・フライ検出装置
JP2015169827A (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP5621786B2 (ja) 音声検出装置、音声検出方法、および音声検出プログラム
JP5166470B2 (ja) 音声認識装置、及びコンテンツ再生装置
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
JP4580297B2 (ja) 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路
CN106920558B (zh) 关键词识别方法及装置
WO2017085815A1 (ja) 困惑状態判定装置、困惑状態判定方法、及びプログラム
JPH07191695A (ja) 話速変換装置
JP2008139573A (ja) 声質変換方法、声質変換プログラム、声質変換装置
JP2019032400A (ja) 発話判定プログラム、発話判定方法、及び発話判定装置
JPH07192392A (ja) 話速変換装置
JP2015031913A (ja) 音声処理装置、音声処理方法、及びプログラム
JP4313724B2 (ja) 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体
JPH07295588A (ja) 発話速度推定方法
WO2016203753A1 (ja) 雑音検出装置、雑音抑圧装置、雑音検出方法、雑音抑圧方法、および、記録媒体
JP6790851B2 (ja) 音声処理プログラム、音声処理方法、及び音声処理装置
JPH04115299A (ja) 音声有音無音判定方法および装置
JP7113719B2 (ja) 発話末タイミング予測装置およびプログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20140918

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150929

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161227

R150 Certificate of patent or registration of utility model

Ref document number: 6071944

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees