JP2008242082A - 音声処理装置、音声処理方法、ならびに、プログラム - Google Patents
音声処理装置、音声処理方法、ならびに、プログラム Download PDFInfo
- Publication number
- JP2008242082A JP2008242082A JP2007082677A JP2007082677A JP2008242082A JP 2008242082 A JP2008242082 A JP 2008242082A JP 2007082677 A JP2007082677 A JP 2007082677A JP 2007082677 A JP2007082677 A JP 2007082677A JP 2008242082 A JP2008242082 A JP 2008242082A
- Authority
- JP
- Japan
- Prior art keywords
- section
- sound
- voiced
- time
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】記憶部201は文字列を発音する音声を表す波形データ251を記憶する。決定部202は文字列の長さに基づいて閾時間を決定する。保持部203は波形データ251から有音区間を抽出して保持する。更新部204は保持された有音区間の時間長が決定部202により決定された閾時間より短い場合、その有音区間と、その有音区間の近くの他の有音区間と、これら2つの有音区間に挟まれる区間と、から構成される区間を新たな有音区間に更新して保持部203に保持させる。出力部205は文字列と保持部203に保持された有音区間とを対応付けて出力する。
【選択図】図2
Description
例えば、特許文献2には、データ管理の仕方を工夫することにより音声データの編集を支援する装置が開示されている。これによれば、音声データは、編集前と編集後の独立したトラックデータとして記憶されるため、音声データの編集のアンドゥ(ユーザの直前の操作を取り消して元に戻すこと)ができる。また、編集後に微少量の音声データしか格納されないクラスタ(記憶装置がデータを記憶する領域の単位)がないように記憶されるので、安定した再生も行える。
例えば、特許文献3には、多彩な音色を生成できる装置が開示されている。これによれば、例えばMIDI(Musical Instrument Digital Interface)において、複数の音色データをセットにして記録した音色セットを1つだけでなく複数個用いて音声データを編集することができる。
このように従来技術では、抽出された音声データを編集する作業の手間を省くための工夫がなされてきた。
記憶部は、文字列を発音する音声を含む波形データを記憶する。
決定部は、当該文字列に基づいて、閾時間を決定する。
保持部は、記憶部に記憶された波形データから有音区間を抽出して保持する。
更新部は、保持部により保持された有音区間のそれぞれについて、当該有音区間の時間長が、決定部により決定された閾時間より短い場合、当該有音区間と、当該有音区間の前後に存在する他の一の有音区間と、当該二つの有音区間に挟まれる区間と、から構成される区間を新たな有音区間として保持部に保持させるように更新する。
この結果、音声処理装置は、音声波形データの中から有音区間の部分を容易に抽出できる。例えば、有音区間には、映画の吹き替え音声、ゲームキャラクターのセリフ、音声案内システムのガイダンスなどのような、文字列を発音する音声の全部あるいは一部が含まれる。また、音声処理装置は、音声を抽出する際の最小時間長となる閾時間より短い時間長の音声が含まれないように抽出する。これにより、本来一連の繋がったセリフであるべき音声が分断されてしまったり、違うセリフの音声が繋がってしまったりすることがなくなるので、音声の編集作業のユーザへの負担を軽減でき、ユーザは効率よく音声を編集できる。
この結果、音声処理装置は、音声を抽出する際の最小時間長となる閾時間より短い時間長の音声が含まれないように抽出して出力する。これにより、本来一連の繋がったセリフであるべき音声が分断されて出力されてしまったり、違うセリフの音声が繋がって出力されてしまったりすることがなくなるので、音声の編集作業のユーザへの負担を軽減でき、ユーザは効率よく音声を編集できる。また、音声波形データの中に複数のセリフが含まれていても、抽出したセリフ部分の音声波形データと音声内容を表す文字列とを対応付けて出力するので、どのデータがどの音声のものなのかが明確になり、ユーザは抽出後の音声を管理しやすくなる。
この結果、音声処理装置は、文字列の長さに応じて、音声を抽出する際の最小時間長を調節できる。すなわち、セリフの長さに応じて最適の時間長の音声を抽出する。例えば、編集対象の音声波形データの中に長いセリフが含まれていれば、そのセリフが分断されてしまわないように、最小時間長を長くして抽出できる。例えば、短いセリフが含まれていれば、そのセリフが他のセリフと一緒になってしまわないように、最小時間長を短くして抽出できる。
例えば、この定数は、文字の種類に応じて決められた発音時間にすることができる。ここで用いる発音時間は、必ずしも人間が発音するときの厳密な数値である必要はなく、抽出したい音声の長さをおおよそ推定できる数値であればよい。
この結果、音声処理装置は、文字の種類に応じて決められた発音時間の合計を最小時間長にし、この最小時間長に満たない時間長にならないように音声を抽出できる。例えば、文字の種類とは、ひらがな、カタカナ、漢字、数字、アルファベット、その他の言語を表す文字、句読点などのことである。あるいは、ユーザが任意に設定した、記号と発音時間長との関連付けに基づいて、この最小時間長を計算してもよい。
(a)当該有音区間と、当該有音区間より時系列的に前に存在する前方有音区間と、に挟まれる第1区間、
(b)当該有音区間と、当該有音区間より時系列的に後に存在する後方有音区間と、に挟まれる第2区間、
のそれぞれの時間長を求め、当該第1区間と当該第2区間のうち、当該求めた時間長の短い方の区間を選択し、当該選択した区間と、当該有音区間と、当該選択した区間に対応する当該前方有音区間又は当該後方有音区間のいずれかと、から構成される区間を、当該新たな有音区間として保持部に保持させるように更新することができる。
この結果、音声処理装置は、音声を抽出する際の最小時間長より短い有音区間が存在すると、その有音区間と、その有音区間の前後に存在する他の2つの有音区間のうち時間的に近い方とをまとめて1つの音声にして抽出する。これにより、音声処理装置は、最小時間長より短い音声がないように音声を抽出でき、ユーザの編集作業の負担を軽減できる。
(c)当該有音区間より時系列的に前に存在する前方有音区間と、当該前方有音区間と当該有音区間に挟まれる区間と、から構成される第1区間、
(d)当該有音区間より時系列的に後に存在する後方有音区間と、当該後方有音区間と当該有音区間に挟まれる区間と、から構成される第2区間、
のそれぞれの時間長を求め、当該第1区間と当該第2区間のうち、当該求めた時間長の短い方の区間を選択し、当該選択した区間と当該有音区間とから構成される区間を、当該新たな有音区間として保持部に保持させるように更新することができる。
この結果、音声処理装置は、音声を抽出する際の最小時間長より短い有音区間が存在すると、その有音区間と、その有音区間の前後に存在する他の2つの有音区間のうち結合後の長さが短い方とをまとめて1つの音声にして抽出する。これにより、音声処理装置は、最小時間長より短い音声がないように音声を抽出でき、ユーザの編集作業の負担を軽減できる。
(e)当該有音区間より時系列的に前に存在する前方有音区間、
(f)当該有音区間より時系列的に後に存在する後方有音区間、
のそれぞれの時間長を求め、当該前方有音区間と当該後方有音区間のうち、当該求めた時間長の短い方の区間を選択し、当該選択した区間と、当該有音区間と、当該選択した区間と当該有音区間に挟まれる区間を、当該新たな有音区間として保持部に保持させるように更新することができる。
この結果、音声処理装置は、音声を抽出する際の最小時間長より短い有音区間が存在すると、その有音区間と、その有音区間の前後に存在する他の2つの有音区間のうち時間長が短い方とをまとめて1つの音声にして抽出する。これにより、音声処理装置は、最小時間長より短い音声がないように音声を抽出でき、ユーザの編集作業の負担を軽減できる。
また、出力部は、抽出された2つのオフセット区間をさらに再生し、保持された有音区間の中からいずれかをユーザに選択させ、選択された有音区間と抽出された2つのオフセット区間を、当該文字列に対応付けて出力してもよい。
この結果、音声処理装置は、有音区間の前後の音声も合わせて抽出して出力できる。これにより、ユーザの編集作業の負担を軽減し、且つ、音声の前後にエフェクトをかけることができる。例えば、音量のフェードイン、フェードアウト、エコー、ローパスフィルタ、ハイパスフィルタ、再生スピードの変更、などのエフェクトをかけることができる。
この結果、音声処理装置は、抽出した音声の始めにフェードインさせ、終わりにフェードアウトさせる。これにより、ユーザの編集作業の負担を軽減し、且つ、音声の前後がスムーズに聞こえるようにエフェクトをかけることができる。
記憶部には、文字列を発音する音声を含む波形データが記憶される。
決定ステップは、決定部が、当該文字列に基づいて、閾時間を決定する。
保持ステップは、保持部が、記憶部に記憶された波形データから有音区間を抽出して保持する。
更新ステップは、保持ステップにより保持された有音区間のそれぞれについて、当該有音区間の時間長が決定された閾時間より短い場合、更新部が、当該有音区間と、当該有音区間の前後に存在する他の一の有音区間と、当該二つの有音区間に挟まれる区間と、から構成される区間を新たな有音区間として保持ステップに保持させるように更新する。
この結果、この音声処理方法を用いた装置は、音声波形データの中から有音区間の部分を容易に抽出できる。例えば、有音区間には、映画の吹き替え音声、ゲームキャラクターのセリフ、音声案内システムのガイダンスなどのような、文字列を発音する音声が含まれる。また、この装置は、音声を抽出する際の最小時間長となる閾時間より短い時間長の音声が含まれないように抽出する。これにより、本来一連の繋がったセリフであるべき音声が分断されてしまったり、違うセリフの音声が繋がって抽出されてしまったりすることがなくなるので、音声の編集作業のユーザへの負担を軽減でき、ユーザは効率よく音声を編集できる。
記憶部は、文字列を発音する音声を含む波形データを記憶する。
決定部は、当該文字列に基づいて、閾時間を決定する。
保持部は、記憶部に記憶された波形データから有音区間を抽出して保持する。
更新部は、保持部により保持された有音区間のそれぞれについて、当該有音区間の時間長が、決定された閾時間より短い場合、当該有音区間と、当該有音区間の前後に存在する他の一の有音区間と、当該二つの有音区間に挟まれる区間と、から構成される区間を新たな有音区間として保持部に保持させるように更新する。
この結果、プログラムは、コンピュータを、音声波形データの中から有音区間の部分を容易に抽出できる装置として機能させる。例えば、有音区間には、映画の吹き替え音声、ゲームキャラクターのセリフ、音声案内システムのガイダンスなどのような、文字列を発音する音声が含まれる。また、コンピュータは、音声を抽出する際の最小時間長となる閾時間より短い時間長の音声が含まれないように抽出する。これにより、本来一連の繋がったセリフであるべき音声が分断されてしまったり、違うセリフの音声が繋がって抽出されてしまったりすることがなくなるので、音声の編集作業のユーザへの負担を軽減でき、ユーザは効率よく音声を編集できる。
上記プログラムは、プログラムが実行されるコンピュータとは独立して、コンピュータ通信網を介して配布・販売することができる。また、上記情報記憶媒体は、コンピュータとは独立して配布・販売することができる。
(実施例1)
図1は、本実施形態の音声処理装置100の構成を示す図である。本図に示すように、音声処理装置100は、入力部101、画像処理部102、音声処理部103、通信処理部104、DVD−ROM(Digital Versatile Disk-Read Only Memory)ドライブ105、記憶装置106、ROM(Read Only Memory)107、RAM(Random Access Memory)108、制御部109、システムバス110を備える。
また、制御部109は、ある時刻T(j)において波形データ251のパワー値が基準値Qbase未満であり、且つ、その時刻T(j)以前の波形データ251のパワー値が所定時間TY以上続いて基準値Qbase以上である場合、その時刻T(j)を有音区間310の終了点(あるいは無音区間320の開始点)620とする。すなわち、波形データ251の振幅がゼロでない区間があっても、それがノイズによるものであると判断し無音区間320とする場合がある。
また、制御部109は、ある時刻T(j)においてアタック比率(あるいはリリース比率)が基準値Qbase未満であり、且つ、その時刻T(j)以前の波形データ251のパワー値が所定時間TY以上続いて基準値Qbase以上である場合、その時刻T(j)を有音区間310の終了点(あるいは無音区間320の開始点)620とする。
また、制御部109は、ある時刻T(j)の交点より以前の近似曲線810の値が所定時間TY以上続いて基準値Qbase以上である場合、その時刻T(j)を有音区間310の終了点(あるいは無音区間320の開始点)620とする。
なお、有音区間310の開始点610を判別するときの基準値Pbaseと、有音区間310の終了点620を判別するときの基準値Qbaseを同じ値にしてもよいし、別の値にしてもよい。
一方、図10(b)に示すように、有音区間1011の時間長が閾時間TSより短い場合、制御部109は、有音区間1011と、他の有音区間1012と、2つの有音区間1011,1012に挟まれる無音区間1021と、から構成される区間を、新たな有音区間とする。すなわち、図10(c)に示すように、制御部109は、有音区間1011,1012及び無音区間1021から構成される区間を、新たな有音区間1030として記憶装置106に記憶させる。ここで、他の有音区間1012とは、例えば、1つの無音区間を挟んで隣り合わせに存在する有音区間のことである。
あるいは、更新部204は、時間長が閾時間TS未満の有音区間310が存在すると、その有音区間310より時系列的に前に存在する他の有音区間のうち、その有音区間310の終了点から閾時間TS以上離れ、且つ、最も近いものを選択してもよい。そして、更新部204は、その有音区間310の終了点から、選択した他の有音区間の開始点までを新たな有音区間にしてもよい。
さらには、更新部204は、時間長が閾時間TS未満の有音区間310が存在すると、
(1)その有音区間310より時系列的に後に存在する他の有音区間のうち、その有音区間310の開始点から閾時間TS以上離れ、且つ、最も近いもの
(2)その有音区間310より時系列的に前に存在する他の有音区間のうち、その有音区間310の終了点から閾時間TS以上離れ、且つ、最も近いもの
の両方を特定し、いずれか近い方を選択して、新たな有音区間を生成してもよい。
(1)有音区間1111と、有音区間1111より時系列的に前に存在する前方有音区間1112と、に挟まれる前方無音区間(第1区間)1121の時間長Tfwd、
(2)有音区間1111と、有音区間1111より時系列的に後に存在する後方有音区間1113と、に挟まれる後方無音区間(第2区間)1122の時間長Tbwd、
のそれぞれを計算する。そして、制御部109は、計算したTfwdとTbwdを比較して時間長の短い方を選択する。さらに、制御部109は、(イ)前方無音区間1121と後方無音区間1122のうち選択した方の無音区間、(ロ)有音区間1111、(ハ)選択した方の無音区間に対応する前方有音区間1112又は後方有音区間1113のどちらか、から構成される区間を、新たな有音区間1130としてもよい。
言い換えれば、Tfwd>Tbwdの場合、制御部109は、図11(b)に示すように、有音区間1111と前方無音区間1121と前方有音区間1112とから構成される区間を、新たな有音区間1130とする。一方、Tfwd<Tbwdの場合、制御部109は、図11(c)に示すように、有音区間1111と後方無音区間1122と後方有音区間1113とから構成される区間を、新たな有音区間1130とする。なお、Tfwd=Tbwdの場合には、制御部109は、前方無音区間1121と後方無音区間1122のどちらを選択してもよい。
(1)有音区間1111に時系列的に前に存在する前方有音区間1112と、前方有音区間1112と有音区間1111に挟まれる前方無音区間1121と、から構成される第1区間の時間長Tfwd、
(2)有音区間1111に時系列的に後に存在する後方有音区間1113と、後方有音区間1113と有音区間1111に挟まれる後方無音区間1122と、から構成される第2区間の時間長Tbwd、
のそれぞれを計算する。そして、制御部109は、計算したTfwdとTbwdを比較して時間長の短い方を選択する。さらに、制御部109は、(イ)第1区間と第2区間のうち選択した方の区間、(ロ)有音区間1111、から構成される区間を、新たな有音区間1130としてもよい。
言い換えれば、Tfwd>Tbwdの場合、制御部109は、図11(b)に示すように、有音区間1111と前方無音区間1121と前方有音区間1112とから構成される区間を、新たな有音区間1130とする。一方、Tfwd<Tbwdの場合、制御部109は、図11(c)に示すように、有音区間1111と後方無音区間1122と後方有音区間1113とから構成される区間を、新たな有音区間1130とする。なお、Tfwd=Tbwdの場合には、制御部109は、前方無音区間1121と後方無音区間1122のどちらを選択してもよい。
(1)有音区間1111に時系列的に前に存在する前方有音区間1112の時間長Tfwd、
(2)有音区間1111に時系列的に後に存在する後方有音区間1113の時間長Tbwd、
のそれぞれを計算する。そして、制御部109は、計算したTfwdとTbwdを比較して時間長の短い方を選択する。さらに、制御部109は、(イ)前方有音区間1112と後方有音区間1113のうち選択した方の有音区間、(ロ)有音区間1111、(ハ)選択した方の有音区間と有音区間1111とに挟まれる無音区間、から構成される区間を、新たな有音区間1130としてもよい。
言い換えれば、Tfwd>Tbwdの場合、制御部109は、図11(b)に示すように、有音区間1111と前方無音区間1121と前方有音区間1112とから構成される区間を、新たな有音区間1130とする。一方、Tfwd<Tbwdの場合、制御部109は、図11(c)に示すように、有音区間1111と後方無音区間1122と後方有音区間1113とから構成される区間を、新たな有音区間1130とする。なお、Tfwd=Tbwdの場合には、制御部109は、前方有音区間1112と後方有音区間1113のどちらを選択してもよい。
次に、本発明の他の実施形態について説明する。本実施形態は、音声処理装置100に波形データ251から音声データを抽出させるための詳細な設定ができるようにしたものである。
(A)無音時間パラメータ・・・時間長を示す数値(例えばミリ秒単位など)で設定される。保持部203はこれより短い時間の発音があっても無音とみなす。これにより、ノイズ等による瞬間的な波形変化を無視できる。上述の実施形態における所定時間TX,TYに相当する。
(B)最低発音時間パラメータ・・・時間長を示す数値で設定される。保持部203はこれより短い時間長の有音区間310を作成しない。すなわち、決定部202が計算した閾時間TSがこれより短い場合、保持部203はこの最低発音時間パラメータを優先する。
(C)アタック音量パラメータ・・・音量を示す数値(例えばデシベル単位など)で設定される。保持部203はこれより大きい音量のときにアタック(発音の開始)とみなす。上述の実施形態における基準値Pbaseに相当する。
(D)リリース音量パラメータ・・・音量を示す数値(例えばデシベル単位など)で設定される。保持部203はこれより小さい音量のときにリリース(発音の終了)とみなす。上述の実施形態における基準値Qbaseに相当する。
(X)前オフセット時間パラメータ・・・時間長を示す数値で設定される。更新部204は、有音区間310の開始点610からこのパラメータで指定された時間長だけ前までの区間を前オフセット区間1410として抽出する。例えば、出力部205は、前オフセット区間1410では音量をゼロから単調増加させてだんだんと大きくしていき、有音区間310の開始点610の音量に滑らかに繋げて再生する(いわゆるフェードイン再生)。
(Y)後ろオフセット時間パラメータ・・・時間長を示す数値で設定される。更新部204は、有音区間310の終了点620からこのパラメータで指定された時間長だけ後ろまでの区間を後ろオフセット区間1420として抽出する。例えば、出力部205は、後ろオフセット区間1420では音量を有音区間310の終了点620の音量から単調減少させてだんだんと小さくしていき、後ろオフセット区間1420の最後で音量をゼロにする(いわゆるフェードアウト再生)。
(Z)感度パラメータ・・・段階を示す数値やセットの固有番号等で設定される。ユーザは、図15に示すように、予め記憶部201に記憶された強感度用、弱感度用といったセットを用いたり、よく使う設定として任意に編集した各パラメータをセットにして記憶部201に記憶させて用いたりすることができる。ユーザは、感度パラメータを設定すれば、各基本パラメータを一つ一つ設定する必要はないので、編集作業を効率化できる。なお、各セットに含まれるパラメータはこれらに限定されず、補助パラメータ等の他のパラメータも含まれていてもよい。
101 入力部
102 画像処理部
103 音声処理部
104 通信処理部
105 DVD−ROMドライブ
106 記憶装置
107 ROM
108 RAM
109 制御部
110 システムバス
121 キーボード
122 マウス
123 モニタ
124 スピーカー
125 マイク
201 記憶部
202 決定部
203 保持部
204 更新部
205 出力部
251 波形データ
310 有音区間
320 無音区間
400 セリフテーブル
410 波形データ名
420 セリフ番号
430 文字列データ
610 有音区間の開始点(あるいは無音区間の終了点)
620 有音区間の終了点(あるいは無音区間の開始点)
810 近似曲線
1410 前オフセット区間
1420 後ろオフセット区間
Claims (11)
- 文字列を発音する音声を含む波形データを記憶する記憶部と、
当該文字列に基づいて、閾時間を決定する決定部と、
前記記憶された波形データから有音区間を抽出して保持する保持部と、
前記保持された有音区間のそれぞれについて、当該有音区間の時間長が前記決定された閾時間より短い場合、当該有音区間と、当該有音区間の前後に存在する他の一の有音区間と、当該二つの有音区間に挟まれる区間と、から構成される区間を新たな有音区間として前記保持部に保持させるように更新する更新部と、
を備えることを特徴とする音声処理装置。 - 請求項1に記載の音声処理装置であって、
前記保持された有音区間のうちユーザによって選択された有音区間を当該文字列に対応付けて出力する出力部を更に備える
ことを特徴とする音声処理装置。 - 請求項1又は2に記載の音声処理装置であって、
前記決定部は、当該文字列の長さに対して単調増加させて当該閾時間を決定する
ことを特徴とする音声処理装置。 - 請求項1又は2に記載の音声処理装置であって、
前記決定部は、文字の種類に応じて予め定められたゼロ以上の定数の総和を求めることにより当該閾時間を決定する
ことを特徴とする音声処理装置。 - 請求項1乃至4のいずれか1項に記載の音声処理装置であって、
前記更新部は、
(a)当該有音区間と、当該有音区間より時系列的に前に存在する前方有音区間と、に挟まれる第1区間、
(b)当該有音区間と、当該有音区間より時系列的に後に存在する後方有音区間と、に挟まれる第2区間、
のそれぞれの時間長を求め、当該第1区間と当該第2区間のうち、当該求めた時間長の短い方の区間を選択し、当該選択した区間と、当該有音区間と、当該選択した区間に対応する当該前方有音区間又は当該後方有音区間のいずれかと、から構成される区間を、当該新たな有音区間として前記保持部に保持させるように更新する
ことを特徴とする音声処理装置。 - 請求項1乃至4のいずれか1項に記載の音声処理装置であって、
前記更新部は、
(c)当該有音区間より時系列的に前に存在する前方有音区間と、当該前方有音区間と当該有音区間に挟まれる区間と、から構成される第1区間、
(d)当該有音区間より時系列的に後に存在する後方有音区間と、当該後方有音区間と当該有音区間に挟まれる区間と、から構成される第2区間、
のそれぞれの時間長を求め、当該第1区間と当該第2区間のうち、当該求めた時間長の短い方の区間を選択し、当該選択した区間と当該有音区間とから構成される区間を、当該新たな有音区間として前記保持部に保持させるように更新する
ことを特徴とする音声処理装置。 - 請求項1乃至4のいずれか1項に記載の音声処理装置であって、
前記更新部は、
(e)当該有音区間より時系列的に前に存在する前方有音区間、
(f)当該有音区間より時系列的に後に存在する後方有音区間、
のそれぞれの時間長を求め、当該前方有音区間と当該後方有音区間のうち、当該求めた時間長の短い方の区間を選択し、当該選択した区間と、当該有音区間と、当該選択した区間と当該有音区間に挟まれる区間を、当該新たな有音区間として前記保持部に保持させるように更新する
ことを特徴とする音声処理装置。 - 請求項2に記載の音声処理装置であって、
前記保持部は、当該有音区間の開始位置から時系列的に前の所定長さのオフセット区間と、当該有音区間の終了位置から時系列的に後の所定長さのオフセット区間とを更に抽出して保持し、
前記出力部は、前記抽出された2つのオフセット区間をさらに再生し、前記保持された有音区間の中からいずれかをユーザに選択させ、前記選択された有音区間と前記抽出された2つのオフセット区間を、当該文字列に対応付けて出力する
ことを特徴とする音声処理装置。 - 請求項8に記載の音声処理装置であって、
前記出力部は、当該有音区間の開始位置から時系列的に前の所定長さのオフセット区間の音量をゼロから単調増加させ、当該有音区間の終了位置から時系列的に後の所定長さのオフセット区間の音量を単調減少させてゼロにする
ことを特徴とする音声処理装置。 - 記憶部、決定部、保持部、更新部を有する装置にて実行される音声処理方法であって、
前記記憶部には、文字列を発音する音声を含む波形データが記憶され、
前記決定部が、当該文字列に基づいて、閾時間を決定する決定ステップと、
前記保持部が、前記記憶された波形データから有音区間を抽出して保持する保持ステップと、
前記保持された有音区間のそれぞれについて、当該有音区間の時間長が前記決定された閾時間より短い場合、前記更新部が、当該有音区間と、当該有音区間の前後に存在する他の一の有音区間と、当該二つの有音区間に挟まれる区間と、から構成される区間を新たな有音区間として前記保持ステップに保持させるように更新する更新ステップと、
を備えることを特徴とする音声処理方法。 - コンピュータを、
文字列を発音する音声を含む波形データを記憶する記憶部、
当該文字列に基づいて、閾時間を決定する決定部、
前記記憶された波形データから有音区間を抽出して保持する保持部、
前記保持された有音区間のそれぞれについて、当該有音区間の時間長が前記決定された閾時間より短い場合、当該有音区間と、当該有音区間の前後に存在する他の一の有音区間と、当該二つの有音区間に挟まれる区間と、から構成される区間を新たな有音区間として前記保持部に保持させるように更新する更新部、
として機能させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007082677A JP4563418B2 (ja) | 2007-03-27 | 2007-03-27 | 音声処理装置、音声処理方法、ならびに、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007082677A JP4563418B2 (ja) | 2007-03-27 | 2007-03-27 | 音声処理装置、音声処理方法、ならびに、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008242082A true JP2008242082A (ja) | 2008-10-09 |
JP4563418B2 JP4563418B2 (ja) | 2010-10-13 |
Family
ID=39913524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007082677A Active JP4563418B2 (ja) | 2007-03-27 | 2007-03-27 | 音声処理装置、音声処理方法、ならびに、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4563418B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5299436B2 (ja) * | 2008-12-17 | 2013-09-25 | 日本電気株式会社 | 音声検出装置、音声検出プログラムおよびパラメータ調整方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6147999A (ja) * | 1984-08-14 | 1986-03-08 | シャープ株式会社 | 音声認識装置 |
JPS61285570A (ja) * | 1985-06-12 | 1986-12-16 | Hitachi Ltd | 音声入力装置 |
JPS6315294A (ja) * | 1986-07-08 | 1988-01-22 | 株式会社日立製作所 | 音声分析装置 |
JPH0289098A (ja) * | 1988-09-26 | 1990-03-29 | Sharp Corp | 音節パターン切り出し装置 |
JPH04338800A (ja) * | 1991-05-15 | 1992-11-26 | Fujitsu Ltd | 単語区間検出方法および装置 |
JPH07199991A (ja) * | 1994-01-07 | 1995-08-04 | Sanyo Electric Works Ltd | 音声合成用データ作成装置 |
JPH07261779A (ja) * | 1994-03-25 | 1995-10-13 | Toppan Printing Co Ltd | 音節認識装置 |
JPH07272447A (ja) * | 1994-03-25 | 1995-10-20 | Toppan Printing Co Ltd | 音声データ編集システム |
JPH08185196A (ja) * | 1994-12-28 | 1996-07-16 | Sony Corp | 音声区間検出装置 |
JPH08212190A (ja) * | 1995-02-06 | 1996-08-20 | Nippon Telegr & Teleph Corp <Ntt> | マルチメディアデータ作成支援装置 |
JP2003309814A (ja) * | 2002-04-16 | 2003-10-31 | Canon Inc | 動画再生装置、動画再生方法及びそのコンピュータ・プログラム |
JP2005136634A (ja) * | 2003-10-29 | 2005-05-26 | Sony Corp | 符号化制御装置および符号化システム |
JP2006227363A (ja) * | 2005-02-18 | 2006-08-31 | Nhk Computer Service:Kk | 放送音声用辞書作成装置および放送音声用辞書作成プログラム |
-
2007
- 2007-03-27 JP JP2007082677A patent/JP4563418B2/ja active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6147999A (ja) * | 1984-08-14 | 1986-03-08 | シャープ株式会社 | 音声認識装置 |
JPS61285570A (ja) * | 1985-06-12 | 1986-12-16 | Hitachi Ltd | 音声入力装置 |
JPS6315294A (ja) * | 1986-07-08 | 1988-01-22 | 株式会社日立製作所 | 音声分析装置 |
JPH0289098A (ja) * | 1988-09-26 | 1990-03-29 | Sharp Corp | 音節パターン切り出し装置 |
JPH04338800A (ja) * | 1991-05-15 | 1992-11-26 | Fujitsu Ltd | 単語区間検出方法および装置 |
JPH07199991A (ja) * | 1994-01-07 | 1995-08-04 | Sanyo Electric Works Ltd | 音声合成用データ作成装置 |
JPH07261779A (ja) * | 1994-03-25 | 1995-10-13 | Toppan Printing Co Ltd | 音節認識装置 |
JPH07272447A (ja) * | 1994-03-25 | 1995-10-20 | Toppan Printing Co Ltd | 音声データ編集システム |
JPH08185196A (ja) * | 1994-12-28 | 1996-07-16 | Sony Corp | 音声区間検出装置 |
JPH08212190A (ja) * | 1995-02-06 | 1996-08-20 | Nippon Telegr & Teleph Corp <Ntt> | マルチメディアデータ作成支援装置 |
JP2003309814A (ja) * | 2002-04-16 | 2003-10-31 | Canon Inc | 動画再生装置、動画再生方法及びそのコンピュータ・プログラム |
JP2005136634A (ja) * | 2003-10-29 | 2005-05-26 | Sony Corp | 符号化制御装置および符号化システム |
JP2006227363A (ja) * | 2005-02-18 | 2006-08-31 | Nhk Computer Service:Kk | 放送音声用辞書作成装置および放送音声用辞書作成プログラム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5299436B2 (ja) * | 2008-12-17 | 2013-09-25 | 日本電気株式会社 | 音声検出装置、音声検出プログラムおよびパラメータ調整方法 |
US8812313B2 (en) | 2008-12-17 | 2014-08-19 | Nec Corporation | Voice activity detector, voice activity detection program, and parameter adjusting method |
Also Published As
Publication number | Publication date |
---|---|
JP4563418B2 (ja) | 2010-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190196666A1 (en) | Systems and Methods Document Narration | |
US9478219B2 (en) | Audio synchronization for document narration with user-selected playback | |
US8793133B2 (en) | Systems and methods document narration | |
US8352269B2 (en) | Systems and methods for processing indicia for document narration | |
JP4344658B2 (ja) | 音声合成機 | |
US20080027726A1 (en) | Text to audio mapping, and animation of the text | |
KR20070020252A (ko) | 메시지를 수정하기 위한 방법 및 시스템 | |
JP2013231999A (ja) | 音声録音における音声特性を変換するための装置および方法 | |
KR20210019534A (ko) | 객체 기반 오디오 콘텐츠 생성 방법 및 시스템 | |
US20180122346A1 (en) | Signal processing method and signal processing apparatus | |
JP2007295218A (ja) | ノンリニア編集装置およびそのプログラム | |
CN111105776A (zh) | 有声播放装置及其播放方法 | |
EP3975167A1 (en) | Electronic musical instrument, control method for electronic musical instrument, and storage medium | |
JP4563418B2 (ja) | 音声処理装置、音声処理方法、ならびに、プログラム | |
JP2005215888A (ja) | テキスト文の表示装置 | |
JP2006349787A (ja) | 音声合成方法および装置 | |
JP6299141B2 (ja) | 楽音情報生成装置および楽音情報生成方法 | |
JP2001013982A (ja) | 音声合成装置 | |
JP5471138B2 (ja) | 音素符号変換装置および音声合成装置 | |
KR102585031B1 (ko) | 실시간 외국어 발음 평가시스템 및 방법 | |
WO2023112534A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2007127994A (ja) | 音声合成方法及び音声合成装置並びにプログラム | |
JP3426957B2 (ja) | 映像中への音声録音支援表示方法及び装置及びこの方法を記録した記録媒体 | |
CN117475991A (zh) | 文本转换音频的方法、装置及计算机设备 | |
JP3292218B2 (ja) | 音声メッセージ作成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100316 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100513 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100727 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100728 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130806 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4563418 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130806 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140806 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |