JP6263868B2 - 音声処理装置、音声処理方法および音声処理プログラム - Google Patents
音声処理装置、音声処理方法および音声処理プログラム Download PDFInfo
- Publication number
- JP6263868B2 JP6263868B2 JP2013126303A JP2013126303A JP6263868B2 JP 6263868 B2 JP6263868 B2 JP 6263868B2 JP 2013126303 A JP2013126303 A JP 2013126303A JP 2013126303 A JP2013126303 A JP 2013126303A JP 6263868 B2 JP6263868 B2 JP 6263868B2
- Authority
- JP
- Japan
- Prior art keywords
- vowel
- section
- length
- section length
- vowel section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/057—Time compression or expansion for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
Description
母音区間を検出する検出部を備える。更に当該音声処理装置は、入力音声の単位時間あたりのパワーの変化率に基づいて、入力音声に含まれる単位時間あたりのパワーの変化率の下降傾向が所定の基準よりも大きい区間をアクセント区間と推定するアクセント区間推定部と、アクセント区間に含まれる第1母音区間長またはアクセント区間以外の第2母音区間長を算出する母音区間長算出部と、第1母音区間長または第2母音区間長を制御する制御部を備える。
図1は、第1の実施形態による音声処理装置1の機能ブロック図である。音声処理装置1は、取得部2、検出部3、アクセント区間推定部4、母音区間長算出部5、制御部6を有する。
(数1)
ここで、fは、入力音声に含まれる音響フレームの入力開始から各フレームに連続して付されるフレーム番号(fは0以上の整数)、Mは1フレームの時間長、tは時間、c(t)は、入力音声の振幅(電力)を示す。
雑音推定部11は、フレームfにおける雑音の大きさ(電力)N(f)を、フレームfにおける音量S(f)、前フレーム(f−1)における音量S(f−1)ならびに、雑音の大きさN(f−1)に基づいて、次式を用いて推定することが出来る。
(数2)
ここで、α、βは、定数であり、実験的に決定されれば良い。例えば、α=0.9、β=2.0であれば良い。また、雑音電力の初期値N(−1)も、実験的に決定されれば良い。上述の(数2)において、フレームfの音量S(f)が、1つ前のフレームf−1の音量S(f−1)に対して一定値β以上変化しない場合には、フレームfの雑音電力N(f)が更新される。一方、フレームfの音量S(f)が、1つ前のフレームf−1の音量S(f−1)に対して一定値β以上変化する場合には、1つ前のフレームf−1の雑音電力N(f−1)をフレームfの雑音電力N(f)とする。なお、雑音電力N(f)を上述の雑音推定結果と称しても良い。
雑音推定部11は、雑音の大きさの更新を、次式の(数3)を用いて、フレームfの音量S(f)と、1つ前のフレームf−1の雑音電力N(f−1)との比に基づいて実施しても良い。
(数3)
ここで、γは定数であり、実験的に決定されれば良い。例えば、γ=2.0であれば良い。また、雑音電力の初期値N(−1)も、実験的に決定されれば良い。上述の(数3)において、フレームfの音量S(f)が、1つ前のフレームf−1の雑音電力N(f−1)に対して一定値γ倍以下である場合には、フレームfの雑音電力N(f)を更新する。一方、フレームfの音量S(f)が、1つ前のフレームf−1の雑音電力N(f−1)に対して一定値γ倍以上である場合には、1つ前のフレームf−1の雑音電力N(f−1)をフレームfの雑音電力N(f)とする。
(数4)
ここで、Lは促音の一般的な長さよりも大きな値に規定すれば良く、例えば、0.5msecに相当するフレーム数を規定すれば良い。
(数5)
tb=f×M
(if f_breath=有音区間ではない、かつ、SNR(f)>THSNR)
(数6)
te=f×M−1
(if f_breath=有音区間、かつ、SNR(f)<THSNR)
ここで、THSNRは、区間決定部13による処理フレームfが雑音ではないと看做すための閾値(当該閾値を第1閾値と称しても良い)であり、実験的に規定されれば良い。また、区間決定部13は、入力音声において有音区間以外の区間を無音区間として検出することが出来る。
アクセント区間推定部4は、入力音声のフレーム毎のピッチ周波数を算出する。アクセント区間推定部4は、例えば、特開昭63−155200号公報に開示される、入力音声の音声波形の自己相関を用いてピッチ周波数を算出することが可能である。次に、アクセント区間推定部4は、フレーム毎(単位時間毎)のピッチ変化量の平均値を示す、ピッチ変化率ratioを次式に従って算出する。
(数7)
但し、上述の(数7)において、Pit(n)は、nフレームのピッチ周波数(Hz)であり、Lは、平均化フレーム数(例えば、10フレーム(200ms相当))である。次に、アクセント区間推定部4は、ピッチ変化率の下降傾向が大きい区間(任意の閾値未満の区間)をアクセント区間と推定する。
アクセント区間推定部4は、入力音声のフレーム毎のパワーを算出する。次に、アクセント区間推定部4は、次式に従って、フレーム毎(単位時間毎)のパワー変化量の平均値を示す、パワー変化率ratio(n)を次式に従って算出する。
(数8)
但し、上述の(数8)において、Pow(n)は、nフレームのパワー(単位はdB)であり、Lは、平均化フレーム数(例えば、25フレーム(500ms相当))である。次に、アクセント区間推定部4は、パワー変化率の下降傾向が大きい区間(任意の閾値未満の区間)をアクセント区間と推定する。
(数9)
但し、上述の(数9)において、Lsは第1母音区間長を示し、Leは第2母音区間長を示す。制御部6は、母音区間長比と所定の目標伸縮率(制御量と称しても良い)に基づいて、第1母音区間長または第2母音区間長を制御する。制御部6は、第1母音区間長が第2母音区間長よりも長くなる様に、第1母音区間長または第2母音区間長の何れか、または、双方を伸縮する制御を実施すれば良い。実施例1においては、説明の便宜上、第2母音区間長を制御する方法について説明する。
(数10)
但し、上述の(数10)において、sは第1母音区間長または第2母音区間長の区間の開始フレームを示し、nは現フレーム(n>s)を示す。また、diff(i)は、i番目のフレームで増減したサンプル数を示し、Mは1フレームのサンプル数(例えば、80サンプル)を示す。また、上述の(数10)において、分母は伸縮前の過去フレームの合計サンプル数を表し、分子は伸縮後の過去フレームの合計サンプル数を表す。
実施例1においては、制御部6が、第1母音区間長と、第2母音区間長の比率または差分に基づいて第1母音区間長または第2母音区間長を制御する音声処理装置、音声処理方法及び音声処理プログラムについて説明した。実施例2においては、母音区間長に基づいて第1母音区間長と第2母音区間長を制御する音声処理装置、音声処理方法及び音声処理プログラムについて説明する。実施例2における音声処理装置1の機能ブロック図は図1と同様である為、実施例1と異なる処理についてのみ説明する。
図11は、第2の実施形態による音声処理装置1の機能ブロック図である。音声処理装置1は、取得部2、検出部3、アクセント区間推定部4、母音区間長算出部5、制御部6、特徴量算出部7を有する。取得部2、検出部3、アクセント区間推定部4、母音区間長算出部5、制御部6は実施例1と同様の機能を有する為、詳細な説明は省略する。
(数11)
但し、上述の(数11)において、x(n)は入力音声をサンプリングした信号、Lは自己相関を算出する長さ(例えば100サンプル)、τは時間シフトのサンプル数である。
(数13)
Pit(n) = Fs / fp(n)
但し、上述の(数13)において、Fsはサンプリング周波数(例えば8000Hz)を表す。次に、ピッチ周波数の時間変化を表すピッチ変化率ratio(n)を次式により算出する。
(数14)
但し、上述の(数14)において、Lは平均化フレーム数(例えば4フレーム。80msに相当)を表す。特徴量算出部7は、算出した基本周期とピッチ変化率を制御部6へ出力する。
(数15)
但し、上述の(数15)において、Lは平均化フレーム数(例えば4フレーム。80msに相当)を表し、F(n、j)は、nフレームにおけるj番目のフォルマント周波数(Hz)を表す。
(数16)
但し、上述の(数16)において、x(n)は入力信号、Mは相関算出範囲長(例えば400サンプル)、Smaxは、シフト量の最大値(例えば、160サンプル)を示す。
・ratio(n)<TH_pitの場合 CS(n) = 1 :伸縮する (ピッチ変化が小さい箇所)
・ratio(n)≧TH_pitの場合 CS(n) = 0 :伸縮しない(ピッチ変化が大きい箇所)
・| rate_result(n) - rate_target(n)| <TH_diffの場合 CS(n) = 1 :伸縮する
・上記以外 CS(n) = 0 :伸縮しない
(数17)
但し、上述の(数17)において、Lは基本周期、w1(t)とw2(t)は、次式で表現される重み関数を表す。
(数18)
但し、上述の(数18)において、t1は波形削除箇所のサンプル数、Nは重み付けを行う区間のサンプル数であり、例えばnフレーム目の先頭サンプル数とする。
(数19)
上述の(数19)において、Lは基本周期、w1(t)とw2(t)は、次式で表現される重み関数を表す。
(数20)
但し、上述の(数20)において、t1は波形挿入箇所のサンプル数、Nは重み付けを行う区間のサンプル数であり、例えばnフレーム目の先頭サンプル数とする。
図12は、第3の実施形態による音声処理装置1の機能ブロック図である。音声処理装置1は、取得部2、制御部6、記憶部8、認識部9を有する。取得部2と制御部6は、例えば、実施例1と同様の機能を有する為、詳細な説明は省略する。
図13は、一つの実施形態による音声処理装置1として機能するコンピュータのハードウェア構成図である。図13に示すように、音声処理装置1は、制御部21、主記憶部22、補助記憶部23、ドライブ装置24、ネットワークI/F部26、入力部27、表示部28を含む。これら各構成は、バスを介して相互にデータ入出力可能に接続されている。
図14は、一つの実施形態による携帯端末装置30として機能するハードウェア構成図である。携帯端末装置30は、アンテナ31、無線部32、ベースバンド処理部33、制御部21、端末インタフェース部34、マイク35、スピーカ36、主記憶部22、補助記憶部23を有する。
信号を受信する。無線部32は、ベースバンド処理部33で拡散された送信信号をD/A変換し、直交変調により高周波信号に変換し、その信号を電力増幅器により増幅する。無線部32は、受信した無線信号を増幅し、その信号をA/D変換してベースバンド処理部33に伝送する。
助記憶部23などに記憶されている信号処理プログラムを実行し、例えば、実施例1における音声処理を行う。
タ端末とのインタフェース処理を行う。
(付記1)
入力音声を取得する取得部と、
前記入力音声に含まれる母音区間を検出する検出部と、
前記入力音声に含まれるアクセント区間を推定するアクセント区間推定部と、
前記アクセント区間に含まれる第1母音区間長または前記アクセント区間以外の第2母音区間長を算出する母音区間長算出部と、
前記第1母音区間長または前記第2母音区間長を制御する制御部と、
を備えることを特徴とする音声処理装置。
(付記2)
前記制御部は、前記第1母音区間長を伸長、または、前記第2母音区間長を短縮させることを特徴とする付記1記載の音声処理装置。
(付記3)
前記制御部は、前記第1母音区間長と、前記第2母音区間長の比率または差分に基づいて前記第1母音区間長または前記第2母音区間長を制御することを特徴とする付記1または付記2記載の音声処理装置。
(付記4)
前記制御部は、前記第1母音区間長が前記第2母音区間長よりも長くなる様に、前記第1母音区間長または前記第2母音区間長を伸縮する制御を行うことを特徴とする付記1ないし付記3の何れか1つに記載の音声処理装置。
(付記5)
前記アクセント区間推定部は、前記入力音声の単位時間あたりのピッチ周波数またはパワーの変化量に基づいて前記アクセント区間を推定することを特徴とする付記1ないし付記4の何れか1つに記載の音声処理装置。
(付記6)
前記母音区間における基本周期を算出する特徴量算出部を更に備え、
前記制御部は、前記基本周期単位で前記第1母音区間長または前記第2母音区間長を制御することを特徴とする付記1ないし付記5の何れか1つに記載の音声処理装置。
(付記7)
前記特徴量算出部は、前記母音区間におけるピッチ周波数、フォルマント周波数、または、自己相関の少なくとも一つを含む音響特徴量を更に算出し、
前記制御部は、前記音響特徴量の単位時間あたりの変化量が所定の第1閾値未満の区間内で前記第1母音区間長または前記第2母音区間長を制御することを特徴とする付記6記載の音声処理装置。
(付記8)
前記制御部は、第1母音区間長または前記第2母音区間の自己相関値が所定閾値以上の区間、または、振幅が所定閾値未満の区間において、前記第1母音区間長または前記第2母音区間長を制御することを特徴とする付記1記載の音声処理装置。
(付記9)
前記制御部は、第1母音区間長または前記第2母音区間を、
制御対象となる制御フレームの前フレームに対して時間変化と共に小さくなる重み係数を適用した信号と、
前記制御フレームの後フレームに対して時間変化と共に大きくなる重み係数を適用した信号との加算により、前記第1母音区間長または前記第2母音区間長を伸長または短縮させることを特徴とする付記1記載の音声処理装置。
(付記10)
前記入力音声をテキスト情報として認識する認識部を更に備え、
前記認識部は、前記テキスト情報に基づいて前記第1母音区間長または前記第2母音区間長を認識することを特徴とする付記1記載の音声処理装置。
(付記11)
入力音声を取得し、
前記入力音声に含まれる母音区間を検出し、
前記入力音声に含まれるアクセント区間を推定し、
前記アクセント区間に含まれる第1母音区間長または前記アクセント区間以外の第2母音区間長を算出し、
前記第1母音区間長または前記第2母音区間長を制御すること、
を含むことを特徴とする音声処理方法。
(付記12)
前記制御するは、前記第1母音区間長を伸長、または、前記第2母音区間長を短縮させることを特徴とする付記11記載の音声処理方法。
(付記13)
前記制御することは、前記第1母音区間長と、前記第2母音区間長の比率または差分に基づいて前記第1母音区間長または前記第2母音区間長を制御することを特徴とする付記11または付記12記載の音声処理方法。
(付記14)
前記制御することは、前記第1母音区間長が前記第2母音区間長よりも長くなる様に、前記第1母音区間長または前記第2母音区間長を伸縮する制御を行うことを特徴とする付記11ないし付記13の何れか1つに記載の音声処理方法。
(付記15)
前記推定することは、前記入力音声の単位時間あたりのピッチ周波数またはパワーの変化量に基づいて前記アクセント区間を推定することを特徴とする付記11ないし付記14の何れか1つに記載の音声処理方法。
(付記16)
前記母音区間における基本周期を算出することを更に含み、
前記制御することは、前記基本周期単位で前記第1母音区間長または前記第2母音区間長を制御することを特徴とする付記11ないし付記15の何れか1つに記載の音声処理方法。
(付記17)
前記算出することは、前記母音区間におけるピッチ周波数、フォルマント周波数、または、自己相関の少なくとも一つを含む音響特徴量を更に算出し、
前記制御することは、前記音響特徴量の単位時間あたりの変化量が所定の第1閾値未満の区間内で前記第1母音区間長または前記第2母音区間長を制御することを特徴とする付記16記載の音声処理方法。
(付記18)
前記制御することは、第1母音区間長または前記第2母音区間の自己相関値が所定閾値以上の区間、または、振幅が所定閾値未満の区間において、前記第1母音区間長または前記第2母音区間長を制御することを特徴とする付記11記載の音声処理方法。
(付記19)
前記制御することは、第1母音区間長または前記第2母音区間を、
制御対象となる制御フレームの前フレームに対して時間変化と共に小さくなる重み係数を適用した信号と、
前記制御フレームの後フレームに対して時間変化と共に大きくなる重み係数を適用した信号との加算により、前記第1母音区間長または前記第2母音区間長を伸長または短縮させることを特徴とする付記11記載の音声処理方法。
(付記20)
前記入力音声をテキスト情報として認識することを更に含み、
前記認識することは、前記テキスト情報に基づいて前記第1母音区間長または前記第2母音区間長を認識することを特徴とする付記11記載の音声処理方法。
(付記21)
コンピュータに、
入力音声を取得し、
前記入力音声に含まれる母音区間を検出し、
前記入力音声に含まれるアクセント区間を推定し、
前記アクセント区間に含まれる第1母音区間長または前記アクセント区間以外の第2母音区間長を算出し、
前記第1母音区間長または前記第2母音区間長を制御すること
を実行させることを特徴とする音声処理プログラム。
(付記22)
発話者の音声を入力音声として入力するマイクと、
前記マイクから前記入力音声を入力する入力部と、
前記入力音声を取得する取得部と、
前記入力音声に含まれる母音区間を検出する検出部と、
前記入力音声に含まれるアクセント区間を推定するアクセント区間推定部と、
前記アクセント区間に含まれる第1母音区間長または前記アクセント区間以外の第2母音区間長を推定する算出部と、
前記第1母音区間長または前記第2母音区間長を制御する制御部と、
前記入力音声を制御した出力音声を出力するスピーカー
を備えることを特徴とする携帯端末装置。
2 取得部
3 検出部
4 アクセント区間推定部
5 母音区間長算出部
6 制御部
Claims (7)
- 入力音声を取得する取得部と、
前記入力音声に含まれる母音区間を検出する母音区間検出部と、
前記入力音声の単位時間あたりのパワーの変化率に基づいて、前記入力音声に含まれる前記単位時間あたりのパワーの変化率の下降傾向が所定の基準よりも大きい区間をアクセント区間と推定するアクセント区間推定部と、
前記アクセント区間に含まれる第1母音区間長または前記アクセント区間に含まれない第2母音区間長を算出する母音区間長算出部と、
前記第1母音区間長と前記第2母音区間長との比率または差分に応じて設定した、波形伸縮による音質劣化を防ぐ目標伸縮率に基づいて、前記第1母音区間長を伸長または前記第2母音区間長を短縮させる制御部と、
を備えることを特徴とする音声処理装置。 - 前記制御部は、前記第1母音区間長が前記第2母音区間長よりも長くなる様に、前記第1母音区間長または前記第2母音区間長を伸縮する制御を行うことを特徴とする請求項1に記載の音声処理装置。
- 前記母音区間における基本周期を算出する特徴量算出部を更に備え、
前記制御部は、前記基本周期単位で前記第1母音区間長または前記第2母音区間長を制御することを特徴とする請求項1または請求項2に記載の音声処理装置。 - 前記制御部は、前記母音区間の音声波形に対して前記基本周期単位の音声波形を追加または削除することで前記第1母音区間長または前記第2母音区間長を制御することを特徴とする請求項3に記載の音声処理装置。
- 前記特徴量算出部は、前記母音区間におけるピッチ周波数、フォルマント周波数、または、自己相関の少なくとも一つを含む音響特徴量を更に算出し、
前記制御部は、前記音響特徴量の単位時間あたりの変化量が所定の第1閾値未満の区間内で前記第1母音区間長または前記第2母音区間長を制御することを特徴とする請求項4に記載の音声処理装置。 - 入力音声を取得し、
前記入力音声に含まれる母音区間を検出し、
前記入力音声の単位時間あたりのパワーの変化率に基づいて、前記入力音声に含まれる前記単位時間あたりのパワーの変化率の下降傾向が所定の基準よりも大きい区間をアクセント区間と推定し、
前記アクセント区間に含まれる第1母音区間長または前記アクセント区間に含まれない第2母音区間長を算出し、
前記第1母音区間長と前記第2母音区間長との比率または差分に応じて設定した、波形伸縮による音質劣化を防ぐ目標伸縮率に基づいて、前記第1母音区間長を伸長または前記第2母音区間長を短縮させること、
を含むことを特徴とする音声処理方法。 - コンピュータに、
入力音声を取得し、
前記入力音声に含まれる母音区間を検出し、
前記入力音声の単位時間あたりのパワーの変化率に基づいて、前記入力音声に含まれる前記単位時間あたりのパワーの変化率の下降傾向が所定の基準よりも大きい区間をアクセント区間と推定し、
前記アクセント区間に含まれる第1母音区間長または前記アクセント区間に含まれない第2母音区間長を算出し、
前記第1母音区間長と前記第2母音区間長との比率または差分に応じて設定した、波形伸縮による音質劣化を防ぐ目標伸縮率に基づいて、前記第1母音区間長を伸長または前記第2母音区間長を短縮させること
を実行させることを特徴とする音声処理プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013126303A JP6263868B2 (ja) | 2013-06-17 | 2013-06-17 | 音声処理装置、音声処理方法および音声処理プログラム |
US14/260,449 US9672809B2 (en) | 2013-06-17 | 2014-04-24 | Speech processing device and method |
EP14166346.8A EP2816558B1 (en) | 2013-06-17 | 2014-04-29 | Speech processing device and method |
CN201410213321.XA CN104240696B (zh) | 2013-06-17 | 2014-05-20 | 语音处理设备及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013126303A JP6263868B2 (ja) | 2013-06-17 | 2013-06-17 | 音声処理装置、音声処理方法および音声処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015001632A JP2015001632A (ja) | 2015-01-05 |
JP6263868B2 true JP6263868B2 (ja) | 2018-01-24 |
Family
ID=50628634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013126303A Active JP6263868B2 (ja) | 2013-06-17 | 2013-06-17 | 音声処理装置、音声処理方法および音声処理プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US9672809B2 (ja) |
EP (1) | EP2816558B1 (ja) |
JP (1) | JP6263868B2 (ja) |
CN (1) | CN104240696B (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015111771A1 (ko) * | 2014-01-24 | 2015-07-30 | 숭실대학교산학협력단 | 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 |
KR101621778B1 (ko) | 2014-01-24 | 2016-05-17 | 숭실대학교산학협력단 | 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기 |
US9916844B2 (en) | 2014-01-28 | 2018-03-13 | Foundation Of Soongsil University-Industry Cooperation | Method for determining alcohol consumption, and recording medium and terminal for carrying out same |
KR101621780B1 (ko) | 2014-03-28 | 2016-05-17 | 숭실대학교산학협력단 | 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치 |
KR101569343B1 (ko) | 2014-03-28 | 2015-11-30 | 숭실대학교산학협력단 | 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치 |
KR101621797B1 (ko) | 2014-03-28 | 2016-05-17 | 숭실대학교산학협력단 | 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치 |
JP2016109725A (ja) * | 2014-12-02 | 2016-06-20 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
CN104485116B (zh) * | 2014-12-04 | 2019-05-14 | 上海流利说信息技术有限公司 | 语音质量评价设备、方法和系统 |
EP3107097B1 (en) * | 2015-06-17 | 2017-11-15 | Nxp B.V. | Improved speech intelligilibility |
CN115719592A (zh) * | 2016-08-15 | 2023-02-28 | 中兴通讯股份有限公司 | 一种语音信息处理方法和装置 |
CN108364660B (zh) * | 2018-02-09 | 2020-10-09 | 腾讯音乐娱乐科技(深圳)有限公司 | 重音识别方法、装置及计算机可读存储介质 |
US11227579B2 (en) * | 2019-08-08 | 2022-01-18 | International Business Machines Corporation | Data augmentation by frame insertion for speech data |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4920568A (en) * | 1985-07-16 | 1990-04-24 | Sharp Kabushiki Kaisha | Method of distinguishing voice from noise |
JPH0638199B2 (ja) | 1985-09-02 | 1994-05-18 | 日本電気株式会社 | 音声認識装置 |
JPS63155200A (ja) | 1986-12-19 | 1988-06-28 | 富士通株式会社 | ピツチ検出法 |
DE69028072T2 (de) * | 1989-11-06 | 1997-01-09 | Canon Kk | Verfahren und Einrichtung zur Sprachsynthese |
JP2844817B2 (ja) | 1990-03-22 | 1999-01-13 | 日本電気株式会社 | 発声練習用音声合成方式 |
JP2808906B2 (ja) | 1991-02-07 | 1998-10-08 | 日本電気株式会社 | 音声認識装置 |
JP3264998B2 (ja) | 1992-09-30 | 2002-03-11 | 日本電気株式会社 | 音声合成器 |
JPH09152889A (ja) * | 1995-11-29 | 1997-06-10 | Sanyo Electric Co Ltd | 話速変換装置 |
US5828994A (en) * | 1996-06-05 | 1998-10-27 | Interval Research Corporation | Non-uniform time scale modification of recorded audio |
JP2001350500A (ja) * | 2000-06-07 | 2001-12-21 | Mitsubishi Electric Corp | 話速変更装置 |
US7065485B1 (en) | 2002-01-09 | 2006-06-20 | At&T Corp | Enhancing speech intelligibility using variable-rate time-scale modification |
JP2003241644A (ja) * | 2002-02-15 | 2003-08-29 | Teiichi Kasahara | 外国語会話学習法及び外国語会話学習装置 |
JP2005037423A (ja) | 2003-07-15 | 2005-02-10 | Alpine Electronics Inc | 音声出力装置 |
CN1956057B (zh) * | 2005-10-28 | 2011-01-26 | 富士通株式会社 | 一种基于决策树的语音时长预测装置及方法 |
JP4856560B2 (ja) * | 2007-01-31 | 2012-01-18 | 株式会社アルカディア | 音声合成装置 |
CN101606190B (zh) * | 2007-02-19 | 2012-01-18 | 松下电器产业株式会社 | 用力声音转换装置、声音转换装置、声音合成装置、声音转换方法、声音合成方法 |
US8484035B2 (en) * | 2007-09-06 | 2013-07-09 | Massachusetts Institute Of Technology | Modification of voice waveforms to change social signaling |
JP4906776B2 (ja) | 2008-04-16 | 2012-03-28 | 株式会社アルカディア | 音声制御装置 |
WO2009145192A1 (ja) | 2008-05-28 | 2009-12-03 | 日本電気株式会社 | 音声検出装置、音声検出方法、音声検出プログラム及び記録媒体 |
CN101751919B (zh) * | 2008-12-03 | 2012-05-23 | 中国科学院自动化研究所 | 一种汉语口语重音自动检测方法 |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
CN102687197B (zh) | 2010-01-22 | 2014-07-23 | 三菱电机株式会社 | 声音识别用词典制作装置、声音识别装置及声音合成装置 |
JP5160594B2 (ja) | 2010-06-17 | 2013-03-13 | 株式会社エヌ・ティ・ティ・ドコモ | 音声認識装置および音声認識方法 |
CN102436807A (zh) | 2011-09-14 | 2012-05-02 | 苏州思必驰信息科技有限公司 | 自动生成重读音节语音的方法和系统 |
-
2013
- 2013-06-17 JP JP2013126303A patent/JP6263868B2/ja active Active
-
2014
- 2014-04-24 US US14/260,449 patent/US9672809B2/en active Active
- 2014-04-29 EP EP14166346.8A patent/EP2816558B1/en active Active
- 2014-05-20 CN CN201410213321.XA patent/CN104240696B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
US20140372121A1 (en) | 2014-12-18 |
EP2816558A1 (en) | 2014-12-24 |
CN104240696B (zh) | 2018-06-12 |
JP2015001632A (ja) | 2015-01-05 |
EP2816558B1 (en) | 2019-06-12 |
CN104240696A (zh) | 2014-12-24 |
US9672809B2 (en) | 2017-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6263868B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
JP2023041843A (ja) | 音声区間検出装置、音声区間検出方法及びプログラム | |
KR20180087942A (ko) | 음성 인식 방법 및 장치 | |
JP2012037619A (ja) | 話者適応化装置、話者適応化方法および話者適応化用プログラム | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
JP6759898B2 (ja) | 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム | |
US9466291B2 (en) | Voice retrieval device and voice retrieval method for detecting retrieval word from voice data | |
US20230206897A1 (en) | Electronic apparatus and method for controlling thereof | |
JP6244658B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
JP2015187684A (ja) | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム | |
US10403289B2 (en) | Voice processing device and voice processing method for impression evaluation | |
JP6098149B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
CN112580340A (zh) | 逐字歌词生成方法及装置、存储介质和电子设备 | |
US10446173B2 (en) | Apparatus, method for detecting speech production interval, and non-transitory computer-readable storage medium for storing speech production interval detection computer program | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
US20230252971A1 (en) | System and method for speech processing | |
JP5988077B2 (ja) | 発話区間検出装置及び発話区間検出のためのコンピュータプログラム | |
US20150371662A1 (en) | Voice processing device and voice processing method | |
JPWO2011077924A1 (ja) | 音声検出装置、音声検出方法、および音声検出プログラム | |
JP2014106247A (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP2015087557A (ja) | 発話様式検出装置および発話様式検出方法 | |
JP7222265B2 (ja) | 音声区間検出装置、音声区間検出方法及びプログラム | |
JP6790851B2 (ja) | 音声処理プログラム、音声処理方法、及び音声処理装置 | |
JP2015132777A (ja) | 音声処理装置、音声処理方法および音声処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160310 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20160401 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170413 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170425 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170623 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171102 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171204 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6263868 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |