JP2019074580A - 音声認識方法、装置およびプログラム - Google Patents

音声認識方法、装置およびプログラム Download PDF

Info

Publication number
JP2019074580A
JP2019074580A JP2017198997A JP2017198997A JP2019074580A JP 2019074580 A JP2019074580 A JP 2019074580A JP 2017198997 A JP2017198997 A JP 2017198997A JP 2017198997 A JP2017198997 A JP 2017198997A JP 2019074580 A JP2019074580 A JP 2019074580A
Authority
JP
Japan
Prior art keywords
speech
waveform
voice
speech recognition
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017198997A
Other languages
English (en)
Other versions
JP6831767B2 (ja
Inventor
信行 西澤
Nobuyuki Nishizawa
信行 西澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2017198997A priority Critical patent/JP6831767B2/ja
Publication of JP2019074580A publication Critical patent/JP2019074580A/ja
Application granted granted Critical
Publication of JP6831767B2 publication Critical patent/JP6831767B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】既存の音声認識アルゴリズムによる認識率が向上するように、入力音声を少ない計算量で予め変形する音声認識方法、装置およびプログラムを提供する。【解決手段】入力音声の声質を変形させてから音声認識を行う音声認識装置1において、音声特徴ベクトル抽出部21は、入力音声から特徴ベクトルを抽出する。音声特徴変形部22は、入力音声の特徴ベクトルを認識率の向上が期待できる特徴ベクトルに変形する。音声波形生成部23は、変形した特徴ベクトルに基づいて音声波形を生成する。この際、後段の音声認識部3が音声認識プロセスにおいて考慮しない特徴量を再現せず、計算量の削減を優先させた特徴量を採用にする。音声認識部3は、生成された音声波形に対して音声認識を実行する。【選択図】図1

Description

本発明は、音声認識方法、装置およびプログラムに係り、特に、既存の音声認識アルゴリズムによる認識率が向上するように、入力音声を少ない計算量で予め変形してから音声認識アルゴリズムに適用する音声認識方法、装置およびプログラムに関する。
音声認識のパターンマッチに用いられる特徴量として、音声波形(例えば、8kHzから32kHz程度のサンプリングにより離散時間の時系列情報として表現された音声波形。以下同様)の数十ミリ秒から百数十ミリ秒の長さの区間を切り出し、それらのスペクトル包絡特性を表すようなベクトルを用いることが多い。
このようなスペクトル包絡特性としては、例えば、離散フーリエ変換結果の対数変換等により求められる対数パワースペクトルにおいて、主に音声波形の周期性に由来する調波成分の各ピーク値を滑らかな曲線でつないだ周波数−対数パワー特性がある。
そして、このようなベクトルの1つとして、メル周波数ケプストラム係数(MFCC)がある。以下、このようなある時刻を中心とする区間の音声の特徴を表すベクトルを音響特徴ベクトルと表現する。
音声認識システムでは、この音響特徴ベクトルを数十ミリ程度の時間間隔で計算し(通常、音響特徴ベクトルを計算するために切り出す区間の時間長の方が、切り出し処理を行う時間間隔よりも長くなるので、音声波形を切り出す区間は重なり合うことになる)、その時系列データに対してパターンマッチを行い、音声認識結果を出力する。このような音声特徴ベクトルは、音声の特に音韻性をよく表す一方、話者性や基本周波数の違いに対して比較的鈍感であることが知られている。
特開2008−58696号公報
MFCCのような音声特徴ベクトルは、話者性に対して比較的に鈍感だが、それでも話者性の影響を受ける。したがって、パターンマッチのパターンを作成する基となった話者と、実際の音声認識対象の話者とが異なる場合、音声特徴ベクトルに現れる話者性の影響がパターンマッチの際の障害になり得る。このため、不特定話者を対象とする音声認識システムでは、音声特徴ベクトル空間上の点ではなく、様々な人の声を学習データとして用いて音声特徴ベクトルの分布をモデル化することで、様々な人の音声を認識できるようにしている。
しかしながら、そのような方法でも全ての人の音声の特徴を網羅することは難しく、音声認識が困難なケースがある。そこで、入力話者の音声の特徴ベクトルの分布が既知であると、モデルの分布または特徴ベクトルに対してアフィン変換等を行い、音声認識ができるようにモデルの分布あるいは特徴ベクトルを変形させることがある。この方法は話者適応と呼ばれる。また、同じ話者であっても、音声の伝達特性が異なる場合には同様の問題が生じ得るが、これも同様の方法で対処できる。
しかしながら、音声認識システムの入力は一般に音声波形、出力は音声認識結果であり、例えば分散型音声認識(DSR)システムのように、クライアント側で音声特徴ベクトルを抽出して特徴ベクトルをサーバに送信するような一部の特殊なシステムを除き、音声特徴ベクトルが外側からアクセス可能である必要はない。
したがって、多くの場合、音声特徴ベクトルの抽出処理は音声認識システムの内部に完全に埋め込まれており、アプリケーションで既存の音声認識システムを使う場合、使用する音声認識システムに音声特徴ベクトルの入出力機能がなければ、アプリケーションで上述のアフィン変換を自由に適用できない。あるいは、変形制御のためのインタフェースが公開されていなければ、アプリケーションからアフィン変換の機能を用いることができない。
さらに、仮にインタフェースが利用可能であっても、上述のDSRシステムのように特殊なケースを除くと、そのインタフェースは通常、標準化されるようなものではないため、アプリケーションで音声認識システムを置き換える場合には、そのインタフェース部分も作り直す必要が生じる。
このような技術課題に対処するアプローチとして、音声波形を特許文献1に記載の声質変換技術を用いて音声認識しやすい形に変形し、変形後の音声波形を音声認識システムに入力する方法が考えられる。多くの声質変換技術では、まず音声認識と同様に特徴量抽出を行い、それに適当な変形を施したのち、変形された特徴量に基づき、音声波形を信号処理技術により合成することで入力音声の声質の変換を実現している。
この様な方法により、音声認識システム側を変更することなく、音声認識率の改善を図ることができる。しかしながら、声質変換処理における音声波形の合成処理では、演算量の多いフィルタを用いる必要があるため、その計算量が比較的大きいという技術課題があった。
本発明の目的は、上記の技術課題を解決し、声質変換技術により音声特徴量を音声認識し易い形に予め変形するシステムにおいて、声質変換に要する計算量が比較的大きい処理を不要とすることで、全体として計算量を減ぜられる音声認識方法、装置およびプログラムを提供することにある。
上記の目的を達成するために、本発明は、入力音声の声質を音声認識前に変形する音声認識装置において、以下の構成を具備した点に特徴がある。
(1) 入力音声から特徴量を抽出する手段と、前記特徴量を変形する手段と、前記変形した特徴量に基づいて音声波形を生成する手段とを具備し、前記音声波形を生成する手段は、音声認識プロセスで考慮されない特徴量を再現しないようにした。
(2) 生成された音声波形に基づいて音声認識を実行する手段をさらに具備した。
(3) 音声波形を生成する手段は、基本周期が入力音声と異なる音声波形を生成するようにした。
(4) 音声波形を生成する手段は、基本周期が、波形生成処理の処理区間長と等しい又はその整数分の1となる音声波形を生成するようにした。
(5) 音声波形を生成する手段は、複数の正弦関数の足し合わせに相当する処理により音声波形を生成するようにした。
(6) 音声波形を生成する手段は、1周期の音声波形を所定回数繰り返す音声波形を生成するようにした。
本発明によれば、以下のような効果が達成される。
(1) 入力音声に基づいて音声認識率の高い音声波形を生成する際に、後段の音声認識において考慮されない特徴量については、これを再現せず、計算量の削減を優先させた特徴量を採用するので、計算量の増加を抑えながら音声認識率を向上させることができる。
(2) 音声認識の実行部を後段に設けて一体構成とすれば、音声認識率の向上のために声質変換技術を用いる場合に、人による聴取を目的とした音声波形を出力する声質変換装置と、音声波形を入力とする音声認識装置とを縦続に接続した場合よりも計算量の増加を抑えた音声認識装置を構成できるようになる。
(3) 音声認識の実行部を分離すれば、既存、汎用の音声認識装置を用いて認識率の高い音声認識を実現できるようになる。
(4) 入力音声の基本周期は音声認識において考慮されず、かつ基本周期を所定値とすることで音声波形を生成する際の計算量を減じることができるので、計算量の増加を抑えながら音声認識率を向上させることができるようになる。
(5) 音声波形を生成する際に、基本周期が、波形生成処理の処理区間長と等しい又はその整数分の1となる音声波形を生成するようにしたので、離散時間フーリエ変換およびその逆変換を高速フーリエ変換で実現できるようになる。
(6) 音声波形を生成する際に、複数の正弦関数の足し合わせに相当する処理により音声波形を生成するようにしたので、余弦関数の足し合わせでは生じる、調波成分のエネルギーが特定の時刻に集中することを防止でき、音声波形の量子化ビット数が同じ場合に、信号対雑音比のより高い音声認識が可能になる。
(7) 音声波形を生成する際に、1周期の音声波形を所定回数繰り返す音声波形を生成するようにしたので、その間は音声波形生成処理を行わないようにすれば計算量を削減できるようになる。
本発明の一実施形態に係る音声認識装置の主要部の構成を示した機能ブロック図である。 窓関数の離散時間フーリエ変換における正規化周波数(横軸)と対数パワースペクトル(縦軸)との関係を示した図である。 音声波形が周波数f0=fs/Nの周期波形であるときの正規化周波数(横軸)と対数パワースペクトル(縦軸)との関係を示した図である。 本発明の他の実施形態に係る音声認識装置の主要部の構成を示した機能ブロック図である。
以下、図面を参照して本発明の実施の形態について詳細に説明する。ここでは、初めに本発明の概要について説明し、次いで、本発明の実施の形態について具体的に説明する。
音声認識において、入力音声から抽出される音響特徴ベクトルは、スペクトル包絡特性に対応する値のみで構成することが多い。その場合、周期的な音声波形の基本周波数の直接的な情報は捨てられることになる。したがって、このような音声認識システムにおいては、入力音声の基本周波数は、人間の音声の基本周波数を正確に表現している必要はなく、音声波形合成処理にとって都合の良い周波数を基本周波数としても良いことになる。
このような処理は、音声波形合成を、時間領域において合成音声波形の基本周期と等しい長さの離散時間フーリエ変換で行うことで実現できる。そして、離散時間フーリエ変換の窓長(処理区間長)を2のべき乗となる長さ(サンプル数)とすることで、離散時間フーリエ変換およびその逆変換を高速フーリエ変換で実現できるようになる。
本実施形態では、離散時間フーリエ変換を有限時間(サンプル数)で打ち切るために、矩形窓やハニング窓などの適当な窓関数を用いる。また、以下ではサンプリング周波数をfs、離散時間フーリエ変換の時間領域の窓長をN点として説明を続ける。
ここで、f0をfs/Nとし、かつ周波数領域において音声の成分がf0の整数倍(ただし、その倍数であるkは|k|<fs/(2×f0)とする)のみで構成されるとき(これは、音声波形が周波数f0の定常な周期波形であることに対応する)、窓掛けされた離散時間領域のN点のサンプル値は、周波数領域におけるk×f0の各点の値から、N点の離散フーリエ逆変換で厳密に求まり、Nが2のべき乗となる数であれば、その計算に高速フーリエ変換を容易に適用できる。これは以下の理由による。
すなわち、一般的に離散時間領域における窓掛けは、周波数領域において、窓関数の離散時間フーリエ変換の畳み込みと等価である。窓長がNサンプルのとき、窓関数の離散時間フーリエ変換は、n×fs/N(nは0でない整数)の点で0となる。
また、正規化周波数(=f/fs)上においては、n/Nの点で振幅が0となる。例えば、図2はN=16の矩形窓関数に対するフーリエ変換のパワースペクトルで、横軸は正規化周波数、縦軸は対数パワースペクトル(dB)である。正規化周波数において、0を除いた1/16の倍数となる正規化周波数において、パワースペクトルが0(対数軸上において無限小)となることがわかる。
一方、音声波形が周波数f0=fs/Nの周期波形であるとき、その定常性を仮定すれば、周波数領域ではその調波成分であるf0 (=fs/N) の整数倍の成分のみ(線スペクトルの足し合わせ)となる。つまり正規化周波数軸上においては、1/Nの整数倍の成分のみで構成され、例えば図3のようになる。
ここで、前記窓長N点の窓関数の離散時間フーリエ変換と、周波数f0の定常な周期波形に対する離散時間フーリエ変換との畳み込みを考えると、ある正規化周波数k/N(k:整数)上におけるパワースペクトルは、その周波数の線スペクトルのパワーで決まる。なぜなら、別の線スペクトルに対する畳み込みに由来する成分は、他の線スペクトルが存在する周波数ではちょうど0となって、その影響を受けないためである。
つまり、正規化周波数k/N上のパワースペクトルは、同じ周波数上の周期波形の調波成分のみで決まる。また、パワースペクトルから対応する周期波形の計算は、その周期がNサンプルであるとき、正規化周波数k/Nの点のみで決まる。
以上より、周期波形の周期と窓長とが等しいとき、時間領域における窓掛けの影響は生じない。なお、ここでは周期波形の定常性を仮定しているが、Nが数ミリ秒に対応する程度の短い時間であれば、一般的な音声の時間変化の速度を考慮し、実用上定常と見なして良い。
したがって、周期波形の周期が既知で、かつ定常性を仮定できれば、窓関数の選択において畳み込みの影響を考慮する必要はなく、窓関数として矩形窓を用いることができる。そして、矩形窓を用いることで、実際には窓掛けのための乗算処理が不要になる。
処理の高速化および時間解像度の観点からはNは短い方がよく、Nを決めるf0は音声認識システムが対応可能な範囲で大きい(周波数が高い)方が望ましい。例えばfsが16kHzの場合、Nを64とすればf0は250Hzとなる。これは、通常観測される人間の基本周波数の範囲であり、多くの音声認識システムで、そのような基本周波数の周期波形を入力できる。また、Nは周波数解像度にも対応し、Nが小さいほど周波数解像度は低下するが、例えば先述のN=64は、音声認識システムで通常用いられるMFCCの次数(例えば12次程度)を考えると、そのような次数のMFCCで表せるスペクトル包絡特性を表現するには十分に大きな値である。
このとき、Nの長さは時間としては4msであり、音声認識に用いられる一般的な分析周期である数十msよりも十分に短く、例えば矩形窓で切り取られる区間が連続するように4ミリ秒周期で変換後の音声波形の生成処理を行っても、時間変化の表現における影響は小さい。
さらに、声質変換出力の波形生成処理における時間解像度が音声認識システムの時間解像度よりも高い場合は、その解像度を下げてもその影響は小さい。1周期の波形を複数回繰り返して出力し、その間は離散フーリエ変換を伴うような音声波形生成処理を行わないことで、処理量を削減することができる。この場合、単純な処理では、数ms〜数十ms継続した周期波形が急激に切り替わることになる。そこで、その影響を避けるために、一般にoverlap and add呼ばれる、切り替わりの前後それぞれの区間で、それぞれ後方、前方にもそれらの波形の繰り返しを延長して両者をオーバラップさせ、オーバラップさせた区間で両者の重み付け和を計算する等の方法により、波形上で徐々に切り替わっていくようにする方法が有効である。
音声波形の合成では、時刻iのスペクトル包絡特性の対数パワースペクトルをS (i,ω)(ω:角周波数)とするとき、次式(1)のように、調波成分の余弦関数を足し合わせることで合成音声x(i)が得られる。
x(i)=Σ_k {exp(s(i,2π×k×fs/N)/2)×cos(2π×k×fs/N×i)} …(1)
この場合、i=n×N(n:整数)となる時刻ですべての調波成分のエネルギーが集中し、x(i)の振幅が非常に大きくなる。したがって、このような点を基準に音声認識システムへの入力レベルを決めると、その他の部分では相対的に振幅が小さくなり、信号対雑音比的に不利になる。
そこで、本実施形態では次式(2)のように、正弦関数の足し合わせにより合成音声x(i)を得ている。
x(i)=Σ_k {exp(s(i,2π×k×fs/N)/2)×sin(2π×k×fs/N×i)} …(2)
多くの音声認識システムでは、その音声特徴抽出にパワースペクトルのみを用い、音声波形の位相成分を考慮していない。したがって、このように位相を変えた波形を入力しても音声認識システムへの影響は生じない。そして、これらの計算は、Nが2のべき乗であるとき、高速フーリエ変換により容易かつ高速に行うことができる。
図1は、本発明の一実施形態に係る音声認識装置1の主要部の構成を示した機能ブロック図であり、入力音声の声質を変換する声質変換部2および声質を変換した音声を対象に音声認識を実行する音声認識部3から構成される。ここで、音声認識部3としては既存の音声認識システムを適用可能であり、音声波形をその入力とし、音声認識結果をその出力とする。
前記音声認識装置1または声質変換部2は、汎用のコンピュータやサーバに各機能を実現するアプリケーション(プログラム)を実装することで構成できる。あるいはアプリケーションの一部がハードウェア化またはROM化された専用機や単能機としても構成できる。
前記声質変換部2は、音声特徴ベクトル抽出部21、音声特徴変形部22および音声波形生成部23で構成される。前記音声特徴ベクトル抽出部21は、入力された音声波形から音声特徴ベクトルの時系列データを抽出して出力する。本実施形態では、1つのベクトルで音声特徴ベクトルの時間変化を表すために、複数時刻に対応する音声特徴を1つのベクトルに結合する音声特徴結合部211を備える。
音声特徴結合部211は、例えば連続する時刻t,t+1,t+2における各音声特徴を表す3つのベクトルを、それぞれv(t)、v(t+1)、v(t+2)とするとき、これら3つのベクトルを連結し、さらに予め設定した変換行列Wを用いて変換することで、次式(3)で表されるベクトルv'(t)を求め、これを音声特徴ベクトルとして出力することができる。なお、^Tは転置を表す。
v'(t)=W[v(t) v(t+1) v(t+2)]^T …(3)
このような構成とすることで、音声の特徴の短時間(ここでは、3つのベクトル間)の時間変化も考慮した音声特徴ベクトルを構築することができる。
前記音声特徴変形部22は、音声特徴ベクトル抽出部21が出力する各時刻の音声特徴ベクトルを、別途に入力される話者適応用の変換制御情報に基づいて、認識率の改善が見込まれる音声特徴ベクトルに変換し、これを音声波形を合成するのに必要な特徴ベクトルとして出力する。
出力する特徴ベクトルの形式は、入力された特徴ベクトルと同じ形式であっても良いし異なる形式であっても良い。前記音声特徴変形部22による変形は、例えばアフィン変換により実現できる。この場合、音声認識率が高い特定話者の音声データを予め用意しておき、入力話者の声質から特定話者の声質への声質変換が行われる。
あるいは、音声認識部3での音声認識率の改善が見込める変形を、別の話者の音声データから作成する等により予め複数用意しておき、対象話者による正解が分かっている(複数の)音声データに対して、用意してある変換をそれぞれ実験的に適用し、その結果に対して音声認識部3で認識率を測定し、最も認識率の高い変換を選ぶようにしても良い。このような方法により変換情報を決めることができる。
前記音声波形生成部23は、音声特徴変形部22が出力した特徴ベクトルから音声のスペクトル包絡特性を求め、これを再現するような音声波形を合成し、その結果を音声認識部3へ送る。
本実施形態では、上述の通り、入力音声の基本周期が音声認識部3での音声認識において考慮されないことを鑑みて基本周期決定部231を設け、当該基本周期決定部231が、音声合成に際して基本周期を再現せず、高速フーリエ変換の適用が容易な基本周期に変換する。すなわち、本実施形態では基本周期が波形生成処理の処理区間長Nと等しい又はその整数分の1となる音声波形を生成するようにしている。
また、本実施形態では音声波形生成部23に音声波形加工部232を設け、1周期の音声波形を所定回数繰り返す音声波形を生成するようにした。したがって、その間は音声波形生成処理を行わなくすることで計算量を削減できるようになる。
さらに、本実施形態では音声波形生成部23に正弦関数合成部233を設け、調波成分を合成する際、複数の正弦関数の足し合わせに相当する処理により音声波形を生成するようにしている。これにより、調波成分のエネルギーが特定の時刻に集中することを防止できるので、信号対雑音比の高い音声認識が可能になる。
前記音声認識部3は、音声波形生成部23が合成した音声波形に対する音声認識処理を行って音声認識結果を出力する。
本実施形態によれば、入力音声に基づいて音声認識率の高い音声波形を生成する際に、後段の音声認識において考慮されない特徴量については、これを再現せず、計算量の削減を優先させた特徴量を採用するので、計算量の増加を抑えながら音声認識率を向上させることができる。
また、本実施形態では、音声認識の実行部を後段に設けて一体構成としたので、人による聴取を目的とした音声波形を出力する声質変換装置と、音声波形を入力とする音声認識装置とを縦続に接続した場合よりも計算量の増加を抑えながら音声認識率を向上させる音声認識装置を構成できるようになる。
なお、上記の実施形態では、窓長(処理区間長)Nと音声波形生成部23で合成する音声波形の基本周期とが等しいものとして説明したが、本発明はこれのみに限定されるものではなく、窓長Nは合成する音声波形の基本周期の整数倍であっても良い。これにより、離散フーリエ変換で行う際の変換長が長くなるため処理量的な不利は生じるが、この場合でも窓関数の影響を避けることができる。
また、上記の実施形態では、音声認識装置1が声質変換部2を内蔵する場合を例にして説明したが、本発明はこれのみに限定されるものではなく、図4に示したように、声質変換部2を含む声質変換装置4と音声認識部3を含む音声認識装置5とを分離し、声質変換装置4が生成した音声波形を、有線、無線またはネットワーク経由で音声認識装置5へ入力させるようにしても良い。
このような分離構造とすれば、既存、汎用の音声認識装置を用いて認識率の高い音声認識を実現できるようになる。
1…音声認識装置,2…声質変換部,3…音声認識部,4…特徴変形部,5…音声波形生成部,21…音声特徴ベクトル抽出部,22…音声特徴変形部,23…音声波形生成部

Claims (10)

  1. 入力音声の声質を音声認識前に変形する音声認識装置において、
    入力音声から特徴量を抽出する手段と、
    前記特徴量を変形する手段と、
    前記変形した特徴量に基づいて音声波形を生成する手段とを具備し、
    前記音声波形を生成する手段は、音声認識プロセスで考慮されない特徴量を再現しないことを特徴とする音声認識装置。
  2. 前記生成された音声波形に基づいて音声認識を実行する手段をさらに具備したことを特徴とする請求項1に記載の音声認識装置。
  3. 前記音声波形を生成する手段は、基本周期が入力音声と異なる音声波形を生成することを特徴とする請求項1または2に記載の音声認識装置。
  4. 前記音声波形を生成する手段は、基本周期が、波形生成処理の処理区間長と等しい又はその整数分の1となる音声波形を生成することを特徴とする請求項1ないし3のいずれかに記載の音声認識装置。
  5. 前記音声波形を生成する手段は、複数の正弦関数の足し合わせに相当する処理により音声波形を生成することを特徴とする請求項1ないし4のいずれかに記載の音声認識装置。
  6. 前記音声波形を生成する手段は、1周期の音声波形を所定回数繰り返す音声波形を生成することを特徴とする請求項1ないし5のいずれかに記載の音声認識装置。
  7. コンピュータが、入力音声の声質を音声認識前に変形する音声認識方法において、
    入力音声から特徴量を抽出し、
    前記特徴量を変形し、
    前記変形した特徴量に基づいて音声波形を生成し、
    前記音声波形を生成する際に、音声認識プロセスで考慮されない特徴量を再現しないことを特徴とする音声認識方法。
  8. 前記生成された音声波形に基づいて音声認識を実行することを特徴とする請求項7に記載の音声認識方法。
  9. 入力音声の声質を音声認識前に変形する音声認識プログラムにおいて、
    入力音声から特徴量を抽出する手順と、
    前記特徴量を変形する手順と、
    前記変形した特徴量に基づいて音声波形を生成する手順とをコンピュータに実行させ、
    前記音声波形を生成する手順では、音声認識プロセスで考慮されない特徴量を再現しないことを特徴とする音声認識プログラム。
  10. 前記生成された音声波形に基づいて音声認識を実行する手順をさらに含むことを特徴とする請求項9に記載の音声認識プログラム。
JP2017198997A 2017-10-13 2017-10-13 音声認識方法、装置およびプログラム Active JP6831767B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017198997A JP6831767B2 (ja) 2017-10-13 2017-10-13 音声認識方法、装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017198997A JP6831767B2 (ja) 2017-10-13 2017-10-13 音声認識方法、装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2019074580A true JP2019074580A (ja) 2019-05-16
JP6831767B2 JP6831767B2 (ja) 2021-02-17

Family

ID=66544730

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017198997A Active JP6831767B2 (ja) 2017-10-13 2017-10-13 音声認識方法、装置およびプログラム

Country Status (1)

Country Link
JP (1) JP6831767B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113611314A (zh) * 2021-08-03 2021-11-05 成都理工大学 一种说话人识别方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10153998A (ja) * 1996-09-24 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
JP2001042889A (ja) * 1999-05-21 2001-02-16 Matsushita Electric Ind Co Ltd 音声認識入力音声の音程正規化装置
JP2004279768A (ja) * 2003-03-17 2004-10-07 Mitsubishi Heavy Ind Ltd 気導音推定装置及び気導音推定方法
JP2007010822A (ja) * 2005-06-29 2007-01-18 Toshiba Corp 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム
WO2007015489A1 (ja) * 2005-08-01 2007-02-08 Kyushu Institute Of Technology 音声検索装置及び音声検索方法
WO2008015800A1 (fr) * 2006-08-02 2008-02-07 National University Corporation NARA Institute of Science and Technology procédé de traitement de la parole, programme de traitement de la parole et dispositif de traitement de la parole
JP2011247921A (ja) * 2010-05-24 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> 信号合成方法、信号合成装置及びプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10153998A (ja) * 1996-09-24 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
JP2001042889A (ja) * 1999-05-21 2001-02-16 Matsushita Electric Ind Co Ltd 音声認識入力音声の音程正規化装置
JP2004279768A (ja) * 2003-03-17 2004-10-07 Mitsubishi Heavy Ind Ltd 気導音推定装置及び気導音推定方法
JP2007010822A (ja) * 2005-06-29 2007-01-18 Toshiba Corp 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム
WO2007015489A1 (ja) * 2005-08-01 2007-02-08 Kyushu Institute Of Technology 音声検索装置及び音声検索方法
WO2008015800A1 (fr) * 2006-08-02 2008-02-07 National University Corporation NARA Institute of Science and Technology procédé de traitement de la parole, programme de traitement de la parole et dispositif de traitement de la parole
JP2011247921A (ja) * 2010-05-24 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> 信号合成方法、信号合成装置及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113611314A (zh) * 2021-08-03 2021-11-05 成都理工大学 一种说话人识别方法及系统

Also Published As

Publication number Publication date
JP6831767B2 (ja) 2021-02-17

Similar Documents

Publication Publication Date Title
JP6903611B2 (ja) 信号生成装置、信号生成システム、信号生成方法およびプログラム
JP5958866B2 (ja) 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム
JP6791258B2 (ja) 音声合成方法、音声合成装置およびプログラム
JP6724932B2 (ja) 音声合成方法、音声合成システムおよびプログラム
JP2015040903A (ja) 音声処理装置、音声処理方法、及び、プログラム
JP6733644B2 (ja) 音声合成方法、音声合成システムおよびプログラム
CN108269579B (zh) 语音数据处理方法、装置、电子设备及可读存储介质
CN105957515A (zh) 声音合成方法、声音合成装置和存储声音合成程序的介质
JP6876642B2 (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
JP6821970B2 (ja) 音声合成装置および音声合成方法
JP2015161774A (ja) 音合成方法及び音合成装置
JP2018077283A (ja) 音声合成方法
JP2019074580A (ja) 音声認識方法、装置およびプログラム
JP4455701B2 (ja) 音声信号処理装置および音声信号処理方法
WO2020241641A1 (ja) 生成モデル確立方法、生成モデル確立システム、プログラムおよび訓練データ準備方法
JP6977818B2 (ja) 音声合成方法、音声合成システムおよびプログラム
JP7103390B2 (ja) 音響信号生成方法、音響信号生成装置およびプログラム
CN112908351A (zh) 一种音频变调方法、装置、设备及存储介质
JP6834370B2 (ja) 音声合成方法
JP6213217B2 (ja) 音声合成装置及び音声合成用コンピュータプログラム
JP6683103B2 (ja) 音声合成方法
Hanna et al. Time scale modification of noises using a spectral and statistical model
WO2023068228A1 (ja) 音響処理方法、音響処理システムおよびプログラム
US11756558B2 (en) Sound signal generation method, generative model training method, sound signal generation system, and recording medium
JP4419486B2 (ja) 音声分析生成装置、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200902

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201030

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210129

R150 Certificate of patent or registration of utility model

Ref document number: 6831767

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150