JP2005241997A

JP2005241997A - 音声解析装置、音声解析方法及び音声解析プログラム

Info

Publication number: JP2005241997A
Application number: JP2004051998A
Authority: JP
Inventors: Yuichi Kudo; 裕一工藤
Original assignee: Sega Corp
Current assignee: Sega Corp
Priority date: 2004-02-26
Filing date: 2004-02-26
Publication date: 2005-09-08
Anticipated expiration: 2024-02-26
Also published as: ES2284133T3; EP1569201B1; EP1569201A1; JP4792703B2; DE602005000896T2; US20050192805A1; CN1661675A; US7680660B2; DE602005000896D1; CN1319042C

Abstract

【課題】リアルタイムによる処理が可能な、かつ不特定多数の話者を対象にできる音声解析方法及び音声解析装置を提供する。
【解決手段】入力される音声から音素の区切りを検出する、コンピュータで実行可能な音声解析方法であって、前記入力される音声信号において時刻を定めるステップと、前記時刻から所定長の時間範囲に含まれる音声信号を取り出すステップと、前記取り出した音声信号を周波数成分データに分解するステップを繰り返し、複数の前記所定長の時間範囲に含まれる音声信号から、複数の前記周波数成分データを求め、互いに隣接する前記所定長の時間範囲に含まれる前記音声信号に対応する前記周波数成分データにより複数の相関度を求め、その複数の相関度の変化度が前後に隣接する２つの前記変化度より大きい前記変化度を持つ時間範囲を求め、その時間範囲に基づき、前記入力される音声信号を複数に区切ることを特徴とする音声解析方法。
【選択図】図３

Description

本発明は、音声解析装置、音声解析プログラム及び音声解析方法に関する。更に、本発明の音声解析方法を使用する画像生成装置に関し、特に、音声に合わせて口の形状が変化するアニメーション（リップシンクアニメーション）を作成するリップシンクアニメーション画像生成装置に関する。

現在さまざまな場面で音声解析技術が使用される。例えば、音声から話者を照合したり、音声を文字に変換したり、音声に合わせて口の形状が変化するリップシンクアニメーションを作成する際等である。音声解析技術においては、言葉の意味の区別を表すのに用いられる単位である音素が音声から抽出され、話者照合に対しては予め登録された標準パターンと抽出された音素との類似度により話者を照合し、文字変換に対しては抽出された音素に対応する文字をディスプレイ等に表示し、リップシンクアニメーション作成に対しては抽出された音素に対応する画像をディスプレイ等に表示する、といった処理がそれぞれ行われる。

従来技術として、音声から音素を抽出する方法には、次のようなものがある。例えば、特許文献１の話者照合方式においては、予め入力された標準パターンと話者の音声との距離が所定値以下となる区間を母音毎に決定し、その区間を母音に対応させることで音素が抽出される。
このように音素を抽出するための区間をセグメントと呼ぶ。特許文献２のアニメーション画像生成装置においては、複合正弦波モデル(CSM)等に基づくフォルマント分析を行い、母音を特徴付けるフォルマント情報に基づき音素が抽出される。
特公平６−３２００７号公報特開２００３−２３３３８９号公報

しかしながら、セグメントの決定を標準パターンとの距離により行うには、話者毎に標準パターンを登録したデータベースを用意しなければならない。これは、話者数に応じてデータ量も膨大となり、音声解析処理にかかる時間を遅らせる原因になりかねない。従って、リアルタイムによる処理を必要とする場面（例えば、リップシンクアニメーション作成等）への適用が難しい。また、新たな話者が加入する場合データベースへその新たな話者の標準パターンを追加する作業が発生するため、データベースの管理作業が負担となり、かつ、不特定多数の話者を対象とすることが難しい。

また、フォルマント情報に基づく音素の抽出は、実際はその処理に要する時間のため、リアルタイムによる処理を必要とする場面への適用が難しいという実状がある。これらの他にも、例えばLPC（Linear Planning Coefficient）ケプストラム分析を利用した音素の抽出法が知られているが、この方法による音素の抽出精度は、回数を重ねると上昇する学習効果があることが認められている。逆にいうと、抽出精度を高めるには、予め大量の学習信号に対する分析結果を用意しておく必要があり、不特定多数の話者を対象とすることが難しい。

加えて、スペクトル包絡の性質は次数の決定や繰り返し数など表現法や抽出法によって大きく異なることが知られており、分析者のスキルを要求される。

従って、本発明の目的は、標準パターンを話者毎に用意することなく、リアルタイムによる音声解析処理を可能にし、また不特定多数の話者を対象として適用が可能な音声解析装置及び音声解析方法を提供することにある。また、その音声解析方法を適用し、リアルタイムによる処理を可能とするアニメーション画像生成装置を提供することにある。

上記目的は、本発明の第一の側面によれば、入力される音声から音素の区切りを検出する、コンピュータで実行可能な音声解析方法であって、前記入力される音声信号において時刻を定める第１のステップと、前記時刻から所定長の時間範囲に含まれる音声信号を取り出す第２のステップと、前記取り出した音声信号を周波数成分データに分解する第３のステップとを有し、所定時間毎に前記第１、第２、及び第３のステップをｎ回（ｎは６以上の自然数）繰り返して、ｎ個の前記所定長の時間範囲に含まれる音声信号から取り出されたｎ個の前記周波数成分データを求め、互いに隣接する前記所定長の時間範囲に含まれる前記音声信号に対応するｉ（ｉは１以上（ｎ−１）以下の自然数）番目の前記周波数成分データと（ｉ＋１）番目の前記周波数成分データによりｉ番目の相関度を求めることで、ｎ個の前記周波数成分データから、（ｎ−１）個の前記相関度を求め、ｋ（ｋは１以上（ｎ−２）以下の自然数）番目の前記相関度と前記（ｋ＋１）番目の前記相関度によりｋ番目の変化度を求めることで、（ｎ−１）個の前記相関度から、（ｎ−２）個の前記変化度を求め、１番目から（ｎ−２）番目までの（ｎ−２）個の前記変化度のうち、前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号、即ち、ｍを２から（ｎ−３）まで１ずつ変化させたとき、ｍ番目の前記変化度が、（ｍ−１）番目の前記変化度より大きく、かつ、（ｍ＋１）番目の前記変化度より大きいという条件を満たす前記ｍを求め、前記前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号に基づき前記所定長の時間範囲を特定し、前記特定された時間範囲に基づき、前記入力される音声信号を複数に区切ることを特徴とする音声解析方法を提供することにより達成される。

また上記目的は、本発明の第二の側面によれば、第一の側面において、更に、区切られた音声信号の区間毎に特徴量を算出し、前記音素毎の基準データと前記特徴量を比較して、前記区間の前記音素を特定することを特徴とする音声解析方法を提供することにより達成される。

また上記目的は、本発明の第三の側面によれば、第一の側面において、前記所定時間は、互いに重複部分が出るようにずらして取られることを特徴とする音声解析方法を提供することにより達成される。

また上記目的は、本発明の第四の側面によれば、第一の側面において、前記相関度は、同一周波数成分に対応する振幅同士の積を総和した値であることを特徴とする音声解析方法を提供することにより達成される。

また上記目的は、本発明の第五の側面によれば、第一の側面において、前記周波数成分データは、前記取り出した音声信号の周波数成分をフーリエ変換により求められることを特徴とする音声解析方法を提供することにより達成される。

また上記目的は、本発明の第六の側面によれば、第二の側面において、前記特徴量は、前記区切られた音声信号の区間に含まれる前記音声信号をフーリエ変換して得られる周波数成分毎の振幅に応じて決定されることを特徴とする音声解析方法を提供することにより達成される。

また上記目的は、本発明の第七の側面によれば、入力される音声から音素の区切りに対応して画像を表示する、コンピュータで実行可能なアニメーション画像生成方法であって、前記入力される音声信号において時刻を定める第１のステップと、前記時刻から所定長の時間範囲に含まれる音声信号を取り出す第２のステップと、前記取り出した音声信号を周波数成分データに分解する第３のステップとを有し、所定時間毎に前記第１、第２、及び第３のステップをｎ回（ｎは６以上の自然数）繰り返して、ｎ個の前記所定長の時間範囲に含まれる音声信号から取り出されたｎ個の前記周波数成分データを求め、互いに隣接する前記所定長の時間範囲に含まれる前記音声信号に対応するｉ（ｉは１以上（ｎ−１）以下の自然数）番目の前記周波数成分データと（ｉ＋１）番目の前記周波数成分データによりｉ番目の相関度を求めることで、ｎ個の前記周波数成分データから、（ｎ−１）個の前記相関度を求め、ｋ（ｋは１以上（ｎ−２）以下の自然数）番目の前記相関度と前記（ｋ＋１）番目の前記相関度によりｋ番目の変化度を求めることで、（ｎ−１）個の前記相関度から、（ｎ−２）個の前記変化度を求め、１番目から（ｎ−２）番目までの（ｎ−２）個の前記変化度のうち、前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号、即ち、ｍを２から（ｎ−３）まで１ずつ変化させたとき、ｍ番目の前記変化度が、（ｍ−１）番目の前記変化度より大きく、かつ、（ｍ＋１）番目の前記変化度より大きいという条件を満たす前記ｍを求め、前記前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号に基づき前記所定長の時間範囲を特定し、前記特定された時間範囲に基づき、前記入力される音声信号を複数に区切り、区切られた音声信号の区間毎に特徴量を算出し、前記音素毎の基準データと前記特徴量を比較して、前記区間の前記音素を特定し、前記区間の前記音素に対応する画像を前記区間に合わせて切り替えて表示することを特徴とするアニメーション画像生成方法を提供することにより達成される。

また上記目的は、本発明の第八の側面によれば、入力される音声から音素の区切りを検出する、CPUを備えるコンピュータで実行可能な音声解析プログラムであって、前記入力される音声信号において時刻を定める第１のステップと、前記時刻から所定長の時間範囲に含まれる音声信号を取り出す第２のステップと、前記取り出した音声信号を周波数成分データに分解する第３のステップとを有し、前記CPUに、所定時間毎に前記第１、第２、及び第３のステップをｎ回（ｎは６以上の自然数）繰り返して、ｎ個の前記所定長の時間範囲に含まれる音声信号から取り出されたｎ個の前記周波数成分データを求めさせ、前記CPUに、互いに隣接する前記所定長の時間範囲に含まれる前記音声信号に対応するｉ（ｉは１以上（ｎ−１）以下の自然数）番目の前記周波数成分データと（ｉ＋１）番目の前記周波数成分データによりｉ番目の相関度を求めることで、ｎ個の前記周波数成分データから、（ｎ−１）個の前記相関度を求めさせ、前記CPUに、ｋ（ｋは１以上（ｎ−２）以下の自然数）番目の前記相関度と前記（ｋ＋１）番目の前記相関度によりｋ番目の変化度を求めることで、（ｎ−１）個の前記相関度から、（ｎ−２）個の前記変化度を求めさせ、前記CPUに、１番目から（ｎ−２）番目までの（ｎ−２）個の前記変化度のうち、前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号、即ち、ｍを２から（ｎ−３）まで１ずつ変化させたとき、ｍ番目の前記変化度が、（ｍ−１）番目の前記変化度より大きく、かつ、（ｍ＋１）番目の前記変化度より大きいという条件を満たす前記ｍを求めさせ、前記CPUに、前記前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号に基づき前記所定長の時間範囲を特定させ、前記CPUに、前記特定された時間範囲に基づき、前記入力される音声信号を複数に区切らせることを特徴とする音声解析プログラムを提供することにより達成される。

また上記目的は、本発明の第九の側面によれば、第八の側面において、更に、前記CPUに、区切られた音声信号の区間毎に特徴量を算出させ、前記CPUに、前記音素毎の基準データと前記特徴量を比較して、前記区間の前記音素を特定させることを特徴とする音声解析プログラムを提供することにより達成される。

また上記目的は、本発明の第十の側面によれば、第九の側面において、前記所定時間は、互いに重複部分が出るようにずらして取られ、前記相関度は、同一周波数成分に対応する振幅同士の積を総和した値であり、前記周波数成分データは、前記取り出した音声信号の周波数成分をフーリエ変換により求められ、前記特徴量は、前記区切られた音声信号の区間に含まれる前記音声信号をフーリエ変換して得られる周波数成分毎の振幅に応じて決定されることを特徴とする音声解析プログラムを提供することにより達成される。

また上記目的は、本発明の第十一の側面によれば、入力される音声から音素の区切りに対応して画像を表示する、CPUを備えたコンピュータで実行可能なアニメーション画像生成プログラムであって、前記入力される音声信号において時刻を定める第１のステップと、前記時刻から所定長の時間範囲に含まれる音声信号を取り出す第２のステップと、前記取り出した音声信号を周波数成分データに分解する第３のステップとを有し、前記CPUに、所定時間毎に前記第１、第２、及び第３のステップをｎ回（ｎは６以上の自然数）繰り返して、ｎ個の前記所定長の時間範囲に含まれる音声信号から取り出されたｎ個の前記周波数成分データを求めさせ、前記CPUに、互いに隣接する前記所定長の時間範囲に含まれる前記音声信号に対応するｉ（ｉは１以上（ｎ−１）以下の自然数）番目の前記周波数成分データと（ｉ＋１）番目の前記周波数成分データによりｉ番目の相関度を求めることで、ｎ個の前記周波数成分データから、（ｎ−１）個の前記相関度を求めさせ、前記CPUに、ｋ（ｋは１以上（ｎ−２）以下の自然数）番目の前記相関度と前記（ｋ＋１）番目の前記相関度によりｋ番目の変化度を求めることで、（ｎ−１）個の前記相関度から、（ｎ−２）個の前記変化度を求めさせ、前記CPUに、１番目から（ｎ−２）番目までの（ｎ−２）個の前記変化度のうち、前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号、即ち、ｍを２から（ｎ−３）まで１ずつ変化させたとき、ｍ番目の前記変化度が、（ｍ−１）番目の前記変化度より大きく、かつ、（ｍ＋１）番目の前記変化度より大きいという条件を満たす前記ｍを求めさせ、前記CPUに、前記前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号に基づき前記所定長の時間範囲を特定させ、前記CPUに、前記特定された時間範囲に基づき、前記入力される音声信号を複数に区切らせ、前記CPUに、区切られた音声信号の区間毎に特徴量を算出させ、前記CPUに、前記音素毎の基準データと前記特徴量を比較して、前記区間の前記音素を特定させ、前記CPUに、前記区間の前記音素に対応する画像を前記区間に合わせて切り替えて表示させることを特徴とするアニメーション画像生成プログラムを提供することにより達成される。

また上記目的は、本発明の第十二の側面によれば、請求項８乃至１２のいずれかに記載のプログラムを格納した記憶媒体を提供することにより達成される。

また上記目的は、本発明の第十三の側面によれば、入力される音声信号において時刻を定め、前記時刻から所定長の時間範囲に含まれる音声信号を取り出し、前記取り出した音声信号を周波数成分データに分解することを所定時間毎にｎ回（ｎは６以上の自然数）繰り返して、ｎ個の前記所定長の時間範囲に含まれる音声信号から取り出されたｎ個の前記周波数成分データを求める周波数分解部と、互いに隣接する前記所定長の時間範囲に含まれる前記音声信号に対応するｉ（ｉは１以上（ｎ−１）以下の自然数）番目の前記周波数成分データと（ｉ＋１）番目の前記周波数成分データによりｉ番目の相関度を求めることで、ｎ個の前記周波数成分データから、（ｎ−１）個の前記相関度を求め、ｋ（ｋは１以上（ｎ−２）以下の自然数）番目の前記相関度と前記（ｋ＋１）番目の前記相関度によりｋ番目の変化度を求めることで、（ｎ−１）個の前記相関度から、（ｎ−２）個の前記変化度を求める変化度算出部と、１番目から（ｎ−２）番目までの（ｎ−２）個の前記変化度のうち、前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号、即ち、ｍを２から（ｎ−３）まで１ずつ変化させたとき、ｍ番目の前記変化度が、（ｍ−１）番目の前記変化度より大きく、かつ、（ｍ＋１）番目の前記変化度より大きいという条件を満たす前記ｍを求め、前記前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号に基づき前記所定長の時間範囲を特定し、前記特定された時間範囲に基づき、前記入力される音声信号を複数に区切るセグメント決定部とを有することを特徴とする音声解析装置を提供することにより達成される。

また上記目的は、本発明の第十四の側面によれば、入力される音声信号において時刻を定め、前記時刻から所定長の時間範囲に含まれる音声信号を取り出し、前記取り出した音声信号を周波数成分データに分解することを所定時間毎にｎ回（ｎは６以上の自然数）繰り返して、ｎ個の前記所定長の時間範囲に含まれる音声信号から取り出されたｎ個の前記周波数成分データを求める周波数分解部と、互いに隣接する前記所定長の時間範囲に含まれる前記音声信号に対応するｉ（ｉは１以上（ｎ−１）以下の自然数）番目の前記周波数成分データと（ｉ＋１）番目の前記周波数成分データによりｉ番目の相関度を求めることで、ｎ個の前記周波数成分データから、（ｎ−１）個の前記相関度を求め、ｋ（ｋは１以上（ｎ−２）以下の自然数）番目の前記相関度と前記（ｋ＋１）番目の前記相関度によりｋ番目の変化度を求めることで、（ｎ−１）個の前記相関度から、（ｎ−２）個の前記変化度を求める変化度算出部と、１番目から（ｎ−２）番目までの（ｎ−２）個の前記変化度のうち、前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号、即ち、ｍを２から（ｎ−３）まで１ずつ変化させたとき、ｍ番目の前記変化度が、（ｍ−１）番目の前記変化度より大きく、かつ、（ｍ＋１）番目の前記変化度より大きいという条件を満たす前記ｍを求め、前記前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号に基づき前記所定長の時間範囲を特定し、前記特定された時間範囲に基づき、前記入力される音声信号を複数に区切るセグメント決定部と、区切られた音声信号の区間毎に特徴量を算出し、前記音素毎の基準データと前記特徴量を比較して、前記区間の前記音素を特定する音素抽出部と、前記区間の前記音素に対応する画像を前記区間に合わせて切り替えて表示するアニメーション表示部を有することを特徴とするアニメーション画像生成装置を提供することにより達成される。

本発明を使用すれば、標準パターンを話者毎に用意することなく、予め複数の被験者の入力音声を解析した結果を基準データとして用意するだけで、軽快な音声解析処理をリアルタイムに実現することができる。また、話者毎の標準パターンの登録作業を要せず、基準データを一度用意すれば済むため、不特定多数の話者を対象とすることが可能である。さらに、話者毎の標準パターンを格納するデータベースを必要としないため、記憶容量の小さな機器に対しても実装が可能である。

以下、本発明の実施の形態について図面に従って説明する。しかしながら、本発明の技術的範囲はかかる実施の形態に限定されるものではなく、特許請求の範囲に記載された発明とその均等物にまで及ぶものである。

図１は、本発明の実施形態の画像生成装置の構成ブロック図であり、入力された音声に対応するアニメーションを生成するリップシンクアニメーション生成装置である。本実施形態の画像生成装置は、本発明の音声解析装置を音声解析部１として含み、他に、CPU２、ワークRAM３、ジオメトリ演算部４、レンダラー５、テクスチャ生成部６、テクスチャRAM７、表示部８、フレームバッファ９を有する。各機能ブロックはプログラムで実現され、画像生成装置に備えられたCPU(Central Processing Unit)２にてそのプログラムが実行されるが、ハードウェアで構成することも可能である。

CPU２は、画像を生成するプログラムを制御する。ワークRAM３には、CPU２で使用するプログラムやデータを格納する。音声解析部１は、入力された音声を解析し、入力された音声に含まれる音素を抽出すると共に、各音素に対応する画像を表示する時間を決定するためのタイミング情報を出力する。

ジオメトリ演算部４には、CPU２の制御の下に、ワークRAM３からワールド座標系の３次元オブジェクトデータとしてのポリゴンデータが読み出されて入力される。次いで、視点を原点とする視点座標系のデータに座標変換を行う。ジオメトリ演算部４で処理されたポリゴンデータはレンダラー５に入力され、レンダラー５において、ポリゴン単位のデータがピクセル単位のデータに変換される。

ピクセル単位のデータは、テクスチャ生成部６に入力され、テクスチャRAM７に格納されるテクスチャデータに基づき、ピクセル単位にテキスチャカラーを生成する。表示部８は、テクスチャ生成部６からの画像データを、必要に応じて陰面除去処理や陰影付けを行い、次いで、２次元座標に変換しながらフレームバッファ９に書き込む。フレームバッファ９に書き込まれたデータは、繰り返し読み出され、ビデオ信号に変換され出力される。こうして、タイミング情報を基に各音素に対応する画像が切り替えられ図示省略されたディスプレイ等に表示される。
図１において音声解析部１以外の機能ブロックは、アニメーションを表示させるためのアニメーション表示部である。

図２は、本発明の音声解析部（音声解析装置）の構成ブロック図である。音声解析部１は、入力部１１、AD変換部１２、周波数分解部１３、変化度算出部１４、セグメント決定部１５、音素抽出部１６、記憶部１７を有する。各機能ブロックはプログラムで実現され、CPU(Central Processing Unit)にてそのプログラムが実行されるが、ハードウェアで構成することもできる。またCPUに関しては、音声解析部１に含まれる場合その音声解析部１に含まれる図示省略されたCPUが利用されてもよいし、外部のCPU（例えば図１のCPU２）が利用されてもよい。

入力部１１は、音声が入力されるインターフェースである。音声解析部１への音声は、マイクからの入力信号やオーディオケーブルで接続されたオーディオ機器の出力信号等により入力される。この場合、マイクやオーディオケーブル接続用の入力端子がそれぞれ入力部１１である。また、waveファイルやmp3 (MPEG-1 Audio Layer 3)ファイル等のデジタルデータにより音声が入力されてもよい。この場合、データ転送用の接続インタフェース（USB(Universal Serial Bus)インタフェース、パラレルインタフェース、IEEE(Institute of Electrical and Electronic Engineers)1394インタフェース、内部バス等）が入力部１１である。

入力された音声データがアナログ信号の場合、アナログデジタル(AD)変換部１２によりデジタルデータに変換される。こうしてデジタル変換された音声データは、ある時間における振幅が対応付けられた時系列データであり、周波数分解部１３に入力される。そして、周波数分解部１３にて、所定長の時間範囲（これをページと呼ぶ）をずらしながら切り取ることで音声データは複数のページに分割され、ページ毎に周波数成分に分解される（例えば、離散フーリエ変換される）。なお、ページは、別名フレームあるいは音声フレームとも呼ばれるものである。

ページ毎の周波数成分データは変化度算出部１４に入力され、隣接ページ間の相関度（算出方法は後述する）に基づき変化度が算出される。算出された変化度はセグメント決定部１５に入力され、その相関度に基づき音素を抽出するための区間であるセグメントが特定される。これは、セグメントの境界（より具体的には開始位置）が隣接するページの組として特定される。そして、決定されたセグメント毎に音素抽出部１６は、記憶部１７に格納された基準データとマッチングを行って音素を抽出する。セグメントの境界はページ数として特定されるため、セグメントが決定されると、音素が切り替わるタイミング情報、言い換えると、各音素に対応する画像を表示する時間を決定するためのタイミング情報が得られる。

記憶部１７に格納される基準データは、予め複数の被験者の音声を、入力音声が解析される手順に従って解析された結果を平均したデータである。こうして、音声解析部１は、入力された音声に含まれる音素を抽出すると共に、各音素に対応する画像を表示する時間を決定するためのタイミング情報を出力する。

図３は、本発明の実施形態の画像生成装置における処理を説明するフローチャートである。また図４から図１０は、図３のフローチャートにおけるステップを説明するための図であり、適宜これらを参照して図３を説明する。

まず、入力された音声のアナログデジタル(AD)変換が行われる（Ｓ１）。これは入力部１１を介して入力された音声がAD変換部１２に入力されることで行われ、例えば、マイク等から入力されるアナログ信号がデジタルデータに変換される。ただし、入力された音声がデジタルデータの場合、ステップＳ１は省略される。

次に、周波数分解部１３にて、所定長の時間範囲（これをページと呼ぶ）をずらしながら切り取ることで音声データは複数のページに分割され、ページ毎に周波数成分に分解される（Ｓ２）。所定長は、最も短い音素（１／１０秒程度）より短くする。経験上、最も短い音素の１０分の１（１／１００秒程度）あれば十分な精度が得られる。それ以上所定長を短くしても処理量が増大するのみであり効果がない。従って、所定長は１／１０〜１／１００秒程度にすることが好ましい。

図４は、図３ステップＳ２のページ分割を説明する図である。横軸に時間、縦軸に振幅が取られたグラフは、入力音声の波形を示すものである。この波形を、開始時刻Ｄ（音声の入力開始時刻）から始めて所定長の時間範囲（ここでは１０２４ポイント、１ポイントは（１／４４１００）秒）を１ページとし、それを４４１ポイントずつすらしながら、複数のページに分割する。

なお、ここでは所定長を１０２４ポイントに設定したが、音声信号のサンプリング周波数、話者の発話スピードなどを勘案し、適宜変更してよい。また、ここでは、ずらす時間が所定長の時間範囲より短いため、各時間範囲に重複部分が存在するが、重複部分が存在しないように所定長の時間範囲をとってもよい。

図５は、図３ステップＳ２の周波数成分への分解を行ったときの周波数と振幅の関係を示す図である。これは、図４の各ページに含まれる波形をＮ点離散フーリエ変換を施すことにより得られる図である。すなわち、ページmでのN点の振幅を｛x(m,k)|k=0…N-1｝と表すと、離散フーリエ変換は次式(A)で表される。

ただし、

である。ここでは、振幅軸を中心に対称であるため（図５参照）、周波数が正の領域のみを使用すれば十分である。

図６は、複数のページについて周波数分解を行った結果を示す図である。図６では簡単化のため、同じ形状の周波数成分グラフが並んでいるが、実際は、時間の経過により入力音声の波形が異なるためページ毎の周波数成分グラフは変化することとなる。

そして、変化度算出部１４は、まず隣接ページ間の相関度を次式(B)により算出する（Ｓ３）。

相関度の算出の様子及び式(B)の意味について図７を用いて説明する。

図７は、隣接ページ間の相関度の算出を行う様子を説明する図である。図７は、図６に示される隣接ページのうち、例えば、mページと、(m+1)ページの相関度を算出する例である（つまり、式(B)においてx = mの場合）。各ページで同一周波数成分に対応する振幅を掛け合わせた値をN点分総和を取ったものである。図７でいうと、同一周波数成分kに対応するmページの振幅A(m,k)と(m+1)ページの振幅A(m+1,k)がまず掛け合わされる。kを0からN-1まで変化させながら総和をとることにより、mページと(m+1)ページの相関度が算出される。

そして、変化度算出部１４は、ノイズを除去する為に、次式(C)により式(B)により求められた相関度を平均化する（Ｓ４）。

式(C)により求まる相関度Q(x)は、ページが変化したとき周波数成分のグラフ形状に変化がないほど、値の変化が小さく、逆に、周波数成分のグラフ形状に変化があるとその前後の隣接ページの相関度と比べて値の変化が大きい。そして周波数成分のグラフが変化するページは、新たな音素の境界位置（セグメントの境界）と捉えることができる。従って、相関度の差分を変化度とし、変化度を前後２つの変化度と比較して、両者より大きいという条件を満たす隣接ページを特定し、セグメントを決定する（Ｓ５）。ステップＳ５は、セグメント決定部１５が、相関度の差分関数から、前述した条件を満たす隣接ページを特定する。ここでは、ノイズ除去された相関度Q(x)を用いる。次図８を用いて説明する。なお、相関度の差分である変化度を、S(y)=Q(y+1)-Q(y)で表すとする。

図８は、ページ関連パラメータyと変化度S(y)との関係を示す図である。ページ関連パラメータy = 1に対応するS(1)の意味するところは、隣接する２ページと３ページの相関度(Q(2))から隣接する１ページと２ページの相関度(Q(1))を減算した値である。ページ関連パラメータにより直接ページが特定されることはないが、セグメントの境界となる隣接ページの組が特定される。

そして、この変化度S(y)が S(y-1) < S(y) かつ S(y+1) < S(y) なる自然数yに対応する隣接ページの組が新たな音素の開始位置として特定される。先にも述べたように、音素の切り替わりにおいては、入力音声の波形が大きく変化し、その変化が顕著な位置は、新たな音素の開始位置を意味している。図８の場合、S(y-1) < S(y) かつ S(y+1) < S(y) なる自然数yを満たす箇所が４箇所あり（それぞれページ関連パラメータｙ₁、ｙ₂、ｙ₃、ｙ₄とする）、第１セグメントから第４セグメントまで４音素が抽出されることになる。

ページ関連パラメータｙ₁により、セグメントの開始ページがｙ₁ページとｙ₁＋１ページに絞られるが、どちらを使用しても構わないが、解析対象となる音声信号においては統一しておく。各セグメントの開始位置となる他のページ関連パラメータに関しても同様である。次いで、音素抽出部１６はステップＳ５で決定されたセグメント毎に、特徴量を算出する（Ｓ６）。例えば、一般的な特徴量の算出方法として、セグメント毎に入力音声を周波数成分へ分解した後、逆フーリエ変換を施し、更にケプストラム分析を行う、といった手法がある。ここでは一例として、セグメント毎に入力音声を周波数成分へ分解し、各周波数成分の振幅を特徴量として使用する。セグメントとページが一致すれば、ステップＳ２で求めたページ毎の周波数分解の結果を援用してもよい。

図９は、セグメント毎の周波数分解を説明する図である。セグメント毎にＮ点離散フーリエ変換によって周波数成分が算出される様子が描かれている。図９では簡単化のため、同じ形状の周波数成分グラフが並んでいるが、実際は、時間の経過により入力音声の波形が異なるためページ毎の周波数成分グラフは変化することとなる。

そして、次に基準データとのマッチングを行い音素を抽出する（Ｓ７）。基準データには、予め複数の被験者に対して上記ステップＳ１からＳ６までの手順を施した結果を平均化したデータを用いる。このような基準データを一度作成し、記憶部１７に格納しておけば、その後の利用者の変動に左右されることなく安定した音素の抽出が可能であり、特に、不特定多数の話者を対象とすることができる。マッチングの方法は、DPマッチング等の周知な手法を適用すればよい。

以上のステップＳ１からＳ７までの処理により、入力音声に含まれるセグメント及び音素、セグメントの境界のページが特定される。またセグメント境界のページが特定されると、本実施形態においては、｛開始時刻Ｄ＋４４１ポイント×（セグメント境界のページ−１）｝により時刻に変換できるため、タイミング情報の取得も完了する。そして、音声解析部１より出力される音素及びタイミング情報に基づき、図１に説明した構成に従って音素に対応するアニメーションが表示される（Ｓ８）。

図１０は、音素に対応するアニメーションを説明する図である。例えば、抽出する音素として母音を選択し、母音毎の基準データを記憶部１７に格納しておき、図１０に示される各母音のアニメーションに対応するデータをワークRAM３に格納しておけば、図１の画像生成装置を使用して、入力音声に含まれる各母音に対応して、アニメーションを表示させることが可能となる。例えば、母音「ア」に、図１０の画像アを対応させ、母音「イ」に、図１０の画像イを対応させ、という具合に各母音に対応するアニメーション画像が表示される。

以上に説明したように本発明の実施形態によれば、標準パターンを話者毎に用意することなく、予め複数の被験者の入力音声を解析した結果を基準データとして用意するだけで、軽快な音声解析処理をリアルタイムに実現することができる。また、話者毎の標準パターンの登録作業を要せず、基準データを一度用意すれば済むため、不特定多数の話者を対象とすることが可能である。さらに、話者毎の標準パターンを格納するデータベースを必要としないため、記憶容量の小さな機器に対しても実装が可能である。

適用対象としては、オンラインチャット時のアニメーション、ビデオゲームにおけるアニメーション（特に対話形式でゲームが行われるものやロールプレイングゲーム）、病院や金融機関等での無人受付システム等が挙げられる。

なお本実施形態においては、画像生成装置として実現する方法を説明したが、図３に示されるフローチャートに従って処理される方法又はプログラムとして実現することも可能である。また、本実施形態においては、画像生成装置として実現する方法を説明したが、例えば、音素に対応する文字を表示させる音声文字変換装置等に適用することもできる。その場合、図１の構成においてアニメーションを表示させる機能ブロック（図１の音声解析部１以外の機能ブロック）が文字を表示する機能ブロックに置き換えられ、アニメーションを表示させるステップＳ８（図３のフローチャート）が文字を表示するステップとなるような構成とすれば済む。また、本実施形態においては、音声解析部１を含む画像生成装置として実現する方法を説明したが、音声解析部を単独の装置（音声解析装置）として実現することも可能である。その場合、図３に示されるフローチャートのステップＳ８が削除され、音声解析装置から出力される音素やタイミング情報は、その接続先の別の装置にて加工処理される。

本発明の実施形態の画像生成装置の構成ブロック図である。本発明の音声解析部（音声解析装置）の構成ブロック図である。本発明の実施形態の画像生成装置における処理を説明するフローチャートである。図３ステップＳ２のページ分割を説明する図である。図３ステップＳ２の周波数成分への分解を行ったときの周波数と振幅の関係を示す図である。複数のページについて周波数分解を行った結果を示す図である。隣接ページ間の相関度の算出を行う様子を説明する図である。ページ関連パラメータyと相関度の差分S(y)との関係を示す図である。セグメント毎の周波数分解を説明する図である。音素に対応するアニメーションを説明する図である。

符号の説明

１音声解析部、２ CPU、３ワークRAM、４ジオメトリ演算部、５レンダラー、６テクスチャ生成部、７テクスチャRAM、８表示部、９フレームバッファ、１１入力部、１２アナログデジタル変換部、１３周波数分解部、１４変化度算出部、１５セグメント決定部、１６音素抽出部、１７記憶部

Claims

入力される音声から音素の区切りを検出する、コンピュータで実行可能な音声解析方法であって、
前記入力される音声信号において時刻を定める第１のステップと、
前記時刻から所定長の時間範囲に含まれる音声信号を取り出す第２のステップと、
前記取り出した音声信号を周波数成分データに分解する第３のステップとを有し、
所定時間毎に前記第１、第２、及び第３のステップをｎ回（ｎは６以上の自然数）繰り返して、ｎ個の前記所定長の時間範囲に含まれる音声信号から取り出されたｎ個の前記周波数成分データを求め、
互いに隣接する前記所定長の時間範囲に含まれる前記音声信号に対応するｉ（ｉは１以上（ｎ−１）以下の自然数）番目の前記周波数成分データと（ｉ＋１）番目の前記周波数成分データによりｉ番目の相関度を求めることで、ｎ個の前記周波数成分データから、（ｎ−１）個の前記相関度を求め、
ｋ（ｋは１以上（ｎ−２）以下の自然数）番目の前記相関度と前記（ｋ＋１）番目の前記相関度によりｋ番目の変化度を求めることで、（ｎ−１）個の前記相関度から、（ｎ−２）個の前記変化度を求め、
１番目から（ｎ−２）番目までの（ｎ−２）個の前記変化度のうち、前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号、即ち、ｍを２から（ｎ−３）まで１ずつ変化させたとき、ｍ番目の前記変化度が、（ｍ−１）番目の前記変化度より大きく、かつ、（ｍ＋１）番目の前記変化度より大きいという条件を満たす前記ｍを求め、
前記前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号に基づき前記所定長の時間範囲を特定し、
前記特定された時間範囲に基づき、前記入力される音声信号を複数に区切ることを特徴とする音声解析方法。
請求項１において、
更に、区切られた音声信号の区間毎に特徴量を算出し、
前記音素毎の基準データと前記特徴量を比較して、前記区間の前記音素を特定することを特徴とする音声解析方法。
請求項１において、
前記所定時間は、互いに重複部分が出るようにずらして取られることを特徴とする音声解析方法。
請求項１において、
前記相関度は、同一周波数成分に対応する振幅同士の積を総和した値であることを特徴とする音声解析方法。
請求項１において、
前記周波数成分データは、前記取り出した音声信号の周波数成分をフーリエ変換により求められることを特徴とする音声解析方法。
請求項２において、
前記特徴量は、前記区切られた音声信号の区間に含まれる前記音声信号をフーリエ変換して得られる周波数成分毎の振幅に応じて決定されることを特徴とする音声解析方法。
入力される音声から音素の区切りに対応して画像を表示する、コンピュータで実行可能なアニメーション画像生成方法であって、
前記入力される音声信号において時刻を定める第１のステップと、
前記時刻から所定長の時間範囲に含まれる音声信号を取り出す第２のステップと、
前記取り出した音声信号を周波数成分データに分解する第３のステップとを有し、
所定時間毎に前記第１、第２、及び第３のステップをｎ回（ｎは６以上の自然数）繰り返して、ｎ個の前記所定長の時間範囲に含まれる音声信号から取り出されたｎ個の前記周波数成分データを求め、
互いに隣接する前記所定長の時間範囲に含まれる前記音声信号に対応するｉ（ｉは１以上（ｎ−１）以下の自然数）番目の前記周波数成分データと（ｉ＋１）番目の前記周波数成分データによりｉ番目の相関度を求めることで、ｎ個の前記周波数成分データから、（ｎ−１）個の前記相関度を求め、
ｋ（ｋは１以上（ｎ−２）以下の自然数）番目の前記相関度と前記（ｋ＋１）番目の前記相関度によりｋ番目の変化度を求めることで、（ｎ−１）個の前記相関度から、（ｎ−２）個の前記変化度を求め、
１番目から（ｎ−２）番目までの（ｎ−２）個の前記変化度のうち、前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号、即ち、ｍを２から（ｎ−３）まで１ずつ変化させたとき、ｍ番目の前記変化度が、（ｍ−１）番目の前記変化度より大きく、かつ、（ｍ＋１）番目の前記変化度より大きいという条件を満たす前記ｍを求め、
前記前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号に基づき前記所定長の時間範囲を特定し、
前記特定された時間範囲に基づき、前記入力される音声信号を複数に区切り、
区切られた音声信号の区間毎に特徴量を算出し、
前記音素毎の基準データと前記特徴量を比較して、前記区間の前記音素を特定し、
前記区間の前記音素に対応する画像を前記区間に合わせて切り替えて表示することを特徴とするアニメーション画像生成方法。
入力される音声から音素の区切りを検出する、CPUを備えるコンピュータで実行可能な音声解析プログラムであって、
前記入力される音声信号において時刻を定める第１のステップと、
前記時刻から所定長の時間範囲に含まれる音声信号を取り出す第２のステップと、
前記取り出した音声信号を周波数成分データに分解する第３のステップとを有し、
前記CPUに、所定時間毎に前記第１、第２、及び第３のステップをｎ回（ｎは６以上の自然数）繰り返して、ｎ個の前記所定長の時間範囲に含まれる音声信号から取り出されたｎ個の前記周波数成分データを求めさせ、
前記CPUに、互いに隣接する前記所定長の時間範囲に含まれる前記音声信号に対応するｉ（ｉは１以上（ｎ−１）以下の自然数）番目の前記周波数成分データと（ｉ＋１）番目の前記周波数成分データによりｉ番目の相関度を求めることで、ｎ個の前記周波数成分データから、（ｎ−１）個の前記相関度を求めさせ、
前記CPUに、ｋ（ｋは１以上（ｎ−２）以下の自然数）番目の前記相関度と前記（ｋ＋１）番目の前記相関度によりｋ番目の変化度を求めることで、（ｎ−１）個の前記相関度から、（ｎ−２）個の前記変化度を求めさせ、
前記CPUに、１番目から（ｎ−２）番目までの（ｎ−２）個の前記変化度のうち、前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号、即ち、ｍを２から（ｎ−３）まで１ずつ変化させたとき、ｍ番目の前記変化度が、（ｍ−１）番目の前記変化度より大きく、かつ、（ｍ＋１）番目の前記変化度より大きいという条件を満たす前記ｍを求めさせ、
前記CPUに、前記前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号に基づき前記所定長の時間範囲を特定させ、
前記CPUに、前記特定された時間範囲に基づき、前記入力される音声信号を複数に区切らせることを特徴とする音声解析プログラム。
請求項８において、
更に、前記CPUに、区切られた音声信号の区間毎に特徴量を算出させ、
前記CPUに、前記音素毎の基準データと前記特徴量を比較して、前記区間の前記音素を特定させることを特徴とする音声解析プログラム。
請求項９において、
前記所定時間は、互いに重複部分が出るようにずらして取られ、
前記相関度は、同一周波数成分に対応する振幅同士の積を総和した値であり、
前記周波数成分データは、前記取り出した音声信号の周波数成分をフーリエ変換により求められ、
前記特徴量は、前記区切られた音声信号の区間に含まれる前記音声信号をフーリエ変換して得られる周波数成分毎の振幅に応じて決定されることを特徴とする音声解析プログラム。
入力される音声から音素の区切りに対応して画像を表示する、CPUを備えたコンピュータで実行可能なアニメーション画像生成プログラムであって、
前記入力される音声信号において時刻を定める第１のステップと、
前記時刻から所定長の時間範囲に含まれる音声信号を取り出す第２のステップと、
前記取り出した音声信号を周波数成分データに分解する第３のステップとを有し、
前記CPUに、所定時間毎に前記第１、第２、及び第３のステップをｎ回（ｎは６以上の自然数）繰り返して、ｎ個の前記所定長の時間範囲に含まれる音声信号から取り出されたｎ個の前記周波数成分データを求めさせ、
前記CPUに、互いに隣接する前記所定長の時間範囲に含まれる前記音声信号に対応するｉ（ｉは１以上（ｎ−１）以下の自然数）番目の前記周波数成分データと（ｉ＋１）番目の前記周波数成分データによりｉ番目の相関度を求めることで、ｎ個の前記周波数成分データから、（ｎ−１）個の前記相関度を求めさせ、
前記CPUに、ｋ（ｋは１以上（ｎ−２）以下の自然数）番目の前記相関度と前記（ｋ＋１）番目の前記相関度によりｋ番目の変化度を求めることで、（ｎ−１）個の前記相関度から、（ｎ−２）個の前記変化度を求めさせ、
前記CPUに、１番目から（ｎ−２）番目までの（ｎ−２）個の前記変化度のうち、前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号、即ち、ｍを２から（ｎ−３）まで１ずつ変化させたとき、ｍ番目の前記変化度が、（ｍ−１）番目の前記変化度より大きく、かつ、（ｍ＋１）番目の前記変化度より大きいという条件を満たす前記ｍを求めさせ、
前記CPUに、前記前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号に基づき前記所定長の時間範囲を特定させ、
前記CPUに、前記特定された時間範囲に基づき、前記入力される音声信号を複数に区切らせ、
前記CPUに、区切られた音声信号の区間毎に特徴量を算出させ、
前記CPUに、前記音素毎の基準データと前記特徴量を比較して、前記区間の前記音素を特定させ、
前記CPUに、前記区間の前記音素に対応する画像を前記区間に合わせて切り替えて表示させることを特徴とするアニメーション画像生成プログラム。
請求項８乃至１２のいずれかに記載のプログラムを格納した記憶媒体。
入力される音声信号において時刻を定め、前記時刻から所定長の時間範囲に含まれる音声信号を取り出し、前記取り出した音声信号を周波数成分データに分解することを所定時間毎にｎ回（ｎは６以上の自然数）繰り返して、ｎ個の前記所定長の時間範囲に含まれる音声信号から取り出されたｎ個の前記周波数成分データを求める周波数分解部と、
互いに隣接する前記所定長の時間範囲に含まれる前記音声信号に対応するｉ（ｉは１以上（ｎ−１）以下の自然数）番目の前記周波数成分データと（ｉ＋１）番目の前記周波数成分データによりｉ番目の相関度を求めることで、ｎ個の前記周波数成分データから、（ｎ−１）個の前記相関度を求め、ｋ（ｋは１以上（ｎ−２）以下の自然数）番目の前記相関度と前記（ｋ＋１）番目の前記相関度によりｋ番目の変化度を求めることで、（ｎ−１）個の前記相関度から、（ｎ−２）個の前記変化度を求める変化度算出部と、
１番目から（ｎ−２）番目までの（ｎ−２）個の前記変化度のうち、前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号、即ち、ｍを２から（ｎ−３）まで１ずつ変化させたとき、ｍ番目の前記変化度が、（ｍ−１）番目の前記変化度より大きく、かつ、（ｍ＋１）番目の前記変化度より大きいという条件を満たす前記ｍを求め、前記前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号に基づき前記所定長の時間範囲を特定し、前記特定された時間範囲に基づき、前記入力される音声信号を複数に区切るセグメント決定部とを有することを特徴とする音声解析装置。
入力される音声信号において時刻を定め、前記時刻から所定長の時間範囲に含まれる音声信号を取り出し、前記取り出した音声信号を周波数成分データに分解することを所定時間毎にｎ回（ｎは６以上の自然数）繰り返して、ｎ個の前記所定長の時間範囲に含まれる音声信号から取り出されたｎ個の前記周波数成分データを求める周波数分解部と、
互いに隣接する前記所定長の時間範囲に含まれる前記音声信号に対応するｉ（ｉは１以上（ｎ−１）以下の自然数）番目の前記周波数成分データと（ｉ＋１）番目の前記周波数成分データによりｉ番目の相関度を求めることで、ｎ個の前記周波数成分データから、（ｎ−１）個の前記相関度を求め、ｋ（ｋは１以上（ｎ−２）以下の自然数）番目の前記相関度と前記（ｋ＋１）番目の前記相関度によりｋ番目の変化度を求めることで、（ｎ−１）個の前記相関度から、（ｎ−２）個の前記変化度を求める変化度算出部と、
１番目から（ｎ−２）番目までの（ｎ−２）個の前記変化度のうち、前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号、即ち、ｍを２から（ｎ−３）まで１ずつ変化させたとき、ｍ番目の前記変化度が、（ｍ−１）番目の前記変化度より大きく、かつ、（ｍ＋１）番目の前記変化度より大きいという条件を満たす前記ｍを求め、前記前後に隣接する２つの前記変化度より大きい前記変化度を持つ番号に基づき前記所定長の時間範囲を特定し、前記特定された時間範囲に基づき、前記入力される音声信号を複数に区切るセグメント決定部と、
区切られた音声信号の区間毎に特徴量を算出し、前記音素毎の基準データと前記特徴量を比較して、前記区間の前記音素を特定する音素抽出部と、
前記区間の前記音素に対応する画像を前記区間に合わせて切り替えて表示するアニメーション表示部を有することを特徴とするアニメーション画像生成装置。