JP6487650B2

JP6487650B2 - 音声認識装置及びプログラム

Info

Publication number: JP6487650B2
Application number: JP2014166016A
Authority: JP
Inventors: 和穂尾上; 庄衛佐藤; 貴裕奥
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2014-08-18
Filing date: 2014-08-18
Publication date: 2019-03-20
Anticipated expiration: 2034-08-18
Also published as: JP2016042152A

Description

本発明は、複数の音声が混合して存在する環境下において、混合音声から特定の音声を分離し、主音声を認識する音声認識装置及びプログラムに関する。

従来、複数の音が存在する環境下において、目的とする領域の音を抽出する技術が知られている。例えば、混合音声から特定話者の音声を分離したり、雑音を抑圧したりする手法として、ゾーン分離収音技術（以下、ＳＡＦＩＡという。）が実用化されている。

ＳＡＦＩＡは、複数のマイクロフォンを用いて、チャンネル間の到達位相差及び到達レベル差に基づいて、特定の領域（ゾーン）で発せられる音のみを分離して収音するものである（例えば、特許文献１、非特許文献１−３を参照）。これにより、複数の音が存在する環境下において、目的とする領域の音を抽出することが可能となる。

図８は、ＳＡＦＩＡを用いた従来の音声認識装置の構成を示すブロック図である。この従来の音声認識装置１００は、２チャンネルのマイクロフォン（Ｍ_Ｒ）１０１及びマイクロフォン（Ｍ_Ｌ）１０２、周波数分析部１０３、到達位相差・到達レベル差算出部１０４、判定部１０５並びに信号合成部１０６を備えている。音声認識装置１００は、雑音源から発せられる雑音と目的音源から発せられる目的音とを収音し、これらの混合音から雑音を分離し、目的音を抽出するものである。

マイクロフォン１０１，１０２は、雑音と目的音との混合音をそれぞれ収音する。マイクロフォン１０１により収音された混合音の信号ｒ（ｎ）は、周波数分析部１０３に出力され、マイクロフォン１０２により収音された混合音の信号ｌ（ｎ）も、周波数分析部１０３に出力される。ｎは時間軸上のサンプリング番号を示す。

周波数分析部１０３は、混合音の信号ｒ（ｎ），ｌ（ｎ）をそれぞれ入力し、信号ｒ（ｎ），ｌ（ｎ）をそれそれぞれ離散フーリエ変換して周波数成分のビンに細かく分割し、周波数成分の信号Ｒ（ｆ），Ｌ（ｆ）をそれぞれ生成する。ｆは周波数成分を示す。

到達位相差・到達レベル差算出部１０４は、周波数分析部１０３により生成された信号Ｌ（ｆ），Ｒ（ｆ）を入力し、以下の式を用いて、チャンネル間の到達位相差ΔΦ（ｆ）及び到達レベル差ΔＡ（ｆ）を算出する。

判定部１０５は、到達位相差・到達レベル差算出部１０４により算出されたチャンネル間の到達位相差ΔΦ（ｆ）及び到達レベル差ΔＡ（ｆ）を入力し、到達位相差ΔΦ（ｆ）及び到達レベル差ΔＡ（ｆ）に基づいて、周波数成分ｆ毎に目的音の信号が含まれているか否かを判定する。

図８に示す目的音源及び雑音源の配置では、目的音源に近い領域で収音した混合音の周波数成分の信号Ｌ（ｆ）に含まれる目的音成分のレベルは、雑音源に近い領域で収音した混合音の周波数成分の信号Ｒ（ｆ）に含まれる目的音成分のレベルよりも高く、位相も進んでいる性質を有する。判定部１０５は、このような性質を利用して、周波数成分ｆ毎に目的音の信号が含まれているか否かを判定する。

信号合成部１０６は、周波数分析部１０３により生成された信号Ｌ（ｆ）を入力すると共に、判定部１０５により判定された周波数成分ｆ毎の判定結果を入力し、信号Ｌ（ｆ）に対して判定結果に応じた重みを乗算することで、目的音の周波数成分ｆの信号を強調する。例えば、信号合成部１０６は、目的音の信号が含まれていると判定された周波数成分ｆの信号Ｌ（ｆ）に対し、重みとして１を乗算し、目的音の信号が含まれていないと判定された周波数成分ｆの信号Ｌ（ｆ）に対し、重みとして０または０に近い値を乗算する。

信号合成部１０６は、目的音を強調した信号Ｌ（ｆ）を離散逆フーリエ変換することで、周波数信号を時間信号の波形に戻し、変換後の時間信号を、目的音源の領域の音ｓ’（ｎ）として出力する。

このように、ＳＡＦＩＡを用いた従来の音声認識装置１００によれば、雑音と目的音との混合音を２チャンネルで収音し、混合音から雑音を分離し、目的音源の領域の目的音を抽出することができる。この手法は、雑音が存在する環境下において、目的の音声を抽出したり、複数の音声が混合して存在する環境下において、複数話者の混合音声から特定話者の音声を分離して主音声を抽出したりする場合に、利用効果が実証されている。

特開平１０−３１３４９７号公報

M.Aoki, M.Okamoto, S.Aoki, H.Matsui, T.Sakurai, and Y.Kaneda, "Sound source segregation based on estimating incident angle of each frequency component of input signals acquired by multiple microphones", J. Acoust. Soc. Japan(E), Vol.22, No.2, pp.149-157, 2001 青木真理子、古家賢一、山口義和、吉岡理、「チャネル間情報を利用した音源分離手法(SAFIA)による混合音声の認識」、日本音響学会研究発表会講演論文集、2001(2)、45-46、2001-10-01 織田修平、青木真理子、古家賢一、片岡章俊、「雑音環境下における報知音伝達システムとその有効性」、電子情報通信学会論文誌、D Vol.J90-D、No.10、pp.2765-2774

複数チャンネルの入力音声から特定話者の音声を分離する手法は、図８に示した従来の音声認識装置１００のように、既に、マイクアレー及び独立成分分析等を基にした技術によって実現することができ、所定の分野では実用化されている。

しかしながら、図８に示した従来の音声認識装置１００では、前提条件として、目的音源及び雑音源と複数チャンネルのマイクロフォン１０１，１０２との間の位置関係を事前に把握することが必要である。

ここで、複数話者の混合音声がシングルチャンネルの混合音声として収録されており、このシングルチャンネルの混合音声から特定話者の音声を分離し、目的とする主音声を抽出する場合には、音源等の位置関係を事前に把握することは困難であり、図８に示した従来の音声認識装置１００をそのまま利用することができない。

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、複数話者のシングルチャンネルの混合音声から、特定話者による相づち等の音声を分離し、主音声を認識することが可能な音声認識装置及びプログラムを提供することにある。

前記目的を達成するために、本発明による音声認識装置は、複数話者のシングルチャンネルの混合音声から特定話者による特定発話を分離し、前記特定発話が分離された主音声を認識する音声認識装置であって、予め収録された前記特定話者による前記特定発話の音声信号を周波数分析して特徴量を計算し、前記特定発話の音声信号の特徴量に基づいて発話モデルを学習するモデル学習部と、前記混合音声の信号を周波数分析して特徴量を計算し、前記混合音声の信号の特徴量と前記発話モデルにおける前記特定発話の音声信号の特徴量とに基づいて、前記混合音声の信号と前記特定発話の音声信号とのマッチングを行い、前記混合音声から、前記特定発話の音声信号を含む特定発話区間を検出する特定発話区間検出部と、前記発話モデルを用いて、前記特定発話区間検出部により検出された特定発話区間における前記特定発話の音声信号の推定スペクトルを生成すると共に、前記混合音声の信号を周波数分析してスペクトルを生成し、前記特定発話区間における前記特定発話の音声信号の推定スペクトルと、前記混合音声のうち前記特定発話区間の音声信号のスペクトルとに基づいて、前記混合音声の信号から前記特定発話の音声信号を周波数領域において分離し、前記特定発話が分離された主音声信号のスペクトルを生成する話者分離計算部と、を備え、前記話者分離計算部により生成された主音声信号のスペクトルに基づいて、前記主音声を認識することを特徴とする。

また、本発明による音声認識装置は、前記特定発話区間検出部が、それぞれの音素の特徴量に基づいて学習された音響モデル及び前記モデル学習部により学習された発話モデルを用いて、前記混合音声と前記音素との間の確率を計算し、前記確率の最も高い最適パスを求め、前記最適パス内に前記特定発話のパスが存在する時間区間を特定発話区間候補とし、前記混合音声の信号から前記特定発話区間候補の音声信号を抽出し、前記モデル学習部により学習された発話モデルを用いて、前記特定発話区間候補の音声信号の特徴量に基づき、前記特定発話区間候補の音声信号の尤度を計算し、前記特定発話区間候補の音声信号の尤度に対するしきい値処理により、前記特定発話区間候補を前記特定発話区間として検出する、ことを特徴とする。

また、本発明による音声認識装置は、前記特定発話区間検出部が、それぞれの音素の特徴量に基づいて学習された音響モデルを用いて、前記混合音声と前記音素との間の確率を計算し、前記確率の高い音素列からなるパスを複数求め、前記混合音声の始端から終端までの間の所定区間毎に、前記複数のパスについて前記特定発話が現れる頻度を計算し、前記所定区間毎の頻度に対するしきい値処理により、前記所定区間を特定発話区間候補とし、前記混合音声の信号から前記特定発話区間候補の音声信号を抽出し、前記モデル学習部により学習された発話モデルを用いて、前記特定発話区間候補の音声信号の特徴量に基づき、前記特定発話区間候補の音声信号の尤度を計算し、前記特定発話区間候補の音声信号の尤度に対するしきい値処理により、前記特定発話区間候補を前記特定発話区間として検出する、ことを特徴とする。

また、本発明による音声認識装置は、前記話者分離計算部が、前記特定発話区間における前記特定発話の音声信号の推定スペクトルと、前記混合音声のうち前記特定発話区間の音声信号のスペクトルとをビン毎に比較し、前記特定発話区間における前記特定発話の音声信号の推定スペクトルにおけるパワーが前記特定発話区間の音声信号のスペクトルにおけるパワー以上であると判定した場合、前記ビンの重みを０または０に近い所定値に設定し、前記特定発話区間における前記特定発話の音声信号の推定スペクトルにおけるパワーが前記特定発話区間の音声信号のスペクトルにおけるパワーよりも小さいと判定した場合、前記ビンの重みを１に設定し、前記特定発話区間の音声信号のスペクトルに対し、前記ビン毎に設定した重みを乗算することで、前記混合音声の信号から前記特定発話の音声信号を周波数領域において分離し、前記特定発話が分離された主音声信号のスペクトルを生成する、ことを特徴とする。

また、本発明による音声認識装置は、さらに、前記話者分離計算部により生成された主音声信号のスペクトルに基づいて、前記主音声を認識して前記主音声の文字列を生成し、前記主音声の文字列に含まれる単語の境界を検出し、前記特定発話区間検出部により検出された特定発話区間における特定発話の文字列を、前記主音声の文字列に含まれる単語の境界に挿入することで、前記主音声の文字列と前記特定発話の文字列とを統合する認識統合部を備えたことを特徴とする。

また、本発明による音声認識装置は、前記モデル学習部が、前記特定発話の音声信号をＦＦＴし、前記ＦＦＴの結果からＭＦＣＣ（メル周波数ケプストラム係数）を計算し、前記ＭＦＣＣを含む前記特定発話の音声信号の特徴量に基づいて検出用モデルを生成すると共に、前記ＦＦＴの結果を含む前記特定発話の音声信号の特徴量に基づいて分離用モデルを生成し、前記特定発話区間検出部が、前記モデル学習部により生成された検出用モデルを用いて、前記特定発話の音声信号を含む特定発話区間を検出し、前記話者分離計算部が、前記モデル学習部により生成された分離用モデルを用いて、前記特定発話が分離された主音声信号のスペクトルを生成する、ことを特徴とする。

さらに、本発明によるプログラムは、コンピュータを、前記音声認識装置として機能させることを特徴とする。

以上のように、本発明によれば、複数話者のシングルチャンネルの混合音声から、特定話者による相づち等の音声を分離し、主音声を認識することが可能となる。

本発明の実施形態による音声認識装置の全体構成を示すブロック図である。音声資源データの構成を説明する図である。特定発話区間検出部による実施例１の処理を示すフローチャートである。実施例１の処理を説明する図である。特定発話区間検出部による実施例２の処理を示すフローチャートである。実施例２の処理を説明する図である。話者分離計算部の処理を示すフローチャートである。ＳＡＦＩＡを用いた従来の音声認識装置の構成を示すブロック図である。

以下、本発明を実施するための形態について図面を用いて詳細に説明する。以下に説明する本発明の実施形態は、対談番組等にて複数話者の音声が混合したシングルチャンネルの音声（対談音声）から、予め出演が決定しているアナウンサー等の特定話者による「はい」「ふ〜ん」等の相づち等である特定発話を分離し、コメンテイター等による主音声を認識する例である。

〔全体構成〕
まず、本発明の実施形態による音声認識装置の全体構成について説明する。図１は、音声認識装置の全体構成を示すブロック図である。この音声認識装置１は、学習部１０、検出除去部２０及び認識統合部３０を備えている。

音声認識装置１は、発話者及び当該発話者による相づち等の発話内容を事前に特定可能な状況下で使用される装置である。音声認識装置１は、特定話者による特定発話について特定話者・特定発話モデルを学習し、特定話者・特定発話モデルを用いて、複数話者によるシングルチャンネルの混合音声から、特定発話区間（特定話者による特定発話の音声信号を含む時間区間）を検出し、混合音声から特定話者による特定発話の音声を分離し、主音声を認識する。

学習部１０は、特定話者による相づち等の特定発話を学習データとして、アクセント及び時間変化構造を含めた統計的情報を学習することにより、特定発話の音声信号の類似度を確率密度分布で表した確率モデルである特定話者・特定発話モデルを生成する。

検出除去部２０は、学習部１０により生成された特定話者・特定発話モデルを用いて、複数話者によるシングルチャンネルの混合音声である対談音声信号から、特定話者による特定発話がされた特定発話区間を検出し、対談音声信号から特定話者による特定発話の音声を周波数領域において分離し、主音声信号（話者分離後の対談音声信号）を生成する。

認識統合部３０は、言語モデル及び音響モデルを用いて、検出除去部２０により生成された主音声信号の音声認識を行い、主音声の音声認識結果のテキスト（文字列）と、検出除去部２０により検出された特定発話区間のテキスト（特定話者による特定発話の音声の文字列）とを統合する。これにより、特定話者により相づち等の特定発話が主音声内の適切な箇所に挿入され、対談音声認識結果のテキストの文章が生成される。

〔学習部１０〕
次に、図１に示した音声認識装置１の学習部１０について説明する。図１を参照して、学習部１０は、音声資源データ１４が格納された記憶部１１、モデル学習部１２、並びに検出用モデル１５及び分離用モデル１６が格納された記憶部１３を備えている。

記憶部１１には、特定話者による特定発話を含む番組音声、リハーサル音声等が収録された音声データが音声資源データ１４として予め格納されている。この音声資源データ１４は、特定話者・特定発話モデルを学習するための学習データの資源として用いられる。

図２は、音声資源データ１４の構成を説明する図である。音声資源データ１４は、発話者を識別するための発話者ＩＤ、発話内容の書き起こしテキスト、音声のアライメントデータ、音声データ等により構成され、これらの発話者ＩＤ、発話内容、アライメントデータ及び音声データ等は対応しており、発話毎に記憶部１１に格納されている。

特定話者は、発話者ＩＤにより特定され、相づち等の特定発話は、発話内容の書き起こしテキストにより特定される。特定話者による特定発話の音声データは、音声資源データ１４から抽出することができる。

図１に戻って、モデル学習部１２は、予め設定された特定話者による特定発話の音声データを、記憶部１１に格納された音声資源データ１４から抽出する。具体的には、モデル学習部１２は、音声資源データ１４の発話者ＩＤ、発話内容のテキスト及びアライメントデータに基づいて、特定話者による特定発話の音声データを抽出する。

モデル学習部１２は、特定話者による特定発話について、音声資源データ１４から抽出した複数の音声データを学習データとして、学習データを離散フーリエ変換して周波数成分のビンに細かく分割し、離散フーリエ変換結果を、周波数分析したスペクトルの音声特徴量として、特定話者・特定発話モデルを学習する。

具体的には、モデル学習部１２は、学習データをＦＦＴ（Fast Fourier Transform：高速フーリエ変換）し、ＦＦＴ結果に基づいてＭＦＣＣ（Mel Frequency Cepstral Coefficient：メル周波数ケプストラム係数）を計算し、ＭＦＣＣからその差分Δ（所定数のフレームにおけるＭＦＣＣの差分）及びその差分の差分ΔΔを計算し、これら（ＭＦＣＣ＋Δ＋ΔΔ）を特定話者による特定発話の特徴量として、検出用モデル１５を学習する。また、モデル学習部１２は、ＦＦＴ結果からその差分Δ（所定数のフレームにおけるＦＦＴ結果の差分）及びその差分の差分ΔΔを計算し、これら（ＦＦＴ結果＋Δ＋ΔΔ）を特定話者による特定発話の特徴量として、分離用モデル１６を学習する。

モデル学習部１２は、学習した特定話者・特定発話モデルである検出用モデル１５及び分離用モデル１６を記憶部１３に格納する。

記憶部１３には、モデル学習部１２により生成された検出用モデル１５及び分離用モデル１６が格納される。検出用モデル１５は、例えばＨＭＭ（Hidden Markov Model：隠れマルコフモデル）、ＤＮＮ（Deep Neural Network：ディープニューラルネットワーク）であり、前述のとおり、予め設定された特定話者による特定発話について、所定のトポロジーの各状態に対し、ＭＦＣＣ＋Δ＋ΔΔを特徴量として学習された統計的モデルである。分離用モデル１６は、例えばＨＭＭ、ＤＮＮであり、前述のとおり、予め設定された特定話者による特定発話について、所定のトポロジーの各状態に対し、ビン毎のＦＦＴ結果＋Δ＋ΔΔを特徴量として学習された、アクセントを含めた統計的モデルである。

尚、特定話者・特定発話モデルである検出用モデル１５及び分離用モデル１６は、話速（発話継続長）を表現できる最適なＨＭＭまたはＤＮＮのトポロジー、すなわち、抽出した特定発話の音声のサンプルが音響分析のための最小フレーム数内に収まるようなトポロジーが予め決定されているものとする。例えば、特定発話の内容の音素数を定数倍した状態数のトポロジーが、予め決定されているものとする。

〔検出除去部２０〕
次に、図１に示した音声認識装置１の検出除去部２０について説明する。図１を参照して、検出除去部２０は、特定発話区間検出部２１及び話者分離計算部２２を備えている。

特定発話区間検出部２１は、複数話者によるシングルチャンネルの混合音声の信号である対談音声信号を入力し、後述する音響モデル３６及び学習部１０の記憶部１３に格納された検出用モデル１５を用いて、対談音声信号と特定話者・特定発話の音声信号とのマッチングを行う。そして、特定発話区間検出部２１は、対談音声信号の時間区間内で、特定話者による特定発話がされた特定発話区間を検出し、特定発話区間の情報等を話者分離計算部２２に出力し、特定発話区間のテキスト（特定話者による特定発話のテキスト）等を認識統合部３０に出力する。

〔特定発話区間検出部２１〕
特定発話区間検出部２１の処理について、実施例１，２を挙げて詳細に説明する。実施例１は、特定話者による特定発話の音声信号を含む対談音声信号について、確率の最も高い最適パスを求め、最適パスに基づいて特定発話区間を検出するものである。また、実施例２は、特定話者による特定発話の音声信号を含む対談音声信号について、確率の高いパスをＮ個求め、Ｎ個のパスに基づいて特定発話区間を検出するものである。Ｎは２以上の整数である。

（実施例１）
まず、実施例１について説明する。実施例１は、対談音声信号について、後述する音響モデル３６の音素ネットワーク及び検出用モデル１５を用いて確率の最も高い最適パスを求め、最適パスに基づいて特定発話区間候補を抽出し、検出用モデル１５を用いて特定発話区間候補の尤度を求め、しきい値処理により特定発話区間を検出するものである。

図３は、特定発話区間検出部２１による実施例１の処理を示すフローチャートであり、図４は、実施例１の処理を説明する図である。まず、特定発話区間検出部２１は、特定発話区間を検出する処理を行うにあたり、図４に示すように、後述する認識統合部３０における音声認識の処理のための音響モデル３６と、学習部１０の記憶部１３に格納された検出用モデル１５とを用いて、ネットワークを構成する。

特定発話区間検出部２１は、複数話者によるシングルチャンネルの混合音声の信号である対談音声信号を入力する（ステップＳ３０１）。そして、特定発話区間検出部２１は、対談音声信号について、音響モデル３６及び検出用モデル１５にて構成したネットワークを用いて、確率が最も高い最適パスを求める（ステップＳ３０２）。

具体的には、特定発話区間検出部２１は、対談音声信号をＦＦＴしてＭＦＣＣ特徴量を計算する。そして、特定発話区間検出部２１は、対談音声信号の始端からフレーム毎に、ＭＦＣＣ特徴量を、音響モデル３６及び検出用モデル１５にて構成したネットワークに入力し、ビタビサーチにより確率を計算する。そして、特定発話区間検出部２１は、対談音声信号の終端のフレームを入力した時点で、確率を計算した全てのパスのうち、確率の最も高いパスを最適パスとして求める。

尚、特定発話区間検出部２１は、ビタビサーチ以外のサーチ手法により確率を計算し、最適パスを求めるようにしてもよい。後述するＮ個のパスを求める場合も同様である。

特定発話区間検出部２１は、対談音声信号の最適パスについて、構成した検出用モデル１５のネットワークを用いて、最適パス内に特定話者による特定発話のパスが存在するか否かを判断し（ステップＳ３０３）、特定話者による特定発話のパスが存在する時間区間を特定発話区間候補とし、特定発話区間候補の音声信号を抽出する（ステップＳ３０４）。すなわち、特定発話区間検出部２１は、対談音声信号をＦＦＴして特徴量（ＭＦＣＣ＋Δ＋ΔΔ）を計算し、対談音声信号の始端からフレーム毎に特徴量（ＭＦＣＣ＋Δ＋ΔΔ）を音響モデル３６及び検出用モデル１５にて構成したネットワークに入力し、検出用モデル１５のネットワークを通過した時間区間の音声信号を、特定発話区間候補の音声信号として抽出する。

例えば、図４を参照して、検出用モデル１５における特定話者による特定発話のパスが「ｈａｉ」の場合、最適パスの中に存在する「ｈａｉ」の時間区間の音声信号が、特定発話区間候補の音声信号として対談音声信号から抽出される。

特定発話区間検出部２１は、ステップＳ３０４にて抽出した特定発話区間候補の音声信号について、検出用モデル１５を用いてフレーム毎の確率（尤度）を計算する（ステップＳ３０５）。

例えば、図４を参照して、特定発話区間候補の音声信号（「ｈａｉ」の時間区間の音声信号）における特徴量（ＭＦＣＣ＋Δ＋ΔΔ）と、検出用モデル１５における特定話者による特定発話のパス「ｈａｉ」の音声信号における特徴量（ＭＦＣＣ＋Δ＋ΔΔ）と、検出用モデル１５に格納された各状態を遷移する確率とに基づいて、フレーム毎の尤度が計算される。尚、特定発話区間検出部２１は、分離用モデル１６を用いて特徴量（ＦＦＴ結果＋Δ＋ΔΔ）に基づき、アクセントを含めた詳細な尤度を計算するようにしてもよい。

特定発話区間検出部２１は、ステップＳ３０５にて計算した尤度に対するしきい値処理により、特定発話区間候補の中から特定発話区間を検出する（ステップＳ３０６）。

例えば、図４を参照して、特定発話区間候補の尤度が、全フレームにおいて所定のしきい値よりも大きい場合、その特定発話区間候補が特定発話区間として検出される。このしきい値処理は、全フレームにおいて尤度が所定のしきい値よりも大きいか否かを判定する場合に限定されるものではなく、例えば、全フレームにおける尤度の平均をしきい値処理するようにしてもよい。

特定発話区間検出部２１は、ステップＳ３０６にて検出した特定発話区間を示す区間情報、ステップＳ３０２にて求めた最適パス、及びステップＳ３０１にて入力した対談音声信号を話者分離計算部２２に出力し、特定発話区間のテキスト（図４の例では「ｈａｉ」のテキスト文章）等を認識統合部３０に出力する（ステップＳ３０７）。

このように、実施例１によれば、対談音声信号の確率が最も高い最適パスを用いて、特定発話区間を検出することができる。

（実施例２）
次に、実施例２について説明する。実施例２は、対談音声信号について、後述する音響モデル３６の音素ネットワークを用いて確率の高いＮ個のパスを求め、Ｎ個のパスに基づいて候補となり得る特定話者の音素列区間の頻度を計算し、しきい値処理により特定発話区間候補を抽出し、検出用モデル１５を用いて特定発話区間候補の尤度を求め、しきい値処理により特定発話区間を検出するものである。

図５は、特定発話区間検出部２１による実施例２の処理を示すフローチャートであり、図６は、実施例２の処理を説明する図である。まず、特定発話区間検出部２１は、特定発話区間を検出する処理を行うにあたり、図６に示すように、後述する認識統合部３０における音声認識の処理のための音響モデル３６を用いて、音素ネットワークを構成する。

特定発話区間検出部２１は、複数話者によるシングルチャンネルの混合音声の信号である対談音声信号を入力する（ステップＳ５０１）。そして、特定発話区間検出部２１は、対談音声信号について、構成した音響モデル３６の音素ネットワークを用いて、確率が高い音素列からなるＮ個のパスを求める（ステップＳ５０２）。

具体的には、特定発話区間検出部２１は、実施例１と同様に、対談音声信号よりＭＦＣＣ特徴量を計算し、音響モデル３６の音素ネットワークを用いて、ビタビサーチにより確率を計算する。そして、特定発話区間検出部２１は、対談音声信号の終端のフレームを入力した時点で、確率を計算した全てのパスのうち、確率が高いＮ個のパスを出力する。

特定発話区間検出部２１は、対談音声信号の始端から終端までの間の特定発話区間候補となり得る区間毎に、検出用モデル１５を用いて、ステップＳ５０２にて求めたＮ個のパスについて特定発話が現れる頻度を計算する（ステップＳ５０３）。

具体的には、特定発話区間検出部２１は、Ｎ個のパスのそれぞれについて、特定発話区間候補となり得る区間毎に、特定話者による特定発話の音素列に完全一致または部分一致するか否かをフレーム単位で判断する。そして、特定発話区間検出部２１は、Ｎ個のパスの全てについて、特定発話区間候補となり得る区間内のフレーム毎に、完全一致または部分一致した数を加算した頻度を計算する。これにより、特定発話区間の候補となり得る区間毎に、フレーム単位の頻度の分布が得られる。フレーム単位の最大頻度はＮである。

ここで、完全一致とは、特定発話区間候補となり得る区間の音素列が、特定話者による特定発話の音素列と同じであることを示す。また、部分一致とは、特定発話区間候補となり得る区間の音素列の一部が、特定話者による特定発話の音素列の一部と同じであることを示す。

特定発話区間検出部２１は、ステップＳ５０３にて計算した頻度に対するしきい値処理により、特定発話区間の候補となり得る区間の音声信号のうち、特定発話区間候補の音声信号を抽出する（ステップＳ５０４）。

例えば、図６を参照して、特定発話区間の候補となり得る区間内のフレーム毎の頻度が、全フレームにおいて所定のしきい値よりも大きい場合、その特定発話区間の候補となり得る区間を特定発話区間候補とし、対談音声信号から特定発話区間候補の音声信号が抽出される。このしきい値処理は、特定発話区間の候補となり得る区間内の全フレームにおいて頻度が所定のしきい値よりも大きいか否かを判定する場合に限定されるものではなく、例えば、全フレームにおける頻度の平均をしきい値処理するようにしてもよい。

特定発話区間検出部２１は、ステップＳ５０４にて抽出した特定発話区間候補の音声信号について、検出用モデル１５を用いて尤度を計算する（ステップＳ５０５）。このステップＳ５０５の処理は、図３に示したステップＳ３０５の処理と同様である。尚、特定発話区間検出部２１は、分離用モデル１６を用いて特徴量（ＦＦＴ結果＋Δ＋ΔΔ）に基づき、アクセントを含めた詳細な尤度を計算するようにしてもよい。

特定発話区間検出部２１は、ステップＳ５０５にて計算した尤度に対するしきい値処理により、特定発話区間候補の中から特定発話区間を検出する（ステップＳ５０６）。このステップＳ５０６の処理は、図３に示したステップＳ３０６の処理と同様である。

特定発話区間検出部２１は、ステップＳ５０６にて検出した特定発話区間を示す区間情報、ステップＳ５０２にて求めたＮ個のパスのうちのいずれかのパス（Ｎ個のパスから選択した１個のパス（例えば最適パス））、及びステップＳ５０１にて入力した対談音声信号を話者分離計算部２２に出力し、特定発話区間のテキスト（図６の例では「ｈａｉ」のテキスト文章）等を認識統合部３０に出力する（ステップＳ５０７）。

このように、実施例２によれば、対談音声信号の確率が高いＮ個のパスを用いて、特定発話区間を検出することができる。また、実施例１では、特定発話区間を検出するために１個のパスだけを用いるので、特定発話区間の検出精度よりも検出時間を優先する。これに対し、実施例２では、Ｎ個のパスを用いるようにしたから、特定発話区間の音声信号に、特定話者による特定発話の音声信号に加え主音声の信号が含まれており、これらが混合している場合には、実施例２の方が実施例１よりも、特定発話区間を精度高く検出することができる。

〔話者分離計算部２２〕
図１に戻って、検出除去部２０の話者分離計算部２２は、特定発話区間検出部２１から特定発話区間の情報等を入力し、特定発話区間の音声信号について、学習部１０の記憶部１３に格納された分離用モデル１６を用いて推定スペクトルを生成すると共に、対談音声信号から特定話者による特定発話の音声信号を周波数領域において分離して主音声スペクトルを生成し、主音声スペクトルを認識統合部３０に出力する。

図７は、話者分離計算部２２の処理を示すフローチャートである。まず、話者分離計算部２２は、特定発話区間検出部２１から特定発話区間の情報、最適パス及び対談音声信号を入力する（ステップＳ７０１）。尚、話者分離計算部２２は、前記実施例１の場合、最適パスを入力し、前記実施例２の場合、Ｎ個のパスのうちのいずれかのパスを入力する。

話者分離計算部２２は、検出用モデル１５を用いたマッチングにて得られたアライメント結果（実施例１では最適パス、実施例２では検出区間尤度判定のパス）に従って、分離用モデル１６における特定話者による特定発話のパラメータ（特徴量（ＦＦＴ結果＋Δ＋ΔΔ））に基づいて、特定発話区間のフレーム毎に、特定発話の推定スペクトルを生成する（ステップＳ７０２）。

ここで、特定発話区間は、特定話者による特定発話の音声信号が含まれる区間であり、この区間の音声信号には、特定話者による特定発話の音声信号に加え、主音声信号が含まれることがあり得る。つまり、特定発話区間は、特定話者による特定発話の音声信号と主音声信号とが含まれることがあり得るオーバーラップ区間であるといえる。ステップＳ７０２において、分離用モデル１６を用いることにより、特定話者による特定発話の音声信号の推定スペクトルがフレーム毎に生成される。

話者分離計算部２２は、対談音声信号をＦＦＴし、フレーム毎に、周波数成分のビンに細かく分割したスペクトル（入力音声スペクトル）を生成する（ステップＳ７０３）。そして、話者分離計算部２２は、ステップＳ７０２にて生成した推定スペクトルのパワー（振幅）を、音声認識装置１が実際に入力した対談音声信号のパワーの５０％になるように（対談音声信号のパワーの平均になるように）調整する（ステップＳ７０４）。

話者分離計算部２２は、ビン毎に、ステップＳ７０４にてパワーを調整した推定スペクトル（特定発話区間における特定話者による特定発話の推定スペクトル）と、ステップＳ７０３にて生成した入力音声スペクトルのうちの特定発話区間の入力音声スペクトルとを比較する（ステップＳ７０５）。

話者分離計算部２２は、ステップＳ７０５において、推定スペクトルのパワーが入力音声スペクトルのパワー以上であると判定した場合（ステップＳ７０５：≧）、当該ビンの重みを０または０に近い所定値に設定する（ステップＳ７０６）。一方、話者分離計算部２２は、ステップＳ７０５において、推定スペクトルのパワーが入力音声スペクトルのパワーよりも小さいと判定した場合（ステップＳ７０５：＜）、当該ビンの重みを１に設定する（ステップＳ７０７）。これにより、特定発話区間の各フレームについて、ビン毎の重みが設定される。

話者分離計算部２２は、ステップＳ７０６またはステップＳ７０７から移行して、ステップＳ７０３にて生成した対談音声信号の音声信号スペクトルのうちの特定発話区間の音声信号スペクトルに対し、ステップＳ７０６及びステップＳ７０７にて設定した重みを乗算する（ステップＳ７０８）。これにより、対談音声信号から、特定話者による特定発話の音声信号が除去され、特定話者による特定発話の音声信号を分離した対談音声信号を得ることができる。

話者分離計算部２２は、対談音声信号の音声信号スペクトルのうちの特定発話区間以外の区間の音声信号スペクトルと、ステップＳ７０８にて乗算後の特定発話区間の音声信号スペクトルとを合わせた主音声スペクトルを生成し、主音声スペクトルを認識統合部３０に出力する（ステップＳ７０９）。これにより、対談音声信号から特定話者による特定発話の音声信号が周波数領域において分離され、話者分離後の主音声スペクトルが出力される。

〔認識統合部３０〕
次に、図１に示した音声認識装置１の認識統合部３０について説明する。図１を参照して、認識統合部３０は、言語モデル３５及び音響モデル３６が格納された記憶部３１、音響特徴量計算部３２、主音声認識部３３、並びに統合部３４を備えている。

音響特徴量計算部３２は、検出除去部２０の話者分離計算部２２から話者分離後の主音声スペクトルを入力し、主音声スペクトルに基づいて、主音声の特徴量であるＭＦＣＣを計算する。そして、音響特徴量計算部３２は、主音声のＭＦＣＣを主音声認識部３３に出力する。

主音声認識部３３は、音響特徴量計算部３２から主音声のＭＦＣＣを入力し、記憶部３１に格納された言語モデル３５及び音響モデル３６を用いて、主音声のＭＦＣＣに基づいて最尤となる系列を探索することで、主音声の音声認識を行い、主音声認識結果のテキストを生成する。そして、主音声認識部３３は、主音声認識結果のテキスト等を統合部３４に出力する。

記憶部３１に格納された言語モデル３５は、音素の並び方を規定した任意の文字列について、それが日本語文等である確率が付与された確率モデル、すなわち日本語文等の類似度を確率密度分布で表した確率モデルであり、言語的な特徴量が格納されている。また、記憶部３１に格納された音響モデル３６は、音素がそれぞれどのような周波数特性を持っているかを表した確率モデル、すなわち音声信号の類似度を確率密度分布で表した確率モデルであり、各音素の特徴量（例えばＭＦＣＣ）に基づいて学習されたモデルである。

〔統合部３４〕
統合部３４は、主音声認識部３３から主音声認識結果のテキスト（主音声のテキスト）等を入力すると共に、検出除去部２０の特定発話区間検出部２１から特定発話区間のテキスト（特定話者による特定発話のテキスト）等を入力する。そして、統合部３４は、両テキストの前後配置を考慮して統合する（両テキストを合成する）ことで、特定話者による特定発話を主音声内の適切な箇所に挿入したテキストを生成し、対談音声認識結果のテキストとして出力する。これにより、特定話者による相づち等の特定発話が主音声内の適切な箇所に挿入されたテキストの文章が生成され出力される。

例えば、統合部３４は、主音声認識部３３から、主音声認識結果のテキストに加え、その時間情報も入力すると共に、特定発話区間検出部２１から、特定発話区間のテキストに加え、特定発話区間検出部２１により検出された特定発話区間における、特定話者による相づち等の特定発話が開始された時間（特定発話開始時間）の情報を入力する。この場合、主音声認識部３３は、主音声認識結果のテキストを生成する際に、テキストを構成する音素系列について時間情報を生成する。また、特定発話区間検出部２１は、特定発話区間を検出する際に、特定話者による相づち等の特定発話が開始された時間（特定発話開始時間）を検出する。

そして、統合部３４は、主音声認識結果のテキストに含まれる単語の境界を検出すると共に、その単語境界の時間を検出し、単語境界の時間と特定発話開始時間とを比較することで、単語境界の時間のタイミングと特定発話開始時間のタイミングとが最も近い単語境界を特定し、特定した単語境界に特定発話区間のテキストを挿入する。これにより、特定話者による相づち等の特定発話が、主音声内の単語境界に挿入される。

尚、統合部３４は、特定話者による相づち等の特定発話が挿入される箇所が事前学習された言語モデルを用いて、特定話者による特定発話を主音声内の適切な箇所に挿入し、対談音声認識結果のテキストを生成するようにしてもよい。具体的には、学習部１０のモデル学習部１２は、主音声の学習データ（字幕データ）等の会話に合わせて特定話者による相づち等の特定発話が適切な位置に挿入されている音声資源データ１４を用いて、主音声の学習データ（字幕データ）等の会話の中で、特定話者による特定発話が挿入された箇所を学習した特定話者・特定発話モデルである言語モデルを学習する。例えば、特定発話が「です。」「ます。」「ました。」「なんです。」等の後に挿入されている場合は、特定発話が文末に挿入されていることを学習した言語モデルが生成される。この言語モデルを用いることにより、主音声内で特定発話が挿入される箇所を事前に把握することができる。

そして、認識統合部３０の統合部３４は、検出除去部２０の話者分離計算部２２により特定話者による特定発話が除去されている場合に、この言語モデルを用いて、主音声認識部３３から入力した主音声認識結果のテキストに、特定発話区間検出部２１から入力した特定発話区間のテキストを挿入する箇所を特定し、特定した箇所に特定発話区間のテキストを挿入し、対談音声認識結果のテキストを生成する。前述の例では、統合部３４は、主音声認識結果のテキスト「・・です。・・・」のうち「・・です。」の後に、特定発話区間のテキストを挿入する。

ここで、統合部３４は、検出除去部２０の話者分離計算部２２により特定話者による特定発話が除去されている場合であっても、主音声認識結果のテキストに特定発話区間のテキストを挿入する箇所を特定することができないときには、特定発話区間のテキストを挿入する処理は行わない。

以上のように、本発明の実施形態の音声認識装置１によれば、検出除去部２０の特定発話区間検出部２１は、音響モデル３６及び検出用モデル１５（予め設定された特定話者による特定発話について、ＭＦＣＣ＋Δ＋ΔΔを特徴量として学習されたＨＭＭまたはＤＮＮ等のモデル）を用いて、複数話者によるシングルチャンネルの混合音声である対談音声信号と特定話者による特定発話の音声信号とのマッチングを行い、対談音声信号から、特定話者による特定発話がされた特定発話区間を検出するようにした。そして、話者分離計算部２２は、特定発話区間検出部２１により検出された特定発話区間の音声信号について、分離用モデル１６（予め設定された特定話者による特定発話について、ＦＦＴ結果＋Δ＋ΔΔを特徴量として学習されたＨＭＭまたはＤＮＮ等のモデル）を用いて推定スペクトルを生成すると共に、対談音声信号から特定話者による特定発話の音声信号を周波数領域において分離した主音声スペクトルを生成するようにした。

これにより、特定話者による相づち等の特定発話は、主音声とは独立して認識され、複数話者のシングルチャンネルの混合音声から、特定話者による相づち等の音声を分離した主音声を得ることができ、主音声の認識精度を向上させることができる。つまり、対談番組等で複数話者が同時に発話している場合に、主音声の認識精度の劣化を改善し、音声認識の誤りを低減することができる。

また、本発明の実施形態の音声認識装置１によれば、認識統合部３０の音響特徴量計算部３２は、検出除去部２０の話者分離計算部２２により生成された話者分離後の主音声スペクトルに基づいて、主音声の特徴量であるＭＦＣＣを計算し、主音声認識部３３は、言語モデル３５及び音響モデル３６を用いて、主音声のＭＦＣＣに基づいて最尤となる音素系列を探索することで、主音声の音声認識を行い、主音声認識結果のテキストを生成するようにした。そして、統合部３４は、主音声認識結果のテキストと特定発話区間のテキストとの前後配置を考慮して統合することで、特定話者による特定発話を主音声内の適切な箇所に挿入したテキストを生成するようにした。

これにより、対談音声信号から、字幕等で利用する書き起こしのテキストであって、相づち等が適切な箇所に挿入されたテキストを生成することができる。

尚、本発明の実施形態による音声認識装置１のハードウェア構成としては、通常のコンピュータを使用することができる。音声認識装置１は、ＣＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。音声認識装置１に備えた学習部１０のモデル学習部１２、検出除去部２０の特定発話区間検出部２１及び話者分離計算部２２、並びに、認識統合部３０の音響特徴量計算部３２、主音声認識部３３及び統合部３４の各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。これらのプログラムは、前記記憶媒体に格納されており、ＣＰＵに読み出されて実行される。また、これらのプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。

１，１００音声認識装置
１０学習部
１１，１３，３１記憶部
１２モデル学習部
１４音声資源データ
１５検出用モデル
１６分離用モデル
２０検出除去部
２１特定発話区間検出部
２２話者分離計算部
３０認識統合部
３２音響特徴量計算部
３３主音声認識部
３４統合部
３５言語モデル
３６音響モデル
１０１，１０２マイクロフォン
１０３周波数分析部
１０４到達位相差・到達レベル差算出部
１０５判定部
１０６信号合成部

Claims

複数話者のシングルチャンネルの混合音声から特定話者による特定発話を分離し、前記特定発話が分離された主音声を認識する音声認識装置であって、
予め収録された前記特定話者による前記特定発話の音声信号を周波数分析して特徴量を計算し、前記特定発話の音声信号の特徴量に基づいて発話モデルを学習するモデル学習部と、
前記混合音声の信号を周波数分析して特徴量を計算し、前記混合音声の信号の特徴量と前記発話モデルにおける前記特定発話の音声信号の特徴量とに基づいて、前記混合音声の信号と前記特定発話の音声信号とのマッチングを行い、前記混合音声から、前記特定発話の音声信号を含む特定発話区間を検出する特定発話区間検出部と、
前記発話モデルを用いて、前記特定発話区間検出部により検出された特定発話区間における前記特定発話の音声信号の推定スペクトルを生成すると共に、前記混合音声の信号を周波数分析してスペクトルを生成し、前記特定発話区間における前記特定発話の音声信号の推定スペクトルと、前記混合音声のうち前記特定発話区間の音声信号のスペクトルとに基づいて、前記混合音声の信号から前記特定発話の音声信号を周波数領域において分離し、前記特定発話が分離された主音声信号のスペクトルを生成する話者分離計算部と、を備え、
前記話者分離計算部により生成された主音声信号のスペクトルに基づいて、前記主音声を認識することを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記特定発話区間検出部は、
それぞれの音素の特徴量に基づいて学習された音響モデル及び前記モデル学習部により学習された発話モデルを用いて、前記混合音声と前記音素との間の確率を計算し、前記確率の最も高い最適パスを求め、
前記最適パス内に前記特定発話のパスが存在する時間区間を特定発話区間候補とし、前記混合音声の信号から前記特定発話区間候補の音声信号を抽出し、
前記モデル学習部により学習された発話モデルを用いて、前記特定発話区間候補の音声信号の特徴量に基づき、前記特定発話区間候補の音声信号の尤度を計算し、
前記特定発話区間候補の音声信号の尤度に対するしきい値処理により、前記特定発話区間候補を前記特定発話区間として検出する、ことを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記特定発話区間検出部は、
それぞれの音素の特徴量に基づいて学習された音響モデルを用いて、前記混合音声と前記音素との間の確率を計算し、前記確率の高い音素列からなるパスを複数求め、
前記混合音声の始端から終端までの間の所定区間毎に、前記複数のパスについて前記特定発話が現れる頻度を計算し、
前記所定区間毎の頻度に対するしきい値処理により、前記所定区間を特定発話区間候補とし、前記混合音声の信号から前記特定発話区間候補の音声信号を抽出し、
前記モデル学習部により学習された発話モデルを用いて、前記特定発話区間候補の音声信号の特徴量に基づき、前記特定発話区間候補の音声信号の尤度を計算し、
前記特定発話区間候補の音声信号の尤度に対するしきい値処理により、前記特定発話区間候補を前記特定発話区間として検出する、ことを特徴とする音声認識装置。
請求項１から３までのいずれか一項に記載の音声認識装置において、
前記話者分離計算部は、
前記特定発話区間における前記特定発話の音声信号の推定スペクトルと、前記混合音声のうち前記特定発話区間の音声信号のスペクトルとをビン毎に比較し、
前記特定発話区間における前記特定発話の音声信号の推定スペクトルにおけるパワーが前記特定発話区間の音声信号のスペクトルにおけるパワー以上であると判定した場合、前記ビンの重みを０または０に近い所定値に設定し、前記特定発話区間における前記特定発話の音声信号の推定スペクトルにおけるパワーが前記特定発話区間の音声信号のスペクトルにおけるパワーよりも小さいと判定した場合、前記ビンの重みを１に設定し、
前記特定発話区間の音声信号のスペクトルに対し、前記ビン毎に設定した重みを乗算することで、前記混合音声の信号から前記特定発話の音声信号を周波数領域において分離し、前記特定発話が分離された主音声信号のスペクトルを生成する、ことを特徴とする音声認識装置。
請求項１から４までのいずれか一項に記載の音声認識装置において、
さらに、前記話者分離計算部により生成された主音声信号のスペクトルに基づいて、前記主音声を認識して前記主音声の文字列を生成し、前記主音声の文字列に含まれる単語の境界を検出し、
前記特定発話区間検出部により検出された特定発話区間における特定発話の文字列を、前記主音声の文字列に含まれる単語の境界に挿入することで、前記主音声の文字列と前記特定発話の文字列とを統合する認識統合部を備えたことを特徴とする音声認識装置。
請求項１から５までのいずれか一項に記載の音声認識装置において、
前記モデル学習部は、
前記特定発話の音声信号をＦＦＴし、前記ＦＦＴの結果からＭＦＣＣ（メル周波数ケプストラム係数）を計算し、前記ＭＦＣＣを含む前記特定発話の音声信号の特徴量に基づいて検出用モデルを生成すると共に、前記ＦＦＴの結果を含む前記特定発話の音声信号の特徴量に基づいて分離用モデルを生成し、
前記特定発話区間検出部は、
前記モデル学習部により生成された検出用モデルを用いて、前記特定発話の音声信号を含む特定発話区間を検出し、
前記話者分離計算部は、
前記モデル学習部により生成された分離用モデルを用いて、前記特定発話が分離された主音声信号のスペクトルを生成する、ことを特徴とする音声認識装置。
コンピュータを、請求項１から６までのいずれか一項に記載の音声認識装置として機能させるためのプログラム。