JP6487650B2 - 音声認識装置及びプログラム - Google Patents

音声認識装置及びプログラム Download PDF

Info

Publication number
JP6487650B2
JP6487650B2 JP2014166016A JP2014166016A JP6487650B2 JP 6487650 B2 JP6487650 B2 JP 6487650B2 JP 2014166016 A JP2014166016 A JP 2014166016A JP 2014166016 A JP2014166016 A JP 2014166016A JP 6487650 B2 JP6487650 B2 JP 6487650B2
Authority
JP
Japan
Prior art keywords
speech
specific
specific utterance
signal
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014166016A
Other languages
English (en)
Other versions
JP2016042152A (ja
Inventor
和穂 尾上
和穂 尾上
庄衛 佐藤
庄衛 佐藤
貴裕 奥
貴裕 奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2014166016A priority Critical patent/JP6487650B2/ja
Publication of JP2016042152A publication Critical patent/JP2016042152A/ja
Application granted granted Critical
Publication of JP6487650B2 publication Critical patent/JP6487650B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、複数の音声が混合して存在する環境下において、混合音声から特定の音声を分離し、主音声を認識する音声認識装置及びプログラムに関する。
従来、複数の音が存在する環境下において、目的とする領域の音を抽出する技術が知られている。例えば、混合音声から特定話者の音声を分離したり、雑音を抑圧したりする手法として、ゾーン分離収音技術(以下、SAFIAという。)が実用化されている。
SAFIAは、複数のマイクロフォンを用いて、チャンネル間の到達位相差及び到達レベル差に基づいて、特定の領域(ゾーン)で発せられる音のみを分離して収音するものである(例えば、特許文献1、非特許文献1−3を参照)。これにより、複数の音が存在する環境下において、目的とする領域の音を抽出することが可能となる。
図8は、SAFIAを用いた従来の音声認識装置の構成を示すブロック図である。この従来の音声認識装置100は、2チャンネルのマイクロフォン(M)101及びマイクロフォン(M)102、周波数分析部103、到達位相差・到達レベル差算出部104、判定部105並びに信号合成部106を備えている。音声認識装置100は、雑音源から発せられる雑音と目的音源から発せられる目的音とを収音し、これらの混合音から雑音を分離し、目的音を抽出するものである。
マイクロフォン101,102は、雑音と目的音との混合音をそれぞれ収音する。マイクロフォン101により収音された混合音の信号r(n)は、周波数分析部103に出力され、マイクロフォン102により収音された混合音の信号l(n)も、周波数分析部103に出力される。nは時間軸上のサンプリング番号を示す。
周波数分析部103は、混合音の信号r(n),l(n)をそれぞれ入力し、信号r(n),l(n)をそれそれぞれ離散フーリエ変換して周波数成分のビンに細かく分割し、周波数成分の信号R(f),L(f)をそれぞれ生成する。fは周波数成分を示す。
到達位相差・到達レベル差算出部104は、周波数分析部103により生成された信号L(f),R(f)を入力し、以下の式を用いて、チャンネル間の到達位相差ΔΦ(f)及び到達レベル差ΔA(f)を算出する。
Figure 0006487650
判定部105は、到達位相差・到達レベル差算出部104により算出されたチャンネル間の到達位相差ΔΦ(f)及び到達レベル差ΔA(f)を入力し、到達位相差ΔΦ(f)及び到達レベル差ΔA(f)に基づいて、周波数成分f毎に目的音の信号が含まれているか否かを判定する。
図8に示す目的音源及び雑音源の配置では、目的音源に近い領域で収音した混合音の周波数成分の信号L(f)に含まれる目的音成分のレベルは、雑音源に近い領域で収音した混合音の周波数成分の信号R(f)に含まれる目的音成分のレベルよりも高く、位相も進んでいる性質を有する。判定部105は、このような性質を利用して、周波数成分f毎に目的音の信号が含まれているか否かを判定する。
信号合成部106は、周波数分析部103により生成された信号L(f)を入力すると共に、判定部105により判定された周波数成分f毎の判定結果を入力し、信号L(f)に対して判定結果に応じた重みを乗算することで、目的音の周波数成分fの信号を強調する。例えば、信号合成部106は、目的音の信号が含まれていると判定された周波数成分fの信号L(f)に対し、重みとして1を乗算し、目的音の信号が含まれていないと判定された周波数成分fの信号L(f)に対し、重みとして0または0に近い値を乗算する。
信号合成部106は、目的音を強調した信号L(f)を離散逆フーリエ変換することで、周波数信号を時間信号の波形に戻し、変換後の時間信号を、目的音源の領域の音s’(n)として出力する。
このように、SAFIAを用いた従来の音声認識装置100によれば、雑音と目的音との混合音を2チャンネルで収音し、混合音から雑音を分離し、目的音源の領域の目的音を抽出することができる。この手法は、雑音が存在する環境下において、目的の音声を抽出したり、複数の音声が混合して存在する環境下において、複数話者の混合音声から特定話者の音声を分離して主音声を抽出したりする場合に、利用効果が実証されている。
特開平10−313497号公報
M.Aoki, M.Okamoto, S.Aoki, H.Matsui, T.Sakurai, and Y.Kaneda, "Sound source segregation based on estimating incident angle of each frequency component of input signals acquired by multiple microphones", J. Acoust. Soc. Japan(E), Vol.22, No.2, pp.149-157, 2001 青木真理子、古家賢一、山口義和、吉岡理、「チャネル間情報を利用した音源分離手法(SAFIA)による混合音声の認識」、日本音響学会研究発表会講演論文集、2001(2)、45-46、2001-10-01 織田修平、青木真理子、古家賢一、片岡章俊、「雑音環境下における報知音伝達システムとその有効性」、電子情報通信学会論文誌、D Vol.J90-D、No.10、pp.2765-2774
複数チャンネルの入力音声から特定話者の音声を分離する手法は、図8に示した従来の音声認識装置100のように、既に、マイクアレー及び独立成分分析等を基にした技術によって実現することができ、所定の分野では実用化されている。
しかしながら、図8に示した従来の音声認識装置100では、前提条件として、目的音源及び雑音源と複数チャンネルのマイクロフォン101,102との間の位置関係を事前に把握することが必要である。
ここで、複数話者の混合音声がシングルチャンネルの混合音声として収録されており、このシングルチャンネルの混合音声から特定話者の音声を分離し、目的とする主音声を抽出する場合には、音源等の位置関係を事前に把握することは困難であり、図8に示した従来の音声認識装置100をそのまま利用することができない。
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、複数話者のシングルチャンネルの混合音声から、特定話者による相づち等の音声を分離し、主音声を認識することが可能な音声認識装置及びプログラムを提供することにある。
前記目的を達成するために、本発明による音声認識装置は、複数話者のシングルチャンネルの混合音声から特定話者による特定発話を分離し、前記特定発話が分離された主音声を認識する音声認識装置であって、予め収録された前記特定話者による前記特定発話の音声信号を周波数分析して特徴量を計算し、前記特定発話の音声信号の特徴量に基づいて発話モデルを学習するモデル学習部と、前記混合音声の信号を周波数分析して特徴量を計算し、前記混合音声の信号の特徴量と前記発話モデルにおける前記特定発話の音声信号の特徴量とに基づいて、前記混合音声の信号と前記特定発話の音声信号とのマッチングを行い、前記混合音声から、前記特定発話の音声信号を含む特定発話区間を検出する特定発話区間検出部と、前記発話モデルを用いて、前記特定発話区間検出部により検出された特定発話区間における前記特定発話の音声信号の推定スペクトルを生成すると共に、前記混合音声の信号を周波数分析してスペクトルを生成し、前記特定発話区間における前記特定発話の音声信号の推定スペクトルと、前記混合音声のうち前記特定発話区間の音声信号のスペクトルとに基づいて、前記混合音声の信号から前記特定発話の音声信号を周波数領域において分離し、前記特定発話が分離された主音声信号のスペクトルを生成する話者分離計算部と、を備え、前記話者分離計算部により生成された主音声信号のスペクトルに基づいて、前記主音声を認識することを特徴とする。
また、本発明による音声認識装置は、前記特定発話区間検出部が、それぞれの音素の特徴量に基づいて学習された音響モデル及び前記モデル学習部により学習された発話モデルを用いて、前記混合音声と前記音素との間の確率を計算し、前記確率の最も高い最適パスを求め、前記最適パス内に前記特定発話のパスが存在する時間区間を特定発話区間候補とし、前記混合音声の信号から前記特定発話区間候補の音声信号を抽出し、前記モデル学習部により学習された発話モデルを用いて、前記特定発話区間候補の音声信号の特徴量に基づき、前記特定発話区間候補の音声信号の尤度を計算し、前記特定発話区間候補の音声信号の尤度に対するしきい値処理により、前記特定発話区間候補を前記特定発話区間として検出する、ことを特徴とする。
また、本発明による音声認識装置は、前記特定発話区間検出部が、それぞれの音素の特徴量に基づいて学習された音響モデルを用いて、前記混合音声と前記音素との間の確率を計算し、前記確率の高い音素列からなるパスを複数求め、前記混合音声の始端から終端までの間の所定区間毎に、前記複数のパスについて前記特定発話が現れる頻度を計算し、前記所定区間毎の頻度に対するしきい値処理により、前記所定区間を特定発話区間候補とし、前記混合音声の信号から前記特定発話区間候補の音声信号を抽出し、前記モデル学習部により学習された発話モデルを用いて、前記特定発話区間候補の音声信号の特徴量に基づき、前記特定発話区間候補の音声信号の尤度を計算し、前記特定発話区間候補の音声信号の尤度に対するしきい値処理により、前記特定発話区間候補を前記特定発話区間として検出する、ことを特徴とする。
また、本発明による音声認識装置は、前記話者分離計算部が、前記特定発話区間における前記特定発話の音声信号の推定スペクトルと前記混合音声のうち前記特定発話区間の音声信号のスペクトルとをビン毎に比較し、前記特定発話区間における前記特定発話の音声信号の推定スペクトルにおけるパワーが前記特定発話区間の音声信号のスペクトルにおけるパワー以上であると判定した場合、前記ビンの重みを0または0に近い所定値に設定し、前記特定発話区間における前記特定発話の音声信号の推定スペクトルにおけるパワーが前記特定発話区間の音声信号のスペクトルにおけるパワーよりも小さいと判定した場合、前記ビンの重みを1に設定し、前記特定発話区間の音声信号のスペクトルに対し、前記ビン毎に設定した重みを乗算することで、前記混合音声の信号から前記特定発話の音声信号を周波数領域において分離し、前記特定発話が分離された主音声信号のスペクトルを生成する、ことを特徴とする。
また、本発明による音声認識装置は、さらに、前記話者分離計算部により生成された主音声信号のスペクトルに基づいて、前記主音声を認識して前記主音声の文字列を生成し、前記主音声の文字列に含まれる単語の境界を検出し、前記特定発話区間検出部により検出された特定発話区間における特定発話の文字列を、前記主音声の文字列に含まれる単語の境界に挿入することで、前記主音声の文字列と前記特定発話の文字列とを統合する認識統合部を備えたことを特徴とする。
また、本発明による音声認識装置は、前記モデル学習部が、前記特定発話の音声信号をFFTし、前記FFTの結果からMFCC(メル周波数ケプストラム係数)を計算し、前記MFCCを含む前記特定発話の音声信号の特徴量に基づいて検出用モデルを生成すると共に、前記FFTの結果を含む前記特定発話の音声信号の特徴量に基づいて分離用モデルを生成し、前記特定発話区間検出部が、前記モデル学習部により生成された検出用モデルを用いて、前記特定発話の音声信号を含む特定発話区間を検出し、前記話者分離計算部が、前記モデル学習部により生成された分離用モデルを用いて、前記特定発話が分離された主音声信号のスペクトルを生成する、ことを特徴とする。
さらに、本発明によるプログラムは、コンピュータを、前記音声認識装置として機能させることを特徴とする。
以上のように、本発明によれば、複数話者のシングルチャンネルの混合音声から、特定話者による相づち等の音声を分離し、主音声を認識することが可能となる。
本発明の実施形態による音声認識装置の全体構成を示すブロック図である。 音声資源データの構成を説明する図である。 特定発話区間検出部による実施例1の処理を示すフローチャートである。 実施例1の処理を説明する図である。 特定発話区間検出部による実施例2の処理を示すフローチャートである。 実施例2の処理を説明する図である。 話者分離計算部の処理を示すフローチャートである。 SAFIAを用いた従来の音声認識装置の構成を示すブロック図である。
以下、本発明を実施するための形態について図面を用いて詳細に説明する。以下に説明する本発明の実施形態は、対談番組等にて複数話者の音声が混合したシングルチャンネルの音声(対談音声)から、予め出演が決定しているアナウンサー等の特定話者による「はい」「ふ〜ん」等の相づち等である特定発話を分離し、コメンテイター等による主音声を認識する例である。
〔全体構成〕
まず、本発明の実施形態による音声認識装置の全体構成について説明する。図1は、音声認識装置の全体構成を示すブロック図である。この音声認識装置1は、学習部10、検出除去部20及び認識統合部30を備えている。
音声認識装置1は、発話者及び当該発話者による相づち等の発話内容を事前に特定可能な状況下で使用される装置である。音声認識装置1は、特定話者による特定発話について特定話者・特定発話モデルを学習し、特定話者・特定発話モデルを用いて、複数話者によるシングルチャンネルの混合音声から、特定発話区間(特定話者による特定発話の音声信号を含む時間区間)を検出し、混合音声から特定話者による特定発話の音声を分離し、主音声を認識する。
学習部10は、特定話者による相づち等の特定発話を学習データとして、アクセント及び時間変化構造を含めた統計的情報を学習することにより、特定発話の音声信号の類似度を確率密度分布で表した確率モデルである特定話者・特定発話モデルを生成する。
検出除去部20は、学習部10により生成された特定話者・特定発話モデルを用いて、複数話者によるシングルチャンネルの混合音声である対談音声信号から、特定話者による特定発話がされた特定発話区間を検出し、対談音声信号から特定話者による特定発話の音声を周波数領域において分離し、主音声信号(話者分離後の対談音声信号)を生成する。
認識統合部30は、言語モデル及び音響モデルを用いて、検出除去部20により生成された主音声信号の音声認識を行い、主音声の音声認識結果のテキスト(文字列)と、検出除去部20により検出された特定発話区間のテキスト(特定話者による特定発話の音声の文字列)とを統合する。これにより、特定話者により相づち等の特定発話が主音声内の適切な箇所に挿入され、対談音声認識結果のテキストの文章が生成される。
〔学習部10〕
次に、図1に示した音声認識装置1の学習部10について説明する。図1を参照して、学習部10は、音声資源データ14が格納された記憶部11、モデル学習部12、並びに検出用モデル15及び分離用モデル16が格納された記憶部13を備えている。
記憶部11には、特定話者による特定発話を含む番組音声、リハーサル音声等が収録された音声データが音声資源データ14として予め格納されている。この音声資源データ14は、特定話者・特定発話モデルを学習するための学習データの資源として用いられる。
図2は、音声資源データ14の構成を説明する図である。音声資源データ14は、発話者を識別するための発話者ID、発話内容の書き起こしテキスト、音声のアライメントデータ、音声データ等により構成され、これらの発話者ID、発話内容、アライメントデータ及び音声データ等は対応しており、発話毎に記憶部11に格納されている。
特定話者は、発話者IDにより特定され、相づち等の特定発話は、発話内容の書き起こしテキストにより特定される。特定話者による特定発話の音声データは、音声資源データ14から抽出することができる。
図1に戻って、モデル学習部12は、予め設定された特定話者による特定発話の音声データを、記憶部11に格納された音声資源データ14から抽出する。具体的には、モデル学習部12は、音声資源データ14の発話者ID、発話内容のテキスト及びアライメントデータに基づいて、特定話者による特定発話の音声データを抽出する。
モデル学習部12は、特定話者による特定発話について、音声資源データ14から抽出した複数の音声データを学習データとして、学習データを離散フーリエ変換して周波数成分のビンに細かく分割し、離散フーリエ変換結果を、周波数分析したスペクトルの音声特徴量として、特定話者・特定発話モデルを学習する。
具体的には、モデル学習部12は、学習データをFFT(Fast Fourier Transform:高速フーリエ変換)し、FFT結果に基づいてMFCC(Mel Frequency Cepstral Coefficient:メル周波数ケプストラム係数)を計算し、MFCCからその差分Δ(所定数のフレームにおけるMFCCの差分)及びその差分の差分ΔΔを計算し、これら(MFCC+Δ+ΔΔ)を特定話者による特定発話の特徴量として、検出用モデル15を学習する。また、モデル学習部12は、FFT結果からその差分Δ(所定数のフレームにおけるFFT結果の差分)及びその差分の差分ΔΔを計算し、これら(FFT結果+Δ+ΔΔ)を特定話者による特定発話の特徴量として、分離用モデル16を学習する。
モデル学習部12は、学習した特定話者・特定発話モデルである検出用モデル15及び分離用モデル16を記憶部13に格納する。
記憶部13には、モデル学習部12により生成された検出用モデル15及び分離用モデル16が格納される。検出用モデル15は、例えばHMM(Hidden Markov Model:隠れマルコフモデル)、DNN(Deep Neural Network:ディープニューラルネットワーク)であり、前述のとおり、予め設定された特定話者による特定発話について、所定のトポロジーの各状態に対し、MFCC+Δ+ΔΔを特徴量として学習された統計的モデルである。分離用モデル16は、例えばHMM、DNNであり、前述のとおり、予め設定された特定話者による特定発話について、所定のトポロジーの各状態に対し、ビン毎のFFT結果+Δ+ΔΔを特徴量として学習された、アクセントを含めた統計的モデルである。
尚、特定話者・特定発話モデルである検出用モデル15及び分離用モデル16は、話速(発話継続長)を表現できる最適なHMMまたはDNNのトポロジー、すなわち、抽出した特定発話の音声のサンプルが音響分析のための最小フレーム数内に収まるようなトポロジーが予め決定されているものとする。例えば、特定発話の内容の音素数を定数倍した状態数のトポロジーが、予め決定されているものとする。
〔検出除去部20〕
次に、図1に示した音声認識装置1の検出除去部20について説明する。図1を参照して、検出除去部20は、特定発話区間検出部21及び話者分離計算部22を備えている。
特定発話区間検出部21は、複数話者によるシングルチャンネルの混合音声の信号である対談音声信号を入力し、後述する音響モデル36及び学習部10の記憶部13に格納された検出用モデル15を用いて、対談音声信号と特定話者・特定発話の音声信号とのマッチングを行う。そして、特定発話区間検出部21は、対談音声信号の時間区間内で、特定話者による特定発話がされた特定発話区間を検出し、特定発話区間の情報等を話者分離計算部22に出力し、特定発話区間のテキスト(特定話者による特定発話のテキスト)等を認識統合部30に出力する。
〔特定発話区間検出部21〕
特定発話区間検出部21の処理について、実施例1,2を挙げて詳細に説明する。実施例1は、特定話者による特定発話の音声信号を含む対談音声信号について、確率の最も高い最適パスを求め、最適パスに基づいて特定発話区間を検出するものである。また、実施例2は、特定話者による特定発話の音声信号を含む対談音声信号について、確率の高いパスをN個求め、N個のパスに基づいて特定発話区間を検出するものである。Nは2以上の整数である。
(実施例1)
まず、実施例1について説明する。実施例1は、対談音声信号について、後述する音響モデル36の音素ネットワーク及び検出用モデル15を用いて確率の最も高い最適パスを求め、最適パスに基づいて特定発話区間候補を抽出し、検出用モデル15を用いて特定発話区間候補の尤度を求め、しきい値処理により特定発話区間を検出するものである。
図3は、特定発話区間検出部21による実施例1の処理を示すフローチャートであり、図4は、実施例1の処理を説明する図である。まず、特定発話区間検出部21は、特定発話区間を検出する処理を行うにあたり、図4に示すように、後述する認識統合部30における音声認識の処理のための音響モデル36と、学習部10の記憶部13に格納された検出用モデル15とを用いて、ネットワークを構成する。
特定発話区間検出部21は、複数話者によるシングルチャンネルの混合音声の信号である対談音声信号を入力する(ステップS301)。そして、特定発話区間検出部21は、対談音声信号について、音響モデル36及び検出用モデル15にて構成したネットワークを用いて、確率が最も高い最適パスを求める(ステップS302)。
具体的には、特定発話区間検出部21は、対談音声信号をFFTしてMFCC特徴量を計算する。そして、特定発話区間検出部21は、対談音声信号の始端からフレーム毎に、MFCC特徴量を、音響モデル36及び検出用モデル15にて構成したネットワークに入力し、ビタビサーチにより確率を計算する。そして、特定発話区間検出部21は、対談音声信号の終端のフレームを入力した時点で、確率を計算した全てのパスのうち、確率の最も高いパスを最適パスとして求める。
尚、特定発話区間検出部21は、ビタビサーチ以外のサーチ手法により確率を計算し、最適パスを求めるようにしてもよい。後述するN個のパスを求める場合も同様である。
特定発話区間検出部21は、対談音声信号の最適パスについて、構成した検出用モデル15のネットワークを用いて、最適パス内に特定話者による特定発話のパスが存在するか否かを判断し(ステップS303)、特定話者による特定発話のパスが存在する時間区間を特定発話区間候補とし、特定発話区間候補の音声信号を抽出する(ステップS304)。すなわち、特定発話区間検出部21は、対談音声信号をFFTして特徴量(MFCC+Δ+ΔΔ)を計算し、対談音声信号の始端からフレーム毎に特徴量(MFCC+Δ+ΔΔ)を音響モデル36及び検出用モデル15にて構成したネットワークに入力し、検出用モデル15のネットワークを通過した時間区間の音声信号を、特定発話区間候補の音声信号として抽出する。
例えば、図4を参照して、検出用モデル15における特定話者による特定発話のパスが「hai」の場合、最適パスの中に存在する「hai」の時間区間の音声信号が、特定発話区間候補の音声信号として対談音声信号から抽出される。
特定発話区間検出部21は、ステップS304にて抽出した特定発話区間候補の音声信号について、検出用モデル15を用いてフレーム毎の確率(尤度)を計算する(ステップS305)。
例えば、図4を参照して、特定発話区間候補の音声信号(「hai」の時間区間の音声信号)における特徴量(MFCC+Δ+ΔΔ)と、検出用モデル15における特定話者による特定発話のパス「hai」の音声信号における特徴量(MFCC+Δ+ΔΔ)と、検出用モデル15に格納された各状態を遷移する確率とに基づいて、フレーム毎の尤度が計算される。尚、特定発話区間検出部21は、分離用モデル16を用いて特徴量(FFT結果+Δ+ΔΔ)に基づき、アクセントを含めた詳細な尤度を計算するようにしてもよい。
特定発話区間検出部21は、ステップS305にて計算した尤度に対するしきい値処理により、特定発話区間候補の中から特定発話区間を検出する(ステップS306)。
例えば、図4を参照して、特定発話区間候補の尤度が、全フレームにおいて所定のしきい値よりも大きい場合、その特定発話区間候補が特定発話区間として検出される。このしきい値処理は、全フレームにおいて尤度が所定のしきい値よりも大きいか否かを判定する場合に限定されるものではなく、例えば、全フレームにおける尤度の平均をしきい値処理するようにしてもよい。
特定発話区間検出部21は、ステップS306にて検出した特定発話区間を示す区間情報、ステップS302にて求めた最適パス、及びステップS301にて入力した対談音声信号を話者分離計算部22に出力し、特定発話区間のテキスト(図4の例では「hai」のテキスト文章)等を認識統合部30に出力する(ステップS307)。
このように、実施例1によれば、対談音声信号の確率が最も高い最適パスを用いて、特定発話区間を検出することができる。
(実施例2)
次に、実施例2について説明する。実施例2は、対談音声信号について、後述する音響モデル36の音素ネットワークを用いて確率の高いN個のパスを求め、N個のパスに基づいて候補となり得る特定話者の音素列区間の頻度を計算し、しきい値処理により特定発話区間候補を抽出し、検出用モデル15を用いて特定発話区間候補の尤度を求め、しきい値処理により特定発話区間を検出するものである。
図5は、特定発話区間検出部21による実施例2の処理を示すフローチャートであり、図6は、実施例2の処理を説明する図である。まず、特定発話区間検出部21は、特定発話区間を検出する処理を行うにあたり、図6に示すように、後述する認識統合部30における音声認識の処理のための音響モデル36を用いて、音素ネットワークを構成する。
特定発話区間検出部21は、複数話者によるシングルチャンネルの混合音声の信号である対談音声信号を入力する(ステップS501)。そして、特定発話区間検出部21は、対談音声信号について、構成した音響モデル36の音素ネットワークを用いて、確率が高い音素列からなるN個のパスを求める(ステップS502)。
具体的には、特定発話区間検出部21は、実施例1と同様に、対談音声信号よりMFCC特徴量を計算し、音響モデル36の音素ネットワークを用いて、ビタビサーチにより確率を計算する。そして、特定発話区間検出部21は、対談音声信号の終端のフレームを入力した時点で、確率を計算した全てのパスのうち、確率が高いN個のパスを出力する。
特定発話区間検出部21は、対談音声信号の始端から終端までの間の特定発話区間候補となり得る区間毎に、検出用モデル15を用いて、ステップS502にて求めたN個のパスについて特定発話が現れる頻度を計算する(ステップS503)。
具体的には、特定発話区間検出部21は、N個のパスのそれぞれについて、特定発話区間候補となり得る区間毎に、特定話者による特定発話の音素列に完全一致または部分一致するか否かをフレーム単位で判断する。そして、特定発話区間検出部21は、N個のパスの全てについて、特定発話区間候補となり得る区間内のフレーム毎に、完全一致または部分一致した数を加算した頻度を計算する。これにより、特定発話区間の候補となり得る区間毎に、フレーム単位の頻度の分布が得られる。フレーム単位の最大頻度はNである。
ここで、完全一致とは、特定発話区間候補となり得る区間の音素列が、特定話者による特定発話の音素列と同じであることを示す。また、部分一致とは、特定発話区間候補となり得る区間の音素列の一部が、特定話者による特定発話の音素列の一部と同じであることを示す。
特定発話区間検出部21は、ステップS503にて計算した頻度に対するしきい値処理により、特定発話区間の候補となり得る区間の音声信号のうち、特定発話区間候補の音声信号を抽出する(ステップS504)。
例えば、図6を参照して、特定発話区間の候補となり得る区間内のフレーム毎の頻度が、全フレームにおいて所定のしきい値よりも大きい場合、その特定発話区間の候補となり得る区間を特定発話区間候補とし、対談音声信号から特定発話区間候補の音声信号が抽出される。このしきい値処理は、特定発話区間の候補となり得る区間内の全フレームにおいて頻度が所定のしきい値よりも大きいか否かを判定する場合に限定されるものではなく、例えば、全フレームにおける頻度の平均をしきい値処理するようにしてもよい。
特定発話区間検出部21は、ステップS504にて抽出した特定発話区間候補の音声信号について、検出用モデル15を用いて尤度を計算する(ステップS505)。このステップS505の処理は、図3に示したステップS305の処理と同様である。尚、特定発話区間検出部21は、分離用モデル16を用いて特徴量(FFT結果+Δ+ΔΔ)に基づき、アクセントを含めた詳細な尤度を計算するようにしてもよい。
特定発話区間検出部21は、ステップS505にて計算した尤度に対するしきい値処理により、特定発話区間候補の中から特定発話区間を検出する(ステップS506)。このステップS506の処理は、図3に示したステップS306の処理と同様である。
特定発話区間検出部21は、ステップS506にて検出した特定発話区間を示す区間情報、ステップS502にて求めたN個のパスのうちのいずれかのパス(N個のパスから選択した1個のパス(例えば最適パス))、及びステップS501にて入力した対談音声信号を話者分離計算部22に出力し、特定発話区間のテキスト(図6の例では「hai」のテキスト文章)等を認識統合部30に出力する(ステップS507)。
このように、実施例2によれば、対談音声信号の確率が高いN個のパスを用いて、特定発話区間を検出することができる。また、実施例1では、特定発話区間を検出するために1個のパスだけを用いるので、特定発話区間の検出精度よりも検出時間を優先する。これに対し、実施例2では、N個のパスを用いるようにしたから、特定発話区間の音声信号に、特定話者による特定発話の音声信号に加え主音声の信号が含まれており、これらが混合している場合には、実施例2の方が実施例1よりも、特定発話区間を精度高く検出することができる。
〔話者分離計算部22〕
図1に戻って、検出除去部20の話者分離計算部22は、特定発話区間検出部21から特定発話区間の情報等を入力し、特定発話区間の音声信号について、学習部10の記憶部13に格納された分離用モデル16を用いて推定スペクトルを生成すると共に、対談音声信号から特定話者による特定発話の音声信号を周波数領域において分離して主音声スペクトルを生成し、主音声スペクトルを認識統合部30に出力する。
図7は、話者分離計算部22の処理を示すフローチャートである。まず、話者分離計算部22は、特定発話区間検出部21から特定発話区間の情報、最適パス及び対談音声信号を入力する(ステップS701)。尚、話者分離計算部22は、前記実施例1の場合、最適パスを入力し、前記実施例2の場合、N個のパスのうちのいずれかのパスを入力する。
話者分離計算部22は、検出用モデル15を用いたマッチングにて得られたアライメント結果(実施例1では最適パス、実施例2では検出区間尤度判定のパス)に従って、分離用モデル16における特定話者による特定発話のパラメータ(特徴量(FFT結果+Δ+ΔΔ))に基づいて、特定発話区間のフレーム毎に、特定発話の推定スペクトルを生成する(ステップS702)。
ここで、特定発話区間は、特定話者による特定発話の音声信号が含まれる区間であり、この区間の音声信号には、特定話者による特定発話の音声信号に加え、主音声信号が含まれることがあり得る。つまり、特定発話区間は、特定話者による特定発話の音声信号と主音声信号とが含まれることがあり得るオーバーラップ区間であるといえる。ステップS702において、分離用モデル16を用いることにより、特定話者による特定発話の音声信号の推定スペクトルがフレーム毎に生成される。
話者分離計算部22は、対談音声信号をFFTし、フレーム毎に、周波数成分のビンに細かく分割したスペクトル(入力音声スペクトル)を生成する(ステップS703)。そして、話者分離計算部22は、ステップS702にて生成した推定スペクトルのパワー(振幅)を、音声認識装置1が実際に入力した対談音声信号のパワーの50%になるように(対談音声信号のパワーの平均になるように)調整する(ステップS704)。
話者分離計算部22は、ビン毎に、ステップS704にてパワーを調整した推定スペクトル(特定発話区間における特定話者による特定発話の推定スペクトル)と、ステップS703にて生成した入力音声スペクトルのうちの特定発話区間の入力音声スペクトルとを比較する(ステップS705)。
話者分離計算部22は、ステップS705において、推定スペクトルのパワーが入力音声スペクトルのパワー以上であると判定した場合(ステップS705:≧)、当該ビンの重みを0または0に近い所定値に設定する(ステップS706)。一方、話者分離計算部22は、ステップS705において、推定スペクトルのパワーが入力音声スペクトルのパワーよりも小さいと判定した場合(ステップS705:<)、当該ビンの重みを1に設定する(ステップS707)。これにより、特定発話区間の各フレームについて、ビン毎の重みが設定される。
話者分離計算部22は、ステップS706またはステップS707から移行して、ステップS703にて生成した対談音声信号の音声信号スペクトルのうちの特定発話区間の音声信号スペクトルに対し、ステップS706及びステップS707にて設定した重みを乗算する(ステップS708)。これにより、対談音声信号から、特定話者による特定発話の音声信号が除去され、特定話者による特定発話の音声信号を分離した対談音声信号を得ることができる。
話者分離計算部22は、対談音声信号の音声信号スペクトルのうちの特定発話区間以外の区間の音声信号スペクトルと、ステップS708にて乗算後の特定発話区間の音声信号スペクトルとを合わせた主音声スペクトルを生成し、主音声スペクトルを認識統合部30に出力する(ステップS709)。これにより、対談音声信号から特定話者による特定発話の音声信号が周波数領域において分離され、話者分離後の主音声スペクトルが出力される。
〔認識統合部30〕
次に、図1に示した音声認識装置1の認識統合部30について説明する。図1を参照して、認識統合部30は、言語モデル35及び音響モデル36が格納された記憶部31、音響特徴量計算部32、主音声認識部33、並びに統合部34を備えている。
音響特徴量計算部32は、検出除去部20の話者分離計算部22から話者分離後の主音声スペクトルを入力し、主音声スペクトルに基づいて、主音声の特徴量であるMFCCを計算する。そして、音響特徴量計算部32は、主音声のMFCCを主音声認識部33に出力する。
主音声認識部33は、音響特徴量計算部32から主音声のMFCCを入力し、記憶部31に格納された言語モデル35及び音響モデル36を用いて、主音声のMFCCに基づいて最尤となる系列を探索することで、主音声の音声認識を行い、主音声認識結果のテキストを生成する。そして、主音声認識部33は、主音声認識結果のテキスト等を統合部34に出力する。
記憶部31に格納された言語モデル35は、音素の並び方を規定した任意の文字列について、それが日本語文等である確率が付与された確率モデル、すなわち日本語文等の類似度を確率密度分布で表した確率モデルであり、言語的な特徴量が格納されている。また、記憶部31に格納された音響モデル36は、音素がそれぞれどのような周波数特性を持っているかを表した確率モデル、すなわち音声信号の類似度を確率密度分布で表した確率モデルであり、各音素の特徴量(例えばMFCC)に基づいて学習されたモデルである。
〔統合部34〕
統合部34は、主音声認識部33から主音声認識結果のテキスト(主音声のテキスト)等を入力すると共に、検出除去部20の特定発話区間検出部21から特定発話区間のテキスト(特定話者による特定発話のテキスト)等を入力する。そして、統合部34は、両テキストの前後配置を考慮して統合する(両テキストを合成する)ことで、特定話者による特定発話を主音声内の適切な箇所に挿入したテキストを生成し、対談音声認識結果のテキストとして出力する。これにより、特定話者による相づち等の特定発話が主音声内の適切な箇所に挿入されたテキストの文章が生成され出力される。
例えば、統合部34は、主音声認識部33から、主音声認識結果のテキストに加え、その時間情報も入力すると共に、特定発話区間検出部21から、特定発話区間のテキストに加え、特定発話区間検出部21により検出された特定発話区間における、特定話者による相づち等の特定発話が開始された時間(特定発話開始時間)の情報を入力する。この場合、主音声認識部33は、主音声認識結果のテキストを生成する際に、テキストを構成する音素系列について時間情報を生成する。また、特定発話区間検出部21は、特定発話区間を検出する際に、特定話者による相づち等の特定発話が開始された時間(特定発話開始時間)を検出する。
そして、統合部34は、主音声認識結果のテキストに含まれる単語の境界を検出すると共に、その単語境界の時間を検出し、単語境界の時間と特定発話開始時間とを比較することで、単語境界の時間のタイミングと特定発話開始時間のタイミングとが最も近い単語境界を特定し、特定した単語境界に特定発話区間のテキストを挿入する。これにより、特定話者による相づち等の特定発話が、主音声内の単語境界に挿入される。
尚、統合部34は、特定話者による相づち等の特定発話が挿入される箇所が事前学習された言語モデルを用いて、特定話者による特定発話を主音声内の適切な箇所に挿入し、対談音声認識結果のテキストを生成するようにしてもよい。具体的には、学習部10のモデル学習部12は、主音声の学習データ(字幕データ)等の会話に合わせて特定話者による相づち等の特定発話が適切な位置に挿入されている音声資源データ14を用いて、主音声の学習データ(字幕データ)等の会話の中で、特定話者による特定発話が挿入された箇所を学習した特定話者・特定発話モデルである言語モデルを学習する。例えば、特定発話が「です。」「ます。」「ました。」「なんです。」等の後に挿入されている場合は、特定発話が文末に挿入されていることを学習した言語モデルが生成される。この言語モデルを用いることにより、主音声内で特定発話が挿入される箇所を事前に把握することができる。
そして、認識統合部30の統合部34は、検出除去部20の話者分離計算部22により特定話者による特定発話が除去されている場合に、この言語モデルを用いて、主音声認識部33から入力した主音声認識結果のテキストに、特定発話区間検出部21から入力した特定発話区間のテキストを挿入する箇所を特定し、特定した箇所に特定発話区間のテキストを挿入し、対談音声認識結果のテキストを生成する。前述の例では、統合部34は、主音声認識結果のテキスト「・・です。・・・」のうち「・・です。」の後に、特定発話区間のテキストを挿入する。
ここで、統合部34は、検出除去部20の話者分離計算部22により特定話者による特定発話が除去されている場合であっても、主音声認識結果のテキストに特定発話区間のテキストを挿入する箇所を特定することができないときには、特定発話区間のテキストを挿入する処理は行わない。
以上のように、本発明の実施形態の音声認識装置1によれば、検出除去部20の特定発話区間検出部21は、音響モデル36及び検出用モデル15(予め設定された特定話者による特定発話について、MFCC+Δ+ΔΔを特徴量として学習されたHMMまたはDNN等のモデル)を用いて、複数話者によるシングルチャンネルの混合音声である対談音声信号と特定話者による特定発話の音声信号とのマッチングを行い、対談音声信号から、特定話者による特定発話がされた特定発話区間を検出するようにした。そして、話者分離計算部22は、特定発話区間検出部21により検出された特定発話区間の音声信号について、分離用モデル16(予め設定された特定話者による特定発話について、FFT結果+Δ+ΔΔを特徴量として学習されたHMMまたはDNN等のモデル)を用いて推定スペクトルを生成すると共に、対談音声信号から特定話者による特定発話の音声信号を周波数領域において分離した主音声スペクトルを生成するようにした。
これにより、特定話者による相づち等の特定発話は、主音声とは独立して認識され、複数話者のシングルチャンネルの混合音声から、特定話者による相づち等の音声を分離した主音声を得ることができ、主音声の認識精度を向上させることができる。つまり、対談番組等で複数話者が同時に発話している場合に、主音声の認識精度の劣化を改善し、音声認識の誤りを低減することができる。
また、本発明の実施形態の音声認識装置1によれば、認識統合部30の音響特徴量計算部32は、検出除去部20の話者分離計算部22により生成された話者分離後の主音声スペクトルに基づいて、主音声の特徴量であるMFCCを計算し、主音声認識部33は、言語モデル35及び音響モデル36を用いて、主音声のMFCCに基づいて最尤となる音素系列を探索することで、主音声の音声認識を行い、主音声認識結果のテキストを生成するようにした。そして、統合部34は、主音声認識結果のテキストと特定発話区間のテキストとの前後配置を考慮して統合することで、特定話者による特定発話を主音声内の適切な箇所に挿入したテキストを生成するようにした。
これにより、対談音声信号から、字幕等で利用する書き起こしのテキストであって、相づち等が適切な箇所に挿入されたテキストを生成することができる。
尚、本発明の実施形態による音声認識装置1のハードウェア構成としては、通常のコンピュータを使用することができる。音声認識装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。音声認識装置1に備えた学習部10のモデル学習部12、検出除去部20の特定発話区間検出部21及び話者分離計算部22、並びに、認識統合部30の音響特徴量計算部32、主音声認識部33及び統合部34の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
1,100 音声認識装置
10 学習部
11,13,31 記憶部
12 モデル学習部
14 音声資源データ
15 検出用モデル
16 分離用モデル
20 検出除去部
21 特定発話区間検出部
22 話者分離計算部
30 認識統合部
32 音響特徴量計算部
33 主音声認識部
34 統合部
35 言語モデル
36 音響モデル
101,102 マイクロフォン
103 周波数分析部
104 到達位相差・到達レベル差算出部
105 判定部
106 信号合成部

Claims (7)

  1. 複数話者のシングルチャンネルの混合音声から特定話者による特定発話を分離し、前記特定発話が分離された主音声を認識する音声認識装置であって、
    予め収録された前記特定話者による前記特定発話の音声信号を周波数分析して特徴量を計算し、前記特定発話の音声信号の特徴量に基づいて発話モデルを学習するモデル学習部と、
    前記混合音声の信号を周波数分析して特徴量を計算し、前記混合音声の信号の特徴量と前記発話モデルにおける前記特定発話の音声信号の特徴量とに基づいて、前記混合音声の信号と前記特定発話の音声信号とのマッチングを行い、前記混合音声から、前記特定発話の音声信号を含む特定発話区間を検出する特定発話区間検出部と、
    前記発話モデルを用いて、前記特定発話区間検出部により検出された特定発話区間における前記特定発話の音声信号の推定スペクトルを生成すると共に、前記混合音声の信号を周波数分析してスペクトルを生成し、前記特定発話区間における前記特定発話の音声信号の推定スペクトルと、前記混合音声のうち前記特定発話区間の音声信号のスペクトルとに基づいて、前記混合音声の信号から前記特定発話の音声信号を周波数領域において分離し、前記特定発話が分離された主音声信号のスペクトルを生成する話者分離計算部と、を備え、
    前記話者分離計算部により生成された主音声信号のスペクトルに基づいて、前記主音声を認識することを特徴とする音声認識装置。
  2. 請求項1に記載の音声認識装置において、
    前記特定発話区間検出部は、
    それぞれの音素の特徴量に基づいて学習された音響モデル及び前記モデル学習部により学習された発話モデルを用いて、前記混合音声と前記音素との間の確率を計算し、前記確率の最も高い最適パスを求め、
    前記最適パス内に前記特定発話のパスが存在する時間区間を特定発話区間候補とし、前記混合音声の信号から前記特定発話区間候補の音声信号を抽出し、
    前記モデル学習部により学習された発話モデルを用いて、前記特定発話区間候補の音声信号の特徴量に基づき、前記特定発話区間候補の音声信号の尤度を計算し、
    前記特定発話区間候補の音声信号の尤度に対するしきい値処理により、前記特定発話区間候補を前記特定発話区間として検出する、ことを特徴とする音声認識装置。
  3. 請求項1に記載の音声認識装置において、
    前記特定発話区間検出部は、
    それぞれの音素の特徴量に基づいて学習された音響モデルを用いて、前記混合音声と前記音素との間の確率を計算し、前記確率の高い音素列からなるパスを複数求め、
    前記混合音声の始端から終端までの間の所定区間毎に、前記複数のパスについて前記特定発話が現れる頻度を計算し、
    前記所定区間毎の頻度に対するしきい値処理により、前記所定区間を特定発話区間候補とし、前記混合音声の信号から前記特定発話区間候補の音声信号を抽出し、
    前記モデル学習部により学習された発話モデルを用いて、前記特定発話区間候補の音声信号の特徴量に基づき、前記特定発話区間候補の音声信号の尤度を計算し、
    前記特定発話区間候補の音声信号の尤度に対するしきい値処理により、前記特定発話区間候補を前記特定発話区間として検出する、ことを特徴とする音声認識装置。
  4. 請求項1から3までのいずれか一項に記載の音声認識装置において、
    前記話者分離計算部は、
    前記特定発話区間における前記特定発話の音声信号の推定スペクトルと前記混合音声のうち前記特定発話区間の音声信号のスペクトルとをビン毎に比較し、
    前記特定発話区間における前記特定発話の音声信号の推定スペクトルにおけるパワーが前記特定発話区間の音声信号のスペクトルにおけるパワー以上であると判定した場合、前記ビンの重みを0または0に近い所定値に設定し、前記特定発話区間における前記特定発話の音声信号の推定スペクトルにおけるパワーが前記特定発話区間の音声信号のスペクトルにおけるパワーよりも小さいと判定した場合、前記ビンの重みを1に設定し、
    前記特定発話区間の音声信号のスペクトルに対し、前記ビン毎に設定した重みを乗算することで、前記混合音声の信号から前記特定発話の音声信号を周波数領域において分離し、前記特定発話が分離された主音声信号のスペクトルを生成する、ことを特徴とする音声認識装置。
  5. 請求項1から4までのいずれか一項に記載の音声認識装置において、
    さらに、前記話者分離計算部により生成された主音声信号のスペクトルに基づいて、前記主音声を認識して前記主音声の文字列を生成し、前記主音声の文字列に含まれる単語の境界を検出し、
    前記特定発話区間検出部により検出された特定発話区間における特定発話の文字列を、前記主音声の文字列に含まれる単語の境界に挿入することで、前記主音声の文字列と前記特定発話の文字列とを統合する認識統合部を備えたことを特徴とする音声認識装置。
  6. 請求項1から5までのいずれか一項に記載の音声認識装置において、
    前記モデル学習部は、
    前記特定発話の音声信号をFFTし、前記FFTの結果からMFCC(メル周波数ケプストラム係数)を計算し、前記MFCCを含む前記特定発話の音声信号の特徴量に基づいて検出用モデルを生成すると共に、前記FFTの結果を含む前記特定発話の音声信号の特徴量に基づいて分離用モデルを生成し、
    前記特定発話区間検出部は、
    前記モデル学習部により生成された検出用モデルを用いて、前記特定発話の音声信号を含む特定発話区間を検出し、
    前記話者分離計算部は、
    前記モデル学習部により生成された分離用モデルを用いて、前記特定発話が分離された主音声信号のスペクトルを生成する、ことを特徴とする音声認識装置。
  7. コンピュータを、請求項1から6までのいずれか一項に記載の音声認識装置として機能させるためのプログラム。
JP2014166016A 2014-08-18 2014-08-18 音声認識装置及びプログラム Active JP6487650B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014166016A JP6487650B2 (ja) 2014-08-18 2014-08-18 音声認識装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014166016A JP6487650B2 (ja) 2014-08-18 2014-08-18 音声認識装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2016042152A JP2016042152A (ja) 2016-03-31
JP6487650B2 true JP6487650B2 (ja) 2019-03-20

Family

ID=55591926

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014166016A Active JP6487650B2 (ja) 2014-08-18 2014-08-18 音声認識装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6487650B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6677614B2 (ja) 2016-09-16 2020-04-08 株式会社東芝 会議支援システム、会議支援方法及びプログラム
WO2019079972A1 (zh) * 2017-10-24 2019-05-02 深圳和而泰智能控制股份有限公司 特定声音识别方法、设备和存储介质
US10529349B2 (en) * 2018-04-16 2020-01-07 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for end-to-end speech separation with unfolded iterative phase reconstruction
CN111508498B (zh) * 2020-04-09 2024-01-30 携程计算机技术(上海)有限公司 对话式语音识别方法、系统、电子设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4322785B2 (ja) * 2004-11-24 2009-09-02 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
WO2006128107A2 (en) * 2005-05-27 2006-11-30 Audience, Inc. Systems and methods for audio signal analysis and modification
JP2009086132A (ja) * 2007-09-28 2009-04-23 Pioneer Electronic Corp 音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識装置を備えた電子機器、音声認識方法、音声認識プログラム、および記録媒体
JP2011081324A (ja) * 2009-10-09 2011-04-21 National Institute Of Advanced Industrial Science & Technology ピッチ・クラスター・マップを用いた音声認識方法
JP5988077B2 (ja) * 2012-03-02 2016-09-07 国立研究開発法人情報通信研究機構 発話区間検出装置及び発話区間検出のためのコンピュータプログラム

Also Published As

Publication number Publication date
JP2016042152A (ja) 2016-03-31

Similar Documents

Publication Publication Date Title
US10923111B1 (en) Speech detection and speech recognition
US7664643B2 (en) System and method for speech separation and multi-talker speech recognition
JP6261043B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP6501259B2 (ja) 音声処理装置及び音声処理方法
KR101616112B1 (ko) 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법
JP6487650B2 (ja) 音声認識装置及びプログラム
JP6985221B2 (ja) 音声認識装置及び音声認識方法
JP5385876B2 (ja) 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
JP2007240589A (ja) 音声認識信頼度推定装置、その方法、およびプログラム
JP4791857B2 (ja) 発話区間検出装置及び発話区間検出プログラム
JP4700522B2 (ja) 音声認識装置及び音声認識プログラム
KR101023211B1 (ko) 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법
JP5296455B2 (ja) 話者識別装置、及びコンピュータプログラム
KR100391123B1 (ko) 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템
WO2020195924A1 (ja) 信号処理装置および方法、並びにプログラム
JP7222828B2 (ja) 音声認識装置、音声認識方法及び記憶媒体
JP6183147B2 (ja) 情報処理装置、プログラム、及び方法
JP6599408B2 (ja) 音響信号処理装置、方法及びプログラム
JP5496945B2 (ja) 話者分類装置、話者分類方法、プログラム
JP6653687B2 (ja) 音響信号処理装置、方法及びプログラム
JP4962930B2 (ja) 発音評定装置、およびプログラム
KR20210081166A (ko) 다국어 음성 환경에서의 언어 식별 장치 및 방법
JP2019028301A (ja) 音響信号処理装置、方法及びプログラム
JP5066668B2 (ja) 音声認識装置、およびプログラム
JP3457578B2 (ja) 音声合成を用いた音声認識装置および音声認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170627

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180815

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190222

R150 Certificate of patent or registration of utility model

Ref document number: 6487650

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250