JP2016006504A - 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム - Google Patents

音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム Download PDF

Info

Publication number
JP2016006504A
JP2016006504A JP2015105939A JP2015105939A JP2016006504A JP 2016006504 A JP2016006504 A JP 2016006504A JP 2015105939 A JP2015105939 A JP 2015105939A JP 2015105939 A JP2015105939 A JP 2015105939A JP 2016006504 A JP2016006504 A JP 2016006504A
Authority
JP
Japan
Prior art keywords
audio data
segment
model
similarity
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015105939A
Other languages
English (en)
Other versions
JP6596924B2 (ja
Inventor
孝文 越仲
Takafumi Koshinaka
孝文 越仲
鈴木 隆之
Takayuki Suzuki
隆之 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2015105939A priority Critical patent/JP6596924B2/ja
Priority to US14/722,455 priority patent/US20150348571A1/en
Publication of JP2016006504A publication Critical patent/JP2016006504A/ja
Application granted granted Critical
Publication of JP6596924B2 publication Critical patent/JP6596924B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数の音声データに関する類似度を、効率的かつ高精度に算出することができる。
【解決手段】音声データ処理装置4は、第1の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出するセグメント抽出部40と、クラスタリングによって係るセグメントをクラスタに分類し、そのクラスタごとにセグメントのモデルを生成するセグメントモデル生成部41と、係るセグメントのモデルと第二の音声データを用いて、第一の音声データと第二の音声データとの間の類似度を計算する類似度計算部42と、を備える。
【選択図】 図5

Description

本願発明は、複数の音声データの間における類似度を算出する音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラムに関する。
近年、音声認識機能を搭載した電子機器が増加し、様々な場面において、音声認識機能が利用されている。これにより、精度の高い音声認識を効率よく行うことを実現する技術への期待が高まってきている。
このような技術に関連する技術として、特許文献1には、HMM(Hidden Markov Model)よりも少ないモデルパラメータ数で確率的セグメントモデルを生成し、当該確率的セグメントモデルに基づいて生成された単語モデルを用いて音素認識することにより、音素認識率を改善した装置が開示されている。
また、特許文献2には、音声認識機能を利用する利用者に、誤認識となる原因を、例えば人間が直感的に理解し易い要因によって知らせることができるようにした装置が開示されている。この装置は、入力された音声の特徴量に基づいて複数の誤認識の要因に関する特徴量を求め、要因毎に係る特徴量の関する標準モデルからのずれの度合いを算出する。そして、この装置は、最もずれの度合いが大きい要因を検出して、誤認識となる要因として出力する。
さらに、特許文献3には、音声認識に関する適応学習によって高精度の音素モデルを得られるように、類似する音素モデルを適切にクラスタリングすることができるようにした装置が開示されている。この装置は、学習用の音声データを少量しか利用できない任意の音素モデルに対して、学習用の音声データを大量に利用できる1つ以上の音素モデルが必ず同じクラスタに属するという制約を満たすように、音素モデルをクラスタリングする。
また、音声認識機能に関係して、複数の音声データセット(音声情報)間の類似度を算出する一般的な音声データ処理装置の詳細が、非特許文献1に開示されている。この音声データ処理装置は、複数の音声データセット間の類似度を計算することにより、それらの音声データセットが同一の話者から発せられたか否かを判定する話者照合を行う装置である。
係る一般的な音声データ処理装置の構成を示すブロック図を図7に示す。図7に示すように、この音声データ処理装置5は、音声データ入力部51と、セグメント整合部52と、音声モデル記憶部53と、類似度計算部54と、音声データ記憶部55と、フレームモデル生成部56と、フレームモデル記憶部57と、音声データ変換部58と、を備えている。音声データ処理装置5は、音声データ入力部51が入力音声511をデジタル処理することにより生成した入力音声データ510を、音声データ記憶部55に記憶された比較対象音声データ550と比較して、入力音声データ510と比較対象音声データ550との間の類似度を算出する。音声データ処理装置5は、以下に示す通りに動作する。
フレームモデル生成部56は、音声データ記憶部55に記憶された比較対象音声データ550を、数十ミリ秒程度の短時間のフレームに分割し、係るフレームの統計的な性質を表現したモデルを生成する。具体的なフレームモデルの形態としては、例えば、いくつかのガウス分布モデルの集合体であるガウス混合モデル(Gaussian Mixture Model;以降GMMと称する)が用いられる。フレームモデル生成部56は、最尤推定などの方法に基づき、GMMを規定するパラメータを決定する。パラメータがすべて決定されたGMMは、フレームモデル記憶部57に記憶される。
音声データ変換部58は、比較対象音声データ550を分割した各フレームと、フレームモデル記憶部57に記憶されたフレームモデルに関する各ガウス分布モデルとの類似度を計算し、各々のフレームを類似度最大のガウス分布モデルに変換する。これにより、比較対象音声データ550は、その長さに等しいガウス分布モデル系列に変換される。こうして得られたガウス分布モデル系列を、以降、図7に関する説明において、音声モデルと称する。この音声モデルは、音声モデル記憶部53に記憶される。
音声データ入力部51は、入力音声511をデジタル処理して入力音声データ510を生成し、生成した入力音声データ510を、セグメント整合部52へ入力する。
セグメント整合部52は、入力音声データ510の一部を切り出したセグメントと、音声モデル記憶部53に記憶された音声モデルの一部を切り出したセグメントとの間の類似度を計算して、両者の対応関係を検出する。例えば、入力音声データ510の時間長をTD、音声モデルの時間長をTMとした場合を考える。セグメント整合部52は、入力音声データ510について、0≦t1<t2≦TDを満たす時間t1及びt2により示される、全てのセグメント(t1,t2)を抽出する。セグメント整合部52は、音声モデルについて、0≦t3<t4≦TMを満たす時間t3及びt4により示される、全てのセグメント(t3,t4)を抽出する。セグメント整合部52は、抽出されたそれらのセグメント(t1,t2)とセグメント(t3,t4)とからなるセグメント対の全ての組合せについて類似度を計算し、係る類似度が大きく、かつなるべく長いセグメント対を求める。そして、セグメント整合部52は、音声モデルのすべての時刻が、入力音声データ510のいずれかの部分に対応付くように、セグメント間の対応関係を求める。
類似度計算部54は、セグメント整合部52が求めたセグメント間の対応関係に基づき、すべてのセグメント対の類似度を総計して、その総計を類似度として出力する。
尚、比較対象音声データ550、及び、入力音声データ510は、フレームごとの処理によって得られる特徴ベクトル系列に変換して用いられる場合が多い。特徴ベクトルとしては、メルケプストラム係数(Mel−Frequency Cepstrum Coefficient;以降MFCCと称する)などがよく知られている。
特開平10-149189号公報 特開2004-325635号公報 特開2009-103962号公報
A. Jafari, R. Srinivasan, D. Crookes, J. Ming, "A Longest Matching Segment Approach for Text-Independent Speaker Recognition," Proceedings of Interspeech 2010, Sep. 2010. Scott Shaobing Chen and P. S. Gopalakrishnan, "Speaker, Environment And Channel Change Detection And Clustering Via The Bayesian Information Criterion," Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop, Feb. 1998.
図7に示した一般的な音声データ処理装置5は、あらゆるセグメント対の組み合わせに関して、類似度を算出する計算を行う必要がある。入力音声データ510の時間長がTDである場合、入力音声データ510から抽出可能なセグメントの数は、TDの2乗のオーダーとなる。同様に、音声モデルの時間長がTMである場合、係る音声モデルから抽出可能なセグメントの数は、TMの2乗のオーダーとなる。したがって、係る類似度を計算する組み合わせの数は、(TDの2乗)x(TMの2乗)(「x」は積算を表す)のオーダーとなる。
例えば、時間長が1分である入力音声データ510と、時間長が1分である音声モデルとの間の類似度を計算する場合を考える。この場合、入力音声データ510及び音声モデルに関するフレーム数は、1フレームを10ミリ秒とした場合、6000程度となる。したがって、類似度を計算する組み合わせの数は、6000の4乗、すなわち13億のオーダーとなる。これだけの数の組み合わせに関して、音声データ処理装置5が現実的な時間内に計算を完了することは困難である。
また、時間長が様々な値であるセグメント同士に関して類似度を計算した場合、本来、類似度が低いはずのセグメント同士が、偶然高い類似度を示すことがある。特に、音声データにノイズが重畳する場合、あるいは、データの時間長が短い場合において、このような現象が発生することが多い。したがって、このような現象が多く発生した場合、音声データ処理装置5が算出した類似度の精度が低下する。
特許文献1乃至3が開示した技術は、このような問題を解決することができない。本願発明の主たる目的は、係る問題を解決可能な、音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラムを提供することである。
本願発明の一態様に係る音声データ処理装置は、第一の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出するセグメント抽出手段と、クラスタリングによって前記セグメントをクラスタに分類し、前記クラスタごとにセグメントのモデルを生成するセグメントモデル生成手段と、前記セグメントのモデルと第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する類似度計算手段と、を備える。
上記目的を達成する他の見地において、本願発明の一態様に係る音声データ処理方法は、情報処理装置によって、第一の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出し、クラスタリングによって前記セグメントをクラスタに分類し、前記クラスタごとにセグメントのモデルを生成し、前記セグメントのモデルと第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する。
また、上記目的を達成する更なる見地において、本願発明の一態様に係る音声データ処理プログラムは、第一の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出するセグメント抽出処理と、クラスタリングによって前記セグメントをクラスタに分類し、前記クラスタごとにセグメントのモデルを生成するセグメントモデル生成処理と、前記セグメントのモデルと第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する類似度計算処理と、をコンピュータに実行させる。
更に、本発明の他の見地は、係る音声データ処理プログラム(コンピュータプログラム)が格納された、コンピュータ読み取り可能な、不揮発性の記憶媒体によっても実現可能である。
本願発明は、複数の音声データに関する類似度を、効率的かつ高精度に算出することができる。
本願発明の第1の実施形態に係る音声データ処理装置の構成を示すブロック図である。 本願発明の第1の実施形態に係る音声データ処理装置の動作を示すフローチャートである。 本願発明の第2の実施形態に係る音声データ処理装置の構成を示すブロック図である。 本願発明の第3の実施形態に係る音声データ処理装置の構成を示すブロック図である。 本願発明の第4の実施形態に係る音声データ処理装置の構成を示すブロック図である。 本願発明の各実施形態に係る音声データ処理装置を実行可能な情報処理装置の構成を示すブロック図である。 一般的な音声データ処理装置の構成を示すブロック図である。
以下、本願発明の実施の形態について図面を参照して詳細に説明する。
<第1の実施形態>
図1は第1の実施形態の音声データ処理装置1の構成を概念的に示すブロック図である。
図1に示すとおり、音声データ処理装置1は、セグメント抽出部10、セグメントモデル生成部11、類似度計算部12、音声データ記憶部13、及び、音声データ入力部14を備えている。
セグメント抽出部10、セグメントモデル生成部11、及び、類似度計算部12は、電子回路の場合もあれば、コンピュータプログラムとそのコンピュータプログラムに従って動作するプロセッサである場合もある。音声データ記憶部13は、電子回路、あるいは、コンピュータプログラムとそのコンピュータプログラムに従って動作するプロセッサによりアクセス制御される、磁気ディスクあるいは電子ディスク等の電子デバイスである。
音声データ入力部14は、マイクロフォン等の音声入力デバイスを備えている。音声データ入力部14は、音声データ処理装置1を使用するユーザから発せられた入力音声141をデジタル処理することにより、入力音声データ140(第2の音声データ)を生成する。音声データ入力部14は、生成した入力音声データ140を、類似度計算部12へ入力する。
音声データ記憶部13は、比較対象音声データ130(第1の音声データ)を記憶している。比較対象音声データ130は、音声データ処理装置1が、入力音声データ140との間の類似度を算出する対象とする音声データである。
セグメント抽出部10は、音声データ記憶部13から比較対象音声データ130を読み出して、比較対象音声データ130をセグメントに分割して、そのセグメントを抽出する。セグメント抽出部10が比較対象音声データ130をセグメントに分割する方法には、いくつかある。
第1の方法としては、セグメント抽出部10は、比較対象音声データ130を所定の時間間隔により1以上のセグメントに分割する。係る所定の時間間隔としては、音声に含まれる音素あるいは音節に関する時間スケール(数十乃至100ミリ秒程度)に相当する時間間隔を用いることができる。音素あるいは音節は、音声のデータ構造を表す情報として扱うことができる。係る所定の時間間隔は、音声のデータ構造を表す他の時間間隔でもよい。
第2の方法としては、セグメント抽出部10は、いわゆる変化点検出を行うことにより、比較対象音声データ130が示す値に関する単位時間当たりの変化量により表されるデータ構造に基づき、係る変化量が大きい時刻において、比較対象音声データ130を1以上のセグメントに分割する。この場合、セグメント抽出部10は、時系列の特徴ベクトル系列(x,x,・・・,x)(Tは比較対象音声データ130の時間長)として表現された比較対象音声データ130に関して、隣接する特徴ベクトル間の差分のノルム|xt+1−x|(tは0≦t≦Tを満たすいずれかの時間)が示す値を算出する(「||」は、絶対値(即ち大きさ)を表す)。そして、セグメント抽出部10は、係るノルムが示す値が閾値以上である場合に、それらの隣接する特徴ベクトル間において、比較対象音声データ130を分割する。
第3の方法としては、セグメント抽出部10は、規範となる所定の部分的な音声モデルであるセグメントのモデル(セグメント音声モデル)により表される音声のデータ構造を基準として、比較対象音声データ130を1以上のセグメントに分割する。この場合、規範となる所定のセグメント音声モデル(基準モデル)としては、例えば、HMM等の時系列データの統計モデルがある。そして、セグメント抽出部10は、比較対象音声データ130を表す特徴ベクトル系列(x,x,・・・,x)に対するHMMに関する最適アラインメントを算出する。すなわち、セグメント抽出部10は、m個(mは1以上の整数)のHMM(λ,λ,・・・,λ)をセグメント音声モデルとして、数1が示す数式により算出される値が最大となるような、時間軸上の分割点(t(=0),t,・・・,ts−1,t(=T))、及び、セグメント音声モデル系列(m,・・・,ms−1,m)を、最適アラインメントとして算出する。最適アラインメントは、数1において数式ΣlogPの値が最大となるときの、音声モデルを表すパラメータ群の値のことである。セグメント抽出部10は、音声認識の技術領域において周知である動的計画法に基づく探索アルゴリズム(ワンパスDP(Dynamic Programming)法など)を使用することにより、係る最適アラインメントを算出する。尚、数1において、Pは、セグメント音声モデルにおける、特徴ベクトル系列に関する確率分布を示す。また、数1において、Sは、時系列データの統計モデルであるセグメント音声モデルの状態数を示す。
Figure 2016006504
セグメントモデル生成部11は、セグメント抽出部10によって分割されたセグメントに対して、クラスタリングを行う。すなわち、セグメントモデル生成部11は、特性が類似したセグメントをまとめることにより、セグメントを1以上のクラスタに分類する。さらに、セグメントモデル生成部11は、各クラスタに含まれる特性が類似したセグメントを学習データとして、クラスタごとにセグメント音声モデルを生成する。係るセグメント音声モデルは、図1に示さない記憶装置に記憶されてもよい。
クラスタリングの方法としては、種々の方法が知られている。例えば、数2が示す数式が表す、セグメントやクラスタの近さ(非特許文献2参照)を、それらに含まれる特徴ベクトルの分散共分散行列を用いて算出する方法などがよく知られている。数2において、n及びnは、2つのクラスタ(またはセグメント)に含まれる特徴ベクトルの数であり、nは、n及びnの和である。また数2において、Σ及びΣは、2つのクラスタ(またはセグメント)に含まれる特徴ベクトルの分散共分散行列であり、Σは2つのクラスタ(またはセグメント)を合わせたときの特徴ベクトルの分散共分散行列である。数2が示す指標は、特徴ベクトルが正規分布に従うと仮定した場合に、2つのクラスタ(またはセグメント)を統合すべきか否かを尤度比により表したものである。セグメントモデル生成部11は、数2が示す値が所定の条件を満たす場合に、2つのクラスタ(またはセグメント)を、1つのクラスタに統合する。
Figure 2016006504
セグメントモデル生成部11は、セグメント音声モデルを生成する際に、セグメント音声モデルとして、HMMのような時系列データの統計モデルを仮定して、周知であるパラメータ推定法を適用する。例えば、最尤推定に基づくHMMに関するパラメータ推定法は、Baum−Welch法としてよく知られている。あるいは、ベイズ推定に基づくパラメータ推定方法についても、変分ベイズ法あるいはモンテ・カルロ法に基づく方法などが知られている。セグメントモデル生成部11は、セグメント音声モデルの個数、各セグメント音声モデル(HMM)の状態数、及び、混合数などに関しては、既存のモデル選択に関する手法(記述長最小基準、ベイズ情報量基準、赤池情報量基準、及び、ベイズ的な事後確率等)を使用して決定する。
なお、セグメント抽出部10は、セグメントモデル生成部11からのフィードバックを受けて、比較対象音声データ130を、セグメントに再分割してもよい。すなわち、セグメント抽出部10は、セグメントモデル生成部11が生成したセグメント音声モデルを用いて、上述したセグメント分割に関する第3の方法により、比較対象音声データ130をセグメントに再分割する。セグメントモデル生成部11は、新たに分割されたセグメントを用いて、セグメント音声モデルを生成する。セグメント抽出部10及びセグメントモデル生成部11は、このようなフィードバックによる動作を、セグメント抽出部10による比較対象音声データ130の分割が収束するまで、反復してよい。
類似度計算部12は、音声データ入力部14から入力音声データ140を受け取る。類似度計算部12はまた、セグメントモデル生成部11もしくは図1に図示しない記憶装置から、セグメント音声モデルを受け取る。類似度計算部12は、入力音声データ140とセグメント音声モデルを用いて、入力音声データ140と比較対象音声データ130との間の類似度を算出する。類似度計算部12は、例えば数1に示した数式を使用してセグメント抽出部10と同様に最適アラインメントを算出することによって、類似度を算出する。ここで、類似度計算部12は、数1に示した数式において、入力音声データ140から抽出した特徴ベクトル系列をパラメータxとして使用し、セグメントモデル生成部11から入手したセグメント音声モデルをλmとして使用する。類似度計算部12は、その際、例えば、動的計画法に基づく探索アルゴリズムを使用する。
次に図2のフローチャートを参照して、本実施形態の音声データ処理装置1の動作(処理)について詳細に説明する。
セグメント抽出部10は、音声データ記憶部13から、比較対象音声データ130を読み出す(ステップS101)。セグメント抽出部10は、比較対象音声データ130を、所定の基準に基づいて、複数のセグメントに分割して、そのセグメントを抽出する(ステップS102)。セグメントモデル生成部11は、セグメント抽出部10により分割されたセグメントのうち、特性が類似するセグメントを同一のクラスタに分類し、クラスタごとにセグメント音声モデルを生成する(ステップS103)。
セグメントモデル生成部11は、生成したセグメント音声モデルを、セグメント抽出部10へ入力する(ステップS104)。セグメント抽出部10は、セグメントモデル生成部11から入力されたセグメント音声モデルを基準として、比較対象音声データ130を、再度セグメントに分割可能か否かを確認する(ステップS105)。
再度セグメントに分割可能である場合(ステップS106でYes)、処理はステップS102へ戻る。再度セグメントに分割可能でない場合(ステップS106でNo)、セグメント抽出部10は、比較対象音声データ130を、セグメントに再分割できないことを、セグメントモデル生成部11へ通知する(ステップS107)。
セグメントモデル生成部11は、生成したセグメント音声モデルを、類似度計算部12へ入力する(ステップS109)。音声データ入力部14は、入力された入力音声141から入力音声データ140を生成して、生成した入力音声データ140を、類似度計算部12へ入力する(ステップS109)。類似度計算部12は、比較対象音声データ130と、入力音声データ140との間の類似度を算出し(ステップS110)、全体の処理は終了する。
尚、音声データ処理装置1が行う処理は、ステップS101乃至S108に係る処理と、ステップS109乃至S110に係る処理とに大別される。音声データ処理装置1は、これら2つの処理について、いずれか一方の処理の1回の実行に対して、他方の処理を複数回実行してもよい。
本実施形態に係る音声データ処理装置1は、複数の音声データに関する類似度を、効率的かつ高精度に算出することができる。その理由は、音声データ処理装置1が、以下の手順によって当該類似度を算出するからである。すなわち、
・セグメント抽出部10が比較対象音声データ130をセグメントに分割する。
・セグメントモデル生成部11が係るセグメントをクラスタリングすることによって1以上のクラスタに分割し、当該クラスタ別にセグメント音声モデルを生成する。
・類似度計算部12が係るセグメント音声モデルを使用して比較対象音声データ130と入力音声データ140との間の類似度を算出する。
図7に示す一般的な音声データ処理装置5は、比較対象音声データ550を所定の時間単位に分割したフレームを基に音声モデルを生成し、係る音声モデルを使用して、入力音声データ510と比較対象音声データ550との間の類似度を算出する。この際、音声データ処理装置5が処理する計算量は、上述した通り、非常に多くなる。また、入力音声データ510にノイズが重畳した場合などでは、音声データ処理装置5が算出した類似度の精度が低下する虞もある。
これに対して、本実施形態に係る音声データ処理装置1は、比較対象音声データ130を音声データの構造を踏まえてセグメントに分割したのち、特性が類似したセグメントを同一のクラスタに分類する。そして、音声データ処理装置1は、係るクラスタごとにセグメント音声モデルを生成し、当該セグメント音声モデルを使用して、比較対象音声データ130と入力音声データ140との間の類似度を算出する。この際、当該セグメント音声モデルの規模が小さくなるため、音声データ処理装置1が処理する計算量は、音声データ処理装置5が処理する計算量と比較して、大幅に少なくなる。したがって、音声データ処理装置1は、複数の音声情報に関する類似度を、効率的に算出することができる。
また、本実施形態に係る音声データ処理装置1が生成するセグメント音声モデルは、音声データの構造を踏まえて分割されたセグメントに基づいているため、音声データ処理装置1は、複数の音声データに関する類似度を、高精度に算出することができる。
さらに、本実施形態に係るセグメント抽出部10及びセグメントモデル生成部11は、比較対象音声データ130のセグメントへの分割、及び、セグメント音声モデルの生成に係る処理に関して反復動作を行うことができる。これにより、音声データ処理装置1は、係る類似度を、より効率的かつ高精度に算出することを実現するセグメント音声モデルを生成することができる。
<第2の実施形態>
図3は第2の実施形態の音声データ処理装置2の構成を概念的に示すブロック図である。
図3に示すとおり、音声データ処理装置2は、セグメント抽出部20、セグメントモデル生成部21、類似度計算部22、音声データ記憶部23、及び、音声データ入力部24を備えている。音声データ処理装置2は、第1の実施形態に係る音声データ処理装置1と同様の構成要素を包含している。
音声データ入力部24は、入力音声241をデジタル処理することにより、入力音声データ240を生成し、生成した入力音声データ240を、セグメント抽出部20へ入力する。
セグメント抽出部20は、音声データ記憶部23に記憶された比較対象音声データ230、及び、入力音声データ240を受け取り、それらの音声データをセグメントに分割して、そのセグメントを抽出する。すなわち、セグメント抽出部20は、第1の実施形態に係るセグメント抽出部10と比較して、比較対象音声データ230に加えて、入力音声データ240についてもセグメントに分割する。セグメント抽出部20は、第1の実施形態に係るセグメント抽出部10が行う方法と同様の方法、すなわち最適アラインメントを算出することによって、これらの音声データを、セグメントに分割する。
セグメントモデル生成部21は、セグメント抽出部20によって分割されたセグメントに対してクラスタリングを行い、1以上のクラスタに分類する。そして、セグメントモデル生成部21は、係るクラスタごとにセグメント音声モデルを生成する。係るセグメント音声モデルは、図3に図示しない記憶装置に記憶されてもよい。セグメントモデル生成部21は、第1の実施形態に係るセグメントモデル生成部11と比較して、比較対象音声データ230に加えて、入力音声データ240に関しても、セグメント音声モデルを生成する。セグメントモデル生成部21は、第1の実施形態に係るセグメントモデル生成部11が行う方法と同様の方法により、これらの音声データに関して、セグメント音声モデルを生成する。
また、セグメント抽出部20及びセグメントモデル生成部21は、第1の実施形態に係るセグメント抽出部10及びセグメントモデル生成部20と同様に、反復的な処理を行ってもよい。
類似度計算部22は、セグメントモデル生成部21から、比較対象音声データ230及び入力音声データ240、及び、これらの音声データに関するセグメント音声モデルを受け取り、これらの情報から比較対象音声データ230と入力音声データ240との間の類似度を算出する。類似度計算部22は、例えば、数3に示す数式「L−L−L」を用いて、係る類似度を算出する。
数3に示す数式において、Lは、比較対象音声データ230に関する特徴ベクトル系列(x,x,・・・,x)を用いて生成されたセグメント音声モデルλ (1)と、比較対象音声データ230との間の類似度を示す。数3に示す数式において、Lは、入力音声データ240に関する特徴ベクトル系列(y,y,・・・,y)を用いて生成されたセグメント音声モデルλ (2)と、入力音声データ240との間の類似度を示す。数3に示す数式において、Lは、比較対象音声データ230及び入力音声データ240に関する特徴ベクトル系列を用いて生成されたセグメント音声モデルλと、比較対象音声データ230及び入力音声データ240との間の類似度を示す。これらの類似度は、比較対象音声データ230及び入力音声データ240が、同一の確率分布から生起したものか否かについて、対数尤度比により表したものである。
Figure 2016006504
本実施形態に係る音声データ処理装置2は、複数の音声データ(データセット)に関する類似度を、効率的かつ高精度に算出することができる。その理由は、音声データ処理装置2が、以下の手順によって当該類似度を算出するからである。すなわち、
・セグメント抽出部20が比較対象音声データ230及び入力音声データ240をセグメントに分割する。
・セグメントモデル生成部21が係るセグメントを、比較対象音声データ230に関するクラスタと入力音声データ240に関するクラスタとにクラスタリングすることによって1以上のクラスタに分割し、当該クラスタ別にセグメント音声モデルを生成する。
・類似度計算部22が係るセグメント音声モデルを使用して比較対象音声データ230と入力音声データ240との間の類似度を算出する。
また、本実施形態に係る音声データ処理装置2は、比較対象音声データ230に加えて、入力音声データ240に関しても、セグメントへの分割処理、及び、セグメント音声モデルの合成処理を行う。これにより、音声データ処理装置2は、比較対象音声データ230と入力音声データ240に共通する部分を、双方の音声データから生成されたセグメント音声モデルを使用することにより、直接的に比較することができる。したがって、音声データ処理装置2は、係る類似度をさらに高精度に算出することができる。
<第3の実施形態>
図4は第3の実施形態の音声データ処理装置3の構成を概念的に示すブロック図である。本実施形態に係る音声データ処理装置3は、ユーザから発せられた音声が、複数の比較対象音声データのいずれと類似しているかを判定する装置である。
図4に示すとおり、音声データ処理装置3は、n個(nは2以上の整数)の音声データ記憶部33−1乃至33−n、音声データ入力部34、n個のマッチング部35−1乃至35−n、及び、比較部36を備えている。
音声データ入力部34は、入力音声341をデジタル処理することにより、入力音声データ340を生成し、生成した入力音声データ340を、マッチング部35−1乃至35−nへ入力する。
マッチング部35−1乃至35−nは、それぞれ、セグメント抽出部30−1乃至30−n、セグメントモデル生成部31−1乃至31−n、及び、類似度計算部32−1乃至32−nを備えている。セグメント抽出部30−1乃至30−nは、第1の実施形態に係るセグメント抽出部10、あるいは、第2の実施形態に係るセグメント抽出部20と同様の処理を行う。セグメントモデル生成部31−1乃至31−nは、第1の実施形態に係るセグメントモデル生成部11、あるいは、第2の実施形態に係るセグメントモデル生成部21と同様の処理を行う。類似度計算部32−1乃至32−nは、第1の実施形態に係る類似度計算部12、あるいは、第2の実施形態に係る類似度計算部22と同様の処理を行う。
マッチング部35−1乃至35−nは、それぞれ、音声データ記憶部33−1乃至33−nから、比較対象音声データ330−1乃至330−nを入手する。マッチング部35−1乃至35−nは、音声データ入力部34から入力音声データ340を入手する。マッチング部35−1乃至35−nは、それぞれ、比較対象音声データ330−1乃至330−nと入力音声データ340との間の類似度を算出し、算出した類似度を、比較対象音声データ330−1乃至330−nを識別可能な識別子とともに、比較部36へ入力する。
比較部36は、マッチング部35−1乃至35−nから入手した、比較対象音声データ330−1乃至330−nと入力音声データ340との間の類似度が示す値を比較する。そして、比較部36は、値が最も高い類似度に対応付けられる比較対象音声データを識別可能な識別子を求めて出力する。
本実施形態に係る音声データ処理装置3は、複数の音声データに関する類似度を、効率的かつ高精度に算出することができる。その理由は、音声データ処理装置3が、以下の手順によって当該類似度を算出するからである。すなわち、
・セグメント抽出部30−1乃至30−nが比較対象音声データ330−1乃至330−nをセグメントに分割する。
・セグメントモデル生成部31−1乃至31−nが係るセグメントをクラスタリングすることによって1以上のクラスタに分割し、当該クラスタ別にセグメント音声モデルを生成する。
・類似度計算部32−1乃至32−nが係るセグメント音声モデルを使用して比較対象音声データ330−1乃至330−nと入力音声データ340との間の類似度を算出する。
また、本実施形態に係る音声データ処理装置3は、複数の比較対象音声データ330−1乃至330−nと、入力音声データ340との間の類似度を算出し、係る類似度が示す値が最も高い比較対象音声データを識別可能な識別子を出力する。したがって、音声データ処理装置3は、入力音声341が、複数の比較対象音声データのいずれかと合致するかを判定する音声識別を行うことができる。
<第4の実施形態>
図5は第4の実施形態の音声データ処理装置4の構成を概念的に示すブロック図である。
本実施形態の音声データ処理装置4は、セグメント抽出部40、セグメントモデル生成部41、及び、類似度計算部42を備えている。
セグメント抽出部40は、第1の音声データを、音声データが有するデータ構造に基づいて分割して、セグメントを抽出する。
セグメントモデル生成部41は、クラスタリングによって係るセグメントをクラスタに分類し、そのクラスタごとにセグメントのモデルを生成する。
類似度計算部42は、係るセグメントのモデルと第2の音声データを用いて、第1の音声データと第2の音声データとの間の類似度を計算する。
本実施形態に係る音声データ処理装置4は、複数の音声データに関する類似度を、効率的かつ高精度に算出することができる。その理由は、音声データ処理装置4が、以下の手順によって当該類似度を算出するからである。すなわち、
・セグメント抽出部40が第1の音声情報をセグメントに分割する。
・セグメントモデル生成部41が係るセグメントをクラスタリングすることによって1以上のクラスタに分割し、当該クラスタ別にセグメント音声モデルを生成する。
・類似度計算部42が係るセグメント音声モデルを使用して第1の音声情報と第2の音声情報との間の類似度を算出する。
<ハードウェア構成例>
上述した実施形態において図1、及び、図3乃至5に示した各部は、専用のHW(HardWare)(電子回路)によって実現することができる。また、少なくとも、セグメント抽出部10、20、30−1乃至30−n、及び、40、セグメントモデル生成部11、21、31−1乃至31−n、及び、41、及び、類似度計算部12、22、32−1乃至32−n、及び、42は、ソフトウェアプログラムの機能(処理)単位(ソフトウェアモジュール)と捉えることができる。但し、これらの図面に示した各部の区分けは、説明の便宜上の構成であり、実装に際しては、様々な構成が想定され得る。この場合のハードウェア環境の一例を、図6を参照して説明する。
図6は、本発明の模範的な各実施形態に係る音声データ処理装置を実行可能な情報処理装置900(コンピュータ)の構成を例示的に説明する図である。即ち、図6は、図1、及び、図3乃至5に示した音声データ処理装置を実現可能なコンピュータ(情報処理装置)の構成であって、上述した実施形態における各機能を実現可能なハードウェア環境を表す。
図6に示した情報処理装置900は、CPU(Central_Processing_Unit)901、ROM(Read_Only_Memory)902、RAM(Random_Access_Memory)903、ハードディスク904(記憶装置)、外部装置との通信インタフェース905(Interface:以降、「I/F」と称する)、CD−ROM(Compact_Disc_Read_Only_Memory)等の記憶媒体907に格納されたデータを読み書き可能なリーダライタ908、及び、入出力インタフェース909を備え、これらの構成がバス906(通信線)を介して接続された一般的なコンピュータである。
そして、上述した実施形態を例に説明した本発明は、図6に示した情報処理装置900に対して、次の機能を実現可能なコンピュータプログラムを供給する。その機能とは、その実施形態の説明において参照したブロック構成図(図1、及び、図3乃至5)における、セグメント抽出部10、20、30−1乃至30−n、及び、40、セグメントモデル生成部11、21、31−1乃至31−n、及び、41、及び、類似度計算部12、22、32−1乃至32−n、及び、42、或いはフローチャート(図2)の機能である。本発明は、その後、そのコンピュータプログラムを、当該ハードウェアのCPU901に読み出して解釈し実行することによって達成される。また、当該装置内に供給されたコンピュータプログラムは、読み書き可能な揮発性の記憶メモリ(RAM903)またはハードディスク904等の不揮発性の記憶デバイスに格納すれば良い。
また、前記の場合において、当該ハードウェア内へのコンピュータプログラムの供給方法は、CD−ROM等の各種記憶媒体907を介して当該装置内にインストールする方法や、インターネット等の通信回線を介して外部よりダウンロードする方法等のように、現在では一般的な手順を採用することができる。そして、このような場合において、本発明は、係るコンピュータプログラムを構成するコード或いは、そのコードが格納された記憶媒体907によって構成されると捉えることができる。
以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
尚、本発明は、入力された音声を登録された複数話者の音声と比較して、入力された音声の話者を特定する話者識別装置、及び、入力された音声が登録された特定の話者のものか否かを判定する話者照合装置などに適用できる。本発明は、あるいはまた、音声から話者の感情等の状態を推定したり感情の変化を検出したりする感情認識装置、及び、音声から話者の特性(性別、年齢、性格、心身疾患など)を推測する装置などにも適用できる。
尚、上述した各実施形態の一部又は全部は、以下の付記のようにも記載されうる。しかしながら、上述した各実施形態により例示的に説明した本発明は、以下には限られない。すなわち、
(付記1)
第一の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出するセグメント抽出手段と、
クラスタリングによって前記セグメントをクラスタに分類し、前記クラスタごとにセグメントのモデルを生成するセグメントモデル生成手段と、
前記セグメントのモデルと第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する類似度計算手段と、
を備えたことを特徴とする音声データ処理装置。
(付記2)
前記セグメント抽出手段は、前記セグメントモデル生成手段が生成した前記セグメントのモデルを用いてセグメントを再抽出し、
前記セグメントモデル生成手段は、前記セグメント抽出手段が再抽出した前記セグメントを用いて前記セグメントのモデルを再生成することを特徴とする、付記1に記載の音声データ処理装置。
(付記3)
前記類似度計算手段は、前記第二の音声データに対する前記セグメントのモデルの最適アラインメントを求めることにより、前記第一の音声データと前記第二の音声データとの間の類似度を計算することを特徴とする、付記1または2に記載の音声データ処理装置。
(付記4)
前記セグメント抽出手段は、前記第一の音声データに加えて前記第二の音声データからもセグメントを抽出し、前記セグメントモデル生成手段は、前記第一の音声データおよび前記第二の音声データから抽出されたセグメントを用いてセグメントのモデルを生成し、
前記類似度計算手段は、前記セグメントのモデル、前記第一の音声データ、および、前記第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算することを特徴とする、付記1ないし3のいずれかに記載の音声データ処理装置。
(付記5)
前記セグメント抽出手段は、前記第一及び第二の音声データ、または、前記第一の音声データに対する前記セグメントのモデルの最適アラインメント、または、所定の基準モデルの最適アラインメントを求めることによりセグメントを抽出することを特徴とする、付記1ないし4のいずれかに記載の音声データ処理装置。
(付記6)
前記セグメントモデル生成手段は、前記セグメントの近さに基づいてクラスタリングを行い、さらにその結果として生ずるクラスタごとに、時系列データの統計モデルを規定するパラメータを推定することを特徴とする、付記1ないし5のいずれかに記載の音声データ処理装置。
(付記7)
比較手段をさらに備え、
前記セグメント抽出手段は、異なる複数の前記第一の音声データから、それぞれ、前記セグメントを抽出し、
前記セグメントモデル生成手段は、前記第一の音声データ別に、前記セグメントのモデルを生成し、
前記類似度計算手段は、複数の前記第一の音声データの各々と前記第二の音声データとの間の類似度を計算し、
前記比較手段は、前記類似度を比較し、所定の類似度を有する前記第一の音声データを選択することを特徴とする付記1ないし6のいずれかに記載の音声データ処理装置。
(付記8)
情報処理装置によって、
第一の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出し、
クラスタリングによって前記セグメントをクラスタに分類し、前記クラスタごとにセグメントのモデルを生成し、
前記セグメントのモデルと第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する、
音声データ処理方法。
(付記9)
第一の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出するセグメント抽出処理と、
クラスタリングによって前記セグメントをクラスタに分類し、前記クラスタごとにセグメントのモデルを生成するセグメントモデル生成処理と、
前記セグメントのモデルと第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する類似度計算処理と、
をコンピュータに実行させる音声データ処理プログラム。
(付記10)
第一の音声情報を、前記第一の音声情報の構造に応じた所定の基準に基づいて、複数のセグメントに分割して、前記セグメントを抽出するセグメント抽出手段と、
特性が類似する前記セグメントを同一のクラスタに分類し、前記クラスタ別に部分的な音声モデルであるセグメント音声モデルを生成するセグメントモデル生成手段と、
前記セグメント音声モデルと第二の音声情報とを使用して、前記所定の基準に基づいて、前記第一の音声情報と前記第二の音声情報との間の類似度を算出する類似度計算手段と、
を備える音声データ処理装置。
(付記11)
前記セグメント抽出手段は、前記セグメントモデル生成手段が生成した前記セグメント音声モデルを基準として、前記第一の音声情報を、複数の前記セグメントに再分割し、
前記セグメントモデル生成手段は、前記セグメント抽出手段が再分割した前記セグメントを用いて、前記セグメント音声モデルを再生成する、
付記10に記載の音声データ処理装置。
(付記12)
前記セグメント抽出手段は、前記第二の音声情報を、前記第二の音声情報の構造に応じた前記所定の基準に基づいて、複数の前記セグメントに分割し、
前記セグメントモデル生成手段は、前記第二の音声情報に関して、前記セグメント音声モデルを生成し、
前記類似度計算手段は、前記セグメント音声モデルと、前記第一及び第二の音声情報とを使用して、前記類似度が示す値を算出する、
付記10または11に記載の音声データ処理装置。
(付記13)
前記セグメント抽出手段は、前記第二の音声情報、あるいは、前記第一及び第二の音声情報に対する前記セグメント音声モデルに関する最適アラインメントを求めることによって、前記セグメントに分割し、
前記類似度計算手段は、前記最適アラインメントに基づき、前記類似度が示す値を算出する、
付記10乃至12のいずれかに記載の音声データ処理装置。
(付記14)
前記セグメント抽出手段は、前記第一の音声情報、あるいは、前記第一及び第二の音声情報を、所定の時系列統計モデルを基準として、前記セグメントに分割し、
前記セグメントモデル生成手段は、前記クラスタ別に、前記統計モデルを規定するパラメータ値を設定する、
付記10乃至13のいずれかに記載の音声データ処理装置。
(付記15)
前記セグメント抽出手段は、前記第一の音声情報、あるいは、前記第一及び第二の音声情報が有する1つの音素あるいは音節が、開始してから終了するまでに要する時間ごとに、前記セグメントに分割する、
付記10乃至14のいずれかに記載の音声データ処理装置。
(付記16)
前記セグメント抽出手段は、特徴ベクトルの時系列により示される、前記第一の音声情報、あるいは、前記第一及び第二の音声情報について、前記特徴ベクトルが示す値に関する単位時間当たりの変化量が示す値が閾値以上となる時刻ごとに、前記セグメントに分割する、
付記10乃至15のいずれかに記載の音声データ処理装置。
(付記17)
前記セグメント抽出手段は、複数の前記第一の音声情報を、それぞれ、複数の前記セグメントに分割し、
前記セグメントモデル生成手段は、前記第一の音声情報別に、前記セグメント音声モデルを生成し、
前記類似度計算手段は、前記第一の音声情報別に、前記第二の音声情報との間の前記類似度を算出し、
複数の前記第一の音声情報に関する前記類似度が示す値を比較して、その値が最も大きい前記第一の音声情報を識別可能な識別子を求める比較手段をさらに備える、
付記10乃至16のいずれかに記載の音声データ処理装置。
(付記18)
情報処理装置によって、
第一の音声情報を、前記第一の音声情報の構造に応じた所定の基準に基づいて、複数のセグメントに分割して、前記セグメントを抽出し、
特性が類似する前記セグメントを同一のクラスタに分類し、前記クラスタ別に部分的な音声モデルであるセグメント音声モデルを生成し、
前記セグメント音声モデルと第二の音声情報とを使用して、前記所定の基準に基づいて、前記第一の音声情報と前記第二の音声情報との間の類似度を算出する、
音声データ処理方法。
(付記19)
第一の音声情報を、前記第一の音声情報の構造に応じた所定の基準に基づいて、複数のセグメントに分割して、前記セグメントを抽出するセグメント抽出処理と、
特性が類似する前記セグメントを同一のクラスタに分類し、前記クラスタ別に部分的な音声モデルであるセグメント音声モデルを生成するセグメント生成処理と、
前記セグメント音声モデルと第二の音声情報とを使用して、前記所定の基準に基づいて、前記第一の音声情報と前記第二の音声情報との間の類似度を算出する類似度計算処理と、
をコンピュータに実行させる音声データ処理プログラム。
1 音声データ処理装置
10 セグメント抽出部
11 セグメントモデル生成部
12 類似度計算部
13 音声データ記憶部
130 比較対象音声データ
14 音声データ入力部
140 入力音声データ
141 入力音声
2 音声データ処理装置
20 セグメント抽出部
21 セグメントモデル生成部
22 類似度計算部
23 音声データ記憶部
230 比較対象音声データ
24 音声データ入力部
240 入力音声データ
241 入力音声
3 音声データ処理装置
30−1乃至30−n セグメント抽出部
31−1乃至31−n セグメントモデル生成部
32−1乃至32−n 類似度計算部
33−1乃至33−n 音声データ記憶部
330−1乃至330−n 比較対象音声データ
34 音声データ入力部
340 入力音声データ
341 入力音声
35−1乃至35−n マッチング部
36 比較部
4 音声データ処理装置
40 セグメント抽出部
41 セグメントモデル生成部
42 類似度計算部
5 音声データ処理装置
51 音声データ入力部
510 入力音声データ
511 入力音声
52 セグメント整合部
53 音声モデル記憶部
54 類似度計算部
55 音声データ記憶部
550 比較対象音声データ
56 フレームモデル生成部
57 フレームモデル記憶部
58 音声データ変換部
900 情報処理装置
901 CPU
902 ROM
903 RAM
904 ハードディスク
905 通信インタフェース
906 バス
907 記憶媒体
908 リーダライタ
909 入出力インタフェース

Claims (9)

  1. 第一の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出するセグメント抽出手段と、
    クラスタリングによって前記セグメントをクラスタに分類し、前記クラスタごとにセグメントのモデルを生成するセグメントモデル生成手段と、
    前記セグメントのモデルと第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する類似度計算手段と、
    を備えたことを特徴とする音声データ処理装置。
  2. 前記セグメント抽出手段は、前記セグメントモデル生成手段が生成した前記セグメントのモデルを用いてセグメントを再抽出し、
    前記セグメントモデル生成手段は、前記セグメント抽出手段が再抽出した前記セグメントを用いて前記セグメントのモデルを再生成することを特徴とする、請求項1に記載の音声データ処理装置。
  3. 前記類似度計算手段は、前記第二の音声データに対する前記セグメントのモデルの最適アラインメントを求めることにより、前記第一の音声データと前記第二の音声データとの間の類似度を計算することを特徴とする、請求項1または2に記載の音声データ処理装置。
  4. 前記セグメント抽出手段は、前記第一の音声データに加えて前記第二の音声データからもセグメントを抽出し、前記セグメントモデル生成手段は、前記第一の音声データおよび前記第二の音声データから抽出されたセグメントを用いてセグメントのモデルを生成し、
    前記類似度計算手段は、前記セグメントのモデル、前記第一の音声データ、および、前記第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算することを特徴とする、請求項1ないし3のいずれかに記載の音声データ処理装置。
  5. 前記セグメント抽出手段は、前記第一及び第二の音声データ、または、前記第一の音声データに対する前記セグメントのモデルの最適アラインメント、または、所定の基準モデルの最適アラインメントを求めることによりセグメントを抽出することを特徴とする、請求項1ないし4のいずれかに記載の音声データ処理装置。
  6. 前記セグメントモデル生成手段は、前記セグメントの近さに基づいてクラスタリングを行い、さらにその結果として生ずるクラスタごとに、時系列データの統計モデルを規定するパラメータを推定することを特徴とする、請求項1ないし5のいずれかに記載の音声データ処理装置。
  7. 比較手段をさらに備え、
    前記セグメント抽出手段は、異なる複数の前記第一の音声データから、それぞれ、前記セグメントを抽出し、
    前記セグメントモデル生成手段は、前記第一の音声データ別に、前記セグメントのモデルを生成し、
    前記類似度計算手段は、複数の前記第一の音声データの各々と前記第二の音声データとの間の類似度を計算し、
    前記比較手段は、前記類似度を比較し、所定の類似度を有する前記第一の音声データを選択することを特徴とする請求項1ないし6のいずれかに記載の音声データ処理装置。
  8. 情報処理装置によって、
    第一の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出し、
    クラスタリングによって前記セグメントをクラスタに分類し、前記クラスタごとにセグメントのモデルを生成し、
    前記セグメントのモデルと第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する、
    音声データ処理方法。
  9. 第一の音声データを、音声データが有するデータ構造に基づいて分割してセグメントを抽出するセグメント抽出処理と、
    クラスタリングによって前記セグメントをクラスタに分類し、前記クラスタごとにセグメントのモデルを生成するセグメントモデル生成処理と、
    前記セグメントのモデルと第二の音声データを用いて、前記第一の音声データと前記第二の音声データとの間の類似度を計算する類似度計算処理と、
    をコンピュータに実行させる音声データ処理プログラム。
JP2015105939A 2014-05-29 2015-05-26 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム Active JP6596924B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015105939A JP6596924B2 (ja) 2014-05-29 2015-05-26 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム
US14/722,455 US20150348571A1 (en) 2014-05-29 2015-05-27 Speech data processing device, speech data processing method, and speech data processing program

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014111108 2014-05-29
JP2014111108 2014-05-29
JP2015105939A JP6596924B2 (ja) 2014-05-29 2015-05-26 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム

Publications (2)

Publication Number Publication Date
JP2016006504A true JP2016006504A (ja) 2016-01-14
JP6596924B2 JP6596924B2 (ja) 2019-10-30

Family

ID=54702539

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015105939A Active JP6596924B2 (ja) 2014-05-29 2015-05-26 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム

Country Status (2)

Country Link
US (1) US20150348571A1 (ja)
JP (1) JP6596924B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020126392A (ja) * 2019-02-04 2020-08-20 ヤフー株式会社 選択装置、選択方法および選択プログラム
KR102190987B1 (ko) * 2020-11-09 2020-12-15 주식회사 마인즈랩 동시 발화 구간에서 개별 화자의 음성을 생성하는 인공 신경망의 학습 방법
KR102190986B1 (ko) * 2019-07-03 2020-12-15 주식회사 마인즈랩 개별 화자 별 음성 생성 방법
KR102190988B1 (ko) * 2020-11-09 2020-12-15 주식회사 마인즈랩 개별 화자 별 음성 제공 방법 및 컴퓨터 프로그램
KR102190989B1 (ko) * 2020-11-09 2020-12-15 주식회사 마인즈랩 동시 발화 구간에서의 음성 생성 방법

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989849B (zh) * 2015-06-03 2019-12-03 乐融致新电子科技(天津)有限公司 一种语音增强方法、语音识别方法、聚类方法及装置
JP6556575B2 (ja) * 2015-09-15 2019-08-07 株式会社東芝 音声処理装置、音声処理方法及び音声処理プログラム
US10397711B2 (en) * 2015-09-24 2019-08-27 Gn Hearing A/S Method of determining objective perceptual quantities of noisy speech signals
US10141009B2 (en) * 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US10325601B2 (en) 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
WO2018053518A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
CN106531190B (zh) 2016-10-12 2020-05-05 科大讯飞股份有限公司 语音质量评价方法和装置
CN107785031B (zh) * 2017-10-18 2021-01-22 京信通信系统(中国)有限公司 一种测试无线通信中有线网络侧语音损伤的方法及基站
WO2020159917A1 (en) 2019-01-28 2020-08-06 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
US11019201B2 (en) 2019-02-06 2021-05-25 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
WO2020198354A1 (en) 2019-03-25 2020-10-01 Pindrop Security, Inc. Detection of calls from voice assistants
CN110688414B (zh) * 2019-09-29 2022-07-22 京东方科技集团股份有限公司 时序数据的处理方法、装置和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09258766A (ja) * 1996-03-25 1997-10-03 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識のための単語モデル生成装置及び音声認識装置
JP2000075889A (ja) * 1998-09-01 2000-03-14 Oki Electric Ind Co Ltd 音声認識システム及び音声認識方法
JP2005227758A (ja) * 2004-02-12 2005-08-25 Microsoft Corp 音声特性に基づく電話発信者の自動識別

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4903305A (en) * 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
US4914703A (en) * 1986-12-05 1990-04-03 Dragon Systems, Inc. Method for deriving acoustic models for use in speech recognition
US4803729A (en) * 1987-04-03 1989-02-07 Dragon Systems, Inc. Speech recognition method
US4805219A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech recognition
US5121428A (en) * 1988-01-20 1992-06-09 Ricoh Company, Ltd. Speaker verification system
US5202952A (en) * 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5655058A (en) * 1994-04-12 1997-08-05 Xerox Corporation Segmentation of audio data for indexing of conversational speech for real-time or postprocessing applications
US5638487A (en) * 1994-12-30 1997-06-10 Purespeech, Inc. Automatic speech recognition
US5687287A (en) * 1995-05-22 1997-11-11 Lucent Technologies Inc. Speaker verification method and apparatus using mixture decomposition discrimination
US6088669A (en) * 1997-01-28 2000-07-11 International Business Machines, Corporation Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling
US6253173B1 (en) * 1997-10-20 2001-06-26 Nortel Networks Corporation Split-vector quantization for speech signal involving out-of-sequence regrouping of sub-vectors
US6009392A (en) * 1998-01-15 1999-12-28 International Business Machines Corporation Training speech recognition by matching audio segment frequency of occurrence with frequency of words and letter combinations in a corpus
US6684186B2 (en) * 1999-01-26 2004-01-27 International Business Machines Corporation Speaker recognition using a hierarchical speaker model tree
US6421645B1 (en) * 1999-04-09 2002-07-16 International Business Machines Corporation Methods and apparatus for concurrent speech recognition, speaker segmentation and speaker classification
US6424946B1 (en) * 1999-04-09 2002-07-23 International Business Machines Corporation Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering
US6748356B1 (en) * 2000-06-07 2004-06-08 International Business Machines Corporation Methods and apparatus for identifying unknown speakers using a hierarchical tree structure
US7295970B1 (en) * 2002-08-29 2007-11-13 At&T Corp Unsupervised speaker segmentation of multi-speaker speech data
US7181393B2 (en) * 2002-11-29 2007-02-20 Microsoft Corporation Method of real-time speaker change point detection, speaker tracking and speaker model construction
WO2004057573A1 (en) * 2002-12-23 2004-07-08 Loquendo S.P.A. Method of optimising the execution of a neural network in a speech recognition system through conditionally skipping a variable number of frames
CA2536260A1 (en) * 2003-08-26 2005-03-03 Clearplay, Inc. Method and apparatus for controlling play of an audio signal
US7389233B1 (en) * 2003-09-02 2008-06-17 Verizon Corporate Services Group Inc. Self-organizing speech recognition for information extraction
JP4328698B2 (ja) * 2004-09-15 2009-09-09 キヤノン株式会社 素片セット作成方法および装置
US8078463B2 (en) * 2004-11-23 2011-12-13 Nice Systems, Ltd. Method and apparatus for speaker spotting
JP5055781B2 (ja) * 2006-02-14 2012-10-24 株式会社日立製作所 会話音声分析方法、及び、会話音声分析装置
JP4728972B2 (ja) * 2007-01-17 2011-07-20 株式会社東芝 インデキシング装置、方法及びプログラム
TW200926140A (en) * 2007-12-11 2009-06-16 Inst Information Industry Method and system of generating and detecting confusion phones of pronunciation
US8527623B2 (en) * 2007-12-21 2013-09-03 Yahoo! Inc. User vacillation detection and response
US8140330B2 (en) * 2008-06-13 2012-03-20 Robert Bosch Gmbh System and method for detecting repeated patterns in dialog systems
US8195460B2 (en) * 2008-06-17 2012-06-05 Voicesense Ltd. Speaker characterization through speech analysis
WO2010001393A1 (en) * 2008-06-30 2010-01-07 Waves Audio Ltd. Apparatus and method for classification and segmentation of audio content, based on the audio signal
EP2216775B1 (en) * 2009-02-05 2012-11-21 Nuance Communications, Inc. Speaker recognition
WO2010140355A1 (ja) * 2009-06-04 2010-12-09 パナソニック株式会社 音響信号処理装置および方法
US8160877B1 (en) * 2009-08-06 2012-04-17 Narus, Inc. Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
WO2011037562A1 (en) * 2009-09-23 2011-03-31 Nuance Communications, Inc. Probabilistic representation of acoustic segments
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
JP5621993B2 (ja) * 2009-10-28 2014-11-12 日本電気株式会社 音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム
WO2011064938A1 (ja) * 2009-11-25 2011-06-03 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
US8812321B2 (en) * 2010-09-30 2014-08-19 At&T Intellectual Property I, L.P. System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning
EP2700071B1 (en) * 2011-04-20 2014-12-24 Robert Bosch GmbH Speech recognition using multiple language models
US9240191B2 (en) * 2011-04-28 2016-01-19 Telefonaktiebolaget L M Ericsson (Publ) Frame based audio signal classification
US9336780B2 (en) * 2011-06-20 2016-05-10 Agnitio, S.L. Identification of a local speaker
JP5779032B2 (ja) * 2011-07-28 2015-09-16 株式会社東芝 話者分類装置、話者分類方法および話者分類プログラム
US9042867B2 (en) * 2012-02-24 2015-05-26 Agnitio S.L. System and method for speaker recognition on mobile devices
US20150199960A1 (en) * 2012-08-24 2015-07-16 Microsoft Corporation I-Vector Based Clustering Training Data in Speech Recognition
US20140142925A1 (en) * 2012-11-16 2014-05-22 Raytheon Bbn Technologies Self-organizing unit recognition for speech and other data series
US9355636B1 (en) * 2013-09-16 2016-05-31 Amazon Technologies, Inc. Selective speech recognition scoring using articulatory features

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09258766A (ja) * 1996-03-25 1997-10-03 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識のための単語モデル生成装置及び音声認識装置
JP2000075889A (ja) * 1998-09-01 2000-03-14 Oki Electric Ind Co Ltd 音声認識システム及び音声認識方法
JP2005227758A (ja) * 2004-02-12 2005-08-25 Microsoft Corp 音声特性に基づく電話発信者の自動識別

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020126392A (ja) * 2019-02-04 2020-08-20 ヤフー株式会社 選択装置、選択方法および選択プログラム
JP7041639B2 (ja) 2019-02-04 2022-03-24 ヤフー株式会社 選択装置、選択方法および選択プログラム
KR102190986B1 (ko) * 2019-07-03 2020-12-15 주식회사 마인즈랩 개별 화자 별 음성 생성 방법
KR102190987B1 (ko) * 2020-11-09 2020-12-15 주식회사 마인즈랩 동시 발화 구간에서 개별 화자의 음성을 생성하는 인공 신경망의 학습 방법
KR102190988B1 (ko) * 2020-11-09 2020-12-15 주식회사 마인즈랩 개별 화자 별 음성 제공 방법 및 컴퓨터 프로그램
KR102190989B1 (ko) * 2020-11-09 2020-12-15 주식회사 마인즈랩 동시 발화 구간에서의 음성 생성 방법

Also Published As

Publication number Publication date
JP6596924B2 (ja) 2019-10-30
US20150348571A1 (en) 2015-12-03

Similar Documents

Publication Publication Date Title
JP6596924B2 (ja) 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム
US9536525B2 (en) Speaker indexing device and speaker indexing method
Verma et al. i-Vectors in speech processing applications: a survey
Singer et al. The MITLL NIST LRE 2011 language recognition system
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JPWO2008087934A1 (ja) 拡張認識辞書学習装置と音声認識システム
Das et al. Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model
JP5692493B2 (ja) 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法
Ben-Harush et al. Initialization of iterative-based speaker diarization systems for telephone conversations
Firooz et al. Improvement of automatic speech recognition systems via nonlinear dynamical features evaluated from the recurrence plot of speech signals
Schuller et al. Discrimination of speech and non-linguistic vocalizations by non-negative matrix factorization
Shekofteh et al. Feature extraction based on speech attractors in the reconstructed phase space for automatic speech recognition systems
Shivakumar et al. Simplified and supervised i-vector modeling for speaker age regression
JP2015175859A (ja) パターン認識装置、パターン認識方法及びパターン認識プログラム
Manjunath et al. Development of consonant-vowel recognition systems for Indian languages: Bengali and Odia
Dong et al. Mapping frames with DNN-HMM recognizer for non-parallel voice conversion
Wang et al. Disentangling the impacts of language and channel variability on speech separation networks
Vakhshiteh et al. Exploration of properly combined audiovisual representation with the entropy measure in audiovisual speech recognition
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
Yulita et al. Feature extraction analysis for hidden Markov models in Sundanese speech recognition
WO2020049687A1 (ja) 音声処理装置、音声処理方法、およびプログラム記録媒体
CN110706689A (zh) 感情推测系统以及计算机可读介质
Hegde et al. Statistical analysis of features and classification of alphasyllabary sounds in Kannada language
Patil et al. Linear collaborative discriminant regression and Cepstra features for Hindi speech recognition
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180413

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190424

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190903

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190916

R150 Certificate of patent or registration of utility model

Ref document number: 6596924

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150