JP5155944B2 - データ処理装置、データ処理装置制御プログラム、データ処理方法及び特定パターンモデル提供システム - Google Patents

データ処理装置、データ処理装置制御プログラム、データ処理方法及び特定パターンモデル提供システム Download PDF

Info

Publication number
JP5155944B2
JP5155944B2 JP2009142418A JP2009142418A JP5155944B2 JP 5155944 B2 JP5155944 B2 JP 5155944B2 JP 2009142418 A JP2009142418 A JP 2009142418A JP 2009142418 A JP2009142418 A JP 2009142418A JP 5155944 B2 JP5155944 B2 JP 5155944B2
Authority
JP
Japan
Prior art keywords
pattern model
data
pattern
dimensional
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009142418A
Other languages
English (en)
Other versions
JP2009205178A (ja
Inventor
誠 庄境
豪秀 奈木野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asahi Kasei Corp
Original Assignee
Asahi Kasei Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Corp filed Critical Asahi Kasei Corp
Priority to JP2009142418A priority Critical patent/JP5155944B2/ja
Publication of JP2009205178A publication Critical patent/JP2009205178A/ja
Application granted granted Critical
Publication of JP5155944B2 publication Critical patent/JP5155944B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Description

本発明は、不特定対象の所定データをパターン認識するためのパターンモデルの生成に係り、特に、対象の種類、所定データの測定環境等の複数の要因の組み合わせによる特定条件によって、多様化する特徴パラメータの分布を考慮して不特定対象用のパターンモデルを生成するのに好適データ処理装置、データ処理装置制御プログラム、データ処理方法及び特定パターンモデル提供システムに関する。
従来、ある対象についてその性質のいくつかを観測あるいは測定し、その結果得られるデータに基づいて対象を識別分類するパターン認識という情報処理技術がある。
一般に、パターン認識の1つである音声認識は、話者が発声した音声サンプルをある特徴パラメータの系列に変換する音響分析部と、音響分析部で得られた特徴パラメータの系列を予めメモリやハードディスクなどの記憶装置に蓄積した語彙単語の特徴パラメータに関する情報と照合して、最も類似度の高い語彙単語を認識結果とする音声照合部と、の2つの部分から構成される。
音声サンプルをある特徴パラメータの系列に変換する音響分析方法としては、ケプストラム分析や線形予測分析などが知られており、非特許文献1にも詳述されている。
音声認識の中で、不特定話者の音声を認識する技術を一般に不特定話者音声認識と呼ぶ。不特定話者音声認識においては、語彙単語の特徴パラメータに関する情報が予め記憶装置に蓄積されているため、特定話者音声認識のようにユーザーが音声認識させたい単語を登録するという作業は発生しない。
また、語彙単語の特徴パラメータに関する情報の作成およびその情報と入力された音声から変換された特徴パラメータの系列との音声照合方法としては、隠れマルコフモデル(Hidden Markov Model, HMM)による方法が一般に用いられている。HMMによる方法においては、音節、半音節、音韻、音素、biphone、triphoneなどの音声単位がHMMによりモデル化される。これら音声単位のパターンモデルを一般に、音響モデルと呼ぶ。
音響モデルの作成方法については、非特許文献1に詳しく述べられている。
また、非特許文献1の第4章に記載されているViterbiアルゴリズムにより、当業者は不特定話者音声認識装置を容易に構成することができる。
そして、従来、音響モデルは、男性/女性の性別、子供/大人/高齢者の年齢別、雑音に依存する発話環境別に、複数個作られることが多かった。
また、非特許文献2には、複数の高次元の音響モデルにおける各音響モデル相互間の距離を用いて、複数の高次元の音響モデルを自動的にクラスタリングする方法について開示されている。このクラスタリング方法は、多数のクラスタリング条件を設定して、好適なクラスタリング結果を得るまで、試行錯誤的に何回もクラスタリングを行うものである。
L.Rabiner et al.,"Fundamentals of Speech Recognit1on,"Prentice Hall,1nc.,1993. T.Kosaka et al.,"Tree-Structured Speaker Clustering for Fast Speaker Adaptation," Proc. ICASSP, vol.I, pp.I-245-248, Adelaide,Austra1ia,1994.
しかしながら、上記したように、音響モデルの種類は、高々、男性/女性の性別、子供/大人/高齢者の年齢別、雑音に依存する発話環境別に少数個作られることが多い。そのため、これらの音響モデルの分割は、先験的な知識に基づいたヒューリスティックな方法にならざるをえず、得られる認識率には限界があった。
また、上記非特許文献2においては、音響モデルの相対的な遠近、音響モデルの固まりの数や固まりの大小などの複数の音響モデルの相互関係を、視覚などにより簡易に把握するための手段がないため、好適なクラスタリング結果を得るために、多数のクラスタリング条件に対する計算を何度も繰り返し行うこととなり、多大な計算時間を必要とするといった問題があった。
また、一般に、高精度の音声認識を実現するために、音響モデルは、上記したケプストラムや、MFCC(Mel-Frequency Cepstrum Coefficient)等の高次元(10〜30次元)の特徴パラメータを利用して生成されるため、複数の音響モデルの相互関係を視覚的に表示することは困難であった。
上記したことは、音響モデルに限らず、画像認識等の他の分野のパターンモデルに対しても言えることである。
そこで、本発明は、このような従来の技術の有する未解決の課題に着目してなされたものであって、複数の要因の組み合わせによる特定条件によって、多様化する特徴パラメータの分布を考慮して不特定対象用のパターンモデルを生成するのに好適データ処理装置、データ処理装置制御プログラム、データ処理方法及び特定パターンモデル提供システムを提供することを目的としている。
上記目的を達成するために、本発明に係る請求項1記載のデータ処理装置は、複数対象に係る複数の所定データを、複数の特定条件に基づき、複数のグループに分類するデータ分類手段と、
前記データ分類手段によって分類された前記所定データに基づき、当該所定データの各グループ毎に4次元以上の高次元の要素を有する複数のパターンモデルを生成するパターンモデル生成手段と、
前記パターンモデル生成手段によって各グループ毎に生成されたパターンモデルの各パターンモデル相互間の数学的距離を算出する数学的距離算出手段と、
前記数学的距離算出手段によって算出された前記数学的距離に基づき、前記各パターンモデル相互間の距離関係を保持しながら、前記複数のパターンモデルをこれより低次元の同数のパターンモデル対応低次元ベクトルへと変換するパターンモデル変換手段と、
前記複数のパターンモデル対応低次元ベクトルを、低次元の要素の値に基づき、前記距離関係を保持した状態で、前記パターンモデル対応低次元ベクトルと同じ次元の低次元空間上の座標点として表示するパターンモデル対応低次元ベクトル表示手段と、
前記パターンモデル対応低次元ベクトル表示手段によって前記低次元空間上に表示される前記複数のパターンモデル対応低次元ベクトルの座標点を、前記低次元空間上において複数の領域に自動的に区分する領域区分手段と、を備え、
前記領域区分手段は、前記複数のパターンモデル対応低次元ベクトルを、当該全パターンモデル対応低次元ベクトルの座標点の重心を中心とし且つ前記重心と当該重心から最も離れた位置のパターンモデル対応低次元ベクトルの座標点との距離を半径とした1つの外円と、前記重心を中心とし且つ前記外円よりも小さな半径のn個の内円(nは1以上の整数)と、により区分し、更に、前記外円及び内円からなる複数の同心円同士の各外周間に形成される環状の領域を、半径方向に伸びる線によって複数に区分することを特徴としている。
このような構成であれば、データ分類手段によって、複数対象に係る複数の所定データを、複数の特定条件に基づき、複数のグループに分類することが可能であり、パターンモデル生成手段によって、前記データ分類手段によって分類された所定データに基づき、当該所定データの各グループ毎に4次元以上の高次元の要素を有する複数のパターンモデルをHMM(Hidden Markov Model)によって生成することが可能であり、数学的距離算出手段によって、前記パターンモデル生成手段によって各グループ毎に生成されたパターンモデルの各パターンモデル相互間の数学的距離を算出することが可能であり、パターンモデル変換手段によって、前記数学的距離算出手段によって算出された前記数学的距離に基づき、前記各パターンモデル相互間の距離関係を保持しながら、前記複数のパターンモデルをこれより低次元の同数のパターンモデル対応低次元ベクトルへと変換することが可能であり、パターンモデル対応低次元ベクトル表示手段によって、前記複数のパターンモデル対応低次元ベクトルパターンモデル対応低次元ベクトルを、低次元の要素の値に基づき、前記距離関係を保持した状態で、前記パターンモデル対応低次元ベクトルと同じ次元の低次元空間上の座標点として表示することが可能である。
更に、前記領域区分手段によって、前記パターンモデル対応低次元ベクトル表示手段によって前記低次元空間上に表示される前記複数のパターンモデル対応低次元ベクトルの座標点を、前記低次元空間上において複数の領域に自動的に区分することが可能である。
また、前記領域区分手段は、前記複数のパターンモデル対応低次元ベクトルを、当該全パターンモデル対応低次元ベクトルの座標点の重心を中心とし且つ前記重心と当該重心から最も離れた位置のパターンモデル対応低次元ベクトルの座標点との距離を半径とした1つの外円と、前記重心を中心とし且つ前記外円よりも小さな半径のn個の内円(nは1以上の整数)と、により区分し、更に、前記外円及び内円からなる複数の同心円同士の各外周間に形成される環状の領域を、半径方向に伸びる線によって複数に区分することが可能である。
従って、各パターンモデル相互間の距離関係(類似関係)を視覚的に簡易に捉えることが可能となる。また、4次元以上の高次元のパターンモデルを3次元以下の低次元のパターンモデルに変換することが可能となるので、クラスタリング等の様々な処理が行い易くなる。
また、複数のパターンモデル対応低次元ベクトルの座標点を簡易に区分することが可能であり、これにより、特定のパターンモデルがどの区分領域に該当するのかを、視覚的に簡易に知ることが可能となる。
また、複数のパターンモデル対応低次元ベクトルの座標点を、前記外円及び内円からなる複数の同心円同士の各外周間に形成される環状の領域に区分すると共に、この環状の領域を複数の扇形の領域に区分することが可能となる。
ここで、パターンモデルとは、例えば、所定データが音声データである場合に、この音声データに対してマッチングを行うパターンをモデル化したものであり、統計モデルなどを用いて表現されるものである。
また、所定データとしては、例えば、人間の音声、住宅内の生活雑音、工場騒音、交通騒音などの音響データや野鳥、昆虫、蛙、蝙蝠、動物などの野生生物の鳴声データ、画像データ、赤外線センサデータ、加速度センサデータ、方位角センサデータ、圧力センサデータ、圧電素子や振動計などの振動センサデータ及びその他の全てのセンサデータ、リチウムイオン2次電池や燃料電池などの電池の充電状況に関する物理的データ、心電図、筋電図、血圧、体重などの生体信号データ、遺伝子解析用のマイクロアレイデータ、気温、湿度、気圧などの気象データ、酸素濃度、窒素酸化物濃度などの環境データ、株価、物価などの経済動向データなどの時系列データ等がある。
また、パターンモデルを4次元以上の高次元の要素を含むモデルとしたが、これは、例えば、音声認識等のパターン認識において、少なくとも、4次元以上の特徴パラメータを利用しないと、高い認識性能が得られないためであり、また、音声認識においては、実用上有効な認識性能を実現可能な3次元以下の特徴パラメータが現在のところ発見されていないためである。
また、所定データとは、例えば、複数対象から測定できるデータそのもの、当該データから抽出した特徴量、当該特徴量に基づき生成したパターンモデルなどと、それらの内容を記述したテキストファイルとの組を指す。例えば、複数の話者の発声した音声のデータ、当該音声データから抽出した特徴量、当該特徴量に基づき生成したパターンモデルなどと、それらの発声内容を記述したテキストファイルとの組となる。
また、数学的距離とは、特定対象の所定データから生成されるパターンモデルと複数対象のパターンモデルとの類似度を示すもので、この類似度を測るモノサシの種類により様々なものがある。このモノサシは、例えば、ユークリッド距離などの普通のモノサシでも測れる距離に対応したものや、類似度を測る距離を二つのベクトルの内積とし、二つのベクトルの成す角を類似度として評価するマハラノビスの汎距離などの、普通のモノサシでは測れない類似度に対応したものがある。 なお、本発明においては、数学的距離として、他に、バタチャリヤ(Bhattacharrya)距離、平方ユークリッド距離、コサイン距離、ピアソンの相関、チェビシェフ、都市ブロック距離(あるいはマンハッタン距離)、ミンコウスキー和、カルバック情報量、チェルノフ距離などがある。つまり、距離と称してはいるが、類似度を示すものであれば何でも良い。
また、上記したパターンモデル変換手段は、例えば、射影等を用いて、4次元以上の高次元の情報を、処理の行いやすい2次元や3次元等の低次元の情報に変換する。例えば、相互間の数学的距離が小さい2つのパターンモデルは互いに近くに、相互間の数学的距離が大きい2つのパターンモデルは互いに遠くに位置するように全てのパターンモデルを低次元空間(例えば、2次元、3次元空間)に射影する。
例えば、数学的距離の算出にユークリッド距離を用いた場合、射影された低次元空間において、ユークリッド距離が近いパターンモデルはパターンモデル相互に類似していることを意味していると考えられる。
また、高次のパターンモデルを、これより低次のパターンモデル対応低次元ベクトルに変換して低次元空間上に表示する公知の手法としては、Sammon法(J. W. Sammon,"A nonlinear mapping for data structure ana1ysis,"IEEE Trans.Computers,vol.C-18,no.5,pp.401-409,May 1969.参照)、判別分析法(R. A. Fisher, "The use of multiple measurements in taxonomic Problems,"Ann.Eugenics,vol.7,no.PartII,pp.179-188,1936.参照)、Aladjam法(M.A1adjem,"Multiclass discriminant mappings,"Signa1 Process.,vol.35,pp.1-18,1994.参照)、ニューラルネットワークによる手法(J.Mao et a1.,"Artificial neural networks for feature extraction and mu1tivariate data projection,"IEEE Trans.Neura1 Networks,vol.6,no.2,pp.296-317,1995.参照)、グラフを利用した手法(Y.Mori et al.,"Comparison of 1ow-dimensional mapping techniques based on discriminatory information,"Proc.2nd International ICSC Symposium on Advances in Intelligent Data Analysis(AIDA'2001),CD-ROM Paper-no.1724-166,Bangor,United Kingdom,2001.参照)、射影追跡法(J.H.Freidman et al.,"A projection pursuit algorithm for exp1oratory data ana1ysis,"IEEE Trans.Comput.,vol.C-18,no.5,pp.401-409,1969.参照)、SOM法(T.Kohonen,"Self-Organizing Maps,"Springer Series in Information Sciences,vol.30,Berlin,1995.参照)等がある。
また、請求項2に係る発明は、請求項1記載のデータ処理装置において、前記領域区分手段によって自動区分された区分内容を変更する区分内容変更手段を備えることを特徴としている。
このような構成であれば、区分内容変更手段によって、前記領域区分手段によって自動区分された区分内容を変更することが可能である。
従って、区分内容が適切でないときや、新たなパターンモデルが加わったときなどに、適切な区分内容に変更することが可能である。また、視覚化されたパターンモデルの区分内容を変更することになるので、容易に区分内容の変更を行うことが可能である。
また、請求項3に係る発明は、請求項1又は請求項2記載のデータ処理装置において、前記領域区分手段によって区分された各領域毎に複数の前記パターンモデル対応低次元ベクトルを選択可能な領域選択手段と、当該領域選択手段によって選択された領域内にある前記複数のパターンモデル対応低次元ベクトルにそれぞれ対応する前記パターンモデルに係る、前記所定データに基づき、前記パターンモデルを生成する領域パターンモデル生成手段と、を備えることを特徴としている。
このような構成であれば、領域選択手段によって、前記領域区分手段によって区分された各領域毎に複数の前記パターンモデル対応低次元ベクトルを選択することが可能であり、領域パターンモデル生成手段によって、当該領域選択手段によって選択された領域内にある前記複数のパターンモデル対応低次元ベクトルにそれぞれ対応する前記パターンモデルに係る、前記音声データに基づき、前記パターンモデルを生成することが可能である。
従って、例えば、特定対象のパターンモデル対応低次元ベクトルが含まれる領域に対応した所定データを用いてパターンモデルを生成することにより、特定対象に向けた適切なパターンモデルの生成が可能である。
また、特定区分領域の所定データを用いてパターンモデルを生成するので、パターンモデルを小規模にすることが可能であり、パターンモデルが使用するメモリ容量を軽減することが可能である。
また、請求項4に係る発明は、請求項1記載のデータ処理装置において、前記区分された領域内に含まれる前記パターンモデル対応低次元ベクトルの座標点に対応する所定データに基づき、各領域毎の領域パターンモデルを生成する領域パターンモデル生成手段と、
新規対象に係る所定データを取得する所定データ取得手段と、
前記取得した所定データに対する前記区分された各領域に対応した領域パターンモデルの尤度を算出し、当該算出した尤度に基づき、前記領域パターンモデル生成手段によって生成された領域パターンモデルの中から前記新規対象の所定データの認識に適した認識性能の領域パターンモデルを探索する領域パターンモデル探索手段と、を備えることを特徴としている。
このような構成であれば、領域パターンモデル生成手段によって、前記区分された領域内に含まれる前記パターンモデル対応低次元ベクトルの座標点に対応する所定データに基づき、各領域毎の領域パターンモデルを生成することが可能であり、所定データ取得手段によって、新規対象に係る所定データを取得することが可能であり、領域パターンモデル探索手段によって、前記取得した所定データに対する前記区分された各領域に対応した領域パターンモデルの尤度を算出し、当該算出した尤度に基づき前記新規対象に適した認識性能の領域パターンモデルを探索することが可能である。
従って、各パターンモデル相互間の距離関係(類似関係)を視覚的に簡易に捉えることが可能となると共に、複数のパターンモデル対応低次元ベクトルの座標点を簡易に区分できるようにしたので、特定のパターンモデルがどの区分領域に該当するのか等を視覚的に簡易に知ることが可能となる。更に、新規対象に係る所定データに対する区分結果の各領域に対応した領域パターンモデルの尤度に基づき、各領域パターンモデルの中から新規対象の所定データをパターン認識するのに適した領域パターンモデルを探索することが可能である。
また、請求項5に係る発明は、請求項4記載のデータ処理装置において、前記数学的距離算出手段は、前記数学的距離の算出において、前記複数対象に係る複数の所定データにおける各パターン単位の出現頻度を用いることを特徴としている。
従って、数学的距離の算出にパターン単位の出現頻度を用いたので、例えば、この出現頻度により数学的距離に重み付けを行うことにより、各パターンモデルに対応する全てのパターン単位を考慮したパターンモデル相互間の距離を定義することが可能となり、パターンモデル相互間の距離関係を正確に算出することが可能となる。
また、請求項6に係る発明は、請求項5記載のデータ処理装置において、前記パターン単位の出現頻度は、前記複数対象に係る複数の所定データに対する前記パターンモデルを用いたパターン認識における前記複数対象に係る複数のパターン単位のうち、認識性能が所定の閾値より低いパターン単位の出現頻度であることを特徴としている。
つまり、数学的距離の算出に用いる出現頻度に、認識性能が所定の閾値より低いパターン単位の出現頻度を用いるようにしたので、これにより、認識性能の低い対象のパターンモデルを正確な距離関係で低次元表示することが可能となり、これにより、認識性能の低い対象のパターンモデルをクラスタリング等し易くすることが可能である。
また、請求項7に係る発明は、請求項4乃至請求項6のいずれか1項に記載のデータ処理装置において、前記領域区分手段は、最内円から外円方向に向かう程、前記各環状の領域に含まれるパターンモデル対応低次元ベクトルを細かく区分することを特徴としている。
つまり、2次元視覚化されたパターンモデルは、中心から外側に向かうほど認識性能の低い(他のモデルと類似性の低い)パターンモデルが分布する特性があるので、認識性能が低いパターンモデルの分布している領域を細かく区分することでより正確なグルーピングが可能となる。
また、請求項8に係る発明は、請求項4乃至請求項7のいずれか1項に記載のデータ処理装置において、前記領域区分手段は、区分結果の各領域において、当該各領域に含まれるパターンモデル対応低次元ベクトルとこれと隣り合う領域に含まれるパターンモデル対応低次元ベクトルとの一部が重複するように領域を区分することを特徴としている。
従って、特定対象用のパターンモデルを生成する際に、当該特定対象の所定データが区分された領域の境界に位置するような場合にも簡易に対応することが可能となる。
また、請求項9に係る発明は、請求項4乃至請求項8のいずれか1項に記載のデータ処理装置において、前記領域パターンモデル探索手段は、前記区分結果の最内円から外円方向に向かって順に、前記取得した所定データに対する前記区分された領域に対応した領域パターンモデルの尤度を算出し、当該算出した尤度に基づき、前記領域パターンモデル生成手段によって生成された領域パターンモデルの中から前記新規対象に適した認識性能の領域パターンモデルを探索することを特徴としている。
つまり、最内円から外円方向に向かって新規対象の所定データに対する領域パターンモデルの尤度を算出するようにしたので、新規対象の所定データに適合した区分領域の領域パターンモデルを高速に探索することが可能となる。
また、請求項10に係る発明は、請求項9記載のデータ処理装置において、前記領域パターンモデル探索手段は、前記取得した所定データに対する、最内円の領域に対応した領域パターンモデルの尤度を算出し、次に、最内円に隣接する環状の領域における各区分領域に対応した領域パターンモデルの尤度を算出し、当該算出した尤度のうち最も高い尤度の領域パターンモデルに対応する領域に隣接した外円方向の領域に対応した領域パターンモデルの尤度を算出し、以降は、外円方向に向かって順に、一つ内側の環状の領域において算出された尤度の最も高い領域パターンモデルの対応した領域に隣接する外円方向の領域に対応した領域パターンモデルの尤度を算出することを特徴としている。
つまり、区分結果の最内円から外円方向に向かって順に、最も尤度の高い(認識性能の高い)領域パターンモデルに対応した区分領域に向かって探索するようにしたので、新規対象の所定データに適合した区分領域の領域パターンモデルを高速に探索することが可能となる。
また、請求項11に係る発明は、請求項9記載のデータ処理装置において、前記領域パターンモデル探索手段は、前記取得した所定データに対する、最内円の領域に対応した領域パターンモデルの尤度を算出し、次に、最内円に隣接する環状の領域における各区分領域に対応した領域パターンモデルの尤度を算出し、当該算出した尤度のうち上位m個の尤度に対応する領域パターンモデル(mは2以上の整数)にそれぞれ対応する領域に隣接した外円方向の区分領域に対応した領域パターンモデルの尤度を算出し、以降は、外円方向に向かって順に、一つ内側の環状の領域において算出された尤度の最も高い領域パターンモデルの対応した領域に隣接する外円方向の領域に対応した領域パターンモデルの尤度を算出することを特徴としている。
つまり、区分結果の最内円から外円方向に向かって順に、上位m個の尤度に対応する領域パターンモデルに対応した区分領域に向かって探索するようにしたので、新規対象の所定データにより適合した区分領域の領域パターンモデルを高速に探索することが可能となる。
また、請求項12に係る発明は、請求項1乃至請求項11のいずれか1項に記載のデータ処理装置において、前記複数対象に係る複数の所定データは、複数話者の発声した複数の音声のデータであり、
前記複数の特定条件は、少なくとも、話者の種類、発話語彙、発話様式及び発話環境を含むことを特徴としている。
従って、少なくとも、話者の名前、男性/女性の性別、子供/大人/高齢者の年齢別等の話者の種類、発話する、数字、文章、単語等の発話語彙、発話速度、発話音量、方言に由来する特徴等の発話様式及び室内、自動車内、工場内、屋外(場所等により種類分けする)等の発話環境を考慮して音声データに対するパターンモデルを生成することが可能である。
また、請求項13に係る発明は、請求項1乃至請求項12のいずれか1項に記載のデータ処理装置において、前記データ分類手段は、前記複数の特定条件をそれぞれ任意に組み合わせた各組毎に前記グループを形成することを特徴としている。
従って、例えば、所定データが音声データの場合に、室内(発話環境)で大人の男(話者の種類)が単語(発話語彙)を早口(発話様式)で発話したといったように、任意の特定条件の組み合わせを一つのグループとして形成することが可能となる。無論、例えば、室内(発話環境)で大人の男(話者の種類)が発話したといったように、もっと大きな括りでグループ分けしても良い。
また、請求項14に係る発明は、請求項1乃至請求項13のいずれか1項に記載のデータ処理装置において、前記パターンモデルは、HMM(Hidden Markov Model)によって生成され、
前記数学的距離算出手段は、前記HMMによって生成された、前記パターンモデルの正規分布の平均ベクトルに基づくユークリッド距離、前記パターンモデルの正規分布の標準偏差により正規化された当該パターンモデルの正規分布の平均ベクトルに基づくユークリッド距離、及び、前記パターンモデルの正規分布に基づくバタチャリア距離のいずれか1つを用いて前記数学的距離を算出することを特徴としている。
従って、上記いずれかの距離を用いることで、各パターンモデル間のより適切な数学的距離を算出することが可能である。
また、請求項15に係る発明は、請求項4乃至請求項14のいずれか1項に記載のデータ処理装置において、前記領域区分手段によって自動区分された区分内容を変更する区分内容変更手段を備えることを特徴としている。
従って、区分内容が適切でないときや、新たなパターンモデルが加わったときなどに、適切な区分内容に変更することが可能である。また、視覚化されたパターンモデルの区分内容を変更することになるので、容易に区分内容の変更を行うことが可能である。
また、請求項16に係る発明は、請求項4乃至請求項11のいずれか1項に記載のデータ処理装置において、前記領域パターンモデル探索手段によって探索された領域パターンモデルを新規対象の所定データに基づき、前記新規対象用に適応するパターンモデル適応手段を備えることを特徴としている。
このような構成であれば、パターンモデル適応手段によって、前記領域パターンモデル探索手段によって探索された領域パターンモデルを新規対象の所定データに基づき、前記新規対象用に適応することが可能である。
従って、新規対象に向けた適切なパターンモデルの生成が可能であり、また、特定区分領域の所定データを用いてパターンモデルを生成するので、パターンモデルを小規模にすることが可能であり、パターンモデルが使用するメモリ容量を軽減することが可能である。ここで、適応には、話者適応法MLLR等を用いることが可能である。
また、請求項17に係る発明は、請求項16記載のデータ処理装置において、前記パターンモデル変換手段は、前記領域パターンモデル探索手段によって探索された領域パターンモデルに対応する領域内に含まれる前記複数のパターンモデル対応低次元ベクトルに対応する高次元パターンモデルを、前記パターンモデル対応低次元ベクトルに変換可能であり、
前記パターンモデル対応低次元ベクトル表示手段は、前記変換後のパターンモデル対応低次元ベクトルを、低次元の要素の値に基づき、前記距離関係を保持した状態で、前記パターンモデル対応低次元ベクトルと同じ次元の低次元空間上の座標点として表示可能であり、
前記領域区分手段は、前記低次元空間上に表示される前記複数のパターンモデル対応低次元ベクトルの座標点を、前記低次元空間上において複数の領域に自動的に区分可能であることを特徴としている。
つまり、領域パターンモデル探索手段によって探索された領域パターンモデルに対応する領域に含まれる、複数のパターンモデル対応低次元ベクトルに対応した高次元パターンモデルを、再度パターンモデル対応低次元ベクトルに変換し、且つ区分けするようにしたので、当該区分けした領域から再度新規対象に適した領域パターンモデルを探索することで、新規対象に係る所定データのパターン認識により適した特定パターンモデルの生成が可能となる。
また、請求項18記載のデータ処理装置制御プログラムは、請求項1記載のデータ処理装置を制御するためのコンピュータが実行可能なプログラムであって、
複数対象に係る複数の所定データを、複数の特定条件に基づき、複数のグループに分類するデータ分類ステップと、
前記データ分類ステップにおいて分類された前記所定データに基づき、当該所定データの各グループ毎に4次元以上の高次元の要素を有する複数のパターンモデルを生成するパターンモデル生成ステップと、
前記パターンモデル生成ステップにおいて各グループ毎に生成されたパターンモデルの各パターンモデル相互間の数学的距離を算出する数学的距離算出ステップと、
前記数学的距離算出ステップにおいて算出された前記数学的距離に基づき、前記各パターンモデル相互間の距離関係を保持しながら、前記複数のパターンモデルをこれより低次元の同数のパターンモデル対応低次元ベクトルへと変換するパターンモデル変換ステップと、
前記複数のパターンモデル対応低次元ベクトルを、低次元の要素の値に基づき、前記距離関係を保持した状態で、前記パターンモデル対応低次元ベクトルと同じ次元の低次元空間上の座標点として表示するパターンモデル対応低次元ベクトル表示ステップと、
前記パターンモデル対応低次元ベクトル表示ステップによって前記低次元空間上に表示される前記複数のパターンモデル対応低次元ベクトルの座標点を、前記低次元空間上において複数の領域に自動的に区分する領域区分ステップと、
前記領域区分ステップにおいて、前記複数のパターンモデル対応低次元ベクトルを、当該全パターンモデル対応低次元ベクトルの座標点の重心を中心とし且つ前記重心と当該重心から最も離れた位置のパターンモデル対応低次元ベクトルの座標点との距離を半径とした1つの外円と、前記重心を中心とし且つ前記外円よりも小さな半径のn個の内円(nは1以上の整数)と、により区分し、更に、前記外円及び内円からなる複数の同心円同士の各外周間に形成される環状の領域を、半径方向に伸びる線によって複数に区分するステップと、をコンピュータに実行させることを特徴としている。
ここで、本発明は、請求項1記載のデータ処理装置を制御するためのプログラムであり、その効果は重複するので記載を省略する
また、請求項19記載の特定パターンモデル提供システムは、システム利用者の管理下にある情報処理端末と、
請求項4〜11、16及び17のいずれか1項に記載のデータ処理装置と、を備え、
前記情報処理端末及び前記データ処理装置を互いにデータ通信可能に接続し、
前記データ処理装置において、前記複数対象に係る複数の所定データは、複数話者の発声した複数の音声のデータであり、
前記情報処理端末は、
前記システム利用者の発声した音声のデータを取得し、当該取得した音声データを前記データ処理装置に送信する音声データ送信手段と、
前記データ処理装置から前記システム利用者の音声データをパターン認識するのに適した前記特定パターンモデルを取得する特定パターンモデル取得手段と、を備え、
前記データ処理装置は、
前記所定データ取得手段によって前記情報処理端末からの前記音声データを取得し、更に、当該取得した音声データに基づき前記システム利用者用に前記特定パターンモデルを生成するようになっており、
前記生成した特定パターンモデルを前記情報処理端末に送信する特定パターンモデル送信手段を更に備えることを特徴としている。
このような構成であれば、情報処理端末は、音声データ送信手段によって、前記システム利用者の発声した音声のデータを取得し、当該取得した音声データを前記データ処理装置に送信することが可能であり、特定パターンモデル取得手段によって、前記データ処理装置から前記システム利用者の音声データをパターン認識するのに適切な前記特定パターンモデルを取得することが可能である。
また、データ処理装置は、前記所定データ取得手段によって前記情報処理端末からの前記音声データを取得することが可能であり、更に、当該取得した音声データに基づき前記システム利用者用に前記特定パターンモデルを生成することが可能であり、特定パターンモデル送信手段によって、前記生成した特定パターンモデルを前記情報処理端末に送信することが可能である。
従って、システム利用者は、例えばインターネット等を介してPC、携帯電話、PDA等の情報処理端末と、データ処理装置とを接続して、自己の音声データをデータ処理装置に送信することで、自己の音声データを音声認識するのに適した特定パターンモデルを簡易に取得することが可能である。
以上説明したように、本発明に係る請求項1記載のデータ処理装置によれば、複数のパターンモデル対応低次元ベクトルを、低次元の要素の値に基づき、前記距離関係を保持した状態で、前記パターンモデル対応低次元ベクトルと同一次元の低次元空間上の座標点として表示するようにしたので、各パターンモデル相互間の距離関係(類似関係)を視覚的に簡易に捉えることが可能となる。更に、4次元以上の高次元のパターンモデルを3次元以下の低次元のパターンモデル対応低次元ベクトルに変換することが可能となるので、クラスタリング等の様々な処理が行い易くなる。更に、請求項8又は請求項9記載のデータ処理装置によれば、パターンモデル対応低次元ベクトル表示手段によって低次元空間上に表示される複数のパターンモデル対応低次元ベクトルの座標点を、前記低次元空間上において複数の領域に自動的に区分するようにしたので、複数のパターンモデル対応低次元ベクトルの座標点を簡易に区分することが可能であり、これにより、特定のパターンモデルがどの区分領域に該当するのかを、視覚的に簡易に知ることが可能である。
また、請求項2記載のデータ処理装置によれば、領域区分手段によって自動区分された区分内容を変更出来るようにしたので、区分内容が適切でないときや、新たなパターンモデルが加わったときなどに、適切な区分内容に変更することが可能である。
また、請求項3記載のデータ処理装置によれば、区分された各領域毎に選択されたパターンモデル対応低次元ベクトルに対応した対象の所定データに基づき特定パターンモデルを生成するようにしたので、例えば、特定の対象のパターンモデルが含まれる領域内のパターンモデル対応低次元ベクトルに対応した対象の所定データを用いてパターンモデルを生成することにより、特定の対象に向けた適切なパターンモデルの生成が可能である。また、特定領域の所定データを用いてパターンモデルを生成するので、パターンモデルが使用するメモリ容量を軽減することが可能である。
また、請求項4記載のデータ処理装置によれば、各パターンモデル相互間の距離関係(類似関係)を視覚的に簡易に捉えることが可能となると共に、複数のパターンモデル対応低次元ベクトルの座標点を簡易に区分できるようにしたので、特定のパターンモデルがどの区分領域に該当するのか等を視覚的に簡易に知ることが可能となる。更に、新規対象に係る所定データに対する区分結果の各領域に対応した領域パターンモデルの尤度に基づき、各領域パターンモデルの中から新規対象の所定データをパターン認識するのに適した領域パターンモデルを探索することが可能である。
また、請求項5記載のデータ処理装置によれば、請求項4の前記効果に加え、数学的距離の算出に音声データの出現頻度を用いたので、例えば、この出現頻度により数学的距離に重み付けを行うことにより、各パターンモデルに対応する全ての所定データを考慮したパターンモデル相互間の距離を定義することが可能となり、パターンモデル相互間の距離関係を正確に算出することが可能となる。
また、請求項6記載のデータ処理装置によれば、請求項5の前記効果に加え、数学的距離の算出に用いる出現頻度に、認識性能が所定の閾値より低いパターン単位の出現頻度を用いるようにしたので、これにより、認識性能の低い対象のパターンモデルを正確な距離関係で低次元表示することが可能となり、これにより、認識性能の低い対象のパターンモデルをクラスタリング等し易くすることが可能である。
また、請求項7記載のデータ処理装置によれば、請求項4乃至請求項6のいずれか1項の前記効果に加え、2次元視覚化されたパターンモデルは、中心から外側に向かうほど認識性能の低い(他のモデルと類似性の低い)パターンモデルが分布する特性があるので、認識性能が低いパターンモデルの分布している領域を細かく区分することでより正確なグルーピングが可能となる。
また、請求項8記載のデータ処理装置によれば、請求項4乃至請求項7のいずれかの前記効果に加え、特定対象用のパターンモデルを生成する際に、当該特定対象の所定データが区分された領域の境界に位置するような場合にも簡易に対応することが可能となる。
また、請求項9記載のデータ処理装置によれば、請求項4乃至請求項8のいずれかの前記効果に加え、最内円から外円方向に向かって新規対象の所定データに対する領域パターンモデルの尤度を算出するようにしたので、新規対象の所定データに適合した区分領域の領域パターンモデルを高速に探索することが可能となる。
また、請求項10記載のデータ処理装置によれば、請求項9の前記効果に加え、区分結果の最内円から外円方向に向かって順に、最も尤度の高い(認識性能の高い)領域パターンモデルに対応した区分領域に向かって探索するようにしたので、新規対象の所定データに適合した区分領域の領域パターンモデルを高速に探索することが可能となる。
また、請求項11記載のデータ処理装置によれば、請求項9の前記効果に加え、区分結果の最内円から外円方向に向かって順に、上位m個の尤度に対応する領域パターンモデルに対応した区分領域に向かって探索するようにしたので、新規対象の所定データにより適合した区分領域の領域パターンモデルを高速に探索することが可能となる。
また、請求項12記載のデータ処理装置によれば、請求項1乃至請求項12のいずれか1の前記効果に加え、少なくとも、話者の名前、男性/女性の性別、子供/大人/高齢者の年齢別等の話者の種類、発話する、数字、文章、単語等の発話語彙、発話速度、発話音量、方言に由来する特徴等の発話様式及び室内、自動車内、工場内、屋外(場所等により種類分けする)等の発話環境を考慮して音声データに対するパターンモデルを生成することが可能である。
また、請求項13記載のデータ処理装置によれば、請求項1乃至請求項12のいずれか1の前記効果に加え、例えば、所定データが音声データの場合に、室内(発話環境)で大人の男(話者の種類)が単語(発話語彙)を早口(発話様式)で発話したといったように、任意の特定条件の組み合わせを一つのグループとして形成することが可能となる。無論、例えば、室内(発話環境)で大人の男(話者の種類)が発話したといったように、もっと大きな括りでグループ分けしても良い。
また、請求項14記載のデータ処理装置によれば、請求項1乃至請求項13のいずれか1の前記効果に加え、各パターンモデル間のより適切な数学的距離を算出することが可能である。
また、請求項15記載のデータ処理装置によれば、請求項4乃至請求項14のいずれか1の前記効果に加え、区分内容が適切でないときや、新たなパターンモデルが加わったときなどに、適切な区分内容に変更することが可能である。また、視覚化されたパターンモデルの区分内容を変更することになるので、容易に区分内容の変更を行うことが可能である。
また、請求項16記載のデータ処理装置によれば、請求項4乃至請求項11のいずれか1の前記効果に加え、特定区分領域の領域パターンモデルを新規対象に向けて適応することが可能であり、パターンモデルが使用するメモリ容量を軽減することが可能である。
また、請求項17記載のデータ処理装置によれば、請求項16の前記効果に加え、領域パターンモデル探索手段によって探索された領域パターンモデルに対応する領域に含まれる、複数のパターンモデル対応低次元ベクトルに対応したパターンモデルを、再度パターンモデル対応低次元ベクトルに変換し、且つ区分けするようにしたので、当該区分けした領域から再度新規対象に適した領域パターンモデルを探索することで、新規対象に係る所定データのパターン認識により適した特定パターンモデルの生成が可能となる。
ここで、請求項18記載のデータ処理装置制御プログラムは、請求項1記載のデータ処理装置を制御するためのプログラムであり、その効果は重複するので記載を省略する
また、請求項19記載の特定パターンモデル提供システムによれば、システム利用者は、例えばインターネット等を介してPC、携帯電話、PDA等の情報処理端末と、データ処理装置とを接続して、自己の音声データをデータ処理装置に送信することで、自己の音声データを音声認識するのに適した特定パターンモデルを簡易に取得することが可能である。
本発明に係るデータ処理装置1の構成を示すブロック図である。 2次元の音響モデル対応低次元ベクトルの2次元空間上への表示の一例を示す図である。 表示された座標点の2次元空間上における領域区分の一例を示す図である。 第1の区分領域を示す図である。 第2の区分領域を示す図である。 第3の区分領域を示す図である。 第4の区分領域を示す図である。 第5の区分領域を示す図である。 図3に示す区分内容の変更の一例を示す図である。 データ処理装置1の動作処理を示すフローチャートである。 データ処理装置1における特定パターンモデルの生成処理を示すフローチャートである。 データ処理装置1における区分内容の変更処理を示すフローチャートである。 実施例1における音響モデル対応低次元ベクトルの表示内容を示す図である。 各区分領域毎に生成した領域音響モデル及び全領域に対する音響モデルの認識率を示す図である。 発話様式を示す図である。 図15に示す発話様式の組み合わせ毎に作成した音響モデルを2次元射影表示した一例を示す図である。 生活雑音、野鳥の鳴声、人間の音声のデータを用いて作成した音響モデルを2次元射影表示した一例を示す図である。 人間の口唇部の画像データを用いて作成したパターンモデルを2次元射影表示した一例を示す図である。 赤外線センサの出力データを用いて作成したパターンモデルを2次元射影表示した一例を示す図である。 加速度センサの出力データを用いて作成したパターンモデルを2次元射影表示した一例を示す図である。 本発明に係るデータ処理装置21の構成を示すブロック図である。 データ処理装置1とデータ処理装置21との領域区分方法の違いを示す図である。 高次元音響モデルを2次元座標表示した際の、認識率の高い話者と認識率の低い話者との分布を示す図である。 各区分領域の構造を示す図である。 領域パターンモデルの第1の探索方法を示す図である。 領域パターンモデルの第2の探索方法を示す図である。 領域パターンモデル探索部21cの第1の探索方法による探索処理を示すフローチャートである。 領域パターンモデル探索部21cの第2の探索方法による探索処理を示すフローチャートである。 (a)は、音響モデルの生成に用いる発話様式の種類を示す図であり、(b)は、本発明に係るデータ処理装置21によって2次元平面上に表示された音響モデル対応低次元ベクトルを示す図である。 本発明に係るデータ処理装置21の探索方法を用いて選択した音響モデルと、従来法の話者適応手法MLLRを用いて選択した音響モデルとに対する各話者と認識性能との関係を示す図である。 音響モデル探索時の発声数と、当該発声数により選択した音響モデルの認識性能との関係を示す図である。 第1の探索方法を用いて探索した音響モデルと、全領域音響モデルとの尤度計算により探索した音響モデルとについて、各話者と認識率との関係を示す図である。 重みに2種類の出現頻度を用いた場合と、重みに通常の出現頻度を用いた場合と、重みに認識性能が所定の閾値より低い語彙単語に含まれる音声単位の出現頻度を用いた場合とについて、話者と認識率との関係を示した図である。 (a)は、出現頻度として単純なdiphoneの出現頻度を用いて生成した音響空間地図を示す図であり、(b)は、出現頻度として認識性能の低いdiphoneの出現頻度を用いて生成した音響空間地図を示す図である。 本発明に係るデータ処理システムの構成を示すブロック図である。 情報処理端末350の詳細な構成を示す図である。 データ処理装置37の詳細構成を示すブロック図である。 システム利用者に適した音響モデルの配信を行う際の表示情報の一例を示す図である。 システム利用者の使用している音響モデルの性能を評価し、新たな音響モデルを配信する際の表示情報の一例を示す図である。 情報処理端末350におけるデータ送信処理を示すフローチャートである。 データ処理装置37の動作処理を示すフローチャートである。 情報処理端末350における表示用情報受信時の動作処理を示すフローチャートである。 本発明に係るデータ処理システムの構成を示すブロック図である。 情報処理端末2の詳細な構成を示す図である。 データ処理装置3の詳細構成を示すブロック図である。 データ処理システム7の初期データベースの構築処理及びデータ評価処理の流れを示す図である。 音響空間を2次元射影して表示した一例を示す図である。 情報処理端末2の動作処理を示すフローチャートである。 データ処理装置3の動作処理を示すフローチャートである。 第2の情報表示部3fにおける2次元射影化による座標情報の表示処理を示すフローチャートである。 本発明に係るデータ処理システムの構成を示すブロック図である。 情報処理端末9の詳細な構成を示す図である。 データ処理装置10の詳細構成を示すブロック図である。 データ処理システム8の初期データベースの構築処理及びデータ評価処理の流れを示す図である。 音響空間を2次元射影して表示した一例を示す図であり、(a)は、HMMを単語(又は文章)単位で扱った場合のHMMの各座標を点で表示したものであり、(b)は、HMMを音素単位(図では「a」,「i」,「u」,「e」,「o」)で扱った場合の各HMMの音素毎の各座標を点で表示したものである。 発話様式を軸の要素としたときの2次元射影表示の一例を示す図である。 情報処理端末9の動作処理を示すフローチャートである。 データ処理装置10の動作処理を示すフローチャートである。 第2の情報表示部10gにおける2次元射影化による座標情報の表示処理を示すフローチャートである。
[第1の実施形態]
以下、本発明の第1の実施形態を図面に基づき説明する。図1〜図14は、本発明に係るデータ処理装置の第1の実施形態を示す図である。
まず、本発明に係るデータ処理装置の構成を図1に基づき説明する。図1は、本発明に係るデータ処理装置1の構成を示すブロック図である。
データ処理装置1は、データ分類部1aと、データ記憶部1bと、パターンモデル生成部1cと、データ制御部1dと、数学的距離算出部1eと、パターンモデル変換部1fと、パターンモデル表示部1gと、領域区分部1hと、区分内容変更部1iと、領域選択部1jと、特定パターンモデル生成部1kと、を含んだ構成となっている。
データ分類部1aは、複数対象に係る不特定多数のデータを、複数の特定条件に基づき、グループ分けするものである。本実施形態においては、複数話者から取得した不特定多数の音声データを、話者の名前、男性/女性の性別、子供/大人/高齢者の年齢別等の「話者の種類」、発話する、数字、文章、単語等の「発話語彙」、発話速度、発話音量、方言に由来する特徴等の「発話様式」及び室内、自動車内、工場内、屋外(場所等により種類分けする)等の「発話環境」の4つの特定条件に基づき、グループ分けする。ここで、各特定条件の組み合わせ(特定条件内の各要素の組み合わせ及び特定条件同士の組み合わせなど)については、利用者によって任意の内容に設定可能である。
データ記憶部1bは、複数対象に係るデータや、当該データから生成したパターンモデル等のデータ処理に係るデータを記憶するものである。本実施形態においては、上記した音声データや、音声データから生成したパターンモデル(以下、音響モデルと称す)等の音声データ処理に係るデータを記憶する。
パターンモデル生成部1cは、データ分類部1aによってグループ分けしたデータに基づき、各グループ毎に4次元以上の高次元のパターンモデルを生成するものである。本実施形態においては、データ分類部1aによってグループ分けした音声データに基づき、各グループ毎に4次元以上の高次元の音響モデル(以下、高次元音響モデルと称す)を生成する。
データ制御部1dは、データ処理装置1を構成する各構成要素間のデータの流れを制御したり、各部の動作の流れを制御したりするものである。
数学的距離算出部1eは、パターンモデル生成部1cにおいて生成された複数のパターンモデルにおける、各パターンモデル相互間の数学的距離を算出するものである。本実施形態においては、各高次元音響モデル相互間の数学的距離を算出する。
パターンモデル変換部1fは、パターンモデル生成部1cにおいて生成されたパターンモデル及び数学的距離算出部1eにおいて算出された数学的距離に基づき、パターンモデルを当該パターンモデルよりも低次元のモデル(以下、パターンモデル対応低次元ベクトルと称す)に変換するものである。本実施形態においては、パターンモデル生成部1cにおいて生成された高次元音響モデル及び数学的距離算出部1eにおいて算出された数学的距離に基づき、高次元音響モデルを当該高次元音響モデルよりも低次元の音響モデル(以下、音響モデル対応低次元ベクトルと称す)に変換する。
パターンモデル表示部1gは、パターンモデル変換部1fにおいて、パターンモデル対応低次元ベクトルへと変換されたパターンモデルを、これと同次元の低次元空間上の座標点として表示するものである。本実施形態においては、パターンモデル変換部1fにおいて、音響モデル対応低次元ベクトルへと変換された音響モデルを、これと同次元の低次元空間上の座標点として表示する。
領域区分部1hは、パターンモデル表示部1gによって低次元空間上の座標点として表示されたパターンモデル対応低次元ベクトルを、当該低次元空間上において複数の領域に自動区分するものである。本実施形態においては、パターンモデル表示部1gによって低次元空間上の座標点として表示された音響モデル対応低次元ベクトルを、当該低次元空間上において複数の領域に自動区分する。また、本実施形態においては、複数に区分された領域のそれぞれを区分領域と称することとする。
区分内容変更部1iは、データ処理装置1の備える図示しない入力デバイスからの入力情報に基づき、領域区分部1hによって区分された区分内容を変更するものである。
領域選択部1jは、データ処理装置1の備える図示しない入力デバイスからの入力情報に基づき、領域区分部1hによって形成された複数の区分領域の中から、特定の区分領域を選択するものである。
特定パターンモデル生成部1kは、領域選択部1jによって選択された特定領域内のパターンモデル対応低次元ベクトルに対応したパターンモデルに係るデータに基づき、高次元のパターンモデルを生成するものである。また、本実施形態においては、領域選択部1jによって選択された特定領域内の音響モデル対応低次元ベクトルに対応した高次元音響モデルに係る音声データに基づき、高次元の音響モデルを生成する。ここで、本実施形態においては、特定パターンモデル生成部1kによって生成される高次元のパターンモデルを特定パターンモデル(本実施形態では、特定音響モデル)と称することとする。
なお、本実施形態において、データ処理装置1は、図示しないプロセッサと、RAM(Random Access Memory)と、専用のプログラムの記憶されたROM(Read Only Memory)と、を備えており、プロセッサにより専用のプログラムを実行することにより上記各部の機能を果たす。ここで、上記各部は、専用のプログラムのみでその機能を果たすもの、専用のプログラムによりハードウェアを制御してその機能を果たすもの等が混在している。
更に、図2〜図9に基づき、データ処理装置1の具体的な動作を説明する。
図2は、2次元の音響モデル対応低次元ベクトルの2次元空間上への表示の一例を示す図であり、図3は、表示された座標点の2次元空間上における領域区分の一例を示す図であり、図4〜図8は、図3における各区分領域を示す図であり、図9は、図3に示す区分内容の変更の一例を示す図である。
まず、データ分類部1aによって、データ記憶部1bに記憶された複数話者の音声データを、上記した、話者の種類、発話語彙、発話様式及び発話環境の4つの特定条件に基づき、グループ分けする。例えば、話者の名前、単語、早口、室内で1グループ、話者の名前、単語、大声、室内で1グループ、話者の名前、単語、早口、屋外で1グループといったように、4つの特定条件を全て含む組み合わせでグループ分けする。ここで、音声データには、グループ分けに関する情報が付加されることになる。
次に、パターンモデル生成部1cによって、上記グループ分けされた音声データを用いて、各グループ毎に高次元音響モデルを生成する。音響モデルは、例えばHMM等の公知の手法を用いて生成される。生成された高次元音響モデルは、生成時の音声データに対応付けてデータ記憶部1bに記憶される。
更に、数学的距離算出部1eによって、上記生成された各高次元音響モデル相互間の数学的距離を算出する。一般に高次元音響モデルは複数の音声単位のHMMの集合から成る。そこで、高次元音響モデルi及びjの距離を下式(1)で定義する。
Figure 0005155944
上式(1)において、d* ijは、高次元音響モデルiと高次元音響モデルjの相互距離であり、d(i.j,k)は、高次元音響モデルiに含まれる音声単位kのモデルと高次元音響モデルjに含まれる音声単位kのモデルの相互距離である。w(k)は、音声単位kの出現頻度であり、用途により任意に設定することができる。Kは、数学的距離を算出する際に用いる音声単位の数である。
また、数学的距離を算出する際に用いる音声単位としては、音声単位全体、音響的に同種の音声単位の集合、または特定の音声単位を目的に応じて選択すればよい。
d(i,j,k)としては、正規分布の平均ベクトルのユークリッド距離、バタチャリア距離、カルバック情報量などの公知の距離尺度を用いることが可能であるが、ここでは、認識性能に対する効果がカルバック情報量と同程度であることが明らかにされた、正規分布の標準偏差の積で正規化された平均値ベクトルのユークリッド距離を利用する。全ての高次元音響モデルの音声単位kのHMMが同一構造の混合正規分布に従うとする。音響モデルの状態アライメントが、1:1であると仮定すると、d(i,j,k)を下式(2)〜(5)で定義できる。
Figure 0005155944
ここで、μ(i,k,s,l,m)、δ(i,k,s,l,m)及びp(i,k,s,l,m)は、それぞれ高次元音響モデルi、音声単位k、状態s、次元l及びm番目の正規分布における平均値、標準偏差及び重みである。S(k)は音声単位kの状態数、Lは次元数,Mi,Mjは、それぞれ高次元音響モデルi及びjの正規分布の混合数を表す。音響パラメータとして、例えば、10次元のメル周波数ケプストラム係数(MFCC)と、その一次差分(ΔMFCC)と、パワーの1次差分(Δlog-Power)との計21次元を用いる。また、モデルサイズの観点から、単一正規分布による高次元音響モデルを前提とし、分布間の距離計算にも同様に単一正規分布間の距離を用いると、上式(2)〜(5)は下式(6)に簡単化される。
Figure 0005155944
更に、パターンモデル変換部1fによって、上記算出された数学的距離を利用して、複数の高次元音響モデルを、これと同数の音響モデル対応低次元ベクトルに変換する。ここで、相互間の数学的距離が小さい2つの高次元音響モデルは互いに近くに、相互間の数学的距離が大きい2つの高次元音響モデルは互いに遠くに位置するように、全ての高次元音響モデルを相互間の距離関係を保持したまま音響モデル対応低次元ベクトル(2次元又は3次元)に変換する。本実施形態において、パターンモデル変換部1fは、高次元音響モデルを2次元の音響モデル対応低次元ベクトルに変換することとする。
ここで、距離関係を保持したままで高次元音響モデルを2次元の音響モデル対応低次元ベクトルに変換する変換方法としては、当業者には公知であるSammon法がある。
Sammon法は、高次元空間上の高次元情報の相互距離の総和と低次元空間上の写像位置座標の相互ユークリッド距離の総和の差が最小となるように,最急降下法により低次元空間上の写像位置座標を最適化する非線形写像手法である。相互距離が小さい2つの高次元情報は低次元空間上でも互いに近くに、相互距離が大きい2つの高次元情報は低次元空間上でも互いに遠くに位置するように全ての高次元情報を低次元空間に射影する。ここで、Sammon法において最小化すべき誤差関数E(t)は下式(7)で与えられる。
Figure 0005155944
本実施形態において、パターンモデル変換部1fは、上記Sammon法を用いて高次元音響モデルを2次元の音響モデル対応低次元ベクトルに変換する。従って、この場合の変換処理は、高次元音響モデルに低次元空間座標を付与して、複数の高次元音響モデルを低次元空間に射影することになる。
つまり、変換された音響モデル対応低次元ベクトルと同次元の低次元空間において、低次元空間座標の数学的距離(例えば、ユークリッド距離)が近い音響モデル対応低次元ベクトルに対応した高次元音響モデルは相互に類似しており、対応する特定条件も類似していることを意味していると考えられる。また、高次元音響モデルが中央に位置する程、対応する特定条件はより平均的であると考えられる。
ここで、本実施形態においては、この座標情報が音響モデル対応低次元ベクトルの要素の値となる。また、付与される座標情報は、対応する高次元音響モデルに対応付けてデータ記憶部1bに記憶される。
更に、パターンモデル表示部1gによって、複数の音響モデル対応低次元ベクトルの要素の値(座標情報)に基づき、当該複数の音響モデル対応低次元ベクトルを、図2に示すように、これらの座標情報の重心を中心(原点)とした2次元空間上の座標点として表示する。以下、こうして作成された図を音響空間地図と呼ぶこととする。
更に、領域区分部1hによって、2次元空間内の座標点の存在する領域を、図3に示すように、第1〜第5の区分領域30〜34の5つの区分領域に区分する。
つまり、2次元空間内の座標点の存在する領域を、中心から最も離れた点と中心との間の距離を半径とした外円と、この外円内の第1の区分領域30である内円と、により区分し、更に、内円と外円の両外周間に形成される環状の領域を4つに区分(第2〜第5の区分領域31〜34)する。
従って、パターンモデル表示部1gは、領域区分部1hによる区分内容に基づき、図3に示すように、表示座標点に合わせて区分内容を表示する。この区分処理により、図4〜図8に示す第1〜第5の区分領域30〜34のように、外円内の複数の音響モデル対応低次元ベクトルが、各区分領域内の音響モデル対応低次元ベクトルにグループ分けされることになる。
更に、マウスやキーボード等の入力デバイスからの入力情報に基づき、領域選択部1jにより第1〜第5の区分領域30〜34のいずれかが選択される。そして、特定の区分領域が選択されると、特定パターンモデル生成部1kによって、前記選択された区分領域内の音響モデル対応低次元ベクトルに対応した高次元音響モデルの生成時に用いられた音声データに基づき、特定音響モデルが生成される。ここで、特定音響モデルは、上記高次元音響モデルと同様に、例えばHMM等の公知の手法を用いて生成される。生成された特定音響モデルは、データ記憶部1bに記憶される。
更に、本実施形態においては、区分内容変更部1iによって、領域区分部1hにより自動的に区分された区分内容を変更することが可能である。例えば、変更内容としては、図9に示すように、マウスやキーボード等の入力デバイスからの入力情報に基づき、領域区分部1hによる区分内容をそのままに、全体を図中の矢印の方向に回転させたり、内円35を1つ増やし、新たな区分領域30a〜30dを形成したりといったことが可能である。ここで、区分内容変更部1iは、請求の範囲第10項記載の区分内容変更手段に対応する。
更に、図10に基づき、データ処理装置1の動作処理の流れを説明する。図10は、データ処理装置1の動作処理を示すフローチャートである。なお、図10に示すフローチャートにおいては、実施形態に合わせて、扱うデータを音声データとし、生成するパターンモデルを音響モデルとしているが、これに限定されるものではなく、用途に応じて様々なデータやパターンモデルを扱うことが可能である。
図10に示すように、まずステップS100に移行し、データ分類部1aにおいて、データ記憶部1bに記憶された複数話者の音声データをデータ制御部1dを介して読み出し、ステップS102に移行する。
ステップS102では、データ分類部1aにおいて、上記した各特定条件の組み合わせに基づき、読み出した音声データをグループ分けしてステップS104に移行する。
ステップS104では、データ制御部1dにおいて、データ分類部1aのグループ分け処理が完了したか否かを判定し、完了したと判定された場合(Yes)はステップS106に移行し、そうでない場合(No)はステップS100に移行する。
ステップS106に移行した場合は、パターンモデル生成部1cにおいて、グループ分けされた各グループ毎に音声データを読み出し、各グループ毎に高次元音響モデルを生成してステップS108に移行する。
ステップS108では、数学的距離算出部1eにおいて、各グループ毎に生成された上記複数の高次元音響モデル相互間の数学的距離を上記式(1)を用いて算出してステップS110に移行する。
ステップS110では、パターンモデル変換部1fにおいて、上記生成された複数の高次元音響モデル及び各高次元音響モデル相互間の数学的距離に基づき、Sammon法を用いて、高次元音響モデルを音響モデル対応低次元ベクトルに変換してステップS112に移行する。
ステップS112では、データ制御部1dにおいて、パターンモデル変換部1fによる変換処理が終了したか否かを判定し、終了したと判定された場合(Yes)はステップS114に移行し、そうでない場合(No)はステップS110に移行して変換処理を続行する。
ステップS114に移行した場合は、パターンモデル表示部1gにおいて、複数の音響モデル対応低次元ベクトルを低次元空間上に表示する処理を行いステップS116に移行する。
ステップS116に移行すると、領域区分部1hにおいて、低次元空間における音響モデル対応低次元ベクトルの存在する領域を複数の区分領域に区分する処理を行い処理を終了する。
更に、図11に基づき、データ処理装置1における特定音響モデルの生成処理の流れを説明する。図11は、データ処理装置1における特定音響モデルの生成処理を示すフローチャートである。なお、図11に示すフローチャートにおいては、実施形態に合わせて、扱うデータを音声データとし、生成する特定パターンモデルを特定音響モデルとしているが、これに限定されるものではなく、用途に応じて様々なデータや特定パターンモデルを扱うことが可能である。
図11に示すように、データ制御部1dにおいて、まずステップS200に移行し、領域選択部1jにより、入力情報に基づく区分領域が選択されたか否かを判定し、選択されたと判定された場合(Yes)はステップS202に移行し、そうでない場合(No)は選択されるまで待機する。
ステップS202に移行した場合は、特定パターンモデル生成部1kにおいて、領域選択部1jにより選択された区分領域内の音響モデル対応低次元ベクトルに対応する高次元音響モデルに係る音声データを、データ制御部1dを介してデータ記憶部1bから読み出しステップS204に移行する。
ステップS204では、特定パターンモデル生成部1kにおいて、上記読み出した音声データから特定音響モデルを生成してステップS206に移行する。
ステップS206では、特定音響モデル1kにおいて、上記生成した特定音響モデルを、データ制御部1dを介してデータ記憶部1bに記憶して処理を終了する。
更に、図12に基づき、データ処理装置1における区分内容の変更処理の流れを説明する。図12は、データ処理装置1における区分内容の変更処理を示すフローチャートである。
図12に示すように、まずステップS300に移行し、区分内容変更部1iにおいて変更モードが選択されたか否かを判定し、選択されたと判定された場合(Yes)はステップS302に移行し、そうでない場合(No)は選択されるまで待機する。ここで、本実施形態においては、変更モードを選択することにより区分内容の変更処理が可能となる。
ステップS302に移行した場合は、区分内容変更部1iにおいて、変更内容が入力されたか否かを判定し、入力されたと判定された場合(Yes)はステップS304に移行し、そうでない場合(No)は入力されるまで待機する。
ステップS304に移行した場合は、区分内容変更部1iにおいて、入力された変更内容に基づき区分内容を変更してステップS306に移行する。
ステップS306では、区分内容変更部1iにおいて、入力デバイスからの入力により変更処理が終了したと判定された場合(Yes)はステップS308に移行し、そうでない場合(No)はステップS302に移行する。
ステップS308に移行した場合は、区分内容変更部1iにおいて、データ制御部1dを介して、変更された区分内容の情報をデータ記憶部1bに記憶してステップS302に移行する。ここで、本実施形態においては、入力デバイスから変更モードの終了を指示する入力があると、変更モード自体を終了する。
以上、データ分類部1aによって、複数対象に係る所定データ(上記実施形態においては、複数話者の音声データ)を、特定条件に基づきグルー分けすることが可能である。
また、パターンモデル生成部1cによって、グループ分けされた所定データ(上記実施形態においては、音声データ)から各グループ毎のパターンモデル(上記実施形態においては、高次元音響モデル)を生成することが可能である。
また、数学的距離算出部1eによって、複数のパターンモデル(上記実施形態においては、高次元音響モデル)における、各パターンモデル相互間の数学的距離を算出することが可能である。
また、パターンモデル変換部1fによって、複数のパターンモデル(上記実施形態においては、高次元音響モデル)及びこれら相互間の数学的距離に基づき、複数のパターンモデル(上記実施形態においては、高次元音響モデル)をこれと同数のパターンモデル対応低次元ベクトル(上記実施形態においては、音響モデル対応低次元ベクトル)に変換することが可能である。
また、パターンモデル表示部1gによって、複数のパターンモデル対応低次元ベクトル(上記実施形態においては、音響モデル対応低次元ベクトル)を、これと同次元の低次元空間(上記実施形態では2次元空間)上に座標点として表示することが可能である。こうして作成された図をパターン空間地図と呼ぶこととする。
また、領域区分部1hによって、最内円から外円方向に向かうほど、環状領域に含まれるパターンモデル対応低次元ベクトル(上記実施形態においては、音響モデル対応低次元ベクトル)が細かく区分されるように、低次元空間上の座標点の存在する領域を自動的に区分することが可能である。
また、区分内容変更部1iによって、領域区分部1hによって自動的に区分された区分内容を入力情報に基づき変更することが可能である。
また、領域選択部1jによって、表示された区分領域のうち入力された情報に基づく区分領域を選択することが可能である。
また、特定パターンモデル生成部1kによって、領域選択部1iにより選択された区分領域内の複数のパターンモデル対応低次元ベクトル(上記実施形態においては、音響モデル対応低次元ベクトル)に対応するパターンモデル(上記実施形態においては、高次元音響モデル)に係るデータ(上記実施形態においては、音声データ)から、特定パターンモデル(上記実施形態においては、特定音響モデル)を生成することが可能である。
更に、上記データ処理装置1による特定音響モデル生成の実施例を図面に基づき説明する。図13及び図14は、本発明の実施例1を示す図である。図13は、実施例1における音響モデル対応低次元ベクトルの表示内容を示す図であり、図14は、各区分領域毎に生成した特定音響モデル及び全領域に対する音響モデルの認識率を示す図である。
本実施例においては、「通常(対象話者の普段の口調)」、「早口」、「大声」、「仮名強調(仮名一文字ずつ区切った喋り方)」、「小声」の5種類の発話様式を複数の話者に呈示して同一の日本語語彙を発声させた。この時、各話者が呈示された発話様式の通りに忠実に発声するようには強制しなかったため、必ずしも呈示された発話様式と実際の発話様式は一致していない。このような状況では、呈示した発話様式のような先見的な情報が完全に正しいという前提で呈示した発話様式のみに従って音響モデルを作成しても、最高の性能が得られる保証はない。そこで、最高の性能を得られるように、本発明を実施した例を以下に示す。
まず、「通常」、「早口」、「大声」、「仮名強調」、「小声」の5種類の発話様式を複数の話者に呈示して同一の語彙を発声させた音声データをデータ記憶部1bに記憶した。
ここでは、呈示した発話様式と話者(名前等)の組み合わせを特定条件の一組とし、この一組の特定条件毎にデータ分類部1aでグループ分けをした後、パターンモデル生成部1cにおいて各グループ毎に高次元音響モデルをHMMにより生成することで、多数の高次元音響モデルを得た。
ここで、本実施例において、音声単位としては、biphoneを使用し、HMMの状態数は3で、各状態は1つの正規分布を有することとした。
更に、数学的距離算出部1eにおいて、各高次元音響モデル相互間の数学的距離を上記式(1)により算出した。ここで、正規分布間の数学的距離として、正規分布の標準偏差で正規化された平均ベクトルのユークリッド距離を使用した。また、語彙に含まれるbiphoneの出現頻度w(k)も、上記式(1)による算出処理において使用した。
更に、算出された数学的距離を用いて、パターンモデル変換部1fにおいて、Sammon法により高次元音響モデルを音響モデル対応低次元ベクトルに変換する処理を行い、第1図3に示すように、パターンモデル表示部1gにより2次元平面上で座標点により表示した。つまり、これら各点が、話者と発話様式の組み合わせを有する各高次元音響モデル相互間の距離関係を表している。
更に、図13に示すように、領域区分部1hによって、2次元空間上における座標点の存在する領域を、上記実施形態と同様に、第1〜第5の区分領域30〜34の5つの区分領域に区分した。
本実施例では、図13中のA〜Dの4つの音響モデル対応低次元ベクトルの特定条件にそれぞれ対応した特定音響モデルを生成した。ここで、A〜Dは第3の区分領域32内にあるので、ここでは、領域選択部1jによって、第3の区分領域32を選択させた。
第3の区分領域32が選択されると、特定パターンモデル生成部1kによって、第3の区分領域32内の複数の音響モデル対応低次元ベクトルにそれぞれ対応する複数の高次元音響モデルに係る音声データから1つの領域音響モデルが生成される。
更に、比較のために、第1、第2、第4、第5の区分領域30、31、33、34についても、それぞれの領域内の複数の音響モデル対応低次元ベクトルにそれぞれ対応する複数の高次元音響モデルに係る音声データからそれぞれの領域音響モデルを生成した。
更に、従来の音響モデルとの比較も行うために、領域内の全ての音響モデル対応低次元ベクトルにそれぞれ対応する高次元音響モデルにそれぞれ係る音声データから1つの領域音響モデルを生成した。
そして、これら作成した6つの領域音響モデルを用いた場合の上記A〜Dの4つの特定音響モデルに対する全音声データの音声認識率を測定した結果が図14である。ここで、語彙サイズは、176単語である。
図14の測定結果から以下のことが解る。
(1)第3の区分領域32に属する4つの特定条件(A、B、C、D)は、いずれも、自らが属する区分領域である第3の区分領域32に対応する領域音響モデルが最も高い認識率を与える。次に、認識率が高いのは、全領域に対応する領域音響モデルである。
(2)全領域から作成された領域音響モデルを用いた場合、A〜Dの4つの特定音響モデルに対する全音声データの認識率を比較すると、図13の中心点とA〜Dの4つの各点との間のそれぞれのユークリッド距離と、認識率と、に線形の関係があることが分かる。すなわち、中心点からの距離が遠い程、認識率が低いことが分かる。
上記実施例から、本発明の効果が以下のようにまとめられる。
(1)座標点の存在する領域をいくつかの区分領域に分割し、各区分領域毎の領域音響モデルを作成することにより、全領域に対応する全ての音声データから作成された音響モデルよりも高い認識率を得ることができる。
(2)中心点からの距離を利用すると、各特定条件の認識率を予測することができる。中心から遠い位置にある音響モデル対応低次元ベクトルの特定条件は認識性能が低い。逆に、中心に近い位置にある音響モデル対応低次元ベクトルの特定条件ほど認識性能が高い。
更に、図15及び図16に基づいて、本発明を用いて発話様式の組み合わせ毎に作成した音響モデルを2次元射影表示した実施例2について説明する。図15は、発話様式を示す図であり、図16は、図15に示す発話様式の組み合わせ毎に作成した音響モデルを2次元射影表示した図である。
本実施例においては、男性145名に、表1に示す発話様式の中から複数の発話様式を指定して、5240単語の中の176単語から成る複数の単語リストを発声して貰った。
音声データ収録時における発話様式としては、図15に示すように、通常(普段の速度で単語リストを読め)、早口(通常より早口で単語リストを読め)、高い声(通常より高い声で単語リストを読め)、小声(近くの人に聞こえないように単語リストを読め)、大声(離れた人にも聞こえるように大きい声で単語リストを読め)、ロンバード(自動車雑音を聞きながら単語リストを読め)、仮名強調(読み仮名それぞれを強調するように単語リストを読め)の7種類が適用され、収録時には対象者に括弧内の指示を行った。
まず、収録された全てのデータを利用して、男性用不特定話者音響モデルを作成した。次に、この音響モデルを初期モデルとして、連結学習により、話者と収録時に指示された発話様式の組み合わせ毎に音響モデル(以下、話者・発話様式音響モデルと呼ぶ)を作成した。こうして作成された話者・発話様式音響モデルを、Sammon法を用いて2次元射影化し、図15に示すように、その座標点を表示した。ここで、上式(1)のw(k)として、5240単語の音声単位の出現頻度を利用した。中心付近に表示されている「▲」は、初期モデルとして使用した男性用不特定話者音響モデルの座標点を表す。
図16から、以下のことが観察された。
1)同一の発話様式を指定したとしても、実際の発話様式は話者によって異なることが分かる。このことは、予め付与された発話様式名を鵜呑みにして、発話様式毎の不特定話者音響モデルを作成する場合のデメリットを示唆している。
2)発声速度および発声音量が対極の発話様式(例えば、仮名強調vs早口、ささやき声vs大声/ロンバード)が、原点対称の場所に位置している。
また、図16に示す座標点を上記同様に領域区分部1hによって同心円上の領域に分割し、更に、特定パターンモデル生成部1kによって各区分領域毎に音響モデルを再作成すると、全領域のデータから作成した不特定話者音響モデルと比較して、周辺部に位置する話者に関し、顕著な性能改善が得られることが分かった。
なお、上記第1の実施形態、実施例1及び実施例2においては、人間の音声を例に取り説明してきたが、本願発明は人間の音声に対してのみ適用可能というわけではなく、対象データとして、人間の音声以外のデータを利用した場合でも同様の課題を解決し、同様の効果を有する。
人間の音声以外のデータとしては、例えば、住宅内の生活雑音、工場騒音、交通騒音などの音響データや野鳥、昆虫、蛙、蝙蝠、動物などの野生生物の鳴声データ、画像データ、赤外線センサデータ、加速度センサデータ、方位角センサデータ、圧力センサデータ、圧電素子や振動計などの振動センサデータ及びその他の全てのセンサデータ、リチウムイオン2次電池や燃料電池などの電池の充電状況に関する物理的データ、心電図、筋電図、血圧や体重などの生体信号データ、遺伝子解析用のマイクロアレイデータ、気温、湿度、気圧などの気象データ、酸素濃度、窒素酸化物濃度などの環境データ、株価、物価などの経済動向データなどの時系列データ等がある。
以下では、図17に基づき、上記データ処理装置1において、生活雑音、野鳥の鳴声、人間の音声のデータを用いてパターンモデルを生成し、これら生成したパターンモデルを2次元射影表示した実施例3を示す。ここで、図17は、生活雑音、野鳥の鳴声、人間の音声のデータを用いて作成したパターンモデルを2次元射影表示した一例を示す図である。
本実施例においては、スリッパの音、雨戸を閉める音、ペンを板張りの床に落とす音などの住宅内の33種の生活雑音、カラス、ヒヨドリ、キジバトなど40種の野鳥の鳴声及び日本人の日本語の25種の音素(母音5種、半母音2種、子音18種)のスペクトルデータからHMMによりパターンモデルを生成した。そして、当該生成されたパターンモデルを音響モデル変換部1fにおいて、2次元のパターンモデル対応低次元ベクトルに変換し、この変換結果を、図17に示すように2次元空間上の座標点として表示した。
図17中、生活雑音のパターンモデルは▲で、野鳥の鳴声のパターンモデルは×で、日本人男性の日本語の音素のパターンモデルは■で、日本人女性の日本語の音素のパターンモデルは□でそれぞれ表した。
この表示結果から、生活雑音、野鳥の鳴声、人間の音声は、それぞれが、ほぼ3つの領域に分かれており、これにより、生活雑音か、野鳥の鳴声か、人間の音声かを識別することは容易であると推察される。
つまり、音響データ、鳴声データ、人間の音声データといったように、様々な種類の音を識別可能かどうかを判断する上で、本願発明により得られる、パターンモデルの低次元(ここでは、2次元)空間上への表示結果は大変有用であると言える。
更に、図18に基づき、上記データ処理装置1において、人間の口唇部の画像データを用いてパターンモデルを生成し、これら生成したパターンモデルを2次元射影表示した実施例4を示す。ここで、図18は、人間の口唇部の画像データを用いて作成したパターンモデルを2次元射影表示した一例を示す図である。
本実施例においては、9名の男性の顔画像から抽出した口唇部の動画像データを、発話に伴う開閉の状況に従って、閉じている状況、閉じている状態から開いている状態に遷移している状況、開いている状況、開いている状態から閉じている状態に遷移している状況の4つの静止画像グループに分類し、それぞれについて2次元ケプストラムとその差分を特徴ベクトルとしてHMMによりパターンモデルを生成した。そして、当該生成されたパターンモデルを音響モデル変換部1fにおいて、2次元のパターンモデル対応低次元ベクトルに変換し、この変換結果を、図18に示すように2次元空間上の座標点として表示した。
図18中、閉じている状況の9個のパターンモデルは■で、閉じている状態から開いている状態に遷移している状況の9個のパターンモデルは▲で、開いている状況の9個のパターンモデルは□で、開いている状態から閉じている状態に遷移している状況の9個のパターンモデルは△でそれぞれ表した。
この表示結果から、閉じている状況、閉じている状態から開いている状態に遷移している状況、開いている状況、開いている状態から閉じている状態に遷移している状況の4つの静止画像グループが明確に分離されて固まりを形成していることから、口唇の4つの開閉状況を識別することは容易であると推察される。
つまり、口唇画像の開閉の状況を示す画像データといったように、対象の様々な状態を示す画像を識別可能かどうかを判断する上で、本願発明により得られる、パターンモデルの低次元(ここでは、2次元)空間上への表示結果は大変有用であると言える。
更に、図19に基づき、赤外線センサデータを用いてパターンモデルを生成し、これら生成したパターンモデルを2次元射影表示した実施例5を示す。ここで、図19は、赤外線センサの出力データを用いて作成したパターンモデルを2次元射影表示した一例を示す図である。
本実施例においては、アナログ出力型の赤外線センサ(本実施例では、焦電センサ)を高さ2.4mの天井に設置し、その真下を人が3144回、犬が632回歩行した場合の赤外線センサの出力データをFFT(Fast Fourie Transform)した結果から、HMMによりパターンモデルを生成した。そして、当該生成されたパターンモデルをパターンモデル変換部1fにおいて、2次元のパターンモデル対応低次元ベクトルに変換し、この変換結果を、図19に示すように2次元空間上の座標点として表示した。
図19中、人のパターンモデルを×で、犬のパターンモデルを▲でそれぞれ表す。
この表示結果から、人と犬とはそれぞれ異なった固まりを形成することから、赤外線センサを用いた人か犬かの識別は容易であることが分かる。
つまり、人や犬などの行動に対する赤外線センサの出力データといったように、対象の状態(例えば、動作状態等)に対する赤外線センサの出力データから対象を識別可能かどうかを判断する上で、本願発明により得られる、パターンモデルの低次元(ここでは、2次元)空間上への表示結果は大変有用であると言える。
更に、図20に基づき、加速度センサの出力データを用いてパターンモデルを生成し、これら生成したパターンモデルを2次元射影表示した実施例6を示す。ここで、図20は、赤外線センサの出力データを用いて作成したパターンモデルを2次元射影表示した一例を示す図である。
本実施例においては、男性1名に加速度センサをズボンのポケットに挿入して貰い、階段を降下した場合、階段を上昇した場合、廊下を直進歩行した場合の加速度センサの3軸(X軸、Y軸、Z軸)の時系列データをFFTした結果から、HMMによりパターンモデルを生成した。生成したパターンモデルの数は、階段を降下した場合29個、階段を上昇した場合28個、廊下を直進歩行した場合24個である。そして、当該生成されたパターンモデルをパターンモデル変換部1fにおいて、2次元のパターンモデル対応低次元ベクトルに変換し、この変換結果を、図20に示すように2次元空間上の座標点として表示した。
図20中、階段を降下した場合のパターンモデルは■で、階段を降下した場合のパターンモデルは▲で、廊下を直進歩行した場合のパターンモデルは×でそれぞれ表した。
この表示結果から、通常に階段を降下した場合のパターンモデルは、座標点の表示領域上部の楕円で囲まれる範囲に固まっているが、表示領域下部の楕円で囲まれる範囲にも散見される。これは、階段を降下しているときに踊場に差し掛かり、3軸の加速度パターンに変化が生じ、廊下の直進歩行に近い歩行状態になったことを示唆している。
つまり、人間の歩行パターンに対する赤外線センサの出力データといったように、対象の行動に対する加速度センサの出力データから対象の行動内容を識別可能かどうかを判断する上で、本願発明により得られる、パターンモデルの低次元(ここでは、2次元)空間上への表示結果は大変有用であると言える。
ここで、図1に示す、データ分類部1aは、請求項1又は13記載のデータ分類手段に対応し、パターンモデル生成部1cは、請求項1記載のパターンモデル生成手段に対応し、数学的距離算出部1eは、請求項1、5及び14のいずれか1項に記載の数学的距離算出手段に対応し、パターンモデル変換部1fは、請求項1又は17記載のパターンモデル変換手段に対応し、パターンモデル表示部1gは、請求項1又は17記載のパターンモデル対応低次元ベクトル表示手段に対応し、領域区分部1hは、請求項1、2、3、7、8、15及び17のいずれか1項に記載の領域区分手段に対応し、区分内容変更部1iは、請求項2又は15記載の区分内容変更手段に対応し、領域選択部1jは、請求項3記載の領域選択手段に対応し、特定パターンモデル生成部1kは、請求項3記載の領域パターンモデル生成手段に対応する。
なお、上記第1の実施形態においては、パターンモデル変換部1fによる変換後の音響モデル対応低次元ベクトルを2次元としたが、これに限らず、1次元や3次元に変換するようにしても良い。
また、上記実施形態においては、領域区分部1hによる領域の区分処理において、各区分領域内の音響モデル対応低次元ベクトルが他の区分領域と重複しないように区分されているが、これに限らず、各区分領域が他の区分領域の音響モデル対応低次元ベクトルを重複して含むような区分内容で区分しても良い。
更に、上記第1の実施形態において、各区分領域毎に区分領域内の音響モデル対応低次元ベクトルに対応する高次元音響モデルのみを、同様に本発明を適用して、新たな音響モデル対応低次元ベクトルへと変換して、新たな低次元空間上に再表示し、更に、細かい領域に区分して、領域音響モデルを生成することにより、より高い認識性能を得ることが可能であることはいうまでもない。
[第2の実施形態]
更に、本発明の第2の実施形態を図面に基づき説明する。図21〜図39は、本発明に係るデータ処理装置の第2の実施形態を示す図である。
まず、本発明に係るデータ処理装置の構成を図21に基づき説明する。図21は、本発明に係るデータ処理装置21の構成を示すブロック図である。なお、上記第1の実施形態におけるデータ処理装置1と重複する機能部は同じ符号を付し、機能が同じものについてはその説明を省略する。
データ処理装置21は、データ分類部1aと、データ記憶部1bと、パターンモデル生成部1cと、データ制御部1dと、数学的距離算出部1e'と、パターンモデル変換部1fと、パターンモデル表示部1gと、領域区分部1hと、区分内容変更部1iと、領域選択部1jと、特定パターンモデル生成部1kと、領域パターンモデル生成部21aと、データ取得部21bと、領域パターンモデル探索部21cと、を含んだ構成となっている。
数学的距離算出部1e'は、パターンモデル生成部1cにおいて生成された複数のパターンモデルにおける、各パターンモデル相互間の数学的距離を算出するものである。本実施形態においては、高次元音響モデルにおける、各高次元音響モデル相互間の数学的距離を算出する。なお、上記第1の実施形態における数学的距離算出部1eと異なる点は、数学的距離の算出における上式(1)における音声単位kの出現頻度w(k)に、パターンモデル生成部1cにおいて生成された音響モデルに対して認識性能が所定の閾値より低い音声単位の出現頻度を用いていることである。第1の実施形態においては、単純な出現頻度(例えば、音声データ中の音素「a」の出現頻度)をw(k)として用いている。
領域パターンモデル生成部21aは、領域区分部1hにおいて自動区分された、各区分領域毎のパターンモデル対応低次元ベクトルに対応したパターンモデルの生成に係るデータに基づき、各区分領域毎のパターンモデルである領域パターンモデルを生成する機能を有したものである。本実施形態においては、領域区分部1hにおいて自動区分された、各区分領域毎の音響モデル対応低次元ベクトルに対応した高次元音響モデルの生成に係る音声データに基づき、各区分領域毎の高次元音響モデルである領域音響モデルを生成する。
データ取得部21bは、パターンモデルの生成対象に係る所定データを取得する機能を有したものであり、これにより、新規対象(未知の対象)に係る所定データを取得することが可能である。本実施形態においては、マイク等の話者の発声した音声(アナログデータ)を取得する手段と、A/D変換器等の当該アナログデータである音声をデジタルデータに変換する手段と、を備えている。
領域パターンモデル探索部21cは、データ取得部21bによって取得された新規対象に係る所定データに基づき、当該所定データに対する各区分領域に対応した領域パターンモデルの尤度を算出し、当該算出した尤度に基づき、新規対象の所定データをパターン認識するのに適した領域パターンモデルを探索する機能を有したものである。本実施形態においては、データ取得部21bによって取得された新規話者の音声データに対する各区分領域に対応した領域音響モデルの尤度を算出し、当該算出した尤度に基づき、新規話者の音声データをパターン認識するのに適した領域音響モデルを探索する。
更に、図22〜図26に基づき、データ処理装置21の具体的な動作を説明する。
図22は、データ処理装置1とデータ処理装置21との領域区分方法の違いを示す図である。また、図23は、高次元音響モデルを2次元座標表示した際の、認識率の高い話者と認識率の低い話者との分布を示す図である。また、図24は、各区分領域の構造を示す図である。また、図25は、領域パターンモデルの第1の探索方法を示す図であり、図26は、領域パターンモデルの第2の探索方法を示す図である。
まず、データ分類部1aによって、データ記憶部1bに記憶された複数話者の音声データを、上記した、話者の種類、発話語彙、発話様式及び発話環境の4つの特定条件に基づき、グループ分けする。例えば、話者の名前、単語、早口、室内で1グループ、話者の名前、単語、大声、室内で1グループ、話者の名前、単語、早口、屋外で1グループといったように、4つの特定条件を全て含む組み合わせでグループ分けする。ここで、音声データには、グループ分けに関する情報が付加されることになる。
次に、パターンモデル生成部1cによって、上記グループ分けされた音声データを用いて、各グループ毎に高次元音響モデルを生成する。音響モデルは、例えばHMM等の公知の手法を用いて生成される。生成された高次元音響モデルは、生成時の音声データに対応付けてデータ記憶部1bに記憶される。
更に、数学的距離算出部1e'によって、上記生成された各高次元音響モデル相互間の数学的距離を算出する。算出にあたっては、例えば、上記式(1)を用いる。
このとき、上記式(1)における音声単位kに対する出現頻度w(k)として、パターンモデル生成部1cによって生成された高次元音響モデルとデータ記憶部1bに記憶された複数話者の音声データとの尤度を算出して、尤度(認識性能)が所定の閾値より低い音声単位の出現頻度を用いた。
一般に、音響的に話者の遠近を距離で定義する場合、その遠近関係は音素により異なる。音素毎に距離を求める場合は問題ないが、全ての音素を考慮した話者間の距離を定義する場合、なんらかの重み付けが必要となる。重みには認識性能に寄与するものを用いることが重要である。上記第1の実施形態において、重みに音声単位(音素等)の出現頻度を用いているが、これは、出現頻度の高い音声単位が認識の際に重要な音声単位であると仮定しているため、例えば、出現頻度が「0」の音素は認識に必要でないため、距離計算の際にも必要でないとの判断によるものである。
本実施形態においては、上記したように、認識性能が所定の閾値より低い音声単位の出現頻度を用いているが、これは、例えば、出現頻度が高い音声単位でも、どの話者が話しても高確率で認識する音声単位(音素等)であれば特に考慮する必要はなく、よって距離計算においても不必要であると判断できることと、認識性能の低い音声単位を距離計算で考慮に入れることで、誤認識の傾向と音響的特徴の両方を考慮し、認識性能の低い話者に、より焦点を当てたクラスタリングを行うことを目的としていることによる。
また、数学的距離を算出する際に用いる音声単位としては、音声単位全体、音響的に同種の音声単位の集合、または特定の音声単位を目的に応じて選択すればよい。
更に、パターンモデル変換部1fによって、上記算出された数学的距離を利用して、複数の高次元音響モデルを、これと同数の音響モデル対応低次元ベクトルに変換する。ここで、相互間の数学的距離が小さい2つの高次元音響モデルは互いに近くに、相互間の数学的距離が大きい2つの高次元音響モデルは互いに遠くに位置するように、全ての高次元音響モデルを相互間の距離関係を保持したまま音響モデル対応低次元ベクトル(2次元又は3次元)に変換する。本実施形態において、パターンモデル変換部1fは、高次元音響モデルを2次元の音響モデル対応低次元ベクトルに変換することとする。ここで、距離関係を保持したままで高次元音響モデルを2次元の音響モデル対応低次元ベクトルに変換する変換方法としては、上記第1の実施形態と同様に、当業者には公知であるSammon法を用いる。
つまり、上記第1の実施形態と同様に、パターンモデル変換部1fは、上記Sammon法を用いて高次元音響モデルを2次元の音響モデル対応低次元ベクトルに変換する。従って、この場合の変換処理は、高次元音響モデルに低次元空間座標を付与して、複数の高次元音響モデルを低次元空間に射影することになる。
上記第1の実施形態と同様に、変換された音響モデル対応低次元ベクトルと同次元の低次元空間において、低次元空間座標の数学的距離(例えば、ユークリッド距離)が近い音響モデル対応低次元ベクトルに対応した高次元音響モデルは相互に類似しており、対応する特定条件も類似していることを意味していると考えられる。また、高次元音響モデルが中央に位置する程、対応する特定条件はより平均的であると考えられる。
ここで、本実施形態においては、この座標情報が音響モデル対応低次元ベクトルの要素の値となる。また、付与される座標情報は、対応する高次元音響モデルに対応付けてデータ記憶部1bに記憶される。
更に、パターンモデル表示部1gによって、上記第1の実施形態と同様に、複数の音響モデル対応低次元ベクトルの要素の値(座標情報)に基づき、当該複数の音響モデル対応低次元ベクトルを、図2に示すように、これらの重心を中心(原点)とした2次元空間上の座標点として表示する。
更に、領域区分部1hによって、2次元空間内の座標点の存在する領域を、複数の区分領域に区分する。本実施形態において、領域の区分方法は、上記第1の実施形態におけるデータ処理装置1の方法(図22(a)参照)と異なり、図22(b)に示すように、最内円220から外円方向に向かうほど、内円と外円の両外周間に形成される各環状の領域が細かく区分されるようになっている。つまり、最内円220の中心を原点Oとし、横軸をx、縦軸をyとした2次元空間上の座標点P(x,y)に対して、この座標点Pを、半径r及びx軸とPとが成す角度θとで表される、所謂極座標系で捉えた場合に、半径rの値が大きい座標点の位置する領域ほど細かく区分されることになる。
このように、座標点の分布における周辺部ほどより細かく区分することの有効性を、図23に基づき説明する。図23に示す実施例は、評価話者を含む複数話者に対して、当該複数話者から取得した全音声データを用いて生成した不特定話者音響モデルを用いた音声認識の結果に基づくものであり、2次元座標表示された高次元音響モデルにおいて、認識性能が80%以下となる話者の座標点形状を「×」、それ以外を「○」としたものである。
図23に示すように、認識性能の低い話者(図中「×」)が、座標点の分布の周辺部に近づくほど顕著に存在する。従って、周辺部に存在する話者に対して音響モデルの認識性能を向上させるためには、より精度の高い(特化した)音響モデルを生成する必要がある。つまり、認識性能の低い話者の存在する周辺部に近づくほど領域を細かく区分することによって、各区分領域における音響モデルの性質のばらつきを抑え、これら区分された領域に含まれる音声データから認識性能の低い話者用に不特定話者音響モデルを生成することにより、認識性能を向上させる。
また、領域区分部1hは、領域を区分する際に、図24に示すように、実際に示される各区分領域の区分線に対して、図24中の点線で示すように、隣接する区分領域の一部を含むように幅を持たせている。これにより、領域音響モデルの生成時などにおいて問題となる、各区分領域の境界に位置するような座標点に対応するようになっている。
上記したように領域が区分されると、パターンモデル表示部1gは、領域区分部1hによる区分内容に基づき、図22(b)に示すように、表示座標点に合わせて区分内容を表示する。この区分処理により、領域内の複数の音響モデル対応低次元ベクトルが、各区分領域内の音響モデル対応低次元ベクトルにグループ分けされることになる。
更に、マウスやキーボード等の入力デバイスからの入力情報に基づき、領域選択部1jによって上記区分された領域の中から特定の区分領域が選択されると、特定パターンモデル生成部1kによって、前記選択された区分領域内の音響モデル対応低次元ベクトルに対応した高次元音響モデルの生成時に用いられた音声データに基づき、領域音響モデルを生成することが可能である。ここで、領域音響モデルは、上記高次元音響モデルと同様に、例えばHMM等の公知の手法を用いて生成される。生成された領域音響モデルは、データ記憶部1bに記憶される。
また、領域選択部1jによって上記区分された領域の中から特定の区分領域が選択されると、パターンモデル変換部1fによって、前記選択された区分領域内の音響モデル対応低次元ベクトルに対応した複数の高次元音響モデルを、再度Sammon法を用いて、2次元の音響モデル対応低次元ベクトルに変換することが可能である。このようにして、再度の変換を行うことで座標点の分布態様が変わり、これを再度領域区分部1hによって区分することにより、より特化した不特定話者音響モデルの生成が可能となる。
なお、上記した選択領域に対する領域音響モデルの生成処理及び再度の音響モデル対応低次元ベクトルへの変換処理は、本装置の利用者がいずれかを任意に選択できるものとする。
更に、本実施形態においては、区分内容変更部1iによって、領域区分部1hにより自動的に区分された区分内容を変更することが可能である。例えば、変更内容としては、上記第1の実施形態と同様に、マウスやキーボード等の入力デバイスからの入力情報に基づき、領域区分部1hによる区分内容をそのままに、区分線全体を回転させたり、内円35を1つ増やし、新たな区分領域30a〜30dを形成したり、領域の区分数を変更したりといったことが可能である。
更に、図25及び図26に基づき、領域パターンモデル生成部21a、データ取得部21b及び領域パターンモデル探索部21cにより、新規話者(評価話者に同じ)の音声データを音声認識するのに適切な領域パターンモデル(本実施形態においては、領域音響モデル)を探索する処理を説明する。
本実施形態において、領域パターンモデルの探索処理を行うか否かのモード設定は、データ処理装置21の利用者により行うことが可能となっている。領域パターンモデルの探索処理を行うモードに設定されている場合は、上記領域区分部1hによる領域の区分処理の後に、領域パターンモデル生成部21aによって、各区分領域内に含まれる音響モデル対応低次元ベクトルに対応した音声データを用いて、各区分領域毎の領域音響モデルを生成する。そして、データ取得部21bによって、新規話者の音声データを取得すると、領域パターンモデル探索部21cによって、当該取得した音声データと各区分領域の領域音響モデルとに基づき、新規話者の音声データを音声認識するのに適切な領域音響モデルの探索処理を行う。ここで、本実施形態において、探索方法は、第1の探索方法及び第2の探索方法の2種類があり、データ処理装置21の利用者により、どちらの探索方法を用いるのかを任意に設定することが可能である(両方を用いるような設定も可能)。
まず、図25に基づき、第1の探索方法を用いた場合の探索処理について説明する。図25の(1)に示すように、領域パターンモデル探索部21cは、まず再内円250の領域に対応した領域音響モデルと新規話者の音声データとの尤度を算出し、当該算出した尤度を領域音響モデルに対応させてRAMに保存する。
次に、図25の(2)に示すように、最内円250とその1つ外側の外円とにより形成された4つに区分された環状の領域に対して、これら4つの区分領域にそれぞれ対応する領域音響モデルと新規話者の音声データとの尤度をそれぞれ算出し、当該算出した4つの尤度をそれぞれ比較する。そして、この比較により、算出された尤度のうち最も高い尤度を、その領域音響モデルに対応させてRAMに保存すると共に、この領域音響モデルに対応した区分領域に対し外円方向に向かって隣接する区分領域を次の探索方向として決定する。
つまり、本実施形態においては、図25の(3)に示す4つに区分された環状領域の右上の扇形の区分領域に対応した領域音響モデルの尤度が最も高いとして、この区分領域に対し外円方向に隣接する2つの区分領域を次の探索方向として決定し、これら2つの区分領域にそれぞれ対応する領域音響モデルと新規話者の音声データとの尤度を算出する。そして、上記(2)と同様に、これら算出した2つの尤度を比較し、算出された尤度のうち高い方の尤度を、その領域音響モデルに対応させてRAMに保存すると共に、この領域音響モデルに対応した区分領域に対し外円方向に向かって隣接する区分領域を次の探索方向として決定する。
つまり、本実施形態においては、図25の(4)に示す上記右上の扇形の2つの区分領域の左側の区分領域に対応した領域音響モデルの尤度の方が高いとして、この区分領域に対し外円方向に隣接する2つの区分領域を次の探索方向として決定し、これら2つの区分領域にそれぞれ対応する領域音響モデルと新規話者の音声データとの尤度を算出する。そして、上記(3)と同様に、これら算出した2つの尤度を比較し、算出された尤度のうち高い方の尤度を、その領域音響モデルに対応させてRAMに保存すると共に、この領域音響モデルに対応した区分領域に対し外円方向に向かって隣接する区分領域を次の探索方向として決定する。
つまり、本実施形態においては、図25の(5)に示す、上記(4)で探索方向として決定された2つの区分領域の右側の扇形に対応した領域音響モデルの尤度の方が高いとして、この区分領域に対し外円方向に隣接する区分領域を次の探索方向として決定し、これら2つの区分領域にそれぞれ対応する領域音響モデルと新規話者の音声データとの尤度を算出する。そして、これら算出した2つの尤度を比較し、算出された尤度のうち高い方の尤度を、その領域音響モデルに対応させてRAMに保存する。その結果、本実施形態においては、図25の(6)に示す区分領域の尤度の方が高いことになる。また、この時点で、探索は最外周の環状領域に到達しているので探索処理を終了する。
最終的に、領域パターンモデル探索部21cは、上記RAMに保存した尤度をそれぞれ比較し、最も尤度の高い領域音響モデルを、新規話者の音声データを音声認識するのに適切な音響モデルとして選択する。
つまり、最内円から外円方向に向かって尤度計算を行う際に、各環状の領域における最大尤度の区分領域に隣接した区分領域を探索方向として決定すると共に、各環状の領域における該当区分領域の尤度計算結果をそれぞれ比較し、当該比較結果に基づき最大尤度を保存する。これらの処理を、最外周の環状領域に到達するまで行い、最終的に、保存された尤度中の最大尤度の領域音響モデルを新規話者に適した音響モデルとして選択する。
なお、第1の探索方法においては、最外周の環状領域に到達するまで順番に尤度の算出を行ってから、最終的に探索対象となった各区分領域中の最大尤度の中から最も高い尤度を選択することで、新規話者に適した領域音響モデルを選択するようにしているが、これに限らず、尤度算出に該当する区分領域の尤度と、そのひとつ内側の領域の既に算出された尤度とを比較し、該当区分領域のいずれかの尤度が、そのひとつ内側の領域の既に算出された最大尤度より大きい場合は、上記第1の探索方法と同様に外円方向に向かって探索を続行し、一方、ひとつ内側の領域の尤度の方が大きかった場合は、そこで探索を打ち切り、当該ひとつ内側の最大尤度を新規話者に適した領域音響モデルとして選択するようにしても良い。
次に、図26に基づき、第2の探索方法を用いた場合の探索処理について説明する。図26の(1)に示すように、領域パターンモデル探索部21cは、まず再内円250の領域に対応した領域音響モデルと新規話者の音声データとの尤度を算出し、当該算出した尤度を領域音響モデルに対応させてRAMに保存する。次に、図26の(2)に示すように、最内円250とその1つ外側の外円とにより形成された4つに区分された環状の領域に対して、これら4つの区分領域にそれぞれ対応する領域音響モデルと新規話者の音声データとの尤度をそれぞれ算出し、当該算出した4つの尤度をそれぞれ比較する。そして、この比較により、算出された尤度のうち最も高い尤度を、その領域音響モデルに対応させてRAMに保存すると共に、この領域音響モデルに対応した区分領域に対し外円方向に向かって隣接する区分領域を次の探索方向として決定する。
つまり、本実施形態においては、図26の(3)に示す4つに区分された環状領域の右上及び右下の2つの扇形の区分領域に対応した領域音響モデルの尤度が1番目及び2番目に高いとして、この区分領域に対し外円方向に隣接する4つの区分領域を次の探索方向として決定し、これら4つの区分領域にそれぞれ対応する領域音響モデルと新規話者の音声データとの尤度を算出する。そして、上記(2)と同様に、これら算出した4つの尤度を比較し、算出された尤度のうち最も高い尤度及びその次に高い尤度を、それぞれの領域音響モデルに対応させてRAMに保存すると共に、この領域音響モデルに対応した区分領域に対し外円方向に向かって隣接する区分領域を次の探索方向として決定する。
つまり、本実施形態においては、図26の(4)に示す上記右上の扇形の2つの区分領域の右側の区分領域に対応した領域音響モデルの尤度と、上記右下の扇形の2つの区分領域の左側の区軍領域に対応した領域音響モデルの尤度とが1番目及び2番目に高いとして、これらの区分領域に対し外円方向に隣接する4つの区分領域を次の探索方向として決定し、これら4つの区分領域にそれぞれ対応する領域音響モデルと新規話者の音声データとの尤度を算出する。そして、上記(3)と同様に、これら算出した4つの尤度を比較し、算出された尤度のうち最も高い尤度及びその次に高い尤度を、それぞれの領域音響モデルに対応させてRAMに保存すると共に、この領域音響モデルに対応した区分領域に対し外円方向に向かって隣接する区分領域を次の探索方向として決定する。
つまり、本実施形態においては、図26の(5)に示すように、上記(4)で探索方向として決定された4つの区分領域から成る2つの扇形領域の下側の扇形に対応した2つの領域音響モデルの尤度が1番目及び2番目に高いとして、これらの区分領域に対し外円方向に隣接する4つの区分領域を次の探索方向として決定し、これら4つの区分領域にそれぞれ対応する領域音響モデルと新規話者の音声データとの尤度を算出する。そして、これら算出した4つの尤度を比較し、算出された尤度のうち最も高い尤度及びその次に高い尤度を、それぞれの領域音響モデルに対応させてRAMに保存する。その結果、本実施形態においては、図26の(6)に示す2つの区分領域の尤度が1番目及び2番目に高いことになる。また、この時点で、探索は最外周の環状領域に到達しているので探索処理を終了する。
最終的に、領域パターンモデル探索部21cは、上記RAMに保存した尤度をそれぞれ比較し、最も尤度の高い領域音響モデルを、新規話者の音声データを音声認識するのに適切な音響モデルとして選択する。
つまり、最内円から外円方向に向かって尤度計算を行う際に、各環状の領域における最大尤度及びその次に大きい尤度の2つの区分領域に隣接した区分領域を探索方向として決定すると共に、各環状の領域における該当区分領域の尤度計算結果をそれぞれ比較し、当該比較結果に基づき最大尤度及びその次に大きい尤度を保存する。これらの処理を、最外周の環状領域に到達するまで行い、最終的に、保存された尤度中の最大尤度の領域音響モデルを新規話者に適した音響モデルとして選択する。
なお、上記第2の探索方法においては、上位2つの尤度に対応する区分領域に対し外円方向に隣接した区分領域を次の探索方向として決定し、且つ、各区分領域毎の上位2つの尤度を保存するようにしているが、これに限らず、上位n個(nは整数且つ該当環状領域の分割個数未満)に対応する区分領域に対し外円方向に隣接した区分領域を次の探索方向として決定し、且つ、各区分領域毎の上位n個の尤度を保存するようにしても良い。
また、上記第1の探索方法及び第2の探索方法により選択された音響モデルは、新規話者の有する携帯電話やPDA等の情報処理端末にケーブル等を用いて伝送できるようにしても良い。
また、上記第1の探索方法及び第2の探索方法による領域音響モデルの探索は、認識性能が所定の閾値より低い音声単位の出現頻度をw(k)として用いた場合の、2次元射影表示された探索空間に対して行っているが、これに限らず、認識性能が所定の閾値より低い音声単位の出現頻度と、単純な出現頻度とを用いて、別々に探索空間を生成し、それぞれの探索空間に対して上記第1の探索方法又は第2の探索方法による領域音響モデルの探索を行い、最終的に探索された各探索空間の領域音響モデルの尤度を比較し、より高い尤度を与えた探索空間の領域パターンモデルを選択するようにしても良い。
更に、図27に基づき、データ処理装置21における領域パターンモデル探索部21cの第1の探索方法による探索処理の流れを説明する。図27は、領域パターンモデル探索部21cの第1の探索方法による探索処理を示すフローチャートである。
図27に示すように、まずステップS400に移行し、データ処理装置21の利用者の入力デバイスの操作により、第1の探索方法が選択されるとステップS402に移行する。
ステップS402では、データ取得部21bが新規データを取得したか否かを判定し、取得したと判定された場合(Yes)はステップS404に移行し、そうでない場合(No)は取得するまで判定処理を続行する。ここで、新規データは、新規話者等の新規対象に係るデータを示す。例えば、新規話者の音声データ等が該当する。
ステップS404に移行した場合は、上記取得した新規データをデータ記憶部1bに記憶してステップS406に移行する。
ステップS406では、データ処理装置21の利用者の入力デバイスの操作により、データ制御部1dから探索開始指令を受け付けたか否かを判定し、受け付けたと判定された場合(Yes)はステップS408に移行し、そうでない場合(No)は受け付けるまで判定処理を続行する。
ステップS408に移行した場合は、データ記憶部1bから上記保存した新規データを読み出し、当該読み出した新規データと、領域区分部1hにより区分された領域のうち、最内円の領域に対応した領域パターンモデルとの尤度を算出してステップS410に移行する。
ステップS410では、ステップS408で算出した尤度をRAMに保存してステップS412に移行する。
ステップS412では、最内円に隣接する環状領域に含まれる区分領域に対応した領域パターンモデルと、上記読み出した新規データとの尤度を算出してステップS414に移行する。
ステップS414では、算出した区分領域の尤度をそれぞれ比較してステップS416に移行する。
ステップS416では、ステップS414の比較結果から、最大の尤度をその領域パターンモデルに対応させてRAMに保存してステップS418に移行する。
ステップS418では、尤度の算出が最外周の環状領域に到達したか否かを判定し、最外周に到達したと判定された場合(Yes)はステップS420に移行し、そうでない場合(No)はステップS424に移行する。
ステップS420に移行した場合は、RAMに保存された全ての尤度をそれぞれ比較してステップS422に移行する。
ステップS422では、ステップS420の比較結果から、最大尤度に対応した領域パターンモデルを選択して処理を終了する。
一方、ステップS418において、最外周に到達してなくステップS424に移行した場合は、ステップS414の比較結果から、最大尤度の領域に対し外円方向に隣接した区分領域の尤度を算出してステップS414に移行する。
更に、図28に基づき、データ処理装置21における領域パターンモデル探索部21cの第2の探索方法による探索処理の流れを説明する。図28は、領域パターンモデル探索部21cの第2の探索方法による探索処理を示すフローチャートである。
図28に示すように、まずステップS500に移行し、データ処理装置21の利用者の入力デバイスの操作により、第2の探索方法が選択されるとステップS502に移行する。
ステップS502では、データ取得部21bが新規データを取得したか否かを判定し、取得したと判定された場合(Yes)はステップS504に移行し、そうでない場合(No)は取得するまで判定処理を続行する。ここで、新規データは、新規話者等の新規対象に係るデータを示す。例えば、新規話者の音声データ等が該当する。
ステップS504に移行した場合は、上記取得した新規データをデータ記憶部1bに記憶してステップS506に移行する。
ステップS506では、データ処理装置21の利用者の入力デバイスの操作により、データ制御部1dから探索開始指令を受け付けたか否かを判定し、受け付けたと判定された場合(Yes)はステップS508に移行し、そうでない場合(No)は受け付けるまで判定処理を続行する。
ステップS508に移行した場合は、データ記憶部1bから上記保存した新規データを読み出し、当該読み出した新規データと、領域区分部1hにより区分された領域のうち、最内円の領域に対応した領域パターンモデルとの尤度を算出してステップS510に移行する。
ステップS510では、ステップS508で算出した尤度をRAMに保存してステップS412に移行する。
ステップS512では、最内円に隣接する環状領域に含まれる区分領域に対応した領域パターンモデルと、上記読み出した新規データとの尤度を算出してステップS514に移行する。
ステップS514では、算出した区分領域の尤度をそれぞれ比較してステップS516に移行する。
ステップS516では、ステップS514の比較結果から、尤度の大きい方から順に上位n個の尤度をそれぞれの領域パターンモデルに対応させてRAMに保存してステップS518に移行する。
ステップS518では、尤度の算出が最外周の環状領域に到達したか否かを判定し、最外周に到達したと判定された場合(Yes)はステップS520に移行し、そうでない場合(No)はステップS524に移行する。
ステップS520に移行した場合は、RAMに保存された全ての尤度をそれぞれ比較してステップS522に移行する。
ステップS522では、ステップS520の比較結果から、最大尤度に対応した領域パターンモデルを選択して処理を終了する。
一方、ステップS518において、最外周に到達してなくステップS524に移行した場合は、ステップS514の比較結果から、上位n個の尤度に対応した領域に対し外円方向に隣接した区分領域の尤度を算出してステップS514に移行する。
以上、データ分類部1aによって、複数対象に係る所定データ(上記実施形態においては、複数話者の音声データ)を、特定条件に基づきグルー分けすることが可能である。
また、パターンモデル生成部1cによって、グループ分けされた所定データ(上記実施形態においては、音声データ)から各グループ毎のパターンモデル(上記実施形態においては、高次元音響モデル)を生成することが可能である。
また、数学的距離算出部1e'によって、上記式(1)におけるw(k)に認識性能が所定の閾値より低いパターン単位(上記実施形態においては、音声単位)の出現頻度を用いて、複数のパターンモデル(上記実施形態においては、高次元音響モデル)における、各パターンモデル相互間の数学的距離を算出することが可能である。
また、パターンモデル変換部1fによって、複数のパターンモデル(上記実施形態においては、高次元音響モデル)及びこれら相互間の数学的距離に基づき、複数のパターンモデル(上記実施形態においては、高次元音響モデル)をこれと同数のパターンモデル対応低次元ベクトル(上記実施形態においては、音響モデル対応低次元ベクトル)に変換することが可能である。
また、パターンモデル表示部1gによって、複数のパターンモデル対応低次元ベクトル(上記実施形態においては、音響モデル対応低次元ベクトル)を、これと同次元の低次元空間(上記実施形態では2次元空間)上に座標点として表示することが可能である。
また、領域区分部1hによって、最内円から外円方向に向かうほど、環状領域に含まれるパターンモデル対応低次元ベクトル(上記実施形態においては、音響モデル対応低次元ベクトル)が細かく区分されるように、低次元空間上の座標点の存在する領域を自動的に区分することが可能である。
また、区分内容変更部1iによって、領域区分部1hによって自動的に区分された区分内容を入力情報に基づき変更することが可能である。
また、領域選択部1jによって、表示された区分領域のうち入力された情報に基づく区分領域を選択することが可能である。
また、特定パターンモデル生成部1kによって、領域選択部1iにより選択された区分領域内の複数のパターンモデル対応低次元ベクトル(上記実施形態においては、音響モデル対応低次元ベクトル)に対応するパターンモデル(上記実施形態においては、高次元音響モデル)に係るデータ(上記実施形態においては、音声データ)から、特定パターンモデル(上記実施形態においては、特定音響モデル)を生成することが可能である。
また、領域パターンモデル生成部21aによって、領域区分部1hによって区分された各区分領域に対応した領域パターンモデル(上記実施形態においては、領域音響モデル)を生成することが可能である。
また、データ取得部21bによって、新規対象に係る所定データ(上記実施形態においては、新規話者の音声データ)を取得することが可能である。
また、領域パターンモデル探索部21cによって、第1の探索方法又は第2の探索方法を用いて、領域区分部1hによって区分された各区分領域に対応した領域パターンモデル(上記実施形態においては、領域音響モデル)の中から、データ取得部21bによって取得した所定データ(上記実施形態においては、音声データ)をパターン認識するのに適した領域パターンモデルを探索することが可能である。
図29〜図31に基づき、上記第2の実施形態におけるデータ処理装置21により発話様式毎に複数の高次元音響モデルを2次元射影表示すると共に複数の区分領域に区分し、当該区分領域毎に生成した複数の領域音響モデル(以下、音響モデルライブラリと称す)に対して、上記第1の探索方法を用いて選択した領域音響モデルと、従来法のMLLR(Maximum Likelihood Linear Regression)により得られる音響モデルとの性能比較を行った実施例7を説明する。
ここで、図29(a)は、音響モデルの生成に用いる発話様式の種類を示す図であり、(b)は、本発明に係るデータ処理装置21によって2次元平面上に表示された音響モデル対応低次元ベクトルを示す図である。また、図30は、本発明に係るデータ処理装置21の探索方法を用いて選択した音響モデルと、従来法の話者適応法MLLRを用いて選択した音響モデルとに対する各話者と認識性能との関係を示す図である。また、図31は、音響モデル探索時の発声数と、当該発声数により選択した音響モデルの認識性能との関係を示す図である。
まず、性能比較には、5240単語の音素バランス単語を175単語からなる複数の単語リストに分割し、男性話者145名が、複数の発話様式により発声した音声データを用いた。のべ話者数は561名であり、533名を学習データ話者、28名を評価データ話者としている。評価話者の選定に関する詳細は後述する。音声データには展示会で収録された背景雑音がSN比20dBで重畳されている。サンプリング周波数は11.025kHzである。発声された発話様式の概要は、図29(a)に示すように、通常(普段の速度で発声)、早口(通常より早口で発声)、高い声(通常より高い声で発声)、小声(近くの人に聞こえないように発声)、大声(離れた人にも聞こえるように大きい声で発声)、ロンバード(自動車雑音を聞きながら発声)、仮名強調(仮名それぞれを強調するように発声)の7通りとなっている。音響モデルは、単一正規分布によるdiphoneをHMMによりモデル化したものである。
図29(b)は、学習データ話者である男性533名の特定話者音響モデルを、データ処理装置21により、2次元平面上に座標点表示した音響空間地図である。このとき、式(1)における音声単位kの出現頻度w(k)には、学習データ内でのdiphoneの出現頻度を用いた。ここで、本実施例では、データ処理装置21において、上記式(1)の出現頻度w(k)として、単純なdiphoneの出現頻度と、認識性能が所定の閾値より低いdiphoneの出現頻度の2種類を用い、領域音響モデルの探索においては、これら2種類の出現頻度から生成されたそれぞれの音響空間地図において探索した結果を比較して、より高い尤度を与えた領域音響モデルを選択する。
また、各座標点のシンボルは図29(a)に従う。
第29(b)図から、発話様式毎に座標点が集まっていることが分かる。これは発話様式の違いにより音響的特徴が異なることを示していると考えられる。分布の中心には「通常」の座標点が集まっていることから、データ処理装置21によって2次元平面に写像された場合、より平均的な特徴を有する発話様式が中心に現れると考えられる。点線の矢印は発話様式が異なる同一話者の音響空間上での違いを示した例である。音響解析を施され、更に統計処理された場合、発話様式の変化による音響的特徴の差異が話者性のそれに比べ、より大きいことを示している。
評価話者は、図29(b)において分布の外縁、内縁に存在する話者を発話様式毎にそれぞれ2名ずつ選択している(計28名)。評価にはHTK(The Hidden Markov Model Toolkit :「http://htk.eng.cam.ac.uk/」参照(2004/7/12に存在確認))を用い、各評価話者に対して、収録語彙である175単語の並列ネットワークを用いる。評価に用いる尺度として、単語正解精度(以下単に認識性能)に加え、認識性能X%以下の評価話者の割合(以下、Populationと称す)を用いる。これは組み込み機器メーカ側が音声認識ベンダに求める性能保証の指標の1つである。
これらの評価データに対し、音響モデルライブラリの評価を行う。音響モデルライブラリに対し、少量の音声サンプルをもとに上記第1の探索方法により選択された音響モデルをカスタム音響モデルと呼ぶ。まず、このカスタム音響モデルとベースラインの性能として不特定話者音響モデルとの性能比較、及びカスタム音響モデルと従来法として話者適応手法であるMLLRにより得られる話者適応音響モデルとの性能比較を行う。次に、モデル選択時に必要となる音声サンプル数による性能の比較を行い、十分な性能改善に必要な音声サンプル数について検討を行う。ここで、モデル選択時、もしくはMLLRによる話者適応を施すときに用いる音声サンプルには、実用上ではタスク内の単語を用いることが一般的と考え、各評価話者の評価データ内からランダムに選択したものを用いる。
図30に各評価話者に対する不特定話者音響モデル、話者適応音響モデル(適応発声数10(図30中、MLLR#N10),30(図30中、MLLR#N30))及びカスタム音響モデル(モデル選択用発声数5(図30中、Custom#N5))の認識性能の比較を示す。ここで、図30において、横軸は各話者(speaker)に対応する番号であり、縦軸は各話者に対応する各音響モデルの認識率である。また、話者適応音響モデルはそれぞれ最も高い性能を示す学習回数により適応化が行われているものとする。ここで、適応発声数及びモデル選択用発声数は、モデル選択の際に必要な各話者の音声サンプル数である。
図30に示すように、カスタム音響モデル(第30中の「■」)が、不特定話者音響モデル(図30中の「×」)を、特に、speaker1〜11については大幅に上回る性能を示し、適応発声数30のMLLRによる話者適応音響モデル(第30中の「◇」)と同等以上の性能を示していることが分かる。従って、探索に必要な音声サンプル数が従来法より少なくて済む(つまり、演算量が従来法より少なくて済む)ので、各話者に適切なカスタム音響モデルを、従来法より高速に探索することが可能なことを示す。また、不特定話者音響モデルやMLLRによる話者適応音響モデルにおいて認識性能の悪い話者(図30中のspeaker1〜4)に対して、カスタム音響モデルは、全て認識率80%以上という高性能を示していることから、音響モデル間の距離算出において、上記式(1)の出現頻度w(k)に、単純なdiphoneの出現頻度と、認識性能が所定の閾値より低いdiphoneの出現頻度との2種類を用い、これら2種類の出現頻度による各音響モデル相互間の距離を用いて生成された音響空間地図に対して選択的な領域音響モデルの探索を行った点も有効であったと考えられる。
更に、図31に、本発明に係るデータ処理装置21によって探索するカスタム音響モデルについて、探索時の音声サンプル数によるカスタム音響モデルの認識性能の比較として、発声数と平均認識性能との関係(図31中の「■」)と、発声数と認識率80%以下のPopulationとの関係(図31中の「●」)を示す。ここで、図31中のN=0の結果は不特定話者音響モデル(Base#Line)によるものである。また、図31において、横軸は発声数であり、縦第1軸(左側)は認識率(話者平均)であり、縦第2軸(右側)は認識率が80%以下の話者の割合である。
図31より、発声数と平均認識性能との関係(横軸と縦第1軸)から、わずか3単語、もしくは5単語で、認識率の大幅な改善が見られ、また、発声数と認識率80%以下のPopulationとの関係(横軸と縦第2軸)から、わずか3単語で、認識率80%以下のPopulationの割合が0となった。このことから、本発明に係るデータ処理装置21は、3単語もしくは5単語という少ない発声数でも、各話者に対して十分な認識性能を有した音響モデルを探索することが可能である。
更に、図32に基づき、本発明に係るデータ処理装置21において、上記第1の探索方法を用いて新規話者に適切な領域音響モデルの探索を行った場合と、全ての領域音響モデルとの尤度計算を行って新規話者に適切な領域音響モデルの探索を行った場合との認識性能の比較を行った実施例8を説明する。発話様式や評価者などについては上記実施例7と同様である。
ここで、図32は、第1の探索方法を用いて探索した音響モデルと、全領域音響モデルとの尤度計算により探索した音響モデルとについて、各話者と認識率との関係を示す図である。
図32において、探索には上記実施例7と同様に各話者の音声サンプルの中からランダムに5つを選択したものを用いた。図32に示すように、全ての領域音響モデルと音声サンプルとの尤度計算を行い、これら算出した尤度の比較により最大尤度の領域音響モデルを選択する方法(図32中の「▲」)と、上記第1の探索方法を用いた方法(図32中の「●」)との認識率は、一部互いに優劣があるものの、全体としてほぼ同等であると見て取れる。従って、上記第1の探索方法のように、全ての領域音響モデルとの尤度計算を行わなくても各話者に適切な領域音響モデルの探索が可能であることが解る。このことから、領域音響モデルの探索に上記第1の探索方法及び第2の探索方法を用いることは有効であり、これにより話者に適切な領域音響モデルの探索を高速に行うことが可能である。
更に、図33及び図34に基づき、上記式(1)の出現頻度w(k)の違いによる認識性能の比較を行った実施例9を説明する。発話様式や評価者などについては上記実施例7と同様である。
ここで、図33は、重みに2種類の出現頻度を用いた場合と、重みに通常の出現頻度を用いた場合と、重みに認識性能が所定の閾値より低い音声単位の出現頻度を用いた場合とについて、話者と認識率との関係を示した図である。また、図34(a)は、距離の重みに単純なdiphoneの出現頻度を用いて生成した音響空間地図を示す図であり、(b)は、距離の重みに認識性能が所定の閾値より低いdiphoneの出現頻度を用いて生成した音響空間地図を示す図である。
図33中の、Base#Line(「×」)は、全領域音響モデルから生成した不特定話者音響モデルを用いた場合、Custom#N5(「■」)は、上記実施例7と同様に、上記式(1)の出現頻度w(k)に、単純なdiphoneの出現頻度と、認識性能が最低のdiphoneの出現頻度の2種類を用いて生成された音響空間地図に対して選択的な領域音響モデルの探索を行った場合であり、Frequency(「○」)は、単純なdiphoneの出現頻度を用いて生成された音響空間地図に対して領域音響モデルの探索を行った場合であり、Badphoneme Frequency(「◇」)は、認識性能が最低のdiphoneの出現頻度を用いて生成された音響空間地図に対して領域音響モデルの探索を行った場合である。
図33を見ると解るように、Frequencyにおいてはspeaker1に対して認識率が75%以下と認識性能が悪いが、Badphoneme Frequencyにおいてはspeaker1に対して認識率80%以上と認識性能が良い。一方、Frequencyにおいてはspeaker2に対して認識率80%以上と認識性能が良いが、Badphoneme Frequencyにおいてはspeaker2に対して認識率が70%以下と認識性能が悪い。このように、数は少ないとは言え、重みに用いる出現頻度の違いで話者によっては認識性能に大きな違いが発生することが解る。従って、Frequency及びBadphoneme Frequencyの両者から尤度の高い領域音響モデルを選択するCustom#N5は、Frequency及びBadphoneme Frequencyのそれぞれの短所(苦手な話者)を互いが補うことになり、より幅広く様々な話者に対応できると言える。
更に、図34(a)中には、丸で囲まれた5つの座標点があるが、これら5つの座標点はそれぞれが近傍に位置していることが解る。一方、図34(b)中においては、丸で囲まれた座標点は図34(a)中の座標点に比べ異なる位置に散らばっていることが解る。ここで、図34(a)において丸で囲まれた5つの座標点の音響モデルと、図34(b)において、同じく丸で囲まれた5つの座標点の音響モデルは同じものであり、このことから、用いる出現頻度によって、音響モデルの分布が大きく変わるものがあると言える。すでに述べたように、話者の遠近を距離で定義する場合、その遠近関係は音声単位(音素等)により異なるが、この問題は出現頻度を用いた場合でも完全に解消されるものではなく、ある一つの出現頻度を用いて得られた距離に従う遠近関係は、必ずしも全ての音声単位において成り立つわけではない。中には、認識時に重要な音声単位でありながら、遠近関係が正しく得られていない場合もある。よって、本実施例の2種類の出現頻度を用いて距離を計算しているCustom#N5のように、複数の出現頻度を用いて各音響モデル間の距離を計算し、各出現頻度ごとに複数の音響空間地図を生成することで、領域音響モデルの探索の際には、それぞれの音響空間地図で互いの短所を補完し合い上記問題を緩和する。
なお、上記第2の実施の形態においては、人間の音声を例に取り説明してきたが、本願発明は人間の音声に対してのみ適用可能というわけではなく、対象データとして、人間の音声以外のデータを利用した場合でも同様の課題を解決し、同様の効果を有する。
また、上記第2の実施形態においては、パターンモデル変換部1fによる変換後の音響モデル対応低次元ベクトルを2次元としたが、これに限らず、1次元や3次元に変換するようにしても良い。
[第3の実施形態]
以下、本発明の第3の実施形態を図面に基づき説明する。図35〜図42は、本発明に係るデータ処理システムの第3の実施形態を示す図である。
まず、本発明に係るデータ処理システムの構成を図35に基づき説明する。図35は、本発明に係るデータ処理システムの構成を示すブロック図である。
図35に示されるように、データ処理システム5は、情報処理端末350A、350B、350C、・・・と、データ処理装置37と、ネットワーク6と、を含んだ構成となっている。
情報処理端末350A〜350Cは、システム利用者A〜Cの管理下にある端末であり、各システム利用者の音声データを取得し、これをネットワーク6を介してデータ処理装置37に送信する機能と、データ処理装置37から取得した情報を表示する機能と、を備えている。本実施形態においては、携帯電話、PDA、PC、WS等の情報処理装置に、上記した機能を実現するためのハードウェア及びソフトウェアを備えたものである。なお、詳細な構成は後述する。
データ処理装置37は、情報処理端末350A〜350Cからネットワーク6を介して取得した音声データに基づき領域区分された音響空間地図から取得した音声データの話者に適切な領域音響モデルを探索する機能と、複数話者の音響モデルから構成された音響空間地図内における前記取得した音声データの位置情報及び前記探索結果を表示する機能と、探索結果の音響モデルをシステム利用者に送信する機能とを備えている。なお、詳細な構成は後述する。
ネットワーク6は、LANやWANなどの複数の情報処理機器を相互にデータ通信可能に接続するネットワークであり、本実施形態においては、インターネットを適用する。
更に、図36に基づき情報処理端末350A〜350Cの詳細な構成を説明する。図36は、情報処理端末350の詳細な構成を示す図である。ここで、本実施形態において、情報処理端末350A〜350C(他にも多数の端末が存在して良い)は同様の構成となっており、これらをまとめて情報処理端末350として説明を行う。また、以降、情報処理端末350A〜350Cに共通した事項を説明する場合には、これらを総称した情報処理端末350に対して説明を行う。また、図35に示すように、情報処理端末は、350A〜350Cの3台に限らず、他にも別のシステム利用者の管理下にある情報処理端末が接続された構成としても良い。
図36に示されるように、情報処理端末350は、音声データ取得部350aと、第1のデータ制御部350bと、第1のデータ通信部350cと、情報表示部350dと、操作部350eと、を含んだ構成となっている。
音声データ取得部350aは、マイク等の対象話者の発声した音声(アナログデータ)を取得する手段と、A/D変換器等の当該アナログデータである音声をデジタルデータに変換する手段と、を備えたものである。
第1のデータ制御部350bは、音声データ取得部350aにおいて取得された音声データを第1のデータ通信部350cを介してデータ処理装置37に送信する処理を制御する機能、データ処理装置37から取得した情報を情報表示部350dによって表示する処理を制御する機能等の、各部の処理を制御する機能を有したものである。
第1のデータ通信部350cは、第1のデータ制御部350bの制御により、ネットワーク6を介して、データ処理装置37との間で各種データ通信を行う機能を有したものである。
情報表示部350dは、第1のデータ制御部350bの制御により、データ処理装置37から取得した各種情報を表示するなど、情報の表示処理を行う機能を有したものである。
操作部350eは、システム利用者が、特定話者を指定したり、音声データ処理の制御プログラムに対する設定を行ったりするための情報入力を行うためのものである。
ここで、本実施形態において、情報処理端末350は、図示しないプロセッサと、RAM(Random Access Memory)と、専用のプログラムの記憶されたROM(Read Only Memory)と、を備えており、プロセッサにより専用のプログラムを実行することにより上記各部の制御を行う。
図37に基づき、データ処理装置37の詳細な構成を説明する。図37は、データ処理装置37の詳細構成を示すブロック図である。なお、上記第2の実施形態におけるデータ処理装置21と重複する機能部は同じ符号を付し、機能が同じものについてはその説明を省略する。
データ処理装置37は、データ分類部1aと、データ記憶部1bと、パターンモデル生成部1cと、データ制御部1d'と、数学的距離算出部1e'と、パターンモデル変換部1fと、パターンモデル表示部1gと、領域区分部1hと、区分内容変更部1iと、領域選択部1jと、特定パターンモデル生成部1kと、領域パターンモデル生成部21aと、第2のデータ通信部37aと、領域パターンモデル探索部21cと、を含んだ構成となっている。
つまり、データ処理装置21におけるデータ取得部21bに代えて、第2のデータ通信部37aが加わったことになる。
データ制御部1d'は、上記第2の実施の形態におけるデータ制御部1dの機能に加え、情報処理端末350からのシステム利用者の音声データに基づき、当該音声データが、複数話者の音声データから予め生成された音響空間地図のどの領域に属しているかを算出し、且つ、該当する領域の価値を算出し、これらの算出結果及び算出結果に対するコメントのデータを情報処理端末350に送信する処理を制御する。更に、新たに取得したシステム利用者の音声データに基づき、当該システム利用者の現在用いている音響モデルの性能を評価し、当該評価結果とそれに対するコメントのデータを情報処理端末350に送信する処理を制御する。
第2のデータ通信部37aは、第2のデータ制御部1d'の制御により、ネットワーク6を介して、情報処理端末350との間で各種データ通信を行う機能を有したものである。
以下、図38及び図39に基づき、データ処理システム5のより具体的な動作を説明する。ここで、図38は、システム利用者に適した音響モデルの配信を行う際の表示情報の一例を示す図であり、図39は、システム利用者の使用している音響モデルの性能を評価し、新たな音響モデルを配信する際の表示情報の一例を示す図である。
まず、データ処理装置37は、上記第2の実施の形態と同様の手順で、複数話者の音声データから高次元音響モデルを生成し、これを音響モデル対応低次元ベクトルに変換して2次元平面上に座標点表示する。更に、音響モデル対応低次元ベクトルが座標点表示された音響空間を複数の領域に区分し、各区分領域の音響モデル対応低次元ベクトルに対応する音声データから、各区分領域毎の領域音響モデルを生成する。領域音響モデルが生成されると、情報処理端末350からのシステム利用者に適した音響モデルの配信依頼及び音響モデルの評価依頼を待ち受ける。
一方、システム利用者は、自分の音声を認識するのに適した音響モデルを取得するために、情報処理端末350の操作部350eを操作して第1のデータ制御部350bに指示を与えて音声データの取得プログラムを起動し、まず音声データ取得部350aにより自分の音声データを取得させる。その後、操作部350eの操作により第1のデータ制御部350bに指示を与え、取得させた音声データと音響モデルの配信依頼情報及び評価依頼情報とを組にしてデータ処理装置37に送信させる。
データ処理装置37は、情報処理端末350から音声データ、配信依頼情報及び評価依頼情報を受信すると、上記第2の実施の形態における第1の探索方法により、当該取得した音声データを音声認識するのに適した領域音響モデルの探索を行う。また、取得した音声データからシステム利用者の音声データがどの発話様式に属するか等も解る。このようにして、システム利用者の音声データに対して得られた情報は、予め用意されたコメントデータと共に表示用情報として、音声データの送信元の情報処理端末350に送信される。ここで、本実施の形態において、データ処理装置37は、過去にシステム利用者に配信した音響モデルの履歴を有しており、この履歴から、今回の音声データに対する過去に配信した音響モデルの性能を評価し、今回新たに探索された音響モデルとの性能比較を行う。これは、データ処理装置37に蓄積された音声データが新規話者等の音声データの追加等により日々更新され、この更新に伴い音響空間地図も更新されるために行われる。この性能比較により、新たな音響空間地図から探索される音響モデルが過去の音響モデルの認識性能を上回っているか否か等を判断することができ、より認識性能の高い音響モデルの獲得が可能となる。従って、本実施の形態において、評価結果の情報も表示用情報として情報処理端末350に送信される。また、配信依頼情報には、システム利用者を識別するための識別情報が含まれている。
情報処理端末350は、データ処理装置37からの表示用情報を受信すると、第1のデータ制御部350bの制御により、情報表示部350dは受信した表示用情報に基づいた情報を表示する。表示内容としては、例えば、図38に示すように、発話様式毎の音響空間と、システム利用者の音声データの属する音響空間を上記第2の実施の形態の手法で領域区分した結果、これら音響空間及び区分領域におけるシステム利用者の音声データの相対位置、発話様式毎の大きな区分における音響モデルの価格算出式、領域区分された各環状領域(ここでは、BANDと称す)毎の音響モデルの価格算出式、システム利用者に適した音響モデルの説明文、購入するか否かの決定、又は、システム利用者に好きな音響モデルを選択させるためのメニュー、音響モデルの選択数及び累計金額の情報等がある。
システム利用者は、図38に示される説明文を読んで、現在使用している音響モデルよりも、今回新たに探索された音響モデルの方が認識性能が高くなることを知り、探索された各モデルの値段を見て購入するか否か、又は、自分で新たな音響モデルを選択するか否かを判断し、操作部350eの操作により希望のメニュー選択して実行する。音響モデルの購入をする(「はい」)を選択して実行した場合は、その情報がデータ処理装置37に送信され、当該情報受信したデータ処理装置37は、選択された音響モデルを情報処理端末350に配信する。一方、「自分で購入する音響モデルを選ぶ」が選択実行された場合は、発話様式毎の音響空間と、システム利用者の音声データの属する音響空間を上記第2の実施の形態の手法で領域区分した結果に対してカーソルを合わせて希望の音響モデルを選択する。これにより選択された音響モデルの情報がデータ処理装置37に送信され、当該情報受信したデータ処理装置37は、選択された音響モデルを情報処理端末350に配信する。
更に、データ処理システム5を、システム利用者の現在使用している音響モデルの評価及びその入れ替えに利用した場合の別の形態を説明する。
システム利用者は、自分の使用している音響モデルを評価するために、情報処理端末350の操作部350eを操作して第1のデータ制御部350bに指示を与えて音声データの取得プログラムを起動し、まず音声データ取得部350aにより自分の音声データを取得させる。その後、操作部350eの操作により第1のデータ制御部350bに指示を与え、取得させた音声データと音響モデルの評価依頼情報とを組にしてデータ処理装置37に送信させる。このとき、評価依頼情報には、システム利用者の識別情報が含まれている。
データ処理装置37は、情報処理端末350から音声データ及び評価依頼情報を受信すると、上記第2の実施の形態における第1の探索方法により、当該取得した音声データを音声認識するのに適した領域音響モデルの探索を行う。また、取得した音声データからシステム利用者の音声データがどの発話様式に属するか等も解る。そして、評価依頼情報に含まれる識別情報から、過去に配信した音響モデルの情報を取得し、この音響モデルに対する現在の認識率を算出すると共に、上記探索された音響モデルに対する取得した音声データの認識率を算出して、これら算出結果に基づくコメントを生成する。これらシステム利用者の音声データに対して得られた情報は、予め用意されたコメントデータと共に表示用情報として、音声データの送信元の情報処理端末350に送信される。
情報処理端末350は、データ処理装置37からの表示用情報を受信すると、第1のデータ制御部350bの制御により、情報表示部350dは受信した表示用情報に基づいた情報を表示する。表示内容としては、例えば、図39に示すように、発話様式毎の音響空間と、システム利用者の音声データの属する音響空間を上記第2の実施の形態の手法で領域区分した結果、これら音響空間及び区分領域におけるシステム利用者の音声データの相対位置、システム利用者の使用している音響モデルの評価内容文、現在の音響モデルを入れ替えるか否かの決定、又は、システム利用者に好きな音響モデルを選択させるためのメニュー、音響モデルの選択数の情報等がある。
システム利用者は、図39に示される評価内容文を読んで、現在使用している音響モデルよりも、今回新たに探索された音響モデルの方が認識性能が高くなることを知り、探索された音響モデルに入れ替えるか否か、又は、自分で新たな音響モデルを選択するか否かを判断し、操作部350eの操作により希望のメニュー選択して実行する。音響モデルを入れ替える(「はい」)を選択して実行した場合は、その情報がデータ処理装置37に送信され、当該情報受信したデータ処理装置37は、選択された音響モデルを情報処理端末350に配信する。一方、「自分で入れ替える音響モデルを選ぶ」が選択実行された場合は、発話様式毎の音響空間と、システム利用者の音声データの属する音響空間を上記第2の実施の形態の手法で領域区分した結果に対してカーソルを合わせて希望の音響モデルを選択する。これにより選択された音響モデルの情報がデータ処理装置37に送信され、当該情報受信したデータ処理装置37は、選択された音響モデルを情報処理端末350に配信する。音響モデルの性能は、例えば、対象話者の、発声の仕方、発声する単語の種類、発声する時期、発声する環境、体調等によって変化するため、体調が悪かったり、発声する環境が急に変わったときなどに、現在の音響モデルでは十分な認識性能が得られないことがある。このようなときに、現在使用している音響モデルを評価し、その評価結果に基づいて新たな音響モデルに入れ替えることで認識性能を向上させることが可能である。
更に、図40に基づき、情報処理端末350におけるデータ送信処理の流れを説明する。図40は、情報処理端末350におけるデータ送信処理を示すフローチャートである。
図40に示すように、まずステップS600に移行し、第1のデータ制御部350bにおいて、音声取得モードが起動しているか否かを判定し、起動していると判定された場合(Yes)はステップS602に移行し、そうでない場合(No)は起動されるまで待機する。
ステップS602に移行した場合は、第1のデータ制御部350bによって、音声データ取得部350aを介して音声データを取得したか否かを判定し、取得したと判定された場合(Yes)はステップS604に移行し、そうでない場合(No)は取得するまで待機する。
ステップS604に移行した場合は、第1のデータ制御部350bによって、取得した音声データ(アナログデータ)をデジタルデータに変換してステップS606に移行する。
ステップS606では、第1のデータ制御部350bにおいて、システム利用者の操作部350eの操作により、音響モデルの購入が指定されたか否かを判定し、指定されたと判定された場合(Yes)はステップS608に移行し、そうでない場合(No)はステップS610に移行する。
ステップS608に移行した場合は、第1のデータ制御部350bにおいて、音声データのデジタルデータと、識別情報を含む配信依頼情報と、評価依頼情報とを組にして、第1のデータ通信部350cを介してデータ処理装置37に送信して処理を終了する。
一方、ステップS610に移行した場合は、システム利用者の操作部350eの操作により、評価依頼が指定されたか否かを判定し、指定されたと判定された場合(Yes)はステップS612に移行し、そうでない場合(No)はステップS614に移行する。
ステップS612に移行した場合は、第1のデータ制御部350bにおいて、音声データのデジタルデータと、識別情報を含む評価依頼情報とを組にして、第1のデータ通信部350cを介してデータ処理装置37に送信して処理を終了する。
一方、ステップS614に移行した場合は、第1のデータ制御部350bにおいて、システム利用者の操作部350eの操作により、処理終了が指定されたか否かを判定し、指定されたと判定された場合(Yes)は処理を終了し、そうでない場合(No)はステップS606に移行する。
更に、図41に基づき、データ処理装置37の領域音響モデル生成後の動作処理の流れを説明する。図41は、データ処理装置37の動作処理を示すフローチャートである。
図41に示すように、まずステップS700に移行し、第2のデータ制御部1d'において、情報処理端末350からの情報を受信したか否かを判定し、受信したと判定された場合(Yes)はステップS702に移行し、そうでない場合(No)は受信するまで待機する。
ステップS702に移行した場合は、第2のデータ制御部1d'において、受信した情報が配信依頼情報及び評価依頼情報の両方を含んでいるか否かを判定し、含んでいると判定された場合(Yes)はステップS704に移行し、そうでない場合(No)はステップS710に移行する。
ステップS704に移行した場合は、第2のデータ制御部1d'の制御により、領域音響モデルの探索及び音響モデルの評価等の上記した音声データ処理を行いステップS706に移行する。
ステップS706では、第2のデータ制御部1d'において、ステップS704の音声データ処理結果に基づき、表示用情報を生成してステップS708に移行する。
ステップS708では、第2のデータ制御部1d'において、第2のデータ通信部37aを介して、ステップS706で生成された表示用情報を該当する情報処理端末350に送信してステップS700に移行する。
一方、ステップS702において、受信した情報に配信依頼情報が含まれておらずステップS710に移行した場合は、第2のデータ制御部1d'において、受信した情報が評価依頼情報のみを含んでいるか否かを判定し、含んでいると判定された場合(Yes)はステップS712に移行し、そうでない場合(No)はステップS718に移行する。
ステップS712に移行した場合は、第2のデータ制御部1d'の制御により、領域音響モデルの探索及び音響モデルの評価等の上記した音声データ処理を行いステップS714に移行する。
ステップS714では、第2のデータ制御部1d'において、ステップS712の音声データ処理結果に基づき、表示用情報を生成してステップS716に移行する。
ステップS716では、第2のデータ制御部1d'において、第2のデータ通信部37aを介して、ステップS714で生成された表示用情報を該当する情報処理端末350に送信してステップS700に移行する。
一方、ステップS710で受信した情報が評価依頼でもなくてステップS718に移行した場合は、受信した情報を破棄してステップS700に移行する。
更に、図42に基づき、情報処理端末350における表示用情報受信時の動作処理の流れを説明する。図42は、情報処理端末350における表示用情報受信時の動作処理を示すフローチャートである。
図42に示すように、まずステップS800に移行し、第1のデータ制御部350bにおいて、データ処理装置37からの表示用情報を受信したか否かを判定し、受信したと判定された場合(Yes)はステップS802に移行し、そうでない場合(No)は受信するまで待機する。
ステップS802に移行した場合は、第1のデータ制御部350bの制御により、情報表示部350dにより、上記受信した表示用情報に基づき情報を表示してステップS804に移行する。
ステップS804では、第1のデータ制御部350bにおいて、システム利用者の操作部350eの操作により、表示されたメニューから音響モデルが選択されたか否かを判定し、選択されたと判定された場合(Yes)はステップS806に移行し、そうでない場合(No)はステップS812に移行する。
ステップS806に移行した場合は、第1のデータ制御部350bにおいて、選択された音響モデルの情報を、第1のデータ通信部350cを介してデータ処理装置37に送信してステップS808に移行する。
ステップS808では、第1のデータ制御部350bにおいて、データ処理装置37から上記選択した音響モデルを受信したか否かを判定し、受信したと判定された場合(Yes)はステップS810に移行し、そうでない場合(No)は受信するまで待機する。
ステップS810に移行した場合は、第1のデータ制御部350bにおいて、上記受信した音響モデルを図示しない記憶部に記憶して処理を終了する。
一方、ステップS804において、音響モデルが選択されずステップS812に移行した場合は、第1のデータ制御部350bにおいて、システム利用者の操作部350eの操作により、表示されたメニューから音響モデルの入れ替えが選択されたか否かを判定し、選択されたと判定された場合(Yes)はステップS814に移行し、そうでない場合(No)はステップS804に移行する。
ステップS814に移行した場合は、第1のデータ制御部350bにおいて、選択された音響モデルの入れ替えの情報を、第1のデータ通信部350cを介してデータ処理装置37に送信してステップS816に移行する。
ステップS816では、第1のデータ制御部350bにおいて、データ処理装置37から上記選択した音響モデルを受信したか否かを判定し、受信したと判定された場合(Yes)はステップS818に移行し、そうでない場合(No)は受信するまで待機する。
ステップS818では、第1のデータ制御部350bにおいて、現在使用している音響モデルを、上記受信した音響モデルへと更新して処理を終了する
[第4の実施形態]
以下、本発明の第4の実施形態を図面に基づいて説明する。図43乃至図50は、本発明に係るデータ処理システムの第4の実施形態を示す図である。
まず、本発明に係るデータ処理システムの構成を図43に基づいて説明する。図43は、本発明に係るデータ処理システムの構成を示すブロック図である。
図43に示されるように、データ処理システム7は、情報処理端末2A〜2Cと、データ処理装置3と、ネットワーク4と、を含んだ構成となっている。
情報処理端末2A〜2Cは、システム利用者A〜Cの管理下にある端末であり、各システム利用者の音声データを取得し、これをネットワーク4を介してデータ処理装置3に送信する機能と、データ処理装置3から取得した情報を表示する機能と、データ処理装置3との間で、音声データの提供可否に関する交渉を行う機能と、を備えている。本実施形態においては、PCやWS等の情報処理装置に、上記した機能を実現するためのハードウェア及びソフトウェアを備えたものである。なお、詳細な構成は後述する。
データ処理装置3は、情報処理端末2A〜2Cからネットワーク4を介して取得した音声データの価値を評価する機能と、複数話者のパターンモデルから構成された音響空間内における前記取得した音声データの位置情報及び前記評価結果を表示する機能と、ネットワーク4を介して情報処理端末2A〜2Cとの間で音声データの提供可否に関する交渉を行う機能と、を備えている。なお、詳細な構成は後述する。
ネットワーク4は、LANやWANなどの複数の情報処理機器を相互にデータ通信可能に接続するネットワークであり、本実施形態においては、WANの1つであるインターネットを適用する。
更に、図44に基づき情報処理端末2A〜2Cの詳細な構成を説明する。図44は、情報処理端末2の詳細な構成を示す図である。ここで、本実施形態において、情報処理端末2A〜2C(実際は他にも端末は存在する)は同様の構成となっており、これらをまとめて情報処理端末2として説明を行う。また、以降、情報処理端末2A〜2Cに共通した事項を説明する場合には、これらを総称した情報処理端末2に対して説明を行う。また、図43に示すように、情報処理端末は、2A〜2Cの3台に限らず、他にも別のシステム利用者の管理下にある情報処理端末が接続された構成となっている。
図44に示されるように、情報処理端末2は、第1のデータ取得部2aと、第1のデータ制御部2bと、第1のデータ通信部2cと、第1の情報表示部2dと、第1の交渉部2eと、を含んだ構成となっている。
第1のデータ取得部2aは、マイク等の対象話者の発声した音声(アナログデータ)を取得する手段と、A/D変換器等の当該アナログデータである音声をデジタルデータに変換する手段と、を備えたものである。
第1のデータ制御部2bは、第1のデータ取得部2aにおいて取得された音声データを第1のデータ通信部2cを介してデータ処理装置3に送信する処理を制御する機能、データ処理装置3から取得した情報を第1の情報表示部2dによって表示する処理を制御する機能、第1の交渉部2eによるデータ処理装置3との間の交渉処理を制御する機能等の、各部の処理を制御する機能を有したものである。
第1のデータ通信部2cは、第1のデータ制御部2bの制御により、ネットワーク4を介して、データ処理装置3との間で各種データ通信を行う機能を有したものである。
第1の情報表示部2dは、第1のデータ制御部2bの制御により、データ処理装置3から取得した各種情報を表示するなど、情報の表示処理を行う機能を有したものである。
第1の交渉部2eは、第1のデータ制御部2bの制御により、データ処理装置3との間で、ネットワーク4を介した音声データ提供可否の交渉処理を行う機能を有したものである。ここで、交渉処理とは、例えば、チャット機能を備えたソフト等によりシステム利用者とデータ処理装置3を管理するオペレータとの間でメッセージのやり取りを行ったり、データ処理装置3が価値の高い音声データに対して予め用意された情報(評価結果やメッセージ等)を情報処理端末2に自動的に送信し、その情報を見てシステム利用者が応答を返したりするなど、最終的には、システム利用者が、自己の音声データの提供可否の判断を行い、その判断結果をデータ処理装置3に返すものである。
更に、図45に基づき、データ処理装置3の詳細な構成を説明する。図45は、データ処理装置3の詳細構成を示すブロック図である。
図45に示されるように、データ処理装置3は、第2のデータ通信部3aと、第2のデータ取得部3bと、第2のデータ制御部3cと、位置算出部3dと、データ評価部3eと、第2の情報表示部3fと、第2の交渉部3gと、操作部3hと、データ記憶部3iと、を含んだ構成となっている。
第2のデータ通信部3aは、第2のデータ制御部3cの制御により、ネットワーク4を介して、情報処理端末2との間で各種データ通信を行う機能を有したものである。
第2のデータ取得部3bは、第2のデータ通信部3aを介して、情報処理端末2からの音声データを取得する機能を有したもので、取得した音声データを解析してその特徴部分である特徴量データを抽出する手段も備えている。更に、この抽出された特徴量データに基づき、HMMを構成することで対象話者のパターンモデルを生成する手段も備えている。なお、本実施形態においては、上記した特徴量データ及び対象話者のパターンモデルを共に、音声データと称する。
第2のデータ制御部3cは、データ処理装置3の各構成要素間のデータの授受を制御したり、処理の流れを制御したりする機能を備えたものである。
位置算出部3dは、取得した音声データと複数話者のパターンモデルとの位置関係を算出する機能を有したものである。
つまり、特徴量データが音声データである場合は、この音声データと後述するデータ記憶部3iに記憶された複数話者のパターンモデルとの尤度計算を行い、この算出結果に基づき、複数話者のパターンモデルの中から最も尤度の高いパターンモデルを選択し、このパターンモデルを上記対象話者の音声データと等価なものとして扱う。ここで、本実施形態において、上記複数話者のパターンモデルはHMMにより生成されており、これらの中から特定のパターンモデル(対象話者の音声データに対応したパターンモデルでも良い)を基準として、それぞれ相対位置が決められる。そして、この相対位置情報を有するパターンモデルにより音響空間が形成される。
従って、この場合は、選択されたパターンモデルの相対位置情報が対象話者の音声データの位置情報となる。
一方、特徴量データからHMMを構成することにより生成されたパターンモデルが音声データである場合は、この音声データと上記した基準となるパターンモデルとの相対位置を算出し、この算出結果を音声データの位置情報とする。
データ評価部3eは、特徴量データが音声データである場合は、選択されたパターンモデルとそれ以外の複数話者のパターンモデルとの数学的距離を算出して、この算出された各距離を、予め設定された数学的距離の閾値Thと比較し、当該比較結果に基づき対象話者の音声データの価値を評価するものである。例えば、閾値Th内に存在するパターンモデルが少数の場合は、対象話者の音声データは疎な空間にあり、類似した特徴のものが少ないので希少価値が高いと評価し、一方、閾値Th内に存在するパターンモデルが多数の場合は、密な空間にあり、類似した特徴のものが多いので希少価値が低いと評価する。ここで、本実施形態においては、数学的距離として、下式(8)に示すユークリッド距離又は下式(9)に示すバタチャリヤ距離を算出する。
Figure 0005155944
但し、上記式(8)及び式(9)における、Jは次元数、LはHMMの状態数、μはHMMの出力確率の平均、ΣはHMMの出力確率の分散である。
ここで、数学的距離の算出は音素毎に行うことが可能であり、音声データの価値を評価する処理も音素毎に行うことが可能である。本実施形態では、この処理方法を、システム利用者が任意に切り替えて設定することが可能である。
第2の情報表示部3fは、データ評価部3eの評価結果等の情報を表示する機能を有したものである。ここで表示される情報としては、例えば、評価結果を数値化した情報、HMMであるパターンモデルの上記算出された数学的距離の関係を元に、公知のSammon法により、当該HMMの距離関係を2次元に射影したものなどがある。
第2の交渉部3gは、第2のデータ制御部3cの制御により、情報処理端末2との間で、ネットワーク4を介した音声データ提供可否の交渉処理を行う機能を有したものである。
操作部3hは、オペレータが、第2の情報表示部3fに表示された情報を見てシステム利用者と交渉を行うか否かを判断したり、システム利用者との間でメッセージをやりとりするときのメッセージの入力等を行うためのものである。
データ記憶部3iは、複数話者のパターンモデル、交渉が成立した音声データ等の必要なデータを記憶するものである。
ここで、本実施形態において、データ処理装置3は、図示しないプロセッサと、RAM(Random Access Memory)と、専用のプログラムの記憶されたROM(Read Only Memory)と、を備えており、プロセッサにより専用のプログラムを実行することにより上記各部の制御を行う。
更に、図46及び図47に基づき、データ処理システム7のより具体的な動作を説明する。図46は、データ処理システム7の初期データベースの構築処理及びデータ評価処理の流れを示す図であり、図47は、音響空間地図を2次元射影して表示した一例を示す図である。
以下、図46(a)及び図47に基づき、特徴量データが音声データである場合の初期データベースの構築処理及びデータ評価処理の第1の実施形態を説明する。
まず、図46(a)の(1)〜(4)に示す、評価処理を行うための初期データベースの生成処理の流れを説明する。ここで、既にデータベースが生成されている場合は、この(1)〜(4)の処理は必要がない。
(1)第2のデータ取得部3bによって、登録対象話者N人(Nは整数)の音声を取得する。
(2)第2のデータ取得部3bによって、取得した音声の音響分析を行い特徴量の抽出を行う。
(3)第2のデータ取得部3bによって、抽出された特徴量に基づき特定話者及び不特定話者用のHMMを生成し、各特定話者用のパターンモデル及び不特定話者のパターンモデルを生成するために所定の学習手法を用いて前記各HMMの学習を行う。
(4)第2のデータ取得部3bによって、特定話者N人分のパターンモデル(HMM)及び不特定話者のパターンモデル(HMM)をデータ記憶部3iに記憶する。
次に、図46(a)の(5)〜(10)に示す、音声データの評価処理の流れを説明する。
(5)第2のデータ取得部3bによって、情報処理端末2からシステム利用者の音声データを取得する。
(6)第2のデータ取得部3bによって、取得した音声データの分析を行い特徴量の抽出を行う。
(7)位置算出部3dによって、抽出した特徴量データと複数の特定話者のパターンモデルとの尤度を算出する。ここで、発声内容は既知とする(発声時に入力されているものとする)。
(8)位置算出部3dによって、算出された尤度から最も尤度の高いパターンモデルを選択し、このパターンモデルと他の特定話者のパターンモデルとの数学的距離を算出する。このとき、上位M個(Mは整数(M<N))のパターンモデルを用いても良く、この場合は、選択されたM個のパターンモデルそれぞれについて、他のパターンモデルとの数学的距離を算出する。ここで、本実施形態においては、オペレータが、音声データの位置関係を視覚的に判断可能なように、数学的距離が算出された時点で、後述する(11)及び(12)の処理により、これら算出された数学的距離に基づく2次元射影化により、その座標データを図47に示すように表示することが可能となっている。
(9)データ評価部3eによって、上記算出された数学的距離に基づき、音声データの価値の評価を行う。つまり、上記したように閾値Thと算出された対象話者用のパターンモデルとの距離が閾値Th以下であるものが多数あった場合は、対象話者用のパターンモデルの周辺に音響的特徴の類似したパターンモデルが多数あると判断される。一方、閾値Th以下のものが少数の場合は、周辺に音響的特徴の類似したパターンモデルは少数しかないと判断される。
このことから、周辺に音響的特徴の類似したパターンモデルが多数ある場合は、その音声データは希少価値が低いと評価され、周辺に音響的特徴の類似したパターンモデルが少数しかない場合は、その音声データは希少価値が高いと評価される。
評価結果に係る情報は、第2のデータ通信部3aを介して、例えば、対象話者がシステム利用者Aであれば、情報処理端末2Aに送信される。
ここで、本実施形態において、評価結果に係る情報は、希少価値が高いと評価された場合は、2次元射影化された位置関係情報、評価結果を示す情報(数値や希少価値の高低等)及び取得希望であることを示す情報となり、一方、希少価値が低いと評価された場合は、2次元射影化された位置関係情報、評価結果を示す情報(数値や希少価値の高低等)、取得希望ではないことを示す情報及び取得希望の音声データの特性を示す情報となる。また、取得希望の音声データの特性を示す情報とは、例えば、ささやいた音声や寝た姿勢で話す音声等の発話方法を示す情報などである。
また、上記したように上位M個のパターンモデルについて数学的距離を算出した場合、これは選択されたパターンモデルが間違いであった場合を考慮したものであり、この場合は、それぞれについて閾値Thの距離内に他の話者がどれだけ存在するかを調べ、その平均に対して上記同様の評価を行う。
ここで、本実施形態において、上記評価は、データ評価部3eにより自動的に行っているが、2次元射影化により表示された音響空間やその他の表示情報からオペレータが自分で評価するようにしても良い。
なお、音声データが、希少価値が高いと評価された場合は、図46(a)における処理(10)に移行する。
(10)第2の交渉部3gによって、取得希望の音声データの送信元である情報処理端末2との間で交渉処理を行う。本実施形態においては、データ処理装置3から予め設定されたメッセージをネットワーク4を介して情報処理端末2に送信し、そのメッセージに対するシステム利用者からの応答を同様にネットワーク4を介してデータ処理装置3によって受信する。ここで、例えば、どうしても入手したい音声データに対して、システム利用者が提供を拒否してきた場合に備えて、データ処理装置3及び情報処理端末2の間でネットワーク4を介したメッセージのやり取りを行うことにより、システム利用者とオペレータとの間でメッセージによる交渉を行えるようにしても良い。
(11)第2の情報表示部3fによって、上記算出された数学的距離に基づき、公知のSammon法により全てのパターンモデル(HMM)の距離関係を2次元に射影する。
(12)第2の情報表示部3fによって、上記2次元に射影された各HMMの座標情報を図55(a)、(b)に示すように平面上の点として表示する。図55(a)は、HMMを単語(又は文章)単位で扱った場合のHMMの各座標を点で表示したものである。つまり、一つ一つの点が各話者のパターンモデルとなり、点と点との距離が両者の類似度を示す(両者の距離が短い方が類似度が高い)。
従って、図中、点40のような位置の点は、周辺のすぐそばに多くの点があるため、似たような音響的特徴を有するパターンモデルが多く、このパターンモデルの希少価値は低いということが視覚的に評価できる。
一方、図中、点41のような位置の点は、周辺のすぐそばには他の点がほとんど無く、音響空間内の外れに位置しているので希少価値が高いと視覚的に評価できる。
更に、図55(b)は、HMMを音素単位(図では「a」,「i」,「u」,「e」,「o」)で扱った場合の各HMMの音素毎の各座標を点で表示したものである。この場合は、音声データの価値を音素毎に視覚的に評価することが可能である。
更に、上記したように、パターンモデルの疎密の関係や評価結果を数値化した数値そのものや当該数値をグラフにしたもの等を表示する。図55(a)に示すように、システム利用者Aの音声データが☆52の位置にあった場合は、例えば、図の右下に示すように、その音声データの価値度を数値の70で表示する。価値度の平均値が57とすると、音声データの価値は平均値より高いと簡易に判断することが可能となる。
(13)上記(10)の交渉処理によって、システム利用者との間で交渉が成立した場合は、第2のデータ制御部3c及びデータ記憶部3iによって、対象の音声データを記憶する処理を行う。ここで、本実施形態において、音声データは、HMMによりパターンモデル化してから、上記生成された初期データベースに追加する形で記憶される。
更に、図46(b)及び図55に基づき、特徴量データから生成されたパターンモデルが音声データである場合の初期データベースの構築処理及び照合性能判断処理の第2の実施形態を説明する。
まず、図46(b)の(1)〜(4)に示す、話者照合を行うためのデータベースの生成処理は、上記第1の実施形態における図46(a)の(1)〜(4)と同様であるので記載を省略する。
次に、図46(b)の(5)〜(11)に示す、音声データの評価処理の流れを説明する。
(5)第2のデータ取得部3bによって、情報処理端末2からシステム利用者の音声データを取得する。
(6)第2のデータ取得部3bによって、取得した音声データの分析を行い特徴量の抽出を行う。
(7)第2のデータ取得部3bによって、抽出された特徴量データに基づき取得した音声のHMMを構成し、所定の学習手法により学習を行う。
(8)第2のデータ取得部3bによって、HMMの学習により、対象話者の音声のパターンモデルを生成してデータ記憶部3iに記憶する。
(9)位置算出部3dによって、上記生成された対象話者のパターンモデルと他の特定話者のパターンモデルとの数学的距離を算出する。ここで、本実施形態においては、オペレータが、音声データの位置関係を視覚的に判断可能なように、数学的距離が算出された時点で、後述する(12)及び(13)の処理により、これら算出された数学的距離に基づく2次元射影化により、その座標データを図55に示すように表示することが可能となっている。
(10)データ評価部3eによって、上記算出された数学的距離に基づき、音声データの価値の評価を行う。つまり、上記したように閾値Thと算出された対象話者用のパターンモデルとの距離が閾値Th以下であるものが多数あった場合は、対象話者用のパターンモデルの周辺に音響的特徴の類似したパターンモデルが多数あると判断される。一方、閾値Th以下のものが少数の場合は、周辺に音響的特徴の類似したパターンモデルは少数しかないと判断される。
このことから、周辺に音響的特徴の類似したパターンモデルが多数ある場合は、その音声データは希少価値が低いと評価され、周辺に音響的特徴の類似したパターンモデルが少数しかない場合は、その音声データは希少価値が高いと評価される。
評価結果に係る情報は、第2のデータ通信部3aを介して、例えば、対象話者がシステム利用者Bであれば、情報処理端末2Bに送信される。
また、上記したように上位M個のパターンモデルについて数学的距離を算出した場合、これは選択されたパターンモデルが間違いであった場合を考慮したものであり、この場合は、それぞれについて閾値Thの距離内に他の話者がどれだけ存在するかを調べ、その平均に対して上記同様の評価を行う。
ここで、本実施形態において、上記評価は、データ評価部3eにより自動的に行っているが、2次元射影化により表示された音響空間やその他の表示情報からオペレータが自分で評価するようにしても良い。
なお、音声データが、希少価値が高いと評価された場合は、図46(b)における処理(11)に移行する。
(11)第2の交渉部3gによって、取得希望の音声データの送信元である情報処理端末2との間で交渉処理を行う。本実施形態においては、データ処理装置3から予め設定されたメッセージをネットワーク4を介して情報処理端末2に送信し、そのメッセージに対するシステム利用者からの応答を同様にネットワーク4を介してデータ処理装置3によって受信する。ここで、例えば、どうしても入手したい音声データに対して、システム利用者が提供を拒否してきた場合に備えて、データ処理装置3及び情報処理端末2の間でネットワーク4を介したメッセージのやり取りを行うことにより、システム利用者とオペレータとの間でメッセージによる交渉(例えば、金額交渉等)を行えるようにしても良い。
ここで、図46(b)の(12)、(13)に示す、2次元射影化による音響空間の表示処理及び評価結果の表示処理は、上記した第1の実施形態における図46(a)の(11)、(12)と同様の処理であるので記載を省略する。
更に、図48に基づき、情報処理端末2の動作処理の流れについて説明する。図48は、情報処理端末2の動作処理を示すフローチャートである。
図48に示すように、まずステップS900に移行し、第1のデータ制御部2bにおいて、音声データの取得処理が開始されたか否かを判定し、開始されたと判定された場合(Yes)はステップS902に移行し、そうでない場合(No)は開始されるまで判定処理を続行する。
ステップS902に移行した場合は、第1のデータ取得部2aによって、対象話者(本実施形態では、システム利用者A〜Cのいずれか)の発声した音声(アナログデータ)を取得しステップS904に移行する。
ステップS904では、第1のデータ取得部2aにおいて、取得した音声(アナログデータ)をデジタルデータに変換してステップS906に移行する。
ステップS906では、第1のデータ制御部2bによって、上記デジタルデータに変換された音声データを、第1のデータ通信部2cを介してデータ処理装置3に送信してステップS908に移行する。
ステップS908では、第1のデータ制御部2bにおいて、データ処理装置3から上記送信した音声データに対する評価結果を、第1のデータ通信部2cを介して受信したか否かを判定し、受信したと判定された場合(Yes)はステップS910に移行し、そうでない場合(No)は受信するまで判定処理を続行する。
ステップS910に移行した場合は、第1のデータ制御部2bの制御命令に応じて、第1の情報表示部2dにおいて、上記受信した評価結果を表示してステップS912に移行する。
ステップS912では、第1のデータ制御部2bにおいて、上記受信した評価結果から交渉要求があるか否かを判定し、交渉要求があると判定された場合(Yes)はステップS914に移行し、そうでない場合(No)はステップS918に移行する。
ステップS914に移行した場合は、第1のデータ制御部2b、第1の交渉部2e及び第1のデータ通信部2cにおいて、データ処理装置3との間でネットワーク4を介した音声データの提供可否の交渉を行う交渉処理を開始してステップS916に移行する。
ステップS916では、第1のデータ制御部2b、第1の交渉部2e及び第1のデータ通信部2cにおいて、対象話者からの入力情報に基づき、音声データの提供可否の判断結果をデータ処理装置3に送信してステップS918に移行する。
ステップS918では、第1のデータ制御部2bにおいて、音声データの取得処理を終了するか否かを判定し、終了すると判定された場合(Yes)はステップS900に移行し、そうでない場合(No)はステップS902に移行する。
ここで、終了の判断は、図示しない、マウスやキーボード等の入力デバイスによるシステム利用者からの入力情報に基づき行われる。
更に、図49に基づき、データ処理装置3の動作処理の流れを説明する。図49は、データ処理装置3の動作処理を示すフローチャートである。
図49に示すように、まずステップS1000に移行し、第2のデータ制御部3cにおいて、第2のデータ通信部3aを介して情報処理端末2から音声データを取得したか否かを判定し、取得したと判定された場合(Yes)はステップS1002に移行し、そうでない場合(No)は取得するまで判定処理を続行する。
ステップS1002に移行した場合は、第2のデータ取得部3bにおいて、取得した音声の特徴量を抽出してステップS1004に移行する。ここで、上記した第1の実施形態においては、上記した尤度計算を行い、複数話者のパターンモデルの中から最も音響的特徴の類似したパターンを選択し、これを取得した音声のパターンモデルとする。一方、上記した第2の実施形態の場合は、抽出した特徴量から取得した音声のパターンモデルを生成する。
ステップS1004では、位置算出部3dにおいて、取得した音声のパターンモデルと他の複数話者のパターンモデルとの数学的距離を算出してステップS1006に移行する。
ステップS1006では、データ評価部3eにおいて、上記算出された数学的距離に基づき、取得した音声データの価値を評価してステップS1008に移行する。
ステップS1008では、第2の情報表示部3fにおいて、上記評価結果を表示してステップS1010に移行する。
ステップS1010では、第2のデータ制御部3cによって、第2のデータ通信部3aを介して、上記評価結果を対象の情報処理端末2に送信してステップS1012に移行する。
ステップS1012では、第2のデータ制御部3cにおいて、上記評価により、取得した音声データの提供可否の交渉を行うか否かを判定し、交渉を行うと判定された場合(Yes)はステップS1014に移行し、そうでない場合(No)はステップS1000に移行する。
ステップS1014に移行した場合は、第2のデータ制御部3c、第2の交渉部3g及び第2のデータ通信部3aにおいて、情報処理端末2との間のネットワーク4を介した上記交渉処理を行いステップS1016に移行する。
ステップS1016では、第2のデータ制御部3cにおいて、対象の情報処理端末2から交渉結果を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS1018に移行し、そうでない場合(No)は取得するまで判定処理を続行する。
ステップS1018に移行した場合は、第2のデータ制御部3cにおいて、上記取得した交渉結果に基づき、交渉が成立したか否かを判定し、交渉が成立したと判定された場合(Yes)はステップS1020に移行し、そうでない場合(No)はステップS1022に移行する。
ステップS1020に移行した場合は、第2のデータ制御部によって、交渉の成立した音声データをデータ記憶部3iに記憶してステップS1000に移行する。
一方、ステップS1022に移行した場合は、第2のデータ制御部3cにおいて、交渉の決裂した音声データを破棄してステップS1000に移行する。
更に、図50に基づき、第2の情報表示部3fにおける2次元射影化による座標情報の表示処理の流れを説明する。図50は、第2の情報表示部3fにおける2次元射影化による座標情報の表示処理を示すフローチャートである。
図50に示すように、まずステップS1100に移行し、位置算出部3dにおいて数学的距離の算出が完了したか否かを判定し、完了したと判定された場合(Yes)はステップS1102に移行し、そうでない場合(No)は完了するまで待機する。
ステップS1102に移行した場合は、公知のSammon法を用いて、対象話者の音声のパターンモデルと他の複数話者のパターンモデルと数学的距離を2次元射影化してステップS1104に移行する。
ステップS1104では、上記2次元射影化処理により2次元の情報となった数学的距離に基づき、各パターンモデルの座標情報を平面上の点として表示して処理を終了する。
以上、第2のデータ取得部3bによって、対象話者の音声データを取得し、位置算出部3d及びデータ評価部3eによって、当該音声データの価値を評価し、第2の情報表示部3fによって、この評価結果と、対象話者の音声のパターンモデルと他の複数話者のパターンモデルとの位置関係を2次元の座標として表示することが可能である。
また、情報処理端末2の第1の交渉部2e及びデータ処理装置3の第2の交渉部3gによって、音声データの提供可否に関する交渉処理を行うことが可能である。
また、データ処理装置3は、交渉の成立した音声データをデータ記憶部3iに記憶することが可能である。
[第5の実施形態]
以下、本発明の第5の実施形態を図面に基づき説明する。図51〜図59は、本発明に係るデータ処理システムの第5の実施形態を示す図である。
まず、本発明に係るデータ処理システムの構成を図51に基づき説明する。図51は、本発明に係るデータ処理システムの構成を示すブロック図である。
図51に示されるように、データ処理システム8は、情報処理端末9A〜9Cと、データ処理装置10と、ネットワーク11と、を含んだ構成となっている。
情報処理端末9A〜9Cは、システム利用者A〜Cの管理下にある端末であり、各システム利用者の音声データを取得し、これをネットワーク11を介してデータ処理装置10に送信する機能と、データ処理装置10から取得した情報を表示する機能と、を備えている。本実施形態においては、PCやWS等の情報処理装置に、上記した機能を実現するためのハードウェア及びソフトウェアを備えたものである。なお、詳細な構成は後述する。
データ処理装置10は、情報処理端末9A〜9Cからネットワーク11を介して取得した音声データと他の話者の音声データとの類似性を評価する機能と、複数話者のパターンモデルから構成された音響空間内における前記取得した音声データの位置情報及び前記評価結果を表示する機能と、を備えている。なお、詳細な構成は後述する。
ネットワーク11は、LANやWANなどの複数の情報処理機器を相互にデータ通信可能に接続するネットワークであり、本実施形態においては、WANの1つであるインターネットを適用する。
更に、図52に基づき情報処理端末9A〜9Cの詳細な構成を説明する。図52は、情報処理端末9の詳細な構成を示す図である。ここで、本実施形態において、情報処理端末9A〜9C(他にも多数の端末が存在して良い)は同様の構成となっており、これらをまとめて情報処理端末9として説明を行う。また、以降、情報処理端末9A〜9Cに共通した事項を説明する場合には、これらを総称した情報処理端末9に対して説明を行う。また、図51に示すように、情報処理端末は、2A〜2Cの3台に限らず、他にも別のシステム利用者の管理下にある情報処理端末が接続された構成としても良い。
図52に示されるように、情報処理端末9は、第1のデータ取得部9aと、第1のデータ制御部9bと、第1のデータ通信部9cと、第1の情報表示部9dと、操作部9eと、を含んだ構成となっている。
第1のデータ取得部9aは、マイク等の対象話者の発声した音声(アナログデータ)を取得する手段と、A/D変換器等の当該アナログデータである音声をデジタルデータに変換する手段と、を備えたものである。
第1のデータ制御部9bは、第1のデータ取得部9aにおいて取得された音声データを第1のデータ通信部9cを介してデータ処理装置10に送信する処理を制御する機能、データ処理装置10から取得した情報を第1の情報表示部9dによって表示する処理を制御する機能等の、各部の処理を制御する機能を有したものである。
第1のデータ通信部9cは、第1のデータ制御部9bの制御により、ネットワーク11を介して、データ処理装置10との間で各種データ通信を行う機能を有したものである。
第1の情報表示部9dは、第1のデータ制御部9bの制御により、データ処理装置10から取得した各種情報を表示するなど、情報の表示処理を行う機能を有したものである。
操作部9eは、システム利用者が、特定話者を指定したり、音声データ処理の制御プログラムに対する設定を行ったりするための情報入力を行うためのものである。
更に、図53に基づき、データ処理装置10の詳細な構成を説明する。図53は、データ処理装置10の詳細構成を示すブロック図である。
図53に示されるように、データ処理装置10は、第2のデータ通信部10aと、第2のデータ取得部10bと、第2のデータ制御部10cと、位置算出部10dと、類似話者検出部10eと、類似性評価部10fと、第2の情報表示部10gと、矯正情報生成部10hと、データ記憶部10iと、を含んだ構成となっている。
第2のデータ通信部10aは、第2のデータ制御部10cの制御により、ネットワーク11を介して、情報処理端末9との間で各種データ通信を行う機能を有したものである。
第2のデータ取得部10bは、第2のデータ通信部10aを介して、情報処理端末9からの音声データを取得する機能を有したもので、取得した音声データを解析してその特徴部分である特徴量データを抽出する手段も備えている。更に、この抽出された特徴量データに基づき、HMMを構成することで対象話者のパターンモデルを生成する手段も備えている。なお、本実施形態においては、上記した特徴量データ及び対象話者のパターンモデルを共に、音声データと称する。
第2のデータ制御部10cは、データ処理装置10の各構成要素間のデータの授受を制御したり、処理の流れを制御したりする機能を備えたものである。
位置算出部10dは、取得した音声データと複数話者のパターンモデルとの位置関係を算出する機能を有したものである。
つまり、特徴量データが音声データである場合は、この音声データと後述するデータ記憶部10iに記憶された複数話者のパターンモデルとの尤度計算を行い、この算出結果に基づき、複数話者のパターンモデルの中から最も尤度の高いパターンモデルを選択し、このパターンモデルを上記対象話者の音声データと等価なものとして扱う。ここで、本実施形態において、上記複数話者のパターンモデルはHMMにより生成されており、これらの中から特定のパターンモデル(対象話者の音声データに対応したパターンモデルでも良い)を基準として、それぞれ相対位置が決められる。そして、この相対位置情報を有するパターンモデルにより音響空間が形成される。
従って、この場合は、選択されたパターンモデルの相対位置情報が対象話者の音声データの位置情報となる。
一方、特徴量データからHMMを構成することにより生成されたパターンモデルが音声データである場合は、この音声データと上記した基準となるパターンモデルとの相対位置を算出し、この算出結果を音声データの位置情報とする。
類似話者検出部10eは、特徴量データが音声データである場合は、選択されたパターンモデルとそれ以外の複数話者のパターンモデルとの数学的距離を算出して、この算出された各距離を、予め設定された数学的距離の閾値Thと比較し、当該比較結果に基づき対象話者の音声データから閾値Thの距離内にある音声データを検出し、その音声データに対応する話者を類似話者とするものである。
例えば、閾値Th内に存在するパターンモデルのうち対象話者の音声データと最も近い位置にあるものに対応した話者を類似話者としたり、対象話者の音声データに近い順に幾つかの音声データに対応した話者を類似話者としたり、あるいは、閾値Th内に存在するパターンモデルが一つもない場合は、閾値を変更して再度比較処理を行ったり、類似話者無しと判断したりする。ここで、本実施形態においては、数学的距離として、上式(8)に示すユークリッド距離又は上式(9)に示すバタチャリヤ距離を算出する。
ここで、数学的距離の算出は音素毎に行うことが可能であり、類似話者を検出する処理も音素毎に行うことが可能である。本実施形態では、この処理方法を、システム利用者が任意に切り替えて設定することが可能である。
類似性評価部10fは、操作部3hにより特定話者が指定されたときに、この特定話者のパターンモデルと対象話者の音声データとの数学的距離を算出して、この算出された距離に基づき対象話者の音声と特定話者の音声との類似性を評価するものである。
ここで、音響空間の構築において、パターンモデルとしては、高い声により発声された音声データ、低い声により発声された音声データ、早口で発声された音声データ、ゆっくりと発声された音声データなどの色々な種類の発話様式により発声された音声データから構成されたものを用いる。
従って、上記した類似性の評価は、複数種類の発話様式のパターンモデルに対して行われることになる。
第2の情報表示部10gは、類似話者検出部10eの検出結果や類似性評価部10fの評価結果等の情報を表示する機能を有したものである。ここで表示される情報としては、例えば、評価結果を数値化した情報、HMMであるパターンモデルの上記算出された数学的距離の関係を元に、公知のSammon法により、当該HMMの距離関係を2次元に射影したものなどがある。
矯正情報生成部10hは、類似性評価部10fの評価結果に基づき、対象話者の音声と特定話者の音声との類似性を高めるために、対象話者が自己の音声をどのように矯正したら良いのかを示す矯正情報を生成するものである。生成された矯正情報は、第1のデータ制御部9b及び第2のデータ通信部10aにより、対応する情報処理端末9に送信される。ここで、矯正情報は、例えば、予め対象話者の発話時の特徴データを取得しておき、この特徴データと評価結果とに基づき生成されるもので、対象話者の音声と特定話者の音声との類似性を高めるために、発声するときの口の形をどうすれば良いのかを指示する情報や、アクセント位置を指示する情報などを含んだものである。
データ記憶部10iは、複数話者のパターンモデル等の必要なデータを記憶するものである。
ここで、本実施形態において、データ処理装置10は、図示しないプロセッサと、RAM(Random Access Memory)と、専用のプログラムの記憶されたROM(Read Only Memory)と、を備えており、プロセッサにより専用のプログラムを実行することにより上記各部の制御を行う。
更に、図54〜図56に基づき、データ処理システム8のより具体的な動作を説明する。図54は、データ処理システム8の初期データベースの構築処理及びデータ評価処理の流れを示す図であり、図55は、音響空間を2次元射影して表示した一例を示す図であり、(a)は、HMMを単語(又は文章)単位で扱った場合のHMMの各座標を点で表示したものであり、(b)は、HMMを音素単位(図では「a」,「i」,「u」,「e」,「o」)で扱った場合の各HMMの音素毎の各座標を点で表示したものであり、図56は、発話様式を軸の要素としたときの2次元射影表示の一例を示す図である。
以下、図54(a)及び図55に基づき、特徴量データが音声データである場合の初期データベースの構築処理、類似話者の検出処理及び類似性評価処理の第1の実施形態を説明する。
まず、図54(a)の(1)〜(4)に示す、評価処理を行うための初期データベースの生成処理の流れを説明する。ここで、既にデータベースが生成されている場合は、以下の(1)〜(4)の処理は行う必要がない。
(1)第2のデータ取得部10bによって、登録対象話者N人(Nは整数)の音声を取得する。上記したように、本実施形態においては、高い声により発声された音声、低い声により発声された音声、早口で発声された音声、ゆっくりと発声された音声などの色々な種類の発話様式により発声された音声を取得する。
(2)第2のデータ取得部10bによって、取得した音声の音響分析を行い特徴量の抽出を行う。
(3)第2のデータ取得部10bによって、抽出された特徴量に基づき特定話者及び不特定話者用のHMMを生成し、各特定話者用のパターンモデル及び不特定話者のパターンモデルを生成するために所定の学習手法を用いて前記各HMMの学習を行う。
(4)第2のデータ取得部10bによって、特定話者N人分のパターンモデル(HMM)及び不特定話者のパターンモデル(HMM)をデータ記憶部10iに記憶する。
次に、図54(a)の(5)〜(10)に示す、類似話者の検出処理及び類似性の評価処理の流れを説明する。
(5)第2のデータ取得部10bによって、情報処理端末9からシステム利用者の音声データを取得する。
(6)第2のデータ取得部10bによって、取得した音声データの分析を行い特徴量の抽出を行う。
(7)位置算出部10dによって、抽出した特徴量データと複数の特定話者のパターンモデルとの尤度を算出する。ここで、発声内容は既知とする(発声時に入力されているものとする)。
(8)位置算出部10dによって、算出された尤度から最も尤度の高いパターンモデルを選択し、このパターンモデルと他の特定話者のパターンモデルとの数学的距離を算出する。このとき、上位M個(Mは整数(M<N))のパターンモデルを用いても良く、この場合は、選択されたM個のパターンモデルそれぞれについて、他のパターンモデルとの数学的距離を算出する。ここで、本実施形態においては、オペレータが、音声データの位置関係を視覚的に判断可能なように、数学的距離が算出された時点で、後述する(12)及び(13)の処理により、これら算出された数学的距離に基づく2次元射影化により、その座標データを図55に示すように表示することが可能となっている。
(9)類似話者検出部10eによって、上記算出された数学的距離に基づき、類似話者の検出処理を行う。つまり、上記算出された対象話者用のパターンモデルからの距離が閾値Th以内にあるパターンモデルを検出する。例えば、図55(a)に示すように、対象話者のパターンモデルが図中の×印で示された座標点50である場合に、そのパターンモデルを中心とした半径Thの円内にあるパターンモデルの中から類似話者を検出する。ここでは、図55(a)中における、座標点50に近い順に座標点50a〜50cの3つのパターンモデルを選択する。
このようにして、選択されたパターンモデルに対応する話者が、対象話者の音声に類似した音声を有する類似話者として検出される。検出結果は、第2のデータ制御部2c及び第2の情報表示部10gによって表示される。
更に、上記検出結果に係る情報は、第2のデータ通信部10aを介して、例えば、対象話者がシステム利用者Aであれば、情報処理端末9Aに送信される。
ここで、本実施形態において、検出結果に係る情報は、選択されたパターンモデルに対応する話者の名前等の類似話者に関する情報、2次元射影化された対象話者のパターンモデルと類似話者のパターンモデルとの位置関係情報となる。
また、上記したように上位M個のパターンモデルについて数学的距離を算出した場合、これは選択されたパターンモデルが間違いであった場合(選択されたパターンモデルが対象話者の音声とかけはなれた特徴を有していた場合など)を考慮したものであり、この場合は、それぞれについて閾値Thの距離内にある他者のパターンモデルを選択し、これらを類似話者とする。
ここで、本実施形態において、上記検出処理は、類似話者検出部10eにより自動的に行っているが、2次元射影化により表示された音響空間やその他の表示情報からオペレータが自分で判断して検出するようにしても良い。
また、上記検出処理は、上記した複数種類の発話様式に対応するパターンモデルに対してそれぞれ行うことで、発話様式Aの音声は類似しているが、発話様式Bの音声は類似していないといったように、発話様式の種類毎の検出が可能であり、これらの検出結果から類似している音声の最も多い話者を類似話者としたり、それぞれの発話様式毎に最も近い話者を類似話者としたりすることが可能である。
なお、類似話者が検出され、そのデータが情報処理端末9に送信されると、情報処理端末9側では、取得した情報が表示される。つまり、上記した類似話者に関する情報及び2次元射影化された対象話者のパターンモデルと類似話者のパターンモデルとの位置関係情報が表示される。これにより、システム利用者は、操作部9eの操作により、表示された情報を見て、音声を真似したい特定の話者を指定する。指定された情報は、データ処理装置10に送信され、図54(a)における処理(10)に移行する。
(10)類似性評価部10fによって、システム利用者(対象話者)により指定された特定話者のパターンモデルと対象話者のパターンモデルとの類似性を評価する。
例えば、対象話者のパターンモデルと特定話者のパターンモデルとの数学的距離に基づき、両者間の距離が短ければ類似性が高く、一方、距離が長ければ類似性は低いといったように評価を行う。
本実施形態においては、両者の座標が一致したときを類似率100%(そっくり)とし、対象話者の座標点52から距離S以上の位置にあるパターンモデルを特定話者のパターンモデルとの類似率0%(全く類似していない)として、図55(a)に示すように、対象話者の座標点52から特定話者の座標点52aまでの距離を類似率(%)で表したものを評価結果として表示する。
ここで、類似性の評価処理は、特定話者の上記した複数種類の発話様式に対応するパターンモデルについてそれぞれ行う。
また、評価結果に係る情報は、第2のデータ通信部10aを介して、例えば、対象話者がシステム利用者Bであれば、情報処理端末9Bに送信される。
また、本実施形態において、評価結果に係る情報は、特定話者の複数種類の発話様式にそれぞれ対応したパターンモデルに対する評価結果、これらパターンモデルと対象話者のパターンモデルとの2次元射影化された位置関係情報、後述する矯正情報となる。
(11)矯正情報生成部10hによって、上記類似性評価部10fの評価結果に基づき、対象話者の音声と特定話者の音声との類似性を高めるための、対象話者の音声に対する矯正情報を生成する。
ここで、この矯正情報の生成は、改めて対象話者の音声データを取得して、その音声データに対応するパターンモデルに対して行っても良いし、上記処理(5)及び処理(6)において始めに取得した音声データに対して行っても良い。
更に、生成された矯正情報は、上記した評価結果に係る情報に含んで情報処理端末9に送信される。
一方、情報処理端末9では、上記矯正情報を取得すると、第1の情報表示部9dによって矯正情報を表示する。従って、対象話者は、表示された矯正情報を見て、自己の音声を矯正し特定話者の音声と自己の音声との類似性を高める練習を行うことが可能である。
(12)第2の情報表示部10gによって、上記算出された数学的距離の関係(相対距離)に基づき、公知のSammon法により全てのパターンモデル(HMM)の距離関係を2次元に射影する。
(13)第2の情報表示部10gによって、上記2次元に射影された各HMMの座標情報を図55(a)、(b)に示すように平面上の点として表示する。つまり、一つ一つの点が各話者のパターンモデルとなり、点と点との距離が両者の類似度を示す(両者の距離が短い方が類似度が高い)。
更に、図55(b)は、上記したように、HMMを音素単位(図では「a」,「i」,「u」,「e」,「o」)で扱った場合の各HMMの音素毎の各座標を点で表示したものである。この場合は、上記した類似話者の検出や類似性の評価を音素毎に視覚的に行うことが可能である。
更に、発話様式毎のパターンモデルに対して、例えば、それぞれの発話様式の情報を付加することにより、図56に示すように、発話様式の要素(ここでは発話速度及び声の高さ)を軸とした2次元空間を構成することが可能である。このような発話様式の要素を軸とした2次元射影化表示を情報処理端末9側でリアルタイムに行うことで、対象話者は、発話する毎に、自己の音声データの位置の変移を視覚的に把握することができるので、自己の音声を、目標とする特定話者の音声に似せるための発話方法を会得しやすくなる。但し、リアルタイム表示を行うためには上記した情報処理端末9とデータ処理装置10とをインターネットを介して接続する構成とはせずに、データ処理装置10に直接対象話者の音声を入力する構成の方が適している。
更に、図54(b)及び図55に基づき、特徴量データから生成されたパターンモデルが音声データである場合の初期データベースの構築処理及び照合性能検出処理の第2の実施形態を説明する。
まず、図54(b)の(1)〜(4)に示す、話者照合を行うためのデータベースの生成処理は、上記第1の実施形態における図54(a)の(1)〜(4)と同様であるので記載を省略する。
次に、図54(b)の(5)〜(11)に示す、類似話者の検出処理及び類似性の評価処理の流れを説明する。
(5)第2のデータ取得部10bによって、情報処理端末9からシステム利用者の音声データを取得する。
(6)第2のデータ取得部10bによって、取得した音声データの分析を行い特徴量の抽出を行う。
(7)第2のデータ取得部10bによって、抽出された特徴量データに基づき取得した音声のHMMを構成し、所定の学習手法により学習を行う。
(8)第2のデータ取得部10bによって、HMMの学習により、対象話者の音声のパターンモデルを生成してデータ記憶部10iに記憶する。
(9)位置算出部10dによって、上記生成された対象話者のパターンモデルと他の特定話者のパターンモデルとの数学的距離を算出する。ここで、本実施形態においては、オペレータが、音声データの位置関係を視覚的に判断可能なように、数学的距離が算出された時点で、後述する(13)及び(14)の処理により、これら算出された数学的距離に基づく2次元射影化により、その座標データを図55に示すように表示することが可能となっている。
(10)類似話者検出部10eによって、上記算出された数学的距離に基づき、類似話者の検出処理を行う。つまり、上記算出された対象話者用のパターンモデルからの距離が閾値Th以内にあるパターンモデルを検出する。例えば、図55(a)に示すように、対象話者のパターンモデルが図中の×印で示された座標点50である場合に、そのパターンモデルを中心とした半径Thの円内にあるパターンモデルの中から類似話者を検出する。ここでは、図55(a)中における、座標点50に近い順に座標点50a〜50cの3つのパターンモデルを選択する。
このようにして、選択されたパターンモデルに対応する話者が、対象話者の音声に類似した音声を有する類似話者として検出される。検出結果は、第2のデータ制御部2c及び第2の情報表示部10gによって表示される。
更に、検出結果に係る情報は、第2のデータ通信部10aを介して、例えば、対象話者がシステム利用者Aであれば、情報処理端末9Aに送信される。
ここで、本実施形態において、検出結果に係る情報は、選択されたパターンモデルに対応する話者の名前等の類似話者に関する情報、2次元射影化された位置関係情報となる。
また、上記したように上位M個のパターンモデルについて数学的距離を算出した場合、これは選択されたパターンモデルが間違いであった場合(選択されたパターンモデルが対象話者の音声とかけはなれた特徴を有していた場合など)を考慮したものであり、この場合は、それぞれについて閾値Thの距離内にある他者のパターンモデルから類似話者を検出する。
ここで、本実施形態において、上記検出処理は、類似話者検出部10eにより自動的に行っているが、2次元射影化により表示された音響空間やその他の表示情報からオペレータが自分で判断して検出するようにしても良い。
また、上記検出処理は、上記した複数種類の発話様式に対応するパターンモデルに対してそれぞれ行うことで、発話様式Aの音声は類似しているが、発話様式Bの音声は類似していないといったように、発話様式の種類毎の検出が可能であり、これらの検出結果から類似している音声の最も多い話者を類似話者としたり、それぞれの発話様式毎に最も近い話者を類似話者としたりすることが可能である。
なお、類似話者が検出され、そのデータが情報処理端末9に送信されると、情報処理端末9側では、取得した情報が表示される。つまり、上記した類似話者に関する情報及び2次元射影化された対象話者のパターンモデルと類似話者のパターンモデルとの位置関係情報が表示される。これにより、システム利用者は、操作部9eの操作により、表示された情報を見て、音声を真似したい特定の話者を指定する。指定された情報は、データ処理装置10に送信され、図54(b)における処理(11)に移行する。
(11)類似性評価部10fによって、システム利用者(対象話者)により指定された特定話者のパターンモデルと対象話者のパターンモデルとの類似性を評価する。
例えば、対象話者のパターンモデルと特定話者のパターンモデルとの数学的距離に基づき、両者間の距離が短ければ類似性が高く、一方、両者間の距離が長ければ類似性は低いといったように評価を行う。
本実施形態においては、両者の座標が一致したときを類似率100%(そっくり)とし、対象話者の座標点52から距離S以上の位置にあるパターンモデルを特定話者のパターンモデルとの類似率0%(全く類似していない)として、図55(a)に示すように、対象話者の座標点52から特定話者の座標点52aまでの距離を類似率(%)で表したものを評価結果として表示する。
ここで、類似性の評価処理は、特定話者の上記した複数種類の発話様式に対応するパターンモデルについてそれぞれ行う。
また、評価結果に係る情報は、第2のデータ通信部10aを介して、例えば、対象話者がシステム利用者Bであれば、情報処理端末9Bに送信される。
また、本実施形態において、評価結果に係る情報は、特定話者の複数種類の発話様式にそれぞれ対応したパターンモデルに対する評価結果、これらパターンモデルと対象話者のパターンモデルとの2次元射影化された位置関係情報及び後述する矯正情報となる。
(12)矯正情報生成部10hによって、上記類似性評価部10fの評価結果に基づき、対象話者の音声と特定話者の音声との類似性を高めるための、対象話者の音声に対する矯正情報を生成する。
ここで、この矯正情報の生成は、改めて対象話者の音声データを取得して、その音声データに対応するパターンモデルに対して行っても良いし、上記処理(5)及び処理(6)において始めに取得した音声データに対して行っても良い。
更に、生成された矯正情報は、上記した評価結果に係る情報に含んで情報処理端末9に送信される。
一方、情報処理端末9では、上記矯正情報を取得すると、第1の情報表示部9dによって矯正情報を表示する。従って、対象話者は、表示された矯正情報を見て、それに習って自己の音声を矯正し特定話者の音声と自己の音声との類似性を高める練習を行うことが可能である。
ここで、図54(b)の(13)、(14)に示す2次元射影化による音響空間の表示処理及び評価結果の表示処理は、上記した第1の実施形態における図54(a)の(12)、(13)と同様の処理であるので記載を省略する。
更に、図57に基づき、情報処理端末9の動作処理の流れについて説明する。図57は、情報処理端末9の動作処理を示すフローチャートである。
図57に示すように、まずステップS1200に移行し、第1のデータ制御部9bにおいて、音声データの取得処理が開始されたか否かを判定し、開始されたと判定された場合(Yes)はステップS1202に移行し、そうでない場合(No)は開始されるまで判定処理を続行する。
ステップS1202に移行した場合は、第1のデータ取得部9aによって、対象話者(本実施形態では、システム利用者A〜Cのいずれか)の発声した音声(アナログデータ)を取得しステップS1204に移行する。
ステップS1204では、第1のデータ取得部9aにおいて、取得した音声(アナログデータ)をデジタルデータに変換してステップS1206に移行する。
ステップS1206では、第1のデータ制御部9bによって、上記デジタルデータに変換された音声データを、第1のデータ通信部9cを介してデータ処理装置10に送信してステップS1208に移行する。
ステップS1208では、第1のデータ制御部9bにおいて、データ処理装置10から上記送信した音声データに対する類似話者の検出結果情報を、第1のデータ通信部9cを介して受信したか否かを判定し、受信したと判定された場合(Yes)はステップS1210に移行し、そうでない場合(No)は受信するまで判定処理を続行する。
ステップS1210に移行した場合は、第1のデータ制御部9bの制御命令に応じて、第1の情報表示部9dにおいて、上記受信した検出結果情報を表示してステップS1212に移行する。
ステップS1212では、第1のデータ制御部9bにおいて、操作部9eの操作によって、特定話者が選択されたか否かを判定し、選択されたと判定された場合(Yes)はステップS1214に移行し、そうでない場合(No)は選択されるまで待機する。
ステップS1214に移行した場合は、第1のデータ制御部9bによって、上記選択された話者の情報を、第1のデータ通信部9cを介してデータ処理装置10に送信してステップS1216に移行する。
ステップS1216では、第1のデータ制御部9bにおいて、データ処理装置10から上記送信した音声データ及び選択話者情報に対する評価結果情報を、第1のデータ通信部9cを介して受信したか否かを判定し、受信したと判定された場合(Yes)はステップS1218に移行し、そうでない場合(No)は受信するまで判定処理を続行する。
ステップS1216に移行した場合は、第1のデータ制御部9bの制御命令に応じて、第1の情報表示部9dにおいて、上記受信した評価結果情報を表示してステップS1200に移行する。
更に、図58に基づき、データ処理装置10の動作処理の流れを説明する。図58は、データ処理装置10の動作処理を示すフローチャートである。
図58に示すように、まずステップS1300に移行し、第2のデータ制御部10cにおいて、第2のデータ通信部10aを介して情報処理端末9から音声データを取得したか否かを判定し、取得したと判定された場合(Yes)はステップS1302に移行し、そうでない場合(No)は取得するまで判定処理を続行する。
ステップS1302に移行した場合は、第2のデータ取得部10bにおいて、取得した音声の特徴量を抽出してステップS1304に移行する。ここで、上記した第1の実施形態においては、上記した尤度計算を行い、複数話者のパターンモデルの中から最も音響的特徴の類似したパターンを選択し、これを取得した音声のパターンモデルとする。一方、上記した第2の実施形態の場合は、抽出した特徴量から取得した音声のパターンモデルを生成する。
ステップS1304では、位置算出部10dにおいて、取得した音声のパターンモデルと他の複数話者のパターンモデルとの数学的距離を算出してステップS1306に移行する。
ステップS1306では、類似話者検出部10eにおいて、上記算出された数学的距離に基づき、取得した音声データに対する類似話者検出処理を行いステップS1308に移行する。
ステップS1308では、第2の情報表示部10gにおいて、上記検出結果に係る情報である検出結果情報を表示してステップS1310に移行する。
ステップS1310では、第2のデータ制御部10cによって、第2のデータ通信部10aを介して、上記検出結果情報を対象の情報処理端末9に送信してステップS1312に移行する。
ステップS1312では、第2のデータ制御部10cにおいて、第2のデータ通信部10aを介して情報処理端末9から選択話者情報を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS1314に移行し、そうでない場合(No)は取得するまで判定処理を続行する。
ステップS1314に移行した場合は、類似性評価部10fにおいて、対象話者のパターンモデルと選択された話者のパターンモデルとに基づき、両者の類似性を評価してステップS1316に移行する。ここで、類似性の評価後に、当該評価結果に基づき矯正情報生成部10hにおいて、対象話者の音声と特定話者の音声との類似性を高めるための矯正情報を生成する。
ステップS1316では、第2の情報表示部10gにおいて、上記評価結果に係る情報である評価結果情報を表示してステップS1318に移行する。
ステップS1318では、第2のデータ制御部10cによって、第2のデータ通信部10aを介して、上記評価結果情報を対象の情報処理端末9に送信してステップS1300に移行する。
更に、図59に基づき、第2の情報表示部10gにおける2次元射影化による座標情報の表示処理の流れを説明する。図59は、第2の情報表示部10gにおける2次元射影化による座標情報の表示処理を示すフローチャートである。
図59に示すように、まずステップS1400に移行し、位置算出部10dにおいて数学的距離の算出が完了したか否かを判定し、完了したと判定された場合(Yes)はステップS1402に移行し、そうでない場合(No)は完了するまで待機する。
ステップS1402に移行した場合は、公知のSammon法を用いて、対象話者の音声のパターンモデルと他の複数話者のパターンモデルと数学的距離を2次元射影化してステップS1404に移行する。
ステップS1404では、上記2次元射影化処理により2次元の情報となった数学的距離に基づき、各パターンモデルの座標情報を平面上の点として表示して処理を終了する。
以上、データ処理装置10は、第2のデータ取得部10bによって、対象話者の音声データを取得し、位置算出部10d及びデータ評価部3eによって、当該音声データと類似した音声を有する話者を検出し、第2の情報表示部10gによって、この検出結果に係る検出結果情報を表示し、更に、対象話者の音声のパターンモデルと、類似話者又は他の複数話者のパターンモデルとの位置関係を2次元の座標として表示することが可能である。
また、情報処理端末9は、データ処理装置10から上記した検出結果情報を取得し、第1の情報表示部9dにより、前記検出結果情報を表示し、対象話者は、操作部9eを操作することで表示された検出結果情報に基づき、特定の話者を選択し指定することが可能である。
また、データ処理装置10は、上記指定された特定話者の情報を取得し、類似性評価部10fによって、前記特定話者の音声と対象話者の音声との類似性を評価し、第2の情報表示部10gによって、当該評価結果情報を表示することが可能である。
また、情報処理端末9は、データ処理装置10から上記した評価結果情報を取得し、第1の情報表示部9dにより、前記評価結果情報を表示することが可能である
なお、上記実施形態においては、情報処理端末9とデータ処理装置10とをインターネットを介して接続する構成としているが、これに限らず、データ処理装置10に直接対象話者の音声を入力する構成としても良い。これにより、入力される対象話者の音声に対する特定話者の音声との類似性の評価結果をリアルタイムに表示する等の応答速度を必要とする処理が容易となる。

Claims (19)

  1. 複数対象に係る複数の所定データを、複数の特定条件に基づき、複数のグループに分類するデータ分類手段と、
    前記データ分類手段によって分類された前記所定データに基づき、当該所定データの各グループ毎に4次元以上の高次元の要素を有する複数のパターンモデルを生成するパターンモデル生成手段と、
    前記パターンモデル生成手段によって各グループ毎に生成されたパターンモデルの各パターンモデル相互間の数学的距離を算出する数学的距離算出手段と、
    前記数学的距離算出手段によって算出された前記数学的距離に基づき、前記各パターンモデル相互間の距離関係を保持しながら、前記複数のパターンモデルをこれより低次元の同数のパターンモデル対応低次元ベクトルへと変換するパターンモデル変換手段と、
    前記複数のパターンモデル対応低次元ベクトルを、低次元の要素の値に基づき、前記距離関係を保持した状態で、前記パターンモデル対応低次元ベクトルと同じ次元の低次元空間上の座標点として表示するパターンモデル対応低次元ベクトル表示手段と、
    前記パターンモデル対応低次元ベクトル表示手段によって前記低次元空間上に表示される前記複数のパターンモデル対応低次元ベクトルの座標点を、前記低次元空間上において複数の領域に自動的に区分する領域区分手段と、を備え、
    前記領域区分手段は、前記複数のパターンモデル対応低次元ベクトルを、当該全パターンモデル対応低次元ベクトルの座標点の重心を中心とし且つ前記重心と当該重心から最も離れた位置のパターンモデル対応低次元ベクトルの座標点との距離を半径とした1つの外円と、前記重心を中心とし且つ前記外円よりも小さな半径のn個の内円(nは1以上の整数)と、により区分し、更に、前記外円及び内円からなる複数の同心円同士の各外周間に形成される環状の領域を、半径方向に伸びる線によって複数に区分することを特徴とするデータ処理装置。
  2. 前記領域区分手段によって自動区分された区分内容を変更する区分内容変更手段を備えることを特徴とする請求項1記載のデータ処理装置。
  3. 前記領域区分手段によって区分された各領域毎に複数の前記パターンモデル対応低次元ベクトルを選択可能な領域選択手段と、当該領域選択手段によって選択された領域内にある前記複数のパターンモデル対応低次元ベクトルにそれぞれ対応する前記パターンモデルに係る、前記所定データに基づき、前記パターンモデルを生成する領域パターンモデル生成手段と、を備えることを特徴とする請求項1又は請求項2記載のデータ処理装置。
  4. 前記区分された領域内に含まれる前記パターンモデル対応低次元ベクトルの座標点に対応する所定データに基づき、各領域毎の領域パターンモデルを生成する領域パターンモデル生成手段と、
    新規対象に係る所定データを取得する所定データ取得手段と、
    前記取得した所定データに対する前記区分された各領域に対応した領域パターンモデルの尤度を算出し、当該算出した尤度に基づき、前記領域パターンモデル生成手段によって生成された領域パターンモデルの中から前記新規対象の所定データの認識に適した認識性能の領域パターンモデルを探索する領域パターンモデル探索手段と、を備えることを特徴とする請求項1記載のデータ処理装置。
  5. 前記数学的距離算出手段は、前記数学的距離の算出において、前記複数対象に係る複数の所定データにおける各パターン単位の出現頻度を用いることを特徴とする請求項4記載のデータ処理装置。
  6. 前記パターン単位の出現頻度は、前記複数対象に係る複数の所定データに対する前記パターンモデルを用いたパターン認識における前記複数対象に係る複数のパターン単位のうち、認識性能が所定の閾値より低いパターン単位の出現頻度であることを特徴とする請求項5記載のデータ処理装置。
  7. 前記領域区分手段は、最内円から外円方向に向かう程、前記各環状の領域に含まれるパターンモデル対応低次元ベクトルを細かく区分することを特徴とする請求項4乃至請求項6のいずれか1項に記載のデータ処理装置。
  8. 前記領域区分手段は、区分結果の各領域において、当該各領域に含まれるパターンモデル対応低次元ベクトルとこれと隣り合う領域に含まれるパターンモデル対応低次元ベクトルとの一部が重複するように領域を区分することを特徴とする請求項4乃至請求項7のいずれか1項に記載のデータ処理装置。
  9. 前記領域パターンモデル探索手段は、前記区分結果の最内円から外円方向に向かって順に、前記取得した所定データに対する前記区分された領域に対応した領域パターンモデルの尤度を算出し、当該算出した尤度に基づき、前記領域パターンモデル生成手段によって生成された領域パターンモデルの中から前記新規対象の所定データの認識に適した認識性能の領域パターンモデルを探索することを特徴とする請求項4乃至請求項8のいずれか1項に記載のデータ処理装置。
  10. 前記領域パターンモデル探索手段は、前記取得した所定データに対する、最内円の領域に対応した領域パターンモデルの尤度を算出し、次に、最内円に隣接する環状の領域における各区分領域に対応した領域パターンモデルの尤度を算出し、当該算出した尤度のうち最も高い尤度の領域パターンモデルに対応する領域に隣接した外円方向の領域に対応した領域パターンモデルの尤度を算出し、以降は、外円方向に向かって順に、一つ内側の環状の領域において算出された尤度の最も高い領域パターンモデルの対応した領域に隣接する外円方向の領域に対応した領域パターンモデルの尤度を算出することを特徴とする請求項9に記載のデータ処理装置。
  11. 前記領域パターンモデル探索手段は、前記取得した所定データに対する、最内円の領域に対応した領域パターンモデルの尤度を算出し、次に、最内円に隣接する環状の領域における各区分領域に対応した領域パターンモデルの尤度を算出し、当該算出した尤度のうち上位m個の尤度に対応する領域パターンモデル(mは2以上の整数)にそれぞれ対応する領域に隣接した外円方向の区分領域に対応した領域パターンモデルの尤度を算出し、以降は、外円方向に向かって順に、一つ内側の環状の領域において算出された尤度の最も高い領域パターンモデルの対応した領域に隣接する外円方向の領域に対応した領域パターンモデルの尤度を算出することを特徴とする請求項9に記載のデータ処理装置。
  12. 前記複数対象に係る複数の所定データは、複数話者の発声した複数の音声のデータであり、
    前記複数の特定条件は、少なくとも、話者の種類、発話語彙、発話様式及び発話環境を含むことを特徴とする請求項1乃至請求項11のいずれか1項に記載のデータ処理装置。
  13. 前記データ分類手段は、前記複数の特定条件をそれぞれ任意に組み合わせた各組毎に前記グループを形成することを特徴とする請求項1乃至請求項12のいずれか1項に記載のデータ処理装置。
  14. 前記パターンモデルは、HMM(Hidden Markov Model)によって生成され、
    前記数学的距離算出手段は、前記HMMによって生成された、前記パターンモデルの正規分布の平均ベクトルに基づくユークリッド距離、前記パターンモデルの正規分布の標準偏差により正規化された当該パターンモデルの正規分布の平均ベクトルに基づくユークリッド距離、及び、前記パターンモデルの正規分布に基づくバタチャリア距離のいずれか1つを用いて前記数学的距離を算出することを特徴とする請求項1乃至請求項13のいずれか1項に記載のデータ処理装置。
  15. 前記領域区分手段によって自動区分された区分内容を変更する区分内容変更手段を備えることを特徴とする請求項4乃至請求項14のいずれか1項に記載のデータ処理装置。
  16. 前記領域パターンモデル探索手段によって探索された領域パターンモデルを新規対象の所定データに基づき、前記新規対象用に適応するパターンモデル適応手段を備えることを特徴とする請求項4乃至請求項11のいずれか1項に記載のデータ処理装置。
  17. 前記パターンモデル変換手段は、前記領域パターンモデル探索手段によって探索された領域パターンモデルに対応する領域内に含まれる前記複数のパターンモデル対応低次元ベクトルに対応する高次元パターンモデルを、前記パターンモデル対応低次元ベクトルに変換可能であり、
    前記パターンモデル対応低次元ベクトル表示手段は、前記変換後のパターンモデル対応低次元ベクトルを、低次元の要素の値に基づき、前記距離関係を保持した状態で、前記パターンモデル対応低次元ベクトルと同じ次元の低次元空間上の座標点として表示可能であり、
    前記領域区分手段は、前記低次元空間上に表示される前記複数のパターンモデル対応低次元ベクトルの座標点を、前記低次元空間上において複数の領域に自動的に区分可能であることを特徴とする請求項16記載のデータ処理装置。
  18. 請求項1記載のデータ処理装置を制御するためのコンピュータが実行可能なプログラムであって、
    複数対象に係る複数の所定データを、複数の特定条件に基づき、複数のグループに分類するデータ分類ステップと、
    前記データ分類ステップにおいて分類された前記所定データに基づき、当該所定データの各グループ毎に4次元以上の高次元の要素を有する複数のパターンモデルを生成するパターンモデル生成ステップと、
    前記パターンモデル生成ステップにおいて各グループ毎に生成されたパターンモデルの各パターンモデル相互間の数学的距離を算出する数学的距離算出ステップと、
    前記数学的距離算出ステップにおいて算出された前記数学的距離に基づき、前記各パターンモデル相互間の距離関係を保持しながら、前記複数のパターンモデルをこれより低次元の同数のパターンモデル対応低次元ベクトルへと変換するパターンモデル変換ステップと、
    前記複数のパターンモデル対応低次元ベクトルを、低次元の要素の値に基づき、前記距離関係を保持した状態で、前記パターンモデル対応低次元ベクトルと同じ次元の低次元空間上の座標点として表示するパターンモデル対応低次元ベクトル表示ステップと、
    前記パターンモデル対応低次元ベクトル表示ステップによって前記低次元空間上に表示される前記複数のパターンモデル対応低次元ベクトルの座標点を、前記低次元空間上において複数の領域に自動的に区分する領域区分ステップと、
    前記領域区分ステップにおいて、前記複数のパターンモデル対応低次元ベクトルを、当該全パターンモデル対応低次元ベクトルの座標点の重心を中心とし且つ前記重心と当該重心から最も離れた位置のパターンモデル対応低次元ベクトルの座標点との距離を半径とした1つの外円と、前記重心を中心とし且つ前記外円よりも小さな半径のn個の内円(nは1以上の整数)と、により区分し、更に、前記外円及び内円からなる複数の同心円同士の各外周間に形成される環状の領域を、半径方向に伸びる線によって複数に区分するステップと、をコンピュータに実行させるためのデータ処理装置制御プログラム
  19. システム利用者の管理下にある情報処理端末と、
    請求項4〜11、16及び17のいずれか1項に記載のデータ処理装置と、を備え、
    前記情報処理端末及び前記データ処理装置を互いにデータ通信可能に接続し、
    前記データ処理装置において、前記複数対象に係る複数の所定データは、複数話者の発声した複数の音声のデータであり、
    前記情報処理端末は、
    前記システム利用者の発声した音声のデータを取得し、当該取得した音声データを前記データ処理装置に送信する音声データ送信手段と、
    前記データ処理装置から前記システム利用者の音声データをパターン認識するのに適した特定パターンモデルを取得する特定パターンモデル取得手段と、を備え、
    前記データ処理装置は、
    前記所定データ取得手段によって前記情報処理端末からの前記音声データを取得し、更に、当該取得した音声データに基づき前記システム利用者用の前記特定パターンモデルを生成するようになっており、
    前記生成した特定パターンモデルを前記情報処理端末に送信する特定パターンモデル送信手段を更に備えることを特徴とする特定パターンモデル提供システム。
JP2009142418A 2003-10-03 2009-06-15 データ処理装置、データ処理装置制御プログラム、データ処理方法及び特定パターンモデル提供システム Expired - Fee Related JP5155944B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009142418A JP5155944B2 (ja) 2003-10-03 2009-06-15 データ処理装置、データ処理装置制御プログラム、データ処理方法及び特定パターンモデル提供システム

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP2003345984 2003-10-03
JP2003345984 2003-10-03
JP2003370980 2003-10-30
JP2003370980 2003-10-30
JP2003428015 2003-12-24
JP2003428015 2003-12-24
JP2009142418A JP5155944B2 (ja) 2003-10-03 2009-06-15 データ処理装置、データ処理装置制御プログラム、データ処理方法及び特定パターンモデル提供システム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2005514358A Division JP4413867B2 (ja) 2003-10-03 2004-07-22 データ処理装置及びデータ処理装置制御プログラム

Publications (2)

Publication Number Publication Date
JP2009205178A JP2009205178A (ja) 2009-09-10
JP5155944B2 true JP5155944B2 (ja) 2013-03-06

Family

ID=34396848

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2005514358A Expired - Fee Related JP4413867B2 (ja) 2003-10-03 2004-07-22 データ処理装置及びデータ処理装置制御プログラム
JP2009142418A Expired - Fee Related JP5155944B2 (ja) 2003-10-03 2009-06-15 データ処理装置、データ処理装置制御プログラム、データ処理方法及び特定パターンモデル提供システム
JP2009142417A Expired - Fee Related JP5155943B2 (ja) 2003-10-03 2009-06-15 データ処理装置、データ処理装置制御プログラム及びデータ処理方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2005514358A Expired - Fee Related JP4413867B2 (ja) 2003-10-03 2004-07-22 データ処理装置及びデータ処理装置制御プログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2009142417A Expired - Fee Related JP5155943B2 (ja) 2003-10-03 2009-06-15 データ処理装置、データ処理装置制御プログラム及びデータ処理方法

Country Status (7)

Country Link
US (2) US7548651B2 (ja)
EP (2) EP1881443B1 (ja)
JP (3) JP4413867B2 (ja)
KR (1) KR100814143B1 (ja)
CN (2) CN1867966B (ja)
DE (2) DE602004020527D1 (ja)
WO (1) WO2005034086A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015161189A (ja) * 2014-02-26 2015-09-07 トヨタ自動車株式会社 シリンダブロックの加工方法及び装置

Families Citing this family (193)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4550882B2 (ja) * 2004-11-25 2010-09-22 シャープ株式会社 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム
EP1852847A4 (en) * 2005-01-17 2008-05-21 Nec Corp VOICE RECOGNITION SYSTEM, VOICE RECOGNITION METHOD, AND VOICE RECOGNITION PROGRAM
US10417700B2 (en) * 2005-03-03 2019-09-17 Refinitiv Us Organization Llc System and method for graphical display of multivariate data
US7805300B2 (en) * 2005-03-21 2010-09-28 At&T Intellectual Property Ii, L.P. Apparatus and method for analysis of language model changes
US7693713B2 (en) * 2005-06-17 2010-04-06 Microsoft Corporation Speech models generated using competitive training, asymmetric training, and data boosting
GB0514555D0 (en) * 2005-07-15 2005-08-24 Nonlinear Dynamics Ltd A method of analysing separation patterns
GB0514553D0 (en) * 2005-07-15 2005-08-24 Nonlinear Dynamics Ltd A method of analysing a representation of a separation pattern
JP4763387B2 (ja) * 2005-09-01 2011-08-31 旭化成株式会社 パターンモデル生成装置、パターンモデル評価装置およびパターン認識装置
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070076001A1 (en) * 2005-09-30 2007-04-05 Brand Matthew E Method for selecting a low dimensional model from a set of low dimensional models representing high dimensional data based on the high dimensional data
JP4825014B2 (ja) * 2006-01-24 2011-11-30 旭化成株式会社 評価用データ生成装置、認識性能分布情報生成装置およびシステム
US8036896B2 (en) * 2006-04-18 2011-10-11 Nuance Communications, Inc. System, server and method for distributed literacy and language skill instruction
KR100901640B1 (ko) * 2006-05-10 2009-06-09 주식회사 케이티 음성 인식을 위한 음성 특징 벡터 양자화에 있어 비균일표본을 기반으로 하는 학습 데이터 선정 방법
JP4728972B2 (ja) * 2007-01-17 2011-07-20 株式会社東芝 インデキシング装置、方法及びプログラム
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
WO2008149547A1 (ja) * 2007-06-06 2008-12-11 Panasonic Corporation 声質編集装置および声質編集方法
JP5060224B2 (ja) * 2007-09-12 2012-10-31 株式会社東芝 信号処理装置及びその方法
JP5626558B2 (ja) * 2007-10-31 2014-11-19 日本電気株式会社 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム
CN101809621B (zh) * 2007-12-14 2012-07-25 松下电器产业株式会社 图像判定装置
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
EP2247121A4 (en) * 2008-01-17 2012-11-28 Pioneer Corp SPEAKER CHARACTERISTIC CORRECTION DEVICE, SPEAKER CHARACTERISTIC CORRECTION METHOD, AND SPEAKER CHARACTERISTIC CORRECTION PROGRAM
US20090198602A1 (en) * 2008-01-31 2009-08-06 Intuit Inc. Ranking commercial offers based on user financial data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8195460B2 (en) * 2008-06-17 2012-06-05 Voicesense Ltd. Speaker characterization through speech analysis
US20090319916A1 (en) * 2008-06-24 2009-12-24 Microsoft Corporation Techniques to auto-attend multimedia conference events
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
EP2182512A1 (en) * 2008-10-29 2010-05-05 BRITISH TELECOMMUNICATIONS public limited company Speaker verification
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US8386251B2 (en) * 2009-06-08 2013-02-26 Microsoft Corporation Progressive application of knowledge sources in multistage speech recognition
JP5611546B2 (ja) * 2009-06-30 2014-10-22 株式会社東芝 自動診断支援装置、超音波診断装置及び自動診断支援プログラム
US9031243B2 (en) * 2009-09-28 2015-05-12 iZotope, Inc. Automatic labeling and control of audio algorithms by audio recognition
WO2011064938A1 (ja) * 2009-11-25 2011-06-03 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8490056B2 (en) * 2010-04-28 2013-07-16 International Business Machines Corporation Automatic identification of subroutines from test scripts
US8949125B1 (en) * 2010-06-16 2015-02-03 Google Inc. Annotating maps with user-contributed pronunciations
US8812310B2 (en) * 2010-08-22 2014-08-19 King Saud University Environment recognition of audio input
CN101923854B (zh) * 2010-08-31 2012-03-28 中国科学院计算技术研究所 一种交互式语音识别系统和方法
DE102010047444B4 (de) * 2010-10-04 2014-04-03 Audi Ag Verfahren zur Visualisierung von Maßabweichungen zwischen einer Ist- und Soll-Geometrie eines Bauteils
CN101950564A (zh) * 2010-10-13 2011-01-19 镇江华扬信息科技有限公司 一种远程数字化语音采集分析识别系统
KR101791907B1 (ko) * 2011-01-04 2017-11-02 삼성전자주식회사 위치 기반의 음향 처리 장치 및 방법
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20130090926A1 (en) * 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
CN102509548B (zh) * 2011-10-09 2013-06-12 清华大学 一种基于多距离声传感器的音频索引方法
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
KR101992676B1 (ko) * 2012-07-26 2019-06-25 삼성전자주식회사 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
KR102029055B1 (ko) * 2013-02-08 2019-10-07 삼성전자주식회사 고차원 데이터의 시각화 방법 및 장치
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
KR102158210B1 (ko) * 2013-09-04 2020-09-22 엘지전자 주식회사 음성 인식 장치 및 그 방법
GB2517952B (en) * 2013-09-05 2017-05-31 Barclays Bank Plc Biometric verification using predicted signatures
JP5777178B2 (ja) * 2013-11-27 2015-09-09 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
JP6413263B2 (ja) * 2014-03-06 2018-10-31 株式会社デンソー 報知装置
JP6150340B2 (ja) * 2014-03-14 2017-06-21 Kddi株式会社 データ交換装置およびデータ価値評価装置
CN103905650A (zh) * 2014-04-28 2014-07-02 深圳市中兴移动通信有限公司 移动终端及基于语音识别调节通话音量的方法
US9633649B2 (en) 2014-05-02 2017-04-25 At&T Intellectual Property I, L.P. System and method for creating voice profiles for specific demographics
KR102225404B1 (ko) * 2014-05-23 2021-03-09 삼성전자주식회사 디바이스 정보를 이용하는 음성인식 방법 및 장치
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9959863B2 (en) * 2014-09-08 2018-05-01 Qualcomm Incorporated Keyword detection using speaker-independent keyword models for user-designated keywords
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
KR20160058470A (ko) * 2014-11-17 2016-05-25 삼성전자주식회사 음성 합성 장치 및 그 제어 방법
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9721559B2 (en) * 2015-04-17 2017-08-01 International Business Machines Corporation Data augmentation method based on stochastic feature mapping for automatic speech recognition
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) * 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
KR102559199B1 (ko) * 2015-11-02 2023-07-25 삼성전자주식회사 배터리 관리 방법 및 배터리 관리 장치
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
CN106887230A (zh) * 2015-12-16 2017-06-23 芋头科技(杭州)有限公司 一种基于特征空间的声纹识别方法
JP6841232B2 (ja) * 2015-12-18 2021-03-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN106971729A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种基于声音特征范围提高声纹识别速度的方法及系统
CN106971737A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种基于多人说话的声纹识别方法
CN106971730A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种基于信道补偿的声纹识别方法
CN105654954A (zh) * 2016-04-06 2016-06-08 普强信息技术(北京)有限公司 一种云端语音识别系统及方法
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10635800B2 (en) * 2016-06-07 2020-04-28 Vocalzoom Systems Ltd. System, device, and method of voice-based user authentication utilizing a challenge
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10565513B2 (en) * 2016-09-19 2020-02-18 Applied Materials, Inc. Time-series fault detection, fault classification, and transition analysis using a K-nearest-neighbor and logistic regression approach
CN109716285A (zh) * 2016-09-23 2019-05-03 索尼公司 信息处理装置和信息处理方法
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR101926837B1 (ko) 2017-02-20 2018-12-07 아주대학교산학협력단 데이터 빈도수 기반의 단일 클래스 모델 생성 방법 및 장치
EP3599604A4 (en) * 2017-03-24 2020-03-18 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US20190019500A1 (en) * 2017-07-13 2019-01-17 Electronics And Telecommunications Research Institute Apparatus for deep learning based text-to-speech synthesizing by using multi-speaker data and method for the same
US10229092B2 (en) 2017-08-14 2019-03-12 City University Of Hong Kong Systems and methods for robust low-rank matrix approximation
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10984795B2 (en) * 2018-04-12 2021-04-20 Samsung Electronics Co., Ltd. Electronic apparatus and operation method thereof
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
KR102043342B1 (ko) * 2018-05-14 2019-11-12 고려대학교 세종산학협력단 소리감지 센서를 이용한 반려견 소리 분류 시스템 및 방법
KR102562227B1 (ko) * 2018-06-12 2023-08-02 현대자동차주식회사 대화 시스템, 그를 가지는 차량 및 차량의 제어 방법
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
KR20190136578A (ko) 2018-05-31 2019-12-10 삼성전자주식회사 음성 인식 방법 및 장치
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US10210860B1 (en) 2018-07-27 2019-02-19 Deepgram, Inc. Augmented generalized deep learning with special vocabulary
KR102225984B1 (ko) * 2018-09-03 2021-03-10 엘지전자 주식회사 음성 인식 서비스를 제공하는 서버
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
JPWO2020075236A1 (ja) * 2018-10-10 2021-09-09 株式会社toor 分析装置、分析システム及び分析方法
US10720149B2 (en) * 2018-10-23 2020-07-21 Capital One Services, Llc Dynamic vocabulary customization in automated voice systems
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN109348359B (zh) 2018-10-29 2020-11-10 歌尔科技有限公司 一种音响设备及其音效调整方法、装置、设备、介质
KR102236458B1 (ko) * 2018-11-05 2021-04-06 고려대학교 세종산학협력단 보간법과 lstm-fcn 기법을 적용한 분리불안 증세의 반려견 소리 분류를 위한 방법 및 그 시스템
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US10785171B2 (en) 2019-02-07 2020-09-22 Capital One Services, Llc Chat bot utilizing metaphors to both relay and obtain information
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2020246638A2 (ko) * 2019-06-05 2020-12-10 엘지전자 주식회사 음성인식 기기를 위한 지능형 음성인식 모델을 제공하는 방법
US11545132B2 (en) 2019-08-28 2023-01-03 International Business Machines Corporation Speech characterization using a synthesized reference audio signal
US11900246B2 (en) 2019-09-02 2024-02-13 Samsung Electronics Co., Ltd. Method and apparatus for recognizing user based on on-device training
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
DE102021209106A1 (de) 2021-08-19 2023-02-23 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren und Vorrichtung zur Durchführung eines Ladevorgangs einer Gerätebatterie
WO2023068101A1 (ja) * 2021-10-20 2023-04-27 ソニーグループ株式会社 情報処理装置、情報処理方法及びプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3163185B2 (ja) * 1992-11-27 2001-05-08 株式会社東芝 パターン認識装置およびパターン認識方法
KR100247969B1 (ko) * 1997-07-15 2000-03-15 윤종용 대용량패턴정합장치및방법
US6990238B1 (en) * 1999-09-30 2006-01-24 Battelle Memorial Institute Data processing, analysis, and visualization system for use with disparate data types
DE10047724A1 (de) * 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraumes zur Darstellung einer Mehrzahl von Trainingssprechern
JP2002162989A (ja) * 2000-11-28 2002-06-07 Ricoh Co Ltd 音響モデル配信システムおよび音響モデル配信方法
WO2003096324A1 (fr) * 2002-05-10 2003-11-20 Asahi Kasei Kabushiki Kaisha Dispositif de reconnaissance vocale
JP2004199377A (ja) * 2002-12-18 2004-07-15 Toshiba Corp 遠隔監視診断システム
EP1639579A1 (fr) * 2003-07-01 2006-03-29 France Telecom Procede et systeme d'analyse de signaux vocaux pour la representation compacte de locuteurs
KR20050063299A (ko) * 2003-12-22 2005-06-28 한국전자통신연구원 최대 사후 고유공간에 근거한 화자적응 방법
JP4769536B2 (ja) * 2005-10-07 2011-09-07 Juki株式会社 ボタン付けミシン
JP4890964B2 (ja) * 2006-06-23 2012-03-07 ゼブラ株式会社 リフィール構成部材の接続構造及び該接続構造の製造方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015161189A (ja) * 2014-02-26 2015-09-07 トヨタ自動車株式会社 シリンダブロックの加工方法及び装置

Also Published As

Publication number Publication date
CN101661754B (zh) 2012-07-11
US20050075875A1 (en) 2005-04-07
CN1867966A (zh) 2006-11-22
EP1881443A3 (en) 2008-02-27
JP5155943B2 (ja) 2013-03-06
DE602004020527D1 (de) 2009-05-20
US8606580B2 (en) 2013-12-10
US20090138263A1 (en) 2009-05-28
CN101661754A (zh) 2010-03-03
JP2009205178A (ja) 2009-09-10
DE602004011545D1 (de) 2008-03-13
JPWO2005034086A1 (ja) 2007-10-04
US7548651B2 (en) 2009-06-16
DE602004011545T2 (de) 2009-01-08
EP1669979A4 (en) 2006-12-27
CN1867966B (zh) 2012-05-30
EP1881443A2 (en) 2008-01-23
KR100814143B1 (ko) 2008-03-14
EP1669979B1 (en) 2008-01-23
EP1669979A1 (en) 2006-06-14
KR20060087585A (ko) 2006-08-02
EP1881443B1 (en) 2009-04-08
WO2005034086A1 (ja) 2005-04-14
JP4413867B2 (ja) 2010-02-10
JP2009205177A (ja) 2009-09-10

Similar Documents

Publication Publication Date Title
JP5155944B2 (ja) データ処理装置、データ処理装置制御プログラム、データ処理方法及び特定パターンモデル提供システム
CN108701453B (zh) 模块化深度学习模型
US11056096B2 (en) Artificial intelligence (AI)-based voice sampling apparatus and method for providing speech style in heterogeneous label
US9412361B1 (en) Configuring system operation using image data
US11705105B2 (en) Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same
US11393459B2 (en) Method and apparatus for recognizing a voice
KR102281504B1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법
JP4763387B2 (ja) パターンモデル生成装置、パターンモデル評価装置およびパターン認識装置
JP4825014B2 (ja) 評価用データ生成装置、認識性能分布情報生成装置およびシステム
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
Iwahashi Interactive learning of spoken words and their meanings through an audio-visual interface
KR102418232B1 (ko) 보이스 유사도 평가 방법 및 그 장치
KR102631143B1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
KR20230120790A (ko) 가변적 언어모델을 이용한 음성인식 헬스케어 서비스
Minematsu et al. Speaker-basis Accent Clustering Using Invariant Structure Analysis and the Speech Accent Archive.
KR102642617B1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
KR102603282B1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
US11017782B2 (en) Speaker classification
Popescu et al. A platform that aims to help people to learn how to interact with robotic platforms
KR20230067501A (ko) 음성 합성 장치 및 그의 음성 합성 방법
JP2002311988A (ja) プログラム、記録媒体、情報処理方法、および情報処理装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090715

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120229

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120327

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120514

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121207

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5155944

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees