JP2009205177A - データ処理装置、データ処理装置制御プログラム及びデータ処理方法 - Google Patents
データ処理装置、データ処理装置制御プログラム及びデータ処理方法 Download PDFInfo
- Publication number
- JP2009205177A JP2009205177A JP2009142417A JP2009142417A JP2009205177A JP 2009205177 A JP2009205177 A JP 2009205177A JP 2009142417 A JP2009142417 A JP 2009142417A JP 2009142417 A JP2009142417 A JP 2009142417A JP 2009205177 A JP2009205177 A JP 2009205177A
- Authority
- JP
- Japan
- Prior art keywords
- data
- pattern model
- pattern
- dimensional
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 433
- 238000012545 processing Methods 0.000 title claims description 599
- 238000003672 processing method Methods 0.000 title claims description 18
- 230000008569 process Effects 0.000 title abstract description 310
- 238000009826 distribution Methods 0.000 claims abstract description 51
- 239000013598 vector Substances 0.000 claims description 259
- 238000011156 evaluation Methods 0.000 claims description 249
- 230000010365 information processing Effects 0.000 claims description 184
- 238000004364 calculation method Methods 0.000 claims description 134
- 238000004891 communication Methods 0.000 claims description 68
- 238000006243 chemical reaction Methods 0.000 claims description 66
- 238000011157 data evaluation Methods 0.000 claims description 53
- 238000001514 detection method Methods 0.000 claims description 53
- 238000012937 correction Methods 0.000 claims description 46
- 238000013500 data storage Methods 0.000 claims description 40
- 230000008859 change Effects 0.000 claims description 33
- 238000003860 storage Methods 0.000 claims description 27
- 230000011218 segmentation Effects 0.000 claims description 23
- 230000005540 biological transmission Effects 0.000 claims description 22
- 238000003909 pattern recognition Methods 0.000 claims description 22
- 230000001133 acceleration Effects 0.000 claims description 10
- 230000005484 gravity Effects 0.000 claims description 8
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 80
- 230000006870 function Effects 0.000 description 57
- 238000010586 diagram Methods 0.000 description 53
- 238000007476 Maximum Likelihood Methods 0.000 description 15
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 13
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 11
- 238000010276 construction Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 10
- 230000006978 adaptation Effects 0.000 description 9
- 235000016496 Panda oleosa Nutrition 0.000 description 8
- 240000000220 Panda oleosa Species 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 8
- MWUXSHHQAYIFBG-UHFFFAOYSA-N Nitric oxide Chemical compound O=[N] MWUXSHHQAYIFBG-UHFFFAOYSA-N 0.000 description 6
- 238000012854 evaluation process Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 238000013179 statistical model Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 5
- 241000271566 Aves Species 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 241000238631 Hexapoda Species 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- HBBGRARXTFLTSG-UHFFFAOYSA-N Lithium ion Chemical compound [Li+] HBBGRARXTFLTSG-UHFFFAOYSA-N 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000000446 fuel Substances 0.000 description 2
- 229910001416 lithium ion Inorganic materials 0.000 description 2
- 238000002493 microarray Methods 0.000 description 2
- 239000001301 oxygen Substances 0.000 description 2
- 229910052760 oxygen Inorganic materials 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- 241000286209 Phasianidae Species 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012252 genetic analysis Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000002945 steepest descent method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/2163—Partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Abstract
【解決手段】データ処理装置1を、データ分類部1aと、データ記憶部1bと、パターンモデル生成部1cと、データ制御部1dと、数学的距離算出部1eと、パターンモデル変換部1fと、パターンモデル表示部1gと、領域区分部1hと、区分内容変更部1iと、領域選択部1jと、特定パターンモデル生成部1kと、を含んだ構成とした。
【選択図】図1
Description
一般に、パターン認識の1つである音声認識は、話者が発声した音声サンプルをある特徴パラメータの系列に変換する音響分析部と、音響分析部で得られた特徴パラメータの系列を予めメモリやハードディスクなどの記憶装置に蓄積した語彙単語の特徴パラメータに関する情報と照合して、最も類似度の高い語彙単語を認識結果とする音声照合部と、の2つの部分から構成される。
音声認識の中で、不特定話者の音声を認識する技術を一般に不特定話者音声認識と呼ぶ。不特定話者音声認識においては、語彙単語の特徴パラメータに関する情報が予め記憶装置に蓄積されているため、特定話者音声認識のようにユーザーが音声認識させたい単語を登録するという作業は発生しない。
また、非特許文献1の第4章に記載されているViterbiアルゴリズムにより、当業者は不特定話者音声認識装置を容易に構成することができる。
そして、従来、音響モデルは、男性/女性の性別、子供/大人/高齢者の年齢別、雑音に依存する発話環境別に、複数個作られることが多かった。
上記したことは、音響モデルに限らず、画像認識等の他の分野のパターンモデルに対しても言えることである。
前記データ分類手段によって分類された前記所定データに基づき、当該所定データの各グループ毎に4次元以上の高次元の要素を有する複数のパターンモデルを生成するパターンモデル生成手段と、
前記パターンモデル生成手段によって各グループ毎に生成されたパターンモデルの各パターンモデル相互間の数学的距離を算出する数学的距離算出手段と、
前記数学的距離算出手段によって算出された前記数学的距離に基づき、前記各パターンモデル相互間の距離関係を保持しながら、前記複数のパターンモデルをこれより低次元の同数のパターンモデル対応低次元ベクトルへと変換するパターンモデル変換手段と、
前記複数のパターンモデル対応低次元ベクトルを、低次元の要素の値に基づき、前記距離関係を保持した状態で、前記パターンモデル対応低次元ベクトルと同じ次元の低次元空間上の座標点として表示するパターンモデル対応低次元ベクトル表示手段と、を備えることを特徴としている。
ここで、パターンモデルとは、例えば、所定データが音声データである場合に、この音声データに対してマッチングを行うパターンをモデル化したものであり、統計モデルなどを用いて表現されるものである。
例えば、数学的距離の算出にユークリッド距離を用いた場合、射影された低次元空間において、ユークリッド距離が近いパターンモデルはパターンモデル相互に類似していることを意味していると考えられる。
つまり、データ処理装置において、人間の音声のデータ、住宅内の生活雑音などの生活周囲音データ、野鳥、昆虫、蛙、蝙蝠、動物などの野生生物の鳴声データ、画像データ、赤外線センサデータ及び加速度センサデータのいずれか1種類のデータからパターンモデルを生成することが可能である。
前記複数の特定条件は、少なくとも、話者の種類、発話語彙、発話様式及び発話環境を含むことを特徴としている。
従って、少なくとも、話者の名前、男性/女性の性別、子供/大人/高齢者の年齢別等の話者の種類、発話する、数字、文章、単語等の発話語彙、発話速度、発話音量、方言に由来する特徴等の発話様式及び室内、自動車内、工場内、屋外(場所等により種類分けする)等の発話環境を考慮して音声データに対するパターンモデルを生成することが可能である。
つまり、前記データ分類手段は、前記複数の特定条件をそれぞれ任意に組み合わせた各組毎に前記グループを形成することが可能である。
従って、例えば、所定データが音声データの場合に、室内(発話環境)で大人の男(話者の種類)が単語(発話語彙)を早口(発話様式)で発話したといったように、任意の特定条件の組み合わせを一つのグループとして形成することが可能となる。無論、例えば、室内(発話環境)で大人の男(話者の種類)が発話したといったように、もっと大きな括りでグループ分けしても良い。
つまり、前記パターンモデルは、HMM(Hidden Markov Model)によって生成される。
例えば、音声は、話すスピードによりその時間的な長さが変わり、発声内容により、周波数領域上で特徴的な形状(スペクトル包絡という)を示すが、その形状は上記した特定条件に依存し揺らぎが生じる。例えば、上記したHMMは、そのような揺らぎを吸収することのできる統計的モデルである。
従って、上記いずれかの距離を用いることで、各パターンモデル間のより適切な数学的距離を算出することが可能である。
つまり、前記パターンモデル変換手段は、Sammon法を用いて、前記パターンモデルを前記パターンモデル対応低次元ベクトルへと変換することが可能である。
従って、公知のSammon法を用いることで、各パターンモデル相互間の距離関係を保持しながら、複数のパターンモデルをこれと同数のパターンモデル対応低次元ベクトルに変換することが可能である。
このような構成であれば、領域区分手段によって、前記パターンモデル対応低次元ベクトル表示手段によって前記低次元空間上に表示される前記複数のパターンモデル対応低次元ベクトルの座標点を、前記低次元空間上において複数の領域に自動的に区分することが可能である。
従って、複数のパターンモデル対応低次元ベクトルの座標点を簡易に区分することが可能であり、これにより、特定のパターンモデルがどの区分領域に該当するのかを、視覚的に簡易に知ることが可能となる。
従って、前記外円及び内円からなる複数の同心円同士の各外周間に形成される環状の領域を、複数の扇形の領域に区分することが可能となる。
このような構成であれば、区分内容変更手段によって、前記領域区分手段によって自動区分された区分内容を変更することが可能である。
従って、区分内容が適切でないときや、新たなパターンモデルが加わったときなどに、適切な区分内容に変更することが可能である。また、視覚化されたパターンモデルの区分内容を変更することになるので、容易に区分内容の変更を行うことが可能である。
また、特定区分領域の所定データを用いてパターンモデルを生成するので、パターンモデルを小規模にすることが可能であり、パターンモデルが使用するメモリ容量を軽減することが可能である。
複数対象に係る複数の所定データを、複数の特定条件に基づき、複数のグループに分類するデータ分類ステップと、
前記データ分類ステップにおいて分類された前記所定データに基づき、当該所定データの各グループ毎に4次元以上の高次元の要素を有する複数のパターンモデルを生成するパターンモデル生成ステップと、
前記パターンモデル生成ステップにおいて各グループ毎に生成されたパターンモデルの各パターンモデル相互間の数学的距離を算出する数学的距離算出ステップと、
前記数学的距離算出ステップにおいて算出された前記数学的距離に基づき、前記各パターンモデル相互間の距離関係を保持しながら、前記複数のパターンモデルをこれより低次元の同数のパターンモデル対応低次元ベクトルへと変換するパターンモデル変換ステップと、
前記複数のパターンモデル対応低次元ベクトルを、低次元の要素の値に基づき、前記距離関係を保持した状態で、前記パターンモデル対応低次元ベクトルと同じ次元の低次元空間上の座標点として表示するパターンモデル対応低次元ベクトル表示ステップと、を備えることを特徴としている。
ここで、本発明は、請求の範囲第1項記載のデータ処理装置を制御するためのプログラムであり、その効果は重複するので記載を省略する。
前記領域区分ステップによって自動区分された区分内容を変更する区分内容変更ステップと、
前記領域区分ステップによって区分された各領域毎に複数の前記パターンモデル対応低次元ベクトルを選択する領域選択ステップと、
前記領域選択ステップによって選択された領域内の前記パターンモデル対応低次元ベクトルに対応する前記パターンモデルに係る、前記所定データに基づき、選択領域に対応した前記パターンモデルを生成する領域パターンモデル生成ステップと、を備えることを特徴としている。
ここで、本発明は、請求の範囲第11項記載のデータ処理装置を制御するためのプログラムであり、その効果は重複するので記載を省略する。
前記区分された領域内に含まれる前記パターンモデル対応低次元ベクトルの座標点に対応する所定データに基づき、各領域毎の領域パターンモデルを生成する領域パターンモデル生成手段と、
前記新規対象に係る所定データを取得する所定データ取得手段と、
前記取得した所定データに対する前記区分された各領域に対応した領域パターンモデルの尤度を算出し、当該算出した尤度に基づき前記新規対象の所定データの認識に適した認識性能の領域パターンモデルを探索する領域パターンモデル探索手段と、を備えることを特徴としている。
従って、新規対象に係る所定データに対する区分結果の各領域に対応した領域パターンモデルの尤度に基づき、各領域パターンモデルの中から新規対象の所定データをパターン認識するのに適した領域パターンモデルを探索することが可能である。
請求の範囲第1項乃至請求の範囲第7項のいずれか1項に記載の音声データ処理装置によって表示される前記低次元空間上の座標点を、前記低次元空間上において複数の領域に自動的に区分する領域区分ステップと、
前記区分された領域内に含まれる前記パターンモデル対応低次元ベクトルの座標点に対応する音声データに基づき、各領域毎のパターンモデルを生成する領域パターンモデル生成ステップと、
新規対象に係る所定データを取得する所定データ取得ステップと、
前記取得した所定データに対する前記区分された各領域に対応した領域パターンモデルの尤度を算出し、当該算出した尤度に基づき前記新規対象の所定データの認識に適した認識性能の領域パターンモデルを探索する領域パターンモデル探索ステップと、を備えることを特徴としている。
ここで、本発明は、請求の範囲第14項記載のパターンモデル探索装置を制御するためのプログラムであり、その効果は重複するので記載を省略する。
前記データ分類手段によって分類された前記所定データに基づき、当該所定データの各グループ毎に4次元以上の高次元の要素を有する複数のパターンモデルを生成するパターンモデル生成手段と、
前記パターンモデル生成手段によって各グループ毎に生成されたパターンモデルの各パターンモデル相互間の数学的距離を算出する数学的距離算出手段と、
前記数学的距離算出手段によって算出された前記数学的距離に基づき、前記各パターンモデル相互間の距離関係を保持しながら、前記複数のパターンモデルをこれより低次元の同数のパターンモデル対応低次元ベクトルへと変換するパターンモデル変換手段と、
前記複数のパターンモデル対応低次元ベクトルを、低次元の要素の値に基づき、前記距離関係を保持した状態で、前記パターンモデル対応低次元ベクトルと同じ次元の低次元空間上の座標点として表示するパターンモデル対応低次元ベクトル表示手段と、を備え、
前記数学的距離算出手段は、前記数学的距離の算出において、前記複数対象に係る複数の所定データにおける各パターン単位の出現頻度を用いることを特徴としている。
ここで、例えば、所定データが音声のデータである場合は、上記パターン単位として、音節、音韻、音素、biphone、triphoneなどの音声単位を用いる。
つまり、数学的距離の算出に用いる出現頻度に、認識性能が所定の閾値より低いパターン単位の出現頻度を用いるようにしたので、これにより、認識性能の低い対象のパターンモデルを正確な距離関係で低次元表示することが可能となり、これにより、認識性能の低い対象のパターンモデルをクラスタリング等し易くすることが可能である。
ここで、所定の閾値としては、例えば、0%以上100%未満の範囲の値を用いれば良い。
前記データ分類手段によって分類された前記所定データに基づき、当該所定データの各グループ毎に4次元以上の高次元の要素を有する複数のパターンモデルを生成するパターンモデル生成手段と、
前記パターンモデル生成手段によって各グループ毎に生成されたパターンモデルの各パターンモデル相互間の数学的距離を算出する数学的距離算出手段と、
前記数学的距離算出手段によって算出された前記数学的距離に基づき、前記各パターンモデル相互間の距離関係を保持しながら、前記複数のパターンモデルをこれより低次元の同数のパターンモデル対応低次元ベクトルへと変換するパターンモデル変換手段と、
前記複数のパターンモデル対応低次元ベクトルを、低次元の要素の値に基づき、前記距離関係を保持した状態で、前記パターンモデル対応低次元ベクトルと同じ次元の低次元空間上の座標点として表示するパターンモデル対応低次元ベクトル表示手段と、
前記パターンモデル対応低次元ベクトル表示手段によって前記低次元空間上に表示される前記複数のパターンモデル対応低次元ベクトルの座標点を、前記低次元空間上において複数の領域に自動的に区分する領域区分手段と、
前記区分された領域内に含まれる前記パターンモデル対応低次元ベクトルの座標点に対応する所定データに基づき、各領域毎の領域パターンモデルを生成する領域パターンモデル生成手段と、
新規対象に係る所定データを取得する所定データ取得手段と、
前記取得した所定データに対する前記区分された各領域に対応した領域パターンモデルの尤度を算出し、当該算出した尤度に基づき、前記領域パターンモデル生成手段によって生成された領域パターンモデルの中から前記新規対象に適した認識性能の領域パターンモデルを探索する領域パターンモデル探索手段と、を備えることを特徴としている。
従って、数学的距離の算出にパターン単位の出現頻度を用いたので、例えば、この出現頻度により数学的距離に重み付けを行うことにより、各パターンモデルに対応する全てのパターン単位を考慮したパターンモデル相互間の距離を定義することが可能となり、パターンモデル相互間の距離関係を正確に算出することが可能となる。
つまり、数学的距離の算出に用いる出現頻度に、認識性能が所定の閾値より低いパターン単位の出現頻度を用いるようにしたので、これにより、認識性能の低い対象のパターンモデルを正確な距離関係で低次元表示することが可能となり、これにより、認識性能の低い対象のパターンモデルをクラスタリング等し易くすることが可能である。
従って、前記外円及び内円からなる複数の同心円同士の各外周間に形成される環状の領域を、複数の扇形の領域に区分することが可能となる。
つまり、2次元視覚化されたパターンモデルは、中心から外側に向かうほど認識性能の低い(他のモデルと類似性の低い)パターンモデルが分布する特性があるので、認識性能が低いパターンモデルの分布している領域を細かく区分することでより正確なグルーピングが可能となる。
従って、特定対象用のパターンモデルを生成する際に、当該特定対象の所定データが区分された領域の境界に位置するような場合にも簡易に対応することが可能となる。
つまり、最内円から外円方向に向かって新規対象の所定データに対する領域パターンモデルの尤度を算出するようにしたので、新規対象の所定データに適合した区分領域の領域パターンモデルを高速に探索することが可能となる。
つまり、区分結果の最内円から外円方向に向かって順に、最も尤度の高い(認識性能の高い)領域パターンモデルに対応した区分領域に向かって探索するようにしたので、新規対象の所定データに適合した区分領域の領域パターンモデルを高速に探索することが可能となる。
つまり、区分結果の最内円から外円方向に向かって順に、上位m個の尤度に対応する領域パターンモデルに対応した区分領域に向かって探索するようにしたので、新規対象の所定データにより適合した区分領域の領域パターンモデルを高速に探索することが可能となる。
前記複数の特定条件は、少なくとも、話者の種類、発話語彙、発話様式及び発話環境を含むことを特徴としている。
従って、少なくとも、話者の名前、男性/女性の性別、子供/大人/高齢者の年齢別等の話者の種類、発話する、数字、文章、単語等の発話語彙、発話速度、発話音量、方言に由来する特徴等の発話様式及び室内、自動車内、工場内、屋外(場所等により種類分けする)等の発話環境を考慮して音声データに対するパターンモデルを生成することが可能である。
従って、例えば、所定データが音声データの場合に、室内(発話環境)で大人の男(話者の種類)が単語(発話語彙)を早口(発話様式)で発話したといったように、任意の特定条件の組み合わせを一つのグループとして形成することが可能となる。無論、例えば、室内(発話環境)で大人の男(話者の種類)が発話したといったように、もっと大きな括りでグループ分けしても良い。
つまり、前記パターンモデルは、HMM(Hidden Markov Model)によって生成される。
例えば、音声は、話すスピードによりその時間的な長さが変わり、発声内容により、周波数領域上で特徴的な形状(スペクトル包絡という)を示すが、その形状は上記した特定条件に依存し揺らぎが生じる。例えば、上記したHMMは、そのような揺らぎを吸収することのできる統計的モデルである。
従って、上記いずれかの距離を用いることで、各パターンモデル間のより適切な数学的距離を算出することが可能である。
つまり、前記パターンモデル変換手段は、Sammon法を用いて、前記パターンモデルを前記パターンモデル対応低次元ベクトルへと変換することが可能である。
従って、公知のSammon法を用いることで、各パターンモデル相互間の距離関係を保持しながら、複数のパターンモデルをこれと同数のパターンモデル対応低次元ベクトルに変換することが可能である。
従って、区分内容が適切でないときや、新たなパターンモデルが加わったときなどに、適切な区分内容に変更することが可能である。また、視覚化されたパターンモデルの区分内容を変更することになるので、容易に区分内容の変更を行うことが可能である。
このような構成であれば、パターンモデル適応手段によって、前記領域パターンモデル探索手段によって探索された領域パターンモデルを新規対象の所定データに基づき、前記新規対象用に適応することが可能である。
従って、新規対象に向けた適切なパターンモデルの生成が可能であり、また、特定区分領域の所定データを用いてパターンモデルを生成するので、パターンモデルを小規模にすることが可能であり、パターンモデルが使用するメモリ容量を軽減することが可能である。ここで、適応には、話者適応法MLLR等を用いることが可能である。
前記パターンモデル対応低次元ベクトル表示手段は、前記変換後のパターンモデル対応低次元ベクトルを、低次元の要素の値に基づき、前記距離関係を保持した状態で、前記パターンモデル対応低次元ベクトルと同じ次元の低次元空間上の座標点として表示可能であり、
前記領域区分手段は、前記低次元空間上に表示される前記複数のパターンモデル対応低次元ベクトルの座標点を、前記低次元空間上において複数の領域に自動的に区分可能であることを特徴としている。
複数対象に係る複数の所定データを、複数の特定条件に基づき、複数のグループに分類するデータ分類ステップと、
前記データ分類ステップにおいて分類された前記所定データに基づき、当該所定データの各グループ毎に4次元以上の高次元の要素を有する複数のパターンモデルを生成するパターンモデル生成ステップと、
前記パターンモデル生成ステップにおいて各グループ毎に生成されたパターンモデルの各パターンモデル相互間の数学的距離を算出する数学的距離算出ステップと、
前記数学的距離算出ステップにおいて算出された前記数学的距離に基づき、前記各パターンモデル相互間の距離関係を保持しながら、前記複数のパターンモデルをこれより低次元の同数のパターンモデル対応低次元ベクトルへと変換するパターンモデル変換ステップと、
前記複数のパターンモデル対応低次元ベクトルを、低次元の要素の値に基づき、前記距離関係を保持した状態で、前記パターンモデル対応低次元ベクトルと同じ次元の低次元空間上の座標点として表示するパターンモデル対応低次元ベクトル表示ステップと、を備え、
前記数学的距離算出ステップにおいては、前記数学的距離の算出において、前記複数対象に係る複数の所定データにおける各パターン単位の出現頻度を用いることを特徴としている。
ここで、本発明は、請求の範囲第16項記載のデータ処理装置を制御するためのプログラムであり、その効果は重複するので記載を省略する。
複数対象に係る複数の所定データを、複数の特定条件に基づき、複数のグループに分類するデータ分類ステップと、
前記データ分類ステップにおいて分類された前記所定データに基づき、当該所定データの各グループ毎に4次元以上の高次元の要素を有する複数のパターンモデルを生成するパターンモデル生成ステップと、
前記パターンモデル生成ステップにおいて各グループ毎に生成されたパターンモデルの各パターンモデル相互間の数学的距離を算出する数学的距離算出ステップと、
前記数学的距離算出ステップにおいて算出された前記数学的距離に基づき、前記各パターンモデル相互間の距離関係を保持しながら、前記複数のパターンモデルをこれより低次元の同数のパターンモデル対応低次元ベクトルへと変換するパターンモデル変換ステップと、
前記複数のパターンモデル対応低次元ベクトルを、低次元の要素の値に基づき、前記距離関係を保持した状態で、前記パターンモデル対応低次元ベクトルと同じ次元の低次元空間上の座標点として表示するパターンモデル対応低次元ベクトル表示ステップと、
前記パターンモデル対応低次元ベクトル表示ステップにおいて前記低次元空間上に表示される前記複数のパターンモデル対応低次元ベクトルの座標点を、前記低次元空間上において複数の領域に自動的に区分する領域区分ステップと、
前記区分された領域内に含まれる前記パターンモデル対応低次元ベクトルの座標点に対応する所定データに基づき、各領域毎のパターンモデルを生成する領域パターンモデル生成ステップと、
新規対象に係る所定データを取得する所定データ取得ステップと、
前記取得した所定データに対する前記区分された各領域に対応した前記領域パターンモデルの尤度を算出し、当該算出した尤度に基づき前記新規対象に適した認識性能の領域パターンモデルを探索する領域パターンモデル探索ステップと、を備えることを特徴としている。
ここで、本発明は、請求の範囲第18項記載のデータ処理装置を制御するためのプログラムであり、その効果は重複するので記載を省略する。
請求の範囲第18項乃至請求の範囲第34項のいずれか1項に記載のデータ処理装置と、を備え、
前記情報処理端末及び前記データ処理装置を互いにデータ通信可能に接続し、
前記データ処理装置において、前記複数対象に係る複数の所定データは、複数話者の発声した複数の音声のデータであり、
前記情報処理端末は、
前記システム利用者の発声した音声のデータを取得し、当該取得した音声データを前記データ処理装置に送信する音声データ送信手段と、
前記データ処理装置から前記システム利用者の音声データをパターン認識するのに適した前記特定パターンモデルを取得する特定パターンモデル取得手段と、を備え、
前記データ処理装置は、
前記所定データ取得手段によって前記情報処理端末からの前記音声データを取得し、更に、当該取得した音声データに基づき前記システム利用者用に前記特定パターンモデルを生成するようになっており、
前記生成した特定パターンモデルを前記情報処理端末に送信する特定パターンモデル送信手段を更に備えることを特徴としている。
従って、システム利用者は、例えばインターネット等を介してPC、携帯電話、PDA等の情報処理端末と、データ処理装置とを接続して、自己の音声データをデータ処理装置に送信することで、自己の音声データを音声認識するのに適した特定パターンモデルを簡易に取得することが可能である。
対象話者の音声データを取得する音声データ取得手段と、
前記音声データ取得手段によって取得された前記対象話者の音声データと前記音響空間記憶手段が記憶する音響空間内の前記複数のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データの位置を算出する位置算出手段と、
前記位置算出手段によって算出された前記位置に基づき、前記対象話者の音声データの価値を評価する音声データ評価手段と、
前記音声データ評価手段の評価結果を表示する評価結果表示手段と、
前記算出された位置に基づき、前記音響空間内における、前記音声データとその周辺のパターンモデルとの位置関係を示す情報を表示する位置関係情報表示手段と、を備えることを特徴としている。
また、音声データとは、例えば、複数の話者の発声した音声のデータ、当該音声データから抽出した特徴量、当該特徴量に基づき生成したパターンモデルなどと、それらの発声内容を記述したテキストファイルとの組を指す。従って、上記した音声データ取得手段は、対象話者の発話した音声をマイク等により取得し、当該取得した音声をデータ化し、必要に応じて、当該データを分析して特徴量の抽出等を行う各処理手段を有する。
つまり、前記音声データ評価手段は、前記位置算出手段によって算出された前記対象話者の音声データの位置から所定距離の範囲内に存在する前記パターンモデルの数に基づき、前記音声データの価値を評価することが可能である。
従って、例えば、対象話者の音声データ周辺に他の話者のパターンモデルがあまり存在していなければ、その音声データの価値が高いと判断し、一方、周辺にたくさんのパターンモデルが存在していれば、その音声データの価値は低いと判断するといった評価方法が可能となる。
前記音声データ評価手段は、各段階毎に設定された各距離範囲内における前記パターンモデルの数に基づき、前記音声データの価値を評価することを特徴としている。
つまり、前記所定距離は、前記音声データの価値の度合いに応じて段階的に設定されており、
前記音声データ評価手段は、各段階毎に設定された各距離範囲内における前記パターンモデルの数に基づき、前記音声データの価値を評価することが可能である。
従って、各範囲内のパターンモデルの数によって、対象話者の音声データの価値を段階的に評価することが可能である。
従って、対象話者の発声した音声のパターンモデルを生成せずに、類似したパターンモデルの位置を対象話者の発声した音声データの音響空間内の位置とすることになるので、計算量が少なくなり、リアルタイムの処理等に適している。
つまり、前記音声データ評価手段は、前記複数のパターンモデルのうち、前記対象話者の音声データの特徴と類似した特徴を有する上位いくつかのパターンモデルを、前記対象話者のパターンモデルとして前記評価に用いることが可能である。
ここで、数学的距離とは、対象話者の音声データから生成される音響モデルと複数話者の音響モデルとの類似度を示すもので、この類似度を測るモノサシの種類により様々なものがある。このモノサシは、例えば、ユークリッド距離などの普通のモノサシでも測れる距離に対応したものや、類似度を測る距離を二つのベクトルの内積とし、二つのベクトルの成す角を類似度として評価するマハラノビスの汎距離などの、普通のモノサシでは測れない類似度に対応したものがある。 なお、本発明においては、数学的距離として、他に、バタチャリヤ(Bhattacharrya)距離、平方ユークリッド距離、コサイン距離、ピアソンの相関、チェビシェフ、都市ブロック距離(あるいはマンハッタン距離)、ミンコウスキー和、カルバック情報量、チェルノフ距離などがある。つまり、距離と称してはいるが、類似度を示すものであれば何でも良い。このことは、以降の請求項についても同様である。
従って、対象話者の音声データの価値をより正確に評価することが可能である。
前記位置関係情報表示手段は、前記対象話者の音声データに対応するパターンモデルを含む前記音響空間内の複数のパターンモデルを、これらの距離関係を維持した状態で、これより低次元のパターンモデルに変換し、当該変換後のパターンモデルを低次元空間上の座標点として表示することを特徴としている。
従って、対象話者の音声データの音響空間内の位置を視覚的に簡易に知ることが可能である。
つまり、パターンモデルを、公知の技術であるHMMを用いて構成したものである。
ここで、音声は、話すスピードによりその時間的な長さが変わり、発声内容により、周波数領域上で特徴的な形状(スペクトル包絡という)を示すが、その形状は発声する人、環境、内容等に依存し揺らぎが生じる。例えば、上記したHMMは、そのような揺らぎを吸収することのできる統計的モデルである。
前記評価結果表示手段は、前記対象話者の音声データの音素毎の評価結果を表示することを特徴としている。
つまり、対象話者の音声データを、単語や文章単位ではなく、音素単位でその価値を評価し、音素毎に評価結果を表示するので、簡易に音素単位の価値の判断が可能となる。
つまり、補正情報として、発音の仕方や発話速度等の、評価対象(あるいは取得対象)として希望する音声データの発話を促す情報を表示することで、同じ対象話者から様々な音声データを取得し評価することが可能となる。要するに、同じ対象話者の音声データでも、発音の仕方などによっては、価値が高まる可能性があるので、それを考慮したものである。
前記交渉手段によって交渉が成立した前記音声データを記憶する音声データ記憶手段と、を備えることを特徴としている。
つまり、交渉手段によって、前記対象話者との間で前記音声データの提供可否に関する交渉を行うことが可能であり、音声データ記憶手段によって、前記交渉手段によって交渉が成立した前記音声データを記憶することが可能である。
これにより、対象話者の発話した音声データが、例えば、価値が高いと評価されたデータであった場合に、対象話者と交渉して、その音声データを取得することが可能となる。
請求の範囲第38項乃至請求の範囲第49項のいずれか1項に記載のデータ処理装置と、を備え、
前記情報処理端末と前記データ処理装置とを互いにデータ通信可能に接続し、
前記情報処理端末は、前記対象話者の音声データを取得し、当該取得した音声データを前記データ処理装置に送信する音声データ送信手段と、前記データ処理装置から取得した、前記対象話者の音声データの評価結果に係る情報を表示する評価情報表示手段と、を備え、
前記データ処理装置は、前記評価結果に係る情報を前記情報処理端末に送信する評価情報送信手段を備えることを特徴としている。
従って、例えば、インターネット等を介して情報処理端末とデータ処理装置とを接続することで、インターネットを介して、多数の対象話者の音声データの評価を行うことが可能となり、価値の高い音声データの取得をより簡易に行うことが可能となる。
対象話者の音声データを取得し、
前記取得された前記対象話者の音声データと前記音響空間内の前記複数のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データの位置を算出し、
前記算出された前記位置に基づき、前記対象話者の音声データの価値を評価し、
当該評価結果を表示することを特徴としている。
ここで、本発明は、上記請求の範囲第38項乃至請求の範囲第50項のいずれか1項に記載のデータ処理装置によって実現されるものであり、その効果は重複するので記載を省略する。
複数話者の音声データから生成された複数のパターンモデルによって構成された音響空間を記憶する音響空間記憶ステップと、
対象話者の音声データを取得する音声データ取得ステップと、
前記音声データ取得ステップにおいて取得された前記対象話者の音声データと、前記音響空間記憶ステップにおいて記憶された音響空間内の前記複数のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データの位置を算出する位置算出ステップと、
前記位置算出ステップにおいて算出された前記位置に基づき、前記対象話者の音声データの価値を評価する音声データ評価ステップと、
前記音声データ評価ステップによる評価結果を表示する評価結果表示ステップと、を備えることを特徴としている。
ここで、本発明は、請求の範囲第38項記載のデータ処理装置を制御するためのプログラムであり、その効果は重複するので記載を省略する。
複数話者の音声データから生成された複数のパターンモデルによって構成された音響空間を記憶する音響空間記憶手段と、
対象話者の音声データを取得する音声データ取得手段と、
前記音声データ取得手段によって取得された前記対象話者の音声データと前記音響空間記憶手段が記憶する音響空間内の前記複数のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データの位置を算出する位置算出手段と、
前記位置算出手段によって算出された前記位置に基づき、前記対象話者の音声データの価値を評価する音声データ評価手段と、
前記音声データ評価手段の評価結果を表示する評価結果表示手段と、
前記算出された位置に基づき、前記音響空間内における、前記音声データとその周辺のパターンモデルとの位置関係を示す情報を表示する位置関係情報表示手段と、
前記評価結果に係る情報を前記情報処理端末に送信する評価情報送信手段と、を備えることを特徴としている。
ここで、本発明は、請求の範囲第50項記載のデータ処理システムにおけるデータ処理装置と同様の作用効果となるので、記載を省略する。
前記対象話者の音声データを取得し、当該取得した音声データを前記データ処理装置に送信する音声データ送信手段と、
前記データ処理装置から取得した、前記対象話者の音声データの評価結果に係る情報を表示する評価情報表示手段と、を備えることを特徴としている。
ここで、本発明は、請求の範囲第50項記載のデータ処理システムにおける情報処理端末と同様の作用効果となるので、記載を省略する。
複数話者の音声データから生成された複数のパターンモデルによって構成された音響空間を記憶する音響空間記憶ステップと、
対象話者の音声データを取得する音声データ取得ステップと、
前記音声データ取得ステップにおいて取得された前記対象話者の音声データと、前記音響空間記憶ステップにおいて記憶された音響空間内の前記複数のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データの位置を算出する位置算出ステップと、
前記位置算出ステップにおいて算出された前記位置に基づき、前記対象話者の音声データの価値を評価する音声データ評価ステップと、
前記音声データ評価ステップによる評価結果を表示する評価結果表示ステップと、
前記算出された位置に基づき、前記音響空間内における、前記音声データとその周辺のパターンモデルとの位置関係を示す情報を表示する位置関係情報表示ステップと、
前記評価結果に係る情報を前記情報処理端末に送信する評価情報送信ステップと、を備えることを特徴としている。
ここで、本発明は、請求の範囲第53項記載のデータ処理装置を制御するためのプログラムであり、その効果は重複するので記載を省略する。
前記対象話者の音声データを取得し、当該取得した音声データを前記データ処理装置に送信する音声データ送信ステップと、
前記データ処理装置から取得した、前記対象話者の音声データの評価結果に係る情報を表示する評価情報表示ステップと、を備えることを特徴としている。
ここで、本発明は、請求の範囲第54項記載の情報処理端末を制御するためのプログラムであり、その効果は重複するので記載を省略する。
対象話者の音声データを取得する音声データ取得手段と、
前記対象話者の音声データと前記音響空間内の前記複数のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データの位置を算出する位置算出手段と、
前記位置と前記複数のパターンモデルとに基づき、前記複数話者の中から前記対象話者の音声と類似した音声を有する類似話者を検出する類似話者検出手段と、
前記位置と前記類似話者のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データと前記類似話者のパターンモデルとの位置関係を示す情報を表示する位置関係情報表示手段と、を備えることを特徴としている。
従って、対象話者の音声が、複数話者の中の誰の音声に似ているかを視覚的に簡易に知ることが可能である。
前記位置と前記音響空間内における前記特定話者のパターンモデルとに基づき、前記特定話者の音声と前記対象話者の音声との類似性を評価する類似性評価手段と、
前記類似性評価手段の評価結果を表示する評価結果表示手段と、を備え、
前記位置関係情報表示手段は、前記位置と前記特定話者のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データと前記特定話者のパターンモデルとの位置関係を示す情報を表示するようになっていることを特徴としている。
従って、指定した特定話者の音声と対象話者の音声との類似性を視覚的に簡易に知ることが可能であり、更に、音響空間内における対象話者の音声データと特定話者のパターンモデルとの位置関係を視覚的に簡易に知ることが可能である。
前記複数話者の中から特定話者を指定する特定話者指定手段と、
対象話者の音声データを取得する音声データ取得手段と、
前記対象話者の音声データと前記複数のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データの位置を算出する位置算出手段と、
前記位置と前記特定話者のパターンモデルとに基づき、前記特定話者の音声と前記対象話者の音声との類似性を評価する類似性評価手段と、
前記類似性評価手段の評価結果を表示する評価結果表示手段と、
前記位置と前記特定話者のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データと前記特定話者のパターンモデルとの位置関係を示す情報を表示する位置関係情報表示手段と、を備えることを特徴としている。
従って、指定した特定話者の音声と対象話者の音声との類似性を視覚的に簡易に知ることが可能であり、更に、音響空間内における対象話者の音声データと特定話者のパターンモデルとの位置関係を視覚的に簡易に知ることが可能である。
前記矯正情報を表示する矯正情報表示手段と、を備えることを特徴としている。
つまり、矯正情報生成手段によって、前記類似性評価手段の評価結果に基づき、前記対象話者の音声と前記特定話者の音声との類似性を高めるための前記対象話者の音声に対する矯正内容を示す矯正情報を生成することが可能であり、矯正情報表示手段によって、前記矯正情報を表示することが可能である。
従って、対象話者は、表示された矯正情報を見て、自己の発声方法を矯正することが可能である。
前記類似性評価手段は、前記位置に基づき、前記複数のパターンモデルのうち、前記対象話者の音声データの特徴と類似した特徴を有するパターンモデルを、前記対象話者のパターンモデルとして用いることを特徴としている。
前記類似性評価手段は、前記位置に基づき、前記複数のパターンモデルのうち、前記対象話者の音声データの特徴と類似した特徴を有する上位いくつかのパターンモデルを、前記対象話者のパターンモデルとして用いることを特徴としている。
つまり、対象話者の音声データと複数話者の複数のパターンモデルとの尤度を算出して、類似性を判断することが可能であり、これにより、対象話者の音声データの特徴と類似した特徴を有するパターンモデルを簡易に選択することが可能である。
従って、対象話者の音声データそのものに対して検出処理や評価処理を行うことが可能である。
前記位置関係情報表示手段は、前記対象話者の音声データに対応するパターンモデルを含む前記音響空間内の複数のパターンモデルを、これらの距離関係を維持した状態で、これより低次元のパターンモデルに変換し、当該変換後のパターンモデルを低次元空間上の座標点として表示することを特徴としている。
従って、対象話者の音声データの音響空間内の位置を視覚的に簡易に知ることが可能である。
つまり、前記類似性評価手段は、前記対象話者の音声データにおける音素毎の類似性を評価することが可能であるので、対象話者の音声データを、単語や文章単位ではなく、音素単位でその類似性を評価し、音素毎に評価結果を表示するので、簡易に音素単位の類似性の評価結果を知ることが可能となる。
前記類似性評価手段は、前記発話様式の種類毎に、前記類似性の評価を行うようになっていることを特徴としている。
前記類似性評価手段は、前記発話様式の種類毎に、前記類似性の評価を行うことが可能である。
従って、例えば、高い声による発声、低い声により発声、早口で発声、ゆっくりと発声などの色々な種類の発話様式で発声された特定話者の音声に対して、対象話者の音声の類似性を評価することが可能である。これにより、例えば、対象話者は、自分に合った発話様式で発声された特定話者の音声を真似することなどが可能となる。
つまり、低次元空間の軸を、例えば、発話速度や音の高さなどにより設定することで、対象話者の音声データの特徴や、その周辺の複数話者あるいは特定話者の音声データの特徴等を容易に把握することが可能となる。
つまり、パターンモデルを、公知の技術であるHMMを用いて構成したものである。
ここで、音声は、話すスピードによりその時間的な長さが変わり、発声内容により、周波数領域上で特徴的な形状(スペクトル包絡という)を示すが、その形状は発声する人、環境、内容等に依存し揺らぎが生じる。例えば、上記したHMMは、そのような揺らぎを吸収することのできる統計的モデルである。
請求の範囲第57項乃至請求の範囲第69項のいずれか1項に記載のデータ処理装置と、を備え、
前記情報処理端末と前記データ処理装置とを互いにデータ通信可能に接続し、
前記情報処理端末は、前記対象話者の音声データを取得し、当該取得した音声データを前記データ処理装置に送信する音声データ送信手段と、前記データ処理装置から取得した前記音声データの処理結果に係る情報を表示する情報表示手段と、を備え、
前記データ処理装置は、前記音声データの処理結果に係る情報を前記情報処理端末に送信する情報送信手段を備えることを特徴としている。
また、前記データ処理装置は、情報送信手段によって、前記音声データの処理結果に係る情報を前記情報処理端末に送信することが可能である。
従って、例えば、インターネット等を介して情報処理端末とデータ処理装置とを接続することで、インターネットを介して、対象話者の音声データに対して、上記した検出処理や評価処理等を行うことが可能となり、対象話者は、自宅等から簡易に自己の音声の検出処理又は評価処理を行うことが可能である。
対象話者の音声データを取得し、
前記対象話者の音声データと前記音響空間内の前記複数のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データの位置を算出し、
前記位置と前記複数のパターンモデルとに基づき、前記複数話者の中から前記対象話者の音声と類似した音声を有する類似話者を検出し、
前記位置と前記類似話者のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データと前記類似話者のパターンモデルとの位置関係を示す情報を表示することを特徴としている。
ここで、本発明は、上記請求の範囲第57項記載のデータ処理装置によって実現されるものであり、その効果は重複するので記載を省略する。
前記位置と前記音響空間内における前記特定話者のパターンモデルとに基づき、前記特定話者の音声と前記対象話者の音声との類似性を評価し、
前記評価結果を表示することを特徴としている。
ここで、本発明は、上記請求の範囲第59項記載のデータ処理装置によって実現されるものであり、その効果は重複するので記載を省略する。
前記複数話者の中から特定話者を指定し、
対象話者の音声データを取得し、
前記対象話者の音声データと前記複数のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データの位置を算出し、
前記位置と前記特定話者のパターンモデルとに基づき、前記特定話者の音声と前記対象話者の音声との類似性を評価し、
前記評価結果を表示し、
前記位置と前記特定話者のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データと前記特定話者のパターンモデルとの位置関係を示す情報を表示することを特徴としている。
ここで、本発明は、上記請求の範囲第60項記載のデータ処理装置によって実現されるものであり、その効果は重複するので記載を省略する。
対象話者の音声データを取得する音声データ取得ステップと、
前記対象話者の音声データと前記音響空間内の前記複数のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データの位置を算出する位置算出ステップと、
前記位置と前記複数のパターンモデルとに基づき、前記複数話者の中から前記対象話者の音声と類似した音声を有する類似話者を検出する類似話者検出ステップと、
前記位置と前記類似話者のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データと前記類似話者のパターンモデルとの位置関係を示す情報を表示する位置関係情報表示ステップと、
特定話者を指定する特定話者指定ステップと、
前記位置と前記音響空間内における前記特定話者のパターンモデルとに基づき、前記特定話者の音声と前記対象話者の音声との類似性を評価する類似性評価ステップと、
前記類似性評価ステップによる評価結果を表示する評価結果表示ステップと、を備え、
前記位置関係情報表示ステップにおいては、前記位置と前記特定話者のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データと前記特定話者のパターンモデルとの位置関係を示す情報を表示するようになっていることを特徴としている。
ここで、本発明は、請求の範囲第58項記載のデータ処理装置を制御するためのプログラムであり、その効果は重複するので記載を省略する。
前記複数話者の中から特定話者を指定する特定話者指定ステップと、
対象話者の音声データを取得する音声データ取得ステップと、
前記対象話者の音声データと前記複数のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データの位置を算出する位置算出ステップと、
前記位置と前記特定話者のパターンモデルとに基づき、前記特定話者の音声と前記対象話者の音声との類似性を評価する類似性評価ステップと、
前記類似性評価ステップによる評価結果を表示する評価結果表示ステップと、
前記位置と前記特定話者のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データと前記特定話者のパターンモデルとの位置関係を示す情報を表示する位置関係情報表示ステップと、を備えることを特徴としている。
ここで、本発明は、請求の範囲第59項記載のデータ処理装置を制御するためのプログラムであり、その効果は重複するので記載を省略する。
また、請求の範囲第11項記載のデータ処理装置によれば、区分された各領域毎に選択されたパターンモデル対応低次元ベクトルに対応した対象の所定データに基づき特定パターンモデルを生成するようにしたので、例えば、特定の対象のパターンモデルが含まれる領域内のパターンモデル対応低次元ベクトルに対応した対象の所定データを用いてパターンモデルを生成することにより、特定の対象に向けた適切なパターンモデルの生成が可能である。また、特定領域の所定データを用いてパターンモデルを生成するので、パターンモデルが使用するメモリ容量を軽減することが可能である。
また、請求の範囲第13項記載のデータ処理装置制御プログラムは、請求の範囲第11項記載のデータ処理装置を制御するためのプログラムであり、その効果は重複するので記載を省略する。
また、請求の範囲第15項記載のパターンモデル探索装置制御プログラムは、請求の範囲第14項記載のパターンモデル探索装置を制御するためのプログラムであり、その効果は重複するので記載を省略する。
また、請求の範囲第21項記載のデータ処理装置によれば、請求の範囲第18項乃至請求の範囲第20項のいずれか前記効果に加え、前記外円及び内円からなる複数の同心円同士の各外周間に形成される環状の領域を、複数の扇形の領域に区分することが可能となる。
また、請求の範囲第23項記載のデータ処理装置によれば、請求の範囲第21項又は請求の範囲第22項の前記効果に加え、特定対象用のパターンモデルを生成する際に、当該特定対象の所定データが区分された領域の境界に位置するような場合にも簡易に対応することが可能となる。
また、請求の範囲第25項記載のデータ処理装置によれば、請求の範囲第24項の前記効果に加え、区分結果の最内円から外円方向に向かって順に、最も尤度の高い(認識性能の高い)領域パターンモデルに対応した区分領域に向かって探索するようにしたので、新規対象の所定データに適合した区分領域の領域パターンモデルを高速に探索することが可能となる。
また、請求の範囲第27項記載のデータ処理装置によれば、請求の範囲第18項乃至請求の範囲第26項のいずれか1の前記効果に加え、少なくとも、話者の名前、男性/女性の性別、子供/大人/高齢者の年齢別等の話者の種類、発話する、数字、文章、単語等の発話語彙、発話速度、発話音量、方言に由来する特徴等の発話様式及び室内、自動車内、工場内、屋外(場所等により種類分けする)等の発話環境を考慮して音声データに対するパターンモデルを生成することが可能である。
また、請求の範囲第31項記載のデータ処理装置によれば、請求の範囲第18項乃至請求の範囲第30項のいずれか1の前記効果に加え、各パターンモデル相互間の距離関係を保持しながら、複数のパターンモデルをこれと同数のパターンモデル対応低次元ベクトルに変換することが可能である。
また、請求の範囲第33項記載のデータ処理装置によれば、請求の範囲第18項乃至請求の範囲第32項のいずれか1の前記効果に加え、特定区分領域の領域パターンモデルを新規対象に向けて適応することが可能であり、パターンモデルが使用するメモリ容量を軽減することが可能である。
また、請求の範囲第36項記載のデータ処理装置制御プログラムは、請求の範囲第18項記載のデータ処理装置を制御するためのプログラムであり、その効果は重複するので記載を省略する。
また、請求の範囲第37項記載の特定パターンモデル提供システムによれば、システム利用者は、例えばインターネット等を介してPC、携帯電話、PDA等の情報処理端末と、データ処理装置とを接続して、自己の音声データをデータ処理装置に送信することで、自己の音声データを音声認識するのに適した特定パターンモデルを簡易に取得するとが可能である。
また、請求の範囲第44項記載のデータ処理装置によれば、請求の範囲第38項乃至第40項のいずれかの前記効果に加え、前記音声データ取得手段によって取得された音声データを高次元の特徴量データに変換し、当該特徴量データに基づき対象話者用のパターンモデルを生成し、当該生成されたパターンモデルと前記複数話者の複数のパターンモデルとの相互間の数学的距離を算出し、当該算出された数学的距離に基づき、前記音響空間内における、前記取得された音声データの位置を算出するようにしたので、対象話者の音声データの価値をより正確に評価することが可能である。
また、請求の範囲第47項記載のデータ処理装置によれば、請求の範囲第38項乃至第46項のいずれか1の前記効果に加え、対象話者の音声データを、単語や文章単位ではなく、音素単位でその価値を評価し、音素毎に評価結果を表示するようにしたので、簡易に音素単位の価値の判断が可能となる。
また、請求の範囲第49項記載のデータ処理装置によれば、請求の範囲第38項乃至第48項のいずれか1の前記効果に加え、前記対象話者との間で前記音声データの提供可否に関する交渉を行い、交渉が成立した前記音声データを記憶するようにしたので、例えば、対象話者の発話した音声データが価値が高いと評価されたデータであった場合に、対象話者と交渉して、その音声データを取得することが可能となる。
ここで、請求の範囲第51項記載のデータ処理方法は、上記請求の範囲第38項乃至請求の範囲第50項のいずれか1項に記載のデータ処理装置によって実現されるものであり、その効果は重複するので記載を省略する。
また、請求の範囲第53項記載のデータ処理装置は、上記請求の範囲第50項記載のデータ処理システムにおけるデータ処理装置と同様の効果となるので、記載を省略する。
また、請求の範囲第55項記載のデータ処理装置制御プログラムは、上記請求の範囲第53項記載のデータ処理装置を制御するためのプログラムであり、その効果は重複するので記載を省略する。
また、請求の範囲第56項記載の情報処理端末制御プログラムは、上記請求の範囲第54項記載の情報処理端末を制御するためのプログラムであり、その効果は重複するので記載を省略する。
また、請求の範囲第58項記載のデータ処理装置によれば、請求の範囲第57項の前記効果に加え、指定した特定話者の音声と対象話者の音声との類似性を視覚的に簡易に知ることができ、更に、音響空間内における対象話者の音声データと特定話者のパターンモデルとの位置関係を視覚的に簡易に知ることができるという効果が得られる。
また、請求の範囲第60項記載のデータ処理装置によれば、請求の範囲第58項又は請求の範囲第59項の前記効果に加え、対象話者は、表示された矯正情報を見て、自己の発声方法を矯正することができるという効果が得られる。
また、請求の範囲第64項記載のデータ処理装置によれば、請求の範囲第57項乃至請求の範囲第60項のいずれか1の前記効果に加え、対象話者の音声データそのものに対して検出処理や評価処理を行うことができるという効果が得られる。
また、請求の範囲第66項記載のデータ処理装置によれば、請求の範囲第58項乃至請求の範囲第65項のいずれか1の前記効果に加え、対象話者の音声データを、単語や文章単位ではなく、音素単位でその価値を評価し、音素毎に評価結果を表示するようにしたので、簡易に音素単位の類似性の評価結果を知ることができるという効果が得られる。
また、請求の範囲第69項記載のデータ処理装置によれば、請求の範囲第57項乃至請求の範囲第68項のいずれか1の前記効果に加え、パターンモデルを、公知の技術であるHMMを用いて構成するようにしたので、取得した音声データの波形に生じる揺らぎを吸収することなどができるという効果が得られる。
ここで、請求の範囲第71項記載のデータ処理方法は、請求の範囲第57項のデータ処理装置によって実現されるものであり、その効果は重複するので記載を省略する。
また、請求の範囲第73項記載のデータ処理方法は、請求の範囲第59項のデータ処理装置によって実現されるものであり、その効果は重複するので記載を省略する。
また、請求の範囲第74項記載のデータ処理装置制御プログラムは、請求の範囲第58項のデータ処理装置を制御するためのプログラムであり、その効果は重複するので記載を省略する。
また、請求の範囲第75項記載のデータ処理装置制御プログラムは、請求の範囲第59項のデータ処理装置を制御するためのプログラムであり、その効果は重複するので記載を省略する。
以下、本発明の第1の実施形態を図面に基づき説明する。図1〜図14は、本発明に係るデータ処理装置の第1の実施形態を示す図である。
まず、本発明に係るデータ処理装置の構成を図1に基づき説明する。図1は、本発明に係るデータ処理装置1の構成を示すブロック図である。
データ処理装置1は、データ分類部1aと、データ記憶部1bと、パターンモデル生成部1cと、データ制御部1dと、数学的距離算出部1eと、パターンモデル変換部1fと、パターンモデル表示部1gと、領域区分部1hと、区分内容変更部1iと、領域選択部1jと、特定パターンモデル生成部1kと、を含んだ構成となっている。
パターンモデル生成部1cは、データ分類部1aによってグループ分けしたデータに基づき、各グループ毎に4次元以上の高次元のパターンモデルを生成するものである。本実施形態においては、データ分類部1aによってグループ分けした音声データに基づき、各グループ毎に4次元以上の高次元の音響モデル(以下、高次元音響モデルと称す)を生成する。
数学的距離算出部1eは、パターンモデル生成部1cにおいて生成された複数のパターンモデルにおける、各パターンモデル相互間の数学的距離を算出するものである。本実施形態においては、各高次元音響モデル相互間の数学的距離を算出する。
領域選択部1jは、データ処理装置1の備える図示しない入力デバイスからの入力情報に基づき、領域区分部1hによって形成された複数の区分領域の中から、特定の区分領域を選択するものである。
図2は、2次元の音響モデル対応低次元ベクトルの2次元空間上への表示の一例を示す図であり、図3は、表示された座標点の2次元空間上における領域区分の一例を示す図であり、図4〜図8は、図3における各区分領域を示す図であり、図9は、図3に示す区分内容の変更の一例を示す図である。
更に、数学的距離算出部1eによって、上記生成された各高次元音響モデル相互間の数学的距離を算出する。一般に高次元音響モデルは複数の音声単位のHMMの集合から成る。そこで、高次元音響モデルi及びjの距離を下式(1)で定義する。
d(i,j,k)としては、正規分布の平均ベクトルのユークリッド距離、バタチャリア距離、カルバック情報量などの公知の距離尺度を用いることが可能であるが、ここでは、認識性能に対する効果がカルバック情報量と同程度であることが明らかにされた、正規分布の標準偏差の積で正規化された平均値ベクトルのユークリッド距離を利用する。全ての高次元音響モデルの音声単位kのHMMが同一構造の混合正規分布に従うとする。音響モデルの状態アライメントが、1:1であると仮定すると、d(i,j,k)を下式(2)〜(5)で定義できる。
Sammon法は、高次元空間上の高次元情報の相互距離の総和と低次元空間上の写像位置座標の相互ユークリッド距離の総和の差が最小となるように,最急降下法により低次元空間上の写像位置座標を最適化する非線形写像手法である。相互距離が小さい2つの高次元情報は低次元空間上でも互いに近くに、相互距離が大きい2つの高次元情報は低次元空間上でも互いに遠くに位置するように全ての高次元情報を低次元空間に射影する。ここで、Sammon法において最小化すべき誤差関数E(t)は下式(7)で与えられる。
つまり、変換された音響モデル対応低次元ベクトルと同次元の低次元空間において、低次元空間座標の数学的距離(例えば、ユークリッド距離)が近い音響モデル対応低次元ベクトルに対応した高次元音響モデルは相互に類似しており、対応する特定条件も類似していることを意味していると考えられる。また、高次元音響モデルが中央に位置する程、対応する特定条件はより平均的であると考えられる。
更に、パターンモデル表示部1gによって、複数の音響モデル対応低次元ベクトルの要素の値(座標情報)に基づき、当該複数の音響モデル対応低次元ベクトルを、図2に示すように、これらの座標情報の重心を中心(原点)とした2次元空間上の座標点として表示する。以下、こうして作成された図を音響空間地図と呼ぶこととする。
つまり、2次元空間内の座標点の存在する領域を、中心から最も離れた点と中心との間の距離を半径とした外円と、この外円内の第1の区分領域30である内円と、により区分し、更に、内円と外円の両外周間に形成される環状の領域を4つに区分(第2〜第5の区分領域31〜34)する。
ステップS102では、データ分類部1aにおいて、上記した各特定条件の組み合わせに基づき、読み出した音声データをグループ分けしてステップS104に移行する。
ステップS106に移行した場合は、パターンモデル生成部1cにおいて、グループ分けされた各グループ毎に音声データを読み出し、各グループ毎に高次元音響モデルを生成してステップS108に移行する。
ステップS110では、パターンモデル変換部1fにおいて、上記生成された複数の高次元音響モデル及び各高次元音響モデル相互間の数学的距離に基づき、Sammon法を用いて、高次元音響モデルを音響モデル対応低次元ベクトルに変換してステップS112に移行する。
ステップS114に移行した場合は、パターンモデル表示部1gにおいて、複数の音響モデル対応低次元ベクトルを低次元空間上に表示する処理を行いステップS116に移行する。
ステップS116に移行すると、領域区分部1hにおいて、低次元空間における音響モデル対応低次元ベクトルの存在する領域を複数の区分領域に区分する処理を行い処理を終了する。
ステップS202に移行した場合は、特定パターンモデル生成部1kにおいて、領域選択部1jにより選択された区分領域内の音響モデル対応低次元ベクトルに対応する高次元音響モデルに係る音声データを、データ制御部1dを介してデータ記憶部1bから読み出しステップS204に移行する。
ステップS204では、特定パターンモデル生成部1kにおいて、上記読み出した音声データから特定音響モデルを生成してステップS206に移行する。
ステップS206では、特定音響モデル1kにおいて、上記生成した特定音響モデルを、データ制御部1dを介してデータ記憶部1bに記憶して処理を終了する。
図12に示すように、まずステップS300に移行し、区分内容変更部1iにおいて変更モードが選択されたか否かを判定し、選択されたと判定された場合(Yes)はステップS302に移行し、そうでない場合(No)は選択されるまで待機する。ここで、本実施形態においては、変更モードを選択することにより区分内容の変更処理が可能となる。
ステップS304に移行した場合は、区分内容変更部1iにおいて、入力された変更内容に基づき区分内容を変更してステップS306に移行する。
ステップS306では、区分内容変更部1iにおいて、入力デバイスからの入力により変更処理が終了したと判定された場合(Yes)はステップS308に移行し、そうでない場合(No)はステップS302に移行する。
以上、データ分類部1aによって、複数対象に係る所定データ(上記実施形態においては、複数話者の音声データ)を、特定条件に基づきグルー分けすることが可能である。
また、数学的距離算出部1eによって、複数のパターンモデル(上記実施形態においては、高次元音響モデル)における、各パターンモデル相互間の数学的距離を算出することが可能である。
また、領域区分部1hによって、最内円から外円方向に向かうほど、環状領域に含まれるパターンモデル対応低次元ベクトル(上記実施形態においては、音響モデル対応低次元ベクトル)が細かく区分されるように、低次元空間上の座標点の存在する領域を自動的に区分することが可能である。
また、領域選択部1jによって、表示された区分領域のうち入力された情報に基づく区分領域を選択することが可能である。
また、特定パターンモデル生成部1kによって、領域選択部1iにより選択された区分領域内の複数のパターンモデル対応低次元ベクトル(上記実施形態においては、音響モデル対応低次元ベクトル)に対応するパターンモデル(上記実施形態においては、高次元音響モデル)に係るデータ(上記実施形態においては、音声データ)から、特定パターンモデル(上記実施形態においては、特定音響モデル)を生成することが可能である。
ここでは、呈示した発話様式と話者(名前等)の組み合わせを特定条件の一組とし、この一組の特定条件毎にデータ分類部1aでグループ分けをした後、パターンモデル生成部1cにおいて各グループ毎に高次元音響モデルをHMMにより生成することで、多数の高次元音響モデルを得た。
更に、数学的距離算出部1eにおいて、各高次元音響モデル相互間の数学的距離を上記式(1)により算出した。ここで、正規分布間の数学的距離として、正規分布の標準偏差で正規化された平均ベクトルのユークリッド距離を使用した。また、語彙に含まれるbiphoneの出現頻度w(k)も、上記式(1)による算出処理において使用した。
本実施例では、図13中のA〜Dの4つの音響モデル対応低次元ベクトルの特定条件にそれぞれ対応した特定音響モデルを生成した。ここで、A〜Dは第3の区分領域32内にあるので、ここでは、領域選択部1jによって、第3の区分領域32を選択させた。
更に、比較のために、第1、第2、第4、第5の区分領域30、31、33、34についても、それぞれの領域内の複数の音響モデル対応低次元ベクトルにそれぞれ対応する複数の高次元音響モデルに係る音声データからそれぞれの領域音響モデルを生成した。
そして、これら作成した6つの領域音響モデルを用いた場合の上記A〜Dの4つの特定音響モデルに対する全音声データの音声認識率を測定した結果が図14である。ここで、語彙サイズは、176単語である。
(1)第3の区分領域32に属する4つの特定条件(A、B、C、D)は、いずれも、自らが属する区分領域である第3の区分領域32に対応する領域音響モデルが最も高い認識率を与える。次に、認識率が高いのは、全領域に対応する領域音響モデルである。
(2)全領域から作成された領域音響モデルを用いた場合、A〜Dの4つの特定音響モデルに対する全音声データの認識率を比較すると、図13の中心点とA〜Dの4つの各点との間のそれぞれのユークリッド距離と、認識率と、に線形の関係があることが分かる。すなわち、中心点からの距離が遠い程、認識率が低いことが分かる。
(1)座標点の存在する領域をいくつかの区分領域に分割し、各区分領域毎の領域音響モデルを作成することにより、全領域に対応する全ての音声データから作成された音響モデルよりも高い認識率を得ることができる。
(2)中心点からの距離を利用すると、各特定条件の認識率を予測することができる。中心から遠い位置にある音響モデル対応低次元ベクトルの特定条件は認識性能が低い。逆に、中心に近い位置にある音響モデル対応低次元ベクトルの特定条件ほど認識性能が高い。
本実施例においては、男性145名に、表1に示す発話様式の中から複数の発話様式を指定して、5240単語の中の176単語から成る複数の単語リストを発声して貰った。
1)同一の発話様式を指定したとしても、実際の発話様式は話者によって異なることが分かる。このことは、予め付与された発話様式名を鵜呑みにして、発話様式毎の不特定話者音響モデルを作成する場合のデメリットを示唆している。
2)発声速度および発声音量が対極の発話様式(例えば、仮名強調vs早口、ささやき声vs大声/ロンバード)が、原点対称の場所に位置している。
なお、上記第1の実施形態、実施例1及び実施例2においては、人間の音声を例に取り説明してきたが、本願発明は人間の音声に対してのみ適用可能というわけではなく、対象データとして、人間の音声以外のデータを利用した場合でも同様の課題を解決し、同様の効果を有する。
この表示結果から、生活雑音、野鳥の鳴声、人間の音声は、それぞれが、ほぼ3つの領域に分かれており、これにより、生活雑音か、野鳥の鳴声か、人間の音声かを識別することは容易であると推察される。
つまり、音響データ、鳴声データ、人間の音声データといったように、様々な種類の音を識別可能かどうかを判断する上で、本願発明により得られる、パターンモデルの低次元(ここでは、2次元)空間上への表示結果は大変有用であると言える。
本実施例においては、9名の男性の顔画像から抽出した口唇部の動画像データを、発話に伴う開閉の状況に従って、閉じている状況、閉じている状態から開いている状態に遷移している状況、開いている状況、開いている状態から閉じている状態に遷移している状況の4つの静止画像グループに分類し、それぞれについて2次元ケプストラムとその差分を特徴ベクトルとしてHMMによりパターンモデルを生成した。そして、当該生成されたパターンモデルを音響モデル変換部1fにおいて、2次元のパターンモデル対応低次元ベクトルに変換し、この変換結果を、図18に示すように2次元空間上の座標点として表示した。
この表示結果から、閉じている状況、閉じている状態から開いている状態に遷移している状況、開いている状況、開いている状態から閉じている状態に遷移している状況の4つの静止画像グループが明確に分離されて固まりを形成していることから、口唇の4つの開閉状況を識別することは容易であると推察される。
つまり、口唇画像の開閉の状況を示す画像データといったように、対象の様々な状態を示す画像を識別可能かどうかを判断する上で、本願発明により得られる、パターンモデルの低次元(ここでは、2次元)空間上への表示結果は大変有用であると言える。
本実施例においては、アナログ出力型の赤外線センサ(本実施例では、焦電センサ)を高さ2.4mの天井に設置し、その真下を人が3144回、犬が632回歩行した場合の赤外線センサの出力データをFFT(Fast Fourie Transform)した結果から、HMMによりパターンモデルを生成した。そして、当該生成されたパターンモデルをパターンモデル変換部1fにおいて、2次元のパターンモデル対応低次元ベクトルに変換し、この変換結果を、図19に示すように2次元空間上の座標点として表示した。
この表示結果から、人と犬とはそれぞれ異なった固まりを形成することから、赤外線センサを用いた人か犬かの識別は容易であることが分かる。
つまり、人や犬などの行動に対する赤外線センサの出力データといったように、対象の状態(例えば、動作状態等)に対する赤外線センサの出力データから対象を識別可能かどうかを判断する上で、本願発明により得られる、パターンモデルの低次元(ここでは、2次元)空間上への表示結果は大変有用であると言える。
本実施例においては、男性1名に加速度センサをズボンのポケットに挿入して貰い、階段を降下した場合、階段を上昇した場合、廊下を直進歩行した場合の加速度センサの3軸(X軸、Y軸、Z軸)の時系列データをFFTした結果から、HMMによりパターンモデルを生成した。生成したパターンモデルの数は、階段を降下した場合29個、階段を上昇した場合28個、廊下を直進歩行した場合24個である。そして、当該生成されたパターンモデルをパターンモデル変換部1fにおいて、2次元のパターンモデル対応低次元ベクトルに変換し、この変換結果を、図20に示すように2次元空間上の座標点として表示した。
この表示結果から、通常に階段を降下した場合のパターンモデルは、座標点の表示領域上部の楕円で囲まれる範囲に固まっているが、表示領域下部の楕円で囲まれる範囲にも散見される。これは、階段を降下しているときに踊場に差し掛かり、3軸の加速度パターンに変化が生じ、廊下の直進歩行に近い歩行状態になったことを示唆している。
つまり、人間の歩行パターンに対する赤外線センサの出力データといったように、対象の行動に対する加速度センサの出力データから対象の行動内容を識別可能かどうかを判断する上で、本願発明により得られる、パターンモデルの低次元(ここでは、2次元)空間上への表示結果は大変有用であると言える。
また、上記実施形態においては、領域区分部1hによる領域の区分処理において、各区分領域内の音響モデル対応低次元ベクトルが他の区分領域と重複しないように区分されているが、これに限らず、各区分領域が他の区分領域の音響モデル対応低次元ベクトルを重複して含むような区分内容で区分しても良い。
更に、上記第1の実施形態において、各区分領域毎に区分領域内の音響モデル対応低次元ベクトルに対応する高次元音響モデルのみを、同様に本発明を適用して、新たな音響モデル対応低次元ベクトルへと変換して、新たな低次元空間上に再表示し、更に、細かい領域に区分して、領域音響モデルを生成することにより、より高い認識性能を得ることが可能であることはいうまでもない。
更に、本発明の第2の実施形態を図面に基づき説明する。図21〜図39は、本発明に係るデータ処理装置の第2の実施形態を示す図である。
まず、本発明に係るデータ処理装置の構成を図21に基づき説明する。図21は、本発明に係るデータ処理装置21の構成を示すブロック図である。なお、上記第1の実施形態におけるデータ処理装置1と重複する機能部は同じ符号を付し、機能が同じものについてはその説明を省略する。
データ処理装置21は、データ分類部1aと、データ記憶部1bと、パターンモデル生成部1cと、データ制御部1dと、数学的距離算出部1e'と、パターンモデル変換部1fと、パターンモデル表示部1gと、領域区分部1hと、区分内容変更部1iと、領域選択部1jと、特定パターンモデル生成部1kと、領域パターンモデル生成部21aと、データ取得部21bと、領域パターンモデル探索部21cと、を含んだ構成となっている。
図22は、データ処理装置1とデータ処理装置21との領域区分方法の違いを示す図である。また、図23は、高次元音響モデルを2次元座標表示した際の、認識率の高い話者と認識率の低い話者との分布を示す図である。また、図24は、各区分領域の構造を示す図である。また、図25は、領域パターンモデルの第1の探索方法を示す図であり、図26は、領域パターンモデルの第2の探索方法を示す図である。
更に、数学的距離算出部1e'によって、上記生成された各高次元音響モデル相互間の数学的距離を算出する。算出にあたっては、例えば、上記式(1)を用いる。
このとき、上記式(1)における音声単位kに対する出現頻度w(k)として、パターンモデル生成部1cによって生成された高次元音響モデルとデータ記憶部1bに記憶された複数話者の音声データとの尤度を算出して、尤度(認識性能)が所定の閾値より低い音声単位の出現頻度を用いた。
更に、パターンモデル変換部1fによって、上記算出された数学的距離を利用して、複数の高次元音響モデルを、これと同数の音響モデル対応低次元ベクトルに変換する。ここで、相互間の数学的距離が小さい2つの高次元音響モデルは互いに近くに、相互間の数学的距離が大きい2つの高次元音響モデルは互いに遠くに位置するように、全ての高次元音響モデルを相互間の距離関係を保持したまま音響モデル対応低次元ベクトル(2次元又は3次元)に変換する。本実施形態において、パターンモデル変換部1fは、高次元音響モデルを2次元の音響モデル対応低次元ベクトルに変換することとする。ここで、距離関係を保持したままで高次元音響モデルを2次元の音響モデル対応低次元ベクトルに変換する変換方法としては、上記第1の実施形態と同様に、当業者には公知であるSammon法を用いる。
上記第1の実施形態と同様に、変換された音響モデル対応低次元ベクトルと同次元の低次元空間において、低次元空間座標の数学的距離(例えば、ユークリッド距離)が近い音響モデル対応低次元ベクトルに対応した高次元音響モデルは相互に類似しており、対応する特定条件も類似していることを意味していると考えられる。また、高次元音響モデルが中央に位置する程、対応する特定条件はより平均的であると考えられる。
更に、パターンモデル表示部1gによって、上記第1の実施形態と同様に、複数の音響モデル対応低次元ベクトルの要素の値(座標情報)に基づき、当該複数の音響モデル対応低次元ベクトルを、図2に示すように、これらの重心を中心(原点)とした2次元空間上の座標点として表示する。
上記したように領域が区分されると、パターンモデル表示部1gは、領域区分部1hによる区分内容に基づき、図22(b)に示すように、表示座標点に合わせて区分内容を表示する。この区分処理により、領域内の複数の音響モデル対応低次元ベクトルが、各区分領域内の音響モデル対応低次元ベクトルにグループ分けされることになる。
なお、上記した選択領域に対する領域音響モデルの生成処理及び再度の音響モデル対応低次元ベクトルへの変換処理は、本装置の利用者がいずれかを任意に選択できるものとする。
更に、図25及び図26に基づき、領域パターンモデル生成部21a、データ取得部21b及び領域パターンモデル探索部21cにより、新規話者(評価話者に同じ)の音声データを音声認識するのに適切な領域パターンモデル(本実施形態においては、領域音響モデル)を探索する処理を説明する。
次に、図25の(2)に示すように、最内円250とその1つ外側の外円とにより形成された4つに区分された環状の領域に対して、これら4つの区分領域にそれぞれ対応する領域音響モデルと新規話者の音声データとの尤度をそれぞれ算出し、当該算出した4つの尤度をそれぞれ比較する。そして、この比較により、算出された尤度のうち最も高い尤度を、その領域音響モデルに対応させてRAMに保存すると共に、この領域音響モデルに対応した区分領域に対し外円方向に向かって隣接する区分領域を次の探索方向として決定する。
つまり、最内円から外円方向に向かって尤度計算を行う際に、各環状の領域における最大尤度の区分領域に隣接した区分領域を探索方向として決定すると共に、各環状の領域における該当区分領域の尤度計算結果をそれぞれ比較し、当該比較結果に基づき最大尤度を保存する。これらの処理を、最外周の環状領域に到達するまで行い、最終的に、保存された尤度中の最大尤度の領域音響モデルを新規話者に適した音響モデルとして選択する。
つまり、最内円から外円方向に向かって尤度計算を行う際に、各環状の領域における最大尤度及びその次に大きい尤度の2つの区分領域に隣接した区分領域を探索方向として決定すると共に、各環状の領域における該当区分領域の尤度計算結果をそれぞれ比較し、当該比較結果に基づき最大尤度及びその次に大きい尤度を保存する。これらの処理を、最外周の環状領域に到達するまで行い、最終的に、保存された尤度中の最大尤度の領域音響モデルを新規話者に適した音響モデルとして選択する。
また、上記第1の探索方法及び第2の探索方法による領域音響モデルの探索は、認識性能が所定の閾値より低い音声単位の出現頻度をw(k)として用いた場合の、2次元射影表示された探索空間に対して行っているが、これに限らず、認識性能が所定の閾値より低い音声単位の出現頻度と、単純な出現頻度とを用いて、別々に探索空間を生成し、それぞれの探索空間に対して上記第1の探索方法又は第2の探索方法による領域音響モデルの探索を行い、最終的に探索された各探索空間の領域音響モデルの尤度を比較し、より高い尤度を与えた探索空間の領域パターンモデルを選択するようにしても良い。
図27に示すように、まずステップS400に移行し、データ処理装置21の利用者の入力デバイスの操作により、第1の探索方法が選択されるとステップS402に移行する。
ステップS404に移行した場合は、上記取得した新規データをデータ記憶部1bに記憶してステップS406に移行する。
ステップS408に移行した場合は、データ記憶部1bから上記保存した新規データを読み出し、当該読み出した新規データと、領域区分部1hにより区分された領域のうち、最内円の領域に対応した領域パターンモデルとの尤度を算出してステップS410に移行する。
ステップS412では、最内円に隣接する環状領域に含まれる区分領域に対応した領域パターンモデルと、上記読み出した新規データとの尤度を算出してステップS414に移行する。
ステップS414では、算出した区分領域の尤度をそれぞれ比較してステップS416に移行する。
ステップS418では、尤度の算出が最外周の環状領域に到達したか否かを判定し、最外周に到達したと判定された場合(Yes)はステップS420に移行し、そうでない場合(No)はステップS424に移行する。
ステップS420に移行した場合は、RAMに保存された全ての尤度をそれぞれ比較してステップS422に移行する。
一方、ステップS418において、最外周に到達してなくステップS424に移行した場合は、ステップS414の比較結果から、最大尤度の領域に対し外円方向に隣接した区分領域の尤度を算出してステップS414に移行する。
図28に示すように、まずステップS500に移行し、データ処理装置21の利用者の入力デバイスの操作により、第2の探索方法が選択されるとステップS502に移行する。
ステップS504に移行した場合は、上記取得した新規データをデータ記憶部1bに記憶してステップS506に移行する。
ステップS508に移行した場合は、データ記憶部1bから上記保存した新規データを読み出し、当該読み出した新規データと、領域区分部1hにより区分された領域のうち、最内円の領域に対応した領域パターンモデルとの尤度を算出してステップS510に移行する。
ステップS512では、最内円に隣接する環状領域に含まれる区分領域に対応した領域パターンモデルと、上記読み出した新規データとの尤度を算出してステップS514に移行する。
ステップS514では、算出した区分領域の尤度をそれぞれ比較してステップS516に移行する。
ステップS516では、ステップS514の比較結果から、尤度の大きい方から順に上位n個の尤度をそれぞれの領域パターンモデルに対応させてRAMに保存してステップS518に移行する。
ステップS520に移行した場合は、RAMに保存された全ての尤度をそれぞれ比較してステップS522に移行する。
ステップS522では、ステップS520の比較結果から、最大尤度に対応した領域パターンモデルを選択して処理を終了する。
一方、ステップS518において、最外周に到達してなくステップS524に移行した場合は、ステップS514の比較結果から、上位n個の尤度に対応した領域に対し外円方向に隣接した区分領域の尤度を算出してステップS514に移行する。
また、パターンモデル生成部1cによって、グループ分けされた所定データ(上記実施形態においては、音声データ)から各グループ毎のパターンモデル(上記実施形態においては、高次元音響モデル)を生成することが可能である。
また、パターンモデル変換部1fによって、複数のパターンモデル(上記実施形態においては、高次元音響モデル)及びこれら相互間の数学的距離に基づき、複数のパターンモデル(上記実施形態においては、高次元音響モデル)をこれと同数のパターンモデル対応低次元ベクトル(上記実施形態においては、音響モデル対応低次元ベクトル)に変換することが可能である。
また、領域区分部1hによって、最内円から外円方向に向かうほど、環状領域に含まれるパターンモデル対応低次元ベクトル(上記実施形態においては、音響モデル対応低次元ベクトル)が細かく区分されるように、低次元空間上の座標点の存在する領域を自動的に区分することが可能である。
また、領域選択部1jによって、表示された区分領域のうち入力された情報に基づく区分領域を選択することが可能である。
また、特定パターンモデル生成部1kによって、領域選択部1iにより選択された区分領域内の複数のパターンモデル対応低次元ベクトル(上記実施形態においては、音響モデル対応低次元ベクトル)に対応するパターンモデル(上記実施形態においては、高次元音響モデル)に係るデータ(上記実施形態においては、音声データ)から、特定パターンモデル(上記実施形態においては、特定音響モデル)を生成することが可能である。
また、データ取得部21bによって、新規対象に係る所定データ(上記実施形態においては、新規話者の音声データ)を取得することが可能である。
第29(b)図から、発話様式毎に座標点が集まっていることが分かる。これは発話様式の違いにより音響的特徴が異なることを示していると考えられる。分布の中心には「通常」の座標点が集まっていることから、データ処理装置21によって2次元平面に写像された場合、より平均的な特徴を有する発話様式が中心に現れると考えられる。点線の矢印は発話様式が異なる同一話者の音響空間上での違いを示した例である。音響解析を施され、更に統計処理された場合、発話様式の変化による音響的特徴の差異が話者性のそれに比べ、より大きいことを示している。
ここで、図32は、第1の探索方法を用いて探索した音響モデルと、全領域音響モデルとの尤度計算により探索した音響モデルとについて、各話者と認識率との関係を示す図である。
ここで、図33は、重みに2種類の出現頻度を用いた場合と、重みに通常の出現頻度を用いた場合と、重みに認識性能が所定の閾値より低い音声単位の出現頻度を用いた場合とについて、話者と認識率との関係を示した図である。また、図34(a)は、距離の重みに単純なdiphoneの出現頻度を用いて生成した音響空間地図を示す図であり、(b)は、距離の重みに認識性能が所定の閾値より低いdiphoneの出現頻度を用いて生成した音響空間地図を示す図である。
また、上記第2の実施形態においては、パターンモデル変換部1fによる変換後の音響モデル対応低次元ベクトルを2次元としたが、これに限らず、1次元や3次元に変換するようにしても良い。
以下、本発明の第3の実施形態を図面に基づき説明する。図35〜図42は、本発明に係るデータ処理システムの第3の実施形態を示す図である。
まず、本発明に係るデータ処理システムの構成を図35に基づき説明する。図35は、本発明に係るデータ処理システムの構成を示すブロック図である。
図35に示されるように、データ処理システム5は、情報処理端末350A、350B、350C、・・・と、データ処理装置37と、ネットワーク6と、を含んだ構成となっている。
ネットワーク6は、LANやWANなどの複数の情報処理機器を相互にデータ通信可能に接続するネットワークであり、本実施形態においては、インターネットを適用する。
音声データ取得部350aは、マイク等の対象話者の発声した音声(アナログデータ)を取得する手段と、A/D変換器等の当該アナログデータである音声をデジタルデータに変換する手段と、を備えたものである。
第1のデータ通信部350cは、第1のデータ制御部350bの制御により、ネットワーク6を介して、データ処理装置37との間で各種データ通信を行う機能を有したものである。
操作部350eは、システム利用者が、特定話者を指定したり、音声データ処理の制御プログラムに対する設定を行ったりするための情報入力を行うためのものである。
ここで、本実施形態において、情報処理端末350は、図示しないプロセッサと、RAM(Random Access Memory)と、専用のプログラムの記憶されたROM(Read Only Memory)と、を備えており、プロセッサにより専用のプログラムを実行することにより上記各部の制御を行う。
データ処理装置37は、データ分類部1aと、データ記憶部1bと、パターンモデル生成部1cと、データ制御部1d'と、数学的距離算出部1e'と、パターンモデル変換部1fと、パターンモデル表示部1gと、領域区分部1hと、区分内容変更部1iと、領域選択部1jと、特定パターンモデル生成部1kと、領域パターンモデル生成部21aと、第2のデータ通信部37aと、領域パターンモデル探索部21cと、を含んだ構成となっている。
つまり、データ処理装置21におけるデータ取得部21bに代えて、第2のデータ通信部37aが加わったことになる。
第2のデータ通信部37aは、第2のデータ制御部1d'の制御により、ネットワーク6を介して、情報処理端末350との間で各種データ通信を行う機能を有したものである。
システム利用者は、自分の使用している音響モデルを評価するために、情報処理端末350の操作部350eを操作して第1のデータ制御部350bに指示を与えて音声データの取得プログラムを起動し、まず音声データ取得部350aにより自分の音声データを取得させる。その後、操作部350eの操作により第1のデータ制御部350bに指示を与え、取得させた音声データと音響モデルの評価依頼情報とを組にしてデータ処理装置37に送信させる。このとき、評価依頼情報には、システム利用者の識別情報が含まれている。
図40に示すように、まずステップS600に移行し、第1のデータ制御部350bにおいて、音声取得モードが起動しているか否かを判定し、起動していると判定された場合(Yes)はステップS602に移行し、そうでない場合(No)は起動されるまで待機する。
ステップS604に移行した場合は、第1のデータ制御部350bによって、取得した音声データ(アナログデータ)をデジタルデータに変換してステップS606に移行する。
ステップS608に移行した場合は、第1のデータ制御部350bにおいて、音声データのデジタルデータと、識別情報を含む配信依頼情報と、評価依頼情報とを組にして、第1のデータ通信部350cを介してデータ処理装置37に送信して処理を終了する。
ステップS612に移行した場合は、第1のデータ制御部350bにおいて、音声データのデジタルデータと、識別情報を含む評価依頼情報とを組にして、第1のデータ通信部350cを介してデータ処理装置37に送信して処理を終了する。
一方、ステップS614に移行した場合は、第1のデータ制御部350bにおいて、システム利用者の操作部350eの操作により、処理終了が指定されたか否かを判定し、指定されたと判定された場合(Yes)は処理を終了し、そうでない場合(No)はステップS606に移行する。
図41に示すように、まずステップS700に移行し、第2のデータ制御部1d'において、情報処理端末350からの情報を受信したか否かを判定し、受信したと判定された場合(Yes)はステップS702に移行し、そうでない場合(No)は受信するまで待機する。
ステップS702に移行した場合は、第2のデータ制御部1d'において、受信した情報が配信依頼情報及び評価依頼情報の両方を含んでいるか否かを判定し、含んでいると判定された場合(Yes)はステップS704に移行し、そうでない場合(No)はステップS710に移行する。
ステップS706では、第2のデータ制御部1d'において、ステップS704の音声データ処理結果に基づき、表示用情報を生成してステップS708に移行する。
一方、ステップS702において、受信した情報に配信依頼情報が含まれておらずステップS710に移行した場合は、第2のデータ制御部1d'において、受信した情報が評価依頼情報のみを含んでいるか否かを判定し、含んでいると判定された場合(Yes)はステップS712に移行し、そうでない場合(No)はステップS718に移行する。
ステップS714では、第2のデータ制御部1d'において、ステップS712の音声データ処理結果に基づき、表示用情報を生成してステップS716に移行する。
一方、ステップS710で受信した情報が評価依頼でもなくてステップS718に移行した場合は、受信した情報を破棄してステップS700に移行する。
図42に示すように、まずステップS800に移行し、第1のデータ制御部350bにおいて、データ処理装置37からの表示用情報を受信したか否かを判定し、受信したと判定された場合(Yes)はステップS802に移行し、そうでない場合(No)は受信するまで待機する。
ステップS804では、第1のデータ制御部350bにおいて、システム利用者の操作部350eの操作により、表示されたメニューから音響モデルが選択されたか否かを判定し、選択されたと判定された場合(Yes)はステップS806に移行し、そうでない場合(No)はステップS812に移行する。
ステップS808では、第1のデータ制御部350bにおいて、データ処理装置37から上記選択した音響モデルを受信したか否かを判定し、受信したと判定された場合(Yes)はステップS810に移行し、そうでない場合(No)は受信するまで待機する。
一方、ステップS804において、音響モデルが選択されずステップS812に移行した場合は、第1のデータ制御部350bにおいて、システム利用者の操作部350eの操作により、表示されたメニューから音響モデルの入れ替えが選択されたか否かを判定し、選択されたと判定された場合(Yes)はステップS814に移行し、そうでない場合(No)はステップS804に移行する。
ステップS816では、第1のデータ制御部350bにおいて、データ処理装置37から上記選択した音響モデルを受信したか否かを判定し、受信したと判定された場合(Yes)はステップS818に移行し、そうでない場合(No)は受信するまで待機する。
ステップS818では、第1のデータ制御部350bにおいて、現在使用している音響モデルを、上記受信した音響モデルへと更新して処理を終了する。
以下、本発明の第4の実施形態を図面に基づいて説明する。図43乃至図50は、本発明に係るデータ処理システムの第4の実施形態を示す図である。
まず、本発明に係るデータ処理システムの構成を図43に基づいて説明する。図43は、本発明に係るデータ処理システムの構成を示すブロック図である。
図43に示されるように、データ処理システム7は、情報処理端末2A〜2Cと、データ処理装置3と、ネットワーク4と、を含んだ構成となっている。
ネットワーク4は、LANやWANなどの複数の情報処理機器を相互にデータ通信可能に接続するネットワークであり、本実施形態においては、WANの1つであるインターネットを適用する。
第1のデータ取得部2aは、マイク等の対象話者の発声した音声(アナログデータ)を取得する手段と、A/D変換器等の当該アナログデータである音声をデジタルデータに変換する手段と、を備えたものである。
第1の情報表示部2dは、第1のデータ制御部2bの制御により、データ処理装置3から取得した各種情報を表示するなど、情報の表示処理を行う機能を有したものである。
図45に示されるように、データ処理装置3は、第2のデータ通信部3aと、第2のデータ取得部3bと、第2のデータ制御部3cと、位置算出部3dと、データ評価部3eと、第2の情報表示部3fと、第2の交渉部3gと、操作部3hと、データ記憶部3iと、を含んだ構成となっている。
第2のデータ取得部3bは、第2のデータ通信部3aを介して、情報処理端末2からの音声データを取得する機能を有したもので、取得した音声データを解析してその特徴部分である特徴量データを抽出する手段も備えている。更に、この抽出された特徴量データに基づき、HMMを構成することで対象話者のパターンモデルを生成する手段も備えている。なお、本実施形態においては、上記した特徴量データ及び対象話者のパターンモデルを共に、音声データと称する。
位置算出部3dは、取得した音声データと複数話者のパターンモデルとの位置関係を算出する機能を有したものである。
つまり、特徴量データが音声データである場合は、この音声データと後述するデータ記憶部3iに記憶された複数話者のパターンモデルとの尤度計算を行い、この算出結果に基づき、複数話者のパターンモデルの中から最も尤度の高いパターンモデルを選択し、このパターンモデルを上記対象話者の音声データと等価なものとして扱う。ここで、本実施形態において、上記複数話者のパターンモデルはHMMにより生成されており、これらの中から特定のパターンモデル(対象話者の音声データに対応したパターンモデルでも良い)を基準として、それぞれ相対位置が決められる。そして、この相対位置情報を有するパターンモデルにより音響空間が形成される。
一方、特徴量データからHMMを構成することにより生成されたパターンモデルが音声データである場合は、この音声データと上記した基準となるパターンモデルとの相対位置を算出し、この算出結果を音声データの位置情報とする。
ここで、数学的距離の算出は音素毎に行うことが可能であり、音声データの価値を評価する処理も音素毎に行うことが可能である。本実施形態では、この処理方法を、システム利用者が任意に切り替えて設定することが可能である。
第2の交渉部3gは、第2のデータ制御部3cの制御により、情報処理端末2との間で、ネットワーク4を介した音声データ提供可否の交渉処理を行う機能を有したものである。
データ記憶部3iは、複数話者のパターンモデル、交渉が成立した音声データ等の必要なデータを記憶するものである。
ここで、本実施形態において、データ処理装置3は、図示しないプロセッサと、RAM(Random Access Memory)と、専用のプログラムの記憶されたROM(Read Only Memory)と、を備えており、プロセッサにより専用のプログラムを実行することにより上記各部の制御を行う。
以下、図46(a)及び図47に基づき、特徴量データが音声データである場合の初期データベースの構築処理及びデータ評価処理の第1の実施形態を説明する。
まず、図46(a)の(1)〜(4)に示す、評価処理を行うための初期データベースの生成処理の流れを説明する。ここで、既にデータベースが生成されている場合は、この(1)〜(4)の処理は必要がない。
(2)第2のデータ取得部3bによって、取得した音声の音響分析を行い特徴量の抽出を行う。
(3)第2のデータ取得部3bによって、抽出された特徴量に基づき特定話者及び不特定話者用のHMMを生成し、各特定話者用のパターンモデル及び不特定話者のパターンモデルを生成するために所定の学習手法を用いて前記各HMMの学習を行う。
(4)第2のデータ取得部3bによって、特定話者N人分のパターンモデル(HMM)及び不特定話者のパターンモデル(HMM)をデータ記憶部3iに記憶する。
(5)第2のデータ取得部3bによって、情報処理端末2からシステム利用者の音声データを取得する。
(6)第2のデータ取得部3bによって、取得した音声データの分析を行い特徴量の抽出を行う。
(7)位置算出部3dによって、抽出した特徴量データと複数の特定話者のパターンモデルとの尤度を算出する。ここで、発声内容は既知とする(発声時に入力されているものとする)。
評価結果に係る情報は、第2のデータ通信部3aを介して、例えば、対象話者がシステム利用者Aであれば、情報処理端末2Aに送信される。
ここで、本実施形態において、上記評価は、データ評価部3eにより自動的に行っているが、2次元射影化により表示された音響空間やその他の表示情報からオペレータが自分で評価するようにしても良い。
なお、音声データが、希少価値が高いと評価された場合は、図46(a)における処理(10)に移行する。
(12)第2の情報表示部3fによって、上記2次元に射影された各HMMの座標情報を図55(a)、(b)に示すように平面上の点として表示する。図55(a)は、HMMを単語(又は文章)単位で扱った場合のHMMの各座標を点で表示したものである。つまり、一つ一つの点が各話者のパターンモデルとなり、点と点との距離が両者の類似度を示す(両者の距離が短い方が類似度が高い)。
一方、図中、点41のような位置の点は、周辺のすぐそばには他の点がほとんど無く、音響空間内の外れに位置しているので希少価値が高いと視覚的に評価できる。
更に、上記したように、パターンモデルの疎密の関係や評価結果を数値化した数値そのものや当該数値をグラフにしたもの等を表示する。図55(a)に示すように、システム利用者Aの音声データが☆52の位置にあった場合は、例えば、図の右下に示すように、その音声データの価値度を数値の70で表示する。価値度の平均値が57とすると、音声データの価値は平均値より高いと簡易に判断することが可能となる。
更に、図46(b)及び図55に基づき、特徴量データから生成されたパターンモデルが音声データである場合の初期データベースの構築処理及び照合性能判断処理の第2の実施形態を説明する。
次に、図46(b)の(5)〜(11)に示す、音声データの評価処理の流れを説明する。
(6)第2のデータ取得部3bによって、取得した音声データの分析を行い特徴量の抽出を行う。
(7)第2のデータ取得部3bによって、抽出された特徴量データに基づき取得した音声のHMMを構成し、所定の学習手法により学習を行う。
(9)位置算出部3dによって、上記生成された対象話者のパターンモデルと他の特定話者のパターンモデルとの数学的距離を算出する。ここで、本実施形態においては、オペレータが、音声データの位置関係を視覚的に判断可能なように、数学的距離が算出された時点で、後述する(12)及び(13)の処理により、これら算出された数学的距離に基づく2次元射影化により、その座標データを図55に示すように表示することが可能となっている。
評価結果に係る情報は、第2のデータ通信部3aを介して、例えば、対象話者がシステム利用者Bであれば、情報処理端末2Bに送信される。
ここで、本実施形態において、上記評価は、データ評価部3eにより自動的に行っているが、2次元射影化により表示された音響空間やその他の表示情報からオペレータが自分で評価するようにしても良い。
なお、音声データが、希少価値が高いと評価された場合は、図46(b)における処理(11)に移行する。
ここで、図46(b)の(12)、(13)に示す、2次元射影化による音響空間の表示処理及び評価結果の表示処理は、上記した第1の実施形態における図46(a)の(11)、(12)と同様の処理であるので記載を省略する。
図48に示すように、まずステップS900に移行し、第1のデータ制御部2bにおいて、音声データの取得処理が開始されたか否かを判定し、開始されたと判定された場合(Yes)はステップS902に移行し、そうでない場合(No)は開始されるまで判定処理を続行する。
ステップS902に移行した場合は、第1のデータ取得部2aによって、対象話者(本実施形態では、システム利用者A〜Cのいずれか)の発声した音声(アナログデータ)を取得しステップS904に移行する。
ステップS906では、第1のデータ制御部2bによって、上記デジタルデータに変換された音声データを、第1のデータ通信部2cを介してデータ処理装置3に送信してステップS908に移行する。
ステップS910に移行した場合は、第1のデータ制御部2bの制御命令に応じて、第1の情報表示部2dにおいて、上記受信した評価結果を表示してステップS912に移行する。
ステップS914に移行した場合は、第1のデータ制御部2b、第1の交渉部2e及び第1のデータ通信部2cにおいて、データ処理装置3との間でネットワーク4を介した音声データの提供可否の交渉を行う交渉処理を開始してステップS916に移行する。
ステップS918では、第1のデータ制御部2bにおいて、音声データの取得処理を終了するか否かを判定し、終了すると判定された場合(Yes)はステップS900に移行し、そうでない場合(No)はステップS902に移行する。
ここで、終了の判断は、図示しない、マウスやキーボード等の入力デバイスによるシステム利用者からの入力情報に基づき行われる。
図49に示すように、まずステップS1000に移行し、第2のデータ制御部3cにおいて、第2のデータ通信部3aを介して情報処理端末2から音声データを取得したか否かを判定し、取得したと判定された場合(Yes)はステップS1002に移行し、そうでない場合(No)は取得するまで判定処理を続行する。
ステップS1006では、データ評価部3eにおいて、上記算出された数学的距離に基づき、取得した音声データの価値を評価してステップS1008に移行する。
ステップS1008では、第2の情報表示部3fにおいて、上記評価結果を表示してステップS1010に移行する。
ステップS1012では、第2のデータ制御部3cにおいて、上記評価により、取得した音声データの提供可否の交渉を行うか否かを判定し、交渉を行うと判定された場合(Yes)はステップS1014に移行し、そうでない場合(No)はステップS1000に移行する。
ステップS1016では、第2のデータ制御部3cにおいて、対象の情報処理端末2から交渉結果を取得したか否かを判定し、取得したと判定された場合(Yes)はステップS1018に移行し、そうでない場合(No)は取得するまで判定処理を続行する。
ステップS1020に移行した場合は、第2のデータ制御部によって、交渉の成立した音声データをデータ記憶部3iに記憶してステップS1000に移行する。
一方、ステップS1022に移行した場合は、第2のデータ制御部3cにおいて、交渉の決裂した音声データを破棄してステップS1000に移行する。
図50に示すように、まずステップS1100に移行し、位置算出部3dにおいて数学的距離の算出が完了したか否かを判定し、完了したと判定された場合(Yes)はステップS1102に移行し、そうでない場合(No)は完了するまで待機する。
ステップS1104では、上記2次元射影化処理により2次元の情報となった数学的距離に基づき、各パターンモデルの座標情報を平面上の点として表示して処理を終了する。
また、情報処理端末2の第1の交渉部2e及びデータ処理装置3の第2の交渉部3gによって、音声データの提供可否に関する交渉処理を行うことが可能である。
また、データ処理装置3は、交渉の成立した音声データをデータ記憶部3iに記憶することが可能である。
以下、本発明の第5の実施形態を図面に基づき説明する。図51〜図59は、本発明に係るデータ処理システムの第5の実施形態を示す図である。
まず、本発明に係るデータ処理システムの構成を図51に基づき説明する。図51は、本発明に係るデータ処理システムの構成を示すブロック図である。
図51に示されるように、データ処理システム8は、情報処理端末9A〜9Cと、データ処理装置10と、ネットワーク11と、を含んだ構成となっている。
ネットワーク11は、LANやWANなどの複数の情報処理機器を相互にデータ通信可能に接続するネットワークであり、本実施形態においては、WANの1つであるインターネットを適用する。
第1のデータ取得部9aは、マイク等の対象話者の発声した音声(アナログデータ)を取得する手段と、A/D変換器等の当該アナログデータである音声をデジタルデータに変換する手段と、を備えたものである。
第1のデータ制御部9bは、第1のデータ取得部9aにおいて取得された音声データを第1のデータ通信部9cを介してデータ処理装置10に送信する処理を制御する機能、データ処理装置10から取得した情報を第1の情報表示部9dによって表示する処理を制御する機能等の、各部の処理を制御する機能を有したものである。
第1の情報表示部9dは、第1のデータ制御部9bの制御により、データ処理装置10から取得した各種情報を表示するなど、情報の表示処理を行う機能を有したものである。
操作部9eは、システム利用者が、特定話者を指定したり、音声データ処理の制御プログラムに対する設定を行ったりするための情報入力を行うためのものである。
図53に示されるように、データ処理装置10は、第2のデータ通信部10aと、第2のデータ取得部10bと、第2のデータ制御部10cと、位置算出部10dと、類似話者検出部10eと、類似性評価部10fと、第2の情報表示部10gと、矯正情報生成部10hと、データ記憶部10iと、を含んだ構成となっている。
第2のデータ通信部10aは、第2のデータ制御部10cの制御により、ネットワーク11を介して、情報処理端末9との間で各種データ通信を行う機能を有したものである。
第2のデータ制御部10cは、データ処理装置10の各構成要素間のデータの授受を制御したり、処理の流れを制御したりする機能を備えたものである。
位置算出部10dは、取得した音声データと複数話者のパターンモデルとの位置関係を算出する機能を有したものである。
従って、この場合は、選択されたパターンモデルの相対位置情報が対象話者の音声データの位置情報となる。
類似話者検出部10eは、特徴量データが音声データである場合は、選択されたパターンモデルとそれ以外の複数話者のパターンモデルとの数学的距離を算出して、この算出された各距離を、予め設定された数学的距離の閾値Thと比較し、当該比較結果に基づき対象話者の音声データから閾値Thの距離内にある音声データを検出し、その音声データに対応する話者を類似話者とするものである。
類似性評価部10fは、操作部3hにより特定話者が指定されたときに、この特定話者のパターンモデルと対象話者の音声データとの数学的距離を算出して、この算出された距離に基づき対象話者の音声と特定話者の音声との類似性を評価するものである。
従って、上記した類似性の評価は、複数種類の発話様式のパターンモデルに対して行われることになる。
ここで、本実施形態において、データ処理装置10は、図示しないプロセッサと、RAM(Random Access Memory)と、専用のプログラムの記憶されたROM(Read Only Memory)と、を備えており、プロセッサにより専用のプログラムを実行することにより上記各部の制御を行う。
まず、図54(a)の(1)〜(4)に示す、評価処理を行うための初期データベースの生成処理の流れを説明する。ここで、既にデータベースが生成されている場合は、以下の(1)〜(4)の処理は行う必要がない。
(2)第2のデータ取得部10bによって、取得した音声の音響分析を行い特徴量の抽出を行う。
(4)第2のデータ取得部10bによって、特定話者N人分のパターンモデル(HMM)及び不特定話者のパターンモデル(HMM)をデータ記憶部10iに記憶する。
(5)第2のデータ取得部10bによって、情報処理端末9からシステム利用者の音声データを取得する。
(6)第2のデータ取得部10bによって、取得した音声データの分析を行い特徴量の抽出を行う。
(7)位置算出部10dによって、抽出した特徴量データと複数の特定話者のパターンモデルとの尤度を算出する。ここで、発声内容は既知とする(発声時に入力されているものとする)。
更に、上記検出結果に係る情報は、第2のデータ通信部10aを介して、例えば、対象話者がシステム利用者Aであれば、情報処理端末9Aに送信される。
また、上記したように上位M個のパターンモデルについて数学的距離を算出した場合、これは選択されたパターンモデルが間違いであった場合(選択されたパターンモデルが対象話者の音声とかけはなれた特徴を有していた場合など)を考慮したものであり、この場合は、それぞれについて閾値Thの距離内にある他者のパターンモデルを選択し、これらを類似話者とする。
また、上記検出処理は、上記した複数種類の発話様式に対応するパターンモデルに対してそれぞれ行うことで、発話様式Aの音声は類似しているが、発話様式Bの音声は類似していないといったように、発話様式の種類毎の検出が可能であり、これらの検出結果から類似している音声の最も多い話者を類似話者としたり、それぞれの発話様式毎に最も近い話者を類似話者としたりすることが可能である。
例えば、対象話者のパターンモデルと特定話者のパターンモデルとの数学的距離に基づき、両者間の距離が短ければ類似性が高く、一方、距離が長ければ類似性は低いといったように評価を行う。
また、評価結果に係る情報は、第2のデータ通信部10aを介して、例えば、対象話者がシステム利用者Bであれば、情報処理端末9Bに送信される。
また、本実施形態において、評価結果に係る情報は、特定話者の複数種類の発話様式にそれぞれ対応したパターンモデルに対する評価結果、これらパターンモデルと対象話者のパターンモデルとの2次元射影化された位置関係情報、後述する矯正情報となる。
ここで、この矯正情報の生成は、改めて対象話者の音声データを取得して、その音声データに対応するパターンモデルに対して行っても良いし、上記処理(5)及び処理(6)において始めに取得した音声データに対して行っても良い。
更に、生成された矯正情報は、上記した評価結果に係る情報に含んで情報処理端末9に送信される。
一方、情報処理端末9では、上記矯正情報を取得すると、第1の情報表示部9dによって矯正情報を表示する。従って、対象話者は、表示された矯正情報を見て、自己の音声を矯正し特定話者の音声と自己の音声との類似性を高める練習を行うことが可能である。
(12)第2の情報表示部10gによって、上記算出された数学的距離の関係(相対距離)に基づき、公知のSammon法により全てのパターンモデル(HMM)の距離関係を2次元に射影する。
更に、図55(b)は、上記したように、HMMを音素単位(図では「a」,「i」,「u」,「e」,「o」)で扱った場合の各HMMの音素毎の各座標を点で表示したものである。この場合は、上記した類似話者の検出や類似性の評価を音素毎に視覚的に行うことが可能である。
まず、図54(b)の(1)〜(4)に示す、話者照合を行うためのデータベースの生成処理は、上記第1の実施形態における図54(a)の(1)〜(4)と同様であるので記載を省略する。
(5)第2のデータ取得部10bによって、情報処理端末9からシステム利用者の音声データを取得する。
(6)第2のデータ取得部10bによって、取得した音声データの分析を行い特徴量の抽出を行う。
(7)第2のデータ取得部10bによって、抽出された特徴量データに基づき取得した音声のHMMを構成し、所定の学習手法により学習を行う。
(8)第2のデータ取得部10bによって、HMMの学習により、対象話者の音声のパターンモデルを生成してデータ記憶部10iに記憶する。
更に、検出結果に係る情報は、第2のデータ通信部10aを介して、例えば、対象話者がシステム利用者Aであれば、情報処理端末9Aに送信される。
また、上記したように上位M個のパターンモデルについて数学的距離を算出した場合、これは選択されたパターンモデルが間違いであった場合(選択されたパターンモデルが対象話者の音声とかけはなれた特徴を有していた場合など)を考慮したものであり、この場合は、それぞれについて閾値Thの距離内にある他者のパターンモデルから類似話者を検出する。
また、上記検出処理は、上記した複数種類の発話様式に対応するパターンモデルに対してそれぞれ行うことで、発話様式Aの音声は類似しているが、発話様式Bの音声は類似していないといったように、発話様式の種類毎の検出が可能であり、これらの検出結果から類似している音声の最も多い話者を類似話者としたり、それぞれの発話様式毎に最も近い話者を類似話者としたりすることが可能である。
例えば、対象話者のパターンモデルと特定話者のパターンモデルとの数学的距離に基づき、両者間の距離が短ければ類似性が高く、一方、両者間の距離が長ければ類似性は低いといったように評価を行う。
また、評価結果に係る情報は、第2のデータ通信部10aを介して、例えば、対象話者がシステム利用者Bであれば、情報処理端末9Bに送信される。
また、本実施形態において、評価結果に係る情報は、特定話者の複数種類の発話様式にそれぞれ対応したパターンモデルに対する評価結果、これらパターンモデルと対象話者のパターンモデルとの2次元射影化された位置関係情報及び後述する矯正情報となる。
ここで、この矯正情報の生成は、改めて対象話者の音声データを取得して、その音声データに対応するパターンモデルに対して行っても良いし、上記処理(5)及び処理(6)において始めに取得した音声データに対して行っても良い。
一方、情報処理端末9では、上記矯正情報を取得すると、第1の情報表示部9dによって矯正情報を表示する。従って、対象話者は、表示された矯正情報を見て、それに習って自己の音声を矯正し特定話者の音声と自己の音声との類似性を高める練習を行うことが可能である。
更に、図57に基づき、情報処理端末9の動作処理の流れについて説明する。図57は、情報処理端末9の動作処理を示すフローチャートである。
ステップS1202に移行した場合は、第1のデータ取得部9aによって、対象話者(本実施形態では、システム利用者A〜Cのいずれか)の発声した音声(アナログデータ)を取得しステップS1204に移行する。
ステップS1206では、第1のデータ制御部9bによって、上記デジタルデータに変換された音声データを、第1のデータ通信部9cを介してデータ処理装置10に送信してステップS1208に移行する。
ステップS1210に移行した場合は、第1のデータ制御部9bの制御命令に応じて、第1の情報表示部9dにおいて、上記受信した検出結果情報を表示してステップS1212に移行する。
ステップS1214に移行した場合は、第1のデータ制御部9bによって、上記選択された話者の情報を、第1のデータ通信部9cを介してデータ処理装置10に送信してステップS1216に移行する。
ステップS1216に移行した場合は、第1のデータ制御部9bの制御命令に応じて、第1の情報表示部9dにおいて、上記受信した評価結果情報を表示してステップS1200に移行する。
図58に示すように、まずステップS1300に移行し、第2のデータ制御部10cにおいて、第2のデータ通信部10aを介して情報処理端末9から音声データを取得したか否かを判定し、取得したと判定された場合(Yes)はステップS1302に移行し、そうでない場合(No)は取得するまで判定処理を続行する。
ステップS1304では、位置算出部10dにおいて、取得した音声のパターンモデルと他の複数話者のパターンモデルとの数学的距離を算出してステップS1306に移行する。
ステップS1308では、第2の情報表示部10gにおいて、上記検出結果に係る情報である検出結果情報を表示してステップS1310に移行する。
ステップS1310では、第2のデータ制御部10cによって、第2のデータ通信部10aを介して、上記検出結果情報を対象の情報処理端末9に送信してステップS1312に移行する。
ステップS1314に移行した場合は、類似性評価部10fにおいて、対象話者のパターンモデルと選択された話者のパターンモデルとに基づき、両者の類似性を評価してステップS1316に移行する。ここで、類似性の評価後に、当該評価結果に基づき矯正情報生成部10hにおいて、対象話者の音声と特定話者の音声との類似性を高めるための矯正情報を生成する。
ステップS1318では、第2のデータ制御部10cによって、第2のデータ通信部10aを介して、上記評価結果情報を対象の情報処理端末9に送信してステップS1300に移行する。
図59に示すように、まずステップS1400に移行し、位置算出部10dにおいて数学的距離の算出が完了したか否かを判定し、完了したと判定された場合(Yes)はステップS1402に移行し、そうでない場合(No)は完了するまで待機する。
ステップS1404では、上記2次元射影化処理により2次元の情報となった数学的距離に基づき、各パターンモデルの座標情報を平面上の点として表示して処理を終了する。
また、データ処理装置10は、上記指定された特定話者の情報を取得し、類似性評価部10fによって、前記特定話者の音声と対象話者の音声との類似性を評価し、第2の情報表示部10gによって、当該評価結果情報を表示することが可能である。
また、情報処理端末9は、データ処理装置10から上記した評価結果情報を取得し、第1の情報表示部9dにより、前記評価結果情報を表示することが可能である。
Claims (75)
- 複数対象に係る複数の所定データを、複数の特定条件に基づき、複数のグループに分類するデータ分類手段と、
前記データ分類手段によって分類された前記所定データに基づき、当該所定データの各グループ毎に4次元以上の高次元の要素を有する複数のパターンモデルを生成するパターンモデル生成手段と、
前記パターンモデル生成手段によって各グループ毎に生成されたパターンモデルの各パターンモデル相互間の数学的距離を算出する数学的距離算出手段と、
前記数学的距離算出手段によって算出された前記数学的距離に基づき、前記各パターンモデル相互間の距離関係を保持しながら、前記複数のパターンモデルをこれより低次元の同数のパターンモデル対応低次元ベクトルへと変換するパターンモデル変換手段と、
前記複数のパターンモデル対応低次元ベクトルを、低次元の要素の値に基づき、前記距離関係を保持した状態で、前記パターンモデル対応低次元ベクトルと同じ次元の低次元空間上の座標点として表示するパターンモデル対応低次元ベクトル表示手段と、を備えることを特徴とするデータ処理装置。 - 前記複数対象に係る複数の所定データは、音声データ、生活周囲音データ、鳴声データ、画像データ、赤外線データ及び加速度データのいずれか1つであることを特徴とする請求の範囲第1項記載のデータ処理装置。
- 前記複数対象に係る複数の所定データは、複数話者の発声した複数の音声のデータであり、
前記複数の特定条件は、少なくとも、話者の種類、発話語彙、発話様式及び発話環境を含むことを特徴とする請求の範囲第1項記載のデータ処理装置。 - 前記データ分類手段は、前記複数の特定条件をそれぞれ任意に組み合わせた各組毎に前記グループを形成することを特徴とする請求の範囲第1項又は請求の範囲第2項記載のデータ処理装置。
- 前記パターンモデルは、HMM(Hidden Markov Model)によって生成されることを特徴とする請求の範囲第1項乃至請求の範囲第3項のいずれか1項に記載のデータ処理装置。
- 前記数学的距離算出手段は、前記HMMによって生成された、前記パターンモデルの正規分布の平均ベクトルに基づくユークリッド距離、前記パターンモデルの正規分布の標準偏差により正規化された当該パターンモデルの正規分布の平均ベクトルに基づくユークリッド距離、及び、前記パターンモデルの正規分布に基づくバタチャリア距離のいずれか1つを用いて前記数学的距離を算出することを特徴とする請求の範囲第5項記載のデータ処理装置。
- 前記パターンモデル変換手段は、Sammon法を用いて、前記パターンモデルを前記パターンモデル対応低次元ベクトルへと変換することを特徴とする請求の範囲第1項乃至請求の範囲第6項のいずれか1項に記載のデータ処理装置。
- 前記パターンモデル対応低次元ベクトル表示手段によって前記低次元空間上に表示される前記複数のパターンモデル対応低次元ベクトルの座標点を、前記低次元空間上において複数の領域に自動的に区分する領域区分手段を備えることを特徴とする請求の範囲第1項乃至請求の範囲第7項のいずれか1項に記載のデータ処理装置。
- 前記領域区分手段は、前記複数のパターンモデル対応低次元ベクトルを、当該全パターンモデル対応低次元ベクトルの座標点の重心を中心とし且つ前記重心と当該重心から最も離れた位置のパターンモデル対応低次元ベクトルの座標点との距離を半径とした1つの外円と、前記重心を中心とし且つ前記外円よりも小さな半径のn個の内円(nは1以上の整数)と、により区分し、更に、前記外円及び内円からなる複数の同心円同士の各外周間に形成される環状の領域を、半径方向に伸びる線によって複数に区分することを特徴とする請求の範囲第8項記載のデータ処理装置。
- 前記領域区分手段によって自動区分された区分内容を変更する区分内容変更手段を備えることを特徴とする請求の範囲第8項又は請求の範囲第9項記載のデータ処理装置。
- 前記領域区分手段によって区分された各領域毎に複数の前記パターンモデル対応低次元ベクトルを選択可能な領域選択手段と、当該領域選択手段によって選択された領域内にある前記複数のパターンモデル対応低次元ベクトルにそれぞれ対応する前記パターンモデルに係る、前記所定データに基づき、前記パターンモデルを生成する領域パターンモデル生成手段と、を備えることを特徴とする請求の範囲第8項乃至請求の範囲第10項のいずれか1項に記載のデータ処理装置。
- 請求の範囲第1項記載のデータ処理装置を制御するためのコンピュータが実行可能なプログラムであって、
複数対象に係る複数の所定データを、複数の特定条件に基づき、複数のグループに分類するデータ分類ステップと、
前記データ分類ステップにおいて分類された前記所定データに基づき、当該所定データの各グループ毎に4次元以上の高次元の要素を有する複数のパターンモデルを生成するパターンモデル生成ステップと、
前記パターンモデル生成ステップにおいて各グループ毎に生成されたパターンモデルの各パターンモデル相互間の数学的距離を算出する数学的距離算出ステップと、
前記数学的距離算出ステップにおいて算出された前記数学的距離に基づき、前記各パターンモデル相互間の距離関係を保持しながら、前記複数のパターンモデルをこれより低次元の同数のパターンモデル対応低次元ベクトルへと変換するパターンモデル変換ステップと、
前記複数のパターンモデル対応低次元ベクトルを、低次元の要素の値に基づき、前記距離関係を保持した状態で、前記パターンモデル対応低次元ベクトルと同じ次元の低次元空間上の座標点として表示するパターンモデル対応低次元ベクトル表示ステップと、を備えることを特徴とするデータ処理装置制御プログラム。 - 前記パターンモデル対応低次元ベクトル表示ステップにおいて低次元空間上に表示される前記複数のパターンモデル対応低次元ベクトルを、前記低次元空間上において複数の領域に自動的に区分する領域区分ステップと、
前記領域区分ステップによって自動区分された区分内容を変更する区分内容変更ステップと、
前記領域区分ステップによって区分された各領域毎に複数の前記パターンモデル対応低次元ベクトルを選択する領域選択ステップと、
前記領域選択ステップによって選択された領域内の前記パターンモデル対応低次元ベクトルに対応する前記パターンモデルに係る、前記所定データに基づき、選択領域に対応した前記パターンモデルを生成する領域パターンモデル生成ステップと、を備えることを特徴とする請求の範囲第12項記載のデータ処理装置制御プログラム。 - 請求の範囲第1項乃至請求の範囲第7項のいずれか1項に記載のデータ処理装置によって表示された前記低次元空間上の座標点を、前記低次元空間上において複数の領域に自動的に区分する領域区分手段と、
前記区分された領域内に含まれる前記パターンモデル対応低次元ベクトルの座標点に対応する所定データに基づき、各領域毎のパターンモデルを生成する領域パターンモデル生成手段と、
新規対象に係る所定データを取得する所定データ取得手段と、
前記取得した所定データに対する前記区分された各領域に対応した領域パターンモデルの尤度を算出し、当該算出した尤度に基づき前記新規対象の所定データの認識に適した認識性能の領域パターンモデルを探索する領域パターンモデル探索手段と、を備えることを特徴とするパターンモデル探索装置。 - 請求の範囲第14項記載のパターンモデル探索装置を制御するためのコンピュータが実行可能なプログラムであって、
請求の範囲第1項乃至請求の範囲第7項のいずれか1項に記載の音声データ処理装置によって表示された前記低次元空間上の座標点を、前記低次元空間上において複数の領域に自動的に区分する領域区分ステップと、
前記区分された領域内に含まれる前記パターンモデル対応低次元ベクトルの座標点に対応する音声データに基づき、各領域毎のパターンモデルを生成する領域パターンモデル生成ステップと、
新規対象に係る所定データを取得する所定データ取得ステップと、
前記取得した所定データに対する前記区分された各領域に対応した領域パターンモデルの尤度を算出し、当該算出した尤度に基づき前記新規対象の所定データの認識に適した認識性能の領域パターンモデルを探索する領域パターンモデル探索ステップと、を備えることを特徴とするパターンモデル探索装置制御プログラム。 - 複数対象に係る複数の所定データを、複数の特定条件に基づき、複数のグループに分類するデータ分類手段と、
前記データ分類手段によって分類された前記所定データに基づき、当該所定データの各グループ毎に4次元以上の高次元の要素を有する複数のパターンモデルを生成するパターンモデル生成手段と、
前記パターンモデル生成手段によって各グループ毎に生成されたパターンモデルの各パターンモデル相互間の数学的距離を算出する数学的距離算出手段と、
前記数学的距離算出手段によって算出された前記数学的距離に基づき、前記各パターンモデル相互間の距離関係を保持しながら、前記複数のパターンモデルをこれより低次元の同数のパターンモデル対応低次元ベクトルへと変換するパターンモデル変換手段と、
前記複数のパターンモデル対応低次元ベクトルを、低次元の要素の値に基づき、前記距離関係を保持した状態で、前記パターンモデル対応低次元ベクトルと同じ次元の低次元空間上の座標点として表示するパターンモデル対応低次元ベクトル表示手段と、を備え、
前記数学的距離算出手段は、前記数学的距離の算出において、前記複数対象に係る複数の所定データにおける各パターン単位の出現頻度を用いることを特徴とするデータ処理装置。 - 前記パターン単位の出現頻度は、前記複数の所定データに対する前記パターンモデルを用いたパターン認識における前記複数対象に係る複数の所定データのうち、認識性能が所定の閾値より低いパターン単位の出現頻度であることを特徴とする請求の範囲第16項記載のデータ処理装置。
- 複数対象に係る複数の所定データを、複数の特定条件に基づき、複数のグループに分類するデータ分類手段と、
前記データ分類手段によって分類された前記所定データに基づき、当該所定データの各グループ毎に4次元以上の高次元の要素を有する複数のパターンモデルを生成するパターンモデル生成手段と、
前記パターンモデル生成手段によって各グループ毎に生成されたパターンモデルの各パターンモデル相互間の数学的距離を算出する数学的距離算出手段と、
前記数学的距離算出手段によって算出された前記数学的距離に基づき、前記各パターンモデル相互間の距離関係を保持しながら、前記複数のパターンモデルをこれより低次元の同数のパターンモデル対応低次元ベクトルへと変換するパターンモデル変換手段と、
前記複数のパターンモデル対応低次元ベクトルを、低次元の要素の値に基づき、前記距離関係を保持した状態で、前記パターンモデル対応低次元ベクトルと同じ次元の低次元空間上の座標点として表示するパターンモデル対応低次元ベクトル表示手段と、
前記パターンモデル対応低次元ベクトル表示手段によって前記低次元空間上に表示される前記複数のパターンモデル対応低次元ベクトルの座標点を、前記低次元空間上において複数の領域に自動的に区分する領域区分手段と、
前記区分された領域内に含まれる前記パターンモデル対応低次元ベクトルの座標点に対応する所定データに基づき、各領域毎の領域パターンモデルを生成する領域パターンモデル生成手段と、
新規対象に係る所定データを取得する所定データ取得手段と、
前記取得した所定データに対する前記区分された各領域に対応した領域パターンモデルの尤度を算出し、当該算出した尤度に基づき、前記領域パターンモデル生成手段によって生成された領域パターンモデルの中から前記新規対象の所定データの認識に適した認識性能の領域パターンモデルを探索する領域パターンモデル探索手段と、を備えることを特徴とするデータ処理装置。 - 前記数学的距離算出手段は、前記数学的距離の算出において、前記複数対象に係る複数の所定データにおける各パターン単位の出現頻度を用いることを特徴とする請求の範囲第18項記載のデータ処理装置。
- 前記パターン単位の出現頻度は、前記複数対象に係る複数の所定データに対する前記パターンモデルを用いたパターン認識における前記複数対象に係る複数のパターン単位のうち、認識性能が所定の閾値より低いパターン単位の出現頻度であることを特徴とする請求の範囲第19項記載のデータ処理装置。
- 前記領域区分手段は、前記複数のパターンモデル対応低次元ベクトルを、当該全パターンモデル対応低次元ベクトルの座標点の重心を中心とし且つ前記重心と当該重心から最も離れた位置のパターンモデル対応低次元ベクトルの座標点との距離を半径とした1つの外円と、前記重心を中心とし且つ前記外円よりも小さな半径のn個の内円(nは1以上の整数)と、により区分し、更に、前記外円及び内円からなる複数の同心円同士の各外周間に形成される環状の領域を、半径方向に伸びる線によって複数に区分することを特徴とする請求の範囲第18乃至請求の範囲第20項のいずれか1項に記載のデータ処理装置。
- 前記領域区分手段は、最内円から外円方向に向かう程、前記各環状の領域に含まれるパターンモデル対応低次元ベクトルを細かく区分することを特徴とする請求の範囲第21項記載のデータ処理装置。
- 前記領域区分手段は、区分結果の各領域において、当該各領域に含まれるパターンモデル対応低次元ベクトルとこれと隣り合う領域に含まれるパターンモデル対応低次元ベクトルとの一部が重複するように領域を区分することを特徴とする請求の範囲第21項又は請求の範囲第22項記載のデータ処理装置。
- 前記領域パターンモデル探索手段は、前記区分結果の最内円から外円方向に向かって順に、前記取得した所定データに対する前記区分された領域に対応した領域パターンモデルの尤度を算出し、当該算出した尤度に基づき、前記領域パターンモデル生成手段によって生成された領域パターンモデルの中から前記新規対象の所定データの認識に適した認識性能の領域パターンモデルを探索することを特徴とする請求の範囲第21項乃至請求の範囲第23項のいずれか1項に記載のデータ処理装置。
- 前記領域パターンモデル探索手段は、前記取得した所定データに対する、最内円の領域に対応した領域パターンモデルの尤度を算出し、次に、最内円に隣接する環状の領域における各区分領域に対応した領域パターンモデルの尤度を算出し、当該算出した尤度のうち最も高い尤度の領域パターンモデルに対応する領域に隣接した外円方向の領域に対応した領域パターンモデルの尤度を算出し、以降は、外円方向に向かって順に、一つ内側の環状の領域において算出された尤度の最も高い領域パターンモデルの対応した領域に隣接する外円方向の領域に対応した領域パターンモデルの尤度を算出することを特徴とする請求の範囲第24項に記載のデータ処理装置。
- 前記領域パターンモデル探索手段は、前記取得した所定データに対する、最内円の領域に対応した領域パターンモデルの尤度を算出し、次に、最内円に隣接する環状の領域における各区分領域に対応した領域パターンモデルの尤度を算出し、当該算出した尤度のうち上位m個の尤度に対応する領域パターンモデル(mは2以上の整数)にそれぞれ対応する領域に隣接した外円方向の区分領域に対応した領域パターンモデルの尤度を算出し、以降は、外円方向に向かって順に、一つ内側の環状の領域において算出された尤度の最も高い領域パターンモデルの対応した領域に隣接する外円方向の領域に対応した領域パターンモデルの尤度を算出することを特徴とする請求の範囲第24項に記載のデータ処理装置。
- 前記複数対象に係る複数の所定データは、複数話者の発声した複数の音声のデータであり、
前記複数の特定条件は、少なくとも、話者の種類、発話語彙、発話様式及び発話環境を含むことを特徴とする請求の範囲第18項乃至請求の範囲第26項のいずれか1項に記載のデータ処理装置。 - 前記データ分類手段は、前記複数の特定条件をそれぞれ任意に組み合わせた各組毎に前記グループを形成することを特徴とする請求の範囲第18項乃至請求の範囲第27項のいずれか1項に記載のデータ処理装置。
- 前記パターンモデルは、HMM(Hidden Markov Model)によって生成されることを特徴とする請求の範囲第18項乃至請求の範囲第28項のいずれか1項に記載のデータ処理装置。
- 前記数学的距離算出手段は、前記HMMによって生成された、前記パターンモデルの正規分布の平均ベクトルに基づくユークリッド距離、前記パターンモデルの正規分布の標準偏差により正規化された当該パターンモデルの正規分布の平均ベクトルに基づくユークリッド距離、及び、前記パターンモデルの正規分布に基づくバタチャリア距離のいずれか1つを用いて前記数学的距離を算出することを特徴とする請求の範囲第29項記載のデータ処理装置。
- 前記パターンモデル変換手段は、Sammon法を用いて、前記パターンモデルを前記パターンモデル対応低次元ベクトルへと変換することを特徴とする請求の範囲第18項乃至請求の範囲第30項のいずれか1項に記載のデータ処理装置。
- 前記領域区分手段によって自動区分された区分内容を変更する区分内容変更手段を備えることを特徴とする請求の範囲第18項乃至請求の範囲第31項のいずれか記載のデータ処理装置。
- 前記領域パターンモデル探索手段によって探索された領域パターンモデルを新規対象の所定データに基づき、前記新規対象用に適応するパターンモデル適応手段を備えることを特徴とする請求の範囲第18項乃至請求の範囲第32項のいずれか1項に記載のデータ処理装置。
- 前記パターンモデル変換手段は、前記領域パターンモデル探索手段によって探索された領域パターンモデルに対応する領域内に含まれる前記複数のパターンモデル対応低次元ベクトルに対応する高次元パターンモデルを、前記パターンモデル対応低次元ベクトルに変換可能であり、
前記パターンモデル対応低次元ベクトル表示手段は、前記変換後のパターンモデル対応低次元ベクトルを、低次元の要素の値に基づき、前記距離関係を保持した状態で、前記パターンモデル対応低次元ベクトルと同じ次元の低次元空間上の座標点として表示可能であり、
前記領域区分手段は、前記低次元空間上に表示される前記複数のパターンモデル対応低次元ベクトルの座標点を、前記低次元空間上において複数の領域に自動的に区分可能であることを特徴とする請求の範囲第33項記載のデータ処理装置。 - 請求の範囲第16項記載のデータ処理装置を制御するためのコンピュータが実行可能なプログラムであって、
複数対象に係る複数の所定データを、複数の特定条件に基づき、複数のグループに分類するデータ分類ステップと、
前記データ分類ステップにおいて分類された前記所定データに基づき、当該所定データの各グループ毎に4次元以上の高次元の要素を有する複数のパターンモデルを生成するパターンモデル生成ステップと、
前記パターンモデル生成ステップにおいて各グループ毎に生成されたパターンモデルの各パターンモデル相互間の数学的距離を算出する数学的距離算出ステップと、
前記数学的距離算出ステップにおいて算出された前記数学的距離に基づき、前記各パターンモデル相互間の距離関係を保持しながら、前記複数のパターンモデルをこれより低次元の同数のパターンモデル対応低次元ベクトルへと変換するパターンモデル変換ステップと、
前記複数のパターンモデル対応低次元ベクトルを、低次元の要素の値に基づき、前記距離関係を保持した状態で、前記パターンモデル対応低次元ベクトルと同じ次元の低次元空間上の座標点として表示するパターンモデル対応低次元ベクトル表示ステップと、を備え、
前記数学的距離算出ステップにおいては、前記数学的距離の算出において、前記複数対象に係る複数の所定データにおける各パターン単位の出現頻度を用いることを特徴とするデータ処理装置制御プログラム。 - 請求の範囲第18項記載のデータ処理装置を制御するためのコンピュータが実行可能なプログラムであって、
複数対象に係る複数の所定データを、複数の特定条件に基づき、複数のグループに分類するデータ分類ステップと、
前記データ分類ステップにおいて分類された前記所定データに基づき、当該所定データの各グループ毎に4次元以上の高次元の要素を有する複数のパターンモデルを生成するパターンモデル生成ステップと、
前記パターンモデル生成ステップにおいて各グループ毎に生成されたパターンモデルの各パターンモデル相互間の数学的距離を算出する数学的距離算出ステップと、
前記数学的距離算出ステップにおいて算出された前記数学的距離に基づき、前記各パターンモデル相互間の距離関係を保持しながら、前記複数のパターンモデルをこれより低次元の同数のパターンモデル対応低次元ベクトルへと変換するパターンモデル変換ステップと、
前記複数のパターンモデル対応低次元ベクトルを、低次元の要素の値に基づき、前記距離関係を保持した状態で、前記パターンモデル対応低次元ベクトルと同じ次元の低次元空間上の座標点として表示するパターンモデル対応低次元ベクトル表示ステップと、
前記パターンモデル対応低次元ベクトル表示ステップにおいて前記低次元空間上に表示される前記複数のパターンモデル対応低次元ベクトルの座標点を、前記低次元空間上において複数の領域に自動的に区分する領域区分ステップと、
前記区分された領域内に含まれる前記パターンモデル対応低次元ベクトルの座標点に対応する所定データに基づき、各領域毎のパターンモデルを生成する領域パターンモデル生成ステップと、
新規対象に係る所定データを取得する所定データ取得ステップと、
前記取得した所定データに対する前記区分された各領域に対応した前記領域パターンモデルの尤度を算出し、当該算出した尤度に基づき前記新規対象の所定データの認識に適した認識性能の領域パターンモデルを探索する領域パターンモデル探索ステップと、を備えることを特徴とするデータ処理装置制御プログラム。 - システム利用者の管理下にある情報処理端末と、
請求の範囲第18項乃至請求の範囲第34項のいずれか1項に記載のデータ処理装置と、を備え、
前記情報処理端末及び前記データ処理装置を互いにデータ通信可能に接続し、
前記データ処理装置において、前記複数対象に係る複数の所定データは、複数話者の発声した複数の音声のデータであり、
前記情報処理端末は、
前記システム利用者の発声した音声のデータを取得し、当該取得した音声データを前記データ処理装置に送信する音声データ送信手段と、
前記データ処理装置から前記システム利用者の音声データをパターン認識するのに適した前記特定パターンモデルを取得する特定パターンモデル取得手段と、を備え、
前記データ処理装置は、
前記所定データ取得手段によって前記情報処理端末からの前記音声データを取得し、更に、当該取得した音声データに基づき前記システム利用者用の前記特定パターンモデルを生成するようになっており、
前記生成した特定パターンモデルを前記情報処理端末に送信する特定パターンモデル送信手段を更に備えることを特徴とする特定パターンモデル提供システム。 - 複数話者の音声データから生成された複数のパターンモデルによって構成された音響空間を記憶する音響空間記憶手段と、
対象話者の音声データを取得する音声データ取得手段と、
前記音声データ取得手段によって取得された前記対象話者の音声データと前記音響空間記憶手段が記憶する音響空間内の前記複数のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データの位置を算出する位置算出手段と、
前記位置算出手段によって算出された前記位置に基づき、前記対象話者の音声データの価値を評価する音声データ評価手段と、
前記音声データ評価手段の評価結果を表示する評価結果表示手段と、
前記算出された位置に基づき、前記音響空間内における、前記音声データとその周辺のパターンモデルとの位置関係を示す情報を表示する位置関係情報表示手段と、を備えることを特徴とするデータ処理装置。 - 前記音声データ評価手段は、前記位置算出手段によって算出された前記対象話者の音声データの位置から所定距離の範囲内に存在する前記パターンモデルの数に基づき、前記音声データの価値を評価することを特徴とする請求の範囲第38項記載のデータ処理装置。
- 前記所定距離は、段階的に設定されており、
前記音声データ評価手段は、各段階毎に設定された各距離範囲内における前記パターンモデルの数に基づき、前記音声データの価値を評価することを特徴とする請求の範囲第39項記載のデータ処理装置。 - 前記音声データ評価手段は、前記位置算出手段によって算出された前記位置に基づき、前記複数のパターンモデルのうち、前記対象話者の音声データの特徴と類似した特徴を有するパターンモデルを、前記対象話者のパターンモデルとして前記評価に用いることを特徴とする請求の範囲第38項乃至請求の範囲第40項のいずれか1項に記載のデータ処理装置。
- 前記音声データ評価手段は、前記複数のパターンモデルのうち、前記対象話者の音声データの特徴と類似した特徴を有する上位いくつかのパターンモデルを、前記対象話者のパターンモデルとして前記評価に用いることを特徴とする請求の範囲第41項記載のデータ処理装置。
- 前記位置算出手段は、前記音声データ取得手段によって取得された音声データを高次元の特徴量データに変換し、当該特徴量データと前記複数話者の複数のパターンモデルとに基づき、前記特徴量データと各パターンモデルとの尤度を算出し、当該算出された尤度に基づき前記複数話者の複数のパターンモデルの中から特定のパターンモデルを選択し、当該選択された特定のパターンモデルと他のパターンモデルとの相互間の数学的距離を算出し、当該算出された数学的距離に基づき、前記音響空間内における、前記取得された音声データの位置を算出することを特徴とする請求の範囲第41項又は請求の範囲第42項記載のデータ処理装置。
- 前記位置算出手段は、前記音声データ取得手段によって取得された音声データを高次元の特徴量データに変換し、当該特徴量データに基づき対象話者用のパターンモデルを生成し、当該生成されたパターンモデルと前記複数話者の複数のパターンモデルとの相互間の数学的距離を算出し、当該算出された数学的距離に基づき、前記音響空間内における、前記取得された音声データの位置を算出することを特徴とする請求の範囲第38項乃至請求の範囲第40項のいずれか1項に記載のデータ処理装置。
- 前記パターンモデルは、4次元以上の高次元の要素から構成されており、
前記位置関係情報表示手段は、前記対象話者の音声データに対応するパターンモデルを含む前記音響空間内の複数のパターンモデルを、これらの距離関係を維持した状態で、これより低次元のパターンモデルに変換し、当該変換後のパターンモデルを低次元空間上の座標点として表示することを特徴とする請求の範囲第43項又は請求の範囲第44項記載のデータ処理装置。 - 前記パターンモデルをHMM(Hidden Markov Model)により構成したことを特徴とする請求の範囲第38項乃至請求の範囲第45項のいずれか1項に記載のデータ処理装置。
- 前記音声データ評価手段は、前記対象話者の音声データにおける音素毎の価値を評価するようになっており、
前記評価結果表示手段は、前記対象話者の音声データの音素毎の評価結果を表示することを特徴とする請求の範囲第38項乃至請求の範囲第46項のいずれか1項に記載のデータ処理装置。 - 前記評価結果表示手段は、前記音声データ評価手段によって前記対象話者の音声データの価値が低いと評価された場合に、その音声データに対する補正情報を表示することを特徴とする請求の範囲第38項乃至請求の範囲第47項のいずれか1項に記載のデータ処理装置。
- 前記対象話者との間で前記音声データの提供可否に関する交渉を行うための交渉手段と、
前記交渉手段によって交渉が成立した前記音声データを記憶する音声データ記憶手段と、を備えることを特徴とする請求の範囲第38項乃至請求の範囲第48項のいずれか1項に記載のデータ処理装置。 - 対象話者の管理下にある情報処理端末と、
請求の範囲第38項乃至請求の範囲第49項のいずれか1項に記載のデータ処理装置と、を備え、
前記情報処理端末と前記データ処理装置とを互いにデータ通信可能に接続し、
前記情報処理端末は、前記対象話者の音声データを取得し、当該取得した音声データを前記データ処理装置に送信する音声データ送信手段と、前記データ処理装置から取得した、前記対象話者の音声データの評価結果に係る情報を表示する評価情報表示手段と、を備え、
前記データ処理装置は、前記評価結果に係る情報を前記情報処理端末に送信する評価情報送信手段を備えることを特徴とするデータ処理システム。 - 複数話者の音声データから生成された複数のパターンモデルによって構成された音響空間を用意し、
対象話者の音声データを取得し、
前記取得された前記対象話者の音声データと前記音響空間内の前記複数のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データの位置を算出し、
前記算出された前記位置に基づき、前記対象話者の音声データの価値を評価し、
当該評価結果を表示することを特徴とするデータ処理方法。 - 請求の範囲第38項記載のデータ処理装置を制御するためのコンピュータが実行可能なプログラムであって、
複数話者の音声データから生成された複数のパターンモデルによって構成された音響空間を記憶する音響空間記憶ステップと、
対象話者の音声データを取得する音声データ取得ステップと、
前記音声データ取得ステップにおいて取得された前記対象話者の音声データと、前記音響空間記憶ステップにおいて記憶された音響空間内の前記複数のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データの位置を算出する位置算出ステップと、
前記位置算出ステップにおいて算出された前記位置に基づき、前記対象話者の音声データの価値を評価する音声データ評価ステップと、
前記音声データ評価ステップによる評価結果を表示する評価結果表示ステップと、を備えることを特徴とするデータ処理装置制御プログラム。 - 請求の範囲第50項記載のデータ処理システムに適用可能な前記データ処理装置であって、
複数話者の音声データから生成された複数のパターンモデルによって構成された音響空間を記憶する音響空間記憶手段と、
対象話者の音声データを取得する音声データ取得手段と、
前記音声データ取得手段によって取得された前記対象話者の音声データと前記音響空間記憶手段の記憶する音響空間内の前記複数のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データの位置を算出する位置算出手段と、
前記位置算出手段によって算出された前記位置に基づき、前記対象話者の音声データの価値を評価する音声データ評価手段と、
前記音声データ評価手段の評価結果を表示する評価結果表示手段と、
前記算出された位置に基づき、前記音響空間内における、前記音声データとその周辺のパターンモデルとの位置関係を示す情報を表示する位置関係情報表示手段と、
前記評価結果に係る情報を前記情報処理端末に送信する評価情報送信手段と、を備えることを特徴とするデータ処理装置。 - 請求の範囲第50項記載のデータ処理システムに適用可能な前記情報処理端末であって、
前記対象話者の音声データを取得し、当該取得した音声データを前記データ処理装置に送信する音声データ送信手段と、
前記データ処理装置から取得した、前記対象話者の音声データの評価結果に係る情報を表示する評価情報表示手段と、を備えることを特徴とする情報処理端末。 - 請求の範囲第53項記載のデータ処理装置を制御するためのコンピュータが実行可能なプログラムであって、
前記データ処理装置は、複数話者の音声データから生成された複数のパターンモデルによって構成された音響空間を備えており、
対象話者の音声データを取得する音声データ取得ステップと、
前記音声データ取得ステップにおいて取得された前記対象話者の音声データと前記音響空間内の前記複数のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データの位置を算出する位置算出ステップと、
前記位置算出ステップにおいて算出された前記位置に基づき、前記対象話者の音声データの価値を評価する音声データ評価ステップと、
前記音声データ評価ステップによる評価結果を表示する評価結果表示ステップと、
前記算出された位置に基づき、前記音響空間内における、前記音声データとその周辺のパターンモデルとの位置関係を示す情報を表示する位置関係情報表示ステップと、
前記評価結果に係る情報を前記情報処理端末に送信する評価情報送信ステップと、を備えることを特徴とするデータ処理装置制御プログラム。 - 請求の範囲第54項記載の情報処理端末を制御するためのコンピュータが実行可能なプログラムであって、
前記対象話者の音声データを取得し、当該取得した音声データを前記データ処理装置に送信する音声データ送信ステップと、
前記データ処理装置から取得した、前記対象話者の音声データの評価結果に係る情報を表示する評価情報表示ステップと、を備えることを特徴とする情報処理端末制御プログラム。 - 複数話者の音声データから生成された複数のパターンモデルによって構成された音響空間を記憶する音響空間記憶手段と、
対象話者の音声データを取得する音声データ取得手段と、
前記対象話者の音声データと前記音響空間内の前記複数のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データの位置を算出する位置算出手段と、
前記位置と前記複数のパターンモデルとに基づき、前記複数話者の中から前記対象話者の音声と類似した音声を有する類似話者を検出する類似話者検出手段と、
前記位置と前記類似話者のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データと前記類似話者のパターンモデルとの位置関係を示す情報を表示する位置関係情報表示手段と、を備えることを特徴とするデータ処理装置。 - 前記複数話者の中から特定話者を指定する特定話者指定手段と、
前記位置と前記音響空間内における前記特定話者のパターンモデルとに基づき、前記特定話者の音声と前記対象話者の音声との類似性を評価する類似性評価手段と、
前記類似性評価手段の評価結果を表示する評価結果表示手段と、を備え、
前記位置関係情報表示手段は、前記位置と前記特定話者のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データと前記特定話者のパターンモデルとの位置関係を示す情報を表示するようになっていることを特徴とする請求の範囲第57項記載のデータ処理装置。 - 複数話者の音声データから生成された複数のパターンモデルによって構成された音響空間を記憶する音響空間記憶手段と、
前記複数話者の中から特定話者を指定する特定話者指定手段と、
対象話者の音声データを取得する音声データ取得手段と、
前記対象話者の音声データと前記複数のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データの位置を算出する位置算出手段と、
前記位置と前記特定話者のパターンモデルとに基づき、前記特定話者の音声と前記対象話者の音声との類似性を評価する類似性評価手段と、
前記類似性評価手段の評価結果を表示する評価結果表示手段と、
前記位置と前記特定話者のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データと前記特定話者のパターンモデルとの位置関係を示す情報を表示する位置関係情報表示手段と、を備えることを特徴とするデータ処理装置。 - 前記類似性評価手段の評価結果に基づき、前記対象話者の音声と前記特定話者の音声との類似性を高めるための前記対象話者の音声に対する矯正内容を示す矯正情報を生成する矯正情報生成手段と、
前記矯正情報を表示する矯正情報表示手段と、を備えることを特徴とする請求の範囲第58項又は請求の範囲第59項記載のデータ処理装置。 - 前記類似話者検出手段は、前記位置に基づき、前記複数のパターンモデルのうち、前記対象話者の音声データの特徴と類似した特徴を有するパターンモデルを、前記対象話者のパターンモデルとして用い、
前記類似性評価手段は、前記位置に基づき、前記複数のパターンモデルのうち、前記対象話者の音声データの特徴と類似した特徴を有するパターンモデルを、前記対象話者のパターンモデルとして用いることを特徴とする請求の範囲第59項記載のデータ処理装置。 - 前記類似話者検出手段は、前記位置に基づき、前記複数のパターンモデルのうち、前記対象話者の音声データの特徴と類似した特徴を有する上位いくつかのパターンモデルを、前記対象話者のパターンモデルとして用い、
前記類似性評価手段は、前記位置に基づき、前記複数のパターンモデルのうち、前記対象話者の音声データの特徴と類似した特徴を有する上位いくつかのパターンモデルを、前記対象話者のパターンモデルとして用いることを特徴とする請求の範囲第59項記載のデータ処理装置。 - 前記位置算出手段は、前記音声データ取得手段によって取得された音声データを高次元の特徴量データに変換し、当該特徴量データと前記複数話者の複数のパターンモデルとに基づき、前記特徴量データと各パターンモデルとの尤度を算出し、当該算出された尤度に基づき前記複数話者の複数のパターンモデルの中から特定のパターンモデルを選択し、当該選択された特定のパターンモデルと他のパターンモデルとの相互間の数学的距離を算出し、当該算出された数学的距離に基づき、前記音響空間内における、前記取得された音声データの位置を算出することを特徴とする請求の範囲第61項又は至請求の範囲第62項記載のデータ処理装置。
- 前記位置算出手段は、前記音声データ取得手段によって取得された音声データを高次元の特徴量データに変換し、当該特徴量データに基づき対象話者用のパターンモデルを生成し、当該生成されたパターンモデルと前記複数話者の複数のパターンモデルとの相互間の数学的距離を算出し、当該算出された数学的距離に基づき、前記音響空間内における、前記取得された音声データの位置を算出することを特徴とする請求の範囲第57項乃至請求の範囲第60項のいずれか1項に記載のデータ処理装置。
- 前記パターンモデルは、4次元以上の高次元の要素から構成されており、
前記位置関係情報表示手段は、前記対象話者の音声データに対応するパターンモデルを含む前記音響空間内の複数のパターンモデルを、これらの距離関係を維持した状態で、これより低次元のパターンモデルに変換し、当該変換後のパターンモデルを低次元空間上の座標点として表示することを特徴とする請求の範囲第63項又は請求の範囲第64項記載のデータ処理装置。 - 前記類似性評価手段は、前記対象話者の音声データにおける音素毎の類似性を評価するようになっていることを特徴とする請求の範囲第58項乃至請求の範囲第65項のいずれか1項に記載のデータ処理装置。
- 前記音響空間は、複数種類の発話様式によりそれぞれ発声された前記複数話者の音声データより生成された複数のパターンモデルから構成されており、
前記類似性評価手段は、前記発話様式の種類毎に、前記類似性の評価を行うようになっていることを特徴とする請求の範囲第58項乃至請求の範囲第66項のいずれか1項に記載のデータ処理装置。 - 前記位置関係表示手段は、前記複数のパターンモデルにそれぞれ対応した前記発話様式に基づき、前記低次元空間の座標軸を設定するようになっていることを特徴とする請求の範囲第67項記載のデータ処理装置。
- 前記パターンモデルをHMM(Hidden Markov Model)により構成したことを特徴とする請求の範囲第57項乃至請求の範囲第68項のいずれか1項に記載のデータ処理装置。
- 対象話者の管理下にある情報処理端末と、
請求の範囲第57項乃至請求の範囲第69項のいずれか1項に記載のデータ処理装置と、を備え、
前記情報処理端末と前記データ処理装置とを互いにデータ通信可能に接続し、
前記情報処理端末は、前記対象話者の音声データを取得し、当該取得した音声データを前記データ処理装置に送信する音声データ送信手段と、前記データ処理装置から取得した前記音声データの処理結果に係る情報を表示する情報表示手段と、を備え、
前記データ処理装置は、前記音声データの処理結果に係る情報を前記情報処理端末に送信する情報送信手段を備えることを特徴とするデータ処理システム。 - 複数話者の音声データから生成された複数のパターンモデルによって構成された音響空間を用意し、
対象話者の音声データを取得し、
前記対象話者の音声データと前記音響空間内の前記複数のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データの位置を算出し、
前記位置と前記複数のパターンモデルとに基づき、前記複数話者の中から前記対象話者の音声と類似した音声を有する類似話者を検出し、
前記位置と前記類似話者のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データと前記類似話者のパターンモデルとの位置関係を示す情報を表示することを特徴とするデータ処理方法。 - 前記複数話者の中から特定話者を指定し、
前記位置と前記音響空間内における前記特定話者のパターンモデルとに基づき、前記特定話者の音声と前記対象話者の音声との類似性を評価し、
前記評価結果を表示することを特徴とする請求の範囲第71項記載のデータ処理方法。 - 複数話者の音声データから生成された複数のパターンモデルによって構成された音響空間を用意し、
前記複数話者の中から特定話者を指定し、
対象話者の音声データを取得し、
前記対象話者の音声データと前記複数のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データの位置を算出し、
前記位置と前記特定話者のパターンモデルとに基づき、前記特定話者の音声と前記対象話者の音声との類似性を評価し、
前記評価結果を表示し、
前記位置と前記特定話者のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データと前記特定話者のパターンモデルとの位置関係を示す情報を表示することを特徴とするデータ処理装置。 - 複数話者の音声データから生成された複数のパターンモデルによって構成された音響空間を記憶する音響空間記憶ステップと、
対象話者の音声データを取得する音声データ取得ステップと、
前記対象話者の音声データと前記音響空間内の前記複数のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データの位置を算出する位置算出ステップと、
前記位置と前記複数のパターンモデルとに基づき、前記複数話者の中から前記対象話者の音声と類似した音声を有する類似話者を検出する類似話者検出ステップと、
前記位置と前記類似話者のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データと前記類似話者のパターンモデルとの位置関係を示す情報を表示する位置関係情報表示ステップと、
特定話者を指定する特定話者指定ステップと、
前記位置と前記音響空間内における前記特定話者のパターンモデルとに基づき、前記特定話者の音声と前記対象話者の音声との類似性を評価する類似性評価ステップと、
前記類似性評価ステップによる評価結果を表示する評価結果表示ステップと、を備え、
前記位置関係情報表示ステップにおいては、前記位置と前記特定話者のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データと前記特定話者のパターンモデルとの位置関係を示す情報を表示するようになっていることを特徴とするデータ処理装置制御プログラム。 - 複数話者の音声データから生成された複数のパターンモデルによって構成された音響空間を記憶する音響空間記憶ステップと、
前記複数話者の中から特定話者を指定する特定話者指定ステップと、
対象話者の音声データを取得する音声データ取得ステップと、
前記対象話者の音声データと前記複数のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データの位置を算出する位置算出ステップと、
前記位置と前記特定話者のパターンモデルとに基づき、前記特定話者の音声と前記対象話者の音声との類似性を評価する類似性評価ステップと、
前記類似性評価ステップによる評価結果を表示する評価結果表示ステップと、
前記位置と前記特定話者のパターンモデルとに基づき、前記音響空間内における、前記対象話者の音声データと前記特定話者のパターンモデルとの位置関係を示す情報を表示する位置関係情報表示ステップと、を備えることを特徴とするデータ処理装置制御プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009142417A JP5155943B2 (ja) | 2003-10-03 | 2009-06-15 | データ処理装置、データ処理装置制御プログラム及びデータ処理方法 |
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003345984 | 2003-10-03 | ||
JP2003345984 | 2003-10-03 | ||
JP2003370980 | 2003-10-30 | ||
JP2003370980 | 2003-10-30 | ||
JP2003428015 | 2003-12-24 | ||
JP2003428015 | 2003-12-24 | ||
JP2009142417A JP5155943B2 (ja) | 2003-10-03 | 2009-06-15 | データ処理装置、データ処理装置制御プログラム及びデータ処理方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005514358A Division JP4413867B2 (ja) | 2003-10-03 | 2004-07-22 | データ処理装置及びデータ処理装置制御プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009205177A true JP2009205177A (ja) | 2009-09-10 |
JP5155943B2 JP5155943B2 (ja) | 2013-03-06 |
Family
ID=34396848
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005514358A Expired - Fee Related JP4413867B2 (ja) | 2003-10-03 | 2004-07-22 | データ処理装置及びデータ処理装置制御プログラム |
JP2009142418A Expired - Fee Related JP5155944B2 (ja) | 2003-10-03 | 2009-06-15 | データ処理装置、データ処理装置制御プログラム、データ処理方法及び特定パターンモデル提供システム |
JP2009142417A Expired - Fee Related JP5155943B2 (ja) | 2003-10-03 | 2009-06-15 | データ処理装置、データ処理装置制御プログラム及びデータ処理方法 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005514358A Expired - Fee Related JP4413867B2 (ja) | 2003-10-03 | 2004-07-22 | データ処理装置及びデータ処理装置制御プログラム |
JP2009142418A Expired - Fee Related JP5155944B2 (ja) | 2003-10-03 | 2009-06-15 | データ処理装置、データ処理装置制御プログラム、データ処理方法及び特定パターンモデル提供システム |
Country Status (7)
Country | Link |
---|---|
US (2) | US7548651B2 (ja) |
EP (2) | EP1669979B1 (ja) |
JP (3) | JP4413867B2 (ja) |
KR (1) | KR100814143B1 (ja) |
CN (2) | CN1867966B (ja) |
DE (2) | DE602004020527D1 (ja) |
WO (1) | WO2005034086A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102509548A (zh) * | 2011-10-09 | 2012-06-20 | 清华大学 | 一种基于多距离声传感器的音频索引方法 |
JP2015176295A (ja) * | 2014-03-14 | 2015-10-05 | Kddi株式会社 | データ交換装置およびデータ価値評価装置 |
JP2017092028A (ja) * | 2015-11-02 | 2017-05-25 | 三星電子株式会社Samsung Electronics Co.,Ltd. | バッテリ管理方法及びバッテリ管理装置 |
Families Citing this family (193)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006087854A1 (ja) * | 2004-11-25 | 2006-08-24 | Sharp Kabushiki Kaisha | 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム |
EP1852847A4 (en) * | 2005-01-17 | 2008-05-21 | Nec Corp | VOICE RECOGNITION SYSTEM, VOICE RECOGNITION METHOD, AND VOICE RECOGNITION PROGRAM |
US10417700B2 (en) * | 2005-03-03 | 2019-09-17 | Refinitiv Us Organization Llc | System and method for graphical display of multivariate data |
US7805300B2 (en) * | 2005-03-21 | 2010-09-28 | At&T Intellectual Property Ii, L.P. | Apparatus and method for analysis of language model changes |
US7693713B2 (en) * | 2005-06-17 | 2010-04-06 | Microsoft Corporation | Speech models generated using competitive training, asymmetric training, and data boosting |
GB0514553D0 (en) * | 2005-07-15 | 2005-08-24 | Nonlinear Dynamics Ltd | A method of analysing a representation of a separation pattern |
GB0514555D0 (en) * | 2005-07-15 | 2005-08-24 | Nonlinear Dynamics Ltd | A method of analysing separation patterns |
JP4763387B2 (ja) * | 2005-09-01 | 2011-08-31 | 旭化成株式会社 | パターンモデル生成装置、パターンモデル評価装置およびパターン認識装置 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US20070076001A1 (en) * | 2005-09-30 | 2007-04-05 | Brand Matthew E | Method for selecting a low dimensional model from a set of low dimensional models representing high dimensional data based on the high dimensional data |
JP4825014B2 (ja) * | 2006-01-24 | 2011-11-30 | 旭化成株式会社 | 評価用データ生成装置、認識性能分布情報生成装置およびシステム |
US8036896B2 (en) * | 2006-04-18 | 2011-10-11 | Nuance Communications, Inc. | System, server and method for distributed literacy and language skill instruction |
KR100901640B1 (ko) * | 2006-05-10 | 2009-06-09 | 주식회사 케이티 | 음성 인식을 위한 음성 특징 벡터 양자화에 있어 비균일표본을 기반으로 하는 학습 데이터 선정 방법 |
JP4728972B2 (ja) * | 2007-01-17 | 2011-07-20 | 株式会社東芝 | インデキシング装置、方法及びプログラム |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
JP4296231B2 (ja) * | 2007-06-06 | 2009-07-15 | パナソニック株式会社 | 声質編集装置および声質編集方法 |
JP5060224B2 (ja) * | 2007-09-12 | 2012-10-31 | 株式会社東芝 | 信号処理装置及びその方法 |
JP5626558B2 (ja) * | 2007-10-31 | 2014-11-19 | 日本電気株式会社 | 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム |
CN101809621B (zh) * | 2007-12-14 | 2012-07-25 | 松下电器产业株式会社 | 图像判定装置 |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
WO2009090741A1 (ja) * | 2008-01-17 | 2009-07-23 | Pioneer Corporation | スピーカ特性補正装置、スピーカ特性補正方法、及びスピーカ特性補正プログラム |
US20090198602A1 (en) * | 2008-01-31 | 2009-08-06 | Intuit Inc. | Ranking commercial offers based on user financial data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8195460B2 (en) * | 2008-06-17 | 2012-06-05 | Voicesense Ltd. | Speaker characterization through speech analysis |
US20090319916A1 (en) * | 2008-06-24 | 2009-12-24 | Microsoft Corporation | Techniques to auto-attend multimedia conference events |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
EP2182512A1 (en) * | 2008-10-29 | 2010-05-05 | BRITISH TELECOMMUNICATIONS public limited company | Speaker verification |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US8386251B2 (en) * | 2009-06-08 | 2013-02-26 | Microsoft Corporation | Progressive application of knowledge sources in multistage speech recognition |
JP5611546B2 (ja) * | 2009-06-30 | 2014-10-22 | 株式会社東芝 | 自動診断支援装置、超音波診断装置及び自動診断支援プログラム |
US9031243B2 (en) * | 2009-09-28 | 2015-05-12 | iZotope, Inc. | Automatic labeling and control of audio algorithms by audio recognition |
WO2011064938A1 (ja) * | 2009-11-25 | 2011-06-03 | 日本電気株式会社 | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8490056B2 (en) * | 2010-04-28 | 2013-07-16 | International Business Machines Corporation | Automatic identification of subroutines from test scripts |
US8949125B1 (en) * | 2010-06-16 | 2015-02-03 | Google Inc. | Annotating maps with user-contributed pronunciations |
US8812310B2 (en) * | 2010-08-22 | 2014-08-19 | King Saud University | Environment recognition of audio input |
CN101923854B (zh) * | 2010-08-31 | 2012-03-28 | 中国科学院计算技术研究所 | 一种交互式语音识别系统和方法 |
DE102010047444B4 (de) * | 2010-10-04 | 2014-04-03 | Audi Ag | Verfahren zur Visualisierung von Maßabweichungen zwischen einer Ist- und Soll-Geometrie eines Bauteils |
CN101950564A (zh) * | 2010-10-13 | 2011-01-19 | 镇江华扬信息科技有限公司 | 一种远程数字化语音采集分析识别系统 |
KR101791907B1 (ko) * | 2011-01-04 | 2017-11-02 | 삼성전자주식회사 | 위치 기반의 음향 처리 장치 및 방법 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US20130090926A1 (en) * | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
KR101992676B1 (ko) * | 2012-07-26 | 2019-06-25 | 삼성전자주식회사 | 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치 |
CN113470641B (zh) | 2013-02-07 | 2023-12-15 | 苹果公司 | 数字助理的语音触发器 |
KR102029055B1 (ko) * | 2013-02-08 | 2019-10-07 | 삼성전자주식회사 | 고차원 데이터의 시각화 방법 및 장치 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
KR102158210B1 (ko) * | 2013-09-04 | 2020-09-22 | 엘지전자 주식회사 | 음성 인식 장치 및 그 방법 |
GB2517952B (en) * | 2013-09-05 | 2017-05-31 | Barclays Bank Plc | Biometric verification using predicted signatures |
JP5777178B2 (ja) * | 2013-11-27 | 2015-09-09 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
JP6241612B2 (ja) * | 2014-02-26 | 2017-12-06 | トヨタ自動車株式会社 | シリンダブロックの加工方法及び装置 |
JP6413263B2 (ja) * | 2014-03-06 | 2018-10-31 | 株式会社デンソー | 報知装置 |
CN103905650A (zh) * | 2014-04-28 | 2014-07-02 | 深圳市中兴移动通信有限公司 | 移动终端及基于语音识别调节通话音量的方法 |
US9633649B2 (en) | 2014-05-02 | 2017-04-25 | At&T Intellectual Property I, L.P. | System and method for creating voice profiles for specific demographics |
KR102225404B1 (ko) * | 2014-05-23 | 2021-03-09 | 삼성전자주식회사 | 디바이스 정보를 이용하는 음성인식 방법 및 장치 |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9959863B2 (en) * | 2014-09-08 | 2018-05-01 | Qualcomm Incorporated | Keyword detection using speaker-independent keyword models for user-designated keywords |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
KR20160058470A (ko) * | 2014-11-17 | 2016-05-25 | 삼성전자주식회사 | 음성 합성 장치 및 그 제어 방법 |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721559B2 (en) * | 2015-04-17 | 2017-08-01 | International Business Machines Corporation | Data augmentation method based on stochastic feature mapping for automatic speech recognition |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) * | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
CN106887230A (zh) * | 2015-12-16 | 2017-06-23 | 芋头科技(杭州)有限公司 | 一种基于特征空间的声纹识别方法 |
CN108369451B (zh) * | 2015-12-18 | 2021-10-29 | 索尼公司 | 信息处理装置、信息处理方法及计算机可读存储介质 |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
CN106971729A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种基于声音特征范围提高声纹识别速度的方法及系统 |
CN106971737A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种基于多人说话的声纹识别方法 |
CN106971730A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种基于信道补偿的声纹识别方法 |
CN105654954A (zh) * | 2016-04-06 | 2016-06-08 | 普强信息技术(北京)有限公司 | 一种云端语音识别系统及方法 |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10635800B2 (en) * | 2016-06-07 | 2020-04-28 | Vocalzoom Systems Ltd. | System, device, and method of voice-based user authentication utilizing a challenge |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10565513B2 (en) | 2016-09-19 | 2020-02-18 | Applied Materials, Inc. | Time-series fault detection, fault classification, and transition analysis using a K-nearest-neighbor and logistic regression approach |
JP6904361B2 (ja) * | 2016-09-23 | 2021-07-14 | ソニーグループ株式会社 | 情報処理装置、及び情報処理方法 |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
KR101926837B1 (ko) | 2017-02-20 | 2018-12-07 | 아주대학교산학협력단 | 데이터 빈도수 기반의 단일 클래스 모델 생성 방법 및 장치 |
JP7070546B2 (ja) * | 2017-03-24 | 2022-05-18 | ソニーグループ株式会社 | 情報処理装置および情報処理方法 |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US20190019500A1 (en) * | 2017-07-13 | 2019-01-17 | Electronics And Telecommunications Research Institute | Apparatus for deep learning based text-to-speech synthesizing by using multi-speaker data and method for the same |
US10229092B2 (en) | 2017-08-14 | 2019-03-12 | City University Of Hong Kong | Systems and methods for robust low-rank matrix approximation |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10984795B2 (en) * | 2018-04-12 | 2021-04-20 | Samsung Electronics Co., Ltd. | Electronic apparatus and operation method thereof |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
KR102043342B1 (ko) * | 2018-05-14 | 2019-11-12 | 고려대학교 세종산학협력단 | 소리감지 센서를 이용한 반려견 소리 분류 시스템 및 방법 |
KR102562227B1 (ko) * | 2018-06-12 | 2023-08-02 | 현대자동차주식회사 | 대화 시스템, 그를 가지는 차량 및 차량의 제어 방법 |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
KR20190136578A (ko) | 2018-05-31 | 2019-12-10 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10210860B1 (en) | 2018-07-27 | 2019-02-19 | Deepgram, Inc. | Augmented generalized deep learning with special vocabulary |
KR102225984B1 (ko) * | 2018-09-03 | 2021-03-10 | 엘지전자 주식회사 | 음성 인식 서비스를 제공하는 서버 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US20210232567A1 (en) * | 2018-10-10 | 2021-07-29 | Toor Inc. | Analyzer, analysis system, and analysis method |
US10720149B2 (en) * | 2018-10-23 | 2020-07-21 | Capital One Services, Llc | Dynamic vocabulary customization in automated voice systems |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
CN109348359B (zh) * | 2018-10-29 | 2020-11-10 | 歌尔科技有限公司 | 一种音响设备及其音效调整方法、装置、设备、介质 |
KR102236458B1 (ko) * | 2018-11-05 | 2021-04-06 | 고려대학교 세종산학협력단 | 보간법과 lstm-fcn 기법을 적용한 분리불안 증세의 반려견 소리 분류를 위한 방법 및 그 시스템 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US10785171B2 (en) | 2019-02-07 | 2020-09-22 | Capital One Services, Llc | Chat bot utilizing metaphors to both relay and obtain information |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11849908B2 (en) * | 2019-06-05 | 2023-12-26 | Lg Electronics Inc. | Method of providing intelligent voice recognition model for voice recognition device |
US11545132B2 (en) | 2019-08-28 | 2023-01-03 | International Business Machines Corporation | Speech characterization using a synthesized reference audio signal |
US11900246B2 (en) | 2019-09-02 | 2024-02-13 | Samsung Electronics Co., Ltd. | Method and apparatus for recognizing user based on on-device training |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11183193B1 (en) | 2020-05-11 | 2021-11-23 | Apple Inc. | Digital assistant hardware abstraction |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
DE102021209106A1 (de) | 2021-08-19 | 2023-02-23 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren und Vorrichtung zur Durchführung eines Ladevorgangs einer Gerätebatterie |
JPWO2023068101A1 (ja) * | 2021-10-20 | 2023-04-27 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3163185B2 (ja) * | 1992-11-27 | 2001-05-08 | 株式会社東芝 | パターン認識装置およびパターン認識方法 |
KR100247969B1 (ko) * | 1997-07-15 | 2000-03-15 | 윤종용 | 대용량패턴정합장치및방법 |
US6990238B1 (en) * | 1999-09-30 | 2006-01-24 | Battelle Memorial Institute | Data processing, analysis, and visualization system for use with disparate data types |
DE10047724A1 (de) * | 2000-09-27 | 2002-04-11 | Philips Corp Intellectual Pty | Verfahren zur Ermittlung eines Eigenraumes zur Darstellung einer Mehrzahl von Trainingssprechern |
JP2002162989A (ja) * | 2000-11-28 | 2002-06-07 | Ricoh Co Ltd | 音響モデル配信システムおよび音響モデル配信方法 |
WO2003096324A1 (fr) * | 2002-05-10 | 2003-11-20 | Asahi Kasei Kabushiki Kaisha | Dispositif de reconnaissance vocale |
JP2004199377A (ja) * | 2002-12-18 | 2004-07-15 | Toshiba Corp | 遠隔監視診断システム |
EP1639579A1 (fr) * | 2003-07-01 | 2006-03-29 | France Telecom | Procede et systeme d'analyse de signaux vocaux pour la representation compacte de locuteurs |
KR20050063299A (ko) * | 2003-12-22 | 2005-06-28 | 한국전자통신연구원 | 최대 사후 고유공간에 근거한 화자적응 방법 |
JP4769536B2 (ja) * | 2005-10-07 | 2011-09-07 | Juki株式会社 | ボタン付けミシン |
JP4890964B2 (ja) * | 2006-06-23 | 2012-03-07 | ゼブラ株式会社 | リフィール構成部材の接続構造及び該接続構造の製造方法 |
-
2004
- 2004-07-22 CN CN2004800287171A patent/CN1867966B/zh not_active Expired - Fee Related
- 2004-07-22 CN CN2009101663947A patent/CN101661754B/zh not_active Expired - Fee Related
- 2004-07-22 EP EP04747802A patent/EP1669979B1/en not_active Expired - Lifetime
- 2004-07-22 DE DE602004020527T patent/DE602004020527D1/de not_active Expired - Lifetime
- 2004-07-22 WO PCT/JP2004/010390 patent/WO2005034086A1/ja active IP Right Grant
- 2004-07-22 DE DE602004011545T patent/DE602004011545T2/de not_active Expired - Lifetime
- 2004-07-22 KR KR1020067005832A patent/KR100814143B1/ko not_active IP Right Cessation
- 2004-07-22 US US10/896,317 patent/US7548651B2/en not_active Expired - Fee Related
- 2004-07-22 JP JP2005514358A patent/JP4413867B2/ja not_active Expired - Fee Related
- 2004-07-22 EP EP07021419A patent/EP1881443B1/en not_active Expired - Lifetime
-
2008
- 2008-12-30 US US12/318,494 patent/US8606580B2/en not_active Expired - Fee Related
-
2009
- 2009-06-15 JP JP2009142418A patent/JP5155944B2/ja not_active Expired - Fee Related
- 2009-06-15 JP JP2009142417A patent/JP5155943B2/ja not_active Expired - Fee Related
Non-Patent Citations (7)
Title |
---|
CSNG199900220003; 岡登洋平 他: '"クラスタリングによるHMM間の距離尺度の検討"' 電子情報通信学会技術研究報告 Vol.94,No.90, 19940616, p.15-20 * |
CSNG200400501005; 末永高志 他: '"クラスタ構造に着目した特徴空間の可視化-クラスタ判別法-"' 電子情報通信学会論文誌D-II Vol.J85-D-II,No.5, 20020501, p.785-795 * |
CSNG200401890002; 磯健一 他: '"階層的 Eigen Voice 法による話者適応化"' 電子情報通信学会論文誌D-II Vol.J86-D-II,No.10, 20031001, p.1382-1390 * |
JPN6009016794; Arkadiusz Nagorski et al.: '"Optimal Selection of Speech Data for Automatic Speech Recognition Systems"' Proc. of ICSLP2002 , 20020916, p.2473-2476 * |
JPN6012000013; 末永高志 他: '"クラスタ構造に着目した特徴空間の可視化-クラスタ判別法-"' 電子情報通信学会論文誌D-II Vol.J85-D-II,No.5, 20020501, p.785-795 * |
JPN6012000014; 岡登洋平 他: '"クラスタリングによるHMM間の距離尺度の検討"' 電子情報通信学会技術研究報告 Vol.94,No.90, 19940616, p.15-20 * |
JPN6012000015; 磯健一 他: '"階層的 Eigen Voice 法による話者適応化"' 電子情報通信学会論文誌D-II Vol.J86-D-II,No.10, 20031001, p.1382-1390 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102509548A (zh) * | 2011-10-09 | 2012-06-20 | 清华大学 | 一种基于多距离声传感器的音频索引方法 |
CN102509548B (zh) * | 2011-10-09 | 2013-06-12 | 清华大学 | 一种基于多距离声传感器的音频索引方法 |
JP2015176295A (ja) * | 2014-03-14 | 2015-10-05 | Kddi株式会社 | データ交換装置およびデータ価値評価装置 |
JP2017092028A (ja) * | 2015-11-02 | 2017-05-25 | 三星電子株式会社Samsung Electronics Co.,Ltd. | バッテリ管理方法及びバッテリ管理装置 |
JP7046481B2 (ja) | 2015-11-02 | 2022-04-04 | 三星電子株式会社 | バッテリ管理方法及びバッテリ管理装置 |
Also Published As
Publication number | Publication date |
---|---|
EP1881443A3 (en) | 2008-02-27 |
JP5155943B2 (ja) | 2013-03-06 |
EP1669979A1 (en) | 2006-06-14 |
US8606580B2 (en) | 2013-12-10 |
DE602004011545D1 (de) | 2008-03-13 |
EP1881443A2 (en) | 2008-01-23 |
CN101661754B (zh) | 2012-07-11 |
EP1669979B1 (en) | 2008-01-23 |
DE602004020527D1 (de) | 2009-05-20 |
KR100814143B1 (ko) | 2008-03-14 |
DE602004011545T2 (de) | 2009-01-08 |
US20050075875A1 (en) | 2005-04-07 |
CN1867966A (zh) | 2006-11-22 |
WO2005034086A1 (ja) | 2005-04-14 |
JP2009205178A (ja) | 2009-09-10 |
JP4413867B2 (ja) | 2010-02-10 |
JPWO2005034086A1 (ja) | 2007-10-04 |
CN1867966B (zh) | 2012-05-30 |
US7548651B2 (en) | 2009-06-16 |
JP5155944B2 (ja) | 2013-03-06 |
US20090138263A1 (en) | 2009-05-28 |
EP1669979A4 (en) | 2006-12-27 |
CN101661754A (zh) | 2010-03-03 |
KR20060087585A (ko) | 2006-08-02 |
EP1881443B1 (en) | 2009-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5155944B2 (ja) | データ処理装置、データ処理装置制御プログラム、データ処理方法及び特定パターンモデル提供システム | |
CN108701453B (zh) | 模块化深度学习模型 | |
US11056096B2 (en) | Artificial intelligence (AI)-based voice sampling apparatus and method for providing speech style in heterogeneous label | |
US9412361B1 (en) | Configuring system operation using image data | |
US11705105B2 (en) | Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same | |
CN116547746A (zh) | 针对多个用户的对话管理 | |
US11393459B2 (en) | Method and apparatus for recognizing a voice | |
KR102281504B1 (ko) | 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 | |
KR102688236B1 (ko) | 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체 | |
CN113837299B (zh) | 基于人工智能的网络训练方法及装置、电子设备 | |
JP4763387B2 (ja) | パターンモデル生成装置、パターンモデル評価装置およびパターン認識装置 | |
KR102113879B1 (ko) | 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치 | |
JP4825014B2 (ja) | 評価用データ生成装置、認識性能分布情報生成装置およびシステム | |
KR102418232B1 (ko) | 보이스 유사도 평가 방법 및 그 장치 | |
KR102631143B1 (ko) | 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체 | |
Tanaka et al. | Pronunciation adaptive self speaking agent using wavegrad | |
KR102642617B1 (ko) | 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체 | |
KR102603282B1 (ko) | 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체 | |
KR20230067501A (ko) | 음성 합성 장치 및 그의 음성 합성 방법 | |
JP2002311988A (ja) | プログラム、記録媒体、情報処理方法、および情報処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090715 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120229 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120327 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120514 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121207 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151214 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5155943 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |