JP3702978B2 - 認識装置および認識方法、並びに学習装置および学習方法 - Google Patents
認識装置および認識方法、並びに学習装置および学習方法 Download PDFInfo
- Publication number
- JP3702978B2 JP3702978B2 JP34731296A JP34731296A JP3702978B2 JP 3702978 B2 JP3702978 B2 JP 3702978B2 JP 34731296 A JP34731296 A JP 34731296A JP 34731296 A JP34731296 A JP 34731296A JP 3702978 B2 JP3702978 B2 JP 3702978B2
- Authority
- JP
- Japan
- Prior art keywords
- class
- learning
- parameter
- parameters
- class classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 19
- 238000004458 analytical method Methods 0.000 claims description 34
- 230000010354 integration Effects 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 description 63
- 230000003044 adaptive effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000006978 adaptation Effects 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 3
- 230000005484 gravity Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Navigation (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、認識装置および認識方法、並びに学習装置および学習方法に関する。特に、例えば、音声や、物体などを、その音声データや画像データだけでなく、他のデータをも用いて認識することにより、その認識精度を向上させることができるようにする認識装置および認識方法、並びに学習装置および学習方法に関する。
【0002】
【従来の技術】
従来の、例えば、音声を認識する音声認識装置では、マイク(マイクロフォン)から出力される音声データを音響分析し、その分析結果を用いて、ユーザの発した音声を認識するようになされている。
【0003】
【発明が解決しようとする課題】
しかしながら、従来の音声認識装置では、マイクからの音声データの分析結果だけを用いて音声認識を行うようになされているため、その認識性能を向上させるのに、ある程度の限界があった。
【0004】
即ち、話者の発話の認識にあたっては、マイクからの音声データだけでなく、その相手の表情や口の動きなども重要な要素であると考えられ、従って、そのような種々の要素を考慮すべきである。
【0005】
また、音声認識装置は、防音室などのように、認識対象である音声だけがマイクに入力されるような環境で使用されることはほとんどなく、それ以外の音である様々な雑音のある環境下で使用されることが多い。即ち、最近では、音声認識装置を備えた、例えば、ナビゲーションシステムが実用化されつつあるが、この場合、音声認識装置には、認識すべき話者の音声の他、自動車に装備されたCD(Compact Disc)プレーヤが出力する音や、エンジン音、エアコンディショナの音、その他の雑音が入力される。そして、このような雑音が混ざった音声データから、その雑音だけを取り除くのは困難であるため、認識性能を向上させるには、認識対象の音声以外の音である雑音も加味する必要がある。
【0006】
さらに、従来の音声認識装置では、マイクから出力される音声データに対して、一定の音響分析処理を施して、その特徴パラメータを求め、その特徴パラメータのパラメータ空間における距離などに基づいて、音声が認識されるようになされている。しかしながら、認識にあたって重要な特徴パラメータは、音声認識装置が使用される環境によって変化すると考えられる。
【0007】
本発明は、このような状況に鑑みてなされたものであり、音声その他の認識を行う認識装置の認識性能を向上させることができるようにするものである。
【0008】
【課題を解決するための手段】
請求項1に記載の認識装置は、複数の異なる種類の入力データを分析し、その分析結果の少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うクラス分類手段と、複数の異なる種類の入力データの分析結果の少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段と、クラス分類手段が出力するクラスごとに、所定の標準のパラメータが登録されているテーブルを記憶している標準パラメータ記憶手段と、クラス分類手段が出力するクラスに対応するテーブルに登録された標準のパラメータと、統合パラメータとに基づいて、認識対象を認識する認識手段とを備え、標準パラメータ記憶手段に記憶されている所定の標準のパラメータは、認識対象に対応するパラメータであって、複数の異なる種類の学習用データの分析結果の少なくとも一部を統合した学習用統合パラメータをクラスごとに求める学習により得られたものであることを特徴とする。
請求項2に記載の認識装置は、複数の異なる種類の入力データからクラス分類用データを構成し、クラス分類用データを所定のクラスに分類し、その結果得られる第 1 のクラス分類結果を出力する第 1 のクラス分類手段と、入力データを、第1のクラス分類結果に応じて分析し、入力データの特徴パラメータを求める分析手段と、分析手段からの特徴パラメータの少なくとも一部に基づいて、入力データを所定のクラスに分類し、その結果得られる第2のクラス分類結果を出力する第2のクラス分類手段と、特徴パラメータの少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段と、第1のクラス分類手段により分類されたクラスごとであって、第2のクラス分類手段により分類されたクラスごとに、所定の標準のパラメータが登録されているテーブルを記憶する標準パラメータ記憶手段と、第1および第2のクラス分類手段により分類された両方のクラスに対応するテーブルに登録された標準のパラメータと、統合パラメータとに基づいて、認識対象を認識する認識手段とを備え、標準パラメータ記憶手段に記憶されている所定の標準のパラメータは、認識対象に対応するパラメータであって、第1のクラス分類手段によるクラスごとであって第 2 のクラス分類手段によるクラスごとに、複数の異なる種類の学習用データの特徴パラメータの少なくとも一部を統合した学習用統合パラメータを求める学習により得られたものであることを特徴とする。
【0009】
請求項4に記載の認識方法は、複数の異なる種類の入力データを分析し、その分析結果の少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うとともに、複数の異なる種類の入力データの分析結果の少なくとも一部を統合した統合パラメータを構成し、クラス分類の結果得られるクラスに対応し、認識対象に対応するパラメータであって、複数の異なる種類の学習用データの分析結果の少なくとも一部を統合した学習用統合パラメータをクラスごとに求める学習により得られた標準のパラメータが登録されたテーブルと、統合パラメータとに基づいて、認識対象を認識することを特徴とする。
【0010】
請求項5に記載の学習装置は、学習用の複数の異なる種類の入力データを分析し、その特徴パラメータを求める分析手段と、学習用の複数の異なる種類の入力データを、特徴パラメータの少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うクラス分類手段と、特徴パラメータの少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段と、統合パラメータを、クラス分類手段が出力するクラスごとに分類して記憶する記憶手段とを備えることを特徴とする。
請求項6に記載の学習装置は、学習用の複数の異なる種類の入力データからクラス分類用データを構成し、クラス分類用データを所定のクラスに分類し、その結果得られる第1のクラス分類結果を出力する第1のクラス分類手段と、学習用の複数の異なる種類の入力データを、第1のクラス分類結果に応じて分析し、特徴パラメータを求める分析手段と、分析手段からの特徴パラメータの少なくとも一部に基づいて、入力データを所定のクラスに分類し、その結果得られる第2のクラス分類結果を出力する第2のクラス分類手段と、特徴パラメータの少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段と、統合パラメータを、第1のクラス分類手段が出力するクラスごとであって、第2のクラス分類手段が出力するクラスごとに分類して記憶する記憶手段とを備えることを特徴とする。
【0011】
請求項7に記載の学習方法は、学習用の複数の異なる種類の入力データを分析し、その特徴パラメータを求め、学習用の複数の異なる種類の入力データを、特徴パラメータの少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うとともに、特徴パラメータの少なくとも一部を統合した統合パラメータを構成し、統合パラメータを、クラス分類の結果得られるクラスごとに分類して記憶することを特徴とする。
【0012】
請求項1に記載の認識装置においては、クラス分類手段は、複数の異なる種類の入力データを分析し、その分析結果の少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行い、統合パラメータ構成手段は、複数の異なる種類の入力データの分析結果の少なくとも一部を統合した統合パラメータを構成するようになされている。標準パラメータ記憶手段は、クラス分類手段が出力するクラスごとに、所定の標準のパラメータが登録されているテーブルを記憶しており、認識手段は、クラス分類手段が出力するクラスに対応するテーブルに登録された標準のパラメータと、統合パラメータとに基づいて、認識対象を認識するようになされている。ここで、標準パラメータ記憶手段に記憶されている所定の標準のパラメータは、認識対象に対応するパラメータであって、複数の異なる種類の学習用データの分析結果の少なくとも一部を統合した学習用統合パラメータをクラスごとに求める学習により得られたものであるようになされている。
請求項2に記載の認識装置においては、第 1 のクラス分類手段は、複数の異なる種類の入力データからクラス分類用データを構成し、クラス分類用データを所定のクラスに分類し、その結果得られる第 1 のクラス分類結果を出力し、分析手段は、入力データを、第1のクラス分類結果に応じて分析し、入力データの特徴パラメータを求め、第2のクラス分類手段は、分析手段からの特徴パラメータの少なくとも一部に基づいて、入力データを所定のクラスに分類し、その結果得られる第2のクラス分類結果を出力するようになされている。統合パラメータ構成手段は、特徴パラメータの少なくとも一部を統合した統合パラメータを構成し、標準パラメータ記憶手段は、第1のクラス分類手段により分類されたクラスごとであって、第2のクラス分類手段により分類されたクラスごとに、所定の標準のパラメータが登録されているテーブルを記憶し、認識手段は、第1および第2のクラス分類手段により分類された両方のクラスに対応するテーブルに登録された標準のパラメータと、統合パラメータとに基づいて、認識対象を認識するようになされている。ここで、標準パラメータ記憶手段に記憶されている所定の標準のパラメータは、認識対象に対応するパラメータであって、第1のクラス分類手段によるクラスごとであって第 2 のクラス分類手段によるクラスごとに、複数の異なる種類の学習用データの特徴パラメータの少なくとも一部を統合した学習用統合パラメータを求める学習により得られたものであるようになされている。
【0013】
請求項4に記載の認識方法においては、複数の異なる種類の入力データを分析し、その分析結果の少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うとともに、複数の異なる種類の入力データの分析結果の少なくとも一部を統合した統合パラメータを構成し、クラス分類の結果得られるクラスに対応し、認識対象に対応するパラメータであって、複数の異なる種類の学習用データの分析結果の少なくとも一部を統合した学習用統合パラメータをクラスごとに求める学習により得られた標準のパラメータが登録されたテーブルと、統合パラメータとに基づいて、認識対象を認識するようになされている。
【0014】
請求項5に記載の学習装置においては、分析手段は、学習用の複数の異なる種類の入力データを分析し、その特徴パラメータを求め、クラス分類手段は、学習用の複数の異なる種類の入力データを、特徴パラメータの少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行い、統合パラメータ構成手段は、特徴パラメータの少なくとも一部を統合した統合パラメータを構成するようになされている。記憶手段は、統合パラメータを、クラス分類手段が出力するクラスごとに分類するようになされている。
請求項6に記載の学習装置においては、第1のクラス分類手段は、学習用の複数の異なる種類の入力データからクラス分類用データを構成し、クラス分類用データを所定のクラスに分類し、その結果得られる第1のクラス分類結果を出力し、分析手段は、学習用の複数の異なる種類の入力データを、第1のクラス分類結果に応じて分析し、特徴パラメータを求め、第2のクラス分類手段は、分析手段からの特徴パラメータの少なくとも一部に基づいて、入力データを所定のクラスに分類し、その結果得られる第2のクラス分類結果を出力し、統合パラメータ構成手段は、特徴パラメータの少なくとも一部を統合した統合パラメータを構成し、記憶手段は、統合パラメータを、第1のクラス分類手段が出力するクラスごとであって、第2のクラス分類手段が出力するクラスごとに分類して記憶するようになされている。
【0015】
請求項7に記載の学習方法においては、学習用の複数の異なる種類の入力データを分析し、その特徴パラメータを求め、学習用の複数の異なる種類の入力データを、特徴パラメータの少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うとともに、特徴パラメータの少なくとも一部を統合した統合パラメータを構成し、統合パラメータを、クラス分類の結果得られるクラスごとに分類して記憶するようになされている。
【0016】
【発明の実施の形態】
以下に、本発明の実施の形態を説明するが、その前に、特許請求の範囲に記載の発明の各手段と以下の実施の形態との対応関係を明らかにするために、各手段の後の括弧内に、対応する実施の形態(但し、一例)を付加して、本発明の特徴を記述すると、次のようになる。
【0017】
即ち、請求項1に記載の認識装置は、所定の認識対象を、複数の異なる種類の入力データから認識する認識装置であって、複数の異なる種類の入力データを分析し、その分析結果の少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うクラス分類手段(例えば、図1に示すクラス分類部25や、図6、図8に示すクラス分類部52など)と、複数の異なる種類の入力データの分析結果の少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段(例えば、図2や図6、図8に示す統合パラメータ構成部26など)と、クラス分類手段が出力するクラスごとに、所定の標準のパラメータが登録されているテーブルを記憶している標準パラメータ記憶手段(例えば、図2に示す標準パラメータ記憶部28や、図6、図8に示す標準パラメータ記憶部281乃至28Mなど)と、クラス分類手段が出力するクラスに対応するテーブルに登録された標準のパラメータと、統合パラメータとに基づいて、認識対象を認識する認識手段(例えば、図2や図6、図8に示すマッチング部29など)とを備え、標準パラメータ記憶手段に記憶されている所定の標準のパラメータは、認識対象に対応するパラメータであって、複数の異なる種類の学習用データの分析結果の少なくとも一部を統合した学習用統合パラメータをクラスごとに求める学習により得られたものであることを特徴とする。
【0019】
請求項2に記載の認識装置は、所定の認識対象を、複数の異なる種類の入力データから認識する認識装置であって、複数の異なる種類の入力データからクラス分類用データを構成し、クラス分類用データを所定のクラスに分類し、その結果得られる第 1 のクラス分類結果を出力する第 1 のクラス分類手段(例えば、図6や図8に示すクラス分類用データ構成部51およびクラス分類部52など)と、入力データを、第1のクラス結果に応じて分析し、入力データの特徴パラメータを求める分析手段(例えば、図6や図8に示す前処理部20乃至23など)と、分析手段からの特徴パラメータの少なくとも一部に基づいて、入力データを所定のクラスに分類し、その結果得られる第2のクラス分類結果を出力する第2のクラス分類手段(例えば、図6や図8に示すクラス分類部25など)と、特徴パラメータの少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段(例えば、図6や図8に示す統合パラメータ構成部26など)と、第1のクラス分類手段により分類されたクラスごとであって、第2のクラス分類手段により分類されたクラスごとに、所定の標準のパラメータが登録されているテーブルを記憶する標準パラメータ記憶手段(例えば、図6や図8に示す標準パラメータ記憶部28 1 乃至28 M など)と、第1および第2のクラス分類手段により分類された両方のクラスに対応するテーブルに登録された標準のパラメータと、統合パラメータとに基づいて、認識対象を認識する認識手段(例えば、図6や図8に示すマッチング部29など)とを備え、標準パラメータ記憶手段に記憶されている所定の標準のパラメータは、認識対象に対応するパラメータであって、第1のクラス分類手段によるクラスごとであって第 2 のクラス分類手段によるクラスごとに、複数の異なる種類の学習用データの特徴パラメータの少なくとも一部を統合した学習用統合パラメータを求める学習により得られたものであることを特徴とする。
【0020】
請求項5に記載の学習装置は、所定の認識対象を、複数種類の入力データから認識するのに用いる標準のパラメータを求める学習装置であって、学習用の複数の異なる種類の入力データを分析し、その特徴パラメータを求める分析手段(例えば、図4に示す前処理部40乃至43など)と、学習用の複数の異なる種類の入力データを、特徴パラメータの少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うクラス分類手段(例えば、図4に示すクラス分類部45や、図7、図9に示すクラス分類部62など)と、特徴パラメータの少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段(例えば、図4や図7、図9に示す統合パラメータ構成部46など)と、統合パラメータを、クラス分類手段が出力するクラスごとに分類して記憶する記憶手段(例えば、図4に示すメモリ47や、図7、図9に示すメモリ471乃至47Mおよびセレクタ63など)とを備えることを特徴とする。
【0022】
請求項6に記載の額種装置は、所定の認識対象を、複数の異なる種類の入力データから認識するのに用いる標準のパラメータを求める学習装置であって、学習用の複数の異なる種類の入力データからクラス分類用データを構成し、クラス分類用データを所定のクラスに分類し、その結果得られる第1のクラス分類結果を出力する第1のクラス分類手段(例えば、図7や図9に示すクラス分類用データ構成部61およびクラス分類部62など)と、学習用の複数の異なる種類の入力データを、第1のクラス分類結果に応じて分析し、特徴パラメータを求める分析手段(例えば、図7や図9に示す前処理部40乃至43など)と、分析手段からの特徴パラメータの少なくとも一部に基づいて、入力データを所定のクラスに分類し、その結果得られる第2のクラス分類結果を出力する第2のクラス分類手段(例えば、図7や図9に示すクラス分類部45など)と、特徴パラメータの少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段(例えば、図7や図9に示す統合パラメータ構成部46など)と、統合パラメータを、第1のクラス分類手段が出力するクラスごとであって、第2のクラス分類手段が出力するクラスごとに分類して記憶する記憶手段(例えば、図7や図9に示すメモリ47 1 乃至47 M およびセレクタ63など)とを備えることを特徴とする。
【0023】
なお、勿論この記載は、各手段を上記したものに限定することを意味するものではない。
【0024】
図1は、本発明を適用したナビゲーションシステムの一実施の形態の構成例を示している。
【0025】
このナビゲーションシステムは、システム制御部1、位置測定装置2、データベース装置3、入力装置4、および出力装置5によって構成されており、自動車などに装備され、例えばボタンなどの操作による他、対話的に発せられる入力音声に対応して、装置の制御が行われるようになされている。なお、このナビゲーションシステムは、例えば携帯して用いることもできるようになされている。
【0026】
システム制御部1は、システムを構成する各ブロックとの間で情報の送受を行い、システム全体の動作を制御するようになされている。位置測定装置2は、GPS(Global Positioning System)衛星からの電波を受信したり、例えばジャイロスコープや車速センサなどの測定装置を用いて現在地を測定するようになされている。データベース装置3には、例えば複数のスケールの、電子化された地図情報、その他のナビゲーションに必要な情報が記録(記憶)されており、そこからは、システム制御部1からの指令に基づいて必要な情報が検索され、システム制御部1に送信されるようになされている。
【0027】
入力装置4には、ナビゲーションシステムに所定の処理を行わせるためのボタンやジョイスティック、音声を入力するためのマイク、ユーザを撮像するためのCCD(Charge Coupled Device)カメラ、さらには、自動車の振動を測定するための加速度センサや、湿度や温度を測定するためのセンサ、その他の各種のセンサなどが装備されている。入力装置4からは、ボタンやジョイスティックなどの操作に対応した信号がシステム制御部1に送信されるようになされている。さらに、入力装置4は、音声認識装置を有しており、入力された音声を音声認識し、その音声認識結果を、システム制御部1に送信するようにもなされている。
【0028】
出力装置5は、画像その他を表示するための、例えば液晶モニタやCRT(Cathod Ray Tube)、音声その他を出力するためのスピーカ、テキスト情報から合成音を生成する音声合成装置などを有しており、システム制御部1から送られてくる情報のうちの、例えば地図情報や現在位置情報などを表示したり、また音声情報を出力したりするようになされている。さらに、出力装置5は、システム制御部1からテキスト情報が送信されてきた場合には、そのテキスト情報に対応する音声を音声合成装置に音声合成させて出力するようにもなされている。
【0029】
以上のように構成されるナビゲーションシステムには、例えば、ユーザが目的地としての地名を発話すると、その音声は、入力装置4が内蔵する音声認識装置で音声認識され、その音声認識結果が、システム制御部1に供給される。システム制御部1は、目的地としての地名の音声認識結果を受信すると、位置測定装置2の出力から現在地を認識し、さらに、データベース装置3に記憶された地図情報を参照することで、現在地から目的地までのルートを求める。そして、システム制御部1は、そのルートを表した地図情報を、出力装置5に供給して表示させるとともに、そのルートを案内する合成音を出力装置5が内蔵する音声合成装置に生成させて出力させる。
【0030】
従って、この場合、ユーザは、容易に、目的地にたどりつくことができる。
【0031】
次に、図2は、図1の入力装置4が内蔵する音声認識装置の第1の実施の形態の構成例を示している。
【0032】
入力部10は、マイク11、CCDカメラ12、マイク13、センサ14、アンプ15、A/D変換器16、アンプ17、A/D変換器18、および19から構成され、そこからは、運転者であるユーザの音声を認識するために用いられる各種の入力データが出力される。
【0033】
即ち、マイク11は、例えば、指向性を有するもので、運転者であるユーザの方向に向けて設置されている。従って、マイク11には、主としてユーザの音声が入力される。マイク11に入力された音声は、そこで電気信号としての音声信号に変換され、アンプ15を介することにより増幅されて、A/D変換器18に供給される。A/D変換器18では、アンプ15を介して供給されるアナログ信号である音声信号が、所定のサンプリングクロックにしたがってサンプリングされ、さらに、所定の量子化ステップで量子化されることにより、ディジタル信号である音声データとされる。A/D変換器18が出力する音声データは、前処理部20に供給される。
【0034】
CCDカメラ12は、ユーザの口の部分を撮影するように設置されており、このCCDカメラ12で撮像されたユーザの口の部分は、電気信号としての画像信号とされ、A/D変換器16に供給される。A/D変換器16では、A/D変換器18における場合と同様に、アナログ信号である画像信号が、ディジタル信号である画像データとされ、前処理部21に供給される。
【0035】
マイク13は、例えば、無指向性のもので、主としてユーザの音声以外の音が入力される。即ち、例えば、エンジン音や、自動車に装備されたラジオ受信機やCDプレーヤなどから出力される音、エアコンディショナの音、さらに、窓が開いている場合には、外部の雑音などが入力される。マイク13に入力された音は、アンプ17またはA/D変換器19において、上述のアンプ15またはA/D変換器18における場合とそれぞれ同様に処理され、これにより音声データとされて、前処理部22に供給される。
【0036】
センサ14は、自動車の振動を測定するための加速度センサや、湿度や温度を測定するためのセンサなどで、その出力は、前処理部23に供給される。なお、加速度センサの出力からは、例えば、自動車が振動することにより生じる騒音の程度(大きさ)がわかる。また、湿度や温度を測定するためのセンサの出力からは、例えば、雨が降っているかどうかがわかり、さらに、雨が降っていれば、その雨の音の程度がわかる。
【0037】
前処理部20乃至23では、それぞれに供給されるデータが分析され、その特徴を表す特徴パラメータが求められる。
【0038】
即ち、前処理部20および22では、音声データから、例えば、そのゼロクロス数や、所定の周波数帯域ごとのパワー、線形予測係数、ケプストラム係数などが、所定の時間としての音声フレーム単位で求められ、特徴パラメータとして、クラス分類用データ構成部24および統合パラメータ構成部26に出力される。
【0039】
前処理部21では、ユーザの口の部分の画像データから、例えば、図3に示すように、ユーザの口の横の長さL1および縦の長さL2が求められ、その比L1/L2が、特徴パラメータとして、クラス分類用データ構成部24および統合パラメータ構成部26に出力される。あるいは、また、前処理部21では、ユーザの口の部分の画像データから動きベクトルや、エッジ、DCT(離散コサイン変換)係数などが求められ、特徴パラメータとして、クラス分類用データ構成部24および統合パラメータ構成部26に出力される。
【0040】
前処理部23では、センサ14の出力が分析されることにより、上述したように、例えば、自動車が振動することにより生じる騒音の程度(大きさ)を反映する特徴パラメータや、雨の音の程度を反映する特徴パラメータなどが求められ、やはり、クラス分類用データ構成部24および統合パラメータ構成部26に出力される。
【0041】
クラス分類用データ構成部24は、前処理部20乃至24が出力する特徴パラメータの少なくとも一部を、クラス分類に用いるクラス分類用データとして、クラス分類部25に出力する。クラス分類部25では、クラス分類用データ構成部24からのクラス分類用データを、その性質に応じて、所定のクラスに分類するクラス分類を行う。
【0042】
即ち、クラス分類部25は、クラス分類用データを構成する特徴パラメータの値のパターンにあらかじめ割り当てられた値を、そのクラス分類用データのクラスとして、適応判定部27に供給する。
【0043】
ここで、特徴パラメータを表すのに、例えば、Aビットが割り当てられている場合に、そのような特徴パラメータをB個集めてクラス分類用データを構成すると、そのようなクラス分類用データを構成する特徴パラメータの値のパターン数は、(2A)B通りとなる。従って、AまたはBが大きいと、クラス数が莫大な数となり、その後の処理の迅速化が困難となる。
【0044】
そこで、クラス分類を行う前の前処理として、クラス分類用データには、それを構成する特徴パラメータのビット数を低減するための処理である、例えばADRC(Adaptive Dynamic Range Coding)処理などが施される。
【0045】
即ち、ADRC処理では、まず、クラス分類用データを構成するB個の特徴パラメータから、その値の最大のもの(以下、適宜、最大特徴パラメータという)と最小のもの(以下、適宜、最小特徴パラメータという)とが検出される。そして、最大特徴パラメータの値MAXと最小特徴パラメータの値MINとの差分DR(=MAX−MIN)が演算され、このDRをクラス分類用データの局所的なダイナミックレンジとし、このダイナミックレンジDRに基づいて、クラス分類用データを構成する各特徴パラメータが、元の割当ビット数Aより少ないCビットに再量子化される。つまり、クラス分類用データを構成する各特徴パラメータから最小特徴パラメータの値MINが減算され、各減算値が、DR/2Cで除算される。
【0046】
その結果、クラス分類用データを構成する各特徴パラメータはCビットで表現されるようになる。従って、例えばC=1とした場合、B個の特徴パラメータののパターン数は、(21)B通りになり、ADRC処理を行わない場合に比較して、パターン数を非常に少ないものとすることができる。
【0047】
また、クラス分類用データを構成する特徴パラメータのパターン数を少なくする観点からは、クラス分類用データを構成する特徴パラメータの数Bは、あまり大きな値にしない方が望ましい。但し、特徴パラメータの数Bは、少なすぎても、適切なクラス分類が行われないおそれがある。従って、特徴パラメータの数Bは、これらをバランスさせて決めるのが望ましい。
【0048】
一方、統合パラメータ構成部26は、前処理部20乃至24が出力する特徴パラメータの少なくとも一部を統合して(集めて)統合パラメータとして、適応判定部27に出力する。
【0049】
ここで、統合パラメータは、クラス分類用データを構成する特徴パラメータと同一のものを統合して構成しても良いし、また、クラス分類用データを構成する特徴パラメータとは異なるものを統合して構成しても良い。
【0050】
適応判定部27は、標準パラメータ記憶部28およびマッチング部29から構成されており、クラス分類部25または統合パラメータ構成部26からクラスまたは統合パラメータをそれぞれ受信すると、まずクラス分類部25から受信したクラスに対応する標準パラメータが登録された標準パラメータテーブルを、標準パラメータ記憶部28から選択する。
【0051】
即ち、標準パラメータ記憶部28は、後述する学習装置(図4)による学習処理によって得られる、例えば音素に対応する標準パラメータが登録されている標準パラメータテーブルを、クラスごと分けて記憶しており、マッチング部29では、そのクラスごとの標準パラメータテーブルの中から、クラス分類部25が出力したクラスに対応するものが選択される。
【0052】
さらに、マッチング部29は、選択された標準パラメータテーブルに登録されている標準パラメータそれぞれと、統合パラメータ構成部26からの統合パラメータとの、例えば、ユークリッド距離を算出し、そのユークリッド距離を最も小さくする標準パラメータに対応する音素を、音声認識結果として出力する。
【0053】
従って、この音声認識装置によれば、主としてユーザの音声が入力されるマイク11から出力される音声データだけでなく、CCDカメラ12が出力する画像データから得られる、例えばユーザの口の状態や動き、マイク13が出力する音声データやセンサ14の出力から得られる、例えば雑音の種類や周波数帯域成分などをも用いて、ユーザの音声が認識されるので、その認識率を向上させることができる。
【0054】
また、クラスごとに、標準パラメータテーブルを用意し、入力部10が出力する複数種類のデータのクラスに対応する標準パターンテーブルを選択するようにしたので、入力部10が出力する複数種類のデータに基づいて、ユーザの音声を認識するのに最適な標準パターンテーブルを用いることができ、その結果、認識率をさらに向上させることが可能となる。
【0055】
次に、図4は、図2の標準パラメータ記憶部28に記憶させる、クラスごとの標準パラメータテーブルに登録する標準パラメータを求める学習処理を行う学習装置の構成例を示している。
【0056】
入力部30(マイク31、CCDカメラ32、マイク33、センサ34、アンプ35、A/D変換器36、アンプ37、A/D変換器38、および39)、前処理部40乃至43、クラス分類用データ構成部44、クラス分類部45、または統合パラメータ構成部46は、図2の音声認識装置における入力部10(マイク11、CCDカメラ12、マイク13、センサ14、アンプ15、A/D変換器16、アンプ17、A/D変換器18、および19)、前処理部20乃至23、クラス分類用データ構成部24、クラス分類部25、または統合パラメータ構成部26とそれぞれ同様に構成されている。メモリ47は、そのアドレス端子(AD)に、クラス分類部45が出力するクラスがアドレスとして与えられるようになされており、統合パラメータ構成部46が出力する統合パラメータを記憶するようになされている。
【0057】
以上のように構成される学習装置では、入力部30に学習を行うための学習データが入力される。即ち、マイク31には、例えば、ある話者が発話した音声が入力される。また、そのときの話者の口の部分が、CCDカメラ32で撮像される。さらに、マイク33には、例えば、各種の自動車のエンジン音や、CDプレーヤで再生された曲、雨の音、エアコンディショナの音、その他の雑音が入力される。センサ34に対しては、各種の振動や、また、マイク33に雨の音が入力されるときには、その雨が降っている状態における温度、湿度などが与えられる。
【0058】
入力部30に入力された学習データとしての各種のデータは、前処理部40乃至43、クラス分類用データ構成部44、クラス分類部45、または統合パラメータ構成部46において、図2の前処理部20乃至23、クラス分類用データ構成部24、クラス分類部25、または統合パラメータ構成部26における場合とそれぞれ同様に処理され、これにより、メモリ47には、クラス分類部45からクラスが供給されるとともに、統合パラメータ構成部46から統合パラメータが供給される。
【0059】
メモリ47は、クラス分類部45からのクラスに対応するアドレスに、統合パラメータ構成部46からの統合パラメータを、標準パラメータとして記憶する。
【0060】
以上の処理が、多くの話者が発話した各音素について、マイク33に入力する雑音、およびセンサ34への入力を様々なものに変えて行われる。
【0061】
その結果、メモリ47には、同一のクラスに属する統合パラメータが、各アドレスに分類されて記憶される。
【0062】
図2の標準パラメータ記憶部28には、メモリ47の各アドレスに記憶された統合パラメータ(の集合)が、標準パラメータとして、各クラスに対応する標準パラメータテーブルに登録されたものが記憶されている。
【0063】
この学習装置によれば、例えば、マイク33に雑音を入力しなかった場合と、入力した場合とでは、クラス分類部45において異なるクラスに分類され、その結果、雑音がある場合に最適な標準パラメータテーブルと、雑音がない場合に最適な標準パラメータテーブルとが作成されることになる。そして、図2の音声認識装置では、クラス分類部45の出力と同一のクラスがクラス分類部25から出力されるから、雑音がある場合には、その場合に最適な標準パラメータテーブルが、また、雑音がない場合にも、その場合に最適な標準パラメータテーブルが選択されることになる。
【0064】
なお、学習装置においては、標準パラメータは、上述のように、雑音がある場合とない場合とで異なるクラスに分類され、また、雑音の種類やレベル、さらには、話者が発話した音素の種類や、話者が男性であるか、あるいは女性であるかなどによっても異なるクラスに分類されることが予想されるが、標準パラメータが、どのように分類されるかは、特に問題とならない。これは、例えば、音声認識装置の入力部10への入力が、学習装置の入力部30と同一であれば、音声認識装置のクラス分類部25におけるクラス分類結果は、学習装置のクラス分類部45におけるクラス分類結果と同一になり、従って、音声認識装置では、入力部10への入力と同一の入力から得られた標準パラメータ、即ち、その入力に対して最適な標準パラメータを用いて音声認識が行われるからである。
【0065】
また、図4の学習装置において、メモリ47には、各クラスごとに、ある音素についての統合パラメータが複数記憶される場合がある。即ち、学習においては、1の話者に、様々な雑音環境下で、同一の音素を発話してもらい、さらに、このような発話を、多数の話者に行ってもらうため、あるクラスのある音素について、パラメータ空間のある程度の範囲に散らばる複数の統合パラメータが得られる場合がある。
【0066】
具体的には、例えば、図5(左側)は、簡単のために、統合パラメータが3つの成分P1,P2,P3を有するものとして、3次元のパラメータ空間を表している
が、このようなパラメータ空間に、あるクラスに対して得られた音素「ア」や「イ」についての統合パラメータをプロットすると、その点は、ある程度の範囲に散らばる。
【0067】
そこで、このような、ある程度の範囲に散らばるすべての点を、その音素についての標準パラメータとしても良いが、その他、例えば、図5(右側)に示すように、その範囲の重心などを求め、これを、その音素の標準パラメータとすることなども可能である。
【0068】
次に、図6は、図1の入力装置4が内蔵する音声認識装置の第2の実施の形態の構成例を示している。なお、図中、図2における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、この音声認識装置は、標準パラメータ記憶部28に代えて、標準パラメータ記憶部281乃至28Mが設けられ、さらに、クラス分類用データ構成部51およびクラス分類部52が新たに設けられている他は、図2の音声認識装置と基本的に同様に構成されている。
【0069】
クラス分類用データ構成部51は、入力部10が出力する複数種類のデータから、クラス分類用データを構成し、クラス分類部52に出力する。クラス分類部52は、クラス分類用データ構成部51が出力するクラス分類用データをクラス分類し、そのクラス分類結果としてのクラスを、前処理部20乃至23に供給する。
【0070】
この場合、前処理部20乃至23では、クラス分類部52が出力するクラスに対応した前処理が行われる。即ち、例えば、マイク11に入力された音声が母音などの有声音である場合は、ゼロクロス数などよりも、線形予測係数やケプストラム係数などの方が、また、マイク11に入力された音声が無声音である場合は、線形予測係数やケプストラム係数などよりも、ゼロクロス数や周波数帯域ごとのパワー、無音の期間などの方が、音声の特徴をとらえ易い。さらに、マイク13に入力される雑音のレベルが小さい場合は、その雑音による影響は考慮する必要がないが、そのレベルが大きい場合には、雑音による影響を考慮して音声認識を行うのが望ましい。また、ユーザの口の動きがほとんどない場合は、その動きベクトルは考慮する必要がなく、逆に、動きがある場合には、その動きベクトルを考慮して音声認識を行うのが望ましい。さらに、自動車の振動がほとんどない場合や、雨が降っていない場合などには、センサ14の出力を考慮する必要はないが、その逆の場合は、センサ14の出力を考慮して音声認識を行うのが望ましい。
【0071】
つまり、認識の対象である音声は勿論、その他の要因に関しても、音声を認識するにあたって最適な特徴パラメータ(より正答率の高い認識結果を得るための特徴パラメータ)は、場合によって変化すると考えられる。
【0072】
そこで、図6の音声認識装置では、入力部10が出力するデータからクラス分類用データを構成し、それをクラス分類することで、幾つかの場合に分け、各場合について最適な特徴パラメータが、前処理部20乃至23で求められる。
【0073】
従って、図6の実施の形態では、適応判定部27(マッチング部29)において距離計算する際のパラメータ空間が、クラス分類部52のクラス分類結果によって変化することになる。即ち、適応判定部27では、クラス分類部52が出力するクラスに対応するパラメータ空間における距離が計算され、その距離に基づいて、音声認識結果が出力される。
【0074】
なお、ここでは、クラス分類部52において、クラス分類用度データ構成部51が出力するクラス分類用データが、M個のクラスのうちのいずれかにクラス分類されるものとする。
【0075】
また、前処理部20乃至23には、クラス分類部52が出力するクラスに対応した種類の特徴パラメータを出力させる他、同一の特徴パラメータであっても、その次数を変化させたり(例えば、8次や12次その他の線形予測係数を出力させたり)、また、特徴パラメータを出力させないようにする(例えば、自動車が静かな場所で停止している場合には、マイク13およびセンサ14の出力は考慮する必要がないと考えられるので、前処理部22および23には特に処理を行わせないようにする)ことなども可能である。
【0076】
クラス分類部52が出力するクラスは、前処理部20乃至23の他、適応判定部27にも供給される。適応判定部27は、上述したように、M個の標準パラメータ記憶部281乃至28Mを有しており、この標準パラメータ記憶部281乃至28Mそれぞれには、クラス分類部52が出力するM個のクラスそれぞれに対応するパラメータ空間における標準パラメータが記憶されている。
【0077】
さらに、標準パラメータ記憶部28m(但し、m=1,2,・・・,M)には、図2の標準パラメータ記憶部28における場合と同様に、クラス分類部25が出力するクラスごとの標準パラメータテーブルが記憶されている。
【0078】
なお、標準パラメータ記憶部281乃至28Mが記憶している標準パラメータテーブルは、後述する学習装置(図7)において学習により求められるようになされている。
【0079】
適応判定部27では、クラス分類部52からクラスを受信すると、標準パラメータ記憶部281乃至28Mの中から、そのクラスに対応するものが選択される(標準パラメータ記憶部281乃至28Mの中から選択されたものを、以下、適宜、標準パラメータ記憶部28msと記載する)。
【0080】
一方、前処理部20乃至23が出力する特徴パラメータは、クラス分類用データ構成部24を介してクラス分類部25に供給されることでクラス分類され、そのクラス分類結果としてのクラスが、適応判定部27に供給される。また、前処理部20乃至23が出力する特徴パラメータは、統合パラメータ構成部26にも供給され、そこで、統合パラメータとされる。なお、統合パラメータ構成部26では、適応判定部27で選択された標準パラメータ記憶部28msが記憶している標準パラメータテーブルに登録されている標準パラメータと同一のパラメータ空間におけるパラメータが、統合パラメータとして構成される。
【0081】
統合パラメータ構成部26で得られた統合パラメータは、適応判定部27に供給される。適応判定部27では、標準パラメータ記憶部28msが記憶している標準パラメータテーブルから、クラス分類部25が出力したクラスに対応するものが選択され、マッチング部29において、その標準パラメータテーブルに登録されている標準パラメータそれぞれと、統合パラメータ構成部26からの統合パラメータとの距離が算出される。そして、その距離を最も小さくする標準パラメータに対応する音素が、音声認識結果として出力される。
【0082】
以上のように、クラス分類部52が出力するクラスに対応した前処理を行い、各場合において最適な特徴パラメータを得るようにしたので、各場合に最適なパラメータ空間における距離に基づいて、より精度の高い音声認識結果を得ることが可能となる。
【0083】
次に、図7は、図6の標準パラメータ記憶部281乃至28Mに記憶させる、クラスごとの標準パラメータテーブルに登録する標準パラメータを求める学習処理を行う学習装置の構成例を示している。
【0084】
なお、図中、図4における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、この学習装置は、メモリ47に代えて、メモリ471乃至47Mが設けられ、さらに、クラス分類用データ構成部61、クラス分類部62、およびセレクタ63が新たに設けられている他は、図4の学習装置と基本的に同様に構成されている。
【0085】
クラス分類用データ構成部61またはクラス分類部62では、図6のクラス分類用データ構成部51またはクラス分類部52における場合とそれぞれ同様の処理が行われ、その結果得られるクラスが、前処理部40乃至43およびセレクタ63に供給される。前処理部40乃至43では、図6の前処理部20乃至23における場合と同様に、クラス分類部62が出力するクラスに対応した前処理が行われ、これにより、いまの場合に最適な特徴パラメータが出力される。
【0086】
以下、クラス分類用データ構成部44、クラス分類部45、または統合パラメータ構成部46において、図6のクラス分類用データ構成部24、クラス分類部25、または統合パラメータ構成部26における場合とそれぞれ同様の処理が行われ、その結果、クラス分類部45からはクラスが、統合パラメータ構成部46からは統合パラメータが、それぞれ出力される。
【0087】
一方、セレクタ63では、クラス分類部62が出力するクラスにしたがって、メモリ471乃至47Mのうちのいずれかのチップセレクト(CS)端子に選択信号が出力される。即ち、これにより、メモリ471乃至47Mのうち、クラス分類部62が出力するクラスに対応するものが選択される。
【0088】
また、クラス分類部45が出力するクラスは、メモリ471乃至47Mのアドレス(AD)端子に供給されており、これにより、統合パラメータ46が出力する統合パラメータは、メモリ471乃至47Mのうちの、クラス分類部62が出力するクラスに対応するものの、クラス分類部45が出力するクラスに対応するアドレスに記憶される。
【0089】
図6の標準パラメータ記憶部281乃至28Mそれぞれには、以上のようにしてメモリ471乃至47Mそれぞれの各アドレスに記憶された統合パラメータ(の集合)が、標準パラメータとして、各クラス(クラス分類部25が出力するクラス)に対応する標準パラメータテーブルに登録されたものが記憶されている。
【0090】
なお、この場合においても、図6の標準パラメータ記憶部281乃至28Mそれぞれには、図5で説明したように、ある範囲にちらばる統合パラメータの重心などを標準パラメータとして記憶させるようにすることが可能である。
【0091】
次に、図8は、図1の入力装置4が内蔵する音声認識装置の第3の実施の形態の構成例を示している。なお、図中、図6における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、この音声認識装置は、前処理部71乃至74が新たに設けられ、前処理部20乃至23に代えて、前処理部71乃至74の出力が統合パラメータ構成部26に供給される他は、図6の音声認識装置と同様に構成されている。
【0092】
前処理部71乃至74には、前処理部20乃至23に対する入力と同一の入力が与えられるようになされている。さらに、前処理部71乃至74には、クラス分類部52が出力するクラスも供給されるようになされている。
【0093】
前処理部71乃至74では、クラス分類部52が出力するクラスに対応した前処理が行われ、これにより、いまの場合に最適な特徴パラメータが、統合パラメータ構成部26に出力される。但し、ここでは、前処理部71乃至74それぞれと、前処理部20乃至23それぞれとでは、基本的に異なる前処理が行われるようになされている。即ち、ここでは、前処理部20乃至23の出力からは、クラス分類部25が出力するクラスが、最終的に得られるのに対し、前処理部71の出力からは、統合パラメータ構成部26が出力する統合パラメータが得られる。そこで、前処理部20乃至23では、クラス分類部25においてクラス分類を行うのに最適な特徴パラメータが、クラス分類部52が出力するクラスに対応して求められ、他方、前処理部71乃至74では、音声認識に用いるのに最適な統合パラメータを構成するのに最適な特徴パラメータが、クラス分類部52が出力するクラスに対応して求められる。
【0094】
次に、図9は、図8の標準パラメータ記憶部281乃至28Mに記憶させる、クラスごとの標準パラメータテーブルに登録する標準パラメータを求める学習処理を行う学習装置の構成例を示している。
【0095】
なお、図中、図7における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、この学習装置は、前処理部81乃至84が新たに設けられ、前処理部40乃至43に代えて、前処理部81乃至84の出力が統合パラメータ構成部46に供給される他は、図7の学習装置と基本的に同様に構成されている。
【0096】
前処理部40乃至43では、図8の前処理部20乃至23における場合と同様に、クラス分類部45においてクラス分類を行うのに最適な特徴パラメータが、クラス分類部62が出力するクラスに対応して求められ、また、前処理部81乃至84では、図8の前処理部71乃至74における場合と同様に、音声認識に用いるのに最適な統合パラメータを構成するのに最適な特徴パラメータが、クラス分類部62が出力するクラスに対応して求められる。
【0097】
なお、図9の学習装置による学習により得られる統合パラメータが、図8の標準パラメータ記憶部281乃至28Mに記憶されるが、この場合も、学習により得られた統合パラメータをすべて記憶させるのではなく、図5で説明したように、ある範囲にちらばる統合パラメータの重心などを標準パラメータとして記憶させるようにすることが可能である。
【0098】
以上、本発明を適用した音声認識装置について説明したが、本発明は、音声以外の、例えば、画像や文字、人物その他を対象とした認識装置にも適用可能である。
【0099】
なお、本実施の形態では、認識対象であるユーザの音声の他に、CCDカメラ32、マイク33、およびセンサ34の出力を用いて認識を行うようにしたが、この認識に用いるデータは、これらに限定されるものではない。
【0100】
また、図2の実施の形態では、前処理部20乃至23の出力から、クラス分類用データを構成し、クラス分類部25に、そのクラス分類用データをクラス分類させるようにしたが、クラス分類部25には、その他、例えば、入力部10の出力から直接クラス分類用データを構成し、これをクラス分類させるようにすることなども可能である。
【0101】
さらに、図6乃至図9の実施の形態においては、前処理部20乃至23,40乃至43,71乃至73,81乃至83に、クラスを供給し、そのクラスに対応した前処理を行わせるようにしたが、前処理部20乃至23,40乃至43,71乃至73,81乃至83には、クラスに対応した関数を供給するようにし、この関数にしたがった演算を行わせることで、そのクラスに対応した前処理を行わせるようにすることも可能である。
【0102】
また、本実施の形態では、説明を簡単にするため、マッチング部29において、あるパラメータ空間における、統合パラメータと標準パラメータとの距離に基づいて、音声認識結果を得るようにしたが、マッチング部29には、その他、時系列に得られる統合パラメータと標準パラメータとの系列の間の距離や、そのような系列が観測される確率を算出させ、これに基づいて音声認識結果を求めさせるようにすることも可能である。さらに、マッチング部29には、クラス分類部25や52が出力するクラスごとに、異なる音声認識アルゴリズムを用いて、音声認識を行わせるようにすることも可能である。
【0103】
さらに、図2、図6、および図8で説明した音声認識装置、並びに図4、図7、および図9で説明した学習装置は、ハードウェアで実現することは勿論、CPUやメモリなどを有するマイクロプロセッサのアプリケーションとしてソフトウェアで実現することも可能である。
【0104】
【発明の効果】
本発明の認識装置および認識方法によれば、各場合ごとに適切なテーブルが用いられるので、認識性能を向上させることが可能となる。
【0105】
本発明の学習装置および学習方法によれば、各場合ごとに、認識に用いるのに最適なパラメータを得ることが可能となる。
【図面の簡単な説明】
【図1】本発明を適用したナビゲーションシステムの構成例を示すブロック図である。
【図2】本発明を適用した音声認識装置の第1の実施の形態の構成例を示すブロック図である。
【図3】前処理部21の処理を説明するための図である。
【図4】本発明を適用した学習装置の第1の実施の形態の構成例を示すブロック図である。
【図5】パラメータ空間を示す図である。
【図6】本発明を適用した音声認識装置の第2の実施の形態の構成例を示すブロック図である。
【図7】本発明を適用した学習装置の第2の実施の形態の構成例を示すブロック図である。
【図8】本発明を適用した音声認識装置の第3の実施の形態の構成例を示すブロック図である。
【図9】本発明を適用した学習装置の第3の実施の形態の構成例を示すブロック図である。
【符号の説明】
1 システム制御部, 2 位置測定装置, 3 データベース装置, 4 入力装置, 5 出力装置, 10 入力部, 11 マイク, 12 CCDカメラ, 13 マイク, 14 センサ, 15 アンプ, 16 A/D変換器, 17 アンプ, 18,19 A/D変換器, 20乃至23 前処理部, 24 クラス分類用データ構成部, 25 クラス分類部, 26 統合パラメータ構成部, 27 適応判定部, 28,281乃至28M 標準パラメータ記憶部, 29 マッチング部, 30 入力部, 31 マイク, 32CCDカメラ, 33 マイク, 34 センサ, 35 アンプ, 36 A/D変換器, 37 アンプ, 38,39 A/D変換器, 40乃至43前処理部, 44 クラス分類用データ構成部, 45 クラス分類部, 46 統合パラメータ構成部, 47,471乃至47M メモリ, 51 クラス分類用データ構成部, 52 クラス分類部, 61 クラス分類用データ構成部, 62 クラス分類部, 63 セレクタ, 71乃至74,81乃至84前処理部
Claims (7)
- 所定の認識対象を、複数の異なる種類の入力データから認識する認識装置であって、
前記複数の異なる種類の入力データを分析し、その分析結果の少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うクラス分類手段と、
前記複数の異なる種類の入力データの分析結果の少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段と、
前記クラス分類手段が出力するクラスごとに、所定の標準のパラメータが登録されているテーブルを記憶している標準パラメータ記憶手段と、
前記クラス分類手段が出力するクラスに対応するテーブルに登録された標準のパラメータと、前記統合パラメータとに基づいて、前記認識対象を認識する認識手段と
を備え、
前記標準パラメータ記憶手段に記憶されている前記所定の標準のパラメータは、前記認識対象に対応するパラメータであって、複数の異なる種類の学習用データの分析結果の少なくとも一部を統合した学習用統合パラメータを前記クラスごとに求める学習により得られたものである
ことを特徴とする認識装置。 - 所定の認識対象を、複数の異なる種類の入力データから認識する認識装置であって、
前記複数の異なる種類の入力データからクラス分類用データを構成し、前記クラス分類用データを所定のクラスに分類し、その結果得られる第 1 のクラス分類結果を出力する第 1 のクラス分類手段と、
前記入力データを、前記第1のクラス分類結果に応じて分析し、前記入力データの特徴パラメータを求める分析手段と、
前記分析手段からの特徴パラメータの少なくとも一部に基づいて、前記入力データを所定のクラスに分類し、その結果得られる第2のクラス分類結果を出力する第2のクラス分類手段と、
前記特徴パラメータの少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段と、
前記第1のクラス分類手段により分類されたクラスごとであって、前記第2のクラス分類手段により分類されたクラスごとに、所定の標準のパラメータが登録されているテーブルを記憶する標準パラメータ記憶手段と、
前記第1および第2のクラス分類手段により分類された両方のクラスに対応するテーブルに登録された標準のパラメータと、前記統合パラメータとに基づいて、前記認識対象を認識する認識手段と
を備え、
前記標準パラメータ記憶手段に記憶されている前記所定の標準のパラメータは、前記認識対象に対応するパラメータであって、前記第1のクラス分類手段によるクラスごとであって前記第 2 のクラス分類手段によるクラスごとに、複数の異なる種類の学習用データの特徴パラメータの少なくとも一部を統合した学習用統合パラメータを求める学習により得られたものである
ことを特徴とする認識装置。 - 前記認識対象は、所定の話者が発した音声であり、
前記複数の異なる種類の入力データは、少なくとも、その音声データと、話者の口を撮影して得られる画像データとを含む
ことを特徴とする請求項1に記載の認識装置。 - 所定の認識対象を、複数の異なる種類の入力データから認識する認識方法であって、
前記複数の異なる種類の入力データを分析し、その分析結果の少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うとともに、前記複数の異なる種類の入力データの分析結果の少なくとも一部を統合した統合パラメータを構成し、
前記クラス分類の結果得られるクラスに対応し、前記認識対象に対応するパラメータであって、複数の異なる種類の学習用データの分析結果の少なくとも一部を統合した学習用統合パラメータを前記クラスごとに求める学習により得られた標準のパラメータが登録されたテーブルと、前記統合パラメータとに基づいて、前記認識対象を認識する
ことを特徴とする認識方法。 - 所定の認識対象を、複数の異なる種類の入力データから認識するのに用いる標準のパラメータを求める学習装置であって、
学習用の複数の異なる種類の入力データを分析し、その特徴パラメータを求める分析手段と、
前記学習用の複数の異なる種類の入力データを、前記特徴パラメータの少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うクラス分類手段と、
前記特徴パラメータの少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段と、
前記統合パラメータを、前記クラス分類手段が出力するクラスごとに分類して記憶する記憶手段と
を備えることを特徴とする学習装置。 - 所定の認識対象を、複数の異なる種類の入力データから認識するのに用いる標準のパラメータを求める学習装置であって、
学習用の複数の異なる種類の入力データからクラス分類用データを構成し、前記クラス分類用データを所定のクラスに分類し、その結果得られる第1のクラス分類結果を出力する第1のクラス分類手段と、
前記学習用の複数の異なる種類の入力データを、前記第1のクラス分類結果に応じて分析し、特徴パラメータを求める分析手段と、
前記分析手段からの特徴パラメータの少なくとも一部に基づいて、前記入力データを所定のクラスに分類し、その結果得られる第2のクラス分類結果を出力する第2のクラス分類手段と、
前記特徴パラメータの少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段と、
前記統合パラメータを、前記第1のクラス分類手段が出力するクラスごとであって、前記第2のクラス分類手段が出力するクラスごとに分類して記憶する記憶手段と
を備えることを特徴とする学習装置。 - 所定の認識対象を、複数の異なる種類の入力データから認識するのに用いる標準のパラメータを求める学習方法であって、
学習用の複数の異なる種類の入力データを分析し、その特徴パラメータを求め、
前記学習用の複数の異なる種類の入力データを、前記特徴パラメータの少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うとともに、前記特徴パラメータの少なくとも一部を統合した統合パラメータを構成し、
前記統合パラメータを、前記クラス分類の結果得られるクラスごとに分類して記憶する
ことを特徴とする学習方法。
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP34731296A JP3702978B2 (ja) | 1996-12-26 | 1996-12-26 | 認識装置および認識方法、並びに学習装置および学習方法 |
CN97193175A CN1119795C (zh) | 1996-12-26 | 1997-12-22 | 语音识别装置和识别方法以及语音学习装置和学习方法 |
EP97949208A EP0896319B1 (en) | 1996-12-26 | 1997-12-22 | Recognition apparatus, recognition method, learning apparatus and learning method |
KR1019980706664A KR100578260B1 (ko) | 1996-12-26 | 1997-12-22 | 인식장치및인식방법과,학습장치및학습방법 |
PCT/JP1997/004755 WO1998029864A1 (fr) | 1996-12-26 | 1997-12-22 | Appareil et procede de reconnaissance, et appareil et procede d'apprentissage |
DE69730705T DE69730705T2 (de) | 1996-12-26 | 1997-12-22 | Vorrichtung und verfahren zur mustererkennung und zur adaption |
US09/125,717 US6396954B1 (en) | 1996-12-26 | 1998-08-24 | Apparatus and method for recognition and apparatus and method for learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP34731296A JP3702978B2 (ja) | 1996-12-26 | 1996-12-26 | 認識装置および認識方法、並びに学習装置および学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10187186A JPH10187186A (ja) | 1998-07-14 |
JP3702978B2 true JP3702978B2 (ja) | 2005-10-05 |
Family
ID=18389374
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP34731296A Expired - Fee Related JP3702978B2 (ja) | 1996-12-26 | 1996-12-26 | 認識装置および認識方法、並びに学習装置および学習方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US6396954B1 (ja) |
EP (1) | EP0896319B1 (ja) |
JP (1) | JP3702978B2 (ja) |
KR (1) | KR100578260B1 (ja) |
CN (1) | CN1119795C (ja) |
DE (1) | DE69730705T2 (ja) |
WO (1) | WO1998029864A1 (ja) |
Families Citing this family (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6688888B1 (en) * | 1996-03-19 | 2004-02-10 | Chi Fai Ho | Computer-aided learning system and method |
US5944530A (en) * | 1996-08-13 | 1999-08-31 | Ho; Chi Fai | Learning method and system that consider a student's concentration level |
GB2330679B (en) * | 1997-10-21 | 2002-04-24 | 911 Emergency Products Inc | Warning signal light |
JP3884160B2 (ja) * | 1997-11-17 | 2007-02-21 | 富士通株式会社 | 用語付きデータを扱うデータ処理方法,データ処理装置およびプログラム記憶媒体 |
USRE38432E1 (en) * | 1998-01-29 | 2004-02-24 | Ho Chi Fai | Computer-aided group-learning methods and systems |
US6398556B1 (en) * | 1998-07-06 | 2002-06-04 | Chi Fai Ho | Inexpensive computer-aided learning methods and apparatus for learners |
US9792659B2 (en) * | 1999-04-13 | 2017-10-17 | Iplearn, Llc | Computer-aided methods and apparatus to access materials in a network environment |
JP3893763B2 (ja) * | 1998-08-17 | 2007-03-14 | 富士ゼロックス株式会社 | 音声検出装置 |
KR100729316B1 (ko) * | 1998-10-09 | 2007-06-19 | 소니 가부시끼 가이샤 | 학습 장치 및 학습 방법, 인식 장치 및 인식 방법, 및기록 매체 |
DE19921488A1 (de) * | 1999-05-08 | 2000-11-16 | Bosch Gmbh Robert | Verfahren und Vorrichtung zur Überwachung des Innenraums und des Umfeldes eines Fahrzeugs |
US6547410B1 (en) * | 2000-07-28 | 2003-04-15 | 911 Emergency Products, Inc. | LED alley/take-down light |
US7468677B2 (en) * | 1999-08-04 | 2008-12-23 | 911Ep, Inc. | End cap warning signal assembly |
JP3895892B2 (ja) | 1999-09-22 | 2007-03-22 | 株式会社東芝 | マルチメディア情報収集管理装置およびプログラムを格納した記憶媒体 |
KR100447667B1 (ko) * | 2000-04-12 | 2004-09-08 | 이경목 | 음성 인식 기능을 갖는 컴퓨터와 학습용 인형들을 이용한 상호 대화 언어 학습 시스템 |
US6754373B1 (en) * | 2000-07-14 | 2004-06-22 | International Business Machines Corporation | System and method for microphone activation using visual speech cues |
JP4645867B2 (ja) * | 2000-08-02 | 2011-03-09 | ソニー株式会社 | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 |
JP2002062894A (ja) * | 2000-08-17 | 2002-02-28 | Daiichikosho Co Ltd | 音声認識リモコン機能付きワイヤレスマイクロホン |
US7439847B2 (en) | 2002-08-23 | 2008-10-21 | John C. Pederson | Intelligent observation and identification database system |
US8188878B2 (en) | 2000-11-15 | 2012-05-29 | Federal Law Enforcement Development Services, Inc. | LED light communication system |
US7171042B2 (en) * | 2000-12-04 | 2007-01-30 | Intel Corporation | System and method for classification of images and videos |
JP2002182685A (ja) * | 2000-12-12 | 2002-06-26 | Sony Corp | 認識装置および認識方法、学習装置および学習方法、並びに記録媒体 |
JP4080843B2 (ja) * | 2002-10-30 | 2008-04-23 | 株式会社東芝 | 不揮発性半導体記憶装置 |
US7272565B2 (en) * | 2002-12-17 | 2007-09-18 | Technology Patents Llc. | System and method for monitoring individuals |
US7634063B2 (en) * | 2003-01-02 | 2009-12-15 | Technology Patents, Llc | System and method for monitoring individuals |
JP4048492B2 (ja) * | 2003-07-03 | 2008-02-20 | ソニー株式会社 | 音声対話装置及び方法並びにロボット装置 |
US8708702B2 (en) * | 2004-09-16 | 2014-04-29 | Lena Foundation | Systems and methods for learning using contextual feedback |
US10223934B2 (en) | 2004-09-16 | 2019-03-05 | Lena Foundation | Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback |
US9240188B2 (en) | 2004-09-16 | 2016-01-19 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US7377233B2 (en) * | 2005-01-11 | 2008-05-27 | Pariff Llc | Method and apparatus for the automatic identification of birds by their vocalizations |
JP4847022B2 (ja) * | 2005-01-28 | 2011-12-28 | 京セラ株式会社 | 発声内容認識装置 |
US7860718B2 (en) * | 2005-12-08 | 2010-12-28 | Electronics And Telecommunications Research Institute | Apparatus and method for speech segment detection and system for speech recognition |
KR100808775B1 (ko) * | 2006-07-26 | 2008-03-07 | 한국정보통신대학교 산학협력단 | 클래스 기반 히스토그램 등화 기법을 이용한 음성인식시스템 및 방법 |
US9258864B2 (en) | 2007-05-24 | 2016-02-09 | Federal Law Enforcement Development Services, Inc. | LED light control and management system |
US9100124B2 (en) | 2007-05-24 | 2015-08-04 | Federal Law Enforcement Development Services, Inc. | LED Light Fixture |
WO2008148039A1 (en) | 2007-05-24 | 2008-12-04 | Federal Law Enforcement Development Services, Inc. | Led light communication system |
US9414458B2 (en) | 2007-05-24 | 2016-08-09 | Federal Law Enforcement Development Services, Inc. | LED light control assembly and system |
US9294198B2 (en) | 2007-05-24 | 2016-03-22 | Federal Law Enforcement Development Services, Inc. | Pulsed light communication key |
US11265082B2 (en) | 2007-05-24 | 2022-03-01 | Federal Law Enforcement Development Services, Inc. | LED light control assembly and system |
US9455783B2 (en) | 2013-05-06 | 2016-09-27 | Federal Law Enforcement Development Services, Inc. | Network security and variable pulse wave form with continuous communication |
US8077022B2 (en) * | 2008-06-11 | 2011-12-13 | Flextronics Automotive Inc. | System and method for activating vehicular electromechanical systems using RF communications and voice commands received from a user positioned locally external to a vehicle |
AU2009270759B2 (en) * | 2008-07-17 | 2015-10-01 | Luminex Corporation | Methods, storage mediums, and systems for configuring classification regions within a classification matrix of an analysis system and for classifying particles of an assay |
US8890773B1 (en) | 2009-04-01 | 2014-11-18 | Federal Law Enforcement Development Services, Inc. | Visible light transceiver glasses |
CN102405463B (zh) * | 2009-04-30 | 2015-07-29 | 三星电子株式会社 | 利用多模态信息的用户意图推理装置及方法 |
CN102063903B (zh) * | 2010-09-25 | 2012-07-04 | 中国科学院深圳先进技术研究院 | 言语交互训练系统及方法 |
WO2012097291A1 (en) | 2011-01-14 | 2012-07-19 | Federal Law Enforcement Development Services, Inc. | Method of providing lumens and tracking of lumen consumption |
JP5849761B2 (ja) * | 2012-02-22 | 2016-02-03 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識プログラム |
US9263044B1 (en) * | 2012-06-27 | 2016-02-16 | Amazon Technologies, Inc. | Noise reduction based on mouth area movement recognition |
US9265112B2 (en) | 2013-03-13 | 2016-02-16 | Federal Law Enforcement Development Services, Inc. | LED light control and management system |
JP2013164863A (ja) * | 2013-04-24 | 2013-08-22 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
CN104715753B (zh) * | 2013-12-12 | 2018-08-31 | 联想(北京)有限公司 | 一种数据处理的方法及电子设备 |
US20150198941A1 (en) | 2014-01-15 | 2015-07-16 | John C. Pederson | Cyber Life Electronic Networking and Commerce Operating Exchange |
US20170048953A1 (en) | 2015-08-11 | 2017-02-16 | Federal Law Enforcement Development Services, Inc. | Programmable switch and system |
KR102209689B1 (ko) * | 2015-09-10 | 2021-01-28 | 삼성전자주식회사 | 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법 |
US10529357B2 (en) | 2017-12-07 | 2020-01-07 | Lena Foundation | Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness |
JP7299587B2 (ja) * | 2019-02-05 | 2023-06-28 | 株式会社リコー | 情報処理装置、発話認識システム及び発話認識プログラム |
CN111251307B (zh) * | 2020-03-24 | 2021-11-02 | 北京海益同展信息科技有限公司 | 应用于机器人的语音采集方法和装置、一种机器人 |
KR102302029B1 (ko) * | 2020-11-23 | 2021-09-15 | (주)펜타유니버스 | 인공지능 기반 복합 입력 인지 시스템 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4991216A (en) * | 1983-09-22 | 1991-02-05 | Matsushita Electric Industrial Co., Ltd. | Method for speech recognition |
JPS60181798A (ja) * | 1984-02-28 | 1985-09-17 | 電子計算機基本技術研究組合 | 音声認識装置 |
JPS62151903A (ja) * | 1985-12-25 | 1987-07-06 | Nippon Denso Co Ltd | 車両に搭載される電子制御装置 |
US4975969A (en) * | 1987-10-22 | 1990-12-04 | Peter Tal | Method and apparatus for uniquely identifying individuals by particular physical characteristics and security system utilizing the same |
US4965725B1 (en) * | 1988-04-08 | 1996-05-07 | Neuromedical Systems Inc | Neural network based automated cytological specimen classification system and method |
JPH02262199A (ja) * | 1989-04-03 | 1990-10-24 | Toshiba Corp | 環境モニタ付音声認識装置 |
JPH03129400A (ja) * | 1989-10-13 | 1991-06-03 | Seiko Epson Corp | 音声認識装置 |
GB9201006D0 (en) * | 1992-01-17 | 1992-03-11 | Philip Electronic And Associat | Classifying faces |
US5621858A (en) * | 1992-05-26 | 1997-04-15 | Ricoh Corporation | Neural network acoustic and visual speech recognition system training method and apparatus |
JPH06301393A (ja) | 1993-04-13 | 1994-10-28 | Matsushita Electric Ind Co Ltd | 音声区間検出装置及び音声認識装置 |
NO941999L (no) * | 1993-06-15 | 1994-12-16 | Ontario Hydro | Automatisert intelligent overvåkingssystem |
JPH0728490A (ja) | 1993-06-25 | 1995-01-31 | Canon Inc | 情報処理方法及び装置 |
US5522011A (en) * | 1993-09-27 | 1996-05-28 | International Business Machines Corporation | Speech coding apparatus and method using classification rules |
JPH08187368A (ja) | 1994-05-13 | 1996-07-23 | Matsushita Electric Ind Co Ltd | ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置 |
JPH07306692A (ja) * | 1994-05-13 | 1995-11-21 | Matsushita Electric Ind Co Ltd | 音声認識装置及び音声入力装置 |
US5749072A (en) * | 1994-06-03 | 1998-05-05 | Motorola Inc. | Communications device responsive to spoken commands and methods of using same |
IL111039A (en) * | 1994-09-22 | 1998-08-16 | Advanced Recognition Tech | Handwriting recognition system |
JP2690027B2 (ja) * | 1994-10-05 | 1997-12-10 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | パターン認識方法及び装置 |
US5859925A (en) * | 1995-08-08 | 1999-01-12 | Apple Computer, Inc. | Classifying system having a single neural network architecture for multiple input representations |
JP3674990B2 (ja) * | 1995-08-21 | 2005-07-27 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
JP2907079B2 (ja) * | 1995-10-16 | 1999-06-21 | ソニー株式会社 | ナビゲーション装置,ナビゲート方法及び自動車 |
JPH09134193A (ja) * | 1995-11-08 | 1997-05-20 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置 |
US5761329A (en) * | 1995-12-15 | 1998-06-02 | Chen; Tsuhan | Method and apparatus employing audio and video data from an individual for authentication purposes |
-
1996
- 1996-12-26 JP JP34731296A patent/JP3702978B2/ja not_active Expired - Fee Related
-
1997
- 1997-12-22 CN CN97193175A patent/CN1119795C/zh not_active Expired - Fee Related
- 1997-12-22 KR KR1019980706664A patent/KR100578260B1/ko not_active IP Right Cessation
- 1997-12-22 EP EP97949208A patent/EP0896319B1/en not_active Expired - Lifetime
- 1997-12-22 WO PCT/JP1997/004755 patent/WO1998029864A1/ja active IP Right Grant
- 1997-12-22 DE DE69730705T patent/DE69730705T2/de not_active Expired - Lifetime
-
1998
- 1998-08-24 US US09/125,717 patent/US6396954B1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH10187186A (ja) | 1998-07-14 |
EP0896319B1 (en) | 2004-09-15 |
EP0896319A4 (en) | 2000-03-08 |
DE69730705D1 (de) | 2004-10-21 |
KR19990087263A (ko) | 1999-12-15 |
KR100578260B1 (ko) | 2006-11-07 |
CN1119795C (zh) | 2003-08-27 |
CN1214141A (zh) | 1999-04-14 |
WO1998029864A1 (fr) | 1998-07-09 |
DE69730705T2 (de) | 2005-09-29 |
US6396954B1 (en) | 2002-05-28 |
EP0896319A1 (en) | 1999-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3702978B2 (ja) | 認識装置および認識方法、並びに学習装置および学習方法 | |
US7272561B2 (en) | Speech recognition device and speech recognition method | |
JP2692581B2 (ja) | 音響カテゴリ平均値計算装置及び適応化装置 | |
US8831939B2 (en) | Voice data transferring device, terminal device, voice data transferring method, and voice recognition system | |
JP3584458B2 (ja) | パターン認識装置およびパターン認識方法 | |
US11488617B2 (en) | Method and apparatus for sound processing | |
US20080120115A1 (en) | Methods and apparatuses for dynamically adjusting an audio signal based on a parameter | |
JP2768274B2 (ja) | 音声認識装置 | |
JP2006030447A (ja) | 音声認識システムと該音声認識システムを備える移動体及び車両 | |
US5307442A (en) | Method and apparatus for speaker individuality conversion | |
US20070198268A1 (en) | Method for controlling a speech dialog system and speech dialog system | |
JP2000250576A (ja) | 音声認識システムにおいて特徴を抽出する方法 | |
CN110400565A (zh) | 说话人识别方法、系统及计算机可读存储介质 | |
JP2018191145A (ja) | 収音装置、収音方法、収音プログラム及びディクテーション方法 | |
CN114067782A (zh) | 音频识别方法及其装置、介质和芯片系统 | |
JP2001296891A (ja) | 音声認識方法および装置 | |
JP2002236497A (ja) | ノイズリダクションシステム | |
JP6791816B2 (ja) | 音声区間検出装置、音声区間検出方法、およびプログラム | |
JP3555490B2 (ja) | 声質変換システム | |
JP2004318026A (ja) | セキュリティペットロボット及びその装置に関する信号処理方法 | |
CN110675890B (zh) | 声音信号处理装置以及声音信号处理方法 | |
JPH04324499A (ja) | 音声認識装置 | |
JP3075250B2 (ja) | 話者認識方法及び装置 | |
JP2000311077A (ja) | 音声情報入力装置 | |
WO2022239142A1 (ja) | 音声認識装置及び音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040929 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050630 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050713 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080729 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090729 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090729 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100729 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100729 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110729 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120729 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130729 Year of fee payment: 8 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |