JPH08305389A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH08305389A
JPH08305389A JP7114628A JP11462895A JPH08305389A JP H08305389 A JPH08305389 A JP H08305389A JP 7114628 A JP7114628 A JP 7114628A JP 11462895 A JP11462895 A JP 11462895A JP H08305389 A JPH08305389 A JP H08305389A
Authority
JP
Japan
Prior art keywords
voice
voice data
phoneme
distance
recognition device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7114628A
Other languages
English (en)
Other versions
JP2738403B2 (ja
Inventor
Kenichi Iso
健一 磯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP7114628A priority Critical patent/JP2738403B2/ja
Priority to CA002176103A priority patent/CA2176103C/en
Priority to EP96107350A priority patent/EP0742546B1/en
Priority to DE69633757T priority patent/DE69633757T2/de
Priority to US08/644,273 priority patent/US5956677A/en
Publication of JPH08305389A publication Critical patent/JPH08305389A/ja
Application granted granted Critical
Publication of JP2738403B2 publication Critical patent/JP2738403B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 音声認識装置における標準パターンの精度を
改善し、認識性能を向上させる。 【構成】 音声データとその記号列表記を格納した音声
データ格納部60と、認識対象単語の記号列表記中の任
意の部分列と音声データ格納部60中の部分列を表記に
含む音声データの指標との組を格納した標準パターン格
納部50とを有している。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識装置の標準パ
ターンの改善に関する。
【0002】
【従来の技術】認識対象語彙の変更が容易な音声認識装
置を実現する方法として、文脈依存音素標準パターンを
用いる方法が広く利用されている。この方法によれば、
任意の認識対象単語の標準パターンは、その音素表記に
対応する文脈依存音素標準パターンを連結して構成する
ことができる。各音素の文脈依存音素標準パターン(先
行音素と後続音素を含めた3つ組みで指定される)は、
学習用に収集した多数の音声データを音素単位にセグメ
ーションし、先行音素と後続音素まで一致する音声セグ
メントを選び出して集めて、その平均として作成され
る。このような方法は、例えば、「IEEE Transactions
on Acoustics, Speech, and Signal Processing, 1990,
Vol.38, No.4, page.599-609, Kai-Fu Lee 」に記載さ
れている。尚、この方法において、文脈依存音素標準パ
ターンを作成する際に用いる音声データベースは、音声
認識装置とは個別に設けられており、標準パターン作成
の際に用いるのみである。
【0003】図5に、音声データベース中の「WXY
Z」という音素列に対応する音声データから文脈依存音
素標準パターンを作成する例を示す。図5において、
「X(W、Y)」は音素Xの文脈依存音素標準パターン
であり、先行音素がW、後続音素がYである。同じ文脈
依存音素が他の音声データにも出現する場合は、それら
を集めて、その平均を標準パターンとする。
【0004】
【発明が解決しようとする課題】ところで、図5に示し
た例をも含め、従来法により前後1音素の文脈を考慮し
た音素標準パターンを作成すると、たとえ音声データベ
ース中に前後2音素まで認識対象単語中の音素と同じ文
脈を含む音声データが存在しても、認識には一切利用さ
れない。即ち、従来法においては、学習時に固定した音
素文脈に基づいて標準パターンを作成してしまい、さら
に、考慮する音素文脈も、組み合わせ数の爆発的増加を
回避するために前後1音素にとどめるものが多い。この
ため、収集した音声データベースが有効に活用されず、
認識精度を向上させることができないという問題点があ
る。
【0005】本発明の技術的課題は、音声認識装置にお
ける標準パターンの精度を改善し、認識性能を向上させ
ることである。
【0006】
【課題を解決するための手段】本発明では、以下に示す
手段によって、上記技術的課題に対応する。
【0007】(1) 音声データとその記号列表記を格
納した音声データ格納部と、認識対象単語の記号列表記
中の任意の部分列と前記音声データ格納部中の該部分列
を表記に含む音声データの指標との組を格納した標準パ
ターン格納部とを有することを特徴とする音声認識装
置。
【0008】(2) 上記手段(1)に記載の音声認識
装置において、前記標準パターン格納部中の部分列と入
力音声の任意の区間のあいだの距離を算出する距離計算
部と、認識対象単語記号列の部分列への可能な分割の中
で、前記距離の入力音声の全区間にわたる総和を最小に
する分割を選出し、そのときの距離の総和を入力音声と
認識対象単語とのあいだの距離として出力するパターン
マッチング部とを有することを特徴とする音声認識装
置。
【0009】(3) 上記手段(2)に記載の音声認識
装置において、前記距離計算部における距離として、部
分列に対応する前記音声データ格納部中の音声データの
任意の区間と、入力音声の任意の区間のあいだの距離を
用いることを特徴とする音声認識装置。
【0010】
【実施例】以下、図面を参照して、本発明に基づく音声
認識装置の実施例を説明する。図1は、本実施例による
音声認識装置の基本的な構成を示すブロック図である。
図1において、特徴抽出部20は、マイクロホン10か
ら入力された音声を分析し、抽出した特徴ベクトル列を
距離計算部30に送る。距離計算部30は、標準パター
ン格納部50に格納された部分列に対応する音声データ
を音声データ格納部60から読み出し、その任意の区間
と入力音声の任意の区間のあいだの距離を計算する。
パターンマッチング部40は、距離計算部30による距
離の認識対象単語区間にわたる総和が最小になる分割
を、各認識対象単語に対して求める。認識結果算出部7
0は、パターンマッチング部40から出力される入力音
声と全認識対象単語の間の距離の中で、最小の距離を与
える認識対象単語を認識結果として出力する。
【0011】以下に本実施例の音声認識装置の動作を、
図1に図2〜4を併せ参照して、さらに詳しく説明す
る。
【0012】本発明では、音声データとその発話内容の
音素表記を多数格納した音声データベースを用意す
る。即ち、音声データ格納部60に格納する。認識対象
単語の標準パターンは、以下のように構成する。
【0013】(1) 図2に示すように、認識対象単語
の音素表記(音素列)を任意の長さの部分列に分割する
(重複や欠けがないように)。
【0014】(2) 図3に示すように、音声データベ
ース中の音声データで、その音素表記が上記部分列を含
む音声データを全て選び出す。
【0015】認識対象単語の音素表記の全ての可能な分
割とそれに対応した音声データとの集合を認識対象単語
の標準パターンとして、標準パターン格納部50に格納
する。パターンマッチング部40における入力音声と認
識対象単語との間の距離は、以下のように定義する。
【0016】(a) 標準パターン格納部50から認識
対象単語の特定の分割を選択する。認識対象単語の音素
表記をWとすると、そのN個の部分列への分割をω
(1)ω(2)…ω(N)とする。
【0017】(b) 選ばれた分割で定義される各部分
列を表記に含む音声データ格納部60中の音声データか
ら、任意の区間の音声を切り出して、その部分列の音響
セグメントとする(図3)。
【0018】部分列ω(n)を表記に含む音声データの
中で第k番目の音声データをA[ω(n)、k]とする
(k=1〜K(n))。音声データ中の時刻σから時刻
τまでの区間の音響セグメントをA[ω(n)、k、
σ、τ]とする。
【0019】(c) 図4に示すように、パターンマッ
チング部40において部分列の順序に従って音響セグメ
ントを連結したものと入力音声との間の距離を、DPマ
ッチングなどにより計算する。
【0020】入力音声の時刻sから時刻tまでの区間の
音響セグメントをX[s、t]とすると、距離Dは、以
下の数式1により得られる。
【0021】
【数1】 数式1中、dは、2つの音響セグメントのあいだの距離
であり、距離計算部30で算出される。
【0022】また、入力音声の時間長をTとすると、連
続性から以下の数式2により表される制約条件を満たす
必要がある。
【0023】
【数2】 (d) 工程(c)における部分列への全ての可能な分
割と、工程(b)における全ての可能な区間の切り出し
(s、t、σ、τ)の中で、工程(c)において最小の
距離を与えるものを選出し、そのときの距離を入力音声
と認識対象単語とのあいだの距離とする。
【0024】複数の認識対象単語の中で工程(d)にお
ける入力音声との距離が最小になる認識対象単語を、音
声認識結果として、認識結果算出部70が出力する。
【0025】以上のようにして、音声認識装置の動作が
なされた。
【0026】尚、本音声認識装置による認識結果を、本
装置の出力側に接続する図示しない情報処理機器、通信
機器、あるいは制御機器等への入力信号として利用する
ことが可能であることはいうまでもない。
【0027】
【発明の効果】本発明では、前後1音素の音素文脈に限
定せずに、音声データベース中の音声データを認識時に
探索し、認識対象単語の音素列と文脈(従来法のように
固定的に前後1音素に限定しない)とが一致するものを
全て利用する。また、音響セグメントの切り出しも入力
音声と最も一致するものを認識時に自動決定する。この
ため、標準パターンの精度を改善し、認識性能を向上さ
せることができる。
【図面の簡単な説明】
【図1】本発明の実施例による音声認識装置の要部を示
すブロック図である。
【図2】図1に示す音声認識装置の動作を説明するため
の図である。
【図3】図1に示す音声認識装置の動作を説明するため
の図である。
【図4】図1に示す音声認識装置の動作を説明するため
の図である。
【図5】従来法を説明するための図である。
【符号の説明】
10 マイクロホン 20 特徴抽出部 30 距離計算部 40 パターンマッチング部 50 標準パターン格納部 60 音声データ格納部 70 認識結果算出部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 音声データとその記号列表記を格納した
    音声データ格納部と、認識対象単語の記号列表記中の任
    意の部分列と前記音声データ格納部中の該部分列を表記
    に含む音声データの指標との組を格納した標準パターン
    格納部とを有することを特徴とする音声認識装置。
  2. 【請求項2】 請求項1に記載の音声認識装置におい
    て、前記標準パターン格納部中の部分列と入力音声の任
    意の区間のあいだの距離を算出する距離計算部と、認識
    対象単語記号列の部分列への可能な分割の中で、前記距
    離の入力音声の全区間にわたる総和を最小にする分割を
    選出し、そのときの距離の総和を入力音声と認識対象単
    語とのあいだの距離として出力するパターンマッチング
    部とを有することを特徴とする音声認識装置。
  3. 【請求項3】 請求項2に記載の音声認識装置におい
    て、前記距離計算部における距離として、部分列に対応
    する前記音声データ格納部中の音声データの任意の区間
    と、入力音声の任意の区間のあいだの距離を用いること
    を特徴とする音声認識装置。
JP7114628A 1995-05-12 1995-05-12 音声認識装置 Expired - Fee Related JP2738403B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP7114628A JP2738403B2 (ja) 1995-05-12 1995-05-12 音声認識装置
CA002176103A CA2176103C (en) 1995-05-12 1996-05-08 Speech recognizer
EP96107350A EP0742546B1 (en) 1995-05-12 1996-05-09 Speech recognizer
DE69633757T DE69633757T2 (de) 1995-05-12 1996-05-09 Spracherkenner
US08/644,273 US5956677A (en) 1995-05-12 1996-05-10 Speech recognizer having a speech data memory storing speech data and a reference pattern memory storing partial symbol trains of words for recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7114628A JP2738403B2 (ja) 1995-05-12 1995-05-12 音声認識装置

Publications (2)

Publication Number Publication Date
JPH08305389A true JPH08305389A (ja) 1996-11-22
JP2738403B2 JP2738403B2 (ja) 1998-04-08

Family

ID=14642613

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7114628A Expired - Fee Related JP2738403B2 (ja) 1995-05-12 1995-05-12 音声認識装置

Country Status (5)

Country Link
US (1) US5956677A (ja)
EP (1) EP0742546B1 (ja)
JP (1) JP2738403B2 (ja)
CA (1) CA2176103C (ja)
DE (1) DE69633757T2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6785419B1 (en) * 2000-12-22 2004-08-31 Microsoft Corporation System and method to facilitate pattern recognition by deformable matching
US7366352B2 (en) * 2003-03-20 2008-04-29 International Business Machines Corporation Method and apparatus for performing fast closest match in pattern recognition

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61204699A (ja) * 1985-03-07 1986-09-10 株式会社リコー 標準パタ−ン登録方式
JPS6444498A (en) * 1987-08-12 1989-02-16 Atr Jido Honyaku Denwa Voice synchronization system using compound voice unit
JPH01279299A (ja) * 1988-05-02 1989-11-09 Fujitsu Ltd 音声入出力装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5220609A (en) * 1987-03-13 1993-06-15 Matsushita Electric Industrial Co., Ltd. Method of speech recognition
US5315689A (en) * 1988-05-27 1994-05-24 Kabushiki Kaisha Toshiba Speech recognition system having word-based and phoneme-based recognition means
JPH0225898A (ja) * 1988-07-15 1990-01-29 Toshiba Corp 音声認識装置
JPH02105200A (ja) * 1988-10-14 1990-04-17 Asahi Chem Ind Co Ltd 音声認識装置
JPH0636156B2 (ja) * 1989-03-13 1994-05-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置
US5222147A (en) * 1989-04-13 1993-06-22 Kabushiki Kaisha Toshiba Speech recognition LSI system including recording/reproduction device
JPH067348B2 (ja) * 1989-04-13 1994-01-26 株式会社東芝 パタン認識装置
JP2795719B2 (ja) * 1990-03-07 1998-09-10 富士通株式会社 認識距離の差に基づく最良優先探索処理方法
JPH04182700A (ja) * 1990-11-19 1992-06-30 Nec Corp 音声認識装置
US5345536A (en) * 1990-12-21 1994-09-06 Matsushita Electric Industrial Co., Ltd. Method of speech recognition
JP2808906B2 (ja) * 1991-02-07 1998-10-08 日本電気株式会社 音声認識装置
JP2870224B2 (ja) * 1991-06-19 1999-03-17 松下電器産業株式会社 音声認識方法
JP2980420B2 (ja) * 1991-07-26 1999-11-22 富士通株式会社 動的計画法照合装置
JPH05249990A (ja) * 1992-03-04 1993-09-28 Sony Corp パターンマッチング方法およびパターン認識装置
EP0590173A1 (de) * 1992-09-28 1994-04-06 International Business Machines Corporation Computersystem zur Spracherkennung
JP2692581B2 (ja) * 1994-06-07 1997-12-17 日本電気株式会社 音響カテゴリ平均値計算装置及び適応化装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61204699A (ja) * 1985-03-07 1986-09-10 株式会社リコー 標準パタ−ン登録方式
JPS6444498A (en) * 1987-08-12 1989-02-16 Atr Jido Honyaku Denwa Voice synchronization system using compound voice unit
JPH01279299A (ja) * 1988-05-02 1989-11-09 Fujitsu Ltd 音声入出力装置

Also Published As

Publication number Publication date
JP2738403B2 (ja) 1998-04-08
EP0742546B1 (en) 2004-11-03
US5956677A (en) 1999-09-21
EP0742546A2 (en) 1996-11-13
EP0742546A3 (en) 1998-03-25
DE69633757D1 (de) 2004-12-09
CA2176103C (en) 2002-07-16
CA2176103A1 (en) 1996-11-13
DE69633757T2 (de) 2005-11-03

Similar Documents

Publication Publication Date Title
CN108305634B (zh) 解码方法、解码器及存储介质
US20080294433A1 (en) Automatic Text-Speech Mapping Tool
WO2020062680A1 (zh) 基于双音节混搭的波形拼接方法、装置、设备及存储介质
JPH02273795A (ja) 連続音声認識方法
JPH05127692A (ja) 音声認識装置
KR100930714B1 (ko) 음성인식 장치 및 방법
JP2002229585A (ja) 音声認識文章入力装置
JP2738403B2 (ja) 音声認識装置
JP3058125B2 (ja) 音声認識装置
JP2000259176A (ja) 音声認識装置およびその記録媒体
JP2938865B1 (ja) 音声認識装置
JP3039453B2 (ja) 音声認識装置
JPH1097275A (ja) 大語彙音声認識装置
JP2757356B2 (ja) 単語音声認識方法および装置
CN113763921B (zh) 用于纠正文本的方法和装置
JPH11250063A (ja) 検索装置及び検索方法
JP2003345384A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP3818154B2 (ja) 音声認識方法
JP3916792B2 (ja) 音声認識装置
JP3033132B2 (ja) 言語処理装置
JPH05303391A (ja) 音声認識装置
JP3430265B2 (ja) 日本語音声認識方法
Georgila et al. Large Vocabulary Search Space Reduction Employing Directed Acyclic Word Graphs and Phonological Rules
JPS6155680B2 (ja)
JPH0554678B2 (ja)

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19971217

LAPS Cancellation because of no payment of annual fees