JP2000293191A - 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法 - Google Patents

音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法

Info

Publication number
JP2000293191A
JP2000293191A JP11097041A JP9704199A JP2000293191A JP 2000293191 A JP2000293191 A JP 2000293191A JP 11097041 A JP11097041 A JP 11097041A JP 9704199 A JP9704199 A JP 9704199A JP 2000293191 A JP2000293191 A JP 2000293191A
Authority
JP
Japan
Prior art keywords
word
information
node
words
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11097041A
Other languages
English (en)
Other versions
JP4289715B2 (ja
Inventor
Hiroki Yamamoto
寛樹 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP09704199A priority Critical patent/JP4289715B2/ja
Priority to US09/538,388 priority patent/US6507815B1/en
Publication of JP2000293191A publication Critical patent/JP2000293191A/ja
Application granted granted Critical
Publication of JP4289715B2 publication Critical patent/JP4289715B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 木構造単語辞書からの効率的な探索を少ない
記憶容量で実現すること。 【解決手段】 単語を構成する音素をノードとする
ツリーであって、各単語の先頭音素から同一の音素を共
通のノードとするツリーによって複数の単語を表現した
木構造辞書91と、前記木構造辞書に含まれる各単語に
対応したID情報であって、共通のノードを有する単語
同士は連続するように定義されたID情報82と、前記
木構造辞書のノード中の親のノードと到達可能な単語の
集合が異なるノードについてのノード情報であって、該
ノードから到達可能な単語の数と該単語の前記ID情報
の内最大又は最小のID情報とを含むノード情報92
と、を用いて、入力音声に最も適合した単語を探索す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識を行なう
音声認識装置及び音声認識方法並びにその方法に用いら
れる木構造辞書の作成方法に関わるものである。
【0002】
【従来の技術】隠れマルコフモデル(HMM)などの音
響モデルを用いる音声認識では、入力音声の特徴を抽出
し、単語辞書に記述された単語と音響モデルの関係に従
い、各単語を構成する音響モデルの出力確率を求め、Vi
rerbi探索などの探索手法を用いて、単語あるいは単語
を構成する各音素の各状態の尤度を探索し、音声認識を
行なう。
【0003】図11は、音響モデルとして音素モデルを
用い、認識対象語が『東京』『東海』『東北』である場
合の単語辞書の例である。各単語は、音素モデルの連結
によって表されている。
【0004】大語彙を対象にした音声認識では、図11
で示した例のように、先頭部分に同一の音素モデルを有
する単語が多数出現する。この共通部分の音響尤度は等
しくなるため、単語先頭の共通部分を共有化した木構造
単語辞書(以下、tree lexicon)を用いて、重複した部
分の音響尤度の計算を省く方法が一般に用いられてい
る。図12は、図11に示した単語を木構造化した、tr
ee lexiconの例である。図に示したように、tree lexic
onは音素を表すノードと、ノード間を接続するアークで
構成される。一方、図11に示したような単語先頭に共
通部分があっても共有化しない単語辞書を、linear lex
iconと呼ぶ。
【0005】このような単語辞書から、入力音声に最も
適合する単語を探索する際、単語連鎖確率(N-gram)など
に代表される言語モデルから得られる言語尤度を、音響
モデルから計算される音響尤度と併用することにより、
認識性能の向上、探索空間の削減、などの効果が得られ
る。
【0006】
【発明が解決しようとする課題】ところが、単語辞書と
してlinear lexiconを用いる時は、単語の先頭で単語が
一意に定まり、各単語の先頭音素の先頭状態の尤度を計
算する際に言語尤度を参照することができるのに対し、
tree lexiconを用いる場合には、単語が一意に決まるの
は、ツリーの末端のノード(最後に分岐した直後のノー
ド)に達したときである。図12の例では、太い丸で示
したノードに達して初めて単語が一意に決定される。従
って、言語尤度を用いるタイミングが遅くなり、十分な
探索空間の削減を図ることができなかった。
【0007】これに対して、tree lexiconを用いる場合
に、単語が一意に決まらない段階でも、共通音素部分で
音響尤度だけでなく、言語尤度をも共有化して用いる方
法が提案されている。これは、言語尤度を先読みするこ
とによって行われる。言語尤度の先読みとは、一般的
に、共有化した部分で、その部分から到達可能な全ての
単語の言語尤度の最大値(先読み値)を言語尤度として
用いることをいう。
【0008】言語尤度先読みの実現方法として、具体的
には以下の方法があるがそれぞれ問題点を有していた。
【0009】1.単語番号など単語IDは、ツリーの末
に保持しておき、言語尤度を計算する際に、ツリーをリ
ーフの方向に探索して到達可能な単語を求め、それらの
単語の尤度の最大値を求める方法。認識語数が多く、tr
ee lexiconが大きい場合に、到達可能な単語の探索に時
間がかかる。
【0010】2.tree lexicon上の各ノードで、全ての
到達可能な単語IDを保持し、探索時に、それらの全て
の単語尤度の最大値を求める方法(図13)。この例で
は、直前のノードと到達可能な単語が異なるノード(図
中、太丸で示す)に、到達可能な単語IDを保持させ
る。認識語数の増加にしたがい、各ノードで保持する単
語IDの数が増え、必要となる記憶領域が増加する。
【0011】3.tree lexicon上の、直前のノードと到
達可能な単語が異なるノード(図中、太丸で示す)に、
そのノードから到達可能な全ての単語の言語尤度の最大
値(先読み値)を保持させる(図14)。言語尤度とし
てbigram,trigramを用いる場合に、先行単語ごとに、
言語尤度を保持したツリーが必要となり、先行単語数が
多い場合などに、必要となる記憶領域が増加する。
【0012】4.tree lexicon上の各ノードにおける言
語尤度を計算しておき、直前のノード(ルート方向に接
続した隣のノード)からの差分を保持する(図15)。
この例では、まず、ツリーのルートのノードに言語尤度
が保持され、直前のノードと言語尤度が異なるノード
(図中、太丸で示す)に、直前のノードの言語尤度との
差分を保持している。上記3と同様に言語尤度としてbi
gram,trigramを用いる場合に、先行単語ごとに、言語
尤度を保持したツリーが必要となり、先行単語数が多い
場合などに、必要となる記憶領域が増加する。
【0013】本発明は、上記従来技術の課題を解決する
為になされたもので、その目的とするところは、木構造
単語辞書からの効率的な探索を少ない情報量で実現可能
な音声認識方法及び装置を提供することにある。
【0014】
【課題を解決するための手段】上記目的を達成する為、
本発明に係る音声認識装置は、単語を構成する音素をノ
ードとするツリーであって、各単語の先頭音素から同一
の音素を共通のノードとするツリーによって複数の単語
を表現した木構造辞書と、前記木構造辞書に含まれる各
単語に対応したID情報であって、共通のノードを有す
る単語同士は連続するように定義されたID情報と、前
記木構造辞書のノード中の親のノードと到達可能な単語
の集合が異なるノードについてのノード情報であって、
該ノードから到達可能な単語の数と該単語の前記ID情
報の内最大又は最小のID情報とを含むノード情報と、
を記憶する記憶手段と、前記木構造辞書から、前記ID
情報と前記ノード情報とを用いて、入力音声に最も適合
した単語を探索する探索手段と、を有することを特徴と
する。
【0015】また、本発明に係る一の音声認識方法は、
単語を構成する音素をノードとするツリーであって、各
単語の先頭音素から同一の音素を共通のノードとするツ
リーによって複数の単語を表現した木構造辞書と、前記
木構造辞書に含まれる各単語に対応したID情報であっ
て、共通のノードを有する単語同士は連続するように定
義されたID情報と、前記木構造辞書のノード中の親の
ノードと到達可能な単語の集合が異なるノードについて
のノード情報であって、該ノードから到達可能な単語の
数と該単語の前記ID情報の内最大又は最小のID情報
とを含むノード情報と、を用いた音声認識方法であっ
て、前記ノード情報に対応する言語尤度を参照して入力
音声の累積尤度を更新する累積尤度更新ステップと、前
記入力音声の最終的な累積尤度により、認識結果を出力
するステップと、を有することを特徴とする。
【0016】前記累積尤度更新ステップは、前記ノード
情報を用いて、親のノードと到達可能な単語の集合が異
なるノードから、到達可能な単語のID情報を特定する
単語ID特定ステップと、前記ID情報を用いて、前記
単語ID特定工程で特定されたID情報を有する単語を
特定する単語特定ステップと、前記単語特定工程で特定
された単語の言語尤度の最大値を、前記ノード情報に対
応した言語尤度として参照する言語尤度参照ステップ
と、を有することを特徴とする。
【0017】また、本発明は、音声認識方法に用いる木
構造辞書を作成する木構造辞書作成方法であって、複数
の単語をその構成音素に基づいて整列するステップと、
前記整列した単語順に連続したID情報を付与するステ
ップと、単語の先頭音素から共通な音素を同一のノード
として木構造化するステップと、木構造辞書のノードの
うち、親のノードと到達可能な単語の集合が異なるノー
ドに、そのノードから到達可能な単語の数と到達可能な
単語の前記ID情報のうち、最小又は最大のID情報と
ノード情報として付与するステップと、を備えることを
特徴とする。
【0018】更に、本発明の他の音声認識方法は、前記
木構造辞書作成方法で木構造辞書を作成するステップ
と、音声を取り込むステップと、取り込んだ入力音声を
分析して、その音素ごとに前記木構造辞書の前記ノード
情報に対応した言語尤度を導くステップと、前記言語尤
度を用いて、前記木構造辞書の中で前記入力音声に最も
適合した単語を音声認識結果として出力するステップ
と、を備えることを特徴とする。
【0019】ここで、前記入力音声を音響分析するステ
ップと、音響尤度を求めるステップと、を更に有するこ
とを特徴とする。
【0020】一方、本発明に係る一のコンピュータ可読
メモリは、音声認識装置を制御するための制御プログラ
ムを記憶したコンピュータ可読メモリであって、前記制
御プログラムは、前記木構造辞書作成方法で木構造辞書
を作成するプログラムと、音声を取り込むプログラム
と、取り込んだ入力音声を分析して、その音素ごとに前
記木構造辞書の前記ノード情報に対応した言語尤度を導
くプログラムと、前記言語尤度を用いて、前記木構造辞
書の中で前記入力音声に最も適合した単語を音声認識結
果として出力するプログラムと、を含むことを特徴とす
る。
【0021】本発明に係る他のコンピュータ可読メモリ
は、入力音声に最も適合した単語を探索する探索手段を
有する音声認識装置を制御するための制御プログラムを
記憶したコンピュータ可読メモリであって、前記探索手
段が用いる情報として、単語を構成する音素をノードと
するツリーであって、各単語の先頭音素から同一の音素
を共通のノードとするツリーによって複数の単語を表現
した木構造辞書と、前記木構造辞書に含まれる各単語に
対応したID情報であって、共通のノードを有する単語
同士は連続するように定義されたID情報と、前記木構
造辞書のノード中の親のノードと到達可能な単語の集合
が異なるノードについてのノード情報であって、該ノー
ドから到達可能な単語の数と該単語の前記ID情報の内
最大又は最小のID情報とを含むノード情報と、を格納
することを特徴とする。
【0022】
【発明の実施の形態】以下に、図面を参照して、この発
明の好適な実施の形態を例示的に詳しく説明する。ただ
し、この実施の形態に記載されている構成要素の相対配
置、数式、数値等は、特に特定的な記載がない限りは、
この発明の範囲をそれらのみに限定する趣旨のものでは
ない。
【0023】(一実施の形態)以下、図面を参照しなが
ら本発明の一実施の形態を説明する。
【0024】図1は本発明の一実施の形態としての音声
認識装置のハードウェア構成である。
【0025】図1において、1は音声認識の結果あるい
は音声認識の結果得られた応答を出力する出力装置であ
る。
【0026】2は音声を入力する入力装置である。
【0027】3は数値演算・制御等の処理を行なう中央
処理装置であり本発明の手順に従って演算を行なう。4
はディスク装置等の外部メモリ装置やRAM・ROM等
の内部メモリといった記憶装置であり、本発明の手順や
処理を記述したプログラムおよびその処理に必要な一時
的データおよび認識対象語を記述した単語辞書,音響モ
デル,言語モデルが格納される。
【0028】以上のハードウェア構成により、以下のよ
うな音声認識方法を実現することができる。
【0029】図2は本実施の形態に係る音声認識処理の
一例である。
【0030】まず、単語リスト読み込みステップS1
で、図3のような認識対象となる単語のリストを読み込
む。単語リストには、各単語に対し、単語を構成する音
響モデルが記述されている。
【0031】次に、音響モデル読み込みステップS2
で、HMMなど、単語を構成する音響モデルを読み込
む。次に、言語モデル読み込みステップS3で、言語尤
度の計算に用いる、N-gramなどの言語モデルを読み込
む。
【0032】次に、木構造辞書作成ステップS4で、単
語リストを基に、図12のような、木構造化した単語辞
書を作成する。
【0033】次に、音声取り込みステップS5で、マイ
クロフォンなど音声入力装置から入力された音声を一定
時間ごとに取り込む。
【0034】音響分析ステップS6で、取り込んだ音声
に対して、音響分析を行いケプストラムなどの特徴パラ
メータを求める。
【0035】次に、音響尤度計算ステップS7で、特徴
パラメータに対する各音響モデルの尤度を計算する。
【0036】次に、探索ステップS8で、木構造辞書に
記述された音響モデルの接続構造に従って、先頭音素か
ら順に、木構造辞書の各ノードにおける累積尤度をVire
rbi探索などの探索手法を用いて更新する。一般に、音
響モデルは図4のように複数の状態から構成されてお
り、累積尤度は、木構造辞書上の各ノードに対応する音
響モデルの各状態ごとに保持され、累積尤度の更新も各
状態ごとに行われる。また、累積尤度以外に、認識結果
を出力するために必要なその状態に到達するまでの履歴
に関する情報、言語尤度などを各状態ごとに保持する。
累積尤度の更新時に、必要に応じて言語尤度の先読みを
行い、言語尤度を更新する。一般に、累積尤度は、対数
音響尤度の累積値と対数言語尤度の累積値を用いて、以
下の式で計算される。wは重みである。
【0037】累積尤度=対数音響尤度の累積値+w×対
数言語尤度の累積値 (1)以上の音声取り込みステッ
プS5から探索ステップS8までの処理を音声が終了す
るまで繰り返す。音声の入力が終了した時点で、認識結
果出力ステップS9で、最も尤度の高い系列を求め、音
声認識結果として出力する。
【0038】以上の処理のうち、本発明では、木構造辞
書作成ステップS4における木構造辞書作成方法、およ
び探索ステップS8における言語尤度先読み方法を以下
のように処理する。
【0039】〈木構造辞書作成処理〉図5は、本実施の
形態における木構造辞書作成処理を示すフローチャート
である。以下、図5を用いて、説明する。
【0040】まず、単語整列ステップS10において、
認識語彙を音素順に整列(sort)する。以下で単語を整列
する方法について説明する。ここでは、単語の順序を、
その大小で表現する。m個の音素で構成される単語A=
1,a2,…,anとm個の音素で構成される単語B=
1,b2,…,bmの大小を以下のように判定する。 i=0 iを1増やす(i=i+1)。 i>nまたはi>mのとき、 n=mならA=B,n>mならA>B,n<mならA<
Bと判定する(終了)。 ai=biとき、へ戻る。 ai>biならA>B,ai<biならA<Bと判定する
(終了)。
【0041】各音素ai,biの大小は、音素名が一文字
のアルファベットで表せる場合は、アルファベット順で
決定し、図6に示すように音素名に複数のアルファベッ
トで表現されたり、記号で表される場合は、音素番号を
付与し、音素番号を大小の判定基準に用いればよい。
【0042】次に、単語ID付与ステップS11で、整
列順に単語IDを付与する。単語IDには、番号、アル
ファベットなど順序(大小)を判断できるものを用い
る。図は図3を整列し、単語IDとして、番号を付与し
た例である。
【0043】次に、共有化ステップS12で、各単語同
士を順に比較し、単語の先頭から共通な部分を共有化し
木構造辞書を作成する。図8は、図7の単語の共通な先
頭部分を共有化して作成した木構造辞書の例である。
【0044】次に、到達可能単語情報付与ステップS1
3で、木構造辞書のノードに到達可能な単語の情報を付
与する。
【0045】単語を、単語を構成する音素で整列し、整
列順に単語IDを付与して木構造辞書を作成すると、木
構造辞書の各ノードから到達可能な単語の集合は、連続
した単語IDを持つ。例えば、図8において、矢印で示
した‘a’のノード81から到達可能な単語の単語ID
82は、1〜9である。また、矢印で示した‘u’のノ
ード83から到達可能な単語の単語IDは、7〜8であ
り、いずれも連続した単語IDとなる。これらの特性を
利用して、本方法では、各ノードに付与する到達可能な
情報として、到達可能な単語の最小の単語IDと、到達
可能な単語数をノードに付与する。これらの情報をここ
ではノード情報と称す。
【0046】ここで、ノード情報は、全てのノードには
付与せずに、親のノードと到達可能な単語の集合が異な
るノードのみに付与する。到達可能な単語の集合は、ツ
リーの分岐によって変るため、分岐直後のノードに対し
て、上述した、到達可能な単語の最小の単語IDと、到
達可能な単語数をノードに付与する。
【0047】図9の91は、図8に示した木構造辞書に
到達可能な単語情報を付与したものである。図中、太丸
で示したノードが、直前のノードと到達可能な単語の集
合が異なるノードであり、ノード内に記した数字92
は、左から順に、到達可能な単語の最小単語ID、到達
可能な単語数である。網掛けされたノードは単語が一意
に決定されるノードである。
【0048】これにより、太丸で示されたノードまでの
音素のマッチングが終了した時点で、そのノードに付与
された情報としての単語IDから言語尤度を導き出すこ
とができ、効率的な単語探索及び言語尤度の参照を行な
うことができる。
【0049】なお、ここでは、ノードに付与する情報と
して、そのノードから到達可能な単語のIDの内、最小
のものとしているが、最大のものを付与してもよい。ノ
ードから到達可能な単語数とともにもちいることで、ノ
ードから到達可能な単語を特定できる情報であればよ
い。
【0050】〈言語尤度先読み処理〉次に、以上で作成
した木構造辞書を用いて音声認識を行う際に、言語尤度
を先読みする処理について説明する。図10は言語尤度
先読み方法に関する本実施の形態を示すフローチャート
である。
【0051】到達可能な単語の情報(ノード情報)が付
与されているノード(図9で太丸で示したノード)の音
響モデルの最初の状態の累積尤度更新時に、他の状態か
ら遷移して来た場合の累積尤度を計算する際に、言語尤
度先読みを行い、図10に示した手順で言語尤度の更新
を行う。
【0052】まず、先読み値参照ステップS14で、到
達可能な単語の最小の単語ID(s)と到達可能な単語
数(n)の先読み値^pl(s,n)、つまり、ID(s)
から連続したn個の単語の言語尤度のうち、最大のもの
を参照する。
【0053】メモリあるいはハードディスクなどの記憶
装置上に^pl(s,n)が記憶されている場合は、言語尤
度更新ステップS15において、そのノードでの言語尤
度をその記憶されている先読み値^pl(s,n)に更新す
る。
【0054】^pl(s,n)が記憶されていない場合は、
先読み値計算ステップS16で先読み値^pl(s,n)を
以下の式で求める。
【0055】
【数1】
【0056】ここで、pl(wi)は、単語ID(i)の単
語の言語尤度であり、図2の言語モデル読み込みステッ
プS3で読み込まれたものである。
【0057】この計算は、ノード情報を用いて、そのノ
ードから到達できる単語のID情報を特定し、図7のよ
うなテーブルを用いてそのID情報を有する単語の言語
尤度の最大値を、前記ノード情報に対応した言語尤度と
して求めるものである。
【0058】ステップS17に進み、求めた先読み値^
l(s,n)を記憶手段に登録した上で、ステップS15
において言語尤度を^pl(s,n)に更新する。
【0059】先読み値の記憶、参照には、s,nから記
憶装置上の先読み値を格納した位置を計算するため、ha
sh関数などのランダムアクセスに有効なアルゴリズムを
用いる。
【0060】なお、言語尤度先読みの処理において、言
語モデルとしてbigramを用いる場合には、先行単語I
D、到達可能な単語の最小の単語ID、到達可能な単語
数の3つの値をノード情報に含め、先行単語に対する先
読み値の記憶、参照を、このノード情報を用いて行えば
よい。
【0061】同様にN-gramを言語モデルとして用いる場
合には、(N−1)個前の先行単語ID,…,1個前の
先行単語ID、到達可能な単語の最小の単語ID、到達
可能な単語数の(N+1)個の値をノード情報に含めれ
ばよい。これにより、記憶領域が大幅に増加することな
く、効率的な単語探索を行なうことができ、認識精度も
向上させることができる。
【0062】(他の実施形態)また、本発明の目的は、
前述した実施形態の機能を実現するソフトウェアのプロ
グラムコードを記録した記憶媒体(または記録媒体)
を、システムあるいは装置に供給し、そのシステムある
いは装置のコンピュータ(またはCPUやMPU)が記憶媒体
に格納されたプログラムコードを読み出し実行すること
によっても、達成されることは言うまでもない。この場
合、記憶媒体から読み出されたプログラムコード自体が
前述した実施形態の機能を実現することになり、そのプ
ログラムコードを記憶した記憶媒体は本発明を構成する
ことになる。また、コンピュータが読み出したプログラ
ムコードを実行することにより、前述した実施形態の機
能が実現されるだけでなく、そのプログラムコードの指
示に基づき、コンピュータ上で稼働しているオペレーテ
ィングシステム(OS)などが実際の処理の一部または全部
を行い、その処理によって前述した実施形態の機能が実
現される場合も含まれることは言うまでもない。
【0063】さらに、記憶媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張カー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書込まれた後、そのプログラムコードの指示
に基づき、その機能拡張カードや機能拡張ユニットに備
わるCPUなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。
【0064】本発明を上記記憶媒体に適用する場合、そ
の記憶媒体には、先に説明した図8や図9に例として示
したデータ、あるいは、図2又は図5又は図10に示し
たフローチャートに対応するプログラムコードが格納さ
れることになる。
【0065】
【発明の効果】本発明によれば、木構造単語辞書からの
効率的な探索を少ない情報量で実現可能な音声認識装置
及び音声認識方法並びにその方法に用いられる木構造辞
書の作成方法を提供することができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態としての音声認識装置の
ハードウェア構成を示したブロック図である。
【図2】本発明の一実施の形態における、音声認識の処
理手順を示したフローチャートである。
【図3】本発明の一実施の形態おける、音声認識する単
語と各単語を構成する音素を記述したリストである。
【図4】音素を構成する状態とその遷移の例を示す図で
ある。
【図5】本発明の一実施の形態における、木構造辞書作
成の処理手順を示したフローチャートである。
【図6】単語を構成する音素とその並びの例を示す図で
ある。
【図7】本発明の一実施の形態おける、音声認識する単
語をその単語を構成する音素に基づいて整列し、単語I
Dを付与した単語リストを示す図である。
【図8】本発明の一実施の形態おける、構成音素に基づ
いて整列し、単語IDを付与した単語リストから作成し
た木構造辞書である。
【図9】本発明の一実施の形態おいて、直前のノードと
到達可能な単語集合が異なる木構造辞書上のノードに、
到達可能な単語の単語IDの最小値と、到達可能な単語
数を付与した様子を示す図である。
【図10】本発明の一実施の形態における、言語尤度先
読みの処理手順を示したフローチャートである。
【図11】単語辞書の例である。
【図12】木構造辞書の例である。
【図13】木構造辞書上の各ノードから、全ての到達可
能な単語IDを保持している様子を示した図である。
【図14】木構造辞書上の各ノードにおける言語尤度を
保持している様子を示した図である。
【図15】木構造辞書上の各ノードにおいて、直前のノ
ードとの言語尤度の差分を保持している様子を示した図
である。
【符号の説明】
1 出力装置 2 入力装置 3 中央処理装置 4 記憶装置

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】単語を構成する音素をノードとするツリー
    であって、各単語の先頭音素から同一の音素を共通のノ
    ードとするツリーによって複数の単語を表現した木構造
    辞書と、 前記木構造辞書に含まれる各単語に対応したID情報で
    あって、共通のノードを有する単語同士は連続するよう
    に定義されたID情報と、 前記木構造辞書のノード中の親のノードと到達可能な単
    語の集合が異なるノードについてのノード情報であっ
    て、該ノードから到達可能な単語の数と該単語の前記I
    D情報の内最大又は最小のID情報とを含むノード情報
    と、 を記憶する記憶手段と、 前記木構造辞書から、前記ID情報と前記ノード情報と
    を用いて、入力音声に最も適合した単語を探索する探索
    手段と、 を有することを特徴とする音声認識装置。
  2. 【請求項2】単語を構成する音素をノードとするツリー
    であって、各単語の先頭音素から同一の音素を共通のノ
    ードとするツリーによって複数の単語を表現した木構造
    辞書と、 前記木構造辞書に含まれる各単語に対応したID情報で
    あって、共通のノードを有する単語同士は連続するよう
    に定義されたID情報と、 前記木構造辞書のノード中の親のノードと到達可能な単
    語の集合が異なるノードについてのノード情報であっ
    て、該ノードから到達可能な単語の数と該単語の前記I
    D情報の内最大又は最小のID情報とを含むノード情報
    と、 を用いた音声認識方法であって、 前記ノード情報に対応する言語尤度を参照して入力音声
    の累積尤度を更新する累積尤度更新ステップと、 前記入力音声の最終的な累積尤度により、認識結果を出
    力するステップと、 を有することを特徴とする音声認識方法。
  3. 【請求項3】前記累積尤度更新ステップは、 前記ノード情報を用いて、親のノードと到達可能な単語
    の集合が異なるノードから、到達可能な単語のID情報
    を特定する単語ID特定ステップと、 前記ID情報を用いて、前記単語ID特定工程で特定さ
    れたID情報を有する単語を特定する単語特定ステップ
    と、 前記単語特定工程で特定された単語の言語尤度の最大値
    を、前記ノード情報に対応した言語尤度として参照する
    言語尤度参照ステップと、 を有することを特徴とする請求項2に記載の音声認識方
    法。
  4. 【請求項4】音声認識方法に用いる木構造辞書を作成す
    る木構造辞書作成方法であって、 複数の単語をその構成音素に基づいて整列するステップ
    と、 前記整列した単語順に連続したID情報を付与するステ
    ップと、 単語の先頭音素から共通な音素を同一のノードとして木
    構造化するステップと、木構造辞書のノードのうち、親
    のノードと到達可能な単語の集合が異なるノードに、そ
    のノードから到達可能な単語の数と到達可能な単語の前
    記ID情報のうち、最小又は最大のID情報とノード情
    報として付与するステップと、 を備えることを特徴とする木構造辞書作成方法。
  5. 【請求項5】請求項4に記載の木構造辞書作成方法で木
    構造辞書を作成するステップと、 音声を取り込むステップと、 取り込んだ入力音声を分析して、その音素ごとに前記木
    構造辞書の前記ノード情報に対応した言語尤度を導くス
    テップと、 前記言語尤度を用いて、前記木構造辞書の中で前記入力
    音声に最も適合した単語を音声認識結果として出力する
    ステップと、 を備えることを特徴とする音声認識方法。
  6. 【請求項6】前記入力音声を音響分析するステップと、 音響尤度を求めるステップと、 を更に有することを特徴とする請求項5に記載の音声認
    識方法。
  7. 【請求項7】音声認識装置を制御するための制御プログ
    ラムを記憶したコンピュータ可読メモリであって、 前記制御プログラムは、 請求項4に記載の木構造辞書作成方法で木構造辞書を作
    成するプログラムと、 音声を取り込むプログラムと、 取り込んだ入力音声を分析して、その音素ごとに前記木
    構造辞書の前記ノード情報に対応した言語尤度を導くプ
    ログラムと、 前記言語尤度を用いて、前記木構造辞書の中で前記入力
    音声に最も適合した単語を音声認識結果として出力する
    プログラムと、 を含むことを特徴とするコンピュータ可読メモリ。
  8. 【請求項8】入力音声に最も適合した単語を探索する探
    索手段を有する音声認識装置を制御するための制御プロ
    グラムを記憶したコンピュータ可読メモリであって、 前記探索手段が用いる情報として、 単語を構成する音素をノードとするツリーであって、各
    単語の先頭音素から同一の音素を共通のノードとするツ
    リーによって複数の単語を表現した木構造辞書と、 前記木構造辞書に含まれる各単語に対応したID情報で
    あって、共通のノードを有する単語同士は連続するよう
    に定義されたID情報と、 前記木構造辞書のノード中の親のノードと到達可能な単
    語の集合が異なるノードについてのノード情報であっ
    て、該ノードから到達可能な単語の数と該単語の前記I
    D情報の内最大又は最小のID情報とを含むノード情報
    と、 を格納することを特徴とするコンピュータ可読メモリ。
JP09704199A 1999-04-02 1999-04-02 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法 Expired - Fee Related JP4289715B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP09704199A JP4289715B2 (ja) 1999-04-02 1999-04-02 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法
US09/538,388 US6507815B1 (en) 1999-04-02 2000-03-29 Speech recognition apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09704199A JP4289715B2 (ja) 1999-04-02 1999-04-02 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法

Publications (2)

Publication Number Publication Date
JP2000293191A true JP2000293191A (ja) 2000-10-20
JP4289715B2 JP4289715B2 (ja) 2009-07-01

Family

ID=14181502

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09704199A Expired - Fee Related JP4289715B2 (ja) 1999-04-02 1999-04-02 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法

Country Status (2)

Country Link
US (1) US6507815B1 (ja)
JP (1) JP4289715B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005265967A (ja) * 2004-03-16 2005-09-29 Advanced Telecommunication Research Institute International 木構造辞書を記録した記憶媒体、及び木構造辞書の言語スコアテーブル作成プログラム
JP2006174774A (ja) * 2004-12-22 2006-07-06 Rnai:Kk サンプルセット製造方法、遺伝子整列プログラム、サンプルセット及び対象物整列プログラム
JP2007163896A (ja) * 2005-12-14 2007-06-28 Canon Inc 音声認識装置および方法
JP2009092844A (ja) * 2007-10-05 2009-04-30 Kddi Corp パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体
JP2010540976A (ja) * 2007-10-04 2010-12-24 株式会社東芝 自動音声認識の方法および装置
JP2012018403A (ja) * 2011-08-01 2012-01-26 Kddi Corp パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体
JP2014206677A (ja) * 2013-04-15 2014-10-30 株式会社アドバンスト・メディア 音声認識装置および音声認識結果確定方法
JP2020190587A (ja) * 2019-05-20 2020-11-26 カシオ計算機株式会社 ロボットの制御装置、ロボット、ロボットの制御方法及びプログラム

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3715469B2 (ja) * 1999-06-30 2005-11-09 パイオニア株式会社 音声操作装置
US7930181B1 (en) 2002-09-18 2011-04-19 At&T Intellectual Property Ii, L.P. Low latency real-time speech transcription
KR100554442B1 (ko) * 2003-10-06 2006-02-22 주식회사 팬택앤큐리텔 음성인식 기능을 가진 이동 통신 단말기, 및 이를 위한음소 모델링 방법 및 음성 인식 방법
JP2006178013A (ja) * 2004-12-20 2006-07-06 Canon Inc データベース作成装置及び方法
US20060136195A1 (en) * 2004-12-22 2006-06-22 International Business Machines Corporation Text grouping for disambiguation in a speech application
KR100703697B1 (ko) * 2005-02-02 2007-04-05 삼성전자주식회사 어휘 그룹 트리를 이용한 어휘 인식 방법 및 장치
KR100748720B1 (ko) * 2006-02-09 2007-08-13 삼성전자주식회사 다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치
US8744860B2 (en) 2010-08-02 2014-06-03 At&T Intellectual Property I, L.P. Apparatus and method for providing messages in a social network
US9037464B1 (en) 2013-01-15 2015-05-19 Google Inc. Computing numeric representations of words in a high-dimensional space

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0782544B2 (ja) * 1989-03-24 1995-09-06 インターナショナル・ビジネス・マシーンズ・コーポレーション マルチテンプレートを用いるdpマツチング方法及び装置
US6067520A (en) * 1995-12-29 2000-05-23 Lee And Li System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
US6278968B1 (en) * 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6243669B1 (en) * 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005265967A (ja) * 2004-03-16 2005-09-29 Advanced Telecommunication Research Institute International 木構造辞書を記録した記憶媒体、及び木構造辞書の言語スコアテーブル作成プログラム
JP4521631B2 (ja) * 2004-03-16 2010-08-11 株式会社国際電気通信基礎技術研究所 木構造辞書を記録した記憶媒体、及び木構造辞書の言語スコアテーブル作成プログラム
JP2006174774A (ja) * 2004-12-22 2006-07-06 Rnai:Kk サンプルセット製造方法、遺伝子整列プログラム、サンプルセット及び対象物整列プログラム
JP4638726B2 (ja) * 2004-12-22 2011-02-23 株式会社アルファジェン サンプルセット製造方法、遺伝子整列プログラム及びサンプルセット
JP2007163896A (ja) * 2005-12-14 2007-06-28 Canon Inc 音声認識装置および方法
JP2010540976A (ja) * 2007-10-04 2010-12-24 株式会社東芝 自動音声認識の方法および装置
JP2009092844A (ja) * 2007-10-05 2009-04-30 Kddi Corp パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体
JP2012018403A (ja) * 2011-08-01 2012-01-26 Kddi Corp パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体
JP2014206677A (ja) * 2013-04-15 2014-10-30 株式会社アドバンスト・メディア 音声認識装置および音声認識結果確定方法
JP2020190587A (ja) * 2019-05-20 2020-11-26 カシオ計算機株式会社 ロボットの制御装置、ロボット、ロボットの制御方法及びプログラム
JP7342419B2 (ja) 2019-05-20 2023-09-12 カシオ計算機株式会社 ロボットの制御装置、ロボット、ロボットの制御方法及びプログラム

Also Published As

Publication number Publication date
JP4289715B2 (ja) 2009-07-01
US6507815B1 (en) 2003-01-14

Similar Documents

Publication Publication Date Title
CN108305634B (zh) 解码方法、解码器及存储介质
US6073095A (en) Fast vocabulary independent method and apparatus for spotting words in speech
JP4465564B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
US7487091B2 (en) Speech recognition device for recognizing a word sequence using a switching speech model network
JP4802434B2 (ja) 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体
JP4289715B2 (ja) 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法
EP1199707A2 (en) Method and apparatus for dynamic adaptation of a large vocabulary speech recognition system and for use of constraints from a database in a large vocabulary speech recognition system
US7401019B2 (en) Phonetic fragment search in speech data
JP3459712B2 (ja) 音声認識方法及び装置及びコンピュータ制御装置
US5987409A (en) Method of and apparatus for deriving a plurality of sequences of words from a speech signal
JP2002215187A (ja) 音声認識方法及びその装置
JP3634863B2 (ja) 音声認識システム
US20050075876A1 (en) Continuous speech recognition apparatus, continuous speech recognition method, continuous speech recognition program, and program recording medium
JP2003208195A5 (ja)
US20030061046A1 (en) Method and system for integrating long-span language model into speech recognition system
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
JP2001242885A (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP3042455B2 (ja) 連続音声認識方式
US20050049873A1 (en) Dynamic ranges for viterbi calculations
JP2938865B1 (ja) 音声認識装置
JP3265864B2 (ja) 音声認識装置
JP2002215184A (ja) 音声認識装置、及びプログラム
JP3494338B2 (ja) 音声認識方法
JP4104831B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP3818154B2 (ja) 音声認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060310

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20060310

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060310

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080728

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080807

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090316

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090331

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120410

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130410

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130410

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140410

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees