JP3105930B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3105930B2
JP3105930B2 JP03033967A JP3396791A JP3105930B2 JP 3105930 B2 JP3105930 B2 JP 3105930B2 JP 03033967 A JP03033967 A JP 03033967A JP 3396791 A JP3396791 A JP 3396791A JP 3105930 B2 JP3105930 B2 JP 3105930B2
Authority
JP
Japan
Prior art keywords
dictionary
word
subset
words
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03033967A
Other languages
English (en)
Other versions
JPH04273299A (ja
Inventor
恵一 宮本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP03033967A priority Critical patent/JP3105930B2/ja
Publication of JPH04273299A publication Critical patent/JPH04273299A/ja
Application granted granted Critical
Publication of JP3105930B2 publication Critical patent/JP3105930B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識装置に関す
る。
【0002】
【従来の技術】近年、音声認識装置は各種制御機器、パ
ーソナルコンピュータ、ワードプロセッサ等の入力装置
として実用化されつつある。これらの装置の認識対象
は、一般には、離散発声された単語で制御コマンドや制
御オブジェクトを表すものが主である。これらの音声認
識・入力装置にとって最も重要な性能は、認識率と認識
速度である。
【0003】ここに、音声入力装置の認識率はその認識
対象単語の数の増加に伴い低下し、認識速度も低下す
る。このため、認識対象単語数はある程度以下に抑える
のが望ましいが、これは音声処理部が勝手に決め得る要
素ではない。
【0004】ところが、コマンドやオブジェクトの構造
が階層的となっているとき、例えば、住所を音声で入力
するような場合(東京、江東区、××町、○○番地、…
等)には、各々の局面で認識対象となる単語は限られて
いる。つまり、都道府県を入力する局面では、市区町村
を示す単語は必要ないということなどである。
【0005】このようなアプリケーションの場合には、
音声認識の対象となる単語を、各々の局面で必要な単語
だけに限定することが可能である。こうすれば、その局
面局面において、認識対象単語の数が減少したことにな
り、認識率と認識速度の低下を最低限に抑えることが可
能となる。
【0006】そこで、従来にあってはこのような目的を
達成するために認識単語辞書をカテゴリー毎に幾つかに
分割し、認識処理時には前もってどの部分辞書を使うか
を指定するという方法がとられている。より具体的に
は、各単語に辞書中の単語属性として、所属する部分辞
書のID番号を登録しておき、認識時に指定されるID
がそれと合致するときだけ、認識対象になるというもの
である。図7はこのようなID番号による単語辞書の分
割の様子を示すものである。
【0007】
【発明が解決しようとする課題】ところが、このような
方法では、一つの単語は一つのID番号しか持てないた
め、同じ単語が異なった局面で使われるときには、若干
の工夫が必要となる。例えば、同じ単語辞書を複数作っ
ておき、互いに異なるID番号を与えておくとか、認識
時に必要な単語が全て得られるように複数のID番号を
指定するといった方法である。ところが、前者の場合に
は辞書容量が増大してしまい、後者の場合には複数のI
D番号を指定するために余分な単語まで認識対象として
しまうおそれがあり、当初の目的に反するものとなって
しまう。
【0008】
【課題を解決するための手段】請求項1記載の発明で
は、各部分集合に対応し各ビットのオン・オフによりそ
の単語が何れの部分集合辞書に属するか否かを決定する
ビット列を各単語毎に有する単語辞書と、入力された単
語音声の特徴量を抽出する特徴抽出部と、入力された単
語音声の特徴量と予め前記単語辞書に記憶された複数の
単語の特徴量との類似度を計算する類似度計算部と、計
算された類似度から単一又は複数の単語を認識結果とし
て選択するとともに次回の認識対象とする部分集合辞書
が前記単語辞書中の各単語が持つ前記ビット列の何れに
対応するかの情報を出力する結果選択部と、この結果選
択部による認識結果とビット列情報とに基づき前記単語
辞書中の単一又は複数の単語を部分集合として選択して
次回の音声認識時にこの選択された部分集合辞書のみを
認識対象として選択する部分辞書選択部とを設け、前記
単語辞書が、複数の部分集合辞書に属する単語に対して
はビット列情報と複数の部分集合辞書に属することを示
す識別子を持ち、ただ一つの部分集合辞書にのみ属する
単語に対してはその部分集合を表す識別子のみを持ち、
全ての部分集合辞書に属する単語に対しては全ての場合
に認識対象となる旨を表す識別子を持つものとした。
【0009】請求項2記載の発明では、部分辞書選択部
に対して結果選択部からの認識結果とともに外部からの
部分辞書指定情報を入力させた。
【0010】
【作用】請求項1記載の発明によれば、単語辞書が辞書
中の各単語に各部分集合に対応するビット列を持ち、そ
のビット列のオン・オフによりその単語が何れの部分集
合辞書に属するかを表すものとし、部分辞書選択部に対
して結果選択部より次回の認識対象の部分集合辞書がビ
ット列の何れに対応しているかの情報を出力して、認識
対象を絞るので、局面により認識対象となる単語の重複
があっても、単語辞書を二重化したり、余分な単語を認
識対象としてしまうようなことなく、ビット列で表現し
得る分の部分集合辞書に対処できるものとなる。また、
単語の部分集合辞書に属する場合を3種に分け、その種
別を表す識別子を用いて省略された形でビット列情報を
単語辞書に格納するようにしたので、単語辞書の容量を
大幅に節約できるものとなる
【0011】この際、請求項2記載の発明によれば、部
分辞書選択部に対して外部からの部分辞書指定情報の入
力も可能としたので、部分集合辞書情報の初期化等に活
用できる。
【0012】
【実施例】本発明の第一の実施例を図1及び図2に基づ
いて説明する。図2は全体構成を示すブロック図であ
る。まず、予め複数単語分の特徴量を記憶して単語辞書
となる特徴量辞書1が設けられている。また、マイクロ
フォン等を通じて入力される音声入力からその特徴量を
抽出する特徴抽出部2が設けられている。この特徴抽出
部2と前記特徴量辞書1とには類似度計算部3が接続さ
れている。この類似度計算部3の出力側には結果選択部
4が接続され、この結果接続部4と前記特徴量辞書1と
の間には部分辞書選択部5が接続されている。
【0013】このような構成において、基本的には、音
声入力は特徴抽出部2で特徴量が抽出される。抽出され
た特徴量は類似度計算部3において、部分辞書選択部5
によって特徴量辞書1中から選択された語彙のみと類似
度が計算される。全ての選択された語彙との類似度が計
算された後、最も類似度が高い語が認識結果として選択
される。この認識結果は、次回の部分辞書の選択にも使
われる。
【0014】ここに、本実施例の特徴とする特徴量辞書
1の構造を図1に示し、その辞書選択法を説明する。ま
ず、この特徴量辞書1は記憶された単語数n分の辞書に
分割できる。さらに、各単語の特徴量の格納部分1aの
一部、例えば図示のように先頭部分には部分集合辞書に
対応させた部分集合ビット列の格納部分1bが配置され
ている。本例では、部分集合1〜8,9〜16,17〜
24,25〜32で示すように32ビットのビット列が
用いられている。このビット列により、各単語は、32
通りの部分集合辞書に独立して属したり属さなかったり
することができる。属すか属さないかは、対応するビッ
トのオン・オフ(1又は0)により決まる。図示例は、
単語2が部分集合辞書の番号1,22,26に属してい
ることを表している。
【0015】このような特徴量辞書1構造に対して、結
果選択部4では前回の認識結果や制御される機器の状態
に従って、次回の認識に必要な辞書を選択し、その番号
を部分辞書選択部5に送る。部分辞書選択部5ではその
辞書番号に対応するビットがオンのビット列を有する単
語だけを類似度計算部3に送り、認識対象とする。この
ようにして、各局面に最適な部分集合辞書が選択されて
認識が行なわれる。
【0016】なお、音声認識のアルゴリズムや、特定話
者・不特定話者方式等は特に限定されるものでなく、ま
た、周知の認識処理部分については説明を省略した。
【0017】つづいて、本発明の第二の実施例を図3な
いし図6により説明する。前記実施例で示した部分と同
一部分は同一符号を用いて示す。図3に示す全体構成に
おいては、前記実施例とほぼ同様であるが、本実施例で
は、部分辞書選択部5に対して、結果選択部4からの認
識結果の他、部分辞書指定入力を外部から与え得るよう
に構成したものである。このような外部入力を可能とす
ることにより、初期化などに活用できる。
【0018】ついで、本実施例による特徴量辞書1の構
造を説明する。この場合も、記憶された単語数分の辞書
に分割し得る他、各単語の特徴量の一部、例えば先頭部
分に、部分集合辞書に対する種別を表す識別子と、種別
に応じた部分集合辞書に対応するビット列、辞書番号又
はビット列なしとの組合せが格納されている。
【0019】まず、図4は例えばある単語2が複数の部
分集合辞書に属する場合を示す。これは、基本的には、
図1に示したものと同様であるが、部分集合ビット列情
報において、その先頭部分に複数の部分集合辞書に属す
る旨の識別子“00”を有するものとされている。
【0020】図5は例えばある単語3がただ一つの部分
集合辞書に属する場合を示す。このの場合には、部分集
合ビット列情報としては、この旨を表す識別子“10”
と、上記のビット列に代えて、部分集合辞書番号の情報
が記憶されている。この辞書番号は、ビットを数値でエ
ンコードした形で記述できるので、32種の部分集合辞
書から一つを指定するのに5ビットで足りる。図示例
は、“11010”により単語3が部分集合辞書番号2
6に属していることを示す。
【0021】図6は例えばある単語4が全ての部分集合
辞書に属する場合を示す。この場合には、部分集合ビッ
ト列情報としては、この旨を表す識別子“01”のみが
記憶され、これ以外は記憶されない。図示例は、識別子
“01”により単語4が全ての場合に認識対象となるこ
とを示す。
【0022】辞書選択処理は、前記実施例の場合と同様
に行なわれる。
【0023】本実施例によれば、前記実施例に加えて、
各単語が部分集合辞書に属する態様によって3種に分け
られた辞書構成としたので、部分集合ビット列情報格納
による辞書容量の増加を抑制できるものとなる。
【0024】
【発明の効果】本発明は、上述したように構成したの
で、請求項1記載の発明によれば、単語辞書が辞書中の
各単語に各部分集合に対応するビット列を持ち、そのビ
ット列のオン・オフによりその単語が何れの部分集合辞
書に属するかを表すものとし、部分辞書選択部に対して
結果選択部より次回の認識対象の部分集合辞書がビット
列の何れに対応しているかの情報を出力させて、認識対
象を絞るようにしたので、局面により認識対象となる単
語の重複があっても、単語辞書を二重化したり、余分な
単語を認識対象としてしまうようなことなく、ビット列
で表現し得る分の部分集合辞書に対処することができ
。また、単語の部分集合辞書に属する場合を3種に分
け、その種別を表す識別子を用いて省略された形でビッ
ト列情報を単語辞書に格納するようにしたので、単語辞
書の容量を大幅に節約できるものとなる
【0025】この際、請求項2記載の発明によれば、部
分辞書選択部に対して外部からの部分辞書指定情報の入
力も可能としたので、部分集合辞書情報の初期化等に活
用することができる。
【図面の簡単な説明】
【図1】本発明の第一の実施例を示す特徴量辞書の構造
図である。
【図2】全体的構成を示すブロック図である。
【図3】本発明の第二の実施例を示すブロック図であ
る。
【図4】特徴量辞書の構造図である。
【図5】特徴量辞書の構造図である。
【図6】特徴量辞書の構造図である。
【図7】従来例を示す辞書の構造図である。
【符号の説明】
1 単語辞書 1b ビット列 2 特徴抽出部 3 類似度計算部 4 結果選択部 5 部分辞書選択部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭56−29293(JP,A) 特開 昭56−32196(JP,A) 特開 昭61−275898(JP,A) 特開 平3−155598(JP,A) 特開 昭60−26998(JP,A) 特開 昭57−5099(JP,A) 特開 昭59−219798(JP,A) 特開 昭56−140398(JP,A) 特開 昭57−63599(JP,A) 特開 昭60−130798(JP,A) 特開 平4−276800(JP,A) 特公 平8−20877(JP,B2) Nikulaus Wirth著,片 山卓也訳「アルゴリズム+データ構造= プログラム」(昭54−9−15)日本コン ピュータ協会 p.25〜30,36〜37 (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 17/00

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 各部分集合に対応し各ビットのオン・オ
    フによりその単語が何れの部分集合辞書に属するか否か
    を決定するビット列を各単語毎に有する単語辞書と、入
    力された単語音声の特徴量を抽出する特徴抽出部と、入
    力された単語音声の特徴量と予め前記単語辞書に記憶さ
    れた複数の単語の特徴量との類似度を計算する類似度計
    算部と、計算された類似度から単一又は複数の単語を認
    識結果として選択するとともに次回の認識対象とする部
    分集合辞書が前記単語辞書中の各単語が持つ前記ビット
    列の何れに対応するかの情報を出力する結果選択部と、
    この結果選択部による認識結果とビット列情報とに基づ
    き前記単語辞書中の単一又は複数の単語を部分集合とし
    て選択して次回の音声認識時にこの選択された部分集合
    辞書のみを認識対象として選択する部分辞書選択部とよ
    りなり、前記単語辞書が、複数の部分集合辞書に属する
    単語に対してはビット列情報と複数の部分集合辞書に属
    することを示す識別子を持ち、ただ一つの部分集合辞書
    にのみ属する単語に対してはその部分集合を表す識別子
    のみを持ち、全ての部分集合辞書に属する単語に対して
    は全ての場合に認識対象となる旨を表す識別子を持つ
    とを特徴とする音声認識装置。
  2. 【請求項2】 部分辞書選択部に対して結果選択部から
    の認識結果とともに外部からの部分辞書指定情報を入力
    させたことを特徴とする請求項1記載の音声認識装置。
JP03033967A 1991-02-28 1991-02-28 音声認識装置 Expired - Fee Related JP3105930B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03033967A JP3105930B2 (ja) 1991-02-28 1991-02-28 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03033967A JP3105930B2 (ja) 1991-02-28 1991-02-28 音声認識装置

Publications (2)

Publication Number Publication Date
JPH04273299A JPH04273299A (ja) 1992-09-29
JP3105930B2 true JP3105930B2 (ja) 2000-11-06

Family

ID=12401265

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03033967A Expired - Fee Related JP3105930B2 (ja) 1991-02-28 1991-02-28 音声認識装置

Country Status (1)

Country Link
JP (1) JP3105930B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4363076B2 (ja) 2002-06-28 2009-11-11 株式会社デンソー 音声制御装置
JP2004226698A (ja) * 2003-01-23 2004-08-12 Yaskawa Electric Corp 音声認識装置
JP4392581B2 (ja) * 2003-02-20 2010-01-06 ソニー株式会社 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
ATE514162T1 (de) 2005-12-08 2011-07-15 Nuance Comm Austria Gmbh Dynamische erzeugung von kontexten zur spracherkennung

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Nikulaus Wirth著,片山卓也訳「アルゴリズム+データ構造=プログラム」(昭54−9−15)日本コンピュータ協会 p.25〜30,36〜37

Also Published As

Publication number Publication date
JPH04273299A (ja) 1992-09-29

Similar Documents

Publication Publication Date Title
US7831911B2 (en) Spell checking system including a phonetic speller
WO2018149209A1 (zh) 语音识别方法、电子设备以及计算机存储介质
JP5241840B2 (ja) データベース内の文書をインデックス付け及び検索するための、コンピュータで実施される方法、及び情報検索システム
US7299179B2 (en) Three-stage individual word recognition
JP5409931B2 (ja) 音声認識装置及びナビゲーション装置
US20070156404A1 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
US7571096B2 (en) Speech recognition using a state-and-transition based binary speech grammar with a last transition value
US20110137653A1 (en) System and method for restricting large language models
US10970470B1 (en) Compression of machine learned models
US20070193437A1 (en) Apparatus, method, and medium retrieving a highlighted section of audio data using song lyrics
WO2008145055A1 (fr) Procédé pour obtenir une information de mot de restriction et pour optimiser le système du procédé d'entrée et de sortie
JP2001312296A (ja) 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体
US7451075B2 (en) Compressed speech lexicon and method and apparatus for creating and accessing the speech lexicon
JP3003915B2 (ja) 単語辞書検索装置
CN112825249A (zh) 语音处理方法和设备
JP2989211B2 (ja) 音声認識装置における辞書制御方式
JP4738847B2 (ja) データ検索装置および方法
US20220310067A1 (en) Lookup-Table Recurrent Language Model
JP2000293191A (ja) 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
JP3105930B2 (ja) 音声認識装置
JP2002278579A (ja) 音声データ検索装置
JP2002091484A (ja) 言語モデル生成装置及びこれを用いた音声認識装置、言語モデル生成方法及びこれを用いた音声認識方法、並びに言語モデル生成プログラムを記録したコンピュータ読み取り可能な記録媒体及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2938865B1 (ja) 音声認識装置
JP7434117B2 (ja) 対話装置、方法、及びプログラム

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080901

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees