JPH04273299A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH04273299A
JPH04273299A JP3033967A JP3396791A JPH04273299A JP H04273299 A JPH04273299 A JP H04273299A JP 3033967 A JP3033967 A JP 3033967A JP 3396791 A JP3396791 A JP 3396791A JP H04273299 A JPH04273299 A JP H04273299A
Authority
JP
Japan
Prior art keywords
dictionary
word
subset
words
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3033967A
Other languages
English (en)
Other versions
JP3105930B2 (ja
Inventor
Keiichi Miyamoto
恵一 宮本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP03033967A priority Critical patent/JP3105930B2/ja
Publication of JPH04273299A publication Critical patent/JPH04273299A/ja
Application granted granted Critical
Publication of JP3105930B2 publication Critical patent/JP3105930B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識装置に関する
【0002】
【従来の技術】近年、音声認識装置は各種制御機器、パ
ーソナルコンピュータ、ワードプロセッサ等の入力装置
として実用化されつつある。これらの装置の認識対象は
、一般には、離散発声された単語で制御コマンドや制御
オブジェクトを表すものが主である。これらの音声認識
・入力装置にとって最も重要な性能は、認識率と認識速
度である。
【0003】ここに、音声入力装置の認識率はその認識
対象単語の数の増加に伴い低下し、認識速度も低下する
。このため、認識対象単語数はある程度以下に抑えるの
が望ましいが、これは音声処理部が勝手に決め得る要素
ではない。
【0004】ところが、コマンドやオブジェクトの構造
が階層的となっているとき、例えば、住所を音声で入力
するような場合(東京、江東区、××町、○○番地、…
等)には、各々の局面で認識対象となる単語は限られて
いる。つまり、都道府県を入力する局面では、市区町村
を示す単語は必要ないということなどである。
【0005】このようなアプリケーションの場合には、
音声認識の対象となる単語を、各々の局面で必要な単語
だけに限定することが可能である。こうすれば、その局
面局面において、認識対象単語の数が減少したことにな
り、認識率と認識速度の低下を最低限に抑えることが可
能となる。
【0006】そこで、従来にあってはこのような目的を
達成するために認識単語辞書をカテゴリー毎に幾つかに
分割し、認識処理時には前もってどの部分辞書を使うか
を指定するという方法がとられている。より具体的には
、各単語に辞書中の単語属性として、所属する部分辞書
のID番号を登録しておき、認識時に指定されるIDが
それと合致するときだけ、認識対象になるというもので
ある。図7はこのようなID番号による単語辞書の分割
の様子を示すものである。
【0007】
【発明が解決しようとする課題】ところが、このような
方法では、一つの単語は一つのID番号しか持てないた
め、同じ単語が異なった局面で使われるときには、若干
の工夫が必要となる。例えば、同じ単語辞書を複数作っ
ておき、互いに異なるID番号を与えておくとか、認識
時に必要な単語が全て得られるように複数のID番号を
指定するといった方法である。ところが、前者の場合に
は辞書容量が増大してしまい、後者の場合には複数のI
D番号を指定するために余分な単語まで認識対象として
しまうおそれがあり、当初の目的に反するものとなって
しまう。
【0008】
【課題を解決するための手段】請求項1記載の発明では
、各部分集合に対応し各ビットのオン・オフによりその
単語が何れの部分集合辞書に属するか否かを決定するビ
ット列を各単語毎に有する単語辞書と、入力された単語
音声の特徴量を抽出する特徴抽出部と、入力された単語
音声の特徴量と予め前記単語辞書に記憶された複数の単
語の特徴量との類似度を計算する類似度計算部と、計算
された類似度から単一又は複数の単語を認識結果として
選択するとともに次回の認識対象とする部分集合辞書が
前記単語辞書中の各単語が持つ前記ビット列の何れに対
応するかの情報を出力する結果選択部と、この結果選択
部による認識結果とビット列情報とに基づき前記単語辞
書中の単一又は複数の単語を部分集合として選択して次
回の音声認識時にこの選択された部分集合辞書のみを認
識対象として選択する部分辞書選択部とを設けた。
【0009】請求項2記載の発明では、部分辞書選択部
に対して結果選択部からの認識結果とともに外部からの
部分辞書指定情報を入力させた。
【0010】さらに、請求項3記載の発明では、単語辞
書が、複数の部分集合辞書に属する単語に対してはビッ
ト列情報と複数の部分集合辞書に属することを示す識別
子を持ち、ただ一つの部分集合辞書にのみ属する単語に
対してはその部分集合を表す識別子のみを持ち、全ての
部分集合辞書に属する単語に対しては全ての場合に認識
対象となる旨を表す識別子を持つものとした。
【0011】
【作用】請求項1記載の発明によれば、単語辞書が辞書
中の各単語に各部分集合に対応するビット列を持ち、そ
のビット列のオン・オフによりその単語が何れの部分集
合辞書に属するかを表すものとし、部分辞書選択部に対
して結果選択部より次回の認識対象の部分集合辞書がビ
ット列の何れに対応しているかの情報を出力して、認識
対象を絞るので、局面により認識対象となる単語の重複
があっても、単語辞書を二重化したり、余分な単語を認
識対象としてしまうようなことなく、ビット列で表現し
得る分の部分集合辞書に対処できるものとなる。
【0012】この際、請求項2記載の発明によれば、部
分辞書選択部に対して外部からの部分辞書指定情報の入
力も可能としたので、部分集合辞書情報の初期化等に活
用できる。
【0013】また、請求項3記載の発明によれば、単語
の部分集合辞書に属する場合を3種に分け、その種別を
表す識別子を用いて省略された形でビット列情報を単語
辞書に格納するようにしたので、単語辞書の容量を大幅
に節約できるものとなる。
【0014】
【実施例】本発明の第一の実施例を図1及び図2に基づ
いて説明する。図2は全体構成を示すブロック図である
。まず、予め複数単語分の特徴量を記憶して単語辞書と
なる特徴量辞書1が設けられている。また、マイクロフ
ォン等を通じて入力される音声入力からその特徴量を抽
出する特徴抽出部2が設けられている。この特徴抽出部
2と前記特徴量辞書1とには類似度計算部3が接続され
ている。この類似度計算部3の出力側には結果選択部4
が接続され、この結果接続部4と前記特徴量辞書1との
間には部分辞書選択部5が接続されている。
【0015】このような構成において、基本的には、音
声入力は特徴抽出部2で特徴量が抽出される。抽出され
た特徴量は類似度計算部3において、部分辞書選択部5
によって特徴量辞書1中から選択された語彙のみと類似
度が計算される。全ての選択された語彙との類似度が計
算された後、最も類似度が高い語が認識結果として選択
される。この認識結果は、次回の部分辞書の選択にも使
われる。
【0016】ここに、本実施例の特徴とする特徴量辞書
1の構造を図1に示し、その辞書選択法を説明する。ま
ず、この特徴量辞書1は記憶された単語数n分の辞書に
分割できる。さらに、各単語の特徴量の格納部分1aの
一部、例えば図示のように先頭部分には部分集合辞書に
対応させた部分集合ビット列の格納部分1bが配置され
ている。本例では、部分集合1〜8,9〜16,17〜
24,25〜32で示すように32ビットのビット列が
用いられている。このビット列により、各単語は、32
通りの部分集合辞書に独立して属したり属さなかったり
することができる。属すか属さないかは、対応するビッ
トのオン・オフ(1又は0)により決まる。図示例は、
単語2が部分集合辞書の番号1,22,26に属してい
ることを表している。
【0017】このような特徴量辞書1構造に対して、結
果選択部4では前回の認識結果や制御される機器の状態
に従って、次回の認識に必要な辞書を選択し、その番号
を部分辞書選択部5に送る。部分辞書選択部5ではその
辞書番号に対応するビットがオンのビット列を有する単
語だけを類似度計算部3に送り、認識対象とする。この
ようにして、各局面に最適な部分集合辞書が選択されて
認識が行なわれる。
【0018】なお、音声認識のアルゴリズムや、特定話
者・不特定話者方式等は特に限定されるものでなく、ま
た、周知の認識処理部分については説明を省略した。
【0019】つづいて、本発明の第二の実施例を図3な
いし図6により説明する。前記実施例で示した部分と同
一部分は同一符号を用いて示す。図3に示す全体構成に
おいては、前記実施例とほぼ同様であるが、本実施例で
は、部分辞書選択部5に対して、結果選択部4からの認
識結果の他、部分辞書指定入力を外部から与え得るよう
に構成したものである。このような外部入力を可能とす
ることにより、初期化などに活用できる。
【0020】ついで、本実施例による特徴量辞書1の構
造を説明する。この場合も、記憶された単語数分の辞書
に分割し得る他、各単語の特徴量の一部、例えば先頭部
分に、部分集合辞書に対する種別を表す識別子と、種別
に応じた部分集合辞書に対応するビット列、辞書番号又
はビット列なしとの組合せが格納されている。
【0021】まず、図4は例えばある単語2が複数の部
分集合辞書に属する場合を示す。これは、基本的には、
図1に示したものと同様であるが、部分集合ビット列情
報において、その先頭部分に複数の部分集合辞書に属す
る旨の識別子“00”を有するものとされている。
【0022】図5は例えばある単語3がただ一つの部分
集合辞書に属する場合を示す。このの場合には、部分集
合ビット列情報としては、この旨を表す識別子“10”
と、上記のビット列に代えて、部分集合辞書番号の情報
が記憶されている。この辞書番号は、ビットを数値でエ
ンコードした形で記述できるので、32種の部分集合辞
書から一つを指定するのに5ビットで足りる。図示例は
、“11010”により単語3が部分集合辞書番号26
に属していることを示す。
【0023】図6は例えばある単語4が全ての部分集合
辞書に属する場合を示す。この場合には、部分集合ビッ
ト列情報としては、この旨を表す識別子“01”のみが
記憶され、これ以外は記憶されない。図示例は、識別子
“01”により単語4が全ての場合に認識対象となるこ
とを示す。
【0024】辞書選択処理は、前記実施例の場合と同様
に行なわれる。
【0025】本実施例によれば、前記実施例に加えて、
各単語が部分集合辞書に属する態様によって3種に分け
られた辞書構成としたので、部分集合ビット列情報格納
による辞書容量の増加を抑制できるものとなる。
【0026】
【発明の効果】本発明は、上述したように構成したので
、請求項1記載の発明によれば、単語辞書が辞書中の各
単語に各部分集合に対応するビット列を持ち、そのビッ
ト列のオン・オフによりその単語が何れの部分集合辞書
に属するかを表すものとし、部分辞書選択部に対して結
果選択部より次回の認識対象の部分集合辞書がビット列
の何れに対応しているかの情報を出力させて、認識対象
を絞るようにしたので、局面により認識対象となる単語
の重複があっても、単語辞書を二重化したり、余分な単
語を認識対象としてしまうようなことなく、ビット列で
表現し得る分の部分集合辞書に対処することができる。
【0027】この際、請求項2記載の発明によれば、部
分辞書選択部に対して外部からの部分辞書指定情報の入
力も可能としたので、部分集合辞書情報の初期化等に活
用することができる。
【0028】また、請求項3記載の発明によれば、単語
の部分集合辞書に属する場合を3種に分け、その種別を
表す識別子を用いて省略された形でビット列情報を単語
辞書に格納するようにしたので、単語辞書の容量を大幅
に節約することができる。
【図面の簡単な説明】
【図1】本発明の第一の実施例を示す特徴量辞書の構造
図である。
【図2】全体的構成を示すブロック図である。
【図3】本発明の第二の実施例を示すブロック図である
【図4】特徴量辞書の構造図である。
【図5】特徴量辞書の構造図である。
【図6】特徴量辞書の構造図である。
【図7】従来例を示す辞書の構造図である。
【符号の説明】
1      単語辞書 1b    ビット列 2      特徴抽出部 3      類似度計算部 4      結果選択部 5      部分辞書選択部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】  各部分集合に対応し各ビットのオン・
    オフによりその単語が何れの部分集合辞書に属するか否
    かを決定するビット列を各単語毎に有する単語辞書と、
    入力された単語音声の特徴量を抽出する特徴抽出部と、
    入力された単語音声の特徴量と予め前記単語辞書に記憶
    された複数の単語の特徴量との類似度を計算する類似度
    計算部と、計算された類似度から単一又は複数の単語を
    認識結果として選択するとともに次回の認識対象とする
    部分集合辞書が前記単語辞書中の各単語が持つ前記ビッ
    ト列の何れに対応するかの情報を出力する結果選択部と
    、この結果選択部による認識結果とビット列情報とに基
    づき前記単語辞書中の単一又は複数の単語を部分集合と
    して選択して次回の音声認識時にこの選択された部分集
    合辞書のみを認識対象として選択する部分辞書選択部と
    よりなることを特徴とする音声認識装置。
  2. 【請求項2】  部分辞書選択部に対して結果選択部か
    らの認識結果とともに外部からの部分辞書指定情報を入
    力させたことを特徴とする請求項1記載の音声認識装置
  3. 【請求項3】  単語辞書が、複数の部分集合辞書に属
    する単語に対してはビット列情報と複数の部分集合辞書
    に属することを示す識別子を持ち、ただ一つの部分集合
    辞書にのみ属する単語に対してはその部分集合を表す識
    別子のみを持ち、全ての部分集合辞書に属する単語に対
    しては全ての場合に認識対象となる旨を表す識別子を持
    つことを特徴とする請求項1又は2記載の音声認識装置
JP03033967A 1991-02-28 1991-02-28 音声認識装置 Expired - Fee Related JP3105930B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03033967A JP3105930B2 (ja) 1991-02-28 1991-02-28 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03033967A JP3105930B2 (ja) 1991-02-28 1991-02-28 音声認識装置

Publications (2)

Publication Number Publication Date
JPH04273299A true JPH04273299A (ja) 1992-09-29
JP3105930B2 JP3105930B2 (ja) 2000-11-06

Family

ID=12401265

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03033967A Expired - Fee Related JP3105930B2 (ja) 1991-02-28 1991-02-28 音声認識装置

Country Status (1)

Country Link
JP (1) JP3105930B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004086150A (ja) * 2002-06-28 2004-03-18 Denso Corp 音声制御装置
JP2004226698A (ja) * 2003-01-23 2004-08-12 Yaskawa Electric Corp 音声認識装置
JP2004252121A (ja) * 2003-02-20 2004-09-09 Sony Corp 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
JP2013122599A (ja) * 2005-12-08 2013-06-20 Nuance Communications Austria Gmbh コンテキストの動的作成のための方法及びシステム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004086150A (ja) * 2002-06-28 2004-03-18 Denso Corp 音声制御装置
US7469211B2 (en) 2002-06-28 2008-12-23 Denso Corporation Voice control system substituting the oppositely-working command in a pair if the recognized command is not selectable for the given system state
JP2004226698A (ja) * 2003-01-23 2004-08-12 Yaskawa Electric Corp 音声認識装置
JP2004252121A (ja) * 2003-02-20 2004-09-09 Sony Corp 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
JP2013122599A (ja) * 2005-12-08 2013-06-20 Nuance Communications Austria Gmbh コンテキストの動的作成のための方法及びシステム
US8798997B2 (en) 2005-12-08 2014-08-05 Nuance Communications, Inc. Method and system for dynamic creation of contexts
US9412370B2 (en) 2005-12-08 2016-08-09 Nuance Communications, Inc. Method and system for dynamic creation of contexts

Also Published As

Publication number Publication date
JP3105930B2 (ja) 2000-11-06

Similar Documents

Publication Publication Date Title
US11423883B2 (en) Contextual biasing for speech recognition
US8589163B2 (en) Adapting language models with a bit mask for a subset of related words
JP5517458B2 (ja) フラグメントを使用した大規模なリストにおける音声認識
US7831911B2 (en) Spell checking system including a phonetic speller
US7299179B2 (en) Three-stage individual word recognition
WO2020062680A1 (zh) 基于双音节混搭的波形拼接方法、装置、设备及存储介质
CN107134279A (zh) 一种语音唤醒方法、装置、终端和存储介质
JP3542026B2 (ja) 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体
US10970470B1 (en) Compression of machine learned models
US10366690B1 (en) Speech recognition entity resolution
WO1996023298A2 (en) System amd method for generating and using context dependent sub-syllable models to recognize a tonal language
EP0824749A1 (en) Improving the reliability of word recognizers
JP2003022089A (ja) オーディオ専用インターフェースにおけるボイス・スペリング
US20220310067A1 (en) Lookup-Table Recurrent Language Model
JPH04273299A (ja) 音声認識装置
JPH0736478A (ja) 音符列間類似度計算装置
JP2002278579A (ja) 音声データ検索装置
US11823671B1 (en) Architecture for context-augmented word embedding
JP2008293098A (ja) 応答スコア情報生成装置、対話処理装置
JP3428309B2 (ja) 音声認識装置
JP2021089300A (ja) 多言語音声認識およびテーマ−意義素解析方法および装置
JP3108121B2 (ja) 音声認識装置の辞書制御方式
CN113178194B (zh) 一种交互式热词更新的语音识别方法与系统
JP2004272134A (ja) 音声認識装置及びコンピュータプログラム
WO2024086265A1 (en) Context-aware end-to-end asr fusion of context, acoustic and text representations

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080901

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees