JPH03266898A - 大語彙音声認識処理方式 - Google Patents

大語彙音声認識処理方式

Info

Publication number
JPH03266898A
JPH03266898A JP2067641A JP6764190A JPH03266898A JP H03266898 A JPH03266898 A JP H03266898A JP 2067641 A JP2067641 A JP 2067641A JP 6764190 A JP6764190 A JP 6764190A JP H03266898 A JPH03266898 A JP H03266898A
Authority
JP
Japan
Prior art keywords
word
main matching
output
main
selection means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2067641A
Other languages
English (en)
Inventor
Toru Sanada
真田 徹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2067641A priority Critical patent/JPH03266898A/ja
Publication of JPH03266898A publication Critical patent/JPH03266898A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 本発明は、予備選択動作と本照合動作の2段照合を行う
大語賃音声認識処理方式に関し、利用者による音声入力
後の無応答の時間を減らし、かつ認識速度の向上を図る
ことを目的とし、予備選択手段と、本照合手段を有する
大語賃音声認識処理方式において、 予備選択手段の出力と本照合手段の出力のいずれかを切
り替えて出力する切り替え手段をそなえ、本照合手段に
よる本照合動作が終了する以前に、予備選択手段によっ
て候補単語とされた単語を認識結果として出力すること
を特徴とする。
〔産業上の利用分野〕
本発明は、非常に多くの単語(例えば数万語)を認識す
る大語彙音声認識処理方式に関する。
大語賃音声認識処理の対象としては、例えば、音声文書
作成、音声による商品名人力、あるいは姓名の音声入力
による個人データベース検索などがあげられる。
人語型音声認識では、入力音声と単語辞書との照合処理
が膨大であり、実時間認識を実現するためには膨大なハ
ードウェアが必要となる。また膨大なハードウェアを用
いなければ発生終了後に長い無応答の時間ができ、マン
マシンインターフェースが悪い。
そのため、膨大なハードウェアなしに短い応答時間で良
好なマンマシンインターフェースが得られる方式の実現
が望まれている。
〔従来の技術〕
第3図に従来技術のブロック構成図を示す。
1は音声から帯域スペクトル時系列などの音声の特徴を
抽出する特徴抽出手段である。2は特徴抽出手段1で得
られた音声の特徴と単語辞書3に格納されている音声の
特徴とを高速に粗く照合し、利用者の欲する単語となり
そうな候補単語を選択する予備選択手段である。4は予
備選択手段2で得られた候補単語のみに対して特徴抽出
手段lで得られた音声の特徴と単語辞書3に格納されて
いる音声の特徴とを詳細に照合する本照合手段であり、
利用者の欲する単語となりそうな候補単語を順位付けて
出力する。5は本照合手段4から出力された候補単語か
ら利用者の欲する単語を選択するためのインターフェー
スを提供する単語選択手段である。6は単語選択手段5
による候補単語を表示する表示手段である。
すなわち、音声を入力すると特徴抽出手段lで音声の特
徴が得られる。この特徴と単語辞書3に登録されている
特徴を予備選択手段2で粗く高速に照合して候補単語を
選択する。この候補単語に対して、特徴抽出指弾1で得
られた特徴と単語辞書3に登録されている特徴を本照合
手段4で詳細に照合し、候補単語に順位付ける。この順
位付けられた候補単語を表示手段6で1単語あるいは複
数単語を逐次利用者に表示し、単語選択手段5を用いて
、利用者は欲する単語を選択する。
〔発明が解決しようとする課題〕
大語彙音声認識処理方式においては、本照合手段(4)
で長時間をついやすことが原因で、利用者が音声入力後
に、無応答の時間が長く生じてしまい、利用者に心理的
負担をかけてしまう。大語賃であればあるほど、この負
担は大きくなる。したがって、この心理的負担を軽減す
るために、無応答の時間を減らすことが課題となる。
〔課題を解決するための手段〕
本発明の原理ブロック図を第1図に示す。従来例の第3
図との相違は切り替え手段17と単語選択手段15から
のフィードバッグ出力である。切り替え手段17は、予
備選択手段12の候補単語を単語選択手段15に与える
か、本照合手段14の候補単語を単語選択手段15に与
えるか、を切り替えるものである。単語選択手段15は
切り替え手段17から出力された候補単語から利用者の
欲する単語を選択するためのインターフェースを提供し
、棄却された候補単語を予備選択手段12による候補単
語と本照合手段14による候補単語から除外するフィー
ドバッグ機能を持つ単語選択手段である。
(作用〕 音声を入力すると特徴抽出手段11で音声の特徴が得ら
れる。この特徴と単語辞書13に登録されている特徴を
予備選択手段12で粗く高速に照合して候補単語を選択
する。この候補単語に対して、特徴抽出手段11で得ら
れた特徴と単語辞書13に登録されている特徴を本照合
手段14で詳細に照合し、候補単語に順位付ける。この
本照合が行われている間に、予備選択手段12で得られ
た候補単語を切り替え手段17を通して単語選択手段1
5に送り、候補単語を表示手段16で1単語あるいは複
数単語を逐次利用者に表示し、単語選択手段15を用い
て、利用者は欲する単語を選択し、異なる単語は棄却す
る。棄却された単語は単語選択手段15のフィードバッ
グ機能により予備選択手段12および本照合手段14の
候補単語から除外される。本照合は予備選択の候補単語
に対してのみ逐次実行されるので、予備選択の候補単語
から除外された単語が、まだ本照合が行われていない単
語であれば、この単語は本照合の対象から外れる。また
、棄却された単語に対して本照合がすでに実行された単
語は、本照合手段14での本照合の結果として得られる
候補単語から除外されるので、切り替え手段17によっ
て単語選択手段15に送られる時に、再度現れることは
ない。また、予備選択の候補単語が表示されている間に
、利用者の欲する単語が選択された場合には、単語選択
手段15がフィードバッグ機能で本照合手段14の本照
合を中止する。本照合手段14での本照合が終了し、切
り替え手段17が本照合の候補単語を単語選択手段15
に送れば、従来例と同じ動作を行うことになる。
具体的には、処理量が膨大な本照合が終了する以前に、
照合処理が小さい予備選択によって得られる候補単語を
順位付けし、これを認識結果として代用する。予備選択
の順位付けが適切ならば、本照合が終了する以前に利用
者が欲する単語を得られる可能性が高くなり、認識速度
の向上が図れる。また、本照合が終了するまでの間に、
利用者が欲する単語が得られなくとも、無応答の時間が
無くなり、マンマシンインターフェースが向上する。
〔実施例〕
本発明の1実施例のブロック図を第2図に示す。
21〜24は第1図の特徴抽出手段11に対応する。
音声をマイク21に入力するとBPF群22で帯域スペ
クトル時系列に変換され、これから音声区間切り出し部
23で音声区間のみを切り出して記憶部24に入力単語
音声の帯域スペクトル時系列が記憶される。
25〜29および40は第1図の予備選択手段12に対
応する。間引き部25は記憶部240時系列から適切な
間隔(例えば16ポイントおき)で間引いて時系列を圧
縮する。間引き部27は単語辞書30に格納されている
帯域スペクトル時系列から間引き部25と同じ間隔で間
引いて時系列を圧縮する。これら2つの圧縮された時系
列をDP照合部26で叶マツチングを行って距離を計算
する。この距離の順に適切な順位(例えば100位)ま
でソートして記憶する。
これをソート部28と記憶部29で行う。これで予備選
択が終了する。
尚、マスク部40は、後述する選択部36ですでに棄却
された単語を記憶しており、記憶部29からUP照合部
31に送られる候補単語が、マスク部40に記憶されて
いる単語と一致した場合、この単語をスキップして記憶
部29に記憶されている次の候補単語をDP照合部31
に送る。
これ以降は本照合手段14に対応する31〜34および
39と単語選択手段15・表示手段16に対応する36
〜38が並列に動作する。
予備選択が終了した時点で切り替え部35は予備選択の
候補単語が選択部36に送られるように記憶部29を選
択部3Gに接続する。選択部36は候補単語を表示部3
8に表示して選択スイッチ37が押されるのを待つ。候
補単語を1つずつ表示するならばスイッチにはその単語
を受理するか棄却するか再入力するかを示す3つのキー
があれば良い。例えば、「確定」と[次候補」と「再入
力」である。「確定」キーが押された場合は選択部36
からDP照合部31に中止信号を送って本照合を中止し
て、受理された単語を出力する。「再入力」キーが押さ
れた場合は全てを初期状態に戻す。「次候補」が押され
た場合にはマスク部34に単語を記憶させ、次の候補を
表示部38に表示して選択スイッチ37が押されるのを
待つ。
本照合手段の方は、以下のように動作する。DP照合部
31は、記憶部29に記憶されている候補単語を単語辞
書30から検索して、その単語に対して単語辞書30に
記憶されている時系列と記憶部24に記憶されている時
系列のDPマツチングを行って距離を計算する。この距
離の順に適切な順位(例えば10位)までソートして記
憶する。これをソート部32と記憶部33で行う。これ
で本照合が終了する。
本照合が終了した時点で、OP照合部31が切り替え部
35に終了信号を送り、切り替え部35は選択部36の
入力を記憶部29からマスク部34の出力に切り替える
。マスク部34はすでに棄却された単語を記憶しており
、記憶部33から選択部36に送られる候補単語が、マ
スク部34に記憶されている単語と一致した場合に、こ
の単語をスキップして記憶部33に記憶されている次の
候補単語を選択部36に送る。
選択部36・選択スイッチ37・表示部38の動作は、
記憶部29が記憶部33・マスク部34と入れ替わった
だけで、本照合終了以前の動作と同様である。
閾値判定部39は以上に述べた切り替え部35の動作と
別に動作する。本照合の動作中にDP照合部31で距離
が閾値以下となる単語があった場合に、この単語を選択
部36に送る。選択部36・選択スイッチ37・表示部
38の動作は、記憶部29から送られる候補単語が閾値
判定部39から送られる候補単語に入れ替わっただけで
、本照合終了以前の動作と同様である。
〔発明の効果〕
本発明によれば、大語賃単語認識において、利用者が音
声入力後に、無応答の時間が長く生じることによる利用
者の心理的負担を軽減できる。
更に、利用者の欲する単語が予備選択で得られた候補単
語の上位にある場合や本照合で閾値以下の距離となる場
合に、利用者の欲する単語を早く得られる。
【図面の簡単な説明】
第1図は本発明の原理ブロック図、第2図は本発明の一
実施例のブロック図、第3図は従来技術のブロック構成
図である。 図中、11は特徴抽出手段、12は予備選択手段、13
は単語辞書、工4は本照合手段、15は単語選択手段、
16は表示手段、17は切り替え手段である。 本発明の屁捏ブロック図 第1図

Claims (1)

  1. 【特許請求の範囲】 1、予備選択手段(12)と、本照合手段(14)を有
    する大語彙音声認識処理方式において、 上記予備選択手段(12)の出力と本照合手段(14)
    の出力のいずれかを切り替えて出力する切り替え手段(
    17)をそなえ、 上記本照合手段(14)による本照合動作が終了する以
    前に、上記予備選択手段(12)によって候補単語とさ
    れた単語を認識結果として出力することを特徴とする大
    語彙音声認識処理方式。 2、予備選択手段(12)と、本照合手段(14)を有
    する大語彙音声認識処理方式において、 上記予備選択手段(12)の出力と本照合手段(14)
    の出力のいずれかを切り替えて出力する切り替え手段(
    17)をそなえ、 上記本照合手段(14)による本照合動作が終了する以
    前に、上記予備選択手段(12)によって候補単語とさ
    れた単語を認識結果として出力し、 上記本照合手段(14)による本照合動作が終了した時
    点以後においては、上記本照合手段(14)によって候
    補単語とされた単語を認識結果として出力することを特
    徴とする大語彙音声認識処理方式。 3、予備選択手段(12)と、本照合手段(14)を有
    する大語彙音声認識処理方式において、 上記予備選択手段(12)の出力と本照合手段(14)
    の出力のいずれかを切り替えて出力する切り替え手段(
    17)をそなえ、 上記本照合手段(14)による本照合動作が終了する以
    前に、上記予備選択手段(12)によって候補単語とさ
    れた単語を認識結果として出力し、 さらに上記本照合手段(14)による本照合動作の途中
    で類似度の大きさが閾値以上となる単語が得られた場合
    に、上記切り替え手段(17)の出力にかかわらず当該
    単語を認識結果として出力することを特徴とする大語彙
    音声認識処理方式。 4、認識結果として出力された候補単語の中から所望の
    単語を選択する単語選択手段(15)をそなえ、該単語
    選択手段(15)は、所望の認識結果が得られた時点で
    上記本照合手段(14)による本照合動作を中止せしめ
    ることを特徴とする請求項第1項〜第3項記載の大語彙
    音声認識処理方式。 5、上記単語選択手段(15)は、上記予備選択手段(
    12)によって選択された候補単語および上記本照合手
    段(14)によって選択された候補単語から、当該単語
    選択手段(15)が棄却した候補単語を除外することを
    特徴とする請求項第1項〜第4項記載の大語彙音声認識
    処理方式。
JP2067641A 1990-03-16 1990-03-16 大語彙音声認識処理方式 Pending JPH03266898A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2067641A JPH03266898A (ja) 1990-03-16 1990-03-16 大語彙音声認識処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2067641A JPH03266898A (ja) 1990-03-16 1990-03-16 大語彙音声認識処理方式

Publications (1)

Publication Number Publication Date
JPH03266898A true JPH03266898A (ja) 1991-11-27

Family

ID=13350834

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2067641A Pending JPH03266898A (ja) 1990-03-16 1990-03-16 大語彙音声認識処理方式

Country Status (1)

Country Link
JP (1) JPH03266898A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006107108A (ja) * 2004-10-05 2006-04-20 Canon Inc データ検索装置及びデータ検索方法
JP2007256689A (ja) * 2006-03-24 2007-10-04 Univ Waseda 音声の類似度の評価を行う方法および装置
JP2009294668A (ja) * 2009-08-31 2009-12-17 Nippon Telegr & Teleph Corp <Ntt> 信号検出装置、信号検出方法、信号検出プログラム及び記録媒体
WO2010128560A1 (ja) * 2009-05-08 2010-11-11 パイオニア株式会社 音声認識装置、音声認識方法、及び音声認識プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006107108A (ja) * 2004-10-05 2006-04-20 Canon Inc データ検索装置及びデータ検索方法
JP4579638B2 (ja) * 2004-10-05 2010-11-10 キヤノン株式会社 データ検索装置及びデータ検索方法
JP2007256689A (ja) * 2006-03-24 2007-10-04 Univ Waseda 音声の類似度の評価を行う方法および装置
US7996213B2 (en) 2006-03-24 2011-08-09 Yamaha Corporation Method and apparatus for estimating degree of similarity between voices
WO2010128560A1 (ja) * 2009-05-08 2010-11-11 パイオニア株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
JP2009294668A (ja) * 2009-08-31 2009-12-17 Nippon Telegr & Teleph Corp <Ntt> 信号検出装置、信号検出方法、信号検出プログラム及び記録媒体

Similar Documents

Publication Publication Date Title
US5329609A (en) Recognition apparatus with function of displaying plural recognition candidates
US7650283B2 (en) Dialogue supporting apparatus
US7363224B2 (en) Method for entering text
CN103064530B (zh) 输入处理方法和装置
JPH03266898A (ja) 大語彙音声認識処理方式
US20120254209A1 (en) Searching method, searching device and recording medium recording a computer program
JP3846896B2 (ja) 音声入力された複合名詞の検索装置、検索方法およびデータベース
JP3682958B2 (ja) 音声入力された複合名詞の検索装置、検索方法およびデータベース
CN113570754A (zh) 声纹锁控制方法、装置、电子设备
JP5201973B2 (ja) 音声検索装置
JPH09185632A (ja) 情報検索・編集方法及び装置
KR20080052306A (ko) 네비게이션 시스템에 이용되는 음성 인식 방법 및 장치
JPH0338699A (ja) 音声認識装置
JPH06175698A (ja) 音声検索装置
JP4424023B2 (ja) 素片接続型音声合成装置
JP3663012B2 (ja) 音声による入力装置
JP3377684B2 (ja) 音声認識による検索装置
Ruf et al. Creating a Corpus of Gestures and Predicting the Audience Response based on Gestures in Speeches of Donald Trump
JP4056546B2 (ja) 音声入力された複合名詞の検索装置、検索方法およびデータベース
JPH01177094A (ja) データ検索装置
JPH10254480A (ja) 音声認識方法
JPS6327898A (ja) キ−ワ−ド入力方法
JPS5818778A (ja) パタン認識方式
JPH09259144A (ja) 音声による情報検索装置
JPS562040A (en) Audio input discrimination system