JPH1011087A - 未登録単語検出方法及び装置並びに音声認識装置 - Google Patents

未登録単語検出方法及び装置並びに音声認識装置

Info

Publication number
JPH1011087A
JPH1011087A JP8167042A JP16704296A JPH1011087A JP H1011087 A JPH1011087 A JP H1011087A JP 8167042 A JP8167042 A JP 8167042A JP 16704296 A JP16704296 A JP 16704296A JP H1011087 A JPH1011087 A JP H1011087A
Authority
JP
Japan
Prior art keywords
word
standard model
unregistered
conditional probability
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP8167042A
Other languages
English (en)
Inventor
Seiichi Yamamoto
誠一 山本
Shingo Kuroiwa
眞吾 黒岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
Kokusai Denshin Denwa KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kokusai Denshin Denwa KK filed Critical Kokusai Denshin Denwa KK
Priority to JP8167042A priority Critical patent/JPH1011087A/ja
Publication of JPH1011087A publication Critical patent/JPH1011087A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】音声認識において、認識率の低下の要因となる
未登録単語の検出誤りを削減することで、音声認識の性
能を向上させること。 【解決手段】単語標準モデルを入力音声と照合すること
で音声を認識する際に、入力音声と単語標準モデルとの
照合結果より得られる、単語標準モデルの各状態間の時
間的な対応関係から、当該単語標準モデルの各状態での
出力の条件付き確率を求め、求めた条件付き確率の累積
値を予め定めた基準値と比較することにより未登録単語
を検出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は単語毎に区切って発
声される音声、或いは、連続的に発声される音声を認識
する技術に関し、未登録単語の検出精度向上、更には、
音声認識の性能向上に有用なものである。
【0002】
【従来の技術】音声認識においては、予め、認識対象と
する複数の単語に対応してそれぞれ学習データ等から得
た単語標準モデルを登録しておき、これらの単語標準モ
デルを入力音声と照合することにより、音声認識を行
う。具体的には、隠れマルコフモデル(HMM:Hidden
Markov Model )で単語標準モデルを表現し、ビタビ探
索により照合を行うことが多い。単語標準モデルが登録
されていない単語が未登録単語と呼ばれる。
【0003】具体的な音声認識として、単語音声認識で
は、単語毎に区切って発声させた入力音声を音響的に分
析して音声認識に適したパラメータ列(入力音声パタ
ン)に変換した後、各単語標準モデルと照合して整合性
の度合(通常、照合スコアと呼ばれるが、対数値表記の
場合には尤度と呼ばれることがある。)を計算し、最も
整合性の良い単語標準モデルに対応する単語を、認識結
果として出力する。
【0004】一方、連続的に発声される音声を認識する
連続音声認識では、予め定めた文法規則に基づいて、既
に得た単語照合結果から次に照合すべき単語標準モデル
を1つ又は複数予測することを繰り返すことにより、予
測した各単語標準モデルを入力音声パタンと連続的に照
合して整合性の度合を計算し、文法規則で受理される部
分文の内で最も整合性の良いものを、認識結果として出
力する。
【0005】従って、未登録単語の音声が音声認識装置
に入力されると、認識性能が低下する。そのため、何ら
かの方法で未登録単語を検出し、単語音声認識では認識
結果から未登録単語を除外(リジェクト)し、或いは、
連続音声認識では単語照合結果から未登録単語を除外す
る必要がある。
【0006】従来は、整合性の度合(照合スコアまたは
尤度)を予め定めた値と比較し、整合性の低い単語が未
登録単語であると判定している。
【0007】
【発明が解決しようとする課題】しかし、未登録単語と
いっても、それのかなりの部分が登録単語と音響的に類
似している場合は、整合性が低くならないことが多いの
で、上記従来の未登録単語検出方法では未登録単語の検
出が困難である。また、現在の音声認識において主に利
用されている隠れマルコフモデル(HMM)では、整合
性が複数個の状態(ステート)間の確率的な遷移で表現
され、各状態での出力確率は0次モデルで近似されるた
め、登録単語数が多くなると、何れかの単語標準モデル
と未登録単語との整合性が良くなることが有り、上記従
来方法では未登録単語の検出が極めて困難である。
【0008】
【課題を解決するための手段】本発明の未登録単語検出
方法は、このような課題を解決するために、 (1)単語標準モデルを入力音声と照合することで音声
を認識する単語音声認識においては、音声認識で得られ
た認識結果から、当該認識結果の単語標準モデルの各状
態での出力の条件付き確率を求め、求めた条件付き確率
の累積値を求め、求めた累積値を予め定めた基準値と比
較することにより、未登録単語を検出する。 (2)また、単語標準モデルを文法規則に基づき連続的
に入力音声と照合することで連続に発声された音声を認
識する連続音声認識においては、音声認識で得られた単
語照合結果から、当該単語照合結果の単語標準モデルの
各状態での出力の条件付き確率を求め、求めた条件付き
確率の累積値を加算或いは乗算により求め、求めた累積
値を予め定めた基準値と比較することにより、未登録単
語を検出する。 (3)前記条件付き確率の求め方としては、例えば、入
力音声パタンがベクトル量子化(VQ)される場合は、
予め学習データから単語標準モデルの各状態での出力の
条件付き確率を、各VQ間の条件付き確率として求めて
表の形式で保持しておき、この表から、前記音声認識で
得られた単語標準モデルの各状態間の時間的な対応関係
に基づいて、同音声認識で得られた単語標準モデルの各
状態での出力の条件付き確率を求める。 (4)前記条件付き確率としては、同じ状態間の遷移
(自己遷移)における出力の条件付き確率と、互いに異
なる状態間の遷移における出力の条件付き確率との両方
を使用するか、或いは、定常部では同じパタンが連続す
ることが多いことから、計算の簡略化等のために、前者
の自己遷移での出力の条件付き確率は使用せず、後者の
各状態間での遷移の場合の条件付き確率のみを使用する
ことが可能である。
【0009】また、本発明の未登録単語検出装置は、 (1)単語標準モデルを入力音声パタンと照合すること
で音声を認識する単語音声認識では、音声認識で得られ
た認識結果から、当該認識結果の単語標準モデルの各状
態での出力の条件付き確率を求める条件付き確率算出手
段と、求まった前記条件付き確率の累積値を加算或いは
乗算により求める累積値算出手段と、求まった前記累積
値を予め定めた基準値と比較し、この基準値を下回って
いる場合に、前記認識結果に対応する音声が未登録単語
であると判定する比較手段とを具備する。 (2)単語標準モデルを文法規則に基づき連続的に入力
音声パタンと照合することで連続に発声された音声を認
識する連続音声認識では、音声認識で得られた単語照合
結果から、当該単語照合結果の単語標準モデルの各状態
での出力の条件付き確率を求める条件付き確率算出手段
と、求まった前記条件付き確率の累積値を加算或いは乗
算により求める累積値算出手段と、求まった前記累積値
を予め定めた値と比較し、予め定めた値を下回っている
場合に、前記単語照合結果に対応する音声が未登録単語
であると判定する比較手段とを具備する。 (3)前記条件付き確率算出手段としては、例えば、入
力音声パタンがベクトル量子化(VQ)される場合は、
予め学習データから求めた単語標準モデルの各状態での
出力の条件付き確率を、各VQ間の条件付き確率として
求め、これを表の形式で保持した記憶手段と、この記憶
手段から、前記音声認識で得られた単語標準モデルの各
状態間の時間的な対応関係に基づいて、同音声認識で得
られた単語標準モデルの各状態での条件付き確率を読み
出す読出手段で構成される。
【0010】更に、本発明の音声認識装置は、 (1)単語標準モデルを入力音声パタンと照合すること
で音声を認識する単語音声認識では、上記未登録単語検
出装置と、同未登録単語検出装置が未登録単語を検出し
た場合に認識結果から未登録単語を除外する手段を具備
する。 (2)単語標準モデルを文法規則に基づき連続的に入力
音声パタンと照合することで連続に発声された音声を認
識する連続音声認識では、上記未登録単語検出装置と、
同未登録単語検出装置が未登録単語を検出した場合に単
語照合結果から未登録単語を除外する手段を具備する。
【0011】ここで、上記条件付き確率の累積値の算出
として、条件付き確率が対数値で与えられる場合は加算
によって求めることができ、条件付き確率が対数値では
なく真数で与えられる場合は乗算によって求めことがで
きる。
【0012】(作用)各単語標準モデルと入力音声パタ
ンとの照合に、仮に、始めから条件付き確率を用いれ
ば、未登録単語の場合は整合性の度合が極端に低下する
ので、整合性の度合を予め定めた値と比較する従来の未
登録単語検出方法で問題ないはずではあるが、このよう
に条件付き確率を音声認識自体に用いると、計算量が膨
大となり、最適な状態遷移を選択することが事実上不可
能である。従って、音声認識では通常、単語標準モデル
と入力音声パタンの照合に際して、条件付き確率は採用
せず、便宜上各状態での出力の確率は前後の状態から独
立しているものとして、最適な状態遷移を選択し、整合
性を求めている。
【0013】しかし、通常の音声認識手法で得られた認
識結果(単語音声認識の場合)或いは単語照合結果(連
続音声認識の場合)には、入力音声パタンと最も良く整
合した単語標準モデルの各状態間の時間的な対応関係が
得られている。このことに着目すると、音声認識で得ら
れた各状態間の時間的な対応関係を利用することによ
り、極めて少ない計算量で、認識結果或いは単語照合結
果に対応付けられた当該単語標準モデルの各状態での出
力の条件付き確率を求めることができる。そこで、求ま
った条件付き確率を1単語分累積し、得られた累積値を
予め定めた基準値と比較すれば、入力音声が未登録単語
であるか否かが容易に分かる。
【0014】前記条件付き確率としては、基本的には、
同じ状態間の遷移(自己遷移)における出力の条件付き
確率と、互いに異なる状態間の遷移における出力の条件
付き確率との両方を使用すれば良い。しかし、定常部で
は同じパタンが連続することが多いことから、前者の自
己遷移での出力の条件付き確率は使用せず、後者の異な
る状態間での遷移の場合の条件付き確率のみを使用して
も、単語標準モデルの各状態での出力の条件付き確率の
累積値をかなり良い精度で求めることができ、計算の簡
略化等の利点が大きい。
【0015】
【発明の実施の形態】図1は、本発明の未登録単語検出
方法を適用した単語音声認識装置の方式をハードウェア
で実現する場合の一例を示す構成図である。この装置は
単語標準モデルを入力音声パタンと照合することで音声
を認識する単語音声認識において、得られた認識結果に
対応する単語標準モデルの各状態での出力の条件付き確
率の累積値を予め定めた基準値と比較することにより、
未登録単語を検出して認識結果から除外するものであ
り、音響分析部11と、音響分析結果遅延部12と、発
話検出部13と、終話検出部14と、単語照合部15
と、単語標準モデル格納部16と、未登録単語検出部1
7と、認識結果出力部18と、音声パワー計算部19
と、発話検出スイッチ20から構成される。
【0016】図1の単語音声認識装置では、まず、音声
認識に用いる必要数の単語標準モデルを単語標準モデル
格納部16に格納しておく。発話検出スイッチ20は予
め発話検出部13に接続した状態にしておく。
【0017】続いて、以下に示す手順に従い単語音声認
識を行う。各部の機能を音声認識手順とともに説明す
る。
【0018】音声パワー計算部19において、入力音声
のパワーの計算を行い、その結果19Aを発話検出スイ
ッチ20に送る。
【0019】発話検出スイッチ20は、前述のように最
初は発話検出部13側に接続しておくものとし、以後発
話検出部13より発話検出信号13Aを受け取った時点
で発話検出部13との接続を断って終話検出部14側に
接続し、その後終話検出部14より終話検出信号14A
を受け取った時点で終話検出部14との接続を断って発
話検出部13側に接続するものとする。
【0020】発話検出部13では、発話検出スイッチ2
0を通して音声パワー計算部19から送られて来る音声
パワー19Aが予め定めたしきい値を上回る状態が、予
め定めた時間以上継続した時点で、発話検出信号13A
を発話検出スイッチ20と単語照合部15に送る。
【0021】終話検出部14では、発話検出スイッチ2
0を通して音声パワー計算部19から送られて来る音声
パワー19Aが予め定めたしきい値を下回る状態が、予
め定めた時間以上継続した時点で、終話検出信号14A
を発話検出スイッチ20と認識結果出力部18に送る。
【0022】一方、音響分析部11において、ベクトル
量子化(VQ)等により、入力音声を音響的に分析して
音声認識に適した入力音声パタン(パラメータの列)に
変換し、音響分析結果11Aとして音響分析結果遅延部
12に送る。
【0023】音響分析結果遅延部12では、音響分析部
11から送られて来る音響分析結果11Aを、実際にユ
ーザーが発話してから発話検出部13において発話検出
信号13Aが送出されるまでに要する時間分遅延させ、
その結果12Aを単語照合部15に送る。
【0024】単語照合部15では、発話検出部13より
発話検出信号13Aを受け取った時点で、単語標準モデ
ル格納部16内の各単語標準モデル16Aを読み出し、
従来と同じ手法で、遅延された音響分析結果12Aと照
合する。即ち、各単語標準モデル16Aと音響分析結果
12Aとの整合性の度合(照合スコア又は尤度)を、条
件付き確率を用いることなく計算する。そして、終話検
出部14より終話検出信号14Aを受け取った時点で、
最も整合性の度合が良い単語標準モデルの情報を認識結
果15Aとして出力する。認識結果15Aには、前述の
如く、整合性が最も良かった単語標準モデルの各状態で
の出力確率及び各状態間の時間的な対応付けが含まれて
いる。即ち、同単語標準モデルの各状態が自己遷移を含
めてどの様な順番で遷移したかという情報と、各状態で
どのような音声パタンを出力したかという情報とが、各
状態間の時間的な対応関係として含まれている。
【0025】なお、単語照合部15において照合の際に
用いる、整合性の度合(照合スコア又は尤度)の計算法
としては、隠れマルコフモデル(HMM)を用いる方法
(中川聖一著「確率モデルによる音声認識」参照)等が
考えられる。
【0026】隠れマルコフモデルを用いる場合、照合ス
コアは下記数1の式(1)により計算される。なお、式
(1)では、対数値表記が採用されている。
【0027】
【数1】
【0028】未登録単語検出部17では、認識結果15
Aの単語標準モデルの各状態間の時間的な対応付けか
ら、当該単語標準モデルの各状態での出力の条件付き確
率を求め、求めた条件付き確率の累積値を予め定めた基
準値と比較することにより、入力音声が未登録単語か否
かを検出し、その結果17Aを認識結果出力部18に送
る。条件付き確率の累積値が基準値を下回っている場合
に、未登録単語であると判定する。
【0029】未登録単語検出部17の構成例を挙げる
と、例えば図4に示すように、メモリ部171と、読出
部172と、累積値算出部173と、比較部174で構
成される。メモリ部171と、読出部172とは条件付
き確率算出部175を構成する。メモリ部171には、
予め学習データから、単語標準モデル毎に各状態での出
力の条件付き確率を求め、図5に示すように表の形式で
保持しておく。読出部172は認識結果15Aの単語標
準モデルの各状態間の時間的な対応関係に基づいて、メ
モリ部171から当該単語標準モデルの各状態での出力
の条件付き確率を読み出す。即ち、メモリ部171に格
納した表を参照することにより、認識結果15Aの単語
標準モデルの各状態間の時間的な対応関係から、当該単
語標準モデルの各状態での出力の条件付き確率を求め
る。累積値算出部173は求めた条件付き確率の累積値
を単語毎に求める。比較部174は、求めた条件付き確
率の累積値を基準値と比較し、基準値を下回っている場
合に認識結果15Aに対応する入力音声が未登録単語で
あると判定する。これにより、未登録単語が検出され
る。
【0030】ここで、図5に示す表を説明する。この表
は、或る単語標準モデルに対応する任意の多数の入力音
声の分析結果を用いて、或る時刻で或る状態iが或る音
声パタンmを出力し、且つ、次の時刻で或る状態jが或
る音声パタンnを出力すると言う条件付き確率Pmnを、
音声パタンの組合せ毎に求めたものである。つまり、P
mnは一般に状態iから状態jへの遷移での、音声パタン
mから音声パタンnへの遷移確率という条件付き確率を
表す。なお、i=jの場合は自己遷移での条件付き確率
を表す。音声パタンmとnは等しくても、或いは、異な
っていても良い。このような表を、それぞれの状態iと
jの種々の組合せについて、予め学習により求めてお
く。
【0031】図5に示すような表を用いれば、認識結果
15Aに対応する単語標準モデルの各状態間の時間的な
対応関係から、当該単語標準モデルについて、各状態で
の出力の条件付き確率がL個であればPmn(1)、Pm
n(2)、・・・、Pmn(L)という如く、簡単に得られる。
そこで、これらの条件付き確率が対数値表記であれば各
条件付き確率を加算した値を累積値とし、真数値表記で
あれば各条件付き確率を乗算した値を累積値とする。
【0032】認識結果出力部18は、単語照合部15か
ら認識結果15Aを入力してこれを出力するものである
が、未登録単語検出部17より得られた未登録単語検出
結果17Aに基づき、入力音声が未登録単語である場合
は、認識結果15Aを出力しない。即ち、出力18Aか
ら未登録単語をリジェクトする。
【0033】次に、図2に例示したHMMモデルを用い
て照合を行う場合について、本発明の未登録単語検出方
法をより具体的に説明する。尚、ここでは、登録単語が
「京都」、「大阪」、「神戸」の3種類である場合につ
いて説明する。また、各登録単語に対する単語標準モデ
ルの状態は、図2に状態1、状態2、状態3で示すよう
に、全て3状態で表現されものとする。なお、状態4は
最終状態である。
【0034】式(1)の記述方法に従えば、O(k(t),i
→j)により、各単語標準モデルの各状態iでの入力音
声パタンk(t)の出力確率と、状態i、j(jにはiも含
まれる)間の遷移確率とを乗じた値の対数値が記述され
る。このような出力確率と状態間の遷移確率の対数値O
(k(t),i→j)から、式(1)に従って次々に照合スコ
アα(t,i)を計算して最適な状態遷移を選択するこ
とにより、単語標準モデル毎に照合スコアが得られ、最
も照合スコアの良い単語標準モデルが認識結果15Aと
して決定される。
【0035】例えば、単語「大阪」という発話に従って
音響分析結果12Aとして、時刻tでは(=k(0))、時
刻t+1では(=k(1))、時刻t+2では(=k(2))、時
刻t+3では(=k(3))、時刻t+4では(=k(4)) 、
時刻t+5では(=k(5))という入力音声パタン列が単
語照合部15に入力されたとする。また、図2(a)の
「大阪」という単語標準モデルについて、式(1)に従
って、下記数2の式(2)に示す遷移が最適であると判
断されたとする。すると、この最適遷移の内の各遷移で
の確率の対数値O1 〜O6 が得られ、また、「大阪」と
いう単語標準モデルと入力音声との尤度O(照合スコア
及び整合性と同じ)が得られる。尤度Oは例えば、O=
1 +O2 +O3 +O4 +O5 +O6 となる。
【0036】
【数2】 O1 =O(, 1→1) O2 =O(, 1→2) O3 =O(, 2→2) O4 =O(, 2→3) O5 =O(, 3→3) O6 =O(, 3→4) ・・・式(2)
【0037】同様に、「京都」、「神戸」についてもそ
れぞれ最適遷移での、各確率の対数値とその尤度が得ら
れる。
【0038】ここでは、「大阪」という発話に従って入
力音声パタン列、、、、、が入力されたも
のとしたのであるから、多くの場合、3種類の単語標準
モデルのうち、登録単語「大阪」の単語標準モデルの尤
度が最も良好である。そこで、認識結果15Aとして
「大阪」なる単語標準モデルが単語照合部15で選択さ
れる。
【0039】従って、この識結果15Aに対応する単語
標準モデルの各状態1〜3毎に、各入力音声パタン〜
の出力確率と状態間の遷移確率とを乗じた値の対数値
1〜O6 が得られる。更に、各状態1〜3間の遷移の
順番及び遷移毎に出力した音声パタン〜の順番が、
当該単語標準モデルの各状態間の時間的な対応関係の情
報として、得られる。
【0040】この例の認識結果15Aから、未登録単語
検出部17では、上記「大阪」の場合の最適遷移での条
件付き確率Sを次のようにして求める。基本的には、
(1)状態1での、入力音声パタンから入力音声パタ
ンへの条件付き遷移確率P1 と(2)状態1から状態
2への遷移での、入力音声パタンから入力音声パタン
への条件付き遷移確率P2 と(3)状態2での、入力
音声パタンから入力音声パタンへの条件付き遷移確
率P3 と(4)状態2から状態3への遷移での、入力音
声パタンから入力音声パタンへの条件付き遷移確率
4 と(5)状態3での、入力音声パタンから入力音
声パタンへの条件付き遷移確率P5 と(6)状態3か
ら最終状態への遷移での、入力音声パタンから入力音
声パタンへの条件付き遷移確率P6 とを先ず求め、こ
れらが真数値であれば、積をとって条件付き確率の累積
値S(=P1 ・P2 ・P3 ・P4 ・P5 ・P6 )とす
る。対数値であれば和をとって条件付き確率の累積値S
(=P1 +P2 +P3 +P4 +P5 +P6 )とする。そ
して、求めた条件付き確率の累積値Sを基準値と比較
し、基準値を下回っている場合は未登録単語であると判
断して、未登録単語であるという検出結果17Aを認識
結果出力部18に送る。
【0041】上述した認識結果の単語標準モデルの各状
態での出力の条件付き確率の累積値Sは、或る時刻tの
入力音声パタンk(t)から次の時刻t+1の入力音声パタ
ンk(t+1)への、或る状態iでの自己遷移確率をPi(k
(t),k(t+1)|i)とし、或る時刻tの入力音声パタンk(t)
から次の時刻t+1の入力音声パタンk(t+1)への、状態
iから状態jへの遷移確率をPij(k(t),k(t+1)|i →j)
とし、時間の範囲を0からTとすると、下記数3の式
(3)で与えられる。但し、式(3)では条件付き確率
は対数値表記されているものとしている。また、式
(3)では数式表記の都合上、時刻tからt+1への遷
移が状態iでの自己遷移の場合はPij(k(t),k(t+1)|i
→j)=1とし、時刻tからt+1への遷移が状態iから
状態jへの遷移の場合はPi(k(t),k(t+1)|i)=1とす
る。
【0042】
【数3】
【0043】この式(3)を用いる代わりに、前述の如
くメモリ部171と読出部172を用い、予め学習デー
タから、単語標準モデル毎に各状態での出力の条件付き
確率を求めてメモリ部171に表の形式で保持してお
き、この表を参照して読出部172により、認識結果1
5Aの単語標準パタンの各状態での出力確率に対応する
条件付き確率を求め、その累積値Sを求めると、処理が
簡単である。
【0044】次に、図3を用いて本発明の他の実施例を
説明する。図3は、本発明の未登録単語検出方法を適用
した連続音声認識装置の方式をハードウェアで実現する
場合の一例を示す構成図である。この装置は、単語標準
モデルを文法規則に基づき連続的に入力音声と照合する
ことで連続に発声された音声を認識する連続音声認識に
おいて、得られた単語照合結果の単語標準モデルの各状
態での出力の条件付き確率を求め、その累積値を予め定
めた基準値と比較することにより未登録単語を検出する
ものであり、音響分析部11と、音響分析結果遅延部1
2と、発話検出部13と、終話検出部14と、単語照合
部15と、単語標準モデル格納部16と、未登録単語検
出部17と、認識結果出力部18と、音声パワー計算部
19と、発話検出スイッチ20に加えて、更に、文法規
則格納部21と、単語予測部22と、単語照合結果格納
部23を備えている。
【0045】図3の連続音声認識装置では、まず、認識
に用いる文法規則を文法規則格納部21に格納し、単語
標準モデルを単語標準モデル格納部16に格納してお
く。発話検出スイッチ20は発話検出部13に接続した
状態にしておく。
【0046】続いて以下に示す手順に従い連続音声認識
を行う。また、各部の機能を音声認識手順とともに説明
する。
【0047】音声パワー計算部19において、入力音声
のパワーの計算を行い、その結果19Aを発話検出スイ
ッチ20に送る。
【0048】発話検出スイッチ20は、前述のように最
初発話検出部13側に接続しておくものとし、以後発話
検出部13より発話検出信号13Aを受け取った時点で
発話検出部13との接続を断って終話検出部14側に接
続し、その後終話検出部14より終話検出信号14Aを
受け取った時点で終話検出部14との接続を断って発話
検出部13側に接続する。
【0049】発話検出部13では、発話検出スイッチ2
0を通して音声パワー計算部19から送られて来る音声
パワー19Aが予め定めたしきい値を越えた状態が、予
め定めた時間以上継続した時点で、発話検出信号13A
を発話検出スイッチ20と単語予測部22に送る。
【0050】終話検出部14では、発話検出スイッチ2
0を通して音声パワー計算部19から送られて来る音声
パワー19Aが予め定めたしきい値を下回る状態が、予
め定めた時間以上継続した時点で、終話検出信号14A
を発話検出スイッチ20、認識結果出力部18及び単語
予測部22に送る。
【0051】一方、音響分析部11において、入力音声
を音響的に分析して音声認識に適したパラメータの列
(入力音声パタン)に変換し、音響分析結果11Aとし
て音響分析結果遅延部12に送る。
【0052】音響分析結果遅延部12では、音響分析部
11から送られて来る音響分析結果11Aを、実際にユ
ーザーが発話してから発話検出部13において発話検出
信号13Aが送出されるまでに要する時間分遅延させ、
その結果12Aを単語照合部15に送る。
【0053】単語予測部22では、単語照合結果格納部
23から送られる単語照合結果23Aまたは単語照合部
15から送られる単語照合結果15Aと、文法規則格納
部21に格納された文法規則21Aとから、次に単語照
合部15で照合すべき単語、即ち照合単語22Aを1つ
又は複数予測して求め、単語照合部15に送る。
【0054】この単語予測処理は、発話検出部13より
発話検出信号13Aを受け取った時点から開始され、終
話検出部14より終話検出信号14Aを受け取るまで継
続する。
【0055】単語照合部15では、単語予測部22で予
測された各照合単語22Aに対応する単語標準モデル
(照合単語標準モデルと呼ばれる)16Bを単語標準モ
デル格納部16から読み出して、これら1又は複数の単
語標準モデル16Bを音響分析結果12Aと照合し、単
語標準モデルの終わりまで照合を行った単語について、
単語照合結果15Bを未登録単語検出部17と単語照合
結果格納部23に送る。この単語照合結果15Bには、
前述の認識結果15Aと同様、照合した単語標準モデル
の各状態での出力確率と状態間の遷移確率とを乗じた値
(例えば対数値)の他に、同単語標準モデルの各状態が
自己遷移を含めてどの様な順番で遷移したかという情報
と、各状態でどのような音声パタンを出力したかという
情報とが、各状態間の時間的な対応関係として含まれて
いる。
【0056】単語照合部15において照合の際に用い
る、照合スコア(整合性の度合)の計算法としては、隠
れマルコフモデルを用いる方法(中川聖一著「確率モデ
ルによる音声認識」)等が考えられる。
【0057】照合スコアの計算に隠れマルコフモデルを
用いた場合、照合スコアは前記数1の式(1)により計
算される。
【0058】また単語照合部15では同時に、例えば下
記数4の式(4)により、単語標準モデルに一致すると
判断される入力音声の開始時間と終了時間を計算し、単
語の区切り情報15Cとして未登録単語検出部17に送
る。
【0059】
【数4】
【0060】単語照合結果格納部23では、単語照合部
15より送られる単語照合結果15Bを逐次格納し、終
話検出部14より終話検出信号14Aを受け取った時点
で、認識結果出力部18に送り、その後、今まで格納さ
れていた内容を破棄する。
【0061】未登録単語検出部17では、単語照合部1
5から送られてくる単語照合結果15Bと単語の区切り
情報15Cとに基づき、一連の単語照合結果15Bを個
々の単語毎に区切ってから、図2、図4及び図5並びに
数1〜数3に基づいて前述した未登録単語検出技術によ
り、未登録単語を検出する。検出結果17Aは認識結果
出力部18に送られ、該当する単語照合結果15Bに未
登録単語が含まれていることを示す。
【0062】即ち、未登録単語検出部17では、単語照
合結果15Bの単語標準モデルの各状態間の時間的な対
応関係対数値から、当該単語標準モデルの各状態での出
力の条件付き確率を求め、求めた条件付き確率を累積
し、得られた累積値を予め定めた基準値と比較すること
により、入力音声が未登録単語か否かを検出し、その結
果17Aを認識結果出力部18に送る。条件付き確率の
累積値が基準値を下回っている場合に、未登録単語であ
ると判定する。特に、処理の簡単のため、図4に例示し
たように、予め学習データから、単語標準モデル毎に各
状態での出力の条件付き確率を求めて、メモリ部171
に表の形式で保持しておき、このメモリ部171から、
単語照合結果15Bの単語標準モデルの各状態での出力
の条件付き確率を、読出部172で読み出す。次いで、
求めた条件付き確率を累積値算出部173で累積し、更
に比較部174で、求めた条件付き確率の累積値を基準
値と比較し、基準値を下回っている場合に単語照合結果
15Bに対応する入力音声が未登録単語であると判定す
る。これにより、未登録単語か否かが検出される。
【0063】認識結果出力部18では、基本的には単語
照合結果格納部23から送られた単語照合結果23Aを
基に1つ又は複数の部分文を生成し、文法規則で受理さ
れる部分文の内で最も照合スコアの高いものを認識結果
18Bとして出力するが、未登録単語検出部17で未登
録単語が検出された場合は、未登録単語に対応する単語
照合結果を除外(リジェクト)して部分文を生成し、文
法規則で受理される部分文の内で最も照合スコアの高い
ものを認識結果18Bとして出力する。
【0064】上述した各実施例では、条件付き確率とし
ては、同じ状態間の遷移(自己遷移)における出力の条
件付き確率と、互いに異なる状態間の遷移における出力
の条件付き確率との両方を使用している。しかし、入力
音声の定常部では同じパタンが連続することが多いこと
から、計算の簡略化等のために、前者の自己遷移での出
力の条件付き確率は使用せず、後者の各状態間での遷移
の場合の条件付き確率のみを使用しても良い。このよう
にしても、単語標準モデルの各状態での出力の条件付き
確率の累積値をかなり良い精度で求めることができる。
【0065】
【発明の効果】本発明によれば、未登録単語の検出精度
が向上し、これにより音声認識の性能向上が可能にな
る。
【図面の簡単な説明】
【図1】本発明の実施例の単語音声認識装置のブロック
構成図。
【図2】未登録単語検出方法の例の説明として単語照合
に用いる単語標準モデルの例を示す図。
【図3】本発明の他の実施例の連続音声認識装置のブロ
ック構成図。
【図4】本発明の実施例の未登録単語検出装置のブロッ
ク構成図。
【図5】学習データから作成される条件付き確率の表を
概念的に示す図。
【符号の説明】
11 音響分析部 12 音響分析結果遅延部 13 発話検出部 14 終話検出部 15 単語照合部 15A 単語音声認識における認識結果 15B 連続音声認識における単語照合結果 15C 単語の区切り情報 16 単語標準モデル格納部 16A 単語標準モデル 16B 照合単語標準モデル 17 未登録単語検出部 17A 未登録単語検出結果 171 メモリ部 172 読出部 173 累積値算出部 174 比較部 175 条件付き確率算出部 18 認識結果出力部 18A 単語音声認識における認識結果 18B 連続音声認識における認識結果 19 音声パワー計算部 20 発話検出スイッチ 21 文法規則格納部 22 単語予測部 23 単語照合結果格納部

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】単語標準モデルを入力音声と照合すること
    で音声を認識する単語音声認識に用いられる、未登録単
    語検出方法において、 音声認識で得られた認識結果から、当該認識結果の単語
    標準モデルの各状態での出力の条件付き確率を求め、求
    めた条件付き確率の累積値を求め、求めた累積値を予め
    定めた基準値と比較することにより、未登録単語を検出
    することを特徴とする未登録単語検出方法。
  2. 【請求項2】単語標準モデルを文法規則に基づき連続的
    に入力音声と照合することで連続に発声された音声を認
    識する連続音声認識に用いられる、未登録単語検出方法
    において、 音声認識で得られた単語照合結果から、当該単語照合結
    果の単語標準モデルの各状態での出力の条件付き確率を
    求め、求めた条件付き確率の累積値を求め、求めた累積
    値を予め定めた基準値と比較することにより、未登録単
    語を検出することを特徴とする未登録単語検出方法。
  3. 【請求項3】予め学習データから単語標準モデルの各状
    態での出力の条件付き確率を求めて表の形式で保持して
    おき、前記音声認識で得られた単語標準モデルの各状態
    間の時間的な対応関係に基づいて、前記表から前記音声
    認識で得られた単語標準モデルの各状態での出力の条件
    付き確率を求めることを特徴とする請求項1または2に
    記載の未登録単語検出方法。
  4. 【請求項4】前記単語標準モデルの各状態での出力の条
    件付き確率として、同じ状態間の遷移における出力の条
    件付き確率と、互いに異なる状態間の遷移における出力
    の条件付き確率との両方を使用することを特徴とする請
    求項1または2または3に記載の未登録単語検出方法。
  5. 【請求項5】前記単語標準モデルの各状態での出力の条
    件付き確率として、互いに異なる状態間の遷移における
    出力の条件付き確率のみを使用することを特徴とする請
    求項4に記載の未登録単語検出方法。
  6. 【請求項6】単語標準モデルを入力音声と照合すること
    で音声を認識する単語音声認識に用いられる未登録単語
    検出装置において、 音声認識で得られた認識結果から、当該認識結果の単語
    標準モデルの各状態での出力の条件付き確率を求める条
    件付き確率算出手段と、 求まった前記条件付き確率の累積値を求める累積値算出
    手段と、 求まった前記累積値を予め定めた基準値と比較し、この
    基準値を下回っている場合に、前記認識結果に対応する
    入力音声が未登録単語であると判定する比較手段と、 を具備することを特徴とする未登録単語検出装置。
  7. 【請求項7】単語標準モデルを文法規則に基づき連続的
    に入力音声と照合することで連続に発声された音声を認
    識する連続音声認識に用いられる未登録単語検出装置に
    おいて、 音声認識で得られた単語照合結果から、当該単語照合結
    果の単語標準モデルの各状態での出力の条件付き確率を
    求める条件付き確率算出手段と、 求まった前記条件付き確率の累積値を求める累積値算出
    手段、 求まった前記累積値を予め定めた基準値と比較し、この
    基準値を下回っている場合に、前記単語照合結果に対応
    する入力音声が未登録単語であると判定する比較手段
    と、 を具備することを特徴とする未登録単語検出装置。
  8. 【請求項8】前記条件付き確率算出手段が、予め学習デ
    ータから求めた単語標準モデルの各状態での出力の条件
    付き確率を表の形式で保持した記憶手段と、前記音声認
    識で得られた単語標準モデルの各状態間の時間的な対応
    関係に基づいて、前記記憶手段から前記音声認識で得ら
    れた単語標準モデルの各状態での出力の条件付き確率を
    読み出す読出手段と、で構成されることを特徴とする請
    求項6または7に記載の未登録単語検出装置。
  9. 【請求項9】単語標準モデルを入力音声と照合すること
    で音声を認識する単語音声認識装置において、 請求項6に記載の未登録単語検出装置と、 同未登録単語検出装置が未登録単語を検出した場合に、
    認識結果から未登録単語を除外する手段と、 を具備することを特徴とする単語音声認識装置。
  10. 【請求項10】単語標準モデルを文法規則に基づき連続
    的に入力音声と照合することで連続に発声された音声を
    認識する連続音声認識装置において、 請求項7に記載の未登録単語検出装置と、 同未登録単語検出装置が未登録単語を検出した場合に、
    単語照合結果から未登録単語を除外する手段と、 を具備することを特徴とする連続音声認識装置。
JP8167042A 1996-06-27 1996-06-27 未登録単語検出方法及び装置並びに音声認識装置 Withdrawn JPH1011087A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8167042A JPH1011087A (ja) 1996-06-27 1996-06-27 未登録単語検出方法及び装置並びに音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8167042A JPH1011087A (ja) 1996-06-27 1996-06-27 未登録単語検出方法及び装置並びに音声認識装置

Publications (1)

Publication Number Publication Date
JPH1011087A true JPH1011087A (ja) 1998-01-16

Family

ID=15842315

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8167042A Withdrawn JPH1011087A (ja) 1996-06-27 1996-06-27 未登録単語検出方法及び装置並びに音声認識装置

Country Status (1)

Country Link
JP (1) JPH1011087A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005516263A (ja) * 2002-01-30 2005-06-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システムのための音声アクティビティのオーディオビジュアル検出

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005516263A (ja) * 2002-01-30 2005-06-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システムのための音声アクティビティのオーディオビジュアル検出
JP4681810B2 (ja) * 2002-01-30 2011-05-11 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システムのための音声アクティビティのオーディオビジュアル検出

Similar Documents

Publication Publication Date Title
JP3004883B2 (ja) 終話検出方法及び装置並びに連続音声認識方法及び装置
US8280733B2 (en) Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections
US11037574B2 (en) Speaker recognition and speaker change detection
US6134527A (en) Method of testing a vocabulary word being enrolled in a speech recognition system
US20070233480A1 (en) Speech recognizing apparatus and speech recognizing method
JP2000029495A (ja) ニュ―ラルネットワ―クとマルコフモデル認識技術を用いた音声認識の方法及び装置
JP2002504719A (ja) 音声認識において無音を使用するシステム
JP5647455B2 (ja) 音声に含まれる吸気音を検出する装置、方法、及びプログラム
JP3069531B2 (ja) 音声認識方法
CN110189750B (zh) 词语检测系统、词语检测方法以及记录介质
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
JPH09179581A (ja) 音声認識システム
JPH11184491A (ja) 音声認識装置
JP3428805B2 (ja) 音声認識のための音声区間始端補正方法及び装置並びに音声認識方法
JPH1011087A (ja) 未登録単語検出方法及び装置並びに音声認識装置
JP3285704B2 (ja) 音声対話のための音声認識方法及び装置
JPH06266386A (ja) ワードスポッティング方法
JP3615088B2 (ja) 音声認識方法及び装置
JP2006010739A (ja) 音声認識装置
JP3868798B2 (ja) 音声認識装置
JPH08241096A (ja) 音声認識方法
JPH09311694A (ja) 音声認識装置
KR100449912B1 (ko) 음성인식시스템의 핵심어 검출을 위한 후처리방법
JP3207378B2 (ja) 音声認識方法
JP2003255972A (ja) 音声認識装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20030902