JPH05181494A

JPH05181494A - 音声パターンの識別装置と方法

Info

Publication number: JPH05181494A
Application number: JP4150307A
Authority: JP
Inventors: Basavaraj I Pawate; アイパワテバサヴァライ; George R Doddington; アールドッディングトンジョージ
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1991-06-11
Filing date: 1992-06-10
Publication date: 1993-07-23
Also published as: DE69229816T2; DE69229816D1; US5222190A; EP0518638A3; EP0518638B1; EP0518638A2

Abstract

(57)【要約】（修正有）【構成】入力音声はトランスデューサ１４０，Ａ／Ｄ変
換器１４１を経て，ディジタル信号に変換，プロセッサ
１４２にディジタル入力し，該入力をモデルのデータベ
ース１４３に記憶された話者と関係ない音声モデルと比
較し，単語の境界を識別する，プロセッサ１４２は，識
別された話者により決まる単語を登録された単語のデー
タベース１４４に記憶する。発声識別で，プロセッサは
登録単語のデータベースとモデルのデータベースの単語
を入力音声と比較，プロセッサが入力音声と登録単語デ
ータベース及び，モデルのデータベースの単語を比較
後，プロセッサ命令は周辺装置のインターフェース１４
５でディジタルかアナログ信号を周辺装置１４６に送
る。【効果】本発明の一つの特徴は，一つの音声パターンに
ついて，一つ以上の境界を識別すること及び単語の境界
が正確に識別される。このような特徴の利点により，一
つの入力発声内の音声パターンが正確に識別される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、一般的に音声処理の方
法と装置に関し、更に詳しくは、音声のパターンを識別
する方法と装置に関する。

【０００２】

【従来の技術】音声識別システムは、電話サービスのよ
うな種々の用途で益々使用され、電話サービスの場合話
者は口頭で電話に特定の相手を呼び出せように命令す
る。これらのシステムでは、電話の顧客は、特定の電話
番号と相手先に対応する言葉を登録することができる。
その結果、この顧客が登録された言葉を発音すると、対
応する電話番号が自動的にダイヤルされる。代表的な登
録の場合、入力された発声を細分化し、単語の境界を識
別し、識別された単語を登録して単語のモデルを作成
し、この単語のモデルをその後に入力された発声と比較
することができる。その後に音声を識別する場合、入力
された発声を登録された単語と比較する。話者によって
決まるアプローチの場合、入力された音声は同じ話者の
登録した単語と比較される。話者と関係のないアプロー
チの場合、入力された音声は全ての話者と対応するよう
に登録された単語と比較される。

【０００３】

【発明が解決しようとする課題】多くの従来技術による
システムでは、ノイズが１つの単語の部分として間違て
含まれている。音声の登録及び識別システムの他の主要
な問題は、１つの単語の部分をノイズであるとして誤っ
て分類することである。代表的な登録と音声識別に対す
るアプローチは、単語の境界を識別し、入力された発声
を複数の単語に細分化する第１次的な手段としてフレー
ム・エネルギーを使用している。しかし、このフレーム
・エネルギーによるアプローチでは、１つの単語のエネ
ルギーの低い部分がしばしば除外される。従って、複数
の単語が不正確に記述され、その結果識別に問題が生じ
る。更に、フレーム・エネルギーを基礎とするシステム
では、全ての単語を一般的に区切って話さなければなら
ず、このことはもし幾くつかの単語または句を登録する
かまたは識別しなければならない場合には、望ましくな
い。例えその後に行われる音声識別プロセスでフレーム
・エネルギーを使用しないで複数の単語を区切ったとし
ても、音声識別の精度は、一般的にはフレーム・エネル
ギーによって決まる以前に行った音声登録の精度によっ
て決まることになる。

【０００４】従って、音声パターンを識別するための正
確な方法と装置に対する必要性がある。

【０００５】

【課題を解決するための手段】本発明の１つの特徴によ
れば、１つの入力発声内の１つの音声パターンについ
て、１つ以上の境界を識別する方法と装置が提供され
る。この入力発声のアンカー・セクションは、複数のア
ンカー・パターンの少なくとも１つに対応するものとし
て識別される。この音声パターンの境界は、このアンカ
ー・セクションに基づいて定義される。

【０００６】本発明のこのような特徴の技術的な利点
は、単語の境界が正確に識別されることである。本発
明の第２の特徴によれば、１つの入力発声内の１つの音
声パターンを識別する方法と装置が提供される。１つ以
上のセグメント・パターンが識別され、入力発声が受信
される。このセグメント・パターンに対応する入力発声
の複数の部分が識別される。入力発声の１つ以上のセグ
メントは、識別された部分に応答して定義される。本
発明のこのような特徴の技術的な利点は、１つの入力発
声内の音声パターンが正確に識別されることである。

【０００７】

【実施例】本発明及びその利点をより完全に理解するた
め、添付図と共に下記の説明を参照する。本発明の好適
な実施例とその利点は、図１ないし７を参照することに
よって最もよく理解され、ここで各図の同一または対応
する部分には同一の参照番号を使用する。

【０００８】図１は、単語の境界を識別する主要な手段
としてフレーム・エネルギーを使用する音声登録及び識
別システムを示す。図１において、グラフはフレーム・
エネルギーと入力発声の時間との対応を示す。ノイズ・
レベルのしきい値１００は、フレーム・エネルギーに基
づいて単語の境界を識別するために設けられたものであ
る。しきい値１００以下のエネルギー・レベルはノイズ
として無視される。フレーム・エネルギーによるアプロ
ーチの場合、単語の境界は、フレーム・エネルギーの曲
線１０２がノイズ・レベルのしきい値１００と交わる点
で区切られる。従って、単語１は交点１０４と１０６に
よって境界が設けられる。単語２は交点１０８と１１０
によって境界が設けられる。

【０００９】入力発声の単語の真の境界がエネルギー曲
線１０２がノイズ・レベルのしきい値１００と交わる点
によって識別された単語の境界と異なる場合が、しばし
ば発生する。例えば、単語１の真の境界は点１１２と１
１４に位置している。単語２の真の境界は、点１１６と
１１８に位置している。斜線で示す部分１２０と１２２
のようなエネルギー曲線１０２の部分は、特に１つの単
語に誤って含まれたり、この１つの単語から誤って排除
されたりする可能性がある。

【００１０】その結果、単語１は点１１２と１１４に真
の境界を有しているが、曲線１０２の斜線の部分１２０
と１２４がこの音声システムによって単語１から誤って
除外されており、これは、これらのフレーム・エネルギ
ーがノイズ・レベルのしきい値１００以下であることに
起因するものである。同様に、斜線の部分１２６はフレ
ーム・エネルギーを基礎にする方法によって単語２から
誤って排除されている。斜線の部分１２２は誤って単語
２に含まれているが、この理由は、これがノイズ水準の
しきい値よりも若干高い位置にあるためである。従っ
て、入力発声の単語の境界を区切る主要な手段としてフ
レーム・エネルギーを使用する場合に、重大な誤りの発
生することが分かる。

【００１１】より精巧なフレーム・エネルギーに基づく
システムでは、フレーム・エネルギー曲線１０２によっ
て代表されるような入力発声は複数のフレームに細分化
され、各フレームは、一般的に２０ｍｍ秒のフレーム・
エネルギー曲線によって構成される。次に、ノイズ・レ
ベルのしきい値１００を個々のフレーム・ベースで調整
することが可能であり、その結果、入力発声の各フレー
ムを別個のノイズ・レベルのしきい値と関連させること
ができる。しかし、例えノイズ・レベルのしきい値１０
０を個々のフレーム・ベースで調整した場合でも、１つ
の入力発声の複数のセクション（フレーム・エネルギー
曲線１０２によって表される）は、区切られた単語に誤
って含まれるか、またはこれから誤って除外される場合
がしばしば発生する。

【００１２】図２は、アンカー・ワードを使用する本発
明の１実施例を示す。図２のグラフは、エネルギー曲線
１３０によって表される入力発声のエネルギーと時間の
対応を示す。アンカー・ワードによるアプローチの場
合、「呼び出せ」、「自宅」、または「事務所」のよう
な話者と関係のないアンカー・ワードが記憶され、後で
単語の登録またはこれに続いて行われる単語の識別の間
に使用され、単語の境界を区切る。例えば、単語の登録
の場合、話者は「呼び出せ」という単語を発音するよう
に促され、これに続いて登録すべき単語を発音する。こ
の話者と関係のないアンカー・ワード「呼び出せ」は、
次にこの話された入力発声と比較され、この話された単
語「呼び出せ」に対応するエネルギー曲線１３０のセク
ションを識別する。エネルギー曲線１３０の適当なセク
ションが単語「呼び出せ」に対応するものとして識別さ
れると、アンカー・ワードの終了点１３２は、エネルギ
ー曲線１３０の識別されたアンカー・ワードのセクショ
ンに基づいて設定される。図２に示すように、終了点１
３２は、エネルギー曲線１３０の識別されたアンカー・
ワードのセクションの直近に設定される。しかし、終了
点１３２は、この終了点１３２をアンカー・ワードのセ
クションから指定された距離だけ離れた場所に位置させ
る等の他の方法によって、この識別されたアンカー・ワ
ードのセクションに基づいて設定してもよい。次に、終
了点１３２は、登録すべき単語（ＸＷＯＲＤ）の開始点
として使用する。登録すべきＸＷＯＲＤの終了点は、点
１３４に設定することができるが、この点１３４では、
通常のフレーム・エネルギーを基礎とする方法に従って
曲線１３０のエネルギー・レベルがノイズ・レベルのし
きい値１３６以下となる点である。

【００１３】図３は、登録した単語ＸＷＯＲＤの終了点
１３８をまた区切るためのアンカー・ワードの用途を示
す。話者は、登録すべき単語の後で単語「自宅」または
「事務所」を発音するように促される。図３では、アン
カー・ワード「自宅」が点１３８で始まるエネルギー曲
線１３０の部分と対応するものであると識別される。従
って、アンカー・ワード「呼び出せ」を使用してＸＷＯ
ＲＤの開始点１３２を区切り、一方アンカー・ワード
「自宅」を使用してＸＷＯＲＤの終了点１３８を区切
る。アンカー・ワードによるアプローチでは、話者によ
って決まるアンカー・ワードまたは話者に適用されるア
ンカー・ワード、即ち「呼び出せ」、「自宅」及び「事
務所」をまた使用することができる。

【００１４】図４は、この実施例を実行するための機能
ブロック図を示す。入力発声はトランスデューサ１４０
を介して伝えられ、このトランスデューサ１４０は電圧
信号をＡ／Ｄ変換器１４１に出力する。Ａ／Ｄ変換器１
４１はこの入力発声をデジタル信号に変換し、これらの
デジタル信号はプロセッサ１４２によって入力される。
プロセッサ１４２は、次にデジタル化された入力発声を
モデルのデータベース１４３に記憶されている話者と関
係のない音声モデルと比較して単語の境界を識別する。
単語は境界の間に存在するものとして識別される。発声
を登録する場合、プロセッサ１４２は、識別された話者
によって決まる単語を登録された単語のデータベース１
４４に記憶する。

【００１５】その後に行われる発声の識別では、プロッ
セサ１４２は登録された単語のデータベース１４４とモ
デルのデータベース１４３から単語を取り出し、次にこ
れらの取り出した単語をＡ／Ｄ変換器１４１から受け取
った入力発声と比較する。プロセッサ１４２が入力発声
と対応する登録された単語のデータベース１４４及びモ
デルのデータベース１４３内にある単語を識別した後、
このプロセッサ１４２は入力発声内の単語と関連する適
当な命令を識別する。これらの命令は、次にプロッセサ
１４２によってデジタル信号として周辺装置のインター
フェース１４５に送られる。周辺装置のインターフェー
ス１４５は、次に適当なデジタルまたはアナログ信号を
付属する周辺装置１４６に送る。

【００１６】周辺装置のインターフェース１４５に与え
られる周辺装置の命令は、電話をダイヤルする命令また
は電話番号によって構成することができる。例えば、電
話の顧客は、プロセッサ１４２をプログラムして特定の
電話番号を話された単語ＸＷＯＲＤと関連づけることが
できる。ＸＷＯＲＤを登録するには、顧客は単語「呼び
出せ」を話し、次に登録すべきＸＷＯＲＤを話し、次に
「自宅を呼び出せ」（ｃａｌｌｍｏｍｈｏｍｅ）と
いう意味で単語「自宅」を話す。プロセッサ１４２は、
これらの３つの単語の間の境界を識別し、これらの３つ
の単語を分離し、記憶するためにこれらの単語を登録単
語のデータベース１４４に供給する。その後に行われる
音声の識別では、電話の顧客は再び「自宅を呼び出せ」
と話す。プロセッサ１４２は次にこれらの３つの単語を
分離し、分離した単語を登録単語のデータベース１４４
とモデルのデータベース１４３から得たデータと相関さ
せ、これらの相関された単語を周辺装置のインターフェ
ース１４５に設けられている適当な電話番号と相関させ
る。

【００１７】トランデューサ１４０は、入力発声からダ
イヤル命令を受け取る電話機と一体化してもよい。周辺
装置１４６は、入力発声によって指定された番号をダイ
ヤルする電話機のトーン発生器であってもよい。また
は、この周辺装置１４６は、中央電話局に設けられ、ト
ランデューサ１４０を介して受け取った入力発声によっ
て指定されたダイヤル番号に応じて動作することのでき
る交換器のコンピュータであってもよい。

【００１８】図５は、音声識別システムで単語を登録す
るように構成された図４のプロセッサ１４２の代表的な
実施例を示す。デジタルの入力発声はＡ／Ｄ変換器１４
１からフレーム・セグメンテータ１５１によって受け取
られる。フレーム・セグメンテータ１５１はこのデジタ
ル入力発声をフレームに分割し、各フレームは、例え
ば、２０ｍｓの入力発声を表す。アンカー・ワード戦略
の場合、識別子１５２が入力発声をモデルのデータベー
ス１４３に記憶されたアンカー・ワードの音声モデルと
比較する。識別されたアンカー・ワードは、次に接続部
１４９上の制御装置１５０に供給される。以下で更に説
明するヌル戦略の場合、識別子１５２は、分割されたフ
レームを受け取り、各フレームを順にモデルのデータベ
ース１４３からのモデルのデータと比較し、次に入力発
声の識別されない部分を接続部１４９を介して制御装置
１５０に送る。識別子１５２は、また入力発声の識別さ
れた部分を接続部１４８を介して制御装置１５０に送
る。

【００１９】接続部１４８と１４９の識別子１５２から
受け取ったデータに基づき、制御装置１５０は接続部１
５７を使用して識別子１５２が関係しているモデルのデ
ータベース１４３からの特定のモデルのデータを指定す
る。制御装置１５０は、また接続部１４７を使用して特
定のモデルのデータがデジタル入力発声内に存在してい
る確率を指定し、これによって識別子１５２が指定され
たモデルのデータの認識を支持するように命令する。接
続部１４８と１４０を介して識別子１５２から受け取っ
たデータに基づき、制御装置１５０は、登録された単語
のデータを登録された単語のデータベース１４４に対し
て指定する。

【００２０】アンカー・ワード戦略の場合、制御装置１
５０は、識別されたアンカー・ワードを使用して単語の
境界を識別する。もしフレーム・エネルギーを利用して
別の単語の境界を識別するなら、次に制御装置１５０も
また入力発声を分析し、図１と２と関連して上で更に説
明したように、フレーム・エネルギー曲線がノイズ・レ
ベルのしきい値と交差する点を識別する。

【００２１】識別子１５２から受け取った単語の境界に
基づき、かつ更にオプションとしてデジタル入力発声の
フレーム・エネルギーの水準に基づいて、制御装置１５
０は、図２と３と関連して上で更に説明したように、入
力発声の単語を分離する。音声を登録する場合、これら
の分離された単語は、次に登録された単語のデータベー
ス１４４に記憶される。

【００２２】図４と５のプロセッサ１４２をまた使用し
て登録のために本発明のヌル戦略を実行することができ
る。ヌル戦略の場合、モデルのデータベース１４３から
のモデルのデータは、沈黙、息の吸い込み、息の吐き出
し、唇を鳴らす音、適用可能なチャンネルのノイズ及び
その他の識別可能なノイズであって、１つの単語の部分
ではないが識別することのできるノイズのモデルによっ
て構成される。入力発声内のこれらの種類のノイズは識
別子１５２によって識別され、接続部１４８の制御装置
１５０に供給される。制御装置１５０は次に入力発声の
部分を識別されたノイズから分離し、これらの分離され
た部分を次に登録された単語のデータベース１４４に記
憶することができる。

【００２３】図６は、６つ状態を有するヌル戦略の「隠
れたマルコフ・モデルを基礎とする」（ＨＭＭ）の状態
図を示す。隠れたマルコフ・モデルは、Ｌ．Ｒ．ラビナ
ー、Ｊ．Ｇ．ウイルポン及びＢ．Ｈ．ジャングによって
「コンピュータ・スピーチ及びランゲージ」、第１巻、
１６７〜１９７、１９８６の「隠れたマルコフ・モデル
またはテンプレートを使用するモデルを基礎にした連が
っている数字の識別システム」で説明されている。ノー
ド１５３は沈黙、息の吸い込みまたは唇で鳴らす音のよ
うな状態の間連続してループを形成する（Ｆ＿ＢＧで示
す）。「呼び出せ」のような単語を話すと、状態１５３
を離れ（何故なら、ここで話した発声はモデルのデータ
から識別されないため）フローはノード１５４に進む。
ノード１５３を使用することは任意であり、その結果、
他の実施例では動作をノード１５４で直ちに開始しても
よい。また、他の代替実施例では、単語「呼び出せ」を
「ダイヤルせよ」のような他の命令語と取り替えてもよ
い。ノード１５４では、ＸＷＯＲＤが入力されて記憶さ
れ、この場合、制御のフローはノード１５５に進む。ま
たは、単語「呼び出せ」の次に短い沈黙（Ｉ＿ＢＧ）が
続いてもよく、この場合、制御の流れはノード１５６に
進む。ノード１５６では、ＸＷＯＲＤを受け取って記憶
し、制御の流れはノード１５５に進む。息の吐き出しま
たは沈黙がある限り（Ｅ＿ＢＧで示す）、ノード１５５
は連続してループを形成する。息の吐き出しも沈黙もノ
ード１５５に存在しない場合、もしＸＷＯＲＤが直ちに
現れれば、制御の流れはノード１５８に進み、これによ
ってＸＷＯＲＤが記憶される。または、もしＸＷＯＲＤ
の前に短い沈黙（Ｉ＿ＢＧ）があれば、次に制御の流れ
はノード１６０に進む。ノード１６０では、ＸＷＯＲＤ
が受け取られて記憶され、制御の流れはノード１５８に
進む。息の吐き出しまたは沈黙がある間、次にノード１
５８は連続してループを形成する。登録にヌル戦略を使
用することにより、種々の数のＸＷＯＲＤを登録するこ
とが可能になり、その結果、話者は特定の登録の期間中
に１つ以上の単語を選択して登録することが可能にな
る。Ｉ‐ＢＧとＥ‐ＢＧは、適用されたチャンネルのノ
イズ、息の吸い込みまたは唇で鳴らす音のような別の種
類のノイズのモデルをオプションとして表すこができ
る。

【００２４】図７ａーｅは、好適な実施例のヌル戦略で
使用するフレーム毎の分析を示す。図７ａは、入力発声
内の３つの分離した単語の開始点と終了点を手動で決定
する場合を示す。図７ａに示すように、単語「ｃａｌ
ｌ」はフレーム２４（時間＝２４ｘ２０ｍｓ）で始ま
り、フレーム７５で終了する。単語「Ｅｄｉｔｈ」はフ
レーム７８で始まりフレーム１１８で終了する。単語
「Ｇｏｄｆｒｅｙ」はフレーム１２５で始まりフレーム
１８６で終了する。

【００２５】図７ｂーｅに於いて、各入力発声の各フレ
ーム（２０ｍｓ）は別個の分析され、データベースに記
憶されたモデルと比較された。このようなモデルの例
は、息の吸い込み、唇で出す音、沈黙、息の吐き出し、
及び例えば、２０ｍｓと４００ｍｓの間の持続時間中の
短い沈黙を含む。各フレームは、これらのモデルの１つ
と一致するか一致しないかのいずれかである。変数の識
別インデックス（Ｎ）を設定することが可能であり、各
識別したフレームは、指定された識別インデックス
（Ｎ）と一致するまたはこれを超える特定のモデルに対
して識別スコアを達成することを要求される。識別スコ
アの決定は、ドディントン他による「隠れたマルコフ・
モデルによる音声識別のための効果的なプルーニング・
アルゴリズム」という名称の米国特許番号第４，９７
７，５９８号で更に説明され、これはここに参考として
含まれている。

【００２６】図７ｂではＮ＝２の識別インデックスを設
定する。図示のように、フレーム１‐２１は、息の吸い
込み（「Ｉｎｈａｌｅ」）と沈黙（「Ｓ」）のモデルと
十分相関したが、フレーム２２‐７０は、これらのモデ
ルと比較した場合、十分識別されなかった。同様に、フ
レーム７０‐１２０はＮ＝２の識別インデックスを満足
程には十分識別されなかった。その結果、フレーム７１
‐１２０はＸＷＯＲＤであるとして認識され、この場
合、ＸＷＯＲＤは「Ｅｄｉｔｈ」である。

【００２７】フレーム７０と７１の間の別個の単語の区
切りは、図２〜５と関連して上で更に説明したアンカー
・ワード戦略に従ってフレーム２２‐１２０内のアンカ
ー・ワード「呼び出せ」を識別することによって行われ
る。しかし、ヌル戦略は、アンカー・ワードの使用を必
要としない。事実、ヌル戦略は、識別したノイズ・フレ
ーム１２１を、音声モデルと比較した場合、識別インデ
ックスＮ＝２を満足する沈黙であるとして識別すること
により、ＸＷＯＲＤ「Ｅｄｉｔｈ」と「Ｇｏｄｆｒｅ
ｙ」の間の境界を区別することに成功する。フレーム１
２１は単語の境界として識別されるが、その理由は、も
しこれを単語の境界として識別しなければ、これは非識
別フレームの連続したチェーンを分離するからである。
更に、非識別フレームの連続したチェーンをＸＷＯＲＤ
として識別する前に、ヌル戦略を実行して最小数の連続
した非識別フレームを要求することができる。フレーム
１２２〜１８０は識別されず、従ってＸＷＯＲＤとして
識別され、この場合、これは「Ｇｏｄｆｒｅｙ」であ
る。フレーム１８１から前方は沈黙として識別される。

【００２８】図７ｂーｅの場合、「ｃａｌｌ」と「Ｅｄ
ｉｔｈ」を区切るためにアンカー・ワード分析を使用せ
ず、句「ｃａｌｌＥｄｉｔｈ」を登録の間１つの単語
として記憶する。この問題は、ＸＷＯＲＤの前に命令語
（例えば「呼び出せ」）を付けることなく、話者にすぐ
にＸＷＯＲＤ（例えば、「Ｅｄｉｔｈ」）を話すように
促すことによって解決することができる。その結果、ヌ
ル戦略はアンカー・ワードの使用を必要としない。

【００２９】図７ｃーｅは、別の識別インデックスを使
用した場合の比較を示す。図示のように、図７ｃの識別
インデックスＮ＝１．５を使用すると、３つの単語「ｃ
ａｌｌ」、「Ｅｄｉｔｈ」及び「Ｇｏｄｆｒｅｙ」の始
点と終点のフレームの区切りは、図７ａの手動で区切っ
た境界と比較した場合、より密接に一致しているように
見える。

【００３０】図７ｅは非常に厳格な識別インデックス
０．５を使用する場合を示し、上記のモデルと比較する
とこの場合にはフレームを識別する前により強力な類似
性が必要になる。例えば、フレーム１２１はノイズでは
なくて１つの単語の一部として誤って分類されている
が、この理由は、識別インデックスとしてＮ＝０．５を
使用する音声モデルと比較した場合、フレーム１２１は
もはや沈黙として識別されていないからである。更に、
より厳格なインデックスＮ＝０．５のため、単語「呼び
出せ」はフレーム２２〜４８に対応するものとしてのみ
識別され（図７ｂ、ｃに示すようにフレーム２２〜７０
に対応するものではなく）、この結果、またフレーム１
０７〜１１７は今までと違って沈黙（「Ｓ」）として分
類されているが、この理由は、「Ｅｄｉｔｈ」の摩擦子
音「ｔｈ」の部分がもはやフレーム１０７〜１２０に対
応するものとして識別されていないからである。

【００３１】逆に、識別インデックス（Ｎ）は過度に緩
やかになり、これによって分析されたフレームと言語モ
デルの間により低い程度の類似性を要求するものであっ
てはならないが、この理由は、単語の部分が間違ってノ
イズとして識別される可能性があり、従って、登録され
たＸＷＯＲＤの部分から間違って除外されることになる
からである。

【００３２】上述のアプローチと比較して、１つの単語
のようになって流れるのが容易な複数の単語を処理する
場合、呼吸またはチャネル・スタティック（ｃｈａｎｎ
ｅｌｓｔａｔｉｃ）のいずれかによる高いノイズを処理
する場合、及び単語「ｓｉｘ」の「Ｘ」または文字
「Ｓ」の「ｓｕｅ」の語のようなエネルギーの低い摩擦
子音の部分を有する単語を処理する場合には、ヌル戦略
は、特にアンカー・ワードと組み合わせると、非常に多
くの利点を有している。単語の摩擦子音の部分は特定の
単語の始点と終点の区切りを混乱させ、かつ摩擦子音の
部分自身もしばしばノイズとして誤って分類される。し
かし、好適な実施例のヌル戦略は多くの摩擦子音の部分
を登録された単語の部分として分類することに成功し、
またこれらを適切に分類するが、その理由は、沈黙、息
の吸い込み、息の吐き出し及び唇で出す音のような場
合、摩擦子音の部分は通常ヌル戦略のノイズ・モデルと
相関しないからである。

【００３３】好適な実施例のヌル戦略は、一連のものと
して流れ正確に区分することができない入力発声内の複
数の単語を分類することに成功する。従って、ヌル戦略
は長い休止を必要としないため、より多数の単語をより
短時間に登録することとが可能になる。アンカー・ワー
ドによるアプローチまたはヌル戦略によるアプローチ
は、各々音声システムに対する隠されたマルコフ・モデ
ルまたはダイナミック・タイム・ワーピング（ＤＴＷ）
と組み合わせて使用することができる。

【００３４】１つの音声識別試験では、フレーム・エネ
ルギーを基礎にする登録戦略では１００個の単語を登録
する毎に約１１個の識別エラーが発生した、同じ試験
で、ヌル戦略で登録にアプローチした場合には、１００
個の単語を登録する毎にわずか約３個の識別エラーしか
発生しなかった。その結果、好適な実施例のヌル戦略
は、従来技術に対する実質的な改善を提供するものであ
る。

【００３５】

【発明の効果】好適な実施例の種々の重要な特徴を下記
のように要約する。入力発声内の音声パターンの１つ以
上の境界を識別する装置が示され、この装置は、１つ以
上のアンカー・パターンを定義する回路、上記の入力発
声を受け取る回路、上記の入力発声のアンカー・セクシ
ョンを識別する回路であって、上記のアンカー・セクシ
ョンは上記のアンカー・パターンの少なくとも１つに対
応する上記の回路、及び上記のアンカー・セクションに
基づいて上記の発声パターンの１つの境界を定義する回
路を有する。上記の境界定義回路は、アンカー・セクシ
ョンの端部で音声パターンの開始境界を定義する回路を
有することができる。このような装置はまたエネルギー
・レベルが所定のレベル以下である入力発声の１つの点
で音声パターンの停止境界を定義する回路を有すること
ができる。上記の定義回路は、また上記のアンカー・セ
クションの始点における音声パターンの停止境界を定義
する回路を有することができる。この装置は、またエネ
ルギー・レベルが所定のレベル以上である入力発声の１
つの点で音声パターンの開始境界を定義する回路、音声
パターンを話す前に話者に少なくとも所定の１つのアン
カー・パターンを話すように促す回路、または上記の音
声パターンを話した後で少なくとも所定の１つのアンカ
ー・パターンを話すように話者を促す回路によって構成
されることができる。アンカー・パターン定義回路は、
また１つ以上の話者と関係のないアンカー・パターンを
定義する回路を有することができる。この装置は、また
以前に記憶した音声パターンとの比較によって音声パタ
ーンを識別する回路を有することが可能であり、この場
合、このような音声パターンは話者によって決まる音声
パターンである。入力発声内の音声パターンの１つ以上
の境界を識別するこの装置は、識別された言語パターン
に応答する装置を制御する回路によって更に構成され
る。入力発声内の音声パターンを識別する装置が示さ
れ、この装置は１つ以上のセグメント・パターンを識別
する回路、入力発声を受け取る回路、上記のセグメント
・パターンに対応する上記の入力発声の部分を識別する
回路、及び上記の識別した部分に応答する上記の入力発
声の１つ以上のセグメントを定義する回路を有する。こ
れらのセグメント・パターンは、唇からでる音のノイズ
・パターン、沈黙のパターン、息を吸い込むノイズのパ
ターン、息を吐き出す場合のノイズのパターン等のノイ
ズ・パターンによって構成することができる。入力発声
の上記の定義したセグメントは、上記のセグメント・パ
ターンに対応しない入力発声の部分によって構成される
ことができる。入力発声内の音声パターンを識別する上
記の装置は、各々が識別された部分の１つによって上記
の入力発声内で中断されない１つ以上のセグメントによ
って構成される１つ以上のセグメントのグループを定義
する回路によって更に構成され、上記の発声パターンを
１つ以上のセグメント・グループによって構成されるも
のとして定義する回路を更に有することができる。この
ような音声パターン定義回路は、また最小のサイズを有
することのできない全てのセグンメント・グループを上
記の音声パターンから排除する回路を有することができ
る。上記の識別回路は、また上記の入力発声の１つ以上
の要素を１つ以上の上記のセグメント・パターンと比較
する回路を有することができる。上記のセグメント・パ
ターン定義回路は、隠されたマルコフ・モデルに基づい
て上記のセグメント・パターンをモデル化する回路を有
することができる。入力発声内の音声パターンを識別す
る上記の装置は、話者に入力発声を行うことを促す回路
を更に有し、上記のセグメント・パターン定義回路は、
話者と関係のない１つ以上のセグメント・パターンを設
定する回路を有することができる。このような装置は、
以前に記憶した音声パターンと比較することによって上
記の音声パターンを識別する回路によって更に構成され
ることが可能であり、以前に記憶した話者によって決ま
る音声パターンとの比較によって上記の音声パターンを
識別する回路によって更に構成されることができる。こ
のような装置は、識別された音声パターンに応答する装
置を制御する回路によって更に構成されることができ
る。

【００３６】音声識別システム内の音声パターンを登録
するシステムが開示され、上記のシステムは、１つ以上
のアンカー・パターンを定義する回路、入力発声を受け
取る回路、上記の入力発声の１つ以上のアンカー・セク
ションを識別する回路であって上記のアンカー・セクシ
ョンは少なくとも１つのアンカー・パターンに対応する
上記の回路、上記の音声パターンの１つ以上の境界を上
記の入力発声内のアンカー・セクションに隣接するもの
として定義する回路、及び上記の音声パターンを記憶す
る回路を有する。上記の境界定義回路は、上記のアンカ
ー・セクションの端部における音声パターンの開始境界
を定義する回路によって構成されることが可能であり、
更にエネルギー・レベルが所定のレベル以下である上記
の入力発声内の１つの点で上記の音声パターンの停止境
界を定義する回路によって構成されることが可能であ
る。上記の定義回路は、上記のアンカー・セクションの
始点で上記の音声パターンの停止境界を定義する回路を
有するこができる。音声識別システム内の音声パターン
を登録する上記のシステムは、エネルギー・レベルが所
定のレベル以上である上記の入力発声の１つの点で上記
の発声パターンの開始境界を定義する回路によって更に
構成されることができる。

【００３７】音声識別システム内で音声パターンを登録
するシステムが示され、上記のシステムは１つ以上のセ
グメント・パターンを定義する回路、入力発声を受け取
る回路、上記の入力発声の１つ以上のセグメントを定義
する回路であって、上記の定義されたセグメントは上記
のセグメント・パターンに対応しない上記の入力発声の
部分によって構成される上記の回路、上記の音声パター
ンを１つ以上の上記のセグメントによって構成されるも
のとして定義する回路、及び上記の音声パターンを記憶
する回路によって構成される。このようなシステムは、
各々が上記の識別された部分の１つによって上記の入力
発声内で中断されない１つ以上のセグメントによって構
成される１つ以上のセグメント・グループを定義する回
路によって更に構成されることが可能であり、上記の音
声パターンを１つ以上の上記のセグメント・グループに
よって構成されるものとして定義する回路によって更に
構成されることが可能である。このような音声パターン
定義回路は、また最小のサイズを有さない全てのセグメ
ント・グループを上記の音声パターンから排除する回路
を有することができる。

【００３８】音声パターンに応答する装置を制御するシ
ステムが示され、上記のシステムは、１つ以上のセグメ
ント・パターンを定義する回路、入力発声を受け取る回
路、入力発声の１つ以上のセグメントを定義する回路で
あって、上記の定義されたセグメントは上記のセグメン
ト・パターンに対応しない上記の入力発声の部分によっ
て構成される上記の回路、１つ以上の上記のセグメント
によって構成されるものとして上記の音声パターンを定
義する回路、及び上記の音声パターンを上記の装置の機
能と関連させる回路を有する。このようなシステムは、
各々が上記の識別された部分の１つによって上記の入力
発声内で中断されない１つ以上のセグメントによって構
成される１つ以上のセグメント・グループを定義する回
路によって更に構成されることが可能であり、また上記
の１つ以上のセグメント・グループによって構成される
ものとして上記の音声パターンを定義する回路を有する
ことができる。上記の音声パターン定義回路は、また最
小のサイズを有さない全てのセグメント・グループを上
記の音声パターンから排除する回路を有することができ
る。

【００３９】本発明とその利点を詳細に説明したが、種
々の変更、代替及び入れ替えを添付の請求の範囲で定義
する本発明の精神と範囲から逸脱することなく行うこと
が可能であることを理解しなければならない。以上の記
載に関連して、以下の各項を開示する。１．入力発声内の音声パターンの１つ以上の境界を識別
する方法に於いて、上記の方法は：１つ以上のアンカー
・パターンを定義するステップ；上記の入力発声を受け
取るステップ；上記の入力発声のアンカー・セクション
を識別するステップであって、上記のアンカー・セクシ
ョンは少なくとも１つの上記のアンカー・パターンに対
応する上記のステップ；及び上記のアンカー・セクショ
ンに基づいて上記の音声パターンの１つの境界を定義す
るステップ；によって構成されることを特徴とする方
法。

【００４０】２．上記の境界を定義するステップは、上
記のアンカー・セクションの端部で上記の音声パターン
の開始境界を定義するステップによって構成されること
を特徴とする前記項１記載の方法。３．エネルギー・レベルが所定のレベル以下である上記
の入力発声の１つの点で上記の音声パターンの停止境界
を定義するステップによって更に構成されることを特徴
とする前記項２記載の方法。

【００４１】４．上記の定義ステップは、上記のアンカ
ー・セクションの始点で上記の音声パターンの停止境界
を定義するステップによって構成されることを特徴とす
る前記項１記載の方法。５．エネルギー・レベルが所定のレベル以上である上記
の入力発声の１つの点で上記の音声パターンの開始境界
を定義するステップによって更に構成されることを特徴
とする前記項１記載の方法。

【００４２】６．上記の音声パターンを話す前に、話者
に上記のアンカー・パターンの少なくとも所定の１つを
発声するように促すステップによって更に構成されるこ
とを特徴とする前記項１記載の方法。７．上記の音声パターンを話した後で、話者に上記のア
ンカー・パターンの少なくとも所定の１つを発声するよ
うに促すステップによって更に構成されることを特徴と
する前記項１記載の方法。

【００４３】８．上記のアンカー・パターンを定義する
ステップは、話者と関係のない１つ以上のアンカー・パ
ターンを定義するステップによって構成されることを特
徴とする前記項１記載の方法。９．入力発声内の音声パターンを識別する方法に於い
て、上記の方法は：１つ以上のセグメント・パターンを
定義するステップ；入力発声を受け取るステップ；上記
のセグメント・パターンに対応する上記の入力発声の部
分を識別するステップ；及び上記の識別した部分に応答
して上記の入力発声の１つ以上のセグメントを定義する
ステップ；によって構成されることを特徴とする方法。

【００４４】１０．上記のセグメント・パターンを定義
するステップは、１つ以上のノイズ・パターンを定義す
るステップによって構成されることを特徴とする前記項
９記載の方法。１１．上記のセグメントを定義するステップは、上記の
セグメント・パターンに対応しない上記の入力発声の部
分を識別するステップによって構成されることを特徴と
する前記項９記載の方法。

【００４５】１２．各々が上記の識別された部分の１つ
によって上記の入力発声内で中断されない１つ以上のセ
グメントによって構成される１つ以上のセグメント・グ
ループを定義するステップによって更に構成されること
を特徴とする前記項９記載の方法。１３．上記の音声パターンを１つ以上の上記のセグメン
ト・グループによって構成されるものとして定義するス
テップによって更に構成されることを特徴とする前記項
１２記載の方法。

【００４６】１４．上記の音声パターンを定義するステ
ップは、最小のサイズを有さない全てのセグメント・グ
ループを上記の音声パターンから排除するステップによ
って構成されることを特徴とする前記項１３記載の方
法。１５．上記の識別ステップは、上記の入力発声の
１つ以上の要素を１つ以上の上記のセグメント・パター
ンと比較するステップによって構成されることを特徴と
する前記項９記載の方法。

【００４７】１６．上記のセグメント・パターンを定義
するステップは、隠れたマルコフ・モデルに基づいて上
記のセグメント・パターンをモデル化するステップによ
って構成されることを特徴とする前記項９記載の方法。１７．話者に上記の入力発声を発声するようにうながす
ステップによって更に構成されることを特徴とする前記
項９記載の方法。

【００４８】１８．上記のセグメント・パターンを定義
するステップは、話者と関係のない１つ以上のセグメン
ト・パターンを設定するステップによって構成されるこ
とを特徴とする前記項９記載の方法。１９．以前に記憶した音声パターンとの比較によって上
記の音声パターンを識別するステップによって更に構成
されることを特徴とする前記項１または９記載の方法。

【００４９】２０．上記の識別した音声パターンに応答
して装置を制御するステップによって更に構成されるこ
とを特徴とする前記項１９記載の方法。２１．入力発声内の音声パターンに応答する装置を制御
するシステムに於いて、上記のシステムは：１つ以上の
アンカー・パターンを定義する回路；上記の入力発声を
受け取る回路；上記の入力発声の１つ以上のアンカー・
セクションを識別する回路であって、上記のアンカー・
セクションは少なくとも１つの上記のアンカー・パター
ンに対応する上記の回路；上記の入力発声内の上記のア
ンカー・セクションに隣接する上記の音声パターンの１
つ以上の境界を定義する回路；及び上記の音声パターン
を上記の装置の機能と関連させる回路；によって構成さ
れることを特徴とするシステム。

【００５０】２２．上記の境界を定義する回路は、上記
のアンカー・セクションの端部で上記の音声パターンの
開始境界を定義する回路によって構成されることを特徴
とする前記項２１記載のシステム。２３．上記の音声パターンの停止境界をエネルギー・レ
ベルが所定のレベル以下である上記の入力発声の１つの
点で定義する回路によって更に構成されることを特徴と
する前記項２２記載のシステム。

【００５１】２４．上記の定義回路は、上記の音声パタ
ーンの停止境界を上記のアンカー・セクションの始点で
定義する回路によって構成されることを特徴とする前記
項２１記載のシステム。２５．上記の音声パターンの開始境界をエネルギー・レ
ベルが所定のレベル以上である上記の入力発声の１つの
点で定義する回路によって更に構成されることを特徴と
する前記項２１記載のシステム。

【図面の簡単な説明】

【図１】本発明が対象とする問題を示す。

【図２】アンカー・ワードを使用した本発明の一実施例
を示す。

【図３】アンカー・ワードを使用した本発明の一実施例
を示す。

【図４】好適な実施例の装置を示す。

【図５】好適な実施例の装置のプロセッサの代表的な実
施例を示す。

【図６】ヌル戦略の状態図を示す。

【図７】図７ａーｅはヌル戦略で利用するフレーム毎の
分析を示す。

【符号の説明】

１４０トランスデューサ１４１Ａ／Ｄ変換器１４２プロセッサ１４３モデルのデータベース１４４登録した単語のデータベース１４５周辺装置のインターフェース１４６周辺装置

Claims

【特許請求の範囲】

【請求項１】入力発声内の音声パターンの１つ以上の
境界を識別する方法に於いて、上記の方法は：１つ以上
のアンカー・パターンを定義するステップ；上記の入力
発声を受け取るステップ；上記の入力発声のアンカー・
セクションを識別するステップであって、上記のアンカ
ー・セクションは少なくとも１つの上記のアンカー・パ
ターンに対応する上記のステップ；及び上記のアンカー
・セクションに基づいて上記の音声パターンの１つの境
界を定義するステップ；によって構成されることを特徴
とする方法。
【請求項２】入力発声内の音声パターンに応答する装
置を制御するシステムに於いて、上記のシステムは：１
つ以上のアンカー・パターンを定義する回路；上記の入
力発声を受け取る回路；上記の入力発声の１つ以上のア
ンカー・セクションを識別する回路であって、上記のア
ンカー・セクションは少なくとも１つの上記のアンカー
・パターンに対応する上記の回路；上記の入力発声内の
上記のアンカー・セクションに隣接する上記の音声パタ
ーンの１つ以上の境界を定義する回路；及び上記の音声
パターンを上記の装置の機能と関連させる回路；によっ
て構成されることを特徴とする装置。