JPH10333692A - 音韻テーブルと音声認識方法及び音声認識プログラムを格納した記録媒体 - Google Patents

音韻テーブルと音声認識方法及び音声認識プログラムを格納した記録媒体

Info

Publication number
JPH10333692A
JPH10333692A JP9141232A JP14123297A JPH10333692A JP H10333692 A JPH10333692 A JP H10333692A JP 9141232 A JP9141232 A JP 9141232A JP 14123297 A JP14123297 A JP 14123297A JP H10333692 A JPH10333692 A JP H10333692A
Authority
JP
Japan
Prior art keywords
phoneme
input
pattern
word
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9141232A
Other languages
English (en)
Other versions
JP3503862B2 (ja
Inventor
Masanobu Higashida
正信 東田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP14123297A priority Critical patent/JP3503862B2/ja
Publication of JPH10333692A publication Critical patent/JPH10333692A/ja
Application granted granted Critical
Publication of JP3503862B2 publication Critical patent/JP3503862B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 記憶容量を小とし、かつ処理時間を短かくす
る。 【解決手段】 各種音声の2音節についての音韻標準パ
ターンをテーブル2に記憶しておき、入力音声からその
2拍数分の時間スパンを計測し(5)、そのスパンが標
準パターン時間に一致するように入力音声を伸縮し
(6)、この入力音声を特徴量の入力パターンに変換し
(7)、入力パターンを標準時間毎に細分し(10)、
その各細分パターンとテーブル2を照合し、類似した複
数の候補と類似度からなる音韻ラティスを作り(1
1)、音韻ラティスに基づき、高い類似度から組合せ、
音韻系列を作り(12)、この各系列と、音韻系列で記
述された単語辞書3と照合して、単語認識する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、例えば電話番号
案内に利用され、特に単語辞書の容量が少なくて済み、
処理時間の速い音韻テーブルと音声認識方法及び音声認
識プログラム記録媒体に関する。
【0002】
【従来の技術】従来の音声認識装置の主要な構成が、図
8にブロック図で示されている。同図に示す音声認識装
置は、単語辞書100と、音声入力部101と、音響分
析部102と、単語認識部103と、認識結果出力部1
04とから構成されている。単語辞書100は、あらゆ
る種類の単語について、音声の特徴量に対応する単語標
準パターンを格納している。
【0003】上記構成の音声認識装置においては、音声
入力部101から音声を入力すると、この音声波形を音
響分析部102で分析し、入力音声波形の特徴量が抽出
され、つまり、入力されたアナログ型の音声波形がこの
特徴量に基づいたデジタル型の入力パターンに変換され
る。そして、単語認識部103で入力パターンと単語辞
書100とを照合して、入力パターンと類似度の高い単
語を認識結果とし、この認識結果を認識結果出力部10
4から出力する。
【0004】
【発明が解決しようとする課題】しかしながら、上記構
成の従来の音声認識装置では、以下に示すような問題点
があった。単語辞書100に記述されている単語標準パ
ターンは、音声の特徴量という多大な情報を含み、さら
に登録単語数も非常に多いため、これらの単語について
の単語標準パターンを格納している単語辞書100を記
憶するのに大容量の補助記憶装置を要した。
【0005】また、上記のような単語辞書100に記述
されている多数の単語標準パターンと入力パターンとの
特徴量同士の照合は、多大な処理時間を要するものであ
った。さらに、音声認識は即時処理が要求されるため、
このように大容量の単語辞書100との照合処理を行う
ためには、補助記憶装置に比べて高速ではあるが高価な
多くのメモリを要し、音声認識装置を高コストなものに
していた。
【0006】さらに、上記のように、入力パターンと単
語辞書100の単語標準パターンとの照合に多大な時間
を要するため、従来の音声認識装置では、一般には次の
ような利用の仕方で使用されていた。すなわち、入力パ
ターンと単語辞書100との照合対象を少なくするため
に、単語辞書100に記述される単語群とそれら単語標
準パターンを階層毎に区分しておき、利用者に各階層毎
の質問を発し、利用者には各階層に属する単語を逐次音
声入力してもらい、その都度、音声認識結果の是非の確
認を行うようにしていた。具体的には、電話番号案内等
では、案内対象の住所を音声入力する際に、上位層の例
えば都道府県名から入力してもらい、次に市区名の入力
をしてもらい、次に町村名の入力をしてもらうというよ
うに順次段階的に下位層に属する単語の音声入力を行っ
ていた。したがって、利用者にとって一連の住所を入力
することができず、面倒であり、電話番号案内の所要時
間も多く要した。
【0007】この発明は、上記問題点に鑑みなされたも
のであり、特徴量同士の照合を少なくすることによっ
て、補助記憶装置を小容量なものにするとともに、単語
認識の処理時間を削減することができ、さらに、利用者
が一連の音声入力を行える低コストな音韻テーブルと音
声認識方法と、その認識プログラムを記録した記録媒体
を提供することを目的とする。
【0008】
【課題を解決するための手段】この発明の音韻テーブル
は、各種の音声の標準的な特徴量を音韻標準パターンと
して記憶した音韻テーブルであって、上記各種の音声は
その構成音節の数が同一であり、かつ、その時間長とし
ての標準パターン時間が同一であり、上記各種音声の音
韻標準パターンはその音声の構成音韻に対応して記憶さ
れていることを主要な特徴とする。
【0009】また、前記音韻テーブルは、人間の発声リ
ズムの周期となる音節数を拍数として、前記各音韻標準
パターンは、この拍数分の音節からなることも特徴とし
ている。この発明の音声認識方法は、前記音韻テーブル
と、有意の単語がその音韻系列と対で記述されている単
語辞書とを備え、認識対象の音声を入力する音声入力過
程と、入力音声から、拍数分の発声時間を時間スパンと
して計測する時間スパン計測過程と、時間スパンと標準
パターン時間との比較から入力音声の時間軸の伸縮を行
うスパン補正過程と、入力音声を音響分析して特徴量に
変換する音響分析過程と、入力音声の特徴量を入力パタ
ーンとして記憶する入力パターン記憶過程と、前記入力
パターンを前記標準パターン時間毎に細分して複数の入
力細分パターンに分割する入力パターン細分過程と、前
記各入力細分パターンと前記音韻テーブルを照合し、各
入力細分パターンと類似した音韻標準パターンを有する
複数の音韻候補を抽出し、複数の音韻候補と類似度から
なる音韻ラティスを生成する音韻ラティス生成過程と、
前記音韻ラティスに基づいて、各入力細分パターンの時
系列順に入力細分パターン毎に抽出された音韻候補を類
似度の高い方向から組み合わせて部分入力パターンの複
数の音韻系列候補を作成する音韻系列作成過程と、前記
単語辞書と前記複数の音韻系列候補とを照合して単語認
識する単語認識過程と、認識結果を出力する認識結果出
力過程とを有することを主要な特徴としている。
【0010】この発明の記録媒体は前記音韻テーブル
と、文節単語がその音韻系列と対で記述されている単語
辞書とを用いて入力音声の認識をコンピュータにより行
うためのプログラムを記録したものであって、入力音声
から、人間の発声リズムの周期となる音節数を拍数とし
て該拍数に相当する時間スパンを計測し、前記時間スパ
ンと前記標準パターン時間との比較から入力音声の時間
軸の伸縮を行い、前記入力音声を音響分析して特徴量と
しての入力パターンに変換して記憶し、文の句読点に相
当する長い無音状態までの入力パターンを部分入力パタ
ーンとして設定し、前記部分入力パターンを標準パター
ン時間毎に細分して複数の入力細分パターンとし、入力
細分パターンと音韻テーブルとを照合して入力細分パタ
ーンと類似度の高い音韻標準パターンを有する複数の音
韻候補を抽出して、複数の音韻候補と類似度からなる音
韻ラティスを生成し、前記音韻ラティスに基づいて、各
入力細分パターンの時系列順に入力細分パターン毎に抽
出された音韻候補を類似度の高い方向から組み合わせて
部分入力パターンの複数の音韻系列候補を作成し、前記
音韻系列候補と前記単語辞書とを照合して部分入力パタ
ーンの単語認識を行い最長一致する単語を順次に識別し
て単語系列候補を作成し、入力パターン全部の単語認識
が終わるまで次の部分入力パターンを設定するよう制御
信号を送り、認識結果を出力することをコンピュータに
行わせるプログラムが記録されている。
【0011】さらに、この発明の他の記録媒体は、前記
音韻テーブルと、品詞別単語に音韻系列で記述されてい
る単語辞書を用いてコンピュータにより入力音声を認識
するためのプログラムを記録したもので入力音声から、
人間の発声リズムの周期の音節数を拍数として該拍数に
相当する時間スパンを計測し、前記時間スパンと前記標
準パターン時間との比較から入力音声の時間軸の伸縮を
行い、前記入力音声を音響分析して特徴量に変換してこ
の特徴量を入力パターンとして記憶し、文の句読点に相
当する長い無音状態までの入力パターンを部分入力パタ
ーンとして設定し、前記部分入力パターンを標準パター
ン時間毎に細分して複数の入力細分パターンとし、入力
細分パターンと音韻テーブルを照合して入力細分パター
ンと類似度の高い音韻標準パターンを有する複数の音韻
候補を抽出して、複数の音韻候補と類似度からなる音韻
ラティスを生成し、前記音韻ラティスに基づいて、各入
力細分パターンの時系列順に入力細分パターン毎に抽出
された音韻候補を類似度の高い方向から組み合わせて複
数の音韻系列候補を作成し、前記音韻系列候補と前記単
語辞書とを照合して部分入力パターンの単語認識をして
最長一致する単語を順次に識別して単語系列候補を作成
して出力し、前記単語系列候補に対して構文及び意味解
析を行い正しい単語系列候補を選択してこれを単語認識
結果とし、入力パターン全部の単語認識が終わるまで次
の部分入力パターンを設定するよう制御信号を送り、認
識結果を出力することをコンピュータに行わせるプログ
ラムが記録されている。
【0012】
【作用】人間の発声リズムの周期に相当する音節数を拍
数として、この拍数分の音節からなる各種音声の標準的
な特徴量を音韻標準パターンとして音韻テーブルに記憶
格納する。この拍数分の時間長を標準パターン時間とす
る。また、単語辞書には、有意な単語についての音韻系
列を記憶格納する。
【0013】音声入力過程では、認識対象の音声を入力
する。時間スパン計測過程では、入力した音声波形を観
察しながら、前記拍数分に相当する発声時間を時間スパ
ンとして計測する。スパン補正過程では、前記時間スパ
ンと標準パターン時間とを比較して、前記時間スパンが
標準パターン時間となるよう入力音声全体の時間軸の伸
縮補正を行う。
【0014】音響分析過程では、補正された入力音声を
音響分析して、入力音声の特徴量を抽出し、入力パター
ン記憶過程では、この特徴量を入力パターンとして記憶
する。音声認識範囲設定過程では、文の句読点に相当す
る長い無音状態までの入力パターンを部分入力パターン
として設定し、さらに、部分入力パターン細分過程で
は、部分入力パターンを前記標準パターン時間毎に区分
して複数の入力細分パターンとする。
【0015】音韻ラティス生成過程では、これらの入力
細分パターンと前記音韻テーブルの各種音韻標準パター
ンとを照合して、各入力細分パターン毎に類似度の高い
音韻標準パターンを複数個抽出し、各入力細分パターン
毎の複数の音韻標準パターンとそれらの類似度とからな
る音韻ラティスを生成する。音韻系列作成過程は、各入
力細分パターン毎に抽出された複数の音韻標準パターン
とそれらの類似度から、各入力細分パターンの時系列順
に部分入力パターンを構成する音韻標準パターンの組合
わせを類似度の高い順に変更して部分入力パターンに対
する音韻系列候補を複数作成する。
【0016】単語識別過程では、前記複数の音韻系列候
補と前記単語辞書とを照合して音韻系列候補の前方から
最長一致する単語を順番に識別して単語系列を作成して
出力し、入力パターンの音声認識が終わる。認識結果出
力過程では、以上の過程で得られた音声認識結果を出力
する。
【0017】
【発明の実施の形態】図1には、この発明の方法を適用
した音声認識装置の第1の実施例の機能的構成がブロッ
ク図で示されている。同図に示す音声認識装置1は、音
韻テーブル2と、文節単位の単語を収録した文節単語辞
書3と、音声入力部4と、時間スパン計測部5と、音響
分析部7と、入力パターン記憶部8と、音声認識範囲設
定部9と、部分入力パターン細分部10と、音韻ラティ
ス生成部11と、音韻系列作成部12と、単語認識部1
3と、制御部14と、認識結果出力部16とから構成さ
れている。
【0018】音韻テーブル2は、図2に示すように、一
定時間長(この一定時間を標準パターン時間Hとする)
の2音節からなる各種音韻組(ああ、あい、・・・)
(各枠内で上段に示す)に対して、この各種音韻組の音
声の標準的な特徴量を音韻標準パターン(Yアア、Yアイ、
・・・)(各枠内で下段に示す)として記憶格納してい
る(ここで、YX1X2は、音韻組(X1X2)に対す
る音声の標準的な周波数スペクトル・線形予測係数・相
関係数等の特徴パラメ−タ時系列である特徴量を表わし
ている)。すなわち、本実施例では、人間の発声リズム
の周期が2音節であることを前提にしている。つまり、
行進曲や応援歌が2拍子であるように、人間の生体リズ
ムや発声リズムが2拍子であることを鑑みて、発声の基
本となるリズム(拍数)が2音節であり、この2音節の
拍数毎に入力音声の特徴量である入力パターンと音韻テ
ーブル2の各種音韻標準パターンを比較照合して入力パ
ターンの音韻認識を行おうとするものである。
【0019】同図に示すように、この音韻テーブル2の
行側と列側にはそれぞれ日本語の50音と撥音、濁音、
半濁音、拗音、促音、長音、無音が配置され、行側には
音韻組の第1音韻が、列側には第2音韻が配置されてい
る。この行列の全ての要素が2音節からなる音韻標準パ
ターンとして必要なわけではなく、例えば、「学校」の
音韻「がっこう」のうち、「がっ」の音韻標準パターン
は「が_」(_は無音部分を示す)のものと近似してお
り、また、「こう」の音韻標準パターンは「こー」のも
のと近似している。このような2音節からなる音声の音
韻標準パターンは、多くとも2500種類程度あればよ
い。この実施例では、認識対象の音声を2音節毎に区切
り、その2音節毎の特徴量をこれらの音韻標準パターン
と照合することにより2音節の音韻(音韻組)を認識で
きるよう構成している。
【0020】文節単語辞書3は、図3に示すように、文
節単位の単語である文節単語20がその音韻系列21と
対で記述されている。文節単語20には、漢字かな混じ
り文字列である日本語文字列とかな文字列との両方が記
述されている。例えば、項番1にあるように音韻系列2
1が「わたしわ」で示される文節単語20は日本語文字
列で「私は」、かな文字列で「わたしは」であり、項番
13にあるように音韻系列21が「がっこうえ」、「が
っこーえ」、「が_こうえ」(_は無音部分を示す)、
或いは「が_こーえ」で示される文節単語20は日本語
文字列で「学校へ」、かな文字列で「がっこうへ」であ
る。また、項番21にある文節単語「行きましょう」の
ように、「いきましょう」、「いきましょー」、「ゆき
ましょう」、「ゆきましょー」といろいろな音韻の読み
がある場合には、これらが音韻系列21に列記されてい
る。つまり、入力音声の音韻系列と音韻テーブル2の音
韻系列21とを照合して、一致する音韻系列21を有す
る全ての文節単語20が抽出されて、入力音声の単語認
識が行われるよう構成されている。
【0021】音声入力部4は、一定速度で発声された認
識対象の音声を入力する。時間スパン計測部5は、入力
した音声波形を観察して、上記したような発声リズムの
基本となる拍数、つまり、2音節分の発声時間を時間ス
パンt として計測する。例えば電話を掛けて来た時に
「もしもし」と云うように予め知られている言葉、又は
音声応答で予め決めた言葉を発声してもらい、その発声
始めから終わりまでの時間を測定し、その時間をその言
葉に含まれている音節数を割算することにより2音節分
の発声時間を求める。つまり目的とする音声認識を行う
前に、その人の2音節分の発声時間を予め測定する。
【0022】スパン補正部6は、前記入力音声の時間ス
パンtと前記音韻標準パターンの標準パターン時間Hと
を比較して、時間スパンtが標準パターン時間Hとなる
よう入力音声全体の時間軸の伸縮を行う。音響分析部7
は、前記時間軸の伸縮補正をされた入力音声波形を分析
して周波数スペクトルX・線形予測係数Y・相関係数Z
等の特徴パラメ−タ時系列である特徴量に変換する。
【0023】入力パターン記憶部8は、前記入力音声の
特徴量を入力パターンPとして記憶格納する。音声認識
範囲設定部9は、図4に示されるように、入力パターン
Pの始めから、2音節以上の無音状態までを部分入力パ
ターンP1として当初の音声認識範囲を設定する。そし
て、以下に示す音声認識処理によってこの部分入力パタ
ーンP1の音声認識が終わると、入力パターン全ての音
声認識が終わるまで後述の制御部14から順次未処理の
部分入力パターンを音声認識範囲として設定するよう制
御信号が送られる。
【0024】部分入力パターン細分部10は、前記音声
認識範囲設定部9で設定された部分入力パターンを前記
標準パターン時間H毎に区分して、1つ1つを入力細分
パターンとする。つまり、これら入力細分パターンに
は、2音節分の特徴量が記述されている。音韻ラティス
生成部11は、各入力細分パターンと前記音韻テーブル
2とを図4に示すような複数の音韻認識部25、26、
…で照合して、入力細分パターンと類似した音韻標準パ
ターンを有する2音節の音韻組を複数個ずつ音韻認識候
補として抽出する。そして、この各入力細分パターン毎
に抽出された音韻組と、入力細分パターンと音韻標準パ
ターンとの類似度とからなる音韻ラティスを生成する。
図4中の音韻ラティスの( )内の数は入力細分パター
ンと音韻標準パターンとの類似度を示す。類似度は、音
韻標準パターンと入力細分パターンとが一致したときを
100として計算されるが、類似度の計算方法について
は特に限定しない。また、音韻認識部25、26、…
は、それぞれ2音節長、つまり、標準パターン時間H分
の音韻標準パターンと入力細分パターンとの照合を行う
だけであリ、音韻認識部25、26、…は、同図に示す
ように部分入力パターン全体に亘って同時に音韻認識の
並列処理ができるよう構成されている。
【0025】例えば、音声入力部4から日本語文字列
「私は、花子です。」、すなわち、音韻系列「わたしわ
__はなこです」(1文字分の_は1音節分の無音状態
を示す)と音声入力があり、前記音声認識範囲設定部9
で音韻「わたしわ」の部分の音声の特徴量が部分入力パ
ターンP1として設定され、この部分入力パターンP1
が標準パターン時間H毎に細分されて音韻「わた」、
「しわ」部分の各入力細分パターンが得られたとする。
【0026】そして、この音韻ラティス生成部11で各
入力細分パターンが音韻テーブル2と音韻認識部25、
26、…で同時に照合されて、各入力細分パターンと類
似する音韻標準パターンを有する音韻組が音韻候補とし
て複数選択される。例えば、「わた」部分と「しわ」部
分の入力細分パターンが音韻認識部25と26によって
同時に音韻テーブル2と照合される。その結果、「わ
た」部分の入力細分パターンが、音韻テーブル2の音韻
標準パターンYワタに90%類似していると検出され、
さらに、「しわ」部分の入力細分パターンが、音韻テー
ブル2の音韻標準パターンYシワに78%類似している
と検出され、これらの類似度が他の音韻標準パターンと
の照合による類似度に比べて一番高いと判断されると、
それぞれの音韻標準パターンYワタ、Yシワに対応する
音韻組「わた」、「しわ」が最初の音韻候補1となる。
そして、さらに類似度の高い音韻標準パターンに対応し
た音韻組が順番に抽出されて、それらの類似度と共に以
下のような音韻ラティスを生成する。
【0027】その結果、例えば音韻ラティスが、次のよ
うに生成される。 部分入力パターン :「わ た し わ」 部分の特徴量 入力細分パターン :「わ た」、「し わ」部分の各特徴量 音韻組 類似度 音韻組 類似度 音韻候補1 「わ た」 90 、「し わ」 78 音韻候補2 「や た」 40 、「き わ」 65 音韻候補3 「や か」 30 、「し は」 43 音韻候補4 「う た」 20 、「さ や」 32 音韻候補5 「や あ」 15 、「は や」 23 上記音韻ラティスでは、各入力細分パターンに対して5
個ずつ音韻候補が挙げられているが、この音韻候補の数
は入力細分パターンと音韻テーブル2とを照合する音韻
認識部25、26、…の精度に依存して決定され、精度
がよければ、音韻候補の数は少なくて済むが、精度が悪
い場合には、音韻候補を多数挙げる必要がある。
【0028】音韻系列作成部12は、前記音韻ラティス
生成部11で各入力細分パターン毎に選択された複数の
音韻候補に基づいて、部分入力パターン全体に亘って音
韻候補として得られた音韻組の組合わせを類似度の高い
方向から変化させ、部分入力パターンの音韻系列候補を
複数作成する。例えば、上記の例では、音韻「わたし
わ」部分の部分入力パターンの各種音韻系列候補は次の
ようになる。ここで、音韻系列候補は、音韻系列候補を
構成する各音韻組の類似度の乗算値の高いものから順に
挙げられている。つまり、音韻系列候補を構成する音韻
組に極端に低い類似度を有するものが1つでもあれば、
他の音韻組が高い類似度を有していても音韻系列候補と
しては後番に位置することになる。なお、ここでは尤度
を類似度の乗算値から求めたが尤度の計算方法について
も、前記類似度の計算方法同様に特に限定しない。 音韻系列候補(1)…音韻組「わた」、「しわ」との組合わせ 「わたしわ」 (各音韻組の類似度の乗算値: 90×78=7020) 音韻系列候補(2)…音韻組「わた」、「きわ」との組合わせ 「わたきわ」 (各音韻組の類似度の乗算値: 90×65=5950) 音韻系列候補(3)…音韻組「わた」、「しは」との組合わせ 「わたしは」 (各音韻組の類似度の乗算値: 90×43=3870) ・・・・・・・ 音韻系列候補(25)…音韻組「やあ」と音韻組「はや」との組合わせ 「やあはや」 (各音韻組の類似度の乗算値: 15×23= 345) このように、音韻系列候補の種類数W、すなわち、音韻
組の組合わせの数は、入力細分パターン毎に挙げられる
音韻候補の数をKとし、部分入力パターンを構成する入
力細分パターンの数をNとすれば、W=KのN乗であ
る。上記場合の部分入力パターンの種類数Wは、音韻ラ
ティス生成部11で得られる音韻候補の数は5であるか
ら、5の2乗である。音韻系列候補(1)、音韻系列候
補(2)、・・・・、音韻系列候補(W)の()内の数
字1、・・、Wは、これら音韻系列候補の類似度の乗算
値の高いものから順に番号を付したものである。
【0029】単語認識部13は、前記文節単語辞書3を
参照して、部分入力パターンの音韻系列候補(1)、音
韻系列候補(2)、・・・・、音韻系列候補(W)を順
番に検索して最長一致する単語を順次に識別して単語系
列候補とする。また、音韻系列候補を構成する音韻組の
数をN(このNは、上記部分入力パターンを構成する入
力細分パターンの数に等しい)としたとき、その音韻系
列候補の類似度の乗算値のN乗根を尤度として計算し、
この尤度を単語系列候補と共に記憶格納する。
【0030】上記の例では、類似度の乗算値の高い音韻
系列候補(1)「わたしわ」から図3に示す文節単語辞
書3を検索すると、音韻「わたしわ」全体が前記文節単
語辞書3の項番1にある音韻系列21と最長一致するの
で、この部分入力パターンの単語系列候補の1つは、日
本語文字列「 私は」 、或いは、かな文字列「わたしは」
で表わされる文節単語20と識別する。
【0031】一方、音韻系列候補(2)の「わたきわ」
以降の音韻系列候補に基づく文節単語辞書3の検索で
は、音韻系列候補(1)の「わたしわ」のような、音韻
系列全体が文節単語辞書3の音韻系列21と一致するこ
とがないので、各音韻系列候補(1)〜(25)と文節
単語辞書3との照合による最長一致検索では、「私は
(わたしは)」のみが得られ、これを唯一の単語系列候
補とする。
【0032】そして、この単語系列候補「私は(わたし
は)」の音韻「わたしわ」は2つの音韻組から組み立て
られているため、類似度の乗算値7020の平方根8
3.79を尤度として計算し、この尤度83.79と単
語系列候補「私は(わたしは)」を記憶格納する。この
場合、部分入力パターンの単語系列候補が1つの文節単
語20から構成されたが、後述の具体例−2に、単語系
列候補が複数個の文節単語20から構成される場合を示
している。
【0033】このように部分入力パターンの単語が認識
されて、部分入力パターンの音声認識が終わる。制御部
14は、前記音声認識範囲設定部9、部分入力パターン
細分部10、音韻ラティス生成部11、音韻系列作成部
12、単語認識部13を制御する。すなわち、制御部1
4は、以下に示す制御信号を上記各部9〜13に送る。
【0034】(イ) 入力パターン記憶部8に格納されて
いる入力パターンPに基づき、音声認識範囲としての部
分入力パターンを設定するよう制御部14は音声認識範
囲設定部9へ制御信号を送る。 (ロ)音声認識範囲設定部9において部分入力パターン
が設定されると、部分入力パターンを時間スパンt毎に
細分するよう制御部14は部分入力パターン細分部10
へ制御信号を送る。
【0035】(ハ)次に、細分された部分入力パターン
としての入力細分パターンを、複数の音韻認識部25、
26、…にかけて音韻認識を行い音韻ラティスを生成す
るよう制御部14は音韻ラティス生成部11へ制御信号
を送る。 (ニ)次に、音韻ラティスが生成されると、音韻ラティ
スに基づいて複数の音韻系列候補を作成するよう制御部
14は音韻系列作成部12へ制御信号を送る。
【0036】(ホ)次に、複数の音韻系列候補に基づき
文節単語辞書3を参照して部分入力パターンの単語認識
を行うよう制御部14は単語認識部13へ制御信号を送
る。 (ヘ)さらに、上記の単語認識部13の単語認識の結
果、入力パターンP全てについての単語認識が行われた
か否か、つまり、音声認識が行われたか否かを判断し、
行われていなければ上記の音声認識範囲設定部9へ順
次、未処理の部分入力パターンを設定するよう制御部1
4は制御信号を送り、上記の(イ)〜(ホ)までの処理
を繰り返す。
【0037】上記の(イ)〜(ヘ)までの処理により入
力パターンP全てについて音声認識が行われ、音声認識
処理が終了する。認識結果出力部16は、以上のように
得られた音声認識結果を出力する。次に、上記構成の第
1の実施例の具体例を説明する。 [具体例−1] 住所を音声入力した場合の音声認識(地
名の区切に無音状態が介入する場合) ここでは、地名は文節と同様に扱っている。
【0038】音声入力部4から日本語文字列「横浜市磯
子区磯子」、つまり、音韻系列「よこはまし いそご
いそご」(1文字分の_は1音節分の無音状態を
示す)との一定速度の音声入力があった場合の動作を以
下に説明する。時間スパン計測部5では、この入力音声
の最初の2音節「よこ」と話者が発声するに要した時間
を計測して、これを時間スパンtとする。例えば、時間
スパンtを250ミリ秒とする。つまり、この250ミ
リ秒の発声時間内に2音節分の音声が含まれていること
になる。
【0039】スパン補正部6では、前記入力音声の時間
スパンtと前記音韻標準パターンの標準パターン時間H
とを比較して、時間スパンtが標準パターン時間Hとな
るよう入力音声全体の時間軸の伸縮を行う。標準パター
ン時間Hが例えば200ミリ秒であれば、入力音声全体
の時間軸を200/250倍に縮める。音響分析部7で
は、前記時間軸の補正された入力音声から特徴量を抽出
してこれを入力パターンPとする。
【0040】音声認識範囲設定部9では、2音節以上に
亘る長期の無音状態までの入力パターンPを部分入力パ
ターンとして音声認識範囲を設定する。この場合は、
「よこはまし」部分の特徴量が最初の部分入力パターン
P1である。以降の処理で、「よこはまし」部分の音声
認識が終わると、制御部14から次の部分入力パターン
を設定するよう制御信号が送られ、「いそごく」部分の
特徴量が部分入力パターンP2として設定される。
【0041】部分入力パターン細分部10では、部分入
力パターンを標準パターン時間H毎、つまり、最初は
「よこはまし」部分の部分入力パターンP1を200ミ
リ秒毎に区分して、その1つ1つを入力細分パターンと
する。したがって、各入力細分パターンは、それぞれ2
音節「よこ」、「はま」、「し_」部分の各特徴量を記
述したものとなる。
【0042】音韻ラティス生成部11では、音韻テーブ
ル2と、「よこ」、「はま」、「し_」部分の入力細分
パターンとを、図4に示す音韻認識部25、26、27
で同時に照合し、類似した音韻標準パターンを有する音
韻組を複数抽出し、これらの音韻組とその類似度とから
なる音韻ラティスを生成する。例えば、 部分入力パターン:「よこはまし」部分の特徴量 入力細分パターン:「よこ」部分 「はま」部分 「し」部分 音韻組 類似度 音韻組 類似度 音韻組 類似度 音韻候補1「よこ」 70 、「やま」 75 、「し_」 80 音韻候補2「ゆく」 50 、「はま」 60 、「ひ_」 57 音韻候補3「ここ」 40 、「はし」 30 、「ち_」 50 音韻候補4「おお」 20 、「はみ」 15 、「き_」 20 音韻候補5「やこ」 10 、「ひみ」 5 、「ち_」 15 と音韻ラティスが得られる。
【0043】音韻系列作成部12では、音韻ラティス、
つまり、部分入力パターンを組み立てる入力細分パター
ン毎に抽出された音韻組とその類似度とに基づき、類似
度の高い方向から部分入力パターンの音韻組の組合わせ
を作成する。上記の例では、 音韻系列候補(1)…音韻組「よこ」、「やま」、「し
_」との組合わせ 「よこやまし」 (各音韻組の類似度の乗算値: 70
×75×80=420000) 音韻系列候補(2)…音韻組「よこ」、「はま」、「し
_」との組合わせ 「よこはまし」 (各音韻組の類似度の乗算値: 70
×60×80=336000) ・・・・・・・ 音韻系列候補(22)…音韻組「ゆく」、「はし」、「し
_」との組合わせ 「ゆくはしし」 (各音韻組の類似度の乗算値: 50
×30×80=120000) ・・・・・・・ 音韻系列候補(125 )…音韻組「やこ」、「ひみ」、
「ち_」との組合わせ 「やこひみち」 (各音韻組の類似度の乗算値: 10
×5×15=7500) のように125種類の音韻系列候補が作成される。
【0044】単語認識部13では、文節単語辞書3を参
照して、上記の各種音韻系列候補の類似度の乗算値の高
いものから順に最長一致検索を行い、最長一致したもの
の文節単語20を順次識別して単語系列候補を作成す
る。そして、音韻系列候補を構成する音韻候補の数3に
基づき、最長一致した音韻系列候補の類似度の3乗根
(立方根)を尤度として計算し、この尤度を前記認識さ
れた単語系列候補と共に記憶格納する。
【0045】例えば、上記の例では、類似度の高い音韻
系列候補(1)の「よこやまし」に基づいて、図3に示
す文節単語辞書3を検索しても音韻「よこやまし」全体
が一致する検索候補は得られない。次に類似度の高い音
韻系列候補(2)の「よこはまし」で文節単語辞書3を
検索すると、項番32の音韻系列21と最長一致し、日
本語文字列で「横浜市」、かな文字列で「よこはまし」
が検索候補として得られる。
【0046】音韻系列候補(3)以降に基づく図3に示
す文節単語辞書3の検索では、音韻系列候補(22)の
「ゆくはしし」に基づく検索で項番37の音韻系列21
と最長一致し、日本語文字列で「行橋市」、かな文字列
で「ゆくはしし」の文節単語20が検索候補として得ら
れる。このように、各音韻系列候補の文節単語辞書3の
最長一致検索によって複数の検索候補が得られれば、こ
れらを単語系列候補としてその尤度と共に例えば次のよ
うに出力する。この場合、各音韻系列候補が3つの音韻
組から構成されているので、尤度は各音韻系列候補の乗
算値の3乗根(立方根)で計算される。 単語系列候補1 「横浜市(よこはまし)」 尤度:69.52 単語系列候補2 「行橋市(ゆくはしし)」 尤度:49.32 このように本来の音韻「よこはまし」部分の部分入力パ
ターンの単語が識別されて、音声認識が終わる。制御部
14では、全ての入力パターンPについての音声認識が
終わったか否かを判断して、終わっていなければ、次の
部分入力パターンを指示するよう前記音声認識範囲設定
部9へ制御信号を送る。音声認識範囲設定部9では、こ
の制御信号を受けると、上記の例では、次の音韻系列
「いそごく」部分の特徴量を次の部分入力パターンとし
て設定する。
【0047】そして、「いそごく」部分の部分入力パタ
ーンも、次の「いそご」部分の部分入力パターンも上記
「よこはまし」部分の部分入力パターン同様に音韻認識
され、さらに、単語認識される。全ての入力パターンP
についての音声認識が終わると、認識結果出力部16か
ら音声認識結果を出力する。
【0048】上記の例では、部分入力パターンP1の単
語系列候補が「横浜市」と尤度も高く正しく認識されて
いるが、同時に尤度は低いが「行橋市(ゆくはしし)」
が誤認識されている。このようなときは、出力結果から
利用者が正しい単語認識を判断することになる。以上の
ように、この第1の実施例によれば、音韻認識は音韻認
識範囲である部分入力パターンを単位として、複数設け
た音韻認識部25、26、…によって2音節毎に並列処
理される。
【0049】したがって、音韻認識の際に照合される音
韻テーブル2には2音韻からなる2500程度の音韻標
準パターンを格納すればよいので音韻テーブル2の容量
は少なくて済み、従来のような大容量の補助記憶装置は
必要なくなる。また、少量の特徴量同士の照合によって
音韻認識が、さらに、音韻系列同士の照合によって単語
認識が行われるため、照合の際に必要となる高速メモリ
も少なくて済み、音韻認識装置の低コスト化が達成され
る。
【0050】さらに、この実施例は、2音節毎の一定長
かつ少数の音韻標準パターンと入力細分パターンとの特
徴量の照合を行って音声認識を行うものであり、また、
複数の音韻認識部25、26、…で並列処理されるた
め、従来のように各種の単語毎に不定長かつ膨大な特徴
量の照合をするものに比べて音韻認識処理時間が非常に
速くなる。
【0051】また、単語認識の際、照合される文節単語
辞書3は、従来のような単語標準パターンといった特徴
量が記述されている単語辞書100と異なり、音韻系列
で記述されているため、文節単語辞書3の容量を小さく
できる。さらに、単語認識が辞書検索と同様に行われる
ため、処理速度が速い。さらに、従来では単語辞書10
0との照合を行う単語認識部103での処理に多大な時
間がかかるため、利用者が一連の住所を音声入力するこ
とが不可能であったが、この具体例−1で示したように
それが可能となる。また、この具体例−1では、地名の
区切りに2音節相当以上の無音状態を介入させたが次の
具体例−2では、必ずしも地名の区切りに2音節以上の
無音状態が介入しない場合を説明する。 [具体例−2] 住所を音声入力した場合の音声認識(地
名の区切に無音状態が介入しない場合) 音声入力部4から前記同様の日本語文字列「横浜市磯子
区磯子」の意味で音韻系列「よこはまし いそごくい
そご」(_は無音部分を示す)というように音声入力が
あり、2番目の部分入力パターンである音韻「いそごく
いそご」部分に2つの文節単語が含まれている場合につ
いての動作を以下に説明する。
【0052】1番目の「よこはまし」部分の部分入力パ
ターンP1については前記具体例−1同様に音声認識さ
れる。2番目の「いそごくいそご」部分の部分入力パタ
ーンP2については、次のように音声認識される。部分
入力パターン細分部10で、部分入力パターンP2が標
準パターン時間H毎に細分されて、「いそ」、「ご
く」、「いそ」、「ご_」部分の4つの入力細分パター
ンに分割される。
【0053】音韻ラティス生成部11では、上記各入力
細分パターンと音韻テーブル2とを、4個の音韻認識部
25、26、27、28で照合して各入力細分パターン
と類似する音韻標準パターンを有する複数の音韻組と、
それらの類似度とからなる音韻ラティスを生成する。例
えば、 部分入力パターン:「いそごくいそご」部分の特徴量 入力細分パターン:「いそ」部分 「ごく」部分 「い
そ」部分 「ご_」部分 音韻組 類似度 音韻組 類似度 音韻組 類似度 音韻組 類似度 音韻候補1 「ゆそ」 65 「ごく」 80 「ゆそ」 65 「ご_」 90 音韻候補2 「いそ」 60 「ぎく」 40 「いそ」 60 「ぐ_」 30 音韻候補3 ・ ・・・・・・ 音韻候補4 ・ ・・・・・・ 音韻候補5 ・ ・・・・・・ と音韻ラティスが得られる。
【0054】音韻系列作成部12では、上記音韻ラティ
スに基づいて類似度の高い順に音韻系列候補を作成す
る。例えば上記例では、 音韻系列候補(1)…音韻組「ゆそ」、「ごく」、「ゆそ」、「ご_」 の組合 わせ 「ゆそごくゆそご」 (各音韻組の類似度の乗算値: 65×80×65×90= 304 20000 ) 音韻系列候補(2)…音韻組「いそ」、「ごく」、「ゆそ」、「ご_」 の組合 わせ 「いそごくゆそご」 (各音韻組の類似度の乗算値: 60×80×65×90= 280 80000 ) 音韻系列候補(3)…音韻組「いそ」、「ごく」、「いそ」、「ご_」 の組合 わせ 「いそごくいそご」 (各音韻組の類似度の乗算値: 60×80×60×90= 259 20000 ) ・・・・・・・ のような5の4乗種類、つまり、625種類の音韻系列
候補を作成する。
【0055】単語認識部13では、上記の各音韻系列候
補を順番に文節単語辞書3と照合して最長一致検索を行
う。この最長一致検索によって、音韻系列候補(1)の
「ゆそごくゆそご」では検索候補は得られないが、音韻
系列候補(2)、(3)の「いそごく」部分が文節単語
辞書3の項番34に最長一致し、さらに、音韻系列候補
(2)、(3)の「ゆそご」、「いそご」部分の文字列
の最長一致検索によって、音韻系列候補(3)の「いそ
ご」部分が文節単語辞書3の項番35に最長一致する。
【0056】したがって、この部分入力パターンの単語
系列候補が日本語文字列では「磯子区磯子」、かな文字
列では「いそごくいそご」で表わされるものであり、こ
の単語系列候補の尤度は音韻系列候補(3)の類似度の
乗算値25920000の4乗根、71.35であると
単語認識される。そして、この単語系列候補とその尤度
とを記憶格納する。
【0057】制御部14では、上記のように「よこはま
し」に継いで、「いそごくいそご」部分の単語認識が終
わると、全ての入力パターンPの音声認識が終わったの
で、音声認識範囲設定部9に制御信号を送ることなく音
声認識処理を終了する。そして、認識結果出力部16か
ら音声認識結果を出力する。上記の具体例−2のよう
に、文節毎、或いは地名毎に2音節長以上の無音状態を
介入させなくとも、各単語は文節単語辞書3との最長一
致検索により部分入力パターンは単語認識されるため、
音声認識が可能となる。したがって、利用者は文節毎或
いは地名毎に2音節以上の無音状態を介入させる煩わし
さがなく本装置を使用できる。その他、具体例−1で示
したと同様に、音韻テーブル2の容量が少なくて済み、
処理速度が速いなどの効果を有する。
【0058】次に、第2の実施例の構成を図5に示す。
同図に示す音韻テーブル2は、音韻テーブル2と、品詞
別単語を収録した品詞別単語辞書22と、音声入力部4
と、時間スパン計測部5と、スパン補正部6と、音響分
析部7と、入力パターン記憶部8と、音声認識範囲設定
部9と、部分入力パターン細分部10と、音韻ラティス
生成部11と、音韻系列作成部12と、単語認識部13
と、制御部14と、解析部15と、認識結果出力部16
とから構成されている。
【0059】第2の実施例が前記第1の実施例と異なる
ところは、文節単語辞書3の代わりに品詞別単語辞書2
2を用いて、また、単語認識部13の後に解析部15を
設けたことであり、この解析部15は、音声認識範囲設
定部9、部分入力パターン細分部10、音韻ラティス生
成部11、音韻系列作成部12、単語認識部13と同様
に制御部14によって制御され、その他の構成は前記第
1の実施例と同様である。すなわち、品詞別単語辞書2
2を照合して単語認識した結果が文法的・構文的・意味
的に正しいか否かを解析部15で判断する手段を設けて
いる。
【0060】品詞別単語辞書22は、図6に示すように
品詞別単語30毎にその品詞31と音韻系列32とが記
述されている。次に、図6に示す品詞別単語辞書22を
用いた第2の実施例の具体例を説明する。 [具体例−3] 品詞別単語辞書を用いて単語認識を行
う。
【0061】音声入力部4から、「私は、日本人で
す。」、つまり、音韻で「わたしわ にほんじんです」
(_は無音部分を示す)との一定速度の音声入力があっ
た場合の動作を以下に説明する。時間スパン計測部5、
スパン補正部6、音響分析部7、入力パターン記憶部
8、音声認識範囲設定部9、部分入力パターン細分部1
0、音韻ラティス生成部11、音韻系列作成部12での
処理は上記各具体例同様に行われて、その結果、音韻系
列作成部12で音韻「わたしわ」部分が前記同様な音韻
系列候補が得られたとする。つまり、 音韻系列候補(1)…音韻組「わた」、「しわ」との組合わせ 「わたしわ」 (各音韻組の類似度の乗算値: 90×78=7020) 音韻系列候補(2)…音韻組「わた」、「きわ」との組合わせ 「わたきわ」 (各音韻組の類似度の乗算値: 90×65=5950) 音韻系列候補(3)…音韻組「わた」、「しは」との組合わせ 「わたしは」 (各音韻組の類似度の乗算値: 90×43=3870) ・・・・・・・ 音韻系列候補(25)…音韻組「やあ」と音韻組「はや」との組合わせ 「やあはや」 (各音韻組の類似度の乗算値: 15×23=345) のように音韻系列候補が得られたとする。
【0062】そして、単語認識部13で、音韻系列候補
(1)から順番に図6に示す前記品詞別単語辞書22を
参照して最長一致検索を行う。その結果、音韻系列候補
(1)と(3)の音韻「わたし」部分が項番1の音韻系
列32と最長一致し、日本語文字列で「私」、かな文字
列で「わたし」、の品詞別単語30が抽出される。次
に、音韻系列候補(1)と(3)の音韻「わたし」以外
の音韻「わ」と「は」を品詞別単語辞書22を参照して
検索すると、音韻系列候補(1)の音韻「わ」部分によ
る検索では、図6に示す品詞別単語辞書22の項番4の
日本語文字列「輪」(名詞)と項番5の日本語文字列
「は」(助詞)と項番6の日本語文字列「和」が検索候
補に挙げられる。その結果、下記のような音韻系列候補
(1)についての単語系列候補が得られる。このときの
音韻系列候補(1)は2つの音韻組から構成されている
から、尤度は、類似度の乗算値7020の平方根であ
り、83.79となる。 単語系列候補1「私(わたし)」+「輪(わ)」(代名詞+名詞)尤度:83.79 単語系列候補2「私(わたし)」+「は」 (代名詞+助詞)尤度:83.79 単語系列候補3「私(わたし)」+「和(わ)」(代名詞+名詞)尤度:83.79 一方、音韻系列候補(3)の音韻「は」部分による検索
では、項番7の日本語文字列「歯」(名詞)が抽出され
て、以下のような単語系列候補が得られる。このときの
尤度は、音韻系列候補(3)の類似度の乗算値3890
の平方根、62.37である。 単語系列候補4「私(わたし)」+「歯(は)」(代名詞+名詞)尤度:62.37 と単語系列候補が得られる。
【0063】次の解析部15では、単語認識部13で得
られた単語系列候補の文法上、構文上、意味上の解析を
行う。上記の例では、文法上、構文上、意味上、単語系
列の正しい組合わせは、単語系列候補2の「私(わた
し)」(代名詞)+「は」(助詞)だけであると解析さ
れる。そして、認識結果出力部16から、単語系列候補
2とその尤度83.79からなる音声認識結果が出力さ
れる。
【0064】上記第2の実施例によれば、品詞別単語辞
書22は品詞別の単語を収録するため、前記第1の実施
例のような文節毎の単語を収録した文節単語辞書3より
も収録語数が少なくて済む。また、音韻認識は第1の実
施例同様に、2音節からなる音韻組の各特徴量を記述し
た音韻テーブル2を用いるため、音韻テーブル2の容量
は少なくて済み、音韻認識の処理時間が速く、さらに、
単語認識も辞書検索と同様な処理で済むため、単語認識
処理も速い等、前記第1の実施例同様の効果が得られ
る。
【0065】この発明は、その他様々な実施の態様が考
えられる。例えば、第1の実施例における文節単語辞書
3を地名辞書として都道府県名の下位に市区町村名を記
述し、その市区町村名も上位名の下に下位名を記述する
というようにその構成を図7に示すような階層構造にし
て、上位名に属する下位名以外は候補としないように構
成すれば、単語認識部13から単語認識結果として無駄
な候補を省くことができる。例えば、前記具体例−1で
は単語認識部13から「横浜市(よこはまし)」(尤度
69.52)、「行橋市(ゆくはしし)」(尤度49.
32)というように2つの単語認識候補が得られたが、
利用者が「かながわけん よこはまし」と音声入力し
た場合に、2番目の部分入力パターンの単語認識のとき
に「よこはまし」以外のものを候補としないようにでき
る。
【0066】また、地名辞書を上記のような階層構造に
しなくとも、第2の実施例において品詞別単語辞書22
を地名辞書として、単語認識部13で単語認識された地
名の前後関係に矛盾があるか否かを解析部15で解析す
るようにすれば上記同様に単語認識部13から出力した
無駄な認識結果を省き、所望の認識結果のみを出力する
ことができる。
【0067】さらに、第1の実施例の場合、単語認識部
13で、文節単語辞書3を参照して最長一致検索を行う
ようにしたが、文節毎に無音状態を介入するように音声
入力すれば、音韻系列候補による文節単語辞書3の検索
は全文一致検索で行うことができる。また、上記各実施
例では、単語認識部13で、最長一致検索にて部分入力
パターンの単語系列候補を作成したが、検索方法は最長
一致検索に限定されることはなく、音韻系列作成部12
で作成された音韻系列候補に対し、可能な限りの単語系
列候補を抽出するなどの様々な検索方法が考えられる。
【0068】さらに、上記各実施例では、音声入力部4
には、一定速度の音声を入力するようにしたが、不定速
度で入力した音声を一定速度に変換できるような機構を
設けることによって、一定速度で音声入力する必要はな
くなる。さらに、上記各実施例では、音声認識範囲設定
部9以降の処理で入力された順に部分入力パターンを次
々に音声認識処理を行ったが、入力パターン記憶部8の
次に、音声認識範囲設定部9以降の処理手段を並列に設
け、制御部14がこれらが並列に作動するよう制御する
ことによって、複数の部分入力パターンの音声認識処理
を並列して行うことができる。
【0069】この場合は、上記各実施例よりも当然より
速い音声認識が行える。以上の音声認識はコンピュータ
を用いてプログラムを解読実行することにより行われる
ものであって、この認識方法のプログラムは記録媒体に
記録されている。
【0070】
【発明の効果】この発明によれば、音韻認識処理と単語
認識処理を別に行い、音韻認識のためには拍数分の長さ
の各種の音韻標準パターンを用意すればよいので、音韻
標準パターンの種類は非常に少量で済み、音韻テーブル
2を記憶する補助記憶装置は従来のような大容量のもの
は必要なくなる。
【0071】また、音韻認識は上記のような拍数分長で
少数の音韻標準パターンとの照合で行われるため、音韻
認識処理が速く行われる。さらに、単語認識のための単
語辞書は、入力音声を音韻系列に変換したものを照合す
るためのものであって音韻系列で記述されているため、
従来のような単語標準パターンで記述されているものに
比べて小容量で済む。さらに、単語認識も、従来のよう
な特徴量同士の照合でなく、文字検索と同様に行われる
ため、処理が速く行われる。
【0072】さらに、上記のように音韻テーブル2を参
照する少量の特徴量同士の照合によって音韻認識が、さ
らに、音韻系列同士の照合によって単語認識が行われる
ため、照合の際に必要となる高速メモリも少なくて済
み、音韻認識装置の低コスト化が達成される。さらに、
従来は上位の単語を音声入力して音声認識を行い、次に
下位の単語の音声入力して音声認識を行うというように
利用者は単語毎に区切って数回に分けて音声入力しなけ
ればならないという面倒があったが、本発明によれば上
記のように音声認識の処理時間が速いので、一連の単語
を一度に音声入力でき、利用者にとって便利なものとな
る。
【図面の簡単な説明】
【図1】この発明による方法の第1の実施例を適用した
音声認識装置の機能的構成を示すブロック図。
【図2】音韻テーブルの一例を示す図。
【図3】文節単語辞書の一例を示す図。
【図4】この発明の音声認識の過程を説明する図。
【図5】この発明による第2の実施例を適用した音声認
識装置の機能的構成を示すブロック図。
【図6】品詞別単語辞書の一例を示す図。
【図7】地名辞書の一例を示す図。
【図8】従来の音声認識装置の機能的構成を示すブロッ
ク図。

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 各種の音声の標準的な特徴量を音韻標準
    パターンとして記憶した音韻テーブルであって、 上記各種の音声はその構成音節の数が同一であり、か
    つ、その時間長としての標準パターン時間が同一であ
    り、 上記各種音声の音韻標準パターンはその音声の構成音韻
    に対応して記憶されていることを特徴とする音韻テーブ
    ル。
  2. 【請求項2】 人間の発声リズムの周期となる音節数を
    拍数として、前記各音韻標準パターンは、この拍数分の
    音節からなることを特徴とする請求項1記載の音韻テー
    ブル。
  3. 【請求項3】 請求項1又は請求項2記載の音韻テーブ
    ルと、 有意の単語がその音韻系列と対で記述されている単語辞
    書とを備え、 認識対象の音声を入力する音声入力過程と、 入力音声から、拍数分の発声時間を時間スパンとして計
    測する時間スパン計測過程と、 前記時間スパンと標準パターン時間との比較から入力音
    声の時間軸の伸縮を行うスパン補正過程と、 入力音声を音響分析して特徴量に変換する音響分析過程
    と、 入力音声の特徴量を入力パターンとして記憶する入力パ
    ターン記憶過程と、 前記入力パターンを前記標準パターン時間毎に細分して
    複数の入力細分パターンに分割する入力パターン細分過
    程と、 前記各入力細分パターンと前記音韻テーブルを照合し、
    各入力細分パターンと類似した音韻標準パターンを有す
    る複数の音韻候補を抽出し、複数の音韻候補と類似度か
    らなる音韻ラティスを生成する音韻ラティス生成過程
    と、 前記音韻ラティスに基づいて、各入力細分パターンの時
    系列順に入力細分パターン毎に抽出された音韻候補を類
    似度の高い方向から組み合わせて入力パターンの複数の
    音韻系列候補を作成する音韻系列作成過程と、 前記単語辞書と前記複数の音韻系列候補とを照合して単
    語認識する単語認識過程と、 認識結果を出力する認識結果出力過程とを有することを
    特徴とする音声認識方法。
  4. 【請求項4】 前記入力パターン細分過程は、 文の句読点に相当する長い無音状態までの入力パターン
    を部分入力パターンとして設定する音声認識範囲設定過
    程を含み、前記部分入力パターンごとに前記入力パター
    ン細分過程、前記音韻ラティス生成過程、前記単語認識
    過程を行うことを特徴とした請求項3記載の音声認識方
    法。
  5. 【請求項5】 前記単語認識過程は、前記単語辞書と前
    記複数の音韻系列候補とを照合して最長一致する単語を
    順次に識別して単語系列候補を作成することを特徴とす
    る請求項3又は4記載の音声認識方法。
  6. 【請求項6】 前記単語辞書は、文節単語がその音韻系
    列と対で記述されていることを特徴とする請求項3乃至
    請求項5の何れかに記載の音声認識方法。
  7. 【請求項7】 前記単語認識過程で認識された単語系列
    候補に対して構文及び意味解析を行い正しい単語系列候
    補を選択してこれを単語認識結果とする解析過程をさら
    に有することを特徴とする請求項5記載の音声認識方
    法。
  8. 【請求項8】 前記単語辞書は、品詞別単語がその音韻
    系列と対で記述されていることを特徴とする請求項7記
    載の音声認識方法。
  9. 【請求項9】 請求項1又は請求項2記載の音韻テーブ
    ルと、文節単語がその音韻系列と対で記述されている単
    語辞書とを用い、コンピュータにより入力音声を認識す
    るためのプログラムを記録した記録媒体であって、 入力音声から、人間の発声リズムの周期となる音節数を
    拍数として該拍数に相当する時間スパンを計測し、 前記時間スパンと前記標準パターン時間との比較から入
    力音声の時間軸の伸縮を行い、 入力音声を音響分析して特徴量としての入力パターンに
    変換して記憶し、 文の句読点に相当する長い無音状態までの入力パターン
    を部分入力パターンとして設定し、 前記部分入力パターンを標準パターン時間毎に細分して
    複数の入力細分パターンとし、 入力細分パターンと音韻テーブルとを照合して入力細分
    パターンと類似度の高い音韻標準パターンを有する複数
    の音韻候補を抽出して、複数の音韻候補と類似度からな
    る音韻ラティスを生成し、 前記音韻ラティスに基づいて、各入力細分パターンの時
    系列順に入力細分パターン毎に抽出された音韻候補を類
    似度の高い方向から組み合わせて部分入力パターンの複
    数の音韻系列候補を作成し、 前記音韻系列候補と前記単語辞書とを照合して最長一致
    する単語を順次に識別して単語系列候補を作成し、 入力パターン全部の単語認識が終わるまで次の部分入力
    パターンを設定するよう制御信号を送り、認識結果を出
    力する音声認識プログラムを記録した記録媒体。
  10. 【請求項10】 請求項1又は請求項2記載の音韻テー
    ブルと、品詞別単語に音韻系列で記述されている単語辞
    書を用い、コンピュータにより入力音声を認識するため
    のプログラムを記録した記録媒体であって、 入力音声から、人間の発声リズムの周期の音節数を拍数
    として該拍数に相当する時間スパンを計測し、 前記時間スパンと前記標準パターン時間との比較から入
    力音声の時間軸の伸縮を行い、 入力音声を音響分析して特徴量に変換してこの特徴量を
    入力パターンとして記憶し、 文の句読点に相当する長い無音状態までの入力パターン
    を部分入力パターンとして設定し、 前記部分入力パターンを標準パターン時間毎に細分して
    複数の入力細分パターンとし、 入力細分パターンと音韻テーブルを照合して入力細分パ
    ターンと類似度の高い音韻標準パターンを有する複数の
    音韻候補を抽出して、複数の音韻候補と類似度からなる
    音韻ラティスを生成し、 前記音韻ラティスに基づいて、各入力細分パターンの時
    系列順に入力細分パターン毎に抽出された音韻候補を類
    似度の高い方向から組み合わせて複数の音韻系列候補を
    作成し、 前記音韻系列候補と前記単語辞書との照合により最長一
    致する単語を順次に識別して単語系列候補を作成し、 前記単語系列候補に対して構文及び意味解析を行い正し
    い単語系列候補を選択してこれを単語認識結果とし、 入力パターン全部の単語認識が終わるまで次の部分入力
    パターンを設定するよう制御信号を送り、認識結果を出
    力する音声認識プログラムを記録した記録媒体。
JP14123297A 1997-05-30 1997-05-30 音声認識方法及び音声認識プログラムを格納した記録媒体 Expired - Fee Related JP3503862B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14123297A JP3503862B2 (ja) 1997-05-30 1997-05-30 音声認識方法及び音声認識プログラムを格納した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14123297A JP3503862B2 (ja) 1997-05-30 1997-05-30 音声認識方法及び音声認識プログラムを格納した記録媒体

Publications (2)

Publication Number Publication Date
JPH10333692A true JPH10333692A (ja) 1998-12-18
JP3503862B2 JP3503862B2 (ja) 2004-03-08

Family

ID=15287191

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14123297A Expired - Fee Related JP3503862B2 (ja) 1997-05-30 1997-05-30 音声認識方法及び音声認識プログラムを格納した記録媒体

Country Status (1)

Country Link
JP (1) JP3503862B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009107411A1 (ja) * 2008-02-28 2009-09-03 日本電気株式会社 音声認識装置、音声認識方法、及び、音声認識プログラムが記録された記録媒体
JP2013101204A (ja) * 2011-11-08 2013-05-23 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法とプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009107411A1 (ja) * 2008-02-28 2009-09-03 日本電気株式会社 音声認識装置、音声認識方法、及び、音声認識プログラムが記録された記録媒体
JP5381973B2 (ja) * 2008-02-28 2014-01-08 日本電気株式会社 音声認識装置、音声認識方法、及び、音声認識プログラムが記録された記録媒体
JP2013101204A (ja) * 2011-11-08 2013-05-23 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法とプログラム

Also Published As

Publication number Publication date
JP3503862B2 (ja) 2004-03-08

Similar Documents

Publication Publication Date Title
US7460997B1 (en) Method and system for preselection of suitable units for concatenative speech
US9646605B2 (en) False alarm reduction in speech recognition systems using contextual information
US5949961A (en) Word syllabification in speech synthesis system
US5170432A (en) Method of speaker adaptive speech recognition
US6243680B1 (en) Method and apparatus for obtaining a transcription of phrases through text and spoken utterances
US20060041429A1 (en) Text-to-speech system and method
US6553342B1 (en) Tone based speech recognition
EP1668628A1 (en) Method for synthesizing speech
JPWO2015118645A1 (ja) 音声検索装置および音声検索方法
JPH08278794A (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
JPH0713594A (ja) 音声合成において音声の質を評価するための方法
KR100259777B1 (ko) 텍스트/음성변환기에서의최적합성단위열선정방법
JP3503862B2 (ja) 音声認識方法及び音声認識プログラムを格納した記録媒体
JP3576066B2 (ja) 音声合成システム、および音声合成方法
JP2980382B2 (ja) 話者適応音声認識方法および装置
AU2013375318B2 (en) False alarm reduction in speech recognition systems using contextual information
KR0157026B1 (ko) 한국어 기본음소단위군으로 구성한 한국어 형태소 발음사전을 사용한 한국어 연속음성 인식시스템 및 그 방법
JP3299170B2 (ja) 音声登録認識装置
JP3231365B2 (ja) 音声認識装置
JP2862306B2 (ja) 音声認識装置
JP2005534968A (ja) 漢字語の読みの決定
JPH09212190A (ja) 音声認識装置及び文認識装置
JP2004309654A (ja) 音声認識装置
JP2003108180A (ja) 音声合成方法および音声合成装置
JPH03223799A (ja) 分離しているワード、特に非常に大きい語いの認識方法と装置

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20031205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20031205

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071219

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081219

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091219

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees