JPH08314496A

JPH08314496A - 音声認識装置

Info

Publication number: JPH08314496A
Application number: JP7272109A
Authority: JP
Inventors: Rosenow Harley; ロズノウハーリー; Kazuhiko Sumiya; 和彦住谷; Ganon William; ガノンウィリアム; Akihiko Hayakawa; 明彦早川; Susumu Kuno; ▲すすむ▼ 久野; Lynch Thomas; リンチトーマス; Junko Mizuno; 順子水野; Pilato Samuel; ピラトサミュエル; Dooley John; ドゥリージョン
Original assignee: KAATSUWAIRU APPLIED INTELLIGENCE Inc; KARZWEIL APPLIED INTELLIGENCE Inc; KURZWEIL APPLIED INTELLIGENCE; Fuji Xerox Co Ltd
Current assignee: KAATSUWAIRU APPLIED INTELLIGENCE Inc; KARZWEIL APPLIED INTELLIGENCE Inc; KURZWEIL APPLIED INTELLIGENCE; Fujifilm Business Innovation Corp
Priority date: 1994-09-28
Filing date: 1995-09-27
Publication date: 1996-11-29

Abstract

(57)【要約】【課題】連続的に発生された音声に対し、音響認識を
行い、異表記語を区別した認識結果を得る音声認識装置
を提供する。【解決手段】音響認識部１１により音響単位の列に関
する複数の候補の情報を作成し、構文解析部１３により
複数の候補の情報に対し、各音響単位の列が構文規則に
従っているか否かを判定し、各々の音響単位の列に対応
する複数の語彙項目の列を作成する。異表記語展開部２
０により語彙項目の列から異表記語を展開した後、各々
の情報別評価値発生部１６が、複数の語彙項目の列に対
応して、その確からしさの評価値を決定する。統合評価
値決定部１７が各々の情報別評価値を重み付け加算して
統合し、複数の語彙項目の列に対応して各々の統合評価
値を決定する。認識結果作成部１８は、決定された各々
の統合評価値の順位に複数の語彙項目の列の候補を並ベ
て、入力音声の認識結果を出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置に関
し、特に、入力された音声に対して、言語の発音規則お
よび文法規則に従って各種の評価を行い、その評価値に
より確からしさの順に順位づけられた語彙項目の列とし
て認識結果を得る音声認識装置に関するものである。

【０００２】

【従来の技術】従来から、音声認識に関しては、連続的
に発生された音声を認識するため、発生された音声か
ら、音響単位の列についてのデータを作成し、得られた
複数の音響単位の列の候補に対して、言語的な情報を利
用して、最も確からしい認識結果を得ようとする試みが
様々な形でなされている。

【０００３】このような言語的な情報を利用するものと
して、例えば、特開平２−１１３２９７号公報，特開平
４−８６９４６号公報などには、構文解析アルゴリズム
（ＬＲパーザ）を用いて、認識結果を得ることが提案さ
れている。ここで用いられる構文解析法の中のＬＲ構文
解析法は、予じめシステムで規定している文法規則から
パージングテーブル（ＬＲテーブル）を作成し、このパ
ージングテーブルを参照することにより音響単位の列で
ある入力記号列の記号を順次に受け入れて、解析不能な
記号列を列の途中で即座に判定し、高速に構文解析を実
行できる。

【０００４】

【発明が解決しようとする課題】このようなＬＲ構文解
析法によると、文法規則，登録語の発音情報などを利用
して、複数の音響単位の列の候補が、構文規則的に認め
られるか否かを即座に判定できる。したがって、入力と
して受け付る文法規則の制限が厳しく、また、認識対象
語が比較的少ない場合には、効果的な音声認識方法とし
て利用できる。

【０００５】しかし、大量の語彙を認識しようとする
と、文法の規則数が多くなり、また、辞書に登録された
語数が多くなるので、構文解析の結果、極めて多くの認
識結果の候補が得られることになってしまう。また、更
に、発音と品詞が同じで表記が異なる語に対しては、音
響単位の列の入力記号列とした場合に、上述したような
構文解析手法では区別できない。つまり、複数の音響単
位の列の候補に対して、構文解析機を用いるのみでは、
大量の語彙に対して、正しい認識結果を得ることは困難
である。

【０００６】本発明は、このような問題を解決するため
になされたものであり、本発明の目的は、大量の語彙を
認識対象にして、連続的に発生された音声に対して、高
い認識率で音声認識を行うと共に、表記を区別した認識
結果を得ることができる音声認識装置を提供することに
ある。

【０００７】本発明の他の目的は、適当に区切って発生
された音声を音響単位の繋がりとして認識し、この認識
された音響単位の列の集合の中から、語彙項目の発音と
構文規則を定めた文法規則で認められる音響単位の列を
取り出し、更にこれらの音響単位の列に対して、言語
的、音響的な統計、規則の情報等を用いて、入力音声に
対する認識結果を得る音声認識装置を提供することにあ
る。

【０００８】

【課題を解決するための手段】上記の目的を達成するた
め、本発明の音声認識装置は、入力された音声を分析
し、発声開始時点から発声終了時点までの音響単位の列
に関する複数の候補の情報を作成する音声分析手段（１
１）と、複数の候補の情報に対して、認識対象の各々の
語彙項目の発音と構文規則を定義した文法規則の情報を
参照して、前記各音響単位の列が構文規則に従っている
か否かを判定し、その各々の音響単位の列に対応する複
数の語彙項目の列を作成する語彙項目列作成手段（１
３）と、複数の語彙項目の列に対応して、その各々の音
響単位の列に対してその確からしさの評価値を決定する
１つ以上の情報別評価値発生手段（１６）と、各々の情
報別評価値発生手段からの評価値を重み付け加算して統
合し、複数の語彙項目の列に対応して、各々の統合評価
値を決定する統合評価値決定手段（１７）と、決定され
た各々の統合評価値の順位に複数の語彙項目の列の候補
を並ベて、入力された音声に対する認識結果として出力
する出力手段（１８）とを有することを特徴とする。

【０００９】この音声認識装置において、統合評価値決
定手段（１７）は、事前に複数の音声サンプルに対し
て、正しい認識結果に対して与えられる情報別評価値と
誤った認識結果に対して与えられる情報別評価値とを得
ておき、それらを用いて、正しい認識結果に対する統合
評価値が、誤った認識結果に対する統合評価値により上
位の評価値が得られるように重みを設定することを特徴
とする。また、この場合において、有限個の音声サンプ
ルのうちのある一定数以上の音声サンプルに対して、正
しい認識結果に対する総合評価値が、誤った認識結果に
対する総合評価値より上位の評価値が得られるように、
重みを設定する。

【００１０】また、この音声認識装置において、音声分
析手段（１１）が生成する音響単位の列に関する複数の
候補の情報は、発声開始時点から発声終了時点までの間
で各々の分析された音響単位をアークとする有向グラフ
であることを特徴とする。

【００１１】この場合、音声分析手段（１１）が生成す
る音響単位の列に関する複数の候補の情報が、発声開始
点から発声終了点までの間で分析された音響単位の判別
結果をアークとする有向グラフで構成されている場合に
は、前記有向グラフ上の発声開始点から発声終了点まで
の判定結果のアークを結ぶ全ての経路を１つずつ延長し
ながら、語彙項目列作成手段（１３），情報別評価値発
生手段（１６），および統合評価値決定手段（１７）に
より、逐次に構文解析と統合評価種の計算を行い、発声
終了点における統合評価値により認識結果を決定して出
力することを特徴とする。

【００１２】また、この音声認識装置において、情報別
評価値発生手段（１６）は、少なくとも、分析した音響
単位の尤度値，音響単位および音響単位列の発生頻度に
よって決定する尤度値，語彙項目が属する品詞およびそ
の品詞の列の発生頻度によって決定する尤度値，語彙項
目が属する品詞の結合度値，語彙項目の結合度値，およ
び適用された構文規則の発生頻度によって決定する尤度
値のいずれかの情報を１つの情報別評価値として用いる
ことを特徴とする。

【００１３】また、この音声認識装置は、更に、語彙項
目の文法規則が登録された構文解析用辞書（１４）を備
えており、該構文解析用辞書（１４）には、各々の語彙
項目の発音，品詞と共に、当該語彙項目に対応する表記
が登録されており、その構文解析用辞書を参照して語彙
項目列に対応する表記を得て、構文解析結果として出力
することを特徴とする。

【００１４】また、この音声認識装置は、更に、語彙項
目が登録された認識用辞書（１９）を備えており、該認
識用辞書には、発音が同じで表記が異なる語が異表記語
として連鎖して登録されており、各音響単位の列に対応
する語彙項目の列を作成する際に、音響単位の列は認識
用辞書を利用して全ての異表記語に展開され、表記を区
別した語彙項目の列の集合を認識対象とすることを特徴
とする。

【００１５】このような様々な特徴を有する本発明の音
声認識装置においては、音声分析手段（１１）が、入力
された音声を分析し、発声開始時点から発声終了時点ま
での音響単位の列に関する複数の候補の情報を作成する
と、語彙項目列作成手段（１３）が、複数の候補の情報
に対して、認識対象の各々の語彙項目の発音と構文規則
を定義した文法規則の情報を参照して、前記各音響単位
の列が構文規則に従っているか否かを判定し、その各々
の音響単位の列に対応する複数の語彙項目の列を作成す
る。この複数の語彙項目の列に対応して、１つ以上の情
報別評価値発生手段（１６）が、その各々の音響単位の
列に対してその確からしさの評価値を決定すると、統合
評価値決定手段（１７）が、各々の情報別評価値発生手
段（１６）からの評価値を重み付け加算して統合し、複
数の語彙項目の列に対応して、各々の統合評価値を決定
する。そして、出力手段（１８）が、決定された各々の
統合評価値の順位に複数の語彙項目の列の候補を並ベ
て、入力された音声に対する認識結果として出力する。

【００１６】ここでは、統合評価値決定手段（１７）
が、事前に、複数の音声サンプルに対して、正しい認識
結果に対して与えられる情報別評価値と誤った認識結果
に対して与えられる情報別評価値とを得ておき、それら
を用いて、正しい認識結果に対する統合評価値が誤った
認識結果に対する統合評価値により上位の評価値が得ら
れるように重みを設定しておく。また、この場合におい
て、有限個の音声サンプルのうちのある一定数以上の音
声サンプルに対して、正しい認識結果に対する総合評価
値が、誤った認識結果に対する総合評価値より上位の評
価値が得られるように、重みを設定する。これにより、
統合評価値を計算する際に用いる情報別評価値の種類を
適宜に選定し、それらの情報を統合する際の重みを設定
して、正しい認識結果を得る認識率を向上させることが
できる。

【００１７】また、この音声認識装置において、音声分
析手段（１１）が生成する音響単位の列に関する複数の
候補の情報は、発声開始時点から発声終了時点までの間
で各々の分析された音響単位をアークとする有向グラフ
が用いられる。このため、音声分析手段により得られる
物理的な分析情報の列を、認識対象の言語的な繋がりに
応じて認識処理を行う場合に、有向グラフの各アークを
辿るそれぞれの経路により評価を行うことにより、得ら
れた音響単位の列の情報の漏れが生ずることなく、様々
に加工して判定することができる。

【００１８】このように、音声分析手段（１１）が生成
する音響単位の列に関する複数の候補の情報が、発声開
始点から発声終了点までの間で分析された音響単位の判
別結果をアークとする有向グラフを用いて構成されてい
る場合の認識処理では、有向グラフを利用して、発声開
始点から発声終了点までの判定結果のアークを結ぶ全て
の経路を１つずつ延長しながら、語彙項目列作成手段
（１３），情報別評価値発生手段（１６），および統合
評価値決定手段（１７）により、逐次に構文解析と統合
評価種の計算を行い、発声終了点における統合評価値に
より認識結果を決定して出力する。これにより、複数の
候補に対する統合評価値の計算を並列的に処理すること
ができ、処理速度を向上させて認識処理が行える。

【００１９】また、この音声認識装置において、情報別
評価値発生手段（１６）は、少なくとも、分析した音響
単位の尤度値，音響単位および音響単位列の発生頻度に
よって決定する尤度値，語彙項目が属する品詞およびそ
の品詞の列の発生頻度によって決定する尤度値，語彙項
目が属する品詞の結合度値，語彙項目の結合度値，およ
び適用された構文規則の発生頻度によって決定する尤度
値のいずれかの情報を１つの情報別評価値として用い
る。これにより、言語に対応して、その発音規則および
文法規則に従って各種の評価を行うことができ、認識率
を更に向上させることができる。

【００２０】また、この音声認識装置では、更に、語彙
項目の文法規則が登録された構文解析用辞書（１４）を
備えている。この構文解析用辞書（１４）には、各々の
語彙項目の発音，品詞と共に、当該語彙項目に対応する
表記が登録されており、その構文解析用辞書を参照して
語彙項目列に対応する表記を得て、構文解析結果として
出力する。これにより、同音異表記語に対しても、これ
に対応して音声認識が行なえる。特に、イントネーショ
ンが異なるような同音異表記語に対しては適切に対応で
きることになる。

【００２１】更に、この音声認識装置には、語彙項目が
登録された認識用辞書（１９）が備えられている。この
認識用辞書（１９）は、構文解析用の語彙項目辞書に対
応して作成されており、語彙項目が登録され、発音が同
じで表記が異なる語が異表記語として連鎖して登録され
る。そして、各音響単位の列に対応する語彙項目の列を
作成する際、音響単位の列は認識用辞書を利用して、全
ての異表記語に展開して、表記を区別した語彙項目の列
の集合を認識対象とする。これにより、同音異表記語に
対応して音声認識の処理が行なわれると共に、その表記
を出力できる。特に、イントネーションが異なるような
同音異表記語に対しては適切に対応できることになる。

【００２２】このように、本発明の音声認識装置におい
ては、音声分析手段（１１）が、入力された音声を分析
し、音響単位の繋がりを含む情報として、音響単位のシ
ンボル列の複数の候補のネットワークの情報を作成す
る。次に文法規則および発音規則に従った認識処理を行
うため、語彙項目列作成手段（１３）が、発声開始点か
ら発声終了点に向かって、この音響単位のシンボル列の
ネットワークの経路を延長しながら、例えばＬＲパーザ
等の構文解析アルゴリズムを用いて構文解析し、音響単
位のシンボル列が予め規定している文法に従っているか
否かを判定する。

【００２３】この結果、文法に従っていると判定された
音響単位のシンボル列に対しては、それに対応する文法
に登録された語彙項目の列が決定する。そして、次に、
それらの構文規則に従っていると判定された音響単位の
シンボル列に対して、異表記語が存在する場合に異表記
語までに展開して認識対象とする。そして、情報別評価
値発生手段（１６）による複数の情報別評価値を組み合
わせて、統合評価値決定手段（１７）により、統合評価
値を計算し、出力手段（１８）により、入力された音声
に対して、複数の登録されている語彙項目の列を確から
しさの順を決定する。

【００２４】このようにして、発声終了点まで音響単位
のシンボル列を延長したときに得られる確からしさの順
に順位づけられた複数の語彙項目の列が、入力された音
声に対する認識結果となる。

【００２５】ここでの情報別評価値発生手段（１６）の
複数個の各々の情報別評価値発生部は、分析して得られ
た音響単位の確からしさ（尤度値）、その言語における
音響単位のシンボル列の発生頻度の統計情報、品詞別の
発生頻度等の統計情報、語彙項目別の発生頻度等の統計
情報、品詞の結合度値、語彙項目の結合度値、適用され
た構文規則の発生頻度等からそれぞれ独立に情報別評価
値を決定する。各々の情報別評価値を統合した統合評価
値の決定するため、事前に、統合評価値決定手段（１
７）は、複数の発声サンプルを使用して、正しい認識結
果に対して与えられる情報別評価値と、誤った認識結果
に対して与えられる情報評価値に対して、正しい認識結
果に対する統合評価値が誤った認識結果に対する統合評
価値よりも上位の評価値を得られるように、例えば、重
み加算する場合の重みを予じめ決めておく。そして、そ
の重み付け加算した結果の統合評価値を得て、最終的な
認識結果を得る。

【００２６】また、本発明の音声認識装置においては、
連続的に発声された音声に対応するため、音声分析手段
（１１）が、連続的に発声された語、文節，文を音響的
に分析し、まず、音の列の候補を取り出す。この結果と
して、発声に対して極めて多数の音響単位の列の候補が
作り出され、この音響単位をアークとする有向グラフの
形式のデータ構造にして次の処理を行う。これらのアー
クから構成されている有向グラフは、音響的な観点のみ
から判定された結果である。次に、語彙項目列作成手段
（１３）が、有向グラフのアークの各々の経路に従っ
て、複数の候補の各々の場合に対応して、予め規定して
いる文法規則を参照し、それぞれの音の列に対応する語
彙項目の列が文法規則に従っているか否かを判定し、文
法規則に従っている語彙項目のみを取り出す。これによ
り、文法的に認められない音の列の候補は排除され、候
補をかなり絞り込むことができる。

【００２７】また、依然として多数の候補が並立してい
る状態である場合に対し、次に、各語彙項目の列に対し
て、様々な異なった観点からの評価値が発生する情報別
評価値を用いて統合評価値を計算し、語彙項目の列を統
合評価値の順に順位づける。この情報別評価値から統合
評価値を決定する方法では、事前に、多くの発声サンプ
ルを使用して、正しい認識結果（語彙項目列）に対する
統合評価値が、誤った認識結果（語彙項目列）に対する
統合評価値より上位の評価値を得られるように決められ
ているので、その統合評価値の決定では、認識の対象で
ある連続的に発声された入力音声に対しても、高い確度
で正しい認識結果（語彙項目列）に対する統合評価値が
誤った認識結果（語彙項目列）に対する統合評価値より
上位の評価値を与えるように作用する。これにより、最
終的に出力手段（１８）により、統合評価値の順に並べ
られた語彙項目の列は、言語としての確からしさの順に
並べられた語彙項目の列となる。

【００２８】このような構成の音声認識装置により、大
量語彙に対して、従来より高い認識率を得ることができ
ると共に、発生された音声に対して、文法規則による異
表記語をも含めて認識処理を行い、その表記を区別した
音声認識結果が得られる。

【００２９】

【発明の実施の形態】以下、本発明を実施する場合の形
態について、図面を参照して具体的に説明する。図１
は、本発明の第１の実施例にかかる音声認識装置の要部
の構成を示すブロック図である。図１において、１１は
音響認識部、１２は音響モデル、１３は構文解析部、１
４は構文解析テーブル、１５は文法情報格納部、１６は
情報別評価値発生部、１７は統合評価値発生部、１８は
認識結果作成部、１９は認識用辞書、２０は異表記語展
開部である。

【００３０】まず、動作の概略を説明する。音声入力が
音響認識部１１に入力されると、音響認識部１１は音韻
モデル１２を参照して、入力された音声を音響単位の列
とし順次に認識し、その音響認識結果を出力する。この
音響認識結果は、１つの区切られた音響単位の認識結果
が複数の候補として得られるので、複数の音響単位を認
識した結果は、各々の音響単位の認識結果がその個々の
認識結果の繋がりを示すネットワーク形態としたデータ
（モーラ・ネットワーク・データ）で出力される（後述
する図２の説明を参照）。

【００３１】構文解析部１３は、音響認識部１１から出
力されたデータを、構文解析テーブル１４の規則に従っ
て解析する。すなわち、構文解析部１３は、発声開始点
から発声終了点に向かって、このネットワーク状態とし
たデータの音響単位のシンボル列を延長しながら、例え
ばＬＲパーザ等の構文解析アルゴリズムを用いて、構文
解析テーブル１４を参照して構文解析し、音響単位のシ
ンボル列が予め規定している文法に従っているか否かを
判定して、文法に従っていると判定された音響単位のシ
ンボル列に対しては、それに対応する文法に登録された
語彙項目の列を決定する。そして、決定された語彙項目
が異表記語展開部２０に供給され、更に語彙項目の列に
対応して、その異表記語が存在する場合に、異表記語展
開部２０は認識用辞書１９を参照して複数の異表記語に
展開する。このようにして、異表記語にまで展開された
各々の語彙項目の列が、ここでの認識対象として評価さ
れる。なお、これら構文解析テーブル１４および認識用
辞書１９における文法情報の構文規則，語彙項目辞書お
よび異表記語辞書などの文法情報のデータは、文法情報
格納部１５から供給される。

【００３２】構文解析部１３により構文規則に従ってい
ると判定され、更に異表記語展開部２０により異表記語
までに展開された各々の音響単位のシンボル列に対し
て、複数個が設けられた情報別評価値発生部１６は、そ
れぞれに、分析して得られた音響単位の確からしさ（尤
度値）、その言語における音響単位のシンボル列の発生
頻度の統計情報、品詞別の発生頻度の統計情報、語彙項
目別の発生頻度の統計情報、品詞の結合度値、語彙項目
の結合度値、適用された構文規則の発生頻度等から、独
立して情報別評価値１〜ｎを発生させる。

【００３３】複数の情報別評価値発生部１６から発生さ
れた情報別評価値１〜ｎは、統合評価値発生部１７にお
いて、それぞれに重み係数を付加して加算される。ここ
での重み係数は、後述するように、事前に、複数の発声
サンプルに対して、正しい認識結果に対して与えられる
情報別評価値と、誤った認識結果に対して与えられる情
報評価値に対して、正しい認識結果に対する統合評価値
が誤った認識結果に対する統合評価値よりも上位の評価
値を得られるように決めておく。これにより、決められ
た重み係数により重み加算することにより統合評価値を
得て、最終的な認識結果を得る。

【００３４】そして、認識結果作成部１８では、統合評
価値発生部１７から得られた統合評価値の高い順に、認
識結果を並び替えて、語彙項目に従った表記に替えて認
識結果を出力する。

【００３５】次に、図１に示した音声認識装置の各々の
ブロックの要素の動作を、更に詳細に説明する。入力さ
れた音声から、音響認識部１１が音響単位を取り出す場
合、その音響単位としては、ここでは音韻を用いる。そ
のため、音韻モデル１２が備えられており、音響認識部
１１が音韻照合を行う。音韻列を認識する方法として
は、例えば、音声をＨＭＭ(Hidden Markov Model)と呼
ばれる確率的な状態遷移モデルを用いて処理するＨＭＭ
法を用いる。このようなＨＭＭ法では、各認識対象の音
韻ごとに、学習により音韻のＨＭＭを用意しておき、こ
の音韻のＨＭＭが入力音声に相当する記号列を発声する
確率の高さの計算による音韻照合で音韻の確からしさを
決定する。

【００３６】音響認識部１１では、このような音韻照合
による認識処理を行うことにより、入力音声に対して、
認識された音韻の繋がりに関する情報を作成する。日本
語音声の場合、モーラと呼ばれる比較的均一なリズムで
構成されているので、音響認識の結果の中間データとし
て、このモーラ単位の音の列についての情報を作成し、
このモーラ単位の情報により、以降の処理を行う。この
ような中間データの情報の作成は、以降の処理を効率よ
く行うためのデータ構造を使用することが肝要である。
このため、この実施例の音声認識装置においては、音響
単位の複数の候補列についての情報として、図２に示す
ように、モーラ単位の情報として扱い、その各モーラ単
位を要素データ（アーク）とするラベル付き有向グラフ
形式のデータ構造で表現する。このようなデータ構造に
より、モーラの繋がりに関するモーラ・ネットワークと
よぶデータを作成し、このモーラ・ネットワーク・デー
タを以降の文法情報等を利用した認識処理に用いる。

【００３７】図２は、“ｏｍｏｓｉｒｏｉ”という発声
に対して音響認識部が作成したモーラ・ネットワーク・
データの一例を示している。図２において、ネットワー
クを表現している有向グラフの各アークの近傍上に表示
されているのは、音響認識部で認識されたモーラ単位の
シンボルであり、日本語音声のローマ字表記された音韻
に対応する。シンボル“＃”は解析の都合上付け加えて
いる無音区間を表わすシンボルである。○印はノードを
示しており、また、有向グラフの各々のアークは向き示
す矢印を特に示していないが、ノードを左から右に向か
う方向を有しているものとする。したがって、例えば、
音響認識された１つの音韻要素の列“＃−ｏ−ｍｏ−ｓ
ｉ−ｒｏ−ｉ−＃”は、図２では、太線のアークの列で
表現される。

【００３８】このようなモーラ・ネットワーク・データ
に対して、次段の構文解析部１３において、構成解析テ
ーブル１４を参照した文法情報による構文解析が行われ
る。ここでの構文解析の処理では、モーラ・ネットワー
クの中の全ての音韻単位の列として解析が可能な経路
を、発声開始点から発声終了点に向けて、重複すること
なく、モーラ・ネットワークのアークに沿って一本ずつ
延長し、その経路の沿ったモーラ列が文法に従っている
かどうかを構文解析を行いテストする。

【００３９】このため、ここでの構文解析部１３として
は、例えば、ＬＲパーサと呼ばれているものを用いる。
ＬＲパーサは、入力記号列を左から順に操作しながら、
逆に右から順に生成規則（終端規則および非終端規則）
を適用して構文解析を行う処理モジュールである。ＬＲ
パーサを実行するためには、予め文法情報格納部１５の
文法情報により規定している文法規則から、パーシング
テーブルを作成しておく。このパーシングテーブルを利
用することで。構文解析不能な記号列を入力記号列の途
中で即座に判定できる。それらの構文解析不能と判定さ
れた経路について、それ以降の経路の延長を中止するこ
とができ、すべての可能な経路に関する構文解析テスト
を効率的に実行できることになる。

【００４０】図３は、文法情報格納部に格納される文法
情報の一部の文法規則の一例を示す図である。図３に示
すように、ここでの文法規則は、非終端規則３１と終端
規則３２とから構成されている。上部側に示す非終端規
則３１において、左辺は非終端記号、右辺は非終端記号
の繋がりを示しており、ある非終端記号がどういう非終
端記号の列から生成されるかを定義している。例えば、
第１行目の規則において、Ｓ（文）はＮＰ（名詞句）と
ＡＰ（形容詞句）との結合から構成されることを定義し
ている。また、下部側に示す終端規則３２において、左
辺は品詞を示す非終端記号であり、右辺は終端記号の列
である。この終端規則３２の左辺と右辺との関係におい
て、あるモーラ列に相当する終端記号の列からなる登録
語彙、つまり、ある発音を持つ登録語彙がどの品詞に属
するかを定義している。例えば、第１行目の規則におい
ては、モーラ列“ｏ”：（例えば、日本語文における
尾，緒など）は、Ｎ（名詞）に属することを定義してい
る。

【００４１】このような文法規則を用いて構文解析を行
った結果として、得られるモーラ・ネットワークの中の
経路に対応する文法的に認められた語彙項目の列を、こ
こでは、構文解析経路と呼ぶことにする。図２を参照す
ると明らかなように、このようなモーラ・ネットワーク
上のあるノードに到達する経路は、一般的には複数の経
路が存在し、また、１つの経路に対しても、文法の曖昧
さから、複数の構文解析経路が得られる。こうしたこと
から、入力音声に対しては、通常、複数の構文解析可能
経路が存在するので、複数の構文解析可能経路を考慮し
て、ここでの音声認識に対する処理を行う。例を用いて
更に詳しく説明すると、例えば、図２に示したネット・
ワーク上の最終ノードにおいて、それに到達する構文解
析経路に対応するモーラの列としては、Ａ：＃ｏｍｏｓｉｒｏｉ＃Ｂ：＃ｋｏｎｏｓｉｒｏｉ＃Ｃ：＃ｋｏｎｏｈｉｒｏｉ＃Ｄ：＃ｈｏｍｏｓｉｒｏｉ＃という４つが存在する。

【００４２】そして、これらのモーラ列に対応するモー
ラ列表現で表した構文解析可能経路として、日本語文の
文法規則による日本語文として意味のある構文は、Ａ１：＃−ｏｍｏｓｉｒｏ−ｉ−＃Ａ２：＃−ｏ−ｍｏ−ｓｉｒｏ−ｉ−＃Ｂ：＃−ｋｏｎｏ−ｓｉｒｏ−ｉ−＃Ｃ：＃−ｋｏｎｏ−ｈｉｒｏ−ｉ−＃Ｄ：＃−ｈｏ−ｍｏ−ｓｉｒｏ−ｉ−＃という５つが存在する。

【００４３】すなわち、ここでの“−”で区切られた音
韻列（モーラ列）のそれぞれが、文法中の終端規則で規
定されている語彙項目である。この段階では、各々の語
彙項目はモーラ列表現、品詞のみで区別されており、表
記上の区別はない。

【００４４】ところで、日本語では、モーラ列表現（発
音）と品詞が同じで、意味（表記）が異なる「同音異義
語」が多く存在し、また、同じ語を異なる表記で記述す
ることも多い。このような発音と品詞が同じで、かつ表
記の異なる語を区別して「異表記語」として扱うことと
する。

【００４５】図４は、発音と品詞が同じで表記の異なる
語を区別して「異表記語」として扱うための認識用辞書
の一例を示す図である。ここでの実施例では、そうした
異表記語を区別して認識するために、図４に示すよう
に、認識用辞書４０の中で、各々の登録語彙を、語彙項
目番号４１に対して、モーラ列表現４２，品詞４３，お
よびかな漢字表現４４のカラムで区別して管理し、更
に、異表記語を連鎖させて登録している。このため、図
４に示す認識用辞書４０の中では、更に、第１異表記語
番号４５および下位異表記語番号４６のカラムを設けて
いる。第１異表記語番号４５のカラムは、異表記語のグ
ループの中の第１位の語彙項目の番号を登録しておき、
次の下位異表記語番号４６のカラムでは、その語彙項目
の次に連鎖されている異表記語の番号を登録している。
この下位異表記語番号４６のカラムの番号の“０”の値
は、次に連鎖されている下位異表記語が無いことを意味
している。

【００４６】したがって、本実施例の音声認識装置にお
いては、異表記語を区別する場合、上述したような構文
解析可能経路のリストは、それぞれの異表記語を区別し
て登録された認識用辞書４０における語彙項目番号４１
のカラムの番号の列として、次のような形のデータ表現
に変換して取り扱う。Ａ１：１−６−９−１Ａ２：１−２−４−７−９−１Ｂ：１−５−７−９−１Ｂ′：１−11−７−９−１Ｃ：１−５−８−９−１Ｃ′：１−11−８−９−１Ｄ：１−３−４−７−９−１Ｄ′：１−10−４−７−９−１

【００４７】つまり、このデータ表現における語彙項目
番号４１のカラムの番号の列を「かな漢字表現」で表現
すると、次のように表現される。すなわち、語彙項目番
号の番号“１”の無音区間のシンボルの“＃”をそのま
ま表現として用いると、Ａ１：＃−面白−い−＃Ａ２：＃−尾−も−白−い−＃Ｂ：＃−この−白−い−＃Ｂ′：＃−此の−白−い−＃Ｃ：＃−この−広−い−＃Ｃ′：＃−此の−広−い−＃Ｄ：＃−穂−も−白−い−＃Ｄ′：＃−帆−も−白−い−＃となり、このような形で異表記語が扱われる。

【００４８】本実施例の音声認識装置においては、モー
ラ・ネットラークから、こうして取り出される異表記語
も含めた複数の構文解析経路に対して、情報別評価値発
生部１６により、複数の情報別評価値を発生させ、これ
らの複数の情報別評価値を、統合評価値発生部１７によ
り重み係数加算して、認識結果作成部１８により、確か
らしさの順に順位付けをして、その認識結果を得る。次
に、このような処理について説明する。

【００４９】それぞれの情報別評価値発生部１６は、モ
ーラ・ネットワーク上のアークに沿って経路を延長した
結果、構文解析が可能と判断された構文解析経路に対し
て、逐次に、独自の情報別評価値を発生する。この情報
別評価値は、例えば、音響単位の尤度値、モーラについ
ての発生頻度等の統計情報、構文解析の結果として得ら
れる品詞列および語彙項目の発生頻度等の統計情報、品
詞および語彙項目の結合度、適用された構文規則の発生
頻度等による評価値であり、それぞれの情報別評価値発
生部１６が独立に情報別評価値を決定する。

【００５０】各々の情報別評価値発生部１６からの情報
別評価値は、統合評価値発生部１７に送出され、モーラ
・ネットワーク上の１つの構文解析可能経路に対して統
合評価値Ｓを決定する。図５は、統合評価値発生部の一
つの構成例を示すブロック図である。

【００５１】統合評価値発生部１７における統合評価値
決定回路の一つの例としては、情報別評価値発生部ｎか
らの情報別評価値をｓ_nとするとき、図５に示すよう
に、各々の情報別評価値発生部１６からのそれぞれの情
報別評価値ｓ_nに、各々の重み係数ｗ_nを付けて加算する
回路を用いる。すなわち、Ｓ＝ Σｗ_nｓ_n （１≦ｎ≦Ｎ）を演算する回路により、統合評価値Ｓを得る。ここで、
ｗ_nはｎ番目の情報別評価値発生部ｎに与えられる重み
係数であり、後述するように、訓練用発声サンプルに対
する評価値を求めて決定する。また、Ｎは、情報別評価
値発生部１６の総数である。このような重み係数ｗ_nを
付けて加算する回路は、処理速度が特に要求されない場
合には、統合評価値発生部１７におけるデータ処理機能
の一部の機能として実現されても良い。

【００５２】この統合評価値Ｓの演算例を、具体的に数
値例を使って説明すると、例えば、ここで、図５に示す
ように、情報別評価値発生部１６として、４つの情報別
評価値発生部１〜４が存在し、それぞれの情報別評価値
発生部１〜４に与えられる重み係数が、例えば、ｗ₁＝
２３，ｗ₂＝０.１８，ｗ₃＝０.６２，ｗ₄＝１２
であるとする。このとき、前述したように、図２に示す
モーラ・ネットワーク上の最終ノードに到達する構文解
析可能経路として、Ａ１：１−６−９−１Ａ２：１−２−４−７−９−１Ｂ：１−５−７−９−１Ｂ′：１−11−７−９−１Ｃ：１−５−８−９−１Ｃ′：１−11−８−９−１Ｄ：１−３−４−７−９−１Ｄ′：１−10−４−７−９−１が存在するとする。今、この例では、各々の情報別評価
値発生部１〜４は、それぞれの構文解析可能経路Ａ１，
Ａ２，Ｂ，Ｂ′，Ｃ，Ｃ′，Ｄ，Ｄ′が与えられた場合
には、図６に示すように、それぞれの構文解析可能経路
に対して、その各々の情報別評価値発生部１〜４は、そ
れぞれに情報別評価値６１を順次に発生するものとす
る。ここでは、評価値発生部ごとに、数値が小さいほど
よい評価値となっているものとする。

【００５３】情報別評価値発生部１〜４の中で、情報別
評価値発生部１，３は、音の列に関する評価値を発生す
るので、構文解析可能経路におけるＡ１とＡ２、Ｂと
Ｂ′、ＣとＣ′、ＤとＤ′に対しては、同一の評価値を
発生している。また、情報別評価値発生部２，４におい
ては、情報別評価値発生部２は、表記に関係しない情報
による評価値を発生するので、同じく、構文解析可能経
路におけるＢとＢ′、ＣとＣ′、ＤとＤ′に対しては、
同一の評価値を発生しており、また、情報別評価値発生
部４は、表記に関係した情報を用いて評価値を発生する
ので、異なる評価値を発生している。このように情報別
評価値６１からも明らかなように、各々の情報別評価値
発生部１〜４ごとに、評価値の変動の範囲およびその大
きさが異なるので、各情報別評価値を単純に加算する方
法では、有効な評価はできない。

【００５４】そこで、ここでは前述したように、統合評
価値発生部１７により重み係数加算を行うことにより、
各々の情報別評価値発生部ごとの信頼度、評価値の大き
さに依存した重み係数ｗ_nを各々の情報別評価値ｓ_nに掛
けて加算する。そして、前述の式で統合評価値Ｓを計算
し、値の小さな順に並べると、その結果として、図７に
示すように、統合評価値の順位表７１が得られる。この
順位表７１の統合評価値は、その値が最も小さいもの
が、最も確からしい構文解析可能経路であることを意味
しており、構文解析可能経路Ａ１が、第１位で認識され
ることになる。

【００５５】以上のようにして、モーラ・ネットワーク
上のすべての経路に対して、処理を行い、モーラ・ネッ
トワークのノードごとに、そのノードに至たる全ての構
文解析解に対する統合評価値を決定していく。そして、
最終的に、発声終了点に相当する最終ノードにおいて、
統合評価値の順に並べて生成される構文解析解のリスト
が、順位づけられた認識結果となる。これに相当する認
識辞書に登録された語彙項目番号の列は、１位：６−９２位：５−７−９３位：５−８−９４位：２−４−７−９５位：11−７−９６位：３−４−７−９７位：11−８−９８位：10−４−７−９となる。

【００５６】そして、最後に、認識結果作成部１８にお
いて、ここでの音声認識結果として漢字列のリストを作
成する。したがって、ここでの数値例で得られた認識結
果を漢字列のリストで表現すると、１位：面白い２位：この白い３位：この広い４位：尾も白い５位：此の白い６位：穂も白い７位：此の広い８位：帆も白いとなる。これは、最終結果として得られる音声認識結果
の候補とされる漢字列のリストであり、異表記語展開部
２０により展開された異表記語に対しての考慮もなされ
た結果の音声認識結果となっている。

【００５７】なお、ここでの重み係数ｗ_nは、事前に、
複数の訓練用発声サンプルに対して各々の情報別評価値
発生部が発生する評価値を用いて決定しておくとして、
先に説明したが、次に、このような事前に決定しておく
重み係数ｗ_nの決定方法について説明する。

【００５８】例えば、正しい認識結果に対する各情報別
評価値発生部からの評価値をｓ_cnとし、誤った認識結果
に対する各情報別評価値発生部からの評価値をｓ_inとす
るとき、正しい認識結果に対する統合評価値Ｓｃ；Ｓｃ＝ｗ₁ｓ_c1＋ｗ₂ｓ_c2＋…＋ｗ_Nｓ_cN を、誤った認識結果に対する統合評価値Ｓｉ；Ｓｉ＝ｗ₁ｓ_i1＋ｗ₂ｓ_i2＋…＋ｗ_Nｓ_iN より、高い統合評価値を与えるように、各々の重み係数
ｗ_nを決定しておく。値が小さい程よい評価値であると
する場合には、「Ｓｉ＞Ｓｃ」となるように、各々の
重み係数ｗ_nを決定する。すなわち、これは、ｗ₁ｓ_i1＋ｗ₂ｓ_i2＋…＋ｗ_Nｓ_iN ＞ｗ₁ｓ_c1＋ｗ₂ｓ_c2＋…＋ｗ_Nｓ_cN ｗ₁(ｓ_i1-ｓ_c1)＋ｗ₂(ｓ_i2-ｓ_c2)＋…＋ｗ_N(ｓ_iN-ｓ_cN) ＞０となるように、重み係数の組合せのベクトルＷ＝
（ｗ₁，ｗ₂，ｗ₃，…，ｗ_N）を決めることである。

【００５９】いま、ｙ₁＝(s_i1-ｓ_c1)，ｙ₂＝(ｓ_i2-
ｓ_c2)，…，ｙ_N＝(ｓ_iN-ｓ_cN)とすると、上式は、この
差分のベクトルＹ＝（ｙ₁，ｙ₂，ｙ₃，…，ｙ_N）に対し
て、Ｗ・Ｙ＞０となる。そこで、事前にＭ個の訓練用発声サンプルがあ
ると、その各々の発声サンプルに対して、その認識結果
を求め、その認識結果の総合評価値との差分のベルトル
Ｙ₍₁₎，Ｙ₍₂₎，…，Ｙ_(M)が得られている場合、１≦ｉ
≦Ｍに対して、Ｗ・Ｙ_(i) ＞０となるように、重み係数の組合せのベクトルＷを決定す
る。これにより、所望の重み係数ｗ_nの組合せが決定す
る。このようなベクトルＷの決定方法は、Ｎ次元のＷの
空間において、『Ｗ・Ｙ_(i)＞０』を満たすように、Ｗ
の点を繰り返し補正して求めることに他ならない。

【００６０】このようにして、決定した重み係数ｗ_nを
使用して、統合評価値発生部１７で重み係数加算を行
う。これにより、正して認識結果に対して高い確率で、
誤った認識結果よりも良い統合評価値を与えることがで
きる。

【００６１】図８は、本発明の第２の実施例にかかる音
声認識装置の要部の構成を示すブロック図である。図８
において、１１は音響認識部、１２は音響モデル、１３
は構文解析部、１４は構文解析テーブル、１５は文法情
報格納部、１８は認識結果作成部、１９は認識用辞書、
２０は異表記語展開部である。これらの要素は、図１で
説明したものと同じ要素のブロックである。また、８１
は第１段階の情報別評価値発生部、８２は第１段階統合
評価値発生部、８３は第２段階の情報別評価値発生部、
８４は第２段階統合評価値発生部である。

【００６２】この第２の実施例の音声認識装置において
も、基本構成は第１の実施例のそれと同じであり、入力
された音声を分析して音響単位での認識を行い、音韻単
位でのモーラとし、モーラ・ネットワークを作成し、そ
のモーラ・ネットワークに対して、文法規則を適用する
構文解析を行い、複数の構文解析可能経路の経路に沿っ
たモーラ列が文法に従っているかどうかをテストする。
ここでも、複数の構文解析可能経路を決定する処理は、
第１の実施例と同様である。こうして、決定される複数
の構文解析可能経路に対して、複数の情報別評価値を用
いて、確からしさの順に順位付けして、認識結果を得
る。

【００６３】この第２の実施例の音声認識装置において
は、複数の情報別評価値を用いて、確からしさの順に順
位付けして認識結果を得る場合の処理を、２つの段階に
分けて行う。つまり、モーラ列（発音）のみを区別し、
表記を区別しない第１の段階の処理と、異表記語の展開
を行い、異表記語をも含めて表記を区別した段階の第２
の段階の処理とに分けて、各々の段階において順位付け
の評価を行い、次段の処理に続ける。

【００６４】このため、図８に示すように、第２の実施
例の音声認識装置においては、第１段階の情報別評価値
発生部８１と、第１段階統合評価値発生部８２と、第２
段階の情報別評価値発生部８３と、第２段階統合評価値
発生部８４とを備え、更に、第１段階統合評価値発生部
８２と第２段階の情報別評価値発生部８３との間に異表
記語展開部２０を挿入した構成として、２段階での情報
別評価値の発生と統合評価値の発生とを行う。

【００６５】ここでの第２の実施例の音声認識装置の説
明を、第１の実施例との違いを明らかにして説明するた
め、同じ文法規則、辞書などの文法情報を使用して、同
じ構文の日本語音声を認識する処理過程により説明す
る。

【００６６】図２に示したモーラ・ネットワーク上の最
終ノードに到達する構文解析可能経路に対応するモーラ
の列としては、この最終ノードにおいて、それに到達す
る構文解析経路に対応するモーラの列のである。ここで
は、そのようなモーラの列として、Ａ：＃ｏｍｏｓｉｒｏｉ＃Ｂ：＃ｋｏｎｏｓｉｒｏｉ＃Ｃ：＃ｋｏｎｏｈｉｒｏｉ＃Ｄ：＃ｈｏｍｏｓｉｒｏｉ＃の４つのモーラ列が存在する。

【００６７】第１段階では、モーラ列（発音）による区
別のみを行うので、この第１段階の処理過程では、異表
記語は第１異表記語のみで代表させる。構文解析部１３
を通過した後の、構文解析可能経路のリストは、認識用
辞書１９に登録された語彙項目番号のカラムの番号の列
として、次のようになる。すなわち、Ａ１：１−６−９−１Ａ２：１−２−４−７−９−１Ｂ：１−５−７−９−１Ｃ：１−５−８−９−１Ｄ：１−３−４−７−９−１の５つの構文解析可能経路のリストが得られる。

【００６８】これらの構文可能解析経路に対して、第１
段階では、モーラ列に対して固有の情報別評価値を発生
する第１段階の情報別評価値発生部８１を用いて、第１
の情報別評価値を発生させ、これを第１段階統合評価値
発生部８２によって、重み係数加算して、第１統合評価
値を決定する。この第１の情報別評価値としては、モー
ラについての発生頻度等の統計情報、構文解析の結果と
して得られる品詞列の発生頻度等の統計情報、適用され
た構文規則の発生頻度情報等を利用した情報別評価値を
発生させて用いる。

【００６９】第１段階統合評価値発生部８２における第
１段階の第１統合評価値Ｓ１は、第１段階の各々の情報
別評価値発生部１ｎからの評価値をｓ_1nとし、第１段階
の情報別評価値発生部８１の総数をＮ₁とするとき、Ｓ１＝ Σｗ_1nｓ_1n （１≦ｎ≦Ｎ₁）で求めることができ、ここでのｗ_1nは、第１段階の情報
別評価値発生部１ｎに与えられる重み係数であり、第１
の実施例で説明した方法と同様な方法により予め計算さ
れて与えられている。

【００７０】次の第２段階では、表記の違いごとに、つ
まり、認識用辞書に登録された登録語彙項目ごとに固有
の情報別評価値を発生する。このため、第２段階の処理
に入る前に、異表記語展開部２０において、各々の語彙
項目に対して異表記語を展開する。そして、展開された
異表記語を含めた各々の表記に応じて、２段階の情報別
評価値発生部８３を用いて、第１段階の統合評価値から
第２の情報別評価値を発生する。そして、各々の第２の
情報別評価値に対して、第２段階統合評価値発生部８４
より重み係数加算を行って、第２統合評価値を計算す
る。このようにして、最終的な統合評価値を決定する。

【００７１】第２の情報別評価値としては、ここでは、
語彙項目の発生頻度等の統計情報、語彙項目の結合度値
等の評価値を用いる。この結果、第２段階統合評価値発
生部８４から出力される第２統合評価値は、第２段階の
各々の情報別評価値発生部２ｎからの評価値ををｓ_2nと
し、第２段階の情報別評価値発生部８３の総数をＮ₂と
するとき、同様にしてＳ２＝ Σｗ_2nｓ_2n （１≦ｎ≦Ｎ₂）で求めることができ、ここでのｗ_2nは、第２段階の情報
別評価値発生部２ｎに与えられる重み係数となってい
る。この重み係数ｗ_2nは、また、第１の実施例で説明し
た方法と同様にして予め計算されて与えられている。

【００７２】最終的な統合評価値としては、第２段階の
統合評価値Ｓ２のみを用いるようにしても良いが、ここ
では、先に求めた第１段階の統合評価値Ｓ１と第２段階
の統合評価値Ｓ２との和を利用するようにしている。し
たがって、ＧＴＳ＝Ｓ１＋Ｓ２＝ Σｗ_1nｓ_1n（１≦ｎ≦Ｎ₁）＋ Σｗ_2nｓ_2n（１≦ｎ≦Ｎ₂）により、最終的な統合評価値ＧＴＳを求める。

【００７３】このような第２の実施例の音声認識装置に
おいても、最後の処理過程として、認識結果作成部１８
により、先に説明したように、認識結果として漢字列の
リストを作成する。したがって、ここでの第２の実施例
の音声認識装置は、第１の実施例の音声認識装置とは構
成上で一部が相違するが、本発明の特徴とする構成と手
順の中での変形例となっている。このように、本発明は
基本となる構成と処理手順の中で様々に変形して実施す
ることができる。

【００７４】以上、本発明を実施例に基づき具体的に説
明したが、本発明は、上記実施例に限定されるものでな
く、本発明の要旨を逸脱しない範囲内で種々に変更可能
であることは言うまでもない。

【００７５】

【発明の効果】本発明の音声認識装置は、以上に説明し
たように、連続的に発声された音声の認識において、音
響単位で認識を行うと共に、認識されたその音響単位を
要素とするネットワーク（モーラ・ネットワーク）のデ
ータ構造から、文法情報による構文規則にしたがった音
韻の列を検出し、更に、異表記語をも含めた言語的な知
識を利用して、確からしさの順に順位づけられた認識結
果を得るようにしているので、大量語彙を対象としても
高い認識精度を実現することができる。

【図面の簡単な説明】

【図１】図１は本発明の第１の実施例にかかる音声認
識装置の要部の構成を示すブロック図、

【図２】図２は“ｏｍｏｓｉｒｏｉ”という発声に対
して音響認識部が作成したモーラ・ネットワーク・デー
タの一例を示す図、

【図３】図３は文法情報格納部に格納される文法情報
の一部の文法規則の一例を示す図、

【図４】図４は発音と品詞が同じで表記の異なる語を
区別して「異表記語」として扱うための認識用辞書の一
例を示す図、

【図５】図５は統合評価値発生部の一つの構成例を示
すブロック図、

【図６】図６は複数の構文解析可能経路に対する情報
別評価値の一例を示す図、

【図７】図７は重み係数加算された統合評価値の一例
を示す図、

【図８】図８は本発明の第２の実施例にかかる音声認
識装置の要部の構成を示すブロック図である。

【符号の説明】

１１…音響認識部、１２…音響モデル、１３…構文解析
部、１４…構行文解析テーブル、１５…文法情報格納
部、１６…情報別評価値発生部、１７…統合評価値発生
部、１８…認識結果作成部、１９…認識用辞書、２０…
異表記語展開部、８１…第１段階の情報別評価値発生
部、８２…第１段階統合評価値発生部、８３…第２段階
の情報別評価値発生部、８４…第２段階統合評価値発生
部。

フロントページの続き (72)発明者ハーリーロズノウアメリカ合衆国マサチューセッツ州ワルツザム市ウェイバリイオークスロード 411 カーツワイルアプライドインテリジェンスインコーポレイテッド内 (72)発明者住谷和彦神奈川県厚木市中町４丁目９番14号富士ゼロックス株式会社内 (72)発明者ウィリアムガノンアメリカ合衆国マサチューセッツ州ワルツザム市ウェイバリイオークスロード 411 カーツワイルアプライドインテリジェンスインコーポレイテッド内 (72)発明者早川明彦神奈川県厚木市中町４丁目９番14号富士ゼロックス株式会社内 (72)発明者久野 ▲すすむ▼ 神奈川県厚木市中町４丁目９番14号富士ゼロックス株式会社内 (72)発明者トーマスリンチアメリカ合衆国マサチューセッツ州ワルツザム市ウェイバリイオークスロード 411 カーツワイルアプライドインテリジェンスインコーポレイテッド内 (72)発明者水野順子神奈川県厚木市中町４丁目９番14号富士ゼロックス株式会社内 (72)発明者サミュエルピラトアメリカ合衆国マサチューセッツ州ワルツザム市ウェイバリイオークスロード 411 カーツワイルアプライドインテリジェンスインコーポレイテッド内 (72)発明者ジョンドゥリーアメリカ合衆国マサチューセッツ州ワルツザム市ウェイバリイオークスロード 411 カーツワイルアプライドインテリジェンスインコーポレイテッド内

Claims

【特許請求の範囲】

【請求項１】入力された音声を分析し、発声開始時点
から発声終了時点までの音響単位の列に関する複数の候
補の情報を作成する音声分析手段と、複数の候補の情報に対して、認識対象の各々の語彙項目
の発音と構文規則を定義した文法規則の情報を参照し
て、前記各音響単位の列が構文規則に従っているか否か
を判定し、その各々の音響単位の列に対応する複数の語
彙項目の列を作成する語彙項目列作成手段と、複数の語彙項目の列に対応して、その各々の音響単位の
列に対してその確からしさの評価値を決定する１つ以上
の情報別評価値発生手段と、各々の情報別評価値発生手段からの評価値を重み付け加
算して統合し、複数の語彙項目の列に対応して、各々の
統合評価値を決定する統合評価値決定手段と、決定された各々の統合評価値の順位に複数の語彙項目の
列の候補を並ベて、入力された音声に対する認識結果と
して出力する出力手段とを有することを特徴とする音声
認識装置。
【請求項２】請求項１に記載の音声認識装置におい
て、統合評価値決定手段は、事前に複数の音声サンプルに対
して、正しい認識結果に対して与えられる情報別評価値
と誤った認識結果に対して与えられる情報別評価値とを
得ておき、それらを用いて、正しい認識結果に対する統
合評価値が、誤った認識結果に対する統合評価値により
上位の評価値が得られるように、重みを設定することを
特徴とする音声認識装置。
【請求項３】請求項２に記載の音声認識装置におい
て、有限個の音声サンプルのうちのある一定数以上の音声サ
ンプルに対して、正しい認識結果に対する総合評価値
が、誤った認識結果に対する総合評価値より上位の評価
値が得られるように、重みを設定することを特徴とする
音声認識装置。
【請求項４】請求項１に記載の音声認識装置におい
て、音声分析手段が生成する音響単位の列に関する複数の候
補の情報は、発声開始時点から発声終了時点までの間で
各々の分析された音響単位をアークとする有向グラフで
あることを特徴とする音声認識装置。
【請求項５】請求項４に記載の音声認識装置におい
て、音声分析手段が生成する音響単位の列に関する複数の候
補の情報が、発声開始点から発声終了点までの間で分析
された音響単位の判別結果をアークとする有向グラフで
構成されており、前記有向グラフ上の発声開始点から発声終了点までの判
定結果のアークを結ぶ全ての経路を１つずつ延長しなが
ら、語彙項目列作成手段，情報別評価値発生手段，およ
び統合評価値決定手段により、逐次に構文解析と統合評
価種の計算を行い、発声終了点における統合評価値によ
り認識結果を決定して出力することを特徴とする音声認
識装置。
【請求項６】請求項１に記載の音声認識装置におい
て、情報別評価値発生手段は、少なくとも、分析した音響単位の尤度値，音響単位および音響単位列
の発生頻度によって決定する尤度値，語彙項目が属する
品詞およびその品詞の列の発生頻度によって決定する尤
度値，語彙項目が属する品詞の結合度値，語彙項目の結
合度値，および適用された構文規則の発生頻度によって
決定する尤度値のいずれかの情報を１つの情報別評価値
として用いることを特徴とする音声認識装置。
【請求項７】請求項１に記載の音声認識装置におい
て、更に、語彙項目の文法規則が登録された構文解析用
辞書を備えており、該構文解析用辞書には、各々の語彙
項目の発音，品詞と共に、当該語彙項目に対応する表記
が登録されており、その構文解析用辞書を参照して語彙
項目列に対応する表記を得て、構文解析結果として出力
することを特徴とする音声認識装置。
【請求項８】請求項１に記載の音声認識装置におい
て、更に、語彙項目が登録された認識用辞書を備えてお
り、該認識用辞書には、発音が同じで表記が異なる語が
異表記語として連鎖して登録されており、各音響単位の
列に対応する語彙項目の列を作成する際に、音響単位の
列は認識用辞書を利用して全ての異表記語に展開され、
表記を区別した語彙項目の列の集合を認識対象とするこ
とを特徴とする音声認識装置。