JPH08314496A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH08314496A
JPH08314496A JP7272109A JP27210995A JPH08314496A JP H08314496 A JPH08314496 A JP H08314496A JP 7272109 A JP7272109 A JP 7272109A JP 27210995 A JP27210995 A JP 27210995A JP H08314496 A JPH08314496 A JP H08314496A
Authority
JP
Japan
Prior art keywords
evaluation value
information
recognition
sequence
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7272109A
Other languages
English (en)
Inventor
Rosenow Harley
ロズノウ ハーリー
Kazuhiko Sumiya
和彦 住谷
Ganon William
ガノン ウィリアム
Akihiko Hayakawa
明彦 早川
Susumu Kuno
▲すすむ▼ 久野
Lynch Thomas
リンチ トーマス
Junko Mizuno
順子 水野
Pilato Samuel
ピラト サミュエル
Dooley John
ドゥリー ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KAATSUWAIRU APPLIED INTELLIGENCE Inc
KARZWEIL APPLIED INTELLIGENCE Inc
KURZWEIL APPLIED INTELLIGENCE
Fujifilm Business Innovation Corp
Original Assignee
KAATSUWAIRU APPLIED INTELLIGENCE Inc
KARZWEIL APPLIED INTELLIGENCE Inc
KURZWEIL APPLIED INTELLIGENCE
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KAATSUWAIRU APPLIED INTELLIGENCE Inc, KARZWEIL APPLIED INTELLIGENCE Inc, KURZWEIL APPLIED INTELLIGENCE, Fuji Xerox Co Ltd filed Critical KAATSUWAIRU APPLIED INTELLIGENCE Inc
Publication of JPH08314496A publication Critical patent/JPH08314496A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 連続的に発生された音声に対し、音響認識を
行い、異表記語を区別した認識結果を得る音声認識装置
を提供する。 【解決手段】 音響認識部11により音響単位の列に関
する複数の候補の情報を作成し、構文解析部13により
複数の候補の情報に対し、各音響単位の列が構文規則に
従っているか否かを判定し、各々の音響単位の列に対応
する複数の語彙項目の列を作成する。異表記語展開部2
0により語彙項目の列から異表記語を展開した後、各々
の情報別評価値発生部16が、複数の語彙項目の列に対
応して、その確からしさの評価値を決定する。統合評価
値決定部17が各々の情報別評価値を重み付け加算して
統合し、複数の語彙項目の列に対応して各々の統合評価
値を決定する。認識結果作成部18は、決定された各々
の統合評価値の順位に複数の語彙項目の列の候補を並ベ
て、入力音声の認識結果を出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置に関
し、特に、入力された音声に対して、言語の発音規則お
よび文法規則に従って各種の評価を行い、その評価値に
より確からしさの順に順位づけられた語彙項目の列とし
て認識結果を得る音声認識装置に関するものである。
【0002】
【従来の技術】従来から、音声認識に関しては、連続的
に発生された音声を認識するため、発生された音声か
ら、音響単位の列についてのデータを作成し、得られた
複数の音響単位の列の候補に対して、言語的な情報を利
用して、最も確からしい認識結果を得ようとする試みが
様々な形でなされている。
【0003】このような言語的な情報を利用するものと
して、例えば、特開平2−113297号公報,特開平
4−86946号公報などには、構文解析アルゴリズム
(LRパーザ)を用いて、認識結果を得ることが提案さ
れている。ここで用いられる構文解析法の中のLR構文
解析法は、予じめシステムで規定している文法規則から
パージングテーブル(LRテーブル)を作成し、このパ
ージングテーブルを参照することにより音響単位の列で
ある入力記号列の記号を順次に受け入れて、解析不能な
記号列を列の途中で即座に判定し、高速に構文解析を実
行できる。
【0004】
【発明が解決しようとする課題】このようなLR構文解
析法によると、文法規則,登録語の発音情報などを利用
して、複数の音響単位の列の候補が、構文規則的に認め
られるか否かを即座に判定できる。したがって、入力と
して受け付る文法規則の制限が厳しく、また、認識対象
語が比較的少ない場合には、効果的な音声認識方法とし
て利用できる。
【0005】しかし、大量の語彙を認識しようとする
と、文法の規則数が多くなり、また、辞書に登録された
語数が多くなるので、構文解析の結果、極めて多くの認
識結果の候補が得られることになってしまう。また、更
に、発音と品詞が同じで表記が異なる語に対しては、音
響単位の列の入力記号列とした場合に、上述したような
構文解析手法では区別できない。つまり、複数の音響単
位の列の候補に対して、構文解析機を用いるのみでは、
大量の語彙に対して、正しい認識結果を得ることは困難
である。
【0006】本発明は、このような問題を解決するため
になされたものであり、本発明の目的は、大量の語彙を
認識対象にして、連続的に発生された音声に対して、高
い認識率で音声認識を行うと共に、表記を区別した認識
結果を得ることができる音声認識装置を提供することに
ある。
【0007】本発明の他の目的は、適当に区切って発生
された音声を音響単位の繋がりとして認識し、この認識
された音響単位の列の集合の中から、語彙項目の発音と
構文規則を定めた文法規則で認められる音響単位の列を
取り出し、更にこれらの音響単位の列に対して、言語
的、音響的な統計、規則の情報等を用いて、入力音声に
対する認識結果を得る音声認識装置を提供することにあ
る。
【0008】
【課題を解決するための手段】上記の目的を達成するた
め、本発明の音声認識装置は、入力された音声を分析
し、発声開始時点から発声終了時点までの音響単位の列
に関する複数の候補の情報を作成する音声分析手段(1
1)と、複数の候補の情報に対して、認識対象の各々の
語彙項目の発音と構文規則を定義した文法規則の情報を
参照して、前記各音響単位の列が構文規則に従っている
か否かを判定し、その各々の音響単位の列に対応する複
数の語彙項目の列を作成する語彙項目列作成手段(1
3)と、複数の語彙項目の列に対応して、その各々の音
響単位の列に対してその確からしさの評価値を決定する
1つ以上の情報別評価値発生手段(16)と、各々の情
報別評価値発生手段からの評価値を重み付け加算して統
合し、複数の語彙項目の列に対応して、各々の統合評価
値を決定する統合評価値決定手段(17)と、決定され
た各々の統合評価値の順位に複数の語彙項目の列の候補
を並ベて、入力された音声に対する認識結果として出力
する出力手段(18)とを有することを特徴とする。
【0009】この音声認識装置において、統合評価値決
定手段(17)は、事前に複数の音声サンプルに対し
て、正しい認識結果に対して与えられる情報別評価値と
誤った認識結果に対して与えられる情報別評価値とを得
ておき、それらを用いて、正しい認識結果に対する統合
評価値が、誤った認識結果に対する統合評価値により上
位の評価値が得られるように重みを設定することを特徴
とする。また、この場合において、有限個の音声サンプ
ルのうちのある一定数以上の音声サンプルに対して、正
しい認識結果に対する総合評価値が、誤った認識結果に
対する総合評価値より上位の評価値が得られるように、
重みを設定する。
【0010】また、この音声認識装置において、音声分
析手段(11)が生成する音響単位の列に関する複数の
候補の情報は、発声開始時点から発声終了時点までの間
で各々の分析された音響単位をアークとする有向グラフ
であることを特徴とする。
【0011】この場合、音声分析手段(11)が生成す
る音響単位の列に関する複数の候補の情報が、発声開始
点から発声終了点までの間で分析された音響単位の判別
結果をアークとする有向グラフで構成されている場合に
は、前記有向グラフ上の発声開始点から発声終了点まで
の判定結果のアークを結ぶ全ての経路を1つずつ延長し
ながら、語彙項目列作成手段(13),情報別評価値発
生手段(16),および統合評価値決定手段(17)に
より、逐次に構文解析と統合評価種の計算を行い、発声
終了点における統合評価値により認識結果を決定して出
力することを特徴とする。
【0012】また、この音声認識装置において、情報別
評価値発生手段(16)は、少なくとも、分析した音響
単位の尤度値,音響単位および音響単位列の発生頻度に
よって決定する尤度値,語彙項目が属する品詞およびそ
の品詞の列の発生頻度によって決定する尤度値,語彙項
目が属する品詞の結合度値,語彙項目の結合度値,およ
び適用された構文規則の発生頻度によって決定する尤度
値のいずれかの情報を1つの情報別評価値として用いる
ことを特徴とする。
【0013】また、この音声認識装置は、更に、語彙項
目の文法規則が登録された構文解析用辞書(14)を備
えており、該構文解析用辞書(14)には、各々の語彙
項目の発音,品詞と共に、当該語彙項目に対応する表記
が登録されており、その構文解析用辞書を参照して語彙
項目列に対応する表記を得て、構文解析結果として出力
することを特徴とする。
【0014】また、この音声認識装置は、更に、語彙項
目が登録された認識用辞書(19)を備えており、該認
識用辞書には、発音が同じで表記が異なる語が異表記語
として連鎖して登録されており、各音響単位の列に対応
する語彙項目の列を作成する際に、音響単位の列は認識
用辞書を利用して全ての異表記語に展開され、表記を区
別した語彙項目の列の集合を認識対象とすることを特徴
とする。
【0015】このような様々な特徴を有する本発明の音
声認識装置においては、音声分析手段(11)が、入力
された音声を分析し、発声開始時点から発声終了時点ま
での音響単位の列に関する複数の候補の情報を作成する
と、語彙項目列作成手段(13)が、複数の候補の情報
に対して、認識対象の各々の語彙項目の発音と構文規則
を定義した文法規則の情報を参照して、前記各音響単位
の列が構文規則に従っているか否かを判定し、その各々
の音響単位の列に対応する複数の語彙項目の列を作成す
る。この複数の語彙項目の列に対応して、1つ以上の情
報別評価値発生手段(16)が、その各々の音響単位の
列に対してその確からしさの評価値を決定すると、統合
評価値決定手段(17)が、各々の情報別評価値発生手
段(16)からの評価値を重み付け加算して統合し、複
数の語彙項目の列に対応して、各々の統合評価値を決定
する。そして、出力手段(18)が、決定された各々の
統合評価値の順位に複数の語彙項目の列の候補を並ベ
て、入力された音声に対する認識結果として出力する。
【0016】ここでは、統合評価値決定手段(17)
が、事前に、複数の音声サンプルに対して、正しい認識
結果に対して与えられる情報別評価値と誤った認識結果
に対して与えられる情報別評価値とを得ておき、それら
を用いて、正しい認識結果に対する統合評価値が誤った
認識結果に対する統合評価値により上位の評価値が得ら
れるように重みを設定しておく。また、この場合におい
て、有限個の音声サンプルのうちのある一定数以上の音
声サンプルに対して、正しい認識結果に対する総合評価
値が、誤った認識結果に対する総合評価値より上位の評
価値が得られるように、重みを設定する。これにより、
統合評価値を計算する際に用いる情報別評価値の種類を
適宜に選定し、それらの情報を統合する際の重みを設定
して、正しい認識結果を得る認識率を向上させることが
できる。
【0017】また、この音声認識装置において、音声分
析手段(11)が生成する音響単位の列に関する複数の
候補の情報は、発声開始時点から発声終了時点までの間
で各々の分析された音響単位をアークとする有向グラフ
が用いられる。このため、音声分析手段により得られる
物理的な分析情報の列を、認識対象の言語的な繋がりに
応じて認識処理を行う場合に、有向グラフの各アークを
辿るそれぞれの経路により評価を行うことにより、得ら
れた音響単位の列の情報の漏れが生ずることなく、様々
に加工して判定することができる。
【0018】このように、音声分析手段(11)が生成
する音響単位の列に関する複数の候補の情報が、発声開
始点から発声終了点までの間で分析された音響単位の判
別結果をアークとする有向グラフを用いて構成されてい
る場合の認識処理では、有向グラフを利用して、発声開
始点から発声終了点までの判定結果のアークを結ぶ全て
の経路を1つずつ延長しながら、語彙項目列作成手段
(13),情報別評価値発生手段(16),および統合
評価値決定手段(17)により、逐次に構文解析と統合
評価種の計算を行い、発声終了点における統合評価値に
より認識結果を決定して出力する。これにより、複数の
候補に対する統合評価値の計算を並列的に処理すること
ができ、処理速度を向上させて認識処理が行える。
【0019】また、この音声認識装置において、情報別
評価値発生手段(16)は、少なくとも、分析した音響
単位の尤度値,音響単位および音響単位列の発生頻度に
よって決定する尤度値,語彙項目が属する品詞およびそ
の品詞の列の発生頻度によって決定する尤度値,語彙項
目が属する品詞の結合度値,語彙項目の結合度値,およ
び適用された構文規則の発生頻度によって決定する尤度
値のいずれかの情報を1つの情報別評価値として用い
る。これにより、言語に対応して、その発音規則および
文法規則に従って各種の評価を行うことができ、認識率
を更に向上させることができる。
【0020】また、この音声認識装置では、更に、語彙
項目の文法規則が登録された構文解析用辞書(14)を
備えている。この構文解析用辞書(14)には、各々の
語彙項目の発音,品詞と共に、当該語彙項目に対応する
表記が登録されており、その構文解析用辞書を参照して
語彙項目列に対応する表記を得て、構文解析結果として
出力する。これにより、同音異表記語に対しても、これ
に対応して音声認識が行なえる。特に、イントネーショ
ンが異なるような同音異表記語に対しては適切に対応で
きることになる。
【0021】更に、この音声認識装置には、語彙項目が
登録された認識用辞書(19)が備えられている。この
認識用辞書(19)は、構文解析用の語彙項目辞書に対
応して作成されており、語彙項目が登録され、発音が同
じで表記が異なる語が異表記語として連鎖して登録され
る。そして、各音響単位の列に対応する語彙項目の列を
作成する際、音響単位の列は認識用辞書を利用して、全
ての異表記語に展開して、表記を区別した語彙項目の列
の集合を認識対象とする。これにより、同音異表記語に
対応して音声認識の処理が行なわれると共に、その表記
を出力できる。特に、イントネーションが異なるような
同音異表記語に対しては適切に対応できることになる。
【0022】このように、本発明の音声認識装置におい
ては、音声分析手段(11)が、入力された音声を分析
し、音響単位の繋がりを含む情報として、音響単位のシ
ンボル列の複数の候補のネットワークの情報を作成す
る。次に文法規則および発音規則に従った認識処理を行
うため、語彙項目列作成手段(13)が、発声開始点か
ら発声終了点に向かって、この音響単位のシンボル列の
ネットワークの経路を延長しながら、例えばLRパーザ
等の構文解析アルゴリズムを用いて構文解析し、音響単
位のシンボル列が予め規定している文法に従っているか
否かを判定する。
【0023】この結果、文法に従っていると判定された
音響単位のシンボル列に対しては、それに対応する文法
に登録された語彙項目の列が決定する。そして、次に、
それらの構文規則に従っていると判定された音響単位の
シンボル列に対して、異表記語が存在する場合に異表記
語までに展開して認識対象とする。そして、情報別評価
値発生手段(16)による複数の情報別評価値を組み合
わせて、統合評価値決定手段(17)により、統合評価
値を計算し、出力手段(18)により、入力された音声
に対して、複数の登録されている語彙項目の列を確から
しさの順を決定する。
【0024】このようにして、発声終了点まで音響単位
のシンボル列を延長したときに得られる確からしさの順
に順位づけられた複数の語彙項目の列が、入力された音
声に対する認識結果となる。
【0025】ここでの情報別評価値発生手段(16)の
複数個の各々の情報別評価値発生部は、分析して得られ
た音響単位の確からしさ(尤度値)、その言語における
音響単位のシンボル列の発生頻度の統計情報、品詞別の
発生頻度等の統計情報、語彙項目別の発生頻度等の統計
情報、品詞の結合度値、語彙項目の結合度値、適用され
た構文規則の発生頻度等からそれぞれ独立に情報別評価
値を決定する。各々の情報別評価値を統合した統合評価
値の決定するため、事前に、統合評価値決定手段(1
7)は、複数の発声サンプルを使用して、正しい認識結
果に対して与えられる情報別評価値と、誤った認識結果
に対して与えられる情報評価値に対して、正しい認識結
果に対する統合評価値が誤った認識結果に対する統合評
価値よりも上位の評価値を得られるように、例えば、重
み加算する場合の重みを予じめ決めておく。そして、そ
の重み付け加算した結果の統合評価値を得て、最終的な
認識結果を得る。
【0026】また、本発明の音声認識装置においては、
連続的に発声された音声に対応するため、音声分析手段
(11)が、連続的に発声された語、文節,文を音響的
に分析し、まず、音の列の候補を取り出す。この結果と
して、発声に対して極めて多数の音響単位の列の候補が
作り出され、この音響単位をアークとする有向グラフの
形式のデータ構造にして次の処理を行う。これらのアー
クから構成されている有向グラフは、音響的な観点のみ
から判定された結果である。次に、語彙項目列作成手段
(13)が、有向グラフのアークの各々の経路に従っ
て、複数の候補の各々の場合に対応して、予め規定して
いる文法規則を参照し、それぞれの音の列に対応する語
彙項目の列が文法規則に従っているか否かを判定し、文
法規則に従っている語彙項目のみを取り出す。これによ
り、文法的に認められない音の列の候補は排除され、候
補をかなり絞り込むことができる。
【0027】また、依然として多数の候補が並立してい
る状態である場合に対し、次に、各語彙項目の列に対し
て、様々な異なった観点からの評価値が発生する情報別
評価値を用いて統合評価値を計算し、語彙項目の列を統
合評価値の順に順位づける。この情報別評価値から統合
評価値を決定する方法では、事前に、多くの発声サンプ
ルを使用して、正しい認識結果(語彙項目列)に対する
統合評価値が、誤った認識結果(語彙項目列)に対する
統合評価値より上位の評価値を得られるように決められ
ているので、その統合評価値の決定では、認識の対象で
ある連続的に発声された入力音声に対しても、高い確度
で正しい認識結果(語彙項目列)に対する統合評価値が
誤った認識結果(語彙項目列)に対する統合評価値より
上位の評価値を与えるように作用する。これにより、最
終的に出力手段(18)により、統合評価値の順に並べ
られた語彙項目の列は、言語としての確からしさの順に
並べられた語彙項目の列となる。
【0028】このような構成の音声認識装置により、大
量語彙に対して、従来より高い認識率を得ることができ
ると共に、発生された音声に対して、文法規則による異
表記語をも含めて認識処理を行い、その表記を区別した
音声認識結果が得られる。
【0029】
【発明の実施の形態】以下、本発明を実施する場合の形
態について、図面を参照して具体的に説明する。図1
は、本発明の第1の実施例にかかる音声認識装置の要部
の構成を示すブロック図である。図1において、11は
音響認識部、12は音響モデル、13は構文解析部、1
4は構文解析テーブル、15は文法情報格納部、16は
情報別評価値発生部、17は統合評価値発生部、18は
認識結果作成部、19は認識用辞書、20は異表記語展
開部である。
【0030】まず、動作の概略を説明する。音声入力が
音響認識部11に入力されると、音響認識部11は音韻
モデル12を参照して、入力された音声を音響単位の列
とし順次に認識し、その音響認識結果を出力する。この
音響認識結果は、1つの区切られた音響単位の認識結果
が複数の候補として得られるので、複数の音響単位を認
識した結果は、各々の音響単位の認識結果がその個々の
認識結果の繋がりを示すネットワーク形態としたデータ
(モーラ・ネットワーク・データ)で出力される(後述
する図2の説明を参照)。
【0031】構文解析部13は、音響認識部11から出
力されたデータを、構文解析テーブル14の規則に従っ
て解析する。すなわち、構文解析部13は、発声開始点
から発声終了点に向かって、このネットワーク状態とし
たデータの音響単位のシンボル列を延長しながら、例え
ばLRパーザ等の構文解析アルゴリズムを用いて、構文
解析テーブル14を参照して構文解析し、音響単位のシ
ンボル列が予め規定している文法に従っているか否かを
判定して、文法に従っていると判定された音響単位のシ
ンボル列に対しては、それに対応する文法に登録された
語彙項目の列を決定する。そして、決定された語彙項目
が異表記語展開部20に供給され、更に語彙項目の列に
対応して、その異表記語が存在する場合に、異表記語展
開部20は認識用辞書19を参照して複数の異表記語に
展開する。このようにして、異表記語にまで展開された
各々の語彙項目の列が、ここでの認識対象として評価さ
れる。なお、これら構文解析テーブル14および認識用
辞書19における文法情報の構文規則,語彙項目辞書お
よび異表記語辞書などの文法情報のデータは、文法情報
格納部15から供給される。
【0032】構文解析部13により構文規則に従ってい
ると判定され、更に異表記語展開部20により異表記語
までに展開された各々の音響単位のシンボル列に対し
て、複数個が設けられた情報別評価値発生部16は、そ
れぞれに、分析して得られた音響単位の確からしさ(尤
度値)、その言語における音響単位のシンボル列の発生
頻度の統計情報、品詞別の発生頻度の統計情報、語彙項
目別の発生頻度の統計情報、品詞の結合度値、語彙項目
の結合度値、適用された構文規則の発生頻度等から、独
立して情報別評価値1〜nを発生させる。
【0033】複数の情報別評価値発生部16から発生さ
れた情報別評価値1〜nは、統合評価値発生部17にお
いて、それぞれに重み係数を付加して加算される。ここ
での重み係数は、後述するように、事前に、複数の発声
サンプルに対して、正しい認識結果に対して与えられる
情報別評価値と、誤った認識結果に対して与えられる情
報評価値に対して、正しい認識結果に対する統合評価値
が誤った認識結果に対する統合評価値よりも上位の評価
値を得られるように決めておく。これにより、決められ
た重み係数により重み加算することにより統合評価値を
得て、最終的な認識結果を得る。
【0034】そして、認識結果作成部18では、統合評
価値発生部17から得られた統合評価値の高い順に、認
識結果を並び替えて、語彙項目に従った表記に替えて認
識結果を出力する。
【0035】次に、図1に示した音声認識装置の各々の
ブロックの要素の動作を、更に詳細に説明する。入力さ
れた音声から、音響認識部11が音響単位を取り出す場
合、その音響単位としては、ここでは音韻を用いる。そ
のため、音韻モデル12が備えられており、音響認識部
11が音韻照合を行う。音韻列を認識する方法として
は、例えば、音声をHMM(Hidden Markov Model)と呼
ばれる確率的な状態遷移モデルを用いて処理するHMM
法を用いる。このようなHMM法では、各認識対象の音
韻ごとに、学習により音韻のHMMを用意しておき、こ
の音韻のHMMが入力音声に相当する記号列を発声する
確率の高さの計算による音韻照合で音韻の確からしさを
決定する。
【0036】音響認識部11では、このような音韻照合
による認識処理を行うことにより、入力音声に対して、
認識された音韻の繋がりに関する情報を作成する。日本
語音声の場合、モーラと呼ばれる比較的均一なリズムで
構成されているので、音響認識の結果の中間データとし
て、このモーラ単位の音の列についての情報を作成し、
このモーラ単位の情報により、以降の処理を行う。この
ような中間データの情報の作成は、以降の処理を効率よ
く行うためのデータ構造を使用することが肝要である。
このため、この実施例の音声認識装置においては、音響
単位の複数の候補列についての情報として、図2に示す
ように、モーラ単位の情報として扱い、その各モーラ単
位を要素データ(アーク)とするラベル付き有向グラフ
形式のデータ構造で表現する。このようなデータ構造に
より、モーラの繋がりに関するモーラ・ネットワークと
よぶデータを作成し、このモーラ・ネットワーク・デー
タを以降の文法情報等を利用した認識処理に用いる。
【0037】図2は、“omosiroi”という発声
に対して音響認識部が作成したモーラ・ネットワーク・
データの一例を示している。図2において、ネットワー
クを表現している有向グラフの各アークの近傍上に表示
されているのは、音響認識部で認識されたモーラ単位の
シンボルであり、日本語音声のローマ字表記された音韻
に対応する。シンボル“#”は解析の都合上付け加えて
いる無音区間を表わすシンボルである。○印はノードを
示しており、また、有向グラフの各々のアークは向き示
す矢印を特に示していないが、ノードを左から右に向か
う方向を有しているものとする。したがって、例えば、
音響認識された1つの音韻要素の列“#−o−mo−s
i−ro−i−#”は、図2では、太線のアークの列で
表現される。
【0038】このようなモーラ・ネットワーク・データ
に対して、次段の構文解析部13において、構成解析テ
ーブル14を参照した文法情報による構文解析が行われ
る。ここでの構文解析の処理では、モーラ・ネットワー
クの中の全ての音韻単位の列として解析が可能な経路
を、発声開始点から発声終了点に向けて、重複すること
なく、モーラ・ネットワークのアークに沿って一本ずつ
延長し、その経路の沿ったモーラ列が文法に従っている
かどうかを構文解析を行いテストする。
【0039】このため、ここでの構文解析部13として
は、例えば、LRパーサと呼ばれているものを用いる。
LRパーサは、入力記号列を左から順に操作しながら、
逆に右から順に生成規則(終端規則および非終端規則)
を適用して構文解析を行う処理モジュールである。LR
パーサを実行するためには、予め文法情報格納部15の
文法情報により規定している文法規則から、パーシング
テーブルを作成しておく。このパーシングテーブルを利
用することで。構文解析不能な記号列を入力記号列の途
中で即座に判定できる。それらの構文解析不能と判定さ
れた経路について、それ以降の経路の延長を中止するこ
とができ、すべての可能な経路に関する構文解析テスト
を効率的に実行できることになる。
【0040】図3は、文法情報格納部に格納される文法
情報の一部の文法規則の一例を示す図である。図3に示
すように、ここでの文法規則は、非終端規則31と終端
規則32とから構成されている。上部側に示す非終端規
則31において、左辺は非終端記号、右辺は非終端記号
の繋がりを示しており、ある非終端記号がどういう非終
端記号の列から生成されるかを定義している。例えば、
第1行目の規則において、S(文)はNP(名詞句)と
AP(形容詞句)との結合から構成されることを定義し
ている。また、下部側に示す終端規則32において、左
辺は品詞を示す非終端記号であり、右辺は終端記号の列
である。この終端規則32の左辺と右辺との関係におい
て、あるモーラ列に相当する終端記号の列からなる登録
語彙、つまり、ある発音を持つ登録語彙がどの品詞に属
するかを定義している。例えば、第1行目の規則におい
ては、モーラ列“o”:(例えば、日本語文における
尾,緒など)は、N(名詞)に属することを定義してい
る。
【0041】このような文法規則を用いて構文解析を行
った結果として、得られるモーラ・ネットワークの中の
経路に対応する文法的に認められた語彙項目の列を、こ
こでは、構文解析経路と呼ぶことにする。図2を参照す
ると明らかなように、このようなモーラ・ネットワーク
上のあるノードに到達する経路は、一般的には複数の経
路が存在し、また、1つの経路に対しても、文法の曖昧
さから、複数の構文解析経路が得られる。こうしたこと
から、入力音声に対しては、通常、複数の構文解析可能
経路が存在するので、複数の構文解析可能経路を考慮し
て、ここでの音声認識に対する処理を行う。例を用いて
更に詳しく説明すると、例えば、図2に示したネット・
ワーク上の最終ノードにおいて、それに到達する構文解
析経路に対応するモーラの列としては、 A:#omosiroi# B:#konosiroi# C:#konohiroi# D:#homosiroi# という4つが存在する。
【0042】そして、これらのモーラ列に対応するモー
ラ列表現で表した構文解析可能経路として、日本語文の
文法規則による日本語文として意味のある構文は、 A1:#−omosiro−i−# A2:#−o−mo−siro−i−# B:#−kono−siro−i−# C:#−kono−hiro−i−# D:#−ho−mo−siro−i−# という5つが存在する。
【0043】すなわち、ここでの“−”で区切られた音
韻列(モーラ列)のそれぞれが、文法中の終端規則で規
定されている語彙項目である。この段階では、各々の語
彙項目はモーラ列表現、品詞のみで区別されており、表
記上の区別はない。
【0044】ところで、日本語では、モーラ列表現(発
音)と品詞が同じで、意味(表記)が異なる「同音異義
語」が多く存在し、また、同じ語を異なる表記で記述す
ることも多い。このような発音と品詞が同じで、かつ表
記の異なる語を区別して「異表記語」として扱うことと
する。
【0045】図4は、発音と品詞が同じで表記の異なる
語を区別して「異表記語」として扱うための認識用辞書
の一例を示す図である。ここでの実施例では、そうした
異表記語を区別して認識するために、図4に示すよう
に、認識用辞書40の中で、各々の登録語彙を、語彙項
目番号41に対して、モーラ列表現42,品詞43,お
よびかな漢字表現44のカラムで区別して管理し、更
に、異表記語を連鎖させて登録している。このため、図
4に示す認識用辞書40の中では、更に、第1異表記語
番号45および下位異表記語番号46のカラムを設けて
いる。第1異表記語番号45のカラムは、異表記語のグ
ループの中の第1位の語彙項目の番号を登録しておき、
次の下位異表記語番号46のカラムでは、その語彙項目
の次に連鎖されている異表記語の番号を登録している。
この下位異表記語番号46のカラムの番号の“0”の値
は、次に連鎖されている下位異表記語が無いことを意味
している。
【0046】したがって、本実施例の音声認識装置にお
いては、異表記語を区別する場合、上述したような構文
解析可能経路のリストは、それぞれの異表記語を区別し
て登録された認識用辞書40における語彙項目番号41
のカラムの番号の列として、次のような形のデータ表現
に変換して取り扱う。 A1: 1−6−9−1 A2: 1−2−4−7−9−1 B : 1−5−7−9−1 B′: 1−11−7−9−1 C : 1−5−8−9−1 C′: 1−11−8−9−1 D : 1−3−4−7−9−1 D′: 1−10−4−7−9−1
【0047】つまり、このデータ表現における語彙項目
番号41のカラムの番号の列を「かな漢字表現」で表現
すると、次のように表現される。すなわち、語彙項目番
号の番号“1”の無音区間のシンボルの“#”をそのま
ま表現として用いると、 A1: #−面白−い−# A2: #−尾−も−白−い−# B : #−この−白−い−# B′: #−此の−白−い−# C : #−この−広−い−# C′: #−此の−広−い−# D : #−穂−も−白−い−# D′: #−帆−も−白−い−# となり、このような形で異表記語が扱われる。
【0048】本実施例の音声認識装置においては、モー
ラ・ネットラークから、こうして取り出される異表記語
も含めた複数の構文解析経路に対して、情報別評価値発
生部16により、複数の情報別評価値を発生させ、これ
らの複数の情報別評価値を、統合評価値発生部17によ
り重み係数加算して、認識結果作成部18により、確か
らしさの順に順位付けをして、その認識結果を得る。次
に、このような処理について説明する。
【0049】それぞれの情報別評価値発生部16は、モ
ーラ・ネットワーク上のアークに沿って経路を延長した
結果、構文解析が可能と判断された構文解析経路に対し
て、逐次に、独自の情報別評価値を発生する。この情報
別評価値は、例えば、音響単位の尤度値、モーラについ
ての発生頻度等の統計情報、構文解析の結果として得ら
れる品詞列および語彙項目の発生頻度等の統計情報、品
詞および語彙項目の結合度、適用された構文規則の発生
頻度等による評価値であり、それぞれの情報別評価値発
生部16が独立に情報別評価値を決定する。
【0050】各々の情報別評価値発生部16からの情報
別評価値は、統合評価値発生部17に送出され、モーラ
・ネットワーク上の1つの構文解析可能経路に対して統
合評価値Sを決定する。図5は、統合評価値発生部の一
つの構成例を示すブロック図である。
【0051】統合評価値発生部17における統合評価値
決定回路の一つの例としては、情報別評価値発生部nか
らの情報別評価値をsnとするとき、図5に示すよう
に、各々の情報別評価値発生部16からのそれぞれの情
報別評価値snに、各々の重み係数wnを付けて加算する
回路を用いる。すなわち、 S = Σwnn (1≦n≦N) を演算する回路により、統合評価値Sを得る。ここで、
nはn番目の情報別評価値発生部nに与えられる重み
係数であり、後述するように、訓練用発声サンプルに対
する評価値を求めて決定する。また、Nは、情報別評価
値発生部16の総数である。このような重み係数wn
付けて加算する回路は、処理速度が特に要求されない場
合には、統合評価値発生部17におけるデータ処理機能
の一部の機能として実現されても良い。
【0052】この統合評価値Sの演算例を、具体的に数
値例を使って説明すると、例えば、ここで、図5に示す
ように、情報別評価値発生部16として、4つの情報別
評価値発生部1〜4が存在し、それぞれの情報別評価値
発生部1〜4に与えられる重み係数が、例えば、w1
23, w2=0.18, w3=0.62, w4=12
であるとする。このとき、前述したように、図2に示す
モーラ・ネットワーク上の最終ノードに到達する構文解
析可能経路として、 A1: 1−6−9−1 A2: 1−2−4−7−9−1 B : 1−5−7−9−1 B′: 1−11−7−9−1 C : 1−5−8−9−1 C′: 1−11−8−9−1 D : 1−3−4−7−9−1 D′: 1−10−4−7−9−1 が存在するとする。今、この例では、各々の情報別評価
値発生部1〜4は、それぞれの構文解析可能経路A1,
A2,B,B′,C,C′,D,D′が与えられた場合
には、図6に示すように、それぞれの構文解析可能経路
に対して、その各々の情報別評価値発生部1〜4は、そ
れぞれに情報別評価値61を順次に発生するものとす
る。ここでは、評価値発生部ごとに、数値が小さいほど
よい評価値となっているものとする。
【0053】情報別評価値発生部1〜4の中で、情報別
評価値発生部1,3は、音の列に関する評価値を発生す
るので、構文解析可能経路におけるA1とA2、Bと
B′、CとC′、DとD′に対しては、同一の評価値を
発生している。また、情報別評価値発生部2,4におい
ては、情報別評価値発生部2は、表記に関係しない情報
による評価値を発生するので、同じく、構文解析可能経
路におけるBとB′、CとC′、DとD′に対しては、
同一の評価値を発生しており、また、情報別評価値発生
部4は、表記に関係した情報を用いて評価値を発生する
ので、異なる評価値を発生している。このように情報別
評価値61からも明らかなように、各々の情報別評価値
発生部1〜4ごとに、評価値の変動の範囲およびその大
きさが異なるので、各情報別評価値を単純に加算する方
法では、有効な評価はできない。
【0054】そこで、ここでは前述したように、統合評
価値発生部17により重み係数加算を行うことにより、
各々の情報別評価値発生部ごとの信頼度、評価値の大き
さに依存した重み係数wnを各々の情報別評価値snに掛
けて加算する。そして、前述の式で統合評価値Sを計算
し、値の小さな順に並べると、その結果として、図7に
示すように、統合評価値の順位表71が得られる。この
順位表71の統合評価値は、その値が最も小さいもの
が、最も確からしい構文解析可能経路であることを意味
しており、構文解析可能経路A1が、第1位で認識され
ることになる。
【0055】以上のようにして、モーラ・ネットワーク
上のすべての経路に対して、処理を行い、モーラ・ネッ
トワークのノードごとに、そのノードに至たる全ての構
文解析解に対する統合評価値を決定していく。そして、
最終的に、発声終了点に相当する最終ノードにおいて、
統合評価値の順に並べて生成される構文解析解のリスト
が、順位づけられた認識結果となる。これに相当する認
識辞書に登録された語彙項目番号の列は、 1位:6−9 2位:5−7−9 3位:5−8−9 4位:2−4−7−9 5位:11−7−9 6位:3−4−7−9 7位:11−8−9 8位:10−4−7−9 となる。
【0056】そして、最後に、認識結果作成部18にお
いて、ここでの音声認識結果として漢字列のリストを作
成する。したがって、ここでの数値例で得られた認識結
果を漢字列のリストで表現すると、 1位:面白い 2位:この白い 3位:この広い 4位:尾も白い 5位:此の白い 6位:穂も白い 7位:此の広い 8位:帆も白い となる。これは、最終結果として得られる音声認識結果
の候補とされる漢字列のリストであり、異表記語展開部
20により展開された異表記語に対しての考慮もなされ
た結果の音声認識結果となっている。
【0057】なお、ここでの重み係数wnは、事前に、
複数の訓練用発声サンプルに対して各々の情報別評価値
発生部が発生する評価値を用いて決定しておくとして、
先に説明したが、次に、このような事前に決定しておく
重み係数wnの決定方法について説明する。
【0058】例えば、正しい認識結果に対する各情報別
評価値発生部からの評価値をscnとし、誤った認識結果
に対する各情報別評価値発生部からの評価値をsinとす
るとき、正しい認識結果に対する統合評価値Sc; Sc=w1c1+w2c2+…+wNcN を、誤った認識結果に対する統合評価値Si; Si=w1i1+w2i2+…+wNiN より、高い統合評価値を与えるように、各々の重み係数
nを決定しておく。値が小さい程よい評価値であると
する場合には、「Si > Sc」となるように、各々の
重み係数wnを決定する。すなわち、これは、 w1i1+w2i2+…+wNiN > w1c1+w2c2+…+wNcN1(si1-sc1)+w2(si2-sc2)+…+wN(siN-scN) > 0 となるように、重み係数の組合せのベクトルW=
(w1,w2,w3,…,wN)を決めることである。
【0059】いま、y1=(si1-sc1),y2=(si2-
c2),…,yN=(siN-scN)とすると、上式は、この
差分のベクトルY=(y1,y2,y3,…,yN)に対し
て、 W・Y > 0 となる。そこで、事前にM個の訓練用発声サンプルがあ
ると、その各々の発声サンプルに対して、その認識結果
を求め、その認識結果の総合評価値との差分のベルトル
(1),Y(2),…,Y(M)が得られている場合、1≦i
≦Mに対して、 W・Y(i) > 0 となるように、重み係数の組合せのベクトルWを決定す
る。これにより、所望の重み係数wnの組合せが決定す
る。このようなベクトルWの決定方法は、N次元のWの
空間において、『W・Y(i)>0』を満たすように、W
の点を繰り返し補正して求めることに他ならない。
【0060】このようにして、決定した重み係数wn
使用して、統合評価値発生部17で重み係数加算を行
う。これにより、正して認識結果に対して高い確率で、
誤った認識結果よりも良い統合評価値を与えることがで
きる。
【0061】図8は、本発明の第2の実施例にかかる音
声認識装置の要部の構成を示すブロック図である。図8
において、11は音響認識部、12は音響モデル、13
は構文解析部、14は構文解析テーブル、15は文法情
報格納部、18は認識結果作成部、19は認識用辞書、
20は異表記語展開部である。これらの要素は、図1で
説明したものと同じ要素のブロックである。また、81
は第1段階の情報別評価値発生部、82は第1段階統合
評価値発生部、83は第2段階の情報別評価値発生部、
84は第2段階統合評価値発生部である。
【0062】この第2の実施例の音声認識装置において
も、基本構成は第1の実施例のそれと同じであり、入力
された音声を分析して音響単位での認識を行い、音韻単
位でのモーラとし、モーラ・ネットワークを作成し、そ
のモーラ・ネットワークに対して、文法規則を適用する
構文解析を行い、複数の構文解析可能経路の経路に沿っ
たモーラ列が文法に従っているかどうかをテストする。
ここでも、複数の構文解析可能経路を決定する処理は、
第1の実施例と同様である。こうして、決定される複数
の構文解析可能経路に対して、複数の情報別評価値を用
いて、確からしさの順に順位付けして、認識結果を得
る。
【0063】この第2の実施例の音声認識装置において
は、複数の情報別評価値を用いて、確からしさの順に順
位付けして認識結果を得る場合の処理を、2つの段階に
分けて行う。つまり、モーラ列(発音)のみを区別し、
表記を区別しない第1の段階の処理と、異表記語の展開
を行い、異表記語をも含めて表記を区別した段階の第2
の段階の処理とに分けて、各々の段階において順位付け
の評価を行い、次段の処理に続ける。
【0064】このため、図8に示すように、第2の実施
例の音声認識装置においては、第1段階の情報別評価値
発生部81と、第1段階統合評価値発生部82と、第2
段階の情報別評価値発生部83と、第2段階統合評価値
発生部84とを備え、更に、第1段階統合評価値発生部
82と第2段階の情報別評価値発生部83との間に異表
記語展開部20を挿入した構成として、2段階での情報
別評価値の発生と統合評価値の発生とを行う。
【0065】ここでの第2の実施例の音声認識装置の説
明を、第1の実施例との違いを明らかにして説明するた
め、同じ文法規則、辞書などの文法情報を使用して、同
じ構文の日本語音声を認識する処理過程により説明す
る。
【0066】図2に示したモーラ・ネットワーク上の最
終ノードに到達する構文解析可能経路に対応するモーラ
の列としては、この最終ノードにおいて、それに到達す
る構文解析経路に対応するモーラの列のである。ここで
は、そのようなモーラの列として、 A:#omosiroi# B:#konosiroi# C:#konohiroi# D:#homosiroi# の4つのモーラ列が存在する。
【0067】第1段階では、モーラ列(発音)による区
別のみを行うので、この第1段階の処理過程では、異表
記語は第1異表記語のみで代表させる。構文解析部13
を通過した後の、構文解析可能経路のリストは、認識用
辞書19に登録された語彙項目番号のカラムの番号の列
として、次のようになる。すなわち、 A1: 1−6−9−1 A2: 1−2−4−7−9−1 B : 1−5−7−9−1 C : 1−5−8−9−1 D : 1−3−4−7−9−1 の5つの構文解析可能経路のリストが得られる。
【0068】これらの構文可能解析経路に対して、第1
段階では、モーラ列に対して固有の情報別評価値を発生
する第1段階の情報別評価値発生部81を用いて、第1
の情報別評価値を発生させ、これを第1段階統合評価値
発生部82によって、重み係数加算して、第1統合評価
値を決定する。この第1の情報別評価値としては、モー
ラについての発生頻度等の統計情報、構文解析の結果と
して得られる品詞列の発生頻度等の統計情報、適用され
た構文規則の発生頻度情報等を利用した情報別評価値を
発生させて用いる。
【0069】第1段階統合評価値発生部82における第
1段階の第1統合評価値S1は、第1段階の各々の情報
別評価値発生部1nからの評価値をs1nとし、第1段階
の情報別評価値発生部81の総数をN1とするとき、 S1 = Σw1n1n (1≦n≦N1) で求めることができ、ここでのw1nは、第1段階の情報
別評価値発生部1nに与えられる重み係数であり、第1
の実施例で説明した方法と同様な方法により予め計算さ
れて与えられている。
【0070】次の第2段階では、表記の違いごとに、つ
まり、認識用辞書に登録された登録語彙項目ごとに固有
の情報別評価値を発生する。このため、第2段階の処理
に入る前に、異表記語展開部20において、各々の語彙
項目に対して異表記語を展開する。そして、展開された
異表記語を含めた各々の表記に応じて、2段階の情報別
評価値発生部83を用いて、第1段階の統合評価値から
第2の情報別評価値を発生する。そして、各々の第2の
情報別評価値に対して、第2段階統合評価値発生部84
より重み係数加算を行って、第2統合評価値を計算す
る。このようにして、最終的な統合評価値を決定する。
【0071】第2の情報別評価値としては、ここでは、
語彙項目の発生頻度等の統計情報、語彙項目の結合度値
等の評価値を用いる。この結果、第2段階統合評価値発
生部84から出力される第2統合評価値は、第2段階の
各々の情報別評価値発生部2nからの評価値ををs2n
し、第2段階の情報別評価値発生部83の総数をN2
するとき、同様にして S2 = Σw2n2n (1≦n≦N2) で求めることができ、ここでのw2nは、第2段階の情報
別評価値発生部2nに与えられる重み係数となってい
る。この重み係数w2nは、また、第1の実施例で説明し
た方法と同様にして予め計算されて与えられている。
【0072】最終的な統合評価値としては、第2段階の
統合評価値S2のみを用いるようにしても良いが、ここ
では、先に求めた第1段階の統合評価値S1と第2段階
の統合評価値S2との和を利用するようにしている。し
たがって、 GTS = S1 + S2 = Σw1n1n(1≦n≦N1)+ Σw2n2n(1≦n≦N2) により、最終的な統合評価値GTSを求める。
【0073】このような第2の実施例の音声認識装置に
おいても、最後の処理過程として、認識結果作成部18
により、先に説明したように、認識結果として漢字列の
リストを作成する。したがって、ここでの第2の実施例
の音声認識装置は、第1の実施例の音声認識装置とは構
成上で一部が相違するが、本発明の特徴とする構成と手
順の中での変形例となっている。このように、本発明は
基本となる構成と処理手順の中で様々に変形して実施す
ることができる。
【0074】以上、本発明を実施例に基づき具体的に説
明したが、本発明は、上記実施例に限定されるものでな
く、本発明の要旨を逸脱しない範囲内で種々に変更可能
であることは言うまでもない。
【0075】
【発明の効果】本発明の音声認識装置は、以上に説明し
たように、連続的に発声された音声の認識において、音
響単位で認識を行うと共に、認識されたその音響単位を
要素とするネットワーク(モーラ・ネットワーク)のデ
ータ構造から、文法情報による構文規則にしたがった音
韻の列を検出し、更に、異表記語をも含めた言語的な知
識を利用して、確からしさの順に順位づけられた認識結
果を得るようにしているので、大量語彙を対象としても
高い認識精度を実現することができる。
【図面の簡単な説明】
【図1】 図1は本発明の第1の実施例にかかる音声認
識装置の要部の構成を示すブロック図、
【図2】 図2は“omosiroi”という発声に対
して音響認識部が作成したモーラ・ネットワーク・デー
タの一例を示す図、
【図3】 図3は文法情報格納部に格納される文法情報
の一部の文法規則の一例を示す図、
【図4】 図4は発音と品詞が同じで表記の異なる語を
区別して「異表記語」として扱うための認識用辞書の一
例を示す図、
【図5】 図5は統合評価値発生部の一つの構成例を示
すブロック図、
【図6】 図6は複数の構文解析可能経路に対する情報
別評価値の一例を示す図、
【図7】 図7は重み係数加算された統合評価値の一例
を示す図、
【図8】 図8は本発明の第2の実施例にかかる音声認
識装置の要部の構成を示すブロック図である。
【符号の説明】
11…音響認識部、12…音響モデル、13…構文解析
部、14…構行文解析テーブル、15…文法情報格納
部、16…情報別評価値発生部、17…統合評価値発生
部、18…認識結果作成部、19…認識用辞書、20…
異表記語展開部、81…第1段階の情報別評価値発生
部、82…第1段階統合評価値発生部、83…第2段階
の情報別評価値発生部、84…第2段階統合評価値発生
部。
フロントページの続き (72)発明者 ハーリー ロズノウ アメリカ合衆国マサチューセッツ州ワルツ ザム市ウェイバリイ オークス ロード 411 カーツワイル アプライド インテ リジェンス インコーポレイテッド内 (72)発明者 住谷 和彦 神奈川県厚木市中町4丁目9番14号 富士 ゼロックス株式会社内 (72)発明者 ウィリアム ガノン アメリカ合衆国マサチューセッツ州ワルツ ザム市ウェイバリイ オークス ロード 411 カーツワイル アプライド インテ リジェンス インコーポレイテッド内 (72)発明者 早川 明彦 神奈川県厚木市中町4丁目9番14号 富士 ゼロックス株式会社内 (72)発明者 久野 ▲すすむ▼ 神奈川県厚木市中町4丁目9番14号 富士 ゼロックス株式会社内 (72)発明者 トーマス リンチ アメリカ合衆国マサチューセッツ州ワルツ ザム市ウェイバリイ オークス ロード 411 カーツワイル アプライド インテ リジェンス インコーポレイテッド内 (72)発明者 水野 順子 神奈川県厚木市中町4丁目9番14号 富士 ゼロックス株式会社内 (72)発明者 サミュエル ピラト アメリカ合衆国マサチューセッツ州ワルツ ザム市ウェイバリイ オークス ロード 411 カーツワイル アプライド インテ リジェンス インコーポレイテッド内 (72)発明者 ジョン ドゥリー アメリカ合衆国マサチューセッツ州ワルツ ザム市ウェイバリイ オークス ロード 411 カーツワイル アプライド インテ リジェンス インコーポレイテッド内

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声を分析し、発声開始時点
    から発声終了時点までの音響単位の列に関する複数の候
    補の情報を作成する音声分析手段と、 複数の候補の情報に対して、認識対象の各々の語彙項目
    の発音と構文規則を定義した文法規則の情報を参照し
    て、前記各音響単位の列が構文規則に従っているか否か
    を判定し、その各々の音響単位の列に対応する複数の語
    彙項目の列を作成する語彙項目列作成手段と、 複数の語彙項目の列に対応して、その各々の音響単位の
    列に対してその確からしさの評価値を決定する1つ以上
    の情報別評価値発生手段と、 各々の情報別評価値発生手段からの評価値を重み付け加
    算して統合し、複数の語彙項目の列に対応して、各々の
    統合評価値を決定する統合評価値決定手段と、 決定された各々の統合評価値の順位に複数の語彙項目の
    列の候補を並ベて、入力された音声に対する認識結果と
    して出力する出力手段とを有することを特徴とする音声
    認識装置。
  2. 【請求項2】 請求項1に記載の音声認識装置におい
    て、 統合評価値決定手段は、事前に複数の音声サンプルに対
    して、正しい認識結果に対して与えられる情報別評価値
    と誤った認識結果に対して与えられる情報別評価値とを
    得ておき、それらを用いて、正しい認識結果に対する統
    合評価値が、誤った認識結果に対する統合評価値により
    上位の評価値が得られるように、重みを設定することを
    特徴とする音声認識装置。
  3. 【請求項3】 請求項2に記載の音声認識装置におい
    て、 有限個の音声サンプルのうちのある一定数以上の音声サ
    ンプルに対して、正しい認識結果に対する総合評価値
    が、誤った認識結果に対する総合評価値より上位の評価
    値が得られるように、重みを設定することを特徴とする
    音声認識装置。
  4. 【請求項4】 請求項1に記載の音声認識装置におい
    て、 音声分析手段が生成する音響単位の列に関する複数の候
    補の情報は、発声開始時点から発声終了時点までの間で
    各々の分析された音響単位をアークとする有向グラフで
    あることを特徴とする音声認識装置。
  5. 【請求項5】 請求項4に記載の音声認識装置におい
    て、 音声分析手段が生成する音響単位の列に関する複数の候
    補の情報が、発声開始点から発声終了点までの間で分析
    された音響単位の判別結果をアークとする有向グラフで
    構成されており、 前記有向グラフ上の発声開始点から発声終了点までの判
    定結果のアークを結ぶ全ての経路を1つずつ延長しなが
    ら、語彙項目列作成手段,情報別評価値発生手段,およ
    び統合評価値決定手段により、逐次に構文解析と統合評
    価種の計算を行い、発声終了点における統合評価値によ
    り認識結果を決定して出力することを特徴とする音声認
    識装置。
  6. 【請求項6】 請求項1に記載の音声認識装置におい
    て、 情報別評価値発生手段は、少なくとも、 分析した音響単位の尤度値,音響単位および音響単位列
    の発生頻度によって決定する尤度値,語彙項目が属する
    品詞およびその品詞の列の発生頻度によって決定する尤
    度値,語彙項目が属する品詞の結合度値,語彙項目の結
    合度値,および適用された構文規則の発生頻度によって
    決定する尤度値のいずれかの情報を1つの情報別評価値
    として用いることを特徴とする音声認識装置。
  7. 【請求項7】 請求項1に記載の音声認識装置におい
    て、更に、語彙項目の文法規則が登録された構文解析用
    辞書を備えており、該構文解析用辞書には、各々の語彙
    項目の発音,品詞と共に、当該語彙項目に対応する表記
    が登録されており、その構文解析用辞書を参照して語彙
    項目列に対応する表記を得て、構文解析結果として出力
    することを特徴とする音声認識装置。
  8. 【請求項8】 請求項1に記載の音声認識装置におい
    て、更に、語彙項目が登録された認識用辞書を備えてお
    り、該認識用辞書には、発音が同じで表記が異なる語が
    異表記語として連鎖して登録されており、各音響単位の
    列に対応する語彙項目の列を作成する際に、音響単位の
    列は認識用辞書を利用して全ての異表記語に展開され、
    表記を区別した語彙項目の列の集合を認識対象とするこ
    とを特徴とする音声認識装置。
JP7272109A 1994-09-28 1995-09-27 音声認識装置 Pending JPH08314496A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US31448094A 1994-09-28 1994-09-28
US08/314480 1994-09-28

Publications (1)

Publication Number Publication Date
JPH08314496A true JPH08314496A (ja) 1996-11-29

Family

ID=23220126

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7272109A Pending JPH08314496A (ja) 1994-09-28 1995-09-27 音声認識装置

Country Status (1)

Country Link
JP (1) JPH08314496A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002082691A (ja) * 2000-08-08 2002-03-22 Koninkl Philips Electronics Nv 発声内に含まれる会社名の自動認識方法
US9384730B2 (en) 2013-05-30 2016-07-05 International Business Machines Corporation Pronunciation accuracy in speech recognition

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002082691A (ja) * 2000-08-08 2002-03-22 Koninkl Philips Electronics Nv 発声内に含まれる会社名の自動認識方法
US9384730B2 (en) 2013-05-30 2016-07-05 International Business Machines Corporation Pronunciation accuracy in speech recognition
US9978364B2 (en) 2013-05-30 2018-05-22 International Business Machines Corporation Pronunciation accuracy in speech recognition

Similar Documents

Publication Publication Date Title
JP3481497B2 (ja) 綴り言葉に対する複数発音を生成し評価する判断ツリーを利用する方法及び装置
US6182039B1 (en) Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US7124083B2 (en) Method and system for preselection of suitable units for concatenative speech
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US20040039570A1 (en) Method and system for multilingual voice recognition
JP2012137776A (ja) 音声認識装置
JP4684409B2 (ja) 音声認識方法及び音声認識装置
JPWO2009016729A1 (ja) 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法
JP4950024B2 (ja) 会話システムおよび会話ソフトウェア
JPH05143093A (ja) 発声された単語のモデルを生成する方法および装置
JP2000172294A (ja) 音声認識方法、その装置及びプログラム記録媒体
El Méliani et al. Accurate keyword spotting using strictly lexical fillers
JP4259100B2 (ja) 音声認識用未知発話検出装置及び音声認識装置
JPH08314496A (ja) 音声認識装置
JP3576066B2 (ja) 音声合成システム、および音声合成方法
JPH08248988A (ja) 音声認識方法
JP2000222406A (ja) 音声認識翻訳装置及び方法
JPH1097275A (ja) 大語彙音声認識装置
JP3299170B2 (ja) 音声登録認識装置
JP2000056793A (ja) 音声認識装置
JP2001147698A (ja) 音声認識用疑似単語生成方法及び音声認識装置
JP3668992B2 (ja) 音声認識装置の構文制御グラフの生成方法
JP2005534968A (ja) 漢字語の読みの決定
JPH10333692A (ja) 音韻テーブルと音声認識方法及び音声認識プログラムを格納した記録媒体
JPH0916192A (ja) 連続音声認識方式及び標準パタン訓練方式