JP2008275731A

JP2008275731A - テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置

Info

Publication number: JP2008275731A
Application number: JP2007116607A
Authority: JP
Inventors: Hironori Yoshida; 浩範吉田; Toshiyuki Miyazaki; 敏幸宮崎
Original assignee: Asahi Kasei Corp
Current assignee: Asahi Kasei Corp
Priority date: 2007-04-26
Filing date: 2007-04-26
Publication date: 2008-11-13
Anticipated expiration: 2027-04-26
Also published as: JP4769223B2

Abstract

【課題】単語が発音された場合に発音される可能性の高い発音記号列を精度よく生成するためのテキスト発音記号変換辞書を作成することができるテキスト発音記号変換辞書作成装置を提供する。
【解決手段】テキスト発音記号変換辞書作成装置において、単語と当該単語をセグメントに分割したセグメント分割情報と当該セグメントごとの発音記号とを学習データから取得し、学習データにおける音韻セグメント対の生起確率と連接音韻セグメント対系列の接続確率とを算出し、算出したこれらの確率を含むテキスト発音記号変換辞書を作成する。
【選択図】図１

Description

本発明は、テキスト発音記号変換辞書作成装置、テキスト発音記号変換辞書作成プログラム、テキスト発音記号変換辞書作成方法、作成したテキスト発音記号変換辞書を用いた認識語彙辞書作成装置、認識語彙辞書作成プログラム、認識語彙辞書作成方法、音声認識装置、音声認識プログラム、音声認識方法に関する。

任意の単語や文章の入力（テキスト）を音声に変換して出力する音声合成装置では、文章入力を発音記号列に変換する綴り―発音記号変換が行われる。従来の綴り―発音記号変換方法として、第1に、単語辞書に基づく方法がある。例えば、単語等の文字列の各々を発音記号列に対応付けて単語辞書として保存しておくことが考えられる。単語辞書の例を図１０に示す。図示したように、単語辞書は、単語「ａｂａｃａ」を検索してこれに対応する発音記号列／ａｂａｋａ／を特定することができる。なお、発音記号であることの表記として、／で囲まれた文字を本明細書では以降用いる。

第２の従来の綴り―発音記号変換方法として、ルールに基づく方法がある。例えば、文字の配列に関するルールが使用される。ルールの例として図１１に示すように、文字列の先頭にある「ａ」は／ａ／と発音され、「ａｂｅ」と文字列が配列された場合の「ａ」は／ｅ／と発音されることが規定される。さらに、「ａｂｅｎ」と文字列が配列された場合の「ａ」は／ｏ／と発音されることが規定される。
これらの綴り―発音記号変換方法の従来技術として、書き文字を音声の最小単位（音素）に変換するＧｒａｐｈｅｍｅＴｏＰｈｏｎｅｍｅ（Ｇ２Ｐ）と呼ばれる技術が、非特許文献１に記載されている。

An Introduction to Text-to-Speech Synthesis:(KLUWER ACADWMIC PABLISHERS :by Thierry Dutoit)

綴り―発音記号変換方法は音声合成装置のみならず、音声認識装置においても用いられる場合がある。このような音声認識装置の例として、ユーザ自身によって電話帳データに登録された相手先名を、音声認識によって選択可能とする機能を持つ携帯電話機等が挙げられる。相手先名を認識対象語彙とするためには、相手先名の綴りから発音記号列を生成することが必要となる。
上述した単語辞書に基づく綴り―発音記号変換方法では、認識対象語彙と一致する単語が単語辞書に登録されていない場合には発音記号列を得ることができない。また、多くの単語に対して発音記号列を得るためには、単語辞書に登録する単語数を増やす必要があり単語辞書が大型化するという問題点もあった。

一方、上述したルールに基づく綴り―発音記号変換方法では、入力された任意の単語に対して何らかの発音記号が得られるが、出力された発音記号列の精度を高めるためには、複雑なルールを用いる必要があり、このルールを記憶するための記憶領域が増大することになる。また、ルールが複雑であるため、入力された単語から発音記号列を出力するための処理量も増大するという問題点もあった。
さらに、入力された単語に対して出力された発音記号列の確からしさを示す指標が存在しないため、１つの単語に対して得られた複数の発音記号列候補の中から所定数の発音記号列を選択する場合に、上位の確からしい発音記号列を選択することが困難であるという問題点もあった。

本発明は、このような点に鑑みてなされたものであって、単語が発音された場合に発音される可能性の高い発音記号列を精度よく生成するためのテキスト発音記号変換辞書を作成するテキスト発音記号変換辞書装置、当該テキスト発音記号変換辞書を用いて認識語彙辞書を作成する認識語彙辞書作成装置、及び当該認識語彙辞書を用いて音声を高い認識率で認識する音声認識装置を提供することを目的とする。また、発音記号列とともに、その確からしさを示す指標を出力することも目的とする。

以上の課題を解決するため、本発明の請求項１に記載のテキスト発音記号変換辞書作成装置は、テキストから発音記号への変換に用いられるテキスト発音記号変換辞書を作成するテキスト発音記号変換辞書作成装置であって、単語と、当該単語をセグメントに分割したセグメント分割情報と、当該セグメントごとの発音記号と、を含むデータを学習データとして記憶する学習データ記憶手段と、前記学習データから、前記単語と、前記セグメント分割情報と、前記セグメントごとの発音記号と、を取得する学習データ取得手段と、前記学習データ取得手段によって取得された前記セグメント分割情報と、前記セグメントごとの発音記号から、セグメントの名前と当該セグメントの名前に対応する発音記号との組である音韻セグメント対を生成し、前記学習データにおいて当該音韻セグメント対が出現する頻度に基づいて生起確率を算出する生起確率算出手段と、単語内において連接する音韻セグメント対の系列である連接音韻セグメント対系列が、前記学習データにおいて出現する頻度に基づいて接続確率を算出する接続確率算出手段と、前記生起確率算出手段によって算出された音韻セグメント対ごとの生起確率と、前記接続確率算出手段によって算出された連接音韻セグメント対系列ごとの接続確率とを含むテキスト発音記号変換辞書を保存するテキスト発音記号変換辞書保存手段と、を備えることを特徴とする
また、請求項２に記載のテキスト発音記号変換辞書作成装置は、請求項１に記載のテキスト発音記号変換辞書作成装置において、前記セグメントが、１つの音素に対応することを特徴とする。

また、請求項３に記載のテキスト発音記号変換辞書作成装置は、請求項１に記載のテキスト発音記号変換辞書作成装置において、前記セグメントが、１つの音素に対応するセグメントと、連接した複数の音素に対応するセグメントから構成されることを特徴とする。
また、請求項４に記載の認識語彙辞書作成装置は、音声を認識するために用いられる認識語彙辞書を作成する認識語彙辞書作成装置であって、請求項１乃至請求項３のいずれか１項に記載のテキスト発音記号変換辞書作成装置で作成されたテキスト発音記号変換辞書を記憶するテキスト発音記号変換辞書記憶手段と、音声認識の対象である認識語彙が登録された認識語彙辞書を記憶する認識語彙辞書記憶手段と、前記認識語彙辞書に登録された認識語彙を取得する認識語彙取得手段と、前記テキスト発音記号変換辞書を参照することで前記取得した認識語彙をセグメントに分割し、セグメントの系列であるセグメント系列を生成するセグメント系列生成手段と、前記セグメント系列生成手段で生成されたセグメント系列から、音韻セグメント対の系列である音韻セグメント対系列を生成し、前記テキスト発音記号変換辞書を参照することで当該音韻セグメント対系列ごとに累積コストを算出する累積コスト算出手段と、前記累積コスト算出手段で算出した累積コストに基づいて前記音韻セグメント対系列の中から上位の音韻セグメント対系列を音韻セグメント対系列候補として選択する音声候補選択手段と、前記音声候補選択手段で選択した音韻セグメント対系列候補に対応する発音記号の系列を、前記認識語彙辞書に登録する音声候補登録手段と、を備え、前記累積コスト算出手段は、前記音韻セグメント対系列における前記音韻セグメント対の前記生起確率と、前記連接音韻セグメント対系列の前記接続確率とに基づいて累積コストを算出することを特徴とする。

また、請求項５に記載の音声認識装置は、請求項４に記載の認識語彙辞書作成装置で作成された認識語彙辞書に基づき音声を認識することを特徴とする。
また、請求項６に記載のテキスト発音記号変換辞書作成プログラムは、コンピュータに、テキストから発音記号への変換に用いられるテキスト発音記号変換辞書の作成を実行させるためのテキスト発音記号変換辞書作成プログラムであって、単語と、当該単語をセグメントに分割したセグメント分割情報と、当該セグメントごとの発音記号と、を含む学習データを記憶した学習データ記憶手段から、前記単語と、前記セグメント分割情報と、前記セグメントごとの発音記号と、を取得する学習データ取得ステップと、前記学習データ取得ステップによって取得された前記セグメント分割情報と、前記セグメントごとの発音記号から、セグメントの名前と当該セグメントの名前に対応する発音記号との組である音韻セグメント対を生成し、前記学習データにおいて当該音韻セグメント対が出現する頻度に基づいて生起確率を算出する生起確率算出ステップと、単語内において連接する音韻セグメント対の系列である連接音韻セグメント対系列が、前記学習データにおいて出現する頻度に基づいて接続確率を算出する接続確率算出ステップと、前記生起確率算出ステップによって算出された音韻セグメント対ごとの生起確率と、前記接続確率算出ステップによって算出された連接音韻セグメント対系列ごとの接続確率とを含むテキスト発音記号変換辞書を保存するテキスト発音記号変換辞書保存ステップと、を含むことを特徴とする。

また、請求項７に記載の認識語彙辞書作成プログラムは、コンピュータに、音声を認識するために用いられる認識語彙辞書の作成を実行させるための認識語彙辞書作成プログラムであって、請求項６に記載のテキスト発音記号変換辞書作成プログラムで作成されたテキスト発音記号変換辞書を記憶するテキスト発音記号変換辞書記憶手段から当該テキスト発音記号変換辞書を取得するテキスト発音記号変換辞書取得ステップと、音声認識の対象である認識語彙が登録された認識語彙辞書を記憶する認識語彙辞書記憶ステップと、前記認識語彙辞書に登録された認識語彙を取得する認識語彙取得ステップと、前記テキスト発音記号変換辞書取得ステップで取得した前記テキスト発音記号変換辞書を参照することで前記取得した認識語彙をセグメントに分割し、セグメントの系列であるセグメント系列を生成するセグメント系列生成ステップと、前記セグメント系列生成手段で生成されたセグメント系列から、音韻セグメント対の系列である音韻セグメント対系列を生成し、前記テキスト発音記号変換辞書を参照することで当該音韻セグメント対系列ごとに累積コストを算出する累積コスト算出ステップと、前記累積コスト算出ステップで算出した累積コストに基づいて前記音韻セグメント対系列の中から上位の音韻セグメント対系列を音韻セグメント対系列候補として選択する音声候補選択ステップと、前記音声候補選択ステップで選択した音韻セグメント対系列候補に対応する発音記号の系列を、前記認識語彙辞書に登録する音声候補登録ステップと、を含み、前記累積コスト算出ステップは、前記音韻セグメント対系列における前記音韻セグメント対の前記生起確率と、前記連接音韻セグメント対系列の前記接続確率とに基づいて累積コストを算出するステップを含むことを特徴とする。

また、請求項８に記載の音声認識プログラムは、コンピュータに、請求項７に記載の認識語彙辞書作成プログラムで作成された認識語彙辞書に基づいて音声を認識するステップを含む処理を実行させることを特徴とする。
また、請求項９に記載のテキスト発音記号変換辞書作成方法は、テキストから発音記号への変換に用いられるテキスト発音記号変換辞書を作成するテキスト発音記号変換辞書作成方法であって、単語と、当該単語をセグメントに分割したセグメント分割情報と、当該セグメントごとの発音記号と、を含む学習データを記憶した学習データ記憶手段から、前記単語と、前記セグメント分割情報と、前記セグメントごとの発音記号と、を取得する学習データ取得ステップと、前記学習データ取得ステップによって取得された前記セグメント分割情報と、前記セグメントごとの発音記号から、セグメントの名前と当該セグメントの名前に対応する発音記号との組である音韻セグメント対を生成し、前記学習データにおいて当該音韻セグメント対が出現する頻度に基づいて生起確率を算出する生起確率算出ステップと、単語内において連接する音韻セグメント対の系列である連接音韻セグメント対系列が、前記学習データにおいて出現する頻度に基づいて接続確率を算出する接続確率算出ステップと、前記生起確率算出ステップによって算出された音韻セグメント対ごとの生起確率と、前記接続確率算出ステップによって算出された連接音韻セグメント対系列ごとの接続確率と、を含むテキスト発音記号変換辞書を保存するテキスト発音記号変換辞書保存ステップと、を含むことを特徴とする。

また、請求項１０に記載の認識語彙辞書作成方法は、音声を認識するために用いられる認識語彙辞書を作成する認識語彙辞書作成方法であって、請求項９に記載のテキスト発音記号変換辞書作成方法で作成されたテキスト発音記号変換辞書を記憶するテキスト発音記号変換辞書記憶手段から当該テキスト発音記号変換辞書を取得するテキスト発音記号変換辞書取得ステップと、音声認識の対象である認識語彙が登録された認識語彙辞書を記憶する認識語彙辞書記憶ステップと、前記認識語彙辞書に登録された認識語彙を取得する認識語彙取得ステップと、前記テキスト発音記号変換辞書取得ステップで取得した前記テキスト発音記号変換辞書を参照することで前記取得した認識語彙をセグメントに分割し、セグメントの系列であるセグメント系列を生成するセグメント系列生成ステップと、前記セグメント系列生成手段で生成されたセグメント系列から、音韻セグメント対の系列である音韻セグメント対系列を生成し、前記テキスト発音記号変換辞書を参照することで当該音韻セグメント対系列ごとに累積コストを算出する累積コスト算出ステップと、前記累積コスト算出ステップで算出した累積コストに基づいて前記音韻セグメント対系列の中から上位の音韻セグメント対系列を音韻セグメント対系列候補として選択する音声候補選択ステップと、前記音声候補選択ステップで選択した音韻セグメント対系列候補に対応する発音記号の系列を、前記認識語彙辞書に登録する音声候補登録ステップと、を備え、前記累積コスト算出ステップは、前記音韻セグメント対系列における前記音韻セグメント対の前記生起確率と、前記連接音韻セグメント対系列の前記接続確率とに基づいて累積コストを算出することを特徴とする。
また、請求項１１に記載の音声認識方法は、請求項１０に記載の認識語彙辞書作成方法で作成された認識語彙辞書に基づいて音声を認識するステップを含むことを特徴とする。

本発明に係る請求項１に記載のテキスト発音記号変換辞書作成装置、請求項６に記載のテキスト発音記号変換辞書作成プログラム、並びに請求項９に記載のテキスト発音記号変換辞書作成方法によれば、音韻セグメント対ごとの出現頻度に基づいて算出した生起確率と、音韻セグメント対の連接パターンに対する尤もらしさを表す連接音韻セグメント対系列の接続確率とを、大規模な学習データから求めてテキスト発音記号変換辞書に設定する。これによって、統計値に基づいた生起確率と接続確率とが得られるので、テキストから発音記号への変換において、このテキスト発音記号変換辞書を用いることによって、単語が発音された場合に発音される可能性が高い発音記号列を精度よく生成することができる。また、テキスト発音記号変換辞書の大きさに応じて、上位の生起確率値と接続確率値を選択することにより、重要度の高い統計値をテキスト発音記号変換辞書に設定することができる。

本発明に係る請求項２に記載のテキスト発音記号変換辞書作成装置によれば、セグメントとして音素を用いるので、一般的な辞書で使用されている発音記号から容易に学習データとして音素を抽出することができる。
本発明に係る請求項３に記載のテキスト発音記号変換辞書作成装置によれば、セグメントとして１つの音素に対応するセグメントのみならず、連接する複数の音素に対応するセグメントも用いるので、単語等であるセグメントに関する生起確率値と接続確率値をテキスト発音記号変換辞書に設定することができる。これによって、テキストから発音記号への変換において、このテキスト発音記号変換辞書を用いることで、既知の単語の発音記号に基づいた発音記号を生成することができる。したがって、ユーザにとって発音が未知の単語であって、その単語が複数の既知の単語が接続されているとみなされるものについては、この既知の単語を意識して発音する可能性が高いので、テキストから発音記号への変換の精度が高くなる。

本発明に係る請求項４に記載の認識語彙辞書作成装置、請求項７に記載の認識語彙辞書作成プログラム、並びに請求項１０に記載の認識語彙辞書作成方法によれば、音韻セグメント対ごとの出現頻度に基づいて算出した生起確率と、音韻セグメント対の連接パターンに対する尤もらしさを表す連接音韻セグメント対系列の接続確率とが、大規模な学習データから求められてテキスト発音記号変換辞書に設定されているので、このテキスト発音記号変換辞書を用いて単語が発音された場合に発音される可能性が高い発音記号列を精度よく生成し認識語彙辞書に登録することができる。また、生成された発音記号列に対応する累積コストの値によって、その発音記号列の確からしさを判定することができるので、発音記号列の候補の中から柔軟に認識語彙辞書に登録する発音記号列を選択することが可能となる。

本発明に係る請求項５に記載の音声認識装置、請求項８に記載の音声認識プログラム、並びに請求項１１に記載の音声認識方法によれば、大規模な学習データから求められた統計値に基づいて作成されたテキスト発音記号変換辞書を用いることによって、単語が発音された場合に発音される可能性が高い発音記号列が精度よく生成されて認識語彙辞書に登録されているので、音声認識の認識精度を向上させることができる。

〔第１の実施の形態〕
以下、本発明の第１の実施の形態を図面に基づき説明する。図１〜図３は、本発明に係るテキスト発音記号変換辞書作成装置、テキスト発音記号変換辞書作成プログラム、及びテキスト発音記号変換辞書作成方法の実施の形態を示す図である。
まず、本発明に係るテキスト発音記号変換辞書作成装置の構成を、図１に基づき説明する。図１は、本発明に係るテキスト発音記号変換辞書作成装置１００の構成を示すブロック図である。

学習データ記憶部１０は、文字列で表記された単語と、各単語をセグメントに分割したセグメント分割情報と、各セグメントに対応する発音記号とを含むデータを学習データとして記憶する。ここで、セグメントとは、単語のテキスト（文字列）の一部であり、１つ以上の連続した発音記号に対応するものを意味する。本実施の形態では、単語「ａｂａｃａ」および単語「ａｂａｃｕｌｅ」を構成する「ａ」、「ｂ」、「ｃ」、「ｕ」、「ｌｅ」といった１つの発音記号に対応する文字をセグメントとした。また、発音記号として音素表記を用いる。

学習データ取得部１１は、学習データ記憶部１０に記憶された学習データから、単語と、セグメント分割情報と、各セグメントに対応する発音記号とを取得する。
出現頻度カウンタ１２は、セグメントに対応する音素とセグメントの組（以下、音韻セグメント対と記す。）が学習データに出現する頻度をカウントしてメモリ１６に保存する。また、各セグメントが学習データに出現する頻度をカウントしてメモリ１６に保存する。学習データの全ての単語に対する処理が終了した時点で、各音韻セグメント対の出現頻度と、各セグメントの出現頻度である各トータル頻度とが確定し、メモリ１６に保存される。
生起確率算出部１３は、音韻セグメント対の出現頻度を、当該音韻セグメント対に含まれるセグメントに対応するトータル頻度で除算することにより、音韻セグメント対ごとに生起確率を算出しメモリ１６に保存する。

接続確率算出部１４は、単語内において連接する音韻セグメント対の系列である連接音韻セグメント対系列が学習データに出現する頻度をカウントしてメモリ１６に保存する。学習データの全ての単語に対する処理が終了した時点で、連接音韻セグメント対系列ごとの出現頻度が確定し、メモリ１６に保存される。そして、連接音韻セグメント対系列の中の先行音韻セグメント対が有するトータル出現頻度で、連接音韻セグメント対系列の出現頻度を除算することにより、連接音韻セグメント対系列ごとに接続確率を算出しメモリ１６に保存する。
テキスト発音記号変換辞書保存部１５は、音韻セグメント対ごとに算出された生起確率と、連接音韻セグメント対系列ごとに算出された接続確率とをメモリ１６から読み出し、テキスト発音記号変換辞書として保存する。

次に、図２に基づき、このような構成をしたテキスト発音記号変換辞書作成装置１００におけるテキスト発音記号変換辞書の作成処理の流れを説明する。図２は、テキスト発音記号変換辞書作成装置１００において実行される、テキスト発音記号変換辞書の作成方法を説明するためのフローチャートである。
テキスト発音記号変換辞書の作成処理は、図２のフローチャートに示すように、まずステップＳ２０１に移行し、学習データ取得部１１において、学習データ記憶部１０に記憶された学習データから、単語と、セグメント分割情報と、各セグメントに対応する発音記号とを取得し、ステップＳ２０２に移行する。

ステップＳ２０２では、出現頻度カウンタ１２において、学習データの全ての単語に対する処理が終了したか否かを判定し、処理が終了したと判定された場合（Ｙｅｓ）はステップＳ２０５に移行し、そうでない場合（Ｎｏ）はステップＳ２０３に移行する。
ステップＳ２０３に移行した場合は、出現頻度カウンタ１２は、各音韻セグメント対が学習データに出現する頻度をカウントしてメモリ１６に保存する。また、各セグメントが学習データに出現する頻度をカウントしてメモリ１６に保存し、ステップＳ２０４に移行する。

ステップＳ２０４では、接続確率算出部１４において、単語内において連接する音韻セグメント対の系列である連接音韻セグメント対系列が学習データに出現する頻度をカウントしてメモリ１６に保存してステップＳ２０１に移行する。
ステップＳ２０５に移行した場合は、生起確率算出部１３において、音韻セグメント対の出現頻度を、当該音韻セグメント対に含まれるセグメントに対応するトータル頻度で除算することにより、音韻セグメント対ごとに生起確率を算出しメモリ１６に保存して、ステップＳ２０６に移行する。

ステップＳ２０６では、接続確率算出部１４において、連接音韻セグメント対系列の中の先行音韻セグメント対が有するトータル出現頻度で、連接音韻セグメント対系列の出現頻度を除算することにより、連接音韻セグメント対系列ごとに接続確率を算出しメモリ１６に保存して、ステップＳ２０７に移行する。
ステップＳ２０７では、テキスト発音記号変換辞書保存部１５において、音韻セグメント対ごとに算出された生起確率と、連接音韻セグメント対系列ごとに算出された接続確率とをメモリ１６から読み出し、テキスト発音記号変換辞書として保存して処理を終了する。

実施例１
以下、図３（ａ）、（ｂ）、（ｃ）に基づいて、テキスト発音記号変換辞書作成装置１００の動作を具体的に説明する。
学習データ記憶部１０に記憶された学習データは、単語の綴りとその単語の発音記号を含む一般的な辞書から抽出されたデータに基づいて生成される。本実施例においては、学習データに含まれるデータとして、図３（ａ）のように、例えば単語「ａｂａｃａ」に対するセグメント分割情報は、「（ａ）ｂａｃａ」、「ａ（ｂ）ａｃａ」、「ａｂ（ａ）ｃａ」、「ａｂａ（ｃ）ａ」、「ａｂａｃ（ａ）」といった情報から構成される。単語「ａｂａｃａ」は「ａ」、「ｂ」、「ａ」、「ｃ」、「ａ」のように５個のセグメントに分割され、単語「ａｂａｃｕｌｅ」は「ａ」、「ｂ」、「ａ」、「ｃ」、「ｕ」、「ｌｅ」のように６個のセグメントに分割される。

また、各セグメントに対応する発音記号は、例えば「（ａ）ｂａｃａ→ａ」のように表現される。単語「ａｂａｃａ」を構成する５個のセグメントである「ａ」、「ｂ」、「ａ」、「ｃ」、「ａ」に対応する音素は、それぞれ／ａ／、／ｂ／、／ａ／、／ｋ／、／ａ／となる。また、単語「ａｂａｃｕｌｅ」を構成する６個のセグメントである「ａ」、「ｂ」、「ａ」、「ｃ」、「ｕ」、「ｌｅ」に対応する音素はそれぞれ／ａ／、／ｂ／、／ａ／、／ｋ／、／ｙ／、／ｌ／となる。

学習データ取得部１１は、学習データから、単語と、セグメント分割情報と、各セグメントに対応する発音記号とを取得する。学習データから取得した単語をセグメントに分割する。出現頻度カウンタ１２は、音韻セグメント対が学習データに出現する頻度をカウントしてメモリ１６に保存する。以下、発音記号「X」と発音されるセグメント「ｙ」を、「X｜ｙ」と記す。単語「ａｂａｃａ」のみが処理された場合には、音韻セグメント対「ａ｜ａ」、「ｂ｜ｂ」、「ｋ｜ｃ」の出現頻度はそれぞれ３回、１回、１回となる。

学習データの全ての単語に対する処理が終了した時点で、各音韻セグメント対の出現頻度と、各セグメントの出現頻度である各トータル頻度とが確定し、メモリ１６に保存される。図３（ａ）の例では、音韻セグメント対「Ａ｜ａ」、「ａ｜ａ」、「ｂ｜ｂ」、「ｐ｜ｂ」の出現頻度はそれぞれ１２２３、４５１４２、１２３７２、２６７である。

生起確率算出部１３は、音韻セグメント対の出現頻度を、当該音韻セグメント対に含まれるセグメントに対応するトータル頻度で除算することにより、音韻セグメント対ごとに生起確率を算出しメモリ１６に保存する。図３（ａ）の例では、セグメント「ａ」のトータル頻度は４６３６５回である。セグメント「ａ」に対応する音素には、／Ａ／と／ａ／の２種類があり、そして音韻セグメント対「Ａ｜ａ」と「ａ｜ａ」が出現する頻度はそれぞれ１２２３回と４５１４２回である。このとき、生起確率はそれぞれ０．０３と０．９７である。後述の認識語彙辞書作成装置における演算量を低減するために、生起確率の対数値を用いる。例えば、生起確率値０．０３と０．９７に対しては、それぞれ−３．６３と−０．０２が生起確率の対数値である。

接続確率算出部１４は、単語内において連接する音韻セグメント対の系列である連接音韻セグメント対系列が学習データに出現する頻度をカウントしてメモリ１６に保存する。単語「ａｂａｃａ」において、２個の連接する音韻セグメント対からなる連接音韻セグメント対系列は「ａ｜ａ→ｂ｜ｂ」、「ｂ｜ｂ→ａ｜ａ」、「ａ｜ａ→ｋ｜ｃ」、「ｋ｜ｃ→ａ｜ａ」のように４個となり、それぞれの出現頻度は１回となる。学習データ１１の全ての単語に対する処理が終了した時点で、音韻セグメント対の各組の出現頻度が確定し、メモリ１６に保存される。

そして、連接音韻セグメント対系列の先行音韻セグメント対が有するトータル出現頻度で、連接音韻セグメント対系列ごとの出現頻度を除算することにより、連接音韻セグメント対系列ごとに接続確率を算出しメモリ１６に保存する。図３（ａ）に示したように、「ａ｜ａ」のトータル頻度は４５１４２回である。「ａ｜ａ→ｂ｜ｂ」が出現する頻度は２４８７回である。このとき、「ａ｜ａ→ｂ｜ｂ」の接続確率は０．０５５でありその対数値は−２．８９となる。以下、生起確率と接続確率の値として対数値を用いる。

音韻セグメント対ごとの生起確率に関する情報は、図３（ａ）に示したように、音韻セグメント対の名前である「Ａ｜ａ」、「ａ｜ａ」、「ｂ｜ｂ」、「ｐ｜ｂ」等のラベルと、音韻セグメント対ごとの生起確率である、−３．６３、−０．０２、−０．０２、−３．８５等の数値となる。そして、連接音韻セグメント対系列ごとの接続確率に関する情報は、図３（ｂ）に示したように、連接音韻セグメント対系列の名前である「ａ｜ａ→ｂ｜ｂ」、「ａ｜ａ→ｐ｜ｂ」、「ａ｜ａ→ｋ｜ｃ」、「ａ｜ａ→ｓ｜ｃ」等のラベルと、連接音韻セグメント対の接続確率である、−２．８９、−８．２３、−３．１８、−４．６９等の数値となる。

本実施の形態は、以上述べたように、１つの発音記号に対応する文字をセグメントとする構成に限定されるものではなく、複数の発音記号によって構成される文字をセグメントとすることも可能である。複数の発音記号によって構成される文字とは、例えば、単語、接頭辞、接尾辞などである。
例えば、単語「ｕｐｈａｌｌ」を構成する文字列「ｕｐ」と「ｈａｌｌ」は、それぞれを１つの単語とみなすことができる。

これらの文字列をセグメントとする場合には、対応する音韻セグメント対はそれぞれ「ａｐ｜ｕｐ」と「ｈｏｌ｜ｈａｌｌ」となる。このようなセグメントを、上述の１つの発音記号に対応する文字であるセグメントに混在させて、テキスト発音記号変換辞書を作成してもよい。こうすることにより、単語であるセグメントに関する生起確率値と接続確率値をテキスト発音記号変換辞書に設定することができるので、後述する認識語彙辞書作成装置において、既知の単語の発音記号に基づいた発音記号を生成することができる。したがって、ユーザにとって発音が未知の単語であって、その単語が複数の既知の単語が接続されているとみなされるものについては、この既知の単語を意識して発音する可能性が高いので、テキストから発音記号への変換の精度が高くなる。

なお、複数の発音記号によって構成される文字であるセグメントが、学習データに出現する頻度が少ない場合は、生起確率と接続確率をそれぞれ所定の値に設定してもよい。
テキスト発音記号変換辞書保存部１５は、音韻セグメント対ごとの生起確率に関する情報と、連接音韻セグメント対系列ごとの接続確率に関する情報をテキスト発音記号変換辞書として保存する。上記第1の実施の形態において、学習データ記憶部１０は、請求項１記載の学習データ記憶手段に対応し、学習データ取得部１１は、請求項１記載の学習データ取得手段に対応し、出現頻度カウンタ１２及び生起確率算出部１３は、請求項１記載の生起確率算出手段に対応し、接続確率算出部１４は、請求項１記載の接続確率算出手段に対応し、テキスト発音記号変換辞書保存部１５は、請求項１記載のテキスト発音記号変換辞書保存手段に対応する。

また、上記第1の実施の形態において、ステップＳ２０１は、請求項６または請求項９記載の学習データ取得ステップに対応し、ステップＳ２０２〜Ｓ２０３並びにＳ２０５は、請求項６または請求項９記載の生起確率算出ステップに対応し、ステップＳ２０４並びにＳ２０６は、請求項６または請求項９記載の接続確率算出ステップに対応し、ステップＳ２０７は、請求項６または請求項９記載のテキスト発音記号変換辞書保存ステップに対応する。

なお、上述した第１の実施の形態に係るテキスト発音記号変換辞書作成プログラムは、記憶部を備えた一般的なコンピュータシステムによって実行可能である。この場合、上記記憶部に格納されたテキスト発音記号変換辞書作成プログラムをコンピュータが実行することによって、上述したテキスト発音記号変換辞書作成動作が行われる。なお、上記テキスト発音記号変換辞書作成プログラムは、通信媒体を介してコンピュータシステムに供給されてもかまわない。また、光ディスク等の記憶媒体に上記テキスト発音記号変換辞書作成プログラムを記録し、当該記録媒体に記録されたテキスト発音記号変換辞書作成プログラムをコンピュータシステムで読み込んでもかまわない。

〔第２の実施の形態〕
次に、本発明の第２の実施の形態を図面に基づき説明する。図４〜図８は、本発明に係る認識語彙辞書作成装置、認識語彙辞書作成プログラム、及び認識語彙辞書作成方法の実施の形態を示す図である。
まず、本発明に係る認識語彙辞書作成装置の構成を図４に基づき説明する。図４は、本発明に係る認識語彙辞書作成装置４００を説明するブロック図である。第１認識語彙辞書記憶部４０は、音声認識の対象となる認識語彙ごとに、その認識語彙の発音記号列が予め登録された第１認識語彙辞書を記憶している。第２認識語彙辞書記憶部４１は、ユーザが登録した音声認識の対象となる認識語彙が保存された第２認識語彙を記憶している。第２認識語彙辞書と第１認識語彙辞書とは、認識語彙の発音記号列が第１認識語彙辞書では予め登録されているのに対し、第２認識語彙辞書では、本発明に係る認識語彙辞書作成装置によって新たに登録される点で異なる。

テキスト発音記号変換辞書記憶部４２は、先に述べたテキスト発音記号変換辞書作成装置で作成されたテキスト発音記号変換辞書を記憶する。認識語彙取得部４３は、第２認識語彙辞書に記憶されている認識語彙を取得する。セグメント系列生成部４４は、取得された認識語彙をセグメントに分割してセグメント系列を生成する。本実施の形態では分割のために参照するセグメントのラベルとして、テキスト発音記号変換辞書に保存された音韻セグメント対のセグメントの部分を使用するが、セグメントのラベルを登録したテーブルを使用してもよい。
単語「ａｂａｃａ」を例にとると、５個のセグメントからなるセグメント系列｛「ａ」，「ｂ」，「ａ」，「ｃ」，「ａ」｝と、４個のセグメントからなるセグメント系列｛「ａ」，「ｂ」，「ａｃ」，「ａ」｝の２つのセグメント系列が生成される。

累積コスト算出部４５は、セグメント系列生成部４４によって生成されたセグメント系列の各セグメントに対して取り得る全ての発音記号を割り当てることにより、セグメント系列から音韻セグメント対の系列を生成する。テキスト発音記号変換辞書に保存された音韻セグメント対を、セグメントに発音記号を割り当てるために参照する。次に、音韻セグメント対の系列ごとに、テキスト発音記号変換辞書４３に保存された生起確率と接続確率とを参照して累積コストを算出する。
音声候補選択部４６は、累積コストの算出対象となった音韻セグメント対の系列から、累積コストに基づいて音声候補を選択する。音声候補登録部４７は、音声候補選択部４６によって選択された音声候補を、対応する認識語彙の発音記号列として第２認識語彙辞書に登録する。

次に、図５に基づき、このような構成をした認識語彙辞書作成装置４００における認識語彙辞書の作成処理の流れを説明する。図５は、以上述べた認識語彙辞書作成装置４００において実行される、認識語彙辞書の作成方法を説明するためのフローチャートである。
認識語彙辞書の作成処理は、図５のフローチャートに示すように、まずステップＳ５０１に移行し、認識語彙取得部４３において、第２認識語彙辞書４１に含まれる単語を入力し、ステップＳ５０２に移行する。ステップＳ５０２では、セグメント系列生成部４４において、入力された単語をセグメントに分割してセグメント系列を生成し、ステップＳ５０３に移行する。ステップＳ５０３では、累積コスト算出部４５において、セグメント系列の各セグメントに対して取り得る全ての発音記号を割り当てることにより、セグメント系列から音韻セグメント対の系列を生成し、ステップＳ５０４に移行する。

ステップＳ５０４では、累積コスト算出部４５において、テキスト発音記号変換辞書に保存された生起確率及び累積確率に基づいて音韻セグメント対の系列の各々について累積コストを算出し、ステップＳ５０５に移行する。ステップＳ５０５では、音声候補選択部４６において、算出された累積コストと境界尤度とを比較する。そして、境界尤度以上の累積コストを有する音声候補を選択し、ステップＳ５０６に移行する。ステップＳ５０６では、音声候補登録部４７において、音声候補選択部４６によって選択された音声候補を対応する認識語彙の発音記号列として第２認識語彙辞書に登録し処理を終了する。

実施例１
次に、図６に基づいて、累積コスト算出部４５の動作を具体的に説明する。図６は、累積コスト算出部４５が単語「ａｂａｃａ」の音声候補の累積コストを算出する例を示している。累積コスト算出部４５は、例えば、単語「ａｂａｃａ」の音声候補／ａｂａｋａ／の累積コストを、以下のようにして算出する。すなわち、単語「ａｂａｃａ」の先頭のセグメント「ａ」には、発音記号／ａ／、発音記号／Ａ／の２つの音声候補がある。累積コスト算出部４５は、発音記号／ａ／の生起確率−０．０２、発音記号／ａ／と発音記号／ｂ／との接続確率−２．８９、発音記号／ｂ／の生起確率を累積し、文字列「ａｂ」の累積コストを算出する。

なお、本実施の形態は、前記したように生起確率及び接続確率の対数値を用いているため、累積コストを算出するための演算として、乗算の代わりに加算を使用することで演算量を低減することができる。
さらに、累積コスト算出部４５は、発音記号／ｂ／から発音記号／ａ／に連続する接続確率と３番目のセグメント「ａ」の音声候補が発音記号／ａ／である生起確率とを累積する。さらに、発音記号／ａ／から発音記号／ｋ／に連続する接続確率とセグメント「ｃ」の音声候補が発音記号／ｋ／である生起確率とを累積し、発音記号／ｋ／から発音記号／ａ／に連続する接続確率とセグメント「ａ」の音声候補が発音記号／ａ／である生起確率とを累積する。以上の演算により、累積コスト算出部４５は、発音記号列／ａｂａｋａ／の累積コスト−１０．０３を得る。
また、同様に、累積コスト算出部４５は、他の音声候補である発音記号列／ａｂＡｋａ／、／ａｂａｋＡ／、／Ａｂａｋａ／、／ａｂａｓａ／等についても累積コストを算出する。

次に、音声候補選択部４６は、累積コストの算出対象となった発音記号から、累積コストに基づいて音声候補を選択する。本実施の形態の音声候補選択部４６は、累積コストが所定のしきい値より大きい音声候補を選択している。しきい値は、予め決められた一定の値でもよい。また、算出された累積コストのうちの最も大きい値から所定の値を減じた値であってもよい。

図７は、算出された累積コストのうちの最も大きい値から所定の値を減じた値をしきい値に設定する例を説明するための図である。図示した例では、発音記号列／ａｂａｋａ／、／ａｂＡｋａ／、／ａｂａｋＡ／、／Ａｂａｋａ／、／ａｂａｓａ／について累積コストを算出している。本実施の形態では、音声候補である発音記号列／ａｂａｋａ／、／ａｂＡｋａ／、／ａｂａｋＡ／、／Ａｂａｋａ／、／ａｂａｓａ／を、累積コストの値が高いものから順に第１候補から第５候補の順位を付すものとする。各発音記号の累積コストは、以下の通りである。
第１候補発音記号列／ａｂａｋａ／累積コスト −１０．０３
第２候補発音記号列／ａｂＡｋａ／累積コスト −１２．７０
第３候補発音記号列／ａｂａｋＡ／累積コスト −１４．２５
第４候補発音記号列／Ａｂａｋａ／累積コスト −１６．５３
第５候補発音記号列／ａｂａＳａ／累積コスト −１７．６４

図７に示した例では、上述の所定の値を５．００としている。音声候補選択部４６は、最も大きい累積コストである−１０．０３から５．００を減じてしきい値（境界尤度）−１５．０３を設定している。音声候補選択部４６は、累積コストが境界尤度以上の音声候補である発音記号列／ａｂａｋａ／、／ａｂＡｋａ／、／ａｂａｋＡ／を選択する。音声候補登録部４７は、選択された音声候補を第２認識語彙辞書に保存する。一方、累積コストが境界尤度以下の音声候補である発音記号列／Ａｂａｋａ／、／ａｂａＳａ／は除外される。

このように構成した場合、各音声候補の第1候補の累積コストの値に依存したしきい値を設定することができるので、第1候補の音声候補が有する累積コストの値を基準にすることで、入力される可能性の低い音声候補を第２認識語彙辞書の登録対象から除外することができる。したがって、第２認識語彙辞書の大型化を抑えながら、入力された音声の認識率を高めることができる。

また、本実施の形態は、上記したような音声候補を選択する構成に限定されるものでなく、累積コストがより大きい所定の数の音声候補を選択するようにしてもよい。すなわち、例えば、１単語について３個の音声候補を第２認識語彙辞書に登録する場合、音声候補選択部４６は、単語「ａｂａｃａ」について、累積コストがより高い３つの音声候補、発音記号列／ａｂａｋａ／、／ａｂＡｋａ／、／ａｂａｋＡ／を選択する。
このように構成した場合、本実施の形態は、予め登録される音声候補の数やそれらの登録に必要な第２認識語彙辞書の容量を予測することができる。

また、本実施の形態は、以上述べたように、１つの発音記号に対応する文字をセグメントとする構成に限定されるものではなく、複数の発音記号によって構成される文字をセグメントとすることも可能である。複数の発音記号によって構成される文字とは、例えば、単語、接頭辞、接尾辞などである。さらに、生起確率と接続確率の総和を求めて累積コストの算出を行うことに限定されるものではなく、生起確率と接続確率のそれぞれに対して重み係数を乗じて、これらの総和を求めることも可能である。
第２認識語彙辞書から取得した認識語彙をセグメント系列生成部４４でセグメントに分割する前に、当該取得した認識語彙が第１認識語彙辞書に登録されているかどうかを判定し、登録されていた場合には、第１認識語彙辞書に登録されている発音記号列を、第２認識語彙辞書に登録するようにしてもよい。

図８は、複数の発音記号によって構成される文字をセグメントとする例を説明するための図である。なお、本実施の形態では、１つの発音記号に対応するセグメントを通常セグメント、連接した複数の発音記号に対応するセグメントを拡張セグメントとも記す。この場合に用いられるテキスト発音記号変換辞書は、通常セグメントと拡張セグメントを混在させてテキスト発音記号変換辞書作成装置で作成されたものである。

図８に示した例では、単語「ｕｐｈａｌｌ」について複数の連接した発音記号で構成されるセグメントを設定している。符号８２を付して示した範囲は、１つの発音記号に対応するセグメントから生成される音韻セグメント対の系列を示している。符号８１を付して示した範囲は、連接した複数の発音記号に対応するセグメントから生成される音韻セグメント対の系列を示している。
符号８１で示した例では、単語「ｕｐｈａｌｌ」の文字列「ｕｐ」と「ｈａｌｌ」とのように複数の単語に分割したものを拡張セグメントとしている。図示したように、本実施の形態の認識語彙辞書作成装置では、通常セグメントと拡張セグメントとを混在させている。

拡張セグメントを導入することにより、単語であるセグメントに関する生起確率値と接続確率値をテキスト発音記号変換辞書に設定することができる。これによって、テキストから発音記号への変換において、このテキスト発音記号変換辞書を用いることで、既知の単語の発音記号に基づいた発音記号を生成することができる。したがって、ユーザにとって発音が未知の単語であって、その単語が複数の既知の単語が接続されているとみなされるものについては、この既知の単語を意識して発音する可能性が高いので、テキストから発音記号への変換の精度が高くなる。

上記第２の実施の形態において、第２認識語彙辞書４１は、請求項４記載の認識語彙辞書記憶手段に対応し、テキスト発音記号変換辞書記憶部４２は、請求項４記載のテキスト発音記号変換辞書記憶手段に対応し、認識語彙取得部４３は、請求項４記載の認識語彙取得手段に対応し、セグメント系列生成部４４は、請求項４記載のセグメント系列生成手段に対応し、累積コスト算出部４５は、請求項４記載の累積コスト算出手段に対応し、音声候補選択部４６は、請求項４記載の音声候補選択手段に対応し、音声候補登録部４７は、請求項４記載の音声候補登録手段に対応する。

また、上記第２の実施の形態において、ステップＳ５０１は、請求項７または請求項１０記載の認識語彙取得ステップに対応し、ステップＳ５０２は、請求項７または請求項１０記載のセグメント系列生成ステップに対応し、ステップＳ５０３〜Ｓ５０４は、請求項７または請求項１０記載の累積コスト算出ステップに対応し、ステップＳ５０４は、請求項７または請求項１０記載のテキスト発音記号変換辞書取得ステップに対応し、ステップＳ５０５は、請求項７または請求項１０記載の音声候補選択ステップに対応し、ステップＳ５０６は、請求項７または請求項１０記載の音声候補登録ステップに対応する。

なお、上述した第２の実施の形態に係る認識語彙辞書作成プログラムは、記憶部を備えた一般的なコンピュータシステムによって実行可能である。この場合、上記記憶部に格納された認識語彙辞書作成プログラムをコンピュータが実行することによって、上述した認識語彙辞書作成動作が行われる。なお、上記認識語彙辞書作成プログラムは、通信媒体を介してコンピュータシステムに供給されてもかまわない。また、光ディスク等の記憶媒体に上記認識語彙辞書作成プログラムを記録し、当該記録媒体に記録された認識語彙辞書作成プログラムをコンピュータシステムで読み込んでもかまわない。

〔第３の実施の形態〕
次に、本発明の第３の実施の形態を図面に基づき説明する。図９は、本発明に係る音声認識装置の実施の形態を示す図である。本実施の形態の音声認識装置９００は、先に述べた本実施の形態の認識語彙辞書作成装置４００によって作成した認識語彙辞書９３を備えて音声認識を行う。
図９に示すように、音声認識装置９００は、入力音声を入力する音声入力部９０、入力された音声から特徴量の時系列を抽出する特徴量抽出部９１、音響モデルを記憶する音響モデル記憶部９２、音声候補を記憶する認識語彙辞書９３、パターンマッチングを行う照合部９４、入力音声の認識結果候補を出力する認識結果出力部９５、音声認識装置に制御信号を入力するための操作部９６を備えている。

音声入力部９０は、図示しないマイク等でユーザが入力した音声に対してＡ／Ｄ変換を行う。特徴量抽出部９１は、入力音声から特徴量の時系列を抽出する。音響モデル記憶部９２は、例えば連続分布型のＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）により表現された音響モデルを記憶する。なお、音響モデルは多数の話者の音声データを用いて全ての音素ごとに作成される。

認識語彙辞書９３は、通常セグメントと拡張セグメントとが図７のように混在した認識語彙辞書作成装置によって作成される。例えば、拡張セグメントには文字列「ｕｐ」と「ｈａｌｌ」とが含まれる。照合部９４は、認識語彙辞書９３に記憶されている音声候補ごとに、その音声候補の音素表記（発音記号）にしたがって音響モデルを連結して音声パターンモデルを生成する一方、特徴量抽出部９１から特徴量の時系列を受けると、その特徴量の時系列と、予め生成した複数の音声候補に係る音声パターンモデルとのパターンマッチングによって音声候補の音響尤度を求め、音響尤度が上位の複数個の音声候補を入力音声の認識結果候補とする。

認識結果出力部９５は、照合部９４のパターンマッチングによって認識結果候補が得られた場合、複数の音声候補に対応する複数の単語を図示しないディスプレイ等に出力するものである。操作部９６は、出力された複数の単語のいずれかを選択する操作や音声認識装置に音声認識の開始、停止を指示する。あるいは、認識結果や認識結果に基づいて実行された演算処理の結果に基づいて、ユーザが次の指示をするための操作に使用される。

次に、本実施の形態を具体的に説明する。
まず、ユーザが図示しないマイクに向けて発声すると、音声入力部９０は、マイクに入力された入力音声に対してＡ／Ｄ変換を行う。
特徴量抽出部９１は、入力音声のデジタル信号に対して分析を行い、例えば、ＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）等の特徴量の時系列を抽出する。

照合部９４は、予め認識語彙辞書９３に記憶されている音声候補ごとに、その音声候補の音素表記（発音記号）にしたがって、音響モデル記憶部９２に記憶された音響モデルを連結して音声パターンモデル（特徴量の時系列パターンをモデル化した音声パターンモデル）を生成する。そして、特徴量抽出部９１が抽出した特徴量の時系列が入力されると、例えば、ビタビアルゴリズムを用いて、その特徴量の時系列と音声候補ごとの音声パターンモデルとのパターンマッチングによって音声候補の音響尤度を求める。例えば、単語「ｕｐｈａｌｌ」が認識対象として認識語彙辞書９３に登録されている場合に、ユーザが単語「ｕｐｈａｌｌ」を発声すると、認識語彙辞書９３に記憶されている音声候補／ａｐｈａｌ／、／ａｐｆａｌ／、／ｕｆｏｌ／、／ｕｐｈｏｌ／、／ａｐｈｏｌ／等に対応する音声パターンモデルと、入力音声から抽出された特徴量の時系列とのパターンマッチングが行われる。

拡張セグメントである文字列「ｕｐ」と「ｈａｌｌ」に対応する音声候補／ａｐｈｏｌ／が認識語彙辞書９３に記憶されているので、ユーザが発音記号／ａｐｈｏｌ／と発音しても音響尤度が高くなり、認識結果候補の中に音声候補／ａｐｈｏｌ／が含まれる。
認識結果出力部９５は、照合部９４で得られた認識結果候補をディスプレイ等に出力する。ユーザが発音記号／ｕｆｏｌ／と／ａｐｈｏｌ／のいずれを発音しても単語「ｕｐｈａｌｌ」が認識結果候補となる。

ユーザは、操作部９６を操作して認識結果候補の中から単語「ｕｐｈａｌｌ」を選択する。音声認識装置９００の認識結果は、例えば、カーナビゲーション装置の地図検索機能等に入力される。このような場合、地図検索機能は、単語「ｕｐｈａｌｌ」が地名として入力されたとし、単語「ｕｐｈａｌｌ」が示す地点の緯度や経度の情報を抽出する等の制御を行う。

上記第３の実施の形態において、認識語彙辞書９３は、請求項４記載の認識語彙辞書作成装置で作成された認識語彙辞書に対応する。
なお、上述した第３の実施の形態に係る音声認識プログラムは、記憶部を備えた一般的なコンピュータシステムによって実行可能である。この場合、上記記憶部に格納された音声認識プログラムをコンピュータが実行することによって、上述した音声認識動作が行われる。なお、上記音声認識プログラムは、通信媒体を介してコンピュータシステムに供給されてもかまわない。また、光ディスク等の記憶媒体に上記音声認識プログラムを記録し、当該記録媒体に記録された音声認識プログラムをコンピュータシステムで読み込んでもかまわない。

本発明は、大規模な学習データから求めた統計値に基づいて作成したテキスト発音記号変換辞書を用いることによって、単語が発音された場合に発音される可能性が高い発音記号列を精度よく生成するので、音声認識のための認識語彙辞書を作成するために利用可能である。

本発明の第１の実施の形態のテキスト発音記号変換辞書作成装置１００の構成を示すブロック図である。本発明の第１の実施の形態のテキスト発音記号変換辞書作成装置１００におけるテキスト発音記号変換辞書の作成処理を示すフローチャートである。図２に示したテキスト発音記号変換辞書作成装置１００の動作を説明するための図である。本発明の認識語彙辞書作成装置４００の構成を示すブロック図である。図４に示した認識語彙辞書作成装置４００における認識語彙辞書の作成処理を示すフローチャートである。図４に示した累積コスト算出部の動作を説明するための図である。本発明の第２の実施の形態の累積コストのしきい値設定する例を説明するための図である。本発明の第２の実施の形態の連接する複数の発音記号に対応するセグメントを設定した例を説明するための図である。本発明の第３の実施の形態の音声認識装置９００の構成を示すブロック図である。従来の綴り―発音記号変換方法で用いられる単語辞書の例を説明するための図である。従来の綴り―発音記号変換方法で用いられるルールの例を説明するための図である。

符号の説明

１００テキスト発音記号変換辞書作成装置
４００認識語彙辞書作成装置
９００音声認識装置
１０学習データ記憶部
１１学習データ取得部
１２出現頻度カウンタ
１３生起確率算出部
１４接続確率算出部
１５テキスト発音記号変換辞書保存部
１６メモリ
４０第1認識語彙辞書記憶部
４１第２認識語彙辞書記憶部
４２テキスト発音記号変換辞書記憶部
４３認識語彙取得部
４４セグメント系列生成部
４５累積コスト算出部
４６音声候補選択部
４７音声候補登録部
９０音声入力部
９１特徴量抽出部
９２音響モデル記憶部
９３認識語彙辞書
９４照合部
９５認識結果出力部
９６操作部

Claims

テキストから発音記号への変換に用いられるテキスト発音記号変換辞書を作成するテキスト発音記号変換辞書作成装置であって、
単語と、当該単語をセグメントに分割したセグメント分割情報と、当該セグメントごとの発音記号と、を含むデータを学習データとして記憶する学習データ記憶手段と、
前記学習データから、前記単語と、前記セグメント分割情報と、前記セグメントごとの発音記号と、を取得する学習データ取得手段と、
前記学習データ取得手段によって取得された前記セグメント分割情報と、前記セグメントごとの発音記号から、セグメントの名前と当該セグメントの名前に対応する発音記号との組である音韻セグメント対を生成し、前記学習データにおいて当該音韻セグメント対が出現する頻度に基づいて生起確率を算出する生起確率算出手段と、
単語内において連接する音韻セグメント対の系列である連接音韻セグメント対系列が、前記学習データにおいて出現する頻度に基づいて接続確率を算出する接続確率算出手段と、
前記生起確率算出手段によって算出された音韻セグメント対ごとの生起確率と、前記接続確率算出手段によって算出された連接音韻セグメント対系列ごとの接続確率とを含むテキスト発音記号変換辞書を保存するテキスト発音記号変換辞書保存手段と、
を備えることを特徴とするテキスト発音記号変換辞書作成装置。
前記セグメントは、１つの音素に対応することを特徴とする請求項１に記載のテキスト発音記号変換辞書作成装置。
前記セグメントは、１つの音素に対応するセグメントと、連接した複数の音素に対応するセグメントから構成されることを特徴とする請求項１に記載のテキスト発音記号変換辞書作成装置。
音声を認識するために用いられる認識語彙辞書を作成する認識語彙辞書作成装置であって、
請求項１乃至請求項３のいずれか１項に記載のテキスト発音記号変換辞書作成装置で作成されたテキスト発音記号変換辞書を記憶するテキスト発音記号変換辞書記憶手段と、
音声認識の対象である認識語彙が登録された認識語彙辞書を記憶する認識語彙辞書記憶手段と、
前記認識語彙辞書に登録された認識語彙を取得する認識語彙取得手段と、
前記テキスト発音記号変換辞書を参照することで前記取得した認識語彙をセグメントに分割し、セグメントの系列であるセグメント系列を生成するセグメント系列生成手段と、
前記セグメント系列生成手段で生成されたセグメント系列から、音韻セグメント対の系列である音韻セグメント対系列を生成し、前記テキスト発音記号変換辞書を参照することで当該音韻セグメント対系列ごとに累積コストを算出する累積コスト算出手段と、
前記累積コスト算出手段で算出した累積コストに基づいて前記音韻セグメント対系列の中から上位の音韻セグメント対系列を音韻セグメント対系列候補として選択する音声候補選択手段と、
前記音声候補選択手段で選択した音韻セグメント対系列候補に対応する発音記号の系列を、前記認識語彙辞書に登録する音声候補登録手段と、を備え、
前記累積コスト算出手段は、前記音韻セグメント対系列における前記音韻セグメント対の前記生起確率と、前記連接音韻セグメント対系列の前記接続確率とに基づいて累積コストを算出することを特徴とする認識語彙辞書作成装置。
請求項４に記載の認識語彙辞書作成装置で作成された認識語彙辞書に基づき音声を認識することを特徴とする音声認識装置。
コンピュータに、テキストから発音記号への変換に用いられるテキスト発音記号変換辞書の作成を実行させるためのテキスト発音記号変換辞書作成プログラムであって、
単語と、当該単語をセグメントに分割したセグメント分割情報と、当該セグメントごとの発音記号と、を含む学習データを記憶した学習データ記憶手段から、前記単語と、前記セグメント分割情報と、前記セグメントごとの発音記号と、を取得する学習データ取得ステップと、
前記学習データ取得ステップによって取得された前記セグメント分割情報と、前記セグメントごとの発音記号から、セグメントの名前と当該セグメントの名前に対応する発音記号との組である音韻セグメント対を生成し、前記学習データにおいて当該音韻セグメント対が出現する頻度に基づいて生起確率を算出する生起確率算出ステップと、
単語内において連接する音韻セグメント対の系列である連接音韻セグメント対系列が、前記学習データにおいて出現する頻度に基づいて接続確率を算出する接続確率算出ステップと、
前記生起確率算出ステップによって算出された音韻セグメント対ごとの生起確率と、前記接続確率算出ステップによって算出された連接音韻セグメント対系列ごとの接続確率とを含むテキスト発音記号変換辞書を保存するテキスト発音記号変換辞書保存ステップと、を含むことを特徴とするテキスト発音記号変換辞書作成プログラム。
コンピュータに、音声を認識するために用いられる認識語彙辞書の作成を実行させるための認識語彙辞書作成プログラムであって、
請求項６に記載のテキスト発音記号変換辞書作成プログラムで作成されたテキスト発音記号変換辞書を記憶するテキスト発音記号変換辞書記憶手段から当該テキスト発音記号変換辞書を取得するテキスト発音記号変換辞書取得ステップと、
音声認識の対象である認識語彙が登録された認識語彙辞書を記憶する認識語彙辞書記憶ステップと、
前記認識語彙辞書に登録された認識語彙を取得する認識語彙取得ステップと、
前記テキスト発音記号変換辞書取得ステップで取得した前記テキスト発音記号変換辞書を参照することで前記取得した認識語彙をセグメントに分割し、セグメントの系列であるセグメント系列を生成するセグメント系列生成ステップと、
前記セグメント系列生成手段で生成されたセグメント系列から、音韻セグメント対の系列である音韻セグメント対系列を生成し、前記テキスト発音記号変換辞書を参照することで当該音韻セグメント対系列ごとに累積コストを算出する累積コスト算出ステップと、
前記累積コスト算出ステップで算出した累積コストに基づいて前記音韻セグメント対系列の中から上位の音韻セグメント対系列を音韻セグメント対系列候補として選択する音声候補選択ステップと、
前記音声候補選択ステップで選択した音韻セグメント対系列候補に対応する発音記号の系列を、前記認識語彙辞書に登録する音声候補登録ステップと、を含み、
前記累積コスト算出ステップは、前記音韻セグメント対系列における前記音韻セグメント対の前記生起確率と、前記連接音韻セグメント対系列の前記接続確率とに基づいて累積コストを算出するステップを含むことを特徴とする認識語彙辞書作成プログラム。
コンピュータに、請求項７に記載の認識語彙辞書作成プログラムで作成された認識語彙辞書に基づいて音声を認識するステップを含む処理を実行させることを特徴とする音声認識プログラム。
テキストから発音記号への変換に用いられるテキスト発音記号変換辞書を作成するテキスト発音記号変換辞書作成方法であって、
単語と、当該単語をセグメントに分割したセグメント分割情報と、当該セグメントごとの発音記号と、を含む学習データを記憶した学習データ記憶手段から、前記単語と、前記セグメント分割情報と、前記セグメントごとの発音記号と、を取得する学習データ取得ステップと、
前記学習データ取得ステップによって取得された前記セグメント分割情報と、前記セグメントごとの発音記号から、セグメントの名前と当該セグメントの名前に対応する発音記号との組である音韻セグメント対を生成し、前記学習データにおいて当該音韻セグメント対が出現する頻度に基づいて生起確率を算出する生起確率算出ステップと、
単語内において連接する音韻セグメント対の系列である連接音韻セグメント対系列が、前記学習データにおいて出現する頻度に基づいて接続確率を算出する接続確率算出ステップと、
前記生起確率算出ステップによって算出された音韻セグメント対ごとの生起確率と、前記接続確率算出ステップによって算出された連接音韻セグメント対系列ごとの接続確率とを含むテキスト発音記号変換辞書を保存するテキスト発音記号変換辞書保存ステップと、
を含むことを特徴とするテキスト発音記号変換辞書作成方法。
音声を認識するために用いられる認識語彙辞書を作成する認識語彙辞書作成方法であって、
請求項９に記載のテキスト発音記号変換辞書作成方法で作成されたテキスト発音記号変換辞書を記憶するテキスト発音記号変換辞書記憶手段から当該テキスト発音記号変換辞書を取得するテキスト発音記号変換辞書取得ステップと、
音声認識の対象である認識語彙が登録された認識語彙辞書を記憶する認識語彙辞書記憶ステップと、
前記認識語彙辞書に登録された認識語彙を取得する認識語彙取得ステップと、
前記テキスト発音記号変換辞書取得ステップで取得した前記テキスト発音記号変換辞書を参照することで前記取得した認識語彙をセグメントに分割し、セグメントの系列であるセグメント系列を生成するセグメント系列生成ステップと、
前記セグメント系列生成手段で生成されたセグメント系列から、音韻セグメント対の系列である音韻セグメント対系列を生成し、前記テキスト発音記号変換辞書を参照することで当該音韻セグメント対系列ごとに累積コストを算出する累積コスト算出ステップと、
前記累積コスト算出ステップで算出した累積コストに基づいて前記音韻セグメント対系列の中から上位の音韻セグメント対系列を音韻セグメント対系列候補として選択する音声候補選択ステップと、
前記音声候補選択ステップで選択した音韻セグメント対系列候補に対応する発音記号の系列を、前記認識語彙辞書に登録する音声候補登録ステップと、を含み、
前記累積コスト算出ステップは、前記音韻セグメント対系列における前記音韻セグメント対の前記生起確率と、前記連接音韻セグメント対系列の前記接続確率とに基づいて累積コストを算出することを特徴とする認識語彙辞書作成方法。
請求項１０に記載の認識語彙辞書作成方法で作成された認識語彙辞書に基づいて音声を認識するステップを含むことを特徴とする音声認識方法。