JP2008275731A - テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置 - Google Patents

テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置 Download PDF

Info

Publication number
JP2008275731A
JP2008275731A JP2007116607A JP2007116607A JP2008275731A JP 2008275731 A JP2008275731 A JP 2008275731A JP 2007116607 A JP2007116607 A JP 2007116607A JP 2007116607 A JP2007116607 A JP 2007116607A JP 2008275731 A JP2008275731 A JP 2008275731A
Authority
JP
Japan
Prior art keywords
segment
phonetic symbol
sequence
dictionary
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007116607A
Other languages
English (en)
Other versions
JP4769223B2 (ja
Inventor
Hironori Yoshida
浩範 吉田
Toshiyuki Miyazaki
敏幸 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asahi Kasei Corp
Original Assignee
Asahi Kasei Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Corp filed Critical Asahi Kasei Corp
Priority to JP2007116607A priority Critical patent/JP4769223B2/ja
Publication of JP2008275731A publication Critical patent/JP2008275731A/ja
Application granted granted Critical
Publication of JP4769223B2 publication Critical patent/JP4769223B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】単語が発音された場合に発音される可能性の高い発音記号列を精度よく生成するためのテキスト発音記号変換辞書を作成することができるテキスト発音記号変換辞書作成装置を提供する。
【解決手段】テキスト発音記号変換辞書作成装置において、単語と当該単語をセグメントに分割したセグメント分割情報と当該セグメントごとの発音記号とを学習データから取得し、学習データにおける音韻セグメント対の生起確率と連接音韻セグメント対系列の接続確率とを算出し、算出したこれらの確率を含むテキスト発音記号変換辞書を作成する。
【選択図】 図1

Description

本発明は、テキスト発音記号変換辞書作成装置、テキスト発音記号変換辞書作成プログラム、テキスト発音記号変換辞書作成方法、作成したテキスト発音記号変換辞書を用いた認識語彙辞書作成装置、認識語彙辞書作成プログラム、認識語彙辞書作成方法、音声認識装置、音声認識プログラム、音声認識方法に関する。
任意の単語や文章の入力(テキスト)を音声に変換して出力する音声合成装置では、文章入力を発音記号列に変換する綴り―発音記号変換が行われる。従来の綴り―発音記号変換方法として、第1に、単語辞書に基づく方法がある。例えば、単語等の文字列の各々を発音記号列に対応付けて単語辞書として保存しておくことが考えられる。単語辞書の例を図10に示す。図示したように、単語辞書は、単語「abaca」を検索してこれに対応する発音記号列/abaka/を特定することができる。なお、発音記号であることの表記として、/で囲まれた文字を本明細書では以降用いる。
第2の従来の綴り―発音記号変換方法として、ルールに基づく方法がある。例えば、文字の配列に関するルールが使用される。ルールの例として図11に示すように、文字列の先頭にある「a」は/a/と発音され、「abe」と文字列が配列された場合の「a」は/e/と発音されることが規定される。さらに、「aben」と文字列が配列された場合の「a」は/o/と発音されることが規定される。
これらの綴り―発音記号変換方法の従来技術として、書き文字を音声の最小単位(音素)に変換するGrapheme To Phoneme(G2P)と呼ばれる技術が、非特許文献1に記載されている。
An Introduction to Text-to-Speech Synthesis:(KLUWER ACADWMIC PABLISHERS :by Thierry Dutoit)
綴り―発音記号変換方法は音声合成装置のみならず、音声認識装置においても用いられる場合がある。このような音声認識装置の例として、ユーザ自身によって電話帳データに登録された相手先名を、音声認識によって選択可能とする機能を持つ携帯電話機等が挙げられる。相手先名を認識対象語彙とするためには、相手先名の綴りから発音記号列を生成することが必要となる。
上述した単語辞書に基づく綴り―発音記号変換方法では、認識対象語彙と一致する単語が単語辞書に登録されていない場合には発音記号列を得ることができない。また、多くの単語に対して発音記号列を得るためには、単語辞書に登録する単語数を増やす必要があり単語辞書が大型化するという問題点もあった。
一方、上述したルールに基づく綴り―発音記号変換方法では、入力された任意の単語に対して何らかの発音記号が得られるが、出力された発音記号列の精度を高めるためには、複雑なルールを用いる必要があり、このルールを記憶するための記憶領域が増大することになる。また、ルールが複雑であるため、入力された単語から発音記号列を出力するための処理量も増大するという問題点もあった。
さらに、入力された単語に対して出力された発音記号列の確からしさを示す指標が存在しないため、1つの単語に対して得られた複数の発音記号列候補の中から所定数の発音記号列を選択する場合に、上位の確からしい発音記号列を選択することが困難であるという問題点もあった。
本発明は、このような点に鑑みてなされたものであって、単語が発音された場合に発音される可能性の高い発音記号列を精度よく生成するためのテキスト発音記号変換辞書を作成するテキスト発音記号変換辞書装置、当該テキスト発音記号変換辞書を用いて認識語彙辞書を作成する認識語彙辞書作成装置、及び当該認識語彙辞書を用いて音声を高い認識率で認識する音声認識装置を提供することを目的とする。また、発音記号列とともに、その確からしさを示す指標を出力することも目的とする。
以上の課題を解決するため、本発明の請求項1に記載のテキスト発音記号変換辞書作成装置は、テキストから発音記号への変換に用いられるテキスト発音記号変換辞書を作成するテキスト発音記号変換辞書作成装置であって、単語と、当該単語をセグメントに分割したセグメント分割情報と、当該セグメントごとの発音記号と、を含むデータを学習データとして記憶する学習データ記憶手段と、前記学習データから、前記単語と、前記セグメント分割情報と、前記セグメントごとの発音記号と、を取得する学習データ取得手段と、前記学習データ取得手段によって取得された前記セグメント分割情報と、前記セグメントごとの発音記号から、セグメントの名前と当該セグメントの名前に対応する発音記号との組である音韻セグメント対を生成し、前記学習データにおいて当該音韻セグメント対が出現する頻度に基づいて生起確率を算出する生起確率算出手段と、単語内において連接する音韻セグメント対の系列である連接音韻セグメント対系列が、前記学習データにおいて出現する頻度に基づいて接続確率を算出する接続確率算出手段と、前記生起確率算出手段によって算出された音韻セグメント対ごとの生起確率と、前記接続確率算出手段によって算出された連接音韻セグメント対系列ごとの接続確率とを含むテキスト発音記号変換辞書を保存するテキスト発音記号変換辞書保存手段と、を備えることを特徴とする
また、請求項2に記載のテキスト発音記号変換辞書作成装置は、請求項1に記載のテキスト発音記号変換辞書作成装置において、前記セグメントが、1つの音素に対応することを特徴とする。
また、請求項3に記載のテキスト発音記号変換辞書作成装置は、請求項1に記載のテキスト発音記号変換辞書作成装置において、前記セグメントが、1つの音素に対応するセグメントと、連接した複数の音素に対応するセグメントから構成されることを特徴とする。
また、請求項4に記載の認識語彙辞書作成装置は、音声を認識するために用いられる認識語彙辞書を作成する認識語彙辞書作成装置であって、請求項1乃至請求項3のいずれか1項に記載のテキスト発音記号変換辞書作成装置で作成されたテキスト発音記号変換辞書を記憶するテキスト発音記号変換辞書記憶手段と、音声認識の対象である認識語彙が登録された認識語彙辞書を記憶する認識語彙辞書記憶手段と、前記認識語彙辞書に登録された認識語彙を取得する認識語彙取得手段と、前記テキスト発音記号変換辞書を参照することで前記取得した認識語彙をセグメントに分割し、セグメントの系列であるセグメント系列を生成するセグメント系列生成手段と、前記セグメント系列生成手段で生成されたセグメント系列から、音韻セグメント対の系列である音韻セグメント対系列を生成し、前記テキスト発音記号変換辞書を参照することで当該音韻セグメント対系列ごとに累積コストを算出する累積コスト算出手段と、前記累積コスト算出手段で算出した累積コストに基づいて前記音韻セグメント対系列の中から上位の音韻セグメント対系列を音韻セグメント対系列候補として選択する音声候補選択手段と、前記音声候補選択手段で選択した音韻セグメント対系列候補に対応する発音記号の系列を、前記認識語彙辞書に登録する音声候補登録手段と、を備え、前記累積コスト算出手段は、前記音韻セグメント対系列における前記音韻セグメント対の前記生起確率と、前記連接音韻セグメント対系列の前記接続確率とに基づいて累積コストを算出することを特徴とする。
また、請求項5に記載の音声認識装置は、請求項4に記載の認識語彙辞書作成装置で作成された認識語彙辞書に基づき音声を認識することを特徴とする。
また、請求項6に記載のテキスト発音記号変換辞書作成プログラムは、コンピュータに、テキストから発音記号への変換に用いられるテキスト発音記号変換辞書の作成を実行させるためのテキスト発音記号変換辞書作成プログラムであって、単語と、当該単語をセグメントに分割したセグメント分割情報と、当該セグメントごとの発音記号と、を含む学習データを記憶した学習データ記憶手段から、前記単語と、前記セグメント分割情報と、前記セグメントごとの発音記号と、を取得する学習データ取得ステップと、前記学習データ取得ステップによって取得された前記セグメント分割情報と、前記セグメントごとの発音記号から、セグメントの名前と当該セグメントの名前に対応する発音記号との組である音韻セグメント対を生成し、前記学習データにおいて当該音韻セグメント対が出現する頻度に基づいて生起確率を算出する生起確率算出ステップと、単語内において連接する音韻セグメント対の系列である連接音韻セグメント対系列が、前記学習データにおいて出現する頻度に基づいて接続確率を算出する接続確率算出ステップと、前記生起確率算出ステップによって算出された音韻セグメント対ごとの生起確率と、前記接続確率算出ステップによって算出された連接音韻セグメント対系列ごとの接続確率とを含むテキスト発音記号変換辞書を保存するテキスト発音記号変換辞書保存ステップと、を含むことを特徴とする。
また、請求項7に記載の認識語彙辞書作成プログラムは、コンピュータに、音声を認識するために用いられる認識語彙辞書の作成を実行させるための認識語彙辞書作成プログラムであって、請求項6に記載のテキスト発音記号変換辞書作成プログラムで作成されたテキスト発音記号変換辞書を記憶するテキスト発音記号変換辞書記憶手段から当該テキスト発音記号変換辞書を取得するテキスト発音記号変換辞書取得ステップと、音声認識の対象である認識語彙が登録された認識語彙辞書を記憶する認識語彙辞書記憶ステップと、前記認識語彙辞書に登録された認識語彙を取得する認識語彙取得ステップと、前記テキスト発音記号変換辞書取得ステップで取得した前記テキスト発音記号変換辞書を参照することで前記取得した認識語彙をセグメントに分割し、セグメントの系列であるセグメント系列を生成するセグメント系列生成ステップと、前記セグメント系列生成手段で生成されたセグメント系列から、音韻セグメント対の系列である音韻セグメント対系列を生成し、前記テキスト発音記号変換辞書を参照することで当該音韻セグメント対系列ごとに累積コストを算出する累積コスト算出ステップと、前記累積コスト算出ステップで算出した累積コストに基づいて前記音韻セグメント対系列の中から上位の音韻セグメント対系列を音韻セグメント対系列候補として選択する音声候補選択ステップと、前記音声候補選択ステップで選択した音韻セグメント対系列候補に対応する発音記号の系列を、前記認識語彙辞書に登録する音声候補登録ステップと、を含み、前記累積コスト算出ステップは、前記音韻セグメント対系列における前記音韻セグメント対の前記生起確率と、前記連接音韻セグメント対系列の前記接続確率とに基づいて累積コストを算出するステップを含むことを特徴とする。
また、請求項8に記載の音声認識プログラムは、コンピュータに、請求項7に記載の認識語彙辞書作成プログラムで作成された認識語彙辞書に基づいて音声を認識するステップを含む処理を実行させることを特徴とする。
また、請求項9に記載のテキスト発音記号変換辞書作成方法は、テキストから発音記号への変換に用いられるテキスト発音記号変換辞書を作成するテキスト発音記号変換辞書作成方法であって、単語と、当該単語をセグメントに分割したセグメント分割情報と、当該セグメントごとの発音記号と、を含む学習データを記憶した学習データ記憶手段から、前記単語と、前記セグメント分割情報と、前記セグメントごとの発音記号と、を取得する学習データ取得ステップと、前記学習データ取得ステップによって取得された前記セグメント分割情報と、前記セグメントごとの発音記号から、セグメントの名前と当該セグメントの名前に対応する発音記号との組である音韻セグメント対を生成し、前記学習データにおいて当該音韻セグメント対が出現する頻度に基づいて生起確率を算出する生起確率算出ステップと、単語内において連接する音韻セグメント対の系列である連接音韻セグメント対系列が、前記学習データにおいて出現する頻度に基づいて接続確率を算出する接続確率算出ステップと、前記生起確率算出ステップによって算出された音韻セグメント対ごとの生起確率と、前記接続確率算出ステップによって算出された連接音韻セグメント対系列ごとの接続確率と、を含むテキスト発音記号変換辞書を保存するテキスト発音記号変換辞書保存ステップと、を含むことを特徴とする。
また、請求項10に記載の認識語彙辞書作成方法は、音声を認識するために用いられる認識語彙辞書を作成する認識語彙辞書作成方法であって、請求項9に記載のテキスト発音記号変換辞書作成方法で作成されたテキスト発音記号変換辞書を記憶するテキスト発音記号変換辞書記憶手段から当該テキスト発音記号変換辞書を取得するテキスト発音記号変換辞書取得ステップと、音声認識の対象である認識語彙が登録された認識語彙辞書を記憶する認識語彙辞書記憶ステップと、前記認識語彙辞書に登録された認識語彙を取得する認識語彙取得ステップと、前記テキスト発音記号変換辞書取得ステップで取得した前記テキスト発音記号変換辞書を参照することで前記取得した認識語彙をセグメントに分割し、セグメントの系列であるセグメント系列を生成するセグメント系列生成ステップと、前記セグメント系列生成手段で生成されたセグメント系列から、音韻セグメント対の系列である音韻セグメント対系列を生成し、前記テキスト発音記号変換辞書を参照することで当該音韻セグメント対系列ごとに累積コストを算出する累積コスト算出ステップと、前記累積コスト算出ステップで算出した累積コストに基づいて前記音韻セグメント対系列の中から上位の音韻セグメント対系列を音韻セグメント対系列候補として選択する音声候補選択ステップと、前記音声候補選択ステップで選択した音韻セグメント対系列候補に対応する発音記号の系列を、前記認識語彙辞書に登録する音声候補登録ステップと、を備え、前記累積コスト算出ステップは、前記音韻セグメント対系列における前記音韻セグメント対の前記生起確率と、前記連接音韻セグメント対系列の前記接続確率とに基づいて累積コストを算出することを特徴とする。
また、請求項11に記載の音声認識方法は、請求項10に記載の認識語彙辞書作成方法で作成された認識語彙辞書に基づいて音声を認識するステップを含むことを特徴とする。
本発明に係る請求項1に記載のテキスト発音記号変換辞書作成装置、請求項6に記載のテキスト発音記号変換辞書作成プログラム、並びに請求項9に記載のテキスト発音記号変換辞書作成方法によれば、音韻セグメント対ごとの出現頻度に基づいて算出した生起確率と、音韻セグメント対の連接パターンに対する尤もらしさを表す連接音韻セグメント対系列の接続確率とを、大規模な学習データから求めてテキスト発音記号変換辞書に設定する。これによって、統計値に基づいた生起確率と接続確率とが得られるので、テキストから発音記号への変換において、このテキスト発音記号変換辞書を用いることによって、単語が発音された場合に発音される可能性が高い発音記号列を精度よく生成することができる。また、テキスト発音記号変換辞書の大きさに応じて、上位の生起確率値と接続確率値を選択することにより、重要度の高い統計値をテキスト発音記号変換辞書に設定することができる。
本発明に係る請求項2に記載のテキスト発音記号変換辞書作成装置によれば、セグメントとして音素を用いるので、一般的な辞書で使用されている発音記号から容易に学習データとして音素を抽出することができる。
本発明に係る請求項3に記載のテキスト発音記号変換辞書作成装置によれば、セグメントとして1つの音素に対応するセグメントのみならず、連接する複数の音素に対応するセグメントも用いるので、単語等であるセグメントに関する生起確率値と接続確率値をテキスト発音記号変換辞書に設定することができる。これによって、テキストから発音記号への変換において、このテキスト発音記号変換辞書を用いることで、既知の単語の発音記号に基づいた発音記号を生成することができる。したがって、ユーザにとって発音が未知の単語であって、その単語が複数の既知の単語が接続されているとみなされるものについては、この既知の単語を意識して発音する可能性が高いので、テキストから発音記号への変換の精度が高くなる。
本発明に係る請求項4に記載の認識語彙辞書作成装置、請求項7に記載の認識語彙辞書作成プログラム、並びに請求項10に記載の認識語彙辞書作成方法によれば、音韻セグメント対ごとの出現頻度に基づいて算出した生起確率と、音韻セグメント対の連接パターンに対する尤もらしさを表す連接音韻セグメント対系列の接続確率とが、大規模な学習データから求められてテキスト発音記号変換辞書に設定されているので、このテキスト発音記号変換辞書を用いて単語が発音された場合に発音される可能性が高い発音記号列を精度よく生成し認識語彙辞書に登録することができる。また、生成された発音記号列に対応する累積コストの値によって、その発音記号列の確からしさを判定することができるので、発音記号列の候補の中から柔軟に認識語彙辞書に登録する発音記号列を選択することが可能となる。
本発明に係る請求項5に記載の音声認識装置、請求項8に記載の音声認識プログラム、並びに請求項11に記載の音声認識方法によれば、大規模な学習データから求められた統計値に基づいて作成されたテキスト発音記号変換辞書を用いることによって、単語が発音された場合に発音される可能性が高い発音記号列が精度よく生成されて認識語彙辞書に登録されているので、音声認識の認識精度を向上させることができる。
〔第1の実施の形態〕
以下、本発明の第1の実施の形態を図面に基づき説明する。図1〜図3は、本発明に係るテキスト発音記号変換辞書作成装置、テキスト発音記号変換辞書作成プログラム、及びテキスト発音記号変換辞書作成方法の実施の形態を示す図である。
まず、本発明に係るテキスト発音記号変換辞書作成装置の構成を、図1に基づき説明する。図1は、本発明に係るテキスト発音記号変換辞書作成装置100の構成を示すブロック図である。
学習データ記憶部10は、文字列で表記された単語と、各単語をセグメントに分割したセグメント分割情報と、各セグメントに対応する発音記号とを含むデータを学習データとして記憶する。ここで、セグメントとは、単語のテキスト(文字列)の一部であり、1つ以上の連続した発音記号に対応するものを意味する。本実施の形態では、単語「abaca」および単語「abacule」を構成する「a」、「b」、「c」、「u」、「le」といった1つの発音記号に対応する文字をセグメントとした。また、発音記号として音素表記を用いる。
学習データ取得部11は、学習データ記憶部10に記憶された学習データから、単語と、セグメント分割情報と、各セグメントに対応する発音記号とを取得する。
出現頻度カウンタ12は、セグメントに対応する音素とセグメントの組(以下、音韻セグメント対と記す。)が学習データに出現する頻度をカウントしてメモリ16に保存する。また、各セグメントが学習データに出現する頻度をカウントしてメモリ16に保存する。学習データの全ての単語に対する処理が終了した時点で、各音韻セグメント対の出現頻度と、各セグメントの出現頻度である各トータル頻度とが確定し、メモリ16に保存される。
生起確率算出部13は、音韻セグメント対の出現頻度を、当該音韻セグメント対に含まれるセグメントに対応するトータル頻度で除算することにより、音韻セグメント対ごとに生起確率を算出しメモリ16に保存する。
接続確率算出部14は、単語内において連接する音韻セグメント対の系列である連接音韻セグメント対系列が学習データに出現する頻度をカウントしてメモリ16に保存する。学習データの全ての単語に対する処理が終了した時点で、連接音韻セグメント対系列ごとの出現頻度が確定し、メモリ16に保存される。そして、連接音韻セグメント対系列の中の先行音韻セグメント対が有するトータル出現頻度で、連接音韻セグメント対系列の出現頻度を除算することにより、連接音韻セグメント対系列ごとに接続確率を算出しメモリ16に保存する。
テキスト発音記号変換辞書保存部15は、音韻セグメント対ごとに算出された生起確率と、連接音韻セグメント対系列ごとに算出された接続確率とをメモリ16から読み出し、テキスト発音記号変換辞書として保存する。
次に、図2に基づき、このような構成をしたテキスト発音記号変換辞書作成装置100におけるテキスト発音記号変換辞書の作成処理の流れを説明する。図2は、テキスト発音記号変換辞書作成装置100において実行される、テキスト発音記号変換辞書の作成方法を説明するためのフローチャートである。
テキスト発音記号変換辞書の作成処理は、図2のフローチャートに示すように、まずステップS201に移行し、学習データ取得部11において、学習データ記憶部10に記憶された学習データから、単語と、セグメント分割情報と、各セグメントに対応する発音記号とを取得し、ステップS202に移行する。
ステップS202では、出現頻度カウンタ12において、学習データの全ての単語に対する処理が終了したか否かを判定し、処理が終了したと判定された場合(Yes)はステップS205に移行し、そうでない場合(No)はステップS203に移行する。
ステップS203に移行した場合は、出現頻度カウンタ12は、各音韻セグメント対が学習データに出現する頻度をカウントしてメモリ16に保存する。また、各セグメントが学習データに出現する頻度をカウントしてメモリ16に保存し、ステップS204に移行する。
ステップS204では、接続確率算出部14において、単語内において連接する音韻セグメント対の系列である連接音韻セグメント対系列が学習データに出現する頻度をカウントしてメモリ16に保存してステップS201に移行する。
ステップS205に移行した場合は、生起確率算出部13において、音韻セグメント対の出現頻度を、当該音韻セグメント対に含まれるセグメントに対応するトータル頻度で除算することにより、音韻セグメント対ごとに生起確率を算出しメモリ16に保存して、ステップS206に移行する。
ステップS206では、接続確率算出部14において、連接音韻セグメント対系列の中の先行音韻セグメント対が有するトータル出現頻度で、連接音韻セグメント対系列の出現頻度を除算することにより、連接音韻セグメント対系列ごとに接続確率を算出しメモリ16に保存して、ステップS207に移行する。
ステップS207では、テキスト発音記号変換辞書保存部15において、音韻セグメント対ごとに算出された生起確率と、連接音韻セグメント対系列ごとに算出された接続確率とをメモリ16から読み出し、テキスト発音記号変換辞書として保存して処理を終了する。
実施例1
以下、図3(a)、(b)、(c)に基づいて、テキスト発音記号変換辞書作成装置100の動作を具体的に説明する。
学習データ記憶部10に記憶された学習データは、単語の綴りとその単語の発音記号を含む一般的な辞書から抽出されたデータに基づいて生成される。本実施例においては、学習データに含まれるデータとして、図3(a)のように、例えば単語「abaca」に対するセグメント分割情報は、「(a)baca」、「a(b)aca」、「ab(a)ca」、「aba(c)a」、「abac(a)」といった情報から構成される。単語「abaca」は「a」、「b」、「a」、「c」、「a」のように5個のセグメントに分割され、単語「abacule」は「a」、「b」、「a」、「c」、「u」、「le」のように6個のセグメントに分割される。
また、各セグメントに対応する発音記号は、例えば「(a)baca→a」のように表現される。単語「abaca」を構成する5個のセグメントである「a」、「b」、「a」、「c」、「a」に対応する音素は、それぞれ/a/、/b/、/a/、/k/、/a/となる。また、単語「abacule」を構成する6個のセグメントである「a」、「b」、「a」、「c」、「u」、「le」に対応する音素はそれぞれ/a/、/b/、/a/、/k/、/y/、/l/となる。
学習データ取得部11は、学習データから、単語と、セグメント分割情報と、各セグメントに対応する発音記号とを取得する。学習データから取得した単語をセグメントに分割する。出現頻度カウンタ12は、音韻セグメント対が学習データに出現する頻度をカウントしてメモリ16に保存する。以下、発音記号「X」と発音されるセグメント「y」を、「X|y」と記す。単語「abaca」のみが処理された場合には、音韻セグメント対「a|a」、「b|b」、「k|c」の出現頻度はそれぞれ3回、1回、1回となる。
学習データの全ての単語に対する処理が終了した時点で、各音韻セグメント対の出現頻度と、各セグメントの出現頻度である各トータル頻度とが確定し、メモリ16に保存される。図3(a)の例では、音韻セグメント対「A|a」、「a|a」、「b|b」、「p|b」の出現頻度はそれぞれ1223、45142、12372、267である。
生起確率算出部13は、音韻セグメント対の出現頻度を、当該音韻セグメント対に含まれるセグメントに対応するトータル頻度で除算することにより、音韻セグメント対ごとに生起確率を算出しメモリ16に保存する。図3(a)の例では、セグメント「a」のトータル頻度は46365回である。セグメント「a」に対応する音素には、/A/と/a/の2種類があり、そして音韻セグメント対「A|a」と「a|a」が出現する頻度はそれぞれ1223回と45142回である。このとき、生起確率はそれぞれ0.03と0.97である。後述の認識語彙辞書作成装置における演算量を低減するために、生起確率の対数値を用いる。例えば、生起確率値0.03と0.97に対しては、それぞれ−3.63と−0.02が生起確率の対数値である。
接続確率算出部14は、単語内において連接する音韻セグメント対の系列である連接音韻セグメント対系列が学習データに出現する頻度をカウントしてメモリ16に保存する。単語「abaca」において、2個の連接する音韻セグメント対からなる連接音韻セグメント対系列は「a|a→b|b」、「b|b→a|a」、「a|a→k|c」、「k|c→a|a」のように4個となり、それぞれの出現頻度は1回となる。学習データ11の全ての単語に対する処理が終了した時点で、音韻セグメント対の各組の出現頻度が確定し、メモリ16に保存される。
そして、連接音韻セグメント対系列の先行音韻セグメント対が有するトータル出現頻度で、連接音韻セグメント対系列ごとの出現頻度を除算することにより、連接音韻セグメント対系列ごとに接続確率を算出しメモリ16に保存する。図3(a)に示したように、「a|a」のトータル頻度は45142回である。「a|a→b|b」が出現する頻度は2487回である。このとき、「a|a→b|b」の接続確率は0.055でありその対数値は−2.89となる。以下、生起確率と接続確率の値として対数値を用いる。
音韻セグメント対ごとの生起確率に関する情報は、図3(a)に示したように、音韻セグメント対の名前である「A|a」、「a|a」、「b|b」、「p|b」等のラベルと、音韻セグメント対ごとの生起確率である、−3.63、−0.02、−0.02、−3.85等の数値となる。そして、連接音韻セグメント対系列ごとの接続確率に関する情報は、図3(b)に示したように、連接音韻セグメント対系列の名前である「a|a→b|b」、「a|a→p|b」、「a|a→k|c」、「a|a→s|c」等のラベルと、連接音韻セグメント対の接続確率である、−2.89、−8.23、−3.18、−4.69等の数値となる。
本実施の形態は、以上述べたように、1つの発音記号に対応する文字をセグメントとする構成に限定されるものではなく、複数の発音記号によって構成される文字をセグメントとすることも可能である。複数の発音記号によって構成される文字とは、例えば、単語、接頭辞、接尾辞などである。
例えば、単語「uphall」を構成する文字列「up」と「hall」は、それぞれを1つの単語とみなすことができる。
これらの文字列をセグメントとする場合には、対応する音韻セグメント対はそれぞれ「ap|up」と「hol|hall」となる。このようなセグメントを、上述の1つの発音記号に対応する文字であるセグメントに混在させて、テキスト発音記号変換辞書を作成してもよい。こうすることにより、単語であるセグメントに関する生起確率値と接続確率値をテキスト発音記号変換辞書に設定することができるので、後述する認識語彙辞書作成装置において、既知の単語の発音記号に基づいた発音記号を生成することができる。したがって、ユーザにとって発音が未知の単語であって、その単語が複数の既知の単語が接続されているとみなされるものについては、この既知の単語を意識して発音する可能性が高いので、テキストから発音記号への変換の精度が高くなる。
なお、複数の発音記号によって構成される文字であるセグメントが、学習データに出現する頻度が少ない場合は、生起確率と接続確率をそれぞれ所定の値に設定してもよい。
テキスト発音記号変換辞書保存部15は、音韻セグメント対ごとの生起確率に関する情報と、連接音韻セグメント対系列ごとの接続確率に関する情報をテキスト発音記号変換辞書として保存する。上記第1の実施の形態において、学習データ記憶部10は、請求項1記載の学習データ記憶手段に対応し、学習データ取得部11は、請求項1記載の学習データ取得手段に対応し、出現頻度カウンタ12及び生起確率算出部13は、請求項1記載の生起確率算出手段に対応し、接続確率算出部14は、請求項1記載の接続確率算出手段に対応し、テキスト発音記号変換辞書保存部15は、請求項1記載のテキスト発音記号変換辞書保存手段に対応する。
また、上記第1の実施の形態において、ステップS201は、請求項6または請求項9記載の学習データ取得ステップに対応し、ステップS202〜S203並びにS205は、請求項6または請求項9記載の生起確率算出ステップに対応し、ステップS204並びにS206は、請求項6または請求項9記載の接続確率算出ステップに対応し、ステップS207は、請求項6または請求項9記載のテキスト発音記号変換辞書保存ステップに対応する。
なお、上述した第1の実施の形態に係るテキスト発音記号変換辞書作成プログラムは、記憶部を備えた一般的なコンピュータシステムによって実行可能である。この場合、上記記憶部に格納されたテキスト発音記号変換辞書作成プログラムをコンピュータが実行することによって、上述したテキスト発音記号変換辞書作成動作が行われる。なお、上記テキスト発音記号変換辞書作成プログラムは、通信媒体を介してコンピュータシステムに供給されてもかまわない。また、光ディスク等の記憶媒体に上記テキスト発音記号変換辞書作成プログラムを記録し、当該記録媒体に記録されたテキスト発音記号変換辞書作成プログラムをコンピュータシステムで読み込んでもかまわない。
〔第2の実施の形態〕
次に、本発明の第2の実施の形態を図面に基づき説明する。図4〜図8は、本発明に係る認識語彙辞書作成装置、認識語彙辞書作成プログラム、及び認識語彙辞書作成方法の実施の形態を示す図である。
まず、本発明に係る認識語彙辞書作成装置の構成を図4に基づき説明する。図4は、本発明に係る認識語彙辞書作成装置400を説明するブロック図である。第1認識語彙辞書記憶部40は、音声認識の対象となる認識語彙ごとに、その認識語彙の発音記号列が予め登録された第1認識語彙辞書を記憶している。第2認識語彙辞書記憶部41は、ユーザが登録した音声認識の対象となる認識語彙が保存された第2認識語彙を記憶している。第2認識語彙辞書と第1認識語彙辞書とは、認識語彙の発音記号列が第1認識語彙辞書では予め登録されているのに対し、第2認識語彙辞書では、本発明に係る認識語彙辞書作成装置によって新たに登録される点で異なる。
テキスト発音記号変換辞書記憶部42は、先に述べたテキスト発音記号変換辞書作成装置で作成されたテキスト発音記号変換辞書を記憶する。認識語彙取得部43は、第2認識語彙辞書に記憶されている認識語彙を取得する。セグメント系列生成部44は、取得された認識語彙をセグメントに分割してセグメント系列を生成する。本実施の形態では分割のために参照するセグメントのラベルとして、テキスト発音記号変換辞書に保存された音韻セグメント対のセグメントの部分を使用するが、セグメントのラベルを登録したテーブルを使用してもよい。
単語「abaca」を例にとると、5個のセグメントからなるセグメント系列{「a」,「b」,「a」,「c」,「a」}と、4個のセグメントからなるセグメント系列{「a」,「b」,「ac」,「a」}の2つのセグメント系列が生成される。
累積コスト算出部45は、セグメント系列生成部44によって生成されたセグメント系列の各セグメントに対して取り得る全ての発音記号を割り当てることにより、セグメント系列から音韻セグメント対の系列を生成する。テキスト発音記号変換辞書に保存された音韻セグメント対を、セグメントに発音記号を割り当てるために参照する。次に、音韻セグメント対の系列ごとに、テキスト発音記号変換辞書43に保存された生起確率と接続確率とを参照して累積コストを算出する。
音声候補選択部46は、累積コストの算出対象となった音韻セグメント対の系列から、累積コストに基づいて音声候補を選択する。音声候補登録部47は、音声候補選択部46によって選択された音声候補を、対応する認識語彙の発音記号列として第2認識語彙辞書に登録する。
次に、図5に基づき、このような構成をした認識語彙辞書作成装置400における認識語彙辞書の作成処理の流れを説明する。図5は、以上述べた認識語彙辞書作成装置400において実行される、認識語彙辞書の作成方法を説明するためのフローチャートである。
認識語彙辞書の作成処理は、図5のフローチャートに示すように、まずステップS501に移行し、認識語彙取得部43において、第2認識語彙辞書41に含まれる単語を入力し、ステップS502に移行する。ステップS502では、セグメント系列生成部44において、入力された単語をセグメントに分割してセグメント系列を生成し、ステップS503に移行する。ステップS503では、累積コスト算出部45において、セグメント系列の各セグメントに対して取り得る全ての発音記号を割り当てることにより、セグメント系列から音韻セグメント対の系列を生成し、ステップS504に移行する。
ステップS504では、累積コスト算出部45において、テキスト発音記号変換辞書に保存された生起確率及び累積確率に基づいて音韻セグメント対の系列の各々について累積コストを算出し、ステップS505に移行する。ステップS505では、音声候補選択部46において、算出された累積コストと境界尤度とを比較する。そして、境界尤度以上の累積コストを有する音声候補を選択し、ステップS506に移行する。ステップS506では、音声候補登録部47において、音声候補選択部46によって選択された音声候補を対応する認識語彙の発音記号列として第2認識語彙辞書に登録し処理を終了する。
実施例1
次に、図6に基づいて、累積コスト算出部45の動作を具体的に説明する。図6は、累積コスト算出部45が単語「abaca」の音声候補の累積コストを算出する例を示している。累積コスト算出部45は、例えば、単語「abaca」の音声候補/abaka/の累積コストを、以下のようにして算出する。すなわち、単語「abaca」の先頭のセグメント「a」には、発音記号/a/、発音記号/A/の2つの音声候補がある。累積コスト算出部45は、発音記号/a/の生起確率−0.02、発音記号/a/と発音記号/b/との接続確率−2.89、発音記号/b/の生起確率を累積し、文字列「ab」の累積コストを算出する。
なお、本実施の形態は、前記したように生起確率及び接続確率の対数値を用いているため、累積コストを算出するための演算として、乗算の代わりに加算を使用することで演算量を低減することができる。
さらに、累積コスト算出部45は、発音記号/b/から発音記号/a/に連続する接続確率と3番目のセグメント「a」の音声候補が発音記号/a/である生起確率とを累積する。さらに、発音記号/a/から発音記号/k/に連続する接続確率とセグメント「c」の音声候補が発音記号/k/である生起確率とを累積し、発音記号/k/から発音記号/a/に連続する接続確率とセグメント「a」の音声候補が発音記号/a/である生起確率とを累積する。以上の演算により、累積コスト算出部45は、発音記号列/abaka/の累積コスト−10.03を得る。
また、同様に、累積コスト算出部45は、他の音声候補である発音記号列/abAka/、/abakA/、/Abaka/、/abasa/等についても累積コストを算出する。
次に、音声候補選択部46は、累積コストの算出対象となった発音記号から、累積コストに基づいて音声候補を選択する。本実施の形態の音声候補選択部46は、累積コストが所定のしきい値より大きい音声候補を選択している。しきい値は、予め決められた一定の値でもよい。また、算出された累積コストのうちの最も大きい値から所定の値を減じた値であってもよい。
図7は、算出された累積コストのうちの最も大きい値から所定の値を減じた値をしきい値に設定する例を説明するための図である。図示した例では、発音記号列/abaka/、/abAka/、/abakA/、/Abaka/、/abasa/について累積コストを算出している。本実施の形態では、音声候補である発音記号列/abaka/、/abAka/、/abakA/、/Abaka/、/abasa/を、累積コストの値が高いものから順に第1候補から第5候補の順位を付すものとする。各発音記号の累積コストは、以下の通りである。
第1候補 発音記号列/abaka/ 累積コスト −10.03
第2候補 発音記号列/abAka/ 累積コスト −12.70
第3候補 発音記号列/abakA/ 累積コスト −14.25
第4候補 発音記号列/Abaka/ 累積コスト −16.53
第5候補 発音記号列/abaSa/ 累積コスト −17.64
図7に示した例では、上述の所定の値を5.00としている。音声候補選択部46は、最も大きい累積コストである−10.03から5.00を減じてしきい値(境界尤度)−15.03を設定している。音声候補選択部46は、累積コストが境界尤度以上の音声候補である発音記号列/abaka/、/abAka/、/abakA/を選択する。音声候補登録部47は、選択された音声候補を第2認識語彙辞書に保存する。一方、累積コストが境界尤度以下の音声候補である発音記号列/Abaka/、/abaSa/は除外される。
このように構成した場合、各音声候補の第1候補の累積コストの値に依存したしきい値を設定することができるので、第1候補の音声候補が有する累積コストの値を基準にすることで、入力される可能性の低い音声候補を第2認識語彙辞書の登録対象から除外することができる。したがって、第2認識語彙辞書の大型化を抑えながら、入力された音声の認識率を高めることができる。
また、本実施の形態は、上記したような音声候補を選択する構成に限定されるものでなく、累積コストがより大きい所定の数の音声候補を選択するようにしてもよい。すなわち、例えば、1単語について3個の音声候補を第2認識語彙辞書に登録する場合、音声候補選択部46は、単語「abaca」について、累積コストがより高い3つの音声候補、発音記号列/abaka/、/abAka/、/abakA/を選択する。
このように構成した場合、本実施の形態は、予め登録される音声候補の数やそれらの登録に必要な第2認識語彙辞書の容量を予測することができる。
また、本実施の形態は、以上述べたように、1つの発音記号に対応する文字をセグメントとする構成に限定されるものではなく、複数の発音記号によって構成される文字をセグメントとすることも可能である。複数の発音記号によって構成される文字とは、例えば、単語、接頭辞、接尾辞などである。さらに、生起確率と接続確率の総和を求めて累積コストの算出を行うことに限定されるものではなく、生起確率と接続確率のそれぞれに対して重み係数を乗じて、これらの総和を求めることも可能である。
第2認識語彙辞書から取得した認識語彙をセグメント系列生成部44でセグメントに分割する前に、当該取得した認識語彙が第1認識語彙辞書に登録されているかどうかを判定し、登録されていた場合には、第1認識語彙辞書に登録されている発音記号列を、第2認識語彙辞書に登録するようにしてもよい。
図8は、複数の発音記号によって構成される文字をセグメントとする例を説明するための図である。なお、本実施の形態では、1つの発音記号に対応するセグメントを通常セグメント、連接した複数の発音記号に対応するセグメントを拡張セグメントとも記す。この場合に用いられるテキスト発音記号変換辞書は、通常セグメントと拡張セグメントを混在させてテキスト発音記号変換辞書作成装置で作成されたものである。
図8に示した例では、単語「uphall」について複数の連接した発音記号で構成されるセグメントを設定している。符号82を付して示した範囲は、1つの発音記号に対応するセグメントから生成される音韻セグメント対の系列を示している。符号81を付して示した範囲は、連接した複数の発音記号に対応するセグメントから生成される音韻セグメント対の系列を示している。
符号81で示した例では、単語「uphall」の文字列「up」と「hall」とのように複数の単語に分割したものを拡張セグメントとしている。図示したように、本実施の形態の認識語彙辞書作成装置では、通常セグメントと拡張セグメントとを混在させている。
拡張セグメントを導入することにより、単語であるセグメントに関する生起確率値と接続確率値をテキスト発音記号変換辞書に設定することができる。これによって、テキストから発音記号への変換において、このテキスト発音記号変換辞書を用いることで、既知の単語の発音記号に基づいた発音記号を生成することができる。したがって、ユーザにとって発音が未知の単語であって、その単語が複数の既知の単語が接続されているとみなされるものについては、この既知の単語を意識して発音する可能性が高いので、テキストから発音記号への変換の精度が高くなる。
上記第2の実施の形態において、第2認識語彙辞書41は、請求項4記載の認識語彙辞書記憶手段に対応し、テキスト発音記号変換辞書記憶部42は、請求項4記載のテキスト発音記号変換辞書記憶手段に対応し、認識語彙取得部43は、請求項4記載の認識語彙取得手段に対応し、セグメント系列生成部44は、請求項4記載のセグメント系列生成手段に対応し、累積コスト算出部45は、請求項4記載の累積コスト算出手段に対応し、音声候補選択部46は、請求項4記載の音声候補選択手段に対応し、音声候補登録部47は、請求項4記載の音声候補登録手段に対応する。
また、上記第2の実施の形態において、ステップS501は、請求項7または請求項10記載の認識語彙取得ステップに対応し、ステップS502は、請求項7または請求項10記載のセグメント系列生成ステップに対応し、ステップS503〜S504は、請求項7または請求項10記載の累積コスト算出ステップに対応し、ステップS504は、請求項7または請求項10記載のテキスト発音記号変換辞書取得ステップに対応し、ステップS505は、請求項7または請求項10記載の音声候補選択ステップに対応し、ステップS506は、請求項7または請求項10記載の音声候補登録ステップに対応する。
なお、上述した第2の実施の形態に係る認識語彙辞書作成プログラムは、記憶部を備えた一般的なコンピュータシステムによって実行可能である。この場合、上記記憶部に格納された認識語彙辞書作成プログラムをコンピュータが実行することによって、上述した認識語彙辞書作成動作が行われる。なお、上記認識語彙辞書作成プログラムは、通信媒体を介してコンピュータシステムに供給されてもかまわない。また、光ディスク等の記憶媒体に上記認識語彙辞書作成プログラムを記録し、当該記録媒体に記録された認識語彙辞書作成プログラムをコンピュータシステムで読み込んでもかまわない。
〔第3の実施の形態〕
次に、本発明の第3の実施の形態を図面に基づき説明する。図9は、本発明に係る音声認識装置の実施の形態を示す図である。本実施の形態の音声認識装置900は、先に述べた本実施の形態の認識語彙辞書作成装置400によって作成した認識語彙辞書93を備えて音声認識を行う。
図9に示すように、音声認識装置900は、入力音声を入力する音声入力部90、入力された音声から特徴量の時系列を抽出する特徴量抽出部91、音響モデルを記憶する音響モデル記憶部92、音声候補を記憶する認識語彙辞書93、パターンマッチングを行う照合部94、入力音声の認識結果候補を出力する認識結果出力部95、音声認識装置に制御信号を入力するための操作部96を備えている。
音声入力部90は、図示しないマイク等でユーザが入力した音声に対してA/D変換を行う。特徴量抽出部91は、入力音声から特徴量の時系列を抽出する。音響モデル記憶部92は、例えば連続分布型のHMM(Hidden Markov Model)により表現された音響モデルを記憶する。なお、音響モデルは多数の話者の音声データを用いて全ての音素ごとに作成される。
認識語彙辞書93は、通常セグメントと拡張セグメントとが図7のように混在した認識語彙辞書作成装置によって作成される。例えば、拡張セグメントには文字列「up」と「hall」とが含まれる。照合部94は、認識語彙辞書93に記憶されている音声候補ごとに、その音声候補の音素表記(発音記号)にしたがって音響モデルを連結して音声パターンモデルを生成する一方、特徴量抽出部91から特徴量の時系列を受けると、その特徴量の時系列と、予め生成した複数の音声候補に係る音声パターンモデルとのパターンマッチングによって音声候補の音響尤度を求め、音響尤度が上位の複数個の音声候補を入力音声の認識結果候補とする。
認識結果出力部95は、照合部94のパターンマッチングによって認識結果候補が得られた場合、複数の音声候補に対応する複数の単語を図示しないディスプレイ等に出力するものである。操作部96は、出力された複数の単語のいずれかを選択する操作や音声認識装置に音声認識の開始、停止を指示する。あるいは、認識結果や認識結果に基づいて実行された演算処理の結果に基づいて、ユーザが次の指示をするための操作に使用される。
次に、本実施の形態を具体的に説明する。
まず、ユーザが図示しないマイクに向けて発声すると、音声入力部90は、マイクに入力された入力音声に対してA/D変換を行う。
特徴量抽出部91は、入力音声のデジタル信号に対して分析を行い、例えば、MFCC(Mel Frequency Cepstrum Coefficient)等の特徴量の時系列を抽出する。
照合部94は、予め認識語彙辞書93に記憶されている音声候補ごとに、その音声候補の音素表記(発音記号)にしたがって、音響モデル記憶部92に記憶された音響モデルを連結して音声パターンモデル(特徴量の時系列パターンをモデル化した音声パターンモデル)を生成する。そして、特徴量抽出部91が抽出した特徴量の時系列が入力されると、例えば、ビタビアルゴリズムを用いて、その特徴量の時系列と音声候補ごとの音声パターンモデルとのパターンマッチングによって音声候補の音響尤度を求める。例えば、単語「uphall」が認識対象として認識語彙辞書93に登録されている場合に、ユーザが単語「uphall」を発声すると、認識語彙辞書93に記憶されている音声候補/aphal/、/apfal/、/ufol/、/uphol/、/aphol/等に対応する音声パターンモデルと、入力音声から抽出された特徴量の時系列とのパターンマッチングが行われる。
拡張セグメントである文字列「up」と「hall」に対応する音声候補/aphol/が認識語彙辞書93に記憶されているので、ユーザが発音記号/aphol/と発音しても音響尤度が高くなり、認識結果候補の中に音声候補/aphol/が含まれる。
認識結果出力部95は、照合部94で得られた認識結果候補をディスプレイ等に出力する。ユーザが発音記号/ufol/と/aphol/のいずれを発音しても単語「uphall」が認識結果候補となる。
ユーザは、操作部96を操作して認識結果候補の中から単語「uphall」を選択する。音声認識装置900の認識結果は、例えば、カーナビゲーション装置の地図検索機能等に入力される。このような場合、地図検索機能は、単語「uphall」が地名として入力されたとし、単語「uphall」が示す地点の緯度や経度の情報を抽出する等の制御を行う。
上記第3の実施の形態において、認識語彙辞書93は、請求項4記載の認識語彙辞書作成装置で作成された認識語彙辞書に対応する。
なお、上述した第3の実施の形態に係る音声認識プログラムは、記憶部を備えた一般的なコンピュータシステムによって実行可能である。この場合、上記記憶部に格納された音声認識プログラムをコンピュータが実行することによって、上述した音声認識動作が行われる。なお、上記音声認識プログラムは、通信媒体を介してコンピュータシステムに供給されてもかまわない。また、光ディスク等の記憶媒体に上記音声認識プログラムを記録し、当該記録媒体に記録された音声認識プログラムをコンピュータシステムで読み込んでもかまわない。
本発明は、大規模な学習データから求めた統計値に基づいて作成したテキスト発音記号変換辞書を用いることによって、単語が発音された場合に発音される可能性が高い発音記号列を精度よく生成するので、音声認識のための認識語彙辞書を作成するために利用可能である。
本発明の第1の実施の形態のテキスト発音記号変換辞書作成装置100の構成を示すブロック図である。 本発明の第1の実施の形態のテキスト発音記号変換辞書作成装置100におけるテキスト発音記号変換辞書の作成処理を示すフローチャートである。 図2に示したテキスト発音記号変換辞書作成装置100の動作を説明するための図である。 本発明の認識語彙辞書作成装置400の構成を示すブロック図である。 図4に示した認識語彙辞書作成装置400における認識語彙辞書の作成処理を示すフローチャートである。 図4に示した累積コスト算出部の動作を説明するための図である。 本発明の第2の実施の形態の累積コストのしきい値設定する例を説明するための図である。 本発明の第2の実施の形態の連接する複数の発音記号に対応するセグメントを設定した例を説明するための図である。 本発明の第3の実施の形態の音声認識装置900の構成を示すブロック図である。 従来の綴り―発音記号変換方法で用いられる単語辞書の例を説明するための図である。 従来の綴り―発音記号変換方法で用いられるルールの例を説明するための図である。
符号の説明
100 テキスト発音記号変換辞書作成装置
400 認識語彙辞書作成装置
900 音声認識装置
10 学習データ記憶部
11 学習データ取得部
12 出現頻度カウンタ
13 生起確率算出部
14 接続確率算出部
15 テキスト発音記号変換辞書保存部
16 メモリ
40 第1認識語彙辞書記憶部
41 第2認識語彙辞書記憶部
42 テキスト発音記号変換辞書記憶部
43 認識語彙取得部
44 セグメント系列生成部
45 累積コスト算出部
46 音声候補選択部
47 音声候補登録部
90 音声入力部
91 特徴量抽出部
92 音響モデル記憶部
93 認識語彙辞書
94 照合部
95 認識結果出力部
96 操作部

Claims (11)

  1. テキストから発音記号への変換に用いられるテキスト発音記号変換辞書を作成するテキスト発音記号変換辞書作成装置であって、
    単語と、当該単語をセグメントに分割したセグメント分割情報と、当該セグメントごとの発音記号と、を含むデータを学習データとして記憶する学習データ記憶手段と、
    前記学習データから、前記単語と、前記セグメント分割情報と、前記セグメントごとの発音記号と、を取得する学習データ取得手段と、
    前記学習データ取得手段によって取得された前記セグメント分割情報と、前記セグメントごとの発音記号から、セグメントの名前と当該セグメントの名前に対応する発音記号との組である音韻セグメント対を生成し、前記学習データにおいて当該音韻セグメント対が出現する頻度に基づいて生起確率を算出する生起確率算出手段と、
    単語内において連接する音韻セグメント対の系列である連接音韻セグメント対系列が、前記学習データにおいて出現する頻度に基づいて接続確率を算出する接続確率算出手段と、
    前記生起確率算出手段によって算出された音韻セグメント対ごとの生起確率と、前記接続確率算出手段によって算出された連接音韻セグメント対系列ごとの接続確率とを含むテキスト発音記号変換辞書を保存するテキスト発音記号変換辞書保存手段と、
    を備えることを特徴とするテキスト発音記号変換辞書作成装置。
  2. 前記セグメントは、1つの音素に対応することを特徴とする請求項1に記載のテキスト発音記号変換辞書作成装置。
  3. 前記セグメントは、1つの音素に対応するセグメントと、連接した複数の音素に対応するセグメントから構成されることを特徴とする請求項1に記載のテキスト発音記号変換辞書作成装置。
  4. 音声を認識するために用いられる認識語彙辞書を作成する認識語彙辞書作成装置であって、
    請求項1乃至請求項3のいずれか1項に記載のテキスト発音記号変換辞書作成装置で作成されたテキスト発音記号変換辞書を記憶するテキスト発音記号変換辞書記憶手段と、
    音声認識の対象である認識語彙が登録された認識語彙辞書を記憶する認識語彙辞書記憶手段と、
    前記認識語彙辞書に登録された認識語彙を取得する認識語彙取得手段と、
    前記テキスト発音記号変換辞書を参照することで前記取得した認識語彙をセグメントに分割し、セグメントの系列であるセグメント系列を生成するセグメント系列生成手段と、
    前記セグメント系列生成手段で生成されたセグメント系列から、音韻セグメント対の系列である音韻セグメント対系列を生成し、前記テキスト発音記号変換辞書を参照することで当該音韻セグメント対系列ごとに累積コストを算出する累積コスト算出手段と、
    前記累積コスト算出手段で算出した累積コストに基づいて前記音韻セグメント対系列の中から上位の音韻セグメント対系列を音韻セグメント対系列候補として選択する音声候補選択手段と、
    前記音声候補選択手段で選択した音韻セグメント対系列候補に対応する発音記号の系列を、前記認識語彙辞書に登録する音声候補登録手段と、を備え、
    前記累積コスト算出手段は、前記音韻セグメント対系列における前記音韻セグメント対の前記生起確率と、前記連接音韻セグメント対系列の前記接続確率とに基づいて累積コストを算出することを特徴とする認識語彙辞書作成装置。
  5. 請求項4に記載の認識語彙辞書作成装置で作成された認識語彙辞書に基づき音声を認識することを特徴とする音声認識装置。
  6. コンピュータに、テキストから発音記号への変換に用いられるテキスト発音記号変換辞書の作成を実行させるためのテキスト発音記号変換辞書作成プログラムであって、
    単語と、当該単語をセグメントに分割したセグメント分割情報と、当該セグメントごとの発音記号と、を含む学習データを記憶した学習データ記憶手段から、前記単語と、前記セグメント分割情報と、前記セグメントごとの発音記号と、を取得する学習データ取得ステップと、
    前記学習データ取得ステップによって取得された前記セグメント分割情報と、前記セグメントごとの発音記号から、セグメントの名前と当該セグメントの名前に対応する発音記号との組である音韻セグメント対を生成し、前記学習データにおいて当該音韻セグメント対が出現する頻度に基づいて生起確率を算出する生起確率算出ステップと、
    単語内において連接する音韻セグメント対の系列である連接音韻セグメント対系列が、前記学習データにおいて出現する頻度に基づいて接続確率を算出する接続確率算出ステップと、
    前記生起確率算出ステップによって算出された音韻セグメント対ごとの生起確率と、前記接続確率算出ステップによって算出された連接音韻セグメント対系列ごとの接続確率とを含むテキスト発音記号変換辞書を保存するテキスト発音記号変換辞書保存ステップと、を含むことを特徴とするテキスト発音記号変換辞書作成プログラム。
  7. コンピュータに、音声を認識するために用いられる認識語彙辞書の作成を実行させるための認識語彙辞書作成プログラムであって、
    請求項6に記載のテキスト発音記号変換辞書作成プログラムで作成されたテキスト発音記号変換辞書を記憶するテキスト発音記号変換辞書記憶手段から当該テキスト発音記号変換辞書を取得するテキスト発音記号変換辞書取得ステップと、
    音声認識の対象である認識語彙が登録された認識語彙辞書を記憶する認識語彙辞書記憶ステップと、
    前記認識語彙辞書に登録された認識語彙を取得する認識語彙取得ステップと、
    前記テキスト発音記号変換辞書取得ステップで取得した前記テキスト発音記号変換辞書を参照することで前記取得した認識語彙をセグメントに分割し、セグメントの系列であるセグメント系列を生成するセグメント系列生成ステップと、
    前記セグメント系列生成手段で生成されたセグメント系列から、音韻セグメント対の系列である音韻セグメント対系列を生成し、前記テキスト発音記号変換辞書を参照することで当該音韻セグメント対系列ごとに累積コストを算出する累積コスト算出ステップと、
    前記累積コスト算出ステップで算出した累積コストに基づいて前記音韻セグメント対系列の中から上位の音韻セグメント対系列を音韻セグメント対系列候補として選択する音声候補選択ステップと、
    前記音声候補選択ステップで選択した音韻セグメント対系列候補に対応する発音記号の系列を、前記認識語彙辞書に登録する音声候補登録ステップと、を含み、
    前記累積コスト算出ステップは、前記音韻セグメント対系列における前記音韻セグメント対の前記生起確率と、前記連接音韻セグメント対系列の前記接続確率とに基づいて累積コストを算出するステップを含むことを特徴とする認識語彙辞書作成プログラム。
  8. コンピュータに、請求項7に記載の認識語彙辞書作成プログラムで作成された認識語彙辞書に基づいて音声を認識するステップを含む処理を実行させることを特徴とする音声認識プログラム。
  9. テキストから発音記号への変換に用いられるテキスト発音記号変換辞書を作成するテキスト発音記号変換辞書作成方法であって、
    単語と、当該単語をセグメントに分割したセグメント分割情報と、当該セグメントごとの発音記号と、を含む学習データを記憶した学習データ記憶手段から、前記単語と、前記セグメント分割情報と、前記セグメントごとの発音記号と、を取得する学習データ取得ステップと、
    前記学習データ取得ステップによって取得された前記セグメント分割情報と、前記セグメントごとの発音記号から、セグメントの名前と当該セグメントの名前に対応する発音記号との組である音韻セグメント対を生成し、前記学習データにおいて当該音韻セグメント対が出現する頻度に基づいて生起確率を算出する生起確率算出ステップと、
    単語内において連接する音韻セグメント対の系列である連接音韻セグメント対系列が、前記学習データにおいて出現する頻度に基づいて接続確率を算出する接続確率算出ステップと、
    前記生起確率算出ステップによって算出された音韻セグメント対ごとの生起確率と、前記接続確率算出ステップによって算出された連接音韻セグメント対系列ごとの接続確率とを含むテキスト発音記号変換辞書を保存するテキスト発音記号変換辞書保存ステップと、
    を含むことを特徴とするテキスト発音記号変換辞書作成方法。
  10. 音声を認識するために用いられる認識語彙辞書を作成する認識語彙辞書作成方法であって、
    請求項9に記載のテキスト発音記号変換辞書作成方法で作成されたテキスト発音記号変換辞書を記憶するテキスト発音記号変換辞書記憶手段から当該テキスト発音記号変換辞書を取得するテキスト発音記号変換辞書取得ステップと、
    音声認識の対象である認識語彙が登録された認識語彙辞書を記憶する認識語彙辞書記憶ステップと、
    前記認識語彙辞書に登録された認識語彙を取得する認識語彙取得ステップと、
    前記テキスト発音記号変換辞書取得ステップで取得した前記テキスト発音記号変換辞書を参照することで前記取得した認識語彙をセグメントに分割し、セグメントの系列であるセグメント系列を生成するセグメント系列生成ステップと、
    前記セグメント系列生成手段で生成されたセグメント系列から、音韻セグメント対の系列である音韻セグメント対系列を生成し、前記テキスト発音記号変換辞書を参照することで当該音韻セグメント対系列ごとに累積コストを算出する累積コスト算出ステップと、
    前記累積コスト算出ステップで算出した累積コストに基づいて前記音韻セグメント対系列の中から上位の音韻セグメント対系列を音韻セグメント対系列候補として選択する音声候補選択ステップと、
    前記音声候補選択ステップで選択した音韻セグメント対系列候補に対応する発音記号の系列を、前記認識語彙辞書に登録する音声候補登録ステップと、を含み、
    前記累積コスト算出ステップは、前記音韻セグメント対系列における前記音韻セグメント対の前記生起確率と、前記連接音韻セグメント対系列の前記接続確率とに基づいて累積コストを算出することを特徴とする認識語彙辞書作成方法。
  11. 請求項10に記載の認識語彙辞書作成方法で作成された認識語彙辞書に基づいて音声を認識するステップを含むことを特徴とする音声認識方法。
JP2007116607A 2007-04-26 2007-04-26 テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置 Expired - Fee Related JP4769223B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007116607A JP4769223B2 (ja) 2007-04-26 2007-04-26 テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007116607A JP4769223B2 (ja) 2007-04-26 2007-04-26 テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置

Publications (2)

Publication Number Publication Date
JP2008275731A true JP2008275731A (ja) 2008-11-13
JP4769223B2 JP4769223B2 (ja) 2011-09-07

Family

ID=40053790

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007116607A Expired - Fee Related JP4769223B2 (ja) 2007-04-26 2007-04-26 テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置

Country Status (1)

Country Link
JP (1) JP4769223B2 (ja)

Cited By (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011039468A (ja) * 2009-08-14 2011-02-24 Korea Electronics Telecommun 電子辞書で音声認識を用いた単語探索装置及びその方法
US8645139B2 (en) 2009-06-03 2014-02-04 Samsung Electronics Co., Ltd. Apparatus and method of extending pronunciation dictionary used for speech recognition
US8706484B2 (en) 2009-05-22 2014-04-22 Alpine Electronics, Inc. Voice recognition dictionary generation apparatus and voice recognition dictionary generation method
KR20160061071A (ko) * 2014-11-21 2016-05-31 에스케이텔레콤 주식회사 발음 변이를 적용시킨 음성 인식 방법
JP2017062475A (ja) * 2012-03-02 2017-03-30 アップル インコーポレイテッド 名前発音システム及び方法
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
US10108612B2 (en) 2008-07-31 2018-10-23 Apple Inc. Mobile device having human language translation capability with positional feedback
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10311871B2 (en) 2015-03-08 2019-06-04 Apple Inc. Competing devices responding to voice triggers
US10354652B2 (en) 2015-12-02 2019-07-16 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10381016B2 (en) 2008-01-03 2019-08-13 Apple Inc. Methods and apparatus for altering audio output signals
US10390213B2 (en) 2014-09-30 2019-08-20 Apple Inc. Social reminders
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10403283B1 (en) 2018-06-01 2019-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10417344B2 (en) 2014-05-30 2019-09-17 Apple Inc. Exemplar-based natural language processing
US10417405B2 (en) 2011-03-21 2019-09-17 Apple Inc. Device access using voice authentication
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10431204B2 (en) 2014-09-11 2019-10-01 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10438595B2 (en) 2014-09-30 2019-10-08 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10453443B2 (en) 2014-09-30 2019-10-22 Apple Inc. Providing an indication of the suitability of speech recognition
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10529332B2 (en) 2015-03-08 2020-01-07 Apple Inc. Virtual assistant activation
US10553215B2 (en) 2016-09-23 2020-02-04 Apple Inc. Intelligent automated assistant
US10580409B2 (en) 2016-06-11 2020-03-03 Apple Inc. Application integration with a digital assistant
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10643611B2 (en) 2008-10-02 2020-05-05 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10684703B2 (en) 2018-06-01 2020-06-16 Apple Inc. Attention aware virtual assistant dismissal
US10692504B2 (en) 2010-02-25 2020-06-23 Apple Inc. User profiling for voice input processing
US10699717B2 (en) 2014-05-30 2020-06-30 Apple Inc. Intelligent assistant for home automation
CN111402862A (zh) * 2020-02-28 2020-07-10 问问智能信息科技有限公司 语音识别方法、装置、存储介质及设备
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10769385B2 (en) 2013-06-09 2020-09-08 Apple Inc. System and method for inferring user intent from speech inputs
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
KR20200121260A (ko) * 2014-11-21 2020-10-23 에스케이텔레콤 주식회사 발음 변이를 적용시킨 음성 인식 방법
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10942702B2 (en) 2016-06-11 2021-03-09 Apple Inc. Intelligent device arbitration and control
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11023513B2 (en) 2007-12-20 2021-06-01 Apple Inc. Method and apparatus for searching using an active ontology
US11048473B2 (en) 2013-06-09 2021-06-29 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US11127397B2 (en) 2015-05-27 2021-09-21 Apple Inc. Device voice control
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11231904B2 (en) 2015-03-06 2022-01-25 Apple Inc. Reducing response latency of intelligent automated assistants
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US11314370B2 (en) 2013-12-06 2022-04-26 Apple Inc. Method for extracting salient dialog usage from live data
US11350253B2 (en) 2011-06-03 2022-05-31 Apple Inc. Active transport based notifications
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US11495218B2 (en) 2018-06-01 2022-11-08 Apple Inc. Virtual assistant operation in multi-device environments

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11344990A (ja) * 1998-04-29 1999-12-14 Matsushita Electric Ind Co Ltd 綴り言葉に対する複数発音を生成し評価する判断ツリ―を利用する方法及び装置
JP2005258439A (ja) * 2004-03-10 2005-09-22 Microsoft Corp 文字から音声への変換のための相互情報量基準を用いた大きな文字音素単位の生成

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11344990A (ja) * 1998-04-29 1999-12-14 Matsushita Electric Ind Co Ltd 綴り言葉に対する複数発音を生成し評価する判断ツリ―を利用する方法及び装置
JP2005258439A (ja) * 2004-03-10 2005-09-22 Microsoft Corp 文字から音声への変換のための相互情報量基準を用いた大きな文字音素単位の生成

Cited By (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11023513B2 (en) 2007-12-20 2021-06-01 Apple Inc. Method and apparatus for searching using an active ontology
US10381016B2 (en) 2008-01-03 2019-08-13 Apple Inc. Methods and apparatus for altering audio output signals
US10108612B2 (en) 2008-07-31 2018-10-23 Apple Inc. Mobile device having human language translation capability with positional feedback
US10643611B2 (en) 2008-10-02 2020-05-05 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8706484B2 (en) 2009-05-22 2014-04-22 Alpine Electronics, Inc. Voice recognition dictionary generation apparatus and voice recognition dictionary generation method
US8645139B2 (en) 2009-06-03 2014-02-04 Samsung Electronics Co., Ltd. Apparatus and method of extending pronunciation dictionary used for speech recognition
JP2011039468A (ja) * 2009-08-14 2011-02-24 Korea Electronics Telecommun 電子辞書で音声認識を用いた単語探索装置及びその方法
US10692504B2 (en) 2010-02-25 2020-06-23 Apple Inc. User profiling for voice input processing
US10417405B2 (en) 2011-03-21 2019-09-17 Apple Inc. Device access using voice authentication
US11350253B2 (en) 2011-06-03 2022-05-31 Apple Inc. Active transport based notifications
JP2017062475A (ja) * 2012-03-02 2017-03-30 アップル インコーポレイテッド 名前発音システム及び方法
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US11069336B2 (en) 2012-03-02 2021-07-20 Apple Inc. Systems and methods for name pronunciation
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US11048473B2 (en) 2013-06-09 2021-06-29 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10769385B2 (en) 2013-06-09 2020-09-08 Apple Inc. System and method for inferring user intent from speech inputs
US11314370B2 (en) 2013-12-06 2022-04-26 Apple Inc. Method for extracting salient dialog usage from live data
US10417344B2 (en) 2014-05-30 2019-09-17 Apple Inc. Exemplar-based natural language processing
US10699717B2 (en) 2014-05-30 2020-06-30 Apple Inc. Intelligent assistant for home automation
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
US10714095B2 (en) 2014-05-30 2020-07-14 Apple Inc. Intelligent assistant for home automation
US10657966B2 (en) 2014-05-30 2020-05-19 Apple Inc. Better resolution when referencing to concepts
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
US10431204B2 (en) 2014-09-11 2019-10-01 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10438595B2 (en) 2014-09-30 2019-10-08 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10390213B2 (en) 2014-09-30 2019-08-20 Apple Inc. Social reminders
US10453443B2 (en) 2014-09-30 2019-10-22 Apple Inc. Providing an indication of the suitability of speech recognition
KR20160061071A (ko) * 2014-11-21 2016-05-31 에스케이텔레콤 주식회사 발음 변이를 적용시킨 음성 인식 방법
KR102300303B1 (ko) 2014-11-21 2021-09-08 에스케이텔레콤 주식회사 발음 변이를 적용시킨 음성 인식 방법
KR20200121260A (ko) * 2014-11-21 2020-10-23 에스케이텔레콤 주식회사 발음 변이를 적용시킨 음성 인식 방법
KR102167157B1 (ko) * 2014-11-21 2020-10-16 에스케이 텔레콤주식회사 발음 변이를 적용시킨 음성 인식 방법
US11231904B2 (en) 2015-03-06 2022-01-25 Apple Inc. Reducing response latency of intelligent automated assistants
US10529332B2 (en) 2015-03-08 2020-01-07 Apple Inc. Virtual assistant activation
US10311871B2 (en) 2015-03-08 2019-06-04 Apple Inc. Competing devices responding to voice triggers
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US11127397B2 (en) 2015-05-27 2021-09-21 Apple Inc. Device voice control
US10354652B2 (en) 2015-12-02 2019-07-16 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US10942702B2 (en) 2016-06-11 2021-03-09 Apple Inc. Intelligent device arbitration and control
US10580409B2 (en) 2016-06-11 2020-03-03 Apple Inc. Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10553215B2 (en) 2016-09-23 2020-02-04 Apple Inc. Intelligent automated assistant
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10847142B2 (en) 2017-05-11 2020-11-24 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10684703B2 (en) 2018-06-01 2020-06-16 Apple Inc. Attention aware virtual assistant dismissal
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11495218B2 (en) 2018-06-01 2022-11-08 Apple Inc. Virtual assistant operation in multi-device environments
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10403283B1 (en) 2018-06-01 2019-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
CN111402862A (zh) * 2020-02-28 2020-07-10 问问智能信息科技有限公司 语音识别方法、装置、存储介质及设备
CN111402862B (zh) * 2020-02-28 2023-06-20 出门问问创新科技有限公司 语音识别方法、装置、存储介质及设备

Also Published As

Publication number Publication date
JP4769223B2 (ja) 2011-09-07

Similar Documents

Publication Publication Date Title
JP4769223B2 (ja) テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置
US8868431B2 (en) Recognition dictionary creation device and voice recognition device
US5949961A (en) Word syllabification in speech synthesis system
CN109036391B (zh) 语音识别方法、装置及系统
CN106663424B (zh) 意图理解装置以及方法
JP6245846B2 (ja) 音声認識における読み精度を改善するシステム、方法、およびプログラム
US20110131038A1 (en) Exception dictionary creating unit, exception dictionary creating method, and program therefor, as well as speech recognition unit and speech recognition method
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
US11074909B2 (en) Device for recognizing speech input from user and operating method thereof
US7921014B2 (en) System and method for supporting text-to-speech
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
JP6580882B2 (ja) 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
CN107610693B (zh) 文本语料库的构建方法和装置
JP5276610B2 (ja) 言語モデル生成装置、そのプログラムおよび音声認識システム
KR20210001937A (ko) 사용자의 음성 입력을 인식하는 디바이스 및 그 동작 방법
JP6941494B2 (ja) エンドツーエンド日本語音声認識モデル学習装置およびプログラム
JP4966324B2 (ja) 音声翻訳装置、および方法
KR100542757B1 (ko) 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치
JP4741452B2 (ja) 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JP5772219B2 (ja) 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム
JP6023543B2 (ja) 記号列変換方法とそれを用いた音声認識方法と、それらの装置とプログラムとその記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100803

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110614

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110617

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140624

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

LAPS Cancellation because of no payment of annual fees