JP2008275731A - テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置 - Google Patents
テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置 Download PDFInfo
- Publication number
- JP2008275731A JP2008275731A JP2007116607A JP2007116607A JP2008275731A JP 2008275731 A JP2008275731 A JP 2008275731A JP 2007116607 A JP2007116607 A JP 2007116607A JP 2007116607 A JP2007116607 A JP 2007116607A JP 2008275731 A JP2008275731 A JP 2008275731A
- Authority
- JP
- Japan
- Prior art keywords
- segment
- phonetic symbol
- sequence
- dictionary
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】テキスト発音記号変換辞書作成装置において、単語と当該単語をセグメントに分割したセグメント分割情報と当該セグメントごとの発音記号とを学習データから取得し、学習データにおける音韻セグメント対の生起確率と連接音韻セグメント対系列の接続確率とを算出し、算出したこれらの確率を含むテキスト発音記号変換辞書を作成する。
【選択図】 図1
Description
これらの綴り―発音記号変換方法の従来技術として、書き文字を音声の最小単位(音素)に変換するGrapheme To Phoneme(G2P)と呼ばれる技術が、非特許文献1に記載されている。
上述した単語辞書に基づく綴り―発音記号変換方法では、認識対象語彙と一致する単語が単語辞書に登録されていない場合には発音記号列を得ることができない。また、多くの単語に対して発音記号列を得るためには、単語辞書に登録する単語数を増やす必要があり単語辞書が大型化するという問題点もあった。
さらに、入力された単語に対して出力された発音記号列の確からしさを示す指標が存在しないため、1つの単語に対して得られた複数の発音記号列候補の中から所定数の発音記号列を選択する場合に、上位の確からしい発音記号列を選択することが困難であるという問題点もあった。
また、請求項2に記載のテキスト発音記号変換辞書作成装置は、請求項1に記載のテキスト発音記号変換辞書作成装置において、前記セグメントが、1つの音素に対応することを特徴とする。
また、請求項4に記載の認識語彙辞書作成装置は、音声を認識するために用いられる認識語彙辞書を作成する認識語彙辞書作成装置であって、請求項1乃至請求項3のいずれか1項に記載のテキスト発音記号変換辞書作成装置で作成されたテキスト発音記号変換辞書を記憶するテキスト発音記号変換辞書記憶手段と、音声認識の対象である認識語彙が登録された認識語彙辞書を記憶する認識語彙辞書記憶手段と、前記認識語彙辞書に登録された認識語彙を取得する認識語彙取得手段と、前記テキスト発音記号変換辞書を参照することで前記取得した認識語彙をセグメントに分割し、セグメントの系列であるセグメント系列を生成するセグメント系列生成手段と、前記セグメント系列生成手段で生成されたセグメント系列から、音韻セグメント対の系列である音韻セグメント対系列を生成し、前記テキスト発音記号変換辞書を参照することで当該音韻セグメント対系列ごとに累積コストを算出する累積コスト算出手段と、前記累積コスト算出手段で算出した累積コストに基づいて前記音韻セグメント対系列の中から上位の音韻セグメント対系列を音韻セグメント対系列候補として選択する音声候補選択手段と、前記音声候補選択手段で選択した音韻セグメント対系列候補に対応する発音記号の系列を、前記認識語彙辞書に登録する音声候補登録手段と、を備え、前記累積コスト算出手段は、前記音韻セグメント対系列における前記音韻セグメント対の前記生起確率と、前記連接音韻セグメント対系列の前記接続確率とに基づいて累積コストを算出することを特徴とする。
また、請求項6に記載のテキスト発音記号変換辞書作成プログラムは、コンピュータに、テキストから発音記号への変換に用いられるテキスト発音記号変換辞書の作成を実行させるためのテキスト発音記号変換辞書作成プログラムであって、単語と、当該単語をセグメントに分割したセグメント分割情報と、当該セグメントごとの発音記号と、を含む学習データを記憶した学習データ記憶手段から、前記単語と、前記セグメント分割情報と、前記セグメントごとの発音記号と、を取得する学習データ取得ステップと、前記学習データ取得ステップによって取得された前記セグメント分割情報と、前記セグメントごとの発音記号から、セグメントの名前と当該セグメントの名前に対応する発音記号との組である音韻セグメント対を生成し、前記学習データにおいて当該音韻セグメント対が出現する頻度に基づいて生起確率を算出する生起確率算出ステップと、単語内において連接する音韻セグメント対の系列である連接音韻セグメント対系列が、前記学習データにおいて出現する頻度に基づいて接続確率を算出する接続確率算出ステップと、前記生起確率算出ステップによって算出された音韻セグメント対ごとの生起確率と、前記接続確率算出ステップによって算出された連接音韻セグメント対系列ごとの接続確率とを含むテキスト発音記号変換辞書を保存するテキスト発音記号変換辞書保存ステップと、を含むことを特徴とする。
また、請求項9に記載のテキスト発音記号変換辞書作成方法は、テキストから発音記号への変換に用いられるテキスト発音記号変換辞書を作成するテキスト発音記号変換辞書作成方法であって、単語と、当該単語をセグメントに分割したセグメント分割情報と、当該セグメントごとの発音記号と、を含む学習データを記憶した学習データ記憶手段から、前記単語と、前記セグメント分割情報と、前記セグメントごとの発音記号と、を取得する学習データ取得ステップと、前記学習データ取得ステップによって取得された前記セグメント分割情報と、前記セグメントごとの発音記号から、セグメントの名前と当該セグメントの名前に対応する発音記号との組である音韻セグメント対を生成し、前記学習データにおいて当該音韻セグメント対が出現する頻度に基づいて生起確率を算出する生起確率算出ステップと、単語内において連接する音韻セグメント対の系列である連接音韻セグメント対系列が、前記学習データにおいて出現する頻度に基づいて接続確率を算出する接続確率算出ステップと、前記生起確率算出ステップによって算出された音韻セグメント対ごとの生起確率と、前記接続確率算出ステップによって算出された連接音韻セグメント対系列ごとの接続確率と、を含むテキスト発音記号変換辞書を保存するテキスト発音記号変換辞書保存ステップと、を含むことを特徴とする。
また、請求項11に記載の音声認識方法は、請求項10に記載の認識語彙辞書作成方法で作成された認識語彙辞書に基づいて音声を認識するステップを含むことを特徴とする。
本発明に係る請求項3に記載のテキスト発音記号変換辞書作成装置によれば、セグメントとして1つの音素に対応するセグメントのみならず、連接する複数の音素に対応するセグメントも用いるので、単語等であるセグメントに関する生起確率値と接続確率値をテキスト発音記号変換辞書に設定することができる。これによって、テキストから発音記号への変換において、このテキスト発音記号変換辞書を用いることで、既知の単語の発音記号に基づいた発音記号を生成することができる。したがって、ユーザにとって発音が未知の単語であって、その単語が複数の既知の単語が接続されているとみなされるものについては、この既知の単語を意識して発音する可能性が高いので、テキストから発音記号への変換の精度が高くなる。
以下、本発明の第1の実施の形態を図面に基づき説明する。図1〜図3は、本発明に係るテキスト発音記号変換辞書作成装置、テキスト発音記号変換辞書作成プログラム、及びテキスト発音記号変換辞書作成方法の実施の形態を示す図である。
まず、本発明に係るテキスト発音記号変換辞書作成装置の構成を、図1に基づき説明する。図1は、本発明に係るテキスト発音記号変換辞書作成装置100の構成を示すブロック図である。
出現頻度カウンタ12は、セグメントに対応する音素とセグメントの組(以下、音韻セグメント対と記す。)が学習データに出現する頻度をカウントしてメモリ16に保存する。また、各セグメントが学習データに出現する頻度をカウントしてメモリ16に保存する。学習データの全ての単語に対する処理が終了した時点で、各音韻セグメント対の出現頻度と、各セグメントの出現頻度である各トータル頻度とが確定し、メモリ16に保存される。
生起確率算出部13は、音韻セグメント対の出現頻度を、当該音韻セグメント対に含まれるセグメントに対応するトータル頻度で除算することにより、音韻セグメント対ごとに生起確率を算出しメモリ16に保存する。
テキスト発音記号変換辞書保存部15は、音韻セグメント対ごとに算出された生起確率と、連接音韻セグメント対系列ごとに算出された接続確率とをメモリ16から読み出し、テキスト発音記号変換辞書として保存する。
テキスト発音記号変換辞書の作成処理は、図2のフローチャートに示すように、まずステップS201に移行し、学習データ取得部11において、学習データ記憶部10に記憶された学習データから、単語と、セグメント分割情報と、各セグメントに対応する発音記号とを取得し、ステップS202に移行する。
ステップS203に移行した場合は、出現頻度カウンタ12は、各音韻セグメント対が学習データに出現する頻度をカウントしてメモリ16に保存する。また、各セグメントが学習データに出現する頻度をカウントしてメモリ16に保存し、ステップS204に移行する。
ステップS205に移行した場合は、生起確率算出部13において、音韻セグメント対の出現頻度を、当該音韻セグメント対に含まれるセグメントに対応するトータル頻度で除算することにより、音韻セグメント対ごとに生起確率を算出しメモリ16に保存して、ステップS206に移行する。
ステップS207では、テキスト発音記号変換辞書保存部15において、音韻セグメント対ごとに算出された生起確率と、連接音韻セグメント対系列ごとに算出された接続確率とをメモリ16から読み出し、テキスト発音記号変換辞書として保存して処理を終了する。
以下、図3(a)、(b)、(c)に基づいて、テキスト発音記号変換辞書作成装置100の動作を具体的に説明する。
学習データ記憶部10に記憶された学習データは、単語の綴りとその単語の発音記号を含む一般的な辞書から抽出されたデータに基づいて生成される。本実施例においては、学習データに含まれるデータとして、図3(a)のように、例えば単語「abaca」に対するセグメント分割情報は、「(a)baca」、「a(b)aca」、「ab(a)ca」、「aba(c)a」、「abac(a)」といった情報から構成される。単語「abaca」は「a」、「b」、「a」、「c」、「a」のように5個のセグメントに分割され、単語「abacule」は「a」、「b」、「a」、「c」、「u」、「le」のように6個のセグメントに分割される。
例えば、単語「uphall」を構成する文字列「up」と「hall」は、それぞれを1つの単語とみなすことができる。
テキスト発音記号変換辞書保存部15は、音韻セグメント対ごとの生起確率に関する情報と、連接音韻セグメント対系列ごとの接続確率に関する情報をテキスト発音記号変換辞書として保存する。上記第1の実施の形態において、学習データ記憶部10は、請求項1記載の学習データ記憶手段に対応し、学習データ取得部11は、請求項1記載の学習データ取得手段に対応し、出現頻度カウンタ12及び生起確率算出部13は、請求項1記載の生起確率算出手段に対応し、接続確率算出部14は、請求項1記載の接続確率算出手段に対応し、テキスト発音記号変換辞書保存部15は、請求項1記載のテキスト発音記号変換辞書保存手段に対応する。
次に、本発明の第2の実施の形態を図面に基づき説明する。図4〜図8は、本発明に係る認識語彙辞書作成装置、認識語彙辞書作成プログラム、及び認識語彙辞書作成方法の実施の形態を示す図である。
まず、本発明に係る認識語彙辞書作成装置の構成を図4に基づき説明する。図4は、本発明に係る認識語彙辞書作成装置400を説明するブロック図である。第1認識語彙辞書記憶部40は、音声認識の対象となる認識語彙ごとに、その認識語彙の発音記号列が予め登録された第1認識語彙辞書を記憶している。第2認識語彙辞書記憶部41は、ユーザが登録した音声認識の対象となる認識語彙が保存された第2認識語彙を記憶している。第2認識語彙辞書と第1認識語彙辞書とは、認識語彙の発音記号列が第1認識語彙辞書では予め登録されているのに対し、第2認識語彙辞書では、本発明に係る認識語彙辞書作成装置によって新たに登録される点で異なる。
単語「abaca」を例にとると、5個のセグメントからなるセグメント系列{「a」,「b」,「a」,「c」,「a」}と、4個のセグメントからなるセグメント系列{「a」,「b」,「ac」,「a」}の2つのセグメント系列が生成される。
音声候補選択部46は、累積コストの算出対象となった音韻セグメント対の系列から、累積コストに基づいて音声候補を選択する。音声候補登録部47は、音声候補選択部46によって選択された音声候補を、対応する認識語彙の発音記号列として第2認識語彙辞書に登録する。
認識語彙辞書の作成処理は、図5のフローチャートに示すように、まずステップS501に移行し、認識語彙取得部43において、第2認識語彙辞書41に含まれる単語を入力し、ステップS502に移行する。ステップS502では、セグメント系列生成部44において、入力された単語をセグメントに分割してセグメント系列を生成し、ステップS503に移行する。ステップS503では、累積コスト算出部45において、セグメント系列の各セグメントに対して取り得る全ての発音記号を割り当てることにより、セグメント系列から音韻セグメント対の系列を生成し、ステップS504に移行する。
次に、図6に基づいて、累積コスト算出部45の動作を具体的に説明する。図6は、累積コスト算出部45が単語「abaca」の音声候補の累積コストを算出する例を示している。累積コスト算出部45は、例えば、単語「abaca」の音声候補/abaka/の累積コストを、以下のようにして算出する。すなわち、単語「abaca」の先頭のセグメント「a」には、発音記号/a/、発音記号/A/の2つの音声候補がある。累積コスト算出部45は、発音記号/a/の生起確率−0.02、発音記号/a/と発音記号/b/との接続確率−2.89、発音記号/b/の生起確率を累積し、文字列「ab」の累積コストを算出する。
さらに、累積コスト算出部45は、発音記号/b/から発音記号/a/に連続する接続確率と3番目のセグメント「a」の音声候補が発音記号/a/である生起確率とを累積する。さらに、発音記号/a/から発音記号/k/に連続する接続確率とセグメント「c」の音声候補が発音記号/k/である生起確率とを累積し、発音記号/k/から発音記号/a/に連続する接続確率とセグメント「a」の音声候補が発音記号/a/である生起確率とを累積する。以上の演算により、累積コスト算出部45は、発音記号列/abaka/の累積コスト−10.03を得る。
また、同様に、累積コスト算出部45は、他の音声候補である発音記号列/abAka/、/abakA/、/Abaka/、/abasa/等についても累積コストを算出する。
第1候補 発音記号列/abaka/ 累積コスト −10.03
第2候補 発音記号列/abAka/ 累積コスト −12.70
第3候補 発音記号列/abakA/ 累積コスト −14.25
第4候補 発音記号列/Abaka/ 累積コスト −16.53
第5候補 発音記号列/abaSa/ 累積コスト −17.64
このように構成した場合、本実施の形態は、予め登録される音声候補の数やそれらの登録に必要な第2認識語彙辞書の容量を予測することができる。
第2認識語彙辞書から取得した認識語彙をセグメント系列生成部44でセグメントに分割する前に、当該取得した認識語彙が第1認識語彙辞書に登録されているかどうかを判定し、登録されていた場合には、第1認識語彙辞書に登録されている発音記号列を、第2認識語彙辞書に登録するようにしてもよい。
符号81で示した例では、単語「uphall」の文字列「up」と「hall」とのように複数の単語に分割したものを拡張セグメントとしている。図示したように、本実施の形態の認識語彙辞書作成装置では、通常セグメントと拡張セグメントとを混在させている。
次に、本発明の第3の実施の形態を図面に基づき説明する。図9は、本発明に係る音声認識装置の実施の形態を示す図である。本実施の形態の音声認識装置900は、先に述べた本実施の形態の認識語彙辞書作成装置400によって作成した認識語彙辞書93を備えて音声認識を行う。
図9に示すように、音声認識装置900は、入力音声を入力する音声入力部90、入力された音声から特徴量の時系列を抽出する特徴量抽出部91、音響モデルを記憶する音響モデル記憶部92、音声候補を記憶する認識語彙辞書93、パターンマッチングを行う照合部94、入力音声の認識結果候補を出力する認識結果出力部95、音声認識装置に制御信号を入力するための操作部96を備えている。
まず、ユーザが図示しないマイクに向けて発声すると、音声入力部90は、マイクに入力された入力音声に対してA/D変換を行う。
特徴量抽出部91は、入力音声のデジタル信号に対して分析を行い、例えば、MFCC(Mel Frequency Cepstrum Coefficient)等の特徴量の時系列を抽出する。
認識結果出力部95は、照合部94で得られた認識結果候補をディスプレイ等に出力する。ユーザが発音記号/ufol/と/aphol/のいずれを発音しても単語「uphall」が認識結果候補となる。
なお、上述した第3の実施の形態に係る音声認識プログラムは、記憶部を備えた一般的なコンピュータシステムによって実行可能である。この場合、上記記憶部に格納された音声認識プログラムをコンピュータが実行することによって、上述した音声認識動作が行われる。なお、上記音声認識プログラムは、通信媒体を介してコンピュータシステムに供給されてもかまわない。また、光ディスク等の記憶媒体に上記音声認識プログラムを記録し、当該記録媒体に記録された音声認識プログラムをコンピュータシステムで読み込んでもかまわない。
400 認識語彙辞書作成装置
900 音声認識装置
10 学習データ記憶部
11 学習データ取得部
12 出現頻度カウンタ
13 生起確率算出部
14 接続確率算出部
15 テキスト発音記号変換辞書保存部
16 メモリ
40 第1認識語彙辞書記憶部
41 第2認識語彙辞書記憶部
42 テキスト発音記号変換辞書記憶部
43 認識語彙取得部
44 セグメント系列生成部
45 累積コスト算出部
46 音声候補選択部
47 音声候補登録部
90 音声入力部
91 特徴量抽出部
92 音響モデル記憶部
93 認識語彙辞書
94 照合部
95 認識結果出力部
96 操作部
Claims (11)
- テキストから発音記号への変換に用いられるテキスト発音記号変換辞書を作成するテキスト発音記号変換辞書作成装置であって、
単語と、当該単語をセグメントに分割したセグメント分割情報と、当該セグメントごとの発音記号と、を含むデータを学習データとして記憶する学習データ記憶手段と、
前記学習データから、前記単語と、前記セグメント分割情報と、前記セグメントごとの発音記号と、を取得する学習データ取得手段と、
前記学習データ取得手段によって取得された前記セグメント分割情報と、前記セグメントごとの発音記号から、セグメントの名前と当該セグメントの名前に対応する発音記号との組である音韻セグメント対を生成し、前記学習データにおいて当該音韻セグメント対が出現する頻度に基づいて生起確率を算出する生起確率算出手段と、
単語内において連接する音韻セグメント対の系列である連接音韻セグメント対系列が、前記学習データにおいて出現する頻度に基づいて接続確率を算出する接続確率算出手段と、
前記生起確率算出手段によって算出された音韻セグメント対ごとの生起確率と、前記接続確率算出手段によって算出された連接音韻セグメント対系列ごとの接続確率とを含むテキスト発音記号変換辞書を保存するテキスト発音記号変換辞書保存手段と、
を備えることを特徴とするテキスト発音記号変換辞書作成装置。 - 前記セグメントは、1つの音素に対応することを特徴とする請求項1に記載のテキスト発音記号変換辞書作成装置。
- 前記セグメントは、1つの音素に対応するセグメントと、連接した複数の音素に対応するセグメントから構成されることを特徴とする請求項1に記載のテキスト発音記号変換辞書作成装置。
- 音声を認識するために用いられる認識語彙辞書を作成する認識語彙辞書作成装置であって、
請求項1乃至請求項3のいずれか1項に記載のテキスト発音記号変換辞書作成装置で作成されたテキスト発音記号変換辞書を記憶するテキスト発音記号変換辞書記憶手段と、
音声認識の対象である認識語彙が登録された認識語彙辞書を記憶する認識語彙辞書記憶手段と、
前記認識語彙辞書に登録された認識語彙を取得する認識語彙取得手段と、
前記テキスト発音記号変換辞書を参照することで前記取得した認識語彙をセグメントに分割し、セグメントの系列であるセグメント系列を生成するセグメント系列生成手段と、
前記セグメント系列生成手段で生成されたセグメント系列から、音韻セグメント対の系列である音韻セグメント対系列を生成し、前記テキスト発音記号変換辞書を参照することで当該音韻セグメント対系列ごとに累積コストを算出する累積コスト算出手段と、
前記累積コスト算出手段で算出した累積コストに基づいて前記音韻セグメント対系列の中から上位の音韻セグメント対系列を音韻セグメント対系列候補として選択する音声候補選択手段と、
前記音声候補選択手段で選択した音韻セグメント対系列候補に対応する発音記号の系列を、前記認識語彙辞書に登録する音声候補登録手段と、を備え、
前記累積コスト算出手段は、前記音韻セグメント対系列における前記音韻セグメント対の前記生起確率と、前記連接音韻セグメント対系列の前記接続確率とに基づいて累積コストを算出することを特徴とする認識語彙辞書作成装置。 - 請求項4に記載の認識語彙辞書作成装置で作成された認識語彙辞書に基づき音声を認識することを特徴とする音声認識装置。
- コンピュータに、テキストから発音記号への変換に用いられるテキスト発音記号変換辞書の作成を実行させるためのテキスト発音記号変換辞書作成プログラムであって、
単語と、当該単語をセグメントに分割したセグメント分割情報と、当該セグメントごとの発音記号と、を含む学習データを記憶した学習データ記憶手段から、前記単語と、前記セグメント分割情報と、前記セグメントごとの発音記号と、を取得する学習データ取得ステップと、
前記学習データ取得ステップによって取得された前記セグメント分割情報と、前記セグメントごとの発音記号から、セグメントの名前と当該セグメントの名前に対応する発音記号との組である音韻セグメント対を生成し、前記学習データにおいて当該音韻セグメント対が出現する頻度に基づいて生起確率を算出する生起確率算出ステップと、
単語内において連接する音韻セグメント対の系列である連接音韻セグメント対系列が、前記学習データにおいて出現する頻度に基づいて接続確率を算出する接続確率算出ステップと、
前記生起確率算出ステップによって算出された音韻セグメント対ごとの生起確率と、前記接続確率算出ステップによって算出された連接音韻セグメント対系列ごとの接続確率とを含むテキスト発音記号変換辞書を保存するテキスト発音記号変換辞書保存ステップと、を含むことを特徴とするテキスト発音記号変換辞書作成プログラム。 - コンピュータに、音声を認識するために用いられる認識語彙辞書の作成を実行させるための認識語彙辞書作成プログラムであって、
請求項6に記載のテキスト発音記号変換辞書作成プログラムで作成されたテキスト発音記号変換辞書を記憶するテキスト発音記号変換辞書記憶手段から当該テキスト発音記号変換辞書を取得するテキスト発音記号変換辞書取得ステップと、
音声認識の対象である認識語彙が登録された認識語彙辞書を記憶する認識語彙辞書記憶ステップと、
前記認識語彙辞書に登録された認識語彙を取得する認識語彙取得ステップと、
前記テキスト発音記号変換辞書取得ステップで取得した前記テキスト発音記号変換辞書を参照することで前記取得した認識語彙をセグメントに分割し、セグメントの系列であるセグメント系列を生成するセグメント系列生成ステップと、
前記セグメント系列生成手段で生成されたセグメント系列から、音韻セグメント対の系列である音韻セグメント対系列を生成し、前記テキスト発音記号変換辞書を参照することで当該音韻セグメント対系列ごとに累積コストを算出する累積コスト算出ステップと、
前記累積コスト算出ステップで算出した累積コストに基づいて前記音韻セグメント対系列の中から上位の音韻セグメント対系列を音韻セグメント対系列候補として選択する音声候補選択ステップと、
前記音声候補選択ステップで選択した音韻セグメント対系列候補に対応する発音記号の系列を、前記認識語彙辞書に登録する音声候補登録ステップと、を含み、
前記累積コスト算出ステップは、前記音韻セグメント対系列における前記音韻セグメント対の前記生起確率と、前記連接音韻セグメント対系列の前記接続確率とに基づいて累積コストを算出するステップを含むことを特徴とする認識語彙辞書作成プログラム。 - コンピュータに、請求項7に記載の認識語彙辞書作成プログラムで作成された認識語彙辞書に基づいて音声を認識するステップを含む処理を実行させることを特徴とする音声認識プログラム。
- テキストから発音記号への変換に用いられるテキスト発音記号変換辞書を作成するテキスト発音記号変換辞書作成方法であって、
単語と、当該単語をセグメントに分割したセグメント分割情報と、当該セグメントごとの発音記号と、を含む学習データを記憶した学習データ記憶手段から、前記単語と、前記セグメント分割情報と、前記セグメントごとの発音記号と、を取得する学習データ取得ステップと、
前記学習データ取得ステップによって取得された前記セグメント分割情報と、前記セグメントごとの発音記号から、セグメントの名前と当該セグメントの名前に対応する発音記号との組である音韻セグメント対を生成し、前記学習データにおいて当該音韻セグメント対が出現する頻度に基づいて生起確率を算出する生起確率算出ステップと、
単語内において連接する音韻セグメント対の系列である連接音韻セグメント対系列が、前記学習データにおいて出現する頻度に基づいて接続確率を算出する接続確率算出ステップと、
前記生起確率算出ステップによって算出された音韻セグメント対ごとの生起確率と、前記接続確率算出ステップによって算出された連接音韻セグメント対系列ごとの接続確率とを含むテキスト発音記号変換辞書を保存するテキスト発音記号変換辞書保存ステップと、
を含むことを特徴とするテキスト発音記号変換辞書作成方法。 - 音声を認識するために用いられる認識語彙辞書を作成する認識語彙辞書作成方法であって、
請求項9に記載のテキスト発音記号変換辞書作成方法で作成されたテキスト発音記号変換辞書を記憶するテキスト発音記号変換辞書記憶手段から当該テキスト発音記号変換辞書を取得するテキスト発音記号変換辞書取得ステップと、
音声認識の対象である認識語彙が登録された認識語彙辞書を記憶する認識語彙辞書記憶ステップと、
前記認識語彙辞書に登録された認識語彙を取得する認識語彙取得ステップと、
前記テキスト発音記号変換辞書取得ステップで取得した前記テキスト発音記号変換辞書を参照することで前記取得した認識語彙をセグメントに分割し、セグメントの系列であるセグメント系列を生成するセグメント系列生成ステップと、
前記セグメント系列生成手段で生成されたセグメント系列から、音韻セグメント対の系列である音韻セグメント対系列を生成し、前記テキスト発音記号変換辞書を参照することで当該音韻セグメント対系列ごとに累積コストを算出する累積コスト算出ステップと、
前記累積コスト算出ステップで算出した累積コストに基づいて前記音韻セグメント対系列の中から上位の音韻セグメント対系列を音韻セグメント対系列候補として選択する音声候補選択ステップと、
前記音声候補選択ステップで選択した音韻セグメント対系列候補に対応する発音記号の系列を、前記認識語彙辞書に登録する音声候補登録ステップと、を含み、
前記累積コスト算出ステップは、前記音韻セグメント対系列における前記音韻セグメント対の前記生起確率と、前記連接音韻セグメント対系列の前記接続確率とに基づいて累積コストを算出することを特徴とする認識語彙辞書作成方法。 - 請求項10に記載の認識語彙辞書作成方法で作成された認識語彙辞書に基づいて音声を認識するステップを含むことを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007116607A JP4769223B2 (ja) | 2007-04-26 | 2007-04-26 | テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007116607A JP4769223B2 (ja) | 2007-04-26 | 2007-04-26 | テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008275731A true JP2008275731A (ja) | 2008-11-13 |
JP4769223B2 JP4769223B2 (ja) | 2011-09-07 |
Family
ID=40053790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007116607A Expired - Fee Related JP4769223B2 (ja) | 2007-04-26 | 2007-04-26 | テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4769223B2 (ja) |
Cited By (64)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011039468A (ja) * | 2009-08-14 | 2011-02-24 | Korea Electronics Telecommun | 電子辞書で音声認識を用いた単語探索装置及びその方法 |
US8645139B2 (en) | 2009-06-03 | 2014-02-04 | Samsung Electronics Co., Ltd. | Apparatus and method of extending pronunciation dictionary used for speech recognition |
US8706484B2 (en) | 2009-05-22 | 2014-04-22 | Alpine Electronics, Inc. | Voice recognition dictionary generation apparatus and voice recognition dictionary generation method |
KR20160061071A (ko) * | 2014-11-21 | 2016-05-31 | 에스케이텔레콤 주식회사 | 발음 변이를 적용시킨 음성 인식 방법 |
JP2017062475A (ja) * | 2012-03-02 | 2017-03-30 | アップル インコーポレイテッド | 名前発音システム及び方法 |
US10083690B2 (en) | 2014-05-30 | 2018-09-25 | Apple Inc. | Better resolution when referencing to concepts |
US10108612B2 (en) | 2008-07-31 | 2018-10-23 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10311871B2 (en) | 2015-03-08 | 2019-06-04 | Apple Inc. | Competing devices responding to voice triggers |
US10354652B2 (en) | 2015-12-02 | 2019-07-16 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10381016B2 (en) | 2008-01-03 | 2019-08-13 | Apple Inc. | Methods and apparatus for altering audio output signals |
US10390213B2 (en) | 2014-09-30 | 2019-08-20 | Apple Inc. | Social reminders |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10403283B1 (en) | 2018-06-01 | 2019-09-03 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10417344B2 (en) | 2014-05-30 | 2019-09-17 | Apple Inc. | Exemplar-based natural language processing |
US10417405B2 (en) | 2011-03-21 | 2019-09-17 | Apple Inc. | Device access using voice authentication |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10431204B2 (en) | 2014-09-11 | 2019-10-01 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10438595B2 (en) | 2014-09-30 | 2019-10-08 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10453443B2 (en) | 2014-09-30 | 2019-10-22 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10497365B2 (en) | 2014-05-30 | 2019-12-03 | Apple Inc. | Multi-command single utterance input method |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10529332B2 (en) | 2015-03-08 | 2020-01-07 | Apple Inc. | Virtual assistant activation |
US10553215B2 (en) | 2016-09-23 | 2020-02-04 | Apple Inc. | Intelligent automated assistant |
US10580409B2 (en) | 2016-06-11 | 2020-03-03 | Apple Inc. | Application integration with a digital assistant |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10643611B2 (en) | 2008-10-02 | 2020-05-05 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10657961B2 (en) | 2013-06-08 | 2020-05-19 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10684703B2 (en) | 2018-06-01 | 2020-06-16 | Apple Inc. | Attention aware virtual assistant dismissal |
US10692504B2 (en) | 2010-02-25 | 2020-06-23 | Apple Inc. | User profiling for voice input processing |
US10699717B2 (en) | 2014-05-30 | 2020-06-30 | Apple Inc. | Intelligent assistant for home automation |
CN111402862A (zh) * | 2020-02-28 | 2020-07-10 | 问问智能信息科技有限公司 | 语音识别方法、装置、存储介质及设备 |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10769385B2 (en) | 2013-06-09 | 2020-09-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
KR20200121260A (ko) * | 2014-11-21 | 2020-10-23 | 에스케이텔레콤 주식회사 | 발음 변이를 적용시킨 음성 인식 방법 |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10942702B2 (en) | 2016-06-11 | 2021-03-09 | Apple Inc. | Intelligent device arbitration and control |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11023513B2 (en) | 2007-12-20 | 2021-06-01 | Apple Inc. | Method and apparatus for searching using an active ontology |
US11048473B2 (en) | 2013-06-09 | 2021-06-29 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US11069347B2 (en) | 2016-06-08 | 2021-07-20 | Apple Inc. | Intelligent automated assistant for media exploration |
US11127397B2 (en) | 2015-05-27 | 2021-09-21 | Apple Inc. | Device voice control |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US11231904B2 (en) | 2015-03-06 | 2022-01-25 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
US11314370B2 (en) | 2013-12-06 | 2022-04-26 | Apple Inc. | Method for extracting salient dialog usage from live data |
US11350253B2 (en) | 2011-06-03 | 2022-05-31 | Apple Inc. | Active transport based notifications |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US11495218B2 (en) | 2018-06-01 | 2022-11-08 | Apple Inc. | Virtual assistant operation in multi-device environments |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11344990A (ja) * | 1998-04-29 | 1999-12-14 | Matsushita Electric Ind Co Ltd | 綴り言葉に対する複数発音を生成し評価する判断ツリ―を利用する方法及び装置 |
JP2005258439A (ja) * | 2004-03-10 | 2005-09-22 | Microsoft Corp | 文字から音声への変換のための相互情報量基準を用いた大きな文字音素単位の生成 |
-
2007
- 2007-04-26 JP JP2007116607A patent/JP4769223B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11344990A (ja) * | 1998-04-29 | 1999-12-14 | Matsushita Electric Ind Co Ltd | 綴り言葉に対する複数発音を生成し評価する判断ツリ―を利用する方法及び装置 |
JP2005258439A (ja) * | 2004-03-10 | 2005-09-22 | Microsoft Corp | 文字から音声への変換のための相互情報量基準を用いた大きな文字音素単位の生成 |
Cited By (80)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11023513B2 (en) | 2007-12-20 | 2021-06-01 | Apple Inc. | Method and apparatus for searching using an active ontology |
US10381016B2 (en) | 2008-01-03 | 2019-08-13 | Apple Inc. | Methods and apparatus for altering audio output signals |
US10108612B2 (en) | 2008-07-31 | 2018-10-23 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US10643611B2 (en) | 2008-10-02 | 2020-05-05 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8706484B2 (en) | 2009-05-22 | 2014-04-22 | Alpine Electronics, Inc. | Voice recognition dictionary generation apparatus and voice recognition dictionary generation method |
US8645139B2 (en) | 2009-06-03 | 2014-02-04 | Samsung Electronics Co., Ltd. | Apparatus and method of extending pronunciation dictionary used for speech recognition |
JP2011039468A (ja) * | 2009-08-14 | 2011-02-24 | Korea Electronics Telecommun | 電子辞書で音声認識を用いた単語探索装置及びその方法 |
US10692504B2 (en) | 2010-02-25 | 2020-06-23 | Apple Inc. | User profiling for voice input processing |
US10417405B2 (en) | 2011-03-21 | 2019-09-17 | Apple Inc. | Device access using voice authentication |
US11350253B2 (en) | 2011-06-03 | 2022-05-31 | Apple Inc. | Active transport based notifications |
JP2017062475A (ja) * | 2012-03-02 | 2017-03-30 | アップル インコーポレイテッド | 名前発音システム及び方法 |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US11069336B2 (en) | 2012-03-02 | 2021-07-20 | Apple Inc. | Systems and methods for name pronunciation |
US10657961B2 (en) | 2013-06-08 | 2020-05-19 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US11048473B2 (en) | 2013-06-09 | 2021-06-29 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10769385B2 (en) | 2013-06-09 | 2020-09-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US11314370B2 (en) | 2013-12-06 | 2022-04-26 | Apple Inc. | Method for extracting salient dialog usage from live data |
US10417344B2 (en) | 2014-05-30 | 2019-09-17 | Apple Inc. | Exemplar-based natural language processing |
US10699717B2 (en) | 2014-05-30 | 2020-06-30 | Apple Inc. | Intelligent assistant for home automation |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
US10083690B2 (en) | 2014-05-30 | 2018-09-25 | Apple Inc. | Better resolution when referencing to concepts |
US10714095B2 (en) | 2014-05-30 | 2020-07-14 | Apple Inc. | Intelligent assistant for home automation |
US10657966B2 (en) | 2014-05-30 | 2020-05-19 | Apple Inc. | Better resolution when referencing to concepts |
US10497365B2 (en) | 2014-05-30 | 2019-12-03 | Apple Inc. | Multi-command single utterance input method |
US10431204B2 (en) | 2014-09-11 | 2019-10-01 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10438595B2 (en) | 2014-09-30 | 2019-10-08 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10390213B2 (en) | 2014-09-30 | 2019-08-20 | Apple Inc. | Social reminders |
US10453443B2 (en) | 2014-09-30 | 2019-10-22 | Apple Inc. | Providing an indication of the suitability of speech recognition |
KR20160061071A (ko) * | 2014-11-21 | 2016-05-31 | 에스케이텔레콤 주식회사 | 발음 변이를 적용시킨 음성 인식 방법 |
KR102300303B1 (ko) | 2014-11-21 | 2021-09-08 | 에스케이텔레콤 주식회사 | 발음 변이를 적용시킨 음성 인식 방법 |
KR20200121260A (ko) * | 2014-11-21 | 2020-10-23 | 에스케이텔레콤 주식회사 | 발음 변이를 적용시킨 음성 인식 방법 |
KR102167157B1 (ko) * | 2014-11-21 | 2020-10-16 | 에스케이 텔레콤주식회사 | 발음 변이를 적용시킨 음성 인식 방법 |
US11231904B2 (en) | 2015-03-06 | 2022-01-25 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10529332B2 (en) | 2015-03-08 | 2020-01-07 | Apple Inc. | Virtual assistant activation |
US10311871B2 (en) | 2015-03-08 | 2019-06-04 | Apple Inc. | Competing devices responding to voice triggers |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US11127397B2 (en) | 2015-05-27 | 2021-09-21 | Apple Inc. | Device voice control |
US10354652B2 (en) | 2015-12-02 | 2019-07-16 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US11069347B2 (en) | 2016-06-08 | 2021-07-20 | Apple Inc. | Intelligent automated assistant for media exploration |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US10942702B2 (en) | 2016-06-11 | 2021-03-09 | Apple Inc. | Intelligent device arbitration and control |
US10580409B2 (en) | 2016-06-11 | 2020-03-03 | Apple Inc. | Application integration with a digital assistant |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10553215B2 (en) | 2016-09-23 | 2020-02-04 | Apple Inc. | Intelligent automated assistant |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10847142B2 (en) | 2017-05-11 | 2020-11-24 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10684703B2 (en) | 2018-06-01 | 2020-06-16 | Apple Inc. | Attention aware virtual assistant dismissal |
US10984798B2 (en) | 2018-06-01 | 2021-04-20 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11495218B2 (en) | 2018-06-01 | 2022-11-08 | Apple Inc. | Virtual assistant operation in multi-device environments |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10403283B1 (en) | 2018-06-01 | 2019-09-03 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10504518B1 (en) | 2018-06-03 | 2019-12-10 | Apple Inc. | Accelerated task performance |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10944859B2 (en) | 2018-06-03 | 2021-03-09 | Apple Inc. | Accelerated task performance |
CN111402862A (zh) * | 2020-02-28 | 2020-07-10 | 问问智能信息科技有限公司 | 语音识别方法、装置、存储介质及设备 |
CN111402862B (zh) * | 2020-02-28 | 2023-06-20 | 出门问问创新科技有限公司 | 语音识别方法、装置、存储介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
JP4769223B2 (ja) | 2011-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4769223B2 (ja) | テキスト発音記号変換辞書作成装置、認識語彙辞書作成装置、及び音声認識装置 | |
US8868431B2 (en) | Recognition dictionary creation device and voice recognition device | |
US5949961A (en) | Word syllabification in speech synthesis system | |
CN109036391B (zh) | 语音识别方法、装置及系统 | |
CN106663424B (zh) | 意图理解装置以及方法 | |
JP6245846B2 (ja) | 音声認識における読み精度を改善するシステム、方法、およびプログラム | |
US20110131038A1 (en) | Exception dictionary creating unit, exception dictionary creating method, and program therefor, as well as speech recognition unit and speech recognition method | |
US8271282B2 (en) | Voice recognition apparatus, voice recognition method and recording medium | |
US11074909B2 (en) | Device for recognizing speech input from user and operating method thereof | |
US7921014B2 (en) | System and method for supporting text-to-speech | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
JP6580882B2 (ja) | 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
CN107610693B (zh) | 文本语料库的构建方法和装置 | |
JP5276610B2 (ja) | 言語モデル生成装置、そのプログラムおよび音声認識システム | |
KR20210001937A (ko) | 사용자의 음성 입력을 인식하는 디바이스 및 그 동작 방법 | |
JP6941494B2 (ja) | エンドツーエンド日本語音声認識モデル学習装置およびプログラム | |
JP4966324B2 (ja) | 音声翻訳装置、および方法 | |
KR100542757B1 (ko) | 음운변이 규칙을 이용한 외래어 음차표기 자동 확장 방법및 그 장치 | |
JP4741452B2 (ja) | 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム | |
JP4733436B2 (ja) | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 | |
JP2004309928A (ja) | 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム | |
JP5772219B2 (ja) | 音響モデル生成装置、音響モデル生成方法及び音響モデル生成用コンピュータプログラム | |
JP6023543B2 (ja) | 記号列変換方法とそれを用いた音声認識方法と、それらの装置とプログラムとその記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100803 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100914 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110329 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110614 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110617 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140624 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
LAPS | Cancellation because of no payment of annual fees |