JP3724649B2 - 音声認識用辞書作成装置および音声認識装置 - Google Patents
音声認識用辞書作成装置および音声認識装置 Download PDFInfo
- Publication number
- JP3724649B2 JP3724649B2 JP2004551201A JP2004551201A JP3724649B2 JP 3724649 B2 JP3724649 B2 JP 3724649B2 JP 2004551201 A JP2004551201 A JP 2004551201A JP 2004551201 A JP2004551201 A JP 2004551201A JP 3724649 B2 JP3724649 B2 JP 3724649B2
- Authority
- JP
- Japan
- Prior art keywords
- abbreviation
- speech recognition
- speech
- recognition dictionary
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Description
【0001】
この発明は、不特定話者を対象とした音声認識装置に用いられる辞書を作成する音声認識用辞書作成装置およびその辞書を用いて音声を認識する音声認識装置等に関する。
【背景技術】
【0002】
従来より、不特定話者を対象とした音声認識装置においては、認識語彙を規定する音声認識用辞書が不可欠である。認識対象語彙がシステム設計時において規定可能な場合には、事前に作成した音声認識用辞書を用いるが、語彙が規定できない場合、あるいは動的に変更されるべきである場合においては、人手による入力、または自動的に文字列情報から音声認識用語彙を作成し辞書に登録する。例えばテレビ番組切替装置における音声認識装置では、番組情報を含んだ文字列情報の形態素解析を行ってその表記の読みを求め、得られた読みを上記音声認識用辞書に登録する。例えば「NHKニュース10」という番組に対して、その読みである「えぬえいちけいにゅーすてん」を当該番組を表わす単語として音声認識用辞書に登録する。これにより、「えぬえいちけいにゅーすてん」というユーザの発声に対して、チャンネルを「NHKニュース10」に切り替える機能を実現することが可能となる。
【0003】
また、ユーザが完全な単語を発話しないことを考慮して、複合単語を構成する単語に分割し、これらを連接しなおした部分文字列からなる言い換え表現を辞書に登録するという方法がある(例えば、特開2002−41081号公報に開示された技術)。上記公報に記載された音声認識用辞書作成装置では、文字列情報として入力した単語を解析し、総ての読み、総ての連接単語を考慮して発声単位/読みのペアを作成して音声認識用辞書に登録する。これにより、例えば上記「NHKニュース10」という番組名に対し、「えぬえいちけいにゅーす」、「にゅーすてん」という読みが辞書に登録されることとなり、ユーザによるこれらの発声を正しく処理されることが期待される。
【0004】
さらに上記音声認識用辞書作成方法は、上記言い換え表現に付された読みの確からしさを示す尤度や、言い換え表現を構成する単語の出現順位、当該単語が言い換え表現中で利用される頻度などを考慮した重み付けを行って、音声認識用辞書に登録する方法を提示している。これによって、言い換え表現としてより確からしい単語が音声照合によって選択されることを期待する。
【0005】
このように上記従来の音声認識用辞書作成方法は、入力された文字列情報を解析してあらゆる組合せの単語列を再構築し、これを当該単語の言い換え表現としてその読みを音声認識用辞書に登録することによって、正式な単語の発声だけでなく、ユーザによる任意の省略的な発声にも対処できることを目指すものである。
【0006】
しかしながら、上記従来の音声認識用辞書作成方法は、次に挙げるような問題を有する。
【0007】
すなわち、まず第1に、全網羅的にあらゆる組み合わせの文字列を生成した場合、その数は膨大なものとなる。このため、それら総てを音声認識用辞書に登録した場合、辞書が巨大となり、計算量の増加と音韻的に類似した多数の単語の登録により認識率の低下を招く恐れがある。さらに、異なる単語から生成された上記言い換え表現が同じ文字列・同じ読みとなる可能性が高くなり、たとえこれらが正しく認識されようとも、ユーザの発声が本来いずれの単語を意図したものであったかを識別するのは、極めて困難となる。
【0008】
また上記従来の音声認識用辞書作成方法では、非常に多く登録される言い換え表現候補の中から、より尤もらしいものを選択する目的で、言い換え表現中に表われる単語に関わる尤度を主として用いて言い換え表現の重み付けを求めている。しかし、例えば「金曜ドラマ」を省略して「きんどら」と発声するようなケースを考えた場合、言い換え表現を生成する尤度を決定する要因は、組み合わされて使われた単語以上に、使われた単語から抜き出された音韻の数や、各々の音韻の連接の日本語としての自然さによって影響されるものであるといったことが考慮されていない。このため、言い換え表現に対する尤度が適切な値とならないという問題がある。
【0009】
さらに、単語の言い換え表現は、単語を特定した場合、ほぼ1対1に対応するものであり、とりわけユーザを限定した場合にはその傾向は極めて顕著になると考えられる。上記従来の音声認識用辞書作成方法では、このような言い換え表現の使用履歴を考慮した言い換え表現生成の制御を行っていないため、生成され認識辞書に登録される言い換え表現の数を適切に抑えることができないという問題を有する。
【発明の開示】
【0010】
そこで本発明は、単語の省略的な言い換え表現に対しても高い認識率で認識することが可能な音声認識用辞書を効率的に作成する音声認識用辞書作成装置、および、これによって作成された音声認識用辞書を用いた省リソースで高性能な音声認識装置を提供することを目的とする。
【0011】
上記目的を達成するために本発明に係る音声認識用辞書作成装置は、音声認識用辞書を作成する音声認識用辞書作成装置であって、1以上の単語から構成される認識対象語について、前記認識対象語から分割された隣り合わない構成単語または前記認識対象語から分割された構成単語の一部を連接して生成した前記認識対象語の省略語候補に対して、生成規則に基づいて、前記認識対象語の省略語を生成する省略語生成手段と、生成された省略語を、生成規則によって決定される該省略語の発声確率および前記認識対象語とともに前記音声認識用辞書として記憶する語彙記憶手段とを備えることを特徴とする。これによって、発声のし易さ等を考慮したルールに基づいて、前記認識対象語の省略語を生成し音声認識辞書として発声確率とともに登録することで、単語の省略的な言い換え表現に対しても高い認識率で認識することが可能な音声認識用辞書を効率的に作成する音声認識用辞書作成装置が実現される。
【0012】
ここで、前記音声認識用辞書作成装置はさらに、前記認識対象語を構成単語に分割する単語分割手段と、分割された構成単語ごとの読みに基づいて、構成単語ごとのモーラ列を生成するモーラ列生成手段とを備え、前記省略語生成手段は、前記モーラ列生成手段によって生成された構成単語ごとのモーラ列に基づいて、構成単語ごとのモーラ列からモーラを取り出して連接することにより、1個以上のモーラからなる省略語を生成してもよい。このとき、前記省略語生成手段は、モーラを用いた省略語の生成規則を格納している省略語生成規則格納部と、前記構成単語ごとのモーラ列からモーラを取り出して連接することにより、1個以上のモーラからなる省略語の候補を生成する候補生成部と、生成された省略語の候補に対して、前記省略語生成規則格納部に格納された生成規則を適用することで、最終的に生成する省略語を決定する省略語決定部とを有してもよい。
【0013】
上記構成によれば、構成単語のモーラ列から部分モーラ列を抽出し、これらを連接して省略語表現を構築する規則を事前に構築しておくことによって、新たな認識対象語に対しても可能性の高い省略語表現を生成することを可能とし、これを認識語彙として認識用辞書に登録することによって、認識対象語だけでなく当該単語の省略語表現の発声に対しても正しく認識できる音声認識装置を実現することが可能な音声認識用辞書作成装置が作成される。
【0014】
また、前記省略語生成規則格納部には、複数の生成規則が格納され、前記省略語決定部は、生成された省略語の候補について、前記省略語生成規則格納部に格納された複数の規則それぞれに対する尤度を算出し、算出した尤度を総合的に勘案することによって発声確率を決定し、前記語彙記憶手段は、前記省略語決定部によって決定された省略語および発声確率を前記認識対象語とともに記憶してもよい。ここで、前記省略語決定部は、前記複数の規則それぞれに対する尤度に、対応する重み付け係数を乗じて得られる値を合計することによって前記発声確率を決定してもよい。そして、前記省略語決定部は、前記省略語の候補に対する発声確率が一定のしきい値を超える場合に、最終的に生成する省略語と決定してもよい。
【0015】
上記構成によれば、認識対象語に対して生成される1語以上の省略語について各々発声確率が計算され、上記音声認識用辞書に省略語と関連付けられて格納される。これによって、1語の認識対象語に対して2語以上の省略語が生成された場合でも、それらから1語のみを絞り込むことなく、計算された発声確率に応じた重みを夫々の省略語に与えることが可能となり、比較的省略語として使われにくいと予想される省略語に対しては低い確率が与えられ、音声との照合において高い認識精度を呈することのできる音声認識装置を実現できる音声認識用辞書を作成することができる。
【0016】
また、前記省略語生成規則格納部には、単語の係り受けに関する第1の規則が格納され、前記省略語決定部は、前記第1の規則に基づいて、前記候補の中から最終的に生成する省略語を決定してもよい。例えば、前記第1の規則には、修飾語と被修飾語とを対にすることによって省略語を生成するという条件が含まれてもよいし、省略語を構成する修飾語と被修飾語との距離と前記尤度との関係が含まれてもよい。
【0017】
上記構成によれば、認識対象語に対応する省略語を生成する際に、認識対象語を構成する単語間の関係を考慮することが可能となり、構成単語間の関係に基づいた省略語を生成することが可能となる。これにより、認識対象語に含まれる構成単語中で、省略語に含まれる可能性の低い単語を除外したり、逆に省略語に含まれる可能性の高い単語を重点的に用いたりすることが可能となって、より適切な省略語を生成することができ、使用の可能性の低い省略語を認識用辞書に登録することを避け、高い認識精度を有する音声認識装置を実現できる音声認識用辞書を作成することができる。
【0018】
また、前記省略語生成規則格納部には、省略語を生成するときに構成単語のモーラ列から取り出される部分モーラ列の長さおよび構成単語における位置の少なくとも1つに関する第2の規則が格納され、前記省略語決定部は、前記第2の規則に基づいて、前記候補の中から最終的に生成する省略語を決定してもよい。たとえば、前記第2の規則には、前記部分モーラ列の長さを示すモーラ数と前記尤度との関係が含まれてもよいし、前記部分モーラ列の構成単語における位置を示す構成単語の先頭からの距離に対応するモーラ数と前記尤度との関係が含まれてもよい。
【0019】
上記構成によれば、当該単語を構成する単語の部分モーラを連接して省略語を生成する際の、抜き出した部分モーラ列の数や、各モーラの出現位置、生成された省略語の総モーラ数を考慮することが可能となる。これにより、複数の単語から構成される単語や長い単語を音韻的に短く切り詰めて省略語を生成する際の音韻の抽出に関わる一般的な傾向を、モーラという日本語等の言語における音韻のリズムの基本単位を用いて規則化することが可能となる。このため、認識対象語に対する省略語を生成する場合において、より適切な省略語を生成することができ、使用の可能性の低い省略語を認識用辞書に登録することを避け、高い認識精度を有する音声認識装置を実現できる音声認識用辞書を作成することができる。
【0020】
また、前記省略語生成規則格納部には、省略語を構成する部分モーラ列の連なりに関する第3の規則が格納され、前記省略語決定部は、前記第3の規則に基づいて、前記候補の中から最終的に生成する省略語を決定してもよい。たとえば、前記第3の規則には、連接された2つの部分モーラ列における前に位置する部分モーラ列の最後のモーラと後に位置する部分モーラ列の先頭のモーラとの組み合わせと前記尤度との関係が含まれてもよい。
【0021】
上記構成によれば、複数の単語からなる単語や長い単語から省略語を生成する際に、音韻列が日本語等の言語として自然であるものが好まれるという一般的な傾向を、モーラの連接確率という形で規則化することが可能となる。これにより、認識対象語から省略語を生成する場合において、より適切な省略語を生成することができ、使用の可能性の低い省略語を認識用辞書に登録することを避け、高い認識精度を有する音声認識装置を実現できる音声認識用辞書を作成することができる。
【0022】
また、前記音声認識用辞書作成装置は、さらに、認識対象語を含んだ文字列情報から認識対象語を抽出する条件を格納している抽出条件格納手段と、認識対象語を含んだ文字列情報を取得する文字列情報取得手段と、前記抽出条件格納手段に格納されている条件に従って、前記文字列情報取得手段によって取得された文字列情報から認識対象語を抽出し、前記単語分割手段に送出する認識対象語抽出手段とを備えてもよい。
【0023】
上記構成によれば、文字列情報中から認識対象語を抽出する条件に応じて、適切に認識対象語を抽出し、かつ当該単語に対応する省略語を自動的に作成して、音声認識用辞書に格納することが可能となる。さらに作成された各省略語について、省略語の生成に適用された規則に応じた尤度を基にした発声確率が計算され、この発声確率も同時に音声認識用辞書に格納される。これによって、文字列情報から自動的に作成された1語以上の省略語に対して、各々発声確率が与えらることとなり、音声との照合において高い認識精度を呈することのできる音声認識装置を実現できる音声認識用辞書を作成することができる。
【0024】
また、上記目的を達成するために、本発明に係る音声認識装置は、入力された音声を、音声認識用辞書に登録されている語彙に対応するモデルによって照合を行って認識する音声認識装置であって、前記音声認識用辞書作成装置によって作成された音声認識用辞書を用いて前記音声を認識することを特徴とする。
【0025】
上記構成によれば、事前に構築された音声認識用辞書内の語彙だけでなく、本発明に係る音声認識用辞書作成装置によって作成された、文字列情報から抽出された認識対象語およびこれから生成された省略語が格納された音声認識用辞書内の語彙も認識の照合の対象とすることが可能となる。これによって、命令語のような固定的な語彙に加えて、検索キーワードのように文字列情報から抽出されるべき語彙、およびその省略語のいずれの語彙が発声された場合においても、正しく認識される音声認識装置を実現することが可能となる。
【0026】
ここで、本発明に係る音声認識装置は、入力された音声を、音声認識用辞書に登録されている語彙に対応するモデルによって照合を行って認識する音声認識装置であって、前記音声認識用辞書作成装置を備え、前記音声認識用辞書作成装置によって作成された音声認識用辞書を用いて前記音声を認識してもよい。
【0027】
上記構成によれば、搭載されている音声認識用辞書作成装置に文字列情報を入力することによって、自動的に認識対象語を抽出、およびその省略語を生成して、音声認識用辞書に格納する。音声認識用辞書に格納されたこれら語彙は、音声認識装置において音声との照合を行うことが可能となるため、可変的に追加・変更するべき語彙を持つ音声認識装置において、その語彙およびその省略語を、文字列情報中から自動的に取得し、音声認識用辞書に登録することを可能とする。
【0028】
ここで、前記音声認識用辞書には、前記省略語と当該省略語の発声確率とが前記認識対象語とともに登録され、前記音声認識装置は、前記音声認識用辞書に登録されている発声確率を考慮して前記音声の認識を行ってもよい。そして、前記音声認識装置は、前記音声の認識結果である候補とともに当該候補の尤度を生成し、生成した尤度に前記発声確率に対応する尤度を加算し、得られた加算値に基づいて前記候補を最終的な認識結果として出力してもよい。
【0029】
上記構成によれば、文字列情報中から認識対象語を抽出しかつその省略語を生成する過程で、各省略語の発声確率も計算されて音声認識用辞書に格納される。音声認識装置では、音声の照合の際に各省略語の発声確率を考慮した照合を行うことが可能となり、省略語として比較的可能性の低いものについては、低めの確率が与えられるといった制御が可能となり、不自然な省略語の湧き出しによる音声認識の正解確率の低下を抑えることができる。
【0030】
また、前記音声認識装置は、さらに、前記音声に対して認識した省略語と当該省略語に対応する認識対象語とを使用履歴情報として格納する省略語使用履歴格納手段と、前記省略語使用履歴格納手段に格納された使用履歴情報に基づいて、前記省略語生成手段による省略語の生成を制御する省略語生成制御手段を備えてもよい。たとえば、前記音声認識用辞書作成装置の省略語生成手段は、モーラを用いた省略語の生成規則を格納している省略語生成規則格納部と、前記構成単語ごとのモーラ列からモーラを取り出して連接することにより、1個以上のモーラからなる省略語の候補を生成する候補生成部と、生成された省略語の候補に対して、前記省略語生成規則格納部に格納された生成規則を適用することで、最終的に生成する省略語を決定する省略語決定部とを有し、前記省略語生成制御手段は、前記省略語生成規則格納部に格納される生成規則を変更、削除または追加することによって前記省略語の生成を制御してもよい。
【0031】
同様に、前記音声認識装置は、さらに、前記音声に対して認識した省略語と当該省略語に対応する認識対象語とを使用履歴情報として格納する省略語使用履歴格納手段と、前記省略語使用履歴格納手段に格納された使用履歴情報に基づいて、前記音声認識用辞書に格納されている省略語に対する編集を行う辞書編集手段とを備えてもよい。たとえば、前記音声認識用辞書には、前記省略語と当該省略語の発声確率とが前記認識対象語とともに登録され、前記辞書更新手段は、前記省略語の発声確率を変更することによって前記省略語に対する編集を行ってもよい。
【0032】
上記構成によれば、ユーザの過去の省略語の使用に関する履歴情報を元に、ユーザの省略語使用に関する傾向を考慮して上記省略語生成規則を制御することが可能となる。これは、ユーザの省略語利用には一定の傾向があり、また、同一の単語に対しては多くても2語程度の省略語しか用いることはないということに着目したものである。すなわち、省略語新規生成においては、過去の省略語利用から利用傾向の強い省略語だけを生成することが可能となる。また、すでに上記認識用辞書に記憶された省略語についても、同一の単語から複数の省略語が生成された場合において、ある省略語のみが利用され、その他の省略語が利用されないことが明らかとなれば、辞書からこれらを削除することが可能となる。このような機能により、過剰な省略語が、上記認識用辞書に登録されるのを防ぎ、音声認識の性能の低下を抑えることが可能となる。また、異なる認識対象語に対して生成されたそれぞれの省略語の中に、共通の省略語が存在するようなケースにおいても、過去のユーザの具体的な省略語の使用情報から、いずれの認識対象語を意図したものであるかを予測することが可能となる。
【0033】
なお、本発明は、上記のような音声認識用辞書作成および音声認識装置として実現することができるだけでなく、これらの装置が備える特徴的な手段をステップとする音声認識用辞書作成方法および音声認識方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることができる。そして、そのようなプログラムは、CD−ROM等の記録媒体やインターネット等の通信媒体を介して配布することができるのは言うまでもない。
【発明を実施するための最良の形態】
【0034】
以下、本発明の実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図1は、実施の形態1における音声認識用辞書作成装置10の構成を示す機能ブロック図である。この音声認識用辞書作成装置10は、認識対象語からその省略語を生成し、辞書として登録する装置であり、プログラムや論理回路として実現される認識対象語解析部1および省略語生成部7と、ハードディスクや不揮発性メモリ等の記憶装置等によって実現される解析用単語辞書格納部4、解析規則格納部5、省略語生成規則格納部6および語彙記憶部8から構成される。
【0035】
解析用単語辞書格納部4は、認識対象語を構成単語に分割するための単位単語(形態素)およびその音韻系列の定義(音韻情報)に関する辞書を予め格納している。解析規則格納部5は、認識対象語を解析用単語辞書格納部4に格納されている単位単語に分割するための規則(構文解析用の規則)を予め格納している。
【0036】
省略語生成規則格納部6は、事前に構築された単語の省略語を生成するための複数の規則、つまり、発声のし易さを考慮した複数の規則を予め格納している。これらの規則の中には、例えば、認識対象語を構成する単語そのものや、これらの係り受け関係を元に、構成単語中から部分モーラ列を抽出する単語を決定する規則や、構成単語から抽出する部分モーラの抽出位置や、抽出数、ならびにそれらを組み合わせた際の総モーラ数を元に、適切な部分モーラの抽出を行う規則、さらに、抽出したモーラを連接した際のモーラ連接の自然さを元に、部分モーラの連接を行う規則などが含まれる。
【0037】
なお、「モーラ」とは、1音(1拍)と考えられている音韻のことであり、日本語であれば、ひらかな表記した時のひらかな1文字1文字に概ね対応する。また、俳句の 5・7・5をカウントする時の1音に対応する。ただし、拗音(小さいゃゅょの付く音)、促音(小さい っ/つまった音)、撥音(ん) については、1音(1拍)として発音されるか否かによって、独立した1つのモーラとして取り扱われたり、そうでなかったりする。例えば、「東京」であれば、4つのモーラ「と」、「う」、「きょ」、「う」から構成され、「札幌」であれば、4つのモーラ「さ」、「っ」、「ぽ」、「ろ」から構成され、「群馬」であれば、3つのモーラ「ぐ」、「ん」、「ま」から構成される。
【0038】
認識対象語解析部1は、この音声認識用辞書作成装置10に入力された認識対象語に対して形態素解析・構文解析・モーラ解析等を行う処理部であり、単語分割部2とモーラ列取得部3とから構成される。単語分割部2は、解析用単語辞書格納部4に格納された単語の情報および解析規則格納部5に格納された構文解析規則に従って、入力された認識対象語を、その認識対象語を構成する単語(構成単語)に分割するとともに、分割した構成単語の係り受け関係(修飾語と被修飾語の関係を示す情報)も生成する。モーラ列取得部3は、解析用単語辞書格納部4に格納された単語の音韻情報に基づいて、単語分割部2で生成された構成単語ごとに、モーラ列を生成する。この認識対象語解析部1による解析結果、つまり、単語分割部2から生成される情報(認識対象語を構成する単語の情報と単語間の係り受け関係)およびモーラ列取得部3から生成される情報(各構成単語の音韻系列を表わすモーラ列)は省略語生成部7に送られる。
【0039】
省略語生成部7は、省略語生成規則格納部6に格納された省略語生成規則を用いて、認識対象語解析部1から送られてきた認識対象語に関する情報から、その認識対象語の省略語を0語以上生成する。具体的には、認識対象語解析部1から送られてきた各単語のモーラ列を係り受け関係に基づいて組み合わせたりすることで、省略語の候補を生成し、生成した省略語の候補それぞれについて、省略語生成規則格納部6に格納された規則ごとの尤度を算出する。そして、一定の重み付けを乗じたうえで、各尤度を合計することによって、候補ごとの発声確率を計算し、一定以上の発声確率をもつ候補を、最終的な省略語として、その発声確率および元の認識対象語と対応づけて語彙記憶部8に格納する。つまり、省略語生成部7によって一定以上の発声確率を持つと判断された省略語は、入力された認識対象語と同一の意味を持つ単語であることを示す情報、および、その発声確率とともに、音声認識用辞書として、語彙記憶部8に登録される。
【0040】
語彙記憶部8は、書き換え可能な音声認識用辞書を保持するとともに登録処理を行うものであり、省略語生成部7で生成された省略語および発声確率を、この音声認識用辞書作成装置10に入力された認識対象語と対応づけたうえで、それら認識対象語、省略語および発声確率を音声認識用辞書として登録する。
【0041】
次に、以上のように構成された音声認識用辞書作成装置10の動作について、具体例とともに説明する。
【0042】
図2は、音声認識用辞書作成装置10の各部によって実行される辞書作成処理動作のフローチャートである。なお、本図における矢印の左側には、認識対象語として「朝の連続ドラマ」が入力された場合の具体的な中間データや最終データ等が示され、右側には参照または格納の対象となるデータ名が記されている。
【0043】
まず、ステップS21において、認識対象語が認識対象語解析部1の単語分割部2に読み込まれる。単語分割部2は、その認識対象語を、解析用単語辞書格納部4に格納された単語の情報と、解析規則格納部5に格納された単語分割規則に従って、構成単語に分割するとともに、各構成単語の係り受け関係を求める。つまり、形態素解析と構文解析を行う。これによって認識対象語「朝の連続ドラマ」は、例えば、「朝」、「の」、「連続」、「ドラマ」という構成単語に分割され、その係り受け関係として、(朝)−>((連続)−>(ドラマ))という関係が生成される。なお、この係り受け関係の表記において、矢印の元が修飾語を、矢印の先が被修飾語を示している。
【0044】
ステップS22では、モーラ列取得部3は、単語分割処理ステップS21において分割された各構成単語に対して、その音韻系列としてのモーラ列を付与する。このステップでは、構成単語の音韻系列を得るために、解析用単語辞書格納部4に格納された単語の音韻情報が利用される。その結果、単語分割部2で得られた構成単語「朝」、「の」、「連続」、「ドラマ」に対して、それぞれ、「アサ」、「ノ」、「レンゾク」、「ドラマ」というモーラ列が付与される。このようにして得られたモーラ列は、上記ステップS21で得られた構成単語および係り受け関係の情報と共に、省略語生成部7に送出される。
【0045】
ステップS23では、認識対象語解析部1から送られてくる構成単語、係り受け関係およびモーラ列から、省略語生成部7は、省略語を生成する。ここでは、省略語生成規則格納部6に格納された1つ以上の規則が適用される。これらの規則の中には、認識対象語を構成する単語そのものや、これらの係り受け関係を元に、構成単語中から部分モーラ列を抽出する単語を決定する規則や、構成単語から抽出する部分モーラの抽出位置や、抽出数、ならびにそれらを組み合わせた際の総モーラ数を元に、適切な部分モーラの抽出を行う規則、さらに、抽出したモーラを連接した際のモーラ連接の自然さを元に、部分モーラの連接を行う規則などが含まれている。省略語生成部7は、省略語の生成に適用される規則ごとに、規則の一致度を示す尤度を計算し、複数の規則で計算した尤度を総合することによって、生成した省略語の発声確率を計算する。その結果、例えば、省略語として、「アサドラ」、「レンドラ」、「アサレンドラ」が生成され、この順に高い発声確率が与えられる。
【0046】
ステップS24では、語彙記憶部8は、省略語生成部7が生成した省略語および発声確率の組を認識対象語と対応づけて音声認識用辞書に格納する。このようにして、認識対象語の省略語とその発声確率が格納された音声認識用辞書が作成される。
【0047】
次に、図2に示された省略語生成処理(S23)の詳細な手順を図3〜図5を用いて説明する。図3は、その詳細な手順を示すフローチャートであり、図4は、省略語生成部7が有する処理テーブル(一時的に発生する中間データ等を記憶するテーブル)を示し、図5は、省略語生成規則格納部6に格納されている省略語生成規則6aの例を示す図である。
【0048】
まず、省略語生成部7は、認識対象語解析部1から送られてくる構成単語、係り受け関係およびモーラ列に基づいて、省略語の候補を生成する(図3のS30)。具体的には、認識対象語解析部1から送られてきた構成単語の係り受け関係が示す修飾語と被修飾語からなる総ての組み合わせを省略語の候補として生成する。このとき、図4の処理テーブルにおける「省略語の候補」に示されるように、修飾語および被修飾語それぞれについて、構成単語のモーラ列だけでなく、その一部を欠落させた部分モーラ列も用いられる。例えば、修飾語「レンゾク」と被修飾語「ドラマ」との組み合わせについては、「レンゾクドラマ」だけでなく、「レンゾクドラ」、「レンドラマ」、「レンドラ」等の1個以上のモーラを欠落させてできる総てのモーラ列が省略語の候補として生成される。
【0049】
次に、省略語生成部7は、生成した省略語の候補それぞれについて(図3のS31〜)、省略語生成規則格納部6に格納されている省略語生成規則ごとの尤度を算出し(図3のS32〜S34)、一定の重み付けの下で各尤度を合計することによって発声確率を算出する(図3のS35)という処理を繰り返す(図3のS30〜S36)。
【0050】
例えば、省略語生成規則の1つとして、図5のルール1に示されるように、係り受け関係に関する規則であって、修飾語と被修飾語とをこの順で結合すること、および、修飾語と被修飾語との距離(図4の上部に示される係り受け関係図における段数)が小さいほど高い尤度を示す関数等が定義されているとする。すると、省略語生成部7は、各候補省略語について、このようなルール1に対応する尤度を算出する。例えば、「レンドラ」について、修飾語と被修飾語がこの順で結合された省略語であることを確認したうえで(そうでなければ、尤度を0とする)、修飾語「レン」と被修飾語「ドラ」との距離(ここでは、「レン(ゾク)」が「ドラ(マ)」を修飾しているので1段)を特定し、その距離に対応する尤度(ここでは、0.102)を上述の関数に従って特定する。
【0051】
なお、「アサドラ」であれば、修飾語「アサ」と被修飾語「ドラ」との距離は、「アサ」が「レンゾクドラマ」を修飾していることから、2段となり、また、「アサレンドラ」であれば、修飾語と被修飾語との距離は、上記「レンドラ」と「アサドラ」の両方の係り受け関係を有することから、それら2つの距離の平均値、つまり、1.5段となる。
【0052】
また、省略語生成規則の他の例として、図5のルール2に示されるように、部分モーラ列に関する規則であって、部分モーラ列の位置に関するルールと長さに関するルール等が定義されているとする。具体的には、部分モーラ列の位置に関するルールとして、修飾語または被修飾語として採用されたモーラ列(部分モーラ列)が元の構成単語の先頭に近い位置であるほど高い尤度を示すというルール、つまり、先頭からの距離(元の構成単語の先頭と部分モーラ列の先頭に挟まれたモーラ数)vs尤度の関係を示す関数等が定義されている。また、部分モーラ列の長さに関するルールとして、部分モーラ列を構成するモーラの数が2に近いほど高い尤度を示すというルール、つまり、部分モーラ列の長さ(モーラ数)vs尤度の関係を示す関数が定義されている。省略語生成部7は、各候補省略語について、このようなルール2に対応する尤度を算出する。例えば、「アサドラ」について、部分モーラ列「アサ」および「ドラ」それぞれについて、構成単語「アサ」および「ドラマ」における位置および長さを特定し、上述の関数に従って各尤度を特定し、それら尤度の平均値をルール2に対する尤度(ここでは、0.128)とする。
【0053】
また、省略語生成規則の他の例として、図5のルール3に示されるように、音韻の連なりに関する規則であって、部分モーラ列の結合部分に関するルール等が定義されているとする。ここで、部分モーラ列の結合部分に関するルールとして、結合されている2つの部分モーラ列における前の部分モーラ列の最後尾のモーラと後の部分モーラ列の先頭のモーラとの結合が、不自然な音韻の組み合わせ(発音しにくい音韻)である場合に低い尤度となるようなデータテーブルが定義されている。省略語生成部7は、各候補省略語について、このようなルール3に対応する尤度を算出する。具体的には、各部分モーラ列の結合部分がルール3に登録された不自然な連なりのいずれかに属するか否かを判断し、属する場合には、その連なりに対応する尤度を割り当て、そうでない場合には、デフォルト値の尤度(ここでは、0.050)を割り当てる。例えば、「アサレンドラ」について、部分モーラ列「アサ」と「レン」との結合部分「サレ」がルール3に登録された不自然な連なりに属するか否かを判断する。ここでは、いずれにも属さないので、尤度をデフォルト値(0.050)とする。
【0054】
このようにして、省略語の候補それぞれについて省略語生成規則ごとの尤度を算出すると、省略語生成部7は、図3のステップS35に示される発声確率P(w)の算出式に従って、各尤度xに重み付け(図5に示された対応するルールごとの重みα)を乗じて合計することによって、候補ごとの発声確率を算出する(図3のS35)。
【0055】
最後に、省略語生成部7は、総ての候補の中から、予め設定された一定のしきい値を超える発声確率を持つものを特定し、それらを最終的な省略語として発声確率とともに語彙記憶部8に出力する(図3のS37)。これによって、語彙記憶部8において、図6に示されるように、認識対象語の省略語と発声確率とが含まれる音声認識用辞書8aが作成される。
【0056】
以上のようにして作成された音声認識用辞書8aは、認識対象語だけでなく、その省略語が発声確率とともに登録されている。したがって、この音声認識用辞書作成装置10によって作成された音声認識用辞書を用いることで、正式な単語を発声した場合においても、その省略語を発声した場合においても、同じ意図の発声であることを検出し、高い認識率で音声を認識することが可能な音声認識装置が実現される。例えば、上記「朝の連続ドラマ」の例では、ユーザが「アサノレンゾクドラマ」と発声した場合でも、「アサドラ」と発声した場合でも「朝の連続ドラマ」と認識し、同様に機能することができる音声認識装置のための音声認識用辞書が作成される。
(実施の形態2)
実施の形態2は、実施の形態1における音声認識用辞書作成装置10を搭載し、この音声認識用辞書作成装置10によって作成された音声認識用辞書8aを用いる音声認識装置の例に関する。本実施の形態では、認識対象語を文字列情報から自動的に抽出し、これを音声認識用辞書に格納する辞書更新機能を有し、かつ、ユーザによる過去の省略語使用の履歴に基づいた情報を用いて省略語の生成を制御することで、利用する可能性の低い省略語が認識用辞書に登録されるのを抑える機能を有する音声認識装置に関する。なお、文字列情報とは、音声認識装置による認識の対象となる語(認識対象語)を含む情報であり、例えば、デジタルTV放送を視聴する視聴者が発した番組名に基づく番組の自動切替を行う音声認識装置の応用例であれば、番組名が認識対象語となり、放送局から放送されてくる電子番組データが文字列情報となる。
【0057】
図7は、実施の形態2における音声認識装置30の構成を示す機能ブロック図である。この音声認識装置30は、実施の形態1における音声認識用辞書作成装置10に加えて、文字列情報取込部17、認識対象語抽出条件格納部18、認識対象語抽出部19、音声認識部20、ユーザI/F部25、省略語使用履歴格納部26および省略語生成規則制御部27から構成される。なお、音声認識用辞書作成装置10は、実施の形態1のものと同一であり、その説明を省略する。
【0058】
文字列情報取込部17、認識対象語抽出条件格納部18、認識対象語抽出部19は、認識対象語が含まれる文字列情報から認識対象語を抽出するためのものである。この構成によれば、文字列情報取込部17は、認識対象語が含まれた文字列情報を取り込み、続く認識対象語抽出部19において、この文字列情報から認識対象語の抽出を行う。認識対象語を文字列情報から抽出するために、文字列情報は形態素解析された後に、認識対象語抽出条件格納部18に格納された認識対象語抽出条件に従って抽出が行われる。抽出された認識対象語は、音声認識用辞書作成装置10に送出され、その省略語の作成と、認識辞書への登録が行われる。
【0059】
これによって、本実施の形態の音声認識装置30では、電子番組データのような文字列情報から、番組名のような検索キーワードを自動的に抽出し、このキーワードおよびそこから生成された省略語のいずれを発声しても、正しく音声認識することのできる音声認識用辞書が作成される。なお、認識対象語抽出条件格納部18に格納される認識対象語抽出条件とは、例えば、デジタル放送受信機に入力されるデジタル放送データ中の電子番組データを識別する情報や、電子番組データ中の番組名を識別する情報等である。
【0060】
音声認識部20は、マイク等から入力された入力音声に対して、音声認識用辞書作成装置10で作成された音声認識用辞書に基づく音声認識を行う処理部であり、音響分析部21、音響モデル格納部22、固定語彙記憶部23、照合部24からなる。マイク等から入力された音声は、音響分析部21で周波数分析等が行われ、特徴パラメータの系列(メルケプストラム係数など)へと変換される。照合部24では、音響モデル格納部22に格納されたモデル(例えば、隠れマルコフモデルや混合ガウス分布モデルなど)を用いて、固定語彙記憶部23に格納された語彙(固定語彙)、または、語彙記憶部8に格納された語彙(通常語および省略語)を元に、各語彙を認識するためのモデルを合成しながら入力音声との合成を行う。その結果、高い尤度を得た単語が認識結果候補としてユーザI/F部25に送出される。
【0061】
このような構成により、この音声認識部20により、機器制御コマンド(例えば、番組切替における発声「切り替え」)等のシステム構築時に決定可能な語彙を固定語彙記憶部23に格納しておき、番組切替のための番組名のように番組名の変化に応じて可変的に変更する必要のある語彙を語彙記憶部8に格納しておくことで、双方の語彙を同時に認識することが可能となる。
【0062】
また、語彙記憶部8には、省略語だけでなく、発声確率も格納されている。この発声確率は、照合部24において音声の照合を行う際に利用され、発声確率の低い省略語は認識されにくくすることによって、省略語の過剰な湧き出しによる音声認識装置の性能の低下を抑えることが可能となっている。例えば、照合部24は、入力された音声と語彙記憶部8に格納された語彙との相関を示す尤度に、語彙記憶部8に格納された発声確率に対応する尤度(たとえば、発声確率の対数値)を加算し、得られた加算値を認識結果に対する最終的な尤度とし、その最終的な尤度が一定のしきい値を超える場合に、その語彙を認識結果候補としてユーザI/F部25に送出する。なお、一定のしきい値を超える認識結果候補が複数ある場合には、それらのうち、尤度が最も大きいものから一定順位内のものだけをユーザI/F部25に送出する。
【0063】
ところで、このような音声認識用辞書作成装置10によっても、複数の異なる認識対象語に対して、共通の音韻系列となる省略語が生成される可能性がある。これは、省略語生成規則に残るあいまい性のために生じる問題である。通常、ユーザは1つの省略語は1つの対応する認識対象語を意味する目的で利用していると考えられる。したがって、省略語生成規則に残るあいまい性を解消し、発声された省略語から適切な動作を提示できるとともに、長く使用することによって認識率が向上する学習機能を備えた音声認識装置が必要とされる。ユーザI/F部25、省略語使用履歴格納部26、省略語生成規則制御部27は、このような学習機能のための構成要素である。
【0064】
すなわち、ユーザI/F部25は、照合部24での音声照合の結果、認識結果候補を1つに絞り込むことができなかった場合、それら複数の候補をユーザに提示するとともに、ユーザから選択指示を取得する。例えば、ユーザの発話に対して得られた複数の認識結果の候補(切替先となる複数の番組名)をTV画面に表示する。ユーザは、リモコン等を用いて、その中から1つの正解候補を選択することで所望の動作(音声による番組の切り替え)を得ることができる。
【0065】
このようにしてユーザI/F部25に送出された省略語、あるいは、ユーザI/F部25に送出された複数の省略語の中からユーザによって選択された省略語は、履歴情報として、省略語使用履歴格納部26に送出され格納される。省略語使用履歴格納部26に格納された履歴情報は、省略語生成規則制御部27において集計され、省略語生成規則格納部6に格納された省略語生成のための規則やパラメータ、また省略語の発声確率を計算するためのパラメータを変更するために用いられる。同時に、ユーザの省略語使用によって、本来の単語とその省略語の間に1対1の対応関係が得られた場合には、その情報も省略語生成規則格納部に格納される。また、このような省略語生成規則格納部6の規則の追加・変更・削除についての情報は、語彙記憶部8にも送られ、既に登録済みの省略語についての見直しが行われ、省略語の削除・変更が行われて、辞書の更新が行われる。
【0066】
図8は、このような音声認識装置30の学習機能を示すフローチャートである。
ユーザI/F部25は、照合部24から送られてくる認識結果候補に、語彙記憶部8に格納された省略語が含まれている場合には、その省略語を省略語使用履歴格納部26に送ることで、省略語使用履歴格納部26に蓄積させる(S40)。このとき、ユーザが選択した省略語については、その旨を示す情報を付加して省略語使用履歴格納部26に送る。
【0067】
省略語生成規則制御部27は、一定期間が経過する度に、または、一定の情報量が省略語使用履歴格納部26に蓄積される度に、省略語使用履歴格納部26に蓄積された省略語を統計的に解析することで、規則性を生成する(S41)。例えば、省略語の長さ(モーラ数)に関する頻度分布や省略語を構成するモーラの連なりに関する頻度分布等を生成する。また、ユーザの選択情報等に基づいて、例えば、番組名「朝の連続ドラマ」を「レンドラ」と称していることが確認できた場合には、それら認識対象語と省略語との1対1の対応関係を示す情報も生成する。なお、このような規則性の生成を終えると、省略語生成規則制御部27は、省略語使用履歴格納部26の記憶内容を消去し、さらなる蓄積に備える。
【0068】
そして、省略語生成規則制御部27は、生成した規則性に従って、省略語生成規則格納部6に格納されている省略語生成規則を追加、変更または削除をする(S42)。例えば、省略語の長さに関する頻度分布に基づいて、図5のルール2に含まれる部分モーラ列の長さに関する規則(分布を示す関数のパラメータのうち、平均値を特定するパラメータ等)を修正する。また、認識対象語と省略語との1対1の対応関係を示す情報が生成された場合には、その対応関係を新たな省略語生成規則として登録する。
【0069】
省略語生成部7は、このように追加・変更・削除された省略語生成規則に従って、認識対象語に対する省略語の生成を繰り返すことで、語彙記憶部8に格納されている音声認識用辞書の見直しを行う(S43)。例えば、新たな省略語生成規則に従って省略語「アサドラ」の発声確率を計算し直した場合には、その発声確率を更新したり、認識対象語「朝の連続ドラマ」に対してユーザが省略語として「レンドラ」を選択した場合には、省略語「レンドラ」の発声確率を増加させたりする。
【0070】
このようにして、本音声認識装置30により、省略語を含めた音声認識が行われるだけでなく、認識結果に従って省略語生成規則が更新され、音声認識用辞書が改定されていくので、使用時間とともに認識率が向上するという学習機能が発揮される。
【0071】
図9(a)は、このような音声認識装置30の応用例を示す図である。
ここでは、音声によるTV番組の自動切替システムが示されている。このシステムは、音声認識装置30が内蔵されたSTB(Set Top Box;デジタル放送受信機)40と、TV受像機41と、無線マイクの機能を備えるリモコン42とから構成される。ユーザの発話は、リモコン42のマイクを介して音声データとしてSTB40に送信され、STB40に内蔵された音声認識装置30によって音声認識され、その認識結果に応じて、番組切替が行われる。
【0072】
例えば、ユーザが、「レンドラニキリカエ」と発話したとする。すると、その音声はリモコン42を介して、STB40に内蔵された音声認識装置30に送信される。音声認識装置30の音声認識部20は、図9(b)の処理手順に示されるように、入力された音声「レンドラニキリカエ」に対して、語彙記憶部8および固定語彙記憶部23を参照することで、可変語彙「レンドラ」(つまり、認識対象語「朝の連続ドラマ」)および固定語彙「キリカエ」が含まれていることを検出する。その結果に基づいて、STB40は、予め放送データとして受信し保持している電子番組データの中に、現在放送中の番組「朝の連続ドラマ」が存在することを確認したうえで、その番組(ここでは、チャネル6)を選局する切替制御を行う。
【0073】
このように、本実施の形態の音声認識装置では、機器制御のための命令語のような固定的な語彙の認識と、番組検索のための番組名のような可変的な語彙の認識が同時に行えるばかりでなく、固定語彙についても、可変語彙についても、さらにその省略語表現に対しても、機器の制御等と連動させることで、所望の処理を行うことができる。さらにユーザの過去の使用履歴を考慮した学習により、省略語生成過程のあいまい性を解消し、高い認識率を持つ音声認識用辞書を効率的に作成することが可能となる。
【0074】
以上、本発明に係る音声認識用辞書作成装置および音声認識装置について、実施の形態に基づいて説明したが、本発明はこれらの実施の形態に限定されるものではない。
【0075】
たとえば、実施の形態1及び2では、日本語を対象とした音声認識用辞書作成装置10及び音声認識装置30の例が示されたが、本発明は、日本語だけでなく、中国語や英語等の日本語以外の言語にも適用することができのは言うまでもない。図10(a)は、中国語の認識対象語から音声認識用辞書作成装置10によって生成される省略語の例を示す図であり、図10(b)は、英語の認識対象語から音声認識用辞書作成装置10によって生成される省略語の例を示す図である。これらの省略語は、例えば、図5に示される省略語生成規則6a、「認識対象語の先頭1シラブルを省略語とする」、「認識対象語を構成する各単語の先頭1シラブルを連結したものを省略語とする」等の省略語生成規則によって生成され得る。
【0076】
また、実施の形態1の音声認識用辞書作成装置10は、発声確率の高い省略語を生成したが、省略されていない通常語についても生成対象としてもよい。たとえば、省略語生成部7は、省略語だけでなく、省略していない認識対象語に対応するモーラ列についても、予め定められた一定の発声確率とともに、語彙記憶部8の音声認識用辞書に固定的に登録してもよい。あるいは、音声認識装置において、その音声認識用辞書に登録されている省略語だけでなく、音声認識用辞書のインデックスとなっている認識対象語についても認識対象に含めることで、省略語だけでなく、フルスペリングに対応する通常語についても同時に認識することが可能となる。
【0077】
また、実施の形態1において、省略語生成規則制御部27は、省略語生成規則格納部6に格納された省略語生成規則の変更等を行ったが、直接、語彙記憶部8の内容を変更してもよい。具体的には、語彙記憶部8に格納されている音声認識用辞書8aに登録されている省略語の追加、変更または削除をしたり、登録されている省略語の発声確率を増減させてもよい。これによって、省略語使用履歴格納部26に格納された使用履歴情報に基づいて、直接、音声認識用辞書が修正されることになる。
【0078】
また、省略語生成規則格納部6に格納される省略語生成規則および規則中の用語の定義としては、本実施の形態だけに限られない。たとえば、本実施の形態では、修飾語と被修飾語との距離は、係り受け関係図における段数を意味したが、このような定義に限られるものではなく、修飾語と被修飾語の意味的な継続性の良否を与えるような値を「修飾語と被修飾語との距離」と定義してもよい。例として、「(真っ赤な(夕陽))」と「(真っ青な(夕陽))」とでは、前者の方が意味的に自然であるので、前者の方が近い距離となるような尺度を採用してもよい。
【0079】
また、実施の形態2では、音声認識装置30の適用例として、デジタル放送受信システムにおける自動番組切替が示されたが、このような自動番組切替は、放送システム等の一方向性の通信システムだけに限られず、インターネットや電話網等の双方向の通信システムにおける番組切替にも適用できるのは言うまでもない。たとえば、本発明に係る音声認識装置を携帯電話機に内蔵させることで、ユーザが望むコンテンツの指定を音声認識し、インターネット上のサイトからそのコンテンツをダウンロードするというコンテンツ配信システムを実現することができる。たとえば、ユーザが「クマピーヲダウンロード」と発話すると、可変語彙「クマピー(「くまのピーさん」の省略語)」と固定語彙「ダウンロード」とが認識され、インターネット上のサイトから着メロ「くまのピーさん」が携帯電話機にダウンロードされる。
【0080】
同様に、本発明に係る音声認識装置30は、放送システムやコンテンツ配信システム等の通信システムだけに限られず、スタンドアローンの機器にも適用することができる。たとえば、本発明に係る音声認識装置30をカーナビゲーション装置に内蔵させることで、運転者が発話した行先の地名等を音声認識し、その行先までの地図が自動表示されるという便利で安全性の高いカーナビゲーション装置が実現される。たとえば、運転しながら、「カドカドヲヒョウジ」と発話すると、可変語彙「カドカド(「大阪府門真市大字門真」の省略語)」と固定語彙「ヒョウジ」とが認識され、カーナビゲーションの画面に、「大阪府門真市大字門真」付近の地図が自動表示される。
【0081】
以上のように、本発明によって、認識対象語の正式な発声だけでなくその省略語を発声した場合においても同様に動作する音声認識装置用の音声認識用辞書が作成される。また本発明では、日本語音声の発声リズムであるモーラに着目した省略語生成規則が適用され、さらにそれら省略語の発声確率を考慮した重み付けが付与されるので、無用な省略語の生成と認識辞書への登録を避けることが可能になるとともに、重み付けの併用によって、湧き出した省略語が音声認識装置の性能に悪影響を与えることが避けられる。
【0082】
また、このような音声認識用辞書作成装置を搭載した音声認識装置では、省略語使用についてのユーザの履歴を音声認識用辞書作成部で利用することで、省略語生成規則のあいまい性から生じる元単語対省略語の間の多対多の対応関係を解消することが可能となり、効率的な音声認識用辞書の構築が可能となる。
【0083】
また、本発明に係る音声認識装置では、認識結果を音声認識用辞書の作成プロセスに反映するフィードバックが形成されているので、装置の使用に伴って認識率が向上していくという学習効果が発揮される。
【0084】
このように、本発明によって、省略語を含む音声が高い認識率で認識されることとなり、放送番組の切替、携帯電話機に対する操作、カーナビゲーション装置に対する指示等が省略語を含む音声によって行われることとなり、本発明の実用的価値は極めて高い。
【産業上の利用可能性】
【0085】
本発明は、不特定話者を対象とした音声認識装置に用いられる辞書を作成する音声認識用辞書作成装置およびその辞書を用いて音声を認識する音声認識装置等として、特に、省略語を含む語彙を認識する音声認識装置等として、例えば、デジタル放送受信機やカーナビゲーション装置等として利用することができる。
【図面の簡単な説明】
【0086】
【図1】図1は、本発明の実施の形態1における音声認識用辞書作成装置の構成を示す機能ブロック図である。
【図2】図2は、同音声認識用辞書作成装置による辞書作成処理を示すフローチャートである。
【図3】図3は、図2に示された省略語生成処理(S23)の詳細な手順を示すフローチャートである。
【図4】図4は、同音声認識用辞書作成装置の省略語生成部が有する処理テーブル(一時的に発生する中間データ等を記憶するテーブル)を示す図である。
【図5】図5は、同音声認識用辞書作成装置の省略語生成規則格納部に格納されている省略語生成規則の例を示す図である。
【図6】図6は、同音声認識用辞書作成装置の語彙記憶部に格納されている音声認識用辞書の例を示す図である。
【図7】図7は、本発明の実施の形態2における音声認識装置の構成を示す機能ブロック図である。
【図8】図8は、同音声認識装置の学習機能を示すフローチャートである。
【図9】図9は、同音声認識装置の応用例を示す図である。
【図10】図10(a)は、中国語の認識対象語から音声認識用辞書作成装置10によって生成される省略語の例を示す図であり、図10(b)は、英語の認識対象語から音声認識用辞書作成装置10によって生成される省略語の例を示す図である。
Claims (33)
- 音声認識用辞書を作成する音声認識用辞書作成装置であって、
1以上の単語から構成される認識対象語について、前記認識対象語から分割された隣り合わない構成単語または前記認識対象語から分割された構成単語の一部を連接して生成した前記認識対象語の省略語候補に対して、生成規則に基づいて、前記認識対象語の省略語を生成する省略語生成手段と、
決定された前記省略語を、生成規則によって決定される該省略語の発声確率および前記認識対象語とともに前記音声認識用辞書として記憶する語彙記憶手段と
を備えることを特徴とする音声認識用辞書作成装置。 - 前記音声認識用辞書作成装置はさらに、
前記認識対象語を構成単語に分割する単語分割手段を備える
ことを特徴とする請求項1記載の音声認識用辞書作成装置。 - 前記省略語生成手段は、
前記生成規則を格納している省略語生成規則格納部と、
前記認識対象語から分割された隣り合わない構成単語または前記認識対象語から分割された構成単語の一部を連接することにより、省略語の候補を生成する候補生成部と、
生成された省略語の候補に対して、前記省略語生成規則格納部に格納された生成規則に基づいて、最終的に生成する省略語を決定する省略語決定部とを有する
ことを特徴とする請求項1または2記載の音声認識用辞書作成装置。 - 前記省略語生成規則格納部には、複数の生成規則が格納され、
前記省略語決定部は、生成された省略語の候補について、前記省略語生成規則格納部に格納された複数の規則それぞれに対する尤度を算出し、算出した尤度を総合的に勘案することによって発声確率を決定し、
前記語彙記憶手段は、前記省略語決定部によって決定された省略語および発声確率を前記認識対象語とともに記憶する
ことを特徴とする請求項3記載の音声認識用辞書作成装置。 - 前記省略語決定部は、前記複数の規則それぞれに対する尤度に、対応する重み付け係数を乗じて得られる値を合計することによって前記発声確率を決定する
ことを特徴とする請求項4記載の音声認識用辞書作成装置。 - 前記省略語決定部は、前記省略語の候補に対する発声確率が一定のしきい値を超える場合に、最終的に生成する省略語と決定する
ことを特徴とする請求項5記載の音声認識用辞書作成装置。 - 前記省略語生成規則格納部には、単語の係り受けに関する第1の規則が格納され、
前記省略語決定部は、前記第1の規則に基づいて、前記候補の中から最終的に生成する省略語を決定する
ことを特徴とする請求項4記載の音声認識用辞書作成装置。 - 前記第1の規則には、修飾語と被修飾語とを対にすることによって省略語を生成するという条件が含まれる
ことを特徴とする請求項7記載の音声認識用辞書作成装置。 - 前記第1の規則には、省略語を構成する修飾語と被修飾語との距離と前記尤度との関係を示す規則が含まれる
ことを特徴とする請求項7記載の音声認識用辞書作成装置。 - 前記省略語生成規則格納部には、省略語を生成するときに構成単語のモーラ列から取り出される部分モーラ列の長さおよび構成単語における位置の少なくとも1つに関する第2の規則が格納され、
前記省略語決定部は、前記第2の規則に基づいて、前記候補の中から最終的に生成する省略語を決定する
ことを特徴とする請求項4記載の音声認識用辞書作成装置。 - 前記第2の規則には、前記部分モーラ列の長さを示すモーラ数と前記尤度との関係を示す規則が含まれる
ことを特徴とする請求項10記載の音声認識用辞書作成装置。 - 前記第2の規則には、前記部分モーラ列の構成単語における位置を示す構成単語の先頭からの距離に対応するモーラ数と前記尤度との関係を示す規則が含まれる
ことを特徴とする請求項10記載の音声認識用辞書作成装置。 - 前記省略語生成規則格納部には、省略語を構成する部分モーラ列の連なりに関する第3の規則が格納され、
前記省略語決定部は、前記第3の規則に基づいて、前記候補の中から最終的に生成する省略語を決定する
ことを特徴とする請求項4記載の音声認識用辞書作成装置。 - 前記第3の規則には、連接された2つの部分モーラ列における前に位置する部分モーラ列の最後のモーラと後に位置する部分モーラ列の先頭のモーラとの組み合わせと前記尤度との関係を示す規則が含まれる
ことを特徴とする請求項13記載の音声認識用辞書作成装置。 - 前記音声認識用辞書作成装置は、さらに、
認識対象語を含んだ文字列情報から認識対象語を抽出する条件を格納している抽出条件格納手段と、
認識対象語を含んだ文字列情報を取得する文字列情報取得手段と、
前記抽出条件格納手段に格納されている条件に従って、前記文字列情報取得手段によって取得された文字列情報から認識対象語を抽出し、前記単語分割手段に送出する認識対象語抽出手段とを備える
ことを特徴とする請求項2記載の音声認識用辞書作成装置。 - 入力された音声を、音声認識用辞書に登録されている語彙に対応するモデルによって照合を行って認識する音声認識装置であって、
請求項1に記載の音声認識用辞書作成装置によって音声認識用辞書を作成する辞書作成手段と、
前記辞書作成手段によって作成された音声認識辞書を用いて音声を認識する認識手段とを備える
ことを特徴とする音声認識装置。 - 前記音声認識用辞書には、前記省略語と当該省略語の発声確率とが前記認識対象語とともに登録され、
前記認識手段は、前記音声認識用辞書に登録されている発声確率を考慮して前記音声の認識を行う
ことを特徴とする請求項16記載の音声認識装置。 - 前記認識手段は、前記音声の認識結果である候補とともに当該候補の尤度を生成し、生成した尤度に前記発声確率に対応する尤度を加算し、得られた加算値に基づいて前記候補を最終的な認識結果として出力する
ことを特徴とする請求項17記載の音声認識装置。 - 前記音声認識装置は、さらに、
前記音声に対して認識した省略語と当該省略語に対応する認識対象語とを使用履歴情報として格納する省略語使用履歴格納手段と、
前記省略語使用履歴格納手段に格納された使用履歴情報に基づいて、前記省略語生成手段による省略語の生成を制御する省略語生成制御手段とを備える
ことを特徴とする請求項16記載の音声認識装置。 - 前記音声認識用辞書作成装置の省略語生成手段は、
前記生成規則を格納している省略語生成規則格納部と、
前記認識対象語から分割された隣り合わない構成単語または前記認識対象語から分割された構成単語の一部を連接することにより、省略語の候補を生成する候補生成部と、
生成された省略語の候補に対して、前記省略語生成規則格納部に格納された生成規則に基づいて、最終的に生成する省略語を決定する省略語決定部とを有し、
前記省略語生成制御手段は、前記省略語生成規則格納部に格納される生成規則を変更、削除または追加することによって前記省略語の生成を制御する
ことを特徴とする請求項19記載の音声認識装置。 - 前記音声認識装置は、さらに、
前記音声に対して認識した省略語と当該省略語に対応する認識対象語とを使用履歴情報として格納する省略語使用履歴格納手段と、
前記省略語使用履歴格納手段に格納された使用履歴情報に基づいて、前記音声認識用辞書に格納されている省略語に対する編集を行う辞書編集手段とを備える
ことを特徴とする請求項16記載の音声認識装置。 - 前記音声認識用辞書には、前記省略語と当該省略語の発声確率とが前記認識対象語とともに登録され、
前記辞書編集手段は、前記省略語の発声確率を変更することによって前記省略語に対する編集を行う
ことを特徴とする請求項21記載の音声認識装置。 - 入力された音声を、音声認識用辞書に登録されている語彙に対応するモデルによって照合を行って認識する音声認識装置であって、
請求項1記載の音声認識用辞書作成装置と、
前記音声認識用辞書作成装置によって作成された音声認識用辞書を用いて前記音声を認識する認識手段と
を備えることを特徴とする音声認識装置。 - 音声認識用辞書を作成する音声認識用辞書作成方法であって、
1以上の単語から構成される認識対象語について、前記認識対象語から分割された隣り合わない構成単語または前記認識対象語から分割された構成単語の一部を連接して生成した前記認識対象語の省略語候補に対して、生成規則に基づいて、前記認識対象語の省略語を決定する省略語生成ステップと、
決定された省略語を、生成規則によって決定される該省略語の発声確率および前記認識対象語とともに前記音声認識用辞書に登録する語彙登録ステップと
含むことを特徴とする音声認識用辞書作成方法。 - 前記音声認識用辞書作成方法はさらに、
前記認識対象語を構成単語に分割する単語分割ステップを含む
ことを特徴とする請求項24記載の音声認識用辞書作成方法。 - 入力された音声を、音声認識用辞書に登録されている語彙に対応するモデルによって照合を行って認識する音声認識方法であって、
請求項24記載の音声認識用辞書作成方法によって作成された音声認識用辞書を用いて前記音声を認識する認識ステップを含む
ことを特徴とする音声認識方法。 - 入力された音声を、音声認識用辞書に登録されている語彙に対応するモデルによって照合を行って認識する音声認識方法であって、
請求項24記載の音声認識用辞書作成方法におけるステップと、
前記音声認識用辞書作成方法によって作成された音声認識用辞書を用いて前記音声を認識するステップとを
含むことを特徴とする音声認識方法。 - 音声認識用辞書を作成する音声認識用辞書作成装置のためのプログラムであって、
請求項24記載の音声認識用辞書作成方法におけるステップをコンピュータに実行させる
ことを特徴とするプログラム。 - 入力された音声を、音声認識用辞書に登録されている語彙に対応するモデルによって照合を行って認識する音声認識装置のためのプログラムであって、
請求項26記載の音声認識方法におけるステップをコンピュータに実行させる
ことを特徴とするプログラム。 - 前記音声認識用辞書作成装置は、さらに、
前記構成単語の音韻系列を生成する音韻系列生成手段を備え、
前記省略語生成手段は、前記生成された音韻系列から音韻を取り出して連接することにより、省略語を生成する
ことを特徴とする請求項1、2または3記載の音声認識用辞書作成装置。 - 前記音声認識用辞書作成装置は、さらに、
前記構成単語のモーラ列を生成するモーラ列生成手段とを備え、
前記省略語生成手段は、前記生成されたモーラ列からモーラを取り出して連接することにより、前記認識対象語の省略語を生成することを特徴とする請求項1、2または3記載の音声認識用辞書作成装置。 - 前記音声認識用辞書作成方法は、さらに、
前記構成単語の音韻系列を生成するステップを含み、
前記省略語生成ステップは、前記生成された音韻系列から音韻を取り出して連接することにより、省略語を生成する
ことを特徴とする請求項24または25記載の音声認識用辞書作成方法。 - 前記音声認識用辞書作成方法は、さらに、
前記構成単語のモーラ列を生成するステップを含み、
前記省略語生成ステップは、前記生成されたモーラ列からモーラを取り出して連接することにより、前記認識対象語の省略語を生成する
ことを特徴とする請求項24または25記載の音声認識用辞書作成方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002326503 | 2002-11-11 | ||
JP2002326503 | 2002-11-11 | ||
PCT/JP2003/014168 WO2004044887A1 (ja) | 2002-11-11 | 2003-11-07 | 音声認識用辞書作成装置および音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP3724649B2 true JP3724649B2 (ja) | 2005-12-07 |
JPWO2004044887A1 JPWO2004044887A1 (ja) | 2006-03-16 |
Family
ID=32310501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004551201A Expired - Lifetime JP3724649B2 (ja) | 2002-11-11 | 2003-11-07 | 音声認識用辞書作成装置および音声認識装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20060106604A1 (ja) |
JP (1) | JP3724649B2 (ja) |
CN (1) | CN100559463C (ja) |
AU (1) | AU2003277587A1 (ja) |
WO (1) | WO2004044887A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010020102A (ja) * | 2008-07-10 | 2010-01-28 | Fujitsu Ltd | 音声認識装置、音声認識方法及びコンピュータプログラム |
US11032601B2 (en) | 2018-05-10 | 2021-06-08 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100682897B1 (ko) | 2004-11-09 | 2007-02-15 | 삼성전자주식회사 | 사전 업데이트 방법 및 그 장치 |
US8942985B2 (en) * | 2004-11-16 | 2015-01-27 | Microsoft Corporation | Centralized method and system for clarifying voice commands |
JP4322785B2 (ja) * | 2004-11-24 | 2009-09-02 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
US20080140398A1 (en) * | 2004-12-29 | 2008-06-12 | Avraham Shpigel | System and a Method For Representing Unrecognized Words in Speech to Text Conversions as Syllables |
JP2006330577A (ja) * | 2005-05-30 | 2006-12-07 | Alpine Electronics Inc | 音声認識装置及び音声認識方法 |
JP4680714B2 (ja) * | 2005-08-03 | 2011-05-11 | パナソニック株式会社 | 音声認識装置および音声認識方法 |
JP4997796B2 (ja) * | 2006-03-13 | 2012-08-08 | 株式会社デンソー | 音声認識装置、及びナビゲーションシステム |
JP4767754B2 (ja) * | 2006-05-18 | 2011-09-07 | 富士通株式会社 | 音声認識装置および音声認識プログラム |
US7831423B2 (en) | 2006-05-25 | 2010-11-09 | Multimodal Technologies, Inc. | Replacing text representing a concept with an alternate written form of the concept |
WO2007138875A1 (ja) * | 2006-05-31 | 2007-12-06 | Nec Corporation | 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム |
JP4967519B2 (ja) * | 2006-08-11 | 2012-07-04 | 日産自動車株式会社 | 音声認識装置 |
JP4867622B2 (ja) * | 2006-11-29 | 2012-02-01 | 日産自動車株式会社 | 音声認識装置、および音声認識方法 |
US8165879B2 (en) * | 2007-01-11 | 2012-04-24 | Casio Computer Co., Ltd. | Voice output device and voice output program |
CN101785050B (zh) * | 2007-07-31 | 2012-06-27 | 富士通株式会社 | 语音识别用对照规则学习系统以及语音识别用对照规则学习方法 |
CN101601038A (zh) * | 2007-08-03 | 2009-12-09 | 松下电器产业株式会社 | 关联词语提示装置 |
JP5178109B2 (ja) * | 2007-09-25 | 2013-04-10 | 株式会社東芝 | 検索装置、方法及びプログラム |
WO2009041220A1 (ja) * | 2007-09-26 | 2009-04-02 | Nec Corporation | 略語生成装置およびプログラム、並びに、略語生成方法 |
JP5098613B2 (ja) | 2007-12-10 | 2012-12-12 | 富士通株式会社 | 音声認識装置及びコンピュータプログラム |
JP5248121B2 (ja) * | 2008-01-11 | 2013-07-31 | 株式会社東芝 | 愛称を推定する装置、方法およびプログラム |
US8880400B2 (en) * | 2009-03-03 | 2014-11-04 | Mitsubishi Electric Corporation | Voice recognition device |
KR20110006004A (ko) * | 2009-07-13 | 2011-01-20 | 삼성전자주식회사 | 결합인식단위 최적화 장치 및 그 방법 |
JP2011033680A (ja) * | 2009-07-30 | 2011-02-17 | Sony Corp | 音声処理装置及び方法、並びにプログラム |
JP5146429B2 (ja) * | 2009-09-18 | 2013-02-20 | コニカミノルタビジネステクノロジーズ株式会社 | 画像処理装置、音声認識処理装置、音声認識処理装置の制御方法、およびコンピュータプログラム |
CN102725790B (zh) | 2010-02-05 | 2014-04-16 | 三菱电机株式会社 | 识别词典制作装置及声音识别装置 |
DE112010005425T5 (de) * | 2010-03-30 | 2013-01-10 | Mitsubishi Electric Corporation | Spracherkennungsvorrichtung |
US8949125B1 (en) * | 2010-06-16 | 2015-02-03 | Google Inc. | Annotating maps with user-contributed pronunciations |
US8473289B2 (en) | 2010-08-06 | 2013-06-25 | Google Inc. | Disambiguating input based on context |
US20120059655A1 (en) * | 2010-09-08 | 2012-03-08 | Nuance Communications, Inc. | Methods and apparatus for providing input to a speech-enabled application program |
CN102411563B (zh) * | 2010-09-26 | 2015-06-17 | 阿里巴巴集团控股有限公司 | 一种识别目标词的方法、装置及系统 |
JP5703747B2 (ja) * | 2010-12-27 | 2015-04-22 | 富士通株式会社 | 音声認識装置,および音声認識プログラム |
JP5824829B2 (ja) * | 2011-03-15 | 2015-12-02 | 富士通株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
US9465517B2 (en) * | 2011-05-24 | 2016-10-11 | Mitsubishi Electric Corporation | Character input device and car navigation device equipped with character input device |
US9008489B2 (en) * | 2012-02-17 | 2015-04-14 | Kddi Corporation | Keyword-tagging of scenes of interest within video content |
JP5570675B2 (ja) * | 2012-05-02 | 2014-08-13 | 三菱電機株式会社 | 音声合成装置 |
US11055745B2 (en) * | 2014-12-10 | 2021-07-06 | Adobe Inc. | Linguistic personalization of messages for targeted campaigns |
CN106959958B (zh) * | 2016-01-11 | 2020-04-07 | 阿里巴巴集团控股有限公司 | 地图兴趣点简称获取方法和装置 |
CN107861937B (zh) * | 2016-09-21 | 2023-02-03 | 松下知识产权经营株式会社 | 对译语料库的更新方法、更新装置以及记录介质 |
JP6821393B2 (ja) * | 2016-10-31 | 2021-01-27 | パナソニック株式会社 | 辞書修正方法、辞書修正プログラム、音声処理装置及びロボット |
JP6782944B2 (ja) * | 2017-02-03 | 2020-11-11 | 株式会社デンソーアイティーラボラトリ | 情報処理装置、情報処理方法、およびプログラム |
JP6880956B2 (ja) * | 2017-04-10 | 2021-06-02 | 富士通株式会社 | 解析プログラム、解析方法および解析装置 |
DE102017219616B4 (de) * | 2017-11-06 | 2022-06-30 | Audi Ag | Sprachsteuerung für ein Fahrzeug |
US10572586B2 (en) * | 2018-02-27 | 2020-02-25 | International Business Machines Corporation | Technique for automatically splitting words |
JP7467314B2 (ja) * | 2020-11-05 | 2024-04-15 | 株式会社東芝 | 辞書編集装置、辞書編集方法、及びプログラム |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03194653A (ja) * | 1989-12-25 | 1991-08-26 | Tokai Tv Hoso Kk | 情報検索システムにおける略語検索法 |
US5454063A (en) * | 1993-11-29 | 1995-09-26 | Rossides; Michael T. | Voice input system for data retrieval |
JPH08272789A (ja) * | 1995-03-30 | 1996-10-18 | Mitsubishi Electric Corp | 言語情報変換装置 |
JPH11110408A (ja) * | 1997-10-07 | 1999-04-23 | Sharp Corp | 情報検索装置および方法 |
JPH11328166A (ja) * | 1998-05-15 | 1999-11-30 | Brother Ind Ltd | 文字入力装置及び文字入力処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US6279018B1 (en) * | 1998-12-21 | 2001-08-21 | Kudrollis Software Inventions Pvt. Ltd. | Abbreviating and compacting text to cope with display space constraint in computer software |
JP2001034290A (ja) * | 1999-07-26 | 2001-02-09 | Omron Corp | 音声応答装置および方法、並びに記録媒体 |
EP1083545A3 (en) * | 1999-09-09 | 2001-09-26 | Xanavi Informatics Corporation | Voice recognition of proper names in a navigation apparatus |
JP3639776B2 (ja) * | 2000-07-28 | 2005-04-20 | シャープ株式会社 | 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体 |
MY141150A (en) * | 2001-11-02 | 2010-03-15 | Panasonic Corp | Channel selecting apparatus utilizing speech recognition, and controling method thereof |
US7503001B1 (en) * | 2002-10-28 | 2009-03-10 | At&T Mobility Ii Llc | Text abbreviation methods and apparatus and systems using same |
US20040186819A1 (en) * | 2003-03-18 | 2004-09-23 | Aurilab, Llc | Telephone directory information retrieval system and method |
-
2003
- 2003-11-07 JP JP2004551201A patent/JP3724649B2/ja not_active Expired - Lifetime
- 2003-11-07 AU AU2003277587A patent/AU2003277587A1/en not_active Abandoned
- 2003-11-07 US US10/533,669 patent/US20060106604A1/en not_active Abandoned
- 2003-11-07 WO PCT/JP2003/014168 patent/WO2004044887A1/ja active Application Filing
- 2003-11-07 CN CNB2003801030485A patent/CN100559463C/zh not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010020102A (ja) * | 2008-07-10 | 2010-01-28 | Fujitsu Ltd | 音声認識装置、音声認識方法及びコンピュータプログラム |
US8271282B2 (en) | 2008-07-10 | 2012-09-18 | Fujitsu Limited | Voice recognition apparatus, voice recognition method and recording medium |
US11032601B2 (en) | 2018-05-10 | 2021-06-08 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
Also Published As
Publication number | Publication date |
---|---|
WO2004044887A1 (ja) | 2004-05-27 |
CN100559463C (zh) | 2009-11-11 |
US20060106604A1 (en) | 2006-05-18 |
JPWO2004044887A1 (ja) | 2006-03-16 |
CN1711586A (zh) | 2005-12-21 |
AU2003277587A1 (en) | 2004-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3724649B2 (ja) | 音声認識用辞書作成装置および音声認識装置 | |
US20200120396A1 (en) | Speech recognition for localized content | |
US6163768A (en) | Non-interactive enrollment in speech recognition | |
US6912498B2 (en) | Error correction in speech recognition by correcting text around selected area | |
US8949133B2 (en) | Information retrieving apparatus | |
CN104157285B (zh) | 语音识别方法、装置及电子设备 | |
JP4444396B2 (ja) | 音声認識におけるポジション操作 | |
JP3955880B2 (ja) | 音声認識装置 | |
US7471775B2 (en) | Method and apparatus for generating and updating a voice tag | |
JP4987682B2 (ja) | 音声チャットシステム、情報処理装置、音声認識方法およびプログラム | |
JP4869268B2 (ja) | 音響モデル学習装置およびプログラム | |
JP6011565B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
US7742924B2 (en) | System and method for updating information for various dialog modalities in a dialog scenario according to a semantic context | |
JP3639776B2 (ja) | 音声認識用辞書作成装置および音声認識用辞書作成方法、音声認識装置、携帯端末器、並びに、プログラム記録媒体 | |
US20060287867A1 (en) | Method and apparatus for generating a voice tag | |
JP6327745B2 (ja) | 音声認識装置、及びプログラム | |
JP2013125144A (ja) | 音声認識装置およびそのプログラム | |
JP2013088488A (ja) | 音声検索装置、音声検索方法及びプログラム | |
JP2010175708A (ja) | 音声認識検索システム及び音声認識検索方法 | |
KR102362815B1 (ko) | 음성 인식 선곡 서비스 제공 방법 및 음성 인식 선곡 장치 | |
JP2009020352A (ja) | 音声処理装置およびプログラム | |
CN115101043A (zh) | 音频合成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050914 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050914 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3724649 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080930 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090930 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090930 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100930 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110930 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120930 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130930 Year of fee payment: 8 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |