JP4267385B2 - 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム - Google Patents
統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム Download PDFInfo
- Publication number
- JP4267385B2 JP4267385B2 JP2003188893A JP2003188893A JP4267385B2 JP 4267385 B2 JP4267385 B2 JP 4267385B2 JP 2003188893 A JP2003188893 A JP 2003188893A JP 2003188893 A JP2003188893 A JP 2003188893A JP 4267385 B2 JP4267385 B2 JP 4267385B2
- Authority
- JP
- Japan
- Prior art keywords
- language model
- statistical language
- grammar
- sentence
- application program
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 46
- 238000003860 storage Methods 0.000 claims description 89
- 230000006870 function Effects 0.000 claims description 20
- 238000012937 correction Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 15
- 230000008859 change Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000007704 transition Effects 0.000 description 6
- 238000012546 transfer Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、グラマー方式の音声アプリケーションプログラム(以下、「音声アプリケーション」という)を用いて自然発話の認識を行う音声認識装置等に関する。
【0002】
【従来の技術】
近年、利用者が発した音声の認識結果に基づき所定の処理を行う音声アプリケーションを用いた各種サービスシステムが普及している。各種サービスシステムとしては、電車の乗り換え案内システム、飛行機の予約システム等があり、このようなシステムの場合、利用者が音声入力を行うとコンピュータが音声により応答を返す、いわゆる対話型の音声アプリケーションが主流である。
【0003】
ところで、このような音声アプリケーションでは、従来、グラマーを有限状態オートマトンに変換したモデル(状態遷移モデル)により音声認識を行う方式(以下、「グラマー方式」という)が一般的に用いられている。「グラマー」とは、そのアプリケーションに依存した語彙や言い回し(単語の並びのルール)を直接記述したものである。従って、グラマー方式は、固有の言い回しや語彙が多い音声アプリケーションに適している。また、グラマーは作成や修正が容易なため、グラマー方式には、メンテナンスがし易いという利点もある。
【0004】
一方、音声アプリケーションを用いた各種サービスシステムにおいては、グラマーで記述されたような決まりきった発話のみではなく、人間が普通に会話する時に行うような発話(以下、「自然発話」という)であっても認識してほしいという要望もある。ところが、上述したグラマー方式では、受理する語彙や言い回しを全て記述しておく必要があるため、このような自然発話の認識に用いるには、その記述の手間、および、それに比例する探索効率の低下の点からみて、適していない。
そこで、自然発話の認識は、グラマー方式ではなく、統計的言語モデル(N-gram言語モデル)を用いるディクテーションにより行うのが一般的である。このモデルでは、統計量により探索の範囲を絞るので、グラマーから外れた発話でも、探索効率の大幅な低下なく認識できる。このように、自然発話を統計的言語モデルにより高精度に認識する方法がいくつか提案されており(例えば、特許文献1参照。)、更に、認識結果から発話意図を理解しようとするNLU(Natural Language Understanding)方式が普及しつつある。
【0005】
【特許文献1】
特開平11−85183号公報(第3−4頁、第1図)
【0006】
【発明が解決しようとする課題】
しかしながら、グラマー方式の音声アプリケーションにおいて、ディクテーションにより自然発話の認識を行うには、次のような問題点があった。
第1に、アプリケーションごとに固有の対話データを大量に収集し、統計的言語モデルを作成しなければならないということである。このような対話データの収集にはコストがかかると共に、言語モデルの作成には、音声認識の専門的な知識が必要であり、その専門的な知識を開発者に習得させるのは困難であるという問題点があった。
第2に、音声認識した結果をアプリケーションで処理するためには、アプリケーションに応じたキーワードとそうでない不要語とを区別するためのグルーピングを行う必要があるということである。このようなグルーピングにも、音声認識の専門的な知識が必要であり、コストもかかるという問題点があった。
第3に、そこで得られたキーワード列から発話意図を理解するためのルールを大量に記述する必要があるということである。このようなルールの記述も、作業コストが大きくなってしまうという問題点があった。
【0007】
本発明は、以上のような技術的課題を解決するためになされたものであって、その目的は、グラマー方式の音声アプリケーションによる自然発話の認識を手間とコストをかけずに行えるようにすることにある。
また他の目的は、グラマー方式の音声アプリケーションによる自然発話の認識を、アプリケーションの開発者が音声認識に関する専門知識を習得しなくても行えるようにすることにある。
【0008】
【課題を解決するための手段】
かかる目的のもと、本発明は、グラマー方式で音声認識を行うために使用されていたグラマーを、ディクテーションで音声認識を行うために使用される統計的言語モデル生成のための入力データとして利用するようにした。即ち、本発明の統計的言語モデル生成装置は、アプリケーションプログラムに入力される音声をグラマー方式で認識するために用いられるグラマーを読み出す読出し手段と、この読出し手段により読み出されたグラマーに基づいて、アプリケーションプログラムに入力される音声をディクテーションで認識するために用いられる統計的言語モデルを生成する統計的言語モデル生成手段とを備えている。
ここで、統計的言語モデル生成手段は、読出し手段により読み出されたグラマーを展開し、アプリケーションプログラムに固有の文章データを生成する固有文章生成手段を更に備え、固有文章生成手段により生成された文章データを、統計的言語モデルを生成するために用いるようにしてもよい。
【0009】
また、本発明は、ディクテーションによる認識結果をグラマー方式で処理できる形に変換するようにした。即ち、本発明の音声認識装置は、アプリケーションプログラムに入力された音声をディクテーションで認識する自然発話認識手段と、入力された音声をグラマー方式で認識するために用いられるグラマーに基づいて、自然発話認識手段による認識結果をアプリケーションプログラムで処理可能な最終認識結果に変換する認識結果変換手段とを備えている。
ここで、認識結果変換手段は、グラマーを展開して最終認識結果の候補である候補文を生成する候補文生成手段と、この候補文生成手段により生成された候補文と、自然発話認識手段による認識結果とのマッチングにより、候補文の中から1つの候補文を最終認識結果として選択するマッチング手段とを備えてもよい。
【0010】
他の観点から捉えると、本発明は、統計的言語モデル生成装置における統計的言語モデル生成方法として把握することができる。即ち、本発明の統計的言語モデル生成方法は、アプリケーションプログラムに入力される音声をグラマー方式で認識するために用いられるグラマーを、グラマー記憶部から読み出すステップと、読み出されたグラマーに基づいて、アプリケーションプログラムに入力される音声をディクテーションで認識するために用いられる統計的言語モデルを生成するステップと、生成された統計的言語モデルを、アプリケーションプログラムから参照可能な統計的言語モデル記憶部に記憶するステップとを含んでいる。
ここで、統計的言語モデルを生成するステップは、読み出されたグラマーを展開し、アプリケーションプログラムに固有の文章データを生成するステップと、生成された文章データに基づいて、統計的言語モデルを生成するステップとを更に含んでもよい。
【0011】
また、本発明は、音声認識装置における音声認識方法として把握することもできる。即ち、本発明の音声認識方法は、アプリケーションプログラムに入力される音声をディクテーションで認識するために用いられる統計的言語モデルを、統計的言語モデル記憶手段から読み出すステップと、アプリケーションプログラムに入力された音声を、読み出された統計的言語モデルを用いてディクテーションで認識するステップと、入力された音声をグラマー方式で認識するために用いられるグラマーを、グラマー記憶部から読み出すステップと、読み出されたグラマーに基づいて、ディクテーションによる認識結果をアプリケーションプログラムで処理可能な最終認識結果に変換するステップとを含んでいる。
ここで、認識結果を変換するステップは、読み出されたグラマーを展開して最終認識結果の候補である候補文を生成するステップと、生成された候補文とディクテーションによる認識結果とのマッチングにより、候補文の中から1つの候補文を最終認識結果として選択するステップとを更に含んでもよい。
【0012】
一方、本発明は、統計的言語モデル生成装置に所定の機能を実現させるためのプログラムとして把握することもできる。即ち、本発明のプログラムは、コンピュータに、アプリケーションプログラムに入力される音声をグラマー方式で認識するために用いられるグラマーを読み出す機能と、読み出されたグラマーに基づいて、アプリケーションプログラムに入力される音声をディクテーションで認識するために用いられる統計的言語モデルを生成する機能とを実現させるものである。
ここで、統計的言語モデルを生成する機能として、読み出されたグラマーを展開し、アプリケーションプログラムに固有の文章データを生成する機能と、生成された文章データに基づいて、統計的言語モデルを生成する機能とを更に実現させてもよい。
【0013】
また、本発明は、音声認識装置に所定の機能を実現させさせるためのプログラムとして把握することもできる。即ち、本発明のプログラムは、コンピュータに、アプリケーションプログラムに入力された音声をディクテーションで認識する機能と、入力された音声をグラマー方式で認識するために用いられるグラマーに基づいて、ディクテーションによる認識結果をアプリケーションプログラムで処理可能な最終認識結果に変換する機能とを実現させるものである。
ここで、認識結果を変換する機能として、読み出されたグラマーを展開して最終認識結果の候補である候補文を生成する機能と、生成された候補文とディクテーションによる認識結果とのマッチングにより、候補文の中から1つの候補文を最終認識結果として選択する機能とを更に実現させてもよい。
【0014】
【発明の実施の形態】
以下、添付図面に示す実施の形態に基づいて本発明を詳細に説明する。
図1は、本発明の実施の形態の全体構成を示すブロック図である。図1に示すように、本実施の形態は、業務処理手段11と、グラマー記憶部12と、補正情報記憶部13と、固有文章生成手段14と、固有文章記憶部15と、トピックシフト手段16と、一般トピック記憶部17と、シフト後トピック記憶部18と、候補文生成手段19と、候補文記憶部20と、自然発話認識手段21と、認識結果記憶部22と、マッチング手段23とを含む。
【0015】
業務処理手段11は、音声アプリケーションを実行することにより、所定の業務処理を行う手段である。
グラマー記憶部12は、業務処理手段11が実行する音声アプリケーションの発話単位ごとに、音声入力されることが想定される単語の並びのルールを記述したグラマーを格納する部分である。ここで、「発話単位」とは、コンピュータの入力要求に従って利用者が音声入力を行う単位である。音声アプリケーションが列車の乗り換え案内に関するものであるとすると、例えば、出発駅・到着駅の入力(「○○駅から××駅まで行きたい」等)、時刻の入力(「10時に着きたい」等)がこれに相当する。
【0016】
図2に、グラマー記憶部12の記憶内容の一例を示す。図2は、1つの音声アプリケーションで用いられるグラマーを想定して図示したものである。対話型の音声アプリケーションであれば、1つのアプリケーションに複数の発話単位が含まれるのが通常であるので、図2においては、複数のグラマーを図示している。アプリケーションが列車の乗り換え案内に関するものであるとすると、例えば、グラマー#1は、出発駅・到着駅の入力という発話単位に対するグラマーであり、グラマー#2は、時刻の入力という発話単位に対するグラマーである。なお、1つのアプリケーションに対して複数のグラマーが存在する場合は、各グラマーは、グラマーを一意に識別する識別情報により特定される。
また、図2では、4つのグラマーを図示しているが、グラマーの数はこれに限られるものではない。更に、業務処理手段11が複数の音声アプリケーションを実行する場合は、グラマー記憶部12には、各音声アプリケーションで用いられるグラマーを併せて記憶するようにしてもよい。その場合、グラマーの識別情報には、そのグラマーがどのアプリケーションで用いられるものであるかを示す情報も含まれる。
なお、グラマー記憶部12に記憶されるグラマーとしては、既存のアプリケーションで用いるために既に作成されているものがあれば、それをそのまま利用することができる。
【0017】
補正情報記憶部13は、アプリケーションで用意されたグラマーに対し所定のバリエーションを付加するのに用いる補正情報を格納するための部分である。補正情報としては、例えば、グラマーから展開された文章データの語尾に所定のバリエーションを与えるための情報がある。但し、これだけには限られず、決まりきった言い回しとして用意されたグラマーに対し、それを自然発話した場合に想定される様々なバリエーションを与えるための情報として捉えてよい。
【0018】
固有文章生成手段14は、グラマー記憶部12から読み出したグラマーと補正情報記憶部13から読み出した補正情報とに基づき、アプリケーション固有の文章データを生成する手段である。
固有文章記憶部15は、固有文章生成手段14により生成されたアプリケーション固有の文章データを記憶するための部分である。
【0019】
トピックシフト手段16は、自然発話認識手段21がディクテーションによる音声認識で用いるトピックを、一般的なものからアプリケーション固有のものへとシフトする手段である。
なお、「トピック」とは、本来は、音声がいかなる対象について発せられたものであるかを示す概念であるが、本明細書においては、音声をいかなる単語の並びと解釈すべきかを決定する際に用いる統計的な情報を意味するものとして用いる。同じような音の並びであっても、場面によって異なる単語の並びに解釈しなければならないケースは多い。このような場合に、音声が発せられた場面に応じた適切な意味での解釈を可能とするものがトピックである。
【0020】
例えば、「あのー、中央林間から、えー、新宿まで行きたいんですけど」という音声は、一般的なトピックを用いるベースディクテーションでは、「あの、中央委員会から、えー、新宿で生きたいですけど」という単語の並びに解釈されるかもしれない。しかし、列車の乗り換え案内のトピックを用いてディクテーションを行えば、適切な単語の並びに解釈する可能性が高まる。
また、トピックとしては、音声がいかなる方言で発せられたものかという観点の統計的情報も考えられる。
例えば、「えーと、阪急で行ってきてんで」という音声は、一般的なトピックを用いれば、「えーと、半球で一滴、点で」という単語の並びに解釈されるかもしれない。しかし、関西弁のトピックを用いれば、適切な単語の並びに解釈する可能性は高まる。
【0021】
一般トピック記憶部17は、一般的なトピック、即ち、汎用的なN-gram言語モデルを格納するための部分である。
シフト後トピック記憶部18は、トピックシフト手段16によりアプリケーション固有にシフトされたトピック、即ち、汎用的なN-gram言語モデルからアプリケーション固有にシフトされたN-gram言語モデルを格納するための部分である。
【0022】
候補文生成手段19は、グラマー記憶部12に記憶されたグラマーから、アプリケーションが受理し得るフレーズを全て展開し、候補文を生成する手段である。
候補文記憶部20は、候補文生成手段19により生成された候補文を記憶するための部分である。
【0023】
自然発話認識手段21は、入力された音声を、シフト後トピック記憶部18に記憶されたN-gram言語モデルを用いて認識する手段である。
認識結果記憶部22は、自然発話認識手段21による音声認識の結果を記憶するための部分である。
マッチング手段23は、認識結果記憶部22に記憶された認識結果と、候補文記憶部20に記憶された候補文とのマッチングをとる手段である。
【0024】
なお、本実施の形態は、コンピュータシステムにより実現される。このコンピュータシステムとしては、本実施の形態における機能の全てを包含する1台のコンピュータからなる第1のシステム構成と、それぞれが本実施の形態における機能の一部を包含する複数台のコンピュータからなる第2のシステム構成とが考えられる。
但し、第1のシステム構成を採用した場合であっても、第2のシステム構成を採用した場合であっても、各コンピュータのハードウェア構成は、中央処理装置(CPU)、主記憶装置、ハードディスク装置等の補助記憶装置、入力装置、出力装置を備えた一般的なものでよい。
【0025】
第1のシステム構成の場合、コンピュータ内の補助記憶装置には、業務処理手段11、固有文章生成手段14、トピックシフト手段16、候補文生成手段19、自然発話認識手段21、マッチング手段23を実現するためのプログラムが記憶され、CPUがこれらのプログラムを主記憶装置に読み込んで実行することにより、それぞれ、業務処理手段11、固有文章生成手段14、トピックシフト手段16、候補文生成手段19、自然発話認識手段21、マッチング手段23が実現される。また、グラマー記憶部12、補正情報記憶部13、固有文章記憶部15、一般トピック記憶部17、シフト後トピック記憶部18、候補文記憶部20、認識結果記憶部22は、コンピュータ内の補助記憶装置により実現してもよいし、コンピュータに装着可能な可搬型記録媒体により実現してもよい。
【0026】
第2のシステム構成の場合、例えば、統計的言語モデルを生成する機能を有するコンピュータ(統計的言語モデル生成装置)と、統計的言語モデル生成装置により生成された統計的言語モデルを用いて自然発話を認識し、認識結果をグラマー方式のアプリケーションに処理できる形で受け渡す機能を有するコンピュータ(音声認識装置)とから構成することが考えられる。
この場合、統計的言語モデル生成装置内の補助記憶装置には、固有文章生成手段14と、トピックシフト手段16とを実現するためのプログラムが記憶され、統計的言語モデル生成装置のCPUがこれらのプログラムを主記憶装置に読み込んで実行することにより、それぞれ、固有文章生成手段14、トピックシフト手段16が実現される。また、補正情報記憶部13、固有文章記憶部15、一般トピック記憶部17、シフト後トピック記憶部18は、統計的言語モデル生成装置内の補助記憶装置により実現してもよいし、統計的言語モデル生成装置に装着可能な可搬型記録媒体により実現してもよい。
一方、音声認識装置内の補助記憶装置には、業務処理手段11、候補文生成手段19、自然発話認識手段21、マッチング手段23を実現するためのプログラムが記憶され、音声認識装置のCPUがこれらのプログラムを主記憶装置に読み込んで実行することにより、それぞれ、業務処理手段11、候補文生成手段19、自然発話認識手段21、マッチング手段23が実現される。また、グラマー記憶部12、候補文記憶部20、認識結果記憶部22は、音声認識装置内の補助記憶装置により実現してもよいし、音声認識装置に装着可能な可搬型記録媒体により実現してもよい。
【0027】
次に、本実施の形態の動作について詳細に説明する。
図3は、本実施の形態の統計的言語モデル生成処理の動作を示すフローチャートである。これは、第1のシステム構成で言えば、コンピュータの統計的言語モデル生成処理の流れを示すフローチャートであり、第2のシステム構成で言えば、統計的言語モデル生成装置の動作を示すフローチャートである。
なお、以下では、特定の1つのアプリケーションについての統計的言語モデルを生成するものとして説明を進める。また、補正情報記憶部13には、文末とその文末の変化のバリエーションとを対応付けた文末変化定義が、補正情報として記憶されているものとする。
【0028】
まず、固有文章生成手段14が、グラマー記憶部12からグラマーを読み込むと共に、補正情報記憶部13から文末変化定義を読み込む(ステップ301)。次に、固有文章生成手段14は、グラマーを展開してアプリケーション固有の文章データを作成する。即ち、従来は認識のために使用していたグラマーを、ディクテーションに用いるアプリケーション固有のトピックを生成するための入力データに変換する。更に、作成した文章データの数を変数Mに設定する(ステップ302)。また、ステップ301で読み込んだ文末変化定義の数を変数Nに設定する(ステップ303)。
【0029】
変数M、Nが設定されると、固有文章生成手段14は、変数Iに1からMを設定しながらステップ305〜307の処理を繰り返す(ステップ304)。また、変数Jに1からNを設定しながら、ステップ306、307の処理を繰り返す(ステップ305)。即ち、ステップ306、307の処理を全ての変数I、Jの組み合わせについて行う。
ステップ306では、I番目の文章データ(以下、「文章データI」)の文末とJ番目の文末変化定義(以下、「文末変化定義J」)の見出しとが等しいかどうかを判断し、等しい場合にのみ、ステップ307において、文章データIの文末の言い回しを文末変化定義Jに応じて変更することにより作成した新たな文章データを追加する。
固有文章生成手段14は、このようにして作成された文章データを固有文章記憶部15に記憶する。
【0030】
次に、トピックシフト手段16は、固有文章記憶部15から全ての文章データを入力してトピック(N-gram言語モデル)を生成する(ステップ308)。そして、一般トピック記憶部17に記憶された一般的なトピック(N-gram言語モデル)を、ステップ308で生成されたトピックを用いて、アプリケーション固有のトピック(N-gram言語モデル)にシフトする(ステップ309)。
【0031】
なお、ステップ308における文章データに基づくトピックの生成は、既存の技術により実現可能である。
また、ステップ309における一般的なトピックのアプリケーション固有のトピックへのシフトには、例えば、次のような方法を用いることができる。即ち、一般トピックにおけるN-gram言語モデルの確率に係数aを掛けて得られる値と、アプリケーション固有のトピックにおけるN-gram言語モデルの確率に係数bを掛けて得られる値とを足し合わせることにより得られる値を、アプリケーション固有にシフトしたトピックのN-gram言語モデルの確率とする、という方法である。但し、係数a、bは、これらの和が1となるような所定の係数とする。
トピックシフト手段16は、このようにしてシフトされたトピックをシフト後トピック記憶部18に記憶する。
【0032】
なお、図3では、特定の1つのアプリケーションについてトピックをシフトする処理を示したが、複数のアプリケーションについてトピックをシフトする処理にこれを応用することもできる。その場合は、図3のフローチャートに従い各アプリケーションについて処理を行い、トピックシフト手段16がシフト後のトピックにそれぞれ対応するアプリケーションの識別情報を付加して記憶するようにすればよい。
【0033】
また、図4および図5は、本実施の形態の音声認識処理の動作を示すフローチャートである。これは、第1のシステム構成で言えば、コンピュータの音声認識処理の流れを示すフローチャートであり、第2のシステム構成で言えば、音声認識装置の動作を示すフローチャートである。
業務処理手段11が、実行中の音声アプリケーションに含まれる特定の1つの発話単位において利用者の発話があった場合に、自然発話認識手段21、候補文生成手段19、マッチング手段23をこの順で呼び出すことにより、図4および図5の処理が実行される。なお、それ以外の対話の管理については、従来と同様、音声アプリケーションが行う。
【0034】
まず、自然発話認識手段21は、シフト後トピック記憶部18からアプリケーション固有にシフトしたトピックをロードする(ステップ401)。次に、グラマーが指定されたか終了要求かを判断し(ステップ402)、終了要求であれば、処理を終了するが、グラマー指定であれば、ステップ401でロードされたトピック(アプリケーションに特化したN-gram言語モデル)を用いたディクテーションによりユーザの発話を認識する(ステップ403)。なお、このディクテーションでは、一般的なトピックでカバーされている多様な自然発話を認識でき、かつ、アプリケーション固有のトピックにシフトさせているので、アプリケーション固有の語彙の認識もできる。また、認識結果は、認識結果記憶部22に記憶される。
【0035】
一方、候補文生成手段19は、現在の発話単位に対するグラマーをグラマー記憶部12からロードして候補文に展開し、候補文記憶部20に記憶する(ステップ404)。例えば、アプリケーションが、ユーザに発話を促すプロンプトを流すと同時に、アプリケーションでそのプロンプト時に指定されているグラマーの識別情報を候補文生成手段19に伝え、候補文生成手段19がその識別情報に対応するグラマーを展開する。なお、これで得られる各候補文は、グラマー方式のアプリケーションで処理できる形になっており、アプリケーションに返す最終認識結果の候補となっている。
【0036】
次に、マッチング手段23は、認識結果記憶部22に記憶された認識結果と候補文記憶部20に記憶された候補文とのマッチングをとり、候補文の中でディクテーションによる認識結果に最も近いものを選出する。そして、選出された候補文を最終認識結果としてアプリケーションに返却する(ステップ405)。
その後、アプリケーションは、認識結果と指定したグラマーとを照合し、それに基づき、次の対話状態へ遷移していく。
【0037】
なお、図4では、自然発話認識手段21による音声認識(ステップ403)の後に、候補文生成手段19(ステップ404)を行っているが、この順序は逆であってもよいし、並行して行うようにしてもよい。
【0038】
次に、ステップ405におけるマッチング処理の一例について、詳細に説明する。図5にその処理の流れを示す。
まず、マッチング手段23は、変数Nに候補文の数を設定する(ステップ411)。次に、変数Maxscoreに“-9999”を設定すると共に、変数Indexに“-1”を設定する(ステップ412)。そして、変数iに1からNを設定しながら、ステップ414〜416の処理を繰り返す(ステップ413)。
ステップ414において、マッチング手段23は、認識結果とi番目の候補文(以下、「候補文(i)」)とを比較してScore(i)を計算する。ここで、Score(i)は、認識結果と候補文(i)との一致度を判断するための指標であり、Score(i)が大きいほど一致度が高いものと定義している。次に、ステップ415において、変数Maxscoreの値と変数Score(i)の値とのどちらが大きいかを判断し、変数Score(i)の方が大きい場合にのみ、ステップ416において、変数MaxscoreにScore(i)を代入すると共に、変数Indexにiを代入する。
【0039】
次に、マッチング手段23は、変数Maxscoreと閾値THとを比較する(ステップ417)。Maxscoreが閾値THより大きい場合は、Outputに候補文(Index)を代入する(ステップ418)。一方、Maxscoreが閾値THより小さい場合は、Outputに“Rejected”を代入する(ステップ419)。そして、マッチング手段23は、Outputをアプリケーションに返す(ステップ420)。
【0040】
次に、本実施の形態の動作について具体例を用いて詳細に説明する。
グラマー記憶部12には、図2に示したようなグラマーが記憶されているものとする。なお、実際の乗り換え案内アプリケーションに用いるグラマーでは、これより多くの駅名が定義されるが、ここでは簡単のために2つの駅名のみを定義している。
まず、固有文章生成手段14は、図6に示すように、アプリケーション固有の文章データを生成する。
【0041】
まず、図3のステップ302における文章データへの展開処理について説明する。
即ち、固有文章生成手段14は、指定されたグラマーの1つ目の定義「<駅名>から<駅名>まで」の<駅名>に、<駅名>として定義されている「中央林間」および「新宿」を当てはめながら文章を展開し、「中央林間から新宿まで」と、「新宿から中央林間まで」という文章データを生成する。また、2つ目の定義「<駅名>から<駅名>まで<文末>」の<駅名>に、<駅名>として定義されている「中央林間」および「新宿」を、<文末>に、<文末>として定義されている「行きたい」および「お願いします」を当てはめながら文章を展開し、「中央林間から新宿まで行きたい」、「新宿から中央林間まで行きたい」、「中央林間から新宿までお願いします」および「新宿から中央林間までお願いします」という文章データを生成する。
【0042】
次に、図3のステップ304〜307における文末変化定義の反映処理について説明する。
候補文生成手段19は、上記展開処理で生成された「中央林間から新宿まで」、「新宿から中央林間まで」、「中央林間から新宿まで行きたい」、「新宿から中央林間まで行きたい」、「中央林間から新宿までお願いします」および「新宿から中央林間までお願いします」を1文ずつ読み込みながら、文末が文末変化定義の見出しである「行きたい」に等しいものがあるかどうか判断する。「中央林間から新宿まで行きたい」、「新宿から中央林間まで行きたい」を読み込んだ時に、これらの文末が文末変化定義の見出しである「行きたい」と等しいので、これらを「行きたいです」に変更した「中央林間から新宿まで行きたいです」および「新宿から中央林間まで行きたいです」を新たに生成し、トピックのシフトに用いる文章データに追加する。
【0043】
トピックシフト手段16は、アプリケーション固有の文章データと一般トピック記憶部17に記憶された一般的なトピックに基づき、アプリケーション固有にシフトしたトピックを生成し、シフト後トピック記憶部18に記憶する。この動作は、図7の「アプリケーション動作前」の枠内に示す。
【0044】
次に、図4および図5の流れに従い、ディクテーションによる自然発話の認識を行う場合について具体的に説明する。
ここでは、図7の「認識時」の枠内に示すように、ユーザが「あのー、中央林間から、えーと、新宿まで行きたいんです」という自然発話を行ったとする。そして、この自然発話に対し、自然発話認識手段21が、シフト後トピック記憶部18に記憶されたN-gram言語モデルを用いて「あの、中央林間から、えー、新宿まで行きたいのですが」と認識したものとする。
【0045】
この場合、候補文生成手段19は、図8に示すように、アプリケーションで処理可能な候補文を生成する。
即ち、候補文生成手段19は、指定されたグラマーの1つ目の定義「<駅名>から<駅名>まで」の<駅名>に、<駅名>として定義されている「中央林間」および「新宿」を当てはめながら文章を展開し、「中央林間から新宿まで」と、「新宿から中央林間まで」という候補文を生成する。また、2つ目の定義「<駅名>から<駅名>まで<文末>」の<駅名>に、<駅名>として定義されている「中央林間」および「新宿」を、<文末>に、<文末>として定義されている「行きたい」および「お願いします」を当てはめながら文章を展開し、「中央林間から新宿まで行きたい」、「新宿から中央林間まで行きたい」、「中央林間から新宿までお願いします」および「新宿から中央林間までお願いします」という候補文を生成する。
【0046】
マッチング手段23は、図9に示すように、これらの候補文と図7における認識結果(N-gram認識結果)とのマッチングをとり、最もスコアの高い候補文を最終認識結果とする。もし候補文の中にN-gram認識結果と同じものがあれば、その候補文を正解として最高スコアとなるようにし、もし候補文の中にN-gram認識結果と同じものがなければ、その認識結果に最も近い候補文を求めるという処理である。
【0047】
スコアの計算には、例えば、次のような式を用いることができる。
Score = (ngramWords- replacedWords - rejectedWords- insertedWords) / ngramWords
但し、ngramWordsは、N-gram認識結果に含まれる単語の数を、replacedWordsはN-gram認識結果に対して、異なる単語に置換された単語の数を、rejectedWordsは、N-gram認識結果に含まれるが候補文に含まれない単語の数を、insertedWordsは、N-gram認識結果に含まれないが候補文に含まれる単語の数を、それぞれ意味する。
即ち、N-gram認識結果と完全に一致した候補文のスコアは1となり、これがスコアの最大値となる。
【0048】
図9のマッチングによるスコア、即ち、図7におけるN-gram認識結果に対する図8の各候補文のスコアを計算すると次のようになる。
中央林間から新宿まで:( 11-0-7-0 ) / 11 = 0.36
新宿から中央林間まで:( 11-2-7-0 ) / 11 = 0.18
中央林間から新宿まで行きたい:( 11-0-5-0 ) / 11 = 0.54
新宿から中央林間まで行きたい:( 11-2-5-0 ) / 11 = 0.36
中央林間から新宿までお願いします:( 11-3-4-0 ) / 11 = 0.36
新宿から中央林間までお願いします:( 11-5-4-0 ) / 11 = 0.18
【0049】
マッチング手段23は、スコアが最大のものを最終認識結果とするので、アプリケーションは、最終認識結果として、「中央林間から新宿まで行きたい」を受け取る。
【0050】
なお、本実施の形態の変形例としては、図10のような構成も考えられる。
図1の構成では、固有文章記憶部15に記憶されたアプリケーション固有の文章データを、一般トピック記憶部17に記憶された一般的なトピックをアプリケーション固有のものにシフトするのに用いた。これに対し、図10の構成では、固有トピック生成手段31が、固有文章記憶部15に記憶されたアプリケーション固有の文章データに基づき、アプリケーションに固有のトピックを生成し、固有トピック記憶部32に記憶するようにしている。
また、図1の構成では、自然発話認識手段21が、シフト後トピック記憶部18に記憶されたトピックを用いてディクテーションによる音声認識を行った。これに対し、図10の構成では、自然発話認識手段21が、一般トピック記憶部17に記憶された一般のトピックと、固有トピック記憶部32に記憶されたアプリケーションに固有のトピックとを用いて、ディクテーションによる音声認識を行うようにしている。
その他の動作については、図1の構成と同じである。
【0051】
このように、本実施の形態では、状態遷移モデルに変換するという目的で使用されていたグラマーをトピック生成のための入力データとして利用する構成とした。即ち、従来は、状態遷移モデルとして使用するという観点から、グラマーを展開することには意味がなかったが、本実施の形態では、グラマーを展開し、展開したグラマーをトピック生成のための文章データとして使用している。
また、ディクテーションによる認識結果をグラマー方式で処理できる形にすると情報量が落ちるので、従来、このような変換を行うことはなかった。これに対し、本実施の形態では、グラマー方式のアプリケーションに変更を加えずにディクテーションを行えるようにするものであるので、あえて情報の少ないグラマー方式の認識結果に変換するようにしている。
更に、グラマー方式の状態遷移モデルの場合、統計的言語モデルと完全にマッチしない入力(ここでは音声入力ではなくディクテーション認識結果のテキスト入力)に対しては、“Reject”という結果を返すだけであった。これに対し、本実施の形態では、グラマーから展開されたどの候補に最も近いかを計算し、“Reject”されるケースを減らしている。
【0052】
かかる構成により、本実施の形態は、状態遷移モデルを想定して作成されるグラマー方式の音声アプリケーションにおいて、自然発話を許容する音声認識機能をアプリケーションの変更をすることなく実現することができるという効果を有している。しかも、アプリケーション開発者に音声認識に関する専門的な知識の習得を要求することなく、手間とコストをかけずに、このような変更を可能とするものである。
【0053】
【発明の効果】
このように、本発明によれば、グラマー方式の音声アプリケーションによる自然発話の認識を手間とコストをかけずに行うことが可能となる。
【図面の簡単な説明】
【図1】 本実施の形態の全体構成を示したブロック図である。
【図2】 本実施の形態におけるグラマー記憶部の記憶内容の例を示した図である。
【図3】 本実施の形態における統計的言語モデル生成処理の動作を示したフローチャートである。
【図4】 本実施の形態における音声認識処理の動作を示したフローチャートである。
【図5】 本実施の形態におけるマッチング処理の動作を示したフローチャートである。
【図6】 本実施の形態における固有データ生成処理の例を示した図である。
【図7】 本実施の形態におけるトピックシフト処理および自然発話認識処理の例を示した図である。
【図8】 本実施の形態における候補文生成処理の例を示した図である。
【図9】 本実施の形態におけるマッチング処理の例を示した図である。
【図10】 本実施の形態の変形例の全体構成を示したブロック図である。
【符号の説明】
11…業務処理手段、12…グラマー記憶部、13…補正情報記憶部、14…固有文章生成手段、15…固有文章記憶部、16…トピックシフト手段、17…一般トピック記憶部、18…シフト後トピック記憶部、19…候補文生成手段、20…候補文記憶部、21…自然発話認識手段、22…認識結果記憶部、23…マッチング手段、31…固有トピック生成手段、32…固有トピック記憶部
Claims (9)
- アプリケーションプログラムに入力される音声をグラマー方式で認識するために用いられるグラマーを読み出す読出し手段と、
前記読出し手段により読み出された前記グラマーを展開し、前記アプリケーションプログラムに固有の文章データを生成する固有文章生成手段と、
前記固有文章生成手段により生成された前記文章データに基づいて、前記アプリケーションプログラムに入力される音声をディクテーションで認識するために用いられる統計的言語モデルを生成する統計的言語モデル生成手段と、
を備えたことを特徴とする統計的言語モデル生成装置。 - 前記統計的言語モデル生成手段は、前記統計的言語モデルを生成するために、一般的な統計的言語モデルを前記固有文章生成手段により生成された前記文章データに基づいて変更することを特徴とする請求項1記載の統計的言語モデル生成装置。
- 前記統計的言語モデル生成手段は、前記統計的言語モデルを一般的な統計的言語モデルとは別に生成することを特徴とする請求項1記載の統計的言語モデル生成装置。
- 前記固有文章生成手段は、前記グラマーを展開した結果に対して所定の補正を行うことにより前記文章データを生成することを特徴とする請求項1記載の統計的言語モデル生成装置。
- アプリケーションプログラムに入力される音声をグラマー方式で認識するために用いられるグラマーを展開し、当該アプリケーションプログラムに固有の文章データを生成する固有文章生成手段と、
前記固有文章生成手段により生成された前記文章データに基づいて、前記アプリケーションプログラムに入力される音声をディクテーションで認識するために用いられる統計的言語モデルを生成する統計的言語モデル生成手段と、
前記アプリケーションプログラムに入力された音声を、前記統計的言語モデル生成手段により生成された前記統計的言語モデルを用いてディクテーションで認識する自然発話認識手段と、
前記入力された音声をグラマー方式で認識するために用いられるグラマーに基づいて、前記自然発話認識手段による認識結果を前記アプリケーションプログラムで処理可能な最終認識結果に変換する認識結果変換手段と、
を備えたことを特徴とする音声認識装置。 - 前記統計的言語モデル生成手段は、前記統計的言語モデルを生成するために、一般的な統計的言語モデルを前記文章データに基づいて変更することを特徴とする請求項5記載の音声認識装置。
- 前記統計的言語モデル生成手段は、前記統計的言語モデルを一般的な統
計的言語モデルとは別に生成し、
前記自然発話認識手段は、前記入力された音声を、前記一般的な統計的言語モデルと、前記統計的言語モデル生成手段により生成された前記統計的言語モデルとを用いてディクテーションで認識することを特徴とする請求項5記載の音声認識装置。 - アプリケーションプログラムに入力される音声をグラマー方式で認識す
るために用いられるグラマーを、グラマー記憶部から読み出すステップと、
読み出された前記グラマーを展開し、前記アプリケーションプログラムに固有の文章データを生成するステップと、
生成された前記文章データに基づいて、前記アプリケーションプログラムに入力される音声をディクテーションで認識するために用いられる統計的言語モデルを生成するステップと、
生成された前記統計的言語モデルを統計的言語モデル記憶手段に記憶するステップと、 前記統計的言語モデル記憶手段から前記統計的言語モデルを読み出すステップと、
前記アプリケーションプログラムに入力された音声を、読み出された前記統計的言語モデルを用いてディクテーションで認識するステップと、
前記入力された音声をグラマー方式で認識するために用いられるグラマーを、グラマー記憶部から読み出すステップと、
読み出された前記グラマーに基づいて、前記ディクテーションによる認識結果を前記アプリケーションプログラムで処理可能な最終認識結果に変換するステップと
を含むことを特徴とする音声認識方法。 - コンピュータに、
アプリケーションプログラムに入力される音声をグラマー方式で認識するために用いられるグラマーを読み出す機能と、
読み出された前記グラマーを展開し、前記アプリケーションプログラムに固有の文章データを生成する機能と、
生成された前記文章データに基づいて、前記アプリケーションプログラムに入力される音声をディクテーションで認識するために用いられる統計的言語モデルを生成する機能と を実現させるためのプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003188893A JP4267385B2 (ja) | 2003-06-30 | 2003-06-30 | 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム |
US10/815,211 US7409342B2 (en) | 2003-06-30 | 2004-03-31 | Speech recognition device using statistical language model |
US12/143,599 US7603277B2 (en) | 2003-06-30 | 2008-06-20 | Speech recognition device using statistical language model |
US12/181,961 US7698137B2 (en) | 2003-06-30 | 2008-07-29 | Speech recognition device using statistical language model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003188893A JP4267385B2 (ja) | 2003-06-30 | 2003-06-30 | 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005024797A JP2005024797A (ja) | 2005-01-27 |
JP4267385B2 true JP4267385B2 (ja) | 2009-05-27 |
Family
ID=33535538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003188893A Expired - Fee Related JP4267385B2 (ja) | 2003-06-30 | 2003-06-30 | 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (3) | US7409342B2 (ja) |
JP (1) | JP4267385B2 (ja) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4267385B2 (ja) * | 2003-06-30 | 2009-05-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム |
US7752152B2 (en) * | 2006-03-17 | 2010-07-06 | Microsoft Corporation | Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling |
US8032375B2 (en) * | 2006-03-17 | 2011-10-04 | Microsoft Corporation | Using generic predictive models for slot values in language modeling |
JP5062171B2 (ja) * | 2006-03-23 | 2012-10-31 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識用プログラム |
US7689420B2 (en) * | 2006-04-06 | 2010-03-30 | Microsoft Corporation | Personalizing a context-free grammar using a dictation language model |
US20070239453A1 (en) * | 2006-04-06 | 2007-10-11 | Microsoft Corporation | Augmenting context-free grammars with back-off grammars for processing out-of-grammar utterances |
US8108205B2 (en) * | 2006-12-01 | 2012-01-31 | Microsoft Corporation | Leveraging back-off grammars for authoring context-free grammars |
US8417511B2 (en) * | 2006-12-28 | 2013-04-09 | Nuance Communications | Dynamic grammars for reusable dialogue components |
US8886545B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US20080221902A1 (en) * | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile browser environment speech processing facility |
US10056077B2 (en) | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US20080312934A1 (en) * | 2007-03-07 | 2008-12-18 | Cerra Joseph P | Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility |
US8838457B2 (en) | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US20080221884A1 (en) | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile environment speech processing facility |
US8635243B2 (en) | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US8949130B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US20080288252A1 (en) * | 2007-03-07 | 2008-11-20 | Cerra Joseph P | Speech recognition of speech recorded by a mobile communication facility |
US8886540B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US20110054900A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application |
US20090030687A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Adapting an unstructured language model speech recognition system based on usage |
US20110054894A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Speech recognition through the collection of contact information in mobile dictation application |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US20090089057A1 (en) * | 2007-10-02 | 2009-04-02 | International Business Machines Corporation | Spoken language grammar improvement tool and method of use |
US9634855B2 (en) | 2010-05-13 | 2017-04-25 | Alexander Poltorak | Electronic personal interactive device that determines topics of interest using a conversational agent |
JP5516192B2 (ja) * | 2010-07-28 | 2014-06-11 | 富士通株式会社 | モデル作成装置、モデル作成プログラムおよびモデル作成方法 |
JP5729001B2 (ja) * | 2011-02-18 | 2015-06-03 | ソニー株式会社 | 情報提供システム、情報提供方法およびプログラム |
US10658074B1 (en) | 2011-04-11 | 2020-05-19 | Zeus Data Solutions, Inc. | Medical transcription with dynamic language models |
WO2012177646A2 (en) * | 2011-06-19 | 2012-12-27 | Mmodal Ip Llc | Speech recognition using context-aware recognition models |
US9135237B2 (en) * | 2011-07-13 | 2015-09-15 | Nuance Communications, Inc. | System and a method for generating semantically similar sentences for building a robust SLM |
US8650031B1 (en) * | 2011-07-31 | 2014-02-11 | Nuance Communications, Inc. | Accuracy improvement of spoken queries transcription using co-occurrence information |
CN104488025A (zh) * | 2012-03-16 | 2015-04-01 | 纽昂斯通讯公司 | 用户专用的自动语音识别 |
US20140078065A1 (en) * | 2012-09-15 | 2014-03-20 | Ahmet Akkok | Predictive Keyboard With Suppressed Keys |
US9697821B2 (en) * | 2013-01-29 | 2017-07-04 | Tencent Technology (Shenzhen) Company Limited | Method and system for building a topic specific language model for use in automatic speech recognition |
WO2015053560A1 (ko) * | 2013-10-08 | 2015-04-16 | 삼성전자 주식회사 | 디바이스 정보에 기초하여 음성 인식을 수행하는 방법 및 장치 |
KR102274317B1 (ko) | 2013-10-08 | 2021-07-07 | 삼성전자주식회사 | 디바이스 정보에 기초하여 음성 인식을 수행하는 방법 및 장치 |
CN108268443B (zh) * | 2017-12-21 | 2022-02-25 | 北京百度网讯科技有限公司 | 确定话题点转移以及获取回复文本的方法、装置 |
EP4350687A1 (en) * | 2021-06-04 | 2024-04-10 | Sony Group Corporation | Learning device, learning method, and learning program |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6455597U (ja) | 1987-09-29 | 1989-04-06 | ||
JPH04289899A (ja) | 1991-03-19 | 1992-10-14 | Hitachi Ltd | 口語音声認識装置及び方法 |
JPH05197389A (ja) * | 1991-08-13 | 1993-08-06 | Toshiba Corp | 音声認識装置 |
JPH0782349B2 (ja) | 1992-04-02 | 1995-09-06 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 音声言語インタフェース装置 |
JP2967688B2 (ja) | 1994-07-26 | 1999-10-25 | 日本電気株式会社 | 連続単語音声認識装置 |
JP3741156B2 (ja) * | 1995-04-07 | 2006-02-01 | ソニー株式会社 | 音声認識装置および音声認識方法並びに音声翻訳装置 |
US5819220A (en) * | 1996-09-30 | 1998-10-06 | Hewlett-Packard Company | Web triggered word set boosting for speech interfaces to the world wide web |
JP3027543B2 (ja) | 1996-12-11 | 2000-04-04 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 連続音声認識装置 |
JP3027544B2 (ja) | 1997-01-10 | 2000-04-04 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 統計的言語モデル生成装置及び音声認識装置 |
US6078886A (en) | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
JP3027557B2 (ja) | 1997-09-03 | 2000-04-04 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音声認識方法及び装置、並びに音声認識処理プログラムを記録した記録媒体 |
JP3059413B2 (ja) | 1998-03-16 | 2000-07-04 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 自然言語理解装置及び自然言語理解システム |
US6928404B1 (en) * | 1999-03-17 | 2005-08-09 | International Business Machines Corporation | System and methods for acoustic and language modeling for automatic speech recognition with large vocabularies |
JP2000293196A (ja) | 1999-04-08 | 2000-10-20 | Nec Corp | 音声認識装置、方法及びプログラムを記憶した記憶媒体 |
JP3994368B2 (ja) * | 2000-01-25 | 2007-10-17 | ソニー株式会社 | 情報処理装置および情報処理方法、並びに記録媒体 |
JP2001255888A (ja) | 2000-03-08 | 2001-09-21 | Ricoh Co Ltd | 音声認識装置、音声認識方法およびその方法を実施するためのプログラムを記憶した記憶媒体 |
AU2001294222A1 (en) | 2000-10-11 | 2002-04-22 | Canon Kabushiki Kaisha | Information processing device, information processing method, and storage medium |
JP4089861B2 (ja) | 2001-01-31 | 2008-05-28 | 三菱電機株式会社 | 音声認識文章入力装置 |
FR2820872B1 (fr) | 2001-02-13 | 2003-05-16 | Thomson Multimedia Sa | Procede, module, dispositif et serveur de reconnaissance vocale |
JP2003242147A (ja) | 2002-02-18 | 2003-08-29 | Seiko Epson Corp | ネットワーク文法生成方法およびネットワーク文法生成装置ならびに音声認識装置 |
US7197457B2 (en) * | 2003-04-30 | 2007-03-27 | Robert Bosch Gmbh | Method for statistical language modeling in speech recognition |
JP4267385B2 (ja) * | 2003-06-30 | 2009-05-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム |
-
2003
- 2003-06-30 JP JP2003188893A patent/JP4267385B2/ja not_active Expired - Fee Related
-
2004
- 2004-03-31 US US10/815,211 patent/US7409342B2/en active Active
-
2008
- 2008-06-20 US US12/143,599 patent/US7603277B2/en not_active Expired - Fee Related
- 2008-07-29 US US12/181,961 patent/US7698137B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005024797A (ja) | 2005-01-27 |
US20080300881A1 (en) | 2008-12-04 |
US7409342B2 (en) | 2008-08-05 |
US7698137B2 (en) | 2010-04-13 |
US7603277B2 (en) | 2009-10-13 |
US20080300876A1 (en) | 2008-12-04 |
US20040267518A1 (en) | 2004-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4267385B2 (ja) | 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム | |
US6754626B2 (en) | Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context | |
JP6188831B2 (ja) | 音声検索装置および音声検索方法 | |
JP5327054B2 (ja) | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム | |
JP5141695B2 (ja) | 記号挿入装置および記号挿入方法 | |
US7392186B2 (en) | System and method for effectively implementing an optimized language model for speech recognition | |
JP7051919B2 (ja) | ストリーミングアテンションモデルに基づく音声認識復号化方法、装置、機器及びコンピュータ可読記憶媒体 | |
JP2001242884A (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
US10872601B1 (en) | Natural language processing | |
JP5073024B2 (ja) | 音声対話装置 | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
KR101424496B1 (ko) | 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP4600706B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
CN110809796B (zh) | 具有解耦唤醒短语的语音识别系统和方法 | |
KR20230156125A (ko) | 룩업 테이블 순환 언어 모델 | |
JP2002091484A (ja) | 言語モデル生成装置及びこれを用いた音声認識装置、言語モデル生成方法及びこれを用いた音声認識方法、並びに言語モデル生成プログラムを記録したコンピュータ読み取り可能な記録媒体及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2008293098A (ja) | 応答スコア情報生成装置、対話処理装置 | |
JP2938865B1 (ja) | 音声認識装置 | |
JP3894419B2 (ja) | 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2005316247A (ja) | 音声対話システム | |
KR101483945B1 (ko) | 의미 분석이 가능한 음성 인식 방법 및 이를 위한 음성 인식 장치 | |
JP2004110673A (ja) | 文章スタイル変換方法、文章スタイル変換装置、文章スタイル変換プログラム、文章スタイル変換プログラムを格納した記録媒体 | |
JP4587015B2 (ja) | 音声認識装置および方法、プログラム、並びに記録媒体 | |
Cai et al. | Development of a Chinese song name recognition system | |
JPH10319989A (ja) | 統計的言語モデル及びその作成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060703 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060801 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070403 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070622 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080902 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20081001 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081112 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20081222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090120 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090218 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4267385 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120227 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120227 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120227 Year of fee payment: 3 |
|
S202 | Request for registration of non-exclusive licence |
Free format text: JAPANESE INTERMEDIATE CODE: R315201 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120227 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130227 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130227 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140227 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |