JP2003308087A - 文法更新システム及び方法 - Google Patents
文法更新システム及び方法Info
- Publication number
- JP2003308087A JP2003308087A JP2002113846A JP2002113846A JP2003308087A JP 2003308087 A JP2003308087 A JP 2003308087A JP 2002113846 A JP2002113846 A JP 2002113846A JP 2002113846 A JP2002113846 A JP 2002113846A JP 2003308087 A JP2003308087 A JP 2003308087A
- Authority
- JP
- Japan
- Prior art keywords
- data
- grammar
- voice
- updating
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
識した結果を活用することで、必要となる文法データの
更新部分を検出しつつ、使用する文法データを所定のタ
イミングで更新することができる文法更新システム及び
方法を提供する。 【解決手段】 音声データの認識に使用される音声対話
用の文法データを保存し、音声データについて文法デー
タを用いることなく再認識する文法更新方法であって、
再認識する工程における再認識結果が文法データを用い
て受理可能か否かを判定し、再認識結果が文法データを
用いて受理できないと判定された場合に、保存されてい
る文法データの中から追加更新部分を特定して文法デー
タを追加更新する。
Description
において音声認識精度向上のために用いられる文法デー
タを更新する文法更新システム及び方法に関する。
環境の急速な進展によって、従来は演算処理負荷が過大
であるとされていたボイスポータルサーバ等に代表され
るASR(Auto Speech Recognition)を用いた音声対
話システムについても、一般のアプリケーションに積極
的に採用されるようになってきている。
音声対話システムでは、音声認識精度を向上させるため
に、一般に、対話の状態に応じた文法を用いて音声認識
を行なうことが多い。すなわち、音声認識の精度向上
や、あるいはユーザにとっての使い易さの追求、発話の
自由度拡大等に大きく影響を与える要素の1つが文法で
ある。
に、いわゆるディクテーション技術を用いる場合におい
ては、ほとんど発声される可能性の無い言い回しについ
ても考慮する必要が生じることから、音声認識に伴う演
算処理量の増加や、全体としての音声認識率の低下を誘
発し、ひいてはユーザ満足度を下げたり、タスク達成時
間・達成率を悪化させたりすることになる。
るユーザ発話を認識するのに必要十分な規模及び複雑さ
を有する有限状態オートマトン文法を求め、音声対話シ
ステムに適用することが強く求められている。
上、必要十分な文法データを作成することは非常に困難
であり、様々な言い回しを想定しては文法データの形式
にまとめていくという作業を行っているのが現実であ
る。
に、多くの被験者に本システムあるいは疑似システムを
使用してもらうことによって、多くの言い回しを抽出し
て文法データとして整理することも良く行われている。
テムにおける音声データ等をログデータとして保存して
おき、誤認識された箇所を抽出する際に管理者が文法が
原因で誤認識が生じた箇所について新たな文法を生成す
ることによって文法データを更新することも行われてい
る。
データの作成に相当の工数を要するとともに、場合によ
っては工数に見合った十分な認識精度を実現可能な文法
データを得ることさえ困難であるという問題点があっ
た。
は特定地方の方言を話す被験者を多数集めるとか、方言
を十分に理解している技術者が必要となるが、現実的に
は実行は困難である。
差異が存在することから、技術者が男性である場合、女
性に対応した文法データを適切に作成することができな
いという場合も生じうる。
文法データを用いることなく音声データを認識した結果
を活用することで、必要となる文法データの更新部分を
検出しつつ、使用する文法データを所定のタイミングで
更新することができる文法更新システム及び方法を提供
することを目的とする。
に本発明にかかる文法更新システムは、音声データの認
識に使用される音声対話用の文法データを保存する更新
元文法記録部と、音声データについて文法データを用い
ることなく再認識する音声再認識部とを含む文法更新シ
ステムであって、音声再認識部における再認識結果が文
法データを用いて受理可能か否かを判定する再認識結果
判定部と、再認識結果判定部において、再認識結果が文
法データを用いて受理できないと判定された場合に、更
新元文法記録部に保存されている文法データの中から追
加更新部分を特定して文法データを追加更新する文法追
加更新部を含むことを特徴とする。
声認識と、文法データを用いない音声認識とを並行して
処理しながら、必要となる文法データの更新部分を検出
することができることから、過不足無く使用する文法デ
ータを更新することができ、認識精度を向上させること
が可能となる。
かかる文法更新システムは、少なくとも音声データ及び
音声認識結果をログデータとして保存するログデータ記
録部と、音声データの認識に使用される音声対話用の文
法データを保存する更新元文法記録部とを有し、ログデ
ータ記録部に保存されている音声データを取得するログ
取得部と、ログ取得部において取得された音声データに
ついて文法データを用いることなく再認識する音声再認
識部とを含む文法更新システムであって、音声再認識部
における再認識結果が文法データを用いて受理可能か否
かを判定する再認識結果判定部と、再認識結果判定部に
おいて、再認識結果が文法データを用いて受理できない
と判定された場合に、更新元文法記録部に保存されてい
る文法データの中から追加更新部分を特定して文法デー
タを追加更新する文法追加更新部を含むことを特徴とす
る。
がら、必要となる文法の更新部分を検出することができ
ることから、過不足無く使用する文法データを更新する
ことができ、認識精度を向上させることが可能となる。
は、文法追加更新部において、文法データの更新に関す
る制限事項を設定することができることが好ましい。特
殊な方言や男女間の表現の差異等を、反映させることが
できるようにするためである。
は、追加更新された文法データ、あるいは文法データに
おける更新部分を提示する更新情報提示部と、提示され
た文法データの更新部分ごとに、更新を行うか否かを確
認する更新指示入力部を含むことが好ましい。認識結果
についてシステム管理者によるチューニングを実行する
機会を設けることにより、認識精度の向上を図ることが
できるからである。
ステムの機能をコンピュータの処理ステップとして実行
するソフトウェアを特徴とするものであり、具体的に
は、音声データの認識に使用される音声対話用の文法デ
ータを保存し、音声データについて文法データを用いる
ことなく再認識する工程を含む文法更新方法であって、
再認識する工程における再認識結果が文法データを用い
て受理可能か否かを判定する工程と、判定する工程にお
いて、再認識結果が文法データを用いて受理できないと
判定された場合に、保存されている文法データの中から
追加更新部分を特定して文法データを追加更新する工程
を含む文法更新方法並びにそのような工程を具現化する
コンピュータ実行可能なプログラムであることを特徴と
する。
プログラムをロードさせ実行することで、文法データを
用いた音声認識と、文法データを用いない音声認識とを
並行して処理しながら、必要となる文法データの更新部
分を検出することができることから、過不足無く使用す
る文法データを更新することができ、認識精度を向上さ
せることができる文法更新システムを実現することが可
能となる。
ステムの機能をコンピュータの処理ステップとして実行
するソフトウェアを特徴とするものであり、具体的に
は、少なくとも音声データ及び音声認識結果をログデー
タとして保存し、音声データの認識に使用される音声対
話用の文法データを保存し、保存されている音声データ
を取得する工程と、取得された音声データについて文法
データを用いることなく再認識する工程とを含む文法更
新方法であって、再認識する工程における再認識結果が
文法データを用いて受理可能か否かを判定する工程と、
判定する工程において、再認識結果が文法データを用い
て受理できないと判定された場合に、保存されている文
法データの中から追加更新部分を特定して文法データを
追加更新する工程を含む文法更新方法並びにそのような
工程を具現化するコンピュータ実行可能なプログラムで
あることを特徴とする。
プログラムをロードさせ実行することで、ログデータを
活用しながら、必要となる文法の更新部分を検出するこ
とができることから、過不足無く使用する文法データを
更新することができ、認識精度を向上させることができ
る文法更新システムを実現することが可能となる。
る文法更新システムについて、図面を参照しながら説明
する。図1は本発明の実施の形態にかかる文法更新シス
テムの構成図である。本実施の形態においては、文法デ
ータを用いる音声データの認識処理と、文法データを用
いない音声データの認識処理とを、並行させて処理しな
がら、文法データの更新部分を検出する場合について説
明する。
声対話システム1は、基本的に音声データの入力及び応
答音声の出力を行う音声入出力部11と、音声データを
認識する音声認識部12と、認識された結果に基づいて
応答を決定する対話管理部13と、出力すべき応答音声
を合成する音声合成部14とで構成されており、音声認
識部12において認識精度を向上させるべく更新元文法
記録部15に保存されている文法データを使用する。
テム2は、音声対話システム1における音声データ等を
取得して、更新元文法記録部15に保存されている文法
データを用いることなく、当該音声データを認識する音
声再認識部21と、再認識結果が更新元文法記録部15
に保存されている文法データを用いて受理可能か否かを
判定する再認識結果判定部22と、更新部分を特定して
文法データを追加更新する文法追加更新部23とで構成
されている。
認識部21における音声認識の方が、音声認識部12に
おける音声認識よりも認識精度が高いことを前提として
いる。すなわち、音声再認識部21においては、十分に
受理可能文が多く、十分な語彙を持つ、例えば大語彙デ
ィクテーションシステム等を用いた認識時間より性能を
重視した認識方法を採用することになる。なお、音声再
認識部21における認識方法は特にこれに限定されるも
のではなく、十分な認識精度を有する方法であれば何で
も良い。
音声再認識部21における再認識結果が更新元文法記録
部15に保存されている文法データに基づいて受理する
ことができるか否かについて判定することになる。
ることができないと判定された場合には、文法追加更新
部23において、かかる受理できない部分を更新部分と
して特定し、更新元文法記録部15に保存されている文
法データに追加更新し、更新された文法データを更新文
法記録部31へ出力することになる。
ンが考えられる。図2は、本発明の一実施例にかかる文
法更新システムの構成例示図である。図2においては、
音声対話システム1における音声ログ、対話状態ログ、
認識結果ログを用いて、使用中の文法についてリアルタ
イムに更新する場合について説明する。
ては、音声認識の対象となる音声データを入出力する音
声入出力部11と、更新対象の文法を保存する更新対象
文法記録部16を有している。
声データを取得し、音声分析部25を介して、音声再認
識部21へ渡す。音声分析部25では、取得した音声デ
ータを音声認識に適した特徴量にFFT等の音響分析処
理を施して変換し、音声再認識部21に渡すことにな
る。
声データについて、文法データを用いることなく認識
し、再認識結果を再認識結果判定部22に渡す。
記録部16に記録されている文法データを文法取得部2
6において取得し、当該文法データを用いることで、音
声再認識部21における再認識結果を受理することがで
きるか否かを判定する。そして、受理することができる
場合には、既に当該文法データが含まれているものと判
断できることから、文法データの更新が不要である旨の
指示信号を文法追加更新部23に送ることになる。
認識部21における再認識結果と文法データを更新する
旨の指示信号を文法追加更新部23に送ることになる。
旨の指示信号を受けた場合にのみ、文法取得部26にお
いて取得された文法データと、音声再認識部21におけ
る再認識結果とのマッチングを行ない、マッチングしな
い部分が文法の更新部分であるものと判断し、これを補
完することによって文法を追加更新して、更新文法記録
部31へ出力することになる。
れている音声対話システム1のログデータ記録部に保存
されている音声データを含むログデータに基づいて、文
法を更新する部分について抽出し、文法データに関する
チューニングを随時行うことができるようにすることも
考えられる。
に使用されている音声対話システム1に、対話ログを記
録するログデータ記録部17を備えることになる。
話システム1においてログデータ記録部17に保存され
ている音声ログ等を取得するログ取得部27が追加さ
れ、音声再認識部21においては、取得した音声ログを
再認識することになる。
て音声データのみならず、対話状態や経緯を示すログデ
ータや、音声認識部12における認識結果、及び音声認
識部12における認識結果の信頼度等に関する情報をも
取得することになる。また、ログデータのデータ構造に
ついても、対話の状態、使用文法、対話時間、呼の発信
者番号、ユーザID、音声データ等を階層的にまとめた
データ構造等、特に限定されるものではない。
ンが考えられる。図4は、本発明の他の実施例にかかる
文法更新システムの構成例示図である。図4において
は、音声対話システム1における音声ログ、対話状態ロ
グ、認識結果ログを用いて、使用中の文法についてリア
ルタイムに更新する場合について説明する。
ては、音声データのログを保存する音声ログデータ記録
部18と、対話状態に関するログを保存する対話ログデ
ータ記録部19と、更新対象の文法を保存する更新対象
文法記録部16を有している。
タンプ情報と共に、ユーザが発声した入力音声データI
Dと、当該入力音声データIDに対応する認識結果、シ
ステム応答、対話状態(対話シナリオ中の状態)、その
時使用した文法IDが記録されている。音声ログデータ
記録部18及び更新対象文法記録部16においてそれぞ
れ保存されている音声データ及び更新対象文法について
も、当該入力音声データID及び文法IDに基づいて管
理されることになる。
ログデータ記録部19を参照することにより対話ログを
時系列順に読み出し、入力音声データIDを順次取得す
る。そして、取得した入力音声データIDを音声データ
取得部24へ渡すと同時に、当該入力音声データIDに
対応する認識結果を抽出して再認識結果判定部22に、
使用した文法IDを文法取得部26に渡すことになる。
れた入力音声データIDに対応する音声データを音声対
話システム1における音声ログデータ記録部18から取
得し、音声分析部25に渡す。音声分析部25では、取
得した音声データを音声認識に適した特徴量にFFT等
の音響分析処理を施して変換し、音声再認識部21に渡
すことになる。音声再認識部21は、取得した音声デー
タを文法データを用いることなく認識し、再認識結果を
再認識結果判定部22に渡すことになる。以下の処理
は、前述した処理と同様になるので、詳細な説明は省略
する。
ることも考えられる。特殊な方言や男女間の表現の差異
等を、反映させることができるようにするためである。
例えば、特定の方言特有の言い回しが何ら制限事項とし
て設定されていない場合、標準語に従った言い回しにつ
いては、文法データを用いて受理可能であるのに対し
て、方言特有の言い回しについては受理することができ
ない場合も考えられる。このような場合に、システム管
理者が当該方言特有の言い回しについて必ずしも精通し
ているという保証がないことから、事前に制約事項とし
て当該方言特有の言い回しを文法データとして準備して
おくことで、方言特有の言い回しに対する認識精度が低
下するのを未然に回避することが可能となる。
存されている文法データの例示図を示す。図5に示すよ
うに、図6に示す文章構成例に基づいて、‘#action’
と‘#object’の関係を逐一記録することになる。文法
の更新方法としては、例えば記録されていない‘#actio
n’の追加や、‘#object’における冠詞と名詞の接続方
法を新たに定義したりすることになる。例えば、‘#act
ion’に‘copy’を追加すること等が考えられる。
識部21における再認識結果に関する信頼度を求めるこ
ともできることから、当該信頼度に応じて自動的に更新
するか否かを判定する方法も考えられる。かかる信頼度
は、例えば以下のように定めることができる。
タを音声再認識部21で処理した再認識結果を求める。
次に、評価用音声データ使用時における1発声単位ある
いは1単語単位の評価スコアを算出する。
再認識結果及び評価用音声データ使用時における1発声
単位あるいは1単語単位の評価スコアを比較することに
よって、評価スコアと正解率(どの程度正解しているの
かを表す基準)の関係式を推定することによって、再認
識結果に関する信頼度を求めることになる。したがっ
て、当該信頼度は、入力された音声データ全体について
求めることもできるし、音声データに含まれている各単
語ごとに求めることもできることになる。
認識部21における再認識結果が信用できない結果であ
ることを意味していることから、当該信頼度に応じて文
法データを更新するか否かを判断することによって、よ
り精度良く文法の更新を行うことが可能となる。図7
に、当該実施例にかかる文法更新システムの構成例示図
を示す。以下、図2との相違点についてのみ説明する。
識結果に全体及び単語ごとの信頼度を付与して出力する
ことになる。また、再認識結果判定部22は、音声再認
識部21における再認識結果の全体信頼度が低い場合、
再認識結果について更新対象文法で認識することができ
ない場合であっても、文法を更新する必要がない旨の指
示信号を文法追加更新部23に送ることになる。
タとマッチングしなかった部分の単語の信頼度に基づい
て、文法更新対象部分の信頼度を算出し、更新元の文法
ID、更新後の文法データ、文法データの更新部分、文
法更新対象部分の信頼度を自動/手動判定部29に送信
することになる。
部分の信頼度が所定のしきい値以上である場合、文法置
換部30に更新元の文法ID、更新後の文法データと置
換命令信号を送信する。文法更新対象部分の信頼度が所
定のしきい値未満である場合には、システム管理者端末
3の更新情報提示部41に、文法データの更新部分、文
法更新対象部分の信頼度を送信することによって、入力
の待機状態となる。
情報をディスプレイ等を用いて表示出力し、更新指示入
力部42からシステム管理者の入力を受け付け、その指
示内容(更新/非更新)を自動/手動判定部29への回
答信号とする。自動/手動判定部29では、更新情報提
示部41からの回答信号が更新をする旨の信号である場
合、更新後の文法データと共に文法データを更新する旨
の指示信号を文法置換部30に送信することになる。
を受信した文法置換部30において、同時に受信した更
新後の文法データをもって更新元IDで特定される更新
対象文法と入れ替える作業を手動で行うものと判定され
た場合に、文法更新対象となった音声データを更新情報
提示部41に送信して、どのような発声内容が認識でき
ないものと判断されたために当該文法データの更新が必
要となったのかを、更新情報提示部41において文法更
新部分と共に提示する構成も考えられる。この場合、音
声データに付随する関連情報には、ユーザに関する個人
情報を含むこともできることから、システム管理者が、
当該ユーザが当該個人情報へのアクセス権を有するメン
バか否か等の判断に基づいて設定を変えることも可能と
なる。
ステム管理者による入力を要求する信号(更新情報等も
含む)を蓄積しておき、システム管理者がアクセスした
時に一括して処理することも可能である。
ある場合には、携帯電話やPDA等をシステム管理者端
末3として採用することも考えられるし、システム管理
者に指示待ち案件が来ていることをメール等によって通
知することも可能である。
る音声対話システム等の場合には、文法データの更新の
可否を判断するのはユーザの方が適しているものと考え
られる。この場合、携帯電話やウェブページを用いてユ
ーザ本人に行ってもらうという構成も可能である。
タの更新部分が抽出されるごとに文法データの更新処理
を行う方法について説明しているが、ログデータを一括
して処理して、一括して更新部分を検出するような方法
であっても良い。
新システムを実現するプログラムの処理の流れについて
説明する。図8に本発明の実施の形態にかかる文法更新
システムを実現するプログラムの処理の流れ図を示す。
を順次取得し(ステップS801)、取得した入力音声
データを認識するのに用いる文法データを取得する(ス
テップS802)。
た音声データについて、音声認識に適した特徴量にFF
T等の音響分析処理を施して変換してから再認識する
(ステップS803)。
法データに基づいて受理することができるか否かを判定
することになる(ステップS804)。受理することが
できると判定された場合には(ステップS804:Ye
s)、文法データの更新が不要である旨の指示信号を送
信し(ステップS805)、受理することができないと
判定された場合には(ステップS804:No)、音声
再認識部における再認識結果と文法データを更新する旨
の指示信号を送信することになる(ステップS80
6)。
号を受けた場合にのみ、文法IDに基づいて取得された
文法データと、音声再認識部における再認識結果のマッ
チングを行ない(ステップS807)、マッチングしな
い部分が文法の更新部分であるものと判断し(ステップ
S808)、これを補完することによって文法データを
追加更新することになる(ステップS809)。
新システムを実現するプログラムは、図9に示すよう
に、CD−ROM92−1やフレキシブルディスク92
−2等の可搬型記録媒体92だけでなく、通信回線の先
に備えられた他の記憶装置91や、コンピュータ93の
ハードディスクやRAM等の記録媒体94のいずれに記
憶されるものであっても良く、プログラム実行時には、
プログラムはローディングされ、主メモリ上で実行され
る。
新システムにより使用される各種ログデータや生成され
た更新文法データ等についても、図9に示すように、C
D−ROM92−1やフレキシブルディスク92−2等
の可搬型記録媒体92だけでなく、通信回線の先に備え
られた他の記憶装置91や、コンピュータ93のハード
ディスクやRAM等の記録媒体94のいずれに記憶され
るものであっても良く、例えば本発明にかかる文法更新
システムを利用する際にコンピュータ93により読み取
られる。
ステムによれば、従来は相当の工数を要しながら認識精
度の向上が困難であった音声対話システムにおける文法
作成/チューニング作業が、ユーザによる使用状況に応
じて任意のタイミングで行うことができるようになり、
より低価格で高性能な音声対話システムの構築・運用が
可能となると同時に、ユーザにとっても認識精度の高い
音声対話システムを容易に実現することが可能となる。
ムの構成図
の構成例示図
ムの構成図
ムの構成例示図
ムにおける文法データの例示図
ムにおける文法データに対応する文章構成例示図
ムの構成例示図
ムにおける処理の流れ図
記録媒体 92−1 CD−ROM 92−2 フレキシブルディスク 93 コンピュータ 94 コンピュータ上のRAM/ハードディスク等の記
録媒体
Claims (8)
- 【請求項1】 音声データの認識に使用される音声対話
用の文法データを保存する更新元文法記録部と、 前記音声データについて前記文法データを用いることな
く再認識する音声再認識部とを含む文法更新システムで
あって、 前記音声再認識部における再認識結果が前記文法データ
を用いて受理可能か否かを判定する再認識結果判定部
と、 前記再認識結果判定部において、前記再認識結果が前記
文法データを用いて受理できないと判定された場合に、
前記更新元文法記録部に保存されている前記文法データ
の中から追加更新部分を特定して前記文法データを追加
更新する文法追加更新部を含むことを特徴とする文法更
新システム。 - 【請求項2】 少なくとも音声データ及び音声認識結果
をログデータとして保存するログデータ記録部と、 前記音声データの認識に使用される音声対話用の文法デ
ータを保存する更新元文法記録部とを有し、 前記ログデータ記録部に保存されている前記音声データ
を取得するログ取得部と、 前記ログ取得部において取得された前記音声データにつ
いて前記文法データを用いることなく再認識する音声再
認識部とを含む文法更新システムであって、 前記音声再認識部における再認識結果が前記文法データ
を用いて受理可能か否かを判定する再認識結果判定部
と、 前記再認識結果判定部において、前記再認識結果が前記
文法データを用いて受理できないと判定された場合に、
前記更新元文法記録部に保存されている前記文法データ
の中から追加更新部分を特定して前記文法データを追加
更新する文法追加更新部を含むことを特徴とする文法更
新システム。 - 【請求項3】 前記文法追加更新部において、前記文法
データの更新に関する制限事項を設定することができる
請求項1又は2に記載の文法更新システム。 - 【請求項4】 追加更新された前記文法データ、あるい
は前記文法データにおける更新部分を提示する更新情報
提示部と、 提示された前記文法データの更新部分ごとに、更新を行
うか否かを確認する更新指示入力部を含む請求項1から
3のいずれか一項に記載の文法更新システム。 - 【請求項5】 音声データの認識に使用される音声対話
用の文法データを保存し、 前記音声データについて前記文法データを用いることな
く再認識する工程を含む文法更新方法であって、 前記再認識する工程における再認識結果が前記文法デー
タを用いて受理可能か否かを判定する工程と、 前記判定する工程において、前記再認識結果が前記文法
データを用いて受理できないと判定された場合に、保存
されている前記文法データの中から追加更新部分を特定
して前記文法データを追加更新する工程を含むことを特
徴とする文法更新方法。 - 【請求項6】 少なくとも音声データ及び音声認識結果
をログデータとして保存し、 前記音声データの認識に使用される音声対話用の文法デ
ータを保存し、 保存されている前記音声データを取得する工程と、 取得された前記音声データについて前記文法データを用
いることなく再認識する工程とを含む文法更新方法であ
って、 前記再認識する工程における再認識結果が前記文法デー
タを用いて受理可能か否かを判定する工程と、 前記判定する工程において、前記再認識結果が前記文法
データを用いて受理できないと判定された場合に、保存
されている前記文法データの中から追加更新部分を特定
して前記文法データを追加更新する工程を含むことを特
徴とする文法更新方法。 - 【請求項7】 音声データの認識に使用される音声対話
用の文法データを保存し、 前記音声データについて前記文法データを用いることな
く再認識するステップを含む文法更新方法を具現化する
コンピュータ実行可能なプログラムであって、 前記再認識するステップにおける再認識結果が前記文法
データを用いて受理可能か否かを判定するステップと、 前記判定するステップにおいて、前記再認識結果が前記
文法データを用いて受理できないと判定された場合に、
保存されている前記文法データの中から追加更新部分を
特定して前記文法データを追加更新するステップを含む
ことを特徴とするコンピュータ実行可能なプログラム。 - 【請求項8】 少なくとも音声データ及び音声認識結果
をログデータとして保存し、 前記音声データの認識に使用される音声対話用の文法デ
ータを保存し、 保存されている前記音声データを取得するステップと、 取得された前記音声データについて前記文法データを用
いることなく再認識するステップとを含む文法更新方法
を具現化するコンピュータ実行可能なプログラムであっ
て、 前記再認識するステップにおける再認識結果が前記文法
データを用いて受理可能か否かを判定するステップと、 前記判定するステップにおいて、前記再認識結果が前記
文法データを用いて受理できないと判定された場合に、
保存されている前記文法データの中から追加更新部分を
特定して前記文法データを追加更新するステップを含む
ことを特徴とするコンピュータ実行可能なプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002113846A JP3967952B2 (ja) | 2002-04-16 | 2002-04-16 | 文法更新システム及び方法 |
US10/347,320 US7603279B2 (en) | 2002-04-16 | 2003-01-21 | Grammar update system and method for speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002113846A JP3967952B2 (ja) | 2002-04-16 | 2002-04-16 | 文法更新システム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003308087A true JP2003308087A (ja) | 2003-10-31 |
JP3967952B2 JP3967952B2 (ja) | 2007-08-29 |
Family
ID=28786712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002113846A Expired - Fee Related JP3967952B2 (ja) | 2002-04-16 | 2002-04-16 | 文法更新システム及び方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7603279B2 (ja) |
JP (1) | JP3967952B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7260534B2 (en) | 2002-07-16 | 2007-08-21 | International Business Machines Corporation | Graphical user interface for determining speech recognition accuracy |
Families Citing this family (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050119892A1 (en) * | 2003-12-02 | 2005-06-02 | International Business Machines Corporation | Method and arrangement for managing grammar options in a graphical callflow builder |
US7110949B2 (en) * | 2004-09-13 | 2006-09-19 | At&T Knowledge Ventures, L.P. | System and method for analysis and adjustment of speech-enabled systems |
US7043435B2 (en) * | 2004-09-16 | 2006-05-09 | Sbc Knowledgfe Ventures, L.P. | System and method for optimizing prompts for speech-enabled applications |
US9083798B2 (en) | 2004-12-22 | 2015-07-14 | Nuance Communications, Inc. | Enabling voice selection of user preferences |
US20060287858A1 (en) * | 2005-06-16 | 2006-12-21 | Cross Charles W Jr | Modifying a grammar of a hierarchical multimodal menu with keywords sold to customers |
US20060287865A1 (en) * | 2005-06-16 | 2006-12-21 | Cross Charles W Jr | Establishing a multimodal application voice |
US7917365B2 (en) * | 2005-06-16 | 2011-03-29 | Nuance Communications, Inc. | Synchronizing visual and speech events in a multimodal application |
US8090584B2 (en) * | 2005-06-16 | 2012-01-03 | Nuance Communications, Inc. | Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency |
US8073700B2 (en) | 2005-09-12 | 2011-12-06 | Nuance Communications, Inc. | Retrieval and presentation of network service results for mobile device using a multimodal browser |
US20070124147A1 (en) * | 2005-11-30 | 2007-05-31 | International Business Machines Corporation | Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems |
US8032375B2 (en) * | 2006-03-17 | 2011-10-04 | Microsoft Corporation | Using generic predictive models for slot values in language modeling |
US7752152B2 (en) * | 2006-03-17 | 2010-07-06 | Microsoft Corporation | Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling |
US7689420B2 (en) * | 2006-04-06 | 2010-03-30 | Microsoft Corporation | Personalizing a context-free grammar using a dictation language model |
US9208785B2 (en) * | 2006-05-10 | 2015-12-08 | Nuance Communications, Inc. | Synchronizing distributed speech recognition |
US7848314B2 (en) | 2006-05-10 | 2010-12-07 | Nuance Communications, Inc. | VOIP barge-in support for half-duplex DSR client on a full-duplex network |
US20070274297A1 (en) * | 2006-05-10 | 2007-11-29 | Cross Charles W Jr | Streaming audio from a full-duplex network through a half-duplex device |
US7676371B2 (en) * | 2006-06-13 | 2010-03-09 | Nuance Communications, Inc. | Oral modification of an ASR lexicon of an ASR engine |
US8332218B2 (en) | 2006-06-13 | 2012-12-11 | Nuance Communications, Inc. | Context-based grammars for automated speech recognition |
US7890328B1 (en) | 2006-09-07 | 2011-02-15 | At&T Intellectual Property Ii, L.P. | Enhanced accuracy for speech recognition grammars |
US8145493B2 (en) | 2006-09-11 | 2012-03-27 | Nuance Communications, Inc. | Establishing a preferred mode of interaction between a user and a multimodal application |
US8374874B2 (en) | 2006-09-11 | 2013-02-12 | Nuance Communications, Inc. | Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction |
US8073697B2 (en) | 2006-09-12 | 2011-12-06 | International Business Machines Corporation | Establishing a multimodal personality for a multimodal application |
US8086463B2 (en) | 2006-09-12 | 2011-12-27 | Nuance Communications, Inc. | Dynamically generating a vocal help prompt in a multimodal application |
US7957976B2 (en) * | 2006-09-12 | 2011-06-07 | Nuance Communications, Inc. | Establishing a multimodal advertising personality for a sponsor of a multimodal application |
US7827033B2 (en) | 2006-12-06 | 2010-11-02 | Nuance Communications, Inc. | Enabling grammars in web page frames |
US8069047B2 (en) * | 2007-02-12 | 2011-11-29 | Nuance Communications, Inc. | Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application |
US8150698B2 (en) | 2007-02-26 | 2012-04-03 | Nuance Communications, Inc. | Invoking tapered prompts in a multimodal application |
US7801728B2 (en) | 2007-02-26 | 2010-09-21 | Nuance Communications, Inc. | Document session replay for multimodal applications |
US8713542B2 (en) | 2007-02-27 | 2014-04-29 | Nuance Communications, Inc. | Pausing a VoiceXML dialog of a multimodal application |
US8938392B2 (en) | 2007-02-27 | 2015-01-20 | Nuance Communications, Inc. | Configuring a speech engine for a multimodal application based on location |
US7809575B2 (en) | 2007-02-27 | 2010-10-05 | Nuance Communications, Inc. | Enabling global grammars for a particular multimodal application |
US7822608B2 (en) * | 2007-02-27 | 2010-10-26 | Nuance Communications, Inc. | Disambiguating a speech recognition grammar in a multimodal application |
US20080208586A1 (en) * | 2007-02-27 | 2008-08-28 | Soonthorn Ativanichayaphong | Enabling Natural Language Understanding In An X+V Page Of A Multimodal Application |
US7840409B2 (en) * | 2007-02-27 | 2010-11-23 | Nuance Communications, Inc. | Ordering recognition results produced by an automatic speech recognition engine for a multimodal application |
US9208783B2 (en) | 2007-02-27 | 2015-12-08 | Nuance Communications, Inc. | Altering behavior of a multimodal application based on location |
US8843376B2 (en) | 2007-03-13 | 2014-09-23 | Nuance Communications, Inc. | Speech-enabled web content searching using a multimodal browser |
US7945851B2 (en) * | 2007-03-14 | 2011-05-17 | Nuance Communications, Inc. | Enabling dynamic voiceXML in an X+V page of a multimodal application |
US8670987B2 (en) | 2007-03-20 | 2014-03-11 | Nuance Communications, Inc. | Automatic speech recognition with dynamic grammar rules |
US8515757B2 (en) | 2007-03-20 | 2013-08-20 | Nuance Communications, Inc. | Indexing digitized speech with words represented in the digitized speech |
US8909532B2 (en) * | 2007-03-23 | 2014-12-09 | Nuance Communications, Inc. | Supporting multi-lingual user interaction with a multimodal application |
US20080235029A1 (en) * | 2007-03-23 | 2008-09-25 | Cross Charles W | Speech-Enabled Predictive Text Selection For A Multimodal Application |
US8788620B2 (en) * | 2007-04-04 | 2014-07-22 | International Business Machines Corporation | Web service support for a multimodal client processing a multimodal application |
US8862475B2 (en) | 2007-04-12 | 2014-10-14 | Nuance Communications, Inc. | Speech-enabled content navigation and control of a distributed multimodal browser |
US8725513B2 (en) | 2007-04-12 | 2014-05-13 | Nuance Communications, Inc. | Providing expressive user interaction with a multimodal application |
US8082148B2 (en) * | 2008-04-24 | 2011-12-20 | Nuance Communications, Inc. | Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise |
US8214242B2 (en) * | 2008-04-24 | 2012-07-03 | International Business Machines Corporation | Signaling correspondence between a meeting agenda and a meeting discussion |
US8229081B2 (en) | 2008-04-24 | 2012-07-24 | International Business Machines Corporation | Dynamically publishing directory information for a plurality of interactive voice response systems |
US9349367B2 (en) | 2008-04-24 | 2016-05-24 | Nuance Communications, Inc. | Records disambiguation in a multimodal application operating on a multimodal device |
US8121837B2 (en) * | 2008-04-24 | 2012-02-21 | Nuance Communications, Inc. | Adjusting a speech engine for a mobile computing device based on background noise |
US8380513B2 (en) * | 2009-05-19 | 2013-02-19 | International Business Machines Corporation | Improving speech capabilities of a multimodal application |
US8290780B2 (en) | 2009-06-24 | 2012-10-16 | International Business Machines Corporation | Dynamically extending the speech prompts of a multimodal application |
US8510117B2 (en) * | 2009-07-09 | 2013-08-13 | Nuance Communications, Inc. | Speech enabled media sharing in a multimodal application |
US8416714B2 (en) * | 2009-08-05 | 2013-04-09 | International Business Machines Corporation | Multimodal teleconferencing |
US9601111B2 (en) * | 2012-11-13 | 2017-03-21 | GM Global Technology Operations LLC | Methods and systems for adapting speech systems |
US10063701B2 (en) * | 2014-05-29 | 2018-08-28 | Genesys Telecommunications Laboratories, Inc. | Custom grammars builder platform |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5699456A (en) * | 1994-01-21 | 1997-12-16 | Lucent Technologies Inc. | Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars |
US6601027B1 (en) * | 1995-11-13 | 2003-07-29 | Scansoft, Inc. | Position manipulation in speech recognition |
JPH09274495A (ja) | 1996-04-09 | 1997-10-21 | Fuji Xerox Co Ltd | 音声認識装置 |
WO1999021172A2 (en) * | 1997-10-20 | 1999-04-29 | Koninklijke Philips Electronics N.V. | Pattern recognition enrolment in a distributed system |
US6144938A (en) * | 1998-05-01 | 2000-11-07 | Sun Microsystems, Inc. | Voice user interface with personality |
US6163768A (en) * | 1998-06-15 | 2000-12-19 | Dragon Systems, Inc. | Non-interactive enrollment in speech recognition |
US6499013B1 (en) * | 1998-09-09 | 2002-12-24 | One Voice Technologies, Inc. | Interactive user interface using speech recognition and natural language processing |
US6839669B1 (en) * | 1998-11-05 | 2005-01-04 | Scansoft, Inc. | Performing actions identified in recognized speech |
JP2000172483A (ja) | 1998-12-10 | 2000-06-23 | Nippon Telegr & Teleph Corp <Ntt> | 共有仮想画面における音声認識方法及びシステム及び共有仮想画面における音声認識プログラムを格納した記憶媒体 |
US6430531B1 (en) | 1999-02-04 | 2002-08-06 | Soliloquy, Inc. | Bilateral speech system |
US6374214B1 (en) * | 1999-06-24 | 2002-04-16 | International Business Machines Corp. | Method and apparatus for excluding text phrases during re-dictation in a speech recognition system |
US7120582B1 (en) * | 1999-09-07 | 2006-10-10 | Dragon Systems, Inc. | Expanding an effective vocabulary of a speech recognition system |
US6665640B1 (en) * | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
US6598018B1 (en) * | 1999-12-15 | 2003-07-22 | Matsushita Electric Industrial Co., Ltd. | Method for natural dialog interface to car devices |
US7249018B2 (en) * | 2001-01-12 | 2007-07-24 | International Business Machines Corporation | System and method for relating syntax and semantics for a conversational speech application |
US7103533B2 (en) * | 2001-02-21 | 2006-09-05 | International Business Machines Corporation | Method for preserving contextual accuracy in an extendible speech recognition language model |
US6985862B2 (en) * | 2001-03-22 | 2006-01-10 | Tellme Networks, Inc. | Histogram grammar weighting and error corrective training of grammar weights |
-
2002
- 2002-04-16 JP JP2002113846A patent/JP3967952B2/ja not_active Expired - Fee Related
-
2003
- 2003-01-21 US US10/347,320 patent/US7603279B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7260534B2 (en) | 2002-07-16 | 2007-08-21 | International Business Machines Corporation | Graphical user interface for determining speech recognition accuracy |
Also Published As
Publication number | Publication date |
---|---|
US20030195739A1 (en) | 2003-10-16 |
US7603279B2 (en) | 2009-10-13 |
JP3967952B2 (ja) | 2007-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2003308087A (ja) | 文法更新システム及び方法 | |
CN107016994B (zh) | 语音识别的方法及装置 | |
WO2017071182A1 (zh) | 一种语音唤醒方法、装置及系统 | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
KR101932181B1 (ko) | 디바이스 도킹 컨텍스트를 이용한 음성인식 | |
JP3782943B2 (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
US7805304B2 (en) | Speech recognition apparatus for determining final word from recognition candidate word sequence corresponding to voice data | |
US5797116A (en) | Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word | |
JP5480760B2 (ja) | 端末装置、音声認識方法および音声認識プログラム | |
JP3232289B2 (ja) | 記号挿入装置およびその方法 | |
CN101211559B (zh) | 用于拆分语音的方法和设备 | |
CN110689877A (zh) | 一种语音结束端点检测方法及装置 | |
EP1089193A2 (en) | Translating apparatus and method, and recording medium used therewith | |
WO2007055181A1 (ja) | 対話支援装置 | |
US20080294433A1 (en) | Automatic Text-Speech Mapping Tool | |
JP2001506382A (ja) | 分散システムにおけるパターン認識登録 | |
JP2011232619A (ja) | 音声認識装置および音声認識方法 | |
CN109543021B (zh) | 一种面向智能机器人的故事数据处理方法及系统 | |
JP5263875B2 (ja) | 発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム | |
US11532301B1 (en) | Natural language processing | |
KR20210013607A (ko) | 컴퓨팅 장치를 사용한 지속적인 대화 감지 | |
JP2002132287A (ja) | 音声収録方法および音声収録装置および記憶媒体 | |
JPWO2011033834A1 (ja) | 音声翻訳システム、音声翻訳方法および記録媒体 | |
US10866948B2 (en) | Address book management apparatus using speech recognition, vehicle, system and method thereof | |
JP2005227686A (ja) | 音声認識装置、音声認識プログラムおよび記録媒体。 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040614 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060926 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070529 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070601 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110608 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120608 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120608 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130608 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130608 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |