JP2003308087A - 文法更新システム及び方法 - Google Patents

文法更新システム及び方法

Info

Publication number
JP2003308087A
JP2003308087A JP2002113846A JP2002113846A JP2003308087A JP 2003308087 A JP2003308087 A JP 2003308087A JP 2002113846 A JP2002113846 A JP 2002113846A JP 2002113846 A JP2002113846 A JP 2002113846A JP 2003308087 A JP2003308087 A JP 2003308087A
Authority
JP
Japan
Prior art keywords
data
grammar
voice
updating
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002113846A
Other languages
English (en)
Other versions
JP3967952B2 (ja
Inventor
Nobuyuki Washio
信之 鷲尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2002113846A priority Critical patent/JP3967952B2/ja
Priority to US10/347,320 priority patent/US7603279B2/en
Publication of JP2003308087A publication Critical patent/JP2003308087A/ja
Application granted granted Critical
Publication of JP3967952B2 publication Critical patent/JP3967952B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 文法データを用いることなく音声データを認
識した結果を活用することで、必要となる文法データの
更新部分を検出しつつ、使用する文法データを所定のタ
イミングで更新することができる文法更新システム及び
方法を提供する。 【解決手段】 音声データの認識に使用される音声対話
用の文法データを保存し、音声データについて文法デー
タを用いることなく再認識する文法更新方法であって、
再認識する工程における再認識結果が文法データを用い
て受理可能か否かを判定し、再認識結果が文法データを
用いて受理できないと判定された場合に、保存されてい
る文法データの中から追加更新部分を特定して文法デー
タを追加更新する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声対話システム
において音声認識精度向上のために用いられる文法デー
タを更新する文法更新システム及び方法に関する。
【0002】
【従来の技術】近年、CPUの高速化等、コンピュータ
環境の急速な進展によって、従来は演算処理負荷が過大
であるとされていたボイスポータルサーバ等に代表され
るASR(Auto Speech Recognition)を用いた音声対
話システムについても、一般のアプリケーションに積極
的に採用されるようになってきている。
【0003】従来のアプリケーションで採用されている
音声対話システムでは、音声認識精度を向上させるため
に、一般に、対話の状態に応じた文法を用いて音声認識
を行なうことが多い。すなわち、音声認識の精度向上
や、あるいはユーザにとっての使い易さの追求、発話の
自由度拡大等に大きく影響を与える要素の1つが文法で
ある。
【0004】例えば、ユーザ発話の自由度を上げるため
に、いわゆるディクテーション技術を用いる場合におい
ては、ほとんど発声される可能性の無い言い回しについ
ても考慮する必要が生じることから、音声認識に伴う演
算処理量の増加や、全体としての音声認識率の低下を誘
発し、ひいてはユーザ満足度を下げたり、タスク達成時
間・達成率を悪化させたりすることになる。
【0005】したがって、対話の状況に応じて想定され
るユーザ発話を認識するのに必要十分な規模及び複雑さ
を有する有限状態オートマトン文法を求め、音声対話シ
ステムに適用することが強く求められている。
【0006】
【発明が解決しようとする課題】しかしながら、実務
上、必要十分な文法データを作成することは非常に困難
であり、様々な言い回しを想定しては文法データの形式
にまとめていくという作業を行っているのが現実であ
る。
【0007】また、大量の音声データを収集するため
に、多くの被験者に本システムあるいは疑似システムを
使用してもらうことによって、多くの言い回しを抽出し
て文法データとして整理することも良く行われている。
【0008】さらには、既に運用している音声対話シス
テムにおける音声データ等をログデータとして保存して
おき、誤認識された箇所を抽出する際に管理者が文法が
原因で誤認識が生じた箇所について新たな文法を生成す
ることによって文法データを更新することも行われてい
る。
【0009】以上のような方法を用いる場合には、文法
データの作成に相当の工数を要するとともに、場合によ
っては工数に見合った十分な認識精度を実現可能な文法
データを得ることさえ困難であるという問題点があっ
た。
【0010】例えば、方言に対応するには各地方あるい
は特定地方の方言を話す被験者を多数集めるとか、方言
を十分に理解している技術者が必要となるが、現実的に
は実行は困難である。
【0011】あるいは、男女の話し言葉には顕然とした
差異が存在することから、技術者が男性である場合、女
性に対応した文法データを適切に作成することができな
いという場合も生じうる。
【0012】本発明は、上記問題点を解決するために、
文法データを用いることなく音声データを認識した結果
を活用することで、必要となる文法データの更新部分を
検出しつつ、使用する文法データを所定のタイミングで
更新することができる文法更新システム及び方法を提供
することを目的とする。
【0013】
【課題を解決するための手段】上記目的を達成するため
に本発明にかかる文法更新システムは、音声データの認
識に使用される音声対話用の文法データを保存する更新
元文法記録部と、音声データについて文法データを用い
ることなく再認識する音声再認識部とを含む文法更新シ
ステムであって、音声再認識部における再認識結果が文
法データを用いて受理可能か否かを判定する再認識結果
判定部と、再認識結果判定部において、再認識結果が文
法データを用いて受理できないと判定された場合に、更
新元文法記録部に保存されている文法データの中から追
加更新部分を特定して文法データを追加更新する文法追
加更新部を含むことを特徴とする。
【0014】かかる構成により、文法データを用いた音
声認識と、文法データを用いない音声認識とを並行して
処理しながら、必要となる文法データの更新部分を検出
することができることから、過不足無く使用する文法デ
ータを更新することができ、認識精度を向上させること
が可能となる。
【0015】次に、上記目的を達成するために本発明に
かかる文法更新システムは、少なくとも音声データ及び
音声認識結果をログデータとして保存するログデータ記
録部と、音声データの認識に使用される音声対話用の文
法データを保存する更新元文法記録部とを有し、ログデ
ータ記録部に保存されている音声データを取得するログ
取得部と、ログ取得部において取得された音声データに
ついて文法データを用いることなく再認識する音声再認
識部とを含む文法更新システムであって、音声再認識部
における再認識結果が文法データを用いて受理可能か否
かを判定する再認識結果判定部と、再認識結果判定部に
おいて、再認識結果が文法データを用いて受理できない
と判定された場合に、更新元文法記録部に保存されてい
る文法データの中から追加更新部分を特定して文法デー
タを追加更新する文法追加更新部を含むことを特徴とす
る。
【0016】かかる構成により、ログデータを活用しな
がら、必要となる文法の更新部分を検出することができ
ることから、過不足無く使用する文法データを更新する
ことができ、認識精度を向上させることが可能となる。
【0017】また、本発明にかかる文法更新システム
は、文法追加更新部において、文法データの更新に関す
る制限事項を設定することができることが好ましい。特
殊な方言や男女間の表現の差異等を、反映させることが
できるようにするためである。
【0018】また、本発明にかかる文法更新システム
は、追加更新された文法データ、あるいは文法データに
おける更新部分を提示する更新情報提示部と、提示され
た文法データの更新部分ごとに、更新を行うか否かを確
認する更新指示入力部を含むことが好ましい。認識結果
についてシステム管理者によるチューニングを実行する
機会を設けることにより、認識精度の向上を図ることが
できるからである。
【0019】また、本発明は、上記のような文法更新シ
ステムの機能をコンピュータの処理ステップとして実行
するソフトウェアを特徴とするものであり、具体的に
は、音声データの認識に使用される音声対話用の文法デ
ータを保存し、音声データについて文法データを用いる
ことなく再認識する工程を含む文法更新方法であって、
再認識する工程における再認識結果が文法データを用い
て受理可能か否かを判定する工程と、判定する工程にお
いて、再認識結果が文法データを用いて受理できないと
判定された場合に、保存されている文法データの中から
追加更新部分を特定して文法データを追加更新する工程
を含む文法更新方法並びにそのような工程を具現化する
コンピュータ実行可能なプログラムであることを特徴と
する。
【0020】かかる構成により、コンピュータ上へ当該
プログラムをロードさせ実行することで、文法データを
用いた音声認識と、文法データを用いない音声認識とを
並行して処理しながら、必要となる文法データの更新部
分を検出することができることから、過不足無く使用す
る文法データを更新することができ、認識精度を向上さ
せることができる文法更新システムを実現することが可
能となる。
【0021】また、本発明は、上記のような文法更新シ
ステムの機能をコンピュータの処理ステップとして実行
するソフトウェアを特徴とするものであり、具体的に
は、少なくとも音声データ及び音声認識結果をログデー
タとして保存し、音声データの認識に使用される音声対
話用の文法データを保存し、保存されている音声データ
を取得する工程と、取得された音声データについて文法
データを用いることなく再認識する工程とを含む文法更
新方法であって、再認識する工程における再認識結果が
文法データを用いて受理可能か否かを判定する工程と、
判定する工程において、再認識結果が文法データを用い
て受理できないと判定された場合に、保存されている文
法データの中から追加更新部分を特定して文法データを
追加更新する工程を含む文法更新方法並びにそのような
工程を具現化するコンピュータ実行可能なプログラムで
あることを特徴とする。
【0022】かかる構成により、コンピュータ上へ当該
プログラムをロードさせ実行することで、ログデータを
活用しながら、必要となる文法の更新部分を検出するこ
とができることから、過不足無く使用する文法データを
更新することができ、認識精度を向上させることができ
る文法更新システムを実現することが可能となる。
【0023】
【発明の実施の形態】以下、本発明の実施の形態にかか
る文法更新システムについて、図面を参照しながら説明
する。図1は本発明の実施の形態にかかる文法更新シス
テムの構成図である。本実施の形態においては、文法デ
ータを用いる音声データの認識処理と、文法データを用
いない音声データの認識処理とを、並行させて処理しな
がら、文法データの更新部分を検出する場合について説
明する。
【0024】図1において、一般的に使用されている音
声対話システム1は、基本的に音声データの入力及び応
答音声の出力を行う音声入出力部11と、音声データを
認識する音声認識部12と、認識された結果に基づいて
応答を決定する対話管理部13と、出力すべき応答音声
を合成する音声合成部14とで構成されており、音声認
識部12において認識精度を向上させるべく更新元文法
記録部15に保存されている文法データを使用する。
【0025】次に、本実施の形態にかかる文法更新シス
テム2は、音声対話システム1における音声データ等を
取得して、更新元文法記録部15に保存されている文法
データを用いることなく、当該音声データを認識する音
声再認識部21と、再認識結果が更新元文法記録部15
に保存されている文法データを用いて受理可能か否かを
判定する再認識結果判定部22と、更新部分を特定して
文法データを追加更新する文法追加更新部23とで構成
されている。
【0026】ここで、本実施の形態においては、音声再
認識部21における音声認識の方が、音声認識部12に
おける音声認識よりも認識精度が高いことを前提として
いる。すなわち、音声再認識部21においては、十分に
受理可能文が多く、十分な語彙を持つ、例えば大語彙デ
ィクテーションシステム等を用いた認識時間より性能を
重視した認識方法を採用することになる。なお、音声再
認識部21における認識方法は特にこれに限定されるも
のではなく、十分な認識精度を有する方法であれば何で
も良い。
【0027】また、再認識結果判定部22においては、
音声再認識部21における再認識結果が更新元文法記録
部15に保存されている文法データに基づいて受理する
ことができるか否かについて判定することになる。
【0028】そして、当該文法データに基づいて受理す
ることができないと判定された場合には、文法追加更新
部23において、かかる受理できない部分を更新部分と
して特定し、更新元文法記録部15に保存されている文
法データに追加更新し、更新された文法データを更新文
法記録部31へ出力することになる。
【0029】具体的には、以下のようなアプリケーショ
ンが考えられる。図2は、本発明の一実施例にかかる文
法更新システムの構成例示図である。図2においては、
音声対話システム1における音声ログ、対話状態ログ、
認識結果ログを用いて、使用中の文法についてリアルタ
イムに更新する場合について説明する。
【0030】図2において、音声対話システム1におい
ては、音声認識の対象となる音声データを入出力する音
声入出力部11と、更新対象の文法を保存する更新対象
文法記録部16を有している。
【0031】まず、音声データ取得部24において、音
声データを取得し、音声分析部25を介して、音声再認
識部21へ渡す。音声分析部25では、取得した音声デ
ータを音声認識に適した特徴量にFFT等の音響分析処
理を施して変換し、音声再認識部21に渡すことにな
る。
【0032】そして、音声再認識部21は、取得した音
声データについて、文法データを用いることなく認識
し、再認識結果を再認識結果判定部22に渡す。
【0033】再認識結果判定部22では、更新対象文法
記録部16に記録されている文法データを文法取得部2
6において取得し、当該文法データを用いることで、音
声再認識部21における再認識結果を受理することがで
きるか否かを判定する。そして、受理することができる
場合には、既に当該文法データが含まれているものと判
断できることから、文法データの更新が不要である旨の
指示信号を文法追加更新部23に送ることになる。
【0034】受理することができない場合には、音声再
認識部21における再認識結果と文法データを更新する
旨の指示信号を文法追加更新部23に送ることになる。
【0035】文法追加更新部23では、文法を更新する
旨の指示信号を受けた場合にのみ、文法取得部26にお
いて取得された文法データと、音声再認識部21におけ
る再認識結果とのマッチングを行ない、マッチングしな
い部分が文法の更新部分であるものと判断し、これを補
完することによって文法を追加更新して、更新文法記録
部31へ出力することになる。
【0036】本実施の形態においては、一般的に使用さ
れている音声対話システム1のログデータ記録部に保存
されている音声データを含むログデータに基づいて、文
法を更新する部分について抽出し、文法データに関する
チューニングを随時行うことができるようにすることも
考えられる。
【0037】この場合には、図3に示すように、一般的
に使用されている音声対話システム1に、対話ログを記
録するログデータ記録部17を備えることになる。
【0038】そして、文法更新システム2には、音声対
話システム1においてログデータ記録部17に保存され
ている音声ログ等を取得するログ取得部27が追加さ
れ、音声再認識部21においては、取得した音声ログを
再認識することになる。
【0039】ログ取得部27においては、音声ログとし
て音声データのみならず、対話状態や経緯を示すログデ
ータや、音声認識部12における認識結果、及び音声認
識部12における認識結果の信頼度等に関する情報をも
取得することになる。また、ログデータのデータ構造に
ついても、対話の状態、使用文法、対話時間、呼の発信
者番号、ユーザID、音声データ等を階層的にまとめた
データ構造等、特に限定されるものではない。
【0040】具体的には、以下のようなアプリケーショ
ンが考えられる。図4は、本発明の他の実施例にかかる
文法更新システムの構成例示図である。図4において
は、音声対話システム1における音声ログ、対話状態ロ
グ、認識結果ログを用いて、使用中の文法についてリア
ルタイムに更新する場合について説明する。
【0041】図4において、音声対話システム1におい
ては、音声データのログを保存する音声ログデータ記録
部18と、対話状態に関するログを保存する対話ログデ
ータ記録部19と、更新対象の文法を保存する更新対象
文法記録部16を有している。
【0042】対話ログデータ記録部19には、タイムス
タンプ情報と共に、ユーザが発声した入力音声データI
Dと、当該入力音声データIDに対応する認識結果、シ
ステム応答、対話状態(対話シナリオ中の状態)、その
時使用した文法IDが記録されている。音声ログデータ
記録部18及び更新対象文法記録部16においてそれぞ
れ保存されている音声データ及び更新対象文法について
も、当該入力音声データID及び文法IDに基づいて管
理されることになる。
【0043】まず、対話ログ取得部28において、対話
ログデータ記録部19を参照することにより対話ログを
時系列順に読み出し、入力音声データIDを順次取得す
る。そして、取得した入力音声データIDを音声データ
取得部24へ渡すと同時に、当該入力音声データIDに
対応する認識結果を抽出して再認識結果判定部22に、
使用した文法IDを文法取得部26に渡すことになる。
【0044】音声データ取得部24においては、指定さ
れた入力音声データIDに対応する音声データを音声対
話システム1における音声ログデータ記録部18から取
得し、音声分析部25に渡す。音声分析部25では、取
得した音声データを音声認識に適した特徴量にFFT等
の音響分析処理を施して変換し、音声再認識部21に渡
すことになる。音声再認識部21は、取得した音声デー
タを文法データを用いることなく認識し、再認識結果を
再認識結果判定部22に渡すことになる。以下の処理
は、前述した処理と同様になるので、詳細な説明は省略
する。
【0045】また、文法更新に関する制限事項を設定す
ることも考えられる。特殊な方言や男女間の表現の差異
等を、反映させることができるようにするためである。
例えば、特定の方言特有の言い回しが何ら制限事項とし
て設定されていない場合、標準語に従った言い回しにつ
いては、文法データを用いて受理可能であるのに対し
て、方言特有の言い回しについては受理することができ
ない場合も考えられる。このような場合に、システム管
理者が当該方言特有の言い回しについて必ずしも精通し
ているという保証がないことから、事前に制約事項とし
て当該方言特有の言い回しを文法データとして準備して
おくことで、方言特有の言い回しに対する認識精度が低
下するのを未然に回避することが可能となる。
【0046】なお図5に、更新対象文法記録部16に保
存されている文法データの例示図を示す。図5に示すよ
うに、図6に示す文章構成例に基づいて、‘#action’
と‘#object’の関係を逐一記録することになる。文法
の更新方法としては、例えば記録されていない‘#actio
n’の追加や、‘#object’における冠詞と名詞の接続方
法を新たに定義したりすることになる。例えば、‘#act
ion’に‘copy’を追加すること等が考えられる。
【0047】また、文法の更新部分について、音声再認
識部21における再認識結果に関する信頼度を求めるこ
ともできることから、当該信頼度に応じて自動的に更新
するか否かを判定する方法も考えられる。かかる信頼度
は、例えば以下のように定めることができる。
【0048】まず評価用音声データを準備し、当該デー
タを音声再認識部21で処理した再認識結果を求める。
次に、評価用音声データ使用時における1発声単位ある
いは1単語単位の評価スコアを算出する。
【0049】そして、評価用音声データの発声内容と、
再認識結果及び評価用音声データ使用時における1発声
単位あるいは1単語単位の評価スコアを比較することに
よって、評価スコアと正解率(どの程度正解しているの
かを表す基準)の関係式を推定することによって、再認
識結果に関する信頼度を求めることになる。したがっ
て、当該信頼度は、入力された音声データ全体について
求めることもできるし、音声データに含まれている各単
語ごとに求めることもできることになる。
【0050】また、当該信頼度が低い場合には、音声再
認識部21における再認識結果が信用できない結果であ
ることを意味していることから、当該信頼度に応じて文
法データを更新するか否かを判断することによって、よ
り精度良く文法の更新を行うことが可能となる。図7
に、当該実施例にかかる文法更新システムの構成例示図
を示す。以下、図2との相違点についてのみ説明する。
【0051】図5において、音声再認識部21は、再認
識結果に全体及び単語ごとの信頼度を付与して出力する
ことになる。また、再認識結果判定部22は、音声再認
識部21における再認識結果の全体信頼度が低い場合、
再認識結果について更新対象文法で認識することができ
ない場合であっても、文法を更新する必要がない旨の指
示信号を文法追加更新部23に送ることになる。
【0052】文法追加更新部23は、取得した文法デー
タとマッチングしなかった部分の単語の信頼度に基づい
て、文法更新対象部分の信頼度を算出し、更新元の文法
ID、更新後の文法データ、文法データの更新部分、文
法更新対象部分の信頼度を自動/手動判定部29に送信
することになる。
【0053】自動/手動判定部29では、文法更新対象
部分の信頼度が所定のしきい値以上である場合、文法置
換部30に更新元の文法ID、更新後の文法データと置
換命令信号を送信する。文法更新対象部分の信頼度が所
定のしきい値未満である場合には、システム管理者端末
3の更新情報提示部41に、文法データの更新部分、文
法更新対象部分の信頼度を送信することによって、入力
の待機状態となる。
【0054】更新情報提示部41では、送信されてきた
情報をディスプレイ等を用いて表示出力し、更新指示入
力部42からシステム管理者の入力を受け付け、その指
示内容(更新/非更新)を自動/手動判定部29への回
答信号とする。自動/手動判定部29では、更新情報提
示部41からの回答信号が更新をする旨の信号である場
合、更新後の文法データと共に文法データを更新する旨
の指示信号を文法置換部30に送信することになる。
【0055】また、文法データを更新する旨の指示信号
を受信した文法置換部30において、同時に受信した更
新後の文法データをもって更新元IDで特定される更新
対象文法と入れ替える作業を手動で行うものと判定され
た場合に、文法更新対象となった音声データを更新情報
提示部41に送信して、どのような発声内容が認識でき
ないものと判断されたために当該文法データの更新が必
要となったのかを、更新情報提示部41において文法更
新部分と共に提示する構成も考えられる。この場合、音
声データに付随する関連情報には、ユーザに関する個人
情報を含むこともできることから、システム管理者が、
当該ユーザが当該個人情報へのアクセス権を有するメン
バか否か等の判断に基づいて設定を変えることも可能と
なる。
【0056】また、更新情報提示部41においては、シ
ステム管理者による入力を要求する信号(更新情報等も
含む)を蓄積しておき、システム管理者がアクセスした
時に一括して処理することも可能である。
【0057】さらに、ネットワークに接続可能な構成で
ある場合には、携帯電話やPDA等をシステム管理者端
末3として採用することも考えられるし、システム管理
者に指示待ち案件が来ていることをメール等によって通
知することも可能である。
【0058】また、ユーザ別に文法データを区別してい
る音声対話システム等の場合には、文法データの更新の
可否を判断するのはユーザの方が適しているものと考え
られる。この場合、携帯電話やウェブページを用いてユ
ーザ本人に行ってもらうという構成も可能である。
【0059】なお、本実施の形態においては、文法デー
タの更新部分が抽出されるごとに文法データの更新処理
を行う方法について説明しているが、ログデータを一括
して処理して、一括して更新部分を検出するような方法
であっても良い。
【0060】次に、本発明の実施の形態にかかる文法更
新システムを実現するプログラムの処理の流れについて
説明する。図8に本発明の実施の形態にかかる文法更新
システムを実現するプログラムの処理の流れ図を示す。
【0061】図8において、まず入力された音声データ
を順次取得し(ステップS801)、取得した入力音声
データを認識するのに用いる文法データを取得する(ス
テップS802)。
【0062】次に、文法データを用いることなく取得し
た音声データについて、音声認識に適した特徴量にFF
T等の音響分析処理を施して変換してから再認識する
(ステップS803)。
【0063】そして、再認識結果について、取得した文
法データに基づいて受理することができるか否かを判定
することになる(ステップS804)。受理することが
できると判定された場合には(ステップS804:Ye
s)、文法データの更新が不要である旨の指示信号を送
信し(ステップS805)、受理することができないと
判定された場合には(ステップS804:No)、音声
再認識部における再認識結果と文法データを更新する旨
の指示信号を送信することになる(ステップS80
6)。
【0064】最後に、文法データを更新する旨の指示信
号を受けた場合にのみ、文法IDに基づいて取得された
文法データと、音声再認識部における再認識結果のマッ
チングを行ない(ステップS807)、マッチングしな
い部分が文法の更新部分であるものと判断し(ステップ
S808)、これを補完することによって文法データを
追加更新することになる(ステップS809)。
【0065】なお、本発明の実施の形態にかかる文法更
新システムを実現するプログラムは、図9に示すよう
に、CD−ROM92−1やフレキシブルディスク92
−2等の可搬型記録媒体92だけでなく、通信回線の先
に備えられた他の記憶装置91や、コンピュータ93の
ハードディスクやRAM等の記録媒体94のいずれに記
憶されるものであっても良く、プログラム実行時には、
プログラムはローディングされ、主メモリ上で実行され
る。
【0066】また、本発明の実施の形態にかかる文法更
新システムにより使用される各種ログデータや生成され
た更新文法データ等についても、図9に示すように、C
D−ROM92−1やフレキシブルディスク92−2等
の可搬型記録媒体92だけでなく、通信回線の先に備え
られた他の記憶装置91や、コンピュータ93のハード
ディスクやRAM等の記録媒体94のいずれに記憶され
るものであっても良く、例えば本発明にかかる文法更新
システムを利用する際にコンピュータ93により読み取
られる。
【0067】
【発明の効果】以上のように本発明にかかる文法更新シ
ステムによれば、従来は相当の工数を要しながら認識精
度の向上が困難であった音声対話システムにおける文法
作成/チューニング作業が、ユーザによる使用状況に応
じて任意のタイミングで行うことができるようになり、
より低価格で高性能な音声対話システムの構築・運用が
可能となると同時に、ユーザにとっても認識精度の高い
音声対話システムを容易に実現することが可能となる。
【図面の簡単な説明】
【図1】 本発明の実施の形態にかかる文法更新システ
ムの構成図
【図2】 本発明の一実施例にかかる文法更新システム
の構成例示図
【図3】 本発明の実施の形態にかかる文法更新システ
ムの構成図
【図4】 本発明の他の実施例にかかる文法更新システ
ムの構成例示図
【図5】 本発明の実施の形態にかかる文法更新システ
ムにおける文法データの例示図
【図6】 本発明の実施の形態にかかる文法更新システ
ムにおける文法データに対応する文章構成例示図
【図7】 本発明の他の実施例にかかる文法更新システ
ムの構成例示図
【図8】 本発明の実施の形態にかかる文法更新システ
ムにおける処理の流れ図
【図9】 コンピュータ環境の例示図
【符号の説明】
1 音声対話システム 2 文法更新システム 3 システム管理者端末 11 音声入出力部 12 音声認識部 13 対話管理部 14 音声合成部 15 更新元文法記録部 16 更新対象文法記録部 17 ログデータ記録部 18 音声ログデータ記録部 19 対話ログデータ記録部 21 音声再認識部 22 再認識結果判定部 23 文法追加更新部 24 音声データ取得部 25 音声分析部 26 文法取得部 27 ログ取得部 28 対話ログ取得部 29 自動/手動判定部 30 文法置換部 31 更新文法記録部 41 更新情報提示部 42 更新指示入力部 91 回線先の記憶装置 92 CD−ROMやフレキシブルディスク等の可搬型
記録媒体 92−1 CD−ROM 92−2 フレキシブルディスク 93 コンピュータ 94 コンピュータ上のRAM/ハードディスク等の記
録媒体

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 音声データの認識に使用される音声対話
    用の文法データを保存する更新元文法記録部と、 前記音声データについて前記文法データを用いることな
    く再認識する音声再認識部とを含む文法更新システムで
    あって、 前記音声再認識部における再認識結果が前記文法データ
    を用いて受理可能か否かを判定する再認識結果判定部
    と、 前記再認識結果判定部において、前記再認識結果が前記
    文法データを用いて受理できないと判定された場合に、
    前記更新元文法記録部に保存されている前記文法データ
    の中から追加更新部分を特定して前記文法データを追加
    更新する文法追加更新部を含むことを特徴とする文法更
    新システム。
  2. 【請求項2】 少なくとも音声データ及び音声認識結果
    をログデータとして保存するログデータ記録部と、 前記音声データの認識に使用される音声対話用の文法デ
    ータを保存する更新元文法記録部とを有し、 前記ログデータ記録部に保存されている前記音声データ
    を取得するログ取得部と、 前記ログ取得部において取得された前記音声データにつ
    いて前記文法データを用いることなく再認識する音声再
    認識部とを含む文法更新システムであって、 前記音声再認識部における再認識結果が前記文法データ
    を用いて受理可能か否かを判定する再認識結果判定部
    と、 前記再認識結果判定部において、前記再認識結果が前記
    文法データを用いて受理できないと判定された場合に、
    前記更新元文法記録部に保存されている前記文法データ
    の中から追加更新部分を特定して前記文法データを追加
    更新する文法追加更新部を含むことを特徴とする文法更
    新システム。
  3. 【請求項3】 前記文法追加更新部において、前記文法
    データの更新に関する制限事項を設定することができる
    請求項1又は2に記載の文法更新システム。
  4. 【請求項4】 追加更新された前記文法データ、あるい
    は前記文法データにおける更新部分を提示する更新情報
    提示部と、 提示された前記文法データの更新部分ごとに、更新を行
    うか否かを確認する更新指示入力部を含む請求項1から
    3のいずれか一項に記載の文法更新システム。
  5. 【請求項5】 音声データの認識に使用される音声対話
    用の文法データを保存し、 前記音声データについて前記文法データを用いることな
    く再認識する工程を含む文法更新方法であって、 前記再認識する工程における再認識結果が前記文法デー
    タを用いて受理可能か否かを判定する工程と、 前記判定する工程において、前記再認識結果が前記文法
    データを用いて受理できないと判定された場合に、保存
    されている前記文法データの中から追加更新部分を特定
    して前記文法データを追加更新する工程を含むことを特
    徴とする文法更新方法。
  6. 【請求項6】 少なくとも音声データ及び音声認識結果
    をログデータとして保存し、 前記音声データの認識に使用される音声対話用の文法デ
    ータを保存し、 保存されている前記音声データを取得する工程と、 取得された前記音声データについて前記文法データを用
    いることなく再認識する工程とを含む文法更新方法であ
    って、 前記再認識する工程における再認識結果が前記文法デー
    タを用いて受理可能か否かを判定する工程と、 前記判定する工程において、前記再認識結果が前記文法
    データを用いて受理できないと判定された場合に、保存
    されている前記文法データの中から追加更新部分を特定
    して前記文法データを追加更新する工程を含むことを特
    徴とする文法更新方法。
  7. 【請求項7】 音声データの認識に使用される音声対話
    用の文法データを保存し、 前記音声データについて前記文法データを用いることな
    く再認識するステップを含む文法更新方法を具現化する
    コンピュータ実行可能なプログラムであって、 前記再認識するステップにおける再認識結果が前記文法
    データを用いて受理可能か否かを判定するステップと、 前記判定するステップにおいて、前記再認識結果が前記
    文法データを用いて受理できないと判定された場合に、
    保存されている前記文法データの中から追加更新部分を
    特定して前記文法データを追加更新するステップを含む
    ことを特徴とするコンピュータ実行可能なプログラム。
  8. 【請求項8】 少なくとも音声データ及び音声認識結果
    をログデータとして保存し、 前記音声データの認識に使用される音声対話用の文法デ
    ータを保存し、 保存されている前記音声データを取得するステップと、 取得された前記音声データについて前記文法データを用
    いることなく再認識するステップとを含む文法更新方法
    を具現化するコンピュータ実行可能なプログラムであっ
    て、 前記再認識するステップにおける再認識結果が前記文法
    データを用いて受理可能か否かを判定するステップと、 前記判定するステップにおいて、前記再認識結果が前記
    文法データを用いて受理できないと判定された場合に、
    保存されている前記文法データの中から追加更新部分を
    特定して前記文法データを追加更新するステップを含む
    ことを特徴とするコンピュータ実行可能なプログラム。
JP2002113846A 2002-04-16 2002-04-16 文法更新システム及び方法 Expired - Fee Related JP3967952B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2002113846A JP3967952B2 (ja) 2002-04-16 2002-04-16 文法更新システム及び方法
US10/347,320 US7603279B2 (en) 2002-04-16 2003-01-21 Grammar update system and method for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002113846A JP3967952B2 (ja) 2002-04-16 2002-04-16 文法更新システム及び方法

Publications (2)

Publication Number Publication Date
JP2003308087A true JP2003308087A (ja) 2003-10-31
JP3967952B2 JP3967952B2 (ja) 2007-08-29

Family

ID=28786712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002113846A Expired - Fee Related JP3967952B2 (ja) 2002-04-16 2002-04-16 文法更新システム及び方法

Country Status (2)

Country Link
US (1) US7603279B2 (ja)
JP (1) JP3967952B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7260534B2 (en) 2002-07-16 2007-08-21 International Business Machines Corporation Graphical user interface for determining speech recognition accuracy

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050119892A1 (en) * 2003-12-02 2005-06-02 International Business Machines Corporation Method and arrangement for managing grammar options in a graphical callflow builder
US7110949B2 (en) * 2004-09-13 2006-09-19 At&T Knowledge Ventures, L.P. System and method for analysis and adjustment of speech-enabled systems
US7043435B2 (en) * 2004-09-16 2006-05-09 Sbc Knowledgfe Ventures, L.P. System and method for optimizing prompts for speech-enabled applications
US9083798B2 (en) 2004-12-22 2015-07-14 Nuance Communications, Inc. Enabling voice selection of user preferences
US20060287858A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Modifying a grammar of a hierarchical multimodal menu with keywords sold to customers
US20060287865A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Establishing a multimodal application voice
US7917365B2 (en) * 2005-06-16 2011-03-29 Nuance Communications, Inc. Synchronizing visual and speech events in a multimodal application
US8090584B2 (en) * 2005-06-16 2012-01-03 Nuance Communications, Inc. Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency
US8073700B2 (en) 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US20070124147A1 (en) * 2005-11-30 2007-05-31 International Business Machines Corporation Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems
US8032375B2 (en) * 2006-03-17 2011-10-04 Microsoft Corporation Using generic predictive models for slot values in language modeling
US7752152B2 (en) * 2006-03-17 2010-07-06 Microsoft Corporation Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling
US7689420B2 (en) * 2006-04-06 2010-03-30 Microsoft Corporation Personalizing a context-free grammar using a dictation language model
US9208785B2 (en) * 2006-05-10 2015-12-08 Nuance Communications, Inc. Synchronizing distributed speech recognition
US7848314B2 (en) 2006-05-10 2010-12-07 Nuance Communications, Inc. VOIP barge-in support for half-duplex DSR client on a full-duplex network
US20070274297A1 (en) * 2006-05-10 2007-11-29 Cross Charles W Jr Streaming audio from a full-duplex network through a half-duplex device
US7676371B2 (en) * 2006-06-13 2010-03-09 Nuance Communications, Inc. Oral modification of an ASR lexicon of an ASR engine
US8332218B2 (en) 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
US7890328B1 (en) 2006-09-07 2011-02-15 At&T Intellectual Property Ii, L.P. Enhanced accuracy for speech recognition grammars
US8145493B2 (en) 2006-09-11 2012-03-27 Nuance Communications, Inc. Establishing a preferred mode of interaction between a user and a multimodal application
US8374874B2 (en) 2006-09-11 2013-02-12 Nuance Communications, Inc. Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction
US8073697B2 (en) 2006-09-12 2011-12-06 International Business Machines Corporation Establishing a multimodal personality for a multimodal application
US8086463B2 (en) 2006-09-12 2011-12-27 Nuance Communications, Inc. Dynamically generating a vocal help prompt in a multimodal application
US7957976B2 (en) * 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
US7827033B2 (en) 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
US8069047B2 (en) * 2007-02-12 2011-11-29 Nuance Communications, Inc. Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application
US8150698B2 (en) 2007-02-26 2012-04-03 Nuance Communications, Inc. Invoking tapered prompts in a multimodal application
US7801728B2 (en) 2007-02-26 2010-09-21 Nuance Communications, Inc. Document session replay for multimodal applications
US8713542B2 (en) 2007-02-27 2014-04-29 Nuance Communications, Inc. Pausing a VoiceXML dialog of a multimodal application
US8938392B2 (en) 2007-02-27 2015-01-20 Nuance Communications, Inc. Configuring a speech engine for a multimodal application based on location
US7809575B2 (en) 2007-02-27 2010-10-05 Nuance Communications, Inc. Enabling global grammars for a particular multimodal application
US7822608B2 (en) * 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
US20080208586A1 (en) * 2007-02-27 2008-08-28 Soonthorn Ativanichayaphong Enabling Natural Language Understanding In An X+V Page Of A Multimodal Application
US7840409B2 (en) * 2007-02-27 2010-11-23 Nuance Communications, Inc. Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
US9208783B2 (en) 2007-02-27 2015-12-08 Nuance Communications, Inc. Altering behavior of a multimodal application based on location
US8843376B2 (en) 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
US7945851B2 (en) * 2007-03-14 2011-05-17 Nuance Communications, Inc. Enabling dynamic voiceXML in an X+V page of a multimodal application
US8670987B2 (en) 2007-03-20 2014-03-11 Nuance Communications, Inc. Automatic speech recognition with dynamic grammar rules
US8515757B2 (en) 2007-03-20 2013-08-20 Nuance Communications, Inc. Indexing digitized speech with words represented in the digitized speech
US8909532B2 (en) * 2007-03-23 2014-12-09 Nuance Communications, Inc. Supporting multi-lingual user interaction with a multimodal application
US20080235029A1 (en) * 2007-03-23 2008-09-25 Cross Charles W Speech-Enabled Predictive Text Selection For A Multimodal Application
US8788620B2 (en) * 2007-04-04 2014-07-22 International Business Machines Corporation Web service support for a multimodal client processing a multimodal application
US8862475B2 (en) 2007-04-12 2014-10-14 Nuance Communications, Inc. Speech-enabled content navigation and control of a distributed multimodal browser
US8725513B2 (en) 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application
US8082148B2 (en) * 2008-04-24 2011-12-20 Nuance Communications, Inc. Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise
US8214242B2 (en) * 2008-04-24 2012-07-03 International Business Machines Corporation Signaling correspondence between a meeting agenda and a meeting discussion
US8229081B2 (en) 2008-04-24 2012-07-24 International Business Machines Corporation Dynamically publishing directory information for a plurality of interactive voice response systems
US9349367B2 (en) 2008-04-24 2016-05-24 Nuance Communications, Inc. Records disambiguation in a multimodal application operating on a multimodal device
US8121837B2 (en) * 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
US8380513B2 (en) * 2009-05-19 2013-02-19 International Business Machines Corporation Improving speech capabilities of a multimodal application
US8290780B2 (en) 2009-06-24 2012-10-16 International Business Machines Corporation Dynamically extending the speech prompts of a multimodal application
US8510117B2 (en) * 2009-07-09 2013-08-13 Nuance Communications, Inc. Speech enabled media sharing in a multimodal application
US8416714B2 (en) * 2009-08-05 2013-04-09 International Business Machines Corporation Multimodal teleconferencing
US9601111B2 (en) * 2012-11-13 2017-03-21 GM Global Technology Operations LLC Methods and systems for adapting speech systems
US10063701B2 (en) * 2014-05-29 2018-08-28 Genesys Telecommunications Laboratories, Inc. Custom grammars builder platform

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5699456A (en) * 1994-01-21 1997-12-16 Lucent Technologies Inc. Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
US6601027B1 (en) * 1995-11-13 2003-07-29 Scansoft, Inc. Position manipulation in speech recognition
JPH09274495A (ja) 1996-04-09 1997-10-21 Fuji Xerox Co Ltd 音声認識装置
WO1999021172A2 (en) * 1997-10-20 1999-04-29 Koninklijke Philips Electronics N.V. Pattern recognition enrolment in a distributed system
US6144938A (en) * 1998-05-01 2000-11-07 Sun Microsystems, Inc. Voice user interface with personality
US6163768A (en) * 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US6499013B1 (en) * 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
US6839669B1 (en) * 1998-11-05 2005-01-04 Scansoft, Inc. Performing actions identified in recognized speech
JP2000172483A (ja) 1998-12-10 2000-06-23 Nippon Telegr & Teleph Corp <Ntt> 共有仮想画面における音声認識方法及びシステム及び共有仮想画面における音声認識プログラムを格納した記憶媒体
US6430531B1 (en) 1999-02-04 2002-08-06 Soliloquy, Inc. Bilateral speech system
US6374214B1 (en) * 1999-06-24 2002-04-16 International Business Machines Corp. Method and apparatus for excluding text phrases during re-dictation in a speech recognition system
US7120582B1 (en) * 1999-09-07 2006-10-10 Dragon Systems, Inc. Expanding an effective vocabulary of a speech recognition system
US6665640B1 (en) * 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US6598018B1 (en) * 1999-12-15 2003-07-22 Matsushita Electric Industrial Co., Ltd. Method for natural dialog interface to car devices
US7249018B2 (en) * 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
US7103533B2 (en) * 2001-02-21 2006-09-05 International Business Machines Corporation Method for preserving contextual accuracy in an extendible speech recognition language model
US6985862B2 (en) * 2001-03-22 2006-01-10 Tellme Networks, Inc. Histogram grammar weighting and error corrective training of grammar weights

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7260534B2 (en) 2002-07-16 2007-08-21 International Business Machines Corporation Graphical user interface for determining speech recognition accuracy

Also Published As

Publication number Publication date
US20030195739A1 (en) 2003-10-16
US7603279B2 (en) 2009-10-13
JP3967952B2 (ja) 2007-08-29

Similar Documents

Publication Publication Date Title
JP2003308087A (ja) 文法更新システム及び方法
CN107016994B (zh) 语音识别的方法及装置
WO2017071182A1 (zh) 一种语音唤醒方法、装置及系统
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
KR101932181B1 (ko) 디바이스 도킹 컨텍스트를 이용한 음성인식
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US7805304B2 (en) Speech recognition apparatus for determining final word from recognition candidate word sequence corresponding to voice data
US5797116A (en) Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word
JP5480760B2 (ja) 端末装置、音声認識方法および音声認識プログラム
JP3232289B2 (ja) 記号挿入装置およびその方法
CN101211559B (zh) 用于拆分语音的方法和设备
CN110689877A (zh) 一种语音结束端点检测方法及装置
EP1089193A2 (en) Translating apparatus and method, and recording medium used therewith
WO2007055181A1 (ja) 対話支援装置
US20080294433A1 (en) Automatic Text-Speech Mapping Tool
JP2001506382A (ja) 分散システムにおけるパターン認識登録
JP2011232619A (ja) 音声認識装置および音声認識方法
CN109543021B (zh) 一种面向智能机器人的故事数据处理方法及系统
JP5263875B2 (ja) 発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
US11532301B1 (en) Natural language processing
KR20210013607A (ko) 컴퓨팅 장치를 사용한 지속적인 대화 감지
JP2002132287A (ja) 音声収録方法および音声収録装置および記憶媒体
JPWO2011033834A1 (ja) 音声翻訳システム、音声翻訳方法および記録媒体
US10866948B2 (en) Address book management apparatus using speech recognition, vehicle, system and method thereof
JP2005227686A (ja) 音声認識装置、音声認識プログラムおよび記録媒体。

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070529

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070601

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110608

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120608

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120608

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130608

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130608

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees