JP2002149189A - 音声対話システム - Google Patents

音声対話システム

Info

Publication number
JP2002149189A
JP2002149189A JP2001266392A JP2001266392A JP2002149189A JP 2002149189 A JP2002149189 A JP 2002149189A JP 2001266392 A JP2001266392 A JP 2001266392A JP 2001266392 A JP2001266392 A JP 2001266392A JP 2002149189 A JP2002149189 A JP 2002149189A
Authority
JP
Japan
Prior art keywords
speech
word
voice
subsequence
dialogue system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001266392A
Other languages
English (en)
Inventor
Bernd Souvignier
ズヴィニーア ベルント
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2002149189A publication Critical patent/JP2002149189A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Abstract

(57)【要約】 【課題】 本発明は、音声入力において幅広い範囲の定
型の選択肢に対して夫々の単語サブシーケンスの最大限
に信頼できる識別を保証する対話システムを提供するこ
とを目的とする。 【解決手段】 本発明は、音声対話システム(1)に関
わる。音声入力において幅広い範囲の定型の選択肢に対
して有意味な単語サブシーケンスの最大限に信頼できる
識別を保証するために、音声対話システムは音声理解ユ
ニット(4)を有する。この音声理解ユニットにおい
て、単語サブシーケンスの評価が音声認識ユニット
(3)によって生成される認識結果から有意味な単語サ
ブシーケンスを識別するための異なる音声モデル(8)
を用いて行われ、これは音声対話システム(1)に与え
られる単語シーケンスに対して決定される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声対話システ
ム、例えば、自動情報システムに関わる。
【0002】
【従来の技術】このような対話システムは、A.Kellne
r,
【0003】
【外1】 F.Seide,及びB.H.Tranによる“PADIS−AN AUTOMATIC
TELEPHONE SWITCH BOARD AND DIRECTORY INFORM
ATION SYSTEM”,Speech Communication,vol.23,p
p.95‐111,1997から公知である。ユーザの音声の発声
は、ここでは電話回線網にインタフェースを介して受信
される。音声入力に反応にして、システム応答(音声出
力)は、対話システムによって生成され、この音声出力
はインタフェースを介して、ここでは更に電話回線網を
介してユーザに送信される。隠れマルコフモデル(HM
M)に基づく音声認識ユニットは、音声入力を単語グラ
フに変換し、この単語グラフは、受信された音声発声に
対する認識結果として適当である様々な単語シーケンス
を圧縮された形態で示す。単語グラフは、一つ以上の弧
によってつなげられる、決まった単語の境界線を明確に
する。弧には、単語と音声認識ユニットによって決定さ
れる確率値とが夫々割り当てられる。単語グラフを通る
様々なパスは、認識結果に対する可能な選択肢を表わ
す。音声理解ユニットでは、アプリケーションに関連す
る情報は、単語グラフの処理によって決定される。この
目的のために、統語規則及び意味規則を含む文法が使用
される。単語グラフから結果として生ずる様々な単語シ
ーケンスは、文法を使用するパーザを用いて概念シーケ
ンスに変換される一方で、概念は、単語パスの一つ以上
の単語まで広がり対話システムの夫々の使用に関連する
情報を有する単語サブシーケンス(単語の句)を組合わ
し、又は、いわゆるFILLER概念の場合、夫々のア
プリケーションに対して無意味な単語サブシーケンスを
表示する。従って生ずる概念シーケンスは、可能な概念
シーケンスを圧縮された形態で利用できるようにするた
めに最終的に概念グラフに変換され、このとき圧縮され
た形態は処理するに容易である。概念グラフの弧には、
単語グラフの関連する確率値に依存する確率値が割り当
てられる。概念グラフ中の最適なパスから最終的にはア
プリケーション関連意味情報信号が抽出され、これら信
号は文法の意味規則においていわゆる属性によって表示
される。対話制御ユニットは、音声解釈ユニットによっ
て決定される情報を評価し、ユーザに適切な応答を生成
する一方で、対話制御ユニットが特定アプリケーション
用データ(ここでは、電話問い合わせアプリケーション
に対する特定のデータ)を含むデータベースにアクセス
する。
【0004】このような対話システムは、文法及びデー
タベース中の特定アプリケーション用データだけが適合
されるべき例えば、線路情報システムのために使用され
得る。このような対話システムは、H.Aust,M.Oerder,
F.Seide,
【0005】
【外2】 による“A SPOKEN LANGUAGE INQUIRY SYSTEM FOR
AUTOMATIC TRAIN TIMETABLE INFORMATION”,Phil
ips J.Res.49(1995),pp.399‐418に記載される。
【0006】このようなシステムでは、文法は、例え
ば、単語シーケンス「十時半に(“atten thirt
y”)」から関連する意味情報「夜の十二時から630
分後(630minutes after midnight)」を以下の通り
に導き出す一方で統語及び意味規則が以下の通りに適用
される:
【0007】
【表1】 <number_24>は、0から24までの全ての数字を指
し、<number_60>は0から60までの全ての数字を
指し、これら2つのパラメータは階層的に構成された文
法のいわゆる非終端記号パラメータである。関連する意
味情報は、尋ねた時間を計算するために関連する数値が
割り当てられる、属性<number_24>.val及び<numb
er_60>.valによって表示される。
【0008】このアプローチ法は、定型を有する情報の
構造が先験的に知られているとき、例えば、時刻、日
付、場所名、又は、決まったリストの名前からの人名の
場合に非常によく作動する。しかしながら、このアプロ
ーチ法は、情報がより自由に定型化されているとき失敗
する。これは、映画情報の分野において音声対話システ
ムが使用される以下の例において明らかになる:199
9年のジェームズ・ボンド(James Bond)映画の正式
な題名は、「James Bond−The world is not enou
gh」である。この映画に関する典型的な質問は、「the
new Bond」、「the world is not enough」又は
「the latest film with Pierce Brosnan as Ja
mes Bond」である。可能な定型は、殆ど予測されず、
毎週変わる現在上映している映画に依存する。文法にお
ける決まった規則により、音声入力及び対話システムの
音声認識ユニットによって生成される認識結果において
単語サブシーケンスとして発生するこの多数の定型の一
つだけ又は幾つかを識別することが可能となる。更なる
対策無しでは、複数の定型の変形をもたらし、これらは
使用される文法によって網羅されず、識別されず、従っ
て、意味情報の割り当てによっても解釈され得ない。
【0009】
【発明が解決しようとする課題】本発明は、音声入力に
おける幅広い範囲定型の選択肢に対して夫々の単語サブ
シーケンスの最大限に信頼できる識別を保証する対話シ
ステムを提供することを目的とする。
【0010】
【課題を解決するための手段】この目的は、特許請求の
範囲の請求項1記載の対話システムによって実現され
る。
【0011】この対話システムを用いて、音声認識ユニ
ットによって発生される認識結果の重要な単語サブシー
ケンス(この結果は特に単語グラフ又はNの最適な単語
シーケンス仮説として発生する)は、統語構造が対話シ
ステムに対して先験的に知られてなく、従って使用され
る文法中に明確に含まれ得ない多数の定型の変形が発生
した場合でさえも高い信頼度で識別され得る。このよう
な単語サブシーケンスの識別は、このような評価が、異
なる(テキスト)コーポラに訓練された音声モデル(例
えば、連字(bigram)又は三重字(trigram)を競争さ
せることでお粉される点で成功である。一般的な、及
び、少なくとも特定テーマ用音声モデルが使用されるこ
とが好ましい。一般的な音声モデルは、例えば、日刊新
聞紙からの文献によって形成される訓練コーパス(trai
ning corpus)に訓練される。例えば、映画情報へのア
プリケーションに対する特定テーマ用音声モデルに関し
て、フィルムのタイトル情報に対する音声モデルと、フ
ィルムのコンテンツ(例えば、役者の名前)に関する情
報に対する音声モデルとが使用される。フィルムタイト
ル用音声モデルに対する訓練コーパスとして、現在上映
しているフィルムのタイトルの構成が使用されてもよ
い。フィルムコンテンツのための音声モデルに対する訓
練コーパスとしてこれらフィルムの短い説明の構成が使
用されてもよい。一方の音声モデルが他方の音声モデル
と比べて(自由に定型された)単語サブシーケンスに語
幹が近い場合、このような音声モデルは他方の音声モデ
ルよりもこの単語サブシーケンスに対して高い特に、一
般的な音声モデル(請求項2と比較)よりも高い確率を
割り当て、これは、単語サブシーケンスを有意味として
識別するために使用される。
【0012】本発明を用いると、前の対話システムにお
ける単語サブシーケンスの識別と解釈との間の文法定義
された関係が排除される。請求項3は、どのようにして
意味情報が識別された単語サブシーケンスに割り当てら
れ得るかを示す。これら単語サブシーケンスは対話シス
テムの文法によって明確に含まれていないため、特別な
対策がこれに関して取られ得る。それぞれの特定テーマ
用データ材料を有するデータベースにアクセスすること
を提案する。識別された単語サブシーケンスは、データ
ベースアイテムと比較され、最も識別された単語サブシ
ーケンスに類似するデータベースアイテム(可能性とし
て複数の割り当てられたデータフィールドを有する)
は、例えば、選択されたデータベースアイテムの一つ又
は複数のデータフィールドの値を割り当てることによっ
て識別された単語サブシーケンスの意味情報を決定する
ために使用される。
【0013】請求項4は、重要な単語シーケンスを識別
するために設けられる方法を記載する。
【0014】
【発明の実施の形態】本発明の実施例は、図面を参照し
て以下に更に明らかにする。
【0015】図1は、インタフェース2と、音声認識ユ
ニット3と、音声解釈ユニット4と、対話制御ユニット
5と、音声出力ユニット6(テキスト音声変換を含む)
と、特定アプリケーション用データを含むデータベース
7とを有する音声対話システム1(ここでは、映画情報
システム)を示す。ユーザの音声入力は、受信され、イ
ンタフェース2を介して音声認識ユニットに転送され
る。ここではインタフェース2は、特に電話回線網上で
のユーザに対するコネクションである。隠れマルコフモ
デル(HMM)に基づく音声認識ユニット3は、認識結
果として単語グラフ(図2参照)を生成する一方で、本
発明の範囲では基本的には一つ以上のNの最適な単語シ
ーケンスの仮説の処理が適用され得る。認識結果は、音
声認識ユニット3によって生成される認識結果中の関連
する統語及び意味情報を決定するために、音声理解ユニ
ット4によって評価される。音声理解ユニット4は、必
要である場合にはデータベース7中に記憶される特定ア
プリケーション用データにアクセスすることができる特
定アプリケーション用の文法を使用する。音声理解ユニ
ット4によって決定される情報は、対話制御ユニット5
に供給され、対話供給ユニットは、その情報から音声出
力ユニット6に供給されるシステム応答を決定する一方
で、データベース7に記憶される特定アプリケーション
用データが考慮される。システム応答が発生されると
き、対話制御ユニット5は、音声理解ユニット4によっ
て決定され、対話制御ユニット5に転送される情報に意
味ンテンツ及びシンタックスが依存する、先験的に予め
定められた応答サンプルを利用する。構成要素2乃至7
の詳細は、上述のA.Kellner,
【0016】
【外3】 F.Seide、及び、B.H.Tranによる文献から得られ得る。
【0017】音声対話システムは、更に、複数の音声モ
デルLM−0、LM−1、LM−2、…、LM−K
(8)を含む。ここでは、音声モデルLM−0は、一般
的な未特定テーマ用データ(例えば、日刊新聞からのテ
キストによって形成される)で訓練テキストコーパスに
訓練された一般的な音声モデルを表示する。他の音声モ
デルLM−1乃至LM−Kは、特定テーマ用のテキスト
コーパスに訓練された特定テーマ用音声モデルを表わ
す。更に、音声対話システム1は、複数のデータベース
DB−1、DB−2、…、DB−M(9)を含み、これ
らの中に特定テーマ用の情報が記憶される。特定テーマ
用音声モデル及び特定テーマ用データベースは、夫々の
テーマと一列をなして互いに対応する一方で、一つのデ
ータベースが複数の特定テーマ用音声モデルに割り当て
られてもよい。以下では、その一般性が損なわれること
無く、二つの音声モデルLM−0及びLM−1と、音声
モデルLM−1に割り当てられた一つのデータベースD
B−1とだけが始められる。
【0018】本発明による音声対話システム1は、音声
入力の一部であり音声認識ユニット3によって生成され
る認識結果の一部として音声認識ユニット3の出力上で
利用できる、自由に定型化された有意味な単語サブシー
ケンスを識別することができる。有意味な単語サブシー
ケンスは、対話システムにおいて非終端記号(=概念構
成要素)及び文法の概念によって通常表示される。
【0019】音声解釈ユニット4は、階層的に構造され
た文脈自由文法を利用し、この文法の抜粋は以下の通り
である。
【0020】
【表2】
【0021】
【外4】 は、概念の又は非終端記号の定義である。印
【0022】
【外5】 は、概念又は非終端記号に対する意味情報を有する属性
を定義するために使用される。このような文法構造は、
基本的に公知(A.Kellner,
【0023】
【外6】 F.Seide、及び、B.H.Tranによる上述の文献を参照)で
ある。有意味な単語サブシーケンスの識別は、トップダ
ウン解析を用いて行われる一方で、文法は弧が有意味な
単語サブシーケンスを表わす概念グラフを形成するため
に使用される。概念グラフの弧には確率値が割り当てら
れ、これら確率値は概念グラフを通る最適な(最も可能
性が高い)パスを決定するために使用される。文法を用
いることにより、このパスに関連する統語及び/又は意
味情報が得られ、これら情報は、音声理解ユニットの処
理結果として対話制御ユニット5に送られる。
【0024】音声認識ユニット3によって音声理解ユニ
ット4(図2はその基本的構造を示す)に送られる単語
グラフ内の可能な単語シーケンスである、音声入力「I
would like to order two tickets for the
new James Bond film」に関して、本発明を説明す
る。
【0025】単語サブシーケンス「I would like t
o」は、非終端記号<want>によって表示され、単語サ
ブシーケンス「two tickets」は非終端記号<tickets
>によって表示される一方で、この非終端記号は単語
「two」を指示する非終端記号<number>を含む。非終
端記号<number>には意味情報として夫々の数値を説明
する属性が再び割り当てられる。この属性は、属性番号
を決定するために使用され、非終端記号<tickets>に
夫々の数値を意味情報として割り当てる。単語「orde
r」は、非終端記号<book>によって識別される。
【0026】単語グラフの2つの節点(ここでは7と1
2)の間にある単語サブシーケンス例えば、ここでは文
法の概念又は非終端記号から明確に把握され得ない「ne
w James Bond film」(図2にはdes neuen James
Bond Filmと表記される)を識別し解釈するために
は、文法はこれまで使用された文法と比較して新しいタ
イプの非終端記号、ここでは非終端記号<title_phras
e>だけ拡張される。この非終端記号は、非終端記号<f
ilm>を定義するために使用され、この非終端記号<fil
m>は概念<ticket_order>を定義するために使用され
る。非終端記号<title_phrase>を用いると、自由に
定型化されたフィルムのタイトルを含む顕著な単語サブ
シーケンスが関連する属性を用いて識別され解釈され
る。フィルムのタイトルの自由な定型により、全てを予
測することは出来ない数多くの定型の変形を考えること
ができる。現在の場合、正しいタイトルは、「James B
ond−The world is not enough」である。使用され
る夫々の単語サブシーケンス「the new James Bond
film」は、フィルムの正しいタイトルと相当に異な
り、使用される文法によって明確に把握されない。それ
にも関わらず、この単語サブシーケンスは、タイトルの
記述として識別される。これは、図1においてLM−0
乃至LM−Kと参照された複数の音声モデルを用いて評
価されることで実現される。
【0027】映画情報システムとしての対話システム1
の現在の構成に関して、音声モデルLM−0は一般的な
未特定テーマ用のテキストコーパスに訓練された一般的
な音声モデルである。音声モデルLM−1は、特定テー
マ用のテキストコーパスに訓練された特定テーマ用音声
モデルであり、ここでは現在上映しているフィルム全て
の(正しい)タイトル及び短い説明を含む。これの代替
として、これまでに既知のタイプの統語規則(「new J
ames Bond」のような単語シーケンスに対して不成功で
ある)によって単語サブシーケンスを把握することであ
り、それにより、単語サブシーケンスの評価は、音声理
解ユニット4において、ブロック8によって組み合わさ
れる音声モデルを用いて行われ、即ち、ここでは一般的
な音声モデルLM−0及びフィルムのタイトルを特定す
る音声モデルLM−1によって行われる。節点7と12
との間の単語サブシーケンスを用いると、音声モデルL
M−1は評価結果として一般的な音声モデルLM−0に
よって評価結果として生成される確率よりも高い確率を
生成する。このようにして、単語サブシーケンス「the
new James Bond film」は、可変のシンタックスPH
RASE(LM−1)を含む非終端記号<title_phrase>と
して識別される。音声認識ユニット3による音響評価か
ら結果として生ずる夫々の単語サブシーケンスに対する
確率値と、音声モデルLM−1によって生成される夫々
の単語サブシーケンスに対する確率値とは(例えば、ス
コアを加算することで)組み合わされる一方で、発見的
に決定される重みが使用されることが好ましい。結果と
なる確率値は、非終端記号<title_phrase>に割り当
てられる。
【0028】非終端記号<title_phrase>には、テキ
スト(text)、タイトル(title)、コンテンツ(conte
nts)の3つの属性による3つの意味情報信号が割り当
てられる。属性textは、識別された単語シーケンス<ST
RING>を指す。属性title及びcontentsに対する意味情
報信号は、RETRIEVEと呼ばれる情報検索を用いて決定さ
れ、この情報探索にデータベースDB−1がアクセスさ
れる。データベースDB−1は、シネマフィルムに関す
る特定のデータが記憶される特定テーマ用データベース
である。各データベース入力の下では、別々のフィール
ドDB−1title及びDB−1contentsにおいて一方で
夫々のフィルムのタイトル(正しいレファレンスを含
む)が記憶され、他方で、各フィルムのタイトルに対し
て短い説明(ここでは、「the new James Bond fil
m with Pierce Brosnan as agent007」が記憶
される。ここで、属性title及び属性contentsに関し
て、識別された単語サブシーケンスに最も類似するデー
タベース入力が決定される(実施例において複数の同様
のデータベース入力が決定されることも可能である)一
方で、公知の検索方法、例えば、B.Carpenter,J.Chu−
Carroll,“Natural Language Call Routing:A Ro
bust,Self−Organizing Approach”,ICSLP 1998に
記載する情報引き出し方法が使用される。データベース
入力が検出された場合、フィールドDB−1titleは、
データベース入力から読み出され属性titleに割り当て
られ、フィルムの短い説明を含むフィールドDB−1
contentsが読み出され属性contentsに割り当てられる。
【0029】最後に、従って決定される非終端記号<ti
tle_phrase>は、非終端記号<film>を決定するため
に使用される。
【0030】上記のような方法で解釈され識別される非
終端記号から、属性サービス(service)、数(numbe
r)、及び、タイトル(title)に夫々チケット注文<ti
ckets.Number>又は<film.Title>の意味コンテンツ
が割り当てられる概念<ticket_ordering>が形成され
る。概念<ticket_ordering>の実現は、図3に示すよ
うに概念グラフの一部を形成する。
【0031】図2に示す単語グラフ、及び、図3に示す
概念グラフは、明瞭性のために簡略化された形態で表わ
される。実際にはグラフはより多くの弧を有するが、本
発明においては重要でない。上記した実施例において、
音声認識ユニット3が認識結果として単語グラフを供給
すると仮定した。しかしながら、これも本発明において
必須ではない。更に、単語グラフの代わりに、リストN
の最適な単語シーケンス又は文仮説の処理が考慮され
る。自由に定型化された単語サブシーケンスを用いる
と、意味コンテンツを決定するためにデータベース問い
合わせを有することは必ずしも必要でない。これは、対
話システムに対する夫々の命令に依存する。基本的に
は、追加のデータベースフィールドを含むことにより、
単語サブシーケンスに割り当てられ得る任意の数の意味
情報信号が予め定められ得る。
【0032】図3に示す概念グラフの構造は、表の形態
で以下に示す。左側の2列は、概念節点5(概念間の境
界)を示す。これら以外には、適当であれば関連する可
能な属性及び割り当てられた意味コンテンツを含む概念
を山括弧(<>)内に示す。単語グラフの対応する単語
サブシーケンスを小括弧(())に示し、その後に、適
当であれば、英語訳又はコメントを大括弧([])内に
示す。
【0033】
【表3】
【図面の簡単な説明】
【図1】音声対話システムのブロック図である。
【図2】音声対話システムの音声認識ユニットによって
生成される単語グラフを示す図である。
【図3】音声対話システムの音声解釈ユニット中で生成
される概念グラフを示す図である。
【符号の説明】
2 インタフェース 3 音声認識ユニット 4 音声解釈(理解)ユニット 5 対話制御ユニット 6 音声出力ユニット 7 データベース 8 複数の音声モデル 9 複数のデータベース
フロントページの続き (71)出願人 590000248 Groenewoudseweg 1, 5621 BA Eindhoven, Th e Netherlands

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 音声理解ユニットを有する音声対話シス
    テムであって、 上記音声理解ユニットは、音声認識ユニットによって生
    成される認識結果から有意味な単語サブシーケンスを識
    別し、上記認識結果は上記音声対話システムに供給され
    る単語シーケンスに対して決定され、上記単語サブシー
    ケンスは異なる音声モデルを用いて評価される音声対話
    システム。
  2. 【請求項2】 一般的な音声モデル、及び、少なくとも
    一つの特定テーマ用音声モデルが上記単語サブシーケン
    スを評価するために設けられることを特徴とする請求項
    1記載の音声対話システム。
  3. 【請求項3】 複数の異なる上記音声モデルは、少なく
    とも一つの特定テーマ用音声モデルを含み、上記特定テ
    ーマ用音声モデルに対して夫々の特定テーマ用データ材
    料を含むデータベースが割り当てられ、上記材料は上記
    単語サブシーケンス中に含まれる意味情報を決定するた
    めに使用されることを特徴とする請求項2記載の音声対
    話システム。
  4. 【請求項4】 音声対話システムの音声認識ユニットに
    よって生成される認識結果から重要な単語サブシーケン
    スを抽出する方法であって、 上記単語サブシーケンスは上記音声対話システムの音声
    理解ユニットにおいて異なる音声モデルを用いて評価さ
    れる方法。
JP2001266392A 2000-09-05 2001-09-03 音声対話システム Pending JP2002149189A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10043531A DE10043531A1 (de) 2000-09-05 2000-09-05 Sprachdialogsystem
DE10043531.9 2000-09-05

Publications (1)

Publication Number Publication Date
JP2002149189A true JP2002149189A (ja) 2002-05-24

Family

ID=7654927

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001266392A Pending JP2002149189A (ja) 2000-09-05 2001-09-03 音声対話システム

Country Status (8)

Country Link
US (1) US20020107690A1 (ja)
EP (1) EP1187440A3 (ja)
JP (1) JP2002149189A (ja)
KR (1) KR20020019395A (ja)
CN (1) CN1342017A (ja)
BR (1) BR0103860A (ja)
DE (1) DE10043531A1 (ja)
MX (1) MXPA01009036A (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
EP1361740A1 (de) * 2002-05-08 2003-11-12 Sap Ag Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
WO2004049192A2 (en) 2002-11-28 2004-06-10 Koninklijke Philips Electronics N.V. Method to assign word class information
US8255223B2 (en) * 2004-12-03 2012-08-28 Microsoft Corporation User authentication by combining speaker verification and reverse turing test
TWI321313B (en) * 2007-03-03 2010-03-01 Ind Tech Res Inst Apparatus and method to reduce recognization errors through context relations among dialogue turns
US8396713B2 (en) * 2007-04-30 2013-03-12 Nuance Communications, Inc. Method and system for using a statistical language model and an action classifier in parallel with grammar for better handling of out-of-grammar utterances
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US10049656B1 (en) * 2013-09-20 2018-08-14 Amazon Technologies, Inc. Generation of predictive natural language processing models
US11568863B1 (en) * 2018-03-23 2023-01-31 Amazon Technologies, Inc. Skill shortlister for natural language processing
US11508359B2 (en) * 2019-09-11 2022-11-22 Oracle International Corporation Using backpropagation to train a dialog system
US11361762B2 (en) * 2019-12-18 2022-06-14 Fujitsu Limited Recommending multimedia based on user utterances

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69232407T2 (de) * 1991-11-18 2002-09-12 Toshiba Kawasaki Kk Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
US6311157B1 (en) * 1992-12-31 2001-10-30 Apple Computer, Inc. Assigning meanings to utterances in a speech recognition system
US5524169A (en) * 1993-12-30 1996-06-04 International Business Machines Incorporated Method and system for location-specific speech recognition
DE4432632A1 (de) * 1994-09-14 1996-03-21 Philips Patentverwaltung System zum Ausgeben von Sprachinformation in Rekation auf eingegebene Sprachsignale
US5689617A (en) * 1995-03-14 1997-11-18 Apple Computer, Inc. Speech recognition system which returns recognition results as a reconstructed language model with attached data values
JPH10143191A (ja) * 1996-11-13 1998-05-29 Hitachi Ltd 音声認識システム
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines

Also Published As

Publication number Publication date
US20020107690A1 (en) 2002-08-08
BR0103860A (pt) 2002-05-07
MXPA01009036A (es) 2008-01-14
KR20020019395A (ko) 2002-03-12
DE10043531A1 (de) 2002-03-14
EP1187440A3 (de) 2003-09-17
EP1187440A2 (de) 2002-03-13
CN1342017A (zh) 2002-03-27

Similar Documents

Publication Publication Date Title
US6937983B2 (en) Method and system for semantic speech recognition
EP1330816B1 (en) Language independent voice-based user interface
Ward et al. Recent improvements in the CMU spoken language understanding system
US6983239B1 (en) Method and apparatus for embedding grammars in a natural language understanding (NLU) statistical parser
US6067514A (en) Method for automatically punctuating a speech utterance in a continuous speech recognition system
US6631346B1 (en) Method and apparatus for natural language parsing using multiple passes and tags
US7529657B2 (en) Configurable parameters for grammar authoring for speech recognition and natural language understanding
US7072837B2 (en) Method for processing initially recognized speech in a speech recognition session
JP3323519B2 (ja) テキスト−音声変換装置
US7249019B2 (en) Method and apparatus for providing an integrated speech recognition and natural language understanding for a dialog system
US20030191625A1 (en) Method and system for creating a named entity language model
US20020052742A1 (en) Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
US5875426A (en) Recognizing speech having word liaisons by adding a phoneme to reference word models
US20050192793A1 (en) System and method for generating a phrase pronunciation
KR20000028832A (ko) 대화형 음성 응답 애플리케이션 구현 장치 및 방법, 머신판독가능 매체 및 대화형 음성 응답 시스템
JP2002149189A (ja) 音声対話システム
CA2481080C (en) Method and system for detecting and extracting named entities from spontaneous communications
JP4684409B2 (ja) 音声認識方法及び音声認識装置
EP1475779A1 (en) System with composite statistical and rules-based grammar model for speech recognition and natural language understanding
US20070016420A1 (en) Dictionary lookup for mobile devices using spelling recognition
JP3468572B2 (ja) 対話処理装置
EP1111587B1 (en) Speech recognition device implementing a syntactic permutation rule
US6772116B2 (en) Method of decoding telegraphic speech
Core et al. Speech repairs: A parsing perspective
JPH09134191A (ja) 音声認識装置