JP2005234572A - 談話機能に対する予測モデルを判定する方法およびシステム - Google Patents

談話機能に対する予測モデルを判定する方法およびシステム Download PDF

Info

Publication number
JP2005234572A
JP2005234572A JP2005039648A JP2005039648A JP2005234572A JP 2005234572 A JP2005234572 A JP 2005234572A JP 2005039648 A JP2005039648 A JP 2005039648A JP 2005039648 A JP2005039648 A JP 2005039648A JP 2005234572 A JP2005234572 A JP 2005234572A
Authority
JP
Japan
Prior art keywords
discourse
function
discourse function
determining
prosodic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005039648A
Other languages
English (en)
Other versions
JP2005234572A5 (ja
Inventor
Misty L Azara
エル.アザラ ミスティ
Pooranii Ribia
ポーラニー リビア
Giovanni L Thione
エル.シオン ジョバンニ
Henck Van Den Berg Martin
ヘンク ヴァン デン バーグ マーティン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2005234572A publication Critical patent/JP2005234572A/ja
Publication of JP2005234572A5 publication Critical patent/JP2005234572A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

【課題】
例えば自動音声認識システムにおいて、談話機能の評価モデルを評価する方法およびシステムを提供する。
【解決手段】
音声発話のコーパスを判定し、少なくとも1つの音声発話に関連した少なくとも1つの談話機能を判定する。さらに、前記少なくとも1つの談話機能に関連した少なくとも1つの韻律特徴を判定して、前記韻律特徴および前記談話機能に基づいて談話機能の少なくとも1つの予測モデルを判定する。
【選択図】図2

Description

本発明は、談話機能に対する予測モデルを判定する方法およびシステム、ならびに談話機能に対する予測モデルを判定するようにコンピュータをプログラムするコンピュータ・プログラムに関する。
従来の自動音声認識システムは、入来音声信号情報を音声信号情報のテンプレートと比較する。すなわち、これらの従来のシステムは、自然言語音声の信号情報を音素、語および句ベース信号情報テンプレートと整合させる。ある従来の自動音声認識システムは、共起関係(co-occurrence)、格子リスコアリング(lattice rescoring)等のような確率モデルに基づいて、この整合処理を抑制する。入力音声情報の特異変化は、信号情報テンプレートに関連した情報の絞込みまたは独自化によって処理される。
これらの従来の自動音声認識システムは通常、デイクテーション・モード(dictation mode)またはコマンド・モード(command mode)で動作する。デイクテーション・モードでは、入力信号情報が、候補認識テキストに関連した信号情報テンプレートと整合される。その場合、認識テキストは基本アプリケーションへの入力として機能する。例えば、認識テキストは、キーボード入力に代えてまたはそれに加えて、エデイタ、ワードプロセッサ、イーメールエデイタ等のようなアプリケーションに入れ込まれうる。デイクテーション・モードにおける自然言語情報は任意の主題に関係しうるので、これらの従来の自然言語処理システムは、音声情報に含まれた分野についての情報を通常は利用しない。
ブラック エイ;テーラー、ピー:シーエイチエイテイーアール:ジェネリック スピーチ シンセシス システムイン・プロシーデイングス・オブ・コリング74、II 第83−986頁、京都、1994(Black A.; Taylor, P.: CHATR: a generic speech synthesis system" in Proceedings of COLING74, II p.83-986, Kyoto, 1994) ホーラー、エス. フォッサム、テイー。:"ザ アソシエイション ビトイーン サブジェクト マター アンド デイスコース セグメンテーション"、イン ザ プロシーデイングス オブ ザ フロリダ エイエル リサーチ シンポジウム、キー ウエスト、フロリダ、2001年5月(Haller, S. Fossum, T.:"The Association Between Subject Matter and Discourse Segmentation", In The Proceedings of the Florida Al Research Symposium, Key West, Fl. May 2001) ロング、エス.;クーパー、アール.;アボウド、ジー.;アトケソン、シー.、"ラピッド プロトタイピング オブ モバイル コンテキスト‐アウエア アプリケーションズ:ザ サイバー ガイド ケース スタデイ"、イン ザ プロシーデイングス オブ セカンド エイシーエム インターナショナル カンファレンス オン モバイル コンピューテイング アンド ネットワーキング(モビコン`96)97−107ページ、1996年11月10−12日(Long, S.; Kooper, R.; Abowd, G.; Atkeson, C., "Rapid Prototyping of Mobile Context-Aware Applications: the Cyber Guide Case Study", in the Proceedings of the 2nd ACM International Conference on Mobile Computing and Networking (MobiCom '96), pp. 97-107, November 10-12, 1996.) シュリバーグ、イー.;シュトルケ、エイ.;ハッカニ‐ツール、デイレク;ツール、ゴクハン、"プロソデイ‐ベースド セグメンテーション オブ スピーチ アタランシズ インツー センテンシズ アンド トピックス"イン スピーチ コニュミケーションズ、2000、32、1‐2、9月、127‐154ページ(Schriberg, E.; Stolcke, A.; Hakkani-Tur, Dilek; Tur, Gokhan, "Prosody-Based Segmentation of Speech Utterances into Sentences and Topics," in speech Communication, 2000, 32, 1-2, Sept, pp. 127-154) シュトルケ、エイ.;シュリバーグ、イー.;ベイツ、アール.;コッカロ エヌ.;ジュラフスキ、デイー.;マーチン、アール.;メテイーア、エム.;リース、ケイ.;テーラー、ピー.;ヴァン エス‐ダイケマ、シー.、"ダイアログ アクト モデリング フォア カンバセイショナル スピーチ"イン アプライング マシン ラーニング ツー デイスコース プロセッシング.ペーパーズ フロム ザ 1998 エイエイエイアイ スプリング シンポジウム、テクニカル レポート エスエス‐98−01(ジェイ.チュ‐キャロル エトアル、イーデイーエス)スタンフォード カリフォルニア 98‐105ページ、エイエイエイアイ プレス、メンロ パーク、カリフォルニア、1998年(Stolcke., A.; Schriberg, E.; Bates, R.; Coccaro, N.; Jurafsky, D.; Martin, R.; Meteer, M.; Ries, K.; Taylor, P.; Van Ess-Dykema, C., "Dialog Act Modeling for Conversational Speech" in Applying Machine Learning to Discourse Processing. Papers from the 1998 AAAI Spring Symposium, Technical Report SS-98-01 (J. Chu-Carrol et al, eds.) Stanford CA pp.98-105, AAAI Press, Menlo Park CA. 1998) レンデ、ビー.;シュリバーグ、イー.、"スポッテイング `ホットスポット´ イン ミーテイングス:ヒューマン ジャッジメンツ アンド プロスデイック キュウ"イン プロシーデイングス、ユーロスピーチ、ジェネバ、2003(Wrende, B.; Schriberg, E., "Spotting 'HotSpots' in Meetings: Human Judgments and Prosodic Cues" in Proc. Eurospeech, Geneva, 2003)
従来のコマンド・モードでは、言語モデルが、自動音声認識システムに対して、音声に対するターゲット・アプリケーションに基づいて判定される。すなわち、オペレーテイング・システムが音声発話のターゲットである場合には、有効なオペレーテイング・システム・コマンドの組が、音声発話信号情報が比較される1つの組の信号情報テンプレートを形成する。離散入力モードを使用することが、従来の自然言語処理システムの精度と応答性を向上させる。しかし、離散入力モードを使用することは、ユーザーが自然言語インタフェースと対話する流暢さを阻害するおそれがある。したがって、ユーザーは、これらの従来の自然言語インタフェースを組み入れたシステムと直接対話するのではなく、そのシステムの現在の入力モードおよび/または状態を追跡することを強制される。
したがって、自然言語を該当する談話機能またはコンテキストに区分けするシステムおよび方法が有用であろう。本発明のシステムおよび方法による種々の例示的実施形態は、音声を談話機能単位に区分けするようにシステムをトレーニングするようにする。本発明によるシステムおよび方法は、談話分析の理論を判定する。音声発話の統計的に有意なトレーニング・コーパス(training corpus)が選択される。トレーニング・コーパスにおいて音声発話と関連した韻律特徴が判定される。トレーニング・テキストが、そのテキスト内の談話機能を判定するために、談話分析の理論を用いて分析される。1つの組の韻律特徴の判定に基づいて談話機能を予測する談話機能の予測モデルが判定される。本発明による種々の他の例示的な実施形態では、談話機能に対する予測モデルによって与えられる付加的な情報が、モード変化等を判定するのに必要な、自然言語音声発話の談話機能への区分け(segmentation)を容易にする。
本発明の請求項1の態様によれば、談話機能に対する予測モデルを判定する方法が、音声発話のコーパスを判定するステップと、少なくとも1つの音声発話に関連した少なくとも1つの談話機能を判定するステップと、前記少なくとも1つの談話機能に関連した少なくとも1つの韻律特徴を判定するステップと、前記韻律特徴および前記談話機能に基づいて談話機能の少なくとも1つの予測モデルを判定するステップを含む。
本発明の請求項2の態様によれば、前記談話機能が談話分析の理論に基づいて判定される。
本発明の請求項3の態様によれば、前記談話分析の理論が、言語的談話モデル(Linguistic Discourse Model)、統一言語的談話モデル(Unified Linguistic Discourse Model)、修辞構造理論(Rhetorical Structure Theory)、談話構造理論(Discourse Structure Theory)、構造談話表示理論(Structured Discourse Representation Theory)のうちの少なくとも1つである。
本発明の請求項4の態様によれば、前記予測モデルが機械学習、ルールのうちの少なくとも1つに基づいて判定される。
本発明の請求項5の態様によれば、機械学習に基づく予測モデルが、統計学、決定木、ナイーブベイズのうちの少なくとも1つに基づいて判定される。
本発明の請求項6の態様によれば、韻律特徴が、関連した談話機能の前、中、後の場所の少なくとも1つで生ずる。
本発明の請求項7の態様によれば、前記韻律特徴が韻律特徴ベクトル内でコード化される。
本発明の請求項8の態様によれば、前記韻律特徴ベクトルが多モード特徴ベクトルである。
本発明の請求項9の態様によれば、前記談話機能が文内談話機能である。
本発明の請求項10の態様によれば、前記談話機能が文間談話機能である。
本発明の請求項11の態様によれば、予測談話機能モデルを判定するシステムが、少なくとも1つの音声発話のコーパスを検索するための入力/出力回路と、前記少なくとも1つの音声発話に関連した韻律特徴を判定するプロセッサであって、前記少なくとも1つの音声発話のコーパスに関連した少なくとも1つの談話機能を判定し、前記少なくとも1つの談話機能に関連した少なくとも1つの韻律特徴を判定し、前記韻律特徴および前記談話機能に基づいて談話機能に対する予測モデルを判定するプロセッサとを備える。
本発明の請求項21の態様によれば、談話機能に対する予測モデルを判定するようにコンピュータをプログラムするコンピュータ・プログラムが、音声発語のコーパスを判定する命令と、少なくとも1つの音声発話に関連した少なくとも1つの談話機能を判定する命令と、少なくとも1つの談話機能に関連した少なくとも1つの韻律特徴を判定する命令と、前記韻律特徴および前記談話機能に基づいて談話機能の少なくとも1つの予測モデルを判定るす命令とを含む。
本発明よれば、自然言語を該当する談話機能またはコンテキストに区分けするシステムおよび方法とすることにより、従来技術において自然言語インタフェースを組み入れたシステムの現在の入力モードや状態をユーザーが追跡することを強制されるという問題を回避することができ、さらに、談話機能に対する予測モデルによって与えられる付加的な情報によって、モード変化等を判定するのに必要な、自然言語音声発話の談話機能への区分け(segmentation)を容易にする等の優れた効果を奏することができる。
図1は、本発明による談話機能の予測モデルを判定するための例示的なシステム100の概観図である。この談話機能の予測モデルを判定するためのシステム100は、通信回線99を通じて、インターネット対応パソコン300、インターネット対応タブレット・コンピュータ400、および記録された自然言語音声発話のトレーニング事例1000−1002を内蔵した情報リポジトリ200に接続されている。
本発明による種々の実施形態の1つでは、インターネット対応パソコン300のユーザーが、トレーニング事例1000−1002に対する談話機能の予測モデルを判定するための要求を開始する。トレーニング事例1000−1002は、情報リポジトリ200に内蔵された記録された自然言語音声発話に関連づけられている。その要求は、通信回線99を通じて、談話機能予測モデル判定システム100に送られる。談話機能予測モデル判定システム100は、最初のトレーニング事例1000を検索することによって、この要求を仲裁する。音声発話の韻律特徴が判定される。韻律特徴は、基本周波数、音調的なフレーズ・トーン、境界トーン、発話間の沈黙期間、発話速度等を含みうるが、それらに限定されない。しかし、本発明の実施では、自然言語音声発話を談話機能に分割するのに有用な公知のまたは後で開発された韻律特徴も使用されうる。
自然言語音声発話1000における談話機能が判定される。本発明による種々の実施形態では、自然言語音音声を認識して認識テキストを形成することによって、談話機能が判定される。その認識テキストは任意的に検証される。検証は、認識テキストを音声情報の人が書いた転写と比較することによって行われる。本発明による種々の他の実施形態では、異なる認識方法を使用し、かつそれらの異なる認識方法の間で多数決により正しい検証されたテキストを決定することによって、認識テキストが検証される。あるいは、認識音声発話が検証者によって検証される。しかし、本発明の範囲から逸脱することなしに、認識テキストを検証する任意の公知のまたは後で開発された方法を使用できることが明らかであろう。認識テキストが任意的に検証された後で、談話機能を判定するために、検証された認識テキストに談話分析の理論が適用される。
例えば、本発明による種々の実施形態において、認識テキスト内の従属、音声修復、データ、コマンドおよび/または他の談話機能が判定される。談話分析の理論によって識別することができかつ識別可能な韻律情報と関連づけられた任意の談話機能が、本発明によるシステムおよび方法を用いて、判定できる。1つの実施形態では、判定された談話機能が、認識テキスト内に注釈として追加される。本発明による他の種々の実施形態では、トレーニング事例識別子、トレーニング事例内における判定された談話機能の位置、各談話機能に関連づけられた韻律特徴を記述した韻律特徴ベクトルが、談話機能の韻律的情報を格納するためのデータ構造に格納される。
談話機能に関連づけられた韻律特徴は、識別されるべき特定の談話機能に先行するか、談話機能の間に生ずるか、あるいは言語、話者、ジャンル、および/または他の要因に依存して談話機能に追随するかの何れかでありうることが明らかであろう。例えば、初期周波数値の韻律特徴が、談話機能に先行し、かつ追随すべき談話機能の種類についての予測で使用されうる。談話機能の発話の後で識別された韻律特徴は、談話機能を予測するためにも使用できる。したがって、談話機能の発話の前に、その間にかつ/またはそれに追随して現れる談話機能を予測するために有用な任意の韻律特徴が、本発明の実施で使用できることが明らかであろう。
検証された認識音声発話のトレーニング・コーパスにおける各談話機能に関連づけられた韻律特徴が、予測モデルを判定するために次に使用される。上述のように、談話機能を判定するためには、個々の特徴が使用されうる。しかし、さらに他の実施形態では、1つの談話機能に関連づけられた多数の韻律特徴が組み合わせられて、1つの韻律特徴ベクトルとなされる。
談話機能の予測モデルが次に判定される。機械学習、統計学的学習、規則帰納、ナイーブベイズ、決定木、サポートベクトルマシン、あるいは任意公知のまたは後で開発された予測モデル判定方法が使用されうる。談話機能に対する判定された予測モデルが次にセーブされかつ/または使用される。
図2は本発明による談話機能に対する予測モデルを判定するための例示的方法である。プロセスがステップS100で開始し、直ちにステップS200へと進む。
ステップS200では、談話分析理論が判定される。談話分析理論は、前もって判定され、かつメモリに格納されていてもよい。本発明による種々の他の実施形態では、談話分析理論は、ユーザーの入力、ユーザーに関連した特徴、選択されたアプリケーション、使用環境等に基づいて選択される。しかし、本発明の範囲から逸脱することなしに、談話分析理論を選択するための任意公知のまたは後で開発された方法が使用されうる。
判定された談話分析理論は、ユニファイド・リングイステイック・デイスコース・モデル(ULDM)、レトリカル・ストラクチャ・セオリ(RST)、デイスコース・ストラクチャ・セオリ、ストラクチャード・デイスコース・リプリゼンテーション・セオリ(SDRT)あるいは任意公知のまたは後で開発された談話分析理論を含みうる。談話分析理論が選択された後で、コントロールはステップS300へと進む。
ステップS300では、音声発話のトレーニング・コーパスが判定される。音声発話のトレーニング・コーパスは、リングイステイック・データ・コンソ−テイアムのスイッチボード・コーパスのような前もって判定されたトレーニング・コーパスでありうる。種々の他の実施形態では、トレーニング・コーパスは、ユーザー固有のトレーニング・コーパス、異なるユーザーからの音声発話を組み合わせて音声発話の合成トレーニング・コーパスとなされたトレーニング・コーパスでありうる。しかし、本発明の実施では、音声発話の任意の統計的に有意なコーパスが使用されうることが明らかであろう。音声発話のトレーニング・コーパスが判定された後で、コントロールはステップS400へと進む。
音声発話に関連する韻律特徴がステップS400で判定される。韻律特徴は、トレーニング・コーパスに適用される任意公知のまたは後で開発された信号処理技法を用いて判定されうる。しかし、新しい韻律特徴および/または新しい談話機能が判定されると、新しい韻律も動的に判定される。あるいは、韻律特徴はバッチモード等で判定されてもよい。
韻律特徴は、信号振幅の変化、ピッチ範囲の変化、音声発話の初期周波数値、異なる数の音調フレーズを示す音調的境界トーン割り当て、沈黙期間、発話速度、あるいは任意公知のまたは後で開発された韻律特徴を含みうるが、それらに限定されない。
韻律特徴の組み合わせは、種々のレベルの談話構造として、談話機能と関連づけられうることが明らかであろう。したがって、韻律特徴は、単語間の区分境界を示すため、センテンス内およびセンテンス間の従属、パラグラフ・セグメント、ターン・テイキング・セグメント(turn taking segments)あるいは選択された談話分析理論によって識別可能な任意公知のまたは後で開発された談話構造を示すために用いられうる。音声発話に関連した韻律特徴が判定された後で、コントロールはステップS500へと進む。
ステップS500では、音声発話と選択された談話分析理論に基づいて、談話機能が判定される。談話機能とは、タスク、テキストおよび対話レベル談話活動を行うために用いられるセンテンス内現象およびセンテンス間現象を言う。談話機能は、コマンド付与、初期化タスク、識別音声受け手、あるいは談話レベル従属の他の任意公知のまたは後で開発された区分を含みうるが、それらに限定されない。
例えば、本発明による実施形態の1つでは、談話機能を判定するためのトレーニング・コーパスと関連づけられた検証された認識音声発話に、談話分析理論が適用される。音声発話における談話機能が判定だれた後で、プロセスはステップS600へと進む。
ステップS600では、判定された韻律特徴と判定された談話機能とに基づいて、予測談話モデルが判定されうる。予測談話モデルは、機械学習、統計、サポートベクトルマシン、ナイーブベイズ、決定木帰納、あるいは任意公知のまたは後で開発された予測モデル判定方法を用いて判定されうる。種々の他の典型的実施形態では、予測談話モデルは、新しいトレーニング事例に基づいて現在の予測談話モデルを絞り込む増分予測モデルでありうる。予測モデルが判定された後で、コントロールはステップS700へと進み、そこでコントロールは終了する。
図3は本発明による予測談話モデルを判定するための典型的なシステム100である。この予測談話モデルを判定するための典型的なシステム100は、入力/出力回路10、メモリ20、プロセッサ30、韻律特徴判定ルーチンまたは回路40、談話機能判定ルーチンまたは回路50、予測モデル判定ルーチンまたは回路60で構成され、これらはそれぞれ通信回線99によってインターネット対応パソコン300、インターネット対応タブレット・コンピュータ400、および音声発話のトレーニング・コーパス1000−1002を内蔵した情報リポジトリ200に接続されている。
インターネット対応パソコン300またはインターネット対応タブレット・パソコン400のユーザーが、情報リポジトリ200に内蔵された自然言語音声発話のトレーニング事例1000−1002に対する韻律特徴を判定するための要求を開始する。その要求が、通信回線99を通じて、談話機能の予測モデルを判定するためのシステム100に送られる。この談話機能の予測モデルを判定するためのシステム100は、入力/出力回路10を動作させることによって、情報リポジトリ200から自然言語音声発話のトレーニング事例1000を検索する。
プロセッサ20は、メモリ20内のトレーニング事例1000をセーブし、かつ韻律特徴判定ルーチンまたは回路40を動作させる。韻律特徴判定ルーチンまたは回路40は、初期周波数、ピッチ範囲、存続期間、休止、境界トーン、音調フレーズ等のようなトレーニング事例における韻律特徴を判定する。本発明による種々の他の例示的侍史形態では、韻律特徴判定ルーチンまたは回路40は、自動音声認識システム内に組み込まれたデジタル信号プロセッサでありうる。韻律特徴判定ルーチンまたは回路40は、音声発話の韻律特徴を判定し、かつそれらを認識された音声発話内の音調(イントネーション)としてコード化する。
プロセッサ30は、選択された談話分析理論に基づいてトレーニング事例に関連した談話機能を判定するための談話機能判定ルーチンまたは回路50を動作させる。談話機能は、コンテキスト情報、モード表示、あるいは音声発話を区分しかつ/または明確化するのに有用な任意公知のまたは後で開発された談話レベル情報を含みうる。例えば、音声発話の第1の部分に関連した韻律特徴は、その音声発話の第1の部分が現在のアプリケーションで指示された命令と関連する可能性を予測するために用いられる。同様に、音声発話の第2の部分に関連した韻律特徴は、そのトレーニング事例における音声発話の第2の部分がコンテンツまたはデータであることを予測するために用いられうる。したがって、音声発話の第1の部分に関連した韻律的情報は、音声発話がイーメール・システムのアドレス機能に対する命令であると見なされるべきであることを示しうる。同様に、音声発話の第2の部分に関連した韻律的情報は、その音声発話の第2の部分がイーメール・メッセージに関連したコンテンツ部分または受信人情報を含んでいることを示すために用いられうる。
音声発話に対する談話機能が判定された後で、プロセッサ30が、予測モデル判定ルーチンまたは回路60を動作させることによって予測談話機能を判定する。予測談話機能モデル・ルーチンまたは回路60が、韻律特徴を判定された談話機能に関連づける。予測モデル判定ルーチンまたは回路60は、本発明の範囲から逸脱することなしに、機械学習、統計資料、帰納決定木、モデル・ルックアップ、あるいは予測モデルを判定する任意公知のまたは後で開発された方法を用いることができる。判定された予測談話機能モデルがセーブされかつ/または使用される。
図4は本発明に従って注記をつけられた典型的なセンテンス400を示している。この典型的なセンテンスは、談話機能情報でもって時間的に注記をつけられている。
典型的なセンテンス400は、コマンド部分410と、コンテンツ部分420とで構成されている。コマンド部分410は第1および第2のテキスト部分411−412で構成されている。コンテンツ部分420は単一のテキスト部分421で構成されている。
韻律特徴は、音声発話をコマンド部分410とコンテンツ部分420とに区分するために用いられる。しかし、予測談話機能モデルは、談話分析理論によって認識可能な任意のタイプの談話機能を判定するためにも用いられうることが明らかであろう。例えば、本発明による実施形態の1つでは、曖昧な音声発話が先行音声発話に従属しているか、あるいはその先行音声発話と無関係な新しい情報を反映しているかを判定することによって、曖昧な音声発話の認識が改善されうる。予測談話機能モデルは、音声発話の韻律特徴を入力として受け入れ、そして全体の談話内の曖昧な音声発話の起こりうる談話機能を出力する。他の典型的システム(図示せず)は、認識された単語がセンテンス、パラグラフ内に現れる確率をスコアし直す(rescore)ため、および/または談話内のコマンドおよび/またはコンテンツ境界または他のセグメントを示すために、この付加的情報を使用することができる。
図5は、本発明による第1の典型的なセンテンスに関連した典型的な韻律特徴を示している。統計的に有意な数のトレーニング・センテンスに関連した韻律情報が、談話機能の予測モデルを判定するために用いられる。すなわち、本発明による種々の実施形態では、発話で識別される韻律情報に基づいて自然言語発話のセグメントに対する起こりうる談話機能分類を示す予測モデルが判定される。本発明による種々の他の実施形態では、談話機能モデルの予測モデルが、自然言語発話の談話レベル区分を絞り込むために用いられる。
例えば、"Here's a new mail. It's to Mark M-A-R-K Famiglio F-A-M-I-G-L-I-O"という第1の例示的なトレーニング句が、コマンド談話機能"Here's a new mail I's to"とコンテンツ談話機能"Mark M-A-R-K Famiglio F-A-M-I-G-L-I-O"とに区分される。コマンンドおよびコンテンツという用語は単に例示的なものであって、限定的なものではない。本発明の実施では、談話分析の理論によって識別可能でかつ識別可能な韻律特徴と関連づけられた任意の談話機能が使用されうる。例示的なセンテンスが構成談話機能単位に区分された後で、トレーニング・センテンスと関連づけられた音声発話における韻律特徴J1−J3831−833が判定される。種々の実施形態において、1つの談話機能と関連づけられた韻律特徴の組に対する値が結合されて単一の韻律特徴ベクトルを形成する。このプロセスは、音声発話のトレーニング・コーパスで識別される各談話機能に対して反復される。種々の実施形態において、機械学習、統計学等に基づいて予測モデルを判定するために、韻律特徴ベクトルと判定された談話機能が用いられる。
図6は、本発明に従って注釈を付けられた第2の例示的センテンス601を示している。この第2の例示的センテンス601は、コマンド部分610とコンテンツ部分620とで構成されている。コマンド部分610は認識された音声発話611"And the body is"を含んでいる。他の情報が無い場合には、認識された音声発話は、イーメール・メッセージのアドレスおよび/またはコンテンツを示しうる。しかし、付加的な韻律情報に基づいて、予測談話機能モデルが、認識された音声がコマンド談話機能を示す可能性を予測する。したがって、イーメール・メッセージの本文内に後続の情報を記録する要求を示すことを判定するために、付加的なシステム(図示せず)が使用されうる。種々の例示的実施形態において、コマンドであると判定される認識された音声発話が、特定の言語モデルおよび/または認識文法および/または認識精度をさらに改善するために有用な情報を誘発させるために使用されうる。
音声発話631の第2の部分と関連づけられた韻律情報と関連する予測談話機能モデルは、音声発話の第2の部分がコンテンツ情報である可能性を予測するために用いられる。センテンスまたはフレーズは、コマンドおよびコンテンツ部分および/または他の任意のコンテキストの階層および/または談話分析の理論によって認識された談話機能に区分され得る。
図7は、本発明の1つの態様による第2の例示センテンスに関連した例示的な韻律特徴を示している。この例示的な韻律特徴は、韻律特徴J1−J3831−833を含んでいる。上述のように、この韻律特徴情報は、コンテキスト情報を判定するために、単独でまたは他の韻律特徴と組み合わせて使用される。
図8は、本発明の1つの態様に従って韻律特徴情報で注釈を付けられたセンテンスの例示的な視覚化を示している。韻律特徴J1831は、認識された音声発話のコマンド部分810の始めと関連した特徴である。コマンド部分810の終わりは韻律特徴J2832としている。韻律特徴J1−J3831−833は、特定の期間の沈黙、相対的なピッチ変化、あるいは談話機能の予測モデルと関連した他の任意の韻律特徴でありうる。この韻律特徴は、本発明の範囲から逸脱することなしに、コマンド部分810の始めと終わりを判定するために単独でまたは組み合わせで使用されうることが明らかであろう。
コンテンツ部分820の始めは韻律特徴J3833と関連している。この韻律特徴J3833は、初期ピッチの変化あるいはコンテンツ部分820の始めと関連した他の任意の韻律特徴または特徴の組であってもよい。本発明による種々の例示的な実施形態では、韻律特徴と談話特徴との間の関連づけが、特定のユーザーに対して独自化されてもよい。さらに、予測談話機能モデルは、予測モデルを時間的に絞り込む機械学習法に基づくものであってもよい。このようにして、談話機能を韻律的に示すためのユーザー固有の方法が、時間とともにまたは多数のセッションとともに、予測談話機能モデル内に組み込まれうる。本発明によるさらに他の例示的実施形態では、韻律特徴J1、J2およびJ3831−833は単一韻律特徴で構成されてもよく、あるいは韻律特徴の組を示してもよい。談話機能の予測モデルは、認識された音声発話に対する可能な談話機能を予測するための韻律特徴の組のうちの1つまたはそれ以上および/または付加的な情報であってもよい。
図9は本発明による談話機能の予測モデルを判定するための例示的なシステムの流れ構成図である。音声発話が認識され、そして韻律特徴が1つの組の入力として判定される。本発明による種々の例示的な実施形態では、上述のように、音声発話のトレーニング・コーパスで判定された韻律特徴に基づいて、韻律特徴ベクトルが判定される。談話分析の理論に基づいて談話機能を判定するために、音声発話が認識され、検証され、かつ分析される。例えば、ユニファイド・リングイステイック・デイスコース・モデル(Unified Linguistic Discourse Model)が使用される場合には、音声発話のトレーニング・コーパスと関連した検証され認識されたテキストが談話要素に区分される。ユニファイド・リングイステイック・デイスコース・モデルにおける区分化は、座標、従属、およびバイナリイズ・オア・ナリイズ(binaries or naries)で構成される。韻律特徴が、談話構成要素のトレーニング事例ごとに判定される。類似の談話構成要素が集団化され、かつ談話機能の予測モデルに対する韻律特徴を選択するために、機械学習、統計学または他の技法が適用される。そして、談話機能の予測モデルがメモリに保存される。談話機能の予測モデルは、その談話機能を判定するために、単独でまたは新しく認識された音声発話と組み合わせて使用できる。
本発明による種々の他の例示的実施形態では、1つの組のエヌ‐ベスト(n-best)談話機能および認識された音声発話のそれぞれに対する関連した組のエヌ‐ベスト(n-best)区分を判定するために、1つの組のエヌ‐ベスト(n-best)韻律特徴ベクトルを使用できる。
例えば、トレーニング・コーパスにおける談話機能と関連する韻律機能が判定される。談話機能は談話分析の理論に基づいて判定されうる。次に、談話機能の予測モデルが判定される。韻律特徴は、音声発話に関連されやすい談話機能の予測を出力する談話機能の予測モデルによって受け入れられる。ワードプロセッサ、イーメールエデイタ等のようなある種のアプリケーションでは、談話機能の使用が、アプリケーションのコマンド・モードおよび/またはコンテンツまたはインプット・モードを判別することに関連される。しかし、種々の他の例示的実施形態では、従属、会話のターン・テーキング(turn-taking)またはフッテイング(footing)あるいは判定された談話分析理論によって認識された任意他の公知のまたは後で開発された談話機能を予測するために、本発明のシステムおよび方法を使用できる。
図10は、本発明による談話機能の予測モデルを判定するための例示的システムのブロック図である。談話機能に対する予測モデルを判定するためのこのシステムは、テキスト1220およびスピーチ1210からの入力1200と、入力スピーチ情報を認識する自動音声認識システム1300を含んでいる。談話パーサー1400は、入力テキスト1220および入力スピーチ1210に基づいて、意味的に区分されかつ韻律的に注釈を付けられたテキスト1500生成する。意味的に区分されかつ韻律的に注釈を付けられたテキスト1500は、談話の予測モデルを判定するために用いられる。更新された自動音声認識モデル1610および/または談話機能レベルの韻律特徴を関連づけるテキスト・ツー・スピーチモデル1620を生成するために、談話の予測モデルが用いられる。
図11は、本発明による音声発話韻律情報を格納するための例示的データ構造である。韻律情報1070を格納するための例示的データ構造は、識別子部分1010、談話機能部分1020、初期周波数部分1030、ピッチ変化部分1040、先行沈黙部分1050および境界トーン部分1060で構成されている。韻律情報1070を格納するための例示のデータ構造は、トレーニング・コーパスにおける各トレーニング事例に対する値を格納する。
音声発話韻律情報1070を格納するための例示的データ構造の最初の行は、識別子部分1010に「1」という値を含んでいる。この識別子部分は、音声発話韻律情報を格納するための例示的データ構造に含まれた情報内ヘのインデックスとして用いられる。
音声発話韻律情報1070を格納するための例示的データ構造は、談話機能部分1020に値「従属」(SUBORDINATION)を含んでいる。この「従属」値は、トレーニング音声発話が選択された談話分析理論によって従属型の談話機能として分類されたことを示している。典型的には、この分類は、多数の自動装置および/または検証者によって検証される。「従属」(SUBORDINATION)および「同格」(COORDINATION)という用語は単に例示にすぎないものであり、種々の他の例示的実施形態では、本発明の範囲から逸脱することなしに異なる命名法を使用してもよいことが明らかであろう。
音声発話韻律情報1070を格納するための例示的データ構造は、初期周波数部分1030に「175」という値を含んでいる。この「175」という値は、トレーニング事例音声発話に対する初期周波数部分を示している。
音声発話韻律情報1070を格納するための例示的データ構造は、ピッチ変化部分1040に値「0.15」を含んでいる。この値「0.15」は、従属談話機能と関連したピッチの変化を示している。ピッチおよび/または他の韻律的変化は、1つまたはそれ以上の談話機能および/または談話機能の部分のスライドウインドウ内の変化に基づきうることが明らかであろう。
音声発話韻律情報1070を格納するための例示的データ構造は、境界トーン部分1050に値「0.10」を含んでいる。この値「0.10」は、トレーニング事例音声発話に先行する沈黙の期間を示す。
音声発話韻律情報1070を格納するための例示的データ構造は、境界トーン部分1060に値「80」を含んでいる。この値「80」は、トレーニング事例音声発話に関連した境界トーンを示す。
音声発話韻律情報1070を格納するための例示的データ構造第2の列は、識別子部分1010に値「2」を含んでいる。識別子部分は、音声発話韻律情報を格納するための例示的データ構造に含まれた情報内ヘのインデックスとして用いられる。
音声発話韻律情報1070を格納するための例示的データ構造は、談話機能部分1020に値「従属」を含んでいる。この値「従属」、音声発話が、選択された談話分析理論に基づいて、従属型の談話機能として分類されることを示す。上述したように、この分類は検証者および/または多数の分類システムによって任意に検証されうる。
音声発話韻律情報1070を格納するための例示的データ構造は、初期周波数部分1030に値「173」を含んでいる。この値「173」は、トレーニング音声発話に対する初期周波数情報を示す。音声発話韻律情報1070を格納するための例示的データ構造は、ピッチ変化部分1040に値「0.12」を含んでいる。この値「0.12」は、トレーニング事例音声発話に関連したピッチ変化を示す。
先行沈黙部分1050は値「0.11」を含んでいる。この値「0.11」は、トレーニング事例音声発話に先行する沈黙の期間を示す。境界トーン部分1060は、値「80」を含んでいる。この値は、トレーニング事例音声発話に関連した境界トーンを示す。
音声発話韻律情報1070を格納するための例示的データ構造の第3の行は、識別子部分1010に「3」を含んでいる。識別子1010は、音声発話韻律情報1070を格納するための例示的データ構造に含まれた情報内ヘのインデックスとして用いられる。
音声発話韻律情報1070を格納するための例示的データ構造は、談話機能部分1020に値「従属」を含んでいる。この「従属」値は、音声発話が選択された談話分析理論によって従属型の談話機能として分類されたことを示している。
音声発話韻律情報1070を格納するための例示的データ構造は、初期周波数部分1030に、トレーニング音声発話に関連した初期周波数情報を示す値「174」を含んでいる。
音声発話韻律情報1070を格納するための例示的データ構造のピッチ変化部分1040は、値「0.13」を含んでいる。これは、音声発話に対するピッチの変化を示す。
音声発話韻律情報1070を格納するための例示的データ構造は、先行沈黙部分1050に値「0.10」を含んでいる。この値「0.10」、音声発話に先行する沈黙の期間を示す。
境界トーン部分1060は値「81」を含んでいる。これはトレーニング事例音声発話に関連した境界トーンを示す。
音声発話韻律情報1070を格納するための例示的データ構造の第Nの行は、識別子部分1010に「N」の値を含んでいる。識別子部分は、音声発話韻律情報を格納するための例示的データ構造に含まれた情報内ヘのインデックスとして用いられる。
音声発話韻律情報1070を格納するための例示的データ構造の談話機能部分1020は、音声発話が、選択された談話分析理論で「同格」(COORDINATION)型の談話機能として分類されたことを示す値「同格」を含んでいる。
初期周波数部分1030は、値「150」を含んでいる。この値「150」は、トレーニング音声発話に対する初期周波数情報を示す。ピッチ変化部分1040は、トレーニング事例音声発話に対する値「0.10」を含んでいる。この値は、「同格」型の談話機能を判定または識別するのに有用でありうるピッチ変化値を示す。
先行沈黙部分1050は値「0.15」を含んでいる。この値「0.15」は、音声発話に先行する沈黙の期間を示す。境界トーン部分1060は、値「95」を含んでいる。この値「95」は音声発話に関連した境界トーンを示す。
図12は本発明による例示的談話機能韻律情報を格納するためのデータ構造である。この談話機能韻律情報1170を格納するためのデータ構造は、識別子部分1110、談話機能部分1120、初期周波数部分1130、ピンチ変化部分1140、先行沈黙部分1150、境界トーン部分で構成されている。この談話機能韻律情報1170を格納するためのデータ構造は、トレーニング・コーパスにおける判定された談話機能のそれぞれに対する値を格納する。
例示的談話機能韻律情報1170を格納するためのデータ構造の第1の行は、識別子部分1110に値「1」を含んでいる。この識別子部分は、例示的な談話機能韻律情報を格納するためのデータ構造に含まれた情報内へのインデックスとして用いられる。
例示的談話機能韻律情報1170を格納するための例示的データ構造は、談話機能部分1120に「従属」(SUBORDINATION)の値を含んでいる。本発明による種々の例示的実施形態では、談話機能に関連した韻律情報が、初期周波数部分1130、ピッチ変化部分1140、先行沈黙部分1150および境界トーン部分1160に格納される。本発明による種々の他の例示的実施形態では、例示的談話機能に関連した韻律情報が韻律特徴ベクトルに格納される。
例示的談話機能韻律情報1170を格納するためのデータ構造の各行は、1つのタイプの談話機能の見本を示している。すなわち、トレーニング事例が、判定された談話機能に基づいて集団化される。談話機能に対する予測モデルを判定するために、機械学習法、統計学または韻律情報に基づいて1つのモデルを判定する任意の他の方法が用いられる。談話機能に対する予測モデルは、保存されかつ/または新しい音声発話内に含まれた談話機能を判定するために用いられる。
例示的談話機能韻律情報1170を格納するためのデータ構造は、初期周波数部分1130に値「175」を含んでいる。この値は、「従属」型の談話機能に対する平均的初期周波数情報を示す。
例示的談話機能韻律情報1170を格納するためのデータ構造は、ピッチ変化部分1140に値「0.15」を含んでいる。この値は、「従属」型の例示的談話機能に関連したピッチの平均的変化を示す。
例示的談話機能韻律情報1170を格納するためのデータ構造は、先行沈黙部分1150に値「0.10」を含んでいる。この値「0.10」は、「従属」型の例示的談話機能に先行した沈黙の平均的期間を示す。
例示的談話機能韻律情報1170を格納するためのデータ構造は、境界トーン部分1160に値「80」を含んでいる。この値は、「従属」型の談話機能に関連した境界トーン周波数の平均的値を示す。
例示的談話機能韻律情報1170を格納するためのデータ構造第2の行は、識別子部分1110に値「2」を含んでいる。談話機能部分1120は、値「同格」(COORDINATION)を含んでいる。これは、韻律特徴が「同格」談話機能と関連していることを示す。初期周波数部分1130は値「150」を含んでいる。これは、「同格」談話機能と典型的に関連した初期周波数を示す。ピッチ変化部分1140は値「0.10」を含んでいる。これは、「同格」型の談話機能と典型的に関連したピッチ変化を示す。先行沈黙部分1150は値「0.14」を含んでいる。これは、「同格」型の談話機能が「0.14」単位の先行沈黙と典型的に関連していることを示す。境界トーン部分1160は、「同格」型の談話機能と関連した典型的な境界トーンを示す値100を含んでいる。「従属」談話機能と「同格」談話機能のカテゴリー化は例示にすぎないものであり、本発明の実施では、選択された談話分析理論によって認識可能な任意公知のまたは後で開発された談話機能を使用できることが明らかであろう。
図3に記述された談話機能モデルを予測するためのシステム100の回路10−60のそれぞれは、適当にプログラム化された汎用コンピュータの部分として実施されうる。あるいは、上述した談話機能の予測モデル100を判定するためのシステムの10−60は、ASIC内の、あるいはFPGA、PDL、PLAまたはPALを用いた、あるいは離散的論理素子または離散的回路素子を用いた物理的に別個のハードウエア回路としれ実施されうる。上述した談話機能の予測モデルを判定するためのシステム100の回路10−60のそれぞれが取る特定の形態は、設計的選択事項であり、当業者には自明かつ予測可能であろう。
さらに、談話機能の予測モデルを判定するためのシステム100および/または上述した種々の回路のそれぞれは、プログラムされた汎用コンピュータ、専用コンピュータ、マイクロプロセッサ等で実行するソフトウエア・ルーチン、マネジャーまたはオブジェクトとしてそれぞれ実装できる。この場合には、談話機能の予測モデルを判定するためのシステム100およびまたは上述した種々の回路のそれぞれは、通信回線に組み込まれた1つまたはそれ以上のルーチンとして、あるいはサーバー上に存在するリソース等としてそれぞれ実装できる。談話機能の予測モデルを判定するためのシステム100および上述んした種々の回路は、談話機能の予測モデルを判定するためのシステム100をウエブ・サーバーまたはクライアント・デバイスのハードウエアまたはソフトウエア・システムのようなソフトウエアおよび/またはハードウエア・システムに物理的に組み込むことによっても実装できる。
図3に示されているように、メモリ20は、可変の、揮発性のまたは不揮発性のメモリまたは非可変の即ち固定のメモリの任意適当な組み合わせを用いて実装できる。可変メモリは、揮発性であるか不揮発性であるかに関係なく、スタテイックまたはダイナミックRAM、フロッピー(登録商標)デイスクおよびデイスクドライブ、書き込み可能なまたは書き換え可能な光デイスクおよびデイスクドライブ、ハードドライブ、フラッシュメモリ等のうちの任意の1つまたはそれ以上を用いて実装できる。同様に、非可変即ち固定メモリは、ROM、PROM、EPROM、EEPROM、CD−ROMまたはDVD−ROMのような光ROMデイスク、デイスクドライブ等のうちの任意の1つまたはそれ以上を用いて実装できる。
図1および3に示された通信回線99はそれぞれ、ダイレクトケーブル接続、ワイドエリアネットワークまたはローカルエリアネットワークによる接続、イントラネットによる接続、インターネットによる接続、あるいは他の任意の分散処理ネットワークまたはシステムによる接続を含む、談話機能の予測モデルを判定するためのシステム100に通信デバイスを接続するための任意公知のまたは後で開発されたデバイスまたはシステムでありうる。一般に、通信回線99は、デバイスを接続しかつ通信を容易にするために使用可能な任意公知のまたは後で開発された接続システムまたは構造でありうる。
さらに、通信回線99はネットワークに対する有線または無線のリンクでありうることを理解すべきである。ネットワークは、ローカルエリアネットワーク、イントラネット、インターネット、または任意の他の分散処理および記憶ネットワークでありうる。
本発明を上述した例示的な実施形態に関連して説明したが、多くの代替、修正および変更が当業者には明らかとなるであろうことが明白である。したがって、上述した本発明の例示的実施形態は、例示を意図したものであり、限定的なものではない。本発明の精神および範囲から逸脱することなしに、種々の変更がなされうる。
本発明による談話機能の予測モデルを判定するための例示的システムの概略図である。 本発明による談話機能の予測モデルを判定するための例示的方法である。 本発明による予測談話モデルを判定するための例示的システムである。 本発明に従って注釈を付けられた例示的なセンテンスを示している。 本発明による第1の例示的トレーニング・センテンスに関連された例示的韻律特徴情報を示している。 本発明に従って注釈を付けられた第2の例示的なセンテンスを示している。 本発明による第2の例示的なセンテンスと関連された例示的韻律特徴情報を示している。 本発明に従って韻律特徴で注釈を付けられたセンテンスの例示的視覚化である。 本発明による談話機能の予測モデルを判定するための例示的システムのフローチャートである。 本発明による談話機能の予測モデルを判定するための例示的システムのフローチャートである。 本発明による音声発話韻律情報を格納するための例示的データ構造である。 本発明による例示的談話機能のそれぞれに対する韻律情報を格納するためのデータ構造である。
符号の説明
99 通信回線
100 談話機能の予測モデルを判定するためのシステム
200 情報リポジトリ
300 インターネット対応パソコン
400 インターネット対応タブレット・コンピュータ
10 入力/出力回路
20 メモリ
30 プロセッサ
40 韻律特徴判定ルーチンまたは回路
50 談話機能判定ルーチンまたは回路
60 予測モデル判定ルーチンまたは回路

Claims (21)

  1. 音声発話のコーパスを判定するステップと、
    少なくとも1つの音声発話に関連した少なくとも1つの談話機能を判定するステップと、
    前記少なくとも1つの談話機能に関連した少なくとも1つの韻律特徴を判定するステップと、
    前記韻律特徴および前記談話機能に基づいて談話機能の少なくとも1つの予測モデルを判定するステップを含む、談話機能に対する予測モデルを判定する方法。
  2. 前記談話機能が談話分析の理論に基づいて判定される、請求項1に記載の方法。
  3. 前記談話分析の理論が、言語的談話モデル(Linguistic Discourse Model)、統一言語的談話モデル(Unified Linguistic Discourse Model)、修辞構造理論(Rhetorical Structure Theory)、談話構造理論(Discourse Structure Theory)、構造談話表示理論(Structured Discourse Representation Theory)のうちの少なくとも1つである請求項2に記載の方法。
  4. 前記予測モデルが機械学習、ルールのうちの少なくとも1つに基づいて判定される、請求項1に記載の方法。
  5. 機械学習に基づく予測モデルが、統計学、決定木、ナイーブベイズのうちの少なくとも1つに基づいて判定される、請求項4に記載の方法。
  6. 韻律特徴が、関連した談話機能の前、中、後の場所の少なくとも1つで生ずる、請求項4に記載の方法。
  7. 前記韻律特徴が韻律特徴ベクトル内でコード化される、請求項1に記載の方法。
  8. 前記韻律特徴ベクトルが多モード特徴ベクトルである、請求項7に記載の方法。
  9. 前記談話機能がセンテンス内談話機能である、請求項1に記載の方法。
  10. 前記談話機能がセンテンス間談話機能である、請求項1に記載の方法。
  11. 少なくとも1つの音声発話のコーパスを検索するための入力/出力回路と、
    前記少なくとも1つの音声発話に関連した韻律特徴を判定するプロセッサであって、前記少なくとも1つの音声発話のコーパスに関連した少なくとも1つの談話機能を判定し、前記少なくとも1つの談話機能に関連した少なくとも1つの韻律特徴を判定し、前記韻律特徴および前記談話機能に基づいて談話機能に対する予測モデルを判定するプロセッサと、
    を備える、談話機能の予測モデルを判定するシステム。
  12. 前記談話機能が談話分析の理論に基づいて判定される、請求項11に記載のシステム。
  13. 前記談話分析の理論が、言語的談話モデル(Linguistic Discourse Model)、統一言語的談話モデル(Unified Linguistic Discourse Model)、修辞構造理論(Rhetorical Structure Theory)、談話構造理論(Discourse Structure Theory)、構造談話表示理論(Structured Discourse Representation Theory)のうちの少なくとも1つである請求項12に記載のシステム。
  14. 前記予測モデルが機械学習、ルールのうちの少なくとも1つに基づいて判定される、請求項11に記載のシステム。
  15. 機械学習に基づく予測モデルが、統計学、決定木、ナイーブベイズのうちの少なくとも1つに基づいて判定される、請求項14に記載のシステム。
  16. 韻律特徴が、関連した談話機能の前、中、後の場所の少なくとも1つで生ずる、請求項11に記載のシステム。
  17. 前記韻律特徴が韻律特徴ベクトル内でコード化される、請求項11に記載のシステム。
  18. 前記韻律特徴ベクトルが多モード特徴ベクトルである、請求項17に記載のシステム。
  19. 前記談話機能がセンテンス内談話機能である、請求項11に記載のシステム。
  20. 前記談話機能がセンテンス間談話機能である、請求項11に記載のシステム。
  21. 音声発語のコーパスを判定する命令と、
    少なくとも1つの音声発話に関連した少なくとも1つの談話機能を判定する命令と、
    少なくとも1つの談話機能に関連した少なくとも1つの韻律特徴を判定する命令と、
    前記韻律特徴および前記談話機能に基づいて談話機能の少なくとも1つの予測モデルを判定する命令と、
    を含む、談話機能に対する予測モデルを判定するようにコンピュータをプログラムするコンピュータ・プログラム。
JP2005039648A 2004-02-18 2005-02-16 談話機能に対する予測モデルを判定する方法およびシステム Pending JP2005234572A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/781,443 US7542903B2 (en) 2004-02-18 2004-02-18 Systems and methods for determining predictive models of discourse functions

Publications (2)

Publication Number Publication Date
JP2005234572A true JP2005234572A (ja) 2005-09-02
JP2005234572A5 JP2005234572A5 (ja) 2008-04-03

Family

ID=34838743

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005039648A Pending JP2005234572A (ja) 2004-02-18 2005-02-16 談話機能に対する予測モデルを判定する方法およびシステム

Country Status (2)

Country Link
US (3) US7542903B2 (ja)
JP (1) JP2005234572A (ja)

Families Citing this family (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
WO2005064592A1 (ja) * 2003-12-26 2005-07-14 Kabushikikaisha Kenwood 機器制御装置、音声認識装置、エージェント装置、車載機器制御装置、ナビゲーション装置、オーディオ装置、機器制御方法、音声認識方法、エージェント処理方法、車載機器制御方法、ナビゲーション方法、オーディオ装置制御方法及びプログラム
US7542903B2 (en) * 2004-02-18 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for determining predictive models of discourse functions
US20050187772A1 (en) * 2004-02-25 2005-08-25 Fuji Xerox Co., Ltd. Systems and methods for synthesizing speech using discourse function level prosodic features
KR100590553B1 (ko) * 2004-05-21 2006-06-19 삼성전자주식회사 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템
US8340971B1 (en) 2005-01-05 2012-12-25 At&T Intellectual Property Ii, L.P. System and method of dialog trajectory analysis
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US8977636B2 (en) 2005-08-19 2015-03-10 International Business Machines Corporation Synthesizing aggregate data of disparate data types into data of a uniform data type
US8924212B1 (en) * 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
WO2007027989A2 (en) 2005-08-31 2007-03-08 Voicebox Technologies, Inc. Dynamic speech sharpening
US8447592B2 (en) * 2005-09-13 2013-05-21 Nuance Communications, Inc. Methods and apparatus for formant-based voice systems
US8694319B2 (en) * 2005-11-03 2014-04-08 International Business Machines Corporation Dynamic prosody adjustment for voice-rendering synthesized data
US20070129943A1 (en) * 2005-12-06 2007-06-07 Microsoft Corporation Speech recognition using adaptation and prior knowledge
US9135339B2 (en) * 2006-02-13 2015-09-15 International Business Machines Corporation Invoking an audio hyperlink
US8032375B2 (en) * 2006-03-17 2011-10-04 Microsoft Corporation Using generic predictive models for slot values in language modeling
JP4353202B2 (ja) * 2006-05-25 2009-10-28 ソニー株式会社 韻律識別装置及び方法、並びに音声認識装置及び方法
US8121890B2 (en) * 2006-06-09 2012-02-21 International Business Machines Corporation Method and system for automated service climate measurement based on social signals
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US9318100B2 (en) 2007-01-03 2016-04-19 International Business Machines Corporation Supplementing audio recorded in a media file
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8126860B2 (en) * 2007-07-17 2012-02-28 Ricoh Company, Limited Method and apparatus for processing data
US8712758B2 (en) 2007-08-31 2014-04-29 Microsoft Corporation Coreference resolution in an ambiguity-sensitive natural language processing system
US8229970B2 (en) * 2007-08-31 2012-07-24 Microsoft Corporation Efficient storage and retrieval of posting lists
US8229730B2 (en) * 2007-08-31 2012-07-24 Microsoft Corporation Indexing role hierarchies for words in a search index
US8346756B2 (en) * 2007-08-31 2013-01-01 Microsoft Corporation Calculating valence of expressions within documents for searching a document index
US20090070322A1 (en) * 2007-08-31 2009-03-12 Powerset, Inc. Browsing knowledge on the basis of semantic relations
US8316036B2 (en) 2007-08-31 2012-11-20 Microsoft Corporation Checkpointing iterators during search
US8280721B2 (en) * 2007-08-31 2012-10-02 Microsoft Corporation Efficiently representing word sense probabilities
US8868562B2 (en) * 2007-08-31 2014-10-21 Microsoft Corporation Identification of semantic relationships within reported speech
US8209321B2 (en) * 2007-08-31 2012-06-26 Microsoft Corporation Emphasizing search results according to conceptual meaning
US8463593B2 (en) * 2007-08-31 2013-06-11 Microsoft Corporation Natural language hypernym weighting for word sense disambiguation
US7996214B2 (en) * 2007-11-01 2011-08-09 At&T Intellectual Property I, L.P. System and method of exploiting prosodic features for dialog act tagging in a discriminative modeling framework
US8589366B1 (en) * 2007-11-01 2013-11-19 Google Inc. Data extraction using templates
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8061142B2 (en) * 2008-04-11 2011-11-22 General Electric Company Mixer for a combustor
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US10127231B2 (en) 2008-07-22 2018-11-13 At&T Intellectual Property I, L.P. System and method for rich media annotation
US8374873B2 (en) * 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
JP5499038B2 (ja) 2008-09-18 2014-05-21 コーニンクレッカ フィリップス エヌ ヴェ システム制御方法及び信号処理システム
US9348816B2 (en) * 2008-10-14 2016-05-24 Honda Motor Co., Ltd. Dialog coherence using semantic features
US9129601B2 (en) * 2008-11-26 2015-09-08 At&T Intellectual Property I, L.P. System and method for dialog modeling
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8484225B1 (en) * 2009-07-22 2013-07-09 Google Inc. Predicting object identity using an ensemble of predictors
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
CN102237081B (zh) * 2010-04-30 2013-04-24 国际商业机器公司 语音韵律评估方法与系统
WO2012110690A1 (en) * 2011-02-15 2012-08-23 Nokia Corporation Method apparatus and computer program product for prosodic tagging
TWI441163B (zh) * 2011-05-10 2014-06-11 Univ Nat Chiao Tung 中文語音辨識裝置及其辨識方法
US9401138B2 (en) * 2011-05-25 2016-07-26 Nec Corporation Segment information generation device, speech synthesis device, speech synthesis method, and speech synthesis program
US8959082B2 (en) 2011-10-31 2015-02-17 Elwha Llc Context-sensitive query enrichment
US10008206B2 (en) * 2011-12-23 2018-06-26 National Ict Australia Limited Verifying a user
US10528913B2 (en) 2011-12-30 2020-01-07 Elwha Llc Evidence-based healthcare information management protocols
US10340034B2 (en) 2011-12-30 2019-07-02 Elwha Llc Evidence-based healthcare information management protocols
US20130173298A1 (en) 2011-12-30 2013-07-04 Elwha LLC, a limited liability company of State of Delaware Evidence-based healthcare information management protocols
US10552581B2 (en) 2011-12-30 2020-02-04 Elwha Llc Evidence-based healthcare information management protocols
US10475142B2 (en) 2011-12-30 2019-11-12 Elwha Llc Evidence-based healthcare information management protocols
US10559380B2 (en) 2011-12-30 2020-02-11 Elwha Llc Evidence-based healthcare information management protocols
US10679309B2 (en) 2011-12-30 2020-06-09 Elwha Llc Evidence-based healthcare information management protocols
US20130325482A1 (en) * 2012-05-29 2013-12-05 GM Global Technology Operations LLC Estimating congnitive-load in human-machine interaction
US9424233B2 (en) 2012-07-20 2016-08-23 Veveo, Inc. Method of and system for inferring user intent in search input in a conversational interaction system
US9465833B2 (en) 2012-07-31 2016-10-11 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
US9798799B2 (en) * 2012-11-15 2017-10-24 Sri International Vehicle personal assistant that interprets spoken natural language input based upon vehicle context
RU2530268C2 (ru) * 2012-11-28 2014-10-10 Общество с ограниченной ответственностью "Спиктуит" Способ обучения информационной диалоговой системы пользователем
US9761247B2 (en) * 2013-01-31 2017-09-12 Microsoft Technology Licensing, Llc Prosodic and lexical addressee detection
US10121493B2 (en) 2013-05-07 2018-11-06 Veveo, Inc. Method of and system for real time feedback in an incremental speech input interface
US10186262B2 (en) * 2013-07-31 2019-01-22 Microsoft Technology Licensing, Llc System with multiple simultaneous speech recognizers
CN107003996A (zh) 2014-09-16 2017-08-01 声钰科技 语音商务
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
CN107003999B (zh) 2014-10-15 2020-08-21 声钰科技 对用户的在先自然语言输入的后续响应的系统和方法
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US9852136B2 (en) 2014-12-23 2017-12-26 Rovi Guides, Inc. Systems and methods for determining whether a negation statement applies to a current or past query
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
TWI562000B (en) * 2015-12-09 2016-12-11 Ind Tech Res Inst Internet question answering system and method, and computer readable recording media
US11210324B2 (en) * 2016-06-03 2021-12-28 Microsoft Technology Licensing, Llc Relation extraction across sentence boundaries
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
JP6461058B2 (ja) * 2016-09-06 2019-01-30 国立大学法人京都大学 音声対話装置および音声対話装置を用いた自動対話方法
US10373515B2 (en) 2017-01-04 2019-08-06 International Business Machines Corporation System and method for cognitive intervention on human interactions
US10235990B2 (en) 2017-01-04 2019-03-19 International Business Machines Corporation System and method for cognitive intervention on human interactions
US10318639B2 (en) 2017-02-03 2019-06-11 International Business Machines Corporation Intelligent action recommendation
CN108717413B (zh) * 2018-03-26 2021-10-08 浙江大学 一种基于假设性半监督学习的开放领域问答方法
JP6969491B2 (ja) * 2018-05-11 2021-11-24 トヨタ自動車株式会社 音声対話システム、音声対話方法及びプログラム
JP7063779B2 (ja) * 2018-08-31 2022-05-09 国立大学法人京都大学 音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法
US11140110B2 (en) 2018-10-26 2021-10-05 International Business Machines Corporation Adaptive dialog strategy for multi turn conversation systems using interaction sequences
DE102018133694B4 (de) * 2018-12-28 2023-09-07 Volkswagen Aktiengesellschaft Verfahren zur Verbesserung der Spracherkennung einer Benutzerschnittstelle
US11256868B2 (en) 2019-06-03 2022-02-22 Microsoft Technology Licensing, Llc Architecture for resolving ambiguous user utterance
CN110400576B (zh) * 2019-07-29 2021-10-15 北京声智科技有限公司 语音请求的处理方法及装置
TWI721516B (zh) * 2019-07-31 2021-03-11 國立交通大學 用以產生局部倒語速之估計値之方法與據以產生局部倒語速之預測値之裝置與方法
US11928430B2 (en) * 2019-09-12 2024-03-12 Oracle International Corporation Detecting unrelated utterances in a chatbot system
CN110782871B (zh) * 2019-10-30 2020-10-30 百度在线网络技术(北京)有限公司 一种韵律停顿预测方法、装置以及电子设备
US11361754B2 (en) * 2020-01-22 2022-06-14 Conduent Business Services, Llc Method and system for speech effectiveness evaluation and enhancement
CN113688685B (zh) * 2021-07-26 2023-09-22 天津大学 基于交互场景下的手语识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08106298A (ja) * 1994-08-09 1996-04-23 Toshiba Corp 対話処理装置及び対話処理方法
JP2000200273A (ja) * 1998-11-04 2000-07-18 Atr Interpreting Telecommunications Res Lab 発話意図認識装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
US5751907A (en) 1995-08-16 1998-05-12 Lucent Technologies Inc. Speech synthesizer having an acoustic element database
US5790978A (en) 1995-09-15 1998-08-04 Lucent Technologies, Inc. System and method for determining pitch contours
US20040049391A1 (en) * 2002-09-09 2004-03-11 Fuji Xerox Co., Ltd. Systems and methods for dynamic reading fluency proficiency assessment
US7610190B2 (en) 2003-10-15 2009-10-27 Fuji Xerox Co., Ltd. Systems and methods for hybrid text summarization
US7542971B2 (en) 2004-02-02 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for collaborative note-taking
US7542903B2 (en) 2004-02-18 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for determining predictive models of discourse functions
US20050187772A1 (en) 2004-02-25 2005-08-25 Fuji Xerox Co., Ltd. Systems and methods for synthesizing speech using discourse function level prosodic features

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08106298A (ja) * 1994-08-09 1996-04-23 Toshiba Corp 対話処理装置及び対話処理方法
JP2000200273A (ja) * 1998-11-04 2000-07-18 Atr Interpreting Telecommunications Res Lab 発話意図認識装置

Also Published As

Publication number Publication date
US7415414B2 (en) 2008-08-19
US7542903B2 (en) 2009-06-02
US20050182625A1 (en) 2005-08-18
US7283958B2 (en) 2007-10-16
US20050182619A1 (en) 2005-08-18
US20050182618A1 (en) 2005-08-18

Similar Documents

Publication Publication Date Title
JP2005234572A (ja) 談話機能に対する予測モデルを判定する方法およびシステム
JP4846336B2 (ja) 会話制御装置
JP4849663B2 (ja) 会話制御装置
US10741170B2 (en) Speech recognition method and apparatus
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
JP4888996B2 (ja) 会話制御装置
JP4849662B2 (ja) 会話制御装置
KR102390940B1 (ko) 음성 인식을 위한 컨텍스트 바이어싱
US6754626B2 (en) Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US10902846B2 (en) Spoken language understanding apparatus and spoken language understanding method using the same
JP2007114621A (ja) 会話制御装置
CN105336322A (zh) 多音字模型训练方法、语音合成方法及装置
JP2001005488A (ja) 音声対話システム
CN104299623A (zh) 语音应用中用于自动确认和消歧模块的方法和系统
WO2010100853A1 (ja) 言語モデル適応装置、音声認識装置、言語モデル適応方法、及びコンピュータ読み取り可能な記録媒体
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
CN115116428B (zh) 韵律边界标注方法、装置、设备、介质及程序产品
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP4269625B2 (ja) 音声認識辞書作成方法及びその装置と音声認識装置
JP4475628B2 (ja) 会話制御装置、会話制御方法並びにこれらのプログラム
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
US11804225B1 (en) Dialog management system
JP2009156941A (ja) 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム
JP3369121B2 (ja) 音声認識方法および音声認識装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080214

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110419

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111004