JP2005234572A

JP2005234572A - 談話機能に対する予測モデルを判定する方法およびシステム

Info

Publication number: JP2005234572A
Application number: JP2005039648A
Authority: JP
Inventors: Misty L Azara; エル．アザラミスティ; Pooranii Ribia; ポーラニーリビア; Giovanni L Thione; エル．シオンジョバンニ; Henck Van Den Berg Martin; ヘンクヴァンデンバーグマーティン
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2004-02-18
Filing date: 2005-02-16
Publication date: 2005-09-02
Also published as: US7415414B2; US7542903B2; US20050182625A1; US7283958B2; US20050182619A1; US20050182618A1

Abstract

【課題】
例えば自動音声認識システムにおいて、談話機能の評価モデルを評価する方法およびシステムを提供する。
【解決手段】
音声発話のコーパスを判定し、少なくとも１つの音声発話に関連した少なくとも１つの談話機能を判定する。さらに、前記少なくとも１つの談話機能に関連した少なくとも１つの韻律特徴を判定して、前記韻律特徴および前記談話機能に基づいて談話機能の少なくとも１つの予測モデルを判定する。
【選択図】図２

Description

本発明は、談話機能に対する予測モデルを判定する方法およびシステム、ならびに談話機能に対する予測モデルを判定するようにコンピュータをプログラムするコンピュータ・プログラムに関する。

従来の自動音声認識システムは、入来音声信号情報を音声信号情報のテンプレートと比較する。すなわち、これらの従来のシステムは、自然言語音声の信号情報を音素、語および句ベース信号情報テンプレートと整合させる。ある従来の自動音声認識システムは、共起関係（co-occurrence）、格子リスコアリング（lattice rescoring）等のような確率モデルに基づいて、この整合処理を抑制する。入力音声情報の特異変化は、信号情報テンプレートに関連した情報の絞込みまたは独自化によって処理される。

これらの従来の自動音声認識システムは通常、デイクテーション・モード（dictation mode）またはコマンド・モード（command mode）で動作する。デイクテーション・モードでは、入力信号情報が、候補認識テキストに関連した信号情報テンプレートと整合される。その場合、認識テキストは基本アプリケーションへの入力として機能する。例えば、認識テキストは、キーボード入力に代えてまたはそれに加えて、エデイタ、ワードプロセッサ、イーメールエデイタ等のようなアプリケーションに入れ込まれうる。デイクテーション・モードにおける自然言語情報は任意の主題に関係しうるので、これらの従来の自然言語処理システムは、音声情報に含まれた分野についての情報を通常は利用しない。
ブラックエイ；テーラー、ピー：シーエイチエイテイーアール：ジェネリックスピーチシンセシスシステムイン・プロシーデイングス・オブ・コリング７４、II 第８３−９８６頁、京都、１９９４（Black A.; Taylor, P.: CHATR: a generic speech synthesis system" in Proceedings of COLING74, II p.83-986, Kyoto, 1994）ホーラー、エス．フォッサム、テイー。："ザアソシエイションビトイーンサブジェクトマターアンドデイスコースセグメンテーション"、インザプロシーデイングスオブザフロリダエイエルリサーチシンポジウム、キーウエスト、フロリダ、２００１年５月（Haller, S. Fossum, T.:"The Association Between Subject Matter and Discourse Segmentation", In The Proceedings of the Florida Al Research Symposium, Key West, Fl. May 2001）ロング、エス．；クーパー、アール．；アボウド、ジー．；アトケソン、シー．、"ラピッドプロトタイピングオブモバイルコンテキスト‐アウエアアプリケーションズ：ザサイバーガイドケーススタデイ"、インザプロシーデイングスオブセカンドエイシーエムインターナショナルカンファレンスオンモバイルコンピューテイングアンドネットワーキング（モビコン｀９６）９７−１０７ページ、１９９６年１１月１０−１２日（Long, S.; Kooper, R.; Abowd, G.; Atkeson, C., "Rapid Prototyping of Mobile Context-Aware Applications: the Cyber Guide Case Study", in the Proceedings of the 2nd ACM International Conference on Mobile Computing and Networking (MobiCom '96), pp. 97-107, November 10-12, 1996.）シュリバーグ、イー．；シュトルケ、エイ．；ハッカニ‐ツール、デイレク；ツール、ゴクハン、"プロソデイ‐ベースドセグメンテーションオブスピーチアタランシズインツーセンテンシズアンドトピックス"インスピーチコニュミケーションズ、２０００、３２、１‐２、９月、１２７‐１５４ページ（Schriberg, E.; Stolcke, A.; Hakkani-Tur, Dilek; Tur, Gokhan, "Prosody-Based Segmentation of Speech Utterances into Sentences and Topics," in speech Communication, 2000, 32, 1-2, Sept, pp. 127-154）シュトルケ、エイ．；シュリバーグ、イー．；ベイツ、アール．；コッカロエヌ．；ジュラフスキ、デイー．；マーチン、アール．；メテイーア、エム．；リース、ケイ．；テーラー、ピー．；ヴァンエス‐ダイケマ、シー．、"ダイアログアクトモデリングフォアカンバセイショナルスピーチ"インアプライングマシンラーニングツーデイスコースプロセッシング．ペーパーズフロムザ１９９８エイエイエイアイスプリングシンポジウム、テクニカルレポートエスエス‐９８−０１（ジェイ．チュ‐キャロルエトアル、イーデイーエス）スタンフォードカリフォルニア９８‐１０５ページ、エイエイエイアイプレス、メンロパーク、カリフォルニア、１９９８年（Stolcke., A.; Schriberg, E.; Bates, R.; Coccaro, N.; Jurafsky, D.; Martin, R.; Meteer, M.; Ries, K.; Taylor, P.; Van Ess-Dykema, C., "Dialog Act Modeling for Conversational Speech" in Applying Machine Learning to Discourse Processing. Papers from the 1998 AAAI Spring Symposium, Technical Report SS-98-01 (J. Chu-Carrol et al, eds.) Stanford CA pp.98-105, AAAI Press, Menlo Park CA. 1998）レンデ、ビー．；シュリバーグ、イー．、"スポッテイング｀ホットスポット´ インミーテイングス：ヒューマンジャッジメンツアンドプロスデイックキュウ"インプロシーデイングス、ユーロスピーチ、ジェネバ、２００３（Wrende, B.; Schriberg, E., "Spotting 'HotSpots' in Meetings: Human Judgments and Prosodic Cues" in Proc. Eurospeech, Geneva, 2003）

従来のコマンド・モードでは、言語モデルが、自動音声認識システムに対して、音声に対するターゲット・アプリケーションに基づいて判定される。すなわち、オペレーテイング・システムが音声発話のターゲットである場合には、有効なオペレーテイング・システム・コマンドの組が、音声発話信号情報が比較される１つの組の信号情報テンプレートを形成する。離散入力モードを使用することが、従来の自然言語処理システムの精度と応答性を向上させる。しかし、離散入力モードを使用することは、ユーザーが自然言語インタフェースと対話する流暢さを阻害するおそれがある。したがって、ユーザーは、これらの従来の自然言語インタフェースを組み入れたシステムと直接対話するのではなく、そのシステムの現在の入力モードおよび／または状態を追跡することを強制される。

したがって、自然言語を該当する談話機能またはコンテキストに区分けするシステムおよび方法が有用であろう。本発明のシステムおよび方法による種々の例示的実施形態は、音声を談話機能単位に区分けするようにシステムをトレーニングするようにする。本発明によるシステムおよび方法は、談話分析の理論を判定する。音声発話の統計的に有意なトレーニング・コーパス（training corpus）が選択される。トレーニング・コーパスにおいて音声発話と関連した韻律特徴が判定される。トレーニング・テキストが、そのテキスト内の談話機能を判定するために、談話分析の理論を用いて分析される。１つの組の韻律特徴の判定に基づいて談話機能を予測する談話機能の予測モデルが判定される。本発明による種々の他の例示的な実施形態では、談話機能に対する予測モデルによって与えられる付加的な情報が、モード変化等を判定するのに必要な、自然言語音声発話の談話機能への区分け（segmentation）を容易にする。

本発明の請求項１の態様によれば、談話機能に対する予測モデルを判定する方法が、音声発話のコーパスを判定するステップと、少なくとも１つの音声発話に関連した少なくとも１つの談話機能を判定するステップと、前記少なくとも１つの談話機能に関連した少なくとも１つの韻律特徴を判定するステップと、前記韻律特徴および前記談話機能に基づいて談話機能の少なくとも１つの予測モデルを判定するステップを含む。

本発明の請求項２の態様によれば、前記談話機能が談話分析の理論に基づいて判定される。

本発明の請求項３の態様によれば、前記談話分析の理論が、言語的談話モデル（Linguistic Discourse Model）、統一言語的談話モデル（Unified Linguistic Discourse Model）、修辞構造理論（Rhetorical Structure Theory）、談話構造理論（Discourse Structure Theory）、構造談話表示理論（Structured Discourse Representation Theory）のうちの少なくとも１つである。

本発明の請求項４の態様によれば、前記予測モデルが機械学習、ルールのうちの少なくとも１つに基づいて判定される。

本発明の請求項５の態様によれば、機械学習に基づく予測モデルが、統計学、決定木、ナイーブベイズのうちの少なくとも１つに基づいて判定される。

本発明の請求項６の態様によれば、韻律特徴が、関連した談話機能の前、中、後の場所の少なくとも１つで生ずる。

本発明の請求項７の態様によれば、前記韻律特徴が韻律特徴ベクトル内でコード化される。

本発明の請求項８の態様によれば、前記韻律特徴ベクトルが多モード特徴ベクトルである。

本発明の請求項９の態様によれば、前記談話機能が文内談話機能である。

本発明の請求項１０の態様によれば、前記談話機能が文間談話機能である。

本発明の請求項１１の態様によれば、予測談話機能モデルを判定するシステムが、少なくとも１つの音声発話のコーパスを検索するための入力／出力回路と、前記少なくとも１つの音声発話に関連した韻律特徴を判定するプロセッサであって、前記少なくとも１つの音声発話のコーパスに関連した少なくとも１つの談話機能を判定し、前記少なくとも１つの談話機能に関連した少なくとも１つの韻律特徴を判定し、前記韻律特徴および前記談話機能に基づいて談話機能に対する予測モデルを判定するプロセッサとを備える。

本発明の請求項２１の態様によれば、談話機能に対する予測モデルを判定するようにコンピュータをプログラムするコンピュータ・プログラムが、音声発語のコーパスを判定する命令と、少なくとも１つの音声発話に関連した少なくとも１つの談話機能を判定する命令と、少なくとも１つの談話機能に関連した少なくとも１つの韻律特徴を判定する命令と、前記韻律特徴および前記談話機能に基づいて談話機能の少なくとも１つの予測モデルを判定るす命令とを含む。

本発明よれば、自然言語を該当する談話機能またはコンテキストに区分けするシステムおよび方法とすることにより、従来技術において自然言語インタフェースを組み入れたシステムの現在の入力モードや状態をユーザーが追跡することを強制されるという問題を回避することができ、さらに、談話機能に対する予測モデルによって与えられる付加的な情報によって、モード変化等を判定するのに必要な、自然言語音声発話の談話機能への区分け（segmentation）を容易にする等の優れた効果を奏することができる。

図１は、本発明による談話機能の予測モデルを判定するための例示的なシステム１００の概観図である。この談話機能の予測モデルを判定するためのシステム１００は、通信回線９９を通じて、インターネット対応パソコン３００、インターネット対応タブレット・コンピュータ４００、および記録された自然言語音声発話のトレーニング事例１０００−１００２を内蔵した情報リポジトリ２００に接続されている。

本発明による種々の実施形態の１つでは、インターネット対応パソコン３００のユーザーが、トレーニング事例１０００−１００２に対する談話機能の予測モデルを判定するための要求を開始する。トレーニング事例１０００−１００２は、情報リポジトリ２００に内蔵された記録された自然言語音声発話に関連づけられている。その要求は、通信回線９９を通じて、談話機能予測モデル判定システム１００に送られる。談話機能予測モデル判定システム１００は、最初のトレーニング事例１０００を検索することによって、この要求を仲裁する。音声発話の韻律特徴が判定される。韻律特徴は、基本周波数、音調的なフレーズ・トーン、境界トーン、発話間の沈黙期間、発話速度等を含みうるが、それらに限定されない。しかし、本発明の実施では、自然言語音声発話を談話機能に分割するのに有用な公知のまたは後で開発された韻律特徴も使用されうる。

自然言語音声発話１０００における談話機能が判定される。本発明による種々の実施形態では、自然言語音音声を認識して認識テキストを形成することによって、談話機能が判定される。その認識テキストは任意的に検証される。検証は、認識テキストを音声情報の人が書いた転写と比較することによって行われる。本発明による種々の他の実施形態では、異なる認識方法を使用し、かつそれらの異なる認識方法の間で多数決により正しい検証されたテキストを決定することによって、認識テキストが検証される。あるいは、認識音声発話が検証者によって検証される。しかし、本発明の範囲から逸脱することなしに、認識テキストを検証する任意の公知のまたは後で開発された方法を使用できることが明らかであろう。認識テキストが任意的に検証された後で、談話機能を判定するために、検証された認識テキストに談話分析の理論が適用される。

例えば、本発明による種々の実施形態において、認識テキスト内の従属、音声修復、データ、コマンドおよび／または他の談話機能が判定される。談話分析の理論によって識別することができかつ識別可能な韻律情報と関連づけられた任意の談話機能が、本発明によるシステムおよび方法を用いて、判定できる。１つの実施形態では、判定された談話機能が、認識テキスト内に注釈として追加される。本発明による他の種々の実施形態では、トレーニング事例識別子、トレーニング事例内における判定された談話機能の位置、各談話機能に関連づけられた韻律特徴を記述した韻律特徴ベクトルが、談話機能の韻律的情報を格納するためのデータ構造に格納される。

談話機能に関連づけられた韻律特徴は、識別されるべき特定の談話機能に先行するか、談話機能の間に生ずるか、あるいは言語、話者、ジャンル、および／または他の要因に依存して談話機能に追随するかの何れかでありうることが明らかであろう。例えば、初期周波数値の韻律特徴が、談話機能に先行し、かつ追随すべき談話機能の種類についての予測で使用されうる。談話機能の発話の後で識別された韻律特徴は、談話機能を予測するためにも使用できる。したがって、談話機能の発話の前に、その間にかつ／またはそれに追随して現れる談話機能を予測するために有用な任意の韻律特徴が、本発明の実施で使用できることが明らかであろう。

検証された認識音声発話のトレーニング・コーパスにおける各談話機能に関連づけられた韻律特徴が、予測モデルを判定するために次に使用される。上述のように、談話機能を判定するためには、個々の特徴が使用されうる。しかし、さらに他の実施形態では、１つの談話機能に関連づけられた多数の韻律特徴が組み合わせられて、１つの韻律特徴ベクトルとなされる。

談話機能の予測モデルが次に判定される。機械学習、統計学的学習、規則帰納、ナイーブベイズ、決定木、サポートベクトルマシン、あるいは任意公知のまたは後で開発された予測モデル判定方法が使用されうる。談話機能に対する判定された予測モデルが次にセーブされかつ／または使用される。

図２は本発明による談話機能に対する予測モデルを判定するための例示的方法である。プロセスがステップS１００で開始し、直ちにステップS２００へと進む。

ステップS２００では、談話分析理論が判定される。談話分析理論は、前もって判定され、かつメモリに格納されていてもよい。本発明による種々の他の実施形態では、談話分析理論は、ユーザーの入力、ユーザーに関連した特徴、選択されたアプリケーション、使用環境等に基づいて選択される。しかし、本発明の範囲から逸脱することなしに、談話分析理論を選択するための任意公知のまたは後で開発された方法が使用されうる。

判定された談話分析理論は、ユニファイド・リングイステイック・デイスコース・モデル（ＵＬＤＭ）、レトリカル・ストラクチャ・セオリ（ＲＳＴ）、デイスコース・ストラクチャ・セオリ、ストラクチャード・デイスコース・リプリゼンテーション・セオリ（ＳＤＲＴ）あるいは任意公知のまたは後で開発された談話分析理論を含みうる。談話分析理論が選択された後で、コントロールはステップＳ３００へと進む。

ステップＳ３００では、音声発話のトレーニング・コーパスが判定される。音声発話のトレーニング・コーパスは、リングイステイック・データ・コンソ−テイアムのスイッチボード・コーパスのような前もって判定されたトレーニング・コーパスでありうる。種々の他の実施形態では、トレーニング・コーパスは、ユーザー固有のトレーニング・コーパス、異なるユーザーからの音声発話を組み合わせて音声発話の合成トレーニング・コーパスとなされたトレーニング・コーパスでありうる。しかし、本発明の実施では、音声発話の任意の統計的に有意なコーパスが使用されうることが明らかであろう。音声発話のトレーニング・コーパスが判定された後で、コントロールはステップS４００へと進む。

音声発話に関連する韻律特徴がステップS４００で判定される。韻律特徴は、トレーニング・コーパスに適用される任意公知のまたは後で開発された信号処理技法を用いて判定されうる。しかし、新しい韻律特徴および／または新しい談話機能が判定されると、新しい韻律も動的に判定される。あるいは、韻律特徴はバッチモード等で判定されてもよい。

韻律特徴は、信号振幅の変化、ピッチ範囲の変化、音声発話の初期周波数値、異なる数の音調フレーズを示す音調的境界トーン割り当て、沈黙期間、発話速度、あるいは任意公知のまたは後で開発された韻律特徴を含みうるが、それらに限定されない。

韻律特徴の組み合わせは、種々のレベルの談話構造として、談話機能と関連づけられうることが明らかであろう。したがって、韻律特徴は、単語間の区分境界を示すため、センテンス内およびセンテンス間の従属、パラグラフ・セグメント、ターン・テイキング・セグメント（turn taking segments）あるいは選択された談話分析理論によって識別可能な任意公知のまたは後で開発された談話構造を示すために用いられうる。音声発話に関連した韻律特徴が判定された後で、コントロールはステップS５００へと進む。

ステップS５００では、音声発話と選択された談話分析理論に基づいて、談話機能が判定される。談話機能とは、タスク、テキストおよび対話レベル談話活動を行うために用いられるセンテンス内現象およびセンテンス間現象を言う。談話機能は、コマンド付与、初期化タスク、識別音声受け手、あるいは談話レベル従属の他の任意公知のまたは後で開発された区分を含みうるが、それらに限定されない。

例えば、本発明による実施形態の１つでは、談話機能を判定するためのトレーニング・コーパスと関連づけられた検証された認識音声発話に、談話分析理論が適用される。音声発話における談話機能が判定だれた後で、プロセスはステップS６００へと進む。

ステップS６００では、判定された韻律特徴と判定された談話機能とに基づいて、予測談話モデルが判定されうる。予測談話モデルは、機械学習、統計、サポートベクトルマシン、ナイーブベイズ、決定木帰納、あるいは任意公知のまたは後で開発された予測モデル判定方法を用いて判定されうる。種々の他の典型的実施形態では、予測談話モデルは、新しいトレーニング事例に基づいて現在の予測談話モデルを絞り込む増分予測モデルでありうる。予測モデルが判定された後で、コントロールはステップS７００へと進み、そこでコントロールは終了する。

図３は本発明による予測談話モデルを判定するための典型的なシステム１００である。この予測談話モデルを判定するための典型的なシステム１００は、入力／出力回路１０、メモリ２０、プロセッサ３０、韻律特徴判定ルーチンまたは回路４０、談話機能判定ルーチンまたは回路５０、予測モデル判定ルーチンまたは回路６０で構成され、これらはそれぞれ通信回線９９によってインターネット対応パソコン３００、インターネット対応タブレット・コンピュータ４００、および音声発話のトレーニング・コーパス１０００−１００２を内蔵した情報リポジトリ２００に接続されている。

インターネット対応パソコン３００またはインターネット対応タブレット・パソコン４００のユーザーが、情報リポジトリ２００に内蔵された自然言語音声発話のトレーニング事例１０００−１００２に対する韻律特徴を判定するための要求を開始する。その要求が、通信回線９９を通じて、談話機能の予測モデルを判定するためのシステム１００に送られる。この談話機能の予測モデルを判定するためのシステム１００は、入力／出力回路１０を動作させることによって、情報リポジトリ２００から自然言語音声発話のトレーニング事例１０００を検索する。

プロセッサ２０は、メモリ２０内のトレーニング事例１０００をセーブし、かつ韻律特徴判定ルーチンまたは回路４０を動作させる。韻律特徴判定ルーチンまたは回路４０は、初期周波数、ピッチ範囲、存続期間、休止、境界トーン、音調フレーズ等のようなトレーニング事例における韻律特徴を判定する。本発明による種々の他の例示的侍史形態では、韻律特徴判定ルーチンまたは回路４０は、自動音声認識システム内に組み込まれたデジタル信号プロセッサでありうる。韻律特徴判定ルーチンまたは回路４０は、音声発話の韻律特徴を判定し、かつそれらを認識された音声発話内の音調（イントネーション）としてコード化する。

プロセッサ３０は、選択された談話分析理論に基づいてトレーニング事例に関連した談話機能を判定するための談話機能判定ルーチンまたは回路５０を動作させる。談話機能は、コンテキスト情報、モード表示、あるいは音声発話を区分しかつ／または明確化するのに有用な任意公知のまたは後で開発された談話レベル情報を含みうる。例えば、音声発話の第１の部分に関連した韻律特徴は、その音声発話の第１の部分が現在のアプリケーションで指示された命令と関連する可能性を予測するために用いられる。同様に、音声発話の第２の部分に関連した韻律特徴は、そのトレーニング事例における音声発話の第２の部分がコンテンツまたはデータであることを予測するために用いられうる。したがって、音声発話の第１の部分に関連した韻律的情報は、音声発話がイーメール・システムのアドレス機能に対する命令であると見なされるべきであることを示しうる。同様に、音声発話の第２の部分に関連した韻律的情報は、その音声発話の第２の部分がイーメール・メッセージに関連したコンテンツ部分または受信人情報を含んでいることを示すために用いられうる。

音声発話に対する談話機能が判定された後で、プロセッサ３０が、予測モデル判定ルーチンまたは回路６０を動作させることによって予測談話機能を判定する。予測談話機能モデル・ルーチンまたは回路６０が、韻律特徴を判定された談話機能に関連づける。予測モデル判定ルーチンまたは回路６０は、本発明の範囲から逸脱することなしに、機械学習、統計資料、帰納決定木、モデル・ルックアップ、あるいは予測モデルを判定する任意公知のまたは後で開発された方法を用いることができる。判定された予測談話機能モデルがセーブされかつ／または使用される。

図４は本発明に従って注記をつけられた典型的なセンテンス４００を示している。この典型的なセンテンスは、談話機能情報でもって時間的に注記をつけられている。

典型的なセンテンス４００は、コマンド部分４１０と、コンテンツ部分４２０とで構成されている。コマンド部分４１０は第１および第２のテキスト部分４１１−４１２で構成されている。コンテンツ部分４２０は単一のテキスト部分４２１で構成されている。

韻律特徴は、音声発話をコマンド部分４１０とコンテンツ部分４２０とに区分するために用いられる。しかし、予測談話機能モデルは、談話分析理論によって認識可能な任意のタイプの談話機能を判定するためにも用いられうることが明らかであろう。例えば、本発明による実施形態の１つでは、曖昧な音声発話が先行音声発話に従属しているか、あるいはその先行音声発話と無関係な新しい情報を反映しているかを判定することによって、曖昧な音声発話の認識が改善されうる。予測談話機能モデルは、音声発話の韻律特徴を入力として受け入れ、そして全体の談話内の曖昧な音声発話の起こりうる談話機能を出力する。他の典型的システム（図示せず）は、認識された単語がセンテンス、パラグラフ内に現れる確率をスコアし直す（rescore）ため、および／または談話内のコマンドおよび／またはコンテンツ境界または他のセグメントを示すために、この付加的情報を使用することができる。

図５は、本発明による第１の典型的なセンテンスに関連した典型的な韻律特徴を示している。統計的に有意な数のトレーニング・センテンスに関連した韻律情報が、談話機能の予測モデルを判定するために用いられる。すなわち、本発明による種々の実施形態では、発話で識別される韻律情報に基づいて自然言語発話のセグメントに対する起こりうる談話機能分類を示す予測モデルが判定される。本発明による種々の他の実施形態では、談話機能モデルの予測モデルが、自然言語発話の談話レベル区分を絞り込むために用いられる。

例えば、"Here's a new mail. It's to Mark M-A-R-K Famiglio F-A-M-I-G-L-I-O"という第１の例示的なトレーニング句が、コマンド談話機能"Here's a new mail I's to"とコンテンツ談話機能"Mark M-A-R-K Famiglio F-A-M-I-G-L-I-O"とに区分される。コマンンドおよびコンテンツという用語は単に例示的なものであって、限定的なものではない。本発明の実施では、談話分析の理論によって識別可能でかつ識別可能な韻律特徴と関連づけられた任意の談話機能が使用されうる。例示的なセンテンスが構成談話機能単位に区分された後で、トレーニング・センテンスと関連づけられた音声発話における韻律特徴Ｊ₁−Ｊ₃８３１−８３３が判定される。種々の実施形態において、１つの談話機能と関連づけられた韻律特徴の組に対する値が結合されて単一の韻律特徴ベクトルを形成する。このプロセスは、音声発話のトレーニング・コーパスで識別される各談話機能に対して反復される。種々の実施形態において、機械学習、統計学等に基づいて予測モデルを判定するために、韻律特徴ベクトルと判定された談話機能が用いられる。

図６は、本発明に従って注釈を付けられた第２の例示的センテンス６０１を示している。この第２の例示的センテンス６０１は、コマンド部分６１０とコンテンツ部分６２０とで構成されている。コマンド部分６１０は認識された音声発話６１１"And the body is"を含んでいる。他の情報が無い場合には、認識された音声発話は、イーメール・メッセージのアドレスおよび／またはコンテンツを示しうる。しかし、付加的な韻律情報に基づいて、予測談話機能モデルが、認識された音声がコマンド談話機能を示す可能性を予測する。したがって、イーメール・メッセージの本文内に後続の情報を記録する要求を示すことを判定するために、付加的なシステム（図示せず）が使用されうる。種々の例示的実施形態において、コマンドであると判定される認識された音声発話が、特定の言語モデルおよび／または認識文法および／または認識精度をさらに改善するために有用な情報を誘発させるために使用されうる。

音声発話６３１の第２の部分と関連づけられた韻律情報と関連する予測談話機能モデルは、音声発話の第２の部分がコンテンツ情報である可能性を予測するために用いられる。センテンスまたはフレーズは、コマンドおよびコンテンツ部分および／または他の任意のコンテキストの階層および／または談話分析の理論によって認識された談話機能に区分され得る。

図７は、本発明の１つの態様による第２の例示センテンスに関連した例示的な韻律特徴を示している。この例示的な韻律特徴は、韻律特徴Ｊ₁−Ｊ₃８３１−８３３を含んでいる。上述のように、この韻律特徴情報は、コンテキスト情報を判定するために、単独でまたは他の韻律特徴と組み合わせて使用される。

図８は、本発明の１つの態様に従って韻律特徴情報で注釈を付けられたセンテンスの例示的な視覚化を示している。韻律特徴Ｊ₁８３１は、認識された音声発話のコマンド部分８１０の始めと関連した特徴である。コマンド部分８１０の終わりは韻律特徴Ｊ₂８３２としている。韻律特徴Ｊ₁−Ｊ₃８３１−８３３は、特定の期間の沈黙、相対的なピッチ変化、あるいは談話機能の予測モデルと関連した他の任意の韻律特徴でありうる。この韻律特徴は、本発明の範囲から逸脱することなしに、コマンド部分８１０の始めと終わりを判定するために単独でまたは組み合わせで使用されうることが明らかであろう。

コンテンツ部分８２０の始めは韻律特徴Ｊ₃８３３と関連している。この韻律特徴Ｊ₃８３３は、初期ピッチの変化あるいはコンテンツ部分８２０の始めと関連した他の任意の韻律特徴または特徴の組であってもよい。本発明による種々の例示的な実施形態では、韻律特徴と談話特徴との間の関連づけが、特定のユーザーに対して独自化されてもよい。さらに、予測談話機能モデルは、予測モデルを時間的に絞り込む機械学習法に基づくものであってもよい。このようにして、談話機能を韻律的に示すためのユーザー固有の方法が、時間とともにまたは多数のセッションとともに、予測談話機能モデル内に組み込まれうる。本発明によるさらに他の例示的実施形態では、韻律特徴Ｊ₁、Ｊ₂およびＪ₃８３１−８３３は単一韻律特徴で構成されてもよく、あるいは韻律特徴の組を示してもよい。談話機能の予測モデルは、認識された音声発話に対する可能な談話機能を予測するための韻律特徴の組のうちの１つまたはそれ以上および／または付加的な情報であってもよい。

図９は本発明による談話機能の予測モデルを判定するための例示的なシステムの流れ構成図である。音声発話が認識され、そして韻律特徴が１つの組の入力として判定される。本発明による種々の例示的な実施形態では、上述のように、音声発話のトレーニング・コーパスで判定された韻律特徴に基づいて、韻律特徴ベクトルが判定される。談話分析の理論に基づいて談話機能を判定するために、音声発話が認識され、検証され、かつ分析される。例えば、ユニファイド・リングイステイック・デイスコース・モデル（Unified Linguistic Discourse Model）が使用される場合には、音声発話のトレーニング・コーパスと関連した検証され認識されたテキストが談話要素に区分される。ユニファイド・リングイステイック・デイスコース・モデルにおける区分化は、座標、従属、およびバイナリイズ・オア・ナリイズ（binaries or naries）で構成される。韻律特徴が、談話構成要素のトレーニング事例ごとに判定される。類似の談話構成要素が集団化され、かつ談話機能の予測モデルに対する韻律特徴を選択するために、機械学習、統計学または他の技法が適用される。そして、談話機能の予測モデルがメモリに保存される。談話機能の予測モデルは、その談話機能を判定するために、単独でまたは新しく認識された音声発話と組み合わせて使用できる。

本発明による種々の他の例示的実施形態では、１つの組のエヌ‐ベスト（n-best）談話機能および認識された音声発話のそれぞれに対する関連した組のエヌ‐ベスト（n-best）区分を判定するために、１つの組のエヌ‐ベスト（n-best）韻律特徴ベクトルを使用できる。

例えば、トレーニング・コーパスにおける談話機能と関連する韻律機能が判定される。談話機能は談話分析の理論に基づいて判定されうる。次に、談話機能の予測モデルが判定される。韻律特徴は、音声発話に関連されやすい談話機能の予測を出力する談話機能の予測モデルによって受け入れられる。ワードプロセッサ、イーメールエデイタ等のようなある種のアプリケーションでは、談話機能の使用が、アプリケーションのコマンド・モードおよび／またはコンテンツまたはインプット・モードを判別することに関連される。しかし、種々の他の例示的実施形態では、従属、会話のターン・テーキング（turn-taking）またはフッテイング（footing）あるいは判定された談話分析理論によって認識された任意他の公知のまたは後で開発された談話機能を予測するために、本発明のシステムおよび方法を使用できる。

図１０は、本発明による談話機能の予測モデルを判定するための例示的システムのブロック図である。談話機能に対する予測モデルを判定するためのこのシステムは、テキスト１２２０およびスピーチ１２１０からの入力１２００と、入力スピーチ情報を認識する自動音声認識システム１３００を含んでいる。談話パーサー１４００は、入力テキスト１２２０および入力スピーチ１２１０に基づいて、意味的に区分されかつ韻律的に注釈を付けられたテキスト１５００生成する。意味的に区分されかつ韻律的に注釈を付けられたテキスト１５００は、談話の予測モデルを判定するために用いられる。更新された自動音声認識モデル１６１０および／または談話機能レベルの韻律特徴を関連づけるテキスト・ツー・スピーチモデル１６２０を生成するために、談話の予測モデルが用いられる。

図１１は、本発明による音声発話韻律情報を格納するための例示的データ構造である。韻律情報１０７０を格納するための例示的データ構造は、識別子部分１０１０、談話機能部分１０２０、初期周波数部分１０３０、ピッチ変化部分１０４０、先行沈黙部分１０５０および境界トーン部分１０６０で構成されている。韻律情報１０７０を格納するための例示のデータ構造は、トレーニング・コーパスにおける各トレーニング事例に対する値を格納する。

音声発話韻律情報１０７０を格納するための例示的データ構造の最初の行は、識別子部分１０１０に「１」という値を含んでいる。この識別子部分は、音声発話韻律情報を格納するための例示的データ構造に含まれた情報内ヘのインデックスとして用いられる。

音声発話韻律情報１０７０を格納するための例示的データ構造は、談話機能部分１０２０に値「従属」（SUBORDINATION）を含んでいる。この「従属」値は、トレーニング音声発話が選択された談話分析理論によって従属型の談話機能として分類されたことを示している。典型的には、この分類は、多数の自動装置および／または検証者によって検証される。「従属」（SUBORDINATION）および「同格」（COORDINATION）という用語は単に例示にすぎないものであり、種々の他の例示的実施形態では、本発明の範囲から逸脱することなしに異なる命名法を使用してもよいことが明らかであろう。

音声発話韻律情報１０７０を格納するための例示的データ構造は、初期周波数部分１０３０に「１７５」という値を含んでいる。この「１７５」という値は、トレーニング事例音声発話に対する初期周波数部分を示している。

音声発話韻律情報１０７０を格納するための例示的データ構造は、ピッチ変化部分１０４０に値「０．１５」を含んでいる。この値「０．１５」は、従属談話機能と関連したピッチの変化を示している。ピッチおよび／または他の韻律的変化は、１つまたはそれ以上の談話機能および／または談話機能の部分のスライドウインドウ内の変化に基づきうることが明らかであろう。

音声発話韻律情報１０７０を格納するための例示的データ構造は、境界トーン部分１０５０に値「０．１０」を含んでいる。この値「０．１０」は、トレーニング事例音声発話に先行する沈黙の期間を示す。

音声発話韻律情報１０７０を格納するための例示的データ構造は、境界トーン部分１０６０に値「８０」を含んでいる。この値「８０」は、トレーニング事例音声発話に関連した境界トーンを示す。

音声発話韻律情報１０７０を格納するための例示的データ構造第２の列は、識別子部分１０１０に値「２」を含んでいる。識別子部分は、音声発話韻律情報を格納するための例示的データ構造に含まれた情報内ヘのインデックスとして用いられる。

音声発話韻律情報１０７０を格納するための例示的データ構造は、談話機能部分１０２０に値「従属」を含んでいる。この値「従属」、音声発話が、選択された談話分析理論に基づいて、従属型の談話機能として分類されることを示す。上述したように、この分類は検証者および／または多数の分類システムによって任意に検証されうる。

音声発話韻律情報１０７０を格納するための例示的データ構造は、初期周波数部分１０３０に値「１７３」を含んでいる。この値「１７３」は、トレーニング音声発話に対する初期周波数情報を示す。音声発話韻律情報１０７０を格納するための例示的データ構造は、ピッチ変化部分１０４０に値「０．１２」を含んでいる。この値「０．１２」は、トレーニング事例音声発話に関連したピッチ変化を示す。

先行沈黙部分１０５０は値「０．１１」を含んでいる。この値「０．１１」は、トレーニング事例音声発話に先行する沈黙の期間を示す。境界トーン部分１０６０は、値「８０」を含んでいる。この値は、トレーニング事例音声発話に関連した境界トーンを示す。

音声発話韻律情報１０７０を格納するための例示的データ構造の第３の行は、識別子部分１０１０に「３」を含んでいる。識別子１０１０は、音声発話韻律情報１０７０を格納するための例示的データ構造に含まれた情報内ヘのインデックスとして用いられる。

音声発話韻律情報１０７０を格納するための例示的データ構造は、談話機能部分１０２０に値「従属」を含んでいる。この「従属」値は、音声発話が選択された談話分析理論によって従属型の談話機能として分類されたことを示している。

音声発話韻律情報１０７０を格納するための例示的データ構造は、初期周波数部分１０３０に、トレーニング音声発話に関連した初期周波数情報を示す値「１７４」を含んでいる。

音声発話韻律情報１０７０を格納するための例示的データ構造のピッチ変化部分１０４０は、値「０．１３」を含んでいる。これは、音声発話に対するピッチの変化を示す。

音声発話韻律情報１０７０を格納するための例示的データ構造は、先行沈黙部分１０５０に値「０．１０」を含んでいる。この値「０．１０」、音声発話に先行する沈黙の期間を示す。

境界トーン部分１０６０は値「８１」を含んでいる。これはトレーニング事例音声発話に関連した境界トーンを示す。

音声発話韻律情報１０７０を格納するための例示的データ構造の第Ｎの行は、識別子部分１０１０に「Ｎ」の値を含んでいる。識別子部分は、音声発話韻律情報を格納するための例示的データ構造に含まれた情報内ヘのインデックスとして用いられる。

音声発話韻律情報１０７０を格納するための例示的データ構造の談話機能部分１０２０は、音声発話が、選択された談話分析理論で「同格」（COORDINATION）型の談話機能として分類されたことを示す値「同格」を含んでいる。

初期周波数部分１０３０は、値「１５０」を含んでいる。この値「１５０」は、トレーニング音声発話に対する初期周波数情報を示す。ピッチ変化部分１０４０は、トレーニング事例音声発話に対する値「０．１０」を含んでいる。この値は、「同格」型の談話機能を判定または識別するのに有用でありうるピッチ変化値を示す。

先行沈黙部分１０５０は値「０．１５」を含んでいる。この値「０．１５」は、音声発話に先行する沈黙の期間を示す。境界トーン部分１０６０は、値「９５」を含んでいる。この値「９５」は音声発話に関連した境界トーンを示す。

図１２は本発明による例示的談話機能韻律情報を格納するためのデータ構造である。この談話機能韻律情報１１７０を格納するためのデータ構造は、識別子部分１１１０、談話機能部分１１２０、初期周波数部分１１３０、ピンチ変化部分１１４０、先行沈黙部分１１５０、境界トーン部分で構成されている。この談話機能韻律情報１１７０を格納するためのデータ構造は、トレーニング・コーパスにおける判定された談話機能のそれぞれに対する値を格納する。

例示的談話機能韻律情報１１７０を格納するためのデータ構造の第１の行は、識別子部分１１１０に値「１」を含んでいる。この識別子部分は、例示的な談話機能韻律情報を格納するためのデータ構造に含まれた情報内へのインデックスとして用いられる。

例示的談話機能韻律情報１１７０を格納するための例示的データ構造は、談話機能部分１１２０に「従属」（SUBORDINATION）の値を含んでいる。本発明による種々の例示的実施形態では、談話機能に関連した韻律情報が、初期周波数部分１１３０、ピッチ変化部分１１４０、先行沈黙部分１１５０および境界トーン部分１１６０に格納される。本発明による種々の他の例示的実施形態では、例示的談話機能に関連した韻律情報が韻律特徴ベクトルに格納される。

例示的談話機能韻律情報１１７０を格納するためのデータ構造の各行は、１つのタイプの談話機能の見本を示している。すなわち、トレーニング事例が、判定された談話機能に基づいて集団化される。談話機能に対する予測モデルを判定するために、機械学習法、統計学または韻律情報に基づいて１つのモデルを判定する任意の他の方法が用いられる。談話機能に対する予測モデルは、保存されかつ／または新しい音声発話内に含まれた談話機能を判定するために用いられる。

例示的談話機能韻律情報１１７０を格納するためのデータ構造は、初期周波数部分１１３０に値「１７５」を含んでいる。この値は、「従属」型の談話機能に対する平均的初期周波数情報を示す。

例示的談話機能韻律情報１１７０を格納するためのデータ構造は、ピッチ変化部分１１４０に値「０．１５」を含んでいる。この値は、「従属」型の例示的談話機能に関連したピッチの平均的変化を示す。

例示的談話機能韻律情報１１７０を格納するためのデータ構造は、先行沈黙部分１１５０に値「０．１０」を含んでいる。この値「０．１０」は、「従属」型の例示的談話機能に先行した沈黙の平均的期間を示す。

例示的談話機能韻律情報１１７０を格納するためのデータ構造は、境界トーン部分１１６０に値「８０」を含んでいる。この値は、「従属」型の談話機能に関連した境界トーン周波数の平均的値を示す。

例示的談話機能韻律情報１１７０を格納するためのデータ構造第２の行は、識別子部分１１１０に値「２」を含んでいる。談話機能部分１１２０は、値「同格」（COORDINATION）を含んでいる。これは、韻律特徴が「同格」談話機能と関連していることを示す。初期周波数部分１１３０は値「１５０」を含んでいる。これは、「同格」談話機能と典型的に関連した初期周波数を示す。ピッチ変化部分１１４０は値「０．１０」を含んでいる。これは、「同格」型の談話機能と典型的に関連したピッチ変化を示す。先行沈黙部分１１５０は値「０．１４」を含んでいる。これは、「同格」型の談話機能が「０．１４」単位の先行沈黙と典型的に関連していることを示す。境界トーン部分１１６０は、「同格」型の談話機能と関連した典型的な境界トーンを示す値１００を含んでいる。「従属」談話機能と「同格」談話機能のカテゴリー化は例示にすぎないものであり、本発明の実施では、選択された談話分析理論によって認識可能な任意公知のまたは後で開発された談話機能を使用できることが明らかであろう。

図３に記述された談話機能モデルを予測するためのシステム１００の回路１０−６０のそれぞれは、適当にプログラム化された汎用コンピュータの部分として実施されうる。あるいは、上述した談話機能の予測モデル１００を判定するためのシステムの１０−６０は、ASIC内の、あるいはFPGA、PDL、PLAまたはPALを用いた、あるいは離散的論理素子または離散的回路素子を用いた物理的に別個のハードウエア回路としれ実施されうる。上述した談話機能の予測モデルを判定するためのシステム１００の回路１０−６０のそれぞれが取る特定の形態は、設計的選択事項であり、当業者には自明かつ予測可能であろう。

さらに、談話機能の予測モデルを判定するためのシステム１００および／または上述した種々の回路のそれぞれは、プログラムされた汎用コンピュータ、専用コンピュータ、マイクロプロセッサ等で実行するソフトウエア・ルーチン、マネジャーまたはオブジェクトとしてそれぞれ実装できる。この場合には、談話機能の予測モデルを判定するためのシステム１００およびまたは上述した種々の回路のそれぞれは、通信回線に組み込まれた１つまたはそれ以上のルーチンとして、あるいはサーバー上に存在するリソース等としてそれぞれ実装できる。談話機能の予測モデルを判定するためのシステム１００および上述んした種々の回路は、談話機能の予測モデルを判定するためのシステム１００をウエブ・サーバーまたはクライアント・デバイスのハードウエアまたはソフトウエア・システムのようなソフトウエアおよび／またはハードウエア・システムに物理的に組み込むことによっても実装できる。

図３に示されているように、メモリ２０は、可変の、揮発性のまたは不揮発性のメモリまたは非可変の即ち固定のメモリの任意適当な組み合わせを用いて実装できる。可変メモリは、揮発性であるか不揮発性であるかに関係なく、スタテイックまたはダイナミックＲＡＭ、フロッピー（登録商標）デイスクおよびデイスクドライブ、書き込み可能なまたは書き換え可能な光デイスクおよびデイスクドライブ、ハードドライブ、フラッシュメモリ等のうちの任意の１つまたはそれ以上を用いて実装できる。同様に、非可変即ち固定メモリは、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭまたはＤＶＤ−ＲＯＭのような光ＲＯＭデイスク、デイスクドライブ等のうちの任意の１つまたはそれ以上を用いて実装できる。

図１および３に示された通信回線９９はそれぞれ、ダイレクトケーブル接続、ワイドエリアネットワークまたはローカルエリアネットワークによる接続、イントラネットによる接続、インターネットによる接続、あるいは他の任意の分散処理ネットワークまたはシステムによる接続を含む、談話機能の予測モデルを判定するためのシステム１００に通信デバイスを接続するための任意公知のまたは後で開発されたデバイスまたはシステムでありうる。一般に、通信回線９９は、デバイスを接続しかつ通信を容易にするために使用可能な任意公知のまたは後で開発された接続システムまたは構造でありうる。

さらに、通信回線９９はネットワークに対する有線または無線のリンクでありうることを理解すべきである。ネットワークは、ローカルエリアネットワーク、イントラネット、インターネット、または任意の他の分散処理および記憶ネットワークでありうる。

本発明を上述した例示的な実施形態に関連して説明したが、多くの代替、修正および変更が当業者には明らかとなるであろうことが明白である。したがって、上述した本発明の例示的実施形態は、例示を意図したものであり、限定的なものではない。本発明の精神および範囲から逸脱することなしに、種々の変更がなされうる。

本発明による談話機能の予測モデルを判定するための例示的システムの概略図である。本発明による談話機能の予測モデルを判定するための例示的方法である。本発明による予測談話モデルを判定するための例示的システムである。本発明に従って注釈を付けられた例示的なセンテンスを示している。本発明による第１の例示的トレーニング・センテンスに関連された例示的韻律特徴情報を示している。本発明に従って注釈を付けられた第２の例示的なセンテンスを示している。本発明による第２の例示的なセンテンスと関連された例示的韻律特徴情報を示している。本発明に従って韻律特徴で注釈を付けられたセンテンスの例示的視覚化である。本発明による談話機能の予測モデルを判定するための例示的システムのフローチャートである。本発明による談話機能の予測モデルを判定するための例示的システムのフローチャートである。本発明による音声発話韻律情報を格納するための例示的データ構造である。本発明による例示的談話機能のそれぞれに対する韻律情報を格納するためのデータ構造である。

符号の説明

９９通信回線
１００談話機能の予測モデルを判定するためのシステム
２００情報リポジトリ
３００インターネット対応パソコン
４００インターネット対応タブレット・コンピュータ
１０入力／出力回路
２０メモリ
３０プロセッサ
４０韻律特徴判定ルーチンまたは回路
５０談話機能判定ルーチンまたは回路
６０予測モデル判定ルーチンまたは回路

Claims

音声発話のコーパスを判定するステップと、
少なくとも１つの音声発話に関連した少なくとも１つの談話機能を判定するステップと、
前記少なくとも１つの談話機能に関連した少なくとも１つの韻律特徴を判定するステップと、
前記韻律特徴および前記談話機能に基づいて談話機能の少なくとも１つの予測モデルを判定するステップを含む、談話機能に対する予測モデルを判定する方法。
前記談話機能が談話分析の理論に基づいて判定される、請求項１に記載の方法。
前記談話分析の理論が、言語的談話モデル（Linguistic Discourse Model）、統一言語的談話モデル（Unified Linguistic Discourse Model）、修辞構造理論（Rhetorical Structure Theory）、談話構造理論（Discourse Structure Theory）、構造談話表示理論（Structured Discourse Representation Theory）のうちの少なくとも１つである請求項２に記載の方法。
前記予測モデルが機械学習、ルールのうちの少なくとも１つに基づいて判定される、請求項１に記載の方法。
機械学習に基づく予測モデルが、統計学、決定木、ナイーブベイズのうちの少なくとも１つに基づいて判定される、請求項４に記載の方法。
韻律特徴が、関連した談話機能の前、中、後の場所の少なくとも１つで生ずる、請求項４に記載の方法。
前記韻律特徴が韻律特徴ベクトル内でコード化される、請求項１に記載の方法。
前記韻律特徴ベクトルが多モード特徴ベクトルである、請求項７に記載の方法。
前記談話機能がセンテンス内談話機能である、請求項１に記載の方法。
前記談話機能がセンテンス間談話機能である、請求項１に記載の方法。
少なくとも１つの音声発話のコーパスを検索するための入力／出力回路と、
前記少なくとも１つの音声発話に関連した韻律特徴を判定するプロセッサであって、前記少なくとも１つの音声発話のコーパスに関連した少なくとも１つの談話機能を判定し、前記少なくとも１つの談話機能に関連した少なくとも１つの韻律特徴を判定し、前記韻律特徴および前記談話機能に基づいて談話機能に対する予測モデルを判定するプロセッサと、
を備える、談話機能の予測モデルを判定するシステム。
前記談話機能が談話分析の理論に基づいて判定される、請求項１１に記載のシステム。
前記談話分析の理論が、言語的談話モデル（Linguistic Discourse Model）、統一言語的談話モデル（Unified Linguistic Discourse Model）、修辞構造理論（Rhetorical Structure Theory）、談話構造理論（Discourse Structure Theory）、構造談話表示理論（Structured Discourse Representation Theory）のうちの少なくとも１つである請求項１２に記載のシステム。
前記予測モデルが機械学習、ルールのうちの少なくとも１つに基づいて判定される、請求項１１に記載のシステム。
機械学習に基づく予測モデルが、統計学、決定木、ナイーブベイズのうちの少なくとも１つに基づいて判定される、請求項１４に記載のシステム。
韻律特徴が、関連した談話機能の前、中、後の場所の少なくとも１つで生ずる、請求項１１に記載のシステム。
前記韻律特徴が韻律特徴ベクトル内でコード化される、請求項１１に記載のシステム。
前記韻律特徴ベクトルが多モード特徴ベクトルである、請求項１７に記載のシステム。
前記談話機能がセンテンス内談話機能である、請求項１１に記載のシステム。
前記談話機能がセンテンス間談話機能である、請求項１１に記載のシステム。
音声発語のコーパスを判定する命令と、
少なくとも１つの音声発話に関連した少なくとも１つの談話機能を判定する命令と、
少なくとも１つの談話機能に関連した少なくとも１つの韻律特徴を判定する命令と、
前記韻律特徴および前記談話機能に基づいて談話機能の少なくとも１つの予測モデルを判定する命令と、
を含む、談話機能に対する予測モデルを判定するようにコンピュータをプログラムするコンピュータ・プログラム。