JP2019096323A

JP2019096323A - 対話セッションテキストをセグメンテーションするシステム及び方法

Info

Publication number: JP2019096323A
Application number: JP2018220052A
Authority: JP
Inventors: ヴィグ、ロベケシュ; Vig Lovekesh; ヤダフ、モヒト; Yadav Mohit; スンデル、ビシャル; Sunder Vishal; シュロフ、ガウタム; Shroff Gautam
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2017-11-27
Filing date: 2018-11-26
Publication date: 2019-06-20
Anticipated expiration: 2038-11-26
Also published as: CA3025233C; EP3493081A1; AU2018267668A1; MX2018014589A; CA3025233A1; AU2018267668B2; BR102018074370A2; JP7093292B2

Abstract

【課題】口語体のチャットテキストをセグメンテーションした結果、精度が低く、情報の損失を招いていたので、それらを改善した複数の入力テキスト投稿を含む対話セッションテキストをセグメンテーションするシステム及び方法を提供する。【解決手段】経時的連続性の制約に従い拡張される情報ボトルネック法を使用し、情報損失を減少させるために、２つの連続した投稿間の時間と投稿内での人々への言及等の重要な非テキストの手掛りを利用し、情報ボトルネックアプローチにおいて、入力テキスト投稿からの全てのテキスト情報と非テキスト情報の融合を使用することで、よりよいセグメンテーションを達成するために、会話に関わるテキストと併せて非テキスト情報を集合的に活用可能にする。【選択図】図２

Description

関連出願の相互参照
本願は、２０１７年１１月２７日付でインド国に提出された、「対話セッションテキストをセグメンテーションするシステム及び方法（ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＳＥＧＭＥＮＴＩＮＧＩＮＴＥＲＡＣＴＩＶＥＳＥＳＳＩＯＮＴＥＸＴ）」と題する、インド国特許出願第２０１７２１０４２５０５号明細書全体に対する優先権を主張する。

本明細書における開示は、概して、テキストセグメンテーション技術、特に、対話セッションテキストをセグメンテーションするシステム及び方法に関する。

チャット会話量の激増は、人々が会話用言語を扱う方法に著しく影響を及ぼした。その上、現在では、会話プラットフォームは、個人用と業務用の両方に普及している。例えば、大企業シナリオでは、プロジェクトマネージャは、これらのプラットフォームを、決定事項の審査や動的な責任割り当て等の様々なタスクに利用することがある。かかる会話に関するログは、人々の間での可能な共同作業に関する自動評価等の他の様々な用途に、潜在的に貴重な情報を提供する。

従って、議論を、独立した会話断片の小さな塊（ｓｍａｌｌｇｒａｎｕｌｅ）に分離できることは、効果的なセグメンテーション方法にとって、極めて重要である。「独立した（ｉｎｄｅｐｅｎｄｅｎｔ）」とは、セグメントが、できるだけ自己完結型であり、同じトピックについて議論しているはずであることを意味しており、それにより、同様の会話が再び行われている場合、セグメントを示唆できる。この結果として、様々な短テキスト類似法が直接採用できる。また、セグメンテーションは、自動要約、テキスト生成、情報抽出、及び会話の可視化等の様々な下流タスクに対して権限を与える前処理ステップとしても潜在的に機能できる。チャットセグメンテーションは、テキストの口語体という性質、投稿長が短いことが多い点、無関係な散在するテキストの割合が大きい点等の、多数の厳しい課題を提示することは、注目に値する。

テキストセグメンテーションに関する研究は、初期の試みにまで遡る長い歴史がある。それ以来、ＴｅｘｔＴｉｌｉｎｇ、語義埋込みに基づく表現学習、及びトピックモデルを含むが、これらに限定されない、多くの方法が提示されてきた。にもかかわらず、口語体のチャットテキストをセグメンテーションするために、研究努力が殆ど提案されておらず、その結果、精度が低く、情報の損失を招いていた。

本開示の実施形態は、本発明者らによって従来のシステムにおいて認識された上記の技術的課題の１つ又は複数に対する解決方法として、技術的な改善点を提示する。

例えば、一態様では、複数の入力テキスト投稿を含む対話セッションテキストをセグメンテーションするプロセッサ実装方法が提供される。該方法は：複数のユーザに関係する複数の入力テキスト投稿を入手するステップ；（ｉ）複数の入力テキスト投稿からの複数対の隣接する入力テキスト投稿を示す第１評価基準、（ｉｉ）少なくとも２つの連続する入力テキスト投稿間の時差を示す第２評価基準、及び（ｉｉｉ）複数のユーザから１人又は複数のユーザを示す第３評価基準、を含む１つ又は複数の評価基準のための距離値を演算するステップ；１つ又は複数の評価基準のために演算された各距離値に加重（ｗｅｉｇｈｔａｇｅ）を割り当てるステップ；割り当てられた加重に基づいて加重和を演算するステップ；及び複数の入力テキスト投稿における情報損失が所定の閾値に達するまで：１つ又は複数の評価基準に基づいて、加重和から得られた対応する距離値を用いて、複数の入力テキスト投稿からセグメンテーションされた対話セッションテキストを生成すること；及び２つ以上の隣接する入力テキスト投稿、時差、及び１人又は複数のユーザのそれぞれと関連付けられる距離値を更新することを実行するステップを含む。

一実施形態では、第２評価基準用の距離値は、入力テキスト投稿間の時差が所定の閾値未満の場合に、得られる。一実施形態では、１人又は複数のユーザは、（ｉ）投稿するユーザ数及び（ｉｉ）複数の入力テキスト投稿で言及された１人又は複数のユーザ、の少なくとも一方を含む。

別の態様では、複数の入力テキスト投稿を含む対話セッションテキストをセグメンテーションするシステムが提供される。該システムは：命令を記憶するメモリ；１つ又は複数の通信インタフェース；及び１つ又は複数の通信インタフェースを介してメモリと結合される１つ又は複数のハードウェアプロセッサであって、該１つ又は複数のハードウェアプロセッサは、命令によって：複数のユーザに関係する複数の入力テキスト投稿を入手し；（ｉ）複数の入力テキスト投稿からの複数対の隣接する入力テキスト投稿を示す第１評価基準、（ｉｉ）少なくとも２つの連続する入力テキスト投稿間の時差を示す第２評価基準、及び（ｉｉｉ）複数のユーザから１人又は複数のユーザを示す第３評価基準、を含む１つ又は複数の評価基準のための距離値を演算し；１つ又は複数の評価基準のために演算された各距離値に加重を割り当て；割り当てられた加重に基づいて加重和を演算し；複数の入力テキスト投稿における情報損失が所定の閾値に達するまで：１つ又は複数の評価基準に基づいて、加重和から得られた対応する距離値を用いて、複数の入力テキスト投稿からセグメンテーションされた対話セッションテキストを生成すること；及び２つ以上の隣接する入力テキスト投稿、時差、及び１人又は複数のユーザのそれぞれと関連付けられる距離値を更新することを実行するように、構成されるハードウェアプロセッサを含む。

更に別の態様では、１つ又は複数の命令を含む１つ又は複数の非一時的な機械可読な情報記憶媒体が提供される。該１つ又は複数の命令は、１つ又は複数のハードウェアプロセッサによって実行される際に、複数のユーザに関係する入力テキスト投稿を入手し；（ｉ）複数の入力テキスト投稿からの複数対の隣接する入力テキスト投稿を示す第１評価基準、（ｉｉ）少なくとも２つの連続する入力テキスト投稿間の時差を示す第２評価基準、及び（ｉｉｉ）複数のユーザから１人又は複数のユーザを示す第３評価基準、を含む１つ又は複数の評価基準のための距離値を演算し；１つ又は複数の評価基準のために演算された各距離値に加重を割り当て；割り当てられた加重に基づいて加重和を演算し；複数の入力テキスト投稿における情報損失が所定の閾値に達するまで：１つ又は複数の評価基準に基づいて、加重和から得られた対応する距離値を用いて、複数の入力テキスト投稿からセグメンテーションされた対話セッションテキストを生成すること；及び２つ以上の隣接する入力テキスト投稿、時差、及び１人又は複数のユーザのそれぞれに関連付けられる距離値を更新することを実行する方法を、引起す。

上述の一般的な記載と以下の詳細な記載の両方共、例示及び説明だけを目的としており、特許請求の範囲に記載された本発明を制限しないと理解されるべきである。

本開示に組込まれ、本開示の一部を構成する添付図は、例示的実施形態を解説し、明細書と共に、開示された原理を説明する役割を果たす。

本開示の一実施形態による情報ボトルネック（ＩＢ：ＩｎｆｏｒｍａｔｉｏｎＢｏｔｔｌｅｎｅｃｋ）技術を使用して対話セッションテキストをセグメンテーションするシステムの例示的なブロック図を示す。本開示の一実施形態による図１のシステムによって実装された情報ボトルネック（ＩＢ）技術を使用して対話セッションテキストをセグメンテーションする方法の例示的なフロー図を示す。本開示の一例示実施形態による公開の会話に関する手入力で作成されたグラウンドトゥルースについて表している。本開示の一例示実施形態による公開の会話に関する手入力で作成されたグラウンドトゥルースについて表している。本開示の一例示実施形態による公開の会話に関する手入力で作成されたグラウンドトゥルースについて表している。本開示の一実施形態による複数のアプローチに対して得られた結果について表している。本開示の一実施形態による複数のアプローチに対して得られた結果について表している。本開示の一実施形態による複数のアプローチに対して得られた結果について表している。本開示の一例示実施形態による所与の単語頻度より少ない単語の部分について表すグラフ表示を示す。本開示の一実施形態による第１データセットと第２データセットの両方に関するセグメント長の正規化された頻度分布について表すグラフ表示を示す。本開示の一例示実施形態によるハイパーパラメータβに関する第１データセットの試験セット間の、性能評価尺度Ｐ_kの平均の振る舞いについて表すグラフ表示を示している。本開示の一例示実施形態によるハイパーパラメータθに関する第１データセット間の平均評価尺度Ｐ_kのグラフ表示を示している。

例示的実施形態は、添付図を参照して記載される。図面では、参照番号の最も左側の桁（複数可）は、参照番号が最初に出現した図を特定している。便宜上、同じ参照番号は、同じ又は同様な部品を指すために、全図面を通して使用される。開示された原理の実施例及び特徴が本明細書に記載されるが、開示された実施形態の精神及び範囲から逸脱しない範囲で、変形、適合、及び他の実装が可能である。以下の詳細な記載は、例示のみと見なされると共に、以下のクレームによって真の範囲及び精神が示されるものとする。

テキストセグメンテーションに関する研究は、僅かな初期の試みにまで遡る長い歴史がある。それ以来、ＴｅｘｔＴｉｌｉｎｇ、語義埋込みに基づく表現学習、及びトピックモデルを含むが、それらに限定されない、多くの方法が提示されてきた。にもかかわらず、口語体のチャットテキストをセグメンテーションするためには、研究努力が殆ど提案されておらず、その結果、精度が低く、情報の損失を招いていた。

情報ボトルネック（ＩＢ）法は、以前に、自然言語処理（ＮＬＰ：ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ）ドメインにおいてクラスタリングするのに適用されたことがある。具体的には、ＩＢは、目的変数をクラスタリングする際に、目的変数と観測された関連変数との結合確率分布を所与として、精度と圧縮（又は複雑さ）間でトレードオフのバランスをとろうとする。クラスタリングと同様に、提案された本開示及び本開示の実施形態では、テキストセグメンテーションのタスクを、連続したテキスト断片のみを一群にできるという制約を伴う圧縮タスクとして、解釈する。本開示の焦点は、ＩＢフレームワークを利用する対話セッションテキストのセグメンテーションのためのシステム及び方法を提供することである。該プロセスでは、提案された本開示は、テキストセグメンテーションのタスクに対してＩＢから着想を得た目的関数を導入する。提案された開示は、凝集型アルゴリズムを実装して、提案された目的関数を最適化し、該関数は、テキストセグメンテーションに対する必要な経時的連続性の制約にも配慮し、対話セッション（チャット）テキストに対するセグメンテーションに対応し、非テキストの手掛りを組込む。

ＩＢ法は、元々、関連変数についての情報の保存と目的変数の歪み間のトレードオフのバランスをとるレート歪み理論の一般論として導入された。その後、この作業と同様に、貪欲法のボトムアップ型（凝集型）ＩＢに基づくアプローチが、文書クラスタリング等のＮＬＰタスクに上手く適用された。

更に、ＩＢ法は、スピーチダイアライゼーション、画像セグメンテーション、画像クラスタリング、及び可視化を含むが、これらに限定されない複数の機械学習タスクのために広く研究されてきた。特に、画像セグメンテーションは、セグメンテーションをＩＢに基づく方法の圧縮部分と見なした。しかしながら、画像セグメンテーションは、連続性の制約を適用すると、画像内の類似性の活用を無効にする場合があるため、そうした制約を伴わない。また、情報理論用語を目的（ＩＢアプローチの第１項だけ）として利用する更に別の同様な試みが、テキストセグメンテーション及び整列のタスクのために行われた。

概して、典型的なテキストセグメンテーション法は：（ａ）独立したテキスト断片毎にテキスト表現を費やす、及び（ｂ）セグメンテーションの目的を最適化しながら、セグメンテーション境界に対する調査手順を適用する方法を含む。ここで、本開示は、これらを、それらの焦点に基づいて３つのカテゴリ：カテゴリ１−（ａ）、カテゴリ２−（ｂ）、及びカテゴリ３−（ａ）と（ｂ）の両方、に体系付けることによって、テキストセグメンテーションを再検討し、考察する。

カテゴリ１のアプローチは、自然言語テキストで会話をモデル化できるロバストなトピックモデルを開発するのに注がれた多くの努力を利用する、又はそうした努力から利益を享受する。階層ベイズモデルは、教師なしトピックセグメンテーションに対して提案されたものであり、該セグメンテーションは、ベイズセグメンテーションで使用される点別境界サンプリングアルゴリズムを、構造化された（順序に基づく）トピックモデルに統合する。

カテゴリ２のアプローチは、分割型階層的クラスタリング、動的計画法、及びグラフに基づくクラスタリングを含むが、これらに限定されない、テキストセグメンテーションのタスクのために提案された異なる調査手順を含む。この作業は、凝集型ＩＢに基づく階層的クラスタリングアルゴリズムを提案する。このアルゴリズムは、このカテゴリに入るアプローチの集積（ａｒｓｅｎａｌ）に、新たに加わるものだ。

提案された方法と同様に、カテゴリ３は、上記紹介されたセグメンテーションの両特質を包含する。また、単語意味埋込み及び緩和された動的計画法手順の使用も、研究者らによって以前に提案された。本開示では、実施形態、システム及び方法は、チャットの手掛りを利用して、経時的連続性の制約に従って拡張されるＩＢに基づくアプローチを導入する。

上記カテゴリ化の域を超えて、かなりの研究努力が、テキストセグメンテーション用評価尺度の研究につぎ込まれてきた。これらの方法は、提案された方法と似て見えるが、これらの方法は、スレッドコミュニティ内における議論のトピックレベル観点に関してスレッド構造を回復するよう試みるため、異なる。

この作業に対する研究に最も類似する方向は、会話ツリー及びチャット会話を解きほぐすことにある。これらの方向はいずれも、独立した投稿をクラスタ化して、これら投稿のトピック標識とセグメンテーションを同時にもたらす。これらの方法には経時的連続性の制約がなく、遠距離の投稿間でも語句の類似性を考慮する点に注目することが重要である。その上、これらの方法がセグメンテーションだけに適用されるならば、これらの方法は、比較的ごく短い期間のセグメントを生成する可能性が極めて高い。このことは、対応して公開されたデータセットのグラウンドトルース注釈に反映されている。

本開示の実施形態は、経時的連続性の制約に従い拡張される情報ボトルネック法を使用して対話セッションテキストをセグメンテーションするシステム及び方法を提供する。更に、本開示とその実施形態は、２つの連続した投稿間の時間と投稿内での人々への言及等の重要な非テキストの手掛りを利用する。本開示の提案された方法の有効性を確認するために、データが、公開の会話と配備された私有プラットフォームから収集された。実験では、提案された方法が、３．２３％（１１．２５％）の絶対的（相対的）改善をもたらしたことを実証した。

次に、図面、特に図１〜図７を参照すると、全図面を通して一貫して、同様な参照文字は、対応する特徴を指し、好適な実施形態が示されており、これらの実施形態については、以下の例示的なシステム及び、又は方法のいずれかに関連して記載される。

図１は、本開示の実施形態による情報ボトルネック（ＩＢ）技術を使用して対話セッションテキストをセグメンテーションするシステム１００の例示的なブロック図を示す。一実施形態では、システム１００は、１つ又は複数のプロセッサ１０４、通信インタフェース装置（複数可）又は入力／出力（Ｉ／Ｏ）インタフェース（複数可）１０６、及び１つ又は複数のプロセッサ１０４に動作可能に結合される１つ又は複数のデータ記憶装置若しくはメモリ１０２を含む。１つ又は複数のプロセッサ１０４は、１つ又は複数のソフトウェア処理モジュール及び、又はハードウェアプロセッサのいずれかとしてもよい。一実施形態では、１つ又は複数のハードウェアプロセッサは、１つ又は複数のマイクロプロセッサ、マイクロコンピュータ、マイクロコントローラ、デジタル信号プロセッサ、中央演算処理装置、状態機械、論理回路及び、又は動作命令に基づいて信号を操作する任意の装置のいずれかとして、実装できる。他の能力の中では、プロセッサ（複数可）は、メモリに保存されたコンピュータ可読な命令をフェッチし、実行するように構成される。一実施形態では、装置１００は、ラップトップコンピュータ、ノート型パソコン、携帯端末、ワークステーション、メインフレームコンピュータ、サーバ、及びネットワーククラウド等、様々なコンピューティングシステムで実装できる。

Ｉ／Ｏインタフェース装置（複数可）１０６は、例えば、ウェブインタフェース、及びグラフィカルユーザインタフェース等といった様々なソフトウェア及びハードウェアインタフェースを含むことができ、例えば、ＬＡＮケーブル等の有線ネットワーク、及びＷＬＡＮ、セルラ又は衛星等の無線ネットワークを含む、多種多様のネットワークＮ／Ｗ及びプロトコルタイプ内で、複数の通信を促進できる。一実施形態では、Ｉ／Ｏインタフェース装置（複数可）は、多数の装置同士を接続する又は多数の装置を別のサーバに接続するための１つ又は複数のポートを含むことができる。

メモリ１０２は、従来技術で既知の任意のコンピュータ可読な媒体を含んでもよく、該媒体は、例えば、スタティックＲＡＭ（ＳＲＡＭ）及びダイナミックＲＡＭ（ＤＲＡＭ）等の揮発性メモリ及び、又は読出し専用メモリ（ＲＯＭ：ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）や、消去可能プログラマブルＲＯＭ、フラッシュメモリ、ハードディスク、光ディスク、及び磁気テープ等の非揮発性メモリのいずれかを含む。一実施形態では、データベース１０８は、メモリ１０２に記憶でき、その場合データベース１０８は、テキストに関係する情報又は複数のユーザに関係する投稿、２つ以上の隣接する投稿間の距離値、チャットを投稿するユーザの数、及び１つ又は複数の特定のチャットテキストで言及されたユーザの数等を含んでもよいが、これらに限定されない。一実施形態では、メモリ１０２は、上記情報を記憶してもよく、該情報は、本明細書で記載された方法論を実行するために、１つ又は複数のハードウェアプロセッサ１０４によって（又はシステム１００によって）利用される。

図１を参照して、図２は、本開示の一実施形態による図１のシステム１００によって実装される情報ボトルネック（ＩＢ）技術を使用して対話セッションテキストをセグメンテーションする方法の例示的なフロー図を示す。一実施形態では、システム（複数可）１００は、１つ又は複数のハードウェアプロセッサ１０４と動作可能に結合された１つ又は複数のデータ記憶装置又はメモリ１０２を含み、１つ又は複数のプロセッ１０４によって本方法のステップを実行するための命令を記憶するように構成される。次に、本開示の方法のステップについて、図１で図示されたシステム１００の構成要素、及び図２のフロー図を参照して、説明される。本開示の一実施形態では、ステップ２０２で、１つ又は複数のハードウェアプロセッサ１０４は、複数のユーザに関係する複数の入力テキスト投稿を入手する。本開示の一実施形態では、複数の入力テキスト投稿は、対話セッションテキストに含まれてもよい。別の実施形態では、複数の入力テキスト投稿は、リアルタイム（又は略リアルタイム）で入手されてもよく、その場合提案された方法は、リアルタイム（又は略リアルタイム）でシステム１００によって実装及び、又は実行されてもよい。

本開示の一実施形態では、ステップ２０２で、１つ又は複数のハードウェアプロセッサ１０４は、１つ又は複数の評価基準用の距離値を演算する。一実施形態では、１つ又は複数の評価基準は、（ｉ）複数の入力テキスト投稿からの複数対の隣接する入力テキスト投稿を示す第１評価基準、（ｉｉ）少なくとも２つの連続する入力テキスト投稿間の時差を示す第２評価基準、及び（ｉｉｉ）複数のユーザからの１人又は複数のユーザを示す第３評価基準、を含む。つまり、距離値は、（ｉ）複数の入力テキスト投稿からの複数対の隣接する入力テキスト投稿、（ｉｉ）少なくとも２つの連続する入力テキスト投稿間の時差、及び（ｉｉｉ）複数のユーザからの１人又は複数のユーザに基づいて、複数の入力テキスト投稿に対して演算される。一例示実施形態では、１人又は複数のユーザは、（ｉ）１つ又は複数の入力テキスト投稿を投稿するユーザ数、及び（ｉｉ）複数の入力テキスト投稿の少なくとも１つのサブセットに言及された１人又は複数のユーザ、の少なくとも一方を含む。一例示実施形態では、第２評価基準用の距離値は、入力テキスト投稿間の時差が所定の閾値未満のときに、得られる。一例示実施形態では、第１評価基準は、第１レベルのセグメンテーションに関係し、第２評価基準は、第２レベルのセグメンテーションに関係し、第３評価基準は、第３レベルのセグメンテーションに関係する。

本開示の一実施形態では、ステップ２０６で、１つ又は複数のハードウェアプロセッサ１０４は、１つ又は複数の評価基準用に演算される各距離値に加重を割り当てる。本開示の一実施形態では、ステップ２０８で、１つ又は複数のハードウェアプロセッサ１０４は、割り当てられた加重に基づいて加重和を演算する。

本開示の一実施形態では、ステップ２１０で、１つ又は複数のハードウェアプロセッサ１０４は、１つ又は複数の評価基準に基づいて、加重和から得た対応する距離値を使用して、複数の入力テキスト投稿から、セグメンテーションされた対話セッションテキストを生成する。本開示の一実施形態では、加重和に最も対応していない距離値が、複数の入力テキスト投稿からのセグメンテーションされた対話セッションテキストの生成に利用される。本開示の一実施形態では、ステップ２１２で、１つ又は複数のハードウェアプロセッサ１０４は、（ｉ）２つ以上の隣接する入力テキスト投稿それぞれと関連付けられる距離値、（ｉｉ）時差、及び（ｉｉｉ）１人又は複数のユーザを更新する。本開示の一実施形態では、ステップ２１０及び２１２は、複数の入力テキスト投稿における情報損失が所定の閾値（後のセクションで記述される）に達するまで、遂行及び、又は実行される。

以下で示されるものが、本システムによって提案される方法論である。

（ｓｕｂｓｅｑｕｅｎｃｅ）は、Ｃ_a:b＝｛ｃ_a，…，ｃ_b｝として表すことができる。Ｃのセグメンテーションは、セグメント列Ｓ＝｛ｓ₁，…，ｓ_p｝として規定されるが、但し、ｓ_j＝Ｃ_aj:bjであり、ｂ_j+1＝ａ_j+1である。入力テキスト列Ｃを考えると、セグメンテーションは、最も可能性が高いセグメント列Ｓを求めるタスクとして規定される。

提案されたＩＢから着想を得た方法は、チャットシナリオで発生する重要な非テキストの手掛りを組込むために拡張される。より具体的には、２つの連続する投稿間の時間と該投稿中での人々への言及が、テキストセグメンテーションタスクのための提案されたＩＢから着想を得たアプローチに統合される。

ＩＢは、データ点を圧縮しながら、Ｃに関する有意な情報をカプセル化する１組の関連変数Ｒを導入する。同様に、本開示のシステム１００及び実施形態は、セグメント列Ｓが、Ｒについての出来るだけ多くの情報を含有し（即ち、Ｉ（Ｒ；Ｓ）を最大化し）、ＳとＣ間の相互情報によって制約される（即ち、Ｉ（Ｓ；Ｃ）を最小化する）べきことを提案する。ここで、Ｃは、チャットテキスト列であり、前のセクションで導入された表記に従う。ＩＢの目的は、以下を最大化することによって、達成できる。

つまり、上記のＩＢ目的関数は、Ｒの最も情報を提供するセグメンテーションと、Ｃの最もコンパクトな表現とのトレードオフでバランスをとるようにする；但し、βは、相対的な重要性を制御するために、定数パラメータとする。

Ｒは、単語クラスタとしてモデル化され、以下のアルゴリズム１で説明されたように、Ｆを凝集型で最適化する。簡単に言えば、Ｆの最大化は、結局のところ、ｄの最小値に対応する隣接する投稿対を凝集的にマージするということになる。アルゴリズム１では、

ここで、ＪＳＤは、ジャンセン−シャノン−ダイバージェンス（Ｊｅｎｓｅｎ−Ｓｈａｎｎｏｎ−Ｄｉｖｅｒｇｅｎｃｅ）を示す。Ｒ及びｐ（Ｒ，Ｃ）の演算については、以下のセクションで説明される。アルゴリズム１の停止基準は、ＳＣ＞θであり、但し、ＳＣは、以下のように演算される。

ＳＣの値は、より異なるクラスタがマージされる際に、Ｉ（Ｒ，Ｓ）の値の比較的大きい下落（ｄｉｐ）により、減少すると予想される。そのため、ＳＣは、提案されたＩＢアプローチを終了するために強力な手掛りを提供する。ＳＣに関するこの特定の演算の背後にある着想は、話者ダイアライゼーションの同様なタスクで実験された際に、安定した結果が出たことから、来たものである。θの値は、他のハイパーパラメータのように検証データセットに対する性能を最適化することによって調整される。

アルゴリズム１：対話セッションテキストのＩＢから着想を得たセグメンテーション：
入力：結合分布：ｐ（Ｒ，Ｃ）、トレードオフパラメータβ
出力：セグメンテーション列：Ｓ
初期設定：Ｓ←Ｃ

ＩＢから着想を得たテキストセグメンテーションアルゴリズム（アルゴリズム１）は、Ｆの最適化中に、隣接する対のみをマージすることを考えるため、経時的連続性制約を順守する（アルゴリズム１のステップ２、３、及び４を参照）。よって、凝集型ＩＢクラスタリングとは異なる。この結果として、提案されたＩＢに基づくアプローチは、限られた数の関連演算、より正確には、テキスト断片の数に関する線形計算を必要とする。
非テキストの手掛りを組込むこと：

上述したように、非テキストの手掛り／非テキスト情報（２つの連続する投稿間の時間や該投稿間の人々への言及等）は、チャットテキストをセグメンテーションするのに

演算される。ｗ₁、ｗ₂、ｗ₃は、３つの異なる手掛り全てに対して演算された距離項の相対的重要性を示す重みである。方程式／式（４）にある||．||は、ユークリッドノルムを示す。

ここで、方程式（５）で言及されたＧ（Ｓ）及びＨ（Ｓ）は、以下のように演算される。

方程式／式（５）中のＳＣにおける第１項は、アルゴリズム１の停止基準から取得され、残りの第２及び第３項も、同様に導出される。第２項と第３項の両項は、Ｓの基数が減少するに従い減少し、類似の振る舞いを、２つの導入された重要な手掛りに反映する。第１項は、ＲについてのＳに含有される情報の部分を演算し、ＲについてのＣに含有される情報によって正規化される；同様に、第２項は、チャットテキスト列の総持続時間によって正規化されたセグメント間の持続時間の部分（即ち、１−総持続時間によって正規化された全セグメントの持続時間の部分）を演算し、第３項は、同様な項の最大距離（即ち、各投稿が１セグメントである場合）によって投稿者情報に関するセグメント間距離の合計を演算する。
実験：

データセットは、後のセクションで考察される現実世界での会話プラットフォームから収集されたもので、利用された評価尺度は、実験から説明される。また、本開示は、提案されたＩＢアプローチとの公平な比較のために開発された有意な基準値についても記載する。また、考察されるのは、収集されたデータセットの両方について提案されたアプローチによって達成される性能である。最後に、パラメータβ及びθに関する提案されたＩＢアプローチの安定性が、分析される。
データセットの記載：

対話セッションテキストのデータセット、例えば、第１データセット及び第２データセットが、収集され、テキストセグメンテーションタスクのために（手入力で）注釈付けされた。施された注釈は、合意（ｃｏｎｓｅｎｓｕｓ）によって解決された、問題ある事例で利用された。データセットの統計が、一例として、以下で表１に示される。

表１で表されたように、収集された生データは、後でセグメントに分割されるスレッドの形であった。更に、各文書が元のスレッドからのＮ個の連続したセグメントを含有する複数の文書が、作成された。Ｎは、５から１５の間でランダムに選択された。これらの文書の６０％は、重み（ｗ₁，ｗ₂，ｗ₃）、θ及びβを含むハイパーパラメータを調整するのに使用され；残りは、試験に使用された。

第１データセットからの文書の１つのごく一部が、図３Ａ〜図３Ｃに表されている。ここでは、手入力の注釈が、黒の太横線で記されており、また、１）、２）、及び３）として列挙されている。各テキスト行は、会話中に第１データセットのプラットフォームで、ユーザの一人によってなされた投稿である。上述したように、チャットシナリオでは、各投稿は、次の３つの不可欠な構成要素を有する：
１．投稿者（図３Ａ〜図３Ｃにおいて対応するＩＤによって示される、最初から‘−＝［＊ｓａｙｓ’まで）
２．タイムスタンプ（‘−＝［＊’と‘＊］＝−’との間）、及び
３．テキスト内容（‘＊］＝−：：：’の後から終わりまで）。

収集されたチャットデータセットと従来のデータセットとの相違点を実証するために、システム１００は、図４に示されたように、所与の単語頻度より少ない頻度で発生する単語の部分を演算した。特に、図１〜図３Ｆを参照して、図４は、本開示の一例示実施形態による所与の単語頻度より少ない単語の部分について表すグラフ表示を示している。図４から、チャットセグメンテーションのデータセットは、従来のテキストセグメンテーションのデータセットと比較して、それほど頻繁でない単語の割合がかなり高いことが、全く明白である。多量の低頻度の単語が存在すると、語彙単語から外れる割合が増加するため、テキスト類似度法を成功させるのが困難になる。そのため、チャットテキストの処理中に非テキストの手掛りを利用することが、更に重要になる。
評価及びセットアップ：

性能評価のために、本開示の実施形態は、テキストセグメンテーションタスクを評価するのに広く利用されているＰ_k尺度を採用した。固定サイズｋ（通常、文書における全セグメント長の平均の半分）のスライディングウィンドウは、文書全体に亘り上から下までスライドする。ｋだけ離間した投稿全てに関するセグメント間とセグメント内両方の誤りは、推測された境界と注釈された境界とを比較することによって演算される。

関連変数Ｒのセットは、投稿が関連変数として扱われる凝集型ＩＢに基づく文書クラスタリング技術（複数可）を利用することによって推定される単語クラスタとして、モデル化される。その結果、Ｒは、投稿について情報を提供する（ｉｎｆｏｒｍａｔｉｖｅ）単語クラスタを含む。従って、マトリクスｐ（Ｒ；Ｃ）における各エントリｐ（ｒ_i；ｃ_j）は、投稿ｃ_jにおいて単語クラスタｒ_iを得る結合確率を表す。ｐ（ｒ_i；ｃ_j）は、ｒ_i及びｃ_jにおける共通の単語を計数し、その後正規化することによって簡単に計算される。
基準値アプローチ：

比較のために、複数の基準値が開発された。ランダム（Ｒａｎｄｏｍ）では、５〜１５の境界が、ランダムに挿入される。無境界（ＮｏＢｏｕｎｄａｒｙ）の場合には、文書全体が、１つのセグメントとして標識される。次に、テキストセグメンテーションタスク用の古典的なベンチマークである、Ｃ−９９及び動的計画法が実装された。別の極めて単純でしかも効果的な基準値である平均時間（ＡｖｅｒａｇｅＴｉｍｅ）が、準備され、その際、境界は、固定時間が経過した後に、挿入される。固定時間は、注釈されたデータセットの特定の分離部分から計算される。

本開示で行われた実験で利用された次の基準値は、エンコーダ−デコーダ距離である。このアプローチでは、ｓｅｑｕｅｎｃｅ−ｔｏ−ｓｅｑｕｅｎｃｅのＲＮＮエンコーダ−デコーダは、標識部分を除いた公的に使用可能なデータセット（例えば、第１データセット）から１５０万の投稿を利用して訓練された。ネットワークは、２つの隠れ層を含み、隠れ状態の次元は、各層に対して２５６に設定された。符号化表現が、利用され、ユークリッド距離を使用して凝集的に貪欲にマージされた。このアプローチのための停止基準は、投稿者情報に対応する方程式／式（５）における第３項と同様であった。エンコーダ−デコーダ距離と同様に、表現が１００のトピックを有するトピックモデルから来たＬＤＡ距離が、開発された。
定量結果：

第１データセットと第２データセットの両方についてのＩＢの準備された全基準値及び変数の結果は、例として以下で示される表２で言及される：

表２で示されたように、第１データセットと第２データセットの両方に関して、ＩＢの複数の変数は、全ての開発された基準値と比較すると、優れた性能をもたらす。より正確には、第１データセットに関して、提案されたＩＢに基づく方法の４つの異なる変数は、基準値と比較すると、３．２３％の絶対的改善、及び１１．２５％の相対的改善を伴う高性能を達成する。第２データセットの場合、提案された方法の３つの異なる変数は、優れた性能を達成するが、絶対Ｐ_k値に関しては、第２データセットに対するほどの優れた性能は達成しない。かかる振る舞いは、第１データセット（９０００／９００＝１０）と比較して、第２データセット（５０００／８００＝６．２５）に対する１セグメント当りの投稿値が少ないためである可能性があるという仮説が立てられる。また、ＩＢフレームワークにおける時間の手掛りだけが、第２データセットに関して最良の性能を発揮するが、これにより、時間の手掛りの相対的な重要性が、セグメント長が短い（即ち、１セグメント当りの投稿値が低い）データセットに関しては、より高くなることが示される点に留意されたい。提案された仮説を更に実証するために、セグメント長（１セグメント当りの投稿数）の正規化された頻度分布が、図５に示されるように、両データセットに対して推定された。特に、図１〜図４を参照して、図５は、本開示の実施形態による第１データセットと第２データセットの両方に関するセグメント長の正規化された頻度分布について表すグラフ表示を示している。

得られた経験結果が、提案された方法論の主要な仮説を裏付ける点は、注目に値する。というのも、ＩＢの変数は、両データセットに優れた性能をもたらすからである。また、個別の非テキストの手掛りを組込む際に、３．２３％と７．３２％の優れた改善が、テキストからテキスト＋時差で、第１及び第２データセットそれぞれに関して観測されており；同様に、テキストからテキスト＋投稿者で、４．４３％と３．７９％の改善が、第１及び第２データセットそれぞれに関して観測される。更に、最高の性能は、両方の非テキストの手掛りを融合する際に両データセットに関して達成され、これは、手掛りが相補的でもあることを示している。
定性的結果：

図３Ａ、図３Ｂ、図３Ｃの一部分にあるごく一部のチャットテキストに対応する、複数のアプローチ、即ち、平均時間（ＡｖｅｒａｇｅＴｉｍｅ）、ＩＢ：時差、及びＩＢ：テキスト＋時差＋投稿者に関して得られた結果は、図３Ｄ、図３Ｅ、図３Ｆの一部分において提示される。特に、図３Ａ〜図３Ｃは、図１〜図２を参照して、本開示の一例示実施形態による公開の会話（第１データセットの会話）に関して手入力で作成されたグラウンドトゥルースを表している。図３Ａ〜図３Ｃにある実線は、セグメンテーション境界を表している。図３Ｄ〜図３Ｆは、図１〜図３Ｃを参照して、本開示の一実施形態による複数のアプローチに関して得られた結果を表している。平均時間基準値（平均時間で示される）は、３境界を見つけることができたが、該境界の１つは、かなり離れており、これは、固定された持続時間の制約による可能性がある。

同様に、次のＩＢ：時差のアプローチも、正確に最初の２つの境界を見つけられるが、３番目の境界を回復していない。結果は、時間の手掛りが、セグメント長が文書中で大いに異なる場合、それ程効果的にはセグメンテーション境界を再構築できないことを示しているようである。興味深いことには、ＩＢ：テキスト＋時差＋投稿者のアプローチで発生するような３つの手掛り全ての組合せは、グランドトゥルースにおける３セグメンテーション境界全てが高精度で回復されたため、最高の結果をもたらした。従って、本開示は、非テキストの手掛りの組込みが、セグメントチャットテキストに優れた結果を得るのに重要であると考える。
パラメータの効果：

提案されたＩＢに基づく方法の振る舞いを分析するために、ＩＢ：テキストの平均性能尺度Ｐ_kは、第１データセットのテストセット間で、β及びθに関して、演算された。また、結果の再現を容易にするために、全パラメータの最適値が、表３で提案されたＩＢアプローチの全変数について言及された。特に、表３は、表２のＩＢ変数によって得られた結果に対応するパラメータの最適値を表す。

図１〜図５を参照して、図６は、本開示の一例示実施形態によるハイパーパラメータβに関する第１データセットの試験セット間の、性能評価尺度Ｐ_kの平均の振る舞いについて表すグラフ表示を示している。先にも述べたように、パラメータβは、保存される情報量と圧縮レベルとのトレードオフを表している。βの最適値が、両極端に存在しないことが、はっきりと観察でき、これは、提案されるＩＢ法の両項（方程式（１）にあるように）の

ハイパーパラメータθに関する第１データセットの試験セット間の平均性能評価尺度Ｐ_kが、図７に表されている。特に、図１〜図６を参照して、図７は、本開示の一例示実施形態によるハイパーパラメータθに関する第１データセット間の平均評価尺度Ｐ_kのグラフ表示を示している。図７は、停止基準の妥当性を明確にしている。初めに、Ｐ_k値の平均は、より一貫性のある投稿がマージされるほど減少し、特定のθ値未満になるまで減少し続ける。その後、Ｐ_k値の平均は、より異なるセグメントのマージにより、増加し始める可能性がある。θの最適値は、変数間でかなり変動し、表３で言及されたように、本開示で提案された全ＩＢ変数に関して、検証データセットに亘り強制的に調整する必要がある。

本開示は、特にテキストセグメンテーションのために、チャットテキストを処理するための効率的な方法の重要性が高まっていることを強調する。システム１００は、テキストセグメンテーションのためのデータセットを収集し、導入した。チャットテキストデータセットの導入により、システム１００は、チャットテキストに特有のセグメンテーションアプローチについて調査可能になった。更に、本開示で提供された結果は、提案されたＩＢ法が、３．２３％もの絶対的改善をもたらすことを実証している。また、大幅な性能の向上（３．７９％〜７．３２％）が、非テキストの手掛りの組込みで観測されており、これは、そうした手掛りの重要度（ｃｒｉｔｉｃａｌｉｔｙ）を示している。

本明細書は、全ての当業者が実施形態を作製及び使用できるように、本明細書における主題を記載する。主題の実施形態の範囲は、クレームで規定され、当業者が着想する他の変形例を含んでもよい。かかる他の変形例は、クレームの文言と異ならない同様の要素を有するならば、又はクレームの文言とごく僅かな相違点を有する同等な要素を含むならば、クレームの範囲内にあるものとする。

保護の範囲は、かかるプログラム、更にそこにメッセージを有するコンピュータ可読な手段に拡大されると理解されるべきである；かかるコンピュータ可読な記憶手段は、プログラムがサーバ又はモバイル装置又は任意の適当なプログラム可能装置上で動く際に、本方法の１ステップ又は複数のステップを実装するためのプログラム−コード手段を含有する。ハードウェア装置は、例えばサーバ又はパーソナルコンピュータ等のような任意の種類のコンピュータ、又はそれらの組合せを含む、プログラムできる任意の種類の装置とすることができる。また、該装置は、例えば、特定用途向け集積回路（ＡＳＩＣ：ａｐｐｌｉｃａｔｉｏｎ−ｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）といった例えばハードウェア手段、或いは、例えばＡＳＩＣとＦＰＧＡ、又は少なくとも１つのマイクロプロセッサと内部にソフトウェアモジュールが配置された少なくとも１つのメモリといったハードウェアとソフトウェア手段の組合せでありうる手段を含んでもよい。従って、これらの手段は、ハードウェア手段とソフトウェア手段の両方を含むことができる。本明細書に記載された方法の実施形態は、ハードウェア及びソフトウェアに実装し得る。また、装置は、ソフトウェア手段を含んでもよい。或いは、実施形態は、例えば複数のＣＰＵを使用して、異なるハードウェア装置上に実装されてもよい。

本明細書中の実施形態は、ハードウェア要素及びソフトウェア要素を含むことができる。ソフトウェアに実装される実施形態は、ファームウェア、常駐ソフトウェア、マイクロコード等を含むが、これらに限定されない。本明細書に記載された様々なモジュールによって実行される機能は、他のモジュール又は他のモジュールの組合せにおいて実装されてもよい。本明細書の目的のために、コンピュータ使用可能な又はコンピュータ可読な媒体は、命令実行システム、機器、若しくは装置によって、又はそれらと接続して使用するプログラムを、含む、記憶する、通信する、伝搬する、又は移植できる任意の機器とすることができる。

解説されたステップは、図示された例示実施形態について説明するために提示されたもので、現在進行中の技術開発が、特定の機能の実行される様式を変化させるであろうことは、見込まれるべきである。これらの実施例は、限定ではなく、説明目的で本明細書に提示されている。更に、機能を構築する各ブロックの境界は、記載の便宜上、本明細書では恣意的に規定されている。代替的境界は、本明細書で記述された機能及び関係が適切に実行される限りにおいて、規定され得る。代替手段（本明細書に記載されたものの、同等物、拡張物、変形物、仕様変更物（ｄｅｖｉａｔｉｏｎ）等を含む）は、本明細書に含有される教示に基づいて、関連技術の当業者には明らかであろう。かかる代替手段は、開示された実施形態の範囲及び精神の範囲内にある。また、単語「含む（ｃｏｍｐｒｉｓｉｎｇ）」、「有する（ｈａｖｉｎｇ）」、「含有する（ｃｏｎｔａｉｎｉｎｇ）」及び「含む（ｉｎｃｌｕｄｉｎｇ）」、及び他の同様な形は、意味において同等であり、これらの単語のいずれか１つに続く一項目又は複数の項目が、かかる項目若しくは複数の項目の総記を意味せず、又は列記された項目若しくは複数の項目だけに限定されることを意味しない点で、オープンエンドであると意図される。また、本明細書及び付記されるクレームで使用される単数形の「ａ」、「ａｎ」、及び「ｔｈｅ」は、その文脈で別段明記していない限り、複数の参照物も含むことにも、注意されねばならない。

更に、１つ又は複数のコンピュータ可読な記憶媒体が、本開示に沿った実施形態を実装する際に利用されてもよい。コンピュータ可読な記憶媒体は、プロセッサによって可読な情報又はデータが記憶されてもよいあらゆる種類の物理的なメモリを指す。従って、コンピュータ可読な記憶媒体は、本明細書に記載された実施形態に沿ったステップ又は段階をプロセッサに実行させる命令を含む、１つ又は複数のプロセッサによって実行する命令を記憶してもよい。用語「コンピュータ可読な媒体」は、有形なアイテムを含み、搬送波及び過渡信号を除外する、即ち非一時的なものと理解されるべきである。実施例は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、揮発性メモリ、不揮発性メモリ、ハードドライブ、ＣＤＲＯＭ、ＤＶＤ、ブルーレイ、フラッシュドライブ、ディスク、及びあらゆる他の既知の物理的記憶媒体を含む。

本開示及び実施例は、例示のみと見なされ、開示された実施形態の真の範囲及び精神は、以下のクレームによって示されるものとする。

Claims

複数の入力テキスト投稿を含む対話セッションテキストをセグメンテーションするプロセッサ実装方法であって、該方法は：
複数のユーザに関係する複数の入力テキスト投稿を入手するステップ（２０２）；
（ｉ）前記複数の入力テキスト投稿からの複数対の隣接する入力テキスト投稿を示す第１評価基準、（ｉｉ）少なくとも２つの連続する入力テキスト投稿間の時差を示す第２評価基準、及び（ｉｉｉ）前記複数のユーザから１人又は複数のユーザを示す第３評価基準、を含む１つ又は複数の評価基準のための距離値を演算するステップ（２０４）；
前記１つ又は複数の評価基準のために演算された前記各距離値に加重を割り当てるステップ（２０６）；
前記割り当てられた加重に基づいて加重和を演算するステップ（２０８）；及び
前記複数の入力テキスト投稿における情報損失が所定の閾値に達するまで、
前記１つ又は複数の評価基準に基づいて、前記加重和から得られた対応する距離値を用いて、前記複数の入力テキスト投稿からセグメンテーションされた対話セッションテキストを生成すること（２１０）；及び
前記２つ以上の隣接する入力テキスト投稿、前記時差、及び前記１人又は複数のユーザのそれぞれと関連付けられる前記距離値を更新すること（２１２）
を実行するステップ
を含む、プロセッサ実装方法。
前記第２評価基準用の前記距離値は、入力テキスト投稿間の時差が所定の閾値未満の場合に、得られる、請求項１に記載のプロセッサ実装方法。
前記１人又は複数のユーザは、（ｉ）投稿するユーザ数及び（ｉｉ）前記複数の入力テキスト投稿で言及された１人又は複数のユーザ、の少なくとも一方を含む、請求項１に記載のプロセッサ実装方法。
複数の入力テキスト投稿を含む対話セッションテキストをセグメンテーションするシステム（１００）であって、該システム（１００）は：
命令を記憶するメモリ（１０２）；
１つ又は複数の通信インタフェース（１０６）；及び
前記１つ又は複数の通信インタフェース（１０６）を介して前記メモリ（１０２）と結合される１つ又は複数のハードウェアプロセッサ（１０４）であって、該１つ又は複数のハードウェアプロセッサ（１０４）は、命令によって：
複数のユーザに関係する前記複数の入力テキスト投稿を入手し；
（ｉ）前記複数の入力テキスト投稿からの複数対の隣接する入力テキスト投稿を示す第１評価基準、（ｉｉ）少なくとも２つの連続する入力テキスト投稿間の時差を示す第２評価基準、及び（ｉｉｉ）前記複数のユーザから１人又は複数のユーザを示す第３評価基準、を含む１つ又は複数の評価基準のための距離値を演算し；
前記１つ又は複数の評価基準のために演算された前記各距離値に加重を割り当て；
前記割り当てられた加重に基づいて加重和を演算し；
前記複数の入力テキスト投稿における情報損失が所定の閾値に達するまで、
前記１つ又は複数の評価基準に基づいて、前記加重和から得られた対応する距離値を用いて、前記複数の入力テキスト投稿からセグメンテーションされた対話セッションテキストを生成すること；及び
前記２つ以上の隣接する入力テキスト投稿、前記時差、及び前記１人又は複数のユーザのそれぞれと関連付けられる前記距離値を更新すること
を実行するように、構成されるハードウェアプロセッサ（１０４）
を含む、システム。
前記第２評価基準用の前記距離値は、入力テキスト投稿間の時差が所定の閾値未満の場合に、得られる、請求項４に記載のシステム。
前記１人又は複数のユーザは、（ｉ）投稿するユーザ数及び（ｉｉ）前記複数の入力テキスト投稿で言及された１人又は複数のユーザ、の少なくとも一方を含む、請求項４に記載のシステム。
１つ又は複数のハードウェアプロセッサによって実行される際に、複数の入力テキスト投稿を含む対話セッションテキストをセグメンテーションするプロセッサ実装方法を引起す１つ又は複数の命令を含む１つ又は複数の非一時的な機械可読な情報記憶媒体であって、前記方法は：
複数のユーザに関係する複数の入力テキスト投稿を入手するステップ；
（ｉ）前記複数の入力テキスト投稿からの複数対の隣接する入力テキスト投稿を示す第１評価基準、（ｉｉ）少なくとも２つの連続する入力テキスト投稿間の時差を示す第２評価基準、及び（ｉｉｉ）前記複数のユーザから１人又は複数のユーザを示す第３評価基準、を含む１つ又は複数の評価基準のための距離値を演算するステップ；
前記１つ又は複数の評価基準のために演算された前記各距離値に加重を割り当てるステップ；
前記割り当てられた加重に基づいて加重和を演算するステップ；及び
前記複数の入力テキスト投稿における情報損失が所定の閾値に達するまで、
前記１つ又は複数の評価基準に基づいて、前記加重和から得られた対応する距離値を用いて、前記複数の入力テキスト投稿からセグメンテーションされた対話セッションテキストを生成すること；及び
前記２つ以上の隣接する入力テキスト投稿、前記時差、及び前記１人又は複数のユーザのそれぞれに関連付けられる前記距離値を更新すること
を実行するステップ
を含む、１つ又は複数の非一時的な機械可読な情報記憶媒体。
前記第２評価基準用の前記距離値は、入力テキスト投稿間の時差が所定の閾値未満の場合に、得られる、請求項７に記載の１つ又は複数の非一時的な機械可読な情報記憶媒体。
前記１人又は複数のユーザは、（ｉ）投稿するユーザ数及び（ｉｉ）前記複数の入力テキスト投稿で言及された１人又は複数のユーザ、の少なくとも一方を含む、請求項７に記載の１つ又は複数の非一時的な機械可読な情報記憶媒体。