JP7465044B2

JP7465044B2 - 単語および複数単語の表現の性質を学習するための分類エンジン

Info

Publication number: JP7465044B2
Application number: JP2021519838A
Authority: JP
Inventors: ラビノヴィチ、エッラ; スズナジダー、ベンジャミン; スペクター、アーテム; シュナイダーマン、イリヤ; アハロノフ、ラニット; コノプニキ、デイヴィッド; スロニム、ノアム
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2018-10-30
Filing date: 2019-10-25
Publication date: 2024-04-10
Anticipated expiration: 2039-10-25
Also published as: WO2020089752A1; US20200134020A1; US11100287B2; GB202105726D0; GB2593606B; CN112889066A; GB2593606A; CN112889066B; JP2022504705A

Description

本開示は、単語および表現を分類することに関し、より詳細には、単語または表現と区分との間の類似性の尺度を、単語または表現を含むセンテンスに基づいて決定するための分類器を訓練するための技法に関する。

認知処理に対する単語の心理言語学的な性質の影響は、ここ数十年で科学的な調査の主要なトピックとなっている。最も研究された心理言語学的な区分の中には、抽象性、具象性、親しみやすさ、心象、および平均習得年齢（average age of acquisition）がある。例えば、抽象性は、ある表現によって示される概念が、人間の感覚によって直接知覚することができない実体を指す度合いを評価する。単語および表現の心理言語学的な区分を決定することは、ユーザによって入力されたテキストに動的に応答すること（例えば、チャットボットにより）など、人工知能（ＡＩ）の文脈において有用であることが多い。さらには、単語および表現の心理言語学的な区分は、アプリケーションのユーザに提供するコンテンツのタイプを決定することにおいても有用である。例えば、「逸話的（anecdotal）」であるパラグラフ（例えば、実際の出来事または人物の短い物語を含んでいる）は、一般的に抽象的ではなく具象的であると分類され得る単語またはフレーズを含むことが多い。このように、単語が抽象的か、または具象的かを理解することは、特定の状況下のユーザについて自動的にコンテンツ（逸話的なコンテンツなど）を選択することにおいて有用な場合がある。

その特有なコストにより、心理言語学的な性質または区分を手動で決定することは、典型的に結果として限定されたサイズのデータ・セットの作成となるため、有用性が限定される。このように、当分野では、単語およびフレーズの心理言語学的な性質または区分を決定する方法を改善する必要性がある。

本発明の一実施形態によると、方法は、ある区分に関連付けられる第１の単語を含む第１の複数のセンテンス、およびその区分に関連付けられない第２の単語を含む第２の複数のセンテンスを受信することを含む。いくつかの実施形態では、方法は、区分について第１の複数のセンテンスに基づく陽性訓練データおよび区分について第２の複数のセンテンスに基づく陰性訓練データを用いて分類器を訓練することをさらに含む。いくつかの実施形態では、方法は、分類器への入力として第３の単語を含むセンテンスを使用することにより第３の単語と区分との間の相関の尺度を決定することをさらに含む。いくつかの実施形態では、方法は、相関の尺度を使用して、ユーザに提供するコンテンツを選択すること、自動チャット応答を決定すること、またはコンテンツのセットをフィルタリングすること、の一覧から選択されたアクションを実施することをさらに含む。ある実施形態では、コンピューティング・システムは、本明細書において説明される方法を実施するように構成することができる。いくつかの実施形態では、非一過性のコンピュータ可読媒体は、１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサに本明細書において説明される方法を実施させる命令を記憶することができる。

第１の態様によると、ある区分に関連付けられる第１の単語を含む第１の複数のセンテンス、およびその区分に関連付けられない第２の単語を含む第２の複数のセンテンスを受信することと、区分について第１の複数のセンテンスに基づく陽性訓練データおよび区分について第２の複数のセンテンスに基づく陰性訓練データを用いて分類器を訓練することと、分類器への入力として第３の単語を含むセンテンスを使用することにより第３の単語と区分との間の相関の尺度を決定することと、相関の尺度を使用して、ユーザに提供するコンテンツを選択すること、自動チャット応答を決定すること、またはコンテンツのセットをフィルタリングすること、の一覧から選択されたアクションを実施することとを含む、方法が提供される。

第２の態様によると、１つまたは複数のプロセッサと、１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサに方法を実施させる命令を記憶する、非一過性のコンピュータ可読媒体と、を備えるシステムであって、方法が、ある区分に関連付けられる第１の単語を含む第１の複数のセンテンス、およびその区分に関連付けられない第２の単語を含む第２の複数のセンテンスを受信することと、区分について第１の複数のセンテンスに基づく陽性訓練データおよび区分について第２の複数のセンテンスに基づく陰性訓練データを用いて分類器を訓練することと、分類器への入力として第３の単語を含むセンテンスを使用することにより第３の単語と区分との間の相関の尺度を決定することと、相関の尺度を使用して、ユーザに提供するコンテンツを選択すること、自動チャット応答を決定すること、またはコンテンツのセットをフィルタリングすること、の一覧から選択されたアクションを実施することとを含む、システムが提供される。

第３の態様によると、コンピュータ・プログラム製品であって、コンピュータ可読プログラム・コードが具現化されたコンピュータ可読記憶媒体であって、コンピュータ可読プログラム・コードが１つまたは複数のコンピュータ・プロセッサによって方法を実施するように実行可能である、コンピュータ可読記憶媒体を備え、方法が、ある区分に関連付けられる第１の単語を含む第１の複数のセンテンス、およびその区分に関連付けられない第２の単語を含む第２の複数のセンテンスを受信することと、区分について第１の複数のセンテンスに基づく陽性訓練データおよび区分について第２の複数のセンテンスに基づく陰性訓練データを用いて分類器を訓練することと、分類器への入力として第３の単語を含むセンテンスを使用することにより第３の単語と区分との間の相関の尺度を決定することと、相関の尺度を使用して、ユーザに提供するコンテンツを選択すること、自動チャット応答を決定すること、またはコンテンツのセットをフィルタリングすること、の一覧から選択されたアクションを実施することとを含む、コンピュータ・プログラム製品が提供される。

次に、単なる例として、添付の図面を参照して、本発明の実施形態を説明する。

本開示の実施形態を実装することができるコンピューティング環境の図である。本開示の実施形態による、分類器を訓練することに関連したコンポーネント間のデータの交換の図である。本開示の実施形態による、単語と区分との間の類似性の尺度を決定するために分類器を使用することに関連したコンポーネント間のデータの交換の図である。本開示の実施形態による、分類器を訓練するための例示の動作の図である。本開示の実施形態による、単語と区分との間の類似性の尺度を決定するために分類器を使用するための例示の動作の図である。本開示の実施形態を実装することができるコンピューティング・システムの図である。

次に、以下の議論および本出願に付随する図面を参照することにより、本出願をより詳細に説明する。本出願の図面は、単に説明目的のために提供されていること、そのため図面は縮尺通りに描かれていないことに留意されたい。同一および対応する要素は同一の参照符号によって参照されることにも留意されたい。

以下の説明では、本出願の様々な実施形態の理解を提供するために、特定の構造、コンポーネント、材料、寸法、処理ステップおよび技法など多数の具体的な詳細が説明される。しかしながら、当業者であれば本出願の様々な実施形態は、これらの具体的な詳細を伴わずに実践され得ることが諒解されよう。他の事例では、本出願を曖昧にすることを回避するために、周知の構造または処理ステップは詳細に説明されない。

図１は、本開示の実施形態を実装することができるコンピューティング環境１００を図示している。コンピューティング環境１００は、ネットワーク１１０を介して接続されるサーバ１２０およびクライアント１４０を含む。ネットワーク１１０は、ローカル・エリア・ネットワーク（ＬＡＮ）、イントラネット、セルラ・データ・ネットワーク、インターネットなど、サーバ１２０とクライアント１４０との間でデータの交換を可能にするあらゆるタイプの接続を含むことができる。

サーバ１２０は、概して物理的または仮想的なサーバ、デスクトップ・コンピュータ、または他のコンピューティング・デバイスなどのコンピューティング・デバイスの代表である。サーバ１２０は、概して単語およびフレーズを分類することに関する動作を実施する分類エンジン１２２、ならびに概して（例えば、クライアント１４０の）ユーザが分類エンジン１２２などのサーバ１２０によって提供されるサービスと対話する際のインターフェースとして機能するアプリケーション・プログラミング・インターフェース（ＡＰＩ）１２４を備える。サーバ１２０は、概して本開示の実施形態による単語およびフレーズを分類する際に使用されるテキスト（例えば、センテンスを含む）などのコンテンツを記憶するデータ記憶エンティティ（例えば、データベース、リポジトリなど）を表現するデータ・ストア１３０に接続される。データ・ストア１３０中のコンテンツは、ラベル付けされていないデータである場合があり、これは必ずしも人間によってレビューされていないことを意味しており、またラベルまたは他のメタデータに関連付けられない場合がある。データ・ストア１３０はサーバ１２０とは別個に図示されているが、代替的にデータ・ストア１３０はサーバ１２０内に含まれていてもよいことに留意されたい。

クライアント１４０は、概して携帯電話、ラップトップ・コンピュータ、デスクトップ・コンピュータ、タブレットなどのコンピューティング・デバイスの代表である。クライアント１４０は、ユーザが（例えば、クライアント１４０に関連付けられるディスプレイを介して）入力を提供し、出力を受信できるようにするユーザ・インターフェース１４２を含む。いくつかの実施形態では、ユーザ・インターフェース１４２は、（例えば、ＡＰＩのメソッド・コールを介して）ユーザがＡＰＩ１２４を通じてサーバ１２０の分類エンジン１２２と対話できるようにする。ユーザ・インターフェース１４２はクライアント１４０のコンポーネントとして図示されているが、代替的にユーザ・インターフェース１４２はサーバ１２０上に配置されてもよいことに留意されたい。

実施形態によると、分類エンジン１２２は、単語またはフレーズと、区分との間の類似性の尺度を決定するために分類器を訓練する。例えば、分類器は、入力として分類器に提供された単語またはフレーズを含む１つまたは複数のセンテンスに基づいて、単語またはフレーズと、抽象性の区分との間の関連性の強さを示すスコアを出力するように訓練される場合がある。ある実施形態では、分類器は、区分に関連付けられることが分かっているまたは推測される単語を含む複数のセンテンス、および区分に関連付けられないことが分かっているまたは推測される単語を含む複数のセンテンスを用いて訓練される。分類器は、接頭辞、接尾辞、単語またはフレーズあるいはその両方の組合せなどの、センテンスにおいて、ある区分のセマンティックな指標を認識するように訓練される。例えば、接尾辞「ｉｓｍ」および「ｎｅｓｓ」は、抽象性の区分に関連付けられることが多く（例えば、ｈａｐｐｉｎｅｓｓ（幸福）およびｅｘｉｓｔｅｎｔｉａｌｉｓｍ（実存主義）のような単語は抽象概念を表現するため）、センテンス中のこれらの接尾辞の存在は、センテンスが抽象的な単語またはフレーズを含むという指標である。さらには、分類器は、抽象的か抽象的でないか分かっているまたは推測される単語またはフレーズの履歴的な語彙隣接性（lexical neighborhood）に基づいて訓練されるため、分類器は１つまたは複数のセンテンスにおいて、単語またはフレーズの語彙隣接性（例えば、センテンス内の近くの単語および文法構造）に基づいて、以前は未分類の単語またはフレーズの、抽象性を決定することができる。

本開示の実施形態は、様々な機械学習の技法を使用して実装することができる分類器の使用を伴う。例えば、ある実施形態による分類器は、単純ベイズ分類モデル、双方向再帰ニューラル・ネットワーク（ＲＮＮ）、最近傍アルゴリズム、または別のタイプの分類モデルを含むことができる。機械学習モデルは、概して、特定の訓練出力に関連付けられる訓練入力を含む訓練データ・セットを用いて訓練される。例えば、データ・セット内の特定の出力に履歴的に関連付けられるある特徴が、モデルを訓練するために使用される。

一実施形態において、分類エンジン１２２は抽象性の区分について分類器を訓練する。分類エンジン１２２は、データ・ストア１３０から、それぞれが「ｕｔｉｌｉｔａｒｉａｎｉｓｍ（功利主義）」などの抽象性の区分に関連付けられるとして識別された第１の事前分類済単語を含むセンテンスの第１のグループを取り出す。次に、分類エンジン１２２は、データ・ストア１３０から、それぞれが「ｄｏｇ（犬）」などの具象性の区分に関連付けられるとして識別された第２の事前分類済単語を含むセンテンスの第２のグループを取り出す。単語は、ユーザからの手動の入力に基づいて、またはいくつかの実施形態では自動推論に基づいて、事前分類済またはある区分に関連付けられるとして識別される場合がある。例えば、「ｕｔｉｌｉｔａｒｉａｎｉｓｍ（功利主義）」という単語は、その接尾辞（例えば、抽象性を示す接尾辞の辞書に記憶されている可能性がある）に基づいて抽象性の区分に関連付けられると自動的に推論することができる。データ・ストア１３０は、例えば特定の単語またはフレーズを含むセンテンスをクエリされる可能性があるテキストのコンテンツ（例えば、百科事典データ、学術的な記事など）を記憶することができる。センテンスの第１のグループは、（例えば、抽象性の区分を認識するために分類器を訓練するための）陽性訓練データとして使用され、センテンスの第２のグループは（例えば、具象性の指標など、抽象性の非指標を認識するために分類器を訓練するための）陰性訓練データとして使用される。分類器を訓練することは、一部の事例では、それぞれのセンテンスから特徴を抽出することにより、センテンスを「特徴付けること」を伴う場合がある。特徴は、接頭辞、接尾辞、単語、フレーズ、単語の組合せ、単語の数、事前分類済の単語（例えば、「ｕｔｉｌｉｔａｒｉａｎｉｓｍ」および「ｄｏｇ」）に対する単語の近接性などであり得る。特徴は、最近傍アルゴリズムを用いてなど、センテンスのセマンティックな分析を通じて抽出することができる。いくつかの実施形態では、非アルファベットの単語および特殊文字を含む単語は、フィルタリングして除かれるか、そうでなければ特徴に含められない。センテンスの第１のグループから抽出された特徴は、陽性訓練データとして使用され、一方でセンテンスの第２のグループから抽出された特徴は陰性訓練データとして使用される。訓練データがユーザにより手動でラベル付けされず、自動的な語彙分析に基づいて区分に関連付けられる（またはラベル付けされる）ため、陽性および陰性訓練データの生成は、「弱くラベル付けされた」データを生成することとして説明することができる。したがって訓練プロセスは、弱い教師あり訓練プロセスとして説明される場合がある。

いったん訓練されると、分類器は単語を含む１つまたは複数のセンテンスなどの所与の入力データ・セットと、抽象性の区分との間の相関の尺度を決定することができる。一実施形態では、クライアント１４０のユーザは、ユーザ・インターフェース１４２への入力を通じてなど、分類する単語を指定し、クライアント１４０はＡＰＩ１２４のメソッドへのコールを介してなど、単語を分類する要求を分類エンジン１２２に伝達する。分類エンジン１２２は、データ・ストア１３０から、それぞれが分類される単語を含むセンテンスのグループを取り出す。いくつかの実施形態では、分類エンジン１２２は、センテンスのグループの語彙分析を通じてなど、センテンスのグループから特徴を抽出して、その特徴を入力として分類器に提供する。他の実施形態では、分類エンジン１２２はセンテンスのグループを直接入力として分類器に提供し、分類器がセンテンスのグループの中の特徴を識別する。分類器は、センテンスのグループと抽象性の区分との間の相関の尺度を出力する。例えば、ある実施形態では、分類器はセンテンスのグループと区分との間の関連性の強さを示すスコアを出力する。分類エンジン１２２は分類される単語と抽象性の区分との間の相関の尺度を分類器からの出力に基づいて決定する。次いで、相関の尺度は、分類エンジン１２２によって、ＡＰＩ１２４によりクライアント１４０から送信された要求への応答を介してなど、ユーザ・インターフェース１４２に戻される。

分類器は、相関の尺度を決定するために、半径ベースのアルゴリズム（radius-based algorithm）などの最近傍アルゴリズムを使用することができる。一例では、相関の尺度は、センテンス内の分類される近接単語または単語のフレーズの多数決によって定義され、近接単語またはフレーズは、訓練データに含まれる単語またはフレーズに関して、類似性の閾値を上回る場合のみ考慮される。例えば、分類される単語の抽象性スコアは、考慮する近接性内における（例えば、所与のセンテンスにおいて分類される単語の指定された距離内の）概念の総数に対するその抽象的な近接の比率として計算することができる。複数単語のフレーズに対しては、より注意深い処理を行う場合がある。例えば、分類器は、複数単語のフレーズについての抽象性スコアを、その個々の単語の抽象性スコアの平均として計算することができる。いくつかの実施形態では、分類器は、１層の順伝播型および逆伝播型の長短期記憶（ＬＳＴＭ）セルを有する双方向再帰ニューラル・ネットワーク（ＲＮＮ）を含む。他の実施形態では、分類器は、特徴セットとして陽性および陰性訓練データから抽出されたｂａｇ－ｏｆ－ｗｏｒｄｓ（ＢｏＷ）を伴う単純な確率論的な単純ベイズ（ＮＢ）分類器を含む場合がある。抽象性のシグナルは、単語またはフレーズの直近の（immediate）語彙隣接性によって明らかにされ得る（単語またはフレーズを含むセンテンスによって反映されるように）。したがって、分類される単語の相関の尺度（例えば、抽象性スコア）は、いくつかの実施形態では分類器によって決定される事後確率として定義される。

相関の尺度は、いったんクライアント１４０に提供されると、様々な異なる用途で使用することができる。例えば、相関の尺度は、ユーザ・インターフェース１４２を介してユーザに提供される場合がある。別の例では、相関の尺度は別のプロセスの一部として使用される。例えば、ユーザはユーザ・インターフェース１４２を介してサポートのチャットボットと対話することができ、相関の尺度は、単語のユーザによる使用に基づいて、サポートのチャットボットがユーザへの適当な自動チャット応答を決定するために使用することができる。高い抽象性スコアを有する単語は、例えばユーザの問題がチャットボットによって扱うには複雑すぎる可能性があるため、サポートのチャットボットがライブ・サポート・エージェントに会話を渡すべきである指標となり得る。別の例では、相関の尺度を使用してユーザの年齢を決定する。高い抽象性スコアを有する単語は、例えばより一般的に、若年のユーザよりも高齢のユーザにより使用される場合がある。このように、ユーザによって使用される単語の抽象性に基づいて、異なるコンテンツがユーザに提供される場合がある。さらには、逸話的なコンテンツには一般的により具体的な単語が多く、抽象的な単語が少なく含まれるため、抽象性スコアを使用して所与のテキストのセットが「逸話的」である程度を決定することができる。このように、抽象性スコアを使用して、ユーザに提供する逸話的なコンテンツを識別することができる。

抽象性は単に区分の例として含まれ、本明細書において説明される技法は、単語またはフレーズとあらゆるタイプの区分との間の関連性を決定するために使用可能であることに留意されたい。区分の他のタイプとしては、例えば論争、感情、および事実を挙げることができる。ラベル付けされていないコンテンツにおいて、これらの区分を認識する能力は、特定の状況下でユーザに提供するコンテンツのフィルタリング、コンテンツの選択など、様々な目的で有用である場合があることを理解されたい。

本開示の実施形態は、手動分類または手動でラベル付けされた訓練データに基づく自動分類などの、単語またはフレーズを分類するための従来技法に対する改善をもたらす。ラベル付けされていないデータ・セットから自動的に訓練データを導出する能力により、分類器をより膨大な量の訓練データを用いてより効率的に訓練することができ、それにより分類器の機能性を改善する。さらには、分類器を訓練するための既存のラベル付けされていないデータ・セットを使用することは、分類器を訓練するために必要とされる時間およびリソースを実質的に低減する。弱い教師あり機械学習プロセスに基づいて単語またはフレーズと区分との間の相関の尺度を自動的に決定する能力により、自動的にユーザに提供するコンテンツを選択すること、コンテンツをフィルタリングすること、自動化されたカスタマ・サポートを提供すること、および年齢または専門知識のレベルなどのユーザ特性を識別することなど、改善された自動的な決定を可能にする。

図２は、本開示の実施形態による、分類器を訓練することに関連したコンポーネント間のデータの交換の例２００を図示している。

訓練モジュール２２０は、概して分類器２３０を訓練することに関する動作を実施する。訓練モジュール２２０および分類器２３０は、図１の分類エンジン１２２のコンポーネントを表現してもよい。データ・ストア１３０は、図１のデータ・ストア１３０を表現している。

例２００では、訓練モジュール２２０は、特定の単語を含むセンテンスについての要求２０２をデータ・ストア１３０に送信する。一実施形態では、要求２０２は、区分（例えば、抽象性）に関連付けられるとして識別される第１の単語、およびその区分に関連付けられないとして識別される第２の単語（例えば第２の単語は、具象性など、その区分とは反対の区分に関連付けられる場合がある）を指定するクエリである。要求２０２に応答して、データ・ストア１３０はセンテンス２０４を訓練モジュール２２０に送信する。センテンス２０４は、それぞれが第１の単語を含むセンテンスの第１のグループ、およびそれぞれが第２の単語を含むセンテンスの第２のグループを含む。訓練モジュール２２０は、区分についての陽性訓練データを生成するためにセンテンスの第１のグループを、また区分についての陰性訓練データを生成するためにセンテンスの第２のグループを使用する。例えば、訓練モジュール２２０は、区分の指標または非指標である特徴を決定するために、それぞれのセンテンスの語彙分析を実施することができる（例えば、センテンスの第１のグループの特徴は区分の指標であり、センテンスの第２のグループの特徴は区分の非指標である）。

訓練モジュール２２０は、陽性訓練データおよび陰性訓練データを含む訓練データ２０６を使用して分類器２３０を訓練する。例えば、分類器２３０は、半径ベースの最近傍アルゴリズムを含む双方向再帰ニューラル・ネットワーク（ＲＮＮ）であってもよく、または単純ベイズ分類器であってもよい。

図３は、本開示の実施形態による、単語と区分との間の類似性の尺度を決定するために分類器を使用することに関連したコンポーネント間のデータの交換の例３００を図示している。

例３００は図１のクライアント１４０、分類エンジン１２２、およびデータ・ストア１３０を含む。クライアント１４０は、単語３０４を分類するための要求中などにおいて、単語３０４を分類エンジン１２２に送信する（例えば、図１のＡＰＩ１２４を介して）。一実施形態では、クライアント１４０は、単語３０４をユーザからの入力として受信し、ユーザへどのように応答するかを決定することを支援するために単語３０４を分類するプロセスを開始する。分類エンジン１２２はクライアント１４０から単語３０４を受信し、単語３０４を含む１つまたは複数のセンテンスについての要求３０６をデータ・ストア１３０に送信する。

要求３０６に応答して、データ・ストア１３０はセンテンス３０８を分類エンジン１２２に提供する。センテンス３０８のそれぞれは単語３０４を含む。分類エンジン１２２は、センテンス３０８またはセンテンス３０８から導出した特徴を入力として訓練済分類器に提供すること、および訓練済分類器から相関の尺度を出力として受信することなどによって、単語３０４と特定の区分との間の相関の尺度を決定する。例えば、訓練済分類器は図２の分類器２３０であってもよい。分類エンジン１２２は、単語３０４と区分との間の相関の尺度を示すスコア３１０をクライアント１４０に提供する。次いでクライアント１４０は、ユーザに提供するコンテンツを決定することもしくはフィルタリングすること、またはユーザをライブ・サポート・エージェントに渡すかどうかを判断することなど、追加的な処理を実施するためにスコア３１０を使用してもよい。

図４は、本開示の実施形態による、分類器を訓練するための例示の動作４００を図示している。例えば、動作４００は、図１の分類エンジン１２２によって実施され得る。

ブロック４０２において、区分に関連付けられる第１の単語を含む第１の複数のセンテンスが受信される。例えば、分類エンジン１２２は、第１の単語を含むセンテンスについての要求を図１のデータ・ストア１３０に送信することができ、それに応答してデータ・ストア１３０は第１の複数のセンテンスを分類エンジン１２２に送信することができる。

ブロック４０４において、区分に関連付けられない第２の単語を含む第２の複数のセンテンスが受信される。例えば、分類エンジン１２２は、第２の単語を含むセンテンスについての要求を図１のデータ・ストア１３０に送信することができ、それに応答してデータ・ストア１３０は第２の複数のセンテンスを分類エンジン１２２に送信することができる。

ブロック４０６において、分類器は、第１の複数のセンテンスに基づく陽性訓練データ・セットおよび第２の複数のセンテンスに基づく陰性訓練データ・セットを使用してその区分について訓練される。例えば、分類エンジン１２２は、陽性訓練データとして使用するための特徴を決定するための第１の複数のセンテンスに対して、また陰性訓練データとして使用するための特徴を決定するための第２の複数のセンテンスに対して語彙分析を実施することができ、それに応じて分類器を訓練することができる。分類器は、抽象性、具象性、論争、感情、または事実など、１つまたは複数の特定の心理言語学的な区分に関連付けられる場合がある。

図５は、本開示の実施形態による、単語と区分との間の類似性の尺度を決定するために分類器を使用するための例示の動作５００を図示している。動作５００は、例えば図４の動作４００が分類器を訓練するために実施された後、図１の分類エンジン１２２によって実施することができる。

ブロック５０２において、第３の単語を含む第３の複数のセンテンスが受信される。例えば、分類エンジン１２２は、第３の単語と特定の区分との間の相関の尺度を決定するために図１のクライアント１４０から（例えばユーザ入力に基づいて）要求を受信する場合があり、第３の単語を含むセンテンスをデータ・ストア１３０から要求することができる。それに応答して、データ・ストア１３０は第３の複数のセンテンスを分類エンジン１２２に送信することができる。

ブロック５０４において、分類エンジン１２２は第３の複数のセンテンスに基づいて入力を分類器に提供する。一例では、分類エンジン１２２は、図４の動作４００を使用して訓練済の分類器に入力として提供される特徴を決定するために、第３の複数のセンテンスの語彙分析を実施する。

ブロック５０６において、分類エンジン１２２は、分類器からの出力に基づいて第３の単語と特定の区分との間の相関の尺度を決定する。例えば、分類器は、入力された特徴と区分との間の相関の尺度を示すスコアを出力することができ、分類エンジン１２２は第３の単語とその区分との間の相関の尺度としてスコアを使用することができる（例えば、入力された特徴は第３の単語に関連付けられるため）。

図５には図示していないが、相関の尺度は様々な目的のために使用することができる。ある実施形態では、相関の尺度は、追加的な処理を実施するために相関の尺度を使用することができるクライアント・デバイス（例えば、図１のクライアント１４０）に提供される。例えば、クライアント・デバイスは、相関の尺度を使用してユーザに提供するコンテンツを決定することができる。

図６は、本開示の実施形態を実装することができるコンピューティング・システム６００を図示している。例えば、コンピューティング・システム６００は図１のサーバ１２０を表現することができる。

システム６００は、中央処理ユニット（ＣＰＵ）６０２、システム６００への１つまたは複数のＩ／Ｏデバイス・インターフェース６０４（キーボード、ディスプレイ、マウス・デバイスなど、様々なＩ／Ｏデバイスのための接続を提供することができる）、ネットワーク・インターフェース６０６（例えば物理的なネットワーク・インターフェース・カード）、メモリ６０８、ストレージ６１０、および内部接続６１２、を含む。システム６００のうちの１つまたは複数のコンポーネントは、代替的に遠隔に配置され、ネットワーク１１０などのネットワークを介してアクセスすることができることに留意されたい。システム６００のうちの１つまたは複数のコンポーネントは、物理的または仮想化されたコンポーネントを含むことができることが、さらに企図される。

ＣＰＵ６０２は、メモリ６０８に記憶された命令を受信して実行することができる。同様に、ＣＰＵ６０２はアプリケーションに関連するデータを受信してメモリ６０８に記憶することができる。内部接続６１２は、プログラミング命令およびアプリケーション・データを、ＣＰＵ６０２、Ｉ／Ｏデバイス・インターフェース６０４、ネットワーク・インターフェース６０６、メモリ６０８、およびストレージ６１０の間で伝達する。ＣＰＵ６０２は、単一のＣＰＵ、複数のＣＰＵ、複数の処理コアを有する単一のＣＰＵ、および他の配置構成を代表するように含まれている。

加えて、メモリ６０８は、ランダム・アクセス・メモリを表現することができる。ストレージ６１０は、ディスク・ドライブ、ソリッド・ステート・ドライブ、または複数のストレージ・システムにわたって分散されたストレージ・デバイスの集合であってもよい。単一のユニットとして示されているが、ストレージ６１０は、固定ディスク・ドライブ、リムーバブルなメモリ・カードもしくは光学ストレージ、ネットワーク接続型ストレージ（ＮＡＳ）、またはストレージ・エリア・ネットワーク（ＳＡＮ）など、固定されたまたはリムーバブルのあるいはその両方のストレージ・デバイスの組合せであってもよい。

ストレージ６１０は、単語６２２およびセンテンス６２４を含む。例えば、単語６２２は図１のクライアント１４０からの要求で受信された単語であってもよい。センテンス６２４は、図１のデータ・ストア１３０から受信されたセンテンスであってもよく、本開示の実施形態にしたがって分類器を訓練して使用するために分類エンジン６１４によって使用することができる。

示されるように、メモリ６０８は、図１の分類エンジン１２２およびＡＰＩ１２４を代表する場合がある分類エンジン６１４およびＡＰＩ６１６を含む。

本発明は、システム、方法、またはコンピュータ・プログラム製品あるいはその組合せであり得る。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含むことができる。

コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および記憶することができる有形のデバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイスまたは前述のあらゆる適切な組合せであってもよいが、それに限定はしない。コンピュータ可読記憶媒体のより具体的な例の非網羅的な列挙としては、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュ・メモリ）、静的ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリ・スティック（登録商標）、フロッピー（登録商標）・ディスク、命令を記録されて有するパンチカードまたは溝に刻まれた構造などの機械的にエンコードされたデバイス、および前述のあらゆる適切な組合せ、が挙げられる。本明細書において使用される場合、コンピュータ可読記憶媒体は、電波または他の自由に伝搬する電磁波、導波路もしくは他の伝達媒体を介して伝搬する電磁波（例えば、光ファイバ・ケーブルを通過する光パルス）、または電線を介して伝達される電気的信号など、一過性の信号そのものであると解釈されてはならない。

本明細書において説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から、それぞれのコンピューティング／処理デバイスに、あるいは、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくは無線ネットワークまたはその組合せなどのネットワークを介して、外部のコンピュータまたは外部のストレージ・デバイスに、ダウンロードすることができる。ネットワークは、銅の伝達ケーブル、光学伝達ファイバ、無線伝達、ルータ、ファイヤウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバあるいはその組合せを備えることができる。それぞれのコンピューティング／処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、あるいはスモールトーク（登録商標）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語などの従来的な手続き型プログラミング言語もしくは類似するプログラミング言語、を含む１つまたは複数のプログラミング言語のあらゆる組合せで記述された、ソース・コードまたはオブジェクト・コードのいずれかであってもよい。コンピュータ可読プログラム命令は、すべてユーザのコンピュータ上で、一部はユーザのコンピュータ上でスタンドアロンのソフトウェア・パッケージとして、一部はユーザのコンピュータ上かつ一部は遠隔のコンピュータ上で、またはすべて遠隔のコンピュータ上もしくはサーバ上で、実行できる。後者のシナリオにおいて、遠隔のコンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含むあらゆるタイプのネットワークを介してユーザのコンピュータに接続することができ、または接続は外部のコンピュータ（例えば、インターネット・サービス・プロバイダを使用するインターネットを介して）に対してなされてもよい。一部の実施形態において、例えば、プログラマブル論理回路、フィールドプログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル論理アレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行して電子回路を個別化することができる。

本発明の態様は本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照しながら本明細書において説明される。フローチャート図またはブロック図あるいはその両方のそれぞれのブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実装され得ることが理解されよう。

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行する命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／作用を実装するための手段を作成すべく、汎用コンピュータ、特殊目的コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されてマシンを作るものであってよい。これらのコンピュータ可読プログラム命令はまた、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／作用の態様を実装する命令を含む製造物品を備えるべく、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブル・データ処理装置、または他のデバイスあるいはその組合せに特定のやり方で機能するように指示することができるものであってもよい。

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置、または他のデバイスで実行する命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／作用を実装するべく、コンピュータ実装処理を作るために、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイス上にロードされ、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作可能なステップを実施させるものであってもよい。

図面中のフローチャートおよびブロック図は、本発明の様々な実施形態による、システム、方法、およびコンピュータ・プログラム製品の可能な実装形態の、アーキテクチャ、機能性、および動作を図示している。この点において、フローチャートまたはブロック図のそれぞれのブロックは、指定される論理機能を実装するための１つまたは複数の実行可能な命令を含む、命令のモジュール、セグメント、または部分を表現することができる。一部の代替的な実装形態において、ブロックにおいて示した機能は図面で示した順とは異なって発生してもよい。例えば、連続して示される２つのブロックは、実際には実質的に同時に実行されてもよく、またはブロックは関与する機能性によっては、時に逆の順で実行されてもよい。ブロック図またはフローチャート図あるいはその両方のそれぞれのブロック、およびブロック図またはフローチャート図あるいはその両方のブロックの組合せは、指定される機能もしくは作用を実施する、または特殊目的ハードウェアおよびコンピュータ命令の組合せを実行する、特殊目的ハードウェア・ベースのシステムによって実装され得ることにも留意されたい。

本発明の実施形態は、クラウド・コンピューティングのインフラストラクチャを通じてエンド・ユーザに提供される場合がある。クラウド・コンピューティングとは、一般に、ネットワーク上のサービスとしての、スケーラブルなコンピューティング・リソースのプロビジョンを表す。より正式には、クラウド・コンピューティングは、コンピューティング・リソースと、その基礎となる技術的なアーキテクチャ（例えば、サーバ、ストレージ、ネットワーク）との間での抽象性を提供するコンピューティング性能として定義することができ、最小の管理努力でまたはサービス・プロバイダ対話により迅速にプロビジョンしてリリースすることができる設定可能なコンピューティング・リソースの共有プールへの、便利でオンデマンドなネットワーク・アクセスを可能にしている。したがって、クラウド・コンピューティングにより、コンピューティング・リソースを提供するために使用される基礎となる物理的なシステム（または、そのシステムの場所）を考慮することなく、ユーザは「クラウド」内の仮想コンピューティング・リソース（例えば、ストレージ、データ、アプリケーション、およびさらには完全に仮想化されたコンピューティング・システム）にアクセスすることができる。

典型的には、クラウド・コンピューティング・リソースは従量制でユーザに提供され、ユーザは実際に使用したコンピューティング・リソースに対してのみ課金される（例えば、ユーザにより消費されるストレージ容量、またはユーザによりインスタンス化される仮想化システムの数）。ユーザは、インターネット上でいつでもどこからでも、クラウドに存在するリソースのいずれにもアクセスすることができる。本発明の文脈では、ユーザはクラウドで利用可能なアプリケーション（例えば本明細書において説明される分類エンジン）または関連データにアクセスすることができる。例えば、分類エンジンはクラウド内のコンピューティング・システムで実行することができ、クライアント・デバイスは単語またはフレーズの分類を要求するためにＡＰＩを介して分類エンジンと対話することができる。そのような場合、分類エンジンは単語またはフレーズと区分との間の相関の尺度を生成するために分類器を使用することができ、クラウド内のストレージ場所に相関の尺度を記憶することができる。そのようにすることで、ユーザは、クラウドに接続されるネットワーク（例えば、インターネット）に接続するあらゆるコンピューティング・システムから、この情報にアクセスすることができる。

前述は本発明の実施形態を対象としているが、本発明の他のおよびさらなる実施形態を、その基本的な範囲から逸脱することなく考案することができ、その範囲は以下の特許請求の範囲により決定される。

Claims

コンピュータが実行する方法であって、
ある区分に関連付けられる第１の単語を含む第１の複数のセンテンス、および前記区分に関連付けられない第２の単語を含む第２の複数のセンテンスを受信することと、
前記区分について前記第１の複数のセンテンスに基づく陽性訓練データおよび前記区分について前記第２の複数のセンテンスに基づく陰性訓練データを用いて分類器を訓練することと、
前記分類器への入力として、分類することが求められる第３の単語を含むセンテンスを使用することにより、前記分類器からの出力に基づいて前記第３の単語と前記区分との間の相関の尺度を決定することと、
前記相関の尺度を使用して、
ユーザに提供するコンテンツを選択すること、
自動チャット応答を決定すること、または
コンテンツのセットをフィルタリングすること、
を含む群のいずれかのアクションを実施することと
を含む、方法。
前記分類器を訓練することが、前記第１の複数のセンテンス中の前記第１の単語の文脈、および前記第２の複数のセンテンス中の前記第２の単語の文脈を識別することを含む、請求項１に記載の方法。
前記第１の複数のセンテンス中の前記第１の単語の前記文脈、および前記第２の複数のセンテンス中の前記第２の単語の前記文脈を識別することが、前記第１の複数のセンテンス中の前記第１の単語に近い単語を識別することと、前記第２の複数のセンテンス中の前記第２の単語に近い単語を識別することとを含む、請求項２に記載の方法。
前記陽性訓練データが、単語、フレーズ、接頭辞、または接尾辞のうちの１つまたは複数を含む、請求項１～３のいずれか１項に記載の方法。
前記分類器が、最近傍アルゴリズム、または単純ベイズ・アルゴリズムのうちの１つを含む、請求項１～４のいずれか１項に記載の方法。
前記ユーザに提供する前記コンテンツを選択することが、前記相関の尺度に基づいて逸話的なコンテンツを識別することを含む、請求項１～５のいずれか１項に記載の方法。
前記自動チャット応答を決定することが、
前記相関の尺度に基づいて問題の難易度を決定することと、前記問題の前記難易度に基づいて、前記問題をライブ・サポート・エージェントにエスカレーションするかどうかを選ぶことと
を含む、請求項１～６のいずれか１項に記載の方法。
コンピュータが実行する方法であって、
ある区分に関連付けられる第１の単語を含む第１の複数のセンテンス、および前記区分に関連付けられない第２の単語を含む第２の複数のセンテンスを受信することと、
前記区分について前記第１の複数のセンテンスに基づく陽性訓練データおよび前記区分について前記第２の複数のセンテンスに基づく陰性訓練データを用いて分類器を訓練することと、
前記分類器への入力として第３の単語を含むセンテンスを使用することにより前記第３の単語と前記区分との間の相関の尺度を決定することと、
前記相関の尺度を使用して、
ユーザに提供するコンテンツを選択すること、
自動チャット応答を決定すること、または
コンテンツのセットをフィルタリングすること、
を含む群のいずれかのアクションを実施することと
を含み、
前記区分が、抽象的であると定義される単語を含む、方法。
コンピュータが実行する方法であって、
ある区分に関連付けられる第１の単語を含む第１の複数のセンテンス、および前記区分に関連付けられない第２の単語を含む第２の複数のセンテンスを受信することと、
前記区分について前記第１の複数のセンテンスに基づく陽性訓練データおよび前記区分について前記第２の複数のセンテンスに基づく陰性訓練データを用いて分類器を訓練することと、
前記分類器への入力として第３の単語を含むセンテンスを使用することにより前記第３の単語と前記区分との間の相関の尺度を決定することと、
前記相関の尺度を使用して、
ユーザに提供するコンテンツを選択すること、
自動チャット応答を決定すること、または
コンテンツのセットをフィルタリングすること、
を含む群のいずれかのアクションを実施することと
を含み、
前記分類器を訓練することが、前記第１の複数のセンテンスおよび前記第２の複数のセンテンスから、非アルファベットの単語および特殊文字をフィルタリングして除くことを含む、方法。
前記分類器を訓練することが、前記第１の複数のセンテンス中の前記第１の単語をマスキングすることと、前記第２の複数のセンテンス中の前記第２の単語をマスキングすることとを含む、請求項１～９のいずれか１項に記載の方法。
システムであって、１つまたは複数のプロセッサと、前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに方法を実施させる命令を記憶する、非一過性のコンピュータ可読媒体とを備え、前記方法が、
ある区分に関連付けられる第１の単語を含む第１の複数のセンテンス、および前記区分に関連付けられない第２の単語を含む第２の複数のセンテンスを受信することと、
前記区分について前記第１の複数のセンテンスに基づく陽性訓練データおよび前記区分について前記第２の複数のセンテンスに基づく陰性訓練データを用いて分類器を訓練することと、
前記分類器への入力として、分類することが求められる第３の単語を含むセンテンスを使用することにより、前記分類器からの出力に基づいて前記第３の単語と前記区分との間の相関の尺度を決定することと、
前記相関の尺度を使用して、
ユーザに提供するコンテンツを選択すること、
自動チャット応答を決定すること、または
コンテンツのセットをフィルタリングすること、
を含む群のいずれかのアクションを実施することと
を含む、システム。
コンピュータ・プログラムであって、前記プログラムがコンピュータで実行されると、前記コンピュータが請求項１ないし１０のいずれか１項に記載の方法を実行する、コンピュータ・プログラム。