JP7465044B2 - 単語および複数単語の表現の性質を学習するための分類エンジン - Google Patents

単語および複数単語の表現の性質を学習するための分類エンジン Download PDF

Info

Publication number
JP7465044B2
JP7465044B2 JP2021519838A JP2021519838A JP7465044B2 JP 7465044 B2 JP7465044 B2 JP 7465044B2 JP 2021519838 A JP2021519838 A JP 2021519838A JP 2021519838 A JP2021519838 A JP 2021519838A JP 7465044 B2 JP7465044 B2 JP 7465044B2
Authority
JP
Japan
Prior art keywords
sentences
word
classifier
category
measure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021519838A
Other languages
English (en)
Other versions
JP2022504705A (ja
Inventor
ラビノヴィチ、エッラ
スズナジダー、ベンジャミン
スペクター、アーテム
シュナイダーマン、イリヤ
アハロノフ、ラニット
コノプニキ、デイヴィッド
スロニム、ノアム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2022504705A publication Critical patent/JP2022504705A/ja
Application granted granted Critical
Publication of JP7465044B2 publication Critical patent/JP7465044B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本開示は、単語および表現を分類することに関し、より詳細には、単語または表現と区分との間の類似性の尺度を、単語または表現を含むセンテンスに基づいて決定するための分類器を訓練するための技法に関する。
認知処理に対する単語の心理言語学的な性質の影響は、ここ数十年で科学的な調査の主要なトピックとなっている。最も研究された心理言語学的な区分の中には、抽象性、具象性、親しみやすさ、心象、および平均習得年齢(average age of acquisition)がある。例えば、抽象性は、ある表現によって示される概念が、人間の感覚によって直接知覚することができない実体を指す度合いを評価する。単語および表現の心理言語学的な区分を決定することは、ユーザによって入力されたテキストに動的に応答すること(例えば、チャットボットにより)など、人工知能(AI)の文脈において有用であることが多い。さらには、単語および表現の心理言語学的な区分は、アプリケーションのユーザに提供するコンテンツのタイプを決定することにおいても有用である。例えば、「逸話的(anecdotal)」であるパラグラフ(例えば、実際の出来事または人物の短い物語を含んでいる)は、一般的に抽象的ではなく具象的であると分類され得る単語またはフレーズを含むことが多い。このように、単語が抽象的か、または具象的かを理解することは、特定の状況下のユーザについて自動的にコンテンツ(逸話的なコンテンツなど)を選択することにおいて有用な場合がある。
その特有なコストにより、心理言語学的な性質または区分を手動で決定することは、典型的に結果として限定されたサイズのデータ・セットの作成となるため、有用性が限定される。このように、当分野では、単語およびフレーズの心理言語学的な性質または区分を決定する方法を改善する必要性がある。
本発明の一実施形態によると、方法は、ある区分に関連付けられる第1の単語を含む第1の複数のセンテンス、およびその区分に関連付けられない第2の単語を含む第2の複数のセンテンスを受信することを含む。いくつかの実施形態では、方法は、区分について第1の複数のセンテンスに基づく陽性訓練データおよび区分について第2の複数のセンテンスに基づく陰性訓練データを用いて分類器を訓練することをさらに含む。いくつかの実施形態では、方法は、分類器への入力として第3の単語を含むセンテンスを使用することにより第3の単語と区分との間の相関の尺度を決定することをさらに含む。いくつかの実施形態では、方法は、相関の尺度を使用して、ユーザに提供するコンテンツを選択すること、自動チャット応答を決定すること、またはコンテンツのセットをフィルタリングすること、の一覧から選択されたアクションを実施することをさらに含む。ある実施形態では、コンピューティング・システムは、本明細書において説明される方法を実施するように構成することができる。いくつかの実施形態では、非一過性のコンピュータ可読媒体は、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに本明細書において説明される方法を実施させる命令を記憶することができる。
第1の態様によると、ある区分に関連付けられる第1の単語を含む第1の複数のセンテンス、およびその区分に関連付けられない第2の単語を含む第2の複数のセンテンスを受信することと、区分について第1の複数のセンテンスに基づく陽性訓練データおよび区分について第2の複数のセンテンスに基づく陰性訓練データを用いて分類器を訓練することと、分類器への入力として第3の単語を含むセンテンスを使用することにより第3の単語と区分との間の相関の尺度を決定することと、相関の尺度を使用して、ユーザに提供するコンテンツを選択すること、自動チャット応答を決定すること、またはコンテンツのセットをフィルタリングすること、の一覧から選択されたアクションを実施することとを含む、方法が提供される。
第2の態様によると、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに方法を実施させる命令を記憶する、非一過性のコンピュータ可読媒体と、を備えるシステムであって、方法が、ある区分に関連付けられる第1の単語を含む第1の複数のセンテンス、およびその区分に関連付けられない第2の単語を含む第2の複数のセンテンスを受信することと、区分について第1の複数のセンテンスに基づく陽性訓練データおよび区分について第2の複数のセンテンスに基づく陰性訓練データを用いて分類器を訓練することと、分類器への入力として第3の単語を含むセンテンスを使用することにより第3の単語と区分との間の相関の尺度を決定することと、相関の尺度を使用して、ユーザに提供するコンテンツを選択すること、自動チャット応答を決定すること、またはコンテンツのセットをフィルタリングすること、の一覧から選択されたアクションを実施することとを含む、システムが提供される。
第3の態様によると、コンピュータ・プログラム製品であって、コンピュータ可読プログラム・コードが具現化されたコンピュータ可読記憶媒体であって、コンピュータ可読プログラム・コードが1つまたは複数のコンピュータ・プロセッサによって方法を実施するように実行可能である、コンピュータ可読記憶媒体を備え、方法が、ある区分に関連付けられる第1の単語を含む第1の複数のセンテンス、およびその区分に関連付けられない第2の単語を含む第2の複数のセンテンスを受信することと、区分について第1の複数のセンテンスに基づく陽性訓練データおよび区分について第2の複数のセンテンスに基づく陰性訓練データを用いて分類器を訓練することと、分類器への入力として第3の単語を含むセンテンスを使用することにより第3の単語と区分との間の相関の尺度を決定することと、相関の尺度を使用して、ユーザに提供するコンテンツを選択すること、自動チャット応答を決定すること、またはコンテンツのセットをフィルタリングすること、の一覧から選択されたアクションを実施することとを含む、コンピュータ・プログラム製品が提供される。
次に、単なる例として、添付の図面を参照して、本発明の実施形態を説明する。
本開示の実施形態を実装することができるコンピューティング環境の図である。 本開示の実施形態による、分類器を訓練することに関連したコンポーネント間のデータの交換の図である。 本開示の実施形態による、単語と区分との間の類似性の尺度を決定するために分類器を使用することに関連したコンポーネント間のデータの交換の図である。 本開示の実施形態による、分類器を訓練するための例示の動作の図である。 本開示の実施形態による、単語と区分との間の類似性の尺度を決定するために分類器を使用するための例示の動作の図である。 本開示の実施形態を実装することができるコンピューティング・システムの図である。
次に、以下の議論および本出願に付随する図面を参照することにより、本出願をより詳細に説明する。本出願の図面は、単に説明目的のために提供されていること、そのため図面は縮尺通りに描かれていないことに留意されたい。同一および対応する要素は同一の参照符号によって参照されることにも留意されたい。
以下の説明では、本出願の様々な実施形態の理解を提供するために、特定の構造、コンポーネント、材料、寸法、処理ステップおよび技法など多数の具体的な詳細が説明される。しかしながら、当業者であれば本出願の様々な実施形態は、これらの具体的な詳細を伴わずに実践され得ることが諒解されよう。他の事例では、本出願を曖昧にすることを回避するために、周知の構造または処理ステップは詳細に説明されない。
図1は、本開示の実施形態を実装することができるコンピューティング環境100を図示している。コンピューティング環境100は、ネットワーク110を介して接続されるサーバ120およびクライアント140を含む。ネットワーク110は、ローカル・エリア・ネットワーク(LAN)、イントラネット、セルラ・データ・ネットワーク、インターネットなど、サーバ120とクライアント140との間でデータの交換を可能にするあらゆるタイプの接続を含むことができる。
サーバ120は、概して物理的または仮想的なサーバ、デスクトップ・コンピュータ、または他のコンピューティング・デバイスなどのコンピューティング・デバイスの代表である。サーバ120は、概して単語およびフレーズを分類することに関する動作を実施する分類エンジン122、ならびに概して(例えば、クライアント140の)ユーザが分類エンジン122などのサーバ120によって提供されるサービスと対話する際のインターフェースとして機能するアプリケーション・プログラミング・インターフェース(API)124を備える。サーバ120は、概して本開示の実施形態による単語およびフレーズを分類する際に使用されるテキスト(例えば、センテンスを含む)などのコンテンツを記憶するデータ記憶エンティティ(例えば、データベース、リポジトリなど)を表現するデータ・ストア130に接続される。データ・ストア130中のコンテンツは、ラベル付けされていないデータである場合があり、これは必ずしも人間によってレビューされていないことを意味しており、またラベルまたは他のメタデータに関連付けられない場合がある。データ・ストア130はサーバ120とは別個に図示されているが、代替的にデータ・ストア130はサーバ120内に含まれていてもよいことに留意されたい。
クライアント140は、概して携帯電話、ラップトップ・コンピュータ、デスクトップ・コンピュータ、タブレットなどのコンピューティング・デバイスの代表である。クライアント140は、ユーザが(例えば、クライアント140に関連付けられるディスプレイを介して)入力を提供し、出力を受信できるようにするユーザ・インターフェース142を含む。いくつかの実施形態では、ユーザ・インターフェース142は、(例えば、APIのメソッド・コールを介して)ユーザがAPI124を通じてサーバ120の分類エンジン122と対話できるようにする。ユーザ・インターフェース142はクライアント140のコンポーネントとして図示されているが、代替的にユーザ・インターフェース142はサーバ120上に配置されてもよいことに留意されたい。
実施形態によると、分類エンジン122は、単語またはフレーズと、区分との間の類似性の尺度を決定するために分類器を訓練する。例えば、分類器は、入力として分類器に提供された単語またはフレーズを含む1つまたは複数のセンテンスに基づいて、単語またはフレーズと、抽象性の区分との間の関連性の強さを示すスコアを出力するように訓練される場合がある。ある実施形態では、分類器は、区分に関連付けられることが分かっているまたは推測される単語を含む複数のセンテンス、および区分に関連付けられないことが分かっているまたは推測される単語を含む複数のセンテンスを用いて訓練される。分類器は、接頭辞、接尾辞、単語またはフレーズあるいはその両方の組合せなどの、センテンスにおいて、ある区分のセマンティックな指標を認識するように訓練される。例えば、接尾辞「ism」および「ness」は、抽象性の区分に関連付けられることが多く(例えば、happiness(幸福)およびexistentialism(実存主義)のような単語は抽象概念を表現するため)、センテンス中のこれらの接尾辞の存在は、センテンスが抽象的な単語またはフレーズを含むという指標である。さらには、分類器は、抽象的か抽象的でないか分かっているまたは推測される単語またはフレーズの履歴的な語彙隣接性(lexical neighborhood)に基づいて訓練されるため、分類器は1つまたは複数のセンテンスにおいて、単語またはフレーズの語彙隣接性(例えば、センテンス内の近くの単語および文法構造)に基づいて、以前は未分類の単語またはフレーズの、抽象性を決定することができる。
本開示の実施形態は、様々な機械学習の技法を使用して実装することができる分類器の使用を伴う。例えば、ある実施形態による分類器は、単純ベイズ分類モデル、双方向再帰ニューラル・ネットワーク(RNN)、最近傍アルゴリズム、または別のタイプの分類モデルを含むことができる。機械学習モデルは、概して、特定の訓練出力に関連付けられる訓練入力を含む訓練データ・セットを用いて訓練される。例えば、データ・セット内の特定の出力に履歴的に関連付けられるある特徴が、モデルを訓練するために使用される。
一実施形態において、分類エンジン122は抽象性の区分について分類器を訓練する。分類エンジン122は、データ・ストア130から、それぞれが「utilitarianism(功利主義)」などの抽象性の区分に関連付けられるとして識別された第1の事前分類済単語を含むセンテンスの第1のグループを取り出す。次に、分類エンジン122は、データ・ストア130から、それぞれが「dog(犬)」などの具象性の区分に関連付けられるとして識別された第2の事前分類済単語を含むセンテンスの第2のグループを取り出す。単語は、ユーザからの手動の入力に基づいて、またはいくつかの実施形態では自動推論に基づいて、事前分類済またはある区分に関連付けられるとして識別される場合がある。例えば、「utilitarianism(功利主義)」という単語は、その接尾辞(例えば、抽象性を示す接尾辞の辞書に記憶されている可能性がある)に基づいて抽象性の区分に関連付けられると自動的に推論することができる。データ・ストア130は、例えば特定の単語またはフレーズを含むセンテンスをクエリされる可能性があるテキストのコンテンツ(例えば、百科事典データ、学術的な記事など)を記憶することができる。センテンスの第1のグループは、(例えば、抽象性の区分を認識するために分類器を訓練するための)陽性訓練データとして使用され、センテンスの第2のグループは(例えば、具象性の指標など、抽象性の非指標を認識するために分類器を訓練するための)陰性訓練データとして使用される。分類器を訓練することは、一部の事例では、それぞれのセンテンスから特徴を抽出することにより、センテンスを「特徴付けること」を伴う場合がある。特徴は、接頭辞、接尾辞、単語、フレーズ、単語の組合せ、単語の数、事前分類済の単語(例えば、「utilitarianism」および「dog」)に対する単語の近接性などであり得る。特徴は、最近傍アルゴリズムを用いてなど、センテンスのセマンティックな分析を通じて抽出することができる。いくつかの実施形態では、非アルファベットの単語および特殊文字を含む単語は、フィルタリングして除かれるか、そうでなければ特徴に含められない。センテンスの第1のグループから抽出された特徴は、陽性訓練データとして使用され、一方でセンテンスの第2のグループから抽出された特徴は陰性訓練データとして使用される。訓練データがユーザにより手動でラベル付けされず、自動的な語彙分析に基づいて区分に関連付けられる(またはラベル付けされる)ため、陽性および陰性訓練データの生成は、「弱くラベル付けされた」データを生成することとして説明することができる。したがって訓練プロセスは、弱い教師あり訓練プロセスとして説明される場合がある。
いったん訓練されると、分類器は単語を含む1つまたは複数のセンテンスなどの所与の入力データ・セットと、抽象性の区分との間の相関の尺度を決定することができる。一実施形態では、クライアント140のユーザは、ユーザ・インターフェース142への入力を通じてなど、分類する単語を指定し、クライアント140はAPI124のメソッドへのコールを介してなど、単語を分類する要求を分類エンジン122に伝達する。分類エンジン122は、データ・ストア130から、それぞれが分類される単語を含むセンテンスのグループを取り出す。いくつかの実施形態では、分類エンジン122は、センテンスのグループの語彙分析を通じてなど、センテンスのグループから特徴を抽出して、その特徴を入力として分類器に提供する。他の実施形態では、分類エンジン122はセンテンスのグループを直接入力として分類器に提供し、分類器がセンテンスのグループの中の特徴を識別する。分類器は、センテンスのグループと抽象性の区分との間の相関の尺度を出力する。例えば、ある実施形態では、分類器はセンテンスのグループと区分との間の関連性の強さを示すスコアを出力する。分類エンジン122は分類される単語と抽象性の区分との間の相関の尺度を分類器からの出力に基づいて決定する。次いで、相関の尺度は、分類エンジン122によって、API124によりクライアント140から送信された要求への応答を介してなど、ユーザ・インターフェース142に戻される。
分類器は、相関の尺度を決定するために、半径ベースのアルゴリズム(radius-based algorithm)などの最近傍アルゴリズムを使用することができる。一例では、相関の尺度は、センテンス内の分類される近接単語または単語のフレーズの多数決によって定義され、近接単語またはフレーズは、訓練データに含まれる単語またはフレーズに関して、類似性の閾値を上回る場合のみ考慮される。例えば、分類される単語の抽象性スコアは、考慮する近接性内における(例えば、所与のセンテンスにおいて分類される単語の指定された距離内の)概念の総数に対するその抽象的な近接の比率として計算することができる。複数単語のフレーズに対しては、より注意深い処理を行う場合がある。例えば、分類器は、複数単語のフレーズについての抽象性スコアを、その個々の単語の抽象性スコアの平均として計算することができる。いくつかの実施形態では、分類器は、1層の順伝播型および逆伝播型の長短期記憶(LSTM)セルを有する双方向再帰ニューラル・ネットワーク(RNN)を含む。他の実施形態では、分類器は、特徴セットとして陽性および陰性訓練データから抽出されたbag-of-words(BoW)を伴う単純な確率論的な単純ベイズ(NB)分類器を含む場合がある。抽象性のシグナルは、単語またはフレーズの直近の(immediate)語彙隣接性によって明らかにされ得る(単語またはフレーズを含むセンテンスによって反映されるように)。したがって、分類される単語の相関の尺度(例えば、抽象性スコア)は、いくつかの実施形態では分類器によって決定される事後確率として定義される。
相関の尺度は、いったんクライアント140に提供されると、様々な異なる用途で使用することができる。例えば、相関の尺度は、ユーザ・インターフェース142を介してユーザに提供される場合がある。別の例では、相関の尺度は別のプロセスの一部として使用される。例えば、ユーザはユーザ・インターフェース142を介してサポートのチャットボットと対話することができ、相関の尺度は、単語のユーザによる使用に基づいて、サポートのチャットボットがユーザへの適当な自動チャット応答を決定するために使用することができる。高い抽象性スコアを有する単語は、例えばユーザの問題がチャットボットによって扱うには複雑すぎる可能性があるため、サポートのチャットボットがライブ・サポート・エージェントに会話を渡すべきである指標となり得る。別の例では、相関の尺度を使用してユーザの年齢を決定する。高い抽象性スコアを有する単語は、例えばより一般的に、若年のユーザよりも高齢のユーザにより使用される場合がある。このように、ユーザによって使用される単語の抽象性に基づいて、異なるコンテンツがユーザに提供される場合がある。さらには、逸話的なコンテンツには一般的により具体的な単語が多く、抽象的な単語が少なく含まれるため、抽象性スコアを使用して所与のテキストのセットが「逸話的」である程度を決定することができる。このように、抽象性スコアを使用して、ユーザに提供する逸話的なコンテンツを識別することができる。
抽象性は単に区分の例として含まれ、本明細書において説明される技法は、単語またはフレーズとあらゆるタイプの区分との間の関連性を決定するために使用可能であることに留意されたい。区分の他のタイプとしては、例えば論争、感情、および事実を挙げることができる。ラベル付けされていないコンテンツにおいて、これらの区分を認識する能力は、特定の状況下でユーザに提供するコンテンツのフィルタリング、コンテンツの選択など、様々な目的で有用である場合があることを理解されたい。
本開示の実施形態は、手動分類または手動でラベル付けされた訓練データに基づく自動分類などの、単語またはフレーズを分類するための従来技法に対する改善をもたらす。ラベル付けされていないデータ・セットから自動的に訓練データを導出する能力により、分類器をより膨大な量の訓練データを用いてより効率的に訓練することができ、それにより分類器の機能性を改善する。さらには、分類器を訓練するための既存のラベル付けされていないデータ・セットを使用することは、分類器を訓練するために必要とされる時間およびリソースを実質的に低減する。弱い教師あり機械学習プロセスに基づいて単語またはフレーズと区分との間の相関の尺度を自動的に決定する能力により、自動的にユーザに提供するコンテンツを選択すること、コンテンツをフィルタリングすること、自動化されたカスタマ・サポートを提供すること、および年齢または専門知識のレベルなどのユーザ特性を識別することなど、改善された自動的な決定を可能にする。
図2は、本開示の実施形態による、分類器を訓練することに関連したコンポーネント間のデータの交換の例200を図示している。
訓練モジュール220は、概して分類器230を訓練することに関する動作を実施する。訓練モジュール220および分類器230は、図1の分類エンジン122のコンポーネントを表現してもよい。データ・ストア130は、図1のデータ・ストア130を表現している。
例200では、訓練モジュール220は、特定の単語を含むセンテンスについての要求202をデータ・ストア130に送信する。一実施形態では、要求202は、区分(例えば、抽象性)に関連付けられるとして識別される第1の単語、およびその区分に関連付けられないとして識別される第2の単語(例えば第2の単語は、具象性など、その区分とは反対の区分に関連付けられる場合がある)を指定するクエリである。要求202に応答して、データ・ストア130はセンテンス204を訓練モジュール220に送信する。センテンス204は、それぞれが第1の単語を含むセンテンスの第1のグループ、およびそれぞれが第2の単語を含むセンテンスの第2のグループを含む。訓練モジュール220は、区分についての陽性訓練データを生成するためにセンテンスの第1のグループを、また区分についての陰性訓練データを生成するためにセンテンスの第2のグループを使用する。例えば、訓練モジュール220は、区分の指標または非指標である特徴を決定するために、それぞれのセンテンスの語彙分析を実施することができる(例えば、センテンスの第1のグループの特徴は区分の指標であり、センテンスの第2のグループの特徴は区分の非指標である)。
訓練モジュール220は、陽性訓練データおよび陰性訓練データを含む訓練データ206を使用して分類器230を訓練する。例えば、分類器230は、半径ベースの最近傍アルゴリズムを含む双方向再帰ニューラル・ネットワーク(RNN)であってもよく、または単純ベイズ分類器であってもよい。
図3は、本開示の実施形態による、単語と区分との間の類似性の尺度を決定するために分類器を使用することに関連したコンポーネント間のデータの交換の例300を図示している。
例300は図1のクライアント140、分類エンジン122、およびデータ・ストア130を含む。クライアント140は、単語304を分類するための要求中などにおいて、単語304を分類エンジン122に送信する(例えば、図1のAPI124を介して)。一実施形態では、クライアント140は、単語304をユーザからの入力として受信し、ユーザへどのように応答するかを決定することを支援するために単語304を分類するプロセスを開始する。分類エンジン122はクライアント140から単語304を受信し、単語304を含む1つまたは複数のセンテンスについての要求306をデータ・ストア130に送信する。
要求306に応答して、データ・ストア130はセンテンス308を分類エンジン122に提供する。センテンス308のそれぞれは単語304を含む。分類エンジン122は、センテンス308またはセンテンス308から導出した特徴を入力として訓練済分類器に提供すること、および訓練済分類器から相関の尺度を出力として受信することなどによって、単語304と特定の区分との間の相関の尺度を決定する。例えば、訓練済分類器は図2の分類器230であってもよい。分類エンジン122は、単語304と区分との間の相関の尺度を示すスコア310をクライアント140に提供する。次いでクライアント140は、ユーザに提供するコンテンツを決定することもしくはフィルタリングすること、またはユーザをライブ・サポート・エージェントに渡すかどうかを判断することなど、追加的な処理を実施するためにスコア310を使用してもよい。
図4は、本開示の実施形態による、分類器を訓練するための例示の動作400を図示している。例えば、動作400は、図1の分類エンジン122によって実施され得る。
ブロック402において、区分に関連付けられる第1の単語を含む第1の複数のセンテンスが受信される。例えば、分類エンジン122は、第1の単語を含むセンテンスについての要求を図1のデータ・ストア130に送信することができ、それに応答してデータ・ストア130は第1の複数のセンテンスを分類エンジン122に送信することができる。
ブロック404において、区分に関連付けられない第2の単語を含む第2の複数のセンテンスが受信される。例えば、分類エンジン122は、第2の単語を含むセンテンスについての要求を図1のデータ・ストア130に送信することができ、それに応答してデータ・ストア130は第2の複数のセンテンスを分類エンジン122に送信することができる。
ブロック406において、分類器は、第1の複数のセンテンスに基づく陽性訓練データ・セットおよび第2の複数のセンテンスに基づく陰性訓練データ・セットを使用してその区分について訓練される。例えば、分類エンジン122は、陽性訓練データとして使用するための特徴を決定するための第1の複数のセンテンスに対して、また陰性訓練データとして使用するための特徴を決定するための第2の複数のセンテンスに対して語彙分析を実施することができ、それに応じて分類器を訓練することができる。分類器は、抽象性、具象性、論争、感情、または事実など、1つまたは複数の特定の心理言語学的な区分に関連付けられる場合がある。
図5は、本開示の実施形態による、単語と区分との間の類似性の尺度を決定するために分類器を使用するための例示の動作500を図示している。動作500は、例えば図4の動作400が分類器を訓練するために実施された後、図1の分類エンジン122によって実施することができる。
ブロック502において、第3の単語を含む第3の複数のセンテンスが受信される。例えば、分類エンジン122は、第3の単語と特定の区分との間の相関の尺度を決定するために図1のクライアント140から(例えばユーザ入力に基づいて)要求を受信する場合があり、第3の単語を含むセンテンスをデータ・ストア130から要求することができる。それに応答して、データ・ストア130は第3の複数のセンテンスを分類エンジン122に送信することができる。
ブロック504において、分類エンジン122は第3の複数のセンテンスに基づいて入力を分類器に提供する。一例では、分類エンジン122は、図4の動作400を使用して訓練済の分類器に入力として提供される特徴を決定するために、第3の複数のセンテンスの語彙分析を実施する。
ブロック506において、分類エンジン122は、分類器からの出力に基づいて第3の単語と特定の区分との間の相関の尺度を決定する。例えば、分類器は、入力された特徴と区分との間の相関の尺度を示すスコアを出力することができ、分類エンジン122は第3の単語とその区分との間の相関の尺度としてスコアを使用することができる(例えば、入力された特徴は第3の単語に関連付けられるため)。
図5には図示していないが、相関の尺度は様々な目的のために使用することができる。ある実施形態では、相関の尺度は、追加的な処理を実施するために相関の尺度を使用することができるクライアント・デバイス(例えば、図1のクライアント140)に提供される。例えば、クライアント・デバイスは、相関の尺度を使用してユーザに提供するコンテンツを決定することができる。
図6は、本開示の実施形態を実装することができるコンピューティング・システム600を図示している。例えば、コンピューティング・システム600は図1のサーバ120を表現することができる。
システム600は、中央処理ユニット(CPU)602、システム600への1つまたは複数のI/Oデバイス・インターフェース604(キーボード、ディスプレイ、マウス・デバイスなど、様々なI/Oデバイスのための接続を提供することができる)、ネットワーク・インターフェース606(例えば物理的なネットワーク・インターフェース・カード)、メモリ608、ストレージ610、および内部接続612、を含む。システム600のうちの1つまたは複数のコンポーネントは、代替的に遠隔に配置され、ネットワーク110などのネットワークを介してアクセスすることができることに留意されたい。システム600のうちの1つまたは複数のコンポーネントは、物理的または仮想化されたコンポーネントを含むことができることが、さらに企図される。
CPU602は、メモリ608に記憶された命令を受信して実行することができる。同様に、CPU602はアプリケーションに関連するデータを受信してメモリ608に記憶することができる。内部接続612は、プログラミング命令およびアプリケーション・データを、CPU602、I/Oデバイス・インターフェース604、ネットワーク・インターフェース606、メモリ608、およびストレージ610の間で伝達する。CPU602は、単一のCPU、複数のCPU、複数の処理コアを有する単一のCPU、および他の配置構成を代表するように含まれている。
加えて、メモリ608は、ランダム・アクセス・メモリを表現することができる。ストレージ610は、ディスク・ドライブ、ソリッド・ステート・ドライブ、または複数のストレージ・システムにわたって分散されたストレージ・デバイスの集合であってもよい。単一のユニットとして示されているが、ストレージ610は、固定ディスク・ドライブ、リムーバブルなメモリ・カードもしくは光学ストレージ、ネットワーク接続型ストレージ(NAS)、またはストレージ・エリア・ネットワーク(SAN)など、固定されたまたはリムーバブルのあるいはその両方のストレージ・デバイスの組合せであってもよい。
ストレージ610は、単語622およびセンテンス624を含む。例えば、単語622は図1のクライアント140からの要求で受信された単語であってもよい。センテンス624は、図1のデータ・ストア130から受信されたセンテンスであってもよく、本開示の実施形態にしたがって分類器を訓練して使用するために分類エンジン614によって使用することができる。
示されるように、メモリ608は、図1の分類エンジン122およびAPI124を代表する場合がある分類エンジン614およびAPI616を含む。
本発明は、システム、方法、またはコンピュータ・プログラム製品あるいはその組合せであり得る。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含むことができる。
コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および記憶することができる有形のデバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイスまたは前述のあらゆる適切な組合せであってもよいが、それに限定はしない。コンピュータ可読記憶媒体のより具体的な例の非網羅的な列挙としては、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュ・メモリ)、静的ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック(登録商標)、フロッピー(登録商標)・ディスク、命令を記録されて有するパンチカードまたは溝に刻まれた構造などの機械的にエンコードされたデバイス、および前述のあらゆる適切な組合せ、が挙げられる。本明細書において使用される場合、コンピュータ可読記憶媒体は、電波または他の自由に伝搬する電磁波、導波路もしくは他の伝達媒体を介して伝搬する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、または電線を介して伝達される電気的信号など、一過性の信号そのものであると解釈されてはならない。
本明細書において説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から、それぞれのコンピューティング/処理デバイスに、あるいは、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくは無線ネットワークまたはその組合せなどのネットワークを介して、外部のコンピュータまたは外部のストレージ・デバイスに、ダウンロードすることができる。ネットワークは、銅の伝達ケーブル、光学伝達ファイバ、無線伝達、ルータ、ファイヤウォール、スイッチ、ゲートウェイ・コンピュータまたはエッジ・サーバあるいはその組合せを備えることができる。それぞれのコンピューティング/処理デバイスのネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、あるいはスモールトーク(登録商標)、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語などの従来的な手続き型プログラミング言語もしくは類似するプログラミング言語、を含む1つまたは複数のプログラミング言語のあらゆる組合せで記述された、ソース・コードまたはオブジェクト・コードのいずれかであってもよい。コンピュータ可読プログラム命令は、すべてユーザのコンピュータ上で、一部はユーザのコンピュータ上でスタンドアロンのソフトウェア・パッケージとして、一部はユーザのコンピュータ上かつ一部は遠隔のコンピュータ上で、またはすべて遠隔のコンピュータ上もしくはサーバ上で、実行できる。後者のシナリオにおいて、遠隔のコンピュータは、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含むあらゆるタイプのネットワークを介してユーザのコンピュータに接続することができ、または接続は外部のコンピュータ(例えば、インターネット・サービス・プロバイダを使用するインターネットを介して)に対してなされてもよい。一部の実施形態において、例えば、プログラマブル論理回路、フィールドプログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル論理アレイ(PLA)を含む電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行して電子回路を個別化することができる。
本発明の態様は本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照しながら本明細書において説明される。フローチャート図またはブロック図あるいはその両方のそれぞれのブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実装され得ることが理解されよう。
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/作用を実装するための手段を作成すべく、汎用コンピュータ、特殊目的コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されてマシンを作るものであってよい。これらのコンピュータ可読プログラム命令はまた、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/作用の態様を実装する命令を含む製造物品を備えるべく、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブル・データ処理装置、または他のデバイスあるいはその組合せに特定のやり方で機能するように指示することができるものであってもよい。
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置、または他のデバイスで実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックに指定される機能/作用を実装するべく、コンピュータ実装処理を作るために、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイス上にロードされ、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作可能なステップを実施させるものであってもよい。
図面中のフローチャートおよびブロック図は、本発明の様々な実施形態による、システム、方法、およびコンピュータ・プログラム製品の可能な実装形態の、アーキテクチャ、機能性、および動作を図示している。この点において、フローチャートまたはブロック図のそれぞれのブロックは、指定される論理機能を実装するための1つまたは複数の実行可能な命令を含む、命令のモジュール、セグメント、または部分を表現することができる。一部の代替的な実装形態において、ブロックにおいて示した機能は図面で示した順とは異なって発生してもよい。例えば、連続して示される2つのブロックは、実際には実質的に同時に実行されてもよく、またはブロックは関与する機能性によっては、時に逆の順で実行されてもよい。ブロック図またはフローチャート図あるいはその両方のそれぞれのブロック、およびブロック図またはフローチャート図あるいはその両方のブロックの組合せは、指定される機能もしくは作用を実施する、または特殊目的ハードウェアおよびコンピュータ命令の組合せを実行する、特殊目的ハードウェア・ベースのシステムによって実装され得ることにも留意されたい。
本発明の実施形態は、クラウド・コンピューティングのインフラストラクチャを通じてエンド・ユーザに提供される場合がある。クラウド・コンピューティングとは、一般に、ネットワーク上のサービスとしての、スケーラブルなコンピューティング・リソースのプロビジョンを表す。より正式には、クラウド・コンピューティングは、コンピューティング・リソースと、その基礎となる技術的なアーキテクチャ(例えば、サーバ、ストレージ、ネットワーク)との間での抽象性を提供するコンピューティング性能として定義することができ、最小の管理努力でまたはサービス・プロバイダ対話により迅速にプロビジョンしてリリースすることができる設定可能なコンピューティング・リソースの共有プールへの、便利でオンデマンドなネットワーク・アクセスを可能にしている。したがって、クラウド・コンピューティングにより、コンピューティング・リソースを提供するために使用される基礎となる物理的なシステム(または、そのシステムの場所)を考慮することなく、ユーザは「クラウド」内の仮想コンピューティング・リソース(例えば、ストレージ、データ、アプリケーション、およびさらには完全に仮想化されたコンピューティング・システム)にアクセスすることができる。
典型的には、クラウド・コンピューティング・リソースは従量制でユーザに提供され、ユーザは実際に使用したコンピューティング・リソースに対してのみ課金される(例えば、ユーザにより消費されるストレージ容量、またはユーザによりインスタンス化される仮想化システムの数)。ユーザは、インターネット上でいつでもどこからでも、クラウドに存在するリソースのいずれにもアクセスすることができる。本発明の文脈では、ユーザはクラウドで利用可能なアプリケーション(例えば本明細書において説明される分類エンジン)または関連データにアクセスすることができる。例えば、分類エンジンはクラウド内のコンピューティング・システムで実行することができ、クライアント・デバイスは単語またはフレーズの分類を要求するためにAPIを介して分類エンジンと対話することができる。そのような場合、分類エンジンは単語またはフレーズと区分との間の相関の尺度を生成するために分類器を使用することができ、クラウド内のストレージ場所に相関の尺度を記憶することができる。そのようにすることで、ユーザは、クラウドに接続されるネットワーク(例えば、インターネット)に接続するあらゆるコンピューティング・システムから、この情報にアクセスすることができる。
前述は本発明の実施形態を対象としているが、本発明の他のおよびさらなる実施形態を、その基本的な範囲から逸脱することなく考案することができ、その範囲は以下の特許請求の範囲により決定される。

Claims (12)

  1. コンピュータが実行する方法であって、
    ある区分に関連付けられる第1の単語を含む第1の複数のセンテンス、および前記区分に関連付けられない第2の単語を含む第2の複数のセンテンスを受信することと、
    前記区分について前記第1の複数のセンテンスに基づく陽性訓練データおよび前記区分について前記第2の複数のセンテンスに基づく陰性訓練データを用いて分類器を訓練することと、
    前記分類器への入力として、分類することが求められる第3の単語を含むセンテンスを使用することにより、前記分類器からの出力に基づいて前記第3の単語と前記区分との間の相関の尺度を決定することと、
    前記相関の尺度を使用して、
    ユーザに提供するコンテンツを選択すること、
    自動チャット応答を決定すること、または
    コンテンツのセットをフィルタリングすること、
    を含む群のいずれかのアクションを実施することと
    を含む、方法。
  2. 前記分類器を訓練することが、前記第1の複数のセンテンス中の前記第1の単語の文脈、および前記第2の複数のセンテンス中の前記第2の単語の文脈を識別することを含む、請求項1に記載の方法。
  3. 前記第1の複数のセンテンス中の前記第1の単語の前記文脈、および前記第2の複数のセンテンス中の前記第2の単語の前記文脈を識別することが、前記第1の複数のセンテンス中の前記第1の単語に近い単語を識別することと、前記第2の複数のセンテンス中の前記第2の単語に近い単語を識別することとを含む、請求項2に記載の方法。
  4. 前記陽性訓練データが、単語、フレーズ、接頭辞、または接尾辞のうちの1つまたは複数を含む、請求項1~3のいずれか1項に記載の方法。
  5. 前記分類器が、最近傍アルゴリズム、または単純ベイズ・アルゴリズムのうちの1つを含む、請求項1~4のいずれか1項に記載の方法。
  6. 前記ユーザに提供する前記コンテンツを選択することが、前記相関の尺度に基づいて逸話的なコンテンツを識別することを含む、請求項1~5のいずれか1項に記載の方法。
  7. 前記自動チャット応答を決定することが、
    前記相関の尺度に基づいて問題の難易度を決定することと、前記問題の前記難易度に基づいて、前記問題をライブ・サポート・エージェントにエスカレーションするかどうかを選ぶことと
    を含む、請求項1~6のいずれか1項に記載の方法。
  8. コンピュータが実行する方法であって、
    ある区分に関連付けられる第1の単語を含む第1の複数のセンテンス、および前記区分に関連付けられない第2の単語を含む第2の複数のセンテンスを受信することと、
    前記区分について前記第1の複数のセンテンスに基づく陽性訓練データおよび前記区分について前記第2の複数のセンテンスに基づく陰性訓練データを用いて分類器を訓練することと、
    前記分類器への入力として第3の単語を含むセンテンスを使用することにより前記第3の単語と前記区分との間の相関の尺度を決定することと、
    前記相関の尺度を使用して、
    ユーザに提供するコンテンツを選択すること、
    自動チャット応答を決定すること、または
    コンテンツのセットをフィルタリングすること、
    を含む群のいずれかのアクションを実施することと
    を含み、
    前記区分が、抽象的であると定義される単語を含む、方法。
  9. コンピュータが実行する方法であって、
    ある区分に関連付けられる第1の単語を含む第1の複数のセンテンス、および前記区分に関連付けられない第2の単語を含む第2の複数のセンテンスを受信することと、
    前記区分について前記第1の複数のセンテンスに基づく陽性訓練データおよび前記区分について前記第2の複数のセンテンスに基づく陰性訓練データを用いて分類器を訓練することと、
    前記分類器への入力として第3の単語を含むセンテンスを使用することにより前記第3の単語と前記区分との間の相関の尺度を決定することと、
    前記相関の尺度を使用して、
    ユーザに提供するコンテンツを選択すること、
    自動チャット応答を決定すること、または
    コンテンツのセットをフィルタリングすること、
    を含む群のいずれかのアクションを実施することと
    を含み、
    前記分類器を訓練することが、前記第1の複数のセンテンスおよび前記第2の複数のセンテンスから、非アルファベットの単語および特殊文字をフィルタリングして除くことを含む、方法。
  10. 前記分類器を訓練することが、前記第1の複数のセンテンス中の前記第1の単語をマスキングすることと、前記第2の複数のセンテンス中の前記第2の単語をマスキングすることとを含む、請求項1~9のいずれか1項に記載の方法。
  11. システムであって、1つまたは複数のプロセッサと、前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに方法を実施させる命令を記憶する、非一過性のコンピュータ可読媒体とを備え、前記方法が、
    ある区分に関連付けられる第1の単語を含む第1の複数のセンテンス、および前記区分に関連付けられない第2の単語を含む第2の複数のセンテンスを受信することと、
    前記区分について前記第1の複数のセンテンスに基づく陽性訓練データおよび前記区分について前記第2の複数のセンテンスに基づく陰性訓練データを用いて分類器を訓練することと、
    前記分類器への入力として、分類することが求められる第3の単語を含むセンテンスを使用することにより、前記分類器からの出力に基づいて前記第3の単語と前記区分との間の相関の尺度を決定することと、
    前記相関の尺度を使用して、
    ユーザに提供するコンテンツを選択すること、
    自動チャット応答を決定すること、または
    コンテンツのセットをフィルタリングすること、
    を含む群のいずれかのアクションを実施することと
    を含む、システム。
  12. コンピュータ・プログラムであって、前記プログラムがコンピュータで実行されると、前記コンピュータが請求項1ないし10のいずれか1項に記載の方法を実行する、コンピュータ・プログラム。
JP2021519838A 2018-10-30 2019-10-25 単語および複数単語の表現の性質を学習するための分類エンジン Active JP7465044B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/174,819 US11100287B2 (en) 2018-10-30 2018-10-30 Classification engine for learning properties of words and multi-word expressions
US16/174,819 2018-10-30
PCT/IB2019/059160 WO2020089752A1 (en) 2018-10-30 2019-10-25 Classification engine for learning properties of words and multi-word expressions

Publications (2)

Publication Number Publication Date
JP2022504705A JP2022504705A (ja) 2022-01-13
JP7465044B2 true JP7465044B2 (ja) 2024-04-10

Family

ID=70328741

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021519838A Active JP7465044B2 (ja) 2018-10-30 2019-10-25 単語および複数単語の表現の性質を学習するための分類エンジン

Country Status (5)

Country Link
US (1) US11100287B2 (ja)
JP (1) JP7465044B2 (ja)
CN (1) CN112889066B (ja)
GB (1) GB2593606B (ja)
WO (1) WO2020089752A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005338992A (ja) 2004-05-25 2005-12-08 Fuji Xerox Co Ltd 文書検索装置及びプログラム
JP2008167226A (ja) 2006-12-28 2008-07-17 Hitachi Electronics Service Co Ltd クレーム判定システム
JP2012059183A (ja) 2010-09-13 2012-03-22 Nippon Telegr & Teleph Corp <Ntt> コンテンツ推薦装置,コンテンツ推薦プログラムおよびその記録媒体
CN102682130A (zh) 2012-05-17 2012-09-19 苏州大学 一种文本情感分类方法及系统

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7379867B2 (en) * 2003-06-03 2008-05-27 Microsoft Corporation Discriminative training of language models for text and speech classification
US7260568B2 (en) * 2004-04-15 2007-08-21 Microsoft Corporation Verifying relevance between keywords and web site contents
US8667007B2 (en) * 2011-05-26 2014-03-04 International Business Machines Corporation Hybrid and iterative keyword and category search technique
CN102332012B (zh) * 2011-09-13 2014-10-22 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
EP2862164B1 (en) * 2013-08-23 2017-05-31 Nuance Communications, Inc. Multiple pass automatic speech recognition
US9559993B2 (en) * 2014-10-02 2017-01-31 Oracle International Corporation Virtual agent proxy in a real-time chat service
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
CN105117384A (zh) * 2015-08-19 2015-12-02 小米科技有限责任公司 分类器训练方法、类型识别方法及装置
CN106649345A (zh) 2015-10-30 2017-05-10 微软技术许可有限责任公司 用于新闻的自动会话创建器
US20170213138A1 (en) * 2016-01-27 2017-07-27 Machine Zone, Inc. Determining user sentiment in chat data
CN105787461B (zh) 2016-03-15 2019-07-23 浙江大学 基于文本分类和条件随机场的文献不良反应实体识别方法
US10354009B2 (en) * 2016-08-24 2019-07-16 Microsoft Technology Licensing, Llc Characteristic-pattern analysis of text
CN106897428B (zh) * 2017-02-27 2022-08-09 腾讯科技(深圳)有限公司 文本分类特征提取方法、文本分类方法及装置
CN107943792B (zh) * 2017-11-24 2021-11-23 腾讯科技(深圳)有限公司 一种语句分析方法、装置及终端设备、存储介质
CN108388608B (zh) 2018-02-06 2020-08-04 金蝶软件(中国)有限公司 基于文本感知的情感反馈方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005338992A (ja) 2004-05-25 2005-12-08 Fuji Xerox Co Ltd 文書検索装置及びプログラム
JP2008167226A (ja) 2006-12-28 2008-07-17 Hitachi Electronics Service Co Ltd クレーム判定システム
JP2012059183A (ja) 2010-09-13 2012-03-22 Nippon Telegr & Teleph Corp <Ntt> コンテンツ推薦装置,コンテンツ推薦プログラムおよびその記録媒体
CN102682130A (zh) 2012-05-17 2012-09-19 苏州大学 一种文本情感分类方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梅澤佑介ほか,評価表現と文脈一貫性を利用した教師データ自動獲得によるクレーム文検知,電子情報通信学会技術研究報告,社団法人電子情報通信学会,2012年01月26日,Vol.111, No.427,pp.47-52(NLC2011-64)

Also Published As

Publication number Publication date
WO2020089752A1 (en) 2020-05-07
US20200134020A1 (en) 2020-04-30
US11100287B2 (en) 2021-08-24
GB202105726D0 (en) 2021-06-09
GB2593606B (en) 2022-06-15
CN112889066A (zh) 2021-06-01
GB2593606A (en) 2021-09-29
CN112889066B (zh) 2023-06-23
JP2022504705A (ja) 2022-01-13

Similar Documents

Publication Publication Date Title
US11249774B2 (en) Realtime bandwidth-based communication for assistant systems
US11093707B2 (en) Adversarial training data augmentation data for text classifiers
US11625573B2 (en) Relation extraction from text using machine learning
US10657962B2 (en) Modeling multiparty conversation dynamics: speaker, response, addressee selection using a novel deep learning approach
Aggarwal et al. Classification of fake news by fine-tuning deep bidirectional transformers based language model
US11164026B2 (en) Graphical user interface generation based on image analysis
US20150310096A1 (en) Comparing document contents using a constructed topic model
US20190294682A1 (en) Latent Ambiguity Handling in Natural Language Processing
US11507828B2 (en) Unsupervised hypernym induction machine learning
US20200401910A1 (en) Intelligent causal knowledge extraction from data sources
US10796203B2 (en) Out-of-sample generating few-shot classification networks
US20200160196A1 (en) Methods and systems for detecting check worthy claims for fact checking
Lo et al. An unsupervised multilingual approach for online social media topic identification
Dashtipour et al. An ensemble based classification approach for persian sentiment analysis
US11934787B2 (en) Intent determination in a messaging dialog manager system
Zayed et al. Phrase-level metaphor identification using distributed representations of word meaning
Mani et al. Hi, how can I help you?: Automating enterprise IT support help desks
US11361031B2 (en) Dynamic linguistic assessment and measurement
Sundararajan et al. Textual feature ensemble-based sarcasm detection in Twitter data
US10616532B1 (en) Behavioral influence system in socially collaborative tools
JP7465044B2 (ja) 単語および複数単語の表現の性質を学習するための分類エンジン
US20220269938A1 (en) Presenting thought-provoking questions and answers in response to misinformation
US10971273B2 (en) Identification of co-located artifacts in cognitively analyzed corpora
Oswal Identifying and categorizing offensive language in social media
Akerkar et al. Natural language processing

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210507

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20210409

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220418

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220512

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230613

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230830

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20240208

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20240304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240312

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20240313

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240326

R150 Certificate of patent or registration of utility model

Ref document number: 7465044

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150