JP6833999B2 - 機械学習分類器とともに知識表現を使用するためのシステム及び方法 - Google Patents

機械学習分類器とともに知識表現を使用するためのシステム及び方法 Download PDF

Info

Publication number
JP6833999B2
JP6833999B2 JP2019527560A JP2019527560A JP6833999B2 JP 6833999 B2 JP6833999 B2 JP 6833999B2 JP 2019527560 A JP2019527560 A JP 2019527560A JP 2019527560 A JP2019527560 A JP 2019527560A JP 6833999 B2 JP6833999 B2 JP 6833999B2
Authority
JP
Japan
Prior art keywords
content items
knowledge representation
label
content
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019527560A
Other languages
English (en)
Other versions
JP2019536168A5 (ja
JP2019536168A (ja
Inventor
ウィットニー ウィルソン,マシュー
ウィットニー ウィルソン,マシュー
イリヤス,イハブ
ジェイ. スウィーニー,ピーター
ジェイ. スウィーニー,ピーター
Original Assignee
プライマル フュージョン インコーポレイテッド
プライマル フュージョン インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by プライマル フュージョン インコーポレイテッド, プライマル フュージョン インコーポレイテッド filed Critical プライマル フュージョン インコーポレイテッド
Publication of JP2019536168A publication Critical patent/JP2019536168A/ja
Publication of JP2019536168A5 publication Critical patent/JP2019536168A5/ja
Application granted granted Critical
Publication of JP6833999B2 publication Critical patent/JP6833999B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Description

本開示に記載の教示は、機械学習及び情報検索の分野に関する。詳細には、本出願において開示される教示は、情報を分類し、情報を分類するための分類器モデルをトレーニングし、且つ/又は、分類器の結果を使用して知識表現を洗練させるために、知識表現として表現される1つ以上のデータセットに関連する情報を使用するための方法の、デジタル情報システム環境における展開に関する。
情報技術は、テキスト、オーディオ、ビデオ、及び任意の適切な他のタイプの情報等の様々なタイプの情報をユーザに提供するためにしばしば使用される。いくつかの場合において、情報は、ユーザが行ったアクションに応じて、ユーザに提供される。例えば、情報は、ユーザにより入力された検索クエリに応じて、又は、ユーザが電子メールアラート又は電子ニュースレター等のコンテンツをサブスクライブしたことに応じて、ユーザに提供されることがある。他の場合において、情報は、ユーザがそのような情報を明確に要求していなくても、ユーザに提供又は「プッシュ」される。例えば、広告又は勧誘が、ユーザに時折提示されることがある。
情報技術を介してユーザに提供され得る膨大なコンテンツ及び情報が存在する。実際、インターネット、ワールドワイドウェブ(WWW)、及び任意の他の適切な情報提供ソースを介して利用可能な膨大な量の情報を理由として、且つ、利用可能な情報が、独立して所有及び運営される膨大な数のネットワーク及びサーバにわたって分散されるので、ユーザにとって関心がある情報を特定することは課題を伴う。関心がある情報が大規模なプライベートネットワークに分散されている場合にも同様の課題がある。
本開示において提示される発明のコンセプトが、それぞれが1つ以上のコンセプトを示す複数の異なる実施形態において示されているが、概して、これらのコンセプトは、相互に排他的ではなく、示されていない場合にも組み合わせて使用され得ることを理解されたい。
いくつかの実施形態は、機械学習分類器のためのトレーニングデータを生成する方法であって、関心オブジェクトに基づく、非一時的なコンピュータ読み取り可能なデータ構造として符号化された知識表現を受け取ることであって、前記知識表現は、少なくとも1つの概念及び/又は2つ以上の概念間の関係を含む、受け取ることと、コンテンツ項目の第1のセットを受け取ることであって、前記第1のセットは、ラベルを有しない1つ以上のコンテンツ項目を含み、前記ラベルは、コンテンツ項目を1つ以上のカテゴリに分類する、受け取ることと、前記第1のセットのうちの1つ以上のそれぞれのコンテンツ項目についての1つ以上のスコアを決定することであって、それぞれのコンテンツ項目についてのスコアは、前記知識表現と該それぞれのコンテンツ項目の内容とに基づく、決定することと、前記第1のセットのうちの前記1つ以上のそれぞれのコンテンツ項目に関連付けられたスコアに基づいて、前記第1のセットのうちの前記1つ以上のそれぞれのコンテンツ項目にラベルを割り当てることにより、前記機械学習分類器のための前記トレーニングデータを生成することと、を含む、方法を提供する。
いくつかの実施形態は、機械学習分類器のためのトレーニングデータを生成するためのシステムであって、関心オブジェクトに基づく、非一時的なコンピュータ読み取り可能なデータ構造として符号化された知識表現を受け取ることであって、前記知識表現は、少なくとも1つの概念及び/又は2つ以上の概念間の関係を含む、受け取ることと、コンテンツ項目の第1のセットを受け取ることであって、前記第1のセットは、ラベルを有しない1つ以上のコンテンツ項目を含み、前記ラベルは、コンテンツ項目を1つ以上のカテゴリに分類する、受け取ることと、前記第1のセットのうちの1つ以上のそれぞれのコンテンツ項目についての1つ以上のスコアを決定することであって、それぞれのコンテンツ項目についてのスコアは、前記知識表現と該それぞれのコンテンツ項目の内容とに基づく、決定することと、前記第1のセットのうちの前記1つ以上のそれぞれのコンテンツ項目に関連付けられたスコアに基づいて、前記第1のセットのうちの前記1つ以上のそれぞれのコンテンツ項目にラベルを割り当てることにより、前記機械学習分類器のための前記トレーニングデータを生成することと、を含む方法を実行するよう構成されている少なくとも1つのプロセッサを有する、システムを提供する。
いくつかの実施形態は、プロセッサ実行可能な命令を記憶している少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体であって、前記命令は、少なくとも1つのプロセッサにより実行されたときに、前記少なくとも1つのプロセッサに、機械学習分類器のためのトレーニングデータを生成する方法を実行させ、前記方法は、関心オブジェクトに基づく、非一時的なコンピュータ読み取り可能なデータ構造として符号化された知識表現を受け取ることであって、前記知識表現は、少なくとも1つの概念及び/又は2つ以上の概念間の関係を含む、受け取ることと、コンテンツ項目の第1のセットを受け取ることであって、前記第1のセットは、ラベルを有しない1つ以上のコンテンツ項目を含み、前記ラベルは、コンテンツ項目を1つ以上のカテゴリに分類する、受け取ることと、前記第1のセットのうちの1つ以上のそれぞれのコンテンツ項目についての1つ以上のスコアを決定することであって、それぞれのコンテンツ項目についてのスコアは、前記知識表現と該それぞれのコンテンツ項目の内容とに基づく、決定することと、前記第1のセットのうちの前記1つ以上のそれぞれのコンテンツ項目に関連付けられたスコアに基づいて、前記第1のセットのうちの前記1つ以上のそれぞれのコンテンツ項目にラベルを割り当てることにより、前記機械学習分類器のための前記トレーニングデータを生成することと、を含む、少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体を提供する。
いくつかの実施形態は、機械学習分類器により、少なくとも1つのラベル付けされていないコンテンツ項目を分類する方法であって、関心オブジェクトに基づく、非一時的なコンピュータ読み取り可能なデータ構造として符号化された知識表現を受け取ることであって、前記知識表現は、少なくとも1つの概念及び/又は2つ以上の概念間の関係を含む、受け取ることと、トレーニングデータを受け取ることであって、前記トレーニングデータは、各コンテンツ項目を1つ以上のカテゴリに分類するラベルを有する1つ以上のラベル付けされたコンテンツ項目の第1のセットを含む、受け取ることと、前記知識表現から導出された1つ以上の属性に基づく、前記ラベル付けされたコンテンツ項目の少なくとも1つの特徴を用いて、前記機械学習分類器をトレーニングすることと、前記機械学習分類器により、前記知識表現から導出された前記1つ以上の属性に基づく、前記少なくとも1つのラベル付けされていないコンテンツ項目の少なくとも1つの特徴を用いて、前記少なくとも1つのラベル付けされていないコンテンツ項目を前記1つ以上のカテゴリに分類することと、を含む、方法を提供する。
いくつかの実施形態は、機械学習分類器により、少なくとも1つのラベル付けされていないコンテンツ項目を分類するためのシステムであって、関心オブジェクトに基づく、非一時的なコンピュータ読み取り可能なデータ構造として符号化された知識表現を受け取ることであって、前記知識表現は、少なくとも1つの概念及び/又は2つ以上の概念間の関係を含む、受け取ることと、トレーニングデータを受け取ることであって、前記トレーニングデータは、各コンテンツ項目を1つ以上のカテゴリに分類するラベルを有する1つ以上のラベル付けされたコンテンツ項目の第1のセットを含む、受け取ることと、前記知識表現から導出された1つ以上の属性に基づく、前記ラベル付けされたコンテンツ項目の少なくとも1つの特徴を用いて、前記機械学習分類器をトレーニングすることと、前記機械学習分類器により、前記知識表現から導出された前記1つ以上の属性に基づく、前記少なくとも1つのラベル付けされていないコンテンツ項目の少なくとも1つの特徴を用いて、前記少なくとも1つのラベル付けされていないコンテンツ項目を前記1つ以上のカテゴリに分類することと、を含む方法を実行するよう構成されている少なくとも1つのプロセッサを有する、システムを提供する。
いくつかの実施形態は、プロセッサ実行可能な命令を記憶している少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体であって、前記命令は、少なくとも1つのプロセッサにより実行されたときに、前記少なくとも1つのプロセッサに、機械学習分類器により、少なくとも1つのラベル付けされていないコンテンツ項目を分類する方法を実行させ、前記方法は、関心オブジェクトに基づく、非一時的なコンピュータ読み取り可能なデータ構造として符号化された知識表現を受け取ることであって、前記知識表現は、少なくとも1つの概念及び/又は2つ以上の概念間の関係を含む、受け取ることと、トレーニングデータを受け取ることであって、前記トレーニングデータは、各コンテンツ項目を1つ以上のカテゴリに分類するラベルを有する1つ以上のラベル付けされたコンテンツ項目の第1のセットを含む、受け取ることと、前記知識表現から導出された1つ以上の属性に基づく、前記ラベル付けされたコンテンツ項目の少なくとも1つの特徴を用いて、前記機械学習分類器をトレーニングすることと、前記機械学習分類器により、前記知識表現から導出された前記1つ以上の属性に基づく、前記少なくとも1つのラベル付けされていないコンテンツ項目の少なくとも1つの特徴を用いて、前記少なくとも1つのラベル付けされていないコンテンツ項目を前記1つ以上のカテゴリに分類することと、を含む、少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体を提供する。
いくつかの実施形態は、機械学習分類器に基づいて知識表現を変更する方法であって、関心オブジェクトに基づく、非一時的なコンピュータ読み取り可能なデータ構造として符号化された知識表現を受け取ることであって、前記知識表現は、少なくとも1つの概念及び/又は2つ以上の概念間の関係を含む、受け取ることと、検証データを受け取ることであって、前記検証データは、各コンテンツ項目を、前記関心オブジェクトと関連性があることが既知である第1のカテゴリと、前記関心オブジェクトと関連性がないことが既知である第2のカテゴリと、を含む1つ以上のカテゴリに分類するラベルを有する1つ以上のラベル付けされたコンテンツ項目の第1のセットを含む、受け取ることと、前記知識表現から導出された少なくとも1つの属性を、特徴として使用する機械学習分類器により、前記1つ以上のラベル付けされたコンテンツ項目の各々を、a)前記関心オブジェクトと関連性があるもの、及び、b)前記関心オブジェクトと関連性がないもののうちの一方として、予測することと、前記第1のセットの各コンテンツ項目についての前記機械学習分類器による前記予測と、各コンテンツ項目のラベルと、の比較に基づいて、前記知識表現を変更することと、を含む、方法を提供する。
いくつかの実施形態は、機械学習分類器に基づいて知識表現を変更するためのシステムであって、関心オブジェクトに基づく、非一時的なコンピュータ読み取り可能なデータ構造として符号化された知識表現を受け取ることであって、前記知識表現は、少なくとも1つの概念及び/又は2つ以上の概念間の関係を含む、受け取ることと、検証データを受け取ることであって、前記検証データは、各コンテンツ項目を、前記関心オブジェクトと関連性があることが既知である第1のカテゴリと、前記関心オブジェクトと関連性がないことが既知である第2のカテゴリと、を含む1つ以上のカテゴリに分類するラベルを有する1つ以上のラベル付けされたコンテンツ項目の第1のセットを含む、受け取ることと、前記知識表現から導出された少なくとも1つの属性を、特徴として使用する機械学習分類器により、前記1つ以上のラベル付けされたコンテンツ項目の各々を、a)前記関心オブジェクトと関連性があるもの、及び、b)前記関心オブジェクトと関連性がないもののうちの一方として、予測することと、前記第1のセットの各コンテンツ項目についての前記機械学習分類器による前記予測と、各コンテンツ項目のラベルと、の比較に基づいて、前記知識表現を変更することと、を含む方法を実行するよう構成されている少なくとも1つのプロセッサを有する、システムを提供する。
いくつかの実施形態は、プロセッサ実行可能な命令を記憶している少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体であって、前記命令は、少なくとも1つのプロセッサにより実行されたときに、前記少なくとも1つのプロセッサに、機械学習分類器に基づいて知識表現を変更する方法を実行させ、前記方法は、関心オブジェクトに基づく、非一時的なコンピュータ読み取り可能なデータ構造として符号化された知識表現を受け取ることであって、前記知識表現は、少なくとも1つの概念及び/又は2つ以上の概念間の関係を含む、受け取ることと、検証データを受け取ることであって、前記検証データは、各コンテンツ項目を、前記関心オブジェクトと関連性があることが既知である第1のカテゴリと、前記関心オブジェクトと関連性がないことが既知である第2のカテゴリと、を含む1つ以上のカテゴリに分類するラベルを有する1つ以上のラベル付けされたコンテンツ項目の第1のセットを含む、受け取ることと、前記知識表現から導出された少なくとも1つの属性を、特徴として使用する機械学習分類器により、前記1つ以上のラベル付けされたコンテンツ項目の各々を、a)前記関心オブジェクトと関連性があるもの、及び、b)前記関心オブジェクトと関連性がないもののうちの一方として、予測することと、前記第1のセットの各コンテンツ項目についての前記機械学習分類器による前記予測と、各コンテンツ項目のラベルと、の比較に基づいて、前記知識表現を変更することと、を含む、少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体を提供する。
上記は、請求項により定められる本発明の非限定的な概要であり、この概要は、必ずしも、各請求項の主題を記載しているわけではなく、各請求項は、全ての実施形態ではないが1つ以上の実施形態に関連することを理解されたい。
添付の図面は、縮尺通りに描かれることを意図していない。実用的であるとき、類似の要素は、同一又は類似の参照符号により特定される。明確にするために、全てのコンポーネントが、全ての図面においてラベル付けされているとは限らない。
本発明のいくつかの実施形態を実施する際に使用される例示的なコンピューティングシステムを示すブロック図。 本発明のいくつかの実施形態に従った、教師あり学習技術のための例示的なワークフローを示すフローチャート。 本発明のいくつかの実施形態に従った、関心オブジェクトに基づいて知識表現を合成するための例示的なワークフローを示すフローチャート。 本発明のいくつかの実施形態に従った、例示的な関心オブジェクトの図。 本発明のいくつかの実施形態に従った、関心オブジェクトに基づいてトピック統一資源識別子を抽出するための例示的なワークフローの図。 いくつかの実施形態に従った、関心オブジェクトから抽出されたトピック統一資源識別子に基づいて知識表現を合成するための例示的なワークフローの図。 本発明のいくつかの実施形態に従った、コンテンツ項目をラベル付けするための例示的な方法を示すフローチャート。 本発明のいくつかの実施形態に従った、分類器モデルをトレーニングするための例示的なワークフローの図。 本発明のいくつかの実施形態に従った、図8Aの分類器モデルを使用してコンテンツ項目をラベル付けするための例示的なワークフローの図。 関心オブジェクトに基づく知識表現から導出された特徴に基づいてコンテンツ項目を分析するための例示的なワークフローの図。 本発明のいくつかの実施形態に従った、関心オブジェクトから導出された知識表現からの特徴を使用して、分類器モデルをトレーニングするための例示的なワークフローの図。 本発明のいくつかの実施形態に従った、図10Aの分類器モデルを使用してコンテンツ項目をラベル付けするための例示的なワークフローの図。 本発明のいくつかの実施形態に従った、コンテンツ項目に関連付けられた、属性に基づく特徴と、コンテンツ項目の既知の関連性と、分類器による予測と、を示す例示的な表の図。 本発明のいくつかの実施形態に従った、コンテンツ項目に関連付けられた、属性に基づく特徴と、コンテンツ項目の既知の関連性と、第1の分類器及び第2の分類器による予測と、を示す例示的な表の図。 本発明のいくつかの実施形態に従った、複数の分類器モデルによりなされた予測の結果を示す例示的な表の図。 本発明のいくつかの実施形態に従った、分類器により予測されたラベルの精度を示す例示的な表の図。 本発明のいくつかの実施形態に従った、分類器の精度のグラフィカル図。 本発明のいくつかの実施形態に従った、変更された知識表現に関連付けられた属性の値と、分類器により予測されたラベルの精度と、を示す例示的な表の図。 本発明のいくつかの実施形態に従った、図15Aの分類器の精度のグラフィカル図。 本発明のいくつかの実施形態に従った、分類器の結果に基づいて知識表現を変更するための例示的なフローチャートの図。
デジタル情報システムを介してアクセス可能な膨大な量のコンテンツは、情報検索のいくつかの課題を与えている。1つの難しい問題は、コンテンツの大きなセットにおけるどのような情報が、関連性がない情報でユーザを圧倒することなくこのような情報がユーザに提示され得るように、ユーザにとって関心があり得るかをどのように判別するかである。さらに、別の難しい問題は、関心があり得る情報を計算効率的にどのように識別するかである。
本開示に記載のシステム及び方法は、様々な形で実施可能である。図1は、本開示に記載の本発明のいくつかの実施形態を実施する際に使用される例示的なコンピューティングシステムを示すブロック図である。
コンピューティングデバイス100は、1つ以上のプロセッサ(例えばマイクロプロセッサ)110及び1つ以上の非一時的な有形のコンピュータ読み取り可能な記憶媒体(例えばメモリ120)を含み得る。メモリ120は、非一時的な有形のコンピュータ読み取り可能な記憶媒体に、本開示に記載の機能のいずれかを実装するコンピュータ命令を記憶することができる。1つ以上のプロセッサ110は、メモリ120に接続され、そのようなコンピュータ命令を実行して機能を実現及び実行させることができる。コンピューティングデバイス100はまた、ネットワーク入力/出力(I/O)インタフェース130を含み得、コンピューティングデバイス100は、ネットワークI/Oインタフェース130を介して、他のコンピュータと(例えばネットワークを介して)通信することができる。いくつかの実施形態において、コンピューティングデバイスはまた、1つ以上のユーザI/Oインタフェース140を含み得、コンピューティングデバイスは、1つ以上のユーザI/Oインタフェース140を介して、ユーザに出力を提供し、ユーザから入力を受け取ることができる。ユーザI/Oインタフェース140は、キーボード、マウス、マイクロフォン、ディスプレイデバイス(例えばモニタ又はタッチスクリーン)、スピーカ、カメラ、及び/又は、様々な他のタイプのI/Oデバイス等のデバイスを含み得る。
本発明のいくつかの実施形態は、分類器をトレーニングするために、機械学習アルゴリズム、特に教師あり学習、を用いる。教師あり学習は、ラベル付けされたトレーニングデータから関数を推論するタスクを含む、機械学習の一分野である。このようなトレーニングデータは、トレーニング例のセットを含む。教師あり学習において、各トレーニング例は、オブジェクト(例えばコンテンツ項目)及び(例えば、コンテンツ項目を1つ以上のカテゴリに分類し得る)ラベルを含み得る。教師あり学習アルゴリズムは、トレーニングデータを分析し、推論される関数(例えば分類器モデル)をもたらすことができ、その後、これは、ラベル付けされていないコンテンツ項目についてのラベルを予測するために(又は、ラベル付けされていないコンテンツ項目を分類するために)使用され得る。
例えば、教師あり学習を用いてトレーニングされた機械学習分類器を使用して、ラベル付けされていないコンテンツ項目にラベルを割り当てることができる。しかしながら、分類器をトレーニングするためには、かなりの量のトレーニングデータが必要とされる。いくつかの実施形態において、トレーニングデータは、各コンテンツ項目をカテゴリに分類するラベルを有するコンテンツ項目を含む。分類器をトレーニングするのに十分なトレーニングデータがなければ、機械学習アルゴリズムが、正確な結果をもたらすモデルを生成することは難しい。
図2は、本発明のいくつかの実施形態に従った、教師あり学習技術のための例示的なワークフローを示すフローチャートである。このプロセスは、未処理データ210で始まる。未処理データ210は、1つ以上のコンテンツ項目を含み得る。機械学習目的に有用であるために、未処理データ210は、未処理データ210における各コンテンツ項目にラベルを割り当てることにより、ラベルを有する特徴付けデータ220に変換される。ラベルは、実際上2値であってよい(例えば、「イエス」ラベル又は「ノー」ラベル、あるいは、「1」ラベル又は「0」ラベル)。しかしながら、3つ以上の可能なラベルが存在してもよい。ラベルは、任意の数の方法で、未処理データ210に割り当てられ得る。例えば、人間のオペレータが、手作業で、未処理データ210における各項目をレビューし、ラベルを割り当て得る。
ラベル付けされると、特徴付けデータ220は、トレーニングセット230と検証セット240とに分割され得る。特徴付けデータは、トレーニングセット230と検証セット240との間で任意の比率で分割され得る。次いで、トレーニングセット230は、モデル250を構築する(以下において、トレーニングすると呼ばれる)ための基礎として使用される。モデル250は、コンテンツ項目についての既知のラベルとそのコンテンツ項目の様々な特徴との間の相関から推論される関数として概念化され得る。モデル250の目的のうちの1つは、トレーニングセット230に割り当てられたラベル及びトレーニングセット230に関連付けられた特徴と整合するように、ラベル付けされていないコンテンツ項目の特徴に基づいて、ラベル付けされていないコンテンツ項目にラベルを割り当てる際に使用するためである。
モデル250がトレーニングされると、260において、モデル250は、検証セット240を使用して検証され得る。モデル250を検証する1つの方法は、モデル250を検証セット240に適用し、検証セット240における各コンテンツ項目についてのラベルを取得することである。検証セット240は、既知のラベルを有するコンテンツ項目を既に含んでいるので、次いで、既知のラベルが、モデル250により生成されたラベルと比較されて、ラベルを正しく予測することにおいてモデル250がどれだけ正確であるかが決定され得る。
次いで、検証されたモデル250が、ラベル付けされていないコンテンツ項目に適用され、ラベルを生成するために使用され得る。このようにして、大量のデータが、妥当な精度範囲内でモデルによりラベル付け及び/又は分類され得る。しかしながら、上述のように、一般に、モデルをトレーニングするために、大量のトレーニングデータが必要とされる。計算効率的であり、コンテンツ項目の手動ラベル付けを必要としない方法で、トレーニングデータを取得することが望ましいであろう。
図3は、本発明のいくつかの実施形態に従った、関心オブジェクトに基づいて知識表現を合成するための例示的なワークフローを示すフローチャートである。関心オブジェクト(「OOI」(object of interest))310が分析され、OOI310に含まれる用語及び/又は他の特性が使用されて、1つ以上のトピック統一資源識別子(トピックURI)320が生成される。次いで、トピックURI320が、いくつかの追加の概念及び/又は概念間の関係であって、これらのうちの一部はOOI310において見つけられない、いくつかの追加の概念及び/又は概念間の関係を含む知識表現330を合成するための基礎として使用される。
図4は、本発明のいくつかの実施形態に従った、例示的なOOIの図である。図4における例示的なOOI310は、単一のウェブページであるが、OOIは、複数のウェブページをカバーする1つのウェブサイト又は複数のウェブサイトまで及ぶことがあり、関心項目を提示する1つ以上のコーパスから構成される任意の適切なタイプの非構造化データを含み得ることを理解されたい。いくつかの実施形態において、OOI310は、トピック、ツイート、ウェブページ、ウェブサイト、文書、文書タイトル、メッセージ、広告、及び/又は検索クエリを含み得る。いくつかの実施形態において、OOI310は、前述のオブジェクトの単一のインスタンス(例えば、単純なトピック、単一の文書等)であることもあるし、又は、前述のオブジェクトの集合(例えば、個人の関心と関連性があるトピックの集合、個人の関心と関連性がある文書のグループ等)を含むこともある。さらに、OOI310は、特定のユーザと関連性がある様々なタイプの項目(例えば、ユーザのツイート及びその同じユーザにとって関心がある文書)を含み得、様々なユーザにわたる項目(例えば、特定の関心マーケット又は人口セグメントと関連性がある項目)まで及び得る。OOI310は、オンラインオブジェクト及びオフラインオブジェクトの両方を含み得る。
理解されるように、OOI310内に含まれる内容の範囲を変えることにより、それから抽出されるトピックURI320の量及び深さは変わることになり、それから生じる合成された知識表現330も変わることになる。したがって、フォーカスの程度と知識表現330内に含まれる概念及び/又は関係の量との間のバランスをとることが可能である。例えば、より広範なデータを含むOOI310は、より大きなドメインを表し、トピックURI320を生成し、データを合成するためのより大きな範囲を提供する。対照的に、少しの単語からなる句等、トピックをOOI310として使用するとき、そのトピックは、データを合成するための唯一のレンズとなるであろう。
図5は、本発明のいくつかの実施形態に従った、関心オブジェクトに基づいてトピックURIを抽出するための例示的なワークフローの図である。明確にするために、図5に示されているOOI310は、図4に示されているのと同じウェブページである。OOI310から生成されたトピックURI320が、直線的形態及び階層的形態の両方で示されている。確認できるように、用語「skin(皮膚)」が識別され、conditions(状態)、symptoms(症状)、及びclogs(詰まらせる)というサブトピックが、skinに関連するものとして示されている。トピックURI320の階層的表現及び直線的表現は、同じ関係を表現する2つの異なるやり方であることに留意されたい。
図6は、いくつかの実施形態に従った、関心オブジェクト310から生成されたトピックURI320に基づいて知識表現330を合成するための例示的なワークフローの図である。確認できるように、知識表現330は、追加の概念、すなわち、「organ(器官)」、「brain(脳)」、「cancer(癌)」、及び「redness(発赤)」を含み、これらは、トピックURI320における他の概念との関係を有するものとして識別される。これらの追加の概念及び概念間の関係は、例えば、関心オブジェクトの外部にあるソースから取得され得る。例えば、シソーラス、辞書、他のコンテンツ項目、又は様々なトートロジーを用いて、追加の概念及び関係を識別することができる。上述のように、知識表現330は、例えば、ユーザにとって関心があることが既知である文書の集合といった、広範囲の非構造化データを含む様々なタイプの関心オブジェクトの共通部分(product)であり得ることを理解されたい。
本開示において特定の例が提供されているが、知識表現330を合成する多くの方法が存在することに留意されたい。さらなる例は、例えば、その全体が参照により組み込まれる米国特許第9378203号及び米国特許出願第13/345637号において見出すことができる。いくつかの実施形態において、原子的知識表現モデル(AKRM:atomic knowledge representation model)は、1つ以上の要素的(elemental)データ構造及び1つ以上の知識処理ルールを含み得る。いくつかの実施形態において、ルールは、1つ以上の複合的知識表現(KR)を分解(分析)して要素的データ構造を生成するために、システムにより使用され得る。例えば、システムは、1つ以上のコンピュータプロセッサ及び1つ以上のコンピュータメモリハードウェアコンポーネントを含み得、メモリは、1つ以上のコンピュータプロセッサにより実行されたときに1つ以上のコンピュータプロセッサに1つ以上の複合的KRの分析においてルールを使用させてAKRMの要素的データ構造を生成させるコンピュータ実行可能な命令で符号化され得る。メモリはまた、ルールを使用して要素的データ構造から新しい複合的KRを合成するように1つ以上のコンピュータプロセッサをプログラムする命令で符号化され得る。いくつかの実施形態において、コンピュータメモリは、実行されたときに1つ以上のプロセッサに本開示に記載の機能のいずれかを実行させるコンピュータ実行可能な命令で符号化された1つ以上の非一時的な有形のコンピュータ読み取り可能な記憶媒体として実現され得る。
合成された知識表現330を使用して、他のコンテンツ項目の関連性を評価することができる。例えば、図6からの例を用いると、他のコンテンツ項目が、合成された知識表現において見つけられる概念のうちの1つ以上の存在について分析され得る。OOI310に対するコンテンツ項目の潜在的な関連性の指標として使用され得るスコアが、そのような分析に基づいて生成され得る。さらに、重みが、合成された知識表現330における異なる概念に割り当てられ得る。そのような重みは、知識表現330における特定の概念が、知識表現における別の概念と比較して、関連性と相関がある可能性がより高いことを示すために使用され得る。コンテンツ項目についてのスコアは、例えば、概念の重み付け合計をとることにより決定され得る。いくつかの実施形態において、コンテンツ項目についてのスコアは、知識表現330における1つ以上の概念とコンテンツ項目の内容との共通部分(intersection)に基づいて決定され得る。
図7は、本発明のいくつかの実施形態に従った、スコアに従ってコンテンツ項目をラベリングするための例示的な方法を示すフローチャートである。710において、1つ以上のスコア付けされたコンテンツ項目が得られる。いくつかの実施形態において、コンテンツ項目は、関心オブジェクト310に基づく知識表現330に基づいてスコア付けされる。720において、各コンテンツ項目が、予め定められたスコア閾値と比較される。コンテンツ項目についてのスコアが閾値よりも大きい場合、730において、コンテンツ項目は、「推奨する(recommend)」とラベル付けされる。コンテンツ項目についてのスコアが、スコア閾値以下である場合、コンテンツ項目は、「推奨しない(do not recommend)」とラベル付けされる。「推奨する」ラベルを有するコンテンツ項目及び「推奨しない」ラベルを有するコンテンツ項目は、ラベル付けされたコンテンツ項目のセット750を形成する。いくつかの実施形態において、コンテンツ項目は、スコアによりランク付けされ得、ラベルは、純粋にスコアに基づいてではなく、セット内でのコンテンツ項目のランキングに基づいて割り当てられ得る。例えば、710において受け取られた10個のスコア付けされたコンテンツ項目について、720において、コンテンツ項目が、合計10個のコンテンツ項目のうちの上位3個にランク付けされたかどうかが判定され得る。
図7は、コンテンツ項目についての2つの可能なラベルを示しているが、本発明は、2値ラベル(例えば「イエス」又は「ノー」)ではなく、3つ以上のラベルの使用、及び多層型ラベル(例えば多数のラベルオプション)も企図している。例えば、ラベルは、「推奨する」を含み得、次の低い層が「薦める(suggested)」であり、その後に「推奨しない」が続く。層は、任意の適切な数のラベル及び/又はカテゴリへと拡張され得る。さらに、ラベルは、階層的である必要はなく、連想(associative)カテゴリ(例えば、スポーツ、政治、テクノロジ等)を確立してもよい。
上述のように、ラベル付けされたコンテンツ項目のセット750は、関連付けられたラベルを有する1つ以上のコンテンツ項目を含む。図8Aは、本発明のいくつかの実施形態に従った、分類モデル820をトレーニングするための例示的なワークフローの図である。ラベル付けされたコンテンツ項目のセット810は、機械学習分類器モデル820を構築するために、トレーニングデータ(例えば、本開示に記載のトレーニングセット230)として使用され得る。いくつかの実施形態において、ラベル付けされたコンテンツ項目のセット810は、図7に記載のプロセスにより生成される。
いくつかの実施形態において、ラベル付けされたコンテンツ項目810に基づいて分類モデル820をトレーニングすることは、各ラベル付けされたコンテンツ項目について、当該コンテンツ項目の様々な特徴と当該コンテンツ項目に関連付けられたラベルとを比較することを含む。いくつかの実施形態において、これらの特徴は、標準的な特徴を含み得、その例は、タイトル、長さ、作者、単語頻度、及び/又は逆文書頻度を含む。いくつかの実施形態において、これらの特徴は、知識表現の1つ以上の属性を含み得る。分類モデル820は、特定のコンテンツ項目の特徴に基づいて、どのラベルが特定のコンテンツ項目に割り当てられるべきであるかを決定するために使用され得る推論される関数を含む。
図8Bは、本発明のいくつかの実施形態に従った、図8Aの分類モデル820を使用してコンテンツ項目をラベル付けするための例示的なワークフローの図である。分類モデル820が、トレーニングされ、任意的に、追加のラベル付けされた検証データを用いて検証されると、分類モデル820を使用して、1つ以上のラベル付けされていないコンテンツ項目のセット830にラベルを割り当てることができる。そのような分類は、分類モデル820をトレーニングするために使用されたのと同じ特徴に基づく。そのような特徴(例えば、タイトル、長さ、作者、単語頻度、及び/又は逆文書頻度)は、人間のオペレータにより必要な最小限の分析で又は分析なしで、コンテンツ項目から容易に確認され得ることを理解されたい。したがって、分類モデル820を使用してラベル付けされていないコンテンツ項目830をラベル付けすることは、比較的迅速且つ効率的に実行され得る。分類モデル820をラベル付けされていないコンテンツ項目830に適用することは、ラベル付けされたコンテンツ項目の第2のセット820をもたらす。次いで、好適なラベル(例えば「推奨する」又は「薦める」)が割り当てられたラベル付けされたコンテンツ項目850が、関心がある可能性が高いコンテンツとして、ユーザ又はユーザグループに送られ得る。
前述のプロセスは、教師なし学習手法に類似していると考えられ得る。なぜならば、分類器は、有用な分類をもたらすためにいかなる教師(すなわち、トレーニングデータ又はラベル付けされていないコンテンツ)も必要としないからである。教師なし学習は、ラベル付けされていないデータから隠れ構造を記述するための関数を推論する機械学習タスクである。知識表現330とラベル付けされていないコンテンツ項目830との間の共通部分を識別することにより、ラベル付けされていないコンテンツ項目830の有用な表現/特徴(すなわち、関心オブジェクト310に固有の意味的表現を含む隠れ構造)が生成される。さらに、図7のプロセスは、(以下でさらに詳細に説明される、)知識表現の属性から導出された特徴の周りでコンテンツ項目をクラスタ化するための技術に拡張され得る。
図9は、関心オブジェクトに基づく知識表現から導出された属性を使用して、機械学習分類器により、ラベル付けされていないコンテンツ項目を分類するための例示的なワークフローの図である。図3〜図6を参照して上述したように、関心オブジェクト310を使用して、少なくとも1つの概念、及び/又は、2つ以上の概念間の関係を含む知識表現330を合成することができる。いくつかの実施形態において、知識表現は、非一時的なコンピュータ読み取り可能なデータ構造として符号化される。
図9に示されているように、ラベル付けされたコンテンツ項目の集合が、機械学習アルゴリズムのためのトレーニングデータとして使用され得る。知識表現330を、機械学習分類モデルのための特徴のソースとして使用することが可能であり得る。知識表現から導出された属性に基づくコンテンツ項目特徴の例は、知識表現とコンテンツ項目との間の概念の共通部分の総数、知識表現とコンテンツ項目との間のより狭い概念の共通部分の数、又は、共通概念の重みの合計を含み得る。当業者は、これらの属性の多くの組み合わせ及び重み付け合計も、機械学習分類モデルのための特徴として使用されてよいことを理解するであろう。さらなる例は、以下においてより詳細に説明される。
図10Aは、本発明のいくつかの実施形態に従った、関心オブジェクトから導出された知識表現からの特徴を使用して分類器モデルをトレーニングするための例示的なワークフローの図である。トレーニングデータは、1つ以上のラベル付けされたコンテンツ項目の第1のセット1010を含む。いくつかの実施形態において、各ラベルは、コンテンツ項目を1つ以上のカテゴリに分類する。いくつかの実施形態において、1つ以上のラベル付けされたコンテンツ項目の第2のセットを含む検証データのセットも存在し得る。
機械学習分類器1020は、知識表現から導出された1つ以上の属性に基づく特徴及びラベル付けされたコンテンツ項目1010からトレーニングされる。分類モデル1020をトレーニングすることは、知識表現から導出された属性のうちの1つ以上と、トレーニングデータセットにおける、コンテンツ項目に関連付けられたラベルと、に基づく、トレーニングデータセットにおけるコンテンツ項目の少なくとも1つの特徴を使用して、1つ以上の関数を推論することを含み得る。
図10Bは、本発明のいくつかの実施形態に従った、図10Aの分類器モデルを使用してラベル付けされていないコンテンツ項目を分類するための例示的なワークフローの図である。少なくとも1つのラベル付けされていないコンテンツ項目のセット1030が、分類モデル1020により分析され、分類モデル1020は、少なくとも1つのラベル付けされていないコンテンツ項目1030を、少なくとも1つのラベル付けされたコンテンツ項目の第2のセット1050へと分類する。いくつかの実施形態において、この分類することは、知識表現から導出された1つ以上の属性に基づく少なくとも1つの特徴と、ラベル付けされていないコンテンツ項目の内容と、を用いる。
図11は、本発明のいくつかの実施形態に従った、コンテンツ項目に関連付けられた属性と、コンテンツ項目の既知の関連性と、分類器による予測と、を示す例示的な表の図である。図11において、ラベル付けされたコンテンツ項目からなるトレーニングセットは、コンテンツ項目1〜50を含む。この例において、ラベルは、コンテンツ項目を、関心オブジェクトと関連性があるものとして、又は、関心オブジェクトと関連性がないものとして、分類する(この表において、「イエス」の場合はYで示され、「ノー」の場合はNで示されている)。さらに、コンテンツ項目51〜100で示されている、ラベル付けされたコンテンツ項目の第2のセットを含む検証データセットが存在する。コンテンツ項目101〜nは、ラベル(したがって、OOIとの関連性)が知られていないラベル付けされていないコンテンツ項目である。
図11は、知識表現の第1の属性及び第2の属性(「属性1」及び「属性2」としてそれぞれ示されている)に基づく、トレーニングデータ項目及び検証データ項目の特徴についての対応する値をさらに示している。2つの属性に基づく特徴についての値が図11に示されているが、いくつかの実施形態は、分類器モデルをトレーニングするために1つの属性に基づく特徴を使用することができる。いくつかの実施形態はまた、分類器モデルをトレーニングするために複数の属性に基づく2つ以上の特徴を使用することができる。図11の例におけるラベルは、2値(すなわち、選択肢はY又はNだけである)であるが、これは、必ずしもそうである必要はなく、本開示に記載のシステム及び方法を使用して、コンテンツ項目を3つ以上のグループに分類することもできる。
図11の表における各コンテンツ項目についての属性1及び属性2に基づく特徴についての値は、これらの属性と当該コンテンツ項目の内容との共通部分に基づき得る。属性は、合成された知識表現から導出され、例えば、知識表現とコンテンツ項目との間で共通する概念の総数、知識表現とコンテンツ項目との間で共通するより広い概念の数、知識表現とコンテンツ項目との間で共通するより狭い概念の数、及び、知識表現とコンテンツ項目との間で共通する概念の重みの合計を含み得る。
図4に示されている例示的なOOI310及び図6に示されている合成された知識表現330を例として用いると、知識表現330は、異なる幅を伴う概念の階層を含むことが分かる。例えば、「organ」という概念は、知識表現330における「brain」及び「skin」という概念よりも広い。同様に、「redness」という概念は、「symptoms」という概念よりも狭い。知識表現330におけるこれらの概念の各々はまた、関連付けられた重みを有し得る。
この例を続けると、図11における属性1は、「より広い概念の数」であり、属性2は、「より狭い概念の数」である。コンテンツ項目1が、知識表現330と比較され得、且つ/又は、知識表現330との共通部分について調べられ得、コンテンツ項目1が、7という属性1のスコアについて、単語「organ」の7つのインスタンスを含み、30という属性2のスコアについて、単語「redness」の30個のインスタンスを含む、と判別され得る。同様に、コンテンツ項目2は、15という属性1のスコアについて、単語「brain」の5つのインスタンス及び単語「skin」の10個のインスタンスを含み得る。コンテンツ項目2はまた、15という属性2のスコアについて、単語「cancer」の15個のインスタンスを含み、単語「redness」のインスタンスを含み得ない。属性1及び属性2は、知識表現330の特性であるが、図11の表におけるスコアは、知識表現330から導出された属性と共通するコンテンツ項目の特徴に基づくことを、当業者は理解するであろう。
「既知の関連性」ラベルが、コンテンツ項目1及び2(より一般的にはコンテンツ項目1〜50)について既に知られているので、分類器モデルは、特徴が基づく属性1及び属性2の値と結果のラベルとの間の検出された関係に基づいて構築され得る。合成された知識表現330から導出された属性が、機械学習分類器をトレーニングするための特徴として使用されるとき、機械学習分類器のトレーニングのためのコンテンツ項目のいわゆる「標準的な特徴」(例えば、タイトル、長さ、作者等)の使用と比較して、より少ないトレーニングデータ項目が、予め規定された精度レベルを伴う分類器モデルを構築するために必要とされ得ることを理解されたい。
合成手段を利用するとともに、そのもたらされた属性を特徴として利用することは、OOI310又はラベル付けされていないコンテンツ項目のいずれかにおけるデータの表現があまりにも限られていて「標準的な特徴」のみを使用して有用な分類をもたらすことができない場合のデータ希薄の問題を回避するのを助けることができる。例えば、OOI310の1つのツイート又はラベル付けされていないコンテンツ項目1030のタイトルは、分類器がコンテンツ項目を正確に分類するのに十分な情報を単に提供することができない(場合によっては、いくつかのラベル付けされていないコンテンツ項目1030におけるタイトルの文字どおりの表現は、互いから十分に区別され得ない)。その代わりに、知識表現をソースとする、特徴が基づく属性を利用することにより、従来の機械学習手法で適用されていた特徴に依拠することの欠点を回避することができるより多くのデータが、システムに提供される。
機械学習分類器が、トレーニングデータを使用してトレーニングされると、分類器モデルが、検証データ項目(例えば、図11におけるコンテンツ項目51〜100)を用いて検証され得る。確認できるように、属性1及び属性2に基づく特徴についての値が、各検証データ項目について決定され、属性1及び属性2に基づく特徴についての値に基づく分類器による予測が、図11の最も右側の列に示されている。コンテンツ項目51及び100に割り当てられたラベルは正しいが、コンテンツ項目99について分類器により予測されたラベルは正しくない。いくつかの実施形態において、分類器モデルについての最低限の精度レベルが必要とされ得る。分類器モデルについての正しい予測の割合が、許容可能な閾値未満である場合、システムは、追加のトレーニングデータを使用して、機械学習分類器をさらにトレーニングし得る。例えば、いくつかの実施形態において、トレーニングデータセットのみに基づく分類器が、必要な精度レベルを達成しなかった場合には、機械学習分類器は、トレーニングデータセット及び検証データセットの両方を使用してトレーニングされ得る。
機械学習分類器がトレーニングされると、機械学習分類器を使用して、ラベルを有しないコンテンツ項目を分類することができる。図11に示されているように、コンテンツ項目101及び102は、「既知の関連性」列において「?」を含み、機械学習分類器は、「N」ラベル及び「Y」ラベルをそれぞれ予測している。
いくつかの実施形態において、2つ以上の機械学習分類器がトレーニングされ得る。例えば、図12を参照すると、第1の分類器(「分類器1」)は、属性1及び属性2に基づく、トレーニングデータコンテンツ項目の特徴を使用して、トレーニングされ得る。第2の分類器(「分類器2」)は、これらの属性の異なるサブセットに基づく特徴を使用して、トレーニングされ得る。例えば、第2の分類器は、属性1に基づく特徴のみを使用して、トレーニングされ得る。確認できるように、第1の分類器及び第2の分類器により予測されるラベルは、特定の属性又は属性のセットと、特定のコンテンツ項目についてこれに関連付けられたラベルと、の間の相関に応じて、同じコンテンツ項目でも異なり得る。
図13は、本発明のいくつかの実施形態に従った、複数の分類器モデル(すなわち、分類器モデルの集合)によりなされた予測の結果を示す例示的な表の図である。図示されているように、ラベル付けされていないコンテンツ項目101〜105についての予測されたラベルが、異なる属性に基づく特徴の異なるセット又はサブセットを使用してトレーニングされた第1の分類器、第2の分類器、及び第3の分類器について示されている。いくつかの実施形態において、全体ラベルが、異なる分類器からの予測の重み付け合計に従って生成され得る。図13に示されている例において、各分類器は、2値(イエス又はノーというラベルが割り当てられることを意味する)であり、各分類器は、等しく重み付けされる。したがって、「イエス」という予測には、1という値が与えられ得、「ノー」という予測には、0という値が与えられ得る。次いで、平均スコアが、全体ラベルについて、コンテンツ項目ごとにとられ得る。図13に示されている例において、0.5を超える平均スコアを有するコンテンツ項目には、「イエス」というラベルが与えられているのに対し、0.5を下回るスコアを有するコンテンツ項目には、「ノー」というラベルが与えられている。いくつかの実施形態において、コンテンツ項目にラベルを割り当てることは、コンテンツ項目を複数の可能なカテゴリのうちの1つ(例えば、「OOIと関連性がある」又は「OOIと関連性がない」)に分類することに類似している。
特定の分類器に割り当てられる閾値及び重みは、所望の結果を達成するように選択され得ることに留意されたい。2値分類器を有する図13に示されている等しく重み付けされるシステムは単に例である。いくつかの実施形態において、分類器は、等しく重み付けされず、分類器は、任意的に、3つ以上の可能なラベル(例えば「推奨する」、「薦める」、及び「推奨しない」)を生成してもよい。別の例示的な分類は、「複製である(duplicate)」又は「複製ではない(not duplicate)」であり、ここでは、分類器は、推奨する関心オブジェクトにあまりに類似しているもの(例えば、記事が、関心オブジェクトと同じテキストを含むが、異なる公開ソースによりリリースされている場合)として、コンテンツ項目を分類するようにトレーニングされ得る。
上述のように、いくつかの実施形態において、知識表現は、関心オブジェクトの内容に基づいて合成される。いくつかの実施形態において、この合成することは、少なくとも1つの概念及び/又は2つ以上の概念間の関係を生成することであって、概念及び/又は関係は、関心オブジェクトにおいて列挙されていない、生成することを含む。いくつかの実施形態において、合成された知識表現は、新しい複合的知識表現を合成するために生成ルールを要素的データ構造に適用し得る。知識表現はまた、少なくとも1つの概念に関連付けられた重みを含み得る。さらに、知識表現は、特定のユーザ又は特定のユーザグループの特性を考慮し得る。例えば、特定のユーザがテニスに関心があることが既知である場合、このことが、例えばテニスに関連する概念により大きな重みを割り当てることにより、又は、テニスに関連する追加の概念を生成し、追加の概念を知識表現に付加することにより、知識表現において考慮され得る。したがって、特定のユーザ又はユーザグループについてカスタマイズされた知識表現からの属性を使用してトレーニングされた機械学習分類器は、特定のユーザ又はユーザグループに固有ではない知識表現からの属性を使用してトレーニングされた分類器と比べて、同じコンテンツ項目について異なる分類をもたらし得る。
いくつかの実施形態において、機械学習分類モデルをトレーニングするために使用されるトレーニングデータは、図7を参照して上述したプロセスに従って生成される。
上述のように、教師あり学習アルゴリズムにより推論される関数は、トレーニングデータコンテンツ項目の様々な特徴とトレーニングデータコンテンツ項目に割り当てられたラベルとの間の観測又は検出された相関に基づき得る。コンテンツ項目の特徴の一部は、結果のラベルにほとんど又は全く関係しないものであり得るのに対し、他の特徴は、結果のラベルとの非常に密接な相関を有し得ることが可能である。例えば、コンテンツ項目に含まれる、知識表現におけるより狭い概念の数に関する属性に基づく特徴は、より広い概念の数に関する属性に基づく特徴よりもラベルとの強い相関を有し得る。
トレーニングデータオブジェクトに割り当てられたラベルとのより高い相関を有する傾向がある、トレーニングデータコンテンツ項目の特徴及び/又は知識表現の属性を識別することが望ましいであろう。そのような特徴又は属性をより重視して機械学習分類器をトレーニングすることは、分類器のための、又は、潜在的には、許容可能な精度範囲へと分類器をトレーニングするために必要とされるトレーニングデータ項目量の低減のための、より優れた全体精度をもたらし得る。さらに、そのような特徴及び/又は属性の識別はまた、各トレーニングデータ項目について評価されるべき属性又は特徴の数を低減することができる。このことは、機械学習アルゴリズムの計算複雑性、及びそれに関連する処理コストを低減することができる。
図14Aは、本発明のいくつかの実施形態に従った、分類器により予測されたラベルの精度を示す例示的な表の図である。確認できるように、機械学習分類器は、検証コンテンツ項目1、2、4、及び6を正しく分類しているのに対し、検証コンテンツ項目3、5、7、及び8は、誤って分類されている。したがって、分類器は、これらの8つの検証コンテンツ項目について、50%という正解率を有する。
図14Bは、図14Aに示されている結果の精度のグラフィカル図である。確認できるように、コンテンツ項目7及び8は、関連性があるが、機械学習分類器により「見逃され」、図示されている円の外側にある。コンテンツ項目1、2、及び4は正しく分類されている。コンテンツ項目3及び5は、関連性がなく、関連性があるものとして誤って分類されている。コンテンツ項目6は、関連性がなく、正しく分類されている。
分類器の精度を評価する1つの指標は、適合率という概念であり、これは、正しくラベル付けされた関連性がある項目の数を、分類器により関連性があるものとしてラベル付けされた項目の総数で除算した比と定義される。図14Bの例において、分類器の適合率は3/5になる(なぜならば、コンテンツ項目1、2、及び4は正しく推奨されているのに対し、コンテンツ項目3及び5は誤って推奨されているからである)。
分類器の精度を評価する別の指標は、再現率という概念であり、これは、正しくラベル付けされた関連性がある項目の数を、関連性がある項目の総数で除算した比と定義される。図14Bの例において、分類器の再現率は、3/5になる(なぜならば、コンテンツ項目1、2、及び4は推奨されているのに対し、コンテンツ項目3及び5はそうでないからである)。
再現率のフォーカスは、関連性がない項目も含まれているとしても全ての関連性がある項目を識別することであるのに対し、適合率のフォーカスは、関連性がない項目を除外しながら関連性がある項目のみを識別することであるので、適合率及び再現率は、しばしば、分類器にとっての相反する目標である。言い換えれば、フォルスネガティブを避けることが、フォルスポジティブを避けることよりも優先されるときには、再現率が適合率よりも優先され得、フォルスポジティブを避けることが、フォルスネガティブを避けることよりも優先されるときには、適合率が再現率よりも優先され得る。
いくつかの実施形態において、機械学習分類器によりなされた予測が、各検証コンテンツデータ項目に割り当てられたラベルと比較され得る。その後、知識表現が、この比較に基づいて変更され得る。
例えば、属性2に基づく特徴についてのより高いスコアが、「Y」ラベルと相関し、属性1に基づく特徴についての値が、相対的にそれほど相関しないことが、図14Aにおいて観測され得る。この傾向を踏まえて、OOIについての知識表現が、そのような相関を反映するように変更され得る。例えば、図14Aの例における属性2に基づく特徴は、各検証コンテンツ項目と共通する、知識表現におけるより狭い概念の数である場合、知識表現(例えば図6)は、追加のより狭い概念を含むように変更され得る。例えば、「sunburn(日焼け)」という概念が、「conditions」階層に付加され、「itching(かゆみ)」という概念が、「symptoms」階層に付加され得る。別の例として、知識表現における特定の概念(すなわち、より狭い概念)に関連付けられた重みが増加され得る、且つ/又は、特定の概念(すなわち、より広い概念)に関連付けられた重みが減少され得る。
その後、変更された知識表現を使用して、各属性に基づく、コンテンツ項目の特徴についての値を生成することができる。図15Aは、検証コンテンツ項目1〜8について、知識表現における属性に基づく各特徴についての更新された値を反映している。確認できるように、属性2(この例では、より狭い概念の数に対応する)に基づく特徴についての値は、図14Aにおける値と比べて大きくなっている。図15Aにおいて、属性1についての値は変わっていないが、これは、必ずしもそうであるとは限らず、本開示において示されている値は単に例である。
変更された知識表現を使用して属性1及び属性2に基づく特徴についての値を使用することで、機械学習分類器は、その後、検証コンテンツ項目についてのラベルを新たに予測することができる。上述のように、属性は、知識表現と1つ以上のラベル付けされたコンテンツ項目との間で共通する概念の総数、知識表現と1つ以上のラベル付けされたコンテンツ項目との間で共通するより広い概念の数、知識表現と1つ以上のラベル付けされたコンテンツ項目との間で共通するより狭い概念の数、及び、知識表現と1つ以上のラベル付けされたコンテンツ項目との間で共通する概念の重みの合計、のうちの少なくとも1つを含み得る。図15Aから分かるように、特定のコンテンツ項目についての予測された関連性は、変更された知識表現を用いると異なる。
図15Bは、機械学習分類器とともに、変更された知識表現を用いた、分類器の結果のグラフィカル図を提供している。確認できるように、コンテンツ項目1、2、4、及び7は、ここでは正しく推奨されているのに対し、コンテンツ項目8は、分類器により「見逃されている」ままである。コンテンツ項目3は、誤って推奨されているままであるのに対し、コンテンツ項目5は、関連性がないものとして、ここでは正しくラベル付けされている。コンテンツ項目6は、関連性がないものとして正しくラベル付けされているままである。したがって、この例における、変更された知識表現を用いた分類器の適合率は、ここでは4/5である(4つのコンテンツ項目が正しく推奨されており、合計5つのコンテンツ項目が推奨されている)。変更された知識表現を用いた分類器の再現率は、ここでは4/5である(4つのコンテンツ項目が正しく推奨されており、1つの関連性があるコンテンツ項目が抜かされている)。したがって、機械学習分類器の適合率及び再現率の両方が、この例において向上している。いくつかの実施形態は、知識表現を変更することにより、適合率及び再現率の1つのみを向上させ得ることに留意されたい。
いくつかの実施形態において、知識表現は、目標適合率閾値又は目標再現率閾値が達成されるまで、反復的に変更され得る。例えば、目標適合率が9/10(すなわち90%)である場合、図15A及び図15Bにおける結果は、図15A及び図15Bが4/5(すなわち80%)という適合率を示していることを踏まえて、コンテンツ項目8を関連性があるものとしてラベル付けする又はコンテンツ項目3を関連性がないものとしてラベル付けするために、知識表現に対するさらなる変更を必要とするであろう。
図16は、本発明のいくつかの実施形態に従った、分類器の結果に基づいて知識表現を変更するための例示的なフローチャートの図である。1610において、機械学習分類器は、ラベル付けされたコンテンツ項目(例えば検証コンテンツ項目)のセットの関連性を予測する。1620において、機械学習分類器による予測が、検証データ項目の既知のラベル(この例では関連性に対応する)と比較される。1630において、目標が機械学習分類器により達成されたかどうかが判定される。いくつかの実施形態において、目標は、適合率目標である。いくつかの実施形態において、目標は、再現率目標である。いくつかの実施形態において、目標は、適合率目標と再現率目標との組み合わせである。
目標が達成されていない場合、1640において、知識表現が変更される。1650において、検証コンテンツ項目についての予測されたラベルが除去される。次いで、このプロセスは1610に戻り、1610において、検証コンテンツ項目の関連性が予測される。
1630において、目標結果が達成されている場合、このプロセスは終了し、機械学習分類器及び知識表現を使用して、ラベル付けされていないコンテンツ項目の関連性を予測することができる。
したがって、本開示に記載の方法、システム、及びコンピュータ読み取り可能な媒体のいくつかの実施形態は、関心オブジェクトと関連性があるコンテンツを識別するために機械学習分類器をトレーニングするためのトレーニングデータを生成すること、機械学習分類器をトレーニングするために、関心オブジェクトに基づく合成された知識表現からの特徴の属性を使用すること、及び、トレーニングされた機械学習分類器に関連付けられた観測された適合率値及び/又は再現率値に基づいて、合成された知識表現を変更すること、のうちの1つ以上において有用であり得る。
本開示はまた、新たな関係及び/又は概念が知識表現内で形成され得るように、前述のフィードバックループを適用して、知識表現を変更することを企図している。例えば、知識表現内における特定の概念又は関係の発生が、機械学習分類器の向上した性能をもたらす場合、本方法は、その向上した性能を認識し、この概念又は関係を含むように知識表現を変更することができる。特定の概念又は関係を有する又は有しないコンテンツ部分を考慮することにより、知識表現の要素構成に影響を及ぼすように、コンテンツ内のパターンが識別され得る。
また、本開示に記載のタイプの機械学習分類器を使用して、新たな概念を形成するために知識表現内に既に含まれている2つの独立した概念が組み合わせられ得るかどうか(又は代替的に何らかの関係タイプにより結び付けられ得るかどうか)を、例えば、2つの独立している結び付けられていない概念(例えば、「fire(火災)」及び「hose(ホース)」)が、関係(例えば、「fire」は「hose」に関連する(”fire” is-related-to ”hose”))で結び付けられるべきであること、又は、新たな概念(例えば、「firehose(火災ホース)」)を形成するために組み合わせられるべきであることを識別することにより、判定することもできる。
様々な発明のコンセプトが、1つ以上の方法として具現化されてもよく、そのうちの複数の例が、本開示において提供されていることに留意されたい。方法の一部として実行される動作は、任意の適切な形で順序付けられてよい。したがって、例示的な実施形態において逐次的な動作として示されていても、いくつかの動作を同時に実行することを含み得る、示されているのとは異なる順序で動作が実行される実施形態が構成されることもあり、その逆も同様である。
本発明の上述の実施形態は、多数の方法のうちの任意の方法で実装され得る。例えば、実施形態は、ハードウェア、ソフトウェア、又はこれらの組み合わせを使用して実装され得る。ソフトウェアで実装される場合、ソフトウェアコードは、単一のコンピュータにおいて提供されるか又は複数のコンピュータ間で分散されるかにかかわらず、任意の適切なプロセッサ又はプロセッサの集合(例えば、1つのマイクロプロセッサ又は複数のマイクロプロセッサ)上で実行され得る記憶されるプログラム命令として具現化され得る。
コンピュータは、ラックマウント型コンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、又はタブレットコンピュータ等の多数の形態のうちの任意の形態で具現化され得ることを理解されたい。さらに、コンピュータは、一般にコンピュータとはみなされないが適切な処理能力を有する、パーソナルデジタルアシスタント(PDA)、スマートフォン、タブレット、リーダ、又は任意の他の適切なポータブル電子デバイス若しくは固定型電子デバイスを含むデバイスで具現化され得る。
また、コンピュータは、1つ以上の入力デバイス及び出力デバイスを有することができる。これらのデバイスは、とりわけ、ユーザインタフェースを提示するために使用され得る。ユーザインタフェースを提供するために使用され得る出力デバイスの例は、出力の視覚的提示のためのプリンタ又はディスプレイスクリーン、及び、出力の可聴提示のためのスピーカ又は他の音発生デバイスを含む。ユーザインタフェース用に使用され得る入力デバイスの例は、キーボード、マイクロフォン、及び、マウス、タッチパッド、デジタルタブレット等のポインティングデバイスを含む。
そのようなコンピュータは、ローカルエリアネットワーク(LAN)、又は、企業ネットワーク、インテリジェントネットワーク(IN)、インターネット等のワイドエリアネットワーク(WAN)等のネットワークを含む、任意の適切な形態の1つ以上のネットワークにより、相互接続され得る。そのようなネットワークは、任意の適切な技術に基づいてよく、任意の適切なプロトコルに従って動作することができ、無線ネットワーク、有線ネットワーク、及び/又は光ファイバネットワークを含んでよい。
本開示において概説された様々な方法又はプロセスは、様々なオペレーティングシステム又はプラットフォームのうちの任意の1つを利用する1つ以上のプロセッサ上で実行可能なソフトウェアとしてコード化され得る。さらに、そのようなソフトウェアは、多数の適切なプログラミング言語及び/又はプログラミングツール若しくはスクリプトツールを使用して記述されてよく、仮想マシン又は適切なフレームワーク上で実行される実行可能な機械語コード又は中間コードとしてコンパイルされてもよい。
この点において、様々な発明のコンセプトは、少なくとも1つの非一時的な有形のコンピュータ読み取り可能な記憶媒体(例えば、コンピュータメモリ、1つ以上のフロッピー(登録商標)ディスク、コンパクトディスク、光ディスク、磁気テープ、フラッシュメモリ、フィールドプログラマブルゲートアレイにおける回路構成、又は他の半導体デバイス等)の製品であって、1つ以上のコンピュータ又は他のプロセッサ上で実行されたときに、本発明の様々なプロセスの実施形態を実施する1つ以上のプログラムで符号化された、少なくとも1つの非一時的な有形のコンピュータ読み取り可能な記憶媒体の製品として具現化され得る。少なくとも1つの非一時的なコンピュータ読み取り可能な媒体は、そこに記憶されている1つ以上のプログラムが、上述の本発明の様々な態様を実施するために任意の適切なコンピュータリソースにロードされ得るように、可搬型であってよい。
「プログラム」又は「ソフトウェア」という用語は、上述の実施形態の様々な態様を実施するようにコンピュータ又は他のプロセッサをプログラムするために使用され得る任意のタイプのコンピュータコード又はコンピュータ実行可能な命令のセットを指すよう、本開示において一般的な意味で使用される。さらに、一態様に従うと、実行されたときに本発明の方法を実行する1つ以上のコンピュータプログラムは、単一のコンピュータ又はプロセッサ上に存在する必要はなく、本発明の様々な態様を実施するために異なるコンピュータ又はプロセッサ間においてモジュール形式で分散されてもよいことを理解されたい。
コンピュータ実行可能な命令は、1つ以上のコンピュータ又は他のデバイスにより実行される、プログラムモジュール等の多くの形態であってよい。一般に、プログラムモジュールは、特定のタスクを実行する又は特定の抽象データ型を実装するルーチン、プログラム、アイテム、コンポーネント、データ構造等を含む。通常、プログラムモジュールの機能は、様々な実施形態において、必要に応じて、組み合わせられることもあるし、分散されることもある。
また、データ構造は、任意の適切な形態の非一時的な有形のコンピュータ読み取り可能な記憶媒体の製品に記憶され得る。説明を簡単にするために、データ構造は、データ構造内の位置を通じて関連するフィールドを有するように示されることがある。そのような関係は、フィールド間の関係を伝達する、非一時的な有形のコンピュータ読み取り可能な媒体内の位置を用いてフィールド用の記憶域を割り当てることによっても同様に実現され得る。しかしながら、ポインタ、タグ、又は、データ要素間の関係を確立する他のメカニズムの使用を介することを含め、任意の適切なメカニズムが、データ構造のフィールド内の情報間の関係を確立するために使用され得る。
本開示において定義及び使用される全ての定義は、辞書の定義、参照により組み込まれる文書中の定義、及び/又は定義された用語の通常の意味を支配するものと理解されたい。
本開示において使用される不定冠詞「a」及び「an」は、そうでないことが明確に示されていない限り、「少なくとも1つ」を意味するものと理解されたい。
本開示において使用される場合、1つ以上の要素のリストに関する「少なくとも1つ」という句は、要素のリスト内の要素のうちの任意の1つ以上の要素から選択される少なくとも1つの要素を意味するものと理解されるべきであるが、必ずしも、要素のリスト内に具体的に列挙されるありとあらゆる要素のうちの少なくとも1つを含むわけではなく、要素のリスト内の要素の任意の組み合わせを排除するわけではない。この定義はまた、「少なくとも1つ」という句が指す要素のリスト内で具体的に特定される要素以外の要素が、具体的に特定される要素に関連するか又は関連しないかにかかわらず、任意的に存在し得ることを許容する。したがって、非限定的な例として、「A及びBのうちの少なくとも1つ」(若しくは「A又はBのうちの少なくとも1つ」、又は「A及び/又はBのうちの少なくとも1つ」)は、一実施形態においては、Bが存在しない(任意的にB以外の要素を含む)少なくとも1つの(任意的に2つ以上を含む)Aを指すことができ、別の実施形態においては、Aが存在しない(任意的にA以外の要素を含む)少なくとも1つの(任意的に2つ以上を含む)Bを指すことができ、さらに別の実施形態においては、少なくとも1つの(任意的に2つ以上を含む)A及び少なくとも1つの(任意的に2つ以上を含む)B(任意的に他の要素を含む)を指すことができる、等である。
本開示において使用される「及び/又は」という句は、そのように結合された要素の「いずれか又は両方」、すなわち、いくつかの場合においては結合的に存在し、他の場合においては選言的に存在する要素を意味するものと理解されたい。「及び/又は」を用いて列挙される複数の要素は、同じように解釈されるべきである、すなわち、そのように結合された要素のうちの「1つ以上」であると解釈されるべきである。「及び/又は」の句により具体的に特定される要素以外の他の要素が、具体的に特定される要素に関連するか又は関連しないかにかかわらず、任意的に存在し得る。したがって、非限定的な例として、「有する、備える、含む」等のオープンエンドの言葉とともに使用されるときの「A及び/又はB」との言及は、一実施形態においては、Aのみ(任意的にB以外の要素を含む)を指すことができ、別の実施形態においては、Bのみ(任意的にA以外の要素を含む)を指すことができ、さらに別の実施形態においては、A及びBの両方(任意的に他の要素を含む)を指すことができる、等である。
本開示において使用される場合、「又は」は、上記で定義されたような「及び/又は」と同じ意味を有するものと理解されるべきである。例えば、リスト内の項目を分離している場合、「又は」又は「及び/又は」は、包括的であるとして、すなわち、複数の要素又は要素のリストのうちの少なくとも1つ(2つ以上も含む)を含み、任意的にリストにない追加の項目を含むとして、解釈されるべきである。
本開示において使用される表現及び用語は、説明を目的としており、限定とみなされるべきではない。「含む」、「備える」、「有する」、及びこれらの派生語の使用は、その後に列挙される項目及び追加の項目を包含することを意味する。
本発明のいくつかの実施形態を詳細に説明したが、様々な変形及び改良が、当業者には容易に思いつくであろう。そのような変更及び改良は、本発明の主旨及び範囲内にあることが意図されている。したがって、前述の説明は、例示にすぎず、限定することを意図しているものではない。

Claims (36)

  1. 機械学習分類器のためのトレーニングデータを生成する方法であって、
    関心オブジェクトに基づく、非一時的なコンピュータ読み取り可能なデータ構造として符号化された知識表現を受け取ることであって、前記知識表現は、少なくとも1つの概念及び/又は2つ以上の概念間の関係を含む、受け取ることと、
    コンテンツ項目の第1のセットを受け取ることであって、前記第1のセットは、ラベルを有しない1つ以上のコンテンツ項目を含み、前記ラベルは、コンテンツ項目を1つ以上のカテゴリに分類する、受け取ることと、
    前記第1のセットのうちの1つ以上のそれぞれのコンテンツ項目についての1つ以上のスコアを決定することであって、それぞれのコンテンツ項目についてのスコアは、前記知識表現と該それぞれのコンテンツ項目の内容とに基づく、決定することと、
    前記第1のセットのうちの前記1つ以上のそれぞれのコンテンツ項目に関連付けられたスコアに基づいて、前記第1のセットのうちの前記1つ以上のそれぞれのコンテンツ項目にラベルを割り当てることにより、前記機械学習分類器のための前記トレーニングデータを生成することと、
    を含む、方法。
  2. 前記関心オブジェクトの内容に基づいて、前記知識表現を合成すること
    をさらに含む、請求項1に記載の方法。
  3. 前記合成することは、
    前記少なくとも1つの概念及び/又は2つ以上の概念間の関係を生成することであって、前記概念及び/又は関係は、前記関心オブジェクトにおいて列挙されていない、生成すること
    さらに含む、請求項2に記載の方法。
  4. 前記知識表現は、前記少なくとも1つの概念に関連付けられた重みを含む、請求項1に記載の方法。
  5. 前記それぞれのコンテンツ項目についての前記スコアは、前記知識表現における前記少なくとも1つの概念と前記それぞれのコンテンツ項目の前記内容との共通部分に基づく、請求項1に記載の方法。
  6. 前記関心オブジェクトは、トピック、ツイート、ウェブページ、ウェブサイト、文書、文書の集合、文書タイトル、メッセージ、広告、及び/又は検索クエリを含む、請求項1に記載の方法。
  7. 前記コンテンツ項目の第1のセットに割り当てられたラベルと前記コンテンツ項目の第1のセットに関連付けられた1つ以上の特徴とに基づいて、1つ以上の分類されていないコンテンツ項目についてのラベルを予測するように、分類器をトレーニングすること
    をさらに含む、請求項1に記載の方法。
  8. コンテンツ項目の第2のセットを受け取ることであって、前記第2のセットは、ラベルを有しない1つ以上のコンテンツ項目を含む、受け取ることと、
    前記分類器により、前記第2のセットのうちの前記コンテンツ項目の1つ以上に、前記第2のセットのうちのそれぞれの1つ以上のコンテンツ項目に関連付けられた1つ以上の特徴に基づいて、ラベルを割り当てることと、
    をさらに含む、請求項7に記載の方法。
  9. 前記第1のセットのうちの前記1つ以上のそれぞれのコンテンツ項目に前記ラベルを割り当てることは、
    前記第1のセットのうちのそれぞれのコンテンツ項目についてのスコアが予め定められた閾値を超えていることに基づいて、前記ラベルを割り当てること
    を含む、請求項1に記載の方法。
  10. 前記ラベルは、「推奨する」又は「推奨しない」のうちの1つである、請求項1に記載の方法。
  11. 前記1つ以上の特徴は、タイトル、長さ、作者、単語頻度、及び/又は逆文書頻度のうちの少なくとも1つを含む、請求項7に記載の方法。
  12. 前記1つ以上の特徴は、前記知識表現の1つ以上の属性を含む、請求項7に記載の方法。
  13. 機械学習分類器のためのトレーニングデータを生成するためのシステムであって、
    関心オブジェクトに基づく、非一時的なコンピュータ読み取り可能なデータ構造として符号化された知識表現を受け取ることであって、前記知識表現は、少なくとも1つの概念及び/又は2つ以上の概念間の関係を含む、受け取ることと、
    コンテンツ項目の第1のセットを受け取ることであって、前記第1のセットは、ラベルを有しない1つ以上のコンテンツ項目を含み、前記ラベルは、コンテンツ項目を1つ以上のカテゴリに分類する、受け取ることと、
    前記第1のセットのうちの1つ以上のそれぞれのコンテンツ項目についての1つ以上のスコアを決定することであって、それぞれのコンテンツ項目についてのスコアは、前記知識表現と該それぞれのコンテンツ項目の内容とに基づく、決定することと、
    前記第1のセットのうちの前記1つ以上のそれぞれのコンテンツ項目に関連付けられたスコアに基づいて、前記第1のセットのうちの前記1つ以上のそれぞれのコンテンツ項目にラベルを割り当てることにより、前記機械学習分類器のための前記トレーニングデータを生成することと、
    を含む方法を実行するよう構成されている少なくとも1つのプロセッサ
    を有する、システム。
  14. 前記方法は、
    前記関心オブジェクトの内容に基づいて、前記知識表現を合成すること
    をさらに含む、請求項13に記載のシステム。
  15. 前記合成することは、
    前記少なくとも1つの概念及び/又は2つ以上の概念間の関係を生成することであって、前記概念及び/又は関係は、前記関心オブジェクトにおいて列挙されていない、生成すること
    さらに含む、請求項14に記載のシステム。
  16. 前記知識表現は、前記少なくとも1つの概念に関連付けられた重みを含む、請求項13に記載のシステム。
  17. 前記それぞれのコンテンツ項目についての前記スコアは、前記知識表現における前記少なくとも1つの概念と前記それぞれのコンテンツ項目の前記内容との共通部分に基づく、請求項13に記載のシステム。
  18. 前記関心オブジェクトは、トピック、ツイート、ウェブページ、ウェブサイト、文書、文書の集合、文書タイトル、メッセージ、広告、及び/又は検索クエリを含む、請求項13に記載のシステム。
  19. 前記方法は、
    前記コンテンツ項目の第1のセットに割り当てられたラベルと前記コンテンツ項目の第1のセットに関連付けられた1つ以上の特徴とに基づいて、1つ以上の分類されていないコンテンツ項目についてのラベルを予測するように、分類器をトレーニングすること
    をさらに含む、請求項13に記載のシステム。
  20. 前記方法は、
    コンテンツ項目の第2のセットを受け取ることであって、前記第2のセットは、ラベルを有しない1つ以上のコンテンツ項目を含む、受け取ることと、
    前記分類器により、前記第2のセットのうちの前記コンテンツ項目の1つ以上に、前記第2のセットのうちのそれぞれの1つ以上のコンテンツ項目に関連付けられた1つ以上の特徴に基づいて、ラベルを割り当てることと、
    をさらに含む、請求項19に記載のシステム。
  21. 前記第1のセットのうちの前記1つ以上のそれぞれのコンテンツ項目に前記ラベルを割り当てることは、
    前記第1のセットのうちのそれぞれのコンテンツ項目についてのスコアが予め定められた閾値を超えていることに基づいて、前記ラベルを割り当てること
    を含む、請求項13に記載のシステム。
  22. 前記ラベルは、「推奨する」又は「推奨しない」のうちの1つである、請求項13に記載のシステム。
  23. 前記1つ以上の特徴は、タイトル、長さ、作者、単語頻度、及び/又は逆文書頻度のうちの少なくとも1つを含む、請求項19に記載のシステム。
  24. 前記1つ以上の特徴は、前記知識表現の1つ以上の属性を含む、請求項19に記載のシステム。
  25. プロセッサ実行可能な命令を記憶している少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体であって、前記命令は、少なくとも1つのプロセッサにより実行されたときに、前記少なくとも1つのプロセッサに、機械学習分類器のためのトレーニングデータを生成する方法を実行させ、前記方法は、
    関心オブジェクトに基づく、非一時的なコンピュータ読み取り可能なデータ構造として符号化された知識表現を受け取ることであって、前記知識表現は、少なくとも1つの概念及び/又は2つ以上の概念間の関係を含む、受け取ることと、
    コンテンツ項目の第1のセットを受け取ることであって、前記第1のセットは、ラベルを有しない1つ以上のコンテンツ項目を含み、前記ラベルは、コンテンツ項目を1つ以上のカテゴリに分類する、受け取ることと、
    前記第1のセットのうちの1つ以上のそれぞれのコンテンツ項目についての1つ以上のスコアを決定することであって、それぞれのコンテンツ項目についてのスコアは、前記知識表現と該それぞれのコンテンツ項目の内容とに基づく、決定することと、
    前記第1のセットのうちの前記1つ以上のそれぞれのコンテンツ項目に関連付けられたスコアに基づいて、前記第1のセットのうちの前記1つ以上のそれぞれのコンテンツ項目にラベルを割り当てることにより、前記機械学習分類器のための前記トレーニングデータを生成することと、
    を含む、少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体。
  26. 前記方法は、
    前記関心オブジェクトの内容に基づいて、前記知識表現を合成すること
    をさらに含む、請求項25に記載の少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体。
  27. 前記合成することは、
    前記少なくとも1つの概念及び/又は2つ以上の概念間の関係を生成することであって、前記概念及び/又は関係は、前記関心オブジェクトにおいて列挙されていない、生成すること
    さらに含む、請求項26に記載の少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体。
  28. 前記知識表現は、前記少なくとも1つの概念に関連付けられた重みを含む、請求項25に記載の少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体。
  29. 前記それぞれのコンテンツ項目についての前記スコアは、前記知識表現における前記少なくとも1つの概念と前記それぞれのコンテンツ項目の前記内容との共通部分に基づく、請求項25に記載の少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体。
  30. 前記関心オブジェクトは、トピック、ツイート、ウェブページ、ウェブサイト、文書、文書の集合、文書タイトル、メッセージ、広告、及び/又は検索クエリを含む、請求項25に記載の少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体。
  31. 前記方法は、
    前記コンテンツ項目の第1のセットに割り当てられたラベルと前記コンテンツ項目の第1のセットに関連付けられた1つ以上の特徴とに基づいて、1つ以上の分類されていないコンテンツ項目についてのラベルを予測するように、分類器をトレーニングすること
    をさらに含む、請求項25に記載の少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体。
  32. 前記方法は、
    コンテンツ項目の第2のセットを受け取ることであって、前記第2のセットは、ラベルを有しない1つ以上のコンテンツ項目を含む、受け取ることと、
    前記分類器により、前記第2のセットのうちの前記コンテンツ項目の1つ以上に、前記第2のセットのうちのそれぞれの1つ以上のコンテンツ項目に関連付けられた1つ以上の特徴に基づいて、ラベルを割り当てることと、
    をさらに含む、請求項31に記載の少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体。
  33. 前記第1のセットのうちの前記1つ以上のそれぞれのコンテンツ項目に前記ラベルを割り当てることは、
    前記第1のセットのうちのそれぞれのコンテンツ項目についてのスコアが予め定められた閾値を超えていることに基づいて、前記ラベルを割り当てること
    を含む、請求項25に記載の少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体。
  34. 前記ラベルは、「推奨する」又は「推奨しない」のうちの1つである、請求項25に記載の少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体。
  35. 前記1つ以上の特徴は、タイトル、長さ、作者、単語頻度、及び/又は逆文書頻度のうちの少なくとも1つを含む、請求項31に記載の少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体。
  36. 前記1つ以上の特徴は、前記知識表現の1つ以上の属性を含む、請求項31に記載の少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体。
JP2019527560A 2016-11-23 2016-11-23 機械学習分類器とともに知識表現を使用するためのシステム及び方法 Active JP6833999B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CA2016/000288 WO2018094496A1 (en) 2016-11-23 2016-11-23 System and method for using a knowledge representation with a machine learning classifier

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021015547A Division JP7102563B2 (ja) 2021-02-03 2021-02-03 機械学習分類器とともに知識表現を使用するためのシステム及び方法

Publications (3)

Publication Number Publication Date
JP2019536168A JP2019536168A (ja) 2019-12-12
JP2019536168A5 JP2019536168A5 (ja) 2020-01-30
JP6833999B2 true JP6833999B2 (ja) 2021-02-24

Family

ID=62194629

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019527560A Active JP6833999B2 (ja) 2016-11-23 2016-11-23 機械学習分類器とともに知識表現を使用するためのシステム及び方法

Country Status (5)

Country Link
EP (1) EP3545425A4 (ja)
JP (1) JP6833999B2 (ja)
CN (1) CN110168579A (ja)
CA (1) CA3044530A1 (ja)
WO (1) WO2018094496A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11755949B2 (en) 2017-08-10 2023-09-12 Allstate Insurance Company Multi-platform machine learning systems
US10878144B2 (en) 2017-08-10 2020-12-29 Allstate Insurance Company Multi-platform model processing and execution management engine
JP6907179B2 (ja) * 2018-12-20 2021-07-21 ヤフー株式会社 算出装置、算出方法及び算出プログラム
US10867215B2 (en) * 2019-04-11 2020-12-15 Black Sesame International Holding Limited Mixed intelligence data labeling system for machine learning
US11443209B2 (en) * 2020-04-16 2022-09-13 International Business Machines Corporation Method and system for unlabeled data selection using failed case analysis

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5689620A (en) * 1995-04-28 1997-11-18 Xerox Corporation Automatic training of character templates using a transcription and a two-dimensional image source model
EP1203315A1 (en) * 1999-06-15 2002-05-08 Kanisa Inc. System and method for document management based on a plurality of knowledge taxonomies
US7673234B2 (en) * 2002-03-11 2010-03-02 The Boeing Company Knowledge management using text classification
US9104779B2 (en) * 2005-03-30 2015-08-11 Primal Fusion Inc. Systems and methods for analyzing and synthesizing complex knowledge representations
JP2007026115A (ja) * 2005-07-15 2007-02-01 Nippon Telegr & Teleph Corp <Ntt> ラベル付与システムおよびラベル付与方法
US8014591B2 (en) * 2006-09-13 2011-09-06 Aurilab, Llc Robust pattern recognition system and method using socratic agents
US7792353B2 (en) * 2006-10-31 2010-09-07 Hewlett-Packard Development Company, L.P. Retraining a machine-learning classifier using re-labeled training samples
JP4976912B2 (ja) * 2007-04-27 2012-07-18 日本電信電話株式会社 ラベル付与方法、ラベル付与装置、ラベル付与プログラムおよびその記憶媒体
US8676732B2 (en) * 2008-05-01 2014-03-18 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
CN101655856A (zh) * 2009-09-15 2010-02-24 西安交通大学 一种获取用户特定知识元兴趣度的方法
US8533134B1 (en) * 2009-11-17 2013-09-10 Google Inc. Graph-based fusion for video classification
CN101706794B (zh) * 2009-11-24 2012-08-22 上海显智信息科技有限公司 基于语义实体关系模型和可视化推荐的信息浏览检索方法
AU2012203964A1 (en) * 2010-12-30 2013-07-18 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
US8954358B1 (en) * 2011-11-03 2015-02-10 Google Inc. Cluster-based video classification
US9275291B2 (en) * 2013-06-17 2016-03-01 Texifter, LLC System and method of classifier ranking for incorporation into enhanced machine learning
US10169686B2 (en) * 2013-08-05 2019-01-01 Facebook, Inc. Systems and methods for image classification by correlating contextual cues with images
US9436918B2 (en) * 2013-10-07 2016-09-06 Microsoft Technology Licensing, Llc Smart selection of text spans
WO2016009321A1 (en) * 2014-07-14 2016-01-21 International Business Machines Corporation System for searching, recommending, and exploring documents through conceptual associations and inverted table for storing and querying conceptual indices
US10089580B2 (en) * 2014-08-11 2018-10-02 Microsoft Technology Licensing, Llc Generating and using a knowledge-enhanced model
US20160253597A1 (en) * 2015-02-27 2016-09-01 Xerox Corporation Content-aware domain adaptation for cross-domain classification

Also Published As

Publication number Publication date
CA3044530A1 (en) 2018-05-31
EP3545425A1 (en) 2019-10-02
WO2018094496A1 (en) 2018-05-31
EP3545425A4 (en) 2020-07-15
JP2019536168A (ja) 2019-12-12
CN110168579A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
Dessì et al. Bridging learning analytics and cognitive computing for big data classification in micro-learning video collections
US10699080B2 (en) Capturing rich response relationships with small-data neural networks
Chakraborty et al. Sentiment analysis on a set of movie reviews using deep learning techniques
JP6833999B2 (ja) 機械学習分類器とともに知識表現を使用するためのシステム及び方法
US20170116203A1 (en) Method of automated discovery of topic relatedness
US20180144269A1 (en) System and method of using a knowledge representation for features in a machine learning classifier
Sohrabi et al. An efficient preprocessing method for supervised sentiment analysis by converting sentences to numerical vectors: a twitter case study
US20180144270A1 (en) System and method for modifying a knowledge representation based on a machine learning classifier
Li et al. Recursive deep learning for sentiment analysis over social data
US20230133065A1 (en) System and method for generating training data for machine learning classifier
Osmani et al. Enriched latent dirichlet allocation for sentiment analysis
Jain et al. Deceptive reviews detection using deep learning techniques
Yang et al. Enhancing recommendation on extremely sparse data with blocks-coupled non-negative matrix factorization
JP2024028697A (ja) 機械学習分類器とともに知識表現を使用するためのシステム及び方法
Inan Zoka: a fake news detection method using edge-weighted graph attention network with transfer models
Nirav Shah et al. A systematic literature review and existing challenges toward fake news detection models
Biesialska et al. Leveraging contextual embeddings and self-attention neural networks with bi-attention for sentiment analysis
Agbehadji et al. Approach to sentiment analysis and business communication on social media
Madani et al. A review-based context-aware recommender systems: Using custom ner and factorization machines
Ellsaesser et al. Models of causal inference: Imperfect but applicable is better than perfect but inapplicable
Bisio et al. Sentic computing for social network analysis
Soni et al. Feature Based Sentiment Analysis of Product Reviews Using Deep Learning Methods
Bansal et al. Context-sensitive and attribute-based sentiment classification of online consumer-generated content
Modak et al. Sentiment analysis of twitter data using clustering and classification
Weese et al. Parody Detection: An Annotation, Feature Construction, and Classification Approach to the Web of Parody

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191120

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210203

R150 Certificate of patent or registration of utility model

Ref document number: 6833999

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250