JP2024028697A5 - - Google Patents

Download PDF

Info

Publication number
JP2024028697A5
JP2024028697A5 JP2023191415A JP2023191415A JP2024028697A5 JP 2024028697 A5 JP2024028697 A5 JP 2024028697A5 JP 2023191415 A JP2023191415 A JP 2023191415A JP 2023191415 A JP2023191415 A JP 2023191415A JP 2024028697 A5 JP2024028697 A5 JP 2024028697A5
Authority
JP
Japan
Prior art keywords
content items
knowledge representation
content
transitory computer
concept
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023191415A
Other languages
Japanese (ja)
Other versions
JP2024028697A (en
Filing date
Publication date
Priority claimed from JP2021015547A external-priority patent/JP7102563B2/en
Application filed filed Critical
Priority to JP2023191415A priority Critical patent/JP2024028697A/en
Publication of JP2024028697A publication Critical patent/JP2024028697A/en
Publication of JP2024028697A5 publication Critical patent/JP2024028697A5/ja
Pending legal-status Critical Current

Links

Claims (33)

機械学習アルゴリズムのためのトレーニングデータを生成する方法であって、前記方法は、
関心オブジェクトに基づく、非一時的なコンピュータ読み取り可能なデータ構造として符号化された知識表現を受信するステップであって、前記知識表現は少なくとも1つの概念及び/又は2つ以上の概念の間の関係を含む、ステップと、
コンテンツ項目の第1セットを受信するステップであって、前記第1セットは、ラベル付けされていない1つ以上のコンテンツ項目を含み、ラベルはコンテンツ項目を前記知識表現の1つ以上の特徴に関連付ける、ステップと、
前記第1セットの1つ以上の各々のコンテンツ項目について1つ以上のスコアを決定するステップであって、各々のコンテンツ項目の前記スコアは、前記知識表現と各々の前記コンテンツ項目の内容に基づく、ステップと、
前記第1セットの1つ以上の各々のコンテンツ項目に関連付けられた前記スコアに基づき、前記第1セットの1つ以上の各々のコンテンツ項目にラベルを割り当てることにより、前記機械学習アルゴリズムのための前記トレーニングデータを生成するステップと、
を含む方法。
1. A method for generating training data for a machine learning algorithm, the method comprising:
receiving a knowledge representation encoded as a non-transitory computer readable data structure based on an object of interest, the knowledge representation including at least one concept and/or a relationship between two or more concepts;
receiving a first set of content items, the first set including one or more unlabeled content items, the labels associating the content items with one or more features of the knowledge representation;
determining one or more scores for each of the one or more content items of the first set, the score for each content item being based on the knowledge representation and content of each of the content items;
generating the training data for the machine learning algorithm by assigning a label to each of the one or more content items in the first set based on the score associated with each of the one or more content items in the first set;
The method includes:
前記関心オブジェクトの内容に基づき、前記知識表現を合成するステップ、を更に含む請求項1に記載の方法。 The method of claim 1, further comprising synthesizing the knowledge representation based on the content of the object of interest. 前記合成するステップは、前記少なくとも1つの概念及び/又は2つ以上の概念の間の関係を生成するステップを含み、前記概念及び/又は関係は、前記関心オブジェクトにおいて列挙されていない、請求項2に記載の方法。 The method of claim 2, wherein the synthesizing step includes generating the at least one concept and/or relationships between two or more concepts, the concepts and/or relationships not enumerated in the object of interest. 前記知識表現は、前記少なくとも1つの概念に関連付けられた重みを含む、請求項1に記載の方法。 The method of claim 1, wherein the knowledge representation includes a weight associated with the at least one concept. 各々の前記コンテンツ項目の前記スコアは、前記知識表現における少なくとも1つの概念と各々の前記コンテンツ項目の内容との共通部分に基づく、請求項1に記載の方法。 The method of claim 1, wherein the score for each of the content items is based on an intersection of at least one concept in the knowledge representation with the content of each of the content items. 前記関心オブジェクトは、非構造化データ、テキスト、オーディオ、ビデオ、トピック、ツイート、ウェブページ、ウェブサイト、文書、文書の集合、文書タイトル、メッセージ、広告、及び/又は検索クエリを含む、請求項1に記載の方法。 The method of claim 1, wherein the interest objects include unstructured data, text, audio, video, topics, tweets, web pages, websites, documents, collections of documents, document titles, messages, advertisements, and/or search queries. 前記コンテンツ項目の第1セットに割り当てられたラベルと、前記コンテンツ項目の第1セットに関連付けられた1つ以上の特徴とに基づき、1つ以上の関連付けられていないコンテンツ項目のラベルを予測するよう、アルゴリズムをトレーニングするステップ、
を更に含む請求項1に記載の方法。
training an algorithm to predict labels of one or more unassociated content items based on the labels assigned to the first set of content items and one or more features associated with the first set of content items;
The method of claim 1 further comprising:
コンテンツ項目の第2セットを受信するステップであって、前記第2セットは、ラベル付けされていない1つ以上のコンテンツ項目を含む、ステップと、
前記アルゴリズムにより、前記第2セットの各々の1つ以上のコンテンツ項目に関連付けられた1つ以上の特徴に基づき、前記第2セットのコンテンツ項目のうちの1つ以上にラベルを割り当てるステップと、
を更に含む請求項7に記載の方法。
receiving a second set of content items, the second set including one or more unlabeled content items;
assigning, by the algorithm, a label to one or more of the second set of content items based on one or more features associated with each of the one or more content items in the second set;
The method of claim 7 further comprising:
前記第1セットの1つ以上の各々のコンテンツ項目にラベルを割り当てるステップは、所定の閾値を超える、前記第1セットの各々のコンテンツ項目のスコアに基づき、前記ラベルを割り当てるステップを含む、請求項1に記載の方法。 The method of claim 1, wherein assigning a label to each of the one or more content items in the first set includes assigning the label based on a score of each content item in the first set exceeding a predetermined threshold. 前記機械学習アルゴリズムは、教師あり学習を用いて、ラベル付けされたトレーニングデータから1つ以上の関数を推論する、請求項1に記載の方法。 The method of claim 1, wherein the machine learning algorithm uses supervised learning to infer one or more functions from labeled training data. 前記コンテンツ項目の第1セットに関連付けられた1つ以上の特徴は、タイトル、長さ、作者、単語頻度、逆文書頻度、及び/又は前記知識表現の属性、のうちの少なくとも1つを含む、請求項7に記載の方法。 The method of claim 7, wherein the one or more features associated with the first set of content items include at least one of title, length, author, word frequency, inverse document frequency, and/or attributes of the knowledge representation. 機械学習アルゴリズムのためのトレーニングデータを生成するシステムであって、前記システムは、少なくとも1つのプロセッサを含み、前記プロセッサは方法を実行するよう構成され、前記方法は、
関心オブジェクトに基づく、非一時的なコンピュータ読み取り可能なデータ構造として符号化された知識表現を受信するステップであって、前記知識表現は少なくとも1つの概念及び/又は2つ以上の概念の間の関係を含む、ステップと、
コンテンツ項目の第1セットを受信するステップであって、前記第1セットは、ラベル付けされていない1つ以上のコンテンツ項目を含み、ラベルはコンテンツ項目を前記知識表現の1つ以上の特徴に関連付ける、ステップと、
前記第1セットの1つ以上の各々のコンテンツ項目について1つ以上のスコアを決定するステップであって、各々のコンテンツ項目の前記スコアは、前記知識表現と各々の前記コンテンツ項目の内容に基づく、ステップと、
前記第1セットの1つ以上の各々のコンテンツ項目に関連付けられた前記スコアに基づき、前記第1セットの1つ以上の各々のコンテンツ項目にラベルを割り当てることにより、前記機械学習アルゴリズムのための前記トレーニングデータを生成するステップと、
を含む、システム。
1. A system for generating training data for a machine learning algorithm, the system including at least one processor, the processor configured to execute a method, the method comprising:
receiving a knowledge representation encoded as a non-transitory computer readable data structure based on an object of interest, the knowledge representation including at least one concept and/or a relationship between two or more concepts;
receiving a first set of content items, the first set including one or more unlabeled content items, the labels associating the content items with one or more features of the knowledge representation;
determining one or more scores for each of the one or more content items of the first set, the score for each content item being based on the knowledge representation and content of each of the content items;
generating the training data for the machine learning algorithm by assigning a label to each of the one or more content items in the first set based on the score associated with each of the one or more content items in the first set;
Including, the system.
前記方法は、前記関心オブジェクトの内容に基づき、前記知識表現を合成するステップを更に含む、請求項12に記載のシステム。 The system of claim 12, wherein the method further comprises synthesizing the knowledge representation based on content of the object of interest. 前記合成するステップは、前記少なくとも1つの概念及び/又は2つ以上の概念の間の関係を生成するステップを含み、前記概念及び/又は関係は、前記関心オブジェクトにおいて列挙されていない、請求項13に記載のシステム。 The system of claim 13, wherein the synthesizing step includes generating a relationship between the at least one concept and/or two or more concepts, the concept and/or relationship not being enumerated in the object of interest. 前記知識表現は、前記少なくとも1つの概念に関連付けられた重みを含む、請求項12に記載のシステム。 The system of claim 12, wherein the knowledge representation includes a weight associated with the at least one concept. 各々の前記コンテンツ項目の前記スコアは、前記知識表現における少なくとも1つの概念と各々の前記コンテンツ項目の内容との共通部分に基づく、請求項12に記載のシステム。 The system of claim 12, wherein the score for each of the content items is based on an intersection of at least one concept in the knowledge representation with the content of each of the content items. 前記関心オブジェクトは、非構造化データ、テキスト、オーディオ、ビデオ、トピック、ツイート、ウェブページ、ウェブサイト、文書、文書の集合、文書タイトル、メッセージ、広告、及び/又は検索クエリを含む、請求項12に記載のシステム。 The system of claim 12, wherein the interest objects include unstructured data, text, audio, video, topics, tweets, web pages, websites, documents, collections of documents, document titles, messages, advertisements, and/or search queries. 前記方法は、前記コンテンツ項目の第1セットに割り当てられたラベルと、前記コンテンツ項目の第1セットに関連付けられた1つ以上の特徴とに基づき、1つ以上の関連付けられていないコンテンツ項目のラベルを予測するよう、アルゴリズムをトレーニングするステップを更に含む、請求項12に記載のシステム。 The system of claim 12, wherein the method further comprises training an algorithm to predict labels of one or more unassociated content items based on labels assigned to the first set of content items and one or more features associated with the first set of content items. 前記方法は、
コンテンツ項目の第2セットを受信するステップであって、前記第2セットは、ラベル付けされていない1つ以上のコンテンツ項目を含む、ステップと、
前記アルゴリズムにより、前記第2セットの各々の1つ以上のコンテンツ項目に関連付けられた1つ以上の特徴に基づき、前記第2セットのコンテンツ項目のうちの1つ以上にラベルを割り当てるステップと、
を更に含む、請求項18に記載のシステム。
The method comprises:
receiving a second set of content items, the second set including one or more unlabeled content items;
assigning, by the algorithm, a label to one or more of the second set of content items based on one or more features associated with each of the one or more content items in the second set;
The system of claim 18 further comprising:
前記第1セットの1つ以上の各々のコンテンツ項目にラベルを割り当てるステップは、所定の閾値を超える、前記第1セットの各々のコンテンツ項目のスコアに基づき、前記ラベルを割り当てるステップを含む、請求項12に記載のシステム。 The system of claim 12, wherein assigning a label to each of the one or more content items in the first set includes assigning the label based on a score of each content item in the first set exceeding a predetermined threshold. 前記機械学習アルゴリズムは、教師あり学習を用いて、ラベル付けされたトレーニングデータから1つ以上の関数を推論する、請求項12に記載のシステム。 The system of claim 12, wherein the machine learning algorithm uses supervised learning to infer one or more functions from labeled training data. 前記コンテンツ項目の第1セットに関連付けられた1つ以上の特徴は、タイトル、長さ、作者、単語頻度、逆文書頻度、及び/又は前記知識表現の属性、のうちの少なくとも1つを含む、請求項18に記載のシステム。 The system of claim 18, wherein the one or more features associated with the first set of content items include at least one of title, length, author, word frequency, inverse document frequency, and/or attributes of the knowledge representation. プロセッサにより実行可能な命令を格納している少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体であって、前記命令は、少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに、機械学習アルゴリズムのためのトレーニングデータを生成する方法を実行させ、前記方法は、
関心オブジェクトに基づく、非一時的なコンピュータ読み取り可能なデータ構造として符号化された知識表現を受信するステップであって、前記知識表現は少なくとも1つの概念及び/又は2つ以上の概念の間の関係を含む、ステップと、
コンテンツ項目の第1セットを受信するステップであって、前記第1セットは、ラベル付けされていない1つ以上のコンテンツ項目を含み、ラベルはコンテンツ項目を前記知識表現の1つ以上の特徴に関連付ける、ステップと、
前記第1セットの1つ以上の各々のコンテンツ項目について1つ以上のスコアを決定するステップであって、各々のコンテンツ項目の前記スコアは、前記知識表現と各々の前記コンテンツ項目の内容に基づく、ステップと、
前記第1セットの1つ以上の各々のコンテンツ項目に関連付けられた前記スコアに基づき、前記第1セットの1つ以上の各々のコンテンツ項目にラベルを割り当てることにより、前記機械学習アルゴリズムのための前記トレーニングデータを生成するステップと、
を含む、少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体。
At least one non-transitory computer-readable storage medium storing processor-executable instructions that, when executed by at least one processor, cause the at least one processor to perform a method of generating training data for a machine learning algorithm, the method comprising:
receiving a knowledge representation encoded as a non-transitory computer readable data structure based on an object of interest, the knowledge representation including at least one concept and/or a relationship between two or more concepts;
receiving a first set of content items, the first set including one or more unlabeled content items, the labels associating the content items with one or more features of the knowledge representation;
determining one or more scores for each of the one or more content items of the first set, the score for each content item being based on the knowledge representation and content of each of the content items;
generating the training data for the machine learning algorithm by assigning a label to each of the one or more content items in the first set based on the score associated with each of the one or more content items in the first set;
At least one non-transitory computer readable storage medium comprising:
前記方法は、前記関心オブジェクトの内容に基づき、前記知識表現を合成するステップを更に含む、請求項23に記載の少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体。 24. At least one non-transitory computer-readable storage medium according to claim 23, wherein the method further comprises synthesizing the knowledge representation based on content of the objects of interest. 前記合成するステップは、前記少なくとも1つの概念及び/又は2つ以上の概念の間の関係を生成するステップであって、前記概念及び/又は関係は、前記関心オブジェクトにおいて列挙されていない、請求項24に記載の少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体。 25. At least one non-transitory computer-readable storage medium according to claim 24, wherein the synthesizing step is a step of generating the at least one concept and/or relationships between two or more concepts, the concepts and/or relationships not enumerated in the object of interest. 前記知識表現は、前記少なくとも1つの概念に関連付けられた重みを含む、請求項23に記載の少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体。 24. At least one non-transitory computer-readable storage medium according to claim 23, wherein the knowledge representation includes a weight associated with the at least one concept. 各々の前記コンテンツ項目の前記スコアは、前記知識表現における少なくとも1つの概念と各々の前記コンテンツ項目の内容との共通部分に基づく、請求項23に記載の少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体。 24. At least one non-transitory computer-readable storage medium according to claim 23, wherein the score for each of the content items is based on an intersection of at least one concept in the knowledge representation with the content of each of the content items. 前記関心オブジェクトは、非構造化データ、テキスト、オーディオ、ビデオ、トピック、ツイート、ウェブページ、ウェブサイト、文書、文書の集合、文書タイトル、メッセージ、広告、及び/又は検索クエリを含む、請求項23に記載の少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体。 24. At least one non-transitory computer-readable storage medium according to claim 23, wherein the objects of interest include unstructured data, text, audio, video, topics, tweets, web pages, websites, documents, collections of documents, document titles, messages, advertisements, and/or search queries. 前記方法は、前記コンテンツ項目の第1セットに割り当てられたラベルと、前記コンテンツ項目の第1セットに関連付けられた1つ以上の特徴とに基づき、1つ以上の関連付けられていないコンテンツ項目のラベルを予測するよう、アルゴリズムをトレーニングするステップを更に含む、請求項23に記載の少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体。 24. At least one non-transitory computer-readable storage medium according to claim 23, wherein the method further comprises training an algorithm to predict labels of one or more unassociated content items based on labels assigned to the first set of content items and one or more features associated with the first set of content items. 前記方法は、
コンテンツ項目の第2セットを受信するステップであって、前記第2セットは、ラベル付けされていない1つ以上のコンテンツ項目を含む、ステップと、
前記アルゴリズムにより、前記第2セットの各々の1つ以上のコンテンツ項目に関連付けられた1つ以上の特徴に基づき、前記第2セットのコンテンツ項目のうちの1つ以上にラベルを割り当てるステップと、
を更に含む、請求項29に記載の少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体。
The method comprises:
receiving a second set of content items, the second set including one or more unlabeled content items;
assigning, by the algorithm, a label to one or more of the second set of content items based on one or more features associated with each of the one or more content items in the second set;
30. The at least one non-transitory computer readable storage medium of claim 29, further comprising:
前記第1セットの1つ以上の各々のコンテンツ項目にラベルを割り当てるステップは、所定の閾値を超える、前記第1セットの各々のコンテンツ項目のスコアに基づき、前記ラベルを割り当てるステップを含む、請求項23に記載の少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体。 24. At least one non-transitory computer-readable storage medium according to claim 23, wherein assigning a label to each of the one or more content items of the first set includes assigning the label based on a score of each content item of the first set exceeding a predetermined threshold. 前記機械学習アルゴリズムは、教師あり学習を用いて、ラベル付けされたトレーニングデータから1つ以上の関数を推論する、請求項23に記載の少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体。 24. At least one non-transitory computer-readable storage medium according to claim 23, wherein the machine learning algorithm uses supervised learning to infer one or more functions from labeled training data. 前記コンテンツ項目の第1セットに関連付けられた1つ以上の特徴は、タイトル、長さ、作者、単語頻度、逆文書頻度、及び/又は前記知識表現の属性、のうちの少なくとも1つを含む、請求項29に記載の少なくとも1つの非一時的なコンピュータ読み取り可能な記憶媒体。
30. At least one non-transitory computer-readable storage medium as described in claim 29, wherein the one or more features associated with the first set of content items include at least one of title, length, author, word frequency, inverse document frequency, and/or attributes of the knowledge representation.
JP2023191415A 2021-02-03 2023-11-09 Systems and methods for using knowledge representations with machine learning classifiers Pending JP2024028697A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023191415A JP2024028697A (en) 2021-02-03 2023-11-09 Systems and methods for using knowledge representations with machine learning classifiers

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2021015547A JP7102563B2 (en) 2021-02-03 2021-02-03 Systems and methods for using knowledge representation with machine learning classifiers
JP2022108908A JP7384968B2 (en) 2021-02-03 2022-07-06 Systems and methods for using knowledge representations with machine learning classifiers
JP2023191415A JP2024028697A (en) 2021-02-03 2023-11-09 Systems and methods for using knowledge representations with machine learning classifiers

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2022108908A Division JP7384968B2 (en) 2021-02-03 2022-07-06 Systems and methods for using knowledge representations with machine learning classifiers

Publications (2)

Publication Number Publication Date
JP2024028697A JP2024028697A (en) 2024-03-05
JP2024028697A5 true JP2024028697A5 (en) 2024-05-16

Family

ID=75965740

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2021015547A Active JP7102563B2 (en) 2021-02-03 2021-02-03 Systems and methods for using knowledge representation with machine learning classifiers
JP2022108908A Active JP7384968B2 (en) 2021-02-03 2022-07-06 Systems and methods for using knowledge representations with machine learning classifiers
JP2023191415A Pending JP2024028697A (en) 2021-02-03 2023-11-09 Systems and methods for using knowledge representations with machine learning classifiers

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2021015547A Active JP7102563B2 (en) 2021-02-03 2021-02-03 Systems and methods for using knowledge representation with machine learning classifiers
JP2022108908A Active JP7384968B2 (en) 2021-02-03 2022-07-06 Systems and methods for using knowledge representations with machine learning classifiers

Country Status (1)

Country Link
JP (3) JP7102563B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11443209B2 (en) * 2020-04-16 2022-09-13 International Business Machines Corporation Method and system for unlabeled data selection using failed case analysis

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5383017B2 (en) 2007-09-04 2014-01-08 ヤフー株式会社 System for presenting an image that matches a Web page
JP5415055B2 (en) * 2008-10-30 2014-02-12 Kddi株式会社 Content classification apparatus and program
CN103324632B (en) * 2012-03-22 2016-08-03 日电(中国)有限公司 A kind of concept identification method based on Cooperative Study and device
JP5591871B2 (en) 2012-06-04 2014-09-17 日本電信電話株式会社 Answer type estimation apparatus, method, and program
US10169686B2 (en) * 2013-08-05 2019-01-01 Facebook, Inc. Systems and methods for image classification by correlating contextual cues with images
JP6201779B2 (en) 2014-01-20 2017-09-27 富士ゼロックス株式会社 Information processing apparatus and information processing program
US10936967B2 (en) 2014-11-26 2021-03-02 Nec Corporation Information processing system, information processing method, and recording medium for learning a classification model

Similar Documents

Publication Publication Date Title
JP6801350B2 (en) Descriptive topic label generation
US20210124770A1 (en) Content summarization and/or recommendation apparatus and method
US8949211B2 (en) Objective-function based sentiment
JP2024028697A5 (en)
JP2019536168A5 (en)
KR101607468B1 (en) Keyword tagging method and system for contents
Torunoğlu et al. Wikipedia based semantic smoothing for twitter sentiment classification
Neethukrishnan et al. Ontology based research paper recommendation using personal ontology similarity method
Huang et al. Discovering Chinese sentence patterns for feature-based opinion summarization
Jebari et al. A multi-label and adaptive genre classification of web pages
Xu et al. Aspect based sentiment analysis for online reviews
Gandhi et al. Information extraction from unstructured data using RDF
Sivaramakrishnan et al. Validating effective resume based on employer’s interest with recommendation system
Adamov Mining term association rules from unstructured text in Azerbaijani language
US11803583B2 (en) Concept discovery from text via knowledge transfer
JP2022145684A (en) System and method for using knowledge representation with machine learning classifier
Srinilta et al. Lyric-based sentiment polarity classification of Thai songs
Jebari A pure URL-based genre classification of web pages
Jiang et al. Wiki3c: exploiting wikipedia for context-aware concept categorization
Deveaud et al. Social recommendation and external resources for book search
Yu et al. Semi-supervised learning for opinion detection
Amrane et al. Semantic indexing of multimedia content using textual and visual information
Wasi et al. Document classification using wikidata properties
Muaad et al. Arabic Hate Speech Detection Using Different Machine Learning Approach
Lassri et al. Web Page Classification Based on an Accurate Technique for Key Data Extraction