JP7467444B2 - テキストの分類およびモデレーション - Google Patents
テキストの分類およびモデレーション Download PDFInfo
- Publication number
- JP7467444B2 JP7467444B2 JP2021523497A JP2021523497A JP7467444B2 JP 7467444 B2 JP7467444 B2 JP 7467444B2 JP 2021523497 A JP2021523497 A JP 2021523497A JP 2021523497 A JP2021523497 A JP 2021523497A JP 7467444 B2 JP7467444 B2 JP 7467444B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- comments
- user
- computing system
- client machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010801 machine learning Methods 0.000 claims description 113
- 238000000034 method Methods 0.000 claims description 89
- 238000002372 labelling Methods 0.000 claims description 42
- 239000013598 vector Substances 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 29
- 230000004044 response Effects 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 7
- 238000009877 rendering Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 40
- 238000010586 diagram Methods 0.000 description 9
- 238000012800 visualization Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000272525 Anas platyrhynchos Species 0.000 description 1
- 241000272194 Ciconiiformes Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2178—Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/107—Computer-aided management of electronic mailing [e-mailing]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Computer Hardware Design (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Economics (AREA)
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
以下に、本出願の当初の特許請求の範囲に記載された発明を付記する。
[1]
方法であって、
コンピューティングシステムによって、コメントのコーパス内の個々の単語を単語埋め込みベクトルにマッピングすることと、
前記単語埋め込みベクトルに少なくとも部分的に基づいて、前記コメントのコーパスから関連する単語のクラスタを決定することと、
人間ラベル付け入力に基づいて、関連する単語のクラスタ内の1つ以上の単語が特定のタイプの単語であると決定することと、
前記コメントのコーパス内で、前記関連する単語のクラスタから少なくとも1つの単語を含むコメントのサブセットを識別することと、
前記コメントのコーパス内のコメントにラベル付けして、ラベル付けされたコメントを作成することであって、前記コメントのサブセットに含まれるコメントに、複数のクラスラベルの第1のクラスラベルがラベル付けされる、作成することと、
前記ラベル付けされたコメントのサンプリングされたセットを選択することと、
前記ラベル付けされたコメントのサンプリングされたセットを訓練用データとして使用して機械学習モデルを訓練し、前記複数のクラスラベルを使用してコメントを分類するように構成された、訓練された機械学習モデルを得ることと、
前記コンピューティングシステムによって、オンラインディスカッションフォーラムで提示される未分類コメントを受信することと、
前記訓練された機械学習モデルへの入力として、前記未分類コメントを提供することと、
前記訓練された機械学習モデルからの出力として、前記複数のクラスラベルを使用して前記未分類コメントの分類を生成して分類されたコメントを得ることであって、前記分類が、特定のコメントを前記第1のクラスラベルとして分類することを含む、得ることと、
クライアントマシンのディスプレイ上に前記分類されたコメントを提示させることであって、前記特定のコメントのテキストが、前記クライアントマシンの前記ディスプレイ上の前記テキストを隠すようにモデレートされる、提示させることと、を含む、方法。
[2]
前記特定のコメントの前記分類は、前記特定のコメントが前記特定のタイプの単語を含む確率に関連するスコアとして前記訓練された機械学習モデルから出力され、前記特定のコメントは、前記スコアが閾値を満たすかまたは超えていることに少なくとも部分的に基づいて、前記第1のクラスラベルとして分類される、[1]に記載の方法。
[3]
前記第1のクラスラベルとしての前記特定のコメントの前記分類は、前記特定のコメントが有害な言語、ヘイトスピーチ、または冒涜的な表現のうちの少なくとも1つを含むことを示す、[1]に記載の方法。
[4]
前記クライアントマシンのユーザを識別することと、
前記ユーザに関連付けられたユーザプロファイルのユーザ嗜好設定を決定することであって、前記ユーザ嗜好設定が、前記ユーザが前記第1のクラスラベルとして分類されたコメントを見たくないことを示す、決定することと、をさらに含み、
前記特定のコメントの前記テキストは、前記ユーザプロファイルの前記ユーザ嗜好設定に少なくとも部分的に基づいてモデレートされる、[1]に記載の方法。
[5]
前記特定のコメントの前記テキストは、
前記特定のコメントの前記テキストの上に不透明な色をレンダリングすること、
前記テキストをぼかして前記テキストを判読できないようにすること、または
前記特定のコメントから前記テキストを取り除くことのうちの少なくとも1つによって、モデレートされる、[1]に記載の方法。
[6]
前記クライアントマシンから、前記クライアントマシンのユーザが前記特定のコメントの前記テキストの閲覧を要求したという指示を受信することと、
前記指示の前記受信に応答して、前記特定のコメントの前記テキストを前記クライアントマシンの前記ディスプレイ上に一時的に見せることと、をさらに含む、[1]に記載の方法。
[7]
前記特定のコメントの前記テキストを一時的に見せることに応答して、前記クライアントマシンの前記ディスプレイ上にフィードバック要素を提示させることと、
前記クライアントマシンから、前記フィードバック要素を介してユーザフィードバックを受信することであって、前記ユーザフィードバックが、前記ユーザが前記特定のコメントを前記第1のクラスラベルとして分類すると見なすかどうかを示す、受信することと、
少なくとも部分的に前記ユーザフィードバックに基づいて、前記機械学習モデルを再訓練し、前記複数のクラスラベルを使用してコメントを分類するように構成された新しく訓練された機械学習モデルを得ることと、をさらに含む、[6]に記載の方法。
[8]
前記特定のコメントの前記テキストを一時的に見せることに応答して、前記クライアントマシンの前記ディスプレイ上に制御要素を提示させることと、
前記クライアントマシンから、前記制御要素が選択されたという表示を受信することと、
前記制御要素が選択されたという前記表示に少なくとも部分的に基づいて、前記特定のコメントの前記テキストを前記クライアントマシンの前記ディスプレイ上に恒久的に見せることと、をさらに含む、[6]に記載の方法。
[9]
前記オンラインディスカッションフォーラムは、
前記クライアントマシン上で実行されているビデオゲームのゲーム内チャットセッション、または
ビデオゲームサービスプラットフォームと関連付けられたコミュニティメッセージボードのうちの少なくとも1つを含む、[1]に記載の方法。
[10]
システムであって、
1つ以上のプロセッサと、
コンピュータ実行可能命令を格納するメモリであって、前記コンピュータ実行可能命令が前記1つ以上のプロセッサによって実行されると、前記システムに、
単語埋め込みベクトルに少なくとも部分的に基づいて、コメントのコーパスから関連するテキストのクラスタを決定すること、
人間ラベル付け入力に基づいて、関連するテキストのクラスタ内のテキストの一部が特定のタイプの単語またはスピーチであると決定すること、
前記コメントのコーパス内で、前記関連するテキストのクラスタからのテキストを含むコメントのサブセットを識別すること、
前記コメントのコーパス内のコメントにラベル付けして、ラベル付けされたコメントを作成することであって、前記コメントのサブセットに含まれるコメントに、複数のクラスラベルうちの第1のクラスラベルがラベル付けされる、作成すること、
前記ラベル付けされたコメントのサンプリングされたセットを使用して機械学習モデルを訓練し、訓練された機械学習モデルを得ること、
前記訓練された機械学習モデルへの入力として、クライアントマシンのディスプレイ上に提示される未分類コメントを提供すること、
前記訓練された機械学習モデルからの出力として、前記第1のクラスラベルとして前記未分類コメントの分類を生成して分類されたコメントを得ること、および
前記分類されたコメントのテキストが前記クライアントマシンの前記ディスプレイ上で隠された状態で、前記クライアントマシンの前記ディスプレイ上に前記分類されたコメントを提示すること、を行わせる、メモリと、を備える、システム。
[11]
前記コンピュータ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記システムに、
前記クライアントマシンのユーザを識別することと、
前記ユーザに関連付けられたユーザプロファイルのユーザ嗜好設定を決定することであって、前記ユーザ嗜好設定が、前記ユーザが前記第1のクラスラベルとして分類されたコメントを見たくないことを示す、決定することと、をさらに行わせ、
前記分類されたコメントの前記テキストは、前記ユーザプロファイルの前記ユーザ嗜好設定に少なくとも部分的に基づいて、前記クライアントマシンの前記ディスプレイ上で隠される、[10]に記載のシステム。
[12]
前記クライアントマシンの前記ディスプレイ上に前記分類されたコメントを提示させることは、追加の分類されたコメントとともにオンラインディスカッションフォーラムにおいて前記分類されたコメントを提示させることを含む、[10]に記載のシステム。
[13]
前記オンラインディスカッションフォーラムは、
前記クライアントマシンで実行されているビデオゲームのゲーム内チャットセッション、または
ビデオゲームサービスプラットフォームと関連付けられたコミュニティメッセージボードのうちの少なくとも1つを含む、[12]に記載のシステム。
[14]
前記第1のクラスラベルが、有害な言葉、ヘイトスピーチ、または冒涜的な表現のうちの少なくとも1つに対応する、[10]に記載のシステム。
[15]
前記コンピュータ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記システムに、
前記クライアントマシンから、前記クライアントマシンのユーザが前記分類されたコメントの前記テキストの閲覧を要求したという表示を受信することと、
前記表示の前記受信に応答して、前記分類されたコメントの前記テキストを前記クライアントマシンの前記ディスプレイ上に一時的に見せることと、
前記クライアントマシンから、
前記機械学習モデルを再訓練するために使用可能なユーザフィードバック、または
前記クライアントマシンの前記ディスプレイ上で前記分類されたコメントの前記テキストを恒久的に見せるという制御要素を前記ユーザが選択したことの指示、のうちの少なくとも1つを受信することと、をさらに行わせる、[10]に記載のシステム。
[16]
方法であって、
コンピューティングシステムによって、かつ単語埋め込みベクトルに少なくとも部分的に基づいて、コメントのコーパス内に現れる関連するテキストのクラスタを決定することと、
人間ラベル付け入力に基づいて、関連するテキストのクラスタ内のテキストの一部が特定のタイプの単語またはスピーチであると決定することと、
前記コメントのコーパス内で、前記関連するテキストのクラスタからのテキストを含むコメントのサブセットを識別することと、
前記コメントのコーパス内のコメントにラベル付けしてラベル付けされたコメントを作成することであって、前記コメントのサブセットに含まれるコメントに、複数のクラスラベルの第1のクラスラベルがラベル付けされる、作成することと、
訓練された機械学習モデルを得るために、前記ラベル付けされたコメントのサンプリングされたセットを使用して機械学習モデルを訓練することと、
前記訓練された機械学習モデルへの入力として、クライアントマシンのディスプレイ上に提示される未分類テキストを提供することと、
分類されたテキストを得るために、前記訓練された機械学習モデルからの出力として、前記未分類テキストの分類を前記第1のクラスラベルとして生成することと、
前記分類されたテキストをモデレートすることと、を含む、方法。
[17]
前記訓練された機械学習モデルが、第2の訓練された機械学習モデルであり、前記方法が、
前記コンピューティングシステムによって、前記コメントのコーパス内のテキストを前記単語埋め込みベクトルにマッピングすることと、
第1の訓練された機械学習モデルへの入力として前記単語埋め込みベクトルを提供することと、をさらに含み、
前記関連するテキストのクラスタを決定することが、前記第1の訓練された機械学習モデルからの出力に少なくとも部分的に基づく、[16]に記載の方法。
[18]
前記クライアントマシンのユーザを識別することと、
前記ユーザに関連付けられたユーザプロファイルのユーザ嗜好設定を決定することであって、前記ユーザ嗜好設定が、前記ユーザが前記第1のクラスラベルとして分類されたテキストを見たくないことを示す、決定することと、をさらに含み、
前記分類されたテキストが、前記ユーザプロファイルの前記ユーザ嗜好設定に少なくとも部分的に基づいてモデレートされる、[16]に記載の方法。
[19]
前記分類されたテキストを前記モデレートすることが、前記クライアントマシンの前記ディスプレイ上で隠されたテキストとして前記分類されたテキストを隠すことを含み、前記隠されたテキストが、
前記クライアントマシンで実行されているビデオゲームのゲーム内チャットセッション、または
ビデオゲームサービスプラットフォームと関連付けられたコミュニティメッセージボードのうちの少なくとも1つの一部として提示される、[16]に記載の方法。
[20]
第1のクラスラベルが、有害な言葉、ヘイトスピーチ、または冒涜的な表現のうちの少なくとも1つに対応する、[16]に記載の方法。
Claims (17)
- 方法であって、
コンピューティングシステムによって、コメントのコーパス内の個々の単語を単語埋め込みベクトルにマッピングすることと、
前記コンピューティングシステムによって、前記単語埋め込みベクトルに少なくとも部分的に基づいて、前記コメントのコーパスから関連する単語のクラスタを決定することと、
前記コンピューティングシステムによって、人間ラベル付け入力に基づいて、関連する単語のクラスタ内の1つ以上の単語が特定のタイプの単語であると決定することと、
前記コンピューティングシステムによって、前記コメントのコーパス内で、前記関連する単語のクラスタから少なくとも1つの単語を含むコメントのサブセットを識別することと、
前記コンピューティングシステムによって、前記コメントのコーパス内のコメントにラベル付けして、ラベル付けされたコメントを作成することであって、前記コメントのサブセットに含まれるコメントに、複数のクラスラベルの第1のクラスラベルがラベル付けされる、作成することと、
前記コンピューティングシステムによって、前記ラベル付けされたコメントのサンプリングされたセットを選択することと、
前記コンピューティングシステムによって、前記ラベル付けされたコメントのサンプリングされたセットを訓練用データとして使用して機械学習モデルを訓練し、前記複数のクラスラベルを使用してコメントを分類するように構成された、訓練された機械学習モデルを得ることと、
前記コンピューティングシステムによって、オンラインディスカッションフォーラムで提示される未分類コメントを受信することと、
前記コンピューティングシステムによって、前記訓練された機械学習モデルへの入力として、前記未分類コメントを提供することと、
前記コンピューティングシステムによって、前記訓練された機械学習モデルからの出力として、前記複数のクラスラベルを使用して前記未分類コメントの分類を生成して分類されたコメントを得ることであって、前記分類が、特定のコメントを前記第1のクラスラベルとして分類することを含む、得ることと、
前記コンピューティングシステムによって、クライアントマシンのディスプレイ上に前記分類されたコメントを提示させることであって、前記特定のコメントのテキストが、前記クライアントマシンの前記ディスプレイ上の前記テキストを隠すようにモデレートされる、提示させることと、
前記コンピューティングシステムによって、前記クライアントマシンから、前記クライアントマシンのユーザが前記特定のコメントの前記テキストの閲覧を要求したという指示を受信することと、
前記コンピューティングシステムによって、前記指示の前記受信に応答して、前記特定のコメントの前記テキストを前記クライアントマシンの前記ディスプレイ上に一時的に見せることと、
前記コンピューティングシステムによって、前記特定のコメントの前記テキストを一時的に見せることに応答して、前記クライアントマシンの前記ディスプレイ上にフィードバック要素を提示させることと、
前記コンピューティングシステムによって、前記クライアントマシンから、前記フィードバック要素を介してユーザフィードバックを受信することであって、前記ユーザフィードバックが、前記ユーザが前記特定のコメントを前記第1のクラスラベルとして分類すると見なすかどうかを示す、受信することと、
前記コンピューティングシステムによって、少なくとも部分的に前記ユーザフィードバックに基づいて、前記訓練された機械学習モデルを再訓練し、前記複数のクラスラベルを使用してコメントを分類するように構成された新しく訓練された機械学習モデルを得ることと、を含む、方法。 - 前記特定のコメントの前記分類は、前記特定のコメントが前記特定のタイプの単語を含む確率に関連するスコアとして前記訓練された機械学習モデルから出力され、前記特定のコメントは、前記スコアが閾値を満たすかまたは超えていることに少なくとも部分的に基づいて、前記第1のクラスラベルとして分類される、請求項1に記載の方法。
- 前記第1のクラスラベルとしての前記特定のコメントの前記分類は、前記特定のコメントが有害な言語、ヘイトスピーチ、または冒涜的な表現のうちの少なくとも1つを含むことを示す、請求項1に記載の方法。
- 前記コンピューティングシステムによって、前記クライアントマシンの前記ユーザを識別することと、
前記コンピューティングシステムによって、前記ユーザに関連付けられたユーザプロファイルのユーザ嗜好設定を決定することであって、前記ユーザ嗜好設定が、前記ユーザが前記第1のクラスラベルとして分類されたコメントを見たくないことを示す、決定することと、をさらに含み、
前記特定のコメントの前記テキストは、前記ユーザプロファイルの前記ユーザ嗜好設定に少なくとも部分的に基づいてモデレートされる、請求項1に記載の方法。 - 前記特定のコメントの前記テキストは、
前記特定のコメントの前記テキストの上に不透明な色をレンダリングすること、
前記テキストをぼかして前記テキストを判読できないようにすること、または
前記特定のコメントから前記テキストを取り除くことのうちの少なくとも1つによって、モデレートされる、請求項1に記載の方法。 - 前記コンピューティングシステムによって、前記特定のコメントの前記テキストを一時的に見せることに応答して、前記クライアントマシンの前記ディスプレイ上に制御要素を提示させることと、
前記コンピューティングシステムによって、前記クライアントマシンから、前記制御要素が選択されたという表示を受信することと、
前記コンピューティングシステムによって、前記制御要素が選択されたという前記表示に少なくとも部分的に基づいて、前記特定のコメントの前記テキストを前記クライアントマシンの前記ディスプレイ上に恒久的に見せることと、をさらに含む、請求項1に記載の方法。 - 前記オンラインディスカッションフォーラムは、
前記クライアントマシン上で実行されているビデオゲームのゲーム内チャットセッション、または
ビデオゲームサービスプラットフォームと関連付けられたコミュニティメッセージボードのうちの少なくとも1つを含む、請求項1に記載の方法。 - システムであって、
1つ以上のプロセッサと、
コンピュータ実行可能命令を格納するメモリであって、前記コンピュータ実行可能命令が前記1つ以上のプロセッサによって実行されると、前記システムに、
単語埋め込みベクトルに少なくとも部分的に基づいて、コメントのコーパスから関連するテキストのクラスタを決定すること、
人間ラベル付け入力に基づいて、関連するテキストのクラスタ内のテキストの一部が特定のタイプの単語またはスピーチであると決定すること、
前記コメントのコーパス内で、前記関連するテキストのクラスタからのテキストを含むコメントのサブセットを識別すること、
前記コメントのコーパス内のコメントにラベル付けして、ラベル付けされたコメントを作成することであって、前記コメントのサブセットに含まれるコメントに、複数のクラスラベルうちの第1のクラスラベルがラベル付けされる、作成すること、
前記ラベル付けされたコメントのサンプリングされたセットを使用して機械学習モデルを訓練し、訓練された機械学習モデルを得ること、
前記訓練された機械学習モデルへの入力として、クライアントマシンのディスプレイ上に提示される未分類コメントを提供すること、
前記訓練された機械学習モデルからの出力として、前記第1のクラスラベルとして前記未分類コメントの分類を生成して分類されたコメントを得ること、
前記分類されたコメントのテキストが前記クライアントマシンの前記ディスプレイ上で隠された状態で、前記クライアントマシンの前記ディスプレイ上に前記分類されたコメントを提示すること、
前記クライアントマシンから、前記クライアントマシンのユーザが前記分類されたコメントの前記テキストの閲覧を要求したという表示を受信することと、
前記表示の前記受信に応答して、前記分類されたコメントの前記テキストを前記クライアントマシンの前記ディスプレイ上に一時的に見せることと、
前記クライアントマシンから、
前記訓練された機械学習モデルを再訓練するために使用可能なユーザフィードバック、または
前記クライアントマシンの前記ディスプレイ上で前記分類されたコメントの前記テキストを恒久的に見せるという制御要素を前記ユーザが選択したことの指示、のうちの少なくとも1つを受信することと、を行わせる、メモリと、を備える、システム。 - 前記コンピュータ実行可能命令は、前記1つ以上のプロセッサによって実行されると、前記システムに、
前記クライアントマシンの前記ユーザを識別することと、
前記ユーザに関連付けられたユーザプロファイルのユーザ嗜好設定を決定することであって、前記ユーザ嗜好設定が、前記ユーザが前記第1のクラスラベルとして分類されたコメントを見たくないことを示す、決定することと、をさらに行わせ、
前記分類されたコメントの前記テキストは、前記ユーザプロファイルの前記ユーザ嗜好設定に少なくとも部分的に基づいて、前記クライアントマシンの前記ディスプレイ上で隠される、請求項8に記載のシステム。 - 前記クライアントマシンの前記ディスプレイ上に前記分類されたコメントを提示させることは、追加の分類されたコメントとともにオンラインディスカッションフォーラムにおいて前記分類されたコメントを提示させることを含む、請求項8に記載のシステム。
- 前記オンラインディスカッションフォーラムは、
前記クライアントマシンで実行されているビデオゲームのゲーム内チャットセッション、または
ビデオゲームサービスプラットフォームと関連付けられたコミュニティメッセージボードのうちの少なくとも1つを含む、請求項10に記載のシステム。 - 前記第1のクラスラベルが、有害な言葉、ヘイトスピーチ、または冒涜的な表現のうちの少なくとも1つに対応する、請求項8に記載のシステム。
- 方法であって、
コンピューティングシステムによって、かつ単語埋め込みベクトルに少なくとも部分的に基づいて、コメントのコーパス内に現れる関連するテキストのクラスタを決定することと、
前記コンピューティングシステムによって、人間ラベル付け入力に基づいて、関連するテキストのクラスタ内のテキストの一部が特定のタイプの単語またはスピーチであると決定することと、
前記コンピューティングシステムによって、前記コメントのコーパス内で、前記関連するテキストのクラスタからのテキストを含むコメントのサブセットを識別することと、
前記コンピューティングシステムによって、前記コメントのコーパス内のコメントにラベル付けしてラベル付けされたコメントを作成することであって、前記コメントのサブセットに含まれるコメントに、複数のクラスラベルの第1のクラスラベルがラベル付けされる、作成することと、
前記コンピューティングシステムによって、訓練された機械学習モデルを得るために、前記ラベル付けされたコメントのサンプリングされたセットを使用して機械学習モデルを訓練することと、
前記コンピューティングシステムによって、前記訓練された機械学習モデルへの入力として、クライアントマシンのディスプレイ上に提示される未分類テキストを提供することと、
前記コンピューティングシステムによって、分類されたテキストを得るために、前記訓練された機械学習モデルからの出力として、前記未分類テキストの分類を前記第1のクラスラベルとして生成することと、
前記コンピューティングシステムによって、前記分類されたテキストをモデレートすることと、
前記コンピューティングシステムによって、前記クライアントマシンから、前記クライアントマシンのユーザが前記分類されたテキストの閲覧を要求したという指示を受信することと、
前記コンピューティングシステムによって、前記指示の前記受信に応答して、前記分類されたテキストを前記クライアントマシンの前記ディスプレイ上に一時的に見せることと、
前記コンピューティングシステムによって、前記クライアントマシンから、
前記訓練された機械学習モデルを再訓練するために使用可能なユーザフィードバック、または
前記クライアントマシンの前記ディスプレイ上の前記分類されたテキストを恒久的に見せるための選択された制御要素を前記ユーザが選択したことの指示、
のうちの少なくとも一つを受信することと、を含む、方法。 - 前記訓練された機械学習モデルが、第2の訓練された機械学習モデルであり、前記方法が、
前記コンピューティングシステムによって、前記コメントのコーパス内のテキストを前記単語埋め込みベクトルにマッピングすることと、
前記コンピューティングシステムによって、第1の訓練された機械学習モデルへの入力として前記単語埋め込みベクトルを提供することと、をさらに含み、
前記関連するテキストのクラスタを決定することが、前記第1の訓練された機械学習モデルからの出力に少なくとも部分的に基づく、請求項13に記載の方法。 - 前記コンピューティングシステムによって、前記クライアントマシンの前記ユーザを識別することと、
前記コンピューティングシステムによって、前記ユーザに関連付けられたユーザプロファイルのユーザ嗜好設定を決定することであって、前記ユーザ嗜好設定が、前記ユーザが前記第1のクラスラベルとして分類されたテキストを見たくないことを示す、決定することと、をさらに含み、
前記分類されたテキストが、前記ユーザプロファイルの前記ユーザ嗜好設定に少なくとも部分的に基づいてモデレートされる、請求項13に記載の方法。 - 前記分類されたテキストを前記モデレートすることが、前記クライアントマシンの前記ディスプレイ上で隠されたテキストとして前記分類されたテキストを隠すことを含み、前記隠されたテキストが、
前記クライアントマシンで実行されているビデオゲームのゲーム内チャットセッション、または
ビデオゲームサービスプラットフォームと関連付けられたコミュニティメッセージボードのうちの少なくとも1つの一部として提示される、請求項13に記載の方法。 - 前記第1のクラスラベルが、有害な言葉、ヘイトスピーチ、または冒涜的な表現のうちの少なくとも1つに対応する、請求項13に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/179,781 US11698922B2 (en) | 2018-11-02 | 2018-11-02 | Classification and moderation of text |
US16/179,781 | 2018-11-02 | ||
PCT/US2019/059254 WO2020092834A1 (en) | 2018-11-02 | 2019-10-31 | Classification and moderation of text |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022506274A JP2022506274A (ja) | 2022-01-17 |
JP7467444B2 true JP7467444B2 (ja) | 2024-04-15 |
Family
ID=70459652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021523497A Active JP7467444B2 (ja) | 2018-11-02 | 2019-10-31 | テキストの分類およびモデレーション |
Country Status (6)
Country | Link |
---|---|
US (1) | US11698922B2 (ja) |
EP (1) | EP3871164A4 (ja) |
JP (1) | JP7467444B2 (ja) |
KR (1) | KR20210083299A (ja) |
CN (1) | CN113168586A (ja) |
WO (1) | WO2020092834A1 (ja) |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11468232B1 (en) * | 2018-11-07 | 2022-10-11 | SupportLogic, Inc. | Detecting machine text |
US10885279B2 (en) * | 2018-11-08 | 2021-01-05 | Microsoft Technology Licensing, Llc | Determining states of content characteristics of electronic communications |
US10885087B2 (en) * | 2018-11-13 | 2021-01-05 | International Business Machines Corporation | Cognitive automation tool |
US10936817B2 (en) * | 2019-02-01 | 2021-03-02 | Conduent Business Services, Llc | Neural network architecture for subtle hate speech detection |
US11586987B2 (en) | 2019-03-05 | 2023-02-21 | Kensho Technologies, Llc | Dynamically updated text classifier |
US11589094B2 (en) * | 2019-07-22 | 2023-02-21 | At&T Intellectual Property I, L.P. | System and method for recommending media content based on actual viewers |
US11677703B2 (en) | 2019-08-15 | 2023-06-13 | Rovi Guides, Inc. | Systems and methods for automatically identifying spam in social media comments based on context |
US11258741B2 (en) * | 2019-08-15 | 2022-02-22 | Rovi Guides, Inc. | Systems and methods for automatically identifying spam in social media comments |
US11032222B2 (en) * | 2019-08-22 | 2021-06-08 | Facebook, Inc. | Notifying users of offensive content |
US11019015B1 (en) * | 2019-08-22 | 2021-05-25 | Facebook, Inc. | Notifying users of offensive content |
USD988349S1 (en) | 2019-08-22 | 2023-06-06 | Meta Platforms, Inc. | Display screen or portion thereof with a graphical user interface |
US11282509B1 (en) | 2019-08-22 | 2022-03-22 | Facebook, Inc. | Classifiers for media content |
US11354900B1 (en) | 2019-08-22 | 2022-06-07 | Meta Platforms, Inc. | Classifiers for media content |
US11861463B2 (en) * | 2019-09-06 | 2024-01-02 | International Business Machines Corporation | Identifying related messages in a natural language interaction |
US11443112B2 (en) * | 2019-09-06 | 2022-09-13 | International Business Machines Corporation | Outcome of a natural language interaction |
US11593569B2 (en) * | 2019-10-11 | 2023-02-28 | Lenovo (Singapore) Pte. Ltd. | Enhanced input for text analytics |
US20210142334A1 (en) * | 2019-11-08 | 2021-05-13 | Ul Llc | Technologies for using machine learning to determine product certification eligibility |
US11009969B1 (en) * | 2019-12-03 | 2021-05-18 | International Business Machines Corporation | Interactive data input |
US11806629B2 (en) * | 2020-03-24 | 2023-11-07 | Virtuous AI, Inc. | Artificial intelligence models for moral insight prediction and methods for use therewith |
US11393233B2 (en) * | 2020-06-02 | 2022-07-19 | Google Llc | System for information extraction from form-like documents |
US11487943B2 (en) * | 2020-06-17 | 2022-11-01 | Tableau Software, LLC | Automatic synonyms using word embedding and word similarity models |
CN111966828B (zh) * | 2020-07-27 | 2022-05-03 | 电子科技大学 | 一种基于文本上下文结构和属性信息叠加网络的报刊新闻分类方法 |
CN116670754A (zh) | 2020-10-08 | 2023-08-29 | 调节公司 | 用于内容审核的多阶段自适应系统 |
KR102352517B1 (ko) * | 2020-10-13 | 2022-01-18 | 네이버 주식회사 | 악성 댓글 대응을 위한 방법 및 시스템 |
CN112417151A (zh) * | 2020-11-16 | 2021-02-26 | 新智数字科技有限公司 | 一种生成分类模型方法、文本关系分类方法和装置 |
US20220198316A1 (en) * | 2020-12-17 | 2022-06-23 | Exceed AI Ltd, Tel-Aviv | Systems and Methods for Automatic Extraction of Classification Training Data |
CN112818906B (zh) * | 2021-02-22 | 2023-07-11 | 浙江传媒学院 | 一种基于多模态信息融合理解的全媒体新闻智能编目方法 |
US20220391073A1 (en) * | 2021-06-06 | 2022-12-08 | Apple Inc. | User interfaces for managing receipt and transmission of content |
US20220414348A1 (en) * | 2021-06-24 | 2022-12-29 | Cisco Technology, Inc. | Context-aware conversation comprehension equivalency analysis and real time text enrichment feedback for enterprise collaboration |
US20230081879A1 (en) * | 2021-09-15 | 2023-03-16 | Verizon Media Inc. | Computerized system and method for automatic moderation of online content |
CN113868398A (zh) * | 2021-10-14 | 2021-12-31 | 北京倍倾心智能科技中心(有限合伙) | 对话数据集、安全检测模型的构建方法、对话系统的安全评估方法、介质及计算设备 |
KR102410582B1 (ko) * | 2021-10-29 | 2022-06-22 | 주식회사 튜닙 | 유해어에 대한 학습 데이터를 증강하는 장치, 방법 및 컴퓨터 프로그램 |
US20230334594A1 (en) * | 2021-12-02 | 2023-10-19 | Facebook, Inc. | Context-based settings recommendations |
CN114358007A (zh) * | 2022-01-11 | 2022-04-15 | 平安科技(深圳)有限公司 | 多标签识别方法、装置、电子设备及存储介质 |
US20230311005A1 (en) * | 2022-03-16 | 2023-10-05 | Sony Interactive Entertainment Inc. | Machine learning based gaming platform messaging risk management |
US11964209B2 (en) | 2022-03-17 | 2024-04-23 | Sony Interactive Entertainment Inc. | Machine learning based gaming platform messaging risk management using gamer behavior |
JP2024039774A (ja) * | 2022-09-12 | 2024-03-25 | 楽天グループ株式会社 | ライブ配信システム、推定方法、及びプログラム |
US11949967B1 (en) * | 2022-09-28 | 2024-04-02 | International Business Machines Corporation | Automatic connotation for audio and visual content using IOT sensors |
US20240160900A1 (en) * | 2022-11-16 | 2024-05-16 | Snorkel AI, Inc. | Systems and Methods for Programmatic Labeling of Training Data for Machine Learning Models via Clustering and Language Model Prompting |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002222193A (ja) | 2001-01-24 | 2002-08-09 | Kddi Corp | 情報自動フィルタリング方法、情報自動フィルタリングシステム及び情報自動フィルタリングプログラム |
JP2003076640A (ja) | 2001-09-04 | 2003-03-14 | Matsushita Electric Ind Co Ltd | データ処理装置およびファイルシステム |
JP2010067005A (ja) | 2008-09-10 | 2010-03-25 | Yahoo Japan Corp | 検索装置、および検索装置の制御方法 |
WO2017162919A1 (en) | 2016-03-22 | 2017-09-28 | Utopia Analytics Oy | Method, system and tool for content moderation |
JP2018077698A (ja) | 2016-11-10 | 2018-05-17 | 日本電信電話株式会社 | 発話文抽出装置、不適切話題語リスト生成装置、方法、及びプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9189818B2 (en) * | 2010-12-10 | 2015-11-17 | Quib, Inc. | Association of comments with screen locations during media content playback |
WO2013052555A1 (en) | 2011-10-03 | 2013-04-11 | Kyaw Thu | Systems and methods for performing contextual classification using supervised and unsupervised training |
US9430563B2 (en) * | 2012-02-02 | 2016-08-30 | Xerox Corporation | Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space |
US9235812B2 (en) * | 2012-12-04 | 2016-01-12 | Msc Intellectual Properties B.V. | System and method for automatic document classification in ediscovery, compliance and legacy information clean-up |
US9626629B2 (en) * | 2013-02-14 | 2017-04-18 | 24/7 Customer, Inc. | Categorization of user interactions into predefined hierarchical categories |
US9342991B2 (en) * | 2013-03-14 | 2016-05-17 | Canon Kabushiki Kaisha | Systems and methods for generating a high-level visual vocabulary |
US20170322923A1 (en) | 2016-05-04 | 2017-11-09 | Google Inc. | Techniques for determining textual tone and providing suggestions to users |
US11087199B2 (en) * | 2016-11-03 | 2021-08-10 | Nec Corporation | Context-aware attention-based neural network for interactive question answering |
-
2018
- 2018-11-02 US US16/179,781 patent/US11698922B2/en active Active
-
2019
- 2019-10-31 CN CN201980072562.8A patent/CN113168586A/zh active Pending
- 2019-10-31 WO PCT/US2019/059254 patent/WO2020092834A1/en unknown
- 2019-10-31 EP EP19878626.1A patent/EP3871164A4/en not_active Withdrawn
- 2019-10-31 KR KR1020217015831A patent/KR20210083299A/ko unknown
- 2019-10-31 JP JP2021523497A patent/JP7467444B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002222193A (ja) | 2001-01-24 | 2002-08-09 | Kddi Corp | 情報自動フィルタリング方法、情報自動フィルタリングシステム及び情報自動フィルタリングプログラム |
JP2003076640A (ja) | 2001-09-04 | 2003-03-14 | Matsushita Electric Ind Co Ltd | データ処理装置およびファイルシステム |
JP2010067005A (ja) | 2008-09-10 | 2010-03-25 | Yahoo Japan Corp | 検索装置、および検索装置の制御方法 |
WO2017162919A1 (en) | 2016-03-22 | 2017-09-28 | Utopia Analytics Oy | Method, system and tool for content moderation |
JP2018077698A (ja) | 2016-11-10 | 2018-05-17 | 日本電信電話株式会社 | 発話文抽出装置、不適切話題語リスト生成装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN113168586A (zh) | 2021-07-23 |
US11698922B2 (en) | 2023-07-11 |
US20200142999A1 (en) | 2020-05-07 |
EP3871164A4 (en) | 2022-08-03 |
WO2020092834A1 (en) | 2020-05-07 |
JP2022506274A (ja) | 2022-01-17 |
EP3871164A1 (en) | 2021-09-01 |
KR20210083299A (ko) | 2021-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7467444B2 (ja) | テキストの分類およびモデレーション | |
US10692006B1 (en) | Crowdsourced chatbot answers | |
US20240080531A1 (en) | Profiling media characters | |
US20150243279A1 (en) | Systems and methods for recommending responses | |
US9336483B1 (en) | Dynamically updated neural network structures for content distribution networks | |
US20150112753A1 (en) | Social content filter to enhance sentiment analysis | |
CN117219080A (zh) | 用于在通信会话内生成个性化响应的虚拟助手 | |
CN112074857A (zh) | 组合机器学习和社交数据以生成个性化推荐 | |
US11449682B2 (en) | Adjusting chatbot conversation to user personality and mood | |
US20140201125A1 (en) | Conversation management systems | |
CN105993028B (zh) | 用于内容推荐的方法、设备、以及系统 | |
US10891539B1 (en) | Evaluating content on social media networks | |
US11928985B2 (en) | Content pre-personalization using biometric data | |
JP2021096886A (ja) | 融合関係ネットワークに基づく情報推薦方法、装置、デバイス、媒体及びプログラム | |
US10747805B1 (en) | Content carousel in a social media timeline | |
US11010687B2 (en) | Detecting abusive language using character N-gram features | |
US20230004832A1 (en) | Methods, Systems, And Apparatuses For Improved Content Recommendations | |
CN113392331A (zh) | 文本处理方法及设备 | |
US11526543B2 (en) | Aggregate comment management from forwarded media content | |
Johnsen | The future of Artificial Intelligence in Digital Marketing: The next big technological break | |
He et al. | Cura: Curation at Social Media Scale | |
US20230177621A1 (en) | Generation and delivery of interest-based communications | |
US11962857B2 (en) | Methods, systems, and apparatuses for content recommendations based on user activity | |
US20230007344A1 (en) | Methods, Systems, And Apparatuses For User Engagement Analysis | |
US11303683B2 (en) | Methods and systems for managing distribution of online content based on content maturity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221012 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240130 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240403 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7467444 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |