JP2015072614A - 特定のテーマに依存して危険表現となりうる表現を検出する方法、並びに、当該表現を検出するための電子装置及びその電子装置用プログラム - Google Patents
特定のテーマに依存して危険表現となりうる表現を検出する方法、並びに、当該表現を検出するための電子装置及びその電子装置用プログラム Download PDFInfo
- Publication number
- JP2015072614A JP2015072614A JP2013208264A JP2013208264A JP2015072614A JP 2015072614 A JP2015072614 A JP 2015072614A JP 2013208264 A JP2013208264 A JP 2013208264A JP 2013208264 A JP2013208264 A JP 2013208264A JP 2015072614 A JP2015072614 A JP 2015072614A
- Authority
- JP
- Japan
- Prior art keywords
- text data
- expression
- electronic device
- subset
- theme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 488
- 238000000034 method Methods 0.000 title claims abstract description 131
- 230000004044 response Effects 0.000 claims description 33
- 239000000284 extract Substances 0.000 claims description 26
- 238000013075 data extraction Methods 0.000 claims description 17
- 238000010801 machine learning Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 description 77
- 230000008569 process Effects 0.000 description 58
- 230000000875 corresponding effect Effects 0.000 description 41
- 238000012545 processing Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 15
- 238000000605 extraction Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 238000007726 management method Methods 0.000 description 14
- 238000011156 evaluation Methods 0.000 description 13
- 238000012544 monitoring process Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 238000012790 confirmation Methods 0.000 description 6
- 238000007477 logistic regression Methods 0.000 description 5
- 230000002596 correlated effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 206010010144 Completed suicide Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
学習用のテキスト・データから、上記特定のテーマ及び任意的に特定の期間情報に関連付けられたテキスト・データの部分集合を取得するステップと、
上記取得した部分集合から、ネガティブ情報を有するテキスト・データを抽出するステップと、
上記抽出されたテキスト・データから、(1)当該抽出されたテキスト・データに相関が高い単語若しくはフレーズを、又は、(2)当該抽出されたテキスト・データ中の出現頻度の高い単語若しくはフレーズを、上記特定のテーマに依存して危険表現となりうる表現として抽出するステップ
を実行することを含む。
分析対象のテキスト・データから、上記特定のテーマに関連付けられたテキスト・データの部分集合を取得するステップと、
上記分析対象のテキスト・データから取得した上記部分集合において、上記危険表現となりうる表現が存在することを検出するステップと
を実行することを含む。
上記分析対象のテキスト・データから取得した上記部分集合から、ネガティブ情報を有するテキスト・データを抽出するステップ
をさらに実行することを含み、
上記分析対象のテキスト・データから取得した上記部分集合において、上記危険表現となりうる表現が存在することを検出するステップが、
上記分析対象のテキスト・データからの上記抽出したテキスト・データにおいて、上記危険表現となりうる表現が存在することを検出するステップ
を含みうる。
分析対象のテキスト・データから、上記特定のテーマに関連付けられたテキスト・データの部分集合を取得するステップと、
上記分析対象のテキスト・データから取得した上記部分集合において、上記危険表現となりうる表現が存在することを検出するステップと
を実行することを含む。
上記分析対象のテキスト・データから取得した上記部分集合から、ネガティブ情報を有するテキスト・データを抽出するステップ
をさらに実行することを含み、
上記分析対象のテキスト・データから取得した上記部分集合において、上記危険表現となりうる表現が存在することを検出するステップが、
上記分析対象のテキスト・データからの上記抽出したテキスト・データにおいて、上記危険表現となりうる表現が存在することを検出するステップ
を含みうる。
学習用のテキスト・データから、上記特定のテーマ及び任意的に特定の期間情報に関連付けられたテキスト・データの部分集合を取得する第1の部分集合取得手段と、
上記第1の部分集合取得手段が取得した部分集合から、ネガティブ情報を有するテキスト・データを抽出する第1のテキスト・データ抽出手段と、
上記テキスト・データ抽出手段が抽出したテキスト・データから、(1)当該抽出したテキスト・データに相関が高い単語若しくはフレーズを、又は、(2)当該抽出したテキスト・データ中の出現頻度の高い単語若しくはフレーズを、上記特定のテーマに依存して危険表現となりうる表現として抽出する第1の危険表現抽出手段と
を備えている。
上記第1の部分集合取得手段が、特定のテーマの為に用いられる単語若しくはフレーズを含むテーマ特定辞書を用いて、上記特定のテーマに関連付けられたテキスト・データを特定しうる。
上記第1の部分集合取得手段が、上記学習用のテキスト・データ中に存在し且つ上記テーマ特定辞書に含まれる単語若しくはフレーズの前後の所定の文字数若しくは所定の単語数にある範囲を、又は、
上記テーマ特定辞書に含まれる単語若しくはフレーズを含むテキスト・データを有する同一の文、同一の段落、同一の項目若しくは同一の文書を
上記特定のテーマに関連付けられたテキスト・データ(テキスト・データ1という)として特定しうる。
上記第1の部分集合取得手段が、上記学習用のテキスト・データから、学習済みの学習モデルを用いて、上記特定のテーマに関連付けられたテキスト・データ(テキスト・データ2という)を特定しうる。
上記第1の部分集合取得手段が、上記テキスト・データ1、上記テキスト・データ2、及び特定の期間情報に関連付けられたテキスト・データのうちの少なくとも2つについて集合演算(例えば、集合積又は集合和)をして、上記特定のテーマに関連付けられたテキスト・データの部分集合を取得しうる。
上記第1のテキスト・データ取得手段が、
上記第1の部分集合取得手段が取得した上記部分集合において、上記ネガティブ情報に該当する単語若しくはフレーズを特定し、
上記特定された単語若しくはフレーズを有するテキスト・データを抽出しうる。
上記第1のテキスト・データ取得手段が、
ネガティブ情報であることを判定可能な単語若しくはフレーズを含むネガティブ情報辞書を用いて、上記第1の部分集合取得手段が取得した部分集合において、上記ネガティブ情報に該当する単語若しくはフレーズを特定しうる。
上記第1のテキスト・データ取得手段が、
上記第1の部分集合取得手段が上記取得した部分集合から、学習済みの機械学習モデルを用いて、上記ネガティブ情報に該当する単語若しくはフレーズを有するテキスト・データを抽出しうる。
上記第1の危険表現抽出手段が、上記抽出した危険表現を危険表現リストに格納しうる。
上記第1の危険表現抽出手段がさらに、上記特定のテーマをさらに抽出しうる。
上記第1の部分集合取得手段がさらに、分析対象のテキスト・データから、上記特定のテーマに関連付けられたテキスト・データの部分集合を取得し、
上記第1の危険表現抽出手段がさらに、上記第1の部分集合取得手段が上記分析対象のテキスト・データから取得した上記部分集合において、上記危険表現となりうる表現が存在することを検出しうる。
上記第1の部分集合取得手段が、特定のテーマの為に用いられる単語若しくはフレーズを含むテーマ特定辞書を用いて、上記特定のテーマに関連付けられたテキスト・データを特定しうる。
上記第1の部分集合取得手段が、上記分析対象のテキスト・データ中に存在する上記テーマ特定辞書に含まれる単語若しくはフレーズの前後の所定の文字数若しくは所定の単語数にある範囲を、又は、
上記テーマ特定辞書に含まれる単語若しくはフレーズを含むテキスト・データを有する同一の文、同一の段落、同一の項目若しくは同一の文書を
上記特定のテーマに関連付けられたテキスト・データ(テキスト・データ1という)として特定しうる。
上記第1の部分集合取得手段が、上記分析対象のテキスト・データから、学習済みの学習モデルを用いて、上記特定のテーマに関連付けられたテキスト・データ(テキスト・データ2という)を特定しうる。
上記第1の部分集合取得手段が、上記テキスト・データ1、上記テキスト・データ2、及び特定の期間情報に関連付けられたテキスト・データのうちの少なくとも2つについて集合演算(例えば、集合積又は集合和)をして、上記特定のテーマに関連付けられたテキスト・データの部分集合を取得しうる。
上記第1のテキスト・データ取得手段が、
上記第1の部分集合取得手段が取得した上記部分集合において、上記ネガティブ情報に該当する単語若しくはフレーズを特定し、
上記特定された単語若しくはフレーズを有するテキスト・データを抽出しうる。
上記第1のテキスト・データ取得手段がさらに、上記第1の部分集合取得手段が上記分析対象のテキスト・データから取得した上記部分集合において、ネガティブ情報を有するテキスト・データを抽出し、
上記第1の危険表現抽出手段がさらに、上記第1のテキスト・データ取得手段が抽出した上記分析対象のテキスト・データからのテキスト・データにおいて、上記危険表現となりうる表現が存在することを検出しうる。
上記第1のテキスト・データ取得手段が、
上記第1の部分集合取得手段が取得した上記部分集合において、上記ネガティブ情報に該当する単語若しくはフレーズを特定し、
上記特定された単語若しくはフレーズを有するテキスト・データを抽出しうる。
上記第1のテキスト・データ取得手段が、
ネガティブ情報であることを判定可能な単語若しくはフレーズを含むネガティブ情報辞書を用いて、上記第1の部分集合取得手段が取得した部分集合において、上記ネガティブ情報に該当する単語若しくはフレーズを特定しうる。
上記第1のテキスト・データ取得手段が、
上記第1の部分集合取得手段が上記取得した部分集合から、学習済みの機械学習モデルを用いて、上記ネガティブ情報に該当する単語若しくはフレーズを有するテキスト・データを抽出しうる。
上記第1の危険表現抽出手段がさらに、上記特定のテーマをさらに抽出しうる。
上記危険表現となりうる表現が存在することに応じて、上記分析対象のテキスト・データをネットワーク上に送信又はアップロードすることを中止又は中断すること、
上記危険表現となりうる表現が存在することに応じて、上記分析対象のテキスト・データが上記危険表現を有していることを示す表示を画面上に表示すること、
上記危険表現となりうる表現が存在することに応じて、上記分析対象のテキスト・データが上記危険表現を有していることを示すメッセージを上記分析対象のテキストを提供したユーザの電子装置に送信すること、
上記危険表現となりうる表現が存在することに応じて、上記特定のテーマと上記危険表現となりうる表現の出現数とを示す表示を画面上に表示すること
のうちの少なくとも1つをさらに実行する特定処理実行手段をさらに備えうる。
分析対象のテキスト・データから、上記特定のテーマに関連付けられたテキスト・データの部分集合を取得する第2の部分集合取得手段と、
上記第2の部分集合取得手段が取得した上記部分集合において、上記第1の電子装置の上記第1の危険表現抽出手段が抽出した危険表現となりうる表現が存在することを検出する第2の危険表現検出手段と
を備えている。
上記第2の部分集合取得手段が、特定のテーマの為に用いられる単語若しくはフレーズを含むテーマ特定辞書を用いて、上記特定のテーマに関連付けられたテキスト・データを特定しうる。
上記第2の部分集合取得手段が、上記分析対象のテキスト・データ中に存在する上記テーマ特定辞書に含まれる単語若しくはフレーズの前後の所定の文字数若しくは所定の単語数にある範囲を、又は、
上記テーマ特定辞書に含まれる単語若しくはフレーズを含むテキスト・データを有する同一の文、同一の段落、同一の項目若しくは同一の文書を
上記特定のテーマに関連付けられたテキスト・データ(テキスト・データ1という)として特定しうる。
上記第2の部分集合取得手段が、上記分析対象のテキスト・データから、学習済みの学習モデルを用いて、上記特定のテーマに関連付けられたテキスト・データ(テキスト・データ2という)を特定しうる。
上記第2の部分集合取得手段が、上記テキスト・データ1、上記テキスト・データ2、及び特定の期間情報に関連付けられたテキスト・データのうちの少なくとも2つについて集合演算(例えば、集合積又は集合和)をして、上記特定のテーマに関連付けられたテキスト・データの部分集合を取得しうる。
上記第2のテキスト・データ取得手段が、
上記第2の部分集合取得手段が取得した上記部分集合において、上記ネガティブ情報に該当する単語若しくはフレーズを特定し、
上記特定された単語若しくはフレーズを有するテキスト・データを抽出しうる。
上記第2の部分集合取得手段が取得した上記部分集合から、ネガティブ情報を有するテキスト・データを抽出する第2のテキスト・データ取得手段をさらに備えており、
上記第2の危険表現検出手段が、上記第2のテキスト・データ取得手段が抽出したテキスト・データにおいて、上記危険表現となりうる表現が存在することを検出しうる。
上記第2のテキスト・データ取得手段が、
上記第2の部分集合取得手段が取得した上記部分集合において、上記ネガティブ情報に該当する単語若しくはフレーズを特定し、
上記特定された単語若しくはフレーズを有するテキスト・データを抽出しうる。
上記第2のテキスト・データ取得手段が、
ネガティブ情報であることを判定可能な単語若しくはフレーズを含むネガティブ情報辞書を用いて、上記第1の部分集合取得手段が取得した部分集合において、上記ネガティブ情報に該当する単語若しくはフレーズを特定しうる。
上記第2のテキスト・データ取得手段が、
上記第2の部分集合取得手段が上記取得した部分集合から、学習済みの機械学習モデルを用いて、上記ネガティブ情報に該当する単語若しくはフレーズを有するテキスト・データを抽出しうる。
上記第2の危険表現抽出手段がさらに、上記特定のテーマをさらに抽出しうる。
上記危険表現となりうる表現が存在することに応じて、上記分析対象のテキスト・データをネットワーク上に送信又はアップロードすることを中止又は中断すること、
上記危険表現となりうる表現が存在することに応じて、上記分析対象のテキスト・データが上記危険表現を有していることを示す表示を画面上に表示すること、
上記危険表現となりうる表現が存在することに応じて、上記分析対象のテキスト・データが上記危険表現を有していることを示すメッセージを上記分析対象のテキストを提供したユーザの電子装置に送信すること、
上記危険表現となりうる表現が存在することに応じて、上記特定のテーマと上記危険表現となりうる表現の出現数とを示す表示を画面上に表示すること
のうちの少なくとも1つをさらに実行する特定処理実行手段をさらに備えうる。
上記第1の電子装置が、
学習用のテキスト・データから、上記特定のテーマ及び任意的に特定の期間情報に関連付けられたテキスト・データの部分集合を取得する第1の部分集合取得手段と、
上記取得した部分集合から、ネガティブ情報を有するテキスト・データを抽出する第1のテキスト・データ抽出手段と、
上記抽出されたテキスト・データから、(1)当該抽出されたテキスト・データに相関が高い単語若しくはフレーズを、又は、(2)当該抽出されたテキスト・データ中の出現頻度の高い単語若しくはフレーズを、上記特定のテーマに依存して危険表現となりうる表現として抽出する第1の危険表現抽出手段と
を備えており、
上記第2の電子装置が、
分析対象のテキスト・データから、上記特定のテーマに関連付けられたテキスト・データの部分集合を取得する第2の部分集合取得手段と、
上記第2の部分集合取得手段が取得した上記部分集合において、上記第1の危険表現抽出手段が抽出した危険表現となりうる表現が存在することを検出する第2の危険表現検出手段と
を備えている。
上記第2の部分集合取得手段が取得した上記部分集合から、ネガティブ情報を有するテキスト・データを抽出する第2のテキスト・データ取得手段をさらに備えており、及び、
上記第2の危険表現検出手段が、上記第2のテキスト・データ取得手段が抽出したテキスト・データにおいて、上記危険表現となりうる表現が存在することを検出しうる。
(1)ステップ205で抽出したテキスト・データに相関が高い単語若しくはフレーズ;又は、
(2)ステップ205で抽出したテキスト・データ中の出現頻度の高い単語若しくはフレーズ。
(1)学習用のテキスト・データ(291)中に存在するテーマ特定辞書(292)に含まれる単語若しくはフレーズの前後の所定の文字数若しくは所定の単語数にある範囲を特定のテーマに関連付けられたテキスト・データ1として特定する:又は、
(2)テーマ特定辞書(292)に含まれる単語若しくはフレーズを含むテキスト・データを有する同一の文、同一の段落、同一の項目若しくは同一の文書を、特定のテーマに関連付けられたテキスト・データ1として特定する。
学習済みの学習モデルを用いて、上記特定のテーマに関連付けられたテキスト・データ2を特定する。
特定の期間情報を用いて、上記特定のテーマに関連付けられたテキスト・データ3を特定する。
・危険表現検出フェーズの処理を上記第1の電子装置が実行する場合であって、当該第1の電子装置が分析対象のテキスト・データを提供したユーザ・クライアントの電子装置である場合:
−上記分析対象のテキスト・データを当該第1の電子装置に接続されたネットワーク上に送信又はアップロードすることを中止又は中断する;
−上記分析対象のテキスト・データが上記危険表現となりうる表現を有していることを示す表示(例えば、警告表示)を画面上に表示する;若しくは、
−上記危険表現となりうる表現が存在することに応じて、上記特定のテーマと上記危険表現となりうる表現の出現数とを示す表示を画面上に表示する;又は、
・危険表現検出フェーズの処理を上記第1の電子装置が実行する場合であって、当該第1の電子装置が分析対象のテキスト・データを提供したユーザ・クライアントの電子装置に接続されているサーバ・コンピュータである場合:
−上記分析対象のテキスト・データを当該第1の電子装置に接続されたネットワーク上に送信又はアップロードすることをユーザ・クライアントの電子装置に中止又は中断させる;
−上記分析対象のテキスト・データが上記危険表現となりうる表現を有していることを示すメッセージ(例えば、警告表示)をユーザ・クライアントの電子装置の画面上に表示するように指示する;若しくは、
−上記危険表現となりうる表現が存在することに応じて、上記特定のテーマと上記危険表現となりうる表現の出現数とを示す表示をユーザ・クライアントの電子装置の画面上に表示するように指示する;
又は、
・危険表現検出フェーズの処理を上記第2の電子装置が実行する場合:
−上記分析対象のテキスト・データを当該第1の電子装置に接続されたネットワーク上に送信又はアップロードすることを中止又は中断する;
−上記分析対象のテキスト・データが上記危険表現となりうる表現を有していることを示す表示(例えば、警告表示)を画面上に表示する;若しくは、
上記危険表現となりうる表現が存在することに応じて、上記特定のテーマと上記危険表現となりうる表現の出現数とを示す表示を画面上に表示する。
上記分析対象のテキスト・データをネットワーク上に送信又はアップロードすることを中止又は中断すること;
上記分析対象のテキスト・データが上記危険表現を有していることを示す表示を画面上に表示すること;
上記分析対象のテキスト・データが上記危険表現を有していることを示すメッセージを上記分析対象のテキストを提供したユーザの電子装置に送信すること;及び
上記特定のテーマと上記危険表現となりうる表現の出現数とを示す表示を画面上に表示すること。
上記分析対象のテキスト・データをネットワーク上に送信又はアップロードすることを中止又は中断すること;
上記分析対象のテキスト・データが上記危険表現を有していることを示す表示を画面上に表示すること;
上記分析対象のテキスト・データが上記危険表現を有していることを示すメッセージを上記分析対象のテキストを提供したユーザの電子装置に送信すること;及び
上記特定のテーマと上記危険表現となりうる表現の出現数とを示す表示を画面上に表示すること。
Claims (20)
- 特定のテーマに依存して危険表現となりうる表現を検出する方法であって、電子装置が、
学習用のテキスト・データから、前記特定のテーマ及び任意的に特定の期間情報に関連付けられたテキスト・データの部分集合を取得するステップと、
前記取得した部分集合から、ネガティブ情報を有するテキスト・データを抽出するステップと、
前記抽出されたテキスト・データから、(1)当該抽出されたテキスト・データに相関が高い単語若しくはフレーズを、又は、(2)当該抽出されたテキスト・データ中の出現頻度の高い単語若しくはフレーズを、前記特定のテーマに依存して危険表現となりうる表現として抽出するステップ
を実行することを含む、前記方法。 - 前記電子装置が第1の電子装置であり、
前記第1の電子装置又は前記第1の電子装置と異なる第2の電子装置が、
分析対象のテキスト・データから、前記特定のテーマに関連付けられたテキスト・データの部分集合を取得するステップと、
前記分析対象のテキスト・データから取得した前記部分集合において、前記危険表現となりうる表現が存在することを検出するステップと
を実行することを含む、請求項1に記載の方法。 - 前記第1の電子装置又は前記第2の電子装置が、
前記分析対象のテキスト・データから取得した前記部分集合から、ネガティブ情報を有するテキスト・データを抽出するステップ
をさらに実行することを含み、
前記分析対象のテキスト・データから取得した前記部分集合において、前記危険表現となりうる表現が存在することを検出するステップが、
前記分析対象のテキスト・データからの前記抽出したテキスト・データにおいて、前記危険表現となりうる表現が存在することを検出するステップ
を含む、
請求項2に記載の方法。 - 前記第1の電子装置又は前記第2の電子装置が、
前記危険表現となりうる表現が存在することに応じて、前記分析対象のテキスト・データをネットワーク上に送信又はアップロードすることを中止又は中断するステップ、
前記危険表現となりうる表現が存在することに応じて、前記分析対象のテキスト・データが前記危険表現となりうる表現を有していることを示す表示を画面上に表示するステップ、
前記危険表現となりうる表現が存在することに応じて、前記分析対象のテキスト・データが前記危険表現となりうる表現を有していることを示すメッセージを前記分析対象のテキストを提供したユーザの電子装置に送信するステップ、
前記危険表現となりうる表現が存在することに応じて、前記特定のテーマと前記危険表現となりうる表現の出現数とを示す表示を画面上に表示するステップ
のうちの少なくとも1つをさらに実行することを含む、請求項2に記載の方法。 - 前記危険表現となりうる表現が存在することを検出するステップが、
前記特定のテーマをさらに抽出するステップ
をさらに含む、請求項1に記載の方法。 - 前記危険表現となりうる表現が共起表現を含む、請求項1に記載の方法。
- 前記ネガティブ情報を有するテキスト・データを抽出するステップが、
前記取得した部分集合において、前記ネガティブ情報に該当する単語若しくはフレーズを特定するステップと、
前記特定された単語若しくはフレーズを有するテキスト・データを抽出するステップと
を含む、請求項1に記載の方法。 - 前記ネガティブ情報に該当する単語若しくはフレーズを特定するステップが、
ネガティブ情報であることを判定可能な単語若しくはフレーズを含むネガティブ情報辞書を用いて行われる、請求項7に記載の方法。 - 前記ネガティブ情報を有するテキスト・データを抽出するステップが、
前記取得した部分集合から、学習済みの機械学習モデルを用いて、前記ネガティブ情報に該当する単語若しくはフレーズを有するテキスト・データを抽出するステップ
を含む、請求項1に記載の方法。 - 前記テキスト・データの部分集合を取得するステップが、
特定のテーマの為に用いられる単語若しくはフレーズを含むテーマ特定辞書を用いて、前記特定のテーマに関連付けられたテキスト・データを特定するステップ
を含む、請求項1に記載の方法。 - 前記テキスト・データの部分集合を取得するステップが、
前記学習用のテキスト・データ中に存在し且つ前記テーマ特定辞書に含まれる単語若しくはフレーズの前後の所定の文字数若しくは所定の単語数にある範囲を、又は、
前記テーマ特定辞書に含まれる単語若しくはフレーズを含むテキスト・データを有する同一の文、同一の段落、同一の項目若しくは同一の文書を
前記特定のテーマに関連付けられたテキスト・データとして特定するステップ
を含む、請求項10に記載の方法。 - 前記テキスト・データの部分集合を取得するステップが、
前記学習用のテキスト・データから、学習済みの学習モデルを用いて、前記特定のテーマに関連付けられたテキスト・データを特定するステップ
を含む、請求項1に記載の方法。 - 前記テキスト・データの部分集合を取得するステップが、
(1)特定のテーマの為に用いられる単語若しくはフレーズを含むテーマ特定辞書を用いて、前記特定のテーマに関連付けられたテキスト・データを特定するステップ、
(2)前記学習用のテキスト・データから、学習済みの学習モデルを用いて、前記特定のテーマに関連付けられたテキスト・データを特定するステップ、及び、
(3)特定の期間情報に関連付けられたテキスト・データを特定するステップ
のうちの少なくとも2つのステップにおいて特定されたテキスト・データの集合演算をして、前記特定のテーマに関連付けられたテキスト・データの部分集合を取得するステップ
を含む、請求項1に記載の方法。 - 前記テキスト・データの部分集合を取得するステップが、
前記特定のテーマに関連付けられたテキスト・データと前記特定の期間情報に関連付けられたテキスト・データについて集合演算をして、前記特定のテーマに関連付けられたテキスト・データの部分集合を取得するステップ
を含む、請求項1に記載の方法。 - 特定のテーマに依存して危険表現となりうる表現を検出するための電子装置であって、
学習用のテキスト・データから、前記特定のテーマ及び任意的に特定の期間情報に関連付けられたテキスト・データの部分集合を取得する部分集合取得手段と、
前記部分集合取得手段が取得した部分集合から、ネガティブ情報を有するテキスト・データを抽出するテキスト・データ抽出手段と、
前記テキスト・データ抽出手段が抽出した前記テキスト・データから、(1)前記テキスト・データ抽出手段が抽出したテキスト・データに相関が高い単語若しくはフレーズを、又は、(2)前記テキスト・データ抽出手段が抽出した前記テキスト・データ中の出現頻度の高い単語若しくはフレーズを、前記特定のテーマに依存して危険表現となりうる表現として抽出する危険表現抽出手段と
を備えている、前記電子装置。 - 前記部分集合取得手段がさらに、分析対象のテキスト・データから、前記特定のテーマに関連付けられたテキスト・データの部分集合を取得し、
前記危険表現抽出手段がさらに、前記部分集合取得手段が前記分析対象のテキスト・データから取得した前記部分集合において、前記危険表現となりうる表現が存在することを検出する、
請求項15に記載の電子装置。 - 前記テキスト・データ取得手段がさらに、前記部分集合取得手段が前記分析対象のテキスト・データから取得した前記部分集合において、ネガティブ情報を有するテキスト・データを抽出し、
前記危険表現抽出手段がさらに、前記テキスト・データ取得手段が抽出した前記分析対象のテキスト・データからのテキスト・データにおいて、前記危険表現となりうる表現が存在することを検出する、
請求項16に記載の電子装置。 - 特定のテーマに依存して危険表現となりうる表現を検出するための電子装置システムであって、
第1の電子装置と、
第2の電子装置と
を備えており、
前記第1の電子装置が、
学習用のテキスト・データから、前記特定のテーマ及び任意的に特定の期間情報に関連付けられたテキスト・データの部分集合を取得する第1の部分集合取得手段と、
前記取得した部分集合から、ネガティブ情報を有するテキスト・データを抽出する第1のテキスト・データ抽出手段と、
前記抽出されたテキスト・データから、(1)当該抽出されたテキスト・データに相関が高い単語若しくはフレーズを、又は、(2)当該抽出されたテキスト・データ中の出現頻度の高い単語若しくはフレーズを、前記特定のテーマに依存して危険表現となりうる表現として抽出する第1の危険表現抽出手段と
を備えており、
前記第2の電子装置が、
分析対象のテキスト・データから、前記特定のテーマに関連付けられたテキスト・データの部分集合を取得する第2の部分集合取得手段と、
前記取得した前記部分集合において、前記第1の危険表現抽出手段が抽出した危険表現となりうる表現が存在することを検出する第2の危険表現検出手段と
を備えている、前記電子装置システム。 - 前記第2の電子装置が、
前記第2の部分集合取得手段が取得した前記部分集合から、ネガティブ情報を有するテキスト・データを抽出する第2のテキスト・データ取得手段
をさらに備えており、
前記第2の危険表現検出手段が、
前記第2のテキスト・データ取得手段が抽出したテキスト・データにおいて、前記危険表現となりうる表現が存在することを検出する、
請求項18に記載の前記電子装置システム。 - 特定のテーマに依存して危険表現となりうる表現を検出するための電子装置用プログラムであって、電子装置に、請求項1及び5〜14のいずれか一項に記載の方法の各ステップを実行させる、前記電子装置用プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013208264A JP5930217B2 (ja) | 2013-10-03 | 2013-10-03 | 特定のテーマに依存して危険表現となりうる表現を検出する方法、並びに、当該表現を検出するための電子装置及びその電子装置用プログラム |
US14/460,443 US9575959B2 (en) | 2013-10-03 | 2014-08-15 | Detecting dangerous expressions based on a theme |
US15/375,563 US10275447B2 (en) | 2013-10-03 | 2016-12-12 | Detecting dangerous expressions based on a theme |
US16/248,995 US11010552B2 (en) | 2013-10-03 | 2019-01-16 | Detecting expressions learned based on a theme and on word correlation and co-occurence |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013208264A JP5930217B2 (ja) | 2013-10-03 | 2013-10-03 | 特定のテーマに依存して危険表現となりうる表現を検出する方法、並びに、当該表現を検出するための電子装置及びその電子装置用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015072614A true JP2015072614A (ja) | 2015-04-16 |
JP5930217B2 JP5930217B2 (ja) | 2016-06-08 |
Family
ID=52777640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013208264A Active JP5930217B2 (ja) | 2013-10-03 | 2013-10-03 | 特定のテーマに依存して危険表現となりうる表現を検出する方法、並びに、当該表現を検出するための電子装置及びその電子装置用プログラム |
Country Status (2)
Country | Link |
---|---|
US (3) | US9575959B2 (ja) |
JP (1) | JP5930217B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019028937A (ja) * | 2017-08-03 | 2019-02-21 | 株式会社 資生堂 | 説明文評価方法、説明文評価装置及び説明文評価プログラム |
JP2019091450A (ja) * | 2017-11-14 | 2019-06-13 | ネイバー コーポレーションNAVER Corporation | ユーザ−入力コンテンツと連関するリアルタイムフィードバック情報提供方法およびシステム |
WO2024089859A1 (ja) * | 2022-10-27 | 2024-05-02 | 日本電信電話株式会社 | 収集装置、収集方法、および、収集プログラム |
WO2024089860A1 (ja) * | 2022-10-27 | 2024-05-02 | 日本電信電話株式会社 | 分類装置、分類方法、および、分類プログラム |
JP7539756B2 (ja) | 2020-07-05 | 2024-08-26 | 修 濱田 | コミュニケーション言語のリスク判定システム及びリスク判定方法 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5930217B2 (ja) | 2013-10-03 | 2016-06-08 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 特定のテーマに依存して危険表現となりうる表現を検出する方法、並びに、当該表現を検出するための電子装置及びその電子装置用プログラム |
CN106415531A (zh) * | 2014-04-28 | 2017-02-15 | 谷歌公司 | 用于输入法编辑器的特定于场境的语言模型 |
US10489509B2 (en) * | 2016-03-14 | 2019-11-26 | International Business Machines Corporation | Personality based sentiment analysis of textual information written in natural language |
EP3507723A4 (en) | 2016-09-02 | 2020-04-01 | FutureVault Inc. | SYSTEMS AND METHODS FOR SHARING DOCUMENTS |
SG11201901778YA (en) | 2016-09-02 | 2019-03-28 | Futurevault Inc | Automated document filing and processing methods and systems |
CN106778862B (zh) * | 2016-12-12 | 2020-04-21 | 上海智臻智能网络科技股份有限公司 | 一种信息分类方法及装置 |
CN109388696B (zh) * | 2018-09-30 | 2021-07-23 | 北京字节跳动网络技术有限公司 | 删除谣言文章的方法、装置、存储介质及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0477857A (ja) * | 1990-07-13 | 1992-03-11 | Nippon Telegr & Teleph Corp <Ntt> | 不適切表現検出装置 |
JP2008191911A (ja) * | 2007-02-05 | 2008-08-21 | Sharp Corp | 電子機器、不適切語句判定方法、プログラム、及び、記録媒体 |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5013065B1 (ja) | 1970-07-02 | 1975-05-16 | ||
US6161130A (en) * | 1998-06-23 | 2000-12-12 | Microsoft Corporation | Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set |
US20030101166A1 (en) | 2001-11-26 | 2003-05-29 | Fujitsu Limited | Information analyzing method and system |
US7444403B1 (en) * | 2003-11-25 | 2008-10-28 | Microsoft Corporation | Detecting sexually predatory content in an electronic communication |
US20050289148A1 (en) * | 2004-06-10 | 2005-12-29 | Steven Dorner | Method and apparatus for detecting suspicious, deceptive, and dangerous links in electronic messages |
JP4148522B2 (ja) * | 2004-11-19 | 2008-09-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 表現検出システム、表現検出方法、及びプログラム |
US7853445B2 (en) * | 2004-12-10 | 2010-12-14 | Deception Discovery Technologies LLC | Method and system for the automatic recognition of deceptive language |
US20070067291A1 (en) * | 2005-09-19 | 2007-03-22 | Kolo Brian A | System and method for negative entity extraction technique |
US20080133221A1 (en) * | 2006-05-17 | 2008-06-05 | Smith Sharon S | Threat assessment based on written communication |
US7756843B1 (en) * | 2006-05-25 | 2010-07-13 | Juniper Networks, Inc. | Identifying and processing confidential information on network endpoints |
JP4242892B2 (ja) | 2006-12-22 | 2009-03-25 | 株式会社メディア・マジック | 電子掲示板監視システムおよび電子掲示板監視プログラム |
JP5013065B2 (ja) | 2006-12-27 | 2012-08-29 | 日本電気株式会社 | 風説監視システム、風説監視方法及びプログラム |
JP4911599B2 (ja) | 2006-12-28 | 2012-04-04 | 独立行政法人情報通信研究機構 | 風評情報抽出装置及び風評情報抽出方法 |
JP5168961B2 (ja) | 2007-03-19 | 2013-03-27 | 富士通株式会社 | 最新評判情報通知プログラム、記録媒体、装置及び方法 |
GB0709574D0 (en) * | 2007-05-18 | 2007-06-27 | Aurix Ltd | Speech Screening |
US20090089417A1 (en) * | 2007-09-28 | 2009-04-02 | David Lee Giffin | Dialogue analyzer configured to identify predatory behavior |
US20090157747A1 (en) * | 2007-12-13 | 2009-06-18 | International Business Machines Corporation | Administering A Digital Media File Having One Or More Potentially Offensive Portions |
JP2009015866A (ja) | 2008-09-22 | 2009-01-22 | Media Magic Co Ltd | 電子掲示板監視システムおよび電子掲示板監視プログラム |
WO2010053437A1 (en) * | 2008-11-04 | 2010-05-14 | Saplo Ab | Method and system for analyzing text |
JP5464543B2 (ja) | 2009-03-30 | 2014-04-09 | 太平洋セメント株式会社 | 浮遊選鉱処理方法 |
US8234259B2 (en) * | 2009-05-08 | 2012-07-31 | Raytheon Company | Method and system for adjudicating text against a defined policy |
WO2011085108A1 (en) * | 2010-01-07 | 2011-07-14 | The Trustees Of The Stevens Institute Of Technology | Psycho - linguistic statistical deception detection from text content |
US9292493B2 (en) * | 2010-01-07 | 2016-03-22 | The Trustees Of The Stevens Institute Of Technology | Systems and methods for automatically detecting deception in human communications expressed in digital form |
US8296130B2 (en) * | 2010-01-29 | 2012-10-23 | Ipar, Llc | Systems and methods for word offensiveness detection and processing using weighted dictionaries and normalization |
US8510098B2 (en) * | 2010-01-29 | 2013-08-13 | Ipar, Llc | Systems and methods for word offensiveness processing using aggregated offensive word filters |
US8359362B2 (en) * | 2010-06-28 | 2013-01-22 | Bank Of America Corporation | Analyzing news content information |
US9330085B2 (en) * | 2010-12-15 | 2016-05-03 | International Business Machines Corporation | Assisting users to generate desired meme in document |
US20130110748A1 (en) * | 2011-08-30 | 2013-05-02 | Google Inc. | Policy Violation Checker |
WO2013059487A1 (en) * | 2011-10-19 | 2013-04-25 | Cornell University | System and methods for automatically detecting deceptive content |
US8463595B1 (en) * | 2012-03-06 | 2013-06-11 | Reputation.Com, Inc. | Detailed sentiment analysis |
US20140074842A1 (en) * | 2012-09-12 | 2014-03-13 | Lior Tal | Computer Method and System for Detecting the Subject Matter of Online Communications |
US9355172B2 (en) * | 2013-01-10 | 2016-05-31 | Accenture Global Services Limited | Data trend analysis |
US10303762B2 (en) * | 2013-03-15 | 2019-05-28 | Disney Enterprises, Inc. | Comprehensive safety schema for ensuring appropriateness of language in online chat |
US9230101B2 (en) * | 2013-03-15 | 2016-01-05 | Pinkerton Consulting And Investigations, Inc. | Providing alerts based on unstructured information methods and apparatus |
US9215243B2 (en) * | 2013-09-30 | 2015-12-15 | Globalfoundries Inc. | Identifying and ranking pirated media content |
JP5930217B2 (ja) | 2013-10-03 | 2016-06-08 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 特定のテーマに依存して危険表現となりうる表現を検出する方法、並びに、当該表現を検出するための電子装置及びその電子装置用プログラム |
-
2013
- 2013-10-03 JP JP2013208264A patent/JP5930217B2/ja active Active
-
2014
- 2014-08-15 US US14/460,443 patent/US9575959B2/en not_active Expired - Fee Related
-
2016
- 2016-12-12 US US15/375,563 patent/US10275447B2/en not_active Expired - Fee Related
-
2019
- 2019-01-16 US US16/248,995 patent/US11010552B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0477857A (ja) * | 1990-07-13 | 1992-03-11 | Nippon Telegr & Teleph Corp <Ntt> | 不適切表現検出装置 |
JP2008191911A (ja) * | 2007-02-05 | 2008-08-21 | Sharp Corp | 電子機器、不適切語句判定方法、プログラム、及び、記録媒体 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019028937A (ja) * | 2017-08-03 | 2019-02-21 | 株式会社 資生堂 | 説明文評価方法、説明文評価装置及び説明文評価プログラム |
JP2019091450A (ja) * | 2017-11-14 | 2019-06-13 | ネイバー コーポレーションNAVER Corporation | ユーザ−入力コンテンツと連関するリアルタイムフィードバック情報提供方法およびシステム |
JP7539756B2 (ja) | 2020-07-05 | 2024-08-26 | 修 濱田 | コミュニケーション言語のリスク判定システム及びリスク判定方法 |
WO2024089859A1 (ja) * | 2022-10-27 | 2024-05-02 | 日本電信電話株式会社 | 収集装置、収集方法、および、収集プログラム |
WO2024089860A1 (ja) * | 2022-10-27 | 2024-05-02 | 日本電信電話株式会社 | 分類装置、分類方法、および、分類プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20170091172A1 (en) | 2017-03-30 |
US9575959B2 (en) | 2017-02-21 |
US20150100306A1 (en) | 2015-04-09 |
US10275447B2 (en) | 2019-04-30 |
US11010552B2 (en) | 2021-05-18 |
JP5930217B2 (ja) | 2016-06-08 |
US20190147040A1 (en) | 2019-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5930217B2 (ja) | 特定のテーマに依存して危険表現となりうる表現を検出する方法、並びに、当該表現を検出するための電子装置及びその電子装置用プログラム | |
US11429779B2 (en) | Method and system for intelligently suggesting paraphrases | |
US10928996B2 (en) | Systems, devices and methods for electronic determination and communication of location information | |
US10778618B2 (en) | Method and system for classifying man vs. machine generated e-mail | |
US20180197088A1 (en) | Discovery, characterization, and analysis of interpersonal relationships extracted from unstructed text data | |
US9483462B2 (en) | Generating training data for disambiguation | |
US9268747B2 (en) | Method for detecting negative opinions in social media, computer program product and computer | |
US10757053B2 (en) | High confidence digital content treatment | |
US9152625B2 (en) | Microblog summarization | |
US11418463B2 (en) | Method and system of intelligently providing responses for a user in the user's absence | |
CN108604152A (zh) | 未读消息提示方法和终端 | |
CN106528835A (zh) | 信息获取方法和装置 | |
US9336187B2 (en) | Mediation computing device and associated method for generating semantic tags | |
US20180248830A1 (en) | Methods for generating message notifications | |
EP4070257A1 (en) | Method and system for intelligently detecting and modifying unoriginal content | |
US9971762B2 (en) | System and method for detecting meaningless lexical units in a text of a message | |
US8620918B1 (en) | Contextual text interpretation | |
US11397846B1 (en) | Intelligent identification and modification of references in content | |
Skanda et al. | Detecting stance in kannada social media code-mixed text using sentence embedding | |
WO2023014456A1 (en) | System and method for providing an intelligent learning experience | |
US20230259713A1 (en) | Automatic tone detection and suggestion | |
JP2015169969A (ja) | 話題特定装置、および話題特定方法 | |
JP2011215729A (ja) | サーバ装置、情報管理システムおよびプログラム | |
US20130007010A1 (en) | Requirements extraction from external sources for software lifecycle management | |
Tan et al. | A novel ontological technique for sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20160112 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20160112 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20160202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160309 Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20160309 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160330 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20160401 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20160401 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160419 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5930217 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |