JP5462546B2 - コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム - Google Patents
コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム Download PDFInfo
- Publication number
- JP5462546B2 JP5462546B2 JP2009183305A JP2009183305A JP5462546B2 JP 5462546 B2 JP5462546 B2 JP 5462546B2 JP 2009183305 A JP2009183305 A JP 2009183305A JP 2009183305 A JP2009183305 A JP 2009183305A JP 5462546 B2 JP5462546 B2 JP 5462546B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- content
- predetermined criterion
- predetermined
- patterns
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(2)また、判定対象のパターン、例えば単語の前後数単語の特徴量も含めた特徴ベクトルを用いて、判定対象の単語が所定の情報を含むか否かを判定する構成により、Webコンテンツ上で日々生み出される新しい語や伏せ字、隠語などにも対応した情報検出が可能となる。
(3)請求項4、5、9、10に記載の発明によれば、同じコンテンツに複数の検出対象領域(有害情報を含む領域等)がある場合には、その中から1つの領域だけを選択し出力することができるので、人手で確認をするときの情報量を削減し、負担を軽減する効果が高くなる。
「れんこん」:a
「を」:b
「15万円」:c
「で」:d
「売り」:e
「ます」:f
「。」:g
であるとする。文脈に応じた判定を行うために前後の2単語を考慮に入れて各単語を判定する場合には、各単語の判定に用いる特徴ベクトルを、
「れんこん」:x1=(0,0,a,b,c)
「を」:x2=(0,a,b,c,d)
「15万円」:x3=(a,b,c,d,e)
「で」:x4=(b,c,d,e,f)
「売り」:x5=(c,d,e,f,g)
「ます」:x6=(d,e,f,g,0)
「。」:x7=(e,f,g,0,0)
のように定義する。尚、日本語の文書の場合には、各文書に含まれる単語を解析するのに既存の形態素解析器(MeCab(非特許文献9等)を用いることができる。
2…入力部
3…特徴量抽出部
4…パターン判定部
5…パターン領域抽出部
6…出力部
7…訓練データDB
8…判定ルール生成部
Claims (11)
- テキスト情報を含むコンテンツ群から、予め定めた所定の基準を満たす情報を含むコンテンツ中の部分領域を抽出するコンテンツ検出支援装置であって、
前記各コンテンツ中のテキストを所定の単位に分割し、当該分割した箇所であるパターン毎の特徴量を抽出する特徴量抽出手段と、
前記予め定めた所定の基準を満たす情報を含むか否かが既知であるコンテンツから、コンテンツに含まれる各パターンが前記予め定めた所定の基準を満たすか否かを判断するための判定ルールを生成する判定ルール生成手段と、
前記特徴量抽出手段により抽出された前記パターン毎の特徴量を用いて、該パターン毎に前記判定ルールを適用して、前記各パターンが前記予め定めた所定の基準を満たすか否かを判定するパターン判定手段と、
前記コンテンツの中から、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域を抽出するパターン領域抽出手段と、を有し、
前記特徴量抽出手段は、判定対象のパターンと、当該パターンの前後数パターンの特徴量を加えて定義した特徴ベクトルを抽出することを特徴とするコンテンツ検出支援装置。 - テキスト情報を含むコンテンツ群から、予め定めた所定の基準を満たす情報を含むコンテンツ中の部分領域を抽出するコンテンツ検出支援装置であって、
前記各コンテンツ中のテキストを所定の単位に分割し、当該分割した箇所であるパターン毎の特徴量を抽出する特徴量抽出手段と、
前記予め定めた所定の基準を満たす情報を含むか否かが既知であるコンテンツから、コンテンツに含まれる各パターンが前記予め定めた所定の基準を満たすか否かを判断するための判定ルールを生成する判定ルール生成手段と、
前記特徴量抽出手段により抽出された前記パターン毎の特徴量を用いて、該パターン毎に前記判定ルールを適用して、前記各パターンが前記予め定めた所定の基準を満たすか否かを判定するパターン判定手段と、
前記コンテンツの中から、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域を抽出するパターン領域抽出手段と、を有し、
前記判定ルール生成手段は、
前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツ内の各パターンについて、前記予め定めた所定の基準を満たす情報であることが既知であるパターンにタグを付与し、
当該コンテンツに含まれるパターンのうち前記タグが付与されたパターンを前記所定の基準を満たすパターンとし、
当該コンテンツに含まれるパターンのうち前記タグが付与されていないパターンを前記所定の基準を満たすか否かが不明なパターンとし、
前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツ内の全てのパターンを前記所定の基準を満たす情報を含まないパターンとし、
半教師あり学習により、前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツおよび前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツに含まれる前記各パターンが、前記予め定めた所定の基準を満たすパターンである可能性を示すスコア関数のパラメータを学習し、学習されたスコア関数を判定ルールとする、
ことを特徴とするコンテンツ検出支援装置。 - テキスト情報を含むコンテンツ群から、予め定めた所定の基準を満たす情報を含むコンテンツ中の部分領域を抽出するコンテンツ検出支援装置であって、
前記各コンテンツ中のテキストを所定の単位に分割し、当該分割した箇所であるパターン毎の特徴量を抽出する特徴量抽出手段と、
前記予め定めた所定の基準を満たす情報を含むか否かが既知であるコンテンツから、コンテンツに含まれる各パターンが前記予め定めた所定の基準を満たすか否かを判断するための判定ルールを生成する判定ルール生成手段と、
前記特徴量抽出手段により抽出された前記パターン毎の特徴量を用いて、該パターン毎に前記判定ルールを適用して、前記各パターンが前記予め定めた所定の基準を満たすか否かを判定するパターン判定手段と、
前記コンテンツの中から、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域を抽出するパターン領域抽出手段と、を有し、
前記特徴量抽出手段は、判定対象のパターンと、当該パターンの前後数パターンの特徴量を加えて定義した特徴ベクトルを抽出し、
前記判定ルール生成手段は、
前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツ内の各パターンについて、前記予め定めた所定の基準を満たす情報であることが既知であるパターンにタグを付与し、
当該コンテンツに含まれるパターンのうち前記タグが付与されたパターンを前記所定の基準を満たすパターンとし、
当該コンテンツに含まれるパターンのうち前記タグが付与されていないパターンを前記所定の基準を満たすか否かが不明なパターンとし、
前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツ内の全てのパターンを前記所定の基準を満たす情報を含まないパターンとし、
半教師あり学習により、前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツおよび前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツに含まれる前記各パターンが、前記予め定めた所定の基準を満たすパターンである可能性を示すスコア関数のパラメータを学習し、学習されたスコア関数を判定ルールとする、
ことを特徴とするコンテンツ検出支援装置。 - 前記パターン領域抽出手段は、
前記コンテンツ内の各部分領域毎に、当該部分領域内の全パターン数に対する、当該部分領域において前記所定の基準を満たすと判定したパターン数の割合を計算し、その割合の最も高い部分領域を、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域として抽出することを特徴とする請求項1ないし3のいずれか1項に記載のコンテンツ検出支援装置。 - 前記パターン領域抽出手段は、
前記コンテンツ内の各パターンに前記スコア関数である判定ルールを適用することによりスコア値を算出し、前記コンテンツ内の各部分領域毎に、当該部分領域内の全パターンのスコア値の総和を算出し、前記スコア値の総和が最も高い部分領域を、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域として抽出することを特徴とする請求項2又は3に記載のコンテンツ検出支援装置。 - テキスト情報を含むコンテンツ群から、予め定めた所定の基準を満たす情報を含むコンテンツ中の部分領域を抽出するコンテンツ検出支援方法であって、
特徴量抽出手段が、前記各コンテンツ中のテキストを所定の単位に分割し、当該分割した箇所であるパターン毎の特徴量を抽出する特徴量抽出ステップと、
判定ルール生成手段が、前記予め定めた所定の基準を満たす情報を含むか否かが既知であるコンテンツから、コンテンツに含まれる各パターンが前記予め定めた所定の基準を満たすか否かを判断するための判定ルールを生成する判定ルール生成ステップと、
パターン判定手段が、前記特徴量抽出手段により抽出された前記パターン毎の特徴量を用いて、該パターン毎に前記判定ルールを適用して、前記各パターンが前記予め定めた所定の基準を満たすか否かを判定するパターン判定ステップと、
パターン領域抽出手段が、前記コンテンツの中から、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域を抽出するパターン領域抽出ステップと、を有し、
前記特徴量抽出ステップは、判定対象のパターンと、当該パターンの前後数パターンの特徴量を加えて定義した特徴ベクトルを抽出することを特徴とするコンテンツ検出支援方法。 - テキスト情報を含むコンテンツ群から、予め定めた所定の基準を満たす情報を含むコンテンツ中の部分領域を抽出するコンテンツ検出支援方法であって、
特徴量抽出手段が、前記各コンテンツ中のテキストを所定の単位に分割し、当該分割した箇所であるパターン毎の特徴量を抽出する特徴量抽出ステップと、
判定ルール生成手段が、前記予め定めた所定の基準を満たす情報を含むか否かが既知であるコンテンツから、コンテンツに含まれる各パターンが前記予め定めた所定の基準を満たすか否かを判断するための判定ルールを生成する判定ルール生成ステップと、
パターン判定手段が、前記特徴量抽出手段により抽出された前記パターン毎の特徴量を用いて、該パターン毎に前記判定ルールを適用して、前記各パターンが前記予め定めた所定の基準を満たすか否かを判定するパターン判定ステップと、
パターン領域抽出手段が、前記コンテンツの中から、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域を抽出するパターン領域抽出ステップと、を有し、
前記判定ルール生成ステップは、
前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツ内の各パターンについて、前記予め定めた所定の基準を満たす情報であることが既知であるパターンにタグを付与し、
当該コンテンツに含まれるパターンのうち前記タグが付与されたパターンを前記所定の基準を満たすパターンとし、
当該コンテンツに含まれるパターンのうち前記タグが付与されていないパターンを前記所定の基準を満たすか否かが不明なパターンとし、
前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツ内の全てのパターンを前記所定の基準を満たす情報を含まないパターンとし、
半教師あり学習により、前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツおよび前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツに含まれる前記各パターンが、前記予め定めた所定の基準を満たすパターンである可能性を示すスコア関数のパラメータを学習し、学習されたスコア関数を判定ルールとする、
ことを特徴とするコンテンツ検出支援方法。 - テキスト情報を含むコンテンツ群から、予め定めた所定の基準を満たす情報を含むコンテンツ中の部分領域を抽出するコンテンツ検出支援方法であって、
特徴量抽出手段が、前記各コンテンツ中のテキストを所定の単位に分割し、当該分割した箇所であるパターン毎の特徴量を抽出する特徴量抽出ステップと、
判定ルール生成手段が、前記予め定めた所定の基準を満たす情報を含むか否かが既知であるコンテンツから、コンテンツに含まれる各パターンが前記予め定めた所定の基準を満たすか否かを判断するための判定ルールを生成する判定ルール生成ステップと、
パターン判定手段が、前記特徴量抽出手段により抽出された前記パターン毎の特徴量を用いて、該パターン毎に前記判定ルールを適用して、前記各パターンが前記予め定めた所定の基準を満たすか否かを判定するパターン判定ステップと、
パターン領域抽出手段が、前記コンテンツの中から、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域を抽出するパターン領域抽出ステップと、を有し、
前記特徴量抽出ステップは、判定対象のパターンと、当該パターンの前後数パターンの特徴量を加えて定義した特徴ベクトルを抽出し、
前記判定ルール生成ステップは、
前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツ内の各パターンについて、前記予め定めた所定の基準を満たす情報であることが既知であるパターンにタグを付与し、
当該コンテンツに含まれるパターンのうち前記タグが付与されたパターンを前記所定の基準を満たすパターンとし、
当該コンテンツに含まれるパターンのうち前記タグが付与されていないパターンを前記所定の基準を満たすか否かが不明なパターンとし、
前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツ内の全てのパターンを前記所定の基準を満たす情報を含まないパターンとし、
半教師あり学習により、前記予め定めた所定の基準を満たす情報を含むことが既知であるコンテンツおよび前記予め定めた所定の基準を満たす情報を含まないことが既知であるコンテンツに含まれる前記各パターンが、前記予め定めた所定の基準を満たすパターンである可能性を示すスコア関数のパラメータを学習し、学習されたスコア関数を判定ルールとする、
ことを特徴とするコンテンツ検出支援方法。 - 前記パターン領域抽出ステップは、
前記コンテンツ内の各部分領域毎に、当該部分領域内の全パターン数に対する、当該部分領域において前記所定の基準を満たすと判定したパターン数の割合を計算し、その割合の最も高い部分領域を、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域として抽出することを特徴とする請求項6ないし8のいずれか1項に記載のコンテンツ検出支援方法。 - 前記パターン領域抽出ステップは、
前記コンテンツ内の各パターンに前記スコア関数である判定ルールを適用することによりスコア値を算出し、前記コンテンツ内の各部分領域毎に、当該部分領域内の全パターンのスコア値の総和を算出し、前記スコア値の総和が最も高い部分領域を、前記パターン判定手段において前記予め定めた所定の基準を満たすと判定されたパターンを多く含む部分領域として抽出することを特徴とする請求項7又は8に記載のコンテンツ検出支援方法。 - コンピュータを請求項1ないし5のいずれか1項に記載の各手段として機能させるコンテンツ検出支援プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009183305A JP5462546B2 (ja) | 2009-08-06 | 2009-08-06 | コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009183305A JP5462546B2 (ja) | 2009-08-06 | 2009-08-06 | コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011039575A JP2011039575A (ja) | 2011-02-24 |
JP5462546B2 true JP5462546B2 (ja) | 2014-04-02 |
Family
ID=43767313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009183305A Expired - Fee Related JP5462546B2 (ja) | 2009-08-06 | 2009-08-06 | コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5462546B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6301119B2 (ja) * | 2013-11-28 | 2018-03-28 | 国立大学法人北見工業大学 | インターネット上の有害書き込み検出装置及び検出方法 |
JP6522446B2 (ja) * | 2014-12-26 | 2019-05-29 | Kddi株式会社 | ラベル付与装置、方法およびプログラム |
US11164043B2 (en) | 2016-04-28 | 2021-11-02 | Nippon Telegraph And Telephone Corporation | Creating device, creating program, and creating method |
JP7260439B2 (ja) * | 2019-08-19 | 2023-04-18 | ヤフー株式会社 | 抽出装置、抽出方法及び抽出プログラム |
JP7179033B2 (ja) * | 2020-02-28 | 2022-11-28 | ヤフー株式会社 | コンテンツ選択装置、コンテンツ選択方法、およびプログラム |
JP7133674B1 (ja) * | 2021-03-18 | 2022-09-08 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4704413B2 (ja) * | 2007-03-05 | 2011-06-15 | ヤフー株式会社 | 送信内容監視装置 |
JP2009110485A (ja) * | 2007-11-01 | 2009-05-21 | Konica Minolta Medical & Graphic Inc | 情報処理システム、及びプログラム |
-
2009
- 2009-08-06 JP JP2009183305A patent/JP5462546B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011039575A (ja) | 2011-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Barbosa et al. | Evaluating hotels rating prediction based on sentiment analysis services | |
Nair et al. | SentiMa-sentiment extraction for Malayalam | |
JP5462546B2 (ja) | コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム | |
Hamdi et al. | Assessing and minimizing the impact of OCR quality on named entity recognition | |
JPWO2019224891A1 (ja) | 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム | |
JP6070501B2 (ja) | 情報処理装置及び情報処理プログラム | |
Suchdev et al. | Twitter sentiment analysis using machine learning and knowledge-based approach | |
Almuqren et al. | Framework for sentiment analysis of Arabic text | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
Ara et al. | Understanding customer sentiment: Lexical analysis of restaurant reviews | |
Sattikar et al. | Natural language processing for content analysis in social networking | |
Görgün et al. | A novel approach to morphological disambiguation for turkish | |
CN107545505A (zh) | 保险理财产品信息的识别方法及系统 | |
CN113761377B (zh) | 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质 | |
CN110610003A (zh) | 用于辅助文本标注的方法和系统 | |
CN117351336A (zh) | 图像审核方法和相关设备 | |
CN112183093A (zh) | 一种企业舆情分析方法、装置、设备及可读存储介质 | |
JP2011039576A (ja) | 特定情報検出装置、特定情報検出方法および特定情報検出プログラム | |
CN111753540B (zh) | 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统 | |
JP6026036B1 (ja) | データ分析システム、その制御方法、プログラム、及び、記録媒体 | |
Pertsas et al. | Ontology-driven information extraction from research publications | |
Tufchi et al. | FakeRealIndian Dataset: A Benchmark Indian Context Dataset | |
Ouertatani et al. | Parsing argued opinion structure in Twitter content | |
Kumar et al. | Enterprise analysis through opinion mining | |
St Chifu et al. | Web harvesting and sentiment analysis of consumer feedback |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130528 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130726 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5462546 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |