JP5527845B2 - 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法 - Google Patents
文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法 Download PDFInfo
- Publication number
- JP5527845B2 JP5527845B2 JP2010185321A JP2010185321A JP5527845B2 JP 5527845 B2 JP5527845 B2 JP 5527845B2 JP 2010185321 A JP2010185321 A JP 2010185321A JP 2010185321 A JP2010185321 A JP 2010185321A JP 5527845 B2 JP5527845 B2 JP 5527845B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- markup language
- score value
- document
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 27
- 230000006870 function Effects 0.000 claims description 27
- 238000012706 support-vector machine Methods 0.000 claims description 24
- 238000004458 analytical method Methods 0.000 claims description 15
- 230000014509 gene expression Effects 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012986 modification Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 10
- 238000000926 separation method Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 231100001261 hazardous Toxicity 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
Images
Description
解析対象となる対象文書情報を、文章情報とマークアップ言語情報とに分離する文書情報分離手段と、
文章情報及びマークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの対象特徴量を生成する特徴量生成手段と、
特定カテゴリに含まれる多数の文章情報における学習特徴量を予め教師データとして学習したサポートベクタマシン(Support Vector Machine)を用いて、対象文書情報の対象特徴量を入力し、当該対象文書情報が特定カテゴリに属する割合に基づく文章スコア値を導出する文章スコア値導出手段と、
特定カテゴリに含まれる多数のマークアップ言語情報における学習特徴量を予め教師データとして学習したサポートベクタマシンを用いて、対象文書情報のマークアップ言語情報の対象特徴量を入力し、当該対象文書情報が特定カテゴリに属する割合に基づくマークアップ言語スコア値を導出するマークアップ言語スコア値導出手段と、
文章スコア値及びマークアップ言語スコア値を論理式に基づいて組み合わせた総合スコア値を導出し、該総合スコア値が所定閾値以上となる場合、当該対象文書情報を真と判定する総合スコア値導出手段と、
総合スコア値導出手段によって真と判定された対象文書情報は、特定カテゴリに含まれるものとして分類するカテゴリ分類手段と
してコンピュータを機能させ、文章情報又はマークアップ言語情報の一方を判定要素とした場合よりも高い適合率又は再現率とすることを特徴とする。
文章情報及びマークアップ言語情報それぞれから、文字列を抽出する文字列抽出手段と、
学習文書情報に基づく文字列を登録する学習文字列登録手段と、
文章情報及びマークアップ言語情報それぞれについて、学習文字列登録手段に登録された文字列の出現回数を計数する出現回数計数手段と、
文章情報及びマークアップ言語情報それぞれについて、文字列要素毎の出現回数を表す多次元ベクトルの文字列特徴量を生成する特徴量生成手段と
してコンピュータを更に機能させることも好ましい。
特定カテゴリに属する複数の学習文書情報を入力し、
文書情報分離手段は、更に、学習文書情報を、文章情報とマークアップ言語情報とに分離し、
文字列特徴量生成手段は、学習文書情報の文章情報及びマークアップ言語情報それぞれについて、文字列抽出手段と、出現回数計数手段と、特徴量生成手段とを実行することによって、それぞれの当該学習特徴量を文章スコア値導出手段及びマークアップ言語スコア値導出手段へ出力すると共に、多数の文字列から特定カテゴリに基づく特定文字列を統計的に検出する学習文字列検出手段を更に有し、
学習文字列登録手段は、学習文字列検出手段によって検出された文字列を登録する
ようにコンピュータを更に機能させることも好ましい。
文書情報は、SGML(Standard Generalized Markup Language)、HTML(HyperText Markup Language)、XML(eXtensible Markup Language)、XHTML(eXtensible HyperText Markup Language)又はTexによって記述されており、
文章情報は、文書情報からタグ要素を除く、文章的特徴を有するテキストであり、
マークアップ言語情報は、文書情報のタグ要素に含まれ、外形的特徴を有するテキストであり、
タグ要素は、画像、音声及び文章のコンテンツ要素に対する囲み文字列であって、マークアップ言語における文章構造及び修飾情報を指定するものである
ようにコンピュータを更に機能させることも好ましい。
特定カテゴリに含まれる多数の文章情報における学習特徴量を予め教師データとして学習したサポートベクタマシン(Support Vector Machine)を用いて、対象文書情報の対象特徴量を入力し、当該対象文書情報が特定カテゴリに属する割合に基づく文章スコア値を導出する文章スコア値導出手段と、
特定カテゴリに含まれる多数のマークアップ言語情報における学習特徴量を予め教師データとして学習したサポートベクタマシンを用いて、対象文書情報のマークアップ言語情報の対象特徴量を入力し、当該対象文書情報が特定カテゴリに属する割合に基づくマークアップ言語スコア値を導出するマークアップ言語スコア値導出手段と、
文章スコア値及びマークアップ言語スコア値を論理式に基づいて組み合わせた総合スコア値を導出し、該総合スコア値が所定閾値以上となる場合、当該対象文書情報を真と判定する総合スコア値導出手段と、
総合スコア値導出手段によって真と判定された対象文書情報は、特定カテゴリに含まれるものとして分類するカテゴリ分類手段と
を有し、文章情報又はマークアップ言語情報の一方を判定要素とした場合よりも高い適合率又は再現率とすることを特徴とする。
解析対象となる対象文書情報を、文章情報とマークアップ言語情報とに分離する第1のステップと、
文章情報及びマークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する第2のステップと、
特定カテゴリに含まれる多数の文章情報における学習特徴量を予め教師データとして学習したサポートベクタマシン(Support Vector Machine)を用いて、対象文書情報の対象特徴量を入力し、当該対象文書情報が特定カテゴリに属する割合に基づく文章スコア値を導出する第3のステップと、
特定カテゴリに含まれる多数のマークアップ言語情報における学習特徴量を予め教師データとして学習したサポートベクタマシンを用いて、対象文書情報のマークアップ言語情報の対象特徴量を入力し、当該対象文書情報が特定カテゴリに属する割合に基づくマークアップ言語スコア値を導出する第4のステップと、
文章スコア値及びマークアップ言語スコア値を論理式に基づいて組み合わせた総合スコア値を導出し、該総合スコア値が所定閾値以上となる場合、当該対象文書情報を真と判定する第5のステップと、
総合スコア値導出手段によって真と判定された対象文書情報は、特定カテゴリに含まれるものとして分類する第6のステップと
を有し、文章情報又はマークアップ言語情報の一方を判定要素とした場合よりも高い適合率又は再現率とすることを特徴とする。
多次元ベクトル:(s1, s2,・・・・,s100, s101,・・・)
(文字列要素):「著作権」「老後」 「black」「face.gif」
(出現回数) : 10 2 15 8
生成された文字列特徴量は、特徴量判定部13へ出力される。
N(w) :単語wが出現する回数
N( ̄w):単語wが出現しない回数
( ̄:not)
N11(w):ある単語wが出現する文書が違法・有害である場合の数
N12(w):ある単語wが出現する文書が無害である場合の数
N21(w):ある単語wが出現しない文書が違法・有害である場合の数
N22(w):ある単語wが出現しない文書が無害である場合の数
N11(w)/N(w)>N12(w)/N( ̄w)のとき、
E(w)=AIC_IM(w)−AIC_DM(w)
N11(w)/N(w)≦N12(w)/N( ̄w)のとき、
E(w)=AIC_DM(w)−AIC_IM(w)
ここで、AIC_IM(w)、AIC_DM(w)はそれぞれ、非特許文献5の記載に基づいて、以下のように算出される。
AIC_IM(w)=-2×MLL_IM+2×2
MLL_IM=Np(w)logNp(w)+N(w)logN(w)+Nn(w)logNn(w)
+N( ̄w)logN( ̄w)−2NlogN
AIC_DM(w)=-2×MLL_DM+2×3
MLL_DM=N11(w)logN11(w)+N12(w)logN12=(w)+N21(w)logN21(w)
+N22(w)logN22(w)−NlogN
この計算によって得られた違法・有害性の高いキーワードリストの一部を、以下の表に表す。
if(TH>SH and TD>SD):適合率の向上(論理積)
if(TH>SH or TD>SD) :再現率の向上(論理和)
SD:有害割合を表す文章スコア値
SH:有害割合を表すMLスコア値
TD:文章スコア値について有害と判定する第1の閾値
TH:MLスコア値について有害と判定する第2の閾値
TH>SH:真/偽
TD>SD:真/偽
if(Score>Threshold):真/偽
Score=α・SH×β・SD:適合率(論理積)
Score=α・SH+β・SD:再現率(論理和)
Threshold:所定閾値
(S602)学習文書情報の文章情報及びマークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する。図2の文字列特徴量生成部12と同様に機能する。
(S612)文書解析サーバ10は、Webサーバ2から対象文書情報を受信する。
(S614)対象文書情報の文章情報及びマークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する。図2の文字列特徴量生成部12と同様に機能する。
(S616)そして、S615によって真と判定された対象文書情報は、特定カテゴリに含まれるものとして分類する。図2のカテゴリ分類部14と同様に機能する。
(1)文章的特徴(文章情報)の場合でのみ違法・有害と判定されたWebページの割合
(2)外形的特徴(マークアップ言語情報)の場合でのみ違法・有害と判定されたWebページの割合
(3)文章的特徴及び外形的特徴の両方の場合で違法・有害と判定されたWebページの割合
10 文書解析サーバ
11 文書情報分離部
12 文字列特徴量生成部
121 文字列抽出部
122 出現回数計数部
123 特徴量生成部
124 学習文字列検出部
125 学習文字列登録部
13 特徴量判定部
131 文章スコア値導出部
132 MLスコア値導出部
133 総合スコア値導出部
14 カテゴリ分類部
2 Webサーバ
3 端末
Claims (7)
- 文章情報及びマークアップ言語(Markup Language)によって記述された文書情報が、特定カテゴリに含まれるか否かを判定するようにコンピュータを機能させる文書分類プログラムであって、
解析対象となる対象文書情報を、前記文章情報と前記マークアップ言語情報とに分離する文書情報分離手段と、
前記文章情報及び前記マークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの対象特徴量を生成する特徴量生成手段と、
前記特定カテゴリに含まれる多数の文章情報における学習特徴量を予め教師データとして学習したサポートベクタマシン(Support Vector Machine)を用いて、前記対象文書情報の対象特徴量を入力し、当該対象文書情報が前記特定カテゴリに属する割合に基づく文章スコア値を導出する文章スコア値導出手段と、
前記特定カテゴリに含まれる多数のマークアップ言語情報における学習特徴量を予め教師データとして学習したサポートベクタマシンを用いて、前記対象文書情報のマークアップ言語情報の対象特徴量を入力し、当該対象文書情報が前記特定カテゴリに属する割合に基づくマークアップ言語スコア値を導出するマークアップ言語スコア値導出手段と、
前記文章スコア値及び前記マークアップ言語スコア値を論理式に基づいて組み合わせた総合スコア値を導出し、該総合スコア値が所定閾値以上となる場合、当該対象文書情報を真と判定する総合スコア値導出手段と、
前記総合スコア値導出手段によって真と判定された前記対象文書情報は、前記特定カテゴリに含まれるものとして分類するカテゴリ分類手段と
してコンピュータを機能させ、文章情報又はマークアップ言語情報の一方を判定要素とした場合よりも高い適合率又は再現率とすることを特徴とすることを特徴とする文書分類プログラム。 - 前記特徴量生成手段は、
前記文章情報及びマークアップ言語情報それぞれから、文字列を抽出する文字列抽出手段と、
学習文書情報に基づく文字列を登録する学習文字列登録手段と、
前記文章情報及びマークアップ言語情報それぞれについて、前記学習文字列登録手段に登録された文字列の出現回数を計数する出現回数計数手段と、
前記文章情報及びマークアップ言語情報それぞれについて、文字列要素毎の出現回数を表す多次元ベクトルの文字列特徴量を生成する特徴量生成手段と
してコンピュータを更に機能させることを特徴とする請求項1に記載の文書分類プログラム。 - 前記特定カテゴリに属する複数の学習文書情報を入力し、
前記文書情報分離手段は、更に、前記学習文書情報を、文章情報とマークアップ言語情報とに分離し、
前記文字列特徴量生成手段は、前記学習文書情報の文章情報及びマークアップ言語情報それぞれについて、前記文字列抽出手段と、前記出現回数計数手段と、前記特徴量生成手段とを実行することによって、それぞれの当該学習特徴量を前記文章スコア値導出手段及び前記マークアップ言語スコア値導出手段へ出力すると共に、多数の前記文字列から前記特定カテゴリに基づく特定文字列を統計的に検出する学習文字列検出手段を更に有し、
前記学習文字列登録手段は、前記学習文字列検出手段によって検出された文字列を登録する
ようにコンピュータを更に機能させることを特徴とする請求項2に記載の文書分類プログラム。 - 前記文書情報は、SGML(Standard Generalized Markup Language)、HTML(HyperText Markup Language)、XML(eXtensible Markup Language)、XHTML(eXtensible HyperText Markup Language)又はTexによって記述されており、
前記文章情報は、前記文書情報からタグ要素を除く、文章的特徴を有するテキストであり、
前記マークアップ言語情報は、前記文書情報のタグ要素に含まれ、外形的特徴を有するテキストであり、
前記タグ要素は、画像、音声及び文章のコンテンツ要素に対する囲み文字列であって、前記マークアップ言語における文章構造及び修飾情報を指定するものである
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載の文書分類プログラム。 - 前記学習文書情報は、違法・有害と判断された多数の文書情報、又は、ユーザによって特定カテゴリとして収集された多数の文書情報であるようにコンピュータを機能させることを特徴とする請求項1から4のいずれか1項に記載の文書分類プログラム。
- 文章情報及びマークアップ言語によって記述された文書情報を、他の公開サーバからネットワークを介して取得し、当該文書情報が特定カテゴリに含まれるか否かを判定する文書解析サーバであって、
前記特定カテゴリに含まれる多数の文章情報における学習特徴量を予め教師データとして学習したサポートベクタマシン(Support Vector Machine)を用いて、前記対象文書情報の対象特徴量を入力し、当該対象文書情報が前記特定カテゴリに属する割合に基づく文章スコア値を導出する文章スコア値導出手段と、
前記特定カテゴリに含まれる多数のマークアップ言語情報における学習特徴量を予め教師データとして学習したサポートベクタマシンを用いて、前記対象文書情報のマークアップ言語情報の対象特徴量を入力し、当該対象文書情報が前記特定カテゴリに属する割合に基づくマークアップ言語スコア値を導出するマークアップ言語スコア値導出手段と、
前記文章スコア値及び前記マークアップ言語スコア値を論理式に基づいて組み合わせた総合スコア値を導出し、該総合スコア値が所定閾値以上となる場合、当該対象文書情報を真と判定する総合スコア値導出手段と、
前記総合スコア値導出手段によって真と判定された前記対象文書情報は、前記特定カテゴリに含まれるものとして分類するカテゴリ分類手段と
を有し、文章情報又はマークアップ言語情報の一方を判定要素とした場合よりも高い適合率又は再現率とすることを特徴とする文書解析サーバ。 - 文章情報及びマークアップ言語によって記述された文書情報が、特定カテゴリに含まれるか否かを判定する装置における文書分類方法であって、
解析対象となる対象文書情報を、前記文章情報と前記マークアップ言語情報とに分離する第1のステップと、
前記文章情報及び前記マークアップ言語情報それぞれについて、予め登録された文字列の出現回数を計数し、文字列要素毎の出現回数を表す多次元ベクトルの特徴量を生成する第2のステップと、
前記特定カテゴリに含まれる多数の文章情報における学習特徴量を予め教師データとして学習したサポートベクタマシン(Support Vector Machine)を用いて、前記対象文書情報の対象特徴量を入力し、当該対象文書情報が前記特定カテゴリに属する割合に基づく文章スコア値を導出する第3のステップと、
前記特定カテゴリに含まれる多数のマークアップ言語情報における学習特徴量を予め教師データとして学習したサポートベクタマシンを用いて、前記対象文書情報のマークアップ言語情報の対象特徴量を入力し、当該対象文書情報が前記特定カテゴリに属する割合に基づくマークアップ言語スコア値を導出する第4のステップと、
前記文章スコア値及び前記マークアップ言語スコア値を論理式に基づいて組み合わせた総合スコア値を導出し、該総合スコア値が所定閾値以上となる場合、当該対象文書情報を真と判定する第5のステップと、
前記総合スコア値導出手段によって真と判定された前記対象文書情報は、前記特定カテゴリに含まれるものとして分類する第6のステップと
を有し、文章情報又はマークアップ言語情報の一方を判定要素とした場合よりも高い適合率又は再現率とすることを特徴とする文書分類方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010185321A JP5527845B2 (ja) | 2010-08-20 | 2010-08-20 | 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010185321A JP5527845B2 (ja) | 2010-08-20 | 2010-08-20 | 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012043285A JP2012043285A (ja) | 2012-03-01 |
JP5527845B2 true JP5527845B2 (ja) | 2014-06-25 |
Family
ID=45899485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010185321A Expired - Fee Related JP5527845B2 (ja) | 2010-08-20 | 2010-08-20 | 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5527845B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6869833B2 (ja) * | 2017-07-05 | 2021-05-12 | Kddi株式会社 | 識別装置、識別方法、識別プログラム、モデル生成装置、モデル生成方法及びモデル生成プログラム |
WO2020240637A1 (ja) * | 2019-05-24 | 2020-12-03 | 日本電信電話株式会社 | 学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム |
JP7131704B2 (ja) * | 2019-05-28 | 2022-09-06 | 日本電信電話株式会社 | 抽出装置、抽出方法及び抽出プログラム |
WO2021229786A1 (ja) * | 2020-05-15 | 2021-11-18 | 日本電信電話株式会社 | 学習装置、検出装置、学習方法、検出方法、学習プログラムおよび検出プログラム |
CN113095039A (zh) * | 2021-03-09 | 2021-07-09 | 智慧芽信息科技(苏州)有限公司 | 对文件自定义字段标引的处理方法、装置、服务器 |
KR102550923B1 (ko) * | 2021-10-25 | 2023-07-04 | 주식회사 투링크 | 유해 사이트 차단 시스템 및 그 방법 |
CN115296823B (zh) * | 2022-09-29 | 2023-02-03 | 佛山蚕成科技有限公司 | 一种可信数字徽章安全认证方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000268040A (ja) * | 1999-03-15 | 2000-09-29 | Ntt Data Corp | 情報分類方式 |
JP4226261B2 (ja) * | 2002-04-12 | 2009-02-18 | 三菱電機株式会社 | 構造化文書種別判定システム及び構造化文書種別判定方法 |
JP4994199B2 (ja) * | 2007-11-26 | 2012-08-08 | ヤフー株式会社 | 機械学習装置及び機械学習方法 |
JP4959603B2 (ja) * | 2008-02-21 | 2012-06-27 | ネットスター株式会社 | ドキュメントを解析するためのプログラム,装置および方法 |
JP4915021B2 (ja) * | 2008-09-10 | 2012-04-11 | ヤフー株式会社 | 検索装置、および検索装置の制御方法 |
-
2010
- 2010-08-20 JP JP2010185321A patent/JP5527845B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012043285A (ja) | 2012-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516067B (zh) | 基于话题检测的舆情监控方法、系统及存储介质 | |
Gokulakrishnan et al. | Opinion mining and sentiment analysis on a twitter data stream | |
WO2019227710A1 (zh) | 网络舆情的分析方法、装置及计算机可读存储介质 | |
JP5527845B2 (ja) | 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法 | |
CN110046260B (zh) | 一种基于知识图谱的暗网话题发现方法和系统 | |
CN111950273B (zh) | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 | |
TWI424325B (zh) | 使用有機物件資料模型來組織社群智慧資訊的系統及方法 | |
CN109145216A (zh) | 网络舆情监控方法、装置及存储介质 | |
CN110334202A (zh) | 基于新闻应用软件的用户兴趣标签构建方法及相关设备 | |
CN111914087B (zh) | 一种舆情分析方法 | |
KR20120108095A (ko) | 소셜 데이터 분석 시스템 | |
CN111324801B (zh) | 基于热点词的司法领域热点事件发现方法 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
Qiu et al. | Advanced sentiment classification of tibetan microblogs on smart campuses based on multi-feature fusion | |
Suchdev et al. | Twitter sentiment analysis using machine learning and knowledge-based approach | |
Carey et al. | HTML web content extraction using paragraph tags | |
Tyagi et al. | Sentiment analysis of product reviews using support vector machine learning algorithm | |
CN112989208A (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
Yamamoto et al. | Multidimensional sentiment calculation method for Twitter based on emoticons | |
CN107145591B (zh) | 一种基于标题的网页有效元数据内容提取方法 | |
Fernandes et al. | Analysis of product Twitter data though opinion mining | |
Hu et al. | Embracing information explosion without choking: Clustering and labeling in microblogging | |
Saravanan et al. | Extraction of Core Web Content from Web Pages using Noise Elimination. | |
Munot et al. | Conceptual framework for abstractive text summarization | |
Yin et al. | Research of integrated algorithm establishment of a spam detection system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130304 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131205 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140303 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140409 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140411 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5527845 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |