JP5366179B2 - 情報の重要度推定システム及び方法及びプログラム - Google Patents
情報の重要度推定システム及び方法及びプログラム Download PDFInfo
- Publication number
- JP5366179B2 JP5366179B2 JP2008134888A JP2008134888A JP5366179B2 JP 5366179 B2 JP5366179 B2 JP 5366179B2 JP 2008134888 A JP2008134888 A JP 2008134888A JP 2008134888 A JP2008134888 A JP 2008134888A JP 5366179 B2 JP5366179 B2 JP 5366179B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- importance
- learning
- data
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Yang Hu, Mingjing Li, Zhiwei Li, and Wei-Ying Ma. 2006. Discovering authoritative news sources and top news stories. In AIRS 2006, pages 230 - 243.
図1は情報の重要度推定システムの説明図である。図1において、情報の重要度推定システムには、入力部(入力手段)1、処理部(処理手段)2、表示部(出力手段)3、学習部4、学習データ(格納手段)5、追加情報6が設けてある。
図2は情報の重要度推定処理の説明図であり、図2(A) は機械学習処理フローチャートである。以下、図2(A) の処理S1〜S3にしたがって説明する。
図3は機械学習の手法を用いた情報の重要度推定システムの説明図である。重要度推定システムは、教師データ記憶手段5、解−素性対抽出手段11、機械学習手段12、学習結果記憶手段13、表現対抽出手段14、素性抽出手段15、解推定手段16、出力手段17を備える。
(a1,b1,c1)−解「正例」
(a1,b2,c1)−解「負例」
・
・
(a2,b2,c2)−解「負例」
といった、表現対と解との組を生成する。
参考文献(2):サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳,村田真樹,馬青,内元清貴,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2000-78 ,2001年.
参考文献(3):SENSEVAL2J辞書タスクでのCRLの取り組み,村田真樹,内山将夫,内元清貴,馬青,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2001-40 ,2001年.
どういう問題のときに、という、問題の状況を機械に伝える際に、素性(解析に用いる情報で問題を構成する各要素)というものが必要になる。問題を素性によって表現するのである。例えば、日本語文末表現の時制の推定の問題において、問題:「彼が話す。」−−−解「現在」が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す」「。」となる。
ただし、fmax は以下の式によって与えられる。
参考文献(5):Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release 1.6beta, (http://www.mnemonic.com/software/memt,1998)
サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。
この拡張された方法は、以下の識別関数を用いて分類することと等価であり、その識別関数の出力値が正か負かによって二つの分類を判別することができる。
sgn(x)=1(x≧0)
−1(otherwise )
であり、また、各αi は式(12)と式(13)の制約のもと式(11)を最大にする場合のものである。
C、dは実験的に設定される定数である。例えば、Cはすべての処理を通して1に固定した。また、dは、1と2の二種類を試している。ここで、αi >0となるxi は、サポートベクトルと呼ばれ、通常、式(10)の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。
参考文献(7):Taku Kudoh, Tinysvm:Support Vector machines,(http://cl.aist-nara.ac.jp/taku-ku//software/Tiny SVM/index.html,2000)
サポートベクトルマシン法は、分類の数が2個のデータを扱うものである。したがって、分類の数が3個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンVSレスト法などの手法を組み合わせて用いることになる。
問題 記事a -- 解「重要」
問題 記事b -- 解「重要」
問題 記事c -- 解「重要でない」
...
が教師データになる。
問題 記事a1記事a2 -- 解「左の記事」
問題 記事b1記事b2 -- 解「右の記事」
問題 記事c1 記事c2 -- 解「右の記事」
...
が教師データになる。
情報の重要度を推定するために、素性抽出手段等で単語の認識が必要になる。この単語の認識では、形態素解析システムを使用することができる。
日本語を単語に分割するために、処理部2や学習部4の単語抽出部が行う形態素解析システムが必要になる。ここではChaSenについて説明する(奈良先端大で開発されている形態素解析システム 茶筌 http://chasen.aist-nara.ac.jp/index.html.jp で公開されている)。
へ ヘ へ 助詞−格助詞−一般
行く イク 行く 動詞−自立 五段・カ行促音便 基本型
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
英語の品詞タグつけシステムとしては、次の Brillのものが有名である。
Natural Language Processing: A Case Study in Part-of-Speech Tagging,
Computational Linguistics, Vol. 21, No. 4, p.543-565, 1995.
これは、英語文の各単語の品詞を推定してくれるものである。
具体例にしたがって、情報の重要度を自動推定するシステムを説明する。情報の重要度を推定する技術は、記事のランキングや、重要な情報の自動収集など、種々の場面で役立つ重要なものである。ここでは,手始めに新聞の構成情報を利用して情報の重要度の推定を行った。例えば、新聞の1面は他の面よりも情報の重要度が高いと考えられるので、記事ペアのうち、どちらが1面であるかを特定する研究を行った。さらに、被験者実験を行い、被験者の重要と考える記事を特定する研究を行った。
2006年度の毎日新聞、読売新聞、日経新聞の三社の朝刊の新聞記事データを利用した。そして、以下の三つの実験を行った。
機械学習法には、サポートベクターマシン法(SVM)(参考文献(7)参照)と最大エントロピー法(ME)(以下の参考文献(9)参照)を利用した。
サポートベクターマシン法では、d=1、C=1で実験した(参考文献(2)参照)(d=2の実験も行っている) 。素性としては、図6に示すものを用いた。まず、実験Aで、一つの記事を入力とし、それがどういう記事かを特定する実験を行った。実験は10分割クロスバリデーション(記事群を10分割して分割した一つの記事群の1記事をテストデータとする実験)で行った。その結果を図7に示している。図7は1記事入力の場合の実験Aの説明図である。図7の表の素性の列にある数字は、図6のうちその行の実験で用いた素性を意味する。
次にアンケートデータを利用した実験を行った。アンケートは2007年11月に実施し、309人の被験者を対象に、56個の5組の新聞記事を与えてその5組を自分にとって重要な順に並べかえてもらった。56個の新聞記事の内訳は、異なる5個の日の新聞1面トップ記事(毎日新聞15個、読売新聞15個、日経新聞8個)が計38個、1面トップ記事を含む同じ日の1面内の5記事(各社2個ずつ)が計6個、同じ日の1面トップ記事と4個のランダムに取り出した1面以外の記事(各社2個ずつ)が計6個、同じ日の毎日新聞の1面トップ記事、次の記事、読売新聞の1面トップ記事、次の記事、日経新聞の1面トップ記事(この5記事の記事内容が重複しない日を選択)が計6個である。5組の並べ替えのデータから、10個のどちらが重要とされたかの情報を含む記事ペアを生成することで、56個のデータから、計560個の記事ペアを生成した。この記事ペアを実験に用いた。アンケートでは字数の制限のため記事の最初の約300文字のみを利用した。また、これにあわせて本節の実験では、すべての記事について最初の約300文字のみを利用した。ここで、全体データで被験者で多数決をとり、重要と答えられた数の多い方の記事を重要記事と考え、記事ペアを入力としてその重要記事を特定する実験を行った。実験は10分割クロスバリデーションで行った。その結果を図11に示している。
この実験では、機械学習を利用した重要度に関する実験を行った。新聞記事での実験により、1記事を与えて1面記事かどうかを特定するよりも、2記事を与えてそのどちらが1面記事かどうかを特定する方が簡単であることがわかった。また、実験A、B、Cと行ったが、1面トップ記事かそれ以外の面の記事かを特定する実験Bが最も高い精度をあげることがわかった。被験者を利用した実験では、被験者の一致率が高い記事ペア(一致率80%以上)については、94%と高い精度で重要記事を特定できた。また、そのような記事ペアは新聞記事だけからでも、88%と高い精度で重要記事を特定できた。このことは、新聞データが、被験者データの代用としてもある程度利用できることを意味する。今後はアンケートデータの分析も行いたいと考えている。例えば、テキストマイニングシステムSimpleminer (以下の参考文献(10)参照)を用いると、「ライブドア」の重要度が低く、「年金」の重要度が高いという結果を得た。ここでは重要と被験者が判断した記事のタイトルに偏って多く出現したものを重要度が高いとしている。アンケートを2007年11月に実施したため、今はほとんどの人が「ライブドア」事件に興味がなく、年金問題に興味があることがわかった。また、「殺人、死亡、病院、保険、金融、与党、改革、天下り」の重要度も高いこと、「選挙、工事、談合、野球」の重要度が低いこともわかった。
d)サポートベクターマシン法でd=2で実験した場合の説明
上記サポートベクターマシン法でd=1、C=1の実験を行ったが、ここでは社告等の不要と思われる記事を除く処理を行って、d=2(C=1)で実験を行った。そして、機械学習の素性として、図6の1、3、5、7の全てを用いた。
a)分類語彙表の構成
分類語彙表とはボトムアップ的に単語を意味に基づいて整理した表であり、各単語に対して分類番号という数字が付与される。分類語彙表の構成(国立国語研究所,分類語彙表,1964)は、例えば、以下のようなものである。
あい, 相,3.112,1,10,*,
あい, 藍,1.502,6,40,,
あいいく, 愛育,1.3642,1,40,,
あいいん, 愛飲,1.3332,3,60,,
あいいん, 合印,1.3114,1,30,Y,
あいうち, あい打ち,1.357,4,30,,
あいかぎ, 合鍵,1.454,8,50,,
あいかわらず, 相変らず,3.165,2,10,*,
あいかん, 哀歓,1.3011,4,60,,
あいがん, 哀願,1.366,1,100,,
あいがん, 愛翫,1.3852,2,10,,
あいぎ, 合着,1.421,4,40,,
あいきょう, 愛郷,1.3020,11,170,,
あいきょう, 愛嬌,1.3030,4,40,,
分類語彙表は、上記の例のように、「,」 (コンマ)で区切ってあって、それぞれ、単語の読み、単語の見出し語、単語の分類番号、単語の分類番号の下位番号1、単語の分類番号の下位番号2、標本使用頻度が7以上の単語かどうかを示す情報である。
図17は電子化された分類語彙表の説明図である。図17に示すように、電子化された分類語彙表では、各単語には10桁の分類番号が与えられている(書籍判の分類語彙表では分類番号は5桁までしかないが、電子化判では10桁存在する)。この10桁の分類番号は7レベルの階層構造を示しており、上位5レベルは分類番号の最初の5桁で表現され、6レベル目は次の2桁、最下層のレベルは最後の3桁で表現されている。
機械学習では、ライブドアに関係する記事と、年金に関係する記事が入力されて、どちらが重要な記事かを計算機に判断させる。そうすると、記事内の単語を素性として取り出し、その素性を利用して、年金に関係する記事の方が重要と判断されて出力される。
(8):教師有り機械学習手法を用いる方法以外の説明
教師有り機械学習手法を用いる方法以外の方法として以下の方法がある。
(a)オートマティックフィードバックを利用する場合の説明
ある文書群C(データベースに格納された)から単語Aを含む文書群Dを検索する。そして、この文書群Dに偏って多く出現する単語を単語群Bとする。
例えば、コンピュータを含む記事群に偏って出現する単語群Bを抽出するときなどに使うことができる。記事群Dを包含するよりも大きい記事群をCとする。ここで記事群Cはデータベース全体でもいいし、一部でもよい。上述の解決法1にしたがえば、Cは「WINS」を含む記事群となる。
D中のBの出現率=D中のBの出現回数/D中の単語総数
次に、D中のBの出現率/C中のBの出現率
を求めてこの値が大きいものほど、記事群Dに偏って出現する単語とする。
(有意差検定を利用する説明)
・二項検定の場合の説明
BのCでの出現数をNとする。BのDでの出現数をN1とする。
P1 =Σ C(N1+N2,x) * 0.5 ^(x) * 0.5 ^(N1+N2-x)
(ただし、Σは、x = 0 から x = N2 の和)
(ただし、C(A,B)は、A個の異なったものからB個のものを取り出す場合の数)
(ただし、^は、指数を意味する)
で表され、この確率の値が十分小さければ、N1とN2は等価な確率でない、すなわち、N1がN2に比べて有意に大きいことと判断できる。
P1が5%よりも小さいこと、10%検定ならP1が10%よりも小さいこと、が有意に大きいかどうかの判断基準になる。
D中のBの出現回数をN1、D中の単語の総出現数をF1、
CにあってDにない、Bの出現回数をN2、
CにあってDにない、単語の総出現数をF2とする。
カイ二乗値 = (N * (F1 * (N2 - F2) - (N1 - F1) * F2 )^2 )/((F1 + F2)*(N - (F1 + F2)) * N1 * N2)
を求める。
p = (F1+F2)/(N1+N2)
p1 = R1
p2 = R2
として、
Z = | p1 - p2| / sqrt ( p * (1 - p) * (1/N1 + 1/N2) )
を求め、(ただし sqrt はルートを意味する) そして、Z が大きいほど、R1とR2は有意差があると言え、Zが 1.96 よりも大きいとき危険率5%の有意差があると言え、Zが 2.58 よりも大きいとき危険率1%の有意差があると言える。
上記の文書群Cを一般的文書、文書群Dをタイトルとして処理して、一般的文書よりも、タイトルに偏って多く出現する単語を取り出すことができる。
重要度は次の式で表すこともできる。
この式では、代表性は、機械学習の方法で求まる重要度や、上記頻度法でもとまる得点を利用する。関連度は、ある事柄と分野、人、立場との関連度であり、以下のように計算する。
予め、分野、人、立場を意味する単語を登録しておく。登録した単語をn個とする。ある事柄の記事に、それら単語がどのくらい含まれているかを調べる。含まれていた単語の数をn1個とする。そして、n1/nを関連度とする。
予め、分野、人、立場を意味する単語を登録しておく。登録した単語tをn個とする。ある事柄の記事に、それら単語tとよく共起する単語が含まれているかを調べる。含まれていた単語tの数をn1個とする。そして、n1/nを関連度とする。
情報の重要度推定システムでは、翻訳を行う(翻訳手段を用いる)ことで、他の言語の情報の重要度を推定することができる。翻訳方法は、訳語辞書で翻訳する方法と既存の翻訳システムで翻訳する方法がある。訳語辞書とは、例えば、
car --車
house --家
のように訳語が対になって表記されているもので、単語マッチで変換して利用する。
1) 第一の言語データの情報の重要度を推定するシステムにおいて、前記機械学習手段で、第二の言語データを第一の言語データに翻訳した翻訳データを用いて学習し、前記処理手段で、第一の言語データを用いて入力された新たな情報の重要度を推定する。このため、他の言語を学習データとして利用することができる。
1) 第二の言語データの情報の重要度を推定するシステムにおいて、前記機械学習手段で、第一の言語のデータを用いて学習し、前記処理手段で、第二の言語のデータを第一の言語のデータに翻訳した翻訳データを用いて入力された新たな情報の重要度を推定する。このため、他の言語(第二の言語)の情報の重要度を推定することができる。
入力部(入力手段)1、処理部(処理手段)2、表示部(出力手段)3、学習部4、解−素性対抽出手段11、機械学習手段12、学習結果記憶手段13、表現対抽出手段14、素性抽出手段15、解推定手段16、出力手段17等は、プログラムで構成でき、主制御部(CPU)が実行するものであり、主記憶に格納されているものである。このプログラムは、一般的な、コンピュータ(情報処理装置)で処理されるものである。このコンピュータは、主制御部、主記憶、ファイル装置、表示装置、キーボード等の入力手段である入力装置などのハードウェアで構成されている。このコンピュータに、本発明のプログラムをインストールする。このインストールは、フロッピィ、光磁気ディスク等の可搬型の記録(記憶)媒体に、これらのプログラムを記憶させておき、コンピュータが備えている記録媒体に対して、アクセスするためのドライブ装置を介して、或いは、LAN等のネットワークを介して、コンピュータに設けられたファイル装置にインストールされる。そして、このファイル装置から処理に必要なプログラムステップを主記憶に読み出し、主制御部が実行するものである。
2 処理部(処理手段)
3 表示部(出力手段)
4 学習部(機械学習手段)
5 格納手段(学習データ)
6 追加情報
Claims (10)
- 予め重要度が分かっている複数の情報を学習データとして、該学習データから学習に用いるための素性を抽出し、どのような素性のときその情報が重要なのか、重要でないのかを学習する機械学習手段と、
情報を入力する入力手段と、
情報の重要度を推定する処理手段と、
情報の重要度の出力を行う出力手段とを備え、
前記機械学習手段は、予め単語の意味により分類付けられた意味情報を前記学習データの素性に追加して学習し、
前記処理手段は、前記入力手段より入力された新たな情報を前記機械学習手段の学習結果で求めた重要度と、前記入力手段より入力された新たな情報とその分野、人又は立場の関連度を掛け合わせたものにより重要度を推定し、前記出力手段により出力することを特徴とした情報の重要度推定システム。 - 前記機械学習手段は、新聞での記載位置の情報を利用して学習することを特徴とした請求項1記載の情報の重要度推定システム。
- 前記機械学習手段は、人が重要度を判定した結果の情報と新聞での記載位置の情報の両方を利用して学習することを特徴とした請求項1又は2に記載の情報の重要度推定システム。
- 前記機械学習手段は、分野、人又は立場の情報を学習データとして追加して学習することを特徴とした請求項1〜3のいずれかに記載の情報の重要度推定システム。
- 重要な情報に出現する単語を収集し、高頻度に出現する単語を重要な概念として、前記機械学習手段の学習データに追加することを特徴とした請求項1〜4のいずれかに記載の情報の重要度推定システム。
- 重要な情報とその分野、人又は立場の関連度を求め、該求めた関連度を前記機械学習手段の学習データに追加することを特徴とした請求項5記載の情報の重要度推定システム。
- 第二の言語データの情報の重要度を推定するシステムにおいて、前記機械学習手段で第一の言語データを用いて学習し、前記処理手段で第二の言語データを第一の言語のデータに翻訳した翻訳データを用いて入力された新たな情報の重要度を推定することを特徴とした請求項1〜6のいずれかに記載の情報の重要度推定システム。
- 前記機械学習手段で、翻訳データを用いて学習することを特徴とした請求項1〜7のいずれかに記載の情報の重要度推定システム。
- 機械学習手段で、予め重要度が分かっている複数の情報を学習データとして、該学習データから学習に用いるための素性を抽出し、どのような素性のときその情報が重要なのか、重要でないのかの学習に、予め単語の意味により分類付けられた意味情報を前記学習データの素性に追加して学習し、
処理手段で、入力手段より入力された新たな情報を前記機械学習手段の学習結果で求めた重要度と、前記入力手段より入力された新たな情報とその分野、人又は立場の関連度を掛け合わせたものにより重要度を推定し、出力手段により出力することを特徴とした情報の重要度推定方法。 - 予め重要度が分かっている複数の情報を学習データとして、該学習データから学習に用いるための素性を抽出し、どのような素性のときその情報が重要なのか、重要でないのかの学習に、予め単語の意味により分類付けられた意味情報を前記学習データの素性に追加して学習する機械学習手段と、
情報を入力する入力手段と、
情報の重要度の出力を行う出力手段と、
前記入力手段より入力された新たな情報を前記機械学習手段の学習結果で求めた重要度と、前記入力手段より入力された新たな情報とその分野、人又は立場の関連度を掛け合わせたものにより重要度を推定し、前記出力手段により出力する処理手段として
コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008134888A JP5366179B2 (ja) | 2008-05-23 | 2008-05-23 | 情報の重要度推定システム及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008134888A JP5366179B2 (ja) | 2008-05-23 | 2008-05-23 | 情報の重要度推定システム及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009282795A JP2009282795A (ja) | 2009-12-03 |
JP5366179B2 true JP5366179B2 (ja) | 2013-12-11 |
Family
ID=41453179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008134888A Expired - Fee Related JP5366179B2 (ja) | 2008-05-23 | 2008-05-23 | 情報の重要度推定システム及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5366179B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6702035B2 (ja) * | 2016-07-04 | 2020-05-27 | 富士通株式会社 | クラス推定装置、クラス推定方法及びクラス推定プログラム |
JP6719365B2 (ja) * | 2016-11-15 | 2020-07-08 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP6592574B1 (ja) * | 2018-09-21 | 2019-10-16 | 株式会社 日立産業制御ソリューションズ | 記事解析装置、および、記事解析方法 |
JP7287992B2 (ja) * | 2021-01-28 | 2023-06-06 | ヤフー株式会社 | 情報処理装置、情報処理システム、情報処理方法、及びプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3472032B2 (ja) * | 1995-04-24 | 2003-12-02 | 株式会社東芝 | 情報フィルタ装置及び情報フィルタ方法 |
JP3856778B2 (ja) * | 2003-09-29 | 2006-12-13 | 株式会社日立製作所 | 複数言語を対象とした文書分類装置及び文書分類方法 |
JP4919386B2 (ja) * | 2006-01-25 | 2012-04-18 | 独立行政法人情報通信研究機構 | 情報抽出・表示装置 |
-
2008
- 2008-05-23 JP JP2008134888A patent/JP5366179B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009282795A (ja) | 2009-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Weiss et al. | Text mining: predictive methods for analyzing unstructured information | |
Chen et al. | A two-step resume information extraction algorithm | |
Sahu et al. | Feature engineering and ensemble-based approach for improving automatic short-answer grading performance | |
US9355372B2 (en) | Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus | |
JP4911599B2 (ja) | 風評情報抽出装置及び風評情報抽出方法 | |
JP6535858B2 (ja) | 文書解析装置、プログラム | |
CN113961685A (zh) | 信息抽取方法及装置 | |
Zhang et al. | Multilingual sentence categorization and novelty mining | |
Safrin et al. | Sentiment analysis on online product review | |
Heyman et al. | C-BiLDA extracting cross-lingual topics from non-parallel texts by distinguishing shared from unshared content | |
Golpar-Rabooki et al. | Feature extraction in opinion mining through Persian reviews | |
Zheng et al. | A review on authorship attribution in text mining | |
JP5366179B2 (ja) | 情報の重要度推定システム及び方法及びプログラム | |
Agarwal et al. | Topical analysis of migration coverage during lockdown in India by mainstream print media | |
Venčkauskas et al. | Problems of authorship identification of the national language electronic discourse | |
George et al. | Comparison of LDA and NMF topic modeling techniques for restaurant reviews | |
Akther et al. | Compilation, analysis and application of a comprehensive Bangla Corpus KUMono | |
Trivedi et al. | Capturing user sentiments for online Indian movie reviews: A comparative analysis of different machine-learning models | |
Torres et al. | Support vector machines for semantic relation extraction in Spanish language | |
Chang et al. | Incorporating word embedding into cross-lingual topic modeling | |
Nurlybayeva et al. | Plagiarism detection in students’ answers using fp-growth algorithm | |
JP4919386B2 (ja) | 情報抽出・表示装置 | |
Pirovani et al. | Indexing names of persons in a large dataset of a newspaper | |
Al Helal | Topic Modelling and Sentiment Analysis with the Bangla Language: A Deep Learning Approach Combined with the Latent Dirichlet Allocation | |
JP5099498B2 (ja) | データ処理装置及びデータ処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110523 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130319 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130520 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130827 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130905 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |