JP2012164220A - トピックモデリング装置、トピックモデリング方法、及びプログラム - Google Patents
トピックモデリング装置、トピックモデリング方法、及びプログラム Download PDFInfo
- Publication number
- JP2012164220A JP2012164220A JP2011025356A JP2011025356A JP2012164220A JP 2012164220 A JP2012164220 A JP 2012164220A JP 2011025356 A JP2011025356 A JP 2011025356A JP 2011025356 A JP2011025356 A JP 2011025356A JP 2012164220 A JP2012164220 A JP 2012164220A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- text data
- topic
- meaning
- multinomial distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】入力された各テキストデータに含まれる各文字列に対して語義を付与し、語義gが付与された文字列を含むテキストデータの集合をテキストデータ集合dg、テキストデータ集合dgが含む文字列の集合を文字列集合wg、テキストデータ集合dg中の文字列vの出現回数をn(dg,v)、p(v|z)=βzv、(z|dg)=ηgz、トピック情報zの全体集合をZとした場合におけるトピックモデルp(vg|dg)=Πv{Σz βzv・ηgz}n(dg,v)の多項分布パラメータβzvを得る。
【選択図】図1
Description
PLSAは2つの確率分布パラメータによって文書を表現する。1つ目はある文書dにおける各トピック情報zの生成し易さを表す多項分布パラメータp(z|d)で、2つ目はトピック情報zにおける各単語vの生成し易さを表す多項分布パラメータp(v|z)である。PLSAは以下の式で定義される。
LSAやPLSAが直接単語と文書の関係からトピックモデルを生成したのに対し、Conceptronは単語と語義の関係からトピックモデルを生成する。「語義」とは、各文字列の意味を考慮して各文字列に付与された分類を表す。語義の例は、日本語語彙大系において単語や固有表現などの各文字列に付与された分類の1クラスである。「日本語語彙大系」とは、日本語の単語を人手によって2715の意味クラスに分類したものを指す。例えば「快速」という単語には「乗り物(本体(移動(陸圏)))」という語義がある。Conceptronでは、文書中の単語vと共起した語義gの数を数え上げることで単語vと語義gの共起行列を作り、それを特異値分解して次元圧縮を行ってモデルを得る。
〔原理〕
実施形態の原理を説明した後、各実施形態の説明を行う。
各実施形態では、入力された各テキストデータに含まれる各文字列に対して語義を付与し、以下のトピックモデルの多項分布パラメータβzvを得る。
初めに文書などのテキストデータに含まれる単語などの文字列に対して語義の付与された学習データを用意しておき、テキストデータに含まれる文字列の当該テキストデータに対する特徴を表す情報を当該文字列の素性として付与する。例えば、素性化の対象となる文字列(対象文字列)の周辺情報、係り受け情報、単語を構成する文字等から当該対象文字列を素性変換(素性化)する。例えば、テキストデータに含まれる対象文字列から前後所定単語数以内(第1正例テキスト内)に位置する単語(周辺単語)の表記と当該対象文字列に対する当該周辺単語の相対位置を表す情報との組(表層素性)、対象文字列又は周辺単語の品詞情報(品詞素性)や固有名詞情報(固有名詞素性)や構文情報(構文素性)、テキストデータ内での対象文字列の出現回数やテキストデータの集合内での対象文字列の出現回数(出現回数素性)のうち、少なくとも一つに対応する情報を対象文字列の素性とする。
上述のように文字列に対して付与された素性と当該文字列に付与された語義との組が教師あり学習データすることで、「任意の文字列の素性を入力として当該任意の文字列の語義を特定するための情報を得るモデル」である語義タガーを生成することができる。このようなモデルであればどのようなモデルを語義タガーとしてもよく、その学習方法も通常の方法でよい。例えば、正則化項付き最大エントロピーモデル(参考文献2「Berger, A.L. , Pietra, V.J.D. and Pietra, "A maximum entropy approach to natural language processing", S.A.D. 1996.」)、正則化項付きの条件付きランダム場(CRFs、参考文献3「Lafferty, J. and McCallum, A. and Pereira, F. "Conditional random fields: Probabilistic models for segmenting and labeling sequence data", MACHINE LEARNING, pp. 282-289, 2001.」、サポートベクタマシン(SVMs、参考文献4「Vapnik, V. N. "The nature of statistical learning theory", Springer Verlag, 1995.」)などの分類モデルを語義タガーとして利用でき、それらの学習方法はよく知られている。以下、正則化項付き最大エントロピーモデルを語義タガーとする場合の学習方法を例示する。
語義タガーを用いてテキストデータに含まれる文字列に対する語義を付与する方法を説明する。まず、入力されたテキストデータに含まれる任意の文字列を上述の[学習データの素性変換]と同様に素性化する。学習データの素性変換方法と同様に行うのであれば、入力されたテキストデータに含まれる文字列の当該テキストデータに対する特徴を表す情報を当該文字列の素性の少なくとも一部してもよいし、当該文字列が辞書に含まれるか否かを表す情報を当該文字列の素性の少なくとも一部としてもよいし、当該文字列の語義の的確性を表す情報当該文字列の素性の少なくとも一部としてもよい。
本発明の第1実施形態を説明する。第1実施形態ではEMアルゴリズムを用い、式(2)のトピックモデルの多項分布パラメータβzvを求める。
<構成>
図1に例示するように、本形態のトピックモデリング装置1は、制御部11と記憶部12,13と語義付与部14と共起行列変換部15とモデル計算部16とを有する。この例のモデル計算部16は、第1更新部16aと第2更新部16bと判定部16cとを有する。なお、トピックモデリング装置1は、例えば、CPU(central processing unit)、RAM(random-access memory)及びROM(read-only memory)等を含む公知又は専用のコンピュータに特別なプログラムが読み込まれて構成される特別な装置である。例えば、記憶部12,13はハードディスクや半導体メモリなどであり、制御部11と語義付与部14と共起行列変換部15とモデル計算部16とは、特別なプログラムが読み込まれたCPUなどである。これらの少なくとも一部が集積回路などによって構成されてもよい。トピックモデリング装置1は制御部11の制御のもとで各処理を行い、各処理で得られたデータは一時メモリ(図示せず)に格納され、必要に応じて呼び出されて他の処理で利用される。図1に表記された矢印は情報の流れを表すが、表記の都合上一部の矢印が省略されている。
事前処理として、記憶部12に処理対象のテキストデータの集合Tが格納され、記憶部13に各文字列の語義を表す辞書Wが格納される。本形態では、形態素解析、固有表現抽出、係り受け解析、文境界同定などの前処理を行った後の文書データの集合(コーパスを)をテキストデータの集合とし、日本語語彙大系辞書を辞書とした例を示す。
図2Aを用いて本形態のトピックモデリング処理を説明する。
記憶部12に格納されたテキストデータの集合Tに含まれる各テキストデータが語義付与部14に入力される。語義付与部14は、記憶部13に格納された辞書を用い、入力された各テキストデータに含まれる各文字列に対して語義を付与する。テキストデータとそれに含まれる各文字列とそれらに付与された語義とは互いに対応付けられ、共起行列変換部15に送られる(ステップS11)。
図2Bに例示するように、モデル計算部16の第1更新部16aは、t=0とし、多項分布パラメータの初期値ηgz (0)及びβzv (0)を定める。ηgz (0)及びβzv (0)は任意の値でよく、例えば0以上1以下の規定値がηgz (0)及びβzv (0)とされる(ステップS131)。
[終了条件の例1]
テキストデータ全体に対する対数尤度の変化率Σg∈G log Pt+1(wg|dg)/Σg∈G log Pt(wg|dg)が規定値以上であることを終了条件とする。ただし、
[終了条件の例2]
t回目のイテレーションで得られたβ(t)、η(t)とt+1回目のイテレーションで得られたβ(t+1)、η(t+1)との変化率や変化量が規定値以下であることを終了条件とする。例えば、t回目のイテレーションで得られたβ(t)、η(t)を要素とするベクトルと、t+1回目のイテレーションで得られたβ(t+1)、η(t+1)を要素とするベクトルとの距離が規定値以下であることを終了条件とする。
[終了条件の例3]
tが所定のイテレーション回数に達したことを終了条件とする。
[終了条件の例4]
終了条件の例1−3の終了条件のうちのいずれか複数を満たすことを終了条件とする(終了条件の例の説明終わり)。
第2実施形態は第1実施形態の変形例であり、語義タガーを用いて文字列に語義が付与される形態である。以下では第1実施形態との相違点を中心に説明し、第1実施形態と共通する事項については、第1実施形態と同じ参照番号を用いて説明を省略する。
<構成>
図1に例示するように、本形態のトピックモデリング装置2は、制御部11と記憶部12,13と語義付与部24と共起行列変換部15とモデル計算部16とを有する。第1実施形態との相違点は語義付与部24のみである。図4に例示するように、語義付与部24は、記憶部241と素性化部242と学習部243と語義識別部244とを有する。
事前処理として、第1実施形態と同様に、記憶部12に処理対象のテキストデータの集合Tが格納され、記憶部12に各文字列の語義を表す辞書Wが格納される。
さらに本形態では語義タガーの学習が行われ、それによって得られた語義タガーが記憶部241に格納される。すなわち、文書などのテキストデータに含まれる単語などの文字列に対して語義の付与された学習データTRが素性化部242(図4)に入力される。素性化部242は、前述したように([学習データの素性変換]及び[語義タガーの学習])、学習データが含む文字列を素性変換し、文字列に対応する素性と当該文字列に付与された語義との組を用いて前述のような学習を行い、「任意の文字列の素性を入力として当該任意の文字列の語義を特定するための情報を得るモデル」である語義タガーMを生成して記憶部241に格納する。
図2Aを用いて本形態のトピックモデリング処理を説明する。
記憶部12に格納されたテキストデータの集合Tに含まれる各テキストデータが語義付与部24に入力される。語義付与部24は、記憶部241に格納された語義タガーMを用い、入力された各テキストデータに含まれる各文字列に対して語義を付与する。すなわち語義付与部24の素性化部242(図4)は、入力されたテキストデータに含まれる文字列を前述のように素性化する。例えば、入力されたテキストデータに含まれる文字列の当該テキストデータに対する特徴を表す情報や、文字列が文字列の語義を表す辞書Wに含まれるか否かを表す情報や、辞書Wに示された文字列の語義の的確性を表す情報などが当該文字列の素性の少なくとも一部とされる。入力されたテキストデータに含まれる文字列の素性は語義識別部244に送られる。語義識別部244は、記憶部241から読み込んだ語義タガーMに、テキストデータに含まれる文字列の素性を入力し、前述のように([語義タガーを用いた語義の付与])当該文字列の語義を求める。テキストデータとそれに含まれる各文字列とそれらに付与された語義とは互いに対応付けられ、共起行列変換部15に送られる(ステップS21)。
第3実施形態は第1及び第2実施形態の応用例であり、第1又は第2実施形態で得られたトピックモデルの適用方法を例示するものである。本形態では、得られたトピックモデルを用い、入力テキストデータにトピック情報を付与する。以下では、第1及び第2実施形態との相違点のみを説明する。
図1に例示するように、本形態のトピックモデリング装置3は、第1実施形態のトピックモデリング装置1又は第2実施形態のトピックモデリング装置2にモデル適用部37が付加されたものである。
第1及び第2実施形態で説明した通りである。
モデル適用部37に、第1又は第2実施形態の判定部16cから出力された多項分布パラメータβzvが入力される。さらに、入力テキストデータd'がモデル適用部37に入力される。モデル適用部37は、入力テキストデータd'が含む文字列の集合を入力文字列集合w'とし、入力テキストデータd'が与えられたときの各文字列v'∈Vの条件付き確率をp(v'|d')とし、入力テキストデータd'中の文字列v'∈Vの出現回数をn(d',v')とし、入力テキストデータd'が与えられたときのトピック情報zの条件付き確率p(z|d')である多項分布パラメータをηd’zとした場合における
本発明の実施形態の手法(p-Conceptron)と従来手法(Conceptron)を比較するために文書分類実験を行った。すなわちp-Conceptronを用いて条件付き確率p(z|d')(トピック重み)を求め、それらを文書分類のための素性の一部として文書分類を行った場合と、従来手法のConceptronで得られたトピックを文書分類のための素性の一部として用いて文書分類を行った場合とで分類性能を比較した。この実験では、毎日新聞の記事文書をテキストデータとし、単語を文字列とし、新聞記事の文書を分類する。毎日新聞の記事には記事ラベルがついている。これを分類の正解ラベルとし、正解ラベルを知ることなくp-Conceptron及びConceptronがいかに正しくラベルを推測できるかを比べ、p-Conceptron及びConceptronの性能を比較する。総ラベル種は17種類である。上述のトピック重みやトピック以外の素性としては文書に含まれる単語のユニグラム素性(単語そのもの)を用いる。実験に用いたConceptron及びp-Conceptronのトピックモデルは毎日新聞2001年版から2007年版から学習されたものである。
毎日新聞2001年版からランダムに10000記事をトピックモデルの学習用に用い、それらの記事に含まれる1000記事を分類テスト用に用いた。Conceptronと実験条件を揃えるため、p-Conceptronのトピックモデルの学習には語義タガーを用いていない。トピックモデルの学習にはEMアルゴリズムを採用した。また、Conceptronとp-Conceptronとに共通する素性としてユニグラム素性を用い、さらに素性としてp-Conceptronのトピックモデルで得られるすべてのトピック重みを用いた場合と、Conceptronのトピックモデルで得られるトピックを用いた場合とで、テスト用の1000記事の分類性能が変化したかをみる。なお、テスト用の1000記事にも正解ラベルが存在するが、分類処理にはそれらの正解ラベルはConceptron及びp-Conceptronは与えられていない。
トピックモデルの学習に用いた記事に含まれない記事についても分類結果を比較した。毎日新聞1997年版からランダムに10000記事をトピックモデルの学習用に用い、学習用の10000記事を除く1000記事を分類テスト用に用いた。素性はクローズテストと同様に設定した。以下に実験結果を示す。
第4実施形態は第1及び第2実施形態の応用例であり、第1又は第2実施形態で得られたトピックモデルの他の適用方法を例示するものである。本形態では、得られたトピックモデルを用い、各トピックにおいて特徴的な単語などの文字列を得る。以下では、第1及び第2実施形態との相違点のみを説明する。
図1に例示するように、本形態のトピックモデリング装置4は、第1実施形態のトピックモデリング装置1又は第2実施形態のトピックモデリング装置2にモデル適用部47が付加されたものである。
第1及び第2実施形態で説明した通りである。
なお、本発明は上述の実施の形態に限定されるものではない。例えば上記の各実施形態ではステップS12で共起行列を生成し、生起行列を用いてトピックモデルを生成していた。しかし、生起行列を生成することなく、入力された各テキストデータに含まれる各文字列に対して語義を付与して得られるデータからn(dg,v)を求め、トピックモデルを生成してもよい。また、EMアルゴリズムの更新の順序に限定はなく、M-stepを実行してからE-stepを実行する繰り返し処理が実行されてもよい。この場合のM-stepでのP(zgv|v,η(t),β(t))の初期値P(zgv|v,η(0),β(0))は任意値でよい。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
Claims (9)
- 入力された各テキストデータに含まれる各文字列に対して語義を付与する語義付与部と、
前記語義付与部で同じ語義gが付与された文字列を含むテキストデータの集合をテキストデータ集合dgとし、語義gの全体集合をGとし、前記テキストデータ集合dgが含む文字列の集合を文字列集合wgとし、前記テキストデータ集合dgが与えられたときの前記文字列集合vgの条件付き確率をp(wg|dg)とし、前記テキストデータ集合dg中の文字列vの出現回数をn(dg,v)とし、文字列vの全体集合をVとし、トピック情報zが与えられたときの文字列vの条件付き確率p(v|z)である多項分布パラメータをβzvとし、テキストデータ集合dgが与えられたときのトピック情報zの条件付き確率p(z|dg)である多項分布パラメータをηgzとし、トピック情報zの全体集合をZとした場合におけるトピックモデル
を有するトピックモデリング装置。 - 請求項1のトピックモデリング装置であって、
前記モデル計算部は、
多項分布パラメータηgz (t)及びβzv (t)を用い、文字列vとすべてのトピック情報z∈Z、文字列v∈V及びテキストデータ集合dg(g∈G)についての前記多項分布パラメータηgz (t)及びβzv (t)とが与えられたときの前記テキストデータ集合dg中の文字列vのトピック情報zgvの条件付き確率
前記出現回数n(dg,v)及び前記条件付き確率P(zgv|v,η(t),β(t))を用い、前記テキストデータ集合dgの全体集合{dg|g∈G}をDとした場合における多項分布パラメータ
前記第1更新部の処理及び前記第2更新部の処理を含む繰り返し処理が、繰り返しのたびにt+1を新たなtとしながら実行され、
前記多項分布パラメータβzvは、終了条件を満たした際のβzv (t+1)又はβzv (t)である、
ことを特徴とするトピックモデリング装置。 - 請求項1又は2のトピックモデリング装置であって、
前記語義付与部は、
前記テキストデータに含まれる前記文字列の当該テキストデータに対する特徴を表す情報を当該文字列の素性の少なくとも一部とする素性付与部と、
任意の文字列の素性を入力として当該任意の文字列の語義を特定するための情報を得るモデルに、前記テキストデータに含まれる前記文字列の素性を入力して当該文字列の語義を得る識別部と、を含む、
ことを特徴とするトピックモデリング装置。 - 請求項1から3の何れかのトピックモデリング装置であって、
前記文字列の素性は、当該文字列が文字列の語義を表す辞書に含まれるか否かを表す情報を含む、
ことを特徴とするトピックモデリング装置。 - 請求項4のトピックモデリング装置であって、
前記辞書は前記文字列の語義の的確性を表し、
前記文字列の素性は当該文字列の語義の的確性を表す情報を含む、
ことを特徴とするトピックモデリング装置。 - 請求項1から5の何れかのトピックモデリング装置であって、
入力テキストデータd'と前記多項分布パラメータβzvとが入力され、前記入力テキストデータd'が含む文字列の集合を入力文字列集合w'とし、前記入力テキストデータd'が与えられたときの前記入力文字列集合w'の条件付き確率をp(w'|d')とし、前記入力テキストデータd'中の文字列v'∈Vの出現回数をn(d',v')とし、前記入力テキストデータd'が与えられたときのトピック情報zの条件付き確率p(z|d')である多項分布パラメータをηd’zとした場合における
ことを特徴とするトピックモデリング装置。 - 請求項1から5の何れかのトピックモデリング装置であって、
前記多項分布パラメータβzvが入力され、前記多項分布パラメータβzvと入力テキストデータd'中の文字列vの出現確率p(v)との比rzvを得るモデル適用部をさらに有する、
ことを特徴とするトピックモデリング装置。 - (a) 語義付与部で、入力された各テキストデータに含まれる各文字列に対して語義を付与するステップと、
(b) 前記ステップ(a)で同じ語義gが付与された文字列を含むテキストデータの集合をテキストデータ集合dgとし、語義gの全体集合をGとし、前記テキストデータ集合dgが含む文字列の集合を文字列集合wgとし、前記テキストデータ集合dgが与えられたときの前記文字列集合wgの条件付き確率をp(wg|dg)とし、前記テキストデータ集合dg中の文字列vの出現回数をn(dg,v)とし、文字列vの全体集合をVとし、トピック情報zが与えられたときの文字列vの条件付き確率p(v|z)である多項分布パラメータをβzwとし、テキストデータ集合dgが与えられたときのトピック情報zの条件付き確率p(z|dg)である多項分布パラメータをηgzとし、トピック情報zの全体集合をZとした場合におけるトピックモデル
を有するトピックモデリング方法。 - 請求項1から7の何れかのトピックモデリング装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011025356A JP5342574B2 (ja) | 2011-02-08 | 2011-02-08 | トピックモデリング装置、トピックモデリング方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011025356A JP5342574B2 (ja) | 2011-02-08 | 2011-02-08 | トピックモデリング装置、トピックモデリング方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012164220A true JP2012164220A (ja) | 2012-08-30 |
JP5342574B2 JP5342574B2 (ja) | 2013-11-13 |
Family
ID=46843536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011025356A Expired - Fee Related JP5342574B2 (ja) | 2011-02-08 | 2011-02-08 | トピックモデリング装置、トピックモデリング方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5342574B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015210741A (ja) * | 2014-04-30 | 2015-11-24 | 日本電信電話株式会社 | トピックモデリング装置、トピックモデリング方法及びトピックモデリングプログラム |
JP2016162163A (ja) * | 2015-03-02 | 2016-09-05 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
-
2011
- 2011-02-08 JP JP2011025356A patent/JP5342574B2/ja not_active Expired - Fee Related
Non-Patent Citations (4)
Title |
---|
CSNB201201176001; 岡谷 貴之 外7名: コンピュータビジョン 最先端ガイド 3 第1版, 20101208, p.96-99, アドコム・メディア株式会社 * |
CSNG200800307009; 貞光 九月 外2名: 'トピック教師なしデータからトピック依存評価表現モデルの獲得' 電子情報通信学会技術研究報告 第107巻第480号, 20080131, p.57-62, 社団法人電子情報通信学会 * |
JPN6013037062; 貞光 九月 外2名: 'トピック教師なしデータからトピック依存評価表現モデルの獲得' 電子情報通信学会技術研究報告 第107巻第480号, 20080131, p.57-62, 社団法人電子情報通信学会 * |
JPN6013037063; 岡谷 貴之 外7名: コンピュータビジョン 最先端ガイド 3 第1版, 20101208, p.96-99, アドコム・メディア株式会社 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015210741A (ja) * | 2014-04-30 | 2015-11-24 | 日本電信電話株式会社 | トピックモデリング装置、トピックモデリング方法及びトピックモデリングプログラム |
JP2016162163A (ja) * | 2015-03-02 | 2016-09-05 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5342574B2 (ja) | 2013-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
Dhingra et al. | Embedding text in hyperbolic spaces | |
US11645475B2 (en) | Translation processing method and storage medium | |
US20150095017A1 (en) | System and method for learning word embeddings using neural language models | |
CN110457708B (zh) | 基于人工智能的词汇挖掘方法、装置、服务器及存储介质 | |
CN110162771B (zh) | 事件触发词的识别方法、装置、电子设备 | |
Zhang et al. | Learning distributed representations of data in community question answering for question retrieval | |
US20190317986A1 (en) | Annotated text data expanding method, annotated text data expanding computer-readable storage medium, annotated text data expanding device, and text classification model training method | |
Banik et al. | Gru based named entity recognition system for bangla online newspapers | |
CN111274829A (zh) | 一种利用跨语言信息的序列标注方法 | |
Zamora et al. | Tweets Language Identification using Feature Weighting. | |
Sharma et al. | BioAMA: towards an end to end biomedical question answering system | |
Korpusik et al. | Data collection and language understanding of food descriptions | |
Das et al. | Deep learning based Bengali question answering system using semantic textual similarity | |
Angeli et al. | Stanford’s distantly supervised slot filling systems for KBP 2014 | |
Hussain et al. | A technique for perceiving abusive bangla comments | |
US20210117448A1 (en) | Iterative sampling based dataset clustering | |
JP5342574B2 (ja) | トピックモデリング装置、トピックモデリング方法、及びプログラム | |
Garrido et al. | Improving the generation of infoboxes from data silos through machine learning and the use of semantic repositories | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
JP5542732B2 (ja) | データ抽出装置、データ抽出方法、及びそのプログラム | |
Deschacht et al. | Efficient hierarchical entity classifier using conditional random fields | |
Neto et al. | Deep active-self learning applied to named entity recognition | |
Silva et al. | On learning word embeddings from linguistically augmented text corpora | |
Zaikis et al. | DACL: A Domain-Adapted Contrastive Learning Approach to Low Resource Language Representations for Document Clustering Tasks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120611 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130621 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130730 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130809 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5342574 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |