JP6062816B2 - 形態素解析器生成装置、形態素解析器生成方法、及び、プログラム - Google Patents

形態素解析器生成装置、形態素解析器生成方法、及び、プログラム Download PDF

Info

Publication number
JP6062816B2
JP6062816B2 JP2013148399A JP2013148399A JP6062816B2 JP 6062816 B2 JP6062816 B2 JP 6062816B2 JP 2013148399 A JP2013148399 A JP 2013148399A JP 2013148399 A JP2013148399 A JP 2013148399A JP 6062816 B2 JP6062816 B2 JP 6062816B2
Authority
JP
Japan
Prior art keywords
character string
sentence
partial character
npylm
crf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013148399A
Other languages
English (en)
Other versions
JP2015022398A (ja
Inventor
慶 内海
慶 内海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso IT Laboratory Inc
Original Assignee
Denso IT Laboratory Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso IT Laboratory Inc filed Critical Denso IT Laboratory Inc
Priority to JP2013148399A priority Critical patent/JP6062816B2/ja
Publication of JP2015022398A publication Critical patent/JP2015022398A/ja
Application granted granted Critical
Publication of JP6062816B2 publication Critical patent/JP6062816B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、自然言語処理において用いられる形態素解析器を生成する技術に関し、特に教師なしで形態素解析器を生成する手法に関する。
形態素解析は、計算機を用いた自然言語処理の基礎技術であり、自然言語処理技術を用いた様々な応用タスクの前処理として利用される。形態素解析手法には規則によるものと確率モデルとに基づくものがある。確率モデルに基づく手法はさらに、パラメータの学習にアノテーション済みのコーパスを用いる教師あり学習手法と、テキストのみから分かち書きを行う教師なし学習に基づくものとに分けられる。
規則に基づく手法の代表には、京都大学黒橋研究室が公開するJumanがある。教師あり学習に基づく手法では、HMM(Hidden Markov Model)を用いた形態素解析を行うChaSenや、CRF(Conditional Random Fields)を用いた形態素解析を行うMeCabがある。教師なし学習に基づく手法には、最小記述原理に基づいた日本語話し言葉の単語分割手法(松原ら)や、ノンパラメトリックベイズモデルに基づく手法(特許文献1)が提案されている。また、ノンパラメトリックベイズモデルとCRFによる学習とを組み合わせた半教師あり学習手法も提案されている(特許文献2)。
特開2010−170252 特開2012−146263
近年増加し続けているウェブテキストでは、これまで自然言語処理が対象としてきた書き言葉以外にも、話し言葉等の表現が頻繁に出現する。教師あり学習の手法では、分かち書きの学習に教師データとしてアノテーション済みのコーパスが必要となる。しかし、人手でのアノテーションはコストが大きく、急速に増加し変化し続ける話し言葉の表現には対応が難しい。一方、教師なし学習ではある評価尺度が最良となるようにパラメータを更新することで教師データなしで分かち書きが行える。しかし、これまでの教師なし学習に基づく形態素解析手法では分かち書きのみに注力しており、品詞推定まで含めて行える手法は提案されていない。
また、これまで提案されてきた手法では、教師なし学習は計算機が決めた分かち書きが人間の直観から外れたとしても修正が効かず、半教師あり学習は最初の学習を全くの教師データなしで行うことはできなかった。そのため、教師データを効率的に作成するためには、教師なし学習により形態素解析器を実装した上で、その処理結果を修正して半教師あり学習手法を行うという作業をすることになり、実装コストが大きくなる。
上記背景に鑑み、本発明は、教師なし学習によって品詞推定まで行うことが可能な形態素解析器生成方法を提供することを目的とする。本発明は、言語モデル(NPYLM)のみを生成するものではなく、CRFのパラメータも同時に学習を行うことで、未知の文に対しても適切な形態素解析を行えるようにする形態素解析器を生成するものである。
本発明の形態素解析器生成方法は、学習用のデータとして複数の文の入力を受け付けて、前記複数の文を学習データ記憶部に記憶するステップと、前記学習データ記憶部に記憶された複数の文を用いて、ある部分文字列を条件として後続の部分文字列が出現する確率を示すNPYLM(Nested Pitman-Yor Language Model)を生成し、NPYLM記憶部に記憶するステップと、前記学習データ記憶部から文を読み出し、各部分文字列の品詞を表す潜在変数と前記NPYLMで計算した部分文字列の出現確率を引数とする素性関数を導入したCRFを用いて、前記文が与えられた時に最も確率の高い分かち書きを推定し、当該文の文末から文頭に向かって単語列をサンプリングするBlocked Gibbsサンプリングを行って当該文の分かち書きを求め、求めた分かち書きを教師データとして前記CRFのパラメータを更新し、前記更新された分かち書きに基づいて前記NPYLMを更新する処理を、所定の収束条件を満たすまで繰り返し行うステップとを備え、CRFの分かち書きとパラメータの更新が行われた文を再び読み出したときには、前回求めた分かち書きを構成する部分文字列とその連接情報を、前記NPYLMから削除した後に、再度の学習を行う。
このように文が与えられたときにある分かち書きが得られる確率を表すCRFに対して、各部分文字列の品詞を表す潜在変数を導入することにより、品詞の出現確率をも考慮してCRFの分かち書き及びパラメータを更新することができる。本発明の方法によれば、Blocked Gibbsサンプリングで求めた分かち書きを教師データとしてCRFの分かち書き及びパラメータを更新し、更新された分かち書き及びパラメータによってNPYLMを更新する。すなわち、NPYLMとCRFとが互いに学習結果を教え合うことにより、分かち書き及び品詞特定の精度を高めることができる。従来の方法では、CRFの学習には教師データを用いることが前提であり、教師データがない場合には十分な精度が得られなかったが、品詞を表す潜在変数を導入した本発明の方法によると、教師データがない場合であっても分かち書き及び品詞の特定に関して、十分な精度が得られた。これは、品詞を潜在変数として用いて分かち書きと品詞の推定を同時に行うことにより、品詞の推定が分かち書きに好ましい影響を与えるためではないかと考えられる。なお、1文ずつ分かち書きを行いパラメータを更新するCRFの学習は、「オンライン学習」という手法であり、これにより、NPYLMの協調学習を行いやすくしている。
また、本発明では、前回求めた分かち書きを構成する部分文字列とその連接情報とをNPYLMから削除することにより、学習対象の文自体の分かち書きがNPYLMに与えた影響を除くことができる。学習対象の文自体の分かち書きの影響がNPYLMに残っているといつも同じ分かち書きが得られるという結果になるおそれがあるが、本発明の構成により、適切な分かち書きを求めることができる。
本発明の形態素解析器生成方法において、前記CRFは、Xを入力文字列、Sを分かち書きを構成する部分文字列、Hを潜在変数の系列として、
Figure 0006062816
で表されてもよい。
本発明の形態素解析器生成方法において、前記CRFは、さらに、素性関数の引数として、部分文字列または部分文字列の外に含まれる文字情報を用いてもよい。これにより、潜在クラスをうまく分類することが可能となる。
なお、特許請求の範囲に記載したとおり、上述した形態素解析器生成方法を実現する装置及びプログラムも本発明の範囲に含まれる。
本発明によれば、教師データを用いることなく、分かち書き及び品詞の特定を精度よく行うことができる。
実施の形態の形態素解析器生成装置の構成を示す図である。 実施の形態の形態素解析器生成装置の動作を示す図である。 学習データの例を示す図である。 NPYLMの例を示す図である。 品詞を表す潜在変数を引数とする素性関数を概念的に示す図である。
以下、本発明の実施の形態に係る形態素解析器生成装置について、図面を参照しながら説明する。
図1は、実施の形態の形態素解析器生成装置1の構成を示す図である。形態素解析器生成装置1は、入力部10と、演算処理部11と、出力部15と、記憶部16とを有する。入力部10は、学習データである複数の文の入力を受け付ける機能を有している。演算処理部11は、学習データに基づいてNPYLMおよびCRFを生成する機能を有している。演算処理部11は、NPYLM生成部12と、CRF生成部13と、学習部14とを有している。これらの各機能の詳細は、形態素解析器生成装置1の動作説明において詳しく述べる。出力部15は、生成したNPYLMおよびCRFを外部に出力する機能を有している。記憶部16は、学習データを記憶する学習データ記憶部17と、生成されたNPYLMを記憶するNPYLM記憶部18と、生成されたCRFを記憶するCRF記憶部19とを有している。これらのNPYLMおよびCRFを用いることにより、未知の文の形態素解析を行うことができる。
図1に示す形態素解析器生成装置1は、CPU、RAM、ROM、HDD等を備えたコンピュータにより実現される。CPUがROMに記憶されたプログラムを読み出して実行することにより、演算処理部11の機能が実現される。このような形態素解析器生成装置1を実現するためのプログラムも本発明の範囲に含まれる。
図2は、形態素解析器生成装置1の動作を示すフローチャートである。形態素解析器生成装置1は、まず、言語モデルの生成に用いられる学習データの入力を受け付け、入力された学習データを学習データ記憶部17に記憶する(S10)。ここで入力されるデータは、例えば、新聞記事でもよいし、ウェブ上の個人のブログなどでもよい。
図3は、学習データの例を示す図である。図3では、わずかな例しか示していないが、実際には、何千〜何十万という文を学習データとして用いる。図3に示すとおり、学習データには、正解となる分かち書きや品詞などの情報は与えられていない。このように、本実施の形態では、教師データなしの文を学習データとして用いる。
形態素解析器生成装置1は、NPYLM生成部12にて、入力された学習データからNPYLMを生成し、NYPLM記憶部16に記憶する(S11)。NPYLMの生成方法については、例えば、特許文献1、特許文献2や、持橋ら「条件付確率場とベイズ階層言語モデルの統合による半教師あり形態素解析」等に詳しく説明されているので、本書では、概要を説明するにとどめる。
図4は、「今日は晴れ」という文のNPYLMを生成する例を示している。図4において「BOS」はBeginning Of Sentenceを表し、「EOS」はEnd Of Sentenceを表す。「今日は晴れ」という文は、図4に示すように、1〜4文字からなる部分文字列に分割することができ、部分文字列が分かち書きの候補となる。「今日は晴れ」という文だけからは、どこが部分文字列の切れ目になるかを求めることはできないが、他の多数の学習データについても同様の解析を行うことにより、例えば、「今」の後に「日」が出現する頻度が高いことや、「晴」の後に「れ」が出現する頻度が高いことが分かる。「今日は晴れ」という文を部分文字列に分割した図4のようなモデルにおいて、ある部分文字列を条件として後続の部分文字列が出現する確率を求めることができる。これがNPYLMである。
形態素解析器生成装置1は、NPYLMを生成すると、次に、学習データから1文を読み出し(S12)、読み出した1文についてCRFの学習を行う。形態素解析器生成装置1は、読み出した1文が初めて読み出されたものか、あるいは、過去に読み出されてすでにCRFの学習を行ったものかを判定する(S13)。読み出した1文が初めて読み出されたものである場合には、CRF生成部13は、読み出した文について、各部分文字列の品詞を表す潜在変数とNPYLMで計算した部分文字列の出現確率を引数とする素性関数を導入し、その文が与えられたときにある分かち書きが得られる確率を表すCRFを生成し、CRF記憶部19に記憶する(S15)。
図5は、品詞を表す潜在変数を引数とする素性関数を概念的に示す図である。品詞を表す潜在変数を導入しない場合には、ある部分文字列が出現したときの条件付き確率によってCRFが表されるが、品詞を表す潜在変数を導入することにより、ある品詞の部分文字列が出現したときの条件付き確率によってCRFが表される。つまり、名詞の「今」が出現したときに名詞の「日」が出現する確率、名詞の「今」が出現したときに動詞の「日」が出現する確率というように、品詞を表す潜在変数を導入することにより、品詞の違いを踏まえてきめ細かく学習を行うことができる。日本語では、同じ文字列でも品詞によって後に続く部分文字列が異なる場合があるが、本実施の形態の構成により、品詞の違いを考慮して精度の高い分かち書きを行えると同時に品詞の推定まで行える。
また、本実施の形態では、さらに、素性関数の引数として、部分文字列または部分文字列の外に含まれる文字情報も用いている。この文字情報としては、例えば、セグメントの1つ前がBOS(Beginning Of Sentence)か、セグメントの1つ後ろの文字が「は」であるか、セグメントに含まれる文字種はカタカナであるか等である。これにより、潜在クラスをうまく分類することが可能となる。
続いて、形態素解析器生成装置1は、生成されたCRFの分かち書き及びパラメータの更新を行う。まず、学習部14は、生成されたCRFを用いて、文末から文頭に向かってGibbsサンプリングを行って当該文の分かち書きを求める(S16)。この方法は、特許文献1において説明されている確率的Backwardパス実行ステップの手順と基本的に同じである。ただし、特許文献1では、NPYLMのみを用いているのに対し、本実施の形態では、潜在変数とNPYLMで計算した部分文字列の出現確率を引数とする素性関数を用いている点が異なる。
学習部14は、上記の方法によって求めた分かち書きを正解データであるとし、当該正解データを教師データとしてCRFの分かち書きとパラメータを更新する(S17)。つまり、Blocked Gibbsサンプリングで求めた分かち書きが最大確率となるようにCRFのパラメータを調整する。学習部14は、パラメータが調整されたCRFをCRF記憶部19に記憶する。続いて、学習部14は、分かち書きをNPYLMへ追加して、NPYLMの更新を行い、更新したNPYLMをNPYLM記憶部18に記憶する(S18)。
次に、学習データ記憶部17から読み出した文が過去にCRFの更新を行った文であった場合(S13でNO)の動作について説明する。この場合には、形態素解析器生成装置1は、その文の分かち書きにかかる部分文字列とその連接情報をNPYLMから減算する(S14)。これは自分自身の分かち書きの影響で、同じ分かち書きがされることを防止するためである。
例えば、「今日は晴れ」という文が、前回のCRFの分かち書きの更新により、「今日」「は」「晴れ」というように分かち書きされたとすると、このように分かち書きされたという情報に基づいてNPYLMが更新される。すなわち、NPYLMは、「今日」という部分文字列の後に「は」の部分文字列が出現した回数をカウントアップし、「は」という部分文字列の後に「晴れ」の部分文字列が出現した回数をカウントアップする。そして、部分文字列が連接して現れた回数に基づいて、部分文字列が連接する確率を求め、NPYLMを更新する。したがって、NPYLMには、「今日は晴れ」という文の分かち書きの情報が含まれている。
「今日は晴れ」という文を分かち書きするにあたって、「今日は晴れ」についての前回の分かち書きの影響があると、毎回同じ分かち書きがなされてしまう可能性があるので、これを防止するために、前回のCRFの分かち書きに係る部分文字列とその連接情報の頻度を減算する。
形態素解析器生成装置1は、以上のステップS12〜ステップS18までの処理を、収束条件を満たすまで繰り返し行う(S19)。収束条件としては、例えば、パラメータの更新幅が所定値を下回ったことや、所定値を下回ることが所定回数連続したことなどを条件とすることができる。
以上、本実施の形態の形態素解析器生成装置1によりNPYLM及びCRFの学習を行う動作の概要について説明した。
次に、品詞を表す潜在変数を導入したCRFのパラメータ推定について説明する。CRFでは、入力文字列Xが与えられたときに分かち書きSが得られる確率を、潜在変数の系列Hとして、以下の式で定義する。
Figure 0006062816
なお、Z1、Z2はそれぞれ、ΣSP(S|H)=1、ΣHP(H|X)=1を保証するための分配関数を表す。パラメータの推定は、以下の損失関数を最大化することで行う。
Figure 0006062816
H(S|H)は条件付きエントロピーを表す。上記損失関数を最大化することで、エントロピーの最小化が行われ、各セグメントとは特徴的な潜在クラスのみが共起するようにパラメータが学習される。パラメータの更新式を以下に示す。
Figure 0006062816
ここで、各符号の意味は以下のとおりである。
Figure 0006062816
各条件付き確率は、Forward-Backwardアルゴリズムで効率的に計算ができる。分かち書きのサンプリングは、条件付き確率に従って、後ろ向きに文の先頭まで、順番にセグメントをサンプリングすることで行う。
学習したモデルを用いた形態素解析を行うには、以下の条件付き確率が最大となるセグメンテーションを行えばよい。
Figure 0006062816
これは、Semi-Markovモデルのラティス上でのViterbiアルゴリズムを用いることで効率的に計算を行うことができる。
話し言葉の表現が頻出するウェブ上の個人のブログから1819487文字の文章を取得し、そのうちの1682468文字の文章を学習データとして用い、残りの文章を評価用データとして用いた。本発明の手法と従来手法(MeCab)のそれぞれの学習により単語を生成した。(正解した単語)/(生成した単語)によって、単語生成の精度を比較すると、従来手法が42%だったのに対し、本発明では53%となり、本発明の効果が確認された。
本発明は、教師データを用いることなく、分かち書き及び品詞の特定を精度よく行うことができ、形態素解析に用いる形態素解析器を生成するのに有用である。
1 形態素解析器生成装置
10 入力部
11 演算処理部
12 NPYLM生成部
13 CRF生成部
14 学習部
15 出力部
16 記憶部
17 学習データ記憶部
18 NPYLM記憶部
19 CRF記憶部

Claims (9)

  1. 学習用のデータとして複数の文の入力を受け付けて、前記複数の文を学習データ記憶部に記憶するステップと、
    前記学習データ記憶部に記憶された複数の文を用いて、ある部分文字列を条件として後続の部分文字列が出現する確率を示すNPYLM(Nested Pitman-Yor Language Model)を生成し、NPYLM記憶部に記憶するステップと、
    前記学習データ記憶部から文を読み出し、各部分文字列の品詞を表す潜在変数と前記NPYLMで計算した部分文字列の出現確率を引数とする素性関数を導入したCRFを用いて、前記文が与えられた時に最も確率の高い分かち書きを推定し、当該文の文末から文頭に向かって単語列をサンプリングするBlocked Gibbsサンプリングを行って当該文の分かち書きを求め、求めた分かち書きを教師データとして前記CRFのパラメータを更新し、前記更新された分かち書きに基づいて前記NPYLMを更新する処理を、所定の収束条件を満たすまで繰り返し行うステップと、
    を備え、
    前記CRFの分かち書きとパラメータの更新が行われた文を再び読み出したときには、前回求めた分かち書きを構成する部分文字列とその連接情報を、前記NPYLMから削除した後に、再度の学習を行う形態素解析器生成方法。
  2. 前記CRFは、Xを入力文字列、Sを分かち書きを構成する部分文字列、Hを潜在変数の系列として、
    Figure 0006062816
    で表される請求項1に記載の形態素解析器生成方法。
  3. 前記CRFは、さらに、素性関数の引数として、部分文字列または部分文字列の外に含まれる文字情報を用いる請求項1または2に記載の形態素解析器生成方法。
  4. 学習用のデータとして複数の文を記憶した学習データ記憶部と、
    前記学習データ記憶部に記憶された複数の文を用いて、ある部分文字列を条件として後続の部分文字列が出現する確率を示すNPYLM(Nested Pitman-Yor Language Model)を生成し、NPYLM記憶部に記憶するNPYLM生成部と、
    前記学習データ記憶部から文を読み出し、各部分文字列の品詞を表す潜在変数と前記NPYLMで計算した部分文字列の出現確率を引数とする素性関数を導入したCRFを用いて、前記文が与えられた時に最も確率の高い分かち書きを推定し、当該文の文末から文頭に向かって単語列をサンプリングするBlocked Gibbsサンプリングを行って当該文の分かち書きを求め、求めた分かち書きを教師データとして前記CRFのパラメータを更新し、前記更新された分かち書きに基づいて前記NPYLMを更新する処理を、所定の収束条件を満たすまで繰り返し行う学習部と、
    を備え、
    前記学習部は、前記CRFの分かち書きとパラメータの更新が行われた文を再び読み出したときには、前回求めた分かち書きを構成する部分文字列とその連接情報を、前記NPYLMから削除した後に、再度の学習を行う形態素解析器生成装置。
  5. 前記CRFは、Xを入力文字列、Sを分かち書きを構成する部分文字列、Hを潜在変数の系列として、
    Figure 0006062816
    で表される請求項4に記載の形態素解析器生成装置。
  6. 前記CRFは、さらに、素性関数の引数として、部分文字列または部分文字列の外に含まれる文字情報を用いる請求項4または5に記載の形態素解析器生成装置。
  7. 学習用のデータに基づいて形態素解析器を生成するためのプログラムであって、コンピュータに、
    学習用のデータとして複数の文の入力を受け付けて、前記複数の文を学習データ記憶部に記憶するステップと、
    前記学習データ記憶部に記憶された複数の文を用いて、ある部分文字列を条件として後続の部分文字列が出現する確率を示すNPYLM(Nested Pitman-Yor Language Model)を生成し、NPYLM記憶部に記憶するステップと、
    前記学習データ記憶部から文を読み出し、各部分文字列の品詞を表す潜在変数と前記NPYLMで計算した部分文字列の出現確率を引数とする素性関数を導入したCRFを用いて、前記文が与えられた時に最も確率の高い分かち書きを推定し、当該文の文末から文頭に向かって単語列をサンプリングするBlocked Gibbsサンプリングを行って当該文の分かち書きを求め、求めた分かち書きを教師データとして前記CRFのパラメータを更新し、前記更新された分かち書きに基づいて前記NPYLMを更新する処理を、所定の収束条件を満たすまで繰り返し行うステップと、
    を実行させ、
    前記CRFの分かち書きとパラメータの更新が行われた文を再び読み出したときには、前回求めた分かち書きを構成する部分文字列とその連接情報を、前記NPYLMから削除した後に、再度の学習を行うプログラム。
  8. 前記CRFは、Xを入力文字列、Sを分かち書きを構成する部分文字列、Hを潜在変数の系列として、
    Figure 0006062816
    で表される請求項7に記載のプログラム。
  9. 前記CRFは、さらに、素性関数の引数として、部分文字列または部分文字列の外に含まれる文字情報を用いる請求項7または8に記載のプログラム。
JP2013148399A 2013-07-17 2013-07-17 形態素解析器生成装置、形態素解析器生成方法、及び、プログラム Expired - Fee Related JP6062816B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013148399A JP6062816B2 (ja) 2013-07-17 2013-07-17 形態素解析器生成装置、形態素解析器生成方法、及び、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013148399A JP6062816B2 (ja) 2013-07-17 2013-07-17 形態素解析器生成装置、形態素解析器生成方法、及び、プログラム

Publications (2)

Publication Number Publication Date
JP2015022398A JP2015022398A (ja) 2015-02-02
JP6062816B2 true JP6062816B2 (ja) 2017-01-18

Family

ID=52486820

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013148399A Expired - Fee Related JP6062816B2 (ja) 2013-07-17 2013-07-17 形態素解析器生成装置、形態素解析器生成方法、及び、プログラム

Country Status (1)

Country Link
JP (1) JP6062816B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116324791A (zh) 2020-10-30 2023-06-23 富士通株式会社 信息处理程序、信息处理方法以及信息处理装置

Also Published As

Publication number Publication date
JP2015022398A (ja) 2015-02-02

Similar Documents

Publication Publication Date Title
Mani et al. Deeptriage: Exploring the effectiveness of deep learning for bug triaging
CN108628823B (zh) 结合注意力机制和多任务协同训练的命名实体识别方法
Pagliardini et al. Unsupervised learning of sentence embeddings using compositional n-gram features
CN108628834B (zh) 一种基于句法依存关系的词语表示学习方法
CN111782807B (zh) 一种基于多方法集成学习的自承认技术债务检测分类方法
JP5809381B1 (ja) 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム
Nikhath et al. Building a k-nearest neighbor classifier for text categorization
Singh et al. A decision tree based word sense disambiguation system in Manipuri language
JP6312467B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN112765319B (zh) 一种文本的处理方法、装置、电子设备及存储介质
Elayidom et al. Text classification for authorship attribution analysis
Nguyen et al. Hierarchical character embeddings: Learning phonological and semantic representations in languages of logographic origin using recursive neural networks
JP7155625B2 (ja) 検査装置、検査方法、プログラム及び学習装置
Khasnabish et al. Detecting programming language from source code using bayesian learning techniques
JP5441937B2 (ja) 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム
JP2020106880A (ja) 情報処理装置、モデル作成方法及びプログラム
JP6770709B2 (ja) 機械学習用モデル生成装置及びプログラム。
JP6062816B2 (ja) 形態素解析器生成装置、形態素解析器生成方法、及び、プログラム
Mahmoodvand et al. Semi-supervised approach for Persian word sense disambiguation
Kumar et al. Detection of depression using machine learning algorithms
JP5462819B2 (ja) 基本木獲得装置、構文解析装置、方法、及びプログラム
JP5990124B2 (ja) 略語生成装置、略語生成方法、及びプログラム
JP2016133956A (ja) 形態素解析モデル生成装置、形態素解析モデル生成方法、及び、プログラム
CN113158678A (zh) 一种应用于电力文本命名实体的识别方法及装置
Espinal et al. A Format-sensitive BERT-based Approach to Resume Segmentation

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20151113

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161215

R150 Certificate of patent or registration of utility model

Ref document number: 6062816

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees