JP2002351870A - 形態素の解析方法 - Google Patents

形態素の解析方法

Info

Publication number
JP2002351870A
JP2002351870A JP2001160250A JP2001160250A JP2002351870A JP 2002351870 A JP2002351870 A JP 2002351870A JP 2001160250 A JP2001160250 A JP 2001160250A JP 2001160250 A JP2001160250 A JP 2001160250A JP 2002351870 A JP2002351870 A JP 2002351870A
Authority
JP
Japan
Prior art keywords
character string
information
morphological analysis
character
morpheme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001160250A
Other languages
English (en)
Inventor
Seiki Uchimoto
清貴 内元
Hitoshi Isahara
均 井佐原
Satoshi Sekine
聡 関根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communications Research Laboratory
Original Assignee
Communications Research Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communications Research Laboratory filed Critical Communications Research Laboratory
Priority to JP2001160250A priority Critical patent/JP2002351870A/ja
Publication of JP2002351870A publication Critical patent/JP2002351870A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 未知語についても効果的に解析しうる形態素
の解析方法及びシステム並びに形態素解析プログラムを
記録した記録媒体を提供すること。 【解決手段】 最大エントロピーモデルに基づく形態素
解析技術を開発し、その素性に頻度情報、長さ情報、文
字種情報、辞書情報を用いる。また、連接した文字列に
係る素性を加えてもよいし、さらに固有表現情報を素性
に加えてもよい。そして該技術による形態素の解析方法
及びシステム、形態素解析プログラムを記録した記録媒
体を提供する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は日本語等の言語テキ
ストにおける形態素の解析方法及びシステム並びに形態
素解析プログラムを記録した記録媒体に関するものであ
り、より詳しくは、形態素の解析過程に特徴を有する形
態素解析技術に関わる。
【0002】
【従来の技術】コンピュータによって言語のテキストを
解析する技術、或いは生成する技術は、言語処理を行う
上で必須の技術であり、機械翻訳や、要約システムを実
現する上で欠かせない。その中でも、言語を最小の単位
である形態素に分割し、解析する技術は、これらテキス
ト解析・生成技術にとって重要な基本技術であり、その
解析精度の向上が図られてきた。
【0003】形態素解析の中でも、特に問題となってい
るものに、解析又は学習過程で用いる辞書に登録されて
いない、或いは学習対象となるテキストに現れないが、
形態素となりうる単語、いわゆる未知語をどのように処
理するか、という問題がある。この問題に対処するため
従来、大きく2つの方法がとられている。その1つは未
知語を自動獲得し辞書に登録する方法であり、もう1つ
は未知語でも解析できるようなモデルを作成する方法で
ある。ここで、前者の方法で獲得した単語を辞書に登録
し、後者のモデルにその辞書を利用できるような仕組み
を取り入れることができれば、両者の利点を生かすこと
ができると考えられ、その技術についていくつかの手法
が提案されている。
【0004】例えば、ある文字列が辞書に登録されてい
る場合にその文字列が形態素となる確率を割り増しする
方法、すなわちn−gramモデルに外部辞書を追加す
る方法等があるが、精度の向上がわずかであり、この問
題についての有効な対処方法とはなっておらず、そもそ
もn−gramモデルに辞書の情報を利用する仕組みを
組み込むことが容易ではないと考えられる。すなわち、
上記の両者の利点を生かすことのできる技術が開発され
ていなかった。
【0005】
【発明が解決しようとする課題】本発明は、上記従来技
術の有する問題点に鑑みて創出されたものであり、その
目的は、従来と異なる仕組みによって形態素解析の技術
を開発し、未知語についても効果的に解析しうる形態素
の解析方法及びシステム並びに形態素解析プログラムを
記録した記録媒体を提供することである。
【0006】
【課題を解決するための手段】本発明は、上記の課題を
解決するために、次のような情報埋込方法を創出する。
すなわち、本発明による形態素の解析方法は、言語テキ
ストから抽出した着目文字列が形態素であるか否か、及
び形態素である場合にその文法的属性が、予め定めた文
法的属性群のいずれに該当するか、の情報を該着目文字
列に識別子を付与して解析を行う。そして、予め用意さ
れた学習対象テキストを用いて抽出され、いずれの識別
子を付与するかを判断する根拠となる情報の集合を含ん
で形成される履歴空間集合と、該着目文字列に付与され
る可能性を有する識別子の集合で形成される未来空間集
合との対応関係を、該各集合間の確率分布で決定する構
成とする。ここで、確率分布を、文字列の要素である素
性に関してそれぞれ算出し、該確率分布に基づき、言語
テキスト中の着目文が含む形態素となりうる文字列に係
る確率を互いに積算した結果が最大となるように識別子
を決定して形態素解析を行う。このような構成におい
て、素性として、文字列が観測される頻度情報、文字列
を構成する文字の数を示す長さ情報、文字の形状、種別
の少なくともいずれかを分類する文字種情報、所定の辞
書における少なくとも収録の有無及び品詞の分類を含む
辞書情報を用いる。
【0007】前記素性に、着目文字列と連接する連接文
字列について、次の各情報をもちいてもよい。すなわ
ち、文字列が観測される頻度情報、文字列を構成する文
字の数を示す長さ情報、所定の辞書における品詞の分類
を示す品詞情報、所定の辞書における活用型及び活用形
を示す活用情報、該連接文字列の前形態素との境界位置
に文節の区切りが存在するか否かに関する文節区切り情
報である。
【0008】さらに、前記素性に、着目文字列、又は着
目文字列と連接する連接文字列の少なくともいずれかに
係る特定の事物を示す表現である固有表現であるか否か
に関する固有表現情報を用いてもよい。
【0009】前記言語テキストが、日本語によるテキス
トであってもよく、その場合、前記着目文における確率
が、5文字以下の全ての文字列及び、5文字を超える所
定の辞書に登録されている文字列に関して算出してもよ
い。
【0010】上記に示した解析方法を用いた形態素の解
析システムを提供してもよい。
【0011】上記に示した解析方法を用いた形態素解析
プログラムを記録した記録媒体を提供することもでき
る。
【0012】
【発明の実施の形態】以下、本発明の実施方法を図面に
示した実施例に基づいて説明する。なお、本発明の実施
形態は以下に限定されず、適宜変更可能である。以下に
おいては、テキストの1例として、日本語によるテキス
トを挙げて説述するが、本発明の実施においては、性質
上実現出来ない場合を除き、いかなる言語に対しても適
用可能である。
【0013】本発明においては、形態素解析において、
形態素としての尤もらしさを計算を計算するモデルとし
て、最大エントロピーモデル(以下、MEモデルと呼
ぶ。)を実装した。以下に、MEモデルについてその概
要を説述する。テストコーパスが与えられたとき、その
コーパスの各文を形態素解析するという問題は、文を構
成する各文字列に、2つのタグのうち1つ、すなわち形
態素であるかないかを示す「1」か「0」を割り当てる
問題に置き換えることができる。タグとは、該文字列の
形態素か否かの情報及びその文法的属性を表す識別子で
ある。
【0014】そして、該文字列が形態素である場合に
は、文法的属性を付与するために上記「1」を文法的属
性の数だけ分割する。すると、文法的属性の数がn個の
とき、各文字列に「0」から「n」までのうちいずれか
のタグを割り当てる問題となる。形態素解析の問題にお
いて,このn+1個のタグはMEモデルを定式化すると
きに未来空間を形成する.ここで未来空間とは学習モデ
ルにおける分類先に対応する。
【0015】MEモデルでは、可能性のある未来空間F
における任意のfと、可能性のある履歴空間Hにおける
すべてのhに対して確率分布P(f|h)を計算するこ
とができる。ここで、MEモデルにおける「履歴」とは
未来空間においてどこに分類するかという判断を下す根
拠となるデータのことである。形態素解析の問題におけ
る確率分布は次の式で表すことができる。 P(f|ht)=P(f|テストコーパスから関係tに
関して導出可能な情報) これは,テストコーパスからある関係fに関して導出可
能な情報が得られたときにfの確率が求まることを示し
ている。MEモデルにおける確率分布P(f|h)の計
算は素性の集合、つまり、未来を予測する助けとなる情
報に依存する。
【0016】この情報は素性関数として定義され、履歴
と未来を引き数とし、0か1を返す2値関数として以下
の式(1)のように定義する。
【式1】 ここで、has(h,x)は履歴hに素性xが観測されるときに
真を返す2値関数である。本発明に置いては、素性とし
ては辞書の情報とともに、未知語の性質を学習できるよ
うに、着目している文字列の長さや文字種、その文字列
が辞書にあるか否か、連接する形態素の文法的属性、文
字種の変化などを用いる。素性の選択については後述す
る。
【0017】素性集合と学習データが与えられたとき、
エントロピーを最大にするという操作によりモデルが生
成される。このモデルではすべての素性giに対しパラ
メータαiが関係付けられ、モデルは次のような条件付
き確率として表される。
【式2】
【式3】 パラメータを推定する際には、学習コーパスにおけるす
べての素性giに対し、MEモデルから計算されるgi
期待値がgiの経験的期待値と等しくなるようにする。
つまり、以下の式を成り立たせるようなパラメータを推
定する。
【式4】 ここで、Pは経験的確率分布であり,PMEはMEモデルと
して推定される確率分布である。
【0018】形態素に付与するべき文法的属性がn個あ
ると仮定する。文法的属性としては品詞と文節区切りを
考える。品詞がm個の場合、その各々についてその品詞
を付与した形態素の左側が文節区切りであるかないかを
考慮し、文法的属性の数はn=2×mとする。文字列が
与えられたとき、その文字列が形態素であり,かつi(1
≦i≦n)番目の文法的属性を持つとしたときの尤もら
しさを確率値として求めるモデルを形態素モデルと呼
ぶ。このモデルは式(2)を用いて表される。ここで、
fは0からnまでの値をとる。一文が与えられたとき、
一文全体で確率の積が最大になるよう形態素に分割し文
法的属性を付与する。
【0019】一般に確率モデルでは、観測される情報
と、そのときに得られる出力値との関係は既知のデータ
から推定される確率分布によって表される。いろいろな
状況に対してできるだけ正確に出力値を予測するために
は文脈を細かく定義する必要があるが、細かくしすぎる
と既知のデータにおいてそれぞれの文脈に対応する事例
の数が少なくなりデータが疎らになる問題、すなわちデ
ータスパースネスの問題が生じる。
【0020】しかし、MEモデルにおいては、未知のデ
ータに対して考慮したパラメータが決定されるため上記
データスパースネスの問題に効果的に対応することがで
きる。すなわち、MEモデルは例えば言語現象などのよ
うに既知データにすべての現象が現れ得ないような現象
を扱うのに適したモデルであり、本発明で形態素解析に
採用している。
【0021】ここで、形態素解析にあたって、5文字以
下のすべての文字列および5文字を超えるが辞書に登録
されている文字列に対し、その文字列が形態素であるか
否か、形態素である場合にはその文法的属性が何かを推
定する。5文字以下のすべての文字列としたのは、5文
字を超えるような形態素は大抵、複合語あるいはカタカ
ナ語であり、辞書に登録されていなければほとんどの場
合形態素ではないためである。複合語は辞書に登録され
ているもの以外は5文字以下の文字列に分割できると仮
定する。また、カタカナ連続は辞書に登録されていない
場合、ひとまとまりにして「未定義語(大分類),カタ
カナ(細分類)」という品詞を持つ、辞書に登録されて
いた文字列として扱う。
【0022】次に、上記で示した素性につき説述する。
図1に本発明における形態素解析で利用した素性を示
す。ここで素性とは、各素性名(11)に対し、素性値
(12)を展開したもののことである。各々の素性は、
上記式(2)の素性関数gi(h,f)のiに対応す
る。素性番号(10)は、便宜上設けたものであり、各
素性名に対応している。
【0023】例えば、式(1)は、素性番号(10)、
素性名(11)、素性値(12)がそれぞれ「13」、
「品詞(−1)(Major)」、「動詞」である素性に対応
する素性関数を表していることになる。なお、式(1)
および図1で素性名に使われている「(0)」「(−
1)」という表記はそれぞれ、着目している文字列、そ
の文字列の左に連接する一形態素を意味する。素性関数
としては、素性と分類先との組が学習コーパスで3回以
上観測されたもののみを用い、これにより処理の高速化
を図っている。
【0024】次に、各素性名(11)及び素性値(1
2)の内容について説述する。まず、文字列とは、学習
コーパスに形態素として現れた文字列のうち、その頻度
が5回以上のものを示す素性である。素性値に示す43
31個は、本実施例で用いた学習コーパスで上記条件に
従って用いた素性の数8525個の中で観測された該素
性の数である。
【0025】次に、辞書とは、本実施例で用いた、予め
用意された辞書における品詞の分類及び連語に係る素性
である。ここで用いた辞書に登録されている異なり形態
素数は約20万個である。そして、図におけるMajor、M
inorはそれぞれ品詞の大分類と細分類に対応している。
さらに、Major&Minorは、MajorとMinorの可能な組み合
わせである。着目している文字列が辞書に登録されてい
る場合、辞書に記述されている品詞の情報を素性として
利用する。複数の品詞を持つものとして登録されている
場合には、それぞれを素性として用いたときに形態素モ
デルから推定される確率が一文全体で最大となるものを
採用する。
【0026】その文字列が、連語辞書に登録されている
形態素列の一番左の形態素の文字列である場合には、そ
の文字列が連語の先頭の形態素であるという情報を付加
したものを素性として利用する。この場合、素性値(1
2)としては「連語」という表記が付加されているもの
を用い、例えばmajorについての素性値は28個となっ
ている。ここで、未知語の性質を学習するために、学習
コーパスにおいて各文字列に対し辞書引きをしたときに
1回しか引かれなかったものは辞書になかったものとし
て学習するようにしている。
【0027】素性名(11)のうち、長さは、着目する
文字列の長さであり、1ないし5までは文字数に応じた
素性値を取り、6文字以上は1つの素性値を取る。よっ
て素性値は6個である。また、文字種は、漢字、平仮
名、記号、数字、カタカナ、アルファベットの6個の素
性値を取る、文字の種類についての素性である。
「(頭)」「(末尾)」はそれぞれ文字列の先頭と末尾
の文字を表す。文字列ではなく、1文字の場合はともに
同じ文字を指すものとする。また、「文字種(0)(変
化)」は先頭と末尾の文字の変化を表す。「文字種(−
1)(変化)」は、左に連接する一形態素の末尾文字の
文字種から、着目している文字列の先頭文字の文字種へ
の変化を表す。例えば、左に連接する一形態素が「先
生」、着目している文字が「に」の場合、素性値は「漢
字→平仮名」と表す。
【0028】さらに、図1における素性名(11)の品
詞は、例えば「品詞(−1)(Major)」は着目している
文字列の左に連接する一形態素の大分類についての素性
である。Major、Minorといった分類については、上記辞
書の素性名と同様であるが連語についての情報は含まな
い。その他、活用は着目文字列の左に連接する一形態素
に係り、Majorは活用型を、Minorは活用形に対応し、そ
れぞれ図1に示すような33個、60個の素性値を取
る。文節区切りは着目文字列の左側に文節区切りがある
か否かを示し、同時に連接する左側の一形態素の品詞に
ついての情報も含む。
【0029】このように、本発明においては、連接する
一形態素についても素性を導入して解析することによ
り、未知語に対して高精度な解析を行うことができるよ
うになった。すなわち、未知語に対しても前後の形態素
のつながりから形態素と認定でき、適切な品詞を付与す
ることができる。例えば、「漱石」や「露伴」は本実施
例で用いた辞書には登録されていないため、従来の形態
素解析システムでは「漱(名詞)石(名詞)」「露(副詞)伴
(名詞)」のように解析されるのに対し、本発明による形
態素解析システムを用いると、どちらも正しく名詞とし
て解析された。
【0030】さらに、品詞の細分類までも正しく人名と
して解析することに成功している。このような固有名詞
などは未知語になることが多い。そこで、未知語(辞書
にも素性にもなかった語)に関して、形態素の抽出と品
詞の細分類についての解析精度を調べたところ、従来の
手法が約30%の精度であったのに対し、本発明による
システムでは約40%であり、大幅な解析精度の向上が
図られ、本発明による形態素解析技術の優位性が示され
た。
【0031】ただし、上記従来例はあくまでもMEモデ
ルによる解析手法でなく、本発明の実施形態としては必
ずしも連接する文字列の素性を用いることは要しない。
すなわち、着目文字列の素性のみに関してMEモデルを
導入した形態素解析を行う構成でも構わないのであっ
て、本実施例は連接する文字列の素性を加えることで、
より高精度な未知語の解析が行える改良した実施形態で
ある。
【0032】ここで、上記実施例における素性の構成に
加え、固有表現に関する情報を素性として利用すること
もできる。固有表現とは、人名、組織名、地名など特定
の事物を示す表現のことである。これらの表現は特に未
知語になりやすい。固有表現に関する情報は、固有表現
にタグを付与したコーパスから抽出した。すなわち、固
有表現を構成する形態素あるいは固有表現の前後の形態
素の文字列として5回以上出現したものを抽出し、素性
として追加した。
【0033】固有表現に関する情報を素性として追加し
た結果、未知語に対する形態素の抽出と品詞の細分類に
ついての解析精度が約42%となり、上記実施例に比し
てさらに2%の解析精度の向上を図ることができた。ま
た、未知語になりやすい文字列を選択して素性として利
用することにより、全体の解析精度の向上にも寄与する
ことができた。
【0034】本発明による形態素解析技術は以上の構成
を備える。そして、本発明では上記の方法の他、本形態
素解析技術を用い、形態素解析を行うシステムを構築す
ることもできる。すなわち、該システムは、例えば言語
処理システムの一部として組み込むこともできるし、別
個独立した形態素解析システムとして提供してもよく、
例えば上記形態素の解析方法をプログラムとしてパソコ
ン等に導入して、個人向けの機械翻訳システムの一部と
して活用することもできる。このようなシステムは、前
述した通り、コンピュータによる言語処理過程において
欠かせない役割を有し、その有用性は極めて高い。
【0035】さらに、上記形態素の解析方法を用いた形
態素解析プログラムを記憶した記録媒体を提供すること
もできる。これにより、本発明による優れた形態素解析
技術が頒布可能であり、また、ネットワーク等での流通
も容易になる。
【0036】本実施例における素性については、素性名
に対応する素性値等は任意に変更することができ、特に
日本語以外の言語に用いる場合に、その言語に対応する
適切な素性値を設定することで、本発明の形態素解析技
術は多くの言語においても同様に用いることができる。
【0037】
【発明の効果】本発明は、以上の構成を備えるので、次
の効果を奏する。請求項1に記載の形態素の解析方法に
よると、素性に頻度情報、長さ情報、文字種情報、辞書
情報を用い、最大エントロピーモデルを形態素解析に適
用することができるので、高精度な形態素の解析が可能
となる形態素解析方法を提供できる。
【0038】請求項2に記載の形態素の解析方法による
と、連接する連接文字列に係る素性も用いることができ
るので、特に未知語を効果的に解析することのできる形
態素の解析方法が実現でき、高精度な形態素の解析方法
に寄与する。
【0039】請求項3に記載の形態素の解析方法による
と、素性に固有表現情報を用いるので、より未知語に対
して高精度な解析が可能であって、優れた形態素の解析
方法に寄与する。
【0040】請求項4に記載の形態素の解析方法による
と、日本語のテキストを対象とした形態素の解析方法を
提供することができる。
【0041】請求項5に記載の形態素の解析方法による
と、実用上十分な文字数の制限を導入することで高速な
処理が可能となり、コストパフォーマンスの向上にも寄
与した形態素の解析方法を提供できる。
【0042】請求項6に記載の形態素の解析システムに
よると、素性に頻度情報、長さ情報、文字種情報、辞書
情報を用い、最大エントロピーモデルを形態素解析に適
用することができるので、高精度な形態素の解析が可能
となる形態素解析システムを提供できる。
【0043】請求項7に記載の形態素の解析システムに
よると、連接する連接文字列に係る素性も用いることが
できるので、特に未知語を効果的に解析することのでき
る形態素の解析システムが実現でき、高精度な形態素の
解析システムに寄与する。
【0044】請求項8に記載の形態素の解析システムに
よると、素性に固有表現情報を用いるので、より未知語
に対して高精度な解析が可能であって、優れた形態素の
解析システムに寄与する。
【0045】請求項9に記載の形態素の解析システムに
よると、日本語のテキストを対象とした形態素の解析シ
ステムを提供することができる。
【0046】請求項10に記載の形態素の解析システム
によると、実用上十分な文字数の制限を導入することで
高速な処理が可能となり、コストパフォーマンスの向上
にも寄与した形態素の解析システムを提供できる。
【0047】請求項11に記載の記録媒体によると、素
性に頻度情報、長さ情報、文字種情報、辞書情報を用
い、最大エントロピーモデルを形態素解析に適用するこ
とができるので、高精度な形態素の解析が可能となる形
態素解析プログラムを記録した記録媒体を提供できる。
【0048】請求項12に記載の記録媒体によると、連
接する連接文字列に係る素性も用いることができるの
で、特に未知語を効果的に解析することのできる、高精
度な形態素の解析に寄与した形態素解析プログラムを記
録した記録媒体が実現できる。
【0049】請求項13に記載の記録媒体によると、素
性に固有表現情報を用いるので、より未知語に対して高
精度な解析が可能であって、優れた形態素解析プログラ
ムを記録した記録媒体に寄与する。
【0050】請求項14に記載の記録媒体によると、日
本語のテキストを対象とした形態素解析プログラムを記
録した記録媒体を提供することができる。
【0051】請求項15に記載の記録媒体によると、実
用上十分な文字数の制限を導入することで高速な処理が
可能となり、コストパフォーマンスの向上にも寄与した
形態素解析プログラムを記録した記録媒体を提供でき
る。
【図面の簡単な説明】
【図1】形態素解析で利用した素性
【符号の説明】
10 素性番号 11 素性名 12 素性値
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成14年7月19日(2002.7.1
9)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】全文
【補正方法】変更
【補正内容】
【書類名】 明細書
【発明の名称】 形態素の解析方法
【特許請求の範囲】
【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は日本語等の言語テキ
ストにおける形態素の解析方法に関するものであり、よ
り詳しくは、コンピュータを用いて形態素の解析を行う
コンピュータアルゴリズムに関わる。
【0002】
【従来の技術】コンピュータによって言語のテキストを
解析する技術、或いは生成する技術は、言語処理を行う
上で必須の技術であり、機械翻訳や、要約システムを実
現する上で欠かせない。その中でも、言語を最小の単位
である形態素に分割し、解析する技術は、これらテキス
ト解析・生成技術にとって重要な基本技術であり、その
解析精度の向上が図られてきた。
【0003】形態素解析の中でも、特に問題となってい
るものに、解析又は学習過程で用いる辞書に登録されて
いない、或いは学習対象となるテキストに現れないが、
形態素となりうる単語、いわゆる未知語をどのように処
理するか、という問題がある。この問題に対処するため
従来、大きく2つの方法がとられている。その1つは未
知語を自動獲得し辞書に登録する方法であり、もう1つ
は未知語でも解析できるようなモデルを作成する方法で
ある。ここで、前者の方法で獲得した単語を辞書に登録
し、後者のモデルにその辞書を利用できるような仕組み
を取り入れることができれば、両者の利点を生かすこと
ができると考えられ、その技術についていくつかの手法
が提案されている。
【0004】例えば、ある文字列が辞書に登録されてい
る場合にその文字列が形態素となる確率を割り増しする
方法、すなわちn−gramモデルに外部辞書を追加す
る方法等があるが、精度の向上がわずかであり、この問
題についての有効な対処方法とはなっておらず、そもそ
もn−gramモデルに辞書の情報を利用する仕組みを
組み込むことが容易ではないと考えられる。すなわち、
上記の両者の利点を生かすことのできる技術が開発され
ていなかった。
【0005】
【発明が解決しようとする課題】本発明は、上記従来技
術の有する問題点に鑑みて創出されたものであり、その
目的は、従来と異なる仕組みによって形態素解析の技術
を開発し、未知語についても効果的に解析しうる形態素
の解析方法を提供することである。
【0006】
【課題を解決するための手段】本発明は、上記の課題を
解決するために、次のような形態素の解析方法を創出す
る。すなわち、本発明による形態素の解析方法は、言語
テキストから抽出した着目文字列が形態素であるか否
か、及び形態素である場合にその文法的属性が、予め定
めた文法的属性群のいずれに該当するか、の情報を該着
目文字列に識別子を付与して解析を行う。そして、予め
用意された学習対象テキストを用いて抽出され、いずれ
の識別子を付与するかを判断する根拠となる情報の集合
を含んで形成される履歴空間集合と、該着目文字列に付
与される可能性を有する識別子の集合で形成される未来
空間集合との対応関係を、該各集合間の確率分布で決定
する構成とする。このとき、着目文字列には、形態素で
あるかないかを示す「1」か「0」を割り当てると共
に、該文字列が形態素である場合には、文法的属性を付
与するために上記「1」を文法的属性の数だけ分割す
る。すると、文法的属性の数がn個のとき、各文字列に
「0」から「n」までのうちいずれかの識別子を与える
ことができる。本構成について、まず言語テキストから
着目文字列を抽出するステップ、次いで、確率分布を、
文字列の要素である素性に関してそれぞれ算出するステ
ップ、さらに、 該確率分布に基づき、言語テキスト中
の着目文が含む形態素となりうる文字列に係る確率を互
いに積算した結果が一文全体で最大となる各着目文字列
毎の識別子を算出して形態素解析を行うステップを有す
る。このような構成において、素性として、文字列が観
測される頻度情報、文字列を構成する文字の数を示す長
さ情報、文字の形状、種別の少なくともいずれかを分類
する文字種情報、所定の辞書における少なくとも収録の
有無及び品詞の分類を含む辞書情報を用いる。
【0007】前記素性に、着目文字列と連接する連接文
字列について、次の各情報をもちいてもよい。すなわ
ち、文字列が観測される頻度情報、文字列を構成する文
字の数を示す長さ情報、所定の辞書における品詞の分類
を示す品詞情報、所定の辞書における活用型及び活用形
を示す活用情報、該連接文字列の前形態素との境界位置
に文節の区切りが存在するか否かに関する文節区切り情
報である。
【0008】さらに、前記素性に、着目文字列、又は着
目文字列と連接する連接文字列の少なくともいずれかに
係る特定の事物を示す表現である固有表現であるか否か
に関する固有表現情報を用いてもよい。
【0009】前記言語テキストが、日本語によるテキス
トであってもよく、その場合、前記着目文における確率
が、5文字以下の全ての文字列及び、5文字を超える所
定の辞書に登録されている文字列に関して算出してもよ
い。
【0010】
【発明の実施の形態】以下、本発明の実施方法を図面に
示した実施例に基づいて説明する。なお、本発明の実施
形態は以下に限定されず、適宜変更可能である。以下に
おいては、テキストの1例として、日本語によるテキス
トを挙げて説述するが、本発明の実施においては、性質
上実現出来ない場合を除き、いかなる言語に対しても適
用可能である。
【0011】本発明においては、形態素解析において、
形態素としての尤もらしさを計算を計算するモデルとし
て、最大エントロピーモデル(以下、MEモデルと呼
ぶ。)を実装した。以下に、MEモデルについてその概
要を説述する。テストコーパスが与えられたとき、その
コーパスの各文を形態素解析するという問題は、文を構
成する各文字列に、2つのタグのうち1つ、すなわち形
態素であるかないかを示す「1」か「0」を割り当てる
問題に置き換えることができる。タグとは、該文字列の
形態素か否かの情報及びその文法的属性を表す識別子で
ある。
【0012】そして、該文字列が形態素である場合に
は、文法的属性を付与するために上記「1」を文法的属
性の数だけ分割する。すると、文法的属性の数がn個の
とき、各文字列に「0」から「n」までのうちいずれか
のタグを割り当てる問題となる。形態素解析の問題にお
いて、このn+1個のタグはMEモデルを定式化すると
きに未来空間を形成する。ここで未来空間とは学習モデ
ルにおける分類先に対応する。
【0013】MEモデルでは、可能性のある未来空間F
における任意のfと、可能性のある履歴空間Hにおける
すべてのhに対して確率分布P(f|h)を計算するこ
とができる。ここで、MEモデルにおける「履歴」とは
未来空間においてどこに分類するかという判断を下す根
拠となるデータのことである。形態素解析の問題におけ
る確率分布は次の式で表すことができる。 P(f|ht)=P(f|テストコーパスから関係tに
関して導出可能な情報) これは,テストコーパスからある関係fに関して導出可
能な情報が得られたときにfの確率が求まることを示し
ている。MEモデルにおける確率分布P(f|h)の計
算は素性の集合、つまり、未来を予測する助けとなる情
報に依存する。
【0014】この情報は素性関数として定義され、履歴
と未来を引き数とし、0か1を返す2値関数として以下
の式(1)のように定義する。
【式1】 ここで、has(h,x)は履歴hに素性xが観測されるときに
真を返す2値関数である。本発明に置いては、素性とし
ては辞書の情報とともに、未知語の性質を学習できるよ
うに、着目している文字列の長さや文字種、その文字列
が辞書にあるか否か、連接する形態素の文法的属性、文
字種の変化などを用いる。素性の選択については後述す
る。
【0015】素性集合と学習データが与えられたとき、
エントロピーを最大にするという操作によりモデルが生
成される。このモデルではすべての素性giに対しパラ
メータαiが関係付けられ、モデルは次のような条件付
き確率として表される。
【式2】
【式3】 パラメータを推定する際には、学習コーパスにおけるす
べての素性giに対し、MEモデルから計算されるgi
期待値がgiの経験的期待値と等しくなるようにする。
つまり、以下の式を成り立たせるようなパラメータを推
定する。
【式4】 ここで、Pは経験的確率分布であり,PMEはMEモデルと
して推定される確率分布である。
【0016】形態素に付与するべき文法的属性がn個あ
ると仮定する。文法的属性としては品詞と文節区切りを
考える。品詞がm個の場合、その各々についてその品詞
を付与した形態素の左側が文節区切りであるかないかを
考慮し、文法的属性の数はn=2×mとする。文字列が
与えられたとき、その文字列が形態素であり,かつi(1
≦i≦n)番目の文法的属性を持つとしたときの尤もら
しさを確率値として求めるモデルを形態素モデルと呼
ぶ。このモデルは式(2)を用いて表される。ここで、
fは0からnまでの値をとる。一文が与えられたとき、
一文全体で確率の積が最大になるよう形態素に分割し文
法的属性を付与する。
【0017】一般に確率モデルでは、観測される情報
と、そのときに得られる出力値との関係は既知のデータ
から推定される確率分布によって表される。いろいろな
状況に対してできるだけ正確に出力値を予測するために
は文脈を細かく定義する必要があるが、細かくしすぎる
と既知のデータにおいてそれぞれの文脈に対応する事例
の数が少なくなりデータが疎らになる問題、すなわちデ
ータスパースネスの問題が生じる。
【0018】しかし、MEモデルにおいては、未知のデ
ータに対して考慮したパラメータが決定されるため上記
データスパースネスの問題に効果的に対応することがで
きる。すなわち、MEモデルは例えば言語現象などのよ
うに既知データにすべての現象が現れ得ないような現象
を扱うのに適したモデルであり、本発明で形態素解析に
採用している。
【0019】ここで、形態素解析にあたって、5文字以
下のすべての文字列および5文字を超えるが辞書に登録
されている文字列に対し、その文字列が形態素であるか
否か、形態素である場合にはその文法的属性が何かを推
定する。5文字以下のすべての文字列としたのは、5文
字を超えるような形態素は大抵、複合語あるいはカタカ
ナ語であり、辞書に登録されていなければほとんどの場
合形態素ではないためである。複合語は辞書に登録され
ているもの以外は5文字以下の文字列に分割できると仮
定する。また、カタカナ連続は辞書に登録されていない
場合、ひとまとまりにして「未定義語(大分類),カタ
カナ(細分類)」という品詞を持つ、辞書に登録されて
いた文字列として扱う。
【0020】次に、上記で示した素性につき説述する。
図1に本発明における形態素解析で利用した素性を示
す。ここで素性とは、各素性名(11)に対し、素性値
(12)を展開したもののことである。各々の素性は、
上記式(2)の素性関数gi(h,f)のiに対応す
る。素性番号(10)は、便宜上設けたものであり、各
素性名に対応している。
【0021】例えば、式(1)は、素性番号(10)、
素性名(11)、素性値(12)がそれぞれ「13」、
「品詞(−1)(Major)」、「動詞」である素性に対応
する素性関数を表していることになる。なお、式(1)
および図1で素性名に使われている「(0)」「(−
1)」という表記はそれぞれ、着目している文字列、そ
の文字列の左に連接する一形態素を意味する。素性関数
としては、素性と分類先との組が学習コーパスで3回以
上観測されたもののみを用い、これにより処理の高速化
を図っている。
【0022】次に、各素性名(11)及び素性値(1
2)の内容について説述する。まず、文字列とは、学習
コーパスに形態素として現れた文字列のうち、その頻度
が5回以上のものを示す素性である。素性値に示す43
31個は、本実施例で用いた学習コーパスで上記条件に
従って用いた素性の数8525個の中で観測された該素
性の数である。
【0023】次に、辞書とは、本実施例で用いた、予め
用意された辞書における品詞の分類及び連語に係る素性
である。ここで用いた辞書に登録されている異なり形態
素数は約20万個である。そして、図におけるMajor、M
inorはそれぞれ品詞の大分類と細分類に対応している。
さらに、Major&Minorは、MajorとMinorの可能な組み合
わせである。着目している文字列が辞書に登録されてい
る場合、辞書に記述されている品詞の情報を素性として
利用する。複数の品詞を持つものとして登録されている
場合には、それぞれを素性として用いたときに形態素モ
デルから推定される確率が一文全体で最大となるものを
採用する。
【0024】その文字列が、連語辞書に登録されている
形態素列の一番左の形態素の文字列である場合には、そ
の文字列が連語の先頭の形態素であるという情報を付加
したものを素性として利用する。この場合、素性値(1
2)としては「連語」という表記が付加されているもの
を用い、例えばmajorについての素性値は28個となっ
ている。ここで、未知語の性質を学習するために、学習
コーパスにおいて各文字列に対し辞書引きをしたときに
1回しか引かれなかったものは辞書になかったものとし
て学習するようにしている。
【0025】素性名(11)のうち、長さは、着目する
文字列の長さであり、1ないし5までは文字数に応じた
素性値を取り、6文字以上は1つの素性値を取る。よっ
て素性値は6個である。また、文字種は、漢字、平仮
名、記号、数字、カタカナ、アルファベットの6個の素
性値を取る、文字の種類についての素性である。
「(頭)」「(末尾)」はそれぞれ文字列の先頭と末尾
の文字を表す。文字列ではなく、1文字の場合はともに
同じ文字を指すものとする。また、「文字種(0)(変
化)」は先頭と末尾の文字の変化を表す。「文字種(−
1)(変化)」は、左に連接する一形態素の末尾文字の
文字種から、着目している文字列の先頭文字の文字種へ
の変化を表す。例えば、左に連接する一形態素が「先
生」、着目している文字が「に」の場合、素性値は「漢
字→平仮名」と表す。
【0026】さらに、図1における素性名(11)の品
詞は、例えば「品詞(−1)(Major)」は着目している
文字列の左に連接する一形態素の大分類についての素性
である。Major、Minorといった分類については、上記辞
書の素性名と同様であるが連語についての情報は含まな
い。その他、活用は着目文字列の左に連接する一形態素
に係り、Majorは活用型を、Minorは活用形に対応し、そ
れぞれ図1に示すような33個、60個の素性値を取
る。文節区切りは着目文字列の左側に文節区切りがある
か否かを示し、同時に連接する左側の一形態素の品詞に
ついての情報も含む。
【0027】このように、本発明においては、連接する
一形態素についても素性を導入して解析することによ
り、未知語に対して高精度な解析を行うことができるよ
うになった。すなわち、未知語に対しても前後の形態素
のつながりから形態素と認定でき、適切な品詞を付与す
ることができる。例えば、「漱石」や「露伴」は本実施
例で用いた辞書には登録されていないため、従来の形態
素解析方法では「漱(名詞)石(名詞)」「露(副詞)伴(名
詞)」のように解析されるのに対し、本発明による形態
素解析方法を用いると、どちらも正しく名詞として解析
された。
【0028】さらに、品詞の細分類までも正しく人名と
して解析することに成功している。このような固有名詞
などは未知語になることが多い。そこで、未知語(辞書
にも素性にもなかった語)に関して、形態素の抽出と品
詞の細分類についての解析精度を調べたところ、従来の
手法が約30%の精度であったのに対し、本発明による
方法では約40%であり、大幅な解析精度の向上が図ら
れ、本発明による形態素解析技術の優位性が示された。
【0029】ただし、上記従来例はあくまでもMEモデ
ルによる解析手法でなく、本発明の実施形態としては必
ずしも連接する文字列の素性を用いることは要しない。
すなわち、着目文字列の素性のみに関してMEモデルを
導入した形態素解析を行う構成でも構わないのであっ
て、本実施例は連接する文字列の素性を加えることで、
より高精度な未知語の解析が行える改良した実施形態で
ある。
【0030】ここで、上記実施例における素性の構成に
加え、固有表現に関する情報を素性として利用すること
もできる。固有表現とは、人名、組織名、地名など特定
の事物を示す表現のことである。これらの表現は特に未
知語になりやすい。固有表現に関する情報は、固有表現
にタグを付与したコーパスから抽出した。すなわち、固
有表現を構成する形態素あるいは固有表現の前後の形態
素の文字列として5回以上出現したものを抽出し、素性
として追加した。
【0031】固有表現に関する情報を素性として追加し
た結果、未知語に対する形態素の抽出と品詞の細分類に
ついての解析精度が約42%となり、上記実施例に比し
てさらに2%の解析精度の向上を図ることができた。ま
た、未知語になりやすい文字列を選択して素性として利
用することにより、全体の解析精度の向上にも寄与する
ことができた。
【0032】本実施例における素性については、素性名
に対応する素性値等は任意に変更することができ、特に
日本語以外の言語に用いる場合に、その言語に対応する
適切な素性値を設定することで、本発明の形態素解析技
術は多くの言語においても同様に用いることができる。
【0033】
【発明の効果】本発明は、以上の構成を備えるので、次
の効果を奏する。請求項1に記載の形態素の解析方法に
よると、素性に頻度情報、長さ情報、文字種情報、辞書
情報を用い、最大エントロピーモデルを形態素解析に適
用することができるので、高精度な形態素の解析が可能
となる形態素解析方法を提供できる。
【0034】請求項2に記載の形態素の解析方法による
と、連接する連接文字列に係る素性も用いることができ
るので、特に未知語を効果的に解析することのできる形
態素の解析方法が実現でき、高精度な形態素の解析方法
に寄与する。
【0035】請求項3に記載の形態素の解析方法による
と、素性に固有表現情報を用いるので、より未知語に対
して高精度な解析が可能であって、優れた形態素の解析
方法に寄与する。
【0036】請求項4に記載の形態素の解析方法による
と、日本語のテキストを対象とした形態素の解析方法を
提供することができる。
【0037】請求項5に記載の形態素の解析方法による
と、実用上十分な文字数の制限を導入することで高速な
処理が可能となり、コストパフォーマンスの向上にも寄
与した形態素の解析方法を提供できる。
【図面の簡単な説明】
【図1】形態素解析で利用した素性
【符号の説明】 10 素性番号 11 素性名 12 素性値
フロントページの続き (72)発明者 関根 聡 アメリカ合衆国、ニューヨーク州10003、 ニューヨーク、セブンスフロアー、ブロー ドウェイ、715、ニューヨークユニバーシ ティ、コンピュータサイエンスデパートメ ント Fターム(参考) 5B091 AA15 CA02 CC01 CC15 CC16 EA24

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】言語テキスト処理過程における形態素の解
    析方法が、 該言語テキストから抽出した着目文字列が形態素である
    か否か、及び形態素である場合にその文法的属性が、予
    め定めた文法的属性群のいずれに該当するか、の情報を
    該着目文字列に識別子を付与して解析を行う構成であっ
    て、 予め用意された学習対象テキストを用いて抽出され、い
    ずれの識別子を付与するかを判断する根拠となる情報の
    集合を含んで形成される履歴空間集合と、 該着目文字列に付与される可能性を有する識別子の集合
    で形成される未来空間集合との対応関係を、該各集合間
    の確率分布で決定する構成とし、 該確率分布を、 文字列の要素である素性に関してそれぞれ算出し、 該確率分布に基づき、言語テキスト中の着目文が含む形
    態素となりうる文字列に係る確率を互いに積算した結果
    が最大となるように識別子を決定して形態素解析を行う
    構成において、 該素性に、 文字列が観測される頻度情報と、 文字列を構成する文字の数を示す長さ情報と、 文字の形状、種別の少なくともいずれかを分類する文字
    種情報と、 所定の辞書における少なくとも収録の有無及び品詞の分
    類を含む辞書情報と、を用いたことを特徴とする形態素
    の解析方法。
  2. 【請求項2】前記素性に、 着目文字列と連接する連接文字列に係る文字列が観測さ
    れる頻度情報と、 文字列を構成する文字の数を示す長さ情報と、 所定の辞書における品詞の分類を示す品詞情報と、 所定の辞書における活用型及び活用形を示す活用情報
    と、 該連接文字列の前形態素との境界位置に文節の区切りが
    存在するか否かに関する文節区切り情報とを用いた請求
    項1に記載の形態素の解析方法。
  3. 【請求項3】前記素性に、 着目文字列、又は着目文字列と連接する連接文字列の少
    なくともいずれかに係る特定の事物を示す表現である固
    有表現であるか否かに関する固有表現情報を用いた請求
    項1又は2に記載の形態素の解析方法。
  4. 【請求項4】前記言語テキストが、日本語によるテキス
    トである請求項1ないし3に記載の形態素の解析方法。
  5. 【請求項5】前記着目文における確率が、 5文字以下の全ての文字列及び、5文字を超える所定の
    辞書に登録されている文字列に関して算出する請求項4
    に記載の形態素の解析方法。
  6. 【請求項6】形態素解析システムにおける形態素の解析
    方法が、 該言語テキストから抽出した着目文字列が形態素である
    か否か、及び形態素である場合にその文法的属性が、予
    め定めた文法的属性群のいずれに該当するか、の情報を
    該着目文字列に識別子を付与して解析を行う構成であっ
    て、 予め用意された学習対象テキストを用いて抽出され、い
    ずれの識別子を付与するかを判断する根拠となる情報の
    集合を含んで形成される履歴空間集合と、 該着目文字列に付与される可能性を有する識別子の集合
    で形成される未来空間集合との対応関係を、該各集合間
    の確率分布で決定する構成とし、 該確率分布を、 文字列の要素である素性に関してそれぞれ算出し、 該確率分布に基づき、言語テキスト中の着目文が含む形
    態素となりうる文字列に係る確率を互いに積算した結果
    が最大となるように識別子を決定して形態素解析を行う
    構成において、 該素性に、 文字列が観測される頻度情報と、 文字列を構成する文字の数を示す長さ情報と、 文字の形状、種別の少なくともいずれかを分類する文字
    種情報と、 所定の辞書における少なくとも収録の有無及び品詞の分
    類を含む辞書情報と、を用いたことを特徴とする形態素
    の解析システム。
  7. 【請求項7】前記素性に、 着目文字列と連接する連接文字列に係る文字列が観測さ
    れる頻度情報と、 文字列を構成する文字の数を示す長さ情報と、 所定の辞書における品詞の分類を示す品詞情報と、 所定の辞書における活用型及び活用形を示す活用情報
    と、 該連接文字列の前形態素との境界位置に文節の区切りが
    存在するか否かに関する文節区切り情報とを用いた請求
    項6に記載の形態素の解析システム。
  8. 【請求項8】前記素性に、 着目文字列、又は着目文字列と連接する連接文字列の少
    なくともいずれかに係る特定の事物を示す表現である固
    有表現であるか否かに関する固有表現情報を用いた請求
    項6又は7に記載の形態素の解析システム。
  9. 【請求項9】前記言語テキストとして、日本語によるテ
    キストを対象とする請求項6ないし8に記載の形態素の
    解析システム。
  10. 【請求項10】前記着目文における確率が、 5文字以下の全ての文字列及び、5文字を超える所定の
    辞書に登録されている文字列に関して算出する請求項9
    に記載の形態素の解析システム。
  11. 【請求項11】形態素解析プログラムを記録した記録媒
    体であって、 その形態素の解析方法が、 該言語テキストから抽出した着目文字列が形態素である
    か否か、及び形態素である場合にその文法的属性が、予
    め定めた文法的属性群のいずれに該当するか、の情報を
    該着目文字列に識別子を付与して解析を行う構成であっ
    て、 予め用意された学習対象テキストを用いて抽出され、い
    ずれの識別子を付与するかを判断する根拠となる情報の
    集合を含んで形成される履歴空間集合と、 該着目文字列に付与される可能性を有する識別子の集合
    で形成される未来空間集合との対応関係を、該各集合間
    の確率分布で決定する構成とし、 該確率分布を、 文字列の要素である素性に関してそれぞれ算出し、 該確率分布に基づき、言語テキスト中の着目文が含む形
    態素となりうる文字列に係る確率を互いに積算した結果
    が最大となるように識別子を決定して形態素解析を行う
    構成において、 該素性に、 文字列が観測される頻度情報と、 文字列を構成する文字の数を示す長さ情報と、 文字の形状、種別の少なくともいずれかを分類する文字
    種情報と、 所定の辞書における少なくとも収録の有無及び品詞の分
    類を含む辞書情報と、を用いたことを特徴とする形態素
    解析プログラムを記録した記録媒体。
  12. 【請求項12】前記素性に、 着目文字列と連接する連接文字列に係る文字列が観測さ
    れる頻度情報と、 文字列を構成する文字の数を示す長さ情報と、 所定の辞書における品詞の分類を示す品詞情報と、 所定の辞書における活用型及び活用形を示す活用情報
    と、 該連接文字列の前形態素との境界位置に文節の区切りが
    存在するか否かに関する文節区切り情報とを用いた請求
    項11に記載の形態素解析プログラムを記録した記録媒
    体。
  13. 【請求項13】前記素性に、 着目文字列、又は着目文字列と連接する連接文字列の少
    なくともいずれかに係る特定の事物を示す表現である固
    有表現であるか否かに関する固有表現情報を用いた請求
    項11又は12に記載の形態素解析プログラムを記録し
    た記録媒体。
  14. 【請求項14】前記言語テキストが、日本語によるテキ
    ストである請求項11ないし13に記載の形態素解析プ
    ログラムを記録した記録媒体。
  15. 【請求項15】前記着目文における確率が、 5文字以下の全ての文字列及び、5文字を超える所定の
    辞書に登録されている文字列に関して算出する請求項1
    4に記載の形態素解析プログラムを記録した記録媒体。
JP2001160250A 2001-05-29 2001-05-29 形態素の解析方法 Pending JP2002351870A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001160250A JP2002351870A (ja) 2001-05-29 2001-05-29 形態素の解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001160250A JP2002351870A (ja) 2001-05-29 2001-05-29 形態素の解析方法

Publications (1)

Publication Number Publication Date
JP2002351870A true JP2002351870A (ja) 2002-12-06

Family

ID=19003695

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001160250A Pending JP2002351870A (ja) 2001-05-29 2001-05-29 形態素の解析方法

Country Status (1)

Country Link
JP (1) JP2002351870A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007529047A (ja) * 2003-07-03 2007-10-18 ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング 最大エントロピー・モデリングのための高速特徴選択方法及びシステム
JP2009048472A (ja) * 2007-08-21 2009-03-05 Nippon Hoso Kyokai <Nhk> 形態素候補生成装置およびコンピュータプログラム
CN102609406A (zh) * 2011-01-18 2012-07-25 株式会社东芝 学习装置、判断装置、学习方法和判断方法
WO2013128684A1 (ja) * 2012-02-28 2013-09-06 楽天株式会社 辞書生成装置、方法、及びプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007529047A (ja) * 2003-07-03 2007-10-18 ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング 最大エントロピー・モデリングのための高速特徴選択方法及びシステム
JP4942479B2 (ja) * 2003-07-03 2012-05-30 ロベルト・ボッシュ・ゲゼルシャフト・ミト・ベシュレンクテル・ハフツング 最大エントロピー・モデリングのための高速特徴選択方法及びシステム
JP2009048472A (ja) * 2007-08-21 2009-03-05 Nippon Hoso Kyokai <Nhk> 形態素候補生成装置およびコンピュータプログラム
CN102609406A (zh) * 2011-01-18 2012-07-25 株式会社东芝 学习装置、判断装置、学习方法和判断方法
CN102609406B (zh) * 2011-01-18 2015-11-25 株式会社东芝 学习装置、判断装置、学习方法和判断方法
WO2013128684A1 (ja) * 2012-02-28 2013-09-06 楽天株式会社 辞書生成装置、方法、及びプログラム
JP5373998B1 (ja) * 2012-02-28 2013-12-18 楽天株式会社 辞書生成装置、方法、及びプログラム
TWI452475B (zh) * 2012-02-28 2014-09-11 Rakuten Inc A dictionary generating device, a dictionary generating method, a dictionary generating program product, and a computer readable memory medium storing the program

Similar Documents

Publication Publication Date Title
Habash et al. Arabic tokenization, part-of-speech tagging and morphological disambiguation in one fell swoop
US10409911B2 (en) Systems and methods for text analytics processor
Cotterell et al. Labeled morphological segmentation with semi-markov models
Tabassum et al. A survey on text pre-processing & feature extraction techniques in natural language processing
Gupta et al. Named entity recognition for Punjabi language text summarization
CN110457676B (zh) 评价信息的提取方法及装置、存储介质、计算机设备
Ekbal et al. Named entity recognition in Bengali: A multi-engine approach
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
JP2020126493A (ja) 対訳処理方法および対訳処理プログラム
JP2008084064A (ja) テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム
US11386269B2 (en) Fault-tolerant information extraction
JP2006190229A (ja) 意見抽出用学習装置及び意見抽出用分類装置
Patil et al. Issues and challenges in marathi named entity recognition
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JPH10326275A (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
EP1503295A1 (en) Text generation method and text generation device
Stoeckel et al. Voting for POS tagging of Latin texts: Using the flair of FLAIR to better ensemble classifiers by example of Latin
Shafi et al. UNLT: Urdu natural language toolkit
CN111133429A (zh) 提取表达以供自然语言处理
Uchimoto et al. Morphological analysis of the Corpus of Spontaneous Japanese
Mekki et al. Tokenization of Tunisian Arabic: a comparison between three Machine Learning models
Murauer et al. DT-grams: Structured dependency grammar stylometry for cross-language authorship attribution
JP2002351870A (ja) 形態素の解析方法
JPWO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20021217

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040416