JP5105996B2 - 形態素候補生成装置およびコンピュータプログラム - Google Patents
形態素候補生成装置およびコンピュータプログラム Download PDFInfo
- Publication number
- JP5105996B2 JP5105996B2 JP2007214934A JP2007214934A JP5105996B2 JP 5105996 B2 JP5105996 B2 JP 5105996B2 JP 2007214934 A JP2007214934 A JP 2007214934A JP 2007214934 A JP2007214934 A JP 2007214934A JP 5105996 B2 JP5105996 B2 JP 5105996B2
- Authority
- JP
- Japan
- Prior art keywords
- morpheme
- probability
- character
- characters
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
(1)長さヒューリスティクスによる処理(例えば、非特許文献1参照)
任意の文字列の全てを形態素候補として扱うと、候補数のオーダがn2(nは入力文の文字数)となり多くなってしまう。そこで候補数を削減するためにヒューリスティクスにより形態素候補の文字列長を制限する。非特許文献1記載の従来技術では、5文字以下の全ての文字列と、連続するカタカナの文字列とを未知語の候補としている。
(2)文字種ヒューリスティクスによる処理(例えば、非特許文献2参照)
文字種に基づいたヒューリスティクスにより未知語候補を生成する手法においては、ルールに適合する文字列はすべて形態素候補となる。非特許文献2記載の従来技術では、文字種などの情報を利用してヒューリスティクスにより未知語候補を生成し、識別モデルであるCRFに基づいて形態素解析している。
(3)n-gram生成モデルによる処理(例えば、非特許文献3参照)
非特許文献3記載の従来技術では、未知語の生成確率を文字n-gramの生成モデルを用いて計算し、未知語候補の生成に利用している。
(4)形態素への分割のみを先に決定する処理(例えば、非特許文献4参照)
非特許文献4記載の従来技術では、未知語の解析手法として、品詞を考慮せずに形態素への分割のみを先に決定している。
内元清貴,関根聡,井佐原均,"最大エントロピーモデルに基づく形態素解析−未知語の問題の解決策−,自然言語処理,Vol.8,No.1,pp.127-141,Jan.2001. 工藤拓,山本薫,松本裕治,"Conditional Random Fieldsを用いた日本語形態素解析",SIG-NL-161(13),pp.89-96,2004. 永田昌明,"統計的言語モデルとN-best探索を用いた日本語形態素解析法",情報処理学会論文誌,Vol.40,No.9,pp.3420-3431,Sep.1999. 中川哲治,松本裕治,"単語レベルと文字レベルの情報を用いた中国語・日本語単語分割",情報処理学会論文誌,Vol.46,N0.11,pp.2714-2727,Nov.2005.
(1)長さヒューリスティクスによる処理では、文字数を制限すると、それ以上長い未知語を解析できないという問題がある。
(2)文字種ヒューリスティクスによる処理では、学習データに出現しない特徴を持つ文字列を形態素候補とすると、識別モデルでは適切に識別できず、解析誤りの原因となるという問題がある。そのため、入力文から形態素候補を生成する段階において形態素となる可能性を計算し、極端に不適切な形態素候補を生成しないようにすることが重要である。また、従来手法の最長一致法や分割数最小法を用いる場合も、不適切な未知語候補は解析精度の低下を引き起こす。
(3)n-gram生成モデルによる処理では、学習データに全く又はほとんど出現しない文字列の生成確率は小さくなる。未知語は学習データに全く又はほとんど出現しない場合が多いと考えられるため、未知語の文字列の生成確率は小さくなりやすく、適切に未知語形態素候補を生成することは困難である。
(4)形態素への分割のみを先に決定する処理に対して、我々は、形態素の決定は品詞などの文法的属性も同時に考慮して行った方がより多くの情報を考慮できるので有利だと考えている。
これにより、前述の形態素候補生成装置がコンピュータを利用して実現できるようになる。
入力文S'の文頭及び文末に端記号“#”を追加し、wiを形態素として、処理対象文Sを{S=w1w2・・・wi・・・wn=w1 n,w1=wn=“#”}とする。nは形態素の個数である。このとき、形態素列w1 nへの分割確率は“P(w1 n|S)”となる。さらに、各形態素が他の形態素に依存しないように近似すると、(1)式が得られる。(1)式において、“P(wi|S)”は、処理対象文S中のある文字列が形態素である確率を表す。
図3は、本発明の一実施形態に係る形態素候補生成装置1の構成を示すブロック図である。図3において、形態素候補生成装置1は、形態素分割点確率計算部2、形態素確率計算部3、形態素候補判定部4、素性テンプレートテーブル5、確率モデルパラメータテーブル6及び素性ベクトル定義テーブル7を有する。
また、後続文字を連結する際に、それまでに計算していた変数e(ステップ207の結果の変数e)を利用することによって、変数eを用いずに(3)式を計算する場合に比べて、形態素確率fの計算を効率化できている。
図11は、本実施形態に係る確率モデルパラメータ生成装置20の構成を示すブロック図である。図11において、確率モデルパラメータ生成装置20は、素性ベクトル定義テーブル生成部21、素性ベクトル定義テーブル記録部22、確率モデルパラメータ推定部23及び素性テンプレートテーブル5を有する。素性テンプレートテーブル5は、図3の形態素候補生成装置1に具備されるものと同一である。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、DVD(Digital Versatile Disk)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
Claims (5)
- 入力文中の文字間が形態素の分割点である形態素分割点確率を計算する形態素分割点確率計算手段と、
前記形態素分割点確率を用いて、前記入力文中の文字列が形態素である形態素確率を計算する形態素確率計算手段と、
前記形態素確率に基づいて、前記入力文において全ての形態素候補となる文字列を判定する形態素候補判定手段と、を備え、
前記形態素候補判定手段によって形態素候補に判定された文字列であって、文字が部分的に重複する文字列も含めて全ての形態素候補の文字列を出力する、
ことを特徴とする形態素候補生成装置。 - 入力文中の文字間が形態素の分割点である形態素分割点確率を計算する形態素分割点確率計算手段と、
前記形態素分割点確率を用いて、前記入力文中の文字列が形態素である形態素確率を計算する形態素確率計算手段と、
前記形態素確率に基づいて、前記入力文において全ての形態素候補となる文字列を判定する形態素候補判定手段と、
前記入力文から素性を作成するための素性テンプレートを格納する素性テンプレートテーブルと、
素性ベクトルの成分となる素性を定義する素性ベクトル定義テーブルと、を備え、
前記形態素分割点確率計算手段は、前記素性テンプレートを用いて素性を作成し、該素性と前記素性ベクトルの定義との一致を調べ、該一致した成分のみに所定値を持つ素性ベクトルを作成し、該素性ベクトルを用いた最大エントロピー法の確率モデルによって形態素分割点確率を算出する、
ことを特徴とする形態素候補生成装置。 - 前記形態素分割点確率は、文字間が形態素の分割点であることのみに関する確率であり、
前記形態素候補判定手段は、入力文中の一つ一つの文字について、その文字を形態素候補の先頭文字として、後続の文字を連結していき、その各連結した文字列の形態素確率を計算し、該形態素確率を閾値により判定し、この閾値判定結果から当該文字列を形態素候補にするか決定するものであり、先頭文字の直前の文字間の形態素分割点確率とそれ以降の文字間が形態素の分割点ではない確率との積を保持しておき、連結した文字列の直後の文字間の形態素分割点確率を該保持した積に乗ずることにより該連結した文字列の形態素確率を得る、
ことを特徴とする請求項1に記載の形態素候補生成装置。 - 前記形態素候補判定手段は、ある文字間の形態素分割点確率と、それ以降の文字間が形態素の分割点ではない確率との積を前記閾値により判定し、この閾値判定結果から、当該先頭文字についての以降の後続文字を連結する処理について省略するか決定する、
ことを特徴とする請求項3に記載の形態素候補生成装置。 - 入力文中の文字間が形態素の分割点である形態素分割点確率を計算する形態素分割点確率計算機能と、
前記形態素分割点確率を用いて、前記入力文中の文字列が形態素である形態素確率を計算する形態素確率計算機能と、
前記形態素確率に基づいて形態素候補となる文字列を判定する形態素候補判定機能と、
前記形態素候補判定機能によって形態素候補に判定された文字列であって、文字が部分的に重複する文字列も含めて全ての形態素候補の文字列を出力する機能と、
をコンピュータに実現させることを特徴とするコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007214934A JP5105996B2 (ja) | 2007-08-21 | 2007-08-21 | 形態素候補生成装置およびコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007214934A JP5105996B2 (ja) | 2007-08-21 | 2007-08-21 | 形態素候補生成装置およびコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009048472A JP2009048472A (ja) | 2009-03-05 |
JP5105996B2 true JP5105996B2 (ja) | 2012-12-26 |
Family
ID=40500614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007214934A Expired - Fee Related JP5105996B2 (ja) | 2007-08-21 | 2007-08-21 | 形態素候補生成装置およびコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5105996B2 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05250403A (ja) * | 1992-03-09 | 1993-09-28 | Nippon Telegr & Teleph Corp <Ntt> | 日本文単語解析方式 |
JP3777456B2 (ja) * | 1996-04-23 | 2006-05-24 | 日本電信電話株式会社 | 日本語形態素解析方法と装置及び辞書未登録語収集方法と装置 |
JP3938234B2 (ja) * | 1997-12-04 | 2007-06-27 | 沖電気工業株式会社 | 自然言語処理装置 |
JP2001249922A (ja) * | 1999-12-28 | 2001-09-14 | Matsushita Electric Ind Co Ltd | 単語分割方式及び装置 |
JP2002351870A (ja) * | 2001-05-29 | 2002-12-06 | Communication Research Laboratory | 形態素の解析方法 |
-
2007
- 2007-08-21 JP JP2007214934A patent/JP5105996B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009048472A (ja) | 2009-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9836453B2 (en) | Document-specific gazetteers for named entity recognition | |
JP3998668B2 (ja) | 形態素解析装置、方法及びプログラム | |
US10803241B2 (en) | System and method for text normalization in noisy channels | |
CN105095204B (zh) | 同义词的获取方法及装置 | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
US9176936B2 (en) | Transliteration pair matching | |
US20060015321A1 (en) | Method and apparatus for improving statistical word alignment models | |
JP7259650B2 (ja) | 翻訳装置、翻訳方法及びプログラム | |
JP2004038976A (ja) | 用例ベースの機械翻訳システム | |
WO2021189624A1 (zh) | 解码语音数据的方法、装置、计算机设备和存储介质 | |
US20080208566A1 (en) | Automated word-form transformation and part of speech tag assignment | |
JP2004355483A (ja) | 形態素解析装置、形態素解析方法及び形態素解析プログラム | |
JP6427466B2 (ja) | 同義語ペア獲得装置、方法、及びプログラム | |
Puigcerver et al. | Querying out-of-vocabulary words in lexicon-based keyword spotting | |
JP2017097062A (ja) | 読み付与装置、音声認識装置、読み付与方法、音声認識方法、およびプログラム | |
Roark et al. | Hippocratic abbreviation expansion | |
JP2016224483A (ja) | モデル学習装置、方法、及びプログラム | |
US11893344B2 (en) | Morpheme analysis learning device, morpheme analysis device, method, and program | |
Sarkar | Part-of-speech tagging for code-mixed indian social media text at icon 2015 | |
KR101663038B1 (ko) | 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법 | |
Yeh et al. | Chinese spelling checker based on an inverted index list with a rescoring mechanism | |
JP5105996B2 (ja) | 形態素候補生成装置およびコンピュータプログラム | |
Mammadov et al. | Part-of-speech tagging for azerbaijani language | |
JP5293607B2 (ja) | 略語生成装置およびプログラム、並びに、略語生成方法 | |
JP6261669B2 (ja) | クエリ校正システムおよび方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091016 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120327 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120507 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120904 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121002 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5105996 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151012 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |