JP2014092838A - 形態素解析装置、形態素解析プログラム、及び、形態素解析方法 - Google Patents
形態素解析装置、形態素解析プログラム、及び、形態素解析方法 Download PDFInfo
- Publication number
- JP2014092838A JP2014092838A JP2012241604A JP2012241604A JP2014092838A JP 2014092838 A JP2014092838 A JP 2014092838A JP 2012241604 A JP2012241604 A JP 2012241604A JP 2012241604 A JP2012241604 A JP 2012241604A JP 2014092838 A JP2014092838 A JP 2014092838A
- Authority
- JP
- Japan
- Prior art keywords
- division
- morpheme
- character string
- morphemes
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】指定した位置での形態素の分割を禁止し、形態素への分割ルールを修正できる形態素解析装置を提供する。
【解決手段】形態素の表記である文字列と、形態素の品詞と、形態素間の接続コストとを含む、複数の形態素の情報を保持する辞書と、形態素解析対象の文字列を辞書に登録された形態素からなる形態素列に分割する、1個以上の分割パターンを生成し、分割パターン毎に接続コストの総和を計算し、総和が最も小さい分割パターンを選択する解析手段と、分割が禁止される複数の形態素の接続を含む第2の文字列と、第2の文字列中で分割が禁止される位置と、分割に対する分割コストとを含む、1個以上の形態素への分割禁止ルールを保持する分割禁止辞書と、分割パターンが分割禁止ルールに合致するとき、総和に分割禁止ルールの分割コストを加算する調整手段と、分割パターンと、分割パターンに合致した分割禁止ルールと、総和を保持するリストと、を備える。
【選択図】 図1
【解決手段】形態素の表記である文字列と、形態素の品詞と、形態素間の接続コストとを含む、複数の形態素の情報を保持する辞書と、形態素解析対象の文字列を辞書に登録された形態素からなる形態素列に分割する、1個以上の分割パターンを生成し、分割パターン毎に接続コストの総和を計算し、総和が最も小さい分割パターンを選択する解析手段と、分割が禁止される複数の形態素の接続を含む第2の文字列と、第2の文字列中で分割が禁止される位置と、分割に対する分割コストとを含む、1個以上の形態素への分割禁止ルールを保持する分割禁止辞書と、分割パターンが分割禁止ルールに合致するとき、総和に分割禁止ルールの分割コストを加算する調整手段と、分割パターンと、分割パターンに合致した分割禁止ルールと、総和を保持するリストと、を備える。
【選択図】 図1
Description
本発明は、形態素解析装置、形態素解析プログラム、及び、形態素解析方法に関し、特に、形態素への分割ルールを修正する形態素解析装置、形態素解析プログラム、及び、形態素解析方法に関する。
「形態素解析装置」とは、入力文字列を、入力文字列を構成する形態素の列に分割する処理である「形態素解析」を行う装置である。ここで、「形態素」とは、ある言語で書かれた、入力された、又は、話された文を、それ以上分割したら意味をなさなくなるところまで分割して抽出された、言語で意味を持つ最小単位の文字列(文字コード等の列)であり、品詞種別が特定された単語である。尚、複数の品詞種別を持ちうる文字列は、文字列としては一つであっても、品詞種別毎に異なる形態素として扱われる(文字列及び品詞種別の組毎に辞書中で与えられたコード等で表現される。)。又、入力された、又は、話された文の場合には、形態素は、文字列ではなく、入力や音素等を表現するコード等の列として扱われることもある。
形態素解析の手法には、さまざまな方法がある。例えば、形態素の列全体でコストの総和が最小になる形態素の列を最適な分割結果として選択する方法がある。この方法では、入力文字列は、複数の形態素を含む「形態素列」に分割される。このとき、入力文字列中の分割位置を変えることにより、複数の形態素列が作成される。
それぞれの形態素列に含まれる2個の形態素間の接続に対しては、コスト(「接続コスト」ともいう。)が定義される。「コスト」とは、複数の形態素列の中から最も適切なものを選択するために用いられる指標である。そして、複数の形態素列の中から、コストの総和が最小となる形態素列が選択される。
形態素解析装置の一例が、特許文献1に開示されている。特許文献1の形態素解析装置は、形態素解析部と、形態素辞書と、ユーザ辞書と、接続表と、接続表書換部と、接続表書換データとを備える。特許文献1の形態素解析装置は、以下のように動作する。
形態素解析部は、入力文章の各文字位置からの可能な形態素候補に対して、形態素辞書及びユーザ辞書を参照して一致する単語があるか検索する。形態素解析部は、検索された単語が、直前および直後に形態素候補とみなされた単語と接続可能なものか否かを接続表を参照して決定し、接続可能であればその単語を形態素候補とし、接続不可能であれば他の単語に対して判断し直す。形態素解析部は、最終的に得られた形態素候補の列のうち各単語に付与したコストの累計が最小になる形態素候補の列を形態素列として出力する。形態素辞書は、各形態素に対して、少なくとも表記、接続属性(品詞等)及びコスト情報等からなるデータ構造を持つ。ユーザ辞書は、形態素辞書と同様のデータ構造を備える。又、ユーザ辞書では、表記として正規表現を用いることができ、接続属性としてユーザ定義品詞を用いることができる。接続表は、隣接する形態素が接続できるかどうかを定義したテーブルである。接続表は可変部分を持っており、そこでユーザ定義品詞の接続属性が定義される。一方、接続表中の既定の品詞の接続属性は書き換えられない。ユーザ定義品詞は、既定の品詞の接続属性を継承することができる。接続表書換部は、ユーザ定義品詞の接続属性からなる接続表書換データを用いて、接続表の可変部の更新を行う。
上記の動作の結果、この形態素解析装置では、解析性能が保証されるため、書き換えられては困る通常の接続属性間の接続を隠蔽したまま、ユーザが接続表を修正できる。
形態素解析装置の別の一例が、特許文献2に開示されている。特許文献2の文章解析装置は、事前分割装置と、分割テーブルと、形態素解析装置と、単語辞書と、連接可能性辞書とを備える。特許文献2の文章解析装置は、以下のように動作する。
分割テーブルは、入力される文に用いられる文字を行及び列のそれぞれのアドレスとする2次元配列のテーブルである。分割テーブルの各要素には、初期値として、”1”以外の値、例えば、値”0”が設定されている。先ず、文章解析装置は、単語辞書に登録されている単語から、連続する2文字の部分文字列を抽出する。そして、文章解析装置は、分割テーブル中の行アドレスが第1文字であり、列アドレスが第2文字である要素の値を”1”に設定する。文章解析装置は、単語辞書中の全ての単語の、全ての部分文字列について、分割テーブルの要素の値を”1”に設定する。値の設定後の分割テーブルにおいて、値”1”が設定されていない要素について、その要素の行アドレスである第1文字と列アドレスである第2文字が同一単語内の部分文字列である可能性がないことを意味する。そこで、事前分割装置は、入力された文の先頭から順次2文字ずつを抽出して、分割テーブルを参照し、第1文字を行アドレスに、第2文字を列アドレスに持つ要素の値が”1”でない場合のみ、入力文字列の第1文字と第2文字との間で文を分割する。尚、この事前分割処理は、2文字を行又は列アドレスとしたテーブルの検索のみであるため、高速に実行できる。
次に、形態素解析装置は、単語辞書及び連接可能性辞書を参照して、事前分割装置で事前分割されたブロック毎に形態素解析を行って単語を当てはめ、各単語の品詞などの属性情報を読み出し、最終的に文全体の連接可能性に基づいて解析結果を決定する。
上記の動作の結果、この文章解析装置では、形態素解析の正確性を維持しながら、形態素解析を高速化できる。その理由は、1回で形態素解析を行う文章の範囲が、事前分割装置により分割されたブロックに縮減されるからである。
特許文献3にも、特許文献2とほぼ同様の機能を備える文字列分割装置が開示されている。
特許文献1に開示されている技術では、ユーザが形態素間の通常の接続コストを修正する際に、修正対象の単語や品詞について、接続コスト全体を再定義しなければならず、手間が掛かるという問題がある。
特許文献2、3に開示されている技術では、単語辞書から単語境界になり得る箇所のみでなく、単語辞書から単語境界になり得ない箇所も抽出される。ところが、単語辞書から単語境界になり得ない箇所が抽出されたとしても、文字列から形態素への分割ルールは修正できない。
本発明の目的は、指定した位置での形態素の分割を禁止し、形態素への分割ルールを修正できる形態素解析装置、形態素解析プログラム、及び、形態素解析方法を提供することにある。
本発明の形態素解析装置は、形態素の表記である文字列と、形態素の品詞と、形態素間の接続コストとを含む、複数の形態素の情報を保持する辞書と、形態素解析対象の文字列を辞書に登録された形態素からなる形態素列に分割する、1個以上の分割パターンを生成し、分割パターン毎に接続コストの総和を計算し、総和が最も小さい分割パターンを選択する形態素解析手段と、分割が禁止される複数の形態素の接続を含む第2の文字列と、第2の文字列中で分割が禁止される位置と、分割に対する分割コストとを含む、1個以上の形態素への分割禁止ルールを保持する分割禁止辞書と、分割パターンが分割禁止ルールに合致するとき、総和に分割禁止ルールの分割コストを加算する分割位置調整手段と、分割パターンと、分割パターンに合致した分割禁止ルールと、総和を保持する分割パターンリストと、を備えることを特徴とする。
本発明の形態素解析プログラムは、形態素解析装置が備えるコンピュータを、形態素の表記である文字列と、形態素の品詞と、形態素間の接続コストとを含む、複数の形態素の情報を保持する辞書と、形態素解析対象の文字列を辞書に登録された形態素からなる形態素列に分割する、1個以上の分割パターンを生成し、分割パターン毎に形態素間の接続コストの総和を計算し、総和が最も小さい分割パターンを選択する形態素解析手段と、分割が禁止される複数の形態素の接続を含む第2の文字列と、第2の文字列中で分割が禁止される位置と、分割に対する分割コストとを含む、1個以上の形態素への分割禁止ルールを保持する分割禁止辞書と、分割パターンが分割禁止ルールに合致するとき、総和に分割禁止ルールの分割コストを加算する分割位置調整手段と、分割パターンと、分割パターンに合致した分割禁止ルールと、総和を保持する分割パターンリストとして動作させることを特徴とする。
本発明の形態素解析方法は、形態素の表記である文字列と、形態素の品詞と、形態素間の接続コストとを含む、複数の形態素の情報を保持し、形態素解析対象の文字列を辞書に登録された形態素からなる形態素列に分割する、1個以上の分割パターンを生成し、分割パターン毎に形態素間の接続コストの総和を計算し、総和が最も小さい分割パターンを選択し、分割が禁止される複数の形態素の接続を含む第2の文字列と、第2の文字列中で分割が禁止される位置と、分割に対する分割コストとを含む、1個以上の形態素への分割禁止ルールを保持し、分割パターンが分割禁止ルールに合致するとき、総和に分割禁止ルールの分割コストを加算し、分割パターンと、分割パターンに合致した分割禁止ルールと、総和を保持することを特徴とする。
本発明によれば、形態素解析において、文字列を形態素へ分割するときのルールを、そのルールに関連する接続コスト全体を再定義することなく簡便に修正できるという効果がある。
以下、本発明の実施形態について図面を参照して詳細に説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
図1は、本発明の一実施形態における形態素解析装置の構成を示すブロック図である。
本実施形態の形態素解析装置100は、形態素解析手段110と、単語辞書120と、分割位置調整手段130と、分割禁止辞書140と、分割パターンリスト150とを備える。
形態素解析手段110は、単語辞書120を利用して形態素解析、すなわち、入力文字列を、入力文字列を構成する形態素の列に分割する処理を実行する。このとき、形態素解析手段110は、形態素解析の対象文字列から、1つ以上の可能な形態素への分割パターンを生成し、分割パターンリスト150として保存する。そして、形態素解析手段110は、単語辞書120及び分割禁止辞書140を参照して隣接する単語間の接続コストを求め、接続コストの総和が最小になる分割パターンを選択する。「接続コスト」は、ある形態素が別の形態素と隣接して出現するし難さを表す指標であり、分割パターンの決定に利用される。接続コストには、例えば、出現し易い場合には”0”が、出現しにくい場合には大きな値が設定される。
例えば、動詞の連用形と、「ている」(助詞「て」+助動詞「いる」)の接続コストは低く設定される。一方、名詞と「ている」の接続コストは高く設定される。接続コストが以上のように設定されている場合、「ている」の前に、動詞の連用形又は名詞のどちらとも解釈可能な単語が先行していれば、形態素解析手段110は、接続コストの低い動詞の連用形と「ている」への分割パターンを選択する可能性が高い。
又、例えば、単語辞書120に、「犬」、「小屋」、及び、これらの単語を含む「犬小屋」が登録されている場合、「犬」と「小屋」間の接続コストには0より大きい値が設定される。一方、「犬小屋」は単語として登録されているため、接続コストを持たない。そこで、形態素解析手段110は、文字列「犬小屋」を分割しないという選択をする可能性が高い。
単語辞書120は、登録された単語を保持する。単語辞書120は、登録された単語毎に、単語の品詞種別の情報を含む。
尚、同じ単語が、異なる品詞種別で、複数登録されてもよい。又、単語の活用形は各々独立の単語として登録されてもよいし、基本形の単語が登録され、活用形の情報を含んでもよい。
又、単語辞書120は、単語間の接続コストを計算するための情報を含む。ここで、単語間の接続コストは、接続対象の単語、又は、接続対象の単語との位置関係等に依存してもよい。位置関係とは、接続対象の複数の単語の前後関係、又は単語間の距離、例えば文字数等である。あるいは、接続する単語の品詞種別の組み合わせ等から、一般的なルールに従い計算されてもよい。
分割位置調整手段130は、分割禁止辞書140を利用して形態素解析における形態素の分割位置を調整する。このとき、分割位置調整手段130は、形態素解析手段110が生成した分割パターンリスト150の各分割パターンに対して、分割禁止辞書140を検索し、分割パターンが分割禁止辞書140の登録内容に一致する場合には、その分割パターンの接続コストを加算する。
分割禁止辞書140は、登録された文字列に対し、形態素への分割が禁止される位置についての規定(分割禁止ルール)を保持する。例えば、「機能」の文字列が登録されていて、この文字列を分割して「能」を切り出すことを禁止するためには、「1,2」の情報が登録される。この情報は、文字列「機能」から、1文字目の後、及び、2文字目の後の位置で同時に文字列を分割することを禁じることを表す。このように、分割禁止位置を、分割禁止位置の前又は後の文字を、文字列中のその文字の位置情報を用いて規定してもよい。分割禁止位置を、位置情報を用いて規定することにより、分割禁止位置の特定を容易にすることができる。なお、位置情報は、文字列中の文字の位置を示せばよく、原点とする位置や位置を示す情報の形式は限定されない。
例えば、分割禁止ルールの対象文字列を単語辞書に登録された単語の並びに限定した場合、1つの分割禁止ルールは、単語辞書120を参照して、分割が禁止される単語番号の並びに変換される。そのため、分割禁止ルールが適用されるか否かの判断が、1つの分割パターンを構成する単語番号のリストに、分割が禁止される単語番号の並びが含まれるかを調べることで実行できる。従って、形態素解析対象の文字列から分割禁止ルールの対象文字列を検索し、さらに、発見された分割禁止ルールの対象文字列において、分割禁止位置での分割がなされているか否かを調べる必要がない。このように、分割禁止位置の特定が容易である。特に、文字列を構成する文字の個数が多いときに、効果がある。
あるいは、分割位置を示す指示記号を「/」等と決めて、その記号を用いて分割禁止位置を示してもよい。例えば、「機/能/」の表現は、文字列「機能」から、1文字目の後、及び、2文字目の後の位置で同時に文字列を分割することを禁じることを表す。このように、分割禁止位置を、文字列中に挿入された、分割禁止位置を示す所定の指示記号を用いて規定してもよい。分割禁止位置を、指示記号を用いて規定することにより、分割禁止位置が指定される文字列の特定と、その文字列中の分割禁止位置を、共通のデータで規定できるので、分割禁止辞書140の構成を単純にすることができる。また、分割パターンリスト150中の各分割パターンが、分割位置に指示記号「/」が挿入された形態素解析対象の文字列としても保持される場合、分割禁止ルールが適用されるか否かの判断が、単純な文字列検索で実行されるので、検索処理が容易になる。
尚、分割禁止ルールは、同じ文字列に対して、複数登録されてもよい。又、分割禁止ルールは、分割禁止ルールが適用された場合の単語間の接続コストの増分の情報を含んでもよい。
分割パターンリスト150は、複数の分割パターンの候補を保持することができ、形態素解析手段110と、分割位置調整手段120との間で、分割パターンの情報を交換するために用いられる。
図2は、形態素解析装置のハードウェア構成の一例を示すブロック図である。
形態素解析装置907は、記憶装置901と、メモリ902と、CPU(Central Processing Unit)903と、キーボード904と、モニタ905と、I/O(Input/Output)908とを備え、これらが内部バス906で接続されている。CPU903は、通信装置907全体を制御し、I/O908を介して分割位置調整手段120等のプログラムの実行やデータの送受信を行なう。メモリ902は、CPU903の動作プログラム等を格納する。記憶装置901は、分割位置調整手段120等のプログラムを格納する。なお、通信装置907は、CPU903のみを備え、外部に備えられた、記憶装置901、メモリ902、キーボード904、モニタ905、及びI/O908を用いて動作してもよい。
次に、本実施形態の動作を説明する。
図3は、本実施形態における形態素解析装置の動作を示すフローチャートである。
形態素解析手段110は、分割パターンリスト150を空にする(ステップS110)。
形態素解析手段110は、単語辞書120を検索して、形態素解析対象である入力文字列を単語に分割し、見つかった分割パターンを分割パターンリスト150に追加する(ステップS120)。
形態素解析手段110は、分割パターンリスト150の各要素に対して、単語辞書120を参照して、単語間の接続コストの総和を計算する(ステップS130)。
分割位置調整手段130は、形態素解析手段110が生成した分割パターンリスト150の各要素に対して、分割禁止辞書140を検索して、一致する分割があれば、見つかった分割禁止ルールを分割パターンリスト150の各要素(分割パターン)に追記する(ステップS140)。
分割位置調整手段130は、分割パターンリスト150の各要素に対して、形態素解析手段110が計算した接続コストの総和に、分割禁止辞書140を参照して、適用された分割禁止ルールの接続コストの増分を加算する(ステップS150)。
形態素解析手段110は、分割パターンリスト150の各要素のうち、接続コストの総和が最小の分割パターンを、適用すべき分割パターンに決定する(ステップS160)。
表1は、本発明の一実施形態における単語辞書の一例を示す表である。
単語辞書120は、登録された単語毎に、各単語を一意に識別する単語番号と、単語を構成する文字列と、単語の品詞種別と、単語と別の単語との接続コストとを含む。ここでは、品詞種別が「名詞」である「コピー」、「コピー機」、「機」、「機能」、及び、「能」の5個の単語が登録されている。
一般的には、接続コストは、接続対象の単語や品詞種別、接続対象の単語との位置関係(前後等)等に依存して、複数の値が存在し得る。ここでは、接続対象の単語が名詞である場合の接続コストのみを抜き出して示す。又、ここでは、接続対象の単語の品詞種別が名詞である場合の接続コストは、接続対象の単語や、その単語との位置関係等によらず、接続コストは”0.5”である。
尚、ここでは、接続コストが接続対象の単語との位置関係に依存しない場合の例を挙げた。しかし、本実施の形態はこれに限らず、接続コストが接続対象の単語との位置関係により異なっても良い。又、接続コストが接続対象の単語、又は、接続対象の単語の品詞種別及び活用形毎に登録されていてもよい。
表2は、本発明の一実施形態における分割禁止辞書の一例を示す表である。
分割禁止辞書140は、登録された分割禁止ルール毎に、各分割禁止ルールを一意に識別する分割禁止ルール番号と、分割禁止ルールが適用される文字列と、分割が禁止される文字列中の位置(文字列の先頭を”0”とする)と、分割禁止ルールが適用される場合に加算される接続コストとを含む。ここでは、文字列「機能」について、1文字目の後と、2文字目の後とで、同時に分割すること、つまり、「能」の文字列を切り出すことが禁止されている。又、この分割禁止ルールが適用される場合に加算される接続コストは”3”である。
表3は、本発明の一実施形態における分割パターンリストの一例を示す表である。尚、表3の「分割パターン列」は、「単語リスト」列の内容を分かり易く示すために追加したもので、分割パターンリスト150が保持する情報ではない。
分割パターンリスト150は、形態素解析の対象文字列に適用される可能性のある分割パターン毎に、分割結果の単語の単語番号のリストと、適用された分割禁止ルールの分割禁止ルール番号のリストと、接続コストの計算領域とを含む。
ここで、形態素解析対象の文字列として「コピー機能」が入力された場合の、本実施形態の処理について説明する。尚、ここでは、文字列の分割位置を「/」で示す。
まず、形態素解析手段110がステップS110及びS120を実行した結果、分割パターンリスト150は、表3の「単語リスト」の列に示した3個の分割パターンの候補を持つ。尚、「単語リスト」の左の列に、分割パターン中の分割位置が示されている。例えば、分割パターンが「コピー/機/能/」である場合の単語リストは、121,123,125で、入力文字列が単語辞書120の単語番号121、123、125に分割されたこと示す。
形態素解析手段110がステップS130を実行した結果、分割パターンリスト150の各分割パターンには、接続コストが格納される。ここは、単語辞書120の接続コストには、接続対象が名詞ならば、接続対象との位置関係によらず、接続コスト”0.5”が設定されている。その結果、分割パターン「コピー/機/能/」、「コピー/機能/」、「コピー機/能/」には、それぞれ接続コスト”2”(=0.5×4)、”1”(=0.5×2)、”1”(=0.5×2)が格納される。
分割位置調整手段130がステップS140を実行した結果、分割パターンリスト150の分割パターンのうち、分割パターン「コピー/機/能/」及び「コピー機/能/」には、「機能」から「能」を切り出しているので、分割禁止ルール番号141が適用される。その結果、分割パターンに対しては、分割禁止ルール番号141が格納される。
分割位置調整手段130がステップS150を実行した結果、分割禁止ルール141を持つ分割パターンには、分割禁止辞書140の接続コストを参照して、接続コスト”3”が加算される。その結果、分割パターン「コピー/機/能/」、「コピー/機能/」、及び、「コピー機/能/」に対して、それぞれ接続コスト”5”、”1”、”4”が格納される。
最後に、形態素解析手段110がステップS160を実行した結果、接続コストが”1”で最小の分割パターン「コピー/機能/」が分割パターンに決定される。
以上説明したように、本実施形態における形態素解析装置は、分割を禁止する形態素間の接続を含む文字列と、文字列中で分割を禁止する箇所と、分割に対するコストとを指定するだけで、形態素への分割ルールを修正できる。その理由は、分割位置調整手段が、分割を禁止する形態素間の接続を含む文字列と、文字列中で分割を禁止する箇所と、分割に対するコストを含む分割禁止ルールを参照して、分割を禁止したい文字位置での分割コストを加算することにより、その文字位置での分割を阻害するからである。
尚、本願発明は、上述の実施形態に限定されるものではなく、本願発明の要旨を逸脱しない範囲で種々変更、変形して実施することができる。
本発明の形態素解析装置は、例えば、機械翻訳システムやテキストマイニングシステム等の一部としても利用することができる。
又、本発明の形態素解析は、実施形態で説明した形態素解析装置だけでなく、例えば、かな漢字システムや音声認識システム等の一部にも適用することができる。
Claims (5)
- 形態素の表記である文字列と、前記形態素の品詞と、前記形態素間の接続コストとを含む、複数の前記形態素の情報を保持する辞書と、
形態素解析対象の文字列を前記辞書に登録された形態素からなる形態素列に分割する、1個以上の分割パターンを生成し、前記分割パターン毎に前記接続コストの総和を計算し、前記総和が最も小さい前記分割パターンを選択する形態素解析手段と、
分割が禁止される複数の形態素の接続を含む第2の文字列と、前記第2の文字列中で分割が禁止される位置と、分割に対する分割コストとを含む、1個以上の形態素への分割禁止ルールを保持する分割禁止辞書と、
前記分割パターンが前記分割禁止ルールに合致するとき、前記総和に前記分割禁止ルールの前記分割コストを加算する分割位置調整手段と、
前記分割パターンと、前記分割パターンに合致した前記分割禁止ルールと、前記総和を保持する分割パターンリストと、
を備えたことを特徴とする形態素解析装置。 - 前記分割禁止辞書は、
前記第2の文字列中で分割が禁止される位置を示す、前記第2の文字列中の文字位置を示す1個以上の情報を保持する
ことを特徴とする請求項1に記載の形態素解析装置。 - 前記分割禁止辞書は、
前記第2の文字列中で分割が禁止される位置を示す、前記第2の文字列中の1個以上の指示記号を保持する
ことを特徴とする請求項1に記載の形態素解析装置。 - 通信装置が備えるコンピュータを、
形態素の表記である文字列と、前記形態素の品詞と、前記形態素間の接続コストとを含む、複数の前記形態素の情報を保持する辞書と、
形態素解析対象の文字列を前記辞書に登録された形態素からなる形態素列に分割する、1個以上の分割パターンを生成し、前記分割パターン毎に前記形態素間の接続コストの総和を計算し、前記総和が最も小さい前記分割パターンを選択する形態素解析手段と、
分割が禁止される複数の形態素の接続を含む第2の文字列と、前記第2の文字列中で分割が禁止される位置と、分割に対する分割コストとを含む、1個以上の形態素への分割禁止ルールを保持する分割禁止辞書と、
前記分割パターンが前記分割禁止ルールに合致するとき、前記総和に前記分割禁止ルールの前記分割コストを加算する分割位置調整手段と、
前記分割パターンと、前記分割パターンに合致した前記分割禁止ルールと、前記総和を保持する分割パターンリスト
として動作させるための形態素解析プログラム。 - 形態素の表記である文字列と、前記形態素の品詞と、前記形態素間の接続コストとを含む、複数の前記形態素の情報を保持し、
形態素解析対象の文字列を前記辞書に登録された形態素からなる形態素列に分割する、1個以上の分割パターンを生成し、前記分割パターン毎に前記形態素間の接続コストの総和を計算し、前記総和が最も小さい前記分割パターンを選択し、
分割が禁止される複数の形態素の接続を含む第2の文字列と、前記第2の文字列中で分割が禁止される位置と、分割に対する分割コストとを含む、1個以上の形態素への分割禁止ルールを保持し、
前記分割パターンが前記分割禁止ルールに合致するとき、前記総和に前記分割禁止ルールの前記分割コストを加算し、
前記分割パターンと、前記分割パターンに合致した前記分割禁止ルールと、前記総和を保持する
ことを特徴とする形態素解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012241604A JP2014092838A (ja) | 2012-11-01 | 2012-11-01 | 形態素解析装置、形態素解析プログラム、及び、形態素解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012241604A JP2014092838A (ja) | 2012-11-01 | 2012-11-01 | 形態素解析装置、形態素解析プログラム、及び、形態素解析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014092838A true JP2014092838A (ja) | 2014-05-19 |
Family
ID=50936894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012241604A Pending JP2014092838A (ja) | 2012-11-01 | 2012-11-01 | 形態素解析装置、形態素解析プログラム、及び、形態素解析方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014092838A (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04343171A (ja) * | 1991-05-20 | 1992-11-30 | Toshiba Corp | 用語分解装置 |
JP2002351871A (ja) * | 2001-05-24 | 2002-12-06 | Ricoh Co Ltd | 形態素解析装置、形態素解析方法、プログラムおよび記録媒体 |
JP2003323422A (ja) * | 2002-04-26 | 2003-11-14 | Canon Inc | 言語処理装置および言語処理方法ならびに記憶媒体、プログラム |
JP2007058509A (ja) * | 2005-08-24 | 2007-03-08 | Toshiba Corp | 言語処理システム |
-
2012
- 2012-11-01 JP JP2012241604A patent/JP2014092838A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04343171A (ja) * | 1991-05-20 | 1992-11-30 | Toshiba Corp | 用語分解装置 |
JP2002351871A (ja) * | 2001-05-24 | 2002-12-06 | Ricoh Co Ltd | 形態素解析装置、形態素解析方法、プログラムおよび記録媒体 |
JP2003323422A (ja) * | 2002-04-26 | 2003-11-14 | Canon Inc | 言語処理装置および言語処理方法ならびに記憶媒体、プログラム |
JP2007058509A (ja) * | 2005-08-24 | 2007-03-08 | Toshiba Corp | 言語処理システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102268875B1 (ko) | 전자 장치에 텍스트를 입력하는 시스템 및 방법 | |
US8005662B2 (en) | Translation method, translation output method and storage medium, program, and computer used therewith | |
JP2003223437A (ja) | 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム | |
US20140350913A1 (en) | Translation device and method | |
WO2014087703A1 (ja) | 単語分割装置、単語分割方法、及び単語分割プログラム | |
JP5809381B1 (ja) | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム | |
US7941311B2 (en) | System and method for linguistic collation | |
JP2014194668A (ja) | 翻訳支援装置、翻訳支援システムおよび翻訳支援プログラム | |
CN113076748A (zh) | 弹幕敏感词的处理方法、装置、设备及存储介质 | |
JP5482236B2 (ja) | プログラムおよび情報処理装置 | |
JP2006201873A (ja) | 未登録語自動抽出装置及びプログラム、並びに未登録語自動登録装置及びプログラム | |
JP5833087B2 (ja) | 文字列処理装置、方法、及びプログラム | |
JP2014092838A (ja) | 形態素解析装置、形態素解析プログラム、及び、形態素解析方法 | |
JP5025603B2 (ja) | 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法 | |
JP2009176148A (ja) | 未知語判定システム、方法及びプログラム | |
JP5630138B2 (ja) | 文作成プログラム及び文作成装置 | |
JP5326781B2 (ja) | 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム | |
JP2007316834A (ja) | 日本語文章修正装置、日本語文章修正方法および日本語文章修正のためのプログラム | |
JP2007148630A (ja) | 特許分析装置、特許分析システム、特許分析方法およびプログラム | |
KR102668118B1 (ko) | 자연어 기반의 비디오 검색을 위한 학습 장치 및 학습 방법 | |
JP7083473B2 (ja) | 入力支援装置 | |
JP6437899B2 (ja) | 文書校正支援装置、文書校正支援方法、および文書校正支援プログラム | |
JP2022135700A (ja) | 書き換えプログラムおよび書き換え方法 | |
JP4399154B2 (ja) | 翻訳装置、及び翻訳プログラム | |
JP6476638B2 (ja) | 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151015 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160805 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160830 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20170228 |