JP6300601B2 - 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム - Google Patents
辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム Download PDFInfo
- Publication number
- JP6300601B2 JP6300601B2 JP2014071155A JP2014071155A JP6300601B2 JP 6300601 B2 JP6300601 B2 JP 6300601B2 JP 2014071155 A JP2014071155 A JP 2014071155A JP 2014071155 A JP2014071155 A JP 2014071155A JP 6300601 B2 JP6300601 B2 JP 6300601B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- morpheme
- partial character
- information
- partial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
(形態素解析装置の構成)
図1は、形態素解析装置100を示すブロック図である。図1に示すように、形態素解析装置100は、照合部110、辞書装置120、制約参照部130、決定部140および連接表記憶部150を備え、入力された文字列をもとに、これに関する情報のうち適したものを決定し出力する。
辞書装置120は、そのインデックスに発音情報を埋め込んでいる。図2は、従来のデータ構造の一例を示す図である。図3は、本発明のデータ構造を示す図である。
トライにより構成された辞書装置120を用いて形態素解析処理を行なう場合、共通接頭辞探索として、トライのルートノードからリーフノード方向に木をたどり、ノード上の形態素を候補して出力する。
図4〜図6は、それぞれ形態素解析装置100における照合部110の動作の一例を示すフローチャートである。図4は、照合部全体の処理を示している。図4に示すように、まず、それらの共通接頭辞探索の結果が入力された文字列に含まれる可能性のある形態素候補を列挙するように、入力された文字列から部分文字列に区切り、それらを列挙する(ステップS101)。ここでの部分文字列の列挙は、例えば、1文字目から最後の文字まで、2文字目から最後の文字まで、という処理を繰り返せばよい。次に、ひとつの部分文字列をを探索キーに設定する(ステップS102)。そして、サブルーチンG(ルートノード、0)を呼び出し、辞書に格納されたデータと探索キーと照合を行なう(ステップS103)。
以下に処理の例を説明する。図7は、従来のデータ構造の一例を示す図である。図8は、本発明のデータ構造の一例を示す図である。
従来の辞書構造では、トライのノードに形態素情報が結び付けられていた。このため、読み情報に関する制約つき探索を行なう場合、共通接頭辞探索により形態素候補の全てを列挙してから、各形態素情報を調べて、読み制約を満たさない形態素候補を捨てる、といった処理が必要となる。
図9は、本発明のデータ構造の一例を示す図である。例えば、「上(ウエ)」「上る(アガ・ル)」「上る(ノボ・ル)」の3語が辞書登録されているケースで、解析対象のテキストが「上る」、解析対象テキストのうち、「上」の読みとして、「ノボ」が指定されている場合、従来の辞書構造では、「上る」に対する共通接頭辞探索の結果、この3語を候補として得られるため、それぞれ読み情報を調べて、「上る(ノボ・ル)」以外の形態素を捨てる処理が必要となる。
110 照合部
120 辞書装置
130 制約参照部
140 決定部
150 連接表記憶部
Claims (3)
- 文字列をもとに、これを構成する形態素列に関する情報を出力する形態素解析装置であって、
トライに基づく構造で文字列のデータを格納する形態素解析用の辞書装置であって、文字列のデータを区分した部分文字列および前記区分した部分文字列の読みに関する情報を、文字列に沿って交互に並べて格納する辞書装置と、
入力された文字列から部分文字列を切り出し、文字列の順に沿って部分文字列ごとに前記切り出された部分文字列を前記辞書装置に照合する照合部と、
前記入力された文字列を構成する一部の文字に対する読みに関する情報を制約として参照する制約参照部と、を備え、
前記照合部は、前記格納された文字列のデータが構成するトライのルートノードからリーフノード方向に前記トライをたどり、前記切り出された部分文字列の先頭部分の部分文字列と前記格納された文字列とが一致し、かつ前記部分文字列の読みに関する情報が前記制約を満たす場合にはノード上の形態素を候補として出力し、前記切り出された部分文字列の先頭部分の部分文字列と前記格納された文字列とが一致しない、または前記部分文字列の読みに関する情報が前記制約を満たさない場合には、ノード上の形態素を破棄することを特徴とする形態素解析装置。 - 文字列をもとに、これを構成する形態素列に関する情報を出力する形態素解析の方法であって、
入力された文字列から部分文字列を切り出すステップと、
文字列の順に沿って部分文字列ごとに前記切り出された部分文字列を、コンピュータ内の記憶部にトライに基づいて構成される形態素解析用の辞書のデータ構造であって、文字列のデータを区分した部分文字列および前記部分文字列の読みに関する情報が、文字列に沿って交互に並べて格納されたデータ構造を有し、前記部分文字列に関する情報は部分文字列の読みに関する情報を含む、文字列のデータと照合するステップと、をコンピュータを用いて実行し、
前記照合のステップでは、前記格納された文字列のデータが構成するトライのルートノードからリーフノード方向に前記トライをたどり、
前記切り出された部分文字列の先頭部分の部分文字列と前記格納された文字列とが一致し、かつ、前記入力された文字列を構成する一部の文字に対する読みの情報を制約として参照したときに、前記部分文字列の読みに関する情報が前記制約を満たす場合にはノード上の形態素を候補として出力し、
前記切り出された部分文字列の先頭部分の部分文字列と前記格納された文字列とが一致しない、または、前記入力された文字列を構成する一部の文字に対する読みの情報を制約として参照したときに、前記部分文字列の読みに関する情報が前記制約を満たさない場合にはノード上の形態素を破棄することを特徴とする方法。 - 文字列をもとに、これを構成する形態素列に関する情報を出力する形態素解析のプログラムであって、
入力された文字列から部分文字列を切り出す処理と、
文字列の順に沿って部分文字列ごとに前記切り出された部分文字列を、コンピュータ内の記憶部にトライに基づいて構成される形態素解析用の辞書のデータ構造であって、文字列のデータを区分した部分文字列および前記部分文字列の読みに関する情報が、文字列に沿って交互に並べて格納されたデータ構造を有し、前記部分文字列に関する情報は部分文字列の読みに関する情報を含む、文字列のデータと照合する処理と、を含む一連の処理をコンピュータに実行させ、
前記格納された文字列のデータが構成するトライのルートノードからリーフノード方向に前記トライをたどり、
前記切り出された部分文字列の先頭部分の部分文字列と前記格納された文字列とが一致し、かつ前記入力された文字列を構成する一部の文字に対する読みの情報を制約として参照したときに、前記部分文字列の読みに関する情報が前記制約を満たす場合にはノード上の形態素を候補として出力し、
前記切り出された部分文字列の先頭部分の部分文字列と前記格納された文字列とが一致しない、または前記入力された文字列を構成する一部の文字に対する読みの情報を制約として参照したときに、前記部分文字列の読みに関する情報が前記制約を満たさない場合にはノード上の形態素を破棄することを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014071155A JP6300601B2 (ja) | 2014-03-31 | 2014-03-31 | 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014071155A JP6300601B2 (ja) | 2014-03-31 | 2014-03-31 | 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015194801A JP2015194801A (ja) | 2015-11-05 |
JP6300601B2 true JP6300601B2 (ja) | 2018-03-28 |
Family
ID=54433785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014071155A Active JP6300601B2 (ja) | 2014-03-31 | 2014-03-31 | 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6300601B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016126498A (ja) * | 2014-12-26 | 2016-07-11 | Kddi株式会社 | 形態素解析装置およびプログラム |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6972653B2 (ja) * | 2017-05-16 | 2021-11-24 | 富士通株式会社 | 解析プログラム、解析方法および解析装置 |
JP2019016162A (ja) * | 2017-07-06 | 2019-01-31 | 富士通株式会社 | 形態素解析プログラム、形態素解析装置、および形態素解析方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH035877A (ja) * | 1989-06-01 | 1991-01-11 | Nec Software Ltd | データ操作方式 |
JP3452353B2 (ja) * | 2000-07-04 | 2003-09-29 | 株式会社ジャストシステム | 辞書データ構造を記録した記録媒体、辞書引き方法、語句取得方法、辞書引き装置、語句取得装置、プログラムを記録した記録媒体 |
JP2007058509A (ja) * | 2005-08-24 | 2007-03-08 | Toshiba Corp | 言語処理システム |
JP4640983B2 (ja) * | 2005-12-02 | 2011-03-02 | シャープ株式会社 | 文書処理装置、文書表示装置、文書処理方法、文書処理プログラムおよび文書処理プログラムを記録した記録媒体 |
JP5224953B2 (ja) * | 2008-07-17 | 2013-07-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報処理装置、情報処理方法およびプログラム |
-
2014
- 2014-03-31 JP JP2014071155A patent/JP6300601B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016126498A (ja) * | 2014-12-26 | 2016-07-11 | Kddi株式会社 | 形態素解析装置およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2015194801A (ja) | 2015-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6928448B1 (en) | System and method to match linguistic structures using thesaurus information | |
JP4931958B2 (ja) | テキスト要約方法、その装置およびプログラム | |
EP2950306A1 (en) | A method and system for building a language model | |
Graliński et al. | PSI-toolkit: A natural language processing pipeline | |
JP3372532B2 (ja) | 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体 | |
JP2006301446A (ja) | 読み生成装置、読み生成方法及びコンピュータプログラム | |
JP6680126B2 (ja) | 符号化プログラム、符号化装置、符号化方法、及び検索方法 | |
JP6300601B2 (ja) | 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム | |
US11842152B2 (en) | Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program | |
JP5623380B2 (ja) | 誤り文修正装置、誤り文修正方法およびプログラム | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP6619932B2 (ja) | 形態素解析装置およびプログラム | |
JP6300596B2 (ja) | 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム | |
JP2019159743A (ja) | 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム | |
Skurzok et al. | Ortfon2-tool for orthographic to phonetic transcription | |
JP5380566B2 (ja) | 言語処理装置、プログラムおよび方法 | |
KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
JP6565262B2 (ja) | 短縮文生成装置、方法、及びプログラム | |
KR102278288B1 (ko) | 음소 기반 텍스트 검색 장치 및 방법 | |
JP6003127B2 (ja) | 言語モデル作成プログラム及び言語モデル作成装置 | |
JP2004206659A (ja) | 読み情報決定方法及び装置及びプログラム | |
Bisazza | Designing a NooJ Module for Turkish Inflectional Analysis: an Example of Highly Productive Morphology | |
Strunk | Information retrieval for languages that lack a fixed orthography | |
JP6569543B2 (ja) | 短縮文生成装置、方法およびプログラム。 | |
Morgan | Grapheme to Phoneme Conversion: Using Input Strictly Local Finite State Transducers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160729 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170620 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170623 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170818 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6300601 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |