JP2007087397A - 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法 - Google Patents

形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法 Download PDF

Info

Publication number
JP2007087397A
JP2007087397A JP2006256410A JP2006256410A JP2007087397A JP 2007087397 A JP2007087397 A JP 2007087397A JP 2006256410 A JP2006256410 A JP 2006256410A JP 2006256410 A JP2006256410 A JP 2006256410A JP 2007087397 A JP2007087397 A JP 2007087397A
Authority
JP
Japan
Prior art keywords
morpheme
component
attribute
knowledge
components
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006256410A
Other languages
English (en)
Inventor
Yao Meng
遥 孟
Hao Yu
浩 于
Fumito Nishino
文人 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2007087397A publication Critical patent/JP2007087397A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】形態素構成成分のバリエーションすべてを静的知識として入力することなく形態素解析の精度を向上させる。
【解決手段】日本語、中国語、英語等の言語テキストやゲノムの記号列などのテキストに対して、意味の最小単位である形態素に分割し、必要に応じて品詞等の分割単位のカテゴリのラベリングを施す形態素解析において、入力されたテキストを形態素を構成する文字や文字要素である形態素構成成分に分割し、あらかじめ記憶された形態素構成成分属性付け知識によって各形態素構成成分に属性を付与し、形態素構成成分から形態素を構成するあらかじめ記憶された形態素構成成分合成知識によって形態素構成成分を合成する。
【選択図】 図1

Description

本発明は、入力された記号シーケンスから特定の構成要素を同定する技術、特に、形態素構成成分属性ラベリングに基づいて言語の文法的あるいは意味論的構成要素を同定する技術及び遺伝子グループシーケンスを分析する技術、具体的には、形態素構成成分ラベリングに基づいた言語構成要素の同定及び補正をおこなう装置及びその方法に関する。
言語は記号体系であり、意味のある最小のユニットは形態素構成成分である。形態素構成成分は単語を構成し、単語は更に上位の構成要素を構成するので、結局階層構造が構成される。入力された文章の構文論的及び意味論的構成要素を同定することは言語処理の主要課題である。今までこの点に関する研究について多くの論文や特許が公開されている。
中国特許第1107276C号明細書 中国特許出願公開第1471024A号明細書 米国特許第6,640,006号明細書 米国特許第5,225,981号明細書 Sproat, Richard and Tom Emerson. 2003. The first international Chinese word segmentation bakeoff. In: SIGHAN 2003 Sproat, Richard and Chilin Shih. 2002. Corpus-based method in Chinese morphology and phonology. In: COLING 2002 Hua-Ping Zhang, Hong-Kui Yu, De-Yi Xiong and Qun Liu, HHMM-based Chinese Lexical Analyzer ICTCLAS, proceedings of 2nd SigHan Workshop, July, 2003, pp.184-187 Jianfeng Gao, Andi Wu, Mu Li, et al. 2004. Adaptive Chinese word segmentation. In ACL 2004 Michael Collins Three Generative, Lexicalized Models for Statistical Parsing. In ACL 1997
しかしながら、前述した参照文献で提案した方法はすべて、同定プロセスにおいて単語を最小のユニットと見做し、形態素構成成分を使用しない。事実、幾つかの言語では、単語が意味のある最小の言語単位ではない。これら言語に関する限り、言語体系の本質を発見し、単語というよりは形態素構成成分に基づいてより良い構文解析成果を達成する方が望ましい。
本発明の目的は、形態素構成成分ラベリングに基づいて言語構成要素や遺伝子の同定及び補正を行うための装置及び方法を提供することである。この装置及び方法は、中国語や日本語の文章などの入力されたシーケンスから言語の構成要素を同定する。また、この装置及び方法は、ジェネティックグループから遺伝的な遺伝子を同定する。
本発明の技術的解決手段は以下の通りである。
日本語、中国語、英語等の言語テキストやゲノムの記号列などのテキストに対して、意味の最小単位である形態素に分割し、必要に応じて品詞等の分割単位のカテゴリのラベリングを施す形態素解析プログラムにおいて、入力されたテキストを形態素を構成する文字や文字要素である形態素構成成分に分割する形態素構成成分分割手順と、あらかじめ記憶された形態素構成成分属性付け知識によって各形態素構成成分に属性を付与する形態素構成成分属性付与手順と(このような知識は、入力されたシークエンスに含まれる各形態素構成成分に対してつぎの形態素構成成分属性付け手順が形態素構成成分属性を付与することを管理することができる。)、形態素構成成分から形態素を構成するあらかじめ記憶された形態素構成成分合成知識によって形態素構成成分を合成する形態素構成成分合成手順と、をコンピュータに実行させることにより形態素構成成分のバリエーションすべてを静的知識として入力することなく形態素解析の精度を向上させる形態素解析プログラムが提案されている。
また、本発明では、分析すべき言語構成要素の分類情報及び言語構成要素における形態素構成成分の位置情報に従って形態素構成成分属性を設定し、形態素構成成分属性がラベリングされたサンプルを学習することにより形態素構成成分属性付け知識を得て当該形態素構成成分属性付け知識を記憶する形態素構成成分属性付け知識学習手順(上記形態素構成成分属性は、必要な構成要素における形態素構成成分の位置情報及び必要な構成要素の分類情報を含むので、形態素構成成分属性は形態素構成成分と構成要素との間の関係を明らかにする。その結果、形態素構成成分属性付け知識は、形態素構成成分から必要な構成要素を形成する規則を表現することができる。)をさらにコンピュータに実行させ、形態素構成成分属性付与手順は、形態素構成成分属性付け知識学習手順により記憶された形態素構成成分属性付け知識によって各形態素構成成分に属性を付与する。
また、本発明では、形態素構成成分属性付け知識学習手順は、分析すべき言語構成要素の分類情報及び言語構成要素における形態素構成成分の位置情報に従って形態素構成成分属性集合を生成して形態素構成成分属性集合を記憶する形態素構成成分属性集合生成手順と、形態素構成成分属性集合によって、分析すべき言語構成要素でラベリングされたサンプルを形態素構成成分属性でラベリングされたサンプルに変換する形態素構成成分属性変換手順と(形態素構成成分属性は、形態素構成成分属性集合生成手順により生成される。)、統計的モデルによって表現された形態素構成成分属性ラベル知識を生成するため、分析すべき言語構成要素の内部構造、及び、言語構成要素と形態素構成成分を基本単位として用いる形態素構成成分属性がラベリングされたサンプルからの文脈との間の関係を学習し、形態素構成成分属性付け知識として記憶する形態素構成成分属性付け知識抽出手順と、をコンピュータに実行させる。
また、本発明では、分析すべき言語構成要素の分類情報及び言語構成要素における形態素構成成分の位置情報に従って形態素構成成分合成知識を生成し、生成された形態素構成成分合成知識を記憶する形態素構成成分合成知識生成手順をさらにコンピュータに実行させ、形態素構成成分合成手順は、形態素構成成分合成知識生成手順により記憶された形態素構成成分合成知識によって形態素構成成分を合成する。
また、本発明では、分析すべき言語構成要素のリストを言語構成要素の言語リソースとして生成するため、言語構成要素でラベリングされたサンプルから分析すべき言語構成要素を言語リソースとして抽出することにより言語リソースと、分析すべき言語構成要素に係るさまざまなレベルの言語リソース及び知識とを記憶する言語リソース抽出手順をさらにコンピュータに実行させ(このリストは言語リソースの一種で、構成要素の同定を管理することができる。)、形態素構成成分属性付与手順は、形態素構成成分属性付け知識学習手順により記憶された形態素構成成分属性付け知識と、言語リソース抽出手順により記憶された言語リソース及び知識とによって各形態素構成成分に属性を付与する。
また、本発明では、形態素構成成分属性付与手順は、形態素構成成分属性付け知識を用いて形態素構成成分属性の候補を生成する候補生成手順と、候補生成手順によって生成された形態素構成成分属性候補のエラーを除去するため、言語構成要素のリストなどの言語リソース及び知識を用いて形態素構成成分属性の候補をフィルタリングするエラー除去手順と、入力されたシーケンスに対する形態素構成成分属性の最適なラベリング結果を生成するため、形態素構成成分属性の候補から各形態素構成成分に対して最も可能性のある形態素構成成分属性を選択する最適結果選択手順と、をさらにコンピュータに実行させる。
また、本発明では、言語構成要素の分類情報のラベリングをおこなう言語構成要素ラベリングの補正プログラムにおいて、他の言語構成要素同定システムによって与えられた分析結果を含む記号シーケンスを受信する入力手順と、エラー位置を検出するため、補正すべき入力された記号シーケンスをチェックするエラー位置検出手順と、エラー位置検出手順により検出されたエラー位置にある各形態素構成成分にあらかじめ記憶された形態素構成成分属性付け知識によって属性を付与する形態素構成成分属性付与手順と(エラー位置は、前述したエラー位置検出手順において検出される。形態素構成成分は、形態素構成成分と形態素構成成分属性との間の関係の規則に基づいてラベリングされる。)、形態素構成成分から形態素を構成するあらかじめ記憶された形態素構成成分合成知識によって形態素構成成分を結合して言語構成要素を生成し、各言語構成要素の分類情報をラベリングする構成要素生成手順と(形態素構成成分属性は、形態素構成成分属性付与手順により生成される。)、構成要素生成手順によりなされたラベリングの結果を出力する出力手順と、
をコンピュータに実行させることを特徴とする補正プログラムをさらに提案する。
また、本発明では、中国語のテキストに対して、意味の最小単位である単語に分割し、必要に応じて品詞等の分割単位のカテゴリのラベリングを施す形態素解析プログラムにおいて、入力されたテキストを単語を構成する文字に分割する文字分割手順と、あらかじめ記憶された文字属性付け知識によって各文字に属性を付与する文字属性付与手順と、文字から単語を構成するあらかじめ記憶された文字合成知識によって文字を合成する文字合成手順と、をコンピュータに実行させることにより文字のバリエーションすべてを静的知識として入力することなく形態素解析の精度を向上させる形態素解析プログラムをさらに提案する。
また、本発明では、日本語、中国語、英語等の言語テキストやゲノムの記号列などのテキストに対して、意味の最小単位である形態素に分割し、必要に応じて品詞等の分割単位のカテゴリのラベリングを施す形態素解析装置において、入力されたテキストを形態素を構成する文字や文字要素である形態素構成成分に分割する形態素構成成分分割手段と、形態素構成成分属性付け知識を記憶する形態素構成成分属性付け知識記憶手段と、形態素構成成分属性付け知識によって各形態素構成成分に属性を付与する形態素構成成分属性付与手段と、形態素構成成分から形態素を構成する形態素構成成分合成知識を記憶する形態素構成成分合成知識記憶手段と、形態素構成成分合成知識によって形態素構成成分を合成する形態素構成成分合成手段と、を備えることにより形態素構成成分のバリエーションすべてを静的知識として入力することなく形態素解析の精度を向上させる形態素解析装置をさらに提案する。
また、本発明では、他の言語構成要素同定システムによって与えられた分析結果を含む記号シーケンスを受信する入力手段を備え、言語構成要素の分類情報のラベリングをおこなう言語構成要素ラベリングの補正装置において、エラー位置を検出するため、補正すべき入力された記号シーケンスをチェックするエラー位置検出手段と、形態素構成成分属性付け知識を記憶する形態素構成成分属性付け知識記憶手段と、形態素構成成分属性付け知識によってエラー位置検出手段により検出されたエラー位置にある各形態素構成成分に属性を付与する形態素構成成分属性付与手段と、形態素構成成分から形態素を構成する形態素構成成分合成知識を記憶する形態素構成成分合成知識記憶手段と、形態素構成成分合成知識によって形態素構成成分を結合して言語構成要素を生成し、各言語構成要素の分類情報をラベリングする構成要素生成手段と、構成要素生成手段によりなされたラベリングの結果を出力する出力手段と、を備えたことを特徴とする補正装置をさらに提案する。
また、本発明では、中国語のテキストに対して、意味の最小単位である単語に分割し、必要に応じて品詞等の分割単位のカテゴリのラベリングを施す形態素解析装置において、入力されたテキストを単語を構成する文字に分割する文字分割手段と、文字属性付け知識を記憶する文字属性付け知識記憶手段と、文字属性付け知識によって各文字に属性を付与する文字属性付与手段と、文字から単語を構成するあらかじめ記憶された文字合成知識によって文字を合成する文字合成手段と、を備えることにより文字のバリエーションすべてを静的知識として入力することなく形態素解析の精度を向上させる形態素解析装置をさらに提案する。
また、本発明では、日本語、中国語、英語等の言語テキストやゲノムの記号列などのテキストに対して、意味の最小単位である形態素に分割し、必要に応じて品詞等の分割単位のカテゴリのラベリングを施す形態素解析方法において、入力されたテキストを形態素を構成する文字や文字要素である形態素構成成分に分割する形態素構成成分分割工程と、あらかじめ記憶された形態素構成成分属性付け知識によって各形態素構成成分に属性を付与する形態素構成成分属性付与工程と、形態素構成成分から形態素を構成するあらかじめ記憶された形態素構成成分合成知識によって形態素構成成分を合成する形態素構成成分合成工程と、を含むことにより形態素構成成分のバリエーションすべてを静的知識として入力することなく形態素解析の精度を向上させる形態素解析方法をさらに提案する。
また、本発明では、言語構成要素の分類情報のラベリングをおこなう言語構成要素ラベリングの補正方法において、他の言語構成要素同定システムによって与えられた分析結果を含む記号シーケンスを受信する入力工程と、エラー位置を検出するため、補正すべき入力された記号シーケンスをチェックするエラー位置検出工程と、エラー位置検出工程により検出されたエラー位置にある各形態素構成成分にあらかじめ記憶された形態素構成成分属性付け知識によって属性を付与する形態素構成成分属性付与工程と、形態素構成成分から形態素を構成するあらかじめ記憶された形態素構成成分合成知識によって形態素構成成分を結合して言語構成要素を生成し、各言語構成要素の分類情報をラベリングする構成要素生成工程と、構成要素生成工程によりなされたラベリングの結果を出力する出力工程と、を含んだことを特徴とする補正方法をさらに提案する。
本発明の利点は、形態素構成成分によって必要な構成要素の形成規則を表現し、このような形成規則によって必要な構成要素を同定することにある。本発明は、まず、この言語学的構成要素における分析すべき言語学的構成要素の属性情報及び形態素構成成分の位置関係によって、形態素構成成分の属性ラベル集合を構築し、言語学的構成要素のラベリングされたサンプルから、形態素構成成分と形態素構成成分属性との間の関係の規則を得るために学習する。入力されたシーケンスにある各形態素構成成分は形態素構成成分属性によってラベリングされる。形態素構成成分属性は必要な構成要素の分類情報及び形態素構成成分の位置情報を含むので、必要な構成要素の境界及び構成要素の分類は、入力されたシーケンスの形態素構成成分属性シーケンスから得ることができる。本発明は、中国語、日本語などの言語の単語、品詞、句及び句の属性を同定するための個別文法的/意味論的構成要素同定システムとして具現化される。同時に、もとのシステムの分析における正確性を高めるため、他の同定システムにより出力された結果を再分析するための他の言語学的構成要素同定システムとも組み合わせることができる。また、本発明で提案した方法は、遺伝子グループシーケンスを分析するか、あるいはこれと同様に、入力された記号シーケンスから特定の構成要素を同定するという課題にも適用される。本発明は、中国語の単語分割及び品詞ラベリング問題を解決するのに特に好適であり、本発明によって具現化される中国語の形態論分析システムは分析結果が極めて良好なものとなる。
以下、本発明の具体的な実施形態を添付図面を参照して説明する。まず、本発明による形態素構成成分、形態素構成成分属性集合及び形態素構成成分属性ラベリングを以下のように定義する。
定義1:形態素構成成分:言語の意味のある最小の構成要素。
定義2:形態素構成成分群:形態素構成成分で構成された上位の文法的または意味論的構成要素;形態素構成成分群属性は、それが示す言語学的構成要素の文法的あるいは意味論的分類情報である。
定義3:言語学的構成要素分析:入力された文章から必要な形態素構成成分群及び形態素構成成分群の属性を自動的に同定する。
n個の形態素構成成分を含む記号シーケンスSが与えられると、その文章はc12・・・cn-1nと表わすことができる。上記記号シーケンスがk個の言語学的構成要素を含み、対応する属性がそれぞれt1〜tkであるとすると、Sの言語学的構成要素分析の結果は次のような形式で表される。
S’:
Figure 2007087397
ここで、
Figure 2007087397
は文章の最初の形態素構成成分群であり、その形態素構成成分群属性はt1であり、
Figure 2007087397
は文章の最後の形態素構成成分群であり、その形態素構成成分群属性はtkである。前述した表現形式に従い、さらに三つの定義を以下に述べる。
定義4:形態素構成成分位置属性:形態素構成成分位置属性は、形態素構成成分群において形態素構成成分が位置する可能性がある位置を示す。形態素構成成分は、言語学的構成要素において5つの位置に位置する可能性がある。すなわち、形態素構成成分そのものが個別的に形態素構成成分群を構成する場合、形態素構成成分が形態素構成成分群の最初の形態素構成成分である場合、形態素構成成分が形態素構成成分群の中間にある場合、形態素構成成分が形態素構成成分群の最後のものである場合、形態素構成成分が必要な形態素構成成分群を構成しない場合である。ここで単一の形態素構成成分からなる形態素構成成分群、最初の形態素構成成分、中間の形態素構成成分、最後の形態素構成成分、非形態素構成成分群の形態素構成成分をそれぞれ表すため、記号S、F、M、L及びUを用いる。
定義5:形態素構成成分属性:形態素構成成分位置属性と形態素構成成分群属性との組み合わせであり、形態素構成成分から形態素構成成分群を形成する規則を示すものである。形態素構成成分属性集合は、形態素構成成分属性集合={tp|tp∈{t×p}∪{U}}となる。ここで、t∈{形態素構成成分群属性}、p∈{S,F,M,L}である。
定義6:形態素構成成分属性ラベリング:入力された文章が与えられた場合、文章中の各形態素構成成分に形態素構成成分属性ラベルを付与するプロセス。例えば前述した文章を、形態素構成成分属性ラベルを用いることで、Sn”:c1/tp12/tp2・・・cn-1/tpn-1n/tpnと表すことができる。
中国語を例に挙げれば、文字が中国語の形態素構成成分であり、分析すべき構成要素が単語である。
n個の文字を含む文章Sが与えられた場合、その文章は、c12・・・cn-1nのように表される。文章がk個の単語を含み、その品詞がそれぞれt1〜tkであると仮定した場合、Sの品詞のラベリング結果は以下のように表される:
Figure 2007087397
ここで、
Figure 2007087397
は、文章の最初の形態素構成成分群であり、その品詞はt1である。
Figure 2007087397
は、文章の最後の形態素構成成分群であり、その品詞はtkである。
図1には本発明による形態素構成成分ラベリングに基づいた言語構成要素の同定装置が示されている。この装置は、分析すべき記号シーケンスを入力する入力部と、分析すべき言語構成要素の分類情報及び言語構成要素における形態素構成成分の位置によって形態素構成成分属性を生成し、分析すべき言語構成要素のラベリングされたサンプルにおける形態素構成成分と形態素構成成分属性との間の関係の規則を学習して得る形態素構成成分学習部と、形態素構成成分属性がラベリングされたシーケンスを生成するため、形態素構成成分学習部による学習により得られた形態素構成成分と形態素構成成分属性との間の関係の規則に従って、分析すべき入力された記号シーケンスに対して形態素構成成分属性のラベリングをおこなう形態素構成成分属性ラベリング部と、形態素構成成分属性ラベリング部によって生成された形態素構成成分属性がラベリングされたシーケンスから、必要な言語構成要素及び言語構成要素の分類マークを同定する分析構成要素合成部と、分析構成要素合成部による同定の結果を出力する出力部とを備える。
入力部はコンピュータであってよく、入力部は分析すべき記号シーケンスをコンピュータのキーボードによって入力する。あるいは、分析すべき記号シーケンスはネットワーク(例えば、LANやインターネットなど)を介して入力部に入力されてもよく、この場合、入力部はネットワークインターフェースの形態で構成されてもよい。また、スキャナや記憶手段(ハードウェア駆動装置)などを分析すべき記号シーケンスを入力部に入力するために用いてもよい。この場合、入力部はデータ通信のために記憶手段に接続可能な仕様に合うように構成されてもよい(例えば、有線接続の仕様としてはUSB[Universal Serial Bus]が利用でき、無線接続の仕様としてはブルートゥースなどが利用できる)。さらに、記憶媒体(さまざまなフラッシュメモリやフロッピィーディスク[登録商標]、CD[Compact Disc]、DVD[Digital Versatile Disc, Digital Video Disc])に記憶された分析すべき記号シーケンスが入力部に入力されることとしてもよい。この場合、入力部は記憶媒体からデータを読み取る装置(フラッシュメモリリーダやフロッピィーディスク駆動装置、CD駆動装置、DVD駆動装置)で構成されてもよい。
また、入力部は、前述した全ての場合に適合するように構成されてもよい。
出力部はネットワークを介して分析構成要素合成部による同定の結果を出力するが、この場合、出力部はネットワークインターフェースで構成されてもよい。また、分析構成要素合成部による同定の結果は他の情報処理装置やパーソナルコンピュータなどの記憶手段にも出力することができ、この場合、出力部はデータ通信のために他の情報処理装置やパーソナルコンピュータなどの記憶手段に接続可能な仕様に従うように構成されてもよい。さらに、分析構成要素合成部による同定の結果は、記憶媒体への出力(記憶媒体からの読み取り)が可能であるが、この場合出力部はこのような記憶手段や記憶媒体にデータを書き込む装置(フラッシュメモリ記憶装置やフロッピィーディスク駆動装置、CD−R駆動装置及びDVD−R駆動装置など)で構成されてもよい。
出力部によって出力される分析構成要素合成部による同定の結果の特別な目的の例をさらに説明する。例えば、分析構成要素合成部による同定の結果をディスプレイ装置に出力するには、出力部から出力されたデータを用いることとしてもよい。そのような状況下では、出力部は、例えば、ディスプレイ装置との間でデータ通信を行うインターフェースとして構成され、あるいは、ディスプレイ装置に接続されたインターフェースとして構成され、あるいは、データを内蔵型の情報処理装置に提供するインターフェースとして構成される。
また、出力部は、前述した全ての場合に適合するように構成されてもよい。
図2に示されるように、形態素構成成分属性ラベリングに基づいた言語構成要素の同定方法及び装置の具体的な実施形態において、モジュール(ユニット)202と204とは形態素構成成分学習部を構成する主要ユニットで、形態素構成成分属性変換部(ユニット)202は、形態素構成成分属性設定部208によって生成された形態素構成成分属性集合(モジュール209)を用いて言語学的構成要素でラベリングされたサンプルを形態素構成成分属性でラベリングされたサンプルに変換する。モジュール204は、形態素構成成分属性がラベリングされたサンプルから形態素構成成分と形態素構成成分属性との間の関係の規則を学習する。学習された規則は、形態素構成成分属性ラベリング部によりなされる各形態素構成成分に対する形態素構成成分属性のラベリングを管理する知識である。モジュール212と213とは同定部を構成するが、モジュール212は、モジュール204によって学習され、形態素構成成分属性がラベリングされた知識を用い、人為的な一般化から得られた知識、あるいは、ラベリングされたサンプルから学習された知識の案内下で、入力された記号シーケンスに関する形態素構成成分属性のラベリングを行う。モジュール213は、形態素構成成分の組み合わせ規則に従って形態素構成成分属性のラベリング結果を組み合わせ、言語学的構成要素の分析結果を生成し、分析された言語構成要素の分類属性をラベリングする。モジュール202が言語構成要素がラベリングされたサンプルを形態素構成成分属性がラベリングされたサンプルに変換する処理は以下のとおりである。
ラベリングされたサンプルにおいて、c1・・・ciという形態素構成成分から構成される任意の形態素構成成分群について、形態素構成成分属性がtであると仮定する。このとき、
i=1であれば、c1の形態素構成成分属性はtSである。
i=2であれば、c1の形態素構成成分属性はtFであり、c2の形態素構成成分属性はtLである。
i>2であれば、c1の形態素構成成分属性はtFであり、c2・・・ci-1の形態素構成成分属性はtMであり、ciの形態素構成成分属性はtLである。
どの形態素構成成分群にも属さない形態素構成成分の形態素構成成分属性は、Uである。
中国語の単語分割と品詞ラベリングとを例に挙げると、ラベリングされたサンプルは以下のようになる。
[文字1]
Figure 2007087397
ラベリングされた文字のシーケンスは
[文字2]
Figure 2007087397
となる。
モジュール204は、形態素構成成分属性を有するサンプルから形態素構成成分属性のラベリング知識を学習する。このラベリング知識は、入力された文章における各形態素構成成分の形態素構成成分属性をラベリングするために利用される。形態素構成成分属性がラベリングされた知識は、規則や統計に基づいて、教師ありまたは教師なしなど、さまざまな方法で学習される。具体的な例として、本発明では、形態素構成成分と形態素構成成分属性との間の関係を学習するため、隠れマルコフモデル(Hidden Markov Model)を採用する。その学習プロセスは、以下のようなものである。
入力された文章S:c12・・・cn-1nが既知であり、それに対応する形態素構成成分属性シーケンスがTP:tp1tp2・・・tpn-1tpnであるとする。
入力された文章に対する形態素構成成分属性シーケンスTPの確率は
Figure 2007087397
(公式1)となる。ここで、遷移確率と出力確率は最大尤度により推定される。従って、上記遷移確率は、
Figure 2007087397
となる(公式2)。ここで、
Figure 2007087397
である。
モジュール205に記憶される形態素構成成分属性ラベリング知識は、形態素構成成分属性のラベリング知識である。この知識は、モジュール203に記憶されたサンプル(コーパスラベリング形態素構成成分属性)からモジュール204を介して得られる。
モジュール206は、構成要素の同定を管理するため、分析すべき構成要素のリストを構築するために構成要素でラベリングされたコーパスから、分析すべき構成要素を言語リソースとして抽出し、モジュール207(言語リソース及び知識記憶部)に記憶する。モジュール207は、たとえば、構成要素の構文論的あるいは意味論的情報や、言語の特徴、記号体系などに対する特徴などの、分析すべき構成要素に関連するリソースやさまざまなレベルの知識を同時に記憶する。このようなリソース及び知識は、形態素構成成分ラベリングを行うため、形態素構成成分属性ラベリング部212に入力される。
モジュール208は、分析すべき構成要素の分類属性及び分析すべき構成要素における形態素構成成分の位置情報に従って形態素構成成分属性集合、構成要素分解規則及び形態素構成成分組み合わせ規則を生成し、生成された形態素構成成分属性集合を形態素構成成分属性集合記憶部209に記憶する。形態素構成成分属性集合の生成プロセスは、以下のようなものである。
まず、t∈{構成要素分類マーク}、p∈{S,F,M,L,U}であると仮定する。ここで、S、F、M、L、Uはそれぞれ、単一の形態素構成成分が独立した構成要素である場合、単一の形態素構成成分が複数の形態素構成成分からなる構成要素の最初の形態素構成成分である場合、単一の形態素構成成分が複数の形態素構成成分からなる構成要素の中間の形態素構成成分である場合、単一の形態素構成成分が複数の形態素構成成分からなる構成要素の最後の形態素構成成分である場合、単一の形態素構成成分が構成要素に含まれない形態素構成成分である場合を示す。形態素構成成分属性の形態はtpであり、tp∈{構成要素分類マーク}×{S,F,M,L,U}と表される。
モジュール212はモジュール205とモジュール207によって提供された知識に従い、入力されたテキストに関する形態素構成成分ラベリングを行う。形態素構成成分属性ラベリング部(モジュール212)は3つの下位要素で構成され、その構造は図3に示されている。
ここで、モジュール304はラベリング候補生成部である。モジュール304は、モジュール301に記憶された形態素構成成分属性のラベリング知識を用いて、各形態素構成成分に対して形態素構成成分属性のすべての候補を生成する。モジュール304は、入力されたテキストの各形態素構成成分のすべてのあり得る形態素構成成分属性を得て、入力されたテキストの潜在的な形態素構成成分ラベルの候補を生成する。
モジュール305は、モジュール304によって生成された候補をフィルタリングする。そして、モジュール305は、モジュール302にある言語リソースや知識と矛盾する候補を除去する。
モジュール305によって生成された結果について最適なラベルを選択する処理はモジュール306により行われる。モジュール306は、形態素構成成分と形態素構成成分属性との間の関係に従ってモジュール305により入力されたラベル候補を評価し、最適な形態素構成成分属性のラベリング結果を出力する。
最適結果選択モジュール(すなわちモジュール306)は、通常学習モデルと組み合わせて用いられる。学習モデルが形態素構成成分属性のラベリング規則を得るため、隠れマルコフモデルを用いる場合、モジュール212の形態素構成成分属性ラベリングプロセスは、入力されたテキストの形態素構成成分ラベルの候補を評価するため、隠れマルコフモデルを用い、形態素構成成分シーケンスS:c12・・・cn-1nを入力する。ここで、隠れマルコフモデルに基づいた最適な形態素構成成分属性がラベリングされたシーケンスは、
Figure 2007087397
(公式3)となる。
モジュール212によって出力され、形態素構成成分属性がラベリングされたシーケンスは、モジュール213に入り、モジュール213は、形態素構成成分の組み合わせ規則に従って、その形態素構成成分を結合し、分析すべき文法的あるいは意味論的構成要素を生成し、この構成要素の対応する分類マークのラベリングを行う。
入力された文章の形態素構成成分属性シーケンスは、以下に示す工程により、分析すべき構成要素の同定情報に変換される。
形態素構成成分属性がtSである形態素構成成分は、文法的または意味論的属性がtであり、それ自体で言語学的構成要素を構成する。
形態素構成成分属性がtFである形態素構成成分から始まり、形態素構成成分属性tMを0個または複数含む中間形態素構成成分に至って、形態素構成成分属性がtLである形態素構成成分で終わる形態素構成成分シーケンスのセグメントは、文法的または意味論的属性がtであり、言語学的構成要素として結合される。
形態素構成成分属性がUである形態素構成成分は分析すべき言語学的構成要素を構成しない。
本発明による形態素構成成分ラベリングに基づく言語構成要素補正装置及び方法の具体的な実施形態には、他の言語構成要素の同定システムから出力された補正すべき記号シーケンスを受信するための入力部と、補正すべき言語構成要素の分類情報及び言語構成要素における形態素構成成分の位置によって形態素構成成分属性を生成し、補正すべき言語構成要素のラベリングされたサンプルにおける形態素構成成分と形態素構成成分属性との間の関係の規則を学習して得る形態素構成成分学習部と、エラー位置を探すため、補正すべき入力された記号シーケンスをチェックするエラー位置探索部と、形態素構成成分属性がラベリングされたシーケンスを生成するため、形態素構成成分学習部が学習して得た形態素構成成分と形態素構成成分属性との間の関係の規則に従って、補正すべき入力された記号シーケンスにおけるエラー位置に対して形態素構成成分属性をラベリングする形態素構成成分属性ラベリング部と、形態素構成成分属性ラベリング部によって生成され、形態素構成成分属性がラベリングされたシーケンスから必要な言語構成要素と言語構成要素の分類マークとを同定する分析構成要素合成部と、分析構成要素合成部の同定結果を出力する出力部が含まれる。
このように、本発明は、中国語、日本語などの言語の単語、品詞、句及び句の属性を同定するための個々の文法的あるいは意味論的構成要素の同定システムとして具現化される。同時に、本発明は、もとのシステムにおける分析の正確性を高めるため、他の言語構成要素同定システムと組み合わせ、他の同定システムにより出力された結果を再分析することもできる。形態素構成成分属性のラベリングに基づく言語構成要素の同定のためのポストプロセッシング装置が図4に示されている。本発明のポストプロセッシング装置への入力によって、他の言語構成要素同定装置によって生成された最初の分析結果が、形態素構成成分属性のラベリングに基づく構成要素同定装置に入力される。この装置は、もとの出力された結果においてエラーが発生する可能性のある箇所を再分析し、もとの結果のエラーを補正する。
モジュール402は、エラー分析から得た知識を用いて最初の分析結果を分析し、最初の分析結果でエラー発生する可能性がある範囲を決定し、形態素構成成分ラベルの候補を生成するため、それを形態素構成成分ラベル候補生成部に入力する。ここで、エラーが発生する可能性のある範囲における形態素構成成分の形態素構成成分属性は、モジュール408(形態素構成成分属性ラベリング知識)から得た形態素構成成分ラベリング知識に基づいてラベリングされる。誤りが発生する可能性がある範囲の外にある他の形態素構成成分の形態素構成成分属性は、最初の結果と同一である。すなわち、これらの形態素構成成分の形態素構成成分属性は、構成要素内での位置と構成要素の分類とから直接変換される。
モジュール403は、以下の原理に基づいて各形態素構成成分に対する形態素構成成分属性の候補を生成する。
a.エラーが発生する可能性のある範囲内に含まれない構成要素は、正しい構成要素と見なされる。
b.正しい構成要素のすべての形態素構成成分における形態素構成成分属性の候補は、正しい構成要素における形態素構成成分の位置及び正しい構成要素の属性と矛盾しない。
c.エラーが発生する可能性のある範囲内に含まれる形態素構成成分は、形態素構成成分属性ラベリング知識に基づいて形態素構成成分属性が生成される。
モジュール403により生成されたすべての形態素構成成分ラベルの候補は、最適な候補を選択する最適ラベル結果選択部404に入力される。最適ラベル結果選択部404は、図3のモジュール306と同様の機能を有する構成部である。
最適ラベル結果は、分析構成要素合成部405に入力される。図4の分析構成要素合成部405は、図2のモジュール213と同様の機能を有する構成部である。
分析構成要素合成部405によって出力された結果は、最初の分析結果に対する補正結果である。
本発明で提案されたポストプロセッシング方法は、もとの方法によって誤って同定された言語学的構成要素、あるいは、正しく同定することができなかった言語学的構成要素を処理することができる。上記方法が構成要素の形成規則を最小の意味のあるユニット、すなわち、形態素構成成分により表現するので、構成要素同定システムが学習データに表われない新しい構成要素を検出することを支援することができる。
本発明による文字属性のラベリングに基づいた中国語構成要素同定装置及び方法の具体的な実施例には、分析すべき中国語テキストシーケンスを入力する入力部と、単語内の文字の位置および単語の品詞によって文字属性を生成し、中国語の単語分割及び分析すべき品詞のラベリングされたサンプルにおける文字及び文字属性との間の関係の規則を学習して得る文字属性学習部と、文字属性がラベリングされたシーケンスを生成するため、文字属性学習部による学習で得られた文字と文字属性との間の関係の規則に従って、分析すべき入力された中国語テキストシーケンスに対する文字属性のラベリングをおこなう文字属性ラベリング部と、入力された中国語文章の区分及び品詞のタグ付け結果を生成するため、入力された文章の文字属性シーケンスにより単語及び単語の品詞を同定する単語・品詞タギング部と、単語・品詞タギング部によって生成された形態論的結果を出力する出力部が含まれる。
中国語の単語間にはマークがないので、形態論的分析が中国語文法構成要素分析の重要な課題である。本発明で提案された形態素構成成分に基づく言語文法的構成要素分析方法は、中国語形態論的分析の問題を解決するのに用いることができる。文字属性のラベリングに基づく隠れマルコフモデルを用いる中国語形態論的分析装置は、形態論に基づく言語学的構成要素同定方法の実際例として理解される。
本発明による中国語形態論的分析では、形態素構成成分は中国文字であり、単語は分析すべき言語学的構成要素である。同時に、形態素構成成分群ラベル集合は、中国語の品詞のラベル集合である。形態素構成成分属性は、文字属性であり、その形態はtpである。ここで、t∈{品詞の識別子}、p∈{S,F,M,L}であり、S、F、M、Lはそれぞれ、単語としての単一文字、複数の文字からなる単語の最初の文字、複数の文字からなる単語の中間の文字、複数の文字からなる単語の最後の文字を表す。
tp∈{品詞の識別子}×{S,F,M,L}。
文字属性のラベリングに基づく中国語形態論的分析装置の処理が図5に示されている。
この装置は、形態素構成成分に基づいた言語構成要素同定装置のさらに具体的な例でもあって、この装置の操作プロセスは、本発明による形態素構成成分に基づく言語構成要素同定装置の操作プロセスと同一である。
モジュール501は、単語分割と品詞ラベリングの言語学的データを、文字ラベリングの言語学的データとしてマッピングするものであり、その変換プロセスは以下のようになる。
言語学的データのある特定の単語が中国文字c1・・・ciで構成され、品詞がtであるものとすると、
i=1であれば、c1の文字ラベルはtSである。
i=2であれば、c1の文字ラベルはtFであり、c2の文字ラベルはtLである。
i>2であれば、c1の文字ラベルはtFであり、c2・・・ci-1の文字ラベルはtMであり、ciの文字ラベルはtLである。
例えば、ラベリングされた文章
[文字1]
Figure 2007087397
は、ラベリングされた文字のシーケンスとしてマッピングされる。
[文字2]
Figure 2007087397
モジュール504は、隠れマルコフモデルを用いて文字から文字属性への関係を抽出する文字属性のラベリングを学習するものである。入力された中国文字シーケンスは隠れマルコフプロセスの観測チェーンとして抽出され、最適な文字属性シーケンスを計算するプロセスは、現在の観察シーケンスにおいて最適な対応する状態シーケンスを選択するプロセスと見なされる。モデルを構築する基本プロセスは以下のようなものである。
既知の入力された文章Sが、c12・・・cn-1nであり、対応する文字属性がラベリングされたシーケンスTPが、tp1tp2・・・tpn-1tpnであるものとする。このとき、
Figure 2007087397
Figure 2007087397
Figure 2007087397
となる。
隠れマルコフモデルを構築する間に得られた文字と文字属性ラベルとの間の確率分布は、分析用にモジュール505(文字属性ラベル知識記憶部)に記憶される。
モジュール509は、中国語テキストで入力された各単語を、現在の文脈の下、最適な文字属性でラベリングし、テキストの文字属性がラベリングされたシーケンスを出力する。モジュール509は主に、文字属性生成部、エラー候補除去部、最適結果選択部を含み、このモジュールの構造は図6に示されている。
モジュール601に記憶された文字属性ラベリング知識は、図5のモジュール504によって文字属性がラベリングされたサンプルから学習により得られる。モジュール504が隠れマルコフモデルを用いて文字属性ラベル知識を学習した場合、図6のモジュール601は、潜在的な文字属性、文字属性から文字への投影確率、各中国文字の文字属性間の遷移確率を記憶する。
図6の文字属性生成部(すなわち、モジュール604)は、モジュール601に含まれる文字属性ラベル知識に対して問い合わせをおこない、文章に入力された各文字の潜在的な文字属性の候補を提供する。
中国語の単語形成規則は極めて柔軟であるので、各文字の文字属性候補は比較的規模が大きくなる。従って、モジュール602は、単語形成規則及び頻繁に表われる単語の辞書を用いて、文法に合わない文字属性候補を大部分除去する。この除去プロセスは、以下のようなものである。
a.単語を形成することができない文字属性候補を除去する。例えば、最初の文字の文字属性候補にあるxM及びxLクラスのすべての文字属性や、最後の文字の文字属性候補にあるxM及びxFクラスのすべての属性を除去する(ここで、xは任意の単語の属性である)。
b.もし文字属性候補によって形成され得る単語が辞書にある単語であれば、この単語の文字の文字属性は、辞書にある単語の品詞と一致しなければならない。もしその単語が辞書になければ、その単語は現在の文脈において辞書にあるいかなる単語によっても包括されない1つ以上の単一文字を含まなければならない。
モジュール605のフィルタリング後に保持された文字属性候補は、最適ラベリング候補選択部(すなわちモジュール606)に入力され、モジュール606により文字属性ラベル知識に従って最適な文字属性ラベル結果が選択される。文字属性ラベル結果の評価に隠れマルコフモデルが用いられる場合、文章c12・・・cn-1nの最適な文字属性がラベリングされたシーケンスは、
Figure 2007087397
となる。
文字属性がラベリングされた出力シーケンスは、図4のモジュール405によって、単語分割及び入力されたテキストの品詞のラベリング結果を用いて統合される。この統合プロセスは、以下のようなものである。
単一の単語としてマッピングされ、品詞がtであるすべての文字属性はtSである。
文字が単語の最初の文字である場合、すべての文字属性はtFである。文字が単語の中間の文字である場合、文字属性はtMである。文字が単語の最後の文字である場合、文字属性はtLである。文字は、品詞がtである場合に単語を形成するために結合される。
以下に、本発明の各装置及び方法の分析プロセスの例を具体的に説明する。
分析すべき文章は、
[文字3]
Figure 2007087397
である。
この文章は、幾つかの異なる区分解釈を含む。図10における各弓形曲線は、一つの区分モードを示し、実線の弓形曲線により示される区分モードだけが正しい区分モードである。
文章にある
[文字4]
Figure 2007087397
は、異なる解釈の典型的な組み合わせである。これは、
[文字5]
Figure 2007087397

[文字6]
Figure 2007087397
との二つの区分可能性を有する。この文章では、
[文字6]
Figure 2007087397
が正しい区分である。
[文字6]
Figure 2007087397
と区分する場合の単語ノードの数は、
[文字5]
Figure 2007087397
と区分する場合の単語ノードの数より多くなる。単語に基づく分析モデルを用いるならば、単語に基づくモデルはノードの数がより少ない区分結果を選択する傾向があるので、正しい区分結果を得ることが難しくなる。本発明による文字属性のラベリングに基づく方法を採択すれば、区分バイアスの問題を避けることができるので、正しい結果を得ることができる。
本発明の分析プロセスは、以下のようなものとなる。
各文字の潜在的な文字属性ラベル候補は、文字の文字属性候補リストによって得られる。
例えば、三つの文字
[文字7]
Figure 2007087397
に含まれる潜在的な文字属性候補は、図7に示されるようなものとなる。
文字属性候補を大まかに選択するにはコア辞書が調べられ、現在の文脈下で現れることがない候補が除去される。最終的に生成された文字属性候補は、図8に示したようなものとなる。
すべての潜在的な文字属性に関するチェーンのラベリングが公式3を用いてなされ、これを評価して最適な結果を得る。この例における最適な文字属性のラベリングチェーンは、図9に示したようなものとなる。
それに対応する単語分割及び品詞のラベリング結果は、図11に示したようなものとなる。
本発明の有益な效果は、形態素構成成分に基づく言語学的構成要素の形成規則の研究及び言語学的構成要素の同定にある。本発明は、まず、この言語学的構成要素における分析すべき言語学的構成要素の属性情報及び形態素構成成分の位置関係によって、形態素構成成分の属性ラベル集合を構築し、言語学的構成要素のラベリングされたサンプルから、形態素構成成分と形態素構成成分属性との間の関係の規則を学習して得る。形態素構成成分属性ラベリングは、形態素構成成分属性がラベリングされたシーケンスから必要な言語学的構成要素及びこの構成要素の分類マークを同定するための学習された形態素構成成分属性のラベリング規則に従って、入力されたテキストに対して実行される。本発明は、中国語、日本語などの言語の単語、品詞、句及び句の属性を同定するための独立した文法的/意味論的構成要素同定システムとして具現化される。同時に、もとのシステムの分析における正確性を高めるため、他の言語学的構成要素同定システムとも組み合わせ、他の同定システムにより出力された結果を再分析することができる。また、本発明で提案した方法は、遺伝子グループシーケンスを分析するか、あるいはこれと同様に、入力された記号シーケンスから特定の構成要素を同定するという課題にも適用される。本発明は、中国語の単語分割及び品詞ラベリング問題を解決するのに特に好適であり、本発明によって具現化される中国語の形態論分析システムは分析結果が極めて良好なものとなる。
本発明の保護範囲は、請求の範囲に記述されている。本発明は、本発明で実行される処理を説明するための実例として中国語を用いている。しかし、本発明に記載した処理は、他の言語の文法的または意味論的構成要素の同定に同様に適用することができる。また、本発明による方法は、遺伝子グループシーケンスを分析するか、あるいはこれと同様に、入力された記号シーケンスから特定の構成要素を同定するという課題にも適用される。従って、他の言語や記号体系に適用されるといったさまざまな変更及び/または変化は、本発明の思想的要旨を越えるものではなく、本発明の保護範囲に該当することを理解されたい。
(付記1)日本語、中国語、英語等の言語テキストやゲノムの記号列などのテキストに対して、意味の最小単位である形態素に分割し、必要に応じて品詞等の分割単位のカテゴリのラベリングを施す形態素解析プログラムにおいて、
入力されたテキストを形態素を構成する文字や文字要素である形態素構成成分に分割する形態素構成成分分割手順と、
あらかじめ記憶された形態素構成成分属性付け知識によって各形態素構成成分に属性を付与する形態素構成成分属性付与手順と、
形態素構成成分から形態素を構成するあらかじめ記憶された形態素構成成分合成知識によって形態素構成成分を合成する形態素構成成分合成手順と、
をコンピュータに実行させることにより形態素構成成分のバリエーションすべてを静的知識として入力することなく形態素解析の精度を向上させる形態素解析プログラム。
(付記2)分析すべき言語構成要素の分類情報及び言語構成要素における形態素構成成分の位置情報に従って形態素構成成分属性を設定し、形態素構成成分属性がラベリングされたサンプルを学習することにより前記形態素構成成分属性付け知識を得て当該形態素構成成分属性付け知識を記憶する形態素構成成分属性付け知識学習手順をさらにコンピュータに実行させ、前記形態素構成成分属性付与手順は、前記形態素構成成分属性付け知識学習手順により記憶された形態素構成成分属性付け知識によって各形態素構成成分に属性を付与することを特徴とする付記1に記載の形態素解析プログラム。
(付記3)前記形態素構成成分属性付け知識学習手順は、分析すべき言語構成要素の分類情報及び言語構成要素における形態素構成成分の位置情報に従って形態素構成成分属性集合を生成して前記形態素構成成分属性集合を記憶する形態素構成成分属性集合生成手順と、
前記形態素構成成分属性集合によって、分析すべき言語構成要素でラベリングされたサンプルを形態素構成成分属性でラベリングされたサンプルに変換する形態素構成成分属性変換手順と、
統計的モデルによって表現された形態素構成成分属性ラベル知識を生成するため、分析すべき言語構成要素の内部構造、及び、言語構成要素と形態素構成成分を基本単位として用いる形態素構成成分属性がラベリングされたサンプルからの文脈との間の関係を学習し、前記形態素構成成分属性付け知識として記憶する形態素構成成分属性付け知識抽出手順と、
をコンピュータに実行させることを特徴とする付記2に記載の形態素解析プログラム。
(付記4)分析すべき言語構成要素の分類情報及び言語構成要素における形態素構成成分の位置情報に従って形態素構成成分合成知識を生成し、生成された形態素構成成分合成知識を記憶する形態素構成成分合成知識生成手順をさらにコンピュータに実行させ、前記形態素構成成分合成手順は、前記形態素構成成分合成知識生成手順により記憶された形態素構成成分合成知識によって形態素構成成分を合成することを特徴とする付記1に記載の形態素解析プログラム。
(付記5)分析すべき言語構成要素のリストを言語構成要素の言語リソースとして生成するため、言語構成要素でラベリングされたサンプルから分析すべき言語構成要素を言語リソースとして抽出することにより言語リソースと、分析すべき言語構成要素に係るさまざまなレベルの言語リソース及び知識とを記憶する言語リソース抽出手順をさらにコンピュータに実行させ、前記形態素構成成分属性付与手順は、前記形態素構成成分属性付け知識学習手順により記憶された形態素構成成分属性付け知識と、前記言語リソース抽出手順により記憶された言語リソース及び知識とによって各形態素構成成分に属性を付与することを特徴とする付記1に記載の形態素解析プログラム。
(付記6)前記形態素構成成分属性付与手順は、
形態素構成成分属性付け知識を用いて形態素構成成分属性の候補を生成する候補生成手順と、
前記候補生成手順によって生成された形態素構成成分属性候補のエラーを除去するため、言語構成要素のリストなどの言語リソース及び知識を用いて形態素構成成分属性の候補をフィルタリングするエラー除去手順と、
入力されたシーケンスに対する形態素構成成分属性の最適なラベリング結果を生成するため、形態素構成成分属性の候補から各形態素構成成分に対して最も可能性のある形態素構成成分属性を選択する最適結果選択手順と、
をさらにコンピュータに実行させることを特徴とする付記1または5に記載の形態素解析プログラム。
(付記7)言語構成要素の分類情報のラベリングをおこなう言語構成要素ラベリングの補正プログラムにおいて、
他の言語構成要素同定システムによって与えられた分析結果を含む記号シーケンスを受信する入力手順と、
エラー位置を検出するため、補正すべき入力された記号シーケンスをチェックするエラー位置検出手順と、
前記エラー位置検出手順により検出されたエラー位置にある各形態素構成成分にあらかじめ記憶された形態素構成成分属性付け知識によって属性を付与する形態素構成成分属性付与手順と、
形態素構成成分から形態素を構成するあらかじめ記憶された形態素構成成分合成知識によって形態素構成成分を結合して言語構成要素を生成し、各言語構成要素の分類情報をラベリングする構成要素生成手順と、
前記構成要素生成手順によりなされたラベリングの結果を出力する出力手順と、
をコンピュータに実行させることを特徴とする補正プログラム。
(付記8)前記形態素構成成分属性付与手順は、
補正すべき入力された記号シーケンスに対する正しい元の分析結果を維持し、エラーが発生した形態素構成成分のすべての潜在的なラベル候補を生成する形態素構成成分ラベル候補生成手順と、
形態素構成成分がラベリングされたシーケンスに対する元の結果における正しい分析情報を維持し、エラーが発生した位置をラベリングする最適結果選択手順と、
をコンピュータに実行させることを特徴とする付記7に記載の補正プログラム。
(付記9)検定すべき言語構成要素の分類情報及び言語構成要素における形態素構成成分の位置情報に従って形態素構成成分属性を生成し、形態素構成成分属性がラベリングされたサンプルを学習することにより前記形態素構成成分属性付け知識を得て当該形態素構成成分属性付け知識を記憶する形態素構成成分属性付け知識学習手順をさらにコンピュータに実行させ、前記形態素構成成分属性付与手順は、前記形態素構成成分属性付け知識学習手順により記憶された形態素構成成分属性付け知識によって各形態素構成成分に属性を付与することを特徴とする付記7に記載の補正プログラム。
(付記10)前記形態素構成成分属性付け知識学習手順は、
検定すべき言語構成要素の分類情報及び言語構成要素における形態素構成成分の位置情報に従って形態素構成成分属性集合を生成して前記形態素構成成分属性集合を記憶する形態素構成成分属性集合生成手順と、
前記形態素構成成分属性集合によって、分析すべき言語構成要素でラベリングされたサンプルを形態素構成成分属性でラベリングされたサンプルに変換する形態素構成成分属性変換手順と、
統計的モデルによって表現された形態素構成成分属性ラベル知識を生成するため、分析すべき言語構成要素の内部構造、及び、言語構成要素と形態素構成成分を基本単位として用いる形態素構成成分属性がラベリングされたサンプルからの文脈との間の関係を学習し、前記形態素構成成分属性付け知識として記憶する形態素構成成分属性付け知識抽出手順と、
をコンピュータに実行させることを特徴とする付記9に記載の補正プログラム。
(付記11)前記エラー位置検出手順は、エラー位置を検出するため、検定すべき言語構成要素の分析されたエラーに係るあらかじめ記憶された知識によって補正すべき入力された記号シーケンスをチェックすることを特徴とする付記7に記載の補正プログラム。
(付記12)前記構成要素生成手順は、言語構成要素の分類マークをさらに同定し、前記出力手順は、分類マークの同定結果をラベリングの結果として出力することを特徴とする付記7に記載の補正プログラム。
(付記13)前記言語は中国語や日本語などの言語あるいは遺伝子記号を含むことを特徴とする付記7に記載の補正プログラム。
(付記14)検定すべき入力された記号シーケンスは、言語テキストシーケンスまたは遺伝子グループシーケンスを含むことを特徴とする付記7に記載の補正プログラム。
(付記15)中国語のテキストに対して、意味の最小単位である単語に分割し、必要に応じて品詞等の分割単位のカテゴリのラベリングを施す形態素解析プログラムにおいて、
入力されたテキストを単語を構成する文字に分割する文字分割手順と、
あらかじめ記憶された文字属性付け知識によって各文字に属性を付与する文字属性付与手順と、
文字から単語を構成するあらかじめ記憶された文字合成知識によって文字を合成する文字合成手順と、
をコンピュータに実行させることにより文字のバリエーションすべてを静的知識として入力することなく形態素解析の精度を向上させる形態素解析プログラム。
(付記16)分析すべき単語の品詞及び単語における文字の位置情報に従って文字属性を設定し、文字属性がラベリングされたサンプルを学習することにより前記文字属性付け知識を得て当該文字属性付け知識を記憶する文字属性付け知識学習手順をさらにコンピュータに実行させ、前記文字属性付与部は、前記文字属性付け知識学習手順により記憶された文字属性付け知識によって各文字に属性を付与することを特徴とする付記15に記載の形態素解析プログラム。
(付記17)前記文字属性付け知識学習手順は、
前記文字属性付け知識に従って、中国語の単語分割及び品詞ラベリングの言語データのサンプルを文字属性がラベリングされたサンプルに変換する文字属性変換手順と、
統計的モデルによって表された文字属性ラベル知識を生成するため、分析すべき中国語の単語分割及び品詞の内部構造、及び、単語分割及び品詞と文字を基本単位として用いる文字属性がラベリングされたサンプルからの文脈との間の関係を学習し、前記文字属性付け知識として記憶する文字属性付け知識抽出手順と、
をコンピュータに実行させることを特徴とする付記16に記載の形態素解析プログラム。
(付記18)前記文字合成手順は、文字属性を構成する単語及び品詞のあらかじめ記憶された規則に従って、文字を合成することを特徴とする付記15に記載の形態素解析プログラム。
(付記19)前記文字属性付与手順は、文字属性がラベリングされたシーケンスを生成するため、あらかじめ記憶された中国語リソースと、中国語構成要素に係るさまざまなレベルの言語リソース及び知識とによって、分析すべき入力された中国語テキストシーケンスに対して文字属性を付与することを特徴とする付記15に記載の形態素解析プログラム。
(付記20)前記文字属性付与手順は、
文字属性付け知識を用いて文字属性ラベル候補を生成する文字属性ラベル生成手順と、
前記文字属性ラベル生成手順から送信された前記文字属性ラベル候補のエラーを除去するため、単語構成規則及び頻繁に用いられる単語の辞書を用いて文字属性ラベル候補を選別し、文法に合わない文字属性ラベル候補を除去するエラー候補除去手順と、
前記エラー候補除去手順から送信された前記文字属性ラベル候補を最適な方法で処理するため、分析すべき中国語テキストシーケンスの最適に文字属性がラベリングされたシーケンスを生成する最適ラベル結果選択手順と、
をコンピュータに実行させることを特徴とする付記15または19に記載の形態素解析プログラム。
(付記21)日本語、中国語、英語等の言語テキストやゲノムの記号列などのテキストに対して、意味の最小単位である形態素に分割し、必要に応じて品詞等の分割単位のカテゴリのラベリングを施す形態素解析装置において、
入力されたテキストを形態素を構成する文字や文字要素である形態素構成成分に分割する形態素構成成分分割手段と、
形態素構成成分属性付け知識を記憶する形態素構成成分属性付け知識記憶手段と、
前記形態素構成成分属性付け知識によって各形態素構成成分に属性を付与する形態素構成成分属性付与手段と、
形態素構成成分から形態素を構成する形態素構成成分合成知識を記憶する形態素構成成分合成知識記憶手段と、
前記形態素構成成分合成知識によって形態素構成成分を合成する形態素構成成分合成手段と、
を備えることにより形態素構成成分のバリエーションすべてを静的知識として入力することなく形態素解析の精度を向上させる形態素解析装置。
(付記22)分析すべき言語構成要素の分類情報及び言語構成要素における形態素構成成分の位置情報に従って形態素構成成分属性を設定し、形態素構成成分属性がラベリングされたサンプルを学習することにより前記形態素構成成分属性付け知識を得る形態素構成成分属性付け知識学習手段をさらに備え、前記形態素構成成分属性付け知識記憶手段は、前記形態素構成成分属性付け知識学習手段により得られた形態素構成成分属性付け知識を記憶することを特徴とする付記21に記載の形態素解析装置。
(付記23)前記形態素構成成分属性付け知識学習手段は、
分析すべき言語構成要素の分類情報及び言語構成要素における形態素構成成分の位置情報に従って形態素構成成分属性集合を生成する形態素構成成分属性集合生成手段と、
前記形態素構成成分属性集合を記憶する形態素構成成分属性集合記憶手段と、
前記形態素構成成分属性集合記憶手段により記憶された形態素構成成分属性集合によって、分析すべき言語構成要素でラベリングされたサンプルを形態素構成成分属性でラベリングされたサンプルに変換する形態素構成成分属性変換手段と、
統計的モデルによって表現された形態素構成成分属性ラベル知識を生成するため、分析すべき言語構成要素の内部構造、及び、言語構成要素と形態素構成成分を基本単位として用いる形態素構成成分属性がラベリングされたサンプルからの文脈との間の関係を学習する形態素構成成分属性付け知識抽出手段と、
をさらに備えたことを特徴とする付記22に記載の形態素解析装置。
(付記24)分析すべき言語構成要素の分類情報及び言語構成要素における形態素構成成分の位置情報に従って形態素構成成分合成知識を生成する形態素構成成分合成知識生成手段をさらに備え、前記形態素構成成分合成知識記憶手段は、前記形態素構成成分合成知識生成手段により生成された形態素構成成分合成知識を記憶することを特徴とする付記21に記載の形態素解析装置。
(付記25)分析すべき言語構成要素のリストを言語構成要素の言語リソースとして生成するため、言語構成要素でラベリングされたサンプルから分析すべき言語構成要素を言語リソースとして抽出する言語リソース抽出手段と、前記言語リソース抽出手段により抽出された言語リソースと、分析すべき言語構成要素に係るさまざまなレベルの言語リソース及び知識とを記憶する言語リソース記憶手段とをさらに備え、前記形態素構成成分属性付与手段は、前記形態素構成成分属性付け知識記憶手段により記憶された形態素構成成分属性付け知識と、前記言語リソース記憶手段により記憶された言語リソース及び知識とによって各形態素構成成分に属性を付与することを特徴とする付記21に記載の形態素解析装置。
(付記26)前記形態素構成成分属性付与手段は、
形態素構成成分属性付け知識を用いて形態素構成成分属性の候補を生成する候補生成手段と、
前記候補生成手段によって生成された形態素構成成分属性候補のエラーを除去するため、言語構成要素のリストなどの言語リソース及び知識を用いて形態素構成成分属性の候補をフィルタリングするエラー除去手段と、
入力されたシーケンスに対する形態素構成成分属性の最適なラベリング結果を生成するため、形態素構成成分属性の候補から各形態素構成成分に対して最も可能性のある形態素構成成分属性を選択する最適結果選択手段と、
をさらに備えたことを特徴とする付記21または25に記載の形態素解析装置。
(付記27)他の言語構成要素同定システムによって与えられた分析結果を含む記号シーケンスを受信する入力手段を備え、言語構成要素の分類情報のラベリングをおこなう言語構成要素ラベリングの補正装置において、
エラー位置を検出するため、補正すべき入力された記号シーケンスをチェックするエラー位置検出手段と、
形態素構成成分属性付け知識を記憶する形態素構成成分属性付け知識記憶手段と、
前記形態素構成成分属性付け知識によって前記エラー位置検出手段により検出されたエラー位置にある各形態素構成成分に属性を付与する形態素構成成分属性付与手段と、
形態素構成成分から形態素を構成する形態素構成成分合成知識を記憶する形態素構成成分合成知識記憶手段と、
前記形態素構成成分合成知識によって形態素構成成分を結合して言語構成要素を生成し、各言語構成要素の分類情報をラベリングする構成要素生成手段と、
前記構成要素生成手段によりなされたラベリングの結果を出力する出力手段と、
を備えたことを特徴とする補正装置。
(付記28)前記形態素構成成分属性付与手段は、
補正すべき入力された記号シーケンスに対する正しい元の分析結果を維持し、エラーが発生した形態素構成成分のすべての潜在的なラベル候補を生成する形態素構成成分ラベル候補生成手段と、
形態素構成成分がラベリングされたシーケンスに対する元の結果における正しい分析情報を維持し、エラーが発生した位置をラベリングする最適結果選択手段と、
をさらに備えたことを特徴とする付記27に記載の補正装置。
(付記29)検定すべき言語構成要素の分類情報及び言語構成要素における形態素構成成分の位置情報に従って形態素構成成分属性を生成し、形態素構成成分属性がラベリングされたサンプルを学習することにより前記形態素構成成分属性付け知識を得る形態素構成成分属性付け知識学習手段をさらに備え、前記形態素構成成分属性付け知識記憶手段は、前記形態素構成成分属性付け知識学習手段により得られた形態素構成成分属性付け知識を記憶することを特徴とする付記27に記載の補正装置。
(付記30)前記形態素構成成分属性付け知識学習手段は、検定すべき言語構成要素の分類情報及び言語構成要素における形態素構成成分の位置情報に従って形態素構成成分属性集合を生成する形態素構成成分属性集合生成手段と、
前記形態素構成成分属性集合生成手段により生成された形態素構成成分属性集合を記憶する形態素構成成分属性集合記憶手段と、
前記形態素構成成分属性集合によって、分析すべき言語構成要素でラベリングされたサンプルを形態素構成成分属性でラベリングされたサンプルに変換する形態素構成成分属性変換手段と、
統計的モデルによって表現された形態素構成成分属性ラベル知識を生成するため、分析すべき言語構成要素の内部構造、及び、言語構成要素と形態素構成成分を基本単位として用いる形態素構成成分属性がラベリングされたサンプルからの文脈との間の関係を学習する知識抽出手段と、
をさらに備えたことを特徴とする付記29に記載の補正装置。
(付記31)検定すべき言語構成要素の分析されたエラーに係る知識を記憶するエラー分析知識記憶手段をさらに備え、前記エラー位置検出手段は、エラー位置を検出するため、前記エラー分析知識記憶手段により記憶された知識によって補正すべき入力された記号シーケンスをチェックすることを特徴とする付記27に記載の補正装置。
(付記32)前記構成要素生成手段は、言語構成要素の分類マークをさらに同定し、前記出力手段は、分類マークの同定結果をラベリングの結果として出力することを特徴とする付記27に記載の補正装置。
(付記33)前記言語は中国語や日本語などの言語あるいは遺伝子記号を含むことを特徴とする付記27に記載の補正装置。
(付記34)検定すべき入力された記号シーケンスは、言語テキストシーケンスまたは遺伝子グループシーケンスを含むことを特徴とする付記27に記載の補正装置。
(付記35)中国語のテキストに対して、意味の最小単位である単語に分割し、必要に応じて品詞等の分割単位のカテゴリのラベリングを施す形態素解析装置において、
入力されたテキストを単語を構成する文字に分割する文字分割手段と、
文字属性付け知識を記憶する文字属性付け知識記憶手段と、
前記文字属性付け知識によって各文字に属性を付与する文字属性付与手段と、
文字から単語を構成するあらかじめ記憶された文字合成知識によって文字を合成する文字合成手段と、
を備えることにより文字のバリエーションすべてを静的知識として入力することなく形態素解析の精度を向上させる形態素解析装置。
(付記36)分析すべき単語の品詞及び単語における文字の位置情報に従って文字属性を設定し、文字属性がラベリングされたサンプルを学習することにより前記文字属性付け知識を得る文字属性付け知識学習手段をさらに備え、前記文字属性付け知識記憶手段は、前記文字属性付け知識学習手段により得られた文字属性付け知識を記憶することを特徴とする付記35に記載の形態素解析装置。
(付記37)前記文字属性付け知識学習手段は、
前記文字属性付け知識に従って、中国語の単語分割及び品詞ラベリングの言語データのサンプルを文字属性がラベリングされたサンプルに変換する文字属性変換手段と、
統計的モデルによって表された文字属性ラベル知識を生成するため、分析すべき中国語の単語分割及び品詞の内部構造、及び、単語分割及び品詞と文字を基本単位として用いる文字属性がラベリングされたサンプルからの文脈との間の関係を学習する文字属性付け知識抽出手段と、
をさらに備えたことを特徴とする付記36に記載の形態素解析装置。
(付記38)文字属性を構成する単語及び品詞の規則を記憶する文字属性構成単語・品詞規則記憶手段をさらに備え、前記文字合成手段は、文字属性構成単語・品詞規則記憶手段に記憶された規則に従って、文字を合成することを特徴とする付記35に記載の形態素解析装置。
(付記39)中国語リソースと、中国語構成要素に係るさまざまなレベルの言語リソース及び知識とを記憶する辞書・単語構造規則記憶手段をさらに備え、前記文字属性付与手段は、文字属性がラベリングされたシーケンスを生成するため、前記辞書・単語構造規則記憶手段に記憶された中国語リソースと、中国語構成要素に係るさまざまなレベルの言語リソース及び知識とによって、分析すべき入力された中国語テキストシーケンスに対して文字属性を付与することを特徴とする付記35に記載の形態素解析装置。
(付記40)前記文字属性付与手段は、
文字属性付け知識を用いて文字属性ラベル候補を生成する文字属性ラベル生成手段と、
前記文字属性ラベル生成手段から送信された前記文字属性ラベル候補のエラーを除去するため、単語構成規則及び頻繁に用いられる単語の辞書を用いて文字属性ラベル候補を選別し、文法に合わない文字属性ラベル候補を除去するエラー候補除去手段と、
前記エラー候補除去手段から送信された前記文字属性ラベル候補を最適な方法で処理するため、分析すべき中国語テキストシーケンスの最適に文字属性がラベリングされたシーケンスを生成する最適ラベル結果選択手段と、
をさらに備えたことを特徴とする付記35または39に記載の形態素解析装置。
(付記41)日本語、中国語、英語等の言語テキストやゲノムの記号列などのテキストに対して、意味の最小単位である形態素に分割し、必要に応じて品詞等の分割単位のカテゴリのラベリングを施す形態素解析方法において、
入力されたテキストを形態素を構成する文字や文字要素である形態素構成成分に分割する形態素構成成分分割工程と、
あらかじめ記憶された形態素構成成分属性付け知識によって各形態素構成成分に属性を付与する形態素構成成分属性付与工程と、
形態素構成成分から形態素を構成するあらかじめ記憶された形態素構成成分合成知識によって形態素構成成分を合成する形態素構成成分合成工程と、
を含むことにより形態素構成成分のバリエーションすべてを静的知識として入力することなく形態素解析の精度を向上させる形態素解析方法。
(付記42)言語構成要素の分類情報のラベリングをおこなう言語構成要素ラベリングの補正方法において、
他の言語構成要素同定システムによって与えられた分析結果を含む記号シーケンスを受信する入力工程と、
エラー位置を検出するため、補正すべき入力された記号シーケンスをチェックするエラー位置検出工程と、
前記エラー位置検出工程により検出されたエラー位置にある各形態素構成成分にあらかじめ記憶された形態素構成成分属性付け知識によって属性を付与する形態素構成成分属性付与工程と、
形態素構成成分から形態素を構成するあらかじめ記憶された形態素構成成分合成知識によって形態素構成成分を結合して言語構成要素を生成し、各言語構成要素の分類情報をラベリングする構成要素生成工程と、
前記構成要素生成工程によりなされたラベリングの結果を出力する出力工程と、
を含んだことを特徴とする補正方法。
以上のように、本発明に係る言語構成要素の同定及び補正をおこなう装置及び方法は、言語の文法的あるいは意味論的構成要素を同定する技術及び遺伝子グループシーケンスを分析する技術に有用である。
形態素構成成分に基づく言語文法構成要素分析装置の基本構造を示す図である。 形態素構成成分に基づく言語文法構成要素分析装置の具体的な実施形態を示す構造図である。 形態素構成成分属性ラベリング部の内部構造を示す図である。 形態素構成成分属性ラベリングに基づく言語学的構成要素同定のためのポストプロセッシング構造を示す図である。 文字属性ラベリングに基づく中国語形態論的分析装置の構造を示す図である。 文字属性ラベリング装置の内部構造を示す図である。 中国語単語シーケンスの潜在的な文字属性候補を示す図である。 中国語単語シーケンスの最終的な文字属性ラベリング候補を示す図である。 最適な文字属性ラベリングを示す連結図である。 単語分割候補を示す図である。 文字属性ラベリングに基づいた単語分割及び品詞のラベリング結果を示す図である。
符号の説明
201 必要な構成要素及びその分類をラベリングしたサンプル
202 形態素構成成分属性変換部
203 形態素構成成分属性でラベリングされたサンプル
204 形態素構成成分ラベリング学習部
205 形態素構成成分ラベリング知識
206 構成要素抽出部
207 言語リソース及び知識
208 形態素構成成分属性設定部
209 形態素構成成分属性集合
211 記号シーケンス
212 形態素構成成分属性ラベリング部
213 分析構成要素合成部
214 分析結果
301 形態素構成成分属性ラベリング知識
302 言語リソース及び知識
303 分析すべきテキスト
304 ラベリング候補生成部
305 エラー除去部
306 最適結果選択部
307 形態素構成成分属性がラベリングされたシーケンス
401 最初の分析結果
402 エラー位置検出部
403 形態素構成成分ラベル候補生成部
404 最適ラベリング結果選択部
405 分析構成要素合成部
406 分析結果
407 エラー分析から得た知識
408 形態素構成成分属性ラベリング知識
409 構成要素形成規則
501 コーパスラベリングされた品詞
502 文字属性変換部
503 コーパスラベリングされた文字属性
504 文字ラベリング学習部
505 文字属性ラベル知識
506 辞書及び単語形成規則
507 文字属性集合
508 文字ラベリング部
509 単語・品詞タギング部
510 単語・品詞合成部
511 形態学的分析結果
601 文字属性ラベリング知識
602 言語リソース及び知識
603 中国語テキスト
604 文字属性候補生成部
605 エラー候補除去部
606 最適結果選択部
607 文字属性がラベリングされたシーケンス

Claims (10)

  1. 日本語、中国語、英語等の言語テキストやゲノムの記号列などのテキストに対して、意味の最小単位である形態素に分割し、必要に応じて品詞等の分割単位のカテゴリのラベリングを施す形態素解析プログラムにおいて、
    入力されたテキストを形態素を構成する文字や文字要素である形態素構成成分に分割する形態素構成成分分割手順と、
    あらかじめ記憶された形態素構成成分属性付け知識によって各形態素構成成分に属性を付与する形態素構成成分属性付与手順と、
    形態素構成成分から形態素を構成するあらかじめ記憶された形態素構成成分合成知識によって形態素構成成分を合成する形態素構成成分合成手順と、
    をコンピュータに実行させることにより形態素構成成分のバリエーションすべてを静的知識として入力することなく形態素解析の精度を向上させる形態素解析プログラム。
  2. 分析すべき言語構成要素の分類情報及び言語構成要素における形態素構成成分の位置情報に従って形態素構成成分属性を設定し、形態素構成成分属性がラベリングされたサンプルを学習することにより前記形態素構成成分属性付け知識を得て当該形態素構成成分属性付け知識を記憶する形態素構成成分属性付け知識学習手順をさらにコンピュータに実行させ、前記形態素構成成分属性付与手順は、前記形態素構成成分属性付け知識学習手順により記憶された形態素構成成分属性付け知識によって各形態素構成成分に属性を付与することを特徴とする請求項1に記載の形態素解析プログラム。
  3. 前記形態素構成成分属性付与手順は、
    形態素構成成分属性付け知識を用いて形態素構成成分属性の候補を生成する候補生成手順と、
    前記候補生成手順によって生成された形態素構成成分属性候補のエラーを除去するため、言語構成要素のリストなどの言語リソース及び知識を用いて形態素構成成分属性の候補をフィルタリングするエラー除去手順と、
    入力されたシーケンスに対する形態素構成成分属性の最適なラベリング結果を生成するため、形態素構成成分属性の候補から各形態素構成成分に対して最も可能性のある形態素構成成分属性を選択する最適結果選択手順と、
    をさらにコンピュータに実行させることを特徴とする請求項1または2に記載の形態素解析プログラム。
  4. 言語構成要素の分類情報のラベリングをおこなう言語構成要素ラベリングの補正プログラムにおいて、
    他の言語構成要素同定システムによって与えられた分析結果を含む記号シーケンスを受信する入力手順と、
    エラー位置を検出するため、補正すべき入力された記号シーケンスをチェックするエラー位置検出手順と、
    前記エラー位置検出手順により検出されたエラー位置にある各形態素構成成分にあらかじめ記憶された形態素構成成分属性付け知識によって属性を付与する形態素構成成分属性付与手順と、
    形態素構成成分から形態素を構成するあらかじめ記憶された形態素構成成分合成知識によって形態素構成成分を結合して言語構成要素を生成し、各言語構成要素の分類情報をラベリングする構成要素生成手順と、
    前記構成要素生成手順によりなされたラベリングの結果を出力する出力手順と、
    をコンピュータに実行させることを特徴とする補正プログラム。
  5. 前記形態素構成成分属性付与手順は、
    補正すべき入力された記号シーケンスに対する正しい元の分析結果を維持し、エラーが発生した形態素構成成分のすべての潜在的なラベル候補を生成する形態素構成成分ラベル候補生成手順と、
    形態素構成成分がラベリングされたシーケンスに対する元の結果における正しい分析情報を維持し、エラーが発生した位置をラベリングする最適結果選択手順と、
    をコンピュータに実行させることを特徴とする請求項4に記載の補正プログラム。
  6. 前記エラー位置検出手順は、エラー位置を検出するため、検定すべき言語構成要素の分析されたエラーに係るあらかじめ記憶された知識によって補正すべき入力された記号シーケンスをチェックすることを特徴とする請求項4または5に記載の補正プログラム。
  7. 日本語、中国語、英語等の言語テキストやゲノムの記号列などのテキストに対して、意味の最小単位である形態素に分割し、必要に応じて品詞等の分割単位のカテゴリのラベリングを施す形態素解析装置において、
    入力されたテキストを形態素を構成する文字や文字要素である形態素構成成分に分割する形態素構成成分分割手段と、
    形態素構成成分属性付け知識を記憶する形態素構成成分属性付け知識記憶手段と、
    前記形態素構成成分属性付け知識によって各形態素構成成分に属性を付与する形態素構成成分属性付与手段と、
    形態素構成成分から形態素を構成する形態素構成成分合成知識を記憶する形態素構成成分合成知識記憶手段と、
    前記形態素構成成分合成知識によって形態素構成成分を合成する形態素構成成分合成手段と、
    を備えることにより形態素構成成分のバリエーションすべてを静的知識として入力することなく形態素解析の精度を向上させる形態素解析装置。
  8. 他の言語構成要素同定システムによって与えられた分析結果を含む記号シーケンスを受信する入力手段を備え、言語構成要素の分類情報のラベリングをおこなう言語構成要素ラベリングの補正装置において、
    エラー位置を検出するため、補正すべき入力された記号シーケンスをチェックするエラー位置検出手段と、
    形態素構成成分属性付け知識を記憶する形態素構成成分属性付け知識記憶手段と、
    前記形態素構成成分属性付け知識によって前記エラー位置検出手段により検出されたエラー位置にある各形態素構成成分に属性を付与する形態素構成成分属性付与手段と、
    形態素構成成分から形態素を構成する形態素構成成分合成知識を記憶する形態素構成成分合成知識記憶手段と、
    前記形態素構成成分合成知識によって形態素構成成分を結合して言語構成要素を生成し、各言語構成要素の分類情報をラベリングする構成要素生成手段と、
    前記構成要素生成手段によりなされたラベリングの結果を出力する出力手段と、
    を備えたことを特徴とする補正装置。
  9. 日本語、中国語、英語等の言語テキストやゲノムの記号列などのテキストに対して、意味の最小単位である形態素に分割し、必要に応じて品詞等の分割単位のカテゴリのラベリングを施す形態素解析方法において、
    入力されたテキストを形態素を構成する文字や文字要素である形態素構成成分に分割する形態素構成成分分割工程と、
    あらかじめ記憶された形態素構成成分属性付け知識によって各形態素構成成分に属性を付与する形態素構成成分属性付与工程と、
    形態素構成成分から形態素を構成するあらかじめ記憶された形態素構成成分合成知識によって形態素構成成分を合成する形態素構成成分合成工程と、
    を含むことにより形態素構成成分のバリエーションすべてを静的知識として入力することなく形態素解析の精度を向上させる形態素解析方法。
  10. 言語構成要素の分類情報のラベリングをおこなう言語構成要素ラベリングの補正方法において、
    他の言語構成要素同定システムによって与えられた分析結果を含む記号シーケンスを受信する入力工程と、
    エラー位置を検出するため、補正すべき入力された記号シーケンスをチェックするエラー位置検出工程と、
    前記エラー位置検出工程により検出されたエラー位置にある各形態素構成成分にあらかじめ記憶された形態素構成成分属性付け知識によって属性を付与する形態素構成成分属性付与工程と、
    形態素構成成分から形態素を構成するあらかじめ記憶された形態素構成成分合成知識によって形態素構成成分を結合して言語構成要素を生成し、各言語構成要素の分類情報をラベリングする構成要素生成工程と、
    前記構成要素生成工程によりなされたラベリングの結果を出力する出力工程と、
    を含んだことを特徴とする補正方法。
JP2006256410A 2005-09-21 2006-09-21 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法 Withdrawn JP2007087397A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005101035668A CN100533431C (zh) 2005-09-21 2005-09-21 一种基于语素标注的自然语言成分识别、校正装置及方法

Publications (1)

Publication Number Publication Date
JP2007087397A true JP2007087397A (ja) 2007-04-05

Family

ID=37954391

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006256410A Withdrawn JP2007087397A (ja) 2005-09-21 2006-09-21 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法

Country Status (2)

Country Link
JP (1) JP2007087397A (ja)
CN (1) CN100533431C (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009265952A (ja) * 2008-04-25 2009-11-12 Chubu Electric Power Co Inc 文章情報グループ判別支援装置
KR101767625B1 (ko) 2016-08-05 2017-08-14 주식회사 코난테크놀로지 동적 계획법 기반 일본어 문장 최소 분할 탐색 장치 및 방법
CN111859951A (zh) * 2020-06-19 2020-10-30 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
WO2022085756A1 (ja) * 2020-10-23 2022-04-28 NUProtein株式会社 遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラム

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101802812B (zh) * 2007-08-01 2015-07-01 金格软件有限公司 使用互联网语料库的自动的上下文相关的语言校正和增强
CN101794282B (zh) * 2009-02-03 2013-11-06 日电(中国)有限公司 知识标注结果检查方法和系统
JP5197774B2 (ja) * 2011-01-18 2013-05-15 株式会社東芝 学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラム
CN102681981A (zh) * 2011-03-11 2012-09-19 富士通株式会社 自然语言词法分析方法、装置及分析器训练方法
CN104346379B (zh) * 2013-07-31 2017-06-20 克拉玛依红有软件有限责任公司 一种基于逻辑和统计技术的数据元识别方法
CN106030568B (zh) * 2014-04-29 2018-11-06 乐天株式会社 自然语言处理系统、自然语言处理方法、以及自然语言处理程序
CN108256401B (zh) * 2016-12-29 2021-03-26 杭州海康威视数字技术股份有限公司 一种获取目标属性特征语义的方法及装置
CN108509477B (zh) 2017-09-30 2019-10-11 平安科技(深圳)有限公司 语义识别方法、电子装置及计算机可读存储介质
CN109213846A (zh) * 2018-09-13 2019-01-15 山西卫生健康职业学院 一种自然语言处理系统
US11520982B2 (en) 2019-09-27 2022-12-06 Sap Se Generating corpus for training and validating machine learning model for natural language processing

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009265952A (ja) * 2008-04-25 2009-11-12 Chubu Electric Power Co Inc 文章情報グループ判別支援装置
KR101767625B1 (ko) 2016-08-05 2017-08-14 주식회사 코난테크놀로지 동적 계획법 기반 일본어 문장 최소 분할 탐색 장치 및 방법
CN111859951A (zh) * 2020-06-19 2020-10-30 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
CN111859951B (zh) * 2020-06-19 2024-03-26 北京百度网讯科技有限公司 语言模型的训练方法、装置、电子设备及可读存储介质
WO2022085756A1 (ja) * 2020-10-23 2022-04-28 NUProtein株式会社 遺伝子配列分かち書き生成装置、遺伝子コーパス生成装置およびプログラム

Also Published As

Publication number Publication date
CN1936885A (zh) 2007-03-28
CN100533431C (zh) 2009-08-26

Similar Documents

Publication Publication Date Title
JP2007087397A (ja) 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法
Kim et al. Two-stage multi-intent detection for spoken language understanding
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
US20060224378A1 (en) Communication support apparatus and computer program product for supporting communication by performing translation between languages
JP5071373B2 (ja) 言語処理装置、言語処理方法および言語処理用プログラム
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
JP2002215617A (ja) 品詞タグ付けをする方法
CN110119510B (zh) 一种基于传递依存关系和结构助词的关系抽取方法及装置
CN112818089B (zh) 文本注音方法、电子设备及存储介质
CN110390110B (zh) 用于语义匹配的预训练生成句子向量的方法和装置
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JP2008225963A (ja) 機械翻訳装置、置換辞書生成装置、機械翻訳方法、置換辞書生成方法、及びプログラム
CN115101042A (zh) 一种文本处理方法、装置及设备
Alosaimy et al. Tagging classical Arabic text using available morphological analysers and part of speech taggers
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
JP4878220B2 (ja) モデル学習方法、情報抽出方法、モデル学習装置、情報抽出装置、モデル学習プログラム、情報抽出プログラム、およびそれらプログラムを記録した記録媒体
Mekki et al. COTA 2.0: An automatic corrector of Tunisian Arabic social media texts
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
JP2011129006A (ja) 意味分類付与装置、意味分類付与方法、意味分類付与プログラム
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
JP2010092169A (ja) 情報処理装置及びプログラム
Khoufi et al. Chunking Arabic texts using conditional random fields
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
KR20080028655A (ko) 품사 태깅 장치 및 태깅 방법
Carson-Berndsen Multilingual time maps: portable phonotactic models for speech technology

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20091201