JP4001283B2 - 形態素解析装置および自然言語処理装置 - Google Patents

形態素解析装置および自然言語処理装置 Download PDF

Info

Publication number
JP4001283B2
JP4001283B2 JP2003033220A JP2003033220A JP4001283B2 JP 4001283 B2 JP4001283 B2 JP 4001283B2 JP 2003033220 A JP2003033220 A JP 2003033220A JP 2003033220 A JP2003033220 A JP 2003033220A JP 4001283 B2 JP4001283 B2 JP 4001283B2
Authority
JP
Japan
Prior art keywords
token
natural language
unit
language sentence
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003033220A
Other languages
English (en)
Other versions
JP2004246440A (ja
Inventor
和夫 青木
浩 井ノ川
章弘 中山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2003033220A priority Critical patent/JP4001283B2/ja
Priority to US10/777,263 priority patent/US7684975B2/en
Publication of JP2004246440A publication Critical patent/JP2004246440A/ja
Application granted granted Critical
Publication of JP4001283B2 publication Critical patent/JP4001283B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、コンピュータを用いた自然言語解析に関し、特に形態素解析等の文章を単語に分解する技術に関する。
【0002】
【従来の技術】
コンピュータを用いた自然言語解析では、まず文章を単語に分解することが行われる。日本語などのように単語を区切らない表記方法を採る言語では、形態素解析を行って文章を構成する単語が抽出される。
このように文章を単語に分解する処理では、2つ以上の単語が結びついて1つの単語を形成している複合語を適切に分割することが重要であり、従来から種々の技術が存在する(例えば、特許文献1参照)。
【0003】
図11は、コンピュータにて実現される従来の形態素解析手段の機能ブロックを示す図、図12は、従来の形態素解析のアルゴリズムを概略的に説明するフローチャートである。
図11、12に示すように、形態素解析では、まずトークンリスト作成部111が、処理対象の文章から様々なサイズの文字列を切り出し、全ての可能性のあるトークンを得る(ステップ1201)。そして、マスター辞書112を検索し、各トークンとその属性(品詞など)を登録したトークンリストを作成する(ステップ1202)。ここで、トークンとは、文章や単語を構成する最小の要素であり、例えば「形態素」という語では、「形」、「形態」、「形態素」、「態」、「素」がそれぞれトークンとなる。
【0004】
次に、トークン列選択部113が、文法辞書114を参照し、ステップ1201で検出された全ての可能性のあるトークンの組み合わせの中から最も適切なトークン列を選ぶ(ステップ1203)。
この後、複合語分割処理部115が、ステップ1203で選択されたトークン列に対して複合語辞書116とのマッチングを行い、分割可能なトークンを更に細かいトークンに分割する(ステップ1204)。
【0005】
【特許文献1】
特開2002−251402号公報
【0006】
【発明が解決しようとする課題】
上述したように従来の形態素解析では、トークン列を選択した後に複合語の分割処理を行っているため、複合語の部分に対するマッチング処理等の分だけ別途に時間を要し、この時間は文章中に含まれる複合語が多いほど長くなっていた。また、上記従来の形態素解析では、適切なトークン列を選択した後に複合語の分割処理を行っているため、分割された単語(トークン)によるトークン列が最適なものかどうかが保証されないという欠点があった。
さらに、複合語の分割処理において参照される複合語辞書は、複合語及び複合語を構成する各単語に関して品詞情報や区切り位置情報を持つため、作成やメンテナンスの作業に多大な手間を要していた。
【0007】
そこで本発明は、形態素解析等の文章を単語に分解する処理において、複合語の分割処理を効率的に行い、処理全体における実行効率を向上させることを目的とする。
また本発明は、複合語を分割した際にも解析結果として得られるトークン列が最適なものであることを保証できるようにすることを他の目的とする。
さらに本発明は、複合語辞書の作成及びメンテナンスに要する手間を削減することをさらに他の目的とする。
【0008】
【課題を解決するための手段】
上記の目的を達成する本発明は、次のように構成された形態素解析装置として実現される。この形態素解析装置は、見出し語およびこの見出し語の属性情報を格納した辞書部と、この辞書部を参照して、処理対象の自然言語文からかかる自然言語文を構成することが可能なトークンを抽出し、トークンリストに登録するトークンリスト作成部と、このトークンリスト作成部にて作成されたトークンリストに基づいて処理対象の自然言語文を構成するのに最適なトークン列を選択するトークン列選択部とを備える。そして、トークンリスト作成部は、形態素解析に対して与えられた条件と、抽出した前記トークンに対応する見出し語の属性情報とに基づいて、このトークンのトークンリストへの登録制御を行うことを特徴とする。
この登録制御は、より詳細には、形態素解析に対して与えられた条件に合致する属性を持つトークンのみを前記トークンリストに登録することにより実現される。さらに詳細には、属性情報は、属性情報の数に応じたビット数のフラグデータで記録され、トークンリスト作成部は、このフラグデータの値に基づいて、トークンをトークンリストに登録するか否かを決定する。
【0009】
また、本発明の他の形態素解析装置は、処理対象の自然言語文をかかる自然言語文の構成要素であるトークンに分解し、より小さいトークンに分割可能なトークンを除いてトークンリストに登録するトークンリスト作成手段と、このトークンリスト作成手段にて作成されたトークンリストに基づいて処理対象の自然言語文を構成するのに最適なトークン列を選択するトークン列選択手段とを備えることを特徴とする。
【0010】
上記の目的を達成する他の本発明は、形態素解析手段と、形態素解析された自然言語文に対して所定の処理を行うアプリケーション実行手段とを備えた自然言語処理装置としても実現される。この自然言語処理装置において、形態素解析手段は、見出し語およびその属性情報を格納した辞書部と、この辞書部を参照して、処理対象の自然言語文からこの自然言語文を構成することが可能なトークンを抽出し、抽出されたトークンに対応する見出し語の属性情報に基づいて、アプリケーション実行手段にて要求される条件に合致する属性を持つトークンのみをトークンリストに登録するトークンリスト作成部と、このトークンリスト作成部にて作成されたトークンリストに基づいて自然言語文を構成するのに最適なトークン列を選択するトークン列選択部とを備えることを特徴とする。アプリケーション実行手段にて実現される処理としては、例えば、テキスト検索処理、機械翻訳処理、テキスト・マイニング等が挙げられる。
【0011】
さらにまた、上記の目的を達成する他の本発明は、コンピュータを用いて自然言語文に対し形態素解析を行う、次のような形態素解析方法としても実現される。この形態素解析方法は、処理対象の自然言語文を入力し、メモリに格納された辞書を参照して、この自然言語文を構成することが可能なトークン及びその属性情報を取得し、メモリの作業領域に格納するステップと、形態素解析に与えられた所定の条件およびトークンの属性情報に基づき、メモリに格納されたトークンの中から所定のトークンを選択してメモリの所定領域に構築されたトークンリストに登録するステップと、トークンリストに基づいて処理対象の自然言語文を構成することが可能なトークン列を生成し、メモリの作業領域に格納するステップと、メモリに格納されたトークン列の中で処理対象の自然言語文を構成するのに最適なトークン列を選択し出力するステップとを含むことを特徴とする。
【0012】
また、本発明の他の形態素解析方法は、処理対象の自然言語文を入力し、この自然言語文の構成要素であるトークンに分解し、得られたトークン群をメモリの作業領域に格納するステップと、かかるトークン群を、より小さいトークンに分割可能なトークンを除いてメモリの所定領域に構築されたトークンリストに登録するステップと、このトークンリストに基づいて処理対象の自然言語文を構成することが可能なトークン列を生成し、メモリの作業領域に格納するステップと、メモリに格納されたトークン列の中で処理対象の自然言語文を構成するのに最適なトークン列を選択し出力するステップとを含むことを特徴とする。
【0013】
さらに本発明は、コンピュータを制御して上述した形態素解析装置あるいは自然言語処理装置の機能を実現するプログラム、またはコンピュータに上記の形態素解析方法の各ステップに対応する処理を実行させるプログラムとしても実現される。このプログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記録媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供することができる。
【0014】
【発明の実施の形態】
以下、添付図面に示す実施の形態に基づいて、この発明を詳細に説明する。
図1は、本発明による形態素解析を実行するのに好適なコンピュータ装置のハードウェア構成の例を模式的に示した図である。
図1に示すコンピュータ装置は、演算手段であるCPU(Central Processing Unit:中央処理装置)101と、M/B(マザーボード)チップセット102及びCPUバスを介してCPU101に接続されたメインメモリ103と、同じくM/Bチップセット102及びAGP(Accelerated Graphics Port)を介してCPU101に接続されたビデオカード104と、PCI(Peripheral Component Interconnect)バスを介してM/Bチップセット102に接続されたハードディスク105、ネットワークインターフェイス106及びUSBポート107と、さらにこのPCIバスからブリッジ回路108及びISA(Industry Standard Architecture)バスなどの低速なバスを介してM/Bチップセット102に接続されたフロッピーディスクドライブ109及びキーボード/マウス110とを備える。
なお、図1は本実施の形態を実現するコンピュータ装置のハードウェア構成を例示するに過ぎず、本実施の形態を適用可能であれば、他の種々の構成を取ることができる。例えば、ビデオカード104を設ける代わりに、ビデオメモリのみを搭載し、CPU101にてイメージデータを処理する構成としても良いし、ATA(AT Attachment)などのインターフェイスを介してCD−ROM(Compact Disc Read Only Memory)やDVD−ROM(Digital Versatile Disc Read Only Memory)のドライブを設けても良い。
【0015】
図2は、本実施の形態による形態素解析エンジンの機能構成を示すブロック図である。
図2に示すように、本実施の形態の形態素解析エンジン10は、処理対象である文章をトークンに分解し各トークンに関するトークンリストを作成するトークンリスト作成部11と、トークンリスト作成部11が使用するマスター辞書12と、作成されたトークンリストに基づいて最適なトークン列を選択するトークン列選択部13と、トークン列選択部13が使用する文法辞書14とを備える。
【0016】
上記の構成のうち、トークンリスト作成部11及びトークン列選択部13は、図1に示したメインメモリ103に展開されたプログラムにてCPU101を制御することにより実現される仮想的なソフトウェアブロックである。CPU101を制御してこれらの機能を実現させるプログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記憶媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供される。本実施の形態では、図1に示したネットワークインターフェイス106やフロッピーディスクドライブ109、図示しないCD−ROMドライブなどを介して当該プログラムを入力し、ハードディスク105に格納する。そして、ハードディスク105に格納されたプログラムをメインメモリ103に読み込んで展開し、CPU101にて実行することにより、これらの機能を実現する。
【0017】
また、マスター辞書12及び文法辞書14は、図1に示したメインメモリ103及びハードディスク105にて実現される。トークンリスト作成部11による処理の際にはマスター辞書12が、トークン列選択部13による処理の際には文法辞書14がそれぞれハードディスク105からメインメモリ103に読み込まれる。そして、トークンリスト作成部11またはトークン列選択部13として機能するCPU101にて参照される。
【0018】
本実施の形態による形態素解析エンジン10は、従来の形態素解析のようにトークン列を選んだ後で複合語を分割するのではなく、トークンリストを作成する段階で複合語を考慮して処理を行う。これによって、作成されたトークンリストからトークン列の選択が行われると、複合語が分割され、かつ最適なトークン列が選択されることとなる。
なお、複合語を分割するか否かは、形態素解析の結果を使用するアプリケーションの要求に応じて選択される。例えば、文書検索やテキストマイニングでは、できるだけ多くの関連項目が検出される(ヒットする)ように、複合語を細かく分割することが好ましい場合がある。一方、機械翻訳などでは、複合語を分割してしまうと意味が変わってしまうため、複合語は分割せずに複合語のままで扱う方が好ましい場合がある。したがって、形態素解析における複合語の分割は、アプリケーションの要求に応じて選択的に(当該アプリケーションのオプション設定等に基づいて)実行される。
【0019】
上記の構成において、トークンリスト作成部11は、処理対象の文章を構成する文字列を切り出し、全ての可能性のあるトークンを得る。そして、マスター辞書12を参照してトークンリストを作成する。本実施の形態においては、トークンリスト作成部11は、複合語の分割して形態素解析を行う設定である場合、複合語に対応するトークンを除いてトークンリストに登録する。すなわち、トークンの属性に応じてトークンリストへの登録を制御する。以下、具体例を挙げて説明する。
「情報処理学会で青木和夫の」という文(の一部)に対してトークンリストを作成する場合を考える。
【0020】
図3は、この例文に対する複合語を分割しない場合のトークンリストを示す図である。
複合語を分割しない場合、例えば「情報処理学会」という語について「情」、「情報」、「情報処理」、「情報処理学会」という文字列がそれぞれトークンとして抽出され、マスター辞書12から得られる品詞情報と共にトークンリストに登録される。
図4は、同じ例文に対する複合語を分割する場合のトークンリストを示す図である。
複合語を分割する場合、「情報処理学会」という語から切り出される文字列のうち、「情報処理」及び「情報処理学会」は複合語であるので、トークンリストに登録されない(図3と図4とを比較すると、「情報処理」、「情報処理学会」及び「青木和夫」が複合語として除去されている)。「情報処理」及び「情報処理学会」が複合語であるか否かは、後述するマスター辞書12に登録されている情報に基づいて判断される。
【0021】
マスター辞書12は、トークンとそのトークンに関する情報とが対応付けられて登録されている。
図5は、マスター辞書12におけるデータフォーマットの例を示す図である。
図5に示すように、マスター辞書12には、見出し語(トークン)ごとに、当該見出し語の品詞情報と、当該見出し語が分割可能か否かを示すフラグ(分割可能フラグ)とが登録されている(以下、見出し語自体を含むこれらの情報をトークン情報と称す)。マスター辞書の品詞情報には、正確には品詞の種類を示すものではないが、人名、地名、組織名等の属性を示す情報を含めることができる。また図示の例では、分割可能フラグの値が0の登録語は分割不可能であり、1の登録語は分割可能であることを示している。トークンリスト作成部11は、複合語を分割する設定のときは、このフラグを参照してトークンの文字列が分割可能か否か(複合語であるか否か)を判断し、分割可能であれば当該トークンをトークンリストに登録しない。
【0022】
本実施の形態では、上述したフラグによって、トークンの文字列が分割可能な複合語か否かを示す属性情報のみを与えているが、このフラグを拡張することにより、他の種々の属性情報をトークンに与えることができる。例えば、a、b、c、dという4つの情報を4ビットのフラグデータで表現する場合、aを1(0001)、bを2(0010)、cを4(0100)、dを8(1000)と定義すれば、複合的な属性も、abは3(0011)、bcdは14(1110)というようにビット変換して表現することができる。そして、形態素解析処理に対して与えられた条件(複合語は分割する等)に合致する属性を示すフラグの値を持つトークンのみをトークンリストに登録することができる。これにより、複合語であっても人名は分割しないというような複合的な条件にてトークンリストへの登録を制御することが可能となる。
【0023】
図6は、上記のように構成されたマスター辞書12を参照し、トークンリスト作成部11がトークンリストを作成する動作を説明するフローチャートである。
図6を参照すると、まず初期動作として、処理対象の文(以下、テキスト)が入力され、マスター辞書12の内容がハードディスク105からメインメモリ103にロードされる(ステップ601)。またこのとき、メインメモリ103に、トークンリストのための領域が確保される。なお、トークンリスト作成部11による処理の開始に先立って、分割可能な複合語の分割を行うか否かのオプション設定を行っておく。この設定は、本実施の形態の形態素解析エンジン10を利用するアプリケーションのユーザインターフェイスにおいて、設定コマンドの入力を受け付けることによって行うことができる。
【0024】
処理対象のテキストが入力されると、トークンリスト作成部11は、入力テキストの先頭の文字に着目し(ステップ602)、当該着目文字から始まる各トークンのトークン情報を順次マスター辞書12から読み出し、メインメモリ103の作業領域に格納する(ステップ603、604、605)。
例えば、上述した「情報処理学会で青木和夫の」という文を処理する場合、先頭の文字「情」が着目され、「情−名詞」、「情報−名詞」、「情報処理−名詞」、「情報処理学会−名詞」というトークン情報が読み出されることとなる。
【0025】
複合語を分解するオプション設定がオンとなっているならば、次にトークンリスト作成部11は、マスター辞書12から読み出してメインメモリ103の作業領域に保持したトークン情報の分割可能フラグを調べ、当該トークンが分割可能か否かを判断する(ステップ606、607)。当該トークンが分割不可能である場合、または複合語を分解するオプション設定がオフである場合は、当該トークン情報をメインメモリ103に用意されたトークンリストに登録する(ステップ608)。そして、ステップ604に戻り、未処理のトークンが残っているか否かを調べ、残っていれば、当該未処理のトークンに関して同様の処理(ステップ605〜ステップ608)を行う。
文字「情」に着目している場合、読み出された上記4つのトークン情報「情−名詞」、「情報−名詞」、「情報処理−名詞」、「情報処理学会−名詞」が全てトークンリストに登録される。
【0026】
一方、ステップ607で、当該トークンが分割可能である場合は、当該トークンをトークンリストに登録せずにステップ604へ戻り、未処理のトークンが残っているか否かを調べる。
上記の例では、「情報処理−名詞」及び「情報処理学会−名詞」が分割可能であるので、トークンリストには「情−名詞」及び「情報−名詞」のみが登録されることとなる。
【0027】
着目文字から始まる全てのトークンに関して上記の処理(ステップ605〜ステップ608)を行ったならば、次に着目文字を入力テキストの後方へ1つずらしてステップ603へ戻り(ステップ609)、同様の処理(ステップ604〜ステップ608)を行う。そして、入力テキストの全ての文字を着目文字として上記の処理を完了したならば、トークンリスト作成部11による処理を終了する(ステップ603)。
上記「情報処理学会で青木和夫の」という文の場合では、文字「情」に着目して上記の処理を行い、次に文字「報」に着目して処理を行うというように、順次処理を行っていき、最後の文字「の」に着目して処理を行った後、トークンリスト作成部11の処理が終了する。
【0028】
トークン列選択部13は、従来の形態素解析エンジンにおけるトークン列選択部と同様である。すなわち、文法辞書14を参照して、トークンリスト作成部11にて作成されたトークンリストから、最も可能性の高い(最適な)トークン列を選択する。トークン列の選択には、通常の接続コスト最小法を用いることができる。
トークン列選択部13の処理に利用される文法辞書14は、従来の形態素解析エンジンにおける文法辞書と同様である。すなわち、単語の可能なつながり方と各つながり方に対して予め設定されたコストとを定義した文法データとが格納されている。
【0029】
図7は、トークン列選択部13による処理を説明するフローチャートである。
なお、処理が開始される際、初期動作として、文法辞書14の内容がハードディスク105からメインメモリ103にロードされる。
図7に示すように、トークン列選択部13は、まず処理対象のテキストとトークンリスト作成部11にて作成されたトークンリストとを入力し(ステップ701)、文法辞書14を参照して、入力テキストの先頭から末尾までを構成する可能なトークン列を生成し、メモリの作業領域に格納する(ステップ702)。
上述した「情報処理学会で青木和夫の」という文では、例えば、
情報処理学会−で−青木和夫−の(複合語を分割しない場合)
情報−処理−学会−で−青木−和夫−の
情−報−処−理−学−会−で−青−木−和−夫−の
等のトークン列が得られる。
【0030】
次に、トークン列選択部13は、生成されたトークン列を解(経路)の候補として、トークン列を構成するトークンのつながり方に対して与えられたコストを文法辞書から参照し、コストの総和が最も低い最適解(最短経路)を探索する(ステップ703)。この探索には、例えば周知のダイクストラ・アルゴリズムを用いることができる。
最後に、トークン列選択部13は、最適解であるトークン列を、入力テキストに対する最適なトークン列として出力する(ステップ704)。
【0031】
上述したトークン列選択部13による処理は、従来の形態素解析エンジンにおける処理と同様である。しかしながら、分割可能な複合語を分割する設定で形態素解析を行う場合、上述したようにトークンリスト作成部11によるトークンリストの作成処理の段階で不要な複合語がトークンリストから除去されているため、その分だけ処理対象となるトークンの組み合わせの数(パスの数)も、従来の形態素解析の場合と比べて少なくなる。したがって、トークン列選択部13による処理が高速化されることとなる。
【0032】
また、従来の形態素解析エンジンでは、分割可能な複合語を分割する設定で形態素解析を行う場合、トークン列選択部13によって選択されたトークン列に対して複合語辞書とのマッチングを行い、当該トークン列に含まれる分割可能な複合語を分割していた。そのため、複合語辞書を持つ分だけメモリやハードディスクといった記憶装置(資源)の使用量が増すと共に、形態素解析処理の実行時に複合語を分割するための時間が余計にかかっていた。
これに対し、本実施の形態の形態素解析エンジン10では、分割可能な複合語を分割する設定で形態素解析を行う場合、トークンリスト作成部11にて作成されたトークンリストには複合語のトークンを登録しないことによって複合語の分割に対応するため、マスター辞書の他に複合語辞書を持つ必要が無く、記憶装置(資源)使用量を削減できる。そして、形態素解析処理の実行時にも、トークンリストの作成およびトークン列の選択の他に複合語の分割処理を行う必要がないため、処理に要する時間を短縮できる。
【0033】
さらに、従来の形態素解析エンジンは、上記のように最適なトークン列を選択した後に分割可能な複合語を分割していたため、当該トークン列が最適なのは複合語を複合語のまま扱う場合であり、当該複合語が分割された状態のトークン列が最適であることは保証されない。
これに対し、本実施の形態素解析エンジン10では、分割可能な複合語を分割する設定で形態素解析を行う場合、トークンリスト作成部11にて作成されたトークンリストには複合語のトークンが含まれておらず、複合語のトークンを含むトークン列がトークン列選択部13による処理対象となることはない。したがって、トークン列選択部13により選択されたトークン列は必ず複合語のトークンを含まないトークン列であり、かつ最適であることが保証される。
【0034】
次に、本実施の形態の形態素解析エンジン10が利用されるアプリケーションについて説明する。
上述した形態素解析エンジン10は、コンピュータ装置に搭載されて自然言語文に対する形態素解析装置として実現される他、テキスト検索システムや機械翻訳システム、テキスト・マイニング・システム等の自然言語に対する処理を行う種々のアプリケーションにて利用することができる。
図8は、形態素解析エンジン10を搭載したテキスト検索システムの構成例を示す図である。
図8を参照すると、このテキスト検索システムは、検索対象のテキスト群を格納したテキストデータベース801と、テキストデータベース801に格納されている各テキストからキーワードのインデックスファイルを作成するインデックスファイル作成部802と、インデックスファイルを用いて検索対象のテキスト群に対し検索タームである文の検索を行うテキスト検索部803と、インデックスファイル作成部802及びテキスト検索部803の処理の前処理として形態素解析を行う形態素解析部804と、検索タームである文を入力するテキスト入力部805と、検索結果を出力する検索結果出力部806とを備える。
【0035】
このテキスト検索システムは、例えば1台またはネットワークで接続された複数台のコンピュータ装置にて実現される。図8に示した構成において、テキストデータベース801はハードディスク等の記憶手段にて実現され、テキスト検索というアプリケーションを実行する手段であるインデックスファイル作成部802及びテキスト検索部803はプログラム制御されたCPUにて実現される。また、形態素解析部804として本実施の形態の形態素解析エンジン10を用いることができる。テキスト入力部805はキーボードやマウス、その他の入力デバイスで実現され、検索結果出力部806はディスプレイ装置等で実現される。また、ネットワークインターフェイスを介して外部機器との間で検索タームである文の入力や検索結果の出力を行っても良い。
【0036】
このテキスト検索システムでは、インデックスファイルの作成時とテキスト検索の実行時とに形態素解析が行われる。
インデックスファイルの作成処理において、まずテキストデータベース801からテキストが順次読み出され、形態素解析部804により形態素解析が行われる。このとき、テキスト検索(アプリケーション)の必要から複合語を分割したい場合は、図6、図7に示したように、複合語を含まないトークン列の中から最適なものが選択される。得られたトークン列の中から、インデックスファイル作成部802により、名詞や形容詞等の自立語のトークン(単語)のみがキーワードとして抜き出される。そして、検索対象のテキストごとにキーワードが登録されたインデックスファイルが作成される。
【0037】
次にテキスト検索の処理において、まずテキスト入力部805により検索タームである文が入力され、形態素解析部804により当該入力文の形態素解析が行われる。このとき、テキスト検索(アプリケーション)の必要から複合語を分割したい場合は、図6、図7に示したように、複合語を含まないトークン列の中から最適なものが選択される。得られたトークン列の中から、テキスト検索部803により、名詞や形容詞等の自立語のトークン(単語)が抜き出される。そして、インデックスファイルを用いて、抜き出されたトークンを含むテキストの検索が行われる。この検索によりヒットしたテキストがテキストデータベース801から読み出され、検索結果出力部806にて出力(表示)される。
【0038】
図9は、形態素解析エンジン10を搭載した機械翻訳システムの構成例を示す図である。
図9を参照すると、この機械翻訳システムは、翻訳対象である原文テキストを入力する原文入力部901と、入力された原文テキストを形態素解析する形態素解析部902と、形態素解析の行われた原文テキストを構文解析する構文解析部903と、構文解析の結果に基づいて原文テキストの文構造を翻訳文の言語における文構造に構文変換する構文変換部904と、構文変換の結果得られた文構造に基づいて翻訳文テキストを生成する翻訳文生成部905と、生成された翻訳文テキストを出力する翻訳文出力部906とを備える。また、特に図示しないが、原文及び翻訳文の各言語における単語辞書や文法辞書を備え、各部の処理において用いられる。
【0039】
この機械翻訳システムは、例えば1台またはネットワークで接続された複数台のコンピュータ装置にて実現される。図9に示した構成において、形態素解析部902として本実施の形態の形態素解析エンジン10を用いることができる。機械翻訳というアプリケーションを実行する手段である構文解析部903、構文変換部904及び翻訳文生成部905は、プログラム制御されたCPUにて実現される。また、原文入力部901はキーボードやマウス、その他の入力デバイスで実現され、翻訳文出力部906はディスプレイ装置等で実現される。また、ネットワークインターフェイスを介して外部機器との間で原文テキストの入力や翻訳文テキストの出力を行っても良い。
【0040】
機械翻訳では、複合語を分割するか否か等、単語の属性に応じて訳出の仕方を調整することによって翻訳の精度が大きく変わるため、詳細な設定が可能であることが好ましい。本実施の形態の形態素解析エンジンを用いた形態素解析部902によれば、そのような設定に応じて、トークンリストの作成段階で不要な(設定に合致しない属性を持つ)トークンを排除し、残りのトークンから最適なトークン列を得ることができる。
【0041】
図10は、形態素解析エンジン10を搭載したテキスト・マイニング・システムの構成例を示す図である。
図10を参照すると、このテキスト・マイニング・システムは、分類対象のテキスト群を格納したテキストデータベース1001と、テキストの分類基準となる分類表を格納した分類表格納部1002と、分類表を参照してテキストデータベース1001に格納されている各テキストの分類を行うマッチング処理部1003及び分類実行部1004と、マッチング処理部1003の処理の前処理として形態素解析を行う形態素解析部1005と、分類されたテキストを格納する分類テキストデータベース1006とを備える。
【0042】
このテキスト・マイニング・システムは、例えば1台またはネットワークで接続された複数台のコンピュータ装置にて実現される。図10に示した構成において、テキストデータベース1001、分類表格納部1002及び分類テキストデータベース1006はハードディスク等の記憶手段にて実現され、テキスト・マイニングというアプリケーションを実行する手段であるマッチング処理部1003及び分類実行部1004はプログラム制御されたCPUにて実現される。また、形態素解析部1005として本実施の形態の形態素解析エンジン10を用いることができる。
【0043】
このテキスト・マイニング・システムでは、まずテキストデータベース1001からテキストが順次読み出され、形態素解析部1005により形態素解析が行われる。このとき、テキスト・マイニング(アプリケーション)の必要から複合語を分割したい場合は、図6、図7に示したように、複合語を含まないトークン列の中から最適なものが選択される。得られたトークン列の中から、マッチング処理部1003により、名詞や形容詞等の自立語のトークン(単語)のみがキーワードとして抜き出される。そして、分類表格納部1002から単語と当該単語を含むテキストのカテゴリとを対応付けて登録した分類表が読み出され、予め定められた所定のルールに従って、トークン列から抽出された単語と分類表の単語とのマッチングが行われる。
次に、マッチング処理部1003によるマッチングの結果(単語の割合等)に基づいて、分類実行部1004により、着目中のテキストのカテゴリが決定される。そして、決定されたカテゴリに応じて分類テキストデータベース1006に格納される。
【0044】
なお、上記実施の形態では、日本語や中国語、韓国語などのように単語を区切らない表記方法を採る言語にて記述された自然言語文を解析する際に行われる形態素解析について説明したが、その他の言語においても、接頭辞や接尾辞、その他の複合語を適切に分割することで自然言語文の処理の性能向上を期待することができる場合に、本発明を適用することが可能である。
【0045】
【発明の効果】
以上説明したように、本発明によれば、形態素解析等の文章を単語に分解する処理において、複合語の分割処理を効率的に行い、処理全体における実行効率の向上を図ることができる。
また本発明によれば、複合語を分割した際にも解析結果として得られるトークン列が最適なものであることを保証することができる。
さらに本発明によれば、複合語辞書の作成及びメンテナンスに要する手間を削減することができる。
【図面の簡単な説明】
【図1】 本実施の形態による形態素解析を実行するのに好適なコンピュータ装置のハードウェア構成の例を模式的に示した図である。
【図2】 本実施の形態による形態素解析エンジンの機能構成を示す図である。
【図3】 複合語を分割しない場合のトークンリストの例を示す図である。
【図4】 図3と同じ例文に対する、本実施の形態による複合語を分割する場合のトークンリストの例を示す図である。
【図5】 本実施の形態におけるマスター辞書におけるデータフォーマットの例を示す図である。
【図6】 本実施の形態におけるトークンリストを作成する動作を説明するフローチャートである。
【図7】 本実施の形態におけるトークン列選択部による処理を説明するフローチャートである。
【図8】 本実施の形態の形態素解析エンジンを搭載したテキスト検索システムの構成例を示す図である。
【図9】 本実施の形態の形態素解析エンジンを搭載した機械翻訳システムの構成例を示す図である。
【図10】 本実施の形態の形態素解析エンジンを搭載したテキスト・マイニング・システムの構成例を示す図である。
【図11】 コンピュータにて実現される従来の形態素解析手段の機能ブロックを示す図である。
【図12】 従来の形態素解析のアルゴリズムを概略的に説明するフローチャートである。
【符号の説明】
10…形態素解析エンジン、11…トークンリスト作成部、12…マスター辞書、13…トークン列選択部、14…文法辞書、101…CPU、102…M/Bチップセット、103…メインメモリ、105…ハードディスク、106…ネットワークインターフェイス、801、1001…テキストデータベース、802…インデックスファイル作成部、803…テキスト検索部、804、902、1005…形態素解析部、805…テキスト入力部、806…検索結果出力部、901…原文入力部、903…構文解析部、904…構文変換部、905…翻訳文生成部、906…翻訳文出力部、1002…分類表格納部、1003…マッチング処理部、1004…分類実行部、1006…分類テキストデータベース

Claims (4)

  1. 処理対象の自然言語文に対して形態素解析を行う形態素解析装置において、
    見出し語および当該見出し語の属性情報として当該見出し語が分割可能か否かを示す情報を格納した辞書部と、
    前記辞書部を参照して、処理対象の前記自然言語文から当該自然言語文を構成することが可能なトークンを抽出し、トークンリストに登録するトークンリスト作成部と、
    前記トークンリスト作成部にて作成されたトークンリストに登録されているトークンから前記自然言語文を構成する特定のトークン列を選択するトークン列選択部とを備え、
    前記トークンリスト作成部は、複合語を分割して形態素解析を行うという条件が与えられた場合に、前記見出し語の属性情報を参照し、抽出した前記トークンから分割可能な見出し語に対応するトークンを除いて前記トークンリストに登録することを特徴とする形態素解析装置。
  2. 処理対象の自然言語文に対して形態素解析を行う形態素解析装置において、
    処理対象の前記自然言語文を当該自然言語文の構成要素であるトークンに分解し、より小さいトークンに分割可能なトークンを除いてトークンリストに登録するトークンリスト作成手段と、
    前記トークンリスト作成手段にて作成されたトークンリストに登録されているトークンから前記自然言語文を構成する特定のトークン列を選択するトークン列選択手段と
    を備えることを特徴とする形態素解析装置。
  3. 前記トークンリスト作成手段は、形態素解析における解析条件の設定を受け付け、複合語を分割して形態素解析を行うという解析条件を受け付けた場合に、前記トークンリストに登録するトークンからより小さいトークンに分割可能なトークンを除くことを特徴とする請求項2に記載の形態素解析装置。
  4. 処理対象である自然言語文を形態素解析する形態素解析手段と、
    前記形態素解析手段による形態素解析における解析条件を設定し、当該解析条件にしたがって当該形態素解析手段により形態素解析された前記自然言語文に対して所定の処理を行うアプリケーション実行手段とを備え、
    前記形態素解析手段は、
    見出し語および当該見出し語の属性情報として当該見出し語が分割可能か否かを示す情報を格納した辞書部と、
    前記辞書部を参照して、処理対象の前記自然言語文から当該自然言語文を構成することが可能なトークンを抽出し、分割可能な単語を分割して形態素解析を行うことが前記アプリケーション実行手段により要求される場合に、前記見出し語の属性情報を参照し、抽出した当該トークンのうち分割不可能な見出し語に対応するトークンをトークンリストに登録するトークンリスト作成部と、
    前記トークンリスト作成部にて作成されたトークンリストに登録されているトークンから前記自然言語文を構成する特定のトークン列を選択するトークン列選択部と
    を備えることを特徴とする自然言語処理装置。
JP2003033220A 2003-02-12 2003-02-12 形態素解析装置および自然言語処理装置 Expired - Fee Related JP4001283B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003033220A JP4001283B2 (ja) 2003-02-12 2003-02-12 形態素解析装置および自然言語処理装置
US10/777,263 US7684975B2 (en) 2003-02-12 2004-02-12 Morphological analyzer, natural language processor, morphological analysis method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003033220A JP4001283B2 (ja) 2003-02-12 2003-02-12 形態素解析装置および自然言語処理装置

Publications (2)

Publication Number Publication Date
JP2004246440A JP2004246440A (ja) 2004-09-02
JP4001283B2 true JP4001283B2 (ja) 2007-10-31

Family

ID=33019272

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003033220A Expired - Fee Related JP4001283B2 (ja) 2003-02-12 2003-02-12 形態素解析装置および自然言語処理装置

Country Status (2)

Country Link
US (1) US7684975B2 (ja)
JP (1) JP4001283B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3998668B2 (ja) * 2004-07-14 2007-10-31 沖電気工業株式会社 形態素解析装置、方法及びプログラム
US9330175B2 (en) 2004-11-12 2016-05-03 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
WO2006053306A2 (en) 2004-11-12 2006-05-18 Make Sence, Inc Knowledge discovery by constructing correlations using concepts or terms
US8126890B2 (en) * 2004-12-21 2012-02-28 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US8140559B2 (en) * 2005-06-27 2012-03-20 Make Sence, Inc. Knowledge correlation search engine
US8898134B2 (en) 2005-06-27 2014-11-25 Make Sence, Inc. Method for ranking resources using node pool
US8024653B2 (en) * 2005-11-14 2011-09-20 Make Sence, Inc. Techniques for creating computer generated notes
US10796390B2 (en) * 2006-07-03 2020-10-06 3M Innovative Properties Company System and method for medical coding of vascular interventional radiology procedures
JP4848317B2 (ja) * 2007-06-19 2011-12-28 インターナショナル・ビジネス・マシーンズ・コーポレーション データベースのインデックス作成システム、方法及びプログラム
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
EP2534585A4 (en) * 2010-02-12 2018-01-24 Google LLC Compound splitting
JP6232774B2 (ja) * 2013-06-26 2017-11-22 日本電気株式会社 形態素解析装置、形態素解析方法、及び、形態素解析プログラム
US20150088485A1 (en) * 2013-09-24 2015-03-26 Moayad Alhabobi Computerized system for inter-language communication

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4701851A (en) * 1984-10-24 1987-10-20 International Business Machines Corporation Compound word spelling verification
US5225981A (en) * 1986-10-03 1993-07-06 Ricoh Company, Ltd. Language analyzer for morphemically and syntactically analyzing natural languages by using block analysis and composite morphemes
US4887212A (en) * 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
US4864503A (en) * 1987-02-05 1989-09-05 Toltran, Ltd. Method of using a created international language as an intermediate pathway in translation between two national languages
US4873634A (en) * 1987-03-27 1989-10-10 International Business Machines Corporation Spelling assistance method for compound words
US5323316A (en) * 1991-02-01 1994-06-21 Wang Laboratories, Inc. Morphological analyzer
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
JPH0567144A (ja) * 1991-09-07 1993-03-19 Hitachi Ltd 前編集支援方法およびその装置
DE69330427T2 (de) * 1992-03-06 2002-05-23 Dragon Systems Inc., Newton Spracherkennungssystem für sprachen mit zusammengesetzten wörtern
JP3339741B2 (ja) * 1994-01-13 2002-10-28 株式会社リコー 言語解析装置
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
US5963893A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Identification of words in Japanese text by a computer system
JP3992348B2 (ja) * 1997-03-21 2007-10-17 幹雄 山本 形態素解析方法および装置、並びに日本語形態素解析方法および装置
US6424983B1 (en) * 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
US6393399B1 (en) * 1998-09-30 2002-05-21 Scansoft, Inc. Compound word recognition
US6185524B1 (en) * 1998-12-31 2001-02-06 Lernout & Hauspie Speech Products N.V. Method and apparatus for automatic identification of word boundaries in continuous text and computation of word boundary scores
US6223150B1 (en) * 1999-01-29 2001-04-24 Sony Corporation Method and apparatus for parsing in a spoken language translation system
SE519636C2 (sv) * 2000-07-06 2003-03-25 Hapax Information Systems Ab Förfarande och anordning för analys av sammansatta ord
DE10042944C2 (de) * 2000-08-31 2003-03-13 Siemens Ag Graphem-Phonem-Konvertierung
JP2002251402A (ja) 2001-02-26 2002-09-06 Mitsubishi Electric Corp 文書検索方法及び文書検索装置
US7349917B2 (en) * 2002-10-01 2008-03-25 Hewlett-Packard Development Company, L.P. Hierarchical categorization method and system with automatic local selection of classifiers

Also Published As

Publication number Publication date
JP2004246440A (ja) 2004-09-02
US7684975B2 (en) 2010-03-23
US20040254784A1 (en) 2004-12-16

Similar Documents

Publication Publication Date Title
US7752032B2 (en) Apparatus and method for translating Japanese into Chinese using a thesaurus and similarity measurements, and computer program therefor
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2008287406A (ja) 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
JP2005182280A (ja) 情報検索システム、検索結果加工システム及び情報検索方法並びにプログラム
JP4001283B2 (ja) 形態素解析装置および自然言語処理装置
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
US20050273316A1 (en) Apparatus and method for translating Japanese into Chinese and computer program product
KR100792203B1 (ko) 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의대역어 사전 구축 장치 및 방법
JP2017151553A (ja) 機械翻訳装置、機械翻訳方法、及びプログラム
JP4476609B2 (ja) 中国語解析装置、中国語解析方法および中国語解析プログラム
JP2008077512A (ja) 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
JP4875040B2 (ja) 機械翻訳システム及び機械翻訳プログラム
JP2003303194A (ja) 慣用句辞書作成装置、検索用インデックス作成装置、文書検索装置、それらの方法、プログラム及び記録媒体
JP5733285B2 (ja) 検索装置、検索方法及びプログラム
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP5909123B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
JP2004152041A (ja) 重要語句抽出装置、プログラムおよび記録媒体
JP5998779B2 (ja) 検索装置、検索方法、及びプログラム
JP3884001B2 (ja) 言語解析システムおよび方法
JPH11282839A (ja) 機械翻訳システム及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP5906869B2 (ja) アクセント付与装置、アクセント付与方法、及びプログラム
JPH0320866A (ja) テキストベース検索方式
JP2002183133A (ja) 固有名詞抽出装置、固有名詞抽出方法及び記憶媒体
JP2001125907A (ja) 辞書検索方法、装置、および辞書検索プログラムを記録した記録媒体
JP2006235970A (ja) ソースコード検索装置、ソースコード検索方法、ソースコード検索プログラム、およびソースコード検索プログラムを記録する記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060815

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061113

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061205

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070302

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070807

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20070808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070809

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100824

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100824

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110824

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120824

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees