JP3672473B2 - 個体名の抽出装置、抽出方法、並びに、記録媒体 - Google Patents

個体名の抽出装置、抽出方法、並びに、記録媒体 Download PDF

Info

Publication number
JP3672473B2
JP3672473B2 JP2000013160A JP2000013160A JP3672473B2 JP 3672473 B2 JP3672473 B2 JP 3672473B2 JP 2000013160 A JP2000013160 A JP 2000013160A JP 2000013160 A JP2000013160 A JP 2000013160A JP 3672473 B2 JP3672473 B2 JP 3672473B2
Authority
JP
Japan
Prior art keywords
morpheme
individual name
attribute
unit
hierarchical structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000013160A
Other languages
English (en)
Other versions
JP2001202381A (ja
Inventor
敬己 下郡山
信行 乙守
Original Assignee
株式会社ジャストシステム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジャストシステム filed Critical 株式会社ジャストシステム
Priority to JP2000013160A priority Critical patent/JP3672473B2/ja
Publication of JP2001202381A publication Critical patent/JP2001202381A/ja
Application granted granted Critical
Publication of JP3672473B2 publication Critical patent/JP3672473B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、入力された形態素列から所望の属性の個体名を表す形態素またはその列を抽出するのに好適な抽出装置、抽出方法、および、記録媒体に関する。
【0002】
【従来の技術】
従来から、コンピュータ、ワードプロセッサ、データベースシステムなどで、文献から必要な情報を得る検索システムが使われている。特に、近年のインターネット技術の発展にともない、さまざまな情報源から必要な情報を得るためのインフラストラクチャが整いつつある。
【0003】
また、コンピュータなどに文章の内容を理解させ、その内容を要約させたり、適宜選択させたりするようなシステムについても提案がされている。
【0004】
このようなシステムで、たとえば日本語の文献を処理の対象とする場合には、以下の手法が用いられていた。
【0005】
第1は、文章に処理したい単語と同じ文字列が出現した場合に、これを検索結果に含めたり、同じ綴りの文字列の出現頻度により、内容の要約を行う手法である。この手法は、字面だけで検索や要約を行うもので、インターネット検索エンジンなどでよく用いられている。
【0006】
第2は、まず、日本語の文章を各単語(「形態素」ともいう)に切り分ける形態素解析を行い、形態素の綴りとその品詞との情報の対の列を出力し、出力された情報の対の列に基づいて処理を行う手法である。
【0007】
【発明が解決しようとする課題】
しかしながら、字面だけで文献の処理を行う手法では、たとえば検索の際に、偶然に含まれた同じ綴りの文字列を含む文献も検索結果に含まれてしまい、不必要な情報に所望の情報が埋もれてしまうという問題が生じるおそれがある。
【0008】
一方、検索対象として人名、地域名、国名、社名、や、日時などの個体名を使う場合には、形態素解析で出力される情報だけではたとえば人名と地域名の区別がつかないため、上記と同様の問題が生じるおそれがある。また、WWW(World Wide Web)などから入手できる情報には、新しい商品名などの未知語が多いため、これらに対応する必要もある。
【0009】
また、検索対象としていずれかの属性を有する個体名を表す形態素やその列を選択的に得たい場合がある。たとえば、国名と地域名の個体名を得たい場合には、人名や社名などの個体名は不要である。
【0010】
したがって、形態素解析によって得られた形態素から情報の検索や概念の要約などに用いることができる個体名を認定し、その個体名から所望の属性を有するものを抽出して出力する手法が望まれている。
【0011】
本発明の目的は、入力された形態素列から所望の属性を有する個体名を表す形態素またはその列を抽出することにある。
【0012】
【課題を解決するための手段】
上記目的を達成するため、本発明の第1の観点に係る個体名の抽出装置は、個体名認定部と、属性入力受付部と、抽出部と、結果出力部とを備えるように構成する。
【0013】
ここで、個体名認定部は、形態素列を入力として受け付け、個体名として認定された形態素またはその列と、当該形態素またはその列、および、これが含む形態素またはその列が有する属性と、を対応付けて認定する。
【0014】
一方、属性入力受付部は、所望の属性の入力を受け付ける。
【0015】
さらに、抽出部は、前記個体名認定部により個体名として認定された形態素またはその列、および、これが含む形態素またはその列から、前記入力が受け付けられた属性を有するものを抽出する。
【0016】
そして、結果出力部は、前記抽出部により抽出された形態素またはその列を抽出された個体名として出力する。
【0017】
本抽出装置では、所望の属性を1つまたは複数入力することにより、当該属性を有する個体名として認定される形態素又はその列(以下「形態素(列)」という。)を、文献から抽出することができる。
【0018】
また、上記抽出装置において、前記属性入力受付部は、属性の階層構造からいずれかの属性を選択する選択入力を受け付けて、これを所望の属性の入力とするように構成してもよい。
【0019】
本抽出装置では、属性を階層構造により管理して、ユーザは、当該階層構造から所望の属性を選択することができる。
【0020】
また、上記抽出装置は、階層構造表示部をさらに備えるように構成してもよい。
【0021】
ここで、階層構造表示部は、前記属性の階層構造を表示する。
【0022】
本抽出装置では、属性の階層構造が画面に階層構造、たとえば木構造として表示されるため、ユーザが属性の分類にしたがって所望の属性を見つけやすくなる。
【0023】
また、上記抽出装置において、前記階層構造表示部は、前記属性の階層構造に含まれる各属性が、前記属性入力受付部により選択された属性か否かを示す情報をさらに表示するように構成してもよい。
【0024】
本抽出装置では、たとえば木構造により表示された階層構造に含まれる各属性の表示に選択済み、未選択、当該属性が含む属性の一部を選択、などの表示を付加することができるため、ユーザが所望の属性を指定しやすくすることができる。
【0025】
また、上記抽出装置は、階層構造記憶部と、階層構造編集入力受付部と、階層構造更新部とをさらに備えるように構成してもよい。
【0026】
ここで、階層構造記憶部は、前記属性の階層構造を記憶する。
【0027】
一方、階層構造編集入力受付部は、前記属性の階層構造を編集する階層構造編集入力を受け付ける。
【0028】
さらに、階層構造更新部は、前記階層構造編集入力受付部により受け付けられた階層構造編集入力により、前記階層構造記憶部に記憶された属性の階層構造を編集して更新する。
【0029】
本抽出装置では、コンピュータを用いて属性の階層構造を編集することができる。たとえば、木構造に含まれる属性の移動はマウスで当該属性をドラッグすることにより、削除、追加は、マウスで右クリックして表示されるメニューから選択することにより、編集できるようにすることができる。通常のコンピュータ操作においても、たとえばファイルやディレクトリの編集・移動・追加・削除に木構造表示を用いるが、これと同様の操作方法を採用することにより、属性の階層構造の編集を容易にすることができる。
【0030】
上記目的を達成するため、本発明の第2の観点に係る個体名の抽出方法は、個体名認定ステップと、属性入力受付ステップと、抽出ステップと、結果出力ステップとを備えるように構成する。
【0031】
ここで、個体名認定ステップでは、形態素列を入力として受け付け、個体名として認定された形態素またはその列と、当該形態素またはその列、および、これが含む形態素またはその列が有する属性と、を対応付けて認定する。
【0032】
一方、属性入力受付ステップでは、所望の属性の入力を受け付ける。
【0033】
さらに、抽出ステップでは、前記個体名認定ステップにて個体名として認定された形態素またはその列、および、これが含む形態素またはその列から、前記入力が受け付けられた属性を有するものを抽出する。
【0034】
そして、結果出力ステップでは、前記抽出ステップにて抽出された形態素またはその列を抽出された個体名として出力する。
【0035】
また、上記抽出方法において、前記属性入力受付ステップでは、属性の階層構造からいずれかの属性を選択する選択入力を受け付けて、これを所望の属性の入力とするように構成してもよい。
【0036】
また、上記抽出方法は、階層構造表示ステップをさらに備えるように構成してもよい。
【0037】
ここで、階層構造表示ステップでは、前記属性の階層構造を表示する。
【0038】
また、上記抽出方法において、前記階層構造表示ステップでは、前記属性の階層構造に含まれる各属性が、前記属性入力受付ステップにて選択された属性か否かを示す情報をさらに表示するように構成してもよい。
【0039】
また、上記抽出方法において、前記属性の階層構造はあらかじめ記憶され、階層構造編集入力受付ステップと、階層構造更新ステップとをさらに備えるように構成してもよい。
【0040】
ここで、階層構造編集入力受付ステップでは、前記属性の階層構造を編集する階層構造編集入力を受け付ける。
【0041】
一方、階層構造更新ステップでは、前記階層構造編集入力受付ステップにて受け付けられた階層構造編集入力により、前記あらかじめ記憶された属性の階層構造を編集して更新する。
【0042】
上記目的を達成するため、本発明の第3の観点に係るコンピュータ読取可能な記録媒体は、コンピュータを、個体名認定部、属性入力受付部、抽出部、および、結果出力部として機能させるプログラムを記録するように構成する。
【0043】
ここで、個体名認定部は、形態素列を入力として受け付け、個体名として認定された形態素またはその列と、当該形態素またはその列、および、これが含む形態素またはその列が有する属性と、を対応付けて認定する。
【0044】
一方、属性入力受付部は、所望の属性の入力を受け付ける。
【0045】
さらに、抽出部は、前記個体名認定部により個体名として認定された形態素またはその列、および、これが含む形態素またはその列から、前記入力が受け付けられた属性を有するものを抽出する。
【0046】
そして、結果出力部は、前記抽出部により抽出された形態素またはその列を抽出された個体名として出力する。
【0047】
また、上記コンピュータ読取可能な記録媒体に記録された前記プログラムにより前記コンピュータが前記属性入力受付部として機能する場合、前記属性入力受付部は、属性の階層構造からいずれかの属性を選択する選択入力を受け付けて、これを所望の属性の入力とするように構成してもよい。
【0048】
また、上記コンピュータ読取可能な記録媒体に記録された前記プログラムは、前記コンピュータを、階層構造表示部としてさらに機能させるように構成してもよい。
【0049】
ここで、階層構造表示部は、前記属性の階層構造を表示する。
【0050】
また、上記コンピュータ読取可能な記録媒体に記録された前記プログラムにより、前記コンピュータが階層構造表示部として機能する場合、前記階層構造表示部は、前記属性の階層構造に含まれる各属性が、前記属性入力受付部により選択された属性か否かを示す情報をさらに表示するように構成してもよい。
【0051】
また、上記コンピュータ読取可能な記録媒体に記録された前記プログラムは、前記コンピュータを、階層構造記憶部、階層構造編集入力受付部、および、階層構造更新部としてさらに機能させるように構成してもよい。
【0052】
ここで、階層構造記憶部は、前記属性の階層構造を記憶する。
【0053】
一方、階層構造編集入力受付部は、前記属性の階層構造を編集する階層構造編集入力を受け付ける。
【0054】
さらに、階層構造更新部は、前記階層構造編集入力受付部により受け付けられた階層構造編集入力により、前記階層構造記憶部に記憶された属性の階層構造を編集して更新する。
【0055】
【発明の実施の形態】
以下、添付図面を参照して、本発明の実施の形態について説明する。
【0056】
(抽出装置として機能する情報処理装置の概要構成)
図1は、本発明の個体名の抽出装置として機能する典型的な情報処理装置(汎用のコンピュータ、各種端末、携帯端末、携帯電話、ゲーム装置などの専用機器を含む)の概要構成を示す模式図である。以下、図1を参照して説明する。
【0057】
情報処理装置101は、CPU(Central Processing Unit;中央処理ユニット)102によって制御される。情報処理装置101に電源を投入すると、CPU102は、ROM(Read Only Memory;読出専用メモリ)103に記憶されたIPL(Initial Program Loader;初期プログラムローダ)を実行する。
【0058】
IPLは、ハードディスク104、FD(Floppy Disk;フロッピーディスク)ドライブ110に装着されたFD、CD−ROM(Compact Disk ROM)ドライブ111に装着されたCD−ROMなどの記録媒体に記憶されたOS(Operating System;オペレーティング・システム)プログラムを読み出して実行するプログラムである。
【0059】
OSを起動した後、CPU102は、キーボード105やマウス106などにより入力されたユーザの指示にしたがって、あるいは、ハードディスクなどにあらかじめ記述された設定ファイルの内容にしたがって、ハードディスクなどに記憶されたアプリケーションプログラムを実行する。
【0060】
なお、携帯端末などの小規模な情報処理装置では、IPL自体がOSやアプリケーションプログラムとしての機能を果たすような実施形態も採用することができる。
【0061】
CPU102は、プログラムの実行の際に、RAM(Random Access Memory)107を一時的な作業用記憶領域として用いる。このほか、一時的な作業用記憶領域として、CPU102内に設けられたレジスタやキャッシュ(図示せず)が使われる。
【0062】
プログラムの実行に伴ない、ユーザに結果を報告したり、途中経過を見せるため、CPU102は、液晶ディスプレイやCRT(Cathode Ray Tube)などの表示装置108に当該情報を表示することができる。マウス106による指示操作では、マウス106を移動することにより、画面に表示されたカーソルが移動し、マウス106をクリックすることにより、カーソルが指すメニュー項目を選択することができる。
【0063】
情報処理装置101は、NIC(Network Interface Card)やモデムなどのインターフェース109を介してインターネットなどのコンピュータ通信網と通信を行うことができる。インターフェース109を介して受信した文書データを処理の対象としたり、処理した結果をインターフェース109を介して送信したり、インターフェース109を介して受信したプログラムを実行したり、などができる。
【0064】
(抽出装置の概要構成)
図2は、上記情報処理装置101が本発明の個体名の抽出装置として機能する場合の、各機能の概要構成を示す模式図である。
【0065】
個体名の抽出装置131は、個体名認定部151、属性入力受付部133、抽出部134、および、結果出力部135を備える。また、階層構造記憶部136、階層構造表示部137、階層構造編集入力受付部138をさらに備えるように構成してもよい。
【0066】
個体名認定部151は、形態素列を入力として受け付ける。さらに、この形態素列の中から個体名を表す形態素(列)を探す。最後に、当該形態素(列)と、当該形態素列の個体名の属性と、を対応付けて認定する。
【0067】
個体名を表す形態素(列)の一部もまた、個体名を表す形態素(列)である場合がある。このように入れ子構造になっている場合には、外側の個体名の属性と、内側の個体名の属性と、を両方とも認定する。
【0068】
したがって、CPU102は、他の要素と共働して個体名認定部151として機能する。個体名認定部151については、以降でさらに詳述する。
【0069】
ユーザは、所望の個体名の属性の入力を属性入力受付部133へ与える。したがって、キーボード105やマウス106などの入力装置が属性入力受付部133として機能する。
【0070】
抽出部134は、個体名認定部151により認定された形態素(列)と、その属性と、の組から、属性入力受付部133が入力を受け付けた属性を有する個体名の形態素(列)を、抽出する。このように、CPU102は、抽出部として機能する。
【0071】
最後に、結果出力部135は、抽出された所望の属性の形態素(列)を結果として出力する。出力先は、表示装置108のほか、ハードディスク104、FDD110に装着されたフロッピーディスク、RAM107、インターフェース109を介して接続された他のコンピュータなどを選択することができる。これらの機器と共働して、CPU102が結果出力部として機能する。
【0072】
さらに、個体名が有する属性は階層構造で管理され、この階層構造は、階層構造記憶部136に記憶される。したがって、ハードディスク104、FDD110に装着されたフロッピーディスク、ROM103、RAM107、CD−ROMドライブ111に装着されたCD−ROM、インターフェース109を介して接続された他のコンピュータなどが階層構造記憶部136として機能する。
【0073】
属性入力受付部133から所望の属性を入力する際には、階層構造表示部137に表示された木構造の中から所望の属性を選択する。
【0074】
表示装置108は、CPU102の指示によってこの木構造を表示し、階層構造表示部137として機能する。
【0075】
また、ユーザは、表示された木構造を見て、階層構造編集入力受付部138を介して入力された編集入力に基づき、階層構造更新部139が更新することにより、属性の階層構造に新たな属性を追加したり、既存の属性をまとめたり、既存の属性を移動したり、既存の属性を削除したりして、容易に属性を管理することができる。
【0076】
ここで、キーボード105やマウス106などの入力装置が階層構造編集入力受付部138として機能する。
【0077】
階層構造更新部139による更新が可能な場合は、階層構造記憶部136は、ハードディスク104、FDD110に装着されたフロッピーディスク、RAM107、インターフェース109を介して接続された他のコンピュータなど、書き込み可能な記憶媒体でなければならない。CPU102は、これらの機器と共働して、階層構造更新部139として機能する。
【0078】
このほか、ハードディスク104、FDドライブ110に装着されたFD、CD−ROMドライブに装着されたCD、ROM103、RAM107、および、インターフェース109を介して接続された他のコンピュータなど、コンピュータ読み取り可能な記憶媒体に相当するものは、CPU102で実行されるプログラムを記録することにより、本発明の記録媒体として機能する。
【0079】
上述のように、図1に示す情報処理装置101は、図2に示す本発明の個体名の抽出装置として機能させるための典型的な実施態様である。
【0080】
たとえば、インターネット内の文献を自動的に取得して個体名を抽出して個体名の文献データベースを作成するロボットサーバにて、本発明の個体名の抽出方法を実施させ、当該ロボットサーバを本発明の個体名の抽出装置として機能させることができる。この場合、ユーザとのやりとりはロボットサーバが接続されているユーザ端末にて行われるため、ロボットサーバ自体には、表示装置108、FDドライブ110、キーボード105、マウス106等は不要である一方、インターフェース109は必須である。
【0081】
また、携帯端末では、外部記憶装置として、不揮発性半導体メモリ(フラッシュメモリカード)やバッテリバックアップがされたRAMを使用することができる。この場合、必ずしもハードディスク104、FDドライブ110、CD−ROMドライブ111等は必要ない。
【0082】
(個体名の種類)
本発明の個体名の抽出装置、および、抽出方法では、あらかじめ形態素解析を実行することにより出力された形態素列から、所望の属性を有する個体名を表す形態素(列)を抽出する。以下では、この個体名として採用される形態素の種類の実施例について説明する。
【0083】
図3は、本実施例の個体名の属性の階層構造の様子を示す説明図である。本実施例では、個体名の形態素(列)に対応付けて、以下の4種類の属性を認定する。
・固有名詞
・時間
・数量
・インデックス
【0084】
属性「固有名詞」は、さらに、商品名、組織名、地名(地域名、自然物名、施設名)、人物名に分類される。
【0085】
属性「時間」は、さらに、経済時間、暦時間(曜日時間を含む)、非暦時間、特殊接辞に分類される。
【0086】
属性「数量」は、さらに、金額、比率、序数詞に分類される。
【0087】
属性「インデックス」は、さらに、URL(Universal Resource Locater)、電子メールアドレス、電話番号、ファクシミリ番号に分類される。これらは、英数字や記号から構成される文字列であるが、個人や企業を特定する、という点で、人物名や組織名に準じて考えることができる。
【0088】
このように、本発明で取り扱う個体名の形態素(列)の属性は階層的に構成されている。属性の階層は、適宜変更して構成することができる。
【0089】
本発明では、処理対象とする形態素列から、これらの属性を付された個体名の形態素(列)を分類して認定し、認定結果を抽出された個体名として出力する。
【0090】
具体例をあげて説明する。以下適宜、記号「/」を用いて形態素を区切るものとする。「私は、(株)山田商会田中専務です。」は、「私/は/、/(株)/山田/商会/田中/専務/です/。」のように形態素列に解析できる。
【0091】
これらの形態素それぞれには、上記の属性を割り当てることができるものがある。たとえば、「山田」には「人物名」という属性を、「専務」には「役職名」という属性を、それぞれ割り当てることができる。このように、形態素そのものに割り当てられる属性を「役割素性」という。
【0092】
一方、「山田/商会」「(株)/山田/商会」などのような形態素列にも属性を割り当てることができる。これらには「組織名」という属性を割り当てることができる。同様に、「田中/専務」には「人物名」という属性を割り当てることができる。
【0093】
「(株)/山田/商会/田中/専務」は、本例において、個体名として認定できる最大限の形態素列であり、これには「人物名」という属性を割り当てることができる。このように、個体名として認定できる最大限の形態素列に割り当てられた属性を「カテゴリ」という。
【0094】
(処理手順)
以下、本発明の個体名の抽出装置の機能を実現するために上記の情報処理装置にて実行される処理、すなわち、本発明の個体名の抽出方法の概要について説明する。図4は、当該処理の流れを示すフローチャートである。
【0095】
まず、抽出装置131は、形態素列を入力として受け付け、この形態素列の中から個体名を表す形態素(列)を探し、最後に、当該形態素(列)と、当該形態素列の個体名の属性と、を対応付けて認定する(ステップS171)。本処理の詳細については、後述する。
【0096】
次に、抽出装置131は、ユーザからの所望の個体名の属性の入力を受け付ける(ステップS172)。属性の入力の受付の詳細については、後述する。
【0097】
ついで、抽出装置131は、ステップS171において認定された形態素(列)と、その属性と、の組から、ステップS172において入力を受け付けた属性を有する個体名の形態素(列)を、抽出する(ステップS173)。
【0098】
最後に、抽出装置131は、抽出された所望の属性の形態素(列)を結果として出力して(ステップS174)、本処理を終了する。
【0099】
なお、ステップS171とステップS172は、相互に順序の依存関係がない場合は、順序を入れ替えて実行してもよい。
【0100】
(個体名認定部の概要構成)
図5は、上記の個体名の抽出装置131の個体名認定部151の各機能の概要構成を示す模式図である。
【0101】
個体名認定部151は、入力受付部152、第1の個体名記憶部153、第2の個体名記憶部154、ルール記憶部155、認定部156、更新部157、出力部158を備える。また、図示しない要素として、再認定制御部、消去部を備えるように構成してもよい。
【0102】
入力受付部152は、形態素列を入力として受け付ける。ここで、処理の対象となる文書データやあらかじめ形態素解析を完了した結果の形態素列を記録したデータは、上記のようにインターフェース109を介して得ることができるほか、ハードディスク104、FD、CD−ROMに記憶されたファイルなどから得ることができる。また、ユーザがキーボード105やマウス106を操作して入力した文書データを形態素解析してから、処理の対象とすることもでき、形態素列は、RAM107に記憶される。
【0103】
したがって、インターフェース109、ハードディスク104、FDドライブ110、CD−ROMドライブ111、RAM107は、形態素列を入力として受け付ける入力受付部152として機能する。
【0104】
第1の個体名記憶部153と、第2の個体名記憶部154は、個体名を表す形態素(列)を、その属性と対応付けて記憶するが、前者はあらかじめ記憶し、後者は一時的に記憶する。また、ルール記憶部155は、形態素列から個体名を表す形態素(列)をその属性と対応付けて認定するルールをあらかじめ記憶する。
【0105】
したがって、ハードディスク104、FDドライブ110に装着されたFD、CD−ROMドライブに装着されたCD、ROM103、RAM107、および、インターフェース109を介して接続された他のコンピュータのこれら読み取り可能な情報記憶装置に相当するものは、第1の個体名記憶部153、および、ルール記憶部155として機能する。第1の個体名記憶部153、および、ルール記憶部155は、必ずしも書き込みができる必要はない。
【0106】
一方、ハードディスク104、FDドライブ110に装着されたFD、RAM107、および、インターフェース109を介して接続された他のコンピュータのこれら読み書き可能な情報記憶装置に相当するものは、第2の個体名記憶部154として機能する。
【0107】
認定部156は、第1の個体名記憶部153、第2の個体名記憶部154、ルール記憶部155に記憶された情報を用いて、入力を受け付けた形態素列から個体名を表す形態素(列)を認定する。本実施形態では、CPU102が、認定部156として機能する。
【0108】
更新部157は、新たに認定された個体名を表す形態素(列)を第2の個体名記憶部154に追加して記憶する。本実施形態では、CPU102が、更新部157として機能する。
【0109】
出力部158は、認定された個体名を表す形態素(列)を抽出された個体名として出力する。なお、当該個体名を表す形態素(列)に対応付けられた属性も合わせて出力する形態を採用することができる。
【0110】
表示装置108、ハードディスク104、FDドライブ110に装着されたFD、RAM107、および、インターフェース109を介して接続された他のコンピュータのこれら読み書き可能な情報記憶装置に相当するものを抽出した個体名を表す形態素(列)を出力する先として選択することができる。したがって、これらは、出力部158として機能する。
【0111】
また、再認定制御部(図示せず)は、新たに認定された個体名を表す形態素(列)がある限り、認定部156における認定の処理を繰り返す制御を行う。この場合、CPU102が、再認定制御部として機能する。
【0112】
また、消去部(図示せず)は、特定条件が満たされると第2の個体名記憶部154に記憶された個体名の形態素(列)を消去する。この場合、CPU102が消去部として機能する。
【0113】
(個体名認定処理)
図6は、本発明の個体名の抽出装置131の個体名認定部151が実行する処理、すなわち、本発明の個体名の抽出方法の個体名認定ステップS171の処理の流れを示すフローチャートである。
【0114】
まず、入力受付部152が入力される形態素列を受け付ける(ステップS201)。形態素列の受け付けは、上記のように、ハードディスク104などの記録媒体から行ってもよいし、キーボード105などの入力装置から行ってもよい。また、RAM107内の所定の領域に形態素列のデータを記憶させ、このデータを記憶した領域のアドレスをパラメータとする関数呼び出しやシステムコールの形式で本ステップS201が開始される実施形態を採用することもできる。
【0115】
次に、認定部156が、入力形態素列から、第1の個体名記憶部153、および、第2の個体名記憶部154に記憶された形態素(列)を認定する(ステップS202)。本ステップS202で利用される個体名の詳細については後述する。
【0116】
さらに、認定部156は、入力形態素列から、特徴語、周辺に配置された(特に隣接する)形態素、認定された個体名などの情報を利用して、ルール記憶部155に記憶されたルールを適用して、未登録の個体名の形態素(列)を認定する(ステップS203)。認定ルールの詳細については後述する。
【0117】
ついで、認定された個体名を表す形態素(列)のうち、第2の個体名記憶部154に記憶されていないもの、すなわち、新規に認定された個体名の形態素(列)があるか否かを判断する(ステップS204)。
【0118】
新規に認定された個体名の形態素がある場合(ステップS204;YES)、更新部157は、第2の個体名記憶部154に追加記憶させて更新し(ステップS206)、ステップS202に戻る。これにより、新たに認定された個体名の情報を用いて再度ルールを適用することができる。なお、ステップS202に戻る処理の制御を担当するのが、再認定制御部である。
【0119】
一方、新規に認定された個体名の形態素(列)がない場合(ステップS204;NO)、本発明の手法により認定できる個体名はすべて認定されたことになるため、認定された個体名を表す形態素(列)を出力部158より認定された個体名として出力し(ステップS205)、本処理を終了する。出力の詳細については後述する。
【0120】
なお、第1の個体名記憶部153には、あらかじめ、個体名として選定された形態素(列)と、その個体名の属性を対応付けて記憶する。
【0121】
上述の例では単純に属性を割り当てたが、たとえば固有名詞の「山田」といっても、その属性として人物名、組織名(会社名)、地域名など、ふさわしい属性はさまざまである。一度文章の前方で「山田博物館」と記載された場合には、文章の後方で単に「山田」と書くこともあり、この場合は、施設名を表すことになる。
【0122】
したがって、個体名を表す形態素(列)にそれがとりうる属性を複数種類対応付けて第1の個体名記憶部153に記憶することができる。たとえば、「山田」に対して、「姓」「組織名」「会社名」「地域名」などを記憶することになる。
【0123】
また、時間、数量、インデックスは、形態素を表す文字列の並びのパターンで判別することができるため、このパターンをたとえば正規表現(Regular Expression)で表して第1の個体名記憶部153に記憶することができる。
【0124】
図7には、このような第1の個体名記憶部153に記憶される個体名を表す形態素(列)と、その属性やカテゴリの様子を示す。
【0125】
本図に示す例では、個体名として認定可能な形態素列として「パジェロ・ミニデューク」「山本食品」「田中住宅北陸」「祖谷渓」「焼山寺」「平将門」が記憶されている。たとえば、「パジェロ・ミニデューク」の属性(カテゴリ)は「商品」であり、これらを形態素に分けた「パジェロ」「・」「ミニ」「デューク」の属性(役割素性)は、それぞれ、「商品名本体」「記号」「商品名本体」「シリーズ名」である。
【0126】
このように、第1の個体名記憶部153には、あらかじめ定めた個体名を表す形態素(列)が記憶される。なお、認定ルールにより個体名として認定された未知語を、第2の個体名記憶部154に、同様のフォーマットで記憶することができる。
【0127】
(認定ルール)
第1の個体名記憶部153に記憶された形態素(列)を用いて、入力として受け付けた形態素列から個体名を認定することができるが、それだけでは不十分な場合がある。
【0128】
たとえば、個体名の属性が複数ある場合には、いずれが最も尤もらしいかを推定することにより、文献検索や要約の精度を高めることができる。
【0129】
また、文章の前方で「山田博物館」と記載された場合、後方で現れた「博物館」は、その前後の関係から見て、一般的な博物館を指すのではなく、固有名「山田博物館」を意味すると考えることもできる。このような場合に対応したいという要望がある。
【0130】
上述のように、商品名などの固有名詞では造語や新語などが用いられることが多いため、第1の個体名記憶部153に記憶されていない未知語が多い。特に、WWWから入手できる場合には、これが顕著である。このような場合であっても未登録の個体名を抽出できるようにしたい。
【0131】
以下に説明する認定ルールにより、これらに対応する。これらの認定ルールでは、すでに認定された個体名の形態素(列)、特徴語、周囲の情報の3種類の情報を用いる。認定された個体名の形態素(列)は、第2の個体名記憶部154に記憶される。
【0132】
(特徴語による認定ルール)
まず、特徴語や共起語を用いた認定ルールの例について説明する。特徴語としては、接頭語や接尾語などが考えられる。たとえば「部長」「(株)」である。形態素列として「山田/一郎/部長」が入力された場合、「部長」という特徴語から、形態素列「山田/一郎」が人名を表すことがわかる。
【0133】
そこで、第2の個体名記憶部154に「山田」「一郎」「山田/一郎」の各形態素(列)を、人名として更新登録する。後述するように、個体名の認定には、第1、第2の個体名記憶部153、154を両方とも用いるので、文章中に「山田/一郎/部長」が現れた後に「山田」が単独で現れても、この「山田」は人名を表す、と推定できるのである。
【0134】
同様に「(株)/ジャスト」や「システム/(株)」のような形態素列が入力された場合には、「ジャスト」や「システム」が第1の個体名記憶部153に記憶されていない未登録の固有名詞であっても、特徴語「(株)」から、会社名を表すことが判明する。
【0135】
同様に、「12/月/28/日」のような形態素列が入力された場合には、「12」は月を表し、「28」は日を表す個体名であることがわかる。
【0136】
なお、特徴語は、「山田/一郎/部長」「(株)/ジャスト」のように、個体名を表す形態素(列)の中に含まれ、これを含む形態素(列)全体にカテゴリを割り当てることができる。
【0137】
一方、共起語とは、特徴語と同様の機能を有するが、個体名を表す形態素(列)の中には含まれないものをいう。たとえば、「アルト/を/発売」という形態素列が入力された場合、「発売」という共起語から、「アルト」が個体名を表す形態素(列)でありカテゴリ「商品名」が付与される。「発売」は、当該個体名を表す形態素(列)には含まれない。
【0138】
このような特徴語、共起語の情報は、ルール記憶部155に記憶される。図8は、ルール記憶部155に記憶される特徴語、共起語の様子を示す模式図である。
【0139】
ルール記憶部155に実際に記憶されるのは、本図に示す表のうち、「テーブル分類」欄と「登録語」欄である。
【0140】
「テーブル分類」は、同じような特徴を有する特徴語、共起語を識別するための識別子であり、「登録語」は、当該特徴を有する特徴語、共起語である。
【0141】
たとえば、分類「T22」に属する「産業」「興業」「建設」はいずれも「後接特徴語」で、これらの特徴語を含む個体名の形態素(列)の属性(カテゴリ)は「商品名」である。
【0142】
一方、分類「T15」に属する「発売」「販売」「開発」「発表」は、いずれも「後接用言」で、これらの特徴語の前に配置された形態素(列)の属性(カテゴリ)は「商品名」である。
【0143】
(並列する名詞句の認定ルール)
並列する名詞句により未登録の形態素(列)を個体名であると推定して認定するルールが考えられる。
【0144】
たとえば、「東京/、/ンジャメナ/、/パリ」のような形態素列が入力され、「東京」および「パリ」が地域名を表す個体名であると判定された場合、「ンジャメナ」が第1の個体名記憶部に記憶されていない未登録語であっても、地域名を表す個体名であると推測することができる。
【0145】
「ンジャメナ」がカタカナのみの綴りからなることから、これが未登録語であっても、形態素解析で「ンジャメナ」が名詞相当語であることがわかるが、それ以上の情報は得られない。名詞句の並列を用いたルールによって、これが地域名であるらしいと推定できるのである。
【0146】
(格パターン認定ルール)
同じ文の中での、体言と用言の共起関係を用いて個体名を推定して認定するルールが考えられる。
【0147】
たとえば、「FULLBAND/を/10/月/に/ジャスト/が/発売/し/た」という文で、「FULLBAND」が未登録語である場合、形態素解析では、「FULLBAND」が名詞相当語句であることまでしかわからない。
【0148】
本ルールでは、同じ文の中にある「発売」の目的格が「FULLBAND」になっている、という共起関係を利用し、「FULLBAND」は商品名であると推定して個体名として認定する。
【0149】
図9に、これらの共起関係認定ルールがルール記憶部155に記憶される様子を示す。このルールも、第1の個体名記憶部と同様のフォーマットで記憶する実施形態をとることができる。
【0150】
本図に示す認定ルールは、前図に示す特徴語の情報を参照して定義されている。たとえば、「新製品」は「T11」に、開きかぎかっこは「T12」に、閉じかぎかっこは「T13」に、「を」は「T14」に、「発売」は「T15」に、それぞれ含まれるため、これらの共起関係より、形態素列『新製品/「/ジン/」』(明確のため二重かぎかっこを使って形態素列を示した)に属性(カテゴリ)「商品名」が付されることになる。
【0151】
(文間照応関係認定ルール)
このほか、一度認定された個体名を表す形態素(列)が、その属性とともに第2の個体名記憶部154に記憶されていることにより、異なる文の間でも照応関係を用いて個体名を推定して認定することができる。個体名を表す形態素(列)が新たに発見され、新たに発見した個体名を表す形態素(列)が第2の個体名記憶部154に追加更新されている間は、上記のルールを繰り返して適用することにより、実現できる。
【0152】
たとえば文章の前方に「鈴木/さん/の/開発/し/た」のような文があった場合、「鈴木」が役割素性「人物名」の個体名として第2の個体名記憶部に記憶される。これにより、文章の後方に「『/商品/の/開発/は/大変/で/し/た/』/(/鈴木/)」のような文があっても、この文の「鈴木」は役割素性「人物名」の個体名として推定して認定することができる。
【0153】
このほか、URL、電子メールアドレス、電話番号、ファクシミリ番号などは、これらに対応する正規表現にマッチする部分を個体名として認定するルールを設定すれば、文字の種類(パターン)による認定ルールを設定して認定することも可能である。
【0154】
これらのルールは適宜変更・追加・削除することが可能であり、変更・追加・削除した実施形態も本発明の範囲に含まれる。
【0155】
(第2の個体名記憶部)
上述したように、一度認定された個体名を表す形態素(列)は、その品詞、役割素性とともに、第2の個体名記憶部154に一時的に記憶される。この際の記憶領域のフォーマットは、第1の個体名記憶部153と同様のものを採用することができる。
【0156】
なお、第2の個体名記憶部154は、現在処理している文章特有の個体名の情報を含むため、たとえば、文献の種類が変わるたびに消去する必要がある。
【0157】
消去のタイミングについては、以下のような手法が考えられる。
【0158】
・異なる文献に由来する形態素列の処理を開始した場合。
【0159】
・当該個体名を表す形態素(列)が第2の個体名記憶部154に記憶されて以降に処理された形態素の数が所定の数を超えた場合。
【0160】
・当該個体名を表す形態素(列)が第2の個体名記憶部154に記憶されて以降に認定ルールにより使用されなかった期間が所定の期間(所定の形態素の処理数等)を超えた場合。
【0161】
・ユーザによる指示があった場合。
【0162】
このように、第2の個体名記憶部154に認定した個体名を一時的に記憶することにより、本発明では、一つの文内の認定ルールによって、文と文との間にまたがる認定ルールをも実現することができる。
【0163】
(個体名認定部の出力形式)
図10は、個体名認定部151による個体名の認定結果をすべて出力した表示例を示す説明図である。本発明の個体名の抽出装置131は、この結果から所望の属性を有する個体名の表す形態素(列)を抽出する。
【0164】
本図に示される文章のうち、斜体で下線を付されて強調表示されている部分が個体名として抽出された形態素(列)である。「韓国」「'99.9.10」「十頁」などの形態素(列)が抽出されている。
【0165】
本図に示す出力例では、出力部158は、抽出された個体名の形態素(列)を画面に出力しているが、さらに情報を付加して、ほかのアプリケーション等に抽出結果を渡すことができる。
【0166】
たとえば、抽出された個体名の形態素(列)と、これに対応する属性(カテゴリや役割素性等を含む。)と、をあわせて出力することができる。役割素性は、第1の個体名記憶部153、第2の個体名記憶部154、および、ルール記憶部155に記憶された情報から得ることができる。
【0167】
この実施形態により、以下のような出力を行うことができる。
「1/月/26/日」に対して「1」に役割素性「月数」を、「26」に役割素性「日数」を、「1月26日」全体にはカテゴリ「日付」を、それぞれ対応付けて出力する。
「山田/部長」に対して「山田」に役割素性「姓」を、「山田部長」全体にはカテゴリ「人名」を、それぞれ対応付けて出力する。
「株式会社/田中/商会/山田/社長」に対して、「田中」に役割素性「会社名」を、「商会」に役割素性「会社名」を、「田中商会」に属性「会社名」を、「株式会社田中商会」に属性「会社名」を、「山田」に役割素性「人名;姓」を、「社長」に役割素性「肩書き」を、「山田社長」に属性「人名」を、「株式会社田中商会山田社長」にカテゴリ「人名」を、それぞれ対応付けて出力する。
【0168】
上述のように、本発明の個体名の抽出装置131は、これらの抽出結果から、所望の属性を有する個体名のみを抽出する。
【0169】
(所望の属性を有する個体名を抽出する処理)
図11は、本発明の個体名の抽出装置131の階層構造表示部137による表示例を示す説明図である。この木構造が階層構造記憶部136に記憶されている。
【0170】
表示される属性の木構造の、各項目(属性名)の前には、四角形のチェックボックスが用意されている。ユーザは、画面に表示されたこの木構造のチェックボックスをクリックすることによって、当該属性を選択するか否かを入力することができる。
【0171】
属性を選択した場合は、チェックボックスは黒塗りになり(以下「全黒塗り」という。)、属性を選択しない場合は、チェックボックスは白塗りになる。
【0172】
また、属性は階層構造をなしているため、ある属性に含まれる属性のいずれかが選択され、いずれかが選択されていない場合は、チェックボックスの形状が三角形になる(以下「半黒塗り」という。)。
【0173】
なお、半黒塗りは、チェックボックスの四角の下半分が黒塗りになる、チェックボックスが灰色で塗られる、チェックボックスの対角線から下半分が黒塗りになる、などのようにして表示することもできる。
【0174】
本図に示す表示例では、属性「地名」と、属性「URL」と、が選択されている。このため、「地名」と、これ以下の属性「地域名」「自然物名」「施設名」と、「URL」のチェックボックスは全黒塗りになっており、「固有名詞」「インデックス」「カテゴリ属性」のチェックボックスは半黒塗りになっている。
【0175】
このようにしてユーザが選択した属性入力を属性入力受付部133が受け付けて、当該属性を有する個体名の形態素(列)のみを抽出部134が抽出するのである。
【0176】
図12は、本発明の個体名の抽出装置131の階層構造表示部137による表示例を示す説明図である。
【0177】
前図は、階層構造全体を表示していたが、不必要な属性については、その下部構造の表示を省略したい場合がある。このようにするためには、下部構造の属性の表示を省略したい属性の属性名をダブルクリックする。ダブルクリックにより、下部構造の表示/非表示が入れ変わる。
【0178】
本図は、いずれも選択されていないような属性について、下部構造の表示を省略している。下部構造の表示を省略した場合、省略した旨がわかるように、当該属性のチェックボックスの右側に「+」記号が表示される。
【0179】
このほか、ユーザは、マウス106やキーボード105などの操作により、属性の階層構造を編集することができる。この編集操作には、木構造の編集の際に用いられる公知の技法を使うことができる。
【0180】
たとえば、属性の階層構造内で、ある属性の位置を移動したい場合には、当該属性の属性名を、所望の位置までドラッグする。
【0181】
ある属性を削除したい場合には、その属性を右クリックして表示されるメニューから「削除」を選択する。図13は、当該メニューが表示された場合の階層構造表示部137による表示例を示す説明図である。
【0182】
本図では、「ファクシミリ番号」の右クリックにより、これを削除するためのメニューが表示されている。このメニューをマウスで選択すれば、この階層構造から「ファクシミリ番号」という属性が削除される。
【0183】
また、「電話番号」と「ファクシミリ番号」とを統合して、「各種番号」という属性を「インデックス」の下に作りたい場合には、以下のような手順にしたがえばよい。
・「インデックス」を右クリックして、表示されるメニューから「新規作成」を選択する。図14は、当該メニューが表示された場合の階層構造表示部136による表示例を示す説明図である。なお、本図においては、画面表示の一部を省略している。
【0184】
新規作成を選択すると、「インデックス」の下に「新規属性」が作成され、これが表示される。図15は、この場合の階層構造表示部136による表示例を示す説明図である。なお、本図においては、画面表示の一部を省略している。
【0185】
次に、「新しい属性」を右クリックして、「名前の変更」メニューを選択する。図16は、当該メニューが表示された場合の階層構造表示部137による表示例を示す説明図である。なお、本図においては、画面表示の一部を省略している。
【0186】
「名前の変更」を選択すると、変更後の名前を入力するダイアログボックスが表れる。ここに「各種番号」と入力する。図17は、名前が変更された後の階層構造表示部137による表示例を示す説明図である。
【0187】
次に、「電話番号」と「ファクシミリ番号」を、順次「各種番号」にドラッグする。図18、図19は、それぞれのドラッグ後の階層構造表示部136による表示例を示す説明図である。
【0188】
このように、属性の階層構造をユーザが柔軟かつ容易に編集することができる。
【0189】
(第2の実施の形態)
上記の実施形態では、個体名の属性の一種であるカテゴリの階層性から所望の属性を選択したが、本実施形態では、個体名を表す形態素列の中の個体名の役割素性などを含む階層から所望の属性を持つ部分を選択する。
【0190】
たとえば、「山田/商会/田中/一郎/専務」は全体でカテゴリ属性として「人物名」を持つ個体名であるが、各形態素には、以下のような役割素性が割り当てられる。
・「山田」に「会社名本体」。
・「商会」に「会社名特徴語」。
・「田中」に「姓」。
・「一郎」に「名」。
・「専務」に「役職」。
【0191】
したがって、この形態素列の属性は、図20に示すように階層化される。ユーザがたとえば、「人名本体」だけを望む場合には、上記実施例と同様に、この属性階層から「人名本体」を選択する。すると、上記実施例と同様の処理がされ、「田中/一郎」が所望の結果として抽出される。
【0192】
上記実施形態では、属性の階層から所望の属性を選択するため、互いに無関係の属性にまたがった選択ができるが、本実施形態では、一つの個体名形態素列の中のどの部分を結果として抽出するかを選択することができる。
【0193】
また、上記実施形態による抽出条件の選択と、本実施形態による抽出条件の選択と、を組み合わせることも容易であり、このような実施形態も本発明の範囲に含まれる。たとえば、カテゴリには「人物名」を用いて個体名の役割素性のうち「人名本体」の部分を用いる、のような組み合わせである。この場合、人物名の姓名だけを抽出することができる。
【0194】
このほか、カテゴリには「組織名」を使用し、組織名の役割素性のうち「下部組織」については不要、のような組み合わせである。この場合、「山田/商会/人事部」からは、「山田/商会」が抽出される。
【0195】
このように、形態素の属性をさまざまな様式で階層化して、その階層の中からユーザが所望の属性を選択し、また、この選択において、さまざまな組み合わせ条件(AND条件やOR条件)を付加することができる。
【0196】
【発明の効果】
以上説明したように、本発明によれば、入力された形態素列から所望の属性を有する個体名を表す形態素またはその列を抽出するのに好適な抽出装置、抽出方法、および、記録媒体を提供することができる。
【図面の簡単な説明】
【図1】 本発明の個体名の抽出装置を実現する情報処理装置の概要構成を示す模式図である。
【図2】 本発明の個体名の抽出装置の各機能の概要構成を示す模式図である。
【図3】 本発明の個体名の抽出装置において処理される属性の階層構造を示す説明図である。
【図4】 本発明の個体名の抽出装置において実行される処理、すなわち、本発明の個体名の抽出方法の処理の流れを示すフローチャートである。
【図5】 本発明の個体名の抽出装置の個体名認定部の概要構成を示す模式図である。
【図6】 本発明の個体名の抽出装置の個体名認定部において実行される処理、すなわち、本発明の個体名認定ステップの処理の流れを示すフローチャートである。
【図7】 本発明の第1の個体名記憶部に記憶される個体名を表す形態素(列)と、その役割素性の例を示す説明図である。
【図8】 本発明の認定ルールで用いられる特徴語、共起語がルール記憶部に記憶される様子を示す説明図である。
【図9】 本発明のルール記憶部に記憶される共起関係認定ルールがルール記憶部に記憶される様子を示す説明図である。
【図10】 本発明の個体名認定部の出力結果を示す説明図である。
【図11】 本発明の個体名の抽出装置の階層構造表示部による表示例を示す説明図である。
【図12】 本発明の個体名の抽出装置の階層構造表示部による表示例を示す説明図である。
【図13】 本発明の個体名の抽出装置の階層構造表示部による表示例を示す説明図である。
【図14】 本発明の個体名の抽出装置の階層構造表示部による表示例を示す説明図である。
【図15】 本発明の個体名の抽出装置の階層構造表示部による表示例を示す説明図である。
【図16】 本発明の個体名の抽出装置の階層構造表示部による表示例を示す説明図である。
【図17】 本発明の個体名の抽出装置の階層構造表示部による表示例を示す説明図である。
【図18】 本発明の個体名の抽出装置の階層構造表示部による表示例を示す説明図である。
【図19】 本発明の個体名の抽出装置の階層構造表示部による表示例を示す説明図である。
【図20】 本発明の個体名の抽出装置において処理される属性の階層構造を示す説明図である。
【符号の説明】
101 情報処理装置
102 CPU
103 ROM
104 ハードディスク
105 キーボード
106 マウス
107 RAM
108 表示装置
109 インターフェース
110 FDドライブ
111 CD−ROMドライブ
131 個体名の抽出装置
133 属性入力受付部
134 抽出部
135 結果出力部
136 階層構造記憶部
137 階層構造表示部
138 階層構造編集入力受付部
139 階層構造更新部
151 個体名認定部
152 入力受付部
153 第1の個体名記憶部
154 第2の個体名記憶部
155 ルール記憶部
156 認定部
157 更新部
158 出力部

Claims (9)

  1. 形態素列を入力として受け付け、個体名として認定された形態素またはその列と、当該形態素またはその列、および、これが含む形態素またはその列が有する属性と、を対応付けて認定する個体名認定部と、
    所望の属性の入力を受け付ける属性入力受付部と、
    前記個体名認定部により個体名として認定された形態素またはその列、および、これが含む形態素またはその列から、前記入力が受け付けられた属性を有するものを抽出する抽出部と、
    前記抽出部により抽出された形態素またはその列を抽出された個体名として出力する結果出力部と、
    属性の階層構造をあらかじめ記憶する階層構造記憶部と
    とを備え、
    前記属性入力受付部は、前記あらかじめ記憶される属性の階層構造からいずれかの属性を選択する選択入力を受け付けて、これを所望の属性の入力とし、
    前記属性の階層構造を編集する階層構造編集入力を受け付ける階層構造編集入力受付部と、
    前記階層構造編集入力受付部により受け付けられた階層構造編集入力により、前記階層構造記憶部に記憶された属性の階層構造を編集して更新する階層構造更新部とをさらに備え、
    前記個体名認定部は、
    形態素列を入力として受け付ける入力受付部、
    個体名を表す形態素またはその列を、その属性と対応付けてあらかじめ記憶する第1の個体名記憶部、
    個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶する第2の個体名記憶部、
    形態素列から個体名を表す形態素またはその列を、その属性と対応付けて認定するルールをあらかじめ記憶するルール記憶部、
    前記受け付けられた形態素列から前記第1もしくは第2の個体名記憶部に現在記憶されている形態素またはその列を認定し、また、前記受け付けられた形態素列から前記あらかじめ記憶されたルールにより個体名を表す形態素またはその列を認定する認定部、
    前記第2の個体名記憶部を更新して、前記認定された個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶させる更新部、
    前記更新部による前記第2の個体名記憶部の更新がされなくなるまで、前記認定部に、前記受け付けられた形態素列から個体名を表す形態素またはその列を再度認定させる再認定制御部、
    前記認定された個体名を表す形態素またはその列と、当該形態素またはその列、および、これが含む形態素またはその列が有する属性と、を対応付けて出力する出力部、
    特定条件が満たされた場合、前記第2の個体名記憶部から当該一時的に記憶された個体名を表す形態素またはその列を消去する消去部を有し、
    当該特定条件が満たされる場合として、
    (a)当該一時的に記憶された個体名を表す形態素またはその列が前記第2の個体名記憶部に記憶されて以降に、処理された形態素の個数が所定の数を超えた場合、もしくは、
    (b)当該一時的に記憶された個体名を表す形態素またはその列が前記第2の個体名記憶部に記憶されて以降に、前記あらかじめ記憶されたルールによる認定において使用されなかった期間が所定の期間を超えた場合
    のいずれか少なくとも一方を採用する
    ことを特徴とする個体名の抽出装置。
  2. 前記属性の階層構造を表示する階層構造表示部をさらに備える
    ことを特徴とする請求項1に記載の個体名の抽出装置。
  3. 前記階層構造表示部は、前記属性の階層構造に含まれる各属性が、前記属性入力受付部により選択された属性か否かを示す情報をさらに表示する
    ことを特徴とする請求項2に記載の個体名の抽出装置。
  4. 個体名認定部と、属性入力受付部と、抽出部と、結果出力部と、階層構造編集入力受付部と、階層構造更新部と、を備える個体名の抽出装置にて実行される個体名の抽出方法であって、
    前記個体名認定部が、形態素列を入力として受け付け、個体名として認定された形態素またはその列と、当該形態素またはその列、および、これが含む形態素またはその列が有する属性と、を対応付けて認定する個体名認定ステップと、
    前記属性入力受付部が、所望の属性の入力を受け付ける属性入力受付ステップと、
    前記抽出部が、前記個体名認定ステップにて個体名として認定された形態素またはその列、および、これが含む形態素またはその列から、前記入力が受け付けられた属性を有するものを抽出する抽出ステップと、
    前記結果出力部が、前記抽出ステップにて抽出された形態素またはその列を抽出された個体名として出力する結果出力ステップとを備え、
    前記属性入力受付ステップでは、あらかじめ記憶される属性の階層構造からいずれかの属性を選択する選択入力を受け付けて、これを所望の属性の入力とし、
    前記階層構造編集入力受付部が、前記属性の階層構造を編集する階層構造編集入力を受け付ける階層構造編集入力受付ステップと、
    前記階層構造更新部が、前記階層構造編集入力受付ステップにて受け付けられた階層構造編集入力により、前記あらかじめ記憶された属性の階層構造を編集して更新する階層構造更新ステップとをさらに備え、
    前記個体名認定部は、入力受付部、個体名を表す形態素またはその列を、その属性と対応付けてあらかじめ記憶する第1の個体名記憶部、個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶する第2の個体名記憶部、形態素列から個体名を表す形態素またはその列を、その属性と対応付けて認定するルールをあらかじめ記憶するルール記憶部、認定部、更新部、再認定制御部、消去部を有し、
    前記個体名認定ステップは、前記個体名認定部において、
    前記入力受付部が、形態素列を入力として受け付ける入力受付工程、
    前記認定部が、前記受け付けられた形態素列から前記第1もしくは第2の個体名記憶部に現在記憶されている形態素またはその列を認定し、また、前記受け付けられた形態素列から前記あらかじめ記憶されたルールにより個体名を表す形態素またはその列を認定する認定工程、
    前記更新部が、前記第2の個体名記憶部を更新して、前記認定された個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶させる更新工程、
    前記再認定制御部が、前記更新工程における前記第2の個体名記憶部の更新がされなくなるまで、前記認定部に、前記受け付けられた形態素列から個体名を表す形態素またはその列を再度認定させる再認定制御工程、
    前記出力部が、前記認定された個体名を表す形態素またはその列と、当該形態素またはその列、および、これが含む形態素またはその列が有する属性と、を対応付けて出力する出力工程、
    前記消去部が、特定条件が満たされた場合、前記第2の個体名記憶部から当該一時的に記憶された個体名を表す形態素またはその列を消去する消去工程を有し、
    当該特定条件が満たされる場合として、
    (a)当該一時的に記憶された個体名を表す形態素またはその列が前記第2の個体名記憶部に記憶されて以降に、処理された形態素の個数が所定の数を超えた場合、もしくは、
    (b)当該一時的に記憶された個体名を表す形態素またはその列が前記第2の個体名記 憶部に記憶されて以降に、前記あらかじめ記憶されたルールによる認定において使用されなかった期間が所定の期間を超えた場合
    のいずれか少なくとも一方を採用する
    ことを特徴とする個体名の抽出方法。
  5. 前記個体名の抽出装置は、階層構造表示部をさらに備え、
    前記階層構造表示部が、前記属性の階層構造を表示する階層構造表示ステップをさらに備える
    ことを特徴とする請求項4に記載の個体名の抽出方法。
  6. 前記階層構造表示ステップでは、前記属性の階層構造に含まれる各属性が、前記属性入力受付ステップにて選択された属性か否かを示す情報をさらに表示する
    ことを特徴とする請求項5に記載の個体名の抽出方法。
  7. コンピュータを、
    形態素列を入力として受け付ける入力受付部、個体名を表す形態素またはその列を、その属性と対応付けてあらかじめ記憶する第1の個体名記憶部、個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶する第2の個体名記憶部、形態素列から個体名を表す形態素またはその列を、その属性と対応付けて認定するルールをあらかじめ記憶するルール記憶部、前記受け付けられた形態素列から前記第1もしくは第2の個体名記憶部に現在記憶されている形態素またはその列を認定し、また、前記受け付けられた形態素列から前記あらかじめ記憶されたルールにより個体名を表す形態素またはその列を認定する認定部、前記第2の個体名記憶部を更新して、前記認定された個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶させる更新部、前記更新部による前記第2の個体名記憶部の更新がされなくなるまで、前記認定部に、前記受け付けられた形態素列から個体名を表す形態素またはその列を再度認定させる再認定制御部、前記認定された個体名を表す形態素またはその列と、当該形態素またはその列、および、これが含む形態素またはその列が有する属性と、を対応付けて出力する出力部、特定条件が満たされた場合、前記第2の個体名記憶部から当該一時的に記憶された個体名を表す形態素またはその列を消去する消去部、を有する個体名認定部、
    所望の属性の入力を受け付ける属性入力受付部、
    前記個体名認定部により個体名として認定された形態素またはその列、および、これが含む形態素またはその列から、前記入力が受け付けられた属性を有するものを抽出する抽出部、
    前記抽出部により抽出された形態素またはその列を抽出された個体名として出力する結果出力部、および、
    前記属性の階層構造をあらかじめ記憶する階層構造記憶部
    として機能させ、
    前記属性入力受付部が、前記あらかじめ記憶される属性の階層構造からいずれかの属性を選択する選択入力を受け付けて、これを所望の属性の入力とする
    ように機能させ、
    前記属性の階層構造を編集する階層構造編集入力を受け付ける階層構造編集入力受付部、および、
    前記階層構造編集入力受付部により受け付けられた階層構造編集入力により、前記階層構造記憶部に記憶された属性の階層構造を編集して更新する階層構造更新部
    としてさらに機能させ、
    当該特定条件が満たされる場合として、
    (a)当該一時的に記憶された個体名を表す形態素またはその列が前記第2の個体名記憶部に記憶されて以降に、処理された形態素の個数が所定の数を超えた場合、もしくは、
    (b)当該一時的に記憶された個体名を表す形態素またはその列が前記第2の個体名記 憶部に記憶されて以降に、前記あらかじめ記憶されたルールによる認定において使用されなかった期間が所定の期間を超えた場合
    のいずれか少なくとも一方を採用するようにさらに機能させる
    プログラムを記録することを特徴とするコンピュータ読取可能な記録媒体。
  8. 前記プログラムは、前記コンピュータを、
    前記属性の階層構造を表示する階層構造表示部としてさらに機能させる
    ことを特徴とする請求項7に記載のコンピュータ読取可能な記録媒体。
  9. 前記階層構造表示部は、前記属性の階層構造に含まれる各属性が、前記属性入力受付部により選択された属性か否かを示す情報をさらに表示する
    ことを特徴とする請求項8に記載のコンピュータ読取可能な記録媒体。
JP2000013160A 2000-01-21 2000-01-21 個体名の抽出装置、抽出方法、並びに、記録媒体 Expired - Fee Related JP3672473B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000013160A JP3672473B2 (ja) 2000-01-21 2000-01-21 個体名の抽出装置、抽出方法、並びに、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000013160A JP3672473B2 (ja) 2000-01-21 2000-01-21 個体名の抽出装置、抽出方法、並びに、記録媒体

Publications (2)

Publication Number Publication Date
JP2001202381A JP2001202381A (ja) 2001-07-27
JP3672473B2 true JP3672473B2 (ja) 2005-07-20

Family

ID=18540787

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000013160A Expired - Fee Related JP3672473B2 (ja) 2000-01-21 2000-01-21 個体名の抽出装置、抽出方法、並びに、記録媒体

Country Status (1)

Country Link
JP (1) JP3672473B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3576060B2 (ja) * 2000-01-31 2004-10-13 株式会社ジャストシステム 個体名の認定装置、認定方法、並びに、記録媒体
JP2011103038A (ja) * 2009-11-10 2011-05-26 Nomura Research Institute Ltd 用語間の対応関係抽出システム及び対応関係抽出プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0652221A (ja) * 1992-05-08 1994-02-25 Fujitsu Ltd 固有名詞の自動抽出方式
JPH11272701A (ja) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置

Also Published As

Publication number Publication date
JP2001202381A (ja) 2001-07-27

Similar Documents

Publication Publication Date Title
US8510330B2 (en) Configurable search graphical user interface and engine
Zloof Office-by-Example: A business language that unifies data and word processing and electronic mail
US7788251B2 (en) System, method and computer program product for concept-based searching and analysis
US5893087A (en) Method and apparatus for improved information storage and retrieval system
US20130212463A1 (en) Smart document processing with associated online data and action streams
US20070073652A1 (en) Lightweight reference user interface
WO2009007181A1 (en) A method, system and computer program for intelligent text annotation
TW200422874A (en) Graphical feedback for semantic interpretation of text and images
CN104765849A (zh) 一种获取拷贝数据来源信息的方法和系统
US20020010717A1 (en) System and method for conversion of directly-assigned format attributes to styles in a document
JP2000242655A (ja) 情報処理装置、情報処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US20020035643A1 (en) Search support device and method, and recording medium storing program for computer to carry out operation with said search support device
US8612431B2 (en) Multi-part record searches
US7509303B1 (en) Information retrieval system using attribute normalization
JP3672473B2 (ja) 個体名の抽出装置、抽出方法、並びに、記録媒体
KR102463120B1 (ko) 문서 다운로드시 사용자 맞춤형 파일명 생성 기능을 제공하는 특허 문서 검색 서버 및 이를 이용한 특허 문서 검색 방법
US20080077641A1 (en) System and method for editing contract clauses in static web pages
JP3734391B2 (ja) 個体名の抽出装置、抽出方法、並びに記録媒体
JP3071703B2 (ja) 表作成装置およびその方法
JP3493354B2 (ja) 文書検索方法
JP3576060B2 (ja) 個体名の認定装置、認定方法、並びに、記録媒体
JP3193249B2 (ja) キーワード検索方法
JP2000242535A (ja) 情報処理装置、情報処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2888458B2 (ja) ファイル格納装置
JP2003167912A (ja) 住所コード検索システムと住所コード検索処理プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040817

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050111

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050419

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees