JP2001202381A - 個体名の抽出装置、抽出方法、並びに、記録媒体 - Google Patents

個体名の抽出装置、抽出方法、並びに、記録媒体

Info

Publication number
JP2001202381A
JP2001202381A JP2000013160A JP2000013160A JP2001202381A JP 2001202381 A JP2001202381 A JP 2001202381A JP 2000013160 A JP2000013160 A JP 2000013160A JP 2000013160 A JP2000013160 A JP 2000013160A JP 2001202381 A JP2001202381 A JP 2001202381A
Authority
JP
Japan
Prior art keywords
attribute
hierarchical structure
morpheme
input
individual name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000013160A
Other languages
English (en)
Other versions
JP3672473B2 (ja
Inventor
Itsuki Shimokooriyama
敬己 下郡山
Nobuyuki Otomori
信行 乙守
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP2000013160A priority Critical patent/JP3672473B2/ja
Publication of JP2001202381A publication Critical patent/JP2001202381A/ja
Application granted granted Critical
Publication of JP3672473B2 publication Critical patent/JP3672473B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 所望の属性を有する個体名の抽出装置、抽出
方法、および、記録媒体を提供する。 【解決手段】 個体名認定部151は、形態素列を入力
として受け付け、個体名として認定された形態素または
その列と、当該形態素またはその列、および、これが含
む形態素またはその列が有する属性と、を対応付けて認
定し、属性入力受付部133は、所望の属性の入力を受
け付け、抽出部134は、個体名認定部151により個
体名として認定された形態素またはその列、および、こ
れが含む形態素またはその列から、属性入力受付部13
3により入力が受け付けられた属性を有するものを抽出
し、結果出力部135は、抽出部134により抽出され
た形態素またはその列を抽出された個体名として出力す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力された形態素
列から所望の属性の個体名を表す形態素またはその列を
抽出するのに好適な抽出装置、抽出方法、および、記録
媒体に関する。
【0002】
【従来の技術】従来から、コンピュータ、ワードプロセ
ッサ、データベースシステムなどで、文献から必要な情
報を得る検索システムが使われている。特に、近年のイ
ンターネット技術の発展にともない、さまざまな情報源
から必要な情報を得るためのインフラストラクチャが整
いつつある。
【0003】また、コンピュータなどに文章の内容を理
解させ、その内容を要約させたり、適宜選択させたりす
るようなシステムについても提案がされている。
【0004】このようなシステムで、たとえば日本語の
文献を処理の対象とする場合には、以下の手法が用いら
れていた。
【0005】第1は、文章に処理したい単語と同じ文字
列が出現した場合に、これを検索結果に含めたり、同じ
綴りの文字列の出現頻度により、内容の要約を行う手法
である。この手法は、字面だけで検索や要約を行うもの
で、インターネット検索エンジンなどでよく用いられて
いる。
【0006】第2は、まず、日本語の文章を各単語
(「形態素」ともいう)に切り分ける形態素解析を行
い、形態素の綴りとその品詞との情報の対の列を出力
し、出力された情報の対の列に基づいて処理を行う手法
である。
【0007】
【発明が解決しようとする課題】しかしながら、字面だ
けで文献の処理を行う手法では、たとえば検索の際に、
偶然に含まれた同じ綴りの文字列を含む文献も検索結果
に含まれてしまい、不必要な情報に所望の情報が埋もれ
てしまうという問題が生じるおそれがある。
【0008】一方、検索対象として人名、地域名、国
名、社名、や、日時などの個体名を使う場合には、形態
素解析で出力される情報だけではたとえば人名と地域名
の区別がつかないため、上記と同様の問題が生じるおそ
れがある。また、WWW(World Wide Web)などから入
手できる情報には、新しい商品名などの未知語が多いた
め、これらに対応する必要もある。
【0009】また、検索対象としていずれかの属性を有
する個体名を表す形態素やその列を選択的に得たい場合
がある。たとえば、国名と地域名の個体名を得たい場合
には、人名や社名などの個体名は不要である。
【0010】したがって、形態素解析によって得られた
形態素から情報の検索や概念の要約などに用いることが
できる個体名を認定し、その個体名から所望の属性を有
するものを抽出して出力する手法が望まれている。
【0011】本発明の目的は、入力された形態素列から
所望の属性を有する個体名を表す形態素またはその列を
抽出することにある。
【0012】
【課題を解決するための手段】上記目的を達成するた
め、本発明の第1の観点に係る個体名の抽出装置は、個
体名認定部と、属性入力受付部と、抽出部と、結果出力
部とを備えるように構成する。
【0013】ここで、個体名認定部は、形態素列を入力
として受け付け、個体名として認定された形態素または
その列と、当該形態素またはその列、および、これが含
む形態素またはその列が有する属性と、を対応付けて認
定する。
【0014】一方、属性入力受付部は、所望の属性の入
力を受け付ける。
【0015】さらに、抽出部は、前記個体名認定部によ
り個体名として認定された形態素またはその列、およ
び、これが含む形態素またはその列から、前記入力が受
け付けられた属性を有するものを抽出する。
【0016】そして、結果出力部は、前記抽出部により
抽出された形態素またはその列を抽出された個体名とし
て出力する。
【0017】本抽出装置では、所望の属性を1つまたは
複数入力することにより、当該属性を有する個体名とし
て認定される形態素又はその列(以下「形態素(列)」
という。)を、文献から抽出することができる。
【0018】また、上記抽出装置において、前記属性入
力受付部は、属性の階層構造からいずれかの属性を選択
する選択入力を受け付けて、これを所望の属性の入力と
するように構成してもよい。
【0019】本抽出装置では、属性を階層構造により管
理して、ユーザは、当該階層構造から所望の属性を選択
することができる。
【0020】また、上記抽出装置は、階層構造表示部を
さらに備えるように構成してもよい。
【0021】ここで、階層構造表示部は、前記属性の階
層構造を表示する。
【0022】本抽出装置では、属性の階層構造が画面に
階層構造、たとえば木構造として表示されるため、ユー
ザが属性の分類にしたがって所望の属性を見つけやすく
なる。
【0023】また、上記抽出装置において、前記階層構
造表示部は、前記属性の階層構造に含まれる各属性が、
前記属性入力受付部により選択された属性か否かを示す
情報をさらに表示するように構成してもよい。
【0024】本抽出装置では、たとえば木構造により表
示された階層構造に含まれる各属性の表示に選択済み、
未選択、当該属性が含む属性の一部を選択、などの表示
を付加することができるため、ユーザが所望の属性を指
定しやすくすることができる。
【0025】また、上記抽出装置は、階層構造記憶部
と、階層構造編集入力受付部と、階層構造更新部とをさ
らに備えるように構成してもよい。
【0026】ここで、階層構造記憶部は、前記属性の階
層構造を記憶する。
【0027】一方、階層構造編集入力受付部は、前記属
性の階層構造を編集する階層構造編集入力を受け付け
る。
【0028】さらに、階層構造更新部は、前記階層構造
編集入力受付部により受け付けられた階層構造編集入力
により、前記階層構造記憶部に記憶された属性の階層構
造を編集して更新する。
【0029】本抽出装置では、コンピュータを用いて属
性の階層構造を編集することができる。たとえば、木構
造に含まれる属性の移動はマウスで当該属性をドラッグ
することにより、削除、追加は、マウスで右クリックし
て表示されるメニューから選択することにより、編集で
きるようにすることができる。通常のコンピュータ操作
においても、たとえばファイルやディレクトリの編集・
移動・追加・削除に木構造表示を用いるが、これと同様
の操作方法を採用することにより、属性の階層構造の編
集を容易にすることができる。
【0030】上記目的を達成するため、本発明の第2の
観点に係る個体名の抽出方法は、個体名認定ステップ
と、属性入力受付ステップと、抽出ステップと、結果出
力ステップとを備えるように構成する。
【0031】ここで、個体名認定ステップでは、形態素
列を入力として受け付け、個体名として認定された形態
素またはその列と、当該形態素またはその列、および、
これが含む形態素またはその列が有する属性と、を対応
付けて認定する。
【0032】一方、属性入力受付ステップでは、所望の
属性の入力を受け付ける。
【0033】さらに、抽出ステップでは、前記個体名認
定ステップにて個体名として認定された形態素またはそ
の列、および、これが含む形態素またはその列から、前
記入力が受け付けられた属性を有するものを抽出する。
【0034】そして、結果出力ステップでは、前記抽出
ステップにて抽出された形態素またはその列を抽出され
た個体名として出力する。
【0035】また、上記抽出方法において、前記属性入
力受付ステップでは、属性の階層構造からいずれかの属
性を選択する選択入力を受け付けて、これを所望の属性
の入力とするように構成してもよい。
【0036】また、上記抽出方法は、階層構造表示ステ
ップをさらに備えるように構成してもよい。
【0037】ここで、階層構造表示ステップでは、前記
属性の階層構造を表示する。
【0038】また、上記抽出方法において、前記階層構
造表示ステップでは、前記属性の階層構造に含まれる各
属性が、前記属性入力受付ステップにて選択された属性
か否かを示す情報をさらに表示するように構成してもよ
い。
【0039】また、上記抽出方法において、前記属性の
階層構造はあらかじめ記憶され、階層構造編集入力受付
ステップと、階層構造更新ステップとをさらに備えるよ
うに構成してもよい。
【0040】ここで、階層構造編集入力受付ステップで
は、前記属性の階層構造を編集する階層構造編集入力を
受け付ける。
【0041】一方、階層構造更新ステップでは、前記階
層構造編集入力受付ステップにて受け付けられた階層構
造編集入力により、前記あらかじめ記憶された属性の階
層構造を編集して更新する。
【0042】上記目的を達成するため、本発明の第3の
観点に係るコンピュータ読取可能な記録媒体は、コンピ
ュータを、個体名認定部、属性入力受付部、抽出部、お
よび、結果出力部として機能させるプログラムを記録す
るように構成する。
【0043】ここで、個体名認定部は、形態素列を入力
として受け付け、個体名として認定された形態素または
その列と、当該形態素またはその列、および、これが含
む形態素またはその列が有する属性と、を対応付けて認
定する。
【0044】一方、属性入力受付部は、所望の属性の入
力を受け付ける。
【0045】さらに、抽出部は、前記個体名認定部によ
り個体名として認定された形態素またはその列、およ
び、これが含む形態素またはその列から、前記入力が受
け付けられた属性を有するものを抽出する。
【0046】そして、結果出力部は、前記抽出部により
抽出された形態素またはその列を抽出された個体名とし
て出力する。
【0047】また、上記コンピュータ読取可能な記録媒
体に記録された前記プログラムにより前記コンピュータ
が前記属性入力受付部として機能する場合、前記属性入
力受付部は、属性の階層構造からいずれかの属性を選択
する選択入力を受け付けて、これを所望の属性の入力と
するように構成してもよい。
【0048】また、上記コンピュータ読取可能な記録媒
体に記録された前記プログラムは、前記コンピュータ
を、階層構造表示部としてさらに機能させるように構成
してもよい。
【0049】ここで、階層構造表示部は、前記属性の階
層構造を表示する。
【0050】また、上記コンピュータ読取可能な記録媒
体に記録された前記プログラムにより、前記コンピュー
タが階層構造表示部として機能する場合、前記階層構造
表示部は、前記属性の階層構造に含まれる各属性が、前
記属性入力受付部により選択された属性か否かを示す情
報をさらに表示するように構成してもよい。
【0051】また、上記コンピュータ読取可能な記録媒
体に記録された前記プログラムは、前記コンピュータ
を、階層構造記憶部、階層構造編集入力受付部、およ
び、階層構造更新部としてさらに機能させるように構成
してもよい。
【0052】ここで、階層構造記憶部は、前記属性の階
層構造を記憶する。
【0053】一方、階層構造編集入力受付部は、前記属
性の階層構造を編集する階層構造編集入力を受け付け
る。
【0054】さらに、階層構造更新部は、前記階層構造
編集入力受付部により受け付けられた階層構造編集入力
により、前記階層構造記憶部に記憶された属性の階層構
造を編集して更新する。
【0055】
【発明の実施の形態】以下、添付図面を参照して、本発
明の実施の形態について説明する。
【0056】(抽出装置として機能する情報処理装置の
概要構成)図1は、本発明の個体名の抽出装置として機
能する典型的な情報処理装置(汎用のコンピュータ、各
種端末、携帯端末、携帯電話、ゲーム装置などの専用機
器を含む)の概要構成を示す模式図である。以下、図1
を参照して説明する。
【0057】情報処理装置101は、CPU(Central
Processing Unit;中央処理ユニット)102によって
制御される。情報処理装置101に電源を投入すると、
CPU102は、ROM(Read Only Memory;読出専用
メモリ)103に記憶されたIPL(Initial Program
Loader;初期プログラムローダ)を実行する。
【0058】IPLは、ハードディスク104、FD
(Floppy Disk;フロッピーディスク)ドライブ110
に装着されたFD、CD−ROM(Compact Disk ROM)
ドライブ111に装着されたCD−ROMなどの記録媒
体に記憶されたOS(Operating System;オペレーティ
ング・システム)プログラムを読み出して実行するプロ
グラムである。
【0059】OSを起動した後、CPU102は、キー
ボード105やマウス106などにより入力されたユー
ザの指示にしたがって、あるいは、ハードディスクなど
にあらかじめ記述された設定ファイルの内容にしたがっ
て、ハードディスクなどに記憶されたアプリケーション
プログラムを実行する。
【0060】なお、携帯端末などの小規模な情報処理装
置では、IPL自体がOSやアプリケーションプログラ
ムとしての機能を果たすような実施形態も採用すること
ができる。
【0061】CPU102は、プログラムの実行の際
に、RAM(Random Access Memory)107を一時的な
作業用記憶領域として用いる。このほか、一時的な作業
用記憶領域として、CPU102内に設けられたレジス
タやキャッシュ(図示せず)が使われる。
【0062】プログラムの実行に伴ない、ユーザに結果
を報告したり、途中経過を見せるため、CPU102
は、液晶ディスプレイやCRT(Cathode Ray Tube)な
どの表示装置108に当該情報を表示することができ
る。マウス106による指示操作では、マウス106を
移動することにより、画面に表示されたカーソルが移動
し、マウス106をクリックすることにより、カーソル
が指すメニュー項目を選択することができる。
【0063】情報処理装置101は、NIC(Network
Interface Card)やモデムなどのインターフェース10
9を介してインターネットなどのコンピュータ通信網と
通信を行うことができる。インターフェース109を介
して受信した文書データを処理の対象としたり、処理し
た結果をインターフェース109を介して送信したり、
インターフェース109を介して受信したプログラムを
実行したり、などができる。
【0064】(抽出装置の概要構成)図2は、上記情報
処理装置101が本発明の個体名の抽出装置として機能
する場合の、各機能の概要構成を示す模式図である。
【0065】個体名の抽出装置131は、個体名認定部
151、属性入力受付部133、抽出部134、およ
び、結果出力部135を備える。また、階層構造記憶部
136、階層構造表示部137、階層構造編集入力受付
部138をさらに備えるように構成してもよい。
【0066】個体名認定部151は、形態素列を入力と
して受け付ける。さらに、この形態素列の中から個体名
を表す形態素(列)を探す。最後に、当該形態素(列)
と、当該形態素列の個体名の属性と、を対応付けて認定
する。
【0067】個体名を表す形態素(列)の一部もまた、
個体名を表す形態素(列)である場合がある。このよう
に入れ子構造になっている場合には、外側の個体名の属
性と、内側の個体名の属性と、を両方とも認定する。
【0068】したがって、CPU102は、他の要素と
共働して個体名認定部151として機能する。個体名認
定部151については、以降でさらに詳述する。
【0069】ユーザは、所望の個体名の属性の入力を属
性入力受付部133へ与える。したがって、キーボード
105やマウス106などの入力装置が属性入力受付部
133として機能する。
【0070】抽出部134は、個体名認定部151によ
り認定された形態素(列)と、その属性と、の組から、
属性入力受付部133が入力を受け付けた属性を有する
個体名の形態素(列)を、抽出する。このように、CP
U102は、抽出部として機能する。
【0071】最後に、結果出力部135は、抽出された
所望の属性の形態素(列)を結果として出力する。出力
先は、表示装置108のほか、ハードディスク104、
FDD110に装着されたフロッピーディスク、RAM
107、インターフェース109を介して接続された他
のコンピュータなどを選択することができる。これらの
機器と共働して、CPU102が結果出力部として機能
する。
【0072】さらに、個体名が有する属性は階層構造で
管理され、この階層構造は、階層構造記憶部136に記
憶される。したがって、ハードディスク104、FDD
110に装着されたフロッピーディスク、ROM10
3、RAM107、CD−ROMドライブ111に装着
されたCD−ROM、インターフェース109を介して
接続された他のコンピュータなどが階層構造記憶部13
6として機能する。
【0073】属性入力受付部133から所望の属性を入
力する際には、階層構造表示部137に表示された木構
造の中から所望の属性を選択する。
【0074】表示装置108は、CPU102の指示に
よってこの木構造を表示し、階層構造表示部137とし
て機能する。
【0075】また、ユーザは、表示された木構造を見
て、階層構造編集入力受付部138を介して入力された
編集入力に基づき、階層構造更新部139が更新するこ
とにより、属性の階層構造に新たな属性を追加したり、
既存の属性をまとめたり、既存の属性を移動したり、既
存の属性を削除したりして、容易に属性を管理すること
ができる。
【0076】ここで、キーボード105やマウス106
などの入力装置が階層構造編集入力受付部138として
機能する。
【0077】階層構造更新部139による更新が可能な
場合は、階層構造記憶部136は、ハードディスク10
4、FDD110に装着されたフロッピーディスク、R
AM107、インターフェース109を介して接続され
た他のコンピュータなど、書き込み可能な記憶媒体でな
ければならない。CPU102は、これらの機器と共働
して、階層構造更新部139として機能する。
【0078】このほか、ハードディスク104、FDド
ライブ110に装着されたFD、CD−ROMドライブ
に装着されたCD、ROM103、RAM107、およ
び、インターフェース109を介して接続された他のコ
ンピュータなど、コンピュータ読み取り可能な記憶媒体
に相当するものは、CPU102で実行されるプログラ
ムを記録することにより、本発明の記録媒体として機能
する。
【0079】上述のように、図1に示す情報処理装置1
01は、図2に示す本発明の個体名の抽出装置として機
能させるための典型的な実施態様である。
【0080】たとえば、インターネット内の文献を自動
的に取得して個体名を抽出して個体名の文献データベー
スを作成するロボットサーバにて、本発明の個体名の抽
出方法を実施させ、当該ロボットサーバを本発明の個体
名の抽出装置として機能させることができる。この場
合、ユーザとのやりとりはロボットサーバが接続されて
いるユーザ端末にて行われるため、ロボットサーバ自体
には、表示装置108、FDドライブ110、キーボー
ド105、マウス106等は不要である一方、インター
フェース109は必須である。
【0081】また、携帯端末では、外部記憶装置とし
て、不揮発性半導体メモリ(フラッシュメモリカード)
やバッテリバックアップがされたRAMを使用すること
ができる。この場合、必ずしもハードディスク104、
FDドライブ110、CD−ROMドライブ111等は
必要ない。
【0082】(個体名の種類)本発明の個体名の抽出装
置、および、抽出方法では、あらかじめ形態素解析を実
行することにより出力された形態素列から、所望の属性
を有する個体名を表す形態素(列)を抽出する。以下で
は、この個体名として採用される形態素の種類の実施例
について説明する。
【0083】図3は、本実施例の個体名の属性の階層構
造の様子を示す説明図である。本実施例では、個体名の
形態素(列)に対応付けて、以下の4種類の属性を認定
する。 ・固有名詞 ・時間 ・数量 ・インデックス
【0084】属性「固有名詞」は、さらに、商品名、組
織名、地名(地域名、自然物名、施設名)、人物名に分
類される。
【0085】属性「時間」は、さらに、経済時間、暦時
間(曜日時間を含む)、非暦時間、特殊接辞に分類され
る。
【0086】属性「数量」は、さらに、金額、比率、序
数詞に分類される。
【0087】属性「インデックス」は、さらに、URL
(Universal Resource Locater)、電子メールアドレ
ス、電話番号、ファクシミリ番号に分類される。これら
は、英数字や記号から構成される文字列であるが、個人
や企業を特定する、という点で、人物名や組織名に準じ
て考えることができる。
【0088】このように、本発明で取り扱う個体名の形
態素(列)の属性は階層的に構成されている。属性の階
層は、適宜変更して構成することができる。
【0089】本発明では、処理対象とする形態素列か
ら、これらの属性を付された個体名の形態素(列)を分
類して認定し、認定結果を抽出された個体名として出力
する。
【0090】具体例をあげて説明する。以下適宜、記号
「/」を用いて形態素を区切るものとする。「私は、
(株)山田商会田中専務です。」は、「私/は/、/
(株)/山田/商会/田中/専務/です/。」のように
形態素列に解析できる。
【0091】これらの形態素それぞれには、上記の属性
を割り当てることができるものがある。たとえば、「山
田」には「人物名」という属性を、「専務」には「役職
名」という属性を、それぞれ割り当てることができる。
このように、形態素そのものに割り当てられる属性を
「役割素性」という。
【0092】一方、「山田/商会」「(株)/山田/商
会」などのような形態素列にも属性を割り当てることが
できる。これらには「組織名」という属性を割り当てる
ことができる。同様に、「田中/専務」には「人物名」
という属性を割り当てることができる。
【0093】「(株)/山田/商会/田中/専務」は、
本例において、個体名として認定できる最大限の形態素
列であり、これには「人物名」という属性を割り当てる
ことができる。このように、個体名として認定できる最
大限の形態素列に割り当てられた属性を「カテゴリ」と
いう。
【0094】(処理手順)以下、本発明の個体名の抽出
装置の機能を実現するために上記の情報処理装置にて実
行される処理、すなわち、本発明の個体名の抽出方法の
概要について説明する。図4は、当該処理の流れを示す
フローチャートである。
【0095】まず、抽出装置131は、形態素列を入力
として受け付け、この形態素列の中から個体名を表す形
態素(列)を探し、最後に、当該形態素(列)と、当該
形態素列の個体名の属性と、を対応付けて認定する(ス
テップS171)。本処理の詳細については、後述す
る。
【0096】次に、抽出装置131は、ユーザからの所
望の個体名の属性の入力を受け付ける(ステップS17
2)。属性の入力の受付の詳細については、後述する。
【0097】ついで、抽出装置131は、ステップS1
71において認定された形態素(列)と、その属性と、
の組から、ステップS172において入力を受け付けた
属性を有する個体名の形態素(列)を、抽出する(ステ
ップS173)。
【0098】最後に、抽出装置131は、抽出された所
望の属性の形態素(列)を結果として出力して(ステッ
プS174)、本処理を終了する。
【0099】なお、ステップS171とステップS17
2は、相互に順序の依存関係がない場合は、順序を入れ
替えて実行してもよい。
【0100】(個体名認定部の概要構成)図5は、上記
の個体名の抽出装置131の個体名認定部151の各機
能の概要構成を示す模式図である。
【0101】個体名認定部151は、入力受付部15
2、第1の個体名記憶部153、第2の個体名記憶部1
54、ルール記憶部155、認定部156、更新部15
7、出力部158を備える。また、図示しない要素とし
て、再認定制御部、消去部を備えるように構成してもよ
い。
【0102】入力受付部152は、形態素列を入力とし
て受け付ける。ここで、処理の対象となる文書データや
あらかじめ形態素解析を完了した結果の形態素列を記録
したデータは、上記のようにインターフェース109を
介して得ることができるほか、ハードディスク104、
FD、CD−ROMに記憶されたファイルなどから得る
ことができる。また、ユーザがキーボード105やマウ
ス106を操作して入力した文書データを形態素解析し
てから、処理の対象とすることもでき、形態素列は、R
AM107に記憶される。
【0103】したがって、インターフェース109、ハ
ードディスク104、FDドライブ110、CD−RO
Mドライブ111、RAM107は、形態素列を入力と
して受け付ける入力受付部152として機能する。
【0104】第1の個体名記憶部153と、第2の個体
名記憶部154は、個体名を表す形態素(列)を、その
属性と対応付けて記憶するが、前者はあらかじめ記憶
し、後者は一時的に記憶する。また、ルール記憶部15
5は、形態素列から個体名を表す形態素(列)をその属
性と対応付けて認定するルールをあらかじめ記憶する。
【0105】したがって、ハードディスク104、FD
ドライブ110に装着されたFD、CD−ROMドライ
ブに装着されたCD、ROM103、RAM107、お
よび、インターフェース109を介して接続された他の
コンピュータのこれら読み取り可能な情報記憶装置に相
当するものは、第1の個体名記憶部153、および、ル
ール記憶部155として機能する。第1の個体名記憶部
153、および、ルール記憶部155は、必ずしも書き
込みができる必要はない。
【0106】一方、ハードディスク104、FDドライ
ブ110に装着されたFD、RAM107、および、イ
ンターフェース109を介して接続された他のコンピュ
ータのこれら読み書き可能な情報記憶装置に相当するも
のは、第2の個体名記憶部154として機能する。
【0107】認定部156は、第1の個体名記憶部15
3、第2の個体名記憶部154、ルール記憶部155に
記憶された情報を用いて、入力を受け付けた形態素列か
ら個体名を表す形態素(列)を認定する。本実施形態で
は、CPU102が、認定部156として機能する。
【0108】更新部157は、新たに認定された個体名
を表す形態素(列)を第2の個体名記憶部154に追加
して記憶する。本実施形態では、CPU102が、更新
部157として機能する。
【0109】出力部158は、認定された個体名を表す
形態素(列)を抽出された個体名として出力する。な
お、当該個体名を表す形態素(列)に対応付けられた属
性も合わせて出力する形態を採用することができる。
【0110】表示装置108、ハードディスク104、
FDドライブ110に装着されたFD、RAM107、
および、インターフェース109を介して接続された他
のコンピュータのこれら読み書き可能な情報記憶装置に
相当するものを抽出した個体名を表す形態素(列)を出
力する先として選択することができる。したがって、こ
れらは、出力部158として機能する。
【0111】また、再認定制御部(図示せず)は、新た
に認定された個体名を表す形態素(列)がある限り、認
定部156における認定の処理を繰り返す制御を行う。
この場合、CPU102が、再認定制御部として機能す
る。
【0112】また、消去部(図示せず)は、特定条件が
満たされると第2の個体名記憶部154に記憶された個
体名の形態素(列)を消去する。この場合、CPU10
2が消去部として機能する。
【0113】(個体名認定処理)図6は、本発明の個体
名の抽出装置131の個体名認定部151が実行する処
理、すなわち、本発明の個体名の抽出方法の個体名認定
ステップS171の処理の流れを示すフローチャートで
ある。
【0114】まず、入力受付部152が入力される形態
素列を受け付ける(ステップS201)。形態素列の受
け付けは、上記のように、ハードディスク104などの
記録媒体から行ってもよいし、キーボード105などの
入力装置から行ってもよい。また、RAM107内の所
定の領域に形態素列のデータを記憶させ、このデータを
記憶した領域のアドレスをパラメータとする関数呼び出
しやシステムコールの形式で本ステップS201が開始
される実施形態を採用することもできる。
【0115】次に、認定部156が、入力形態素列か
ら、第1の個体名記憶部153、および、第2の個体名
記憶部154に記憶された形態素(列)を認定する(ス
テップS202)。本ステップS202で利用される個
体名の詳細については後述する。
【0116】さらに、認定部156は、入力形態素列か
ら、特徴語、周辺に配置された(特に隣接する)形態
素、認定された個体名などの情報を利用して、ルール記
憶部155に記憶されたルールを適用して、未登録の個
体名の形態素(列)を認定する(ステップS203)。
認定ルールの詳細については後述する。
【0117】ついで、認定された個体名を表す形態素
(列)のうち、第2の個体名記憶部154に記憶されて
いないもの、すなわち、新規に認定された個体名の形態
素(列)があるか否かを判断する(ステップS20
4)。
【0118】新規に認定された個体名の形態素がある場
合(ステップS204;YES)、更新部157は、第
2の個体名記憶部154に追加記憶させて更新し(ステ
ップS206)、ステップS202に戻る。これによ
り、新たに認定された個体名の情報を用いて再度ルール
を適用することができる。なお、ステップS202に戻
る処理の制御を担当するのが、再認定制御部である。
【0119】一方、新規に認定された個体名の形態素
(列)がない場合(ステップS204;NO)、本発明
の手法により認定できる個体名はすべて認定されたこと
になるため、認定された個体名を表す形態素(列)を出
力部158より認定された個体名として出力し(ステッ
プS205)、本処理を終了する。出力の詳細について
は後述する。
【0120】なお、第1の個体名記憶部153には、あ
らかじめ、個体名として選定された形態素(列)と、そ
の個体名の属性を対応付けて記憶する。
【0121】上述の例では単純に属性を割り当てたが、
たとえば固有名詞の「山田」といっても、その属性とし
て人物名、組織名(会社名)、地域名など、ふさわしい
属性はさまざまである。一度文章の前方で「山田博物
館」と記載された場合には、文章の後方で単に「山田」
と書くこともあり、この場合は、施設名を表すことにな
る。
【0122】したがって、個体名を表す形態素(列)に
それがとりうる属性を複数種類対応付けて第1の個体名
記憶部153に記憶することができる。たとえば、「山
田」に対して、「姓」「組織名」「会社名」「地域名」
などを記憶することになる。
【0123】また、時間、数量、インデックスは、形態
素を表す文字列の並びのパターンで判別することができ
るため、このパターンをたとえば正規表現(Regular Ex
pression)で表して第1の個体名記憶部153に記憶す
ることができる。
【0124】図7には、このような第1の個体名記憶部
153に記憶される個体名を表す形態素(列)と、その
属性やカテゴリの様子を示す。
【0125】本図に示す例では、個体名として認定可能
な形態素列として「パジェロ・ミニデューク」「山本食
品」「田中住宅北陸」「祖谷渓」「焼山寺」「平将門」
が記憶されている。たとえば、「パジェロ・ミニデュー
ク」の属性(カテゴリ)は「商品」であり、これらを形
態素に分けた「パジェロ」「・」「ミニ」「デューク」
の属性(役割素性)は、それぞれ、「商品名本体」「記
号」「商品名本体」「シリーズ名」である。
【0126】このように、第1の個体名記憶部153に
は、あらかじめ定めた個体名を表す形態素(列)が記憶
される。なお、認定ルールにより個体名として認定され
た未知語を、第2の個体名記憶部154に、同様のフォ
ーマットで記憶することができる。
【0127】(認定ルール)第1の個体名記憶部153
に記憶された形態素(列)を用いて、入力として受け付
けた形態素列から個体名を認定することができるが、そ
れだけでは不十分な場合がある。
【0128】たとえば、個体名の属性が複数ある場合に
は、いずれが最も尤もらしいかを推定することにより、
文献検索や要約の精度を高めることができる。
【0129】また、文章の前方で「山田博物館」と記載
された場合、後方で現れた「博物館」は、その前後の関
係から見て、一般的な博物館を指すのではなく、固有名
「山田博物館」を意味すると考えることもできる。この
ような場合に対応したいという要望がある。
【0130】上述のように、商品名などの固有名詞では
造語や新語などが用いられることが多いため、第1の個
体名記憶部153に記憶されていない未知語が多い。特
に、WWWから入手できる場合には、これが顕著であ
る。このような場合であっても未登録の個体名を抽出で
きるようにしたい。
【0131】以下に説明する認定ルールにより、これら
に対応する。これらの認定ルールでは、すでに認定され
た個体名の形態素(列)、特徴語、周囲の情報の3種類
の情報を用いる。認定された個体名の形態素(列)は、
第2の個体名記憶部154に記憶される。
【0132】(特徴語による認定ルール)まず、特徴語
や共起語を用いた認定ルールの例について説明する。特
徴語としては、接頭語や接尾語などが考えられる。たと
えば「部長」「(株)」である。形態素列として「山田
/一郎/部長」が入力された場合、「部長」という特徴
語から、形態素列「山田/一郎」が人名を表すことがわ
かる。
【0133】そこで、第2の個体名記憶部154に「山
田」「一郎」「山田/一郎」の各形態素(列)を、人名
として更新登録する。後述するように、個体名の認定に
は、第1、第2の個体名記憶部153、154を両方と
も用いるので、文章中に「山田/一郎/部長」が現れた
後に「山田」が単独で現れても、この「山田」は人名を
表す、と推定できるのである。
【0134】同様に「(株)/ジャスト」や「システム
/(株)」のような形態素列が入力された場合には、
「ジャスト」や「システム」が第1の個体名記憶部15
3に記憶されていない未登録の固有名詞であっても、特
徴語「(株)」から、会社名を表すことが判明する。
【0135】同様に、「12/月/28/日」のような
形態素列が入力された場合には、「12」は月を表し、
「28」は日を表す個体名であることがわかる。
【0136】なお、特徴語は、「山田/一郎/部長」
「(株)/ジャスト」のように、個体名を表す形態素
(列)の中に含まれ、これを含む形態素(列)全体にカ
テゴリを割り当てることができる。
【0137】一方、共起語とは、特徴語と同様の機能を
有するが、個体名を表す形態素(列)の中には含まれな
いものをいう。たとえば、「アルト/を/発売」という
形態素列が入力された場合、「発売」という共起語か
ら、「アルト」が個体名を表す形態素(列)でありカテ
ゴリ「商品名」が付与される。「発売」は、当該個体名
を表す形態素(列)には含まれない。
【0138】このような特徴語、共起語の情報は、ルー
ル記憶部155に記憶される。図8は、ルール記憶部1
55に記憶される特徴語、共起語の様子を示す模式図で
ある。
【0139】ルール記憶部155に実際に記憶されるの
は、本図に示す表のうち、「テーブル分類」欄と「登録
語」欄である。
【0140】「テーブル分類」は、同じような特徴を有
する特徴語、共起語を識別するための識別子であり、
「登録語」は、当該特徴を有する特徴語、共起語であ
る。
【0141】たとえば、分類「T22」に属する「産
業」「興業」「建設」はいずれも「後接特徴語」で、こ
れらの特徴語を含む個体名の形態素(列)の属性(カテ
ゴリ)は「商品名」である。
【0142】一方、分類「T15」に属する「発売」
「販売」「開発」「発表」は、いずれも「後接用言」
で、これらの特徴語の前に配置された形態素(列)の属
性(カテゴリ)は「商品名」である。
【0143】(並列する名詞句の認定ルール)並列する
名詞句により未登録の形態素(列)を個体名であると推
定して認定するルールが考えられる。
【0144】たとえば、「東京/、/ンジャメナ/、/
パリ」のような形態素列が入力され、「東京」および
「パリ」が地域名を表す個体名であると判定された場
合、「ンジャメナ」が第1の個体名記憶部に記憶されて
いない未登録語であっても、地域名を表す個体名である
と推測することができる。
【0145】「ンジャメナ」がカタカナのみの綴りから
なることから、これが未登録語であっても、形態素解析
で「ンジャメナ」が名詞相当語であることがわかるが、
それ以上の情報は得られない。名詞句の並列を用いたル
ールによって、これが地域名であるらしいと推定できる
のである。
【0146】(格パターン認定ルール)同じ文の中で
の、体言と用言の共起関係を用いて個体名を推定して認
定するルールが考えられる。
【0147】たとえば、「FULLBAND/を/10/月/に
/ジャスト/が/発売/し/た」という文で、「FULLBA
ND」が未登録語である場合、形態素解析では、「FULLBA
ND」が名詞相当語句であることまでしかわからない。
【0148】本ルールでは、同じ文の中にある「発売」
の目的格が「FULLBAND」になっている、という共起関係
を利用し、「FULLBAND」は商品名であると推定して個体
名として認定する。
【0149】図9に、これらの共起関係認定ルールがル
ール記憶部155に記憶される様子を示す。このルール
も、第1の個体名記憶部と同様のフォーマットで記憶す
る実施形態をとることができる。
【0150】本図に示す認定ルールは、前図に示す特徴
語の情報を参照して定義されている。たとえば、「新製
品」は「T11」に、開きかぎかっこは「T12」に、
閉じかぎかっこは「T13」に、「を」は「T14」
に、「発売」は「T15」に、それぞれ含まれるため、
これらの共起関係より、形態素列『新製品/「/ジン
/」』(明確のため二重かぎかっこを使って形態素列を
示した)に属性(カテゴリ)「商品名」が付されること
になる。
【0151】(文間照応関係認定ルール)このほか、一
度認定された個体名を表す形態素(列)が、その属性と
ともに第2の個体名記憶部154に記憶されていること
により、異なる文の間でも照応関係を用いて個体名を推
定して認定することができる。個体名を表す形態素
(列)が新たに発見され、新たに発見した個体名を表す
形態素(列)が第2の個体名記憶部154に追加更新さ
れている間は、上記のルールを繰り返して適用すること
により、実現できる。
【0152】たとえば文章の前方に「鈴木/さん/の/
開発/し/た」のような文があった場合、「鈴木」が役
割素性「人物名」の個体名として第2の個体名記憶部に
記憶される。これにより、文章の後方に「『/商品/の
/開発/は/大変/で/し/た/』/(/鈴木/)」の
ような文があっても、この文の「鈴木」は役割素性「人
物名」の個体名として推定して認定することができる。
【0153】このほか、URL、電子メールアドレス、
電話番号、ファクシミリ番号などは、これらに対応する
正規表現にマッチする部分を個体名として認定するルー
ルを設定すれば、文字の種類(パターン)による認定ル
ールを設定して認定することも可能である。
【0154】これらのルールは適宜変更・追加・削除す
ることが可能であり、変更・追加・削除した実施形態も
本発明の範囲に含まれる。
【0155】(第2の個体名記憶部)上述したように、
一度認定された個体名を表す形態素(列)は、その品
詞、役割素性とともに、第2の個体名記憶部154に一
時的に記憶される。この際の記憶領域のフォーマット
は、第1の個体名記憶部153と同様のものを採用する
ことができる。
【0156】なお、第2の個体名記憶部154は、現在
処理している文章特有の個体名の情報を含むため、たと
えば、文献の種類が変わるたびに消去する必要がある。
【0157】消去のタイミングについては、以下のよう
な手法が考えられる。
【0158】・異なる文献に由来する形態素列の処理を
開始した場合。
【0159】・当該個体名を表す形態素(列)が第2の
個体名記憶部154に記憶されて以降に処理された形態
素の数が所定の数を超えた場合。
【0160】・当該個体名を表す形態素(列)が第2の
個体名記憶部154に記憶されて以降に認定ルールによ
り使用されなかった期間が所定の期間(所定の形態素の
処理数等)を超えた場合。
【0161】・ユーザによる指示があった場合。
【0162】このように、第2の個体名記憶部154に
認定した個体名を一時的に記憶することにより、本発明
では、一つの文内の認定ルールによって、文と文との間
にまたがる認定ルールをも実現することができる。
【0163】(個体名認定部の出力形式)図10は、個
体名認定部151による個体名の認定結果をすべて出力
した表示例を示す説明図である。本発明の個体名の抽出
装置131は、この結果から所望の属性を有する個体名
の表す形態素(列)を抽出する。
【0164】本図に示される文章のうち、斜体で下線を
付されて強調表示されている部分が個体名として抽出さ
れた形態素(列)である。「韓国」「'99.9.10」「十
頁」などの形態素(列)が抽出されている。
【0165】本図に示す出力例では、出力部158は、
抽出された個体名の形態素(列)を画面に出力している
が、さらに情報を付加して、ほかのアプリケーション等
に抽出結果を渡すことができる。
【0166】たとえば、抽出された個体名の形態素
(列)と、これに対応する属性(カテゴリや役割素性等
を含む。)と、をあわせて出力することができる。役割
素性は、第1の個体名記憶部153、第2の個体名記憶
部154、および、ルール記憶部155に記憶された情
報から得ることができる。
【0167】この実施形態により、以下のような出力を
行うことができる。「1/月/26/日」に対して
「1」に役割素性「月数」を、「26」に役割素性「日
数」を、「1月26日」全体にはカテゴリ「日付」を、
それぞれ対応付けて出力する。「山田/部長」に対して
「山田」に役割素性「姓」を、「山田部長」全体にはカ
テゴリ「人名」を、それぞれ対応付けて出力する。「株
式会社/田中/商会/山田/社長」に対して、「田中」
に役割素性「会社名」を、「商会」に役割素性「会社
名」を、「田中商会」に属性「会社名」を、「株式会社
田中商会」に属性「会社名」を、「山田」に役割素性
「人名;姓」を、「社長」に役割素性「肩書き」を、
「山田社長」に属性「人名」を、「株式会社田中商会山
田社長」にカテゴリ「人名」を、それぞれ対応付けて出
力する。
【0168】上述のように、本発明の個体名の抽出装置
131は、これらの抽出結果から、所望の属性を有する
個体名のみを抽出する。
【0169】(所望の属性を有する個体名を抽出する処
理)図11は、本発明の個体名の抽出装置131の階層
構造表示部137による表示例を示す説明図である。こ
の木構造が階層構造記憶部136に記憶されている。
【0170】表示される属性の木構造の、各項目(属性
名)の前には、四角形のチェックボックスが用意されて
いる。ユーザは、画面に表示されたこの木構造のチェッ
クボックスをクリックすることによって、当該属性を選
択するか否かを入力することができる。
【0171】属性を選択した場合は、チェックボックス
は黒塗りになり(以下「全黒塗り」という。)、属性を
選択しない場合は、チェックボックスは白塗りになる。
【0172】また、属性は階層構造をなしているため、
ある属性に含まれる属性のいずれかが選択され、いずれ
かが選択されていない場合は、チェックボックスの形状
が三角形になる(以下「半黒塗り」という。)。
【0173】なお、半黒塗りは、チェックボックスの四
角の下半分が黒塗りになる、チェックボックスが灰色で
塗られる、チェックボックスの対角線から下半分が黒塗
りになる、などのようにして表示することもできる。
【0174】本図に示す表示例では、属性「地名」と、
属性「URL」と、が選択されている。このため、「地
名」と、これ以下の属性「地域名」「自然物名」「施設
名」と、「URL」のチェックボックスは全黒塗りにな
っており、「固有名詞」「インデックス」「カテゴリ属
性」のチェックボックスは半黒塗りになっている。
【0175】このようにしてユーザが選択した属性入力
を属性入力受付部133が受け付けて、当該属性を有す
る個体名の形態素(列)のみを抽出部134が抽出する
のである。
【0176】図12は、本発明の個体名の抽出装置13
1の階層構造表示部137による表示例を示す説明図で
ある。
【0177】前図は、階層構造全体を表示していたが、
不必要な属性については、その下部構造の表示を省略し
たい場合がある。このようにするためには、下部構造の
属性の表示を省略したい属性の属性名をダブルクリック
する。ダブルクリックにより、下部構造の表示/非表示
が入れ変わる。
【0178】本図は、いずれも選択されていないような
属性について、下部構造の表示を省略している。下部構
造の表示を省略した場合、省略した旨がわかるように、
当該属性のチェックボックスの右側に「+」記号が表示
される。
【0179】このほか、ユーザは、マウス106やキー
ボード105などの操作により、属性の階層構造を編集
することができる。この編集操作には、木構造の編集の
際に用いられる公知の技法を使うことができる。
【0180】たとえば、属性の階層構造内で、ある属性
の位置を移動したい場合には、当該属性の属性名を、所
望の位置までドラッグする。
【0181】ある属性を削除したい場合には、その属性
を右クリックして表示されるメニューから「削除」を選
択する。図13は、当該メニューが表示された場合の階
層構造表示部137による表示例を示す説明図である。
【0182】本図では、「ファクシミリ番号」の右クリ
ックにより、これを削除するためのメニューが表示され
ている。このメニューをマウスで選択すれば、この階層
構造から「ファクシミリ番号」という属性が削除され
る。
【0183】また、「電話番号」と「ファクシミリ番
号」とを統合して、「各種番号」という属性を「インデ
ックス」の下に作りたい場合には、以下のような手順に
したがえばよい。 ・「インデックス」を右クリックして、表示されるメニ
ューから「新規作成」を選択する。図14は、当該メニ
ューが表示された場合の階層構造表示部136による表
示例を示す説明図である。なお、本図においては、画面
表示の一部を省略している。
【0184】新規作成を選択すると、「インデックス」
の下に「新規属性」が作成され、これが表示される。図
15は、この場合の階層構造表示部136による表示例
を示す説明図である。なお、本図においては、画面表示
の一部を省略している。
【0185】次に、「新しい属性」を右クリックして、
「名前の変更」メニューを選択する。図16は、当該メ
ニューが表示された場合の階層構造表示部137による
表示例を示す説明図である。なお、本図においては、画
面表示の一部を省略している。
【0186】「名前の変更」を選択すると、変更後の名
前を入力するダイアログボックスが表れる。ここに「各
種番号」と入力する。図17は、名前が変更された後の
階層構造表示部137による表示例を示す説明図であ
る。
【0187】次に、「電話番号」と「ファクシミリ番
号」を、順次「各種番号」にドラッグする。図18、図
19は、それぞれのドラッグ後の階層構造表示部136
による表示例を示す説明図である。
【0188】このように、属性の階層構造をユーザが柔
軟かつ容易に編集することができる。
【0189】(第2の実施の形態)上記の実施形態で
は、個体名の属性の一種であるカテゴリの階層性から所
望の属性を選択したが、本実施形態では、個体名を表す
形態素列の中の個体名の役割素性などを含む階層から所
望の属性を持つ部分を選択する。
【0190】たとえば、「山田/商会/田中/一郎/専
務」は全体でカテゴリ属性として「人物名」を持つ個体
名であるが、各形態素には、以下のような役割素性が割
り当てられる。 ・「山田」に「会社名本体」。 ・「商会」に「会社名特徴語」。 ・「田中」に「姓」。 ・「一郎」に「名」。 ・「専務」に「役職」。
【0191】したがって、この形態素列の属性は、図2
0に示すように階層化される。ユーザがたとえば、「人
名本体」だけを望む場合には、上記実施例と同様に、こ
の属性階層から「人名本体」を選択する。すると、上記
実施例と同様の処理がされ、「田中/一郎」が所望の結
果として抽出される。
【0192】上記実施形態では、属性の階層から所望の
属性を選択するため、互いに無関係の属性にまたがった
選択ができるが、本実施形態では、一つの個体名形態素
列の中のどの部分を結果として抽出するかを選択するこ
とができる。
【0193】また、上記実施形態による抽出条件の選択
と、本実施形態による抽出条件の選択と、を組み合わせ
ることも容易であり、このような実施形態も本発明の範
囲に含まれる。たとえば、カテゴリには「人物名」を用
いて個体名の役割素性のうち「人名本体」の部分を用い
る、のような組み合わせである。この場合、人物名の姓
名だけを抽出することができる。
【0194】このほか、カテゴリには「組織名」を使用
し、組織名の役割素性のうち「下部組織」については不
要、のような組み合わせである。この場合、「山田/商
会/人事部」からは、「山田/商会」が抽出される。
【0195】このように、形態素の属性をさまざまな様
式で階層化して、その階層の中からユーザが所望の属性
を選択し、また、この選択において、さまざまな組み合
わせ条件(AND条件やOR条件)を付加することがで
きる。
【0196】
【発明の効果】以上説明したように、本発明によれば、
入力された形態素列から所望の属性を有する個体名を表
す形態素またはその列を抽出するのに好適な抽出装置、
抽出方法、および、記録媒体を提供することができる。
【図面の簡単な説明】
【図1】本発明の個体名の抽出装置を実現する情報処理
装置の概要構成を示す模式図である。
【図2】本発明の個体名の抽出装置の各機能の概要構成
を示す模式図である。
【図3】本発明の個体名の抽出装置において処理される
属性の階層構造を示す説明図である。
【図4】本発明の個体名の抽出装置において実行される
処理、すなわち、本発明の個体名の抽出方法の処理の流
れを示すフローチャートである。
【図5】本発明の個体名の抽出装置の個体名認定部の概
要構成を示す模式図である。
【図6】本発明の個体名の抽出装置の個体名認定部にお
いて実行される処理、すなわち、本発明の個体名認定ス
テップの処理の流れを示すフローチャートである。
【図7】本発明の第1の個体名記憶部に記憶される個体
名を表す形態素(列)と、その役割素性の例を示す説明
図である。
【図8】本発明の認定ルールで用いられる特徴語、共起
語がルール記憶部に記憶される様子を示す説明図であ
る。
【図9】本発明のルール記憶部に記憶される共起関係認
定ルールがルール記憶部に記憶される様子を示す説明図
である。
【図10】本発明の個体名認定部の出力結果を示す説明
図である。
【図11】本発明の個体名の抽出装置の階層構造表示部
による表示例を示す説明図である。
【図12】本発明の個体名の抽出装置の階層構造表示部
による表示例を示す説明図である。
【図13】本発明の個体名の抽出装置の階層構造表示部
による表示例を示す説明図である。
【図14】本発明の個体名の抽出装置の階層構造表示部
による表示例を示す説明図である。
【図15】本発明の個体名の抽出装置の階層構造表示部
による表示例を示す説明図である。
【図16】本発明の個体名の抽出装置の階層構造表示部
による表示例を示す説明図である。
【図17】本発明の個体名の抽出装置の階層構造表示部
による表示例を示す説明図である。
【図18】本発明の個体名の抽出装置の階層構造表示部
による表示例を示す説明図である。
【図19】本発明の個体名の抽出装置の階層構造表示部
による表示例を示す説明図である。
【図20】本発明の個体名の抽出装置において処理され
る属性の階層構造を示す説明図である。
【符号の説明】
101 情報処理装置 102 CPU 103 ROM 104 ハードディスク 105 キーボード 106 マウス 107 RAM 108 表示装置 109 インターフェース 110 FDドライブ 111 CD−ROMドライブ 131 個体名の抽出装置 133 属性入力受付部 134 抽出部 135 結果出力部 136 階層構造記憶部 137 階層構造表示部 138 階層構造編集入力受付部 139 階層構造更新部 151 個体名認定部 152 入力受付部 153 第1の個体名記憶部 154 第2の個体名記憶部 155 ルール記憶部 156 認定部 157 更新部 158 出力部

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】形態素列を入力として受け付け、個体名と
    して認定された形態素またはその列と、当該形態素また
    はその列、および、これが含む形態素またはその列が有
    する属性と、を対応付けて認定する個体名認定部と、 所望の属性の入力を受け付ける属性入力受付部と、 前記個体名認定部により個体名として認定された形態素
    またはその列、および、これが含む形態素またはその列
    から、前記入力が受け付けられた属性を有するものを抽
    出する抽出部と、 前記抽出部により抽出された形態素またはその列を抽出
    された個体名として出力する結果出力部とを備えること
    を特徴とする個体名の抽出装置。
  2. 【請求項2】前記属性入力受付部は、属性の階層構造か
    らいずれかの属性を選択する選択入力を受け付けて、こ
    れを所望の属性の入力とすることを特徴とする請求項1
    に記載の個体名の抽出装置。
  3. 【請求項3】前記属性の階層構造を表示する階層構造表
    示部をさらに備えることを特徴とする請求項2に記載の
    個体名の抽出装置。
  4. 【請求項4】前記階層構造表示部は、前記属性の階層構
    造に含まれる各属性が、前記属性入力受付部により選択
    された属性か否かを示す情報をさらに表示することを特
    徴とする請求項3に記載の個体名の抽出装置。
  5. 【請求項5】前記属性の階層構造を記憶する階層構造記
    憶部と、 前記属性の階層構造を編集する階層構造編集入力を受け
    付ける階層構造編集入力受付部と、 前記階層構造編集入力受付部により受け付けられた階層
    構造編集入力により、前記階層構造記憶部に記憶された
    属性の階層構造を編集して更新する階層構造更新部とを
    さらに備えることを特徴とする請求項2から4のいずれ
    か1項に記載の個体名の抽出装置。
  6. 【請求項6】形態素列を入力として受け付け、個体名と
    して認定された形態素またはその列と、当該形態素また
    はその列、および、これが含む形態素またはその列が有
    する属性と、を対応付けて認定する個体名認定ステップ
    と、 所望の属性の入力を受け付ける属性入力受付ステップ
    と、 前記個体名認定ステップにて個体名として認定された形
    態素またはその列、および、これが含む形態素またはそ
    の列から、前記入力が受け付けられた属性を有するもの
    を抽出する抽出ステップと、 前記抽出ステップにて抽出された形態素またはその列を
    抽出された個体名として出力する結果出力ステップとを
    備えることを特徴とする個体名の抽出方法。
  7. 【請求項7】前記属性入力受付ステップでは、属性の階
    層構造からいずれかの属性を選択する選択入力を受け付
    けて、これを所望の属性の入力とすることを特徴とする
    請求項6に記載の個体名の抽出方法。
  8. 【請求項8】前記属性の階層構造を表示する階層構造表
    示ステップをさらに備えることを特徴とする請求項7に
    記載の個体名の抽出方法。
  9. 【請求項9】前記階層構造表示ステップでは、前記属性
    の階層構造に含まれる各属性が、前記属性入力受付ステ
    ップにて選択された属性か否かを示す情報をさらに表示
    することを特徴とする請求項8に記載の個体名の抽出方
    法。
  10. 【請求項10】前記属性の階層構造はあらかじめ記憶さ
    れ、 前記属性の階層構造を編集する階層構造編集入力を受け
    付ける階層構造編集入力受付ステップと、 前記階層構造編集入力受付ステップにて受け付けられた
    階層構造編集入力により、前記あらかじめ記憶された属
    性の階層構造を編集して更新する階層構造更新ステップ
    とをさらに備えることを特徴とする請求項7から9のい
    ずれか1項に記載の個体名の抽出方法。
  11. 【請求項11】コンピュータを、 形態素列を入力として受け付け、個体名として認定され
    た形態素またはその列と、当該形態素またはその列、お
    よび、これが含む形態素またはその列が有する属性と、
    を対応付けて認定する個体名認定部、 所望の属性の入力を受け付ける属性入力受付部、 前記個体名認定部により個体名として認定された形態素
    またはその列、および、これが含む形態素またはその列
    から、前記入力が受け付けられた属性を有するものを抽
    出する抽出部、および、 前記抽出部により抽出された形態素またはその列を抽出
    された個体名として出力する結果出力部として機能させ
    るプログラムを記録することを特徴とするコンピュータ
    読取可能な記録媒体。
  12. 【請求項12】前記属性入力受付部は、属性の階層構造
    からいずれかの属性を選択する選択入力を受け付けて、
    これを所望の属性の入力とすることを特徴とする請求項
    11に記載のコンピュータ読取可能な記録媒体。
  13. 【請求項13】前記プログラムは、前記コンピュータ
    を、 前記属性の階層構造を表示する階層構造表示部としてさ
    らに機能させることを特徴とする請求項12に記載のコ
    ンピュータ読取可能な記録媒体。
  14. 【請求項14】前記階層構造表示部は、前記属性の階層
    構造に含まれる各属性が、前記属性入力受付部により選
    択された属性か否かを示す情報をさらに表示することを
    特徴とする請求項13に記載のコンピュータ読取可能な
    記録媒体。
  15. 【請求項15】前記プログラムは、前記コンピュータ
    を、 前記属性の階層構造を記憶する階層構造記憶部、 前記属性の階層構造を編集する階層構造編集入力を受け
    付ける階層構造編集入力受付部、および、 前記階層構造編集入力受付部により受け付けられた階層
    構造編集入力により、前記階層構造記憶部に記憶された
    属性の階層構造を編集して更新する階層構造更新部とし
    てさらに機能させることを特徴とする請求項12から1
    4のいずれか1項に記載のコンピュータ読取可能な記録
    媒体。
JP2000013160A 2000-01-21 2000-01-21 個体名の抽出装置、抽出方法、並びに、記録媒体 Expired - Fee Related JP3672473B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000013160A JP3672473B2 (ja) 2000-01-21 2000-01-21 個体名の抽出装置、抽出方法、並びに、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000013160A JP3672473B2 (ja) 2000-01-21 2000-01-21 個体名の抽出装置、抽出方法、並びに、記録媒体

Publications (2)

Publication Number Publication Date
JP2001202381A true JP2001202381A (ja) 2001-07-27
JP3672473B2 JP3672473B2 (ja) 2005-07-20

Family

ID=18540787

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000013160A Expired - Fee Related JP3672473B2 (ja) 2000-01-21 2000-01-21 個体名の抽出装置、抽出方法、並びに、記録媒体

Country Status (1)

Country Link
JP (1) JP3672473B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001216300A (ja) * 2000-01-31 2001-08-10 Just Syst Corp 個体名の認定装置、認定方法、並びに、記録媒体
JP2011103038A (ja) * 2009-11-10 2011-05-26 Nomura Research Institute Ltd 用語間の対応関係抽出システム及び対応関係抽出プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0652221A (ja) * 1992-05-08 1994-02-25 Fujitsu Ltd 固有名詞の自動抽出方式
JPH11272701A (ja) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0652221A (ja) * 1992-05-08 1994-02-25 Fujitsu Ltd 固有名詞の自動抽出方式
JPH11272701A (ja) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001216300A (ja) * 2000-01-31 2001-08-10 Just Syst Corp 個体名の認定装置、認定方法、並びに、記録媒体
JP2011103038A (ja) * 2009-11-10 2011-05-26 Nomura Research Institute Ltd 用語間の対応関係抽出システム及び対応関係抽出プログラム

Also Published As

Publication number Publication date
JP3672473B2 (ja) 2005-07-20

Similar Documents

Publication Publication Date Title
US11714839B2 (en) Apparatus and method for automated and assisted patent claim mapping and expense planning
US5893087A (en) Method and apparatus for improved information storage and retrieval system
US20160203115A1 (en) Intelligent text annotation
TW200422874A (en) Graphical feedback for semantic interpretation of text and images
US8612431B2 (en) Multi-part record searches
US7509303B1 (en) Information retrieval system using attribute normalization
JP3672473B2 (ja) 個体名の抽出装置、抽出方法、並びに、記録媒体
JP2005128872A (ja) 文書検索システム及び文書検索プログラム
JP3734391B2 (ja) 個体名の抽出装置、抽出方法、並びに記録媒体
JP2000250908A (ja) 電子書籍の作成支援装置
JP3071703B2 (ja) 表作成装置およびその方法
JP2004157965A (ja) 検索支援装置、検索支援方法、プログラムおよび記録媒体
JPH10162011A (ja) 情報検索方法、情報検索システム、情報検索端末装置および情報検索装置
JP3576060B2 (ja) 個体名の認定装置、認定方法、並びに、記録媒体
JPH0822470A (ja) 資料作成支援システム
JP4617015B2 (ja) 文書表示装置、文書表示方法ならびに、プログラム
JP2003099429A (ja) 用語集生成装置及び用語集生成プログラム並びに用語集検索装置
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
JPH1145249A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH09297760A (ja) 文書作成支援装置
JPH1145250A (ja) 情報検索装置,検索結果を利用した検索条件の生成方法およびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000057138A (ja) 文書編集装置および方法
JPH0785006A (ja) 情報検索方法及びその装置
JPH10198693A (ja) 住所録管理装置及び住所録管理方法
JP2007133505A (ja) 情報検索支援システム、情報検索支援方法及び情報検索支援プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040817

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050111

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050419

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110428

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140428

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees