JP3734391B2 - 個体名の抽出装置、抽出方法、並びに記録媒体 - Google Patents

個体名の抽出装置、抽出方法、並びに記録媒体 Download PDF

Info

Publication number
JP3734391B2
JP3734391B2 JP30607599A JP30607599A JP3734391B2 JP 3734391 B2 JP3734391 B2 JP 3734391B2 JP 30607599 A JP30607599 A JP 30607599A JP 30607599 A JP30607599 A JP 30607599A JP 3734391 B2 JP3734391 B2 JP 3734391B2
Authority
JP
Japan
Prior art keywords
morpheme
individual name
representing
sequence
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP30607599A
Other languages
English (en)
Other versions
JP2001125911A (ja
Inventor
敬己 下郡山
信行 乙守
Original Assignee
株式会社ジャストシステム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジャストシステム filed Critical 株式会社ジャストシステム
Priority to JP30607599A priority Critical patent/JP3734391B2/ja
Publication of JP2001125911A publication Critical patent/JP2001125911A/ja
Application granted granted Critical
Publication of JP3734391B2 publication Critical patent/JP3734391B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、入力された形態素列から個体名を表す形態素またはその列を抽出するのに好適な抽出装置、抽出方法、および、記録媒体に関する。
【0002】
【従来の技術】
従来から、コンピュータ、ワードプロセッサ、データベースシステムなどで、文献から必要な情報を得る検索システムが使われている。特に、近年のインターネット技術の発展にともない、さまざまな情報源から必要な情報を得るためのインフラストラクチャが整いつつある。
【0003】
また、コンピュータなどに文章の内容を理解させ、その内容を要約させたり、適宜選択させたりするようなシステムについても提案がされている。
【0004】
このようなシステムで、たとえば日本語の文献を処理の対象とする場合には、以下の手法が用いられていた。
【0005】
第1は、文章に処理したい単語と同じ文字列が出現した場合に、これを検索結果に含めたり、同じ綴りの文字列の出現頻度により、内容の要約を行う手法である。この手法は、字面だけで検索や要約を行うもので、インターネット検索エンジンなどでよく用いられている。
【0006】
第2は、まず、日本語の文章を各単語(「形態素」ともいう)に切り分ける形態素解析を行い、形態素の綴りとその品詞との情報の対の列を出力し、出力された情報の対の列に基づいて処理を行う手法である。
【0007】
【発明が解決しようとする課題】
しかしながら、字面だけで文献の処理を行う手法では、たとえば検索の際に、偶然に含まれた同じ綴りの文字列を含む文献も検索結果に含まれてしまい、不必要な情報に所望の情報が埋もれてしまうという問題が生じるおそれがある。
【0008】
一方、検索対象として人名、地域名、国名、社名、や、日時などの個体名を使う場合には、形態素解析で出力される情報だけではたとえば人名と地域名の区別がつかないため、上記と同様の問題が生じるおそれがある。また、WWW(World Wide Web)などから入手できる情報には、新しい商品名などの未知語が多いため、これらに対応する必要もある。
【0009】
したがって、形態素解析によって得られた形態素から情報の検索や概念の要約などに用いることができる個体名を認定し、その個体名を抽出して出力する手法が望まれている。
【0010】
本発明の目的は、入力された形態素列から個体名を表す形態素またはその列を抽出することにある。
【0011】
【課題を解決するための手段】
上記目的を達成するため、本発明の個体名の抽出装置は、入力受付部と、第1の個体名記憶部と、第2の個体名記憶部と、ルール記憶部と、認定部と、更新部と、出力部とを備えるように構成する。
【0012】
ここで、入力受付部は、形態素列を入力として受け付ける。
【0013】
第1の個体名記憶部は、個体名を表す形態素またはその列を、その属性と対応付けてあらかじめ記憶する。
【0014】
第2の個体名記憶部は、個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶する。
【0015】
ルール記憶部は、形態素列から個体名を表す形態素またはその列を、その属性と対応付けて認定するルールをあらかじめ記憶する。
【0016】
認定部は、前記受け付けられた形態素列から前記第1もしくは第2の個体名記憶部に記憶された形態素またはその列を認定し、また、前記受け付けられた形態素列から前記あらかじめ記憶されたルールにより個体名を表す形態素またはその列を認定する。
【0017】
更新部は、前記第2の個体名記憶部を更新して、前記認定された個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶させる。
【0018】
出力部は、前記認定された個体名を表す形態素またはその列を、抽出した個体名として出力する。
【0019】
本抽出装置では、未知語を表す形態素またはその列(以下適宜「形態素(列)」という。)がルールにより個体名として認定されると、当該未知語を表す形態素(列)が個体名として個体名記憶部に登録される。したがって、以降はルールを用いることなく個体名として認定することができる。さらに、当該未知語に含まれる形態素(未知語の一部)についても、ルールを用いることなく個体名として認定することができる。
【0020】
また、形態素解析の結果としては未知語となっていないが、「情報」「処理」「学会」のような普通名詞が連なって「情報処理学会」という個体名を表すような場合も、「情報処理学会」が個体名として認識され、第2の個体名記憶部に登録される。この場合、「情報処理学会」そのものを第1の個体名記憶部に登録しておく必要はない。ルール記憶部に記憶されたルールにより個体名としての認識が可能だからである。
【0021】
これらにより、適切に個体名を抽出することができる。
【0022】
また、上記抽出装置は、再認定制御部をさらに備えるように構成してもよい。
【0023】
ここで、再認定制御部は、前記更新部により前記第2の個体名記憶部が更新された場合、前記認定部に個体名を表す形態素またはその列を再度認定させる。
【0024】
本抽出装置では、新たに未知語が個体名として登録されている限り、同じ形態素列入力に対して繰り返しルールが適用される。これにより、たとえば、文献の終り付近で個体名として認定された未知語を手がかりに、文献の始め付近にルールが適用され、さらに未知語を個体名として認定できるようになる。
【0025】
また、上記抽出装置は、消去部をさらに備えるように構成してもよい。
【0026】
ここで、消去部は、特定条件が満たされた場合、前記第2の個体名記憶部から当該一時的に記憶された個体名を表す形態素またはその列を消去する。
【0027】
本抽出装置では、たとえば文献の種類が変わるたびに登録された未知語を抹消する。したがって、文献の文脈に応じて個体名を抽出することができる。
【0028】
また、上記抽出装置において、前記認定部は、前記あらかじめ記憶されたルールにより、個体名を表す第1の形態素またはその列と、個体名を表す第2の形態素またはその列と、にはさまれた形態素またはその列を、個体名を表す形態素またはその列として認定するように構成してもよい。
【0029】
本抽出装置では、たとえば、「東京」と「大阪」に挟まれた未知の漢字列を、地名属性を有する個体名として抽出することができる。
【0030】
また、本抽出装置において、前記認定部は、前記あらかじめ記憶されたルールにより、あらかじめ定めた形態素またはその列に連接する形態素またはその列を個体名を表す形態素またはその列として認定する
【0031】
本抽出装置では、たとえば、「(株)」の後ろにカタカナ列が続く場合、当該カタカナ列を社名属性を有する個体名として抽出することができる。
【0032】
上記目的を達成するため、本発明の個体名の抽出方法は、個体名を表す形態素またはその列を、その属性と対応付けてあらかじめ記憶する第1の個体名記憶部と、個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶する第2の個体名記憶部と、形態素列から個体名を表す形態素またはその列を、その属性と対応付けて認定するルールをあらかじめ記憶するルール記憶部とを備えるコンピュータにおいて、形態素列から個体名を抽出する抽出方法であって、入力受付ステップと、認定ステップと、更新ステップと、出力ステップとを備えるように構成する。
【0033】
ここで、入力受付ステップでは、形態素列を入力として受け付ける。
【0034】
認定ステップでは、前記受け付けられた形態素列から前記第1もしくは第2の個体名記憶部に記憶された形態素またはその列を認定し、また、前記受け付けられた形態素列から前記あらかじめ記憶されたルールにより個体名を表す形態素またはその列を認定する。
【0035】
更新ステップでは、前記第2の個体名記憶部を更新して、前記認定された個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶させる。
【0036】
出力ステップでは、前記認定された個体名を表す形態素またはその列を、抽出した個体名として出力する。
【0037】
また、上記抽出方法は、再認定制御ステップをさらに備えるように構成することができる。
【0038】
ここで、再認定制御ステップでは、前記更新ステップにて前記第2の個体名記憶部が更新された場合、前記認定ステップにて個体名を表す形態素またはその列を再度認定させる。
【0039】
また、上記抽出方法は、消去ステップをさらに備えるように構成することができる。
【0040】
ここで、消去ステップでは、特定条件が満たされた場合、前記第2の個体名記憶部から当該一時的に記憶された個体名を表す形態素またはその列を消去する。
【0041】
また、上記抽出方法において、前記認定ステップにて、前記あらかじめ記憶されたルールにより、個体名を表す第1の形態素またはその列と、個体名を表す第2の形態素またはその列と、にはさまれた形態素またはその列を、個体名を表す形態素またはその列として認定するように構成することができる。
【0042】
また、上記抽出方法において、前記認定ステップにて、前記あらかじめ記憶されたルールにより、あらかじめ定めた形態素またはその列に連接する形態素またはその列を個体名を表す形態素またはその列として認定するように構成することができる。
【0043】
上記目的を達成するため、本発明のコンピュータ読取可能な記録媒体は、コンピュータを、入力受付部、第1の個体名記憶部、第2の個体名記憶部、ルール記憶部、認定部、更新部、および、出力部として機能させるプログラムを記録するように構成する。
【0044】
ここで、入力受付部は、形態素列を入力として受け付ける。
【0045】
第1の個体名記憶部は、個体名を表す形態素またはその列を、その属性と対応付けてあらかじめ記憶する。
【0046】
第2の個体名記憶部は、個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶する。
【0047】
ルール記憶部は、形態素列から個体名を表す形態素またはその列を、その属性と対応付けて認定するルールをあらかじめ記憶する。
【0048】
認定部は、前記受け付けられた形態素列から前記第1もしくは第2の個体名記憶部に記憶された形態素またはその列を認定し、また、前記受け付けられた形態素列から前記あらかじめ記憶されたルールにより個体名を表す形態素またはその列を認定する
【0049】
更新部は、前記第2の個体名記憶部を更新して、前記認定された個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶させる。
【0050】
出力部は、前記認定された個体名を表す形態素またはその列を、抽出した個体名として出力する。
【0051】
また、上記コンピュータ読取可能な記録媒体に記録された前記プログラムは、前記コンピュータを、再認定制御部としてさらに機能させるように構成することができる。
【0052】
ここで、再認定制御部は、前記更新部により前記第2の個体名記憶部が更新された場合、前記認定部に個体名を表す形態素またはその列を再度認定させる。
【0053】
また、上記コンピュータ読取可能な記録媒体に記録された前記プログラムは、前記コンピュータを、消去部としてをさらに機能させるように構成することができる。
【0054】
ここで、消去部は、特定条件が満たされた場合、前記第2の個体名記憶部から当該一時的に記憶された個体名を表す形態素またはその列を消去する。
【0055】
また、上記コンピュータ読取可能な記録媒体に記録された前記プログラムにより前記コンピュータが前記認定部として機能する場合、前記認定部は、前記あらかじめ記憶されたルールにより、個体名を表す第1の形態素またはその列と、個体名を表す第2の形態素またはその列と、にはさまれた形態素またはその列を、個体名を表す形態素またはその列として認定するように構成することができる。
【0056】
また、上記コンピュータ読取可能な記録媒体に記録された前記プログラムにより前記コンピュータが前記認定部として機能する場合、前記認定部は、前記あらかじめ記憶されたルールにより、あらかじめ定めた形態素またはその列に連接する形態素またはその列を個体名を表す形態素またはその列として認定するように構成することができる。
【0057】
【発明の実施の形態】
以下、添付図面を参照して、本発明の実施の形態について説明する。
【0058】
(概要構成)
図1は、本発明の個体名の抽出装置として機能する典型的な情報処理装置(汎用のコンピュータ、各種端末、携帯端末、携帯電話、ゲーム装置などの専用機器を含む)の概要構成を示す模式図である。以下、図1を参照して説明する。
【0059】
情報処理装置101は、CPU(Central Processing Unit;中央処理ユニット)102によって制御される。情報処理装置101に電源を投入すると、CPU102は、ROM(Read Only Memory;読出専用メモリ)103に記憶されたIPL(Initial Program Loader;初期プログラムローダ)を実行する。
【0060】
IPLは、ハードディスク104、FD(Floppy Disk;フロッピーディスク)ドライブ110に装着されたFD、CD−ROM(Compact Disk ROM)ドライブ111に装着されたCD−ROMなどの記録媒体に記憶されたOS(Operating System;オペレーティング・システム)プログラムを読み出して実行するプログラムである。
【0061】
OSを起動した後、CPU102は、キーボード105やマウス106などにより入力されたユーザの指示にしたがって、あるいは、ハードディスクなどにあらかじめ記述された設定ファイルの内容にしたがって、ハードディスクなどに記憶されたアプリケーションプログラムを実行する。
【0062】
なお、携帯端末などの小規模な情報処理装置では、IPL自体がOSやアプリケーションプログラムとしての機能を果たすような実施形態も採用することができる。
【0063】
CPU102は、プログラムの実行の際に、RAM(Random Access Memory)107を一時的な作業用記憶領域として用いる。このほか、一時的な作業用記憶領域として、CPU102内に設けられたレジスタやキャッシュ(図示せず)が使われる。
【0064】
プログラムの実行に伴ない、ユーザに結果を報告したり、途中経過を見せるため、CPU102は、液晶ディスプレイやCRT(Cathode Ray Tube)などの表示装置108に当該情報を表示することができる。マウス106による指示操作では、マウス106を移動することにより、画面に表示されたカーソルが移動し、マウス106をクリックすることにより、カーソルが指すメニュー項目を選択することができる。
【0065】
情報処理装置101は、NIC(Network Interface Card)やモデムなどのインターフェース109を介してインターネットなどのコンピュータ通信網と通信を行うことができる。インターフェース109を介して受信した文書データを処理の対象としたり、処理した結果をインターフェース109を介して送信したり、インターフェース109を介して受信したプログラムを実行したり、などができる。
【0066】
図2は、上記情報処理装置101が本発明の個体名の抽出装置として機能する場合の、各機能の概要構成を示す模式図である。
【0067】
個体名の抽出装置151は、入力受付部152、第1の個体名記憶部153、第2の個体名記憶部154、ルール記憶部155、認定部156、更新部157、出力部158を備える。また、図示しない要素として、再認定制御部、消去部を備えるように構成してもよい。
【0068】
入力受付部152は、形態素列を入力として受け付ける。ここで、処理の対象となる文書データやあらかじめ形態素解析を完了した結果の形態素列を記録したデータは、上記のようにインターフェース109を介して得ることができるほか、ハードディスク104、FD、CD−ROMに記憶されたファイルなどから得ることができる。また、ユーザがキーボード105やマウス106を操作して入力した文書データを形態素解析してから、処理の対象とすることもでき、形態素列は、RAM107に記憶される。
【0069】
したがって、インターフェース109、ハードディスク104、FDドライブ110、CD−ROMドライブ111、RAM107は、形態素列を入力として受け付ける入力受付部152として機能する。
【0070】
第1の個体名記憶部153と、第2の個体名記憶部154は、個体名を表す形態素(列)を、その属性と対応付けて記憶するが、前者はあらかじめ記憶し、後者は一時的に記憶する。また、ルール記憶部155は、形態素列から個体名を表す形態素(列)をその属性と対応付けて認定するルールをあらかじめ記憶する。
【0071】
したがって、ハードディスク104、FDドライブ110に装着されたFD、CD−ROMドライブに装着されたCD、ROM103、RAM107、および、インターフェース109を介して接続された他のコンピュータのこれら読み取り可能な情報記憶装置に相当するものは、第1の個体名記憶部153、および、ルール記憶部155として機能する。第1の個体名記憶部153、および、ルール記憶部155は、必ずしも書き込みができる必要はない。
【0072】
一方、ハードディスク104、FDドライブ110に装着されたFD、RAM107は、および、インターフェース109を介して接続された他のコンピュータのこれら読み書き可能な情報記憶装置に相当するものは、第2の個体名記憶部154として機能する。
【0073】
認定部156は、第1の個体名記憶部153、第2の個体名記憶部154、ルール記憶部155に記憶された情報を用いて、入力を受け付けた形態素列から個体名を表す形態素(列)を認定する。本実施形態では、CPU102が、認定部156として機能する。
【0074】
更新部157は、新たに認定された個体名を表す形態素(列)を第2の個体名記憶部154に追加して記憶する。本実施形態では、CPU102が、更新部157として機能する。
【0075】
出力部158は、認定された個体名を表す形態素(列)を抽出された個体名として出力する。なお、当該個体名を表す形態素(列)に対応付けられた属性も合わせて出力する形態を採用することができる。
【0076】
表示装置108、ハードディスク104、FDドライブ110に装着されたFD、RAM107は、および、インターフェース109を介して接続された他のコンピュータのこれら読み書き可能な情報記憶装置に相当するものを抽出した個体名を表す形態素(列)を出力する先として選択することができる。したがって、これらは、出力部158として機能する。
【0077】
また、再認定制御部(図示せず)は、新たに認定された個体名を表す形態素(列)がある限り、認定部156における認定の処理を繰り返す制御を行う。この場合、CPU102が、再認定制御部として機能する。
【0078】
また、消去部(図示せず)は、特定条件が満たされると第2の個体名記憶部154に記憶された個体名の形態素(列)を消去する。この場合、CPU102が消去部として機能する。
【0079】
このほか、ハードディスク104、FDドライブ110に装着されたFD、CD−ROMドライブに装着されたCD、ROM103、RAM107、および、インターフェース109を介して接続された他のコンピュータのこれら読み取り可能な情報記憶装置に相当するものは、CPU102で実行されるプログラムを記録することにより、本発明の記録媒体として機能する。
【0080】
上述のように、図1に示す情報処理装置101は、図2に示す本発明の個体名の抽出装置として機能させるための典型的な実施態様である。
【0081】
たとえば、インターネット内の文献を自動的に取得して個体名を抽出して個体名の文献データベースを作成するロボットサーバにて、本発明の個体名の抽出方法を実施させ、当該ロボットサーバを本発明の個体名の抽出装置として機能させることができる。この場合、表示装置108、FDドライブ110、キーボード105、マウス106等は不要である一方、インターフェース109は必須である。
【0082】
また、携帯端末では、外部記憶装置として、不揮発性半導体メモリ(フラッシュメモリカード)やバッテリバックアップがされたRAMを使用することができる。この場合、必ずしもハードディスク104、FDドライブ110、CD−ROMドライブ111等は必要ない。
【0083】
(処理手順)
以下、本発明の個体名の抽出装置の機能を実現するために上記の情報処理装置にて実行される処理、すなわち、本発明の個体名の抽出方法の概要について説明する。図3は、当該処理の流れを示すフローチャートである。
【0084】
まず、入力受付部152が入力される形態素列を受け付ける(ステップS201)。形態素列の受け付けは、上記のように、ハードディスク104などの記録媒体から行ってもよいし、キーボード105などの入力装置から行ってもよい。また、RAM107内の所定の領域に形態素列のデータを記憶させ、このデータを記憶した領域のアドレスをパラメータとする関数呼び出しやシステムコールの形式で本ステップS201が開始される実施形態を採用することもできる。
【0085】
次に、認定部156が、入力形態素列から、第1の個体名記憶部153、および、第2の個体名記憶部154に記憶された形態素(列)を認定する(ステップS202)。本ステップS202で利用される個体名の詳細については後述する。
【0086】
さらに、認定部156は、入力形態素列から、特徴語、周辺に配置された(特に隣接する)形態素、認定された個体名などの情報を利用して、ルール記憶部155に記憶されたルールを適用して、未登録の個体名の形態素(列)を認定する(ステップS203)。認定ルールの詳細については後述する。
【0087】
ついで、認定された個体名を表す形態素(列)のうち、第2の個体名記憶部154に記憶されていないもの、すなわち、新規に認定された個体名の形態素(列)があるか否かを判断する(ステップS204)。
【0088】
新規に認定された個体名の形態素がある場合(ステップS204;Yes)、更新部157は、第2の個体名記憶部154に追加記憶させて更新し(ステップS206)、ステップS202に戻る。これにより、新たに認定された個体名の情報を用いて再度ルールを適用することができる。なお、ステップS202に戻る処理の制御を担当するのが、再認定制御部である。
【0089】
一方、新規に認定された個体名の形態素(列)がない場合(ステップS204;No)、本発明の手法により認定できる個体名はすべて認定されたことになるため、認定された個体名を表す形態素(列)を出力部158より抽出された個体名として出力し(ステップS205)、本処理を終了する。出力の詳細については後述する。
【0090】
(個体名の種類)
本発明の個体名の抽出装置、および、抽出方法では、あらかじめ形態素解析を実行することにより出力された形態素列から、個体名を表す形態素(列)を抽出する。以下では、この個体名として採用される形態素の種類の実施例について説明する。
【0091】
本実施例では、個体名の形態素(列)に対応付けて、以下の4種類の属性を認定する。
・固有名詞
・時間
・数量
・インデックス
【0092】
属性「固有名詞」は、さらに、商品名、組織名、地名(地域名、自然物名、施設名)、人物名に分類される。
【0093】
属性「時間」は、さらに、経済時間、暦時間(曜日時間を含む)、非暦時間、特殊接辞に分類される。
【0094】
属性「数量」は、さらに、金額、比率、序数詞に分類される。
【0095】
属性「インデックス」は、さらに、URL(Universal Resource Locater)、電子メールアドレス、電話番号・ファクシミリ番号に分類される。これらは、英数字や記号から構成される文字列であるが、個人や企業を特定する、という点で、人物名や組織名に準じて考えることができる。
【0096】
このように、本発明で取り扱う個体名の形態素(列)の属性は階層的に構成されている。属性の階層は、適宜変更して構成することができる。
【0097】
本発明では、処理対象とする形態素列から、これらの属性を付された個体名の形態素(列)を分類して認定し、認定結果を抽出された個体名として出力する。
【0098】
具体例をあげて説明する。以下適宜、記号「/」を用いて形態素を区切るものとする。「私は、(株)山田商会田中専務です。」は、「私/は/、/(株)/山田/商会/田中/専務/です/。」のように形態素列に解析できる。
【0099】
これらの形態素それぞれには、上記の属性を割り当てることができるものがある。たとえば、「田中」には「姓」という属性を、「専務」には「役職名」という属性を、それぞれ割り当てることができる。このように、形態素そのものに割り当てられる属性を「役割素性」という。
【0100】
一方、「山田/商会」「(株)/山田/商会」などのような形態素列にも属性を割り当てることができる。これらには「組織名」という属性を割り当てることができる。同様に、「田中/専務」には「人物名」という属性を割り当てることができる。
【0101】
「(株)/山田/商会/田中/専務」は、本例において、個体名として認定できる最大限の形態素列であり、これには「人物名」という属性を割り当てることができる。このように、個体名として認定できる最大限の形態素列に割り当てられた属性を「カテゴリ」という。
【0102】
第1の個体名記憶部153には、あらかじめ、これらの個体名として選定された形態素(列)と、その個体名の属性を対応付けて記憶する。
【0103】
上述の例では単純に属性を割り当てたが、たとえば固有名詞の「山田」といっても、その属性として人物名、組織名(会社名)、地域名など、ふさわしい属性はさまざまである。一度文章の前方で「山田博物館」と記載された場合には、文章の後方で単に「山田」と書くこともあり、この場合は、施設名を表すことになる。
【0104】
したがって、第1の個体名記憶部153には、個体名を表す形態素(列)にそれがとりうる属性を複数種類対応付けて記憶する場合がある。たとえば、「山田」に対して「姓」「組織名」「会社名」「地域名」などを記憶することになる。
【0105】
また、時間、数量、インデックスは、形態素を表す文字列の並びのパターンで判別することができるため、このパターンをたとえば正規表現(Regular Expression)で表して第1の個体名記憶部153やルール記憶部155に記憶することができる。
【0106】
図4には、このような第1の個体名記憶部153に記憶される個体名を表す形態素(列)と、その属性やカテゴリの様子を示す。
【0107】
図4に示す例では、個体名として認定可能な形態素列として「パジェロ・ミニデューク」「山本食品」「山本食品」「田中住宅北陸」「祖谷渓」「焼山寺」「平将門」が記憶されている。たとえば、「パジェロ・ミニデューク」の属性(カテゴリ)は「商品」であり、これらを形態素に分けた「パジェロ」「・」「ミニ」「デューク」の属性(役割素性)は、それぞれ、「商品名本体」「記号」「商品名本体」「シリーズ名」である。
【0108】
このように、第1の個体名記憶部153には、あらかじめ定めた個体名を表す形態素(列)が記憶される。なお、認定ルールにより個体名として認定された未知語を第2の個体名記憶部154に、同様のフォーマットで、記憶することができる。
【0109】
(認定ルール)
第1の個体名記憶部153に記憶された形態素(列)を用いて、入力として受け付けた形態素列から個体名を認定することができるが、それだけでは不十分な場合がある。
【0110】
上述のように、商品名などの固有名詞では造語や新語などが用いられることが多いため、第1の個体名記憶部153に記憶されていない未知語が多い。特に、WWWから入手できる場合には、これが顕著である。このような場合であっても未登録の個体名を抽出できるようにしたい。
【0111】
以下に説明する認定ルールにより、これらに対応する。これらの認定ルールでは、以下のような情報を用いる。
・形態素解析結果が持つ属性。品詞、字種、字面など。
・既に認定された個体名の形態素(列)が持つ属性。カテゴリ、役割素性など。
認定された個体名の形態素(列)は、第2の個体名記憶部154に記憶されている。
【0112】
なお、認定ルールや個体名の属性、これらの連結関係に重みをつけて、個体名の属性が複数認定された場合に、これらの重みから得点を計算し、いずれが最も尤もらしいかを推定することにより、文献検索や要約の精度を高めることができる。
【0113】
(特徴語による認定ルール)
まず、特徴語や共起語を用いた認定ルールの例について説明する。特徴語としては、接頭語や接尾語などが考えられる。たとえば「部長」「(株)」である。形態素列として「山田/一郎/部長」が入力された場合、「部長」という特徴語から、形態素列「山田/一郎」が人名を表すことがわかる。
【0114】
そこで、第2の個体名記憶部154に「山田」「一郎」「山田/一郎」の各形態素(列)を、人名として更新登録する。後述するように、個体名の認定には、第1の個体名記憶部153と、第2の個体名記憶部154と、を両方とも用いるので、文章中に「山田/一郎/部長」が現れた後に「山田」が単独で現れても、この「山田」は人名を表す、と推定できるのである。
【0115】
同様に「(株)/ジャスト」や「システム/(株)」のような形態素列が入力された場合には、「ジャスト」や「システム」が第1の個体名記憶部153に記憶されていない未登録の固有名詞であっても、特徴語「(株)」から、会社名を表すことが判明する。
【0116】
同様に、「12/月/28/日」のような形態素列が入力された場合には、「12」は月を表し、「28」は日を表す個体名であることがわかる。
【0117】
なお、特徴語は、「山田/一郎/部長」「(株)/ジャスト」のように、個体名を表す形態素(列)の中に含まれ、これを含む形態素(列)全体にカテゴリを割り当てることができる。
【0118】
一方、共起語とは、特徴語と同様の機能を有するが、個体名を表す形態素(列)の中には含まれないものをいう。たとえば、「アルト/を/発売」という形態素列が入力された場合、「発売」という共起語から、「アルト」が個体名を表す形態素(列)でありカテゴリ「商品名」が付与される。「発売」は、当該個体名を表す形態素(列)には含まれない。
【0119】
このような特徴語、共起語の情報は、ルール記憶部155に記憶される。図5は、ルール記憶部155に記憶される特徴語、共起語の様子を示す模式図である。
【0120】
ルール記憶部155に実際に記憶されるのは、本図に示す表のうち、ルール記憶部155には、「テーブル分類」欄と「登録語」欄である。
【0121】
「テーブル分類」は、同じような特徴を有する特徴語、共起語を識別するための識別子であり、「登録語」は、当該特徴を有する特徴語、共起語である。
【0122】
たとえば、分類「T15」に属する「産業」「興業」「建設」はいずれも「後接特徴語」で、これらの特徴語を含む個体名の形態素(列)の属性(カテゴリ)は「商品名」である。
【0123】
一方、分類「T11」に属する「発売」「販売」「開発」「発表」は、いずれも「後接用言」で、これらの特徴語の前に配置された形態素(列)の属性(カテゴリ)は「商品名」である。
【0124】
(並列する名詞句の認定ルール)
並列する名詞句により未登録の形態素(列)を個体名であると推定して認定するルールが考えられる。
【0125】
たとえば、「東京/、/ンジャメナ/、/パリ」のような形態素列が入力され、「東京」および「パリ」が地域名を表す個体名であると判定された場合、「ンジャメナ」が第1の個体名記憶部153に記憶されていない未登録語であっても、地域名を表す個体名であると推測することができる。
【0126】
「ンジャメナ」がカタカナのみの綴りからなることから、これが未登録語であっても、形態素解析で「ンジャメナ」が名詞相当語であることがわかるが、それ以上の情報は得られない。名詞句の並列を用いたルールによって、これが地域名であるらしいと推定できるのである。
【0127】
(格パターン認定ルール)
同じ文の中での、体言と用言の共起関係を用いて個体名を推定して認定するルールが考えられる。
【0128】
たとえば、「FULLBAND/を/10/月/に/ジャスト/が/発売/し/た」という文で、「FULLBAND」が未登録語である場合、形態素解析では、「FULLBAND」が名詞相当語句であることまでしかわからない。
【0129】
本ルールでは、同じ文の中にある「発売」の目的格が「FULLBAND」になっている、という共起関係を利用し、「FULLBAND」は商品名であると推定して個体名として認定する。
【0130】
図6に、共起関係認定ルールを含む認定ルールがルール記憶部155に記憶される様子を示す。図6に示す認定ルールは、図5に示す特徴語、共起語の情報を参照して定義されている。
【0131】
たとえば、「新製品」は「T11」に、開きかぎかっこは「T12」に、閉じかぎかっこは「T13」に、「を」は「T14」に、「発売」は「T15」に、それぞれ含まれるため、これらの共起関係より、形態素列『新製品/「/ジン/」』(明確のため二重かぎかっこを使って形態素列を示した)に属性(カテゴリ)「商品名」が付されることになる。
【0132】
(文間照応関係認定ルール)
このほか、一度認定された個体名を表す形態素(列)が、その属性とともに第2の個体名記憶部154に記憶されていることにより、異なる文の間でも照応関係を用いて個体名を推定して認定することができる。個体名を表す形態素(列)が新たに発見され、新たに発見した個体名を表す形態素(列)が第2の個体名記憶部154に追加更新されている間は、上記のルールを繰り返して適用することにより、実現できる。
【0133】
たとえば文章の前方に「鈴木/さん/の/開発/し/た」のような文があった場合、「鈴木」が役割素性「人物名」の個体名として第2の個体名記憶部154に記憶される。これにより、文章の後方に「『/商品/の/開発/は/大変/で/し/た/』/(/鈴木/)」のような文があっても、この文の「鈴木」は役割素性「人物名」の個体名として推定して認定することができる。
【0134】
このほか、URL、電子メールアドレス、電話番号、ファクシミリ番号などは、これらに対応する正規表現にマッチする部分を個体名として認定するルールを設定すれば、文字の種類(パターン)による認定ルールを設定して認定することも可能である。
【0135】
なお、「徳島」を第1の個体名記憶部153に記憶し、地名の後に「県」が現われたら、それは「県名」である旨のルールをルール記憶部154に記憶しておけば、「徳島県」を第1の個体名記憶部153に記憶する必要はない。このように認定ルールを用いることで、記憶領域を節約し、用語の管理を用意にすることもできる。
【0136】
これらのルールは適宜変更・追加・削除することが可能であり、変更・追加・削除した実施形態も本発明の範囲に含まれる。
【0137】
(第2の個体名記憶部)
上述したように、一度認定された個体名を表す形態素(列)は、その属性(品詞、字面、字種、カテゴリ、役割素性等)とともに、第2の個体名記憶部154に一時的に記憶される。この際の記憶領域のフォーマットは、第1の個体名記憶部153と同様のものを採用することができる。
【0138】
上述した認定ルールは、近傍に配置された形態素(列)によって個体名を認定するものである。したがって、認定ルールだけでは、認定が不十分になる場合がある。たとえば、「Fullbandを発売した。Fullbandはすばらしい。」のような文章では、「Fullband」が未登録であっても、第1の個体名記憶部153に記憶された特徴語・共起語「発売」と、ルール記憶部155に記憶された認定ルールから「Fullband」が商品名を表す個体名であることがわかる。
【0139】
第2の個体名記憶部154に記憶される。第2文が単独で表れた場合には、「Fullband」が商品名であると推測することは難しいが、本発明においては、第1文の認定結果が第2の個体名記憶部154に記憶される。したがって、第2文においても、「Fullband」が商品名を表す個体名だとわかる。
【0140】
なお、同じ字面が出現した場合に無条件で再利用するのではなく、形態素解析の結果や、形態素(列)が持つ属性などもチェックする。たとえば、「月まで旅行したい。今日は11月1日だ。」のような文章では、最初の「月」は「旅行」を共起語とするため地名を表す個体名と認定してこれを記憶するが、次の「月」は、形態素解析の結果、時間の接尾語という品詞が付与されるため、地名とは認定しない。
【0141】
さて、第2の個体名記憶部154は、現在処理している文章特有の個体名の情報を含むため、たとえば、文献の種類が変わるたびに消去する必要がある。
【0142】
消去のタイミングについては、以下のような手法が考えられる。
【0143】
・異なる文献に由来する形態素列の処理を開始した場合。
【0144】
・当該個体名を表す形態素(列)が第2の個体名記憶部154に記憶されて以降に処理された形態素の数が所定の数を超えた場合。
【0145】
・当該個体名を表す形態素(列)が第2の個体名記憶部154に記憶されて以降に認定ルールにより使用されなかった期間が所定の期間(所定の形態素の処理数等)を超えた場合。
【0146】
・ユーザによる指示があった場合。
【0147】
このように、本発明では、第2の個体名記憶部154に認定した個体名を一時的に記憶することにより、ある認定ルールを用いて一つの文に対して認定された個体名の情報を、他の文においても利用することができる。その結果、当該認定ルールを直接適用することができないような文においても、その個体名を認定することができるようになる。
【0148】
(出力形式)
図7は、本発明の個体名の抽出装置による個体名の認定結果を出力した表示例を示す説明図である。本図に示される文章のうち、斜体で下線を付されて強調表示されている部分が個体名として抽出された形態素(列)である。「韓国」「'99.9.10」「十頁」などの形態素(列)が抽出されている。
【0149】
本図に示す出力例では、出力部は、抽出された個体名の形態素(列)を画面に出力しているが、さらに情報を付加して、ほかのアプリケーション等に抽出結果を渡すことができる。
【0150】
たとえば、抽出された個体名の形態素(列)と、これに対応する属性(カテゴリや役割素性等を含む。)と、をあわせて出力することができる。形態素(列)の属性は、第1の個体名記憶部153、第2の個体名記憶部154、および、ルール記憶部155に記憶された情報から得ることができる。
【0151】
この実施形態により、以下のような出力を行うことができる。
「1/月/26/日」に対して「1」に役割素性「月数」を、「26」に役割素性「日数」を、「1月26日」全体にはカテゴリ「日付」を、それぞれ対応付けて出力する。
「山田/部長」に対して「山田」に役割素性「姓」を、「山田部長」全体にはカテゴリ「人名」を、それぞれ対応付けて出力する。
「株式会社/田中/商会/山田/社長」に対して、「田中」に役割素性「会社名」を、「商会」に役割素性「会社名」を、「田中商会」に属性「会社名」を、「株式会社田中商会」に属性「会社名」を、「山田」に役割素性「人名;姓」を、「社長」に役割素性「肩書き」を、「山田社長」に属性「人名」を、「株式会社田中商会山田社長」にカテゴリ「人名」を、それぞれ対応付けて出力する。
【0152】
このような属性の情報を合わせて出力することにより、「姓」と考えられる個体名のみを抽出する等、属性によって文献を検索したり、機械要約の際に利用することができる。
【0153】
【発明の効果】
以上説明したように、本発明によれば、入力された形態素列から個体名を表す形態素またはその列を抽出するのに好適な抽出装置、抽出方法、および、記録媒体を提供することができる。
【図面の簡単な説明】
【図1】 本発明の個体名の抽出装置を実現する情報処理装置の概要構成を示す模式図である。
【図2】 本発明の個体名の抽出装置の各機能の概要構成を示す模式図である。
【図3】 本発明の個体名の抽出装置において実行される処理、すなわち、本発明の個体名の抽出方法の処理の流れを示すフローチャートである。
【図4】 本発明の第1の個体名記憶部に記憶される個体名を表す形態素(列)と、その属性の例を示す説明図である。
【図5】 本発明の認定ルールで用いられる特徴語、共起語がルール記憶部に記憶される様子を示す説明図である。
【図6】 本発明のルール記憶部に記憶される共起関係認定ルールがルール記憶部に記憶される様子を示す説明図である。
【図7】 本発明の個体名の抽出装置、抽出方法の出力結果を示す説明図である。
【符号の説明】
101 情報処理装置
102 CPU
103 ROM
104 ハードディスク
105 キーボード
106 マウス
107 RAM
108 表示装置
109 インターフェース
110 FDドライブ
111 CD−ROMドライブ
151 個体名の認定装置
152 入力受付部
153 第1の個体名記憶部
154 第2の個体名記憶部
155 ルール記憶部
156 認定部
157 更新部
158 出力部

Claims (12)

  1. 形態素列を入力として受け付ける入力受付部と、
    個体名を表す形態素またはその列を、その属性と対応付けてあらかじめ記憶する第1の個体名記憶部と、
    個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶する第2の個体名記憶部と、
    形態素列から個体名を表す形態素またはその列を、その属性と対応付けて認定するルールをあらかじめ記憶するルール記憶部と、
    前記受け付けられた形態素列から前記第1もしくは第2の個体名記憶部に現在記憶されている形態素またはその列を認定し、また、前記受け付けられた形態素列から前記あらかじめ記憶されたルールにより個体名を表す形態素またはその列を認定する認定部と、
    前記第2の個体名記憶部を更新して、前記認定された個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶させる更新部と、
    前記更新部による前記第2の個体名記憶部の更新がされなくなるまで、前記認定部に、前記受け付けられた形態素列から個体名を表す形態素またはその列を再度認定させる再認定制御部と、
    前記認定された個体名を表す形態素またはその列を、抽出した個体名として出力する出力部と、
    特定条件が満たされた場合、前記第2の個体名記憶部から当該一時的に記憶された個体名を表す形態素またはその列を消去する消去部とを備え、
    当該一時的に記憶された個体名を表す形態素またはその列が前記第2の個体名記憶部に記憶されて以降に、処理された形態素の個数が所定の数を超えた場合、当該特定条件が満たされる
    ことを特徴とする個体名の抽出装置。
  2. 形態素列を入力として受け付ける入力受付部と、
    個体名を表す形態素またはその列を、その属性と対応付けてあらかじめ記憶する第1の個体名記憶部と、
    個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶する第2の個体名記憶部と、
    形態素列から個体名を表す形態素またはその列を、その属性と対応付けて認定するルールをあらかじめ記憶するルール記憶部と、
    前記受け付けられた形態素列から前記第1もしくは第2の個体名記憶部に現在記憶されている形態素またはその列を認定し、また、前記受け付けられた形態素列から前記あらかじめ記憶されたルールにより個体名を表す形態素またはその列を認定する認定部と、
    前記第2の個体名記憶部を更新して、前記認定された個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶させる更新部と、
    前記更新部による前記第2の個体名記憶部の更新がされなくなるまで、前記認定部に、前記受け付けられた形態素列から個体名を表す形態素またはその列を再度認定させる再認定制御部と、
    前記認定された個体名を表す形態素またはその列を、抽出した個体名として出力する出力部と、
    特定条件が満たされた場合、前記第2の個体名記憶部から当該一時的に記憶された個体名を表す形態素またはその列を消去する消去部とを備え、
    当該一時的に記憶された個体名を表す形態素またはその列が前記第2の個体名記憶部に記憶されて以降に、前記あらかじめ記憶されたルールによる認定において使用されなかった期間が所定の期間を超えた場合、当該特定条件が満たされる
    ことを特徴とする抽出装置。
  3. 前記認定部は、前記あらかじめ記憶されたルールにより、個体名を表す第1の形態素またはその列と、個体名を表す第2の形態素またはその列と、にはさまれた形態素またはその列を、個体名を表す形態素またはその列として認定する
    ことを特徴とする請求項1または2に記載の抽出装置。
  4. 前記認定部は、前記あらかじめ記憶されたルールにより、あらかじめ定めた形態素またはその列に連接する形態素またはその列を個体名を表す形態素またはその列として認定する
    ことを特徴とする請求項1または2に記載の抽出装置。
  5. 個体名を表す形態素またはその列を、その属性と対応付けてあらかじめ記憶する第1の個体名記憶部と、個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶する第2の個体名記憶部と、形態素列から個体名を表す形態素またはその列を、その属性と対応付けて認定するルールをあらかじめ記憶するルール記憶部とを備えるコンピュータにおいて、形態素列から個体名を抽出する抽出方法であって、
    前記コンピュータが備える入力受付部が、形態素列を入力として受け付ける入力受付ステップと、
    前記コンピュータが備える認定部が、前記受け付けられた形態素列から前記第1もしくは第2の個体名記憶部に現在記憶されている形態素またはその列を認定し、また、前記受け付けられた形態素列から前記あらかじめ記憶されたルールにより個体名を表す形態素またはその列を認定する認定ステップと、
    前記コンピュータが備える更新部が、前記第2の個体名記憶部を更新して、前記認定された個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶させる更新ステップと、
    前記コンピュータが備える再認定制御部が、前記更新ステップにおける前記第2の個体名記憶部の更新がされなくなるまで、前記認定ステップにて、前記受け付けられた形態素列から個体名を表す形態素またはその列を再度認定させる再認定制御ステップと、
    前記コンピュータが備える出力部が、前記認定された個体名を表す形態素またはその列を、抽出した個体名として出力する出力ステップと、
    前記コンピュータが備える消去部が、特定条件が満たされた場合、前記第2の個体名記憶部から当該一時的に記憶された個体名を表す形態素またはその列を消去する消去ステップとを備え、
    当該一時的に記憶された個体名を表す形態素またはその列が前記第2の個体名記憶部に記憶されて以降に、処理された形態素の個数が所定の数を超えた場合、当該特定条件が満たされる
    ことを特徴とする個体名の抽出方法。
  6. 個体名を表す形態素またはその列を、その属性と対応付けてあらかじめ記憶する第1の個体名記憶部と、個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶する第2の個体名記憶部と、形態素列から個体名を表す形態素またはその列を、その属性と対応付けて認定するルールをあらかじめ記憶するルール記憶部とを備えるコンピュータにおいて、形態素列から個体名を抽出する抽出方法であって、
    前記コンピュータが備える入力受付部が、形態素列を入力として受け付ける入力受付ステップと、
    前記コンピュータが備える認定部が、前記受け付けられた形態素列から前記第1もしくは第2の個体名記憶部に現在記憶されている形態素またはその列を認定し、また、前記受け付けられた形態素列から前記あらかじめ記憶されたルールにより個体名を表す形態素またはその列を認定する認定ステップと、
    前記コンピュータが備える更新部が、前記第2の個体名記憶部を更新して、前記認定された個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶させる更新ステップと、
    前記コンピュータが備える再認定制御部が、前記更新ステップにおける前記第2の個体名記憶部の更新がされなくなるまで、前記認定ステップにて、前記受け付けられた形態素列から個体名を表す形態素またはその列を再度認定させる再認定制御ステップと、
    前記コンピュータが備える出力部が、前記認定された個体名を表す形態素またはその列を、抽出した個体名として出力する出力ステップと、
    前記コンピュータが備える消去部が、特定条件が満たされた場合、前記第2の個体名記憶部から当該一時的に記憶された個体名を表す形態素またはその列を消去する消去ステップとを備え、
    当該一時的に記憶された個体名を表す形態素またはその列が前記第2の個体名記憶部に記憶されて以降に、前記あらかじめ記憶されたルールによる認定において使用されなかった期間が所定の期間を超えた場合、当該特定条件が満たされる
    ことを特徴とする個体名の抽出方法。
  7. 前記認定ステップにて、前記あらかじめ記憶されたルールにより、個体名を表す第1の形態素またはその列と、個体名を表す第2の形態素またはその列と、にはさまれた形態素またはその列を、個体名を表す形態素またはその列として認定する
    ことを特徴とする請求項5または6に記載の抽出方法。
  8. 前記認定ステップにて、前記あらかじめ記憶されたルールにより、あらかじめ定めた形態素またはその列に連接する形態素またはその列を個体名を表す形態素またはその列として認定する
    ことを特徴とする請求項5または6に記載の抽出方法。
  9. コンピュータを、
    形態素列を入力として受け付ける入力受付部、
    個体名を表す形態素またはその列を、その属性と対応付けてあらかじめ記憶する第1の個体名記憶部、
    個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶する第2の個体名記憶部、
    形態素列から個体名を表す形態素またはその列を、その属性と対応付けて認定するルールをあらかじめ記憶するルール記憶部、
    前記受け付けられた形態素列から前記第1もしくは第2の個体名記憶部に現在記憶されている形態素またはその列を認定し、また、前記受け付けられた形態素列から前記あらかじめ記憶されたルールにより個体名を表す形態素またはその列を認定する認定部、
    前記第2の個体名記憶部を更新して、前記認定された個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶させる更新部、前記更新部による前記第2の個体名記憶部の更新がされなくなるまで、前記認定部に、前記受け付けられた形態素列から個体名を表す形態素またはその列を再度認定させる再認定制御部、および、前記認定された個体名を表す形態素またはその列を、抽出した個体名として出力する出力部、
    特定条件が満たされた場合、前記第2の個体名記憶部から当該一時的に記憶された個体名を表す形態素またはその列を消去する消去部
    として機能させ、
    当該一時的に記憶された個体名を表す形態素またはその列が前記第2の個体名記憶部に記憶されて以降に、処理された形態素の個数が所定の数を超えた場合、当該特定条件が満たされる
    ように機能させるためのプログラムを記録することを特徴とするコンピュータ読取可能な記録媒体。
  10. コンピュータを、
    形態素列を入力として受け付ける入力受付部、
    個体名を表す形態素またはその列を、その属性と対応付けてあらかじめ記憶する第1の個体名記憶部、
    個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶する第2の個体名記憶部、
    形態素列から個体名を表す形態素またはその列を、その属性と対応付けて認定するルールをあらかじめ記憶するルール記憶部、
    前記受け付けられた形態素列から前記第1もしくは第2の個体名記憶部に現在記憶されている形態素またはその列を認定し、また、前記受け付けられた形態素列から前記あらかじめ記憶されたルールにより個体名を表す形態素またはその列を認定する認定部、
    前記第2の個体名記憶部を更新して、前記認定された個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶させる更新部、前記更新部による前記第2の個体名記憶部の更新がされなくなるまで、前記認定部に、前記受け付けられた形態素列から個体名を表す形態素またはその列を再度認定させる再認定制御部、および、前記認定された個体名を表す形態素またはその列を、抽出した個体名として出力する出力部、
    特定条件が満たされた場合、前記第2の個体名記憶部から当該一時的に記憶された個体名を表す形態素またはその列を消去する消去部として機能させ、
    当該一時的に記憶された個体名を表す形態素またはその列が前記第2の個体名記憶部に記憶されて以降に、前記あらかじめ記憶されたルールによる認定において使用されなかった期間が所定の期間を超えた場合、当該特定条件が満たされる
    ように機能させるためのプログラムを記録することを特徴とするコンピュータ読取可能な記録媒体。
  11. 前記プログラムにより前記コンピュータが前記認定部として機能する場合、
    前記認定部は、前記あらかじめ記憶されたルールにより、個体名を表す第1の形態素またはその列と、個体名を表す第2の形態素またはその列と、にはさまれた形態素またはその列を、個体名を表す形態素またはその列として認定する
    ことを特徴とする請求項9または10に記載のコンピュータ読取可能な記録媒体。
  12. 前記プログラムにより前記コンピュータが前記認定部として機能する場合、
    前記認定部は、前記あらかじめ記憶されたルールにより、あらかじめ定めた形態素またはその列に連接する形態素またはその列を個体名を表す形態素またはその列として認定する
    ことを特徴とする請求項9または10に記載のコンピュータ読取可能な記録媒体。
JP30607599A 1999-10-27 1999-10-27 個体名の抽出装置、抽出方法、並びに記録媒体 Expired - Fee Related JP3734391B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30607599A JP3734391B2 (ja) 1999-10-27 1999-10-27 個体名の抽出装置、抽出方法、並びに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30607599A JP3734391B2 (ja) 1999-10-27 1999-10-27 個体名の抽出装置、抽出方法、並びに記録媒体

Publications (2)

Publication Number Publication Date
JP2001125911A JP2001125911A (ja) 2001-05-11
JP3734391B2 true JP3734391B2 (ja) 2006-01-11

Family

ID=17952748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30607599A Expired - Fee Related JP3734391B2 (ja) 1999-10-27 1999-10-27 個体名の抽出装置、抽出方法、並びに記録媒体

Country Status (1)

Country Link
JP (1) JP3734391B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3576060B2 (ja) * 2000-01-31 2004-10-13 株式会社ジャストシステム 個体名の認定装置、認定方法、並びに、記録媒体
JP2008077227A (ja) * 2006-09-19 2008-04-03 Access Co Ltd リンク生成装置、ブラウザプログラム、リンク生成システム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0652221A (ja) * 1992-05-08 1994-02-25 Fujitsu Ltd 固有名詞の自動抽出方式
JPH11272701A (ja) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置

Also Published As

Publication number Publication date
JP2001125911A (ja) 2001-05-11

Similar Documents

Publication Publication Date Title
EP2570974B1 (en) Automatic crowd sourcing for machine learning in information extraction
JP5241828B2 (ja) 辞書の単語及び熟語の判定
AU2007314123B2 (en) Email document parsing method and apparatus
JP5647508B2 (ja) ショートテキスト通信のトピックを識別するためのシステムおよび方法
US6438545B1 (en) Semantic user interface
US20050119875A1 (en) Identifying related names
JP5399450B2 (ja) 医療用語の曖昧性を判定するシステム、方法およびソフトウェア
US9454523B2 (en) Non-transitory computer-readable storage medium for storing acronym-management program, acronym-management device, non-transitory computer-readable storage medium for storing expanded-display program, and expanded-display device
CN110750975B (zh) 介绍文本生成方法及装置
CN104765849A (zh) 一种获取拷贝数据来源信息的方法和系统
CN112418875B (zh) 跨平台税务智能客服语料迁移方法及装置
US7509303B1 (en) Information retrieval system using attribute normalization
JP3734391B2 (ja) 個体名の抽出装置、抽出方法、並びに記録媒体
JP2002342142A (ja) 書き込み制御方法および構造化文書管理装置および構造化文書編集装置およびプログラム
JP2002091960A (ja) 語句入力システム、方法、プログラム
JP3672473B2 (ja) 個体名の抽出装置、抽出方法、並びに、記録媒体
JP2006023968A (ja) 固有表現抽出方法および装置並びにそれらに用いるプログラム
KR100452024B1 (ko) 자연어 질의 응답 검색 엔진 및 검색 방법
JP3576060B2 (ja) 個体名の認定装置、認定方法、並びに、記録媒体
JP2831837B2 (ja) 文書検索装置
US20220382753A1 (en) Narrowing synonym dictionary results using document attributes
CN109582959B (zh) 图书目录生成方法、装置、计算机设备和存储介质
JP2000315210A (ja) 文書管理システムおよび文書管理方法
JP2000339342A (ja) 文書検索方法および文書検索装置
JP2006323625A (ja) 名義解析装置、その方法及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040817

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041015

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050111

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050314

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050628

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051018

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111028

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111028

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111028

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111028

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111028

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141028

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees