JP3576060B2 - 個体名の認定装置、認定方法、並びに、記録媒体 - Google Patents
個体名の認定装置、認定方法、並びに、記録媒体 Download PDFInfo
- Publication number
- JP3576060B2 JP3576060B2 JP2000023157A JP2000023157A JP3576060B2 JP 3576060 B2 JP3576060 B2 JP 3576060B2 JP 2000023157 A JP2000023157 A JP 2000023157A JP 2000023157 A JP2000023157 A JP 2000023157A JP 3576060 B2 JP3576060 B2 JP 3576060B2
- Authority
- JP
- Japan
- Prior art keywords
- storage unit
- morpheme
- individual name
- code
- condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、入力された形態素列から個体名を表す形態素またはその列(以下「形態素(列)」という。)を認定するのに好適な認定装置、認定方法、および、記録媒体に関する。
【0002】
【従来の技術】
従来から、コンピュータ、ワードプロセッサ、データベースシステムなどで、文献から必要な情報を得る検索システムが使われている。特に、近年のインターネット技術の発展にともない、さまざまな情報源から必要な情報を得るためのインフラストラクチャが整いつつある。
【0003】
また、コンピュータなどに文章の内容を理解させ、その内容を要約させたり、適宜選択させたりするようなシステムについても提案がされている。
【0004】
このようなシステムで、たとえば日本語の文献を処理の対象とする場合には、以下の手法が用いられていた。
【0005】
第1は、文章に処理したい単語と同じ文字列が出現した場合に、これを検索結果に含めたり、同じ綴りの文字列の出現頻度により、内容の要約を行う手法である。この手法は、字面だけで検索や要約を行うもので、インターネット検索エンジンなどでよく用いられている。
【0006】
第2は、まず、日本語の文章を各単語(「形態素」ともいう)に切り分ける形態素解析を行い、形態素の綴りとその品詞との情報の対の列を出力し、出力された情報の対の列に基づいて処理を行う手法である。
【0007】
【発明が解決しようとする課題】
しかしながら、字面だけで文献の処理を行う手法では、たとえば検索の際に、偶然に含まれた同じ綴りの文字列を含む文献も検索結果に含まれてしまい、不必要な情報に所望の情報が埋もれてしまうという問題が生じるおそれがある。
【0008】
一方、検索対象として人名、地域名、国名、社名、や、日時などの個体名を使う場合には、形態素解析で出力される情報だけではたとえば人名と地域名の区別がつかないため、上記と同様の問題が生じるおそれがある。また、WWW(World Wide Web)などから入手できる情報には、新しい商品名などの未知語が多いため、これらに対応する必要もある。
【0009】
したがって、形態素解析によって得られた形態素から情報の検索や概念の要約などに用いることができる個体名を認定する手法が望まれている。
【0010】
特に、この際に、将来の拡張のため、個体名の認定に用いるルールの記述やルールで参照される個体名の種類の判別手法を動的に追加できることが望ましい。
【0011】
本発明の目的は、入力された形態素列から所望の属性を有する個体名を表す形態素(列)を認定することにある。
【0012】
【課題を解決するための手段】
上記目的を達成するため、本発明の第1の観点に係る個体名の認定装置は、入力受付部と、ルール記憶部と、コード記憶部と、コードロード部と、認定部と、を備えるように構成する。
【0013】
ここで、入力受付部は、形態素列を入力として受け付ける。
【0014】
一方、ルール記憶部は、形態素が満たすべき条件の種類を表す条件タイプおよび条件値を参照して、形態素列から個体名を表す形態素(列)を認定するルールを記憶する。
【0015】
さらに、コード記憶部は、前記ルール記憶部に記憶されたルールが参照する条件タイプおよび条件値と、当該条件タイプおよび条件値により表される条件を形態素が満たすか否かを判定するコード断片と、を対応付けて記憶する。
【0016】
そして、コードロード部は、前記コード記憶部に記憶されたコード断片を動的にロードする。
【0017】
一方、認定部は、前記ルール記憶部に記憶されたルールが参照する条件タイプおよび条件値により表される条件を形態素が満たすか否かを、前記コードロード部によりロードされたコード断片を実行することにより判定して、前記入力受付部により受け付けられた形態素列から個体名を表す形態素(列)を認定する。
【0018】
本認定装置では、形態素列から個体名を表す形態素(列)を認定するためのルールにて参照される形態素が満たすべき条件を表す条件タイプおよび条件値に応じて、当該条件を満たすか否かを判断するコード断片を動的にロードして実行する。したがって、新たな条件タイプおよび条件値とその条件判断に用いるコード断片とを容易に追加等することができる。
【0019】
なお、コード断片には、実行可能プログラムのコードのほか、動的リンクライブラリや共有ライブラリに含まれる関数や手続のコード、実行時にコンパイル可能なソースコードなどが含まれる。
【0020】
また、本発明の認定装置は、識別名記憶部をさらに備えるように構成することができる。
【0021】
ここで、識別名記憶部は、前記ルール記憶部により参照される条件タイプおよび条件値とコード断片識別名とを対応付けて記憶する。
【0022】
一方、前記コード記憶部は、当該コード断片を、前記識別名記憶部に記憶されるコード断片識別名に対応付けて記憶する。
【0023】
さらに、前記コードロード部は、前記識別名記憶部に記憶されるコード断片識別名に対応付けられて前記コード記憶部に記憶されたコード断片をロードする。
【0024】
本発明の認定装置は、コード断片をこれに対応付けられたコード断片識別名にて識別することができる。コード断片識別名は、当該コード断片が含まれるライブラリファイル名や、当該コード断片を表す関数名・手続名により構成される。
【0025】
また、本発明の認定装置において、前記コードロード部は、前記認定部による認定が開始される前に、あらかじめ、前記識別名記憶部に記憶されたコード断片識別名に対応付けられたコード断片を動的にロードするように構成することができる。
【0026】
本発明の認定装置では、あらかじめコード断片をロードすることにより、個体名の認定を開始してから終了するまでに要する時間を短くすることができる。
【0027】
また、本発明の認定装置において、前記コードロード部は、前記認定部による認定が開始された後、かつ、前記識別名記憶部に記憶されたコード断片識別名に対応付けられたコード断片が前記認定部により初めて実行される前に、当該コード断片を動的にロードするように構成することができる。
【0028】
本発明の認定装置では、あらかじめ必要になるまでコード断片のロードを遅延させることにより、個体名の認定を開始するまでに要する起動時間を短くすることができる。
【0029】
上記目的を達成するため、本発明の第2の観点に係る個体名の認定方法は、形態素が満たすべき条件の種類を表す条件タイプおよび条件値を参照して、形態素列から個体名を表す形態素(列)を認定するルールを記憶するルール記憶部と、前記ルール記憶部に記憶されたルールが参照する条件タイプおよび条件値と、当該条件タイプおよび条件値により表される条件を形態素が満たすか否かを判定するコード断片と、を対応付けて記憶するコード記憶部とを備えるコンピュータにて使用される個体名の認定方法であって、入力受付工程と、コードロード工程と、認定工程と、を備えるように構成する。
【0030】
ここで、入力受付工程では、形態素列を入力として受け付ける。
【0031】
一方、コードロード工程では、前記コード記憶部に記憶された当該コード断片を動的にロードする。
【0032】
さらに、認定工程では、前記ルール記憶部に記憶されたルールが参照する条件タイプおよび条件値により表される条件を形態素が満たすか否かを、前記コードロード工程にてロードされたコード断片を実行することにより判定して、前記入力受付工程にて受け付けられた形態素列から個体名を表す形態素(列)を認定する。
【0033】
また、本発明の認定方法において、前記コンピュータは、前記ルール記憶部により参照される条件タイプおよび条件値とコード断片識別名とを対応付けて記憶する識別名記憶部をさらに備え、前記コード記憶部は、当該コード断片を、前記識別名記憶部に記憶されるコード断片識別名に対応付けて記憶し、前記コードロード工程は、前記識別名記憶部に記憶されるコード断片識別名に対応付けられて前記コード記憶部に記憶されたコード断片をロードするように構成することができる。
【0034】
また、本発明の認定方法において、前記コードロード工程は、前記認定工程が開始される前に、あらかじめ、前記識別名記憶部に記憶されたコード断片識別名に対応付けられたコード断片を動的にロードするように構成することができる。
【0035】
また、本発明の認定方法において、前記コードロード工程は、前記認定工程が開始された後、かつ、前記識別名記憶部に記憶されたコード断片識別名に対応付けられたコード断片が前記認定工程にて初めて実行される前に、当該コード断片を動的にロードするように構成することができる。
【0036】
上記目的を達成するため、本発明の第3の観点に係るコンピュータ読取可能な記録媒体は、コンピュータを、入力受付部、ルール記憶部、コード記憶部、コードロード部、認定部として機能させるプログラムを記録するように構成する。
【0037】
ここで、入力受付部は、形態素列を入力として受け付ける。
【0038】
一方、ルール記憶部は、形態素が満たすべき条件の種類を表す条件タイプおよび条件値を参照して、形態素列から個体名を表す形態素(列)を認定するルールを記憶する。
【0039】
さらに、コード記憶部は、前記ルール記憶部に記憶されたルールが参照する条件タイプおよび条件値と、当該条件タイプおよび条件値により表される条件を形態素が満たすか否かを判定するコード断片と、を対応付けて記憶する。
【0040】
そして、コードロード部は、前記コード記憶部に記憶されたコード断片を動的にロードする。
【0041】
一方、認定部は、前記ルール記憶部に記憶されたルールが参照する条件タイプおよび条件値により表される条件を形態素が満たすか否かを、前記コードロード部によりロードされたコード断片を実行することにより判定して、前記入力受付部により受け付けられた形態素列から個体名を表す形態素(列)を認定する。
【0042】
また、本発明のコンピュータ読取可能な記録媒体において、前記プログラムは、前記コンピュータを、前記ルール記憶部により参照される条件タイプおよび条件値とコード断片識別名とを対応付けて記憶する識別名記憶部としてさらに機能させ、前記コード記憶部は、当該コード断片を、前記識別名記憶部に記憶されるコード断片識別名に対応付けて記憶し、前記コードロード部は、前記識別名記憶部に記憶されるコード断片識別名に対応付けられて前記コード記憶部に記憶されたコード断片をロードするように構成することができる。
【0043】
また、本発明のコンピュータ読取可能な記録媒体において、前記コードロード部は、前記認定部による認定が開始される前に、あらかじめ、前記識別名記憶部に記憶されたコード断片識別名に対応付けられたコード断片を動的にロードするように構成することができる。
【0044】
また、本発明のコンピュータ読取可能な記録媒体において、前記コードロード部は、前記認定部による認定が開始された後、かつ、前記識別名記憶部に記憶されたコード断片識別名に対応付けられたコード断片が前記認定部により初めて実行される前に、当該コード断片を動的にロードするように構成することができる。
【0045】
上記目的を達成するため、本発明の第4の観点に係るコンピュータ読取可能な記録媒体は、前記プログラムにより、前記各部として機能する前記コンピュータの前記ルール記憶部に記憶されるルールを記録するように構成する。
【0046】
本発明により、上記認定装置や、上記プログラムを記録した記録媒体とは独立して、上記認定装置や上記プログラムで用いられるルールを配布・販売することができる。
【0047】
上記目的を達成するため、本発明の第5の観点に係るコンピュータ読取可能な記録媒体は、前記プログラムにより、前記各部として機能する前記コンピュータの前記コード記憶部に記憶されるコード断片を記録するように構成する。
【0048】
本発明により、上記認定装置や、上記プログラムを記録した記録媒体とは独立して、上記認定装置や上記プログラムで用いられるコード断片を配布・販売することができる。
【0049】
上記目的を達成するため、本発明の第6の観点に係るコンピュータ読取可能な記録媒体は、前記プログラムにより、前記各部として機能する前記コンピュータの前記識別名記憶部に記憶される条件タイプおよび条件値と、コード断片識別名と、を記録するように構成する。
【0050】
本発明により、上記認定装置や、上記プログラムを記録した記録媒体とは独立して、上記認定装置や上記プログラムで用いられる条件タイプおよび条件値と、コード断片識別名と、を配布・販売することができる。
【0051】
【発明の実施の形態】
以下、添付図面を参照して、本発明の実施の形態について説明する。
【0052】
(認定装置として機能する情報処理装置の概要構成)
図1は、本発明の個体名の認定装置として機能する典型的な情報処理装置(汎用のコンピュータ、各種端末、携帯端末、携帯電話、ゲーム装置などの専用機器を含む)の概要構成を示す模式図である。以下、図1を参照して説明する。
【0053】
情報処理装置101は、CPU(Central Processing Unit;中央処理ユニット)102によって制御される。情報処理装置101に電源を投入すると、CPU102は、ROM(Read Only Memory;読出専用メモリ)103に記憶されたIPL(Initial Program Loader;初期プログラムローダ)を実行する。
【0054】
IPLは、ハードディスク104、FD(Floppy Disk;フロッピーディスク)ドライブ110に装着されたFD、CD−ROM(Compact Disk ROM)ドライブ111に装着されたCD−ROMなどの記録媒体に記憶されたOS(Operating System;オペレーティング・システム)プログラムを読み出して実行するプログラムである。
【0055】
OSを起動した後、CPU102は、キーボード105やマウス106などにより入力されたユーザの指示にしたがって、あるいは、ハードディスクなどにあらかじめ記述された設定ファイルの内容にしたがって、ハードディスクなどに記憶されたアプリケーションプログラムを実行する。
【0056】
なお、携帯端末などの小規模な情報処理装置では、IPL自体がOSやアプリケーションプログラムとしての機能を果たすような実施形態も採用することができる。
【0057】
CPU102は、プログラムの実行の際に、RAM(Random Access Memory)107を一時的な作業用記憶領域として用いる。このほか、一時的な作業用記憶領域として、CPU102内に設けられたレジスタやキャッシュ(図示せず)が使われる。
【0058】
プログラムの実行に伴い、ユーザに結果を報告したり、途中経過を見せるため、CPU102は、液晶ディスプレイやCRT(Cathode Ray Tube)などの表示装置108に当該情報を表示することができる。マウス106による指示操作では、マウス106を移動することにより、画面に表示されたカーソルが移動し、マウス106をクリックすることにより、カーソルが指すメニュー項目を選択することができる。
【0059】
情報処理装置101は、NIC(Network Interface Card)やモデムなどのインターフェース109を介してインターネットなどのコンピュータ通信網と通信を行うことができる。インターフェース109を介して受信した文書データを処理の対象としたり、処理した結果をインターフェース109を介して送信したり、インターフェース109を介して受信したプログラムを実行したり、などができる。
【0060】
(認定装置の概要構成)
図2は、上記情報処理装置101が本発明の個体名の認定装置として機能する場合の、各機能の概要構成を示す模式図である。
【0061】
個体名の認定装置151は、入力受付部152、第1の個体名記憶部153、第2の個体名記憶部154、ルール記憶部155、認定部156、更新部157、出力部158、コード断片記憶部159、および、コードロード部160を備える。また、図示しない要素として、再認定制御部、消去部を備えるように構成してもよい。
【0062】
入力受付部152は、形態素列を入力として受け付ける。ここで、処理の対象となる文書データやあらかじめ形態素解析を完了した結果の形態素列を記録したデータは、上記のようにインターフェース109を介して得ることができるほか、ハードディスク104、FD、CD−ROMに記憶されたファイルなどから得ることができる。また、ユーザがキーボード105やマウス106を操作して入力した文書データを形態素解析してから、処理の対象とすることもでき、形態素列は、RAM107に記憶される。
【0063】
したがって、インターフェース109、ハードディスク104、FDドライブ110、CD−ROMドライブ111、RAM107は、形態素列を入力として受け付ける入力受付部152として機能する。
【0064】
第1の個体名記憶部153と、第2の個体名記憶部154は、個体名を表す形態素(列)を、その属性と対応付けて記憶するが、前者はあらかじめ記憶し、後者は一時的に記憶する。また、ルール記憶部155は、形態素列から個体名を表す形態素(列)をその属性と対応付けて認定するルールをあらかじめ記憶する。
【0065】
したがって、ハードディスク104、FDドライブ110に装着されたFD、CD−ROMドライブに装着されたCD、ROM103、RAM107、および、インターフェース109を介して接続された他のコンピュータのこれら読み取り可能な情報記憶装置に相当するものは、第1の個体名記憶部153、および、ルール記憶部155として機能する。第1の個体名記憶部153、および、ルール記憶部155は、必ずしも書き込みができる必要はない。
【0066】
一方、ハードディスク104、FDドライブ110に装着されたFD、RAM107、および、インターフェース109を介して接続された他のコンピュータのこれら読み書き可能な情報記憶装置に相当するものは、第2の個体名記憶部154として機能する。
【0067】
認定部156は、第1の個体名記憶部153、第2の個体名記憶部154、ルール記憶部155に記憶された情報を用いて、入力を受け付けた形態素列から個体名を表す形態素(列)を認定する。本実施形態では、CPU102が、認定部156として機能する。
【0068】
更新部157は、新たに認定された個体名を表す形態素(列)を第2の個体名記憶部154に追加して記憶する。本実施形態では、CPU102が、更新部157として機能する。
【0069】
出力部158は、認定された個体名を表す形態素(列)を認定された個体名として出力する。なお、当該個体名を表す形態素(列)に対応付けられた属性も合わせて出力する形態を採用することができる。
【0070】
表示装置108、ハードディスク104、FDドライブ110に装着されたFD、RAM107は、および、インターフェース109を介して接続された他のコンピュータのこれら読み書き可能な情報記憶装置に相当するものを認定した個体名を表す形態素(列)を出力する先として選択することができる。したがって、これらは、出力部158として機能する。
【0071】
コード断片記憶部159は、ルール記憶部155にて参照される条件タイプおよび条件値に対応付けられたコード断片を動的リンクライブラリの形式で記憶する。このコード断片は、あらかじめ、もしくは、必要に応じて認定部156における認定の際に、コードロード部160によりRAM107にロードされて、形態素が条件を満たすか否かの判断に用いられる。
【0072】
したがって、ハードディスク104、FDドライブ110に装着されたFD、CD−ROMドライブに装着されたCD、ROM103、RAM107、および、インターフェース109を介して接続された他のコンピュータのこれら読み取り可能な情報記憶装置に相当するものは、コード断片記憶部159として機能する。コード断片記憶部159は、必ずしも書き込みができる必要はない。
【0073】
また、CPU102は、これらの情報記憶装置およびRAM107と共働して、コードロード部として機能する。
【0074】
また、再認定制御部(図示せず)は、新たに認定された個体名を表す形態素(列)がある限り、認定部156における認定の処理を繰り返す制御を行う。この場合、CPU102が、再認定制御部として機能する。
【0075】
また、消去部(図示せず)は、特定条件が満たされると第2の個体名記憶部154に記憶された個体名の形態素(列)を消去する。この場合、CPU102が消去部として機能する。
【0076】
このほか、ハードディスク104、FDドライブ110に装着されたFD、CD−ROMドライブに装着されたCD、ROM103、RAM107、および、インターフェース109を介して接続された他のコンピュータのこれら読み取り可能な情報記憶装置に相当するものは、CPU102で実行されるプログラムや、第1の個体名記憶部153、第2の個体名記憶部154、ルール記憶部155、コード断片記憶部159に記憶される情報を記録することにより、本発明の記録媒体として機能する。
【0077】
上述のように、図1に示す情報処理装置101は、図2に示す本発明の個体名の認定装置として機能させるための典型的な実施態様である。
【0078】
たとえば、インターネット内の文献を自動的に取得して個体名を認定して個体名の文献データベースを作成するロボットサーバにて、本発明の個体名の認定方法を実施させ、当該ロボットサーバを本発明の個体名の認定装置として機能させることができる。この場合、表示装置108、FDドライブ110、キーボード105、マウス106等は不要である一方、インターフェース109は必須である。
【0079】
また、携帯端末では、外部記憶装置として、不揮発性半導体メモリ(フラッシュメモリカード)やバッテリバックアップがされたRAMを使用することができる。この場合、必ずしもハードディスク104、FDドライブ110、CD−ROMドライブ111等は必要ない。
【0080】
(処理手順)
以下、本発明の個体名の認定装置の機能を実現するために上記の情報処理装置にて実行される処理、すなわち、本発明の個体名の認定方法の概要について説明する。図3は、当該処理の流れを示すフローチャートである。
【0081】
まず、入力受付部152が入力される形態素列を受け付ける(ステップS201)。形態素列の受け付けは、上記のように、ハードディスク104などの記録媒体から行ってもよいし、キーボード105などの入力装置から行ってもよい。また、RAM107内の所定の領域に形態素列のデータを記憶させ、このデータを記憶した領域のアドレスをパラメータとする関数呼び出しやシステムコールの形式で本ステップS201が開始される実施形態を採用することもできる。
【0082】
次に、認定部156が、入力形態素列から、第1の個体名記憶部153、および、第2の個体名記憶部154に記憶された形態素(列)を認定する(ステップS202)。本ステップS202で利用される個体名の詳細については後述する。
【0083】
さらに、認定部156は、入力形態素列から、特徴語、周辺に配置された(特に隣接する)形態素、認定された個体名などの情報を利用して、ルール記憶部155に記憶されたルールを適用して、未登録の個体名の形態素(列)を認定する(ステップS203)。認定ルールの詳細については後述する。
【0084】
ついで、認定された個体名を表す形態素(列)のうち、第2の個体名記憶部154に記憶されていないもの、すなわち、新規に認定された個体名の形態素(列)があるか否かを判断する(ステップS204)。
【0085】
新規に認定された個体名の形態素がある場合(ステップS204;Yes)、更新部157は、第2の個体名記憶部154に追加記憶させて更新し(ステップS206)、ステップS202に戻る。これにより、新たに認定された個体名の情報を用いて再度ルールを適用することができる。なお、ステップS202に戻る処理の制御を担当するのが、再認定制御部である。
【0086】
一方、新規に認定された個体名の形態素(列)がない場合(ステップS204;No)、本発明の手法により認定できる個体名はすべて認定されたことになるため、認定された個体名を表す形態素(列)を出力部158より認定された個体名として出力し(ステップS205)、本処理を終了する。出力の詳細については後述する。
【0087】
(個体名の種類)
本発明の個体名の認定装置、および、認定方法では、あらかじめ形態素解析を実行することにより出力された形態素列から、個体名を表す形態素(列)を認定する。以下では、この個体名として採用される形態素の種類の実施例について説明する。
【0088】
本実施例では、個体名の形態素(列)に対応付けて、以下の4種類の属性を認定する。
・固有名詞
・時間
・数量
・インデックス
【0089】
属性「固有名詞」は、さらに、商品名、組織名、地名(地域名、自然物名、施設名)、人物名に分類される。
【0090】
属性「時間」は、さらに、経済時間、暦時間(曜日時間を含む)、非暦時間、特殊接辞に分類される。
【0091】
属性「数量」は、さらに、金額、比率、序数詞に分類される。
【0092】
属性「インデックス」は、さらに、URL(Universal Resource Locater)、電子メールアドレス、電話番号・ファクシミリ番号に分類される。これらは、英数字や記号から構成される文字列であるが、個人や企業を特定する、という点で、人物名や組織名に準じて考えることができる。
【0093】
このように、本発明で取り扱う個体名の形態素(列)の属性は階層的に構成されている。属性の階層は、適宜変更して構成することができる。
【0094】
本発明では、処理対象とする形態素列から、これらの属性を付された個体名の形態素(列)を分類して認定し、認定結果を認定された個体名として出力する。
【0095】
具体例をあげて説明する。以下適宜、記号「/」を用いて形態素を区切るものとする。「私は、(株)山田商会田中専務です。」は、「私/は/、/(株)/山田/商会/田中/専務/です/。」のように形態素列に解析できる。
【0096】
これらの形態素それぞれには、上記の属性を割り当てることができるものがある。たとえば、「田中」には「姓」という属性を、「専務」には「役職名」という属性を、それぞれ割り当てることができる。このように、形態素そのものに割り当てられる属性を「役割素性」という。
【0097】
一方、「山田/商会」「(株)/山田/商会」などのような形態素列にも属性を割り当てることができる。これらには「組織名」という属性を割り当てることができる。同様に、「田中/専務」には「人物名」という属性を割り当てることができる。
【0098】
「(株)/山田/商会/田中/専務」は、本例において、個体名として認定できる最大限の形態素列であり、これには「人物名」という属性を割り当てることができる。このように、個体名として認定できる最大限の形態素列に割り当てられた属性を「カテゴリ」という。
【0099】
第1の個体名記憶部153には、あらかじめ、これらの個体名として選定された形態素(列)と、その個体名の属性を対応付けて記憶する。
【0100】
上述の例では単純に属性を割り当てたが、たとえば固有名詞の「山田」といっても、その属性として人物名、組織名(会社名)、地域名など、ふさわしい属性はさまざまである。一度文章の前方で「山田博物館」と記載された場合には、文章の後方で単に「山田」と書くこともあり、この場合は、施設名を表すことになる。
【0101】
したがって、第1の個体名記憶部153には、個体名を表す形態素(列)にそれがとりうる属性を複数種類対応付けて記憶する場合がある。たとえば、「山田」に対して「姓」「組織名」「会社名」「地域名」などを記憶することになる。
【0102】
また、時間、数量、インデックスは、形態素を表す文字列の並びのパターンで判別することができるため、このパターンをたとえば正規表現(Regular Expression)で表して第1の個体名記憶部153やルール記憶部155に記憶することができる。
【0103】
図4には、このような第1の個体名記憶部153に記憶される個体名を表す形態素(列)と、その属性やカテゴリの様子を示す。
【0104】
図4に示す例では、個体名として認定可能な形態素列として「パジェロ・ミニデューク」「山本食品」「田中住宅北陸」「祖谷渓」「焼山寺」「平将門」が記憶されている。たとえば、「パジェロ・ミニデューク」の属性(カテゴリ)は「商品」であり、これらを形態素に分けた「パジェロ」「・」「ミニ」「デューク」の属性(役割素性)は、それぞれ、「商品名本体」「記号」「商品名本体」「シリーズ名」である。
【0105】
このように、第1の個体名記憶部153には、あらかじめ定めた個体名を表す形態素(列)が記憶される。なお、認定ルールにより個体名として認定された未知語を第2の個体名記憶部154に、同様のフォーマットで、記憶することができる。
【0106】
(認定ルール)
第1の個体名記憶部153に記憶された形態素(列)を用いて、入力として受け付けた形態素列から個体名を認定することができるが、それだけでは不十分な場合がある。
【0107】
上述のように、商品名などの固有名詞では造語や新語などが用いられることが多いため、第1の個体名記憶部153に記憶されていない未知語が多い。特に、WWWから入手できる場合には、これが顕著である。このような場合であっても未登録の個体名を認定できるようにしたい。
【0108】
以下に説明する認定ルールにより、これらに対応する。これらの認定ルールでは、以下のような情報を用いる。
・形態素解析結果が持つ属性。品詞、字種、字面など。
・既に認定された個体名の形態素(列)が持つ属性。カテゴリ、役割素性など。
認定された個体名の形態素(列)は、第2の個体名記憶部154に記憶されている。
【0109】
なお、認定ルールや個体名の属性、これらの連結関係に重みをつけて、個体名の属性が複数認定された場合に、これらの重みから得点を計算し、いずれが最も尤もらしいかを推定することにより、文献検索や要約の精度を高めることができる。
【0110】
(特徴語による認定ルール)
まず、特徴語や共起語を用いた認定ルールの例について説明する。特徴語としては、接頭語や接尾語などが考えられる。たとえば「部長」「(株)」である。形態素列として「山田/一郎/部長」が入力された場合、「部長」という特徴語から、形態素列「山田/一郎」が人名を表すことがわかる。
【0111】
そこで、第2の個体名記憶部154に「山田」「一郎」「山田/一郎」の各形態素(列)を、人名として更新登録する。後述するように、個体名の認定には、第1の個体名記憶部153と、第2の個体名記憶部154と、を両方とも用いるので、文章中に「山田/一郎/部長」が現れた後に「山田」が単独で現れても、この「山田」は人名を表す、と推定できるのである。
【0112】
同様に「(株)/ジャスト」や「システム/(株)」のような形態素列が入力された場合には、「ジャスト」や「システム」が第1の個体名記憶部153に記憶されていない未登録の固有名詞であっても、特徴語「(株)」から、会社名を表すことが判明する。
【0113】
同様に、「12/月/28/日」のような形態素列が入力された場合には、「12」は月を表し、「28」は日を表す個体名であることがわかる。
【0114】
なお、特徴語は、「山田/一郎/部長」「(株)/ジャスト」のように、個体名を表す形態素(列)の中に含まれ、これを含む形態素(列)全体にカテゴリを割り当てることができる。
【0115】
一方、共起語とは、特徴語と同様の機能を有するが、個体名を表す形態素(列)の中には含まれないものをいう。たとえば、「アルト/を/発売」という形態素列が入力された場合、「発売」という共起語から、「アルト」が個体名を表す形態素(列)でありカテゴリ「商品名」が付与される。「発売」は、当該個体名を表す形態素(列)には含まれない。
【0116】
このような特徴語、共起語の情報は、ルール記憶部155に記憶される。図5は、ルール記憶部155に記憶される特徴語、共起語の様子を示す模式図である。
【0117】
本図に示す表のうち、ルール記憶部155に実際に記憶されるのは、「テーブル分類」欄と「登録語」欄である。
【0118】
「テーブル分類」は、同じような特徴を有する特徴語、共起語を識別するための識別子であり、「登録語」は、当該特徴を有する特徴語、共起語である。
【0119】
たとえば、分類「T22」に属する「産業」「興業」「建設」はいずれも「後接特徴語」で、これらの特徴語を含む個体名の形態素(列)の属性(カテゴリ)は「組織名」である。
【0120】
一方、分類「T15」に属する「発売」「販売」「開発」「発表」は、いずれも「後接用言」で、これらの特徴語の前に配置された形態素(列)の属性(カテゴリ)は「商品名」である。
【0121】
(動的な条件タイプおよび条件値の設定)
上記のように、図5に示す特徴語、共起語は、条件タイプの一例であり、字面に関するものである。これらは、形態素が満たすべき条件値によって各種のテーブル分類に分類されている。すなわち、「形態素が満たすべき字面の条件値」の判定を、あらかじめ用意された「テーブル」により行っている。
【0122】
図6は、「形態素が満たすべき条件」の判定を、動的リンクライブラリの関数呼び出しにより行うために必要な情報であって、ルール記憶部155に記憶される条件タイプおよび条件値と、ライブラリ名と関数名(コード断片識別名)の表を示す説明図である。
【0123】
図5に示す特徴語、共起語と同様に、各条件値毎にライブラリ名と関数名とが割り当てられている。図5に示す特徴語、共起語の場合は、登録語に該当するか否かにより形態素が条件を満たすか否かを判断していたが、図6に示す動的リンクライブラリを利用する手法では、当該ライブラリの関数呼び出しの結果により、形態素が条件を満たすか否かを判断する。
【0124】
関数に対しては、着目中の形態素引数として渡して呼び出すと、返り値が得られる。この返り値が、条件値に等しいか否かをもって、判断を行う。
【0125】
図6に示す表中からは、たとえば、テーブル分類(条件タイプ)の条件値T81に該当する形態素か否かは、動的リンクライブラリtokuchogo.dll内のmatchfun1を呼び出すことによって判断されることがわかる。
【0126】
たとえば、単なる字面だけの分類ではなく、「英単語の1文字目が大文字か小文字か」という条件を形態素が満たすか否かという判断を追加することができる。
【0127】
このように新規な条件タイプは、本システムのカスタマイズ時に、既存のシステム本体には手を加えずに後付けされる。たとえば、先頭文字が大文字であると判断したい場合は、以下のようにする。
【0128】
(1)ルールの条件部には、条件タイプLに対してCapitalを条件値とする。
【0129】
(2)図6に示す表に、条件タイプL、値Capitalに対しては、動的リンクライブラリLetter.dll内のライブラリ関数CheckCapを追加して記述しておく。図6中、条件タイプT、P、C、E、Rが既存のものであり、Lがここで追加記述したものである。
(3)判断が必要になる実行時には、ルール条件部(1)に出会ったら(2)で記述した関数を呼び出すことにより、判定を行う。
【0130】
この判断に基づいて、後述するような認定ルールを適用することができる。
【0131】
なお、動的リンクライブラリがRAM107にロードされるタイミングは、認定装置151が実現される情報処理装置のオペレーティング・システムやプログラムの構成によって任意に変更することができる。たとえば、認定装置151を実現するプログラムが起動すると認定を開始する前に参照されている動的リンクライブラリをすべてロードしてもよいし、必要に応じてロードするような実施形態をとることもできる。
【0132】
また、関数名はいずれの条件タイプでも同じものとし、当該関数を含む動的リンクライブラリを複数用意して、コード断片識別名をライブラリ名だけから構成することもでき、本実施形態も本発明の範囲に含まれる。
【0133】
(並列する名詞句の認定ルール)
並列する名詞句により未登録の形態素(列)を個体名であると推定して認定するルールが考えられる。
【0134】
たとえば、「東京/、/ンジャメナ/、/パリ」のような形態素列が入力され、「東京」および「パリ」が地域名を表す個体名であると判定された場合、「ンジャメナ」が第1の個体名記憶部153に記憶されていない未登録語であっても、地域名を表す個体名であると推測することができる。
【0135】
「ンジャメナ」がカタカナのみの綴りからなることから、これが未登録語であっても、形態素解析で「ンジャメナ」が名詞相当語であることがわかるが、それ以上の情報は得られない。名詞句の並列を用いたルールによって、これが地域名であるらしいと推定できるのである。
【0136】
(格パターン認定ルール)
同じ文の中での、体言と用言の共起関係を用いて個体名を推定して認定するルールが考えられる。
【0137】
たとえば、「FULLBAND/を/10/月/に/ジャスト/が/発売/し/た」という文で、「FULLBAND」が未登録語である場合、形態素解析では、「FULLBAND」が名詞相当語句であることまでしかわからない。
【0138】
本ルールでは、同じ文の中にある「発売」の目的格が「FULLBAND」になっている、という共起関係を利用し、「FULLBAND」は商品名であると推定して個体名として認定する。
【0139】
図7に、共起関係認定ルールを含む認定ルールがルール記憶部155に記憶される様子を示す。図7に示す認定ルールは、図5、図6に示す特徴語、共起語、動的リンクライブラリの情報を参照して定義されている。
【0140】
たとえば、「新製品」は「T11」に、開きかぎかっこは「T12」に、閉じかぎかっこは「T13」に、「を」は「T14」に、「発売」は「T15」に、それぞれ含まれるため、これらの共起関係より、形態素列『新製品/「/ジン/」』(明確化のため二重かぎかっこを使って形態素列を示した)に属性(カテゴリ)「商品名」が付されることになる。
【0141】
(文間照応関係認定ルール)
このほか、一度認定された個体名を表す形態素(列)が、その属性とともに第2の個体名記憶部154に記憶されていることにより、異なる文の間でも照応関係を用いて個体名を推定して認定することができる。個体名を表す形態素(列)が新たに発見され、新たに発見した個体名を表す形態素(列)が第2の個体名記憶部154に追加更新されている間は、上記のルールを繰り返して適用することにより、実現できる。
【0142】
たとえば文章の前方に「鈴木/さん/の/開発/し/た」のような文があった場合、「鈴木」が役割素性「人物名」の個体名として第2の個体名記憶部154に記憶される。これにより、文章の後方に「『/商品/の/開発/は/大変/で/し/た/』/(/鈴木/)」のような文があっても、この文の「鈴木」は役割素性「人物名」の個体名として推定して認定することができる。
【0143】
このほか、URL、電子メールアドレス、電話番号、ファクシミリ番号などは、これらに対応する正規表現にマッチする部分を個体名として認定するルールを設定すれば、文字の種類(パターン)による認定ルールを設定して認定することも可能である。
【0144】
なお、「徳島」を第1の個体名記憶部153に記憶し、地名の後に「県」が現われたら、それは「県名」である旨のルールをルール記憶部155に記憶しておけば、「徳島県」を第1の個体名記憶部153に記憶する必要はない。このように認定ルールを用いることで、記憶領域を節約し、用語の管理を容易にすることもできる。
【0145】
これらのルールは適宜変更・追加・削除することが可能であり、変更・追加・削除した実施形態も本発明の範囲に含まれる。
【0146】
(第2の個体名記憶部)
上述したように、一度認定された個体名を表す形態素(列)は、その属性(品詞、字面、字種、カテゴリ、役割素性等)とともに、第2の個体名記憶部154に一時的に記憶される。この際の記憶領域のフォーマットは、第1の個体名記憶部153と同様のものを採用することができる。
【0147】
上述した認定ルールは、近傍に配置された形態素(列)によって個体名を認定するものである。したがって、認定ルールだけでは、認定が不十分になる場合がある。たとえば、「Fullbandを発売した。Fullbandはすばらしい。」のような文章では、「Fullband」が未登録であっても、第1の個体名記憶部153に記憶された特徴語・共起語「発売」と、ルール記憶部155に記憶された認定ルールから「Fullband」が商品名を表す個体名であることがわかる。
【0148】
第2文が単独で表れた場合には、「Fullband」が商品名であると推測することは難しいが、本発明においては、第1文の認定結果が第2の個体名記憶部154に記憶される。したがって、第2文においても、「Fullband」が商品名を表す個体名だとわかる。
【0149】
なお、同じ字面が出現した場合に無条件で再利用するのではなく、形態素解析の結果や、形態素(列)が持つ属性などもチェックする。たとえば、「月まで旅行したい。今日は11月1日だ。」のような文章では、最初の「月」は「旅行」を共起語とするため地名を表す個体名と認定してこれを記憶するが、次の「月」は、形態素解析の結果、時間の接尾語という品詞が付与されるため、地名とは認定しない。
【0150】
さて、第2の個体名記憶部154は、現在処理している文章特有の個体名の情報を含むため、たとえば、文献の種類が変わるたびに消去する必要がある。
【0151】
消去のタイミングについては、以下のような手法が考えられる。
【0152】
・異なる文献に由来する形態素列の処理を開始した場合。
【0153】
・当該個体名を表す形態素(列)が第2の個体名記憶部154に記憶されて以降に処理された形態素の数が所定の数を超えた場合。
【0154】
・当該個体名を表す形態素(列)が第2の個体名記憶部154に記憶されて以降に認定ルールにより使用されなかった期間が所定の期間(所定の形態素の処理数等)を超えた場合。
【0155】
・ユーザによる指示があった場合。
【0156】
このように、本発明では、第2の個体名記憶部154に認定した個体名を一時的に記憶することにより、ある認定ルールを用いて一つの文に対して認定された個体名の情報を、他の文においても利用することができる。その結果、当該認定ルールを直接適用することができないような文においても、その個体名を認定することができるようになる。
【0157】
(出力形式)
図8は、本発明の個体名の認定装置による個体名の認定結果を出力した表示例を示す説明図である。本図に示される文章のうち、斜体で下線を付されて強調表示されている部分が個体名として認定された形態素(列)である。「韓国」「’99.9.10」「十頁」などの形態素(列)が認定されている。
【0158】
本図に示す出力例では、出力部158は、認定された個体名の形態素(列)を画面に出力しているが、さらに情報を付加して、ほかのアプリケーション等に認定結果を渡すことができる。
【0159】
たとえば、認定された個体名の形態素(列)と、これに対応する属性(カテゴリや役割素性等を含む。)と、をあわせて出力することができる。形態素(列)の属性は、第1の個体名記憶部153、第2の個体名記憶部154、および、ルール記憶部155に記憶された情報から得ることができる。
【0160】
この実施形態により、以下のような出力を行うことができる。
「1/月/26/日」に対して「1」に役割素性「月数」を、「26」に役割素性「日数」を、「1月26日」全体にはカテゴリ「日付」を、それぞれ対応付けて出力する。
「山田/部長」に対して「山田」に役割素性「姓」を、「山田部長」全体にはカテゴリ「人名」を、それぞれ対応付けて出力する。
「株式会社/田中/商会/山田/社長」に対して、「田中」に役割素性「会社名」を、「商会」に役割素性「会社名」を、「田中商会」に属性「会社名」を、「株式会社田中商会」に属性「会社名」を、「山田」に役割素性「人名;姓」を、「社長」に役割素性「肩書き」を、「山田社長」に属性「人名」を、「株式会社田中商会山田社長」にカテゴリ「人名」を、それぞれ対応付けて出力する。
【0161】
このような属性の情報を合わせて出力することにより、「姓」と考えられる個体名のみを認定する等、属性によって文献を検索したり、機械要約の際に利用することができる。
【0162】
(第2の実施の形態)
上記実施例では、図6に示すように、条件タイプと条件値ごとに関数を1つ用意しているが、関数をまとめて実装することもできる。このようにすると、条件値の種類が多い場合であっても、管理しなければならない関数の数を減らすことができて便利である。
【0163】
図9は、本実施例での条件タイプ、動的リンクライブラリ名、関数名の定義と対応を記述する表の様子を示す説明図である。
【0164】
本実施形態では、条件値はとくにしない。たとえば、ルール中に条件タイプT(すなわち、条件値T81〜T94のいずれか)が出現したら、関数checktokuchoに対しては、以下の2つを引数として渡す。
・着目している形態素
・ルールに記述された条件値
【0165】
たとえば図5に示すルール中のT81の部分の解析を行う場合、すると関数checktokuchoは、着目している形態素の字面が含まれるか否かの真偽値を返す。
【0166】
本実施形態でも、上記の実施形態と同様の効果が得られるほか、ライブラリ関数の管理が容易になる、という効果が得られる。また、これらの実施形態は、相反するものではなく、1つのシステムの中で共存させることができ、状況に応じて適切な手法を選択したり、組み合わせたりすることができる。
【0167】
【発明の効果】
以上説明したように、本発明によれば、入力された形態素列から個体名を表す形態素(列)を認定するのに好適な認定装置、認定方法、および、記録媒体を提供することができる。
【図面の簡単な説明】
【図1】本発明の個体名の認定装置を実現する情報処理装置の概要構成を示す模式図である。
【図2】本発明の個体名の認定装置の各機能の概要構成を示す模式図である。
【図3】本発明の個体名の認定装置において実行される処理、すなわち、本発明の個体名の認定方法の処理の流れを示すフローチャートである。
【図4】本発明の第1の個体名記憶部に記憶される個体名を表す形態素(列)と、その属性の例を示す説明図である。
【図5】本発明の認定ルールで用いられる特徴語、共起語がルール記憶部に記憶される様子を示す説明図である。
【図6】本発明の認定ルールで用いられる条件タイプおよび条件値とコード断片識別名とがルール記憶部に記憶される様子を示す説明図である。
【図7】本発明のルール記憶部に記憶される共起関係認定ルールがルール記憶部に記憶される様子を示す説明図である。
【図8】本発明の個体名の認定装置、認定方法の出力結果を示す説明図である。
【図9】本発明の認定ルールで用いられる条件タイプとコード断片識別名とがルール記憶部に記憶される様子を示す説明図である。
【符号の説明】
101 情報処理装置
102 CPU
103 ROM
104 ハードディスク
105 キーボード
106 マウス
107 RAM
108 表示装置
109 インターフェース
110 FDドライブ
111 CD−ROMドライブ
151 個体名の認定装置
152 入力受付部
153 第1の個体名記憶部
154 第2の個体名記憶部
155 ルール記憶部
156 認定部
157 更新部
158 出力部
159 コード断片記憶部
160 コードロード部
Claims (17)
- 形態素またはその列の品詞、字種、字面、カテゴリ、役割素性、これが固有名詞であるか否か、時間を表すか否か、数量を表すか否か、インデックスを表すか否か、のうち、一つ以上の情報(以下「属性」という。)を用いて個体名を認定する個体名の認定装置であって、
複数の文を構成する形態素列を入力として受け付ける入力受付部と、
個体名を表す形態素またはその列を、その属性と対応付けてあらかじめ記憶する第1の個体名記憶部と、
個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶する第2の個体名記憶部と、
形態素の属性が満たすべき条件の種類を表す条件タイプおよび当該形態素の属性がとるべき値を表す条件値を参照して、形態素列から個体名を表す形態素またはその列を認定するルールを記憶するルール記憶部と、
当該個体名の認定装置に動的にロードさせ、実行させることによって、当該個体名の認定装置に、前記ルール記憶部に記憶されたルールが参照する条件タイプと、当該条件タイプおよび条件値により表される条件を形態素が満たすか否かを判定させるコード断片と、を対応付けて記憶するコード記憶部と、
前記コード記憶部に記憶されたコード断片を動的にロードするコードロード部と、
前記ルール記憶部に記憶されたルールが参照する条件タイプおよび条件値により表される条件を形態素が満たすか否かを、前記コードロード部によりロードされたコード断片を実行することにより、前記第1の個体名記憶部にあらかじめ記憶された形態素またはその列とその属性、および、前記第2の個体名記憶部にこれまでに一時的に記憶された形態素またはその列とその属性を参照して判定して、前記入力受付部により受け付けられた形態素列から個体名を表す形態素またはその列を認定する認定部と、
個体名を表す形態素またはその列の認定が新たにされる度に、前記第2の個体名記憶部を更新して、前記認定された個体名を表す形態素またはその列を、その属性と対応付けて一時的に追加して記憶させる更新部と、を備える
ことを特徴とする個体名の認定装置。 - 前記ルール記憶部により参照される条件タイプおよび条件値とコード断片識別名とを対応付けて記憶する識別名記憶部をさらに備え、
前記コード記憶部は、当該コード断片を、前記識別名記憶部に記憶されるコード断片識別名に対応付けて記憶し、
前記コードロード部は、前記識別名記憶部に記憶されるコード断片識別名に対応付けられて前記コード記憶部に記憶されたコード断片をロードする
ことを特徴とする請求項1に記載の個体名の認定装置。 - 前記コードロード部は、前記認定部による認定が開始される前に、あらかじめ、前記識別名記憶部に記憶されたコード断片識別名に対応付けられたコード断片を動的にロードする
ことを特徴とする請求項2に記載の個体名の認定装置。 - 前記コードロード部は、前記認定部による認定が開始された後、かつ、前記識別名記憶部に記憶されたコード断片識別名に対応付けられたコード断片が前記認定部により初めて実行される前に、当該コード断片を動的にロードする
ことを特徴とする請求項2に記載の個体名の認定装置。 - 形態素またはその列の品詞、字種、字面、カテゴリ、役割素性、これが固有名詞であるか否か、時間を表すか否か、数量を表すか否か、インデックスを表すか否か、のうち、一 つ以上の情報(以下「属性」という。)を用い、形態素の属性が満たすべき条件の種類を表す条件タイプおよび当該形態素の属性が満たすべき値を表す条件値を参照して、形態素列から個体名を表す形態素またはその列を認定するルールを記憶するルール記憶部と、個体名を表す形態素またはその列を、その属性と対応付けてあらかじめ記憶する第1の個体名記憶部と、個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶する第2の個体名記憶部と、コンピュータに動的にロードさせ、実行させることによって、当該コンピュータに前記ルール記憶部に記憶されたルールが参照する条件タイプおよび条件値と、当該条件タイプおよび条件値により表される条件を形態素が満たすか否かを判定させるコード断片と、を対応付けて記憶するコード記憶部とを備えるコンピュータにて使用される個体名の認定方法であって、
複数の文を構成する形態素列を入力として受け付ける入力受付工程と、
前記コード記憶部に記憶された当該コード断片を動的にロードするコードロード工程と、
前記ルール記憶部に記憶されたルールが参照する条件タイプおよび条件値により表される条件を形態素が満たすか否かを、前記コードロード工程にてロードされたコード断片を実行することにより、前記第1の個体名記憶部にあらかじめ記憶された形態素またはその列とその属性、および、前記第2の個体名記憶部にこれまでに一時的に記憶された形態素またはその列とその属性を参照して判定して、前記入力受付工程にて受け付けられた形態素列から個体名を表す形態素またはその列を認定する認定工程と、
個体名を表す形態素またはその列の認定が新たにされる度に、前記第2の個体名記憶部を更新して、前記認定された個体名を表す形態素またはその列を、その属性と対応付けて一時的に追加して記憶させる更新工程と、を備える
ことを特徴とする個体名の認定方法。 - 前記コンピュータは、前記ルール記憶部により参照される条件タイプおよび条件値とコード断片識別名とを対応付けて記憶する識別名記憶部をさらに備え、前記コード記憶部は、当該コード断片を、前記識別名記憶部に記憶されるコード断片識別名に対応付けて記憶し、
前記コードロード工程は、前記識別名記憶部に記憶されるコード断片識別名に対応付けられて前記コード記憶部に記憶されたコード断片をロードする
ことを特徴とする請求項5に記載の個体名の認定方法。 - 前記コードロード工程は、前記認定工程が開始される前に、あらかじめ、前記識別名記憶部に記憶されたコード断片識別名に対応付けられたコード断片を動的にロードする
ことを特徴とする請求項6に記載の個体名の認定方法。 - 前記コードロード工程は、前記認定工程が開始された後、かつ、前記識別名記憶部に記憶されたコード断片識別名に対応付けられたコード断片が前記認定工程にて初めて実行される前に、当該コード断片を動的にロードする
ことを特徴とする請求項6に記載の個体名の認定方法。 - コンピュータに、形態素またはその列の品詞、字種、字面、カテゴリ、役割素性、これが固有名詞であるか否か、時間を表すか否か、数量を表すか否か、インデックスを表すか否か、のうち、一つ以上の情報(以下「属性」という。)を用いる処理を行わせるプログラムであって、
当該プログラムは、当該コンピュータを、
複数の文を構成する形態素列を入力として受け付ける入力受付部、
個体名を表す形態素またはその列を、その属性と対応付けてあらかじめ記憶する第1の個体名記憶部、
個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶する第2の個体名記憶部、
形態素の属性が満たすべき条件の種類を表す条件タイプおよび当該形態素の属性が満たすべき値を表す条件値を参照して、形態素列から個体名を表す形態素またはその列を認定するルールを記憶するルール記憶部、
当該コンピュータに動的にロードさせ、実行させることによって、当該コンピュータに前記ルール記憶部に記憶されたルールが参照する条件タイプおよび条件値と、当該条件タイプおよび条件値により表される条件を形態素が満たすか否かを判定させるコード断片と、を対応付けて記憶するコード記憶部、
前記コード記憶部に記憶されたコード断片を動的にロードするコードロード部、および、
前記ルール記憶部に記憶されたルールが参照する条件タイプおよび条件値により表される条件を形態素が満たすか否かを、前記コードロード部によりロードされたコード断片を実行することにより、前記第1の個体名記憶部にあらかじめ記憶された形態素またはその列とその属性、および、前記第2の個体名記憶部にこれまでに一時的に記憶された形態素またはその列とその属性を参照して判定して、前記入力受付部により受け付けられた形態素列から個体名を表す形態素またはその列を認定する認定部、ならびに、
個体名を表す形態素またはその列の認定が新たにされる度に、前記第2の個体名記憶部を更新して、前記認定された個体名を表す形態素またはその列を、その属性と対応付けて一時的に追加して記憶させる更新部
として機能させるプログラムを記録することを特徴とするコンピュータ読取可能な記録媒体。 - 前記プログラムは、前記コンピュータを、前記ルール記憶部により参照される条件タイプおよび条件値とコード断片識別名とを対応付けて記憶する識別名記憶部としてさらに機能させ、
前記コード記憶部は、当該コード断片を、前記識別名記憶部に記憶されるコード断片識別名に対応付けて記憶し、
前記コードロード部は、前記識別名記憶部に記憶されるコード断片識別名に対応付けられて前記コード記憶部に記憶されたコード断片をロードする
ことを特徴とする請求項9に記載のコンピュータ読取可能な記録媒体。 - 前記コードロード部は、前記認定部による認定が開始される前に、あらかじめ、前記識別名記憶部に記憶されたコード断片識別名に対応付けられたコード断片を動的にロードする
ことを特徴とする請求項10に記載のコンピュータ読取可能な記録媒体。 - 前記コードロード部は、前記認定部による認定が開始された後、かつ、前記識別名記憶部に記憶されたコード断片識別名に対応付けられたコード断片が前記認定部により初めて実行される前に、当該コード断片を動的にロードする
ことを特徴とする請求項10に記載のコンピュータ読取可能な記録媒体。 - コンピュータに、形態素またはその列の品詞、字種、字面、カテゴリ、役割素性、これが固有名詞であるか否か、時間を表すか否か、数量を表すか否か、インデックスを表すか否か、のうち、一つ以上の情報(以下「属性」という。)を用いる処理を行わせるプログラムの実行により、
形態素列を入力として受け付ける入力受付部、
個体名を表す形態素またはその列を、その属性と対応付けてあらかじめ記憶する第1の個体名記憶部、
個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶する第2の個体名記憶部、
形態素の属性が満たすべき条件の種類を表す条件タイプおよび当該形態素の属性が満たすべき値を表す条件値を参照して、形態素列から個体名を表す形態素またはその列を認定するルールを記憶するルール記憶部、
コンピュータに動的にロードさせ、実行させることによって、当該コンピュータに前記ルール記憶部に記憶されたルールが参照する条件タイプおよび条件値と、当該条件タイプおよび条件値により表される条件を形態素が満たすか否かを判定させるコード断片と、を対応付けて記憶するコード記憶部、
前記コード記憶部に記憶されたコード断片を動的にロードするコードロード部、および、
前記ルール記憶部に記憶されたルールが参照する条件タイプおよび条件値により表される条件を形態素が満たすか否かを、前記コードロード部によりロードされたコード断片を実行することにより、前記第1もしくは第2の個体名記憶部に記憶された形態素またはその列と、その属性と、を参照して判定して、前記入力受付部により受け付けられた形態素列から個体名を表す形態素またはその列を認定する認定部、ならびに、
前記第2の個体名記憶部を更新して、前記認定された個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶させる更新部
として機能するコンピュータの前記ルール記憶部に記憶されるルールを記録する
ことを特徴とするコンピュータ読取可能な記録媒体。 - コンピュータに、形態素またはその列の品詞、字種、字面、カテゴリ、役割素性、これが固有名詞であるか否か、時間を表すか否か、数量を表すか否か、インデックスを表すか否か、のうち、一つ以上の情報(以下「属性」という。)を用いる処理を行わせるプログラムの実行により、
形態素列を入力として受け付ける入力受付部、
個体名を表す形態素またはその列を、その属性と対応付けてあらかじめ記憶する第1の個体名記憶部、
個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶する第2の個体名記憶部、
形態素の属性が満たすべき条件の種類を表す条件タイプおよび当該形態素の属性が満たすべき値を表す条件値を参照して、形態素列から個体名を表す形態素またはその列を認定するルールを記憶するルール記憶部、
コンピュータに動的にロードさせ、実行させることによって、当該コンピュータに前記ルール記憶部に記憶されたルールが参照する条件タイプおよび条件値と、当該条件タイプおよび条件値により表される条件を形態素が満たすか否かを判定させるコード断片と、を対応付けて記憶するコード記憶部、
前記コード記憶部に記憶されたコード断片を動的にロードするコードロード部、および、
前記ルール記憶部に記憶されたルールが参照する条件タイプおよび条件値により表される条件を形態素が満たすか否かを、前記コードロード部によりロードされたコード断片を実行することにより、前記第1もしくは第2の個体名記憶部に記憶された形態素またはその列と、その属性と、を参照して判定して、前記入力受付部により受け付けられた形態素列から個体名を表す形態素またはその列を認定する認定部、ならびに、
前記第2の個体名記憶部を更新して、前記認定された個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶させる更新部
として機能するコンピュータの前記コード記憶部に記憶されるコード断片を記録する
ことを特徴とするコンピュータ読取可能な記録媒体。 - コンピュータに、形態素またはその列の品詞、字種、字面、カテゴリ、役割素性、これが固有名詞であるか否か、時間を表すか否か、数量を表すか否か、インデックスを表すか否か、のうち、一つ以上の情報(以下「属性」という。)を用いる処理を行わせるプログラムの実行により、
形態素列を入力として受け付ける入力受付部、
個体名を表す形態素またはその列を、その属性と対応付けてあらかじめ記憶する第1の個体名記憶部、
個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶する第2の個体名記憶部、
形態素の属性が満たすべき条件の種類を表す条件タイプおよび当該形態素の属性が満たすべき値を表す条件値を参照して、形態素列から個体名を表す形態素またはその列を認定するルールを記憶するルール記憶部、
コンピュータに動的にロードさせ、実行させることによって、当該コンピュータに前記ルール記憶部に記憶されたルールが参照する条件タイプおよび条件値と、当該条件タイプおよび条件値により表される条件を形態素が満たすか否かを判定させるコード断片と、を対応付けて記憶するコード記憶部、
前記コード記憶部に記憶されたコード断片を動的にロードするコードロード部、
前記ルール記憶部に記憶されたルールが参照する条件タイプおよび条件値により表される条件を形態素が満たすか否かを、前記コードロード部によりロードされたコード断片を実行することにより、前記第1もしくは第2の個体名記憶部に記憶された形態素またはその列と、その属性と、を参照して判定して、前記入力受付部により受け付けられた形態素列から個体名を表す形態素またはその列を認定する認定部、および、
前記第2の個体名記憶部を更新して、前記認定された個体名を表す形態素またはその列を、その属性と対応付けて一時的に記憶させる更新部、ならびに、
前記ルール記憶部により参照される条件タイプおよび条件値とコード断片識別名とを対応付けて記憶する識別名記憶部
として機能するコンピュータであって、
前記コード記憶部は、当該コード断片を、前記識別名記憶部に記憶されるコード断片識別名に対応付けて記憶し、
前記コードロード部は、前記識別名記憶部に記憶されるコード断片識別名に対応付けられて前記コード記憶部に記憶されたコード断片をロードする
コンピュータの前記識別名記憶部に記憶される条件タイプおよび条件値と、コード断片識別名と、を記録する
ことを特徴とするコンピュータ読取可能な記録媒体。 - 請求項1に記載の個体名の認定装置であって、
前記更新部は、所定の条件が満たされる場合、前記第2の個体名記憶部を更新して、これに記憶される個体名を表す形態素またはその列とこれに対応付けられたその属性と、を消去する
ことを特徴とする認定装置。 - 請求項5に記載の個体名の認定方法であって、
前記更新工程では、所定の条件が満たされる場合、前記第2の個体名記憶部を更新して、これに記憶される個体名を表す形態素またはその列とこれに対応付けられたその属性と、を消去する
ことを特徴とする方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000023157A JP3576060B2 (ja) | 2000-01-31 | 2000-01-31 | 個体名の認定装置、認定方法、並びに、記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000023157A JP3576060B2 (ja) | 2000-01-31 | 2000-01-31 | 個体名の認定装置、認定方法、並びに、記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001216300A JP2001216300A (ja) | 2001-08-10 |
JP3576060B2 true JP3576060B2 (ja) | 2004-10-13 |
Family
ID=18549356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000023157A Expired - Fee Related JP3576060B2 (ja) | 2000-01-31 | 2000-01-31 | 個体名の認定装置、認定方法、並びに、記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3576060B2 (ja) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03263260A (ja) * | 1990-03-14 | 1991-11-22 | Matsushita Electric Ind Co Ltd | 日本語解析装置 |
JP3095509B2 (ja) * | 1992-02-10 | 2000-10-03 | 日本電信電話株式会社 | 日本文単語変換編集処理方式 |
JPH05233686A (ja) * | 1992-02-20 | 1993-09-10 | Nec Corp | 日本語処理装置 |
JPH0652221A (ja) * | 1992-05-08 | 1994-02-25 | Fujitsu Ltd | 固有名詞の自動抽出方式 |
JP3230606B2 (ja) * | 1992-06-30 | 2001-11-19 | 株式会社エヌ・ティ・ティ・データ | 固有名詞特定方法 |
JP3470930B2 (ja) * | 1995-07-26 | 2003-11-25 | 日本電信電話株式会社 | 自然語解析方法及び装置 |
JP3734391B2 (ja) * | 1999-10-27 | 2006-01-11 | 株式会社ジャストシステム | 個体名の抽出装置、抽出方法、並びに記録媒体 |
JP3672473B2 (ja) * | 2000-01-21 | 2005-07-20 | 株式会社ジャストシステム | 個体名の抽出装置、抽出方法、並びに、記録媒体 |
-
2000
- 2000-01-31 JP JP2000023157A patent/JP3576060B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001216300A (ja) | 2001-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7163355B2 (ja) | メッセージ中のタスクの識別 | |
US8117177B2 (en) | Apparatus and method for searching information based on character strings in documents | |
KR20100038378A (ko) | 지능적인 텍스트 주석을 위한 방법, 시스템 및 컴퓨터 프로그램 | |
JP5399450B2 (ja) | 医療用語の曖昧性を判定するシステム、方法およびソフトウェア | |
US20150066480A1 (en) | Non-transitory computer-readable storage medium for storing acronym-management program, acronym-management device, non-transitory computer-readable storage medium for storing expanded-display program, and expanded-display device | |
JP2002117019A (ja) | 意味的まとまりに基づいて文書を分割する装置および方法 | |
JP3372532B2 (ja) | 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体 | |
KR20060047998A (ko) | 문서에 문맥 정보를 삽입하는 방법 및 시스템 | |
JP2005025525A (ja) | 情報検索システム、情報検索方法及び情報検索プログラム | |
JP2020098596A (ja) | ウェブページから情報を抽出する方法、装置及び記憶媒体 | |
CN100456296C (zh) | 一种多媒体文件搜索引擎的排序方法 | |
JP6860472B2 (ja) | 会議の音声データから要約書を作成する方法 | |
Jaleniauskienė et al. | Insight into the latest computer and Internet terminology | |
JP3576060B2 (ja) | 個体名の認定装置、認定方法、並びに、記録媒体 | |
JP3734391B2 (ja) | 個体名の抽出装置、抽出方法、並びに記録媒体 | |
KR101589626B1 (ko) | 어휘의미패턴 분석방법에 기반하여 빅데이터로부터 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법 | |
JP7247593B2 (ja) | 生成装置、ソフトウェアロボットシステム、生成方法及び生成プログラム | |
JP3672473B2 (ja) | 個体名の抽出装置、抽出方法、並びに、記録媒体 | |
JP5184987B2 (ja) | 索引情報作成装置、索引情報作成方法及びプログラム | |
JP3851712B2 (ja) | 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2007299093A (ja) | 文書管理システム | |
JP5324500B2 (ja) | ファイル共有装置 | |
JPH10207875A (ja) | 表作成装置およびその方法 | |
JP2831837B2 (ja) | 文書検索装置 | |
JP2011118861A (ja) | 文書チェック装置、文書チェックプログラムおよび文書チェック方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040323 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040521 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040622 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040706 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070716 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100716 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100716 Year of fee payment: 6 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100716 Year of fee payment: 6 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100716 Year of fee payment: 6 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130716 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |