JP2001125911A - Device and method for extracting individual name and recording medium - Google Patents

Device and method for extracting individual name and recording medium

Info

Publication number
JP2001125911A
JP2001125911A JP30607599A JP30607599A JP2001125911A JP 2001125911 A JP2001125911 A JP 2001125911A JP 30607599 A JP30607599 A JP 30607599A JP 30607599 A JP30607599 A JP 30607599A JP 2001125911 A JP2001125911 A JP 2001125911A
Authority
JP
Japan
Prior art keywords
morpheme
individual name
representing
storage unit
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP30607599A
Other languages
Japanese (ja)
Other versions
JP3734391B2 (en
Inventor
Itsuki Shimokooriyama
敬己 下郡山
Nobuyuki Otomori
信行 乙守
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP30607599A priority Critical patent/JP3734391B2/en
Publication of JP2001125911A publication Critical patent/JP2001125911A/en
Application granted granted Critical
Publication of JP3734391B2 publication Critical patent/JP3734391B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide individual name extraction device and method and a recording medium. SOLUTION: In the individual name extraction device 151, an input receiving part 15 receives a morpheme string as an input, a 1st individual name storage part 153 previously stores a morpheme (string) expressing an individual name, a 2nd individual name storage part 154 temporarily stores the morpheme (string) expressing the individual name, and a rule storage part 155 previously stores a rule for extracting the morpheme (string) expressing the individual name from the morpheme string. A certification part 156 certifies the morpheme (string) stored in the 1st or 2nd individual name storage part 153 or 154 from the received morpheme string certifies the morpheme (string) expressing the individual name on the basis of the previously stored role, an updating part 157 updates the contents of the 2nd individual name storage part 154, temporarily stores the certified morpheme (string) expressing the individual name and an output part 158 outputs the morpheme (string) expressing the certified individual name.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、入力された形態素
列から個体名を表す形態素またはその列を抽出するのに
好適な抽出装置、抽出方法、および、記録媒体に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an extraction device, an extraction method, and a recording medium suitable for extracting a morpheme representing an individual name or a sequence thereof from an input morpheme sequence.

【0002】[0002]

【従来の技術】従来から、コンピュータ、ワードプロセ
ッサ、データベースシステムなどで、文献から必要な情
報を得る検索システムが使われている。特に、近年のイ
ンターネット技術の発展にともない、さまざまな情報源
から必要な情報を得るためのインフラストラクチャが整
いつつある。
2. Description of the Related Art Conventionally, a search system for obtaining necessary information from documents has been used in computers, word processors, database systems, and the like. In particular, with the development of Internet technology in recent years, an infrastructure for obtaining necessary information from various information sources is being prepared.

【0003】また、コンピュータなどに文章の内容を理
解させ、その内容を要約させたり、適宜選択させたりす
るようなシステムについても提案がされている。
[0003] Further, there has been proposed a system that allows a computer or the like to understand the contents of a sentence, summarize the contents, or make a selection as appropriate.

【0004】このようなシステムで、たとえば日本語の
文献を処理の対象とする場合には、以下の手法が用いら
れていた。
In such a system, for example, when a Japanese document is to be processed, the following method has been used.

【0005】第1は、文章に処理したい単語と同じ文字
列が出現した場合に、これを検索結果に含めたり、同じ
綴りの文字列の出現頻度により、内容の要約を行う手法
である。この手法は、字面だけで検索や要約を行うもの
で、インターネット検索エンジンなどでよく用いられて
いる。
[0005] First, when a character string identical to a word to be processed appears in a sentence, this is included in a search result or the content is summarized based on the appearance frequency of the character string having the same spelling. This method performs search and summarization only on the character surface, and is often used in Internet search engines and the like.

【0006】第2は、まず、日本語の文章を各単語
(「形態素」ともいう)に切り分ける形態素解析を行
い、形態素の綴りとその品詞との情報の対の列を出力
し、出力された情報の対の列に基づいて処理を行う手法
である。
[0006] Second, first, a morphological analysis is performed to divide a Japanese sentence into words (also referred to as "morphemes"), and a sequence of information pairs of spellings of morphemes and their parts of speech is output and output. This is a method of performing processing based on a sequence of information pairs.

【0007】[0007]

【発明が解決しようとする課題】しかしながら、字面だ
けで文献の処理を行う手法では、たとえば検索の際に、
偶然に含まれた同じ綴りの文字列を含む文献も検索結果
に含まれてしまい、不必要な情報に所望の情報が埋もれ
てしまうという問題が生じるおそれがある。
However, in a method of processing a document only by using a character surface, for example, when searching,
Documents containing a character string with the same spelling that was accidentally included are also included in the search result, and there is a possibility that a problem that unnecessary information is buried in unnecessary information may occur.

【0008】一方、検索対象として人名、地域名、国
名、社名、や、日時などの個体名を使う場合には、形態
素解析で出力される情報だけではたとえば人名と地域名
の区別がつかないため、上記と同様の問題が生じるおそ
れがある。また、WWW(World Wide Web)などから入
手できる情報には、新しい商品名などの未知語が多いた
め、これらに対応する必要もある。
On the other hand, when an individual name such as a person name, a region name, a country name, a company name, or a date and time is used as a search target, it is not possible to distinguish between a person name and a region name only with information output by morphological analysis. However, the same problem as described above may occur. In addition, information available from the WWW (World Wide Web) or the like has many unknown words such as new product names, and therefore, it is necessary to deal with these.

【0009】したがって、形態素解析によって得られた
形態素から情報の検索や概念の要約などに用いることが
できる個体名を認定し、その個体名を抽出して出力する
手法が望まれている。
Therefore, there is a need for a method of identifying an individual name that can be used for information retrieval, summarizing concepts, and the like from morphemes obtained by morphological analysis, and extracting and outputting the individual name.

【0010】本発明の目的は、入力された形態素列から
個体名を表す形態素またはその列を抽出することにあ
る。
An object of the present invention is to extract a morpheme representing an individual name or a sequence of the morpheme from an input morpheme sequence.

【0011】[0011]

【課題を解決するための手段】上記目的を達成するた
め、本発明の個体名の抽出装置は、入力受付部と、第1
の個体名記憶部と、第2の個体名記憶部と、ルール記憶
部と、認定部と、更新部と、出力部とを備えるように構
成する。
To achieve the above object, an apparatus for extracting an individual name according to the present invention comprises: an input receiving unit;
, A second individual name storage unit, a rule storage unit, a certification unit, an update unit, and an output unit.

【0012】ここで、入力受付部は、形態素列を入力と
して受け付ける。
Here, the input receiving unit receives a morpheme sequence as an input.

【0013】第1の個体名記憶部は、個体名を表す形態
素またはその列を、その属性と対応付けてあらかじめ記
憶する。
The first individual name storage unit stores in advance a morpheme representing the individual name or a sequence thereof in association with its attribute.

【0014】第2の個体名記憶部は、個体名を表す形態
素またはその列を、その属性と対応付けて一時的に記憶
する。
The second individual name storage unit temporarily stores a morpheme representing the individual name or a sequence thereof in association with the attribute.

【0015】ルール記憶部は、形態素列から個体名を表
す形態素またはその列を、その属性と対応付けて認定す
るルールをあらかじめ記憶する。
The rule storage unit stores in advance rules for identifying morphemes representing individual names from the morpheme strings or the strings thereof in association with their attributes.

【0016】認定部は、前記受け付けられた形態素列か
ら前記第1もしくは第2の個体名記憶部に記憶された形
態素またはその列を認定し、また、前記受け付けられた
形態素列から前記あらかじめ記憶されたルールにより個
体名を表す形態素またはその列を認定する。
The recognition unit recognizes the morpheme or its row stored in the first or second individual name storage unit from the received morpheme string, and stores the previously stored morpheme string from the received morpheme string. The morpheme representing the individual name or its sequence is identified according to the rule.

【0017】更新部は、前記第2の個体名記憶部を更新
して、前記認定された個体名を表す形態素またはその列
を、その属性と対応付けて一時的に記憶させる。
The updating unit updates the second individual name storage unit and temporarily stores the morpheme or the column representing the recognized individual name in association with the attribute.

【0018】出力部は、前記認定された個体名を表す形
態素またはその列を、抽出した個体名として出力する。
The output unit outputs a morpheme representing the recognized individual name or a sequence thereof as the extracted individual name.

【0019】本抽出装置では、未知語を表す形態素また
はその列(以下適宜「形態素(列)」という。)がルー
ルにより個体名として認定されると、当該未知語を表す
形態素(列)が個体名として個体名記憶部に登録され
る。したがって、以降はルールを用いることなく個体名
として認定することができる。さらに、当該未知語に含
まれる形態素(未知語の一部)についても、ルールを用
いることなく個体名として認定することができる。
In the present extraction device, when a morpheme or a string thereof representing an unknown word (hereinafter appropriately referred to as a “morpheme (string)”) is recognized as an individual name by a rule, the morpheme (string) representing the unknown word is assigned to an individual. The name is registered in the individual name storage unit. Therefore, it can be recognized as an individual name without using any rules. Furthermore, a morpheme (a part of the unknown word) included in the unknown word can be recognized as an individual name without using a rule.

【0020】また、形態素解析の結果としては未知語と
なっていないが、「情報」「処理」「学会」のような普
通名詞が連なって「情報処理学会」という個体名を表す
ような場合も、「情報処理学会」が個体名として認識さ
れ、第2の個体名記憶部に登録される。この場合、「情
報処理学会」そのものを第1の個体名記憶部に登録して
おく必要はない。ルール記憶部に記憶されたルールによ
り個体名としての認識が可能だからである。
[0020] Also, there is a case in which common nouns such as "information", "processing", and "society" continue to represent an individual name of "information processing society" although the morphological analysis does not result in unknown words. , "Information Processing Society of Japan" is recognized as an individual name and registered in the second individual name storage unit. In this case, it is not necessary to register the “Information Processing Society” itself in the first individual name storage unit. This is because recognition as an individual name is possible by the rules stored in the rule storage unit.

【0021】これらにより、適切に個体名を抽出するこ
とができる。
Thus, the individual name can be appropriately extracted.

【0022】また、上記抽出装置は、再認定制御部をさ
らに備えるように構成してもよい。
[0022] The extraction device may be configured to further include a recertification control unit.

【0023】ここで、再認定制御部は、前記更新部によ
り前記第2の個体名記憶部が更新された場合、前記認定
部に個体名を表す形態素またはその列を再度認定させ
る。
Here, when the updating unit updates the second individual name storage unit, the re-authorization control unit causes the authentication unit to again identify the morpheme representing the individual name or its sequence.

【0024】本抽出装置では、新たに未知語が個体名と
して登録されている限り、同じ形態素列入力に対して繰
り返しルールが適用される。これにより、たとえば、文
献の終り付近で個体名として認定された未知語を手がか
りに、文献の始め付近にルールが適用され、さらに未知
語を個体名として認定できるようになる。
In the present extraction apparatus, as long as an unknown word is newly registered as an individual name, a repetition rule is applied to the same morpheme string input. Thus, for example, the rule is applied near the beginning of the document based on the unknown word recognized as the individual name near the end of the document, and the unknown word can be recognized as the individual name.

【0025】また、上記抽出装置は、消去部をさらに備
えるように構成してもよい。
Further, the extracting device may be configured to further include an erasing unit.

【0026】ここで、消去部は、特定条件が満たされた
場合、前記第2の個体名記憶部から当該一時的に記憶さ
れた個体名を表す形態素またはその列を消去する。
Here, when the specific condition is satisfied, the erasing unit erases the morpheme representing the temporarily stored individual name or its row from the second individual name storage unit.

【0027】本抽出装置では、たとえば文献の種類が変
わるたびに登録された未知語を抹消する。したがって、
文献の文脈に応じて個体名を抽出することができる。
In the present extracting apparatus, for example, the registered unknown words are deleted each time the type of document changes. Therefore,
Individual names can be extracted according to the context of the document.

【0028】また、上記抽出装置において、前記認定部
は、前記あらかじめ記憶されたルールにより、個体名を
表す第1の形態素またはその列と、個体名を表す第2の
形態素またはその列と、にはさまれた形態素またはその
列を、個体名を表す形態素またはその列として認定する
ように構成してもよい。
Further, in the above-mentioned extraction device, the certifying section may determine, according to the previously stored rule, a first morpheme or a column thereof representing an individual name and a second morpheme or a column thereof representing an individual name. The interposed morpheme or its row may be configured to be recognized as a morpheme or a row representing an individual name.

【0029】本抽出装置では、たとえば、「東京」と
「大阪」に挟まれた未知の漢字列を、地名属性を有する
個体名として抽出することができる。
In the present extracting apparatus, for example, an unknown kanji character string sandwiched between "Tokyo" and "Osaka" can be extracted as an individual name having a place name attribute.

【0030】また、本抽出装置において、前記認定部
は、前記あらかじめ記憶されたルールにより、あらかじ
め定めた形態素またはその列に連接する形態素またはそ
の列を個体名を表す形態素またはその列として認定する
Further, in the present extracting apparatus, the certifying unit certifies a predetermined morpheme or a morpheme connected to the sequence or a sequence thereof as a morpheme representing an individual name or a sequence thereof according to the previously stored rule.

【0031】本抽出装置では、たとえば、「(株)」の
後ろにカタカナ列が続く場合、当該カタカナ列を社名属
性を有する個体名として抽出することができる。
In the present extracting apparatus, for example, when a katakana string follows "(share)", the katakana string can be extracted as an individual name having a company name attribute.

【0032】上記目的を達成するため、本発明の個体名
の抽出方法は、個体名を表す形態素またはその列を、そ
の属性と対応付けてあらかじめ記憶する第1の個体名記
憶部と、個体名を表す形態素またはその列を、その属性
と対応付けて一時的に記憶する第2の個体名記憶部と、
形態素列から個体名を表す形態素またはその列を、その
属性と対応付けて認定するルールをあらかじめ記憶する
ルール記憶部とを備えるコンピュータにおいて、形態素
列から個体名を抽出する抽出方法であって、入力受付ス
テップと、認定ステップと、更新ステップと、出力ステ
ップとを備えるように構成する。
In order to achieve the above object, a method for extracting an individual name according to the present invention comprises: a first individual name storage unit for storing in advance a morpheme or a sequence thereof representing an individual name in association with its attribute; A second individual name storage unit for temporarily storing a morpheme or its column representing
A method for extracting an individual name from a morpheme string in a computer including a morpheme representing the individual name from the morpheme string or a rule storage unit for preliminarily storing a rule for certifying the string in association with its attribute. It is configured to include a receiving step, a certification step, an updating step, and an output step.

【0033】ここで、入力受付ステップでは、形態素列
を入力として受け付ける。
Here, in the input receiving step, a morphological sequence is received as an input.

【0034】認定ステップでは、前記受け付けられた形
態素列から前記第1もしくは第2の個体名記憶部に記憶
された形態素またはその列を認定し、また、前記受け付
けられた形態素列から前記あらかじめ記憶されたルール
により個体名を表す形態素またはその列を認定する。
In the certifying step, the morpheme or the sequence thereof stored in the first or second individual name storage unit is certified from the received morpheme sequence, and the previously stored morpheme sequence is stored in advance. The morpheme representing the individual name or its sequence is identified according to the rule.

【0035】更新ステップでは、前記第2の個体名記憶
部を更新して、前記認定された個体名を表す形態素また
はその列を、その属性と対応付けて一時的に記憶させ
る。
In the updating step, the second individual name storage unit is updated, and the morpheme or the column representing the recognized individual name is temporarily stored in association with its attribute.

【0036】出力ステップでは、前記認定された個体名
を表す形態素またはその列を、抽出した個体名として出
力する。
In the output step, a morpheme representing the recognized individual name or a sequence thereof is output as the extracted individual name.

【0037】また、上記抽出方法は、再認定制御ステッ
プをさらに備えるように構成することができる。
Further, the extraction method can be configured to further include a recertification control step.

【0038】ここで、再認定制御ステップでは、前記更
新ステップにて前記第2の個体名記憶部が更新された場
合、前記認定ステップにて個体名を表す形態素またはそ
の列を再度認定させる。
Here, in the recertification control step, when the second individual name storage unit is updated in the updating step, the morpheme representing the individual name or its column is recertified in the authorization step.

【0039】また、上記抽出方法は、消去ステップをさ
らに備えるように構成することができる。
Further, the extraction method can be configured to further include an erasing step.

【0040】ここで、消去ステップでは、特定条件が満
たされた場合、前記第2の個体名記憶部から当該一時的
に記憶された個体名を表す形態素またはその列を消去す
る。
Here, in the erasing step, when the specific condition is satisfied, the morpheme representing the individual name or the column thereof which is temporarily stored is erased from the second individual name storage unit.

【0041】また、上記抽出方法において、前記認定ス
テップにて、前記あらかじめ記憶されたルールにより、
個体名を表す第1の形態素またはその列と、個体名を表
す第2の形態素またはその列と、にはさまれた形態素ま
たはその列を、個体名を表す形態素またはその列として
認定するように構成することができる。
Further, in the above extraction method, in the certification step, the rule stored in advance may be:
A morpheme or a sequence sandwiched between a first morpheme or a sequence representing an individual name and a second morpheme or a sequence representing the individual name is identified as a morpheme or a sequence representing the individual name. Can be configured.

【0042】また、上記抽出方法において、前記認定ス
テップにて、前記あらかじめ記憶されたルールにより、
あらかじめ定めた形態素またはその列に連接する形態素
またはその列を個体名を表す形態素またはその列として
認定するように構成することができる。
Further, in the above extraction method, in the certification step, the rule stored in advance may be:
A morpheme connected to a predetermined morpheme or a sequence thereof or a sequence thereof may be configured as a morpheme representing an individual name or a sequence thereof.

【0043】上記目的を達成するため、本発明のコンピ
ュータ読取可能な記録媒体は、コンピュータを、入力受
付部、第1の個体名記憶部、第2の個体名記憶部、ルー
ル記憶部、認定部、更新部、および、出力部として機能
させるプログラムを記録するように構成する。
In order to achieve the above object, a computer-readable recording medium of the present invention comprises: a computer, an input receiving unit, a first individual name storage unit, a second individual name storage unit, a rule storage unit, a certification unit. , An update unit, and a program that functions as an output unit.

【0044】ここで、入力受付部は、形態素列を入力と
して受け付ける。
Here, the input receiving unit receives a morpheme sequence as an input.

【0045】第1の個体名記憶部は、個体名を表す形態
素またはその列を、その属性と対応付けてあらかじめ記
憶する。
The first individual name storage unit stores in advance a morpheme representing an individual name or a sequence thereof in association with its attribute.

【0046】第2の個体名記憶部は、個体名を表す形態
素またはその列を、その属性と対応付けて一時的に記憶
する。
The second individual name storage unit temporarily stores a morpheme representing the individual name or a sequence thereof in association with its attribute.

【0047】ルール記憶部は、形態素列から個体名を表
す形態素またはその列を、その属性と対応付けて認定す
るルールをあらかじめ記憶する。
The rule storage unit stores in advance rules for identifying morphemes representing individual names from the morpheme strings or the strings in association with their attributes.

【0048】認定部は、前記受け付けられた形態素列か
ら前記第1もしくは第2の個体名記憶部に記憶された形
態素またはその列を認定し、また、前記受け付けられた
形態素列から前記あらかじめ記憶されたルールにより個
体名を表す形態素またはその列を認定する
The certifying unit certifies the morpheme or the sequence thereof stored in the first or second individual name storage unit from the received morpheme sequence, and recognizes the previously stored morpheme sequence from the received morpheme sequence. Morpheme representing the individual name or its sequence according to the rules

【0049】更新部は、前記第2の個体名記憶部を更新
して、前記認定された個体名を表す形態素またはその列
を、その属性と対応付けて一時的に記憶させる。
The updating unit updates the second individual name storage unit and temporarily stores the morpheme or the column representing the recognized individual name in association with the attribute.

【0050】出力部は、前記認定された個体名を表す形
態素またはその列を、抽出した個体名として出力する。
The output unit outputs a morpheme representing the recognized individual name or a sequence thereof as the extracted individual name.

【0051】また、上記コンピュータ読取可能な記録媒
体に記録された前記プログラムは、前記コンピュータ
を、再認定制御部としてさらに機能させるように構成す
ることができる。
Further, the program recorded on the computer-readable recording medium may be configured to further cause the computer to function as a recertification control unit.

【0052】ここで、再認定制御部は、前記更新部によ
り前記第2の個体名記憶部が更新された場合、前記認定
部に個体名を表す形態素またはその列を再度認定させ
る。
Here, the recertification control unit, when the second individual name storage unit is updated by the updating unit, causes the certification unit to recertify the morpheme representing the individual name or its row.

【0053】また、上記コンピュータ読取可能な記録媒
体に記録された前記プログラムは、前記コンピュータ
を、消去部としてをさらに機能させるように構成するこ
とができる。
Further, the program recorded on the computer-readable recording medium may be configured to cause the computer to further function as an erasing unit.

【0054】ここで、消去部は、特定条件が満たされた
場合、前記第2の個体名記憶部から当該一時的に記憶さ
れた個体名を表す形態素またはその列を消去する。
Here, when the specific condition is satisfied, the erasing unit erases the morpheme representing the individual name or the column thereof which is temporarily stored from the second individual name storage unit.

【0055】また、上記コンピュータ読取可能な記録媒
体に記録された前記プログラムにより前記コンピュータ
が前記認定部として機能する場合、前記認定部は、前記
あらかじめ記憶されたルールにより、個体名を表す第1
の形態素またはその列と、個体名を表す第2の形態素ま
たはその列と、にはさまれた形態素またはその列を、個
体名を表す形態素またはその列として認定するように構
成することができる。
In the case where the computer functions as the certifying section by the program recorded on the computer-readable recording medium, the certifying section uses a first rule representing an individual name according to the previously stored rule.
The morpheme or its column sandwiched between the morpheme or its column and the second morpheme or its column representing the individual name can be configured as a morpheme or its column representing the individual name.

【0056】また、上記コンピュータ読取可能な記録媒
体に記録された前記プログラムにより前記コンピュータ
が前記認定部として機能する場合、前記認定部は、前記
あらかじめ記憶されたルールにより、あらかじめ定めた
形態素またはその列に連接する形態素またはその列を個
体名を表す形態素またはその列として認定するように構
成することができる。
In the case where the computer functions as the certifying unit according to the program recorded on the computer-readable recording medium, the certifying unit determines a predetermined morpheme or a string of morphemes based on the previously stored rule. The morpheme or its column that is linked to is identified as a morpheme or its column that represents an individual name.

【0057】[0057]

【発明の実施の形態】以下、添付図面を参照して、本発
明の実施の形態について説明する。
Embodiments of the present invention will be described below with reference to the accompanying drawings.

【0058】(概要構成)図1は、本発明の個体名の抽
出装置として機能する典型的な情報処理装置(汎用のコ
ンピュータ、各種端末、携帯端末、携帯電話、ゲーム装
置などの専用機器を含む)の概要構成を示す模式図であ
る。以下、図1を参照して説明する。
(Summary Configuration) FIG. 1 shows a typical information processing device (including a dedicated device such as a general-purpose computer, various terminals, a portable terminal, a mobile phone, and a game device) which functions as an individual name extracting device of the present invention. It is a schematic diagram which shows schematic structure of (). Hereinafter, description will be made with reference to FIG.

【0059】情報処理装置101は、CPU(Central
Processing Unit;中央処理ユニット)102によって
制御される。情報処理装置101に電源を投入すると、
CPU102は、ROM(Read Only Memory;読出専用
メモリ)103に記憶されたIPL(Initial Program
Loader;初期プログラムローダ)を実行する。
The information processing apparatus 101 has a CPU (Central
It is controlled by a processing unit (central processing unit) 102. When the information processing apparatus 101 is powered on,
The CPU 102 executes an IPL (Initial Program) stored in a ROM (Read Only Memory) 103.
Loader (initial program loader).

【0060】IPLは、ハードディスク104、FD
(Floppy Disk;フロッピーディスク)ドライブ110
に装着されたFD、CD−ROM(Compact Disk ROM)
ドライブ111に装着されたCD−ROMなどの記録媒
体に記憶されたOS(Operating System;オペレーティ
ング・システム)プログラムを読み出して実行するプロ
グラムである。
The IPL includes the hard disk 104, the FD
(Floppy Disk) drive 110
FD, CD-ROM (Compact Disk ROM)
This is a program for reading and executing an OS (Operating System) program stored in a recording medium such as a CD-ROM mounted on the drive 111.

【0061】OSを起動した後、CPU102は、キー
ボード105やマウス106などにより入力されたユー
ザの指示にしたがって、あるいは、ハードディスクなど
にあらかじめ記述された設定ファイルの内容にしたがっ
て、ハードディスクなどに記憶されたアプリケーション
プログラムを実行する。
After the OS is started, the CPU 102 stores the data in the hard disk or the like in accordance with a user's instruction input with the keyboard 105 or the mouse 106 or in accordance with the contents of a setting file previously described in the hard disk or the like. Execute the application program.

【0062】なお、携帯端末などの小規模な情報処理装
置では、IPL自体がOSやアプリケーションプログラ
ムとしての機能を果たすような実施形態も採用すること
ができる。
In a small-scale information processing apparatus such as a portable terminal, an embodiment in which the IPL itself functions as an OS or an application program can be adopted.

【0063】CPU102は、プログラムの実行の際
に、RAM(Random Access Memory)107を一時的な
作業用記憶領域として用いる。このほか、一時的な作業
用記憶領域として、CPU102内に設けられたレジス
タやキャッシュ(図示せず)が使われる。
The CPU 102 uses a RAM (Random Access Memory) 107 as a temporary work storage area when executing the program. In addition, a register or a cache (not shown) provided in the CPU 102 is used as a temporary work storage area.

【0064】プログラムの実行に伴ない、ユーザに結果
を報告したり、途中経過を見せるため、CPU102
は、液晶ディスプレイやCRT(Cathode Ray Tube)な
どの表示装置108に当該情報を表示することができ
る。マウス106による指示操作では、マウス106を
移動することにより、画面に表示されたカーソルが移動
し、マウス106をクリックすることにより、カーソル
が指すメニュー項目を選択することができる。
In order to report the result to the user or to show the progress of the program, the CPU 102
Can display the information on a display device 108 such as a liquid crystal display or a CRT (Cathode Ray Tube). In the instruction operation using the mouse 106, the cursor displayed on the screen is moved by moving the mouse 106, and the menu item indicated by the cursor can be selected by clicking the mouse 106.

【0065】情報処理装置101は、NIC(Network
Interface Card)やモデムなどのインターフェース10
9を介してインターネットなどのコンピュータ通信網と
通信を行うことができる。インターフェース109を介
して受信した文書データを処理の対象としたり、処理し
た結果をインターフェース109を介して送信したり、
インターフェース109を介して受信したプログラムを
実行したり、などができる。
The information processing apparatus 101 is an NIC (Network
Interface 10 such as Interface Card) and modem
9 can communicate with a computer communication network such as the Internet. The document data received via the interface 109 may be processed, the processing result may be transmitted via the interface 109,
It can execute a program received via the interface 109, and the like.

【0066】図2は、上記情報処理装置101が本発明
の個体名の抽出装置として機能する場合の、各機能の概
要構成を示す模式図である。
FIG. 2 is a schematic diagram showing a schematic configuration of each function when the information processing apparatus 101 functions as the individual name extracting apparatus of the present invention.

【0067】個体名の抽出装置151は、入力受付部1
52、第1の個体名記憶部153、第2の個体名記憶部
154、ルール記憶部155、認定部156、更新部1
57、出力部158を備える。また、図示しない要素と
して、再認定制御部、消去部を備えるように構成しても
よい。
The individual name extracting device 151 includes the input receiving unit 1
52, a first individual name storage unit 153, a second individual name storage unit 154, a rule storage unit 155, a certification unit 156, and an update unit 1
57, and an output unit 158. Further, a configuration may be provided in which a recertification control unit and an erasing unit are provided as elements not shown.

【0068】入力受付部152は、形態素列を入力とし
て受け付ける。ここで、処理の対象となる文書データや
あらかじめ形態素解析を完了した結果の形態素列を記録
したデータは、上記のようにインターフェース109を
介して得ることができるほか、ハードディスク104、
FD、CD−ROMに記憶されたファイルなどから得る
ことができる。また、ユーザがキーボード105やマウ
ス106を操作して入力した文書データを形態素解析し
てから、処理の対象とすることもでき、形態素列は、R
AM107に記憶される。
The input receiving unit 152 receives a morpheme string as an input. Here, the document data to be processed and the data in which the morpheme sequence resulting from the completion of the morphological analysis in advance can be obtained via the interface 109 as described above, and the hard disk 104,
It can be obtained from a file stored in an FD or a CD-ROM. Further, the document data input by the user operating the keyboard 105 or the mouse 106 may be subjected to morphological analysis, and then may be processed.
It is stored in the AM 107.

【0069】したがって、インターフェース109、ハ
ードディスク104、FDドライブ110、CD−RO
Mドライブ111、RAM107は、形態素列を入力と
して受け付ける入力受付部152として機能する。
Therefore, the interface 109, the hard disk 104, the FD drive 110, the CD-RO
The M drive 111 and the RAM 107 function as an input receiving unit 152 that receives a morpheme string as input.

【0070】第1の個体名記憶部153と、第2の個体
名記憶部154は、個体名を表す形態素(列)を、その
属性と対応付けて記憶するが、前者はあらかじめ記憶
し、後者は一時的に記憶する。また、ルール記憶部15
5は、形態素列から個体名を表す形態素(列)をその属
性と対応付けて認定するルールをあらかじめ記憶する。
The first individual name storage unit 153 and the second individual name storage unit 154 store morphemes (columns) representing individual names in association with their attributes. The former is stored in advance, and the latter is stored in advance. Memorize temporarily. Also, the rule storage unit 15
5 stores in advance a rule for identifying a morpheme (column) representing an individual name from the morpheme string in association with its attribute.

【0071】したがって、ハードディスク104、FD
ドライブ110に装着されたFD、CD−ROMドライ
ブに装着されたCD、ROM103、RAM107、お
よび、インターフェース109を介して接続された他の
コンピュータのこれら読み取り可能な情報記憶装置に相
当するものは、第1の個体名記憶部153、および、ル
ール記憶部155として機能する。第1の個体名記憶部
153、および、ルール記憶部155は、必ずしも書き
込みができる必要はない。
Therefore, the hard disk 104, the FD
The FD mounted on the drive 110, the CD mounted on the CD-ROM drive, the ROM 103, the RAM 107, and the other computer connected via the interface 109 correspond to these readable information storage devices. It functions as one individual name storage unit 153 and rule storage unit 155. The first individual name storage unit 153 and the rule storage unit 155 do not necessarily need to be writable.

【0072】一方、ハードディスク104、FDドライ
ブ110に装着されたFD、RAM107は、および、
インターフェース109を介して接続された他のコンピ
ュータのこれら読み書き可能な情報記憶装置に相当する
ものは、第2の個体名記憶部154として機能する。
On the other hand, the hard disk 104, the FD mounted on the FD drive 110, and the RAM 107
Those corresponding to these readable and writable information storage devices of another computer connected via the interface 109 function as the second individual name storage unit 154.

【0073】認定部156は、第1の個体名記憶部15
3、第2の個体名記憶部154、ルール記憶部155に
記憶された情報を用いて、入力を受け付けた形態素列か
ら個体名を表す形態素(列)を認定する。本実施形態で
は、CPU102が、認定部156として機能する。
The certification section 156 is provided with the first individual name storage section 15.
3. Using the information stored in the second individual name storage unit 154 and the rule storage unit 155, a morpheme (column) representing the individual name is recognized from the morpheme sequence whose input has been received. In the present embodiment, the CPU 102 functions as the certification unit 156.

【0074】更新部157は、新たに認定された個体名
を表す形態素(列)を第2の個体名記憶部154に追加
して記憶する。本実施形態では、CPU102が、更新
部157として機能する。
The updating unit 157 additionally stores a morpheme (column) representing the newly recognized individual name in the second individual name storage unit 154. In the present embodiment, the CPU 102 functions as the updating unit 157.

【0075】出力部158は、認定された個体名を表す
形態素(列)を抽出された個体名として出力する。な
お、当該個体名を表す形態素(列)に対応付けられた属
性も合わせて出力する形態を採用することができる。
The output unit 158 outputs a morpheme (column) representing the recognized individual name as the extracted individual name. Note that a form in which the attribute associated with the morpheme (column) representing the individual name is also output can be adopted.

【0076】表示装置108、ハードディスク104、
FDドライブ110に装着されたFD、RAM107
は、および、インターフェース109を介して接続され
た他のコンピュータのこれら読み書き可能な情報記憶装
置に相当するものを抽出した個体名を表す形態素(列)
を出力する先として選択することができる。したがっ
て、これらは、出力部158として機能する。
The display device 108, the hard disk 104,
FD mounted on FD drive 110, RAM 107
And a morpheme (column) representing an individual name extracted from those corresponding to these readable / writable information storage devices of another computer connected via the interface 109
Can be selected as the output destination. Therefore, they function as the output unit 158.

【0077】また、再認定制御部(図示せず)は、新た
に認定された個体名を表す形態素(列)がある限り、認
定部156における認定の処理を繰り返す制御を行う。
この場合、CPU102が、再認定制御部として機能す
る。
The recertification control unit (not shown) controls to repeat the certification process in the certification unit 156 as long as there is a morpheme (column) representing the newly certified individual name.
In this case, the CPU 102 functions as a recertification control unit.

【0078】また、消去部(図示せず)は、特定条件が
満たされると第2の個体名記憶部154に記憶された個
体名の形態素(列)を消去する。この場合、CPU10
2が消去部として機能する。
The erasing unit (not shown) erases the morpheme (column) of the individual name stored in the second individual name storage unit 154 when a specific condition is satisfied. In this case, the CPU 10
2 functions as an erasing unit.

【0079】このほか、ハードディスク104、FDド
ライブ110に装着されたFD、CD−ROMドライブ
に装着されたCD、ROM103、RAM107、およ
び、インターフェース109を介して接続された他のコ
ンピュータのこれら読み取り可能な情報記憶装置に相当
するものは、CPU102で実行されるプログラムを記
録することにより、本発明の記録媒体として機能する。
In addition, the hard disk 104, the FD mounted on the FD drive 110, the CD mounted on the CD-ROM drive, the ROM 103, the RAM 107, and the other computers connected via the interface 109 can read these data. The information storage device functions as a recording medium of the present invention by recording a program executed by the CPU 102.

【0080】上述のように、図1に示す情報処理装置1
01は、図2に示す本発明の個体名の抽出装置として機
能させるための典型的な実施態様である。
As described above, the information processing apparatus 1 shown in FIG.
01 is a typical embodiment for functioning as the individual name extracting device of the present invention shown in FIG.

【0081】たとえば、インターネット内の文献を自動
的に取得して個体名を抽出して個体名の文献データベー
スを作成するロボットサーバにて、本発明の個体名の抽
出方法を実施させ、当該ロボットサーバを本発明の個体
名の抽出装置として機能させることができる。この場
合、表示装置108、FDドライブ110、キーボード
105、マウス106等は不要である一方、インターフ
ェース109は必須である。
For example, a robot server that automatically obtains documents in the Internet, extracts individual names, and creates a document database of individual names, executes the individual name extraction method of the present invention, and executes the robot server. Can function as the individual name extracting device of the present invention. In this case, the display device 108, the FD drive 110, the keyboard 105, the mouse 106, etc. are unnecessary, while the interface 109 is essential.

【0082】また、携帯端末では、外部記憶装置とし
て、不揮発性半導体メモリ(フラッシュメモリカード)
やバッテリバックアップがされたRAMを使用すること
ができる。この場合、必ずしもハードディスク104、
FDドライブ110、CD−ROMドライブ111等は
必要ない。
In the portable terminal, a nonvolatile semiconductor memory (flash memory card) is used as the external storage device.
Alternatively, a battery-backed RAM can be used. In this case, the hard disk 104,
The FD drive 110 and the CD-ROM drive 111 are not required.

【0083】(処理手順)以下、本発明の個体名の抽出
装置の機能を実現するために上記の情報処理装置にて実
行される処理、すなわち、本発明の個体名の抽出方法の
概要について説明する。図3は、当該処理の流れを示す
フローチャートである。
(Processing Procedure) The processing executed by the above information processing apparatus to realize the function of the individual name extracting apparatus of the present invention, that is, the outline of the individual name extracting method of the present invention will be described below. I do. FIG. 3 is a flowchart showing the flow of the processing.

【0084】まず、入力受付部152が入力される形態
素列を受け付ける(ステップS201)。形態素列の受
け付けは、上記のように、ハードディスク104などの
記録媒体から行ってもよいし、キーボード105などの
入力装置から行ってもよい。また、RAM107内の所
定の領域に形態素列のデータを記憶させ、このデータを
記憶した領域のアドレスをパラメータとする関数呼び出
しやシステムコールの形式で本ステップS201が開始
される実施形態を採用することもできる。
First, the input receiving unit 152 receives an input morpheme sequence (step S201). As described above, the morpheme sequence may be received from a recording medium such as the hard disk 104, or may be received from an input device such as the keyboard 105. Further, an embodiment in which the data of the morpheme sequence is stored in a predetermined area in the RAM 107 and the step S201 is started in the form of a function call or a system call using the address of the area storing the data as a parameter is adopted. Can also.

【0085】次に、認定部156が、入力形態素列か
ら、第1の個体名記憶部153、および、第2の個体名
記憶部154に記憶された形態素(列)を認定する(ス
テップS202)。本ステップS202で利用される個
体名の詳細については後述する。
Next, the recognition unit 156 recognizes morphemes (columns) stored in the first individual name storage unit 153 and the second individual name storage unit 154 from the input morpheme sequence (step S202). . Details of the individual name used in step S202 will be described later.

【0086】さらに、認定部156は、入力形態素列か
ら、特徴語、周辺に配置された(特に隣接する)形態
素、認定された個体名などの情報を利用して、ルール記
憶部155に記憶されたルールを適用して、未登録の個
体名の形態素(列)を認定する(ステップS203)。
認定ルールの詳細については後述する。
Further, the recognition unit 156 is stored in the rule storage unit 155 by using information such as a feature word, morphemes arranged in the vicinity (particularly adjacent), and recognized individual names from the input morpheme sequence. By applying the rule, the morpheme (column) of the unregistered individual name is recognized (step S203).
Details of the certification rules will be described later.

【0087】ついで、認定された個体名を表す形態素
(列)のうち、第2の個体名記憶部154に記憶されて
いないもの、すなわち、新規に認定された個体名の形態
素(列)があるか否かを判断する(ステップS20
4)。
Next, among the morphemes (columns) representing the recognized individual names, there are morphemes (columns) not stored in the second individual name storage unit 154, that is, morphemes (columns) of the newly recognized individual names. Is determined (step S20).
4).

【0088】新規に認定された個体名の形態素がある場
合(ステップS204;Yes)、更新部157は、第
2の個体名記憶部154に追加記憶させて更新し(ステ
ップS206)、ステップS202に戻る。これによ
り、新たに認定された個体名の情報を用いて再度ルール
を適用することができる。なお、ステップS202に戻
る処理の制御を担当するのが、再認定制御部である。
If there is a morpheme of the newly identified individual name (step S204; Yes), the updating unit 157 additionally stores and updates the second individual name storage unit 154 (step S206), and proceeds to step S202. Return. As a result, the rule can be applied again using the information of the newly recognized individual name. The control of the process returning to step S202 is performed by the recertification control unit.

【0089】一方、新規に認定された個体名の形態素
(列)がない場合(ステップS204;No)、本発明
の手法により認定できる個体名はすべて認定されたこと
になるため、認定された個体名を表す形態素(列)を出
力部158より抽出された個体名として出力し(ステッ
プS205)、本処理を終了する。出力の詳細について
は後述する。
On the other hand, if there is no morpheme (column) of the newly identified individual name (step S204; No), all the individual names that can be identified by the method of the present invention have been identified, The morpheme (column) representing the name is output as the individual name extracted from the output unit 158 (step S205), and the process ends. Details of the output will be described later.

【0090】(個体名の種類)本発明の個体名の抽出装
置、および、抽出方法では、あらかじめ形態素解析を実
行することにより出力された形態素列から、個体名を表
す形態素(列)を抽出する。以下では、この個体名とし
て採用される形態素の種類の実施例について説明する。
(Type of Individual Name) In the individual name extraction device and the extraction method of the present invention, a morpheme (string) representing an individual name is extracted from a morpheme string output by executing a morphological analysis in advance. . In the following, an example of the type of morpheme adopted as the individual name will be described.

【0091】本実施例では、個体名の形態素(列)に対
応付けて、以下の4種類の属性を認定する。 ・固有名詞 ・時間 ・数量 ・インデックス
In this embodiment, the following four types of attributes are recognized in association with morphemes (columns) of individual names.・ Proper noun ・ time ・ quantity ・ index

【0092】属性「固有名詞」は、さらに、商品名、組
織名、地名(地域名、自然物名、施設名)、人物名に分
類される。
The attribute “proper noun” is further classified into a product name, an organization name, a place name (area name, natural object name, facility name), and a person name.

【0093】属性「時間」は、さらに、経済時間、暦時
間(曜日時間を含む)、非暦時間、特殊接辞に分類され
る。
The attribute “time” is further classified into economic time, calendar time (including day of the week), non-calendar time, and special affixes.

【0094】属性「数量」は、さらに、金額、比率、序
数詞に分類される。
The attribute “quantity” is further classified into an amount, a ratio, and an ordinal.

【0095】属性「インデックス」は、さらに、URL
(Universal Resource Locater)、電子メールアドレ
ス、電話番号・ファクシミリ番号に分類される。これら
は、英数字や記号から構成される文字列であるが、個人
や企業を特定する、という点で、人物名や組織名に準じ
て考えることができる。
The attribute “index” further includes a URL
(Universal Resource Locater), e-mail address, telephone number and facsimile number. These are character strings composed of alphanumeric characters and symbols, but can be considered according to the names of persons and organizations in terms of specifying individuals and companies.

【0096】このように、本発明で取り扱う個体名の形
態素(列)の属性は階層的に構成されている。属性の階
層は、適宜変更して構成することができる。
As described above, the attributes of the morphemes (columns) of the individual names handled in the present invention are hierarchically structured. The attribute hierarchy can be changed and configured as appropriate.

【0097】本発明では、処理対象とする形態素列か
ら、これらの属性を付された個体名の形態素(列)を分
類して認定し、認定結果を抽出された個体名として出力
する。
In the present invention, morphemes (sequences) of the individual names to which these attributes are assigned are classified and certified from the morpheme strings to be processed, and the certification result is output as the extracted individual names.

【0098】具体例をあげて説明する。以下適宜、記号
「/」を用いて形態素を区切るものとする。「私は、
(株)山田商会田中専務です。」は、「私/は/、/
(株)/山田/商会/田中/専務/です/。」のように
形態素列に解析できる。
A description will be given with a specific example. Hereinafter, the morphemes will be appropriately separated using the symbol “/”. "I,
I am the Managing Director of Yamada Shokai Tanaka. "Is" I / ha /, /
Co., Ltd. / Yamada / Shokai / Tanaka / Senior Managing Director / ] And can be analyzed into a morpheme sequence.

【0099】これらの形態素それぞれには、上記の属性
を割り当てることができるものがある。たとえば、「田
中」には「姓」という属性を、「専務」には「役職名」
という属性を、それぞれ割り当てることができる。この
ように、形態素そのものに割り当てられる属性を「役割
素性」という。
Some of these morphemes can be assigned the above attributes. For example, "Tanaka" has the attribute "Last Name" and "Senior Managing" has the "Title"
Can be assigned respectively. The attribute assigned to the morpheme itself is called "role feature".

【0100】一方、「山田/商会」「(株)/山田/商
会」などのような形態素列にも属性を割り当てることが
できる。これらには「組織名」という属性を割り当てる
ことができる。同様に、「田中/専務」には「人物名」
という属性を割り当てることができる。
On the other hand, attributes can also be assigned to morpheme strings such as "Yamada / Shokai", "(Co) / Yamada / Shokai", and the like. These can be assigned the attribute "organization name". Similarly, "Tanaka / Senior Managing Director" has "person name"
Attribute can be assigned.

【0101】「(株)/山田/商会/田中/専務」は、
本例において、個体名として認定できる最大限の形態素
列であり、これには「人物名」という属性を割り当てる
ことができる。このように、個体名として認定できる最
大限の形態素列に割り当てられた属性を「カテゴリ」と
いう。
"/ Yamada / Shokai / Tanaka / Senior Managing Director"
In this example, this is the maximum morpheme sequence that can be identified as an individual name, and an attribute of “person name” can be assigned to this. The attribute assigned to the maximum morpheme sequence that can be identified as an individual name is called a "category".

【0102】第1の個体名記憶部153には、あらかじ
め、これらの個体名として選定された形態素(列)と、
その個体名の属性を対応付けて記憶する。
The first individual name storage unit 153 stores in advance morphemes (columns) selected as these individual names,
The attribute of the individual name is stored in association with the attribute.

【0103】上述の例では単純に属性を割り当てたが、
たとえば固有名詞の「山田」といっても、その属性とし
て人物名、組織名(会社名)、地域名など、ふさわしい
属性はさまざまである。一度文章の前方で「山田博物
館」と記載された場合には、文章の後方で単に「山田」
と書くこともあり、この場合は、施設名を表すことにな
る。
In the above example, attributes are simply assigned.
For example, even if the proper noun "Yamada" is used, there are various suitable attributes such as a person name, an organization name (company name), and a region name. Once the phrase "Yamada Museum" is written in front of the sentence, simply write "Yamada" at the end of the sentence.
In this case, the name of the facility will be displayed.

【0104】したがって、第1の個体名記憶部153に
は、個体名を表す形態素(列)にそれがとりうる属性を
複数種類対応付けて記憶する場合がある。たとえば、
「山田」に対して「姓」「組織名」「会社名」「地域
名」などを記憶することになる。
Therefore, the first individual name storage unit 153 may store a plurality of types of attributes that can be taken by morphemes (columns) representing individual names in association with each other. For example,
For "Yamada", "last name", "organization name", "company name", "region name" and the like are stored.

【0105】また、時間、数量、インデックスは、形態
素を表す文字列の並びのパターンで判別することができ
るため、このパターンをたとえば正規表現(Regular Ex
pression)で表して第1の個体名記憶部153やルール
記憶部155に記憶することができる。
The time, quantity, and index can be determined by a pattern of a character string representing a morpheme.
pression), and can be stored in the first individual name storage unit 153 or the rule storage unit 155.

【0106】図4には、このような第1の個体名記憶部
153に記憶される個体名を表す形態素(列)と、その
属性やカテゴリの様子を示す。
FIG. 4 shows the morphemes (columns) representing the individual names stored in the first individual name storage unit 153 and their attributes and categories.

【0107】図4に示す例では、個体名として認定可能
な形態素列として「パジェロ・ミニデューク」「山本食
品」「山本食品」「田中住宅北陸」「祖谷渓」「焼山
寺」「平将門」が記憶されている。たとえば、「パジェ
ロ・ミニデューク」の属性(カテゴリ)は「商品」であ
り、これらを形態素に分けた「パジェロ」「・」「ミ
ニ」「デューク」の属性(役割素性)は、それぞれ、
「商品名本体」「記号」「商品名本体」「シリーズ名」
である。
In the example shown in FIG. 4, “Pajero Mini Duke”, “Yamamoto Foods”, “Yamamoto Foods”, “Tanaka Housing Hokuriku”, “Iyakei”, “Yakezanji”, and “Heiseimon” are the morpheme strings that can be identified as individual names. It is remembered. For example, the attribute (category) of "Pajero Mini Duke" is "Product", and the attributes (role features) of "Pajero", "."
"Product name body""Symbol""Product name body""Seriesname"
It is.

【0108】このように、第1の個体名記憶部153に
は、あらかじめ定めた個体名を表す形態素(列)が記憶
される。なお、認定ルールにより個体名として認定され
た未知語を第2の個体名記憶部154に、同様のフォー
マットで、記憶することができる。
As described above, the first individual name storage section 153 stores morphemes (columns) representing predetermined individual names. The unknown word recognized as the individual name by the recognition rule can be stored in the second individual name storage unit 154 in a similar format.

【0109】(認定ルール)第1の個体名記憶部153
に記憶された形態素(列)を用いて、入力として受け付
けた形態素列から個体名を認定することができるが、そ
れだけでは不十分な場合がある。
(Certification Rule) First Individual Name Storage Unit 153
The individual name can be identified from the morpheme sequence received as input using the morphemes (columns) stored in, but this may not be sufficient.

【0110】上述のように、商品名などの固有名詞では
造語や新語などが用いられることが多いため、第1の個
体名記憶部153に記憶されていない未知語が多い。特
に、WWWから入手できる場合には、これが顕著であ
る。このような場合であっても未登録の個体名を抽出で
きるようにしたい。
As described above, coined words, new words, and the like are often used in proper nouns such as product names, so that there are many unknown words that are not stored in the first individual name storage unit 153. This is particularly noticeable when available from the WWW. We want to be able to extract unregistered individual names even in such a case.

【0111】以下に説明する認定ルールにより、これら
に対応する。これらの認定ルールでは、以下のような情
報を用いる。 ・形態素解析結果が持つ属性。品詞、字種、字面など。 ・既に認定された個体名の形態素(列)が持つ属性。カ
テゴリ、役割素性など。 認定された個体名の形態素(列)は、第2の個体名記憶
部154に記憶されている。
[0111] These are dealt with by the certification rules described below. The following information is used in these certification rules. -Attributes of the morphological analysis result. Part of speech, character type, character face, etc. -Attributes of morphemes (rows) of already recognized individual names. Categories, role features, etc. The morpheme (column) of the recognized individual name is stored in the second individual name storage unit 154.

【0112】なお、認定ルールや個体名の属性、これら
の連結関係に重みをつけて、個体名の属性が複数認定さ
れた場合に、これらの重みから得点を計算し、いずれが
最も尤もらしいかを推定することにより、文献検索や要
約の精度を高めることができる。
When a plurality of attributes of an individual name are recognized by assigning weights to the recognition rules, the attributes of the individual names, and their connection relationships, a score is calculated from these weights, and which is the most likely one. By estimating, the accuracy of document search and summarization can be improved.

【0113】(特徴語による認定ルール)まず、特徴語
や共起語を用いた認定ルールの例について説明する。特
徴語としては、接頭語や接尾語などが考えられる。たと
えば「部長」「(株)」である。形態素列として「山田
/一郎/部長」が入力された場合、「部長」という特徴
語から、形態素列「山田/一郎」が人名を表すことがわ
かる。
(Authentication Rule Based on Characteristic Word) First, an example of an authentication rule using a characteristic word or a co-occurrence word will be described. Prefixes and suffixes can be considered as characteristic words. For example, "manager" and "(stock)". When “Yamada / Ichiro / Manager” is input as the morpheme sequence, it is understood from the characteristic word “Manager” that the morpheme sequence “Yamada / Ichiro” represents a person's name.

【0114】そこで、第2の個体名記憶部154に「山
田」「一郎」「山田/一郎」の各形態素(列)を、人名
として更新登録する。後述するように、個体名の認定に
は、第1の個体名記憶部153と、第2の個体名記憶部
154と、を両方とも用いるので、文章中に「山田/一
郎/部長」が現れた後に「山田」が単独で現れても、こ
の「山田」は人名を表す、と推定できるのである。
Therefore, the morphemes (columns) of “Yamada”, “Ichiro”, and “Yamada / Ichiro” are updated and registered as personal names in the second individual name storage unit 154. As will be described later, since the first individual name storage unit 153 and the second individual name storage unit 154 are both used for the identification of the individual name, “Yamada / Ichiro / Manager” appears in the text. After that, even if "Yamada" appears alone, it can be estimated that this "Yamada" represents a person's name.

【0115】同様に「(株)/ジャスト」や「システム
/(株)」のような形態素列が入力された場合には、
「ジャスト」や「システム」が第1の個体名記憶部15
3に記憶されていない未登録の固有名詞であっても、特
徴語「(株)」から、会社名を表すことが判明する。
Similarly, when a morpheme sequence such as “(stock) / just” or “system / (stock)” is input,
“Just” or “System” is the first individual name storage unit 15
It is found that even the unregistered proper noun that is not stored in No. 3 indicates the company name from the characteristic word “(stock)”.

【0116】同様に、「12/月/28/日」のような
形態素列が入力された場合には、「12」は月を表し、
「28」は日を表す個体名であることがわかる。
Similarly, when a morpheme string such as “12 / month / 28 / day” is input, “12” represents the month,
It can be seen that “28” is an individual name representing a day.

【0117】なお、特徴語は、「山田/一郎/部長」
「(株)/ジャスト」のように、個体名を表す形態素
(列)の中に含まれ、これを含む形態素(列)全体にカ
テゴリを割り当てることができる。
The characteristic word is “Yamada / Ichiro / Manager”
Like “(share) / just”, a category is included in a morpheme (column) representing an individual name, and a category can be assigned to the entire morpheme (column) including this.

【0118】一方、共起語とは、特徴語と同様の機能を
有するが、個体名を表す形態素(列)の中には含まれな
いものをいう。たとえば、「アルト/を/発売」という
形態素列が入力された場合、「発売」という共起語か
ら、「アルト」が個体名を表す形態素(列)でありカテ
ゴリ「商品名」が付与される。「発売」は、当該個体名
を表す形態素(列)には含まれない。
On the other hand, a co-occurrence word has a function similar to that of a characteristic word, but is not included in a morpheme (string) representing an individual name. For example, when a morpheme sequence of “alto / wo / release” is input, “alto” is a morpheme (column) representing an individual name and a category “product name” is given from the co-occurrence word of “release” . “Release” is not included in the morpheme (column) representing the individual name.

【0119】このような特徴語、共起語の情報は、ルー
ル記憶部155に記憶される。図5は、ルール記憶部1
55に記憶される特徴語、共起語の様子を示す模式図で
ある。
Information on such characteristic words and co-occurrence words is stored in the rule storage unit 155. FIG. 5 shows the rule storage unit 1
It is a schematic diagram which shows the aspect of the characteristic word and co-occurrence word memorize | stored in 55.

【0120】ルール記憶部155に実際に記憶されるの
は、本図に示す表のうち、ルール記憶部155には、
「テーブル分類」欄と「登録語」欄である。
What is actually stored in the rule storage unit 155 is that in the table shown in FIG.
There are a "table classification" column and a "registered word" column.

【0121】「テーブル分類」は、同じような特徴を有
する特徴語、共起語を識別するための識別子であり、
「登録語」は、当該特徴を有する特徴語、共起語であ
る。
"Table classification" is an identifier for identifying characteristic words and co-occurrence words having similar characteristics.
“Registered words” are characteristic words and co-occurring words having the characteristics.

【0122】たとえば、分類「T15」に属する「産
業」「興業」「建設」はいずれも「後接特徴語」で、こ
れらの特徴語を含む個体名の形態素(列)の属性(カテ
ゴリ)は「商品名」である。
For example, “industry”, “industry”, and “construction” belonging to the classification “T15” are all “subsequent characteristic words”, and the attribute (category) of the morpheme (column) of the individual name including these characteristic words is "Product name".

【0123】一方、分類「T11」に属する「発売」
「販売」「開発」「発表」は、いずれも「後接用言」
で、これらの特徴語の前に配置された形態素(列)の属
性(カテゴリ)は「商品名」である。
On the other hand, “release” belonging to the classification “T11”
"Sales", "development" and "announcement" are all "afterwords"
The attribute (category) of the morpheme (column) arranged before these characteristic words is “product name”.

【0124】(並列する名詞句の認定ルール)並列する
名詞句により未登録の形態素(列)を個体名であると推
定して認定するルールが考えられる。
(Rules for Identifying Parallel Noun Phrases) There may be a rule in which unregistered morphemes (strings) are estimated and identified as individual names by the parallel noun phrases.

【0125】たとえば、「東京/、/ンジャメナ/、/
パリ」のような形態素列が入力され、「東京」および
「パリ」が地域名を表す個体名であると判定された場
合、「ンジャメナ」が第1の個体名記憶部153に記憶
されていない未登録語であっても、地域名を表す個体名
であると推測することができる。
For example, "Tokyo /, / Ndjamena /, /
When a morphological sequence such as "Paris" is input and it is determined that "Tokyo" and "Paris" are individual names representing a region name, "Ndjamena" is not stored in the first individual name storage unit 153. Even an unregistered word can be inferred to be an individual name representing a region name.

【0126】「ンジャメナ」がカタカナのみの綴りから
なることから、これが未登録語であっても、形態素解析
で「ンジャメナ」が名詞相当語であることがわかるが、
それ以上の情報は得られない。名詞句の並列を用いたル
ールによって、これが地域名であるらしいと推定できる
のである。
Since “Ndjamena” is composed of only katakana spelling, even if this is an unregistered word, it can be understood that “Ndjamena” is a noun equivalent word by morphological analysis.
No further information is available. It is possible to presume that this seems to be a region name by rules using parallel noun phrases.

【0127】(格パターン認定ルール)同じ文の中で
の、体言と用言の共起関係を用いて個体名を推定して認
定するルールが考えられる。
(Case Pattern Recognition Rule) A rule for estimating and recognizing an individual name using the co-occurrence relationship between a noun and a verbal in the same sentence can be considered.

【0128】たとえば、「FULLBAND/を/10/月/に
/ジャスト/が/発売/し/た」という文で、「FULLBA
ND」が未登録語である場合、形態素解析では、「FULLBA
ND」が名詞相当語句であることまでしかわからない。
For example, in the sentence "FULLBAND / wo / 10 / month / ni / just / ga / release / do / ta", "FULLBA /
If ND is an unregistered word, morphological analysis will use FULLBA
We only know that "ND" is a noun equivalent.

【0129】本ルールでは、同じ文の中にある「発売」
の目的格が「FULLBAND」になっている、という共起関係
を利用し、「FULLBAND」は商品名であると推定して個体
名として認定する。
In this rule, “release” in the same sentence
Utilizing the co-occurrence relationship that the target case of "FULLBAND" is "FULLBAND", "FULLBAND" is presumed to be a trade name and is recognized as an individual name.

【0130】図6に、共起関係認定ルールを含む認定ル
ールがルール記憶部155に記憶される様子を示す。図
6に示す認定ルールは、図5に示す特徴語、共起語の情
報を参照して定義されている。
FIG. 6 shows a state in which an authorization rule including a co-occurrence relationship authorization rule is stored in the rule storage unit 155. The authorization rules shown in FIG. 6 are defined with reference to the information on characteristic words and co-occurrence words shown in FIG.

【0131】たとえば、「新製品」は「T11」に、開
きかぎかっこは「T12」に、閉じかぎかっこは「T1
3」に、「を」は「T14」に、「発売」は「T15」
に、それぞれ含まれるため、これらの共起関係より、形
態素列『新製品/「/ジン/」』(明確のため二重かぎ
かっこを使って形態素列を示した)に属性(カテゴリ)
「商品名」が付されることになる。
For example, "new product" is "T11", open brackets are "T12", and closed brackets are "T1".
"3", "wo" is "T14", "Release" is "T15"
Attribute (category) in the morpheme sequence "new product /" / gin / "" (double quotation marks are used for clarity) because of the co-occurrence relationship
"Product name" will be added.

【0132】(文間照応関係認定ルール)このほか、一
度認定された個体名を表す形態素(列)が、その属性と
ともに第2の個体名記憶部154に記憶されていること
により、異なる文の間でも照応関係を用いて個体名を推
定して認定することができる。個体名を表す形態素
(列)が新たに発見され、新たに発見した個体名を表す
形態素(列)が第2の個体名記憶部154に追加更新さ
れている間は、上記のルールを繰り返して適用すること
により、実現できる。
(Inter-sentence anaphor relationship recognition rule) In addition, the morpheme (column) representing the once-recognized individual name is stored in the second individual name storage unit 154 along with its attribute, so that a different sentence It is possible to estimate the individual name by using the anaphor relationship and to certify the individual. While the morpheme (column) representing the individual name is newly discovered and the morpheme (column) representing the newly discovered individual name is additionally updated in the second individual name storage unit 154, the above rule is repeated. It can be realized by applying.

【0133】たとえば文章の前方に「鈴木/さん/の/
開発/し/た」のような文があった場合、「鈴木」が役
割素性「人物名」の個体名として第2の個体名記憶部1
54に記憶される。これにより、文章の後方に「『/商
品/の/開発/は/大変/で/し/た/』/(/鈴木
/)」のような文があっても、この文の「鈴木」は役割
素性「人物名」の個体名として推定して認定することが
できる。
For example, “Suzuki / san / no /
If there is a sentence such as “develop / do / ta”, “Suzuki” is stored in the second individual name storage unit 1 as the individual name of the role feature “person name”.
54. As a result, even if there is a sentence such as “[/ product /// development / wa / major / de / shi / ta /] / (/ suzuki /)” at the back of the sentence, “suzuki” in this sentence is It can be estimated and estimated as the individual name of the role feature "person name".

【0134】このほか、URL、電子メールアドレス、
電話番号、ファクシミリ番号などは、これらに対応する
正規表現にマッチする部分を個体名として認定するルー
ルを設定すれば、文字の種類(パターン)による認定ル
ールを設定して認定することも可能である。
In addition, URL, e-mail address,
If a rule that recognizes a part that matches a regular expression corresponding to the telephone number, facsimile number, etc. is set as an individual name, it is possible to set a rule based on the type (pattern) of the character and to perform the recognition. .

【0135】なお、「徳島」を第1の個体名記憶部15
3に記憶し、地名の後に「県」が現われたら、それは
「県名」である旨のルールをルール記憶部154に記憶
しておけば、「徳島県」を第1の個体名記憶部153に
記憶する必要はない。このように認定ルールを用いるこ
とで、記憶領域を節約し、用語の管理を用意にすること
もできる。
Note that “Tokushima” is stored in the first individual name storage unit 15.
3 and "prefecture" appears after the place name, a rule indicating that it is "prefecture name" is stored in the rule storage unit 154, and "Tokushima prefecture" is stored in the first individual name storage unit 153. There is no need to memorize. By using the authorization rules in this way, it is possible to save the storage area and make the management of terms easy.

【0136】これらのルールは適宜変更・追加・削除す
ることが可能であり、変更・追加・削除した実施形態も
本発明の範囲に含まれる。
These rules can be changed, added, or deleted as appropriate, and the changed, added, or deleted embodiments are also included in the scope of the present invention.

【0137】(第2の個体名記憶部)上述したように、
一度認定された個体名を表す形態素(列)は、その属性
(品詞、字面、字種、カテゴリ、役割素性等)ととも
に、第2の個体名記憶部154に一時的に記憶される。
この際の記憶領域のフォーマットは、第1の個体名記憶
部153と同様のものを採用することができる。
(Second individual name storage unit) As described above,
The morpheme (row) representing the individual name once recognized is temporarily stored in the second individual name storage unit 154 along with its attributes (part of speech, character face, character type, category, role feature, etc.).
At this time, the format of the storage area may be the same as that of the first individual name storage unit 153.

【0138】上述した認定ルールは、近傍に配置された
形態素(列)によって個体名を認定するものである。し
たがって、認定ルールだけでは、認定が不十分になる場
合がある。たとえば、「Fullbandを発売した。
Fullbandはすばらしい。」のような文章では、
「Fullband」が未登録であっても、第1の個体
名記憶部153に記憶された特徴語・共起語「発売」
と、ルール記憶部155に記憶された認定ルールから
「Fullband」が商品名を表す個体名であること
がわかる。
The above-described recognition rule is for certifying an individual name by a morpheme (row) arranged in the vicinity. Therefore, the certification rule alone may result in insufficient certification. For example, "We released Fullband.
Fullband is wonderful. In a sentence like "
Even if “Fullband” is not registered, the feature word / co-occurrence word “release” stored in the first individual name storage unit 153
From the authorization rules stored in the rule storage unit 155, it can be seen that “Fullband” is an individual name representing a product name.

【0139】第2の個体名記憶部154に記憶される。
第2文が単独で表れた場合には、「Fullband」
が商品名であると推測することは難しいが、本発明にお
いては、第1文の認定結果が第2の個体名記憶部154
に記憶される。したがって、第2文においても、「Fu
llband」が商品名を表す個体名だとわかる。
The information is stored in the second individual name storage unit 154.
If the second sentence appears alone, "Fullband"
Is difficult to guess, but in the present invention, the certification result of the first sentence is stored in the second individual name storage unit 154.
Is stored. Therefore, also in the second sentence, “Fu
It is understood that "llband" is an individual name representing a product name.

【0140】なお、同じ字面が出現した場合に無条件で
再利用するのではなく、形態素解析の結果や、形態素
(列)が持つ属性などもチェックする。たとえば、「月
まで旅行したい。今日は11月1日だ。」のような文章
では、最初の「月」は「旅行」を共起語とするため地名
を表す個体名と認定してこれを記憶するが、次の「月」
は、形態素解析の結果、時間の接尾語という品詞が付与
されるため、地名とは認定しない。
When the same character appears, the result of morphological analysis and the attributes of the morpheme (column) are checked instead of being unconditionally reused. For example, in a sentence such as “I want to travel to the moon. Today is November 1”, the first “moon” is recognized as an individual name representing a place name because “travel” is a co-occurrence word. Remember, the next month
Is not recognized as a place name because a part-of-speech of time is added as a result of morphological analysis.

【0141】さて、第2の個体名記憶部154は、現在
処理している文章特有の個体名の情報を含むため、たと
えば、文献の種類が変わるたびに消去する必要がある。
Since the second individual name storage unit 154 contains information on the individual name unique to the text currently being processed, the second individual name storage unit 154 needs to be deleted each time the type of document changes.

【0142】消去のタイミングについては、以下のよう
な手法が考えられる。
As for the erasing timing, the following method can be considered.

【0143】・異なる文献に由来する形態素列の処理を
開始した場合。
When the processing of a morpheme sequence derived from a different document is started.

【0144】・当該個体名を表す形態素(列)が第2の
個体名記憶部154に記憶されて以降に処理された形態
素の数が所定の数を超えた場合。
When the number of morphemes processed after the morpheme (column) representing the individual name is stored in the second individual name storage unit 154 exceeds a predetermined number.

【0145】・当該個体名を表す形態素(列)が第2の
個体名記憶部154に記憶されて以降に認定ルールによ
り使用されなかった期間が所定の期間(所定の形態素の
処理数等)を超えた場合。
The period during which the morpheme (column) representing the individual name is stored in the second individual name storage unit 154 and which has not been used by the certification rule is a predetermined period (such as the number of processed morphemes). If exceeded.

【0146】・ユーザによる指示があった場合。When there is an instruction from the user.

【0147】このように、本発明では、第2の個体名記
憶部154に認定した個体名を一時的に記憶することに
より、ある認定ルールを用いて一つの文に対して認定さ
れた個体名の情報を、他の文においても利用することが
できる。その結果、当該認定ルールを直接適用すること
ができないような文においても、その個体名を認定する
ことができるようになる。
As described above, according to the present invention, by storing the recognized individual names in the second individual name storage unit 154 temporarily, the individual names recognized for one sentence using a certain recognition rule can be obtained. Can be used in other sentences. As a result, even in a sentence in which the recognition rule cannot be directly applied, the individual name can be recognized.

【0148】(出力形式)図7は、本発明の個体名の抽
出装置による個体名の認定結果を出力した表示例を示す
説明図である。本図に示される文章のうち、斜体で下線
を付されて強調表示されている部分が個体名として抽出
された形態素(列)である。「韓国」「'99.9.10」「十
頁」などの形態素(列)が抽出されている。
(Output Format) FIG. 7 is an explanatory diagram showing a display example in which the result of individual name recognition by the individual name extraction device of the present invention is output. In the text shown in this figure, the part highlighted in italics and underlined is the morpheme (column) extracted as the individual name. Morphological elements (columns) such as "Korea", "99.9.10", and "ten pages" are extracted.

【0149】本図に示す出力例では、出力部は、抽出さ
れた個体名の形態素(列)を画面に出力しているが、さ
らに情報を付加して、ほかのアプリケーション等に抽出
結果を渡すことができる。
In the output example shown in this figure, the output unit outputs the morpheme (column) of the extracted individual name to the screen, but further adds information and passes the extraction result to another application or the like. be able to.

【0150】たとえば、抽出された個体名の形態素
(列)と、これに対応する属性(カテゴリや役割素性等
を含む。)と、をあわせて出力することができる。形態
素(列)の属性は、第1の個体名記憶部153、第2の
個体名記憶部154、および、ルール記憶部155に記
憶された情報から得ることができる。
For example, a morpheme (column) of the extracted individual name and an attribute (including a category, a role feature, etc.) corresponding thereto can be output together. The attribute of the morpheme (column) can be obtained from information stored in the first individual name storage unit 153, the second individual name storage unit 154, and the rule storage unit 155.

【0151】この実施形態により、以下のような出力を
行うことができる。「1/月/26/日」に対して
「1」に役割素性「月数」を、「26」に役割素性「日
数」を、「1月26日」全体にはカテゴリ「日付」を、
それぞれ対応付けて出力する。「山田/部長」に対して
「山田」に役割素性「姓」を、「山田部長」全体にはカ
テゴリ「人名」を、それぞれ対応付けて出力する。「株
式会社/田中/商会/山田/社長」に対して、「田中」
に役割素性「会社名」を、「商会」に役割素性「会社
名」を、「田中商会」に属性「会社名」を、「株式会社
田中商会」に属性「会社名」を、「山田」に役割素性
「人名;姓」を、「社長」に役割素性「肩書き」を、
「山田社長」に属性「人名」を、「株式会社田中商会山
田社長」にカテゴリ「人名」を、それぞれ対応付けて出
力する。
According to this embodiment, the following output can be performed. For "1 / month / 26 / day", the role feature "number of months" is set to "1", the role feature "days" is set to "26", the category "date" is set for "January 26" as a whole,
These are output in association with each other. For “Yamada / Manager”, the role feature “surname” is output to “Yamada”, and the category “person name” is output to “Yamada” as a whole. "Tanaka" for "Corporation / Tanaka / Shokai / Yamada / President"
The role feature "company name", the company "role name" for "shokai", the attribute "company name" for "Tanaka Shokai", the attribute "company name" for "Tanaka Shokai Co., Ltd." and "Yamada". The role feature "person name; surname" and the "president" the role feature "title"
The attribute “person name” is output in association with “President Yamada”, and the category “person name” is output in association with “President Tanaka Corporation Yamada”.

【0152】このような属性の情報を合わせて出力する
ことにより、「姓」と考えられる個体名のみを抽出する
等、属性によって文献を検索したり、機械要約の際に利
用することができる。
By outputting such attribute information together, it is possible to search for documents based on attributes, such as extracting only individual names considered to be “surname”, and to use the information in machine summarization.

【0153】[0153]

【発明の効果】以上説明したように、本発明によれば、
入力された形態素列から個体名を表す形態素またはその
列を抽出するのに好適な抽出装置、抽出方法、および、
記録媒体を提供することができる。
As described above, according to the present invention,
An extraction device, an extraction method, and an extraction method suitable for extracting a morpheme representing an individual name or a sequence thereof from an input morpheme sequence.
A recording medium can be provided.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の個体名の抽出装置を実現する情報処理
装置の概要構成を示す模式図である。
FIG. 1 is a schematic diagram showing a schematic configuration of an information processing device for realizing an individual name extracting device of the present invention.

【図2】本発明の個体名の抽出装置の各機能の概要構成
を示す模式図である。
FIG. 2 is a schematic diagram showing a schematic configuration of each function of the individual name extracting device of the present invention.

【図3】本発明の個体名の抽出装置において実行される
処理、すなわち、本発明の個体名の抽出方法の処理の流
れを示すフローチャートである。
FIG. 3 is a flowchart showing a flow of processing executed by the individual name extracting apparatus of the present invention, that is, the processing flow of the individual name extracting method of the present invention.

【図4】本発明の第1の個体名記憶部に記憶される個体
名を表す形態素(列)と、その属性の例を示す説明図で
ある。
FIG. 4 is an explanatory diagram showing morphemes (columns) representing individual names stored in a first individual name storage unit of the present invention and examples of attributes thereof.

【図5】本発明の認定ルールで用いられる特徴語、共起
語がルール記憶部に記憶される様子を示す説明図であ
る。
FIG. 5 is an explanatory diagram showing a state in which characteristic words and co-occurrence words used in the authorization rule of the present invention are stored in a rule storage unit.

【図6】本発明のルール記憶部に記憶される共起関係認
定ルールがルール記憶部に記憶される様子を示す説明図
である。
FIG. 6 is an explanatory diagram showing a state in which co-occurrence relation recognition rules stored in a rule storage unit of the present invention are stored in a rule storage unit.

【図7】本発明の個体名の抽出装置、抽出方法の出力結
果を示す説明図である。
FIG. 7 is an explanatory diagram showing output results of the individual name extracting device and the extracting method of the present invention.

【符号の説明】[Explanation of symbols]

101 情報処理装置 102 CPU 103 ROM 104 ハードディスク 105 キーボード 106 マウス 107 RAM 108 表示装置 109 インターフェース 110 FDドライブ 111 CD−ROMドライブ 151 個体名の認定装置 152 入力受付部 153 第1の個体名記憶部 154 第2の個体名記憶部 155 ルール記憶部 156 認定部 157 更新部 158 出力部 Reference Signs List 101 information processing device 102 CPU 103 ROM 104 hard disk 105 keyboard 106 mouse 107 RAM 108 display device 109 interface 110 FD drive 111 CD-ROM drive 151 individual name recognition device 152 input receiving unit 153 first individual name storage unit 154 second Name storage unit 155 rule storage unit 156 certification unit 157 update unit 158 output unit

Claims (15)

【特許請求の範囲】[Claims] 【請求項1】形態素列を入力として受け付ける入力受付
部と、 個体名を表す形態素またはその列を、その属性と対応付
けてあらかじめ記憶する第1の個体名記憶部と、 個体名を表す形態素またはその列を、その属性と対応付
けて一時的に記憶する第2の個体名記憶部と、 形態素列から個体名を表す形態素またはその列を、その
属性と対応付けて認定するルールをあらかじめ記憶する
ルール記憶部と、 前記受け付けられた形態素列から前記第1もしくは第2
の個体名記憶部に記憶された形態素またはその列を認定
し、また、前記受け付けられた形態素列から前記あらか
じめ記憶されたルールにより個体名を表す形態素または
その列を認定する認定部と、 前記第2の個体名記憶部を更新して、前記認定された個
体名を表す形態素またはその列を、その属性と対応付け
て一時的に記憶させる更新部と、 前記認定された個体名を表す形態素またはその列を、抽
出した個体名として出力する出力部とを備えることを特
徴とする個体名の抽出装置。
An input receiving unit for receiving a morpheme string as an input; a first individual name storage unit for storing in advance a morpheme or a string representing an individual name in association with its attribute; a morpheme representing an individual name; A second individual name storage unit for temporarily storing the column in association with the attribute, and a rule for preliminarily storing a morpheme representing the individual name from the morphological sequence or a rule for identifying the column in association with the attribute. A rule storage unit, and the first or second from the received morpheme sequence
A certification unit that recognizes a morpheme or a sequence thereof stored in the individual name storage unit, and also recognizes a morpheme or a sequence thereof representing an individual name from the received morpheme sequence by the previously stored rule. An updating unit that updates the individual name storage unit 2 and temporarily stores a morpheme or a row of the identified individual name in association with its attribute; and a morpheme or a morpheme representing the identified individual name. An output unit that outputs the column as an extracted individual name.
【請求項2】前記更新部により前記第2の個体名記憶部
が更新された場合、前記認定部に個体名を表す形態素ま
たはその列を再度認定させる再認定制御部をさらに備え
ることを特徴とする請求項1に記載の抽出装置。
2. A re-authorization control unit for re-authorizing a morpheme representing an individual name or a column thereof, when the second individual name storage unit is updated by the updating unit. The extraction device according to claim 1.
【請求項3】特定条件が満たされた場合、前記第2の個
体名記憶部から当該一時的に記憶された個体名を表す形
態素またはその列を消去する消去部をさらに備えること
を特徴とする請求項1または2に記載の抽出装置。
3. The image processing apparatus according to claim 2, further comprising an erasing unit for erasing a morpheme or a column of the temporarily stored individual name from the second individual name storage unit when a specific condition is satisfied. The extraction device according to claim 1 or 2.
【請求項4】前記認定部は、前記あらかじめ記憶された
ルールにより、個体名を表す第1の形態素またはその列
と、個体名を表す第2の形態素またはその列と、にはさ
まれた形態素またはその列を、個体名を表す形態素また
はその列として認定することを特徴とする請求項1から
3のいずれか1項に記載の抽出装置。
4. The certifying section according to claim 1, wherein said morpheme is sandwiched between a first morpheme or a string thereof representing an individual name and a second morpheme or a string thereof representing an individual name according to the rule stored in advance. 4. The extraction device according to claim 1, wherein the sequence is identified as a morpheme representing an individual name or a sequence thereof. 5.
【請求項5】前記認定部は、前記あらかじめ記憶された
ルールにより、あらかじめ定めた形態素またはその列に
連接する形態素またはその列を個体名を表す形態素また
はその列として認定することを特徴とする請求項1から
3のいずれか1項に記載の抽出装置。
5. The certifying unit according to claim 1, wherein the certifying unit certifies a morpheme connected to a predetermined morpheme or a string thereof or a string thereof as a morpheme representing an individual name or a string thereof according to the previously stored rule. Item 4. The extraction device according to any one of Items 1 to 3.
【請求項6】個体名を表す形態素またはその列を、その
属性と対応付けてあらかじめ記憶する第1の個体名記憶
部と、個体名を表す形態素またはその列を、その属性と
対応付けて一時的に記憶する第2の個体名記憶部と、形
態素列から個体名を表す形態素またはその列を、その属
性と対応付けて認定するルールをあらかじめ記憶するル
ール記憶部とを備えるコンピュータにおいて、形態素列
から個体名を抽出する抽出方法であって、 形態素列を入力として受け付ける入力受付ステップと、 前記受け付けられた形態素列から前記第1もしくは第2
の個体名記憶部に記憶された形態素またはその列を認定
し、また、前記受け付けられた形態素列から前記あらか
じめ記憶されたルールにより個体名を表す形態素または
その列を認定する認定ステップと、 前記第2の個体名記憶部を更新して、前記認定された個
体名を表す形態素またはその列を、その属性と対応付け
て一時的に記憶させる更新ステップと、 前記認定された個体名を表す形態素またはその列を、抽
出した個体名として出力する出力ステップとを備えるこ
とを特徴とする個体名の抽出方法。
6. A first individual name storage unit for storing a morpheme representing an individual name or its column in advance in association with its attribute, and temporarily storing a morpheme or its column representing an individual name in association with its attribute. A computer comprising a second individual name storage unit that stores the morphemes representing the individual names from the morpheme sequence or a rule for associating the morphemes with the attributes thereof in advance. An input method for receiving a morpheme string as an input, and an input method for extracting an individual name from the received morpheme string;
Certifying a morpheme or a column thereof stored in the individual name storage unit of the individual, and certifying a morpheme or a column thereof representing the individual name by the previously stored rule from the received morphological sequence; An update step of updating the individual name storage unit 2 and temporarily storing a morpheme or a column thereof representing the recognized individual name in association with its attribute; and a morpheme or a morpheme representing the recognized individual name. An output step of outputting the column as an extracted individual name.
【請求項7】前記更新ステップにて前記第2の個体名記
憶部が更新された場合、前記認定ステップにて個体名を
表す形態素またはその列を再度認定させる再認定制御ス
テップをさらに備えることを特徴とする請求項6に記載
の抽出方法。
7. A re-certification control step of re-certifying a morpheme representing an individual name or a column thereof in the certification step when the second individual name storage unit is updated in the updating step. The extraction method according to claim 6, characterized in that:
【請求項8】特定条件が満たされた場合、前記第2の個
体名記憶部から当該一時的に記憶された個体名を表す形
態素またはその列を消去する消去ステップをさらに備え
ることを特徴とする請求項6または7に記載の抽出方
法。
8. The method according to claim 1, further comprising an erasing step of erasing a morpheme or a column of the temporarily stored individual name from the second individual name storage unit when a specific condition is satisfied. The extraction method according to claim 6.
【請求項9】前記認定ステップにて、前記あらかじめ記
憶されたルールにより、個体名を表す第1の形態素また
はその列と、個体名を表す第2の形態素またはその列
と、にはさまれた形態素またはその列を、個体名を表す
形態素またはその列として認定することを特徴とする請
求項6から8のいずれか1項に記載の抽出方法。
9. In the certifying step, a first morpheme or a string representing an individual name and a second morpheme or a string representing an individual name are sandwiched by the rule stored in advance. The method according to any one of claims 6 to 8, wherein the morpheme or a sequence thereof is recognized as a morpheme or a sequence representing an individual name.
【請求項10】前記認定ステップにて、前記あらかじめ
記憶されたルールにより、あらかじめ定めた形態素また
はその列に連接する形態素またはその列を個体名を表す
形態素またはその列として認定することを特徴とする請
求項6から8のいずれか1項に記載の抽出方法。
10. The certifying step according to claim 1, wherein a morpheme connected to a predetermined morpheme or a sequence thereof or a sequence thereof is recognized as a morpheme representing an individual name or a sequence thereof according to the rule stored in advance. The extraction method according to any one of claims 6 to 8.
【請求項11】コンピュータを、 形態素列を入力として受け付ける入力受付部、 個体名を表す形態素またはその列を、その属性と対応付
けてあらかじめ記憶する第1の個体名記憶部、 個体名を表す形態素またはその列を、その属性と対応付
けて一時的に記憶する第2の個体名記憶部、 形態素列から個体名を表す形態素またはその列を、その
属性と対応付けて認定するルールをあらかじめ記憶する
ルール記憶部、 前記受け付けられた形態素列から前記第1もしくは第2
の個体名記憶部に記憶された形態素またはその列を認定
し、また、前記受け付けられた形態素列から前記あらか
じめ記憶されたルールにより個体名を表す形態素または
その列を認定する認定部、 前記第2の個体名記憶部を更新して、前記認定された個
体名を表す形態素またはその列を、その属性と対応付け
て一時的に記憶させる更新部、および前記認定された個
体名を表す形態素またはその列を、抽出した個体名とし
て出力する出力部として機能させるためのプログラムを
記録することを特徴とするコンピュータ読取可能な記録
媒体。
11. An input receiving unit for receiving a morpheme string as an input, a morpheme representing an individual name or a first individual name storage unit for storing a string thereof in association with its attribute, a morpheme representing an individual name. Or a second individual name storage unit for temporarily storing the column in association with the attribute, and storing in advance a rule for identifying the morpheme representing the individual name or the column from the morphological sequence in association with the attribute. A rule storage unit, the first or second from the received morpheme sequence
A morpheme stored in the individual name storage unit or a column thereof, and a certifying unit that certifies a morpheme representing the individual name or a column thereof based on the previously stored rule from the received morpheme sequence, An update unit that updates the individual name storage unit and temporarily stores the morpheme or the column representing the recognized individual name in association with the attribute, and the morpheme or the morpheme representing the recognized individual name. A computer-readable recording medium for recording a program for causing a column to function as an output unit that outputs the extracted individual name.
【請求項12】前記プログラムは、前記コンピュータ
を、 前記更新部により前記第2の個体名記憶部が更新された
場合、前記認定部に個体名を表す形態素またはその列を
再度認定させる再認定制御部としてさらに機能させるこ
とを特徴とする請求項11に記載のコンピュータ読取可
能な記録媒体。
12. The re-authorization control for causing the computer to re-authorize a morpheme representing an individual name or a column thereof when the second individual name storage unit is updated by the updating unit. The computer-readable recording medium according to claim 11, wherein the recording medium further functions as a unit.
【請求項13】前記プログラムは、前記コンピュータ
を、 特定条件が満たされた場合、前記第2の個体名記憶部か
ら当該一時的に記憶された個体名を表す形態素またはそ
の列を消去する消去部としてをさらに機能させることを
特徴とする請求項11または12に記載のコンピュータ
読取可能な記録媒体。
13. The program according to claim 1, wherein the computer deletes a morpheme representing the temporarily stored individual name or a sequence thereof from the second individual name storage unit when a specific condition is satisfied. 13. The computer-readable recording medium according to claim 11, further comprising:
【請求項14】前記プログラムにより前記コンピュータ
が前記認定部として機能する場合、 前記認定部は、前記あらかじめ記憶されたルールによ
り、個体名を表す第1の形態素またはその列と、個体名
を表す第2の形態素またはその列と、にはさまれた形態
素またはその列を、個体名を表す形態素またはその列と
して認定することを特徴とする請求項11から13のい
ずれか1項に記載のコンピュータ読取可能な記録媒体。
14. When the computer functions as the certification unit according to the program, the certification unit, according to the rule stored in advance, stores a first morpheme or a string thereof representing an individual name and a first morpheme representing the individual name. 14. The computer-readable medium according to claim 11, wherein the morpheme or its row sandwiched between the second morpheme or its row is identified as a morpheme or its row representing an individual name. Possible recording medium.
【請求項15】前記プログラムにより前記コンピュータ
が前記認定部として機能する場合、 前記認定部は、前記あらかじめ記憶されたルールによ
り、あらかじめ定めた形態素またはその列に連接する形
態素またはその列を個体名を表す形態素またはその列と
して認定することを特徴とする請求項11から13のい
ずれか1項に記載のコンピュータ読取可能な記録媒体。
15. When the computer functions as the recognition unit according to the program, the recognition unit specifies a morpheme or a row connected to a predetermined morpheme or a row thereof by an individual name according to the previously stored rule. 14. The computer-readable recording medium according to claim 11, wherein the morpheme is represented as a morpheme or a sequence thereof.
JP30607599A 1999-10-27 1999-10-27 Individual name extraction device, extraction method, and recording medium Expired - Fee Related JP3734391B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30607599A JP3734391B2 (en) 1999-10-27 1999-10-27 Individual name extraction device, extraction method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30607599A JP3734391B2 (en) 1999-10-27 1999-10-27 Individual name extraction device, extraction method, and recording medium

Publications (2)

Publication Number Publication Date
JP2001125911A true JP2001125911A (en) 2001-05-11
JP3734391B2 JP3734391B2 (en) 2006-01-11

Family

ID=17952748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30607599A Expired - Fee Related JP3734391B2 (en) 1999-10-27 1999-10-27 Individual name extraction device, extraction method, and recording medium

Country Status (1)

Country Link
JP (1) JP3734391B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001216300A (en) * 2000-01-31 2001-08-10 Just Syst Corp Authorization device and authorization method for individual name, and recording medium
JP2008077227A (en) * 2006-09-19 2008-04-03 Access Co Ltd Link generation device, browser program and link generation system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0652221A (en) * 1992-05-08 1994-02-25 Fujitsu Ltd Automatic extracting system for proper noun
JPH11272701A (en) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd Information extraction device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0652221A (en) * 1992-05-08 1994-02-25 Fujitsu Ltd Automatic extracting system for proper noun
JPH11272701A (en) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd Information extraction device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001216300A (en) * 2000-01-31 2001-08-10 Just Syst Corp Authorization device and authorization method for individual name, and recording medium
JP2008077227A (en) * 2006-09-19 2008-04-03 Access Co Ltd Link generation device, browser program and link generation system

Also Published As

Publication number Publication date
JP3734391B2 (en) 2006-01-11

Similar Documents

Publication Publication Date Title
JP5647508B2 (en) System and method for identifying short text communication topics
US8463598B2 (en) Word detection
KR101465769B1 (en) Dictionary word and phrase determination
JP2783558B2 (en) Summary generation method and summary generation device
KR20100038378A (en) A method, system and computer program for intelligent text annotation
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
CN110297880B (en) Corpus product recommendation method, apparatus, device and storage medium
JP5399450B2 (en) System, method and software for determining ambiguity of medical terms
JP2005092883A (en) Chinese word segmentation
CN101526938B (en) File processing device
TW200422874A (en) Graphical feedback for semantic interpretation of text and images
US9454523B2 (en) Non-transitory computer-readable storage medium for storing acronym-management program, acronym-management device, non-transitory computer-readable storage medium for storing expanded-display program, and expanded-display device
CN112418875A (en) Cross-platform tax intelligent customer service corpus migration method and device
JP2002091960A (en) Word and phrase input system, method and program
JP3734391B2 (en) Individual name extraction device, extraction method, and recording medium
JP5085584B2 (en) Article feature word extraction device, article feature word extraction method, and program
JP3576060B2 (en) Approval device for individual name, authentication method, and recording medium
JP3672473B2 (en) Individual name extraction device, extraction method, and recording medium
JP5412137B2 (en) Machine learning apparatus and method
KR20020059555A (en) Searching engine and searching method
JPH01307865A (en) Character string retrieving system
JP2000339342A (en) Method and device for retrieving document
JP2831837B2 (en) Document search device
JP2000315210A (en) Document management system and document managing method
JPH1145249A (en) Information retrieval device and computer-readable recording medium where program for making computer function as same device is recorded

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040817

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041015

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050111

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050314

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050628

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051018

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111028

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111028

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111028

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111028

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111028

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141028

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees