JP2005063071A - Document set classification device and its program - Google Patents
Document set classification device and its program Download PDFInfo
- Publication number
- JP2005063071A JP2005063071A JP2003290929A JP2003290929A JP2005063071A JP 2005063071 A JP2005063071 A JP 2005063071A JP 2003290929 A JP2003290929 A JP 2003290929A JP 2003290929 A JP2003290929 A JP 2003290929A JP 2005063071 A JP2005063071 A JP 2005063071A
- Authority
- JP
- Japan
- Prior art keywords
- document set
- classification
- specific expression
- article
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000014509 gene expression Effects 0.000 claims abstract description 219
- 239000000284 extract Substances 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 239000000463 material Substances 0.000 claims description 8
- 238000000605 extraction Methods 0.000 description 30
- 238000000034 method Methods 0.000 description 26
- 238000012545 processing Methods 0.000 description 13
- 238000012360 testing method Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 238000002474 experimental method Methods 0.000 description 10
- 230000008520 organization Effects 0.000 description 10
- 230000000877 morphologic effect Effects 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、複数の文書を包含する文書セットに分類を付与するための分類装置及びそのプログラムに関する。 The present invention relates to a classification apparatus for assigning a classification to a document set including a plurality of documents, and a program therefor.
複数文書の自動要約は、要約の研究において近年関心の高まっている分野である。米国のDocument Understanding Conference(DUC)や日本のText Summarization Challenge(TSC)でも、要約システムの評価を行う課題として複数文書の要約が対象に加えられている。複数文書要約とは、単一の主題について収集された複数の文書を含む文書セットを単一の文書に要約することである。より具体的に述べると、ある事件の始まりから終わりまでの一連の報告や、特定個人の行動・発言の内容、各地で発生した地震の被害状況等の主題に沿って収集された複数の文書より、当該主題に関する要約を生成することである。 Automatic summarization of multiple documents is an area of increasing interest in summary research in recent years. In the US Document Understanding Conference (DUC) and the Japanese Text Summarization Challenge (TSC), multiple document summaries have been added as subjects to evaluate the summarization system. Multiple document summarization is the summarization of a set of documents containing multiple documents collected on a single subject into a single document. More specifically, from a series of reports collected from the series of reports from the beginning to the end of an incident, the contents of the actions and remarks of specific individuals, the damage situation of earthquakes that occurred in various places, etc. Generating a summary on the subject.
要約の精度を向上させるためには、文書セットがもつ主題を正しく把握し、それに応じて適切な要約手法、出力形式を選択する必要があると考えられる。複数文書要約の観点から文書セットを分類する先行研究として、コロンビア大学のMcKeown等によるものがある(非特許文献1を参照)。McKeown等は、複数の新聞記事を包含する記事セットに付与すべき分類として、
(A)Single-Event(特定の地域・期間に限定された単独の出来事に関する記事セット)
(B)Person-centered(特定人物にまつわる出来事を記述した記事セット)
(C)Multi-Event(異なる地域・期間にまたがった複数の出来事に関する記事セット。大抵は行動主体も異なる)
(D)Other(上記の3分類に当てはまらない、互いに漠然と関連している記事セット)
の4種類を定義した。そして、記事セットを分類する際の手がかりとして、記事セット中の全記事間のタイムスパン、同日に掲載された記事の割合、大文字で始まる語の頻度、he、she等の人称代名詞の頻度、を用いている。
(A) Single-Event (a set of articles related to a single event limited to a specific region / period)
(B) Person-centered (A set of articles describing events related to a specific person)
(C) Multi-Event (a set of articles about multiple events across different regions / periods, usually with different actors)
(D) Other (a set of articles that are not related to the above three categories and are vaguely related to each other)
The following four types were defined. And as a clue when classifying article sets, the time span between all articles in the article set, the ratio of articles published on the same day, the frequency of words starting with capital letters, the frequency of personal pronouns such as he, she, etc. Used.
McKeown等の分類は、要約の対象となる記事セットによく見られる性質を効率よく分類している。しかしながら、幾つかの問題も抱えている。即ち、
・Otherに分類される記事セットが多くなる。これらに対しては他に適切な分類があるのではないかと考えられる。
・分類を判定するアルゴリズムに用いられている手がかりのうち、大文字で始まる語の頻度及びhe、she等の人称代名詞の頻度は英語に特化したものである。より一般的に記事セットの分類を行うためには、用いるべき手がかりを考慮する必要がある。
・上記非特許文献1で分類対象とされた記事データは、複数記事要約の評価ワークショップで使用するために作成されたものである。そのために、一般的な記事セットと比較して整えられているか、あるいは偏りが生じている。
・McKeown等の要約システムでは、実際に複数記事要約を行うときにMulti-EventとOtherとを同一視して同じ要約手法を適用しており、Multi-EventとOtherとを区別した意義が失われている。
McKeown et al.'S classification efficiently categorizes the properties that are often found in the set of articles being summarized. However, there are some problems. That is,
・ The article set classified as Other increases. There may be other appropriate classifications for these.
Of the cues used in the algorithm for determining classification, the frequency of words beginning with capital letters and the frequency of personal pronouns such as he and she are specific to English. In order to classify article sets more generally, it is necessary to consider the clues to be used.
The article data that is classified as the
・ Summary systems such as McKeown apply the same summarization method by equating Multi-Event and Other when actually summarizing multiple articles, and the significance of distinguishing between Multi-Event and Other is lost. ing.
以上に鑑みてなされた本発明は、特定言語の特性に依存せずなおかつ分類の網羅性を高めたより好適な分類を定義した上で、これに基づいた分類を文書セットに付与できる分類装置を提供するものである。 The present invention has been made in view of the above, and provides a classification device that can define a more suitable classification that does not depend on the characteristics of a specific language and that enhances the comprehensiveness of classification, and can assign a classification based on the classification to a document set. To do.
上述した課題を解決すべく、本発明では、複数の文書の集合である文書セットに対し分類を付与するものとして、図1に示すように、前記文書セットの主題が単独の固有表現(Named Entity)に関するものか複数の固有表現に関するものかを判断し、かつ、該固有表現が何れの固有表現クラスに属するかを判断する判断手段101と、前記判断手段101が下した判断に基づき、前記文書セットの主題に係る固有表現が単独であるか複数であるか、及び、該固有表現が属している固有表現クラスという2つの要素より規定される分類についての情報を出力する出力手段102とを具備する文書セット分類装置を構成した。 In order to solve the above-described problem, in the present invention, classification is given to a document set that is a set of a plurality of documents. As shown in FIG. 1, the subject of the document set is a single named entity (Named Entity). ) Or a plurality of specific expressions, and determination means 101 for determining which specific expression class the specific expression belongs to, and the document based on the determination made by the determination means 101 Output means 102 for outputting information about a classification defined by two elements, ie, a specific expression class to which the specific expression belongs, and whether or not the specific expression related to the theme of the set is single or plural. A document set classifying apparatus is configured.
本発明では、文書セットがもつ主題に関連する固有表現が属する固有表現クラスに基づいて分類を定義し、本発明に係る分類装置がこの定義された分類を文書セットに付与するものとした。このようなものであれば、特定言語に依存する度合いが低減するとともに、分類の網羅性が高まる、言い換えるならば文書セットがOtherに分類される可能性が小さくなる。 In the present invention, the classification is defined based on the unique expression class to which the unique expression related to the subject included in the document set belongs, and the classification apparatus according to the present invention assigns the defined classification to the document set. In such a case, the degree of dependence on a specific language is reduced, and the comprehensiveness of classification is increased. In other words, the possibility that a document set is classified as Other is reduced.
ここで、固有表現とは、文書中に含まれる人名、組織名等の固有名詞や日付、金額等の数値表現その他の情報抽出の要素となる表現を言う。固有表現は、情報として重要でありかつその内容を示す表現がほぼ一意に定まるものである。固有表現が属する固有表現クラスの定義は種々考えられるが、一態様として、人名(Person)、組織名(Organization)、地名(Location)、施設名(Facility)、固有物名(Product(製品名、法律名等))、イベント名(Event)の6種を内包するクラス定義を採用することができる。この固有表現クラス定義を採用した場合、文書セットに付与すべき分類は以下の通りとなる。即ち、
(A)Single-Person(単一人物に関する文書セット)
(B)Single-Organization(単一組織に関する文書セット)
(C)Single-Location(単一地域に関する文書セット)
(D)Single-Facility(単一施設に関する文書セット)
(E)Single-Product(単一固有物に関する文書セット)
(F)Single-Event(単一イベントに関する文書セット)
(G)Multi-Person(複数人物に関する文書セット)
(H)Multi-Organization(複数組織に関する文書セット)
(I)Multi-Location(複数地域に関する文書セット)
(J)Multi-Facility(複数施設に関する文書セット)
(K)Multi-Product(複数固有物に関する文書セット)
(L)Multi-Event(複数イベントに関する文書セット)
(M)Other(その他)
但し、固有表現クラスの定義ひいては文書セットの分類の定義はこれに限定されない。よって、例えば、動物名クラス(Single/Multi-Animal)等を追加することができ、人名、動物名等を一のクラス、いわば行動主体を表現するクラスである「主体名クラス」にまとめることもできる。
Here, the specific expression means a specific noun such as a person name and an organization name included in a document, a numerical expression such as a date and a monetary amount, and other expressions that are elements of information extraction. The proper expression is important as information, and the expression indicating the content is almost uniquely determined. There are various ways to define a specific expression class to which a specific expression belongs, but as one aspect, a person name (Person), an organization name (Organization), a place name (Location), a facility name (Facility), a unique object name (Product (product name, Legal names etc.)) and class definitions that include six types of event names (Event) can be adopted. When this specific expression class definition is adopted, the classification to be given to the document set is as follows. That is,
(A) Single-Person (Document set for a single person)
(B) Single-Organization (Document set for a single organization)
(C) Single-Location (Document set for a single region)
(D) Single-Facility (Document set for a single facility)
(E) Single-Product (Document set for a single unique product)
(F) Single-Event (document set related to a single event)
(G) Multi-Person (Document set for multiple persons)
(H) Multi-Organization (Document set for multiple organizations)
(I) Multi-Location (Document set for multiple regions)
(J) Multi-Facility (Document set for multiple facilities)
(K) Multi-Product (Document set for multiple unique products)
(L) Multi-Event (document set related to multiple events)
(M) Other
However, the definition of the specific expression class and the definition of the classification of the document set are not limited to this. Therefore, for example, an animal name class (Single / Multi-Animal) can be added, and a person name, an animal name, etc. can be combined into one class, in other words, a “subject name class” that is a class representing an action subject it can.
文書セット分類装置における前記判断手段101は、通常、前記文書セットに含まれる複数の文書の中に出現する固有表現の頻度または固有表現クラスの頻度のうち少なくとも一方を材料として、前記文書セットの主題に係る固有表現が単独であるか複数であるかの判断及び該固有表現が属する固有表現クラスの判断を実行する。但し、ここに言う頻度は、文書セットに包含される複数の文書中に出現する特定の固有表現等の出現頻度には限られず、特定の固有表現等が出現する文書の数(文書セットにおける文書の頻度)であることがある。
The
加えて、前記判断手段101が、前記文書セットに含まれる複数の文書の中に出現するクラスタームの頻度またはクラスタームが関連する固有表現クラスの頻度のうち少なくとも一方を材料として、前記文書セットの主題に係る固有表現が属する固有表現クラスの判断を実行するものであってもよい。クラスタームとは、特定の固有表現クラスに関連の強い名詞または複合名詞のことである。例えば、「首相」等の役職名は人名クラスのクラスタームであり、「地震」等の名詞はイベント名クラスのクラスタームである。因みに、クラスタームは、固有表現そのものとは異なり、一般名詞である。
In addition, the
また、特に、文書セットに含まれる各文書の作成時または発表時が判明しているような場合において、前記判断手段101が、前記文書セットに含まれる複数の文書の各々の作成若しくは発表された時点に関する情報を参照し、これら複数の文書のうちの一部または全部が予め定められた期間内に作成若しくは発表されていることを条件として、前記記事セットの主題に係る固有表現が単独でありかつその属する固有表現クラスがイベント名クラスである旨の判断を下すものとしてもよい。このとき、当該文書セットにはSingle-Eventの分類が付与される。
In particular, in the case where the creation or publication time of each document included in the document set is known, the
図2に示すように、上記の文章セット分類装置が、与えられた文書の中に存在するキーワードを抽出し、一の文書のキーワードと他の文書のキーワードとの類似度を算出し、その類似度が閾値を超える場合にこれらの文書を同一の文書セットに割り当てることを通じて、複数の文書から少なくとも一の文書セットを生成し得る文書セット生成手段103をさらに具備するものであれば、与えられた複数の文書を一または複数の文書セットに仕分けしこれに分類を付与するまでの処理を一括に実行可能となる。このものは、与えられた文書を基に一または複数の要約を自動生成するシステムを構築するために有用となる。 As shown in FIG. 2, the above sentence set classification device extracts keywords existing in a given document, calculates the similarity between the keyword of one document and the keyword of another document, and the similarity Given that the document set generation means 103 can further generate at least one document set from a plurality of documents by assigning these documents to the same document set when the degree exceeds a threshold value Processing until a plurality of documents are sorted into one or a plurality of document sets and a classification is given thereto can be executed in a batch. This is useful for constructing a system that automatically generates one or more summaries based on a given document.
さらに、図3に示すように、上記の文書セット要約装置が文書セットに対して付与した分類を参照し、この分類に対応した要約アルゴリズムを選択して前記文書セットに含まれる複数の文書を要約する要約手段201を具備する文書要約装置を構成することで、より適切に複数文書の要約を実行することが可能となる。 Further, as shown in FIG. 3, the document set summarization apparatus refers to the classification given to the document set, selects a summarization algorithm corresponding to the classification, and summarizes a plurality of documents included in the document set. By configuring the document summarizing apparatus including the summarizing means 201, it is possible to execute summarization of a plurality of documents more appropriately.
以上に詳述した本発明によれば、特定言語の特性に依存せず、かつ分類の網羅性を高めたより好適な分類を文書セットに付与し得る。 According to the present invention described in detail above, it is possible to assign a more suitable classification to a document set that does not depend on the characteristics of a specific language and that improves the comprehensiveness of classification.
以下、本発明の一実施形態を、図面を参照して説明する。はじめに、本発明における分類の定義及びその妥当性について述べる。ここでは、分析対象とする文書セットとして複数の新聞記事を包含する記事セットを実験的に生成し、これを分析して固有表現クラスを基にした分類を定義する。そして、この分類を、テストデータとなる別の日本語新聞記事セット、及び、DUC2001で使用された英語新聞記事セットに適用することにより、分類の定義の妥当性を検証する。 Hereinafter, an embodiment of the present invention will be described with reference to the drawings. First, the definition of the classification in the present invention and its validity will be described. Here, an article set including a plurality of newspaper articles is experimentally generated as a document set to be analyzed, and this is analyzed to define a classification based on the specific expression class. Then, by applying this classification to another Japanese newspaper article set as test data and the English newspaper article set used in DUC2001, the validity of the classification definition is verified.
記事セットの偏りを避けるため、日本語新聞記事コーパスから無作為に一の記事を抽出し、その記事に類似する記事を情報検索システムを使用して収集して、記事セットを生成した。具体的な手順は以下の通りである。
(1)日本語新聞記事コーパスに含まれる記事から無作為に記事を一つ選択する
(2)選択した記事からキーワード列を抽出する;キーワード列は、既知の日本語形態素解析ソフトウェア(黒橋禎夫、長尾真 日本語形態素解析システム Juman version 3.61. 京都大学, 1999.)を用いた形態素解析結果より時相名詞、副詞的名詞を除いた名詞のうち頻度2以上のものとした
(3)抽出したキーワード列を用いて、記事間の類似度を求める;各記事について上記(2)と同様にキーワード列を抽出し、キーワード同士の類似度をDice's coefficient(Diceの係数)を用いて求めた
(4)類似した記事を取り出す;同一の記事以外でDiceの係数が所定値(例えば、0.5)以上となる記事を類似記事と見なして取り出した。
In order to avoid the bias of the article set, an article was randomly extracted from the Japanese newspaper article corpus, and articles similar to the article were collected using an information retrieval system to generate an article set. The specific procedure is as follows.
(1) Randomly select one article from articles included in the Japanese newspaper article corpus (2) Extract a keyword string from the selected article; the keyword string is a known Japanese morphological analysis software (Tatsuo Kurohashi) , Makoto Nagao Japanese morphological analysis system Juman version 3.61. Kyoto University, 1999.) From the results of morphological analysis, nouns excluding temporal nouns and adverbial nouns with
以上の記事セット生成を複数回(例えば、50回)繰り返して得られた複数(50)記事セットのうち、3以上の記事を含む記事セットを選出すると26記事セットとなった。これらから、さらに記事セットの内容がほぼ同じと考えられるものを省くと、19記事セットが残った。これらの19記事セットの主題を、図4に示す。 When an article set including three or more articles is selected from a plurality (50) article sets obtained by repeating the above-described article set generation a plurality of times (for example, 50 times), 26 article sets are obtained. From these, 19 articles were left out if items that were considered to have almost the same content were omitted. The subject of these 19 article sets is shown in FIG.
図4の分析結果に示されるように、Singleとは、記事セット中のほとんどの記事が単一のイベントや人名、組織名等の固有表現について記述してあるものである。他方、Multiとは、記事セット中の記事が複数の相異なるイベントや人名、組織名等の固有表現について記述してあるものである。 As shown in the analysis result of FIG. 4, “Single” is a description in which most articles in an article set describe a single event, a specific expression such as a person name and an organization name. On the other hand, Multi is a description in which articles in an article set describe a plurality of different events, specific expressions such as person names and organization names.
本発明では、文書セットたる記事セットの主題を、固有表現クラスのうち一つを選択することを通じて分類した。固有表現クラスの定義としては、拡張されたクラス定義(S. Sekine, K. Sudo and C. Nobata, “Extended named entity hierarchy”, In Proceedings of the LREC-2002 conference, 2002.)を採用した。この定義は階層的であるが、最上位の階層を用いてほぼ全ての記事セットの主題を分類することができた。固有表現クラスを割り当てず、Otherに分類した記事セットは一つだけである(図4における記事セットNo.14)。この記事セットに固有表現クラスを割り当てるとするならば動物名(Animal)クラスとなるが、動物名クラスに分類される記事セットはそれほど多くはないと考えられるので、Otherとした。上述したように固有表現クラスを選択的に割り当てた結果、既に言及した13種類の分類が定義された。因みに、図4に示した分析結果には地名(Location)クラスの分類に対応する記事セットが存在しないが、特定の国や地域に関する記事セットは存在し得るし重要でもあると考えられるので、記事セットの分類の定義に含めた。 In the present invention, the subject of the article set as the document set is classified through selecting one of the proper expression classes. The extended class definition (S. Sekine, K. Sudo and C. Nobata, “Extended named entity hierarchy”, In Proceedings of the LREC-2002 conference, 2002.) was adopted as the definition of the proper expression class. Although this definition is hierarchical, the top level hierarchy could be used to categorize almost all article sets. There is only one article set classified as Other without assigning a unique expression class (article set No. 14 in FIG. 4). If we assign a specific expression class to this article set, it will be an animal name (Animal) class, but since there are not many article sets classified into the animal name class, it was set to Other. As described above, as a result of selectively assigning the specific expression class, the 13 types of classifications already mentioned are defined. Incidentally, the analysis result shown in FIG. 4 does not have an article set corresponding to the classification of the location class (Location) class, but an article set concerning a specific country or region can exist and is also important. Included in the set classification definition.
続いて、定義した分類に基づいてテストデータの分類を行う。ここで使用するテストデータは、日本語新聞記事コーパスから先に述べた方法と同様にして作成される。そして、テストデータとして作成された20の記事セットについて、二人の被験者が独立に分類を付与した。原則として、被験者は各記事セットに一つの分類を割り当てたが、幾つかの記事セットについては複数の分類が可能であると判断して二つの分類を割り当てた。二人の被験者によって割り当てられた各分類の数を、図5に示す。被験者間の一致率は、被験者が最初に選択した分類同士を比較した場合には55%、二番目の分類までを含めた場合には85%であった。Otherに分類された記事セットはなかった。被験者が二つの分類を割り当てた記事セットの数は、それぞれ6と5であった。 Subsequently, the test data is classified based on the defined classification. The test data used here is created in the same manner as described above from the Japanese newspaper article corpus. And about 20 article sets created as test data, two subjects gave classification independently. In principle, subjects assigned one category to each set of articles, but for some set of articles, judged that multiple categories were possible and assigned two categories. The number of each classification assigned by two subjects is shown in FIG. The coincidence rate between subjects was 55% when the categories first selected by the subjects were compared, and 85% when the second category was included. There was no article set classified as Other. The number of article sets to which the subject assigned two categories was 6 and 5, respectively.
被験者による分類結果を基に、テストデータの分類の正解データを作成した。被験者間で共通の分類となった17記事セットではその割り当てられた分類を正解とする一方、被験者間で分類が分かれた3記事セットについては被験者同士の討論により正解の分類を決定した。なお、この正解データを用いて、後述する文書セット分類装置による自動分類の実験結果の評価を行う。 Based on the results of classification by the subjects, correct data for test data classification was created. In the 17-article set that is a common classification among the subjects, the assigned classification is regarded as the correct answer, while in the 3-article set in which the classification is divided among the subjects, the correct classification is determined by discussion between the subjects. It should be noted that this correct answer data is used to evaluate the result of an automatic classification experiment performed by a document set classification apparatus described later.
この分類の定義が他言語においても妥当であることを示すために、DUC2001の複数記事要約タスクで用いられたトレーニングデータである英語新聞記事セットに対しても分類の付与を試みた。先と同様に、二人の被験者が独立に記事セットに対して最適と判断した分類を付与した。被験者は各記事セットに対して一つないし二つの分類を付与した。二人の被験者によって割り当てられた各分類の数を、図6に示す。被験者が二つの分類を割り当てた記事セットはそれぞれ4セットあった。Otherの分類は、被験者の一人が二番目の分類として付与した1セットのみであった。被験者間の一致率は、被験者が最初に選択した分類同士を比較した場合に80%、二番目の分類までを含めた場合は93.3%であった。この一致率は、日本語記事のテストデータに対するものよりも高い。これは、DUC2001のデータが日本語記事テストデータよりも整えられており、記事セットの主題が意図的に選択されているからであると考えられる。 In order to show that the definition of this classification is valid in other languages, we also tried to assign a classification to the English newspaper article set, which is training data used in the multi-article summary task of DUC2001. As before, the two subjects independently assigned a classification that they judged to be optimal for the article set. Subjects assigned one or two categories to each article set. The number of each classification assigned by two subjects is shown in FIG. There were 4 sets of articles each assigned 2 categories by the subjects. The other category was only one set given by one of the subjects as the second category. The agreement rate between subjects was 80% when the categories selected by the subjects were compared first, and 93.3% when the categories up to the second category were included. This matching rate is higher than that for Japanese article test data. This is probably because the data of DUC2001 is more prepared than the Japanese article test data, and the subject of the article set is intentionally selected.
以降、定義された分類を記事セットに付与するための文書セット分類装置について詳述する。本実施形態における文書セット分類装置は、コンピュータ1に所定のプログラムをインストールすることで構成されるものである。コンピュータ1は、例えば、図7に示すように、プロセッサ1a、メインメモリ1b、ハードディスクドライブに代表される補助記憶デバイス1c等のハードウェア資源が、コントローラ1d(即ち、いわゆるシステムコントローラ、I/Oコントローラ等)により制御され連携して動作するものである。また、図示しないが、電気通信回線を介して外部とのデータ授受を行うための通信デバイス、ユーザによる操作入力を受け付けるキーボードやポインティングデバイス等の入力デバイス、情報を画像ないし映像として表示するディスプレイ及びこのディスプレイに映像信号を送出するため表示制御デバイス(いわゆるグラフィクスチップ等)等を実装することを妨げない。
Hereinafter, a document set classification apparatus for assigning a defined classification to an article set will be described in detail. The document set classification apparatus according to the present embodiment is configured by installing a predetermined program in the
通常、プロセッサ1aによって実行されるべきプログラムが補助記憶デバイス1cに格納されており、プログラムの実行の際には補助記憶デバイス1cからメインメモリ1bに読み込まれ、プロセッサ1aによって解読される。そして、該プログラムに従い上記のハードウェア資源を作動して、少なくとも、判断手段101、出力手段102としての機能を発揮するようにしている。
Normally, a program to be executed by the
判断手段101は、複数の記事(文書)を包含してなる記事セット(文書セット)の主題が単独の固有表現に関するものか複数の固有表現に関するものかを判断し、かつ、該固有表現が何れの固有表現クラスに属するかを判断する。入力として与えられる記事セットの要素である記事のデータは、通常、メインメモリ1bまたは補助記憶デバイス1cの所要の記憶領域に予め格納されている。よって、プロセッサ1aが、プログラムに従い、メインメモリ1bまたは補助記憶デバイス1cに格納されている記事のデータを読み込み、これを基に記事セットに付与すべき分類についての判定を行う。
The
出力手段102は、前記判断手段101が下した判断より、前記記事セットに付与すべき分類についての情報、即ち、当該記事セットの主題に係る固有表現が単独であるか複数であるか及び該固有表現が属している固有表現クラスという2つの要素より規定される分類についての情報を出力する。情報の出力の態様としては、ディスプレイの画面への表示、プリンタ(図示せず)を使用したプリントアウト、通信デバイス及び電気通信回線を介した外部のコンピュータへの送信、メインメモリ1bまたは補助記憶デバイス1cへの書き込み、その他を挙げることができる。出力手段102の具体的構成は、記事セットに付与すべき情報の出力態様に応じたものとなる。
Based on the determination made by the
文書セット分類装置による分類の自動付与では、記事セットに含まれる複数の記事中に出現する単語や固有表現クラスの出現頻度と、記事頻度(記事セットにおいて所要の単語、固有表現クラス等が出現した記事の数。情報検索等で用いられるidf値とは異なる)とを手がかりとして利用する。よって、コンピュータ1が、図8に示す固有表現抽出手段としての機能をも発揮し得ることが望ましい。固有表現抽出手段は、記事セットに含まれる記事の中に出現する固有表現を抽出するとともに、抽出した固有表現が属する固有表現クラスを判定する。固有表現抽出手段は、例えば、記事中の文章を単語に切り分けて品詞の付与を行う形態素解析ソフトウェア104aと、形態素解析ソフトウェア104aによる解析結果を参照して記事中に出現する固有表現を列挙しこれを固有表現クラス分けする固有表現抽出ソフトウェア104bとを用いて構成できる。形態素解析、固有表現抽出の一例を、図8に示している。図示例では、パターンベースのシステムで固有表現抽出を行っている。即ち、プロセッサ1aが、プログラムに従い、入力として与えられた記事を形態素解析し、得られた形態素解析済み記事を固有表現リスト104c(固有表現及びその属する固有表現クラスが列挙されたデータ群。通常、メインメモリ1bまたは補助記憶デバイス1cの所要の記憶領域に格納されている)に照らし合わせることで、記事中の固有表現を全て抽出する。しかる後、複数の固有表現が入れ子関係となっているもの(例えば、組織名クラスに属する固有表現「吉本工業」の中に、さらに人名クラスに属する固有表現「吉本」が存在)が存在しているときにはより文字列の長い固有表現を優先的に認定(即ち、「吉本」ではなく「吉本工業」という固有表現と認定)して固有表現を一意に決定し、その結果を出力する。判断手段101は、この固有表現抽出手段による出力を参照して、記事セットの分類を行うことができる。
In the automatic assignment of classification by the document set classification device, the appearance frequency of words and specific expression classes appearing in multiple articles included in the article set, and the article frequency (required words, specific expression classes, etc. appeared in the article set) The number of articles (which is different from the idf value used in information retrieval or the like) is used as a clue. Therefore, it is desirable that the
また、固有表現に加え、記事中に出現するクラスタームも分類の手がかりとして用いることができる。クラスタームとは、特定の固有表現クラスに関連の強い名詞または複合名詞のことである。例示すると、「首相」等の役職名は人名クラスのクラスタームであり、「地震」等の名詞はイベント名クラスのクラスタームである。よって、コンピュータ1が、図9に示すクラスターム抽出手段としての機能をも発揮し得ることが望ましい。固有表現抽出手段は、記事セットに含まれる記事の中に出現するクラスタームを抽出するとともに、抽出したクラスタームが関連する固有表現クラスを判定する。クラスターム抽出手段は、例えば、記事中の文章を単語に切り分けて品詞の付与を行う形態素解析ソフトウェア104aと、形態素解析ソフトウェア104aによる解析結果を参照して記事中に出現するクラスタームを列挙しこれを固有表現クラス分けするクラスターム抽出ソフトウェア105aとを用いて構成できる。形態素解析、クラスターム抽出の一例を、図9に示している。図示例もまた、上記の固有表現抽出の例と同様に、パターンベースのシステムでクラスターム抽出を行っている。即ち、プロセッサ1aが、プログラムに従い、入力として与えられた記事を形態素解析し、得られた形態素解析済み記事をクラスタームリスト105b(クラスターム及びその関連する固有表現クラスが列挙されたデータ群。通常、メインメモリ1bまたは補助記憶デバイス1cの所要の記憶領域に格納されている)に照らし合わせることで記事中のクラスタームを全て抽出し、その結果を出力する。判断手段101は、このクラスターム抽出手段による出力を参照して、記事セットの分類を行うことができる。因みに、クラスタームのリスト105bは、既存のシソーラスと人手による収集結果とから作成することができる。発明者が実験的に作成し使用しているクラスタームの数は約16000語である。
In addition to proper expressions, clusters that appear in articles can also be used as clues for classification. A cluster is a noun or compound noun that is strongly associated with a particular named entity class. For example, a title such as “Prime Minister” is a cluster of a person name class, and a noun such as “earthquake” is a cluster of an event name class. Therefore, it is desirable that the
固有表現、クラスタームの他、記事の掲載日付や記事間のタイムスパン等もまた、記事セットの分類のための手がかりとして用いることが可能である。例えば、ある記事セットに含まれるほとんどの記事が同日かまたは所定の短い期間以内に掲載されたものであるならば、その記事セットをSingle-Eventに分類できる可能性が高い。 In addition to proper expressions and clusters, article publication dates and article time spans can also be used as clues for classifying article sets. For example, if most articles included in an article set are published on the same day or within a predetermined short period, it is likely that the article set can be classified as a single-event.
本実施形態における判断手段101が実行する判断のアルゴリズムに関して、図10ないし図14のフローチャートを参照して詳述する。本実施形態において、判断手段101は、下記の4つのアルゴリズムにより記事セットの分類を行う。まず、判断手段101は、第一のアルゴリズムに従い、入力として与えられた記事セットがSingle-Eventに分類されるか否かを判断する。この判断は、記事セットに含まれる複数の記事の各々が作成若しくは発表された時点に関する情報を参照して下される。記事セットに含まれる記事のうちの一定の割合以上のもの(または、全部)が、所定期間内に作成、公開、発表、掲載等されたものであるならば、判断手段101は当該記事セットをSingle-Eventに分類する。より具体的には、記事セットに含まれる記事が新聞記事である場合に、その大半が同日あるいは所定の短い期間内に掲載されたものであるならば当該記事セットにSingle-Eventの分類を付与する旨の判断を下す。このときの処理の手順を、図10に示している。判断手段101は、入力として与えられた記事セットに含まれている各記事の掲載日付に関する情報(この情報は、例えば、記事データに関連づけてメインメモリ1bまたは補助記憶デバイス1cの所要の記憶領域に格納されている)を参照して(ステップS101)最も記事頻度の高い掲載日を確認し、この日に掲載された記事の数を計数する(ステップS102)。そして、この日に掲載された記事数またはこの日に掲載された記事数の記事セットに含まれる全記事数に対する割合が、予め設定された閾値Taを上回っているならば(ステップS103)、与えられた記事セットをSingle-Eventに分類する(ステップS106)。また、記事セットに含まれる全記事の掲載日のタイムスパンを確認し(ステップS104)、このタイムスパンが予め設定された閾値Tsを下回っているならば(ステップS105)、与えられた記事セットをSingle-Eventに分類する(ステップS105)。つまり、特定の日に掲載された記事の割合、及び、記事間のタイムスパンの最大値の二つのパラメータを材料として判断を行う。記事セットをSingle-Eventに分類できなかったときには、第二のアルゴリズムに移行する。なお、記事中に出現する日付表現を参照することで第一のアルゴリズムを実行することを妨げない。
The determination algorithm executed by the
次に、判断手段101は、第二のアルゴリズムに従い、与えられた記事セットがSingle-class(何れかの固有表現クラス)に分類されるかどうか判断する。この判断は、記事頻度の高い固有表現について、その出現頻度、記事頻度を計数することで下される。特定の固有表現が記事セットに含まれる多くの記事にわたって頻繁に出現するならば、判断手段101はその固有表現を記事セットの主題を表すものと見なし、その固有表現が属する固有表現クラスを記事セットの分類の要素classとする。このときの処理の手順を、図11に示している。判断手段101は、与えられた記事セットに対して前記固有表現抽出手段が行った固有表現抽出処理の結果出力を参照し(ステップS201)、記事セットに含まれる記事中に出現する固有表現及び固有表現が属する固有表現クラスのそれぞれについて、出現頻度を計数する(ステップS202)。かつ、記事中に出現する各固有表現についてその記事頻度を計数して、当該記事セットにおいて最も記事頻度の高い固有表現を選出する(ステップS203)。ここで、記事頻度が等しい複数の固有表現が存在する場合には、例えば出現頻度のより高い固有表現を選択する。しかして、選出された固有表現の記事頻度(または、選出された固有表現の記事頻度の記事セットに含まれる全記事数に対する割合)が予め設定された閾値Tdを上回っているならば(ステップS204)、この固有表現が属する固有表現クラスを記事セットの分類の要素classとすることができる。なお、記事セットをSingle-classに分類するに際し、さらなる判断処理を付加することを妨げない。即ち、図11に示しているように、選出された固有表現の出現頻度/選出された固有表現が属する固有表現クラスの出現頻度、の比が予め定められた閾値Twを上回っていることを条件として(ステップS207)、選出された固有表現が属する固有表現クラスを記事セットの分類の要素classとする(ステップS208)ものとしてもよい。但し、本実施形態では、トレーニングデータを調査した実験結果から、イベント名クラスに関しては他の固有表現クラスに優先して判断するものとした。従って、選出された固有表現がイベント名クラスに属するときには(ステップS205)、与えられた記事セットをそのままSingle-Eventに分類する(ステップS206)ようにしている。記事セットをSingle-classに分類できなかったときには、第三のアルゴリズムに移行する。
Next, the
続いて、判断手段101は、第三のアルゴリズムに従い、与えられた記事セットがMulti-class(何れかの固有表現クラス)に分類されるかどうか判断する。この判断は、記事頻度の高い固有表現クラスについて、その出現頻度、記事頻度を計数することで下される。特定の固有表現クラスに属する固有表現が記事セットに含まれる多くの記事にわたって頻繁に出現するならば、判断手段101はその固有表現クラスを記事セットの主題を表すものと見なし、記事セットの分類の要素classとする。このときの処理の手順を、図12に示している。判断手段101は、与えられた記事セットに対して前記固有表現抽出手段が行った固有表現抽出処理の結果出力を参照し(ステップS201)、記事セットに含まれる記事中に出現する固有表現及び固有表現が属する固有表現クラスのそれぞれについて、出現頻度を計数する(ステップS202。これらの処理は、既に第二のアルゴリズムにおいて実行されている)。かつ、記事中に出現する固有表現が属する各固有表現クラスについてその記事頻度を計数して、当該記事セットにおいて最も記事頻度の高い固有表現クラスを選出する(ステップS301)。ここで、記事頻度が等しい複数の固有表現クラスが存在する場合には、例えば出現頻度のより高い固有表現クラスを選択する。しかして、選出された固有表現クラスの記事頻度(または、選出された固有表現クラスの記事頻度の記事セットに含まれる全記事数に対する割合)が予め設定された閾値Tdを上回っているならば(ステップS302)、この固有表現クラスを記事セットの分類の要素classとすることができる。なお、記事セットをMulti-classに分類するに際し、さらなる判断処理を付加することを妨げない。即ち、図12に示しているように、選出された固有表現クラスの出現頻度/全固有表現クラス(全固有表現)の出現頻度、の比が予め定められた閾値TCを上回っていることを条件として(ステップS305)、選出された固有表現クラスを記事セットの分類の要素classとする(ステップS306)ものとしてもよい。但し、本実施形態では、イベント名クラスに関しては他の固有表現クラスに優先して判断するものとし、選出された固有表現クラスがイベント名クラスに属するときには(ステップS303)、与えられた記事セットをそのままMulti-Eventに分類する(ステップS304)ようにしている。加えて、固有表現毎に相異する閾値TCを設定することを妨げない。例えば、選出された固有表現クラスの出現頻度/全固有表現クラスの出現頻度の値と比較される閾値TCについて、選出された固有表現クラスが地名クラス、組織名クラス、人名クラスの何れかである場合にはより厳しい即ちより大きい閾値TC1を適用し、選出された固有表現クラスが上記以外である場合にはより緩い即ちより小さい閾値TC2(TC1>TC2)を適用することができる。記事セットをMulti-classに分類できなかったときには、第四のアルゴリズムに移行する。
Subsequently, the
第三のアルゴリズムまでの過程で記事セットに付与すべき適切な分類を見出せなかった場合、判断手段101は、第四のアルゴリズムに従い、付与すべき分類を検討する。第四のアルゴリズムは、第二のアルゴリズムないし第三のアルゴリズムを、固有表現でなくクラスタームを対象として実行するものと言える。即ち、記事中に出現するクラスタームの頻度またはクラスタームが関連する固有表現クラスの頻度のうち少なくとも一方を材料として、与えられた記事セットの主題に係る固有表現が属する固有表現クラスの判断を下す。なお、特定のクラスタームが記事セット中の多くの記事にわたって頻繁に出現していても、当該記事セットに割り当てるべき分類はSingle-classでなくMulti-classとすることが望ましい。これは、クラスタームは固有名詞ではなく一般名詞であって、複数種の固有表現を指示し得るものであることによる。このときの処理の手順を、図13及び図14に示している。判断手段101は、与えられた記事セットに対して前記クラスターム抽出手段が行ったクラスターム抽出処理の結果出力を参照し(ステップS401)、記事セットに含まれる記事中に出現するクラスターム及びクラスタームが関連する固有表現クラスのそれぞれについて、出現頻度を計数する(ステップS402)。かつ、記事中に出現する各クラスタームについてその記事頻度を計数して、当該記事セットにおいて最も記事頻度の高いクラスタームを選出する(ステップS403)。ここで、記事頻度が等しい複数のクラスタームが存在する場合には、例えば出現頻度のより高いクラスタームを選択する。しかして、選出されたクラスタームの記事頻度(または、選出されたクラスタームの記事頻度の記事セットに含まれる全記事数に対する割合)が予め設定された閾値Tdを上回っているならば(ステップS404)、このクラスタームが関連する固有表現クラスを記事セットの分類の要素classとすることができる。なお、記事セットをMulti-classに分類するに際し、さらなる判断処理を付加することを妨げない。即ち、図13に示しているように、選出されたクラスタームの出現頻度/選出されたクラスタームが関連する固有表現クラスの出現頻度、の比が予め定められた閾値Twを上回っていることを条件として(ステップS407)、選出された固有表現が属する固有表現クラスを記事セットの分類の要素classとする(ステップS408)ものとしてもよい。但し、イベント名クラスに関しては他の固有表現クラスに優先して判断するものとし、選出されたクラスタームがイベント名クラスに関連するものであるときには(ステップS405)、与えられた記事セットをそのままMulti-Eventに分類する(ステップS406)ようにしている。上記に加えて、記事中に出現するクラスタームが関連している各固有表現クラスについてその記事頻度を計数し、当該記事セットにおいて最も記事頻度の高い固有表現クラスを選出する(ステップS409)。記事頻度が等しい複数の固有表現クラスが存在する場合には、例えば出現頻度のより高い固有表現クラスを選択する。しかして、選出された固有表現クラスの記事頻度(または、選出された固有表現クラスの記事頻度の記事セットに含まれる全記事数に対する割合)が予め設定された閾値Tdを上回っているならば(ステップS410)、この固有表現クラスを記事セットの分類の要素classとすることができる。記事セットをMulti-classに分類するに際しては、さらなる判断処理を付加することができる。即ち、図14に示しているように、選出された固有表現クラスの出現頻度/全固有表現クラス(全クラスターム)の出現頻度、の比が予め定められた閾値TCを上回っていることを条件として(ステップS413)、選出された固有表現クラスを記事セットの分類の要素classとする(ステップS414)ものとできる。但し、イベント名クラスに関しては他の固有表現クラスに優先して判断するものとし、選出された固有表現クラスがイベント名クラスに属するときには(ステップS411)、与えられた記事セットをそのままMulti-Eventに分類する(ステップS412)ようにしている。なお、ここでも、第三のアルゴリズムと同様、固有表現毎に相異する閾値TC1、TC2を設定することが許容される。
When an appropriate classification to be assigned to the article set cannot be found in the process up to the third algorithm, the
上記の全てのアルゴリズムを用いても分類を付与できなかった場合、判断手段101は、予め定められたデフォルトの分類を当該記事セットに付与する(ステップS415)。デフォルトの分類は、例えば、Multi-EventまたはOtherとする。
If no classification can be given using all the above algorithms, the
上述のテストデータに対し、本実施形態の文書セット分類装置を使用して分類を付与する自動分類実験を行った結果について述べる。なお、アルゴリズム中の各閾値の決定は、ここではトレーニングデータを基に人手で行う。各閾値の設定は、Ta=0.33、Ts=150、Td=0.90、Tw=0.40、TC1=0.80、TC2=0.40とした。但し、閾値の大きさがここに示す値に限られないことは言うまでもない。テストデータに対する自動分類実験の結果の評価を、図15に示す。図15には、被験者による分類付与の結果の評価及びベースラインをも示した。被験者の評価は、各被験者が付与した分類と正解との比較評価である。両被験者の正解に対する評価は両被験者間の一致率55%よりも高いが、これは分類の正解が両被験者による分類付与結果を総合して作成されたためである。ベースラインは、トレーニングデータにおいて最も頻度の高い分類(この実験では、Single-Event)の記事セットのテストデータにおける数(及び、占める割合)である。文書セット分類装置について、「一致」の値は文書セット分類装置が出力した分類が正解に一致した記事セット数(及び、割合)を示し、「部分一致」の値は文書セット分類装置が出力した分類が被験者によって付与された分類の何れかに一致した数(及び、割合)を示す。被験者が複数の分類を付与した記事セットに関してはその双方を含む。被験者について、「一致」の値は被験者が最初に与えた分類が正解の分類に一致した記事セット数(及び、割合)を示し、「部分一致」の値は被験者が二番目に与えた分類も含めて正解の分類に一致した記事セット数(及び、割合)を示す。 The results of an automatic classification experiment for assigning a classification to the test data described above using the document set classification apparatus of the present embodiment will be described. Here, each threshold value in the algorithm is manually determined based on the training data. The threshold values were set such that T a = 0.33, T s = 150, T d = 0.90, T w = 0.40, T C1 = 0.80, and T C2 = 0.40. However, it goes without saying that the size of the threshold is not limited to the value shown here. Evaluation of the result of the automatic classification experiment for the test data is shown in FIG. FIG. 15 also shows the evaluation result and the baseline of the classification given by the subject. The evaluation of the subject is a comparative evaluation between the classification given by each subject and the correct answer. The evaluation for the correct answer of both subjects is higher than the concordance rate of 55% between the two subjects, because the correct answer of the classification was created by combining the classification grant results by both subjects. The baseline is the number (and the occupancy) in the test data of the article set of the most frequent classification (in this experiment, Single-Event) in the training data. For the document set classification device, the “match” value indicates the number (and percentage) of article sets in which the classification output by the document set classification device matches the correct answer, and the “partial match” value is output by the document set classification device. The number (and percentage) where the classification matches any of the classifications given by the subject. Both are included regarding the article set which the test subject gave the some classification | category. For the subject, the “match” value indicates the number (and percentage) of article sets where the first category given by the subject matched the correct category, and the “partial match” value is the second category given by the subject. The number of article sets (and percentage) that match the correct answer classification is shown.
文書セット分類装置は、20記事セットのうち9つを正しく分類し、さらに2つの記事セットについてはその分類結果が被験者が与えた分類に含まれていた。分類が正しくなかった残り9記事セットのうちの3つは、正解の分類がSingle-Productであるのに対してSingle-Eventと分類していた。実験に使用されたこれら記事セットの中に現れる固有物名(Product)は、特定の法案や国際条約等であり、記事セットに含まれる記事はその法案の審議や国際条約に対する発言について記述されたものであった。現在のアルゴリズムでは、Single-Eventを優先して分類するようになっているため、このような誤りが生起したと考えられる。しかしながら、正解の分類に関連する法案や国際条約等の固有物名は記事セット中の記事全体にわたって現れているため、判断手段101が一旦Single-Eventの分類を与えておきながらその後の判断過程を継続し、Single-Productの分類を与え直すことができるように構成することは可能であると考えられる。 The document set classification apparatus correctly classified nine of the 20 article sets, and the classification results of the two article sets were included in the classification given by the subject. Three of the remaining nine article sets that were not classified correctly were classified as Single-Event while the correct answer was Single-Product. The unique names (Product) that appear in these article sets used in the experiments are specific bills and international treaties, etc., and the articles included in the article set describe the deliberations of the bills and remarks on international treaties. It was a thing. In the current algorithm, Single-Event is given priority for classification, and it is considered that such an error has occurred. However, since bills related to correct classification and unique names of international treaties, etc. appear throughout the articles in the article set, the determination means 101 once gave the single-event classification while performing the subsequent determination process. It may be possible to continue and configure it so that it can be given a single-product classification again.
別の3記事セットでは、正解の分類がSingle-Eventであるのに対して異なる分類を付与していた。これらの記事セットでは、イベント名(Event)にあたる記述が固有表現ではなく、句や節の形で表されていた。一例を挙げると、「クリントン前大統領のホワイトハウス元実習生モニカ・ルインスキさんに対する不倫疑惑」という表現は固有表現ではないが、特定のイベントを指す表現である。現状の固有表現抽出システムでは、このような表現を一の固有表現として認識することはできない。また、記事セットのタイムスパンは設定した閾値Tsよりも大きかった(上記例では、1年以上)ため、判断手段101は当該記事セットにSingle-Eventの分類を付与することができなかった。このことは、Single-Eventの分類を確実に付与するためには現在用いている手がかりの他に新たな手がかりを用いる必要があると言うことを示唆している。
In another set of 3 articles, the correct classification was Single-Event, but a different classification was assigned. In these article sets, the description corresponding to the event name (Event) was expressed in the form of a phrase or a clause instead of a specific expression. For example, the expression “the suspicion of affair against Monica Luinski, former president of the White House, former President of Clinton” is not a specific expression, but an expression that points to a specific event. In the current specific expression extraction system, such an expression cannot be recognized as one specific expression. Further, since the time span of the article set was larger than the set threshold value T s (in the above example, one year or more), the
また、実験の過程で、記事セットの中には本質的に一以上の分類を付与し得るものがあることが分かった。その理由の一つは、Single-Event、Multi-Event等、イベント名に基づく分類を付与すべき記事セットには他の固有表現クラスに基づく分類を付与可能なケースも多いことである。イベントの多くは、特定の人名や組織名、地名等に関連することがしばしばであり、イベントに関する記事を集めた記事セットに対しそのイベントに関連する(イベント名以外の)固有表現に焦点を絞ることが可能である。もう一つの理由として、イベントにおけるSingleとMultiとの区別が難しいことが挙げられる。あるイベントの中には、幾つかの小さなイベントが包含されることがある。例えば、「シドニーオリンピック」に関する記事セットは、一つのスポーツイベントを対象とするものとしてSingle-Eventの分類を付与し得るが、この記事セット中に複数の種目の結果を報じる記事が含まれているならば、それらに着目することでMulti-Eventの分類を付与することも可能である。イベントの単位をどのように認識するかは、被験者の観点に依存する。 In the course of the experiment, it was found that some article sets could inherently be given more than one classification. One of the reasons is that there are many cases where classifications based on other unique expression classes can be assigned to article sets that should be assigned classifications based on event names, such as Single-Event and Multi-Event. Many events are often related to a specific person name, organization name, place name, etc., and focus on specific expressions (other than the event name) related to the event for a set of articles about the event. It is possible. Another reason is that it is difficult to distinguish between Single and Multi in the event. Some events may include several small events. For example, an article set related to the “Sydney Olympics” may be assigned a single-event classification for one sporting event, but this article set includes articles reporting the results of multiple events. Then, it is also possible to give the classification of Multi-Event by paying attention to them. How the event unit is recognized depends on the subject's perspective.
因みに、上述の実験では、固有表現抽出手段による結果出力に人手による修正を加えて固有表現抽出タスクにおける誤りを排除している。本実施形態の文書セット分類装置を用いて機械的に分類を付与するにあたり、固有表現抽出タスクの段階でエラーが生起することを完全に避けるのは難しい(完璧な固有表現抽出ソフトウェアは現存しないため)。固有表現抽出手段における固有表現抽出処理を補完するためには、共参照や、文献(Y. Shin-yama, S. Sekine K. Sudo, and R. Grishman, “Automatic paraphrase acquisition from news articles”, In Proceedings of the HLT-2002 conference, 2002.)に述べられているようなイベントの記述に関する言い換え表現の認識手法等を導入することが考えられる。 Incidentally, in the above-described experiment, manual correction is added to the result output by the specific expression extraction means to eliminate errors in the specific expression extraction task. When assigning a classification mechanically using the document set classification apparatus of this embodiment, it is difficult to completely prevent an error from occurring at the stage of the specific expression extraction task (because perfect specific expression extraction software does not exist currently) ). To complement the proper expression extraction process in the proper expression extraction means, co-references and literature (Y. Shin-yama, S. Sekine K. Sudo, and R. Grishman, “Automatic paraphrase acquisition from news articles”, In It may be possible to introduce a paraphrase recognition method for event description as described in the Proceedings of the HLT-2002 conference, 2002.
以上では、入力として与えられる複数の記事(文書)が予め記事セット(文書セット)に仕分けされていることを前提としていた。しかしながら、入力として複数の記事が単純に与えられるような状況も考えられる。このような場合において、文書セット分類装置が、与えられる複数の記事を一または複数の記事セットに仕分けし、仕分けした記事セットに分類を付与するまでの処理を機械的に実行し得ることが好ましい。即ち、文書セット分類装置を構成するコンピュータ1が、図2に示す文書セット生成手段103としての機能をも発揮し得ることが好ましい。
In the above description, it is assumed that a plurality of articles (documents) given as input are sorted in advance into article sets (document sets). However, there may be a situation where a plurality of articles are simply given as input. In such a case, it is preferable that the document set classification device can mechanically execute a process of sorting a plurality of given articles into one or a plurality of article sets and adding a classification to the sorted article sets. . That is, it is preferable that the
文書セット生成手段103は、ソフトウェアを主体として構成され、入力として与えられた文書の中に存在するキーワードを抽出し、一の文書のキーワードと他の文書のキーワードとの類似度を算出し、その類似度が閾値を超える場合にこれらの文書を同一の文書セットに割り当てることを通じて、複数の文書から少なくとも一の文書セットを生成する処理を行う。文書セット生成手段103が実行する処理の手順は、既に述べた記事セットの生成手法に類似する。即ち、プロセッサ1aが、プログラムに基づき、入力として与えられた記事データ(通常、メインメモリ1bまたは補助記憶デバイス1cの所要の記憶領域に格納されている)のうちの一つを選択的に読み込み、この記事データよりキーワード列を抽出する。キーワードの抽出は、形態素解析ソフトウェアを利用して行うことができる。例えば、記事データを形態素解析した結果より時相名詞、副詞的名詞を除いた名詞のうち頻度が所定値(例えば、2)以上のものをキーワードとして抽出する。入力として与えられた各記事データについて上記の方法でキーワードを抽出した後、プロセッサ1aが、一の記事データに係るキーワード列と他の記事データに係るキーワード列との間の類似度を算出する。プロセッサ1aが算出する類似度の指標としては、Dice's coefficient、Jacquard measure、cosine similarity等を採用することができる。その上で、類似度の指標が所定値(例えば、0.5)以上である複数の記事を類似記事として一の記事セットに含めることを通じて、記事セットの生成を行う。
The document set
ところで、文書セット分類装置が出力する記事セットの分類についての情報を参照することで、当該記事セットに適した要約アルゴリズムを選択し得る。よって、文書セット分類装置が出力する分類についての情報を参照し、この分類に対応した要約アルゴリズムを用いて記事セット(文書セット)に含まれる複数記事(文書)の要約を行う要約装置を構築すれば、要約の精度の向上を図ることができる。 By the way, by referring to the information about the classification of the article set output by the document set classification device, a summary algorithm suitable for the article set can be selected. Therefore, a summary device that summarizes a plurality of articles (documents) contained in an article set (document set) using a summary algorithm corresponding to the classification is constructed by referring to the information about the classification output by the document set classification device. For example, the accuracy of summarization can be improved.
本実施形態における文書要約装置は、文書セット分類装置を構成するコンピュータ1またはこのコンピュータ1とは別のコンピュータ(図示せず)に所定のプログラムをインストールすることで構築される。通常、プログラムは補助記憶デバイス1cに格納され、その実行の際には補助記憶デバイス1cからメインメモリ1bに読み込まれてプロセッサ1aにより解読される。そして、該プログラムに従いハードウェア資源を作動して、図3に示す要約手段201としての機能を発揮するようにしている。
The document summarization apparatus in this embodiment is constructed by installing a predetermined program on the
要約手段201は、文書セット分類装置が出力する、記事セットに付与された分類についての情報を参照し、この分類に対応した要約アルゴリズムにより前記記事セットに含まれる複数の記事を単一の文書に要約する。即ち、プロセッサ1aが、プログラムに基づき、記事セットに付与された分類についての情報を参照し、この分類に対応した要約アルゴリズムを選択する。しかる後、入力として与えられた記事セットに含まれる記事のデータを読み込み、要約の生成を行う。本実施形態における要約手段201は、ソフトウェアを主体として構成される。要約手段201の主体となるソフトウェアには、既知の複数記事要約ソフトウェアを応用できる。既知の複数記事要約ソフトウェアでは、一般に、記事セットに含まれる複数記事から重要と判断される文(ないし、文章)を抽出し、抽出した文を基にして要約を生成する。それぞれの文の重要度は、文の位置、文の長さ、文中に出現する単語の頻度、見出しとの類似度等の複数の条件に関するスコアを加算して算定される。また、重要度の算定にあたっては、個々の条件に関するスコアに対して重み付けがなされる(重みは、トレーニングデータを用いた訓練を通じて得られる)。しかして、本実施形態における要約手段201では、文書セット分類装置によって付与された分類に基づくスコアを加味して、それぞれの文の重要度を算出することとしている。具体例を挙げると、対象の記事セットに付与された分類がSingle-Personでありその主題を表す固有表現が「小泉」である場合には、各記事において、人名として認識できる「小泉」を含む文にスコアを与える。あるいは、対象の記事セットに付与された分類がMulti-Organizationである場合には、各記事において、組織名を含む文にスコアを与える。このように、分類に基づくスコアを加味してそれぞれの文の重要度を算定することにより、生成される要約の的確性の向上が期待できる。
The summarizing means 201 refers to the information about the classification given to the article set output from the document set classification device, and converts the articles included in the article set into a single document by the summarization algorithm corresponding to the classification. To summarize. That is, the
加えて、要約手段201が、複数記事中の一の文と他の文との間の類似度を(共通する単語の個数等を参照することで)算出して類似する複数の文を抽出し、抽出した類似する文のうち要約生成に用いる文を選出するものとしてもよい。その上で、類似する複数の文より要約生成に用いる文を選出するための処理を、対象の記事セットに付与された分類に応じて変更することが好適である。具体例を挙げると、対象の記事セットに付与された分類がSingle-classである場合には、類似する複数の文が同一の事物を表現している可能性が高いことから、類似する複数の文のうちの一部の文のみを代表として選出する。つまり、類似する文として、「京都市で起きた震度4の地震で、3人が軽いけがを負った。」、「京都市で起きた震度4の地震で、新たに2人が入院し、けが人は5人となった。」というような複数の文が抽出されたとき、これらのうち何れか一文のみを要約記事の要素として選出する。これらの文のうちの何れを選択するかは、それぞれの文の重要度のスコアを参照する、時系列で最も後者の文を選択する等のヒューリスティクスにより決定できる。他方、対象の記事セットに付与された分類がMulti-classである場合には、類似する複数の文が相異なる事物を表現している可能性が高いことから、重要度スコアの高い文に類似する一部または全部の文をまとめて選出する。つまり、類似する文として、「京都市で起きた震度4の地震で、3人が軽いけがを負った。」、「大阪市で起きた震度5の地震で、5人が入院し、8人が軽いけがを負った。」というような複数の文が抽出されたとき、これらの文は表現上似ているものの相異なるイベントを記述していると考えられる。であるから、これらの文の全てを要約記事の要素として選出することもあり得る。
In addition, the summarizing means 201 calculates a similarity between one sentence and other sentences in a plurality of articles (by referring to the number of common words, etc.) and extracts a plurality of similar sentences. Of the extracted similar sentences, a sentence used for summary generation may be selected. In addition, it is preferable to change the process for selecting a sentence used for summary generation from a plurality of similar sentences according to the classification given to the target article set. For example, if the category assigned to the target article set is Single-class, there is a high possibility that similar sentences represent the same thing. Select only some of the sentences as representatives. In other words, similar sentences are: “An earthquake of
総じて言えば、本実施形態における文書要約装置の要約手段201は、記事セットに付与された分類に基づく重要度スコアを加味してそれぞれの文の重要度を算定するプロセス、及び/または、記事セットに付与された分類に応じて類似する複数の文の取捨選択の手法を変えるプロセスを、既存の複数記事要約ソフトウェアに追加したものとして構成可能である。そして、対象の記事セットに付与された分類に応じて異なる要約アルゴリズムの要約処理を実行可能である。因みに、Single-Personの分類が付与された記事セットより伝記的な記述を要約出力させたり、Multi-Productの分類が付与された記事セットより製品の名称・機能・値段等の要素を抽出させて表の形態で出力させたりというように、記事セットの分類に応じた多様な要約を要約手段201に出力させることも考えられる。 Generally speaking, the summarizing means 201 of the document summarizing apparatus according to the present embodiment is a process of calculating the importance of each sentence by taking into account the importance score based on the classification assigned to the article set, and / or the article set. The process of changing the method of selecting a plurality of similar sentences according to the classification assigned to the can be configured as an addition to the existing multi-article summary software. The summarization process of different summarization algorithms can be executed according to the classification assigned to the target article set. By the way, the biographical description can be summarized and output from the article set with Single-Person classification, or the product name, function, price, etc. can be extracted from the article set with Multi-Product classification. It is also conceivable to output various summaries according to the classification of the article set to the summarizing means 201 such as outputting in the form of a table.
本実施形態によれば、複数の文書の集合である文書セットに対し分類を付与するものとして、前記文書セットの主題が単独の固有表現(Named Entity)に関するものか複数の固有表現に関するものかを判断し、かつ、該固有表現が何れの固有表現クラスに属するかを判断する判断手段101と、前記判断手段101が下した判断に基づき、前記文書セットの主題に係る固有表現が単独であるか複数であるか、及び、該固有表現が属している固有表現クラスという2つの要素より規定される分類についての情報を出力する出力手段102とを具備する文書セット分類装置を構成したため、網羅性の高い分類を文書セットに付与可能となる。
According to the present embodiment, whether a subject of the document set is related to a single named entity (Named Entity) or a plurality of named entities is to be assigned to a document set that is a set of a plurality of documents. A
前記判断手段101が、前記文書セットに含まれる複数の文書の中に出現する固有表現の頻度または固有表現クラスの頻度のうち少なくとも一方を材料として、前記文書セットの主題に係る固有表現が単独であるか複数であるかの判断及び該固有表現が属する固有表現クラスの判断を実行するため、大文字で始まる語の頻度やhe、she等の人称代名詞の頻度等の特定言語の特性に依存することなく分類を実行し得る。即ち、より一般的に記事セットの分類を行うことができる。
The
前記判断手段101が、前記文書セットに含まれる複数の文書の中に出現するクラスタームの頻度またはクラスタームが関連する固有表現クラスの頻度のうち少なくとも一方を材料として、前記文書セットの主題に係る固有表現が属する固有表現クラスの判断を実行するため、固有表現のみを手がかりとして分類できない文書セットに対しても適切な分類を付与することが可能である。
The
また、前記判断手段101が、前記文書セットに含まれる複数の文書の各々の作成若しくは発表された時点に関する情報を参照し、これら複数の文書のうちの一部または全部が予め定められた期間内に作成若しくは発表されていることを条件として、前記記事セットの主題に係る固有表現が単独でありかつその属する固有表現クラスがイベント名クラスである旨の判断を下すものとしており、少なくともSingle-Eventクラスの文書セットを速やかに分類できる。
In addition, the
文章セット分類装置が、与えられた文書の中に存在するキーワードを抽出し、一の文書のキーワードと他の文書のキーワードとの類似度を算出し、その類似度が閾値を超える場合にこれらの文書を同一の文書セットに割り当てることを通じて、複数の文書から少なくとも一の文書セットを生成し得る文書セット生成手段103をさらに具備するものであれば、与えられた複数の文書を一または複数の文書セットに仕分けしこれに分類を付与するまでの処理を一括に実行可能となる。このものは、与えられた文書を基に一または複数の要約を自動生成するシステムを構築するために有用となる。 The sentence set classification device extracts keywords existing in a given document, calculates the similarity between the keyword of one document and the keyword of another document, and if the similarity exceeds a threshold, As long as it further includes document set generation means 103 capable of generating at least one document set from a plurality of documents by assigning the documents to the same document set, the given plurality of documents are converted into one or a plurality of documents. Processing until sorting and assigning a classification to a set can be executed in a batch. This is useful for constructing a system that automatically generates one or more summaries based on a given document.
さらに、上記の文書セット要約装置が文書セットに対して付与した分類を参照し、この分類に対応した要約アルゴリズムを選択して前記文書セットに含まれる複数の文書を要約する要約手段201を具備する文書要約装置を構成して、より適切な複数文書の要約処理を可能とすることができる。
The document set summarization apparatus further includes a summarizing
なお、本発明は以上に詳述した実施形態に限られるものではない。特に、本発明で定義した記事セットの分類やその分類を行う文書セット分類装置及びそのプログラムは、自動要約以外での応用も考えられる。例示すると、情報検索において、検索された結果中の上位の記事を用いた検索後の再ランク付けや検索結果の効率的な表示を行うことができる。さらに、オープンドメインの情報抽出に利用することも考えられる。従来の情報抽出ではドメインが限定されており、記事の主題や分類は前提として与えられていた。しかし、ドメインを限定することなく情報抽出を行うためには、対象となるドメインの情報、即ち記事セットの分類を動的に実施する必要があると考えられるからである。 The present invention is not limited to the embodiment described in detail above. In particular, the article set classification defined in the present invention, the document set classification apparatus for performing the classification, and the program thereof may be applied to applications other than automatic summarization. For example, in information retrieval, re-ranking after retrieval using an upper article in the retrieved result and efficient display of the retrieval result can be performed. Furthermore, it may be used for open domain information extraction. In the conventional information extraction, the domain is limited, and the subject and classification of the article are given as a premise. However, in order to extract information without limiting the domain, it is considered that it is necessary to dynamically classify target domain information, that is, article sets.
その他各部の具体的構成や図10ないし図14に示す処理の手順等もまた、上記実施形態に限られるものではなく、本発明の趣旨を逸脱しない範囲で種々変形が可能である。勿論、パーソナルコンピュータその他の汎用的な情報処理装置にプログラムをインストールして本発明に係る文書セット分類装置を構成することが可能であって、専用の装置を製造することが必須であるわけではない。 The specific configuration of each part and the processing procedures shown in FIGS. 10 to 14 are not limited to the above embodiment, and various modifications can be made without departing from the spirit of the present invention. Of course, it is possible to configure a document set classification apparatus according to the present invention by installing a program in a personal computer or other general-purpose information processing apparatus, and it is not essential to manufacture a dedicated apparatus. .
1…コンピュータ(文書セット分類装置、文書要約装置)
101…判断手段
102…出力手段
103…文書セット生成手段
201…要約手段
1 Computer (document set classification device, document summarization device)
DESCRIPTION OF
Claims (12)
前記文書セットの主題が単独の固有表現に関するものか複数の固有表現に関するものかを判断し、かつ、該固有表現が何れの固有表現クラスに属するかを判断する判断手段と、
前記判断手段が下した判断に基づき、前記文書セットの主題に係る固有表現が単独であるか複数であるか、及び、該固有表現が属している固有表現クラスという2つの要素より規定される分類についての情報を出力する出力手段と
を具備する文書セット分類装置。 A classification is given to a document set that is a collection of a plurality of documents,
Determining means for determining whether the subject of the document set relates to a single specific expression or a plurality of specific expressions, and to determine which specific expression class the specific expression belongs to;
Based on the determination made by the determination means, a classification defined by two elements, that is, a single expression or a plurality of specific expressions related to the subject of the document set, and a specific expression class to which the specific expression belongs A document set classifying apparatus comprising: output means for outputting information about
前記文書セット要約装置が出力する、前記文書セットに付与された分類についての情報を参照し、この分類に対応した要約アルゴリズムにより前記文書セットに含まれる複数の文書を単一の文書に要約する要約手段を具備する文書要約装置。 It is used with the document set classification device according to claim 1, 2, 3, 4 or 5,
A summary for summarizing a plurality of documents included in the document set into a single document by referring to information about the classification assigned to the document set, which is output from the document set summarization apparatus, and using a summary algorithm corresponding to the classification. Document summarizing device comprising means.
複数の文書の集合である文書セットの主題が単独の固有表現に関するものか複数の固有表現に関するものかを判断し、かつ、該固有表現が何れの固有表現クラスに属するかを判断する判断手段、及び、
前記判断手段が下した判断に基づき、前記文書セットの主題に係る固有表現が単独であるか複数であるか、及び、該固有表現が属している固有表現クラスという2つの要素より規定される分類についての情報を出力する出力手段
として機能させるプログラム。 It is used for constituting the document set classification device according to claim 1, 2, 3, 4 or 5, and comprises at least a computer,
A determination means for determining whether a subject of a document set that is a set of a plurality of documents relates to a single specific expression or a plurality of specific expressions, and to determine to which specific expression class the specific expression belongs; as well as,
Based on the determination made by the determination means, a classification defined by two elements, that is, a single expression or a plurality of specific expressions related to the subject of the document set, and a specific expression class to which the specific expression belongs A program that functions as an output means for outputting information about the.
文書セット分類装置が出力する、文書セットに付与された分類についての情報を参照し、この分類に対応した要約アルゴリズムにより前記文書セットに含まれる複数の文書を単一の文書に要約する要約手段として機能させるプログラム。 It is used for constituting the document summarizing device according to claim 6, and the computer is at least
As summarization means for referring to information about a classification given to a document set, which is output from the document set classification device, and summarizing a plurality of documents included in the document set into a single document by a summarization algorithm corresponding to the classification A program to function.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003290929A JP3921540B2 (en) | 2003-08-08 | 2003-08-08 | Document set classification device and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003290929A JP3921540B2 (en) | 2003-08-08 | 2003-08-08 | Document set classification device and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005063071A true JP2005063071A (en) | 2005-03-10 |
JP3921540B2 JP3921540B2 (en) | 2007-05-30 |
Family
ID=34368777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003290929A Expired - Lifetime JP3921540B2 (en) | 2003-08-08 | 2003-08-08 | Document set classification device and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3921540B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012160201A (en) * | 2005-09-30 | 2012-08-23 | Google Inc | Review processing method and system |
KR20210063965A (en) * | 2019-11-25 | 2021-06-02 | (주)오렌지아이 | Secondary battery performance evaluation support apparatus, performance evaluation data storing and analysis system, and using method thereof |
-
2003
- 2003-08-08 JP JP2003290929A patent/JP3921540B2/en not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012160201A (en) * | 2005-09-30 | 2012-08-23 | Google Inc | Review processing method and system |
KR20210063965A (en) * | 2019-11-25 | 2021-06-02 | (주)오렌지아이 | Secondary battery performance evaluation support apparatus, performance evaluation data storing and analysis system, and using method thereof |
KR102272296B1 (en) | 2019-11-25 | 2021-07-02 | (주)오렌지아이 | Secondary battery performance evaluation support apparatus, performance evaluation data storing and analysis system, and using method thereof |
Also Published As
Publication number | Publication date |
---|---|
JP3921540B2 (en) | 2007-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hong et al. | Improving the estimation of word importance for news multi-document summarization | |
US9519634B2 (en) | Systems and methods for determining lexical associations among words in a corpus | |
US6826576B2 (en) | Very-large-scale automatic categorizer for web content | |
EP1650680B1 (en) | Device, method, processor arrangement and computer-readable medium storing program for document classification | |
Kestemont et al. | Cross-genre authorship verification using unmasking | |
CN111373392B (en) | Document sorting device | |
US9251248B2 (en) | Using context to extract entities from a document collection | |
WO2011030752A1 (en) | Word pair acquisition device, word pair acquisition method, and program | |
CN109062895B (en) | Intelligent semantic processing method | |
US20050004902A1 (en) | Information retrieving system, information retrieving method, and information retrieving program | |
WO2016036345A1 (en) | External resource identification | |
Swanson et al. | Extracting the native language signal for second language acquisition | |
Patchala et al. | Authorship attribution by consensus among multiple features | |
Scharkow | Content analysis, automatic | |
US20060210171A1 (en) | Image processing apparatus | |
JP3921837B2 (en) | Information discrimination support device, recording medium storing information discrimination support program, and information discrimination support method | |
JP3921540B2 (en) | Document set classification device and program thereof | |
JP5366179B2 (en) | Information importance estimation system, method and program | |
JP2009295052A (en) | Compound word break estimating device, method, and program for estimating break position of compound word | |
JP4525433B2 (en) | Document aggregation device and program | |
JP2004240488A (en) | Document managing device | |
JP2005309706A (en) | Information processing system and method, and computer program | |
JP2000020538A (en) | Method and device for retrieving information, and storage medium for information retrieving program | |
JP2006065366A (en) | Keyword classification device, its method, terminal device, and program | |
JP2007293377A (en) | Input/output device for separating subjective page and non-subjective page |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050121 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20050125 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060530 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060728 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060912 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070116 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3921540 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |