JP5117590B2 - Document processing apparatus and program - Google Patents
Document processing apparatus and program Download PDFInfo
- Publication number
- JP5117590B2 JP5117590B2 JP2011065006A JP2011065006A JP5117590B2 JP 5117590 B2 JP5117590 B2 JP 5117590B2 JP 2011065006 A JP2011065006 A JP 2011065006A JP 2011065006 A JP2011065006 A JP 2011065006A JP 5117590 B2 JP5117590 B2 JP 5117590B2
- Authority
- JP
- Japan
- Prior art keywords
- term
- terms
- similarity
- cluster
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明の実施形態は、文書の中から類義語を抽出する文書処理装置およびプログラムに関する。 Embodiments described herein relate generally to a document processing apparatus and program for extracting synonyms from a document.
一般的に、文書処理においては、ある用語(単語)と同様の意味を表す別の用語、すなわち類義語の取り扱いが重要な課題である。 In general, in document processing, the handling of another term representing the same meaning as a certain term (word), that is, a synonym is an important issue.
例えば「消しゴム」および「字消し」は、互いに同様の意味を表す類義語であると考えられるが、当該「消しゴム」および「字消し」が類義語であることを示す情報(以下、類義語情報と表記)が予め用意されていなければ、一方から他方(例えば「消しゴム」から「字消し」)を検索または生成することは容易ではない。 For example, “eraser” and “eraser” are considered to be synonyms representing the same meaning, but information indicating that “eraser” and “eraser” are synonyms (hereinafter referred to as synonym information). Is not prepared in advance, it is not easy to search or generate one from the other (for example, “eraser” to “eraser”).
具体的には、文書検索において、「消しゴム」および「字消し」が類義語であることを示す類義語情報を用いることなく検索キーワード「消しゴム」から「字消し」を含む文書を検索することは困難である。また、文書分類において、「消しゴム」および「字消し」が類義語であることを示す類義語情報が用意されていなければ、「消しゴム」を含む文書と「字消し」を含む文書とが本来は同じ分類に属すべきであるにもかかわらず、別の分類とされてしまう場合がある。 Specifically, in document search, it is difficult to search for a document including “eraser” from the search keyword “eraser” without using synonym information indicating that “eraser” and “eraser” are synonyms. is there. In addition, in the document classification, if synonym information indicating that "eraser" and "eraser" are synonyms is not prepared, the document including "eraser" and the document including "eraser" are essentially the same classification. Although it should belong to, it may be classified as a different category.
そこで、このような場合には、上記した類義語の関係にある用語(例えば、「消しゴム」および「字消し」)が予め登録されている類義語辞書を参照して、文書検索または文書分類等を実行することが知られている。 Therefore, in such a case, a document search or document classification is executed by referring to a synonym dictionary in which terms (for example, “eraser” and “eraser”) related to the above-described synonyms are registered in advance. It is known to do.
しかしながら、類義語の関係にある用語の数は膨大であることから、当該類義語の関係にある全ての用語を人手で予め準備しておくことは、膨大な作業を伴い、困難である。 However, since the number of terms having a synonym relationship is enormous, it is difficult to prepare all the terms having the synonym relationship in advance manually and enormously.
そこで、例えば予め与えられた文書(集合)中に出現する用語の文脈類似度または文字列類似度を用いて、当該文書から類義語を自動的に抽出することが考えられている。これによれば、類義語の関係にある全ての用語を人手で予め準備をすることなく、類義語辞書に登録することが可能となる。 Thus, for example, it is considered that synonyms are automatically extracted from a document using the context similarity or the character string similarity of terms appearing in a given document (set). According to this, it is possible to register all terms having a synonym relationship in the synonym dictionary without manually preparing in advance.
なお、文脈類似度は、「意味的に似た語は似た文脈で出現する」との分布仮説に基づいて算出される類似度であり、例えば係り受け関係にある用語または共起する用語の類似度として算出される。また、文字列類似度は、用語を構成する文字列自体の類似度であって、例えば2つの用語において共通する文字数に応じて算出される。 Note that the context similarity is a similarity calculated based on the distribution hypothesis that “semanically similar words appear in similar contexts”. For example, the terms of dependency terms or co-occurring terms Calculated as similarity. Further, the character string similarity is the similarity of the character strings themselves constituting the terms, and is calculated according to, for example, the number of characters common to the two terms.
しかしながら、上記した文脈類似度および文字列類似度は、文書内の局所的な類似性に基づくものである。 However, the above-described context similarity and character string similarity are based on local similarity in the document.
このため、単に文脈類似度または文字列類似度を用いて文書から類義語の関係にある用語の集合(類義語集合)が抽出された場合には、局所的な情報の影響が強く、類義語として相応しくない用語(ノイズ用語)が当該類義語集合に含まれてしまう場合がある。具体的には、単に文脈類似度または文字列類似度を用いて類義語集合が抽出された場合、当該類義語集合には、適切な類義語である「消しゴム」および「字消し」に加えて、当該類義語として相応しくない例えば「取り消し」等が含まれる場合がある。 For this reason, when a set of terms (synonym sets) having a synonym relation is extracted from a document using only the context similarity or the string similarity, the influence of local information is strong and is not suitable as a synonym. A term (noise term) may be included in the synonym set. Specifically, when a synonym set is extracted simply using context similarity or character string similarity, in addition to the appropriate synonyms “eraser” and “eraser”, the synonym is included in the synonym set. For example, “cancellation” may be included.
このように類義語として相応しくない用語が含まれた類義語集合(類義語の関係にある用語)が登録された類義語辞書を参照して文書検索または文書分類等が行われた場合には、適切な結果を得ることができない場合がある。 When a document search or document classification is performed with reference to a synonym dictionary that contains a set of synonyms (terms related to synonyms) that contain terms that are not suitable as synonyms, an appropriate result is obtained. You may not get it.
そこで、本発明が解決しようとする課題は、類義語として適切な用語を文書から抽出することが可能な文書処理装置およびプログラムを提供することにある。 Therefore, a problem to be solved by the present invention is to provide a document processing apparatus and program capable of extracting an appropriate term as a synonym from a document.
本実施形態に係る文書処理装置は、文書格納手段と、用語抽出手段と、類似度算出手段と、クラスタ生成手段と、特徴度算出手段と、類義語抽出手段とを具備する。 The document processing apparatus according to the present embodiment includes a document storage unit, a term extraction unit, a similarity calculation unit, a cluster generation unit, a feature calculation unit, and a synonym extraction unit.
文書格納手段は、1つまたは複数の単語からなる用語を含む複数の文書を格納する。 The document storage means stores a plurality of documents including terms consisting of one or a plurality of words.
用語抽出手段は、前記文書格納手段に格納されている複数の文書に含まれる用語の中から第1および第2の用語を抽出する。 The term extracting unit extracts the first and second terms from the terms included in the plurality of documents stored in the document storing unit.
クラスタ生成手段は、前記文書格納手段に格納されている複数の文書の各々が属するクラスタを生成する。 The cluster generation unit generates a cluster to which each of the plurality of documents stored in the document storage unit belongs.
特徴度算出手段は、前記文書格納手段に格納されている複数の文書および前記生成されたクラスタに属する文書における前記抽出された第1の用語の出現頻度に基づいて当該クラスタに対する第1の用語の特徴度を算出し、前記文書格納手段に格納されている複数の文書および前記生成されたクラスタに属する文書における前記抽出された第2の用語の出現頻度に基づいて当該クラスタに対する第2の用語の特徴度を算出する。 The feature degree calculating unit is configured to determine the first term for the cluster based on the appearance frequency of the extracted first term in the plurality of documents stored in the document storing unit and the document belonging to the generated cluster. A feature degree is calculated, and based on the appearance frequency of the extracted second term in the plurality of documents stored in the document storage unit and the document belonging to the generated cluster, the second term for the cluster is calculated. The feature degree is calculated.
前記類似度算出手段によって算出された類似度、前記特徴度算出手段によって算出された第1の用語の特徴度および第2の用語の特徴度に基づいて、当該第1および第2の用語を類義語として抽出する。 Based on the similarity calculated by the similarity calculation unit, the feature level of the first term and the feature level of the second term calculated by the feature level calculation unit, the first and second terms are synonymous. Extract as
以下、図面を参照して、各実施形態について説明する。 Hereinafter, each embodiment will be described with reference to the drawings.
(第1の実施形態)
まず、図1および図2を参照して、第1の実施形態について説明する。図1は、本実施形態に係る文書処理装置のハードウェア構成を示すブロック図である。図1に示すように、コンピュータ10は、例えばハードディスクドライブ(HDD:Hard Disk Drive)のような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を格納する。コンピュータ10および外部記憶装置20は、文書処理装置30を構成する。
(First embodiment)
First, the first embodiment will be described with reference to FIGS. 1 and 2. FIG. 1 is a block diagram showing a hardware configuration of the document processing apparatus according to the present embodiment. As shown in FIG. 1, the
図2は、図1に示す文書処理装置30の主として機能構成を示すブロック図である。図2に示すように、文書処理装置30は、入力処理部31、解析部32、用語集計部33、類似度算出部、クラスタ生成部35、特徴度算出部36、類義語集合抽出部37および出力処理部38を含む。本実施形態において、これらの各部31〜38は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。このプログラム21は、コンピュータ読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラム21が、例えばネットワークを介してコンピュータ10にダウンロードされても構わない。
FIG. 2 is a block diagram mainly showing a functional configuration of the
また、文書処理装置30は、文書データベース(DB)22、解析結果格納部23、用語集計結果格納部24、類似度算出結果格納部25、特徴度算出結果格納部26および類義語集合格納部27を含む。本実施形態において、文書データベース(DB)22、解析結果格納部23、用語集計結果格納部24、類似度算出結果格納部25、特徴度算出結果格納部26および類義語集合格納部27は、例えば外部記憶装置20に格納される。
In addition, the
文書データベース22には、文書処理装置30の処理の対象となる複数の文書が予め格納されている。文書データベース22に格納されている文書には、1つまたは複数の単語からなる用語が含まれる。
In the
入力処理部31は、ユーザの指示入力または外部からのデータ入力等を処理する。入力処理部31は、例えばユーザの操作に応じて文書処理装置30の処理の実行の指示を受け付ける。
The
解析部32は、文書データベース22に格納されている複数の文書を解析(例えば、形態素解析および構文解析)する。これにより、解析部32は、複数の文書の解析結果を取得する。複数の文書の解析結果には、当該複数の文書に含まれる用語および当該用語間の係り受け関係が含まれる。なお、解析部32によって取得された解析結果は、解析結果格納部23に格納される。
The
用語集計部33は、解析結果格納部23に格納された解析結果に基づいて、当該解析結果に含まれる用語毎に出現頻度(文書データベース22に格納されている複数の文書における出現頻度)を集計する。これにより、用語集計部33は、用語毎の出現頻度を含む用語集計結果を取得する。用語集計部33によって取得された用語集計結果は、用語集計結果24に格納される。
Based on the analysis result stored in the analysis
類似度算出部34は、解析結果格納部23に格納された解析結果に基づいて、当該解析結果に含まれる用語(つまり、文書データベース22に格納されている複数の文書に含まれる用語)の中から2つの用語(第1および第2の用語)を抽出する。この場合、類似度算出部34は、例えば同一の用語(品詞が動詞である用語)と同一の係り受け関係にある2つの用語(品詞が名詞である用語)を抽出する。類似度算出部34は、抽出された2つの用語の類似度を算出する。
Based on the analysis result stored in the analysis
類似度算出部34は、文脈類似度算出部341および文字列類似度算出部342を含む。
The
文脈類似度算出部341は、解析結果格納部23に格納された解析結果および用語集計結果格納部24に格納された用語集計結果に基づいて、類似度算出部34によって抽出された2つの用語の類似度として文脈類似度を算出する。なお、文脈類似度は、「意味的に似た語は似た文脈で出現する」との分布仮説に基づいて算出される類似度である。
Based on the analysis result stored in the analysis
文字列類似度算出部342は、類似度算出部34によって抽出された2つの用語の類似度として文字列類似度を算出する。なお、文字列類似度は、用語を構成する文字列自体の類似度である。
The character string
類似度算出部34によって算出された類似度(文脈類似度算出部341によって算出された文脈類似度および文字列類似度算出部342によって算出された文字列類似度)は、類似度算出結果格納部25に格納される。
The similarity calculated by the similarity calculation unit 34 (the context similarity calculated by the context
クラスタ生成部35は、文書データベース22に格納されている複数の文書が属するクラスタを生成する。
The
特徴度算出部36は、用語集計結果格納部24に格納された用語集計結果に基づいて、当該用語集計結果に含まれる各用語の特徴度を算出する。このとき、特徴度算出部36は、クラスタ生成部35によって生成されたクラスタ毎に特徴度を算出する。特徴度算出部36によって算出された特徴度は、特徴度算出結果格納部26に格納される。
The feature
類義語集合抽出部37は、類似度算出結果格納部25に格納された類似度および特徴度算出結果格納部26に格納された特徴度に基づいて、類似度算出部34によって抽出された2つの用語を類義語として抽出する。類義語集合抽出部37による処理結果は、類義語集合格納部27に格納される。
The synonym set
出力処理部38は、ユーザへの表示出力または外部へのデータ出力等を処理する。出力処理部38は、例えば類義語集合抽出部37によって抽出された類義語集合を出力する。
The
図3は、図2に示す文書データベース22のデータ構造の一例を示す。図3に示す文書データベース22には、文書221を含む複数の文書が格納されている。
FIG. 3 shows an example of the data structure of the
文書データベース22に格納されている各文書には、文書ID、テキスト、日付、作成者IDおよび分類コードが対応づけて含まれる。
Each document stored in the
文書IDは、文書を識別するための識別子である。テキストは、対応づけられている文書IDによって識別される文書の内容を示し、例えば1つまたは複数の単語からなる用語を含む。なお、複数の単語からなる用語には、例えば複合語等が含まれる。 The document ID is an identifier for identifying a document. The text indicates the content of the document identified by the associated document ID and includes, for example, a term consisting of one or more words. Note that a term composed of a plurality of words includes, for example, a compound word.
日付は、対応づけられている文書IDによって識別される文書が作成された日付または更新された日付を示す。作成者IDは、対応づけられている文書IDによって識別される文書を作成した作成者を識別するための識別子である。 The date indicates the date when the document identified by the associated document ID was created or updated. The creator ID is an identifier for identifying the creator who created the document identified by the associated document ID.
分類コードは、対応づけられている文書IDによって識別される文書が分類された場合に当該文書が属する分類を示す。この分類コードは、例えば対応づけられている文書IDによって識別される文書の作成者(つまり、対応づけられている作成者IDによって識別される作成者)が当該文書を文書データベース22に登録する際に予め設定される。なお、分類コードは、例えば文書データベース22に格納されている複数の文書に対して自動クラスタリング等を実行することにより機械的に決定されても構わない。
The classification code indicates the classification to which the document belongs when the document identified by the associated document ID is classified. This classification code is used when, for example, the creator of a document identified by the associated document ID (that is, the creator identified by the associated creator ID) registers the document in the
図3に示す例では、文書221には、文書ID「1」、テキスト「鉛筆と消しゴムと時計を持参して下さい。」、日付「2010−1−1」、作成者ID「1」および分類コード「A」が含まれている。これによれば、文書221は、文書ID「1」によって識別される文書であり、当該文書221の内容が「鉛筆と消しゴムと時計を持参して下さい。」であることが示されている。また、文書221は、作成者ID「1」によって日付「2010−1−1」に作成され、分類コード「A」に属することが示されている。
In the example illustrated in FIG. 3, the
ここでは、文書データベース22に格納されている複数の文書のうちの文書221について説明したが、他の文書についても同様であるため、その詳しい説明を省略する。
Here, the
なお、図3に示す例では、各文書に含まれるテキストは便宜的に1つの文のみから構成されているが、当該テキストは複数の文(2文以上)から構成されていても構わない。 In the example shown in FIG. 3, the text included in each document is composed of only one sentence for convenience, but the text may be composed of a plurality of sentences (two or more sentences).
次に、図4のフローチャートを参照して、本実施形態に係る文書処理装置30の処理手順について説明する。以下の説明においては、文書データベース22には、図3に示す複数の文書が格納されているものとする。
Next, the processing procedure of the
まず、入力処理部31は、ユーザの操作に応じて、当該ユーザからの文書処理装置30の処理を実行する旨の指示(以下、実行指示と表記)を入力する(ステップS1)。
First, the
入力処理部31によって実行指示が入力されると、解析部32は、文書データベース22に格納されている複数の文書を取得する。解析部32は、取得された複数の文書を解析する(ステップS2)。このとき、解析部32は、例えば形態素解析処理および構文解析処理を実行する。これにより、解析部32は、例えば構文解析結果を示す依存木構造のうち、名詞と動詞との係り受け関係を示す情報(以下、係り受け関係情報と表記)を取得する。
When an execution instruction is input by the
なお、解析部32によって抽出された係り受け関係情報は、解析結果として解析結果格納部23に格納される。
The dependency relationship information extracted by the
ここで、図5および図6は、解析結果格納部23のデータ構造の一例を示す。図5および図6に示す解析結果格納部23には、係り受け関係情報231〜233を含む複数の係り受け関係情報が格納されている。なお、係り受け関係情報は、上記したように名詞と動詞との係り受け関係を示す情報である。
Here, FIG. 5 and FIG. 6 show an example of the data structure of the analysis
解析結果格納部23に格納されている係り受け関係情報には、当該係り受け関係情報を識別するための係り受け関係情報ID、用語1、用語2、関係および文書IDが対応づけて含まれる。なお、係り受け関係情報IDは、解析部23によって取得された係り受け関係情報毎に付与される。
The dependency relationship information stored in the analysis
用語1は、対応づけられている係り受け関係情報IDによって識別される係り受け関係情報によって示される名詞と動詞との係り受け関係のうちの係り元の用語(つまり、名詞)を示す。用語2は、対応づけられている係り受け関係情報IDによって識別される係り受け関係情報によって示される名詞と動詞との係り受け関係のうちの係り先の用語(つまり、動詞)を示す。関係は、対応づけられている係り受け関係情報IDによって識別される係り受け関係情報によって示される名詞と動詞との係り受け関係(つまり、用語1と用語2との係り受け関係)を示す。文書IDは、対応づけられている係り受け関係情報IDによって識別される係り受け関係情報が取得された文書(つまり、当該係り受け関係情報によって示される名詞と動詞との係り受け関係が出現する文書)を識別するための識別子である。
The
図5に示す例えば係り受け関係情報231には、係り受け関係情報ID「1」、用語1「鉛筆」、用語2「持参」、関係「を」および文書ID「1」が含まれる。この係り受け関係情報ID「1」によって示される係り受け関係情報231によれば、用語1「鉛筆(名詞)」と用語2「持参(動詞)」との係り受け関係が「を」であることが示されている。また、係り受け関係情報ID「1」によって示される係り受け関係情報231によれば、当該係り受け関係情報231が文書データベース22に格納されている複数の文書のうちの文書ID「1」によって識別される文書から取得されたことが示されている。
For example, the
また、図5に示す例えば係り受け関係情報232には、係り受け関係情報ID「6」、用語1「質問」、用語2「ある」、関係「が」および文書ID「3」が含まれる。この係り受け関係情報ID「6」によって示される係り受け関係情報232によれば、用語1「質問(名詞)」と用語2「ある(動詞)」との係り受け関係が「が」であることが示されている。また、係り受け関係情報ID「6」によって示される係り受け関係情報232によれば、当該係り受け関係情報232が文書データベース22に格納されている複数の文書のうちの文書ID「6」によって識別される文書から取得されたことが示されている。
Further, for example, the
また、図6に示す例えば係り受け関係情報233には、係り受け関係情報ID「21」、用語1「字消し」、用語2「消す」、関係「で」および文書ID「8」が含まれる。この係り受け関係情報ID「21」によって示される係り受け関係情報233によれば、用語1「字消し(名詞)」と用語2「消す(動詞)」との係り受け関係が「で」であることが示されている。また、係り受け関係情報ID「21」によって示される係り受け関係情報233によれば、当該係り受け関係情報233が文書データベース22に格納されている複数の文書のうちの文書ID「21」によって識別される文書から取得されたことが示されている。
6 includes, for example, dependency relationship information ID “21”,
ここでは、解析結果格納部23に格納されている複数の係り受け関係情報のうちの係り受け関係情報231〜233について説明したが、他の係り受け関係情報についても同様であるため、その詳しい説明を省略する。
Here, the
再び図4に戻ると、用語集計部33は、解析結果格納部23に格納されている係り受け関係情報に基づいて用語の出現頻度を集計する(ステップS3)。具体的には、用語集計部33は、解析結果格納部23に格納されている係り受け関係情報に含まれる用語1毎に、解析結果格納部23に格納されている全ての係り受け関係情報において当該用語1が出現する頻度(出現頻度)を示す出現頻度情報を取得する。
Returning to FIG. 4 again, the
なお、用語集計部33によって取得された出現頻度情報は、用語集計結果として用語集計結果格納部24に格納される。
The appearance frequency information acquired by the
ここで、図7は、用語集計結果格納部24のデータ構造の一例を示す。なお、図7に示す用語集計結果格納部24には、出現頻度情報241および242を含む複数の出現頻度情報が格納されている。出現頻度情報は、解析結果格納部23に格納されている係り受け関係情報に含まれる用語1の当該解析結果格納部23に格納されている全ての係り受け関係情報(つまり、文書データベース22に格納されている複数の文書)における出現頻度を示す。
Here, FIG. 7 shows an example of the data structure of the term aggregation
用語集計結果格納部24に格納されている出現頻度情報には、当該出現頻度情報を識別するための出現頻度情報ID、用語および出現頻度が対応づけて含まれる。なお、出現頻度情報IDは、用語集計部33によって取得された出現頻度情報毎に付与される。
The appearance frequency information stored in the term aggregation
用語は、対応づけられている出現頻度情報IDによって識別される出現頻度情報によって出現頻度が示される用語を示し、解析結果格納部23に格納されている係り受け関係情報に含まれる用語1(名詞)である。出現頻度は、対応づけられている用語の解析結果格納部23に格納されている全ての係り受け関係情報における出現頻度である。
The term indicates a term whose appearance frequency is indicated by the appearance frequency information identified by the corresponding appearance frequency information ID, and the term 1 (noun) included in the dependency relationship information stored in the analysis
図7に示す例えば出現頻度情報241には、出現頻度情報ID「1」、用語「鉛筆」および頻度「1」が含まれる。この出現頻度情報ID「1」によって示される出現頻度情報241によれば、用語「鉛筆」の出現頻度が1であることが示されている。
For example, the
また、図7に示す例えば出現頻度情報242には、出現頻度情報ID「2」、用語「消しゴム」および頻度「4」が含まれる。この出現頻度情報ID「2」によって示される出現頻度情報242によれば、用語「消しゴム」の出現頻度が4であることが示されている。
For example, the
ここでは、用語集計結果格納部24に格納されている複数の出現頻度情報のうちの出現頻度情報241および242について説明したが、他の出現頻度情報についても同様であるため、その詳しい説明を省略する。
Here, the
再び図4に戻ると、類似度算出部34は、解析結果格納部23および用語集計結果格納部24を参照して類似度算出処理を実行する(ステップS4)。この類似度算出処理によれば、解析結果格納部23に格納された係り受け関係情報に含まれる用語1の中から2つの用語1が抽出され、当該2つの用語1の類似度が算出される。なお、類似度算出処理の詳細については後述する。
Returning to FIG. 4 again, the
類似度算出処理が実行されると、類似度算出部34によって算出された類似度は、類似度算出結果格納部25に格納される。
When the similarity calculation process is executed, the similarity calculated by the
次に、クラスタ生成部35は、文書データベース22に格納されている複数の文書が属するクラスタを生成する(ステップS5)。上記したように文書データベース22に格納されている文書に分類コードが含まれている場合には、クラスタ生成部35は、当該分類コードに基づいてクラスタを生成する。ここでは、図8に示すように、文書データベース22に格納されている複数の文書のうち、例えば分類コード「A」が含まれている文書が属するクラスタとしてクラスタ1、分類コード「B」が含まれている文書が属するクラスタとしてクラスタ2、分類コード「C」が含まれている文書が属するクラスタとしてクラスタ3がクラスタ生成部35によって生成されたものとする。
Next, the
なお、本実施形態においては文書データベース22に格納されている複数の文書に含まれる各分類コードに対して1対1で対応するクラスタを生成するが、例えば当該分類コードが複数桁であるような場合には、その上位N桁に対して1対1で対応するクラスタを生成しても構わない。つまり、複数の分類コードに対して1つのクラスタが生成されるような構成であっても構わない。
In the present embodiment, a one-to-one cluster corresponding to each classification code included in a plurality of documents stored in the
また、本実施形態においては文書データベース22に格納されている文書の各々に分類コードが含まれているものとして説明したが、当該文書の各々に分類コードが含まれていない場合には、当該文書データベース22に格納されている複数の文書に対して例えば自動クラスタリング処理を実行し、当該処理結果に基づいてクラスタが生成されても構わない。
In the present embodiment, each document stored in the
次に、特徴度算出部36は、用語集計結果格納部24に格納されている出現頻度情報に含まれる用語毎に、クラスタ生成部35によって生成された各クラスタに対する特徴度を算出する処理(以下、特徴度算出処理と表記)を実行する(ステップS6)。この特徴度算出処理においては、用語集計結果格納部24に格納されている出現頻度情報に含まれる用語の出現頻度(つまり、当該出現頻度情報において当該用語に対応づけられている出現頻度)およびクラスタ生成部35によって生成されたクラスタに属する文書における当該用語の出現頻度に基づいて、当該用語の当該クラスタに対する特徴度が算出される。なお、特徴度算出処理の詳細については後述する。
Next, the feature
特徴度算出処理が実行されると、特徴度算出部36によって算出された特徴度は、特徴度算出結果格納部26に格納される。
When the feature degree calculation process is executed, the feature degree calculated by the feature
次に、類義語集合抽出部37は、類似度算出結果格納部25に格納された類似度および特徴度算出結果格納部26に格納された特徴度に基づいて、類義語(の集合)を抽出する処理(以下、類義語集合抽出処理と表記)を実行する(ステップS7)。この類義語集合抽出処理においては、上記した類似度算出処理において抽出された2つの用語が類義語として抽出される。なお、類義語集合抽出処理の詳細については後述する。
Next, the synonym set
類義語集合抽出処理が実行されると、類義語集合抽出部37による処理結果(当該類義語集合抽出部37によって類義語として抽出された2つの用語)は、類義語集合格納部27に格納されるとともに、出力処理部38を介して出力される(ステップS8)。
When the synonym set extraction processing is executed, the processing result by the synonym set extraction unit 37 (two terms extracted as synonyms by the synonym set extraction unit 37) is stored in the synonym set
類義語集合格納部27に格納された2つの用語は、類義語として例えば文書検索または文書分類等の処理に利用することができる。また、類義語集合抽出部37によって抽出された2つの用語が出力されることにより、ユーザは、当該2つの用語が類義語として適切であるかを確認して、例えば当該2つの用語を類義語として登録すべきか否かを指示することができる。
The two terms stored in the synonym set
次に、図9のフローチャートを参照して、前述した類似度算出処理(上記した図4に示すステップS4の処理)の処理手順について説明する。 Next, a processing procedure of the above-described similarity calculation process (the process of step S4 shown in FIG. 4 described above) will be described with reference to the flowchart of FIG.
まず、類似度算出部34は、解析結果格納部23に格納されている全ての係り受け関係情報を読み込む(ステップS11)。
First, the
次に、類似度算出部34は、解析結果格納部23から読み込まれた係り受け関係情報に含まれる用語2(係り先の用語)および関係(係り受け関係)を1つの組として、当該読み込まれた全ての係り受け関係情報において当該用語2および関係の組に対応づけられている用語1(係り元の用語)の異なり数をカウントする(ステップS12)。換言すれば、類似度算出部34は、解析結果格納部23から読み込まれた係り受け関係情報の各々に含まれる用語1のうち、同一の用語2と同一の係り受け関係にある用語1の異なり数をカウントする。なお、ステップS12の処理は、解析結果格納部23から読み込まれた係り受け関係情報の各々に含まれる用語2および関係の全ての組について実行される。
Next, the
次に、類似度算出部34は、解析結果格納部23を参照して、ステップS12の処理においてカウントされた異なり数が2以上である場合における用語2および関係の組に対応づけられている各用語1の出現頻度をカウントする(ステップS13)。具体的には、上記したように係り受け関係情報に含まれる用語2と関係との組に対応づけられている用語1の異なり数が2以上である場合、類似度算出部34は、当該用語1毎に、当該用語1、当該用語2および当該関係を含む係り受け関係情報の出現頻度(数)をカウントする。
Next, the
類似度算出部34は、ステップS12およびS13の処理結果をもとに、類似度算出処理における中間処理結果を示す中間処理結果情報を生成する(ステップS14)。中間処理結果情報は、ステップS13において出現頻度がカウントされた用語1(、用語2および関係の組)毎に生成される。類似度算出部34によって生成された中間処理結果情報には、当該中間処理結果情報を識別するための中間処理結果ID、ステップS13において出現頻度がカウントされた係り受け関係情報に含まれる用語1、用語2および関係の組、および当該カウントされた出現頻度(以下、係り受け関係出現頻度と表記)が含まれる。
The
類似度算出部34は、生成された中間処理結果情報に基づいて2つの用語1からなる全ての組み合わせを抽出する(ステップS15)。具体的には、類似度算出部34は、生成された中間処理結果情報に基づいて、同一の用語2と同一の係り受け関係にある用語1の中の2つの用語1からなる全ての組み合わせ(ここでは、順列)を抽出する。
The
以下、ステップS14において抽出された2つの用語1の組み合わせにおいて、前方の用語1を用語A、後方の用語1を用語Bとする。また、この用語Aおよび用語Bからなる組み合わせを単に用語Aおよび用語Bの組と称する。
Hereinafter, in the combination of the two
ステップS14が実行されると、類似度算出部34は、抽出された用語Aおよび用語Bの組の各々を類似度算出結果格納部25に格納する。このとき、類似度算出結果格納部25には、用語Aおよび用語Bに加えて、当該用語Aに対応づけて中間処理結果情報に含まれる係り受け関係出現頻度等が格納される。
When step S <b> 14 is executed, the
次に、ステップS16およびS17の処理において、類似度算出結果格納部25に格納された用語Aおよび用語Bの文脈類似度が算出される。
Next, in the processes of steps S16 and S17, the context similarity of terms A and B stored in the similarity calculation
類似度算出部34に含まれる文脈類似度算出部341は、用語集計結果格納部24に格納されている出現頻度情報に基づいて用語Aの出現頻度を取得する(ステップS16)。この場合、文脈類似度算出部341は、用語集計結果格納部24に格納されている出現頻度情報において用語Aに対応づけられている出現頻度を取得する。文脈類似度算出部341によって取得された用語Aの出現頻度は、当該用語Aに対応づけて類似度算出結果格納部25に格納される。
The context
なお、ステップS16の処理は、類似度算出結果格納部25に格納された用語A毎に実行される。これにより、ステップS16の処理が実行された場合には、用語A毎の出現頻度が当該用語Aに対応づけて類似度算出結果格納部25に格納される。
The process of step S16 is executed for each term A stored in the similarity calculation
次に、文脈類似度算出部341は、類似度算出結果格納部25を参照して、当該類似度算出結果格納部25に格納された用語Aおよび用語Bの文脈類似度を算出する(ステップS17)。用語Aおよび用語Bの文脈類似度は、当該用語Aおよび用語Bに対応づけて類似度算出結果格納部25に格納された係り受け関係出現頻度および用語Aの出現頻度を用いて、「係り受け関係出現頻度/用語Aの出現頻度」によって算出される。なお、文脈類似度算出部341によって算出された文脈類似度が閾値(例えば、0.25)以下である場合には、当該文脈類似度は0であるものとする。
Next, the context
文脈類似度算出部341によって算出された用語Aおよび用語Bの文脈類似度は、当該用語Aおよび用語Bに対応づけて類似度算出結果格納部25に格納される。
The context similarity of terms A and B calculated by the context
なお、ステップS17の処理は、類似度算出結果格納部25に格納された用語Aおよび用語Bの組毎に実行される。これにより、ステップS17の処理が実行された場合には、用語Aおよび用語Bの組毎の文脈類似度が類似度算出結果格納部25に格納される。
The process of step S17 is executed for each set of terms A and B stored in the similarity calculation
次に、ステップS18およびS19の処理において、類似度算出結果格納部25に格納された用語Aおよび用語Bの文字列類似度が算出される。
Next, in the processes of steps S18 and S19, the character string similarity of terms A and B stored in the similarity calculation
類似度算出部34に含まれる文字列類似度算出部342は、類似度算出結果格納部25に格納された用語Aおよび用語Bにおいて共通する文字数(以下、用語Aおよび用語Bの共通文字数と表記)をカウントする(ステップS18)。
The character string
次に、文字列類似度算出部342は、カウントされた用語Aおよび用語Bの共通文字数に基づいて当該用語Aおよび用語Bの文字列類似度を算出する(ステップS19)。用語Aおよび用語Bの文字列類似度は、「用語Aおよび用語Bの共通文字数/用語Aの文字数」によって算出される。なお、文字列類似度算出部342によって算出された文字列類似度は、当該用語Aおよび用語Bに対応づけて類似度算出結果格納部25に格納される。
Next, the character string
なお、上記したステップS18およびS19の処理は、類似度算出結果格納部25に格納された用語Aおよび用語Bの組毎に実行される。これにより、ステップS18およびS19の処理が実行された場合には、用語Aおよび用語Bの組毎の文字列類似度が類似度算出結果格納部25に格納される。
Note that the processing in steps S18 and S19 described above is executed for each set of terms A and B stored in the similarity calculation
以下、図10〜14を参照して、上記した類似度算出処理について具体的に説明する。ここでは、解析結果格納部23には、上記した図5および図6に示す複数の係り受け関係情報が格納されているものとする。また、用語集計結果格納部24には、上記した図7に示す複数の出現頻度情報が格納されているものとする。
Hereinafter, the above-described similarity calculation processing will be described in detail with reference to FIGS. Here, it is assumed that the analysis
まず、類似度算出部34は、解析結果格納部23から全ての係り受け関係情報を読み込む。次に、類似度算出部34は、読み込まれた係り受け関係情報の各々に含まれる用語2および関係の組毎に、当該組に対応づけられている用語1の異なり数をカウントする。つまり、類似度算出部34は、読み込まれた係り受け関係情報に基づいて、同一の用語2と同一の係り受け関係にある用語1の異なり数をカウントする。
First, the
ここで、上述した図5および図6を用いて具体的に説明すると、例えば用語2「持参」および関係「を」の組に対応づけられている用語1は、「鉛筆」、「消しゴム」および「時計」である。このため、図5および図6に示す係り受け関係情報において用語2「持参」および関係「を」の組に対応づけられている用語1(つまり、用語2「持参」と「を」の係り受け関係にある用語1)の異なり数は3となる。ここでは、用語2「持参」および関係「を」の組に対応づけられている用語1の異なり数ついて具体的に説明したが、他の用語2および関係の組に対応づけられている用語1の異なり数についても同様にカウントされる。
5 and FIG. 6 described above, for example, the
次に、類似度算出部34は、カウントされた異なり数が2以上である場合における用語2および関係の組に対応づけられている各用語1の出現頻度をカウントする。例えば上記した用語2「持参」および関係「を」の組に対応づけられている用語1の異なり数は2以上であるため、類似度算出部34は、用語2「持参」および関係「を」の組に対応づけられている用語1「鉛筆」、「消しゴム」および「時計」の各々の出現頻度をカウントする。
Next, the
ここで、上記したように用語2「持参」および関係「を」の組に対応づけられている用語1「鉛筆」の出現頻度について、図5および図6を用いて具体的に説明する。この場合、用語1「鉛筆」、用語2「持参」および関係「を」の組を含む係り受け関係情報の出現頻度(数)が解析結果格納部23内でカウントされる。図5および図6によれば、用語2「持参」および関係「を」の組に対応づけられている用語1「鉛筆」の出現頻度は1となる。
Here, the appearance frequency of the
なお、詳しい説明は省略するが、図5および図6に示す係り受け関係情報によれば、用語2「持参」および関係「を」の組に対応づけられている用語1「消しゴム」および「時計」の出現頻度についても同様に1となる。
Although detailed explanation is omitted, according to the dependency relationship information shown in FIGS. 5 and 6, the
ここでは、用語2「持参」および関係「を」の組に対応づけられている用語1「鉛筆」、「消しゴム」および「時計」の各々の出現頻度について主に説明したが、異なり数が2以上である場合における用語2および関係の組に対応づけられている用語1の全てについて出現頻度がカウントされる。
Here, the appearance frequency of each of the
次に、類似度算出部34は、中間処理結果情報を生成する。この場合、類似度算出部34は、図10に示す中間処理結果情報101〜110を生成する。
Next, the
図10に示すように、中間処理結果情報101〜110には、中間処理結果ID、上記したように出現頻度がカウントされた係り受け関係情報に含まれる用語1、用語2および関係の組、および当該カウントされた出現頻度(係り受け関係出現頻度)が含まれる。
As shown in FIG. 10, the intermediate
なお、中間処理結果情報101〜110に含まれる中間処理結果IDは、中間処理結果情報を識別するための識別子であり、対応づけられている用語2および関係の組に対して付与された数値(識別子)と、対応づけられている用語1に対して付与された数値(識別子)とから構成される。
The intermediate process result ID included in the intermediate process result
図10に示す例えば中間処理結果情報101には、中間処理結果ID「1−1」、用語1「鉛筆」、用語2「消しゴム」、関係「を」および出現頻度「1」が含まれている。この中間処理結果ID「1−1」によって識別される中間処理結果情報101によれば、用語1「鉛筆」、用語2「持参」、関係「を」(の組)を含む係り受け関係情報の出現頻度(係り受け関係出現頻度)が1であることが示されている。なお、中間処理結果ID「1−1」のうち、左側の「1」は、用語2「持参」および関係「を」の組に対して付与された数値であり、右側の「1」は、用語1「鉛筆」に対して付与された数値である。
For example, the intermediate
同様に、中間処理結果102には、中間処理結果ID「1−2」、用語1「消しゴム」、用語2「持参」、関係「を」および出現頻度「1」が含まれている。この中間処理結果ID「1−2」によって識別される中間処理結果情報102によれば、用語1「消しゴム」、用語2「持参」および関係「を」(の組)を含む係り受け関係情報の出現頻度が1であることが示されている。なお、中間処理結果ID「1−2」のうち、左側の「1」は、上記した中間処理結果情報101と同様に用語2「持参」および関係「を」の組に対して付与された数値であり、右側の「2」は、用語1「消しゴム」に対して付与された数値である。
Similarly, the
更に、中間処理結果103には、中間処理結果ID「1−3」、用語1「時計」、用語2「持参」、関係「を」および出現頻度「1」が含まれている。この中間処理結果ID「1−3」によって識別される中間処理結果情報103によれば、用語1「時計」、用語2「持参」および関係「を」(の組)を含む係り受け関係情報の出現頻度が1であることが示されている。なお、中間処理結果ID「1−3」のうち、左側の「1」は、上記した中間処理結果情報101および102と同様に用語2「持参」および関係「を」の組に対して付与された数値であり、右側の「3」は、用語1「時計」に対して付与された数値である。
Further, the
なお、中間処理結果情報104〜110については詳しい説明は省略するが、例えば中間処理結果情報104および105では、用語2「記入」および関係「を」の組が共通しているため、当該中間処理結果情報104および105を識別するための中間処理結果IDにおける左側の数値は共通している。同様に、中間処理結果情報106〜108では、用語2「押す」および関係「を」の組が共通しているため、当該中間処理結果情報106〜108を識別するための中間処理結果IDにおける左側の数値は共通している。また、中間処理結果情報109および110についても、用語2「消す」および関係「で」の組が共通しているため、当該中間処理結果情報109および110を識別するための中間処理結果IDにおける左側の数値は共通している。
Although detailed description of the intermediate
次に、類似度算出部34は、中間処理結果情報101〜110において左側の数値が同じである中間処理結果IDに対応づけられている用語1の中の2つの用語1からなる全ての組み合わせ(順列)を抽出する。
Next, the
中間処理結果情報101〜110において例えば左側の数値が「1」である中間処理結果ID(ここでは、中間処理結果ID「1−1」、「1−2」および「1−3」)に対応づけられている用語1は、「鉛筆」、「消しゴム」および「時計」である。この場合、類似度算出部34は、「鉛筆」および「消しゴム」、「鉛筆」および「時計」、「消しゴム」および「鉛筆」、「消しゴム」および「時計」、「時計」および「鉛筆」、「時計」および「消しゴム」の6つの組み合わせ(順列)を抽出する。なお、中間処理結果情報101〜110において例えば左側の数値が「2」である中間処理結果IDおよび左側の数値が「3」である中間処理結果IDに対応づけられている用語1についても同様である。
In the intermediate
このように類似度算出部34によって抽出された用語1の各組み合わせは、用語Aおよび用語Bとして類似度算出結果格納部25に格納される。
Thus, each combination of the
ここで、図11は、用語Aおよび用語Bの組が格納された後の類似度算出結果格納部25のデータ構造の一例を示す。
Here, FIG. 11 shows an example of the data structure of the similarity calculation
図11に示すように、類似度算出結果格納部25には、組ID、元ID、元ID出現頻度、用語Aおよび用語Bが対応づけて格納されている。
As illustrated in FIG. 11, the similarity calculation
組IDは、用語Aおよび用語Bの組を識別するための識別子である。元IDは、用語Aに対応づけて図10に示す中間処理結果情報に含まれる中間処理結果IDである。元ID出現頻度は、用語Aに対応づけて図10に示す中間処理結果情報に含まれる出現頻度(係り受け関係出現頻度)である。 The set ID is an identifier for identifying a set of terms A and B. The original ID is an intermediate processing result ID included in the intermediate processing result information shown in FIG. The original ID appearance frequency is an appearance frequency (dependency relation appearance frequency) included in the intermediate processing result information shown in FIG.
図11に示す例では、類似度算出結果格納部25には、例えば組ID「1」、元ID「1−1」、元ID出現頻度「1」、用語A「鉛筆」および用語B「消しゴム」が対応づけて格納されている。
In the example illustrated in FIG. 11, the similarity calculation
ここでは、用語A「鉛筆」および用語B「消しゴム」の組について説明したが、図11に示すように他の用語Aおよび用語Bの組についても同様である。 Here, the set of the term A “pencil” and the term B “eraser” has been described, but the same applies to other sets of the term A and the term B as shown in FIG.
次に、類似度算出部34に含まれる文脈類似度算出部341は、図11に示す類似度算出結果格納部25に格納された用語Aおよび用語Bの文脈類似度を算出する。
Next, the context
この場合、文脈類似度算出部341は、図7に示す用語集計結果格納部24に格納されている出現頻度情報において各用語Aに対応づけられている出現頻度(当該用語Aの出現頻度)を取得する。文脈類似度算出部341によって取得された各用語Aの出現頻度は、図12に示すように、当該用語A(および用語B)に対応づけて類似度算出結果格納部25に格納される。
In this case, the context
次に、文脈類似度算出部341は、類似度算出結果格納部25において用語Aおよび用語Bに対応づけられている元ID出現頻度(係り受け関係出現頻度)および用語Aの出現頻度を用いて、当該用語Aおよび用語Bの文脈類似度を算出する。
Next, the context
図12に示す類似度算出結果格納部25において、例えば用語A「鉛筆」および用語B「消しゴム」に対応づけられている元ID出現頻度は1であり、用語A「鉛筆」の出現頻度は1である。このため、用語A「鉛筆」および用語B「消しゴム」の文脈類似度は、1/1=1と算出される。
In the similarity calculation
また、図12に示す類似度算出結果格納部25において、例えば用語A「消しゴム」および用語B「鉛筆」に対応づけられている元ID出現頻度は1であり、用語A「消しゴム」の出現頻度は4である。このため、用語A「消しゴム」および用語B「鉛筆」の文脈類似度は、1/4=0.25と算出される。ここで、上記した閾値が0.25であるものとすると、用語A「消しゴム」および用語B「鉛筆」の文脈類似度は当該閾値以下であるため0となる。
In the similarity calculation
なお、図12に示す類似度算出結果格納部25に格納されている他の用語Aおよび用語Bについても同様に文脈類似度が算出される。
Note that context similarities are similarly calculated for other terms A and B stored in the similarity calculation
上記したように文脈類似度算出部341によって算出された用語Aおよび用語Bの文脈類似度は、当該用語Aおよび用語Bに対応づけて類似度算出結果格納部25に格納される。なお、図13は、用語Aおよび用語Bの文脈類似度が格納された後の類似度算出結果格納部25のデータ構造の一例を示す。
As described above, the context similarity of terms A and B calculated by the context
次に、類似度算出部34に含まれる文字列類似度算出部342は、類似度算出結果格納部25に格納された用語Aおよび用語Bの文字列類似度を算出する。
Next, the character string
この場合、文字列類似度算出部342は、類似度算出結果格納部25に格納された用語Aおよび用語Bの組毎に、当該用語Aおよび用語Bの共通文字数をカウントする。図13を用いて具体的に説明すると、類似度算出結果格納部25に格納された例えば用語A「鉛筆」および用語B「消しゴム」の場合、当該用語A「鉛筆」および用語B「消しゴム」の共通文字数は0である。また、類似度算出結果格納部25に格納された例えば用語A「字消し」および用語B「消しゴム」の場合、当該用語A「字消し」および用語B「消しゴム」の共通文字数は2である。
In this case, the character string
文字列類似度算出部342は、カウントされた用語Aおよび用語Bの共通文字数および当該用語Aの文字数に基づいて、当該用語Aおよび用語Bの文字列類似度を算出する。例えば用語A「鉛筆」および用語B「消しゴム」の場合、上記したように用語A「鉛筆」および用語B「消しゴム」の共通文字数は0であり、用語Aの文字数は2である。このため、用語A「鉛筆」および用語B「消しゴム」の文字列類似度は、0/2=0と算出される。また、例えば用語A「字消し」および用語B「消しゴム」の場合、上記したように用語A「字消し」および用語B「消しゴム」の共通文字数は2であり、用語Aの文字数は3である。このため、用語A「字消し」および用語B「消しゴム」の文字列類似度は、2/3≒0.67と算出される。
The character string
なお、図13に示す類似度算出結果格納部25に格納されている他の用語Aおよび用語Bについても同様に文字列類似度が算出される。
The character string similarity is similarly calculated for the other terms A and B stored in the similarity calculation
上記したように文脈類似度算出部341によって算出された用語Aおよび用語Bの文脈類似度は、当該用語Aおよび用語Bに対応づけて類似度算出結果格納部25に格納される。なお、図14は、用語Aおよび用語Bの文字列類似度が格納された後の類似度算出結果格納部25のデータ構造の一例である。
As described above, the context similarity of terms A and B calculated by the context
次に、図15のフローチャートを参照して、前述した特徴度算出処理(上記した図4に示すステップS6の処理)の処理手順について説明する。 Next, with reference to the flowchart of FIG. 15, the processing procedure of the above-described feature degree calculation processing (the processing of step S6 shown in FIG. 4 described above) will be described.
まず、特徴度算出部36は、用語集計結果格納部24に格納されている全ての出現頻度情報を読み込む(ステップS21)。用語集計結果格納部24から読み込まれた出現頻度情報は、特徴度算出結果格納部26に格納される。これにより、用語集計結果格納部24には、出現頻度情報ID、用語および当該用語の出現頻度が対応づけて格納される。
First, the feature
次に、特徴度算出部36は、上述した図4に示すステップS5においてクラスタ生成部35によって生成されたクラスタ毎に、当該クラスタに属する文書(の集合)を文書データベース22から取得する。
Next, for each cluster generated by the
特徴度算出部36は、特徴度算出結果格納部26に格納された用語の各クラスタにおける出現頻度をカウントする(ステップS22)。具体的には、特徴度算出部36は、取得された各クラスタに属する文書における用語の出現頻度をカウントする。なお、ステップS22の処理は、特徴度算出結果格納部26に格納された全ての用語について実行される。
The
ステップS22の処理が実行されると、特徴度算出部36によってカウントされた特徴度算出結果格納部26に格納された用語の各クラスタにおける出現頻度は、当該用語に対応づけて特徴度算出結果格納部26に格納される。
When the process of step S22 is executed, the appearance frequency in each cluster of terms stored in the feature calculation
次に、特徴度算出部36は、特徴度算出結果格納部26に格納された用語の出現頻度および当該用語の各クラスタにおける出現頻度に基づいて、当該用語の各クラスタに対する特徴度を算出する(ステップS23)。なお、用語の各クラスタに対する特徴度は、値が大きいほど当該用語が当該クラスタにおいて特徴的な用語であることを表す。
Next, the feature
用語のクラスタに対する特徴度は、「(当該用語のクラスタにおける出現頻度−1)/当該用語の出現頻度」によって算出される。なお、ステップS23の処理は、特徴度算出結果格納部26に格納された全ての用語について実行される。
The characteristic degree of a term with respect to a cluster is calculated by “(appearance frequency in the cluster of the term−1) / appearance frequency of the term”. Note that the process of step S23 is executed for all terms stored in the feature calculation
上記したステップS23の処理が実行されると、特徴度算出部36によって算出された用語の各クラスタに対する特徴度は、当該用語に対応づけて特徴度算出結果格納部26に格納される(ステップS24)。ステップS24の処理が実行されると、特徴度算出処理は終了される。
When the process of step S23 described above is executed, the feature degrees for each cluster of terms calculated by the feature
以下、図16〜図18を参照して、上記した特徴度算出処理について具体的に説明する。ここでは、用語集計結果格納部24には、上記した図7に示す複数の出現頻度情報が格納されているものとする。また、上述した図8において説明したようにクラスタ1〜3がクラスタ生成部35によって生成されたものとする。
Hereinafter, with reference to FIGS. 16 to 18, the above-described feature calculation processing will be specifically described. Here, it is assumed that the term count
まず、特徴度算出部36は、用語集計結果格納部24から全ての出現頻度情報を読み込む。用語集計結果格納部24から読み込まれた出現頻度情報は、特徴度算出結果格納部26に格納される。これにより、特徴度算出結果格納部26は、例えば図7と同様の情報が格納される。
First, the feature
次に、特徴度算出部36は、クラスタ生成部35によって生成されたクラスタ1〜3の各々に属する文書を文書データベース22から取得する。ここでは、上記したようにクラスタ1には分類コード「A」を含む文書が属し、クラスタ2には分類コード「B」を含む文書が属し、クラスタ3には分類コード「C」を含む文書が属するものとする。このため、クラスタ1に属する文書として分類コード「A」を含む文書が文書データベース22から取得される。また、クラスタ2に属する文書として分類コード「B」を含む文書が文書データベース22から取得される。また、クラスタ3に属する文書として分類コード「C」を含む文書が文書データベース22から取得される。
Next, the
特徴度算出部36は、特徴度算出結果格納部26に格納された用語毎に、当該用語のクラスタ「1」〜「3」の各々における出現頻度(以下、クラスタ出現頻度と表記)をカウントする。この場合、特徴度算出部36は、文書データベース22から取得されたクラスタ1に属する文書における各用語の出現頻度、クラスタ2に属する文書における各用語の出現頻度およびクラスタ3に属する文書における各用語の出現頻度をカウントする。
For each term stored in the feature value calculation
特徴度算出部36によってカウントされたクラスタ1〜3の各々におけるクラスタ出現頻度は、用語毎に特徴度算出結果格納部26に格納される。なお、図16は、用語毎に各クラスタ1〜3におけるクラスタ出現頻度が格納された後の特徴度算出結果格納部26のデータ構造の一例を示す。図16においては、便宜的に、クラスタ1におけるクラスタ出現頻度をクラスタ出現頻度1、クラスタ2におけるクラスタ出現頻度をクラスタ出現頻度2、クラスタ3におけるクラスタ出現頻度をクラスタ出現頻度3として示す。図16に示す例では、特徴度算出結果格納部26には、例えば用語「消しゴム」のクラスタ1におけるクラスタ出現頻度として1、クラスタ2におけるクラスタ出現頻度として3、クラスタ3におけるクラスタ出現頻度として0が格納されている。ここでは詳しい説明を省略するが、特徴度算出結果格納部26には、図16に示すように他の用語についても同様にクラスタ1〜3の各々におけるクラスタ出現頻度が格納されている。
The cluster appearance frequency in each of the
次に、特徴度算出部36は、特徴度算出結果格納部26に格納された用語毎に、当該用語の出現頻度および当該用語のクラスタ1〜3の各々におけるクラスタ出現頻度に基づいて、当該用語のクラスタ1〜3の各々に対する特徴度を算出する。なお、用語のクラスタN(ここでは、N=1,2,3)に対する特徴度は、「(当該用語のクラスタNにおけるクラスタ出現頻度−1)/当該用語の出現頻度」によって算出される。
Next, for each term stored in the feature value calculation
ここで、図16を参照して、特徴度算出結果格納部26に格納されている例えば用語「消しゴム」のクラスタ1〜3の各々に対する特徴度について具体的に説明する。図16に示すように、特徴度算出結果格納部26に格納されている用語「消しゴム」の出現頻度は4である。また、特徴度算出結果格納部26格納されている用語「消しゴム」のクラスタ1におけるクラスタ出現頻度は1である。この場合、用語「消しゴム」のクラスタ1に対する特徴度は、(1−1)/4=0と算出される。また、図16に示すように、特徴度算出結果格納部26に格納されている用語「消しゴム」のクラスタ2におけるクラスタ出現頻度は3である。この場合、用語「消しゴム」のクラスタ2に対する特徴度は、(3−1)/4=0.5と算出される。なお、図16に示すように、特徴度算出結果格納部26に格納されている用語「消しゴム」のクラスタ3におけるクラスタ出現頻度3は0である。この場合、用語「消しゴム」のクラスタ1に対する特徴度は、0と算出される。
Here, with reference to FIG. 16, the characteristic degree with respect to each of the
なお、図16に示す特徴度算出結果格納部25に格納されている他の用語についても同様に特徴度が算出される。
It should be noted that the feature values are similarly calculated for other terms stored in the feature value calculation
上記したように特徴度算出部36によって算出された用語のクラスタ1〜3の各々に対する特徴度は、当該用語に対応づけて特徴度算出結果格納部26に格納される。図17は、各用語のクラスタ1〜3の各々に対する特徴度が格納された後の特徴度算出結果格納部26のデータ構造の一例を示す。図17においては、便宜的に、クラスタ1に対する特徴度を特徴度1、クラスタ2に対する特徴度を特徴度2、クラスタ3に対する特徴度を特徴度3として示す。なお、図17に示す特徴度算出結果格納部26に格納された各用語のクラスタ1〜3の各々に対する特徴度によれば、図18に示すように、用語「消しゴム」、「専用インク」、「文字」および「字消し」はクラスタ「2」に対して特徴的な用語であり、用語「取り消し」、「入力」および「取りやめ」はクラスタ「3」に対して特徴的な用語である。
As described above, the feature degrees for each of the
次に、図19のフローチャートを参照して、前述した類義語集合抽出処理(上記した図4に示すステップS7の処理)の処理手順について説明する。 Next, a processing procedure of the above-described synonym set extraction process (the process of step S7 shown in FIG. 4 described above) will be described with reference to the flowchart of FIG.
まず、類義語集合抽出部37は、類似度算出結果格納部25から類似度算出結果を読み込む(ステップS31)。この場合、類義語集合抽出部37は、類似度算出結果として、類似度算出結果格納部25に格納されている用語Aおよび用語Bの組、当該用語Aおよび用語Bの組に対応づけられている文脈類似度(用語Aおよび用語Bの文脈類似度)および文字列類似度(用語Aおよび用語Bの文字列類似度)を読み込む。類似度算出結果格納部25から読み込まれた類似度算出結果(用語Aおよび用語Bの組、文脈類似度および文字列類似度)は、類義語集合格納部27に格納される。
First, the synonym set
次に、類義語集合抽出部37は、クラスタ生成部35によって生成されたクラスタの各々について以下のステップS32およびS33を実行する。この処理の対象となるクラスタを対象クラスタと称する。
Next, the synonym set
類義語集合抽出部37は、特徴度算出結果格納部26から特徴度算出結果を読み込む(ステップS32)。この場合、類義語集合抽出部37は、特徴度算出結果として、類義語集合格納部27に格納された用語Aの対象クラスタに対する特徴度および用語Bの対象クラスタに対する特徴度を読み込む。特徴度算出結果格納部26から読み込まれた特徴度算出結果(用語Aの対象クラスタに対する特徴度および用語Bの対象クラスタに対する特徴度)は、類義語集合格納部27に格納される。
The synonym set
類義語集合抽出部37は、類義語集合格納部27に格納された用語Aおよび用語Bの組毎に、当該類義語集合格納部27に格納された当該用語Aおよび用語Bの文脈類似度、当該用語Aおよび用語Bの文字列類似度、当該用語Aの対象クラスタに対する特徴度および用語Bの対象クラスタに対する特徴度に基づいて当該用語Aおよび用語Bが類義語(の集合)であるか否かを判定する。この場合、例えば用語Aおよび用語Bの文脈類似度、用語Aおよび用語Bの文字列類似度、用語Aの対象クラスタに対する特徴度、および用語Bの対象クラスタに対する特徴度の4つの値の積が0より大きい場合、当該用語Aおよび用語Bは類義語であると判定される。換言すれば、用語Aおよび用語Bの文脈類似度、用語Aおよび用語Bの文字列類似度、用語Aの対象クラスタに対する特徴度、および用語Bの対象クラスタに対する特徴度の4つの値の全てが0でなければ、当該用語Aおよび用語Bは類義語であると判定される。
For each set of terms A and B stored in the synonym set
このような判定処理が類義語集合格納部27に格納された用語Aおよび用語Bの全ての組に対して実行されることによって、類義語集合抽出部37は、用語Aおよび用語Bを類義語として抽出する(ステップS33)。
By executing such determination processing for all pairs of the term A and the term B stored in the synonym set
次に、類義語集合抽出部37は、クラスタ生成部35によって生成された全てのクラスタについてステップS32およびS33の処理が実行されたか否かを判定する(ステップS34)。
Next, the synonym set
全てのクラスタについて処理が実行されていないと判定された場合(ステップS34のNO)、上記したステップS32に戻って処理が繰り返される。この場合、ステップS32およびS33の処理が実行されていないクラスタを対象クラスタとして処理が実行される。 When it is determined that the processing has not been executed for all the clusters (NO in step S34), the process returns to the above-described step S32 and the processing is repeated. In this case, the process is executed with the cluster for which the processes of steps S32 and S33 have not been executed as the target cluster.
一方、全てのクラスタについて処理が実行されたと判定された場合(ステップS34のYES)、類義語集合抽出処理は終了される。 On the other hand, if it is determined that the processing has been executed for all the clusters (YES in step S34), the synonym set extraction processing is terminated.
以下、図20〜図24を参照して、上記した類義語集合抽出処理について具体的に説明する。ここでは、類似度算出結果格納部25には、上記した図14に示す各種情報が格納されているものとする。また、特徴度算出結果格納部26には、上記した図17に示す各種情報が格納されているものとする。また、上述した図8において説明したようにクラスタ1〜3がクラスタ生成部35によって生成されたものとする。
Hereinafter, the above-described synonym set extraction processing will be specifically described with reference to FIGS. Here, it is assumed that the similarity calculation
まず、類義語集合抽出部37は、類似度算出結果として、類似度算出結果格納部25に対応づけて格納されている組ID、用語Aおよび用語Bの組、文脈類似度および文字列類似度の全てを当該類似度算出結果格納部25から読み込む。類似度算出結果格納部25から読み込まれた類似度算出結果(組ID、用語Aおよび用語Bの組、文脈類似度および文字列類似度)は、類義語集合格納部27に格納される。図20は、類似度算出結果が格納された後の類義語集合格納部27のデータ構造の一例を示す。
First, the synonym set
以下、クラスタ生成部35によって生成されたクラスタ1〜3の各々について処理が実行されるが、ここではクラスタ2について具体的に説明する。
Hereinafter, the processing is executed for each of the
この場合、類義語集合抽出部37は、特徴度算出結果として、類義語集合格納部27に格納された用語Aのクラスタ2に対する特徴度および用語Bのクラスタ2に対する特徴度を特徴度算出結果格納部26から読み込む。
In this case, the synonym set
特徴度算出結果格納部26から読み込まれた特徴度算出結果(用語Aのクラスタ2に対する特徴度および用語Bのクラスタ2に対する特徴度)は、類義語集合格納部27に格納される。なお、ここで類義語集合格納部27に格納された用語Aのクラスタ2に対する特徴度および用語Bのクラスタ2に対する特徴度は、単に用語Aの特徴度および用語Bの特徴度とする。図21は、特徴度算出結果が格納された後の類義語集合格納部27のデータ構造の一例を示す。
The feature value calculation results read from the feature value calculation result storage unit 26 (the feature values of the term A with respect to the
次に、類義語集合抽出部37は、類義語集合格納部27に格納された用語Aおよび用語Bの組毎に、当該類義語集合格納部27に格納された当該用語Aおよび用語Bの文脈類似度、当該用語Aおよび用語Bの文字列類似度、当該用語Aの特徴度および用語Bの特徴度に基づいて当該用語Aおよび用語Bが類義語(の集合)であるか否かを判定する。上記したように用語Aおよび用語Bの文脈類似度、当該用語Aおよび用語Bの文字列類似度、当該用語Aの特徴度および用語Bの特徴度の4つの値の積が0より大きい場合、当該用語Aおよび用語Bは類義語であると判定される。
Next, the synonym set
ここで、図21に示す類義語集合格納部27に格納された例えば用語A「鉛筆」および用語B「消しゴム」の場合、用語A「鉛筆」および用語B「消しゴム」の文脈類似度は1であり、用語A「鉛筆」および用語B「消しゴム」の文字列類似度は0であり、用語A「鉛筆」の特徴度は0であり、用語B「消しゴム」の特徴度は0.5である。この場合、用語A「鉛筆」および用語B「消しゴム」の文脈類似度、当該用語A「鉛筆」および用語B「消しゴム」の文字列類似度、当該用語A「鉛筆」の特徴度、および当該用語Bの特徴度の4つの値の積は0であるため、用語A「鉛筆」および用語B「消しゴム」は類義語でないと判定される。
For example, in the case of the term A “pencil” and the term B “eraser” stored in the synonym set
一方、図21に示す類義語集合格納部27に格納された例えば用語A「字消し」および用語B「消しゴム」の場合、用語A「字消し」および用語B「消しゴム」の文脈類似度は0.75であり、用語A「字消し」および用語B「消しゴム」の文字列類似度は0.67であり、用語A「字消し」の特徴度は0.75であり、用語B「消しゴム」の特徴度は0.5である。この場合、用語A「字消し」および用語B「消しゴム」の文脈類似度、用語A「字消し」および用語B「消しゴム」の文字列類似度、用語A「字消し」の特徴度、および用語B「消しゴム」の特徴度の4つの値の積は0でないため、用語A「字消し」および用語B「消しゴム」は類義語であると判定される。
On the other hand, in the case of the term A “eraser” and the term B “eraser” stored in the synonym set
このように、類義語集合抽出部37は、図21に示す類義語集合格納部27に格納された用語Aおよび用語Bの組の全てについて判定処理を実行する。
As described above, the synonym set
ここで、図22は、上記した類義語集合抽出部37による判定結果を示す。図22に示す例では、類義語集合格納部27に格納された用語Aおよび用語Bの組のうち、用語A「字消し」および用語B「消しゴム」のみが類義語であると判定されている。この場合、類義語集合抽出部37は、用語A「字消し」および用語B「消しゴム」を類義語として抽出する。
Here, FIG. 22 shows a determination result by the synonym set
ここではクラスタ2について説明したが、クラスタ1およびクラスタ3についても同様の処理が実行される。例えばクラスタ1の場合、図23に示すように用語Aおよび用語Bの特徴度が全て0であるため、類義語は抽出されない。一方、クラスタ3の場合には、図24に示すように用語A「取り消し」および用語B「取りやめ」と、用語A「取りやめ」および用語B「取り消し」とが類義語であると判定されるため、用語A「取り消し」および用語B「取りやめ」(および、用語A「取りやめ」および用語B「取り消し」)が類義語として抽出される。
Although the
上記したように類義語集合抽出部37によって類義語として抽出された2つの用語(用語Aおよび用語B)は、出力処理部38によって出力(表示)される。ここで、図25は、類義語集合抽出部37によって類義語として抽出された2つの用語が表示された場合における表示画面の一例を示す。図25に示す例では、上記したようにクラスタ2の場合(つまり、クラスタ2に対して処理が実行された場合)に類義語として抽出された用語「字消し」および用語「消しゴム」とクラスタ3の場合(つまり、クラスタ3に対して処理が実行された場合)に類義語として抽出された用語「取り消し」および用語「取りやめ」とが表示されている。ユーザは、図25に示すような表示画面を参照して、当該表示画面に表示された2つの用語を類義語として登録するか否かを指示することができる。
As described above, the two terms (term A and term B) extracted as synonyms by the synonym set
上記したように本実施形態においては、文書データベース22に格納されている複数の文書に含まれる用語の中から2つの用語(第1および第2の用語)を抽出し、当該抽出された2つの用語の類似度を算出し、文書データベース22に格納されている複数の文書が属するクラスタを生成し、当該生成されたクラスタに対する当該2つの用語の各々の特徴度を算出し、当該2つの用語の類似度および当該クラスタに対する2つの用語の各々の特徴度に基づいて当該2つの用語を類義語として抽出する構成により、誤った用語を類義語として抽出することなく、適切な用語のみを類義語として文書から抽出することが可能となる。
As described above, in the present embodiment, two terms (first and second terms) are extracted from terms included in a plurality of documents stored in the
具体的には、上述した図14に示す例えば文脈類似度および文字列類似度のみに基づいて類義語が抽出される場合、当該文脈類似度および文字列類似度の2つの値の積が0でない2つの用語(ここでは、用語「取り消し」および用語「消しゴム」、用語「取り消し」および用語「取りやめ」、用語「字消し」および用語「消しゴム」)がそれぞれ類義語として抽出される。しかしながら、この場合には適切でない用語「取り消し」および用語「消しゴム」についても類義語として抽出される。これに対して本実施形態においては、文脈類似度および文字列類似度に加えて用語が抽出された文書が属するクラスタ(に対する特徴度)についても考慮することによって、適切でない用語「取り消し」および用語「消しゴム」を排除して、上述したように用語「取り消し」および用語「取りやめ」、用語「字消し」および用語「消しゴム」のみを類義語として抽出することができる。 Specifically, when a synonym is extracted based only on, for example, the context similarity and the character string similarity shown in FIG. 14 described above, the product of two values of the context similarity and the character string similarity is not 0 2 Two terms (here, the term “cancel” and the term “eraser”, the term “cancel” and the term “cancel”, the term “eraser” and the term “eraser”) are extracted as synonyms, respectively. However, the term “cancellation” and the term “eraser” which are not appropriate in this case are also extracted as synonyms. On the other hand, in the present embodiment, in addition to the context similarity and the character string similarity, the term “cancellation” and the term that are not appropriate are considered by taking into consideration the cluster (characteristic for) to which the document from which the term is extracted belongs. By excluding “eraser”, as described above, only the term “cancel” and term “cancel”, the term “eraser” and the term “eraser” can be extracted as synonyms.
つまり、本実施形態によれば、文脈類似度または文字列類似度という局所的な類似性とクラスタに対する特徴度という大局的な類似性に基づいて類義語が抽出されるため、誤った類義語(ノイズ用語)が文書内の局所的な類似性により抽出されることを抑制することができる。 That is, according to the present embodiment, synonyms are extracted based on local similarity such as context similarity or character string similarity and global similarity such as cluster feature. ) Can be suppressed from being extracted due to local similarity in the document.
また、本実施形態において抽出された類義語は、例えば類義語辞書等に登録しておき、文書検索または文書分類等において利用することができる。 Further, the synonyms extracted in the present embodiment can be registered in, for example, a synonym dictionary and used for document search or document classification.
なお、本実施形態においては、2つの用語の類似度として文脈類似度および文字列類似度が算出されるものとして説明したが、文脈類似度および文字列類似度の一方のみが算出される構成であってもよい。文脈類似度のみが算出される場合には、例えば図9に示すステップS11〜S17の処理が実行されればよい。一方、文字列類似度のみが算出される場合には、例えば用語集計結果格納部24に格納された複数の用語のうちの2つの用語の組み合わせの各々について図9に示すステップS18およびS19の処理が実行されればよい。
In this embodiment, the context similarity and the character string similarity are calculated as the similarity between two terms. However, only one of the context similarity and the character string similarity is calculated. There may be. When only the context similarity is calculated, for example, steps S11 to S17 shown in FIG. 9 may be executed. On the other hand, when only the character string similarity is calculated, for example, the processing of steps S18 and S19 shown in FIG. 9 for each combination of two terms among a plurality of terms stored in the term aggregation
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。なお、本実施形態に係る文書処理装置の機能構成は、前述した第1の実施形態と同様であるため、適宜、図2を用いて説明する。
(Second Embodiment)
Next, a second embodiment of the present invention will be described. The functional configuration of the document processing apparatus according to the present embodiment is the same as that of the first embodiment described above, and will be described with reference to FIG. 2 as appropriate.
本実施形態においては、特徴度算出部36による特徴度算出処理が実行された後に類似度算出部34による類似度算出処理が実行される点が、前述した第1の実施形態とは異なる。つまり、本実施形態における類似度算出処理においては、用語集計結果格納部24に格納されている出現頻度情報(用語集計結果)ではなく、特徴度算出結果格納部26に格納されている特徴度算出結果が用いられる。
This embodiment is different from the first embodiment described above in that the similarity calculation process by the
ここで、図26のフローチャートを参照して、本実施形態に係る文書処理装置30の処理手順について説明する。
Here, a processing procedure of the
まず、前述した図4に示すステップS1〜S3、S5およびS6の処理に相当するステップS41〜S45の処理が実行される。 First, the processes of steps S41 to S45 corresponding to the processes of steps S1 to S3, S5, and S6 shown in FIG. 4 are executed.
なお、ステップS42の処理が実行されると、前述した図5および図6に示すように係り受け関係情報(解析結果)が解析結果格納部23に格納される。また、ステップS43の処理が実行されると、前述した図7に示すように出現頻度情報(用語集計結果)が用語集計結果格納部24に格納される。また、ステップS45の処理が実行されると、前述した図17に示すような特徴度算出結果が特徴度算出結果格納部26に格納される。
When the process of step S42 is executed, the dependency relationship information (analysis result) is stored in the analysis
次に、類似度算出部34は、解析結果格納部23および特徴度算出結果格納部25を参照して類似度算出処理を実行する(ステップS46)。この類似度算出処理によれば、特徴度算出結果格納部26に格納されたクラスタ生成部35によって生成された各クラスタに対する特徴度が後述する予め定められた条件を満たす用語の中から2つの用語(第1および第2の用語)が抽出され、当該2つの用語の類似度が算出される。つまり、類似度算出処理においては、特徴度算出結果格納部26に格納された全ての用語ではなく、予め定められた条件を満たす用語のみを対象として処理が実行される。なお、類似度算出処理の詳細については後述する。
Next, the
類似度算出処理が実行されると、類似度算出部34によって算出された類似度は、類似度算出結果格納部25に格納される。
When the similarity calculation process is executed, the similarity calculated by the
次に、類義語集合抽出部37は、類似度算出結果格納部25に格納された類似度に基づいて、上記した類似度算出処理において抽出された2つの用語を類義語(の集合)として抽出する処理(類義語集合抽出処理)を実行する(ステップS47)。なお、類義語集合抽出処理の詳細については後述する。
Next, the synonym set
類義語集合抽出処理が実行されると、前述した図4に示すステップS8の処理に相当するステップS48の処理が実行される。 When the synonym set extraction process is executed, the process of step S48 corresponding to the process of step S8 shown in FIG. 4 described above is executed.
次に、図27のフローチャートを参照して、上述した類似度算出処理(上記した図26に示すステップS46の処理)の処理手順について説明する。 Next, the procedure of the similarity calculation process described above (the process of step S46 shown in FIG. 26 described above) will be described with reference to the flowchart of FIG.
類似度算出処理においては、クラスタ生成部35によって生成されたクラスタの各々について以下のステップS51〜S61の処理を実行する。この処理の対象となるクラスタを対象クラスタと称する。
In the similarity calculation process, the following steps S51 to S61 are executed for each of the clusters generated by the
まず、類似度算出部34は、特徴度算出結果格納部26から特徴度算出結果を読み込む(ステップS51)。この場合、類似度算出部34は、特徴度算出結果として、特徴度算出結果格納部26に格納されている用語および当該用語の対象クラスタに対する特徴度を読み込む。
First, the
次に、類似度算出部34は、特徴度算出結果格納部26から読み込まれた用語のうち予め定められた条件を満たす用語を抽出する(ステップS52)。ここで、予め定められた条件は、例えば対象クラスタに対する特徴度が0でないことを含む。この場合、類似度算出部34は、特徴度算出結果格納部26から読み込まれた用語および当該用語の対象クラスタに対する特徴度に基づいて、当該対象クラスタに対する特徴度が0でない用語を抽出する。
Next, the
類似度算出部34は、前述した図9に示すステップS11と同様に、解析結果格納部23に格納されている全ての係り受け関係情報を読み込む(ステップS53)。
次に、類似度算出部34は、解析結果格納部23から読み込まれた係り受け関係情報の各々に含まれる用語2および関係を1つの組として、当該読み込まれた係り受け関係情報において当該用語2および関係の組に対応づけられている用語1(つまり、同一の用語2と同一の係り受け関係にある用語1)の異なり数をカウントする(ステップS54)。なお、このステップS54においては、上記したステップS52において抽出された用語(つまり、対象クラスタに対する特徴度が0でない用語)のみが対象とされる。
Next, the
以下、前述した図9に示すステップS13〜S19の処理に相当するステップS55〜S61の処理が実行される。なお、ステップS59において算出された文脈類似度およびステップS61において算出された文字列類似度は、前述した第1の実施形態と同様に類似度算出結果格納部25に格納される。
Thereafter, the processes of steps S55 to S61 corresponding to the processes of steps S13 to S19 shown in FIG. 9 are executed. Note that the context similarity calculated in step S59 and the character string similarity calculated in step S61 are stored in the similarity calculation
ステップS61の処理が実行されると、クラスタ生成部35によって生成された全てのクラスタについて上記したステップS51〜S61の処理が実行されたか否かを判定する(ステップS62)。 When the process of step S61 is executed, it is determined whether or not the processes of steps S51 to S61 described above have been executed for all clusters generated by the cluster generation unit 35 (step S62).
全てのクラスタについて処理が実行されていないと判定された場合(ステップS62のNO)、上記したステップS51に戻って処理が繰り返される。この場合、ステップS51〜S61の処理が実行されていないクラスタを対象クラスタとして処理が実行される。 When it is determined that the processing has not been executed for all the clusters (NO in step S62), the process returns to the above-described step S51 and is repeated. In this case, the processing is executed with the cluster for which the processing of steps S51 to S61 has not been executed as the target cluster.
一方、全てのクラスタについて処理が実行されたと判定された場合(ステップS62のNO)、類似度算出処理は終了される。 On the other hand, when it is determined that the process has been executed for all the clusters (NO in step S62), the similarity calculation process ends.
上記したように類似度算出処理が実行されると、類似度算出結果格納部25には、クラスタ生成部35によって生成されたクラスタ毎の類似度算出結果(文脈類似度および文字列類似度)が格納される。
When the similarity calculation processing is executed as described above, the similarity calculation
以下、図28および図29を参照して、上記した類似度算出処理について具体的に説明する。ここでは、解析結果格納部23には、前述した図5および図6に示す複数の係り受け関係情報が格納されているものとする。また、前述した図8において説明したようにクラスタ1〜3がクラスタ生成部35によって生成されたものとする。また、特徴度算出結果格納部26には、前述した図17に示す各種情報が格納されているものとする。
Hereinafter, with reference to FIG. 28 and FIG. 29, the above-described similarity calculation processing will be specifically described. Here, it is assumed that the analysis
なお、上記したように類似度算出処理においては、クラスタ生成部35によって生成されたクラスタ1〜3の各々について処理が実行される。ここでは、クラスタ2について具体的に説明する。
As described above, in the similarity calculation process, the process is executed for each of the
まず、類似度算出部34は、特徴度算出結果格納部26に格納されている用語毎に、当該用語および当該用語のクラスタ2に対する特徴度を、当該特徴度算出結果格納部26から読み出す。図17に示す例では、類似度算出部34は、用語「鉛筆」および当該用語「鉛筆」のクラスタ2に対する特徴度「0」を読み出す。なお、他の用語についても同様である。
First, for each term stored in the feature calculation
次に、類似度算出部34は、特徴度算出結果格納部26から読み込まれた用語のうち例えばクラスタ2に対する特徴度が0でない用語を抽出する。図17を用いて具体的に説明すると、図17に示す特徴度算出結果格納部26に格納されている用語(つまり、読み込まれた用語)のうち、用語「消しゴム」、「専用インク」、「文字」および「字消し」以外の用語のクラスタ2に対する特徴度は0である。したがって、類似度算出部34は、クラスタ2に対する特徴度が0でない用語として用語「消しゴム」、「専用インク」、「文字」および「字消し」を抽出する。
Next, the
類似度算出部34は、解析結果格納部23に格納されている全ての係り受け関係情報を読み込む。
The
類似度算出部34は、読み込まれた係り受け関係情報の各々に含まれる用語2および関係の組毎に、当該組に対応づけられている用語の異なり数をカウントする。つまり、類似度算出部34は、読み込まれた係り受け関係情報に基づいて、同一の用語2と同一の係り受け関係にある用語1の異なり数をカウントする。
The
このとき、類似度算出部34は、上記したように抽出された用語「消しゴム」、「専用インク」、「文字」および「字消し」のみを対象(つまり、用語1)として、同一の用語2と同一の係り受け関係にある用語1の異なり数をカウントする。
At this time, the
ここで、図5および図6を用いて具体的に説明すると、例えば用語2「消す」および関係「で」の組に対応づけられている用語1は、「字消し」および「消しゴム」である。このため、解析結果格納部23に格納されている係り受け関係情報において用語2「消す」および関係「で」の組に対応づけられている用語1(つまり、用語2「消す」と「で」の係り受け関係にある用語1)の異なり数は2となる。
5 and FIG. 6, for example, the
なお、図5および図6に示す例では用語2「持参」および関係「を」の組に対応づけられている用語1は「鉛筆」、「消しゴム」および「時計」であるが、上記したように用語「消しゴム」、「専用インク」、「文字」および「字消し」のみが対象とされるため、当該用語2「持参」および関係「を」の組に対応づけられている用語1の異なり数は1となる。
In the example shown in FIGS. 5 and 6, the
次に、類似度算出部34は、カウントされた異なり数が2以上である場合における用語2および関係の組に対応づけられている各用語1の出現頻度をカウントする。
Next, the
例えば上記した用語2「消す」および関係「で」の組に対応づけられている用語1の異なり数は2以上であるため、類似度算出部34は、用語2「消す」および関係「で」の組に対応づけられている用語1「字消し」および「消しゴム」の各々の出現頻度をカウントする。図5および図6に示す例によれば、用語2「消す」および関係「で」の組に対応づけられている用語1「字消し」の出現頻度は2であり、用語1「消しゴム」の出現頻度は1である。なお、図5および図6に示す例では、用語2「消す」および関係「で」の組に対応づけられている用語1以外に異なり数が2以上である用語1は存在しない。
For example, since the difference number of the
次に、類似度算出部34は、中間処理結果情報を生成する。この場合、類似度算出部34は、図28に示す中間処理結果情報を生成する。中間処理結果情報の生成処理については、前述した第1の実施形態において説明した通りであるため、その詳しい説明を省略する。
Next, the
次に、類似度算出部34は、図28に示す中間処理結果情報に基づいて、2つの用語1からなる全ての組み合わせ(順列)を抽出する。この場合、類似度算出部34は、「字消し」および「消しゴム」、「消しゴム」および「字消し」の2つの組み合わせを抽出する。
Next, the
このように類似度算出部34によって抽出された用語1の各組み合わせは、用語Aおよび用語B(の組)として類似度算出結果格納部25に格納される。
Thus, each combination of the
以下、詳しい説明は省略するが、前述した第1の実施形態と同様に、類似度算出結果格納部25に格納された用語Aおよび用語Bの各組について、文脈類似度および文字列類似度が算出される。このように算出された文脈類似度および文字列類似度は、類似度算出結果格納部25に格納される。
Hereinafter, although detailed description is omitted, as in the first embodiment described above, the context similarity and the character string similarity are determined for each set of terms A and B stored in the similarity calculation
なお、ここではクラスタ2について処理が実行された場合について説明したが、クラスタ1および3についても同様であるため、その詳しい説明を省略する。
In addition, although the case where the process was performed about the
なお、図29は、クラスタ1〜3の各々について処理が実行された後の類似度算出結果格納部25のデータ構造の一例を示す。
FIG. 29 shows an example of the data structure of the similarity calculation
例えば図29に示す組ID「1」および「2」(に関する情報)は、上記したようにクラスタ2について処理が実行された場合に類似度算出結果格納部25に格納される情報(クラスタ2の類似度算出結果)であり、組ID「3」および「4」(に関する情報)は、詳しい説明は省略するが、クラスタ3について処理が実行された場合に類似度算出結果格納部25に格納される情報(クラスタ3の類似度算出結果)である。
For example, the group IDs “1” and “2” (information related to) shown in FIG. 29 are information stored in the similarity calculation
次に、図30のフローチャートを参照して、上述した類義語集合抽出処理(上記した図26に示すステップS47の処理)の処理手順について説明する。 Next, a processing procedure of the above-described synonym set extraction processing (the processing of step S47 shown in FIG. 26 described above) will be described with reference to the flowchart of FIG.
まず、類義語集合抽出部37は、類似度算出結果格納部25から類似度算出結果を読み込む(ステップS71)。この場合、類義語集合抽出部37は、類似度算出結果として、類似度算出結果格納部25に格納されている用語Aおよび用語Bの組、当該用語Aおよび用語Bの組に対応づけられている文脈類似度(用語Aおよび用語Bの文脈類似度)および文字列類似度(用語Aおよび用語Bの文字列類似度)を読み込む。なお、類似度算出結果格納部25から読み込まれた類似度算出結果は、類義語集合格納部27に格納される。
First, the synonym set
次に、類義語集合抽出部37は、類義語集合格納部27に格納された用語Aおよび用語Bの組毎に、当該類義語集合格納部27に格納された用語Aおよび用語Bの文脈類似度、および用語Aおよび用語Bの文字列類似度に基づいて、当該用語Aおよび用語Bが類義語(の集合)であるか否かを判定する。この場合、例えば用語Aおよび用語Bの文脈類似度、および用語Aおよび用語Bの文字列類似度の2つの値の積が0より大きい場合(つまり、当該文脈類似度および文字列類似度の両方が0でない場合)、当該用語Aおよび用語Bは類義語であると判定される。
Next, the synonym set
このような判定処理が類義語集合格納部27に格納された用語Aおよび用語Bの全ての組に対して実行されることによって、類義語集合抽出部37は、用語Aおよび用語Bを類義語として抽出する(ステップS72)。
By executing such determination processing for all pairs of the term A and the term B stored in the synonym set
例えば類似度算出結果格納部25に前述した図29に示す各種情報が格納されているものとすると、上記した類義語集合抽出処理によれば、用語A「字消し」および用語B「消しゴム」が類義語として抽出される。また、用語A「取り消し」および用語B「取りやめ」(および、用語A「取りやめ」および用語B「取り消し」)が類義語として抽出される。
For example, assuming that the various kinds of information shown in FIG. 29 described above are stored in the similarity calculation
したがって、本実施形態においても、前述した第1の実施形態と同様の類義語が抽出される。 Therefore, also in the present embodiment, synonyms similar to those in the first embodiment described above are extracted.
上記したように本実施形態においては、文書データベース22に格納されている複数の文書が属するクラスタを生成し、文書データベースに格納されている複数の文書に含まれる用語毎に当該クラスタに対する特徴度を算出し、当該特徴度が予め定められた条件を満たす用語の中から2つの用語(第1および第2の用語)を抽出し、当該抽出された2つの用語の類似度を算出し、当該算出された類似度に基づいて当該2つの用語を類義語として抽出する構成により、前述した第1の実施形態と同様に誤った用語を類義語として抽出することなく、適切な用語のみを類義語として文書から抽出することができ、更に、類似度算出処理の対象となる用語を絞り込むことが可能になるため、当該類似度算出処理における処理量(計算量)を軽減することが可能となる。
As described above, in the present embodiment, a cluster to which a plurality of documents stored in the
以上説明した少なくとも1つの実施形態によれば、類義語として適切な用語を文書から抽出することが可能な文書処理装置およびプログラムを提供することができる。 According to at least one embodiment described above, it is possible to provide a document processing apparatus and program capable of extracting an appropriate term as a synonym from a document.
なお、本願発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。 Note that the present invention is not limited to the above-described embodiments as they are, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. Further, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the above embodiments. For example, some components may be deleted from all the components shown in each embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined.
10…コンピュータ、20…外部記憶装置、22…文書データベース、23…解析結果格納部、24…用語集計結果格納部、25…類似度算出結果格納部、26…特徴度算出結果格納部、27…類義語集合格納部、30…文書処理装置、31…入力処理部、32…解析部、33…用語集計部、34…類似度算出部、35…クラスタ生成部、36…特徴度算出部、37…類義語集合抽出部、38…出力処理部、341…文脈類似度算出部、342…文字列類似度算出部。
DESCRIPTION OF
Claims (5)
前記文書格納手段に格納されている複数の文書に含まれる用語の中から第1および第2の用語を抽出する用語抽出手段と、
前記抽出された第1および第2の用語の類似度を算出する類似度算出手段と、
前記文書格納手段に格納されている複数の文書の各々が属するクラスタを生成するクラスタ生成手段と、
前記文書格納手段に格納されている複数の文書および前記生成されたクラスタに属する文書における前記抽出された第1の用語の出現頻度に基づいて当該クラスタに対する第1の用語の特徴度を算出し、前記文書格納手段に格納されている複数の文書および前記生成されたクラスタに属する文書における前記抽出された第2の用語の出現頻度に基づいて当該クラスタに対する第2の用語の特徴度を算出する特徴度算出手段と、
前記類似度算出手段によって算出された類似度、前記特徴度算出手段によって算出された第1の用語の特徴度および第2の用語の特徴度に基づいて、当該第1および第2の用語を類義語として抽出する類義語抽出手段と
を具備することを特徴とする文書処理装置。 Document storage means for storing a plurality of documents including a term consisting of one or more words;
Term extracting means for extracting first and second terms from terms contained in a plurality of documents stored in the document storing means;
Similarity calculating means for calculating the similarity between the extracted first and second terms;
Cluster generation means for generating a cluster to which each of the plurality of documents stored in the document storage means belongs;
Based on the appearance frequency of the extracted first term in the plurality of documents stored in the document storage means and the document belonging to the generated cluster, the feature degree of the first term for the cluster is calculated, A feature of calculating a feature level of the second term for the cluster based on the appearance frequency of the extracted second term in the plurality of documents stored in the document storage unit and the document belonging to the generated cluster. Degree calculation means;
Based on the similarity calculated by the similarity calculation unit, the feature level of the first term and the feature level of the second term calculated by the feature level calculation unit, the first and second terms are synonymous. And a synonym extracting means for extracting as: a document processing apparatus.
前記類似度算出手段は、前記文書格納手段に格納されている複数の文書における前記同一の用語と同一の係り受け関係にある第1の用語の出現頻度および前記文書格納手段に格納されている複数の文書における前記第1の用語の出現頻度に基づいて、前記抽出された第1および第2の用語の類似度を算出することを特徴とする請求項1記載の文書処理装置。 The term extraction means extracts first and second terms that are in the same dependency relationship with the same term among the terms contained in the plurality of documents stored in the document storage means,
The similarity calculation means includes a frequency of appearance of a first term having the same dependency relationship as the same term in a plurality of documents stored in the document storage means, and a plurality of similarity degrees stored in the document storage means. The document processing apparatus according to claim 1, wherein the similarity between the extracted first and second terms is calculated based on the appearance frequency of the first term in the document.
前記文書格納手段に格納されている複数の文書が属するクラスタを生成するクラスタ生成手段と、
前記文書格納手段に格納されている複数の文書に含まれる用語毎に、前記文書格納手段に格納されている複数の文書および前記生成されたクラスタに属する文書における当該用語の出現頻度に基づいて、当該クラスタに対する当該用語の特徴度を算出する特徴度算出手段と、
前記特徴度算出手段によって算出された特徴度が予め定められた条件を満たす用語の中から第1および第2の用語を抽出する用語抽出手段と、
前記抽出された第1および第2の用語の類似度を算出する類似度算出手段と、
前記類似度算出手段によって算出された類似度に基づいて、前記抽出された第1および第2の用語を類義語として抽出する類義語抽出手段と
を具備することを特徴とする文書処理装置。 Document storage means for storing a plurality of documents including a term consisting of one or more words;
Cluster generation means for generating a cluster to which a plurality of documents stored in the document storage means belong;
For each term contained in a plurality of documents stored in the document storage means, based on the appearance frequency of the terms in the plurality of documents stored in the document storage means and the documents belonging to the generated cluster, A feature calculation means for calculating the feature of the term for the cluster;
Term extraction means for extracting the first and second terms from terms satisfying a predetermined degree of feature calculated by the feature calculation means;
Similarity calculating means for calculating the similarity between the extracted first and second terms;
And a synonym extracting unit that extracts the extracted first and second terms as synonyms based on the similarity calculated by the similarity calculating unit.
前記コンピュータに、
前記文書格納手段に格納されている複数の文書に含まれる用語の中から第1および第2の用語を抽出するステップと、
前記抽出された第1および第2の用語の類似度を算出するステップと、
前記文書格納手段に格納されている複数の文書の各々が属するクラスタを生成するステップと、
前記文書格納手段に格納されている複数の文書および前記生成されたクラスタに属する文書における前記抽出された第1の用語の出現頻度に基づいて当該クラスタに対する第1の用語の特徴度を算出し、前記文書格納手段に格納されている複数の文書および前記生成されたクラスタに属する文書における前記抽出された第2の用語の出現頻度に基づいて当該クラスタに対する第2の用語の特徴度を算出するステップと、
前記算出された類似度、前記算出された第1の用語の特徴度および第2の用語の特徴度に基づいて、当該第1および第2の用語を類義語として抽出するステップと
を実行させるためのプログラム。 In a document processing apparatus comprising an external storage device having a document storage means for storing a plurality of documents including a term composed of one or a plurality of words and a computer using the external storage device, the document processing device is executed by the computer. A program
In the computer,
Extracting first and second terms from terms contained in a plurality of documents stored in the document storage means;
Calculating a similarity between the extracted first and second terms;
Generating a cluster to which each of a plurality of documents stored in the document storage means belongs;
Based on the appearance frequency of the extracted first term in the plurality of documents stored in the document storage means and the document belonging to the generated cluster, the feature degree of the first term for the cluster is calculated, Calculating a characteristic value of the second term for the cluster based on the appearance frequency of the extracted second term in the plurality of documents stored in the document storage means and the document belonging to the generated cluster When,
Extracting the first and second terms as synonyms based on the calculated similarity, the calculated feature of the first term, and the feature of the second term. program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011065006A JP5117590B2 (en) | 2011-03-23 | 2011-03-23 | Document processing apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011065006A JP5117590B2 (en) | 2011-03-23 | 2011-03-23 | Document processing apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012203472A JP2012203472A (en) | 2012-10-22 |
JP5117590B2 true JP5117590B2 (en) | 2013-01-16 |
Family
ID=47184464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011065006A Active JP5117590B2 (en) | 2011-03-23 | 2011-03-23 | Document processing apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5117590B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6468364B2 (en) * | 2015-04-24 | 2019-02-13 | 日本電気株式会社 | Information processing apparatus, information processing method, and program |
CN108255810B (en) * | 2018-01-10 | 2019-04-09 | 北京神州泰岳软件股份有限公司 | Near synonym method for digging, device and electronic equipment |
DE112019006523T5 (en) | 2019-01-31 | 2021-09-23 | Mitsubishi Electric Corporation | SET STRUCTURE VECTORIZATION DEVICE, SET STRUCTURE VECTORIZATION METHOD, AND SET STRUCTURE VECTORIZATION PROGRAM |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1196177A (en) * | 1997-09-22 | 1999-04-09 | Nippon Telegr & Teleph Corp <Ntt> | Method for generating term dictionary, and storage medium recording term dictionary generation program |
JP3553543B2 (en) * | 2001-11-30 | 2004-08-11 | 三菱スペース・ソフトウエア株式会社 | Related word automatic extraction device, multiple important word extraction program, and upper and lower hierarchy relation extraction program for important words |
JP4087769B2 (en) * | 2003-09-17 | 2008-05-21 | 富士通株式会社 | Server and related word proposal method |
JP4128212B1 (en) * | 2007-10-17 | 2008-07-30 | 株式会社野村総合研究所 | Relevance calculation system between keywords and relevance calculation method |
-
2011
- 2011-03-23 JP JP2011065006A patent/JP5117590B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012203472A (en) | 2012-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10678824B2 (en) | Method of searching for relevant node, and computer therefor and computer program | |
Ljubešić et al. | Standardizing tweets with character-level machine translation | |
JP2008083952A (en) | Dictionary creation support system, method and program | |
US20130066898A1 (en) | Matching target strings to known strings | |
JP6663826B2 (en) | Computer and response generation method | |
Green et al. | An empirical comparison of features and tuning for phrase-based machine translation | |
JP5117590B2 (en) | Document processing apparatus and program | |
KR102168319B1 (en) | Sentences automatically generating apparatus for generating a corpus associated with the new object name word and operating method thereof | |
TW201335776A (en) | Dictionary generation device, dictionary generation method, dictionary generation program, and computer readable recording medium memorizing the program | |
JP5355483B2 (en) | Abbreviation Complete Word Restoration Device, Method and Program | |
CN110222181B (en) | Python-based film evaluation emotion analysis method | |
JP5853595B2 (en) | Morphological analyzer, method, program, speech synthesizer, method, program | |
JP5911931B2 (en) | Predicate term structure extraction device, method, program, and computer-readable recording medium | |
JP2011065380A (en) | Opinion classification device and program | |
JP2013134753A (en) | Wrong sentence correction device, wrong sentence correction method and program | |
JP2012185654A (en) | Translation apparatus, translation program, and translation method | |
JP2018156552A (en) | Computer system and method for searching text data | |
JP2018077604A (en) | Artificial intelligence device automatically identifying violation candidate of achieving means or method from function description | |
JP5302784B2 (en) | Machine translation method and system | |
CN107622129B (en) | Method and device for organizing knowledge base and computer storage medium | |
JP5506482B2 (en) | Named entity extraction apparatus, string-named expression class pair database creation apparatus, numbered entity extraction method, string-named expression class pair database creation method, program | |
CN111125302A (en) | Error detection method and device for user input statement and electronic equipment | |
JP6652355B2 (en) | Information extraction device, method and program | |
JP2020531953A5 (en) | ||
WO2024069741A1 (en) | Software technological field extraction device and software technological field extraction method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120918 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121017 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5117590 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151026 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |