JP2007128389A - Word class creation program, word class creation apparatus, and word class creation method; and similarity calculation program, similarity calculation apparatus, and similarity calculation method - Google Patents

Word class creation program, word class creation apparatus, and word class creation method; and similarity calculation program, similarity calculation apparatus, and similarity calculation method Download PDF

Info

Publication number
JP2007128389A
JP2007128389A JP2005321841A JP2005321841A JP2007128389A JP 2007128389 A JP2007128389 A JP 2007128389A JP 2005321841 A JP2005321841 A JP 2005321841A JP 2005321841 A JP2005321841 A JP 2005321841A JP 2007128389 A JP2007128389 A JP 2007128389A
Authority
JP
Japan
Prior art keywords
term
word
terms
graph
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005321841A
Other languages
Japanese (ja)
Inventor
Takahiro Saito
孝広 齊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2005321841A priority Critical patent/JP2007128389A/en
Publication of JP2007128389A publication Critical patent/JP2007128389A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a word class creation program and the like capable of creating a group of the same class words in accordance with a target document with very reliably without preparing a word thesaurus for a set of terms appearing in the target document. <P>SOLUTION: In the program, the similarity is calculated with respect to a combination of extracted terms; a pair of terms comprising two terms are sorted on the basis of the similarity; a graph is created by showing a combination relation by an edge with each term as a node with respect to the selected pair of terms; candidates of dichotomy pattern of the graph obtained by severing a specified edge are extracted; a graph is divided on the basis of an average edge density calculated from the respective candidates; and terms in a configuration node of each of a plurality of graphs in a division result are extracted as a term group of the same class. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、テキストマイニングや文書検索といった自然言語処理を適切に行なうために必要となる処理対象文書中の語彙知識を自動的に獲得する単語クラス作成プログラム、単語クラス作成装置、及び単語クラス作成方法、並びに類似度算出プログラム、類似度算出装置、及び類似度算出方法に関し、特に、対象文書中の用語セットから同じクラスに属する用語のグループを自動的に作成する技術に関するものである。   The present invention relates to a word class creation program, a word class creation device, and a word class creation method for automatically acquiring vocabulary knowledge in a processing target document necessary for appropriately performing natural language processing such as text mining and document search. In particular, the present invention relates to a technique for automatically creating a group of terms belonging to the same class from a term set in a target document.

文書群に対して計算機による自然言語処理を実施する場合、対象文書群中の用語に対して、同義語や同クラス語に関する知識を計算機に与えることは適切な処理を行なうために有用である。   When natural language processing is performed on a document group by a computer, it is useful to give the computer knowledge about synonyms and class words for terms in the target document group in order to perform appropriate processing.

例えば、フライト中に起こったインシデントレポートにおいて、「本機は定刻に羽田を出発した」という文と、「本機は定時に羽田を離陸した」という文は同じ意味を持つと計算機が判定するには、同義語に関する知識が必要となる。また、同義語といった強い関係でなくとも、「羽田」と「成田」がどちらも空港名を表すという知識(そのような関係を同クラス語と呼ぶ)も適切な計算機処理に有用である。   For example, in an incident report that occurred during a flight, the computer determines that the sentence “This machine departed Haneda on time” and the sentence “This machine took off Haneda on time” have the same meaning. Requires knowledge of synonyms. In addition, the knowledge that both “Haneda” and “Narita” represent airport names, even if they are not strong synonyms, is also useful for appropriate computer processing.

例えば、このような知識は、「空港付近での乱気流」の事例を検索するタスクにおいて、「羽田上空で乱気流に遭遇した。」という文を含む文書と、「成田へのアプローチ中、乱気流に遭遇した。」という文を含む文書の両方が検索されることを実現する。従来このような知識は既存の単語シソーラスを流用してきた。   For example, such knowledge can be found in a document that contains the sentence “I encountered turbulence over Haneda” in the task of searching for cases of “turbulence near the airport” and “I encountered turbulence while approaching Narita. It is realized that both documents including the sentence "has been retrieved" are retrieved. Conventionally, such knowledge has been diverted from existing word thesauruses.

しかしながら、このような知識は、処理対象とする文書集合に依存して決まる知識であり、汎用的な単語シソーラスでは不十分である。例えば、「出発」と「離陸」とは一般的には同義ではないが、航空インシデントレポートを対象とするタスクにおいては同義とみなせる。   However, such knowledge is determined depending on the document set to be processed, and a general-purpose word thesaurus is insufficient. For example, “departure” and “takeoff” are generally not synonymous, but they can be considered synonymous in a task for an air incident report.

また、対象文書は航空インシデントレポートといった分野依存性が強い文書である場合、分野特有のテクニカルタームは、汎用的な単語シソーラスには含まれておらず、この意味でも不十分である。結局のところ、対象文書毎にこのような知識を用意する必要があるが、このコストは非常に大きい。従って、処理対象文書中の用語に関して、自動的に単語クラスを作成し、コストを削減する技術が重要となる。   In addition, when the target document is a document having a strong field dependency such as an aviation incident report, the technical term specific to the field is not included in the general-purpose word thesaurus, and this is insufficient. After all, it is necessary to prepare such knowledge for each target document, but this cost is very high. Therefore, a technique for automatically creating a word class for terms in a processing target document and reducing costs is important.

このような単語クラスを作成する方式としては、文の記述パターンに基づく抽出ルールを定義する方式、用語間の類似性を評価する評価値を定義する方式の2つに大きく分類される。   Methods for creating such word classes are broadly classified into two methods: a method for defining extraction rules based on sentence description patterns, and a method for defining evaluation values for evaluating similarity between terms.

前者の方式としては、例えば「〜とは〜である」といった用語を定義するような文を判定するルールを定義し、ルールにマッチした文から用語を抽出するものが公知となっている(例えば特許文献1参照)。この方式によれば、ルールの記載の仕方によっては、かなり高い精度で抽出が行なわれることが期待できる。   As the former method, for example, a rule for determining a sentence that defines a term such as “to is” is defined, and a term is extracted from a sentence that matches the rule (for example, Patent Document 1). According to this method, it can be expected that extraction is performed with considerably high accuracy depending on how the rules are described.

一方、後者の方式としては、例えば、対象とする用語に対して、その用語と共起する用語の共通性を用いて類似性を定義する方式が知られる(例えば特許文献2参照)。また、対象文書集合中の各文書における出現頻度で用語毎に特徴ベクトルを作成し、特徴ベクトルの内積で類似語を定義する方式が知られる(例えば特許文献3参照)。   On the other hand, as the latter method, for example, a method is known in which similarity is defined for a target term using the commonality of terms that co-occur with the term (see, for example, Patent Document 2). Further, a method is known in which a feature vector is created for each term with the appearance frequency in each document in the target document set, and a similar word is defined by an inner product of the feature vectors (see, for example, Patent Document 3).

また、類似する用語をグルーピングする方式として、単語クラスタリングと呼ばれる技術が一般的に広く用いられている。単語クラスタリング方式は、階層クラスタリング方式と非階層クラスタリング方式に大きく分類することができる。   A technique called word clustering is generally widely used as a method for grouping similar terms. Word clustering methods can be broadly classified into hierarchical clustering methods and non-hierarchical clustering methods.

前者の方式の典型的な手法としては、デンドログラムと呼ばれる方式があり、これは、類似度の高い順に用語を次々にまとめあげていき、最終的に一つの階層構造を作成するものである。一方、非階層クラスタリング方式においては、典型的な手法としてはk-means法が挙げられる。   As a typical method of the former method, there is a method called a dendrogram, which collects terms one after another in descending order of similarity and finally creates one hierarchical structure. On the other hand, in the non-hierarchical clustering method, a typical method is a k-means method.

また、同義語のグループを自動的に作成する方式としては、対訳コーパスを用いて、用語の訳語組を作成し、作成した訳語組からグラフを作成する方式が公知である(非特許文献1参照)。
特開平6−266769号公報 特開2004−544882号公報 特開2004−43236号公報 A.Aizawa & K.KAGEURA,An Approach to the Automatic Generation of Mulitilingual Keyword Clusters,Proceedings of COMPTERM98,pp8-14,1998
As a method for automatically creating a group of synonyms, a method for creating a translation set of terms using a bilingual corpus and creating a graph from the created translation set is known (see Non-Patent Document 1). ).
JP-A-6-266769 JP 2004-544882 A JP 2004-43236 A A.Aizawa & K.KAGEURA, An Approach to the Automatic Generation of Mulitilingual Keyword Clusters, Proceedings of COMPTERM98, pp8-14,1998

しかしながら、特許文献1に示された方式では、精度の高いルールは、その分適用される確率が低く、抽出洩れを起こす可能性が高い。また、上記例における「出発」と「離陸」のような対象文書に特有の同義関係を抽出することはできない。航空インシデントレポートにおいては、この2つの用語が同じ意味であることは、暗黙の仮定として記載されており、「離陸とは出発することである」といった文が含まれることはないからである。   However, in the method disclosed in Patent Document 1, a rule with high accuracy has a low probability of being applied, and there is a high possibility of causing extraction omission. In addition, it is not possible to extract a synonym specific to the target document such as “departure” and “takeoff” in the above example. In the aviation incident report, the fact that the two terms have the same meaning is described as an implicit assumption and does not include a sentence such as “takeoff is a departure”.

また、特許文献2や特許文献3に示された方式では、上記の同クラス語を直接反映した定義にはなっておらず、結果として、不適切な用語組が高い類似度を示す可能性が高くなる、つまり精度に問題があることが多い。   In addition, in the methods shown in Patent Document 2 and Patent Document 3, the definition does not directly reflect the same class word, and as a result, an inappropriate term set may show a high degree of similarity. Often there is a problem with accuracy.

また、単語クラスタリングにおける階層クラスタリング方式においては、階層構造から単語グループを作成する際に、階層構造中のどの階層で分割してグループ化するかが問題となり、未だ適切な分割階層を自動的に算出する手法は存在しない。   In addition, in the hierarchical clustering method in word clustering, when creating a word group from a hierarchical structure, there is a problem in which hierarchy in the hierarchical structure to divide and group, and still calculate the appropriate divided hierarchy automatically. There is no way to do this.

一方、非階層クラスタリング方式においては、k-means法によればユーザの入力した数の単語グループを作成することができるが、クラスタリング実施時にはこの値をパラメータとして入力する必要があり、この値を事前に求めることは不可能である。   On the other hand, in the non-hierarchical clustering method, the number of word groups entered by the user can be created by the k-means method, but this value must be input as a parameter when performing clustering. It is impossible to ask for.

結局の所、どちらの方式も適切なグループを作成するには、適切なパラメータを与える必要がある。従って、これら従来の技術は、そのパラメータを事前に求めることができないような使用環境には適用することができないという問題がある。   After all, both methods need to be given the appropriate parameters to create the appropriate group. Therefore, these conventional techniques have a problem that they cannot be applied to a use environment in which the parameters cannot be obtained in advance.

なお、非特許文献1に示された方式は入力として対訳コーパスを必須とする点で、一般的な対象文書群に適用できないという問題がある。   The method disclosed in Non-Patent Document 1 has a problem that it cannot be applied to a general target document group in that a bilingual corpus is essential as an input.

本発明は、上述した問題点を解決するためになされたものであり、対象文書中に出現する用語のセットに対して、単語シソーラスを用意することなく、同クラス語のグループを、対象文書に応じて高い信頼性で作成することができる単語クラス作成プログラム、単語クラス作成装置、及び単語クラス作成方法、並びにそれらに用いられる類似度算出プログラム、類似度算出装置及び類似度算出方法を提供することを目的としている。   The present invention has been made to solve the above-described problems. For a set of terms appearing in a target document, a group of the same class words is added to the target document without preparing a word thesaurus. To provide a word class creation program, a word class creation device, a word class creation method, and a similarity calculation program, a similarity calculation device, and a similarity calculation method used therefor, which can be created with high reliability in response It is an object.

上述した課題を解決するため、本発明は、単語クラスの作成をコンピュータに実行させる単語クラス作成プログラムであって、抽出対象とする用語を文書中から抽出する用語抽出ステップと、抽出された用語間の組合せに関して類似度を算出する類似度算出ステップと、算出された類似度に基づいて、二つの用語からなる用語組の選別を行なう用語組選別ステップと、選別された全ての用語組について、各用語をノードとし、組関係をエッジで表して各ノードをエッジで連結していくことによりグラフを作成するグラフ作成ステップと、作成されたグラフにおける所定のエッジを切断することによりグラフの2分割パターンの候補を抽出すると共に、抽出された2分割パターンの各候補に対して、2つのグラフそれぞれを構成するエッジについての平均エッジ密度を算出し、その値が最大となる2分割パターンに対し、該平均エッジ密度が分割前のグラフの平均エッジ密度より大きくなることを条件に、該2分割パターンについてグラフを分割する分割ステップと、分割されたグラフに対して前記条件を満たす限り前記分割ステップを再帰的に繰り返すと共に、条件を満たさなくなった場合に、分割結果における複数のグラフそれぞれの構成ノードにおける用語を同クラス用語グループとして抽出する同クラス用語抽出ステップとをコンピュータに実行させるものであ。   In order to solve the above-described problems, the present invention provides a word class creation program for causing a computer to create a word class, a term extraction step for extracting terms to be extracted from a document, and between extracted terms For each combination of terms, a similarity calculation step for calculating a similarity with respect to the combination of terms, a term set selection step for selecting a term set consisting of two terms based on the calculated similarity, and for all selected term sets A graph creation step of creating a graph by expressing a pair as a term, expressing a pair relationship as an edge, and connecting each node with an edge, and cutting a predetermined edge in the created graph into a two-part pattern of the graph Are extracted, and each of the extracted two-division pattern candidates is connected to the edges constituting each of the two graphs. The average edge density is calculated and the graph is divided for the two-division pattern on the condition that the average edge density is larger than the average edge density of the pre-division graph for the two-division pattern with the maximum value. A division step to be performed, and the division step is recursively repeated as long as the condition is satisfied for the divided graph, and when the condition is not satisfied, the terms in the constituent nodes of each of the plurality of graphs in the division result are the same class The same class term extracting step for extracting as a term group is executed by a computer.

また、本発明の単語クラス作成プログラムにおいて、前記類似度算出ステップは、抽出対象とする文書中の特定範囲の単語列を抽出する単語列抽出ステップと、前記抽出された特定範囲の単語列に含まれる部分単語または部分単語列を対象用語として抽出する対象用語抽出ステップと、前記抽出された対象用語の二つの用語である第1、第2の用語において、前記特定範囲の単語列中の第1の用語を含む単語列の集合において、各々の単語列中の第1の用語を第2の用語に置換して作成した単語列の集合と、前記特定範囲の単語列の集合との交わりの数とに基づいて類似度を演算する類似度演算ステップを含むことを特徴とする。   In the word class creation program of the present invention, the similarity calculation step includes a word string extraction step for extracting a word string in a specific range in the document to be extracted, and a word string in the extracted specific range. A target term extracting step of extracting a partial word or partial word string to be extracted as a target term, and a first term in the word string in the specific range in the first and second terms that are two terms of the extracted target term The number of intersections between a set of word strings created by replacing the first term in each word string with a second term and the set of word strings in the specific range And a similarity calculation step for calculating the similarity based on the above.

また、本発明の単語クラス作成プログラムにおいて、前記分割ステップは、前記2分割パターンの候補を抽出する際に、指定された閾値以下のエッジを削除することで分割されるもののみを2分割の候補とすることを特徴とする。   In the word class creation program of the present invention, when the division step extracts candidates for the two-division pattern, only candidates that are divided by deleting edges below a specified threshold value are divided into two candidates. It is characterized by.

また、本発明の単語クラス作成プログラムにおいて、前記分割ステップは、前記2分割パターンの候補を抽出する際に、削除するエッジに対応する類似度の合計が指定された閾値を越えないもののみを2分割の候補とすることを特徴とする。   In the word class creation program of the present invention, when the candidate for the two-divided pattern is extracted, the dividing step is performed only when the sum of the similarities corresponding to the edges to be deleted does not exceed the specified threshold value. It is characterized by being a candidate for division.

また、本発明の単語クラス作成プログラムにおいて、前記分割ステップは、前記2分割パターンの候補を抽出する際に、前記用語組選別ステップにより選別された全ての用語組を類似度順にソートし、類似度の高い順にグラフを作成していく過程において、ある用語組をグラフに加えることにより、それまで連結されていなかった2つのグラフを連結することとなる場合に、該用語組を加えることにより連結される2つのグラフを連結することとなる全ての用語組を除いた用語組で作成された前記2つのグラフを分割候補とすることを特徴とする。   In the word class creation program of the present invention, when the candidate for the two-division pattern is extracted, the dividing step sorts all the term groups selected by the term group selecting step in the order of similarity. In the process of creating a graph in the descending order of, when adding a term set to a graph to connect two graphs that were not connected so far, they are connected by adding the term set. The two graphs created by the term set excluding all term sets that connect the two graphs are used as division candidates.

また、本発明は、単語クラスの作成を行う単語クラス作成装置であって、抽出対象とする用語を文書中から抽出する用語抽出部と、抽出された用語間の組合せに関して類似度を算出する類似度算出部と、算出された類似度に基づいて、二つの用語からなる用語組の選別を行なう用語組選別部と、選別された全ての用語組について、各用語をノードとし、組関係をエッジで表して各ノードをエッジで連結していくことによりグラフを作成するグラフ作成部と、作成されたグラフにおける所定のエッジを切断することによりグラフの2分割パターンの候補を抽出すると共に、抽出された2分割パターンの各候補に対して、2つのグラフそれぞれを構成するエッジについての平均エッジ密度を算出し、その値が最大となる2分割パターンに対し、該平均エッジ密度が分割前のグラフの平均エッジ密度より大きくなることを条件に、該2分割パターンについてグラフを分割する分割部と、分割されたグラフに対して前記条件を満たす限り前記分割部による分割を再帰的に繰り返すと共に、条件を満たさなくなった場合に、分割結果における複数のグラフそれぞれの構成ノードにおける用語を同クラス用語グループとして抽出する同クラス用語抽出部とを備えるものである。   In addition, the present invention is a word class creation device that creates a word class, a term extraction unit that extracts a term to be extracted from a document, and a similarity that calculates a similarity with respect to a combination between extracted terms A degree calculation unit, a term set selection unit that selects a term set consisting of two terms based on the calculated similarity, and for all selected term sets, each term is a node and the set relationship is an edge And a graph creation unit that creates a graph by connecting each node with an edge, and a candidate for a two-division pattern of the graph is extracted by cutting a predetermined edge in the created graph and extracted. For each of the two-division pattern candidates, the average edge density for the edges constituting each of the two graphs is calculated. On the condition that the average edge density is larger than the average edge density of the graph before the division, the division unit that divides the graph with respect to the two-division pattern, and the division by the division unit as long as the condition is satisfied for the divided graph And a same-class term extraction unit that extracts terms in the constituent nodes of each of the plurality of graphs in the division result as the same-class term group when the condition is not satisfied.

また、本発明は、単語クラス作成装置により行われる単語クラス作成方法であって、抽出対象とする用語を文書中から抽出する用語抽出ステップと、抽出された用語間の組合せに関して類似度を算出する類似度算出ステップと、算出された類似度に基づいて、二つの用語からなる用語組の選別を行なう用語組選別ステップと、選別された全ての用語組について、各用語をノードとし、組関係をエッジで表して各ノードをエッジで連結していくことによりグラフを作成するグラフ作成ステップと、作成されたグラフにおける所定のエッジを切断することによりグラフの2分割パターンの候補を抽出すると共に、抽出された2分割パターンの各候補に対して、2つのグラフそれぞれを構成するエッジについての平均エッジ密度を算出し、その値が最大となる2分割パターンに対し、該平均エッジ密度が分割前のグラフの平均エッジ密度より大きくなることを条件に、該2分割パターンについてグラフを分割する分割ステップと、分割されたグラフに対して前記条件を満たす限り前記分割ステップを再帰的に繰り返すと共に、条件を満たさなくなった場合に、分割結果における複数のグラフそれぞれの構成ノードにおける用語を同クラス用語グループとして抽出する同クラス用語抽出ステップとを備えるものである。   In addition, the present invention is a word class creation method performed by a word class creation device, which calculates a degree of similarity with respect to a term extraction step for extracting a term to be extracted from a document and a combination between the extracted terms. Similarity calculation step, term set selection step for selecting a set of terms consisting of two terms based on the calculated similarity, and for all selected term sets, each term is a node and the set relation A graph creation step for creating a graph by connecting each node with an edge represented by an edge, and extracting a candidate for a two-division pattern of the graph by cutting a predetermined edge in the created graph For each of the two divided pattern candidates, an average edge density is calculated for the edges constituting each of the two graphs. A division step for dividing a graph with respect to the two-divided pattern, on the condition that the average edge density is larger than the average edge density of the graph before division for a large two-division pattern, As long as the condition is satisfied, the dividing step is recursively repeated, and when the condition is not satisfied, the class term extracting step of extracting the terms in the constituent nodes of each of the plurality of graphs in the division result as the same class term group. It is to be prepared.

また、本発明は、文書中に含まれる用語間の類似度をコンピュータにより算出させる類似度算出プログラムであって、抽出対象とする文書中の特定範囲の単語列を抽出する単語列抽出ステップと、前記抽出された特定範囲の単語列に含まれる部分単語または部分単語列を対象用語として抽出する対象用語抽出ステップと、前記抽出された対象用語の二つの用語である第1、第2の用語において、前記特定範囲の単語列中の第1の用語を含む単語列の集合において、各々の単語列中の第1の用語を第2の用語に置換して作成した単語列の集合と、前記特定範囲の単語列の集合との交わりの数とに基づいて類似度を演算する類似度演算ステップとをコンピュータに実行させるものである。   Further, the present invention is a similarity calculation program that allows a computer to calculate the similarity between terms contained in a document, a word string extraction step for extracting a word string in a specific range in a document to be extracted, In a target term extracting step of extracting a partial word or partial word string included in the extracted word string of the specific range as a target term, and in the first and second terms that are two terms of the extracted target term A set of word strings created by replacing the first term in each word string with a second term in the set of word strings including the first term in the word string in the specific range; A similarity calculation step for calculating a similarity based on the number of intersections with a set of word strings in the range is executed by a computer.

また、本発明は、文書中に含まれる用語間の類似度を算出する類似度算出装置であって、抽出対象とする文書中の特定範囲の単語列を抽出する単語列抽出部と、前記抽出された特定範囲の単語列に含まれる部分単語または部分単語列を対象用語として抽出する対象用語抽出部と、前記抽出された対象用語の二つの用語である第1、第2の用語において、前記特定範囲の単語列中の第1の用語を含む単語列の集合において、各々の単語列中の第1の用語を第2の用語に置換して作成した単語列の集合と、前記特定範囲の単語列の集合との交わりの数とに基づいて類似度を演算する類似度演算部とを備えるものである。   Further, the present invention is a similarity calculation device for calculating the similarity between terms included in a document, the word string extraction unit extracting a word string in a specific range in the document to be extracted, and the extraction In the target term extraction unit that extracts a partial word or partial word string included in the word string of the specified range as a target term, and in the first and second terms that are two terms of the extracted target term, In a set of word strings including a first term in a word string in a specific range, a set of word strings created by replacing the first term in each word string with a second term; A similarity calculation unit that calculates a similarity based on the number of intersections with a set of word strings.

また、本発明は、文書中に含まれる用語間の類似度を算出する類似度算出方法であって、抽出対象とする文書中の特定範囲の単語列を抽出する単語列抽出ステップと、前記抽出された特定範囲の単語列に含まれる部分単語または部分単語列を対象用語として抽出する対象用語抽出ステップと、前記抽出された対象用語の二つの用語である第1、第2の用語において、前記特定範囲の単語列中の第1の用語を含む単語列の集合において、各々の単語列中の第1の用語を第2の用語に置換して作成した単語列の集合と、前記特定範囲の単語列の集合との交わりの数とに基づいて類似度を演算する類似度演算ステップとを備えるものである。   Further, the present invention is a similarity calculation method for calculating the similarity between terms included in a document, the word string extraction step for extracting a word string in a specific range in the document to be extracted, and the extraction In the target term extracting step for extracting a partial word or partial word string included in the word string of the specified range as a target term, and in the first and second terms that are two terms of the extracted target term, In a set of word strings including a first term in a word string in a specific range, a set of word strings created by replacing the first term in each word string with a second term; A similarity calculation step of calculating a similarity based on the number of intersections with a set of word strings.

本発明によれば、対象文書中に出現する用語のセットに対して、単語シソーラスを用意することなく、同クラス語のグループを、対象文書に応じて高い信頼性で作成することができるという効果を奏する。   According to the present invention, it is possible to create a group of the same class words with high reliability according to a target document without preparing a word thesaurus for a set of terms appearing in the target document. Play.

以下、本発明の実施の形態を図を用いて説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図1は本発明の実施の形態における単語クラス作成装置を示すブロック図である。   FIG. 1 is a block diagram showing a word class creation device according to an embodiment of the present invention.

図1に示す単語クラス作成装置は、対象文書に含まれる用語(単語)を抽出する用語抽出部1と、用語抽出部1により抽出した用語の全ての組合せに対して、類似度を算出する類似度算出部(類似度算出装置)2と、類似度算出部2により算出された類似度に基づいて用語組を選別する用語組選別部3と、用語組選別部3により選別された用語組からグラフを作成するグラフ作成部4と、グラフ作成部4により作成されたグラフにおける所定の各連結部分グラフに対して、分割判定及び2つの連結グラフへの分割を行なう連結グラフ分割部5と、連結グラフ分割部5による分割結果として、連結グラフ分割部5がグラフをこれ以上分割できないと判定した時に、各連結部分グラフを各々一つの単語クラスとみなしてユーザに提示する出力部6とから構成される。ここで連結グラフ分割部5は本発明の分割部に対応し、出力部6は本発明の同クラス用語抽出部に対応している。   The word class creation device shown in FIG. 1 calculates a similarity for a term extraction unit 1 that extracts terms (words) included in a target document and all combinations of terms extracted by the term extraction unit 1. From the degree calculation unit (similarity calculation device) 2, the term set selection unit 3 that selects a term set based on the similarity calculated by the similarity calculation unit 2, and the term set selected by the term set selection unit 3 A graph creating unit 4 for creating a graph, a connected graph dividing unit 5 for performing division determination and dividing into two connected graphs for each predetermined connected subgraph in the graph created by the graph creating unit 4, As a result of the division by the graph dividing unit 5, when the connected graph dividing unit 5 determines that the graph cannot be divided any more, an output unit 6 that regards each connected subgraph as one word class and presents it to the user. It consists of. Here, the connected graph dividing unit 5 corresponds to the dividing unit of the present invention, and the output unit 6 corresponds to the same class term extracting unit of the present invention.

以下、本発明の実施の形態における動作について説明する。   The operation in the embodiment of the present invention will be described below.

図2は本実施の形態の全体動作を示すフローチャートである。この全体動作においては、用語抽出部1において行われる用語抽出ステップ(S1)、抽出された用語についての各組み合わせについて、類似度算出部2で行われる類似度算出ステップ(S2)、算出された類似度に基づいて用語組選別部3で行われる用語組選別ステップ(S3)、選別された用語組についてグラフ作成部4で行われるグラフ作成ステップ(S4)、作成されたグラフについて連結グラフ分割部5で行われるグラフ分割ステップ(S5)及び出力部6で行われる結果出力(同クラス用語抽出)ステップ(S6)が含まれる。   FIG. 2 is a flowchart showing the overall operation of the present embodiment. In this overall operation, the term extraction step (S1) performed in the term extraction unit 1, the similarity calculation step (S2) performed in the similarity calculation unit 2 for each combination of the extracted terms, and the calculated similarity Term group selection step (S3) performed by the term group selection unit 3 based on the degree, graph generation step (S4) performed by the graph generation unit 4 for the selected term group, and connected graph division unit 5 for the generated graph And the result output (same class term extraction) step (S6) performed in the output unit 6 are included.

以下、これら動作の一例をステップ毎に実例に基づいて説明する。なお、本発明における全ての処理ステップは計算機上のプログラムとして実現可能であることは言うまでもない。   Hereinafter, an example of these operations will be described on a step-by-step basis. It goes without saying that all the processing steps in the present invention can be realized as a computer program.

[用語抽出ステップ:S1]
このステップにおいては、対象文書に含まれる用語を抽出する。この処理は例えば、文書中の文を既存技術である形態素解析を用いて単語に分割し、この処理によって得られた全ての単語を抽出することで実現可能である。また、この際無駄な用語を削除するために、形態素解析結果における品詞情報を基に絞り込み、例えば対象とする用語を名詞だけに絞ることも可能である。また、これ以外にも、公知技術である様々なキーワード抽出技術を適用し、複合語なども処理対象となる用語として抽出することもできる。
[Term Extraction Step: S1]
In this step, terms included in the target document are extracted. This process can be realized, for example, by dividing a sentence in a document into words using morphological analysis, which is an existing technology, and extracting all the words obtained by this process. At this time, in order to delete useless terms, it is possible to narrow down based on the part-of-speech information in the morphological analysis result, for example, to narrow down the target terms to only nouns. In addition to this, various keyword extraction techniques that are publicly known techniques can be applied to extract compound words as terms to be processed.

例えば、航空インシデントレポートを対象として形態素解析を行ない、解析結果において、未登録語となった単語を抽出すると、図3に記載する単語が得られる。ここで、(a)は抽出対象文書、(b)は得られた単語(抽出用語)を示している。   For example, when a morphological analysis is performed on an aviation incident report and an unregistered word is extracted from the analysis result, the words shown in FIG. 3 are obtained. Here, (a) shows the extraction target document, and (b) shows the obtained word (extraction term).

[類似度算出ステップ:S2]
このステップにおいては、抽出された用語(単語)の全ての組合せについて、その間の類似度を算出する。この類似度算出方式としては例えば前述の特徴ベクトルの内積で定義される類似度算出方式といった公知技術を用いることが可能である。しかしながら、上記類似度算出方式は精度に問題があり、同クラスでない用語組に対して高い類似度を算出してしまう誤りが多い。そこで、本実施の形態においては、用語の可換性に基づく類似度算出方式を用いている。
[Similarity calculation step: S2]
In this step, similarities between all combinations of extracted terms (words) are calculated. As the similarity calculation method, for example, a known technique such as the similarity calculation method defined by the inner product of the feature vectors described above can be used. However, the similarity calculation method has a problem in accuracy, and there are many errors that calculate a high similarity for a term set that is not in the same class. Therefore, in the present embodiment, a similarity calculation method based on term commutability is used.

図4はこの類似度算出方式を示すフローチャートであり、この動作は、特定範囲単語列抽出ステップ(S11)と、抽出した特定範囲単語列を用いて可換性情報を算出する可換性情報算出ステップ(S12)と、可換性情報を用いて類似度を算出する算出ステップ(S13)とから構成される。以下、これらについて詳述する。   FIG. 4 is a flowchart showing the similarity calculation method. This operation is performed by a specific range word string extraction step (S11) and commutability information calculation for calculating commutability information using the extracted specific range word string. Step (S12) and a calculation step (S13) for calculating similarity using commutative information. These will be described in detail below.

(a:特定範囲単語列抽出ステップ:S11)
対象文書から、ある基準に基づいた単語列を全て抽出する。ここで、ある基準とは例えば、複合語、文節、単語列(文中の個の単語連続部分)、文といったものが挙げられる。このような単語列を抽出するには、形態素解析や複合語抽出技術、文節判定技術といった全て既存の技術で実現可能である。
(A: specific range word string extraction step: S11)
All word strings based on a certain standard are extracted from the target document. Here, for example, a certain standard includes compound words, phrases, word strings (consecutive words in a sentence), sentences, and the like. Extraction of such a word string can be realized by existing techniques such as morphological analysis, compound word extraction technique, and phrase determination technique.

(b:可換性情報算出ステップ:S12)
抽出した特定範囲単語列の集合中で、用語A、用語Bを含むものの数をそれぞれm(A),m(B)とする。また用語Aを含む特定範囲単語列の集合において、Aの部分をBに置き換えてできる単語列の集合を考える。この集合の要素である単語列は、前ステップで抽出した特定範囲単語列の集合に含まれているか含まれていないかのどちらかであるが、抽出した特定範囲単語節の集合に含まれているものの個数をn(A,B)とする。なお、この定義により、明らかにn(A,B)=n(B,A)となる。
(B: Commutability information calculation step: S12)
Let m (A) and m (B) be the numbers of terms including the terms A and B in the set of extracted specific range word strings, respectively. Also, a set of word strings formed by replacing part A with B in a set of specific range word strings including the term A is considered. The word strings that are elements of this set are either included or not included in the set of specific range word strings extracted in the previous step, but are included in the extracted set of specific range word clauses. Let n (A, B) be the number of objects. It should be noted that n (A, B) = n (B, A) is clearly obtained by this definition.

例として、特定範囲単語列の基準として複合語を採用した時の、用語「客室乗務員」と「CA」の間における可換性情報の算出方法を挙げる。   As an example, a method for calculating commutative information between the terms “cabin crew” and “CA” when a compound word is adopted as a reference for a specific range word string will be described.

「客室乗務員」を含む複合語としては「客室乗務員交代時」、「客室乗務員用シート」、「当該客室乗務員」、「客室乗務員訓練部」が抽出されており、m(客室乗務員)は4となる。一方、「CA」を含む複合語としては「CA用シート」、「当該CA」、「CA負傷」、「CA向けブリーフィング」、「CA報告」が抽出されており、m(CA)は5となる。   Compound words including “Crew Attendant” are extracted as “Crew Attendant”, “Crew Crew Seat”, “Crew Attendant”, and “Crew Crew Training Department”, and m (crew attendant) is 4. Become. On the other hand, “CA sheet”, “CA”, “CA injury”, “CA briefing” and “CA report” are extracted as compound words including “CA”, and m (CA) is 5. Become.

また「客室乗務員」を含む上記4つの複合語中、「客室乗務員」を「CA」に置き換えた時に、「CA」を含む複合語として抽出されているものは「CA用シート」と「当該CA」であるので、n(客室乗務員,CA)は2となる。また、この2つの複合語は逆の場合も成立するのでn(CA,客室乗務員)も2となる。本ステップにおいては、用語の組に対して、上記の3つの値(4,5,2)を算出する。   Among the above four compound words including “crew attendant”, when “cabin crew” is replaced with “CA”, those extracted as compound words including “CA” are “CA seat” and “the CA Therefore, n (cabin crew, CA) is 2. In addition, since these two compound words hold true in the opposite case, n (CA, flight attendant) is also 2. In this step, the above three values (4, 5, 2) are calculated for the term set.

(c:類似度の算出ステップ:S13)
前ステップで算出した可換性情報を基に、類似度を算出する。この算出式としては、n(A,B)が大きくなるにしたがって類似度が増加し、m(A)及びm(B)が大きくなるに従って類似度が小さくなるような式であれば良い。このような式の例としては、以下の式が挙げられる。
(C: Similarity calculation step: S13)
The similarity is calculated based on the commutability information calculated in the previous step. The calculation formula may be any formula that increases the similarity as n (A, B) increases and decreases the similarity as m (A) and m (B) increase. Examples of such formulas include the following formulas.

用語Aと用語Bの類似度=n(A,B)/(m(A)*m(B))   Similarity between terms A and B = n (A, B) / (m (A) * m (B))

[用語組選別ステップ:S3]
このステップにおいては、前ステップによって付与された類似度に基づいて、同クラス語の組となっている可能性が高い用語組を選別する。この選別方法は、類似度順に上位の用語組を選別することになるが、例えば、類似度の閾値を設定しておく、選別数を設定しておく、抽出すべき個数の全体に対する割合を設定しておく、といった手法を採ることもできる。これらの値は固定値を用いてもよいが、ユーザとのインターフェース部を設け、これらの値をユーザが制御可能にしてもよい。
[Terminology group selection step: S3]
In this step, based on the similarity given in the previous step, a term set that is likely to be a set of the same class words is selected. In this sorting method, higher-level term sets are sorted in the order of similarity. For example, a threshold value of similarity is set, the number of sorting is set, and the ratio of the total number to be extracted is set. It is also possible to take a technique such as These values may be fixed values, but an interface unit with the user may be provided so that these values can be controlled by the user.

図5は、本実施の形態の一例として、類似度が0.6より大きい用語組を選別した場合を示している。図5において、(a)は抽出用語、(b)は選別された用語組を示している。   FIG. 5 shows a case where a term set having a similarity greater than 0.6 is selected as an example of the present embodiment. In FIG. 5, (a) shows extracted terms, and (b) shows selected term sets.

[グラフ作成ステップ:S4]
このステップにおいては、前ステップによって選別された用語組を用いて、各々の用語をノード、用語組のペア関係をエッジとみなしてグラフを作成する。このグラフ自身はユーザに提示する必要はなく、計算機上に仮想的なグラフ構造を表現すれば良く、具体的には選別された用語組のリストをグラフ構造体に変換するのみである。
[Graph creation step: S4]
In this step, using the term set selected in the previous step, each term is regarded as a node, and a pair relationship of term terms is regarded as an edge to create a graph. The graph itself does not need to be presented to the user, and it is only necessary to represent a virtual graph structure on the computer. Specifically, the list of selected term groups is simply converted into a graph structure.

[連結部分グラフ分割ステップ:S5]
このステップでは、前ステップにより作成されたグラフ構造中の各連結部分グラフに対して、グラフ分割処理を行なう。まず、このようなグラフ構造中の全ての連結部分グラフを抽出する方法には、効率的なアルゴリズムが一般的に知られており、容易に実現可能である。
[Connected subgraph division step: S5]
In this step, graph division processing is performed for each connected subgraph in the graph structure created in the previous step. First, an efficient algorithm is generally known as a method for extracting all connected subgraphs in such a graph structure, and can be easily realized.

本実施の形態の実例においては、図5において選別された12個の用語組から図6に示すように、ただ一つの連結グラフが作成されるが、複数の連結部分グラフが作成されることもあり、その場合は、各々の連結部分グラフに対して以下のグラフ分割処理が行なわれる。   In the example of the present embodiment, as shown in FIG. 6, only one connected graph is created from the 12 term groups selected in FIG. 5, but a plurality of connected subgraphs may be created. In that case, the following graph division processing is performed on each connected subgraph.

一つの連結部分グラフに対するグラフ分割処理は、さらに以下のステップで行なわれる。   The graph division process for one connected subgraph is further performed in the following steps.

(a)連結部分グラフについて、分割候補とするグラフ2分割パターンを求める。
この算出方法としては種々の方法がある。例えば、連結部分グラフを構成するエッジの全ての組合せを求め、各々の組合せに属するエッジを元のグラフから削除するとグラフが2分割される全ての場合を2分割パターンの候補とすることが考えられる(図7)。
(A) For a connected subgraph, a graph two-division pattern as a division candidate is obtained.
There are various calculation methods. For example, if all combinations of edges constituting a connected subgraph are obtained and the edges belonging to each combination are deleted from the original graph, all cases where the graph is divided into two can be considered as candidates for the two-division pattern. (FIG. 7).

しかしながら、この方式は元々の連結部分グラフがある程度の量のエッジを含んでいる場合、組合せの数が膨大になってしまう。例えば、実例においては、分割対象となる連結グラフは12本のエッジを含んでいるので、削除するエッジの組合せの数は1212−2となる。 However, in this method, if the original connected subgraph includes a certain amount of edges, the number of combinations becomes enormous. For example, in the actual example, since the connected graph to be divided includes 12 edges, the number of edge combinations to be deleted is 12 12 -2.

この各々のエッジの組合せを元々のグラフから削除した時に、グラフが2分割されるかどうかをチェックするという方法は計算コストに無駄が多い。そのため、候補とすべき2分割パターンの数を絞る工夫が必要となる。このような工夫の1つが図8に示された方法である。図8に示す方式によれば、指定された本数以下のエッジの組合せのみを削除することを考えれば良いので、エッジの組合せの数が劇的に削減できる。例えば、実例においては指定本数を2とした場合、エッジの組合せの数はC(12,1)+C(12,2)=78となる。なお、C(n,m)はn個のものからm個のものを選択する組み合わせの数である。   When this combination of edges is deleted from the original graph, the method of checking whether the graph is divided into two is wasteful in calculation cost. For this reason, it is necessary to devise a method for reducing the number of two-division patterns to be candidates. One such device is the method shown in FIG. According to the method shown in FIG. 8, since it is only necessary to consider deleting only combinations of edges equal to or less than the designated number, the number of edge combinations can be dramatically reduced. For example, in the example, when the designated number is 2, the number of edge combinations is C (12,1) + C (12,2) = 78. C (n, m) is the number of combinations for selecting m from n.

また、上述のエッジの組合せを数で限定する方式に代えて、図9に示されるように、エッジの類似度の合計を指定し、その値を越えないエッジの組合せのみに制約する方法も採用し得る。全てのエッジの組合せに対して、その類似度の合計が閾値を越えるかどうかを計算するのは、グラフが2分割されるかどうかを判定するよりもはるかに低コストであるので、この方法も計算量の削減に効果がある。   Also, instead of the above-described method of limiting the number of edge combinations by number, as shown in FIG. 9, a method of specifying the total similarity of edges and restricting only to edge combinations that do not exceed the value is also adopted. Can do. For all edge combinations, calculating whether the sum of the similarities exceeds the threshold is much cheaper than determining whether the graph is split in two, so this method is also Effective in reducing the amount of calculation.

ところで、上記のように分割パターンの数を削減しても、明らかに無駄な分割パターンが存在する。例えば、類似度の合計を閾値(1.5)とする方式において、削除するエッジ組の並べ方を図9の様にすると、最初に求まる分割パターンはエッジr3、r8を削除したパターンであるが、この結果の平均辺密度は、r8のみを削除してできる分割パターンの平均辺密度よりも明らかに小さいので、この分割パターンを分割候補とする意味はない。 By the way, even if the number of division patterns is reduced as described above, there are clearly useless division patterns. For example, in the method in which the total similarity is set to the threshold value (1.5), if the arrangement of the edge groups to be deleted is as shown in FIG. 9, the divided pattern obtained first is a pattern in which the edges r 3 and r 8 are deleted. However, since the average side density of this result is clearly smaller than the average side density of the divided pattern obtained by deleting only r 8 , it is meaningless to use this divided pattern as a division candidate.

また、上述のユーザが指定したパラメータによる分割パターン数削減方式では、適切なパラメータの値がいくつであるかは事前に算出することができないという問題もある。以上を解決して、単語クラス作成に適した分割パターンを自動的に無駄なく算出する方式として、本実施の形態では連結成分という概念を用いて分割する方式を考案し採用している。以下、この方式について、図10〜図16を用いて説明する。   In addition, in the above-described division pattern number reduction method using parameters specified by the user, there is a problem in that it is impossible to calculate in advance how many appropriate parameter values there are. In the present embodiment, a method of dividing using the concept of connected components is devised and adopted as a method of solving the above and automatically calculating a division pattern suitable for word class creation without waste. Hereinafter, this method will be described with reference to FIGS.

図10は、実施の形態におけるグラフを構成するエッジとその際に連結成分数を表にしたものである。ここで、連結成分数とは、この表の順(類似度の高いものから低いものへの順)に従って用語組をグラフに作成していく時に、そのエッジを追加した時に連結グラフが何個できているかを表している。例えば、最初のr1を追加した場合のグラフは「SAN−LAX」という1つのみであるので、この値は「1」となる。 FIG. 10 is a table showing the edges constituting the graph in the embodiment and the number of connected components at that time. Here, the number of connected components refers to the number of connected graphs when an edge is added when creating a term group in a graph according to the order of this table (from the highest similarity to the lowest). It represents whether or not. For example, since the graph when the first r 1 is added is only one graph “SAN-LAX”, this value is “1”.

次にこのグラフにr2を追加しても、グラフは「LAX−SAN−JFK」という一つの連結グラフのみであるので連結成分数は変わらない。しかし、その次のr3を追加した場合、このエッジは元のグラフには接続しないので、連結成分数は「2」となる。このように連結成分数を算出し、連結成分数が減少するエッジ
に着目する。
Next, even if r 2 is added to this graph, the number of connected components does not change because the graph is only one connected graph “LAX-SAN-JFK”. However, when the next r 3 is added, this edge is not connected to the original graph, so the number of connected components is “2”. In this way, the number of connected components is calculated, and attention is paid to edges at which the number of connected components decreases.

本例においては、r7,r10のみが相当し、例えば、r7は2つのグラフ「PLT−CAPT−PAX」とグラフ「ACFT−SMA」を接続するので、連結成分数は減少する。次に着目したr7以降のエッジにおいて、上記2つのグラフを連結するものは、r11、r12であるので、元々のグラフからこの3つのエッジを除いてできる2分割パターン(図11)を第一の分割候補にする。同様な処理をr10に対しても行なうことで第二の分割パターン(図12)を得ることができる。 In this example, only r 7 and r 10 correspond, and for example, r 7 connects two graphs “PLT-CAPT-PAX” and graph “ACFT-SMA”, so the number of connected components decreases. Next, r 11 and r 12 connect the above two graphs at the edge after r 7 of interest. Therefore, a two-division pattern (FIG. 11) formed by removing these three edges from the original graph. Make it the first division candidate. Similar processing can be obtained a second division pattern may be made to the r 10 (FIG. 12).

(b)算出された各グラフ2分割パターンにおける平均エッジ密度を算出する。 平均エッジ密度とは、作成した2つの連結部分グラフのエッジ密度の平均である。また、グラフのエッジ密度は、そのグラフのノード数をN、エッジ数をE とすると以下の式で定義される(ノード数が「1」の時のエッジ密度を「0」 とする)。 (B) The average edge density in each calculated graph two-division pattern is calculated. The average edge density is the average of the edge densities of the two connected subgraphs created. Further, the edge density of a graph is defined by the following equation where the number of nodes in the graph is N and the number of edges is E (the edge density when the number of nodes is “1” is “0”).

グラフのエッジ密度=2E/N(N−1)   Edge density of graph = 2E / N (N-1)

例えば、2分割パターンの候補は図11,12に記載された2つであるが、図11の分割パターンにおける平均エッジ密度は、ノード数「7」、エッジ数「8」のグラフと、ノード数「2」、エッジ数「1」のグラフの辺密度の平均値であるので、(8/21+1)/2=29/42=0.690となる。同様に図12に示した分割パターンにおける平均エッジ密度は0.633と算出される。   For example, the two-division pattern candidates are the two described in FIGS. 11 and 12, but the average edge density in the division pattern of FIG. 11 is the graph of the number of nodes “7”, the number of edges “8”, and the number of nodes. Since it is the average value of the side densities of the graph of “2” and the number of edges “1”, (8/21 + 1) /2=29/42=0.690. Similarly, the average edge density in the division pattern shown in FIG. 12 is calculated as 0.633.

(c)前記平均エッジ密度が最大となる分割パターン、及びその時の平均エッジ密度を算出する。本例では、図11の分割パターンが相当する。 (C) The division pattern that maximizes the average edge density and the average edge density at that time are calculated. In this example, the division pattern of FIG. 11 corresponds.

(d)前ステップで算出した平均エッジ密度の最大値が、分割前の連結部分グラフのエッジ密度より大きい場合、グラフはその分割パターンに分割される。
本例では、元々のグラフのエッジ密度は0.333であるので、図11に示されるパターンに分割されることになる。
(D) When the maximum value of the average edge density calculated in the previous step is larger than the edge density of the connected partial graph before division, the graph is divided into the division patterns.
In this example, since the edge density of the original graph is 0.333, it is divided into the pattern shown in FIG.

なお、分割された2つの連結部分グラフに対しても、この分割処理を適用していき、全ての連結部分グラフが分割されなくなるまで処理を繰り返す。本例では最初に図11に示された分割が行なわれるが、この結果作成した図11中のノード数「7」のグラフに対してさらに分割が行なわれ、図13に示されたグラフを得ることになる。また、この3つのグラフは、このエッジ密度より大きい平均エッジ密度を持つ分割パターンは存在しないため、これ以上分割は行なわれない。   Note that this division process is also applied to the two divided connected subgraphs, and the process is repeated until all the connected subgraphs are not divided. In this example, the division shown in FIG. 11 is first performed. Further, the resulting graph having the number of nodes “7” in FIG. 11 is further divided to obtain the graph shown in FIG. It will be. Further, since these three graphs do not have a division pattern having an average edge density larger than the edge density, no further division is performed.

なお、本実施の形態においては、分割判定にエッジ密度を用いたが、類似度を重みとする重みつきのエッジ密度を用いてもよい。また、平均エッジ密度の算出の際にも、2つのグラフのエッジ密度の平均を、ノード数で重み付けを行なった重みつき平均とすることも可能である。   In the present embodiment, edge density is used for division determination. However, weighted edge density with similarity as a weight may be used. Also, when calculating the average edge density, the average of the edge densities of the two graphs can be a weighted average obtained by weighting the number of nodes.

図14〜図16は上述したグラフ分割処理の動作をフローチャートで示したものである。   14 to 16 are flowcharts showing the operation of the above-described graph dividing process.

まず、図14に示される連結エッジ取得動作のフローチャートでは、構成エッジのソートを行い(ステップS401)、エッジがある場合(ステップS402,yes)はソート順にエッジを追加し(ステップS403)、連結成分数が減少する場合は(ステップS404,yes)、その際のエッジ及び連結される2つのグラフをメモリに格納し(ステップS405)、次のエッジを取得して(ステップS406)、ステップS402に戻る。この動作はエッジがなくなることを条件に(ステップS402,no)終了する。   First, in the flowchart of the connected edge acquisition operation shown in FIG. 14, the constituent edges are sorted (step S401), and when there is an edge (step S402, yes), the edges are added in the sort order (step S403), and the connected component When the number decreases (step S404, yes), the edge at that time and the two graphs to be connected are stored in the memory (step S405), the next edge is acquired (step S406), and the process returns to step S402. . This operation ends on the condition that there is no edge (step S402, no).

次に、図15に示される分割パターンの取得動作のフローチャートでは、連結エッジがある場合は(ステップS411,yes)、構成エッジのソートが行われ(ステップS412)、エッジがある場合は(ステップS413,yes)、そのエッジにより対応する2つのグラフが連結するか否かが判断され(ステップS416)、連結しない場合は(ステップS416,no)、そのエッジが追加されて(ステップS417)、次のエッジが取得され(ステップS418)、ステップS417に戻る。   Next, in the flowchart of the division pattern acquisition operation shown in FIG. 15, when there is a connected edge (step S411, yes), the constituent edges are sorted (step S412), and when there is an edge (step S413). , Yes), it is determined whether or not the corresponding two graphs are connected by the edge (step S416). If not connected (step S416, no), the edge is added (step S417), and the next An edge is acquired (step S418), and the process returns to step S417.

エッジが無い場合は(ステップS413,no)、分割パターンの取得が行われ(ステップS414)、次の連結エッジの取得が行われて(ステップS415)ステップS411に戻る。   If there is no edge (step S413, no), the division pattern is acquired (step S414), the next connected edge is acquired (step S415), and the process returns to step S411.

そして、図16に示すグラフ分割処理動作のフローチャートでは、図14及び図15を経て取得されるグラフ2分割パターンを抽出し(ステップS41)、その全ての分割パターンにおいて(ステップS42、S46)、平均エッジ密度を算出し(ステップS43)、現時点の最大値であれば(ステップS44,yes)、その最大値とそのときの2つの連結部分グラフをメモリに格納(ステップS45)する。全ての分割パターンについての上記チェックが終了すると(ステップS42,yes)、最大平均エッジ密度が分割前のエッジ密度よりも大きいか否かを判断し(ステップS47)、大きくない場合は処理を終了するが(ステップS49)、大きい場合(ステップS47,yes)はメモリに格納された2つの連結部分グラフに分割し(ステップS48)、その後分割されたそれぞれの連結部分グラフに対して、再度分割処理を再帰的に行う(ステップS41)。   Then, in the flowchart of the graph division processing operation shown in FIG. 16, the graph two-division pattern obtained through FIGS. 14 and 15 is extracted (step S41), and all the division patterns (steps S42 and S46) are averaged. The edge density is calculated (step S43), and if it is the current maximum value (step S44, yes), the maximum value and the two connected subgraphs at that time are stored in the memory (step S45). When the above check for all the divided patterns is completed (step S42, yes), it is determined whether or not the maximum average edge density is higher than the edge density before the division (step S47). If (step S49) is larger (step S47, yes), the data is divided into two connected subgraphs stored in the memory (step S48), and then the divided processing is performed again on each of the divided connected subgraphs. This is performed recursively (step S41).

[出力ステップ]
前ステップによって作成されたグラフ(図13)の各連結部分グラフを構成する用語を各々一つの単語クラスとみなして、ユーザに出力する。この処理はモニタなどの出力デバイスを用いることで容易に実現可能である。また、適切なユーザインターフェースを設けて出力結果をユーザが簡単に修正可能としたり、逆に出力結果をユーザに提示せずに直接知識としてDBに格納してもよい。
[Output step]
Terms constituting each connected subgraph of the graph created in the previous step (FIG. 13) are regarded as one word class and output to the user. This process can be easily realized by using an output device such as a monitor. In addition, an appropriate user interface may be provided so that the user can easily correct the output result, or conversely, the output result may be stored directly in the DB as knowledge without being presented to the user.

本例において作成した3つのグループは、各々空港名(JFK,LAX,OAK,SAN)、乗客・乗員(CAPT,PAX,PLT)、航空機(ACFT,SMA)を表す用語であり、誤りなく単語クラスを作成できることが明白となった。   The three groups created in this example are terms representing airport names (JFK, LAX, OAK, SAN), passengers / passengers (CAPT, PAX, PLT), and aircraft (ACFT, SMA). It became clear that we could create

上述した本発明の実施の形態において、各フローチャートに示したステップを単語クラス作成プログラムとして、コンピュータにより読取り可能な記録媒体に記憶させることによって、当該単語クラス作成をコンピュータに実行させることが可能となる。なお、本発明において、上記コンピュータにより読取り可能な記録媒体は、CD−ROMやフレキシブルディスク、DVDディスク、光磁気ディスク、ICカード等の可搬型記憶媒体や、コンピュータプログラムを保持するデータベース、或いは、他のコンピュータ並びにそのデータベースや、更に回線上の伝送媒体をも含むものである。   In the embodiment of the present invention described above, the steps shown in the respective flowcharts are stored as a word class creation program in a computer-readable recording medium, whereby the computer can execute the word class creation. . In the present invention, the computer-readable recording medium is a portable storage medium such as a CD-ROM, a flexible disk, a DVD disk, a magneto-optical disk, an IC card, a database holding a computer program, or other Computer and its database, and also a transmission medium on a line.

以上に詳述した本発明の実施の形態によれば、対象文書に応じて、適切な同クラス単語のグループを作成することが明らかとなる。例えば、航空インシデントレポートを対象として、3つの単語クラス(航空機を表す略語、人を表す単語、地名や空港を表す略語)に属する単語を各々10個ずつ合計30個に対して本発明の手法に基づいてグループを作成した所、5つのグループが作成されたが、各々のグループには全く誤りを含んでいなかった(図17)。一方、従来手法では、最も良い結果が出るパラメータ下においても、8個以上の用語が誤ったグループに含まれるという結果が得られた。
(付記1) 単語クラスの作成をコンピュータに実行させる単語クラス作成プログラムであって、
抽出対象とする用語を文書中から抽出する用語抽出ステップと、
抽出された用語間の組合せに関して類似度を算出する類似度算出ステップと、
算出された類似度に基づいて、二つの用語からなる用語組の選別を行なう用語組選別ステップと、
選別された全ての用語組について、各用語をノードとし、組関係をエッジで表して各ノードをエッジで連結していくことによりグラフを作成するグラフ作成ステップと、
作成されたグラフにおける所定のエッジを切断することによりグラフの2分割パターンの候補を抽出すると共に、抽出された2分割パターンの各候補に対して、2つのグラフそれぞれを構成するエッジについての平均エッジ密度を算出し、その値が最大となる2分割パターンに対し、該平均エッジ密度が分割前のグラフの平均エッジ密度より大きくなることを条件に、該2分割パターンについてグラフを分割する分割ステップと、
分割されたグラフに対して前記条件を満たす限り前記分割ステップを再帰的に繰り返すと共に、条件を満たさなくなった場合に、分割結果における複数のグラフそれぞれの構成ノードにおける用語を同クラス用語グループとして抽出する同クラス用語抽出ステップと
をコンピュータに実行させる単語クラス作成プログラム。
(付記2) 付記1記載の単語クラス作成プログラムにおいて、
前記類似度算出ステップは、抽出対象とする文書中の特定範囲の単語列を抽出する単語列抽出ステップと、
前記抽出された特定範囲の単語列に含まれる部分単語または部分単語列を対象用語として抽出する対象用語抽出ステップと、
前記抽出された対象用語の二つの用語である第1、第2の用語において、前記特定範囲の単語列中の第1の用語を含む単語列の集合において、各々の単語列中の第1の用語を第2の用語に置換して作成した単語列の集合と、前記特定範囲の単語列の集合との交わりの数とに基づいて類似度を演算する類似度演算ステップを含むことを特徴とする単語クラス作成プログラム。
(付記3) 付記1または付記2に記載の単語クラス作成プログラムにおいて、
前記分割ステップは、前記2分割パターンの候補を抽出する際に、指定された閾値以下のエッジを削除することで分割されるもののみを2分割の候補とすることを特徴とする単語クラス作成プログラム。
(付記4) 付記1または付記2に記載の単語クラス作成プログラムにおいて、
前記分割ステップは、前記2分割パターンの候補を抽出する際に、削除するエッジに対応する類似度の合計が指定された閾値を越えないもののみを2分割の候補とすることを特徴とする単語クラス作成プログラム。
(付記5) 付記1または付記2に記載の単語クラス作成プログラムにおいて、
前記分割ステップは、前記2分割パターンの候補を抽出する際に、前記用語組選別ステップにより選別された全ての用語組を類似度順にソートし、類似度の高い順にグラフを作成していく過程において、ある用語組をグラフに加えることにより、それまで連結されていなかった2つのグラフを連結することとなる場合に、該用語組を加えることにより連結される2つのグラフを連結することとなる全ての用語組を除いた用語組で作成された前記2つのグラフを分割候補とすることを特徴とする単語クラス作成プログラム。
(付記6) 単語クラスの作成を行う単語クラス作成装置であって、
抽出対象とする用語を文書中から抽出する用語抽出部と、
抽出された用語間の組合せに関して類似度を算出する類似度算出部と、
算出された類似度に基づいて、二つの用語からなる用語組の選別を行なう用語組選別部と、
選別された全ての用語組について、各用語をノードとし、組関係をエッジで表して各ノードをエッジで連結していくことによりグラフを作成するグラフ作成部と、
作成されたグラフにおける所定のエッジを切断することによりグラフの2分割パターンの候補を抽出すると共に、抽出された2分割パターンの各候補に対して、2つのグラフそれぞれを構成するエッジについての平均エッジ密度を算出し、その値が最大となる2分割パターンに対し、該平均エッジ密度が分割前のグラフの平均エッジ密度より大きくなることを条件に、該2分割パターンについてグラフを分割する分割部と、
分割されたグラフに対して前記条件を満たす限り前記分割部による分割を再帰的に繰り返すと共に、条件を満たさなくなった場合に、分割結果における複数のグラフそれぞれの構成ノードにおける用語を同クラス用語グループとして抽出する同クラス用語抽出部と
を備える単語クラス作成装置。
(付記7) 付記6記載の単語クラス作成装置において、
前記類似度算出部は、抽出対象とする文書中の特定範囲の単語列を抽出する単語列抽出部と、
前記抽出された特定範囲の単語列に含まれる部分単語または部分単語列を対象用語として抽出する対象用語抽出部と、
前記抽出された対象用語の二つの用語である第1、第2の用語において、前記特定範囲の単語列中の第1の用語を含む単語列の集合において、各々の単語列中の第1の用語を第2の用語に置換して作成した単語列の集合と、前記特定範囲の単語列の集合との交わりの数とに基づいて類似度を演算する類似度演算部を有することを特徴とする単語クラス作成装置。
(付記8) 付記6または付記7に記載の単語クラス作成装置において、
前記分割部は、前記2分割パターンの候補を抽出する際に、指定された閾値以下のエッジを削除することで分割されるもののみを2分割の候補とすることを特徴とする単語クラス作成装置。
(付記9) 付記6または付記7に記載の単語クラス作成装置において、
前記分割部は、前記2分割パターンの候補を抽出する際に、削除するエッジに対応する類似度の合計が指定された閾値を越えないもののみを2分割の候補とすることを特徴とする単語クラス作成装置。
(付記10) 付記6または付記7に記載の単語クラス作成装置において、
前記分割部は、前記2分割パターンの候補を抽出する際に、前記用語組選別部により選別された全ての用語組を類似度順にソートし、類似度の高い順にグラフを作成していく過程において、ある用語組をグラフに加えることにより、それまで連結されていなかった2つのグラフを連結することとなる場合に、該用語組を加えることにより連結される2つのグラフを連結することとなる全ての用語組を除いた用語組で作成された前記2つのグラフを分割候補とすることを特徴とする単語クラス作成装置。
(付記11) 単語クラス作成装置により行われる単語クラス作成方法であって、
抽出対象とする用語を文書中から抽出する用語抽出ステップと、
抽出された用語間の組合せに関して類似度を算出する類似度算出ステップと、
算出された類似度に基づいて、二つの用語からなる用語組の選別を行なう用語組選別ステップと、
選別された全ての用語組について、各用語をノードとし、組関係をエッジで表して各ノードをエッジで連結していくことによりグラフを作成するグラフ作成ステップと、
作成されたグラフにおける所定のエッジを切断することによりグラフの2分割パターンの候補を抽出すると共に、抽出された2分割パターンの各候補に対して、2つのグラフそれぞれを構成するエッジについての平均エッジ密度を算出し、その値が最大となる2分割パターンに対し、該平均エッジ密度が分割前のグラフの平均エッジ密度より大きくなることを条件に、該2分割パターンについてグラフを分割する分割ステップと、
分割されたグラフに対して前記条件を満たす限り前記分割ステップを再帰的に繰り返すと共に、条件を満たさなくなった場合に、分割結果における複数のグラフそれぞれの構成ノードにおける用語を同クラス用語グループとして抽出する同クラス用語抽出ステップと
を備える単語クラス作成方法。
(付記12) 付記11記載の単語クラス作成方法において、
前記類似度算出ステップは、抽出対象とする文書中の特定範囲の単語列を抽出する単語列抽出ステップと、
前記抽出された特定範囲の単語列に含まれる部分単語または部分単語列を対象用語として抽出する対象用語抽出ステップと、
前記抽出された対象用語の二つの用語である第1、第2の用語において、前記特定範囲の単語列中の第1の用語を含む単語列の集合において、各々の単語列中の第1の用語を第2の用語に置換して作成した単語列の集合と、前記特定範囲の単語列の集合との交わりの数とに基づいて類似度を演算する類似度演算ステップを含むことを特徴とする単語クラス作成方法。
(付記13) 付記11または付記12に記載の単語クラス作成方法において、
前記分割ステップは、前記2分割パターンの候補を抽出する際に、指定された閾値以下のエッジを削除することで分割されるもののみを2分割の候補とすることを特徴とする単語クラス作成方法。
(付記14) 付記11または付記12に記載の単語クラス作成方法において、
前記分割ステップは、前記2分割パターンの候補を抽出する際に、削除するエッジに対応する類似度の合計が指定された閾値を越えないもののみを2分割の候補とすることを特徴とする単語クラス作成方法。
(付記15) 付記11または付記12に記載の単語クラス作成方法において、
前記分割ステップは、前記2分割パターンの候補を抽出する際に、前記用語組選別ステップにより選別された全ての用語組を類似度順にソートし、類似度の高い順にグラフを作成していく過程において、ある用語組をグラフに加えることにより、それまで連結されていなかった2つのグラフを連結することとなる場合に、該用語組を加えることにより連結される2つのグラフを連結することとなる全ての用語組を除いた用語組で作成された前記2つのグラフを分割候補とすることを特徴とする単語クラス作成方法。
(付記16) 文書中に含まれる用語間の類似度をコンピュータにより算出させる類似度算出プログラムであって、
抽出対象とする文書中の特定範囲の単語列を抽出する単語列抽出ステップと、
前記抽出された特定範囲の単語列に含まれる部分単語または部分単語列を対象用語として抽出する対象用語抽出ステップと、
前記抽出された対象用語の二つの用語である第1、第2の用語において、前記特定範囲の単語列中の第1の用語を含む単語列の集合において、各々の単語列中の第1の用語を第2の用語に置換して作成した単語列の集合と、前記特定範囲の単語列の集合との交わりの数とに基づいて類似度を演算する類似度演算ステップと
をコンピュータに実行させることを特徴とする類似度算出プログラム。
(付記17) 文書中に含まれる用語間の類似度を算出する類似度算出装置であって、
抽出対象とする文書中の特定範囲の単語列を抽出する単語列抽出部と、
前記抽出された特定範囲の単語列に含まれる部分単語または部分単語列を対象用語として抽出する対象用語抽出部と、
前記抽出された対象用語の二つの用語である第1、第2の用語において、前記特定範囲の単語列中の第1の用語を含む単語列の集合において、各々の単語列中の第1の用語を第2の用語に置換して作成した単語列の集合と、前記特定範囲の単語列の集合との交わりの数とに基づいて類似度を演算する類似度演算部と
を備える類似度算出装置。
(付記18) 文書中に含まれる用語間の類似度を算出する類似度算出方法であって、
抽出対象とする文書中の特定範囲の単語列を抽出する単語列抽出ステップと、
前記抽出された特定範囲の単語列に含まれる部分単語または部分単語列を対象用語として抽出する対象用語抽出ステップと、
前記抽出された対象用語の二つの用語である第1、第2の用語において、前記特定範囲の単語列中の第1の用語を含む単語列の集合において、各々の単語列中の第1の用語を第2の用語に置換して作成した単語列の集合と、前記特定範囲の単語列の集合との交わりの数とに基づいて類似度を演算する類似度演算ステップと
を備える類似度算出方法。
According to the embodiment of the present invention described in detail above, it is clear that an appropriate group of same-class words is created according to the target document. For example, for the aviation incident report, the method of the present invention is applied to a total of 30 words belonging to three word classes (abbreviations representing aircraft, words representing people, abbreviations representing place names and airports). When a group was created based on the results, five groups were created, but each group contained no errors (FIG. 17). On the other hand, in the conventional method, the result that 8 or more terms are included in the wrong group is obtained even under the parameter that gives the best result.
(Supplementary note 1) A word class creation program for causing a computer to create a word class,
A term extraction step for extracting terms to be extracted from the document;
A similarity calculation step for calculating a similarity for the combination of extracted terms;
A term set selection step for selecting a set of terms consisting of two terms based on the calculated similarity;
A graph creation step for creating a graph by connecting each node with an edge with each term as a node, representing the pair relationship with the edge, for all the selected term groups,
By extracting predetermined edges in the created graph, candidates for the two-divided pattern of the graph are extracted, and for each extracted candidate for the two-divided pattern, an average edge for the edges constituting each of the two graphs A division step for dividing the graph with respect to the two-division pattern on the condition that the density is calculated and the average edge density is larger than the average edge density of the graph before division for the two-division pattern having the maximum value; ,
The division step is recursively repeated as long as the condition is satisfied for the divided graph, and when the condition is not satisfied, the terms in the constituent nodes of each of the plurality of graphs in the division result are extracted as the same class term group. A word class creation program that causes a computer to execute the class term extraction step.
(Appendix 2) In the word class creation program described in Appendix 1,
The similarity calculation step includes a word string extraction step of extracting a specific range of word strings in the document to be extracted;
A target term extraction step for extracting a partial word or a partial word sequence included in the extracted word string of the specific range as a target term;
In the first and second terms that are the two terms of the extracted target terms, in the set of word sequences including the first term in the word sequence in the specific range, the first in each word sequence A similarity calculation step of calculating a similarity based on a set of word strings created by replacing a term with a second term and the number of intersections with the set of word strings in the specific range; Word class creation program.
(Appendix 3) In the word class creation program described in Appendix 1 or Appendix 2,
In the division step, a word class creation program characterized in that, when extracting a candidate for the two-division pattern, only those that are divided by deleting edges that are equal to or less than a specified threshold value are candidates for division into two. .
(Appendix 4) In the word class creation program described in appendix 1 or appendix 2,
In the division step, when extracting the candidate for the two-divided pattern, only words whose total similarity corresponding to the edge to be deleted does not exceed a specified threshold value are candidates for division into two. Class creation program.
(Appendix 5) In the word class creation program described in Appendix 1 or Appendix 2,
The division step sorts all the term sets selected by the term set selection step in order of similarity when extracting the two-division pattern candidates, and creates a graph in descending order of similarity. When adding a term set to a graph to connect two previously unconnected graphs, all of the two graphs connected by adding the term set are connected. A word class creation program, characterized in that the two graphs created with a term set excluding the term set are used as division candidates.
(Appendix 6) A word class creation device for creating a word class,
A term extraction unit that extracts terms to be extracted from the document;
A similarity calculation unit that calculates a similarity with respect to combinations between extracted terms;
A term group selector for selecting a term group consisting of two terms based on the calculated similarity;
For all selected term pairs, a graph creation unit that creates a graph by representing each term as a node, representing the pair relationship as an edge, and connecting each node with an edge;
By extracting predetermined edges in the created graph, candidates for the two-divided pattern of the graph are extracted, and for each extracted candidate for the two-divided pattern, an average edge for the edges constituting each of the two graphs A division unit that calculates the density and divides the graph with respect to the two-division pattern on the condition that the average edge density is larger than the average edge density of the graph before the division for the two-division pattern having the maximum value; ,
As long as the conditions for the divided graph are satisfied, the division by the dividing unit is recursively repeated, and when the condition is not satisfied, the terms in the constituent nodes of each of the plurality of graphs in the division result are defined as the same class term group. A word class creation device comprising: the same class term extraction unit for extracting.
(Supplementary note 7) In the word class creation device according to supplementary note 6,
The similarity calculation unit includes a word string extraction unit that extracts a specific range of word strings in a document to be extracted;
A target term extraction unit that extracts a partial word or a partial word sequence included in the extracted word string of the specific range as a target term;
In the first and second terms that are the two terms of the extracted target terms, in the set of word sequences including the first term in the word sequence in the specific range, the first in each word sequence A similarity calculation unit that calculates a similarity based on a set of word strings created by replacing a term with a second term and the number of intersections with the set of word strings in the specific range; Word class creation device.
(Appendix 8) In the word class creation device according to appendix 6 or appendix 7,
The division unit, when extracting candidates for the two-divided pattern, sets only those that are divided by deleting edges below a specified threshold as candidates for dividing into two, .
(Supplementary note 9) In the word class creation device according to supplementary note 6 or supplementary note 7,
The division unit, when extracting the candidate for the two-divided pattern, selects only those whose total similarity corresponding to the edge to be deleted does not exceed the specified threshold as candidates for the two-partition Class creation device.
(Supplementary Note 10) In the word class creation device according to Supplementary Note 6 or Supplementary Note 7,
When the division unit extracts candidates for the two-division pattern, in the process of sorting all the term sets selected by the term set selection unit in order of similarity and creating a graph in descending order of similarity When adding a term set to a graph to connect two previously unconnected graphs, all of the two graphs connected by adding the term set are connected. A word class creation device, characterized in that the two graphs created with a term set excluding the term set are used as division candidates.
(Supplementary Note 11) A word class creation method performed by a word class creation device,
A term extraction step for extracting terms to be extracted from the document;
A similarity calculation step for calculating a similarity for the combination of extracted terms;
A term set selection step for selecting a set of terms consisting of two terms based on the calculated similarity;
A graph creation step for creating a graph by connecting each node with an edge with each term as a node, representing the pair relationship with the edge, for all the selected term groups,
By extracting predetermined edges in the created graph, candidates for the two-divided pattern of the graph are extracted, and for each extracted candidate for the two-divided pattern, an average edge for the edges constituting each of the two graphs A division step for dividing the graph with respect to the two-division pattern on the condition that the density is calculated and the average edge density is larger than the average edge density of the graph before division for the two-division pattern having the maximum value; ,
The division step is recursively repeated as long as the condition is satisfied for the divided graph, and when the condition is not satisfied, the terms in the constituent nodes of each of the plurality of graphs in the division result are extracted as the same class term group. A method for creating a word class, comprising: a class term extraction step.
(Supplementary note 12) In the word class creation method according to supplementary note 11,
The similarity calculation step includes a word string extraction step of extracting a specific range of word strings in the document to be extracted;
A target term extraction step for extracting a partial word or a partial word sequence included in the extracted word string of the specific range as a target term;
In the first and second terms that are the two terms of the extracted target terms, in the set of word sequences including the first term in the word sequence in the specific range, the first in each word sequence A similarity calculation step of calculating a similarity based on a set of word strings created by replacing a term with a second term and the number of intersections with the set of word strings in the specific range; To create a word class.
(Supplementary Note 13) In the word class creation method according to Supplementary Note 11 or Supplementary Note 12,
In the dividing step, when extracting the candidates for the two-divided pattern, only those that are divided by deleting edges that are equal to or less than a specified threshold are set as candidates for dividing into two. .
(Supplementary note 14) In the word class creation method according to supplementary note 11 or supplementary note 12,
In the division step, when extracting the candidate for the two-divided pattern, only words whose total similarity corresponding to the edge to be deleted does not exceed a specified threshold value are candidates for division into two. Class creation method.
(Supplementary Note 15) In the word class creation method according to Supplementary Note 11 or Supplementary Note 12,
The division step sorts all the term sets selected by the term set selection step in order of similarity when extracting the two-division pattern candidates, and creates a graph in descending order of similarity. When adding a term set to a graph to connect two previously unconnected graphs, all of the two graphs connected by adding the term set are connected. A method of creating a word class, characterized in that the two graphs created with a term set excluding the term set in (2) are used as division candidates.
(Supplementary Note 16) A similarity calculation program for causing a computer to calculate the similarity between terms included in a document,
A word string extraction step for extracting a specific range of word strings in the document to be extracted;
A target term extraction step for extracting a partial word or a partial word sequence included in the extracted word string of the specific range as a target term;
In the first and second terms that are the two terms of the extracted target terms, in the set of word sequences including the first term in the word sequence in the specific range, the first in each word sequence Causing a computer to execute a similarity calculation step of calculating a similarity based on a set of word strings created by replacing a term with a second term and the number of intersections with the set of word strings in the specific range A similarity calculation program characterized by that.
(Supplementary Note 17) A similarity calculation device that calculates the similarity between terms included in a document,
A word string extraction unit that extracts a specific range of word strings in a document to be extracted;
A target term extraction unit that extracts a partial word or a partial word sequence included in the extracted word string of the specific range as a target term;
In the first and second terms that are the two terms of the extracted target terms, in the set of word sequences including the first term in the word sequence in the specific range, the first in each word sequence Similarity calculation comprising: a similarity calculation unit that calculates a similarity based on a set of word strings created by replacing a term with a second term and the number of intersections with the set of word strings in the specific range apparatus.
(Supplementary note 18) A similarity calculation method for calculating the similarity between terms included in a document,
A word string extraction step for extracting a specific range of word strings in the document to be extracted;
A target term extraction step for extracting a partial word or a partial word sequence included in the extracted word string of the specific range as a target term;
In the first and second terms that are the two terms of the extracted target terms, in the set of word sequences including the first term in the word sequence in the specific range, the first in each word sequence A similarity calculation step comprising: a similarity calculation step of calculating a similarity based on a set of word strings created by replacing a term with a second term and the number of intersections with the set of word strings in the specific range Method.

本発明の実施の形態を示すブロック図である。It is a block diagram which shows embodiment of this invention. 本発明の実施の形態における全体動作を示すフローチャートである。It is a flowchart which shows the whole operation | movement in embodiment of this invention. 用語の抽出例を示す説明図である。It is explanatory drawing which shows the example of extraction of a term. 類似度算出ステップの動作の一例を示すフローチャートである。It is a flowchart which shows an example of operation | movement of a similarity calculation step. 用語組作成及び選別動作例を示す説明図である。It is explanatory drawing which shows a term group preparation and the example of selection operation | movement. 作成された連結グラフの一例を示す図である。It is a figure which shows an example of the produced connection graph. 分割パターンの取得方法の第1例を示す説明図である。It is explanatory drawing which shows the 1st example of the acquisition method of a division | segmentation pattern. 分割パターンの取得方法の第2例を示す説明図である。It is explanatory drawing which shows the 2nd example of the acquisition method of a division | segmentation pattern. 分割パターンの取得方法の第3例を示す説明図である。It is explanatory drawing which shows the 3rd example of the acquisition method of a division | segmentation pattern. 選別用語組と連結成分数を示す図である。It is a figure which shows a selection term group and the number of connected components. 分割パターンの一例を示す図である。It is a figure which shows an example of a division | segmentation pattern. 分割パターンの他の例を示す図である。It is a figure which shows the other example of a division | segmentation pattern. 分割結果を示す図である。It is a figure which shows a division | segmentation result. 連結エッジの取得動作の一例を示すフローチャートである。It is a flowchart which shows an example of the acquisition operation | movement of a connection edge. 分割パターン取得動作の一例を示すフローチャートである。It is a flowchart which shows an example of a division | segmentation pattern acquisition operation | movement. グラフ分割ステップの動作の一例を示すフローチャートである。It is a flowchart which shows an example of operation | movement of a graph division | segmentation step. 作成された単語グループの一例を示す図である。It is a figure which shows an example of the produced word group.

符号の説明Explanation of symbols

1 用語抽出部、2 類似度算出部、3 用語組選別部、4 グラフ作成部、5 連結グラフ分割部、6 出力部。   1 term extracting unit, 2 similarity calculating unit, 3 term group selecting unit, 4 graph creating unit, 5 connected graph dividing unit, 6 output unit.

Claims (10)

単語クラスの作成をコンピュータに実行させる単語クラス作成プログラムであって、
抽出対象とする用語を文書中から抽出する用語抽出ステップと、
抽出された用語間の組合せに関して類似度を算出する類似度算出ステップと、
算出された類似度に基づいて、二つの用語からなる用語組の選別を行なう用語組選別ステップと、
選別された全ての用語組について、各用語をノードとし、組関係をエッジで表して各ノードをエッジで連結していくことによりグラフを作成するグラフ作成ステップと、
作成されたグラフにおける所定のエッジを切断することによりグラフの2分割パターンの候補を抽出すると共に、抽出された2分割パターンの各候補に対して、2つのグラフそれぞれを構成するエッジについての平均エッジ密度を算出し、その値が最大となる2分割パターンに対し、該平均エッジ密度が分割前のグラフの平均エッジ密度より大きくなることを条件に、該2分割パターンについてグラフを分割する分割ステップと、
分割されたグラフに対して前記条件を満たす限り前記分割ステップを再帰的に繰り返すと共に、条件を満たさなくなった場合に、分割結果における複数のグラフそれぞれの構成ノードにおける用語を同クラス用語グループとして抽出する同クラス用語抽出ステップと
をコンピュータに実行させる単語クラス作成プログラム。
A word class creation program for causing a computer to create a word class,
A term extraction step for extracting terms to be extracted from the document;
A similarity calculation step for calculating a similarity for the combination of extracted terms;
A term set selection step for selecting a set of terms consisting of two terms based on the calculated similarity;
A graph creation step for creating a graph by connecting each node with an edge with each term as a node, representing the pair relationship with the edge, for all the selected term groups,
By extracting predetermined edges in the created graph, candidates for the two-divided pattern of the graph are extracted, and for each extracted candidate for the two-divided pattern, an average edge for the edges constituting each of the two graphs A division step for dividing the graph with respect to the two-division pattern on the condition that the density is calculated and the average edge density is larger than the average edge density of the graph before division for the two-division pattern having the maximum value; ,
The division step is recursively repeated as long as the condition is satisfied for the divided graph, and when the condition is not satisfied, the terms in the constituent nodes of each of the plurality of graphs in the division result are extracted as the same class term group. A word class creation program for causing a computer to execute the class term extraction step.
請求項1記載の単語クラス作成プログラムにおいて、
前記類似度算出ステップは、抽出対象とする文書中の特定範囲の単語列を抽出する単語列抽出ステップと、
前記抽出された特定範囲の単語列に含まれる部分単語または部分単語列を対象用語として抽出する対象用語抽出ステップと、
前記抽出された対象用語の二つの用語である第1、第2の用語において、前記特定範囲の単語列中の第1の用語を含む単語列の集合において、各々の単語列中の第1の用語を第2の用語に置換して作成した単語列の集合と、前記特定範囲の単語列の集合との交わりの数とに基づいて類似度を演算する類似度演算ステップを含むことを特徴とする単語クラス作成プログラム。
In the word class creation program according to claim 1,
The similarity calculation step includes a word string extraction step of extracting a specific range of word strings in the document to be extracted;
A target term extraction step for extracting a partial word or a partial word sequence included in the extracted word string of the specific range as a target term;
In the first and second terms that are the two terms of the extracted target terms, in the set of word sequences including the first term in the word sequence in the specific range, the first in each word sequence A similarity calculation step of calculating a similarity based on a set of word strings created by replacing a term with a second term and the number of intersections with the set of word strings in the specific range; Word class creation program.
請求項1または請求項2に記載の単語クラス作成プログラムにおいて、
前記分割ステップは、前記2分割パターンの候補を抽出する際に、指定された閾値以下のエッジを削除することで分割されるもののみを2分割の候補とすることを特徴とする単語クラス作成プログラム。
In the word class creation program according to claim 1 or 2,
In the division step, a word class creation program characterized in that, when extracting a candidate for the two-division pattern, only those that are divided by deleting edges that are equal to or less than a specified threshold value are candidates for division into two. .
請求項1または請求項2に記載の単語クラス作成プログラムにおいて、
前記分割ステップは、前記2分割パターンの候補を抽出する際に、削除するエッジに対応する類似度の合計が指定された閾値を越えないもののみを2分割の候補とすることを特徴とする単語クラス作成プログラム。
In the word class creation program according to claim 1 or 2,
In the division step, when extracting the candidate for the two-divided pattern, only words whose total similarity corresponding to the edge to be deleted does not exceed a specified threshold value are candidates for division into two. Class creation program.
請求項1または請求項2に記載の単語クラス作成プログラムにおいて、
前記分割ステップは、前記2分割パターンの候補を抽出する際に、前記用語組選別ステップにより選別された全ての用語組を類似度順にソートし、類似度の高い順にグラフを作成していく過程において、ある用語組をグラフに加えることにより、それまで連結されていなかった2つのグラフを連結することとなる場合に、該用語組を加えることにより連結される2つのグラフを連結することとなる全ての用語組を除いた用語組で作成された前記2つのグラフを分割候補とすることを特徴とする単語クラス作成プログラム。
In the word class creation program according to claim 1 or 2,
The division step sorts all the term sets selected by the term set selection step in order of similarity when extracting the two-division pattern candidates, and creates a graph in descending order of similarity. When adding a term set to a graph to connect two previously unconnected graphs, all of the two graphs connected by adding the term set are connected. A word class creation program, characterized in that the two graphs created with a term set excluding the term set are used as division candidates.
単語クラスの作成を行う単語クラス作成装置であって、
抽出対象とする用語を文書中から抽出する用語抽出部と、
抽出された用語間の組合せに関して類似度を算出する類似度算出部と、
算出された類似度に基づいて、二つの用語からなる用語組の選別を行なう用語組選別部と、
選別された全ての用語組について、各用語をノードとし、組関係をエッジで表して各ノードをエッジで連結していくことによりグラフを作成するグラフ作成部と、
作成されたグラフにおける所定のエッジを切断することによりグラフの2分割パターンの候補を抽出すると共に、抽出された2分割パターンの各候補に対して、2つのグラフそれぞれを構成するエッジについての平均エッジ密度を算出し、その値が最大となる2分割パターンに対し、該平均エッジ密度が分割前のグラフの平均エッジ密度より大きくなることを条件に、該2分割パターンについてグラフを分割する分割部と、
分割されたグラフに対して前記条件を満たす限り前記分割部による分割を再帰的に繰り返すと共に、条件を満たさなくなった場合に、分割結果における複数のグラフそれぞれの構成ノードにおける用語を同クラス用語グループとして抽出する同クラス用語抽出部と
を備える単語クラス作成装置。
A word class creation device for creating a word class,
A term extraction unit that extracts terms to be extracted from the document;
A similarity calculation unit that calculates a similarity with respect to combinations between extracted terms;
A term group selector for selecting a term group consisting of two terms based on the calculated similarity;
For all selected term pairs, a graph creation unit that creates a graph by representing each term as a node, representing the pair relationship as an edge, and connecting each node with an edge;
By extracting predetermined edges in the created graph, candidates for the two-divided pattern of the graph are extracted, and for each extracted candidate for the two-divided pattern, an average edge for the edges constituting each of the two graphs A division unit that calculates the density and divides the graph with respect to the two-division pattern on the condition that the average edge density is larger than the average edge density of the graph before the division for the two-division pattern having the maximum value; ,
As long as the conditions for the divided graph are satisfied, the division by the dividing unit is recursively repeated, and when the condition is not satisfied, the terms in the constituent nodes of each of the plurality of graphs in the division result are defined as the same class term group. A word class creation device comprising the same class term extraction unit for extraction.
単語クラス作成装置により行われる単語クラス作成方法であって、
抽出対象とする用語を文書中から抽出する用語抽出ステップと、
抽出された用語間の組合せに関して類似度を算出する類似度算出ステップと、
算出された類似度に基づいて、二つの用語からなる用語組の選別を行なう用語組選別ステップと、
選別された全ての用語組について、各用語をノードとし、組関係をエッジで表して各ノードをエッジで連結していくことによりグラフを作成するグラフ作成ステップと、
作成されたグラフにおける所定のエッジを切断することによりグラフの2分割パターンの候補を抽出すると共に、抽出された2分割パターンの各候補に対して、2つのグラフそれぞれを構成するエッジについての平均エッジ密度を算出し、その値が最大となる2分割パターンに対し、該平均エッジ密度が分割前のグラフの平均エッジ密度より大きくなることを条件に、該2分割パターンについてグラフを分割する分割ステップと、
分割されたグラフに対して前記条件を満たす限り前記分割ステップを再帰的に繰り返すと共に、条件を満たさなくなった場合に、分割結果における複数のグラフそれぞれの構成ノードにおける用語を同クラス用語グループとして抽出する同クラス用語抽出ステップと
を備える単語クラス作成方法。
A word class creation method performed by a word class creation device,
A term extraction step for extracting terms to be extracted from the document;
A similarity calculation step for calculating a similarity for the combination of extracted terms;
A term set selection step for selecting a set of terms consisting of two terms based on the calculated similarity;
A graph creation step for creating a graph by connecting each node with an edge with each term as a node, representing the pair relationship with the edge, for all the selected term groups,
By extracting predetermined edges in the created graph, candidates for the two-divided pattern of the graph are extracted, and for each extracted candidate for the two-divided pattern, an average edge for the edges constituting each of the two graphs A division step for dividing the graph with respect to the two-division pattern on the condition that the density is calculated and the average edge density is larger than the average edge density of the graph before division for the two-division pattern having the maximum value; ,
The division step is recursively repeated as long as the condition is satisfied for the divided graph, and when the condition is not satisfied, the terms in the constituent nodes of each of the plurality of graphs in the division result are extracted as the same class term group. A word class creation method comprising the same class term extraction step.
文書中に含まれる用語間の類似度をコンピュータにより算出させる類似度算出プログラムであって、
抽出対象とする文書中の特定範囲の単語列を抽出する単語列抽出ステップと、
前記抽出された特定範囲の単語列に含まれる部分単語または部分単語列を対象用語として抽出する対象用語抽出ステップと、
前記抽出された対象用語の二つの用語である第1、第2の用語において、前記特定範囲の単語列中の第1の用語を含む単語列の集合において、各々の単語列中の第1の用語を第2の用語に置換して作成した単語列の集合と、前記特定範囲の単語列の集合との交わりの数とに基づいて類似度を演算する類似度演算ステップと
をコンピュータに実行させることを特徴とする類似度算出プログラム。
A similarity calculation program for calculating the similarity between terms included in a document by a computer,
A word string extraction step for extracting a specific range of word strings in the document to be extracted;
A target term extraction step for extracting a partial word or a partial word sequence included in the extracted word string of the specific range as a target term;
In the first and second terms that are the two terms of the extracted target terms, in the set of word sequences including the first term in the word sequence in the specific range, the first in each word sequence Causing a computer to execute a similarity calculation step of calculating a similarity based on a set of word strings created by replacing a term with a second term and the number of intersections with the set of word strings in the specific range A similarity calculation program characterized by that.
文書中に含まれる用語間の類似度を算出する類似度算出装置であって、
抽出対象とする文書中の特定範囲の単語列を抽出する単語列抽出部と、
前記抽出された特定範囲の単語列に含まれる部分単語または部分単語列を対象用語として抽出する対象用語抽出部と、
前記抽出された対象用語の二つの用語である第1、第2の用語において、前記特定範囲の単語列中の第1の用語を含む単語列の集合において、各々の単語列中の第1の用語を第2の用語に置換して作成した単語列の集合と、前記特定範囲の単語列の集合との交わりの数とに基づいて類似度を演算する類似度演算部と
を備える類似度算出装置。
A similarity calculation device for calculating a similarity between terms included in a document,
A word string extraction unit that extracts a specific range of word strings in a document to be extracted;
A target term extraction unit that extracts a partial word or a partial word sequence included in the extracted word string of the specific range as a target term;
In the first and second terms that are the two terms of the extracted target terms, in the set of word sequences including the first term in the word sequence in the specific range, the first in each word sequence Similarity calculation comprising: a similarity calculation unit that calculates a similarity based on a set of word strings created by replacing a term with a second term and the number of intersections with the set of word strings in the specific range apparatus.
文書中に含まれる用語間の類似度を算出する類似度算出方法であって、
抽出対象とする文書中の特定範囲の単語列を抽出する単語列抽出ステップと、
前記抽出された特定範囲の単語列に含まれる部分単語または部分単語列を対象用語として抽出する対象用語抽出ステップと、
前記抽出された対象用語の二つの用語である第1、第2の用語において、前記特定範囲の単語列中の第1の用語を含む単語列の集合において、各々の単語列中の第1の用語を第2の用語に置換して作成した単語列の集合と、前記特定範囲の単語列の集合との交わりの数とに基づいて類似度を演算する類似度演算ステップと
を備える類似度算出方法。
A similarity calculation method for calculating the similarity between terms contained in a document,
A word string extraction step for extracting a specific range of word strings in the document to be extracted;
A target term extraction step for extracting a partial word or a partial word sequence included in the extracted word string of the specific range as a target term;
In the first and second terms that are the two terms of the extracted target terms, in the set of word sequences including the first term in the word sequence in the specific range, the first in each word sequence A similarity calculation step comprising: a similarity calculation step of calculating a similarity based on a set of word strings created by replacing a term with a second term and the number of intersections with the set of word strings in the specific range Method.
JP2005321841A 2005-11-07 2005-11-07 Word class creation program, word class creation apparatus, and word class creation method; and similarity calculation program, similarity calculation apparatus, and similarity calculation method Withdrawn JP2007128389A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005321841A JP2007128389A (en) 2005-11-07 2005-11-07 Word class creation program, word class creation apparatus, and word class creation method; and similarity calculation program, similarity calculation apparatus, and similarity calculation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005321841A JP2007128389A (en) 2005-11-07 2005-11-07 Word class creation program, word class creation apparatus, and word class creation method; and similarity calculation program, similarity calculation apparatus, and similarity calculation method

Publications (1)

Publication Number Publication Date
JP2007128389A true JP2007128389A (en) 2007-05-24

Family

ID=38150977

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005321841A Withdrawn JP2007128389A (en) 2005-11-07 2005-11-07 Word class creation program, word class creation apparatus, and word class creation method; and similarity calculation program, similarity calculation apparatus, and similarity calculation method

Country Status (1)

Country Link
JP (1) JP2007128389A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009128949A (en) * 2007-11-19 2009-06-11 Fuji Xerox Co Ltd Graphic display device and program
US8538169B2 (en) 2010-04-30 2013-09-17 International Business Machines Corporation Method, program, and system for calculating similarity between nodes in graph
US8682641B2 (en) 2011-03-08 2014-03-25 International Business Machines Corporation Method, program and system for finding correspondence between terms
US8812504B2 (en) 2010-09-28 2014-08-19 Kabushiki Kaisha Toshiba Keyword presentation apparatus and method
KR20150079370A (en) * 2013-12-27 2015-07-08 경희대학교 산학협력단 Method for predicting link in big database
JP2019508814A (en) * 2016-02-29 2019-03-28 アリババ グループ ホウルディング リミテッド Application classification method and apparatus
KR102199704B1 (en) * 2020-06-26 2021-01-08 주식회사 이스트시큐리티 An apparatus for selecting a representative token from the detection names of multiple vaccines, a method therefor, and a computer recordable medium storing program to perform the method

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009128949A (en) * 2007-11-19 2009-06-11 Fuji Xerox Co Ltd Graphic display device and program
US8538169B2 (en) 2010-04-30 2013-09-17 International Business Machines Corporation Method, program, and system for calculating similarity between nodes in graph
US8812504B2 (en) 2010-09-28 2014-08-19 Kabushiki Kaisha Toshiba Keyword presentation apparatus and method
US8682641B2 (en) 2011-03-08 2014-03-25 International Business Machines Corporation Method, program and system for finding correspondence between terms
KR20150079370A (en) * 2013-12-27 2015-07-08 경희대학교 산학협력단 Method for predicting link in big database
KR101591595B1 (en) 2013-12-27 2016-02-19 경희대학교 산학협력단 Method for predicting link in big database
JP2019508814A (en) * 2016-02-29 2019-03-28 アリババ グループ ホウルディング リミテッド Application classification method and apparatus
KR102199704B1 (en) * 2020-06-26 2021-01-08 주식회사 이스트시큐리티 An apparatus for selecting a representative token from the detection names of multiple vaccines, a method therefor, and a computer recordable medium storing program to perform the method

Similar Documents

Publication Publication Date Title
CN106021272B (en) The keyword extraction method calculated based on distributed expression term vector
KR100756921B1 (en) Method of classifying documents, computer readable record medium on which program for executing the method is recorded
US8341159B2 (en) Creating taxonomies and training data for document categorization
US7028250B2 (en) System and method for automatically classifying text
JP5216063B2 (en) Method and apparatus for determining categories of unregistered words
JP2007128389A (en) Word class creation program, word class creation apparatus, and word class creation method; and similarity calculation program, similarity calculation apparatus, and similarity calculation method
CN109508460B (en) Unsupervised composition running question detection method and unsupervised composition running question detection system based on topic clustering
CN108681574A (en) A kind of non-true class quiz answers selection method and system based on text snippet
US8812504B2 (en) Keyword presentation apparatus and method
WO2009154570A1 (en) System and method for aligning and indexing multilingual documents
Alami et al. Arabic text summarization based on graph theory
KR101070371B1 (en) Apparatus and Method for Words Sense Disambiguation Using Korean WordNet and its program stored recording medium
CN107168953A (en) The new word discovery method and system that word-based vector is characterized in mass text
Gopan et al. Comparative study on different approaches in keyword extraction
RU2254610C2 (en) Method for automated classification of documents
JP4979637B2 (en) Compound word break estimation device, method, and program for estimating compound word break position
JP2006330935A (en) Program, method, and system for learning data preparation
JP6135866B2 (en) Synonym identification device, method, and program
Terada et al. Automatic expansion of abbreviations by using context and character information
Pai Text summarizer using abstractive and extractive method
El-Barbary Arabic news classification using field association words
JP3889010B2 (en) Phrase classification system, phrase classification method, and phrase classification program
JP5506482B2 (en) Named entity extraction apparatus, string-named expression class pair database creation apparatus, numbered entity extraction method, string-named expression class pair database creation method, program
Abainia et al. Topic Identification of Noisy Arabic Texts Using Graph Approaches
Doan et al. Improving key concept extraction using word association measurement

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20090203