JP2011039838A - Pattern classification device and pattern classification method - Google Patents
Pattern classification device and pattern classification method Download PDFInfo
- Publication number
- JP2011039838A JP2011039838A JP2009187377A JP2009187377A JP2011039838A JP 2011039838 A JP2011039838 A JP 2011039838A JP 2009187377 A JP2009187377 A JP 2009187377A JP 2009187377 A JP2009187377 A JP 2009187377A JP 2011039838 A JP2011039838 A JP 2011039838A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- patterns
- search
- graph
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、パターン分類装置およびパターン分類方法に関するものである。 The present invention relates to a pattern classification device and a pattern classification method.
近年にあっては、大量のデータソースがコンピュータネットワーク上に存在しており、複数のデータソースを結合して、単一のデータソースからでは抽出できない情報を取り出す、データウェアハウスなどの技術が注目を集めている。 In recent years, there are a large number of data sources on computer networks, and technologies such as data warehouses that combine multiple data sources to extract information that cannot be extracted from a single data source are attracting attention. Collecting.
一方、異なる複数のデータソースから得られた情報を統一的に扱うための枠組みとして、グラフ表現できるデータモデルであるRDF(Resource Description Framework)を用いたセマンティックWeb技術も注目されている。 On the other hand, as a framework for handling information obtained from a plurality of different data sources in a unified manner, a semantic Web technology using RDF (Resource Description Framework), which is a data model that can be represented in a graph, has attracted attention.
セマンティックWebでは、SPARQLなどのRDFクエリ言語を用いて検索用のパターン(以下、単にパターンという)のマッチングによって必要な情報を検索するRDF検索技術などが提唱されている。 The Semantic Web proposes RDF search technology that searches for necessary information by matching search patterns (hereinafter simply referred to as patterns) using an RDF query language such as SPARQL.
非特許文献1は、キーワード文字列を含む自然文を検索するシステムにおいて、検索結果が類似するキーワードを類似するクエリとし、類似クエリごとに分類及び、ユーザに類似クエリを提案する仕組みを提供する技術を開示している。しかし、以下の問題があった。
Non-Patent
これらの技術で言われるクエリは、パターンの検索キーワード変数に相当するものであり、パターンに相当する部分については一切言及されていない。そのため、パターンの分類を行うことはできない。 Queries referred to in these techniques correspond to the search keyword variables of the pattern, and no reference is made to the portion corresponding to the pattern. Therefore, pattern classification cannot be performed.
例えば、非特許文献2では、対象グラフ集合の特性を反映した構造類似性の提案がなされ、そこでは、特徴的な部分構造を用いて、構造的な類似性を定義し、部分グラフの類似性判定を行う。
For example, Non-Patent
しかし、この技術は、ラベル無し無向グラフを対象としており、そのままRDFなどのラベル有り有向グラフへ適用することはできないのである。 However, this technology targets unlabeled undirected graphs, and cannot be applied directly to labeled directed graphs such as RDF.
RDFなどのノードとアークにラベルを持つグラフ構造データに対する検索を行うためのクエリとして用いるパターンを選択する際に、グラフの構造が複雑であると、意図する検索を行うことができるパターンを探し出すことが困難になるため、パターンを効率的に選択可能にする必要がある。 When selecting a pattern to be used as a query for searching graph structure data with labels on nodes and arcs such as RDF, if the structure of the graph is complex, find a pattern that can perform the intended search Therefore, it is necessary to select a pattern efficiently.
特に複数の異なるデータソースから結合したグラフの場合には、グラフ中に意味的な重複が含まれ、意味的に類似する異なる構造のパターンが多数存在するため、取捨選択作業が煩雑になる。 In particular, in the case of a graph combined from a plurality of different data sources, semantic duplication is included in the graph, and there are many patterns having different structures that are semantically similar, so that the selection operation becomes complicated.
本発明は、上記に鑑みなされたものであり、その目的とするところは、複数のパターンを分類可能なパターン分類装置およびパターン分類方法を提供することにある。 The present invention has been made in view of the above, and an object thereof is to provide a pattern classification apparatus and a pattern classification method capable of classifying a plurality of patterns.
上記の課題を解決するために、本発明に係るパターン分類装置は、インスタンスをもつノード間がアークによって接続されたグラフが記憶されるグラフデータベースと、前記グラフ内のサブグラフを検索するためのN個のパターンにおける第1ノードに対し、互いに異なるM個のキーワードを含ませて、N×M個の検索パターンを生成し、前記グラフから前記各検索パターンに合致するサブグラフを検索するグラフ検索手段と、前記検索されたサブグラフにおける第2ノード内のインスタンスを使用して前記N個のパターンにおける2つのパターンからなる組み合わせのそれぞれについて類似の度合いを求め、当該類似の度合いに基づいて前記N個のパターンを分類するパターン分類手段とを備えることを特徴とする。 In order to solve the above problems, a pattern classification apparatus according to the present invention includes a graph database in which a graph in which nodes having instances are connected by arcs is stored, and N graphs for searching subgraphs in the graph. Graph search means for generating N × M search patterns by including M different keywords for the first node in the pattern, and searching the graph for subgraphs matching the search patterns; Using the instance in the second node in the searched subgraph, obtain a degree of similarity for each of the combinations of the two patterns in the N patterns, and determine the N patterns based on the degree of similarity. Pattern classification means for classifying.
また、本発明に係るパターン分類方法は、インスタンスをもつノード間がアークによって接続されたグラフが記憶されるグラフデータベースを備えるパターン分類装置が行うパターン分類方法であって、前記パターン分類装置のグラフ検索手段が、前記グラフ内のサブグラフを検索するためのN個のパターンにおける第1ノードに対し、互いに異なるM個のキーワードを含ませて、N×M個の検索パターンを生成し、前記グラフから前記各検索パターンに合致するサブグラフを検索し、前記パターン分類装置のパターン分類手段が、前記検索されたサブグラフにおける第2ノード内のインスタンスを使用して前記N個のパターンにおける2つのパターンからなる組み合わせのそれぞれについて類似の度合いを求め、当該類似の度合いに基づいて前記N個のパターンを分類することを特徴とする。 The pattern classification method according to the present invention is a pattern classification method performed by a pattern classification apparatus including a graph database in which a graph in which nodes having instances are connected by arcs is stored. Means generates N × M search patterns by including M keywords different from each other for the first node in the N patterns for searching the subgraph in the graph, and generates the N × M search patterns from the graph; Sub-graphs that match each search pattern are searched, and the pattern classification unit of the pattern classification device uses a combination of two patterns in the N patterns by using an instance in a second node in the searched sub-graph. Find the degree of similarity for each and based on the degree of similarity Characterized by classifying the N patterns.
前記パターン分類手段は、前記N個のパターンを、前記類似の度合いに基づいて、1つ以上のパターンを含むパターンクラスタに分類するものであって、前記各キーワードにつき、2つのパターンの一方に当該キーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をA、当該2つのパターンの他方に当該キーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をBとして、
類似判定値=|A∩B|÷|A∪B|
ただし、
A、Bが共に空集合でなく、
|A∩B|は、AとBの積集合の中のインスタンス数、
|A∪B|は、AとBの和集合の中のインスタンス数、
を計算した場合、
前記各キーワードに対応する類似判定値の中のk個(0<k≦K:ただしKは前記キーワードの個数)以上が所定のしきい値以上となる当該2つのパターンを、互いに類似するパターンとして、同一のパターンクラスタに含ませるようにしてもよい。
The pattern classification means classifies the N patterns into a pattern cluster including one or more patterns based on the degree of similarity, and each of the keywords is classified into one of two patterns. A set of instances in the second node in one or more subgraphs that match the search pattern including the keyword is A, and one or more subgraphs that match the search pattern that includes the keyword in the other of the two patterns Let B be the set of instances in the second node at
Similarity judgment value = | A∩B | ÷ | A∪B |
However,
A and B are not empty sets,
| A∩B | is the number of instances in the intersection of A and B,
| A∪B | is the number of instances in the union of A and B,
When calculating
The two patterns in which k or more (0 <k ≦ K: K is the number of the keywords) among the similarity determination values corresponding to the keywords are equal to or greater than a predetermined threshold value are similar to each other. These may be included in the same pattern cluster.
あるいは、前記パターン分類手段は、以下のように処理を行ってもよい。
まず、前記N×M個の検索パターンから、該当のサブグラフを得られなかった検索で使用された検索パターンを除外する。
次に、2つの各パターンに共通のキーワードを含ませて得た検索パターンから共にサブグラフが得られた場合には当該2つのパターンを関連づけ、互いに関連づけられた複数のパターンから得られ且つ除外されていない検索パターンに含まれた1つ以上のキーワードをキーワードクラスタと定義し、他のパターンと関連づけられていない単一のパターンから得られ且つ除外されていない検索パターンに含まれた1つ以上のキーワードをキーワードクラスタと定義し、前記複数のキーワードを1つ以上のキーワードクラスタに分類する。
次に、前記各キーワードクラスタから1つのキーワードを選択するとともに、該選択されるキーワードを含み且つ除外されていない検索パターンの数が最も多くなるようにする。
次に、前記各キーワードクラスタにつき、選択されたキーワードを含み且つ除外されていない検索パターンを生成するために使用された1つ以上のパターンを選択する。
次に、前記選択された1つ以上のパターンに含まれ且つ互いに類似する複数のパターンをパターンクラスタと定義し、前記選択された1つ以上のパターンに含まれ且つ他のパターンと類似しない単一のパターンをパターンクラスタと定義し、前記選択された1つ以上のパターンを1つ以上のパターンクラスタに分類するとともに、前者のパターンクラスタに含まれるいずれの2パターンも、前記2パターンの一方に前記選択されたキーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をA、前記2パターンの他方に前記選択されたキーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をBとした場合、
類似判定値=|A∩B|÷|A∪B|
ただし、
A、Bが共に空集合でなく、
|A∩B|は、AとBの積集合の中のインスタンス数、
|A∪B|は、AとBの和集合の中のインスタンス数、
が所定のしきい値以上となるようにする。
Alternatively, the pattern classification unit may perform processing as follows.
First, from the N × M search patterns, the search patterns used in the search that could not obtain the corresponding subgraph are excluded.
Next, when a subgraph is obtained from a search pattern obtained by including a common keyword in each of the two patterns, the two patterns are associated with each other, obtained from a plurality of patterns associated with each other, and excluded. One or more keywords included in a search pattern that is derived from a single pattern that is defined as a keyword cluster and that is not associated with other patterns and that is not excluded Is defined as a keyword cluster, and the plurality of keywords are classified into one or more keyword clusters.
Next, one keyword is selected from each of the keyword clusters, and the number of search patterns including the selected keyword and not excluded is maximized.
Next, for each of the keyword clusters, one or more patterns used to generate a search pattern that includes the selected keyword and is not excluded are selected.
Next, a plurality of patterns included in the selected one or more patterns and similar to each other are defined as a pattern cluster, and a single pattern included in the selected one or more patterns and not similar to other patterns The pattern is defined as a pattern cluster, the selected one or more patterns are classified into one or more pattern clusters, and any two patterns included in the former pattern cluster are included in one of the two patterns. A set of instances in the second node in one or more subgraphs matching the search pattern including the selected keyword is A, and the search pattern including the selected keyword is included in the other of the two patterns. If the set of instances in the second node in one or more subgraphs is B,
Similarity judgment value = | A∩B | ÷ | A∪B |
However,
A and B are not empty sets,
| A∩B | is the number of instances in the intersection of A and B,
| A∪B | is the number of instances in the union of A and B,
Is greater than or equal to a predetermined threshold.
本発明によれば、パターンの第1ノードにキーワードを含ませて得られる検索パターンに合致するサブグラフを検索し、そのサブグラフにおける第2ノード内のインスタンスを検索結果として得る場合のパターンを分類でき、パターンの数を実質的に低減することができる。また、パターンをユーザに選択させる場合などにおいて、ユーザはパターンを容易に選択することができる。 According to the present invention, it is possible to search for a subgraph that matches a search pattern obtained by including a keyword in the first node of the pattern, and to classify patterns when obtaining an instance in the second node in the subgraph as a search result, The number of patterns can be substantially reduced. In addition, when the user selects a pattern, the user can easily select the pattern.
以下、本発明の実施の形態を図面を参照して説明する。なお、同一または類似のものには同一符号を付与し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In addition, the same code | symbol is provided to the same or similar thing, and duplication description is abbreviate | omitted.
図1は、本実施の形態に係るグラフ検索装置の構成図である。
グラフ検索装置1は、ユーザ端末2に接続され、ユーザ端末2には、表示装置3が接続されている。
FIG. 1 is a configuration diagram of a graph search apparatus according to the present embodiment.
The
グラフ検索装置1は、表示装置3に表示される入力用インタフェースと出力用インタフェースを生成しユーザ端末2に送信するユーザインタフェース11と、インスタンスをもつノード間がアークによって接続されたグラフが記憶されるグラフデータベース12と、サブグラフの検索に用いられるパターンが記憶されるパターンデータベース13と、サブグラフやパターンを検索するクエリ発行部14と、パターンを分類するパターン分類部15と、分類により得られるパターンクラスタが記憶されるパターンクラスタデータベース16とを備える。
グラフ検索装置1は、パターン分類部15を備えることからわかるように、パターン分類装置としても機能する。
The
As can be seen from the fact that the
図2は、グラフデータベース12に記憶されたデータ群を全て使って表示できるグラフGの一部を例示した図である。
FIG. 2 is a diagram illustrating a part of the graph G that can be displayed using all the data groups stored in the
グラフデータベース12に記憶されたデータ群を全て使って、図2に一部を例示したグラフG、つまり互いに異なるインスタンスをもつノード間がラベルをもつアークによって接続され且つ当該インスタンスのクラスが定義されたグラフG、を表示することができる。逆にいえば、グラフGを表示するための過不足ないデータ群がグラフデータベース12に記憶されている。以下、そのデータ群を便宜的にグラフGという。また、なんらかのグラフ、サブグラフ(なんらかのグラフそのものまたはそれに含まれるグラフ)、パス(分岐および閉ループをもたないグラフ)などをクラスを含めて表示するための過不足ないデータ群を便宜的にグラフ、サブグラフ、パスなどという。
Using all the data groups stored in the
ラベルとは、アークの種類を識別する識別子であり、クラスとは、各インスタンスが属する概念を示すノードであり、インスタンスとは、クラス以外の個々の事物を示すノードである。 The label is an identifier for identifying the type of arc, the class is a node indicating a concept to which each instance belongs, and the instance is a node indicating individual things other than the class.
グラフGでは、例えば、「政治」や「山本幸子」などのインスタンスをもつノードが、「theme:担当者」などのラベルをもつアークで接続される。また、グラフGでは、ノードにそのインスタンス「政治」などの概念であるクラス「テーマ」などが定義される。 In the graph G, for example, nodes having instances such as “politics” and “Sachiko Yamamoto” are connected by an arc having a label such as “theme”. In the graph G, a class “theme”, which is a concept such as an instance “politics”, is defined in the node.
図3に示すように、「論文F」で示され、その元データの著者が山田太郎でり、題名が「B技術入門」であり、キーワードがB技術である、元データは、グラフデータベース12では、RDF/XML形式のデータとなって、グラフデータベース12に記憶され、これがグラフGのサブグラフをなす。「RDFのグラフ表現」と題されたものは、このサブグラフをグラフィカルに表現したものである。RDFについては、以下の文献に記載されている。
As shown in FIG. 3, the original data is “graph F”, the author of the original data is Taro Yamada, the title is “Introduction to B Technology”, the keyword is B technology, and the original data is the
「Resource Description Framework(RDF)Model and Syntax Specification」, Ora Lassia, Ralph R.Swick編,[online], インターネット<URL:http://www.w3.org/TR/1999/REC-rdf-syntax-19990222/>
「RDF Vocabulary Description Language 1.0: RDF Schema」, Dan Brickley, R.V.Guha編,[online], インターネット<URL:http://www.w3.org/TR/rdf-schema/>
図1に戻り、パターンデータベース13には、サブグラフの検索に用いられるパターンが記憶される。
"Resource Description Framework (RDF) Model and Syntax Specification", Ora Lassia, Ralph R. Swick, [online], Internet <URL: http://www.w3.org/TR/1999/REC-rdf-syntax- 19990222 />
"RDF Vocabulary Description Language 1.0: RDF Schema", Dan Brickley, RVGuha, [online], Internet <URL: http://www.w3.org/TR/rdf-schema/>
Returning to FIG. 1, the
図4は、パターンデータベース13に記憶されたパターンのうちの3パターンをグラフ化して例示した図である。
FIG. 4 is a diagram illustrating three patterns of the patterns stored in the
パターンは、グラフデータベース12に記憶されるデータ群(グラフG)の一部をなすデータ群と同様なものであり、それを本図のようにグラフ化できるので、便宜的にはグラフと言えるが、パターンは表示するものではなく、表示されるグラフの検索に使用されるものである。なお、データ群である実際のパターンを逐一説明するのは冗長なのでグラフ化されたパターンで便宜的に説明する。
The pattern is the same as the data group forming a part of the data group (graph G) stored in the
一般的にパターンでは、ノードやアークの一部はインスタンスやラベルをもち、残りはそれらをもたない。そして、インスタンスやラベルをもたないノードやアークには変数が設定される。変数は、図に示すように、?とそれに後続する単語からなる。 In general, in a pattern, some nodes and arcs have instances and labels, and the rest do not. Variables are set for nodes and arcs that do not have instances or labels. Variables as shown in the figure? Followed by a word.
ここでは、クラス「テーマ」が定義されたノードを一方の端位置に有し、クラス「組織」が定義されたノードを他方の端位置に有し、各ノードがインスタンスをもたず、各アークがラベルをもつ、パターンP1、P2、P3が、パターンデータベース13に記憶されていることとする。これらは、いずれもテーマから組織を知るためのパターンであり、パターンP1は、「テーマが属する組織」という意味を有し、パターンP2は、「テーマの責任者が属する組織」という意味を有し、パターンP3は、「テーマの担当者が属する組織」という意味を有する。
Here, a node with class “theme” is defined at one end position, a node with class “organization” is defined at the other end position, each node has no instance, and each arc It is assumed that patterns P1, P2, and P3 having a label are stored in the
このようなパターンによって、あるグラフから検索されるサブグラフは、以下の条件を備えるものである。 A subgraph retrieved from a certain graph by such a pattern has the following conditions.
つまり、検索されるのは、(1)そのグラフまたはそのサブグラフであって、(2)パターンの構造を過不足なく有し、(3)パターン内でのインスタンスやラベルを過不足なく有し、つまりパターン内でのインスタンスやラベルをもつノードやアークの位置に等しい位置にあるノードやアークが当該インスタンスに等しいインスタンスやラベルを有するものである。 In other words, what is searched is (1) the graph or its subgraph, (2) having a pattern structure without excess or deficiency, (3) having instances or labels within the pattern without deficiency, That is, a node or arc at a position equal to the position of a node or arc having an instance or label in the pattern has an instance or label equal to the instance.
(3)の条件を補足すれば、例えば、パターンの一方端にあるノードのインスタンスを「A」とすると、少なくとも検索されるサブグラフの一方端にあるノードのインスタンスも「A」でなければならず、また、パターンの一方端にあるノードに接続される唯一のアークのラベルを「B」とすると、当該サブグラフの一方端にあるノードに接続される唯一のアークのラベルも「B」でなければならず、こうしたインスタンスやラベルのマッチングが、パターン内でのインスタンスやラベルをもつ全てのノードとアークにおいて必要なのである。 If the condition of (3) is supplemented, for example, if the instance of the node at one end of the pattern is “A”, the instance of the node at the one end of the subgraph to be searched must also be “A”. Also, if the label of the only arc connected to the node at one end of the pattern is “B”, the label of the only arc connected to the node at one end of the subgraph is not “B”. Rather, such instance and label matching is required for all nodes and arcs that have instances and labels in the pattern.
なお、パターンにより、このようにしてサブグラフを検索することを、パターンに合致する(マッチするともいう)サブグラフを検索するという。 Note that searching for a subgraph by a pattern in this way is called searching for a subgraph that matches (also matches) the pattern.
図1に戻り、クエリ発行部14は、パターンデータベース13からパターンを検索する。また、クエリ発行部14は、グラフGのサブグラフを検索する。
Returning to FIG. 1, the
グラフ検索装置1は、各部(データベース含む)でデータの送受信(受け渡し)が可能であればよい。つまり、各部を、同一のコンピュータに配置してもよいし、複数のコンピュータに分散配置してもよい。また、これらコンピュータをグラフ検索装置やパターン分類装置として動作させるコンピュータプログラムを通信回線を介して送受信してもよい。また、このコンピュータプログラムを、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク、磁気テープなどの記録媒体に記録し、その記録媒体を流通させてもよい。
The
(本実施の形態の動作)
図5は、グラフ検索装置1においてパターンを分類する動作を示すシーケンス図である。
(Operation of this embodiment)
FIG. 5 is a sequence diagram showing an operation of classifying patterns in the
グラフ検索装置1では、ユーザインタフェース11が入力用インタフェースを生成し、それをユーザ端末2に送信して(S1)、図6で示すように表示させる(S3)。
In the
ここで、ユーザが、例えば、新聞社などの中で、「政治」というテーマに関連する社内などの組織がどこかを知りたいとする。また、ユーザは、パターン同士の類似の判定を厳しめにしたく、その程度が、1を最大とした場合には、「0.7」であると考えていることとする。 Here, it is assumed that the user wants to know where an organization such as a company related to the theme of “politics” is located in a newspaper company, for example. In addition, the user wants to make the similarity determination between patterns stricter, and when the degree is set to 1 as the maximum, it is assumed that the user thinks that “0.7”.
この例では、ユーザの操作により、「テーマ」という情報(クラス「テーマ」という)、「組織」という情報(クラス「組織」という)が、入力用インタフェースに含まれた情報から選択されたこととする。 In this example, the information “theme” (class “theme”) and the information “organization” (class “organization”) are selected from the information included in the input interface. To do.
また、ユーザ端末2では、ユーザの操作により、「0.7」という値(しきい値「0.7」という)が指定されたこととする。
In the
ユーザ端末2は、これらのパラメータをグラフ検索装置1に送信する(S5)。
The
グラフ検索装置1では、クエリ発行部14が、クラス「テーマ」を含む検索構文であるクエリをグラフデータベース12に送信し、これにより、クラス「テーマ」が定義されたノード内のインスタンス(ここでは、インスタンス「政治」、「歴史」、「科学」(以下、それぞれキーワードK1、K2、K3という))をグラフデータベース12から検索する(S7)。
In the
クエリ発行部14は、クラス「テーマ」とクラス「組織」を含む検索構文であるクエリをパターンデータベース13に送信し、これにより、パターンP1、P2、P3をパターンデータベース13から検索する(S9)。
The
次に、クエリ発行部14が、パターンP1、P2、P3における、クラス「テーマ」が定義されたノード(第1ノードという)に対し、各キーワードK1、K2、K3を含ませて、3(パターン数)×3(キーワード数)個(合計9個)のパターン(以下、検索パターンP11〜P33という)を生成する(S11)。
Next, the
図7は、これらの検索パターンを示す図である。 FIG. 7 is a diagram showing these search patterns.
この図では、クラスを図示省略している。例えば、検索パターンP11は、パターンP1の第1ノードにキーワードK1「政治」をインスタンスとして含ませたものである。
検索パターンP12は、パターンP1の第1ノードにキーワードK1「歴史」をインスタンスとして含ませたものである。
検索パターンP13は、パターンP1の第1ノードにキーワードK1「科学」をインスタンスとして含ませたものである。
検索パターンP21は、パターンP2の第1ノードにキーワードK1「政治」をインスタンスとして含ませたものである。
検索パターンP22は、パターンP2の第1ノードにキーワードK1「歴史」をインスタンスとして含ませたものである。
検索パターンP23は、パターンP2の第1ノードにキーワードK1「科学」をインスタンスとして含ませたものである。
検索パターンP31は、パターンP3の第1ノードにキーワードK1「政治」をインスタンスとして含ませたものである。
検索パターンP32は、パターンP3の第1ノードにキーワードK1「歴史」をインスタンスとして含ませたものである。
検索パターンP33は、パターンP3の第1ノードにキーワードK1「科学」をインスタンスとして含ませたものである。
In this figure, the class is not shown. For example, the search pattern P11 includes the keyword K1 “politics” as an instance in the first node of the pattern P1.
The search pattern P12 includes the keyword K1 “history” as an instance in the first node of the pattern P1.
The search pattern P13 includes the keyword K1 “science” as an instance in the first node of the pattern P1.
The search pattern P21 includes the keyword K1 “politics” as an instance in the first node of the pattern P2.
The search pattern P22 includes the keyword K1 “history” as an instance in the first node of the pattern P2.
The search pattern P23 includes the keyword K1 “science” as an instance in the first node of the pattern P2.
The search pattern P31 includes the keyword K1 “politics” as an instance in the first node of the pattern P3.
The search pattern P32 includes the keyword K1 “history” as an instance in the first node of the pattern P3.
The search pattern P33 includes the keyword K1 “science” as an instance in the first node of the pattern P3.
図5に戻り、クエリ発行部14が、検索パターンP11〜P33をクエリに変換し、それをグラフデータベース12に送信することで、その検索パターンにマッチするサブグラフをグラフGから取得する(S15)。
Returning to FIG. 5, the
ここでは、検索パターンP11〜P33から、図8に示すようなサブグラフSG(P11)〜SG(P33)がそれぞれ取得されたこととする。 Here, it is assumed that subgraphs SG (P11) to SG (P33) as shown in FIG. 8 are obtained from the search patterns P11 to P33, respectively.
図5に戻り、クエリ発行部14は、パターンP1、P2、P3、サブグラフSG(P11)〜SG(P33)、しきい値「0.7」、クラス「組織」をパターン分類部15に与える(S17)。
Returning to FIG. 5, the
パターン分類部15は、サブグラフ、しきい値、クラスに基づいて、パターンを分類し(S19)、分類結果をパターンクラスタデータベース16に格納する(S21)。
The
ここで、ステップS19を詳述する。
パターン分類部15は、パターンP1〜P3を1以上のパターンクラスタに分類する。ここでは、複数の類似するパターンを含む集合、または、他のパターンと類似しない単一のパターンをパターンクラスタという。したがって、パターン分類部15は、例えば、パターンP1、P2を含むパターンクラスタと、パターンP3を含むパターンクラスタを生成する。
Here, step S19 will be described in detail.
The
このとき、パターン分類部15は、パターンP1〜P3における全てのパターンの組み合わせにつき、以下のような処理を行う。
At this time, the
パターンP1、P2の組の例を説明する。
パターン分類部15は、パターンP1にキーワードK1を含ませた検索パターンP11に合致する1つ以上のサブグラフ(ここではサブグラフSG(P11))におけるクラス「組織」が定義されたノード(第2ノードという)内のインスタンスの集合(ここでは「○○グループ」のみ)をR11、パターンP2にキーワードK1を含ませた検索パターンP21に合致する1つ以上のサブグラフ(ここではサブグラフSG(P21))におけるクラス「組織」が定義されたノード(第2ノード)内のインスタンスの集合(ここでは「○○グループ」)をR21として、
R11、R21が共に空集合でないなら、パターンP1、P2、キーワードK1に関し、
類似判定値T(P1、P2、K1)=|R11∩R21|÷|R11∪R21|
ただし、
|R11∩R21|は、R11とR21の積集合の中のインスタンス数、
|R11∪R21|は、R11とR21の和集合の中のインスタンス数、
を計算し、類似判定値T(P1、P2、K1)がしきい値「0.7」以上か否かを判定する。
An example of a set of patterns P1 and P2 will be described.
The
If R11 and R21 are not empty sets, the patterns P1, P2 and the keyword K1 are
Similarity determination value T (P1, P2, K1) = | R11∩R21 | ÷ | R11∪R21 |
However,
| R11∩R21 | is the number of instances in the product set of R11 and R21,
| R11∪R21 | is the number of instances in the union of R11 and R21,
Is calculated, and it is determined whether or not the similarity determination value T (P1, P2, K1) is equal to or greater than the threshold value “0.7”.
ここで、類似判定値T(P1、P2、K1)におけるP1、P2、K1は、パターンP1、P2、キーワードK1に関するものという意味である。以下に説明する類似判定値についても同様である。 Here, P1, P2, and K1 in the similarity determination value T (P1, P2, and K1) mean that they relate to the patterns P1 and P2, and the keyword K1. The same applies to the similarity determination value described below.
さて、ここでは、パターンP1、P2、キーワードK1について、類似判定値T(P1、P2、K1)を計算し、しきい値「0.7」以上か否かを判定するのである。 Here, the similarity determination value T (P1, P2, K1) is calculated for the patterns P1, P2 and the keyword K1, and it is determined whether or not the threshold is “0.7” or more.
R11∩R21は、「○○グループ」を含むので、|R11∩R21|=1である。
R11∪R21は、「○○グループ」を含むので、|R11∪R21|=1である。
よって、類似判定値T(P1、P2、K1)=1÷1=1となり、しきい値「0.7」以上と判定される。
Since R11∩R21 includes “XX group”, | R11∩R21 | = 1.
Since R11∪R21 includes “XX group”, | R11∪R21 | = 1.
Therefore, the similarity determination value T (P1, P2, K1) = 1 ÷ 1 = 1, and it is determined that the threshold value is “0.7” or more.
同様に、パターン分類部15は、パターンP1、P2、キーワードK2について、類似判定値T(P1、P2、K2)を計算し、しきい値「0.7」以上か否かを判定する。
積集合は、「○○グループ」を含むので、積集合の中のインスタンス数=1である。
和集合は、「○○グループ」を含むので、和集合の中のインスタンス数=1である。
よって、類似判定値T(P1、P2、K2)=1÷1=1となり、しきい値「0.7」以上と判定される。
Similarly, the
Since the intersection set includes “XX group”, the number of instances in the intersection set = 1.
Since the union includes “XX group”, the number of instances in the union = 1.
Therefore, the similarity determination value T (P1, P2, K2) = 1 ÷ 1 = 1, and it is determined that the threshold is “0.7” or more.
同様に、パターン分類部15は、パターンP1、P2、キーワードK3について、類似判定値T(P1、P2、K3)を計算し、しきい値「0.7」以上か否かを判定する。
積集合は、空集合なので、積集合の中のインスタンス数=0である。
和集合は、「××グループ」、「△△グループ」を含むので、和集合の中のインスタンス数=2である。
よって、類似判定値T(P1、P2、K3)=0となり、しきい値「0.7」未満と判定される。
Similarly, the
Since the product set is an empty set, the number of instances in the product set = 0.
Since the union includes “XX group” and “ΔΔ group”, the number of instances in the union = 2.
Therefore, the similarity determination value T (P1, P2, K3) = 0, and is determined to be less than the threshold value “0.7”.
次に、パターン分類部15は、例えば、3つの類似判定値の中のk個(0<k≦K:ただしKはキーワードの個数(ここでは「3」)である。)以上がしきい値「0.7」以上であったか否かを判定し、k個以上がしきい値以上であったなら、パターンP1、P2は類似していると判定する。なお、kの値は、パラメータとして入力してもよいし、既定値であってもよい。
Next, for example, the
例えば、k=1なら、3つの類似判定値の中の少なくとも1つがしきい値以上なら、パターンP1、P2は類似していると判定される。
例えば、k=3なら、3つの類似判定値の中の全てがしきい値以上なら、パターンP1、P2は類似していると判定される。
For example, if k = 1, it is determined that the patterns P1 and P2 are similar if at least one of the three similarity determination values is greater than or equal to the threshold value.
For example, if k = 3, if all of the three similarity determination values are equal to or greater than the threshold value, the patterns P1 and P2 are determined to be similar.
なお、類似判定値を計算する際、計算対象の2つの集合の一方または両方に空集合なら、その計算はスキップされる。つまり、スキップなしで、3つの類似判定値が計算される場合だけでなく、それより少ない1つまたは2つの類似判定値が計算される場合もあるのである。 When calculating the similarity determination value, if one or both of the two sets to be calculated are empty sets, the calculation is skipped. That is, not only the case where three similarity determination values are calculated without skipping, but also one or two similarity determination values smaller than that may be calculated.
このようにして、パターン分類部15は、例えば、パターンP1、P2を含むパターンクラスタと、パターンP3を含むパターンクラスタを生成する(S19)。
In this way, the
パターン分類部15は、各パターンクラスタ(分類結果)をパターンクラスタデータベース16に格納する(S21)。ここでは、2つ以上のパターンを含むパターンクラスタのみならず、1つのパターンのみを含むパターンクラスタもパターンクラスタデータベース16に格納される。
The
図9は、グラフ検索装置1においてグラフGからノードのインスタンスを検索する動作を示すシーケンス図である。
FIG. 9 is a sequence diagram showing an operation of searching for an instance of a node from the graph G in the
ユーザインタフェース11は、入力用インタフェースを生成し、それをユーザ端末2に送信して(S51)、図10に示すように表示させる(S53)。
The
ここで、ユーザは、例えば、パターンを分類する際のユーザであり、「政治」というテーマに関連する社内などの組織がどこかを知りたいとする。 Here, the user is, for example, a user who classifies patterns, and wants to know where the organization such as the company related to the theme “politics” is.
ここでは、ユーザの操作により、「テーマ」という情報(クラス「テーマ」という)、「組織」という情報(クラス「組織」という)が、入力用インタフェースに含まれた情報から選択されたこととする。 Here, it is assumed that the information “theme” (class “theme”) and the information “organization” (class “organization”) are selected from the information included in the input interface by the user's operation. .
ユーザ端末2は、これらパラメータをグラフ検索装置1に送信する(S55)。
The
グラフ検索装置1では、クエリ発行部14が、クラス「テーマ」とクラス「組織」を含む検索構文であるクエリをパターンデータベース13に送信し、これにより、パターンP1、P2、P3をパターンデータベース13から検索する(S59)。
In the
次に、クエリ発行部14は、パターンクラスタデータベース16を参照し、パターンP1、P2を含むパターンクラスタがあるので、検索されたパターンP1、P2の一方である、例えばパターンP2を除外し(S60)、パターンP2を除いた2つのパターンP1、P3をユーザインタフェース11に与える。
Next, the
ステップS60では、パターンデータベース13から複数のパターンを含むパターンクラスタを検索し、ステップS59で検索された複数のパターンから、当該パターンクラスタ内の複数のパターンに合致する複数のパターンを選択し、選択された複数のパターンのうちの任意の1つ以上を残して、残りを除外する。
In step S60, a pattern cluster including a plurality of patterns is searched from the
詳しくは、例えば、最も長いパターンを残すようにしてもよい。シンプルでわかりやすいパターンだからである。
また、検索結果が空でなく且つキーワードが多いパターンを残すようにしてもよい。検索結果が得やすいパターンだからである。
また、検索結果が空でなく且つキーワードが少ないパターンを残すようにしてもよい。厳密な検索結果が得やすいパターンだからである。
また、こうした取捨選択をオペレータが判断してもよい。
Specifically, for example, the longest pattern may be left. This is because it is a simple and easy-to-understand pattern.
Alternatively, a pattern in which the search result is not empty and has many keywords may be left. This is because the search results are easy to obtain.
Alternatively, a pattern in which the search result is not empty and the number of keywords is small may be left. This is because an exact search result can be easily obtained.
In addition, the operator may determine such selection.
ユーザインタフェース11は、入力用インタフェースを生成し、それをユーザ端末2に送信して(S61)、図11に示すように表示させる(S63)。ここでは、パターンP1、P3が表示されるが、図11では、クラスやアークのラベルなどを図示せず、簡易的に示している。
The
これに対して、ユーザがユーザ端末2にパターンP1の選択指示、キーワード「政治」を入力し、ユーザ端末2は、これらパラメータをグラフ検索装置1に送信する(S65)。
In response to this, the user inputs the selection instruction of the pattern P1 and the keyword “politics” to the
グラフ検索装置1では、クエリ発行部14が、選択されたパターンP1における、クラス「テーマ」が定義されたノードに対し、キーワード「政治」を含ませて、検索パターン(つまり、図7の検索パターンP11)を生成する(S67)。
In the
クエリ発行部14は、検索パターンP11をクエリに変換し、それをグラフデータベース12に送信することで、その検索パターンにマッチするサブグラフ(つまり、図8のサブグラフSG(P11))をグラフGから取得する(S71)。
The
次に、クエリ発行部14は、サブグラフSG(P11)におけるクラス「組織」が定義されたノード内のインスタンス(つまり、「○○グループ」)を取り出し、ユーザインタフェース11に与える(S73)。
Next, the
ユーザインタフェース11は、出力用インタフェースを生成し、それをユーザ端末2に送信して(S75)、図12に示すように表示させる(S77)。
The
したがって、ユーザは、3つのパターンP1、P2、P3から1つを選択するのでなく、2つのパターンP1、P3から1つを選択すればよいので、利便性が向上する。 Therefore, the user does not need to select one from the three patterns P1, P2, and P3, but selects one from the two patterns P1 and P3, which improves convenience.
なお、ここでは、1つのパターンを選択したが、2つ以上のパターンを選択してもよい。この際であっても、例えば、選択候補を少なくでき、その少ない選択候補から2つ以上のパターンを選択すればよいので、利便性が向上する。 Although one pattern is selected here, two or more patterns may be selected. Even in this case, for example, the number of selection candidates can be reduced, and two or more patterns may be selected from the few selection candidates, so that convenience is improved.
なお、パターン分類部15は、複数のパターンを1以上のパターンクラスタに分類する際に、別な方法を用いてもよい。
The
以下、その一例を説明する。なお、説明のない点については、上記の実施例と同様である。 An example will be described below. The points not described are the same as in the above embodiment.
ここでは、便宜上、図13に示すように、前述のパターンP1などの代わりに、5つのパターンP101〜P105を使用し、前述のキーワードK1などの代わりに、5つのキーワードK11〜K15を使用することとする。 Here, for the sake of convenience, as shown in FIG. 13, five patterns P101 to P105 are used instead of the above-described pattern P1, and five keywords K11 to K15 are used instead of the above-described keyword K1. And
図5のステップS11では、クエリ発行部14は、パターンP101〜P105における第1ノードに対し、各キーワードK11〜K15を含ませて、5(パターン数)×5(キーワード数)個(合計25個)の検索パターンP1011〜P1055という)を生成する(S11)。
In step S11 of FIG. 5, the
クエリ発行部14が、検索パターンP1011〜P1055をクエリに変換し、それをグラフデータベース12に送信することで、その検索パターンにマッチするサブグラフをグラフGから取得する(S15)。
The
クエリ発行部14は、パターンP101〜P105、サブグラフ、しきい値「0.7」、クラス「組織」をパターン分類部15に与える(S17)。
The
パターン分類部15は、サブグラフ、しきい値、クラスに基づいて、パターンを分類し(S19)、分類結果をパターンクラスタデータベース16に格納する(S21)。
The
ここで、ステップS19を詳述する。ステップ19では、パターン分類部15は、パターンP101〜P105を1以上のパターンクラスタに分類する。
Here, step S19 will be described in detail. In
図14は、そのステップS19の動作を示すフローチャートである。 FIG. 14 is a flowchart showing the operation in step S19.
パターン分類部15は、まず、検索パターンP1011〜P1055から、該当のサブグラフを得られなかった検索で使用された検索パターンを除外する(S191)。
The
図15に示すように、パターン分類部15は、×印のついた升目に該当する検索パターンを除外する。
As shown in FIG. 15, the
次に、パターン分類部15は、図15において枠線Y1で囲って示したように、2つの各パターン(例えば、パターンP101、P102)に共通のキーワード(例えば、キーワードK11)を含ませて得た検索パターン(例えば、検索パターンP1011、P1021)から共にサブグラフが得られた場合には当該2つのパターン(パターンP101、P102)を互いに関連づける(S193)。
Next, the
図15において、枠線Y2で囲って示したように、4つのパターンP101〜P104は互いに関連づけられる。 In FIG. 15, the four patterns P101 to P104 are associated with each other as shown by being surrounded by the frame line Y2.
また、パターン分類部15は、互いに関連づけられた複数のパターンから得られ且つ除外されていない検索パターンに含まれた1つ以上のキーワードをキーワードクラスタと定義する(S195)。図15によれば、キーワードK11〜K14がキーワードクラスタ(キーワードクラスタC1という)と定義される。
Further, the
また、パターン分類部15は、他のパターンと関連づけられていない単一のパターンから得られ且つ除外されていない検索パターンに含まれた1つ以上のキーワードをキーワードクラスタと定義する(S195)。図15によれば、キーワードK15がキーワードクラスタ(キーワードクラスタC2という)と定義される。
Further, the
次に、パターン分類部15は、各キーワードクラスタC1、C2から1つのキーワードを選択する(S197)。その際に、パターン分類部15は、選択されるキーワードを含み且つ除外されていない検索パターンの数が最も多くなるようにする。図15によれば、キーワードクラスタC1、C2からそれぞれキーワードK11、K14が選択される。
Next, the
次に、パターン分類部15は、キーワードクラスタC1につき、選択されたキーワードK11を含み且つ除外されていない検索パターンP1011、P1021、P1031を生成するために使用された1つ以上のパターンP101、P102、P103を選択する(S199)。
Next, the
また、パターン分類部15は、キーワードクラスタC2につき、選択されたキーワードK14を含み且つ除外されていない検索パターンP1055を生成するために使用された1つ以上のパターンP105を選択する(S199)。
Further, the
なお、キーワードクラスタC1については、パターンP101、P102、P103が選択され(S199)、パターンP104は選択されなかったが、このように選択されなかったパターンが複数ある場合には、そのような複数のパターンを、このステップS19と同様にして、1以上のパターンクラスタに分類してもよい。 For the keyword cluster C1, patterns P101, P102, and P103 are selected (S199), and the pattern P104 is not selected. If there are a plurality of patterns that are not selected in this way, The pattern may be classified into one or more pattern clusters in the same manner as in step S19.
さて、次に、パターン分類部15は、選択されたパターンP101、P102、P103に含まれ且つ互いに類似する複数のパターンをパターンクラスタと定義し、パターンP101、P102、P103に含まれ且つ他のパターンと類似しない単一のパターンをパターンクラスタと定義し、パターンP101、P102、P103を1つ以上のパターンクラスタに分類する(S1911)。
Next, the
ここで、パターン分類部15は、パターンP101、P102、P103のような、複数のパターンを含むパターンクラスタに含まれるいずれの2パターンも、その2つのパターンについて求めた類似判定値が予め定めた条件を満たすようにする。
Here, the
パターンP101、P102の例を説明する。 An example of the patterns P101 and P102 will be described.
パターン分類部15は、パターンP101にキーワードK11を含ませた検索パターンP1011に合致する1つ以上のサブグラフにおけるクラス「組織」が定義されたノード(第2ノードという)内のインスタンスの集合をR101、パターンP102にキーワードK11を含ませた検索パターンP1021に合致する1つ以上のサブグラフにおけるクラス「組織」が定義されたノード(第2ノード)内のインスタンスの集合をR102として、
類似判定値T(P101、P102)=|R101∩R102|÷|R101∪R102|
ただし、
|R101∩R102|は、R101とR102の積集合の中のインスタンス数、
|R101∪R102|は、R101とR102の和集合の中のインスタンス数、
を計算し、類似判定値がしきい値「0.7」以上となるようにする。
The
Similarity determination value T (P101, P102) = | R101∩R102 | ÷ | R101∪R102 |
However,
| R101∩R102 | is the number of instances in the product set of R101 and R102,
| R101∪R102 | is the number of instances in the union of R101 and R102,
And the similarity determination value is set to be equal to or greater than the threshold value “0.7”.
ここで、類似判定値T(P101、P102)におけるP101、P102は、パターンP1、P2に関するものという意味である。 Here, P101 and P102 in the similarity determination values T (P101 and P102) mean that they relate to the patterns P1 and P2.
類似判定値がしきい値未満なら、パターンP101、P102は、1つのパターンクラスタには含まれないこととなる。 If the similarity determination value is less than the threshold value, the patterns P101 and P102 are not included in one pattern cluster.
例えば、図16に示すように、R101がインスタンス「A部門」、「B部門」を含み、R102がインスタンス「A部門」、「B部門」、「C部門」を含むすると、R101∩R102は、「A部門」と「B部門」を含むので、|R101∩R102|=2である。 For example, as shown in FIG. 16, when R101 includes instances “A department” and “B department”, and R102 includes instances “A department”, “B department”, and “C department”, R101∩R102: Since “A department” and “B department” are included, | R101∩R102 | = 2.
R101∪R102は、「A部門」と「B部門」と「C部門」を含むので、|R101∪R102|=3である。 Since R101∪R102 includes “A department”, “B department”, and “C department”, | R101∪R102 | = 3.
よって、類似判定値T(P101、P102)=2÷3≒0.67となり、例えば、しきい値が「0.6」なら、そのしきい値以上と判定される。これにより、パターンP101、P102は1つのパターンクラスタに含まれることとなる。例えば、しきい値が「0.9」なら、そのしきい値未満と判定される。これにより、パターンP101、P102は1つのパターンクラスタに含まれないこととなる。 Therefore, the similarity determination value T (P101, P102) = 2 ÷ 3≈0.67. For example, if the threshold value is “0.6”, it is determined that the threshold value is equal to or greater than the threshold value. As a result, the patterns P101 and P102 are included in one pattern cluster. For example, if the threshold is “0.9”, it is determined that the threshold is less than the threshold. As a result, the patterns P101 and P102 are not included in one pattern cluster.
このようにして、パターン分類部15は、例えば、2つのパターンP101、P102を含むパターンクラスタと、1つのパターンP103を含むパターンクラスタを生成する。
In this way, the
また、パターン分類部15は、パターンP105についても同様のことを行うが、この場合、パターンP105がパターンクラスタとなる。
In addition, the
これまでの説明では、便宜的に、3つまたは4つのパターンを分類する例を示したが、実際には、例えば、300個程度のパターンを分類することが多い。 In the description so far, for the sake of convenience, an example in which three or four patterns are classified has been shown. However, in practice, for example, about 300 patterns are often classified.
上記の別な方法を用いて、その際のしきい値を「0.8」として、330個のパターンを分類すると、例えば、図17に示すような結果が得られた。 When the above-mentioned another method is used and the threshold value at that time is set to “0.8” and 330 patterns are classified, for example, a result as shown in FIG. 17 is obtained.
まず、330個のパターンから172個のパターンクラスタが得られた。1個のパターンを含むパターンクラスタの数は116であった。2個のパターンを含むパターンクラスタの数は35であった。以下、パターンクラスタ中のパターンの数とパターンクラスタの数の関係は、図に示す通りであった。 First, 172 pattern clusters were obtained from 330 patterns. The number of pattern clusters including one pattern was 116. The number of pattern clusters including two patterns was 35. Hereinafter, the relationship between the number of patterns in the pattern cluster and the number of pattern clusters is as shown in the figure.
図18は、図17の矢印Y3で示すパターンクラスタ内の9個のパターンを示す図である。 FIG. 18 is a diagram showing nine patterns in the pattern cluster indicated by the arrow Y3 in FIG.
これらのパターンは互いに類似しているので、クエリ発行部14は、ステップS59で、この330個のパターンを検索したなら、その330個に含まれる、図の9個のパターンから1つを選択する。同様にして、クエリ発行部14は、330個を172個に絞り込むのである。
Since these patterns are similar to each other, if the
そして、ステップS63で172個が表示されたら、ユーザは、所望のパターンを172個のパターンから選択すればよく、つまり、330個のパターンから選択する必要はないので、利便性が向上する。 When 172 are displayed in step S63, the user only has to select a desired pattern from 172 patterns, that is, it is not necessary to select from 330 patterns, so that convenience is improved.
以上説明したように、本実施の形態によれば、インスタンスをもつノード間がアークによって接続されたグラフGが記憶されるグラフデータベース12と、グラフG内のサブグラフを検索するためのN個のパターンにおける第1ノードに対し、互いに異なるM個のキーワードを含ませて、N×M個の検索パターンを生成し(S11)、グラフGから各検索パターンに合致するサブグラフを検索する(S15)グラフ検索手段(クエリ発行部14)と、検索されたサブグラフにおける第2ノード内のインスタンスを使用してN個のパターンにおける2つのパターンからなる組み合わせのそれぞれについて類似の度合いを求め、当該類似の度合いに基づいてN個のパターンを分類する(S19)パターン分類手段(パターン分類部15)とを備えることで、パターンの第1ノードにキーワードを含ませて得られる検索パターンに合致するサブグラフを検索し、そのサブグラフにおける第2ノード内のインスタンスを検索結果として得る場合のパターンを分類でき、パターンの数を実質的に低減することができる。また、パターンをユーザに選択させる場合などにおいて、ユーザはパターンを容易に選択することができる。
As described above, according to the present embodiment, the
また、パターン分類手段は、N個のパターンを、類似の度合いに基づいて、1つ以上のパターンを含むパターンクラスタに分類するものであって、各キーワードにつき、2つのパターンの一方に当該キーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をA、当該2つのパターンの他方に当該キーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をBとして、
類似判定値=|A∩B|÷|A∪B|
ただし、
A、Bが共に空集合でなく、
|A∩B|は、AとBの積集合の中のインスタンス数、
|A∪B|は、AとBの和集合の中のインスタンス数、
を計算した場合、
前記各キーワードに対応する類似判定値の中のk個(0<k≦K:ただしKは前記キーワードの個数)以上が所定のしきい値以上となる当該2つのパターンを同一のパターンクラスタに含ませるので、パターンの数を実質的に低減することができる。また、パターンをユーザに選択させる場合などにおいて、ユーザはパターンを容易に選択することができる。
The pattern classification means classifies the N patterns into pattern clusters including one or more patterns based on the degree of similarity, and for each keyword, assigns the keyword to one of the two patterns. The set of instances in the second node in one or more subgraphs that match the included search pattern is A, and the first set in one or more subgraphs that match the search pattern that includes the keyword in the other of the two patterns. Let B be the set of instances in two nodes.
Similarity judgment value = | A∩B | ÷ | A∪B |
However,
A and B are not empty sets,
| A∩B | is the number of instances in the intersection of A and B,
| A∪B | is the number of instances in the union of A and B,
When calculating
The same pattern cluster includes the two patterns in which k or more (0 <k ≦ K: K is the number of the keywords) among the similarity determination values corresponding to the keywords are equal to or greater than a predetermined threshold value. Therefore, the number of patterns can be substantially reduced. In addition, when the user selects a pattern, the user can easily select the pattern.
また、パターン分類手段は、N×M個の検索パターンから、該当のサブグラフを得られなかった検索で使用された検索パターンを除外し(S191)、2つの各パターンに共通のキーワードを含ませて得た検索パターンから共にサブグラフが得られた場合には当該2つのパターンを関連づけ(S193)、互いに関連づけられた複数のパターンから得られ且つ除外されていない検索パターンに含まれた1つ以上のキーワードをキーワードクラスタと定義し(S195)、他のパターンと関連づけられていない単一のパターンから得られ且つ除外されていない検索パターンに含まれた1つ以上のキーワードをキーワードクラスタと定義し(S195)、複数のキーワードを1つ以上のキーワードクラスタに分類し、各キーワードクラスタから1つのキーワードを選択するとともに、該選択されるキーワードを含み且つ除外されていない検索パターンの数が最も多くなるようにし(S197)、各キーワードクラスタにつき、選択されたキーワードを含み且つ除外されていない検索パターンを生成するために使用された1つ以上のパターンを選択し(S199)、選択された1つ以上のパターンに含まれ且つ互いに類似する複数のパターンをパターンクラスタと定義し、選択された1つ以上のパターンに含まれ且つ他のパターンと類似しない単一のパターンをパターンクラスタと定義し、選択された1つ以上のパターンを1つ以上のパターンクラスタに分類する(S1911)とともに、前者のパターンクラスタに含まれるいずれの2パターンも、2パターンの一方に選択されたキーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をA、前記2パターンの他方に前記選択されたキーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をBとした場合、
類似判定値=|A∩B|÷|A∪B|
ただし、
A、Bが共に空集合でなく、
|A∩B|は、AとBの積集合の中のインスタンス数、
|A∪B|は、AとBの和集合の中のインスタンス数、
が所定のしきい値より大きくなるようにするので、パターンの数を実質的に低減することができる。また、パターンをユーザに選択させる場合などにおいて、ユーザはパターンを容易に選択することができる。
The pattern classification means excludes the search pattern used in the search for which the corresponding subgraph could not be obtained from the N × M search patterns (S191), and includes a common keyword in each of the two patterns. If both subgraphs are obtained from the obtained search patterns, the two patterns are associated (S193), and one or more keywords included in the search patterns that are obtained from a plurality of associated patterns and are not excluded Is defined as a keyword cluster (S195), and one or more keywords that are obtained from a single pattern that is not associated with other patterns and are not excluded are defined as keyword clusters (S195). Categorize multiple keywords into one or more keyword clusters, 1 from each keyword cluster Search keywords including the selected keyword and not excluded (S197), and for each keyword cluster, a search including the selected keyword and not excluded. One or more patterns used to generate the pattern are selected (S199), a plurality of patterns included in the selected one or more patterns and similar to each other are defined as a pattern cluster, and the selected 1 A single pattern that is included in one or more patterns and is not similar to another pattern is defined as a pattern cluster, and the selected one or more patterns are classified into one or more pattern clusters (S1911). Any two patterns included in the pattern cluster are the keywords selected as one of the two patterns. A set of instances in the second node in one or more subgraphs that match the search pattern including the search field A, and one or more that matches the search pattern including the selected keyword in the other of the two patterns If the set of instances in the second node in the subgraph is B,
Similarity judgment value = | A∩B | ÷ | A∪B |
However,
A and B are not empty sets,
| A∩B | is the number of instances in the intersection of A and B,
| A∪B | is the number of instances in the union of A and B,
Is larger than a predetermined threshold value, so that the number of patterns can be substantially reduced. In addition, when the user selects a pattern, the user can easily select the pattern.
1…グラフ検索装置
2…ユーザ端末
3…表示装置
11…ユーザインタフェース
12…グラフデータベース
13…パターンデータベース
14…クエリ発行部
15…パターン分類部
16…パターンクラスタデータベース
DESCRIPTION OF
Claims (5)
前記グラフ内のサブグラフを検索するためのN個のパターンにおける第1ノードに対し、互いに異なるM個のキーワードを含ませて、N×M個の検索パターンを生成し、前記グラフから前記各検索パターンに合致するサブグラフを検索するグラフ検索手段と、
前記検索されたサブグラフにおける第2ノード内のインスタンスを使用して前記N個のパターンにおける2つのパターンからなる組み合わせのそれぞれについて類似の度合いを求め、当該類似の度合いに基づいて前記N個のパターンを分類するパターン分類手段と
を備えることを特徴とするパターン分類装置。 A graph database storing a graph in which nodes having instances are connected by arcs;
N × M search patterns are generated by including M keywords different from each other for the first node in the N patterns for searching the subgraphs in the graph, and each search pattern is generated from the graph. A graph search means for searching for a subgraph that matches
Using the instance in the second node in the searched subgraph, obtain a degree of similarity for each of the combinations of the two patterns in the N patterns, and determine the N patterns based on the degree of similarity. A pattern classification device comprising: pattern classification means for classifying.
前記N個のパターンを、前記類似の度合いに基づいて、1つ以上のパターンを含むパターンクラスタに分類するものであって、
前記各キーワードにつき、2つのパターンの一方に当該キーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をA、当該2つのパターンの他方に当該キーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をBとして、
類似判定値=|A∩B|÷|A∪B|
ただし、
A、Bが共に空集合でなく、
|A∩B|は、AとBの積集合の中のインスタンス数、
|A∪B|は、AとBの和集合の中のインスタンス数、
を計算した場合、
前記各キーワードに対応する類似判定値の中のk個(0<k≦K:ただしKは前記キーワードの個数)以上が所定のしきい値以上となる当該2つのパターンを同一のパターンクラスタに含ませる
ことを特徴とする請求項1記載のパターン分類装置。 The pattern classification means includes
Classifying the N patterns into pattern clusters including one or more patterns based on the degree of similarity;
For each keyword, A is a set of instances in the second node in one or more subgraphs that match the search pattern that includes the keyword in one of the two patterns, and the keyword is included in the other of the two patterns. Let B be a set of instances in the second node in one or more subgraphs that match the search pattern
Similarity judgment value = | A∩B | ÷ | A∪B |
However,
A and B are not empty sets,
| A∩B | is the number of instances in the intersection of A and B,
| A∪B | is the number of instances in the union of A and B,
When calculating
The same pattern cluster includes the two patterns in which k or more (0 <k ≦ K: K is the number of the keywords) among the similarity determination values corresponding to the keywords are equal to or greater than a predetermined threshold value. The pattern classification apparatus according to claim 1, wherein:
前記パターン分類装置のグラフ検索手段が、前記グラフ内のサブグラフを検索するためのN個のパターンにおける第1ノードに対し、互いに異なるM個のキーワードを含ませて、N×M個の検索パターンを生成し、前記グラフから前記各検索パターンに合致するサブグラフを検索し、
前記パターン分類装置のパターン分類手段が、前記検索されたサブグラフにおける第2ノード内のインスタンスを使用して前記N個のパターンにおける2つのパターンからなる組み合わせのそれぞれについて類似の度合いを求め、当該類似の度合いに基づいて前記N個のパターンを分類する
ことを特徴とするパターン分類方法。 A pattern classification method performed by a pattern classification apparatus including a graph database in which a graph in which nodes having instances are connected by arcs is stored,
The graph search means of the pattern classifier includes N different M keywords for the first node in the N patterns for searching the subgraphs in the graph, and sets N × M search patterns. Generate and search the graph for subgraphs that match each search pattern,
The pattern classification unit of the pattern classification device obtains a similarity degree for each of the combinations of two patterns in the N patterns using the instance in the second node in the searched subgraph, A pattern classification method, wherein the N patterns are classified based on a degree.
前記N個のパターンを、前記類似の度合いに基づいて、1つ以上のパターンを含むパターンクラスタに分類するものであって、
前記各キーワードにつき、2つのパターンの一方に当該キーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をA、当該2つのパターンの他方に当該キーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をBとして、
類似判定値=|A∩B|÷|A∪B|
ただし、
A、Bが共に空集合でなく、
|A∩B|は、AとBの積集合の中のインスタンス数、
|A∪B|は、AとBの和集合の中のインスタンス数、
を計算した場合、
前記各キーワードに対応する類似判定値の中のk個(0<k≦K:ただしKは前記キーワードの個数)以上が所定のしきい値以上となる当該2つのパターンを同一のパターンクラスタに含ませる
ことを特徴とする請求項3記載のパターン分類方法。 The pattern classification means includes
Classifying the N patterns into pattern clusters including one or more patterns based on the degree of similarity;
For each keyword, A is a set of instances in the second node in one or more subgraphs that match the search pattern that includes the keyword in one of the two patterns, and the keyword is included in the other of the two patterns. Let B be a set of instances in the second node in one or more subgraphs that match the search pattern
Similarity judgment value = | A∩B | ÷ | A∪B |
However,
A and B are not empty sets,
| A∩B | is the number of instances in the intersection of A and B,
| A∪B | is the number of instances in the union of A and B,
When calculating
The same pattern cluster includes the two patterns in which k or more (0 <k ≦ K: K is the number of the keywords) among the similarity determination values corresponding to the keywords are equal to or greater than a predetermined threshold value. The pattern classification method according to claim 3, wherein:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009187377A JP5277111B2 (en) | 2009-08-12 | 2009-08-12 | Pattern classification apparatus and pattern classification method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009187377A JP5277111B2 (en) | 2009-08-12 | 2009-08-12 | Pattern classification apparatus and pattern classification method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011039838A true JP2011039838A (en) | 2011-02-24 |
JP5277111B2 JP5277111B2 (en) | 2013-08-28 |
Family
ID=43767532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009187377A Expired - Fee Related JP5277111B2 (en) | 2009-08-12 | 2009-08-12 | Pattern classification apparatus and pattern classification method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5277111B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015125230A1 (en) * | 2014-02-19 | 2015-08-27 | 株式会社日立製作所 | Data update method, and computer system |
CN107463658A (en) * | 2017-07-31 | 2017-12-12 | 广州市香港科大霍英东研究院 | File classification method and device |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008181333A (en) * | 2007-01-24 | 2008-08-07 | Nippon Telegr & Teleph Corp <Ntt> | Cluster generation device and cluster generation method |
-
2009
- 2009-08-12 JP JP2009187377A patent/JP5277111B2/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008181333A (en) * | 2007-01-24 | 2008-08-07 | Nippon Telegr & Teleph Corp <Ntt> | Cluster generation device and cluster generation method |
Non-Patent Citations (4)
Title |
---|
CSNG200800305002; 木内康裕、外2名: 'グラフデータベースからの上位K強相関部分グラフ対の発見' 第69回 人工知能基本問題研究会資料 (SIG-FPAI-A704) , 20080314, pp.13〜19, 社団法人人工知能学会 * |
CSNJ199800024001; 段一為、外3名: '部分グラフを基本単位とするWeb文書群の検索モデルと自動分類について' 第57回(平成10年後期)全国大会講演論文集(3) , 19981007, pp.161,162, 社団法人情報処理学会 * |
JPN6013006785; 木内康裕、外2名: 'グラフデータベースからの上位K強相関部分グラフ対の発見' 第69回 人工知能基本問題研究会資料 (SIG-FPAI-A704) , 20080314, pp.13〜19, 社団法人人工知能学会 * |
JPN6013006788; 段一為、外3名: '部分グラフを基本単位とするWeb文書群の検索モデルと自動分類について' 第57回(平成10年後期)全国大会講演論文集(3) , 19981007, pp.161,162, 社団法人情報処理学会 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015125230A1 (en) * | 2014-02-19 | 2015-08-27 | 株式会社日立製作所 | Data update method, and computer system |
JPWO2015125230A1 (en) * | 2014-02-19 | 2017-03-30 | 株式会社日立製作所 | Data update method and computer system |
CN107463658A (en) * | 2017-07-31 | 2017-12-12 | 广州市香港科大霍英东研究院 | File classification method and device |
CN107463658B (en) * | 2017-07-31 | 2020-03-31 | 广州市香港科大霍英东研究院 | Text classification method and device |
Also Published As
Publication number | Publication date |
---|---|
JP5277111B2 (en) | 2013-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11640494B1 (en) | Systems and methods for construction, maintenance, and improvement of knowledge representations | |
US9535902B1 (en) | Systems and methods for entity resolution using attributes from structured and unstructured data | |
JP4569955B2 (en) | Information storage and retrieval method | |
US8924313B2 (en) | Multi-label classification using a learned combination of base classifiers | |
Osborne et al. | Automatic classification of springer nature proceedings with smart topic miner | |
US8161045B2 (en) | Use of associate memory learning agent technology to identify interchangeable parts in parts catalogs | |
JP4365162B2 (en) | Apparatus and method for retrieving structured document data | |
Gregor et al. | A methodology for structured ontology construction applied to intelligent transportation systems | |
CN106716402A (en) | Entity-centric knowledge discovery | |
KR20090023613A (en) | Visual and multi-dimensional search | |
US11321580B1 (en) | Item type discovery and classification using machine learning | |
CN115952415A (en) | Graph-based labeling of heterogeneous digital content items | |
US20240054326A1 (en) | Extreme classification processing using graphs and neural networks | |
Tao et al. | Facilitating Twitter data analytics: Platform, language and functionality | |
JP5277111B2 (en) | Pattern classification apparatus and pattern classification method | |
JP4789814B2 (en) | Cluster generation apparatus and cluster generation method | |
Sharma et al. | Bug Report Triaging Using Textual, Categorical and Contextual Features Using Latent Dirichlet Allocation | |
Varma | Use of ontologies for organizational knowledge management and knowledge management systems | |
Ye et al. | An interpretable mechanism for personalized recommendation based on cross feature | |
Fahad et al. | Towards Classification of Web Ontologies for the Emerging Semantic Web. | |
Shen et al. | Automatically finding and recommending resources to support knowledge workers' activities | |
Sreekantan et al. | Expert system for question answering on anomalous events and mitigation strategies using bidirectional transformers and knowledge graphs | |
Kumar et al. | Sentiment Knowledge Graph: Explore and Evaluate the Social Media Content | |
Room | Topic Modelling | |
Lakshmi et al. | Search for Social Smart Objects Constituting Sensor Ontology, Social IoT and Social Network Interaction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110921 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20120510 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120511 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130205 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130219 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130408 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130514 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130520 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5277111 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |