JP2011039838A - Pattern classification device and pattern classification method - Google Patents

Pattern classification device and pattern classification method Download PDF

Info

Publication number
JP2011039838A
JP2011039838A JP2009187377A JP2009187377A JP2011039838A JP 2011039838 A JP2011039838 A JP 2011039838A JP 2009187377 A JP2009187377 A JP 2009187377A JP 2009187377 A JP2009187377 A JP 2009187377A JP 2011039838 A JP2011039838 A JP 2011039838A
Authority
JP
Japan
Prior art keywords
pattern
patterns
search
graph
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009187377A
Other languages
Japanese (ja)
Other versions
JP5277111B2 (en
Inventor
Kyoshi Iizuka
京士 飯塚
Takahiko Murayama
隆彦 村山
Tomohide Yamamoto
具英 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009187377A priority Critical patent/JP5277111B2/en
Publication of JP2011039838A publication Critical patent/JP2011039838A/en
Application granted granted Critical
Publication of JP5277111B2 publication Critical patent/JP5277111B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a pattern classification device and a pattern classification method for classifying a plurality of patterns satisfactorily. <P>SOLUTION: A query issuing part 14 generates the number of N×M-pieces of retrieval patterns by making a first node in the number of N-pieces of patterns for retrieving subgraphs in a graph G include the number of M-pieces of keywords different from one another (S11) and retrieves the subgraph agreeing with each retrieval pattern from the graph G (S15). A pattern classification part 15 classifies the number of N-pieces of patterns based on an instance in a second node in the retrieved subgraph (S19). <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、パターン分類装置およびパターン分類方法に関するものである。   The present invention relates to a pattern classification device and a pattern classification method.

近年にあっては、大量のデータソースがコンピュータネットワーク上に存在しており、複数のデータソースを結合して、単一のデータソースからでは抽出できない情報を取り出す、データウェアハウスなどの技術が注目を集めている。   In recent years, there are a large number of data sources on computer networks, and technologies such as data warehouses that combine multiple data sources to extract information that cannot be extracted from a single data source are attracting attention. Collecting.

一方、異なる複数のデータソースから得られた情報を統一的に扱うための枠組みとして、グラフ表現できるデータモデルであるRDF(Resource Description Framework)を用いたセマンティックWeb技術も注目されている。   On the other hand, as a framework for handling information obtained from a plurality of different data sources in a unified manner, a semantic Web technology using RDF (Resource Description Framework), which is a data model that can be represented in a graph, has attracted attention.

セマンティックWebでは、SPARQLなどのRDFクエリ言語を用いて検索用のパターン(以下、単にパターンという)のマッチングによって必要な情報を検索するRDF検索技術などが提唱されている。   The Semantic Web proposes RDF search technology that searches for necessary information by matching search patterns (hereinafter simply referred to as patterns) using an RDF query language such as SPARQL.

非特許文献1は、キーワード文字列を含む自然文を検索するシステムにおいて、検索結果が類似するキーワードを類似するクエリとし、類似クエリごとに分類及び、ユーザに類似クエリを提案する仕組みを提供する技術を開示している。しかし、以下の問題があった。   Non-Patent Document 1 is a system that searches a natural sentence including a keyword character string and uses a similar query as a keyword having similar search results, and provides a mechanism for classifying each similar query and proposing a similar query to the user. Is disclosed. However, there were the following problems.

これらの技術で言われるクエリは、パターンの検索キーワード変数に相当するものであり、パターンに相当する部分については一切言及されていない。そのため、パターンの分類を行うことはできない。   Queries referred to in these techniques correspond to the search keyword variables of the pattern, and no reference is made to the portion corresponding to the pattern. Therefore, pattern classification cannot be performed.

例えば、非特許文献2では、対象グラフ集合の特性を反映した構造類似性の提案がなされ、そこでは、特徴的な部分構造を用いて、構造的な類似性を定義し、部分グラフの類似性判定を行う。   For example, Non-Patent Document 2 proposes a structural similarity that reflects the characteristics of the target graph set, where the structural similarity is defined using a characteristic partial structure, and the similarity of the subgraphs is defined. Make a decision.

しかし、この技術は、ラベル無し無向グラフを対象としており、そのままRDFなどのラベル有り有向グラフへ適用することはできないのである。   However, this technology targets unlabeled undirected graphs, and cannot be applied directly to labeled directed graphs such as RDF.

RDFなどのノードとアークにラベルを持つグラフ構造データに対する検索を行うためのクエリとして用いるパターンを選択する際に、グラフの構造が複雑であると、意図する検索を行うことができるパターンを探し出すことが困難になるため、パターンを効率的に選択可能にする必要がある。   When selecting a pattern to be used as a query for searching graph structure data with labels on nodes and arcs such as RDF, if the structure of the graph is complex, find a pattern that can perform the intended search Therefore, it is necessary to select a pattern efficiently.

特に複数の異なるデータソースから結合したグラフの場合には、グラフ中に意味的な重複が含まれ、意味的に類似する異なる構造のパターンが多数存在するため、取捨選択作業が煩雑になる。   In particular, in the case of a graph combined from a plurality of different data sources, semantic duplication is included in the graph, and there are many patterns having different structures that are semantically similar, so that the selection operation becomes complicated.

小野田透、湯本高行、角谷和俊、「検索傾向の部分的な類似に基づくトピッククラスタリング」、日本データベース学会論文誌 Vol.7, No.3, pp.49-54, 2008年12月Toru Onoda, Takayuki Yumoto, Kazutoshi Kakutani, “Topic clustering based on partial similarity of search tendency”, Transactions of the Database Society of Japan Vol.7, No.3, pp.49-54, December 2008 和田貴久、大野博之、稲積宏誠、「対象グラフ集合の特性を反映した構造類似性の提案」、日本データベース学会Letters Vol.6, No.1, pp.185-188,2007年6月Takahisa Wada, Hiroyuki Ohno, Hiromasa Inazumi, “Proposal of Structural Similarity Reflecting Characteristics of Object Graph Sets”, Database Society of Japan Letters Vol.6, No.1, pp.185-188, June 2007

本発明は、上記に鑑みなされたものであり、その目的とするところは、複数のパターンを分類可能なパターン分類装置およびパターン分類方法を提供することにある。   The present invention has been made in view of the above, and an object thereof is to provide a pattern classification apparatus and a pattern classification method capable of classifying a plurality of patterns.

上記の課題を解決するために、本発明に係るパターン分類装置は、インスタンスをもつノード間がアークによって接続されたグラフが記憶されるグラフデータベースと、前記グラフ内のサブグラフを検索するためのN個のパターンにおける第1ノードに対し、互いに異なるM個のキーワードを含ませて、N×M個の検索パターンを生成し、前記グラフから前記各検索パターンに合致するサブグラフを検索するグラフ検索手段と、前記検索されたサブグラフにおける第2ノード内のインスタンスを使用して前記N個のパターンにおける2つのパターンからなる組み合わせのそれぞれについて類似の度合いを求め、当該類似の度合いに基づいて前記N個のパターンを分類するパターン分類手段とを備えることを特徴とする。   In order to solve the above problems, a pattern classification apparatus according to the present invention includes a graph database in which a graph in which nodes having instances are connected by arcs is stored, and N graphs for searching subgraphs in the graph. Graph search means for generating N × M search patterns by including M different keywords for the first node in the pattern, and searching the graph for subgraphs matching the search patterns; Using the instance in the second node in the searched subgraph, obtain a degree of similarity for each of the combinations of the two patterns in the N patterns, and determine the N patterns based on the degree of similarity. Pattern classification means for classifying.

また、本発明に係るパターン分類方法は、インスタンスをもつノード間がアークによって接続されたグラフが記憶されるグラフデータベースを備えるパターン分類装置が行うパターン分類方法であって、前記パターン分類装置のグラフ検索手段が、前記グラフ内のサブグラフを検索するためのN個のパターンにおける第1ノードに対し、互いに異なるM個のキーワードを含ませて、N×M個の検索パターンを生成し、前記グラフから前記各検索パターンに合致するサブグラフを検索し、前記パターン分類装置のパターン分類手段が、前記検索されたサブグラフにおける第2ノード内のインスタンスを使用して前記N個のパターンにおける2つのパターンからなる組み合わせのそれぞれについて類似の度合いを求め、当該類似の度合いに基づいて前記N個のパターンを分類することを特徴とする。   The pattern classification method according to the present invention is a pattern classification method performed by a pattern classification apparatus including a graph database in which a graph in which nodes having instances are connected by arcs is stored. Means generates N × M search patterns by including M keywords different from each other for the first node in the N patterns for searching the subgraph in the graph, and generates the N × M search patterns from the graph; Sub-graphs that match each search pattern are searched, and the pattern classification unit of the pattern classification device uses a combination of two patterns in the N patterns by using an instance in a second node in the searched sub-graph. Find the degree of similarity for each and based on the degree of similarity Characterized by classifying the N patterns.

前記パターン分類手段は、前記N個のパターンを、前記類似の度合いに基づいて、1つ以上のパターンを含むパターンクラスタに分類するものであって、前記各キーワードにつき、2つのパターンの一方に当該キーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をA、当該2つのパターンの他方に当該キーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をBとして、
類似判定値=|A∩B|÷|A∪B|
ただし、
A、Bが共に空集合でなく、
|A∩B|は、AとBの積集合の中のインスタンス数、
|A∪B|は、AとBの和集合の中のインスタンス数、
を計算した場合、
前記各キーワードに対応する類似判定値の中のk個(0<k≦K:ただしKは前記キーワードの個数)以上が所定のしきい値以上となる当該2つのパターンを、互いに類似するパターンとして、同一のパターンクラスタに含ませるようにしてもよい。
The pattern classification means classifies the N patterns into a pattern cluster including one or more patterns based on the degree of similarity, and each of the keywords is classified into one of two patterns. A set of instances in the second node in one or more subgraphs that match the search pattern including the keyword is A, and one or more subgraphs that match the search pattern that includes the keyword in the other of the two patterns Let B be the set of instances in the second node at
Similarity judgment value = | A∩B | ÷ | A∪B |
However,
A and B are not empty sets,
| A∩B | is the number of instances in the intersection of A and B,
| A∪B | is the number of instances in the union of A and B,
When calculating
The two patterns in which k or more (0 <k ≦ K: K is the number of the keywords) among the similarity determination values corresponding to the keywords are equal to or greater than a predetermined threshold value are similar to each other. These may be included in the same pattern cluster.

あるいは、前記パターン分類手段は、以下のように処理を行ってもよい。
まず、前記N×M個の検索パターンから、該当のサブグラフを得られなかった検索で使用された検索パターンを除外する。
次に、2つの各パターンに共通のキーワードを含ませて得た検索パターンから共にサブグラフが得られた場合には当該2つのパターンを関連づけ、互いに関連づけられた複数のパターンから得られ且つ除外されていない検索パターンに含まれた1つ以上のキーワードをキーワードクラスタと定義し、他のパターンと関連づけられていない単一のパターンから得られ且つ除外されていない検索パターンに含まれた1つ以上のキーワードをキーワードクラスタと定義し、前記複数のキーワードを1つ以上のキーワードクラスタに分類する。
次に、前記各キーワードクラスタから1つのキーワードを選択するとともに、該選択されるキーワードを含み且つ除外されていない検索パターンの数が最も多くなるようにする。
次に、前記各キーワードクラスタにつき、選択されたキーワードを含み且つ除外されていない検索パターンを生成するために使用された1つ以上のパターンを選択する。
次に、前記選択された1つ以上のパターンに含まれ且つ互いに類似する複数のパターンをパターンクラスタと定義し、前記選択された1つ以上のパターンに含まれ且つ他のパターンと類似しない単一のパターンをパターンクラスタと定義し、前記選択された1つ以上のパターンを1つ以上のパターンクラスタに分類するとともに、前者のパターンクラスタに含まれるいずれの2パターンも、前記2パターンの一方に前記選択されたキーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をA、前記2パターンの他方に前記選択されたキーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をBとした場合、
類似判定値=|A∩B|÷|A∪B|
ただし、
A、Bが共に空集合でなく、
|A∩B|は、AとBの積集合の中のインスタンス数、
|A∪B|は、AとBの和集合の中のインスタンス数、
が所定のしきい値以上となるようにする。
Alternatively, the pattern classification unit may perform processing as follows.
First, from the N × M search patterns, the search patterns used in the search that could not obtain the corresponding subgraph are excluded.
Next, when a subgraph is obtained from a search pattern obtained by including a common keyword in each of the two patterns, the two patterns are associated with each other, obtained from a plurality of patterns associated with each other, and excluded. One or more keywords included in a search pattern that is derived from a single pattern that is defined as a keyword cluster and that is not associated with other patterns and that is not excluded Is defined as a keyword cluster, and the plurality of keywords are classified into one or more keyword clusters.
Next, one keyword is selected from each of the keyword clusters, and the number of search patterns including the selected keyword and not excluded is maximized.
Next, for each of the keyword clusters, one or more patterns used to generate a search pattern that includes the selected keyword and is not excluded are selected.
Next, a plurality of patterns included in the selected one or more patterns and similar to each other are defined as a pattern cluster, and a single pattern included in the selected one or more patterns and not similar to other patterns The pattern is defined as a pattern cluster, the selected one or more patterns are classified into one or more pattern clusters, and any two patterns included in the former pattern cluster are included in one of the two patterns. A set of instances in the second node in one or more subgraphs matching the search pattern including the selected keyword is A, and the search pattern including the selected keyword is included in the other of the two patterns. If the set of instances in the second node in one or more subgraphs is B,
Similarity judgment value = | A∩B | ÷ | A∪B |
However,
A and B are not empty sets,
| A∩B | is the number of instances in the intersection of A and B,
| A∪B | is the number of instances in the union of A and B,
Is greater than or equal to a predetermined threshold.

本発明によれば、パターンの第1ノードにキーワードを含ませて得られる検索パターンに合致するサブグラフを検索し、そのサブグラフにおける第2ノード内のインスタンスを検索結果として得る場合のパターンを分類でき、パターンの数を実質的に低減することができる。また、パターンをユーザに選択させる場合などにおいて、ユーザはパターンを容易に選択することができる。   According to the present invention, it is possible to search for a subgraph that matches a search pattern obtained by including a keyword in the first node of the pattern, and to classify patterns when obtaining an instance in the second node in the subgraph as a search result, The number of patterns can be substantially reduced. In addition, when the user selects a pattern, the user can easily select the pattern.

本実施の形態に係るグラフ検索装置の構成図である。It is a lineblock diagram of a graph search device concerning this embodiment. グラフGの一部を例示した図である。6 is a diagram illustrating a part of a graph G. FIG. RDF/XML形式のデータ、その元データおよびこの形式のデータによるサブグラフを例示した図である。It is the figure which illustrated the subgraph by the data of the RDF / XML format, its original data, and the data of this format. パターンをグラフ化して例示した図である。It is the figure which illustrated the pattern as a graph. パターンを分類する動作を示すシーケンス図である。It is a sequence diagram which shows the operation | movement which classifies a pattern. パターンの分類でクラスを選択し、しきい値を指定する際に表示される画面を示す図である。It is a figure which shows the screen displayed when selecting a class by the classification of a pattern and specifying a threshold value. パターンを分類する際に生成された検索パターンを示す図である。It is a figure which shows the search pattern produced | generated when classifying a pattern. パターンを分類する際に検索されたサブグラフを示す図である。It is a figure which shows the subgraph searched when classifying a pattern. ノードのインスタンスを検索する動作を示すシーケンス図である。It is a sequence diagram which shows the operation | movement which searches the instance of a node. インスタンスの検索でクラスを選択する際に表示される画面を示す図である。It is a figure which shows the screen displayed when selecting a class by the search of an instance. インスタンスの検索でパターンを選択し、キーワードを入力する際に表示される画面を示す図である。It is a figure which shows the screen displayed when selecting a pattern by searching an instance and inputting a keyword. 検索されたインスタンスを表示する画面を示す図である。It is a figure which shows the screen which displays the searched instance. パターンを分類する別な方法の説明で使用するパターンとキーワードを示す図である。It is a figure which shows the pattern and keyword used by description of another method of classifying a pattern. その方法におけるステップS19の動作を示すフローチャートである。It is a flowchart which shows operation | movement of step S19 in the method. その方法におけるパターンの除外、関連づけ、キーワードの選択の様子を示す図である。It is a figure which shows the mode of the exclusion of a pattern in the method, an association, and the selection of a keyword. その方法においてインスタンスの集合が構成される様子を示す図である。It is a figure which shows a mode that the set of instances is comprised in the method. その方法において330個のパターンを分類した結果を示す図である。It is a figure which shows the result of having classified 330 patterns in the method. その分類により得られた1つのパターンクラスタに含まれるパターンを示す図である。It is a figure which shows the pattern contained in one pattern cluster obtained by the classification.

以下、本発明の実施の形態を図面を参照して説明する。なお、同一または類似のものには同一符号を付与し、重複説明を省略する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. In addition, the same code | symbol is provided to the same or similar thing, and duplication description is abbreviate | omitted.

図1は、本実施の形態に係るグラフ検索装置の構成図である。
グラフ検索装置1は、ユーザ端末2に接続され、ユーザ端末2には、表示装置3が接続されている。
FIG. 1 is a configuration diagram of a graph search apparatus according to the present embodiment.
The graph search device 1 is connected to a user terminal 2, and a display device 3 is connected to the user terminal 2.

グラフ検索装置1は、表示装置3に表示される入力用インタフェースと出力用インタフェースを生成しユーザ端末2に送信するユーザインタフェース11と、インスタンスをもつノード間がアークによって接続されたグラフが記憶されるグラフデータベース12と、サブグラフの検索に用いられるパターンが記憶されるパターンデータベース13と、サブグラフやパターンを検索するクエリ発行部14と、パターンを分類するパターン分類部15と、分類により得られるパターンクラスタが記憶されるパターンクラスタデータベース16とを備える。
グラフ検索装置1は、パターン分類部15を備えることからわかるように、パターン分類装置としても機能する。
The graph search device 1 stores a user interface 11 that generates an input interface and an output interface displayed on the display device 3 and transmits them to the user terminal 2, and a graph in which nodes having instances are connected by arcs. There are a graph database 12, a pattern database 13 for storing patterns used for subgraph search, a query issuing unit 14 for searching for subgraphs and patterns, a pattern classifying unit 15 for classifying patterns, and a pattern cluster obtained by classification. And a pattern cluster database 16 to be stored.
As can be seen from the fact that the graph search device 1 includes the pattern classification unit 15, it also functions as a pattern classification device.

図2は、グラフデータベース12に記憶されたデータ群を全て使って表示できるグラフGの一部を例示した図である。   FIG. 2 is a diagram illustrating a part of the graph G that can be displayed using all the data groups stored in the graph database 12.

グラフデータベース12に記憶されたデータ群を全て使って、図2に一部を例示したグラフG、つまり互いに異なるインスタンスをもつノード間がラベルをもつアークによって接続され且つ当該インスタンスのクラスが定義されたグラフG、を表示することができる。逆にいえば、グラフGを表示するための過不足ないデータ群がグラフデータベース12に記憶されている。以下、そのデータ群を便宜的にグラフGという。また、なんらかのグラフ、サブグラフ(なんらかのグラフそのものまたはそれに含まれるグラフ)、パス(分岐および閉ループをもたないグラフ)などをクラスを含めて表示するための過不足ないデータ群を便宜的にグラフ、サブグラフ、パスなどという。   Using all the data groups stored in the graph database 12, the graph G illustrated in part in FIG. 2, that is, nodes having different instances are connected by arcs having labels, and classes of the instances are defined. A graph G can be displayed. Conversely, a data group for displaying the graph G is stored in the graph database 12. Hereinafter, the data group is referred to as a graph G for convenience. Also, for convenience, graphs and subgraphs can be used to display any graphs, subgraphs (some graphs themselves or graphs included in them), paths (graphs without branches and closed loops), etc. , Path and so on.

ラベルとは、アークの種類を識別する識別子であり、クラスとは、各インスタンスが属する概念を示すノードであり、インスタンスとは、クラス以外の個々の事物を示すノードである。   The label is an identifier for identifying the type of arc, the class is a node indicating a concept to which each instance belongs, and the instance is a node indicating individual things other than the class.

グラフGでは、例えば、「政治」や「山本幸子」などのインスタンスをもつノードが、「theme:担当者」などのラベルをもつアークで接続される。また、グラフGでは、ノードにそのインスタンス「政治」などの概念であるクラス「テーマ」などが定義される。   In the graph G, for example, nodes having instances such as “politics” and “Sachiko Yamamoto” are connected by an arc having a label such as “theme”. In the graph G, a class “theme”, which is a concept such as an instance “politics”, is defined in the node.

図3に示すように、「論文F」で示され、その元データの著者が山田太郎でり、題名が「B技術入門」であり、キーワードがB技術である、元データは、グラフデータベース12では、RDF/XML形式のデータとなって、グラフデータベース12に記憶され、これがグラフGのサブグラフをなす。「RDFのグラフ表現」と題されたものは、このサブグラフをグラフィカルに表現したものである。RDFについては、以下の文献に記載されている。   As shown in FIG. 3, the original data is “graph F”, the author of the original data is Taro Yamada, the title is “Introduction to B Technology”, the keyword is B technology, and the original data is the graph database 12. Then, it becomes RDF / XML format data and is stored in the graph database 12, which forms a sub-graph of the graph G. What is entitled “RDF graph representation” is a graphical representation of this subgraph. RDF is described in the following documents.

「Resource Description Framework(RDF)Model and Syntax Specification」, Ora Lassia, Ralph R.Swick編,[online], インターネット<URL:http://www.w3.org/TR/1999/REC-rdf-syntax-19990222/>
「RDF Vocabulary Description Language 1.0: RDF Schema」, Dan Brickley, R.V.Guha編,[online], インターネット<URL:http://www.w3.org/TR/rdf-schema/>
図1に戻り、パターンデータベース13には、サブグラフの検索に用いられるパターンが記憶される。
"Resource Description Framework (RDF) Model and Syntax Specification", Ora Lassia, Ralph R. Swick, [online], Internet <URL: http://www.w3.org/TR/1999/REC-rdf-syntax- 19990222 />
"RDF Vocabulary Description Language 1.0: RDF Schema", Dan Brickley, RVGuha, [online], Internet <URL: http://www.w3.org/TR/rdf-schema/>
Returning to FIG. 1, the pattern database 13 stores patterns used for subgraph search.

図4は、パターンデータベース13に記憶されたパターンのうちの3パターンをグラフ化して例示した図である。   FIG. 4 is a diagram illustrating three patterns of the patterns stored in the pattern database 13 as graphs.

パターンは、グラフデータベース12に記憶されるデータ群(グラフG)の一部をなすデータ群と同様なものであり、それを本図のようにグラフ化できるので、便宜的にはグラフと言えるが、パターンは表示するものではなく、表示されるグラフの検索に使用されるものである。なお、データ群である実際のパターンを逐一説明するのは冗長なのでグラフ化されたパターンで便宜的に説明する。   The pattern is the same as the data group forming a part of the data group (graph G) stored in the graph database 12 and can be graphed as shown in FIG. The pattern is not displayed but is used for searching the displayed graph. Since it is redundant to explain the actual pattern as a data group one by one, it will be explained for convenience with a graphed pattern.

一般的にパターンでは、ノードやアークの一部はインスタンスやラベルをもち、残りはそれらをもたない。そして、インスタンスやラベルをもたないノードやアークには変数が設定される。変数は、図に示すように、?とそれに後続する単語からなる。   In general, in a pattern, some nodes and arcs have instances and labels, and the rest do not. Variables are set for nodes and arcs that do not have instances or labels. Variables as shown in the figure? Followed by a word.

ここでは、クラス「テーマ」が定義されたノードを一方の端位置に有し、クラス「組織」が定義されたノードを他方の端位置に有し、各ノードがインスタンスをもたず、各アークがラベルをもつ、パターンP1、P2、P3が、パターンデータベース13に記憶されていることとする。これらは、いずれもテーマから組織を知るためのパターンであり、パターンP1は、「テーマが属する組織」という意味を有し、パターンP2は、「テーマの責任者が属する組織」という意味を有し、パターンP3は、「テーマの担当者が属する組織」という意味を有する。   Here, a node with class “theme” is defined at one end position, a node with class “organization” is defined at the other end position, each node has no instance, and each arc It is assumed that patterns P1, P2, and P3 having a label are stored in the pattern database 13. These are all patterns for knowing the organization from the theme. The pattern P1 has the meaning of “organization to which the theme belongs”, and the pattern P2 has the meaning of “organization to which the person in charge of the theme belongs”. The pattern P3 means “organization to which the person in charge of the theme belongs”.

このようなパターンによって、あるグラフから検索されるサブグラフは、以下の条件を備えるものである。   A subgraph retrieved from a certain graph by such a pattern has the following conditions.

つまり、検索されるのは、(1)そのグラフまたはそのサブグラフであって、(2)パターンの構造を過不足なく有し、(3)パターン内でのインスタンスやラベルを過不足なく有し、つまりパターン内でのインスタンスやラベルをもつノードやアークの位置に等しい位置にあるノードやアークが当該インスタンスに等しいインスタンスやラベルを有するものである。   In other words, what is searched is (1) the graph or its subgraph, (2) having a pattern structure without excess or deficiency, (3) having instances or labels within the pattern without deficiency, That is, a node or arc at a position equal to the position of a node or arc having an instance or label in the pattern has an instance or label equal to the instance.

(3)の条件を補足すれば、例えば、パターンの一方端にあるノードのインスタンスを「A」とすると、少なくとも検索されるサブグラフの一方端にあるノードのインスタンスも「A」でなければならず、また、パターンの一方端にあるノードに接続される唯一のアークのラベルを「B」とすると、当該サブグラフの一方端にあるノードに接続される唯一のアークのラベルも「B」でなければならず、こうしたインスタンスやラベルのマッチングが、パターン内でのインスタンスやラベルをもつ全てのノードとアークにおいて必要なのである。   If the condition of (3) is supplemented, for example, if the instance of the node at one end of the pattern is “A”, the instance of the node at the one end of the subgraph to be searched must also be “A”. Also, if the label of the only arc connected to the node at one end of the pattern is “B”, the label of the only arc connected to the node at one end of the subgraph is not “B”. Rather, such instance and label matching is required for all nodes and arcs that have instances and labels in the pattern.

なお、パターンにより、このようにしてサブグラフを検索することを、パターンに合致する(マッチするともいう)サブグラフを検索するという。   Note that searching for a subgraph by a pattern in this way is called searching for a subgraph that matches (also matches) the pattern.

図1に戻り、クエリ発行部14は、パターンデータベース13からパターンを検索する。また、クエリ発行部14は、グラフGのサブグラフを検索する。   Returning to FIG. 1, the query issuing unit 14 searches for a pattern from the pattern database 13. In addition, the query issuing unit 14 searches for a subgraph of the graph G.

グラフ検索装置1は、各部(データベース含む)でデータの送受信(受け渡し)が可能であればよい。つまり、各部を、同一のコンピュータに配置してもよいし、複数のコンピュータに分散配置してもよい。また、これらコンピュータをグラフ検索装置やパターン分類装置として動作させるコンピュータプログラムを通信回線を介して送受信してもよい。また、このコンピュータプログラムを、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク、磁気テープなどの記録媒体に記録し、その記録媒体を流通させてもよい。   The graph search device 1 only needs to be able to transmit and receive (deliver) data in each unit (including a database). That is, each unit may be arranged on the same computer or may be distributed on a plurality of computers. Further, a computer program that causes these computers to operate as a graph search device or a pattern classification device may be transmitted / received via a communication line. The computer program may be recorded on a recording medium such as a semiconductor memory, a magnetic disk, an optical disk, a magneto-optical disk, or a magnetic tape, and the recording medium may be distributed.

(本実施の形態の動作)
図5は、グラフ検索装置1においてパターンを分類する動作を示すシーケンス図である。
(Operation of this embodiment)
FIG. 5 is a sequence diagram showing an operation of classifying patterns in the graph search device 1.

グラフ検索装置1では、ユーザインタフェース11が入力用インタフェースを生成し、それをユーザ端末2に送信して(S1)、図6で示すように表示させる(S3)。   In the graph search device 1, the user interface 11 generates an input interface, transmits it to the user terminal 2 (S1), and displays it as shown in FIG. 6 (S3).

ここで、ユーザが、例えば、新聞社などの中で、「政治」というテーマに関連する社内などの組織がどこかを知りたいとする。また、ユーザは、パターン同士の類似の判定を厳しめにしたく、その程度が、1を最大とした場合には、「0.7」であると考えていることとする。   Here, it is assumed that the user wants to know where an organization such as a company related to the theme of “politics” is located in a newspaper company, for example. In addition, the user wants to make the similarity determination between patterns stricter, and when the degree is set to 1 as the maximum, it is assumed that the user thinks that “0.7”.

この例では、ユーザの操作により、「テーマ」という情報(クラス「テーマ」という)、「組織」という情報(クラス「組織」という)が、入力用インタフェースに含まれた情報から選択されたこととする。   In this example, the information “theme” (class “theme”) and the information “organization” (class “organization”) are selected from the information included in the input interface. To do.

また、ユーザ端末2では、ユーザの操作により、「0.7」という値(しきい値「0.7」という)が指定されたこととする。   In the user terminal 2, it is assumed that a value “0.7” (threshold value “0.7”) is designated by a user operation.

ユーザ端末2は、これらのパラメータをグラフ検索装置1に送信する(S5)。   The user terminal 2 transmits these parameters to the graph search device 1 (S5).

グラフ検索装置1では、クエリ発行部14が、クラス「テーマ」を含む検索構文であるクエリをグラフデータベース12に送信し、これにより、クラス「テーマ」が定義されたノード内のインスタンス(ここでは、インスタンス「政治」、「歴史」、「科学」(以下、それぞれキーワードK1、K2、K3という))をグラフデータベース12から検索する(S7)。   In the graph search device 1, the query issuing unit 14 transmits a query, which is a search syntax including the class “theme”, to the graph database 12, whereby an instance in the node where the class “theme” is defined (here, The instance “politics”, “history”, and “science” (hereinafter referred to as keywords K1, K2, and K3) are searched from the graph database 12 (S7).

クエリ発行部14は、クラス「テーマ」とクラス「組織」を含む検索構文であるクエリをパターンデータベース13に送信し、これにより、パターンP1、P2、P3をパターンデータベース13から検索する(S9)。   The query issuing unit 14 transmits a query having a search syntax including the class “theme” and the class “organization” to the pattern database 13, thereby searching the pattern database 13 for patterns P 1, P 2 and P 3 (S 9).

次に、クエリ発行部14が、パターンP1、P2、P3における、クラス「テーマ」が定義されたノード(第1ノードという)に対し、各キーワードK1、K2、K3を含ませて、3(パターン数)×3(キーワード数)個(合計9個)のパターン(以下、検索パターンP11〜P33という)を生成する(S11)。   Next, the query issuing unit 14 includes the keywords K1, K2, and K3 in the patterns P1, P2, and P3 in which the class “theme” is defined (referred to as the first node) and includes 3 (pattern Number) × 3 (number of keywords) (total of 9) patterns (hereinafter referred to as search patterns P11 to P33) are generated (S11).

図7は、これらの検索パターンを示す図である。   FIG. 7 is a diagram showing these search patterns.

この図では、クラスを図示省略している。例えば、検索パターンP11は、パターンP1の第1ノードにキーワードK1「政治」をインスタンスとして含ませたものである。
検索パターンP12は、パターンP1の第1ノードにキーワードK1「歴史」をインスタンスとして含ませたものである。
検索パターンP13は、パターンP1の第1ノードにキーワードK1「科学」をインスタンスとして含ませたものである。
検索パターンP21は、パターンP2の第1ノードにキーワードK1「政治」をインスタンスとして含ませたものである。
検索パターンP22は、パターンP2の第1ノードにキーワードK1「歴史」をインスタンスとして含ませたものである。
検索パターンP23は、パターンP2の第1ノードにキーワードK1「科学」をインスタンスとして含ませたものである。
検索パターンP31は、パターンP3の第1ノードにキーワードK1「政治」をインスタンスとして含ませたものである。
検索パターンP32は、パターンP3の第1ノードにキーワードK1「歴史」をインスタンスとして含ませたものである。
検索パターンP33は、パターンP3の第1ノードにキーワードK1「科学」をインスタンスとして含ませたものである。
In this figure, the class is not shown. For example, the search pattern P11 includes the keyword K1 “politics” as an instance in the first node of the pattern P1.
The search pattern P12 includes the keyword K1 “history” as an instance in the first node of the pattern P1.
The search pattern P13 includes the keyword K1 “science” as an instance in the first node of the pattern P1.
The search pattern P21 includes the keyword K1 “politics” as an instance in the first node of the pattern P2.
The search pattern P22 includes the keyword K1 “history” as an instance in the first node of the pattern P2.
The search pattern P23 includes the keyword K1 “science” as an instance in the first node of the pattern P2.
The search pattern P31 includes the keyword K1 “politics” as an instance in the first node of the pattern P3.
The search pattern P32 includes the keyword K1 “history” as an instance in the first node of the pattern P3.
The search pattern P33 includes the keyword K1 “science” as an instance in the first node of the pattern P3.

図5に戻り、クエリ発行部14が、検索パターンP11〜P33をクエリに変換し、それをグラフデータベース12に送信することで、その検索パターンにマッチするサブグラフをグラフGから取得する(S15)。   Returning to FIG. 5, the query issuing unit 14 converts the search patterns P11 to P33 into queries, and transmits them to the graph database 12, thereby acquiring a subgraph matching the search pattern from the graph G (S15).

ここでは、検索パターンP11〜P33から、図8に示すようなサブグラフSG(P11)〜SG(P33)がそれぞれ取得されたこととする。   Here, it is assumed that subgraphs SG (P11) to SG (P33) as shown in FIG. 8 are obtained from the search patterns P11 to P33, respectively.

図5に戻り、クエリ発行部14は、パターンP1、P2、P3、サブグラフSG(P11)〜SG(P33)、しきい値「0.7」、クラス「組織」をパターン分類部15に与える(S17)。   Returning to FIG. 5, the query issuing unit 14 gives the patterns P1, P2, and P3, the subgraphs SG (P11) to SG (P33), the threshold value “0.7”, and the class “organization” to the pattern classification unit 15 ( S17).

パターン分類部15は、サブグラフ、しきい値、クラスに基づいて、パターンを分類し(S19)、分類結果をパターンクラスタデータベース16に格納する(S21)。   The pattern classification unit 15 classifies the pattern based on the subgraph, threshold value, and class (S19), and stores the classification result in the pattern cluster database 16 (S21).

ここで、ステップS19を詳述する。
パターン分類部15は、パターンP1〜P3を1以上のパターンクラスタに分類する。ここでは、複数の類似するパターンを含む集合、または、他のパターンと類似しない単一のパターンをパターンクラスタという。したがって、パターン分類部15は、例えば、パターンP1、P2を含むパターンクラスタと、パターンP3を含むパターンクラスタを生成する。
Here, step S19 will be described in detail.
The pattern classification unit 15 classifies the patterns P1 to P3 into one or more pattern clusters. Here, a set including a plurality of similar patterns or a single pattern not similar to other patterns is referred to as a pattern cluster. Accordingly, the pattern classification unit 15 generates, for example, a pattern cluster including the patterns P1 and P2 and a pattern cluster including the pattern P3.

このとき、パターン分類部15は、パターンP1〜P3における全てのパターンの組み合わせにつき、以下のような処理を行う。   At this time, the pattern classification unit 15 performs the following processing for all combinations of patterns in the patterns P1 to P3.

パターンP1、P2の組の例を説明する。
パターン分類部15は、パターンP1にキーワードK1を含ませた検索パターンP11に合致する1つ以上のサブグラフ(ここではサブグラフSG(P11))におけるクラス「組織」が定義されたノード(第2ノードという)内のインスタンスの集合(ここでは「○○グループ」のみ)をR11、パターンP2にキーワードK1を含ませた検索パターンP21に合致する1つ以上のサブグラフ(ここではサブグラフSG(P21))におけるクラス「組織」が定義されたノード(第2ノード)内のインスタンスの集合(ここでは「○○グループ」)をR21として、
R11、R21が共に空集合でないなら、パターンP1、P2、キーワードK1に関し、
類似判定値T(P1、P2、K1)=|R11∩R21|÷|R11∪R21|
ただし、
|R11∩R21|は、R11とR21の積集合の中のインスタンス数、
|R11∪R21|は、R11とR21の和集合の中のインスタンス数、
を計算し、類似判定値T(P1、P2、K1)がしきい値「0.7」以上か否かを判定する。
An example of a set of patterns P1 and P2 will be described.
The pattern classification unit 15 is a node (referred to as a second node) in which a class “organization” is defined in one or more subgraphs (here, subgraph SG (P11)) matching the search pattern P11 in which the keyword P1 is included in the pattern P1. ) Is a set of instances (here, “XX group only”) in R11, and a class in one or more subgraphs (here, subgraph SG (P21)) that matches the search pattern P21 including the keyword K1 in the pattern P2. A set of instances (here “XX group”) in a node (second node) in which “organization” is defined is R21,
If R11 and R21 are not empty sets, the patterns P1, P2 and the keyword K1 are
Similarity determination value T (P1, P2, K1) = | R11∩R21 | ÷ | R11∪R21 |
However,
| R11∩R21 | is the number of instances in the product set of R11 and R21,
| R11∪R21 | is the number of instances in the union of R11 and R21,
Is calculated, and it is determined whether or not the similarity determination value T (P1, P2, K1) is equal to or greater than the threshold value “0.7”.

ここで、類似判定値T(P1、P2、K1)におけるP1、P2、K1は、パターンP1、P2、キーワードK1に関するものという意味である。以下に説明する類似判定値についても同様である。   Here, P1, P2, and K1 in the similarity determination value T (P1, P2, and K1) mean that they relate to the patterns P1 and P2, and the keyword K1. The same applies to the similarity determination value described below.

さて、ここでは、パターンP1、P2、キーワードK1について、類似判定値T(P1、P2、K1)を計算し、しきい値「0.7」以上か否かを判定するのである。   Here, the similarity determination value T (P1, P2, K1) is calculated for the patterns P1, P2 and the keyword K1, and it is determined whether or not the threshold is “0.7” or more.

R11∩R21は、「○○グループ」を含むので、|R11∩R21|=1である。
R11∪R21は、「○○グループ」を含むので、|R11∪R21|=1である。
よって、類似判定値T(P1、P2、K1)=1÷1=1となり、しきい値「0.7」以上と判定される。
Since R11∩R21 includes “XX group”, | R11∩R21 | = 1.
Since R11∪R21 includes “XX group”, | R11∪R21 | = 1.
Therefore, the similarity determination value T (P1, P2, K1) = 1 ÷ 1 = 1, and it is determined that the threshold value is “0.7” or more.

同様に、パターン分類部15は、パターンP1、P2、キーワードK2について、類似判定値T(P1、P2、K2)を計算し、しきい値「0.7」以上か否かを判定する。
積集合は、「○○グループ」を含むので、積集合の中のインスタンス数=1である。
和集合は、「○○グループ」を含むので、和集合の中のインスタンス数=1である。
よって、類似判定値T(P1、P2、K2)=1÷1=1となり、しきい値「0.7」以上と判定される。
Similarly, the pattern classification unit 15 calculates a similarity determination value T (P1, P2, K2) for the patterns P1, P2, and the keyword K2, and determines whether or not the threshold is “0.7” or more.
Since the intersection set includes “XX group”, the number of instances in the intersection set = 1.
Since the union includes “XX group”, the number of instances in the union = 1.
Therefore, the similarity determination value T (P1, P2, K2) = 1 ÷ 1 = 1, and it is determined that the threshold is “0.7” or more.

同様に、パターン分類部15は、パターンP1、P2、キーワードK3について、類似判定値T(P1、P2、K3)を計算し、しきい値「0.7」以上か否かを判定する。
積集合は、空集合なので、積集合の中のインスタンス数=0である。
和集合は、「××グループ」、「△△グループ」を含むので、和集合の中のインスタンス数=2である。
よって、類似判定値T(P1、P2、K3)=0となり、しきい値「0.7」未満と判定される。
Similarly, the pattern classification unit 15 calculates the similarity determination value T (P1, P2, K3) for the patterns P1, P2, and the keyword K3, and determines whether or not the threshold is “0.7” or more.
Since the product set is an empty set, the number of instances in the product set = 0.
Since the union includes “XX group” and “ΔΔ group”, the number of instances in the union = 2.
Therefore, the similarity determination value T (P1, P2, K3) = 0, and is determined to be less than the threshold value “0.7”.

次に、パターン分類部15は、例えば、3つの類似判定値の中のk個(0<k≦K:ただしKはキーワードの個数(ここでは「3」)である。)以上がしきい値「0.7」以上であったか否かを判定し、k個以上がしきい値以上であったなら、パターンP1、P2は類似していると判定する。なお、kの値は、パラメータとして入力してもよいし、既定値であってもよい。   Next, for example, the pattern classification unit 15 has a threshold equal to or greater than k (0 <k ≦ K: where K is the number of keywords (here, “3”)) among the three similarity determination values. It is determined whether or not “0.7” or more. If k or more is equal to or greater than the threshold value, it is determined that the patterns P1 and P2 are similar. The value of k may be input as a parameter or may be a default value.

例えば、k=1なら、3つの類似判定値の中の少なくとも1つがしきい値以上なら、パターンP1、P2は類似していると判定される。
例えば、k=3なら、3つの類似判定値の中の全てがしきい値以上なら、パターンP1、P2は類似していると判定される。
For example, if k = 1, it is determined that the patterns P1 and P2 are similar if at least one of the three similarity determination values is greater than or equal to the threshold value.
For example, if k = 3, if all of the three similarity determination values are equal to or greater than the threshold value, the patterns P1 and P2 are determined to be similar.

なお、類似判定値を計算する際、計算対象の2つの集合の一方または両方に空集合なら、その計算はスキップされる。つまり、スキップなしで、3つの類似判定値が計算される場合だけでなく、それより少ない1つまたは2つの類似判定値が計算される場合もあるのである。   When calculating the similarity determination value, if one or both of the two sets to be calculated are empty sets, the calculation is skipped. That is, not only the case where three similarity determination values are calculated without skipping, but also one or two similarity determination values smaller than that may be calculated.

このようにして、パターン分類部15は、例えば、パターンP1、P2を含むパターンクラスタと、パターンP3を含むパターンクラスタを生成する(S19)。   In this way, the pattern classification unit 15 generates, for example, a pattern cluster including the patterns P1 and P2 and a pattern cluster including the pattern P3 (S19).

パターン分類部15は、各パターンクラスタ(分類結果)をパターンクラスタデータベース16に格納する(S21)。ここでは、2つ以上のパターンを含むパターンクラスタのみならず、1つのパターンのみを含むパターンクラスタもパターンクラスタデータベース16に格納される。   The pattern classification unit 15 stores each pattern cluster (classification result) in the pattern cluster database 16 (S21). Here, not only a pattern cluster including two or more patterns but also a pattern cluster including only one pattern is stored in the pattern cluster database 16.

図9は、グラフ検索装置1においてグラフGからノードのインスタンスを検索する動作を示すシーケンス図である。   FIG. 9 is a sequence diagram showing an operation of searching for an instance of a node from the graph G in the graph search device 1.

ユーザインタフェース11は、入力用インタフェースを生成し、それをユーザ端末2に送信して(S51)、図10に示すように表示させる(S53)。   The user interface 11 generates an input interface, transmits it to the user terminal 2 (S51), and displays it as shown in FIG. 10 (S53).

ここで、ユーザは、例えば、パターンを分類する際のユーザであり、「政治」というテーマに関連する社内などの組織がどこかを知りたいとする。   Here, the user is, for example, a user who classifies patterns, and wants to know where the organization such as the company related to the theme “politics” is.

ここでは、ユーザの操作により、「テーマ」という情報(クラス「テーマ」という)、「組織」という情報(クラス「組織」という)が、入力用インタフェースに含まれた情報から選択されたこととする。   Here, it is assumed that the information “theme” (class “theme”) and the information “organization” (class “organization”) are selected from the information included in the input interface by the user's operation. .

ユーザ端末2は、これらパラメータをグラフ検索装置1に送信する(S55)。   The user terminal 2 transmits these parameters to the graph search device 1 (S55).

グラフ検索装置1では、クエリ発行部14が、クラス「テーマ」とクラス「組織」を含む検索構文であるクエリをパターンデータベース13に送信し、これにより、パターンP1、P2、P3をパターンデータベース13から検索する(S59)。   In the graph search device 1, the query issuing unit 14 transmits a query having a search syntax including the class “theme” and the class “organization” to the pattern database 13, and thereby the patterns P 1, P 2, and P 3 are transmitted from the pattern database 13. Search is performed (S59).

次に、クエリ発行部14は、パターンクラスタデータベース16を参照し、パターンP1、P2を含むパターンクラスタがあるので、検索されたパターンP1、P2の一方である、例えばパターンP2を除外し(S60)、パターンP2を除いた2つのパターンP1、P3をユーザインタフェース11に与える。   Next, the query issuing unit 14 refers to the pattern cluster database 16, and since there is a pattern cluster including the patterns P1 and P2, excludes, for example, the pattern P2, which is one of the searched patterns P1 and P2 (S60). The two patterns P1 and P3 excluding the pattern P2 are given to the user interface 11.

ステップS60では、パターンデータベース13から複数のパターンを含むパターンクラスタを検索し、ステップS59で検索された複数のパターンから、当該パターンクラスタ内の複数のパターンに合致する複数のパターンを選択し、選択された複数のパターンのうちの任意の1つ以上を残して、残りを除外する。   In step S60, a pattern cluster including a plurality of patterns is searched from the pattern database 13, and a plurality of patterns matching the plurality of patterns in the pattern cluster are selected from the plurality of patterns searched in step S59. Any one or more of the plurality of patterns are left and the rest are excluded.

詳しくは、例えば、最も長いパターンを残すようにしてもよい。シンプルでわかりやすいパターンだからである。
また、検索結果が空でなく且つキーワードが多いパターンを残すようにしてもよい。検索結果が得やすいパターンだからである。
また、検索結果が空でなく且つキーワードが少ないパターンを残すようにしてもよい。厳密な検索結果が得やすいパターンだからである。
また、こうした取捨選択をオペレータが判断してもよい。
Specifically, for example, the longest pattern may be left. This is because it is a simple and easy-to-understand pattern.
Alternatively, a pattern in which the search result is not empty and has many keywords may be left. This is because the search results are easy to obtain.
Alternatively, a pattern in which the search result is not empty and the number of keywords is small may be left. This is because an exact search result can be easily obtained.
In addition, the operator may determine such selection.

ユーザインタフェース11は、入力用インタフェースを生成し、それをユーザ端末2に送信して(S61)、図11に示すように表示させる(S63)。ここでは、パターンP1、P3が表示されるが、図11では、クラスやアークのラベルなどを図示せず、簡易的に示している。   The user interface 11 generates an input interface, transmits it to the user terminal 2 (S61), and displays it as shown in FIG. 11 (S63). Here, the patterns P1 and P3 are displayed, but in FIG. 11, the class and arc labels are not shown and are simply shown.

これに対して、ユーザがユーザ端末2にパターンP1の選択指示、キーワード「政治」を入力し、ユーザ端末2は、これらパラメータをグラフ検索装置1に送信する(S65)。   In response to this, the user inputs the selection instruction of the pattern P1 and the keyword “politics” to the user terminal 2, and the user terminal 2 transmits these parameters to the graph search device 1 (S65).

グラフ検索装置1では、クエリ発行部14が、選択されたパターンP1における、クラス「テーマ」が定義されたノードに対し、キーワード「政治」を含ませて、検索パターン(つまり、図7の検索パターンP11)を生成する(S67)。   In the graph search device 1, the query issuing unit 14 includes the keyword “politics” for the node in which the class “theme” is defined in the selected pattern P <b> 1, and the search pattern (that is, the search pattern in FIG. 7). P11) is generated (S67).

クエリ発行部14は、検索パターンP11をクエリに変換し、それをグラフデータベース12に送信することで、その検索パターンにマッチするサブグラフ(つまり、図8のサブグラフSG(P11))をグラフGから取得する(S71)。   The query issuing unit 14 converts the search pattern P11 into a query, and transmits it to the graph database 12, thereby acquiring a subgraph that matches the search pattern (that is, the subgraph SG (P11) in FIG. 8) from the graph G. (S71).

次に、クエリ発行部14は、サブグラフSG(P11)におけるクラス「組織」が定義されたノード内のインスタンス(つまり、「○○グループ」)を取り出し、ユーザインタフェース11に与える(S73)。   Next, the query issuing unit 14 takes out an instance (that is, “XX group”) in the node in which the class “organization” in the subgraph SG (P11) is defined, and gives it to the user interface 11 (S73).

ユーザインタフェース11は、出力用インタフェースを生成し、それをユーザ端末2に送信して(S75)、図12に示すように表示させる(S77)。   The user interface 11 generates an output interface, transmits it to the user terminal 2 (S75), and displays it as shown in FIG. 12 (S77).

したがって、ユーザは、3つのパターンP1、P2、P3から1つを選択するのでなく、2つのパターンP1、P3から1つを選択すればよいので、利便性が向上する。   Therefore, the user does not need to select one from the three patterns P1, P2, and P3, but selects one from the two patterns P1 and P3, which improves convenience.

なお、ここでは、1つのパターンを選択したが、2つ以上のパターンを選択してもよい。この際であっても、例えば、選択候補を少なくでき、その少ない選択候補から2つ以上のパターンを選択すればよいので、利便性が向上する。   Although one pattern is selected here, two or more patterns may be selected. Even in this case, for example, the number of selection candidates can be reduced, and two or more patterns may be selected from the few selection candidates, so that convenience is improved.

なお、パターン分類部15は、複数のパターンを1以上のパターンクラスタに分類する際に、別な方法を用いてもよい。   The pattern classification unit 15 may use another method when classifying a plurality of patterns into one or more pattern clusters.

以下、その一例を説明する。なお、説明のない点については、上記の実施例と同様である。   An example will be described below. The points not described are the same as in the above embodiment.

ここでは、便宜上、図13に示すように、前述のパターンP1などの代わりに、5つのパターンP101〜P105を使用し、前述のキーワードK1などの代わりに、5つのキーワードK11〜K15を使用することとする。   Here, for the sake of convenience, as shown in FIG. 13, five patterns P101 to P105 are used instead of the above-described pattern P1, and five keywords K11 to K15 are used instead of the above-described keyword K1. And

図5のステップS11では、クエリ発行部14は、パターンP101〜P105における第1ノードに対し、各キーワードK11〜K15を含ませて、5(パターン数)×5(キーワード数)個(合計25個)の検索パターンP1011〜P1055という)を生成する(S11)。   In step S11 of FIG. 5, the query issuing unit 14 includes 5 keywords (number of patterns) × 5 (number of keywords) (25 in total) including the keywords K11 to K15 for the first nodes in the patterns P101 to P105. ) Search patterns P1011 to P1055) are generated (S11).

クエリ発行部14が、検索パターンP1011〜P1055をクエリに変換し、それをグラフデータベース12に送信することで、その検索パターンにマッチするサブグラフをグラフGから取得する(S15)。   The query issuing unit 14 converts the search patterns P1011 to P1055 into queries, and transmits them to the graph database 12, thereby acquiring a subgraph that matches the search pattern from the graph G (S15).

クエリ発行部14は、パターンP101〜P105、サブグラフ、しきい値「0.7」、クラス「組織」をパターン分類部15に与える(S17)。   The query issuing unit 14 gives the patterns P101 to P105, the subgraph, the threshold value “0.7”, and the class “organization” to the pattern classification unit 15 (S17).

パターン分類部15は、サブグラフ、しきい値、クラスに基づいて、パターンを分類し(S19)、分類結果をパターンクラスタデータベース16に格納する(S21)。   The pattern classification unit 15 classifies the pattern based on the subgraph, threshold value, and class (S19), and stores the classification result in the pattern cluster database 16 (S21).

ここで、ステップS19を詳述する。ステップ19では、パターン分類部15は、パターンP101〜P105を1以上のパターンクラスタに分類する。   Here, step S19 will be described in detail. In step 19, the pattern classification unit 15 classifies the patterns P101 to P105 into one or more pattern clusters.

図14は、そのステップS19の動作を示すフローチャートである。   FIG. 14 is a flowchart showing the operation in step S19.

パターン分類部15は、まず、検索パターンP1011〜P1055から、該当のサブグラフを得られなかった検索で使用された検索パターンを除外する(S191)。   The pattern classification unit 15 first excludes the search pattern used in the search for which the corresponding subgraph was not obtained from the search patterns P1011 to P1055 (S191).

図15に示すように、パターン分類部15は、×印のついた升目に該当する検索パターンを除外する。   As shown in FIG. 15, the pattern classification unit 15 excludes search patterns corresponding to cells marked with “x”.

次に、パターン分類部15は、図15において枠線Y1で囲って示したように、2つの各パターン(例えば、パターンP101、P102)に共通のキーワード(例えば、キーワードK11)を含ませて得た検索パターン(例えば、検索パターンP1011、P1021)から共にサブグラフが得られた場合には当該2つのパターン(パターンP101、P102)を互いに関連づける(S193)。   Next, the pattern classification unit 15 is obtained by including a keyword (for example, keyword K11) common to the two patterns (for example, patterns P101 and P102), as indicated by the frame Y1 in FIG. When subgraphs are obtained from the search patterns (for example, search patterns P1011 and P1021), the two patterns (patterns P101 and P102) are associated with each other (S193).

図15において、枠線Y2で囲って示したように、4つのパターンP101〜P104は互いに関連づけられる。   In FIG. 15, the four patterns P101 to P104 are associated with each other as shown by being surrounded by the frame line Y2.

また、パターン分類部15は、互いに関連づけられた複数のパターンから得られ且つ除外されていない検索パターンに含まれた1つ以上のキーワードをキーワードクラスタと定義する(S195)。図15によれば、キーワードK11〜K14がキーワードクラスタ(キーワードクラスタC1という)と定義される。   Further, the pattern classification unit 15 defines one or more keywords included in the search pattern obtained from a plurality of patterns associated with each other and not excluded as a keyword cluster (S195). According to FIG. 15, the keywords K11 to K14 are defined as keyword clusters (referred to as keyword clusters C1).

また、パターン分類部15は、他のパターンと関連づけられていない単一のパターンから得られ且つ除外されていない検索パターンに含まれた1つ以上のキーワードをキーワードクラスタと定義する(S195)。図15によれば、キーワードK15がキーワードクラスタ(キーワードクラスタC2という)と定義される。   Further, the pattern classification unit 15 defines one or more keywords included in a search pattern obtained from a single pattern not associated with another pattern and not excluded as a keyword cluster (S195). According to FIG. 15, the keyword K15 is defined as a keyword cluster (referred to as keyword cluster C2).

次に、パターン分類部15は、各キーワードクラスタC1、C2から1つのキーワードを選択する(S197)。その際に、パターン分類部15は、選択されるキーワードを含み且つ除外されていない検索パターンの数が最も多くなるようにする。図15によれば、キーワードクラスタC1、C2からそれぞれキーワードK11、K14が選択される。   Next, the pattern classification unit 15 selects one keyword from each of the keyword clusters C1 and C2 (S197). At that time, the pattern classification unit 15 maximizes the number of search patterns that include the selected keyword and are not excluded. According to FIG. 15, keywords K11 and K14 are selected from the keyword clusters C1 and C2, respectively.

次に、パターン分類部15は、キーワードクラスタC1につき、選択されたキーワードK11を含み且つ除外されていない検索パターンP1011、P1021、P1031を生成するために使用された1つ以上のパターンP101、P102、P103を選択する(S199)。   Next, the pattern classification unit 15 includes, for the keyword cluster C1, one or more patterns P101, P102, P1021, P1021, which are used to generate the search patterns P1011, P1021, P1031 that include the selected keyword K11 and are not excluded. P103 is selected (S199).

また、パターン分類部15は、キーワードクラスタC2につき、選択されたキーワードK14を含み且つ除外されていない検索パターンP1055を生成するために使用された1つ以上のパターンP105を選択する(S199)。   Further, the pattern classification unit 15 selects one or more patterns P105 used to generate the search pattern P1055 that includes the selected keyword K14 and is not excluded for the keyword cluster C2 (S199).

なお、キーワードクラスタC1については、パターンP101、P102、P103が選択され(S199)、パターンP104は選択されなかったが、このように選択されなかったパターンが複数ある場合には、そのような複数のパターンを、このステップS19と同様にして、1以上のパターンクラスタに分類してもよい。   For the keyword cluster C1, patterns P101, P102, and P103 are selected (S199), and the pattern P104 is not selected. If there are a plurality of patterns that are not selected in this way, The pattern may be classified into one or more pattern clusters in the same manner as in step S19.

さて、次に、パターン分類部15は、選択されたパターンP101、P102、P103に含まれ且つ互いに類似する複数のパターンをパターンクラスタと定義し、パターンP101、P102、P103に含まれ且つ他のパターンと類似しない単一のパターンをパターンクラスタと定義し、パターンP101、P102、P103を1つ以上のパターンクラスタに分類する(S1911)。   Next, the pattern classification unit 15 defines a plurality of patterns included in the selected patterns P101, P102, and P103 and similar to each other as a pattern cluster, and is included in the patterns P101, P102, and P103 and other patterns. Is defined as a pattern cluster, and the patterns P101, P102 and P103 are classified into one or more pattern clusters (S1911).

ここで、パターン分類部15は、パターンP101、P102、P103のような、複数のパターンを含むパターンクラスタに含まれるいずれの2パターンも、その2つのパターンについて求めた類似判定値が予め定めた条件を満たすようにする。   Here, the pattern classification unit 15 determines whether the similarity determination value obtained for the two patterns is predetermined for any two patterns included in the pattern cluster including a plurality of patterns such as the patterns P101, P102, and P103. To satisfy.

パターンP101、P102の例を説明する。   An example of the patterns P101 and P102 will be described.

パターン分類部15は、パターンP101にキーワードK11を含ませた検索パターンP1011に合致する1つ以上のサブグラフにおけるクラス「組織」が定義されたノード(第2ノードという)内のインスタンスの集合をR101、パターンP102にキーワードK11を含ませた検索パターンP1021に合致する1つ以上のサブグラフにおけるクラス「組織」が定義されたノード(第2ノード)内のインスタンスの集合をR102として、
類似判定値T(P101、P102)=|R101∩R102|÷|R101∪R102|
ただし、
|R101∩R102|は、R101とR102の積集合の中のインスタンス数、
|R101∪R102|は、R101とR102の和集合の中のインスタンス数、
を計算し、類似判定値がしきい値「0.7」以上となるようにする。
The pattern classification unit 15 sets a set of instances in a node (referred to as a second node) in which a class “organization” is defined in one or more subgraphs that match the search pattern P1011 including the keyword K11 in the pattern P101, as R101, A set of instances in a node (second node) in which the class “organization” in one or more subgraphs matching the search pattern P1021 including the keyword K11 in the pattern P102 is defined as R102.
Similarity determination value T (P101, P102) = | R101∩R102 | ÷ | R101∪R102 |
However,
| R101∩R102 | is the number of instances in the product set of R101 and R102,
| R101∪R102 | is the number of instances in the union of R101 and R102,
And the similarity determination value is set to be equal to or greater than the threshold value “0.7”.

ここで、類似判定値T(P101、P102)におけるP101、P102は、パターンP1、P2に関するものという意味である。   Here, P101 and P102 in the similarity determination values T (P101 and P102) mean that they relate to the patterns P1 and P2.

類似判定値がしきい値未満なら、パターンP101、P102は、1つのパターンクラスタには含まれないこととなる。   If the similarity determination value is less than the threshold value, the patterns P101 and P102 are not included in one pattern cluster.

例えば、図16に示すように、R101がインスタンス「A部門」、「B部門」を含み、R102がインスタンス「A部門」、「B部門」、「C部門」を含むすると、R101∩R102は、「A部門」と「B部門」を含むので、|R101∩R102|=2である。   For example, as shown in FIG. 16, when R101 includes instances “A department” and “B department”, and R102 includes instances “A department”, “B department”, and “C department”, R101∩R102: Since “A department” and “B department” are included, | R101∩R102 | = 2.

R101∪R102は、「A部門」と「B部門」と「C部門」を含むので、|R101∪R102|=3である。   Since R101∪R102 includes “A department”, “B department”, and “C department”, | R101∪R102 | = 3.

よって、類似判定値T(P101、P102)=2÷3≒0.67となり、例えば、しきい値が「0.6」なら、そのしきい値以上と判定される。これにより、パターンP101、P102は1つのパターンクラスタに含まれることとなる。例えば、しきい値が「0.9」なら、そのしきい値未満と判定される。これにより、パターンP101、P102は1つのパターンクラスタに含まれないこととなる。   Therefore, the similarity determination value T (P101, P102) = 2 ÷ 3≈0.67. For example, if the threshold value is “0.6”, it is determined that the threshold value is equal to or greater than the threshold value. As a result, the patterns P101 and P102 are included in one pattern cluster. For example, if the threshold is “0.9”, it is determined that the threshold is less than the threshold. As a result, the patterns P101 and P102 are not included in one pattern cluster.

このようにして、パターン分類部15は、例えば、2つのパターンP101、P102を含むパターンクラスタと、1つのパターンP103を含むパターンクラスタを生成する。   In this way, the pattern classification unit 15 generates, for example, a pattern cluster including two patterns P101 and P102 and a pattern cluster including one pattern P103.

また、パターン分類部15は、パターンP105についても同様のことを行うが、この場合、パターンP105がパターンクラスタとなる。   In addition, the pattern classification unit 15 performs the same for the pattern P105. In this case, the pattern P105 is a pattern cluster.

これまでの説明では、便宜的に、3つまたは4つのパターンを分類する例を示したが、実際には、例えば、300個程度のパターンを分類することが多い。   In the description so far, for the sake of convenience, an example in which three or four patterns are classified has been shown. However, in practice, for example, about 300 patterns are often classified.

上記の別な方法を用いて、その際のしきい値を「0.8」として、330個のパターンを分類すると、例えば、図17に示すような結果が得られた。   When the above-mentioned another method is used and the threshold value at that time is set to “0.8” and 330 patterns are classified, for example, a result as shown in FIG. 17 is obtained.

まず、330個のパターンから172個のパターンクラスタが得られた。1個のパターンを含むパターンクラスタの数は116であった。2個のパターンを含むパターンクラスタの数は35であった。以下、パターンクラスタ中のパターンの数とパターンクラスタの数の関係は、図に示す通りであった。   First, 172 pattern clusters were obtained from 330 patterns. The number of pattern clusters including one pattern was 116. The number of pattern clusters including two patterns was 35. Hereinafter, the relationship between the number of patterns in the pattern cluster and the number of pattern clusters is as shown in the figure.

図18は、図17の矢印Y3で示すパターンクラスタ内の9個のパターンを示す図である。   FIG. 18 is a diagram showing nine patterns in the pattern cluster indicated by the arrow Y3 in FIG.

これらのパターンは互いに類似しているので、クエリ発行部14は、ステップS59で、この330個のパターンを検索したなら、その330個に含まれる、図の9個のパターンから1つを選択する。同様にして、クエリ発行部14は、330個を172個に絞り込むのである。   Since these patterns are similar to each other, if the query issuing unit 14 searches for these 330 patterns in step S59, the query issuing unit 14 selects one of the nine patterns in the figure included in the 330 patterns. . Similarly, the query issuing unit 14 narrows 330 pieces to 172 pieces.

そして、ステップS63で172個が表示されたら、ユーザは、所望のパターンを172個のパターンから選択すればよく、つまり、330個のパターンから選択する必要はないので、利便性が向上する。   When 172 are displayed in step S63, the user only has to select a desired pattern from 172 patterns, that is, it is not necessary to select from 330 patterns, so that convenience is improved.

以上説明したように、本実施の形態によれば、インスタンスをもつノード間がアークによって接続されたグラフGが記憶されるグラフデータベース12と、グラフG内のサブグラフを検索するためのN個のパターンにおける第1ノードに対し、互いに異なるM個のキーワードを含ませて、N×M個の検索パターンを生成し(S11)、グラフGから各検索パターンに合致するサブグラフを検索する(S15)グラフ検索手段(クエリ発行部14)と、検索されたサブグラフにおける第2ノード内のインスタンスを使用してN個のパターンにおける2つのパターンからなる組み合わせのそれぞれについて類似の度合いを求め、当該類似の度合いに基づいてN個のパターンを分類する(S19)パターン分類手段(パターン分類部15)とを備えることで、パターンの第1ノードにキーワードを含ませて得られる検索パターンに合致するサブグラフを検索し、そのサブグラフにおける第2ノード内のインスタンスを検索結果として得る場合のパターンを分類でき、パターンの数を実質的に低減することができる。また、パターンをユーザに選択させる場合などにおいて、ユーザはパターンを容易に選択することができる。   As described above, according to the present embodiment, the graph database 12 storing the graph G in which nodes having instances are connected by arcs, and N patterns for searching for subgraphs in the graph G N × M search patterns are generated for the first node in FIG. 5 by including different M keywords (S11), and subgraphs matching each search pattern are searched from the graph G (S15). Graph search Using the means (query issuing unit 14) and the instance in the second node in the searched subgraph, the degree of similarity is obtained for each of the combinations of the two patterns in the N patterns, and based on the degree of similarity And pattern classification means (pattern classification unit 15) for classifying N patterns (S19). By searching for a subgraph that matches the search pattern obtained by including a keyword in the first node of the pattern, and by obtaining an instance in the second node in the subgraph as a search result, the patterns can be classified. Can be substantially reduced. In addition, when the user selects a pattern, the user can easily select the pattern.

また、パターン分類手段は、N個のパターンを、類似の度合いに基づいて、1つ以上のパターンを含むパターンクラスタに分類するものであって、各キーワードにつき、2つのパターンの一方に当該キーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をA、当該2つのパターンの他方に当該キーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をBとして、
類似判定値=|A∩B|÷|A∪B|
ただし、
A、Bが共に空集合でなく、
|A∩B|は、AとBの積集合の中のインスタンス数、
|A∪B|は、AとBの和集合の中のインスタンス数、
を計算した場合、
前記各キーワードに対応する類似判定値の中のk個(0<k≦K:ただしKは前記キーワードの個数)以上が所定のしきい値以上となる当該2つのパターンを同一のパターンクラスタに含ませるので、パターンの数を実質的に低減することができる。また、パターンをユーザに選択させる場合などにおいて、ユーザはパターンを容易に選択することができる。
The pattern classification means classifies the N patterns into pattern clusters including one or more patterns based on the degree of similarity, and for each keyword, assigns the keyword to one of the two patterns. The set of instances in the second node in one or more subgraphs that match the included search pattern is A, and the first set in one or more subgraphs that match the search pattern that includes the keyword in the other of the two patterns. Let B be the set of instances in two nodes.
Similarity judgment value = | A∩B | ÷ | A∪B |
However,
A and B are not empty sets,
| A∩B | is the number of instances in the intersection of A and B,
| A∪B | is the number of instances in the union of A and B,
When calculating
The same pattern cluster includes the two patterns in which k or more (0 <k ≦ K: K is the number of the keywords) among the similarity determination values corresponding to the keywords are equal to or greater than a predetermined threshold value. Therefore, the number of patterns can be substantially reduced. In addition, when the user selects a pattern, the user can easily select the pattern.

また、パターン分類手段は、N×M個の検索パターンから、該当のサブグラフを得られなかった検索で使用された検索パターンを除外し(S191)、2つの各パターンに共通のキーワードを含ませて得た検索パターンから共にサブグラフが得られた場合には当該2つのパターンを関連づけ(S193)、互いに関連づけられた複数のパターンから得られ且つ除外されていない検索パターンに含まれた1つ以上のキーワードをキーワードクラスタと定義し(S195)、他のパターンと関連づけられていない単一のパターンから得られ且つ除外されていない検索パターンに含まれた1つ以上のキーワードをキーワードクラスタと定義し(S195)、複数のキーワードを1つ以上のキーワードクラスタに分類し、各キーワードクラスタから1つのキーワードを選択するとともに、該選択されるキーワードを含み且つ除外されていない検索パターンの数が最も多くなるようにし(S197)、各キーワードクラスタにつき、選択されたキーワードを含み且つ除外されていない検索パターンを生成するために使用された1つ以上のパターンを選択し(S199)、選択された1つ以上のパターンに含まれ且つ互いに類似する複数のパターンをパターンクラスタと定義し、選択された1つ以上のパターンに含まれ且つ他のパターンと類似しない単一のパターンをパターンクラスタと定義し、選択された1つ以上のパターンを1つ以上のパターンクラスタに分類する(S1911)とともに、前者のパターンクラスタに含まれるいずれの2パターンも、2パターンの一方に選択されたキーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をA、前記2パターンの他方に前記選択されたキーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をBとした場合、
類似判定値=|A∩B|÷|A∪B|
ただし、
A、Bが共に空集合でなく、
|A∩B|は、AとBの積集合の中のインスタンス数、
|A∪B|は、AとBの和集合の中のインスタンス数、
が所定のしきい値より大きくなるようにするので、パターンの数を実質的に低減することができる。また、パターンをユーザに選択させる場合などにおいて、ユーザはパターンを容易に選択することができる。
The pattern classification means excludes the search pattern used in the search for which the corresponding subgraph could not be obtained from the N × M search patterns (S191), and includes a common keyword in each of the two patterns. If both subgraphs are obtained from the obtained search patterns, the two patterns are associated (S193), and one or more keywords included in the search patterns that are obtained from a plurality of associated patterns and are not excluded Is defined as a keyword cluster (S195), and one or more keywords that are obtained from a single pattern that is not associated with other patterns and are not excluded are defined as keyword clusters (S195). Categorize multiple keywords into one or more keyword clusters, 1 from each keyword cluster Search keywords including the selected keyword and not excluded (S197), and for each keyword cluster, a search including the selected keyword and not excluded. One or more patterns used to generate the pattern are selected (S199), a plurality of patterns included in the selected one or more patterns and similar to each other are defined as a pattern cluster, and the selected 1 A single pattern that is included in one or more patterns and is not similar to another pattern is defined as a pattern cluster, and the selected one or more patterns are classified into one or more pattern clusters (S1911). Any two patterns included in the pattern cluster are the keywords selected as one of the two patterns. A set of instances in the second node in one or more subgraphs that match the search pattern including the search field A, and one or more that matches the search pattern including the selected keyword in the other of the two patterns If the set of instances in the second node in the subgraph is B,
Similarity judgment value = | A∩B | ÷ | A∪B |
However,
A and B are not empty sets,
| A∩B | is the number of instances in the intersection of A and B,
| A∪B | is the number of instances in the union of A and B,
Is larger than a predetermined threshold value, so that the number of patterns can be substantially reduced. In addition, when the user selects a pattern, the user can easily select the pattern.

1…グラフ検索装置
2…ユーザ端末
3…表示装置
11…ユーザインタフェース
12…グラフデータベース
13…パターンデータベース
14…クエリ発行部
15…パターン分類部
16…パターンクラスタデータベース
DESCRIPTION OF SYMBOLS 1 ... Graph search apparatus 2 ... User terminal 3 ... Display apparatus 11 ... User interface 12 ... Graph database 13 ... Pattern database 14 ... Query issuing part 15 ... Pattern classification part 16 ... Pattern cluster database

Claims (5)

インスタンスをもつノード間がアークによって接続されたグラフが記憶されるグラフデータベースと、
前記グラフ内のサブグラフを検索するためのN個のパターンにおける第1ノードに対し、互いに異なるM個のキーワードを含ませて、N×M個の検索パターンを生成し、前記グラフから前記各検索パターンに合致するサブグラフを検索するグラフ検索手段と、
前記検索されたサブグラフにおける第2ノード内のインスタンスを使用して前記N個のパターンにおける2つのパターンからなる組み合わせのそれぞれについて類似の度合いを求め、当該類似の度合いに基づいて前記N個のパターンを分類するパターン分類手段と
を備えることを特徴とするパターン分類装置。
A graph database storing a graph in which nodes having instances are connected by arcs;
N × M search patterns are generated by including M keywords different from each other for the first node in the N patterns for searching the subgraphs in the graph, and each search pattern is generated from the graph. A graph search means for searching for a subgraph that matches
Using the instance in the second node in the searched subgraph, obtain a degree of similarity for each of the combinations of the two patterns in the N patterns, and determine the N patterns based on the degree of similarity. A pattern classification device comprising: pattern classification means for classifying.
前記パターン分類手段は、
前記N個のパターンを、前記類似の度合いに基づいて、1つ以上のパターンを含むパターンクラスタに分類するものであって、
前記各キーワードにつき、2つのパターンの一方に当該キーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をA、当該2つのパターンの他方に当該キーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をBとして、
類似判定値=|A∩B|÷|A∪B|
ただし、
A、Bが共に空集合でなく、
|A∩B|は、AとBの積集合の中のインスタンス数、
|A∪B|は、AとBの和集合の中のインスタンス数、
を計算した場合、
前記各キーワードに対応する類似判定値の中のk個(0<k≦K:ただしKは前記キーワードの個数)以上が所定のしきい値以上となる当該2つのパターンを同一のパターンクラスタに含ませる
ことを特徴とする請求項1記載のパターン分類装置。
The pattern classification means includes
Classifying the N patterns into pattern clusters including one or more patterns based on the degree of similarity;
For each keyword, A is a set of instances in the second node in one or more subgraphs that match the search pattern that includes the keyword in one of the two patterns, and the keyword is included in the other of the two patterns. Let B be a set of instances in the second node in one or more subgraphs that match the search pattern
Similarity judgment value = | A∩B | ÷ | A∪B |
However,
A and B are not empty sets,
| A∩B | is the number of instances in the intersection of A and B,
| A∪B | is the number of instances in the union of A and B,
When calculating
The same pattern cluster includes the two patterns in which k or more (0 <k ≦ K: K is the number of the keywords) among the similarity determination values corresponding to the keywords are equal to or greater than a predetermined threshold value. The pattern classification apparatus according to claim 1, wherein:
インスタンスをもつノード間がアークによって接続されたグラフが記憶されるグラフデータベースを備えるパターン分類装置が行うパターン分類方法であって、
前記パターン分類装置のグラフ検索手段が、前記グラフ内のサブグラフを検索するためのN個のパターンにおける第1ノードに対し、互いに異なるM個のキーワードを含ませて、N×M個の検索パターンを生成し、前記グラフから前記各検索パターンに合致するサブグラフを検索し、
前記パターン分類装置のパターン分類手段が、前記検索されたサブグラフにおける第2ノード内のインスタンスを使用して前記N個のパターンにおける2つのパターンからなる組み合わせのそれぞれについて類似の度合いを求め、当該類似の度合いに基づいて前記N個のパターンを分類する
ことを特徴とするパターン分類方法。
A pattern classification method performed by a pattern classification apparatus including a graph database in which a graph in which nodes having instances are connected by arcs is stored,
The graph search means of the pattern classifier includes N different M keywords for the first node in the N patterns for searching the subgraphs in the graph, and sets N × M search patterns. Generate and search the graph for subgraphs that match each search pattern,
The pattern classification unit of the pattern classification device obtains a similarity degree for each of the combinations of two patterns in the N patterns using the instance in the second node in the searched subgraph, A pattern classification method, wherein the N patterns are classified based on a degree.
前記パターン分類手段は、
前記N個のパターンを、前記類似の度合いに基づいて、1つ以上のパターンを含むパターンクラスタに分類するものであって、
前記各キーワードにつき、2つのパターンの一方に当該キーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をA、当該2つのパターンの他方に当該キーワードを含ませた検索パターンに合致する1つ以上のサブグラフにおける第2ノード内のインスタンスの集合をBとして、
類似判定値=|A∩B|÷|A∪B|
ただし、
A、Bが共に空集合でなく、
|A∩B|は、AとBの積集合の中のインスタンス数、
|A∪B|は、AとBの和集合の中のインスタンス数、
を計算した場合、
前記各キーワードに対応する類似判定値の中のk個(0<k≦K:ただしKは前記キーワードの個数)以上が所定のしきい値以上となる当該2つのパターンを同一のパターンクラスタに含ませる
ことを特徴とする請求項3記載のパターン分類方法。
The pattern classification means includes
Classifying the N patterns into pattern clusters including one or more patterns based on the degree of similarity;
For each keyword, A is a set of instances in the second node in one or more subgraphs that match the search pattern that includes the keyword in one of the two patterns, and the keyword is included in the other of the two patterns. Let B be a set of instances in the second node in one or more subgraphs that match the search pattern
Similarity judgment value = | A∩B | ÷ | A∪B |
However,
A and B are not empty sets,
| A∩B | is the number of instances in the intersection of A and B,
| A∪B | is the number of instances in the union of A and B,
When calculating
The same pattern cluster includes the two patterns in which k or more (0 <k ≦ K: K is the number of the keywords) among the similarity determination values corresponding to the keywords are equal to or greater than a predetermined threshold value. The pattern classification method according to claim 3, wherein:
請求項1または2記載のパターン分類装置としてコンピュータを動作させるコンピュータプログラム。   A computer program for operating a computer as the pattern classification apparatus according to claim 1.
JP2009187377A 2009-08-12 2009-08-12 Pattern classification apparatus and pattern classification method Expired - Fee Related JP5277111B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009187377A JP5277111B2 (en) 2009-08-12 2009-08-12 Pattern classification apparatus and pattern classification method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009187377A JP5277111B2 (en) 2009-08-12 2009-08-12 Pattern classification apparatus and pattern classification method

Publications (2)

Publication Number Publication Date
JP2011039838A true JP2011039838A (en) 2011-02-24
JP5277111B2 JP5277111B2 (en) 2013-08-28

Family

ID=43767532

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009187377A Expired - Fee Related JP5277111B2 (en) 2009-08-12 2009-08-12 Pattern classification apparatus and pattern classification method

Country Status (1)

Country Link
JP (1) JP5277111B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015125230A1 (en) * 2014-02-19 2015-08-27 株式会社日立製作所 Data update method, and computer system
CN107463658A (en) * 2017-07-31 2017-12-12 广州市香港科大霍英东研究院 File classification method and device

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008181333A (en) * 2007-01-24 2008-08-07 Nippon Telegr & Teleph Corp <Ntt> Cluster generation device and cluster generation method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008181333A (en) * 2007-01-24 2008-08-07 Nippon Telegr & Teleph Corp <Ntt> Cluster generation device and cluster generation method

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200800305002; 木内康裕、外2名: 'グラフデータベースからの上位K強相関部分グラフ対の発見' 第69回 人工知能基本問題研究会資料 (SIG-FPAI-A704) , 20080314, pp.13〜19, 社団法人人工知能学会 *
CSNJ199800024001; 段一為、外3名: '部分グラフを基本単位とするWeb文書群の検索モデルと自動分類について' 第57回(平成10年後期)全国大会講演論文集(3) , 19981007, pp.161,162, 社団法人情報処理学会 *
JPN6013006785; 木内康裕、外2名: 'グラフデータベースからの上位K強相関部分グラフ対の発見' 第69回 人工知能基本問題研究会資料 (SIG-FPAI-A704) , 20080314, pp.13〜19, 社団法人人工知能学会 *
JPN6013006788; 段一為、外3名: '部分グラフを基本単位とするWeb文書群の検索モデルと自動分類について' 第57回(平成10年後期)全国大会講演論文集(3) , 19981007, pp.161,162, 社団法人情報処理学会 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015125230A1 (en) * 2014-02-19 2015-08-27 株式会社日立製作所 Data update method, and computer system
JPWO2015125230A1 (en) * 2014-02-19 2017-03-30 株式会社日立製作所 Data update method and computer system
CN107463658A (en) * 2017-07-31 2017-12-12 广州市香港科大霍英东研究院 File classification method and device
CN107463658B (en) * 2017-07-31 2020-03-31 广州市香港科大霍英东研究院 Text classification method and device

Also Published As

Publication number Publication date
JP5277111B2 (en) 2013-08-28

Similar Documents

Publication Publication Date Title
US11640494B1 (en) Systems and methods for construction, maintenance, and improvement of knowledge representations
US9535902B1 (en) Systems and methods for entity resolution using attributes from structured and unstructured data
JP4569955B2 (en) Information storage and retrieval method
US8924313B2 (en) Multi-label classification using a learned combination of base classifiers
Osborne et al. Automatic classification of springer nature proceedings with smart topic miner
US8161045B2 (en) Use of associate memory learning agent technology to identify interchangeable parts in parts catalogs
JP4365162B2 (en) Apparatus and method for retrieving structured document data
Gregor et al. A methodology for structured ontology construction applied to intelligent transportation systems
CN106716402A (en) Entity-centric knowledge discovery
KR20090023613A (en) Visual and multi-dimensional search
US11321580B1 (en) Item type discovery and classification using machine learning
CN115952415A (en) Graph-based labeling of heterogeneous digital content items
US20240054326A1 (en) Extreme classification processing using graphs and neural networks
Tao et al. Facilitating Twitter data analytics: Platform, language and functionality
JP5277111B2 (en) Pattern classification apparatus and pattern classification method
JP4789814B2 (en) Cluster generation apparatus and cluster generation method
Sharma et al. Bug Report Triaging Using Textual, Categorical and Contextual Features Using Latent Dirichlet Allocation
Varma Use of ontologies for organizational knowledge management and knowledge management systems
Ye et al. An interpretable mechanism for personalized recommendation based on cross feature
Fahad et al. Towards Classification of Web Ontologies for the Emerging Semantic Web.
Shen et al. Automatically finding and recommending resources to support knowledge workers' activities
Sreekantan et al. Expert system for question answering on anomalous events and mitigation strategies using bidirectional transformers and knowledge graphs
Kumar et al. Sentiment Knowledge Graph: Explore and Evaluate the Social Media Content
Room Topic Modelling
Lakshmi et al. Search for Social Smart Objects Constituting Sensor Ontology, Social IoT and Social Network Interaction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110921

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20120510

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120511

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130219

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130520

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5277111

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees