JP4443999B2 - Information management apparatus and information management program - Google Patents

Information management apparatus and information management program Download PDF

Info

Publication number
JP4443999B2
JP4443999B2 JP2004156097A JP2004156097A JP4443999B2 JP 4443999 B2 JP4443999 B2 JP 4443999B2 JP 2004156097 A JP2004156097 A JP 2004156097A JP 2004156097 A JP2004156097 A JP 2004156097A JP 4443999 B2 JP4443999 B2 JP 4443999B2
Authority
JP
Japan
Prior art keywords
concept
mapping
concepts
topology
partial information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004156097A
Other languages
Japanese (ja)
Other versions
JP2005339119A (en
Inventor
真 中辻
辰幸 木村
和郎 小池
洋一郎 八巻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004156097A priority Critical patent/JP4443999B2/en
Publication of JP2005339119A publication Critical patent/JP2005339119A/en
Application granted granted Critical
Publication of JP4443999B2 publication Critical patent/JP4443999B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は情報管理装置、情報管理方法および情報管理プログラムに関し、特に、階層的に表現される情報源同士を自動的にマッピングする方法に適用して好適なものである。   The present invention relates to an information management apparatus, an information management method, and an information management program, and is particularly suitable for application to a method of automatically mapping information sources expressed hierarchically.

今年のインターネットの普及により個人が入手できる情報は格段に増大し、所望の情報に容易にアクセスできるようにするため、これらの情報を階層的に管理することが行われている。
ここで、情報を管理する場合、情報の利用目的や収集されている情報などによって情報管理方法への要求が異なる。このため、各管理者によって独自の概念階層が構築され、各管理者による概念階層の一貫性の維持を許容しつつ、情報を分散管理することが行われている。
With the spread of the Internet this year, information that can be obtained by individuals has increased dramatically, and in order to make it possible to easily access desired information, such information is managed hierarchically.
Here, when information is managed, a request for an information management method differs depending on the purpose of use of the information, the collected information, and the like. For this reason, a unique concept hierarchy is constructed by each administrator, and information is distributed and managed while allowing each administrator to maintain consistency of the concept hierarchy.

また、例えば、非特許文献1には、様々な情報を管理する概念階層を1つの情報源とみなし、それぞれの情報源が持つ情報を相互に利用できるようにするため、インスタンスの分類の類似性に基づいて、各概念間の類似性を同定し、他の情報源との相違を調整する規則として学習する機械学習の手法が開示されている。
また、例えば、非特許文献2には、不均一なオントロジに対する問合せ近似変換において、値域制限や否定を記述可能なオントロジ記述言語に対して拡張することにより、独立に更新あるいはカスタマイズされたオントロジの時間的・空間的広がりに対処する方法が開示されている。
Also, for example, in Non-Patent Document 1, the concept hierarchy for managing various information is regarded as one information source, and the information possessed by each information source can be used mutually. Based on the above, a machine learning technique is disclosed in which similarity between each concept is identified and learned as a rule for adjusting a difference from other information sources.
Further, for example, Non-Patent Document 2 discloses an ontology time that is independently updated or customized by extending to an ontology description language that can describe range restrictions and negation in query approximation conversion for non-uniform ontology. A method for dealing with spatial and spatial spread is disclosed.

また、例えば、非特許文献3には、他者によって管理されている情報が自分の持つ概念階層のどこに位置するかを容易に同定できるようにするため、機械的に求めたインスタンス間の類似性に基づいて、概念階層間で共有されていないインスタンスを自動的に共有させることにより、同じインスタンスを持っていない概念階層間でも結合が行えるようにする方法が開示されている。
市瀬龍太郎、武田英明、本位田真一“階層的知識間の調整規則の学習”人工知能学会誌、Vol.17,No.3,pp.230−238(2002) 赤埴淳一、平松薫、佐藤哲司“不均一なオントロジに対する問合せ近似変換”人工知能学会研究資料(SIG−SW&ONT−A301−07)(2003) 濱崎雅弘、武田英明、市瀬龍太郎“階層的知識と内容的類似性を用いたインターネットディレクトリの統合”The 17th Annual Conference of the Japanese Society for Artificial Intelligence,1D4−07(2003)
Further, for example, in Non-Patent Document 3, the similarity between instances obtained mechanically is determined in order to easily identify where information managed by others is located in the concept hierarchy possessed by the other person. Based on the above, a method is disclosed in which instances that are not shared between concept hierarchies are automatically shared, so that connections can be made between concept hierarchies that do not have the same instance.
Ryutaro Ichise, Hideaki Takeda, Shinichi Honda “Learning the rules of coordination between hierarchical knowledge”, Journal of Artificial Intelligence, Vol. 17, no. 3, pp. 230-238 (2002) Akamine, Satoshi Hiramatsu, Tetsuji Sato “Query Approximation Transformation for Non-uniform Ontologies” AIJ Research Materials (SIG-SW & ONT-A301-07) (2003) Masahiro Amagasaki, Hideaki Takeda, Ryutaro Ichise “Integration of Internet Directory Using Hierarchical Knowledge and Content Similarity” The 17th Annual Conference of the Japan Society for Artificial Intelligence, 1D4-07 (200)

しかしながら、非特許文献1、3に開示された方法では、各概念間または各インスタンス間の類似性のみに基づいて、概念間のマッピングが行われる。このため、これらの方法で得られたマッピング結果を人間が分析すると、語彙的に近いマッピング結果であっても、必ずしも概念間で意味が一致できたと判定できない間違ったマッピング結果が多く得られるという問題があった。   However, in the methods disclosed in Non-Patent Documents 1 and 3, mapping between concepts is performed based only on the similarity between concepts or between instances. For this reason, when humans analyze the mapping results obtained by these methods, even if the mapping results are close to each other in terms of vocabulary, many incorrect mapping results that cannot always be determined as meanings between concepts can be obtained. was there.

また、非特許文献2に開示された方法では、オントロジ記述言語の拡張に関するものであり、概念間のマッピング結果の精度を向上させることはできないという問題があった。
そこで、本発明の目的は、人手にかかる負担を抑制しつつ、概念間のマッピング精度を向上させることが可能な情報管理装置および情報管理プログラムを提供することである。
In addition, the method disclosed in Non-Patent Document 2 relates to the extension of ontology description language, and there is a problem that the accuracy of the mapping result between concepts cannot be improved.
An object of the present invention is to provide a while suppressing the burden on the human, the concept between mapping accuracy can be improved information management equipment Contact and information management program.

上述した課題を解決するために、本発明の情報管理装置によれば、2つの情報源にそれぞれ含まれる互いに近似する概念を抽出する概念間マッピング抽出手段と、前記概念間マッピング手段にて抽出された互いに近似する概念の接続形態に基づいて、互いに親子関係をなす概念集合から構成される部分情報源間で近似する部分情報源を抽出してトポロジマッピングを形成するトポロジマッピング抽出手段と、前記トポロジマッピング抽出手段にて抽出されたトポロジマッピング結果が多重化している部分情報源を検出し、当該検出された部分情報源に含まれる概念の個数に基づいて、トポロジマッピング結果の誤りを検出し、誤りの検出されたトポロジマッピング結果を除去することで前記概念間マッピング抽出手段にて抽出された概念間のマッピング結果の修正を行うトポロジマッピング評価手段とを備えることを特徴とする。 In order to solve the above-described problem, according to the information management apparatus of the present invention, the inter-concept mapping extraction unit that extracts the concepts that are approximate to each other included in the two information sources, and the inter-concept mapping mapping unit, are extracted. A topology mapping extraction means for extracting a partial information source that is approximated between partial information sources that are composed of concept sets having a parent-child relationship based on the connection form of the concepts that are similar to each other; A partial information source in which the topology mapping result extracted by the mapping extraction means is multiplexed is detected, and an error in the topology mapping result is detected based on the number of concepts included in the detected partial information source. Between the concepts extracted by the inter-concept mapping extraction means by removing the detected topology mapping result Characterized in that it comprises a topology mapping evaluating means for correcting the mappings results.

また、本発明の情報管理装置によれば、前記概念間マッピング抽出手段は、2つの情報源にそれぞれ含まれる概念の持つインスタンス間の近似性を計測する近似度計測手段を備えることを特徴とする。
また、本発明の情報管理装置によれば、前記トポロジマッピング抽出手段は、前記マッピングされた概念と親子関係をなす概念のマッピング状態を判定するマッピング状態判定手段と、前記概念間マッピング抽出手段にて抽出された互いに近似する概念の接続形態の近似性を判定する接続形態判定手段とを備え、前記トポロジマッピング抽出手段は、前記接続形態判定手段にて判定された接続形態の近似性に基づいて、互いに親子関係をなす概念集合から構成される部分情報源間でトポロジマッピングを形成することを特徴とする。
According to the information management apparatus of the present invention, the inter-concept mapping extraction unit includes an approximation degree measuring unit that measures the closeness between instances of the concepts included in the two information sources, respectively. .
Further, according to the information management apparatus of the present invention, the topology mapping extraction unit includes a mapping state determination unit that determines a mapping state of a concept that has a parent-child relationship with the mapped concept, and the inter-concept mapping extraction unit. Connection topology determination means for determining the approximateness of the extracted connection forms of the concepts that are similar to each other, and the topology mapping extraction means is based on the approximation of the connection form determined by the connection form determination means, It is characterized in that topology mapping is formed between partial information sources composed of concept sets having a parent-child relationship with each other.

た、本発明の情報管理プログラムによれば、2つの情報源についての概念間のマッピングを行うステップと、前記マッピングされた概念の親子関係に基づいて、互いに近似する概念間の接続形態の近似性を判定するステップと、前記概念間の接続形態の近似性に基づいて、当該接続形態の近似している概念集合から構成される部分情報源間で近似する部分情報源を抽出してトポロジマッピングを行うステップと、前記トポロジマッピング結果が多重化している部分情報源を検出するステップと、前記検出された部分情報源に含まれる概念の個数を算出するステップと、前記部分情報源に含まれる概念の個数に基づいて、前記トポロジマッピング結果の誤りを検出し、誤りの検出されたトポロジマッピング結果を除去することにより前記概念間のマッピング結果を修正するステップとをコンピュータに実行させることを特徴とする。 Also, according to the information management program according to the present invention, the steps of performing mapping between concepts for the two sources of information, based on the parent-child relationship between the mapped concept, connection form between concepts that approximate one another Based on the approximation of the connection form between the concepts and the step of determining the closeness, a partial information source that is approximated between partial information sources composed of concept sets that are approximated by the connection form is extracted and topology Mapping, a step of detecting a partial information source in which the topology mapping result is multiplexed, a step of calculating the number of concepts included in the detected partial information source, and included in the partial information source based on the number of concepts, detects an error of the topology mapping result, the approximate by removing the detected topology mapping result of the error Characterized in that to perform the steps on a computer to modify the mapping result between.

以上説明したように、本発明によれば、各概念間の類似性だけでなく、概念の階層構造を考慮しながら、異なる情報源に含まれる概念間のマッピングを自動的に行うことができる。このため、人手にかかる負担を抑制しつつ、異なる情報源に含まれる概念間のマッピング精度を向上させることが可能となり、他者によって管理されている情報が自分の持つ概念階層のどこに位置するかを精度よく同定することができる。この結果、各管理者ごとに情報が分散管理されている場合においても、自分が必要とする情報に効率よくアクセスすることが可能となり、小規模分散かつ多様なシステムの持つデータに対しても、柔軟なアクセス・連携・管理を実現することができる。   As described above, according to the present invention, mapping between concepts included in different information sources can be automatically performed in consideration of not only the similarity between concepts but also the hierarchical structure of the concepts. For this reason, it is possible to improve the mapping accuracy between concepts contained in different information sources while suppressing the burden on human resources, and where the information managed by others is located in the concept hierarchy Can be accurately identified. As a result, even when information is distributed and managed for each administrator, it is possible to efficiently access the information required by the administrator, and even for small-scale distributed and diverse system data, Flexible access, cooperation and management can be realized.

以下、本発明の実施形態に係る情報管理装置について図面を参照しながら説明する。
図1は、本発明の一実施形態に係る情報管理装置の概略構成を示すブロック図である。
図1において、情報管理装置には、概念間マッピング抽出装置2、トポロジマッピング抽出装置3およびトポロジマッピング評価装置4が設けられている。ここで、概念間マッピング抽出装置2は、2つの情報源1a、1bにそれぞれ含まれる互いに近似する概念を抽出する。トポロジマッピング抽出装置3は、概念間マッピング抽出装置2にて抽出された互いに近似する概念の接続形態に基づいてトポロジマッピングを行う。トポロジマッピング評価装置4は、ポロジマッピング抽出装置3にて抽出されたトポロジマッピング結果に基づいて、概念間マッピング抽出装置2にて抽出された概念間のマッピング結果の評価を行う。
It will be described below with reference to the drawings attached to the information management equipment according to an embodiment of the present invention.
FIG. 1 is a block diagram showing a schematic configuration of an information management apparatus according to an embodiment of the present invention.
In FIG. 1, the information management apparatus includes an inter-concept mapping extraction apparatus 2, a topology mapping extraction apparatus 3, and a topology mapping evaluation apparatus 4. Here, the inter-concept mapping extraction device 2 extracts concepts that are included in the two information sources 1a and 1b and that are similar to each other. The topology mapping extraction device 3 performs topology mapping based on the concept connection forms extracted by the inter-concept mapping extraction device 2. Topology Mapping evaluation device 4, based on preparative Polo di mapping extractor topology mapping result extracted in 3, the mapping result evaluation between concepts extracted by the concept between mapping extractor 2.

ここで、概念間マッピング抽出装置2には、2つの情報源1a、1bにそれぞれ含まれる概念の持つインスタンス間の近似性を計測する近似度計測手段2aを設けることができる。なお、インスタンス間の近似性を計測する方法としては、インスタンスにおける語彙的な近似度やκ統計量などを用いることができる。そして、インスタンス間の近似度がヒューリスティックなしきい値以上の場合、2つの情報源1a、1bにそれぞれ含まれる概念間のマッピングを行うことができる。なお、情報源1a、1bとは、時々刻々と情報を提供するもので、例えば、オントロジ、インターネットディレクトリ、図書の分類目録などの階層構造により構成されるものを言う。また、情報源1a、1bは、画像などのコンテンツデータでもよく、画像間の近似性を計測する場合、画像に付加されているメタ情報を用いるようにしてもよい。   Here, the inter-concept mapping extraction apparatus 2 can be provided with an approximation degree measuring means 2a for measuring the closeness between the instances of the concepts included in the two information sources 1a and 1b. As a method for measuring the closeness between instances, lexical approximation in each instance, κ statistics, and the like can be used. When the degree of approximation between instances is equal to or more than a heuristic threshold, mapping between concepts included in the two information sources 1a and 1b can be performed. Note that the information sources 1a and 1b provide information every moment, and are configured by a hierarchical structure such as an ontology, an Internet directory, and a book catalog. Further, the information sources 1a and 1b may be content data such as images, and when measuring the closeness between images, the meta information added to the images may be used.

また、トポロジマッピング抽出装置3には、概念間マッピング抽出装置2にてマッピングされた概念と親子関係をなす概念のマッピング状態を判定するマッピング状態判定手段3a、概念間マッピング抽出装置2にて抽出された互いに近似する概念の接続形態の近似性を判定する接続形態判定手段3bを設けることができる。そして、トポロジマッピング抽出装置3は、接続形態判定手段3bにて判定された接続形態の近似性に基づいて、互いに親子関係をなす概念から構成される部分情報源間でトポロジマッピングを形成することができる。なお、部分情報源とは情報源1a、1bの一部分を言い、部分情報源の具体例としてサブオントロジやサブディレクトリなどを挙げることができる。   Further, the topology mapping extraction device 3 is extracted by the mapping state determination means 3a for determining the mapping state of the concept having the parent-child relationship with the concept mapped by the inter-concept mapping extraction device 2, and extracted by the inter-concept mapping extraction device 2. In addition, it is possible to provide connection form determining means 3b for determining the closeness of the connection forms of concepts that are similar to each other. Then, the topology mapping extraction device 3 can form a topology mapping between partial information sources composed of concepts having a parent-child relationship based on the closeness of the connection form determined by the connection form determination unit 3b. it can. The partial information source refers to a part of the information sources 1a and 1b, and specific examples of the partial information source include a sub ontology and a sub directory.

また、トポロジマッピング評価装置4には、多重化されたトポロジマッピング結果を与える部分情報源を検出する部分情報源検出手段4a、部分情報源検出手段4aにて検出された部分情報源に含まれる概念の個数を算出する概念数算出手段4bおよび概念数算出手段4bにて算出された部分情報源に含まれる概念の個数に基づいて、トポロジマッピング結果の誤りを検出するトポロジマッピング誤り検出手段4cを設けることができる。
なお、マッピングとは、概念と概念とが意味的に等しいかを判定することである。また、トポロジとは、概念集合の接続形態をいう。また、トポロジマッピングとは、概念集合間で概念の接続形態が等しいかを判定することである。
The topology mapping evaluation apparatus 4 includes a partial information source detection unit 4a for detecting a partial information source that gives a multiplexed topology mapping result, and a concept included in the partial information source detected by the partial information source detection unit 4a. The concept number calculating means 4b for calculating the number of s and the topology mapping error detecting means 4c for detecting an error in the topology mapping result based on the number of concepts included in the partial information source calculated by the concept number calculating means 4b are provided. be able to.
The mapping is to determine whether the concept and the concept are semantically equal. The topology means a connection form of concept sets. The topology mapping is to determine whether concept connection forms are equal between concept sets.

図2は、本発明の一実施形態に係る情報源の構造の一例を示す図である。
図2において、例えば、情報源1aに含まれる概念11の階層構造は木構造で表すことができ、木のノードにはインスタンス12が割り当てられている。また、情報源1bも同様に概念11の木構造で表すことができる。なお、インスタンス12とは情報の実態であり、概念11に割当てられるものである。
FIG. 2 is a diagram illustrating an example of the structure of an information source according to an embodiment of the present invention.
In FIG. 2, for example, the hierarchical structure of the concept 11 included in the information source 1a can be represented by a tree structure, and an instance 12 is assigned to a node of the tree. Similarly, the information source 1b can be represented by the tree structure of the concept 11. The instance 12 is the actual state of information and is assigned to the concept 11.

図3は、本発明の一実施形態に係る情報管理方法を示すフローチャートである。
図3において、情報源1a、1bが図1の概念間マッピング抽出装置2に入力されると(ステップS1)、近似度計測手段2aは、情報源1a、1bにそれぞれ含まれる概念の持つインスタンス間の近似性を計測する(ステップS2)。そして、概念間マッピング抽出装置2は、情報源1a、1bに含まれる概念の持つインスタンスの近似性に基づいて情報源1a、1bに含まれる概念間のマッピングを行う(ステップS3)。
FIG. 3 is a flowchart illustrating an information management method according to an embodiment of the present invention.
In FIG. 3, when the information sources 1a and 1b are input to the inter-concept mapping extraction apparatus 2 in FIG. 1 (step S1), the approximation degree measuring means 2a reads between the instances of the concepts included in the information sources 1a and 1b, respectively. Is measured (step S2). Then, the inter-concept mapping extraction device 2 performs mapping between the concepts included in the information sources 1a and 1b based on the closeness of the instances of the concepts included in the information sources 1a and 1b (step S3).

そして、概念間マッピング抽出装置2にて概念間のマッピングが行われると、そのマッピング結果がトポロジマッピング抽出装置3に出力される。そして、概念間のマッピング結果がトポロジマッピング抽出装置3に出力されると、トポロジマッピング抽出装置3は、概念間マッピング抽出手段2にて抽出された互いに近似する概念の接続形態の近似性に基づいてトポロジマッピングを行う(ステップS4)。   When the mapping between concepts is performed by the inter-concept mapping extraction device 2, the mapping result is output to the topology mapping extraction device 3. When the mapping result between the concepts is output to the topology mapping extraction device 3, the topology mapping extraction device 3 is based on the closeness of the connection forms of the concepts that are approximated to each other extracted by the inter-concept mapping extraction means 2. Topology mapping is performed (step S4).

ここで、トポロジマッピングを行う場合、マッピング状態判定手段3aは、概念間マッピング抽出装置2にてマッピングされた概念と親子関係をなす概念のマッピング状態を判定することができる。そして、接続形態判定手段3bは、マッピングされた概念間の親子関係に基づいて、互いに近似する概念間の接続形態の近似性を判定することができる。   Here, when topology mapping is performed, the mapping state determination unit 3a can determine the mapping state of the concept having a parent-child relationship with the concept mapped by the inter-concept mapping extraction apparatus 2. And the connection form determination means 3b can determine the closeness of the connection form between the concepts which approximate each other based on the parent-child relationship between the mapped concepts.

図4は、本発明の一実施形態に係るトポロジマッピング抽出方法を示す図である。なお、以下の説明では、情報源1a、1bの持つデータとしてオントロジを例にとって説明する。
図4において、オントロジOAには概念Ca1〜Ca3、オントロジOBには概念Cb1〜Cb3が存在しているものとする。なお、オントロジOA、OBとは、情報源1a、1bの持つデータを、情報源1a、1bに対する概念に基づく体系として定義したものである。そして、概念Ca1〜Ca3は互いに親子関係を構成し、概念Cb1〜Cb3は互いに親子関係を構成しているものとする。
FIG. 4 is a diagram illustrating a topology mapping extraction method according to an embodiment of the present invention. In the following description, an ontology will be described as an example of data held by the information sources 1a and 1b.
4, the ontology O concepts in A C a1 -C a3, the ontology O B is assumed that there are concepts C b1 -C b3. Incidentally, ontology O A, and O B, information sources 1a, the data held by 1b, sources 1a, those defined as scheme based on the concept for 1b. The concepts C a1 to C a3 constitute a parent-child relationship, and the concepts C b1 to C b3 constitute a parent-child relationship.

そして、図4(a)に示すように、図1の概念間マッピング抽出装置2にてオントロジOAの概念Ca2とオントロジOBの概念Cb2とが互いにマッピングされているものとする(M1)。そして、トポロジマッピング抽出装置3は、互いにマッピングされている概念Ca2、Cb2がオントロジOA、OBにそれぞれ存在する場合、これらの概念Ca2、Cb2に親概念が存在するかを判断する。 Then, as shown in FIG. 4 (a), it is assumed that the concept C b2 concepts C a2 and ontology O B ontology O A in concept between mapping extraction device 2 of FIG. 1 are mapped to one another (M1 ). Then, when the concepts C a2 and C b2 mapped to each other exist in the ontology O A and O B , the topology mapping extraction device 3 determines whether or not a parent concept exists in these concepts C a2 and C b2. To do.

そして、図4(b)に示すように、これらの概念Ca2、Cb2に親概念Ca1、Cb1がそれぞれ存在する場合、トポロジマッピング抽出装置3は、概念間マッピング抽出装置2にて行われたマッピング結果を参照することにより、これらの概念Ca2、Cb2の親概念Ca1、Cb1が互いにマッピングされているかどうかを確認する。そして、概念Ca2、Cb2の親概念Ca1、Cb1が互いにマッピングされている場合(M2)、概念集合{Ca1,Ca2}からなるサブオントロジOSA1と概念集合{Cb1,Cb2}からなるサブオントロジOSB1とは概念の接続形態も等しいと判断し、これらのサブオントロジOSA1、OSB1間でトポロジマッピングを形成する(TM1)。 Then, as shown in FIG. 4B, when the parent concepts C a1 and C b1 exist in these concepts C a2 and C b2 , the topology mapping extraction device 3 performs the operation in the inter-concept mapping extraction device 2. By referring to the mapping result, it is confirmed whether or not the parent concepts C a1 and C b1 of these concepts C a2 and C b2 are mapped to each other. The concept C a2, C parent concept C a1 in b2, if the C b1 is mapped to each other (M2), the concept set {C a1, C a2} sub ontology O SA1 and concepts set consisting of {C b1, C It is determined that the conceptual connection form is the same as that of the sub-ontology OSB1 composed of b2 }, and a topology mapping is formed between these sub-ontologies OSA1 and OSB1 (TM1).

次に、サブオントロジOSA1、OSB1間でトポロジマッピングが形成されると、トポロジマッピング抽出装置3は、各概念Ca2、Cb2に子概念が存在するかを判断する。
そして、図4(c)に示すように、これらの概念Ca2、Cb2に子概念Ca3、Cb3がそれぞれ存在する場合、トポロジマッピング抽出装置3は、概念間マッピング抽出装置2にて行われたマッピング結果を参照することにより、これらの概念Ca2、Cb2の子概念Ca3、Cb3が互いにマッピングされているかどうかを確認する。そして、概念Ca2、Cb2の子概念Ca3、Cb3が互いにマッピングされている場合(M3)、概念集合{Ca1,Ca2,Ca3}からなるサブオントロジOSA2と概念集合{Cb1,Cb2,Cb3}からなるサブオントロジOSB2とは概念の接続形態も等しいと判断し、これらのサブオントロジOSA2、OSB2間でトポロジマッピングを形成する(TM2)。
Next, when the topology mapping is formed between the sub-ontologies OSA1 and OSB1 , the topology mapping extraction device 3 determines whether or not there are child concepts in the concepts C a2 and C b2 .
Then, as shown in FIG. 4C, when the concepts C a2 and C b2 have child concepts C a3 and C b3 , respectively, the topology mapping extraction device 3 performs the operation in the inter-concept mapping extraction device 2. By referring to the mapping result, it is confirmed whether or not the child concepts C a3 and C b3 of these concepts C a2 and C b2 are mapped to each other. The concept C a2, C children concept C a3 of b2, if the C b3 are mapped to one another (M3), the concept set {C a1, C a2, C a3} sub ontology O SA2 and concepts set consisting of {C It is determined that the conceptual connection form is the same as that of the sub ontology OSB2 composed of b1 , Cb2 , Cb3 }, and a topology mapping is formed between the sub ontology OSA2 and OSB2 (TM2).

以上の操作をオントロジOA、OB間で繰り返し実行することにより、トポロジマッピング抽出装置3はトポロジマッピングを抽出し、トポロジマッピング結果をトポロジマッピング評価装置4に入力する。そして、トポロジマッピング結果がトポロジマッピング評価装置4に入力されると、トポロジマッピング評価装置4は、トポロジマッピング抽出装置3にて抽出されたトポロジマッピング結果に基づいて、概念間マッピング抽出装置2にて抽出された概念間のマッピング結果の評価を行う。 By repeating the above operations ontology O A, between O B, topology mapping extractor 3 extracts the topology mapping, inputs the topology mapping results in the topology mapping evaluation device 4. When the topology mapping result is input to the topology mapping evaluation device 4, the topology mapping evaluation device 4 extracts the inter-concept mapping extraction device 2 based on the topology mapping result extracted by the topology mapping extraction device 3. Evaluate the mapping results between the concepts.

ここで、概念間マッピング抽出装置2にて抽出された概念間のマッピング結果の評価を行う場合、部分情報源検出手段4aは、多重化されたトポロジマッピング結果を与えるサブオントロジを検出することができる。そして、部分情報源検出手段4aにてサブオントロジが検出されると、概念数算出手段4bは、検出されたサブオントロジに含まれる概念の個数を算出する(ステップS5)。そして、トポロジマッピング誤り検出手段4cは、サブオントロジに含まれる概念の個数に基づいて、トポロジマッピング結果の誤りを検出する。   Here, when evaluating the mapping result between concepts extracted by the inter-concept mapping extraction apparatus 2, the partial information source detection unit 4a can detect a sub ontology that gives a multiplexed topology mapping result. . When the partial information source detection unit 4a detects the sub ontology, the concept number calculation unit 4b calculates the number of concepts included in the detected sub ontology (step S5). The topology mapping error detection unit 4c detects an error in the topology mapping result based on the number of concepts included in the sub ontology.

ここで、トポロジマッピング誤り検出手段4cは、検出されたサブオントロジのうち、サブオントロジを構成する概念の個数が最も多いサブオントロジ以外のサブオントロジから形成されるトポロジマッピング結果を誤りとして検出することができる。そして、トポロジマッピング評価装置4は、サブオントロジに含まれる概念の個数に基づいて、トポロジマッピング結果の修正を行う(ステップS6)。そして、修正されたトポロジマッピング結果に従うように概念間のマッピング結果を修正することにより、正しいマッピング結果5を出力することができる。   Here, the topology mapping error detecting means 4c can detect, as an error, a topology mapping result formed from sub-ontologies other than the sub-ontology having the largest number of concepts constituting the sub-ontologies among the detected sub-ontologies. it can. Then, the topology mapping evaluation device 4 corrects the topology mapping result based on the number of concepts included in the sub ontology (step S6). And the correct mapping result 5 can be output by correcting the mapping result between concepts so as to follow the corrected topology mapping result.

例えば、概念間マッピングにおいて、図4のオントロジOAのある概念CaiがオントロジOBの複数の概念とマッピングされている場合、部分情報源検出手段4aは、トポロジマッピング結果を参照することにより、トポロジマッピングを形成するオントロジOAのサブオントロジにおいて、概念Caiを含むものを検出する。そして、検出された複数のサブオントロジのうち、サブオントロジを構成する概念の個数が最も多いサブオントロジ以外のトポロジマッピング結果を誤りとして検出する。そして、最終的に得られたトポロジマッピング結果に従う概念間マッピング結果を正解として出力することができる。 For example, the concept between mapping, if the concept C ai with ontology O A in FIG. 4 has a plurality of concepts and mappings ontology O B, partial information source detecting means 4a refers to the topology mapping results, In the ontology O A of the ontology forming the topology mapping, the one containing the concept C ai is detected. Then, among the detected sub-ontologies, topology mapping results other than the sub-ontology having the largest number of concepts constituting the sub-ontologies are detected as errors. Then, the inter-concept mapping result according to the finally obtained topology mapping result can be output as a correct answer.

これにより、各概念間の類似性だけでなく、概念の階層構造を考慮しながら、異なる情報源1a、1bに含まれる概念間のマッピングを自動的に行うことができる。このため、人手にかかる負担を抑制しつつ、異なる情報源1a、1bに含まれる概念間のマッピング精度を向上させることが可能となり、他者によって管理されている情報が自分の持つ概念階層のどこに位置するかを精度よく同定することができる。この結果、各管理者ごとに情報1a、1bが分散管理されている場合においても、自分が必要とする情報に効率よくアクセスすることが可能となり、小規模分散かつ多様なシステムの持つデータに対しても、柔軟なアクセス・連携・管理を実現することができる。   Thereby, the mapping between the concepts included in the different information sources 1a and 1b can be automatically performed while considering not only the similarity between the concepts but also the hierarchical structure of the concepts. For this reason, it becomes possible to improve the mapping accuracy between concepts included in different information sources 1a and 1b while suppressing the burden on manpower, and where the information managed by others is in the concept hierarchy of one's own It can be accurately identified whether it is located. As a result, even if the information 1a and 1b is distributed and managed for each manager, it becomes possible to efficiently access the information required by the manager, and the data possessed by a small and distributed system However, flexible access, cooperation, and management can be realized.

例えば、概念間の語彙の近似性のみに基づく自動マッピングを行ったために、概念間のマッピング結果に誤りが多く含まれる場合においても、その情報源の概念の階層構造を人手で精査することなく、その概念間のマッピング結果を正しく修正することが可能となる。このため、ある情報源の管理者やユーザが、異なる情報源において等しいと判定された概念の持つインスタンスを自分で管理する情報源に追加したり、インスタンスの発見に活用したりする場合においても、自分の情報源の階層構造にそぐわないインスタンスが追加されることを防止することができ、ユーザは自分の意図に反するインスタンスの発見を防止することができる。   For example, since automatic mapping based only on the closeness of the vocabulary between concepts was performed, even when the mapping result between concepts contains many errors, the hierarchical structure of the concept of the information source is not manually scrutinized, It becomes possible to correct the mapping result between the concepts correctly. For this reason, even when an administrator or user of a certain information source adds an instance of a concept determined to be equal in different information sources to an information source managed by himself or uses it for discovery of an instance, It is possible to prevent the addition of an instance that does not match the hierarchical structure of the information source of the user, and the user can prevent the discovery of the instance contrary to his intention.

なお、上述した実施形態では、情報源1a、1bの持つデータとしてオントロジOA、OBを例にとって説明したが、オントロジOA、OB以外にも、インターネットディレクトリ、図書の分類目録などの階層的に表現される情報源同士を自動的にマッピングする方法に適用してもよい。
例えば、2つのインターネットディレクトリを概念間でマッピングし、同じ概念と判断された概念に属するインスタンスをどちらか一方のインターネットディレクトリに移動させ、1つのインターネットディレクトリとして統合して保持することができる。これにより、検索ユーザは、概念階層を利用しながら、2つのインターネットディレクトリの持つインスタンスを1回の検索で取得することができる。
In the embodiment described above, the information source 1a, ontology O A as data having the 1b, although the O B was described as an example, ontology O A, in addition to O B, Internet directory hierarchy such classification catalog of books The present invention may be applied to a method for automatically mapping information sources that are expressed in an automatic manner.
For example, two Internet directories can be mapped between concepts, instances belonging to the concepts determined to be the same concept can be moved to one of the Internet directories, and integrated and held as one Internet directory. Thereby, the search user can acquire the instance which two Internet directories have by one search, utilizing a concept hierarchy.

なお、図1の概念間マッピング抽出装置2、トポロジマッピング抽出装置3およびトポロジマッピング評価装置4は、これらの装置にて行われる処理を行うプログラムをコンピュータに実行させることにより実現することができる。
以下、“infoseek(登録商標)”と“YAHOO!(登録商標)”のインターネットディレクトリをそれぞれ情報源21a、21bとし、infoseek”と“YAHOO!”のインターネットディレクトリのカテゴリを概念とした場合を例にとって、概念間のトポロジマッピングを行う方法について具体的に説明する。
Note that the inter-concept mapping extraction device 2, the topology mapping extraction device 3, and the topology mapping evaluation device 4 in FIG. 1 can be realized by causing a computer to execute a program that performs processing performed in these devices.
Hereinafter, the Internet directories of “infoseek (registered trademark)” and “YAHOO! (Registered trademark)” will be referred to as information sources 21a and 21b, respectively, and “infoseek” and “YAHOO! A method of performing topology mapping between concepts will be specifically described by taking the case of “Internet directory category” as an example.

図5は、“infoseek”と“YAHOO!”のインターネットディレクトリの構成例を示す図である。なお、図5の例では、“infoseek”と“YAHOO!”のインターネットディレクトリのUNIX(登録商標)カテゴリ以下の概念を対象とした。
図5において、“infoseek”の“UNIX(登録商標)”という概念には、“Solaris(登録商標)”、“Linux(登録商標)”および“FreeBSD(登録商標)”という子概念が存在している。また、“Linux”という概念には、“Turbolinux(登録商標)”、“Mklinux(登録商標)”および“新聞と雑誌”という子概念が存在している。
FIG. 5 is a diagram showing a configuration example of an Internet directory of “infoseek” and “YAHOO!”. In the example of FIG. 5, concepts below the UNIX (registered trademark) category of the Internet directory of “infoseek” and “YAHOO!” Are targeted.
In FIG. 5, the concept of “UNIX (registered trademark)” of “infoseek” includes child concepts of “Solaris (registered trademark)”, “Linux (registered trademark)”, and “FreeBSD (registered trademark)”. Yes. In addition, the concept of “Linux” includes child concepts of “Turboline (registered trademark)”, “Mkulinux (registered trademark)”, and “newspaper and magazine”.

一方、“YAHOO!”の“Unix(登録商標)”という概念には、“Linux”、“Solaris”および“BSD(登録商標)”という子概念が存在している。また、“Linux”という概念には、“ディストリビューション”および“サポートおよび文書”という子概念が存在している。また、“ディストリビューション”という概念には、“TurboLinux”および“Red Hat(登録商標)”という子概念が存在している。   On the other hand, the concept of “UNIX (registered trademark)” of “YAHOO!” Has child concepts of “Linux”, “Solaris”, and “BSD (registered trademark)”. Further, the concept of “Linux” includes child concepts of “distribution” and “support and documentation”. In addition, the concept of “distribution” includes child concepts of “TurboLinux” and “Red Hat (registered trademark)”.

そして、図1の概念間マッピング抽出装置2は、図5のカテゴリを概念として、これらの情報源21a、21bにそれぞれ含まれる概念間のマッピングを行う。ここで、インターネットディレクトリの各カテゴリはページ集合を持っている。そして、情報源21a、21bにそれぞれ含まれる概念間のマッピングには、各カテゴリが持っているページ集合の間の近似度を利用することができる。   Then, the inter-concept mapping extraction apparatus 2 in FIG. 1 performs mapping between the concepts included in each of the information sources 21a and 21b, with the category in FIG. 5 as a concept. Here, each category of the Internet directory has a set of pages. And the degree of approximation between the page sets which each category has can be used for mapping between the concepts included in the information sources 21a and 21b.

例えば、図6に示すように、“infoseek”の“UNIX(登録商標)”という概念と“YAHOO!”の“Unix(登録商標)”という概念との間の近似度を計測する場合、これらのカテゴリが持っているページ集合間の近似度を用いることができる。ここで、ページ集合間の近似度は、例えば、ベクトル空間モデルを用いて計算することができる。すなわち、全てのページとカテゴリを同じ検索語の重みベクトルで表現し、ベクトル間の類似度により文書間の近似度を算出することができる。   For example, as shown in FIG. 6, when measuring the degree of approximation between the “UNIX (registered trademark)” concept of “infoseek” and the “Unix (registered trademark)” concept of “YAHOO!” The degree of approximation between the set of pages that the category has can be used. Here, the degree of approximation between page sets can be calculated using, for example, a vector space model. That is, all pages and categories can be expressed by weight vectors of the same search word, and the degree of approximation between documents can be calculated from the similarity between vectors.

そして、infoseek”の“UNIX(登録商標)”という概念と“YAHOO!”の“Unix(登録商標)”という概念との間の近似度S(UNIX(登録商標)、Unix(登録商標))がヒューリスティックなしきい値θより大きい場合、infoseek”の“UNIX(登録商標)”という概念と“YAHOO!”の“Unix(登録商標)”という概念はマッピングできると判断することができる。
すなわち、文書はいくつかのタームによって特徴付けることができるので、個々のタームを各次元に対応させるベクトル空間を考えると、文書をベクトル空間内の点として表現することができる。ここで、各タームに対応する次元方向の大きさを求めるための文書Djにおけるタームtiの重みwjiとして、ターム頻度tfji、文書頻度dfiまたはtfji×idfjを用いることができる。
The concept of “UNIX (registered trademark)” in “infoseek” and “YAHOO! If the degree of approximation S (UNIX (registered trademark), Unix (registered trademark)) between the concept of "Unix (registered trademark)" is greater than the heuristic threshold θ, "infox" (UNIX) (registered trademark) It can be determined that the concept “Unix” of “YAHOO!” Can be mapped.
That is, since a document can be characterized by several terms, considering a vector space in which individual terms correspond to each dimension, the document can be expressed as a point in the vector space. Here, the term frequency tf ji , document frequency df i, or tf ji × idf j can be used as the weight w ji of the term t i in the document D j for obtaining the dimension in the dimension direction corresponding to each term. .

ターム頻度tfjiはタームtiが文書Djにどの程度の頻度で出現するかを表すもので、以下の式で定義することができる。
tfji=freq(i,j)
ただし、freq(i,j)は文書Djにおけるタームtiの出現頻度である。
また、ターム頻度tfjiの変形として、以下の式で示すように、重み付けKと最大頻度maxi,jで正規化する方法もある。
tfji=K+(K−1)freq(i,j)/(maxi,jfreq(i,j))
Term frequency tf ji not represent either term t i appears in how often the document D j, can be defined by the following equation.
tf ji = freq (i, j)
Here, freq (i, j) is the appearance frequency of the term t i in the document D j .
As a modification of the term frequency tf ji , there is also a method of normalizing with a weight K and a maximum frequency max i, j as shown in the following equation.
tf ji = K + (K−1) freq (i, j) / (max i, j freq (i, j))

さらに、ターム頻度tfjiの変形として、以下の式で示すように、logおよび文書におけるターム数で正規化する方法もある。
tfji=log2(freq(i,j)+1)/log2(文書j中のタームの種類数)
文書頻度dfiはタームtiが文書数を表すもので、以下の式で定義することができる。
dfi=Dfreq(i)
ただし、Dfreq(i)はタームtiが出現する文書数である。実際には、この逆数idfiが使用される。
Further, as a modification of the term frequency tf ji , there is a method of normalizing with the log and the number of terms in the document as shown in the following equation.
tf ji = log 2 (freq (i, j) +1) / log 2 (number of types of terms in document j)
The document frequency df i indicates that the term t i represents the number of documents, and can be defined by the following equation.
df i = Dfreq (i)
However, Dfreq (i) is the number of documents in which the term t i appears. In practice, this reciprocal idf i is used.

また、idfiの変形として、以下の式で示すように、logおよび文書集合中の文書総数Nで正規化する方法もある。
idfi=log2(N/Dfreq(i))+1
また、tfji×idfjはターム頻度tfjiと文書頻度dfiの両方の性質を併せ持つもので、文書Djにおけるタームtiの重みwjiは、以下の式で定義することができる。
ji=tfji×idfj
As a modification of the idf i, is as shown by the following equation, a method of normalizing the document total number N of log and document set in.
idf i = log 2 (N / Dfreq (i)) + 1
Further, tf ji × idf j has both the properties of the term frequency tf ji and the document frequency df i , and the weight w ji of the term t i in the document D j can be defined by the following expression.
w ji = tf ji × idf j

そして、文書Djの特徴ベクトルDj´を、Dj´=(wj1,wj2,・・・,wjm)と表す。ただし、mはベクトル空間の次元数、すなわち、文書集合に現れるタームの総数である。そして、文書Dqの特徴ベクトルDq´を、Dq´=(wq1,wq2,・・・,wqm)と表すと、文書Dj、Dq間の類似度sim(Dj、Dq)は、以下の式で算出することができる。
sim(Dj、Dq)=Dj´・Dq´/(|Dj´||Dq´|)=cosθ
=(wq1j1+wq2j2+・・・+wqmjm)/
(√(wq1 2+wq2 2+・・・+wqm 2)(√(wi1 2+wi2 2+・・・+wim 2
The feature vector D j ′ of the document D j is expressed as D j ′ = (w j1 , w j2 ,..., W jm ). Here, m is the number of dimensions in the vector space, that is, the total number of terms appearing in the document set. Then, 'the, D q' feature vector D q document D q = (w q1, w q2, ···, w qm) expressed as a document D j, the similarity sim between D q (D j, D q ) can be calculated by the following equation.
sim (D j , D q ) = D j ′ · D q ′ / (| D j ′ || D q ′ |) = cos θ
= (W q1 w j1 + w q2 w j2 +... + W qm w jm ) /
(√ (w q1 2 + w q2 2 +... + W qm 2 ) (√ (w i1 2 + w i2 2 +... + W im 2 )

そして、infoseek”の“UNIX(登録商標)”という概念と“YAHOO!”の“Unix(登録商標)”という概念との間の近似度S(UNIX(登録商標)、Unix(登録商標))が算出されると、図7に示すように、infoseek”の“UNIX(登録商標)”という概念について、“YAHOO!”のインターネットディレクトリのUNIX(登録商標)カテゴリ以下の全ての概念との間で総当りにて近似度をそれぞれ算出する。   The concept of “UNIX (registered trademark)” in “infoseek” and “YAHOO! When the degree of approximation S (UNIX (registered trademark), Unix (registered trademark)) with the concept of “Unix (registered trademark)” is calculated, as shown in FIG. With respect to the concept of “registered trademark”, the degree of approximation is calculated for all concepts under the UNIX (registered trademark) category of the Internet directory “YAHOO!”.

そして、infoseek”の“UNIX(登録商標)”という概念と、“YAHOO!”のインターネットディレクトリのUNIX(登録商標)カテゴリ以下の全ての概念との間で近似度がそれぞれ算出されると、infoseek”のインターネットディレクトリのUNIX(登録商標)カテゴリ以下の全ての概念について、“YAHOO!”のインターネットディレクトリのUNIX(登録商標)カテゴリ以下の全ての概念との間で総当りにて近似度をそれぞれ算出することにより、図5の“infoseek”と“YAHOO!”のインターネットディレクトリに含まれる概念間のマッピングを行う。   And the concept of “UNIX (registered trademark)” of “infoseek” and “YAHOO! When the approximations are calculated for all the concepts under the UNIX (registered trademark) category of the Internet directory of "", the "YAHOO" for all the concepts under the UNIX (registered trademark) category of the "infoseek" Internet directory are calculated. ! "Is included in the Internet directories of" infoseek "and" YAHOO! "In FIG. 5 by calculating the approximate degree of brute force with all concepts under the UNIX (registered trademark) category of the Internet directory of"! " Mapping between concepts.

図8は、図5の概念間におけるマッピング結果の一例を示す図である。
図8において、図5の“infoseek”と“YAHOO!”のインターネットディレクトリに含まれる概念間のマッピングの結果、“infoseek”の“UNIX(登録商標)”という概念と“YAHOO!”の“Unix(登録商標)”という概念とがマッピングされ、“infoseek”の“FreeBSD”という概念と“YAHOO!”の“BSD”という概念とがマッピングされ、“infoseek”の“Solaris”という概念と“YAHOO!”の“Solaris”という概念とがマッピングされたものとする。
FIG. 8 is a diagram illustrating an example of a mapping result between the concepts of FIG.
In FIG. 8, as a result of mapping between the concepts included in the “infoseek” and “YAHOO!” Internet directories in FIG. 5, the “UNIX (registered trademark)” concept of “infoseek” and the “Unix” of “YAHOO!” The concept “FreeBSD” in “infoseek” and the concept “BSD” in “YAHOO!” Are mapped, and the concept “Solaris” in “infoseek” and “YAHOO!” It is assumed that the concept of “Solaris” is mapped.

また、“infoseek”の“Linux”という概念は、“YAHOO!”の“Unix(登録商標)”という概念と“YAHOO!”の“Linux”という概念との双方とマッピングされたものとする。
さらに、“infoseek”の“新聞と雑誌”という概念と“YAHOO!”の“サポートおよび文書”という概念とがマッピングされ、“infoseek”の“Turbolinux”という概念と“YAHOO!”の“TurboLinux”という概念とがマッピングされたものとする。
そして、図5の“infoseek”と“YAHOO!”のインターネットディレクトリに含まれる概念間でマッピングが行われると、マッピングされたこれらのインターネットディレクトリのクラスに対し、その親子クラスのマッピング結果をチェックすることにより、図5の概念間におけるトポロジマッピングを行う。
Also, the “Linux” concept of “infoseek” is mapped to both the “UNIX (registered trademark)” concept of “YAHOO!” And the “Linux” concept of “YAHOO!”.
Furthermore, the concept of “newspaper and magazine” in “infoseek” and the concept of “support and documents” in “YAHOO!” Are mapped, and the concept of “Turboline” in “infoseek” and “TurboLinux” in “YAHOO!” It is assumed that the concept is mapped.
Then, when mapping is performed between the concepts included in the “infoseek” and “YAHOO!” Internet directories in FIG. 5, the mapping result of the parent-child class is checked for these mapped Internet directory classes. Thus, topology mapping between the concepts in FIG. 5 is performed.

図9は、図5の概念間におけるトポロジマッピング結果の一例を示す図である。
図9において、図8のマッピング結果を参照すると、例えば、“infoseek”の“Solaris”という概念と“YAHOO!”の“Solaris”という概念とが互いにマッピングされている。そして、“infoseek”の“Solaris”という概念の親概念“UNIX(登録商標)”と、“YAHOO!”の“Solaris”という概念の親概念“Unix(登録商標)”とのマッピング状態をチェックすると、図8のマッピング結果から、“infoseek”の“UNIX(登録商標)”という概念と、“YAHOO!”の“Unix(登録商標)”という概念とは互いにマッピングされていることが判る。
FIG. 9 is a diagram illustrating an example of a topology mapping result between the concepts of FIG.
In FIG. 9, referring to the mapping result of FIG. 8, for example, the concept “Solaris” of “infoseek” and the concept of “Solaris” of “YAHOO!” Are mapped to each other. Then, when checking the mapping state between the parent concept “UNIX (registered trademark)” of the concept “Solaris” of “infoseek” and the parent concept “Unix (registered trademark)” of the concept “Solaris” of “YAHOO!” From the mapping result of FIG. 8, it can be seen that the concept “UNIX (registered trademark)” of “infoseek” and the concept “UNIX (registered trademark)” of “YAHOO!” Are mapped to each other.

この結果、“infoseek”における概念集合{UNIX(登録商標),Solaris}と、“YAHOO!”における概念集合{Unix(登録商標),Solaris}とはトポロジマッピングを形成できると判断する。
そして、“infoseek”と“YAHOO!”のインターネットディレクトリのUNIX(登録商標)カテゴリ以下のマッピングされている全ての概念について、以上のような操作を実行する。
As a result, it is determined that the concept set {UNIX (registered trademark), Solaris} in “infoseek” and the concept set {Unix (registered trademark), Solaris} in “YAHOO!” Can form a topology mapping.
Then, the above operation is executed for all the mapped concepts under the UNIX (registered trademark) category of the Internet directory of “infoseek” and “YAHOO!”.

この結果、概念集合{UNIX(登録商標),Solaris,Linux,FreeBSD,新聞と雑誌}からなるサブディレクトリαと、概念集合{Unix(登録商標),Solaris,Linux,BSD,サポートおよび文書}からなるサブディレクトリα´との間でトポロジマッピングが形成される。また、概念集合{Linux}からなるサブディレクトリβと、概念集合{Unix(登録商標)}からなるサブディレクトリβ´との間でトポロジマッピングが形成される。また、概念集合{Turbolinux}からなるサブディレクトリγと、概念集合{TurboLinux}からなるサブディレクトリγ´との間でトポロジマッピングが形成される。   As a result, it consists of a subdirectory α consisting of a concept set {UNIX (registered trademark), Solaris, Linux, FreeBSD, newspaper and magazine} and a concept set {Unix (registered trademark), Solaris, Linux, BSD, support and document}. A topology mapping is formed with the subdirectory α ′. Further, a topology mapping is formed between the subdirectory β consisting of the concept set {Linux} and the subdirectory β ′ consisting of the concept set {Unix (registered trademark)}. Further, a topology mapping is formed between the subdirectory γ composed of the concept set {Turboline} and the subdirectory γ ′ composed of the concept set {TurboLinux}.

そして、トポロジマッピングの結果、多重化されたトポロジマッピングが存在する場合、多重化されたトポロジマッピング結果を与えるサブディレクトリを検出する。そして、多重化されたトポロジマッピング結果を与えるサブディレクトリが検出されると、サブディレクトリを構成する概念の個数が最も多いサブディレクトリ以外のサブディレクトリから形成されるトポロジマッピング結果を誤りとして検出する。
すなわち、図9のトポロジマッピング結果を参照すると、多重化されたトポロジマッピング結果を与えるサブディレクトリとして、サブディレクトリα、α´とサブディレクトリβ、β´とが検出される。
If a multiplexed topology mapping exists as a result of the topology mapping, a subdirectory that provides the multiplexed topology mapping result is detected. When a subdirectory that gives a multiplexed topology mapping result is detected, a topology mapping result formed from subdirectories other than the subdirectory having the largest number of concepts constituting the subdirectory is detected as an error.
That is, referring to the topology mapping result of FIG. 9, the subdirectories α and α ′ and the subdirectories β and β ′ are detected as subdirectories that give the multiplexed topology mapping result.

そして、多重化されたトポロジマッピング結果を与えるサブディレクトリα、α´とサブディレクトリβ、β´とが検出されると、サブディレクトリα、α´に含まれる概念の個数と、サブディレクトリβ、β´に含まれる概念の個数とを比較する。ここで、サブディレクトリαには、“UNIX(登録商標)”、“Solaris”、“Linux”、“FreeBSD”、“新聞と雑誌”という概念が含まれ、サブディレクトリα´には、“Unix(登録商標)”、“Solaris”、“Linux”、“BSD”、“サポートおよび文書”という概念が含まれている。また、サブディレクトリβには、“Linux”という概念が含まれ、サブディレクトリβ´には、“Unix(登録商標)”という概念が含まれている。このため、サブディレクトリα、α´に含まれる概念の個数と、サブディレクトリβ、β´に含まれる概念の個数とを比較すると、サブディレクトリα、α´に含まれる概念の個数よりも、サブディレクトリβ、β´に含まれる概念の個数の方が少ないと判断することができる。   When the subdirectories α and α ′ and the subdirectories β and β ′ that give the multiplexed topology mapping result are detected, the number of concepts included in the subdirectories α and α ′ and the subdirectories β and β The number of concepts included in ′ is compared. Here, the subdirectory α includes the concepts “UNIX (registered trademark)”, “Solaris”, “Linux”, “FreeBSD”, “newspaper and magazine”, and the subdirectory α ′ includes “Unix ( (Registered trademark) ”,“ Solaris ”,“ Linux ”,“ BSD ”,“ support and documents ”. Further, the subdirectory β includes the concept of “Linux”, and the subdirectory β ′ includes the concept of “Unix (registered trademark)”. Therefore, when the number of concepts included in the subdirectories α and α ′ is compared with the number of concepts included in the subdirectories β and β ′, the number of concepts included in the subdirectories α and α ′ is larger than the number of concepts included in the subdirectories α and α ′. It can be determined that the number of concepts included in the directories β and β ′ is smaller.

そして、サブディレクトリα、α´に含まれる概念の個数よりも、サブディレクトリβ、β´に含まれる概念の個数の方が少ないと判断されると、図10に示すように、サブディレクトリβ、β´間のトポロジマッピング結果を誤りと判断する。
そして、サブディレクトリβ、β´間のトポロジマッピング結果の誤りが検出されると、その誤りが修正されたトポロジマッピング結果に従うように、概念間のマッピング結果を修正する。
When it is determined that the number of concepts included in the subdirectories β and β ′ is smaller than the number of concepts included in the subdirectories α and α ′, as shown in FIG. The topology mapping result between β ′ is determined to be an error.
When an error in the topology mapping result between the subdirectories β and β ′ is detected, the mapping result between the concepts is corrected so as to follow the topology mapping result in which the error is corrected.

図11は、図5の概念間におけるマッピング誤りを除去した後のマッピング結果の一例を示す図である。
図11において、図8のマッピングの結果、“infoseek”の“Linux”という概念は、“YAHOO!”の“Unix(登録商標)”という概念と、“YAHOO!”の“Linux”という概念との双方とマッピングされている。そして、図8の“infoseek”の“Linux”という概念と、“YAHOO!”の“Unix(登録商標)”という概念との間のマッピング結果を除去することにより、図10のサブディレクトリβ、β´間のトポロジマッピング結果の誤りを修正することができる。これにより、“infoseek”の“Linux”という概念が、“YAHOO!”の“Linux”という概念とのみマッピングされた結果を出力することができる。
FIG. 11 is a diagram illustrating an example of the mapping result after removing the mapping error between the concepts of FIG.
In FIG. 11, as a result of the mapping of FIG. 8, the concept of “Linux” of “infoseek” is the concept of “Unix (registered trademark)” of “YAHOO!” And the concept of “Linux” of “YAHOO!”. Mapping with both. Then, by removing the mapping result between the concept of “Linux” in “infoseek” in FIG. 8 and the concept of “UNIX (registered trademark)” in “YAHOO!”, The subdirectories β and β in FIG. An error in the topology mapping result between 'can be corrected. As a result, it is possible to output a result obtained by mapping the concept of “Linux” of “infoseek” only with the concept of “Linux” of “YAHOO!”.

本発明は、概念の階層構造を考慮しながら、異なる情報源に含まれる概念間のマッピングを自動的に行うことができ、インターネットディレクトリの持つインスタンスなどの検索を行う検索エンジンなどに利用することができる。   The present invention can automatically perform mapping between concepts included in different information sources in consideration of the hierarchical structure of concepts, and can be used for a search engine that searches an instance of an Internet directory. it can.

本発明の一実施形態に係る情報管理装置の概略構成を示すブロック図である。It is a block diagram which shows schematic structure of the information management apparatus which concerns on one Embodiment of this invention. 本発明の一実施形態に係る情報源の構造の一例を示す図である。It is a figure which shows an example of the structure of the information source which concerns on one Embodiment of this invention. 本発明の一実施形態に係る情報管理方法を示すフローチャートである。It is a flowchart which shows the information management method which concerns on one Embodiment of this invention. 本発明の一実施形態に係るトポロジマッピング抽出方法を示す図である。It is a figure which shows the topology mapping extraction method which concerns on one Embodiment of this invention. “infoseek”と“YAHOO!”のインターネットディレクトリの構成例を示す図である。It is a figure which shows the structural example of the Internet directory of "infoseek" and "YAHOO!". 図5の情報源21a、21bにそれぞれ含まれる概念間の近似度計測方法の一例を示す図である。FIG. 6 is a diagram illustrating an example of a method for measuring the degree of approximation between concepts included in each of the information sources 21a and 21b in FIG. 図5の概念間における総当り方式による近似度計測方法の一例を示す図である。It is a figure which shows an example of the approximation measuring method by the brute force method between the concepts of FIG. 図5の概念間におけるマッピング結果の一例を示す図である。It is a figure which shows an example of the mapping result between the concepts of FIG. 図5の概念間におけるトポロジマッピング結果の一例を示す図である。It is a figure which shows an example of the topology mapping result between the concepts of FIG. 図5の概念間におけるトポロジマッピング誤りの除去結果の一例を示す図である。It is a figure which shows an example of the removal result of the topology mapping error between the concepts of FIG. 図5の概念間におけるマッピング誤りを除去した後のマッピング結果の一例を示す図である。It is a figure which shows an example of the mapping result after removing the mapping error between the concepts of FIG.

符号の説明Explanation of symbols

1a、1b、21a、21b 情報源
2 概念間マッピング抽出装置
2a 近似度計測手段
3 トポロジマッピング抽出装置
3a マッピング状態判定手段
3b 接続形態判定手段
4 トポロジマッピング評価装置
4a 部分情報源検出手段
4b 概念数算出手段
4c トポロジマッピング誤り検出手段
5 マッピング結果
11、Ca1〜Ca3、Cb1〜Cb3 概念
12 インスタンス
A、OB オントロジ
SA1、OSB1、OSA2、OSB2 サブオントロジ
DESCRIPTION OF SYMBOLS 1a, 1b, 21a, 21b Information source 2 Inter-concept mapping extraction apparatus 2a Approximation degree measurement means 3 Topology mapping extraction apparatus 3a Mapping state determination means 3b Connection form determination means 4 Topology mapping evaluation apparatus 4a Partial information source detection means 4b Concept number calculation It means 4c topology mapping error detection unit 5 mapping results 11, C a1 ~C a3, C b1 ~C b3 concept 12 instance O A, O B ontology O SA1, O SB1, O SA2 , O SB2 sub ontology

Claims (6)

2つの情報源にそれぞれ含まれる互いに近似する概念を抽出する概念間マッピング抽出手段と、
前記概念間マッピング手段にて抽出された互いに近似する概念の接続形態に基づいて、互いに親子関係をなす概念集合から構成される部分情報源間で近似する部分情報源を抽出してトポロジマッピングを形成するトポロジマッピング抽出手段と、
前記トポロジマッピング抽出手段にて抽出されたトポロジマッピング結果が多重化している部分情報源を検出し、当該検出された部分情報源に含まれる概念の個数に基づいて、トポロジマッピング結果の誤りを検出し、誤りの検出されたトポロジマッピング結果を除去することで前記概念間マッピング抽出手段にて抽出された概念間のマッピング結果の修正を行うトポロジマッピング評価手段とを備えることを特徴とする情報管理装置。
Inter-concept mapping extraction means for extracting concepts that are similar to each other included in each of the two information sources;
Based on the topology of similar concepts extracted by the inter-concept mapping means, partial information sources that are approximated between partial information sources composed of concept sets that are in parent-child relationship are extracted to form topology mapping A topology mapping extraction means,
A partial information source in which the topology mapping result extracted by the topology mapping extraction means is multiplexed is detected, and an error in the topology mapping result is detected based on the number of concepts included in the detected partial information source. An information management apparatus comprising: topology mapping evaluation means for correcting a mapping result between concepts extracted by the inter-concept mapping extraction means by removing a topology mapping result in which an error is detected.
前記概念間マッピング抽出手段は、
2つの情報源にそれぞれ含まれる概念の持つインスタンス間の近似性を計測する近似度計測手段を備えることを特徴とする請求項1記載の情報管理装置。
The inter-concept mapping extraction means includes:
The information management apparatus according to claim 1, further comprising: a degree-of-approximation measuring unit that measures the closeness between instances of the concepts included in the two information sources.
前記トポロジマッピング抽出手段は、
前記マッピングされた概念と親子関係をなす概念のマッピング状態を判定するマッピング状態判定手段と、
前記概念間マッピング抽出手段にて抽出された互いに近似する概念の接続形態の近似性を判定する接続形態判定手段とを備え、
前記トポロジマッピング抽出手段は、前記接続形態判定手段にて判定された接続形態の近似性に基づいて、互いに親子関係をなす概念集合から構成される部分情報源間でトポロジマッピングを形成することを特徴とする請求項1または2記載の情報管理装置。
The topology mapping extraction means includes
Mapping state determination means for determining a mapping state of a concept having a parent-child relationship with the mapped concept;
Connection form determining means for determining the closeness of the connection forms of the concepts that are similar to each other extracted by the inter-concept mapping extraction means,
The topology mapping extraction unit forms a topology mapping between partial information sources composed of concept sets having a parent-child relationship with each other based on the proximity of the connection mode determined by the connection mode determination unit. The information management device according to claim 1 or 2.
2つの情報源についての概念間のマッピングを行うステップと、
前記マッピングされた概念間の親子関係に基づいて、互いに近似する概念間の接続形態の近似性を判定するステップと、
前記概念間の接続形態の近似性に基づいて、当該接続形態の近似している概念集合から構成される部分情報源間で近似する部分情報源を抽出してトポロジマッピングを行うステップと、
前記トポロジマッピング結果が多重化している部分情報源を検出するステップと、
前記検出された部分情報源に含まれる概念の個数を算出するステップと、
前記部分情報源に含まれる概念の個数に基づいて、前記トポロジマッピング結果の誤りを検出し、誤りの検出されたトポロジマッピング結果を除去することにより前記概念間のマッピング結果を修正するステップとをコンピュータに実行させることを特徴とする情報管理プログラム。
Mapping between concepts for two sources;
Determining the closeness of the connection form between concepts that approximate each other based on the parent-child relationship between the mapped concepts;
Based on the approximation of the connection form between the concepts, extracting a partial information source approximated between partial information sources composed of concept sets approximated by the connection form, and performing topology mapping;
Detecting a partial information source in which the topology mapping result is multiplexed;
Calculating the number of concepts included in the detected partial information source;
Detecting a topology mapping result error based on the number of concepts included in the partial information source, and correcting the mapping result between the concepts by removing the topology mapping result in which the error is detected. An information management program that is executed by a computer.
前記トポロジマッピング結果の誤りを検出するステップは、Detecting an error in the topology mapping result,
検出された前記部分情報源のうち、部分情報源を構成する概念の個数が最も多い部分情報源以外の部分情報源から形成されるトポロジマッピング結果を誤りとして検出するステップをコンピュータに実行させることを特徴とする請求項4記載の情報管理プログラム。  Causing the computer to execute a step of detecting, as an error, a topology mapping result formed from partial information sources other than the partial information source having the largest number of concepts constituting the partial information source among the detected partial information sources. 5. The information management program according to claim 4, wherein
前記概念間の接続形態の近似性に基づいてトポロジマッピングを行うステップは、The step of performing topology mapping based on the approximation of the connection form between the concepts includes:
互いにマッピングされている概念の親概念のマッピング結果を確認するステップと、  Checking the mapping result of the parent concepts of the concepts mapped to each other;
前記親概念がマッピングされている場合、互いにマッピングされている概念およびその親概念を含む概念集合からなる部分情報源間でトポロジマッピングを形成するステップと、  If the parent concept is mapped, forming a topology mapping between partial information sources consisting of concepts mapped to each other and a concept set including the parent concept;
前記トポロジマッピングが形成された部分情報源に含まれる概念の子概念のマッピング結果を確認するステップと、  Confirming a mapping result of a concept child concept included in the partial information source in which the topology mapping is formed;
前記子概念がマッピングされている場合、互いにマッピングされている概念、その親概念およびその子概念を含む概念集合からなる部分情報源間でトポロジマッピングを形成するステップとをコンピュータに実行させることを特徴とする請求項4または5記載の情報管理プログラム。  When the child concept is mapped, a computer is caused to execute topology mapping between partial information sources including concepts mapped to each other, a parent concept thereof, and a concept set including the child concept. The information management program according to claim 4 or 5.
JP2004156097A 2004-05-26 2004-05-26 Information management apparatus and information management program Expired - Fee Related JP4443999B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004156097A JP4443999B2 (en) 2004-05-26 2004-05-26 Information management apparatus and information management program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004156097A JP4443999B2 (en) 2004-05-26 2004-05-26 Information management apparatus and information management program

Publications (2)

Publication Number Publication Date
JP2005339119A JP2005339119A (en) 2005-12-08
JP4443999B2 true JP4443999B2 (en) 2010-03-31

Family

ID=35492634

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004156097A Expired - Fee Related JP4443999B2 (en) 2004-05-26 2004-05-26 Information management apparatus and information management program

Country Status (1)

Country Link
JP (1) JP4443999B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4580351B2 (en) * 2006-02-22 2010-11-10 日本電信電話株式会社 Interest information generating apparatus, interest information generating method, and interest information generating program
JP5431261B2 (en) * 2010-07-23 2014-03-05 インターナショナル・ビジネス・マシーンズ・コーポレーション Information management system, method and program
JP7036760B2 (en) * 2019-03-13 2022-03-15 株式会社日立製作所 Ontology expansion support device and ontology expansion support method

Also Published As

Publication number Publication date
JP2005339119A (en) 2005-12-08

Similar Documents

Publication Publication Date Title
AU2018264012B1 (en) Identification of domain information for use in machine learning models
Wang et al. Recom: reinforcement clustering of multi-type interrelated data objects
US9336296B2 (en) Cross-domain clusterability evaluation for cross-guided data clustering based on alignment between data domains
JP5340751B2 (en) Document processing apparatus and document processing method
JP5392077B2 (en) Ontology processing apparatus, ontology processing method, and ontology processing program
US8243988B1 (en) Clustering images using an image region graph
US20080208836A1 (en) Regression framework for learning ranking functions using relative preferences
WO2011105113A1 (en) Relational information expansion device, relational information expansion method and program
WO2013133985A1 (en) Entity augmentation service from latent relational data
Zhang et al. Cross-domain recommendation with semantic correlation in tagging systems
Kong et al. Entity matching across multiple heterogeneous data sources
JP5747508B2 (en) Bilingual information search device, translation device, and program
Tuarob et al. Improving algorithm search using the algorithm co-citation network
Schmidt et al. Matching domain and top-level ontologies exploring word sense disambiguation and word embedding
Tsapatsoulis Image retrieval via topic modelling of Instagram hashtags
Das et al. Mirror on the wall: Finding similar questions with deep structured topic modeling
Chuang et al. Automatic query taxonomy generation for information retrieval applications
JP4443999B2 (en) Information management apparatus and information management program
US10296913B1 (en) Integration of heterogenous data using omni-channel ontologies
Kaufmann et al. Combining bottom-up and top-down generation of interactive knowledge maps for enterprise search
KR20160061866A (en) System and method for discovering implicit relationships to augment web-scale knowledge base constructed from the web
Preetha et al. Personalized search engines on mining user preferences using clickthrough data
Kashkur et al. Research into plagiarism cases and plagiarism detection methods
Toews et al. Determining Domain-Specific Differences of Polysemous Words Using Context Information.
Mahmood et al. Autonomous decentralized semantic based traceability link recovery framework

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060719

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090501

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090714

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091006

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100113

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees