JP7099976B2 - 情報管理装置および情報管理方法 - Google Patents

情報管理装置および情報管理方法 Download PDF

Info

Publication number
JP7099976B2
JP7099976B2 JP2019054851A JP2019054851A JP7099976B2 JP 7099976 B2 JP7099976 B2 JP 7099976B2 JP 2019054851 A JP2019054851 A JP 2019054851A JP 2019054851 A JP2019054851 A JP 2019054851A JP 7099976 B2 JP7099976 B2 JP 7099976B2
Authority
JP
Japan
Prior art keywords
node
item
predetermined
information management
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019054851A
Other languages
English (en)
Other versions
JP2020154991A (ja
Inventor
真理奈 藤田
宏視 荒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019054851A priority Critical patent/JP7099976B2/ja
Priority to PCT/JP2020/008353 priority patent/WO2020195545A1/ja
Publication of JP2020154991A publication Critical patent/JP2020154991A/ja
Application granted granted Critical
Publication of JP7099976B2 publication Critical patent/JP7099976B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、情報を階層化して管理可能な情報管理装置および情報管理方法に関する。
利用者が必要な情報を取得し易くするために、情報を階層的に分類する技術が提案されている。
例えば、特許文献1には、経路パタン抽出部は、比較概念選択部で選択された概念を含むカテゴリを含む経路を情報分類階層において特定し、当該経路に含まれる各カテゴリの概念に対し、上位のカテゴリの概念とどのような関係にあるかの情報を設定し、当該各カテゴリの概念を、入力受付部で入力されたユーザ指定概念を除き、抽象化することにより経路パタンを生成し、カテゴリ生成部は、経路パタンに含まれるカテゴリの概念を、上記設定した情報を満たすように置換することで、候補カテゴリを生成し、制御部は候補カテゴリを情報分類階層に追加し、出力部は情報分類階層を出力する技術が開示されている。
特開2012-43212号公報
しかしながら、従来の情報分類階層は、ドキュメントの表記の揺れのみを考慮して構築され、項目の使われ方は考慮されていなかった。このため、同じ項目であっても、ドキュメントによっては記載内容が異なることがあり、必要な情報の取得に手間がかかることがあった。
本発明は、上記事情に鑑みなされたものであり、その目的は、使われ方が反映された情報を階層的に管理可能な情報管理装置および情報管理方法を提供することにある。
上記目的を達成するため、第1の観点に係る情報管理装置は、概念化された情報に割り当てられたノードの階層構造から所定ノードを抽出する抽出部と、前記抽出部にて抽出された前記所定ノードに紐付けられた下位ノードの情報に基づいて、前記抽出部で抽出された前記所定ノードを分類する分類部とを備える。
本発明によれば、使われ方が反映された情報を階層的に管理することができる。
図1は、実施形態に係る情報管理装置の構成例を示すブロック図である。 図2は、図1のドキュメントの一例を示す図である。 図3は、図1のドキュメントのその他の例を示す図である。 図4は、図1のドキュメントのさらにその他の例を示す図である。 図5は、図1のドキュメントのさらにその他の例を示す図である。 図6(a)は、図2のドキュメントの項目が割り当てられたノードの階層構造を示す図、図6(b)は、図3のドキュメントの項目が割り当てられたノードの階層構造を示す図である。 図7(a)は、図6(a)の階層構造のノードの概念の意味解析に基づく統合例を示す図、図7(b)は、図6(b)の階層構造のノードの概念の意味解析に基づく概念の統合例を示す図、図7(c)は、図4(b)のドキュメントの項目に基づく階層構造のノードの概念の意味解析に基づく統合例を示す図である。 図8(a)は、図6(b)の階層構造についての下位ノードの統合または分割の対象となる所定ノードの抽出例を示す図、図8(b)は、図5のドキュメントの項目に基づく階層構造についての下位ノードの統合または分割の対象となる所定ノードの抽出例を示す図である。 図9(a)は、図7(a)の階層構造のノードの概念の抽象度解析に基づく統合例を示す図、図9(b)は、図8(a)の階層構造のノードの概念の抽象度解析に基づく概念の統合例を示す図、図9(c)は、図7(c)の階層構造のノードの概念の抽象度解析に基づく統合例を示す図、図9(d)は、図8(b)の階層構造のノードの概念の抽象度解析に基づく統合例を示す図である。 図10は、図1のドキュメントから抽出された情報内容と項目との対応関係の一例を示す図である。 図11(a)は、各ドキュメントの生息環境に紐付く下位ノードの紐付き方のパタンの分類例を示す図、図11(b)は、図11(a)のパタンP1の数理モデルの一例を示す図、図11(c)は、図11(a)のパタンP2の数理モデルの一例を示す図、図11(d)は、図11(a)のパタンP3の数理モデルの一例を示す図である。 図12(a)は、図11(b)のパタンP1に基づく下位ノードの分割例を示す図、図12(b)は、図11(c)のパタンP2に基づく下位ノードの分割例を示す図、図12(c)は、図11(d)のパタンP3に基づく下位ノードの分割例を示す図である。 図13(a)は、図7(a)の階層構造に基づく下位ノードの統合または分割の対象となる所定ノードのその他の抽出例を示す図、図13(b)は、図8(b)の階層構造に基づく下位ノードの統合または分割の対象となる所定ノードのその他の抽出例を示す図である。 図14は、実施形態に係る下位構造に基づくパタン分類と数理モデル化処理を示すフローチャートである。 図15は、図14のS18の処理の具体例を示すフローチャートである。 図16は、実施形態に係る抽象度再設定に基づくノードの分割処理の一例を示すフローチャートである。 図17は、実施形態に係る抽象度再設定に基づくノードの分割処理のその他の例を示すフローチャートである。 図18は、実施形態に係る抽象度再設定に基づくノードの分割処理のさらにその他の例を示すフローチャートである。 図19は、図1の情報管理装置のハードウェア構成例を示すブロック図である。
実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また、実施形態の中で説明されている諸要素およびその組み合わせの全てが発明の解決手段に必須であるとは限らない。
実施形態に係る情報管理装置は、ドキュメントの表記の使われ方に基づいて情報を分類する。このとき、情報管理装置は、概念化された情報に割り当てられたノードの階層構造から所定ノードを抽出し、その所定ノードに紐付けられた下位ノードの情報に基づいて所定ノードを分類する。ノードは、例えば、ドキュメントの項目が割り当てられる。ノードは、ドキュメントの見出しが割り当てられてもよいし、ドキュメントのタイトルが割り当てられてもよい。ノードは、例えば、帳票などの項目名が割り当てられてもよい。
以下、実施形態に係る情報管理装置について、ドキュメントの項目がノードに割り当てられる場合を例にとって説明する。以下の説明では、“○○部は”と動作主体を記した場合、プロセッサがプログラムである○○部を読み出し、DRAM(Dynamic Random Access Memory)にロードした上で○○部の機能を実現することを意味するものとする。
図1は、実施形態に係る情報管理装置の構成例を示すブロック図である。
図1において、情報管理装置は、項目抽出部1、ノード候補生成部2、ノード抽出部3、ノード統合部4、分類部5、モデル化部6、ノード分割部7、シソーラス辞書8および概念モデル9を備える。
項目抽出部1は、ドキュメントD1~D4・・から項目を抽出し、その項目が割り当てられたノードの階層構造を生成する。このとき、項目抽出部1は、ノードに付される項目名として、ドキュメントD1~D4・・の記載をそのまま用いる。このため、ノードに付される項目名は、同一の概念の項目であっても、表記にバラツキが発生することがある。
ノード候補生成部2は、形態素解析および類語分析に基づいて、ドキュメントD1~D4・・から抽出された同一概念の項目の名称を統一する。このとき、ノード候補生成部2は、シソーラス辞書8を参照することができる。また、ノード候補生成部2は、ドキュメントD1~D4・・から抽出された単語の包含関係に基づいてノードの階層構造を修正する。例えば、所定ノードに紐付く下位ノードの概念が、所定ノードの概念に含まれない修飾語である場合、ノード候補生成部2は、その下位ノードを所定ノードに集約することができる。
ノード抽出部3は、ノードの階層構造から所定ノードを抽出する。例えば、ノード抽出部3は、所定ノードとして、下位ノードの階層が1段以下のノードを抽出することができる。所定ノードとして、下位ノードの階層が1段以下のノードを抽出することにより、所定ノードに紐付く下位ノードの項目に基づくパタン分類を容易化することができる。
ノード統合部4は、所定ノードに紐付く下位ノードの項目の抽象度を統合する。このとき、ノード統合部4は、概念モデル9を参照することができる。これにより、同一階層の項目であっても、上位概念で表記された項目名と、下位概念で表記された項目名とを一致させることができる。
分類部5は、所定ノードに紐付く下位ノードの項目に基づいて所定ノードを分類する。このとき、分類部5は、所定ノードに紐付く下位ノードの概念の組み合わせに基づいて、所定ノードを分類することができる。例えば、分類部5は、第1ノードに紐付く下位ノードの概念が、第2ノードに紐付く下位ノードの概念となり得ない場合、第1ノードと第2ノードを異なるグループに分類することができる。これにより、第1ノードの項目名と第2ノードの項目名とが等しい場合においても、第1ノードの項目と第2ノードの項目とは、使われ方が異なると判断することができる。
ここで、異なるグループに分類された所定ノードに割り当てられた項目は、表記が同じであっても、使われ方が異なると判断することができ、項目の使われ方が反映された情報の検索効率を向上させることができる。このため、報告書、設計書、企画書、論文、社内向けおよび社外向けなどの種類に応じて適正化されたドキュメントの作成を支援したり、採択率の良い論文の作成を支援したりすることができる。
モデル化部6は、所定ノードに紐付く下位ノードの情報に基づいて、下位ノードの紐付き方のモデルを推定する。このとき、モデル化部6は、分類部5にて同一グループに分類された所定ノードに紐付く下位ノードの紐付き方のパタンを生成することができる。このパタンは、複数のドキュメントD1~D4・・から抽出された項目に割り当てられた所定ノードに紐付く下位ノードのまとまり度またはバラツキ度を示すことができる。
モデル化部6は、下位ノードの紐付き方のモデルを推定する場合、所定ノードに紐付く下位ノードの情報内容を参照することができる。例えば、モデル化部6は、所定ノードに紐付く下位ノードの情報内容の要素に基づいて、下位ノードの紐付き方のモデルを推定することができる。下位ノードの情報内容の要素は、例えば、下位ノードの情報内容に含まれる単語である。この下位ノードの情報の紐付き方のモデルは、下位ノードの情報内容の情報量に基づいて構築してもよいし、下位ノードの情報内容の要素の類似性に基づいて構築してもよい。
ノード分割部7は、異なるグループに分類された所定ノードにそれぞれ紐付く下位ノードの項目を、各グループに特有の具体的な項目に分割し、そのノードの階層構造をグループごとに出力する。このとき、ノード分割部7は、モデル化部6にて推定されたモデルに基づいて、所定ノードに紐付く下位ノードの項目を分割することができる。これにより、ドキュメントD1~D4・・から同一概念の項目として抽出された場合においても、これらの項目の使われ方に違いに応じて項目名を異ならせることができ、項目の使われ方の違いが反映された検索を実現することができる。
シソーラス辞書8は、意味の類似性に基づいて単語を分類した辞書である。概念モデル9は、概念間の上下の関係性を示すモデルである。このとき、上位の階層は、下位の階層よりも抽象度を高くすることができる。概念モデル9は、例えば、オントロジーを用いることができる。
以下、図1の情報管理装置の処理について、実際のドキュメントを例にとって具体的に説明する。
図2は、図1のドキュメントの一例を示す図である。
図2において、ドキュメントD1には、クマノミの生態というタイトルが設けられている。ドキュメントD1は、生息環境、繁殖方法、採食方法、性別および生存期間という項目を含む。生息環境という項目は、水質、水深、温度、共生および生息海域という項目を含む。
水質という項目は、海水という情報内容を含む。水深という項目は、20-40mという情報内容を含む。温度という項目は、24度という情報内容を含む。共生という項目は、イソギンチャクという情報内容を含む。生息海域という項目は、インド太平洋および赤道付近という情報内容を含む。
図3は、図1のドキュメントのその他の例を示す図である。
図3において、ドキュメントD2には、ドビウオの生態というタイトルが設けられている。ドキュメントD2は、生息環境、繁殖方法、餌接種方法、性別および寿命という項目を含む。生息環境という項目は、水質、水深、温度および生息地域という項目を含む。
水質という項目は、海水という情報内容を含む。水深という項目は、1mという情報内容を含む。生息地域という項目は、太平洋、インド洋および大西洋という情報内容を含む。
図4は、図1のドキュメントのさらにその他の例を示す図である。
図4において、ドキュメントD3には、パンダの生態というタイトルが設けられている。ドキュメントD3は、形態、生息地域、繁殖方法、採食方法および寿命という項目を含む。形態という項目は、大きさ、体毛および鳴き声という項目を含む。大きさという項目は、全長および体重という項目を含む。鳴き声という項目は、おすおよびめすという項目を含む。生息地域という項目は、国名および生息環境という項目を含む。生息環境という項目は、温帯および竹林という項目を含む。
体重という項目は、kgという情報内容を含む。おすという項目は、ニャーニャーという情報内容を含む。めすという項目は、ミャンミャンという情報内容を含む。国名という項目は、中国という情報内容を含む
図5は、図1のドキュメントのさらにその他の例を示す図である。
図5において、ドキュメントD4には、ライオンの生態というタイトルが設けられている。ドキュメントD4は、形態、生息地域、繁殖方法、採食方法、社会システムおよび寿命という項目を含む。形態という項目は、大きさ、体毛および鳴き声という項目を含む。大きさという項目は、全長および体重という項目を含む。生息地域という項目は、国名および生息環境という項目を含む。生息環境という項目は、亜熱帯および草地という項目を含む。国名という項目は、アフリカという情報内容を含む。
図6(a)は、図2のドキュメントの項目が割り当てられたノードの階層構造を示す図、図6(b)は、図3のドキュメントの項目が割り当てられたノードの階層構造を示す図である。
図6(a)において、項目抽出部1は、図2のドキュメントD1からタイトルおよび項目を抽出する。そして、項目抽出部1は、クマノミの生態というタイトルにノードN111を割り当てる。
項目抽出部1は、生息環境、繁殖方法、採食方法、性別および生存期間という項目にノードN121~N125をそれぞれ割り当てる。項目抽出部1は、水質、水深、温度、共生および生息海域という項目にノードN131~N135をそれぞれ割り当てる。項目抽出部1は、ノードN111にノードN121~N125を紐付け、ノードN121にノードN131~N135を紐付ける。
図6(b)において、図1の項目抽出部1は、図3のドキュメントD2からタイトルおよび項目を抽出する。そして、項目抽出部1は、トビウオの生態というタイトルにノードN211を割り当てる。
項目抽出部1は、生息環境、繁殖方法、餌接種方法、性別および寿命という項目にノードN221~N225をそれぞれ割り当てる。項目抽出部1は、水質、水深、温度および生息地域という項目にノードN231~N234をそれぞれ割り当てる。項目抽出部1は、ノードN211にノードN221~N225を紐付け、ノードN221にノードN231~N234を紐付ける。
ここで、図6(a)のノードN123の採食方法という項目と、図6(b)のノードN223の餌接種方法という項目とは、同一概念であるが、項目抽出部1は、ドキュメントD1、D2の表記をそのまま用いる。また、図6(a)のノードN125の生存期間という項目と、図6(b)のノードN225の寿命という項目とは、同一概念であるが、項目抽出部1は、ドキュメントD1、D2の表記をそのまま用いる。
図7(a)は、図6(a)の階層構造のノードの概念の意味解析に基づく統合例を示す図、図7(b)は、図6(b)の階層構造のノードの概念の意味解析に基づく概念の統合例を示す図、図7(c)は、図4(b)のドキュメントの項目に基づく階層構造のノードの概念の意味解析に基づく統合例を示す図である。
図7(a)において、図1のノード候補生成部2は、形態素解析に基づいて、ノードN111のクマノミの生態というタイトルから生態という項目を抽出し、ノードN111の名称を生態という項目に変更する。また、ノード候補生成部2は、類語分析に基づいて、ノードN125の生存期間という項目を寿命という項目に変更する。
図7(b)において、ノード候補生成部2は、形態素解析に基づいて、ノードN211のトビウオの生態というタイトルから生態という項目を抽出し、ノードN211の名称を生態という項目に変更する。また、ノード候補生成部2は、類語分析に基づいて、ノードN223の餌接種方法という項目を繁殖方法という項目に変更する。
これにより、ノード候補生成部2は、ドキュメントD1、D2において同一概念の項目の表記が異なる場合においても、同一概念の項目の表記を統合することができる。
図7(c)において、図1の項目抽出部1は、図4のドキュメントD3からタイトルおよび項目を抽出する。そして、項目抽出部1は、パンダの生態というタイトルにノードN311を割り当てる。
項目抽出部1は、生息地域、形態、採食方法、繁殖方法および寿命という項目にノードN321~N325をそれぞれ割り当てる。項目抽出部1は、国名、生息環境、大きさ、体毛および鳴き声という項目にノードN331~N335をそれぞれ割り当てる。項目抽出部1は、温帯、竹林、全長、体重、おすおよびめすという項目にノードN341~N346をそれぞれ割り当てる。項目抽出部1は、ノードN311にノードN321~N325を紐付け、ノードN321にノードN331、N322を紐付け、ノードN322にノードN333~N335を紐付け、ノードN332にノードN341、N342を紐付け、ノードN333にノードN343、N344を紐付け、ノードN335にノードN345、N346を紐付ける。
ここで、項目抽出部1は、ノードN341の温帯という項目に対して、温帯の上位概念の仮項目X1を設定し、ノードN342の竹林という項目に対して、竹林の上位概念の仮項目X2を設定することができる。
次に、ノード候補生成部2は、形態素解析に基づいて、ノードN311のパンダの生態というタイトルから生態という項目を抽出し、ノードN311の名称を生態という項目に変更する。また、ノード候補生成部2は、ノードN345のおすという項目の概念およびノードN346のめすという項目の概念が、ノードN335の鳴き声という項目の概念に含まれるどうかを判断する。また、ノード候補生成部2は、ノードN345のニャーニャーという情報内容およびノードN346のミャンミャンという情報内容が、ノードN335の鳴き声という項目の概念に含まれるどうかを判断する。
そして、ノード候補生成部2は、ノードN345のおすという項目の概念およびノードN346のめすという項目の概念が、ノードN335の鳴き声という項目の概念に含まれないが、ノードN345のニャーニャーという情報内容およびノードN346のミャンミャンという情報内容が、ノードN335の鳴き声という項目の概念に含まれる場合、ノードN345のおすという項目およびノードN346のめすという項目は、単なる修飾語と判断し、ノードN345、N346をノードN335に集約する。
図8(a)は、図6(b)の階層構造についての下位ノードの統合または分割の対象となる所定ノードの抽出例を示す図、図8(b)は、図5のドキュメントの項目に基づく階層構造についての下位ノードの統合または分割の対象となる所定ノードの抽出例を示す図である。
図8(a)において、図1のノード抽出部3は、ノード候補生成部2にて図7(b)のノードの階層構造が生成されると、下層構造が1段である下位ノードN231~N234に紐付くノードN221を抽出する。
図8(b)において、図1の項目抽出部1は、図5のドキュメントD4からタイトルおよび項目を抽出する。そして、項目抽出部1は、ライオンの生態というタイトルにノードN411を割り当てる。
項目抽出部1は、生息地域、形態、採食方法、繁殖方法、寿命および社会システムという項目にノードN421~N426をそれぞれ割り当てる。項目抽出部1は、国名、生息環境、大きさ、体毛および鳴き声という項目にノードN431~N435をそれぞれ割り当てる。項目抽出部1は、亜熱帯、草原、全長および体重という項目にノードN441~N444をそれぞれ割り当てる。項目抽出部1は、ノードN411にノードN421~N426を紐付け、ノードN421にノードN431、N422を紐付け、ノードN422にノードN433~N435を紐付け、ノードN432にノードN441、N442を紐付け、ノードN433にノードN443、N444を紐付ける。
ここで、項目抽出部1は、ノードN441の亜熱帯という項目に対して、亜熱帯の上位概念の仮項目Y1を設定し、ノードN442の草原という項目に対して、草原の上位概念の仮項目Y2を設定することができる。
ノード抽出部3は、項目抽出部1にて図8(b)のノードの階層構造が生成されると、下層構造が1段である下位ノードN441、N442に紐付くノードN432を抽出することができる。あるいは、ノード抽出部3は、下層構造が1段である下位ノードN443、N444に紐付くノードN433抽出してもよい。
図9(a)は、図7(a)の階層構造のノードの概念の抽象度解析に基づく統合例を示す図、図9(b)は、図8(a)の階層構造のノードの概念の抽象度解析に基づく概念の統合例を示す図、図9(c)は、図7(c)の階層構造のノードの概念の抽象度解析に基づく統合例を示す図、図9(d)は、図8(b)の階層構造のノードの概念の抽象度解析に基づく統合例を示す図である。
図9(a)において、図1のノード抽出部3は、図7(a)のノードの階層構造から、下層構造が1段である下位ノードN131~N135に紐付くノードN121を抽出したものとする。また、図9(b)において、ノード抽出部3は、図7(b)のノードの階層構造から、下層構造が1段である下位ノードN231~N234に紐付くノードN221を抽出したものとする。
そして、ノード統合部4は、抽象度解析に基づいて、図9(a)の下位ノードN135の生息海域という項目を生息地域という項目に統合する。これにより、図9(a)の下位ノードN135の項目名を、図9(b)の下位ノードN234の項目名に一致させることができ、下位ノードの表記の揺れを除去することができる。
また、図9(c)において、ノード抽出部3は、図7(c)のノードの階層構造から、下層構造が1段である下位ノードN341~N342に紐付くノードN332を抽出したものとする。さらに、図9(d)において、ノード抽出部3は、図8(b)のノードの階層構造から、下層構造が1段である下位ノードN441~N442に紐付くノードN432を抽出したものとする。
そして、ノード統合部4は、抽象度解析に基づいて、下位ノードN341の仮項目X1を気候という項目に統合し、下位ノードN342の仮項目X2を植生という項目に統合する。さらに、ノード統合部4は、抽象度解析に基づいて、下位ノードN441の仮項目Y1を気候という項目に統合し、下位ノードN442の仮項目Y2を植生という項目に統合する。これにより、図9(c)の下位ノードN341、N342の項目名と、図9(b)の下位ノードN441、N442の項目名とをそれぞれ一致させることができ、下位ノードの表記の揺れを除去することができる。
図10は、図1のドキュメントから抽出された情報内容と項目との対応関係の一例を示す図である。
図10において、概念モデル9は、例えば、海水、汽水および淡水という下位概念を水質という上位概念に関連付け、インド太平洋、赤道付近の海域、インド洋、太平洋、東アジア河川という下位概念を生息地域という上位概念に関連付け、温帯および亜熱帯という下位概念を気候という上位概念に関連付け、草原および竹林という下位概念を植生という上位概念に関連付ける。
ノード統合部4は、概念モデル9を参照することにより、抽象度の異なる下位ノードの概念の項目名を統合することができる。例えば、図2のドキュメントD1には、インド太平洋および赤道付近という情報内容に対して生息海域という項目が記載されている。このとき、図10の概念モデル9には、インド太平洋および赤道付近の海域という情報内容に対して生息地域という項目が関連付けられている。このため、ノード統合部4は、図10の概念モデル9を参照することにより、図9(a)の下位ノードN135の生息海域という項目を生息地域という項目に統合することができる。
また、概念モデル9には、温帯および亜熱帯という情報内容に対して気候という項目が関連付けられ、草原および竹林という情報内容に対して植生という項目が関連付けられている。このため、ノード統合部4は、図10の概念モデル9を参照することにより、図9(c)および図9(d)の下位ノードN341、N441の仮項目X1、Y1を気候という項目に統合し、下位ノードN342、N442の仮項目X2、Y2を植生という項目に統合することができる。
図11(a)は、各ドキュメントの生息環境に紐付く下位ノードの紐付き方のパタンの分類例を示す図、図11(b)は、図11(a)のパタンP1の数理モデルの一例を示す図、図11(c)は、図11(a)のパタンP2の数理モデルの一例を示す図、図11(d)は、図11(a)のパタンP3の数理モデルの一例を示す図である。
図11(a)において、例えば、クマノミ、トビウオ、イルカ、アユ、メダカ、パンダおよびライオンの生態に関するドキュメントについて、図1のノード抽出部3は、所定ノードとして生息環境という項目を抽出したものとする。
このとき、クマノミの生態に関するドキュメントについては、生息環境という項目に紐付く下位ノードの項目として、水質、水深、温度、生息地域および共生があり、トビウオの生態に関するドキュメントについては、生息環境という項目に紐付く下位ノードの項目として、水質、水深、温度および生息地域があり、イルカの生態に関するドキュメントについては、生息環境という項目に紐付く下位ノードの項目として、水質、水深および温度があるものとする。
また、アユの生態に関するドキュメントについては、生息環境という項目に紐付く下位ノードの項目として、水質、生息地域および流速があり、メダカの生態に関するドキュメントについては、生息環境という項目に紐付く下位ノードの項目として、水質および流速があるものとする。
さらに、パンダの生態に関するドキュメントおよびライオンの生態に関するドキュメントについては、生息環境という項目に紐付く下位ノードの項目として、気候および植生があるものとする。
そして、図1の分類部5は、生息環境という項目に紐付く下位ノードの項目に基づいて、クマノミ、トビウオ、イルカ、アユ、メダカ、パンダおよびライオンの生態に関する各ドキュメントにおける生息環境という項目を分類する。このとき、分類部5は、各ドキュメントにおける生息環境という項目を分類するための指標として、例えば、各ドキュメントの下位ノードの項目をベクトル化した時のベクトル間の距離を用いることができる。
このとき、分類部5は、下位ノードの項目の有無に応じて1または0という成分が付与されたベクトルを生成することができる。例えば、分類部5は、クマノミについては、(1,1,1,1,1,0,0,0)というベクトルを生成し、トビウオについては、(1,1,1,1,0,0,0,0)というベクトルを生成し、イルカについては、(1,1,1,0,0,0,0,0)というベクトルを生成し、アユについては、(1,0,0,1,0,1,0,0)というベクトルを生成し、メダカについては、(1,0,0,0,0,1,0,0)というベクトルを生成し、パンダおよびライオンについては、(0,0,0,0,0,0,1,1)というベクトルを生成する。
クマノミ、トビウオおよびイルカについては、ベクトル間の距離は1または2である。アユおよびメダカについては、ベクトル間の距離は1である。パンダおよびライオンについては、ベクトル間の距離は0である。クマノミ、トビウオおよびイルカは、アユおよびメダカと、距離が3以上離れている。クマノミ、トビウオおよびイルカは、パンダおよびライオンと、距離が5以上離れている。アユおよびメダカとは、パンダおよびライオンと、距離が4以上離れている。
このため、分類部5は、下位ノードのベクトル間の距離の閾値を3に設定することで、ベクトル間の距離が3より小さい下位ノードに紐付く生息環境という項目を同一グループに分類し、ベクトル間の距離が3以上の下位ノードに紐付く生息環境という項目を別グループに分類することができる。
なお、分類部5は、第1ノードに紐付く下位ノードの概念が、第2ノードに紐付く下位ノードの概念となり得ない場合、第1ノードと第2ノードを異なるグループに分類するようにしてもよい。例えば、パンダおよびライオンの生態についての気候および植生という項目は、クマノミ、トビウオ、イルカ、アユおよびメダカの生態についての項目とはなり得ない。このため、パンダおよびライオンについての生息環境という項目は、クマノミ、トビウオ、イルカ、アユおよびメダカについての生息環境という項目と別グループに分類することができる。また、アユおよびメダカの生態についての流速という項目は、クマノミ、トビウオおよびイルカの生態についての項目とはなり得ない。このため、アユおよびメダカについての生息環境という項目は、クマノミ、トビウオおよびイルカについての生息環境という項目と別グループに分類することができる。
次に、モデル化部6は、クマノミ、トビウオおよびイルカについての生息環境という項目への紐付き方を示す生息環境パタンP1、アユおよびメダカについての生息環境という項目への紐付き方を示す生息環境パタンP2およびパンダおよびライオンについての生息環境という項目への紐付き方を示す生息環境パタンP3を生成する。
このとき、モデル化部6は、各生息環境パタンP1~P3に紐付く下位ノードの情報に基づいて、各生息環境パタンP1~P3についての数理モデルを推定することができる。各生息環境パタンP1~P3の数理モデルでは、例えば、下位項目の存在確率、各生息環境パタンP1~P3の下位ノードのまとまり度または各下位項目に紐付く情報の分布モデルを用いることができる。下位項目に紐付く情報は、下位項目よりさらに下位の項目または情報内容を用いることができる。下位ノードのまとまり度は、生息環境パタンP1~P3ごとの下位項目の存在確率の分散に基づいて算出することができる。各生息環境パタンP1~P3に属するベクトルの代表ベクトルからの平均距離に基づいて下位ノードのまとまり度を求めてもよい。
例えば、図11(b)に示すように、生息環境パタンP1において、水質、水深、温度、生息地域および共生という項目の存在確率は、それぞれ1.0、1.0、1.0、0.67、0.33である。この結果、生息環境パタンP1についてのまとまり度は、0.45となる。また、生息環境パタンP1の生息地域という項目において、太平洋という情報内容が0.5の割合で存在し、インド洋という情報内容が0.3の割合で存在するという分布モデルを生成することができる。
また、図11(c)に示すように、生息環境パタンP2において、水質、生息地域および流速という項目の存在確率は、それぞれ1.0、0.5、1.0である。この結果、生息環境パタンP2についてのまとまり度は0.7となる。また、生息環境パタンP2の水質という項目において、淡水という単語は出現するが、汽水および海水という単語は出現しない場合、(淡水、汽水、海水)=(1.0,0.0,0.0)という分布モデルを生成することができる。さらに、生息環境パタンP2の生息地域という項目において、東アジア河川という単語は出現するが、それ以外に河川という単語は出現しない場合、(東アジア河川)=(1.0)という分布モデルを生成することができる。
また、図11(d)に示すように、生息環境パタンP3において、気候および植生という項目の存在確率は、それぞれ1.0、1.0である。この結果、生息環境パタンP3についてのまとまり度は1.0となる。また、生息環境パタンP3の気候という項目において、亜熱帯および温帯という単語が均等に出現する場合、(亜熱帯、温帯)=(0.5,0.5)という分布モデルを生成し、生息環境パタンP3の植生という項目において、竹林および草原という単語が均等に出現する場合、(竹林、草原)=(0.5,0.5)という分布モデルを生成することができる。
図12(a)は、図11(b)のパタンP1に基づく下位ノードの分割例を示す図、図12(b)は、図11(c)のパタンP2に基づく下位ノードの分割例を示す図、図12(c)は、図11(d)のパタンP3に基づく下位ノードの分割例を示す図である。
図12(a)において、図1のノード分割部7は、生息環境パタンP1に紐付く下位ノードの項目を、生息環境パタンP1に特有の具体的な項目に分割する。例えば、ノード分割部7は、生息環境パタンP1の生息地域という項目では、太平洋およびインド洋などの海域を表す情報内容しか現れない場合、生息環境パタンP1の生息地域という項目を海域という項目に変更する。
また、図12(b)において、ノード分割部7は、生息環境パタンP2の生息地域という項目では、(東アジア河川)=(1.0)という分布モデルを示す場合、生息環境パタンP2の生息地域という項目を河川域という項目に変更する。
ここで、生息環境パタンP1、P2に紐付く下位ノードの項目を、各生息環境パタンP1、P2に特有の具体的な項目に分割することにより、例えば、コイという淡水魚について論文を書くものとすると、アユおよびメダカの生態に関する生息環境パタンP2を参照することができる。このため、アユおよびメダカ以外のコイという淡水魚について論文を書く場合に、生息環境という項目から流速という項目が抜け落ちるのを防止することが可能となるとともに、生息環境という項目に水深などの余計な項目が挿入されるのを防止することができ、論文の品質を向上させることができる。
また、図12(c)において、ノード分割部7は、生息環境パタンP3の気候という項目では、気候を具体化した情報内容に偏りがない場合、生息環境パタンP3の気候という項目をそのまま維持する。また、ノード分割部7は、生息環境パタンP3の植生という項目では、植生を具体化した情報内容に偏りがない場合、生息環境パタンP3の植生という項目をそのまま維持する。
ここで、下位ノードの項目の情報内容に偏りがない場合、その項目の抽象度をそのまま維持することにより、寒帯に生息する動物または森林に生息する動物について論文を書く場合に、生息環境パタンP3を参照することができる。
図13(a)は、図7(a)の階層構造に基づく下位ノードの統合または分割の対象となる所定ノードのその他の抽出例を示す図、図13(b)は、図8(b)の階層構造に基づく下位ノードの統合または分割の対象となる所定ノードのその他の抽出例を示す図である。
図13(a)において、図1のノード抽出部3は、図1の分類部5の処理結果が反映されたノードの階層構造から所定ノードを抽出する。例えば、ノード抽出部3は、図7(a)のノードN121の生息環境という項目の下位ノードN131~N135をパタンPAとしてノードN121の情報内容として設定する。このとき、生態という項目が割り当てられたノードN111の下位ノードN121~N125の階層は1段となる。このため、ノード抽出部3は、下位ノードの階層が1段以下のノードを抽出することにより、所定ノードとして生態という項目が割り当てられたノードN111を抽出することができる。この結果、図7(a)の階層構造からは抽出されなかった生態という項目についても、分類部5によるパタン分類の対象とすることができる。
また、図13(b)において、ノード抽出部3は、図8(b)のノードN432の生息環境という項目の下位ノードN441、N442をパタンPBとしてノードN432の情報内容として設定する。このとき、生息地域という項目が割り当てられたノードN421の下位ノードN431、N432の階層は1段となる。このため、ノード抽出部3は、下位ノードの階層が1段以下のノードを抽出することにより、所定ノードとして生息地域という項目が割り当てられたノードN421を抽出することができる。この結果、図8(b)の階層構造からは抽出されなかった生息地域という項目についても、分類部5によるパタン分類の対象とすることができる。
図14は、実施形態に係る下位構造に基づくパタン分類と数理モデル化処理を示すフローチャートである。
図14において、分析対象のノード名Nと、ノード名Nの下位ノード名リストを取得する(S11)。
次に、全ドキュメントからノード名Nのノードを抽出し、ノードiの下位ノードベクトルをvとして、抽出した全ノードにそれぞれ対応する下位ノードベクトルvを算出する(S12)。下位ノードベクトルvは、ノード名Nのあるノードiに実際に紐付く下位ノード群と、ノード名Nの下位ノード名リストMに記載されるノード情報との対応関係を数値化したベクトルである。
次に、下位ノードベクトルvをクラスタリングして、全ドキュメントから抽出したノード名NのノードをK(Kは正の整数)個のグループに分類する(S13)。クラスタリングは、任意のクラスタリング手法を用いることができる。例えば、予め分類数を決めてK-means法で分類し、ベクトル間の類似度に関する閾値を任意に設定して階層型クラスタリングを実施することができる。
次に、k=1に設定する(S14)。
次に、k番目のクラスタリンググループに属するノードをノード名Nのkパターンノードとして、グループidであるkを付与する(S15)。
次に、kグループのノードの下位ノードベクトルvの平均ベクトルを、kグループのノードに各下位ノードが紐付く確率ベクトルPkNとして算出する(S16)。
また、kグループのノードのバラツキ度の指標σkNとして、kグループのノードの下位ノードベクトルvの分散を計算する(S17)。
次に、kグループのノードの各下位ノードに実際に格納される情報内容の数理モデルを推定する(S18)。
次に、k=k+1に設定する(S19)。
次に、k≦Kかどうかを判断する(S20)。k≦Kの場合、S15の処理に戻り、k≦Kでない場合、処理を終了する。
図15は、図14のS18の処理の具体例を示すフローチャートである。
図15において、kグループのノードに紐付く下位ノード名数M(Mは正の整数)を取得する(S31)。
次に、m=1に設定する(S32)。
次に、kグループのノードs(s=1,…,S(Sは正の整数))に関して、その下位ノードmに格納されている情報内容y (s=1,…,S)を抽出する(S33)。このとき、ノードsが、下位ノードmと紐付いていない場合、y =0とする。
次に、ベースとなる数理モデルYが存在するか判断する(S34)。例えば、身長という項目が割り当てられたノードのベースモデルは、正規分布とすることができる。
次に、ベースとなる数理モデルYが存在する場合、情報内容y に基づき数理モデルYのパラメータを計算し、kグループの下位ノードmの情報内容y に関する数理モデルY kNを算出し(S35)、S40に進む。
一方、ベースとなる数理モデルYが存在しない場合、下位ノードmに格納され得る各要素zの情報内容y における存在確率p kN(z)を算出する(S36)。
次に、情報内容y に同時に複数の要素zが存在するかを判断する(S37)。
情報内容y に同時に複数の要素zが存在する場合、それらの要素zについてz*p kN(z)の総和をとることで数理モデルY kNを算出し(S38)、S40に進む。
一方、情報内容y に同時に複数の要素zが存在しない場合、存在確率p kN(z)の全要素zに関するベクトルP kNを、数理モデルY kNに格納する(S39)。
次に、m=m+1に設定する(S40)。
次に、m≦Mかどうかを判断する(S41)。m≦Mの場合、S32の処理に戻り、m≦Mでない場合、処理を終了する。
図16は、実施形態に係る抽象度再設定に基づくノードの分割処理の一例を示すフローチャートである。
図16において、kが異なる複数のグループkにおいて、それぞれD(Dは正の整数)個以上のデータを有する下位ノードu(u=1,…,U(Uは正の整数))を抽出する(S51)。Dは、任意に設定した閾値である。例えば、D=1としたとき、図11(c)の例では、水質と生息地域のノードが抽出される。
次に、u=1に設定する(S52)。
次に、グループ間で下位ノードuに格納され得る要素(p>0となる要素)を比較し、対象グループの要素を説明するが、他グループの要素を含まない最大抽象度の概念名に対象グループに関するノードuのノード名を再設定する(S53)。
次に、u=u+1に設定する(S54)。
次に、u≦Uかどうかを判断する(S55)。u≦Uの場合、S52の処理に戻り、u≦Uでない場合、処理を終了する。
図17は、実施形態に係る抽象度再設定に基づくノードの分割処理のその他の例を示すフローチャートである。
図17において、m=1に設定する(S61)。
次に、ノード名Nの下位ノードmについて、抽象化前に付与されていたノード名リストLを取得する(S62)。
次に、k=1に設定する(S63)。
次に、リストLのノード名と、グループkにおける下位ノードmに格納される情報内容y を比較し、情報内容y を包含するノード名のうち最も抽象度の低いノード名を下位ノードmのノード名に再設定する(S64)。
次に、k=k+1に設定する(S65)。
次に、k≦Kかどうかを判断する(S66)。k≦Kの場合、S63の処理に戻り、k≦Kでない場合、S67の処理に進む。
次に、m=m+1に設定する(S67)。
次に、m≦Mかどうかを判断する(S68)。m≦Mの場合、S61の処理に戻り、m≦Mでない場合、処理を終了する。
図18は、実施形態に係る抽象度再設定に基づくノードの分割処理のさらにその他の例を示すフローチャートである。
図18において、m=1に設定する(S71)。
次に、k=1に設定する(S72)。
次に、グループkにおける下位ノードmに格納される情報内容y が0でないデータに含まれる要素の個数Xを算出する(S73)。個数Xでは、情報内容y に複数の要素が存在する場合はそれらを全て足す。
次に、ノードmと概念的に同等又は下位に位置するノードoに関して、ベースとなる数理モデルYが存在するかどうかを判断する(S74)。
ベースとなる数理モデルYが存在する場合、要素の個数がX個のデータ集合が各数理モデルYに属するかどうかを判断するための閾値を取得する(S75)。
次に、各数理モデルYに対して、グループkにおける下位ノードmに格納される情報内容y が属する確率を算出し、閾値を下回る数理モデルYのうち最も抽象度の低いノードoを下位ノードmのノード名に再設定し(S76)、S79の処理に進む。
一方、ベースとなる数理モデルYが存在しない場合、要素の個数がX個のデータ集合がある概念に属するかどうかを判断する基準となる対象概念の要素種類数の閾値を取得する(S77)。
次に、グループkにおける下位ノードmに格納される情報内容y を包含するノードのうち、閾値を下回る要素種類数のノードの中で最も下位ノードとなるノードoを下位ノードmのノード名に再設定する(S78)。
次に、k=k+1に設定する(S79)。
次に、k≦Kかどうかを判断する(S80)。k≦Kの場合、S72の処理に戻り、k≦Kでない場合、S81の処理に進む。
次に、m=m+1に設定する(S81)。
次に、m≦Mかどうかを判断する(S82)。m≦Mの場合、S71の処理に戻り、m≦Mでない場合、処理を終了する。
図19は、図1の情報管理装置のハードウェア構成例を示すブロック図である。
図19において、情報管理装置101は、プロセッサ11、通信制御デバイス12、通信インタフェース13、主記憶デバイス14および外部記憶デバイス15を備える。プロセッサ11、通信制御デバイス12、通信インタフェース13、主記憶デバイス14および外部記憶デバイス15は、内部バス16を介して相互に接続されている。主記憶デバイス14および外部記憶デバイス15は、プロセッサ11からアクセス可能である。
また、情報管理装置101の外部には、入力装置20および出力装置21が設けられている。入力装置20および出力装置21は、入出力インタフェース17を介して内部バス16に接続されている。入力装置20は、例えば、キーボード、マウス、タッチパネル、カードリーダ、音声入力装置等である。出力装置21は、例えば、画面表示装置(液晶モニタ、有機EL(Electro Luminescence)ディスプレイ、グラフィックカード等)、音声出力装置(スピーカ等)、印字装置等である。
プロセッサ11は、情報管理装置101全体の動作制御を司るハードウェアである。プロセッサ11は、CPU(Central Processing Unit)であってもよいし、GPU(Graphics Processing Unit)であってもよい。プロセッ11は、シングルコアロセッサであってもよいし、マルチコアロセッサであってもよい。プロセッサ11は、処理の一部または全部を行うハードウェア回路(例えば、FPGA(Field-Programmable Gate Array)またはASIC(Application Specific Integrated Circuit))を備えていてもよい。プロセッサ11は、ニューラルネットワークを備えていてもよい。
主記憶デバイス14は、例えば、SRAMまたはDRAMなどの半導体メモリから構成することができる。主記憶デバイス14には、プロセッサ11が実行中のプログラムを格納したり、プロセッサ11がプログラムを実行するためのワークエリアを設けたりすることができる。
外部記憶デバイス15は、大容量の記憶容量を備える記憶デバイスであり、例えば、ハードディスク装置またはSSD(Solid State Drive)である。外部記憶デバイス15は、各種プログラムの実行ファイルやプログラムの実行に用いられるデータを保持することができる。外部記憶デバイス15には、情報管理プログラム15Aを格納することができる。情報管理プログラム15Aは、情報管理装置101にインストール可能なソフトウェアであってもよいし、情報管理装置101にファームウェアとして組み込まれていてもよい。
通信制御デバイス12は、外部との通信を制御する機能を備えるハードウェアである。通信制御デバイス12は、通信インタフェース13を介してネットワーク19に接続される。ネットワーク19は、インターネットなどのWAN(Wide Area Network)であってもよいし、WiFiまたはイーサネット(登録商標)などのLAN(Local Area Network)であってもよいし、WANとLANが混在していてもよい。
入出力インタフェース17は、入力装置20から入力されるデータをプロセッサ11が処理可能なデータ形式に変換したり、プロセッサ11から出力されるデータを出力装置21が処理可能なデータ形式に変換したりする。
プロセッサ11が情報管理プログラム15Aを主記憶デバイス14に読み出し、情報管理プログラム15Aを実行することにより、概念化された情報に割り当てられたノードの階層構造から所定ノードを抽出し、その所定ノードに紐付けられた下位ノードの情報に基づいて所定ノードを分類することができる。このとき、プロセッサ11は、図1の項目抽出部1、ノード候補生成部2、ノード抽出部3、ノード統合部4、分類部5、モデル化部6およびノード分割部7の機能を実現することができる。
なお、情報管理プログラム15Aの実行は、複数のプロセッサやコンピュータに分担させてもよい。あるいは、プロセッサ11は、ネットワーク19を介してクラウドコンピュータなどに情報管理プログラム15Aの全部または一部の実行を指示し、その実行結果を受け取るようにしてもよい。
本発明は、上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は、本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。
1 項目抽出部、2 ノード候補生成部、3 ノード抽出部、4 ノード統合部、5 分類部、6 モデル化部、7 ノード分割部、8 シソーラス辞書、9 概念モデル

Claims (12)

  1. 概念化された情報に割り当てられたノードの階層構造から所定ノードを抽出する抽出部と、
    前記抽出部にて抽出された前記所定ノードに紐付けられた下位ノードの情報に基づいて、前記抽出部で抽出された前記所定ノードを分類する分類部と
    前記分類部による分類された前記所定ノードに紐付く前記下位ノードの情報に基づいて、前記下位ノードの紐付き方をモデル化するモデル化部とを備え、
    前記モデル化部は、前記分類部にて同一グループに分類された前記所定ノードに紐付く前記下位ノードの紐付き方のパタンを生成する情報管理装置。
  2. 前記ノードは、ドキュメントの項目が割り当てられる請求項1に記載の情報管理装置。
  3. 前記所定ノードは、前記下位ノードの階層が1段以下のノードである請求項1に記載の情報管理装置。
  4. 前記抽出部は、前記分類部で同一グループに分類された前記所定ノードおよび前記所定ノードに紐付く下位ノードを単一ノードとみなす請求項3に記載の情報管理装置。
  5. 前記分類部は、前記所定ノードに紐付く前記下位ノードの概念の組み合わせに基づいて、前記所定ノードを分類する請求項1に記載の情報管理装置。
  6. 前記抽出部は、前記所定ノードとして第1ノードおよび第2ノードを抽出し、
    前記分類部は、前記第1ノードに紐付く下位ノードの概念が、前記第2ノードに紐付く下位ノードの概念となり得ない場合、前記第1ノードを前記第2ノードと異なるグループに分類する請求項1に記載の情報管理装置。
  7. 前記所定ノードの分類結果に基づいて、前記所定ノードに紐付く下位ノードの概念を分割する分割部をさらに備える請求項1に記載の情報管理装置。
  8. 前記分割部は、異なるグループに分類された前記所定ノードにそれぞれ紐付く下位ノードの概念を、各グループに特有の具体化された概念に分割する請求項に記載の情報管理装置。
  9. 前記所定ノードに紐付く下位ノードの概念の抽象度を統合する統合部をさらに備える請求項1に記載の情報管理装置。
  10. 前記統合部は、前記下位ノードの情報内容に基づいて、前記下位ノードの概念を統合する請求項に記載の情報管理装置。
  11. 形態素解析および類語分析に基づいて、前記ドキュメントから抽出された同一概念の項目の名称を統一するノード候補生成部をさらに備える請求項2に記載の情報管理装置。
  12. プロセッサにて実行される情報管理方法であって、
    前記プロセッサは、
    項目が割り当てられたノードの階層構造から所定ノードを抽出し、
    前記所定ノードに紐付けられた下位ノードの項目に基づいて前記所定ノードを分類し、
    分類された前記所定ノードに紐付く前記下位ノードの情報に基づいて、前記下位ノードの紐付き方をモデル化し、
    同一グループに分類された前記所定ノードに紐付く前記下位ノードの紐付き方のパタンを生成
    する情報管理方法。
JP2019054851A 2019-03-22 2019-03-22 情報管理装置および情報管理方法 Active JP7099976B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019054851A JP7099976B2 (ja) 2019-03-22 2019-03-22 情報管理装置および情報管理方法
PCT/JP2020/008353 WO2020195545A1 (ja) 2019-03-22 2020-02-28 情報管理装置および情報管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019054851A JP7099976B2 (ja) 2019-03-22 2019-03-22 情報管理装置および情報管理方法

Publications (2)

Publication Number Publication Date
JP2020154991A JP2020154991A (ja) 2020-09-24
JP7099976B2 true JP7099976B2 (ja) 2022-07-12

Family

ID=72559317

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019054851A Active JP7099976B2 (ja) 2019-03-22 2019-03-22 情報管理装置および情報管理方法

Country Status (2)

Country Link
JP (1) JP7099976B2 (ja)
WO (1) WO2020195545A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009136426A1 (ja) 2008-05-08 2009-11-12 三菱電機株式会社 検索クエリ提供装置
JP2010501947A (ja) 2006-08-31 2010-01-21 スウィーニー,ピーター 消費者定義の情報アーキテクチャ用のシステム、方法およびコンピュータプログラム
US20160062993A1 (en) 2014-08-21 2016-03-03 Samsung Electronics Co., Ltd. Method and electronic device for classifying contents
JP2016139229A (ja) 2015-01-27 2016-08-04 日本放送協会 個人プロファイル生成装置及びそのプログラム、並びに、コンテンツ推薦装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010501947A (ja) 2006-08-31 2010-01-21 スウィーニー,ピーター 消費者定義の情報アーキテクチャ用のシステム、方法およびコンピュータプログラム
WO2009136426A1 (ja) 2008-05-08 2009-11-12 三菱電機株式会社 検索クエリ提供装置
US20160062993A1 (en) 2014-08-21 2016-03-03 Samsung Electronics Co., Ltd. Method and electronic device for classifying contents
JP2016139229A (ja) 2015-01-27 2016-08-04 日本放送協会 個人プロファイル生成装置及びそのプログラム、並びに、コンテンツ推薦装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
山本 浩平、外2名,カテゴリ階層の拡張を目的とした階層的トピックモデル,第6回データ工学と情報マネジメントに関するフォーラム (第12回日本データベース学会年次大会),日本,電子情報通信学会データ工学研究専門委員会,2014年05月03日,p.1-8,Internet<URL:http://db-event.jpn.org/deim2014/final/proceedings/C4-6.pdf>
市瀬 龍太郎、外2名,インスタンスに基づく階層的知識源の統合,AIチャレンジ研究会(第11回) SIG-Challenge-0111,日本,社団法人人工知能学会,2001年03月12日,p.61-66
青木 千鶴、外2名,汎用オントロジーと判例群を利用した法的オントロジー構築支援環境,第27回ヒューマンインタフェースと認知モデル研究会資料(SIG-HICG-9503),日本,社団法人人工知能学会,1996年03月25日,p.9-16

Also Published As

Publication number Publication date
JP2020154991A (ja) 2020-09-24
WO2020195545A1 (ja) 2020-10-01

Similar Documents

Publication Publication Date Title
Javed et al. Community detection in networks: A multidisciplinary review
Dinh et al. Clustering mixed numerical and categorical data with missing values
Vijayarani et al. Comparative analysis of bayes and lazy classification algorithms
ElAlami A new matching strategy for content based image retrieval system
Lee et al. A survey of algorithms for dense subgraph discovery
Qiao et al. Towards efficient business process clustering and retrieval: combining language modeling and structure matching
CN111191466B (zh) 一种基于网络表征和语义表征的同名作者消歧方法
Liu et al. Clustering by growing incremental self-organizing neural network
Zheng et al. A framework for hierarchical ensemble clustering
Vinokourov et al. A probabilistic framework for the hierarchic organisation and classification of document collections
Praveen et al. A novel approach to improve the performance of divisive clustering-BST
Fawcett Data mining with cellular automata
JP7099976B2 (ja) 情報管理装置および情報管理方法
Cai et al. Simultaneous image classification and annotation via biased random walk on tri-relational graph
Pratima et al. Pattern recognition algorithms for cluster identification problem
CN110162580A (zh) 基于分布式预警平台的数据挖掘与深度分析方法及应用
Sundari et al. A study of various text mining techniques
Missaoui et al. Social network restructuring after a node removal
Hao et al. A Probability‐Based Hybrid User Model for Recommendation System
Matharage et al. A scalable and dynamic self-organizing map for clustering large volumes of text data
Beaujean et al. Graph Homomorphism Features: Why Not Sample?
Kolias et al. A Covering Classification Rule Induction Approach for Big Datasets
Czubryt et al. Efficient Vertical Mining of Frequent Quantitative Patterns
Yu et al. Researcher name disambiguation: feature learning and affinity propagation clustering
Jo et al. Text clustering: Conceptual view

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220630

R150 Certificate of patent or registration of utility model

Ref document number: 7099976

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150