JP2014063295A - 文脈解析装置、情報分類装置及び情報分類システム - Google Patents

文脈解析装置、情報分類装置及び情報分類システム Download PDF

Info

Publication number
JP2014063295A
JP2014063295A JP2012207265A JP2012207265A JP2014063295A JP 2014063295 A JP2014063295 A JP 2014063295A JP 2012207265 A JP2012207265 A JP 2012207265A JP 2012207265 A JP2012207265 A JP 2012207265A JP 2014063295 A JP2014063295 A JP 2014063295A
Authority
JP
Japan
Prior art keywords
context
content
model
context model
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012207265A
Other languages
English (en)
Inventor
Mikio Nagasawa
幹夫 長澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cybernet Systems Co Ltd
Original Assignee
Cybernet Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cybernet Systems Co Ltd filed Critical Cybernet Systems Co Ltd
Priority to JP2012207265A priority Critical patent/JP2014063295A/ja
Publication of JP2014063295A publication Critical patent/JP2014063295A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】コンテンツの検索・利用に係る文脈によってコンテンツを分類して提示可能な情報分類装置に用いることが可能なモデルを生成可能な装置を提供する。
【解決手段】コンテンツの検索・利用に係る多次元の離散尺度座標値を、コンテンツの検索・利用に係る文脈として記録する文脈記録手段24と、記録された座標値間の意味上の類似距離と、時間順序と、条件確率とを含む文脈モデルを生成するモデル生成手段61と、文脈モデルを可視化して表示する文脈モデル表示手段23と、を備えた。
【選択図】図1

Description

本発明は、コンテンツを検索した際の文脈を解析した検索行動モデルを生成する文脈解析装置、情報分類装置及び情報分類システムに関する。
個人レベル、あるいは組織内において、文書データや画像データ等のコンテンツをデータベース等に蓄積して管理し、何らかの問題解決の際には、蓄積されたコンテンツを探索して参照することが行われている。
また、コンテンツとしては、文書データや画像データのみならず、特定の分野において過去に参照した書籍内の項目や、ウェブサイト等のインターネット上のリソース(のURL)を記録しておくことも行われている。
しかしながら、上記した文書データや画像データのコンテンツは、分量が膨大になる程に、適切に管理して有効に利用することが困難となる。
これに対し、蓄積されたコンテンツを探索して情報を得ようとする際の一般的な手法としては、所望の知識や情報に関連すると思われる検索語を、知識ベースの検索エンジン等に入力する手法が知られている。
特許文献1には、データベースに管理する文書や画像に分類タグや索引タグ(キーワード)を設定することにより、これらのコンテンツを分類する方法が開示されている。さらに、特許文献1には、同じ登録キーワードを付与された文書画像データ(サムネイル)を、キーワード毎にグループ分けして可視化表示する方法が記載されている。このようにすることで、蓄積した情報全体の構成を直感的に把握することが出来る。
また、特許文献1に記載の技術では、キーワードで分類したコンテンツを、アクセス回数などで並び替えすることが出来る。
また、特許文献2には、ウェブブラウザによりブックマークを行った多数のウェブサイトにタグ情報を付与して、これによってブックマークしたウェブサイトを管理する手法が開示されている。
特許文献3には、コンテンツについて付与した分類タグを、所謂「タグクラウド」の形態で表示するコンテンツ検索装置が記載されている。
特許文献3に開示の技術にあっては、検索ワードとしての分類タグを使用者が知らない場合も、「タグクラウド」に表示される複数のタグの中から、関連すると思われるタグを適宜していくことで、蓄積された情報を探索していくことが可能である。
特開2010−73194公報 特開2008−234304公報 特開2009−86858公報
しかしながら、特許文献1乃至3に記載の技術において、コンテンツに対して付与されるタグ情報は、コンテンツが関連するキーワードのみである。
検索語を用いて情報の探索を行おうとした場合、例えば探索の対象となる情報が使用者にとって不案内な分野に属する場合、入力すべき検索語を考えつくこと自体が困難であることが多く、検索自体を行うことが困難である。蓄積されたコンテンツは、関連する分野について精通している、すなわちその分野についてのリテラシーを有する者を対象に作成されていることが一般的であるからである。
従って、特許文献に示したようなキーワード検索に頼らなくても良い新たな検索の方法が求められている。
例えば、ある問題を処理するに際し、どのような文脈で検索を行ったのか(検索行動)という情報(経験)は、個人の場合はこれを記録して後から参照し、組織内ではそれを共有することで、非常に有用な情報となる。
検索に係る文脈とは、例えば、コンテンツが何に関するものであり、どのような者が対象となっており、どのような属性を有する利用者が利用し、何の目的で検索・利用し、結果どのような価値があったのか、というコンテンツの検索・利用という行為の背後に存在する情報である。
上記特許文献に記載のコンテンツの分類には、情報の内容や、関連するイベントなどが反映されているものの、情報の利用に係る「文脈」は反映されていなかった。
本発明は、コンテンツの検索・利用に係る文脈を解析した文脈モデル(検索行動モデル)を生成する文脈解析装置、及び生成した文脈モデルによってコンテンツを分類してキーワードに頼らないリテラシー非依存の探索に供することが可能な情報分類装置を提供することを目的とする。
上記の課題を解決するために、請求項1の発明は、コンテンツが検索・利用された際の文脈を、多次元の文脈座標値として記録する文脈記録手段と、前記多次元の文脈座標値における基準次元に記録された基準座標値を、他の次元に記録された座標値に基づいて定量化分類した文脈モデルを生成するモデル生成手段と、を備える文脈解析装置を特徴とする。
また、請求項2の発明は、請求項1に記載の文脈解析装置において、前記文脈モデルは、前記基準座標値を、他の次元の座標値に基づく各基準座標値間の意味的な類似距離によって分類した距離マップを含む文脈解析装置を特徴とする。
また、請求項3の発明は、請求項2に記載の文脈解析装置において、前記文脈モデルは、各距離マップに含まれる基準座標値を、他の次元の座標値に基づく時間順序で配置した順序フローを含むことを特徴とする文脈解析装置。
また、請求項4の発明は、請求項3に記載の文脈解析装置において、前記文脈モデルは、他の次元の座標値に基づいて、前記順序フローに含まれる基準座標値間の条件確率を示した確率ネットを含む文脈解析装置を特徴とする。
また、請求項5の発明は、請求項1乃至4の何れか一項に記載の文脈解析装置において、前記文脈記録手段は、多次元の前記文脈座標値を前記コンテンツと関連づけて記録し、前記モデル生成手段は、前記コンテンツを、前記類似距離、前記時間順序、前記条件確率によって分類した文脈モデルを生成する文脈解析装置を特徴とする。
また、請求項6の発明は、情報を表示する情報表示装置を備え、請求項5に記載の文脈解析装置によって生成された文脈モデルに含まれる前記類似距離、前記時間順序及び前記条件確率に基づく配置位置、サイズ及び並び順に従って、前記コンテンツの内容を示す画像を配置したマップを前記情報表示装置に表示するモデル表示手段を備えた情報分類装置を特徴とする。
また、請求項7の発明は、コンテンツを格納するコンテンツサーバと、前記コンテンツを分類するための文脈モデルを生成する文脈解析装置と、前記コンテンツを表示する端末装置と、を備える情報分類システムにおいて、前記端末装置は、情報を表示する情報表示装置と、前記コンテンツサーバに格納されたコンテンツを前記情報表示装置に表示するコンテンツ表示手段と、前記情報表示手段に表示されたコンテンツに係る多次元の文脈座標値を記録する文脈記録手段と、前記文脈モデルの生成のために、前記文脈記録手段により記録した文脈座標値を前記文脈解析装置に送信し、前記文脈解析装置から前記文脈モデルを受信する通信手段と、前記文脈解析装置から受信した前記文脈モデルを、前記情報表示装置に可視化表示するモデル表示手段と、を備え、前記文脈解析装置は、前記多次元の文脈座標値における基準次元に記録された基準座標値を、他の次元に記録された座標値に基づいて定量化分類した文脈モデルを生成するモデル生成手段と、前記端末装置から前記文脈座標値を受信し、生成された文脈モデルを前記端末装置に送信する通信手段と、
を備える情報分類システムを特徴とする。
上記のように構成したので、本発明によれば、キーワードに頼らないリテラシー非依存の探索に供することが可能な文脈モデルを生成する装置を実現することが出来る。
本発明の実施の形態に係るシステム構成の一例を示す図。 クライアント端末の機能ブロックの一例を示す図。 サーバ装置の機能ブロックの一例を示す図。 本発明に係る情報分類システムの他の態様を示す図。 文脈モデル生成部を構成する各サブ処理部を説明する図。 文脈モデル表示部を構成する各サブ処理部を説明する図。 表示装置に表示される文脈ログ記録部としての文脈タグ選択ボードを示す図。 文脈ログを記録する処理を説明するフローチャート。 文脈ログのデータ構成を示す図。 クライアント端末において、サーバ装置から文脈モデルを受信して可視化表示し、且つ文脈記録を行う処理を説明するフローチャート(その1)。 クライアント端末において、サーバ装置から文脈モデルを受信して可視化表示し、且つ文脈記録を行う処理を説明するフローチャート(その2)。 文脈モデル生成部の知識マップ生成部により生成され、文脈モデル表示部23によって可視化されたwhere距離マップの一例を示す図。 文脈モデル生成部の知識マップ生成部により生成され、文脈モデル表示部23によって可視化されたwhy距離マップの一例を示す図。 文脈モデル生成部の知識フロー生成部により生成され、文脈モデル表示部によって可視化された順序フローの一例を示す図。 文脈モデル生成部の知識ネット生成部により生成され、文脈モデル表示部によって可視化された確率ネットの一例を示す図。 文脈モデル生成部の知識ネット生成部により生成され、文脈モデル表示部によって可視化された確率ネットの一例を示す図。 変換後の文脈ログを説明する図。 変換後の文脈ログ(XML)を説明する図。 文脈モデルのデータ構成を示す図。 知識マップ生成部による距離マップの生成方法を説明する図。 文脈モデルのmap要素のデータ構成を示す図。 距離マップのセルを座標に当てはめる態様を示す図。 知識フロー生成部による知識フロー(順序フロー)の生成方法を説明する図。 文脈モデルのflow要素のデータ構成を示す図。 知識ネット生成部による知識ネット(確率ネット)の生成方法を説明する図。 文脈モデルのnet要素のデータ構成を示す図。 文脈によるコンテンツ表示を可能とするクライアント装置側の処理を説明するフローチャート。 コンテンツにタグ付け行う態様の一例を示す図。 文脈タグをコンテンツに関連づけて記録する態様を示す図。 サーバ装置の処理手順を説明するフローチャート。 本発明におけるコンテンツの第1の表示形態を示す図。 本発明におけるコンテンツの第2の表示形態を示す図。 本発明におけるコンテンツの第3の表示形態を示す図。 従来のコンテンツの表示形態を示す図。
以下に、図面を参照して、本発明の実施の形態を詳細に説明する。
図1は、本発明の実施の形態に係るシステム構成の一例を示す図である。
図1に示すように、本発明の情報分類システム1は、LAN(Local Area Network)等のネットワークNWを介して相互に接続された一又は複数のクライアント端末10と、サーバ装置50と、コンテンツ蓄積/提供手段としてのWebサーバあるいはファイルサーバ(以下、コンテンツサーバと記載する)100と、を備えている。また、システム1は、ネットワークNW内に接続されたルータRTを介してインターネット又は他の遠隔のネットワークに接続可能である。
クライアント端末10はコンテンツサーバ100やインターネット上のWebサーバから受信したWebページや画像/映像等の情報(以下、コンテンツと記載する)を表示可能であり、これらのコンテンツに関して、検索・利用時の文脈を示す「文脈ログ」としてのタグ情報を記録することが出来る。
なお、「文脈ログ」を記録する対象は、Webページなどのデジタルデータに限定されず、書籍などを検索・利用した際の「文脈」を記録することも可能である。もちろん、この場合は、ディスプレイ上に表示したコンテンツのように直接タグ付けを行うことは出来ないが、検索・利用時の文脈を記録して後述の文脈モデルに含めることが出来る。
クライアント端末10は、記録したタグ情報(文脈ログ)をサーバ装置50に送信し、サーバ装置50は、クライアント端末10から受信した多次元のタグ情報を解析し、知識辞書(文脈ログを、人工知能ソフトウェアを利用して圧縮・集積した情報)を生成し、データベース50aに登録する。
すなわち、クライアント装置10において記録された多次元文脈座標である文脈ログを、自己組織化マップ距離計算、ヒューリスティックプロセスマイニング、ベイジアンネット(条件付確率推論)などの公知の人工知能装置により圧縮することによって、知識情報間の類似距離と、時間順序、条件確率を含む文脈モデルが生成される。
文脈ログを文脈モデルに変換することにより、ログデータ量の増加を抑制することも出来る。
サーバ装置50は、クライアント端末10からの要求に応じて知識辞書に基づいた文脈モデルを生成してクライアント端末10に送信する。
本明細書において、「知識辞書」は、あらゆる文脈ログを集積したデータであり、「文脈モデル」は、クライアント装置10からの要求に応じて送信される特定の一部のデータである。内容的に、ほぼ同義に考えることが出来る。
クライアント端末10は、サーバ装置50から取得した文脈モデルを可視化して、利用者に提示する。
ここで、本明細書における「文脈」とは、コンテンツサーバ100や外部リソースにおけるコンテンツ、あるいは紙媒体の情報といった「コンテンツ」が、どのような分野について、どのような目的をもって、いかなる基準で、どのような属性の利用者によって検索・利用されたか、検索・利用の結果、そのコンテンツがどのように評価されたか」、という、利用者によるコンテンツの検索・利用経験の背景にある「文脈(意識構造)」であり、何らかの分野/目的についてコンテンツを検索・利用した活動の記録である。
なお、コンテンツが属する分野や目的等は、利用者自身が主観的に判断するものであり、実際のコンテンツの内容や関連分野、資料的価値等について、必ずしも客観的な正確性/整合性は求められない。
本発明の情報分類システムは、コンテンツが検索・利用された際の「文脈」を測定(記録)し、この文脈によってコンテンツを分類・整理した、知識情報よりなる情報空間の「地図」を作製していくものである。
なお、「文脈ログ」あるいは「文脈モデル」は、コンテンツそのものに対して記録されるのでは必ずしもない。基本的には、コンテンツを検索・利用した際の、使用者の意識構造自体を記録・解析するものである。
もちろん、コンテンツと共に記録することで、後述するようなコンテンツの分類表示に利用することも可能である。すなわち文脈モデル(類似距離、時間順序、条件確率)を用いた連想表示インターフェイスによる、文脈依存(キーワードを用いないリテラシー非依存)の知識情報ガイド表示が可能である。
図2は、クライアント端末の機能ブロックの一例を示す図であり、(a)は、ハードウェア構成を示すブロック図、(b)は、ソフトウェアによる機能構成を示す図である。
図2(a)に示すように、クライアント端末10は、基本システムとしてのオペレーティングシステムに加えて本システムの機能を実現する制御プログラムを実行するCPU(Central Processing Unit)11、オペレーティングシステムと制御プログラム、各種データを格納するストレージ(記憶手段)としてのHDD(Hard Disk Drive)12、CPU11による実行のために各種プログラムや一時的なデータを展開するための作業領域としてのRAM(Random Access Memory)13、ネットワークNWに接続するためのイーサネット(登録商標)アダプタ等のNetwork I/F14、ディスプレイ等の表示装置15、入力手段としてのキーボード(K/B)16、マウス17等を備えている。
また、図2(b)に示すように、CPU11は、Network I/F14を介して、上記のコンテンツサーバ100に接続し、Webページや画像等を受信するコンテンツ受信部(TCP/IPスタック等がこれに該当する)20、受信したコンテンツを表示装置15に表示するコンテンツ表示部(Webブラウザやその他の画像ビューアプログラム等)21と、サーバ装置50に対して文脈モデルを要求して受信する文脈モデル受信部22と、受信された文脈モデルを可視化した情報を表示装置15に表示する文脈モデル表示部23と、コンテンツ表示部21によって表示されるコンテンツに対し、検索・利用時の「文脈」に基づく、例えば8次元の文脈座標値である文脈ログを記録する文脈ログ記録部24と、記録された文脈とコンテンツ、記録された時点での日時を関連付けて管理するデータベースである文脈ログ管理部25と、サーバに対して文脈ログを同期・送信する文脈ログ送信部26と、を実行する。
文脈ログ送信部26による文脈ログの送信と、文脈モデル受信部22による文脈モデルの受信は一連の同期作業として行うことが出来る。
なお、文脈モデルを可視化した態様及び文脈計測(文脈タグの記録)の態様については、下記に詳述する。
図3は、サーバ装置の機能ブロックの一例を示す図であり、(a)は、ハードウェア構成を示すブロック図、(b)は、ソフトウェアによる機能構成を示す図である。
図3(a)に示すように、サーバ装置50は、基本システムとしてのオペレーティングシステムに加えて本システムの機能を実現する制御プログラムを実行するCPU(Central Processing Unit)51、オペレーティングシステムと制御プログラム、各種データを格納するストレージ(記憶手段)としてのHDD(Hard Disk Drive)52、CPU51による実行のために各種プログラムや一時的なデータを展開するための作業領域としてのRAM(Random Access Memory)53、ネットワークNWに接続するためのイーサネット(登録商標)アダプタ等のネットワークI/F54を備えている。
また、図3(b)に示すように、CPU11は、Network I/F14を介して、クライアント端末10から文脈ログを、ネットワークを介して受信する文脈ログ受信部60と、受信した文脈ログに基づいて文脈モデルを学習(生成)する文脈モデル生成部61と、クライアント端末10からの要求に応じて文脈モデル送信部62と、を実行する。
図4は、本発明に係る情報分類システムの他の態様を示す図である。
図1では、文脈ログの受信、文脈モデルの生成、文脈モデルの送信を行うサーバ装置50を示したが、そのような態様に限らず、図4(a)に示すように、サーバ装置50を、クライアント端末10とのデータの送受を行う技術サーバ(第1のサーバ装置)50a、文脈モデルを生成し、技術サーバ50aとの間で文脈モデルと文脈ログの送受を行う理論サーバ(第2のサーバ装置)50bの2つによって構成しても良い。
この場合、複数の技術サーバ50aと複数の理論サーバ50bが相互に接続されるようにシステムを構成することにより(クラスタ化)、各サーバへの負荷を分散し、且つ、障害耐性を向上することが出来る。
技術サーバ50aと理論サーバ50bは以下のように協働する。
まず、技術サーバ50aは理論サーバ50bに、特定のURLにGETメソッドでアクセスすることで、更新状態を取得する。理論サーバ50bは、現在の文脈モデルのリビジョン番号を返す。技術サーバ50aが取得した前回の文脈モデルのリビジョン番号よりも大きければ、理論サーバ上50bの文脈モデルが更新されていることになる。
理論サーバ50bは技術サーバ50aからの要求に従って、最新の文脈モデルを生成して技術サーバ50aに返す。技術サーバ50aは、受信した最新の文脈モデルを、各クライアント装置10に提供する。
本情報分類システムの構成は、ネットワークに接続された各装置による分散システム(クライアントサーバシステム)の構成に限定されるものではない。
すなわち、図4(b)に示すように、スタンドアロンとして用いられる分析装置10Aが、図2、図3で説明したコンテンツ受信部20、コンテンツ表示部21、文脈モデル表示部23、文脈ログ管理部25と、文脈ログ記録部24と、文脈モデル生成部61と、を備えるような構成としても良い。この場合、対象コンテンツは、Web上のコンテンツやハードディスク(ローカルディスク)上に格納された文書や画像等のファイルになる。
上記したように、本発明のシステムは、コンテンツを検索・利用した際の文脈という、使用者あるいは組織に属する使用者群の意識下にあって実体がなく且つ不可視であり、従って測定不可能な概念(どのような分野について、どのような目的をもって、いかなる基準で、どのような属性の利用者によって検索・利用されたか、検索・利用の結果、そのコンテンツがどのように評価されたか)を、多次元(例えば8次元)文脈座標(離散尺度の座標値)としての「文脈タグ」(例えば、login、why、where、when、who、what、how、logout)として記録する。
各文脈座標には、例えば以下のような意味合いを設定することが出来る。
ただし、これらはあくまでも一例であり、他の意味を持たせることで、別の視点・角度から文脈座標を設定可能である。
[表1]
Figure 2014063295
これらの座標値を含む「文脈ログ」の蓄積として得られる「文脈モデル」によって、知識情報を文脈に基づいて整理・分類することが出来る。
「文脈」は、不可視であるが、「文脈モデル」は可視化が可能であり、この文脈モデルに基づいて分類した知識情報を検索/探索することが可能である。
文脈モデルに基づいて探索され、選択/検索・利用されたコンテンツについてさらに記録された「文脈」は、文脈ログとしてさらに記録され、「文脈モデル」は、記録された文脈ログに基づいて更新される。
さらに、「文脈モデル」は、一人あるいは複数人の使用者によるコンテンツの検索・利用時に記録される文脈ログに基づいて生成され得る。
換言すれば、本発明のシステムは、個人あるいは組織による所定の知識情報に対する検索・利用の行動モデルを生成して提供するものである。
知識情報は、個人あるいは組織による検索・利用時にどのような文脈(経験)を定義されたかに基づいて整理・分類され、システムによって提示される文脈モデルを辿ることによって、使用者はコンテンツを検索・利用する方向性や、何らかの問題解決のために有用なコンテンツの検索・利用の順序等について何らかの示唆を受けることが可能である。
なお上述したが、こういった示唆が、使用者を必ずしも正解に導く訳ではない。本システムは、一人または複数の使用者によって記録されていくコンテンツの検索・利用時の文脈を記録し可視化することで、過去における使用者(達)の検索・利用の行動がどのようなものであったか、ということを示すに過ぎない。
図5は、文脈モデル生成部61を構成する各サブ処理部を説明する図である。
文脈モデル生成部61は、文脈ログ記録部26によって記録された文脈ログに基づいて、自己組織化マップ(SOM)によって知識マップ(距離マップ)を生成する知識マップ生成部70と、プロセスマイニングによって知識フロー(順序フロー)を生成する知識フローを生成する知識フロー生成部71と、ベイジアンネットによって知識ネット(確率ネット)を生成する知識ネット生成部72と、を備えている。
なお、文脈モデル生成部61によって実行される各人工知能プロセスについては、下記に詳述する。
図6は、文脈モデル表示部を構成する各サブ処理部を説明する図である。
文脈モデル表示部23は、知識マップ生成部70によって生成された知識マップ(距離マップ)を表示する知識マップ表示部80と、知識フロー生成部71によって生成された知識フローを表示する知識フロー表示部81と、知識ネット生成部72によって生成された知識ネット表示部82と、を備えている。
文脈モデルはXML(Extensible Markup Language)などの構造化言語によって記述されており、これらの表示制御部は、ウェブブラウザのXMLパーサ及びHTML(HyperText Markup Language)エンジン等によって実現可能である。
以下に、本システムを構成する各処理部により実現される文脈記録及び文脈モデルの表示処理を説明する。
図7は、表示装置に表示される文脈ログ記録部24としての文脈タグ選択ボードを示す図である。
図7において、login、why、where、who、what、how、logoutの各文脈タグに対応する値が列挙されている。
使用者は、クライアント端末10に備えられたマウス17等により、各タグの値を選択する。
従って、この文脈タグ選択ボードが、クライアント端末10(あるいは図4(b)の分析装置10A)において文脈タグ記録を行うインターフェイスとなる。
図7の選択ボードに表示されるタグ項目(値)は文脈モデルの内容に基づいている。
また、各文脈タグの値は、初期値として予め与えられていても良い。その場合、文脈タグの値は、例えば、データベースとしての文脈ログ管理部25等に格納されていても良いし、サーバ装置50から取得するようにしても良い。
使用者は、クライアント端末10に備えるマウス17等を用いて、選択ボード内のタグ項目を選択する。
文脈ログ記録部24は、選択されたタグの情報を、文脈ログとして記録していく。
図8は、文脈ログを記録する処理を説明するフローチャートである。
例えば、図7の選択ボードでは、あるコンテンツを検索・利用した使用者が、その検索・利用行動に基づいてloginタグ、whyタグ、whereタグ、whenタグ、whoタグ、whatタグ、howタグ、logoutタグについて一つの値をマウス等により選択する。なお、全て文脈タグについて値を選択する必要は必ずしもない。
文脈ログ記録部24は、使用者による選択ボードの操作に従って、login変数(ステップS50)、why変数(ステップS51)、where変数(ステップS52)、when変数(ステップS53)、who変数(ステップS54)、what変数(ステップS55)、how変数(ステップS56)、logout変数(ステップS57)を取得する。
なお、選択ボードにおけるタグの選択順、変数の取得の順序は必ずしもこの順序に限定されるものではない。
各文脈タグについて説明する。
whereタイプ変数は、コンテンツの検索・利用行動が係る分野等を定義するものである。
whyタイプ変数は、コンテンツを検索・利用した目的を定義するものである。
これらの変数(where、why)は、後述する距離マップのカテゴリとして使用される。
例えば、あるwhereタイプ変数がソフトウェアを表す場合、知識マップ生成部70では、各ソフトウェアで分類して距離マップが生成される。
また、あるwhereタイプ変数が技術分野を表す場合、技術分野で分類した距離マップが生成される。
whatタイプ変数は、検索・利用行動の対象コンテンツが関連する製品等を定義するものであり、距離マップ、さらに後述する順序フロー及び確率ネットのノード名として使用される。
すなわち、whatタイプ変数は、本発明の多次元文脈座標における基準座標として用いられる座標系であり、本発明のシステムは、このwhat変数の値を、他の変数を用いて定量化分類した文脈モデルを生成するシステムであると言える。
whenタイプ変数は、手順や期間を定義するものであり、順序フローの横軸(時間軸)の値の計算に使用される。例えば、あるwhen変数が手順を表す場合、タスクは手順の順に横軸に並ぶ。
whoタイプ変数は、コンテンツの検索・利用行動が関連する(人的)資源上の分類を示すものであり、後に図14で示す順序フローの縦軸(レーン)の値の計算に使用される。
なお、whoタイプ変数は、知識辞書全体を通して、1つだけ定義される。例えば下記のように、1つのwhoタイプ変数に技術レベルや資源などの値が混在して定義される。
<variable id="1" name="" type="who">
<selection>
<option value="tech:general">技術:一般者</option>
<option value="res:client">資源:Client</option>
</selection>
</variable>
なお、順序フロー(図14)上は、技術も資源も区別なく同時に縦軸に表示される。
howタイプ変数は、コンテンツを検索・利用した基準を示すものであり、後に図16で説明するように確率ネットのステート名(確率変数)として使用される。
loginタイプ変数は、セッション(一つのタスク、すなわち一回のコンテンツの検索・利用についての文脈ログの記録)開始時の質問事項を表し、例えばコンテンツを検索・利用した使用者の属性を定義するものである。使用者の属性別の距離マップの生成に使用される。
logoutタイプ変数は、セッション終了時の質問事項を表し、コンテンツの検索・利用に対する評価を定義するものである。
例えば、使用者が、自身の属性が「専門家」であると判断した場合、「login:専門家」を選択する。
コンテンツの検索・利用の目的を「デモ」であると判断した場合、「why:デモ」を選択する。
コンテンツの検索・利用に関する分野が「構造」であると判断した場合、「where:調査」を選択する。
コンテンツを検索・利用した手順、期間が「調査」であると判断した場合、「when:調査」を選択する。
コンテンツの検索・利用に関する(人的)資源が、「顧客」であると判断した場合、「who:顧客」を選択する。
検索・利用したコンテンツが関する製品や技術等が「製品A」であると判断した場合、「what:製品A」を選択する。
コンテンツの検索・利用の基準が、「計測」であると判断した場合、「how:計測」を選択する。
最後に、logoutとして、そのコンテンツの検索・利用について評価を行う。すなわち、「logout:評価+」や、「logout:評価−」を選択する。「logout:保留」としても良い。
文脈ログ記録部24は、各文脈タグとその値を、文脈ログとして文脈ログ管理部25に格納する。
図9は、文脈ログのデータ構成を示す図である。
一回のコンテンツの検索・利用についての文脈ログの計測結果を1タスクとする。文脈ログ管理部25に格納される文脈ログは、複数のタスクの集合データである。
図9に示すように、文脈ログは、活動ID(ケースID)、タイムスタンプ、使用者ID、活動内容(login、why、where、who、what、how、logout)等を含んでいる。
図10、図11は、クライアント端末において、サーバ装置から文脈モデルを受信して可視化表示し、且つ文脈記録を行う処理を説明するフローチャートである。
なお、以下に説明する文脈モデルは「文脈」そのものであり、実際のコンテンツと関連づけられている必要はない。
まず、図10において、クライアント装置の文脈モデル受信部22が、文脈モデルを受信する(ステップS101)。
次いで、クライアント装置の知識マップ表示部80が、文脈モデルに基づいて、where距離マップを表示する(ステップS102)。
図12は、文脈モデル生成部61の知識マップ生成部70により生成され、文脈モデル表示部23によって可視化されたwhere距離マップの一例を示す図である。
図12においては、上記のwhereタイプ変数によってカテゴライズされたノード(タスク)群が示されており、マップ内の各ノードNは、情報、電磁気、構造、物体、光学といった「where(分野)」によって分割された意味空間内に配置されている。
各ノードには、対応するタスクにおけるwhatタイプ変数の値に基づく「製品」名等が表示される。換言すると、各ノードが、whatで指定した「製品」名等に該当する。
なお、本システムを最初に使用する場合等、文脈モデルが生成されていない場合は、予め準備された知識辞書に基づいたノードが表示される。
ここで、図12のwhere距離マップにおいて、マップ切り替えボタン90がクリックされた場合(図10のステップS103でYes)、距離マップは、図13に示すwhy距離マップに切り替えられる。すなわち、知識マップ表示部80(図6)によりwhy距離マップが表示される(図10のステップS104)。
図13は、文脈モデル生成部61の知識マップ生成部により生成され、文脈モデル表示部23によって可視化されたwhy距離マップの一例を示す図である。
図13において、whyタグによってカテゴライズされたノード(タスク)群が示されており、マップ内の各ノードNは、デモ、解析、設計、保守といった「why(目的)」によって分割された意味空間内に配置されている。
各ノードには、対応するタスクにおけるwhatタイプ変数の値に基づく「製品」名等が表示される。換言すると、各ノードが、whatで指定した「製品」名等に該当する。
図12、図13に示す距離マップは、「意味空間の地図」と考えることができ、コンテンツが関わる分野(where)や、検索・利用した理由(why)により分割された領域に、各ノードがマッピングされている。
また、上記した「login」、「logout」によってカテゴライズしてノードをマッピングしてもよい。分野や理由ではなく、利用者の属性や評価結果に基づいて、製品等をマッピング出来る。
図12、13に示した知識マップ(距離マップ)は、文脈ログ記録部24により記録された文脈ログを用いて距離マップ生成部70により後述の方法で生成された自己組織化マップであり、使用者が、検索・利用したコンテンツに対して関連があると見なした「分野」、「目的」等で文脈ログの各タスクをカテゴライズしたマップである。
なお、知識マップ生成部70としての自己組織化マップツールは、文脈ログの各ケースの問題分野に対してクラスタリングを行うために使用する。知識マップ上で近いもの(ノード)同士ほど、関連性が高い。
ここで、例えば図11おけるwhere(分野)「構造」領域に含まれるノードN1、あるいは図13におけるwhy(理由)「デモ」領域に含まれるノードN1を選択(クリック)すると(図10のステップS105又はステップS106でYes)、知識フロー表示部81(図6)により、図14に示す順序フローが表示される。
なお、この際、選択されたノードの文脈タグ(where/why、what)が文脈ログ記録部24によって記録され、文脈ログ管理部25に格納される(ステップS107)。
図14は、文脈モデル生成部61の知識フロー生成部により生成され、文脈モデル表示部23によって可視化された順序フローの一例を示す図である。
順序フロー(知識フロー)とは、例えば公知のHeuristicsアルゴリズムを用いたプロセスマイニングによって文脈ログから生成されたペトリネットであり、どの手順において何についてのコンテンツが検索・利用されたかを示すワークフローである。
換言すると、図14の順序フローは、図12又は図13で選択されたノードが属するカテゴリー(where/why)における順序フロー(ワークフロー)である。
ノードN1に割り当てられていたタスクに含まれるwhat変数の値は製品Cであったので、図14では、製品Cに関する(を含む)順序フロー(活動の手順)が示されている。
図14の順序フローにおいて、ノード100で示される製品C(についてのコンテンツ)は、同一の分野あるいは理由(where/why)において、変数whenで表される一連の工程(調査→入力→モデル→解析→発表)における「モデル」工程で参照され、そのコンテンツは、who変数で表される資源「ソフト」を対象としたものであったことを示している。
また、製品C(についてのコンテンツ)は、同じ「モデル」工程について「技術」を対象とした、ノード101で示される「技術G」(についてのコンテンツ)の後、或いは「入力」工程について「ソフト」を対象としたノード102で示される「製品A」(についてのコンテンツ)の後に検索・使用されたことが示されている。
また、製品C(についてのコンテンツ)の後に、「解析」工程について「技術」を対象とした、ノード103で示される「製品A」(についてのコンテンツ)が検索・使用されることが示されている。
各ノードを示すアイコンにおける矢印の向きは、各工程で参照されるコンテンツが関連する客体の順序(接続関係)を示している。
本発明では、複数の使用者による参照順序を記録しているために、文脈モデルに含まれる客体の参照順序(活動の手順)は複数のルートよりなっている。
図14の順序フローにおけるノード100がマウスにより選択されたとき(図10のステップS109でYes)に、文脈ログ記録部24が、選択されたノードに係る文脈タグ(when、who)を記録して文脈ログ管理部25に格納する(図10のステップS110)と共に、知識ネット表示部82(図6)により、図15に示すようなノード100に関する確率ネットが表示される(図11のステップS111)。
図15、図16は、文脈モデル生成部61の知識ネット生成部により生成され、文脈モデル表示部23によって可視化された確率ネットの一例を示す図である。
確率ネット(知識ネット)とは、文脈ログから生成されたベイジアンネットワーク(有向グラフ)である。
図15で説明したように、フォーカス先のノード100に関するルートとしては、影響元のノード101又はノード102からノード100に至り、ノード100からは、影響先のノード103又はノード104に至るルートが記録されている。
上述の順序フロー(図14)は、連続する手順において検索・利用されたコンテンツが関連する客体(what)について複数の選択支を与えるが、知識ネット表示部82は、フォーカス先の客体(ノード)100、その次の手順(影響先)の客体103、104及び、その前の手順(影響元)の客体101、102について、コンテンツを検索・利用した基準(how)による選択確率(条件確率)を推論し、使用者に示す。条件確率は、各ノードを示す円グラフの各分割領域により示される。
図15に示す確率ネットにおいて、ノード100が選択(クリック)されると(ステップS112でYes)、知識ネット表示部82は、図16に示すような、how変数を確率変数とした、コンテンツを検索・利用した「基準」の確率を表示する(図11のステップS113)。
図16に示す例では、ノード100の製品Cの場合、「計測」に関する確率が最も高く、次いで、「大規模」、「数式」、「三次元」と続くことが分かる。
確率変数である「計測」、「数式」、「大規模」、「三次元」の値(how)は、順序フロー(図14)の全てのノードで共通である。
コンテンツを検索・利用していく順序の組み合わせに複数の経路が存在することは当然であるが、順序フロー(図14)の中のノードに係るコンテンツが、どのような基準で検索・利用されているかを確認することが出来る。
また、同じ基準で次のノードに係るコンテンツが検索・利用された確率も分かるため、使用者は何らかの示唆をうけることが出来る。
各基準(how)に付されたチェックボックス110がクリックされると(図11のステップS114でYes)、文脈ログ記録部113は、該当するエビデンス(how変数で示される検索・利用の基準とノードwhat)を記録する(図11のステップS115)。
つまり、使用者は当該ノードに係るコンテンツの検索・利用についての自らの基準を記録することが出来る。
上記のステップS107、ステップS110、ステップS113で記録した各文脈タグを、文脈ログとしてサーバ装置に送信する(図11のステップS116)。
これにより、図12、図13の知識マップ、図14の順序フロー、図16の確率ネットを操作することで記録された文脈ログは、サーバ装置による処理により生成される新たな文脈モデルに反映されることになる。
なお、これらの知識マップや順序フロー、確率ネットによる文脈ログの記録は、図7の選択ボードによって行うことが可能である。
以下に、文脈モデル生成部61による文脈ログに基づく文脈モデルの生成手順の一例を説明する。
文脈ログ受信部60は、文脈ログ送信部26から受信した「文脈ログ」を、以下のように変換してデータベースに格納する。
図9に示したようなタスク群よりなる文脈ログにおいて、連続したタスクで同じwhy(あるいはwhere、login、logout)変数値を持つものを、図17に示すようにグループ化する。このグループを「ケース」と呼ぶ。
例えば、図17において、文脈ログの各タスク(タスク1〜12)について、why変数値(design, development, operation)が同じタスクをグループ化してケース(ケース1〜4)としている。
この変換後に得られる文脈ログは、例えば図18に示すようなデータ構造を有するXML形式等で表される。
このように変換された文脈ログを用い、文脈モデル生成部(図5)によって文脈モデルの生成を行う。文脈モデル生成部によって生成される文脈モデルは、図19に示すようなデータ構造を有するXMLデータとして生成される。
図20は、知識マップ生成部70による距離マップの生成方法(フロー)を説明する図である。
まず、距離マップの生成に用いられる自己組織化マップについて概説する。自己組織化マップは、入力情報の類似度をマップ上の距離によって表現するモデルである。また、高次元のベクトル空間を2次元等の低次元空間に写像する可視化ツールとして用いることが出来る。
自己組織化マップは入力層と競合層の二層構造となっており、競合層にはm個のニューロンが2次元グリッド上に配置されており、各ニューロンiはd次元の重みベクトルw=(wi1,wi2…,wid)、i=(1,2,…,m)を有している。
重みベクトルの初期値は入力空間全体にランダムに配置する。
Step1:d次元入力ベクトルx=(xj1,xj2…,xjd)、j=(1,2,…,N)を1つ選び、全ニューロンに入力する。
Step2:入力ベクトルxと全ての重みベクトルw間の距離を計算し、最もxに近い重みベクトルを持つニューロンを、勝者ニューロンcとする。

Figure 2014063295

ここで、|x−wi|はユークリッド距離を表す。
Step3:ニューロンの重みベクトルを更新する。

Figure 2014063295

ここで、tは学習回数、hci(t)は近傍関数と呼ばれるガウス関数である。

Figure 2014063295

|r−r|はマップ上でのノードとiとの距離、α(t)はラーニングレート、ρ(t)は近傍関数の幅に対応し、両者は時間と共に減少し、たとえば以下のように定義する。ここで、tmaxは最大学習回数を表す。

Figure 2014063295

Step4:全入力データに対してStep1からStep3を繰り返す。
文脈モデル生成部61(知識マップ生成部70)は、図17に示す変換後の文脈ログに含まれる全ケース群に対して、where/whyタイプ変数により自己組織化を行い、自己組織化マップ(Self-Organization Map:SOM)を生成する。
すなわち、図20において、文脈モデル生成部61(知識マップ生成部70)は、図17に示した各ケースについて、使用している製品や分野(where/why)が共通するケースを含むカテゴリ(P1〜P4)に分類する。
すなわち、各ケースが使用している(関わる)製品や分野で分類(カテゴライズ)する。
すなわち図20では、[P1]〜[P4]が一つのカテゴリ(where/where)を示しており、図17に示す文脈ログに含まれる各ケースを、where/why変数の値に基づいて分類している。
次いで、各カテゴリにおけるケース群を、予め生成された自己組織化マップにリンクする(ケース間の類似距離に基づいて配置する)ことで、距離マップを生成することが出来る。
自己組織化マップを生成するためには、各ケース間の距離(類似距離)を定義する必要がある。ケース間の距離を計算するには、各ケースに含まれるwhere/whyタイプ変数インスタンスの頻度を、特徴ベクトルとして計算する。
あるいは、各ケースに含まれるwhere/whyタイプ変数インスタンスと、そのインスタンスを属性として有するトータルのタスク時間を特徴ベクトルとして計算してもよい。
自己組織化マップ(SOM)に入力する特徴ベクトルは、SOMに学習させる前に、PCA(主成分分析)を行って多次元正規分布に正規化するようにすることで、数値計算の安定性を得ることが出来る。
知識マップ(距離マップ)は、図19に示したXML形式の文脈モデルにおけるmap要素として表され、詳しくは、図21に示すようなデータ構造を有する。
図13における距離マップのセルには、図22に示すような座標を割り当てることとする。
セルの近傍はSOMの距離を用いて、ボロノイ分割により定義する。図21における<neighbors>要素では、セルの近傍にあたるセルをリストアップする。このとき、SOMを生成するときに使用した内部的な距離で近いものからソートして並べる。
図23は、知識フロー生成部による知識フロー(順序フロー)の生成方法を説明する図である。
知識フローの生成に用いられるプロセスマイニングについて概説する。
プロセスマイニングに用いられるアルゴリズムには複数の種類があるが、本実施形態では、Heuristicアルゴリズムを採用しているため、特にHeuristicアルゴリズムについて概説する。
Heuristicアルゴリズムは、ワークフローのイベントログを入力として、各イベントの頻度、依存関係を数値化し、ペトリネットワークモデルを構築するものである。
Heuristicアルゴリズムは、D/Fテーブル(dependency/frequency table)の作成と、このD/Fテーブルからペトリネットを作成するフェーズにより構成される。
まず、初めにD/Fテーブルを作成する。
イベントログ中にイベントAとBがあるとし、イベントログに含まれる全イベントに対し以下の数値を求め、テーブル化する。
#A:イベントログ全体でのイベントAの発生回数
#B<A:B発生後に直接Aが発生する回数
#A>B:A発生後に直接Bが発生する回数
$A→B:AとBの依存度の強さ
(def.$A→B=(#A>B−#B>A)/(#A>B+1)
$A→B:より一般的なA、Bの依存度の強さを表す。
(def.$A→B=δ
ここで、δは
0<δ<1
の範囲の定数(例えば0.8)であり、nはイベントAが発生してから、イベントBが発生するまでの間に発生するイベントの数とする(Bが発生してイベントn個発生後Aが発生する場合は−nとカウントする)。
上記#Aから、$A→Bまでの5要素の表をD/Fテーブルと呼ぶ。
次にD/Fテーブルからワークフローネットを作成する。
D/Fテーブルからワークフローネットの構造を抽出する方法を以下に示す。
A→Bの構造が満たす条件(構造判定ルール)
((#A>B>σ)AND(#B<A≦σ)AND($A→B≧N)AND($A→B≧N)=true;
ここでσ、N、Nは閾値である。これらの値によりイベントログデータの含むノイズに対しての頑健さを操作する。たとえばσ=0とした場合、イベントログデータはノイズを含まないモデルとなる。
イベントをトランジションとみなし、この条件を用い、D/Fテーブルからトランジション間の接続を導き、全体としてトランジション間にプレースを設置し、ワークフローネットモデル(順序フロー)が生成される。
知識フロー生成部71は、距離マップの各カテゴリ(図20の[P1]〜[P4])に属する各ケース(タスク集合)のグループに対して、what/when/whoタイプ変数によりタスクの同一視を行って上記に説明したプロセスマイニングを行い、ペトリネット(順序フロー)を生成する。
なお、プロセスマイニングでは、ケース(タスク集合)内のタスクを一定基準で同一視したものを「イベント」と呼ぶが、上述の図14に示す順序フローの各ノードは、この「イベント」と等価である。
上述のように本発明では、what、when、whoタイプの変数値が同じタスクを同一視する。
これは、以下の論理式によって表現される。
Task1≡task⇔(task1.what=task2.what)∧(task1.when=task2.when)∧(task1.who=task2.who)
知識フローは、図19に示したXML形式の文脈モデルにおけるflow要素として表され、詳しくは、図24に示すようなデータ構造を有する。
図25は、知識ネット生成部による知識ネット(確率ネット)の生成方法を説明する図である。
まず、知識ネットに用いられるベイジアンネットについて概説する。
ベイジアンネットは、因果関係を確率により記述するグラフィカルモデルの一つであり、複雑な因果関係の推論(複数の確率変数の間の定性的な依存関係)を有向グラフ構造により表すとともに、個々の変数の関係を条件つき確率で表す確率推論のモデルである。
因果的な特徴を有向グラフ(矢印を用いたリンク)によるネットワークとして表し、その上で確率推論を行うことができる。
蓄積された情報をもとに、起こりうる確率をそれぞれの場合について求め、それらを起こる経路に従って計算することで、複雑な経路を伴った因果関係の発生確率を定量的に表わすことが可能である。
確率変数はノードとして、変数間の依存関係を、向きを持つ有向リンクで表現する。
例えば、確率変数X、Xの間の条件付依存性を、ベイジアンネットではX→Xと表現する。
リンクの先に来るノード(この場合はXj)を子ノード、リンクの元にあるノード(この場合はX)を親ノードと呼ぶ。
親ノードが複数あるとき、子ノードXの親ノードの集合をPa(X)と表現する。
その場合、XとPa(X)の間の依存関係は、下記の条件付確率によって定量的に表される。(ただしPa(X)が空集合の時は事前確率分布)

Figure 2014063295
さらにn個の確率変数X1・・・,Xnのそれぞれを子ノードとして同様に考えると、全ての確率変数の同時確率分布は、下記の式で表現出来る。

Figure 2014063295
こうして各子ノードとその親ノードの間にリンクを張って構成したベイジアンネットによって、これらの確率変数の間の確率的な依存関係をモデル化することが出来る。
知識ネット生成部72は、各順序フロー(図14)を構成するノード(同一視されたタスク)を、how変数値をとる確率変数と見立て、上記したベイジアンネットワークの確率学習を行う。
知識ネットは、図19に示したXML形式の文脈モデルにおけるnet要素として表され、詳しくは、図26に示すようなデータ構造を有する。
確率変数はすべてのノードで同一であり、知識辞書で定義されているhowタイプ変数の値である。
したがって、確率ネットのXMLにおいては、ノードごとに異なる確率変数を示すことはしない。
条件付き確率表の並び順について、例えば、ノード3の親ノードがノード1、2であり、各ノードは確率変数として同じ離散値a、b、cを取るとする。
このとき、条件付き確率表のエントリ数は27個になる。それが、例えば次のようなXMLで表されるとする。
<node id="3">
<parents>1 2</parents>
<probabilities>0.01 0.02 0.03 0.04 ...0.27</probabilities>
</node>
このXMLは以下の条件付き確率表を表している。ただし、条件付確率は0〜1までの値をとる。
P[3=a|1=a,2=a]=0.01(親ノード1の確率変数がa、親ノード2の確率変数がaの場合に子ノード3の確率変数がaを取る確率)
P[3=a|1=b,2=a]=0.02(親ノード1の確率変数がb、親ノード2の確率変数がaの場合に子ノード3の確率変数がaを取る確率)
P[3=a|1=c,2=a]=0.03(親ノード1の確率変数がc、親ノード2の確率変数がaの場合に子ノード3の確率変数がaを取る確率)
P[3=a|1=a,2=b]=0.04(親ノード1の確率変数がa、親ノード2の確率変数がbの場合に子ノード3の確率変数がaを取る確率)
P[3=a|1=b,2=b]=0.05(親ノード1の確率変数がb、親ノード2の確率変数がbの場合に子ノード3の確率変数がaを取る確率)
P[3=a|1=c,2=b]=0.06(親ノード1の確率変数がc、親ノード2の確率変数がbの場合に子ノード3の確率変数がaを取る確率)
P[3=a|1=a,2=c]=0.07(親ノード1の確率変数がa、親ノード2の確率変数がcの場合に子ノード3の確率変数がaを取る確率)
P[3=a|1=b,2=c]=0.08(親ノード1の確率変数がb、親ノード2の確率変数がcの場合に子ノード3の確率変数がaを取る確率)
P[3=a|1=c,2=c]=0.09(親ノード1の確率変数がc、親ノード2の確率変数がcの場合に子ノード3の確率変数がaを取る確率)
P[3=b|1=a,2=a]=0.10(親ノード1の確率変数がa、親ノード2の確率変数がbの場合に子ノード3の確率変数がbを取る確率)
P[3=b|1=b,2=a]=0.11(親ノード1の確率変数がb、親ノード2の確率変数がaの場合に子ノード3の確率変数がbを取る確率)
P[3=b|1=c,2=a]=0.12(親ノード1の確率変数がc、親ノード2の確率変数がaの場合に子ノード3の確率変数がbを取る確率)
P[3=b|1=a,2=b]=0.13(親ノード1の確率変数がa、親ノード2の確率変数がbの場合に子ノード3の確率変数がbを取る確率)
P[3=c|1=c,2=c]=0.27(親ノード1の確率変数がc、親ノード2の確率変数がcの場合に子ノード3の確率変数がcを取る確率)
上記において、文脈ログの記録手段(文脈ログ記録手段)として、図7に示す選択ボードを使用し、文脈モデルは、文脈モデル表示手段によって図12乃至図16のように可視化されることを説明した。
ただし、図12乃至図16では、文脈モデル自体が可視化して示されているのみであり、コンテンツそのものとの関係は示されていなかった。
以下では、コンテンツ表示手段21、文脈ログ記録手段26、さらに文脈モデル表示手段23として、ウェブブラウザを使用した実施形態を説明する。
本実施形態では、ウェブブラウザによって表示可能なWEBページや画像、文書に関連づけて文脈ログの記録を行うことにより、様々なコンテンツについて文脈依存の整理を行うことが出来る。
なお、文脈ログ記録部24は、ウェブブラウザのブックマーク機能に対する拡張機能として実現することが出来る。
なお、タグ付けの手段としてウェブブラウザのブックマーク機能を使用する例はあくまで一例であり、WEBページや画像、文書を表示し、それらに対して文脈タグなどのメタ情報を埋め込むことが可能なソフトウェアであれば、本実施形態に好適に適用可能である。
図27は、文脈によるコンテンツ整理を可能とするクライアント装置側の処理を説明するフローチャートである。
まず、ウェブブラウザによりコンテンツ(例えば、WEBページ)を表示する(ステップS201)。
次いで、このコンテンツについて文脈を記録する(ステップS202)。例えば、図28に示すように、WEBページをブックマークする場合に、文脈タグを同時に記録するようにすれば良い。
文脈タグを記録後、サーバ装置に同期要求を行い(ステップS203)、記録した文脈タグを送信する(ステップS204)。
そして、サーバ装置から文脈モデルを受信し(ステップS205)、以下に示す方法で文脈モデルを可視化表示する(ステップS206)。
図29は、文脈タグをコンテンツに関連づけて記録する態様を示す図である。
図29において、ウェブブラウザのブックマーク機能の中で、コンテンツ(WEBページ)の名前と、URL、ブックマーク時に文脈タグ記録手段によって記録されたタグの情報、表示した日時の情報が管理されている。
なお、文脈タグを除く他の情報を記録する機能は、ウェブブラウザの標準的なブックマーク機能を用いることが出来るが、コンテンツにタグを記録する機能は、例えばMozilla Firefox (http://www.mozilla.org)が有するアドオン機能によっても実装可能である。
図30は、サーバ装置の処理手順を説明するフローチャートである。
サーバ50は、クライアント端末10からの文脈ログ/文脈モデルの同期要求を待機している。
同期要求があると(ステップS301でYes)、クライアント装置10(文脈ログ送信部26)に文脈ログの送信を許可し、文脈ログの送信がある場合(ステップS302)、文脈ログを受信する(ステップS303)。文脈ログを受信すると、受信した文脈ログを知識辞書データベース50aに登録し(ステップS304)、文脈モデル生成部61により文脈モデルを生成(更新)し(ステップS305)、文脈モデル送信部62により、文脈モデルをクライアント装置10に送信する(ステップS306)。
図28、図29に示すように、例えば、管理コードa1001のコンテンツとして、URLがhttp://www.pro.comであり、名称が「製品A紹介」というWEBページが表示(ブックマーク)された。
同時に、文脈タグとして、「what:製品A、when:調査、why:デモ、Who:営業職、how:可視化」とタグ付けされている。
これは、サイト「製品A紹介」が「製品A」に関するものであり、「調査」の過程において検索・利用し、「デモ」に用いるために検索・利用し、「営業職」向けのページであり、「可視化」を基準に検索・利用されたことを示している。
なお、ここで注意すべきは、サイト名に含まれる「製品A」と、whatタグの値「製品A」との間には、直接的な関係がない点である。
whatタグの内容は、本システムにおいてタグ付けを行う利用者が、コンテンツが関連すると認識・判断した製品や技術である。
サイト「製品A紹介」が製品Aに必ずしも言及しているとは限らないし、使用者が、サイト「製品A紹介」を検索・利用して、例えば「製品B」のサイトと見なし、whatタグの値として、「製品B」を選択することも考えられる。
本発明では、実際のコンテンツの内容に拘わらず、使用者の意識の中でそのコンテンツをどのように分類したか(文脈)に基づいて、知識情報を定義し、それに基づいてコンテンツを分類することが出来る。
すなわち、本システムの趣旨は、コンテンツの客観的な内容に基づくコンテンツの整理にあるのではない。
使用者が検索・利用したコンテンツや、所有するコンテンツを、使用者がどのような内容のコンテンツであったと見なし、どのような分野・製品に関するものであったと見なし、且つ、作業手順におけるどの工程で検索・利用し、どのようなタイプの人的資源の者の向けられたコンテンツであったと判断し、果たしてそれは有用な情報であったのか否か、というコンテンツを検索・利用する行動の背景に存在する「文脈」を「主観的判断」によって定義し、それによって知識情報を整理・分類するものである。
図29に示すようにコンテンツ毎に記録された文脈タグは、上述したような文脈ログとして文脈ログ管理部25(図2)に格納される。
この場合、文脈ログ管理部は、ウェブブラウザのブックマーク機能が有するデータベース機能を用いることが出来る。
そして、文脈ログは、サーバ50に送信されて、文脈モデル生成部61における各処理部(知識マップ生成部70、知識フロー生成部71、知識ネット生成部72)によって文脈モデルが生成される。
生成された文脈モデルは、文脈モデル表示部23としてのウェブブラウザによって可視化表示が可能である。
文脈モデル表示部23は、ウェブブラウザのウィンドウ内において、各コンテンツのサムネイルを、文脈モデル生成部61により求めた類似距離(距離マップ)、時間順序(順序フロー)、条件確率(確率ネット)に基づいて配置する。
ウィンドウ内において、サムネイル間の距離が「類似距離(why−Where)」を示し、サムネイルの重なりの順序が「時間順序(When−Who)」を示し、サムネイルのサイズ(大きさ)は、「条件確率(What−How)」を示している。
図31は、本発明におけるコンテンツの第1の表示形態を示す図である。
図31に示すサムネイルの配置において、各コンテンツは、全て等しい類似距離にある。
なお、「類似距離」は、上記に説明したように、コンテンツが関連する評価された分野や製品、検索・利用の目的により定義される意味上の距離である。
つまり、図31におけるサムネイルの配置は、全てのコンテンツが意味的に等しい距離にあることを意味している。
図32は、本発明におけるコンテンツの第2の表示形態を示す図である。
図32は、さらに「時間順序」を含めた表示形態である。「時間順序」は、検索・利用される順序を示しており、重なりの手前ほど、工程の最初に検索・利用されるコンテンツであることが分かる。
図32に示すサムネイルの配置では、a1002「ノウハウ」とa1003「論文」とが意味的に近く(意味グループ1とする)、a1001「製品A」、a1004「ダウンロード」、a1005「製品B」、a1006「ブログ」、a1007「ウィキペディア」、a1008「共有データ」が意味的に近い(意味グループ2)とすることを示している。
意味グループ1において、a1002は、a1003よりも時間順序が先になっている。
また、意味グループ2において、時間順序が、「a1001」→「a1006及びa1008」→「a1005及びa1007」→「a1004」の時間順序にソートされている。
図33は、本発明におけるコンテンツの第3の表示形態を示す図である。
図33は、図32に加えて、さらに、「条件確率」を含めた表示形態となっている。
また、「条件確率」は検索・利用される確率(すなわち、着目すべきコンテンツであるか否か)を示しており、サムネイルの重なりにおいて上側(図中下側)に行くほど、着目すべきことを示している。
図33に示すサムネイルの配置では、a1002「ノウハウ」とa1003「論文」とが意味的に近く(意味グループ1とする)、a1001「製品A」、a1004「ダウンロード」、a1005「製品B」、a1006「ブログ」、a1007「ウィキペディア」、a1008「共有データ」が意味的に近い(意味グループ2)とすることを示している。
意味グループ1において、a1002は、a1003よりも時間順序が先になっている。
また、意味グループ2において、時間順序が、「a1001」→「a1006及びa1008」→「a1005及びa1007」→「a1004」の時間順序にソートされている。a1008又はa1006を検索・利用後、a1005を検索・利用する確率よりもa1007を検索・利用する確率(条件確率)が高くなっている。
なお、図31乃至図33に示すコンテンツ配置において、サムネイルから該当のWEBページを表示することが出来る。
この「WEBページを表示した」という経験も、文脈ログとして記録され、サーバ50に送信され、文脈モデルに反映される。この際、文脈ログを新たに記録することも出来るし、変更することも可能である。
図34は、従来のコンテンツの表示形態を示す図である。
従来における、ウェブブラウザ内でブックマークされたコンテンツの表示や、オペレーティングシステムに含まれる使用者シェルのファイル一覧機能におけるコンテンツの表示では、図34に示すようなサムネイル表示が一般的であった。
例えば、図34に示すように、各コンテンツa1001「製品A紹介」、a1002「ノウハウ紹介」、a1003「論文PDF」、a1004「ソフトウエアダウンロード」、a1005「製品B紹介」、a1006「ブログ日記」、a1007「ウィキペディア」、a1008「供給データ」は、等間隔でグリッド状に配置されており、サムネイルの画面上の位置には、なんら意味が与えられていない。
この状態において、使用者は、意味を与えられていないサムネイルの配置を探索して、有用なコンテンツにたどり着くことは出来ない。その意味において、コンテンツは、適切に「整理」されているとは言えない。
それに対し、本発明では、図31乃至図33に示すように表示することで、コンテンツの配置に意味を持たせることが出来る。
使用者は、コンテンツ配置により示唆される、コンテンツ間の意味上の類似距離、時間順序、条件確率に従って、知識情報を探索し、連想検索による知識情報ガイドを受けることが可能になる。
本発明の情報分類システムによれば、検索キーワードを定量化分類できる。また、多次元マップの利用により、条件分岐理論式の作成が不要になる。また、個人知識や組織知識の単位で経験知識を管理することが出来る。
10 クライアント端末、10A 分析装置、11 CPU、14 ネットワークI/F、15 表示装置、キーボード16、17 マウス、20 コンテンツ受信部、21 コンテンツ表示部、22 文脈モデル受信部、23 文脈モデル表示部、24 文脈ログ記録部、25 文脈ログ管理部、26 文脈ログ送信部、50 サーバ装置、50a 技術サーバ、50a 理論サーバ、51 CPU、54 ネットワークI/F、60 文脈ログ受信部、61 文脈モデル生成部、62 文脈モデル送信部、70 知識マップ生成部、71 知識フロー生成部、72 知識ネット生成部、100 コンテンツサーバ、NW ネットワーク

Claims (7)

  1. コンテンツが検索・利用された際の文脈を、多次元の文脈座標値として記録する文脈記録手段と、
    前記多次元の文脈座標値における基準次元に記録された基準座標値を、他の次元に記録された座標値に基づいて定量化分類した文脈モデルを生成するモデル生成手段と、
    を備えることを特徴とする文脈解析装置。
  2. 請求項1に記載の文脈解析装置において、
    前記文脈モデルは、前記基準座標値を、他の次元の座標値に基づく各基準座標値間の意味的な類似距離によって分類した距離マップを含むことを特徴とする文脈解析装置。
  3. 請求項2に記載の文脈解析装置において、
    前記文脈モデルは、各距離マップに含まれる基準座標値を、他の次元の座標値に基づく時間順序で配置した順序フローを含むことを特徴とする文脈解析装置。
  4. 請求項3に記載の文脈解析装置において、
    前記文脈モデルは、他の次元の座標値に基づいて、前記順序フローに含まれる基準座標値間の条件確率を示した確率ネットを含むことを特徴とする文脈解析装置。
  5. 請求項1乃至4の何れか一項に記載の文脈解析装置において、
    前記文脈記録手段は、多次元の前記文脈座標値を前記コンテンツと関連づけて記録し、
    前記モデル生成手段は、前記コンテンツを、前記類似距離、前記時間順序、前記条件確率によって分類した文脈モデルを生成することを特徴とする文脈解析装置。
  6. 情報を表示する情報表示装置を備え、
    請求項5に記載の文脈解析装置によって生成された文脈モデルに含まれる前記類似距離、前記時間順序及び前記条件確率に基づく配置位置、サイズ及び並び順に従って、前記コンテンツの内容を示す画像を配置したマップを前記情報表示装置に表示するモデル表示手段を備えたことを特徴とする情報分類装置。
  7. コンテンツを格納するコンテンツサーバと、前記コンテンツを分類するための文脈モデルを生成する文脈解析装置と、前記コンテンツを表示する端末装置と、を備える情報分類システムにおいて、
    前記端末装置は、情報を表示する情報表示装置と、前記コンテンツサーバに格納されたコンテンツを前記情報表示装置に表示するコンテンツ表示手段と、前記情報表示手段に表示されたコンテンツに係る多次元の文脈座標値を記録する文脈記録手段と、
    前記文脈モデルの生成のために、前記文脈記録手段により記録した文脈座標値を前記文脈解析装置に送信し、前記文脈解析装置から前記文脈モデルを受信する通信手段と、
    前記文脈解析装置から受信した前記文脈モデルを、前記情報表示装置に可視化表示するモデル表示手段と、
    を備え、
    前記文脈解析装置は、
    前記多次元の文脈座標値における基準次元に記録された基準座標値を、他の次元に記録された座標値に基づいて定量化分類した文脈モデルを生成するモデル生成手段と
    前記端末装置から前記文脈座標値を受信し、生成された文脈モデルを前記端末装置に送信する通信手段と、
    を備えることを特徴とする情報分類システム。
JP2012207265A 2012-09-20 2012-09-20 文脈解析装置、情報分類装置及び情報分類システム Pending JP2014063295A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012207265A JP2014063295A (ja) 2012-09-20 2012-09-20 文脈解析装置、情報分類装置及び情報分類システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012207265A JP2014063295A (ja) 2012-09-20 2012-09-20 文脈解析装置、情報分類装置及び情報分類システム

Publications (1)

Publication Number Publication Date
JP2014063295A true JP2014063295A (ja) 2014-04-10

Family

ID=50618486

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012207265A Pending JP2014063295A (ja) 2012-09-20 2012-09-20 文脈解析装置、情報分類装置及び情報分類システム

Country Status (1)

Country Link
JP (1) JP2014063295A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246496A (zh) * 2019-07-01 2019-09-17 珠海格力电器股份有限公司 语音识别方法、系统、计算机设备及储存介质
CN110275935A (zh) * 2019-05-10 2019-09-24 平安科技(深圳)有限公司 政策信息的处理方法、装置、及存储介质、电子装置
CN111124847A (zh) * 2018-11-01 2020-05-08 百度在线网络技术(北京)有限公司 网站用户行为分析方法及装置
JP2021061063A (ja) * 2014-09-26 2021-04-15 オラクル・インターナショナル・コーポレイション 推薦されるデータ変換および修復のための宣言型言語およびビジュアライゼーションシステム
US11379506B2 (en) 2014-09-26 2022-07-05 Oracle International Corporation Techniques for similarity analysis and data enrichment using knowledge sources
US11693549B2 (en) 2014-09-26 2023-07-04 Oracle International Corporation Declarative external data source importation, exportation, and metadata reflection utilizing HTTP and HDFS protocols

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001337953A (ja) * 2001-03-29 2001-12-07 Yusuke Takahashi 情報可視化システム
JP2002032388A (ja) * 2000-07-14 2002-01-31 Ricoh Co Ltd 文書体系化方法、文書選択方法、文書管理装置、文書処理管理システム及び記録媒体
JP2003296361A (ja) * 2002-03-29 2003-10-17 Toshiba Corp 情報取得支援装置、方法及びプログラム
JP2005202453A (ja) * 2004-01-13 2005-07-28 Mitsubishi Electric Corp コンテンツ再生装置及びコンテンツ再生方法及びプログラム
JP2010191802A (ja) * 2009-02-19 2010-09-02 Olympus Corp 情報処理システム、画像表示装置、プログラム及び情報記憶媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002032388A (ja) * 2000-07-14 2002-01-31 Ricoh Co Ltd 文書体系化方法、文書選択方法、文書管理装置、文書処理管理システム及び記録媒体
JP2001337953A (ja) * 2001-03-29 2001-12-07 Yusuke Takahashi 情報可視化システム
JP2003296361A (ja) * 2002-03-29 2003-10-17 Toshiba Corp 情報取得支援装置、方法及びプログラム
JP2005202453A (ja) * 2004-01-13 2005-07-28 Mitsubishi Electric Corp コンテンツ再生装置及びコンテンツ再生方法及びプログラム
JP2010191802A (ja) * 2009-02-19 2010-09-02 Olympus Corp 情報処理システム、画像表示装置、プログラム及び情報記憶媒体

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021061063A (ja) * 2014-09-26 2021-04-15 オラクル・インターナショナル・コーポレイション 推薦されるデータ変換および修復のための宣言型言語およびビジュアライゼーションシステム
US11379506B2 (en) 2014-09-26 2022-07-05 Oracle International Corporation Techniques for similarity analysis and data enrichment using knowledge sources
JP7148654B2 (ja) 2014-09-26 2022-10-05 オラクル・インターナショナル・コーポレイション 推薦されるデータ変換および修復のための宣言型言語およびビジュアライゼーションシステム
US11693549B2 (en) 2014-09-26 2023-07-04 Oracle International Corporation Declarative external data source importation, exportation, and metadata reflection utilizing HTTP and HDFS protocols
CN111124847A (zh) * 2018-11-01 2020-05-08 百度在线网络技术(北京)有限公司 网站用户行为分析方法及装置
CN110275935A (zh) * 2019-05-10 2019-09-24 平安科技(深圳)有限公司 政策信息的处理方法、装置、及存储介质、电子装置
CN110246496A (zh) * 2019-07-01 2019-09-17 珠海格力电器股份有限公司 语音识别方法、系统、计算机设备及储存介质

Similar Documents

Publication Publication Date Title
CN113377850B (zh) 认知物联网大数据技术平台
US10803394B2 (en) Integrated monitoring and communications system using knowledge graph based explanatory equipment management
Bilal et al. Big Data in the construction industry: A review of present status, opportunities, and future trends
KR102094659B1 (ko) 헤드라인의 자동 생성
US8903756B2 (en) System and method for knowledge pattern search from networked agents
US9652559B2 (en) Managing information assets using feedback re-enforced search and navigation
US20150310097A1 (en) Systems and methods for analyzing and clustering search queries
US20170329653A9 (en) System and method for detecting, collecting, analyzing, and communicating event-related information
JP2014063295A (ja) 文脈解析装置、情報分類装置及び情報分類システム
US20150142507A1 (en) Recommendation system for specifying and achieving goals
JP2005316998A (ja) 製品のサポートに関するサービス要求のマイニング
EP2827294A1 (en) Systems and method for determining influence of entities with respect to contexts
Repta et al. Towards the development of semantically enabled flexible process monitoring systems
Wu et al. A matrix-based Bayesian approach for manufacturing resource allocation planning in supply chain management
Al-Sayed et al. An intelligent cloud service discovery framework
Zhou et al. Mnav: A markov model-based web site navigability measure
US20130132389A1 (en) Electronic document repository system
Saeidlou et al. An ontology-based intelligent data query system in manufacturing networks
Yen et al. LONET: an interactive search network for intelligent lecture path generation
US11816618B1 (en) Method and system for automatically managing and displaying a hypergraph representation of workflow information
JP4745993B2 (ja) 意識体系構築装置および意識体系構築プログラム
Wu et al. Supporting navigation in Wikipedia by information visualization: extended evaluation measures
ElGindy et al. Enriching user profiles using geo-social place semantics in geo-folksonomies
Johny et al. Towards a social graph approach for modeling risks in big data and Internet of Things (IoT)
Costa et al. A three level sensor ranking method based on active perception

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150911

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160802

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170207