JP5092165B2 - データ構築方法とシステム - Google Patents

データ構築方法とシステム Download PDF

Info

Publication number
JP5092165B2
JP5092165B2 JP2008169066A JP2008169066A JP5092165B2 JP 5092165 B2 JP5092165 B2 JP 5092165B2 JP 2008169066 A JP2008169066 A JP 2008169066A JP 2008169066 A JP2008169066 A JP 2008169066A JP 5092165 B2 JP5092165 B2 JP 5092165B2
Authority
JP
Japan
Prior art keywords
tag
computer
count
pair
count table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008169066A
Other languages
English (en)
Other versions
JP2009099124A (ja
Inventor
威慎 頼
奕▲金奇▼ 陳
卓彦 林
文泰 謝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute for Information Industry
Original Assignee
Institute for Information Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute for Information Industry filed Critical Institute for Information Industry
Publication of JP2009099124A publication Critical patent/JP2009099124A/ja
Application granted granted Critical
Publication of JP5092165B2 publication Critical patent/JP5092165B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Description

本発明は、データタグ構築方法とシステムに関するものであって、特に、概念関係ネットワークに基づくデータタグ構築方法とシステムに関するものである。
通信ネットワークと情報技術の一般的な利用、大衆への適用が進むことに伴って、デジタルドキュメント(電子化された文書情報)が非常に早い速度で生成され蓄積されており、大量のデジタルドキュメントの管理、組織化(体系化)、アクセス及び利用に関する問題点や要求とが増加することになっている。その結果、これらの問題を解決し、使用上の要求を満たすため、情報検索(Information retrieval)、 自然言語処理(natural language processing)、 学習機械(自動学習)(machine learning)等の技術分野が含まれる「デジタルドキュメントの自動情報体系化と主題分析」"Automatic Information Organization and Subject Analysis for Digital Documents"、あるいは「テキスト知識発見」"Text Knowledge Discovery"というような技術が出現し進展している。
知識発見(Knowledge discovery、KD )技術は、多数の異種のデータベースの中に埋もれている(蓄積されている)新しく組み込まれた、新しく有用な見識を得ることの多い情報を抽出し、その知識を体系化する能力を通して、次世代のデータベース管理と情報システムの発展に大きく貢献する。
知識発見は、異なるデータの特徴により、データマイニングDMとテキストマイニングTMとに分けられる。データマイニングは、各データ片がデータベースに記録されるべきコモン領域を有するような構造化されたデータに対して使用される。テキストマイニングは、各データ片の間に適用される構造を有していない構造化されていないデータを処理する。
知識発見は、データを収集し、データをソートし、データを変換し、マイニング処理を実行し、保存、転換し、マイニング工程を実行し、関連付け(association)、分類(classification)、クラスタリング(clustering)、要約(summarization)、予測(prediction)、シーケンス分析(sequence analysis)により結果を表現し分析する。
データ特徴の相違に基づいて、データマイニングとテキストマイニングは、詳細において異なる工程と方法を提供する。データマイニングは、大量のデータを記録して、関連情報を抽出する原理である。一般に、ビジネスインテリジェンス組織、及び、経済アナリストにより使用されるが、次第に科学に用いられて、現在の実験と観察法により生成される膨大なデータから情報を抽出する。それは、“データからの今まで知られていなかった、潜在的に有用性のある情報のトポロジー的な抽出”と“大きいデータセット、或いは、データベースから、役に立つ情報を抽出する科学”と言われている。テキストマイニングは、時に、テキストデータマイニングと称され、テキストからの高品質情報を抽出する工程を引用する。高品質情報は、パターンを区分することにより抽出され、統計的パターン学習などの手段に動向する。テキストマイニングは、入力テキストを構築する工程に関わり(通常は、構文解析で、抽出された言語特性の追加とその他の除去、及び、後続のデータベースへの挿入)、構築されたデータ中のパターンを抽出し、最後に、出力の評価と解釈をする。テキストマイニングの“高品質”は通常、関連度、新規性、興味深さの結合に言及する。一般のテキストマイニングタスクは、テキスト分類、テキストのクラスタリング、概念/構成要素の抽出、粒度分類の提示、感情分析、文書要約、及び、全体の関連度モデリング(即ち、指名された実体物間の関係学習)等がある。
データマイニングとテキストマイニングは、更に、例えば、階層概念空間構造であるインターネット検索のブラウジングタグ等の、データタグの構築に適用される。階層概念空間構造は、フォークソノミー分類の共同タグに適用し、タグ間の関連強度を予測することにより階層概念空間を構築する。
しかし、公知のタグ構築方法は、以下のような欠点がある。“タグ組織方法とシステム”はメンテナンスコストが高い。“ソーシャルネットワーク情報から生成される検索結果のビジュアルタグ”は重み概念を提供せず、検索が困難である。“自動タグ分類のタグ空間中の改善検索と調査”に関しては、数値が標準化されず、ツリー構造のメンテナンスコストが増加する。
本発明は、そのような問題を解決する、概念関連ネットワークに基づくデータタグの構築システムと方法を提供する。
本発明の概念関連ネットワークに基づくデータタグの構築システムの具体例は、タギングモジュールと、第一タグ生成器と、第二タグ生成器と、信頼性生成器と、を有する。タギングモジュールは、ユーザーにより入力あるいは選択されたタグを収集し、少なくとも、同時に使用してデータを検索するタグを記憶するタグ領域と、当該タグ領域に対応付けられるコンテンツIDとを有するタグデータ表を形成する。第一タグ生成器は、タグデータ表に従って、各タグの使用回数を計算し、第一タグ計数表を形成し、第一タグ計数表中の各タグの計数値と第一所定スレショルド値を比較し、各タグ計算値が第一所定スレショルド値より小さいか判断し、第一所定スレショルド値より小さいタグ計数値のタグを捨てて、第二タグ計数表を生成する。第二タグ生成器は、前記ユーザにより入力あるいは選択された前記タグに基づいて形成された前記タグデータ表及び第二タグ計数表に従って、前記データを検索する際に同時に使用されるタグペアの回数を計算し、第三タグペア計数表を形成し、第三タグペア計数表中の各タグペアの各タグペア計数値と第二所定スレショルド値を比較し、各タグペア計算値が第二所定スレショルド値より小さいか判断し、第二所定スレショルド値より小さいタグペア計数値のタグを捨てて、第四タグペア計数表を生成する。信頼性生成器は、前記第一タグ計数表と前記第三タグペア計数表に従って、各タグ、或いは、タグペアとその他の関連度を計算し、タグ関連表を形成する。
本発明の概念関連ネットワークに基づくデータタグの構築方法の具体例は、以下のようである。ユーザーにより入力されたタグが収集され、タグデータ表を形成する。タグデータ表に従って、各タグの使用回数を計算し、第一タグ計数表を形成する。第一タグ計数表中の各タグの計数値と第一所定スレショルド値をそれぞれ比較し、タグ計数値が第一所定スレショルド値より小さいか判断する。第一所定スレショルド値より小さいタグ計数値のタグを捨てて、第二タグ計数表を形成する。第二タグ計数表に従って、各タグペアの使用回数が計算されて、第三タグペア計数表を形成する。第三タグペア計数表中の各タグペアのタグペア計数値と第二所定スレショルド値を比較し、タグペア計数値が第二所定スレショルド値より小さいか判断する。第二所定スレショルド値より小さいタグペア計数値のタグペアを捨て、第四タグペア計数表を形成する。前記第一タグ計数表と第三タグペア計数表に従って、各タグ、或いは、タグペアとその他の関連度を計算し、タグ関連表を形成する。
本発明の概念関連ネットワークに基づくデータタグの構築システムと方法により、メンテナンスコストを減少させることができる。また、重み概念を提供して検索を可能とし、数値を標準化することができ、ツリー構造のメンテナンスコストの増加を防ぐことができる。
図1は、概念関連ネットワークに基づくデータタグの構築システムを示す図である。
データ構築システムの具体例は、タギングモジュール110、シングルタグ生成器120、タグペア生成器130、信頼性生成器140、概念空間増分維持器150、概念空間調整器160、個人化概念空間アダプター170、及び、サインアップモジュール180、を有する。
図2は、本発明の概念空間を構築するタグ関連ルールを示す図である。
図2と図3で示されるように、タギングモジュール110は、ユーザーが入力したタグ、或いは、選択されたキーワード(即ち、タグデータ)を収集し、タグデータ表115を形成する。生成されたタグデータ表115は、少なくとも、コンテンツID(Content ID)とタグ領域(Tag )を有する。コンテンツIDはT001、T002、T003、、、で示される。本具体例において、入力、或いは、選択されたタグは、これに制限されないが、少なくとも、java、j2me、sun 、example 、及び、sdk があり、T001〜T009で示される。タグデータ表115で示されるように、T001は、java、j2me、及び、sun の3つのキーワードを同時に使用してデータを検索し、T002は、j2me、及び、example の2つのキーワードを同時に使用して、データを検索することを示す。
第一タグ生成器120は、タグデータ表115に従って、各タグ(即ち、キーワード)の使用回数を計算し、シングルタグ計数表C1を形成する。シングルタグ計数表C1は、少なくとも、タグ領域と計数領域を有し、各計数領域の数値は、対応するタグの使用回数を表示する。
シングルタグ生成器120は、シングルタグ計数表C1中の各タグのタグ計数値と所定スレショルド値を比較し、タグ計数値が所定のスレショルド値より小さいか判断する。注意すべきことは、所定のスレショルド値は、これに制限されないが、本具体例では2である。シングルタグ生成器120は、所定スレショルド値より小さいタグ計数値のタグを捨て、シングルタグ計数表L1を形成する(図1では図示しない)。シングルタグ計数表L1は、少なくとも、タグ領域と計数領域を有し、各計数領域の値は、対応するタグの使用回数を示し、所定スレショルド値より大きい。java、 j2me、 sun、 example、 及び、 sdk等のタグ計数値は2以上なので、シングルタグ計数表C1中の全タグは捨てられず、シングルタグ計数表C1とL1は、相同のデータコンテンツを含む。
タグペア生成器130は、ユーザーによる入力/選択とシングルタグデータ表L1に従って、java、j2me、sun 、example 、及び、sdk 等の任意の二タグ(タグペア)の同時に使用される回数を計算し、タグペア計数表C2を形成する。タグペア計数表C2は、少なくとも、タグ領域と計数領域を有し、各計数領域の値は、対応するタグペアの使用回数を表示する。タグペア計数表C2で示されるように、sdk、example とsunタグはそれぞれ、6回、2回と二回使用されるが、[sdk/example] 、 [sdk/sun]、及び、[example/sun] タグペアが同時に入力/選択される回数は、0回、1回、及び、1回である。
タグペア生成器130は、タグペア計数表C2中の各タグペアの計数値と所定スレショルド値を比較して、タグペア計数値が所定スレショルド値より小さいか判断する。注意すべきことは、本実施例中のスレショルド値は同様に2に設定されているが、これに制限されない。タグペア生成器130は、所定スレショルド値より小さいタグ計数値のタグを捨て、タグペア計数表L2を形成する。タグペア計数表L2は、少なくとも、タグ領域と計数領域を有し、各計数領域の数値は、対応するタグペアの使用回数を表示し、所定スレショルド値より大きい。[java/example]、 [sdk/example]、 [sdk/sun]、及び、[example/sun] 等のタグペアの計数値は2以下であり、タグペアは捨てられなければならず、よって、タグペア計数表L2に記録された全タグペアの計数値は2以上である。
シングルタグ計数表C1とL1とタグペア計数表C2とL2の形成後、信頼性生成器140は、シングルタグ計数表C1とタグペア計数表C2に従って、公式を利用し、各タグ、或いは、タグペアとその他の間の関連度を計算すると共に、タグ関連表145を形成する。本実施形態においては、公式は次の式(1)である。
Figure 0005092165
Aは、シングルタグ計数表C1に記録されるタグ(例えば、タグA)を示し、Bは、タグAに関連するタグペア計数表C2に記録されるタグを示す。よって、概念空間の現在のデータタグに関連する関連操作が完了し、異なるデータタグ間の関連が定められ、データが検索される時、入力タグに対応する関連データがすぐに提供される。
図4は、本発明の概念空間の追加データタグを示す図である。
図4と図5を参照すると、ユーザーが新しいキーワード(即ち、タグデータ)を入力、或いは、選択する時、タギングモジュール110が新しいタグを収集し、概念空間増分維持器150に転送する。新しいタグの受信時、概念空間増分維持器150は新しいタグをシングルタグ計数表C1に追加する。図3と図5のシングルタグ計数表C1を比較すると、新しく追加されたタグは、java、sun 、及び、api を含み、計数値は1を加えて、7、3、及び、1になる。続いて、概念空間増分維持器150は、シングルタグ計数表C1中の各更新タグのタグ計数値と所定スレショルド値を比較し、更新タグのタグ計数値が所定スレショルド値より小さいか判断し、シングルタグ計数表L1の内容を変更するか決定する。注意すべきことは、更新タグは、新しく追加されたタグ、或いは、計数値が増加したタグを示すことである。
シングルタグ計数表L1の内容が変化した場合、概念空間増分維持器150は、ユーザーの入力/選択とシングルタグ計数表L1に従って、更新タグをタグペア計数表C2に追加し、タグの内容と計数領域を更新する。タグペア計数表C2で示されるように、[java/sun]タグペアの計数値は1が加えられる。概念空間増分維持器150は、タグペア計数表C2中の各更新タグペアのタグペア計数値と所定スレショルド値を比較し、所定スレショルド値より小さいタグペア計数値のタグペアを捨て、タグペア計数表L2を更新する。注意すべきことは、更新されたタグペアは、新しく追加されたタグペア、或いは、計数値が増加したタグペアを示すことである。
同様に、信頼性生成器140は、シングルタグ計数表C1とタグペア計数表C2に従って、前述の公式(1)を利用し、各タグ、或いは、タグペアとその他の間の関連度を計算し、タグ関連表145の内容を更新する。
注意すべきことは、新しいタグが受信される時、概念空間増分維持器150は、シングルタグ計数表C1とタグペア計数表C2を更新し、これにより、各タグ、或いは、タグペアの計数値の再計算と再比較は必要なく、よって、システムパフォーマンスを改善する。
シングルタグ計数表L1の内容が変化しない場合、概念空間増分維持器150は、新しいタグ(タグペア)だけをタグペア計数表C2に追加し、タグペア計数表L2の更新が必要か判断する。注意すべきことは、本実施例中、シングルタグとタグペアで説明しているが、これに制限するものではない。同時に、3、4、或いは、それ以上のタグを使用することができる。よって、各タグセットの計数値が計算され、タグセット計数表Cnを形成し、所定スレショルド値と比較して、タグセット計数表Lnを形成する。
図6は、本発明の概念空間の更新タグ関連度を示す図である。
入力タグが受信される時、概念空間調整器160は、タグ関連表145に従って、入力タグの好ましい関連度を含むタグをユーザーに提供する。入力タグに関連するタグ(例えば、タグA)が選択されるとき、概念空間調整器160は、公式を用いるか、或いは、プリセット重み付けに従って、タグAと入力タグ間の関連度を調整し、関連調整表165を形成す。本実施形態において、公式は、次の式(2)である。
Figure 0005092165
Aは、シングルタグ計数表C1に記録されるタグ(例えば、タグA)を示し、Bは、タグAに関連するタグペア計数表C2に記録されるタグを示す。よって、概念空間のタグ関連度の更新が完成する。
図7は、本発明の概念空間個人化のタグ重み付け実行を示す図である。
ユーザーが本発明の検索システムにログインする時、サインアップモジュール180は、タグ関連表145に対応する個人プロファイル185を読み出す。タグと個人プロファイル185に記録された対応関連度は、個人プロファイルグラフィックチャートG(図示しない)を形成する。各タグはノードを示し、対応する関連度は、二関連度タグに接続するエッジを示す。タギングモジュール110は、ユーザー入力に従って、新しいタグを得て、新しいタグを個人化概念空間アダプター170に伝送する。新しいタグを受信する時、個人化概念空間アダプター170は、公式により、固定比率で、個人プロファイル185に関連するタグの関連度を減少させる。本実施形態において、公式は次の式(3)である。
Figure 0005092165
受信したタグ(例えば、タグti)がタグ関連表145に記録されない場合、タグtiはタグ関連表145に加えられ、対応するノードは個人プロファイルグラフィックチャートG(図示しない)に加えられる。tiと存在するタグtj間の関連度が計算され、対応するエッジが個人プロファイルグラフィックチャートG(図示しない)に加えられ、ノードtiとtjのエッジは最初の重み付けαが割り与えられる。受信されたタグ(例えば、タグtj)がタグ関連表145に記録される場合、タグ関連表145中のタグtiとtjの関連度が増加し、ノードtiとtjの個人化プロファイルグラフィックチャートG(図示しない)間のエッジが重み付けβにより増加する。システムは、異なる操作190、検索、意見等をユーザーに提供する。
図8は、本発明の概念関連ネットワークに基づくデータタグの構築方法のフローチャートである。
ユーザーにより入力されたタグは、タギングモジュールにより収集され、タグデータ表を形成する(工程81)。各タグの使用回数が、タグデータ表に従って計算され、第一タグ計数表(シングルタグ計数表C1)を形成する(工程82)。第一タグ計数表に記録された各タグの各タグ計数値と第一所定スレショルド値を比較し、第一所定スレショルド値より小さいタグ計数値のタグが捨てられ、第二タグ計数表(シングルタグ計数表L1)を形成する(工程83)。第二タグ計数表に従って、各タグペアの使用回数が計算され、第三タグペア計数表(タグペア計数表C2)を形成する(工程84)。第三タグペア計数表に記録された各タグペアのタグペア計数値と第二所定スレショルド値を比較し、第二所定スレショルド値より小さいタグペア計数値のタグペアが捨てられ、第四タグペア計数表(タグペア計数表L2)を形成する(工程85)。第一、及び、第三タグペア計数表に従って、各タグ、或いは、タグペアとその他の間の関連度が、前述した公式(1)により計算され、タグ関連表を形成する(工程86)。
これにより、概念空間の現在のデータタグ関連の関連操作が完成し、異なるデータタグ間の関連度を決定し、データが検索される時、入力タグに対応する関連データが即時に提供される。
概念関連ネットワークに基づくデータタグの追加の実行、タグ間の関係度の計算、或いは、調整、タグ重み付けの個人化調整は、図4〜図7を参照し、ここに詳述しない。
本発明のシステムと方法は、フロッピーディスク、CD−ROM、ハードドライブ、ファームウェア、或いは、その他の機械読み取り可能な記憶媒体に統合されるプログラムコードの形式を取り、プログラムコードがロードされ、コンピュータ等の機械により実行される時、機械は、具体例を実行する装置となる。本発明の方法と装置は、電気配線、或いは、ケーブル等の伝送媒体、或いは、その他の伝送形式を介して伝送されるプログラムコードの形式で統合され、プログラムコードが受信され、ロードされ、コンピュータ等の機械により実行される時、機械は、具体例を実行する装置となる。一般目的の処理器に実行されるとき、プログラムコードは処理器と結合して、同じように操作する特別な装置を特定のロジック回路に提供する。
本発明では好ましい実施例を前述の通り開示したが、これらは決して本発明に限定するものではなく、当該技術を熟知する者なら誰でも、本発明の精神と領域を脱しない範囲内で各種の変動や潤色を加えることができ、従って本発明の保護範囲は、特許請求の範囲で指定した内容を基準とする。
本発明の概念関連ネットワークに基づくデータタグの構築システムを示す図である。 本発明の概念空間を構築するタグ関連ルールを示す図である。 本発明のタグ計数表の構築を示す図である。 本発明の概念空間の追加データタグを示す図である。 本発明の追加タグ計数表を示す図である。 本発明の概念空間の更新タグ関係を示す図である。 本発明の概念空間個人化のタグ重みを実行する図である。 本発明の概念関連ネットワークに基づくデータ構築方法のフローチャート図である。
符号の説明
110 タギングモジュール
115 タグデータ表
120 シングルタグ生成器
130 タグペア生成器
140 信頼性生成器
145 タグ関連表
150 概念空間増分維持器
160 概念空間調整器
165 関連調整表
170 個人化概念空間アダプター
180 サインアップモジュール
185 個人プロファイル
190 操作
C1、L1 シングルタグ計数表
C2、L2 タグペア計数表

Claims (19)

  1. 概念関連ネットワークに基づくデータタグの構築システムであって、
    コンピュータの入力のための手段を介してユーザーにより入力あるいは選択されたタグを収集し、少なくとも、同時に使用してデータを検索するタグを記憶するタグ領域と、当該タグ領域に対応付けられるコンテンツIDとを有するタグデータ表を形成し、前記コンピュータの記憶のための手段に記憶する前記コンピュータの演算のための手段により実現されるタギングモジュールと、
    前記コンピュータの記憶のための手段に記憶された前記タグデータ表を読み出し、当該タグデータ表に従って、各タグの使用回数を計算し、第一タグ計数表を形成し、前記第一タグ計数表中の各タグの計数値と第一所定スレショルド値を比較し、前記第一所定スレショルド値より小さいタグ計数値のタグを捨てて第二タグ計数表を生成する前記コンピュータの演算のための手段により実現される第一タグ生成器と、
    前記ユーザにより入力あるいは選択された前記タグに基づいて形成された前記タグデータ表及び前記第二タグ計数表に従って、前記データを検索する際に同時に使用されるタグペアの回数を計算し、第三タグペア計数表を形成し、前記第三タグペア計数表中の各タグペアの各タグペア計数値と第二所定スレショルド値を比較し、前記第二所定スレショルド値より小さいタグペア計数値のタグを捨てて第四タグペア計数表を生成する前記コンピュータの演算のための手段により実現される第二タグ生成器と、

    前記第一タグ計数表と前記第三タグペア計数表に従って、各タグ、或いは、タグペアとその他の関連度を次式(1)を用いて計算し、タグ関連表を形成し、前記コンピュータの記憶のための手段に記憶する前記コンピュータの演算のための手段により実現される信頼性生成器と、
    を有することを特徴とする概念関連ネットワークに基づくデータタグの構築システム。
    Figure 0005092165
    但し、Aは、前記第一タグ計数表に記録されるタグを示し、
    Bは、タグAに関連する前記第三タグペア計数表に記録されるタグを示す。
  2. 更に、前記コンピュータの演算のための手段により実現される概念空間増分維持器を有し、当該概念空間増分維持器は、
    受信タグを前記第一タグ計数表に追加し、前記第一タグ計数表中の更新タグの各タグ計数値と前記第一所定スレショルド値を比較して、前記更新タグのタグ計数値が前記第一所定スレショルド値より小さい時に前記第二タグ計数表の内容を変更し、
    もし前記第二タグ計数表の内容が変化した場合、前記第二タグ計数表に従って、更新タグを前記第三タグペア計数表に追加し、前記第三タグペア計数表中の更新タグペアの各タグペア計数値と前記第二所定スレショルド値を比較し、前記第二所定スレショルド値より小さいタグペア計数値のタグペアを捨て、前記第四タグペア計数表を更新する
    ことを特徴とする請求項1に記載の概念関連ネットワークに基づくデータタグの構築システム。
  3. 前記信頼性生成器は、前記第一タグ計数表と前記第三タグペア計数表に従って、各タグ、或いは、タグペアとその他間の関連度を前記式(1)を用いて計算し、前記タグ関連表を更新することを特徴とする請求項2に記載の概念関連ネットワークに基づくデータタグの構築システム。
  4. 前記第二タグ計数表の内容が変化しない場合、前記空間増分維持器は、前記更新タグを前記第三タグペア計数表に追加し、前記第三タグペア計数表中の更新タグペアの各タグペア計数値と前記第二所定スレショルド値を比較し、前記第二所定スレショルド値より小さいタグペア計数値のタグペアを捨て、前記第四タグペア計数表の更新を行うことを特徴とする請求項2に記載の概念関連ネットワークに基づくデータタグの構築システム。
  5. 更に、前記コンピュータの演算のための手段により実現される概念空間調整器を有し、当該概念空間調整器は、前記ユーザーにより入力された少なくとも一つのタグが受信される時、前記タグ関連表に従って、前記入力タグの好ましい関連度を含むタグをユーザーに提供し、コンピュータの入力のための手段を介して前記入力タグに関連する少なくとも一つのタグが選択される時、前記選択タグと前記入力タグ間の関連度を次式(2)を用いて調整し、関連調整表を形成することを特徴とする請求項1に記載の概念関連ネットワークに基づくデータタグの構築システム。
    Figure 0005092165
  6. 更に、
    ユーザーがコンピュータの入力のための手段を介してログインする時、前記タグ関連表に対応する個人プロファイルを読み出す前記コンピュータの演算のための手段により実現されるサインアップモジュールと、
    前記ユーザーにより入力されるタグを読み出し、固定比率により、前記個人プロファイルに関連するタグの関連度を減少させ、前記タグ関連表中に前記入力タグと同様のタグがない場合、前記入力タグを前記個人プロファイルに追加し、前記入力タグと少なくとも一つの存在するタグ間の関連度を計算し、前記入力タグに最初の重み付けする前記コンピュータの演算のための手段により実現される個人化概念空間アダプターと、
    を有することを特徴とする請求項1に記載の概念関連ネットワークに基づくデータタグの構築システム。
  7. 前記タグ関連表が前記入力タグと同様のタグを含む場合、前記個人化概念空間アダプターは、前記入力タグの重み付けを増加することを特徴とする請求項6に記載の概念関連ネットワークに基づくデータタグの構築システム。
  8. 前記第一タグ計数表は、少なくとも、タグ領域と計数領域を含み、各計数領域の値は対応するタグの使用回数を示し、前記第二タグ計数表は、少なくとも、タグ領域と計数領域を含み、各計数領域の値は対応するタグの使用回数を示し、且つ前記第一所定スレショルド値より大きいことを特徴とする請求項1に記載の概念関連ネットワークに基づくデータタグの構築システム。
  9. 前記第三タグペア計数表は、少なくとも、タグ領域と計数領域を含み、各計数領域の値は対応するタグの使用回数を示し、前記第四タグペア計数表は、少なくとも、タグ領域と計数領域を含み、各計数領域の値は対応するタグの使用回数を示し、且つ前記第二所定スレショルド値より大きいことを特徴とする請求項1に記載の概念関連ネットワークに基づくデータタグの構築システム。
  10. 概念関連ネットワークに基づくデータタグの構築方法であって、
    コンピュータの入力のための手段を介してユーザーにより入力あるいは選択されたタグを収集し、少なくとも、同時に使用してデータを検索するタグを記憶するタグ領域と、当該タグ領域に対応付けられるコンテンツIDとを有するタグデータ表を形成し、前記コンピュータの記憶のための手段に記憶する前記コンピュータの演算のための手段により実施される工程と、
    前記コンピュータの記憶のための手段に記憶された前記タグデータ表を読み出し、当該タグデータ表に従って、各タグの使用回数を計算し、第一タグ計数表を形成する前記コンピュータの演算のための手段により実施される工程と、
    前記第一タグ計数表中の各タグの計数値と第一所定スレショルド値をそれぞれ比較する前記コンピュータの演算のための手段により実施される工程と、
    前記第一所定スレショルド値より小さいタグ計数値のタグを捨てて、第二タグ計数表を形成する前記コンピュータの演算のための手段により実施される工程と、
    前記ユーザにより入力あるいは選択された前記タグに基づいて形成された前記タグデータ表及び前記第二タグ計数表に従って、前記データを検索する際に同時に使用されるタグペアの使用回数を計算し、第三タグペア計数表を形成する前記コンピュータの演算のための手段により実施される工程と、
    前記第三タグペア計数表中の各タグペアのタグペア計数値と第二所定スレショルド値を比較する前記コンピュータの演算のための手段により実施される工程と、
    前記第二所定スレショルド値より小さいタグペア計数値のタグペアを捨て、第四タグペア計数表を形成する前記コンピュータの演算のための手段により実施される工程と、
    前記第一タグ計数表と前記第三タグペア計数表に従って、各タグ、或いは、タグペアとその他の関連度を次式(1)を用いて計算し、タグ関連表を形成し、前記コンピュータの記憶のための手段に記憶する前記コンピュータの演算のための手段により実施される工程と、
    を有することを特徴とする概念関連ネットワークに基づくデータタグの構築方法。
    Figure 0005092165
    但し、Aは、前記第一タグ計数表に記録されるタグを示し、
    Bは、タグAに関連する前記第三タグペア計数表に記録されるタグを示す。
  11. 更に、
    更新した受信タグを前記第一タグ計数表に追加する前記コンピュータの演算のための手段により実施される工程と、
    前記第一タグ計数表中の更新タグの各タグ計数値と前記第一所定スレショルド値を比較する前記コンピュータの演算のための手段により実施される工程と、
    前記更新タグの前記タグ計数値が前記第一所定スレショルド値より小さい時に前記第二タグ計数表の内容を変更する前記コンピュータの演算のための手段により実施される工程と、
    前記第二タグ計数表の内容に変化がある場合、前記第二タグ計数表に従って、前記更新タグを前記第三タグペア計数表に追加する前記コンピュータの演算のための手段により実施される工程と、
    前記第三タグペア計数表中の各更新タグペアのタグ計数値と前記第二所定スレショルド値を比較する前記コンピュータの演算のための手段により実施される工程と、
    前記第二所定スレショルド値より小さいタグペア計数値のタグペアを捨てて、前記第四タグペア計数表を更新する前記コンピュータの演算のための手段により実施される工程と、
    を有することを特徴とする請求項10に記載の概念関連ネットワークに基づくデータタグの構築方法。
  12. 更に、
    前記第一、第三タグペア計数表に従って、各タグ、或いは、タグペアとその他間の関連度を前記式(1)を用いて計算し、前記タグ関連表を更新する前記コンピュータの演算のための手段により実施される工程と、
    前記第二タグ計数表の内容が変化しない場合、前記更新タグを前記第三タグペア計数表に追加して、前記第三タグペア計数表中の更新タグペアの各タグペア計数値と前記第二所定スレショルド値を比較し、前記第二所定スレショルド値より小さいタグペア計数値のタグペアを捨て、前記第四タグペア計数表の更新を行う前記コンピュータの演算のための手段により実施される工程を含むことを特徴とする請求項11に記載の概念関連ネットワークに基づくデータタグの構築方法。
  13. 更に、
    前記ユーザーにより入力された少なくとも一つのタグが受信される時、前記タグ関連表に従って、好ましい関連度を有するタグを前記入力タグに提供する前記コンピュータの演算のための手段により実施される工程と、
    前記コンピュータの入力のための手段を介して前記入力タグに関連する少なくとも一つのタグが選択される時、前記選択されたタグと前記入力タグ間の関連度を次式(2)を用いて調整し、関連調整表を形成する前記コンピュータの演算のための手段により実施される工程と、
    を含むことを特徴とする請求項10に記載の概念関連ネットワークに基づくデータタグの構築方法。
    Figure 0005092165
  14. 更に、
    ユーザーがコンピュータの入力のための手段を介してログインする時、前記タグ関連表に対応する個人プロファイルを読み出す前記コンピュータの演算のための手段により実施される工程と、
    前記ユーザーにより入力されたタグを読み取り、固定比率により、前記個人プロファイルに関連する各タグの関連度を減少させる前記コンピュータの演算のための手段により実施される工程と、
    前記タグ関連表中に前記入力タグと同じタグがない場合、前記入力タグを前記個人プロファイルに追加する前記コンピュータの演算のための手段により実施される工程と、
    前記入力タグと少なくとも一つの存在するタグ間の関連度を計算する前記コンピュータの演算のための手段により実施される工程と、
    最初の重み付けを前記入力タグに割り当てる前記コンピュータの演算のための手段により実施される工程と、
    を有することを特徴とする請求項10に記載の概念関連ネットワークに基づくデータタグの構築方法。
  15. 概念関連ネットワークに基づくデータタグ構築方法を提供するコンピュータプログラムを記録するコンピュータ読み取り可能記録媒体であって、コンピュータにより実行する工程は、
    コンピュータの入力のための手段を介してユーザーにより入力あるいは選択されるタグを収集し、少なくとも、同時に使用してデータを検索するタグを記憶するタグ領域と、当該タグ領域に対応付けられるコンテンツIDとを有するタグデータ表を形成し、前記コンピュータの記憶のための手段に記憶する前記コンピュータの演算のための手段により実施される工程と、
    前記コンピュータの記憶のための手段に記憶された前記タグデータ表を読み出し、当該タグデータ表に従って、各タグの使用回数を計算し、第一タグ計数表を形成する前記コンピュータの演算のための手段により実施される工程と、
    前記第一タグ計数表中の各タグの計数値と第一所定スレショルド値をそれぞれ比較する前記コンピュータの演算のための手段により実施される工程と、
    前記第一所定スレショルド値より小さいタグ計数値のタグを捨てて、第二タグ計数表を形成する前記コンピュータの演算のための手段により実施される工程と、
    前記ユーザにより入力あるいは選択された前記タグに基づいて形成された前記タグデータ表及び前記第二タグ計数表に従って、前記データを検索する際に同時に使用されるタグペアの使用回数を計算し、第三タグペア計数表を形成する前記コンピュータの演算のための手段により実施される工程と、
    前記第三タグペア計数表中の各タグペアのタグペア計数値と第二所定スレショルド値を比較する前記コンピュータの演算のための手段により実施される工程と、
    前記第二所定スレショルド値より小さいタグペア計数値のタグペアを捨て、第四タグペア計数表を形成する前記コンピュータの演算のための手段により実施される工程と、
    前記第一タグ計数表と前記第三タグペア計数表に従って、各タグ、或いは、タグペアとその他の関連度を次式(1)を用いて計算し、タグ関連表を形成し、前記コンピュータの記憶のための手段に記憶する前記コンピュータの演算のための手段により実施される工程と、
    を有することを特徴とするコンピュータ読み取り可能記録媒体。
    Figure 0005092165
    但し、Aは、前記第一タグ計数表に記録されるタグを示し、
    Bは、タグAに関連する前記第三タグペア計数表に記録されるタグを示す。
  16. 更に、
    更新した受信タグを前記第一タグ計数表に追加する前記コンピュータの演算のための手段により実施される工程と、
    前記第一タグ計数表中の更新タグの各タグ計数値と前記第一所定スレショルド値を比較する前記コンピュータの演算のための手段により実施される工程と、
    前記更新タグの前記タグ計数値が前記第一所定スレショルド値より小さい時に前記第二タグ計数表の内容を変更する前記コンピュータの演算のための手段により実施される工程と、
    前記第二タグ計数表の内容に変化がある場合、前記第二タグ計数表に従って、前記更新タグを前記第三タグペア計数表に追加する前記コンピュータの演算のための手段により実施される工程と、
    前記第三タグペア計数表中の各更新タグペアのタグ計数値と前記第二所定スレショルド値を比較する前記コンピュータの演算のための手段により実施される工程と、
    前記第二所定スレショルド値より小さいタグペア計数値のタグペアを捨てて、前記第四タグペア計数表を更新する前記コンピュータの演算のための手段により実施される工程と、
    を有することを特徴とする請求項15に記載のコンピュータ読み取り可能記録媒体。
  17. 更に、
    前記第一、第三タグペア計数表に従って、各タグ、或いは、タグペアとその他間の関連度を前記式(1)を用いて計算し、前記タグ関連表を更新する前記コンピュータの演算のための手段により実施される工程と、
    前記第二タグ計数表の内容が変化しない場合、前記更新タグを前記第三タグペア計数表に追加して、前記第三タグペア計数表中の更新タグペアの各タグペア計数値と前記第二所定スレショルド値を比較し、前記第二所定スレショルド値より小さいタグペア計数値のタグペアを捨て、前記第四タグペア計数表の更新を行う前記コンピュータの演算のための手段により実施される工程を含むことを特徴とする請求項16に記載のコンピュータ読み取り可能記録媒体。
  18. 更に、
    前記ユーザーにより入力された少なくとも一つのタグが受信される時、前記タグ関連表に従って、好ましい関連度を有するタグを前記入力タグに提供する前記コンピュータの演算のための手段により実施される工程と、
    前記コンピュータの入力のための手段を介して前記入力タグに関連する少なくとも一つのタグが選択される時、前記選択されたタグと前記入力タグ間の関連度を次式(2)を用いて調整し、関連調整表を形成する前記コンピュータの演算のための手段により実施される工程と、
    を含むことを特徴とする請求項15に記載のコンピュータ読み取り可能記録媒体。
    Figure 0005092165
  19. 更に、
    ユーザーがコンピュータの入力のための手段を介してログインする時、前記タグ関連表に対応する個人プロファイルを読み出す前記コンピュータの演算のための手段により実施される工程と、
    前記ユーザーにより入力されたタグを読み取り、固定比率により、前記個人プロファイルに関連する各タグの関連度を減少させる前記コンピュータの演算のための手段により実施される工程と、
    前記タグ関連表中に前記入力タグと同じタグがない場合、前記入力タグを前記個人プロファイルに追加する前記コンピュータの演算のための手段により実施される工程と、
    前記入力タグと少なくとも一つの存在するタグ間の関連度を計算する前記コンピュータの演算のための手段により実施される工程と、
    最初の重み付けを前記入力タグに割り当てる前記コンピュータの演算のための手段により実施される工程と、
    を有することを特徴とする請求項15に記載のコンピュータ読み取り可能記録媒体。
JP2008169066A 2007-10-16 2008-06-27 データ構築方法とシステム Expired - Fee Related JP5092165B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW096138639 2007-10-16
TW096138639A TWI356315B (en) 2007-10-16 2007-10-16 Method and system for constructing data tag based

Publications (2)

Publication Number Publication Date
JP2009099124A JP2009099124A (ja) 2009-05-07
JP5092165B2 true JP5092165B2 (ja) 2012-12-05

Family

ID=40535228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008169066A Expired - Fee Related JP5092165B2 (ja) 2007-10-16 2008-06-27 データ構築方法とシステム

Country Status (3)

Country Link
US (1) US8073849B2 (ja)
JP (1) JP5092165B2 (ja)
TW (1) TWI356315B (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8271474B2 (en) 2008-06-30 2012-09-18 Yahoo! Inc. Automated system and method for creating a content-rich site based on an emerging subject of internet search
US8001125B1 (en) * 2008-07-30 2011-08-16 Intuit Inc. Method and apparatus for defining relationships between tags
CN101605141A (zh) * 2008-08-05 2009-12-16 天津大学 基于语义的Web服务关系网络系统
US8407216B2 (en) * 2008-09-25 2013-03-26 Yahoo! Inc. Automated tagging of objects in databases
US8713009B2 (en) * 2008-09-25 2014-04-29 Yahoo! Inc. Associating objects in databases by rate-based tagging
KR101010997B1 (ko) * 2009-03-24 2011-01-26 한국과학기술원 다종 웹 서버 간 유사 사용자 추출 시스템 및 그 방법
CN101957828B (zh) * 2009-07-20 2013-03-06 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法和装置
US8356025B2 (en) * 2009-12-09 2013-01-15 International Business Machines Corporation Systems and methods for detecting sentiment-based topics
TWI486797B (zh) * 2010-03-09 2015-06-01 Alibaba Group Holding Ltd Methods and devices for sorting search results
US8793285B2 (en) * 2010-09-20 2014-07-29 Business Objects Software Ltd. Multidimensional tags
CN102236735B (zh) * 2011-06-30 2014-04-02 内蒙古电力勘测设计院 电力设计中处理资料关系的方法和系统
US9111291B2 (en) * 2012-06-19 2015-08-18 Yahoo! Inc. System and method for providing sponsored applications in email
TWI475413B (zh) * 2013-04-24 2015-03-01 Inventec Corp 建立資料關聯系統及其方法
US10169373B2 (en) * 2014-08-26 2019-01-01 Sugarcrm Inc. Retroreflective object tagging
US10146758B1 (en) * 2016-09-30 2018-12-04 Amazon Technologies, Inc. Distributed moderation and dynamic display of content annotations
US11010302B2 (en) * 2016-10-05 2021-05-18 Intel Corporation General purpose input/output data capture and neural cache system for autonomous machines
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN107292365B (zh) * 2017-06-27 2021-01-08 百度在线网络技术(北京)有限公司 商品标签的绑定方法、装置、设备及计算机可读存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6421675B1 (en) * 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
US6327590B1 (en) * 1999-05-05 2001-12-04 Xerox Corporation System and method for collaborative ranking of search results employing user and group profiles derived from document collection content analysis
US20020073079A1 (en) * 2000-04-04 2002-06-13 Merijn Terheggen Method and apparatus for searching a database and providing relevance feedback
US6633868B1 (en) * 2000-07-28 2003-10-14 Shermann Loyall Min System and method for context-based document retrieval
US7130848B2 (en) * 2000-08-09 2006-10-31 Gary Martin Oosta Methods for document indexing and analysis
US6925433B2 (en) * 2001-05-09 2005-08-02 International Business Machines Corporation System and method for context-dependent probabilistic modeling of words and documents
US20020178223A1 (en) * 2001-05-23 2002-11-28 Arthur A. Bushkin System and method for disseminating knowledge over a global computer network
JP4167855B2 (ja) 2002-06-20 2008-10-22 富士通株式会社 情報マップ作成方法
KR100756921B1 (ko) * 2006-02-28 2007-09-07 한국과학기술원 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
WO2007103807A2 (en) * 2006-03-03 2007-09-13 Amazon Technologies, Inc. Creation and utilization of relational tags
US7685200B2 (en) * 2007-03-01 2010-03-23 Microsoft Corp Ranking and suggesting candidate objects
US8046436B2 (en) * 2007-03-16 2011-10-25 Yahoo! Inc. System and method of providing context information for client application data stored on the web
US8019772B2 (en) * 2007-12-05 2011-09-13 International Business Machines Corporation Computer method and apparatus for tag pre-search in social software

Also Published As

Publication number Publication date
US8073849B2 (en) 2011-12-06
US20090100078A1 (en) 2009-04-16
TWI356315B (en) 2012-01-11
JP2009099124A (ja) 2009-05-07
TW200919220A (en) 2009-05-01

Similar Documents

Publication Publication Date Title
JP5092165B2 (ja) データ構築方法とシステム
KR101377389B1 (ko) 다차원 검색 시스템, 다차원 검색을 수행하는 컴퓨터 구현 방법 및 컴퓨터 실행가능 시스템
US7861151B2 (en) Web site structure analysis
US10078802B2 (en) Method and system of discovering and analyzing structures of user groups in microblog
Huang et al. Topic detection from large scale of microblog stream with high utility pattern clustering
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
JP2006018829A (ja) 自動分類生成
CN111382276B (zh) 一种事件发展脉络图生成方法
US20090083266A1 (en) Techniques for tokenizing urls
CN103778206A (zh) 一种网络服务资源的提供方法
Obaid et al. Semantic web and web page clustering algorithms: a landscape view
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN105159898A (zh) 一种搜索的方法和装置
CN110162580A (zh) 基于分布式预警平台的数据挖掘与深度分析方法及应用
KR20120136677A (ko) 가중치 지지도에 기반한 데이터 스트림 빈발 패턴 추출 방법 및 가중치 지지도에 기반한 데이터 스트림 빈발 패턴 데이터베이스 트리 구조
CN114491232B (zh) 信息查询方法、装置、电子设备和存储介质
Chehreghani et al. Density link-based methods for clustering web pages
Annam et al. Entropy based informative content density approach for efficient web content extraction
KR20200000208A (ko) 소셜 데이터 수집 분석 시스템
CN113868481A (zh) 组件获取方法、装置及电子设备和存储介质
Viermetz et al. Tracking topic evolution in news environments
JP5810937B2 (ja) 管理プログラムおよび装置
CN101452462A (zh) 用于自动建立网络上信息对象之间层次结构的方法和系统
Ye et al. Detecting and Partitioning Data Objects in Complex Web Pages
CN113553825B (zh) 一种电子公文脉络关系分析方法及系统

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110222

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110523

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110526

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111206

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120306

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120821

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120830

R150 Certificate of patent or registration of utility model

Ref document number: 5092165

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150928

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees