JP5577497B2 - テキストデータ処理装置およびプログラム - Google Patents

テキストデータ処理装置およびプログラム Download PDF

Info

Publication number
JP5577497B2
JP5577497B2 JP2009098047A JP2009098047A JP5577497B2 JP 5577497 B2 JP5577497 B2 JP 5577497B2 JP 2009098047 A JP2009098047 A JP 2009098047A JP 2009098047 A JP2009098047 A JP 2009098047A JP 5577497 B2 JP5577497 B2 JP 5577497B2
Authority
JP
Japan
Prior art keywords
category
character string
record
text data
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009098047A
Other languages
English (en)
Other versions
JP2010250480A (ja
Inventor
宏二 伊藤
考司 河原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wingarc1st Inc
Original Assignee
Wingarc1st Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wingarc1st Inc filed Critical Wingarc1st Inc
Priority to JP2009098047A priority Critical patent/JP5577497B2/ja
Priority to US13/263,977 priority patent/US20120030204A1/en
Priority to EP10764306.6A priority patent/EP2420943A4/en
Priority to CN201080016512.7A priority patent/CN102395964B/zh
Priority to PCT/JP2010/052358 priority patent/WO2010119720A1/ja
Publication of JP2010250480A publication Critical patent/JP2010250480A/ja
Application granted granted Critical
Publication of JP5577497B2 publication Critical patent/JP5577497B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、テキストデータ処理装置およびプログラムに関し、特に、テキストデータをその名義尺度であるカテゴリで分類することにより、テキストデータを対象として統計的な分析処理を可能にする技術に関するものである。
従来、アンケートの自由回答、コールセンタやWebサイトに寄せられるユーザからの定性情報、掲示板への書き込みなどを解析することによって、何らかの特徴や傾向を把握したり、顧客や市場のニーズを抽出したり、自社製品への不満点を分析して有効な対処法を検討したりすることが一般的に行われている。このような分析をコンピュータで行う場合、大量の電子化されたテキストデータを分析する処理が必要となる。ところが、テキストデータ自体のままでは、当該テキストデータの集合を特徴付ける有用な情報を抽出したり、統計的な手法で計数するなどして人間にとって有用な情報を得たりすることができない。
これに対して、テキストマイニングと呼ばれるテキストデータ分析手法が存在する。テキストマイニングとは、定型化されていないテキストデータ(通常の自然文)を単語やフレーズなどに分割し、その出現頻度や相関関係などを解析することで、テキストに込められた意味や一定の知見などを抽出する手法である。ところが、このテキストマイニングは、ユーザに高度な統計解析の知識を要求するため、これが普及の阻害要因となっている。また、テキストマイニングは、処理に相応の準備が必要となるため、対話型にて解析手法を変えて試行錯誤的に行う分析(以下、対話型分析という)のサイクルを迅速に繰り返すことが難しい。
一般に、対話型分析を行うことが可能な手法として、OLAP(online analytical processing)と呼ばれる手法がある。OLAPは、ユーザがデータベースを多次元的に解析し、その結果を視覚化するシステムの概念を言う。OLAPによる多次元分析は、例えば地域別、製品別といったカテゴリ別の軸を設定し、軸を入れ替えて分析した結果を比較する「ダイス」、あるカテゴリに関するデータの時系列的な推移を分析する「スライス」、階層化されたカテゴリのデータを段階的に掘り下げて分析する「ドリルダウン」、当該ドリルダウンと逆方向の分析である「ドリルアップ」などの操作を繰り返すことで行われる。分析が必要だと考えているユーザ自身が試行錯誤しながら、直接データをダイナミックに操作するのがOLAPの特徴である。
ただし、テキストデータは、そのままではカテゴリ化されていないため、OLAP操作の対象とならない。これに対して、大量の電子化されたテキストデータの文章を分類(カテゴリ化)し、統計的な処理を可能にする技術が提案されている(例えば、特許文献1を参照)。この特許文献1に記載の技術では、非構造データである自然文のテキスト情報を解釈し、当該テキスト情報を集計処理可能なカテゴリ情報に変換する。そして、そのカテゴリ情報を表形式の構造データに変換し、別のカテゴリに関する構造データを有するリレーショナルデータベース(RDB)に統合する。
このように、特許文献1では、テキストデータをOLAPの枠組みに適合する方法を提供している。すなわち、OLAPの世界で普及しているRDBにテキストデータのカテゴリ化機能を組み込むことによって、OLAPの優れた分析能力をテキストデータの分析に活用できるようにしている。ここで、RDBは、任意のSQL(Structured Query Language)文を生成することにより、分析の対象とするデータを自由に選んで抽出することが可能である。このようなRDBの性質を利用して非定型の分析を行うOLAPの枠組みは、非定型OLAPと呼ばれる。特許文献1の技術は、テキストデータを非定型OLAPの枠組みに適合するための技術である。このため、テキストデータからカテゴリ化された構造データを含めて、RDBを構成する複数の構造データの中から任意の組み合わせを選んで統計的な分析を行うことも可能である。
特開2006−509307号公報
しかしながら、上記特許文献1に記載の技術では、テキストデータから変換されるカテゴリ情報がプログラムによって固定されている。すなわち、テキストデータがカテゴリ化されてRDBに組み込まれた後は、その組み込まれたデータを用いてRDBの対話型分析を行うことが可能であるが、テキストデータをどのようにカテゴリ化するかという場面においては、対話型にて試行錯誤的に操作をすることができないという問題があった。
本発明は、このような問題を解決するために成されたものであり、テキストデータを対話型にて自由自在にカテゴリ化でき、簡単かつ迅速に試行錯誤的な分析を繰り返すことのできるテキストデータ分析手法を提供することを目的とする。
上記した課題を解決するために、本発明では、テキストデータに含まれる文字列が、パラメータとして与えられたメンバー文字列の何れかに一致するか否かを解析し、一致したメンバー文字列が属しているカテゴリの名義尺度のパラメータとして与えられたカテゴリ文字列をレコード毎に取得する。そして、当該レコード毎に取得したカテゴリ文字列をレコード識別子と共に格納して一時表を生成し、当該生成した一時表と元表とを表結合するようにしている。
ここで、テキストデータのカテゴリ化は、以下のようにして行う。すなわち、元表のレコード毎に、元表に格納されたテキストデータを検索し、テキストデータに含まれる文字列が1以上のメンバー文字列の何れかと一致した場合に、当該一致したメンバー文字列の名義尺度である1以上のカテゴリ文字列のリストを区切り記号で区切って返すように定義された第1の関数に従って演算を行うことにより、テキストデータをカテゴリ文字列に変換する。
また、一時表の生成に関しては、区切り記号で区切られて列挙された1以上のカテゴリ文字列を一時表の各レコードに分けてレコード識別子と共に格納するように定義された第2の関数に従って演算を行うことにより、一時表を生成する
上記のように構成した本発明によれば、テキストデータから変換されるカテゴリ文字列をパラメータによって任意に変えることができる。また、テキストデータをカテゴリ文字列に変換する際の一致判定に用いるカテゴリのメンバー文字列もパラメータによって任意に変えることができる。このため、カテゴリ文字列やカテゴリに属するメンバー文字列を試行錯誤的に変えながら、テキストデータを対話型にて自由自在にカテゴリ化することができる。また、テキストデータから変換されたカテゴリ文字列がリレーショナルデータベースに統合されるので、当該カテゴリ文字列を項目の1つとして含むリレーショナルデータベースに対する分析のための操作も対話型にて試行錯誤的に行うことができる。これにより、テキストデータの試行錯誤的な分析を簡単かつ迅速に繰り返すことが可能となる。
本実施形態によるテキストデータ処理装置の機能構成例を示すブロック図である。 RDBに格納されている元表の例を示す図である。 例1のSQL文に従ってテキストデータをカテゴリ化した結果を示す図である。 例2のSQL文に従って本実施形態の一時表生成部により生成された一時表(カテゴリ表)を示す図である。 例2のSQL文に従って本実施形態の表結合部により一時表と元表とを内部結合した結果の表を示す図である。 例2のSQL文に従ってグルーピング演算を実行した結果を示す図である。 例3のSQL文に従って本実施形態の一時表生成部により生成された一時表(カテゴリ表)を示す図である。 例3のSQL文に従って本実施形態の表結合部により一時表と元表とを内部結合した結果の表を示す図である。 例3のSQL文に従ってグルーピング演算を実行した結果を示す図である。 例4のSQL文に従って本実施形態の一時表生成部により生成された一時表(カテゴリ表)を示す図である。 例4のSQL文に従って本実施形態の表結合部により一時表と元表とを内部結合した結果の表を示す図である。 例4のSQL文に従ってグルーピング演算を実行した結果を示す図である。
以下、本発明の一実施形態を図面に基づいて説明する。図1は、本実施形態によるテキストデータ処理装置の機能構成例を示すブロック図である。図1に示すように、本実施形態のテキストデータ処理装置10は、その機能構成として、パラメータ設定部1、カテゴリ化部2および統合部3を備えている。統合部3は、一時表生成部11および表結合部12を備えている。本実施形態のテキストデータ処理装置10は、以下に詳しく説明するように、ユーザが操作部20の操作を通じて任意のパラメータを設定しながら、リレーショナルデータベース(RDB30)に格納されているテキストデータを対話型にて試行錯誤的に分析処理する手段を提供する。
図1において、パラメータ設定部1は、任意の1以上のカテゴリを表すカテゴリ文字列および当該カテゴリに属する1以上の要素を表すメンバー文字列をパラメータとして設定する。具体的には、パラメータ設定部1は、キーボードやマウス等から成る操作部20の操作を通じて入力される1以上のカテゴリ文字列および1以上のメンバー文字列を、後述する関数で使用する引数として設定する。パラメータ設定の際は、1つのカテゴリに対して1以上のメンバーを含ませることが可能であり、そのようなカテゴリと1以上のメンバーのセットを1以上設定することが可能である。
カテゴリ化部2は、RDB30の元表(統合部3により統合処理が行われる前の表)においてレコード識別子(RID)により示されるレコード毎に格納されたテキストデータに含まれる文字列が、パラメータ設定部1により設定されたメンバー文字列の何れかに一致するか否かを解析し、一致したメンバー文字列の名義尺度であるカテゴリ文字列をレコード毎に取得する。
例えば、RDB30においてRID=1の第1レコードに格納されているテキストデータが「商品が破損していた」という文章(自然文)であり、パラメータ設定部1によりカテゴリ文字列として「クレーム」が設定されるとともに、そのカテゴリに属するメンバーとして「破損、混入」の2つが設定されたとする。この場合、カテゴリ化部2は、テキストデータの一部に含まれる「破損」という文字列が、パラメータ設定部1により設定された「破損」というメンバー文字列に一致すると判断し、一致したメンバー文字列の名義尺度である「クレーム」というカテゴリ文字列を取得する。カテゴリ化部2は、このようなテキストデータのカテゴリ化処理を他のRIDのレコードについても同様に行う。
カテゴリ化部2は、上述のようにテキストデータをカテゴリ文字列に変換するカテゴリ化処理を、本出願人が考案したTEXT_CLASSIFY関数(本発明の第1の関数に相当する)の導入によって実現する。このTEXT_CLASSIFY関数は、RDB30の元表のレコード毎に、元表に格納されたテキストデータを検索し、テキストデータに含まれる文字列が1以上のメンバー文字列の何れかと一致した場合に、当該一致したメンバー文字列の名義尺度である1以上のカテゴリ文字列のリストを区切り記号(デリミタ)で区切って返すように定義された関数である。
統合部3は、カテゴリ化部2によりレコード毎に取得されたカテゴリ文字列をRDB30の元表に統合する。カテゴリ文字列の統合処理は、リレーショナルデータベースの関係演算である射影操作または結合操作によって行うことが可能である。一般的な射影操作は、表の中から必要な列だけを指定して、指定した列のデータを表から取り出す操作である。本実施形態では、元表にある列の各レコードのデータに加えて、TEXT_CLASSIFY関数の実行により取得された各レコードのカテゴリ文字列を取り出すことにより、カテゴリ化部2によりレコード毎に取得されたカテゴリ文字列をRDB30の元表に統合する。
また、結合操作は、複数の表から1つの表を生成する操作である。結合操作によってカテゴリ文字列の統合処理を行う場合は、一時表生成部11および表結合部12を用いる。一時表生成部11は、カテゴリ化部2によりレコード毎に取得されたカテゴリ文字列をRIDと共に格納することによって一時表を生成する。表結合部12は、一時表生成部11により生成された一時表とRDB30の元表とをRIDをキーとして表結合する。
一時表生成部11は、上述のようにカテゴリ文字列から一時表を生成する処理を、本出願人が考案したTEXT_EXTRACT関数(本発明の第2の関数に相当する)の導入によって実現する。このTEXT_EXTRACT関数は、デリミタで区切られて列挙された1以上のカテゴリ文字列のリストを行方向(一時表の各レコード)に分けてRIDと共に格納するように定義された関数である。
以上に説明した本実施形態によるテキストデータ処理装置10の各機能構成ブロックは、ハードウェア構成、DSP、ソフトウェアの何れによっても実現することが可能である。例えばソフトウェアによって実現する場合、本実施形態のテキストデータ処理装置10は、実際にはコンピュータのCPUあるいはMPU、RAM、ROMなどを備えて構成され、RAMやROMに記憶されたプログラムが動作することによって実現できる。
以下に、上記のように構成した本実施形態によるテキストデータ処理装置10の具体的な動作例を説明する。ここでは、説明の便宜のためにリレーショナルデータベース操作の標準コンピュータ言語であるSQL言語を使用する。ただし、本発明においては、リレーショナル代数モデルに準拠した直交性を有するリレーショナルデータベース操作が必須の要件であって、SQL言語を必須の要件とする訳ではない。
図2は、RDB30に格納されている元表の例を示す図である。図2に示す例は、複数の消費者から受領した問合せの内容を示す問合せ情報表であり、1つのレコードに1つの問合せ内容が格納されている。各レコードには属性項目としてRID、地域、名前、購入商品、お問合せ内容、お問合せ日が含まれている。このうち、お問合せ内容は、消費者が自由に記載した自然文がテキストデータとして格納される属性項目である。本実施形態では、このお問合せ内容の属性項目に格納されたテキストデータを名義尺度にカテゴリ化して分析する。その際、TEXT_CLASSIFY関数およびTEXT_EXTRACT関数を適宜用いることにより、以下に述べるような様々な分析を試行錯誤的に行うことが可能である。
例1.TEXT_CLASSIFY関数でグループ射影列を作成する例
この場合におけるSQL文の例を以下に示す。
SELECT
TEXT_CLASSIFY( ---- (1)
問合せ情報表.お問合せ内容, ---- (2)
'クレーム' : ['破損', '混入', '変', '色'], ---- (3)
'異物' : ['虫', 'ゴミ', '金属', '髪'], ---- (4)
'その他') グループ, ---- (5)
RID, 地域, 名前, 購入商品, お問合せ内容, お問合せ日 ---- (6)
FROM 問合せ情報表 ---- (7)
上記SQL文の各行(1)〜(7)の意味は以下の通りである。
(1) 第1射影カラムに行単位処理のTEXT_CLASSIFY関数を指定。行単位処理というのは、レコード毎に処理を行っていくことを意味する。
(2) 第1引数として、「問合せ情報表」(元表)のテキストデータ項目である「お問合せ内容」を指定。
(3) 第2引数としてカテゴリの第1組を指定。カテゴリは'クレーム'、所属メンバーの組は['破損', '混入', '変', '色']と定義。
(4) 第3引数としてカテゴリの第2組を指定。カテゴリは'異物'、所属メンバーの組は['虫', 'ゴミ', '金属', '髪']と定義。
(5) 第4引数として例外カテゴリを指定。また、第1射影カラムで指定したTEXT_CLASSIFY関数の代替項目名として「グループ」を指定。例外カテゴリは'その他'と定義。例外カテゴリとは、テキストデータに含まれる文字列が行(3)(4)で定義されたカテゴリに属する各メンバーの何れにも該当しなかった場合に代替するカテゴリのことを指す。
(6) 第2射影カラム以降は、「問合せ情報表」の各属性項目を指定。
(7) 表参照として「問合せ情報表」(元表)を指定。
上述のSQL文において、行(1)〜(5)は、TEXT_CLASSIFY関数により「お問合せ内容」のテキストデータをカテゴリ文字列に変換し、これを「グループ」という新しい属性項目のデータとして取得することを意味する。SQL文の残りの行は、TEXT_CLASSIFY関数により取得された「グループ」という属性項目のデータと、行(6)で指定される各属性項目のデータとを行(7)で指定された問合せ情報表の各列のデータとして取り出すことを意味する。図3は、このSQL文の実行結果を示す図である。
図3において、例えば、RID=1の第1レコードにおいて「お問合せ内容」の属性項目に格納されているテキストデータは、「商品が破損していた」という文章(自然文)である。また、このテキストデータに含まれる「破損」という文字列が、行(3)において第2引数として定義されたメンバーの中にある「破損」という文字列と一致する。このため、RID=1の第1レコードにおいては、「破損」というメンバー文字列の名義尺度として「クレーム」というカテゴリ文字列が取得され、最初の列(第1射影カラム)に追加された「グループ」という新しい属性項目の第1レコードのデータとして元表に統合される。
また、RID=2の第2レコードにおいて「お問合せ内容」の属性項目に格納されているテキストデータは、「金属が中に混入していた」という文章(自然文)である。また、テキストデータに含まれる「混入」という文字列が、行(3)において第2引数として定義されたメンバーの中にある「混入」という文字列と一致する。さらに、このテキストデータに含まれる「金属」という文字列が、行(4)において第3引数として定義されたメンバーの中にある「金属」という文字列と一致する。このため、RID=2の第2レコードにおいては、「混入」というメンバー文字列の名義尺度として「クレーム」というカテゴリ文字列が、「金属」というメンバー文字列の名義尺度として「異物」というカテゴリ文字列が取得され、第1射影カラムの「グループ」という新しい属性項目の第2レコードのデータとして元表に統合される。
RID=3〜6のレコードについても同様の処理によりカテゴリ文字列が取得され、第1射影カラムの「グループ」という新しい属性項目のデータとして元表に統合される。なお、RID=6の第6レコードについては、「お問合せ内容」の属性項目に格納されているテキストデータが「シールがはがれにくかった」という文章(自然文)であり、この中には「クレーム」のカテゴリに属するメンバー文字列も「異物」のカテゴリに属するメンバー文字列も含まれていない。このため、RID=6の第6レコードにおいては、「その他」の例外カテゴリ文字列が取得される。
すなわち、RID=1〜6の各レコードに関して、TEXT_CLASSIFY関数の戻り値であるカテゴリリストは以下の通りとなり、これらの戻り値で示されるカテゴリ文字列が「グループ」という属性項目のデータとして元表に統合される。
RID=1 戻り値=['クレーム']
RID=2 戻り値=['クレーム', '異物']
RID=3 戻り値=['クレーム']
RID=4 戻り値=['クレーム']
RID=5 戻り値=['異物']
RID=6 戻り値=['その他']
例2.TEXT_CLASSIFY関数とTEXT_EXTRACT関数とで1次元カテゴリ集約表を作成する例
この場合におけるSQL文の例を以下に示す。
SELECT
カテゴリ表.グループ1 グループ1,
COUNT(DISTINCT問合せ情報表.RID) 出現度数 ---- (1)
FROM
問合せ情報表, ---- (2)
TEXT_EXTRACT( ---- (3)
問合せ情報表, ---- (4)
RID, ---- (5)
TEXT_CLASSIFY( ---- (6)
問合せ情報表.お問合せ内容, ---- (7)
'クレーム' : ['破損', '混入', '変', '色'], ---- (8)
'異物' : ['虫', 'ゴミ', '金属', '髪'], ---- (9)
'その他') グループ1 ---- (10)
) カテゴリ表 ---- (11)
WHERE問合せ情報表.RID = カテゴリ表.RID ---- (12)
GROUP BY カテゴリ表.グループ1 ---- (13)
上記SQL文の各行(1)〜(13)の意味は以下の通りである。
(1) 射影カラムに「カテゴリ表.グループ1」、その代替項目名に「グループ1」を指定。また、RIDの重複除去指定のCOUNT関数、その代替項目名に「出現度数」を指定。
(2) 表参照の第1表に「問合せ情報表」(元表)を指定。
(3) 表参照の第2表にTEXT_EXTRACT関数を指定。
(4) TEXT_EXTRACT関数の第1引数として「問合せ情報表」(元表)を指定。
(5) TEXT_EXTRACT関数の第2引数として問合せ情報表のレコード識別子(RID)を指定。TEXT_EXTRACT関数の結合項目名は自動的に同名(RID)となる。
(6) TEXT_EXTRACT関数の第3引数としてTEXT_CLASSIFY関数を指定。
(7)〜(10) TEXT_CLASSIFY関数の第1引数から第4引数は、「例1.TEXT_CLASSIFY関数でグループ射影列を作成する例」の第1引数から第4引数と同じ。ただし、返り値の代替項目名として「グループ1」を指定。
(11) TEXT_EXTRACT関数の表参照代替名を「カテゴリ表」と指定。
(12) 問合せ情報表とカテゴリ表をRIDで内部結合するように指定。
(13) 結合した結果表を対象に「カテゴリ表.グループ1」でグルーピング演算するように指定。
このSQL文では、FROM句における表参照の評価から処理が開始される。この例では、表参照の関数としてTEXT_EXTRACT関数があり、行単位処理の関数としてTEXT_CLASSIFY関数がある。これら2つの関数は、行(3)から行(11)にかけてTEXT_EXTRACT(…,TEXT_CLASSIFY(…)…)の呼び出し関係になっている。カテゴリ化部2は、TEXT_CLASSIFY関数の処理を行単位に実行し、カテゴリリストを戻り値として返す。得られるカテゴリリストは上述の例1の場合と同じである。
また、一時表生成部11は、TEXT_CLASSIFY関数の戻り値を引数として、TEXT_EXTRACT関数の表参照処理を実行する。すなわち、一時表生成部11は、表参照に関する行単位処理(問合せ情報表, RID, ['グループ1'])を実行する。この表参照処理は、問合せ情報表のRIDと 、属性項目「グループ1」で示されるTEXT_CLASSIFY関数の戻り値であるカテゴリ文字列とを組にして一時表の各レコードに挿入するという処理を行単位で行うことを意味する。ここで、組の第2要素であるカテゴリ文字列が複数の要素(例えば、RID=2の場合の['クレーム', '異物'])を持つ場合は、個々の要素を取り出して、組[問合せ情報表.RID, カテゴリリストの第1要素]、組[問合せ情報表.RID, カテゴリリストの第2要素]の如く独立したレコードとして挿入する。全ての行(レコード)について表参照処理を行うことでTEXT_EXTRACT関数の処理が完了し、一時表が完成する。TEXT_EXTRACT関数が返す一時表は、行(11)で指定される表参照代替名「カテゴリ表」で参照することができる。この例において一時表生成部11により生成される一時表(カテゴリ表)は、図4に示す通りである。
SQL文の行(12)は、表結合部12の処理を表す。表結合部12は、RDB30の元表(図2の問合せ情報表)と、一時表生成部11により生成された一時表(図4のカテゴリ表)とをRIDで内部結合する。内部結合した結果の表は、図5に示す通りである。また、SQL文の行(13)は、行(1)で示されるグルーピング演算を実行することを意味する。この例で示すグルーピング演算は、表結合部12により生成された内部結合表のうちカテゴリ表の部分において、属性項目「グループ1」で示される各カテゴリの出現度数をカウントするというものである。このグルービング演算の実行結果は、図6に示す通りである。
例3.TEXT_CLASSIFY関数とTEXT_EXTRACT関数とで絞り込み2次元カテゴリ集約表を作成する例(ドリルダウンに相当)
この場合におけるSQL文の例を以下に示す。
SELECT
カテゴリ表.グループ1 グループ1,
カテゴリ表.グループ2 グループ2,
COUNT(DISTINCT問合せ情報表.RID) 出現度数 ---- (1)
FROM
問合せ情報表, ---- (2)
TEXT_EXTRACT( ---- (3)
問合せ情報表, ---- (4)
RID, ---- (5)
TEXT_CLASSIFY( ---- (6)
問合せ情報表.お問合せ内容, ---- (7)
'クレーム' : ['破損', '混入', '変', '色'], ---- (8)
'異物' : ['虫', 'ゴミ', '金属', '髪'], ---- (9)
'その他') グループ1, ---- (10)
TEXT_CLASSIFY( ---- (11)
問合せ情報表.お問合せ内容, ---- (12)
'異物' : ['虫', 'ゴミ', '金属', '髪'], ---- (13)
'その他') グループ2 ---- (14)
) カテゴリ表 ---- (15)
WHERE問合せ情報表.RID = カテゴリ表.RID
AND カテゴリ表.グループ1= 'クレーム' ---- (16)
GROUP BY カテゴリ表.グループ1, カテゴリ表.グループ2 ---- (17)
上記SQL文の各行(1)〜(17)の意味は以下の通りである。
(1) 第1射影カラムに「カテゴリ表.グループ1」、その代替項目名に「グループ1」を指定。また、第2射影カラムに「カテゴリ表.グループ2」、その代替項目名に「グループ2」を指定。さらに、RIDの重複除去指定のCOUNT関数、その代替項目名に「出現度数」を指定。
(2) 表参照の第1表に「問合せ情報表」(元表)を指定。
(3) 表参照の第2表にTEXT_EXTRACT関数を指定。
(4) TEXT_EXTRACT関数の第1引数として「問合せ情報表」(元表)を指定。
(5) TEXT_EXTRACT関数の第2引数として問合せ情報表のレコード識別子(RID)を指定。TEXT_EXTRACT関数の結合項目名は自動的に同名(RID)となる。
(6) TEXT_EXTRACT関数の第3引数としてTEXT_CLASSIFY関数を指定。
(7)〜(10) 行(6)に示されるTEXT_CLASSIFY関数の第1引数から第4引数は「例1.TEXT_CLASSIFY関数でグループ射影列を作成する例」の第1引数から第4引数と同じ。ただし、返り値の代替項目名として「グループ1」を指定。
(11) TEXT_EXTRACT関数の第4引数としてTEXT_CLASSIFY関数を指定。
(12) 〜(14) 行(11)に示されるTEXT_CLASSIFY関数の第1引数から第3引数は「例1.TEXT_CLASSIFY関数でグループ射影列を作成する例」の第1引数、第3引数、第4引数と同じ。ただし、返り値の代替項目名として「グループ2」を指定。
(15) TEXT_EXTRACT関数の表参照代替名を「カテゴリ表」と指定。
(16) 問合せ情報表とカテゴリ表をRIDで内部結合するように指定。「カテゴリ表.グループ1='クレーム'」で第1次元項目を'クレーム'のみに絞り込むように指定。
(17) 結合した結果表を対象に「カテゴリ表.グループ1」、「カテゴリ表.グループ2」でグルーピング演算するように指定。
この例において、行(6)に示すTEXT_CLASSIFY関数の戻り値であるカテゴリリストは、以下の通りとなる。
RID=1 戻り値=['クレーム']
RID=2 戻り値=['クレーム', '異物']
RID=3 戻り値=['クレーム']
RID=4 戻り値=['クレーム']
RID=5 戻り値=['異物']
RID=6 戻り値=['その他']
また、行(11)に示すTEXT_CLASSIFY関数の戻り値であるカテゴリリストは、以下の通りとなる。
RID=1 戻り値=['その他']
RID=2 戻り値=['異物']
RID=3 戻り値=['その他']
RID=4 戻り値=['その他']
RID=5 戻り値=['異物']
RID=6 戻り値=['その他']
これら2つのカテゴリリストに基づいて行(6)のTEXT_EXTRACT関数に従って一時表生成部11により生成される一時表(カテゴリ表)は、図7に示す通りである。また、行(16)に示すSQL文に基づいて表結合部12により生成される内部結合結果表、つまり、RDB30の元表(図2の問合せ情報表)と、一時表生成部11により生成された一時表(図7のカテゴリ表)とをRIDで内部結合した結果の表は、図8に示す通りである。ここでは、属性項目「グループ1」で示されるカテゴリが'クレーム'となっているもののみに絞り込んだ状態で内部結合が行われている。
さらに、行(17)で示すSQL文に基づいて行(1)で示されるグルーピング演算を実行した結果は、図9に示す通りである。この行(1)で示すグルーピング演算は、表結合部12により生成された図8に示す内部結合表のうちカテゴリ表の部分において、属性項目「グループ1」で示されるカテゴリ(この例では'クレーム'というカテゴリのみに絞られている)と属性項目「グループ2」で示される各カテゴリとの異なる組み合わせ毎に、その出現度数をカウントするというものである。
例4.TEXT_CLASSIFY関数とTEXT_EXTRACT関数とで絞り込み3次元カテゴリ集約表を作成する例(ドリルダウンに相当する)
この場合におけるSQL文の例を以下に示す。
SELECT
カテゴリ表.グループ1 グループ1,
カテゴリ表.グループ2 グループ2,
カテゴリ表.グループ3 グループ3,
COUNT(DISTINCT問合せ情報表.RID) 出現度数 ---- (1)
FROM
問合せ情報表, ---- (2)
TEXT_EXTRACT( ---- (3)
問合せ情報表, ---- (4)
RID, ---- (5)
TEXT_CLASSIFY( ---- (6)
問合せ情報表.お問合せ内容, ---- (7)
'クレーム' : ['破損', '混入', '変', '色'], ---- (8)
'異物' : ['虫', 'ゴミ', '金属', '髪'], ---- (9)
'その他') グループ1, ---- (10)
TEXT_CLASSIFY( ---- (11)
問合せ情報表.お問合せ内容, ---- (12)
'異物' : ['虫', 'ゴミ', '金属', '髪'], ---- (13)
'その他') グループ2, ---- (14)
TEXT_CLASSIFY( ---- (15)
問合せ情報表.お問合せ内容,
'虫' : ['虫'],
'ゴミ’ : [‘ゴミ’],
'金属' : ['金属'],
'髪' : ['髪'], ---- (16)
'その他') グループ3 ---- (17)
) カテゴリ表 ---- (18)
WHERE問合せ情報表.RID = カテゴリ表.RID
AND カテゴリ表.グループ1= 'クレーム'
AND カテゴリ表.グループ2= '異物' ---- (19)
GROUP BY
カテゴリ表.グループ1,
カテゴリ表.グループ2,
カテゴリ表.グループ3 ---- (20)
上記SQL文の各行(1)〜(20)の意味は以下の通りである。
(1) 第1射影カラムに「カテゴリ表.グループ1」、その代替項目名に「グループ1」を指定。第2射影カラムに「カテゴリ表.グループ2」、その代替項目名に「グループ2」を指定。また、第3射影カラムに「カテゴリ表.グループ3」、その代替項目名に「グループ3」を指定。さらに、RIDの重複除去指定のCOUNT関数、その代替項目名に「出現度数」を指定。
(2)〜(14) 「例3.TEXT_CLASSIFY関数とTEXT_EXTRACT関数とで絞り込み2次元カテゴリ集約表を作成する例」の行(2)〜(14)と同じ。
(15) TEXT_EXTRACT関数の第4引数としてTEXT_CLASSIFY関数を指定。
(16) グループ2のメンバーを展開できるように、行(15)で示されるTEXT_CLASSIFY関数の各引数をカテゴリとメンバーとが同一となるように指定。
(17) 行(15)で示されるTEXT_CLASSIFY関数の代替項目名に「グループ3」を指定。
(18) TEXT_EXTRACT関数の表参照代替名を「カテゴリ表」と指定。
(19) 問合せ情報表とカテゴリ表をRIDで内部結合するように指定。「カテゴリ表.グループ1= 'クレーム'」で第1次元項目を'クレーム'のみに絞り込み、かつ、「カテゴリ表.グループ2= '異物'」で第2次元項目を'異物'のみに絞り込むように指定。
(20) 結合した結果表を対象に「カテゴリ表.グループ1」、「カテゴリ表.グループ2」、「カテゴリ表.グループ3」でグルーピング演算するように指定。
この例において、行(6)に示すTEXT_CLASSIFY関数の戻り値であるカテゴリリストは、以下の通りとなる。
RID=1 戻り値=['クレーム']
RID=2 戻り値=['クレーム', '異物']
RID=3 戻り値=['クレーム']
RID=4 戻り値=['クレーム']
RID=5 戻り値=['異物']
RID=6 戻り値=['その他']
また、行(11)に示すTEXT_CLASSIFY関数の戻り値であるカテゴリリストは、以下の通りとなる。
RID=1 戻り値=['その他']
RID=2 戻り値=['異物']
RID=3 戻り値=['その他']
RID=4 戻り値=['その他']
RID=5 戻り値=['異物']
RID=6 戻り値=['その他']
また、行(15)に示すTEXT_CLASSIFY関数の戻り値であるカテゴリリストは、以下の通りとなる。
RID=1 戻り値=['その他']
RID=2 戻り値=['金属']
RID=3 戻り値=['その他']
RID=4 戻り値=['その他']
RID=5 戻り値=['髪']
RID=6 戻り値=['その他']
これら3つのカテゴリリストに基づいて行(6)のTEXT_EXTRACT関数に従って一時表生成部11により生成される一時表(カテゴリ表)は、図10に示す通りである。また、行(19)に示すSQL文に基づいて表結合部12により生成される内部結合結果表、つまり、RDB30の元表(図2の問合せ情報表)と、一時表生成部11により生成された一時表(図10のカテゴリ表)とをRIDで内部結合した結果の表は、図11に示す通りである。ここでは、属性項目「グループ1」で示されるカテゴリが'クレーム'、属性項目「グループ2」で示されるカテゴリが'異物'となっているもののみに絞り込んだ状態で内部結合が行われている。
さらに、行(20)で示すSQL文に基づいて行(1)で示されるグルーピング演算を実行した結果は、図12に示す通りである。この行(1)で示すグルーピング演算は、表結合部12により生成された図11に示す内部結合表のうちカテゴリ表の部分において、属性項目「グループ1」で示されるカテゴリ(この例では'クレーム'というカテゴリのみに絞られている)と属性項目「グループ2」で示されるカテゴリ(この例では'異物'というカテゴリのみに絞られている)と属性項目「グループ3」で示される各カテゴリとの異なる組み合わせ毎に、その出現度数をカウントするというものである。
以上詳しく説明したように、本実施形態では、リレーショナルデータベースの元表のテキストデータに含まれる文字列が、TEXT_CLASSIFY関数においてパラメータとして与えられたカテゴリのメンバー文字列の何れかに一致するか否かを解析し、一致したメンバー文字列について、TEXT_CLASSIFY関数において名義尺度のパラメータとして与えられたカテゴリ文字列を取得する。そして、当該取得したカテゴリ文字列を元表に統合するようにしている。また、テキストデータから変換したカテゴリ文字列を元表に統合する際に、TEXT_EXTRACT関数を用いて一時表を生成し、当該一時表と元表とを統合することも可能にしている。
このように構成した本実施形態によれば、テキストデータから変換されるカテゴリ文字列をパラメータによって任意に変えることができる。また、テキストデータをカテゴリ文字列に変換する際の一致判定に用いるカテゴリのメンバー文字列もパラメータによって任意に変えることができる。このため、カテゴリ文字列やカテゴリに属するメンバー文字列を試行錯誤的に変えながら、テキストデータを対話型にて自由自在にカテゴリ化することができる。
また、テキストデータから変換されたカテゴリ文字列がリレーショナルデータベースに統合されるので、当該カテゴリ文字列を属性項目の1つとして含むリレーショナルデータベースに対する分析(上述のグルーピング演算など)のための操作も対話型にて試行錯誤的に行うことができる。これにより、テキストデータの試行錯誤的な分析を簡単かつ迅速に繰り返すことが可能となる。
つまり、本実施形態によれば、定型的な文字項目データ、数値項目データ、日付項目データ、期間項目データ(以下、これらを属性データと呼ぶ)を対象とする従来の非定型OLAP操作の枠組みを崩すことなく、テキストデータを非定型OLAP操作の枠組みに統合し、テキストデータを対象として非定型OLAP操作をシームレスに実行することができる。このとき、テキストデータから変換するカテゴリ文字列や、カテゴリに属するメンバー文字列をパラメータとして任意に変えながら、非定型OLAP操作を試行錯誤的に行うことができる。
例えば、上述の例2のような1次元のカテゴリによる出現度数のレポート、例3のような2次元のカテゴリによる出現度数のレポート、例4のような3次元のカテゴリによる出現度数のレポートの如く、実行時に定義する任意のカテゴリ(名義尺度)の組による分類をリレーショナルデータベース操作の一部として実行することによって、テキストデータを対象に自由自在に非定型OLAP操作を行うことができる。具体的な例は示していないが、属性データとテキストデータから取得したカテゴリ(名義尺度)との組み合わせを対象として自由自在に非定型OLAP操作を行うこともできる。
リレーショナルデータベース操作の一部としてテキストデータのカテゴリ化の機能を備えた本実施形態では、以下のような効果的な応用も可能になる。例えば、非定型OLAP操作を支える非定型集約クエリーにおいて、グルーピング演算の集約キーとしてカテゴリの組と日付項目(例えば、年、年月、年月週、年月日など)とを指定することにより、カテゴリの組毎に出現度数の時系列推移を調べることができる。このとき、日付項目を年、年月、年月週、年月日の如くドリルダウンしていけば、カテゴリの組毎における出現度数の時系列推移を細かく追跡していくことができる。さらに、テキストデータを対象にカテゴリの組を複数定義し、粒度の粗いカテゴリの組から粒度の細かいカテゴリの組へドリルダウンすることによって、時系列項目と共にカテゴリの組毎における出現度数の推移を細かく追跡していくこともできる。
具体的には、昨今話題となった食品偽装問題などの予兆をできるだけ早期に発見したいというケースを考える。この場合、お客様相談センターなどに寄せられるクレームのテキストデータの集合を調査対象として、過去の経験から分かっているリスクの高いクレームのカテゴリを粗い粒度の組から細かい粒度の組へ複数定め、カテゴリの組毎に日々の時系列出現度数の変化をモニタすればよい。例えば、ある日を境に出現度数が急に上がり始めたり下がり始めたりした場合には、何らかの予兆の疑いがある。このとき、上述したカテゴリの組と日付項目による非定型OLAP操作が予兆の発見に威力を発揮する。
なお、上記実施形態では、RDB30の元表に格納されているテキストデータを対象としてカテゴリ化を行う例について説明したが、本発明はこれに限定されない。例えば、RDB30の元表に格納されたテキストデータに代えて、当該テキストデータから生成されたインデックス情報を対象としてカテゴリ化を行うようにしても良い。インデックス情報は、元表に格納されたテキストデータから生成した全文検索用のインデックスであっても良いし、元表に格納されたテキストデータから自然言語処理の主題抽出処理や係り受け処理などによって生成したカテゴリのインデックスであっても良い。
また、上記実施形態では、テキストデータをカテゴリ化するのにTEXT_CLASSIFY関数を用いる例について説明したが、本発明はこれに限定されない。テキストデータからカテゴリを抽出できるならば、その具体的な方法は問わない。
また、上記実施形態では、テキストデータの非定型OLAP操作の例として4つの例を挙げたが、これ以外の非定型OLAP操作を行うことができることは言うまでもない。
その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその精神、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
1 パラメータ設定部
2 カテゴリ化部
3 統合部
10 テキストデータ処理装置
11 一時表生成部
12 表結合部
30 リレーショナルデータベース

Claims (3)

  1. 任意の1以上のカテゴリを表すカテゴリ文字列および当該カテゴリに属する1以上の要素を表すメンバー文字列をパラメータとして設定するパラメータ設定手段と、
    リレーショナルデータベースの元表においてレコード識別子により示されるレコード毎に格納されたテキストデータに含まれる文字列が、上記パラメータ設定手段により設定されたメンバー文字列の何れかに一致するか否かを解析し、一致したメンバー文字列の名義尺度であるカテゴリ文字列を上記レコード毎に取得するカテゴリ化手段と、
    上記カテゴリ化手段により上記レコード毎に取得されたカテゴリ文字列を上記リレーショナルデータベースの元表に上記レコード毎に統合する統合手段とを備え、
    上記統合手段は、上記カテゴリ化手段により上記レコード毎に取得されたカテゴリ文字列を上記レコード識別子と共に格納して一時表を生成する一時表生成手段と、上記一時表生成手段により生成された一時表と上記元表とを表結合する表結合手段とを備え、
    上記カテゴリ化手段は、上記元表の上記レコード毎に、上記元表に格納された上記テキストデータを検索し、上記テキストデータに含まれる文字列が1以上の上記メンバー文字列の何れかと一致した場合に、当該一致したメンバー文字列の名義尺度である1以上のカテゴリ文字列のリストを区切り記号で区切って返すように定義された第1の関数に従って演算を行うことにより、上記テキストデータを上記カテゴリ文字列に変換するようになされ、
    上記一時表生成手段は、上記区切り記号で区切られて列挙された1以上のカテゴリ文字列を上記一時表の各レコードに分けて上記レコード識別子と共に格納するように定義された第2の関数に従って演算を行うことにより、上記一時表を生成することを特徴とするテキストデータ処理装置。
  2. 上記カテゴリ化手段は、上記リレーショナルデータベースの元表に格納された上記テキストデータに代えて、当該テキストデータから生成されたインデックス情報に含まれる文字列が、上記パラメータ設定手段により設定されたメンバー文字列の何れかに一致するか否かを解析し、一致したメンバー文字列の名義尺度であるカテゴリ文字列を上記レコード毎に取得することを特徴とする請求項1に記載のテキストデータ処理装置。
  3. 任意の1以上のカテゴリを表すカテゴリ文字列および当該カテゴリに属する1以上の要素を表すメンバー文字列をパラメータとして設定するパラメータ設定手段、
    リレーショナルデータベースの元表においてレコード識別子により示されるレコード毎に格納されたテキストデータに含まれる文字列が、上記パラメータ設定手段により設定されたメンバー文字列の何れかに一致するか否かを解析し、一致したメンバー文字列の名義尺度であるカテゴリ文字列を上記レコード毎に取得するカテゴリ化手段、および
    上記カテゴリ化手段により上記レコード毎に取得されたカテゴリ文字列を上記リレーショナルデータベースの元表に上記レコード毎に統合する統合手段としてコンピュータを機能させるためのコンピュータ読み取り可能なプログラムであって、
    上記統合手段は、上記カテゴリ化手段により上記レコード毎に取得されたカテゴリ文字列を上記レコード識別子と共に格納して一時表を生成する一時表生成手段と、上記一時表生成手段により生成された一時表と上記元表とを表結合する表結合手段とから成り、
    上記カテゴリ化手段は、上記元表の上記レコード毎に、上記元表に格納された上記テキストデータを検索し、上記テキストデータに含まれる文字列が1以上の上記メンバー文字列の何れかと一致した場合に、当該一致したメンバー文字列の名義尺度である1以上のカテゴリ文字列のリストを区切り記号で区切って返すように定義された第1の関数に従って演算を行うことにより、上記テキストデータを上記カテゴリ文字列に変換するようになされ、
    上記一時表生成手段は、上記区切り記号で区切られて列挙された1以上のカテゴリ文字列を上記一時表の各レコードに分けて上記レコード識別子と共に格納するように定義された第2の関数に従って演算を行うことにより、上記一時表を生成することを特徴とする
    コンピュータ読み取り可能なプログラム。
JP2009098047A 2009-04-14 2009-04-14 テキストデータ処理装置およびプログラム Active JP5577497B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2009098047A JP5577497B2 (ja) 2009-04-14 2009-04-14 テキストデータ処理装置およびプログラム
US13/263,977 US20120030204A1 (en) 2009-04-14 2010-02-17 Text data processing device and program
EP10764306.6A EP2420943A4 (en) 2009-04-14 2010-02-17 DEVICE AND PROGRAM FOR PROCESSING TEXT DATA
CN201080016512.7A CN102395964B (zh) 2009-04-14 2010-02-17 文档数据处理装置及程序
PCT/JP2010/052358 WO2010119720A1 (ja) 2009-04-14 2010-02-17 テキストデータ処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009098047A JP5577497B2 (ja) 2009-04-14 2009-04-14 テキストデータ処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2010250480A JP2010250480A (ja) 2010-11-04
JP5577497B2 true JP5577497B2 (ja) 2014-08-27

Family

ID=42982390

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009098047A Active JP5577497B2 (ja) 2009-04-14 2009-04-14 テキストデータ処理装置およびプログラム

Country Status (5)

Country Link
US (1) US20120030204A1 (ja)
EP (1) EP2420943A4 (ja)
JP (1) JP5577497B2 (ja)
CN (1) CN102395964B (ja)
WO (1) WO2010119720A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280141A (zh) * 2017-12-29 2018-07-13 金螳螂家装电子商务(苏州)有限公司 一种用于家装电子商务平台的报价数据快速分类存储方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11195046A (ja) * 1998-01-05 1999-07-21 Ricoh Co Ltd 文書処理装置
JPH11272701A (ja) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置
US6751600B1 (en) * 2000-05-30 2004-06-15 Commerce One Operations, Inc. Method for automatic categorization of items
US6928426B2 (en) * 2000-12-30 2005-08-09 Intel Corporation Method and apparatus to improve file management
CA2508791A1 (en) * 2002-12-06 2004-06-24 Attensity Corporation Systems and methods for providing a mixed data integration service
US7430560B1 (en) * 2005-07-22 2008-09-30 X-Engines, Inc. Multi-level compressed lock-up tables formed by logical operations to compress selected index bits
JP2009098047A (ja) 2007-10-18 2009-05-07 Nippon Seiki Co Ltd リード端子接続構造
US8140514B2 (en) * 2008-11-26 2012-03-20 Lsi Corporation Automatic classification of defects
US9020943B2 (en) * 2009-01-07 2015-04-28 Oracle International Corporation Methods, systems, and computer program product for automatically categorizing defects

Also Published As

Publication number Publication date
CN102395964B (zh) 2014-11-26
WO2010119720A1 (ja) 2010-10-21
EP2420943A1 (en) 2012-02-22
JP2010250480A (ja) 2010-11-04
EP2420943A4 (en) 2014-06-18
US20120030204A1 (en) 2012-02-02
CN102395964A (zh) 2012-03-28

Similar Documents

Publication Publication Date Title
Clifton et al. Emerging standards for data mining
CN104820686B (zh) 一种网络搜索方法及网络搜索系统
US10095766B2 (en) Automated refinement and validation of data warehouse star schemas
JP2007317188A (ja) データインテリジェント加工システム及びその方法
US11269867B2 (en) Generating data retrieval queries using a knowledge graph
US10360239B2 (en) Automated definition of data warehouse star schemas
US20170116305A1 (en) Input Gathering System and Method for Refining, Refining or Validating Star Schema for a Source Database
KR101505858B1 (ko) 대용량 데이터를 용이하게 분석하기 위하여 테이블 관계 및 참조의 템플릿을 검색하여 제공하는 템플릿 기반 온라인 분석보고서 작성 지원 시스템
JP5535062B2 (ja) ウェブログの時系列分析のためのデータ格納および照会方法及びその方法を実行するシステム
US20220188895A1 (en) Product feature extraction from structured and unstructured texts using knowledge base
JP2012073812A (ja) データ分析支援システム及び方法
Benedetti et al. Exposing the underlying schema of LOD sources
US7992126B2 (en) Apparatus and method for quantitatively measuring the balance within a balanced scorecard
Nebot et al. Statistically-driven generation of multidimensional analytical schemas from linked data
JP2006004098A (ja) 評価情報生成装置、評価情報生成方法、及びプログラム
JP5577497B2 (ja) テキストデータ処理装置およびプログラム
Goasdoué et al. An Evaluation Framework For Data Quality Tools.
Badre et al. Comparative ease of use of a diagrammatic vs. an iconic query language
Anzum et al. Graphwrangler: An interactive graph view on relational data
Shrivastava et al. Graph mining framework for finding and visualizing substructures using graph database
de Spindler et al. Using synchronised tag clouds for browsing data collections
Panayotov Ein visuelles Erkundungstool zur zeitlichen Analyse von Kundenbewertungen
JP5596623B2 (ja) 文書情報分析装置、文書情報分析方法、文書情報分析プログラム
Zhuge et al. Completeness of Query Operations on Resource Spaces
Biuk-Aghai et al. Wikis as digital ecosystems: An analysis based on authorship

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130513

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140210

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140604

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20140529

R150 Certificate of patent or registration of utility model

Ref document number: 5577497

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250