JP2016115288A - データを集計するシステム、方法およびプログラム - Google Patents
データを集計するシステム、方法およびプログラム Download PDFInfo
- Publication number
- JP2016115288A JP2016115288A JP2014255623A JP2014255623A JP2016115288A JP 2016115288 A JP2016115288 A JP 2016115288A JP 2014255623 A JP2014255623 A JP 2014255623A JP 2014255623 A JP2014255623 A JP 2014255623A JP 2016115288 A JP2016115288 A JP 2016115288A
- Authority
- JP
- Japan
- Prior art keywords
- target data
- list
- index
- attribute
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 142
- 230000002776 aggregation Effects 0.000 claims description 94
- 238000004220 aggregation Methods 0.000 claims description 94
- 230000008569 process Effects 0.000 claims description 56
- 230000004931 aggregating effect Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 14
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
図1は、本実施形態による集計システムの構成を示す図である。図1に示すように、本実施形態の集計システム100は、文書DB(データベース)200に接続されている。文書DB200は、処理対象となり得る文書を格納している。集計処理の対象となる文書は、例えば、文書DB200に格納されている文書のうちで、何らかの検索条件に基づく検索等により指定された(絞り込まれた)文書とすることができる。
図2は、本実施形態のインデックス記憶部120に記憶されるインデックスの構成例を示す図である。図2に示すように、本実施形態では、単語リスト121と、文書DB200に格納されている文書ごとのDtoKインデックス122とが用意される。言い換えれば、このDtoKインデックス122は、文書(対象データ)ごとに作成された、文書に含まれる単語(対象データが有する属性)のリスト(第1リスト)である。なお、図2に示す例では、n個の文書に対するDtoKインデックス122が存在し、最後に文書DB200に格納された文書(最も新しい文書)から順に、(1)〜(n)の枝番を付している。すなわち、符号122(n)は、n個の文書の中で最初に文書DB200に格納された文書(最も古い文書)に対するDtoKインデックス122であり、符号122(1)は、最後に文書DB200に格納された文書に対するDtoKインデックス122である。すなわち、DtoKインデックス122は、最初に作成されたDtoKインデックス122を最後尾として、作成された順に並ぶ。
集計処理部130は、集計処理の対象として指定された指定文書全体における出現頻度の高い単語を特定し集計する処理を、第1手法または第2手法の一方により行う。第1手法は、集計対象(集計される属性)の単語ごとに、その単語を含む指定文書の数を調べ、最も多くの指定文書に含まれる単語から降順にk個の単語を選択する処理である。また、第2手法は、指定文書ごとに、その文書に含まれる単語を調べ、最も多くの文書に含まれる単語から降順にk個の単語を選択する処理である。
本実施形態において、文書DB200が更新されると、これに伴って、インデックス記憶部120に記憶された単語リスト121およびDtoKインデックス122も更新される。単語リスト121に関しては、文書の追加または削除により、収録している各単語を含む文書の数が変わる。そこで、本実施形態の集計システム100のインデックス更新部150は、例えば、文書DB200が更新される度に、単語リスト121に収録している単語をソートし直す。また、本実施形態のインデックス更新部150は、追加された文書にのみ含まれる単語が存在するならば、その単語の識別情報を、単語リストの末尾に追加することにより、単語リスト121を更新する。
図7および図8は、Javaプログラミング言語を用いた、本実施形態によるDtoKインデックス122の実装例を示す図である。図7は、コードの例を示す図であり、図7(a)はDtoKインデックス122のエントリを設定するコード、図7(b)はDtoKリストを生成するコード、図7(c)は新しいDtoKインデックス122を追加するコード、図7(d)はDtoKインデックス122を削除するコードである。図8は、図7に示すコードにより設定されたリンクの様子を示す図である。
以上の実施形態において、単語リスト121および各DtoKインデックス122(1)〜122(n)に登録されている単語間のリンクは、単語リスト121に登録されている識別情報を始点として、識別情報diの順にしたがって設定した。これに対し、DtoKインデックス122の実装によっては、識別情報diの降順(すなわち、古い文書から新しい文書へ向かう順)にリンクを設定することが望ましい場合がある。
図14は、本実施形態の集計システム100を構成するのに好適なハードウェア構成例を示す図である。ここでは、コンピュータにより構成する場合について説明する。図14に示すコンピュータは、演算手段であるCPU(Central Processing Unit)10aと、主記憶手段であるメモリ10cを備える。また、外部デバイスとして、磁気ディスク装置(HDD:Hard Disk Drive)10g、ネットワーク・インターフェイス10f、ディスプレイ装置を含む表示機構10d、キーボードやマウス等の入力デバイス10i等を備える。
Claims (12)
- データを集計するシステムであって、
集計処理の対象である対象データの識別情報から当該対象データが有する属性のリストである第1リストを指定するインデックスであって、当該対象データごとの当該第1リストは所定の順序で並び、当該第1リストの各要素が当該属性の情報を含む、当該インデックスと、複数の当該対象データが有する属性のリストである第2リストと、を記憶するインデックス記憶部と、
前記属性ごとに当該属性を有する前記対象データを調べ、当該対象データとの関係が所定の基準を満たす属性を集計する集計処理を行う集計処理部と、を備え、
前記第2リストの各属性に関して、前記対象データごとの前記第1リストの要素を順に辿るリンクが設定されており、
前記集計処理部は、前記属性ごとに設定された前記リンクに基づき、当該属性を有する前記対象データを調べる、システム。 - 前記リンクは、前記対象データごとの前記第1リストの各要素が、当該要素に含まれるのと同一の前記属性の情報を含む最も近い後続の第1リストの要素を特定する情報を含むことにより、設定される、請求項1に記載のシステム。
- 前記第2リストの各属性は、複数の前記対象データにおける個々の対象データが当該属性を有する頻度の降順にソートされている、請求項1に記載のシステム。
- 前記対象データごとの前記第1リストの各要素は、当該要素が含む情報により特定される前記属性に対して付与された値をさらに含み、
前記第1リストの各要素は、前記値に基づく順序でソートされている、請求項1に記載のシステム。 - 前記属性に対して付与された値は、当該属性と当該属性を有する前記対象データとの関係に基づく重み値であり、
前記第1リストの各要素は、前記値の降順にソートされている、請求項4に記載のシステム。 - 前記対象データごとの前記第1リストは、最も古い第1リストを最後尾として作成された順に並び、新規に作成された第1リストを追加する場合は、第1リストの並びの先頭に配置され、かつ、新規に作成された当該第1リストの各要素に含まれる属性に関するリンクが更新される、請求項1に記載のシステム。
- 前記対象データごとの前記第1リストは、最も古い第1リストを最後尾として作成された順に並び、最も古い第1リストを削除する場合は、最後尾の第1リストが削除され、かつ、削除された当該第1リストの各要素に含まれる属性に関するリンクが更新される、請求項1に記載のシステム。
- データを集計するシステムであって、
集計処理の対象である対象データごとに当該対象データが有する属性を登録したリストを含むインデックスを記憶するインデックス記憶部と、
前記属性ごとに当該属性を有する前記対象データを調べ、当該対象データとの関係が所定の基準を満たす属性を集計する第1手法、および、前記対象データごとに当該対象データが有する前記属性を調べ、当該対象データとの関係が所定の基準を満たす属性を集計する第2手法のどちらで集計処理を行うかを判定する判定部と、
前記判定部による判定に応じて前記第1手法および前記第2手法の一方により集計処理を行う集計処理部と、を備え、
前記インデックスは、相異なる前記対象データが有する同一の前記属性どうしを関連付けており、
前記集計処理部は、前記第1手法により集計処理を行う場合に、前記インデックスにおける同一の前記属性どうしの関連に基づき、当該属性を有する前記対象データを調べる、システム。 - データを集計する方法であって、
集計処理の対象である対象データの識別情報から当該対象データが有する属性のリストである第1リストを指定するインデックスであって、当該対象データごとの当該第1リストは所定の順序で並び、当該第1リストの各要素が当該属性の情報を含む、当該インデックスと、複数の当該対象データが有する属性のリストである第2リストと、前記第2リストの各属性に関して、前記対象データごとの前記第1リストの要素を順に辿るリンク構造と、を記憶するインデックス記憶部と、
前記属性の集計処理を行う集計処理部と、を備えるシステムにおいて、
前記集計処理部が、
前記属性ごとに設定された前記リンクに基づき、当該属性を有する前記対象データの数を調べるステップと、
前記属性を、調べた対象データの数が多い上位の所定数の属性を集計し、集計結果を出力するステップと、
を含む、方法。 - データを集計する方法であって、
集計処理の対象である対象データごとに当該対象データが有する属性を登録したリストを含むインデックスを記憶するインデックス記憶部と、
前記属性の集計処理を行う集計処理部と、
前記集計処理部により行われる集計処理の手法を判定する判定部と、を備えるシステムにおいて、
前記判定部が、前記属性ごとに当該属性を有する前記対象データを調べ、当該対象データとの関係が所定の基準を満たす属性を集計する第1手法、および、前記対象データごとに当該対象データが有する前記属性を調べ、当該対象データとの関係が所定の基準を満たす属性を集計する第2手法のどちらで集計処理を行うかを判定するステップと、
前記判定部が前記第1手法により集計処理を行うと判定した場合に、前記集計処理部が、相異なる前記対象データが有する同一の前記属性どうしを関連付けてなる前記インデックスにおける同一の前記属性どうしの関連に基づき、当該属性を有する前記対象データを調べ、当該対象データとの関係が所定の基準を満たす属性を集計するステップと、
前記判定部が前記第2手法により集計処理を行うと判定した場合に、前記集計処理部が、前記インデックスに基づき、各対象データが有する前記属性を調べ、当該対象データとの関係が所定の基準を満たす属性を集計するステップと、
を含む、方法。 - コンピュータを、
集計処理の対象である対象データの識別情報から当該対象データが有する属性のリストである第1リストを指定するインデックスであって、当該対象データごとの当該第1リストは所定の順序で並び、当該第1リストの各要素が当該属性の情報を含む、当該インデックスと、複数の当該対象データが有する属性のリストである第2リストと、を記憶するインデックス記憶手段と、
前記属性ごとに当該属性を有する前記対象データを調べ、当該対象データとの関係が所定の基準を満たす属性を集計する集計処理を行う集計処理手段として機能させ、
前記第2リストの各属性に関して、前記対象データごとの前記第1リストの要素を順に辿るリンクが設定されており、
前記集計処理手段の機能として、前記属性ごとに設定された前記リンクに基づき、当該属性を有する前記対象データを調べる、プログラム。 - コンピュータを、
集計処理の対象である対象データごとに当該対象データが有する属性を登録したリストを含み、相異なる前記対象データが有する同一の前記属性どうしを関連付けてなるインデックスを記憶するインデックス記憶手段と、
前記属性ごとに当該属性を有する前記対象データを調べ、当該対象データとの関係が所定の基準を満たす属性を集計する第1手法、および、前記対象データごとに当該対象データが有する前記属性を調べ、当該対象データとの関係が所定の基準を満たす属性を集計する第2手法のどちらで集計処理を行うかを判定する判定手段と、
前記判定手段による判定に応じて前記第1手法および前記第2手法の一方により集計処理を行う集計処理手段として機能させ、
前記集計処理手段の機能として、前記第1手法により集計処理を行う場合に、前記インデックスにおける同一の前記属性どうしの関連に基づき、当該属性を有する前記対象データを調べる、プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014255623A JP6376534B2 (ja) | 2014-12-17 | 2014-12-17 | データを集計するシステム、方法およびプログラム |
US14/970,741 US10733218B2 (en) | 2014-12-17 | 2015-12-16 | System, method, and program for aggregating data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014255623A JP6376534B2 (ja) | 2014-12-17 | 2014-12-17 | データを集計するシステム、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016115288A true JP2016115288A (ja) | 2016-06-23 |
JP6376534B2 JP6376534B2 (ja) | 2018-08-22 |
Family
ID=56129711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014255623A Expired - Fee Related JP6376534B2 (ja) | 2014-12-17 | 2014-12-17 | データを集計するシステム、方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10733218B2 (ja) |
JP (1) | JP6376534B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10885009B1 (en) * | 2016-06-14 | 2021-01-05 | Amazon Technologies, Inc. | Generating aggregate views for data indices |
US11294961B2 (en) * | 2017-05-19 | 2022-04-05 | Kanagawa University | Information search apparatus, search program, database update method, database update apparatus and database update program, for searching a specified search target item associated with specified relation item |
US11632380B2 (en) * | 2020-03-17 | 2023-04-18 | International Business Machines Corporation | Identifying large database transactions |
US11327980B2 (en) * | 2020-04-21 | 2022-05-10 | International Business Machines Corporation | Cached updatable top-k index |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06103307A (ja) * | 1992-09-18 | 1994-04-15 | Hitachi Software Eng Co Ltd | 構造型データベースにおける検索高速化方法 |
JP2001022787A (ja) * | 1999-07-13 | 2001-01-26 | Nippon Telegr & Teleph Corp <Ntt> | 多言語インタラクティブ情報検索システム及び多言語インタラクティブ情報検索プログラムを記録した記録媒体 |
JP2001222555A (ja) * | 2000-02-10 | 2001-08-17 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索システムおよび文書検索のためのデータ構造を格納する記録媒体 |
US20070136274A1 (en) * | 2005-12-02 | 2007-06-14 | Daisuke Takuma | System of effectively searching text for keyword, and method thereof |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5431410A (en) | 1977-08-13 | 1979-03-08 | Sumitomo Electric Industries | Highhhardness sintered body and method of making same |
US8838648B2 (en) * | 2006-08-17 | 2014-09-16 | International Business Machines Corporation | Efficient discovery of keys in a database |
US8180774B2 (en) * | 2008-10-03 | 2012-05-15 | Seomoz, Inc. | Web-scale data processing system and method |
JP5483166B2 (ja) | 2009-07-02 | 2014-05-07 | 日本電気株式会社 | 文書検索装置、文書検索方法、及びプログラム |
US8554801B2 (en) * | 2009-07-10 | 2013-10-08 | Robert Mack | Method and apparatus for converting heterogeneous databases into standardized homogeneous databases |
US20140372412A1 (en) * | 2013-06-14 | 2014-12-18 | Microsoft Corporation | Dynamic filtering search results using augmented indexes |
JP6103307B2 (ja) | 2013-09-30 | 2017-03-29 | 株式会社Gsユアサ | アルカリ蓄電池及びアルカリ蓄電池の製造方法 |
US9087090B1 (en) * | 2014-07-31 | 2015-07-21 | Splunk Inc. | Facilitating execution of conceptual queries containing qualitative search terms |
-
2014
- 2014-12-17 JP JP2014255623A patent/JP6376534B2/ja not_active Expired - Fee Related
-
2015
- 2015-12-16 US US14/970,741 patent/US10733218B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06103307A (ja) * | 1992-09-18 | 1994-04-15 | Hitachi Software Eng Co Ltd | 構造型データベースにおける検索高速化方法 |
JP2001022787A (ja) * | 1999-07-13 | 2001-01-26 | Nippon Telegr & Teleph Corp <Ntt> | 多言語インタラクティブ情報検索システム及び多言語インタラクティブ情報検索プログラムを記録した記録媒体 |
JP2001222555A (ja) * | 2000-02-10 | 2001-08-17 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索システムおよび文書検索のためのデータ構造を格納する記録媒体 |
US20070136274A1 (en) * | 2005-12-02 | 2007-06-14 | Daisuke Takuma | System of effectively searching text for keyword, and method thereof |
JP2007156739A (ja) * | 2005-12-02 | 2007-06-21 | Internatl Business Mach Corp <Ibm> | テキストからキーワードを検索する効率的なシステム、および、その方法 |
Also Published As
Publication number | Publication date |
---|---|
US10733218B2 (en) | 2020-08-04 |
JP6376534B2 (ja) | 2018-08-22 |
US20160179981A1 (en) | 2016-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11243993B2 (en) | Document relationship analysis system | |
US11341419B2 (en) | Method of and system for generating a prediction model and determining an accuracy of a prediction model | |
CN106897350B (zh) | 引导渐进搜索系统和方法 | |
JP6376534B2 (ja) | データを集計するシステム、方法およびプログラム | |
JP6365195B2 (ja) | 命令履歴分析プログラム、命令履歴分析装置、および、命令履歴分析方法 | |
CN114329201B (zh) | 深度学习模型的训练方法、内容推荐方法和装置 | |
JPWO2019167282A1 (ja) | 応答処理プログラム、応答処理方法、応答処理装置および応答処理システム | |
US20220360458A1 (en) | Control method, information processing apparatus, and non-transitory computer-readable storage medium for storing control program | |
WO2012081165A1 (ja) | データベース管理装置及びデータベース管理方法 | |
CN115982100A (zh) | 一种项目工程文件数据管理方法、系统及电子设备 | |
JP6549173B2 (ja) | 計算機システム及び文章データの検索方法 | |
US11036710B2 (en) | Scalable selection management | |
JP2019105942A (ja) | コンテンツの提示順位を制御する装置、方法、及び、プログラム | |
JP2018181121A (ja) | 分析装置、分析プログラム及び分析方法 | |
CN109885551B (zh) | 电子装置、元数据处理方法和计算机可读存储介质 | |
JP6852002B2 (ja) | データ検索方法、データ検索装置及びプログラム | |
CN106776772B (zh) | 一种数据检索的方法及装置 | |
JP2021033695A (ja) | 計算機システム及び業務の支援方法 | |
US20120192011A1 (en) | Data processing apparatus that performs test validation and computer-readable storage medium | |
JP2016057954A (ja) | 検索プログラム、検索方法及び情報処理装置 | |
JP6884172B2 (ja) | 計算機システム及び文書の評価方法 | |
US10942969B2 (en) | Non-transitory computer-readable storage medium, search control method, and search control apparatus | |
CN116108134A (zh) | 一种基于知识管理的内容推荐方法、存储介质及设备 | |
JP2019164504A (ja) | 計算機システム及び文章データ管理方法 | |
CN118013054A (zh) | 文本搜索提速方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170822 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180615 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180626 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20180626 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180717 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6376534 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |