JP7006462B2

JP7006462B2 - データ生成プログラム、データ生成方法および情報処理装置

Info

Publication number: JP7006462B2
Application number: JP2018071191A
Authority: JP
Inventors: 正弘片岡; 貴博大久保; 量松村
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-04-02
Filing date: 2018-04-02
Publication date: 2022-01-24
Anticipated expiration: 2038-04-02
Also published as: US10803243B2; JP2019185145A; US20190303436A1

Description

本発明は、データ生成プログラム、データ生成方法および情報処理装置に関する。

データの圧縮や伸長において、ＬＺ７７やＺＩＰなどでは、文字や最長一致文字列に対して短いビット長の符号を割り当てることで、符号化と復号化が行われる。また、Ｗｅｂ検索では、単語に対応付けた転置インデックスを利用して、全文検索を高速化する技術が知られている。

一方、近年では、圧縮や伸長のために、単語に対して符号を割り当てることで、符号化と復号化を行い、かつ、検索の高速化のために、単語とその出現位置に対応付けた転置インデックスを生成し、内蔵する技術が知られている。

特開２０１６－０４６６０２号公報

ところで、単語の出現順に対応付けられた圧縮符号を基に元データを復元することは容易ではある。しかしながら、転置インデックスは、単語の符号の出現順では無く、単語（もしくは、単語を構成する文字列）の符号のコード順序で転置（並び替え）されているため、元のデータを復元するのに時間がかかる。特に、特定の部分だけのデータを復元したいときは、復元対象の特定や該当インデックスの検索に時間がかかる。

また、転置インデックスのサイズ増大を抑止するため、出現頻度の高い単語をインデックス対象より除外したり、転置インデックスの位置に関する情報の粒度を大きくしたりする等の処理が行われるため、転置インデックスを利用して元のデータを復元することはできない。

一つの側面では、転置インデックスから元データを復元し、その復元にかかる時間を短縮することができるデータ生成プログラム、データ生成方法および情報処理装置を提供することを目的とする。

第１の案では、データ生成プログラムは、テキストデータにより生成された、前記テキストデータに含まれる複数の形態素の位置を前記複数の形態素それぞれと対応付けたインデックスを参照して、第１の形態素の前記テキストデータにおける位置の順で前記第１の形態素を配置する処理をコンピュータに実行させる。データ生成プログラムは、形態素間の関係性を示す関係性情報を参照し、前記第１の形態素が第２の形態素と関係性を有する特定の種別である場合、前記インデックスを参照し、前記テキストデータにおける位置の順で前記第２の形態素を配置する処理をコンピュータに実行させる。

一実施形態によれば、元データを復元し、その復元にかかる時間を短縮することができる。

図１は、実施例１にかかる復元処理を説明する図である。図２は、実施例１にかかる情報処理装置の機能構成を示す機能ブロック図である。図３は、ビットマップ型転置インデックスに関するサイズ縮小について説明する図である。図４、共起ビットマップを説明する図である。図５は、静的辞書および動的辞書を説明する図である。図６は、共起情報ＤＢに記憶される情報の例を示す図である。図７は、ハッシュ化ビットマップ型転置インデックスの展開について説明する図である。図８は、ハッシュ化ビットマップ型転置インデックスのＡＮＤ演算について説明する図である。図９は、復元対象のインデックスを説明する図である。図１０は、全文検索を説明する図である。図１１は、タグ条件検索を説明する図である。図１２は、圧縮符号の転置を説明する図である。図１３は、圧縮データの生成および元の文書データの復元を説明する図である。図１４は、処理の流れを示すフローチャートである。図１５は、実施例１の情報処理装置のハードウェア構成を示す図である。図１６は、コンピュータで動作するプログラムの構成例を示す図である。図１７は、実施形態のシステムにおける装置の構成例を示す図である。

以下に、本願の開示するデータ生成プログラム、データ生成方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は矛盾のない範囲内で適宜組み合わせることができる。

［全体構成］
まず、実施例１にかかる情報処理装置１０（図２を参照）が実行する処理について説明する。図１は、実施例１にかかる復元処理を説明する図である。ここでは、「医療・・・・＜副作用＞発熱＜／副作用＞・・・である」のように、タグで囲まれた単語を含む文章を対象とする。なお、タグに限らず、カラムなどであっても同様に処理することができる。

図１に示すように、情報処理装置１０は、対象文書データを符号化する際に、圧縮符号に対応するビットマップ型転置インデックス（以下では、単にビットマップまたはハッシュ化ビットマップなどと記載する場合がある）、共起ビットマップを生成する。

そして、情報処理装置１０は、指定されたタグの位置や指定されたタグに囲まれる単語などを、共起ビットマップで特定した後、ビットマップ型転置インデックスを用いた圧縮符号の転置バッファリング処理を実行して、転置用バッファに圧縮符号を配置する。その後、情報処理装置１０は、静的辞書および動的辞書を用いて、転置用バッファに圧縮符号を、格納されている順で変換することで、元のテキストデータのうち該当する一部分だけを復元する。

ここで、ビットマップ型転置インデックスは、符号化対象の文章データから生成されたインデックスであり、文章データに登場する各単語に対応する圧縮符号と文書データにおける出現位置とを対応付けたインデックスである。共起ビットマップは、文章データに出現する各タグと、タグで囲まれた単語とを関係づけた情報である。

また、静的辞書は、出現頻度の高い単語について、当該単語に予め割当てられた圧縮符号を記載する辞書であり、高頻度の単語と圧縮符号とを対応付けた表である。動的辞書は、出現頻度の低い単語について、当該単語に割当てられた圧縮符号を記載する辞書であり、低頻度の単語と圧縮符号とを対応付けた表である。すなわち、動的辞書は、文章データに登場する単語のうち、静的辞書に登録されていない各未登録単語に対して、文章データに登場したときに動的に割当てられる圧縮符号と未登録単語との対応付けを記憶する。また、転置用バッファは、３バイトの固定長で区切ったバッファであり、ビットマップ型転置インデックスと同じバイト数分の長さを有するバッファである。なお、各辞書における単語は、タグを含む。

このような状態において、情報処理装置１０は、文書データに出現した単語１、単語２・・・単語ｎのそれぞれに対応する圧縮符号Ａ、圧縮符号Ｂ・・・圧縮符号Ｎのそれぞれに対応する各ビットマップ型転置インデックスを取得する。同様に、情報処理装置１０は、文書データに出現したタグａ（例えば＜副作用＞）、タグｂなどのそれぞれに対応する圧縮符号ａ、圧縮符号ｂのそれぞれに対応する共起ビットマップを取得する。さらに、情報処理装置１０は、タグａに囲まれる単語１などのように特定して、共起ビットマップを生成する。

その後、情報処理装置１０は、ユーザ等のクエリによってタグａ（例えば＜副作用＞）で囲まれる単語を復元対象とする場合、検索対象をタグａ（例えば＜副作用＞）とこれの対となるタグｂ（例えば＜／副作用？＞）に決定する。なお、タグの関係性は、予め対応付けておいてもよく、一般的なタグ構成を利用して、検索対象として指定されたタグに「／（スラッシュ）」を付けることで、自動的に生成することもできる。

そして、情報処理装置１０は、共起ビットマップを参照して、タグａ＜副作用＞に対応する単語１（例えば発）と単語２（例えば熱）を特定し、単語１および単語２を転置対象や復元対象として絞り込む。続いて、情報処理装置１０は、単語１と単語２のそれぞれに対応するビットマップ型転置インデックスを取得するとともに、タグａ＜副作用＞とタグｂ＜／副作用＞のそれぞれに対応する共起ビットマップを取得する。続いて、情報処理装置１０は、３バイトずつで区切った転置用バッファを用意する。

そして、情報処理装置１０は、タグａ＜副作用＞に対応する共起ビットマップにしたがって、元データにおけるタグａ＜副作用＞の位置を特定し、タグｂ＜／副作用＞に対応する共起ビットマップにしたがって、元データにおけるタグｂ＜／副作用＞の位置を特定する。同様に、情報処理装置１０は、単語１に対応するビットマップ型転置インデックスにしたがって、元データにおける単語１と単語２の位置を特定する。このようにして、情報処理装置１０は、元データにおけるタグ＜副作用＞で囲まれた文字「発」と文字「熱」の登場位置として、ビット６、７、８、９を特定する。

続いて、情報処理装置１０は、対象文章データにおける出現位置に対応する転置用バッファに、出現した単語１（発）、単語２（熱）、タグａ（＜副作用＞）、タグｂ（＜／副作用＞）の圧縮符号を転置する。例えば、情報処理装置１０は、タグａ＜副作用＞（圧縮符号ａ）が６番目に出現し、タグｂ＜／副作用＞（圧縮符号ｂ）が９番目に出現し、単語１（圧縮符号Ａ）が７番目に出現し、単語２（圧縮符号Ｂ）が８番目に出現する場合、転置用バッファの６番目に圧縮符号ａを格納し、７番目に圧縮符号Ａを格納し、８番目に圧縮符号Ｂを格納し、９番目に圧縮符号ｂを格納する。

その後、情報処理装置１０は、静的辞書と動的辞書とを参照して、転置用バッファに格納される順で、格納される各圧縮符号を元の単語に変換する。上記例で説明すると、情報処理装置１０は、転置バッファの６番目に格納される圧縮符号ａをタグ＜副作用＞に変換し、７番目に格納される圧縮符号Ａを単語１に変換し、８番目に格納される圧縮符号Ｂを単語２に変換し、９番目に格納される圧縮符号ｂをタグ＜／副作用＞に変換し、これらを格納されている順で「＜副作用＞、発、熱、＜／副作用＞」と配置することで、元の文章データのうち検索対象の部分だけを復元することができる。

このように、情報処理装置１０は、テキストデータである文書データより生成された、文書データに含まれる単語やタグそれぞれを文書データにおける位置と対応づけたインデックスを参照し、文書データにおける位置の順でインデックスで対応づけられた該当単語を配置する。したがって、情報処理装置１０は、ビットマップ型転置インデックス等から元データの一部分を生成することができる。なお、実施例では、単語の圧縮符号に対応するビットマップ型転置インデックスを例にして説明するが、これに限定されるものではなく、文書データから得られる形態素または単語そのものに対応するビットマップ型転置インデックスであっても、同様に処理することができる。なお、その場合は、転置バッファへの格納処理の前に、静的辞書や動的辞書を用いて形態素または単語を圧縮符号へ変換する。

［機能構成］
図２は、実施例１にかかる情報処理装置１０の機能構成を示す機能ブロック図である。図２に示すように、情報処理装置１０は、通信部１１、記憶部１２、制御部２０を有する。

通信部１１は、他の装置の間の通信を制御する処理部であり、例えばネットワークインタフェースカードなどである。例えば、通信部１１は、他の情報処理装置１０からビットマップ型転置インデックスなどを受信する。

記憶部１２は、プログラムやデータを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部１２は、転置インデックスＤＢ１３、静的辞書１４、動的辞書１５、共起情報ＤＢ１６などを記憶する。

転置インデックスＤＢ１３は、符号化対象の文章データから生成されたインデックスであり、文章データに登場する各単語に対応する圧縮符号と文書データにおける出現位置とを対応付けた、オフセット付きのビットマップ型転置インデックスを記憶するデータベースである。

ここで、図３を用いて、オフセット付きのビットマップ型転置インデックスの生成例について説明する。図３は、ビットマップ型転置インデックスに関するサイズ縮小について説明する図である。なお、ここでは、ビットマップ型転置インデックスを生成する装置が、情報処理装置１０とは異なるインデックス生成装置を例にして説明するが、情報処理装置１０が生成することもできる。

図３を用いて、オフセット付きのビットマップ型転置インデックスの生成例について説明する。図３に示すように、オフセット付きのビットマップ型転置インデックスの生成処理は、ビットマップ型インデックスのサイズ縮小を実現するために、ビットマップ型インデックスからハッシュ化インデックスを生成する。すなわち、ビットマップ型転置インデックスは、隣接した複数のハッシュ値（底）を基に、２次元（単語の軸とファイルの軸）にハッシュ化を適用したハッシュ化インデックスを生成する。

ここでいうビットマップ型インデックスとは、テキストデータに含まれる単語について、ファイルごとの存否をインデックス化したビットマップのことをいう。図３に示すように、ビットマップ型インデックスのＸ軸はオフセットを表し、ビットマップ型インデックスのＹ軸は単語ＩＤを表す。すなわち、ビットマップ型インデックスは、単語ＩＤが示す単語のあるファイルにおける存否を表す。一例として、ある単語ＩＤに対応するビットマップｂｉ１が示されている。ある単語ＩＤが示す単語がファイルに存在する場合には、当該単語のファイルの存否として２進数の「１」が設定され、当該単語がファイルに存在しない場合には、当該単語のファイルの存否として２進数の「０」が設定される。

例えば、図３に示すように、インデックス生成装置は、単語ＩＤに対応するビットマップそれぞれについてハッシュ関数を適用した複数のハッシュ化ビットマップを生成する。ここでは、インデックス生成装置は、３２ビットレジスタを想定し、一例として２９と３１のハッシュ値（底）を基に、各ビットマップをハッシュ化する。具体的には、インデックス生成装置は、１つの底のハッシュ化ビットマップについて、単語ＩＤに対応するビットマップの各ビットの位置を底で割った余りの位置に、当該ビットマップの各ビットの値を設定する。

一例として、インデックス生成装置は、底２９のハッシュ化ビットマップｈ１１について、ビットマップｂｉ１の各ビットの位置を底２９で割った余りの位置に、ビットマップｂｉ１の各ビットの値を設定する。ビットマップｂｉ１の３５ビット目の位置のビット値「１」は、ハッシュ化ビットマップｈ１１の６ビット目に設定される。ビットマップｂｉ１の４２ビット目の位置のビット値「１」は、ハッシュ化ビットマップｈ１１の１３ビット目に設定される。インデックス生成装置は、底３１のハッシュ化ビットマップｈ１２について、ビットマップｂｉ１の各ビットの位置を底３１で割った余りの位置に、ビットマップｂｉ１の各ビットの値を設定する。ビットマップｂｉ１の３５ビット目の位置のビット値「１」は、ハッシュ化ビットマップｈ１２の４ビット目に設定される。ビットマップｂｉ１の４２ビット目の位置のビット値「１」は、ハッシュ化ビットマップｈ１２の１１ビット目に設定される。すなわち、インデックス生成装置は、ビットマップの０ビット目からの各ビットを順番にハッシュ化ビットマップの０ビット目から設定し、（底－１）ビット目まで設定する。そして、インデックス生成装置は、再度折り返してハッシュ化ビットマップの０ビット目から既にハッシュ化ビットマップに設定された値とＯＲ演算した値を設定する。

より詳細に説明すると、一例として、インデックスにビットマップ５０が含まれるものとし、かかるビットマップ５０をハッシュ化する場合について説明する。インデックス生成装置は、ビットマップ５０から、底２９のビットマップ５０ａと、底３１のビットマップ５０ｂを生成する。ビットマップ５０ａは、ビットマップ５０に対して、オフセット２９毎に区切りを設定し、設定した区切りを先頭とするフラグ「１」のオフセットを、ビットマップ５０ａのオフセット０～２８のフラグで表現する。

インデックス生成装置は、ビットマップ５０のオフセット０～２８までの情報を、ビットマップ５０ａにコピーする。インデックス生成装置は、ビットマップ５０ａの２９以降のオフセットの情報を下記の様に処理する。

ビットマップ５０のオフセット「３５」にフラグ「１」が立っている。オフセット「３５」は、オフセット「２８＋７」であるため、インデックス生成装置は、ビットマップ５０ａのオフセット「６」に「（１）」を立てる。なお、オフセットの１番目を０としている。ビットマップ５０のオフセット「４２」にフラグ「１」が立っている。オフセット「４２」は、オフセット「２８＋１４」であるため、インデックス生成装置は、ビットマップ５０ａのオフセット「１３」にフラグ「（１）」を立てる。

ビットマップ５０ｂは、ビットマップ５０に対して、オフセット３１毎に区切りを設定し、設定した区切りを先頭とするフラグ「１」のオフセットを、ビットマップ５０ｂのオフセット０～３０のフラグで表現する。

ビットマップ５０のオフセット「３５」にフラグ「１」が立っている。オフセット「３５」は、オフセット「３０＋５」であるため、インデックス生成装置は、ビットマップ５０ｂのオフセット「４」に「（１）」を立てる。なお、オフセットの１番目を０としている。ビットマップ５０のオフセット「４２」にフラグ「１」が立っている。オフセット「４２」は、オフセット「３０＋１２」であるため、インデックス生成装置は、ビットマップ５０ｂのオフセット「１１」にフラグ「（１）」を立てる。

インデックス生成装置は、上記処理を実行することで、ビットマップ５０からビットマップ５０ａ、５０ｂを生成する。このビットマップ５０ａ、５０ｂが、ビットマップ５０をハッシュ化した結果となる。ここでは、ビットマップ５０の長さが０～４３である場合について説明したが、ビットマップ５０の長さが４３以上になる場合でも、ビットマップ５０に設定されたフラグ「１」を、ビットマップ５０ａおよびビットマップ５０ｂで表現することができる。

このようにして、インデックス生成装置は、各単語について、上述した手法により生成されたハッシュ化ビットマップを生成する。そして、転置インデックスＤＢ１３は、単語ごとのハッシュ化ビットマップを記憶する。ただし、上述したように、サイズ縮小されたものではなく、通常のサイズのビットマップ型転置インデックスを用いることもできる。また、サイズ縮小の手法は、公知の手法を採用することができる。

また、転置インデックスＤＢ１３は、符号化対象の文章データから生成されたインデックスであり、文章データに登場する各タグに対応する圧縮符号と文書データにおける出現位置とを対応付けた、オフセット付きのビットマップ型転置インデックスである共起ビットマップを記憶する。図４、共起ビットマップを説明する図である。図４に示すように、共起ビットマップは、オフセット付きのビットマップ型転置インデックスと同様の構成を有するが、異なる点はオフセットではなく単語である点である。なお、共起ビットマップの生成手法は、オフセット付きのビットマップ型転置インデックスと同様なので、詳細な説明は省略する。また、ビットマップ型転置インデックスと共起ビットマップとをまとめてビットマップ型転置インデックスと記載する場合がある。

静的辞書１４は、出現頻度の高い単語と、当該単語に予め割当てられた圧縮符号との対応付けを記憶するデータベースなどである。動的辞書１５は、静的辞書１４に登録されていない出現頻度の低い単語であって、符号化対象の文書データに登場した単語と、当該単語に割当てられた圧縮符号との対応付けを記憶するデータベースである。

図５は、静的辞書１４および動的辞書１５を説明する図である。図５に示す辞書は、静的辞書１４および動的辞書１５をあわせた辞書であり、圧縮符号とビットマップ型転置インデックスのＹ軸は、１対１に対応付けられている。図５に示す横軸の「０＊ｈ」から「９＊ｈ」までが静的辞書１４に対応し、「Ａ＊ｈ」から「Ｆ＊ｈ」までが動的辞書１５に対応する。

図５の上部の横方向の項目は、最初の１バイト目を０～Ｆの１６進数表記で示しており、「＊」は、２バイト目を示している。例えば、「１＊ｈ」は、１バイト目が２進数表記で「０００００００１」であることを示す。左側の縦方向の項目は、２バイト目を０～Ｆの１６進数表記で示しており、「＊」は、１バイト目を示している。例えば、「＊２ｈ」は、２バイト目が２進数表記で「００００００１０」であることを示す。

「０＊ｈ」、「１＊ｈ」の符号については、１バイトの符号であり、各階層とも、共通の制御コードが対応付けられている。また、「２＊ｈ」～「３＊ｈ」の符号については、１バイトの符号であり、高頻度に出現する単語の中でも特に頻度の高い超高頻度単語（英単語）が予め対応付けられており、「４＊ｈ」～「５＊ｈ」の符号については、１バイトの符号であり、高頻度に出現する単語の中でも特に頻度の高い超高頻度単語（日本語）が予め対応付けられている。

また、「６＊ｈ」～「７＊ｈ」の符号については、２バイトの符号であり、高頻度に出現する単語（英単語）が予め対応付けられており、「８＊ｈ」～「９＊ｈ」の符号については、２バイトの符号であり、高頻度に出現する単語（日本語）が予め対応付けられている。「Ａ＊ｈ」～「Ｆ＊ｈ」の符号については、２バイトまたは３バイトの符号であり、低頻度単語が出現した際に符号を動的に割り当てる。なお、「Ｅ＊ｈ」、「Ｆ＊ｈ」は、符号の不足に対応するため、３バイトの符号としている。

図２に戻り、共起情報ＤＢ１６は、符号化対象の文章データに含まれるタグと単語の関係性を記憶するデータベースである。ここで記憶される情報は、符号化時に生成される。図６は、共起情報ＤＢ１６に記憶される情報の例を示す図である。図６に示すように、共起情報ＤＢ１６は、「タグ」と「単語」を関連付けて記憶する。図６の例では、単語１はタグａで囲まれており、単語２はタグｃで囲まれていることを示す。

制御部２０は、情報処理装置１０全体を司る処理部であり、例えばプロセッサなどである。制御部２０は、取得部２１と復元部２２を実行する。なお、取得部２１と復元部２２は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例である。

取得部２１は、インデックス生成装置などの他のコンピュータから、オフセット付きのビットマップ型転置インデックスや共起ビットマップを取得する処理部である。具体的には、取得部２１は、図３で説明した手法で生成された上記ビットマップ型転置インデックスを取得して、転置インデックスＤＢ１３に格納する。また、取得部２１は、図３で説明した手法で生成された上記共起ビットマップを取得して、転置インデックスＤＢ１３に格納する。なお、取得部２１がオフセット付きのビットマップ型転置インデックスや共起ビットマップを生成することもできる。

復元部２２は、検索部２３と転置処理部２４と復元処理部２５を有し、ビットマップ型転置インデックス、共起ビットマップなどを用いて、元の文書データの復元を実行する処理部である。具体的には、復元部２２によって、ハッシュ化されているビットマップ型転置インデックスや共起ビットマップを復元した後、検索部２３と転置処理部２４と復元処理部２５を用いて、元の文書データの復元が実行される。なお、転置処理部２４と復元処理部２５は、第１配置部と第２配置部の一例である。

ここで、図７と図８を用いて、ハッシュ化されているビットマップ型転置インデックスの復元について説明する。図７は、ハッシュ化ビットマップ型転置インデックスの展開について説明する図であり、図８は、ハッシュ化ビットマップ型転置インデックスのＡＮＤ演算について説明する図である。ここでは一例として、ビットマップ５０ａとビットマップ５０ｂとを基にして、ビットマップ５０を復元する処理について説明する。ビットマップ５０、５０ａ、５０ｂは、図３で説明したものに対応する。

図７に示すように、復元部２２は、底２９のビットマップ５０ａを基にして、ビットマップ５１ａを生成する。ビットマップ５１ａのオフセット０～２８のフラグの情報は、ビットマップ５０ａのオフセット０～２８のフラグの情報と同様となる。ビットマップ５１ａのオフセット２９以降のフラグの情報は、ビットマップ５０ａのオフセット０～２８のフラグの情報の繰り返しとなる。

同様に、復元部２２は、底３１のビットマップ５０ｂを基にして、ビットマップ５１ｂを生成する。ビットマップ５１ｂのオフセット０～３０のフラグの情報は、ビットマップ５０ｂのオフセット０～３０のフラグの情報と同様となる。ビットマップ５１ｂのオフセット３１以降のフラグの情報は、ビットマップ５０ｂのオフセット０～３０のフラグの情報の繰り返しとなる。

その後、図８に示すように、復元部２２は、ビットマップ５１ａとビットマップ５１ｂとのＡＮＤ演算を実行することで、ビットマップ５０を生成する。図８に示す例では、オフセット「０、５、１１、１８、２５、３５、４２」において、ビットマップ５１ａおよびビットマップ５１ｂのフラグが「１」となっている。このため、ビットマップ５０のオフセット「０、５、１１、１８、２５、３５、４２」のフラグが「１」となる。このビットマップ５０が、復元されたビットマップとなる。復元部２２は、他のビットマップについても同様の処理を繰り返し実行することで、各ビットマップを復元し、インデックスを生成する。

図２に戻り、検索部２３は、ユーザから受信した、検索対象のタグなどを含む検索クエリにしたがって、検索対象を検索する処理部である。具体的には、検索部２３は、ハッシュ化によりサイズ縮小されたオフセット付きビットマップ型転置インデックスや共起ビットマップが復元された後、ビットマップのシフトとＡＮＤ演算により、全文検索を実行する。図９から図１１を用いて、検索部２３が実行する検索処理について具体的に説明する。図９は、復元対象のインデックスを説明する図である。図１０は、全文検索を説明する図である。図１１は、タグ条件検索を説明する図である。

図９に示すように、元データに６ビットから９ビット目に「＜副作用＞発熱＜／副作用＞」が含まれている場合、「発」に対応する復元後のビットマップ型転置インデックスでは７ビット目に「１」が格納されており、「熱」に対応する復元後のビットマップ型転置インデックスでは８ビット目に「１」が格納される。また、「＜副作用＞」に対応する復元後の共起ビットマップでは６ビット目に「１」が格納されており、「＜／副作用＞」に対応する復元後の共起ビットマップでは９ビット目に「１」が格納される。

図１０に示すように、検索部２３による検索処理は、ビットマップ型インデックスに含まれるビットマップと、検索条件の文字列を構成する各文字の出現順序に対応づけて生成される検索ビットマップとの論理演算により、当該検索条件の文字列を検索する。検索部２３が行う検索処理は、検索文字列を受け付ける。ここでは、検索文字列は、「発熱」である。

検索処理は、検索文字列「発熱」に含まれる先行する文字「発」に対応するビットマップをビットマップ型インデックスから抽出する。このビットマップの７ビット目に「１」が設定されている。検索処理は、このビットマップを１ビットだけ左シフトする。このビットマップの８ビット目に「１」が設定される。

続いて、検索処理は、検索文字列「発熱」に含まれる後続する２番目の文字「熱」に対応するビットマップをビットマップ型インデックスから抽出する。このビットマップの８ビット目に「１」が設定されている。検索処理は、先行する文字「発」に対応する、シフトした結果のビットマップと、後続する文字「熱」に対応するビットマップとをＡＮＤ演算する。このＡＮＤ演算した結果のビットマップが、検索文字列を構成する「発熱」における出現順序に対応づけて生成される検索ビットマップに対応する。そして、検索処理は、演算の結果、ビットマップの全てのビットが「０」であるか否かを判定する。ここでは、ビットマップの８ビット目が「１」として算出されるので、全てのビットが「０」であるとはいえないと判定される。すなわち、検索処理は、今回の文字と次の文字とを含む文字列「発熱」が存在すると判定する。

さらに、検索処理は、タグ「＜副作用＞」に対応するビットマップをビットマップ型インデックスから抽出し、このビットマップの６ビット目に「１」が設定されている。同様に、検索処理は、タグ「＜／副作用＞」に対応するビットマップをビットマップ型インデックスから抽出し、このビットマップの９ビット目に「１」が設定されている。そして、検索処理では、開始タグ＜副作用＞と終了タグ＜／副作用＞とに囲まれる６ビット目から９ビット目までに「１」が設定されるビットマップを生成する。

その後、検索処理は、ここで生成したタグ＜副作用＞に対応する６ビット目から９ビット目までに「１」が設定されるビットマップと、８ビット目に「１」が設定された上記「発熱」に対応するビットマップとのＡＮＤ演算を実行する。そして、検索処理は、ＡＮＤ演算の結果、８ビット目に「１」が設定されたビットマップを生成する。ここで、検索処理は、演算の結果、ビットマップの全てのビットが「０」であるか否かを判定する。この例では、ビットマップの８ビット目が「１」として算出されるので、全てのビットが「０」であるとはいえないと判定される。すなわち、検索処理は、タグの間に文字列「発熱」が存在するととともに、６ビット目から９ビット目までが検索クエリに対応する復元箇所と判定することができる。

転置処理部２４は、該当の単語の圧縮符号および該当のタグの圧縮符号を、ビットマップ型転置インデックスのビットマップや共起ビットマップをもとに、転置バッファに転置する処理部である。転置処理部２４は、動的辞書１５で管理される符号の最大バイト数である３バイトで区切った転置バッファをメモリ等に確保し、単語やタグが出現した位置に対応する転置バッファに、該当単語やタグの圧縮符号を格納する。

図１２は、圧縮符号の転置を説明する図である。例えば、図１２に示すように、転置処理部２４は、単語「発」に対応する圧縮符号「２０ｈ」のオフセット（位置）の７の位置に「１」が格納されているので、転置バッファの８番目である（７）に圧縮符号「２０ｈ」を格納する。なお、圧縮符号「２０ｈ」が格納された領域内で、使用されていない領域はＮＵＬＬとなる。同様に、転置処理部２４は、単語「熱」に対応する圧縮符号「２５ｈ」のオフセット（位置）の８の位置に「１」が格納されているので、転置バッファの９番目である（８）に圧縮符号「２５ｈ」を格納する。なお、圧縮符号「２５ｈ」が格納された領域内で、使用されていない領域はＮＵＬＬとなる。同様に、転置処理部２４は、タグ＜副作用＞に対応する圧縮符号「Ａ０００ｈ」のオフセット（位置）の６の位置に「１」が格納されているので、転置バッファの７番目である（６）に圧縮符号「Ａ０００ｈ」を格納する。なお、圧縮符号「Ａ０００ｈ」が格納された領域内で、使用されていない領域はＮＵＬＬとなる。

このようにして、転置処理部２４は、単語「発」、単語「熱」、タグ「＜副作用＞」、タグ＜／副作用＞」の各圧縮符号のビットマップ型転置インデックスに基づいて、３バイト区切りの転置バッファの先頭から順に、文書データ内の出現順で該当単語等の圧縮符号を格納することができる。そして、転置処理部２４は、圧縮符号が格納された転置バッファを復元処理部２５に出力する。

復元処理部２５は、圧縮符号が格納された転置バッファから、元の文書データの復元対象の部分を復元する処理部である。具体的には、復元処理部２５は、転置バッファ内のＮＵＬＬを削除して、圧縮符号だけを抽出した圧縮データを生成する。その後、復元処理部２５は、各圧縮符号を、静的辞書１４または動的辞書１５を用いて元の単語に復元することで、文書データの復元を実行する。なお、圧縮データにＮＵＬＬを挿入して、転置バッファの状態を復元することもできる。

図１３は、圧縮データの生成および元の文書データの復元を説明する図である。図１３に示すように、復元処理部２５は、転置バッファの先頭である（０）のバッファから順に（ｎ）のバッファまで、「ＮＵＬＬ」を削除して、圧縮符号「Ａ０００ｈ」、「２０ｈ」、「２５ｈ」、「Ａ００１ｈ」を順に抽出する。そして、復元処理部２５は、抽出した圧縮符号を連結させた圧縮データ「Ａ０００ｈ，２０ｈ，２５ｈ，Ａ００１ｈ」を生成する。

その後、復元処理部２５は、静的辞書１４および動的辞書１５を参照して、圧縮データ「Ａ０００ｈ，２０ｈ，２５ｈ，Ａ００１ｈ」の各圧縮符号に対応する単語等を特定し、圧縮データを単語等に変換した「＜副作用＞、発、熱、＜／副作用＞」を生成する。そして、復元処理部２５は、変換して得られた単語等を連結させて、復元対象の「＜副作用＞発熱＜／副作用＞」を復元する。

［処理の流れ］
図１４は、処理の流れを示すフローチャートである。ここでは、静的辞書と動的辞書は、すでに記憶されているものとする。

図１４に示すように、情報処理装置１０の取得部２１は、処理開始が指示されると（Ｓ１０１：Ｙｅｓ）、単語ごとのビットマップ型転置インデックスを取得する（Ｓ１０２）。また、取得部２１は、タグごとの共起ビットマップを取得する（Ｓ１０３）。ここで、復元部２２は、各ビットマップ型転置インデックスがハッシュ化されてサイズ縮小されている場合は、元のサイズに復元する。

続いて、検索部２３は、検索対象のタグや単語などを含む検索クエリをユーザ端末などから受信すると（Ｓ１０４）、全文検索を実行し（Ｓ１０５）、タグ条件検索を実行して（Ｓ１０６）、検索クエリの検索対象が元の文書に含まれていることや復元対象である元文書の一部分を特定する（Ｓ１０７）。

続いて、転置処理部２４は、圧縮符号の転置用バッファを確保する（Ｓ１０８）。そして、復元処理部２５は、特定された単語とタグのそれぞれに該当するビットマップを用いて、復元対象の圧縮符号を特定し、特定した圧縮符号を転置用バッファの該当位置に格納し、ＮＵＬＬを削除して圧縮データを生成する（Ｓ１０９）。

その後、復元処理部２５は、各辞書を用いて、圧縮データ内の各圧縮符号を単語等に復元し（Ｓ１１０）、復元された単語等を用いて、該当部分のみを復元する（Ｓ１１１）。

［効果］
上述したように、情報処理装置１０は、オフセット付きのビットマップ型転置インデックス、共起ビットマップをもとに、圧縮符号の転置と置換、およびテキストを復元する。具体的には、情報処理装置１０は、オフセット付きのビットマップ型転置インデックスのビット列の１ビットと圧縮符号のバイト列の固定３バイトを対応付け、復号対象の部分（タグ関連部分）についてのみ、該当単語の圧縮符号の転置を実行する。続いて、情報処理装置１０は、各圧縮符号のＮＵＬＬバイトをサプレスする。その後、情報処理装置１０は、固定３バイトの圧縮符号のバイト列をもとに、静的辞書と動的辞書を用いて、復元対象のタグ関連部分のみを復元する。したがって、情報処理装置１０は、共起ビットマップをもとに、復号対象の部分（タグ関連部分）のみを絞り込んで復元することで高速化を図ることができる。

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下に異なる実施例を説明する。

［検索対象］
実施例１にかかる情報処理装置１０は、検索クエリとして単語またはタグなどを受け付けて上記検索処理を実行することができる。また、検索クエリに指定するタグは、開始タグと終了タグの両方であっても、いずれか一方であっても、実施例と同様の手法を用いて、処理することができる。また、情報処理装置１０は、タグなどに限らずカラムなどについても同様に処理することができ、共起する形態素であれば、どのような形態素を採用することもできる。

また、実施例１では、「発」と「熱」を別々にして符号化する例を説明したが、これに限定されるものではなく、「発熱」として符号化することもできる。なお、実施例で説明した圧縮符号は、あくまで一例であり、値などを限定するものではない。また、単語やタグなどの形態素と圧縮符号との関係もあくまで一例であり、値などを限定するものではない。

また、ビットマップ型インデックス、共起ビットマップ、共起情報ＤＢ１６などは、情報処理装置１０が生成することもでき、インデックス生成装置が生成して情報処理装置１０がインデックス生成装置から取得することもできる。

［システム］
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵ（Central Processing Unit）および当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

［ハードウェア構成］
図１５は、実施例１の情報処理装置１０のハードウェア構成を示す図である。図１５の例に示すように、コンピュータ４００は、各種演算処理を実行するＣＰＵ４０１と、ユーザからのデータ入力を受け付ける入力装置４０２と、モニタ４０３とを有する。また、コンピュータ４００は、記憶媒体からプログラム等を読み取る媒体読取装置４０４と、他の装置と接続するためのインターフェース装置４０５と、他の装置と無線により接続するための無線通信装置４０６とを有する。また、コンピュータ４００は、各種情報を一時記憶するＲＡＭ（Random Access Memory）４０７と、ハードディスク装置４０８とを有する。また、各装置４０１～４０８は、バス４０９に接続される。

ハードディスク装置４０８には、例えば図２に示した取得部２１と復元部２２の各処理部と同様の機能を有する情報処理プログラムが記憶される。また、ハードディスク装置４０８には、情報処理プログラムを実現するための各種データが記憶される。

ＣＰＵ４０１は、ハードディスク装置４０８に記憶された各プログラムを読み出して、ＲＡＭ４０７に展開して実行することで各種の処理を行う。これらのプログラムは、コンピュータ４００を、例えば図２に示した取得部２１と復元部２２として機能させることができる。

なお、上記の情報処理プログラムは、必ずしもハードディスク装置４０８に記憶されている必要はない。例えば、コンピュータ４００が読み取り可能な記憶媒体に記憶されたプログラムを、コンピュータ４００が読み出して実行するようにしてもよい。コンピュータ４００が読み取り可能な記憶媒体は、例えば、ＣＤ－ＲＯＭ（Compact Disc Read only memory）やＤＶＤ、ＵＳＢ（Universal Serial Bus）メモリ等の可搬型記録媒体、フラッシュメモリ等の半導体メモリ、ハードディスクドライブ等が対応する。また、公衆回線、インターネット、ＬＡＮ（Local Area Network）等に接続された装置にこのプログラムを記憶させておき、コンピュータ４００がこれらからプログラムを読み出して実行するようにしてもよい。

図１６は、コンピュータ４００で動作するプログラムの構成例を示す図である。コンピュータ４００において、図１５に示すハードウェア群２６（４０１～４０９）の制御を行なうＯＳ（オペレーティング・システム）２７が動作する。ＯＳ２７に従った手順でＣＰＵ４０１が動作して、ハードウェア群２６の制御・管理が行なわれることにより、アプリケーションプログラム２９やミドルウェア２８に従った処理がハードウェア群２６で実行される。さらに、コンピュータ４００において、ミドルウェア２８またはアプリケーションプログラム２９が、ＲＡＭ４０７に読み出されてＣＰＵ４０１により実行される。

ＣＰＵ４０１により検索機能が呼び出された場合、ミドルウェア２８またはアプリケーションプログラム２９の少なくとも一部に基づく処理を行なうことで、（それらの処理をＯＳ２７に基づいてハードウェア群２６を制御して）、取得部２１と復元部２２の機能が実現される。取得部２１と復元部２２の各機能は、それぞれアプリケーションプログラム２９自体に含まれてもよいし、アプリケーションプログラム２９に従って呼び出されることで実行されるミドルウェア２８の一部であってもよい。

図１７は、実施形態のシステムにおける装置の構成例を示す図である。図１７のシステムは、コンピュータ４００ａ、コンピュータ４００ｂ、基地局３０およびネットワーク４０を含む。コンピュータ４００ａは、無線または有線の少なくとも一方により、コンピュータ４００ｂと接続されたネットワーク４０に接続している。

１０情報処理装置
１１通信部
１２記憶部
１３転置インデックスＤＢ
１４静的辞書
１５動的辞書
１６共起情報ＤＢ
２０制御部
２１取得部
２２復元部
２３検索部
２４転置処理部
２５復元処理部

Claims

テキストデータにより生成された、前記テキストデータに含まれる複数の形態素の位置を前記複数の形態素それぞれと対応付けたインデックスを参照して、第１の形態素の前記テキストデータにおける位置の順で前記第１の形態素を配置し、
形態素間の関係性を示す関係性情報を参照し、前記第１の形態素が第２の形態素と関係性を有する特定の種別である場合、前記インデックスを参照し、前記テキストデータにおける位置の順で前記第２の形態素を配置する、
処理をコンピュータに実行させることを特徴とするデータ生成プログラム。
前記テキストデータに含まれる形態素それぞれを符号化した符号と、前記テキストデータにおける当該形態素を対応づけた前記インデックスを参照して、前記テキストデータを符号化した符号化データにおける前記第１の形態素の位置および前記第２の形態素の位置を特定し、
前記符号化データの中から、前記第１の形態素および前記第２の形態素を前記テキストデータにおける位置の順で配置して復号することを特徴とする請求項１に記載のデータ生成プログラム。
前記符号化データの検索対象として、単語とタグ、または、単語とカラムを受け付けた場合に、前記インデックスを参照して前記単語に該当する第１の符号と前記タグまたは前記カラムに対応する第２の符号とを特定し、
前記符号化データにおける前記第１の符号の位置および前記第２の符号の位置を特定し、
前記符号化データの中から、前記第１の符号および前記第２の符号を前記テキストデータにおける位置の順で配置して復号することを特徴とする請求項２に記載のデータ生成プログラム。
テキストデータにより生成された、前記テキストデータに含まれる複数の形態素の位置を前記複数の形態素それぞれと対応付けたインデックスを参照して、第１の形態素の前記テキストデータにおける位置の順で前記第１の形態素を配置し、
形態素間の関係性を示す関係性情報を参照し、前記第１の形態素が第２の形態素と関係性を有する特定の種別である場合、前記インデックスを参照し、前記テキストデータにおける位置の順で前記第２の形態素を配置する、
処理をコンピュータが実行することを特徴とするデータ生成方法。
テキストデータにより生成された、前記テキストデータに含まれる複数の形態素の位置を前記複数の形態素それぞれと対応付けたインデックスを参照して、第１の形態素の前記テキストデータにおける位置の順で前記第１の形態素を配置する第１配置部と、
形態素間の関係性を示す関係性情報を参照し、前記第１の形態素が第２の形態素と関係性を有する特定の種別である場合、前記インデックスを参照し、前記テキストデータにおける位置の順で前記第２の形態素を配置する第２配置部と
を有することを特徴とする情報処理装置。