JP2022185581A

JP2022185581A - 個別データ検索サービスを提供する方法、コンピュータ装置、およびコンピュータプログラム

Info

Publication number: JP2022185581A
Application number: JP2022088502A
Authority: JP
Inventors: ジョンホパン; Jeongho Ban; チャンヒョンイ; Chang Hyun Lee
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2021-06-02
Filing date: 2022-05-31
Publication date: 2022-12-14
Anticipated expiration: 2042-05-31
Also published as: JP7377915B2; KR102592785B1; KR20220162963A

Abstract

【課題】コンピュータ装置で実行される個別データ検索方法を提供する。【解決手段】コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、個別データ検索方法は、少なくとも１つのプロセッサにより、ユーザと関連する個別データに該当する検索対象文書をブロック単位のボリュームに圧縮して保存する段階、および少なくとも１つのプロセッサにより、検索要請に対応する複数のボリュームを並列にフルスキャン（ｆｕｌｌｓｃａｎ）検索する段階を含む。【選択図】図４

Description

以下の説明は、個別データ検索サービスを提供する技術に関する。

テキスト文書データに対する検索は、極めて基本的で重要な演算であり、情報検索分野において広く使用されている。

検索エンジンとは、広義ではインターネット上で情報を収集して探索するシステムを意味し、主に、インターネット上のウェブページをクローリング（ｃｒａｗｌｉｎｇ）し、特定の検索語（ｑｕｅｒｙ）が入力されれば、該当の検索語と関連するウェブページを結果値で示すシステムを指す。

例えば、特許文献１（登録日２０１１年３月２日）は、クライアントに対するカスタム検索エンジンを提供する技術を開示している。

一般的に、検索には、ターム（ｔｅｒｍ）を索引する転置索引（ｉｎｖｅｒｔｅｄｉｎｄｅｘ）資料構造が使用される。既存の資料構造では１つの主キー（ｐｒｉｍａｒｙｋｅｙ）が複数のフィールドを指定しているとすれば、転置索引では１つの値（ｔｅｒｍ）で該当の値が含まれた文書番号を指定する。

一方、近年は、個人メール、個人ファイル、メッセンジャーチャットルームなどの個別データ内で検索を行うサービスが提供されている。

転置索引は検索の応答速度に最適な資料構造ではあるが、個別データ検索サービスでは検索対象が全体文書のうちの極一部であるため、費用と資源を考慮すると転置索引資料構造は相応しくない。

韓国登録特許第１０－１０２１０２２号公報

個別データ検索サービスに特化したエンジンとして、転置索引のない検索エンジンを提供する。

個別データ検索サービスの基本要求事項となる部分一致検索のためにフルスキャン（ｆｕｌｌｓｃａｎ）方式を適用するのと同時に、個別データ検索サービスの応答速度を満たすことのできる検索エンジンを提供する。

コンピュータ装置で実行される個別データ検索方法であって、前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記個別データ検索方法は、前記少なくとも１つのプロセッサにより、ユーザと関連する個別データに該当する検索対象文書をブロック単位のボリュームに圧縮して保存する段階、および前記少なくとも１つのプロセッサにより、検索要請に対応する複数のボリュームを並列にフルスキャン（ｆｕｌｌｓｃａｎ）検索する段階を含む、個別データ検索方法を提供する。

一側面によると、前記保存する段階は、前記検索対象文書を一定サイズのブロック単位で集めて圧縮することによって圧縮ボリュームを生成する段階を含んでよい。

他の側面によると、前記保存する段階は、新規文書が流入する場合、前記新規文書を前記検索対象文書からなる増分ボリューム（ｉｎｃｒｅｍｅｎｔｖｏｌｕｍｅ）に付け足す（ａｐｐｅｎｄ）段階、および前記増分ボリュームを一定サイズのブロック単位に圧縮して圧縮ボリュームを生成する段階を含んでよい。

また他の側面によると、前記保存する段階は、前記圧縮ボリュームが生成された後に既存の文書が削除される場合、前記既存の文書に対する削除情報をマーキングする段階をさらに含み、前記マーキングされた文書は検索結果から除外してよい。

また他の側面によると、前記検索する段階は、転置索引（ｉｎｖｅｒｔｅｄｉｎｄｅｘ）資料構造は使用せず、前記ブロック単位の圧縮ボリュームに対するフルスキャン方式によってクエリと部分一致する文書を検索してよい。

また他の側面によると、前記検索する段階は、前記複数のボリュームを並列にデコードする段階、および前記デコードされたボリュームを対象に文字列ファインド（ｆｉｎｄ）を並列に実行する段階を含んでよい。

また他の側面によると、前記保存する段階は、サーバの二重化のために、複数のホストに前記個別データに対する複製ボリューム（ｒｅｐｌｉｃａｖｏｌｕｍｅ）を保存する段階を含んでよい。

また他の側面によると、前記検索する段階は、前記検索要請に含まれたクエリと前記複数のボリューム内の文書をユニコード正規化する段階、および正規化された文字列を利用して照合（ｃｏｌｌａｔｉｏｎ）検索を行う段階を含んでよい。

また他の側面によると、前記保存する段階は、前記検索対象文書をユニコード正規化する段階を含み、前記検索する段階は、前記検索要請に含まれたクエリをユニコード正規化する段階、および正規化された文字列を利用して照合検索を行う段階を含んでよい。

さらに他の側面によると、前記保存する段階は、変換文字位置を示すオフセットと該当の位置の原本文字を含む変換テーブルを生成する段階をさらに含んでよい。

前記検索方法をコンピュータ装置に実行させるためのコンピュータプログラムを提供する。

コンピュータ装置であって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、ユーザと関連する個別データに該当する検索対象文書をブロック単位のボリュームに圧縮して保存する文書保存部、および検索要請に対応する複数のボリュームを並列にフルスキャン検索する並列検索部を含む、コンピュータ装置を提供する。

本発明の実施形態によると、個別データ検索サービスに特化したエンジンとして、転置索引資料構造を使用せずに個別データ検索サービスの応答速度を満たすことのできる検索エンジンを提供することができる。

本発明の実施形態によると、検索対象となる文書をブロック単位の圧縮ボリュームで生成して圧縮ボリュームを並列にフルスキャン検索することにより、検索効率の高い、直観的な検索サービスを提供することができる。

本発明の一実施形態における、ネットワーク環境の例を示した図である。本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。本発明の一実施形態における、コンピュータ装置のプロセッサが含むことのできる構成要素の例を示した図である。本発明の一実施形態における、コンピュータ装置が実行することのできる方法の例を示したフローチャートである。本発明の一実施形態における、入力／出力時間を減らす方法を説明するための例示図である。本発明の一実施形態における、索引の代わりをするボリューム生成過程を説明するための例示図である。本発明の一実施形態における、索引の代わりをするボリューム生成過程を説明するための例示図である。本発明の一実施形態における、ＣＰＵ時間を減らす方法を説明するための例示図である。本発明の一実施形態における、フルスキャン方式を利用した個別データ検索サービス構造を示した図である。本発明の一実施形態における、検索サーバの二重化を説明するための例示図である。本発明の一実施形態における、照合（ｃｏｌｌａｔｉｏｎ）検索が必要とする正規化過程を説明するための例示図である。

以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。

本発明の実施形態は、個別データ検索サービスを提供する技術に関する。

本明細書で具体的に開示する事項を含む実施形態は、個別データ検索サービスに特化したエンジンとして転置索引（ｉｎｖｅｒｔｅｄｉｎｄｅｘ）のない検索エンジンを提供することができ、これにより、検索効率性、サービス直観性、費用節減などの側面において相当な長所を達成することができる。

本明細書において、個別データとは検索対象となる文書を意味し、特に、メールサービスで生成された個人メール文書、ドライブサービスで生成された個人ファイル、メッセージングサービスで生成された個人トークメッセージなどのようなユーザの個人文書を包括したものを意味してよい。

本発明の実施形態に係る個別データ検索装置は、少なくとも１つのコンピュータ装置によって実現されてよく、本発明の実施形態に係る個別データ検索方法は、個別データ検索装置に含まれる少なくとも１つのコンピュータ装置によって実行されてよい。このとき、コンピュータ装置においては、本発明の一実施形態に係るコンピュータプログラムがインストールされて実行されてよく、コンピュータ装置は、実行されたコンピュータプログラムの制御にしたがって本発明の実施形態に係る個別データ検索方法を実行してよい。上述したコンピュータプログラムは、コンピュータ装置と結合して個別データ検索方法をコンピュータに実行させるためにコンピュータ読み取り可能な記録媒体に記録されてよい。

図１は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図１のネットワーク環境は、複数の電子機器１１０、１２０、１３０、１４０、複数のサーバ１５０、１６０、およびネットワーク１７０を含む例を示している。このような図１は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図１のように限定されることはない。また、図１のネットワーク環境は、本実施形態に適用可能な環境のうちの一例を説明したものに過ぎず、本実施形態に適用可能な環境が図１のネットワーク環境に限定されることはない。

複数の電子機器１１０、１２０、１３０、１４０は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器１１０、１２０、１３０、１４０の例としては、スマートフォン、携帯電話、ナビゲーション、ＰＣ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）、ノート型ＰＣ、デジタル放送用端末、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、タブレットなどがある。一例として、図１では、電子機器１１０の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器１１０は、実質的に無線または有線通信方式を利用し、ネットワーク１７０を介して他の電子機器１２０、１３０、１４０および／またはサーバ１５０、１６０と通信することができる多様な物理的なコンピュータ装置のうちの１つを意味してよい。

通信方式が限定されることはなく、ネットワーク１７０が含むことのできる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網）を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク１７０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。さらに、ネットワーク１７０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター－バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の１つ以上を含んでもよいが、これらに限定されることはない。

サーバ１５０、１６０それぞれは、複数の電子機器１１０、１２０、１３０、１４０とネットワーク１７０を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する１つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ１５０は、ネットワーク１７０を介して接続した複数の電子機器１１０、１２０、１３０、１４０にサービス（一例として、金融サービス）を提供するシステムであってよい。

図２は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。上述した複数の電子機器１１０、１２０、１３０、１４０それぞれやサーバ１５０、１６０それぞれは、図２に示したコンピュータ装置２００によって実現されてよい。

このようなコンピュータ装置２００は、図２に示すように、メモリ２１０、プロセッサ２２０、通信インタフェース２３０、および入力／出力インタフェース２４０を含んでよい。メモリ２１０は、コンピュータ読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ＲＯＭやディスクドライブのような永続的大容量記録装置は、メモリ２１０とは区分される別の永続的記録装置としてコンピュータ装置２００に含まれてもよい。また、メモリ２１０には、オペレーティングシステムと、少なくとも１つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ２１０とは別のコンピュータ読み取り可能な記録媒体からメモリ２１０にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー（登録商標）ドライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース２３０を通じてメモリ２１０にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク１７０を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置２００のメモリ２１０にロードされてよい。

プロセッサ２２０は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ２１０または通信インタフェース２３０によって、プロセッサ２２０に提供されてよい。例えば、プロセッサ２２０は、メモリ２１０のような記録装置に記録されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。

通信インタフェース２３０は、ネットワーク１７０を介してコンピュータ装置２００が他の装置（一例として、上述した記録装置）と互いに通信するための機能を提供してよい。一例として、コンピュータ装置２００のプロセッサ２２０がメモリ２１０のような記録装置に記録されたプログラムコードにしたがって生成した要求や命令、データ、ファイルなどが、通信インタフェース２３０の制御にしたがってネットワーク１７０を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク１７０を経てコンピュータ装置２００の通信インタフェース２３０を通じてコンピュータ装置２００に受信されてよい。通信インタフェース２３０を通じて受信された信号や命令、データなどは、プロセッサ２２０やメモリ２１０に伝達されてよく、ファイルなどは、コンピュータ装置２００がさらに含むことのできる記録媒体（上述した永続的記録装置）に記録されてよい。

入力／出力インタフェース２４０は、入力／出力装置２５０とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、またはマウスなどの装置を、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力／出力インタフェース２４０は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置２５０は、コンピュータ装置２００と１つの装置で構成されてもよい。

また、他の実施形態において、コンピュータ装置２００は、図２の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術の構成要素を明確に図に示す必要はない。例えば、コンピュータ装置２００は、上述した入力／出力装置２５０のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、データベースなどのような他の構成要素をさらに含んでもよい。

以下では、個別データ検索サービスを提供する方法およびコンピュータ装置の具体的な実施形態について説明する。

図３は、本発明の一実施形態における、コンピュータ装置のプロセッサが含むことのできる構成要素の例を示したブロック図であり、図４は、本発明の一実施形態における、コンピュータ装置が実行することのできる方法の例を示したフローチャートである。

本実施形態に係るコンピュータ装置２００は、クライアントを対象に、クライアント上にインストールされた専用アプリケーションやコンピュータ装置２００と関連するウェブ／モバイルサイトへの接続によって個別データ検索サービスを提供してよい。コンピュータ装置２００には、コンピュータで実現された個別データ検索装置が構成されてよい。

個別データ検索サービスは、文書の流入量は多いが検索要請は相対的に少ない。さらに、個別データ検索サービスは、基本要求事項としてクエリと部分一致する文書を探索する部分一致検索を要求する。個別データ検索サービスの場合、検索時に実際に検索する文書は、全体文書のうちの極一部に過ぎない。

個別データ検索サービスは文書の流入量が多いため、検索に一般的に使用する転置索引資料構造を利用する場合には過多な転置索引費用が発生し、検索サーバの資源浪費に繋がるという問題がある。

さらに、転置索引資料構造で部分一致検索を提供するためには文書のバイグラム（ｂｉｇｒａｍ）分析が実行されなければならないが、バイグラム分析時にはターム（ｔｅｒｍ）の数やボリューム（ｖｏｌｕｍｅ）などが大きくなり、サービスに困難をきたす。

本実施形態では、上述したような個別データ検索サービスの特徴を考慮した上で、個別データ検索サービスに特化したエンジンとして、転置索引資料構造は使用せずに個別データ検索サービスの応答速度を満たすことのできる検索エンジンを提供する。

コンピュータ装置２００のプロセッサ２２０は、図４に示した個別データ検索方法を実行するための構成要素として、図３に示すように、文書保存部３１０および並列検索部３２０を含んでよい。実施形態によって、プロセッサ２２０の構成要素は、選択的にプロセッサ２２０に含まれても除外されてもよい。また、実施形態によって、プロセッサ２２０の構成要素は、プロセッサ２２０の機能の表現のために分離されても併合されてもよい。

このようなプロセッサ２２０およびプロセッサ２２０の構成要素は、図３の個別データ検索方法に含まれる段階Ｓ４１０～Ｓ４２０を実行するようにコンピュータ装置２００を制御してよい。例えば、プロセッサ２２０およびプロセッサ２２０の構成要素は、メモリ２１０が含むオペレーティングシステムのコードと、少なくとも１つのプログラムのコードとによる命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。

ここで、プロセッサ２２０の構成要素は、コンピュータ装置２００に記録されたプログラムコードが提供する命令にしたがってプロセッサ２２０によって実行される、互いに異なる機能（ｄｉｆｆｅｒｅｎｔｆｕｎｃｔｉｏｎｓ）の表現であってよい。例えば、コンピュータ装置２００が検索対象となる文書を保存するように上述した命令にしたがってコンピュータ装置２００を制御するプロセッサ２２０の機能的表現として、文書保存部３１０が利用されてよい。

プロセッサ２２０は、コンピュータ装置２００の制御と関連する命令がロードされたメモリ２１０から必要な命令を読み取ってよい。この場合、前記読み取られた命令は、プロセッサ２２０が以下で説明する段階Ｓ４１０～Ｓ４２０を実行するように制御するための命令を含んでよい。

以下で説明する段階Ｓ４１０～Ｓ４２０は、図４に示したものとは異なる順序で実行されてもよいし、段階Ｓ４１０～Ｓ４２０のうちの一部が省略されたり追加の過程がさらに含まれたりしてもよい。

図４を参照すると、段階Ｓ４１０で、文書保存部３１０は、個人メール、個人ファイル、個人トークメッセージなどのような個別データに該当する検索対象文書をブロック単位のボリュームで保存することによって検索ボリュームを生成してよい。本発明の一実施形態によると、検索ボリュームは、ファイル形態で不揮発性メモリ２１０（例えば、ディスクのような補助記憶装置）に記録され、並列検索部３２０で検索がなされるときに、他のメモリ２１０（例えば、ＲＡＭのような揮発性の主記憶装置）からボリュームファイルを読み込んで処理してよい。このとき、保存されるファイルを圧縮すれば、ファイルの読み込み（ｒｅａｄ）にかかる時間を減らすことができ、検索応答時間を減らすことができる。

文書保存部３１０は、検索対象となる流入文書をブロック単位のボリュームで保存するが、このとき、検索応答時間を最小化するために、ボリュームをブロック単位に圧縮して圧縮ボリュームとして保存する。言い換えれば、文書保存部３１０は、検索過程でボリュームの読み込み時間を減らすために、ボリューム生成段階で検索対象文書を圧縮してから保存してよい。このとき、文書保存部３１０は、検索対象文書を事前に定められた一定サイズのブロック単位で集めて圧縮してよい。各ブロックのサイズは、圧縮率が出るように十分に大きくて並列化が可能な水準の経験値や実験値によって決定されてよく、１００ＫＢ～１０ＭＢの値のうち、例えば、１ＭＢのブロック単位に圧縮ボリュームを生成してよい。転置索引構造を使用せずに検索ボリュームを生成することにより、ボリュームの生成過程（すなわち、パッキング（ｐａｃｋｉｎｇ））が軽くなり、ボリュームの生成費用を大幅に減らすことができる。検索対象文書を圧縮する場合、検索にかかる入力／出力時間（Ｉ／Ｏｔｉｍｅ）を減らすことができる上に、ボリュームのサイズとサーバの資源需要を減らすことができる。

段階Ｓ４２０で、並列検索部３２０は、検索要請が受信される場合、検索要請に対応する圧縮ボリュームを読み込み、読み込んだ圧縮ボリュームに対するフルスキャン検索を並列実行してよい。このとき、並列検索部３２０は、クエリと部分一致する文書を探索する文字列ファインド（ｆｉｎｄ）方式によってフルスキャン検索を行ってよい。並列検索部３２０は、検索要請が受信されれば、検索要請に対応する圧縮ボリュームを読み込んだ後、文字列ファインドを実行してよい。文字列ファインドを実行するためにはボリューム内の全体文書を読み込む必要があるが、圧縮ボリュームを読み込む過程は並列化が不可能である反面、圧縮ボリュームのデコードと文字列ファインド過程は並列化が可能である。言い換えれば、並列検索部３２０は、検索要請に対応するすべての圧縮ボリュームを並列にデコードした後に文字列ファインドを実行してよい。個別データ検索サービスでの検索対象は全体文書のうちの極一部であるため、転置索引資料構造の代わりにフルスキャン検索を行うことにより、十分な速さの応答速度を保障することができる。フルスキャン検索方式は、検索ボリュームに原本文書をそのまま保存した後にスキャンすることができるため、ボリュームの生成費用を大幅に節減することができ、増分（ｉｎｃｒｅｍｅｎｔ）実現が簡単であり、新規文書の反映も迅速であるという利点がある。特に、本実施形態では、フルスキャン検索時に、ブロック単位の並列化によってボリュームのデコード時間と文字列ファインドの実行時間を含むＣＰＵ時間を減らすことができる。

本実施形態は、転置索引構造は使用せず、フルスキャン方式を利用した個別データ検索サービスを提供する。

フルスキャン検索は、検索要請に対応するボリュームを読み込んだ後、該当のボリューム内の全体文書を読み込んでクエリと部分一致する文書を探索する。このとき、検索応答時間は、ボリュームを読み込む入力／出力時間とフルスキャン検索を行うＣＰＵ時間を含む。

フルスキャン方式を利用した個別データ検索サービスの場合、検索応答時間を最小化するために、入力／出力時間を減らす方法とＣＰＵ時間を減らす方法が適用される。

図５は、本発明の一実施形態における、入力／出力時間を減らす方法を説明するための例示図である。

図５の入力／出力時間を減らす方法は、図４で説明した文書保存段階Ｓ４１０に該当する。

プロセッサ２２０は、検索対象文書を一定サイズのブロック単位に圧縮してよい。図５を参照すると、検索対象文書からなる増分ボリューム（ｉｎｃｒｅｍｅｎｔｖｏｌｕｍｅ）５０を一定サイズのブロック単位に圧縮してよい。言い換えれば、プロセッサ２２０は、検索対象文書を分けて圧縮することによってブロック単位の圧縮ボリューム６０を生成してよく、これにより、検索応答時間のうちの入力／出力時間を減らすことができる。例えば、図５に示すように４００％の圧縮率を適用した場合、入力／出力時間と保存空間を１／４に減らすことができる。

個別データ検索サービスのための資料構造には、検索対象文書を圧縮前に集めておいたボリュームを示す増分ボリューム５０と、一定サイズのブロック単位に圧縮されたボリュームを示す圧縮ボリューム６０が存在する。増分ボリュームは、少量の文書が継続して流入する環境において、ボリュームファイルの読み取りとデコード実行を最小化するための目的に利用されてよい。以下で説明するように、一定のサイズになれば圧縮を行って圧縮ボリュームを生成して、比較的小さなサイズで維持することが好ましい。

このとき、プロセッサ２２０は、新規文書が流入する場合、新規文書をサービス可能な資料構造に変換した後、増分ボリューム５０に付け足して（ａｐｐｅｎｄ）反映してよい。図６に示すように、プロセッサ２２０は、検索対象文書からなる増分ボリューム５０が一定のサイズ、例えば１ＭＢに達する時点に、１ＭＢのブロック単位に圧縮して圧縮ボリューム６０に付け足してよい。文書の平均サイズが４ＫＢであってＳＳＤの読み込み速度が５００ＭＢ／ｓであるときには、個別ボリュームの最大５０万個の文書まで１秒内で検索することが可能である。

プロセッサ２２０は、ボリューム生成過程を実行すると同時にフルスキャン検索を実行することで、ボリューム生成過程中にサーバがシャットダウン（ｓｈｕｔｄｏｗｎ）したとしてもボリュームを維持することができる。追加された文書だけをボリュームに付け足すことで、ボリュームを再生成したり交換したりせずに増分することができる。

図７を参照すると、プロセッサ２２０は、新規文書の場合、新規文書を増分ボリューム５０に付け足した後、増分ボリューム５０が一定のサイズに達したときに増分ボリューム５０を圧縮して、圧縮ボリューム６０に反映してよい。

一方、プロセッサ２２０は、圧縮ボリューム６０が生成された後に既存の文書が削除される場合、該当の文書に対する削除情報をマーキングしてよく、検索結果の生成時にマーキングされた文書を検索結果から除外する方式で処理してよい。このとき、削除情報をマーキングするための追加の資料構造が使用されてよい。実施形態によっては、周期的または必要時期に削除文書などを含んだガービッジ（不要データ（ｇａｒｂａｇｅ））を整理して圧縮ボリューム６０を再生成することも可能である。

図８は、本発明の一実施形態における、ＣＰＵ時間を減らす方法を説明するための例示図である。

図８のＣＰＵ時間を減らす方法は、図４で説明した並列検索段階Ｓ４２０に該当する。

図８を参照すると、プロセッサ２２０は、ブロック単位に圧縮されたボリューム、すなわち圧縮ボリューム６０をデコードする過程と、デコードによって圧縮が解除された検索対象文書５０を対象にフルスキャンによる文字列ファインドを実行する過程をそれぞれ並列化してよい。プロセッサ２２０は、ブロック単位で並列デコードと並列文字列ファインドを実行することにより、検索応答時間のうちのＣＰＵ時間を減らすことができる。プロセッサ２２０は、ブロック単位の並列デコードと並列文字列ファインドにより、検索要請に対応する検索結果８０を応答結果として提供してよい。

図９は、本発明の一実施形態における、フルスキャン方式を利用した個別データ検索サービス構造を示した図である。

図９を参照すると、本発明に係る個別データ検索装置は、個別データ検索サービスのために、ＳＡＳ（ｓｅａｒｃｈａｐｐｌｉｃａｔｉｏｎｓｅｒｖｅｒ）９１０と検索サーバ（ｓｅａｒｃｈｓｅｒｖｅｒ）９２０を含んでよい。ＳＡＳ９１０は検索要請に対応する検索結果を提供する役割を担い、検索サーバ９２０は検索のための圧縮ボリューム６０を保存する役割を担う。検索サーバ９２０は、転置索引の代わりにボリューム生成過程（パッキング（ｐａｃｋｉｎｇ））を実行してよく、１つの検索サーバ９２０で数万個以上のボリュームを保存してよい。

本発明に係る個別データ検索装置は、転置索引を使用しないため索引サーバを要求せず、ブロック単位の圧縮ボリューム６０を適用するため検索サーバ９２０の需要も減らすことができる。

本発明に係る個別データ検索装置は、転置索引の代わりにフルスキャン方式を利用することにより、個別データ検索サービスで要求する部分一致検索を自然に提供することができる。

また、本発明に係る個別データ検索装置は、サーバの二重化を支援してよい。図１０を参照すると、各ユーザに検索サーバ９２０で２つのホストをランダムに指定し、指定されたホストに該当のユーザの個別データを保存してよい。個別データ検索装置は、各ユーザにマッピングされたサーバ位置を保存するデータベース１０３０を含んでよい。言い換えれば、複数台の検索サーバ９２０に個別データに対する複製ボリューム（ｒｅｐｌｉｃａｖｏｌｕｍｅ）を保存してよく、これは、検索要請の分散の用途ではなく待機複製（ｓｔａｎｄｂｙｒｅｐｌｉｃａｔｉｏｎ）の用途として適用することができる。

さらに、本発明に係る個別データ検索装置は、同じ意味の文字を互いに区分せずに検索する照合（ｃｏｌｌａｔｉｏｎ）機能を支援してよい。照合機能には、大文字と小文字を区分せずに検索する機能（ｃａｓｅｉｎｓｅｎｓｉｔｉｖｅ）、符号のないアルファベットと符号のあるアルファベット（例えば、
（外１）

など）を区分せずに検索する機能、片仮名と平仮名を区分せずに検索する機能（ＫａｎａＴｙｐｅｉｎｓｅｎｓｉｔｉｖｅ）などが含まれてよい。

本発明に係る個別データ検索装置は、検索のためのボリュームと文書要約（例えば、Ｓｎｉｐｐｅｔなど）のためのボリュームが１つで構成されているため、これを正規化する場合、検索は可能であるが文書要約は不可能であるという限界が生じ得る。

本発明に係る個別データ検索装置は、照合を提供するために、検索時にユニコード正規化を実行する方式と、ボリューム生成時にユニコード正規化を実行する方式のうちの１つを適用してよい。

一例として、プロセッサ２２０は、検索時に検索要請に含まれたクエリとボリューム内の文書をすべてユニコード正規化し、正規化された文字列を一定の形態に変換した（例えば、ｄｏｗｎｃａｓｅ）後に検索を行うことによって照合による検索結果を提供してよい。このとき、プロセッサ２２０は、検索実行時間を最小化するために正規化過程も並列実行してよい。

他の例として、プロセッサ２２０は、ボリューム生成時に前処理方式で文書をユニコード正規化した後に保存してよい。図１１を参照すると、プロセッサ２２０は、ボリューム生成過程において、ボリューム内の文書を正規化すると同時に、正規化された文書を原状復帰するための変換テーブル１１４０をともに生成してよい。変換テーブル１１４０は、文字列内の変換文字位置を示すオフセットと、該当の位置の原本文字で構成されてよい。この後、プロセッサ２２０は、検索時にクエリを正規化し、該当のクエリに対して既に正規化された文書で検索してよい。検索過程ではクエリだけを正規化し、検索対象となる文書は既に正規化されているため、検索負荷を減らすことができる。検索結果による文書要約時には原本文書が必要となるため、変換テーブル１１４０を利用して該当の文書を原状復帰してよい。文書要約は、検索結果によっては一部の文書だけに対して行うため、原状復帰する文書が少なく、検索応答時間に大きな影響を与えない。

このように、本発明の実施形態によると、個別データ検索サービスに特化したエンジンとして、転置索引資料構造を使用せずに個別データ検索サービスの応答速度を満たすことのできる検索エンジンを提供することができる。また、本発明の実施形態によると、検索対象となる文書をブロック単位の圧縮ボリュームで生成し、圧縮ボリュームを並列にフルスキャン検索することにより、検索効率が高く、直観的な検索サービスを提供することができる。

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者であれば、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

２２０：プロセッサ
３１０：文書保存部
３２０：並列検索部

Claims

コンピュータ装置で実行される個別データ検索方法であって、
前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、
前記個別データ検索方法は、
前記少なくとも１つのプロセッサにより、ユーザと関連する個別データに該当する検索対象文書をブロック単位のボリュームに圧縮して保存する段階、および
前記少なくとも１つのプロセッサにより、検索要請に対応する複数のボリュームを並列にフルスキャン検索する段階
を含む、個別データ検索方法。
前記保存する段階は、
前記検索対象文書を一定サイズのブロック単位で集めて圧縮することによって圧縮ボリュームを生成する段階
を含む、請求項１に記載の個別データ検索方法。
前記保存する段階は、
新規文書が流入する場合、前記新規文書を前記検索対象文書からなる増分ボリュームに付け足す段階、および
前記増分ボリュームを一定サイズのブロック単位に圧縮して圧縮ボリュームを生成する段階
を含む、請求項１に記載の個別データ検索方法。
前記保存する段階は、
前記圧縮ボリュームが生成された後に既存の文書が削除される場合、前記既存の文書に対する削除情報をマーキングする段階
をさらに含み、
前記マーキングされた文書は、検索結果から除外すること
を特徴とする、請求項３に記載の個別データ検索方法。
前記検索する段階は、
転置索引資料構造は使用せず、前記ブロック単位の圧縮ボリュームに対するフルスキャン方式によってクエリと部分一致する文書を検索すること
を特徴とする、請求項１に記載の個別データ検索方法。
前記検索する段階は、
前記複数のボリュームを並列にデコードする段階、および
前記デコードされたボリュームを対象に文字列ファインド（ｆｉｎｄ）を並列に実行する段階
を含む、請求項１に記載の個別データ検索方法。
前記保存する段階は、
サーバの二重化のために、複数のホストに前記個別データに対する複製ボリュームを保存する段階
を含む、請求項１に記載の個別データ検索方法。
前記検索する段階は、
前記検索要請に含まれたクエリと前記複数のボリューム内の文書をユニコード正規化する段階、および
正規化された文字列を利用して照合（ｃｏｌｌａｔｉｏｎ）検索を行う段階
を含む、請求項１に記載の個別データ検索方法。
前記保存する段階は、
前記検索対象文書をユニコード正規化する段階
を含み、
前記検索する段階は、
前記検索要請に含まれたクエリをユニコード正規化する段階、および
正規化された文字列を利用して照合検索を行う段階
を含む、請求項１に記載の個別データ検索方法。
前記保存する段階は、
変換文字位置を示すオフセットと該当の位置の原本文字を含む変換テーブルを生成する段階
さらに含む、請求項９に記載の個別データ検索方法。
請求項１～１０のうちのいずれか一項に記載の個別データ検索方法をコンピュータ装置に実行させるためのコンピュータプログラム。
コンピュータ装置であって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
ユーザと関連する個別データに該当する検索対象文書をブロック単位のボリュームに圧縮して保存する文書保存部、および
検索要請に対応する複数のボリュームを並列にフルスキャン検索する並列検索部
を含む、コンピュータ装置。
前記文書保存部は、
前記検索対象文書を一定サイズのブロック単位で集めて圧縮することによって圧縮ボリュームを生成すること
を特徴とする、請求項１２に記載のコンピュータ装置。
前記文書保存部は、
新規文書が流入する場合、前記新規文書を前記検索対象文書からなる増分ボリュームに付け足し、
前記増分ボリュームを一定サイズのブロック単位に圧縮して圧縮ボリュームを生成すること
を特徴とする、請求項１２に記載のコンピュータ装置。
前記文書保存部は、
前記圧縮ボリュームが生成された後に既存の文書が削除される場合、前記既存の文書に対する削除情報をマーキングし、
前記マーキングされた文書は、検索結果から除外すること
を特徴とする、請求項１４に記載のコンピュータ装置。
前記並列検索部は、
転置索引資料構造は使用せず、前記ブロック単位の圧縮ボリュームに対するフルスキャン方式によってクエリと部分一致する文書を検索すること
を特徴とする、請求項１２～１５のうちのいずれか一項に記載のコンピュータ装置。
前記並列検索部は、
前記複数のボリュームを並列にデコードし、
前記デコードされたボリュームを対象に文字列ファインドを並列に実行すること
を特徴とする、請求項１２～１５のうちのいずれか一項に記載のコンピュータ装置。
前記並列検索部は、
前記検索要請に含まれたクエリと前記複数のボリューム内の文書をユニコード正規化し、
正規化された文字列を利用して照合検索を行うこと
を特徴とする、請求項１２～１５のうちのいずれか一項に記載のコンピュータ装置。
前記文書保存部は、
前記検索対象文書をユニコード正規化し、
前記並列検索部は、
前記検索要請に含まれたクエリをユニコード正規化し、
正規化された文字列を利用して照合検索を行うこと
を特徴とする、請求項１２～１５のうちのいずれか一項に記載のコンピュータ装置。
前記文書保存部は、
変換文字位置を示すオフセットと該当の位置の原本文字を含む変換テーブルを生成すること
を特徴とする、請求項１９に記載のコンピュータ装置。