JP2015088190A - リアルタイム検索実現方法およびそのシステム - Google Patents

リアルタイム検索実現方法およびそのシステム Download PDF

Info

Publication number
JP2015088190A
JP2015088190A JP2014219919A JP2014219919A JP2015088190A JP 2015088190 A JP2015088190 A JP 2015088190A JP 2014219919 A JP2014219919 A JP 2014219919A JP 2014219919 A JP2014219919 A JP 2014219919A JP 2015088190 A JP2015088190 A JP 2015088190A
Authority
JP
Japan
Prior art keywords
time
index
document
real
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014219919A
Other languages
English (en)
Other versions
JP5951729B2 (ja
Inventor
泰 基 康
Tae-Ki Kang
泰 基 康
宇 信 姜
Woo Shin Kang
宇 信 姜
虎 敏 朴
Ho Min Park
虎 敏 朴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2015088190A publication Critical patent/JP2015088190A/ja
Application granted granted Critical
Publication of JP5951729B2 publication Critical patent/JP5951729B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】リアルタイム検索実現方法およびそのシステムを開示する。
【解決手段】リアルタイム検索方法は、複数の文書からなる文書コレクションを、文書が登録された時間を基準として時間区間別に分けて複数の文書グループに分割し、前記文書グループそれぞれに対して該当する時間区間の周期に応じて索引を実行し、前記索引による索引データを利用して前記文書コレクションに対する検索を実行することを含んでもよい。
【選択図】図1

Description

本発明は、リアルタイム検索のためのサービス実現方法およびそのシステムに関する。
検索サービスを提供する、最も一般的な形態であるキーワード検索サービスでは、ユーザから検索用クエリが入力されると、該当するクエリを含む情報、例えば、クエリを含んだウェブサイトに関する情報、クエリを含んだ記事情報、クエリを含んだファイル名の資料情報などを、ユーザに検索結果として提供している。
このような検索結果を表示するためには、検索したい文書に対して予め索引を行って検索可能なデータに変える過程が必要となる。例えば、韓国登録特許第10−0835706号公報では、大容量のデータに対して形態素解析によって自動索引を実行する技術が開示されている。
しかし、一般的な検索方法では特定の周期に1回ずつ索引を行うため、アップデートが頻繁に行われるデータの場合には、アップデート状況に対応して索引をすることが困難であるという問題がある。
特に、SNS(social network service)関連データ、ニュース記事、ニュースのコメントなどは、最新データであるほど大きな意味をもつ反面、時間が経過するほど重要度が急激に低下するという特性があるため、このような最新データがより迅速に検索結果に反映されるようにする新たな方式の検索技術が必要となっている。
さらに、SNS関連データ、ニュース記事、ニュースのコメントなどは時間的イシューに対応するデータである場合が多いため、データが急増する場合が度々発生するが、これに対応してデータを十分に迅速かつ安定的な速度で索引することができる技術も必要となっている。
韓国公開特許第10−0835706号公報
最新データを迅速に検索することができるリアルタイム検索環境を実現するための方法およびシステムを提供する。
リアルタイム検索のために、検索対象のデータをさらに迅速かつ安定的な速度で索引することができる方法およびシステムを提供する。
本発明の一実施形態によると、リアルタイム検索方法は、複数の文書からなる文書コレクションを、文書が登録された時間を基準として時間区間別に分けて複数の文書グループに分割し、前記文書グループそれぞれに対して該当する時間区間の周期に応じて索引を実行し、前記索引による索引データを利用して前記文書コレクションに対する検索を実行することを含んでもよい。
一実施形態によると、前記複数の文書グループに分割することは、隣接する時間区間に重なり合う時間が存在するように前記時間区間を分けてもよい。
他の一実施形態によると、前記複数の文書グループに分割することは、前記時間区間のうち直近の時間区間である最近区間を最も短い時間周期で設定し、前記最近区間を基準として以後の時間区間の場合には、時間の経過に応じて漸次的に長い時間周期で設定してもよい。
さらに他の一実施形態によると、前記索引を実行することは、前記文書グループのうち直近の時間区間である最近区間に該当する文書グループの場合には無限ループ(infinite loop)に索引を実行し、前記最近区間に該当する文書グループの索引結果を持続してアップデートしてもよい。
さらに他の一実施形態によると、前記索引を実行することは、語節単位索引技法、形態素単位索引技法、およびNグラム(N−Gram)基盤索引技法のうちいずれか1つを利用して索引を実行してもよい。
さらに他の一実施形態によると、前記複数の文書グループに分割することは、前記文書グループのうち直近の時間区間である最近区間に該当する文書グループに含まれた文書の数が基準値を超過する場合には、該当の文書グループを複数の小グループに分割してもよい。
さらに他の一実施形態によると、前記索引を実行することは、前記最近区間に該当する文書グループに対して前記複数の小グループを並列に同時索引してもよい。
さらに他の一実施形態によると、前記文書コレクションに対する検索を実行することは、前記索引データを利用した検索結果から前記文書グループ間に前記重なり合う時間によって重複する検索結果を取り除いた後、最終的な検索結果を提供してもよい。
本発明の一実施形態によると、リアルタイム検索システムは、複数の文書からなる文書コレクションを、文書が登録された時間を基準として時間区間に分けて複数の文書グループに分割する分割部と、前記文書グループそれぞれに対して該当する時間区間の周期に応じて索引を実行する索引部と、前記索引による索引データを利用して前記文書コレクションに対する検索を実行する検索部を備えてもよい。
本発明の実施形態によると、全体文書コレクションを時間区間別に分けて索引を行い、最新データの場合には最大限短い周期で設定して索引を行うことにより、最新データに対する索引アップデートの速度を画期的に減らすことができ、これによってリアルタイムに近い検索結果を提供することができる。
本発明の実施形態によると、リアルタイム検索のための索引を行うとき、最近区間のデータを複数のデータに分けて索引を並列で同時に処理することにより、特定のイシューによって最新データが急増しても迅速かつ安定的な速度で索引を行うことができ、リアルタイム検索に最適となる索引技術を実現することができる。
本発明の一実施形態において、リアルタイムの検索環境を提供するためのリアルタイム検索方法を示したフローチャートである。 本発明の一実施形態において、リアルタイム検索のための索引過程を説明するための例示図である。 本発明の一実施形態において、最近区間の文書を複数のグループに分割して並列索引を行う過程を説明するための例示図である。 本発明の一実施形態において、最近区間の文書を複数のグループに分割して並列索引を行う過程を説明するための例示図である。 本発明の一実施形態において、リアルタイムの検索環境を提供するためのリアルタイム検索システムの内部構成を示したブロック図である。
以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。
本実施形態は、検索環境を提供する検索エンジンシステムに適用されてもよく、特に最新のアップデートされた文書をリアルタイムで検索することができるリアルタイム検索環境を提供することができる。
本明細書において、「文書」とは、検索エンジンで検索対象となるデータを意味し、SNS(social network service)を通じてユーザが作成した文章やリアルタイムでアップデートされるニュース記事およびコメントなど、文章単位のすべてのデータを意味してもよい。また、「文書コレクション」とは、文書を集めたファイルを意味する。
さらに、「索引」とは、文書コレクションに含まれた文書から意味をもつキーワードを抜き出して索引語として決めた後、出現頻度や出現位置、出現文書などに関する情報を索引語に含め、索引語別にソーティングして索引データセット(index data set)を作成する作業であり、「索引ボリューム」とは、索引過程で出た最終結果物である索引データセットを意味してもよい。
図1は、本発明の一実施形態において、リアルタイムの検索環境を提供するためのリアルタイム検索方法を示したフローチャートである。一実施形態に係るリアルタイム検索方法は、図5を参照しながら後述するリアルタイム検索システムによってそれぞれのステップが実行されてもよい。
図1において、ステップ110で、リアルタイム検索システムは、リアルタイム検索に適した索引のために、文書が登録された時間を基準として全体文書コレクションを時間区間別に分け、全体文書コレクションを複数のグループに分割してもよい。
本実施形態において、リアルタイム検索システムは、各時間区間で文書に漏れが生じることを防ぐために、区間と区間の間に所定の重複時間が発生するように区間の周期を設定してもよい。区間の間で重なる時間はシステム環境に応じて決められてもよく、多様な要素を考慮した上で変更が可能である。
特に、リアルタイム検索システムは、時間区間を分けるとき、現時点に近いほど区間の時間周期を短く設定してもよく、直近の文書が属する区間(以下、「最近区間」とする)の場合には、索引完了まで最大限短い時間以内に入ってくるように十分に短い周期で設定してもよい。最近区間の周期は、索引を実行する索引サーバの台数、索引およびアップデート性能などに応じて決められてもよい。
例えば、図2を参照すると、文書コレクションが4つの時間区間に分けられているが、文書コレクションに含まれた文書のうち現時点から5分前(0分〜5分)に登録された文書をD区間(すなわち、最近区間)、3分から40分前(3分〜40分)に登録された文書をC区間、30分から6時間前(30分〜6時)に登録された文書をB区間、5時間から24時間前(5時〜24時)に登録された文書をA区間として分けてもよい。すなわち、全体文書コレクションは、索引のために、各時間区間に対応する4つの索引グループ(索引1〜索引4)201〜204に分割されてもよい。
さらに、本実施形態において、リアルタイム検索システムは、最も短い周期の最近区間に登録された文書を、再び複数のグループに分割してもよい。
図3を参照すると、リアルタイム検索システムは、最近区間の文書が急増したと判断される場合(S111)には、これに対応して円滑かつ安定的な索引のために、最近区間の周期に該当する一定の時間以内に登録された文書を複数の小グループに分割してもよい(S112)。
一例として、リアルタイム検索システムは、最近区間の周期内に登録された文書の数が基準値を超過する場合には文書急増と判断し、該当の文書を小グループに分割してもよい。また、リアルタイム検索システムは、索引を実行する索引サーバの台数、および索引サーバそれぞれが一定の時間以内に処理することができる文書の数に応じて最近区間に対する小グループの数を決めた後、該当の文書を小グループに分割してもよい。
例えば、特定のイシューによって最近登録された文書が急増した場合には、図4に示すように、D区間(すなわち、最近区間)に対して文書コレクションを3つの索引グループ(索引4〜索引6)404〜406に分割してもよい。このとき、索引サーバの台数を考慮ながら、最近1分以内の文書に対して30秒以内に索引およびアップデートが可能な水準の文書数を計算した後、このとき計算された文書数が5000件であれば、5000件を基準としてD区間の文書コレクションを分割してもよい。
再び図1において、ステップ120で、リアルタイム検索システムは、全体文書コレクションから分割された索引グループそれぞれに対し、該当する時間区間の周期に応じて索引を実行してもよい。
このとき、リアルタイム検索システムは、文書内の語節から非索引分節を切断する方式によって索引語を抽出して索引する語節単位索引技法、形態素解析や構文解釈によって重要な意味をもつ名詞や名詞句を抽出する方式によって単一名詞を抽出して索引する形態素単位索引技法、文章内の各語節に対して索引語の部分として不適切な非索引分節を取り除く語節単位索引技法を適用し、その結果として生成された索引分節から隣接しているn個の音節を抽出して索引するN−Gram基盤索引技法などの索引法のうちいずれか1つを利用してもよい。
本実施形態において、索引グループのうち最近区間の索引グループに対しては、無限ループを実行して継続して索引が行われるようにしてもよい。言い換えれば、リアルタイム検索システムは、最近文書に対する迅速な索引のために、最近区間の索引グループに対して無限ループを実行することにより、該当のグループの索引結果を持続してアップデートできるようになる。
特に、リアルタイム検索システムは、図3に示すように、最近文書の急増によって最近区間の文書コレクションが複数の索引グループに分割された場合には、分割された索引グループを並列に同時索引してもよい(S121)。図4を参照すると、最近区間(D区間)に対して無限ループを回して索引を行うことにより、最近区間の分割された索引グループである索引4〜索引6(404〜406)を並列に同時に処理できるようになる。
したがって、最近区間に対しては最大限短い周期を適用しながら、無限ループを回して継続して索引が行われるようにすることにより、索引アップデート速度を画期的に減らし、リアルタイムに近い索引を実現することができる。さらに、文書が急増しても最近区間の文書コレクションを分割し、これを並列に同時索引することにより、索引に要される時間を毎回一定の水準に保持することができる。
再び図1において、ステップ130で、リアルタイム検索システムは、ステップ110とステップ120で処理された索引ボリュームを利用してユーザ要求に対する検索を実行してもよい。
このとき、リアルタイム検索システムは、時間区間別の文書コレクションで区間の間に重複が存在するように設定するため、索引ボリュームから検索結果を招来して先に重複を取り除いた後、最終的な検索結果を提供してもよい。
また、本実施形態では、全体文書コレクションから分割されたグループだけ索引の種類が追加されるため、上述した索引ボリュームによる文書検索のときに、グループの数に対応する検索環境設定によって検索を実行してもよい。言い換えれば、リアルタイム検索システムは、検索環境設定によって自動で文書分割数に合うように可変的に検索を実行できるようになる。
上述したリアルタイム検索方法は、全体文書コレクションを時間区間別に分割し、さらに最近区間の文書を再び複数のデータに分けて索引することにより、迅速に索引アップデートが行われるため、ユーザが検索するときにはリアルタイムに近い検索結果を確認することができる。
本発明の実施形態に係る方法は、多様なコンピュータシステムによって実行されるプログラム命令(instruction)形態で実現され、コンピュータで読み取り可能な媒体に記録されてもよい。特に、本実施形態では、複数の文書からなる文書コレクションを複数のグループに分割するステップ、および文書コレクションに対して複数のグループを並列に同時索引するステップを含むプログラムが記録されるコンピュータで読み取り可能な媒体を含んでもよい。
図5は、本発明の一実施形態において、リアルタイムの検索環境を提供するためのリアルタイム検索システムの内部構成を示したブロック図である。図5に示すように、リアルタイム検索システムは、分割部510、索引部520、および検索部530からなるプロセッサ500と、メモリ501と、データベース502を備えて構成されてもよい。
メモリ501には、検索対象の文書に対してリアルタイム検索を実行するための命令語を含むプログラムが格納されてもよい。図1〜図4を参照しながら説明したリアルタイム検索システムで実行されるステップは、メモリ501に格納されたプログラムによって実行されてもよい。例えば、メモリ501は、ハードディスク、SSD、SDカード、およびその他の記録媒体であってもよい。
データベース502は、検索対象となる文書とこれに対する索引ボリュームなど、検索サービスのために必要なすべての情報を格納および保持することができる格納所の役割を行ってもよい。
プロセッサ500は、メモリ501に格納されたプログラムの命令語にしたがって処理する装置であって、CPUなどのマイクロプロセッサが含まれてもよい。プロセッサ500の詳細構成は次のとおりである。
分割部510は、リアルタイム検索に適する索引のために、文書が登録された時間を基準として全体文書コレクションを時間区間別に分け、全体文書コレクションを複数のグループに分割してもよい。このとき、分割部510は、各時間区間から文書が漏れることを防ぐために、区間と区間の間に所定の重複時間が生じるように区間の周期を設定してもよい。特に、分割部510は、時間区間を分けるときに、現時点に近いほど区間の時間周期を短く設定してもよく、直近の区間の場合には、索引完了まで最大限短い時間以内に入ってくるように十分に短い周期で設定してもよい。さらに、分割部510は、最も短い周期の最近区間に登録された文書を再び複数のグループに分割してもよい。一例として、分割部510は、最近区間の文書が急増する場合には、これに対応して円滑かつ安定的な索引のために、最近区間の周期に該当する一定の時間内に登録された文書を複数のグループに分割してもよい。このとき、分割部510は、最近区間の周期以内に登録された文書の数が基準値を超過する場合には文書急増と判断し、該当の文書を小グループに分割してもよい。さらに、分割部510は、索引を実行する索引サーバの台数、および索引サーバそれぞれが一定の時間以内に処理することができる文書の数に応じて最近区間に対する小グループの数を決めた後、該当の文書を小グループに分割してもよい。
索引部520は、全体文書コレクションから分割された索引グループそれぞれに対し、該当の時間区間の周期にしたがって索引を実行してもよい。このとき、索引部520は、語節単位索引技法、形態素単位索引技法、N−Gram基盤索引技法のうちいずれか1つを利用してもよい。特に、索引部520は、索引グループのうち最近区間の索引グループに対しては無限ループを回し、継続して索引が行われるようにしてもよい。言い換えれば、索引部520は、最近文書に対する迅速な索引のために、最近区間の索引グループに対して無限ループを実行することにより、該当のグループの索引結果を持続してアップデートできるようになる。さらに、索引部520は、最近文書の急増によって最近区間の文書コレクションが複数の索引グループに分割された場合には、分割された索引グループを並列に同時索引してもよい。
検索部530は、索引部520で処理された索引ボリュームを利用してユーザ要求に対する検索を実行してもよい。このとき、検索部530は、時間区間別に文書コレクションで区間の間に重複が存在するように設定するため、索引ボリュームから検索結果を招来して先に重複を取り除いた後、最終的な検索結果を提供してもよい。また、検索部530は、全体文書コレクションから分割されたグループだけ索引の種類が追加されるため、上述した索引ボリュームによる文書検索時には、グループの数に対応する検索環境設定によって検索を実行してもよい。言い換えれば、検索部530は、検索環境設定によって自動で文書分割数に合うように可変的に検索を実行できるようになる。
上述したリアルタイム検索システムは、図1〜図4を参照しながら説明したリアルタイム検索方法の詳細内容に基づき、構成要素の一部が省略されたり追加される構成要素がさらに含まれてもよい。また、2つ以上の構成要素が組み合わされてもよく、構成要素間の動作順序や連携方式は変更されてもよい。
このように、本発明の実施形態によると、全体文書コレクションを時間区間別に分けて索引を行い、最新データの場合には最大限短い周期で設定して索引を行うことにより、最新データに対する索引アップデート速度を画期的に減らすことができ、これによってリアルタイムに近い検索結果を提供することができる。さらに、本発明の実施形態によると、リアルタイム検索のための索引を行うときに、最近区間のデータを複数のデータに分けて索引を並列に同時に処理することにより、特定のイシューによって最新データが急増しても迅速かつ安定的な速度で索引を行うことができ、リアルタイム検索に最適となる索引技術を実現することができる。
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素およびソフトウェア構成要素の組み合わせによって実現されてもよい。例えば、実施形態で説明された装置および構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令(instruction)を実行して応答することができる異なる装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてもよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してもよい。また、処理装置は、ソフトウェアの実行に応答し、データをアクセス、保存、操作、処理、および生成してもよい。理解の便宜のために、処理装置は1つが使用されると説明される場合もあるが、該当する技術分野において通常の知識を有する者は、処理装置が複数の処理要素(processing element)および/または複数類型の処理要素を含んでもよい。例えば、処理装置は、複数のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでもよい。また、並列プロセッサ(parallel processor)のような、他の処理構成(processing configuration)も可能である。
ソフトウェアは、コンピュータプログラム(computer program)、コード(code)、命令(instruction)、またはこれらのうちの1つ以上の組み合わせを含んでもよく、所望とおりに動作するように処理装置を構成したり、独立的または結合的に(collectively)処理装置を命令したりしてもよい。ソフトウェアおよび/またはデータは、処理装置によって解釈されたり処理装置に命令またはデータを提供したりするために、ある類型の機械、構成要素(component)、物理的装置、仮想装置(virtual equipment)、コンピュータ記録媒体または装置、または送信される信号波(signal wave)に永久的または一時的に具体化(embody)されてもよい。ソフトウェアは、ネットワークによって連結したコンピュータシステム上に分散し、分散した方法によって格納されたり実行されたりしてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータで読み取り可能な記録媒体に格納されてもよい。
実施形態に係る方法は、多様なコンピュータ手段によって実行が可能なプログラム命令形態で実現されてコンピュータで読み取り可能な媒体に記録されてもよい。コンピュータで読み取り可能な媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせて含んでもよい。媒体に記録されるプログラム命令は、実施形態のために特別に設計されて構成されたものであってもよく、コンピュータソフトウェア当業者に公知されて使用可能なものであってもよい。コンピュータで読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体(magnetic media)、CD−ROM、DVDのような光記録媒体(optical media)、フロプティカルディスク(floptical disk)のような磁気−光媒体(magneto−optical media)、およびROM、RAM、フラッシュメモリなどのようなプログラム命令を格納して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例としては、コンパイラによって生成されるもののような機械語コードだけではなく、インタプリタなどを使用してコンピュータによって実行される高級言語コードを含む。上述したハードウェア装置は、実施形態の動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成されてもよく、その逆も同じである。
以上のように、実施形態を限定された実施形態と図面に基づいて説明したが、該当する技術分野において通常の知識を有する者であれば、上述した記載から多様な修正および変形が可能であることが理解できるであろう。例えば、説明された技術が説明された方法とは異なる順序で実行されたり、および/または説明されたシステム、構造、装置、回路などの構成要素が説明された方法とは異なる形態で結合または組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。
510:分割部
520:索引部
530:検索部

Claims (18)

  1. 複数の文書からなる文書コレクションを、文書が登録された時間を基準として時間区間別に分けて複数の文書グループに分割し、
    前記複数の文書グループそれぞれに対して該当する時間区間の周期に応じて索引を実行し、
    前記索引による索引データを利用して前記文書コレクションに対する検索を実行すること
    を含む、リアルタイム検索方法。
  2. 前記複数の文書グループに分割することは、
    隣接する時間区間の間に重なる時間が存在するように前記時間区間を分けること
    を特徴とする、請求項1に記載のリアルタイム検索方法。
  3. 前記複数の文書グループに分割することは、
    前記時間区間のうち直近の時間区間である最近区間を最も短い時間周期で設定し、前記最近区間を基準とし、以後の時間区間の場合には時間の経過に応じて漸次的に長い時間周期で設定すること
    を特徴とする、請求項1に記載のリアルタイム検索方法。
  4. 前記索引を実行することは、
    前記文書グループのうち直近の時間区間である最近区間に該当する文書グループの場合には無限ループ(infinite loop)で索引を実行し、前記最近区間に該当する文書グループの索引結果を持続してアップデートすること
    を特徴とする、請求項1に記載のリアルタイム検索方法。
  5. 前記索引を実行することは、
    語節単位索引技法、形態素単位索引技法、およびNグラム(N−Gram)基盤索引技法のうちいずれか1つを利用して索引を実行すること
    を特徴とする、請求項1に記載のリアルタイム検索方法。
  6. 前記複数の文書グループに分割することは、
    前記文書グループのうち直近の時間区間である最近区間に該当する文書グループに含まれた文書の数が基準値を超過する場合には、該当の文書グループを複数の小グループに分割すること
    を特徴とする、請求項1に記載のリアルタイム検索方法。
  7. 前記索引を実行することは、
    前記最近区間に該当する文書グループに対して前記複数の小グループを並列に同時索引すること
    を特徴とする、請求項6に記載のリアルタイム検索方法。
  8. 前記文書コレクションに対する検索を実行することは、
    前記索引データを利用した検索結果から前記文書グループ間に前記重なった時間によって重複する検索結果を取り除いた後、最終的な検索結果を提供すること
    を特徴とする、請求項2に記載のリアルタイム検索方法。
  9. コンピュータシステムに、
    複数の文書からなる文書コレクションを、文書が登録された時間を基準として時間区間別に分けて複数の文書グループに分割するステップと、
    前記文書グループそれぞれに対して該当する時間区間の周期に応じて索引を実行するステップと、
    前記索引による索引データを利用して前記文書コレクションに対する検索を実行するステップ
    を実行させ、前記コンピュータシステムに検索対象である文書に対するリアルタイム検索を実行させるためのプログラムを記録した、コンピュータで読み取り可能な記録媒体。
  10. 複数の文書からなる文書コレクションを、文書が登録された時間を基準として時間区間別に分けて複数の文書グループに分割する分割部と、
    前記文書グループそれぞれに対して該当する時間区間の周期に応じて索引を実行する索引部と、
    前記索引による索引データを利用して前記文書コレクションに対する検索を実行する検索部と
    を備える、リアルタイム検索システム。
  11. 前記分割部は、
    隣接する時間区間の間に重なる時間が存在するように前記時間区間を分けること
    を特徴とする、請求項10に記載のリアルタイム検索システム。
  12. 前記分割部は、
    前記時間区間のうち直近の時間区間である最近区間を最も短い時間周期で設定し、前記最近区間を基準とし、以後の時間区間の場合には時間の経過に応じて漸次的に長い時間周期で設定すること
    を特徴とする、請求項10に記載のリアルタイム検索システム。
  13. 前記索引部は、
    前記文書グループのうち直近の時間区間である最近区間に該当する文書グループの場合には無限ループ(infinite loop)で索引を実行し、前記最近区間に該当する文書グループの索引結果を持続してアップデートすること
    を特徴とする、請求項10に記載のリアルタイム検索システム。
  14. 前記索引部は、
    語節単位索引技法、形態素単位索引技法、およびNグラム(N−Gram)基盤索引技法のうちいずれか1つを利用して索引を実行すること
    を特徴とする、請求項10に記載のリアルタイム検索システム。
  15. 前記分割部は、
    前記文書グループのうち直近の時間区間である最近区間に該当する文書グループに含まれた文書の数が基準値を超過する場合には、該当の文書グループを複数の小グループに分割すること
    を特徴とする、請求項10に記載のリアルタイム検索システム。
  16. 前記索引部は、
    前記最近区間に該当する文書グループに対して前記複数の小グループを並列に同時索引すること
    を特徴とする、請求項15に記載のリアルタイム検索システム。
  17. 前記検索部は、
    前記索引データを利用した検索結果から前記文書グループ間に前記重なる時間によって重複する検索結果を取り除いた後、最終的な検索結果を提供すること
    を特徴とする、請求項11に記載のリアルタイム検索システム。
  18. コンピュータシステムに、
    複数の文書からなる文書コレクションを、文書が登録された時間を基準として時間区間別に分けて複数の文書グループに分割するステップと、
    前記文書グループそれぞれに対して該当する時間区間の周期に応じて索引を実行するステップと、
    前記索引による索引データを利用して前記文書コレクションに対する検索を実行するステップ
    を実行させ、前記コンピュータシステムに検索対象である文書に対するリアルタイム検索を実行させる処理を行わせるためのプログラム。
JP2014219919A 2013-10-29 2014-10-29 リアルタイム検索実現方法およびそのシステム Active JP5951729B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020130129196A KR101425816B1 (ko) 2013-10-29 2013-10-29 실시간 검색 구현 방법 및 그 시스템
KR10-2013-0129196 2013-10-29

Publications (2)

Publication Number Publication Date
JP2015088190A true JP2015088190A (ja) 2015-05-07
JP5951729B2 JP5951729B2 (ja) 2016-07-13

Family

ID=51749323

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014219919A Active JP5951729B2 (ja) 2013-10-29 2014-10-29 リアルタイム検索実現方法およびそのシステム

Country Status (2)

Country Link
JP (1) JP5951729B2 (ja)
KR (1) KR101425816B1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101744017B1 (ko) * 2016-03-11 2017-06-07 주식회사 지앤클라우드 실시간 검색을 위한 데이터 인덱싱 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006172363A (ja) * 2004-12-20 2006-06-29 Hitachi Ltd 文書検索装置、インデクス再構成方法及びプログラム
JP2008186157A (ja) * 2007-01-29 2008-08-14 Mitsubishi Electric Corp Webページ再収集方式
JP2009110196A (ja) * 2007-10-29 2009-05-21 Mitsubishi Electric Corp Webサーバアクセススケジューリングシステム
JP2009122930A (ja) * 2007-11-14 2009-06-04 Ntt Resonant Inc 情報検索装置およびその方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020014026A (ko) * 2000-08-14 2002-02-25 (주) 인포마스터 웹 개인화에 바탕한 뉴스 추적 및 분석 서비스
EP1876541A1 (en) 2005-04-21 2008-01-09 Intellectual Property Bank Corp. Device for extracting index word in document to be examined
KR100871470B1 (ko) * 2007-04-12 2008-12-03 주식회사 케이티프리텔 색인 데이터를 구축하기 위한 검색 시스템 및 이를 위한 방법
KR100963352B1 (ko) * 2008-04-14 2010-06-14 제주대학교 산학협력단 궤적 데이터의 인덱싱 방법 및 그 방법을 이용하는 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006172363A (ja) * 2004-12-20 2006-06-29 Hitachi Ltd 文書検索装置、インデクス再構成方法及びプログラム
JP2008186157A (ja) * 2007-01-29 2008-08-14 Mitsubishi Electric Corp Webページ再収集方式
JP2009110196A (ja) * 2007-10-29 2009-05-21 Mitsubishi Electric Corp Webサーバアクセススケジューリングシステム
JP2009122930A (ja) * 2007-11-14 2009-06-04 Ntt Resonant Inc 情報検索装置およびその方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JPN6015037458; 田村 孝之、外1名: '多周期的Webクローリングにおける時間分解能向上手法' 情報処理学会論文誌 論文誌トランザクション 平成22年度(2) [CD-ROM] 第4巻,第1号, 20110502, p.40-49, 一般社団法人情報処理学会 *
JPN6015037459; 田村 孝之、外1名: '多周期的更新アクセスに適した二次記憶管理技法' 電子情報通信学会論文誌 第J93-D巻,第6号, 20100601, p.805-815, 社団法人電子情報通信学会 *
JPN6016016304; 山名 早人: 'データベース最前線' bit 第32巻,第12号, 20001201, p.72-79, 共立出版株式会社 *

Also Published As

Publication number Publication date
JP5951729B2 (ja) 2016-07-13
KR101425816B1 (ko) 2014-08-05

Similar Documents

Publication Publication Date Title
US8775442B2 (en) Semantic search using a single-source semantic model
US10268758B2 (en) Method and system of acquiring semantic information, keyword expansion and keyword search thereof
US10169471B2 (en) Generating and executing query language statements from natural language
US8468146B2 (en) System and method for creating search index on cloud database
US10970324B2 (en) System for generation of automated response follow-up
US11232267B2 (en) Proximity information retrieval boost method for medical knowledge question answering systems
KR101651780B1 (ko) 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템
US10496686B2 (en) Method and system for searching and identifying content items in response to a search query using a matched keyword whitelist
US10915537B2 (en) System and a method for associating contextual structured data with unstructured documents on map-reduce
US20180039889A1 (en) Surfacing unique facts for entities
EP3255564A1 (en) Method and system for matching images with content using whitelists and blacklists in response to a search query
US20170337477A1 (en) System for determination of automated response follow-up
US9916375B2 (en) Extraction of concept-based summaries from documents
WO2021002998A1 (en) Extracting key phrase candidates from documents and producing topical authority ranking
US9529830B1 (en) Data matching for column-oriented data tables
US11074266B2 (en) Semantic concept discovery over event databases
US8862556B2 (en) Difference analysis in file sub-regions
JP5951729B2 (ja) リアルタイム検索実現方法およびそのシステム
KR101656077B1 (ko) 암시적 타임 칼럼값을 이용한 시간 기반 파티셔닝 시스템 및 방법
Bommannavar et al. Estimating topical volume in social media streams
CN110019665A (zh) 文本检索方法及装置
KR102052823B1 (ko) 잠재 디리클레 할당을 이용한 토픽 모델 자동화 방법 및 장치
KR101508939B1 (ko) 실시간 검색을 위한 병렬 색인 방법 및 그 시스템
US20200272648A1 (en) Text Extraction and Processing
TWI709050B (zh) 推薦方法及推薦系統

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160608

R150 Certificate of patent or registration of utility model

Ref document number: 5951729

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250