JP2012069071A - Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム - Google Patents

Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム Download PDF

Info

Publication number
JP2012069071A
JP2012069071A JP2010215611A JP2010215611A JP2012069071A JP 2012069071 A JP2012069071 A JP 2012069071A JP 2010215611 A JP2010215611 A JP 2010215611A JP 2010215611 A JP2010215611 A JP 2010215611A JP 2012069071 A JP2012069071 A JP 2012069071A
Authority
JP
Japan
Prior art keywords
document data
gram
order
character string
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010215611A
Other languages
English (en)
Other versions
JP5601121B2 (ja
Inventor
Tomoharu Yamaguchi
倫治 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2010215611A priority Critical patent/JP5601121B2/ja
Publication of JP2012069071A publication Critical patent/JP2012069071A/ja
Application granted granted Critical
Publication of JP5601121B2 publication Critical patent/JP5601121B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索対象となる単語等を効率的に絞り込むことを可能にするのに好適な転置インデックスの生成方法等を提供する。
【解決手段】転置インデックスの生成方法であって、順序入換ステップでは、見出し語と対応する説明文とからそれぞれ構成される複数の文書データ18のそれぞれについて文字数を計数し、文字数が少ない順に複数の文書データ18の順序を入れ換え、生成ステップでは、「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、順序が入れ換えられた複数の文書データ18中の出現位置を対応付けて、転置インデックスを生成する。
【選択図】図1

Description

本発明は、Nグラム検索に関し、とくにNグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびにコンピュータプログラムに関する。
文書の電子化の増大に伴い、これまでに蓄積されてきた大量の文書群から所望の文書を見つけ出す検索技術の重要性が高まっている。
英語などの多くの言語においては、単語を索引単位として索引ファイルを作成して、これを用いて高速な検索処理を実現することが一般的である。しかし、日本語の場合、スペース等によって単語の切れ目が明示的に示されないため、しばしば、Nグラムを索引単位とする方法が用いられている。
Nグラムとは、連続するN文字からなる部分文字列のことである。Nグラムによる索引ファイル(以下、転置インデックスと呼称する)の作成には、文字列にのみ基づくため、単語を認識する必要がない。しかし、検索処理される検索語が複数のNグラムに分割されて処理されるので、長い検索語で検索処理を行う場合、検索時間が増大するという問題がある。
このような問題に対し、非特許文献1において、検索処理の高速化の技術が開示されている。具体的に、非特許文献1では、Nグラムの文書頻度の和を処理の高速化の推定値として計算し、実際に文書の検索処理に用いるNグラムの選定に利用することで、検索処理の高速化を行う。
小川泰嗣,松田透,"n−gram索引を用いた効率的な文書検索法",電子情報通信学会論文誌(D-I),Vol.J82-D-I,No.1,pp.121-129,1999年1月
このようなNグラムを用いた検索処理において、より単純な処理によって高速化を実現したい、との要望がある。しかしながら、特許文献1に開示される構成では、検索対象となる単語や文書のデータ量が増えるにつれて、検索時間が長くなるという問題がある。例えば、携帯電話や電子辞書などのような小型の電子機器といった、使用できる資源が限られている環境では、機器の性能が制限されるため、検索時間が長くなる場合がある。そこで、検索を効率的に処理することによって、高速な検索処理を行う新たな方法が求められている。
本発明は、以上のような課題を解決するためのものであり、検索対象となる単語等を効率的に絞り込むことを可能にするのに好適な転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラムを提供することを目的とする。
上記目的を達成するため、本発明の第1の観点に係る転置インデックスの生成方法は、
見出し語と対応する説明文とからそれぞれ構成される複数の文書データのそれぞれについて、当該見出し語と当該説明文との文字数を計数し、文字数が少ない順に、当該複数の文書データの順序を入れ換える順序入換ステップと、
「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、前記順序が入れ換えられた複数の文書データ中の出現位置を対応付けて、転置インデックスを生成する生成ステップと、
を備えることを特徴とする。
上記生成方法において、
前記順序が入れ換えられた複数の文書データのそれぞれの見出し語と説明文との文字列を包含する文書データを抽出し、当該抽出された文書データと、当該抽出された文書データに文字列が包含される文書データと、の包含関係を対応付ける対応付けステップをさらに備え、
前記生成ステップでは、当該包含関係をさらに記憶させて、前記転置インデックスを生成する、
ことが望ましい。
上記生成方法において、
前記生成ステップでは、前記順序が入れ換えられた複数の文書データと、前記順序が入れ換えられる前の複数の文書データと、の対応関係をさらに記憶させて、前記転置インデックスを生成する、
ことが望ましい。
上記目的を達成するため、本発明の第2の観点に係る検索方法は、
検索文字列からNグラムを抽出するNグラム抽出ステップと、
上記の生成方法によって生成された転置インデックスから、前記Nグラム抽出ステップにおいて抽出されたNグラムに対応付けられた出現位置を取得し、当該出現位置に基づいて、前記順序が入れ換えられた複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定ステップと、
を備えることを特徴とする。
上記目的を達成するため、本発明の第3の観点に係る検索方法は、
検索文字列からNグラムを抽出するNグラム抽出ステップと、
上記の生成方法によって生成された転置インデックスから、前記Nグラム抽出ステップにおいて抽出されたNグラムに対応付けられた出現位置を取得し、当該出現位置に基づいて、前記順序が入れ換えられた複数の文書データのうちから前記検索文字列を含む文書データを特定し、前記記憶された包含関係に基づいて、当該特定した文書データに対応付けられた文書データをさらに特定する文書特定ステップと、
を備えることを特徴とする。
上記目的を達成するため、本発明の第4の観点に係る検索方法は、
検索文字列からNグラムを抽出するNグラム抽出ステップと、
上記の生成方法によって生成された転置インデックスから、前記Nグラム抽出ステップにおいて抽出されたNグラムに対応付けられた出現位置を取得し、当該出現位置と、前記順序が入れ換えられた複数の文書データと前記順序が入れ換えられる前の複数の文書データとの対応関係と、に基づいて、前記順序が入れ換えられる前の複数の文書データのうちから前記検索文字列を含む文書データを特定し、前記記憶された包含関係に基づいて、当該特定した文書データに対応付けられた文書データをさらに特定する文書特定ステップと、
を備えることを特徴とする。
上記目的を達成するため、本発明の第5の観点にかかる転置インデックスの生成装置は、
見出し語と対応する説明文とからそれぞれ構成される複数の文書データのそれぞれについて、当該見出し語と当該説明文との文字数を計数し、文字数が少ない順に、当該複数の文書データの順序を入れ換える順序入換手段と、
「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、前記順序が入れ換えられた複数の文書データ中の出現位置を対応付けて、転置インデックスを生成する生成手段と、
を備えることを特徴とする。
上記目的を達成するため、本発明の第6の観点にかかる検索装置は、
検索文字列からNグラムを抽出するNグラム抽出手段と、
上記の生成方法によって生成された転置インデックスから、前記Nグラム抽出ステップにおいて抽出されたNグラムに対応付けられた出現位置を取得し、当該出現位置に基づいて、前記順序が入れ換えられた複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定手段と、
を備えることを特徴とする。
上記目的を達成するため、本発明の第7の観点にかかるコンピュータプログラムは、
コンピュータを、
見出し語と対応する説明文とからそれぞれ構成される複数の文書データのそれぞれについて、当該見出し語と当該説明文との文字数を計数し、文字数が少ない順に、当該複数の文書データの順序を入れ換える順序入換手段、
「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、前記順序が入れ換えられた複数の文書データ中の出現位置を対応付けて、転置インデックスを生成する生成手段、
として機能させる。
上記目的を達成するため、本発明の第8の観点にかかるコンピュータプログラムは、
コンピュータを、
検索文字列からNグラムを抽出するNグラム抽出手段、
上記の生成方法によって生成された転置インデックスから、前記Nグラム抽出ステップにおいて抽出されたNグラムに対応付けられた出現位置を取得し、当該出現位置に基づいて、前記順序が入れ換えられた複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定手段、
として機能させる。
本発明によれば、検索対象となる単語等を効率的に絞り込むことを可能にするのに好適な転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラムを提供することができる。
本発明に係る転置インデックスを生成する生成装置の概要構成の1例を示す図である。 本発明に係る転置インデックスを搭載した検索装置の概要構成の1例を示す図である。 転置インデックスの生成処理の流れを示すフローチャートである。 文字数が少ない順に、順序を入れ換えた文書データの例を示す図である。 文字列が一致する入換文書データを対応付けた文書データの例を示す図である。 転置インデックスの具体的な構成を示す図である。 検索装置の検索処理の流れを示すフローチャートである。 位置ポインタと番号ポインタとを付与した文書データの例を示す図である。 文字列が一致する入換文書データを多層的に対応付けた文書データの例を示す図である。 本発明に係る転置インデックスを生成する生成装置の概要構成の別の例を示す図である。 本発明に係る転置インデックスを搭載した検索装置の概要構成の別の例を示す図である。
以下、本発明の実施形態に係る転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置について説明する。以下に説明する実施形態は説明のためのものであり、本発明の範囲を制限するものではない。
本実施形態では、コンピュータ装置を、図1に示されるような転置インデックスの生成装置として構成する。また、図1に示される生成装置10によって、本実施形態に係る転置インデックスの生成方法が実現される。
生成装置10は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、HDD(Hard Disk Drive)14、入力装置15、出力装置16、通信制御装置17により構成される。各構成要素は、命令やデータを転送するための伝送経路であるシステムバスにより、相互に接続されている。
CPU11は、生成装置10全体の動作を制御し、各構成要素と接続され制御信号やデータをやりとりする。
ROM12は、生成装置10全体の動作制御に必要なコンピュータプログラムや各種データを記憶する。CPU11は、ROM12に記憶されたコンピュータプログラムによって動作し、各種制御を実行する。
RAM13は、データやコンピュータプログラムを一時的に記憶するためのもので、ROM12から読み出したコンピュータプログラムやデータ、その他処理の進行に必要なデータが保持される。
HDD14は、転置インデックスの生成処理の動作のために必要なデータ等を記憶する。このHDD14には、複数の文書データ18が記憶される。生成装置10は、この複数の文書データ18をもとにして、転置インデックスを生成する。
入力装置15は、例えばキーボードやタッチパネル等によって構成され、ユーザからの各種入力を受け付ける。
出力装置16は、例えばディスプレイ等によって構成され、生成装置10の種々の処理結果を出力する。
通信制御装置17は、生成装置10をインターネット等のコンピュータ通信網に接続するためのものであり、コンピュータ通信網に接続してデータをやり取りする場合に必要となる。
本実施形態では、生成装置10は、順序入換手段と、対応付け手段と、生成手段と、を備える。これらは、上述したCPU11が、ROM12やRAM13と協働し、HDD14に記憶されたデータにアクセスしながら、入力装置15や出力装置16、通信制御装置17を用いて外部とやり取りすることで、実現される。
具体的に、生成装置10の順序入換手段は、見出し語と対応する説明文とからそれぞれ構成される複数の文書データ18のそれぞれについて、当該見出し語と当該説明文との文字数を計数し、文字数が少ない順に、当該複数の文書データ18の順序を入れ換える。
ここで、見出し語とは、検索対象となる単語や文書をいう。また、説明文とは、見出し語の意味が説明された文書をいう。例えば、見出し語が「記憶」という単語の場合、説明文は、例えば、「(1)物事を忘れずに覚えている、または覚えておくこと。(2)生物体に過去の影響が残ること。(3)過去の経験の内容を保持し、それを後で思い出すこと。」となり、見出し語と説明文とが対応付けられて、1つの文書データ18として、例えばHDD14に記憶される。
順序入換手段は、CPU11等の機能により、このような見出し語と説明文とから構成される文書データ18毎に文字列の文字数を計数する。さらに、順序入換手段は、CPU11等の機能により、HDD14に記憶された複数の文書データ18のうち、文書データ18の文字数が少ない順に、文書データ18の順序を入れ換えて、当該順序を入れ換えた複数の入換文書データ19を、例えばRAM12等に記憶させて保持する。
また、生成装置10の対応付け手段は、順序が入れ換えられた複数の入換文書データ19のそれぞれの見出し語と説明文との文字列を包含する入換文書データ19を抽出し、当該抽出された入換文書データ19と、当該抽出された入換文書データ19に文字列が包含される入換文書データ19と、の包含関係を対応付ける。
対応付け手段は、CPU11等の機能により、入換文書データ19が表す所定の見出し語や所定の説明文の文字列を包含する、複数の入換文書データ19を抽出する。ここでは、具体例として、複数の入換文書データ19として、3つの見出し語と、当該3つの見出し語に対応する3つの説明文がある場合を考える。文書データA(見出し語:「ダイヤ」、当該見出し語に対応する説明文:「ダイヤ」)、文書データB(見出し語:「ダイヤグラム」、当該見出し語に対応する説明文:「列車運行表、また、バスや航空機などの運行予定、ダイヤ、列車ダイヤ」)、文書データC(見出し語「記憶」、当該見出し語に対応する説明文:「物事を忘れずに覚えている、または覚えておくこと」)とする。この場合、入換文書データAには「ダイヤ」という文字列があり、入換文書データBにも「ダイヤグラム」、「ダイヤ」、「列車ダイヤ」という文字列があるため、入換文書データBは、入換文書データAを包含する関係にある。一方、入換文書データCには「ダイヤ」という文字列がないため、入換文書データCは、入換文書データAや入換文書データBを包含する関係にはない。
すなわち、対応付け手段は、見出し語や説明文の文字列と一致する、他の見出し語や他の説明文の文字列があるか否かを判別することにより、文字列を包含する入換文書データ19を特定する。そして、文字列を包含する入換文書データ19がある場合、対応付け手段は、入換文書データ19同士を対応付けて、当該対応付けられた包含関係を、例えばRAM12等に記憶させて保持する。
また、生成装置10の生成手段は、「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、複数の入換文書データ19中の出現位置を対応付けて、そして対応付け手段により対応付けられた包含関係をさらに記憶させて、転置インデックスを生成する。生成された転置インデックスは、HDD14に、あるいは出力装置16や通信制御装置17を介して、出力される。
具体的には、生成手段は、1個の文書データがNdoc文字の文字列から構成されていた場合、Ndoc−N+1個のNグラム(N文字列)を抽出し、さらに、複数の文書データについて同様にNグラムを抽出し、同一パターンのNグラムに関して、それぞれの出現位置を記載した転置インデックスを、生成する。また、生成手段は、対応付け手段により対応付けられた文書データについても同様にNグラムを抽出し、同一パターンのNグラムに関して、それぞれの出現位置を記載した転置インデックスを、生成する。生成された転置インデックスは、例えばHDD14に記憶されて保存されることになる。
このような生成装置10によって生成された転置インデックスは、検索装置に搭載され、検索処理に用いられる。本実施形態では、コンピュータ装置を、図2に示されるような検索装置として構成する。また、図2に示される検索装置20によって、本実施形態に係る転置インデックスの検索方法が実現される。
検索装置20は、CPU21、ROM22、RAM23、HDD24、入力装置25、出力装置26、通信制御装置27により構成される。各構成要素は、命令やデータを転送するための伝送経路であるシステムバスにより、相互に接続されている。
これらの構成要素は、基本的には図1に示された生成装置10の構成要素と同等なものである。すなわち、図1では、文書データ18から転置インデックスを生成するために機能した各構成要素が、ここでは生成された転置インデックスを用いて検索処理を行うために機能する。
すなわち、CPU21は、検索装置20全体の動作を制御し、各構成要素と接続され制御信号やデータをやりとりする。
ROM22は、検索装置20全体の動作制御に必要なコンピュータプログラムや各種データを記憶する。CPU11は、ROM12に記憶されたコンピュータプログラムによって動作し、各種制御を実行する。
RAM23は、データやコンピュータプログラムを一時的に記憶するためのもので、ROM22から読み出したコンピュータプログラムやデータ、その他処理の進行に必要なデータが保持される。
HDD24は、検索処理の動作のために必要なデータ等を記憶する。このHDD24には、生成装置10によって生成された転置インデックス30と、その際に複数の文書データ18から順序が入れ換えられた複数の入換文書データ19と、が記憶される。検索装置20は、この転置インデックス30をもとに、ユーザによって指定された検索文字列が複数の入換文書データ19の中のどの入換文書データ19中に出現するかを特定する。
入力装置25は、例えばキーボードやタッチパネル等によって構成され、ユーザからの各種入力を受け付ける。
出力装置26は、例えばディスプレイ等によって構成され、検索装置20の種々の処理結果を出力する。
通信制御装置27は、検索装置20をインターネット等のコンピュータ通信網に接続するためのものであり、コンピュータ通信網に接続してデータをやり取りする場合に必要となる。
本実施形態では、検索装置20は、Nグラム抽出手段と、文書特定手段と、を備える。これらは、上述したCPU11が、ROM12やRAM13と協働し、HDD14に記憶されたデータにアクセスしながら、入力装置15や出力装置16、通信制御装置17を用いて外部とやり取りすることで、実現される。
具体的に、検索装置20のNグラム抽出手段は、検索文字列からNグラムを抽出する。すなわち、例えば検索装置20の入力装置25が、ユーザが入力した検索文字列を受付ける。そして、Nグラム抽出手段は、検索装置20のCPU21などによって、検索文字列を構成するNグラムのうち、抽出可能なものを抽出する。具体的には、ユーザがM文字の検索文字列を入力したとき、Nグラム抽出部13は、検索文字列から抽出可能なすべてのNグラム(N文字列)を抽出する。すなわち、MがNより大きい場合は、M−N+1個のNグラムが抽出されることになる。
そして、検索装置20の文書特定手段は、転置インデックス30から、Nグラム抽出手段において抽出されたNグラムに対応付けられた出現位置を取得し、当該出現位置に基づいて、複数の入換文書データ19のうちから検索文字列を含む入換文書データ19を特定する。さらに、文書特定手段は、特定した入換文書データ19に対応付けられた入換文書データ19を特定する。特定された入換文書データ19は、出力装置26や通信制御装置27を介して出力される。
すなわち、生成装置10によって生成された転置インデックス30は、文字列を包含する文書データが対応付けられているので、文書特定手段は、複数の入換文書データ19のうち、1つの入換文書データ19を特定すると、当該入換文書データ19に対応付けられた入換文書データ19をさらに特定することとなる。
このような構成によって実現される生成装置10と検索装置20における、処理の流れの詳細を説明する。ここではまず、図3を参照して、転置インデックス30の生成処理について、フローチャートを用いて説明する。
生成装置10が、例えば入力装置15を介してユーザからの生成処理の開始の指示を受け付けることで、転置インデックス30の生成処理を開始する。転置インデックス30の生成処理が開始されると、生成装置10の順序入換手段は、CPU11の機能により、例えばHDD14に記憶された複数の文書データ18のそれぞれについて、文字列の文字数を計数する(ステップS101)。ここで、文書データ18は、見出し語と当該見出し語の説明文とから構成される。順序入換手段は、文書データ18の文字数によって、複数の文書データ18の順序を入れ換えるために、見出し語の文字列及び説明文の文字列の文字数を計数する。例えば、順序入換手段は、見出し語の文字数が5であり、説明文の文字数が15である場合、文書データ18の文字数を20(=5+15)と計数する。順序入換手段により、複数の文書データ18のそれぞれについて文字数が計数されるため、文書データ18毎の文字数が導出される。
次に、生成装置10の順序入換手段は、CPU11の機能により、順序入換手段により計数された文字数の少ない順に、複数の文書データ18の順序を入れ換える(ステップS102)。具体的に説明すると、複数の文書データ18は、図4に示されるように、例えば、当初は、見出し語1、見出し語2、見出し語3、というように、見出し語の順番で文書データ18が並べられて、文書データ18の文字数とは無関係に並べられていた。例えば、文字数の少ない見出し語2(15文字)の文書データ18よりも、文字数の多い見出し語1(30文字)の文書データ18の方が前に位置している。
本実施形態では、順序入換手段が、この状態から、複数の文書データ18を文字数の少ない順に並べ替えて、複数の入換文書データ19とする。具体的に説明すると、複数の文書データ18のうち、最も文字数の少ない見出し語Zの文書データ18を先頭にし、最も文字数の多い見出し語3の文書データ18を末尾にする。また、当初は先頭にあった見出し語1の文書データ18は、複数の文書データ18の中では5番目に文字数が少ないものであるため、複数の入換文書データ19では5番目に並べる。
このように、順序入換手段は、文書データ18毎に文字数が計数された複数の文書データ18のうち、文字数が少ない順に、文書データ18の順序を入れ換えることにより、入換文書データ19を生成する。そして、順序入換手段は、入換文書データ19を、RAM13やHDD14に記憶する。
次に、生成装置10の対応付け手段は、CPU21の機能により、最初の入換文書データ19に着目する(ステップS103)。そして、対応付け手段は、複数の入換文書データ19の中に、着目された入れ過分書データ19の構成する見出し語と説明文との文字列を包含する入換文書データ19が、他にあるか否かを判定する(ステップS104)。例えば、着目された入換文書データ19の見出し語の文字列が「AB」であり、対応する説明文の文字列が「CDE」の場合、対応付け手段は、当該「AB」という文字列と当該「CDE」という文字列とを、いずれも含む入換文書データ19が他にあるか否かを判定する。このような文字列を包含する入換文書データ19としては、例えば、見出し語あるいは説明文に「ABCDE」、「ABXYZCDE」、「CDEAB」という文字列を含む入換文書データ19などが相当する。
そして、複数の入換文書データ19の中に、着目された入換文書データ19の文字列を包含するものがあると判定された場合(ステップS104;YES)、対応付け手段は、着目した入換文書データ19に、その文字列を包含する入換文書データ19を対応付けて、当該対応付けられた包含関係を保持する(ステップS105)。具体的に説明すると、図5に示されるように、例えば、見出し語20を有する入換文書データ19aに、4つの入換文書データ19c〜19fを対応付け、見出し語57を有する入換文書データ19bに、2つの入換文書データ19g〜19hを対応付ける。対応付け手段は、このように対応付けられた包含関係を、RAM13等に保持する。
一方で、複数の入換文書データ19の中に、着目された入換文書データ19の文字列を包含するものがあると判定されなかった場合(ステップS104;NO)、検索装置20の処理は上述したステップS105を通らない。すなわち、上述した包含関係を保持しない。
そして、検索装置20の対応付け手段は、次の入換文書データ19があるかを判定する(ステップS106)。すなわち、対応付け手段は、現在着目している入換文書データ19が、最後の入換文書データ19かを判定する。次の入換文書データ19があれば(ステップS106;YES)、対応付け手段は、当該次の入換文書データ19に着目して(ステップS107)、その後、処理は再びステップS104へと戻る。
このようなステップS104〜S107の処理を、入換文書データ19ごとに行う。そして、次の入換文書データ19がなくなるまで、ステップS103において着目された入換文書データ19の文字列を包含する、入換文書データ19を判定して、含まれていれば包含関係を保持する。
ここで、複数の入換文書データ19は、文字数の少ない順に入れ換えられているので、ステップS103において着目された入換文書データ19の文字数より文字数が多い入換文書データ19が、ステップS104〜S107の処理において、次々と着目されることとなる。このため、複数の入換文書データ19を先頭から順次着目するだけで、ステップS103において着目された入換文書データ19の文字列を包含する、他の入換文書データ19を特定することができる。
次に、生成装置10の生成手段は、CPU11の機能により、文字数が少ない順に入れ換えられて記憶された入換文書データ19から抽出されるNグラムのそれぞれについて、入換文書データ19中の出現位置と、を構成要素とし、さらにステップS105において保持された包含関係を記憶させて、転置インデックス30を生成する(ステップS108)。生成された転置インデックス30は、HDD14に記憶される、あるいは出力装置16、通信制御装置17を介して出力される。そして、その後、検索処理を終了する。
以下、図6を用いて、本実施形態に係る転置インデックス30の具体的な構成を説明する。本図に示すように、転置インデックス30は、Nグラム文字列パターンと出現位置情報格納アドレスが記載されたファイル(pattern.idx)、各Nグラム文字列パターンについての出現位置が記載されたファイル(position.idx)、文書番号と各文書の先頭文字位置が記載されたファイル(number.idx)、および包含関係に関するファイル(relation.idx)から構成される。
ここで、出現位置は、検索対象の文書群を文書番号順に並べたテキストの先頭文字位置を基準とした位置である。同様に、本図中の各文書番号の先頭文字位置も、検索対象の文書群を文書番号順に並べたテキストの先頭文字位置を基準とした位置である。
包含関係に関するファイル(relation.idx)は、上述した生成処理のステップS105において保持された包含関係が記載される。具体的には、上記図5において、見出し語20の入換文書データ19aには、見出し語45、85、456、775の入換文書データ19c〜19fが対応付けられていたため、図6では、文書番号20(見出し語20)に対して、4つの包含文書番号45、85、456、775が対応付けられている。同様に、文書番号57(見出し語57)に対して、2つの包含文書番号203、360が対応付けられている。
ステップS108において作成された転置インデックス30は、後述する検索装置20にて行われる検索処理に利用される。
以上の処理により、本実施形態における転置インデックス30の生成装置10は、文書データ18毎の文字数が少ない順に、複数の文書データ18の順序を入れ換えた入換文書データ19を作成し、入換文書データ19中のNグラムについて、入換文書データ19中における出現位置を対応付けて、転置インデックス30を生成する。また、文字列を包含する関係にある入換文書データ19を対応付けて、その包含関係をさらに記憶させて転置インデックス30を生成する。文字列を包含する関係にある入換文書データ19が対応付け(紐付け)されているため、検索文字列を含む入換文書データ19が特定されると、当該入換文書データ19に紐付けられた入換文書データ19も特定されることとなる。これは、後述する検索処理を効率的なものにすることにつながる。
次に、本実施形態に係る検索装置20にて行われる、検索処理について説明する。図7は、検索処理の流れを示すフローチャートである。
まず、検索装置20の処理が開始されると、例えば検索装置20の入力装置25が、ユーザから検索文字列を受け付ける(ステップS201)。
次に、Nグラム抽出手段は、CPU21の機能により、ステップS201において受け付けられた検索文字列から、Nグラムを抽出する(ステップS202)。ここでNの値は、検索装置20において予め定められている値であり、N=2、N=3、あるいはそれ以外の自然数の値をとる、以下では説明のために、その都度N=2やN=3などの場合を用いて説明をする。
具体的に、ユーザが「高速化全文検索処理」という9文字の検索文字列を入力したとする。このとき、N=2による検索処理の場合、抽出されるNグラム(バイグラム)は、前から順に「高速」、「速化」、「化全」、「全文」、「文検」、「検索」、「索処」、「処理」、の8個(9−2+1個)である。また、例えば、N=3による検索処理の場合、抽出されるNグラム(トリグラム)は、前から順に「高速化」、「速化全」、「化全文」、「全文検」、「文検索」、「検索処」、「索処理」の7個(9−3+1個)である。
次に、文書特定手段は、CPU21の機能により、最初の入換文書データ19に着目する(ステップS203)。そして、文書特定手段は、着目された入換文書データ19に、検索文字列が含まれるか否かを判定する(ステップS204)。ここで、入換文書データ19に検索文字列が含まれるかどうかを判定するために、転置インデックス30を用いる。具体的には、ステップS202において、検索文字列から抽出されたNグラムを用いて、それぞれのNグラムに対応付けられた出現位置を、転置インデックス30から取得する。
ステップS204では、文書特定手段は、取得されたNグラムの出現位置のうち、検索文字列を構成するような連続した出現位置があるかを判定して、その検索文字列が着目された入換文書データ19中に含まれているかを判断する。そして、着目された入換文書データ19に検索文字列が含まれる場合(ステップS204;YES)、文書特定手段は、その入換文書データ19をRAM13等に一時的に保持して(ステップS205)、後の処理においてユーザへ出力する。
一方、着目された入換文書データ19に検索文字列が含まれない場合(ステップS204;NO)、文書特定手段は、着目された入換文書データ19の次に、入換文書データ19があるか否かを判定する(ステップS208)。複数の入換文書データ19は、文字数が少ない順に入れ換えられているので、文書特定手段は、文字数が徐々に多くなる順に、入換文書データ19を着目していくこととなる。そして、文書特定手段は、現在着目している入換文書データ19が、最後の入換文書データ19かを判定する。
次に、文書特定手段は、CPU21の機能により、検索文字列が含まれると判定された入換文書データ19に対応付けられる入換文書データ19があるか否かを判定する(ステップS206)。
転置インデックス30の包含関係に関するファイル(relation.idx)では、文字列が対応する(文字列を包含する)文書番号がそれぞれ対応付けられている。このため、文書特定手段は、検索文字列が含まれると判定された入換文書データ19の文書番号に対応付けられた包含文書番号があるか否かを判定する。そして、対応付けられた包含文書番号がある場合、文書特定手段は、当該包含文書番号が付された入換文書データ19が、検索文字列が含まれると判定された入換文書データ19に対応付けられている文書データであると特定する。
対応付けられる入換文書データ19がある場合(ステップS206;YES)、文書特定手段は、ステップS204において、検索文字列が含まれると判定された入換文書データ19に対応付けられた、すべての入換文書データ19をRAM13等に一時的に保持する(ステップS207)。
一方、対応付けられる入換文書データ19がない場合(ステップS206;NO)、文書特定手段は、着目された入換文書データ19の次に、入換文書データ19があるか否かを判定する(ステップS208)。そして、次の入換文書データ19があれば(ステップS208;YES)、文書特定手段は、当該次の入換文書データ19が、ステップS204において対応付けられていると判定された入換文書データ19であるか否かを判定する(ステップS209)。
次の入換文書データ19が、対応付けられていると判定された入換文書データ19である場合(ステップS209;YES)、文書特定手段は、当該次の入換文書データ19を着目せずに(ステップS210)、当該次の入換文書データ19のその次の入換文書データ19があるか否かを判定する(ステップS208)。これは、ステップS204において対応付けられていると判定された入換文書データ19は、検索文字列が含まれると判定された入換文書データの文字列を包含しているため、検索文字列が含まれるか否かを再度判定する必要がないからである。このため、ステップS208〜S210の処理を行うことにより、入換文書データ19に検索文字列が含まれるか否かを判定する処理回数を減らすことができる。
次の入換文書データ19が、対応付けられていると判定された入換文書データ19でない場合(ステップS209;NO)、文書特定手段は、当該次の入換文書データ19に着目して(ステップS211)、その後、処理は再びステップS204へと戻る。
次の入換文書データ19がない場合(ステップS208;NO)、文書特定手段は、すべての入換文書データ19について、検索文字列が含まれるか否かを判定したとして、上記のステップS204〜S211の繰り返し処理を抜ける。そして、文書特定手段は、ステップS205及びS207によって保持された検索文字列を含む入換文書データ19を、ユーザへ出力する(ステップS212)。すなわち、ステップS204の処理において、検索文字列を含むと特定された入換文書データ19と、ステップS206の処理において、当該入換文書データ19に対応付けられていると判定されたすべての入換文書データ19と、が出力されることになる。その後、検索処理を終了する。
このようなステップS204〜S211の処理を、入換文書データ19ごとに行う。検索文字列が含まれると判定された入換文書データ19に対応付けられた入換文書データ19がある場合、検索文字列が含まれる入換文書データ19がまず1つ特定され、当該入換文書データ19に対応付けられた入換文書データ19についてもさらに特定される。このため、検索文字列が含まれる入換文書データ19を一度に特定することができる。
ステップS212において、もし検索文字列を含むと特定された入換文書データ19が1つもなければ、文書特定手段は、いずれの入換文書データ19も出力せず、典型的には「検索文字列が見つかりませんでした。」等をユーザへ出力して、処理を終了する。
このように、本実施形態における検索装置20は、複数の入換文書データ19のうち、検索文字列が含まれる入換文書データ19が1つ特定されると、当該入換文書データ19に対応付けられた、文字列が一致する(文字列を包含する)入換文書データ19も同時に特定することができる。これによって、複数の入換文書データ19中から、検索文字列が含まれるか否かを判定する処理回数を減らすことができ、効率的に検索処理を行うことができる。そのため、例えば携帯電話や電子辞書などのような小型の電子機器では、使用できる資源が限られている環境において、とくに本実施形態は有用である。
なお、本発明は上記の実施形態に限定されず、種々の変形及び応用が可能である。
例えば、本実施形態では、順序入換手段が入換文書データ19を作成する際に、入れ換えられる前の状態との対応関係が認識できるように、番号を付してもよい。図8では、順序入れ換え前の複数の文書データ18のそれぞれに昇順に見出し番号を付し、その状態で、文字数が多い順に文書データ18が入れ換えられて入換文書データ19が作成される様子を示している。ここで、最初は昇順に並んでいた見出し番号は、入換文書データ19では、ばらばらになって並べ替えられている。それに対して、図8では、改めて入換後の見出し番号が、昇順に付されている。
このように付された入換後の見出し番号と入換前の見出し番号とを対応付けて、生成手段が、例えば転置インデックス30に記憶することで、それぞれの入換文書データ19が、入れ換えられる前はどの順番で並んでいたかの対応を付けることができるようになる。
これにより、検索装置20の文書特定手段が、複数の入換文書データ19から生成された転置インデックス30に基づいて、検索文字列が含まれる入換文書データ19を特定した場合でも、複数の入換文書データ19の中においてどの入換文書データ19が特定されたかだけでなく、入れ換えられる前の順序で並んでいた複数の文書データ18の中においてもどの文書データ18が特定されたのかを判別することが可能になる。
また、対応付け手段は、入換文書データ同士の対応構造が多層構造となるように、入換文書データ19同士を対応付けることもできる。図9では、入換文書データ19a(見出し語20)に対して、入換文書データ19c(見出し語45)が対応付けられ、さらに、当該入換文書データ19c(見出し語45)に対して、3つの入換文書データ19i〜19kが対応付けられた様子を示している。また、入換文書データ19f(見出し語775)に対しては、2つの入換文書データ19l〜19mが対応付けられ、さらに入換文書データ19lに対して、入換文書データ19nが対応付けられている。このように、対応付け手段は、文字列が一致する入換文書データ19を多層的に対応付けることもできる。これにより、1つの入換文書データ19が特定されると、当該入換文書データ19に対応付けられた複数の入換文書データ19を特定することができるため、効率的に検索処理を行うことができる。
また、ステップS108において、「&」、「*」、「+」等の記号や特殊文字を取り除いた、転置インデックス30を生成することもできる。当該記号等は、検索文字列としてユーザから入力されることが少ないため、記号等を取り除いた転置インデックス30を生成し、当該転置インデックスに基づいて、検索処理を行うことにより、検索対象となる単語等を効率的に絞り込むことができる。さらに、記号等を取り除いた転置インデックス30では、文字列を包含する関係にある入換文書データ19同士を対応付けた対応関係を示す構成要素の割合が相対的に大きくなるため、効率的な検索を行うことができる。
また、ユーザから受け付けられる検索文字列は、1語であってもよいし、一方で、複数の検索文字列であってもよい。複数の検索文字列を受け付けた場合、複数の検索文字列の論理積、論理和、否定論理積など、演算方法に種類があり、いずれの演算方法による検索を行ってもよい。
また、文書データ18の構成要素は、見出し語と説明文とに限られない。例えば、文書データ18は、見出し語、説明文、当該見出し語が説明された図面、当該見出し語が意味する反対の意味を有する見出し語など、から構成されてもよい。
そして、転置インデックス30の構成要素は、上記図5に示したような構成要素に限られない。例えば、抽出されたNグラムについて、検索対象の複数の文書データ18中における出現頻度を、さらに構成要素としてもよい。この場合、文書特定手段は、出現頻度の情報を利用することで、検索文字列を含む文書データ18を、さらに効率的に特定することができる。
さらに、順序入換手段は、文書データ18の順序を入れ換える際に、文字数を計数することに限られず、見出し語と説明文とから構成される文書データ18のデータ量を計測することもできる。そして、順序入換手段は、計測されたデータ量が少ない順に、複数の文書データ18の順序を入れ換えることにより、入換文書データ19を作成することもできる。
なお、本実施形態における生成装置10では、文書データ18は、例えば図1のようにHDD14内に記憶されるなどして生成装置10内に存在することに限られない。すなわち、例えば図11のように、文書データ18は、生成装置10内ではなくインターネット上に存在し、通信制御装置17を介して取得されうるものであってもよい。
また、本実施形態における検索装置20では、上記の生成装置10と同様に、文書データ18は、例えば図2のようにHDD14内に記憶されるなどして検索装置20内に存在することに限られない。すなわち、例えば図11のように、文書データ18は、検索装置20内ではなくインターネット上に存在し、通信制御装置17を介して取得されうるものであってもよい。
このような構成をとることで、図11の実施形態では図2でのものに比べ、検索装置20内に文書データ18を記憶する必要がなく、インターネットに適切に接続可能な環境であれば、小型の電子辞書のような限られた容量の装置においても実現しやすくなる。
また、本発明での実施形態は、上述した実施形態に加え、上記生成装置10としてコンピュータ装置を機能させるためのコンピュータプログラムであってもよい。また、上記検索装置20としてコンピュータ装置を機能させるためのコンピュータプログラムであってもよい。
上記コンピュータプログラムは、コンパクトディスク、フレキシブルディスク、ハードディスク、光磁気ディスク、ディジタルビデオディスク、磁気テープ、半導体メモリ等のコンピュータ読取可能な情報記憶媒体に記憶することができる。
また、上記コンピュータプログラムは、コンピュータプログラムが実行されるコンピュータ装置とは独立して、コンピュータ通信網を介して配付・販売することができる。また、上記情報記憶媒体は、コンピュータ装置とは独立して配付・販売することができる。
10…生成装置、11…CPU、12…ROM、13…RAM、14…HDD、15…入力装置、16…出力装置、17…通信制御装置、18…文書データ、19…入換文書データ、20…検索装置、21…CPU、22…ROM、23…RAM、24…HDD、25…入力装置、26…出力装置、27…通信制御装置、30…転置インデックス

Claims (10)

  1. 見出し語と対応する説明文とからそれぞれ構成される複数の文書データのそれぞれについて、当該見出し語と当該説明文との文字数を計数し、文字数が少ない順に、当該複数の文書データの順序を入れ換える順序入換ステップと、
    「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、前記順序が入れ換えられた複数の文書データ中の出現位置を対応付けて、転置インデックスを生成する生成ステップと、
    を備えることを特徴とする転置インデックスの生成方法。
  2. 前記順序が入れ換えられた複数の文書データのそれぞれの見出し語と説明文との文字列を包含する文書データを抽出し、当該抽出された文書データと、当該抽出された文書データに文字列が包含される文書データと、の包含関係を対応付ける対応付けステップをさらに備え、
    前記生成ステップでは、当該包含関係をさらに記憶させて、前記転置インデックスを生成する、
    ことを特徴とする請求項1に記載の転置インデックスの生成方法。
  3. 前記生成ステップでは、前記順序が入れ換えられた複数の文書データと、前記順序が入れ換えられる前の複数の文書データと、の対応関係をさらに記憶させて、前記転置インデックスを生成する、
    ことを特徴とする請求項1または2に記載の転置インデックスの生成方法。
  4. 検索文字列からNグラムを抽出するNグラム抽出ステップと、
    請求項1に記載の生成方法によって生成された転置インデックスから、前記Nグラム抽出ステップにおいて抽出されたNグラムに対応付けられた出現位置を取得し、当該出現位置に基づいて、前記順序が入れ換えられた複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定ステップと、
    を備えることを特徴とする検索方法。
  5. 検索文字列からNグラムを抽出するNグラム抽出ステップと、
    請求項2に記載の生成方法によって生成された転置インデックスから、前記Nグラム抽出ステップにおいて抽出されたNグラムに対応付けられた出現位置を取得し、当該出現位置に基づいて、前記順序が入れ換えられた複数の文書データのうちから前記検索文字列を含む文書データを特定し、前記記憶された包含関係に基づいて、当該特定した文書データに対応付けられた文書データをさらに特定する文書特定ステップと、
    を備えることを特徴とする検索方法。
  6. 検索文字列からNグラムを抽出するNグラム抽出ステップと、
    請求項2に記載の生成方法によって生成された転置インデックスから、前記Nグラム抽出ステップにおいて抽出されたNグラムに対応付けられた出現位置を取得し、当該出現位置と、前記順序が入れ換えられた複数の文書データと前記順序が入れ換えられる前の複数の文書データとの対応関係と、に基づいて、前記順序が入れ換えられる前の複数の文書データのうちから前記検索文字列を含む文書データを特定し、前記記憶された包含関係に基づいて、当該特定した文書データに対応付けられた文書データをさらに特定する文書特定ステップと、
    を備えることを特徴とする検索方法。
  7. 見出し語と対応する説明文とからそれぞれ構成される複数の文書データのそれぞれについて、当該見出し語と当該説明文との文字数を計数し、文字数が少ない順に、当該複数の文書データの順序を入れ換える順序入換手段と、
    「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、前記順序が入れ換えられた複数の文書データ中の出現位置を対応付けて、転置インデックスを生成する生成手段と、
    を備えることを特徴とする転置インデックスの生成装置。
  8. 検索文字列からNグラムを抽出するNグラム抽出手段と、
    請求項1に記載の生成方法によって生成された転置インデックスから、前記Nグラム抽出ステップにおいて抽出されたNグラムに対応付けられた出現位置を取得し、当該出現位置に基づいて、前記順序が入れ換えられた複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定手段と、
    を備えることを特徴とする検索装置。
  9. コンピュータを、
    見出し語と対応する説明文とからそれぞれ構成される複数の文書データのそれぞれについて、当該見出し語と当該説明文との文字数を計数し、文字数が少ない順に、当該複数の文書データの順序を入れ換える順序入換手段、
    「N文字の文字列であるNグラム(Nは自然数)」のそれぞれについて、前記順序が入れ換えられた複数の文書データ中の出現位置を対応付けて、転置インデックスを生成する生成手段、
    として機能させるためのコンピュータプログラム。
  10. コンピュータを、
    検索文字列からNグラムを抽出するNグラム抽出手段、
    請求項1に記載の生成方法によって生成された転置インデックスから、前記Nグラム抽出ステップにおいて抽出されたNグラムに対応付けられた出現位置を取得し、当該出現位置に基づいて、前記順序が入れ換えられた複数の文書データのうちから前記検索文字列を含む文書データを特定する文書特定手段、
    として機能させるためのコンピュータプログラム。
JP2010215611A 2010-09-27 2010-09-27 Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム Active JP5601121B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010215611A JP5601121B2 (ja) 2010-09-27 2010-09-27 Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010215611A JP5601121B2 (ja) 2010-09-27 2010-09-27 Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2012069071A true JP2012069071A (ja) 2012-04-05
JP5601121B2 JP5601121B2 (ja) 2014-10-08

Family

ID=46166221

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010215611A Active JP5601121B2 (ja) 2010-09-27 2010-09-27 Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム

Country Status (1)

Country Link
JP (1) JP5601121B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0484271A (ja) * 1990-07-26 1992-03-17 Nippon Telegr & Teleph Corp <Ntt> 文書内情報検索装置
JPH11161666A (ja) * 1997-11-28 1999-06-18 Hitachi Ltd ドキュメントデータ検索方法および装置、並びにドキュメント編集装置
JP2000242647A (ja) * 1999-02-12 2000-09-08 Internatl Business Mach Corp <Ibm> 関連情報検索方法およびシステム
JP2005050197A (ja) * 2003-07-30 2005-02-24 Internatl Business Mach Corp <Ibm> コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン
JP2009301511A (ja) * 2008-06-17 2009-12-24 Ns Solutions Corp 索引情報作成装置、索引情報作成方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0484271A (ja) * 1990-07-26 1992-03-17 Nippon Telegr & Teleph Corp <Ntt> 文書内情報検索装置
JPH11161666A (ja) * 1997-11-28 1999-06-18 Hitachi Ltd ドキュメントデータ検索方法および装置、並びにドキュメント編集装置
JP2000242647A (ja) * 1999-02-12 2000-09-08 Internatl Business Mach Corp <Ibm> 関連情報検索方法およびシステム
JP2005050197A (ja) * 2003-07-30 2005-02-24 Internatl Business Mach Corp <Ibm> コンピュータ実行可能な次元削減方法、該次元削減方法を実行させるためのプログラム、次元削減装置および該次元削減装置を使用した検索エンジン
JP2009301511A (ja) * 2008-06-17 2009-12-24 Ns Solutions Corp 索引情報作成装置、索引情報作成方法及びプログラム

Also Published As

Publication number Publication date
JP5601121B2 (ja) 2014-10-08

Similar Documents

Publication Publication Date Title
JP5798814B2 (ja) リアルタイム人気キーワードに対する代表フレーズを提供する方法およびシステム
US8117026B2 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
KR101435265B1 (ko) 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법
JP2007004633A (ja) 言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置
US20120330955A1 (en) Document similarity calculation device
CN104462030B (zh) 字符转换装置、字符转换方法
Akram et al. Word segmentation for Urdu OCR system
CN109885641A (zh) 一种数据库中文全文检索的方法及系统
JP5083367B2 (ja) 検索装置、検索方法、ならびに、コンピュータプログラム
US20060248037A1 (en) Annotation of inverted list text indexes using search queries
JP5601121B2 (ja) Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム
JP5601123B2 (ja) Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム
JP5979650B2 (ja) 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム
KR101113787B1 (ko) 텍스트 색인 장치 및 방법
JP5601116B2 (ja) Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム
JP2009271819A (ja) 文書検索システム、文書検索方法および文書検索プログラム
JP5380566B2 (ja) 言語処理装置、プログラムおよび方法
JP2006318509A (ja) 解データ編集処理装置および処理方法
JP5547030B2 (ja) 情報分析装置及び方法及びプログラム
JP2010146061A (ja) 例文表示装置、例文表示方法および例文表示プログラム
JP2008276561A (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
WO2007011140A1 (en) Method of extracting topics and issues and method and apparatus for providing search results based on topics and issues
JP5533197B2 (ja) 検索装置、ならびに、コンピュータプログラム
JP5708117B2 (ja) Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム
JP5575075B2 (ja) 代表的文書選択装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130918

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140507

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140702

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140722

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140804

R150 Certificate of patent or registration of utility model

Ref document number: 5601121

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150