JP2013030089A - 文書検索システムおよび文書検索プログラム - Google Patents

文書検索システムおよび文書検索プログラム Download PDF

Info

Publication number
JP2013030089A
JP2013030089A JP2011167158A JP2011167158A JP2013030089A JP 2013030089 A JP2013030089 A JP 2013030089A JP 2011167158 A JP2011167158 A JP 2011167158A JP 2011167158 A JP2011167158 A JP 2011167158A JP 2013030089 A JP2013030089 A JP 2013030089A
Authority
JP
Japan
Prior art keywords
search
document
unit
word
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011167158A
Other languages
English (en)
Other versions
JP5802924B2 (ja
Inventor
Akira Adachi
顕 足立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
E-JIDAI KK
Jidai Kk E
Original Assignee
E-JIDAI KK
Jidai Kk E
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by E-JIDAI KK, Jidai Kk E filed Critical E-JIDAI KK
Priority to JP2011167158A priority Critical patent/JP5802924B2/ja
Publication of JP2013030089A publication Critical patent/JP2013030089A/ja
Application granted granted Critical
Publication of JP5802924B2 publication Critical patent/JP5802924B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】汎用語の影響を低減するとともに、検索語同士が関連し合った文章を含む文書を上位に表示することの可能な文書検索システムおよび文書検索プログラムを提供する。
【解決手段】与えられた検索条件を解析し、この検索条件に含まれる複数の検索語を取得したのち(ステップS201)、各検索語をn文字単位(n≧1)で分割する(ステップS202)。次に、各検索語の分割により得られた単語ごとの出現頻度を、インデックスに登録されたページごとに抽出する(ステップS203)。次に、抽出により得られた単語ごとの出現頻度を利用して、各検索語のページごとの出現頻度と、各検索語の汎用度とを計算する(ステップS204)。次に、この計算により得られた出現頻度および汎用度を利用して、各文書の、検索語ごとの重みを計算する(ステップS205)。
【選択図】図5

Description

本発明は、文書データベースを検索して検索結果を表示する文書検索システムおよび文書検索プログラムに関する。
従来から、膨大な情報の中から必要な情報を抽出するために検索システムが利用されている。一般的な検索システムでは、入力された検索語を多く含む文書が上位に表示され、更には他の要素も考慮した表示がなされる(特許文献1段落0029等参照)。
特開2009−187211号公報
しかし、上記の表示方法では、入力された検索語に、汎用語と非汎用語とが含まれている場合には、汎用語を多く含む文書が上位に表示され、ユーザが真に必要とする文書が下位に表示されてしまう。また、上記の表示方法では、複数の検索語を用いた場合に、単に網羅的な記載がなされているだけで、検索語同士が関連し合った文章を含まない文書が上位にランキングされることがある。その結果、ユーザは、真に必要とする文書を探し出すために、検索結果の文書を順次表示させて閲覧しなければならず、多大な時間と労力をかけなければならないという問題があった。
もっとも、検索の上手なユーザは、汎用語を避けて検索することができるかもしれない。しかし、いくら検索の上手なユーザであっても、検索対象のデータベースにおいて、どの用語が汎用語であるか否かを検索前に把握することは難しい。以上のことから、ユーザが汎用語を含む複数の検索語を使った場合であっても、ユーザが真に必要とする文書を上位に表示する検索システムの登場が待たれている。
本発明はかかる問題点に鑑みてなされたものであり、その目的は、汎用語の影響を低減するとともに、検索語同士が関連し合った文章を含む文書を上位に表示することの可能な文書検索システムおよび文書検索プログラムを提供することにある。
本発明による文書検索システムは、検索対象の文書群における各文書がn文字単位(n≧1)で分割されることにより得られた単語ごとの出現頻度が各文書の形式区切りごとに登録されたインデックスを利用したシステムである。このシステムは、以下の3つの構成要素を備えている。
(A1)与えられた検索条件を解析し、この検索条件に含まれる各検索語をn文字単位で分割する分割部
(A2)上記のインデックスを利用して、各検索語の分割により得られた単語ごとの出現頻度を、上記のインデックスに登録された形式区切りごとに抽出する抽出部
(A3)抽出部で抽出された単語ごとの出現頻度を利用して、各検索語の形式区切りごとの出現頻度と、各検索語の汎用度とを計算し、この計算により得られた出現頻度および汎用度を利用して、各文書の重みを計算する重み付け部
本発明による文書検索プログラムは、検索対象の文書群における各文書がn文字単位(n≧1)で分割されることにより得られた単語ごとの出現頻度が各文書の形式区切りごとに登録されたインデックスを利用したプログラムである。このプログラムは、以下の3つのステップをコンピュータに実行させるものである。
(B1)与えられた検索条件を解析し、この検索条件に含まれる各検索語をn文字単位で分割する第1ステップ
(B2)上記のインデックスを利用して、各検索語の分割により得られた単語ごとの出現頻度を、上記のインデックスに登録された形式区切りごとに抽出する第2ステップ
(B3)抽出部で抽出された単語ごとの出現頻度を利用して、各検索語の形式区切りごとの出現頻度と、各検索語の汎用度とを計算し、この計算により得られた出現頻度および汎用度を利用して、各文書の重みを計算する第3ステップ
本発明による文書検索システムおよび文書検索プログラムでは、上記のインデックスを利用して、各検索語の汎用度が計算される。このように、本発明では、各検索語の汎用度が検索時に導出されるので、汎用度を考慮したランキング表示が可能になる。また、各検索語の汎用度が計算により導出されるので、ユーザが、検索条件として入力する言葉が汎用語であるか否かを気にする必要がなくなる。また、本発明では、上記のインデックスを利用して、文書よりも小さな形式区切りごとに各検索語の出現頻度が計算される。これにより、単に網羅的な記載がなされているだけで、検索語同士が関連し合っていない文書が上位にランキングされるのを防ぐことができる。
本発明による文書検索システムおよび文書検索プログラムにおいて、形式区切りは、例えば、ページ、段落、章、または節である。本発明による文書検索システムは、重み付け部で得られた重みを利用して、各文書のランキングを決定するマージ部をさらに備えていてもよい。本発明による文書検索システムは、マージ部だけでなく、さらに、マージ部で決定されたランキングに従って各文書を表示させる検索結果表示部をさらに備えていてもよい。ここで、検索結果表示部は、各文書において出現頻度が最大となる形式区切りを含む連続した複数の形式区切りのレイアウトを表示させるようになっていてもよい。また、検索結果表示部は、各文書において出現頻度が最大となる形式区切りのレイアウトを表示させるようになっていてもよい。
本発明による文書検索システムおよび文書検索プログラムにおいて、n文字単位が複数の文字単位を含み、インデックスがn文字単位に含まれる文字単位ごとのインデックスを含んでいてもよい。この場合に、分割部は、各検索語を各文字単位で分割するようになっていてもよい。さらに、抽出部は、インデックスを利用して、分割部での分割により得られた単語ごとの出現頻度を、インデックスに登録された形式区切りごと、および文字単位ごとに抽出するようになっていてもよい。さらに、重み付け部は、抽出部での抽出により得られた単語ごとの出現頻度を利用して、各検索語の形式区切りごとおよび文字単位ごとの出現頻度と、各検索語の汎用度とを計算し、この計算により得られた出現頻度および汎用度を利用して、各文書の重みを計算する要になっていてもよい。
本発明による文書検索システムおよび文書検索プログラムによれば、検索対象の文書群から得られたn文字単位の単語ごとの出現頻度が各文書の形式区切りごとに登録されたインデックスを利用して、各検索語の汎用度と、文書よりも小さな形式区切りごとに各検索語の出現頻度とを計算するようにしたので、汎用語の影響を低減するとともに、検索語同士が関連し合った文章を含む文書を上位に表示することができる。
本発明による一実施の形態に係る文書検索システムの機能ブロック図である。 図1のインデックス登録部の機能ブロック図である。 インデックス構造の一例を表す図である。 インデックスの一例を表す図である。 図1の検索部の機能ブロック図である。 図5の検索部における演算の一例を表す図である。 検索結果の表示の一例を表す図である。 検索結果の表示の他の例を表す図である。 検索結果の表示のその他の例を表す図である。 図1の文書検索システムの一変形例の機能ブロック図である。 図10のインデックス構造の一例を表す図である。 図10の検索部の機能ブロック図である。 図1の文書検索システムの第1応用例の構成図である。 図1の文書検索システムの第2応用例の構成図である。 図1の文書検索システムの第3応用例の構成図である。 図1の文書検索システムの第4応用例の構成図である。
以下、発明を実施するための形態について、図面を参照して詳細に説明する。なお、説明は以下の順序で行う。

1.実施の形態
単一のインデックスが用いられた例
2.変形例
複数のインデックスが用いられた例
3.応用例
<1.実施の形態>
[構成]
図1は、本発明による一実施の形態に係る文書検索システム100の機能ブロックの一例を表したものである。文書検索システム100は、例えば、図1に示したように、文書格納部110、インデックス登録部120、インデックス130、検索条件入力部140、検索部150、マージ部160および検索結果表示部170を備えている。
文書格納部110は、検索対象の文書群を格納するものである。文書格納部110は、例えば、NAS(Network Attached Storage)等の、ネットワーク経由でアクセスする記憶装置や、バス経由でアクセスするハードディスクなどで構成されている。上述の「検索対象の文書群」とは、インデックス130に登録された(つまり、アドレスが既知の)文書群を指している。文書群は、各種エディタで作成された文書の集合である。文書は、例えば、オフィス文書や、学術論文、定期刊行物などである。
図2は、インデックス登録部120の機能ブロックの一例を表したものである。インデックス登録部120は、文書格納部110内の文書群のインデックスを作成し、登録するものである。インデックス登録部120は、ハードウェア(アプリケーション回路)で構成されていてもよいし、または、プログラム(ソフトウェア)のロードされた演算装置で構成されていてもよい。
インデックス登録部120は、まず、文書の一覧を取得し、作成する(ステップS101、S102)。具体的には、インデックス登録部120は、文書格納部110内の各文書について、例えば、ファイル名、アドレス、日付およびファイルサイズの情報を取得し、それらを一覧にする。このとき、インデックス登録部120は、取得した文書ごとに、1つずつ識別子を付与してもよい。このときの識別子は、文書ごとに固有のものであれば何でもよく、例えば、何らかの数字や記号であってもよい。
次に、インデックス登録部120は、作成した一覧からアドレスを取り出し、文書格納部110から、そのアドレスに対応する文書を取得する(ステップS103)。このとき、インデックス登録部120は、過去に作成した一覧を保有している場合には、過去の一覧と、現在の一覧との差分を取り、新しい文書や、更新した文書を検出したときだけ、その文書を文書格納部110から取得する。なお、文書の更新は、例えば、日付やファイルサイズなどから判別可能である。さらに、インデックス登録部120は、過去の一覧と、現在の一覧との差分を取ったときに、既知の文書が存在しないことを検出したときには、その文書を現在の一覧から削除する。
次に、インデックス登録部120は、取得した各文書に対してページ分割を実施する(ステップS104)。具体的には、インデックス登録部120は、取得した各文書のページごとに、1つずつ識別子を付与する。このときの識別子は、各文書においてページごとに固有のものであれば何でもよく、単なるページ番号でもよいし、何らかの数字や記号であってもよい。
ここで、ページ分割を行う意義について説明する。一般に、ファイル単位で検索を行うと、ファイルサイズの大きな文書や、幅広い情報が記載された文書が優位となる。しかし、そのような文書が常に、ユーザが真に必要とする文書であるとは限らない。特に、複数の検索語を用いた場合には、上記のような文書は、検索語同士が関連し合っていない文書である可能性が高い。検索語同士が関連し合っていない文書は、ユーザが真に必要とする文書ではなく、上位に表示すべき文書ではない。一方、ページ単位で検索を行うと、ファイルサイズや記載幅の広さが文書の優位に影響を与えることがなくなる。さらに、複数の検索語を用いた場合に、1ページ内に全ての検索語が分布しているときには、検索語の文書内での位置を把握していなくても、そのページでは、検索語同士が関連し合っている可能性が極めて高いと考えられる。従って、ページ単位で検索を行うことにより、検索語の文書内での位置を考慮した検索と同等の結果を得ることが可能となる。
なお、検索語の文書内での位置を考慮するためには、各検索語について、文書格納部110内の検索対象となる各文書をgrep型(テキスト総ナメ型)で検索することが必要となる。grep型の検索では処理に非常に大きな負荷がかかるため、高速検索を行うことが難しい。一方、ページ単位で検索を行う場合には、そもそも、検索語の文書内での位置情報は必要なく、それゆえ、検索時にgrep型の検索を実行する必要もないので、高速検索を行うことが可能である。
次に、インデックス登録部120は、取得した各文書のページごとに、n文字分割(n≧1)を実施する(ステップS105)。具体的には、インデックス登録部120は、取得した各文書のページごとに、文章をn文字で切り出す。このとき、文章の文字数がmの場合には、文章は、(m−(n−1))個の単語に分割される。例えば、「キーワードが入力される。」という12文字からなる文章を例にとると、この文章は、「キー」,[ーワ],「ワー」,[ード],「ドが」,[が入],「入力」,[力さ],「され」,[れる],「る。」という11個の単語に分割される。
ここで、n文字分割を実施する意義について説明する。一般に、インデックスを作成する方法としては、事前に用意した検索語に対してインデックスを作成する方法と、n文字単位で文章を分割することにより得られた単語に対してインデックスを作成する方法(n−gram)とがある。本実施の形態で用いている方法は、後者のn−gramである。前者の方法では、検索語を事前に用意することが必要となるので、事前に検索語を用意する手間がかかる。一方、n−gramの場合には、検索対象となる文書群があれば単語が自動的に抽出されるので、単語を事前に用意する必要がない。このように、n−gramを適用することで、検索に要する手間を大幅に低減することができる。
次に、インデックス登録部120は、分割インデックスを作成する(ステップS106)。具体的には、インデックス登録部120は、文章の分割により得られた単語を、各文書のページごとに分割インデックスに登録し、重複する単語が得られた場合には、その単語の出現数をインクリメントして登録する。従って、分割インデックスには、各文書のページごとに、単語と出現数が対となって登録される。
次に、インデックス登録部120は、インデックスをマージし、登録する(ステップS107、S108)。具体的には、インデックス登録部120は、例えば、図3に示したように、分割インデックスを最終的に検索で利用する構造(インデックス構造121)に変更する。インデックス構造121は、文章の分割により得られた単語ごとの出現頻度が各文書のページごとに関連付けられたものである。インデックス構造121は、例えば、文章の分割により得られた単語(単語121A)、その単語を含む文書の識別子(ファイルナンバー121B)、その単語を含むページの識別子(ページナンバー121C)、および、その単語の、1ページ内での出現数(出現頻度121D)を対とした構造である。インデックス登録部120は、例えば、図4に示したように、文章の分割により得られた単語ごと、および各文書のページごとにインデックス構造121を作成し、インデックス130に登録する。
検索条件入力部140は、ユーザが入力した検索条件を受け付けるものである。検索条件入力部140は、例えば、キーボード、マウス、タッチパネル、マイクなどのデータ入力装置であってもよいし、例えば、ユーザが入力した検索条件をネットワーク経由で受信する通信装置であってもよい。
図5は、検索部150の機能ブロックの一例を表したものである。検索部150は、検索条件入力部140から入力された検索条件に合う文書を、インデックス130に基づいて、文書格納部110内の検索対象の文書群から抽出するものである。検索部150は、ハードウェア(アプリケーション回路)で構成されていてもよいし、または、プログラム(ソフトウェア)のロードされた演算装置で構成されていてもよい。
検索部150は、まず、検索条件入力部140から与えられた検索条件を解析し、この検索条件に含まれる検索語(キーワード)を抽出する(ステップS201)。このとき、検索条件には、1つの検索語しか含まれていない場合もあるが、複数の検索語が含まれていることが一般的である。以下の説明では、検索条件に、複数の検索語が含まれているものとする。例えば、入力された検索条件が「キーワード ケンサク」となっていた場合には、検索部150は、図6に示したように、「キーワード」、「ケンサク」の2語を検索語として抽出する。
次に、検索部150は、取得した各検索語に対して、n文字分割を実施する(ステップS202)。具体的には、検索部150は、取得した各検索語をn文字単位で切り出す。このとき、切り出す文字数(n)は、インデックス130作成時に実施したn文字分割の切り出し文字数(n)と同じである。例えば、図6に示したように、「キーワード」は、文字数mが5、切り出す文字数(n)が2、切り出す回数Nがm−(n−1)=5−(2−1)=4であることから、検索部150は、「キーワード」を「キー」,[ーワ],「ワー」,[ード]という4個の単語に分割する。また、例えば、図6に示したように、「ケンサク」は、文字数mが4、切り出す文字数(n)が2、切り出す回数Nがm−(n−1)=4−(2−1)=3であることから、検索部150は、「ケンサク」を「ケン」,[ンサ],「サク]という3個の単語に分割する。
次に、検索部150は、インデックス130を利用して、各検索語の出現頻度を、インデックス130に登録された文書ごとに計算する(ステップS203)。具体的には、検索部150は、まず、インデックス130を利用して、各検索語の分割により得られた単語ごとの出現頻度を、インデックス130に登録された各文書のページごとに抽出する。例えば、図6に示したように、検索部150は、「キー」の出現頻度として、ファイルナンバー5のページ1において10を取得し、ファイルナンバー8のページ6において4を取得する。
次に、検索部150は、各文書のページごとの抽出により得られた単語ごとの出現頻度を利用して、各検索語の出現頻度を計算する(見積もる)。例えば、図6に示したように、ファイルナンバー5のページ1において、「キー」の出現頻度が10、「ーワ」の出現頻度が5、「ワー」の出現頻度が8、「ード」の出現頻度が2となっていることから、検索部150は、これらの最小値である2をファイルナンバー5(またはファイルナンバー5のページ1)における「キーワード」の出現頻度(f5(キーワード))とする。同様の方法を用いることで、検索部150は、1をファイルナンバー8における「キーワード」の出現頻度(f8(キーワード))とする。同様に、検索部150は、13をファイルナンバー5における「ケンサク」の出現頻度(f5(ケンサク))とし、16をファイルナンバー8における「ケンサク」の出現頻度(f8(ケンサク))とする。
次に、検索部150は、インデックス130を利用して、各検索語の汎用度を計算する(ステップS204)。ここで、汎用度とは、文書格納部110内の検索対象の文書群における分布の度合いを意味している。汎用度は、文書格納部110内の検索対象の文書群のうち、検索語が含まれる文書の数(いわゆるヒット数)または割合に相当する概念である。汎用度の大きな語は、文書格納部110内の検索対象の文書群に広く分布している語であり、検索時の絞込みに十分な効果の無い語である。
ここで、各検索語の汎用度を計算する意義について説明する。一般的な検索システムでは、入力された検索語を多く含む文書が上位に表示される「キーワード順」が適用されている。しかし、そのような検索システムでは、入力された検索語に、汎用語と非汎用語とが含まれている場合には、汎用語を多く含む文書が上位に表示され、非汎用語を含む文書が下位に表示される。このとき、ユーザが真に必要とする文書は、非汎用語を多く含む文書であると思われるが、上記の検索システムでは、そのような文書は汎用語に邪魔されて下位に埋没してしまう。このことから、検索結果の表示に際して、検索語の汎用度を考慮することが、ユーザが真に欲する文書を上位に表示する上で特に重要であることがわかる。
汎用度は、例えば、文書格納部110内の検索対象の文書群において、検索語が含まれる文書を検索することよって得られたヒット数であってもよいし、検索語の出現頻度が1以上となる文書の数であってもよい。汎用度として、検索語の出現頻度が1以上となる文書の数を適用する場合には、検索部150は、各検索語の出現頻度を計算する際に、出現頻度が1以上となる文書の数をカウントしておき、その結果得られたカウント数を汎用度として用いることが可能である。つまり、汎用度として、検索語の出現頻度が1以上となる文書の数を適用した場合には、検索部150は、各検索語の汎用度を計算するために、文書格納部110内の検索対象の文書群全体をわざわざ検索する必要がない。
次に、検索部150は、文書の重み付けを行う(ステップS205)。具体的には、検索部150は、まず、各検索語を含む文書をリストアップする。例えば、検索部150は、検索語の出現頻度が1以上となる文書(もしくはその文書の識別子)、または、出現頻度が1以上となる文書(もしくはその文書の識別子)をリストアップする。次に、検索部150は、各検索語の出現頻度および汎用度を利用して、リストアップされた各文書の、検索語ごとの重みを計算する。
各検索語の出現頻度をfd(key)とし、各検索語の汎用度をV(key)とし、文書格納部110内の検索対象の文書群の文書数をMとすると、検索部150は、リストアップされた各文書の、検索語ごとの重みを、例えば、図6に示したように、fd(key)×M/V(key)を用いて求める。さらに、検索部150は、リストアップされた各文書の重みCost(d)を、例えば、図6に示したように、Σ(fd(key)×M/V(key))を用いて求める。なお、式中のdは、ファイルナンバーである。例えば、図6に示したように、検索部150は、上記の式を用いることにより、ファイルナンバー5の重みCost(5)として27.6を取得し、ファイルナンバー8の重みCost(8)として25.2を取得する。つまり、図6の例では、「キーワード」「ケンサク」において、ファイルナンバー5の重みCost(5)は、ファイルナンバー8の重みCost(8)よりも大きくなっている。
ここで、図6に示したように、「ケンサク」の出現頻度は「キーワード」の出現頻度よりも一桁も大きくなっている。そのため、一般的な「ランキング順」とした場合には、ファイルナンバー8の評価値は、ファイルナンバー5の評価値よりも大きくなるはずである。従って、この場合には、「ケンサク」の出現頻度の大きな文書(ファイルナンバー8の文書)が上位に表示され、「キーワード」の出現頻度の大きな文書(ファイルナンバー5の文書)が下位に表示される。一方、図6の例では、ファイルナンバー5の重みCost(5)が、ファイルナンバー8の重みCost(8)よりも大きくなっている。そのため、図6の例では、「キーワード」の出現頻度の大きな文書(ファイルナンバー5の文書)が上位に表示され、「ケンサク」の出現頻度の大きな文書(ファイルナンバー8の文書)が下位に表示される。このように、汎用度を用いることにより、汎用語に邪魔されて下位に埋没してしまうような文書を、上位に表示することが可能となる。
マージ部160は、検索部150で得られたCost(d)を利用して、各文書のランキングを決定するものである。マージ部160は、ハードウェア(アプリケーション回路)で構成されていてもよいし、または、プログラム(ソフトウェア)のロードされた演算装置で構成されていてもよい。マージ部160は、Cost(d)の大きな文書から順にソートするようになっている。このとき、マージ部160は、ソートされた各文書についての所定の情報や、ヒット件数などを収集する。マージ部160は、例えば、ソートされた各文書のファイル名、作成日、検索語が含まれるページを含む複数ページのレイアウト情報(例えば画像データ)、トップページ(1ページ目)のレイアウト情報(例えば画像データ)、ヒット件数を取得する。このとき、マージ部160は、検索語の出現頻度が最大となるページを含む複数ページのレイアウト情報(例えば画像データ)を取得することが好ましい。
マージ部160は、必要に応じて、ソート情報(文書の並び順についての情報)と、収集した情報(ファイル名等)とを所定の記憶領域に格納する。ここで、所定の記憶領域とは、検索結果表示部170が検索結果をディスプレイに表示させる際にアクセスする領域を指している。なお、マージ部160は、必要に応じて、ソート情報と、収集した情報とを直接、検索結果表示部170に渡してもよい。
検索結果表示部170は、マージ部160で決定されたランキングに従って、各文書を画面に表示させるものである。検索結果表示部170は、ハードウェア(アプリケーション回路)で構成されていてもよいし、または、プログラム(ソフトウェア)のロードされた演算装置で構成されていてもよい。検索結果表示部170は、まず、例えば、所定の記憶領域に格納された情報(ソート情報等)を取得する。なお、検索結果表示部170は、所定の記憶領域に格納された情報(ソート情報等)を収集する代わりに、マージ部160から直接、ソート情報等を取得してもよい。検索結果表示部170は、例えば、ウェブブラウザからなる。次に、検索結果表示部170は、取得した情報に基づいて、各文書を画面に表示させる。
図7、図8、図9は、検索結果表示部170が画面に表示させた検索結果のレイアウトの一例を表したものである。例えば、画面の上部に、検索窓171および検索ボタン172が配置されており、画面の左脇に、表示形態を選択するボタン(ファイル173、ページ174、サムネイル175)が配置されている。さらに、画面の中央に、ソート情報に基づいて、ファイル名、作成日、および1または複数ページのレイアウト情報(例えば画像データ)が配置されている。
検索結果表示部170は、例えば、図7に示したように、検索語が含まれるページを含む複数ページのレイアウト情報(例えば画像データ)を文書ごとに、横一列に配列させる。このように、検索結果を表示する際に、ファイル名や作成日だけでなく、ページのレイアウトを表示することにより、ユーザは、ページのレイアウトを見ながら文書を探すことができる。さらに、複数ページのレイアウトを画面内に一挙に表示することにより、ユーザは、複数ページのレイアウトを一度に見渡すことができるので、検索語を含む文章の周辺にある非文字情報(例えば図や表、式、写真など)を手がかりに、所望の文書を探し出すことも可能となる。例えば、「3ページ目あたりに図が入っている文章を探したい」といった場合に、ユーザは、図の周辺に書かれていると予測される単語を検索語として入力することで、所望の文書を探し出すことも可能となる。
また、検索結果表示部170は、例えば、図8に示したように、検索語が含まれるページのレイアウト情報(例えば画像データ)を文書ごとに、1ページずつ表示させる。このとき、検索結果表示部170は、検索語の出現頻度が最大となるページのレイアウト情報(例えば画像データ)を文書ごとに、1ページずつ表示させていることが好ましい。ページのレイアウトを文書ごとに1ページずつ表示するようにした場合にも、ユーザは、ページのレイアウトを見ながら文書を探すことができる。従って、上記の場合よりは一度に見ることのできるページ数が少ないものの、検索語を含む文章の周辺にある非文字情報(例えば図や表、式、写真など)を手がかりに、所望の文書を探し出すことが可能となる。
また、検索結果表示部170は、例えば、図9に示したように、検索語が含まれる文書のトップページのレイアウト情報(例えば画像データ)を文書ごとに、1ページずつ表示させる。この場合には、ユーザは、非常に多くの文書のトップページのレイアウトを一度に見渡すことができるので、たくさんのトップページを見ながら文書を探すことができる。
ところで、検索結果表示部170は、検索語が含まれるページと、検索語が含まれないページのレイアウトを同時に画面に表示する際には、検索語が含まれるページと、検索語が含まれないページとを視覚的に区別できるようにしてもよい。例えば、図7に示したように、検索結果表示部170は、検索語が含まれるページの縁176をハイライト表示してもよい。また、検索結果表示部170は、検索結果として表示させた文書を選択的に取り出し、それを別個に保存するようにしてもよい。例えば、図7、図8、図9に示したように、検索結果として表示させた各文書の脇に、取り出し用のアイコン177を表示させ、そのアイコン177がユーザによって選択されたときに、そのアイコン177に対応する文書を別個に保存するようにしてもよい。
[効果]
次に、本実施の形態の文書検索システム100の効果について説明する。
本実施の形態では、検索対象の文書群から得られたn文字単位の単語ごとの出現頻度がページごとに登録されたインデックス130を利用して、各検索語の汎用度が計算される。このように、本実施の形態では、各検索語の汎用度が導出されるので、汎用度を考慮したランキング表示が可能になる。また、各検索語の汎用度が計算により導出されるので、ユーザが、検索条件として入力する言葉が汎用語であるか否かを気にする必要がなくなる。また、本実施の形態では、インデックス130を利用して、文書よりも小さな形式区切りであるページごとに各検索語の出現頻度が計算される。これにより、単に網羅的な記載がなされているだけで、検索語同士が関連し合っていない文書が上位にランキングされるのを防ぐことができる。従って、汎用語の影響を低減するとともに、検索語同士が関連し合った文章を含む文書を上位に表示することができる。
また、本実施の形態では、ページ単位で検索が行われているので、ファイルサイズや記載幅の広さが文書の優位に影響を与えることがなくなる。さらに、複数の検索語を用いた場合に、1ページ内に全ての検索語が分布しているときには、検索語の文書内での位置を把握していなくても、そのページでは、検索語同士が関連し合っている可能性が極めて高いと考えられる。従って、ページ単位で検索を行うことにより、検索語の文書内での位置を考慮した検索と同等の結果を得ることができる。さらに、ページ単位で検索を行う場合には、そもそも、検索語の文書内での位置情報は必要く、それゆえ、検索時にgrep型の検索を実行する必要もない。従って、高速検索を行うことが可能である。
また、本実施の形態において、図7の例では、検索語が含まれるページを含む複数ページのレイアウト情報(例えば画像データ)が文書ごとに、横一列に配列されている。これにより、ユーザは、ページのレイアウトを見ながら文書を探すことができる。さらに、複数ページのレイアウトを一挙に表示することにより、ユーザは、複数ページのレイアウトを一度に見渡すことができるので、検索語を含む文章の周辺にある非文字情報(例えば図や表、式、写真など)を手がかりに、所望の文書を探し出すことも可能となる。
<2.変形例>
[第1変形例]
上記実施の形態では、n文字分割における分割の単位(n文字単位)が、2文字であったが、1文字であってもよいし、3文字以上であってもよい。ただし、n文字単位があまり大きくなると、n文字単位が検索語の文字数と同一となったり、検索語の文字数よりも大きくなってしまったりすることもあるので、n文字単位は検索語の文字数の統計的な平均値と同等か、それよりも小さいことが好ましい。例えば、日本語の文字数の統計的な平均値は2.3文字であるので、検索語として日本語が用いられる場合には、n文字単位は2文字または3文字であることが好ましい。さらに、例えば、日本語の検索精度をより高めたい場合には、n文字単位が、日本語の文字数の統計的な平均値に近い2文字および3文字だけでなく、1文字も含んでいることが好ましい。また、例えば、英語の文字数の統計的な平均値は5文字であるので、検索語として英語が用いられる場合には、n文字単位は5文字であることが好ましい。
[第2変形例]
また、上記実施の形態および第1変形例では、n文字分割における分割の単位(n文字単位)が1種類となっていたが、複数種類であってもよい。図10は、n文字単位が複数種類となっているときの文書検索システム100の一例を表したものである。例えば、図10に示したように、n文字単位が、k1文字単位(k1≧1)、k2文字単位(k2>k1)、およびk3文字単位(k3>k2)の3種類となっていてもよい。
このとき、インデックス登録部120は、ページ分割S104からインデックスのマージS107までの手順を文字単位の種類ごとに行うことが必要となる。例えば、図11の例では、インデックス登録部120は、ページ分割S104からインデックスのマージS107までの手順を、k1字単位、k2文字単位およびk3文字単位ごとに行う。さらに、インデックス登録部120は、文字単位の種類ごとにインデックスを登録することが必要となる。例えば、図11の例では、インデックス登録部120は、k1字単位、k2文字単位およびk3文字単位ごとに、インデックスを登録する。従って、インデックス130は、文字単位ごとに存在することなる。例えば、図11の例では、インデックス130は、k1字単位、k2文字単位およびk3文字単位ごとに存在する。
さらに、検索部150は、n文字分割S202から文書の重み付けS205までの手順を文字単位の種類ごとに行うことが必要となる。例えば、図12の例では、検索部150は、n文字分割S202から文書の重み付けS205までの手順をk1字単位、k2文字単位およびk3文字単位ごとに行う。マージ部160は、各文字単位での文書の重み付けの中から、最も適切な重み付けを選択する。
なお、n文字単位は、入力され得る検索語の言語の文字数の統計的な平均値に近い文字単位を含んでいることが好ましい。例えば、検索語として日本語と英語が用いられる場合、n文字単位が、日本語の文字数の統計的な平均値に近い2文字および3文字と、英語の文字数の統計的な平均値に近い5文字とを含んでいることが好ましい。さらに、例えば、日本語の検索精度をより高めたい場合には、n文字単位が、1文字、2文字、3文字および5文字を含んでいることが好ましい。
[第3変形例]
上記実施の形態およびその変形例では、文書やインデックスなどを管理する際の形式区切りの単位をページとしていたが、本発明はそれに限定されるものではなく、例えば、段落、章、または節であってもよい。ページ、段落、章、および節は、特定の内容がまとまった領域となっており、形式的な文書構造マーカとしての役割を有している。従って、文書を、ページ、段落、章、または節で区切ることにより、文書を意味内容ごとに区切ることが可能となる。
文書の形式区切りとして、段落、章、または節を用いる場合には、上記実施の形態およびその変形例において「ページ」を「段落、章、または節」に読み替えればよい。例えば、上記実施の形態およびその変形例において、インデックス登録部120は、取得した各文書に対して、段落、章、または節の単位で分割を実施し、取得した各文書の段落、章、または節ごとに、n文字分割を実施してもよい(ステップS104、S105)。また、例えば、上記実施の形態およびその変形例において、インデックス登録部120は、文章の分割により得られた単語を、各文書の段落、章、または節ごとに分割インデックスに登録するようにしてもよい。このようにした場合には、分割インデックスには、各文書の段落、章、または節ごとに、単語と出現数が対となって登録される。
[第4変形例]
上記実施の形態およびその変形例では、インデックス登録部120や検索部150がプログラムのロードされた演算装置で構成されている場合が例示されていたが、この場合には、文書検索システム100は、演算装置にプログラムをロードするための仕組みを備えている。例えば、文書検索システム100は、インデックス登録部120および検索部150が実行する内容が記述されたプログラムの記録された読み出し可能な記録媒体から、プログラムを読み出すリーダを備えていてもよい。また、例えば、文書検索システム100は、上記のプログラムをネットワーク経由で取得する通信システムを備えていてもよい。
<3.応用例>
以下、上記実施の形態およびその変形例で説明した文書検索システム100の応用例について説明する。文書検索システム100は、図13に示したような単独の文書検索装置200に適用することが可能である。また、文書検索システム100は、図14に示したように、外部ネットワーク400を介して端末装置300から検索条件を文書検索装置200に入力するシステムに対して応用することが可能である。また、図15に示したように、外部ネットワーク400に接続された文書記憶装置500内の文書群の検索を、外部ネットワーク400に接続された文書検索装置200を用いて行うシステムに対して応用することも可能である。また、図16に示したように、LAN600に接続された文書記憶装置500内の文書群の検索を、LAN600に接続された文書検索装置200を用いて行うシステムに対して応用することも可能である。
図13に記載の文書検索装置200は、上記の文書検索システム100の機能を1つの端末装置で実現したものに相当する。文書検索装置200は、例えば、図13に示したように、文書検索装置200全体を制御する制御部210と、制御部210によって利用されるデータを格納可能な記憶部220と、検索条件の入力を受け付ける入力部230と、検索結果を表示する表示部240とを備えている。制御部210、記憶部220、入力部230および表示部240は、例えば、共通のバス250に接続されている。記憶部220は、例えば、図13に示したように、文書検索プログラム221、文書格納部222およびインデックス223を格納している。
文書検索プログラム221は、インデックス登録部120、検索部150、マージ部160および検索結果表示部170で実行される一連の手順をコンピュータに実行させるものである。文書格納部222は、文書格納部110の一態様に相当する。インデックス223は、インデックス130の一態様に相当する。文書検索プログラム221のロードされた制御部210が、インデックス登録部120、検索部150、マージ部160および検索結果表示部170の一態様に相当する。
図14に記載の検索システムは、外部ネットワーク400を介して、端末装置300と文書検索装置200が接続されたものである。図14の文書検索装置200は、図13の文書検索装置200において、表示部240が省略され、さらに、入力部230の代わりに通信部260が設けられたものに相当する。通信部260は、文書検索装置200が外部ネットワーク400を介して端末装置300と通信することを可能にする装置である。
端末装置300は、検索条件の入力を受け付け、受け付けた検索条件を外部ネットワーク400を介して文書検索装置200に渡し、検索結果をユーザに提示する装置である。端末装置300は、例えば、図14に示したように、端末装置300全体を制御する制御部310と、制御部310によって利用されるデータを格納可能な記憶部320と、検索条件の入力を受け付ける入力部330と、検索結果を表示する表示部340と、外部ネットワーク400を介して文書検索装置200と通信する通信部350とを備えている。制御部310、記憶部320、入力部330、表示部340および通信部350は、例えば、共通のバス360に接続されている。記憶部220は、例えば、図示しないが、検索結果表示部170で実行される一連の手順をコンピュータに実行させるソフトウェア(例えばウェブブラウザ)を格納している。図14の文書検索プログラム221は、上述のインデックス登録部120、検索部150およびマージ部160で実行される一連の手順をコンピュータに実行させるものである。文書格納部222は、文書格納部110の一態様に相当する。インデックス223は、インデックス130の一態様に相当する。文書検索プログラム221のロードされた制御部210が、上述のインデックス登録部120、検索部150およびマージ部160の一態様に相当する。検索結果表示部170で実行される一連の手順をコンピュータに実行させるソフトウェアのロードされた制御部310が、検索結果表示部170の一態様に相当する。
図15に記載の検索システムは、外部ネットワーク400を介して、文書検索装置200と文書記憶装置500が接続されたものである。図15の文書検索装置200は、図13の文書検索装置200において、文書格納部222が省略され、さらに、通信部260が設けられたものに相当する。通信部260は、文書検索装置200が外部ネットワーク400を介して文書記憶装置500と通信することを可能にする装置である。
文書記憶装置500は、ネットワーク経由でアクセスする記憶装置である。文書記憶装置500は、例えば、図15に示したように、文書記憶装置500全体を制御する制御部510と、制御部510によって利用されるデータを格納可能な記憶部520と、外部ネットワーク400を介して文書検索装置200と通信する通信部350とを備えている。
図16に記載の検索システムは、LAN600を介して、文書検索装置200と文書記憶装置500が接続されたものである。図16の文書検索装置200は、図15の文書検索装置200において、通信部260の代わりに通信部270が設けられたものに相当する。通信部270は、文書検索装置200がLAN600を介して文書記憶装置500と通信することを可能にする装置である。
図16の文書記憶装置500は、図15の文書記憶装置500において、通信部530の代わりに通信部550が設けられたものに相当する。通信部550は、文書記憶装置500がLAN600を介して文書検索装置200と通信することを可能にする装置である。
以上のように、文書検索システム100は、様々な態様の検索システムに応用可能である。
100…文書検索システム、110…文書格納部、120…インデックス登録部、121…インデックス構造、121A…単語、121B…ファイルナンバー、121C…ページナンバー、121D…出現頻度、130…インデックス、140…検索条件入力部、150…検索部、160…マージ部、170…検索結果表示部、171…検索窓、172…検索ボタン、173…ファイル、174…ページ、175…サムネイル、176…縁、177…アイコン、200…文書検索装置、210,310,510…制御部、220,320,520…記憶部、221…文書検索プログラム、222…文書格納部、223…インデックス、230,330…入力部、240,340…表示部、250,360,540…バス、260,270,350,530,550…通信部、300…端末装置、500…文書記憶装置、600…LAN。

Claims (8)

  1. 与えられた検索条件を解析し、この検索条件に含まれる各検索語をn文字単位(n≧1)で分割する分割部と、
    検索対象の文書群における各文書がn文字単位で分割されることにより得られた単語ごとの出現頻度が各文書の形式区切りごとに登録されたインデックスを利用して、各検索語の分割により得られた単語ごとの出現頻度を、前記インデックスに登録された形式区切りごとに抽出する抽出部と、
    前記抽出部で抽出された単語ごとの出現頻度を利用して、各検索語の形式区切りごとの出現頻度と、各検索語の汎用度とを計算し、この計算により得られた出現頻度および汎用度を利用して、各文書の重みを計算する重み付け部と
    を備えた文書検索システム。
  2. 前記形式区切りは、ページ、段落、章、または節である
    請求項1に記載の文書検索システム。
  3. 前記重み付け部で得られた重みを利用して、各文書のランキングを決定するマージ部をさらに備えた
    請求項1または請求項2に記載の文書検索システム。
  4. 前記マージ部で決定されたランキングに従って各文書を表示させる検索結果表示部をさらに備えた
    請求項3に記載の文書検索システム。
  5. 前記検索結果表示部は、各文書において前記出現頻度が最大となる形式区切りを含む連続した複数の形式区切りのレイアウトを表示させる
    請求項4に記載の文書検索システム。
  6. 前記検索結果表示部は、各文書において前記出現頻度が最大となる形式区切りのレイアウトを表示させる
    請求項4に記載の文書検索システム。
  7. 前記n文字単位は、複数の文字単位を含み、
    前記インデックスは、前記n文字単位に含まれる文字単位ごとのインデックスを含み、
    前記分割部は、各検索語を各文字単位で分割し、
    前記抽出部は、前記インデックスを利用して、前記分割部での分割により得られた単語ごとの出現頻度を、前記インデックスに登録された形式区切りごと、および前記文字単位ごとに抽出し、
    前記重み付け部は、前記抽出部での抽出により得られた単語ごとの出現頻度を利用して、各検索語の形式区切りごとおよび前記文字単位ごとの出現頻度と、各検索語の汎用度とを計算し、この計算により得られた出現頻度および汎用度を利用して、各文書の重みを計算する
    請求項1ないし請求項6のいずれか一項に記載の文書検索システム。
  8. 与えられた検索条件を解析し、この検索条件に含まれる各検索語をn文字単位(n≧1)で分割する第1ステップと、
    検索対象の文書群における各文書がn文字単位で分割されることにより得られた単語ごとの出現頻度が各文書の形式区切りごとに登録されたインデックスを利用して、各検索語の分割により得られた単語ごとの出現頻度を、前記インデックスに登録された形式区切りごとに抽出する第2ステップと、
    前記抽出部で抽出された単語ごとの出現頻度を利用して、各検索語の形式区切りごとの出現頻度と、各検索語の汎用度とを計算し、この計算により得られた出現頻度および汎用度を利用して、各文書の重みを計算する第3ステップと
    をコンピュータに実行させる文書検索プログラム。
JP2011167158A 2011-07-29 2011-07-29 文書検索システムおよび文書検索プログラム Active JP5802924B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011167158A JP5802924B2 (ja) 2011-07-29 2011-07-29 文書検索システムおよび文書検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011167158A JP5802924B2 (ja) 2011-07-29 2011-07-29 文書検索システムおよび文書検索プログラム

Publications (2)

Publication Number Publication Date
JP2013030089A true JP2013030089A (ja) 2013-02-07
JP5802924B2 JP5802924B2 (ja) 2015-11-04

Family

ID=47787056

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011167158A Active JP5802924B2 (ja) 2011-07-29 2011-07-29 文書検索システムおよび文書検索プログラム

Country Status (1)

Country Link
JP (1) JP5802924B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786790A (zh) * 2014-12-18 2016-07-20 镇江高科科技信息咨询有限公司 一种纸质文本生成装置及方法
JP2017505962A (ja) * 2014-10-31 2017-02-23 小米科技有限責任公司Xiaomi Inc. 情報選択方法及び装置
JP2019130746A (ja) * 2018-01-31 2019-08-08 ブラザー工業株式会社 画像処理装置、および、コンピュータプログラム
US10423706B2 (en) 2014-10-31 2019-09-24 Xiaomi Inc. Method and device for selecting information
JP2019194750A (ja) * 2018-05-01 2019-11-07 株式会社教育同人社 通知表作成支援システム及び通知表作成支援プログラム
JP2021043519A (ja) * 2019-09-06 2021-03-18 富士ゼロックス株式会社 情報処理システム及びプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3017A (en) * 1843-03-21 Plate turn-button for fastening cupboard and other doors
US10016A (en) * 1853-09-13 Bootjack
JP2003323457A (ja) * 2002-02-28 2003-11-14 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラム及び記録媒体
JP2004295712A (ja) * 2003-03-28 2004-10-21 Hitachi Ltd 類似文書検索方法および類似文書検索装置
JP2006155657A (ja) * 1995-04-10 2006-06-15 Rebus Technology Inc Nグラム・ワード分解を用いた携帯型文書索引付け用のシステム及び方法
JP2006331117A (ja) * 2005-05-26 2006-12-07 Ricoh Co Ltd 文書検索システム、文書検索装置、文書検索方法および文書検索プログラム
JP2009134627A (ja) * 2007-11-30 2009-06-18 Mitsubishi Electric Corp N文字索引生成装置、文書検索装置、n文字索引生成方法、文書検索方法、n文字索引生成プログラムおよび文書検索プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3017A (en) * 1843-03-21 Plate turn-button for fastening cupboard and other doors
US10016A (en) * 1853-09-13 Bootjack
JP2006155657A (ja) * 1995-04-10 2006-06-15 Rebus Technology Inc Nグラム・ワード分解を用いた携帯型文書索引付け用のシステム及び方法
JP2003323457A (ja) * 2002-02-28 2003-11-14 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラム及び記録媒体
JP2004295712A (ja) * 2003-03-28 2004-10-21 Hitachi Ltd 類似文書検索方法および類似文書検索装置
JP2006331117A (ja) * 2005-05-26 2006-12-07 Ricoh Co Ltd 文書検索システム、文書検索装置、文書検索方法および文書検索プログラム
JP2009134627A (ja) * 2007-11-30 2009-06-18 Mitsubishi Electric Corp N文字索引生成装置、文書検索装置、n文字索引生成方法、文書検索方法、n文字索引生成プログラムおよび文書検索プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017505962A (ja) * 2014-10-31 2017-02-23 小米科技有限責任公司Xiaomi Inc. 情報選択方法及び装置
US10423706B2 (en) 2014-10-31 2019-09-24 Xiaomi Inc. Method and device for selecting information
CN105786790A (zh) * 2014-12-18 2016-07-20 镇江高科科技信息咨询有限公司 一种纸质文本生成装置及方法
JP2019130746A (ja) * 2018-01-31 2019-08-08 ブラザー工業株式会社 画像処理装置、および、コンピュータプログラム
JP7021544B2 (ja) 2018-01-31 2022-02-17 ブラザー工業株式会社 画像処理装置、および、コンピュータプログラム
JP2019194750A (ja) * 2018-05-01 2019-11-07 株式会社教育同人社 通知表作成支援システム及び通知表作成支援プログラム
JP2021043519A (ja) * 2019-09-06 2021-03-18 富士ゼロックス株式会社 情報処理システム及びプログラム

Also Published As

Publication number Publication date
JP5802924B2 (ja) 2015-11-04

Similar Documents

Publication Publication Date Title
US11314824B2 (en) System and method for block segmenting, identifying and indexing visual elements, and searching documents
CN102760172B (zh) 一种网络搜索方法及网络搜索系统
JP5316158B2 (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
JP5241828B2 (ja) 辞書の単語及び熟語の判定
JP5802924B2 (ja) 文書検索システムおよび文書検索プログラム
US20040230570A1 (en) Search processing method and apparatus
US20080177731A1 (en) Data processing apparatus, data processing method and search apparatus
JP5161658B2 (ja) キーワード入力支援装置、キーワード入力支援方法及びプログラム
US20120221553A1 (en) Methods for electronic document searching and graphically representing electronic document searches
US20150067476A1 (en) Title and body extraction from web page
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
EP2506208A1 (en) Forensic system and forensic method, and forensic program
US20110302179A1 (en) Using Context to Extract Entities from a Document Collection
CN103430172A (zh) 检索装置、检索方法及程序
JP2009251934A (ja) 検索装置、検索方法および検索プログラム
CN113407678B (zh) 知识图谱构建方法、装置和设备
JP5827206B2 (ja) 文書管理システムおよび文書管理方法並びに文書管理プログラム
JP2005128872A (ja) 文書検索システム及び文書検索プログラム
JP5346991B2 (ja) コンテンツ出力方法、コンテンツ出力装置およびコンテンツ出力プログラム
JP2011053881A (ja) 文書管理システム
KR101667918B1 (ko) 질의 반응형 스마트 검색 서비스 제공 방법 및 이를 구현하기 위한 검색 서비스 장치
Bainbridge et al. Interactive context-aware user-driven metadata correction in digital libraries
JP2007026116A (ja) 概念検索システム及び概念検索方法
Greene et al. Browsing publication data using tag clouds over concept lattices constructed by key-phrase extraction
TWI451277B (zh) 檢索標籤視覺化系統及其方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140519

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20140519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140520

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141021

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150520

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150703

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150721

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150724

R150 Certificate of patent or registration of utility model

Ref document number: 5802924

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250