JP2012003355A - Retrieval device, method, and program - Google Patents
Retrieval device, method, and program Download PDFInfo
- Publication number
- JP2012003355A JP2012003355A JP2010135605A JP2010135605A JP2012003355A JP 2012003355 A JP2012003355 A JP 2012003355A JP 2010135605 A JP2010135605 A JP 2010135605A JP 2010135605 A JP2010135605 A JP 2010135605A JP 2012003355 A JP2012003355 A JP 2012003355A
- Authority
- JP
- Japan
- Prior art keywords
- search
- document
- query
- key
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、検索装置及び方法及びプログラムに係り、特に、改ページや改行位置が確定しているドキュメント内の部分領域の撮影画像を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための、ドキュメント及びドキュメント内の各位置のインデックスを作成する検索装置及び方法及びプログラムに関する。 The present invention relates to a search apparatus, method, and program, and in particular, a document in which a region appears and a position in the document using a captured image of a partial region in a document in which a page break or a line break position is determined as a search query. The present invention relates to a search apparatus, a method, and a program for creating a document and an index of each position in the document in response to a search request for acquiring a document.
詳しくは、改ページや改行位置が確定しているドキュメント内の該領域を含む可能性があるドキュメント及びドキュメント内における位置を網羅的に取得するのではなく、位置を一意に特定したい場合に適用される検索装置及び方法及びプログラムに関する。 Specifically, this is applied to a document that may include the area in a document where the page break or line feed position has been determined, and a position in the document that is not comprehensively acquired, but is intended to uniquely identify the position. The present invention relates to a search apparatus, method, and program.
ドキュメントの一部領域から、該領域がどのドキュメントに含まれているか、あるいは、どのドキュメントのどの位置に含まれているか一意に特定することが必要なシーンは少なくない。 There are not a few scenes in which it is necessary to uniquely identify from which document a part of a document is included in which document or at which position in which document.
例えば、手元に雑誌の切り抜きがある場合、切り抜いた元の雑誌を探して、切り抜きの続きを読みたいことがある。この場合、該切り抜きがどの雑誌の一部であったか一意に特定する必要がある。 For example, if there is a magazine cut out at hand, there may be a case where the original cut out magazine is searched and the continuation of the cut out is read. In this case, it is necessary to uniquely identify which magazine the clipping was part of.
上記の事例は、ドキュメントの一部領域をクエリとし、膨大な量のドキュメント群の中から、該領域を含むドキュメント名、あるいはドキュメント名及びドキュメントにおける位置を問い合わせる検索システムと捉えることができる。 The above example can be regarded as a search system that uses a partial area of a document as a query and inquires about a document name including the area or a document name and a position in the document from a huge amount of documents.
そして、ドキュメント群の中から情報を取得する検索要求に応えるシステムを構築するためには、ドキュメント群を事前に分析して検索インデックスを作成する必要がある。 In order to construct a system that responds to a search request for acquiring information from a document group, it is necessary to analyze the document group in advance and create a search index.
例えば、図25のように、ドキュメント内に登場するN文字の連続した文字列を抽出し、該文字列を検索インデックスのキーとし、該文字列を含むドキュメント名、あるいは、ドキュメント名及びドキュメント中において該文字列が登場する位置を検索インデックスの値とする方式が挙げられる。 For example, as shown in FIG. 25, a continuous character string of N characters appearing in a document is extracted, and the character string is used as a search index key, and the document name including the character string or the document name and the document There is a method in which the position where the character string appears is used as a search index value.
また、N-gram方式は幅広い場面で有用性が認められており、現在でも多くの拡張手法が提案されている。また、通常のN-gram方式に加え、状況に応じてNの値を変動させる方式も実施されている(例えば、非特許文献1参照)。 In addition, the N-gram method has been recognized as useful in a wide range of situations, and many extension methods have been proposed even now. In addition to the normal N-gram method, a method of changing the value of N according to the situation has been implemented (see, for example, Non-Patent Document 1).
しかしながら、ドキュメントの一部領域をクエリとして上記方式で作成した検索インデックスに検索問い合わせを行う場合、検索精度を下げずにインデックスサイズは減らすことは難しい。 However, when a query is made to a search index created by the above method using a partial region of a document as a query, it is difficult to reduce the index size without reducing the search accuracy.
例えば、図26のように、「ドキュメント1」の2ページの部分領域を撮影し、撮影した部分画像をOCR (光学文字認識)処理して部分テキストに変換し、該部分テキストから検索キーを抽出し、該キーをもとに検索インデックスに対して検索問い合わせを行う場合について考える。なお、検索インデックス作成時、検索問い合わせ時のキー抽出方法は、上述のN文字の連続した文字列を抽出する方法とし、N=2とする。また、図27のように、各検索キーの検索問い合わせ結果を集計して件数が最多である元ドキュメント名及び元ドキュメントにおける位置を特定する。
For example, as shown in FIG. 26, a two-page partial area of “
まず、図25のように読む方向に1文字ずつずらしながらキー抽出を行って検索インデックスを作成する場合について考える。この場合、図28のように部分テキストの左上端から読む方向に1文字ずつずらしながら抽出した全ての検索キーに対して、正しい検索結果(この場合は「ドキュメント1」の2ページ)を含む問い合わせ結果が得られるため、検索問い合わせ結果を集計して件数が最多であるドキュメント・ドキュメントにおける位置を求めると(この場合は「ドキュメント1」の2ページ)、それは正しい元ドキュメント・元ドキュメントにおける位置である。しかし、この方法は、1文字ずつずらしながらキー抽出を行って検索インデックスを作成するため、検索インデックスのデータ量が膨大になり、検索問い合わせ速度低下、検索インデックス格納ハードディスク容量の増大という問題がある。
First, consider the case of creating a search index by performing key extraction while shifting character by character in the reading direction as shown in FIG. In this case, as shown in FIG. 28, inquiries including correct search results (in this case, two pages of “
一方で、検索インデックスのデータ量を削減するために図29のように読む方向に2文字ずつずらしながらキー抽出を行って検索インデックスを作成する場合について考える。この場合、図30のように部分テキストの左上端から読む方向に1文字ずつずらしながら抽出した全ての検索キーに対して、正しい検索結果(この場合は「ドキュメント1」の2ページ)を含む問い合わせ結果が得られないことがある。すなわち、検索問い合わせに用いたキーのうち「アッ」、「プで」、「を電」、「気信」、「を通」、「じて」はそもそもドキュメント1の2ページに対する検索インデックスが作成されていないので、これらのキーの問い合わせ結果には正しい問い合わせ結果である「ドキュメント1」の2ページが含まれない。このため、検索問い合わせ結果を集計して件数が最多であるドキュメント・ドキュメントにおける位置を求めると(この場合は「ドキュメント5」の43ページ)、それは正しい元ドキュメント・元ドキュメントにおける位置にならない場合がある。
On the other hand, in order to reduce the data amount of the search index, consider a case where a search index is created by performing key extraction while shifting by two characters in the reading direction as shown in FIG. In this case, as shown in FIG. 30, inquiries including correct search results (in this case, two pages of “
このとき、図31のように部分テキストの左上端から読む方向に2文字ずつずらしながらキー抽出を行えば正しい問い合わせ結果が得られることもある。しかし、部分テキストから2文字ずつずらしながらキー抽出を行う場合、必ずしも図31のように正しく検索問い合わせができるとは限らない。すなわち、元のドキュメントの部分領域を撮影したものを入力とする場合、どの領域が撮影されるか既定することは難しく、撮影される部分領域が1文字分ずれただけで正しい検索が行えなくなってしまう。つまり、図32のように図31から1文字分ずれた部分テキストの左上端からキー抽出を行うと、検索問い合わせに用いたキー「アッ」、「プで」、「を電」、「気信」、「を通」、「じて」はそもそも「ドキュメント1」の2ページに対する検索インデックスが作成されていないので、検索キーに対して正しい検索結果(この場合は「ドキュメント1」の2ページ)を含む問い合わせ結果がまったく得られない。
At this time, a correct query result may be obtained if key extraction is performed while shifting by two characters in the reading direction from the upper left end of the partial text as shown in FIG. However, when key extraction is performed while shifting two characters from a partial text, a search query cannot always be made correctly as shown in FIG. That is, when an input of a partial area of the original document is used as an input, it is difficult to determine which area is to be captured, and a correct search cannot be performed simply by shifting the captured partial area by one character. End up. That is, as shown in FIG. 32, when the key is extracted from the upper left corner of the partial text shifted by one character from FIG. 31, the keys “A”, “P”, “Den”, “Chi” ”,“ Through ”, and“ Jiji ”are not created with search indexes for the two pages of“
このように、検索インデックスのデータ量を削減するために2文字ずつずらしながらキー抽出を行うと(図29)、部分テキストからキー抽出する方法によっては正しく検索が行えない場合(図30、図32)があり、検索精度は低下していると言える。ここでは2文字ずつずらしてキー抽出する例で説明したが、M文字ずつ(M>2)ずらしてキー抽出する場合も本質的に問題は同じである。 As described above, when key extraction is performed while shifting two characters at a time in order to reduce the data amount of the search index (FIG. 29), the search cannot be performed correctly depending on the method of extracting keys from partial text (FIGS. 30 and 32). ), And the search accuracy is low. In this example, the key extraction is performed by shifting two characters at a time, but the problem is essentially the same when the keys are extracted by shifting M characters (M> 2).
本発明は、上記の点に鑑みなされたもので、ドキュメント群の中から特定ドキュメントの特定位置を一意に取得する検索要求に応じるための検索インデックス作成時に、検索精度を低下させることなく、検索インデックスのサイズを減らすことが可能な検索装置及び方法及びプログラムを提供することを目的とする。 The present invention has been made in view of the above points, and at the time of creating a search index for responding to a search request for uniquely acquiring a specific position of a specific document from a document group, the search index is not reduced. It is an object of the present invention to provide a search apparatus, method, and program capable of reducing the size of a program.
上記の課題を解決するために、本発明(請求項1)は、改ページや改行位置が確定しているドキュメント内の一部領域を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための検索インデックスを作成し、検索を行う検索装置であって、
インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力手段と、
前記ドキュメントの全体または一部領域から、インデックスキーを抽出する位置を、文字を表現する文字コードの特徴に基づいて決定するインデックスキー抽出位置決定手段と、
前記ドキュメントの全体または一部領域から、前記位置にある1文字以上の文字の組み合わせからなるインデックスキーを抽出するインデックスキー抽出手段と、
前記インデックスキーと該インデックスキーが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段に出力するインデックス出力手段と、を有する。
In order to solve the above problems, the present invention (Claim 1) uses a partial area in a document in which a page break or a line break position is determined as a search query, and the document in which the area appears and the document A search device for creating a search index for responding to a search request for acquiring a position and performing a search,
A document input means for accepting input of documents to be indexed;
Index key extraction position determining means for determining a position for extracting an index key from the whole or a partial area of the document based on characteristics of a character code representing a character;
Index key extracting means for extracting an index key composed of a combination of one or more characters at the position from the whole or a partial area of the document;
Index output means for associating an appearance position in the document in which the index key appears with the index key and outputting it to the index storage means.
また、本発明(請求項2)は、請求項1の前記インデックスキー抽出位置決定手段において、
ドキュメントの全体または一部領域から、1文字以上の文字の組み合わせからなるインデックスキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する手段を含む。
The present invention (Claim 2) is the index key extraction position determination means according to
Means for determining a position for extracting an index key composed of a combination of one or more characters from the whole or a partial area of the document based on the relationship between the characters and the character codes of the characters existing in the vicinity thereof;
また、本発明(請求項3)は、あるドキュメント内の一部領域を検索クエリとして受け付けるクエリ入力手段と、
前記検索クエリから、クエリキーを抽出する位置を、文字を表現する文字コードの特徴に基づいて決定するクエリキー抽出位置決定手段と、
前記検索クエリから、1文字以上の文字の組み合わせからなるクエリキーを抽出するクエリキー抽出手段と、
前記クエリキーに基づいて、前記インデックス記憶手段を検索し、その検索結果を出力する検索手段と、を更に有する。
Further, the present invention (Claim 3) includes query input means for accepting a partial area in a document as a search query,
Query key extraction position determination means for determining a position from which the query key is extracted from the search query based on the characteristics of the character code representing the character;
Query key extraction means for extracting a query key consisting of a combination of one or more characters from the search query;
Search means for searching the index storage means based on the query key and outputting the search result is further included.
また、本発明(請求項4)は、請求項3の前記クエリキー抽出位置決定手段において、
検索クエリから、1文字以上の文字の組み合わせからなるクエリキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する手段を含む。
Further, the present invention (Claim 4) is the query key extraction position determination means according to
Means for determining a position from which a query key consisting of a combination of one or more characters is extracted from the search query based on the relationship between the characters and the character codes of the characters existing in the vicinity thereof;
また、本発明(請求項5)は、改ページや改行位置が確定しているドキュメント内の一部領域を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための検索インデックスを作成し、検索を行う検索方法であって、
入力手段が、インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力ステップと、
インデックスキー抽出位置決定手段が、前記ドキュメントの全体または一部領域から、インデックスキーを抽出する位置を、文字を表現する文字コードの特徴に基づいて決定するインデックスキー抽出位置決定ステップと、
インデックスキー抽出手段が、前記ドキュメントの全体または一部領域から、前記位置にある1文字以上の文字の組み合わせからなるインデックスキーを抽出するインデックスキー抽出ステップと、
インデックス出力手段が、前記インデックスキーと該インデックスキーが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段に出力するインデックス出力ステップと、を行う。
Further, the present invention (Claim 5) uses a partial area in a document in which a page break or a line break position is fixed as a search query, and makes a search request for acquiring a document in which the area appears and a position in the document. A search method for creating a search index and performing a search,
A document input step in which the input means receives input of a document to be indexed;
An index key extraction position determination means for determining an index key extraction position from the whole or a partial area of the document based on the characteristics of the character code representing the character;
An index key extracting unit that extracts an index key composed of a combination of one or more characters at the position from the whole or a partial area of the document; and
The index output means performs an index output step of associating the index key with an appearance position in the document in which the index key appears, and outputting to the index storage means.
また、本発明(請求項6)は、請求項5の前記インデックスキー抽出位置決定ステップにおいて、
ドキュメントの全体または一部領域から、1文字以上の文字の組み合わせからなるインデックスキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する。
Further, according to the present invention (Claim 6), in the index key extraction position determination step of
A position for extracting an index key composed of a combination of one or more characters from the whole or a partial area of the document is determined based on the relationship between the characters and the character codes of the characters existing in the vicinity.
また、本発明(請求項7)は、クエリ入力手段が、あるドキュメント内の一部領域を検索クエリとして受け付けるクエリ入力ステップと、
クエリキー抽出位置決定手段が、前記検索クエリから、クエリキーを抽出する位置を、文字を表現する文字コードの特徴に基づいて決定するクエリキー抽出位置決定ステップと、
クエリキー抽出手段が、前記検索クエリから、1文字以上の文字の組み合わせからなるクエリキーを抽出するクエリキー抽出ステップと、
検索手段が、前記クエリキーに基づいて、前記インデックス記憶手段を検索し、その検索結果を出力する検索ステップと、を更に行う。
Further, according to the present invention (claim 7), the query input means accepts a partial area in a document as a search query;
A query key extraction position determining means for determining a position from which the query key is extracted from the search query based on a characteristic of a character code representing the character;
A query key extracting means for extracting a query key comprising a combination of one or more characters from the search query;
The search means further performs a search step of searching the index storage means based on the query key and outputting the search result.
また、本発明(請求項8)は、請求項7の前記クエリキー抽出位置決定ステップにおいて、
検索クエリから、1文字以上の文字の組み合わせからなるクエリキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する。
The present invention (Claim 8) is characterized in that in the query key extraction position determination step of Claim 7,
A position where a query key composed of a combination of one or more characters is extracted from the search query is determined based on the relationship between the characters and the character codes of the characters existing in the vicinity thereof.
また、本発明(請求項9)は、請求項1乃至4のいずれか1項に記載の検索装置を構成する各手段としてコンピュータを機能させるためのプログラムである。
Moreover, this invention (Claim 9) is a program for functioning a computer as each means which comprises the search device of any one of
上記のように、本発明によれば、キー抽出位置特定の際に、文字コードのパターンというクエリ位置および言語に非依存の情報を用いることにより、ドキュメント群の中から特定ドキュメントの特定位置を一意に取得する検索要求に応じるための検索インデックス作成時に、検索精度を低下させることなく、検索インデックスのサイズを減らすことができる。 As described above, according to the present invention, when specifying the key extraction position, the specific position of the specific document is uniquely identified from the document group by using the query position and the language-independent information called the character code pattern. When creating a search index for responding to a search request acquired at the same time, it is possible to reduce the size of the search index without reducing the search accuracy.
特に、文字コードのパターンでキー抽出位置を決定した場合、クエリ位置(第1の実施の形態で撮影した書籍内の位置)に依らず、検索インデックスキーが作成されている位置から検索キーを抽出することができるため、書籍内に網羅的に検索インデックスが作成されていなくても精度良く検索を実行できる。 In particular, when the key extraction position is determined by the character code pattern, the search key is extracted from the position where the search index key is created, regardless of the query position (the position in the book taken in the first embodiment). Therefore, even if the search index is not comprehensively created in the book, the search can be executed with high accuracy.
また、文字コードのパターンでキー抽出位置を決定した場合、各国の言語特徴の違いを気にすることなく本手法の効果を発揮できる。 In addition, when the key extraction position is determined by the character code pattern, the effect of the present technique can be exhibited without worrying about differences in language characteristics in each country.
以下図面と共に、本発明の実施の形態を説明する。 Embodiments of the present invention will be described below with reference to the drawings.
[第1の実施の形態]
図1は、本発明の第1の実施の形態におけるサーバの構成を示す。
[First Embodiment]
FIG. 1 shows the configuration of a server according to the first embodiment of the present invention.
同図に示すサーバ300部は、本発明の検索装置として利用されるものである。
The
サーバ部300はPCサーバ等の機器で実現でき、データ入力部301、キー抽出位置決定部302、キー抽出部303、検索インデックス出力部304、検索インデックスDB305、サーバ側データ送受信部306、検索問い合わせ部307、コンテンツDB308から構成される。
The
同図におけるクライアント部400はカメラ付き携帯電話等で実現でき、ドキュメント撮影部401、クライアント側データ送受信部402、コンテンツ表示部403から構成される。
The
同図におけるドキュメント読み取り装置200は、サーバ部300のデータ入力部301、及び、サーバ側データ送受信部306に接続され、一般的なスキャナ等の外部装置であり、文字が記載された紙媒体の文書を入力とし、文書をスキャンして電子的な画像ファイルに変換したものを出力とする。光学文字認識装置201は一般的なOCRソフトウェア等の外部装置であり、文字が写っている画像ファイルを入力とし、写っている文字を電子的なテキストデータに変換したものを出力とする。
The
同図におけるドキュメント100は、図2のような文章を含む紙媒体書籍の1ページである。なお、図2は文章のみからなるページの例であるが、ページには図や表等の文字以外の情報が含まれていてもよい。また、ドキュメントは1ページの一部分から構成されても構わないし、複数ページから構成されても構わない。
A
以下に、上記の構成における処理を説明する。 Hereinafter, processing in the above configuration will be described.
本発明は、検索インデックス作成処理と検索問い合わせ作成処理に分けられる。 The present invention is divided into search index creation processing and search query creation processing.
<検索インデックス作成処理>
図3は、本発明の第1の実施の形態における検索インデックス作成処理のフローチャートである。
<Search index creation process>
FIG. 3 is a flowchart of search index creation processing according to the first embodiment of this invention.
ステップ1)インデックス作成時入力ステップ:データ入力部301において、インデックス作成対象となるドキュメントをテキストデータとして入力する。
Step 1) Index creation input step: In the
ステップ10)ドキュメント読み取り装置200は、ドキュメント100を入力として受け付け、ドキュメント100を画像ファイルに変換したものを出力する。
Step 10) The
ステップ11)光学文字認識装置201は、ステップ10の出力を入力として受け付け、画像ファイルをテキストデータに変換したものを出力する。テキストデータは画像ファイルに写っているテキストの改行位置も保持している。
Step 11) The optical
ステップ12)データ入力部301は、ドキュメント100のドキュメント名、ドキュメントにおける位置、ステップ11の出力を入力として受け付け、これらを図4のように関連付けてキー抽出位置決定部302に出力する。ここではドキュメント名は書籍名、ドキュメントにおける位置はページとする。
Step 12) The
ステップ2)インデックス作成時キー抽出ステップ:キー位置抽出位置決定部302、キー抽出部303は、一定のルールに従ってテキストデータからキーを抽出する。
Step 2) Index creation key extraction step: The key position extraction
ステップ13)キー抽出位置決定部302は、ステップ12におけるデータ入力部301からの出力を入力として受け付け、キー抽出位置を決定する。キー抽出位置は文字コードのパターンを用いて決定する。ここでは図5のように、元のテキストデータ(図5(a))の各文字をUnicodeコードに変換し(図5(b))、「文字Aのコード < 文字Aの右隣に出現する文字のコード」となる文字Aをキー抽出位置とし(図5(c))、キー抽出位置を(左上端から右方向へ数えた場合の文字数、左上端から下方向へ数えた場合の文字数)という座標形式で表現して、図4のデータにキー抽出位置の情報を付加して図6のように出力する。
Step 13) The key extraction
ステップ14)キー抽出部303は、ステップ13の出力を入力として受け付け、一定ルールに基づきキー抽出を行う。ここでは、キー抽出位置にある文字と該文字の右隣にある文字を連結した2文字をキーとして図7のように出力する。図7では、抽出されたキーと当該キーの抽出対象となったドキュメント名、ドキュメント内における位置(ページ)を検索インデックス出力部304に出力する。
Step 14) The
ステップ3)インデックス作成時キー出力ステップ:抽出されたキーを検索インデックスとして出力する。 Step 3) Key generation step during index creation: The extracted key is output as a search index.
ステップ15)検索インデックス出力部304は、ステップ14の出力を入力として受け付け、図7の形式のまま検索インデックスDB305に格納する。ここでは、複数のドキュメントに対してステップ10〜15の処理を繰り返し行い、検索インデックスDB305には図8のようなデータが格納されたものとする。
Step 15) The search
<検索問い合わせ作成処理>
図9は、本発明の第1の実施の形態における検索問い合わせ作成処理のフローチャートである。
<Search query creation process>
FIG. 9 is a flowchart of search query creation processing according to the first embodiment of this invention.
ステップ4)問い合わせ時入力ステップ:問い合わせ対象となるドキュメントをテキストデータとして入力する。 Step 4) Inquiry input step: A document to be inquired is inputted as text data.
ステップ16)クライアント部400のドキュメント撮影部401は、ドキュメント100の部分領域を撮影して図10のように画像ファイルとして出力する。
Step 16) The
ステップ17)クライアント側データ送受信部402は、ステップ16で出力された部分領域の画像ファイルを入力として受け付け、画像ファイルのままネットワーク等を通じてサーバ部300に出力する。
Step 17) The client-side data transmitting / receiving
ステップ18)サーバ側データ送受信部306は、ステップ17において、クライアント部400から出力された画像ファイルを入力として受け付け、光学文字認識装置201を用いて画像ファイルをテキストデータに変換したものを出力する。テキストデータは画像ファイルに写っているテキストの改行位置も保持している。
Step 18) In step 17, the server-side data transmission /
ステップ5)問い合わせ時キー抽出ステップ:、一定のルールに従ってテキストデータからキーを抽出する。 Step 5) Inquiry key extraction step: A key is extracted from text data according to a certain rule.
ステップ19)キー抽出位置決定部302は、ステップ18において出力されたテキストデータを入力として受け付け、キー抽出位置を決定する。キー抽出位置はステップ13と同一の方法を用いて決定する。すなわち、図11のように各文字をUnicodeコードに変換し(図11(b))、「文字Aのコード < 文字Aの右隣に出現する文字のコード」となる文字Aをキー抽出位置とし(図11(c))、キー抽出位置を(左上端から右方向へ数えた場合の文字数、左上端から下方向へ数えた場合の文字数)という座標形式で表現して図12のように出力する。
Step 19) The key extraction
ステップ20)キー抽出部303は、ステップ19の出力を入力として受け付け、ステップ14と同一の方法を用いてキー抽出を行う。すなわち、キー抽出位置にある文字と該文字の右隣にある文字を連結した2文字をキーとして図13のように出力する。
Step 20) The
ステップ6)問い合わせ時問い合わせステップ:抽出されたキーを用いて問い合わせを行う。 Step 6) Inquiry step during inquiry: An inquiry is made using the extracted key.
ステップ21)検索問い合わせ部307は、ステップ20で出力されたキーを入力として受け付け、各キーに対応するドキュメント名、ドキュメントにおける位置を検索インデックスDB305に問い合わせる。
Step 21) The
ステップ22)図14のように各検索キーの検索問い合わせ結果を集計して件数が最多である元ドキュメント名および元ドキュメントにおける位置を特定する。検索インデックス作成時(ステップ13)と検索問い合わせ時(ステップ19)のキー抽出位置決定方法が同一であるため、検索問い合わせ時に「ドキュメント1」の2ページから抽出した検索キーは、すべて「ドキュメント1」の2ページと関連付けられて検索インデックス内に含まれているため、問い合わせ結果を集計して最多件数の結果を求めると、これは常に正しい検索結果(この場合は「ドキュメント1」の2ページ)になる。
Step 22) As shown in FIG. 14, the search query results for each search key are tabulated to identify the original document name and the position in the original document with the largest number of cases. Since the key extraction position determination method at the time of search index creation (step 13) and search inquiry (step 19) is the same, all the search keys extracted from the two pages of “
ステップ23)検索問い合わせ部307は、コンテンツDB308に問い合わせを行い、ステップ22で特定した元ドキュメント名および元ドキュメントにおける位置に対応するコンテンツ(ここではhttp://content_1_2.html)を取得して出力する。ここでは、コンテンツDB308には事前に図15に示すデータが格納されていたとする。
Step 23) The
ステップ7)問い合わせ時結果出力ステップ:問い合わせ結果を表示する。 Step 7) Inquiry result output step: The inquiry result is displayed.
ステップ24)サーバ側データ送受信部306は、ステップ23の出力を入力として受け付け、ネットワークを通じてクライアント部300に出力する。
Step 24) The server-side data transmission /
ステップ25)クライアント側データ送受信部402は、ステップ24の出力を入力として受け付け、出力する。
Step 25) The client side data transmitting / receiving
ステップ26)コンテンツ表示部403は、ステップ25の出力を入力として受け付け、コンテンツとして表示する。ここではコンテンツ表示部403は携帯電話のディスプレイであるとし、コンテンツであるhttp://content_1_2.htmlの内容を図16のようにWebブラウザで表示する。
Step 26) The
[第2の実施の形態]
本実施の形態は第1の実施の形態から、検索インデックス作成時におけるキー抽出位置決定(ステップ13)、検索問い合わせ時におけるキー抽出位置決定(ステップ19)のみを変更したものであり、その他の処理方法は第1の実施の形態と同様である。
[Second Embodiment]
This embodiment is different from the first embodiment in that only the key extraction position determination at the time of search index creation (step 13) and the key extraction position determination at the time of search inquiry (step 19) are changed. The method is the same as in the first embodiment.
図17は、本発明の第2の実施の形態における検索インデックス作成処理のフローチャートである。ここではステップ13を変更したステップ1013、ステップ19を変更したステップ1019についてのみ説明する。 FIG. 17 is a flowchart of search index creation processing according to the second embodiment of this invention. Here, only step 1013 in which step 13 is changed and step 1019 in which step 19 is changed will be described.
ステップ1013)キー抽出位置決定部302は、ステップ12の出力を入力として受け付け、キー抽出位置を決定する。キー抽出位置は文字コードのパターンを用いて決定する。ここでは図17のように各文字をUnicodeコードに変換し(図18(b))、「文字Aのコード×2 < 文字Aの右隣に出現する文字のコード」となる文字Aをキー抽出位置として特定する(図18(c))。以降はステップ13と同様の出力を行う。
Step 1013) The key extraction
図19は、本発明の第2の実施の形態における検索問い合わせ処理のフローチャートである。 FIG. 19 is a flowchart of search inquiry processing in the second embodiment of this invention.
ステップ1019)キー抽出位置決定部302は、ステップ18の出力を入力として受け付け、キー抽出位置を決定する。キー抽出位置はステップ1013と同一の方法を用いて決定する。すなわち、図18のように各文字をUnicodeコードに変換し(図20(b))、「文字Aのコード×2 < 文字Aの右隣に出現する文字のコード」となる文字Aをキー抽出位置として特定する(図20(b))。以降はステップ19と同様の出力を行う。
Step 1019) The key extraction
[第3の実施の形態]
本実施の形態は第1の実施の形態から、検索インデックス作成時におけるキー抽出位置決定(ステップ13)、検索問い合わせ時におけるキー抽出位置決定(ステップ19)のみを変更したものであり、その他の処理方法は第1の実施の形態と同様である。
[Third Embodiment]
This embodiment is different from the first embodiment in that only the key extraction position determination at the time of search index creation (step 13) and the key extraction position determination at the time of search inquiry (step 19) are changed. The method is the same as in the first embodiment.
図21は、本発明の第3の実施の形態における検索インデックス作成処理のフローチャートである。 FIG. 21 is a flowchart of search index creation processing according to the third embodiment of the present invention.
ここではステップ13を変更したステップ2013についてのみ説明する。 Here, only step 2013 in which step 13 is changed will be described.
ステップ2013)キー抽出位置決定部302は、ステップ12の出力を入力として受け付け、キー抽出位置を決定する。キー抽出位置は文字コードのパターンを用いて決定する。ここでは図22のように各文字をUnicodeコードに変換し(図22(b))、「文字Aのコードが奇数」となる文字Aをキー抽出位置として特定する(図22(c))。以降はステップ13と同様の出力を行う。
Step 2013) The key extraction
図23は、本発明の第3の実施の形態における検索問い合わせ処理のフローチャートえある。ここでは、ステップ19を変更したステップ2019についてのみ説明する。 FIG. 23 is a flowchart of search inquiry processing according to the third embodiment of the present invention. Here, only step 2019 in which step 19 is changed will be described.
ステップ2019)キー抽出位置決定部302は、ステップ18の出力を入力として受け付け、キー抽出位置を決定する。キー抽出位置はステップ2013と同一の方法を用いて決定する。すなわち、図24のように各文字をUnicodeコードに変換し(図24(b))、「文字Aのコードが奇数」となる文字Aをキー抽出位置として特定する(図24(c))。以降はステップ19と同様の出力を行う。
Step 2019) The key extraction
なお、本発明は、上記の第1〜第3の実施の形態におけるサーバ部300の動作をプログラムとして構築し、サーバ部として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
In the present invention, the operation of the
また、本発明は、構築されたプログラムを、ハードディスクや、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。 In the present invention, the constructed program can be stored in a portable storage medium such as a hard disk, a flexible disk, or a CD-ROM, and can be installed or distributed in a computer.
なお、本発明は、上記の点に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。 In addition, this invention is not limited to said point, A various change and application are possible within a claim.
100 ドキュメント
200 ドキュメント読み取り装置
201 光学文字認識装置
300 サーバ部
301 データ入力部
302 キー抽出位置決定部
303 キー抽出部
304 検索インデックス出力部
305 検索インデックスDB
306 サーバ側データ送受信部
307 検索問い合わせ部
308 コンテンツDB
400 クライアント部
401 ドキュメント撮影部
402 クライアント側データ送受信部
403 コンテンツ表示部
100
306 Server-side data transmission /
400
Claims (9)
インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力手段と、
前記ドキュメントの全体または一部領域から、インデックスキーを抽出する位置を、文字を表現する文字コードの特徴に基づいて決定するインデックスキー抽出位置決定手段と、
前記ドキュメントの全体または一部領域から、前記位置にある1文字以上の文字の組み合わせからなるインデックスキーを抽出するインデックスキー抽出手段と、
前記インデックスキーと該インデックスキーが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段に出力するインデックス出力手段と、
を有することを特徴とする検索装置。 Create a search index for responding to a search request to obtain a document in which the area appears and a position in the document by using a partial area in the document in which the page break or line break position is fixed as a search query. A search device to perform,
A document input means for accepting input of documents to be indexed;
Index key extraction position determining means for determining a position for extracting an index key from the whole or a partial area of the document based on characteristics of a character code representing a character;
Index key extracting means for extracting an index key composed of a combination of one or more characters at the position from the whole or a partial area of the document;
An index output means for associating the index key with an appearance position in a document in which the index key appears, and outputting to the index storage means;
A search device comprising:
ドキュメントの全体または一部領域から、1文字以上の文字の組み合わせからなるインデックスキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する手段を含む、
請求項1記載の検索装置。 The index key extraction position determining means includes
Including means for determining a position for extracting an index key composed of a combination of one or more characters from the whole or a partial area of the document based on the relationship between the characters and the character codes of the characters existing in the vicinity thereof
The search device according to claim 1.
前記検索クエリから、クエリキーを抽出する位置を、文字を表現する文字コードの特徴に基づいて決定するクエリキー抽出位置決定手段と、
前記検索クエリから、1文字以上の文字の組み合わせからなるクエリキーを抽出するクエリキー抽出手段と、
前記クエリキーに基づいて、前記インデックス記憶手段を検索し、その検索結果を出力する検索手段と、
を更に有する請求項1記載の検索装置。 Query input means for accepting a partial area in a document as a search query,
Query key extraction position determination means for determining a position from which the query key is extracted from the search query based on the characteristics of the character code representing the character;
Query key extraction means for extracting a query key consisting of a combination of one or more characters from the search query;
Search means for searching the index storage means based on the query key and outputting the search results;
The search device according to claim 1, further comprising:
検索クエリから、1文字以上の文字の組み合わせからなるクエリキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する手段を含む、
請求項3記載の検索装置。 The query key extraction position determining means includes
Means for determining a position from which a query key consisting of a combination of one or more characters is extracted from the search query based on the relationship between the character and the character code of the character existing in the vicinity thereof,
The search device according to claim 3.
入力手段が、インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力ステップと、
インデックスキー抽出位置決定手段が、前記ドキュメントの全体または一部領域から、インデックスキーを抽出する位置を、文字を表現する文字コードの特徴に基づいて決定するインデックスキー抽出位置決定ステップと、
インデックスキー抽出手段が、前記ドキュメントの全体または一部領域から、前記位置にある1文字以上の文字の組み合わせからなるインデックスキーを抽出するインデックスキー抽出ステップと、
インデックス出力手段が、前記インデックスキーと該インデックスキーが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段に出力するインデックス出力ステップと、
を行うことを特徴とする検索方法。 Create a search index for responding to a search request to obtain a document in which the area appears and a position in the document by using a partial area in the document in which the page break or line break position is fixed as a search query. A search method to perform,
A document input step in which the input means receives input of a document to be indexed;
An index key extraction position determination means for determining an index key extraction position from the whole or a partial area of the document based on the characteristics of the character code representing the character;
An index key extracting unit that extracts an index key composed of a combination of one or more characters at the position from the whole or a partial area of the document; and
An index output means for associating the index key with an appearance position in the document in which the index key appears, and outputting to the index storage means;
The search method characterized by performing.
ドキュメントの全体または一部領域から、1文字以上の文字の組み合わせからなるインデックスキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する
請求項5記載の検索方法。 In the index key extraction position determination step,
The search according to claim 5, wherein a position for extracting an index key composed of a combination of one or more characters from the whole or a partial area of the document is determined based on a relationship between a character and a character code of a character existing in the vicinity thereof. Method.
クエリキー抽出位置決定手段が、前記検索クエリから、クエリキーを抽出する位置を、文字を表現する文字コードの特徴に基づいて決定するクエリキー抽出位置決定ステップと、
クエリキー抽出手段が、前記検索クエリから、1文字以上の文字の組み合わせからなるクエリキーを抽出するクエリキー抽出ステップと、
検索手段が、前記クエリキーに基づいて、前記インデックス記憶手段を検索し、その検索結果を出力する検索ステップと、
を更に行う請求項5記載の検索方法。 A query input step in which the query input means accepts a partial area in a document as a search query;
A query key extraction position determining means for determining a position from which the query key is extracted from the search query based on a characteristic of a character code representing the character;
A query key extracting means for extracting a query key comprising a combination of one or more characters from the search query;
A search means for searching the index storage means based on the query key and outputting the search results;
The search method according to claim 5, further comprising:
検索クエリから、1文字以上の文字の組み合わせからなるクエリキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する
請求項7記載の検索方法。 In the query key extraction position determination step,
The search method according to claim 7, wherein a position for extracting a query key composed of a combination of one or more characters from the search query is determined based on a relationship between the characters and character codes of characters existing in the vicinity thereof.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010135605A JP5514002B2 (en) | 2010-06-14 | 2010-06-14 | SEARCH DEVICE, METHOD, AND PROGRAM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010135605A JP5514002B2 (en) | 2010-06-14 | 2010-06-14 | SEARCH DEVICE, METHOD, AND PROGRAM |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012003355A true JP2012003355A (en) | 2012-01-05 |
JP5514002B2 JP5514002B2 (en) | 2014-06-04 |
Family
ID=45535287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010135605A Active JP5514002B2 (en) | 2010-06-14 | 2010-06-14 | SEARCH DEVICE, METHOD, AND PROGRAM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5514002B2 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06309382A (en) * | 1993-04-26 | 1994-11-04 | Kayaba Ind Co Ltd | Picture information processor |
JP2000231563A (en) * | 1999-02-09 | 2000-08-22 | Hitachi Ltd | Document retrieving method and its system and computer readable recording medium for recording document retrieval program |
JP2000259673A (en) * | 1999-01-06 | 2000-09-22 | Matsushita Electric Ind Co Ltd | Method and device for dividing sentence to words |
JP2003132078A (en) * | 2001-10-25 | 2003-05-09 | Toppan Printing Co Ltd | Database construction device, method therefor, program thereof and recording medium |
-
2010
- 2010-06-14 JP JP2010135605A patent/JP5514002B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06309382A (en) * | 1993-04-26 | 1994-11-04 | Kayaba Ind Co Ltd | Picture information processor |
JP2000259673A (en) * | 1999-01-06 | 2000-09-22 | Matsushita Electric Ind Co Ltd | Method and device for dividing sentence to words |
JP2000231563A (en) * | 1999-02-09 | 2000-08-22 | Hitachi Ltd | Document retrieving method and its system and computer readable recording medium for recording document retrieval program |
JP2003132078A (en) * | 2001-10-25 | 2003-05-09 | Toppan Printing Co Ltd | Database construction device, method therefor, program thereof and recording medium |
Also Published As
Publication number | Publication date |
---|---|
JP5514002B2 (en) | 2014-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110083805B (en) | Method and system for converting Word file into EPUB file | |
US8107727B2 (en) | Document processing apparatus, document processing method, and computer program product | |
US7669148B2 (en) | System and methods for portable device for mixed media system | |
US8838657B1 (en) | Document fingerprints using block encoding of text | |
US10592737B2 (en) | Mathematical formula learner support system | |
US20070171482A1 (en) | Method and apparatus for managing information, and computer program product | |
US20070180471A1 (en) | Presenting digitized content on a network using a cross-linked layer of electronic documents derived from a relational database | |
JP2010073114A (en) | Image information search device, image information search method, computer program for the same | |
CN105637509A (en) | Searching and annotating within images | |
US7359896B2 (en) | Information retrieving system, information retrieving method, and information retrieving program | |
WO2013146394A1 (en) | Information processing terminal and method, and information management apparatus and method | |
JP6032138B2 (en) | Program, document providing apparatus, and document display system | |
US9310971B2 (en) | Document viewing device for display document data | |
US20060167899A1 (en) | Meta-data generating apparatus | |
JP2008269069A (en) | Information processing system and method | |
JP2019040260A (en) | Information processing apparatus and program | |
JP5484113B2 (en) | Document image related information providing apparatus and document image related information acquisition system | |
KR20090084161A (en) | Search system using contents information in document file | |
JP5384315B2 (en) | SEARCH DEVICE, METHOD, AND PROGRAM | |
JP2010092383A (en) | Electronic document file search device, electronic document file search method, and computer program | |
JP2007011973A (en) | Information retrieval device and information retrieval program | |
WO2007073097A1 (en) | Method and system for sorting/searching file and record media therefor | |
US8566366B2 (en) | Format conversion apparatus and file search apparatus capable of searching for a file as based on an attribute provided prior to conversion | |
US9135517B1 (en) | Image based document identification based on obtained and stored document characteristics | |
US20150169523A1 (en) | Smart Scoring And Filtering of User-Annotated Geocoded Datasets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121204 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20131001 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131010 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131112 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140325 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140328 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5514002 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |