JP2008134954A - Information processing device, its control method, and program - Google Patents

Information processing device, its control method, and program Download PDF

Info

Publication number
JP2008134954A
JP2008134954A JP2006322156A JP2006322156A JP2008134954A JP 2008134954 A JP2008134954 A JP 2008134954A JP 2006322156 A JP2006322156 A JP 2006322156A JP 2006322156 A JP2006322156 A JP 2006322156A JP 2008134954 A JP2008134954 A JP 2008134954A
Authority
JP
Japan
Prior art keywords
text information
metadata
search
information
chart
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006322156A
Other languages
Japanese (ja)
Other versions
JP2008134954A5 (en
Inventor
Hidetomo Soma
英智 相馬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2006322156A priority Critical patent/JP2008134954A/en
Publication of JP2008134954A publication Critical patent/JP2008134954A/en
Publication of JP2008134954A5 publication Critical patent/JP2008134954A5/ja
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide an information processing device which easily, quickly retrieves non-text information in documents which is very important and more frequently becomes a retrieval target, and also provide its control method and a program. <P>SOLUTION: The information processing device extracts a language expression relating to non-text information from document data, generates metadata for retrieving the non-text information based on the language expression, associates the generated metadata with the non-text information registers it in a storage medium and compares retrieval conditions relating to input with the registered metadata to retrieve the non-text information. At that time, the device extracts an emphasis expression relating to the non-text information from the document data and adds emphasis information, which indicates that the emphasis expression is made, to the metadata. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、文書中の図表等の非テキスト情報を検索するのに好適な情報処理装置、その制御方法、及びプログラムに関する。   The present invention relates to an information processing apparatus suitable for searching non-text information such as a chart in a document, a control method thereof, and a program.

近年、保存スペースの削減,遠隔地からの取得の利便性から、膨大な量の電子文書が氾濫している。このため、所望の電子文書の検索に長時間を要するようになってきている。   In recent years, an enormous amount of electronic documents has been flooded due to the reduction of storage space and the convenience of acquisition from a remote location. For this reason, it takes a long time to search for a desired electronic document.

特に、カタログ、論文、電子機器の取り扱い説明書等に係る電子文書には、テキスト情報だけでなく、画像、図、表などの非テキスト情報が多数含まれている。これら非テキスト情報は、利用頻度が高い情報でもある。   In particular, electronic documents related to catalogs, papers, instruction manuals for electronic devices, and the like include not only text information but also a large number of non-text information such as images, diagrams, and tables. These non-text information is also frequently used information.

しかしながら、これら非テキスト情報は、それ自体は文字情報を持たないか、持っていても断片的な文字情報であるため、所望の非テキスト情報の検索は困難である。そこで、文書又は文書中の画像情報にメタデータ(テキスト情報)を関連付け、このメタデータを用いて文書又は画像情報を検索する技術が開発されている(例えば、特許文献1参照)。
特開2003−30243号公報
However, these non-text information itself does not have character information or is fragmented character information even if it has, it is difficult to search for desired non-text information. Therefore, a technique has been developed in which metadata (text information) is associated with a document or image information in the document, and the document or image information is searched using the metadata (for example, see Patent Document 1).
JP 2003-30243 A

しかしながら、従来は、非テキスト情報、その構成要素の関係、非テキスト情報の構造等を解析して検索用のメタデータを抽出することはできず、文書中の非テキスト情報、又はその構成要素を精度よく検索することはできなかった。   However, conventionally, metadata for search cannot be extracted by analyzing the non-text information, the relationship between its constituent elements, the structure of the non-text information, etc., and the non-text information in the document or its constituent elements cannot be extracted. It was not possible to search accurately.

本発明は、このような背景の下になされたもので、その目的は、文書中の重要度が高く検索対象となる頻度も高い非テキスト情報を簡単、かつ迅速に検索し得る情報処理装置、その制御方法、及びプログラムを提供する。   The present invention has been made under such a background, and an object thereof is an information processing apparatus capable of easily and quickly searching for non-text information having a high importance in a document and a high frequency of search. The control method and program are provided.

上記目的を達成するため、本発明は、文書データ中の非テキスト情報に関連するメタデータを用いて当該非テキスト情報を検索する情報処理装置であって、前記文書データの中から前記非テキスト情報に関連する言語表現を抽出する抽出手段と、前記抽出手段により抽出された言語表現に基づいて前記非テキスト情報を検索するためのメタデータを作成する作成手段と、前記作成手段により作成されたメタデータを前記非テキスト情報と関連付けて記憶媒体に登録する登録手段と、入力に係る検索条件と、前記登録手段により登録された前記メタデータとを比較して非テキスト情報を検索する検索手段とを有し、前記抽出手段は、前記文書データから前記非テキスト情報に関する強調表現を抽出し、前記作成手段は、前記強調表現が抽出された場合にその旨を示す強調情報を前記メタデータに付加することを特徴とする。   In order to achieve the above object, the present invention provides an information processing apparatus for retrieving non-text information using metadata related to non-text information in document data, wherein the non-text information is retrieved from the document data. Extraction means for extracting a linguistic expression related to the text, creation means for creating metadata for searching for the non-text information based on the linguistic expression extracted by the extraction means, and meta data created by the creation means Registration means for registering data in the storage medium in association with the non-text information; search means for searching for non-text information by comparing the input search condition with the metadata registered by the registration means; And the extraction means extracts an emphasized expression related to the non-text information from the document data, and the creating means extracts the emphasized expression. The emphasis information indicating that when, characterized in that added to the meta-data.

本発明では、強調情報が付加されたメタデータを用いて非テキスト情報を検索することができる。この強調情報は、一般に、重要度が高く検索対象となる頻度も高い言語表現に係るメタデータであることを意味する。   In the present invention, non-text information can be searched using metadata to which emphasis information is added. This emphasis information generally means that the metadata is related to a linguistic expression having high importance and high frequency of search.

従って、本発明によれば、上記の特性を有する強調情報が付加されたメタデータを用いて非テキスト情報を検索することにより、文書中の重要度が高く検索対象となる頻度も高い非テキスト情報を簡単、かつ迅速に検索し得る情報処理装置、その制御方法、及びプログラムを提供することが可能となる。   Therefore, according to the present invention, by searching for non-text information using the metadata to which the emphasis information having the above characteristics is added, the non-text information having a high importance in the document and a high frequency of search. It is possible to provide an information processing apparatus that can easily and quickly search, a control method thereof, and a program.

[第1の実施の形態]
図1は、本発明の第1〜第3の実施の形態に係る情報処理装置の基本構成を示すブロック図である。この情報処理装置は、マルチメディア文書データから所望の画像、図、表等の非テキスト情報又はその構成要素を高精度に検索できるようにしたものであり、パーソナルコンピュータ(PC)上に構築されている。
[First Embodiment]
FIG. 1 is a block diagram showing a basic configuration of an information processing apparatus according to first to third embodiments of the present invention. This information processing apparatus is designed to search non-text information such as desired images, figures and tables or its constituent elements from multimedia document data with high accuracy, and is constructed on a personal computer (PC). Yes.

図1において、CPU101は、本情報処理装置における各種の処理を制御するコントローラ(処理ユニット)である。その制御は、後述するROM102、外部記憶装置105等に格納されたプログラムに基づいて実行される。また、CPU101は、複数のプログラムを並列に実行可能である。   In FIG. 1, a CPU 101 is a controller (processing unit) that controls various processes in the information processing apparatus. The control is executed based on programs stored in the ROM 102, the external storage device 105, and the like which will be described later. The CPU 101 can execute a plurality of programs in parallel.

このCPU101は、バス110を介して、ROM102、RAM103、入力部104、外部記憶装置105、表示器106、通信部107等の各種デバイスと相互に通信可能に接続されている。ROM102には、ブートプログラム等のプログラム、およびデータ等が格納されている。RAM103は、CPU101が実際に処理を実行する際に、その処理に係るプログラムをROM102あるいは外部記憶装置105等からロードして展開する等、ワークエリアとして利用される。   The CPU 101 is connected to various devices such as a ROM 102, a RAM 103, an input unit 104, an external storage device 105, a display unit 106, and a communication unit 107 via a bus 110 so as to communicate with each other. The ROM 102 stores a program such as a boot program, data, and the like. When the CPU 101 actually executes processing, the RAM 103 is used as a work area, for example, by loading a program related to the processing from the ROM 102 or the external storage device 105 and developing the program.

入力部104は、キーボード等により構成され、アルファベットキー、ひらがなキー、カタカナキー等の文字入力キー、及びカーソル移動キー等の各種の機能キーを有している。なお、入力部104は、マウスのようなポインティングデバイスを搭載することもできる。   The input unit 104 includes a keyboard or the like, and has various function keys such as alphabetic keys, character input keys such as hiragana keys and katakana keys, and cursor movement keys. Note that the input unit 104 may be equipped with a pointing device such as a mouse.

外部記装置105には、OS、アプリケーションプログラム等の各種のプログラム、文書データ等の各種のデータが格納される。この外部記憶装置105は、ハードディスク、不揮発性の半導体メモリ等の記憶媒体からなる。また、外部記憶装置105がハードディスクの場合、当該記憶媒体を駆動してデータを記録するドライブを有する。なお、外部記装置105には、図5、図11のフローチャートに係る処理を行なうためのアプリケーションプログラムも記憶されている。   The external storage device 105 stores an OS, various programs such as application programs, and various data such as document data. The external storage device 105 includes a storage medium such as a hard disk and a nonvolatile semiconductor memory. When the external storage device 105 is a hard disk, it has a drive for recording data by driving the storage medium. The external storage device 105 also stores an application program for performing processing according to the flowcharts of FIGS.

表示器106は、液晶ディスプレイなどで構成され、入力部104により入力されたデータ、CPU101での処理内容等を表示する。通信部107は、LAN108、コネクタ109を介して他の情報処理装置、プリンタ等と通信するための制御を行う。この通信部107による通信制御により、第1〜3の実施の形態に係るアプリケーションプログラムやデータを他の情報処理装置と共有することが可能になる。   The display device 106 is composed of a liquid crystal display or the like, and displays data input by the input unit 104, processing contents in the CPU 101, and the like. The communication unit 107 performs control for communicating with other information processing apparatuses, printers, and the like via the LAN 108 and the connector 109. Communication control by the communication unit 107 makes it possible to share application programs and data according to the first to third embodiments with other information processing apparatuses.

通信部107による通信は、RS232CやUSB、IEEE1394、P1284、SCSI、モデム、Ethernet(登録商標)などの有線通信、Bluetooth、赤外線通信、IEEE802.11b等の無線通信の何れの通信方式を採ってもよい。なお、通信部107は、コネクタ109を介して記憶装置、スキャナ、プリンタ等と接続されている。   Communication by the communication unit 107 may be any communication method such as wired communication such as RS232C, USB, IEEE1394, P1284, SCSI, modem, Ethernet (registered trademark), wireless communication such as Bluetooth, infrared communication, IEEE802.11b. Good. Note that the communication unit 107 is connected to a storage device, a scanner, a printer, and the like via a connector 109.

本情報処理装置は、外部記憶装置105、或いは外部のコンピュータにマルチメディア文書(以下、文書という)を格納する際に、この文書中の非テキスト情報又はその構成要素を検索するためのメタデータを抽出している。   This information processing apparatus stores metadata for searching non-text information or its components in a document when storing a multimedia document (hereinafter referred to as a document) in the external storage device 105 or an external computer. Extracting.

図2は、1ページ分の文書データ201を例示したものである。この文書データ201は、本文(テキスト情報)202、見出し(テキスト情報)203、および見出しに続く文章(テキスト情報)204を有している。   FIG. 2 shows an example of document data 201 for one page. The document data 201 includes a body (text information) 202, a heading (text information) 203, and a sentence (text information) 204 following the heading.

また、図2の文書データは、図表要素(非テキスト情報)205、図表要素205のキャプション(説明文:テキスト情報)206、図表要素207、図表要素207のキャプション(説明文:テキスト情報)208、図表要素209、図表要素209のキャプション(説明文:テキスト情報)210を有している。なお、キャプションとは、対応する図の説明文(テキスト情報)を意味する。   The document data in FIG. 2 includes a chart element (non-text information) 205, a caption (description: text information) 206 of the chart element 205, a chart element 207, and a caption (description: text information) 208 of the chart element 207, A chart element 209 and a caption (descriptive text: text information) 210 of the chart element 209 are included. The caption means an explanatory text (text information) of the corresponding figure.

更に、図2の文書データは、3つの図表要素205,207,209で構成された図表領域全体に対するキャプション211と、ページ番号(テキスト情報)212を有している。なお、個別の図表要素205,207,209のキャプション206,208,210は、図表領域全体のキャプション211に対し、サブキャプションとも呼ばれる。   Further, the document data of FIG. 2 has a caption 211 for the entire chart area composed of three chart elements 205, 207, and 209 and a page number (text information) 212. Note that the captions 206, 208, and 210 of the individual chart elements 205, 207, and 209 are also referred to as sub-captions for the caption 211 of the entire chart area.

図3は、図2の文書データ201の解析結果を示す構造化文書データを示したものである。なお、図3は、レイアウト解析結果の基本部分を抜粋したものである。図3において、(3−1)〜(3−32)は、レイアウト解析結果をXML形式で記述したものである。このうち、(3−1)は図2のページの開始を示すものであり、ページ番号が「11」であることが記述されている。また、(3−32)は当該ページの終了を示している。   FIG. 3 shows structured document data indicating the analysis result of the document data 201 of FIG. FIG. 3 is an excerpt of the basic part of the layout analysis result. In FIG. 3, (3-1) to (3-32) describe the layout analysis result in the XML format. Among these, (3-1) indicates the start of the page of FIG. 2, and it is described that the page number is “11”. (3-32) indicates the end of the page.

(3−2)〜(3−4)は、図2のページの大きさを示す記述部分である。(3−3)に示したページの大きさ(600 900)は、ページ左上を原点とし、Y軸をページ下方向に正方向とし、X軸をページ右方向に正方向とするXY座標系におけるX,Y座標値を示すものである。すなわち、当該ページがX方向に600、Y方向に900の大きさであることが記述されている。以下、同様に、位置や大きさなどの情報は、ページ左上を原点とし、Y軸をページ下方向に正方向とし、X軸をページ右方向に正方向とするするXY座標系で示される。   (3-2) to (3-4) are description parts indicating the page size of FIG. The size (600 900) of the page shown in (3-3) is based on the XY coordinate system in which the upper left corner of the page is the origin, the Y axis is the forward direction in the lower direction, and the X axis is the forward direction in the right direction of the page X and Y coordinate values are indicated. That is, it is described that the page is 600 in the X direction and 900 in the Y direction. Similarly, information such as position and size is indicated in an XY coordinate system in which the upper left corner of the page is the origin, the Y axis is the forward direction in the lower direction, and the X axis is the forward direction in the right direction of the page.

(3−5)〜(3−31)は、図2のページ内の文書情報の構成要素(領域)を列挙したものであり、各構成要素がブロック(Block)という単位で表現されている。このうち、(3−6)〜(3−21)は、図2の文章202,203,204の領域のブロックを表現した記述である。(3−6)は、レイアウト解析において割り当てたブロック識別番号が「1101」であり、文章を記述したテキスト領域のブロックであることを示す記述がされている。   (3-5) to (3-31) list the constituent elements (areas) of the document information in the page of FIG. 2, and each constituent element is expressed in units of blocks. Among these, (3-6) to (3-21) are descriptions expressing blocks in the areas of the sentences 202, 203, and 204 in FIG. In (3-6), the block identification number assigned in the layout analysis is “1101”, and a description indicating that the block is in a text area in which a sentence is described.

また、(3−7)〜(3−9)には、当該ブロックのページ内での位置を示す情報として、上記のXY座標系での当該ブロックの左上の位置座標を示す記述がされている。また、(3−10)〜(3−12)は、上記のXY座標系での当該ブロックのサイズを示す記述がされている。このサイズは、当該ブロックの左上の位置座標からのX,Y方向の距離で示されている。   In (3-7) to (3-9), description indicating the upper left position coordinate of the block in the XY coordinate system is described as information indicating the position of the block in the page. . In addition, (3-10) to (3-12) describe the size of the block in the XY coordinate system. This size is indicated by the distance in the X and Y directions from the upper left position coordinate of the block.

(3−13)〜(3−20)は、当該ブロック中に記述されている内容を示しており、テキスト領域のブロックなので、図2の本文202,見出し203,見出し203に続く文章204がそのまま記述されている。これらの文章(テキスト情報)は、紙媒体などからスキャンした場合には、文字認識などの技術を用いることで、画像情報からテキスト情報に変換して得られる。   (3-13) to (3-20) show the contents described in the block, and are text area blocks. Therefore, the sentence 204 following the body 202, heading 203, and heading 203 in FIG. is described. These sentences (text information) are obtained by converting image information into text information by using a technique such as character recognition when scanned from a paper medium or the like.

(3−15)では、図2の見出し203の部分が記述されており、見出しの番号が「5」で、見出しのタイトルが「家具A」という内容であったことを示すテキスト情報が付加されている。また、(3−18)では、図2の文章204中の「脚部の接地部分」という部分にアンダーラインが付与されていたことが、文章204の文字列に加えて記述されている。   In (3-15), the heading 203 part of FIG. 2 is described, text information indicating that the heading number is “5” and the heading title is “Furniture A” is added. ing. In addition, in (3-18), it is described in addition to the character string of the sentence 204 that an underline is given to the part “grounding part of the leg” in the sentence 204 of FIG. 2.

(3−22)〜(3−31)では、図2の図表要素205等の当該ページ内の他の構成要素について記述されている。(3−22)では、図2の図表要素205に対してレイアウト解析において割り当てたブロック識別番号が「1102」であり、グラフィック形式のブロックであることが記述されている。また、(3−23)〜(3−25)では、図表要素205に係るブロックのページ内の位置を示す情報として、上記のXY座標系での図表要素205に係るブロックの左上の位置座標が記述されている。また、(3−26)〜(3−28)では、上記のXY座標系での図表要素205に係るブロックのサイズが記述されている。さらに、図示省略したが、(3―30)以下には、図表要素205自体が記述されている。   (3-22) to (3-31) describe other components in the page such as the chart element 205 of FIG. In (3-22), the block identification number assigned to the chart element 205 in FIG. 2 in the layout analysis is “1102”, which describes that the block is in the graphic format. In (3-23) to (3-25), as the information indicating the position in the page of the block related to the chart element 205, the position coordinate on the upper left of the block related to the chart element 205 in the XY coordinate system is as follows. is described. Also, in (3-26) to (3-28), the size of the block related to the chart element 205 in the XY coordinate system is described. Further, although not shown, the chart element 205 itself is described below (3-30).

本実施の形態では、図1の外部記憶装置105等に保存された文書データ中の画像、図、表といった非テキスト情報を検索するために、まず、文書データに対して予めレイアウト解析が行われ、そのレイアウト解析結果が図3のようなXML形式で記述される。   In this embodiment, in order to search for non-text information such as images, diagrams, and tables in document data stored in the external storage device 105 in FIG. 1, layout analysis is first performed on the document data in advance. The layout analysis result is described in the XML format as shown in FIG.

そして、このレイアウト解析結果に基づいて非テキスト情報の領域、その構成要素、すなわち非テキスト情報の領域内の個々の非テキスト情報について相互の関係を解析する処理が実行される。その関係解析結果に基づいて非テキスト情報、その構成要素を検索するための検索用メタデータを抽出して登録する処理が実行される。   Then, based on the layout analysis result, a process of analyzing the mutual relationship between the non-text information area and its constituent elements, that is, the individual non-text information in the non-text information area is executed. Based on the relationship analysis result, processing for extracting and registering non-text information and search metadata for searching the constituent elements is executed.

例えば、CPU101は、レイアウト解析によりブロック分割を行うことによってそれぞれの図表要素あるいは文章が記述されたブロックの位置を求める。そして、CPU101は、図2に示した図表要素205、図表要素207、図表要素209の近傍に配置された1〜2行程度の文字列を認識する。次に、CPU101は、これらの文字列を、図表要素205、図表要素207の説明文(キャプション)206、208であると認定する。   For example, the CPU 101 obtains the position of the block in which each chart element or sentence is described by performing block division by layout analysis. Then, the CPU 101 recognizes a character string of about one to two lines arranged in the vicinity of the chart element 205, the chart element 207, and the chart element 209 shown in FIG. Next, the CPU 101 recognizes these character strings as the explanatory texts (captions) 206 and 208 of the chart element 205 and the chart element 207.

なお、着目している図表要素の近傍に1〜2行程度の文字列が配置されていない場合は、CPU101は、その図表要素のキャプションは存在しないものと判断する。また、着目している図表要素の近傍に1〜2行程度の文字列が配置されているが、その文字列よりも他の図表要素の方が当該図表要素から近い位置に配置されている場合も、CPU101は、その図表要素のキャプションは存在しないものと判断する。   If a character string of about 1 to 2 lines is not arranged in the vicinity of the target chart element, the CPU 101 determines that no caption for the chart element exists. In addition, a character string of about 1 to 2 lines is placed near the target chart element, but other chart elements are placed closer to the chart element than the text string. However, the CPU 101 determines that there is no caption for the chart element.

図2の例では、図表要素205と図表要素207と図表要素209とは並列の関係にあり、キャプション206は図表要素205に対応し、キャプション208は図表要素207に対応し、キャプション210は図表要素209に対応しているものと認定することができる。そして、CPU101は、これらキャプション206,208,210を、それぞれ図表要素205,207,209を検索するための検索用メタデータとして抽出し、それぞれ図表要素205,207,209と関連付けて外部記憶装置105等に登録する。   In the example of FIG. 2, chart element 205, chart element 207, and chart element 209 are in a parallel relationship, caption 206 corresponds to chart element 205, caption 208 corresponds to chart element 207, and caption 210 is a chart element. It can be recognized that it corresponds to 209. The CPU 101 extracts the captions 206, 208, and 210 as search metadata for searching the chart elements 205, 207, and 209, respectively, and associates the caption elements 205, 207, and 209 with the chart elements 205, 207, and 209, respectively. Register with etc.

そして、検索処理の際には、CPU101は、例えばメタデータとしてのキャプション206を検索することにより、そのメタデータ(キャプション206)に関連付けられた非テキスト情報としての図表要素205を読出し、検索結果として表示器106に表示させる。   In the search process, for example, the CPU 101 searches the caption 206 as metadata, thereby reading the chart element 205 as non-text information associated with the metadata (caption 206) as a search result. The data is displayed on the display unit 106.

これにより、画像、図、表等の各種の非テキスト情報のフォーマットに依存することなく、各種の非テキスト情報を検索することができるようになる。また、検索時には、検索用のメタデータを検索するだけで目的の非テキスト情報を検索することができ、検索所要時間を短縮することが可能となる。   As a result, various types of non-text information can be searched without depending on the format of various types of non-text information such as images, diagrams, and tables. Further, at the time of searching, the target non-text information can be searched simply by searching the searching metadata, and the time required for searching can be shortened.

図4は、図2の文書に対するレイアウト解析の解析結果を示す概念図である。このレイアウト解析結果は、本実施の形態では、実際には図3に示したようにXMLデータで記述されるが、図4では理解し易いように、概念図で示している。   FIG. 4 is a conceptual diagram showing an analysis result of layout analysis for the document of FIG. In this embodiment, the layout analysis result is actually described in XML data as shown in FIG. 3, but is shown in a conceptual diagram in FIG. 4 for easy understanding.

なお、図表要素205、図表要素205のキャプション206、図表要素207、図表要素207のキャプション208、図表要素209、図表要素209のキャプション210が配置される領域を全体図表領域とする。すなわち、全体図表領域には、テキスト情報としてのキャプション、及びサブキャプションが含まれている。図2に示す図表領域は、図表要素が密集している状態である。すなわち、本実施の形態では、「全体図表領域」という用語は、純粋な図表だけでなくテキスト情報を含む場合がある図表領域を指すものとして用いている。   The area where the chart element 205, the caption 206 of the chart element 205, the chart element 207, the caption 208 of the chart element 207, the chart element 209, and the caption 210 of the chart element 209 are arranged as an entire chart area. That is, the entire chart area includes captions as text information and sub-captions. The chart area shown in FIG. 2 is a state in which chart elements are densely packed. That is, in the present embodiment, the term “overall chart area” is used to indicate a chart area that may include not only a pure chart but also text information.

図4に示したキャプション等は、図2の文書データのレイアウト解析を行なって得られたものである。図2に示したように、「11」という数字は、当該ページの最下行に孤立状態で存在するものであるので、CPU101は、ページ番号と判断する。仮に、前後のページが存在し、それらの同位置にも「11」に連続する「10」、「12」という数字が存在する場合、CPU101は、図2の数字「11」は、「ページ番号」であると判断してもよい。図4において、レイアウト解析結果により得られたテキスト情報である数字「11」は、符号401で示したようにページ番号と判断され、「ページNo.11」としている。図4に示した符号402,404は、図2に示した文章202,204に相当するものである。   The captions and the like shown in FIG. 4 are obtained by performing the layout analysis of the document data in FIG. As shown in FIG. 2, the number “11” is present in an isolated state on the bottom line of the page, so the CPU 101 determines that it is a page number. If there are previous and subsequent pages, and the numbers “10” and “12” continuing to “11” exist at the same position, the CPU 101 determines that the number “11” in FIG. May be determined. In FIG. 4, the number “11”, which is text information obtained from the layout analysis result, is determined to be a page number as indicated by reference numeral 401 and is set to “page No. 11”. Reference numerals 402 and 404 shown in FIG. 4 correspond to the sentences 202 and 204 shown in FIG.

また、図2の文書データにおいて、「5.家具A」という短い文字列は、比較的長い文章202と文章204の間に孤立状態で配置されている。さらに、図2の文書データの前のページの文章の間には「5」に連続する「4」、「6」という数字が短い文字列と共に記載されている(図示省略)。この場合、CPU101は、図2の「家具A」という文字列を「タイトル」として判断し、「5.」をセクション番号であると判断する。よって、図4のレイアウト解析結果において符号403で示したように、「文章(セクション)番号=”5”、タイトル=”家具A”」としている。   In the document data of FIG. 2, a short character string “5. Furniture A” is arranged in an isolated state between a relatively long sentence 202 and a sentence 204. Furthermore, between the sentences on the previous page of the document data in FIG. 2, the numbers “4” and “6” continuing to “5” are written together with a short character string (not shown). In this case, the CPU 101 determines that the character string “furniture A” in FIG. 2 is “title” and determines that “5.” is the section number. Therefore, as indicated by reference numeral 403 in the layout analysis result of FIG. 4, “sentence (section) number =“ 5 ”, title =“ furniture A ””.

すなわち、本実施の形態において、CPU101は、レイアウト解析によってブロック分割を行う。その結果として、ある領域中に「数字」,「1行程度の文字列」の記述を認識した場合、その認識された記述が前の領域(上側の領域)から所定距離以上離れて配置されているか否かを判断する。そして。所定距離以上離れて配置されていると判断した場合、CPU101は「数字」を文章(セクション)番号とみなし、「1行程度の文字列」をタイトルと判断する。なお、「数字」,「1行程度の文字列」の字体(フォント)が他の領域のものと異なっている場合や、文字サイズが他の領域のものより大きい場合に、セクション番号、或いはタイトルと推定するようにしてもよい。   That is, in the present embodiment, the CPU 101 performs block division by layout analysis. As a result, when a description of “number” and “character string of about one line” is recognized in a certain area, the recognized description is arranged at a predetermined distance or more away from the previous area (upper area). Determine whether or not. And then. If it is determined that they are arranged at a predetermined distance or more, the CPU 101 regards “number” as a sentence (section) number and determines “a character string of about one line” as a title. Note that the section number or title when the font (font) of “number” and “character string of about one line” is different from those of other areas, or when the character size is larger than those of other areas. May be estimated.

また、図2の文書データにおいて、「商品No.100 家具A」という比較的短い文字列は、全体図表領域の最下行に孤立状態で記載されている。また、全体図表領域の他の3個の文字列「側面図」、「脚部の拡大図」、「全体図」は、3個の図とそれぞれ1対1に対応する形で図の真下に記載されている。従って、「商品No.100 家具A」という文字列は、全体図表領域(図表領域全体)のキャプションであり、他の3個の文字列は、その真上の図のキャプション(この場合はサブキャプション)であると推定できる。従って、図4のレイアウト解析結果では、符号405〜408に示したように、これらの文字列をキャプションとしている。   Further, in the document data of FIG. 2, a relatively short character string “product No. 100 furniture A” is described in an isolated state on the bottom line of the entire chart area. In addition, the other three character strings “side view”, “enlarged view of leg”, and “overall view” in the entire chart area are directly below the figure in a one-to-one correspondence with the three figures. Are listed. Therefore, the character string “product No. 100 furniture A” is the caption of the entire chart area (the entire chart area), and the other three character strings are the captions of the figure immediately above (in this case, the sub-captions). ). Therefore, in the layout analysis result of FIG. 4, as indicated by reference numerals 405 to 408, these character strings are used as captions.

すなわち、全体図表領域では、次のようにしてキャプションを登録する。まず、CPU101は、文書データのレイアウト解析を行い、ブロック分割処理を実行する。そして、上述したとおり、CPU101は、認識されたある図表要素(205,207,209)の領域に最も近傍する文字列(206,208,210)をその図表要素のキャプションとして当該図表要素と関連付けて外部記憶装置105に登録する。   That is, in the entire chart area, captions are registered as follows. First, the CPU 101 performs layout analysis of document data and executes block division processing. As described above, the CPU 101 associates the character string (206, 208, 210) closest to the recognized area of the chart element (205, 207, 209) with the chart element as the caption of the chart element. Register in the external storage device 105.

そして、CPU101は、或る図表要素の領域の上下左右の領域端から所定距離以内に他の図表要素の領域が存在するか否かを判断する。他の図表要素の領域が存在する場合、CPU101は、それらの領域が包含される領域全体を全体図表領域として外部記憶装置105に登録する。   Then, the CPU 101 determines whether another chart element area exists within a predetermined distance from the top, bottom, left, and right area edges of a certain chart element area. When other chart element areas exist, the CPU 101 registers the entire area including these areas in the external storage device 105 as an entire chart area.

さらに、CPU101は、全体図表領域から所定距離以内に図表要素に関連付けられていない1〜2行程度の文字列の領域が存在するか否かを判断する。このような文字列(211)の領域が存在する場合、CPU101は、その文字列を全体図表領域のキャプションとして外部記憶装置105に登録する。   Further, the CPU 101 determines whether or not there is a character string area of about 1 to 2 lines not associated with the chart element within a predetermined distance from the entire chart area. When such a character string (211) area exists, the CPU 101 registers the character string in the external storage device 105 as a caption of the entire chart area.

このように、第1の実施の形態では、レイアウト解析を行い、そのレイアウト解析によりテキスト情報(キャプション)と非テキスト情報(図表)を識別し、これらの位置関係等に基づいてキャプションと図表との対応関係、キャプション同士の関係等を認定している。   As described above, in the first embodiment, layout analysis is performed, text information (caption) and non-text information (chart) are identified by the layout analysis, and the caption and the chart are determined based on their positional relationship and the like. Correspondences, relationships between captions, etc. are certified.

なお、レイアウト解析を行なった後、或いはレイアウト解析と並行して、図表等の非テキスト情報それ自体の構造、属性等の特徴を解析して、当該非テキスト情報要素を検索するための検索用メタデータを抽出することも可能である。例えば、円グラフ、図面等それ自体の中に記述されている文字列を探索する。そして、その文字列を当該円グラフ、図面等の周辺の文字ブロックの中から探索し、その文字列を含む文章を解析して当該円グラフ、図面等の特徴、属性等を認識する。解析された文章の一部の文字列等を当該円グラフ、図面等の検索用メタデータとして抽出するように構成してもよい。   In addition, after performing the layout analysis or in parallel with the layout analysis, the meta data for search for searching for the non-text information element by analyzing the characteristics such as the structure and attributes of the non-text information itself such as a chart or the like. It is also possible to extract data. For example, a character string described in itself such as a pie chart or a drawing is searched. Then, the character string is searched from the surrounding character blocks such as the pie graph and the drawing, and the sentence including the character string is analyzed to recognize the features, attributes, and the like of the pie graph and the drawing. You may comprise so that the character string etc. of a part of analyzed sentence may be extracted as search metadata, such as the said pie chart and drawing.

次に、文書データ中の個別図表領域群によって構成される全体図表領域、及び個別図表領域を構成する図表要素(個別の図表、画像情報)を検索するための検索用メタデータを抽出・登録する処理を、図5のフローチャートに基づいて説明する。なお、この検索用メタデータの抽出・登録処理を行うに先立って、前述のレイアウト解析処理、外部記憶装置105への図表要素、キャプション等の登録処理がなされているものとする。   Next, search metadata for searching the entire chart area constituted by the individual chart area group in the document data and chart elements (individual chart, image information) constituting the individual chart area are extracted and registered. The processing will be described based on the flowchart of FIG. It is assumed that, prior to performing the search metadata extraction / registration process, the above-described layout analysis process, registration process of chart elements, captions, and the like to the external storage device 105 are performed.

まず、CPU101は、文書データのレイアウトの解析結果に基づいて、1つの全体図表領域を外部記憶装置105から取得する(ステップS501)。ここでは、図2の1ページ分の文書データがレイアウト解析された結果、図4に示すように、図2の下半分の全体図表領域が取得されたものとして説明する。   First, the CPU 101 acquires one entire chart area from the external storage device 105 based on the analysis result of the document data layout (step S501). Here, it is assumed that the entire chart area in the lower half of FIG. 2 has been acquired as shown in FIG. 4 as a result of the layout analysis of the document data for one page of FIG.

次に、CPU101は、取得した全体図表領域のキャプション情報を抽出する(ステップS502)。ここで、CPU101は、全体図表領域の近傍にあってサブキャプション情報として登録されていない1〜2行程度のテキスト情報を全体図表領域のキャプション情報と判断する。図2,4では、図2の「商品No.100 家具A」211という文字列が、全体図表領域のキャプション情報として抽出される。   Next, the CPU 101 extracts caption information of the acquired entire chart area (step S502). Here, the CPU 101 determines that the text information of about 1 to 2 lines that are not registered as sub caption information in the vicinity of the entire chart area is the caption information of the entire chart area. 2 and 4, the character string “product No. 100 furniture A” 211 in FIG. 2 is extracted as caption information of the entire chart area.

次に、CPU101は、ステップS501で抽出した全体図表領域、及びステップS502で抽出したキャプション情報について、強調表現がなされている場合には、その強調表現を示す強調情報を抽出する(ステップS503)。なお、図2の下半分の全体図表領域、その全体図表領域のキャプション情報については、強調表現がなされていないので、ステップS503では、強調情報が抽出されることはない。   Next, the CPU 101 extracts the emphasis information indicating the emphasis expression when the entire chart area extracted in step S501 and the caption information extracted in step S502 are emphasizing (step S503). Note that the lower half of the entire chart area in FIG. 2 and the caption information of the entire chart area are not emphasized, so that the highlight information is not extracted in step S503.

ここで、強調表現の形態としては、特殊な種類の文字(フォント)、文字サイズ、文字修飾、文字の色や文字の背景の色など、文字や領域それ自体に対する強調表現の他に、囲み枠、矢印などの記号により間接的に強調表現する形態が含まれる。   Here, as a form of emphasis expression, a special type of character (font), character size, character modification, character color and character background color, etc., in addition to emphasis expression for the character or area itself, an enclosing frame In addition, a form that is indirectly emphasized by a symbol such as an arrow is included.

そして、CPU101は、抽出した全体図表領域のキャプション情報を、当該全体図表領域を検索するための検索用メタデータとして外部記憶装置105に登録する(ステップS504)。この場合、ステップS503で強調情報を抽出した場合は、その強調情報もキャプション情報と対応付けて外部記憶装置105に登録する。   Then, the CPU 101 registers the extracted caption information of the entire chart area in the external storage device 105 as search metadata for searching the entire chart area (step S504). In this case, when the enhancement information is extracted in step S503, the enhancement information is also registered in the external storage device 105 in association with the caption information.

ここで、登録する強調情報は、文書データ中で強調表現されたオリジナルの強調表現の形態そのままの情報であってもよい。しかし、メモリ容量の低減化を図るべく、例えば「太字」、「赤色」、「太枠」、「強調枠」等、強調表現の種別を示す情報を強調情報として登録するのが望ましい(後述のステップS511も同様)。更には、後述するように、強調の種別を示すことなく、全ての強調の種別に対して単に「強調」という文字を登録することも可能である。   Here, the registered emphasis information may be information as it is in the form of the original emphasis expression emphasized in the document data. However, in order to reduce the memory capacity, it is desirable to register information indicating the type of emphasis expression as emphasis information such as “bold”, “red”, “thick frame”, “emphasis frame”, etc. (described later). The same applies to step S511). Furthermore, as will be described later, it is also possible to register the word “emphasis” for all the emphasis types without indicating the emphasis type.

なお、強調表現は、一般に、重要度が高く検索対象となる頻度も高い部分に対してなされるものである。   Note that the emphasis expression is generally made for a portion having high importance and high frequency of search.

次に、CPU101は、ステップS501で取得した全体図表領域中の全ての個別の図表領域に対する後述のステップS506〜510の処理が完了したか否かを判別する(ステップS505)。その結果、全ての個別の図表領域に対する後述のステップS505〜510の処理が完了した場合は、CPU101は、本キャプション情報等の登録処理を終了する。   Next, the CPU 101 determines whether or not the processing in steps S506 to S510 described later has been completed for all individual chart areas in the entire chart area acquired in step S501 (step S505). As a result, when the processing of steps S505 to S510, which will be described later, is completed for all individual chart regions, the CPU 101 ends the registration processing of the caption information and the like.

一方、全ての個別の図表領域に対する後述のステップS506〜510の処理が未だ完了していない場合は、CPU101は、当該処理を未だ行っていない個別の図表領域を1つだけ取り出して、その個別の図表領域の図表要素のキャプション(サブキャプション)情報を抽出する(ステップS506)。   On the other hand, if the processing in steps S506 to S510 described below for all the individual chart regions has not yet been completed, the CPU 101 takes out only one individual chart region that has not yet been subjected to the process, and The caption (subcaption) information of the chart element in the chart area is extracted (step S506).

なお、図2の例では、個別の図表要素として図表要素205,207,209が存在し、それらのサブキャプション情報として、符号206で示した「側面図」、符号208で示した「脚部の拡大図」、符号210で示した「全体図」が存在する。このうち、「脚部の拡大図」というサブキャプションについては、「脚部」という文字列の文字サイズが他の文字列の文字サイズより大きくなっており、強調表現されている。また、符号207で示した個別の図表要素については、他の個別の図表要素よりも太い枠線で囲まれており、強調表現されている。   In the example of FIG. 2, there are chart elements 205, 207, and 209 as individual chart elements, and as sub-caption information thereof, “side view” denoted by reference numeral 206, “leg part” denoted by reference numeral 208. “Enlarged view”, “overall view” indicated by reference numeral 210 exists. Among these, the sub-title “enlarged view of the leg” is emphasized because the character size of the character string “leg” is larger than the character size of the other character strings. Further, the individual chart element indicated by reference numeral 207 is surrounded by a thicker frame line than other individual chart elements and is emphasized.

次に、CPU101は、ステップS506で取得した個別の図表領域、又はそのサブキャプション情報について、強調表現がなされている場合には、その強調表現を示す強調情報を抽出する(ステップS507)。   Next, if the emphasized expression is made for the individual chart area acquired in step S506 or the subcaption information, the CPU 101 extracts the emphasized information indicating the emphasized expression (step S507).

ここで、前述のように、図2に示した個別の図表領域205,209、それら図表領域のキャプション情報206,210については、強調表現がなされていないので、ステップS506でこれら個別の図表領域205,209、そのサブキャプションを取得した場合は、ステップS507では、強調情報が抽出されることはない。一方、図2に示した個別の図表領域207、その図表領域207のキャプション情報208については、前述のように強調表現がなされている。従って、ステップS506で個別の図表要素207とそのキャプション情報208を取得した場合は、CPU101は、ステップS507で、その強調表現を示す強調情報を抽出する。   Here, as described above, the individual chart areas 205 and 209 shown in FIG. 2 and the caption information 206 and 210 of these chart areas are not emphasized, and therefore, in step S506, the individual chart areas 205 and 209 are not highlighted. , 209 and the sub-caption are acquired, the enhancement information is not extracted in step S507. On the other hand, the individual chart area 207 shown in FIG. 2 and the caption information 208 of the chart area 207 are emphasized as described above. Therefore, when the individual chart element 207 and its caption information 208 are acquired in step S506, the CPU 101 extracts the emphasis information indicating the emphasis expression in step S507.

次に、CPU101は、ステップS506で取得した個別の図表要素のステップS501で取得した全体図表領域に対する役割、関係を推定する(ステップS508)。この推定処理では、レイアウト解析しか行わない場合には、例えば、当該全体図表領域における当該個別の図表要素の位置、占有面積などの関係から、当該個別の図表要素が当該全体図表領域の一部であるものと推定することができる。   Next, the CPU 101 estimates the role and relationship of the individual chart element acquired in step S506 with respect to the entire chart area acquired in step S501 (step S508). In this estimation process, when only layout analysis is performed, for example, the individual chart element is a part of the whole chart area based on the relationship between the position and the occupied area of the individual chart element in the whole chart area. It can be estimated that there is.

なお、論理的な解析まで行うことにより、より正確な個別の図表要素間の関係や役割、全体図表領域と個別の図表要素の関係や役割を把握して、個別の図表要素の全体図表用領域に対するより正確な役割、関係を推定するようにしてもよい。   By conducting a logical analysis, it is possible to grasp the more accurate relationship and role between individual chart elements and the relationship and role between the entire chart area and individual chart elements, and the entire chart area for each chart element. You may make it estimate the more exact role and relationship with respect to.

次に、CPU101は、ステップS506で抽出した個別の図表要素のサブキャプションのステップS502で取得した全体図表領域のキャプションに対する役割、関係を解析する(ステップS509)。ここでは、例えば、全体図表領域のキャプションである「商品No.100家具」と個別の図表要素205のサブキャプションである「側面図」の関係が、自然言語の単語間の一番簡単な関係である修飾関係にあることが解析される。   Next, the CPU 101 analyzes the role and relationship with respect to the caption of the entire chart area acquired in step S502 of the sub-caption of the individual chart element extracted in step S506 (step S509). Here, for example, the relationship between “Product No. 100 furniture” which is the caption of the entire chart area and “Side view” which is a sub caption of the individual chart element 205 is the simplest relationship between words in natural language. It is analyzed that there is a certain modification relationship.

次に、CPU101は、当該全体図表領域のキャプションと当該個別の図表要素のサブキャプションとの関係等の特徴情報を、当該図表要素を検索するための検索用メタデータとして外部記憶装置105等の記憶媒体に登録する(ステップS510)。   Next, the CPU 101 stores the feature information such as the relationship between the caption of the entire chart area and the sub-caption of the individual chart element as search metadata for retrieving the chart element in the external storage device 105 or the like. Registration in the medium (step S510).

すなわち、CPU101は、キャプションとサブキャプションが修飾関係にある旨の情報も登録する。さらに、CPU101は、検索用メタデータと、その検索用メタデータで検索されるべき図表要素、及びキャプション(サブキャプションを含む)とを関連付けて外部記憶装置105に登録する。更に、CPU101は、ステップS507で強調情報を抽出した場合は、その強調情報もサブキャプション情報と対応付けて外部記憶装置105に登録する。   That is, the CPU 101 also registers information indicating that the caption and the sub-caption are in a modification relationship. Further, the CPU 101 associates and registers the search metadata, the chart elements to be searched with the search metadata, and captions (including sub-captions) in the external storage device 105. Further, when the CPU 101 extracts the highlight information in step S507, the CPU 101 registers the highlight information in the external storage device 105 in association with the sub-caption information.

そして、CPU101は、ステップS505に戻ることにより、ステップS506〜510の処理を施していない個別の図表要素が残っている場合には、その個別の図表要素についてステップS506〜510の処理を行なう。なお、図5の登録処理は、文書の各ページの各全体図表領域(個別の図表要素)に対して実行される。   When the CPU 101 returns to step S505 and there remains an individual chart element that has not been subjected to the processes of steps S506 to 510, the CPU 101 performs the processes of steps S506 to 510 on the individual chart elements. The registration process of FIG. 5 is executed for each entire chart area (individual chart element) of each page of the document.

図6は、CPU101が図2の文書データに対してレイアウト解析を行い、図4のレイアウト解析結果を得た後、図5の検索用メタデータの登録処理を行なったときの概念図である。番号601が全体図表領域とそのキャプションを示している。また、番号602〜604は、個別の図表要素とそのキャプション(サブキャプション)を示している。   FIG. 6 is a conceptual diagram when the CPU 101 performs layout analysis on the document data of FIG. 2 and obtains the layout analysis result of FIG. 4, and then performs the search metadata registration processing of FIG. Reference numeral 601 indicates the entire chart area and its caption. Reference numerals 602 to 604 indicate individual chart elements and their captions (subcaptions).

図6に示したように、図2の文書データの全体図表領域を検索するための検索用メタデータとしては、当該文書データ中の全てのキャプション、サブキャプションである「商品No.100 家具A」、「側面図」、「脚部の拡大図」、「全体図」が登録されている。また、図2の文書データの個別の図表要素205を検索するための検索用メタデータとしては、図2の文書データの全体図表領域のキャプション「商品No.100家具A」と共に、図表要素205のサブキャプションである「側面図」が登録されている。また、キャプション「商品No.100家具A」とサブキャプション「側面図」は、「修飾」の関係にあることも登録されている。   As shown in FIG. 6, as the search metadata for searching the entire chart area of the document data in FIG. 2, “Product No. 100 Furniture A” which is all captions and sub-captions in the document data. , “Side view”, “enlarged view of the leg”, and “overall view” are registered. Further, as search metadata for searching the individual chart element 205 of the document data of FIG. 2, the caption “Product No. 100 Furniture A” of the entire chart area of the document data of FIG. A sub-caption “side view” is registered. In addition, it is registered that the caption “product No. 100 furniture A” and the sub caption “side view” have a relationship of “modification”.

また、図2の文書データの図表要素207を検索するための検索用メタデータとしては、図2の文書データのキャプション「商品No.100 家具A」と共に、図表要素207のサブキャプションである「脚部の拡大図」が登録されている。また、キャプション「商品No.100家具A」とサブキャプション「脚部の拡大図」は、「修飾」の関係にあることも登録されている。   Further, as search metadata for searching the chart element 207 of the document data in FIG. 2, the caption “Product No. 100 Furniture A” in FIG. 2 and the sub-caption “leg” of the chart element 207 are included. Part enlarged view "is registered. In addition, it is registered that the caption “product No. 100 furniture A” and the sub-caption “enlarged view of the leg portion” have a relationship of “modification”.

更に、サブキャプション「脚部の拡大図」中の文字列「脚部」の文字サイズが他の文字列「の拡大」等より大きく、「脚部」が強調表現されているので、その旨の強調情報(強調)が当該サブキャプションを構成する単語「脚部」に付加されている。また、個別の図表要素である脚部の拡大図それ自体は、太い枠線で囲まれて、当該脚部の拡大図が強調表現されているので、当該「脚部の拡大図」というサブキャプション全体に対してその旨の強調情報(強調)が付加されている。この検索用メタデータに付加された強調情報は、後述するように、文書データ中の所望の図表を的確かつ迅速に検索するために利用される。   Furthermore, the character size of the character string “leg” in the sub-caption “enlarged view of the leg” is larger than other character strings “expansion” etc., and “leg” is emphasized. Emphasis information (emphasis) is added to the word “leg” constituting the subcaption. Also, the enlarged view of the leg itself, which is an individual chart element, is surrounded by a thick frame line, and the enlarged view of the leg is emphasized. Emphasis information (emphasis) to that effect is added to the whole. The emphasis information added to the search metadata is used to accurately and quickly search a desired chart in document data, as will be described later.

同様に、図2の文書データの図表要素209を検索するための検索用メタデータとしては、図2の文書データのキャプション「商品No.100家具A」と共に、図表要素209のサブキャプションである「全体図」が登録されている。また、キャプション「商品No.100 家具A」とサブキャプション「全体図」は、「修飾」の関係にあることも登録されている。   Similarly, as search metadata for searching the chart element 209 of the document data of FIG. 2, the caption “Product No. 100 Furniture A” of the document data of FIG. "Overall view" is registered. In addition, it is registered that the caption “product No. 100 furniture A” and the sub-caption “overall view” have a relationship of “modification”.

なお、例えば、『商品No.100 家具A―(修飾)―側面図』という検索用メタデータと、『商品No.100 家具A―(修飾)―全体図』という検索用メタデータとは、間接的に、「側面図」と「全体図」との間に関係があることを示している。従って、個々の非テキスト情報同士の関係、すなわちサブキャプション同士の関係を検索用メタデータとして用いることも可能である。   For example, “Product No. 100 “Furniture A— (Modification) —Side view” metadata and “Product No. The search metadata “100 furniture A- (modification) -overall view” indirectly indicates that there is a relationship between the “side view” and the “overall view”. Accordingly, the relationship between individual non-text information, that is, the relationship between sub-captions can be used as search metadata.

次に、検索処理について説明する。文書データ中の図表等の非テキスト情報を検索する場合は、ユーザにより入力された検索条件としての文字列と類似する検索用メタデータが用いられる。   Next, the search process will be described. When searching non-text information such as charts in document data, search metadata similar to a character string as a search condition input by a user is used.

例えば、検索条件として「イスAの脚部図」という文字列が入力されたものとする。なお、上記の検索条件としての文字列のうち、「イスA」は、肉太の文字列として入力されたものとする。この場合、CPU101は、図7に示したように、検索条件である「イスAの脚部図」という文字列を形態素解析して単語に分解し、その単語の品詞や分類別に検索指示情報としての重要度を決める。   For example, it is assumed that the character string “legs of chair A” is input as a search condition. Of the character string as the search condition, “chair A” is input as a thick character string. In this case, as shown in FIG. 7, the CPU 101 morphologically analyzes the character string “legs of chair A”, which is a search condition, and breaks it down into words, and as search instruction information for each part of speech and classification of the word. Determine the importance of.

この際、「イスA」は、肉太の文字列として入力されているので、CPU101は、この「イスA」については、検索指示情報としての重要度を高めに設定する。すなわち、図7に示したように、肉太でない通常の形態の文字列で入力された名詞「脚部」、接尾語「図」の重要度としては「80」が設定されている。これに対し、肉太の形態の文字列で入力された名詞「イス」の重要度としては、通常形態の「80」より高い「90」が設定されている。また、肉太の形態の文字列で入力された名詞のうち、固有名詞「A」の重要度は、更に高い「100」が設定されている。なお、助詞「の」の重要度としては、「0」が設定されている。   At this time, since “chair A” is input as a thick character string, the CPU 101 sets the importance of the “chair A” as high as search instruction information. That is, as shown in FIG. 7, “80” is set as the importance of the noun “leg part” and the suffix “figure” input in the normal character string that is not thick. On the other hand, “90”, which is higher than “80” in the normal form, is set as the importance of the noun “chair” input in the character string in the form of meat. In addition, among the nouns input in the character string in the form of flesh, “100” is set as the importance level of the proper noun “A”. Note that “0” is set as the importance of the particle “no”.

また、CPU101は、「A」と「脚部」の間に修飾関係が存在することを認定する。
さらに、図示省略したが、CPU101は、検索用メタデータについても、検索条件と同様に重要度を決定する。この場合の重要度の決定方法は、検索条件の場合と同様の方法を用いることができる。
In addition, the CPU 101 recognizes that there is a modification relationship between “A” and “leg”.
Further, although not shown in the drawing, the CPU 101 determines the importance of the search metadata as well as the search condition. As a method for determining the importance in this case, the same method as in the search condition can be used.

そして、CPU101は、検索条件と検索用メタデータの重要度を用いて、両者の類似度を評価する。   Then, the CPU 101 evaluates the similarity between the search condition and the importance of the search metadata.

すなわち、CPU101は、検索条件に係る単語と意味が似ている単語を含む検索用メタデータを探し、それら単語同士の意味の類似度を検索条件と当該検索用メタデータの類似度とする。また、CPU101は、検索条件に係る単語と意味が類似する単語を検索用メタデータが多く含むほど、その検索用メタデータの検索条件に対する類似度を高く評価する。   That is, the CPU 101 searches for search metadata including a word whose meaning is similar to that of the word related to the search condition, and sets the similarity in meaning between the words as the similarity between the search condition and the search metadata. In addition, the more the search metadata includes words similar in meaning to the words related to the search condition, the higher the degree of similarity of the search metadata with respect to the search condition.

さらに、CPU101は、検索条件中の類似に係る単語同士の修飾関係と、検索用メタデータ中の類似に係る単語同士の修飾関係とが類似している場合は、その検索用メタデータの検索条件に対する類似度をより一層高く評価する。   Further, when the modification relationship between similar words in the search condition is similar to the modification relationship between similar words in the search metadata, the CPU 101 determines the search condition of the search metadata. The similarity to is evaluated even higher.

なお、上記のように、検索条件、及び検索用メタデータにおいて、強調表現に係る単語等には高い重要度が設定される。従って、検索条件と検索用メタデータを比較して両者の類似度を評価する場合、意味が同一又は類似の単語について、検索条件、又は検索用メタデータの何れか一方が強調表現されているときは、通常よりも類似度が高く評価される。また、意味が同一又は類似の単語について、検索条件と検索用メタデータの双方で強調表現されているときは、より一層、類似度が高く評価される。   As described above, in the search condition and the search metadata, high importance is set for the word related to the emphasized expression. Therefore, when evaluating the similarity between the search condition and the search metadata, when either the search condition or the search metadata is highlighted for words having the same or similar meaning Is evaluated with higher similarity than usual. Further, when words having the same or similar meaning are emphasized in both the search condition and the search metadata, the degree of similarity is evaluated even higher.

そして、CPU101は、検索条件と類似する検索用メタデータと関連付けられた図表等の非テキスト情報を、検索結果として表示器106に表示する。この場合、CPU101は、検索条件との類似度が高く評価された検索用メタデータの順に検索処理を行なうと共に、その検索順に、当該検索用メタデータに関連付けられた非テキスト情報を配列して表示器106に表示させる。   Then, the CPU 101 displays non-text information such as a chart associated with the search metadata similar to the search condition on the display unit 106 as a search result. In this case, the CPU 101 performs search processing in the order of search metadata that is highly evaluated for similarity to the search condition, and arranges and displays non-text information associated with the search metadata in the search order. Display on the device 106.

例えば、上記の「イスAの脚部図(イスAは肉太で強調)」を検索条件とした場合、この検索条件に対する図2の非テキスト情報の類似度の順番は、図6に示す番号603,601,603,604の順番となり、この順番に検索結果として表示される。   For example, in the case where the above-mentioned “leg view of chair A (chassis A is emphasized with thick meat)” is used as a search condition, the similarity order of the non-text information in FIG. 2 with respect to this search condition is the number shown in FIG. The order is 603, 601, 603, and 604, and the search results are displayed in this order.

また、「商品No.家具A」を検索条件とした場合、最も評価の高い非テキスト情報は、番号601となり、続いて番号602〜604が同じ類似度となる。従って、検索結果として番号601が先頭に表示され、番号602〜604が順不同に表示される。   Further, when “product No. furniture A” is used as a search condition, the non-text information with the highest evaluation is number 601, and subsequently, numbers 602 to 604 have the same similarity. Accordingly, the number 601 is displayed at the top as the search result, and the numbers 602 to 604 are displayed in random order.

以上説明したように、非テキスト情報の領域と個別の非テキスト情報との関係を加味した検索用データを用いて非テキスト情報の領域、個別の非テキスト情報を検索できるので、文書中の所望の非テキスト情報の領域、個別の非テキスト情報を高精度に検索することが可能となる。   As described above, the non-text information area and the individual non-text information can be searched using the search data that takes into account the relationship between the non-text information area and the individual non-text information. The non-text information area and the individual non-text information can be searched with high accuracy.

また、強調表現された検索条件、検索用メタデータについては、類似度評価に用いる重要度を高く設定するので、重要な非テキスト情報を簡単、かつ迅速に検索することが可能となる。   Moreover, since the importance used for similarity evaluation is set high for the highlighted search conditions and search metadata, it is possible to easily and quickly search for important non-text information.

なお、非テキスト情報を検索するための検索用メタデータは、当該非テキスト情報が属する領域だけでなく、その近傍のテキスト領域から抽出することも可能である。また、レイアウト解析だけでなく、キャプションの形態素解析、非テキスト情報の構造や関係の論理的な解析を行なうことにより、より詳細な検索用データの関係を得ることも可能である。この場合は、より一層、高精度に非テキスト情報等を高精度に検索できるようになる。   Note that the search metadata for searching for non-text information can be extracted not only from the area to which the non-text information belongs, but also from a text area in the vicinity thereof. Further, not only layout analysis but also morphological analysis of captions and logical analysis of the structure and relationship of non-text information can provide more detailed search data relationships. In this case, non-text information and the like can be searched with higher accuracy with higher accuracy.

次に、実際の検索画面を図8に基づいて説明する。ユーザが入力部104の操作により文書検索処理を指示すると、CPU101は、図8に示した文書検索ウィンドウ801を表示器106の画面上に表示させる。   Next, an actual search screen will be described with reference to FIG. When the user instructs a document search process by operating the input unit 104, the CPU 101 displays a document search window 801 shown in FIG. 8 on the screen of the display unit 106.

この文書検索ウィンドウ801には、タイトルバー802が形成されている。このタイトルバー801には、当該ウィンドウのタイトルとして「文書検索」が表示されている。   A title bar 802 is formed in the document search window 801. In the title bar 801, “document search” is displayed as the title of the window.

また、文書検索ウィンドウ801には、検索用のウィンドウ803が形成され、このウィンドウ803には、検索条件を入力するための検索条件入力ボックス804と、検索結果を表示するための検索結果表示ボックス805が形成されている。   In addition, a search window 803 is formed in the document search window 801. In this window 803, a search condition input box 804 for inputting search conditions and a search result display box 805 for displaying search results are displayed. Is formed.

検索条件入力ボックス804には、単純な単語だけでなく、単語間、又は文節間の関係情報を持つ自然言語における文章などの形式で、検索条件を入力することができる。図8の例では、検索条件入力ボックス804には、「イスAの脚部図」という文字列が、検索条件として表示されている。また、「イスA」という文字列は、肉太の文字列で強調されている。このような検索条件入力ボックス804に対する検索条件の入力は、図1の入力部104等を用いて行なうことができる。   In the search condition input box 804, the search condition can be input in a format such as a sentence in a natural language having relationship information between words or phrases as well as simple words. In the example of FIG. 8, the search condition input box 804 displays the character string “legs of chair A” as the search condition. Further, the character string “chair A” is emphasized by a thick character string. Such a search condition can be input to the search condition input box 804 using the input unit 104 shown in FIG.

まず、ユーザは、検索条件入力ボックス804に検索条件を入力した状態で所定のボタンを操作する。すると、CPU101は、その入力操作の検出に応じて、入力に係る検索条件と類似性のある検索用メタデータを外部記憶装置105上で検索する。そして、CPU101は、この検索用メタデータに関連付けられた非テキスト情報の領域である全体図表領域、非テキスト情報である個々の図表要素等を読出して、検索結果として検索結果表示ボックス805に表示する。この際、CPU101は、検索結果表示ボックス805には、検索結果(図8の符号806,808,809参照)を類似度の高い順に表示するだけでなく、検索結果の検索用メタデータと関係性のあるメタデータを選択可能に表示する。   First, the user operates a predetermined button with the search condition input in the search condition input box 804. Then, in response to the detection of the input operation, the CPU 101 searches the external storage device 105 for search metadata similar to the search condition related to the input. Then, the CPU 101 reads the entire chart area, which is a non-text information area associated with the search metadata, and individual chart elements, etc., which are non-text information, and displays them in the search result display box 805 as search results. . At this time, the CPU 101 not only displays the search results (see reference numerals 806, 808, and 809 in FIG. 8) in the search result display box 805 in descending order of similarity, but also relates to the search result search metadata. Display metadata with selectability.

すなわち、検索条件が「イスAの脚部図(イスAは肉太で強調)」の場合、この検索条件の文字列の中で、「脚部図」という文字列と全く同一の文字列が、図6に示したように、番号603に係る検索用メタデータ「商品No.100家具A−(修飾)―“”脚部“<強調>の拡大図”<強調>」の中に含まれている。さらに、この番号603に係る検索用メタデータには、上記のように、検索条件の文字列の中の「A」という文字も含まれている。   In other words, when the search condition is “a leg diagram of chair A (chassis A is thick and emphasized)”, a character string exactly the same as the character string “leg figure” is included in the character string of this search condition. As shown in FIG. 6, the search metadata “Product No. 100 Furniture A— (Modification) —“ Expanded view of “leg part” <emphasis> ”<emphasis>” related to number 603 is included. ing. Further, the search metadata associated with the number 603 includes the character “A” in the character string of the search condition as described above.

しかも、「A」は、検索条件、及び検索用メタデータの双方において強調表現されている。また、「脚部」は、検索用メタデータにおいて、大きな文字サイズの形態で強調表現されている。   Moreover, “A” is highlighted in both the search condition and the search metadata. In addition, the “leg” is highlighted in a large character size form in the search metadata.

従って、CPU101は、検索条件との類似性が一番高い検索用メタデータは、「商品No.100家具A−(修飾)―“”脚部“<強調>の拡大図”<強調>」であると認定する。そして、CPU101は、検索用メタデータと関連付けられた「脚部の拡大図」(図2の図面207)を、検索結果806として検索結果表示ボックス805の1番上に表示する。   Therefore, the CPU 101 determines that the search metadata having the highest similarity to the search condition is “product No. 100 furniture A- (modification)-“ enlarged view of “legs” <emphasis> ”<emphasis>”. Acknowledge that there is. Then, the CPU 101 displays the “enlarged view of the leg” (the drawing 207 in FIG. 2) associated with the search metadata as the search result 806 on the top of the search result display box 805.

また、この検索結果806の検索用メタデータ「脚部の拡大図」には、上記のように、「商品No.100家具A」という検索用メタデータと「修飾」の関係性がある旨の情報が付与されている。そこで、CPU101は、検索結果806に対して、「商品No.100家具A(図全体)」という検索用メタデータを、該当部分のビュー選択として表示器106の画面上に表示させている(図8の符号807参照)。   Further, as described above, the search metadata “enlarged view of the leg” in the search result 806 has a relationship between the search metadata “product No. 100 furniture A” and “modification”. Information is given. Therefore, the CPU 101 displays the search metadata “product No. 100 furniture A (whole figure)” on the screen of the display unit 106 as a view selection of the corresponding part in the search result 806 (see FIG. 8 807).

また、該当部分のビュー選択として表示した検索用メタデータには、「○」印で示したチェックボックスが配備されている。このチェックボックスにチェックマークを入れて所定のボタンを操作すると、CPU101は、このチェックボックスに対応する検索用メタデータに関連付けられた情報を、検索結果として現在表示されている検索結果に代えて表示する。   In addition, a check box indicated by a mark “◯” is provided in the search metadata displayed as the view selection of the corresponding part. When a check mark is entered in this check box and a predetermined button is operated, the CPU 101 displays information associated with the search metadata corresponding to this check box instead of the search result currently displayed as the search result. To do.

例えば、ユーザは、符号807の「商品No.100家具A(図全体)」に対応するチェックボックスにチェックマークを入れて当該図表領域全体を選択し、所定のボタンを操作して当該選択を確定したとする。この操作に応じてCPU101が検索結果を表示処理すると、検索結果806の表示エリアの表示内容は、「脚部の拡大図」から「家具Aの図全体」に変化する。このように、現在表示中の検索結果と関係のある他の情報簡単に表示させることができるので、所望の情報を的確に検索して再利用することが可能となる。   For example, the user puts a check mark in a check box corresponding to “Product No. 100 Furniture A (whole figure)” denoted by reference numeral 807, selects the entire chart area, and confirms the selection by operating a predetermined button. Suppose that When the CPU 101 displays the search result in response to this operation, the display content of the display area of the search result 806 changes from “enlarged view of the leg” to “entire figure of furniture A”. In this manner, other information related to the currently displayed search result can be easily displayed, so that desired information can be accurately searched and reused.

図8では、「○」印の中の黒色がチェックマークを示している。このチェックマークは、検索結果を最初に表示する場合は、その検索結果に係る検索用メタデータに対してデフォルトで入れられている。   In FIG. 8, black in the “◯” mark indicates a check mark. This check mark is set by default for the search metadata related to the search result when the search result is displayed first.

CPU101は、最初に表示器106に検索結果を表示させる場合は、検索条件に係る文字列(言語表現)と類似度の高かった検索用メタデータの順に、当該検索用メタデータと関連付けられた非テキスト情報を検索結果として表示する。ただし、非テキスト情報の領域(図表領域全体)に係る検索用メタデータより高い類似度の検索用メタデータを持つ非テキスト情報(個々の図表要素等)が1つでも存在する場合は、それを包含する非テキスト情報(図表領域全体)は、最初の検索結果としては表示しないように構成されている。   When the CPU 101 first displays the search result on the display unit 106, the CPU 101 associates the search metadata with the search metadata in the descending order of the similarity with the character string (language expression) related to the search condition. Display text information as search results. However, if there is at least one non-text information (such as individual chart elements) having search metadata with a higher degree of similarity than the search metadata for the non-text information area (the entire chart area) The included non-text information (the entire chart area) is configured not to be displayed as the first search result.

その理由は、前述のような最初に検索結果として表示した個々の図表要素に対する該当部分のビュー選択操作により、相対的に低い類似度に係る図表領域全体を漏れなく表示できるからである。これにより、限られた面積の表示画面を有効に利用して1つの表示画面により多くの検索結果を表示することができるので、所望の図表等を迅速に見つけることが可能となって、利便性が向上する。   The reason is that the entire chart area related to the relatively low similarity can be displayed without omission by the view selection operation of the corresponding part for each chart element initially displayed as the search result as described above. As a result, a limited number of display screens can be used effectively to display more search results on a single display screen, which makes it possible to quickly find a desired chart and the like. Will improve.

また、検索条件に対する類似度において、図表要素に係る検索用メタデータの類似度が一番高い場合は、CPU101は、図表要素も最初の検索結果として表示する。この場合、CPU101は、その検索結果(非テキスト情報の領域)に対応するビュー選択に係る検索用メタデータとしては、当該領域内の全ての個々の非テキスト情報の検索用メタデータを表示する。   Further, when the similarity to the search condition is highest in the search metadata related to the chart element, the CPU 101 also displays the chart element as the first search result. In this case, the CPU 101 displays the search metadata of all the individual non-text information in the area as the search metadata related to the view selection corresponding to the search result (non-text information area).

なお、上記の説明では、検索用メタデータの関係性として、図表領域全体と個々の図表要素(全体と部分)のような修飾関係だけを例示しているが、例えば上位概念と下位概念等の他の関係性を利用してもよい。また、所望の検索結果をより一層的確に選択して再利用できるようにするため、表示する各検索用メタデータに対して、検索条件との類似度を付加して表示することも可能である。この場合、一般的には数字で類似度を表示することが考えられるが、一瞥して類似度を認識できるように、グラフ等で類似度を表示することも可能である。   In the above description, only the modification relationship such as the entire chart area and individual chart elements (whole and part) is illustrated as the relationship of the search metadata. Other relationships may be used. Further, in order to select a desired search result more accurately and reuse it, it is also possible to add a similarity to the search condition to each search metadata to be displayed. . In this case, it is generally considered that the similarity is displayed with a number, but it is also possible to display the similarity with a graph or the like so that the similarity can be recognized at a glance.

[第2の実施の形態]
第1の実施の形態では、非テキスト情報が「図面」の場合を例示したが、非テキスト情報が「表」の場合にも、第1の実施の形態とほぼ同様の手法で検索用メタデータの作成処理等を行うことが可能である。この場合は、表それ自体の構造を解析して項目名を認定し、その項目名を検索用メタデータとして、その項目名に係る項目値と関連付けて登録すればよい。また、検索結果を表示する際には、その検索結果に対応する項目名が例えば表の横の列の項目名である場合は、縦の列の項目名と、表全体を上記のビュー選択の検索用メタデータとして表示するように構成すればよい。
[Second Embodiment]
In the first embodiment, the case where the non-text information is “drawing” is exemplified. However, even when the non-text information is “table”, the search metadata is almost the same as the first embodiment. Can be created. In this case, the item name is recognized by analyzing the structure of the table itself, and the item name may be registered as search metadata in association with the item value related to the item name. When the search result is displayed, if the item name corresponding to the search result is, for example, the item name in the horizontal column of the table, the item name in the vertical column and the entire table are selected for the above view selection. What is necessary is just to comprise so that it may display as metadata for search.

なお、表中の項目名は表の構成要素であり、サブキャプション(図表要素の説明)としての性格を有する。この表に対して、表の名称等が付与されていれば、表の名称等がキャプションとして機能する。また、表の場合には、横の列の項目名(構成要素)と縦の列の項目名(構成要素)との関係を検索用メタデータとして用いることにより、1つの項目値を直接検索することができる。   The item names in the table are constituent elements of the table and have a character as a sub-caption (explanation of chart elements). If a table name or the like is given to this table, the table name or the like functions as a caption. In the case of a table, one item value is directly searched by using the relationship between the item name (component) in the horizontal column and the item name (component) in the vertical column as search metadata. be able to.

以下、図9の文書を用いて、表に対する検索用メタデータの作成処理等を説明する。図9に示した1ページ分の文書データ901は、本文902(テキスト情報)、見出し(テキスト情報)903、見出し903に続く文章904の文章を有している。   Hereinafter, a process for creating search metadata for a table will be described with reference to the document of FIG. The document data 901 for one page shown in FIG. 9 has a sentence 904 (text information), a heading (text information) 903, and a sentence 904 following the heading 903.

また、当該ページの下半分には、表905が記載されている。この表905は、表の縦の列の見出し(項目名)906、表の横の列の見出し(項目名)907を有している。この表905は、「商品別年間売上」というキャプション910が示すように、商品別の年間売上を記録したものである。従って、縦の列の見出し906としては年度が記載され、横の列の見出し907としては商品名が記載されている。そして、表905の項目値領域には、各商品の年度別売上げ個数908,909が記録されている。また、当該ページの下方には、符号911で示したページ番号「11」が記載されている。   A table 905 is described in the lower half of the page. The table 905 includes a vertical column heading (item name) 906 and a horizontal column heading (item name) 907. This table 905 records the annual sales by product, as indicated by the caption “910 annual sales by product”. Accordingly, the year is described as the heading 906 in the vertical column, and the product name is described as the heading 907 in the horizontal column. In the item value area of the table 905, sales numbers 908 and 909 of each product for each year are recorded. A page number “11” indicated by reference numeral 911 is described below the page.

このような表905に第1の実施の形態を適用する場合は、表905の見出し906,907を図表要素のキャプション(サブキャプション)と同様に扱えばよい。また、表905の外部の下側に記載された文字列「商品別年間売上」を当該表905のキャプションとして扱えばよい。さらに、2001年度の商品Bの売上個数909は、網掛けが施されて強調されている。従って、この2001年度の商品Bの売上個数909に係る検索用メタデータの重要度を高く設定すればよい。   When the first embodiment is applied to such a table 905, the headings 906 and 907 in the table 905 may be handled in the same way as captions (sub-captions) of chart elements. In addition, the character string “annual sales by product” written on the lower side of the table 905 may be handled as the caption of the table 905. Further, the sales number 909 of the product B in 2001 is shaded and emphasized. Therefore, the importance of the search metadata relating to the sales number 909 of the product B in the 2001 fiscal year may be set high.

すなわち、図9の文書データ901の下半分の表領域に対して、第1の実施の形態と同様の手法で検索用メタデータを抽出すると、図10のようになる。図10において、番号1001が表領域全体とそのキャプションを示している。また、番号1002,1003は、それぞれ、「商品B」の2000年度、2001年度の売上個数とそのキャプション(サブキャプション)を示している。   That is, when the search metadata is extracted from the lower half of the document data 901 in FIG. 9 by the same method as in the first embodiment, the result is as shown in FIG. In FIG. 10, the number 1001 indicates the entire table area and its caption. Numbers 1002 and 1003 respectively indicate the number of sales of “product B” in 2000 and 2001 and its caption (subcaption).

図10に示したように、図9の文書データの下半分の表領域全体を検索するための検索用メタデータとしては、当該表領域中の全てのキャプション、サブキャプションである「商品別年間売上」、「2000年」、「2001年」等の年度、「商品A」、「商品B」、「商品C」等の商品名が登録されている。   As shown in FIG. 10, the search metadata for searching the entire table area in the lower half of the document data in FIG. 9 includes all captions and sub-captions in the table area “annual sales by product”. ”,“ 2000 ”,“ 2001 ”, etc., and“ Product A ”,“ Product B ”,“ Product C ”, etc. are registered.

また、図9の表905の「商品B」の図表要素(売上個数)908を検索するための検索用メタデータとしては、番号1002に示したように、「100個」、当該表領域全体のキャプション「商品別年間売上」と、図表要素908のサブキャプションである「2000年」と「商品B」が登録されている。また、キャプション「商品別年間売上」とサブキャプション「2000年」との間、及びサブキャプション「2000年」とサブキャプション「商品B」との間に「修飾」の関係があることも登録されている。   Further, as the search metadata for searching the chart element (sales number) 908 of “product B” in the table 905 of FIG. 9, as shown by the number 1002, “100”, the entire table area The caption “annual sales by product” and sub-captions “2000” and “product B” of the chart element 908 are registered. In addition, it is registered that there is a “modification” relationship between the caption “annual sales by product” and the sub-caption “2000” and between the sub-caption “2000” and the sub-caption “product B”. Yes.

さらに、図9の表905の「商品B」の図表要素(売上個数)909を検索するための検索用メタデータは、番号1003に示したように登録されている。すなわち、「1234個」、当該表領域全体のキャプション「商品別年間売上」と、図表要素909のサブキャプションである「2001年」と「商品B」が登録されている。また、キャプション「商品別年間売上」とサブキャプション「2001年」との間、及びサブキャプション「2001年」とサブキャプション「商品B」との間に「修飾」の関係があることも登録されている。   Further, the search metadata for searching the chart element (sales number) 909 of “product B” in the table 905 of FIG. 9 is registered as indicated by reference numeral 1003. That is, “1234 items”, caption “annual sales by product” of the entire table area, and sub-captions “2001” and “product B” of the chart element 909 are registered. It is also registered that there is a “modification” relationship between the caption “annual sales by product” and the subcaption “2001”, and between the subcaption “2001” and the subcaption “product B”. Yes.

また、「商品B」の「2001年度」の売り上げ個数「1234個」は、網掛けの形態で強調表現されている。その旨の強調情報(強調)が当該サブキャプションを構成する単語「2001年」と「商品B」に付加され、更にそれらサブキャプションの項目値である「1234個」にも強調情報(強調)が付加されている。   Further, the sales number “1234” of “product B” in “2001” is highlighted in a shaded form. Emphasis information (enhancement) to that effect is added to the words “2001” and “product B” constituting the subcaption, and further, the emphasis information (emphasis) is also added to the item value “1234” of the subcaption. It has been added.

このような「表」に係る検索用メタデータと入力に係る検索条件とを比較して両者の類似度を評価することにより、「表全体」、及び「表」に記載されたデータについても検索することが可能となる。また、検索処理においては、強調表現されたデータは、検索条件との類似度が高く計算されて優先的に検索結果として表示される。従って、強調表現された重要事項を簡単、かつ迅速に検索することが可能となる。   By comparing the metadata for search related to “table” with the search condition related to input and evaluating the similarity between them, search is also performed for the data described in “table” and “table”. It becomes possible to do. In the search process, the emphasized data is calculated with a high similarity to the search condition and is displayed as a search result with priority. Therefore, it is possible to easily and quickly search for important matters that are highlighted.

[第3の実施の形態]
第1、第2の実施の形態では、図表領域それ自他の中から、当該図表領域、或いは当該図表領域内の個別の図表要素を検索するための検索用メタデータを抽出していた。
[Third Embodiment]
In the first and second embodiments, the search metadata for searching the chart area or individual chart elements in the chart area is extracted from the chart area itself.

これに対し、図表領域の近傍の領域のテキスト情報からも検索用メタデータを抽出することも可能である。これは、図表の近傍のテキスト情報には、当該図表について説明した部分が存在する可能性が高いという文書の特性を考慮したものである。   On the other hand, it is also possible to extract search metadata from text information in an area near the chart area. This is because the text information in the vicinity of the chart takes into account the document characteristic that there is a high possibility that the portion explained for the chart exists.

図表領域の近傍の領域のテキスト情報から検索用メタデータを抽出する手法は、第1、第2の実施の形態と同様の手法を援用することができる。例えば、第1、第2の実施の形態と同様に、図表領域全体のキャプションと、その中の個別の図表要素のキャプション(サブキャプション)との間の言語表現的な関係を推定する。そして、その言語表現的な関係に類似する文言を、当該図表領域の近傍のテキスト情報の中から抽出し、当該図表領域、又はその図表要素を検索するための検索用メタデータとして追加登録する。   As a method for extracting search metadata from text information in a region near the chart region, the same method as in the first and second embodiments can be used. For example, as in the first and second embodiments, the linguistic expression relationship between the caption of the entire chart area and the caption (subcaption) of the individual chart elements therein is estimated. Then, words similar to the linguistic expression are extracted from text information in the vicinity of the chart area, and additionally registered as search metadata for searching the chart area or the chart element.

このような第3の実施の形態における検索用メタデータの抽出処理を、図11のフローチャートに基づいて説明する。なお、図11におけるステップS1101〜S1110の処理は、図5のステップS501〜S510と全く同様であり、その詳細な説明は省略する。   The search metadata extraction process in the third embodiment will be described based on the flowchart of FIG. Note that the processing in steps S1101 to S1110 in FIG. 11 is exactly the same as that in steps S501 to S510 in FIG. 5, and detailed description thereof will be omitted.

CPU101は、ステップS1101〜S1110の処理により、ステップS1101で取り出した図表領域の中から当該図表領域、又はその図表要素を検索するための検索用メタデータを抽出して登録する。   The CPU 101 extracts and registers search metadata for searching the chart area or its chart elements from the chart area extracted in step S1101 by the processing of steps S1101 to S1110.

次に、CPU101は、当該図表領域の近傍のテキスト情報の中から、ステップS1109にて抽出した図形領域(全体図表領域)のキャプションと図形要素のキャプション(サブキャプション)との間の言語表現的な関係に類似する文言(言語表現)を探索する(ステップS1111)。   Next, the CPU 101 performs linguistic expression between the caption of the graphic area (overall chart area) and the caption (subcaption) of the graphic element extracted in step S1109 from the text information in the vicinity of the chart area. A word (language expression) similar to the relationship is searched (step S1111).

なお、図表領域の近傍のテキスト情報は、必ずしも当該図表領域と同一のページのテキスト情報である必要はない。例えば、ページの先頭部分、或いは最終部分に図表が存在する場合は、当該図表の前のページ、又は次のページのテキスト情報の中から検索用メタデータを抽出することができる。   The text information in the vicinity of the chart area is not necessarily the text information of the same page as the chart area. For example, when a chart is present at the top or the last part of a page, search metadata can be extracted from text information of the previous page or the next page of the chart.

また、近傍の程度(範囲)は、任意であり、この近傍の程度をユーザが文書の種類、特性等に応じて設定できるようにしてもよい。   Further, the degree (range) of the neighborhood is arbitrary, and the degree of the neighborhood may be set by the user according to the document type, characteristics, and the like.

さらに、近傍は、例えば行単位、ページ単位等の物理的な離間距離だけでなく、文書の「節」単位等の文書の構成単位で設定することも可能である。   Further, the neighborhood can be set not only in a physical separation distance such as a line unit or a page unit, but also in a document constituent unit such as a “section” unit of the document.

次に、CPU101は、上記の類似する言語表現が図表領域の近傍のテキスト情報の中に存在していたか否かを判別し(ステップS1112)、存在していなかった場合は、ステップS1105に戻る。   Next, the CPU 101 determines whether or not the similar language expression is present in the text information in the vicinity of the chart area (step S1112). If not, the process returns to step S1105.

一方、類似する言語表現が図表領域の近傍のテキスト情報の中に存在していた場合は、その類似する言語表現の中に強調表現が有れば、その強調表現を抽出する(ステップS1113)。   On the other hand, if a similar language expression exists in the text information in the vicinity of the chart area, if there is an emphasized expression in the similar language expression, the emphasized expression is extracted (step S1113).

次に、CPU101は、ステップS1111,S1113で得られた類似する言語表現、強調表現を、当該図表領域、その図表要素を検索するための検索用メタデータとして外部記憶装置105に追加登録する(ステップS1114)。この場合、類似する言語表現、強調表現は、そのままの形で登録されることなく、図6、図10のように形態素解析された状態で、かつキャプションとサブキャプションの関係・役割を明示した状態で登録される。   Next, the CPU 101 additionally registers the similar language expression and the emphasized expression obtained in steps S1111 and S1113 in the external storage device 105 as search metadata for searching the chart area and the chart element (step S1111, S1113). S1114). In this case, similar linguistic expressions and emphasized expressions are not registered as they are, but are morphologically analyzed as shown in FIGS. 6 and 10 and the relationship / role of captions and subcaptions are clearly indicated. It is registered with.

次に、上記の処理を図2の文書の例で説明する。図2の図表領域の場合は、テキスト情報204の中から「ここでは、家庭用の家具として、床を傷つけないように脚部の接地部分に工夫を施した家具Aについて・・・。」といった言語表現が、類似する言語表現として見つかる。また、アンダーラインが付された「脚部の接地部分」は、強調表現されていることが認定される。   Next, the above processing will be described with reference to the example of the document in FIG. In the case of the chart area of FIG. 2, from the text information 204, “here, furniture A in which the grounding part of the leg is devised as home furniture so as not to damage the floor”. A linguistic expression is found as a similar linguistic expression. In addition, it is recognized that the “grounding portion of the leg” with an underline is emphasized.

そして、図6のように、この類似する言語表現を形態素解析して語彙単位にしたものが、強調表現がなされていた旨の情報が付加されて、検索用のメタデータとして登録される。   Then, as shown in FIG. 6, the linguistic unit obtained by performing morphological analysis on this similar language expression is added with information indicating that the emphasis expression has been made, and is registered as search metadata.

また、図9の表については、909の項目値に関して、テキスト情報904の中から「特筆すべきは商品Bの売り上げ個数の2001年の急速な拡大であり、・・・。」といった言語表現が見つかる。また、アンダーラインが付された「商品Bの売上個数の、2001年の急速な拡大」は、強調表現されていることが認定される。   Further, in the table of FIG. 9, regarding the item value of 909, there is a linguistic expression such as “The remarkable increase in the number of sales of the product B in 2001 is ...” from the text information 904. Found. In addition, it is recognized that the underlined “Rapid expansion of sales volume of product B in 2001” is emphasized.

そして、図10のように、この類似する言語表現を形態素解析して語彙単位にしたものが、強調表現がなされていた旨の情報が付加されて、検索用のメタデータとして登録される。   Then, as shown in FIG. 10, the linguistic unit obtained by performing morphological analysis on the similar language expression is added with information indicating that the emphasis expression has been made, and is registered as search metadata.

なお、図表領域内の図表要素のキャプションに対してのみ類似関係が発生している検索用メタデータは、その図表要素を検索するための検索用メタデータとして登録する。また、図表領域全体のキャプションとその図表要素のキャプションとの双方に対して類似関係が発生している検索用メタデータは、全体図表領域、及び図表要素を検索するための検索用メタデータとして登録する。   Note that the search metadata that has a similarity relationship only with the caption of the chart element in the chart area is registered as the search metadata for searching for the chart element. Also, search metadata that has a similar relationship with both the caption of the entire chart area and the caption of the chart element is registered as search metadata for searching the entire chart area and chart elements. To do.

また、本発明の目的は、前述した各実施の形態の機能を実現するソフトウェアのプログラムコードを記憶した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成される。   Another object of the present invention is to supply a storage medium storing software program codes for realizing the functions of the above-described embodiments to a system or apparatus, and the computer of the system or apparatus (or CPU, MPU, or the like). Is also achieved by reading and executing the program code stored in the storage medium.

この場合、記憶媒体から読み出されたプログラムコード自体が前述した各実施の形態の機能を実現することになり、そのプログラムコード及び該プログラムコードを記憶した記憶媒体は本発明を構成することになる。   In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiments, and the program code and the storage medium storing the program code constitute the present invention. .

また、プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW等の光ディスク、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。または、プログラムコードをネットワークを介してダウンロードしてもよい。   Examples of the storage medium for supplying the program code include a floppy (registered trademark) disk, a hard disk, a magneto-optical disk, a CD-ROM, a CD-R, a CD-RW, a DVD-ROM, a DVD-RAM, and a DVD. An optical disc such as RW or DVD + RW, a magnetic tape, a nonvolatile memory card, a ROM, or the like can be used. Alternatively, the program code may be downloaded via a network.

また、コンピュータが読み出したプログラムコードを実行することにより、前述した各実施の形態の機能が実現されるだけではなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した各実施の形態の機能が実現される場合も含まれる。   Further, by executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also an OS (Operating System) running on the computer based on the instruction of the program code. Includes a case where the functions of the above-described embodiments are realized by performing part or all of the actual processing.

さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その拡張機能を拡張ボードや拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した各実施の形態の機能が実現される場合も含まれる。   Furthermore, after the program code read from the storage medium is written to a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the expanded function is based on the instruction of the program code. This includes a case where a CPU or the like provided on the expansion board or the expansion unit performs part or all of the actual processing and the functions of the above-described embodiments are realized by the processing.

本発明の第1〜第3の実施の形態に係る情報処理装置の基本構成を示すブロック図である。It is a block diagram which shows the basic composition of the information processing apparatus which concerns on the 1st-3rd embodiment of this invention. 第1の実施の形態を説明するための文書例を示す図である。It is a figure which shows the example of a document for demonstrating 1st Embodiment. 図2の文書のレイアウト解析の解析結果をXMLで記述した図である。FIG. 3 is a diagram describing the analysis result of the layout analysis of the document in FIG. 2 in XML. 図2の文書のレイアウト解析の解析結果を示す概念図である。It is a conceptual diagram which shows the analysis result of the layout analysis of the document of FIG. 第1,第2の実施の形態における検索用メタデータの抽出処理を示すフローチャートである。It is a flowchart which shows the extraction process of the metadata for a search in 1st, 2nd embodiment. 図2の文書に対して図5の処理を行なった場合の検索用メタデータの登録状態を示す概念図である。FIG. 6 is a conceptual diagram illustrating a registration state of search metadata when the process of FIG. 5 is performed on the document of FIG. 2. 検索処理を行なう場合の検索条件に係る文字列の解析例を示す概念図である。It is a conceptual diagram which shows the example of analysis of the character string which concerns on the search condition in the case of performing a search process. 第1の実施の形態に係る検索結果の表示例を示す図である。It is a figure which shows the example of a display of the search result which concerns on 1st Embodiment. 第2の実施の形態を説明するための文書例を示す図である。It is a figure which shows the example of a document for demonstrating 2nd Embodiment. 図9の文書に対して図5の処理を行なった場合の検索用メタデータの登録状態を示す概念図である。FIG. 10 is a conceptual diagram illustrating a registration state of search metadata when the process of FIG. 5 is performed on the document of FIG. 9. 第3の実施の形態における検索用メタデータの抽出処理を示すフローチャートである。It is a flowchart which shows the extraction process of the metadata for search in 3rd Embodiment.

符号の説明Explanation of symbols

101…CPU
102…ROM
103…RAM
104…入力部
105…外部記憶装置
106…表示器
805…検索結果表示ボックス
101 ... CPU
102 ... ROM
103 ... RAM
104 ... Input unit 105 ... External storage device 106 ... Display 805 ... Search result display box

Claims (7)

文書データ中の非テキスト情報に関連するメタデータを用いて当該非テキスト情報を検索する情報処理装置であって、
前記文書データの中から前記非テキスト情報に関連する言語表現を抽出する抽出手段と、
前記抽出手段により抽出された言語表現に基づいて前記非テキスト情報を検索するためのメタデータを作成する作成手段と、
前記作成手段により作成されたメタデータを前記非テキスト情報と関連付けて記憶媒体に登録する登録手段と、
入力に係る検索条件と、前記登録手段により登録された前記メタデータとを比較して非テキスト情報を検索する検索手段とを有し、
前記抽出手段は、前記文書データから前記非テキスト情報に関する強調表現を抽出し、前記作成手段は、前記強調表現が抽出された場合にその旨を示す強調情報を前記メタデータに付加することを特徴とする情報処理装置。
An information processing apparatus that searches for non-text information using metadata related to non-text information in document data,
Extracting means for extracting a linguistic expression related to the non-text information from the document data;
Creating means for creating metadata for searching for the non-text information based on the linguistic expression extracted by the extracting means;
Registration means for registering the metadata created by the creation means in a storage medium in association with the non-text information;
A search unit for searching for non-text information by comparing a search condition related to input and the metadata registered by the registration unit;
The extraction unit extracts an emphasis expression related to the non-text information from the document data, and the creation unit adds emphasis information indicating the fact to the metadata when the emphasis expression is extracted. Information processing apparatus.
前記抽出手段は、非テキスト情報が存在する所定範囲の領域の中から当該非テキスト情報に関連する言語表現を抽出することを特徴とする請求項1に記載の情報処理装置。   The information processing apparatus according to claim 1, wherein the extraction unit extracts a linguistic expression related to the non-text information from an area of a predetermined range where the non-text information exists. 前記抽出手段は、非テキスト情報が存在する所定範囲の領域の近傍のテキスト情報の領域の中から当該非テキスト情報に関連する言語表現を抽出することを特徴とする請求項1に記載の情報処理装置。   2. The information processing according to claim 1, wherein the extraction unit extracts a linguistic expression related to the non-text information from an area of text information in the vicinity of a predetermined range area where the non-text information exists. apparatus. 前記検索手段は、入力に係る検索条件と前記登録手段により登録された前記メタデータとを比較することにより両者の類似度を評価し、類似度の高い順に当該メタデータに関連付けられた非テキスト情報を前記記憶媒体から読み出して検索結果として表示することを特徴とする請求項1に記載の情報処理装置。   The search means evaluates the similarity of both by comparing the search condition according to the input and the metadata registered by the registration means, and the non-text information associated with the metadata in descending order of similarity The information processing apparatus according to claim 1, wherein the information is read from the storage medium and displayed as a search result. 前記検索手段は、前記強調情報が付加されたメタデータについては、類似度を高く評価することを特徴とする請求項1に記載の情報処理装置。   The information processing apparatus according to claim 1, wherein the search unit highly evaluates the similarity of the metadata to which the emphasis information is added. 文書データ中の非テキスト情報に関連するメタデータを用いて当該非テキスト情報を検索する情報処理装置の制御方法であって、
前記文書データの中から前記非テキスト情報に関連する言語表現を抽出する抽出工程と、
前記抽出工程により抽出された言語表現に基づいて前記非テキスト情報を検索するためのメタデータを作成する作成工程と、
前記作成工程により作成されたメタデータを前記非テキスト情報と関連付けて記憶媒体に登録する登録工程と、
入力に係る検索条件と、前記登録工程により登録された前記メタデータとを比較して非テキスト情報を検索する検索工程とを有し、
前記抽出工程は、前記文書データから前記非テキスト情報に関する強調表現を抽出し、前記作成工程は、前記強調表現が抽出された場合にその旨を示す強調情報を前記メタデータに付加することを特徴とする情報処理装置の制御方法。
A method of controlling an information processing apparatus that searches for non-text information using metadata related to non-text information in document data,
An extraction step of extracting a linguistic expression related to the non-text information from the document data;
A creation step of creating metadata for searching for the non-text information based on the linguistic expression extracted by the extraction step;
A registration step of registering the metadata created by the creation step in a storage medium in association with the non-text information;
A search step for searching for non-text information by comparing a search condition related to input and the metadata registered by the registration step;
The extracting step extracts an emphasized expression related to the non-text information from the document data, and the creating step adds emphasized information indicating the fact to the metadata when the emphasized expression is extracted. A method for controlling the information processing apparatus.
請求項6に記載の制御方法を実行するプログラム。   A program for executing the control method according to claim 6.
JP2006322156A 2006-11-29 2006-11-29 Information processing device, its control method, and program Pending JP2008134954A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006322156A JP2008134954A (en) 2006-11-29 2006-11-29 Information processing device, its control method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006322156A JP2008134954A (en) 2006-11-29 2006-11-29 Information processing device, its control method, and program

Publications (2)

Publication Number Publication Date
JP2008134954A true JP2008134954A (en) 2008-06-12
JP2008134954A5 JP2008134954A5 (en) 2010-01-07

Family

ID=39559759

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006322156A Pending JP2008134954A (en) 2006-11-29 2006-11-29 Information processing device, its control method, and program

Country Status (1)

Country Link
JP (1) JP2008134954A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014102992A1 (en) * 2012-12-28 2014-07-03 株式会社日立製作所 Data processing system and data processing method
JP2016524229A (en) * 2014-03-17 2016-08-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド Search recommendation method and apparatus
US9870632B2 (en) 2012-11-27 2018-01-16 Fuji Xerox Co., Ltd. Information processing apparatus and non-transitory computer readable medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125113A (en) * 1997-07-07 1999-01-29 Ricoh Co Ltd Image retrieving device, generating method for key text for image retrieval, program for functioning computer as device therefor, and computer readable record medium recording program for executing method with computer
JP2001084252A (en) * 1999-09-10 2001-03-30 Mitsubishi Electric Corp System and method for retrieving similar document and computer-readable recording medium with similar document retrieval program recorded thereon
JP2003196294A (en) * 2001-12-26 2003-07-11 Toshiba Corp Knowledge analyzing system and method
JP2004220267A (en) * 2003-01-14 2004-08-05 Nippon Telegr & Teleph Corp <Ntt> Image retrieval method and device, image retrieval program, and storage medium recording the program
JP2006113984A (en) * 2004-10-18 2006-04-27 Sony Corp Information providing system, metadata collection analysis server, and computer program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125113A (en) * 1997-07-07 1999-01-29 Ricoh Co Ltd Image retrieving device, generating method for key text for image retrieval, program for functioning computer as device therefor, and computer readable record medium recording program for executing method with computer
JP2001084252A (en) * 1999-09-10 2001-03-30 Mitsubishi Electric Corp System and method for retrieving similar document and computer-readable recording medium with similar document retrieval program recorded thereon
JP2003196294A (en) * 2001-12-26 2003-07-11 Toshiba Corp Knowledge analyzing system and method
JP2004220267A (en) * 2003-01-14 2004-08-05 Nippon Telegr & Teleph Corp <Ntt> Image retrieval method and device, image retrieval program, and storage medium recording the program
JP2006113984A (en) * 2004-10-18 2006-04-27 Sony Corp Information providing system, metadata collection analysis server, and computer program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9870632B2 (en) 2012-11-27 2018-01-16 Fuji Xerox Co., Ltd. Information processing apparatus and non-transitory computer readable medium
WO2014102992A1 (en) * 2012-12-28 2014-07-03 株式会社日立製作所 Data processing system and data processing method
JP5903171B2 (en) * 2012-12-28 2016-04-13 株式会社日立製作所 Data processing system and data processing method
JPWO2014102992A1 (en) * 2012-12-28 2017-01-12 株式会社日立製作所 Data processing system and data processing method
JP2016524229A (en) * 2014-03-17 2016-08-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド Search recommendation method and apparatus

Similar Documents

Publication Publication Date Title
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
US9754019B2 (en) Information processing device, information processing method and computer program for highlighting content in an electronic document
US20220284185A1 (en) Storage medium, information processing method, and information processing device
JP2008129793A (en) Document processing system, apparatus and method, and recording medium with program recorded thereon
JP5950700B2 (en) Image processing apparatus, image processing method, and program
US10055097B2 (en) Grasping contents of electronic documents
US20240104290A1 (en) Device dependent rendering of pdf content including multiple articles and a table of contents
JP2007310501A (en) Information processor, its control method, and program
JP2008134954A (en) Information processing device, its control method, and program
JP2006309347A (en) Method, system, and program for extracting keyword from object document
JP2007310503A (en) Information processor, its control method and program
JP5895828B2 (en) Information processing apparatus and program
US10049107B2 (en) Non-transitory computer readable medium and information processing apparatus and method
JP3122417B2 (en) Information display method and information processing device
US20210042555A1 (en) Information Processing Apparatus and Table Recognition Method
JP4972271B2 (en) Search result presentation device
JP2007310502A (en) Information processor, its control method and program
JP2006171851A (en) Document file analysis system, document file analysis method, and program
KR20070067058A (en) Method and apparatus of extracting title of web document
KR20070095506A (en) Method and apparatus of extracting a title of a web document
JP2009169761A (en) Electronic dictionary system, display control method of electronic dictionary, computer program, and data storage medium
US11842141B2 (en) Device dependent rendering of PDF content
JP7468004B2 (en) Document processing device and program
JP3952009B2 (en) Translation memory system, translation method, and program for translation memory system
US9672195B2 (en) Method and system for page construct detection based on sequential regularities

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091116

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111206

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120807