JP2008134954A - Information processing device, its control method, and program - Google Patents
Information processing device, its control method, and program Download PDFInfo
- Publication number
- JP2008134954A JP2008134954A JP2006322156A JP2006322156A JP2008134954A JP 2008134954 A JP2008134954 A JP 2008134954A JP 2006322156 A JP2006322156 A JP 2006322156A JP 2006322156 A JP2006322156 A JP 2006322156A JP 2008134954 A JP2008134954 A JP 2008134954A
- Authority
- JP
- Japan
- Prior art keywords
- text information
- metadata
- search
- information
- chart
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、文書中の図表等の非テキスト情報を検索するのに好適な情報処理装置、その制御方法、及びプログラムに関する。 The present invention relates to an information processing apparatus suitable for searching non-text information such as a chart in a document, a control method thereof, and a program.
近年、保存スペースの削減,遠隔地からの取得の利便性から、膨大な量の電子文書が氾濫している。このため、所望の電子文書の検索に長時間を要するようになってきている。 In recent years, an enormous amount of electronic documents has been flooded due to the reduction of storage space and the convenience of acquisition from a remote location. For this reason, it takes a long time to search for a desired electronic document.
特に、カタログ、論文、電子機器の取り扱い説明書等に係る電子文書には、テキスト情報だけでなく、画像、図、表などの非テキスト情報が多数含まれている。これら非テキスト情報は、利用頻度が高い情報でもある。 In particular, electronic documents related to catalogs, papers, instruction manuals for electronic devices, and the like include not only text information but also a large number of non-text information such as images, diagrams, and tables. These non-text information is also frequently used information.
しかしながら、これら非テキスト情報は、それ自体は文字情報を持たないか、持っていても断片的な文字情報であるため、所望の非テキスト情報の検索は困難である。そこで、文書又は文書中の画像情報にメタデータ(テキスト情報)を関連付け、このメタデータを用いて文書又は画像情報を検索する技術が開発されている(例えば、特許文献1参照)。
しかしながら、従来は、非テキスト情報、その構成要素の関係、非テキスト情報の構造等を解析して検索用のメタデータを抽出することはできず、文書中の非テキスト情報、又はその構成要素を精度よく検索することはできなかった。 However, conventionally, metadata for search cannot be extracted by analyzing the non-text information, the relationship between its constituent elements, the structure of the non-text information, etc., and the non-text information in the document or its constituent elements cannot be extracted. It was not possible to search accurately.
本発明は、このような背景の下になされたもので、その目的は、文書中の重要度が高く検索対象となる頻度も高い非テキスト情報を簡単、かつ迅速に検索し得る情報処理装置、その制御方法、及びプログラムを提供する。 The present invention has been made under such a background, and an object thereof is an information processing apparatus capable of easily and quickly searching for non-text information having a high importance in a document and a high frequency of search. The control method and program are provided.
上記目的を達成するため、本発明は、文書データ中の非テキスト情報に関連するメタデータを用いて当該非テキスト情報を検索する情報処理装置であって、前記文書データの中から前記非テキスト情報に関連する言語表現を抽出する抽出手段と、前記抽出手段により抽出された言語表現に基づいて前記非テキスト情報を検索するためのメタデータを作成する作成手段と、前記作成手段により作成されたメタデータを前記非テキスト情報と関連付けて記憶媒体に登録する登録手段と、入力に係る検索条件と、前記登録手段により登録された前記メタデータとを比較して非テキスト情報を検索する検索手段とを有し、前記抽出手段は、前記文書データから前記非テキスト情報に関する強調表現を抽出し、前記作成手段は、前記強調表現が抽出された場合にその旨を示す強調情報を前記メタデータに付加することを特徴とする。 In order to achieve the above object, the present invention provides an information processing apparatus for retrieving non-text information using metadata related to non-text information in document data, wherein the non-text information is retrieved from the document data. Extraction means for extracting a linguistic expression related to the text, creation means for creating metadata for searching for the non-text information based on the linguistic expression extracted by the extraction means, and meta data created by the creation means Registration means for registering data in the storage medium in association with the non-text information; search means for searching for non-text information by comparing the input search condition with the metadata registered by the registration means; And the extraction means extracts an emphasized expression related to the non-text information from the document data, and the creating means extracts the emphasized expression. The emphasis information indicating that when, characterized in that added to the meta-data.
本発明では、強調情報が付加されたメタデータを用いて非テキスト情報を検索することができる。この強調情報は、一般に、重要度が高く検索対象となる頻度も高い言語表現に係るメタデータであることを意味する。 In the present invention, non-text information can be searched using metadata to which emphasis information is added. This emphasis information generally means that the metadata is related to a linguistic expression having high importance and high frequency of search.
従って、本発明によれば、上記の特性を有する強調情報が付加されたメタデータを用いて非テキスト情報を検索することにより、文書中の重要度が高く検索対象となる頻度も高い非テキスト情報を簡単、かつ迅速に検索し得る情報処理装置、その制御方法、及びプログラムを提供することが可能となる。 Therefore, according to the present invention, by searching for non-text information using the metadata to which the emphasis information having the above characteristics is added, the non-text information having a high importance in the document and a high frequency of search. It is possible to provide an information processing apparatus that can easily and quickly search, a control method thereof, and a program.
[第1の実施の形態]
図1は、本発明の第1〜第3の実施の形態に係る情報処理装置の基本構成を示すブロック図である。この情報処理装置は、マルチメディア文書データから所望の画像、図、表等の非テキスト情報又はその構成要素を高精度に検索できるようにしたものであり、パーソナルコンピュータ(PC)上に構築されている。
[First Embodiment]
FIG. 1 is a block diagram showing a basic configuration of an information processing apparatus according to first to third embodiments of the present invention. This information processing apparatus is designed to search non-text information such as desired images, figures and tables or its constituent elements from multimedia document data with high accuracy, and is constructed on a personal computer (PC). Yes.
図1において、CPU101は、本情報処理装置における各種の処理を制御するコントローラ(処理ユニット)である。その制御は、後述するROM102、外部記憶装置105等に格納されたプログラムに基づいて実行される。また、CPU101は、複数のプログラムを並列に実行可能である。
In FIG. 1, a
このCPU101は、バス110を介して、ROM102、RAM103、入力部104、外部記憶装置105、表示器106、通信部107等の各種デバイスと相互に通信可能に接続されている。ROM102には、ブートプログラム等のプログラム、およびデータ等が格納されている。RAM103は、CPU101が実際に処理を実行する際に、その処理に係るプログラムをROM102あるいは外部記憶装置105等からロードして展開する等、ワークエリアとして利用される。
The
入力部104は、キーボード等により構成され、アルファベットキー、ひらがなキー、カタカナキー等の文字入力キー、及びカーソル移動キー等の各種の機能キーを有している。なお、入力部104は、マウスのようなポインティングデバイスを搭載することもできる。
The
外部記装置105には、OS、アプリケーションプログラム等の各種のプログラム、文書データ等の各種のデータが格納される。この外部記憶装置105は、ハードディスク、不揮発性の半導体メモリ等の記憶媒体からなる。また、外部記憶装置105がハードディスクの場合、当該記憶媒体を駆動してデータを記録するドライブを有する。なお、外部記装置105には、図5、図11のフローチャートに係る処理を行なうためのアプリケーションプログラムも記憶されている。
The
表示器106は、液晶ディスプレイなどで構成され、入力部104により入力されたデータ、CPU101での処理内容等を表示する。通信部107は、LAN108、コネクタ109を介して他の情報処理装置、プリンタ等と通信するための制御を行う。この通信部107による通信制御により、第1〜3の実施の形態に係るアプリケーションプログラムやデータを他の情報処理装置と共有することが可能になる。
The
通信部107による通信は、RS232CやUSB、IEEE1394、P1284、SCSI、モデム、Ethernet(登録商標)などの有線通信、Bluetooth、赤外線通信、IEEE802.11b等の無線通信の何れの通信方式を採ってもよい。なお、通信部107は、コネクタ109を介して記憶装置、スキャナ、プリンタ等と接続されている。
Communication by the
本情報処理装置は、外部記憶装置105、或いは外部のコンピュータにマルチメディア文書(以下、文書という)を格納する際に、この文書中の非テキスト情報又はその構成要素を検索するためのメタデータを抽出している。
This information processing apparatus stores metadata for searching non-text information or its components in a document when storing a multimedia document (hereinafter referred to as a document) in the
図2は、1ページ分の文書データ201を例示したものである。この文書データ201は、本文(テキスト情報)202、見出し(テキスト情報)203、および見出しに続く文章(テキスト情報)204を有している。
FIG. 2 shows an example of
また、図2の文書データは、図表要素(非テキスト情報)205、図表要素205のキャプション(説明文:テキスト情報)206、図表要素207、図表要素207のキャプション(説明文:テキスト情報)208、図表要素209、図表要素209のキャプション(説明文:テキスト情報)210を有している。なお、キャプションとは、対応する図の説明文(テキスト情報)を意味する。
The document data in FIG. 2 includes a chart element (non-text information) 205, a caption (description: text information) 206 of the
更に、図2の文書データは、3つの図表要素205,207,209で構成された図表領域全体に対するキャプション211と、ページ番号(テキスト情報)212を有している。なお、個別の図表要素205,207,209のキャプション206,208,210は、図表領域全体のキャプション211に対し、サブキャプションとも呼ばれる。
Further, the document data of FIG. 2 has a
図3は、図2の文書データ201の解析結果を示す構造化文書データを示したものである。なお、図3は、レイアウト解析結果の基本部分を抜粋したものである。図3において、(3−1)〜(3−32)は、レイアウト解析結果をXML形式で記述したものである。このうち、(3−1)は図2のページの開始を示すものであり、ページ番号が「11」であることが記述されている。また、(3−32)は当該ページの終了を示している。
FIG. 3 shows structured document data indicating the analysis result of the
(3−2)〜(3−4)は、図2のページの大きさを示す記述部分である。(3−3)に示したページの大きさ(600 900)は、ページ左上を原点とし、Y軸をページ下方向に正方向とし、X軸をページ右方向に正方向とするXY座標系におけるX,Y座標値を示すものである。すなわち、当該ページがX方向に600、Y方向に900の大きさであることが記述されている。以下、同様に、位置や大きさなどの情報は、ページ左上を原点とし、Y軸をページ下方向に正方向とし、X軸をページ右方向に正方向とするするXY座標系で示される。 (3-2) to (3-4) are description parts indicating the page size of FIG. The size (600 900) of the page shown in (3-3) is based on the XY coordinate system in which the upper left corner of the page is the origin, the Y axis is the forward direction in the lower direction, and the X axis is the forward direction in the right direction of the page X and Y coordinate values are indicated. That is, it is described that the page is 600 in the X direction and 900 in the Y direction. Similarly, information such as position and size is indicated in an XY coordinate system in which the upper left corner of the page is the origin, the Y axis is the forward direction in the lower direction, and the X axis is the forward direction in the right direction of the page.
(3−5)〜(3−31)は、図2のページ内の文書情報の構成要素(領域)を列挙したものであり、各構成要素がブロック(Block)という単位で表現されている。このうち、(3−6)〜(3−21)は、図2の文章202,203,204の領域のブロックを表現した記述である。(3−6)は、レイアウト解析において割り当てたブロック識別番号が「1101」であり、文章を記述したテキスト領域のブロックであることを示す記述がされている。
(3-5) to (3-31) list the constituent elements (areas) of the document information in the page of FIG. 2, and each constituent element is expressed in units of blocks. Among these, (3-6) to (3-21) are descriptions expressing blocks in the areas of the
また、(3−7)〜(3−9)には、当該ブロックのページ内での位置を示す情報として、上記のXY座標系での当該ブロックの左上の位置座標を示す記述がされている。また、(3−10)〜(3−12)は、上記のXY座標系での当該ブロックのサイズを示す記述がされている。このサイズは、当該ブロックの左上の位置座標からのX,Y方向の距離で示されている。 In (3-7) to (3-9), description indicating the upper left position coordinate of the block in the XY coordinate system is described as information indicating the position of the block in the page. . In addition, (3-10) to (3-12) describe the size of the block in the XY coordinate system. This size is indicated by the distance in the X and Y directions from the upper left position coordinate of the block.
(3−13)〜(3−20)は、当該ブロック中に記述されている内容を示しており、テキスト領域のブロックなので、図2の本文202,見出し203,見出し203に続く文章204がそのまま記述されている。これらの文章(テキスト情報)は、紙媒体などからスキャンした場合には、文字認識などの技術を用いることで、画像情報からテキスト情報に変換して得られる。
(3-13) to (3-20) show the contents described in the block, and are text area blocks. Therefore, the
(3−15)では、図2の見出し203の部分が記述されており、見出しの番号が「5」で、見出しのタイトルが「家具A」という内容であったことを示すテキスト情報が付加されている。また、(3−18)では、図2の文章204中の「脚部の接地部分」という部分にアンダーラインが付与されていたことが、文章204の文字列に加えて記述されている。
In (3-15), the heading 203 part of FIG. 2 is described, text information indicating that the heading number is “5” and the heading title is “Furniture A” is added. ing. In addition, in (3-18), it is described in addition to the character string of the
(3−22)〜(3−31)では、図2の図表要素205等の当該ページ内の他の構成要素について記述されている。(3−22)では、図2の図表要素205に対してレイアウト解析において割り当てたブロック識別番号が「1102」であり、グラフィック形式のブロックであることが記述されている。また、(3−23)〜(3−25)では、図表要素205に係るブロックのページ内の位置を示す情報として、上記のXY座標系での図表要素205に係るブロックの左上の位置座標が記述されている。また、(3−26)〜(3−28)では、上記のXY座標系での図表要素205に係るブロックのサイズが記述されている。さらに、図示省略したが、(3―30)以下には、図表要素205自体が記述されている。
(3-22) to (3-31) describe other components in the page such as the
本実施の形態では、図1の外部記憶装置105等に保存された文書データ中の画像、図、表といった非テキスト情報を検索するために、まず、文書データに対して予めレイアウト解析が行われ、そのレイアウト解析結果が図3のようなXML形式で記述される。
In this embodiment, in order to search for non-text information such as images, diagrams, and tables in document data stored in the
そして、このレイアウト解析結果に基づいて非テキスト情報の領域、その構成要素、すなわち非テキスト情報の領域内の個々の非テキスト情報について相互の関係を解析する処理が実行される。その関係解析結果に基づいて非テキスト情報、その構成要素を検索するための検索用メタデータを抽出して登録する処理が実行される。 Then, based on the layout analysis result, a process of analyzing the mutual relationship between the non-text information area and its constituent elements, that is, the individual non-text information in the non-text information area is executed. Based on the relationship analysis result, processing for extracting and registering non-text information and search metadata for searching the constituent elements is executed.
例えば、CPU101は、レイアウト解析によりブロック分割を行うことによってそれぞれの図表要素あるいは文章が記述されたブロックの位置を求める。そして、CPU101は、図2に示した図表要素205、図表要素207、図表要素209の近傍に配置された1〜2行程度の文字列を認識する。次に、CPU101は、これらの文字列を、図表要素205、図表要素207の説明文(キャプション)206、208であると認定する。
For example, the
なお、着目している図表要素の近傍に1〜2行程度の文字列が配置されていない場合は、CPU101は、その図表要素のキャプションは存在しないものと判断する。また、着目している図表要素の近傍に1〜2行程度の文字列が配置されているが、その文字列よりも他の図表要素の方が当該図表要素から近い位置に配置されている場合も、CPU101は、その図表要素のキャプションは存在しないものと判断する。
If a character string of about 1 to 2 lines is not arranged in the vicinity of the target chart element, the
図2の例では、図表要素205と図表要素207と図表要素209とは並列の関係にあり、キャプション206は図表要素205に対応し、キャプション208は図表要素207に対応し、キャプション210は図表要素209に対応しているものと認定することができる。そして、CPU101は、これらキャプション206,208,210を、それぞれ図表要素205,207,209を検索するための検索用メタデータとして抽出し、それぞれ図表要素205,207,209と関連付けて外部記憶装置105等に登録する。
In the example of FIG. 2,
そして、検索処理の際には、CPU101は、例えばメタデータとしてのキャプション206を検索することにより、そのメタデータ(キャプション206)に関連付けられた非テキスト情報としての図表要素205を読出し、検索結果として表示器106に表示させる。
In the search process, for example, the
これにより、画像、図、表等の各種の非テキスト情報のフォーマットに依存することなく、各種の非テキスト情報を検索することができるようになる。また、検索時には、検索用のメタデータを検索するだけで目的の非テキスト情報を検索することができ、検索所要時間を短縮することが可能となる。 As a result, various types of non-text information can be searched without depending on the format of various types of non-text information such as images, diagrams, and tables. Further, at the time of searching, the target non-text information can be searched simply by searching the searching metadata, and the time required for searching can be shortened.
図4は、図2の文書に対するレイアウト解析の解析結果を示す概念図である。このレイアウト解析結果は、本実施の形態では、実際には図3に示したようにXMLデータで記述されるが、図4では理解し易いように、概念図で示している。 FIG. 4 is a conceptual diagram showing an analysis result of layout analysis for the document of FIG. In this embodiment, the layout analysis result is actually described in XML data as shown in FIG. 3, but is shown in a conceptual diagram in FIG. 4 for easy understanding.
なお、図表要素205、図表要素205のキャプション206、図表要素207、図表要素207のキャプション208、図表要素209、図表要素209のキャプション210が配置される領域を全体図表領域とする。すなわち、全体図表領域には、テキスト情報としてのキャプション、及びサブキャプションが含まれている。図2に示す図表領域は、図表要素が密集している状態である。すなわち、本実施の形態では、「全体図表領域」という用語は、純粋な図表だけでなくテキスト情報を含む場合がある図表領域を指すものとして用いている。
The area where the
図4に示したキャプション等は、図2の文書データのレイアウト解析を行なって得られたものである。図2に示したように、「11」という数字は、当該ページの最下行に孤立状態で存在するものであるので、CPU101は、ページ番号と判断する。仮に、前後のページが存在し、それらの同位置にも「11」に連続する「10」、「12」という数字が存在する場合、CPU101は、図2の数字「11」は、「ページ番号」であると判断してもよい。図4において、レイアウト解析結果により得られたテキスト情報である数字「11」は、符号401で示したようにページ番号と判断され、「ページNo.11」としている。図4に示した符号402,404は、図2に示した文章202,204に相当するものである。
The captions and the like shown in FIG. 4 are obtained by performing the layout analysis of the document data in FIG. As shown in FIG. 2, the number “11” is present in an isolated state on the bottom line of the page, so the
また、図2の文書データにおいて、「5.家具A」という短い文字列は、比較的長い文章202と文章204の間に孤立状態で配置されている。さらに、図2の文書データの前のページの文章の間には「5」に連続する「4」、「6」という数字が短い文字列と共に記載されている(図示省略)。この場合、CPU101は、図2の「家具A」という文字列を「タイトル」として判断し、「5.」をセクション番号であると判断する。よって、図4のレイアウト解析結果において符号403で示したように、「文章(セクション)番号=”5”、タイトル=”家具A”」としている。
In the document data of FIG. 2, a short character string “5. Furniture A” is arranged in an isolated state between a relatively
すなわち、本実施の形態において、CPU101は、レイアウト解析によってブロック分割を行う。その結果として、ある領域中に「数字」,「1行程度の文字列」の記述を認識した場合、その認識された記述が前の領域(上側の領域)から所定距離以上離れて配置されているか否かを判断する。そして。所定距離以上離れて配置されていると判断した場合、CPU101は「数字」を文章(セクション)番号とみなし、「1行程度の文字列」をタイトルと判断する。なお、「数字」,「1行程度の文字列」の字体(フォント)が他の領域のものと異なっている場合や、文字サイズが他の領域のものより大きい場合に、セクション番号、或いはタイトルと推定するようにしてもよい。
That is, in the present embodiment, the
また、図2の文書データにおいて、「商品No.100 家具A」という比較的短い文字列は、全体図表領域の最下行に孤立状態で記載されている。また、全体図表領域の他の3個の文字列「側面図」、「脚部の拡大図」、「全体図」は、3個の図とそれぞれ1対1に対応する形で図の真下に記載されている。従って、「商品No.100 家具A」という文字列は、全体図表領域(図表領域全体)のキャプションであり、他の3個の文字列は、その真上の図のキャプション(この場合はサブキャプション)であると推定できる。従って、図4のレイアウト解析結果では、符号405〜408に示したように、これらの文字列をキャプションとしている。
Further, in the document data of FIG. 2, a relatively short character string “product No. 100 furniture A” is described in an isolated state on the bottom line of the entire chart area. In addition, the other three character strings “side view”, “enlarged view of leg”, and “overall view” in the entire chart area are directly below the figure in a one-to-one correspondence with the three figures. Are listed. Therefore, the character string “product No. 100 furniture A” is the caption of the entire chart area (the entire chart area), and the other three character strings are the captions of the figure immediately above (in this case, the sub-captions). ). Therefore, in the layout analysis result of FIG. 4, as indicated by
すなわち、全体図表領域では、次のようにしてキャプションを登録する。まず、CPU101は、文書データのレイアウト解析を行い、ブロック分割処理を実行する。そして、上述したとおり、CPU101は、認識されたある図表要素(205,207,209)の領域に最も近傍する文字列(206,208,210)をその図表要素のキャプションとして当該図表要素と関連付けて外部記憶装置105に登録する。
That is, in the entire chart area, captions are registered as follows. First, the
そして、CPU101は、或る図表要素の領域の上下左右の領域端から所定距離以内に他の図表要素の領域が存在するか否かを判断する。他の図表要素の領域が存在する場合、CPU101は、それらの領域が包含される領域全体を全体図表領域として外部記憶装置105に登録する。
Then, the
さらに、CPU101は、全体図表領域から所定距離以内に図表要素に関連付けられていない1〜2行程度の文字列の領域が存在するか否かを判断する。このような文字列(211)の領域が存在する場合、CPU101は、その文字列を全体図表領域のキャプションとして外部記憶装置105に登録する。
Further, the
このように、第1の実施の形態では、レイアウト解析を行い、そのレイアウト解析によりテキスト情報(キャプション)と非テキスト情報(図表)を識別し、これらの位置関係等に基づいてキャプションと図表との対応関係、キャプション同士の関係等を認定している。 As described above, in the first embodiment, layout analysis is performed, text information (caption) and non-text information (chart) are identified by the layout analysis, and the caption and the chart are determined based on their positional relationship and the like. Correspondences, relationships between captions, etc. are certified.
なお、レイアウト解析を行なった後、或いはレイアウト解析と並行して、図表等の非テキスト情報それ自体の構造、属性等の特徴を解析して、当該非テキスト情報要素を検索するための検索用メタデータを抽出することも可能である。例えば、円グラフ、図面等それ自体の中に記述されている文字列を探索する。そして、その文字列を当該円グラフ、図面等の周辺の文字ブロックの中から探索し、その文字列を含む文章を解析して当該円グラフ、図面等の特徴、属性等を認識する。解析された文章の一部の文字列等を当該円グラフ、図面等の検索用メタデータとして抽出するように構成してもよい。 In addition, after performing the layout analysis or in parallel with the layout analysis, the meta data for search for searching for the non-text information element by analyzing the characteristics such as the structure and attributes of the non-text information itself such as a chart or the like. It is also possible to extract data. For example, a character string described in itself such as a pie chart or a drawing is searched. Then, the character string is searched from the surrounding character blocks such as the pie graph and the drawing, and the sentence including the character string is analyzed to recognize the features, attributes, and the like of the pie graph and the drawing. You may comprise so that the character string etc. of a part of analyzed sentence may be extracted as search metadata, such as the said pie chart and drawing.
次に、文書データ中の個別図表領域群によって構成される全体図表領域、及び個別図表領域を構成する図表要素(個別の図表、画像情報)を検索するための検索用メタデータを抽出・登録する処理を、図5のフローチャートに基づいて説明する。なお、この検索用メタデータの抽出・登録処理を行うに先立って、前述のレイアウト解析処理、外部記憶装置105への図表要素、キャプション等の登録処理がなされているものとする。
Next, search metadata for searching the entire chart area constituted by the individual chart area group in the document data and chart elements (individual chart, image information) constituting the individual chart area are extracted and registered. The processing will be described based on the flowchart of FIG. It is assumed that, prior to performing the search metadata extraction / registration process, the above-described layout analysis process, registration process of chart elements, captions, and the like to the
まず、CPU101は、文書データのレイアウトの解析結果に基づいて、1つの全体図表領域を外部記憶装置105から取得する(ステップS501)。ここでは、図2の1ページ分の文書データがレイアウト解析された結果、図4に示すように、図2の下半分の全体図表領域が取得されたものとして説明する。
First, the
次に、CPU101は、取得した全体図表領域のキャプション情報を抽出する(ステップS502)。ここで、CPU101は、全体図表領域の近傍にあってサブキャプション情報として登録されていない1〜2行程度のテキスト情報を全体図表領域のキャプション情報と判断する。図2,4では、図2の「商品No.100 家具A」211という文字列が、全体図表領域のキャプション情報として抽出される。
Next, the
次に、CPU101は、ステップS501で抽出した全体図表領域、及びステップS502で抽出したキャプション情報について、強調表現がなされている場合には、その強調表現を示す強調情報を抽出する(ステップS503)。なお、図2の下半分の全体図表領域、その全体図表領域のキャプション情報については、強調表現がなされていないので、ステップS503では、強調情報が抽出されることはない。
Next, the
ここで、強調表現の形態としては、特殊な種類の文字(フォント)、文字サイズ、文字修飾、文字の色や文字の背景の色など、文字や領域それ自体に対する強調表現の他に、囲み枠、矢印などの記号により間接的に強調表現する形態が含まれる。 Here, as a form of emphasis expression, a special type of character (font), character size, character modification, character color and character background color, etc., in addition to emphasis expression for the character or area itself, an enclosing frame In addition, a form that is indirectly emphasized by a symbol such as an arrow is included.
そして、CPU101は、抽出した全体図表領域のキャプション情報を、当該全体図表領域を検索するための検索用メタデータとして外部記憶装置105に登録する(ステップS504)。この場合、ステップS503で強調情報を抽出した場合は、その強調情報もキャプション情報と対応付けて外部記憶装置105に登録する。
Then, the
ここで、登録する強調情報は、文書データ中で強調表現されたオリジナルの強調表現の形態そのままの情報であってもよい。しかし、メモリ容量の低減化を図るべく、例えば「太字」、「赤色」、「太枠」、「強調枠」等、強調表現の種別を示す情報を強調情報として登録するのが望ましい(後述のステップS511も同様)。更には、後述するように、強調の種別を示すことなく、全ての強調の種別に対して単に「強調」という文字を登録することも可能である。 Here, the registered emphasis information may be information as it is in the form of the original emphasis expression emphasized in the document data. However, in order to reduce the memory capacity, it is desirable to register information indicating the type of emphasis expression as emphasis information such as “bold”, “red”, “thick frame”, “emphasis frame”, etc. (described later). The same applies to step S511). Furthermore, as will be described later, it is also possible to register the word “emphasis” for all the emphasis types without indicating the emphasis type.
なお、強調表現は、一般に、重要度が高く検索対象となる頻度も高い部分に対してなされるものである。 Note that the emphasis expression is generally made for a portion having high importance and high frequency of search.
次に、CPU101は、ステップS501で取得した全体図表領域中の全ての個別の図表領域に対する後述のステップS506〜510の処理が完了したか否かを判別する(ステップS505)。その結果、全ての個別の図表領域に対する後述のステップS505〜510の処理が完了した場合は、CPU101は、本キャプション情報等の登録処理を終了する。
Next, the
一方、全ての個別の図表領域に対する後述のステップS506〜510の処理が未だ完了していない場合は、CPU101は、当該処理を未だ行っていない個別の図表領域を1つだけ取り出して、その個別の図表領域の図表要素のキャプション(サブキャプション)情報を抽出する(ステップS506)。
On the other hand, if the processing in steps S506 to S510 described below for all the individual chart regions has not yet been completed, the
なお、図2の例では、個別の図表要素として図表要素205,207,209が存在し、それらのサブキャプション情報として、符号206で示した「側面図」、符号208で示した「脚部の拡大図」、符号210で示した「全体図」が存在する。このうち、「脚部の拡大図」というサブキャプションについては、「脚部」という文字列の文字サイズが他の文字列の文字サイズより大きくなっており、強調表現されている。また、符号207で示した個別の図表要素については、他の個別の図表要素よりも太い枠線で囲まれており、強調表現されている。
In the example of FIG. 2, there are
次に、CPU101は、ステップS506で取得した個別の図表領域、又はそのサブキャプション情報について、強調表現がなされている場合には、その強調表現を示す強調情報を抽出する(ステップS507)。
Next, if the emphasized expression is made for the individual chart area acquired in step S506 or the subcaption information, the
ここで、前述のように、図2に示した個別の図表領域205,209、それら図表領域のキャプション情報206,210については、強調表現がなされていないので、ステップS506でこれら個別の図表領域205,209、そのサブキャプションを取得した場合は、ステップS507では、強調情報が抽出されることはない。一方、図2に示した個別の図表領域207、その図表領域207のキャプション情報208については、前述のように強調表現がなされている。従って、ステップS506で個別の図表要素207とそのキャプション情報208を取得した場合は、CPU101は、ステップS507で、その強調表現を示す強調情報を抽出する。
Here, as described above, the
次に、CPU101は、ステップS506で取得した個別の図表要素のステップS501で取得した全体図表領域に対する役割、関係を推定する(ステップS508)。この推定処理では、レイアウト解析しか行わない場合には、例えば、当該全体図表領域における当該個別の図表要素の位置、占有面積などの関係から、当該個別の図表要素が当該全体図表領域の一部であるものと推定することができる。
Next, the
なお、論理的な解析まで行うことにより、より正確な個別の図表要素間の関係や役割、全体図表領域と個別の図表要素の関係や役割を把握して、個別の図表要素の全体図表用領域に対するより正確な役割、関係を推定するようにしてもよい。 By conducting a logical analysis, it is possible to grasp the more accurate relationship and role between individual chart elements and the relationship and role between the entire chart area and individual chart elements, and the entire chart area for each chart element. You may make it estimate the more exact role and relationship with respect to.
次に、CPU101は、ステップS506で抽出した個別の図表要素のサブキャプションのステップS502で取得した全体図表領域のキャプションに対する役割、関係を解析する(ステップS509)。ここでは、例えば、全体図表領域のキャプションである「商品No.100家具」と個別の図表要素205のサブキャプションである「側面図」の関係が、自然言語の単語間の一番簡単な関係である修飾関係にあることが解析される。
Next, the
次に、CPU101は、当該全体図表領域のキャプションと当該個別の図表要素のサブキャプションとの関係等の特徴情報を、当該図表要素を検索するための検索用メタデータとして外部記憶装置105等の記憶媒体に登録する(ステップS510)。
Next, the
すなわち、CPU101は、キャプションとサブキャプションが修飾関係にある旨の情報も登録する。さらに、CPU101は、検索用メタデータと、その検索用メタデータで検索されるべき図表要素、及びキャプション(サブキャプションを含む)とを関連付けて外部記憶装置105に登録する。更に、CPU101は、ステップS507で強調情報を抽出した場合は、その強調情報もサブキャプション情報と対応付けて外部記憶装置105に登録する。
That is, the
そして、CPU101は、ステップS505に戻ることにより、ステップS506〜510の処理を施していない個別の図表要素が残っている場合には、その個別の図表要素についてステップS506〜510の処理を行なう。なお、図5の登録処理は、文書の各ページの各全体図表領域(個別の図表要素)に対して実行される。
When the
図6は、CPU101が図2の文書データに対してレイアウト解析を行い、図4のレイアウト解析結果を得た後、図5の検索用メタデータの登録処理を行なったときの概念図である。番号601が全体図表領域とそのキャプションを示している。また、番号602〜604は、個別の図表要素とそのキャプション(サブキャプション)を示している。
FIG. 6 is a conceptual diagram when the
図6に示したように、図2の文書データの全体図表領域を検索するための検索用メタデータとしては、当該文書データ中の全てのキャプション、サブキャプションである「商品No.100 家具A」、「側面図」、「脚部の拡大図」、「全体図」が登録されている。また、図2の文書データの個別の図表要素205を検索するための検索用メタデータとしては、図2の文書データの全体図表領域のキャプション「商品No.100家具A」と共に、図表要素205のサブキャプションである「側面図」が登録されている。また、キャプション「商品No.100家具A」とサブキャプション「側面図」は、「修飾」の関係にあることも登録されている。
As shown in FIG. 6, as the search metadata for searching the entire chart area of the document data in FIG. 2, “Product No. 100 Furniture A” which is all captions and sub-captions in the document data. , “Side view”, “enlarged view of the leg”, and “overall view” are registered. Further, as search metadata for searching the
また、図2の文書データの図表要素207を検索するための検索用メタデータとしては、図2の文書データのキャプション「商品No.100 家具A」と共に、図表要素207のサブキャプションである「脚部の拡大図」が登録されている。また、キャプション「商品No.100家具A」とサブキャプション「脚部の拡大図」は、「修飾」の関係にあることも登録されている。
Further, as search metadata for searching the
更に、サブキャプション「脚部の拡大図」中の文字列「脚部」の文字サイズが他の文字列「の拡大」等より大きく、「脚部」が強調表現されているので、その旨の強調情報(強調)が当該サブキャプションを構成する単語「脚部」に付加されている。また、個別の図表要素である脚部の拡大図それ自体は、太い枠線で囲まれて、当該脚部の拡大図が強調表現されているので、当該「脚部の拡大図」というサブキャプション全体に対してその旨の強調情報(強調)が付加されている。この検索用メタデータに付加された強調情報は、後述するように、文書データ中の所望の図表を的確かつ迅速に検索するために利用される。 Furthermore, the character size of the character string “leg” in the sub-caption “enlarged view of the leg” is larger than other character strings “expansion” etc., and “leg” is emphasized. Emphasis information (emphasis) is added to the word “leg” constituting the subcaption. Also, the enlarged view of the leg itself, which is an individual chart element, is surrounded by a thick frame line, and the enlarged view of the leg is emphasized. Emphasis information (emphasis) to that effect is added to the whole. The emphasis information added to the search metadata is used to accurately and quickly search a desired chart in document data, as will be described later.
同様に、図2の文書データの図表要素209を検索するための検索用メタデータとしては、図2の文書データのキャプション「商品No.100家具A」と共に、図表要素209のサブキャプションである「全体図」が登録されている。また、キャプション「商品No.100 家具A」とサブキャプション「全体図」は、「修飾」の関係にあることも登録されている。
Similarly, as search metadata for searching the
なお、例えば、『商品No.100 家具A―(修飾)―側面図』という検索用メタデータと、『商品No.100 家具A―(修飾)―全体図』という検索用メタデータとは、間接的に、「側面図」と「全体図」との間に関係があることを示している。従って、個々の非テキスト情報同士の関係、すなわちサブキャプション同士の関係を検索用メタデータとして用いることも可能である。 For example, “Product No. 100 “Furniture A— (Modification) —Side view” metadata and “Product No. The search metadata “100 furniture A- (modification) -overall view” indirectly indicates that there is a relationship between the “side view” and the “overall view”. Accordingly, the relationship between individual non-text information, that is, the relationship between sub-captions can be used as search metadata.
次に、検索処理について説明する。文書データ中の図表等の非テキスト情報を検索する場合は、ユーザにより入力された検索条件としての文字列と類似する検索用メタデータが用いられる。 Next, the search process will be described. When searching non-text information such as charts in document data, search metadata similar to a character string as a search condition input by a user is used.
例えば、検索条件として「イスAの脚部図」という文字列が入力されたものとする。なお、上記の検索条件としての文字列のうち、「イスA」は、肉太の文字列として入力されたものとする。この場合、CPU101は、図7に示したように、検索条件である「イスAの脚部図」という文字列を形態素解析して単語に分解し、その単語の品詞や分類別に検索指示情報としての重要度を決める。
For example, it is assumed that the character string “legs of chair A” is input as a search condition. Of the character string as the search condition, “chair A” is input as a thick character string. In this case, as shown in FIG. 7, the
この際、「イスA」は、肉太の文字列として入力されているので、CPU101は、この「イスA」については、検索指示情報としての重要度を高めに設定する。すなわち、図7に示したように、肉太でない通常の形態の文字列で入力された名詞「脚部」、接尾語「図」の重要度としては「80」が設定されている。これに対し、肉太の形態の文字列で入力された名詞「イス」の重要度としては、通常形態の「80」より高い「90」が設定されている。また、肉太の形態の文字列で入力された名詞のうち、固有名詞「A」の重要度は、更に高い「100」が設定されている。なお、助詞「の」の重要度としては、「0」が設定されている。
At this time, since “chair A” is input as a thick character string, the
また、CPU101は、「A」と「脚部」の間に修飾関係が存在することを認定する。
さらに、図示省略したが、CPU101は、検索用メタデータについても、検索条件と同様に重要度を決定する。この場合の重要度の決定方法は、検索条件の場合と同様の方法を用いることができる。
In addition, the
Further, although not shown in the drawing, the
そして、CPU101は、検索条件と検索用メタデータの重要度を用いて、両者の類似度を評価する。
Then, the
すなわち、CPU101は、検索条件に係る単語と意味が似ている単語を含む検索用メタデータを探し、それら単語同士の意味の類似度を検索条件と当該検索用メタデータの類似度とする。また、CPU101は、検索条件に係る単語と意味が類似する単語を検索用メタデータが多く含むほど、その検索用メタデータの検索条件に対する類似度を高く評価する。
That is, the
さらに、CPU101は、検索条件中の類似に係る単語同士の修飾関係と、検索用メタデータ中の類似に係る単語同士の修飾関係とが類似している場合は、その検索用メタデータの検索条件に対する類似度をより一層高く評価する。
Further, when the modification relationship between similar words in the search condition is similar to the modification relationship between similar words in the search metadata, the
なお、上記のように、検索条件、及び検索用メタデータにおいて、強調表現に係る単語等には高い重要度が設定される。従って、検索条件と検索用メタデータを比較して両者の類似度を評価する場合、意味が同一又は類似の単語について、検索条件、又は検索用メタデータの何れか一方が強調表現されているときは、通常よりも類似度が高く評価される。また、意味が同一又は類似の単語について、検索条件と検索用メタデータの双方で強調表現されているときは、より一層、類似度が高く評価される。 As described above, in the search condition and the search metadata, high importance is set for the word related to the emphasized expression. Therefore, when evaluating the similarity between the search condition and the search metadata, when either the search condition or the search metadata is highlighted for words having the same or similar meaning Is evaluated with higher similarity than usual. Further, when words having the same or similar meaning are emphasized in both the search condition and the search metadata, the degree of similarity is evaluated even higher.
そして、CPU101は、検索条件と類似する検索用メタデータと関連付けられた図表等の非テキスト情報を、検索結果として表示器106に表示する。この場合、CPU101は、検索条件との類似度が高く評価された検索用メタデータの順に検索処理を行なうと共に、その検索順に、当該検索用メタデータに関連付けられた非テキスト情報を配列して表示器106に表示させる。
Then, the
例えば、上記の「イスAの脚部図(イスAは肉太で強調)」を検索条件とした場合、この検索条件に対する図2の非テキスト情報の類似度の順番は、図6に示す番号603,601,603,604の順番となり、この順番に検索結果として表示される。 For example, in the case where the above-mentioned “leg view of chair A (chassis A is emphasized with thick meat)” is used as a search condition, the similarity order of the non-text information in FIG. 2 with respect to this search condition is the number shown in FIG. The order is 603, 601, 603, and 604, and the search results are displayed in this order.
また、「商品No.家具A」を検索条件とした場合、最も評価の高い非テキスト情報は、番号601となり、続いて番号602〜604が同じ類似度となる。従って、検索結果として番号601が先頭に表示され、番号602〜604が順不同に表示される。 Further, when “product No. furniture A” is used as a search condition, the non-text information with the highest evaluation is number 601, and subsequently, numbers 602 to 604 have the same similarity. Accordingly, the number 601 is displayed at the top as the search result, and the numbers 602 to 604 are displayed in random order.
以上説明したように、非テキスト情報の領域と個別の非テキスト情報との関係を加味した検索用データを用いて非テキスト情報の領域、個別の非テキスト情報を検索できるので、文書中の所望の非テキスト情報の領域、個別の非テキスト情報を高精度に検索することが可能となる。 As described above, the non-text information area and the individual non-text information can be searched using the search data that takes into account the relationship between the non-text information area and the individual non-text information. The non-text information area and the individual non-text information can be searched with high accuracy.
また、強調表現された検索条件、検索用メタデータについては、類似度評価に用いる重要度を高く設定するので、重要な非テキスト情報を簡単、かつ迅速に検索することが可能となる。 Moreover, since the importance used for similarity evaluation is set high for the highlighted search conditions and search metadata, it is possible to easily and quickly search for important non-text information.
なお、非テキスト情報を検索するための検索用メタデータは、当該非テキスト情報が属する領域だけでなく、その近傍のテキスト領域から抽出することも可能である。また、レイアウト解析だけでなく、キャプションの形態素解析、非テキスト情報の構造や関係の論理的な解析を行なうことにより、より詳細な検索用データの関係を得ることも可能である。この場合は、より一層、高精度に非テキスト情報等を高精度に検索できるようになる。 Note that the search metadata for searching for non-text information can be extracted not only from the area to which the non-text information belongs, but also from a text area in the vicinity thereof. Further, not only layout analysis but also morphological analysis of captions and logical analysis of the structure and relationship of non-text information can provide more detailed search data relationships. In this case, non-text information and the like can be searched with higher accuracy with higher accuracy.
次に、実際の検索画面を図8に基づいて説明する。ユーザが入力部104の操作により文書検索処理を指示すると、CPU101は、図8に示した文書検索ウィンドウ801を表示器106の画面上に表示させる。
Next, an actual search screen will be described with reference to FIG. When the user instructs a document search process by operating the
この文書検索ウィンドウ801には、タイトルバー802が形成されている。このタイトルバー801には、当該ウィンドウのタイトルとして「文書検索」が表示されている。
A
また、文書検索ウィンドウ801には、検索用のウィンドウ803が形成され、このウィンドウ803には、検索条件を入力するための検索条件入力ボックス804と、検索結果を表示するための検索結果表示ボックス805が形成されている。
In addition, a
検索条件入力ボックス804には、単純な単語だけでなく、単語間、又は文節間の関係情報を持つ自然言語における文章などの形式で、検索条件を入力することができる。図8の例では、検索条件入力ボックス804には、「イスAの脚部図」という文字列が、検索条件として表示されている。また、「イスA」という文字列は、肉太の文字列で強調されている。このような検索条件入力ボックス804に対する検索条件の入力は、図1の入力部104等を用いて行なうことができる。
In the search
まず、ユーザは、検索条件入力ボックス804に検索条件を入力した状態で所定のボタンを操作する。すると、CPU101は、その入力操作の検出に応じて、入力に係る検索条件と類似性のある検索用メタデータを外部記憶装置105上で検索する。そして、CPU101は、この検索用メタデータに関連付けられた非テキスト情報の領域である全体図表領域、非テキスト情報である個々の図表要素等を読出して、検索結果として検索結果表示ボックス805に表示する。この際、CPU101は、検索結果表示ボックス805には、検索結果(図8の符号806,808,809参照)を類似度の高い順に表示するだけでなく、検索結果の検索用メタデータと関係性のあるメタデータを選択可能に表示する。
First, the user operates a predetermined button with the search condition input in the search
すなわち、検索条件が「イスAの脚部図(イスAは肉太で強調)」の場合、この検索条件の文字列の中で、「脚部図」という文字列と全く同一の文字列が、図6に示したように、番号603に係る検索用メタデータ「商品No.100家具A−(修飾)―“”脚部“<強調>の拡大図”<強調>」の中に含まれている。さらに、この番号603に係る検索用メタデータには、上記のように、検索条件の文字列の中の「A」という文字も含まれている。 In other words, when the search condition is “a leg diagram of chair A (chassis A is thick and emphasized)”, a character string exactly the same as the character string “leg figure” is included in the character string of this search condition. As shown in FIG. 6, the search metadata “Product No. 100 Furniture A— (Modification) —“ Expanded view of “leg part” <emphasis> ”<emphasis>” related to number 603 is included. ing. Further, the search metadata associated with the number 603 includes the character “A” in the character string of the search condition as described above.
しかも、「A」は、検索条件、及び検索用メタデータの双方において強調表現されている。また、「脚部」は、検索用メタデータにおいて、大きな文字サイズの形態で強調表現されている。 Moreover, “A” is highlighted in both the search condition and the search metadata. In addition, the “leg” is highlighted in a large character size form in the search metadata.
従って、CPU101は、検索条件との類似性が一番高い検索用メタデータは、「商品No.100家具A−(修飾)―“”脚部“<強調>の拡大図”<強調>」であると認定する。そして、CPU101は、検索用メタデータと関連付けられた「脚部の拡大図」(図2の図面207)を、検索結果806として検索結果表示ボックス805の1番上に表示する。
Therefore, the
また、この検索結果806の検索用メタデータ「脚部の拡大図」には、上記のように、「商品No.100家具A」という検索用メタデータと「修飾」の関係性がある旨の情報が付与されている。そこで、CPU101は、検索結果806に対して、「商品No.100家具A(図全体)」という検索用メタデータを、該当部分のビュー選択として表示器106の画面上に表示させている(図8の符号807参照)。
Further, as described above, the search metadata “enlarged view of the leg” in the
また、該当部分のビュー選択として表示した検索用メタデータには、「○」印で示したチェックボックスが配備されている。このチェックボックスにチェックマークを入れて所定のボタンを操作すると、CPU101は、このチェックボックスに対応する検索用メタデータに関連付けられた情報を、検索結果として現在表示されている検索結果に代えて表示する。
In addition, a check box indicated by a mark “◯” is provided in the search metadata displayed as the view selection of the corresponding part. When a check mark is entered in this check box and a predetermined button is operated, the
例えば、ユーザは、符号807の「商品No.100家具A(図全体)」に対応するチェックボックスにチェックマークを入れて当該図表領域全体を選択し、所定のボタンを操作して当該選択を確定したとする。この操作に応じてCPU101が検索結果を表示処理すると、検索結果806の表示エリアの表示内容は、「脚部の拡大図」から「家具Aの図全体」に変化する。このように、現在表示中の検索結果と関係のある他の情報簡単に表示させることができるので、所望の情報を的確に検索して再利用することが可能となる。
For example, the user puts a check mark in a check box corresponding to “Product No. 100 Furniture A (whole figure)” denoted by
図8では、「○」印の中の黒色がチェックマークを示している。このチェックマークは、検索結果を最初に表示する場合は、その検索結果に係る検索用メタデータに対してデフォルトで入れられている。 In FIG. 8, black in the “◯” mark indicates a check mark. This check mark is set by default for the search metadata related to the search result when the search result is displayed first.
CPU101は、最初に表示器106に検索結果を表示させる場合は、検索条件に係る文字列(言語表現)と類似度の高かった検索用メタデータの順に、当該検索用メタデータと関連付けられた非テキスト情報を検索結果として表示する。ただし、非テキスト情報の領域(図表領域全体)に係る検索用メタデータより高い類似度の検索用メタデータを持つ非テキスト情報(個々の図表要素等)が1つでも存在する場合は、それを包含する非テキスト情報(図表領域全体)は、最初の検索結果としては表示しないように構成されている。
When the
その理由は、前述のような最初に検索結果として表示した個々の図表要素に対する該当部分のビュー選択操作により、相対的に低い類似度に係る図表領域全体を漏れなく表示できるからである。これにより、限られた面積の表示画面を有効に利用して1つの表示画面により多くの検索結果を表示することができるので、所望の図表等を迅速に見つけることが可能となって、利便性が向上する。 The reason is that the entire chart area related to the relatively low similarity can be displayed without omission by the view selection operation of the corresponding part for each chart element initially displayed as the search result as described above. As a result, a limited number of display screens can be used effectively to display more search results on a single display screen, which makes it possible to quickly find a desired chart and the like. Will improve.
また、検索条件に対する類似度において、図表要素に係る検索用メタデータの類似度が一番高い場合は、CPU101は、図表要素も最初の検索結果として表示する。この場合、CPU101は、その検索結果(非テキスト情報の領域)に対応するビュー選択に係る検索用メタデータとしては、当該領域内の全ての個々の非テキスト情報の検索用メタデータを表示する。
Further, when the similarity to the search condition is highest in the search metadata related to the chart element, the
なお、上記の説明では、検索用メタデータの関係性として、図表領域全体と個々の図表要素(全体と部分)のような修飾関係だけを例示しているが、例えば上位概念と下位概念等の他の関係性を利用してもよい。また、所望の検索結果をより一層的確に選択して再利用できるようにするため、表示する各検索用メタデータに対して、検索条件との類似度を付加して表示することも可能である。この場合、一般的には数字で類似度を表示することが考えられるが、一瞥して類似度を認識できるように、グラフ等で類似度を表示することも可能である。 In the above description, only the modification relationship such as the entire chart area and individual chart elements (whole and part) is illustrated as the relationship of the search metadata. Other relationships may be used. Further, in order to select a desired search result more accurately and reuse it, it is also possible to add a similarity to the search condition to each search metadata to be displayed. . In this case, it is generally considered that the similarity is displayed with a number, but it is also possible to display the similarity with a graph or the like so that the similarity can be recognized at a glance.
[第2の実施の形態]
第1の実施の形態では、非テキスト情報が「図面」の場合を例示したが、非テキスト情報が「表」の場合にも、第1の実施の形態とほぼ同様の手法で検索用メタデータの作成処理等を行うことが可能である。この場合は、表それ自体の構造を解析して項目名を認定し、その項目名を検索用メタデータとして、その項目名に係る項目値と関連付けて登録すればよい。また、検索結果を表示する際には、その検索結果に対応する項目名が例えば表の横の列の項目名である場合は、縦の列の項目名と、表全体を上記のビュー選択の検索用メタデータとして表示するように構成すればよい。
[Second Embodiment]
In the first embodiment, the case where the non-text information is “drawing” is exemplified. However, even when the non-text information is “table”, the search metadata is almost the same as the first embodiment. Can be created. In this case, the item name is recognized by analyzing the structure of the table itself, and the item name may be registered as search metadata in association with the item value related to the item name. When the search result is displayed, if the item name corresponding to the search result is, for example, the item name in the horizontal column of the table, the item name in the vertical column and the entire table are selected for the above view selection. What is necessary is just to comprise so that it may display as metadata for search.
なお、表中の項目名は表の構成要素であり、サブキャプション(図表要素の説明)としての性格を有する。この表に対して、表の名称等が付与されていれば、表の名称等がキャプションとして機能する。また、表の場合には、横の列の項目名(構成要素)と縦の列の項目名(構成要素)との関係を検索用メタデータとして用いることにより、1つの項目値を直接検索することができる。 The item names in the table are constituent elements of the table and have a character as a sub-caption (explanation of chart elements). If a table name or the like is given to this table, the table name or the like functions as a caption. In the case of a table, one item value is directly searched by using the relationship between the item name (component) in the horizontal column and the item name (component) in the vertical column as search metadata. be able to.
以下、図9の文書を用いて、表に対する検索用メタデータの作成処理等を説明する。図9に示した1ページ分の文書データ901は、本文902(テキスト情報)、見出し(テキスト情報)903、見出し903に続く文章904の文章を有している。
Hereinafter, a process for creating search metadata for a table will be described with reference to the document of FIG. The
また、当該ページの下半分には、表905が記載されている。この表905は、表の縦の列の見出し(項目名)906、表の横の列の見出し(項目名)907を有している。この表905は、「商品別年間売上」というキャプション910が示すように、商品別の年間売上を記録したものである。従って、縦の列の見出し906としては年度が記載され、横の列の見出し907としては商品名が記載されている。そして、表905の項目値領域には、各商品の年度別売上げ個数908,909が記録されている。また、当該ページの下方には、符号911で示したページ番号「11」が記載されている。
A table 905 is described in the lower half of the page. The table 905 includes a vertical column heading (item name) 906 and a horizontal column heading (item name) 907. This table 905 records the annual sales by product, as indicated by the caption “910 annual sales by product”. Accordingly, the year is described as the heading 906 in the vertical column, and the product name is described as the heading 907 in the horizontal column. In the item value area of the table 905,
このような表905に第1の実施の形態を適用する場合は、表905の見出し906,907を図表要素のキャプション(サブキャプション)と同様に扱えばよい。また、表905の外部の下側に記載された文字列「商品別年間売上」を当該表905のキャプションとして扱えばよい。さらに、2001年度の商品Bの売上個数909は、網掛けが施されて強調されている。従って、この2001年度の商品Bの売上個数909に係る検索用メタデータの重要度を高く設定すればよい。
When the first embodiment is applied to such a table 905, the
すなわち、図9の文書データ901の下半分の表領域に対して、第1の実施の形態と同様の手法で検索用メタデータを抽出すると、図10のようになる。図10において、番号1001が表領域全体とそのキャプションを示している。また、番号1002,1003は、それぞれ、「商品B」の2000年度、2001年度の売上個数とそのキャプション(サブキャプション)を示している。
That is, when the search metadata is extracted from the lower half of the
図10に示したように、図9の文書データの下半分の表領域全体を検索するための検索用メタデータとしては、当該表領域中の全てのキャプション、サブキャプションである「商品別年間売上」、「2000年」、「2001年」等の年度、「商品A」、「商品B」、「商品C」等の商品名が登録されている。 As shown in FIG. 10, the search metadata for searching the entire table area in the lower half of the document data in FIG. 9 includes all captions and sub-captions in the table area “annual sales by product”. ”,“ 2000 ”,“ 2001 ”, etc., and“ Product A ”,“ Product B ”,“ Product C ”, etc. are registered.
また、図9の表905の「商品B」の図表要素(売上個数)908を検索するための検索用メタデータとしては、番号1002に示したように、「100個」、当該表領域全体のキャプション「商品別年間売上」と、図表要素908のサブキャプションである「2000年」と「商品B」が登録されている。また、キャプション「商品別年間売上」とサブキャプション「2000年」との間、及びサブキャプション「2000年」とサブキャプション「商品B」との間に「修飾」の関係があることも登録されている。
Further, as the search metadata for searching the chart element (sales number) 908 of “product B” in the table 905 of FIG. 9, as shown by the number 1002, “100”, the entire table area The caption “annual sales by product” and sub-captions “2000” and “product B” of the
さらに、図9の表905の「商品B」の図表要素(売上個数)909を検索するための検索用メタデータは、番号1003に示したように登録されている。すなわち、「1234個」、当該表領域全体のキャプション「商品別年間売上」と、図表要素909のサブキャプションである「2001年」と「商品B」が登録されている。また、キャプション「商品別年間売上」とサブキャプション「2001年」との間、及びサブキャプション「2001年」とサブキャプション「商品B」との間に「修飾」の関係があることも登録されている。
Further, the search metadata for searching the chart element (sales number) 909 of “product B” in the table 905 of FIG. 9 is registered as indicated by reference numeral 1003. That is, “1234 items”, caption “annual sales by product” of the entire table area, and sub-captions “2001” and “product B” of the
また、「商品B」の「2001年度」の売り上げ個数「1234個」は、網掛けの形態で強調表現されている。その旨の強調情報(強調)が当該サブキャプションを構成する単語「2001年」と「商品B」に付加され、更にそれらサブキャプションの項目値である「1234個」にも強調情報(強調)が付加されている。 Further, the sales number “1234” of “product B” in “2001” is highlighted in a shaded form. Emphasis information (enhancement) to that effect is added to the words “2001” and “product B” constituting the subcaption, and further, the emphasis information (emphasis) is also added to the item value “1234” of the subcaption. It has been added.
このような「表」に係る検索用メタデータと入力に係る検索条件とを比較して両者の類似度を評価することにより、「表全体」、及び「表」に記載されたデータについても検索することが可能となる。また、検索処理においては、強調表現されたデータは、検索条件との類似度が高く計算されて優先的に検索結果として表示される。従って、強調表現された重要事項を簡単、かつ迅速に検索することが可能となる。 By comparing the metadata for search related to “table” with the search condition related to input and evaluating the similarity between them, search is also performed for the data described in “table” and “table”. It becomes possible to do. In the search process, the emphasized data is calculated with a high similarity to the search condition and is displayed as a search result with priority. Therefore, it is possible to easily and quickly search for important matters that are highlighted.
[第3の実施の形態]
第1、第2の実施の形態では、図表領域それ自他の中から、当該図表領域、或いは当該図表領域内の個別の図表要素を検索するための検索用メタデータを抽出していた。
[Third Embodiment]
In the first and second embodiments, the search metadata for searching the chart area or individual chart elements in the chart area is extracted from the chart area itself.
これに対し、図表領域の近傍の領域のテキスト情報からも検索用メタデータを抽出することも可能である。これは、図表の近傍のテキスト情報には、当該図表について説明した部分が存在する可能性が高いという文書の特性を考慮したものである。 On the other hand, it is also possible to extract search metadata from text information in an area near the chart area. This is because the text information in the vicinity of the chart takes into account the document characteristic that there is a high possibility that the portion explained for the chart exists.
図表領域の近傍の領域のテキスト情報から検索用メタデータを抽出する手法は、第1、第2の実施の形態と同様の手法を援用することができる。例えば、第1、第2の実施の形態と同様に、図表領域全体のキャプションと、その中の個別の図表要素のキャプション(サブキャプション)との間の言語表現的な関係を推定する。そして、その言語表現的な関係に類似する文言を、当該図表領域の近傍のテキスト情報の中から抽出し、当該図表領域、又はその図表要素を検索するための検索用メタデータとして追加登録する。 As a method for extracting search metadata from text information in a region near the chart region, the same method as in the first and second embodiments can be used. For example, as in the first and second embodiments, the linguistic expression relationship between the caption of the entire chart area and the caption (subcaption) of the individual chart elements therein is estimated. Then, words similar to the linguistic expression are extracted from text information in the vicinity of the chart area, and additionally registered as search metadata for searching the chart area or the chart element.
このような第3の実施の形態における検索用メタデータの抽出処理を、図11のフローチャートに基づいて説明する。なお、図11におけるステップS1101〜S1110の処理は、図5のステップS501〜S510と全く同様であり、その詳細な説明は省略する。 The search metadata extraction process in the third embodiment will be described based on the flowchart of FIG. Note that the processing in steps S1101 to S1110 in FIG. 11 is exactly the same as that in steps S501 to S510 in FIG. 5, and detailed description thereof will be omitted.
CPU101は、ステップS1101〜S1110の処理により、ステップS1101で取り出した図表領域の中から当該図表領域、又はその図表要素を検索するための検索用メタデータを抽出して登録する。
The
次に、CPU101は、当該図表領域の近傍のテキスト情報の中から、ステップS1109にて抽出した図形領域(全体図表領域)のキャプションと図形要素のキャプション(サブキャプション)との間の言語表現的な関係に類似する文言(言語表現)を探索する(ステップS1111)。
Next, the
なお、図表領域の近傍のテキスト情報は、必ずしも当該図表領域と同一のページのテキスト情報である必要はない。例えば、ページの先頭部分、或いは最終部分に図表が存在する場合は、当該図表の前のページ、又は次のページのテキスト情報の中から検索用メタデータを抽出することができる。 The text information in the vicinity of the chart area is not necessarily the text information of the same page as the chart area. For example, when a chart is present at the top or the last part of a page, search metadata can be extracted from text information of the previous page or the next page of the chart.
また、近傍の程度(範囲)は、任意であり、この近傍の程度をユーザが文書の種類、特性等に応じて設定できるようにしてもよい。 Further, the degree (range) of the neighborhood is arbitrary, and the degree of the neighborhood may be set by the user according to the document type, characteristics, and the like.
さらに、近傍は、例えば行単位、ページ単位等の物理的な離間距離だけでなく、文書の「節」単位等の文書の構成単位で設定することも可能である。 Further, the neighborhood can be set not only in a physical separation distance such as a line unit or a page unit, but also in a document constituent unit such as a “section” unit of the document.
次に、CPU101は、上記の類似する言語表現が図表領域の近傍のテキスト情報の中に存在していたか否かを判別し(ステップS1112)、存在していなかった場合は、ステップS1105に戻る。
Next, the
一方、類似する言語表現が図表領域の近傍のテキスト情報の中に存在していた場合は、その類似する言語表現の中に強調表現が有れば、その強調表現を抽出する(ステップS1113)。 On the other hand, if a similar language expression exists in the text information in the vicinity of the chart area, if there is an emphasized expression in the similar language expression, the emphasized expression is extracted (step S1113).
次に、CPU101は、ステップS1111,S1113で得られた類似する言語表現、強調表現を、当該図表領域、その図表要素を検索するための検索用メタデータとして外部記憶装置105に追加登録する(ステップS1114)。この場合、類似する言語表現、強調表現は、そのままの形で登録されることなく、図6、図10のように形態素解析された状態で、かつキャプションとサブキャプションの関係・役割を明示した状態で登録される。
Next, the
次に、上記の処理を図2の文書の例で説明する。図2の図表領域の場合は、テキスト情報204の中から「ここでは、家庭用の家具として、床を傷つけないように脚部の接地部分に工夫を施した家具Aについて・・・。」といった言語表現が、類似する言語表現として見つかる。また、アンダーラインが付された「脚部の接地部分」は、強調表現されていることが認定される。
Next, the above processing will be described with reference to the example of the document in FIG. In the case of the chart area of FIG. 2, from the
そして、図6のように、この類似する言語表現を形態素解析して語彙単位にしたものが、強調表現がなされていた旨の情報が付加されて、検索用のメタデータとして登録される。 Then, as shown in FIG. 6, the linguistic unit obtained by performing morphological analysis on this similar language expression is added with information indicating that the emphasis expression has been made, and is registered as search metadata.
また、図9の表については、909の項目値に関して、テキスト情報904の中から「特筆すべきは商品Bの売り上げ個数の2001年の急速な拡大であり、・・・。」といった言語表現が見つかる。また、アンダーラインが付された「商品Bの売上個数の、2001年の急速な拡大」は、強調表現されていることが認定される。
Further, in the table of FIG. 9, regarding the item value of 909, there is a linguistic expression such as “The remarkable increase in the number of sales of the product B in 2001 is ...” from the
そして、図10のように、この類似する言語表現を形態素解析して語彙単位にしたものが、強調表現がなされていた旨の情報が付加されて、検索用のメタデータとして登録される。 Then, as shown in FIG. 10, the linguistic unit obtained by performing morphological analysis on the similar language expression is added with information indicating that the emphasis expression has been made, and is registered as search metadata.
なお、図表領域内の図表要素のキャプションに対してのみ類似関係が発生している検索用メタデータは、その図表要素を検索するための検索用メタデータとして登録する。また、図表領域全体のキャプションとその図表要素のキャプションとの双方に対して類似関係が発生している検索用メタデータは、全体図表領域、及び図表要素を検索するための検索用メタデータとして登録する。 Note that the search metadata that has a similarity relationship only with the caption of the chart element in the chart area is registered as the search metadata for searching for the chart element. Also, search metadata that has a similar relationship with both the caption of the entire chart area and the caption of the chart element is registered as search metadata for searching the entire chart area and chart elements. To do.
また、本発明の目的は、前述した各実施の形態の機能を実現するソフトウェアのプログラムコードを記憶した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成される。 Another object of the present invention is to supply a storage medium storing software program codes for realizing the functions of the above-described embodiments to a system or apparatus, and the computer of the system or apparatus (or CPU, MPU, or the like). Is also achieved by reading and executing the program code stored in the storage medium.
この場合、記憶媒体から読み出されたプログラムコード自体が前述した各実施の形態の機能を実現することになり、そのプログラムコード及び該プログラムコードを記憶した記憶媒体は本発明を構成することになる。 In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiments, and the program code and the storage medium storing the program code constitute the present invention. .
また、プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW等の光ディスク、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。または、プログラムコードをネットワークを介してダウンロードしてもよい。 Examples of the storage medium for supplying the program code include a floppy (registered trademark) disk, a hard disk, a magneto-optical disk, a CD-ROM, a CD-R, a CD-RW, a DVD-ROM, a DVD-RAM, and a DVD. An optical disc such as RW or DVD + RW, a magnetic tape, a nonvolatile memory card, a ROM, or the like can be used. Alternatively, the program code may be downloaded via a network.
また、コンピュータが読み出したプログラムコードを実行することにより、前述した各実施の形態の機能が実現されるだけではなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した各実施の形態の機能が実現される場合も含まれる。 Further, by executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also an OS (Operating System) running on the computer based on the instruction of the program code. Includes a case where the functions of the above-described embodiments are realized by performing part or all of the actual processing.
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その拡張機能を拡張ボードや拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した各実施の形態の機能が実現される場合も含まれる。 Furthermore, after the program code read from the storage medium is written to a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the expanded function is based on the instruction of the program code. This includes a case where a CPU or the like provided on the expansion board or the expansion unit performs part or all of the actual processing and the functions of the above-described embodiments are realized by the processing.
101…CPU
102…ROM
103…RAM
104…入力部
105…外部記憶装置
106…表示器
805…検索結果表示ボックス
101 ... CPU
102 ... ROM
103 ... RAM
104 ...
Claims (7)
前記文書データの中から前記非テキスト情報に関連する言語表現を抽出する抽出手段と、
前記抽出手段により抽出された言語表現に基づいて前記非テキスト情報を検索するためのメタデータを作成する作成手段と、
前記作成手段により作成されたメタデータを前記非テキスト情報と関連付けて記憶媒体に登録する登録手段と、
入力に係る検索条件と、前記登録手段により登録された前記メタデータとを比較して非テキスト情報を検索する検索手段とを有し、
前記抽出手段は、前記文書データから前記非テキスト情報に関する強調表現を抽出し、前記作成手段は、前記強調表現が抽出された場合にその旨を示す強調情報を前記メタデータに付加することを特徴とする情報処理装置。 An information processing apparatus that searches for non-text information using metadata related to non-text information in document data,
Extracting means for extracting a linguistic expression related to the non-text information from the document data;
Creating means for creating metadata for searching for the non-text information based on the linguistic expression extracted by the extracting means;
Registration means for registering the metadata created by the creation means in a storage medium in association with the non-text information;
A search unit for searching for non-text information by comparing a search condition related to input and the metadata registered by the registration unit;
The extraction unit extracts an emphasis expression related to the non-text information from the document data, and the creation unit adds emphasis information indicating the fact to the metadata when the emphasis expression is extracted. Information processing apparatus.
前記文書データの中から前記非テキスト情報に関連する言語表現を抽出する抽出工程と、
前記抽出工程により抽出された言語表現に基づいて前記非テキスト情報を検索するためのメタデータを作成する作成工程と、
前記作成工程により作成されたメタデータを前記非テキスト情報と関連付けて記憶媒体に登録する登録工程と、
入力に係る検索条件と、前記登録工程により登録された前記メタデータとを比較して非テキスト情報を検索する検索工程とを有し、
前記抽出工程は、前記文書データから前記非テキスト情報に関する強調表現を抽出し、前記作成工程は、前記強調表現が抽出された場合にその旨を示す強調情報を前記メタデータに付加することを特徴とする情報処理装置の制御方法。 A method of controlling an information processing apparatus that searches for non-text information using metadata related to non-text information in document data,
An extraction step of extracting a linguistic expression related to the non-text information from the document data;
A creation step of creating metadata for searching for the non-text information based on the linguistic expression extracted by the extraction step;
A registration step of registering the metadata created by the creation step in a storage medium in association with the non-text information;
A search step for searching for non-text information by comparing a search condition related to input and the metadata registered by the registration step;
The extracting step extracts an emphasized expression related to the non-text information from the document data, and the creating step adds emphasized information indicating the fact to the metadata when the emphasized expression is extracted. A method for controlling the information processing apparatus.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006322156A JP2008134954A (en) | 2006-11-29 | 2006-11-29 | Information processing device, its control method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006322156A JP2008134954A (en) | 2006-11-29 | 2006-11-29 | Information processing device, its control method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008134954A true JP2008134954A (en) | 2008-06-12 |
JP2008134954A5 JP2008134954A5 (en) | 2010-01-07 |
Family
ID=39559759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006322156A Pending JP2008134954A (en) | 2006-11-29 | 2006-11-29 | Information processing device, its control method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008134954A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014102992A1 (en) * | 2012-12-28 | 2014-07-03 | 株式会社日立製作所 | Data processing system and data processing method |
JP2016524229A (en) * | 2014-03-17 | 2016-08-12 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | Search recommendation method and apparatus |
US9870632B2 (en) | 2012-11-27 | 2018-01-16 | Fuji Xerox Co., Ltd. | Information processing apparatus and non-transitory computer readable medium |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1125113A (en) * | 1997-07-07 | 1999-01-29 | Ricoh Co Ltd | Image retrieving device, generating method for key text for image retrieval, program for functioning computer as device therefor, and computer readable record medium recording program for executing method with computer |
JP2001084252A (en) * | 1999-09-10 | 2001-03-30 | Mitsubishi Electric Corp | System and method for retrieving similar document and computer-readable recording medium with similar document retrieval program recorded thereon |
JP2003196294A (en) * | 2001-12-26 | 2003-07-11 | Toshiba Corp | Knowledge analyzing system and method |
JP2004220267A (en) * | 2003-01-14 | 2004-08-05 | Nippon Telegr & Teleph Corp <Ntt> | Image retrieval method and device, image retrieval program, and storage medium recording the program |
JP2006113984A (en) * | 2004-10-18 | 2006-04-27 | Sony Corp | Information providing system, metadata collection analysis server, and computer program |
-
2006
- 2006-11-29 JP JP2006322156A patent/JP2008134954A/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1125113A (en) * | 1997-07-07 | 1999-01-29 | Ricoh Co Ltd | Image retrieving device, generating method for key text for image retrieval, program for functioning computer as device therefor, and computer readable record medium recording program for executing method with computer |
JP2001084252A (en) * | 1999-09-10 | 2001-03-30 | Mitsubishi Electric Corp | System and method for retrieving similar document and computer-readable recording medium with similar document retrieval program recorded thereon |
JP2003196294A (en) * | 2001-12-26 | 2003-07-11 | Toshiba Corp | Knowledge analyzing system and method |
JP2004220267A (en) * | 2003-01-14 | 2004-08-05 | Nippon Telegr & Teleph Corp <Ntt> | Image retrieval method and device, image retrieval program, and storage medium recording the program |
JP2006113984A (en) * | 2004-10-18 | 2006-04-27 | Sony Corp | Information providing system, metadata collection analysis server, and computer program |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9870632B2 (en) | 2012-11-27 | 2018-01-16 | Fuji Xerox Co., Ltd. | Information processing apparatus and non-transitory computer readable medium |
WO2014102992A1 (en) * | 2012-12-28 | 2014-07-03 | 株式会社日立製作所 | Data processing system and data processing method |
JP5903171B2 (en) * | 2012-12-28 | 2016-04-13 | 株式会社日立製作所 | Data processing system and data processing method |
JPWO2014102992A1 (en) * | 2012-12-28 | 2017-01-12 | 株式会社日立製作所 | Data processing system and data processing method |
JP2016524229A (en) * | 2014-03-17 | 2016-08-12 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | Search recommendation method and apparatus |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8107727B2 (en) | Document processing apparatus, document processing method, and computer program product | |
US9754019B2 (en) | Information processing device, information processing method and computer program for highlighting content in an electronic document | |
US20220284185A1 (en) | Storage medium, information processing method, and information processing device | |
JP2008129793A (en) | Document processing system, apparatus and method, and recording medium with program recorded thereon | |
JP5950700B2 (en) | Image processing apparatus, image processing method, and program | |
US10055097B2 (en) | Grasping contents of electronic documents | |
US20240104290A1 (en) | Device dependent rendering of pdf content including multiple articles and a table of contents | |
JP2007310501A (en) | Information processor, its control method, and program | |
JP2008134954A (en) | Information processing device, its control method, and program | |
JP2006309347A (en) | Method, system, and program for extracting keyword from object document | |
JP2007310503A (en) | Information processor, its control method and program | |
JP5895828B2 (en) | Information processing apparatus and program | |
US10049107B2 (en) | Non-transitory computer readable medium and information processing apparatus and method | |
JP3122417B2 (en) | Information display method and information processing device | |
US20210042555A1 (en) | Information Processing Apparatus and Table Recognition Method | |
JP4972271B2 (en) | Search result presentation device | |
JP2007310502A (en) | Information processor, its control method and program | |
JP2006171851A (en) | Document file analysis system, document file analysis method, and program | |
KR20070067058A (en) | Method and apparatus of extracting title of web document | |
KR20070095506A (en) | Method and apparatus of extracting a title of a web document | |
JP2009169761A (en) | Electronic dictionary system, display control method of electronic dictionary, computer program, and data storage medium | |
US11842141B2 (en) | Device dependent rendering of PDF content | |
JP7468004B2 (en) | Document processing device and program | |
JP3952009B2 (en) | Translation memory system, translation method, and program for translation memory system | |
US9672195B2 (en) | Method and system for page construct detection based on sequential regularities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091116 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091116 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111206 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120201 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120807 |