JP2014527660A - Method and apparatus for acquiring structured information in layout file - Google Patents

Method and apparatus for acquiring structured information in layout file Download PDF

Info

Publication number
JP2014527660A
JP2014527660A JP2014520525A JP2014520525A JP2014527660A JP 2014527660 A JP2014527660 A JP 2014527660A JP 2014520525 A JP2014520525 A JP 2014520525A JP 2014520525 A JP2014520525 A JP 2014520525A JP 2014527660 A JP2014527660 A JP 2014527660A
Authority
JP
Japan
Prior art keywords
character
block structure
position information
directory entry
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014520525A
Other languages
Japanese (ja)
Other versions
JP5930496B2 (en
Inventor
ニン ドン
ニン ドン
ウェンジュアン ファン
ウェンジュアン ファン
バオリアン ザン
バオリアン ザン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJINGFOUNDER APABI TECHNOLOGY Ltd
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Original Assignee
BEIJINGFOUNDER APABI TECHNOLOGY Ltd
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJINGFOUNDER APABI TECHNOLOGY Ltd, Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical BEIJINGFOUNDER APABI TECHNOLOGY Ltd
Publication of JP2014527660A publication Critical patent/JP2014527660A/en
Application granted granted Critical
Publication of JP5930496B2 publication Critical patent/JP5930496B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • G06F16/152File search processing using file content signatures, e.g. hash values
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Fuzzy Systems (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Automation & Control Theory (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】レイアウトファイルにおける構造化情報を取得する。【解決手段】本発明は、レイアウトファイルの情報化管理におけるレイアウトファイルの構造化速度を向上させるためにレイアウトファイルにおける構造化情報を取得する方法であって、現在のディレクトリエントリに対応する開始ページ番号情報を特定し、開始ページ番号情報が対応するページの第1の文章内容を、内容属性情報に応じて少なくとも1つのブロック構造文字に分割し、ブロック構造文字の各々において現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字を検索すると共に、第1のブロック構造文字の第1の文章内容における第1位置情報を取得し、第1位置情報に基づいて現在のディレクトリエントリの開始位置情報及び現在のディレクトリエントリの1つ前のディレクトリエントリの終了位置情報を取得する。【選択図】図1Structured information in a layout file is obtained. The present invention relates to a method for acquiring structured information in a layout file in order to improve the structuring speed of the layout file in information management of the layout file, and a start page number corresponding to the current directory entry. Identify the information and divide the first sentence content of the page corresponding to the start page number information into at least one block structure character according to the content attribute information, and the name character of the current directory entry in each of the block structure characters The first position information in the first sentence content of the first block structure character is retrieved, and the start position information of the current directory entry is obtained based on the first position information. And the end position information of the directory entry immediately before the current directory entry. Give to. [Selection] Figure 1

Description

本発明は、情報処理の技術分野に関し、特にレイアウトファイルにおける構造化情報の取得方法及び装置に関する。   The present invention relates to the technical field of information processing, and more particularly to a method and apparatus for acquiring structured information in a layout file.

書籍のレイアウトファイルの情報化管理では、それぞれの書籍のレイアウトファイルを構造化し、それぞれのレイアウトファイルの構造化情報を取得して対応するディレクトリデータを形成する必要がある。従来の形成済みの書籍のレイアウトファイルのディレクトリデータにおいて、一般的に各ディレクトリエントリの名称文字及び各ディレクトリエントリの開始位置のみ含むが、各ディレクトリエントリの終了位置、及び各ディレクトリエントリの名称の文章における具体的な領域を含まないものであった。   In the information management of the book layout file, it is necessary to structure each book layout file, acquire the structured information of each layout file, and form corresponding directory data. In the directory data of a conventional layout file of a book that has been formed, generally includes only the name character of each directory entry and the start position of each directory entry, but in the sentence of the end position of each directory entry and the name of each directory entry It did not include a specific area.

このように、従来の書籍のレイアウトファイルの構造化情報が不完全なものであり、従来のディレクトリデータに基づいて各ディレクトリエントリに対応する具体的な開始及び終了位置を特定することができなかった。従って、書籍のレイアウトファイルの具体的なディレクトリエントリのレイアウト及びストリーミングファイルを単独に提供することができず、即ち、多様化閲覧の需要を満足することができなかった。   As described above, the structured information of the conventional book layout file is incomplete, and the specific start and end positions corresponding to each directory entry cannot be specified based on the conventional directory data. . Therefore, it is impossible to provide a specific directory entry layout of a book layout file and a streaming file independently, that is, the demand for diversified browsing cannot be satisfied.

従って、それぞれの書籍のレイアウトファイルを構造化する工程において、それぞれのレイアウトファイルの比較的完全な構造化情報を取得する必要がある。一般的に、書籍のレイアウトファイルを手動で構造化し、即ち、書籍のレイアウトファイルにおけるそれぞれのディレクトリエントリの文章内容を手動で閲覧解析し、その後、閲覧した文章内容に基づいて必要な構造化データを取得する。大量の書籍のレイアウトファイルの情報化管理を行う際に、手動上の制限、例えば、理解能力や体力が限られているため、必然的に多少のエラーが生じる。かつ、手動による速度も遅いため、構造化情報を取得する正確率及び速度にも影響を与えている。   Therefore, in the process of structuring the layout file of each book, it is necessary to obtain relatively complete structured information of each layout file. Generally, a book layout file is manually structured, that is, the contents of each directory entry in the book layout file is manually browsed and analyzed, and then the necessary structured data is obtained based on the contents of the browsed sentences. get. When performing computerization management of a large number of book layout files, manual limitations, such as comprehension ability and physical strength, are limited. In addition, since the manual speed is slow, it also affects the accuracy rate and speed of obtaining structured information.

本発明の課題は、レイアウトファイルの情報化管理におけるレイアウトファイルの構造化速度を向上させるために、レイアウトファイルにおける構造化情報を取得する方法及び装置を提供することにある。   SUMMARY OF THE INVENTION An object of the present invention is to provide a method and apparatus for acquiring structured information in a layout file in order to improve a layout file structuring speed in layout file information management.

本発明において、レイアウトファイルにおける構造化情報を取得する方法は、現在のディレクトリエントリに対応する開始ページ番号情報を特定するステップと、前記開始ページ番号情報に対応したページの第1の文章内容を、内容属性情報に応じて少なくとも1つのブロック構造文字に分割するステップと、前記ブロック構造文字の各々において前記現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字を検索すると共に、前記第1のブロック構造文字の前記第1の文章内容における第1位置情報を取得するステップと、前記第1位置情報に基づいて前記現在のディレクトリエントリの開始位置情報及び前記現在のディレクトリエントリの1つ前のディレクトリエントリの終了位置情報を取得するするステップとを含む。   In the present invention, the method for obtaining structured information in the layout file includes the step of identifying start page number information corresponding to the current directory entry, and the first sentence content of the page corresponding to the start page number information, Dividing into at least one block structure character according to content attribute information; searching for a first block structure character matching the name character of the current directory entry in each of the block structure characters; and Obtaining the first position information in the first sentence content of the block structure character of the following, and based on the first position information, the start position information of the current directory entry and the previous one of the current directory entry Obtaining end position information of the directory entry.

本発明において、レイアウトファイルにおける構造化情報を取得する装置は、現在のディレクトリエントリに対応する開始ページ番号情報を特定する特定手段と、前記開始ページ番号情報に対応したページの第1の文章内容を、内容属性情報に応じて少なくとも1つのブロック構造文字に分割する分割手段と、前記ブロック構造文字の各々において前記現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字を検索すると共に、前記第1のブロック構造文字の前記第1の文章内容における第1位置情報を取得するマッチング手段と、前記第1位置情報に基づいて前記現在のディレクトリエントリの開始位置情報及び前記現在のディレクトリエントリの1つ前のディレクトリエントリの終了位置情報を取得する取得手段とを備える。   In the present invention, an apparatus for acquiring structured information in a layout file includes specifying means for specifying start page number information corresponding to a current directory entry, and first sentence content of a page corresponding to the start page number information. Dividing means for dividing into at least one block structure character according to content attribute information, and searching for a first block structure character that matches the name character of the current directory entry in each of the block structure characters, and Matching means for acquiring first position information in the first sentence content of the first block structure character, start position information of the current directory entry based on the first position information and 1 of the current directory entry Obtaining means for obtaining end position information of the previous directory entry .

本発明では、開始ページ番号情報に対応したページの第1の文章内容を少なくとも1つのブロック構造文字に分割し、現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字を検索すると共に、第1のブロック構造文字の前記第1の文章内容における第1の位置情報を取得し、その後、第1の位置情報に基づいて現在のディレクトリエントリの開始位置情報及び現在のディレクトリエントリの1つ前のディレクトリエントリの終了位置情報を特定する。そうすると、特定ページの文章内容に対して解析及びマッチングさえ行えば、レイアウトファイルの構造化情報を得ることができるため、レイアウトファイルの構造化速度を速めることが可能となる。   In the present invention, the first sentence content of the page corresponding to the start page number information is divided into at least one block structure character, and the first block structure character matching the name character of the current directory entry is searched, First position information in the first sentence content of the first block structure character is obtained, and then the start position information of the current directory entry and the previous one before the current directory entry based on the first position information Specifies the end position information of the directory entry. Then, as long as analysis and matching are performed on the text content of a specific page, the structured information of the layout file can be obtained, so that the structuring speed of the layout file can be increased.

本発明の実施例におけるレイアウトファイルの構造化情報を取得するフローチャートである。It is a flowchart which acquires the structural information of the layout file in the Example of this invention. 本発明の実施例におけるマッチング検索のフローチャートである。It is a flowchart of the matching search in the Example of this invention. 本発明の実施例におけるレイアウトファイルのディレクトリデータ情報の概略図である。It is the schematic of the directory data information of the layout file in the Example of this invention. 本発明の実施例におけるレイアウトファイルのディレクトリデータ情報の更新後の概略図である。It is the schematic after the update of the directory data information of the layout file in the Example of this invention. 本発明の実施例における構造化されたレイアウトファイルデータ情報の概略図である。It is the schematic of the structured layout file data information in the Example of this invention. 本発明の実施例におけるレイアウトファイルの構造化情報の取得装置の構造図である。FIG. 3 is a structural diagram of a layout file structured information acquisition apparatus according to an embodiment of the present invention.

図1に示すように、本発明の実施例におけるレイアウトファイルの構造化情報の取得工程は下記のステップを含む。   As shown in FIG. 1, the process of acquiring the layout file structured information in the embodiment of the present invention includes the following steps.

ステップ101では、現在のディレクトリエントリの開始ページ番号情報を特定する。   In step 101, start page number information of the current directory entry is specified.

レイアウトファイルの情報化管理中は、レイアウトファイルのディレクトリデータ情報がロードされている。ここで、ディレクトリデータ情報は、ディレクトリエントリの階層関係と、ディレクトリエントリの名称文字と、ディレクトリエントリに対応する開始ページとを含む。当該ディレクトリデータ情報は、XMLファイル形式、他の自ら定義するTXTファイル形式、EXCELファイル形式等で表現されてよい。   During the information management of the layout file, the directory data information of the layout file is loaded. Here, the directory data information includes a hierarchical relationship of directory entries, a name character of the directory entry, and a start page corresponding to the directory entry. The directory data information may be expressed in an XML file format, another self-defined TXT file format, an EXCEL file format, or the like.

このように、レイアウト及びストリーミング閲覧を単独に提供する必要のある具体的なディレクトリエントリを現在のディレクトリエントリとして特定するか、若しくは、ディレクトリデータ情報の中の何れか1つのディレクトリエントリを現在のディレクトリエントリとして特定すると共に、その中から当該現在のディレクトリエントリに対応する開始ページを検索する。   In this way, a specific directory entry that needs to provide layout and streaming browsing independently is identified as the current directory entry, or any one directory entry in the directory data information is identified as the current directory entry. And a start page corresponding to the current directory entry is searched for.

本発明の実施例では、構造化情報を取得する正確率を高めるべく、現在のディレクトリエントリに対応する開始ページを特定する前に、ロードされるレイアウトファイルのディレクトリデータ情報の有効性、例えば、ディレクトリの階層関係や、ディレクトリエントリの開始ページの有効性などなどについて解析することができる。   In an embodiment of the present invention, the validity of directory data information in the loaded layout file, eg, directory, is specified before identifying the start page corresponding to the current directory entry to increase the accuracy rate of obtaining structured information. It is possible to analyze the hierarchical relation of the directory and the validity of the start page of the directory entry.

ステップ102では、開始ページ番号情報に対応したページの第1の文章内容を、内容属性情報に応じて少なくとも1つのブロック構造文字に分割する。   In step 102, the first sentence content of the page corresponding to the start page number information is divided into at least one block structure character according to the content attribute information.

レイアウトファイルは一般的に共通の特徴を有し、例えば、文章中のディレクトリエントリ文字と文章中の本文の文字のフォントサイズやフォーマットが大いに相違しており、ディレクトリと本文間の第1の行間隔と本文間の第2の行間隔も大いに相違している。従って、本発明の実施例では、ディレクトリエントリ文字と本文文字のフォントサイズ及びフォーマットの少なくともいずれか、並びに、ディレクトリと本文間の第1の行間隔と本文間の第2の行間隔によって、第1の文章内容を1つ又は複数のブロック構造文字に分割することができる。   Layout files generally have common features, for example, the font size and format of directory entry characters in the text and the text characters in the text are very different, and the first line spacing between the directory and the text. The second line spacing between the text and the text is also very different. Therefore, in the embodiment of the present invention, the first and second line spacing between the directory entry and the text, and the font size and format of the directory entry character and the body text, and the second line spacing between the text and the first text. Can be divided into one or more block structure characters.

内容属性情報は文字情報及び行間隔情報を含む。また、本発明の実施例において、ブロック構造文字は、段落構造文字又は行構造文字を含む。ディレクトリエントリ文字と本文文字のフォントサイズ及びフォーマットの少なくともいずれか、並びに、ディレクトリと本文間の第1の行間隔と本文間の第2の行間隔によって、自動的に段落又は行をなすという方式によって、第1の文章内容を対応する段落構造文字又は行構造文字に分割することができる。   The content attribute information includes character information and line spacing information. In the embodiment of the present invention, the block structure character includes a paragraph structure character or a line structure character. By the method of automatically forming paragraphs or lines according to the font size and format of directory entry characters and body characters, as well as the first line spacing between the directory and the body and the second line spacing between the body. The first sentence content can be divided into corresponding paragraph structure characters or line structure characters.

ステップ103では、各ブロック構造文字において、現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字を検索する。   In step 103, in each block structure character, a first block structure character matching the name character of the current directory entry is searched.

本発明の実施例では、設定されたマッチングモジュールを利用して、各ブロック構造文字において現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字を検索することができる。マッチングモジュールが多種多様であるため、マッチング検索の工程も多様性に富んでいる。   In the embodiment of the present invention, it is possible to search for the first block structure character that matches the name character of the current directory entry in each block structure character using the set matching module. Since there are a wide variety of matching modules, the matching search process is also diverse.

ステップ104では、第1のブロック構造文字の第1の文章内容における第1の位置情報を取得する。   In step 104, first position information in the first sentence content of the first block structure character is acquired.

現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字が見つかったので、第1のブロック構造文字の第1の文章内容における第1の位置情報を取得することができる。ここで、第1の位置情報は、所属するページのページ情報、座標情報、横方向の開始ライン座標情報、及び横方向の終止ライン座標情報のうちの1種以上を含む。   Since the first block structure character that matches the name character of the current directory entry is found, the first position information in the first sentence content of the first block structure character can be acquired. Here, the first position information includes at least one of page information of the page to which the user belongs, coordinate information, horizontal start line coordinate information, and horizontal end line coordinate information.

ステップ105では、第1の位置情報に基づいて現在のディレクトリエントリの開始位置情報及び現在のディレクトリエントリの1つ前のディレクトリエントリの終了位置情報を取得する。   In step 105, the start position information of the current directory entry and the end position information of the directory entry immediately before the current directory entry are acquired based on the first position information.

一般的に、第1の位置情報を現在のディレクトリエントリの開始位置情報として特定し、第1のブロック構造文字の前のブロック構造文字の位置情報を1つ前のディレクトリエントリの終了位置情報として特定することができる。   Generally, the first position information is specified as the start position information of the current directory entry, and the position information of the block structure character before the first block structure character is specified as the end position information of the previous directory entry. can do.

しかし、第1の位置情報が第1の文章内容の終了ブロック構造文字の位置情報である場合に、開始ページ番号情報に対応する次のページの第2の文章内容を文字の属性情報に応じて少なくとも1つのブロック構造文字に分割すると共に、第1の位置情報及び第2の文章内容の開始ブロック構造文字の位置情報に基づいて、現在のディレクトリエントリの開始位置情報を特定し、即ち、両者の位置情報を組み合わせて現在のディレクトリエントリの開始位置情報を特定する。   However, when the first position information is the position information of the end block structure character of the first sentence content, the second sentence content of the next page corresponding to the start page number information is set according to the character attribute information. Dividing into at least one block structure character and identifying the start position information of the current directory entry based on the first position information and the position information of the start block structure character of the second sentence content, i.e., both The start position information of the current directory entry is specified by combining the position information.

第1の位置情報が第1の文章内容の開始ブロック構造文字の位置情報である場合に、開始ページ番号情報に対応する前のページの第3の文章内容を文字の属性情報に応じて少なくとも1つのブロック構造文字に分割すると共に、第1の位置情報及び第3の文章内容の終了ブロック構造文字の位置情報に基づいて、現在のディレクトリエントリの1つ前のディレクトリエントリの終了位置情報を特定する。同様に、両者の位置情報を組み合わせて現在のディレクトリエントリの開始位置情報を特定する。   When the first position information is the position information of the start block structure character of the first sentence content, the third sentence content of the previous page corresponding to the start page number information is at least 1 according to the character attribute information It is divided into two block structure characters, and the end position information of the directory entry immediately before the current directory entry is specified based on the first position information and the position information of the end block structure character of the third sentence content. . Similarly, the start position information of the current directory entry is specified by combining the position information of both.

ここまでのステップで、現在のディレクトリエントリに対応する構造化情報の取得が完了されている。このとき、レイアウトファイルのディレクトリデータ情報を更新することができる。即ち、本発明の実施例は、さらに、下記のステップを含む。   Up to this point, the acquisition of structured information corresponding to the current directory entry has been completed. At this time, the directory data information of the layout file can be updated. That is, the embodiment of the present invention further includes the following steps.

ステップ106では、現在のディレクトリエントリの開始位置情報及び1つ前のディレクトリエントリの終了位置情報に基づいて、レイアウトファイルのディレクトリエントリデータ情報を更新する。   In step 106, the directory entry data information of the layout file is updated based on the start position information of the current directory entry and the end position information of the previous directory entry.

ここで、特定された現在のディレクトリエントリの開始位置情報及び1つ前のディレクトリエントリの終了位置情報を、ディレクトリデータ情報に対応するXMLファイル中に付加してもよい。   Here, the start position information of the specified current directory entry and the end position information of the previous directory entry may be added to the XML file corresponding to the directory data information.

本発明の実施例では、さらに、あらゆるディレクトリエントリに対応する構造化情報の取得を終えた後、レイアウトファイルのディレクトリデータ情報を再び更新することができる。   In the embodiment of the present invention, the directory data information of the layout file can be updated again after obtaining the structured information corresponding to any directory entry.

このように、開始ページ番号情報に対応したページの第1の文章内容、または開始ページ番号情報に対応したページの第1の文章内容及び開始ページ番号情報に対応する次のページの第2の文章内容、または開始ページ番号情報に対応したページの第1の文章内容及び開始ページ番号情報に対応する前のページの第3の文章内容に対して解析及びマッチングさえ行えば、ディレクトリエントリに対応する構造化情報を取得することができる。つまり、特定ページの文章内容に対して解析及びマッチングさえ行えば、レイアウトファイルの構造化情報を得ることができる。そのため、レイアウトファイルの構造化速度を速めることが可能となる。   Thus, the first sentence content of the page corresponding to the start page number information, or the first sentence content of the page corresponding to the start page number information and the second sentence of the next page corresponding to the start page number information A structure corresponding to a directory entry as long as it analyzes and matches the first sentence contents of the page corresponding to the contents or the starting page number information and the third sentence contents of the previous page corresponding to the starting page number information. Information can be acquired. That is, the structured information of the layout file can be obtained by performing analysis and matching on the text content of a specific page. For this reason, the structuring speed of the layout file can be increased.

上記のステップ103においては、マッチングモジュールが多種多様であるため、各ブロック構造文字において現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字を検索するマッチング検索の工程も多様性を有している。例えば、各ブロック構造文字において現在のディレクトリエントリの名称文字中の各文字にマッチングするブロック構造文字があるか否かを直接的に検索し、レイアウトファイルの品質が高ければ、この方法によりマッチング検索の工程を完了することができる。本発明の実施例では、マッチングの正確率を向上させるために、別のマッチングモジュールを追加することもできる。図2に示すように、具体的な検索工程は下記のステップを含む。   In step 103 above, since there are a wide variety of matching modules, the matching search process for searching for the first block structure character that matches the name character of the current directory entry in each block structure character is also diverse. ing. For example, in each block structure character, it is directly searched whether there is a block structure character that matches each character in the name character of the current directory entry. If the quality of the layout file is high, the matching search is performed by this method. The process can be completed. In an embodiment of the present invention, another matching module may be added in order to improve the accuracy rate of matching. As shown in FIG. 2, the specific search process includes the following steps.

ステップ201では、各ブロック構造文字において、現在のディレクトリエントリの名称文字中の各文字にマッチングするブロック構造文字があるか否かを検索し、マッチングするブロック構造文字がある場合に、ステップ206を実行し、マッチングするブロック構造文字がない場合に、ステップ202を実行する。   In step 201, each block structure character is searched for a block structure character that matches each character in the name characters of the current directory entry. If there is a matching block structure character, step 206 is executed. If there is no matching block structure character, step 202 is executed.

ステップ202では、正規表現式を用い、各ブロック構造文字において、現在のディレクトリエントリの名称文字にマッチングするブロック構造文字があるか否かを検索し、マッチングするブロック構造文字がある場合に、ステップ206を実行し、マッチングするブロック構造文字がない場合に、ステップ203を実行する。   In step 202, a regular expression is used to search each block structure character for a block structure character that matches the name character of the current directory entry. If there is a matching block structure character, step 206 is executed. If there is no matching block structure character, step 203 is executed.

ここで、ステップ201ではマッチングの要求を満足できなかったので、各ブロック構造文字及び現在のディレクトリエントリの名称文字のうちに、マッチングに影響を与える恐れのある文字、例えば、ブランク、修飾符号及びマッチングに影響を与える恐れのあるほかの文字を削除することができる。   Here, since the matching request could not be satisfied in step 201, characters that may affect the matching among the block structure characters and the name characters of the current directory entry, such as blanks, modifier codes, and matching You can delete other characters that could affect

その後、処理済の文字を設定された正規表現式に従ってマッチングを行う。正規表現式とは、ある様態で1つの文字列をマッチングするための公式である。当該公式を用いてマッチングを行い、現在のディレクトリエントリの名称文字にマッチングするブロック構造文字を得る。   Thereafter, matching is performed on the processed characters according to the set regular expression. A regular expression is a formula for matching one character string in a certain manner. Matching is performed using the formula to obtain block structure characters that match the name characters of the current directory entry.

ステップ203では、1文字ずつのマッチングにより、各ブロック構造文字と現在のディレクトリエントリの名称文字との間のマッチング度を算出する。   In step 203, the matching degree between each block structure character and the name character of the current directory entry is calculated by matching character by character.

例えば、1つのブロック構造文字と前のディレクトリエントリの名称文字とは、半分の文字が同じであれば、マッチング度が50%である。或いは、他の割合を採用してもよい。   For example, if one block structure character and the name character of the previous directory entry have the same half character, the matching degree is 50%. Alternatively, other ratios may be adopted.

ステップ204では、マッチング度が閾値以上であるか否かを判定し、マッチング度が閾値以上である場合に、ステップ205を実行し、マッチング度が閾値以上でない場合に、マッチング工程が失敗となる。ここで、様々なロットのレイアウトファイルの組版の実状に応じて閾値を調節することで、高いマッチング度を図ることができる。   In step 204, it is determined whether or not the matching degree is greater than or equal to a threshold value. If the matching degree is greater than or equal to the threshold value, step 205 is executed. If the matching degree is not greater than or equal to the threshold value, the matching process fails. Here, a high matching degree can be achieved by adjusting the threshold value according to the actual state of the typesetting of the layout files of various lots.

ステップ205では、マッチング度に対応するブロック構造文字を第1のブロック構造文字として特定する。   In step 205, the block structure character corresponding to the matching degree is specified as the first block structure character.

ステップ206では、検索されたブロック構造文字を第1のブロック構造文字として特定する。   In step 206, the retrieved block structure character is specified as the first block structure character.

以上のステップによって、現在のディレクトリエントリの名称文字にマッチングするブロック構造文字を基本的に検索することが可能である。本発明の実施例では、ステップ201の前に、各ブロック構造文字及び現在のディレクトリエントリの名称文字を全角文字か半角文字に統合させる必要がある。そうすると、後続のマッチング検索を容易に行うことができる。   Through the above steps, it is possible to basically search for a block structure character that matches the name character of the current directory entry. In the embodiment of the present invention, before step 201, it is necessary to integrate each block structure character and the name character of the current directory entry into a full-width character or a half-width character. Then, the subsequent matching search can be easily performed.

以下、明細書の図面を参照して本発明の実施例について更に詳細に説明する。   Hereinafter, embodiments of the present invention will be described in more detail with reference to the drawings of the specification.

本実施例では、レイアウトファイルのディレクトリデータ情報は図3に示す如くであり、現在のディレクトリエントリの名称文字が「第二章 裁定取引なし原理」である例について説明する。当該レイアウトファイルの構造化情報の取得工程は下記のステップを含む。   In the present embodiment, the directory data information of the layout file is as shown in FIG. 3, and an example in which the name character of the current directory entry is “Chapter 2 No arbitrage principle” will be described. The process for acquiring structured information of the layout file includes the following steps.

現在のディレクトリエントリに対応する開始ページ番号情報が「16]であると特定する。その後、ページ16における第1の文章内容を内容属性情報ごとに少なくとも1つのブロック構造文字に分割し、各ブロック構造文字において、現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字を検索すると共に第1のブロック構造文字の第1の文章内容における第1の位置情報を取得する。ここで、第1の位置情報は、"ebookPageNum="16" left="1740" top="396" right="3016" buttom="587" startVerticalPos="396" endVerticalPos="4082"を含む。   The starting page number information corresponding to the current directory entry is identified as “16.” Then, the first sentence content on page 16 is divided into at least one block structure character for each content attribute information, and each block structure is divided. In the character, the first block structure character matching the name character of the current directory entry is searched, and the first position information in the first sentence content of the first block structure character is acquired. The position information of "ebookPageNum =" 16 "left =" 1740 "top =" 396 "right =" 3016 "buttom =" 587 "startVerticalPos =" 396 "endVerticalPos =" 4082 ".

第1の位置情報は第1の文章内容の開始ブロック構造文字の位置情報であるので、ページ15中の第3の文章内容を文字の属性情報に応じて少なくとも1つのブロック構造文字に分割すると共に第3の文章内容の終了ブロック構造文字の位置情報を取得する。終了ブロック構造文字は現在のディレクトリエントリの名称文字とマッチングしないので、該第3の文章内容の終了ブロック構造文字の位置情報は1つ前のディレクトリエントリの終了位置情報である。例えば、当該情報の中に、ebookEndLPageNum=15、endvertiempos=2341などを含む。第1の位置情報は現在のディレクトリエントリの開始位置情報である。例えば、当該情報の中に、ebookPageNum="16" left="1740" top="396" right="3016" buttom="587" startVerticalPos="396" endVerticalPos="4082"を含む。   Since the first position information is the position information of the first block structure character of the first sentence content, the third sentence content in page 15 is divided into at least one block structure character according to the character attribute information The position information of the end block structure character of the third sentence content is acquired. Since the end block structure character does not match the name character of the current directory entry, the position information of the end block structure character of the third sentence content is the end position information of the previous directory entry. For example, the information includes ebookEndLPageNum = 15, endvertiempos = 2341, and the like. The first position information is start position information of the current directory entry. For example, the information includes ebookPageNum = "16" left = "1740" top = "396" right = "3016" buttom = "587" startVerticalPos = "396" endVerticalPos = "4082".

開始ページ番号情報に対応する次のページの第2の文章内容に対する解析及びマッチング工程はこれと類似するので、ここでは詳しい説明を省略する。   Since the analysis and matching process for the second sentence content on the next page corresponding to the start page number information is similar to this, detailed description is omitted here.

以上の工程により、各ディレクトリエントリに対して構造化情報を取得し、最後に取得された構造化情報に基づいて最初のレイアウトファイルに対するディレクトリデータ情報を更新する。更新済みの構造化されたディレクトリデータ情報は図4に示す如くである。   Through the above steps, structured information is acquired for each directory entry, and directory data information for the first layout file is updated based on the finally acquired structured information. The updated structured directory data information is as shown in FIG.

本発明の実施例では、図5に示すように、ディレクトリエントリに対応する文章内容を、更新済みの構造化されたディレクトリデータ情報に対応するディレクトリエントリに追加して、構造化されたレイアウトファイルデータ情報を形成してもよい。そうすると、システムは構造化対象となるあらゆるレイアウトファイルデータ情報を自動的に走査し、それぞれに文章化処理を行って出力することができるため、書籍のレイアウトファイルの具体的なディレクトリエントリのレイアウト及びストリーミング閲覧形式を単独に提供することが可能となる。   In the embodiment of the present invention, as shown in FIG. 5, the text content corresponding to the directory entry is added to the directory entry corresponding to the updated structured directory data information, and the structured layout file data is added. Information may be formed. Then, the system can automatically scan all the layout file data information to be structured, and can process and output each text file, so that the layout and streaming of specific directory entries in the book layout file It becomes possible to provide a browsing format independently.

上述したレイアウトファイルの構造化情報の取得方法によれば、レイアウトファイルにおける構造化情報の取得装置を構成することができる。図6に示すように、当該装置は、特定手段100と、分割手段200と、マッチング手段300と、取得手段400とを備える。
特定手段100は、現在のディレクトリエントリに対応する開始ページ番号情報を特定する。
分割手段200は、開始ページ番号情報に対応したページの第1の文章内容を、内容属性情報に応じて少なくとも1つのブロック構造文字に分割する。
マッチング手段300は、各ブロック構造文字において現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字を検索すると共に、第1のブロック構造文字の第1の文章内容における第1位置情報を取得する。
取得手段400は、第1位置情報に基づいて現在のディレクトリエントリの開始位置情報及び現在のディレクトリエントリの1つ前のディレクトリエントリの終了位置情報を取得する。
According to the layout file structured information acquisition method described above, it is possible to configure an apparatus for acquiring structured information in a layout file. As shown in FIG. 6, the apparatus includes a specifying unit 100, a dividing unit 200, a matching unit 300, and an acquiring unit 400.
The specifying unit 100 specifies start page number information corresponding to the current directory entry.
The dividing unit 200 divides the first sentence content of the page corresponding to the start page number information into at least one block structure character according to the content attribute information.
Matching means 300 searches for the first block structure character that matches the name character of the current directory entry in each block structure character, and obtains the first position information in the first sentence content of the first block structure character To do.
The acquisition unit 400 acquires the start position information of the current directory entry and the end position information of the directory entry immediately before the current directory entry based on the first position information.

ここで、分割手段200は、ディレクトリエントリ文字と本文文字のフォントサイズ及びフォーマットの少なくともいずれか、並びに、ディレクトリと本文間の第1の行間隔と本文間の第2の行間隔によって、第1の文章内容を少なくとも1つのブロック構造文字に分割する。ここで、ブロック構造文字は段落構造文字又は行構造文字を含む。   Here, the dividing means 200 has the first entry according to at least one of the font size and format of the directory entry character and the body character, and the first line interval between the directory and the body and the second line interval between the body. Divide the text content into at least one block structure character. Here, the block structure character includes a paragraph structure character or a line structure character.

マッチング手段300は、各ブロック構造文字において、現在のディレクトリエントリの名称文字中の各文字にマッチングするブロック構造文字があるか否かを検索し、マッチングするブロック構造文字がある場合に、検索されたブロック構造文字を第1のブロック構造文字として特定し、マッチングするブロック構造文字がない場合に、正規表現式を用い、各ブロック構造文字において現在のディレクトリエントリの名称文字にマッチングするブロック構造文字があるか否かを検索し、マッチングするブロック構造文字がある場合に、検索されたブロック構造文字を第1のブロック構造文字として特定し、マッチングするブロック構造文字がない場合に、1文字ずつのマッチングにより、各ブロック構造文字と現在のディレクトリエントリの名称文字との間のマッチング度を算出し、マッチング度が設定された閾値になった時に、マッチング度に対応するブロック構造文字を第1のブロック構造文字として特定する。   The matching means 300 searches for each block structure character whether there is a block structure character that matches each character in the name characters of the current directory entry. If there is a matching block structure character, the matching means 300 is searched. If a block structure character is identified as the first block structure character and there is no matching block structure character, there is a block structure character that matches the name character of the current directory entry in each block structure character using a regular expression expression If there is a block structure character that matches, the block structure character that was searched is identified as the first block structure character, and if there is no matching block structure character, one character is matched , Each block structure character and the name statement of the current directory entry Calculating a degree of matching between, when it is threshold matching level is set to identify the block structure character corresponding to the matching degree as the first block structure characters.

マッチング手段300は、さらに、各ブロック構造文字及び現在のディレクトリエントリの名称文字を全角文字又は半角文字として統合する。   The matching means 300 further integrates each block structure character and the name character of the current directory entry as a full-width character or a half-width character.

取得手段400は、一般的に、第1の位置情報を現在のディレクトリエントリの開始位置情報として特定し、第1のブロック構造文字の前のブロック構造文字の位置情報を現在のディレクトリエントリの1つ前のディレクトリエントリの終了位置情報として特定する。   The acquisition unit 400 generally identifies the first position information as the start position information of the current directory entry, and obtains the position information of the block structure character before the first block structure character as one of the current directory entries. It is specified as end position information of the previous directory entry.

取得更新手段400は、さらに、具体的に、第1の位置情報が第1の文章内容の終了ブロック構造文字の位置情報である場合に、開始ページ番号情報に対応する次のページの第2の文章内容を文字の属性情報に応じて少なくとも1つのブロック構造文字に分割すると共に、第1の位置情報及び第2の文章内容の開始ブロック構造文字の位置情報に基づいて、現在のディレクトリエントリの開始位置情報を特定し、第1の位置情報が第1の文章内容の開始ブロック構造文字の位置情報である場合に、開始ページ番号情報に対応する前のページの第3の文章内容を文字の属性情報に応じて少なくとも1つのブロック構造文字に分割すると共に、第1の位置情報及び第3の文章内容の終了ブロック構造文字の位置情報に基づいて、現在のディレクトリエントリの1つ前のディレクトリエントリの終了位置情報を特定する。   Further, the acquisition update means 400 further specifically, when the first position information is the position information of the end block structure character of the first sentence content, the second page of the next page corresponding to the start page number information The sentence content is divided into at least one block structure character according to the character attribute information, and the start of the current directory entry is based on the first position information and the position information of the start block structure character of the second sentence content If the position information is specified and the first position information is the position information of the start block structure character of the first sentence content, the third sentence content of the previous page corresponding to the start page number information is the character attribute It is divided into at least one block structure character according to the information, and based on the first position information and the position information of the end block structure character of the third sentence content, the data before the current directory entry is deleted. Specifies the end position information of the directory entry.

本発明の実施例によると、特定ページの文章内容に対して解析及びマッチングさえ行えば、レイアウトファイルの構造化情報を得ることができるため、レイアウトファイルの構造化速度を速めることが可能となる。   According to the embodiment of the present invention, the structured information of the layout file can be obtained only by analyzing and matching the text content of the specific page, so that the structuring speed of the layout file can be increased.

また、各ブロック構造文字において、現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字を検索する場合に、マッチング方式が多種多様であり、1つのマッチング方式が当たらなくとも、さらに複数種のマッチング方式が存在しているため、マッチング検索の成功率が高い。   Also, in each block structure character, when searching for the first block structure character that matches the name character of the current directory entry, there are a variety of matching methods, and even if one matching method does not hit, more than one type Because of this matching method, the success rate of matching search is high.

大量のレイアウトファイルデータの構造化の製造工程において、設定されたマッチングモジュールに基づいて解析及びマッチングを行うことにより、人工による介入がなくても大量に解析結果を取得することが可能となるため、大量の体力を節約することができる。   In the manufacturing process of structuring a large amount of layout file data, it is possible to obtain a large amount of analysis results without any artificial intervention by performing analysis and matching based on the set matching module, A large amount of physical strength can be saved.

本発明の精神及び範囲から逸脱しないかぎり、当業者が本発明に対して様々な変更や変形を行うことができることは明らかである。これらの変更や変形は本発明の特許請求の範囲及び均等的な範囲に該当すれば、本発明の範囲内に含まれる。   It will be apparent to those skilled in the art that various modifications and variations can be made to the present invention without departing from the spirit and scope of the invention. These changes and modifications are included in the scope of the present invention if they fall within the scope of the claims and equivalent scope of the present invention.

Claims (10)

現在のディレクトリエントリに対応する開始ページ番号情報を特定するステップと、
前記開始ページ番号情報に対応したページの第1の文章内容を、内容属性情報に応じて少なくとも1つのブロック構造文字に分割するステップと、
前記ブロック構造文字の各々において前記現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字を検索すると共に、前記第1のブロック構造文字の前記第1の文章内容における第1位置情報を取得するステップと、
前記第1位置情報に基づいて前記現在のディレクトリエントリの開始位置情報及び前記現在のディレクトリエントリの1つ前のディレクトリエントリの終了位置情報を取得するするステップと、
を含むことを特徴とするレイアウトファイルにおける構造化情報の取得方法。
Identifying starting page number information corresponding to the current directory entry;
Dividing the first sentence content of the page corresponding to the start page number information into at least one block structure character according to the content attribute information;
Search for a first block structure character that matches the name character of the current directory entry in each of the block structure characters, and obtain first position information in the first sentence content of the first block structure character And steps to
Obtaining start position information of the current directory entry and end position information of a directory entry immediately before the current directory entry based on the first position information;
A method for obtaining structured information in a layout file, comprising:
前記内容属性情報に応じて少なくとも1つのブロック構造文字の分割するステップにおいては、
ディレクトリエントリ文字と本文文字のフォントサイズ及びフォーマットの少なくともいずれか、並びに、ディレクトリと本文間の第1の行間隔と本文間の第2の行間隔によって、前記第1の文章内容を少なくとも1つのブロック構造文字に分割し、
前記ブロック構造文字は段落構造文字又は行構造文字を含むことを特徴とする請求項1に記載の方法。
In the step of dividing at least one block structure character according to the content attribute information,
At least one block of the first sentence content according to at least one of the font size and format of the directory entry character and the body character, and the first line spacing between the directory and the body and the second line spacing between the body. Split into structural characters,
2. The method according to claim 1, wherein the block structure character includes a paragraph structure character or a line structure character.
前記ブロック構造文字の各々において前記現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字の検索するステップにおいては、
前記ブロック構造文字の各々において、前記現在のディレクトリエントリの名称文字中の各文字にマッチングするブロック構造文字があるか否かを検索し、マッチングするブロック構造文字がある場合に、検索されたブロック構造文字を第1のブロック構造文字として特定し、マッチングするブロック構造文字がない場合に、正規表現式を用い、前記ブロック構造文字の各々において前記現在のディレクトリエントリの名称文字にマッチングするブロック構造文字があるか否かを検索し、マッチングするブロック構造文字がある場合に、検索されたブロック構造文字を第1のブロック構造文字として特定し、マッチングするブロック構造文字がない場合に、1文字ずつのマッチングにより、前記ブロック構造文字の各々と前記現在のディレクトリエントリの名称文字との間のマッチング度を算出し、前記マッチング度が設定された閾値になった時に、前記マッチング度に対応するブロック構造文字を第1のブロック構造文字として特定することを特徴とする請求項1に記載の方法。
In the step of searching for a first block structure character that matches the name character of the current directory entry in each of the block structure characters,
In each of the block structure characters, it is searched whether there is a block structure character that matches each character in the name characters of the current directory entry. If there is a matching block structure character, the searched block structure When a character is identified as the first block structure character and there is no matching block structure character, a regular expression is used, and in each of the block structure characters, a block structure character that matches the name character of the current directory entry is If there is a matching block structure character, the block structure character searched is identified as the first block structure character, and if there is no matching block structure character, one character is matched Each of the block structure characters and the current directory Calculating a matching degree between the name character of the entry and specifying the block structure character corresponding to the matching degree as a first block structure character when the matching degree reaches a set threshold. The method according to claim 1.
前記ブロック構造文字の各々において前記現在のディレクトリエントリの名称文字中の各文字にマッチングするブロック構造文字があるか否かを検索する前に、前記ブロック構造文字の各々及び前記現在のディレクトリエントリの名称文字を全角文字又は半角文字として統合することを特徴とする請求項3に記載の方法。   Before searching for a block structure character that matches each character in the name characters of the current directory entry in each of the block structure characters, each of the block structure characters and the name of the current directory entry 4. The method according to claim 3, wherein the characters are integrated as full-width characters or half-width characters. 前記第1位置情報に基づいて前記現在のディレクトリエントリの開始位置情報及び前記現在のディレクトリエントリの1つ前のディレクトリエントリの終了位置情報を取得するステップにおいては、
前記第1の位置情報が前記第1の文章内容の終了ブロック構造文字の位置情報である場合に、前記開始ページ番号情報に対応する次のページの第2の文章内容を文字の属性情報に応じて少なくとも1つのブロック構造文字に分割すると共に、前記第1の位置情報及び前記第2の文章内容の開始ブロック構造文字の位置情報に基づいて、現在のディレクトリエントリの開始位置情報を特定し、
前記第1の位置情報が前記第1の文章内容の開始ブロック構造文字の位置情報である場合に、前記開始ページ番号情報に対応する前のページの第3の文章内容を文字の属性情報に応じて少なくとも1つのブロック構造文字に分割すると共に、前記第1の位置情報及び前記第3の文章内容の終了ブロック構造文字の位置情報に基づいて、前記1つ前のディレクトリエントリの終了位置情報を特定することを特徴とする請求項1に記載の方法。
In the step of acquiring the start position information of the current directory entry and the end position information of the directory entry immediately before the current directory entry based on the first position information,
When the first position information is the position information of the end block structure character of the first sentence content, the second sentence content of the next page corresponding to the start page number information is set according to the character attribute information. And at least one block structure character, and based on the first position information and the position information of the start block structure character of the second sentence content, to identify the start position information of the current directory entry,
When the first position information is the position information of the start block structure character of the first sentence content, the third sentence content of the previous page corresponding to the start page number information is in accordance with the character attribute information And ending position information of the previous directory entry is specified based on the first position information and the position information of the ending block structure character of the third sentence content. The method according to claim 1, wherein:
現在のディレクトリエントリに対応する開始ページ番号情報を特定する特定手段と、
前記開始ページ番号情報に対応したページの第1の文章内容を、内容属性情報に応じて少なくとも1つのブロック構造文字に分割する分割手段と、
前記ブロック構造文字の各々において前記現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字を検索すると共に、前記第1のブロック構造文字の前記第1の文章内容における第1位置情報を取得するマッチング手段と、
前記第1位置情報に基づいて前記現在のディレクトリエントリの開始位置情報及び前記現在のディレクトリエントリの1つ前のディレクトリエントリの終了位置情報を取得する取得手段と、
を備えることを特徴とするレイアウトファイルの構造化情報の取得装置。
Identifying means for identifying starting page number information corresponding to the current directory entry;
Dividing means for dividing the first sentence content of the page corresponding to the start page number information into at least one block structure character according to the content attribute information;
Search for a first block structure character that matches the name character of the current directory entry in each of the block structure characters, and obtain first position information in the first sentence content of the first block structure character Matching means to
Obtaining means for obtaining start position information of the current directory entry and end position information of a directory entry immediately before the current directory entry based on the first position information;
An apparatus for acquiring structured information of a layout file, comprising:
前記分割手段は、ディレクトリエントリ文字と本文文字のフォントサイズ及びフォーマットの少なくともいずれか、並びに、ディレクトリと本文間の第1の行間隔と本文間の第2の行間隔によって、前記第1の文章内容を少なくとも1つのブロック構造文字に分割し、
前記ブロック構造文字は段落構造文字又は行構造文字を含むことを特徴とする請求項6に記載の装置。
The dividing means includes the first sentence content according to at least one of a font size and a format of a directory entry character and a body character, and a first line interval between the directory and the body and a second line interval between the body. Is divided into at least one block structure character,
7. The apparatus according to claim 6, wherein the block structure character includes a paragraph structure character or a line structure character.
前記マッチング手段は、前記ブロック構造文字の各々において、前記現在のディレクトリエントリの名称文字中の各文字にマッチングするブロック構造文字があるか否かを検索し、マッチングするブロック構造文字がある場合に、検索されたブロック構造文字を第1のブロック構造文字として特定し、マッチングするブロック構造文字がない場合に、正規表現式を用い、前記ブロック構造文字の各々において前記現在のディレクトリエントリの名称文字にマッチングするブロック構造文字があるか否かを検索し、マッチングするブロック構造文字がある場合に、検索されたブロック構造文字を第1のブロック構造文字として特定し、マッチングするブロック構造文字がない場合に、1文字ずつのマッチングにより、前記ブロック構造文字の各々と前記現在のディレクトリエントリの名称文字との間のマッチング度を算出し、前記マッチング度が設定された閾値になった時に、前記マッチング度に対応するブロック構造文字を第1のブロック構造文字として特定することを特徴とする請求項6に記載の装置。   The matching means searches whether there is a block structure character that matches each character in the name character of the current directory entry in each of the block structure characters, and when there is a matching block structure character, The searched block structure character is identified as the first block structure character, and when there is no matching block structure character, a regular expression is used to match the name character of the current directory entry in each of the block structure characters If there is a block structure character to match, if there is a matching block structure character, specify the searched block structure character as the first block structure character, and if there is no matching block structure character, By matching one character at a time, The degree of matching with the name character of the current directory entry is calculated, and the block structure character corresponding to the matching degree is specified as the first block structure character when the matching degree reaches a set threshold. The apparatus according to claim 6, wherein: 前記マッチング手段は、さらに、前記ブロック構造文字の各々及び前記現在のディレクトリエントリの名称文字を全角文字又は半角文字として統合することを特徴とする請求項8に記載の装置。   9. The apparatus according to claim 8, wherein the matching unit further integrates each of the block structure characters and the name character of the current directory entry as a full-width character or a half-width character. 前記取得手段は、
前記第1の位置情報が前記第1の文章内容の終了ブロック構造文字の位置情報である場合に、前記開始ページ番号情報に対応する次のページの第2の文章内容を文字の属性情報に応じて少なくとも1つのブロック構造文字に分割すると共に、前記第1の位置情報及び前記第2の文章内容の開始ブロック構造文字の位置情報に基づいて、現在のディレクトリエントリの開始位置情報を特定し、
前記第1の位置情報が前記第1の文章内容の開始ブロック構造文字の位置情報である場合に、前記開始ページ番号情報に対応する前のページの第3の文章内容を文字の属性情報に応じて少なくとも1つのブロック構造文字に分割すると共に、前記第1の位置情報及び前記第3の文章内容の終了ブロック構造文字の位置情報に基づいて、前記1つ前のディレクトリエントリの終了位置情報を特定することを特徴とする請求項9に記載の装置。
The acquisition means includes
When the first position information is the position information of the end block structure character of the first sentence content, the second sentence content of the next page corresponding to the start page number information is set according to the character attribute information. And at least one block structure character, and based on the first position information and the position information of the start block structure character of the second sentence content, to identify the start position information of the current directory entry,
When the first position information is the position information of the start block structure character of the first sentence content, the third sentence content of the previous page corresponding to the start page number information is in accordance with the character attribute information And ending position information of the previous directory entry is specified based on the first position information and the position information of the ending block structure character of the third sentence content. 10. The device according to claim 9, wherein:
JP2014520525A 2011-12-09 2012-12-07 Method and apparatus for acquiring structured information in layout file Expired - Fee Related JP5930496B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201110409463.XA CN103164388B (en) 2011-12-09 2011-12-09 In a kind of layout files structured message obtain method and device
CN201110409463.X 2011-12-09
PCT/CN2012/086137 WO2013083067A1 (en) 2011-12-09 2012-12-07 Method and device for acquiring structured information in layout file

Publications (2)

Publication Number Publication Date
JP2014527660A true JP2014527660A (en) 2014-10-16
JP5930496B2 JP5930496B2 (en) 2016-06-08

Family

ID=48573563

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014520525A Expired - Fee Related JP5930496B2 (en) 2011-12-09 2012-12-07 Method and apparatus for acquiring structured information in layout file

Country Status (6)

Country Link
US (1) US9773009B2 (en)
EP (1) EP2790111A4 (en)
JP (1) JP5930496B2 (en)
KR (1) KR20140053888A (en)
CN (1) CN103164388B (en)
WO (1) WO2013083067A1 (en)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346322B (en) * 2013-08-08 2018-07-10 北大方正集团有限公司 Document format processing unit and document format processing method
CN104536948A (en) * 2014-12-10 2015-04-22 百度在线网络技术(北京)有限公司 Layout document processing method and device
CN107330077B (en) * 2017-07-01 2020-07-14 广东电网有限责任公司信息中心 Retrieval method of digital archive
CN109684980B (en) * 2018-09-19 2022-12-13 腾讯科技(深圳)有限公司 Automatic scoring method and device
CN111176640B (en) * 2018-11-13 2022-05-13 武汉斗鱼网络科技有限公司 Layout level display method, storage medium, device and system in Android engineering
CN111414741B (en) * 2018-12-19 2022-06-14 北大方正集团有限公司 Method, device, equipment and medium for making format template of publication
CN110196670A (en) * 2019-05-31 2019-09-03 数坤(北京)网络科技有限公司 A kind of document creation method, equipment and computer readable storage medium
CN110287465B (en) * 2019-06-22 2022-04-05 广州视源电子科技股份有限公司 Text processing method, device, equipment and storage medium
CN110705503B (en) * 2019-10-14 2022-02-25 北京信息科技大学 Method and device for generating directory structured information
CN111046064B (en) * 2019-12-23 2023-05-19 掌阅科技股份有限公司 Method for acquiring book copyright information, electronic equipment and computer storage medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11232439A (en) * 1998-02-16 1999-08-27 Toshinari Hayashi Document picture structure analysis method
JP2001265762A (en) * 2000-03-21 2001-09-28 Matsushita Electric Ind Co Ltd Document structure extracting device and document structure information extracting method
JP2003288334A (en) * 2002-03-28 2003-10-10 Toshiba Corp Document processor and document processing method
JP2009134741A (en) * 2001-06-14 2009-06-18 Sharp Corp Data processing method

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW421764B (en) * 1996-05-21 2001-02-11 Hitachi Ltd Input character string estimation and identification apparatus
JP2001052116A (en) * 1999-08-06 2001-02-23 Toshiba Corp Device and method for matching pattern stream, device and method for matching character string
US7142728B2 (en) * 2002-05-17 2006-11-28 Science Applications International Corporation Method and system for extracting information from a document
US7240047B2 (en) * 2002-12-23 2007-07-03 Hewlett-Packard Development Company, L.P. Apparatus and method for market-based document layout selection
US7383500B2 (en) * 2004-04-30 2008-06-03 Microsoft Corporation Methods and systems for building packages that contain pre-paginated documents
JP2006163651A (en) * 2004-12-03 2006-06-22 Sony Computer Entertainment Inc Display device, control method of display device, program and font data
US7676741B2 (en) * 2006-01-31 2010-03-09 Microsoft Corporation Structural context for fixed layout markup documents
US7721198B2 (en) * 2006-01-31 2010-05-18 Microsoft Corporation Story tracking for fixed layout markup documents
US7917493B2 (en) 2007-04-19 2011-03-29 Retrevo Inc. Indexing and searching product identifiers
CN101571859B (en) * 2008-04-28 2013-01-02 国际商业机器公司 Method and apparatus for labelling document
CN101458680B (en) * 2008-09-03 2010-12-01 北京大学 Method and apparatus capable of auto identifying digital document catalog
CN101354727B (en) * 2008-09-24 2011-06-29 北京大学 Method and apparatus for establishing links between digital document catalog and text
JP2010157107A (en) * 2008-12-26 2010-07-15 Hitachi Software Eng Co Ltd Business document processor
US8254681B1 (en) * 2009-02-05 2012-08-28 Google Inc. Display of document image optimized for reading
EP2341467B1 (en) * 2009-09-24 2019-12-18 Nec Corporation Word recognition device, method, non-transitory computer readable medium storing program and shipped item classification device
CN101739391A (en) * 2009-12-16 2010-06-16 彭扬 Method for generating electronic book with binary file format and electronic book generated by same
US20130205202A1 (en) * 2010-10-26 2013-08-08 Jun Xiao Transformation of a Document into Interactive Media Content
US8645819B2 (en) * 2011-06-17 2014-02-04 Xerox Corporation Detection and extraction of elements constituting images in unstructured document files

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11232439A (en) * 1998-02-16 1999-08-27 Toshinari Hayashi Document picture structure analysis method
JP2001265762A (en) * 2000-03-21 2001-09-28 Matsushita Electric Ind Co Ltd Document structure extracting device and document structure information extracting method
JP2009134741A (en) * 2001-06-14 2009-06-18 Sharp Corp Data processing method
JP2003288334A (en) * 2002-03-28 2003-10-10 Toshiba Corp Document processor and document processing method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
南野 朋之 外3名: "blogの自動収集と監視", 情報処理学会研究報告, vol. 第2004巻第23号, JPN6015008920, 5 March 2004 (2004-03-05), JP, pages 129 - 136, ISSN: 0003289036 *

Also Published As

Publication number Publication date
WO2013083067A1 (en) 2013-06-13
KR20140053888A (en) 2014-05-08
CN103164388B (en) 2016-07-06
EP2790111A1 (en) 2014-10-15
CN103164388A (en) 2013-06-19
EP2790111A4 (en) 2015-12-09
US9773009B2 (en) 2017-09-26
JP5930496B2 (en) 2016-06-08
US20140289274A1 (en) 2014-09-25

Similar Documents

Publication Publication Date Title
JP5930496B2 (en) Method and apparatus for acquiring structured information in layout file
US10489448B2 (en) Method and system for dynamically ranking images to be matched with content in response to a search query
WO2019041521A1 (en) Apparatus and method for extracting user keyword, and computer-readable storage medium
EP3522029A1 (en) Natural language search results for intent queries
WO2019114430A1 (en) Natural language question understanding method and apparatus, and electronic device
CN102456054B (en) A kind of searching method and system
CN101950312B (en) Method for analyzing webpage content of internet
JP2013531289A (en) Use of model information group in search
CN102411617B (en) Method for storing and inquiring a large quantity of URLs
CN102306201B (en) Method and system for analyzing webpage title
CN102651002A (en) Webpage information extracting method and system
CN105373541A (en) Processing method and system for data operation request of database
CN110377796B (en) Text extraction method, device and equipment based on DOM tree and storage medium
JP2016518652A (en) Web page style address integration
CN108228657B (en) Method and device for realizing keyword retrieval
US20170255647A1 (en) Method for selecting images for matching with content based on metadata of images and content in real-time in response to search queries
JP2020123320A (en) Method, apparatus, device and storage medium for managing index
JP2018503173A (en) Method and apparatus for providing image presentation information
CN110390037B (en) Information classification method, device and equipment based on DOM tree and storage medium
CN106339381B (en) Information processing method and device
CN106326314B (en) Webpage information extraction method and device
CN104281575A (en) Webpage data obtaining method and template engine
CN105824976A (en) Method and device for optimizing word segmentation banks
US20130332824A1 (en) Embedded font processing method and device
CN105787032B (en) The generation method and device of snapshots of web pages

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150610

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160422

R150 Certificate of patent or registration of utility model

Ref document number: 5930496

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees