JP2019145038A - Generation device and generation method of display data of electronic book - Google Patents

Generation device and generation method of display data of electronic book Download PDF

Info

Publication number
JP2019145038A
JP2019145038A JP2018031282A JP2018031282A JP2019145038A JP 2019145038 A JP2019145038 A JP 2019145038A JP 2018031282 A JP2018031282 A JP 2018031282A JP 2018031282 A JP2018031282 A JP 2018031282A JP 2019145038 A JP2019145038 A JP 2019145038A
Authority
JP
Japan
Prior art keywords
data
line number
character
area
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018031282A
Other languages
Japanese (ja)
Other versions
JP6731011B2 (en
Inventor
恭子 古澤
Kyoko Furusawa
恭子 古澤
友紀 小平
Tomonori Kodaira
友紀 小平
佑介 田代
Yusuke Tashiro
佑介 田代
龍 飛田
Tatsu Hida
龍 飛田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shinano Kenshi Co Ltd
Original Assignee
Shinano Kenshi Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shinano Kenshi Co Ltd filed Critical Shinano Kenshi Co Ltd
Priority to JP2018031282A priority Critical patent/JP6731011B2/en
Publication of JP2019145038A publication Critical patent/JP2019145038A/en
Application granted granted Critical
Publication of JP6731011B2 publication Critical patent/JP6731011B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

To provide a generation device and a generation method of display data of an electronic book capable of automatically applying a page number or a line number.SOLUTION: A generation device 100 for display data of an electronic book comprises: region extraction means 10 for extracting a text region and a page number region from a layout in electronization data of a paper book; character data extraction means 20 for extracting plane coordinate data in electronization data of the paper book by extracting character data in each region; page number data application means 30 for setting the character data extracted from the page number region as page number data, and applying the page number data to a prescribed position in the text character data; and line number data application means 40 for setting pieces of text character data in which, one coordinate value of plane coordinate data in the text character data is a same value or in a prescribed range in which, the value is a center of the prescribed range, to a same text group, and applying a number corresponding to the text line number to the same text group as line number data.SELECTED DRAWING: Figure 2

Description

本発明は電子図書の表示用データの作成装置および電子図書の表示用データの作成方法に関し、より詳細には、オリジナル文書データである紙媒体の図書(以下、紙図書という)や文書の電子データを電子図書データ化する際において生成される電子図書の表示用データに自動的にページ番号と行番号を付与することが可能な電子図書の表示用データの作成装置および電子図書の表示用データの作成方法に関する。   The present invention relates to an electronic book display data creation apparatus and electronic book display data creation method, and more specifically, a paper medium book (hereinafter referred to as a paper book) which is original document data, and electronic data of a document. The electronic book display data creation device and the electronic book display data can be automatically assigned a page number and a line number to the electronic book display data generated when the data is converted into electronic book data. Regarding the creation method.

電子データとして予め記憶されている電子図書を音声として再生する装置が従来から知られている(例えば、特許文献1(特開2000−57752号公報)参照)。この特許文献1に開示されている装置は、DAISY(Digital Accessible Information SYstem)規格によるデジタル録音図書を再生する装置であり、特に視覚に障害がある人たちが読書を楽しむことが出来るように、本に記載されている文章情報を音声として読み上げることができる装置である。   2. Description of the Related Art Conventionally, an apparatus that reproduces an electronic book stored in advance as electronic data as sound is known (see, for example, Patent Document 1 (Japanese Patent Laid-Open No. 2000-57752)). The device disclosed in Patent Document 1 is a device that plays back a digitally recorded book according to the DAISY (Digital Accessible Information System) standard, and is especially useful for people who are visually impaired to enjoy reading. Is a device that can read out the text information described in the above as speech.

また、音声再生できる装置に表示部を設け、表示部にはテキストを表示させる装置も従来から知られている(例えば、特許文献2(特開2004−170444号公報)参照)。この特許文献2に開示されている装置は、特に英会話の練習用に用いられる装置であって、表示部には英文のテキストデータが表示され、スピーカからは表示部に表示されている英文の音声データが再生される。特許文献2に開示されている装置では、再生する音声データと表示部に表示させているテキストデータとを同期させ、現在再生中の音声データに該当するテキスト位置を対応付けすることが可能になる。   Further, an apparatus that includes a display unit in a device that can reproduce sound and displays text on the display unit has been conventionally known (for example, see Patent Document 2 (Japanese Patent Laid-Open No. 2004-170444)). The device disclosed in Patent Document 2 is a device used for practicing English conversation in particular, in which English text data is displayed on the display unit, and the English voice displayed on the display unit from the speaker. Data is played back. In the device disclosed in Patent Document 2, it is possible to synchronize the audio data to be reproduced and the text data displayed on the display unit, and to associate the text position corresponding to the audio data currently being reproduced. .

特開2000−57752号公報JP 2000-57752 A 特開2004−170444号公報JP 2004-170444 A

特許文献1,2における電子図書の表示再生装置で用いられる電子図書は、フォントの大きさを可変したり、予め設定された位置情報を利用して特定の位置に移動したり再生を開始することができるため、紙の文字の読みに困難を持つ児童生徒への情報保障としても有効性が認められている。一方で、電子図書のフォントサイズを変更すると、オリジナルデータである紙図書や電子図書で使用可能なデータ形式にする前の元々の文書の電子データでの見た目(レイアウト)と電子図書の表示再生装置上での見た目が異なる場合がある。そのため、紙図書や元々の文書の電子データにおける文字位置と表示再生装置での文字位置が簡単に把握できるように、電子図書の表示用データにはページや行番号等の位置情報を含ませることが重要となる。   The electronic book used in the electronic book display / playback apparatus in Patent Documents 1 and 2 can change the font size, move to a specific position using preset position information, and start playing. Therefore, it is recognized as an effective information guarantee for students who have difficulty reading paper text. On the other hand, if the font size of the electronic book is changed, the original (paper) and original document electronic data appearance (layout) and the electronic book display / playback device before making the data format usable in the electronic book The above look may be different. For this reason, the display data of the electronic book should include position information such as page and line number so that the character position in the electronic data of the paper book or original document and the character position on the display / playback device can be easily grasped. Is important.

しかしながら、現状の電子図書の表示用データにおけるページ番号や行番号等の位置情報の設定は、紙図書から本文文字データを抽出した後、手作業で本文文字データ内に追加設定されている。このため、電子図書の表示用データの製作者に多大な作業負荷を負わせてしまうといった課題がある。   However, the setting of position information such as page number and line number in the current electronic book display data is manually set after extracting the text character data from the paper book. For this reason, there is a problem that a great work load is imposed on a producer of display data for electronic books.

そこで本発明は、オリジナル文書データである紙図書や文書の電子データを電子図書の表示用データに変換する際において、ページ番号や行番号を自動的に付与することが可能な電子図書の表示用データの作成装置および電子図書の表示用データの作成方法の提供を目的としている。   Therefore, the present invention is for displaying electronic books that can be automatically assigned page numbers and line numbers when converting electronic data of paper books and documents, which are original document data, into electronic book display data. An object of the present invention is to provide a data creation device and a method for creating display data for electronic books.

すなわち本発明は、オリジナル文書データの特定ページを電子図書装置に表示するための電子図書の表示用データ作成装置であって、前記オリジナル文書データの前記特定ページを電子データ化したオリジナル文書特定ページ電子化データにおけるレイアウトから、本文領域とページ番号領域とをそれぞれ抽出する領域抽出手段と、前記領域抽出手段により抽出された各領域における文字データを抽出すると共に、前記オリジナル文書特定ページ電子化データ内における各文字データの平面座標データを抽出する文字データ抽出手段と、前記文字データ抽出手段により前記ページ番号領域から抽出された文字データをページ番号データとし、前記文字データ抽出手段により前記本文領域から抽出された本文文字データの所定位置に前記ページ番号データを付与するページ番号データ付与手段と、前記平面座標データの一方の座標値が所定の範囲内にある前記本文文字データを同一行番号グループとし、前記同一行番号グループの各々に対し前記本文領域の始点側から順番に行番号データを付与する行番号データ付与手段と、を具備することを特徴とする電子図書の表示用データ作成装置である。   That is, the present invention is an electronic book display data creation device for displaying a specific page of original document data on an electronic book device, wherein the specified page of the original document data is converted into electronic data. Area extraction means for extracting a body area and a page number area from the layout in the digitized data, and character data in each area extracted by the area extraction means, and in the original document specific page digitized data Character data extracting means for extracting the plane coordinate data of each character data, and character data extracted from the page number area by the character data extracting means as page number data, and extracted from the body area by the character data extracting means The page at the specified position in the text data Page number data providing means for assigning issue data, and the body character data in which one coordinate value of the plane coordinate data is within a predetermined range as the same line number group, and the body text for each of the same line number groups An electronic book display data creation device comprising: line number data assigning means for assigning line number data in order from the start point of the region.

これにより、オリジナル文書データである紙図書や文書の電子データの特定ページを電子図書装置に表示するための電子図書の表示用データに変換する際において、本文文字データにページ番号と行番号を自動的に付与することが可能になる。   As a result, the page number and line number are automatically added to the body text data when converting a specific page of electronic data of a paper book or document as original document data into electronic book display data for display on the electronic book device. Can be granted automatically.

また、前記領域抽出手段は、前記オリジナル文書特定ページ電子化データ内における前記平面座標データおよび前記オリジナル文書特定ページ電子化データ内における前記文字データの大きさの少なくとも一方の情報に基づいて、前記本文領域と前記ページ番号領域との識別を行っていることが好ましい。   Further, the area extraction means is based on at least one information of the size of the character data in the plane coordinate data in the original document specific page digitized data and the original document specific page digitized data. It is preferable that the area and the page number area are identified.

これにより、オリジナル文書特定ページ電子化データ内から本文文字データとページ番号データとを混合させることなく適切に抽出することが可能になる。   Thereby, it is possible to appropriately extract the text character data and the page number data from the original document specific page digitized data without mixing them.

また、前記本文文字データをフレーズ毎に分割し分割フレーズを生成するフレーズ分割手段をさらに備え、前記行番号データ付与手段は、前記同一行番号グループの先頭位置に前記分割フレーズの始点位置または終点位置が存在しない場合には、前記同一行番号グループの先頭位置の直近位置における前記分割フレーズの前記始点位置または前記終点位置に前記行番号データを付与することが好ましい。   Further, the apparatus further comprises a phrase dividing unit that divides the body character data into phrases and generates a divided phrase, and the line number data adding unit includes a start position or an end point position of the divided phrase at a head position of the same line number group. Is not present, it is preferable that the line number data is added to the start point position or the end point position of the divided phrase at the position closest to the head position of the same line number group.

これにより、電子図書の表示用データを用いて特定の行番号にジャンプさせた際は必ずフレーズの区切れ位置を指定することができる。よって、電子図書装置において行番号を指定してジャンプさせた際には、文章の意味が把握し易く、読み出し位置が分かり易い電子図書の表示用データを提供することができる。   As a result, when jumping to a specific line number using the display data of the electronic book, it is possible to always specify the position where the phrase is separated. Therefore, when jumping by designating a line number in the electronic book apparatus, it is possible to provide electronic book display data that makes it easy to understand the meaning of the text and to easily read out the reading position.

また、オリジナル文書データの特定ページを電子図書装置に表示するための電子図書の表示用データ作成装置であって、前記紙図書の前記特定ページを電子データ化したオリジナル文書特定ページ電子化データにおけるレイアウトから、本文領域とページ番号領域と行番号領域とをそれぞれ抽出する領域抽出手段と、前記領域抽出手段により抽出された各領域における文字データを抽出すると共に、前記オリジナル文書特定ページ電子化データ内における各文字データの平面座標データを抽出する文字データ抽出手段と、前記文字データ抽出手段により前記ページ番号領域から抽出された文字データをページ番号データとし、前記文字データ抽出手段により前記本文領域から抽出された本文文字データの所定位置に前記ページ番号データを付与するページ番号データ付与手段と、前記文字データ抽出手段により前記行番号領域から抽出された文字データを行番号データとし、前記行番号データの前記平面座標データと前記本文文字データの前記平面座標データが所定条件を満たす場合、前記本文文字データに、前記行番号データを対応させて付与する行番号データ付与手段と、を具備することを特徴とする電子図書の表示用データ作成装置とすることもできる。   An electronic book display data creation device for displaying a specific page of original document data on an electronic book device, wherein the specific page of the paper book is converted into electronic data and the layout in the original document specific page digitized data And extracting the text data in each area extracted by the area extracting means, and extracting the text area, the page number area, and the line number area in the original document specific page digitized data. Character data extracting means for extracting the plane coordinate data of each character data, and character data extracted from the page number area by the character data extracting means as page number data, and extracted from the body area by the character data extracting means The page number data is added to the specified position of the text data. The page number data adding means to perform the character data extracted from the line number area by the character data extracting means as line number data, and the plane coordinate data of the line number data and the plane coordinate data of the text character data are When a predetermined condition is satisfied, the electronic book display data creation device may further include line number data adding means for adding the line number data in association with the text character data. .

これにより、オリジナル文書データである紙図書や文書の電子データの特定ページを電子図書装置に表示するための電子図書の表示用データに変換する際において、本文文字データにページ番号と行番号を自動的に付与することが可能になる。   As a result, the page number and line number are automatically added to the body text data when converting a specific page of electronic data of a paper book or document as original document data into electronic book display data for display on the electronic book device. Can be granted automatically.

また、前記領域抽出手段は、前記オリジナル文書特定ページ電子化データ内における前記平面座標データおよび前記オリジナル文書特定ページ電子化データ内における前記文字データの大きさの少なくとも一方の情報に基づいて、前記本文領域と前記ページ番号領域と前記行番号領域の識別を行っていることが好ましい。   Further, the area extraction means is based on at least one information of the size of the character data in the plane coordinate data in the original document specific page digitized data and the original document specific page digitized data. It is preferable that the area, the page number area, and the line number area are identified.

これにより、オリジナル文書特定ページ電子化データ内から本文文字データとページ番号データと行番号データを混合させることなく適切に抽出することが可能になる。   This makes it possible to appropriately extract the text character data, page number data, and line number data from the original document specific page digitized data without mixing them.

また、前記本文文字データをフレーズ毎に分割し分割フレーズを生成するフレーズ分割手段をさらに備え、前記行番号データ付与手段は、前記行番号データの前記平面座標データと前記本文文字データの前記平面座標データとが所定条件を満たす位置の先頭位置に前記分割フレーズの始点位置または終点位置が存在しない場合には、前記行番号データの前記平面座標データと前記本文文字データの前記平面座標データとが所定条件を満たす位置の先頭位置の直近位置における前記分割フレーズの前記始点位置または前記終点位置に前記行番号データを付与することが好ましい。   Further, the apparatus further comprises a phrase dividing unit that divides the body character data into phrases and generates a divided phrase, and the line number data adding unit includes the plane coordinate data of the line number data and the plane coordinates of the body character data. If the start position or the end position of the divided phrase does not exist at the head position where the data satisfies the predetermined condition, the plane coordinate data of the line number data and the plane coordinate data of the body character data are predetermined. It is preferable that the line number data is added to the start point position or the end point position of the divided phrase at a position closest to the start position of the position that satisfies the condition.

これにより、電子図書の表示用データを用いて特定の行番号にジャンプさせた際は必ずフレーズの区切れ位置を指定することができる。よって、電子図書装置において行番号を指定してジャンプさせた際には、文章の意味が把握し易く、読み出し位置が分かり易い電子図書の表示用データを提供することができる。   As a result, when jumping to a specific line number using the display data of the electronic book, it is possible to always specify the position where the phrase is separated. Therefore, when jumping by designating a line number in the electronic book apparatus, it is possible to provide electronic book display data that makes it easy to understand the meaning of the text and to easily read out the reading position.

また、オリジナル文書データの特定ページを電子図書装置に表示するための電子図書の表示用データ作成方法であって、前記オリジナル文書データの特定ページを電子データ化したオリジナル文書特定ページ電子化データにおけるレイアウトから、本文領域とページ番号領域とをそれぞれ抽出する領域抽出工程と、前記領域抽出工程により抽出された各領域における文字データを抽出すると共に、前記オリジナル文書特定ページ電子化データ内における各文字データの平面座標データを抽出する文字データ抽出工程と、前記文字データ抽出工程により前記ページ番号領域から抽出された文字データをページ番号データとし、前記文字データ抽出工程により前記本文領域から抽出された本文文字データの所定位置に前記ページ番号データを付与するページ番号データ付与工程と、前記平面座標データの一方の座標値が所定の範囲内にある前記本文文字データを同一行番号グループとし、前記同一行番号グループの各々に対し前記本文領域の始点側から順番に行番号データを付与する行番号データ付与工程と、を具備することを特徴とする電子図書の表示用データ作成方法がある。   An electronic book display data creation method for displaying a specific page of original document data on an electronic book device, wherein the specific page of the original document data is converted into electronic data and the layout in the original document specific page electronic data And extracting the text data in each area extracted by the area extracting step, and extracting the text data in the original document specific page digitized data. Character data extracted from the page number area by the character data extraction step for extracting the plane coordinate data, and the character data extracted from the page number region by the character data extraction step as page number data. The page number data is assigned to a predetermined position of A page number data assigning step, and the body character data in which one coordinate value of the plane coordinate data is within a predetermined range as the same line number group, and the start side of the body area for each of the same line number groups And a line number data assigning step for assigning line number data in order.

これにより、オリジナル文書データである紙図書や文書の電子データの特定ページを電子図書装置に表示するための電子図書の表示用データに変換する際において、本文文字データにページ番号と行番号を自動的に付与することが可能になる。   As a result, the page number and line number are automatically added to the body text data when converting a specific page of electronic data of a paper book or document as original document data into electronic book display data for display on the electronic book device. Can be granted automatically.

また、前記領域抽出工程は、前記オリジナル文書特定ページ電子化データ内における前記平面座標データおよび前記オリジナル文書特定ページ電子化データ内における前記文字データの大きさの少なくとも一方の情報に基づいて、前記本文領域と前記ページ番号領域との識別を行うことが好ましい。   Further, the region extracting step is based on the information on at least one of the size of the plane coordinate data in the original document specific page digitized data and the size of the character data in the original document specific page digitized data. It is preferable to identify the area and the page number area.

これにより、オリジナル文書特定ページ電子化データ内から本文文字データとページ番号データとを混合させることなく適切に抽出することが可能になる。   Thereby, it is possible to appropriately extract the text character data and the page number data from the original document specific page digitized data without mixing them.

また、前記本文文字データをフレーズ毎に分割し分割フレーズを生成するフレーズ分割工程をさらに備え、前記行番号データ付与工程は、前記同一行番号グループの先頭位置に前記分割フレーズの始点位置または終点位置が存在しない場合には、前記同一行番号グループの先頭位置の直近位置における前記分割フレーズの前記始点位置または前記終点位置に前記行番号データを付与することが好ましい。   Further, the method further comprises a phrase dividing step of dividing the body character data into phrases and generating a divided phrase, wherein the line number data adding step includes a start position or an end position of the divided phrase at a head position of the same line number group. Is not present, it is preferable that the line number data is added to the start point position or the end point position of the divided phrase at the position closest to the head position of the same line number group.

これにより、電子図書の表示用データを用いて特定の行番号にジャンプさせた際は必ずフレーズの区切れ位置を指定することができる。よって、電子図書装置において行番号を指定してジャンプさせた際には、文章の意味が把握し易く、読み出し位置が分かり易い電子図書の表示用データを提供することができる。   As a result, when jumping to a specific line number using the display data of the electronic book, it is possible to always specify the position where the phrase is separated. Therefore, when jumping by designating a line number in the electronic book apparatus, it is possible to provide electronic book display data that makes it easy to understand the meaning of the text and to easily read out the reading position.

また、オリジナル文書データの特定ページを電子図書装置に表示するための電子図書の表示用データ作成方法であって、前記オリジナル文書データの特定ページを電子データ化したオリジナル文書特定ページ電子化データにおけるレイアウトから、本文領域とページ番号領域と行番号領域とをそれぞれ抽出する領域抽出工程と、前記領域抽出工程により抽出された各領域における文字データを抽出すると共に、前記オリジナル文書特定ページ電子化データ内における各文字データの平面座標データを抽出する文字データ抽出工程と、前記文字データ抽出工程により前記ページ番号領域から抽出された文字データをページ番号データとし、前記文字データ抽出工程により前記本文領域から抽出された本文文字データの所定位置に前記ページ番号データを付与するページ番号データ付与工程と、前記文字データ抽出工程により前記行番号領域から抽出された文字データを行番号データとし、前記行番号データの前記平面座標データと前記本文文字データの前記平面座標データが所定条件を満たす場合、前記本文文字データに、前記行番号データを対応させて付与する行番号データ付与工程と、を具備することを特徴とする電子図書の表示用データ作成方法がある。   An electronic book display data creation method for displaying a specific page of original document data on an electronic book device, wherein the specific page of the original document data is converted into electronic data and the layout in the original document specific page electronic data A region extracting step for extracting a body region, a page number region, and a line number region, character data in each region extracted by the region extracting step, and extracting the character data in the original document specific page digitized data Character data extracted from the page number area by the character data extraction step and character data extracted from the body area by the character data extraction step. The page number at a predetermined position in the text data Page number data adding step for assigning data, and character data extracted from the line number region by the character data extracting step as line number data, and the plane coordinate data of the line number data and the text character data of the text data An electronic book display data creation method comprising: a line number data adding step of assigning the line number data in association with the text number data when the plane coordinate data satisfies a predetermined condition. is there.

これにより、オリジナル文書データである紙図書や文書の電子データの特定ページを電子図書装置に表示するための電子図書の表示用データに変換する際において、本文文字データにページ番号と行番号を自動的に付与することが可能になる。   As a result, the page number and line number are automatically added to the body text data when converting a specific page of electronic data of a paper book or document as original document data into electronic book display data for display on the electronic book device. Can be granted automatically.

また、前記領域抽出工程は、前記オリジナル文書特定ページ電子化データ内における前記平面座標データおよび前記オリジナル文書特定ページ電子化データ内における前記文字データの大きさの少なくとも一方の情報に基づいて、前記本文領域と前記ページ番号領域と前記行番号領域の識別を行っていることが好ましい。   Further, the region extracting step is based on the information on at least one of the size of the plane coordinate data in the original document specific page digitized data and the size of the character data in the original document specific page digitized data. It is preferable that the area, the page number area, and the line number area are identified.

これにより、オリジナル文書特定ページ電子化データ内から本文文字データとページ番号データと行番号データを混合させることなく適切に抽出することが可能になる。   This makes it possible to appropriately extract the text character data, page number data, and line number data from the original document specific page digitized data without mixing them.

また、前記本文文字データをフレーズ毎に分割し分割フレーズを生成するフレーズ分割工程をさらに備え、前記行番号データ付与工程は、前記行番号データの前記平面座標データと前記本文文字データの前記平面座標データとが所定条件を満たす位置の先頭位置に前記分割フレーズの始点位置または終点位置が存在しない場合には、前記行番号データの前記平面座標データと前記本文文字データの前記平面座標データとが所定条件を満たす位置の先頭位置の直近位置における前記分割フレーズの前記始点位置または前記終点位置に前記行番号データを付与することが好ましい。   Further, the method further includes a phrase dividing step of dividing the body character data into phrases and generating a divided phrase, wherein the line number data adding step includes the plane coordinate data of the line number data and the plane coordinates of the body character data. If the start position or the end position of the divided phrase does not exist at the head position where the data satisfies the predetermined condition, the plane coordinate data of the line number data and the plane coordinate data of the body character data are predetermined. It is preferable that the line number data is added to the start point position or the end point position of the divided phrase at a position closest to the start position of the position that satisfies the condition.

これにより、電子図書の表示用データを用いて特定の行番号にジャンプさせた際は必ずフレーズの区切れ位置を指定することができる。よって、電子図書装置において行番号を指定してジャンプさせた際には、文章の意味が把握し易く、読み出し位置が分かり易い電子図書の表示用データを提供することができる。   As a result, when jumping to a specific line number using the display data of the electronic book, it is possible to always specify the position where the phrase is separated. Therefore, when jumping by designating a line number in the electronic book apparatus, it is possible to provide electronic book display data that makes it easy to understand the meaning of the text and to easily read out the reading position.

本発明における電子図書の表示用データ作成装置および電子図書の表示用データ作成方法の構成によれば、オリジナル文書データである紙図書や文書の電子データを電子図書の表示用データに変換する際において、本文文字データにページ番号と行番号を自動的に付与することが可能になる。これにより電子図書の表示用データの作成者における作業負荷を大幅に軽減することができ、使い勝手が良好な電子図書の表示用データを安価に提供することができる。   According to the configuration of the electronic book display data creation device and the electronic book display data creation method according to the present invention, when converting the paper book as the original document data or the electronic data of the document into the electronic book display data, The page number and line number can be automatically assigned to the text data. As a result, the work load on the creator of the electronic book display data can be greatly reduced, and the electronic book display data with good usability can be provided at low cost.

オリジナル文書データである紙図書の特定ページを電子データ化したオリジナル文書特定ページ電子化データの一例である。It is an example of original document specific page digitized data obtained by converting a specific page of a paper book, which is original document data, into electronic data. 本実施形態における電子図書の表示用データ作成装置の概略構成図である。It is a schematic block diagram of the display data preparation apparatus for electronic books in this embodiment. 本実施形態における電子図書の表示用データ作成方法の概略処理フロー図である。It is a general | schematic process flow figure of the display data creation method of the electronic book in this embodiment. 本実施形態で得られた電子図書の表示用データの一例である。It is an example of the display data of the electronic book obtained by this embodiment. 図4の本文文字データをフレーズ毎に分割した状態を示す説明図である。It is explanatory drawing which shows the state which divided | segmented the text character data of FIG. 4 for every phrase. 分割フレーズの配置状態に応じて行番号位置の一部に変更が生じた状態を示す説明図である。It is explanatory drawing which shows the state which a part of line number position changed according to the arrangement | positioning state of a division phrase. オリジナル文書データである紙図書の特定ページを電子データ化したオリジナル文書特定ページ電子化データの変形例である。It is a modification of the original document specific page digitized data obtained by converting the specific page of the paper book as the original document data into electronic data.

本発明における電子図書の表示用データ作成装置および電子図書の表示用データ作成方法について実施形態に基づいて説明する。本発明は、図1に示すようなオリジナル文書特定ページ電子化データOTDを用いてオリジナル文書データである紙図書や文書の電子データにおける表示内容を電子図書の表示用データに変換する際において、本文文字データにページ番号や行番号を自動的に付与することを可能にするものである。   An electronic book display data creation device and an electronic book display data creation method according to the present invention will be described based on embodiments. The present invention uses the original document specific page digitized data OTD as shown in FIG. 1 to convert the display contents in the electronic data of a paper book or document as original document data into display data for the electronic book. This makes it possible to automatically assign page numbers and line numbers to character data.

(第1実施形態)
本実施形態で用いられる電子図書の表示用データ作成装置100は、図2に示すように、領域抽出手段10と、文字データ抽出手段20と、ページ番号データ付与手段30と、行番号データ付与手段40と、フレーズ分割手段50とを具備している。このような電子図書の表示用データ作成装置100は、データ入力手段60とデータ出力手段62と記憶部70と動作制御部80とを有するパーソナルコンピュータ90において、記憶部70に動作制御プログラムPGMを実装させることにより実現できる。
(First embodiment)
As shown in FIG. 2, an electronic book display data creation apparatus 100 used in the present embodiment includes an area extraction unit 10, a character data extraction unit 20, a page number data adding unit 30, and a line number data adding unit. 40 and phrase dividing means 50. Such an electronic book display data creation device 100 includes a personal computer 90 having a data input means 60, a data output means 62, a storage section 70, and an operation control section 80. The operation control program PGM is installed in the storage section 70. This can be realized.

領域抽出手段10は、図1に示すようなオリジナル文書データとしての紙図書の特定ページを電子データ化したオリジナル文書特定ページ電子化データOTDにおけるOCR(Optical Character Recognition/Reader)機能によるレイアウト解析を実行し、本文領域HRとページ番号領域PRとをそれぞれ抽出するものである。図1に示すように本実施形態におけるオリジナル文書特定ページ電子化データOTDには行番号が記載されていない。なお、本実施形態におけるオリジナル文書特定ページ電子化データOTDには紙図書の特定ページをスキャンして得たPDFデータを用いた。   The area extraction unit 10 performs layout analysis by an OCR (Optical Character Recognition / Reader) function in the original document specific page digitized data OTD obtained by converting the specific page of the paper book as the original document data as shown in FIG. The text area HR and the page number area PR are extracted respectively. As shown in FIG. 1, line numbers are not described in the original document specific page digitized data OTD in the present embodiment. The original document specific page digitized data OTD in this embodiment is PDF data obtained by scanning a specific page of a paper book.

領域抽出手段10は、データ出力手段62としてのモニタに出力させた紙図書の特定ページのPDFデータに含まれている文字サイズデータや文字の配置位置データに基づき、予め設定されている識別条件と比較することにより本文領域HRとページ番号領域PRとを識別(区別)して抽出している。ここでは識別条件として、文字サイズデータおよび各文字データのPDFデータ内における平面座標データ(PDFデータ内における文字データの位置データ)を用いているが、いずれか一方のみを識別条件として用いるようにしてもよい。なお、本実施形態においては、オリジナル文書特定ページ電子化データOTDとしてのPDFデータにおける横方向(データ出力手段62であるモニタにデフォルト状態で表示した状態における横方向)をx軸方向としPDFデータにおける縦方向をy軸方向として、それぞれの座標値をPDFデータ内における平面座標データとして用いている。   The area extracting unit 10 is configured to set the identification condition set in advance based on the character size data and the character arrangement position data included in the PDF data of the specific page of the paper book output to the monitor as the data output unit 62. By comparison, the body region HR and the page number region PR are identified (distinguished) and extracted. Here, the character size data and the plane coordinate data in the PDF data of each character data (position data of the character data in the PDF data) are used as the identification condition, but only one of them is used as the identification condition. Also good. In the present embodiment, the horizontal direction in the PDF data as the original document specific page digitized data OTD (the horizontal direction in the state displayed in the default state on the monitor as the data output means 62) is the x-axis direction, and the PDF data The vertical direction is the y-axis direction, and the respective coordinate values are used as plane coordinate data in the PDF data.

本実施形態における領域抽出手段10は、PDFデータのレイアウト解析を行った際において、文字サイズデータが含まれず、PDFデータ内における平面座標データのみを含むデータ領域を画像領域GRとして抽出している。   In the present embodiment, when the layout analysis of PDF data is performed, the region extraction unit 10 extracts a data region that does not include character size data and includes only plane coordinate data in the PDF data as an image region GR.

また、電子図書の表示用データ作成者がデータ入力手段60としてのマウスおよびキーボードを用いて手動操作により特定領域を本文領域HR、ページ番号領域PR、画像領域GRとして個別に指定することもできる。この場合、領域抽出手段10はデータ入力手段60により実現されていることになる。このように領域抽出手段10は自動抽出処理と手動抽出処理のいずれの抽出処理も行うことができるのである。   The creator of the electronic book display data can also individually designate the specific areas as the body area HR, the page number area PR, and the image area GR by manual operation using the mouse and keyboard as the data input means 60. In this case, the area extraction unit 10 is realized by the data input unit 60. As described above, the region extraction means 10 can perform either the automatic extraction process or the manual extraction process.

文字データ抽出手段20は、領域抽出手段10により抽出された本文領域HRおよびページ番号領域PRにおける文字データの抽出を行うものである。本文領域HRおよびページ番号領域PRからの文字データの抽出処理はOCR機能による文字認識処理を用いることができる。文字データ抽出手段20により本文領域HRおよびページ番号領域PRから文字データの抽出を行う際には、オリジナル文書特定ページ電子化データOTD内としてのPDFデータにおける平面座標データ(以下、単にPDFデータ内における平面座標データという)も同時に抽出されることになる。このように文字データ抽出手段20により抽出された文字データはテキストデータと平面座標データを有することになる。   The character data extracting means 20 extracts character data in the body area HR and page number area PR extracted by the area extracting means 10. The character data extraction processing from the body region HR and the page number region PR can use character recognition processing by the OCR function. When character data is extracted from the text area HR and the page number area PR by the character data extraction means 20, the plane coordinate data in the PDF data as the original document specific page digitized data OTD (hereinafter simply referred to as PDF data) The plane coordinate data) is also extracted at the same time. Thus, the character data extracted by the character data extraction means 20 has text data and plane coordinate data.

文字データ抽出手段20は、本文領域HRから抽出した文字データを本文文字データHMDとして記憶部70に記憶させる。文字データ抽出手段20は、画像領域GR内に文字データが含まれている場合においては、画像領域GR内から抽出した文字データを各文字データのPDFデータ内における平面座標データと共に画像内文字データGMDとして画像データGDに紐付けした状態で記憶部70に記憶させることもできる。なお、画像データGDの抽出は、画像データ抽出手段としての動作制御部80が画像領域GRから抽出することができる。抽出された画像データGDは、PDFデータ内における平面座標データが紐付けられた状態で記憶部70に記憶される。   The character data extraction means 20 stores the character data extracted from the text region HR in the storage unit 70 as the text character data HMD. In the case where character data is included in the image area GR, the character data extracting means 20 reads the character data extracted from the image area GR together with the plane coordinate data in the PDF data of each character data, and the in-image character data GMD. Can be stored in the storage unit 70 in a state linked to the image data GD. The image data GD can be extracted from the image region GR by the operation control unit 80 as an image data extracting unit. The extracted image data GD is stored in the storage unit 70 in a state where the plane coordinate data in the PDF data is linked.

ページ番号データ付与手段30は、文字データ抽出手段20によりページ番号領域PRから抽出された文字データをページ番号データPBDとし、本文文字データHMDの所定位置にページ番号データPBDを付与する。ここでは、本文文字データHMDの先頭位置にページ番号データPBDを付与しているが、本文文字データHMDの末尾位置にページ番号データPBDを付与してもよい。   The page number data adding unit 30 sets the character data extracted from the page number region PR by the character data extracting unit 20 as page number data PBD, and adds the page number data PBD to a predetermined position of the text character data HMD. Here, the page number data PBD is assigned to the head position of the body text data HMD, but the page number data PBD may be attached to the end position of the body text data HMD.

行番号データ付与手段40は、本文文字データHMDにおけるPDFデータ内における平面座標データの一方の座標値(x座標値またはy座標値)が同値またはその値を中心とする所定の範囲内にある単数または複数の本文文字データHMDを同一行番号グループGBGとし、同一行番号グループGBGの各々に対し本文領域HRの始点側から順番に行番号データGBDを付与する。ここでは行番号データGBDは同一行番号グループGBGの先頭位置に配置した。   The line number data giving means 40 is a single number in which one coordinate value (x coordinate value or y coordinate value) of the plane coordinate data in the PDF data in the text character data HMD is the same value or within a predetermined range centered on the value. Alternatively, a plurality of text character data HMD are set to the same line number group GBG, and line number data GBD is assigned to each of the same line number group GBG in order from the start point side of the text area HR. Here, the line number data GBD is arranged at the head position of the same line number group GBG.

行番号データ付与手段40はOCR機能における行の切り出し処理により同一行番号グループGBGを設定し、本文領域HRから切り出した行の配列状態から行番号データGBDを付与する処理を実行させてもよい。本実施形態における行番号データ付与手段40は、行番号データを5の倍数としているが、1からの自然数でそれぞれの同一行番号グループGBGに行番号データGBDを付与するようにすることもできる。   The line number data assigning means 40 may set the same line number group GBG by the line cutout process in the OCR function and execute the process of assigning the line number data GBD from the arrangement state of the lines cut out from the body area HR. In the present embodiment, the line number data assigning means 40 sets the line number data to a multiple of 5, but it is also possible to assign the line number data GBD to each same line number group GBG with a natural number from 1.

フレーズ分割手段50は、本文文字データHMDをフレーズ毎に分割し、分割フレーズBFを生成するものである。ここでフレーズとは、文あるいは節を統語論的に分析した際の単位を指すものである。具体的には、接置詞句、名詞句、動詞句、形容詞句(連体詞句)、副詞句を示すことができる。   The phrase dividing means 50 divides the text character data HMD for each phrase and generates a divided phrase BF. Here, a phrase refers to a unit when a sentence or clause is analyzed syntactically. Specifically, an infix phrase, a noun phrase, a verb phrase, an adjective phrase (combined phrase), and an adverb phrase can be shown.

フレーズ分割手段50により分割フレーズBFが生成された場合、行番号データ付与手段40は、同一行番号グループGBGの先頭位置に分割フレーズBFの始点位置または終点位置が存在しない場合には、同一行番号グループGBGの先頭位置の直近位置における分割フレーズBFの始点位置または終点位置に行番号データGBDを付与するようにしてもよい。このような形態により、オリジナル文書特定ページ電子化データOTDにおけるレイアウトに対して行番号やページ番号のレイアウトが相違する場合があるが、ページ番号データPBDまたは行番号データGBDへジャンプ(ランダムアクセス)した場合において、文の意味が把握し易くなる。また、音読する際においても読み易くすることができる点において好都合である。なお、フレーズ分割手段50の構成は追加的なものであり、フレーズ分割手段50の構成は省略することもできる。   When the divided phrase BF is generated by the phrase dividing means 50, the line number data adding means 40, if the start position or the end position of the divided phrase BF does not exist at the head position of the same line number group GBG, The line number data GBD may be added to the start point position or the end point position of the divided phrase BF at the position closest to the head position of the group GBG. With such a form, the layout of the line number and page number may be different from the layout in the original document specific page digitized data OTD, but jumped (random access) to the page number data PBD or the line number data GBD. In some cases, it is easier to understand the meaning of the sentence. Further, it is advantageous in that it can be read easily when reading aloud. Note that the configuration of the phrase dividing unit 50 is additional, and the configuration of the phrase dividing unit 50 may be omitted.

以上に説明した領域抽出手段10、文字データ抽出手段20、ページ番号データ付与手段30、行番号データ付与手段40、フレーズ分割手段50は、記憶部70に予め記憶されている動作制御プログラムPGMに基づいて動作制御部80(例えばパーソナルコンピュータ90のCPU)によってそれぞれ実現することもできる。   The area extracting unit 10, character data extracting unit 20, page number data adding unit 30, line number data adding unit 40, and phrase dividing unit 50 described above are based on the operation control program PGM stored in advance in the storage unit 70. The operation control unit 80 (for example, the CPU of the personal computer 90) can also be realized.

次に、第1実施形態における電子図書の表示用データ作成装置100を用いた電子図書の表示用データ作成方法について図3に基づきながら説明する。   Next, an electronic book display data creation method using the electronic book display data creation apparatus 100 according to the first embodiment will be described with reference to FIG.

まず、電子図書の表示用データ作成装置100が実装されているパーソナルコンピュータ90において動作制御部80が、オリジナル文書特定ページ電子化データOTDであるPDFデータをデータ出力手段62であるモニタに出力させる。次に、領域抽出手段10としての動作制御部80が、モニタに出力されたPDFデータにOCR機能のレイアウト解析処理を実行し、本文領域HRおよびページ番号領域PRと画像領域GRを抽出する(領域抽出工程)。このような本文領域HRおよびページ番号領域PRと画像領域GRを抽出する処理工程は、電子図書の表示用データの作成者がデータ入力手段60であるマウスおよびキーボードを操作し、作成者がPDFデータ内から手動操作によって本文領域HRおよびページ番号領域PRと画像領域GRを直接抽出するようにしてもよい。   First, in the personal computer 90 in which the electronic book display data creation device 100 is mounted, the operation control unit 80 causes the PDF data that is the original document specific page digitized data OTD to be output to the monitor that is the data output means 62. Next, the operation control unit 80 as the region extracting unit 10 executes a layout analysis process of the OCR function on the PDF data output to the monitor, and extracts the body region HR, the page number region PR, and the image region GR (region). Extraction process). In such a processing step of extracting the body region HR, the page number region PR, and the image region GR, the creator of the electronic book display data operates the mouse and keyboard as the data input means 60, and the creator The text area HR, the page number area PR, and the image area GR may be directly extracted from within by manual operation.

次に、文字データ抽出手段20としての動作制御部80が、領域抽出手段10により抽出された本文領域HRおよびページ番号領域PRから文字データを抽出すると共に、抽出した文字データにおけるPDFデータ内における平面座標データを抽出する(文字データ抽出工程)。このような文字データ抽出工程は、OCR機能により実現することができるため、ここでの詳細な説明は省略する。抽出された文字データは、文字サイズデータとPDFデータ内における平面座標データが紐付けされた状態で記憶部70に記憶される。このとき、本文領域HRから抽出された文字データは本文文字データHMDとして、ページ番号領域PRから抽出された文字データはページ番号データとして記憶部70に記憶される(文字データ抽出工程)。   Next, the operation control unit 80 as the character data extracting unit 20 extracts the character data from the body region HR and the page number region PR extracted by the region extracting unit 10, and the plane in the PDF data in the extracted character data. Coordinate data is extracted (character data extraction step). Since such a character data extraction process can be realized by the OCR function, a detailed description thereof is omitted here. The extracted character data is stored in the storage unit 70 in a state where the character size data and the plane coordinate data in the PDF data are linked. At this time, the character data extracted from the body region HR is stored in the storage unit 70 as body character data HMD, and the character data extracted from the page number region PR is stored as page number data (character data extraction step).

なお、領域抽出工程において画像領域GRが抽出された場合には、動作制御部80が画像領域GRから画像データGDを抽出し、PDFデータ内における平面座標データと紐付けした状態で記憶部70に記憶させる画像抽出工程を追加すればよい。そして、画像抽出工程が行われた場合には、文字データ抽出手段20としての動作制御部80が、画像データGD内の文字データの有無を判断させると共に文字データが含まれている場合には、画像内文字データGMDとして抽出すると共に、画像データGDおよび画像データGDの平面座標データと紐付けした状態で記憶部70に記憶させる画像内文字データ抽出工程をさらに追加することもできる。   When the image region GR is extracted in the region extraction step, the operation control unit 80 extracts the image data GD from the image region GR, and stores it in the storage unit 70 in a state of being associated with the plane coordinate data in the PDF data. What is necessary is just to add the image extraction process to memorize | store. When the image extraction process is performed, the operation control unit 80 as the character data extraction unit 20 determines whether or not there is character data in the image data GD and includes character data. In addition to extracting the in-image character data GMD, an in-image character data extracting step of storing the image data GD and the plane coordinate data of the image data GD in the storage unit 70 may be further added.

動作制御部80は記憶部70に記憶された文字データのうち、紐付けされている文字サイズが他の文字データに紐付けされている文字サイズよりも小さいものをページ番号データPBDとして記憶部70に記憶させてもよい。また、文字データに紐付けされているPDFデータ内における平面座標データのx座標値またはy座標値と、他の文字データに紐付けされているPDFデータ内における平面座標データのx座標値またはy座標値との差が予め設定されている値以上になった場合、文字データに紐付けされているPDFデータ内における平面座標データのx座標値がPDFデータ内における右端位置およびその付近、中央位置およびその付近、左端位置及びその付近の値である場合、文字データに紐付けされているPDFデータ内における平面座標データのx座標値の範囲が予め設定されている範囲内である場合のいずれかに該当したとき、その文字データをページ番号データPBDとして記憶部70に記憶させるようにしてもよい。ここで、『その付近』とは、基準となる値に対して予め設定された値の範囲内となる位置を意味するものである(以下同様)。   The operation control unit 80 stores, as page number data PBD, character data stored in the storage unit 70 that has a smaller character size than the character size associated with other character data. May be stored. Also, the x coordinate value or y coordinate value of the plane coordinate data in the PDF data linked to the character data, and the x coordinate value or y of the plane coordinate data in the PDF data linked to other character data. When the difference from the coordinate value is greater than or equal to a preset value, the x coordinate value of the plane coordinate data in the PDF data linked to the character data is the right end position in the PDF data, its vicinity, and the central position. And the vicinity, the left end position, and the value in the vicinity thereof, any of the cases where the range of the x coordinate value of the plane coordinate data in the PDF data linked to the character data is within a preset range The character data may be stored in the storage unit 70 as page number data PBD. Here, “the vicinity” means a position within a range of values set in advance with respect to a reference value (the same applies hereinafter).

さらには、これらの識別処理を組み合わせてページ番号データPBDとして記憶部70に記憶させるようにしてもよい。このとき、画像内文字データGMDについては文字サイズや文字データに紐付けされているPDFデータ内における平面座標データの比較対象から外すこともできる。以上のような文字データ抽出工程を採用することにより、領域抽出工程において本文領域HRとページ番号領域PRとを区別する処理を省略することも可能である。   Furthermore, these identification processes may be combined and stored in the storage unit 70 as page number data PBD. At this time, the character data GMD in the image can be excluded from the comparison target of the plane coordinate data in the PDF data associated with the character size and the character data. By adopting the character data extraction process as described above, it is possible to omit the process of distinguishing the body area HR and the page number area PR in the area extraction process.

次にページ番号データ付与手段30としての動作制御部80が、文字データ抽出工程において記憶部70に記憶されたページ番号データPBDをPDFデータ内における本文文字データHMDの所定位置に付与する(ページ番号データ付与工程)。ここでは、PDFデータ内における本文文字データHMDのヘッダー位置にページ番号データPBDを付与した。   Next, the operation control unit 80 as the page number data assigning unit 30 assigns the page number data PBD stored in the storage unit 70 in the character data extraction step to a predetermined position of the text character data HMD in the PDF data (page number). Data grant process). Here, page number data PBD is added to the header position of body text data HMD in the PDF data.

次に行番号データ付与手段40としての動作制御部80が、記憶部70に記憶されている本文文字データHMDのPDFデータ内における平面座標データのうちx座標値またはy座標値が同値またはその値を中心とする所定の範囲内にある本文文字データHMDを同一行番号グループGBGとして記憶部70に記憶させる。PDFデータ内において行の切り出し処理により切り出された行がx方向に伸びる(横書き)ものであればx座標値を比較し、切り出された行がy方向に伸びる(縦書き)ものであればy座標値を比較すればよい。このようにしてPDFデータ内における平面座標データに基づいて判断された同一行番号グループGBGの各々に対しては、本文領域HRの始点側から順番に行番号データGBDが付与される(行番号データ付与工程)。   Next, the operation control unit 80 as the line number data adding unit 40 has the x coordinate value or the y coordinate value of the plane coordinate data in the PDF data of the text character data HMD stored in the storage unit 70 as the same value or the value thereof. Is stored in the storage unit 70 as the same line number group GBG. In the PDF data, if the line cut out by the line cut-out process extends in the x direction (horizontal writing), the x coordinate values are compared, and if the cut out line extends in the y direction (vertical writing), y What is necessary is just to compare a coordinate value. In this way, line number data GBD is assigned to each of the same line number group GBG determined based on the plane coordinate data in the PDF data in order from the start point side of the body area HR (line number data). Application step).

また、動作制御部80は、記憶部70に記憶されている画像データGDを画像データGDに紐付けされている平面座標データと共に読み出し、本文文字データHMDの所定位置に埋め込む画像埋め込み工程を追加することもできる。   In addition, the operation control unit 80 reads the image data GD stored in the storage unit 70 together with the plane coordinate data associated with the image data GD, and adds an image embedding process for embedding in a predetermined position of the text character data HMD. You can also

以上の手順を実行することにより、オリジナルデータであるPDFデータ(オリジナル文書特定ページ電子化データOTD)のレイアウトが忠実に維持され、行番号データGBDが付与された図4に示すような電子図書の表示用データDHDを得ることができる。このようにして得られた電子図書の表示用データDHDは、HTML形式またはXML形式に則ったテキストデータとして記憶部70に記憶される。   By executing the above procedure, the layout of the original PDF data (original document specific page digitized data OTD) is faithfully maintained, and the electronic book as shown in FIG. Display data DHD can be obtained. The electronic book display data DHD obtained in this way is stored in the storage unit 70 as text data conforming to the HTML format or the XML format.

なお、フレーズ分割手段50としての動作制御部80は、記憶部70に記憶されているそれぞれの本文文字データHMDをフレーズ毎に分割して分割フレーズBFを生成する処理(フレーズ分割工程)をページ番号付与工程と行番号データ付与工程との間に実行することもできる。図5は図4に示した電子図書の表示用データDHDの本文文字データHMDを分割フレーズBF毎に区切った状態を示す説明図である。なお、図5中における分割フレーズBFのそれぞれに付されている番号は、このPDFデータ(オリジナル文書特定ページ電子化データOTD)内における本文文字データHMDにおける分割フレーズBFの先頭側からの通し番号である。   The operation control unit 80 as the phrase dividing unit 50 performs a process (phrase dividing step) for generating a divided phrase BF by dividing each body character data HMD stored in the storage unit 70 for each phrase. It can also be executed between the assigning step and the line number data assigning step. FIG. 5 is an explanatory diagram showing a state in which the text character data HMD of the display data DHD for the electronic book shown in FIG. 4 is divided for each divided phrase BF. Note that the numbers given to the divided phrases BF in FIG. 5 are serial numbers from the head side of the divided phrases BF in the text character data HMD in the PDF data (original document specific page digitized data OTD). .

本文文字データHMDが分割フレーズBFに分割された場合の行番号データ付与工程は、同一行番号グループGBGの先頭位置における分割フレーズBFの始点位置または終点位置が存在しないとき、同一行番号グループGBGの先頭位置の直近位置における分割フレーズBFの始点位置または終点位置に行番号データGBDを付与する処理を実行する。   When the text character data HMD is divided into divided phrases BF, the line number data adding step is performed when the start position or the end position of the divided phrase BF at the head position of the same line number group GBG does not exist. A process of assigning line number data GBD to the start point position or the end point position of the divided phrase BF at the position closest to the head position is executed.

このようなフレーズ分割処理工程を経た後に行番号データ付与工程を実行して得られた電子図書の表示用データDHDを図6に示す。図6に示されている電子図書の表示用データDHDは、オリジナルデータであるPDFデータのレイアウトとはわずかに異なる(図5のレイアウトに対して行番号データGBDの5と15の位置における分割フレーズBFの位置が異なる)ことがある。しかしながら、この電子図書の表示用データDHDを適用した電子図書の表示装置において行番号を指定してジャンプをした場合、文章の意味合いの把握や文章の読みを行う際に区切れの良い(読み易い)位置にすることができる点で好都合である。   FIG. 6 shows display data DHD for an electronic book obtained by executing the line number data adding step after such a phrase dividing processing step. The display data DHD for the electronic book shown in FIG. 6 is slightly different from the layout of the PDF data which is the original data (the divided phrases at the positions 5 and 15 of the line number data GBD with respect to the layout of FIG. 5). BF position may be different). However, in the electronic book display device to which the electronic book display data DHD is applied, when jumping is performed by specifying a line number, it is easy to determine when the meaning of the sentence is understood or when the sentence is read (easy to read) ) Is advantageous in that it can be positioned.

動作制御部80は、記憶部70に記憶された図4または図6に示すテキストデータに基づいて最終的な電子図書の表示用データDHDであるDAISY図書データを生成して、紙図書の特定ページにおける電子図書の表示用データDHDの生成処理を終了する。   The operation control unit 80 generates DAISY book data, which is the final electronic book display data DHD, based on the text data shown in FIG. 4 or FIG. The generation process of the electronic book display data DHD in FIG.

(第2実施形態)
本実施形態における電子図書の表示用データ作成装置100の基本構成は第1実施形態と同様である。本実施形態の電子図書の表示用データ作成装置100においては、領域抽出手段10と行番号データ付与手段40によるデータの取り扱い内容(データ処理内容)が異なるが、他の構成については第1実施形態におけるデータの取り扱い内容と同様であるため、ここでの詳細な説明は省略する。
(Second Embodiment)
The basic configuration of the electronic book display data creation device 100 in this embodiment is the same as that of the first embodiment. In the electronic book display data creation device 100 of the present embodiment, the data handling contents (data processing contents) by the area extracting means 10 and the line number data adding means 40 are different, but other configurations are the first embodiment. Since the data is handled in the same way as in FIG.

本実施形態における領域抽出手段10は、図7に示すように本文領域HRおよびページ番号領域PRと画像領域GRに加えて行番号領域LRも自動抽出する点で第1実施形態と構成を異にしている。このような構成は、図7に示すような紙図書の特定ページを電子データ化したオリジナル文書特定ページ電子化データOTDに行番号が付与されている場合において好都合である。なお、本実施形態においても、オリジナル文書特定ページ電子化データOTDとしてPDFデータを用いた形態に基づいて説明をおこなうものとする。   As shown in FIG. 7, the area extracting means 10 in the present embodiment differs from the first embodiment in that the line number area LR is automatically extracted in addition to the text area HR, the page number area PR, and the image area GR. ing. Such a configuration is advantageous when a line number is assigned to the original document specific page digitized data OTD obtained by converting the specific page of the paper book as shown in FIG. 7 into digital data. In the present embodiment, the description will be made based on the form using PDF data as the original document specific page digitized data OTD.

領域抽出手段10は、オリジナルデータであるPDFデータのレイアウト解析をすることにより、本文領域HRおよびページ番号領域PRと画像領域GRと行番号領域LRをそれぞれ抽出することができる。本文領域HRの抽出は、領域の範囲(平面座標データの最大値と最小値の差)が大きく文字サイズも大きい領域を検索することにより抽出することができる。ページ番号領域PRは、文字サイズが小さく、PDFデータ内における平面座標データの範囲が小さく(予め設定した平面座標データの範囲内に含まれ)、かつ、平面座標データの全範囲の角部分(x座標値とy座標値が最大値付近、x座標値が最大値付近かつy座標値が最小値付近、x座標値が最小値付近かつy座標値が最大値付近、x座標値とy座標値が最小値付近のいずれか)または上下の中央部分(x座標値が全x座標値の平均値またはその付近でy座標値が最大値付近または最小値付近)のみにある領域を検索することにより抽出することができる(本文領域HRが横書きレイアウトである場合)。   The area extraction means 10 can extract the body area HR, the page number area PR, the image area GR, and the line number area LR by analyzing the layout of the original PDF data. The text area HR can be extracted by searching for an area having a large area range (difference between the maximum value and the minimum value of the plane coordinate data) and a large character size. The page number region PR has a small character size, a small range of plane coordinate data in the PDF data (included in the range of preset plane coordinate data), and a corner portion (x Coordinate value and y coordinate value are near maximum value, x coordinate value is near maximum value and y coordinate value is near minimum value, x coordinate value is near minimum value, y coordinate value is near maximum value, x coordinate value and y coordinate value By searching for a region that is only in the vicinity of the minimum value) or in the upper and lower central parts (the x coordinate value is the average value of all the x coordinate values or the y coordinate value is near the maximum value or near the minimum value) It can be extracted (when the body area HR has a horizontal layout).

行番号領域LRの抽出は、文字サイズが小さく、PDFデータにおける平面座標データのうちx座標値が同値またはその値を中心とする所定の範囲内にあって、y座標値が一定間隔になっている複数の領域を検索することにより自動抽出をすることができる。または、第1実施形態と同様に、表示用データの作成者がマウスやキーボードを用いて本文領域HRおよびページ番号領域PRと行番号領域LRを各々指定することも可能である。   The extraction of the line number region LR has a small character size, and the x coordinate value in the planar coordinate data in the PDF data is the same value or within a predetermined range centered on the value, and the y coordinate value becomes a constant interval. Automatic extraction can be performed by searching a plurality of areas. Alternatively, similarly to the first embodiment, the creator of the display data can specify the body area HR, the page number area PR, and the line number area LR using a mouse or a keyboard.

本実施形態における行番号データ付与手段40は、行番号領域LRから抽出した文字データ(数字)を行番号データGBDとして用いる点で第1実施形態とデータの取り扱い内容が異なる。本実施形態における行番号データ付与手段40は、行番号データGBDにおける平面座標データのy座標値と同値またはその値を中心とする所定の範囲内のy座標値を有する(行番号データGBDの平面座標データと本文文字データHMDの平面座標データとが所定条件を満たす)本文文字データHMDに対して行番号データGBDを付与するものである。   The line number data assigning means 40 in the present embodiment differs from the first embodiment in that the data handling contents are different from the first embodiment in that character data (numbers) extracted from the line number area LR is used as the line number data GBD. The line number data assigning means 40 in the present embodiment has a y coordinate value that is the same as the y coordinate value of the plane coordinate data in the line number data GBD or a predetermined range centered on that value (the plane of the line number data GBD). The line number data GBD is given to the body character data HMD (coordinate data and the plane coordinate data of the body character data HMD satisfy a predetermined condition).

行番号データ付与手段40は、連続している複数の本文文字データHMDを分断し、行番号データGBDの付与対象となる本文文字データHMDの先頭位置(平面座標データのy座標値が同値またはその値を中心とする所定の範囲内にある本文文字データHMDのうち平面座標データのx座標値が最も小さい本文文字データHMD)の直前位置に行番号データGBDを埋め込む処理を実行する。   The line number data assigning means 40 divides a plurality of continuous text character data HMD, and the head position of the text character data HMD to be assigned the line number data GBD (the y coordinate value of the plane coordinate data is the same value or A process of embedding the line number data GBD at a position immediately before the text character data HMD having the smallest x coordinate value of the plane coordinate data among the text character data HMD within a predetermined range centering on the value is executed.

また、本実施形態における行番号データ付与手段40は、第1実施形態と同様にしてOCR機能における行の切り出し処理により同一行番号グループGBGを設定し、同一行番号グループGBGのy座標値と同値またはその値を中心とする所定の範囲内のy座標値を有する同一行番号グループGBGに、行番号領域LRから抽出した行番号データGBDを付与する処理を行ってもよい。   Further, the line number data assigning means 40 in this embodiment sets the same line number group GBG by the line cutout process in the OCR function in the same manner as in the first embodiment, and is the same value as the y coordinate value of the same line number group GBG. Or you may perform the process which provides the line number data GBD extracted from the line number area | region LR to the same line number group GBG which has y coordinate value within the predetermined range centering on the value.

また行番号データ付与手段40は、同じくOCR機能における行の切り出し処理により同一行番号グループGBGを設定し、本文領域HRから切り出した行の配列状態から行番号データGBDを追加付与する処理を実行させてもよい。これにより、行番号領域LRから抽出された行番号データGBDが5の倍数のみである場合等においても、電子図書の表示用データDHDには1からの自然数で行番号データGBDを付与することもできる。   Similarly, the line number data assigning means 40 sets the same line number group GBG by the line cutout process in the OCR function, and executes the process of additionally giving the line number data GBD from the arrangement state of the lines cut out from the body area HR. May be. As a result, even when the line number data GBD extracted from the line number area LR is only a multiple of 5, the line number data GBD may be given as a natural number from 1 to the display data DHD for electronic books. it can.

次に、第2実施形態における電子図書の表示用データ作成装置100を用いた電子図書の表示用データ作成方法について説明する。   Next, an electronic book display data creation method using the electronic book display data creation apparatus 100 according to the second embodiment will be described.

まず、第1実施形態と同様に、電子図書の表示用データ作成装置100が実装されているパーソナルコンピュータ90において動作制御部80が、オリジナル文書特定ページ電子化データOTDであるPDFデータをデータ出力手段62であるモニタに出力させる。次に、領域抽出手段10としての動作制御部80が、モニタに出力されたPDFデータにOCR機能のレイアウト解析処理を実行し、本文領域HRおよびページ番号領域PRと画像領域GRと行番号領域LRをそれぞれ抽出する(領域抽出工程)。このような本文領域HRおよびページ番号領域PRと画像領域GRと行番号領域LRを抽出する処理工程は、電子図書の表示用データの作成者がデータ入力手段60であるマウスおよびキーボードを操作し、作成者がPDFデータ内から手動操作によって本文領域HRおよびページ番号領域PRと行番号領域LRを直接抽出するようにしてもよい。   First, as in the first embodiment, in the personal computer 90 in which the electronic book display data creation device 100 is mounted, the operation control unit 80 outputs PDF data as the original document specific page digitized data OTD as data output means. The output is output to the monitor 62. Next, the operation control unit 80 serving as the region extracting unit 10 performs a layout analysis process of the OCR function on the PDF data output to the monitor, and the body region HR, the page number region PR, the image region GR, and the line number region LR. Are extracted (region extraction step). The process of extracting the body area HR, the page number area PR, the image area GR, and the line number area LR is performed by the creator of the electronic book display data operating the mouse and keyboard as the data input means 60, The creator may directly extract the body area HR, the page number area PR, and the line number area LR from the PDF data by manual operation.

次に、文字データ抽出手段20としての動作制御部80が、領域抽出手段10により抽出された本文領域HRおよびページ番号領域PRと画像領域GRと行番号領域LRから文字データを抽出すると共に、抽出した文字データにおけるPDFデータ内における平面座標データを抽出する(文字データ抽出工程)。このような文字データ抽出工程は、OCR機能により実現することができるため、ここでの詳細な説明は省略する。ここでのPDFデータ内における平面座標データの構成は第1実施形態と同様である。抽出された文字データは、文字サイズデータとPDFデータ内における平面座標データが紐付けされた状態で記憶部70に記憶される。このとき、本文領域HRから抽出された文字データは本文文字データHMDとして、ページ番号領域PRから抽出された文字データはページ番号データPBDとして、画像領域GRから抽出された文字データは画像内文字データGMDとして、行番号領域LRから抽出された文字データは行番号データGBDとしてそれぞれ記憶部70に記憶される(文字データ抽出工程)。   Next, the operation control unit 80 as the character data extraction unit 20 extracts the character data from the body region HR, the page number region PR, the image region GR, and the line number region LR extracted by the region extraction unit 10 and extracts them. The plane coordinate data in the PDF data in the character data thus extracted is extracted (character data extraction step). Since such a character data extraction process can be realized by the OCR function, a detailed description thereof is omitted here. The configuration of the plane coordinate data in the PDF data here is the same as in the first embodiment. The extracted character data is stored in the storage unit 70 in a state where the character size data and the plane coordinate data in the PDF data are linked. At this time, the character data extracted from the text region HR is the text character data HMD, the character data extracted from the page number region PR is the page number data PBD, and the character data extracted from the image region GR is the in-image character data. Character data extracted from the line number area LR as GMD is stored in the storage unit 70 as line number data GBD (character data extraction step).

本文領域HRと行番号領域LRとの位置が近接している場合、動作制御部80は、本文文字データHMDと行番号データGBDとの文字サイズデータおよび平面座標データのうちの少なくとも一方に基づいて両者のデータを識別することができる。   When the positions of the body region HR and the line number region LR are close to each other, the operation control unit 80 is based on at least one of the character size data and the plane coordinate data of the body character data HMD and the line number data GBD. Both data can be identified.

具体的には、本文領域HRは、平面座標データの範囲(平面座標データの最大値と最小値の差)が大きく文字サイズも大きい領域とすることができる。また、ページ番号領域PRは、文字サイズが小さく、PDFデータ内における平面座標データの範囲が小さく(予め設定した範囲内に含まれ)、かつ、平面座標データの全範囲の角部分(x座標値とy座標値が最大値付近、x座標値が最大値付近かつy座標値が最小値付近、z座標値が最小値付近かつy座標値が最大値付近、x座標値とy座標値が最小値付近のいずれか)のみにある領域とすることができる。そして、行番号領域LRは、文字サイズが小さく、PDFデータにおける平面座標データのうちx座標値が同値またはその値を中心とする所定の範囲内にあって、y座標値が一定間隔になっている複数の領域(横書きレイアウトの場合)とすることができる。このような識別方法は、特に本文文字データHMDにおけるルビと行番号データGBDのデータ混合を防止することができる点において好都合である。   Specifically, the text area HR can be an area where the range of the plane coordinate data (the difference between the maximum value and the minimum value of the plane coordinate data) is large and the character size is large. The page number region PR has a small character size, a small range of plane coordinate data in the PDF data (included in a preset range), and a corner portion (x coordinate value) of the entire range of the plane coordinate data. Y coordinate value is near the maximum value, x coordinate value is near the maximum value, y coordinate value is near the minimum value, z coordinate value is near the minimum value, y coordinate value is near the maximum value, x coordinate value and y coordinate value are minimum It can be a region only in one of the vicinity of the value). The line number area LR has a small character size, the x coordinate value of the plane coordinate data in the PDF data is the same value or within a predetermined range centered on the value, and the y coordinate value is at a constant interval. Can be a plurality of areas (in the case of horizontal writing layout). Such an identification method is particularly advantageous in that it can prevent data mixing of ruby and line number data GBD in the text character data HMD.

次にページ番号データ付与手段30としての動作制御部80が、文字データ抽出工程において記憶部70に記憶されたページ番号データPBDをPDFデータ内における本文文字データHMDの所定位置に付与する(ページ番号データ付与工程)。ここでは、PDFデータ内における本文文字データHMDのヘッダー位置にページ番号データPBDを付与した。   Next, the operation control unit 80 as the page number data assigning unit 30 assigns the page number data PBD stored in the storage unit 70 in the character data extraction step to a predetermined position of the text character data HMD in the PDF data (page number). Data grant process). Here, page number data PBD is added to the header position of body text data HMD in the PDF data.

また、動作制御部80は、記憶部70に記憶されている画像データGDを画像データGDに紐付けされている平面座標データと共に読み出し、本文文字データHMDの所定位置に埋め込む画像埋め込み工程を追加することもできる。   In addition, the operation control unit 80 reads the image data GD stored in the storage unit 70 together with the plane coordinate data associated with the image data GD, and adds an image embedding process for embedding in a predetermined position of the text character data HMD. You can also

次に行番号データ付与手段40としての動作制御部80が、記憶部70に記憶されている本文文字データHMDのPDFデータ内における平面座標データのうちx座標値またはy座標値が同値またはその値を中心とする所定の範囲内にある本文文字データHMDを同一行番号グループGBGとして記憶部70に記憶させる。PDFデータ内において行の切り出し処理により切り出された行がx方向に伸びる(横書き)ものであればx座標値を比較し、切り出された行がy方向に伸びる(縦書き)ものであればy座標値を比較すればよい。このようにしてPDFデータ内における平面座標データに基づいて判断された同一行番号グループGBGの各々に対しては、記憶部70に記憶されている行番号データGBDのy座標値との比較を行い、両者のy座標値が同値またはその値を中心とする所定の範囲内となった同一行番号グループGBGの先頭位置に対して行番号データGBDが付与される(行番号データ付与工程)。   Next, the operation control unit 80 as the line number data adding unit 40 has the x coordinate value or the y coordinate value of the plane coordinate data in the PDF data of the text character data HMD stored in the storage unit 70 as the same value or the value thereof. Is stored in the storage unit 70 as the same line number group GBG. In the PDF data, if the line cut out by the line cut-out process extends in the x direction (horizontal writing), the x coordinate values are compared, and if the cut out line extends in the y direction (vertical writing), y What is necessary is just to compare a coordinate value. Each of the same line number group GBG determined based on the plane coordinate data in the PDF data in this way is compared with the y coordinate value of the line number data GBD stored in the storage unit 70. The line number data GBD is assigned to the head position of the same line number group GBG in which both y coordinate values are the same value or within a predetermined range centered on the value (line number data adding step).

以上により、オリジナルデータであるPDFデータ(オリジナル文書特定ページ電子化データ)のレイアウトが忠実に維持された図4に示すような電子図書の表示用データDHDを得ることができる。このようにして得られた電子図書の表示用データDHDは記憶部70に記憶される。なお、必要に応じて第1実施形態と同様に、ページ番号付与工程の後にフレーズ分割工程を経てから行番号データ付与工程を実行し、図6に示すような電子図書の表示用データDHDを得てもよい。   As described above, the electronic book display data DHD as shown in FIG. 4 in which the layout of the PDF data (original document specific page digitized data) which is the original data is faithfully maintained can be obtained. The electronic book display data DHD obtained in this way is stored in the storage unit 70. If necessary, as in the first embodiment, the line number data assigning step is executed after the phrase dividing step after the page number assigning step, and the electronic book display data DHD as shown in FIG. 6 is obtained. May be.

以上の実施形態における電子図書の表示用データ作成装置100および電子図書の表示用データ作成方法においては、紙図書の特定ページを電子データ化したオリジナル文書特定ページ電子化データOTDとしてPDFデータを用いているが、この形態に限定されるものではない。例えば、いわゆる紙データをスキャンして得たものではなく、当初からのPDFデータ等に代表されるような、文字情報と位置情報が含まれる文書データである電子データを用いることも可能である。   In the electronic book display data creation device 100 and the electronic book display data creation method in the above embodiment, PDF data is used as original document specific page digitized data OTD obtained by converting a specific page of a paper book into electronic data. However, it is not limited to this form. For example, it is also possible to use electronic data that is document data including character information and position information, as represented by PDF data from the beginning, not obtained by scanning so-called paper data.

また以上の実施形態においては、オリジナル文書特定ページ電子化データOTDが横書きレイアウトである形態について説明しているが、縦書きレイアウトや、横書きレイアウトと縦書きレイアウトの混合レイアウトについても同様に対応することができる。縦書きレイアウトに対する平面座標データの取り扱いは、本実施形態における横書きレイアウトに対するデータ処理の説明部分におけるx座標値の比較をy座標値の比較に入れ替えると共に、y座標値の比較をx座標値の比較に入れ替えてPDFデータ内における平面座標データとの比較をすればよい。   In the above embodiment, the form in which the original document specific page digitized data OTD has a horizontal layout has been described. However, a vertical layout and a mixed layout of a horizontal layout and a vertical layout can be similarly handled. Can do. In the handling of plane coordinate data for the vertical writing layout, the comparison of the x coordinate values in the description of the data processing for the horizontal writing layout in this embodiment is replaced with the comparison of the y coordinate values, and the comparison of the y coordinate values is compared with the comparison of the x coordinate values. And the comparison with the plane coordinate data in the PDF data.

また、以上の実施形態においては、フレーズ分割手段50とフレーズ分割工程を含んだ形態例について説明しているが、フレーズ分割手段50とフレーズ分割工程は本発明の必須構成ではないため省略することもできる。   Moreover, in the above embodiment, although the example which includes the phrase division | segmentation means 50 and a phrase division | segmentation process is demonstrated, since the phrase division | segmentation means 50 and a phrase division | segmentation process are not the essential structures of this invention, they may be abbreviate | omitted. it can.

また、第2実施形態における行番号データ付与手段40は、フレーズ分割手段50を有する場合において、連続している複数の本文文字データHMDを分断し、行番号データGBDの付与対象となる本文文字データHMDの先頭位置(平面座標データのy座標値が同値またはその値を中心とする所定の範囲内にある本文文字データHMDのうち平面座標データのx座標値が最も小さい本文文字データHMD)の直前位置に行番号データGBDを埋め込んでいるが、直後位置に行番号データGBDを埋め込むようにしてもよい。要は、同一行番号グループGBGの先頭位置に分割フレーズBFの始点位置または終点位置が存在しない場合には、同一行番号グループGBGの先頭位置の直近位置における分割フレーズBFの始点位置または終点位置に行番号データGBDを付与すればよいのである。   Further, in the case where the line number data adding unit 40 in the second embodiment includes the phrase dividing unit 50, the plurality of continuous body character data HMD is divided, and the body character data to be provided with the line number data GBD is divided. Immediately before the head position of the HMD (the body character data HMD having the smallest x-coordinate value of the plane coordinate data among the body character data HMD having the same y-coordinate value of the plane coordinate data or within a predetermined range centered on the value) Although the line number data GBD is embedded at the position, the line number data GBD may be embedded immediately after the position. In short, if there is no start or end position of the divided phrase BF at the start position of the same line number group GBG, the start position or end position of the divided phrase BF at the position closest to the start position of the same line number group GBG is set. The line number data GBD may be given.

さらには、以上の実施形態における構成に対し、明細書中に記載されている変形例や、他の公知の構成を適宜組み合わせた形態を採用することもできる。   Furthermore, with respect to the configuration in the above-described embodiment, it is possible to adopt a form in which modifications described in the specification and other known configurations are appropriately combined.

10 領域抽出手段
20 文字データ抽出手段
30 ページ番号データ付与手段
40 行番号データ付与手段
50 フレーズ分割手段
60 データ入力手段
62 データ出力手段
70 記憶部
80 動作制御部
90 パーソナルコンピュータ
100 電子図書の表示用データ作成装置
OTD オリジナル文書特定ページ電子化データ
PGM 動作制御プログラム
HR 本文領域
PR ページ番号領域
GR 画像領域
HMD 本文文字データ
GMD 画像内文字データ
PBD ページ番号データ
GBG 同一行番号グループ
GBD 行番号データ
BF 分割フレーズ
GD 画像データ
DHD 電子図書の表示用データ
LR 行番号領域
DESCRIPTION OF SYMBOLS 10 Area extraction means 20 Character data extraction means 30 Page number data provision means 40 Line number data provision means 50 Phrase division means 60 Data input means 62 Data output means 70 Storage part 80 Operation control part 90 Personal computer 100 Data for display of electronic books Creation device OTD Original document specific page digitized data PGM Operation control program HR Body area PR Page number area GR Image area HMD Body character data GMD In-image character data PBD Page number data GBG Same line number group GBD Line number data BF Division phrase GD Image data DHD Electronic book display data LR Line number area

Claims (12)

オリジナル文書データの特定ページを電子図書装置に表示するための電子図書の表示用データ作成装置であって、
前記オリジナル文書データの前記特定ページを電子データ化したオリジナル文書特定ページ電子化データにおけるレイアウトから、本文領域とページ番号領域とをそれぞれ抽出する領域抽出手段と、
前記領域抽出手段により抽出された各領域における文字データを抽出すると共に、前記オリジナル文書特定ページ電子化データ内における各文字データの平面座標データを抽出する文字データ抽出手段と、
前記文字データ抽出手段により前記ページ番号領域から抽出された文字データをページ番号データとし、前記文字データ抽出手段により前記本文領域から抽出された本文文字データの所定位置に前記ページ番号データを付与するページ番号データ付与手段と、
前記平面座標データの一方の座標値が所定の範囲内にある前記本文文字データを同一行番号グループとし、前記同一行番号グループの各々に対し前記本文領域の始点側から順番に行番号データを付与する行番号データ付与手段と、
を具備することを特徴とする電子図書の表示用データ作成装置。
An electronic book display data creation device for displaying a specific page of original document data on an electronic book device,
Area extracting means for extracting a body area and a page number area from the layout of the original document specific page digitized data obtained by converting the specific page of the original document data into electronic data;
Character data extracting means for extracting character data in each area extracted by the area extracting means and extracting plane coordinate data of each character data in the original document specific page digitized data;
Character data extracted from the page number area by the character data extraction means is used as page number data, and the page number data is given to a predetermined position of the text character data extracted from the text area by the character data extraction means Number data providing means;
The body text data in which one coordinate value of the plane coordinate data is within a predetermined range is set to the same line number group, and line number data is assigned to each of the same line number groups in order from the start point side of the body area. Line number data assigning means to perform,
An electronic book display data creation device characterized by comprising:
前記領域抽出手段は、
前記オリジナル文書特定ページ電子化データ内における前記平面座標データおよび前記オリジナル文書特定ページ電子化データ内における前記文字データの大きさの少なくとも一方の情報に基づいて、前記本文領域と前記ページ番号領域との識別を行っていることを特徴とする請求項1記載の電子図書の表示用データ作成装置。
The region extracting means includes
Based on the information of at least one of the plane coordinate data in the original document specific page digitized data and the size of the character data in the original document specific page digitized data, the body area and the page number area 2. The electronic book display data creation device according to claim 1, wherein identification is performed.
前記本文文字データをフレーズ毎に分割し分割フレーズを生成するフレーズ分割手段をさらに備え、
前記行番号データ付与手段は、
前記同一行番号グループの先頭位置に前記分割フレーズの始点位置または終点位置が存在しない場合には、前記同一行番号グループの先頭位置の直近位置における前記分割フレーズの前記始点位置または前記終点位置に前記行番号データを付与することを特徴とする請求項1または2記載の電子図書の表示用データ作成装置。
Phrase dividing means for dividing the body text data into phrases and generating divided phrases,
The line number data giving means is
If the start position or end position of the divided phrase does not exist at the start position of the same line number group, the start position or the end position of the divided phrase at the position closest to the start position of the same line number group 3. The electronic book display data creation apparatus according to claim 1, wherein line number data is added.
オリジナル文書データの特定ページを電子図書装置に表示するための電子図書の表示用データ作成装置であって、
前記紙図書の前記特定ページを電子データ化したオリジナル文書特定ページ電子化データにおけるレイアウトから、本文領域とページ番号領域と行番号領域とをそれぞれ抽出する領域抽出手段と、
前記領域抽出手段により抽出された各領域における文字データを抽出すると共に、前記オリジナル文書特定ページ電子化データ内における各文字データの平面座標データを抽出する文字データ抽出手段と、
前記文字データ抽出手段により前記ページ番号領域から抽出された文字データをページ番号データとし、前記文字データ抽出手段により前記本文領域から抽出された本文文字データの所定位置に前記ページ番号データを付与するページ番号データ付与手段と、
前記文字データ抽出手段により前記行番号領域から抽出された文字データを行番号データとし、前記行番号データの前記平面座標データと前記本文文字データの前記平面座標データが所定条件を満たす場合、前記本文文字データに、前記行番号データを対応させて付与する行番号データ付与手段と、
を具備することを特徴とする電子図書の表示用データ作成装置。
An electronic book display data creation device for displaying a specific page of original document data on an electronic book device,
Area extracting means for extracting a body area, a page number area, and a line number area from the layout in the original document specific page digitized data obtained by digitizing the specific page of the paper book;
Character data extracting means for extracting character data in each area extracted by the area extracting means and extracting plane coordinate data of each character data in the original document specific page digitized data;
Character data extracted from the page number area by the character data extraction means is used as page number data, and the page number data is given to a predetermined position of the text character data extracted from the text area by the character data extraction means Number data providing means;
When the character data extracted from the line number area by the character data extraction means is line number data, and the plane coordinate data of the line number data and the plane coordinate data of the text character data satisfy a predetermined condition, the text Line number data giving means for giving the line number data corresponding to the character data;
An electronic book display data creation device characterized by comprising:
前記領域抽出手段は、
前記オリジナル文書特定ページ電子化データ内における前記平面座標データおよび前記オリジナル文書特定ページ電子化データ内における前記文字データの大きさの少なくとも一方の情報に基づいて、前記本文領域と前記ページ番号領域と前記行番号領域の識別を行っていることを特徴とする請求項4記載の電子図書の表示用データ作成装置。
The region extracting means includes
Based on the information of at least one of the plane coordinate data in the original document specific page digitized data and the size of the character data in the original document specific page digitized data, the body area, the page number area, and the 5. The electronic book display data creation device according to claim 4, wherein the line number area is identified.
前記本文文字データをフレーズ毎に分割し分割フレーズを生成するフレーズ分割手段をさらに備え、
前記行番号データ付与手段は、
前記行番号データの前記平面座標データと前記本文文字データの前記平面座標データとが所定条件を満たす位置の先頭位置に前記分割フレーズの始点位置または終点位置が存在しない場合には、前記行番号データの前記平面座標データと前記本文文字データの前記平面座標データとが所定条件を満たす位置の先頭位置の直近位置における前記分割フレーズの前記始点位置または前記終点位置に前記行番号データを付与することを特徴とする請求項4または5記載の電子図書の表示用データ作成装置。
Phrase dividing means for dividing the body text data into phrases and generating divided phrases,
The line number data giving means is
When the plane coordinate data of the line number data and the plane coordinate data of the text character data do not satisfy the start position or the end position of the divided phrase at the start position of the position satisfying a predetermined condition, the line number data Adding the line number data to the start point position or the end point position of the divided phrase at a position closest to the start position of the position where the plane coordinate data of the text data and the plane coordinate data of the text character data satisfy a predetermined condition. 6. The electronic book display data creation device according to claim 4 or 5.
オリジナル文書データの特定ページを電子図書装置に表示するための電子図書の表示用データ作成方法であって、
前記オリジナル文書データの特定ページを電子データ化したオリジナル文書特定ページ電子化データにおけるレイアウトから、本文領域とページ番号領域とをそれぞれ抽出する領域抽出工程と、
前記領域抽出工程により抽出された各領域における文字データを抽出すると共に、前記オリジナル文書特定ページ電子化データ内における各文字データの平面座標データを抽出する文字データ抽出工程と、
前記文字データ抽出工程により前記ページ番号領域から抽出された文字データをページ番号データとし、前記文字データ抽出工程により前記本文領域から抽出された本文文字データの所定位置に前記ページ番号データを付与するページ番号データ付与工程と、
前記平面座標データの一方の座標値が所定の範囲内にある前記本文文字データを同一行番号グループとし、前記同一行番号グループの各々に対し前記本文領域の始点側から順番に行番号データを付与する行番号データ付与工程と、
を具備することを特徴とする電子図書の表示用データ作成方法。
An electronic book display data creation method for displaying a specific page of original document data on an electronic book device,
An area extracting step for extracting a body area and a page number area from the layout in the original document specific page digitized data obtained by converting the specific page of the original document data into electronic data;
Character data extraction step for extracting character data in each region extracted by the region extraction step and extracting plane coordinate data of each character data in the original document specific page digitized data,
Character data extracted from the page number area by the character data extraction step is used as page number data, and the page number data is given to a predetermined position of the text character data extracted from the text region by the character data extraction step Number data giving process;
The body text data in which one coordinate value of the plane coordinate data is within a predetermined range is set to the same line number group, and line number data is assigned to each of the same line number groups in order from the start point side of the body area. A line number data assigning step to be performed;
A method for creating data for displaying electronic books.
前記領域抽出工程は、
前記オリジナル文書特定ページ電子化データ内における前記平面座標データおよび前記オリジナル文書特定ページ電子化データ内における前記文字データの大きさの少なくとも一方の情報に基づいて、前記本文領域と前記ページ番号領域との識別を行うことを特徴とする請求項7記載の電子図書の表示用データ作成方法。
The region extraction step includes
Based on the information of at least one of the plane coordinate data in the original document specific page digitized data and the size of the character data in the original document specific page digitized data, the body area and the page number area 8. The electronic book display data creation method according to claim 7, wherein identification is performed.
前記本文文字データをフレーズ毎に分割し分割フレーズを生成するフレーズ分割工程をさらに備え、
前記行番号データ付与工程は、
前記同一行番号グループの先頭位置に前記分割フレーズの始点位置または終点位置が存在しない場合には、前記同一行番号グループの先頭位置の直近位置における前記分割フレーズの前記始点位置または前記終点位置に前記行番号データを付与することを特徴とする請求項7または8記載の電子図書の表示用データ作成方法。
Further comprising a phrase dividing step of dividing the body text data for each phrase to generate a divided phrase;
The line number data giving step includes
If the start position or end position of the divided phrase does not exist at the start position of the same line number group, the start position or the end position of the divided phrase at the position closest to the start position of the same line number group 9. The method for creating electronic book display data according to claim 7, wherein line number data is added.
オリジナル文書データの特定ページを電子図書装置に表示するための電子図書の表示用データ作成方法であって、
前記オリジナル文書データの特定ページを電子データ化したオリジナル文書特定ページ電子化データにおけるレイアウトから、本文領域とページ番号領域と行番号領域とをそれぞれ抽出する領域抽出工程と、
前記領域抽出工程により抽出された各領域における文字データを抽出すると共に、前記オリジナル文書特定ページ電子化データ内における各文字データの平面座標データを抽出する文字データ抽出工程と、
前記文字データ抽出工程により前記ページ番号領域から抽出された文字データをページ番号データとし、前記文字データ抽出工程により前記本文領域から抽出された本文文字データの所定位置に前記ページ番号データを付与するページ番号データ付与工程と、
前記文字データ抽出工程により前記行番号領域から抽出された文字データを行番号データとし、前記行番号データの前記平面座標データと前記本文文字データの前記平面座標データが所定条件を満たす場合、前記本文文字データに、前記行番号データを対応させて付与する行番号データ付与工程と、
を具備することを特徴とする電子図書の表示用データ作成方法。
An electronic book display data creation method for displaying a specific page of original document data on an electronic book device,
A region extracting step of extracting a body region, a page number region, and a line number region from the layout in the original document specific page digitized data obtained by converting the specific page of the original document data into electronic data;
Character data extraction step for extracting character data in each region extracted by the region extraction step and extracting plane coordinate data of each character data in the original document specific page digitized data,
Character data extracted from the page number area by the character data extraction step is used as page number data, and the page number data is given to a predetermined position of the text character data extracted from the text region by the character data extraction step Number data giving process;
When the character data extracted from the line number area in the character data extraction step is line number data, and the plane coordinate data of the line number data and the plane coordinate data of the body character data satisfy a predetermined condition, the body text A line number data assigning step for assigning the character number data in association with the line number data;
A method for creating data for displaying electronic books.
前記領域抽出工程は、
前記オリジナル文書特定ページ電子化データ内における前記平面座標データおよび前記オリジナル文書特定ページ電子化データ内における前記文字データの大きさの少なくとも一方の情報に基づいて、前記本文領域と前記ページ番号領域と前記行番号領域の識別を行っていることを特徴とする請求項10記載の電子図書の表示用データ作成方法。
The region extraction step includes
Based on the information of at least one of the plane coordinate data in the original document specific page digitized data and the size of the character data in the original document specific page digitized data, the body area, the page number area, and the 11. The electronic book display data creation method according to claim 10, wherein line number areas are identified.
前記本文文字データをフレーズ毎に分割し分割フレーズを生成するフレーズ分割工程をさらに備え、
前記行番号データ付与工程は、
前記行番号データの前記平面座標データと前記本文文字データの前記平面座標データとが所定条件を満たす位置の先頭位置に前記分割フレーズの始点位置または終点位置が存在しない場合には、前記行番号データの前記平面座標データと前記本文文字データの前記平面座標データとが所定条件を満たす位置の先頭位置の直近位置における前記分割フレーズの前記始点位置または前記終点位置に前記行番号データを付与することを特徴とする請求項10または11記載の電子図書の表示用データ作成方法。
Further comprising a phrase dividing step of dividing the body text data for each phrase to generate a divided phrase;
The line number data giving step includes
When the plane coordinate data of the line number data and the plane coordinate data of the text character data do not satisfy the start position or the end position of the divided phrase at the start position of the position satisfying a predetermined condition, the line number data Adding the line number data to the start point position or the end point position of the divided phrase at a position closest to the start position of the position where the plane coordinate data of the text data and the plane coordinate data of the text character data satisfy a predetermined condition. 12. The electronic book display data creation method according to claim 10 or 11.
JP2018031282A 2018-02-23 2018-02-23 Device for creating data for displaying electronic books Active JP6731011B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018031282A JP6731011B2 (en) 2018-02-23 2018-02-23 Device for creating data for displaying electronic books

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018031282A JP6731011B2 (en) 2018-02-23 2018-02-23 Device for creating data for displaying electronic books

Publications (2)

Publication Number Publication Date
JP2019145038A true JP2019145038A (en) 2019-08-29
JP6731011B2 JP6731011B2 (en) 2020-07-29

Family

ID=67772494

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018031282A Active JP6731011B2 (en) 2018-02-23 2018-02-23 Device for creating data for displaying electronic books

Country Status (1)

Country Link
JP (1) JP6731011B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6818923B1 (en) * 2020-04-02 2021-01-27 株式会社スカイコム Information processing equipment, data linkage system, method and program
JPWO2021161453A1 (en) * 2020-02-13 2021-08-19

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004070523A (en) * 2002-08-02 2004-03-04 Canon Inc Information processor and its' method
JP2011065621A (en) * 2009-08-20 2011-03-31 Fuji Xerox Co Ltd Information processing device and information processing program
JP2016099793A (en) * 2014-11-20 2016-05-30 シャープ株式会社 Document image processor, information processor having the same, program and recording medium

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004070523A (en) * 2002-08-02 2004-03-04 Canon Inc Information processor and its' method
JP2011065621A (en) * 2009-08-20 2011-03-31 Fuji Xerox Co Ltd Information processing device and information processing program
JP2016099793A (en) * 2014-11-20 2016-05-30 シャープ株式会社 Document image processor, information processor having the same, program and recording medium

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021161453A1 (en) * 2020-02-13 2021-08-19
JP7351358B2 (en) 2020-02-13 2023-09-27 日本電気株式会社 Image processing system, image processing method, and image processing program
JP6818923B1 (en) * 2020-04-02 2021-01-27 株式会社スカイコム Information processing equipment, data linkage system, method and program
JP2021163363A (en) * 2020-04-02 2021-10-11 株式会社スカイコム Information processing apparatus, data cooperation system, method, and program

Also Published As

Publication number Publication date
JP6731011B2 (en) 2020-07-29

Similar Documents

Publication Publication Date Title
US8719029B2 (en) File format, server, viewer device for digital comic, digital comic generation device
US6446041B1 (en) Method and system for providing audio playback of a multi-source document
US6199042B1 (en) Reading system
CN110770735B (en) Transcoding of documents with embedded mathematical expressions
JP5634853B2 (en) Electronic comic viewer device, electronic comic browsing system, viewer program, and electronic comic display method
US8952985B2 (en) Digital comic editor, method and non-transitory computer-readable medium
US20130326341A1 (en) Digital comic editor, method and non-transitorycomputer-readable medium
WO2012086359A1 (en) Viewer device, viewing system, viewer program, and recording medium
JP5674451B2 (en) Viewer device, browsing system, viewer program, and recording medium
JP6731011B2 (en) Device for creating data for displaying electronic books
US20080243510A1 (en) Overlapping screen reading of non-sequential text
KR20090048211A (en) Method for converting/executing of document capable of playing audio source, recorded medium for performing the same and program for performing the same
JP2002197097A (en) Article summary sentence generator, article summary sentence generating/processing method and recording medium of article summary sentence generation processing program
JP6411015B2 (en) Speech synthesizer, speech synthesis method, and program
EP3640940A1 (en) Method, program, and information processing apparatus for presenting correction candidates in voice input system
KR102500730B1 (en) Electronic apparatus that provides a translation function that maintains the style information of the sentence and operating method thereof
JPH08272388A (en) Device and method for synthesizing voice
JP4444141B2 (en) Information processing apparatus, information processing method, information processing program, and computer-readable recording medium recording the same
JP2580565B2 (en) Voice information dictionary creation device
JP6168422B2 (en) Information processing apparatus, information processing method, and program
JP3182283U (en) Audio playback method for electronic books
KR102265102B1 (en) Editing method for subtitle with kinetic typography and electronic apparatus thereof
EP3629325A1 (en) Sound playback interval control method, sound playback interval control program, and information processing apparatus
KR20090048210A (en) Method for converting/executing of document capable of playing audio source, recorded medium for performing the same and program for performing the same
Amin Writing to Speech Conversion Application With Using an Android-Based Camera to Talk

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200609

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200703

R150 Certificate of patent or registration of utility model

Ref document number: 6731011

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250