JP2015215889A - リフロー型電子書籍生成方法及びウェブサイトシステム - Google Patents

リフロー型電子書籍生成方法及びウェブサイトシステム Download PDF

Info

Publication number
JP2015215889A
JP2015215889A JP2015090314A JP2015090314A JP2015215889A JP 2015215889 A JP2015215889 A JP 2015215889A JP 2015090314 A JP2015090314 A JP 2015090314A JP 2015090314 A JP2015090314 A JP 2015090314A JP 2015215889 A JP2015215889 A JP 2015215889A
Authority
JP
Japan
Prior art keywords
reflow
paragraph
electronic book
characters
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015090314A
Other languages
English (en)
Inventor
崔殷豪
Yin-Hao Tsui
▲頼▼鼎宇
Ting-Yu Lai
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Golden Board Cultural & Creative Ltd Co
Original Assignee
Golden Board Cultural & Creative Ltd Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Golden Board Cultural & Creative Ltd Co filed Critical Golden Board Cultural & Creative Ltd Co
Publication of JP2015215889A publication Critical patent/JP2015215889A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0483Interaction with page-structured environments, e.g. book metaphor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Abstract

【課題】リフロー型電子書籍生成之方法及びウェブサイトシステムを提供することを課題とする。【解決手段】リフロー型電子書籍生成方法及びウェブサイトシステムであって、まず電子ファイル内のページ内容上のオリジナル段落を識別する。次に、オリジナル段落内の複数行に並ぶ形式を識別し、並んだ形式によって複数行を直結してリフロー型段落となると共に各リフロー型段落に対応する認識信頼度を計算する。そしてリフロー型段落を編集インターフェースに表示し、また閾値に基づいて認識信頼度が閾値より低いリフロー型段落をマークする。よってユーザが編集インターフェース内でマークされたリフロー型段落を確認又は修正できる。最後に全てのリフロー型段落をリフロー型電子書籍ファイルとして保存する。これを介して、簡単に非構造化書籍ファイルをリフロー型電子書籍ファイルに変換でき、且つユーザに編集インターフェースを通じて迅速に認識間違いが発生した可能性のあるところを校閲させることができる。【選択図】図1

Description

本発明は、電子書籍生成方法に関し、特に、リフロー型電子書籍生成方法及びリフロー型電子書籍を生成するウェブサイトシステムに関する。
テクノロジーの進歩に伴い、携帯型表示装置(例えばタブレット型コンピュータ、携帯電話機)は、人々の生活に普及している。人々はよくこれらの携帯型表示装置でウェブページの閲覧、電子書籍を閲読している。よって、デジタルブックの需要量が大幅に増加し、出版社は従来の紙書籍を出版する以外に、デジタル出版に参入することができると考え始めた。
しかしながら、よく見られる紙書籍を電子書籍ファイルに変換するアプローチは、直接印刷前の非構造化(Unstructured)ファイル(例えばPDFファイル)を使用することである。この種のファイルは書籍のコンテンツを携帯型表示装置上に表示できるが、閲覧者にとって、ページ上の特定コンテンツを更に詳しく見たい時(特に携帯電話等のスクリーンが比較的小さい装置を使用する時)、ページを拡大(Zoom In)するだけで、また他の部分のコンテンツを閲覧したい時、当該エリアまでドラッグ&ドロップしなければならないため、非常に不便である。
また、一部の業者は、非構造化ファイルを更に処理し、既存のファイル変換システムを用いて非構造化ファイルを構造化リフロー型ファイル(例えばhtmlファイル)に変換する。ただし、既存のファイル変換システムは、正確に変換できないため、変換後のファイルがほぼ使用できず、よって、業者は、膨大な労力を費やして手動でページ上の文字と図画をキャプチャーする必要がある。次に、再度キャプチャーした文字と図画を改めて組版するため膨大な労力を費やしてしまう。
本発明は、上記問題点に鑑み、先行技術に存在している紙書籍をデジタルブックに変換した時の組版に費される大量の労力及び文字校正が困難な問題を解決するため、リフロー型(reflow content)電子書籍生成方法及びリフロー型電子書籍を生成するウェブサイトシステムを提供することを目的とする。
本発明の一実施例で提供するリフロー型電子書籍生成方法は、少なくとも1つのページ内容を含む電子ファイルを受信するステップと、ページ内容上の少なくとも1つのオリジナル段落の書字方向に沿って複数行に並べられる複数文字を識別するステップと、複数行の並ぶ形式を識別するステップと、並ぶ形式によって複数行の複数文字を直結して少なくとも1つのリフロー型段落となると共に各リフロー型段落に対応する認識信頼度を計算するステップと、リフロー型段落の複数文字を編集インターフェースに表示し、また閾値に基づいて認識信頼度が閾値より低いリフロー型段落をマークするステップと、ユーザが編集インターフェース内でマークされたリフロー型段落を確認又は修正するステップと、全てのリフロー型段落をリフロー型電子書籍ファイルとして保存するステップとを含む。上記ステップを介して、簡単に非構造化書籍ファイルをリフロー型電子書籍ファイルに変換でき、且つユーザに編集インターフェースを通じて迅速に認識間違いが発生した可能性のあるところを校閲させることができる。
そこで、編集インターフェースは、ユーザに複数の表示装置のいずれかで表示される段落の画面を選択させるため、複数の表示装置に対応するデバイスオプションを有することができる。表示装置の表示画面サイズが異なる。これを介してユーザは、編集インターフェース上においてリフロー型段落を編集でき、且つ編集インターフェースで見た内容は表示装置に対して見える編集内容である。
一実施例においてページ内容上の複数文字を識別するステップは、各ページ内容中の複数文字を識別すると共に横座標と縦座標とを備えるニ次元座標を統計することと、複数文字の縦座標の多いものによって上下マージンを決定し、また複数文字の横座標の多いものによって左右マージンを決定することと、各ページ内容中の上下マージンと左右マージン内に位置する複数文字を本文として定義することと、を含むことができる。これを介してページ内のページ番号、章節名称、コメント等の非本文の内容を排除して認識間違いの確率を下げることができる。
一実施例において、並ぶ形式はフォントと文字サイズとインデント距離と字間と行間とを含む。例えば、まずオリジナル段落のインデント距離を検出してからオリジナル段落のインデント距離に基づき、本文に対応するリフロー型段落を並べることができる。これを介してオリジナル段落をリフロー型段落に変換する正確率をアップできる。
若干の実施例において、前記リフロー型電子書籍生成方法は、非テキスト領域識別ステップを更に含むことができ、これはまず画像或いはフォームを非テキスト領域として識別してから各該非テキスト領域の間隔を識別し、最後に間隔がデフォルト値より小さい非テキスト領域を合併する。これを介してバラバラな図表を1つの画像として統合してバラバラな図表がテキスト段落として誤認して認識間違いが起きるのを避けることができる。
本発明の他の実施例で提供するリフロー型電子書籍を生成するウェブサイトシステムは、ネットワーク受信モジュールと画像識別モジュールとウェブサイトインターフェースモジュールとを含む。
ネットワーク受信モジュールは、ユーザがアップロードした電子ファイルを受信し、該電子ファイルが少なくとも1つのページ内容を含む。画像識別モジュールは、ページ内容上の複数文字を識別し、複数文字が書字方向に沿って複数行に並び、また複数行の並ぶ形式を識別し、並ぶ形式によって複数行の複数文字を直結して少なくとも1つのリフロー型段落となると共に各リフロー型段落に対応する認識信頼度を計算する。ウェブサイトインターフェースモジュールは、リフロー型段落の複数文字を表示し、また閾値に基づいて認識信頼度が閾値より低いリフロー型段落をマークするための編集インターフェースを含む。これを介してユーザは編集インターフェースを通じて迅速に認識間違いが発生した可能性のあるところを校閲できる。
一実施例において、編集インターフェースは、並列の第1のブラウザーウィンドウと第2のブラウザーウィンドウとを有することができる。第1のブラウザーウィンドウはページ内容を表示し、第2のブラウザーウィンドウが対応の識別を経たリフロー型段落を表示する。これを介してユーザは簡単にオリジナル段落とリフロー型段落を対照できる。
一実施例において、編集インターフェースは、複数の表示装置に対応するデバイスオプションと編集ツールセットとを更に含む。デバイスオプションは、ユーザに対応の複数の表示装置のいずれかで表示するリフロー型段落の画面を第2のブラウザーウィンドウに表示することを選択させる。複数の表示装置の表示画面サイズが異なり、編集ツールセットは第2のブラウザーウィンドウ内で表示されるリフロー型段落の編集に用いられる。これを介して、ユーザは電子書籍の異なる表示装置上で表示される画面を見られると共に直ちに編集できる。
一実施例において、編集インターフェースは、全ての識別を経たリフロー型段落をリフロー型電子書籍ファイルとして保存するための保存ボタンを更に含む。
一実施例において、編集インターフェースは、順次にマークされたリフロー型段落を第2のブラウザーウィンドウに表示するためのスキップボタンを更に含む。
本発明に係るリフロー型電子書籍生成方法及びリフロー型電子書籍を生成するウェブサイトシステムは、ユーザに迅速に認識間違いが発生した可能性のあるところを校閲させると共に直ちに修正して保存させることができる。且つ、生成されたリフロー型電子書籍を柔軟的にスクリーンサイズが異なる表示装置に表示させることができる。同時に、本発明が用いる段落認識ステップを通じて認識間違いの確率を下げることができる。
本発明の一実施例に係るリフロー型電子書籍生成方法のフローチャートである。 本発明の一実施例に係るリフロー型電子書籍生成方法のステップS200フローチャートである。 本発明の一実施例に係るリフロー型電子書籍生成方法のステップS400フローチャートである。 本発明の一実施例に係るページ内容を示す模式図である。 本発明の一実施例に係る編集インターフェースウィンドウを示す模式図である。 本発明の一実施例に係るウェブサイトシステムのブロック図である。
図1を参照する。本発明の一実施例に係るリフロー型電子書籍生成方法のフローチャートである。リフロー型電子書籍生成方法は、次のステップを含み、ウェブサイトシステムを通じて実現できる。このウェブサイトシステムについては後述するので、ここでまずリフロー型電子書籍生成方法のフローを説明する。
ステップS100:ウェブサイトシステムは、ユーザからアップロードされた少なくとも1つのページ内容を含む電子ファイルを受信する。そこで、電子ファイルのファイルフォーマットは、アドビシステム(登録商標)(Adobe Systems)社が開発したポータブル・ドキュメント・フォーマット(PDF、Portable Document Format)とする。PDFファイルはWordファイル或いはその他の組版ソフトウェアファイルから変換したPDFファイルとすることができ、スキャンした画像ファイルがOCR(Optical Character Recognition、光学文字認識)プロセスを経た後で生成したPDFファイルとすることもできる。
ステップS200:ページ内容上のオリジナル段落の書字方向に沿って複数行に並べられる複数文字を識別する。そこで、書字方向は、一般的に縦書き方向又は横書き方向であるが、本発明はこれに限るものではない。
図2を参照する。本発明の一実施例に係るリフロー型電子書籍生成方法のステップS200フローチャートである。まずステップS201において各ページ内容中の複数文字を識別すると共にそのニ次元座標を統計し、該ニ次元座標は横座標と縦座標とを含む。次に、ステップS202において、複数文字の縦座標の多いものによって上下マージンを決定し、また複数文字の横座標の多いものによって左右マージンを決定する。最後にステップS203において、各ページ内容中の上下マージンと左右マージン内に位置する複数文字を本文901として定義する(図4)。
図4を参照する。本発明の一実施例に係るページ内容を示す模式図である。そこで、縦書き方向を例とする。ページ内には本文901と本文901上方にある章節902と本文901下方にあるページ番号903と本文901左側にあるコメント904等の内容とを含むことができる。各ページについて統計を行った後、本文901内の各行の先頭文字及び末尾文字の縦座標は最も頻繁に現れた座標値で、本文901内の1行目の各文字横座標及び最終行の各文字横座標が最も頻繁的に現れた座標値である。よって、これをもって上マージン905、下マージン906、左マージン907及び右マージン908を見付け出すことができる。このほかに、コメント904は偶然現れる内容であるためマージンの判断に影響を及ぼさない。
そこで、各ページの本文901は、大半同一領域内にあり、且つそのフォント、文字サイズ等の態様(例えば太字、斜体)が本文901範囲外の文字と異なり、これを通じてマージン判定の間違いの有無の判断を補助できる。
再度図1を参照する。ステップS300:該複数行の並ぶ形式を識別する。そこで、並ぶ形式は、フォントと文字サイズとインデント距離D1、D5と字間D2と行間D3、D4とを含むが、これに限定されない(図4)。
次に、ステップS400において並ぶ形式によって複数行の複数文字を直結して少なくとも1つのリフロー型段落となると共に各リフロー型段落に対応する認識信頼度を計算する。
図3を参照する。本発明の一実施例に係るリフロー型電子書籍生成方法のステップS400フローチャートである。各オリジナル段落はどの行を含むかを識別するため、まずオリジナル段落のインデント距離D1を検出(ステップS401)してから、オリジナル段落のインデント距離によって本文に対応するリフロー型段落を並べることができる。つまり、インデントのある行をリフロー型段落の1行目とすることで、次のオリジナル段落の先頭文字と直結してリフロー型段落を形成する(ステップS402)。ただし、本発明の実施例はこれに限られるものではなく、そこで例えば行間D3、D4の差異に基づいて各オリジナル段落を識別することができる。
図4に示すように、1段落目の最終行と2段落目の1行目間の行間D4は、段落内の各行の行間と異なるため、行間D3、D4の違いによってオリジナル段落はどの行を含むかを判断して対応の行を直結してリフロー型段落を形成できる。前述インデント距離は、1行目のみに限らず、段落全体にあることもできる(例えばインデント距離D5)。
そこで、認識信頼度は、多種類のパラメータによって総合的に評価した後で算出した認識成功確率である。前記パラメータは、同一リフロー型段落内の文字スタイル(フォントとサイズと字間と行間等を含む)を一貫性の程度とすることができる。例えば、同一リフロー型段落の文字スタイルの同じ比率が高ければ高いほど、認識信頼度が高くなる。
リフロー型段落が生成された後、編集インターフェース910(図5)を提供して編集インターフェース910にリフロー型段落914の文字を表示し、また閾値によって認識信頼度が閾値より低いリフロー型段落914をマークできる(つまり斜線で表示されるリフロー型段落914)。図5は、本発明の一実施例に係る編集インターフェース910ウィンドウを示す模式図である。
図5に示すように、編集インターフェースは、並列の第1のブラウザーウィンドウ911と第2のブラウザーウィンドウ912とを有する。第1のブラウザーウィンドウ911はページ内容を表示し、つまりページ内のオリジナル段落913を表示できる。
第2のブラウザーウィンドウ912は、対応の識別したリフロー型段落914を表示する。認識過程中において算出した某リフロー型段落914の認識信頼度が閾値より低く、更に手作業による確認を必要とする場合、第1のブラウザーウィンドウ911において該対応のオリジナル段落913をマークする。マーク方法は、ハイライト(highlight)、枠で囲み、下線引き、文字色の調整等とすることができる。これを介してユーザは、優先して間違った可能性のあるところを校閲して校正速度を加速できる。
編集インターフェース910内は、複数のデバイスオプション(つまりデバイス選択ボタン917)と編集ツールセット(つまり編集ツールバー920)とを更に含むことができる。デバイス選択ボタン917は、該ユーザに表示装置内のいずれかで表示されるリフロー型段落914の画面を第2のブラウザーウィンドウ912に表示するよう選択させる。例えば、「デバイス1」のデバイス選択ボタン917は、米国アップル(登録商標)社が生産したiPad(登録商標)タブレット型コンピュータとすることができる。「デバイス2」のデバイス選択ボタン917は、韓国サムスン(登録商標)社が生産したGALAXY(登録商標) S4スマートフォンとすることができる。言い換えると、複数の表示装置の表示画面サイズは異なる。
ユーザは、異なるデバイス選択ボタン917をクリックしてその電子書籍の異なる表示装置上における表示画面を見ると共にこれをもって編集調整できる。編集ツールバー920は、ユーザに第2のブラウザーウィンドウ912内で表示されるリフロー型段落914を編集することができる。例えば、文字フォント、太字/斜体、文字サイズ、揃え方、及びその他のスタイル又はフォーマット等を調整できる。
図5に示すように、編集インターフェース910は、スキップボタン(そこで段落マーク選択ボタン918及びページめくり選択ボタン919を例とする)を更に含むことができる。主に表示されるのは、「段落2」のリフロー型段落914で、ユーザが「前段落」の段落マーク選択ボタン918をクリックした場合、第1のブラウザーウィンドウ911及び第2のブラウザーウィンドウ912は、前のマークされた認識信頼度が閾値より低いリフロー型段落をいずれも表示できる(ここで、「段落1」のリフロー型段落914とする)。
ユーザが「次の段落」の段落マーク選択ボタン918をクリックした場合、第1のブラウザーウィンドウ911及び第2のブラウザーウィンドウ912は、次のマークされた認識信頼度が閾値より低いリフロー型段落をいずれも表示できる(ここでは、「段落3」のリフロー型段落914とする)。ユーザが左側のページめくり選択ボタン919をクリックした場合、第2のブラウザーウィンドウ912に表示される内容は、クリックする前に表示された内容の前のリフロー型段落914(つまり、前のページをめくる)である。ユーザが右側のページめくり選択ボタン919をクリックした場合、第2のブラウザーウィンドウ912に表示される内容は、クリックする前に表示された内容の続き(つまり、次のページをめくる)である。よって、ユーザは、ページめくり選択ボタン919を通じて、順次第2のブラウザーウィンドウ912内のリフロー型段落914を見ることができる。
若干の実施例において、第1のブラウザーウィンドウ911或いは第2のブラウザーウィンドウ912をスクロールして閲覧する時、別のブラウザーウィンドも連動して進み、ユーザに左右参照して校正を行う便利性を与える。
図5に示すように、編集インターフェース910は、全ての識別を経たリフロー型段落914をリフロー型電子書籍ファイルとして保存するための保存ボタン921を更に含むことができる。言い換えると、ユーザは全てのマークされたリフロー型段落914(ステップS600)を検査した場合、保存ボタン921を押して全てのリフロー型段落914を保存できる(ステップS700)。そこで、リフロー型電子書籍ファイルは、ePubファイル或いは例えばhtmlファイルの他のリフロー型フォーマットとすることができる。
一実施例において、前記ステップS500の前に非テキスト領域識別ステップを更に含むことができる。多くのバラバラな文字を識別した時、ブロック図又はフローチャート等の図表として認定できるため、識別した画像或いはフォームを非テキスト領域として見なすことができる。次に、各非テキスト領域の間隔を判断する。最後に間隔がデフォルト値より小さい非テキスト領域を図として合併する。これを介して段落判断間違いの確率を下げることができ、つまりバラバラな文字が1つ1つのリフロー型段落914として識別されるのを避けることができる。
図6は、本発明の一実施例に係るウェブサイトシステム930のブロック図である。図6に示すように、ウェブサイトシステム930は、ネットワーク受信モジュール931と画像識別モジュール932とウェブサイトインターフェースモジュール933とを含む。ウェブサイトシステム930は、ウェブサイトサーバーで実現でき、ウェブサイトサーバーがストーレジデバイス(例えばハードディスク)と演算プロセッサー(例えば中央処理装置、CPU)とネットワークカード等を備える。
ネットワーク受信モジュール931は、インターネットを経由してユーザがクライアントデバイス940(例えばデスクトップコンピュータ)でアップロードした電子ファイルを受信する。画像識別モジュール932は、前記ステップS200乃至S400を実行する。ウェブサイトインターフェースモジュール933は、リフロー型段落914の文字を表示すると共に閾値によって認識信頼度が閾値より低いリフロー型段落914をマークするための前記編集インターフェース910を有する。これを介して、上記ウェブサイトシステムを通じてリフロー型電子書籍のオンラインファイル変換編集サービスを提供でき、生成したリフロー型電子書籍ファイルもユーザにダウンロードさせることができる。そこで、ウェブサイトシステム930は、会員ログイン制度を用いることができるが、これは当業者が熟知するので、ここで詳細な記述を省略する。
上記を取りまとめると、本発明に係るリフロー型電子書籍生成方法及びリフロー型電子書籍を生成するウェブサイトシステムは、ユーザに迅速に認識間違いが発生した可能性のあるところを校閲させると共に直ちに修正して保存させることができる。且つ、生成されたリフロー型電子書籍を柔軟的にスクリーンサイズが異なる表示装置に表示されることができる。同時に、本発明が用いる段落認識ステップを通じて認識間違いの確率を下げることができる。
上述の説明は、単に本発明の最良の実施例を挙げたまでであり、本発明を限定しない。その他本発明の開示する要旨を逸脱することなく完成された同等効果の修飾または置換はいずれも後述の特許請求の範囲に含まれる。
901 本文
902 章節
903 ページ番号
904 コメント
905 上マージン
906 下マージン
907 左マージン
908 右マージン
910 編集インターフェース
911 第1のブラウザーウィンドウ
912 第2のブラウザーウィンドウ
913 オリジナル段落
914 リフロー型段落
915 拡大ボタン
916 縮小ボタン
917 デバイス選択ボタン
918 段落マーク選択ボタン
919 ページめくり選択ボタン
920 編集ツールバー
921 保存ボタン
930 ウェブサイトシステム
931 ネットワーク受信モジュール
932 画像識別モジュール
933 ウェブサイトインターフェースモジュール
940 クライアントデバイス
D1、D5 インデント距離
D2 字間
D3、D4 行間
S100 少なくとも1つのページ内容を含む電子ファイルを受信する
S200 ページ内容上の少なくとも1つのオリジナル段落の書字方向に沿って複数行に並べられる複数文字を識別する
S201 各ページ内容中の複数文字を識別すると共に横座標と縦座標とを備えるニ次元座標を統計する
S202 複数文字の縦座標の多いものによって上下マージンを決定し、また複数文字の横座標の多いものによって左右マージンを決定する
S203 各ページ内容中の上下マージンと左右マージン内に位置する複数文字を本文として定義する
S300 該複数行の並ぶ形式を識別する
S400 並ぶ形式によって複数行の複数文字を直結して少なくとも1つのリフロー型段落となると共に各リフロー型段落に対応する認識信頼度を計算する
S401 オリジナル段落のインデント距離を検出する
S402 オリジナル段落のインデント距離によって本文に対応するリフロー型段落を並べる
S500 リフロー型段落の複数文字を編集インターフェースに表示し、また閾値に基づいて認識信頼度が閾値より低いリフロー型段落をマークする
S600 ユーザが編集インターフェース内でマークされたリフロー型段落を確認又は修正する
S700 全てのリフロー型段落をリフロー型電子書籍ファイルとして保存する

Claims (10)

  1. 少なくとも1つのページ内容を含む電子ファイルを受信するステップと、
    前記ページ内容上の少なくとも1つのオリジナル段落の書字方向に沿って複数行に並べられる複数文字を識別するステップと、
    前記複数行の並ぶ形式を識別するステップと、
    前記並ぶ形式によって前記複数行の前記複数文字を直結して少なくとも1つのリフロー型段落とすると共に各前記リフロー型段落に対応する認識信頼度を計算するステップと、
    前記リフロー型段落の複数文字を編集インターフェースに表示し、また閾値に基づいて前記認識信頼度が閾値より低いリフロー型段落をマークするステップと、
    ユーザが前記編集インターフェース内でマークされた前記少なくとも1つのリフロー型段落を確認又は修正するステップと、
    全ての前記少なくとも1つのリフロー型段落をリフロー型電子書籍ファイルとして保存するステップと、
    を含むことを特徴とするリフロー型電子書籍生成方法。
  2. 前記少なくとも1つのページ内容上の複数文字を識別するステップは、
    各前記少なくとも1つのページ内容中の前記複数文字を識別すると共に横座標と縦座標とを備えるニ次元座標を統計するステップと、
    前記複数文字の前記縦座標の多いものによって上下マージンを決定し、また前記複数文字の横座標の多いものによって左右マージンを決定するステップと、
    各前記少なくとも1つのページ内容中の前記上下マージンと前記左右マージン内に位置する前記複数文字を本文として定義するステップと、
    を含むことを特徴とする請求項1に記載のリフロー型電子書籍生成方法。
  3. 前記並ぶ形式によって前記複数行の前記複数文字を直結して少なくとも1つのリフロー型段落とするステップは、
    前記少なくとも1つのオリジナル段落のインデント距離を検出するステップと、
    前記少なくとも1つのオリジナル段落のインデント距離に基づき、前記本文に対応する前記少なくとも1つのリフロー型段落を並べるステップと、
    を更に含むことを特徴とする請求項2に記載のリフロー型電子書籍生成方法。
  4. 画像或いはフォームを非テキスト領域として識別することと、各前記非テキスト領域の間隔を識別することと、間隔がデフォルト値より小さい非テキスト領域を合併することと、を包括する非テキスト領域識別ステップを更に含むことを特徴とする請求項1に記載のリフロー型電子書籍生成方法。
  5. 前記少なくとも1つのリフロー型段落の前記複数文字を編集インターフェースに表示するステップにおいて、前記編集インターフェースは、複数の表示装置に対応し、前記ユーザに前記複数の表示装置のいずれかで表示する前記少なくとも1つのリフロー型段落の画面表示を選択させるデバイスオプションを備え、前記複数の表示装置の表示画面サイズが異なることを特徴とする請求項1に記載のリフロー型電子書籍生成方法。
  6. ユーザがアップロードした少なくとも1つのページ内容を含む電子ファイルを受信するネットワーク受信モジュールと、
    前記少なくとも1つのページ内容上の書字方向に沿って複数行に並べられる複数文字を識別し、また前記複数行の並ぶ形式を識別し、前記並ぶ形式によって前記複数行の前記複数文字を直結して少なくとも1つのリフロー型段落となると共に各前記少なくとも1つのリフロー型段落に対応する認識信頼度を計算する画像識別モジュール、
    前記少なくとも1つのリフロー型段落の前記複数文字を表示し、また閾値に基づいて前記認識信頼度が前記閾値より低い前記リフロー型段落をマークするための編集インターフェースを備えるウェブサイトインターフェースモジュールと、
    を含むことを特徴とするリフロー型電子書籍を生成するウェブサイトシステム。
  7. 前記編集インターフェースは、並列の第1のブラウザーウィンドウと第2のブラウザーウィンドウとを有し、前記第1のブラウザーウィンドウは前記少なくとも1つのページ内容を表示し、前記第2のブラウザーウィンドウが対応の識別を経た前記少なくとも1つのリフロー型段落を表示することを特徴とする請求項6に記載のリフロー型電子書籍を生成するウェブサイトシステム。
  8. 前記編集インターフェースは、複数の表示装置に対応するデバイスオプションと編集ツールセットとを更に含み、前記デバイスオプションは前記ユーザに対応の前記複数の表示装置のいずれかで表示する前記少なくとも1つのリフロー型段落の画面を前記第2のブラウザーウィンドウに表示することを選択させ、前記複数の表示装置の表示画面サイズが異なり、前記編集ツールセットは前記第2のブラウザーウィンドウ内で表示される前記少なくとも1つのリフロー型段落の編集に用いられることを特徴とする請求項6に記載のリフロー型電子書籍を生成するウェブサイトシステム。
  9. 前記編集インターフェースは、全ての識別を経た前記少なくとも1つのリフロー型段落をリフロー型電子書籍ファイルとして保存するための保存ボタンを更に含むことを特徴とする請求項6に記載のリフロー型電子書籍を生成するウェブサイトシステム。
  10. 前記編集インターフェースは、順次にマークされた前記少なくとも1つのリフロー型段落を前記第2のブラウザーウィンドウに表示するためのスキップボタンを更に含むことを特徴とする請求項6に記載のリフロー型電子書籍を生成するウェブサイトシステム。
JP2015090314A 2014-05-07 2015-04-27 リフロー型電子書籍生成方法及びウェブサイトシステム Pending JP2015215889A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW103116324 2014-05-07
TW103116324A TWI533194B (zh) 2014-05-07 2014-05-07 流式電子書產生之方法及網站系統

Publications (1)

Publication Number Publication Date
JP2015215889A true JP2015215889A (ja) 2015-12-03

Family

ID=54367974

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015090314A Pending JP2015215889A (ja) 2014-05-07 2015-04-27 リフロー型電子書籍生成方法及びウェブサイトシステム

Country Status (4)

Country Link
US (1) US20150324340A1 (ja)
JP (1) JP2015215889A (ja)
CN (1) CN105095166B (ja)
TW (1) TWI533194B (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150370761A1 (en) * 2014-06-24 2015-12-24 Keepsayk LLC Display layout editing system and method using dynamic reflow
CN105718554A (zh) * 2016-01-19 2016-06-29 深圳市天朗时代科技有限公司 文档的协同转换方法及系统
TWI581175B (zh) * 2016-05-13 2017-05-01 Image display method
KR101890831B1 (ko) * 2017-01-11 2018-09-28 주식회사 펍플 전자책 서비스 제공방법 및 그를 위한 컴퓨터 프로그램
US10409895B2 (en) * 2017-10-17 2019-09-10 Qualtrics, Llc Optimizing a document based on dynamically updating content
US10261987B1 (en) * 2017-12-20 2019-04-16 International Business Machines Corporation Pre-processing E-book in scanned format
US11295061B2 (en) * 2020-02-05 2022-04-05 Amazon Technologies, Inc. Dynamic layout adjustment for reflowable content
CN112257412B (zh) * 2020-09-25 2023-12-01 科大讯飞股份有限公司 篇章解析方法、电子设备及存储装置
CN112965646B (zh) * 2021-03-05 2021-09-14 广州文石信息科技有限公司 一种流式文档子目录页码计算方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5541566A (en) * 1978-09-20 1980-03-24 Casio Comput Co Ltd Error position detection system
JPS57137971A (en) * 1981-02-20 1982-08-25 Ricoh Co Ltd Picture area extracting method
JPH05282296A (ja) * 1992-03-31 1993-10-29 Toshiba Corp 文書作成支援装置
JPH11250041A (ja) * 1998-02-27 1999-09-17 Toshiba Corp 文書処理装置および文書処理方法
JP2000293671A (ja) * 1999-04-09 2000-10-20 Canon Inc 画像処理方法、装置及び記憶媒体
JP2002041500A (ja) * 2000-07-24 2002-02-08 Media System:Kk コンテンツ作成装置およびコンテンツ作成プログラムを記録したコンピュータ読み取り可能な記録媒体
US20030014445A1 (en) * 2001-07-13 2003-01-16 Dave Formanek Document reflowing technique
JP2009531789A (ja) * 2006-03-29 2009-09-03 アマゾン・テクノロジーズ・インコーポレイテツド 種々のサイズのディスプレイ上にレンダリングするための画像に基づくリフロー可能なファイルの生成
JP2009531790A (ja) * 2006-03-28 2009-09-03 アマゾン・テクノロジーズ・インコーポレイテツド ディジタル画像における非リフローコンテンツの効率的な処理
JP2012230623A (ja) * 2011-04-27 2012-11-22 Fujifilm Corp 文書ファイル表示装置、方法およびプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7272258B2 (en) * 2003-01-29 2007-09-18 Ricoh Co., Ltd. Reformatting documents using document analysis information
US7574048B2 (en) * 2004-09-03 2009-08-11 Microsoft Corporation Freeform digital ink annotation recognition
US7788580B1 (en) * 2006-03-28 2010-08-31 Amazon Technologies, Inc. Processing digital images including headers and footers into reflow content
US8866920B2 (en) * 2008-05-20 2014-10-21 Pelican Imaging Corporation Capturing and processing of images using monolithic camera array with heterogeneous imagers
JP2010123002A (ja) * 2008-11-20 2010-06-03 Canon Inc 文書画像レイアウト装置
CN102541819B (zh) * 2010-12-27 2015-03-04 北大方正集团有限公司 一种电子文档阅读模式处理的方法及装置
US8515176B1 (en) * 2011-12-20 2013-08-20 Amazon Technologies, Inc. Identification of text-block frames
CN102890670B (zh) * 2012-09-10 2015-11-25 北京京东世纪贸易有限公司 用于在版式阅读和流式阅读方式之间切换的方法和系统
US20140215308A1 (en) * 2013-01-31 2014-07-31 Adobe Systems Incorporated Web Page Reflowed Text
US9710440B2 (en) * 2013-08-21 2017-07-18 Microsoft Technology Licensing, Llc Presenting fixed format documents in reflowed format
US10296570B2 (en) * 2013-10-25 2019-05-21 Palo Alto Research Center Incorporated Reflow narrative text objects in a document having text objects and graphical objects, wherein text object are classified as either narrative text object or annotative text object based on the distance from a left edge of a canvas of display

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5541566A (en) * 1978-09-20 1980-03-24 Casio Comput Co Ltd Error position detection system
JPS57137971A (en) * 1981-02-20 1982-08-25 Ricoh Co Ltd Picture area extracting method
JPH05282296A (ja) * 1992-03-31 1993-10-29 Toshiba Corp 文書作成支援装置
JPH11250041A (ja) * 1998-02-27 1999-09-17 Toshiba Corp 文書処理装置および文書処理方法
JP2000293671A (ja) * 1999-04-09 2000-10-20 Canon Inc 画像処理方法、装置及び記憶媒体
JP2002041500A (ja) * 2000-07-24 2002-02-08 Media System:Kk コンテンツ作成装置およびコンテンツ作成プログラムを記録したコンピュータ読み取り可能な記録媒体
US20030014445A1 (en) * 2001-07-13 2003-01-16 Dave Formanek Document reflowing technique
JP2009531790A (ja) * 2006-03-28 2009-09-03 アマゾン・テクノロジーズ・インコーポレイテツド ディジタル画像における非リフローコンテンツの効率的な処理
JP2009531789A (ja) * 2006-03-29 2009-09-03 アマゾン・テクノロジーズ・インコーポレイテツド 種々のサイズのディスプレイ上にレンダリングするための画像に基づくリフロー可能なファイルの生成
JP2012230623A (ja) * 2011-04-27 2012-11-22 Fujifilm Corp 文書ファイル表示装置、方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石谷 康人 : "創発的計算に基づく文書画像からの論理要素の抽出−ドキュメントリーダによる既存文書のディジタル化−", 電子情報通信学会技術研究報告, vol. 第98巻第42号, JPN6016025258, 13 May 1998 (1998-05-13), JP, pages 55 - 62, ISSN: 0003349743 *

Also Published As

Publication number Publication date
US20150324340A1 (en) 2015-11-12
CN105095166A (zh) 2015-11-25
TW201543337A (zh) 2015-11-16
CN105095166B (zh) 2017-11-17
TWI533194B (zh) 2016-05-11

Similar Documents

Publication Publication Date Title
JP2015215889A (ja) リフロー型電子書籍生成方法及びウェブサイトシステム
JP6282116B2 (ja) キャプチャーされた画像データのスプレッドシートとの関連付け
US9280952B2 (en) Selective display of OCR'ed text and corresponding images from publications on a client device
CN104978317B (zh) 网页生成方法及装置、网站生成方法及建站服务器
US10671805B2 (en) Digital processing and completion of form documents
US11113464B2 (en) Synchronizing data-entry fields with corresponding image regions
KR102369604B1 (ko) 고정 포맷 문서를 리플로우 포맷으로 프리젠트하는 기법
US20140229426A1 (en) Electronic blueprint system and method
US9542363B2 (en) Processing of page-image based document to generate a re-targeted document for different display devices which support different types of user input methods
US11783610B2 (en) Document structure identification using post-processing error correction
US20160026858A1 (en) Image based search to identify objects in documents
US20100238195A1 (en) Systems and Methods for Reviewing Digital Pen Data
US10552535B1 (en) System for detecting and correcting broken words
JP2005011340A (ja) オブジェクト上の注釈をグループ化することによりオブジェクトを選択する方法、システム、プログラム、及び、コンピュータ可読記憶媒体
US20170132462A1 (en) Document checking support apparatus, document checking support system, and non-transitory computer readable medium
CN113744830A (zh) 一种报告生成方法、装置、电子设备及存储介质
CN111222368A (zh) 一种识别文档段落的方法、装置及电子设备
CN109656652B (zh) 网页图表绘制方法、装置、计算机设备和存储介质
JP5980990B2 (ja) データ校正プラットフォームサーバー
US20200026749A1 (en) Pdf extraction with text-based key
WO2016018682A1 (en) Processing image to identify object for insertion into document
US20200150855A1 (en) Information processing apparatus and non-transitory computer readable medium storing program
JP6676121B2 (ja) データ入力装置及びデータ入力プログラム
CN112784526A (zh) 一种文档页面调整方法及装置
US20220292716A1 (en) Technologies for detecting crop marks in electronic documents using reference images

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20160506

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160506

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160705

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170214