JP7003457B2 - 文書再構成装置 - Google Patents

文書再構成装置 Download PDF

Info

Publication number
JP7003457B2
JP7003457B2 JP2017124616A JP2017124616A JP7003457B2 JP 7003457 B2 JP7003457 B2 JP 7003457B2 JP 2017124616 A JP2017124616 A JP 2017124616A JP 2017124616 A JP2017124616 A JP 2017124616A JP 7003457 B2 JP7003457 B2 JP 7003457B2
Authority
JP
Japan
Prior art keywords
document
sentence
area
sentences
reconstructing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017124616A
Other languages
English (en)
Other versions
JP2019008615A (ja
Inventor
航一 田代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2017124616A priority Critical patent/JP7003457B2/ja
Publication of JP2019008615A publication Critical patent/JP2019008615A/ja
Application granted granted Critical
Publication of JP7003457B2 publication Critical patent/JP7003457B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Description

本発明は、段組みされた文書の段組みを解除して文書を再構成する文書再構成装置およびプログラムに関する。
スマートフォンやタブレットPCといった小型の電子端末の普及に伴い、そのような小型の端末上で文書の閲覧を行う機会が増えている。しかし、スマートフォンやタブレットPCはディスプレイが小さいため、書籍や資料といった文書を閲覧する際は、文書の拡大・縮小、上下スクロールを繰り返しながら読まなくてはならない。特に新聞や雑誌といった、段組みされた文書を閲覧するには、上述の繰り返し操作がより多く必要になる。
例えば、図24に示すような段組みされた文書を小型の電子端末で閲覧すると、図25に示すように、デフォルトでは画面に対し、文書全体が全画面表示される形式で表示される。このままでは文字が小さく且つ段組みとなっていることから、閲覧者は文書の拡大・縮小や上下スクロールを行いながら該文書を閲覧する必要がある。その結果、図26の矢印に示すように、画面を横スクロールさせたり縦にスクロールさせたりする必要があるため、操作が煩雑となり、利便性が良くなかった。
このような問題に対応する技術として、下記特許文献1には、段組みされた第一の文書を構成する複数の各テキスト群を1列に配列し直して第二の文書を生成するシステムが開示されている。このシステムでは、縦に並ぶ複数の行によって構成される複数のテキスト群が横に並んで配置されてなる第一の文書の各テキスト群に、第一の文書を人間が読む際の順番に応じた順位を付し、順位の小さい順にテキスト群を縦に並べて第二の文書を生成する。
特開2017-49865号公報
特許文献1では、第一の文書を構成する複数のテキスト群に、第一の文書を人間が読む際の順番に応じた順位を付する、とあるが、人間が読む際の順番をどのように特定するかについては開示がない。たとえば、新聞などでは複雑な段組みで紙面が構成されるため、人間が読む際の順番を正しく見つけ出して、各テキスト群を適切な順序で一列に配列することは難しい。そのため、第一の文書において、一のテキスト群と他の一テキスト群とが本来1つの文章であった場合でも、それらが連続して配列されないケースがあり、文章として正しく読むことができないといった問題が生じる。
本発明は、段組みされた文書において本来1つの文章が飛び飛びの場所に分断されて配置されている場合にも、それらを繋いで文書の段組みを適切に解除することのできる文書再構成装置およびプログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
[1]段組みされた元文書を、所定の領域判別条件に基づいて複数の領域に分割する分割部と、
分割後の各領域に含まれる文章を抽出する文章抽出部と、
分割後の各領域から抽出した文章が、他の領域から抽出した文章と繋がった文章か、独立した文章かを判別する判別部と、
他の領域から抽出した文章と繋がっていると判別された文章同士を1つの文章に繋げる文章結合部と、
前記独立した文章および前記文章結合部によって1つに繋げられた文章を一列に配列して、前記元文書を、段組みの解除された文書に再構成する再構成部と、
を有し、
前記再構成部は、各領域内での文章のレイアウトを保持したまま文字サイズを調整して前記再構成するか、リフローで前記再構成するかを選択可能である
ことを特徴とする文書再構成装置。
上記発明では、段組みされた文書を、段組みの境界線や空白などの領域判別条件に基づいて複数の領域に分割し、それぞれの領域の文章が他の領域の文章と繋がった文章か否かを判断し、繋がっているものは1つの文章に結合した上で、各文章を、通常読む順で一列に配列して文書を再構成する。たとえば、新聞のように複雑に段組みされていても、文章の繋がりを判断することで、飛び飛びの位置に分断されて配置されていた文章を適切に繋げて文書を再構成することができる。また、上記発明では、各領域内での文章のレイアウトを保持したまま文字サイズを調整して再構成するか、リフローで再構成するかを選択可能であり、ユーザの好みに応じた形態(レイアウト)で文書を再構成することができる。
[2]前記判別部は、文章同士の繋がりの適正度を数値化し、所定の閾値と比較して、前記判別する
ことを特徴とする[1]に記載の文書再構成装置。
[3]前記閾値をユーザが設定し得る
ことを特徴とする[2]に記載の文書再構成装置。
[4]前記判別部は、文章の内容の類似度、およびまたは、一の文章の末尾と他の一の文章の先頭との連続性、に基づいて、前記判別する
ことを特徴とする[1]に記載の文書再構成装置。
[5]前記判別部は、一の領域に含まれる文章と、前記一の領域に含まれる文章と連続する可能性のない位置にある領域に含まれる文章との繋がりは判別しない
ことを特徴とする[1]に記載の文書再構成装置。
上記発明では、繋がりを判別する対象を絞り込むことで、処理負担が軽減される。
[6]前記再構成部は、前記文章を読み進める方向に従って、前記文章を一列に配列する
ことを特徴とする[1]に記載の文書再構成装置。
上記発明では、行単位での読み進め方向に、文章を配列する。これにより、再構成された文書を、文章の読み進め方向にスクロールさせていけば、次の文章が自然に表示される。
[7]前記再構成部は、ユーザの指定する方向に従って、前記文章を一列に配列する
ことを特徴とする[1]に記載の文書再構成装置。
上記発明では、ユーザが文章の配列方向を任意に指定することができる。ユーザの好みに応じた配列の文書を再構成することができる。
]文字サイズをユーザが指定し得る
ことを特徴とする[]に記載の文書再構成装置。
上記発明では、ユーザの好みに応じた文字サイズで文書を再構成することができる。
]一の領域の中に文章のほかに画像や図形のオブジェクトが存在する場合に、前記再構成部は、一の領域に含まれるオブジェクトと文章とを一体に扱って、前記配列する
ことを特徴とする[1]に記載の文書再構成装置。
上記発明では、文章とオブジェクトとの対応関係が維持される。
10]前記元文書がイメージデータの場合に、前記分割部は、前記元文書を画像処理によって領域判別することで、前記分割する
ことを特徴とする[1]に記載の文書再構成装置。
11]前記元文書がマークアップ言語で記述された文書の場合に、前記分割部は、段組みを示すタグ情報に基づいて、前記分割する
ことを特徴とする[1]に記載の文書再構成装置。
12]前記元文書がイメージデータの場合に、前記文章抽出部は、文字認識によって文章を抽出する
ことを特徴とする[1]に記載の文書再構成装置。
13]前記元文書がマークアップ言語で記述された文書の場合に、前記文章抽出部は、テキスト領域を示すタグ情報に基づいて文章を抽出する
ことを特徴とする[1]に記載の文書再構成装置。
14]情報処理装置を、[1]乃至[13]のいずれか1つの文書再構成装置として機能させるプログラム。
本発明に係る文書再構成装置およびプログラムによれば、段組みされた文書において本来1つの文章が飛び飛びの場所に分断されて配置されている場合にも、それらを適切に繋いて文書の段組みを適切に解除することができる。
本発明に係る文書再構成装置を含む文書閲覧システムの一例を示す図である 文書再構成装置の概略構成を示すブロック図である。 文書再構成装置が元文書の段組みを解除して再構成文書を作成する処理の概要を示す流れ図である。 例1の元文書およびこれを境界線を基準に複数の領域に分割してラべリングした状態を示す図である。 例2の元文書およびこれを空白を基準に複数の領域に分割してラべリングした状態を示す図である。 文書の再構成処理(図3のステップ107の詳細)を示す流れ図である。 図4に示し例1の元文書を再構成した再構成文書を示す図である。 例3の元文書を示す図である。 例3の元文書を領域1~領域4に分割してラべリングした状態を示す図である。 図8に示した例3の元文書を再構成した再構成文書を示す図である。 例4の元文書を示す図である。 例4の元文書を複数の領域に分割してラべリングした状態を示す図である。 例4の元文書を再構成した結果の再構成文書を示す図である。 例5の元文書を示す図である。 例5の元文書を再構成した結果の再構成文書を示す図である。 例6の元文書を示す図である。 例6の元文書を再構成した結果の再構成文書を示す図である。 例7の再構成文書を示す図である。 例8の再構成文書を示す図である。 例9の元文書を示す図である。 例9の元文書を再構成した結果の再構成文書を示す図である。 例10の元文書を示す図である。 例10の再構成文書を示す図である。 段組みされた文書の例を示す図である。 図24の段組みされた文書の全体を小型の携帯端末の表示部に表示した様子を示す図である。 図24の段組みされた文書を小型の携帯端末で閲覧する様子を示す図である。
以下、図面に基づき本発明の実施の形態を説明する。
図1は、本発明に係る文書再構成装置を含む文書閲覧システム2の一例を示す図である。文書閲覧システム2は、ユーザが使用するスマートフォンやタブレットなどの小型の携帯端末5と、該携帯端末5とネットワークを通じて通信可能に接続されたサーバ(情報処理装置)である文書再構成装置10を備えて構成される。
携帯端末5は、段組みされた文書を閲覧する際に、その文書(元文書とする)のデータを、ネットワークを通じて文書再構成装置10に送信し、段組みの解除を依頼する(P1)。文書再構成装置10は受信した元文書の段組みを解除して、一方向へのスクールのみで閲覧できるようにした再構成文書を生成し(P2)、該再構成文書を携帯端末5に送信する(P3)。携帯端末5では再構成文書を閲覧することで、一方向へのスクロール操作を行うだけで文書を先頭から末尾まで円滑に閲覧することが可能になる。
なお、文書再構成装置10による段組み解除の機能を果たすプログラムを携帯端末5にインストールしておき、段組みされた文書の段組み解除を携帯端末5で行うように構成されてもよい(図1のP4)。
図2は、文書再構成装置10の概略構成を示すブロック図である。文書再構成装置10は、CPU(Central Processing Unit)11に、RAM(Random Access Memory)12、ROM(Read Only Memory)やハードディスク装置などで構成された記憶部13、ネットワーク通信部14、入力I/F部15、出力I/F部16などを接続して構成される。
CPU11はマイクロプロセッサを有し、OSプログラムをベースとし、その上で、ミドルウェアやアプリケーションプログラムを実行する。記憶部13には各種プログラムやデータが格納される。CPU11がこれらのプログラムに従って処理を実行することで文書再構成装置10として機能が実現される。RAM12は、CPU11が処理を実行する際に各種データを一時的に格納するワークメモリとして使用される。
ネットワーク通信部14は、ネットワークを通じて携帯端末5や各種の外部装置と通信する機能を果たす。ネットワーク通信部14は、携帯端末5から元文書のデータおよび段組みの解除依頼を受信する。またネットワーク通信部14は、再構成文書を携帯端末5に送信する。
入力装置15は、キーボードやマウスなどユーザの操作を入力するための機器である。出力装置16は、液晶モニタなどのディスプレイ装置である。なお、段組み解除に関する各種設定(たとえば、後述するレイアウトの選択や文字サイズの選択など)は、文書再構成装置10の入力装置15から受け付けるほか、携帯端末5から受けることができる。
CPU11は、プログラムを実行することで、分割部21、文章抽出部22、判別部23、文章結合部24、再構成部25としての機能を果たす。
分割部21は、元文書を所定の領域判別条件に基づいて複数の領域に分割する。
文章抽出部22は、分割後の各領域に含まれる文章(テキスト群)を抽出する。
判別部23は、各領域から抽出した文章が、他の領域から抽出した文章と繋がった文章であるか、独立した文章であるかを判別する。
文章結合部24は、他の領域から抽出した文章と繋がっていると判別された文章同士を1つの文章に繋げる。
再構成部25は、独立した文章および文章結合部24によって1つに繋げられた文章を一列に配列して、前記元文書を、段組みの解除された文書に再構成する。
図3は、文書再構成装置10が元文書の段組みを解除して再構成文書を作成する処理の概要を示す流れ図である。文書再構成装置10は、まず、元文書を入力する(ステップS101)。入力される元文書は、文字コードで表された文書でもよいし、ビットマップデータなどのイメージデータで表されていてもよい。この例では、元文書は、紙文書をスキャナなどで読み取って得たイメージデータになっているものとする。
次に、文書再構成装置10のCPU11(分割部21)は、元文書を所定の領域判別条件に基づいて複数の領域に分割し、分割後の各領域にラべリングを行う(ステップS102)。
領域判別条件は、段組みの境界線や一定以上の空白領域の存在などであり、文字が纏まって存在する範囲を1つの領域として判別するための条件である。図4に示すように段組みされた元文書に段組みの境界線が引かれている場合には、その線を基準に複数の領域に分割する。図4(b)は例1の元文書を分割してラべリングした状態を示す。図中の破線は領域を示す。なお、図4の元文書を例1とする。
境界線が無い場合には、図5に示すように、文章と文章の間や、段組みの各段の間に設けられる空白領域を基準に複数の領域に分割する。より詳細には、各文字列の行間隔を確認し、前後で間隔に一定以上の相違がある場合は空白であると判断する。たとえば、間隔が12pt、12pt、…と続いた後に、間隔が30ptになった場合は、該30ptとなった箇所に区切りの空白領域があると判断する。図5(b)は例2の元文章を分割してラべリングした状態を示す。図中の破線は領域を示す。なお、図5の元文書を例2とする。
次に文書再構成装置10のCPU11(文章抽出部22)は、分割した各領域に含まれている文字を光学文字認識等によって認識して文字コードに変換し、それぞれの領域に含まれている文章(文字群)を文字コードの形式で抽出する(ステップS103)。元文書が文字コードで記述されている場合、その文字コードをそのまま抽出すればよい。
文書再構成装置10のCPU11(文章抽出部22)は、抽出した文章(文字コード群)を解析して、その言語、行の方向(縦書き、横書き)、行単位での読み進める方向などを特定する(ステップS104)。たとえば、図4に示す例1の元文書の場合、日本語、縦書き、右から左に読み進める文章であることを認識する。そして、言語、読み進める方向などから、この文書の各領域の文章を読むときの標準的な読む順序(どの領域から順に読み進めるか)を特定し、各領域の文章に標準的な読む順序に従った順位を初期値として付与する。
図4に示す例1の場合、各段においては右から左に進み、かつ上の段から順に下へと読み進めると判断し、標準的な読む順序は、領域1→領域2→領域3→領域4となる。したがって、領域1の文章には順位1を、領域2の文章には順位2を、領域3の文章には順位3を、領域4の文章には位4を初期値として付与する。なお領域Nから抽出した文章を文章Nとする。また文章Nに与えた順位を文書N(1)のように()を付けて付記する。
次に文書再構成装置10のCPU11(判別部23)は、各領域から抽出した文章が他の文章と繋がった文章であるか、独立した文章であるかを判別する(ステップS105)。領域1~領域4から抽出した文章同士を比較し、2つの領域の文章が連続した文章であるか否かを判別する。ここでは、その判別のために所定の指標値を計算する。指標値による比較方法としてはテキストの類似度、文脈の一致度の計算、などが挙げられる。
テキストの類似度は、例えば、TF(Term Frequency)-IDF(Inverse Document Frequency)やCos類似度により、文章間の類似度を計算する。ここではCos類似度によって類似度を計算する。領域1から抽出した文章1と領域2から抽出した文章2との類似度を計算する例を示す。まず、各文章に含まれる単語の出現頻度をベクトルで表現すると、
文章1:(今年,景気,・・・)=(3,10・・・)、
文書2:(近年,技術動向,・・・)=(15,3・・・)
となり、Cos類似度は、
Cosθ=文章1のベクトル・文章2のベクトル/|文書1||文書2|、として求まる、ここでは、Cosθ=0.2(上限を1.0とする) であったとする。
文脈の一致度に関しては、文章1の終わりが「・・・であった。」、文章2の始まりが「近年の技術動向に・・・」であったとしたとき、文章1の終わりは句読点(。)であることから、他の文章が続いている可能性は高くないと判断し、文脈の一致度は、たとえば、0.3(上限を1.0とする)と計算される。
上記を総合的に判断し、文章1と文章2の最終的な文章連続度が0.25と算出されたとする。
近傍の文章間においても同様に計算を行う。すなわち、文章1と文章2、文章1と文章3、文章1と文章4、文章2と文章3、文章2と文章4、文章3と文章4、のそれぞれについて文章連続度を計算し、求めた文章連続度の値が閾値を越えているか否かを判断する。例えば、文章1と文章2との間の文章連続度の値が0.25で、既定のあるいはユーザが設定した閾値が0.8(上限1.0)であったとすると、文章1と文章2とは連続した文章でないと判断する。図4に示す例1では、すべての文章は他の文章と連続しておらず、それぞれが独立した文章であると判断される。
次に文書再構成装置10のCPU11(文章結合部24)は、ステップS105において連続した文章であると判断された文章が存在する場合に、それらの文章を結合して1つの文章にする(ステップS106)。たとえば、仮に、文章2と文章4が連続した文書であるとステップS105で判断された場合、文章2と文章4を1つの文章に結合する(これを、文書2+4、のように記す)。結合後の文章2+4の読む順位は、文章2の順位と、文書4の順位のうちの小さい方とする。
ステップS105の判別結果に基づいて連続する文章同士をステップS106で結合した後、文書再構成装置10のCPU11(再構成部25)は、各文章(元々独立していた文章および1つに結合された文章)を一列に配列し、段組みの解除された文書(再構成文書)を生成して(ステップS107)、本処理を終了する。
図6は、図3のステップS107の詳細を示す流れ図である。まず、文書のレイアウトを確定する(ステップS201)。ここでは、レイアウトとして、文章のレイアウトを保持したまま文字サイズを調整するか、リフローとするか、を選択可能とする。この選択は、たとえば、携帯端末5のユーザから受ける。図4の例1の元文書については、文章のレイアウトを保持したまま文字サイズを調整するように文書を再構成するものとする。
次に文書再構成装置10のCPU11(再構成部25)は、ステップS104で特定した、読み進める方向に基づいて、文章を一列に配列する際の配列方向を決定する(ステップS202)。図4に示す例1の元文書の場合、各行は縦読みであり、行単位で読み進める方向は右から左なので、各領域から抽出した文章を右から左に向かって一列に配列する。この文章を閲覧するとき、ユーザは、横スクロールにより文書内の見る位置を調整することになる。
最後に、文書再構成装置10のCPU11(再構成部25)はは、各領域から抽出した独立した文章およびステップS106で結合された文章を、ステップS201で決定したレイアウト、ステップS202で決定した配列方向に従って、順位が若い順に並べて、文書の再構成を行う(ステップS203)。
図7は、図4に示した例1の元文書を再構成した再構成文書を示している。同図(b)は、再構成文書を携帯端末5で閲覧する際のスクロール状況を示している。この再構成文書は、右スクロールのみで閲覧可能となっている。これにより、図4の元文書と比較すると、文字の拡大回数、上下移動のスクロール回数を削減することが可能となり、ユーザが閲覧している端末に適した閲覧しやすい文書となる。
次に、元文書から再構成文書を生成する場合の各種の例について説明する。
<例3>
図8は、例3の元文書を示している。この元文書は、上段と下段の2段に段組みされており、日本語、縦書きで、右から左に向かって読み進める文書である。領域は4つに分かれており、上段の右側の領域に1つの独立した文章、下段の右側の領域に1つの独立した文章があり、さらに、上段左側の領域の文章に下段左側の文章が繋がっている。
文書再構成装置10のCPU11(分割部21)は、元文書を入力し(ステップS101)、境界線を基準に4つの領域に分割し、各領域をラべリングする(ステップS102)。図9は、領域1~領域4に、ラべリングした状態を示す。図中の破線は領域を示す。
文書再構成装置10のCPU11(文章抽出部22)は、ラベリングされた領域1~領域4のそれぞれについて光学文字認識を行い、テキスト(文章)を抽出する(ステップS103)。この例では、領域1からは「今年の景気に関して○・・・○」、領域2からは「近年の技術動向に関して×・・・×」、領域3からは「昨日のスポーツに関して△・・・△」、領域4からは「×・・・×」という文章が抽出される。
そして、言語、行の方向、行単位での読み進める方向を特定する(ステップS104)。例3の元文書の場合、日本語、縦書き、右から左に向かって読み進める文書であると特定する。そして、この条件での標準的な読む順序に従って、各領域の文書に順位を付与する。例3の元文書の場合、標準的な読む順序は、領域1→領域2→領域3→領域4となり、文章1に与える初期の順位は1、文章2に与える初期の順位は2、文章3に与える初期の順位は3、文章4に与える初期の順位は4、となる。
次に文書再構成装置10のCPU11(判別部23)は、各領域から抽出した文章が他の文章と繋がった文章であるか、独立した文章であるかを判別する(ステップS105)。ここでは、例1の元文書の場合と同様の手法により比較した結果、文章2と文章4の類似度が0.8(上限1.0)であったとする。また、文脈の一致度は文章2の終わりが「・・・であり、将」、文章4の文章の始まりが「来性は高いといえる。・・・」であったとする。“将”と“来”は組み合わせると、“将来”という文字列になり、“将来”という文字列を単語データベース(辞書)とマッチングを行うことにより一つの単語として認識されることから、文脈の一致度は1.0(上限1.0)と計算される。総合的に判断し、結果として最終的な文章連続度が0.9と算出されたとする。
同様に近傍の文章同士の比較を行い、すべての組み合わせ(文章1と文章2、文章1と文章3、文章1と文章4、文章2と文章3、文章2と文章4、文章3と文章4)について文章連続度の値を算出する。
ここでは、文章連続度の値を閾値(0.8とする)と比較した結果、文章1と文章2、文章1と文章3、文章1と文章4、文章2と文章3、文章3と文章4の間についての値はユーザ設定の閾値(0.8)を越えず、連続した文章ではなく、文章2と文章4について計算した文章連続度の値は閾値を越えており、連続した文章であると判断されたとする。したがって、文章1と文章3は独立した文章であり、文章2と文章4は1つの文章に結合される(ステップS106)。文書2の初期の順位は(2)、文書4の初期の順位は(4)なので、文書2+4の順位は(2)となる。
文書の再構成においては、レイアウトを保持したまま文字サイズを調整する方法に決定し(ステップS201)、ステップS104で特定した、読み進める方向に基づいて、文章を一列に配列する際の配列方向は、「文章を右から左に向かって一列に配列する」に決定する(ステップS202)。そして、上記レイアウトおよび配列方向に従って、文章1(1)、文章2+4(2)、文章3(3)を、()の中の順位の若い順に配列して再構成文書を生成する(ステップS203)。
図10は、図8に示した例3の元文書を再構成した再構成文書を示している。同図(b)は、再構成文書を携帯端末5で閲覧する際のスクロール状況を示している。この再構成文書は、右スクロールのみで閲覧可能となっている。これにより、段組みで文章が別の領域に分かれていたとしても、元文書より、文字の拡大回数、上下移動のスクロール回数を削減して閲覧することが可能となり、ユーザの端末に適した閲覧しやすい文書となる。
<例4>
例4の元文書は、複数ページ(2ページ)で構成される(図11参照)。1ページ目は、上段に2つ、下段に2つの文章から構成され、2ページ目は、上段に2つ、下段に1つの文章から構成される。いずれも、日本語、縦読み、かつ右から左に読み進める文章である。なお、1ページ目の左下の文章は2ページ目の上段右の文章へ続いており、2ページ目の上段左の文章は下段の文章へ続いている。よって、この2ページの文書には、独立した5つの文章が含まれている。
図12は、図3のステップS101、ステップS102により、ラべリングされた結果を示す。ステップS103、ステップS104については前述の例1,例3の場合と同様に行われる。
ステップS105の繋がり判別では、文章1~文章7について比較し、各々が連続した文章であるか否かを判別するための指標である文章連続度の値を計算する。ここで、たとえば、文章1に対して、文章5、文章6、文章7は隣り合っている領域でもなく、ページが異なっているため、文章として連続している可能性は低いと考えられる。よってそれらの文章の類似度や、文脈の一致度の計算は省略する。
すなわち、本例では、すべての組み合わせを計算した場合、21通りの組み合わせについて文章連続度を計算することになるが、連続する可能性のない組み合わせについての計算を省略する。この場合、文章1については文章2と文章3、文章2については文章3と文章4と文章5、文章3については文章4、文章4については文章5、文章5については文章6と文章7、文章6については文章7、との組み合わせを考えればよく、合計10通りについて計算すればよい。
図12の例では、繋がりを判別した結果、文章1、文章2、文章3はそれぞれ独立した文章、文章4と文章5は連続している、文章6と文章7は連続していると判別される。文章のレイアウトを保持したまま文字サイズを調整し、横スクロールで読めるように文章を右から左に一列に配列して文書を再構成した結果を図13に示す。これにより、文章がページを跨いでいたとしても、もとの文書より文字の拡大回数、上下移動のスクロール回数を削減することが可能となり、ユーザが閲覧している端末に適した閲覧しやすい文書となる。なお、例4では2ページに跨っている場合を例示したが、それ以上の複数ページでもよい。
<例5>
例5の元文書では、領域の中に、図や画像などのオブジェクトが存在する。図14に例5の元文書を示す。上段に2つ、下段に2つの文章(計4つの文章)から構成され、かつ、その中の上段右側の文章には、画像のオブジェクトが含まれている。この文書は、各行が縦読みで、行単位では右から左に読み進める日本語の文書である。
文書再構成装置10のCPU11は、他の例と同様に、図3の処理を実施して、文書を各領域に分割し、それぞれの領域にラべリングする。この際、一の領域の中に文章と画像などオブジェクトが存在する場合、そのオブジェクトはその文章に属するものとして(紐付けて)扱う。図14(b)は、例5の元文書を分割してラべリングした状態を示す。図中の破線は領域を示す。
図3の各ステップを文書再構成装置10のCPU11が実行することで、文章1、文章2、文章3、文章4を抽出し、文書1にはオブジェクトAが紐付けされ、各文章はそれぞれ独立した文章と判別される。そして、文章のレイアウトを保持したまま文字サイズを調整し、横スクロールで読めるように、右から左に一列に各文章をその順位に従って配列して再構成文章が作成される。
図15は、生成された再構成文書を示す。元文書でのレイアウトと同じようにして、文章1に中にオブジェクトAが配置されている。同図(b)は、再構成文書を携帯端末5で閲覧する際のスクロール状況を示している。
このように、文章中に画像などのオブジェクトが含まれていたとしても、拡大回数、上下移動のスクロール回数を削減することが可能となり、ユーザが閲覧している端末に適した閲覧しやすい文書となる。なお、オブジェクトの例として画像が一つ存在する場合を例示したが、複数存在してもよい。また、オブジェクトの例として画像の場合を示したが、グラフや表などのオブジェクトでもよい。
<例6>
例6の元文書(図16参照)は、横書きの日本語文書であり、各行は左から右に読み、行単位では上から下に読み進める。この例では、上段に2つの文章、下段に2つの文章がある。図16(b)は、例6の元文書を分割してラべリングした状態を示す。図中の破線は領域を示す。
文書再構成装置10のCPU11が図3の各ステップを実行することで、各々が独立した日本語の文章であると判別され、文章のレイアウトを保持したまま文字サイズを調整し、左から右へ向かって読むので、縦スクロールで読めるように文書が再構成される。図17は、再構成された結果の再構成文書を示している。これにより、元文書より、文字の拡大回数、上下移動のスクロール回数を削減することが可能となり、ユーザが閲覧している端末に適した閲覧しやすい文書となる。
<例7>
例7は、各文章を配列して再構成する際に、リフロー表示に対応した文書にする。該文書をリフロー表示した例を図18に示す。
文書のレイアウトを保持したまま文字サイズを調整するよりも、リフロー表示したほうが文字の拡大回数、上下移動のスクロール回数を削減することが可能となる場合もあり、これにより、よりユーザが閲覧している端末に適した閲覧しやすい文書となる。文書再構成装置10は、リフローとする旨の選択を、たとえば、段組み解除の指示と共に携帯端末5から受信する。
<例8>
例8では、ユーザが指定した文字サイズや文字フォントでリフロー表示する。図19はユーザが指定した文字サイズや文字フォントでリフロー表示した場合の一例を示す。元文書は例7と同じである。文書再構成装置10は、リフローする場合の文字サイズの指定を、たとえば、段組み解除の指示と共に携帯端末5から受信する。なお、閲覧する際に携帯端末5において文字サイズの指示を受けて、携帯端末5が表示する文字サイズを変更するようにしてもよい。
デバイスに合わせたリフロー表示を行っても、ユーザにとっては文字が小さく感じる場合があるので、予め文字サイズを設定し、調節することで、拡大する回数を減らすことができ、また、ユーザが好ましフォントへ変更することで、よりユーザが閲覧しやすい文書となる。
<例9>
図20は、例9の元文書を示している。例9の元文書は、上段に2つの文章、下段に2つの文章が配置されており、左上から右下に向かって読む文書である。ここでは、モンゴル語の文章となっている。図20(b)は、例9の元文書を領域に分割してラべリングした状態を示す。図中の破線は領域を示す。ラべリングの順序は日本語の場合と同様になっている。
この例では、図3の各ステップを経ることで、例9の元文書が、モンゴル語の文章であり、各文章がそれぞれ独立した文書であると判別されたものとする。そして、文章のレイアウトを保持したまま文字サイズを調整し、左から右へ向かって読むので、横スクロールで読むように左から右に向かって一列に文章を配列した再構成文書を生成する。モンゴル語であることから、文章の読む順位は、文章2(1)、文章1(2)、文章4(3)、文章3(4)となる。
図21は、例9の元文書を再構成した再構成文書を示す。同図(b)は、再構成文書を携帯端末5で閲覧する際のスクロール状況を示している。この文書の先頭は左端側である。閲覧時のスクロール方向は左から右方向になる。
このように、言語によっては、日本語と同じ縦書きであっても、行単位での読み進む方向が相違するので、その言語に適した方向に文章を配列することで、よりユーザにとって閲覧し易い文書に再構成することができる。
<例10>
図22は、例10の元文書を示している。例10の元文書は、英語の文書であり、上段に2つ、下段に2つの合計4つの領域に分けて文章が配置されている。各行は左から右に読み、行単位には上から下に読み進める文書である。図22(b)は、例10の元文書を領域に分割してラべリングした状態を示す。図中の破線は領域を示す。
図3の処理により、文章のレイアウトを保持したまま文字サイズを調整し、英語を日本語に翻訳し、左から右に向かって読むことから、縦スクロールで読むように再構成した再構成文書を図23に示す。
<例11>
例11は、図4の例1と同じレイアウトになるXMLデータの文書が元文書の場合である。XMLのパーサを使い、レイアウトのタグ、テキストのタグを取得することで処理を行う。
例えば、段組みの線が引かれているタグを抽出し、文書の各領域に分割し、各領域に含まれる文章はテキストのタグを抽出することで取得する。
<その他>
文章連続度と比較して、文書が独立した文書であるか、連続した文書であるかを判別する際に使用する閾値は、ユーザが任意に設定してもよいし、装置が予め定めた値としてもよい。また、文書を読む際のスクロール方向は、言語、行単位の読む方向に基づいて装置で自動的に定める例を示したが、ユーザがスクロール方向を指定可能とし、指定されたスクロール方向と同一方向に文章を配列して再構成文書を生成するようにしてもよい。
文書を再構成する際に、レイアウトを保持したまま文字サイズを調整するか、リフロー表示に対応させるかの選択を、ユーザから受け付け可能とし、ユーザの選択したレイアウト方法で文書を再構成するようにしてもよい。
このように、本発明によれば、段組みされた文書において本来1つの文章が飛び飛びの場所に分断されて配置されている場合にも、それらを繋いで文書の段組みを適切に解除し、小形の端末でも閲覧しやすい文書を生成することができる。
以上、本発明の実施の形態を図面によって説明してきたが、具体的な構成は実施の形態に示したものに限られるものではなく、本発明の要旨を逸脱しない範囲における変更や追加があっても本発明に含まれる。
文書を複数の領域に分割する際の領域判別条件は、境界線、空白に限定されない。たとえば、文字サイズの相違(見出しは大きい文字が使用される)、背景色の違いなどでもよい。また、分割後の各領域から抽出した文章が、他の領域から抽出した文章と繋がった文章か、独立した文章かを判別する際の判別方法は、実施の形態に例示したものに限定されない。たとえば、意味解析などを併用してもよい。
実施の形態では、元文書として上下に段組みされた文書を例示したが、左右方向に段組みされた文書であっても、本発明は適用される。
2…文書閲覧システム
10…文書再構成装置
11…CPU
12…RAM
13…記憶部
14…ネットワーク通信部
15…入力装置
16…出力装置
21…分割部
22…文章抽出部
23…判別部
24…文章結合部
25…再構成部

Claims (14)

  1. 段組みされた元文書を、所定の領域判別条件に基づいて複数の領域に分割する分割部と、
    分割後の各領域に含まれる文章を抽出する文章抽出部と、
    分割後の各領域から抽出した文章が、他の領域から抽出した文章と繋がった文章か、独立した文章かを判別する判別部と、
    他の領域から抽出した文章と繋がっていると判別された文章同士を1つの文章に繋げる文章結合部と、
    前記独立した文章および前記文章結合部によって1つに繋げられた文章を一列に配列して、前記元文書を、段組みの解除された文書に再構成する再構成部と、
    を有し、
    前記再構成部は、各領域内での文章のレイアウトを保持したまま文字サイズを調整して前記再構成するか、リフローで前記再構成するかを選択可能である
    ことを特徴とする文書再構成装置。
  2. 前記判別部は、文章同士の繋がりの適正度を数値化し、所定の閾値と比較して、前記判別する
    ことを特徴とする請求項1に記載の文書再構成装置。
  3. 前記閾値をユーザが設定し得る
    ことを特徴とする請求項2に記載の文書再構成装置。
  4. 前記判別部は、文章の内容の類似度、およびまたは、一の文章の末尾と他の一の文章の先頭との連続性、に基づいて、前記判別する
    ことを特徴とする請求項1に記載の文書再構成装置。
  5. 前記判別部は、一の領域に含まれる文章と、前記一の領域に含まれる文章と連続する可能性のない位置にある領域に含まれる文章との繋がりは判別しない
    ことを特徴とする請求項1に記載の文書再構成装置。
  6. 前記再構成部は、前記文章を読み進める方向に従って、前記文章を一列に配列する
    ことを特徴とする請求項1に記載の文書再構成装置。
  7. 前記再構成部は、ユーザの指定する方向に従って、前記文章を一列に配列する
    ことを特徴とする請求項1に記載の文書再構成装置。
  8. 文字サイズをユーザが指定し得る
    ことを特徴とする請求項に記載の文書再構成装置。
  9. 一の領域の中に文章のほかに画像や図形のオブジェクトが存在する場合に、前記再構成部は、一の領域に含まれるオブジェクトと文章とを一体に扱って、前記配列する
    ことを特徴とする請求項1に記載の文書再構成装置。
  10. 前記元文書がイメージデータの場合に、前記分割部は、前記元文書を画像処理によって領域判別することで、前記分割する
    ことを特徴とする請求項1に記載の文書再構成装置。
  11. 前記元文書がマークアップ言語で記述された文書の場合に、前記分割部は、段組みを示すタグ情報に基づいて、前記分割する
    ことを特徴とする請求項1に記載の文書再構成装置。
  12. 前記元文書がイメージデータの場合に、前記文章抽出部は、文字認識によって文章を抽出する
    ことを特徴とする請求項1に記載の文書再構成装置。
  13. 前記元文書がマークアップ言語で記述された文書の場合に、前記文章抽出部は、テキスト領域を示すタグ情報に基づいて文章を抽出する
    ことを特徴とする請求項1に記載の文書再構成装置。
  14. 情報処理装置を、請求項1乃至13のいずれか1つの文書再構成装置として機能させるプログラム。
JP2017124616A 2017-06-26 2017-06-26 文書再構成装置 Active JP7003457B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017124616A JP7003457B2 (ja) 2017-06-26 2017-06-26 文書再構成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017124616A JP7003457B2 (ja) 2017-06-26 2017-06-26 文書再構成装置

Publications (2)

Publication Number Publication Date
JP2019008615A JP2019008615A (ja) 2019-01-17
JP7003457B2 true JP7003457B2 (ja) 2022-01-20

Family

ID=65029675

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017124616A Active JP7003457B2 (ja) 2017-06-26 2017-06-26 文書再構成装置

Country Status (1)

Country Link
JP (1) JP7003457B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003196278A (ja) 2001-12-27 2003-07-11 Brother Ind Ltd 文字入力方法、文字入力プログラム及びコンピュータ読み取り可能な記録媒体
JP2009230320A (ja) 2008-03-21 2009-10-08 Nfuga Inc 印刷ページ生成装置、印刷ページ生成システム、印刷ページ生成方法およびコンピュータプログラム
US20130259377A1 (en) 2012-03-30 2013-10-03 Nuance Communications, Inc. Conversion of a document of captured images into a format for optimized display on a mobile device
JP2014197341A (ja) 2013-03-29 2014-10-16 富士フイルム株式会社 電子書籍制作装置、電子書籍システム、電子書籍制作方法及びプログラム
JP2015146122A (ja) 2014-02-03 2015-08-13 シャープ株式会社 変換処理装置、それを備えた情報処理装置、プログラム、及び記録媒体
JP2016167148A (ja) 2015-03-09 2016-09-15 コニカミノルタ株式会社 情報処理装置、情報処理プログラムおよび記録媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07121540A (ja) * 1993-10-26 1995-05-12 Toshiba Corp 文書作成装置及び対訳制御方法
JPH08180131A (ja) * 1994-12-21 1996-07-12 Canon Inc 画像処理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003196278A (ja) 2001-12-27 2003-07-11 Brother Ind Ltd 文字入力方法、文字入力プログラム及びコンピュータ読み取り可能な記録媒体
JP2009230320A (ja) 2008-03-21 2009-10-08 Nfuga Inc 印刷ページ生成装置、印刷ページ生成システム、印刷ページ生成方法およびコンピュータプログラム
US20130259377A1 (en) 2012-03-30 2013-10-03 Nuance Communications, Inc. Conversion of a document of captured images into a format for optimized display on a mobile device
JP2014197341A (ja) 2013-03-29 2014-10-16 富士フイルム株式会社 電子書籍制作装置、電子書籍システム、電子書籍制作方法及びプログラム
JP2015146122A (ja) 2014-02-03 2015-08-13 シャープ株式会社 変換処理装置、それを備えた情報処理装置、プログラム、及び記録媒体
JP2016167148A (ja) 2015-03-09 2016-09-15 コニカミノルタ株式会社 情報処理装置、情報処理プログラムおよび記録媒体

Also Published As

Publication number Publication date
JP2019008615A (ja) 2019-01-17

Similar Documents

Publication Publication Date Title
CA2937702C (en) Emphasizing a portion of the visible content elements of a markup language document
US8918711B2 (en) System and method for visually presenting electronic media
JP4873766B2 (ja) レイアウトサービスライブラリを用いたパラグラフのレイアウト方法
EP0762298B1 (en) Translation display apparatus and method
US9471550B2 (en) Method and apparatus for document conversion with font metrics adjustment for format compatibility
US9870484B2 (en) Document redaction
US11615635B2 (en) Heuristic method for analyzing content of an electronic document
US9460089B1 (en) Flow rendering of annotation characters
US9886426B1 (en) Methods and apparatus for generating an efficient SVG file
US7366978B1 (en) Method and system for creating a grid-like coordinate system for addressing data contained in an irregular computer-generated table
US20240119218A1 (en) Device dependent rendering of pdf content
JP7425214B2 (ja) リフロー型コンテンツの動的レイアウト調整
US20240104290A1 (en) Device dependent rendering of pdf content including multiple articles and a table of contents
JP7003457B2 (ja) 文書再構成装置
US11720740B2 (en) Reducing interference between two texts
CN111143749A (zh) 一种网页展示方法、装置、设备及存储介质
CN106776489B (zh) 显示设备的电子文档显示方法和系统
US20160170941A1 (en) Replicating the appearance of typographical attributes and text adornments in digital publications
US20130104014A1 (en) Viewer unit, server unit, display control method, digital comic editing method and non-transitory computer-readable medium
JP2014021694A (ja) 携帯情報端末、携帯情報端末の表組表示方法、及び携帯情報端末の表組表示プログラム
US20230367952A1 (en) Reducing interference between two texts
WO2019005100A1 (en) METHOD AND SYSTEM FOR DISPLAYING CONTENT OF A PDF DOCUMENT ON A SMALL SCREEN
JP2005202739A (ja) 機械翻訳装置、機械翻訳方法及び機械翻訳プログラム
US20170212870A1 (en) Method and System to Display Content from a PDF Document on a Small Screen
Madjarov Responsive Course Design-An Adaptive Approach to Designing Responsive m-Learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200615

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210527

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211213

R150 Certificate of patent or registration of utility model

Ref document number: 7003457

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150