JP2021163159A - 文章抽出装置及びプログラム - Google Patents

文章抽出装置及びプログラム Download PDF

Info

Publication number
JP2021163159A
JP2021163159A JP2020063663A JP2020063663A JP2021163159A JP 2021163159 A JP2021163159 A JP 2021163159A JP 2020063663 A JP2020063663 A JP 2020063663A JP 2020063663 A JP2020063663 A JP 2020063663A JP 2021163159 A JP2021163159 A JP 2021163159A
Authority
JP
Japan
Prior art keywords
output
text
sentence
character
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020063663A
Other languages
English (en)
Other versions
JP7480560B2 (ja
Inventor
篤史 西田
Atsushi Nishida
荘介 下山
Sosuke Shimoyama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2020063663A priority Critical patent/JP7480560B2/ja
Publication of JP2021163159A publication Critical patent/JP2021163159A/ja
Application granted granted Critical
Publication of JP7480560B2 publication Critical patent/JP7480560B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】文章として理解可能なものを出力するように工夫した文章抽出装置及びプログラムを提供する。
【解決手段】複数のテキストボックスを有するPDFデータから埋め込まれた文字の位置に応じて文字列を抽出する文章出力装置1は、表示されたPDFデータから指定された処理対象領域における文字を抽出する文字抽出部13と、抽出した文字を含むテキストボックスを特定するオブジェクト特定部14と、処理対象領域から特定した複数のテキストボックスにおいて文字間の重なりの有無を判定する重なり判定部15と、重なり判定部15による判定結果に応じて出力内容を決定する出力オブジェクト決定部16と、を備える。
【選択図】図3

Description

本発明は、文章抽出装置及びプログラムに関する。
従来、書籍や雑誌等のPDF(Portable Document Format)データに含まれる文章を編集するため、表示されたPDFデータのうち文章の編集に用いる一部の領域を指定することで、指定した領域に含まれる文章を抽出する、といった作業が行われている。
PDFデータは、実際に紙に印刷したときの状態を保存するファイル形式のデータであり、様々なメタ情報を有している。
図1は、PDFデータのメタ情報の一部を説明するための図である。
図1に示すPDFデータ91は、テキスト92と、テキストライン93とテキストボックス94(テキストオブジェクト)とから構成されており、これらは、階層構造を有する。
テキスト92は、1文字領域である。テキスト92は、「お」といった文字データ(文字自体)の他、フォントやフォントサイズ、1文字領域の位置情報及び領域の大きさといった情報を、メタ情報として有する。
テキストライン93は、複数のテキスト92により構成された1行領域である。テキストライン93は、1行領域の位置情報及び領域の大きさといった情報を、メタ情報として有する。
テキストボックス94は、複数のテキストライン93をまとめた矩形領域である。テキストボックス94は、矩形領域の位置情報及び領域の大きさといった情報を、メタ情報として有する。
PDFデータは、情報を埋め込むことができるという特徴がある。例えば、PDFデータを作成するデザイナ等が、ページデータのどの位置に、何の文書をどのように配置するか、といった情報を、予め文字にして埋め込む場合がある。ここで、文書ファイルに文字の埋め込みを行う情報埋め込み装置が開示されている(例えば、特許文献1)。
特開2015−12444号公報
上記したように、編集のために埋め込んだ文字は、PDFデータとして表示する際には見えない不可視の文字である。このような不可視の文字を埋め込んだ場合、PDFデータには、埋め込んだ文字を構成するテキストボックスと、表示される文章のテキストボックスとが存在することになる。
そこで、図2を例に、既存の方法によってPDFデータから文字を抽出して出力する場合について説明する。
例えば、図2(A)に示すPDFデータ71の場合、ユーザが編集可能な文字として出力したい範囲を示す指定領域72には、テキストボックス71aと、テキストボックス71bとが含まれている。文章75は、指定領域72に含まれる文字を出力した結果データである。文章75は、指定領域72に含まれるテキストボックス71a及びテキストボックス71bに含まれる文字データを、各文字データの位置情報に基づいて出力したものである。この場合のように、テキストボックス同士の各文字データが重なっていないときには、出力される文章75は、文章として理解できるものである。
他方、図2(B)に示すPDFデータ81の場合、指定領域82には、テキストボックス81aと、テキストボックス81bの一部とが含まれている。ここで、テキストボックス81bは、埋め込まれた不可視の文字を含むものである。文章85は、指定領域82に含まれる文字を出力した結果データである。文章85は、指定領域82に含まれるテキストボックス81aと、テキストボックス81bの一部とに含まれる文字データを、各文字データの位置情報に基づいて出力したものである。この場合のように、テキストボックス同士の各文字データが重なっているときには、出力される文章85は、文章として理解できないものになってしまう。
そこで、本発明は、文章として理解可能なものを出力するように工夫した文章抽出装置及びプログラムを提供することを目的とする。
本発明は、以下のような解決手段により、前記課題を解決する。
第1の発明は、複数のテキストオブジェクトを有するページデータから埋め込まれた文字の位置に応じて文字列を抽出する文章抽出装置であって、表示された前記ページデータから指定された処理対象領域における文字を抽出する文字抽出手段と、前記文字抽出手段により抽出した前記文字を含む前記テキストオブジェクトを特定するオブジェクト特定手段と、前記オブジェクト特定手段により前記処理対象領域から特定した複数の前記テキストオブジェクトにおいて文字間の重なりの有無を判定する判定手段と、前記判定手段による判定結果に応じて出力内容を決定する出力オブジェクト決定手段と、を備える、文章抽出装置である。
第2の発明は、第1の発明の文章抽出装置において、前記出力オブジェクト決定手段は、前記判定手段による判定結果、重なりがあると判定された場合に、前記処理対象領域に対する特定した前記テキストオブジェクトのそれぞれの面積比を算出し、算出した前記面積比に応じて前記出力内容を決定する、文章抽出装置である。
第3の発明は、第1の発明の文章抽出装置において、前記処理対象領域に含まれる前記文字を、光学文字認識により取得する認識文字取得手段を備え、前記出力オブジェクト決定手段は、前記判定手段による判定結果、重なりがあると判定された場合に、前記処理対象領域に対する特定した前記テキストオブジェクトのそれぞれに含まれる文章について、前記認識文字取得手段により取得した前記文字との一致度合を算出し、算出した一致度合に応じて前記出力内容を決定する、文章抽出装置である。
第4の発明は、第1の発明の文章抽出装置において、前記出力オブジェクト決定手段は、前記判定手段による判定結果、重なりがないと判定された場合に、前記複数のテキストオブジェクトのそれぞれに含まれる文章を、前記出力内容に決定する、文章抽出装置である。
第5の発明は、第1の発明から第4の発明までのいずれかの文章抽出装置において、前記出力オブジェクト決定手段により決定した前記出力内容を、前記テキストオブジェクトに対応するメタ情報に基づいて配置して編集画面に出力する文章出力手段を備える、文章抽出装置である。
第6の発明は、第1の発明から第5の発明までのいずれかの文章抽出装置において、前記ページデータのうち文章を含む指定領域の指定を受け付ける領域受付手段を備え、前記文字抽出手段は、前記指定領域を前記処理対象領域として、前記処理対象領域における前記文字を抽出する、文章抽出装置である。
第7の発明は、第1の発明から第6の発明までのいずれかの文章抽出装置において、前記ページデータは、PDF形式のデータである、文章抽出装置である。
第8の発明は、第1の発明から第7の発明までのいずれかの文章抽出装置としてコンピュータを機能させるためのプログラムである。
本発明によれば、文章として理解可能なものを出力するように工夫した文章抽出装置及びプログラムを提供することができる。
PDFデータのメタ情報の一部を説明するための図である。 既存の方法によるPDFデータから文字を出力する例を示す図である。 本実施形態に係る文章出力装置の機能ブロック図である。 本実施形態に係る文章出力装置の文章出力処理を示すフローチャートである。 本実施形態に係る文章出力装置の重なり処理を示すフローチャートである。 本実施形態に係る文章出力装置の重なり処理を説明するための図である。 本実施形態に係る文章出力装置の重なり処理を説明するための図である。 本実施形態に係る文章出力装置の処理例を示す図である。 本実施形態に係る文章出力装置の処理例を示す図である。 本実施形態に係る文章出力装置の処理例を示す図である。
以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
(実施形態)
図3は、本実施形態に係る文章出力装置1の機能ブロック図である。
<文章出力装置1>
文章出力装置1(文章抽出装置)は、PDFデータ(ページデータ)の文章(文字列)を編集可能に出力するための装置である。文章出力装置1は、例えば、PDFデータに含まれる文章を編集したいユーザが利用する。文章出力装置1は、例えば、パーソナルコンピュータ(PC)である。文章出力装置1は、その他、タブレット端末や、スマートフォン等に代表されるコンピュータの機能を併せ持った携帯型の端末であってもよい。また、文章出力装置1は、サーバ等であってもよい。
図3に示すように、文章出力装置1は、制御部10と、記憶部30と、入力部36と、表示部37と、通信インタフェース部39とを備える。
制御部10は、文章出力装置1の全体を制御する中央処理装置(CPU)である。制御部10は、記憶部30に記憶されているオペレーティングシステム(OS)やアプリケーションプログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、各種機能を実行する。
制御部10は、ページデータ出力部11と、領域受付部12(領域受付手段)と、文字抽出部13(文字抽出手段)と、オブジェクト特定部14(オブジェクト特定手段)と、重なり判定部15(判定手段)と、出力オブジェクト決定部16(埋込文字オブジェクト特定手段)と、文章出力部17(文章出力手段)とを備える。
ページデータ出力部11は、編集するPDFデータを表示部37に出力する。例えば、ユーザが所望のPDF形式の文書ファイルを選択することで、制御部10は、選択された文書ファイルを受け付けて、PDFデータを表示部37に表示する。PDFデータは、印刷イメージのデータであり、例えば、1ページ分のデータである。PDFデータは、例えば、版面データであってもよい。また、PDFデータは、文章を含む。PDFデータは、文章のみのデータであってもよいし、一部に説明するための挿絵等を含むものであってもよい。
領域受付部12は、PDFデータの一部領域を指定した指定領域(処理対象領域)の指定を受け付ける。ユーザが、例えば、マウス等の入力部36を用いて、表示部37に表示されたPDFデータのうち、ユーザが編集をしたい文章を含むように、左上から右下方向にドラッグ(drag)することで、領域受付部12は、矩形形状の指定領域を受け付けてもよい。
文字抽出部13は、領域受付部12により受け付けた指定領域に含まれる文字データを、PDFデータを解析することで得られるメタ情報に基づいて抽出する。
オブジェクト特定部14は、文字抽出部13により抽出した文字を含むテキストボックス(テキストオブジェクト)を特定する。オブジェクト特定部14は、PDFデータを解析することで得られるメタ情報に基づいて、テキストボックスを特定できる。
重なり判定部15は、オブジェクト特定部14が特定した複数のテキストボックスにおいて文字間の重なりの有無を判定する。重なり判定部15は、抽出した文字データを構成する文字のメタ情報により、1文字領域の位置情報及び領域の大きさを把握する。そして、重なり判定部15は、把握した1文字領域の位置情報及び領域の大きさを用いて、文字間の重なりの有無を判定できる。
出力オブジェクト決定部16は、重なり判定部15による判定結果に応じて出力内容を決定する。
より具体的には、出力オブジェクト決定部16は、重なり判定部15による判定結果が、重なりがあると判定されたものである場合に、指定領域に対するオブジェクト特定部14で特定したテキストボックスのそれぞれの面積比を算出し、算出した面積比に応じて出力内容を決定する。ここで、出力オブジェクト決定部16は、算出した面積比が高いテキストボックスに含まれる文章を、出力内容に決定してもよい。そして、制御部10は、算出した面積比が低いテキストボックスに含まれる文章を、埋め込み文字であると判断してもよい。ここで、埋め込み文字は、通常は、表示されたPDFデータや、PDFデータを印刷したものには含まない不可視なものである。また、出力オブジェクト決定部16は、算出した面積比が高いテキストボックスに含まれる文章と、算出した面積比が低いテキストボックスに含まれる文章との両方を、出力内容に決定してもよい。
さらに、出力オブジェクト決定部16は、重なり判定部15による判定結果が、重なりがないと判定されたものである場合に、オブジェクト特定部14で特定したテキストボックスのそれぞれに含まれる文章を、出力内容に決定する。
ここで、出力オブジェクト決定部16が決定する出力内容には、文章(文字列)の他、文章の表示態様も含まれてもよい。出力オブジェクト決定部16は、文章の表示態様として、例えば、埋め込み文字の文字色や文字の大きさ、文字フォントを、埋め込み文字以外の文字の文字色や文字の大きさ、文字フォントとは異なるようにしてもよい。また、出力オブジェクト決定部16は、文章の表示態様として、例えば、埋め込み文字を、埋め込み文字以外の文字の最後に下線やかっこ書きで付け加えたりしてもよい。
文章出力部17は、出力オブジェクト決定部16により決定した出力内容を、各テキスト及びテキストボックスのメタ情報に基づいて配置した編集画面を出力する。その際、文章出力部17は、文章の表示態様に基づいて、埋め込み文字を編集画面に配置して出力してもよい。また、文章出力部17は、出力した文章を、文章記憶部33に記憶させてもよい。
記憶部30は、制御部10が各種の処理を実行するために必要なプログラム、データ等を記憶するためのハードディスク、半導体メモリ素子等の記憶領域である。
記憶部30は、プログラム記憶部31と、文書ファイル記憶部32と、文章記憶部33とを備える。
プログラム記憶部31は、各種のプログラムを記憶する記憶領域である。プログラム記憶部31は、プログラム31aを記憶している。
プログラム31aは、文章出力装置1の制御部10が実行する各種機能を行うためのプログラムである。
文書ファイル記憶部32は、各種の文書ファイルを記憶する記憶領域である。ここで、文書ファイル記憶部32に記憶される文書ファイルは、例えば、雑誌や書籍等の内容のファイルであってよい。
なお、文書ファイル記憶部32は、例えば、文章出力装置1に対して通信可能に接続された文書サーバ(図示せず)に有してもよい。
文章記憶部33は、文章出力部17によって出力された文章を記憶する記憶領域である。文章記憶部33は、記憶された文章がその後に編集された場合、編集後の文章をさらに記憶してもよい。
入力部36は、例えば、キーボードやマウス等の入力装置である。
表示部37は、例えば、LCD(Liquid Crystal Display)等の表示装置である。
通信インタフェース部39は、通信ネットワークを介して他の装置との通信を行うためのインタフェースである。
<文章出力装置1の処理>
次に、文章出力装置1の処理について説明する。
図4は、本実施形態に係る文章出力装置1の文章出力処理を示すフローチャートである。
図5は、本実施形態に係る文章出力装置1の重なり処理を示すフローチャートである。
図6及び図7は、本実施形態に係る文章出力装置1の重なり処理を説明するための図である。
図4のステップS(以下、「S」という。)11において、制御部10(ページデータ出力部11)は、PDFデータを表示部37に出力させる。例えば、ユーザが、文書ファイル記憶部32に記憶された文書ファイルのうち、1つを選択することで、制御部10は、選択された文書ファイルのPDFデータを出力させてもよい。
S12において、制御部10(領域受付部12)は、表示部37に表示されたPDFデータについてユーザの操作により、ユーザが編集をしたい文章を含む指定領域の指定を受け付ける。
S13において、制御部10(文字抽出部13)は、指定領域に含まれる文字データを、PDFデータのメタ情報に基づいて抽出する。
S14において、制御部10(オブジェクト特定部14)は、指定領域に含まれるテキストボックスを、PDFデータのメタ情報に基づいて特定する。
S15において、制御部10(重なり判定部15)は、特定した複数のテキストボックスにおいて文字間の重なりの有無を判定する。
S16において、制御部10(重なり判定部15)は、文字間の重なりがあるか否かを判定する。重なりがある場合(S16:YES)には、制御部10は、処理をS17に移す。他方、重なりがない場合(S16:NO)には、制御部10は、処理をS18に移す。
S17において、制御部10は、重なり処理を行う。
ここで、重なり処理について、図5に基づき説明する。
図5のS21において、制御部10(出力オブジェクト決定部16)は、重なっている文字を含むテキストボックスごとに、指定領域との面積比として、重なり度合を算出する。
ここで、重なり度合の算出方法の一例を、図6に示す。
図6は、指定領域41と、テキストボックス42との重なり度合に関する算出方法を示す。
図6(A)に示す指定領域41は、X軸方向が長さwであり、Y軸方向が長さhである矩形領域として示される。また、テキストボックス42は、X軸方向が長さwであり、Y軸方向が長さhである矩形領域として示される。この場合の重なり部分は、X軸方向が長さwであり、Y軸方向が長さhである矩形領域として表すことができる。
そして、面積比算出の一手法として、指定領域41に対するテキストボックス42の重なり度合をIoU(Intersection over Union)とすると、重なり度合IoUは、図6(B)に示す式で表すことができる。つまり、指定領域41と、テキストボックス42との重なり部分である、X軸方向が長さwであり、Y軸方向が長さhである矩形領域が大きいほど、重なり度合IoUは、大きな値になる。
図7(A)は、各々の重なり度合IoUを算出する具体例を示す。
図7(A)は、指定領域51と、テキストボックス51a及びテキストボックス51bとを示す。この例の場合、テキストボックス51aとテキストボックス51bとが、指定領域51内において重なっている。そのため、制御部10は、各テキストボックスにおける重なり度合IoUを算出する。
まず、図7(B)に示すように、制御部10は、指定領域51と、テキストボックス51aとの重なり度合IoUを算出する。制御部10は、この場合の重なり度合IoUを、図6(B)の式にあてはめて0.9と算出できる。
次に、図7(C)に示すように、制御部10は、指定領域51と、テキストボックス51bとの重なり度合IoUを算出する。制御部10は、この場合の重なり度合IoUを、図6(B)の式にあてはめて0.1と算出できる。
図5のS22において、制御部10(出力オブジェクト決定部16)は、算出した面積比の低いテキストボックスの文字データを、埋め込み文字であると特定する。上記した図7に示す例では、制御部10は、テキストボックス51bに含まれる文字データを、埋め込み文字であると特定する。
S23において、制御部10(出力オブジェクト決定部16)は、算出した面積比の高いテキストボックスの文章を出力内容に決定する。その後、制御部10は、処理を図4のS19に移す。
他方、図4のS18において、制御部10(出力オブジェクト決定部16)は、テキストボックスのそれぞれに含まれる文章を、出力内容に決定する。
S19において、制御部10(文章出力部17)は、決定した出力内容を、各テキスト及びテキストボックスのメタ情報に基づいて編集画面に配置して出力する。また、制御部10(文章出力部17)は、編集画面に出力した文字を、文章記憶部33に記憶させる。その後、制御部10は、本処理を終了する。
次に、この文章出力装置1を用いて出力される文章の例を説明する。
図8から図10までは、本実施形態に係る文章出力装置1の処理例を示す図である。
図8に示すPDFデータ61は、テキストボックス61aと、テキストボックス61bとを含む。そして、テキストボックス61bは、不可視の埋め込み文字のテキストボックスであり、実際には、表面に対して奥の方の位置に設けられた文字を含む。そのため、図8では、埋め込まれていることを明示するために、階層構造によって図示をしている。また、図9及び図10についても同様である。
PDFデータ61において、ユーザにより指定領域62が指定された場合、制御部10は、指定領域62に含まれる文字データを抽出し、テキストボックスを特定する(図4のS13及びS14)。ここで、テキストボックス61aと、テキストボックス61bとが重なっていないので、両者のテキストボックスにおいて文字間の重なりがない。よって、制御部10は、重なりがないと判定し(図4のS16がNO)、指定領域62に含まれるテキストボックス61aと、テキストボックス61bとの両方の文字データを出力内容に決定し、メタ情報に基づいて編集画面63に配置して出力する(図4のS18及びS19)。
このように、図8に示す例では、テキストボックス同士の重なりがなく、制御部10は、テキストボックスにおいて文字間の重なりがないと判定し、テキストボックスに含まれる文字データが埋め込み文字であるか否かの処理(重なり処理)をすることなく、埋め込み文字を含めた出力文字を、編集画面に出力している。これは、文章が他の文章と結合して理解ができないものにならないことによる。
次に、図9に示すPDFデータ64は、テキストボックス64aと、テキストボックス64bとを含む。そして、テキストボックス64bは、不可視の埋め込み文字のテキストボックスである。
PDFデータ64において、ユーザにより指定領域65が指定された場合、制御部10は、指定領域65に含まれる文字データを抽出し、テキストボックスを特定する(図4のS13及びS14)。ここで、テキストボックス64aと、テキストボックス64bとが重なっているので、次に、制御部10は、テキストボックス64aと、テキストボックス64bとの各文字のメタ情報に基づいて、文字間の重なりの有無を判定する(図4のS15)。そして、制御部10は、文字間の重なりがないと判定し(図5のS16がNO)、指定領域65に含まれるテキストボックス64aと、テキストボックス64bとの両方の文字データを出力内容に決定し、メタ情報に基づいて編集画面66に配置して出力する(図4のS18及びS19)。
このように、図9に示す例では、編集画面66には、テキストボックス64aの全ての文字の他、テキストボックス64bのうち指定領域65に含まれる一部の文字が表示される。つまり、編集画面66には、指定領域65に含まれる全ての文字が出力される。この例でも、埋め込み文字が出力されるが、これは、文字同士が重なっていないため、出力しても、文章が他の文章と結合して理解ができないものにならないためである。
次に、図10に示すPDFデータ67は、テキストボックス67aと、テキストボックス67bとを含む。そして、テキストボックス67bは、不可視の埋め込み文字のテキストボックスである。
PDFデータ67において、ユーザにより指定領域68が指定された場合、制御部10は、指定領域68に含まれる文字データを抽出し、テキストボックスを特定する(図4のS13及びS14)。ここで、テキストボックス67aと、テキストボックス67bとが重なっているので、次に、制御部10は、テキストボックス67aと、テキストボックス67bとの各文字のメタ情報に基づいて、文字間の重なりの有無を判定する(図4のS15)。制御部10は、文字間の重なりがあると判定し(図5のS16がYES)、重なり処理を行う(図5)。制御部10は、算出した面積比の低いテキストボックス67bの文字を、埋め込み文字に特定し(図5のS22)、算出した面積比の高いテキストボックス67aの文章を出力内容に決定する(図5のS23)。そして、制御部10は、決定した出力内容を、メタ情報に基づいて編集画面69に配置して出力する(図4のS19)。
このように、図10に示す例では、編集画面69には、指定領域65に含まれるテキストボックス64aの全ての文字のみが表示される。そして、テキストボックス64bの文字は出力しない。よって、文章出力装置1は、テキストボックス64bの文字が結合して出力されるのを防ぐことができ、文章として理解可能なものを出力できる。
なお、図10のように、テキストボックス64bの文字を出力しないものは、一例であり、テキストボックス64bの文字も出力してもよい。但し、テキストボックス64aの文字とは表示態様を異ならせて、異なる文章であることが認識できるようにする必要がある。
このように、本実施形態の文章出力装置1によれば、以下のような効果がある。
(1)PDFデータの指定領域に含む文字データを抽出し、テキストボックスを特定し、複数のテキストボックスにおいて文字間の重なりの有無を判定し、判定結果に応じて出力内容を決定する。
よって、編集画面に出力される文章は、文字間の重なりの有無の判定結果に応じたものになり、例えば、文字間の重なりがある場合には、重なりのある文章同士を分けて出力するようにすることで、文章として理解可能なものにできる。
(2)複数のテキストボックスにおいて文字間の重なりがあると判定された場合に、指定領域に対するテキストボックスのそれぞれの面積比を算出し、算出した面積比に応じて出力内容を決定する。
よって、指定領域と、テキストボックスとのそれぞれの位置情報から重なり度合を利用して出力内容を決定できる。したがって、ユーザが、指定領域には出力したい文章を含めるように領域の指定を行えば、面積比は高いものになるため、ユーザの意図した出力内容にすることができる。
(3)複数のテキストボックスにおいて文字間の重なりがないと判定された場合に、指定領域に含まれる複数のテキストボックスのそれぞれに含まれる文章を出力内容に決定する。
よって、指定領域に含まれる文章を、出力内容にすることができ、ユーザの意図した出力内容にすることができる。
(4)出力内容を、テキストボックスに対応するメタ情報に基づいて配置した編集画面を出力する。
よって、編集画面には、文章を、各文字の位置や大きさを含めて、PDFデータと同じように出力できる。
(5)PDFデータのうち文章を含む指定領域の指定を受け付けて、受け付けた指定領域に含む文字データを、メタ情報に基づいて抽出する。
よって、ユーザの指定した範囲の領域の文章を、出力対象にできる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されるものではない。また、実施形態に記載した効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載したものに限定されない。なお、上述した実施形態及び後述する変形形態は、適宜組み合わせて用いることもできるが、詳細な説明は省略する。
(変形形態)
(1)本実施形態では、ユーザが指定した指定領域に含まれる文章を出力するものを例に説明したがこれに限定されない。例えば、PDFデータとして表示部に表示されたPDFデータの全てであるページデータを処理対象領域にして、文章を出力してもよい。
(2)本実施形態では、テキストボックスの重なり度合を用いて出力内容を決定するものを例に説明したが、これに限定されない。PDFデータの指定領域に対してOCR(光学文字認識)を用いて指定領域に含まれる文字を取得し、取得した文字と、各テキストボックスに含まれる文章との一致度合に基づいて出力内容を決定してもよい。この方法によれは、OCRを用いて取得した文字には、埋め込み文字のような不可視な文字が含まれないことを利用して、出力内容を決定できる。
(3)本実施形態では、複数のテキストボックスにおいて文字間の重なりがある場合に、複数のテキストボックスのうちの算出した面積比の高いテキストボックスに含まれる文章を出力内容に決定するものを例に説明したが、これに限定されない。例えば、算出した面積比の低いテキストボックスに含まれる文章の表示態様を、算出した面積比の高いテキストボックスに含まれる文章の表示態様とは異なるものにして、両方の文章を出力してもよい。
(4)本実施形態では、複数のテキストボックスにおいて文字間の重なりがない場合には、テキストボックスに含まれる文章を出力内容に決定するものを例に説明した。その際、各テキストボックスの文章を、各々異なる表示態様にしてもよい。そうすれば、文章のまとまりを一見しただけで把握できるものになる。
(5)本実施形態では、PDFデータを例に説明したが、これに限定されない。複数のテキストボックスを有し、文章や文章を構成する文字ごとのメタ情報を有するページデータであれば、他のものであっても同様に用いることができる。
(6)本実施形態では、文章出力装置が入力部及び表示部を含む装置として説明したが、これに限定されない。入力部及び表示部を、例えば、ユーザ端末に有するものとし、文章出力装置は、入力部及び表示部を備えなくてもよい。その場合、ユーザ端末が文章出力装置に対して通信可能に接続することで、処理を行ってもよい。
1 文章出力装置
10 制御部
11 ページデータ出力部
12 領域受付部
13 文字抽出部
14 オブジェクト特定部
15 重なり判定部
16 出力オブジェクト決定部
17 文章出力部
30 記憶部
31a プログラム
32 文書ファイル記憶部
33 文章記憶部
36 入力部
37 表示部
39 通信インタフェース部
41,51,62,65,68 指定領域
42,51a,51b,61a,61b,64a,64b,67a,67b テキストボックス
61,64,67 PDFデータ
63,66,69 編集画面

Claims (8)

  1. 複数のテキストオブジェクトを有するページデータから埋め込まれた文字の位置に応じて文字列を抽出する文章抽出装置であって、
    表示された前記ページデータから指定された処理対象領域における文字を抽出する文字抽出手段と、
    前記文字抽出手段により抽出した前記文字を含む前記テキストオブジェクトを特定するオブジェクト特定手段と、
    前記オブジェクト特定手段により前記処理対象領域から特定した複数の前記テキストオブジェクトにおいて文字間の重なりの有無を判定する判定手段と、
    前記判定手段による判定結果に応じて出力内容を決定する出力オブジェクト決定手段と、
    を備える、文章抽出装置。
  2. 請求項1に記載の文章抽出装置において、
    前記出力オブジェクト決定手段は、前記判定手段による判定結果、重なりがあると判定された場合に、前記処理対象領域に対する特定した前記テキストオブジェクトのそれぞれの面積比を算出し、算出した前記面積比に応じて前記出力内容を決定する、文章抽出装置。
  3. 請求項1に記載の文章抽出装置において、
    前記処理対象領域に含まれる前記文字を、光学文字認識により取得する認識文字取得手段を備え、
    前記出力オブジェクト決定手段は、前記判定手段による判定結果、重なりがあると判定された場合に、前記処理対象領域に対する特定した前記テキストオブジェクトのそれぞれに含まれる文章について、前記認識文字取得手段により取得した前記文字との一致度合を算出し、算出した一致度合に応じて前記出力内容を決定する、文章抽出装置。
  4. 請求項1に記載の文章抽出装置において、
    前記出力オブジェクト決定手段は、前記判定手段による判定結果、重なりがないと判定された場合に、前記複数のテキストオブジェクトのそれぞれに含まれる文章を、前記出力内容に決定する、文章抽出装置。
  5. 請求項1から請求項4までのいずれかに記載の文章抽出装置において、
    前記出力オブジェクト決定手段により決定した前記出力内容を、前記テキストオブジェクトに対応するメタ情報に基づいて配置して編集画面に出力する文章出力手段を備える、文章抽出装置。
  6. 請求項1から請求項5までのいずれかに記載の文章抽出装置において、
    前記ページデータのうち文章を含む指定領域の指定を受け付ける領域受付手段を備え、
    前記文字抽出手段は、前記指定領域を前記処理対象領域として、前記処理対象領域における前記文字を抽出する、文章抽出装置。
  7. 請求項1から請求項6までのいずれかに記載の文章抽出装置において、
    前記ページデータは、PDF形式のデータである、文章抽出装置。
  8. 請求項1から請求項7までのいずれかに記載の文章抽出装置としてコンピュータを機能させるためのプログラム。
JP2020063663A 2020-03-31 2020-03-31 文章抽出装置及びプログラム Active JP7480560B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020063663A JP7480560B2 (ja) 2020-03-31 2020-03-31 文章抽出装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020063663A JP7480560B2 (ja) 2020-03-31 2020-03-31 文章抽出装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2021163159A true JP2021163159A (ja) 2021-10-11
JP7480560B2 JP7480560B2 (ja) 2024-05-10

Family

ID=78003407

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020063663A Active JP7480560B2 (ja) 2020-03-31 2020-03-31 文章抽出装置及びプログラム

Country Status (1)

Country Link
JP (1) JP7480560B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3775130B2 (ja) 1999-09-22 2006-05-17 富士ゼロックス株式会社 文書処理装置および方法
JP3955467B2 (ja) 2001-12-27 2007-08-08 株式会社日立製作所 画像処理プログラム及び画像処理装置
JP2004240672A (ja) 2003-02-05 2004-08-26 Minolta Co Ltd 画像編集プログラム
JP2013016049A (ja) 2011-07-05 2013-01-24 Konica Minolta Business Technologies Inc 画像処理装置、画像形成装置、及び、プログラム
JP2015089070A (ja) 2013-11-01 2015-05-07 大日本印刷株式会社 文書ファイルに対する情報埋め込み装置

Also Published As

Publication number Publication date
JP7480560B2 (ja) 2024-05-10

Similar Documents

Publication Publication Date Title
US7844893B2 (en) Document editing method, document editing device, and storage medium
JP4290011B2 (ja) ビューワ装置及びその制御方法、プログラム
CN102117269B (zh) 对文档进行数字化的装置及方法
US8045198B2 (en) System and method for processing a change history of a PDF file
US20060217956A1 (en) Translation processing method, document translation device, and programs
US20120036427A1 (en) Document processing apparatus, document processing method and computer program
TWI291139B (en) Enhanced readability with flowed bitmaps
US10198406B2 (en) Modifying native document comments in a preview
JP2010009509A (ja) 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体
KR100884195B1 (ko) 전자책에서의 텍스트 변경으로 컨텐츠 리포맷팅 및 페이지수의 재산출을 위한 방법, 및 이에 적용되는 장치
JP4666996B2 (ja) 電子ファイリングシステム、電子ファイリング方法
US7788283B2 (en) On demand data proxy
KR101005651B1 (ko) 트리 구조와 대화하는 방법 및 시스템
JP2021163159A (ja) 文章抽出装置及びプログラム
JP2006195575A (ja) 情報処理装置及びその方法
JP2005070939A (ja) 文字列処理装置、文字列処理方法、プログラム及び記録媒体
KR100986886B1 (ko) 전자책을 이루는 데이터 포맷의 형성 시스템 및 이에적용되는 포맷변환장치
JPH08221417A (ja) 構造化文書の新旧対照編集装置
US20030154462A1 (en) Software maintenance material generation apparatus and generation program therefor
JP4561156B2 (ja) ドキュメント処理装置
JP2006005670A (ja) ドキュメント処理装置
JP5569367B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2008252294A (ja) 画像形成システム
JP6206835B2 (ja) 電子書籍データ作成方法及びマークアップ言語データ作成方法
RU2387007C2 (ru) Обработка информации

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240408