JP7003457B2 - 文書再構成装置 - Google Patents
文書再構成装置 Download PDFInfo
- Publication number
- JP7003457B2 JP7003457B2 JP2017124616A JP2017124616A JP7003457B2 JP 7003457 B2 JP7003457 B2 JP 7003457B2 JP 2017124616 A JP2017124616 A JP 2017124616A JP 2017124616 A JP2017124616 A JP 2017124616A JP 7003457 B2 JP7003457 B2 JP 7003457B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- sentence
- area
- sentences
- reconstructing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Description
分割後の各領域に含まれる文章を抽出する文章抽出部と、
分割後の各領域から抽出した文章が、他の領域から抽出した文章と繋がった文章か、独立した文章かを判別する判別部と、
他の領域から抽出した文章と繋がっていると判別された文章同士を1つの文章に繋げる文章結合部と、
前記独立した文章および前記文章結合部によって1つに繋げられた文章を一列に配列して、前記元文書を、段組みの解除された文書に再構成する再構成部と、
を有し、
前記再構成部は、各領域内での文章のレイアウトを保持したまま文字サイズを調整して前記再構成するか、リフローで前記再構成するかを選択可能である
ことを特徴とする文書再構成装置。
ことを特徴とする[1]に記載の文書再構成装置。
ことを特徴とする[2]に記載の文書再構成装置。
ことを特徴とする[1]に記載の文書再構成装置。
ことを特徴とする[1]に記載の文書再構成装置。
ことを特徴とする[1]に記載の文書再構成装置。
ことを特徴とする[1]に記載の文書再構成装置。
ことを特徴とする[1]に記載の文書再構成装置。
ことを特徴とする[1]に記載の文書再構成装置。
ことを特徴とする[1]に記載の文書再構成装置。
ことを特徴とする[1]に記載の文書再構成装置。
ことを特徴とする[1]に記載の文書再構成装置。
ことを特徴とする[1]に記載の文書再構成装置。
文章1:(今年,景気,・・・)=(3,10・・・)、
文書2:(近年,技術動向,・・・)=(15,3・・・)
となり、Cos類似度は、
Cosθ=文章1のベクトル・文章2のベクトル/|文書1||文書2|、として求まる、ここでは、Cosθ=0.2(上限を1.0とする) であったとする。
図8は、例3の元文書を示している。この元文書は、上段と下段の2段に段組みされており、日本語、縦書きで、右から左に向かって読み進める文書である。領域は4つに分かれており、上段の右側の領域に1つの独立した文章、下段の右側の領域に1つの独立した文章があり、さらに、上段左側の領域の文章に下段左側の文章が繋がっている。
例4の元文書は、複数ページ(2ページ)で構成される(図11参照)。1ページ目は、上段に2つ、下段に2つの文章から構成され、2ページ目は、上段に2つ、下段に1つの文章から構成される。いずれも、日本語、縦読み、かつ右から左に読み進める文章である。なお、1ページ目の左下の文章は2ページ目の上段右の文章へ続いており、2ページ目の上段左の文章は下段の文章へ続いている。よって、この2ページの文書には、独立した5つの文章が含まれている。
例5の元文書では、領域の中に、図や画像などのオブジェクトが存在する。図14に例5の元文書を示す。上段に2つ、下段に2つの文章(計4つの文章)から構成され、かつ、その中の上段右側の文章には、画像のオブジェクトが含まれている。この文書は、各行が縦読みで、行単位では右から左に読み進める日本語の文書である。
例6の元文書(図16参照)は、横書きの日本語文書であり、各行は左から右に読み、行単位では上から下に読み進める。この例では、上段に2つの文章、下段に2つの文章がある。図16(b)は、例6の元文書を分割してラべリングした状態を示す。図中の破線は領域を示す。
例7は、各文章を配列して再構成する際に、リフロー表示に対応した文書にする。該文書をリフロー表示した例を図18に示す。
例8では、ユーザが指定した文字サイズや文字フォントでリフロー表示する。図19はユーザが指定した文字サイズや文字フォントでリフロー表示した場合の一例を示す。元文書は例7と同じである。文書再構成装置10は、リフローする場合の文字サイズの指定を、たとえば、段組み解除の指示と共に携帯端末5から受信する。なお、閲覧する際に携帯端末5において文字サイズの指示を受けて、携帯端末5が表示する文字サイズを変更するようにしてもよい。
図20は、例9の元文書を示している。例9の元文書は、上段に2つの文章、下段に2つの文章が配置されており、左上から右下に向かって読む文書である。ここでは、モンゴル語の文章となっている。図20(b)は、例9の元文書を領域に分割してラべリングした状態を示す。図中の破線は領域を示す。ラべリングの順序は日本語の場合と同様になっている。
図22は、例10の元文書を示している。例10の元文書は、英語の文書であり、上段に2つ、下段に2つの合計4つの領域に分けて文章が配置されている。各行は左から右に読み、行単位には上から下に読み進める文書である。図22(b)は、例10の元文書を領域に分割してラべリングした状態を示す。図中の破線は領域を示す。
例11は、図4の例1と同じレイアウトになるXMLデータの文書が元文書の場合である。XMLのパーサを使い、レイアウトのタグ、テキストのタグを取得することで処理を行う。
文章連続度と比較して、文書が独立した文書であるか、連続した文書であるかを判別する際に使用する閾値は、ユーザが任意に設定してもよいし、装置が予め定めた値としてもよい。また、文書を読む際のスクロール方向は、言語、行単位の読む方向に基づいて装置で自動的に定める例を示したが、ユーザがスクロール方向を指定可能とし、指定されたスクロール方向と同一方向に文章を配列して再構成文書を生成するようにしてもよい。
10…文書再構成装置
11…CPU
12…RAM
13…記憶部
14…ネットワーク通信部
15…入力装置
16…出力装置
21…分割部
22…文章抽出部
23…判別部
24…文章結合部
25…再構成部
Claims (14)
- 段組みされた元文書を、所定の領域判別条件に基づいて複数の領域に分割する分割部と、
分割後の各領域に含まれる文章を抽出する文章抽出部と、
分割後の各領域から抽出した文章が、他の領域から抽出した文章と繋がった文章か、独立した文章かを判別する判別部と、
他の領域から抽出した文章と繋がっていると判別された文章同士を1つの文章に繋げる文章結合部と、
前記独立した文章および前記文章結合部によって1つに繋げられた文章を一列に配列して、前記元文書を、段組みの解除された文書に再構成する再構成部と、
を有し、
前記再構成部は、各領域内での文章のレイアウトを保持したまま文字サイズを調整して前記再構成するか、リフローで前記再構成するかを選択可能である
ことを特徴とする文書再構成装置。 - 前記判別部は、文章同士の繋がりの適正度を数値化し、所定の閾値と比較して、前記判別する
ことを特徴とする請求項1に記載の文書再構成装置。 - 前記閾値をユーザが設定し得る
ことを特徴とする請求項2に記載の文書再構成装置。 - 前記判別部は、文章の内容の類似度、およびまたは、一の文章の末尾と他の一の文章の先頭との連続性、に基づいて、前記判別する
ことを特徴とする請求項1に記載の文書再構成装置。 - 前記判別部は、一の領域に含まれる文章と、前記一の領域に含まれる文章と連続する可能性のない位置にある領域に含まれる文章との繋がりは判別しない
ことを特徴とする請求項1に記載の文書再構成装置。 - 前記再構成部は、前記文章を読み進める方向に従って、前記文章を一列に配列する
ことを特徴とする請求項1に記載の文書再構成装置。 - 前記再構成部は、ユーザの指定する方向に従って、前記文章を一列に配列する
ことを特徴とする請求項1に記載の文書再構成装置。 - 文字サイズをユーザが指定し得る
ことを特徴とする請求項1に記載の文書再構成装置。 - 一の領域の中に文章のほかに画像や図形のオブジェクトが存在する場合に、前記再構成部は、一の領域に含まれるオブジェクトと文章とを一体に扱って、前記配列する
ことを特徴とする請求項1に記載の文書再構成装置。 - 前記元文書がイメージデータの場合に、前記分割部は、前記元文書を画像処理によって領域判別することで、前記分割する
ことを特徴とする請求項1に記載の文書再構成装置。 - 前記元文書がマークアップ言語で記述された文書の場合に、前記分割部は、段組みを示すタグ情報に基づいて、前記分割する
ことを特徴とする請求項1に記載の文書再構成装置。 - 前記元文書がイメージデータの場合に、前記文章抽出部は、文字認識によって文章を抽出する
ことを特徴とする請求項1に記載の文書再構成装置。 - 前記元文書がマークアップ言語で記述された文書の場合に、前記文章抽出部は、テキスト領域を示すタグ情報に基づいて文章を抽出する
ことを特徴とする請求項1に記載の文書再構成装置。 - 情報処理装置を、請求項1乃至13のいずれか1つの文書再構成装置として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017124616A JP7003457B2 (ja) | 2017-06-26 | 2017-06-26 | 文書再構成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017124616A JP7003457B2 (ja) | 2017-06-26 | 2017-06-26 | 文書再構成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019008615A JP2019008615A (ja) | 2019-01-17 |
JP7003457B2 true JP7003457B2 (ja) | 2022-01-20 |
Family
ID=65029675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017124616A Active JP7003457B2 (ja) | 2017-06-26 | 2017-06-26 | 文書再構成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7003457B2 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003196278A (ja) | 2001-12-27 | 2003-07-11 | Brother Ind Ltd | 文字入力方法、文字入力プログラム及びコンピュータ読み取り可能な記録媒体 |
JP2009230320A (ja) | 2008-03-21 | 2009-10-08 | Nfuga Inc | 印刷ページ生成装置、印刷ページ生成システム、印刷ページ生成方法およびコンピュータプログラム |
US20130259377A1 (en) | 2012-03-30 | 2013-10-03 | Nuance Communications, Inc. | Conversion of a document of captured images into a format for optimized display on a mobile device |
JP2014197341A (ja) | 2013-03-29 | 2014-10-16 | 富士フイルム株式会社 | 電子書籍制作装置、電子書籍システム、電子書籍制作方法及びプログラム |
JP2015146122A (ja) | 2014-02-03 | 2015-08-13 | シャープ株式会社 | 変換処理装置、それを備えた情報処理装置、プログラム、及び記録媒体 |
JP2016167148A (ja) | 2015-03-09 | 2016-09-15 | コニカミノルタ株式会社 | 情報処理装置、情報処理プログラムおよび記録媒体 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07121540A (ja) * | 1993-10-26 | 1995-05-12 | Toshiba Corp | 文書作成装置及び対訳制御方法 |
JPH08180131A (ja) * | 1994-12-21 | 1996-07-12 | Canon Inc | 画像処理方法 |
-
2017
- 2017-06-26 JP JP2017124616A patent/JP7003457B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003196278A (ja) | 2001-12-27 | 2003-07-11 | Brother Ind Ltd | 文字入力方法、文字入力プログラム及びコンピュータ読み取り可能な記録媒体 |
JP2009230320A (ja) | 2008-03-21 | 2009-10-08 | Nfuga Inc | 印刷ページ生成装置、印刷ページ生成システム、印刷ページ生成方法およびコンピュータプログラム |
US20130259377A1 (en) | 2012-03-30 | 2013-10-03 | Nuance Communications, Inc. | Conversion of a document of captured images into a format for optimized display on a mobile device |
JP2014197341A (ja) | 2013-03-29 | 2014-10-16 | 富士フイルム株式会社 | 電子書籍制作装置、電子書籍システム、電子書籍制作方法及びプログラム |
JP2015146122A (ja) | 2014-02-03 | 2015-08-13 | シャープ株式会社 | 変換処理装置、それを備えた情報処理装置、プログラム、及び記録媒体 |
JP2016167148A (ja) | 2015-03-09 | 2016-09-15 | コニカミノルタ株式会社 | 情報処理装置、情報処理プログラムおよび記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2019008615A (ja) | 2019-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2937702C (en) | Emphasizing a portion of the visible content elements of a markup language document | |
US8918711B2 (en) | System and method for visually presenting electronic media | |
JP4873766B2 (ja) | レイアウトサービスライブラリを用いたパラグラフのレイアウト方法 | |
EP0762298B1 (en) | Translation display apparatus and method | |
US9471550B2 (en) | Method and apparatus for document conversion with font metrics adjustment for format compatibility | |
US9870484B2 (en) | Document redaction | |
US11615635B2 (en) | Heuristic method for analyzing content of an electronic document | |
US9460089B1 (en) | Flow rendering of annotation characters | |
US9886426B1 (en) | Methods and apparatus for generating an efficient SVG file | |
US7366978B1 (en) | Method and system for creating a grid-like coordinate system for addressing data contained in an irregular computer-generated table | |
US20240119218A1 (en) | Device dependent rendering of pdf content | |
JP7425214B2 (ja) | リフロー型コンテンツの動的レイアウト調整 | |
US20240104290A1 (en) | Device dependent rendering of pdf content including multiple articles and a table of contents | |
JP7003457B2 (ja) | 文書再構成装置 | |
US11720740B2 (en) | Reducing interference between two texts | |
CN111143749A (zh) | 一种网页展示方法、装置、设备及存储介质 | |
CN106776489B (zh) | 显示设备的电子文档显示方法和系统 | |
US20160170941A1 (en) | Replicating the appearance of typographical attributes and text adornments in digital publications | |
US20130104014A1 (en) | Viewer unit, server unit, display control method, digital comic editing method and non-transitory computer-readable medium | |
JP2014021694A (ja) | 携帯情報端末、携帯情報端末の表組表示方法、及び携帯情報端末の表組表示プログラム | |
US20230367952A1 (en) | Reducing interference between two texts | |
WO2019005100A1 (en) | METHOD AND SYSTEM FOR DISPLAYING CONTENT OF A PDF DOCUMENT ON A SMALL SCREEN | |
JP2005202739A (ja) | 機械翻訳装置、機械翻訳方法及び機械翻訳プログラム | |
US20170212870A1 (en) | Method and System to Display Content from a PDF Document on a Small Screen | |
Madjarov | Responsive Course Design-An Adaptive Approach to Designing Responsive m-Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200615 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210514 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210527 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210720 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7003457 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |