JP2016532190A - 文書フォーマット変換装置及び方法 - Google Patents

文書フォーマット変換装置及び方法 Download PDF

Info

Publication number
JP2016532190A
JP2016532190A JP2016528295A JP2016528295A JP2016532190A JP 2016532190 A JP2016532190 A JP 2016532190A JP 2016528295 A JP2016528295 A JP 2016528295A JP 2016528295 A JP2016528295 A JP 2016528295A JP 2016532190 A JP2016532190 A JP 2016532190A
Authority
JP
Japan
Prior art keywords
character
path
font file
group
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016528295A
Other languages
English (en)
Inventor
グオフオン シーン
グオフオン シーン
チャーンシュヨン ワーン
チャーンシュヨン ワーン
Original Assignee
ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド
ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド
ファウンダー アパビ テクノロジー リミティド
ファウンダー アパビ テクノロジー リミティド
ファウンダー インフォメーション インダストリー ホールディングス カンパニー,リミティド
ファウンダー インフォメーション インダストリー ホールディングス カンパニー,リミティド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド, ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド, ファウンダー アパビ テクノロジー リミティド, ファウンダー アパビ テクノロジー リミティド, ファウンダー インフォメーション インダストリー ホールディングス カンパニー,リミティド, ファウンダー インフォメーション インダストリー ホールディングス カンパニー,リミティド filed Critical ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド
Publication of JP2016532190A publication Critical patent/JP2016532190A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/123Storage facilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Character Discrimination (AREA)

Abstract

固定レイアウト文書の経路基本要素を取得するために固定レイアウト文書を解析する文書解析部と、経路群を生成するために経路基本要素を群に分類する経路分類部と、文字を表現するために用いられる経路群を取得するとともに文字を表現するために用いられる経路群に対応するフォントファイルを生成し、同一文字を表現する二つ以上の経路群が存在する場合、一つのフォントファイルのみを生成するとともに同一文字を表現する二つ以上の経路群に関連させるフォントファイル生成部と、変換した文書を、生成した全てのフォントファイルを用いて生成する文書生成部と、を備える文書フォーマット変換装置を提供する。本発明において、文書フォーマット変換方法も更に提供する。本発明の技術的な解決によって、固定レイアウト文書のデータの冗長性の問題を解決することができ、これによって文書量を更に少なくし、さらに、リフロープロセスの不正確なレンダリングの問題を解決して、種々の端末における更に良好な表示効果を達成することができる。【選択図】図1A

Description

本発明は、電子文書フォーマット変換技術の分野に関し、更に詳しくは、文書フォーマット変換装置及び方法に関する。
固定レイアウト文書において、(点及び線を含む)複数の経路が、文字を表現するために用いられており、各文字はデータの組に対応する。これによって、問題が生じることがあり、例えば、多量の重複文字を表現するために多量の経路が要求され、大きなデータの冗長性が生じる。また、リフロープロセスにおいてこれらの文字を適切にレンダリングできなくなることがある。
したがって、文書量を更に少なくするために固定レイアウト文書のデータの冗長性の問題を解決することができるとともに種々の端末における更に良好な表示効果を達成するためにリフロープロセスの不正確なレンダリングの問題を解決することができる新たな文書フォーマット変換技術が望まれている。
上記問題を考慮して、文書を少量にするために固定レイアウト文書のデータの冗長性の問題を解決することができるとともに種々の端末における更に良好な表示効果を達成するためにリフロープロセスの不正確なレンダリングの問題を解決することができる新たな文書フォーマット変換技術を提供する。
したがって、固定レイアウト文書の経路基本要素(path primitive)を取得するために固定レイアウト文書を解析する文書解析部と、経路群を生成するために経路基本要素を群に分類する経路分類部と、文字を表現する経路群を取得するとともに文字を表現する経路群に対応するフォントファイルを生成し、同一文字を表現する二つ以上の経路群が存在する場合、一つのフォントファイルのみを生成するとともに同一文字を表す二つ以上の経路群に関連させるフォントファイル生成部と、変換した文書を、生成した全てのフォントファイルを用いて生成する文書生成部と、を備える文書フォーマット変換装置を、本発明において提供する。この技術的解決法において、固定レイアウト文書の経路基本要素を群に分類することによって、各文字に対応する経路群を取得し(文字を表現するのに用いられない経路群が存在することもある。)、それと同時に、フォントファイルを生成するとともに同一文字を表現するのに用いられる経路群に対して一つのフォントファイルのみを生成するので、含まれる多数の重複文字を有する文書に対して、容量を大幅に減少させることができ、これは、特にモバイル機器の場合において更に多くの文書を記憶するのに有用である。
固定レイアウト文書の経路基本要素を取得するために固定レイアウト文書を解析することと、経路群を生成するために経路基本要素を群に分類することと、文字を表現する経路群を取得するとともに文字を表現する経路群に対応するフォントファイルを生成し、同一文字を表現する二つ以上の経路群が存在する場合、一つのフォントファイルのみを生成するとともに同一文字を表す二つ以上の経路群に関連させることと、変換した文書を、生成した全てのフォントファイルを用いて生成することと、を備える文書フォーマット変換方法を更に提供する。この技術的解決法において、固定レイアウト文書の経路基本要素を群に分類することによって、各文字に対応する経路群を取得し(文字を表現するのに用いられない経路群が存在することもある。)、それと同時に、フォントファイルを生成するとともに同一文字を表現するのに用いられる経路群に対して一つのフォントファイルのみを生成するので、含まれる多数の重複文字を有する文書に対して、容量を大幅に減少させることができ、これは、特にモバイル機器の場合において更に多くの文書を記憶するのに有用である。
上述した技術的解決法によって、固定レイアウト文書のデータの冗長性の問題を解決することができ、これによって文書量を更に少なくし、さらに、リフロープロセスの不正確なレンダリングの問題を解決して、種々の端末における更に良好な表示効果を達成することができる。
本発明の一実施の形態による文書フォーマット変換装置のブロック図を示す。 本発明の他の実施の形態による文書フォーマット変換装置のブロック図を示す。 図1Bに示す文書フォーマット変換装置の種々の部の間の関係を示す線形図である。 本発明の一実施の形態による文書フォーマット変換方法のフローチャートを示す。 本発明の実施の形態による固定レイアウト文書を変換する特定のフローチャートを示す。 本発明の実施の形態による経路基本要素を群に分類するフローチャートを示す。 本発明の実施の形態による文字を表現するために経路基本要素を用いるか否かを決定するフローチャートを示す。 本発明の実施の形態による重複文字を表現するために経路基本要素を用いるか否かを決定するフローチャート及び対応する処理方法を示す。 本発明の実施の形態によるフォントファイルを生成するフローチャートを示す。
本発明の上記目的、特徴及び利点を更に詳しく理解するために、図面及び以下の特定の実施の形態を参照しながら更に詳細に説明する。矛盾がない場合には本発明の実施の形態及び実施の形態の特徴を互いに組み合わせてもよいことに留意すべきである。
本発明を全体的に理解するために多数の詳細を以下説明するが、本発明を、ここに開示した方法と異なる方法で実現してもよく、したがって、本発明は、ここに開示した特定の実施の形態に限定されない。
図1は、本発明の一実施の形態による文書フォーマット変換装置のブロック図を示す。図1Aに示すように、文書フォーマット変換装置は、固定レイアウト文書の経路基本要素を取得するために固定レイアウト文書を解析する文書解析部102と、経路群を生成するために経路基本要素を群に分類する経路分類部104と、文字を表現する経路群を取得するとともに文字を表現する経路群に対応するフォントファイルを生成し、同一文字を表現する二つ以上の経路群が存在する場合、一つのフォントファイルのみを生成するとともに同一文字を表す二つ以上の経路群に関連させるフォントファイル生成部106と、変換した文書を、生成した全てのフォントファイルを用いて生成する文書生成部108と、を備える。
図1Bは、本発明の一実施の形態による文書フォーマット変換装置のブロック図を示す。
図1Bに示すように、本発明の実施の形態による文書フォーマット変換装置100は、固定レイアウト文書の経路基本要素を取得するために固定レイアウト文書を解析する文書解析部102と、(文字を表現するためにフォントファイル生成部106によって取得される経路群及び文字を表現するために用いられない他の経路群を含む)経路群を生成するために経路基本要素を群に分類する経路分類部104と、文字を表現するために用いられる経路群を取得するとともに文字を表現するために用いられる経路群に対応するフォントファイルを生成し、同一文字を表現する二つ以上の経路群が存在する場合、一つのフォントファイルのみを生成するとともに同一文字を表す二つ以上の経路群に関連させるフォントファイル生成部106と、変換した文書を、生成した全てのフォントファイルを用いて生成する文書生成部108と、を備える。この技術的解決法において、固定レイアウト文書の経路基本要素を群に分類することによって、各文字に対応する経路群を取得し(文字を表現するのに用いられない経路群が存在することもある。)、それと同時に、フォントファイルを生成するとともに同一文字を表現するのに用いられる経路群に対して一つのフォントファイルのみを生成するので、含まれる多数の重複文字を有する文書に対して、容量を大幅に減少させることができ、これは、特にモバイル機器の場合において更に多くの文書を記憶するのに有用である。
特に、固定レイアウトにおいて、例えば、各文字は、個別の経路によって表現され、その結果、繰り返し生じる重複した文字に対しても、文字を別個の経路によって表現する必要があり、多量の経路において著しい冗長が生じ、その結果、それに応じた大量の文書が生じる。しかしながら、フォントファイルを生成することによって、重複した文字を一つだけのフォントファイルによって表現することができ、オリジナルの経路の冗長性が大幅に減少し、これは、文書量を減少させるとともに文書データの冗長性の問題を解決するのに有用である。
上述した技術的解決法において、好適には、経路分類部104は、各経路基本要素の最小包囲矩形を取得する包囲矩形取得サブユニット1042と、種々の経路基本要素の最小包囲矩形の間の位置関係を検出し、二つの経路基本要素の最小包囲矩形が交差する場合又は二つの経路基本要素の最小包囲矩形の間の距離が予め決定された文字間隔より短い場合、二つの経路基本要素を同一の経路群に分類する分類処理サブユニット1044と、を備える。換言すれば、経路基本要素に対応する最小包囲矩形が他の経路基本要素に対応する最小包囲矩形に交差する場合又は二つの経路基本要素の間の距離が予め決定された文字間隔より短い場合、経路基本要素及び他の経路基本要素は、同一の経路群に分類される。この解決法において、各経路基本要素に対して、その最小包囲矩形は、経路基本要素に対応するエリアと考えられ、相互作用計算(interaction calculation)によって、又は、矩形エリアで実行される距離計算によって、経路基本要素が他の経路基本要素と同一の群に分類されるか否かを決定することができる。実際には、各文字は、経路群に対応し(文字を表すのに用いられない他の経路群が存在することもある。)、固定レイアウト文書の各文字の分類を、上述した分類プロセスによって行うことができる。
上述した解決法において、好適には、光学文字認識(OCR)技術によって各経路群を認識する表現決定部110を更に備える。経路群に対応する文字を認識する場合、フォント生成部の処理に対して、文字を表現するために対応する経路群を用いることを決定する。この解決法において、文字を表現するために経路群を用いる場合、文字をOCR技術によって認識することができ、したがって、文字を表現するために経路群を用いるか否かを決定することができる。
上述した技術的解決法において、好適には、文字を表現するために用いられる経路群に対応するユニコード値を認識するユニコード認識部112と、記述すべき文字を、認識したユニコード値及び対応するフォントファイルを用いて表現する文字表現部114と、を更に備える。この技術的解決法において、フォントファイルは、異なる装置での適切な文書内容のリフロー処理を容易にするとともに更に良好な表示効果を達成するように文字を記述するための経路データを備える。ユニコードを設定することによって、文書の文字がユーザによって選択されるときに、システムは、文字の複写等を行うために対応するユニコード値を選択することができる。
上述した技術的解決法において、好適には、フォントファイル生成部106は、フォントファイルを、ユニコード認識部112によって認識したユニコード値及び対応する経路群を用いて生成する。この技術的解決法において、対応する文字の適切な表現を保証するために、フォントファイルをユニコード値及び経路群から生成する。
上述した技術的解決法において、好適には、フォントファイル生成部106は、ユニコード値とフォントインデックスとの間のマッピングが格納される第1テーブルを、ユニコード値を用いて生成する第1テーブル生成サブユニット1062と、フォントインデックス及びフォントインデックスに対応するフォントデータが格納される第2テーブルを、経路群に含まれる経路基本要素を用いて生成する第2テーブル生成サブユニット1064と、フォントファイルを第1テーブル及び第2テーブルを用いて生成するテーブル処理サブユニット1066と、を備える。この技術的解決法において、第1テーブルは、ユニコード値を用いて生成されるcmapテーブルであり、第2テーブルは、経路群を用いて生成されるglyfテーブルである。
上述した技術的解決法において、好適には、ユニコード認識部112によって認識されたユニコード値が記録されたか否かを決定する記録状態決定部116と、ユニコード値が記録された場合、同一文字を表す経路群が存在することを決定するとともに記録されたユニコード値及び文字表現部114によって記述される文字を表現するために生成した対応するフォントファイルを取得し、ユニコード値が記録されなかった場合、文字表現部114によって記述される文字を表現するフォントファイルを生成するデータ取得部118と、を更に備える。この技術的解決法において、認識されたユニコード値を比較することによって、現在処理している文字が取り扱われたか否かすなわち同一文字が存在するか否かを決定する。そうである場合、以前に生成したフォントファイル及び他の情報を、データの冗長性を回避するために直接用いることができる。そうでない場合、フォントファイルを生成する。上述した比較により、一つだけのフォントファイルを各文字から生成し、その結果、文書量を減少させるためにデータの冗長性を回避することができる。
上述した技術的解決法において、好適には、フォントファイルの名称及びユニコードファイルに対応するユニコード値を用いて対応する文字を表現するために文字表現部114に対するフォントファイルを統括的に記憶するファイル記憶部120と、特定の経路群の取得したユニコード値が以前に記録された場合、特定の経路群の座標を更に取得するとともに特定の経路群の座標が記録された経路群の座標と同一であるか否かを決定し、同一である場合、同一の経路群の決定を行うとともに更なる処理を要求せず、そうでない場合、新たな名称を生成し、文字表現部114が記録されたユニコード値及び新たな名称を用いて対応する文字を表現するとともにフォントファイル生成部106が新たな名称を付けたフォントファイルを生成するようにした座標決定部122と、を更に備える。この技術的解決法において、座標の決定によって、現在処理される経路群によって表現された文字に対して、同一文字を表現する他の経路群が存在するか否かを決定し、文書量をできるだけ減少させるとともに冗長を回避するために同一文字に対して一つだけのフォントファイル及び他の情報を生成することを保証する。
図1Cは、図1Bに示す文書フォーマット変換装置の種々の部間の関係を示す線形図である。
図1Cに示すように、文書フォーマット変換装置100の種々の部は、以下の関係を有する。
文書解析部102は、経路分類部104に接続されている。特に、経路分類部104は、文書解析部102の解析によって取得した経路基本要素に従って対応する経路群を生成するために経路基本要素を群に分類する。
特に、経路解析部104は、包囲矩形取得サブユニット1042と、分類処理サブユニット1044と、を備える。この場合、包囲矩形取得サブユニット1042は、文書解析部102に接続されており、文書解析部102の解析によって取得した経路基本要素に基づいて、各経路基本要素に対する最小包囲矩形を取得する。分類処理サブユニット1044は、包囲矩形取得サブユニット1042に接続されており、種々の経路基本要素の最小包囲矩形の間の位置関係を検出し、最小包囲矩形の間の関係に従って経路基本要素を群に分類する。
フォントファイル生成部106は、経路分類部104及び文書生成部108にそれぞれ接続されている。特に、経路分類部104によって生成された経路群のうちの文字を表現するのに用いられる経路群に基づいて、フォントファイル生成部106は、フォントファイルを生成し、文書生成部108は、変換された文書を、フォントファイルを用いて生成する。
表現決定部110は、フォントファイル生成部106に接続されており、文字を表現するために経路群が用いられているか否かを、経路群を認識することによって決定して、フォントファイル生成部106が文字を表現するのに用いられる経路群からフォントファイルを生成することができるようにする。
ユニコード認識部112は、表現決定部110に接続されており、表現決定部110によって決定されるような文字を表現する経路群の各々に対する対応するユニコード値を認識する。
ユニコード認識部112は、フォントファイル生成部106にも接続されており、これによって、フォントファイル生成部106は、ユニコード112によって認識されたユニコード値及び経路分類部104によって生成された対応する経路群を用いてフォントファイルを生成することができる。
特に、フォントファイル生成部106は、第1テーブル生成サブユニット1062と、第2テーブル生成サブユニット1064と、テーブル処理サブユニット1066と、を備える。この場合、第1テーブル生成サブユニット1062は、ユニコード認識部112に接続されており、ユニコード認識部112によって認識されたユニコード値を用いて第1テーブルを生成する。第2テーブル生成サブユニット1064は、経路分類部104に接続されており、経路群に含まれる経路基本要素を用いて第2テーブルを生成する。テーブル処理サブユニット1066は、第1テーブル及び第2テーブルを用いてフォントファイルを生成するために第1テーブル生成サブユニット1062及び第2テーブル生成サブユニット1064にそれぞれ接続されている。
文字表現部114は、ユニコード認識部112によって認識されたユニコード値及びフォントファイル生成部106によって生成された対応するフォントファイルを用いて記述すべき文字を表現するためにユニコード認識部112及びフォントファイル生成部106に接続されている。
記録状態決定部116は、ユニコード認識部112及びデータ取得部118にそれぞれ接続されている。特に、記録状態決定部116は、ユニコード認識部112によって認識されたユニコード値が以前に記録されたか否かを決定し、そうである場合、データ取得部118は、同一文字を表現する他の経路群が存在することを決定し、記述すべき文字を表現するために文字表現部114に対して対応するように生成した記録されたユニコード値及びフォントファイルを取得する(データ取得部118は、文字表現部114にも接続されている。)。
ファイル記憶部120は、フォントファイル生成部106及び文字表現部114にそれぞれ接続されている。特に、ファイル記憶部120は、フォントファイル生成部106によって生成されたフォントファイルを総括的に格納して、文字表現部114がフォントファイルの名称及びフォントファイルに対応するユニコード値を用いて対応する文字を表現できるようにする。
座標決定部122は、記録状態決定部116及び文字表現部114にそれぞれ接続されている。特に、記録状態決定部116が、特定の経路群の取得したユニコード値が記録されていることを決定する場合、座標決定部122は、特定の経路群の座標を更に取得し、特定の経路群の座標が記録された経路群の座標と同一であるか否かを決定し、同一でない場合、新たな名称を生成して、文字表現部114が記録されたユニコード値及び新たな名称を用いて対応する文字を表現できるようにし、フォントファイル生成部116は、新たな名称が付けられたフォントファイルを生成する。
図2は、本発明の一実施の形態による文書フォーマット変換方法のフローチャートを示す。
図2に示すように、本発明の一実施の形態による文書フォーマット変換方法は、ステップ202において、固定レイアウト文書の経路基本要素を取得するために固定レイアウト文書を解析することと、ステップ204において、(ステップ206で取得した文字を表現する経路群及び文字を表現するために用いられない他の経路群を含む)種々の経路群を生成するために経路基本要素を群に分類することと、ステップ206において、文字を表現する経路群を取得するとともにそれに対応するフォントファイルを生成することであって、同一文字を表す二つ以上の経路群が存在する場合、一つのフォントファイルのみを生成し、同一文字を表す二つ以上の経路群に関連させることと、ステップ208において、変換された文書を、生成された全てのフォントファイルを用いて生成することと、を備える。この技術的解決法において、固定レイアウト文書の経路基本要素を群に分類することによって、各文字に対応する経路群を取得し(文字を表現するのに用いられない経路群が存在することもある。)、それと同時に、フォントファイルを生成するとともに同一文字を表現するのに用いられる経路群に対して一つのフォントファイルのみを生成するので、含まれる多数の重複文字を有する文書に対して、容量を大幅に減少させることができ、これは、特にモバイル機器の場合において更に多くの文書を記憶するのに有用である。
特に、固定レイアウトにおいて、例えば、各文字は、個別の経路によって表現され、その結果、繰り返し生じる重複した文字に対しても、文字を別個の経路によって表現する必要があり、多量の経路において著しい冗長が生じ、その結果、それに応じた大量の文書が生じる。しかしながら、フォントファイルを生成することによって、重複した文字を一つだけのフォントファイルによって表現することができ、本来の経路の冗長性が大幅に減少し、これは、文書量を減少させるとともに文書データの冗長性の問題を解決するのに有用である。
上述した技術的解決法において、好適には、ステップ204は、各経路基本要素の最小包囲矩形を取得することと、種々の経路基本要素の最小包囲矩形の間の位置関係を検出し、二つの経路基本要素の最小包囲矩形が交差する場合又は二つの経路基本要素の最小包囲矩形の間の距離が予め決定された文字間隔より短い場合、二つの経路基本要素を同一の経路群に分類することと、を備える。換言すれば、経路基本要素に対応する最小包囲矩形が他の経路基本要素に対応する最小包囲矩形に交差する場合又は二つの経路基本要素の間の距離が予め決定された文字間隔より短い場合、経路基本要素及び他の経路基本要素は、同一の経路群に分類される。この解決法において、各経路基本要素に対して、その最小包囲矩形は、経路基本要素に対応するエリアと考えられ、相互作用計算によって、又は、矩形エリアで実行される距離計算によって、経路基本要素が他の経路基本要素と同一の群に分類されるか否かを決定することができる。実際には、各文字は、経路群に対応し(文字を表現するのに用いられない他の経路群が存在することもある。)、固定レイアウト文書の各文字の分類を、上述した分類プロセスによって行うことができる。
上述した技術的解決法において、好適には、ステップ206は、光学文字認識(OCR)技術によって各経路群を認識し、経路群に対応する文字を認識した場合、文字を表現するために対応する経路群を用いることを決定することを備える。この解決法において、文字を表現するために経路群を用いる場合、文字をOCR技術によって認識することができ、したがって、文字を表現するために経路群を用いるか否かを決定することができる。
上述した技術的解決法において、好適には、ステップ206の後に、文字を表現するために用いられる経路群に対応するユニコード値を認識することと、記述すべき文字を、認識したユニコード値及び対応するフォントファイルを用いて表現することと、を更に備える。この技術的解決法において、フォントファイルは、異なる装置での適切な文書内容のリフロー処理を容易にするとともに更に良好な表示効果を達成するように文字を記述するための経路データを備える。ユニコードを設定することによって、文書の文字がユーザによって選択されるときに、システムは、文字の複写等を行うために対応するユニコード値を選択することができる。
上述した技術的解決法において、好適には、フォントファイルを生成するステップは、認識したユニコード値及び対応する経路群を用いてフォントファイルを生成する。この技術的解決法において、対応する文字の適切な表現を保証するために、フォントファイルをユニコード値及び経路群から生成する。
上述した技術的解決法において、好適には、認識したユニコード値及び対応する経路群を用いてフォントファイルを生成するステップは、ユニコード値とフォントインデックスとの間のマッピングが格納される第1テーブルを、ユニコード値を用いて生成することと、フォントインデックス及びフォントインデックスに対応するフォントデータ(又は経路データ)が格納される第2テーブルを、経路群に含まれる経路基本要素を用いて生成することと、フォントファイルを、第1テーブル及び第2テーブルを用いて生成することと、を備える。この技術的解決法において、第1テーブルは、ユニコード値を用いて生成されるcmapテーブルであり、第2テーブルは、経路群を用いて生成されるglyfテーブルである。
上述した技術的解決法において、好適には、認識されたユニコード値が記録されたか否かを決定することと、ユニコード値が記録された場合、同一文字を表す経路群が存在することを決定するとともに記録されたユニコード値及び記述される文字を表現するために生成した対応するフォントファイルを取得し、ユニコード値が記録されなかった場合、記述される文字を表現するフォントファイルを生成することと、を更に備える。この技術的解決法において、認識されたユニコード値を比較することによって、現在処理している文字が取り扱われたか否かすなわち同一文字が存在するか否かを決定する。そうである場合、以前に生成したフォントファイル及び他の情報を、データの冗長性を回避するために直接用いることができる。そうでない場合、フォントファイルを生成する。上述した比較により、一つだけのフォントファイルを各文字から生成し、その結果、文書量を減少させるためにデータの冗長性を回避することができる。
上述した技術的解決法において、好適には、フォントファイルの名称及びユニコードファイルに対応するユニコード値を用いて対応する文字を表現するためにフォントファイルを統括的に記憶することと、特定の経路群の取得したユニコード値が以前に記録された場合、特定の経路群の座標を更に取得するとともに特定の経路群の座標が記録された経路群の座標と同一であるか否かを決定し、同一である場合、同一の経路群の決定を行うとともに更なる処理を要求せず、そうでない場合、新たな名称を生成し、記録されたユニコード値及び新たな名称を用いて対応する文字を表現するとともに新たな名称を付けたフォントファイルを生成することと、を更に備える。この技術的解決法において、座標の決定によって、現在処理される経路群によって表現された文字に対して、同一文字を表す他の経路群が存在するか否かを決定し、文書量をできるだけ減少させるとともに冗長を回避するために同一文字に対して一つだけのフォントファイル及び他の情報を生成することを保証する。
以下、図3〜7を参照しながら、本発明の実施の形態による固定レイアウト文書の変換の特定のフローチャートを詳細に説明する。
最初に、一般的なステップの導入部を、本発明の実施の形態による固定レイアウト文書の変換の特定のフローチャートを示す図3を参照しながら説明する。
図3に示すように、本発明の実施の形態による固定レイアウト文書の変換の特定のフローチャートは、以下のステップを備える。
ステップ302において、固定レイアウト文書を解析する。特に、オリジナルの固定レイアウト文書を、解析エンジンを用いて解析する。
ステップ304において、固定レイアウト文書の経路基本要素を、解析結果に従って取得する。
ステップ306において、経路基本要素が経路であるか否かを決定する。特に、固定レイアウト文書のデータを解析することによって、基本要素ID、基本要素タイプ等を取得してもよい。したがって、基本要素のタイプを解析することによって、基本要素が経路であるか否かを決定することができる。そうである場合、プロセスは、ステップ308に進み、そうでない場合、プロセスは、ステップ310に進む。
ステップ308において、経路群を取得するために経路を群に分割し、各経路群を、文字のような完全な要素を表現するために用いる。
ステップ310において、プリミティブタイプに従って対応する処理を実行する。
ステップ312において、経路が文字を表現するか否かを決定し、そうである場合、プロセスは、ステップ314に進み、そうでない場合、プロセスは、ステップ316に進む。
ステップ314において、フォントファイルを生成する。
ステップ316において、フォントファイルを正規経路として処理する。
ステップ308について、特に、図4は、本発明の実施の形態による経路基本要素を群に分割するフローチャートを示す。
図4に示すように、本発明の実施の形態による経路基本要素を群に分割するプロセスは、以下のステップを備える。
ステップ402において、経路基本要素データ、すなわち、経路タイプに属する経路基本要素を取得する。
ステップ404において、経路基本要素に対する最小包囲矩形を計算するとともに経路基本要素に対応するエリアとして用いる。
ステップ406において、現在処理されている経路基本要素が開始経路すなわち経路群の最初の経路であるか否かを決定し、そうである場合、プロセスは、ステップ408に進み、そうでない場合、プロセスは、ステップ410に進む。特に、以前の経路群の分類の完了直後に処理すべき経路基本要素を、開始経路として用いる。
ステップ408において、最小包囲矩形の座標を格納し、プロセスは、ステップ402に戻る。
ステップ410において、開始経路の最小包囲矩形と計算した経路の最小包囲矩形との間の距離を、これらの間の関係を決定するために計算する。この場合、計算した経路の最小包囲矩形は、ステップ408で格納された座標データである。
ステップ412において、ステップ410の計算結果に従って、両方が互いに交差するか若しくは両方が互いに交差しないか否か又はこれらの距離が文字間隔未満であるか否かを決定する。これらが互いに交差する又は距離が文字間隔(若しくは他の予め決定された距離)未満である場合、プロセスは、ステップ416に進み、そうでない場合、プロセスは、ステップ414に進む。
ステップ414において、経路基本要素を次の経路群の開始経路として使用し、プロセスは、ステップ408に進む。
ステップ416において、これらの経路は、同一の経路群内にある。
ステップ312について、特に、図5は、本発明の実施の形態による文字を表現するために経路群を用いるか否かを決定するフローチャートを示す。
図5に示すように、本発明の実施の形態による文字を表現するために経路群を用いるか否かを決定するプロセスは、以下のステップを備える。
ステップ502において、経路群を取得する。
ステップ504において、経路群の最小包囲矩形を、経路群に対応するエリアとして計算する。
ステップ506において、対応する文字を、OCR技術を用いて経路群を認識することによって取得する。
ステップ508において、対応するユニコード値を認識した文字に基づいて認識することができるか否かを決定し、そうである場合、プロセスは、ステップ512に進み、そうでない場合、プロセスは、ステップ510に進む。
ステップ510において、経路群を正規経路として処理する。
ステップ512において、経路群を文字として処理する。
ステップ312は、二つ以上の経路群が同一文字を表すか否かを決定することを更に備える。特に、図6は、本発明の実施の形態による二つ以上の経路群が同一文字を表すか否かを決定するフローチャート及びそれに対応する処理方法を示す。
図6に示すように、本発明の実施の形態による二つ以上の経路群が同一文字を表すか否かを決定するフローチャート及びそれに対応する処理方法は、以下のステップを備える。
ステップ602において、文字経路群を取得する。
ステップ604において、経路群によって表された文字のユニコード値を認識し、処理した文字リストの文字のユニコード値を検索し、処理した文字リストを、以前に処理された経路群によって表現される文字のユニコード値を格納するのに用いる。
ステップ606において、検索結果に基づいて、検索している文字のユニコード値が処理された文字リスト内にあるか否かを決定する。そうである場合、プロセスは、ステップ612に進み、そうでない場合、プロセスは、ステップ608に進む。
ステップ608において、現在の経路群によって表現された文字が初めて固定レイアウト文書に生じ、認識したユニコード値を処理した文字リストに追加する。
ステップ610において、フォントファイルをユニコード値及び経路に従って生成し、プロセスは、他の経路群のプロセスを継続するためにステップ602に戻る。
ステップ612において、現在の経路群の座標及び見つけた経路群の座標を取得し、両方の組の座標を変換する。特に、座標を、比較のために原点にシフトしてもよい。
ステップ614において、2組の座標が同一であるか否かを決定し、そうである場合、プロセスは、ステップ616に進み、そうでない場合、プロセスは、ステップ610に進む。
ステップ616において、これらが同一文字であることを表し、文字を、元の経路群に対してユニコード値及びフォント名を置換することによって表現し、その後、プロセスは、他の経路群のプロセスを継続するためにステップ602に戻る。
ステップ314において、特に、図7は、本発明の実施の形態によるフォントファイル生成するフローチャートを示す。
図7に示すように、本発明の実施の形態によるフォントファイル生成するプロセスは、以下のステップを備える。
ステップ702において、ユニコード値及びその経路表現(すなわち、ユニコード値に対応する経路群)を入力する。
ステップ704において、cmapテーブルを、ユニコード値を用いて生成する。
ステップ706において、経路表現をglyfテーブルに格納する。確かに、OpenType(登録商標)フォントファイルによって取得される他の表現テーブルも生成する必要がある。
ステップ708において、対応するOpenType(登録商標)フォントファイルを、生成されたcmapテーブル、glyfテーブル及び他の表現テーブルを用いて生成し、フォントファイルを格納する。
コンピュータにより実行されると、固定レイアウト文書の経路基本要素を取得するために固定レイアウト文書を解析することと、経路群を生成するために経路基本要素を群に分類することと、文字を表現するために用いられる経路群を取得するとともに文字を表現するために用いられる経路群に対応するフォントファイルを生成し、同一文字を表現する二つ以上の経路群が存在する場合、一つのフォントファイルのみを生成するとともに同一文字を表す二つ以上の経路群に関連させることと、変換した文書を、生成した全てのフォントファイルを用いて生成することと、を備える文書フォーマット変換方法を実行するコンピュータ実行可能命令を有する一つ以上のコンピュータ可読媒体も、本開示において提供する。
コンピュータにより実行されると、請求項9に記載の方法を実行するコンピュータ実行可能命令を有する一つ以上のコンピュータ可読媒体も、本開示において提供する。
例示的な動作環境
ここに記載したようなコンピュータ又は演算装置は、一つ以上のプロセッサ若しくは処理ユニット、システムメモリ及びある種のコンピュータ可読媒体を含むハードウェアを備える。例示のためであるが限定しないために、コンピュータ可読媒体は、コンピュータ記憶媒体及び通信媒体を備える。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール又は他のデータのような情報を記憶するために任意の方法又は技術において実現される揮発性媒体、不揮発性媒体、取り外し可能な媒体及び取り外し可能でない媒体を備える。通信媒体は、典型的には、コンピュータ可読命令、データ構造、プログラムモジュール、又は、搬送波若しくは他の輸送機構のような変調データ信号の他のデータを具体化し、あらゆる情報提供媒体を含む。上記の何れかの組合せもコンピュータ記憶媒体の範囲に含まれる。
発明の種々の実施の形態を、一つ以上のコンピュータ又は他の装置において実行されるプログラムモジュールのようなコンピュータ実行可能命令の一般的状況において説明することができる。コンピュータ実行可能命令を、一つ以上のコンピュータ実行可能コンポーネント又はモジュールにソフトウェアとして構造化してもよい。一般的に、プログラムモジュールは、特定のタスクを実行する又は特定の抽象データタイプを実現するルーチン、プログラム、オブジェクト、コンポーネント及びデータ構造を含むがそれに限定されない。発明の態様を、任意の個数及び構造のそのようなコンポーネント又はモジュールとして実現してもよい。例えば、発明の態様は、図示するとともにここで説明した特定のコンピュータ実行可能命令又は特定のコンポーネント若しくはモジュールに限定されない。発明の他の実施の形態は、ここで図示するとともに説明した機能より多い又は少ない機能を有する異なるコンピュータ実行可能命令を含んでもよい。発明の態様を、通信ネットワークを通じてリンクされる遠隔処理装置によってタスクが実行される分散コンピューティング環境で実施することもできる。分散コンピューティング環境において、プログラムモジュールを、記憶装置を含むローカルコンピュータ記憶媒体とリモートコンピュータ記憶媒体の両方に配置してもよい。
本発明の技術的解決を、図面に関連して詳細に説明した。固定レイアウト文書の多量のデータ冗長性の観点から、文書を少量にするために固定レイアウト文書のデータの冗長性の問題を解決することができるとともに種々の端末における更に良好な表示効果を達成するためにリフロープロセスの不正確なレンダリングの問題を解決することができる文書フォーマット変換装置及び方法を、本発明において提供する。
上述したことは、本発明の単なる好適な実施の形態であり、本発明の保護範囲を限定しない。本発明の種々の変更及び変形を当業者によって行うことができる。本発明の範囲及び精神内のあらゆる変更、置換及び改良は、本発明の保護範囲に含まれるべきである。

Claims (17)

  1. 固定レイアウト文書の経路基本要素を取得するために前記固定レイアウト文書を解析する文書解析部と、
    経路群を生成するために前記経路基本要素を群に分類する経路分類部と、
    文字を表現するために用いられる経路群を取得するとともに文字を表現するために用いられる経路群に対応するフォントファイルを生成し、同一文字を表現する二つ以上の経路群が存在する場合、一つのフォントファイルのみを生成するとともに同一文字を表す二つ以上の経路群に関連させるフォントファイル生成部と、
    変換した文書を、生成した全てのフォントファイルを用いて生成する文書生成部と、
    を備えることを特徴とする文書フォーマット変換装置。
  2. 前記経路分類部は、
    各経路基本要素の最小包囲矩形を取得する包囲矩形取得サブユニットと、
    種々の経路基本要素の最小包囲矩形の間の位置関係を検出し、二つの経路基本要素の最小包囲矩形が交差する場合又は前記二つの経路基本要素の最小包囲矩形の間の距離が予め決定された文字間隔より短い場合、前記二つの経路基本要素を同一の経路群に分類する分類処理サブユニットと、
    を備えることを特徴とする請求項1に記載の文書フォーマット変換装置。
  3. 光学文字認識(OCR)技術によって各経路群を認識し、経路群に対応する文字を認識した場合、前記フォントファイル生成部の処理に対して前記文字を表現するために対応する経路群を用いることを決定する表現決定部を更に備えることを特徴とする請求項1に記載の文書フォーマット変換装置。
  4. 文字を表現するために用いられる経路群に対応するユニコード値を認識するユニコード認識部と、
    記述すべき文字を、認識したユニコード値及び対応するフォントファイルを用いて表現する文字表現部と、
    を更に備えることを特徴とする請求項1から3のうちの何れか一項に記載の文書フォーマット変換装置。
  5. フォントファイル生成部は、前記フォントファイルを、前記ユニコード認識部によって認識したユニコード値及び対応する経路群を用いて生成する請求項4に記載の文書フォーマット変換装置。
  6. 前記フォントファイル生成部は、
    前記ユニコード値とフォントインデックスとの間のマッピングが格納される第1テーブルを、ユニコード値を用いて生成する第1テーブル生成サブユニットと、
    前記フォントインデックス及び前記フォントインデックスに対応するフォントデータが格納される第2テーブルを、前記経路群に含まれる経路基本要素を用いて生成する第2テーブル生成サブユニットと、
    前記フォントファイルを、前記第1テーブル及び前記第2テーブルを用いて生成するテーブル処理サブユニットと、
    を備えることを特徴とする請求項5に記載の文書フォーマット変換装置。
  7. 前記ユニコード認識部によって認識されたユニコード値が記録されたか否かを決定する記録状態決定部と、
    前記ユニコード値が記録された場合、同一文字を表す経路群が存在することを決定するとともに記録されたユニコード値及び前記文字表現部によって記述される文字を表現するために生成した対応するフォントファイルを取得し、前記ユニコード値が記録されなかった場合、前記文字表現部によって記述される文字を表現するフォントファイルを生成するデータ取得部と、
    を更に備えることを特徴とする請求項5に記載の文書フォーマット変換装置。
  8. フォントファイルの名称及び前記ユニコードファイルに対応するユニコード値を用いて対応する文字を表現するために前記文字表現部に対するフォントファイルを統括的に記憶するファイル記憶部と、
    特定の経路群の取得したユニコード値が以前に記録された場合、前記特定の経路群の座標を更に取得するとともに前記特定の経路群の座標が記録された経路群の座標と同一であるか否かを決定し、同一である場合、同一の経路群の決定を行うとともに更なる処理を要求せず、そうでない場合、新たな名称を生成し、前記文字表現部が記録されたユニコード値及び前記新たな名称を用いて対応する文字を表現するとともに前記フォントファイル生成部が前記新たな名称を付けたフォントファイルを生成するようにした座標決定部と、
    を更に備えることを特徴とする請求項7に記載の文書フォーマット変換装置。
  9. 固定レイアウト文書の経路基本要素を取得するために前記固定レイアウト文書を解析することと、
    経路群を生成するために前記経路基本要素を群に分類することと、
    文字を表現するために用いられる経路群を取得するとともに文字を表現するために用いられる経路群に対応するフォントファイルを生成し、同一文字を表現する二つ以上の経路群が存在する場合、一つのフォントファイルのみを生成するとともに同一文字を表す二つ以上の経路群に関連させることと、
    変換した文書を、生成した全てのフォントファイルを用いて生成することと、
    を備えることを特徴とする文書フォーマット変換方法。
  10. 前記経路群を生成するために前記経路基本要素を群に分類するプロセスは、
    各経路基本要素の最小包囲矩形を取得することと、
    種々の経路基本要素の最小包囲矩形の間の位置関係を検出し、二つの経路基本要素の最小包囲矩形が交差する場合又は前記二つの経路基本要素の最小包囲矩形の間の距離が予め決定された文字間隔より短い場合、前記二つの経路基本要素を同一の経路群に分類することと、
    を備えることを特徴とする請求項9に記載の文書フォーマット変換方法。
  11. 前記文字を表現するために用いられる経路群を取得するプロセスは、
    光学文字認識(OCR)技術によって各経路群を認識し、経路群に対応する文字を認識した場合、前記文字を表現するために対応する経路群を用いることを決定することを備えることを特徴とする請求項9に記載の文書フォーマット変換方法。
  12. 文字を表すために用いられる経路群に対応するユニコード値を認識することと、
    記述すべき文字を、認識したユニコード値及び対応するフォントファイルを用いて表現することと、
    を更に備えることを特徴とする請求項9から11のうちの何れか一項に記載の文書フォーマット変換方法。
  13. 前記フォントファイルを生成するステップは、前記フォントファイルを、認識したユニコード値及び対応する経路群を用いて生成する請求項12に記載の文書フォーマット変換方法。
  14. 前記フォントファイルを、前記認識したユニコード値及び対応する経路群を用いて生成するステップは、
    前記ユニコード値とフォントインデックスとの間のマッピングが格納される第1テーブルを、ユニコード値を用いて生成することと、
    前記フォントインデックス及び前記フォントインデックスに対応するフォントデータが格納される第2テーブルを、前記経路群に含まれる経路基本要素を用いて生成することと、
    前記フォントファイルを、前記第1テーブル及び前記第2テーブルを用いて生成することと、
    を備えることを特徴とする請求項13に記載の文書フォーマット変換方法。
  15. ユニコード認識部によって認識されたユニコード値が記録されたか否かを決定することと、
    前記ユニコード値が記録された場合、同一文字を表す経路群が存在することを決定するとともに記録されたユニコード値及び記述される文字を表現するために生成した対応するフォントファイルを取得し、前記ユニコード値が記録されなかった場合、記述される文字を表現するフォントファイルを生成することと、
    を更に備えることを特徴とする請求項12に記載の文書フォーマット変換方法。
  16. フォントファイルの名称及び前記ユニコードファイルに対応するユニコード値を用いて対応する文字を表現するためにフォントファイルを統括的に記憶することと、
    特定の経路群の取得したユニコード値が以前に記録された場合、前記特定の経路群の座標を更に取得するとともに前記特定の経路群の座標が記録された経路群の座標と同一であるか否かを決定し、同一である場合、同一の経路群の決定を行うとともに更なる処理を要求せず、そうでない場合、新たな名称を生成し、記録されたユニコード値及び前記新たな名称を用いて対応する文字を表現するとともに前記新たな名称を付けたフォントファイルを生成することと、
    を更に備えることを特徴とする請求項15に記載の文書フォーマット変換方法。
  17. コンピュータにより実行されると、
    固定レイアウト文書の経路基本要素を取得するために前記固定レイアウト文書を解析することと、
    経路群を生成するために前記経路基本要素を群に分類することと、
    文字を表現するために用いられる経路群を取得するとともに文字を表現するために用いられる経路群に対応するフォントファイルを生成し、同一文字を表現する二つ以上の経路群が存在する場合、一つのフォントファイルのみを生成するとともに同一文字を表現する二つ以上の経路群に関連させることと、
    変換した文書を、生成した全てのフォントファイルを用いて生成することと、
    を備える文書フォーマット変換方法を実行するコンピュータ実行可能命令を有する一つ以上のコンピュータ可読媒体。
JP2016528295A 2013-07-22 2013-11-04 文書フォーマット変換装置及び方法 Pending JP2016532190A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201310309016.6A CN104331391B (zh) 2013-07-22 2013-07-22 文档格式转换装置和文档格式转换方法
CN201310309016.6 2013-07-22
PCT/CN2013/086494 WO2015010386A1 (zh) 2013-07-22 2013-11-04 文档格式转换装置和文档格式转换方法

Publications (1)

Publication Number Publication Date
JP2016532190A true JP2016532190A (ja) 2016-10-13

Family

ID=52392652

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016528295A Pending JP2016532190A (ja) 2013-07-22 2013-11-04 文書フォーマット変換装置及び方法

Country Status (5)

Country Link
US (1) US9529781B2 (ja)
EP (1) EP3026571A4 (ja)
JP (1) JP2016532190A (ja)
CN (1) CN104331391B (ja)
WO (1) WO2015010386A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9684986B1 (en) * 2015-02-25 2017-06-20 Amazon Technologies, Inc. Constructing fonts from scanned images for rendering text
CN105404683A (zh) * 2015-11-30 2016-03-16 北大方正集团有限公司 一种版式文档处理方法及装置
CN109614594B (zh) * 2018-11-27 2023-05-30 浙江万朋数智科技股份有限公司 一种将题目文档解析为题库数据的方法
CN113467777A (zh) * 2020-03-30 2021-10-01 阿里巴巴集团控股有限公司 路径识别方法、装置和系统
CN112632915B (zh) * 2020-12-25 2024-10-11 万兴科技(湖南)有限公司 文档转换方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60233781A (ja) * 1984-05-07 1985-11-20 Oki Electric Ind Co Ltd 文字分類方法
JPH07262314A (ja) * 1994-03-18 1995-10-13 Fujitsu Ltd 手書き文字切り出し回路
JP2001282776A (ja) * 2000-03-30 2001-10-12 Canon Inc 文書処理装置、文書処理方法および記憶媒体
JP2002175498A (ja) * 2000-09-29 2002-06-21 Japan Science & Technology Corp 文字認識方法、文字認識プログラム、文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体及び文字認識装置
JP2005157448A (ja) * 2003-11-20 2005-06-16 Canon Inc 画像処理装置及び画像処理方法
JP2007128370A (ja) * 2005-11-04 2007-05-24 Nec Corp 文書管理サーバー、文書管理システム、文書管理方法、文書管理プログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2005101A (en) * 1934-09-26 1935-06-18 Herberts Machinery Co Ltd Lathe
US5412771A (en) * 1992-02-07 1995-05-02 Signature Software, Inc. Generation of interdependent font characters based on ligature and glyph categorizations
CA2125608A1 (en) * 1993-06-30 1994-12-31 George M. Moore Method and system for providing substitute computer fonts
US6741743B2 (en) * 1998-07-31 2004-05-25 Prc. Inc. Imaged document optical correlation and conversion system
US6678410B1 (en) * 1999-02-17 2004-01-13 Adobe Systems Incorporated Generating a glyph
JP2000330546A (ja) * 1999-05-25 2000-11-30 Hitachi Ltd フォント作成装置、およびフォント作成用記憶媒体
JP2001043212A (ja) * 1999-07-23 2001-02-16 Internatl Business Mach Corp <Ibm> 電子文書における文字情報の正規化方法
US7315868B1 (en) * 2001-12-21 2008-01-01 Unisys Corporation XML element to source mapping tree
US20040205568A1 (en) * 2002-03-01 2004-10-14 Breuel Thomas M. Method and system for document image layout deconstruction and redisplay system
US7310769B1 (en) * 2003-03-12 2007-12-18 Adobe Systems Incorporated Text encoding using dummy font
US20050105799A1 (en) * 2003-11-17 2005-05-19 Media Lab Europe Dynamic typography system
JP5129428B2 (ja) * 2003-12-01 2013-01-30 インベンテイオ・アクテイエンゲゼルシヤフト エレベータシステム
US7165216B2 (en) * 2004-01-14 2007-01-16 Xerox Corporation Systems and methods for converting legacy and proprietary documents into extended mark-up language format
US8719701B2 (en) * 2009-01-02 2014-05-06 Apple Inc. Identification of guides and gutters of a document
US8266179B2 (en) * 2009-09-30 2012-09-11 Hewlett-Packard Development Company, L.P. Method and system for processing text
CN102591849B (zh) * 2011-01-07 2014-07-30 北大方正集团有限公司 文档格式转换的方法及装置
CN103186513B (zh) * 2011-12-31 2016-04-27 北大方正集团有限公司 一种文档格式转换的方法及装置
US8768061B2 (en) * 2012-05-02 2014-07-01 Xerox Corporation Post optical character recognition determination of font size
CN102866986A (zh) * 2012-08-30 2013-01-09 中国矿业大学 一种文档格式转换系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60233781A (ja) * 1984-05-07 1985-11-20 Oki Electric Ind Co Ltd 文字分類方法
JPH07262314A (ja) * 1994-03-18 1995-10-13 Fujitsu Ltd 手書き文字切り出し回路
JP2001282776A (ja) * 2000-03-30 2001-10-12 Canon Inc 文書処理装置、文書処理方法および記憶媒体
JP2002175498A (ja) * 2000-09-29 2002-06-21 Japan Science & Technology Corp 文字認識方法、文字認識プログラム、文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体及び文字認識装置
JP2005157448A (ja) * 2003-11-20 2005-06-16 Canon Inc 画像処理装置及び画像処理方法
JP2007128370A (ja) * 2005-11-04 2007-05-24 Nec Corp 文書管理サーバー、文書管理システム、文書管理方法、文書管理プログラム

Also Published As

Publication number Publication date
WO2015010386A1 (zh) 2015-01-29
EP3026571A1 (en) 2016-06-01
EP3026571A4 (en) 2017-04-12
CN104331391A (zh) 2015-02-04
US9529781B2 (en) 2016-12-27
US20150339271A1 (en) 2015-11-26
CN104331391B (zh) 2018-02-02

Similar Documents

Publication Publication Date Title
US7680333B2 (en) System and method for binary persistence format for a recognition result lattice
US8838657B1 (en) Document fingerprints using block encoding of text
CN108108342B (zh) 结构化文本的生成方法、检索方法及装置
JP2016532190A (ja) 文書フォーマット変換装置及び方法
CN110096275B (zh) 一种页面处理方法及装置
RU2406142C2 (ru) Система и способ для сохранения документа в последовательном двоичном формате
CN111240669B (zh) 界面生成方法、装置、电子设备及计算机存储介质
US10664980B2 (en) Vector graphics handling processes for user applications
US20150220236A1 (en) Post-designing method and apparatus based on variant configuration in development of graphic user interface
JP2022088602A (ja) テーブル生成方法、装置、電子機器、記憶媒体及びプログラム
US20200026749A1 (en) Pdf extraction with text-based key
CN104375814A (zh) 接口文档的生成方法及装置
CN109189389A (zh) 数据处理方法和装置、服务器
CN113283231B (zh) 获取签章位的方法、设置系统、签章系统及存储介质
WO2018208412A1 (en) Detection of caption elements in documents
CN110134920A (zh) 绘文字兼容显示方法、装置、终端及计算机可读存储介质
JP2016532897A (ja) 中間文字ライブラリを構築する方法及び装置
CN117033309A (zh) 一种数据转换方法、装置、电子设备及可读存储介质
CN114661904B (zh) 文档处理模型的训练方法、装置、设备、存储介质及程序
CN115481599A (zh) 文档的处理方法、装置、电子设备和存储介质
CN112487774B (zh) 书写表单电子化方法、装置及电子设备
CN114579136A (zh) 代码处理方法、装置、计算机设备和存储介质
CN113822215A (zh) 设备操作指引文件生成方法、装置、电子设备及存储介质
CN112528593A (zh) 文档处理方法、装置、电子设备及存储介质
CN110362790A (zh) 字体文件的处理方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171003

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180619