JP5829330B2 - フォントを識別するための方法および装置 - Google Patents

フォントを識別するための方法および装置 Download PDF

Info

Publication number
JP5829330B2
JP5829330B2 JP2014511731A JP2014511731A JP5829330B2 JP 5829330 B2 JP5829330 B2 JP 5829330B2 JP 2014511731 A JP2014511731 A JP 2014511731A JP 2014511731 A JP2014511731 A JP 2014511731A JP 5829330 B2 JP5829330 B2 JP 5829330B2
Authority
JP
Japan
Prior art keywords
glyph
font
embedded
character
glyphs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014511731A
Other languages
English (en)
Other versions
JP2014522519A (ja
JP2014522519A5 (ja
Inventor
睿 恒 仇
睿 恒 仇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FOUNDER INFORMATION INDUSTRY HOLDINGS Co Ltd
Founder Information Industry Holdings Co Ltd
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Original Assignee
FOUNDER INFORMATION INDUSTRY HOLDINGS Co Ltd
Founder Information Industry Holdings Co Ltd
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FOUNDER INFORMATION INDUSTRY HOLDINGS Co Ltd, Founder Information Industry Holdings Co Ltd, Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical FOUNDER INFORMATION INDUSTRY HOLDINGS Co Ltd
Publication of JP2014522519A publication Critical patent/JP2014522519A/ja
Publication of JP2014522519A5 publication Critical patent/JP2014522519A5/ja
Application granted granted Critical
Publication of JP5829330B2 publication Critical patent/JP5829330B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography

Description

発明の分野
本発明は、テキストデータ処理に関し、より特定的には、フォントを識別するための方法および装置に関する。
発明の背景
異なる処理プラットフォーム上での文書表示の一貫性を確実にするために、フォント埋込が広く用いられている。具体的には、オリジナルフォントに対応するグリフ集合から部分的なグリフが抽出され、これらの抽出されたグリフが統合されて新しいグリフ集合を形成する。このような処理はフォント埋込と称されており、得られた新しいフォント、すなわち新しいグリフ集合に対応するフォントは埋込フォントである。たとえば部分的なグリフは、宋体フォントに対応するグリフ集合から抽出され、これらの抽出されたグリフが統合されて新しいグリフ集合を形成し、これによりフォント埋込処理が達成される。新しいグリフ集合に対応するフォントは埋込フォントである。埋込フォントが埋込フォントAであるとすると、埋込フォントAに対応するオリジナルフォントは宋体フォントである。ここでは埋込フォントAである埋込フォントのグリフ集合は、埋込フォントに対応するオリジナルフォント(宋体フォント)のグリフ集合のサブセットとして考えられ得る。
一般に、グリフ集合のデータサイズを低減するよう、文書中の文字を表示するのに必要とされる部分的なグリフのみが埋込フォントのグリフ集合に含まれる。さらにグリフ集合は、文書中の各文字の文字エンコードまたはインデックスと、対応するグリフとの間のマッピング関係も含んでもよい。文書中のある文字が表示されると、その文字の文字エンコードまたはインデックスに対応するグリフが上記のマッピング関係に従って得られ、次いで当該文字がこの得られたグリフに従って表示される。
しかしながら、既存のフォント埋込技術にはいくつかの欠点がある。
フォント埋込技術は異なるプラットフォーム上での文書表示の一貫性を支援するが、文書において用いられる埋込フォントに対応するオリジナルフォントが容易に識別され得ないので、使用にいくつかの制限が存在する。
たとえば、オリジナルフォントのグリフ集合における部分的なグリフのみが埋込フォントのグリフ集合に含まれるので、ユーザは当該文書を自由に編集することができない。たとえば、ユーザが「和」という単語を文書中に加える必要があるとき、「和」という単語のグリフが埋込フォントのグリフ集合に含まれていなければ、この「和」という単語は表示され得ない。これにより、編集作業の成功が妨げられる。
別の例として、文書を表示する際に埋込フォントのグリフ集合が用いられることになるので、たとえばサーバに格納される文書がクライアントにて表示されることが必要である場合、クライアントは、この文書が用いる埋込フォントのグリフ集合を含むこの文書のすべての構成ファイルをダウンロードする必要がある。しかしながら、埋込フォントのグリフ集合のデータサイズは一般的に大きいので、ネットワーク環境におけるこれらの文書の表示速度は遅い。
発明の概要
本発明の目的は、文書に用いられる埋込フォントに対応するオリジナルフォントがこれまで識別され得なかったフォントを識別するための方法および装置を提供することである。
本発明の一実施例では、文書が用いる埋込フォントが識別される。埋込フォントのグリフ集合における少なくとも1つのグリフが選択される。各選択されたグリフに対応するフォントが識別され、各選択されたグリフに対応するフォントに従って、埋込フォントに対応するオリジナルフォントが識別される。
本発明は、フォントを識別するための装置を考慮する。当該装置は、文書が用いる埋込フォントを識別するための埋込フォント識別部と、埋込フォントのグリフ集合において少なくとも1つのグリフを選択するためのグリフ選択部と、各選択されたグリフに対応するフォントを識別するためのグリフフォント識別部と、各選択されたグリフに対応するフォントに従って、埋込フォントに対応するオリジナルフォントを識別するためのオリジナルフォント識別部とを含む。
本発明では、少なくとも1つのグリフがまず埋込フォントのグリフ集合から選択され、次いで、各選択されたグリフに対応するフォントが識別され、各選択されたグリフに対応するフォントに従って、埋込フォントに対応するオリジナルフォントが識別される。文書において用いられる埋込フォントに対応するオリジナルフォントを識別するソリューションは、本発明により実現され得ることが分かり得る。
本発明の実施例によって提供される方法の概略的なフローチャートである。 本発明の実施例の概略的なフローチャートである。 本発明の実施例によって提供される装置の構造の概略図である。
ある好ましい実施例の詳細な説明
文書において用いられる埋込フォントに対応するオリジナルフォントが識別され得ない問題を解決するために、本発明の実施例は、フォントを識別するための方法を提供する。この方法ではまず、少なくとも1つのグリフが埋込フォントのグリフ集合から選択されるか、または埋込フォントを用いる文字に対応する少なくとも1つのグリフが文書から選択され、次いで、各選択されたグリフに対応するフォントが識別され、埋込フォントに対応するオリジナルフォントが各選択されたグリフに対応するフォントに従って識別される。
図1を参照して、本発明の実施例が提供する、フォントを識別するための方法は以下のステップを含む。
ステップ10:文書が用いる埋込フォントを識別する。
ここで、文書における各文字が用いる埋込フォントは、文書の記述情報を含む電子ファイルのデータに記録され、当該文書中の各文字が用いる埋込フォントは、記述情報に従って、文書が用いる埋込フォントとして識別されてもよい。
ステップ11:識別された埋込フォントのグリフ集合において少なくとも1つのグリフを選択する。
ステップ12:各選択されたグリフに対応するフォントを識別する。
ステップ13:各選択されたグリフに対応するフォントに従って、埋込フォントに対応するオリジナルフォントを識別する。
ステップ11では、埋込フォントのグリフ集合における少なくとも1つのグリフが選択される。具体的には、このステップは、以下の2つのアプローチを用いることにより実現され得る。
第1のアプローチでは、文字エンコードとグリフとの間のマッピング関係が文書情報に含まれている場合、複数の事前に設定された一般的な文字にそれぞれ対応するグリフがマッピング関係に従って識別され、これらの識別されたグリフが埋込フォントのグリフ集合から選択される。
第2のアプローチでは、文書において埋込フォントを用いる各グリフの出現が数えられ、これらのグリフのうち、出現回数のもっとも多い少なくとも1つのグリフが選択される。この方法は、文字エンコードとグリフとの間のマッピング関係が文書情報に含まれない状況に適用可能であるとともに、文字エンコードとグリフとの間のマッピング関係が文書情報に含まれる状況にも適用可能である。
ステップ12では、各選択されたグリフに対応するフォントが識別される。このステップは、以下の2つのアプローチを用いることにより実現されてもよい。
第1のアプローチでは、各選択されたグリフについて、当該グリフに対応する文字エンコードが識別され、このグリフのグリフ特徴値が計算される。文字エンコードとグリフ特徴値とに対応するフォントを求めて、事前に生成されたグリフ特徴表が検索され、発見されたフォントが当該グリフに対応するフォントとして識別される。
第2のアプローチでは、各選択されたグリフについて、このグリフのグリフ特徴値が計算される。当該グリフ特徴値に対応するフォントを求めてグリフ特徴表が検索され、発見されたフォントが当該グリフに対応するフォントとして識別される。
上記の2つのアプローチにおけるグリフ特徴表は、文字エンコードと、フォントと、グリフ特徴値との間のマッピング関係を含む。グリフ特徴表を生成する好ましい方法は以下のとおりである。複数の事前に設定された一般的な文字が選択され、選択された複数の一般的な文字のグリフが、フォントの複数のローカルに格納されたグリフ集合から抽出され、各抽出されたグリフのグリフ特徴値が計算され、抽出されたグリフのマッピング関係がグリフ特徴表に格納される。各マッピング関係は、グリフに対応するフォントと、グリフに対応する文字エンコードと、グリフに対応するグリフ特徴値とを含む。
グリフに対応する文字エンコードを識別する上述した第1のアプローチは、以下の2つのアプローチを用いることにより実現され得る。
第1のアプローチでは、文字エンコードとグリフとの間のマッピング関係が埋込フォントのグリフ集合に含まれる場合、マッピング関係に従って、グリフに対応する文字エンコードが識別される。
第2のアプローチでは、光学文字認識(OCR)技術を用いることにより、グリフに対応する文字エンコードが識別される。
ステップ13では、埋込フォントに対応するオリジナルフォントが、各グリフに対応するフォントに従って識別される。具体的には、このステップは以下の2つの技術を用いることにより実現され得る。
第1の技術では、各グリフに対応するフォントが同じフォントである場合、この同じフォントが、埋込フォントに対応するオリジナルフォントとして識別される。
第2の技術では、ステップ11において選択されたグリフから同じフォントに対応するグリフが識別され、グリフが設定された条件を満たすかどうか判断される。この条件が満たされる場合には上記同じフォントが、埋込フォントに対応するオリジナルフォントとして識別される。例を以下に記載する。
例1:同じフォントに対応するグリフの数が事前に設定されたしきい値を超える場合、同じフォントが、埋込フォントに対応するオリジナルフォントとして識別される。しきい値は0より大きい整数である。
例2:ステップ11において選択されたグリフの合計数に対する同じフォントに対応するグリフの数の割合が事前に設定されたしきい値を超える場合、同じフォントが、埋込フォントに対応するオリジナルフォントとして識別される。このしきい値は0と1との間である。
例3:同じフォントに対応するグリフの重み付けされた値の合計が事前に設定されたしきい値を超える場合、同じフォントが、埋込フォントに対応するオリジナルフォントとして識別される。このしきい値は、0よりも大きい値である。たとえば、同じフォントに対応するグリフの数が60個であって、10個のグリフの重み付けされた値が2であり、他の50個のグリフの重み付けされた値が1である場合、これら60個のグリフの重み付けされた値の合計は70である。しきい値が50であれば、これらの60個のグリフに対応するフォントは、埋込フォントに対応するオリジナルフォントである。
本発明は、上記の方法に限定されないということは明らかである。同じフォントに対応するグリフに従って、埋込フォントに対応するオリジナルフォントを識別することが可能である任意の方法が本発明によって意図される。
好ましくは、埋込フォントに対応するオリジナルフォントを識別した後、ある文字が表示されるべきときに、表示されるべき文字に対応するグリフを求めて、オリジナルフォントに対応するローカルに格納されたグリフ集合が検索され、発見されたグリフを用いて、表示されるべき文字が表示される。
好ましくは本発明では、文字編集などのような文書処理アプリケーションによって用いられる情報は電子文書ファイルに格納されてもよい。この情報は、埋込フォントに対応するオリジナルフォント、識別された文字エンコードなどの情報を含む。
なおこの方法は、クライアント、サーバ、または文書を処理することが可能である他の装置によって実行されてもよい。サーバの場合、当該サーバは、文書ファイルにおいて担持される、埋込フォントに対応する識別されたオリジナルフォントの情報をクライアントに送信し得る。クライアント上においてこの文書を表示する場合、オリジナルフォントに対応するローカルに格納されたグリフ集合において、表示されるべき各文字に対応するグリフを求めて検索が行われる。表示されるべき文字は、発見されたグリフを用いて表示される。
図2のフローチャートに関連して、本発明をさらに以下に詳細に記載する。
文書が用いる各埋込フォントについて、以下のステップが行われる。
ステップ1:文字エンコードとグリフとの間のマッピング関係が埋込フォントのグリフ集合に存在するかどうかチェックを行い、存在すれば、ステップ2へと進み、そうでなければステップ5へと進む。
ステップ2:埋込フォントのグリフ集合から一般的な文字の少なくとも1つのグリフを選択し、各選択されたグリフのグリフ特徴値を計算し、文字エンコードとグリフとの間のマッピング関係に従って、各グリフに対応する文字エンコードを識別する。
ステップ3:各選択されたグリフについて、文字エンコードおよびグリフ特徴表におけるグリフのグリフ特徴値に対応するフォントを求めて検索を行い、発見されたフォントを当該グリフのフォントとして識別する。
ステップ4:各選択されたグリフのフォントに従って、埋込フォントに対応するオリジナルフォントを識別する。そして、このフローは終了する。
具体的には、各選択されたグリフのフォントが同じフォントAに属する場合、埋込フォントのオリジナルフォントは、フォントAとして識別される。
ステップ5:文書における埋込フォントを用いる各グリフの出現回数を数え、出現回数がもっとも多い少なくとも1つのグリフを選択し、ステップ6aまたはステップ6bに進む。
ステップ6a:各選択されたグリフについて、OCR技術を用いてグリフの文字エンコードを識別する。文字エンコードの識別が成功した場合、文字エンコードとグリフ特徴表におけるグリフのグリフ特徴値とに対応するフォントを求めて検索を行うステップ3に進むことにより、グリフのグリフ特徴値を計算する。次いで、ステップ4に進み、発見されたフォントがグリフのフォントとして識別され、次いでステップ7に進む。ステップ3において、対応するフォントが発見されなかった場合、フローチャートはステップ6bに進む。
ステップ6b:各選択されたグリフについて、このグリフのグリフ特徴値を計算する。グリフ特徴表におけるグリフのグリフ特徴値に対応するフォントを求めて検索が行われ、発見されたフォントは、グリフに対応するフォントとして識別される。
ステップ7:各選択されたグリフのフォントに従って、埋込フォントに対応するオリジナルフォントを識別する。そして、このフローが終了する。
同じフォントに対応するグリフの数が事前に設定されたしきい値を超える場合、埋込フォントに対応するオリジナルフォントは同じフォントであると判断され得る。たとえば、20個の一般的なグリフが選択されるとする。少なくとも18個のグリフが同じフォントAに対応する場合、埋込フォントに対応するオリジナルフォントはフォントAであると判断され得る。
グリフ特徴表は、文字エンコードと、オリジナルフォントと、グリフ特徴値との多くのマッピング関係を記録する。ローカルに格納されたフォントの数が限られている(何百の一般的なフォント)とともに、選択されたグリフの数が一般にあまり大きくない場合、一般的な文字についてのグリフ特徴表を構築するコストは許容可能であり、グリフ特徴表をマッチングおよび検索するためのコストは非常に小さい。
1つの実際の適用例では、1つより多いグリフ特徴表が存在してもよい。たとえば、各文字タイプごとに1つのグリフ特徴表が作り出されてもよく、この文字タイプは数字、アルファベット、句読文字、漢字、および他の特殊記号を含む。各グリフ特徴表ごとに、グリフを選択するためのルールが異なってもよい。たとえば、句読点の種類がより少なければ、すべての句読点に対応するグリフのマッピング関係は対応するグリフ特徴表に加えられてもよく、その一方、漢字の場合は、200個のもっとも共通する漢字に対応するグリフのマッピング関係が、対応するグリフ特徴表に加えられてもよい。これらのグリフ特徴表を用いる際に、文字タイプに従って、対応するグリフ特徴表においてフォントを求めて検索が行われ得る。すべてのグリフ特徴表においても、フォントを求めて検索が行われてもよい。
OCR技術における識別率は不正確である場合があると同時に、選択された一般的な文字として選択されたものが実際には一般的な文字ではないということも起こり得る。したがって、対応するフォントがグリフ特徴値に従って発見され得ない状況が存在し得るので、ステップ7においてオリジナルフォントを識別するステップを行う際に、しきい値が適切に低下されてもよい。
文字エンコードとグリフとの間のマッピング関係を有する埋込フォントの場合に、マッピング関係は無視されてもよい。すなわち、ステップ1のクエリが肯定的に応答される場合、すなわちステップ1において文字エンコードとグリフとの間にマッピング関係が存在する場合に、フローはステップ5に進んでもよい。しかしながら、文字エンコードの支援なしでは、効率および精度はいくつかの条件下において影響を受け得る。
本実施例によると、埋込フォントに従ってオリジナルフォントが発見され得、これによりテキスト編集が自由に行なわれ得る。さらに、埋込フォントのデータ送信は省略されてもよい。本実施例は、オリジナルフォントに依存する他の適用例にも適用できる。
実施例1:
埋込フォントAが新宋体フォント(simsun.ttf)から得られ、そのグリフ集合は、文字エンコードとグリフとの間のマッピング関係を含む。グリフデータのMD5値は、グリフのグリフ特徴値として用いられる。200個の一般的な漢字(たとえば「的」、「一」、「是」、「了」など)が選択され、これら200個の文字のグリフが、10個の一般的な中国語フォント(たとえば新宋体(Simsum)、黒体(Bold)、楷体(KaiTi)、華文倣宋(ST Fang Song)、幼円(Young circle)など)のグリフ集合から抽出される。各グリフのグリフ特徴値はそれぞれ計算され、したがって、一般的な漢字のグリフ特徴表が得られる。これは以下に表1として示される。
この例では、「的」、「一」、「是」および「了」の4つの文字に対応するグリフが、埋込フォントAのグリフ集合から選択される。これらの4つの文字は一般的であり、埋込フォントAのグリフ集合に含まれているからである。代替的には、埋込フォントのグリフ集合にのみ含まれていないがグリフ特徴表には含まれている一般的な文字が選択される。
次いで、各選択されたグリフに対応するグリフ特徴値が計算される。たとえば、「是」のグリフ特徴値は、65c8c486368da89dedd430b09127f883として計算される。文字エンコードが「是」であり特徴値が65c8c486368da89dedd430b09127f883であるフォントは、グリフ特徴表を検索することにより新宋体として識別される。
同様に、他の3つのグリフに対応するフォントも新宋体として識別される。
各選択されたグリフに対応するフォントが新宋体であるので、埋込フォントAに対応するオリジナルフォントが新宋体として識別される。
上記の実施例におけるグリフ特徴表は必ずしも表として保存されるわけではない。むしろ、グリフ特徴は、与えられた条件に従って検索および探知が行われ得る限り、ツリーのような他のデータ構造で保存されてもよい。
実施例2:
埋込フォントAは、新宋体フォント(simsun.ttf)から得られ、そのグリフ集合は、文字エンコードとグリフとの間のマッピング関係を含まない。グリフデータのMD5値は、グリフのグリフ特徴値として用いられる。200個の一般的な漢字(たとえば「的」、「一」、「是」、「了」など(「銀」は除く))が選択され、これら200個の文字のグリフが、10個の一般的な中国語フォント(たとえば新宋体、黒体、楷体、華文倣宋、幼円など)のグリフ集合から抽出される。各グリフのグリフ特徴値はそれぞれ計算され、これにより、表1に示されるように一般的な漢字のグリフ特徴表が得られる。
この例では、文書において埋込フォントAを用いる一般的なグリフの出現回数が数えられ、たとえば「的」、「是」、「了」、「銀」、および「一」といったもっとも出現数が多い5つの一般的なグリフが選択される。
「的」のグリフを処理する際に、まずOCR技術を用いて認識が行われ、「的」の文字エンコードを得る。次いで、「的」の文字エンコードおよびグリフ特徴値53d1169058611886e5cf2b2b4dd0627fに従ってグリフ特徴表を検索することにより、「的」のグリフを、新宋体に対応すると識別する。
「是」のグリフを処理する際、OCR技術を用いることにより、この文字は誤って「足」として認識される可能性がある。したがって、対応するフォントがグリフ特徴表において発見されないことになる。しかしながら、「是」のグリフは、「是」のグリフ特徴値65c8c486368da89dedd430b09127f883に従ってグリフ特徴表を直接検索することにより、新宋体に対応すると識別されることになる。
「了」および「一」に関する冗長な説明はここでは省略される。「了」および「一」の両方のグリフは、新宋体に対応すると識別されることになる。
「銀」のグリフを処理する際に、グリフに対応するフォントは、OCR技術およびグリフ特徴値を用いることにより発見され得ない。
したがって、5つのグリフを処理することが完了した後、新宋体に対応する4つのグリフが発見されることとなり、残りの1つのグリフのフォントが識別されない。文書における一般的なグリフの分布と一般的な文字の分布との間にはいくつかの差異が存在し得ることを考慮して、5番目の文字のフォントが明確に識別されなくても、埋込フォントAのオリジナルフォントは新宋体であると最終的に判断される。
本発明では、埋込フォントに対応する識別されたオリジナルフォントの情報は、その後のアプリケーションでの使用のために文書の記述情報に書き戻されてもよい。たとえば、ある文字が表示される必要がある際に、その文字のグリフが埋込フォントのグリフ集合に含まれない場合、埋込フォントに対応するオリジナルフォントのグリフ集合において当該文字のグリフを求めて検索が行われ得、次いで、当該グリフに従ってテキスト表示が行われる。
同様に本発明では、識別された文字エンコードも、テキスト編集などのアプリケーションのために文書の構成ファイルに書き戻されてもよい。たとえば、ある文字が編集される必要がある場合、対応するグリフが、文字の保存された文字エンコードに従って直接的に発見され得、次いで当該グリフに従ってテキスト編集が行われる。その文字の文字エンコードを一時的に識別する必要はない。そのため、表示速度が向上される。
本発明では、計算を行うために、メッセージダイジェストアルゴリズム(Message Digest Algorithm(MD5))が用いられてもよく、実際の適用例では、セキュアハッシュアルゴリズム(Secure Hash Algorithm(SHA−1))または他のダイジェスト計算方法が用いられてもよい。この計算を行うために、画像処理における輪郭特徴抽出または他の技術も用いられてもよい。
図3を参照して、フォントを識別するための装置が示される。この装置は、文書が用いる埋込フォントを識別するための埋込フォント識別部30と、埋込フォントのグリフ集合において少なくとも1つのグリフを選択するか、または当該文書において埋込フォントを用いる文字に対応する少なくとも1つのグリフを選択するためのグリフ選択部31と、各選択されたグリフに対応するフォントを識別するためのグリフフォント識別部32と、各選択されたグリフに対応する識別されたフォントに従って、埋込フォントに対応するオリジナルフォントを識別するためのオリジナルフォント識別部33とを含む。
文字エンコードとグリフとの間のマッピング関係が文書中に含まれている場合は、グリフ選択部31は、マッピング関係に従って、複数の事前に設定された一般的な文字にそれぞれ対応するグリフを識別するよう用いられ、これらの識別されたグリフは埋込フォントのグリフ集合から選択される。代替的には、グリフ選択部31は、文書において、埋込フォントを用いる各グリフの出現回数を数えるよう用いられ、これらのグリフの中でもっとも出現回数が多い少なくとも1つのグリフが選択される。
グリフフォント識別部32は、各選択されたグリフについて、グリフに対応する文字エンコードを識別するよう用いられる。このグリフのグリフ特徴値が計算され、文字エンコードおよびグリフ特徴値に対応するフォントを求めて、事前に生成されたグリフ特徴表が検索される。発見されたフォントは、当該グリフに対応するフォントとして識別される。代替的には、グリフフォント識別部32は、各選択されたグリフについて、グリフ特徴値を計算するよう用いられる。計算されたグリフ特徴値に対応するフォントを求めてグリフ特徴表が検索され、発見されたフォントが当該グリフに対応するフォントとして識別される。グリフ特徴表は、文字エンコードと、フォントと、グリフ特徴値との間のマッピング関係を含む。
文字エンコードとグリフとの間のマッピング関係がグリフ集合に含まれる場合、グリフフォント識別部32は、マッピング関係に従って、グリフに対応する文字エンコードを識別するよう用いられる。代替的には、グリフフォント識別部32は、OCR技術を用いることにより、グリフに対応する文字エンコードを識別するよう用いられる。
各グリフに対応するフォントが同じフォントである場合、オリジナルフォント識別部33は、この同じフォントを埋込フォントに対応するオリジナルフォントとして識別するよう用いられる。代替的には、オリジナルフォント識別部33は、同じフォントに対応するグリフを識別するよう用いられるとともに、これらのグリフが設定された条件を満たすかどうかを判断する。その条件が満たされる場合、埋込フォントに対応するオリジナルフォントとして、同じフォントが識別される。
図3に示される装置はさらに、表示部34を含む。埋込フォントに対応するオリジナルフォントが識別された後、ある文字が表示される必要である場合、表示部34は、オリジナルフォントに対応するローカルに格納されたグリフ集合において、表示されるべき文字に対応するグリフを求めて検索を行う。次いで、当該文字が、発見されたグリフを用いて表示される。
要約すると、本発明の有益な効果は以下を含む。
本発明の実施例では、まず少なくとも1つのグリフが、文書において用いられる埋込フォントのグリフ集合から選択される。次いで、各選択されたグリフに対応するフォントに従って、埋込フォントに対応するフォントが判断される。文書において用いられる埋込フォントに対応するオリジナルフォントを識別することが本発明によって実現され得るので、文書において用いられる埋込フォントに対応するオリジナルフォントが識別され得ないという問題が解決されるということが分かり得る。
埋込フォントに対応するオリジナルフォントが特定された後、ある文字が表示される必要がある場合、表示されるべき文字に対応するグリフを求めて、オリジナルフォントに対応するローカルに格納されたグリフ集合が検索され、表示されるべき文字が、発見されたグリフを用いて表示される。これにより、文書において用いられる埋込フォントに対応するオリジナルフォントが識別されないことによる問題が克服される。たとえば、ユーザが文書にある文字を加える必要がある際に、加えられるべき文字のグリフがこの文書が用いる埋込フォントのグリフ集合に含まれていない場合、加えられるべき文字のグリフを求めて、埋込フォントに対応するオリジナルフォントのローカルに格納されたグリフ集合が検索され得る。次いで、そのグリフに従って、テキストが表示されるので、編集が不成功となる問題が回避される。別の例として、サーバに格納される文書がクライアント装置上に表示される必要がある場合、当該クライアントは、文書が用いる埋込フォントに対応するオリジナルフォントのローカルに格納されたグリフ集合を得てもよいが、文書が用いる埋込フォントのグリフ集合をダウンロードする必要はない。結果として、ネットワーク環境における文書の表示速度が向上される。
本発明は、方法、装置(システム)、ならびに本発明の実施例に従ったコンピュータプログラムプロダクトのフローチャートおよび/またはブロック図を参照して記載された。フローチャートおよび/またはブロック図の各フロー要素および/またはブロック、ならびにフロー要素および/またはブロックの組合せは、コンピュータプログラムの命令によって実現されてもよいということが理解されるべきである。コンピュータプログラムのこれらの命令は、汎用コンピュータ、専用コンピュータ、埋込みプロセッサ、またはプログラム可能なデータ処理装置の他のプロセッサに与えられて、コンピュータまたはプログラム可能なデータ処理装置の他のプロセッサによって実行される命令が、本願明細書においてフローチャートにおける1つ以上のステップおよび/またはブロック図における1つ以上のブロックによって指定される機能を実現するよう用いられる装置を作り出すようにマシンを作り出してもよい。
コンピュータプログラムのこれらの命令は、特定の態様で機能するようコンピュータまたは他のプログラム可能なデータ処理装置に命令し得る一時的でないコンピュータ可読メモリに格納されてもよく、そのため、コンピュータ可読メモリに格納される命令が命令装置を含むプロダクトを作り出す。この命令装置は、本願明細書においてフローチャートにおける1つ以上のステップおよび/またはブロック図における1つ以上のブロックによって指定される機能を実現する。
コンピュータプログラムのこれらの命令はさらに、一連の動作プロシージャがコンピュータまたは他のプログラム可能なデータ処理装置上で実行されて、コンピュータによって実現される処理を作り出すように、コンピュータまたは他のプログラム可能なデータ処理装置にロードされてもよい。これにより、コンピュータまたは他のプログラム可能なデータ処理装置上で実行される命令は、本願明細書においてフローチャートにおける1つ以上のステップおよび/またはブロック図における1つ以上のブロックによって指定される機能を実現するよう用いられるプロシージャを提供する。
本発明の好ましい実施例を記載してきたが、当業者であれば、本願明細書における基本的な発明概念を理解すれば、付加的な変形例および修正例がこれらの実施例に対してなされることが可能である。したがって、添付の特許請求の範囲は、好ましい実施例ならびにすべての変形例および修正例を本発明の範囲内に含むよう解釈されることが意図される。
当業者によって、本発明の精神および範囲から逸脱することなく、さまざまな修正例および変形例がなされ得るということは明らかである。したがって、本発明のこれらの修正例および変形例は、特許請求の範囲およびそれらの均等物の範囲内となり、本発明はこのような修正例および変形例を包含するということが意図される。

Claims (8)

  1. ォントを識別するための方法であって、
    における各文字が用いる埋込フォントを、文書の記述情報に従って、文書が用いる埋込フォントとして識別するステップを含み、前記文書における各文字が用いる前記埋込フォントは、前記文書の前記記述情報に記録され、さらに、
    前記埋込フォントのグリフ集合において少なくとも1つのグリフを選択するステップと、
    各選択されたグリフに対応するフォントを識別するステップと、
    各選択されたグリフに対応する前記フォントに従って、前記埋込フォントに対応するオリジナルフォントを識別するステップとを含み、
    前記各選択されたグリフに対応するフォントを識別するステップは、
    各選択されたグリフについて、前記グリフに対応する文字エンコードを識別し、前記グリフのグリフ特徴値を計算し、前記文字エンコードと事前に生成されたグリフ特徴表における前記グリフ特徴値とに対応するフォントを求めて検索を行い、前記グリフに対応するフォントとして、前記グリフ特徴表において発見された前記フォントを識別するステップを含むか、または、
    各選択されたグリフについて、前記選択されたグリフのグリフ特徴値を計算し、グリフ特徴表における前記グリフ特徴値に対応するフォントを求めて検索を行い、前記グリフに対応するフォントとして、前記グリフ特徴表において発見された前記フォントを識別するステップを含み、
    前記グリフ特徴表は、文字エンコードと、フォントと、グリフ特徴値との間のマッピング関係を含み、
    各選択されたグリフに対応するフォントに従って前記埋込フォントに対応するオリジナルフォントを識別するステップは、
    各グリフに対応するフォントが同じフォントである場合、前記同じフォントを、前記埋込フォントに対応する前記オリジナルフォントとして識別するステップを含むか、または
    同じフォントに対応するグリフを識別し、前記グリフが設定された条件を満たすかどうか判断し、かつ前記設定された条件が満たされる場合には前記同じフォントを前記埋込フォントに対応する前記オリジナルフォントとして識別するステップを含む、方法。
  2. 前記埋込フォントのグリフ集合において少なくとも1つのグリフを選択するステップは、
    記文書における文字エンコードとグリフとの間のマッピング関係に従って、複数の事前に設定された一般的な文字にそれぞれ対応するグリフを識別し、前記埋込フォントの前記グリフ集合から、識別された前記グリフを選択するステップを含むか、または
    記文書において前記埋込フォントを用いる各グリフの出現回数を数え、前記グリフのうちもっとも出現回数が多かった少なくとも1つのグリフを選択するステップを含む、請求項1に記載の方法。
  3. 前記グリフに対応する文字エンコードを識別するステップは、
    字エンコードとグリフとの間のマッピング関係が前記埋込フォントの前記グリフ集合に含まれる場合、前記マッピング関係に従って、前記グリフに対応する前記文字エンコードを識別するステップを含むか、または
    学文字認識(OCR)技術を用いることにより、前記グリフに対応する前記文字エンコードを識別するステップを含む、請求項に記載の方法。
  4. 前記方法はさらに、ある文字が表示されるべきときに、前記埋込フォントに対応するオリジナルフォントが識別された後、
    表示されるべき前記文字に対応するグリフを求めて、前記オリジナルフォントに対応するローカルに格納されたグリフ集合を検索し、前記検索により発見された前記グリフを用いて前記文字を表示するステップを含む、請求項1から請求項3のいずれか1項に記載の方法。
  5. フォントを識別するための装置であって、
    における各文字が用いる埋込フォントを、文書の記述情報に従って、文書が用いる埋込フォントとして識別するよう構成される埋込フォント識別部を含み、前記文書における各文字が用いる前記埋込フォントは、前記文書の前記記述情報に記録され、さらに、
    前記埋込フォントのグリフ集合において少なくとも1つのグリフを選択するか、または前記文書において埋込フォントを用いる文字に対応する少なくとも1つのグリフを選択するよう構成されるグリフ選択部と、
    各選択されたグリフに対応するフォントを識別するよう構成されるグリフフォント識別部と、
    各選択されたグリフに対応する前記フォントに従って、前記埋込フォントに対応するオリジナルフォントを識別するよう構成されるオリジナルフォント識別部とを含み、
    前記グリフフォント識別部は、
    各選択されたグリフについて、前記グリフに対応する文字エンコードを識別し、前記グリフのグリフ特徴値を計算し、前記文字エンコードと事前に生成されたグリフ特徴表における前記グリフ特徴値とに対応するフォントを求めて検索を行い、前記グリフに対応するフォントとして、前記グリフ特徴表において発見された前記フォントを識別するために用いられるか、または、
    各選択されたグリフについて、前記選択されたグリフのグリフ特徴値を計算し、グリフ特徴表における前記グリフ特徴値に対応するフォントを求めて検索を行い、前記グリフに対応するフォントとして、前記グリフ特徴表において発見された前記フォントを識別するために用いられ、
    前記グリフ特徴表は、文字エンコードと、フォントと、グリフ特徴値との間のマッピング関係を含み
    前記オリジナルフォント識別部は、
    各グリフに対応するフォントが同じフォントである場合、前記同じフォントを、前記埋込フォントに対応する前記オリジナルフォントとして識別するために用いられるか、または
    同じフォントに対応するグリフを識別し、前記グリフが設定された条件を満たすかどうか判断し、かつ前記設定された条件が満たされる場合には前記同じフォントを前記埋込フォントに対応する前記オリジナルフォントとして識別するために用いられる、装置
  6. 前記グリフ選択部は、
    記文書における文字エンコードとグリフとの間のマッピング関係に従って、複数の事前に設定された一般的な文字にそれぞれ対応するグリフを識別し、前記埋込フォントの前記グリフ集合から、識別された前記グリフを選択するために用いられるか、または
    記文書において前記埋込フォントを用いる各グリフの出現回数を数え、前記グリフのうちもっとも出現回数が多かった少なくとも1つのグリフを選択するために用いられる、請求項に記載の装置。
  7. 前記グリフフォント識別部は、
    字エンコードとグリフとの間の前記マッピング関係が前記埋込フォントの前記グリフ集合に含まれる場合、前記マッピング関係に従って、前記グリフに対応する前記文字エンコードを識別するために用いられるか、または
    学文字認識(OCR)技術を用いることにより、前記グリフに対応する前記文字エンコードを識別するために用いられる、請求項に記載の装置。
  8. 前記埋込フォントに対応する前記オリジナルフォントが識別された後、表示されるべき文字に対応するグリフを求めて、前記オリジナルフォントに対応するローカルに格納されたグリフ集合を検索し、前記ローカルに格納されたグリフ集合において発見された前記グリフを用いて前記文字を表示するために動作する表示部をさらに含む、請求項5から請求項7のいずれか1項に記載の装置。
JP2014511731A 2011-12-01 2012-12-03 フォントを識別するための方法および装置 Active JP5829330B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201110393936.1A CN103136166B (zh) 2011-12-01 2011-12-01 字体确定方法和设备
CN201110393936.1 2011-12-01
PCT/CN2012/085773 WO2013079038A1 (zh) 2011-12-01 2012-12-03 字体确定方法和设备

Publications (3)

Publication Number Publication Date
JP2014522519A JP2014522519A (ja) 2014-09-04
JP2014522519A5 JP2014522519A5 (ja) 2015-06-18
JP5829330B2 true JP5829330B2 (ja) 2015-12-09

Family

ID=48496008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014511731A Active JP5829330B2 (ja) 2011-12-01 2012-12-03 フォントを識別するための方法および装置

Country Status (5)

Country Link
EP (1) EP2787448A4 (ja)
JP (1) JP5829330B2 (ja)
KR (1) KR20140031269A (ja)
CN (1) CN103136166B (ja)
WO (1) WO2013079038A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488471B (zh) * 2015-11-30 2019-03-29 北大方正集团有限公司 一种字形识别方法及装置
CN105975448A (zh) * 2016-05-04 2016-09-28 北京华熙动博网络科技有限公司 一种字体加载方法及装置
CN107943760B (zh) * 2017-11-22 2021-09-21 万兴科技股份有限公司 Pdf文档编辑的字体优化方法、装置、终端设备和存储介质
CN109656821B (zh) * 2018-12-11 2022-06-07 万兴科技股份有限公司 测试方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003223161A (ja) * 2002-01-30 2003-08-08 Canon Inc 情報処理システム、方法及び装置、プログラム並びに記憶媒体
KR100661173B1 (ko) * 2005-10-18 2006-12-26 삼성전자주식회사 다이렉트 프린팅 기능을 갖는 프린터 및 그 인쇄방법
CN101008940B (zh) * 2006-01-27 2012-08-01 北京书生国际信息技术有限公司 自动处理字体缺失的方法与装置
US8194280B2 (en) * 2007-01-31 2012-06-05 Konica Minolta Laboratory U.S.A., Inc. Direct printing of a desired or multiple appearances of object in a document file
CN101782896B (zh) * 2009-01-21 2011-11-30 汉王科技股份有限公司 结合ocr技术的pdf文字提取方法
CN102063415B (zh) * 2009-11-16 2012-07-25 北大方正集团有限公司 向pdf文件内嵌单字节字体的方法及其系统
US8494287B2 (en) * 2010-02-02 2013-07-23 Oracle International Corporation Character identification through glyph data matching
US20110276872A1 (en) * 2010-05-06 2011-11-10 Xerox Corporation Dynamic font replacement
CN102567431B (zh) * 2010-12-31 2014-04-02 北大方正集团有限公司 文档处理方法及装置

Also Published As

Publication number Publication date
CN103136166A (zh) 2013-06-05
WO2013079038A1 (zh) 2013-06-06
KR20140031269A (ko) 2014-03-12
JP2014522519A (ja) 2014-09-04
EP2787448A4 (en) 2016-03-16
EP2787448A1 (en) 2014-10-08
CN103136166B (zh) 2015-06-17

Similar Documents

Publication Publication Date Title
KR102230661B1 (ko) Sql 검토 방법, 장치, 서버 및 저장 매체
JP5117685B2 (ja) 情報を意味的にズームするためのシステム及び方法
JP5829330B2 (ja) フォントを識別するための方法および装置
JP6419969B2 (ja) 画像の提示情報を提供するための方法及び機器
US20130322759A1 (en) Method and device for identifying font
JP2021077426A (ja) 表示制御装置、表示制御方法及び表示制御プログラム
CN104346616B (zh) 字符识别装置和字符识别方法
WO2011074942A1 (en) System and method of converting data from a multiple table structure into an edoc format
KR20190090636A (ko) 문서 자동 편집 방법
JP2013054606A (ja) 文書検索装置及び方法及びプログラム
JP2019101889A (ja) テスト実行装置及びプログラム
CN109740125B (zh) 用于文件比较的更新查找方法、装置、存储介质和设备
JP2011100208A (ja) 行動推定装置、行動推定方法および行動推定プログラム
JP2014522519A5 (ja)
US20130332824A1 (en) Embedded font processing method and device
US20190114372A1 (en) System and method for determining contact names that may identify the same person
JP5408658B2 (ja) 情報整合性判別装置、その方法及びプログラム
CN104298786A (zh) 一种图像检索方法及装置
JP2009265770A (ja) 重要文提示システム
CN113987106A (zh) 电子书书签添加方法、电子设备及存储介质
CN114238689A (zh) 视频生成方法、装置、电子设备、存储介质和程序产品
CN110263303B (zh) 文本修改历史的追溯方法及装置
JP2017091024A (ja) 入力支援装置
JP2009271671A (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP2009230452A (ja) 属性情報入力支援装置及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150203

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20150427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150929

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151021

R150 Certificate of patent or registration of utility model

Ref document number: 5829330

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350