JP2018120338A - 情報処理装置及び情報処理プログラム - Google Patents
情報処理装置及び情報処理プログラム Download PDFInfo
- Publication number
- JP2018120338A JP2018120338A JP2017010307A JP2017010307A JP2018120338A JP 2018120338 A JP2018120338 A JP 2018120338A JP 2017010307 A JP2017010307 A JP 2017010307A JP 2017010307 A JP2017010307 A JP 2017010307A JP 2018120338 A JP2018120338 A JP 2018120338A
- Authority
- JP
- Japan
- Prior art keywords
- typeface
- column
- character
- document
- taste
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/244—Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
- G06V30/245—Font recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Document Processing Apparatus (AREA)
- Controls And Circuits For Display Device (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
そこで、本発明は、文字の書体を選択する場合に、文字の形状の特徴から抽出した印象を用いて書体を選択するようにした情報処理装置を提供することを目的としている。
請求項1の発明は、文字の形状の特徴と印象を対応させて記憶している記憶手段から抽出した文字の形状の特徴に対応する印象と最も類似する印象を有する書体を少なくとも1つ以上選択する選択手段を有する情報処理装置である。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するという意味である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態にしたがって、又はそれまでの状況・状態にしたがって定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
既に作成されている文書である第1の文書と同じ印象(デザインテイスト、テイストともいわれる)を受けるように、第2の文書を作成する場合がある。例えば、第1の文書が第1の言語(例えば、英語等)で作成された文書であり、第2の文書が第1の文書を他の言語(例えば、日本語等)に翻訳した文書である場合、第2の文書は第1の文書の続きである場合等がある。これらの例に限定されることなく、2つの文書の印象を同じ印象を受けるようにしたい場合であればよい。特に、文書として販促物(チラシ、ビラ、パンフレット、ポスター、カタログ、リーフレット、ブックレット、ダイレクトメール(DM)、カレンダー、カード、名刺、WEBページ、レポート、プレゼンスライド等)等がある。
その場合、文書の構成要素である文字による印象を考慮する必要がある。文字から受ける印象も文書全体の印象に寄与するからである。文字の印象を考慮した書体の選択は困難である。例えば、電子文書が残されておらず、印刷後の紙の第1の文書で用いられている書体が不明となっている場合、第2の文書を作成する環境では第1の文書で用いられている書体を用いることができない場合、前述の翻訳のように、そもそも文字体系が異なるために第1の文書で用いられている書体と対応する書体を用いることができない場合等が該当する。
なお、印象は、後述するように、書体形状特徴感性DB115に記憶されている書体形状特徴感性テーブル400によって定義されている。例えば、プリティ、カジュアル、ダイナミック、エレガント、クラシック、ダンディ、シック、クリア等がある。また、同じ印象か否かについては、後述するように、テイストプロフィール比較モジュール130によって、テイスト判定モジュール120によって抽出された値と書体の各項目における値との距離を用いて判断する。
文字の印象は、複数の項目によって構成されている。「項目」は、印象を構成するものである。例えば、プリティ、カジュアル、ダイナミック、エレガント、クラシック、ダンディ、シック、クリア等がある。印象は、これらの複数の項目の値(強度を示す値)によって構成されている。
さらに、受付モジュール105は、ユーザー190の操作によって、第2の文書を受け付けるようにしてもよい。情報処理装置100は、その第2の文書内の文字を、第1の文書内の文字の印象と同じような印象となるように変更する。なお、第2の文書が第1の文書の翻訳である場合は、翻訳先の言語を受け付けるようにしてもよい。
第1の文書が画像である場合は、文字形状分析モジュール110は、その画像内の文字を対象として、その文字の形状の特徴を抽出する。例えば、既存の技術を用いて、画像内から文字を抽出する。そして、その文字の形状の特徴を抽出する。例えば、文字のエッジ検出を行い、そのエッジをベクトル変換して、形状の特徴を抽出してもよい。また、文字認識を行った後、予め定められた形状の特徴を有する書体の文字画像を複数生成し、第1の文書内の文字と同じ文字サイズに調整した後に、パターンマッチング等の技術を用いて、第1の文書内の文字と生成した文字画像との差異を算出して、差異が少ない書体の文字画像の特徴を、第1の文書内の文字の特徴とする等がある。なお、小文字であるか否かについては、文字認識を用いればよい。そして、文字認識の結果、第1の文書で用いられている言語を特定するようにしてもよい。
第1の文書が電子文書である場合は、文字形状分析モジュール110は、その電子文書内の文字を対象として、その文字の形状の特徴を抽出する。例えば、その第1の文書内の文字のプロパティ(属性)から書体を抽出することである。書体が特定できれば、その特徴から書体感性テーブル500を用いて、各項目における値を抽出することができるからである。なお、書体と形状の特徴を対応させたテーブルを予め用意し、特定した書体から形状の特徴をそのテーブルから抽出し、この後、第1の文書が画像である場合と同様の処理ができるようにしてもよい。そして、第1の文書内のテキストから、第1の文書で用いられている言語を特定するようにしてもよい。
また、テイスト判定モジュール120は、特徴に対応する各項目における値を、特徴と印象の各項目における値とを対応させた表から抽出するようにしてもよい。具体的には、「特徴と印象の各項目における値とを対応させた表」として、書体形状特徴感性DB115に記憶されている書体形状特徴感性テーブル400を用いる。例えば、文字の形状の特徴が「セリフあり」である場合は、書体形状特徴感性テーブル400のプリティ欄415〜クリア欄450内の値が、「項目における値」に該当する。つまり、テイスト判定モジュール120は、文字の形状の特徴に対応しているテイスト得点を計算し、テイストプロフィールを作成する。テイストプロフィールを図示したものについては、図7、図8の例を用いて後述する。
また、書体感性テーブル500として、見出し用、本文用等のように、文書の構成要素毎に用意しておいてもよい。同じ書体であっても、見出しに用いられるか、本文に用いられるか等によって、印象が異なる場合があるからである。
また、テイストプロフィール比較モジュール130は、第1の文書から文字を抽出してもよい。この文字は、結果表示モジュール135によって翻訳対象として利用される。詳細な処理については、具体的処理例(3)を用いて詳述する。
また、第1の文書には、複数の書体による文字が含まれている場合、テイストプロフィール比較モジュール130は、第1の文書内の書体毎に、第2の文書に用いる書体を選択するようにしてもよい。詳細な処理については、具体的処理例(4)を用いて詳述する。
また、結果表示モジュール135は、テイストプロフィール比較モジュール130によって選択された書体の文字を用いて第2の文書を生成するようにしてもよい。例えば、結果表示モジュール135は、第1の文書内の文字(文章)を翻訳し、テイストプロフィール比較モジュール130によって選択された書体による翻訳後の文字によって、第2の文書を生成する。具体的には、翻訳用の書体(テイストプロフィール比較モジュール130によって選択された書体)を利用して、第1の文書内の文字内容を替えることを行う。そして、第2の文書を出力する。ここで文書を出力するとは、例えば、プリンタ等の印刷装置で印刷すること、ディスプレイ等の表示装置に表示すること、ファックス等の画像送信装置で文書を送信すること、文書データベース等の記憶装置へ文書を書き込むこと、メモリーカード等の記憶媒体に記憶すること、他の情報処理装置へ渡すこと等が含まれる。
情報処理装置200は、受付モジュール105、文字形状分析モジュール110、書体形状特徴感性DB115、テイスト判定モジュール120、書体感性DB125、テイストプロフィール比較モジュール130、結果表示モジュール135、テイスト調整モジュール240を有している。図1の例に示した情報処理装置100にテイスト調整モジュール240を付加したものである。図1の例に示した情報処理装置100と同種の部位には同一符号を付し重複した説明を省略する。
テイスト判定モジュール120は、文字形状分析モジュール110、書体形状特徴感性DB115、テイストプロフィール比較モジュール130、テイスト調整モジュール240と接続されている。
テイスト調整モジュール240は、テイスト判定モジュール120と接続されている。テイスト調整モジュール240は、ユーザー190の操作にしたがって、テイスト判定モジュール120によって抽出された値を調整する。例えば、テイスト調整モジュール240は、テイスト判定モジュール120が判定したテイストプロフィールの上に、ユーザー190がテイストの強さを調整するようにしてもよい。具体的には、図7、図8の例で示されるテイストプロフィール上の項目の値を上下させる調整を行う。
テイストプロフィール比較モジュール130は、テイスト調整モジュール240によって調整された値と書体の各項目における値との距離にしたがって、書体を選択する。詳細な処理については、具体的処理例(2)を用いて後述する。
図3(a)に示す例は、スタンドアロンとして構成した場合の例である。
画像処理装置300は、情報処理装置100(情報処理装置200)を有している。画像処理装置300は、複写機、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)等であって、例えば、第1の文書を画像処理装置300のスキャナによって読み込み、情報処理装置100の処理結果である第2の文書を画像処理装置300のプリンタによって印刷する。
例えば、第1の文書が画像である場合、第1の文書を画像処理装置320のスキャナによって読み込み、情報処理装置100に送信し、処理結果である第2の文書を画像処理装置320のプリンタによって印刷する、又は、ユーザー端末310で受け取る。また、第1の文書が電子文書である場合、第1の文書をユーザー端末310から情報処理装置100に送信し、処理結果である第2の文書をユーザー端末310で受け取る、又は、画像処理装置320のプリンタによって印刷する。また、ユーザー端末310、画像処理装置320で、第2の文書を出力するにあたり、フォントデータが不足している場合は、フォント管理装置330からダウンロードしてもよい。
ステップS602では、受付モジュール105は、ユーザーが作成した販促物(第1の文書)の画像を入力する。
ステップS604では、文字形状分析モジュール110は、文字内容に対応した言語(第1の文書内の文字の言語)を認識する。
ステップS606では、文字形状分析モジュール110は、文字の形状特徴を認識する。
ステップS608では、テイスト判定モジュール120は、形状特徴に対応したテイストスコアを抽出する。具体的には、書体形状特徴感性テーブル400を用いて、形状特徴から各テイストの値を抽出する。
ステップS610では、テイスト判定モジュール120は、形状特徴に対応した各テイストの得点を算出する。具体的には、複数の形状特徴での各テイストの値を、テイスト毎に加算する。
ステップS616では、テイストプロフィール比較モジュール130は、指定した言語の書体に対応したテイストプロフィールと判定したテイストプロフィールの差を計算する。図7の例で示したように、実線と点線の差(距離)を計算する。もちろんのことながら、比較対象とする書体は複数となる。例えば、図8は、比較対象とする書体が2つである場合のテイストプロフィールを図示したものである。図8内の実線は元言語(ステップS604で認識された言語)の書体、点線は指定した言語(ステップS614で指定された言語)の書体A、一点鎖線は指定した言語(ステップS614で指定された言語)の書体Bを示している。
ステップS616での計算は、例えば、式(1)を用いる。
ステップS620では、結果表示モジュール135は、デザイン結果である第2の文書を合成・表示する。
<具体的処理例(1)>
英語版の販促物(紙文書、チラシ)を書体感性DB125に記憶されている欧文書体を使って電子文書として再作成する場合の例である。つまり、第1の文書が欧文文字であり、第2の文書も欧文文書である場合である。
図9は、本実施の形態による具体的処理例(1)を示す説明図である。情報処理装置100は、対象画像910を対象画像として入力し、再作成した結果として処理結果画像990を出力する例を示している。具体的には、英語版のチラシをスキャンして情報処理装置100に入力し、テイストが一致している英語版のチラシを再作成する。
文字形状分析モジュール110は、対象画像910から見出し領域1120を抽出する(図11(a)、(b)の例参照)。そして、各文字について、形状の特徴を抽出する。例えば、図11(c)の例に示すように、文字「P」から「セリフなし」、文字「t」から「シャープアペクスなし」、文字「c」から「対称型」の特徴を抽出する。
具体的には、抽出した特徴の感性スコアにより、対象画像910の文字内容の感性得点を計算する。式(2)を用いて、プリティ(1つ目の項目)の感性得点を計算する。いわゆる平均値である。
ここでは、欧文書体に関するテイスト得点(感性スコア)として、見出しに関する6つの書体を書体感性DB125から抽出した結果である。
具体的には、各書体の感性スコアにより、統合した感性得点との印象距離を計算し、例えば、距離が一番小さい書体(又は、距離が一番小さい書体を含む複数の書体)を選択する。この例では、書体「Arial」が選択される。結果表示モジュール135は、この書体「Arial」の文字(分析結果テーブル1000の再作成内容欄1015)を用いて、処理結果画像990を作成し、提示する。もちろんのことながら、前述したように複数選択してもよい。複数の書体を選択した場合は、各々の書体を用いて複数の処理結果画像990を作成し、ユーザー190に選択可能に提示してもよい。
具体的には、式(3)を用いて、各書体の印象距離を計算する。
英語版の販促物(紙文書、チラシ)の持つテイストを、ユーザー190の操作にしたがって調整し、書体感性DB125に記憶されている欧文書体を使って電子文書として再作成する場合の例である。つまり、第1の文書が欧文文字であり、第2の文書も欧文文書である場合であって、操作者の操作にしたがって、テイスト判定モジュール120によって抽出された値を調整するものである。なお、具体的処理例(1)と同等の処理、例えば、式(2)、式(3)を用いること等については説明を省略した。
図16は、本実施の形態による具体的処理例(2)を示す説明図である。情報処理装置200は、対象画像1610を対象画像として入力し、ユーザー190によってテイストを調整1620が行われ、その調整後に再作成した結果として処理結果画像1690を出力する例を示している。具体的には、英語版のチラシをスキャンして情報処理装置200に入力し、テイストを調整し、そのテイストが一致している英語版のチラシを再作成する。
テイストを調整1620として、例えば、「エレガント」、「クラシック」のテイストを強くするという調整指示があったものとして説明する。なお、テイスト調整モジュール240による処理以外は、具体的処理例(1)と同等である。
そして、テイスト判定モジュール120は、文字形状分析モジュール110が抽出した形状の特徴に関するテイスト得点を書体形状特徴感性DB115から抽出する。例えば、抽出結果として書体形状特徴感性テーブル1900を生成する。図19は、書体形状特徴感性テーブル1900のデータ構造例を示す説明図である。書体形状特徴感性テーブル1900は、特徴ID欄1905、特徴欄1910、プリティ欄1915、カジュアル欄1920、ダイナミック欄1925、エレガント欄1930、クラシック欄1935、ダンディ欄1940、シック欄1945、クリア欄1950を有している。具体的処理例(1)における図12の例のデータ構造と同等である。
テイスト判定モジュール120は、書体形状特徴感性テーブル1900から感性得点テーブル2000を生成する。図20は、感性得点テーブル2000のデータ構造例を示す説明図である。感性得点テーブル2000は、統合ID欄2005、プリティ欄2010、カジュアル欄2015、ダイナミック欄2020、エレガント欄2025、クラシック欄2030、ダンディ欄2035、シック欄2040、クリア欄2045を有している。具体的処理例(1)における図13の例のデータ構造と同等である。
例えば、ユーザー190のテイストを調整1620の指示として、図7、図8の例に示したようなテイストプロフィールが提示され、エレガントとクラシックの軸の値を強調する操作が行われる。
具体的には、各書体の感性スコアにより、統合した感性得点との印象距離を計算し、例えば、距離が一番小さい書体(又は、距離が一番小さい書体を含む複数の書体)を選択する。この例では、書体「Garamond」が選択される。結果表示モジュール135は、この書体「Garamond」の文字(分析結果テーブル1700の再作成内容欄1715)を用いて、処理結果画像1690を作成し、提示する。もちろんのことながら、前述したように複数選択してもよい。複数の書体を選択した場合は、各々の書体を用いて複数の処理結果画像1690を作成し、ユーザー190に選択可能に提示してもよい。
英語版の販促物(紙文書、チラシ)を日本語に翻訳し、書体感性DB125に記憶されている和文書体を使って電子文書として再作成する場合の例である。つまり、第1の文書が欧文文字であり、第2の文書は和文文書である場合である。ただし、本文と見出しがあり、それぞれのテイストが同じになるように別々に処理している。
図24は、本実施の形態による具体的処理例(3)を示す説明図である。情報処理装置100は、対象画像2410を対象画像として入力し、翻訳後に再作成した結果として処理結果画像2490を出力する例を示している。具体的には、英語版のチラシをスキャンして情報処理装置100に入力し、テイストが一致している日本語版のチラシを再作成する。
まず、見出し部分について、以下の処理を行う。もちろんのことながら、いずれを先に行ってもよいし、並列的に処理を行うようにしてもよい。
図26は、本実施の形態による処理例を示す説明図である。文字形状分析モジュール110による文字の形状分析処理の例を示すものである。
文字形状分析モジュール110は、対象画像2410から見出し領域2620を抽出する(図26(a)、(b)の例参照)。そして、各文字について、形状の特徴を抽出する。例えば、図26(c)の例に示すように、文字「NEKOMURA TORAO」から「小文字なし」、文字「N」から「セリフあり」、文字「MN」から「「M」シャープアペクス」の特徴を抽出する。
テイスト判定モジュール120は、書体形状特徴感性テーブル2700から感性得点テーブル2800を生成する。図28は、感性得点テーブル2800のデータ構造例を示す説明図である。感性得点テーブル2800は、統合ID欄2805、プリティ欄2810、カジュアル欄2815、ダイナミック欄2820、エレガント欄2825、クラシック欄2830、ダンディ欄2835、シック欄2840、クリア欄2845を有している。具体的処理例(1)における図13の例のデータ構造と同等である。
具体的には、各書体の感性スコアにより、統合した感性得点との印象距離を計算し、例えば、距離が一番小さい書体(又は、距離が一番小さい書体を含む複数の書体)を選択する。この例では、書体「小塚明朝」が選択される。結果表示モジュール135は、見出しについて、この書体「小塚明朝」の文字(分析結果テーブル2500の再作成内容欄2515の見出し部分)を用いて、処理結果画像2490を作成する。もちろんのことながら、前述したように複数選択してもよい。複数の書体を選択した場合は、各々の書体を用いて複数の処理結果画像2490の見出し部分を作成してもよい。
図31は、本実施の形態による処理例を示す説明図である。文字形状分析モジュール110による文字の形状分析処理の例を示すものである。
文字形状分析モジュール110は、対象画像2410から本文領域3120、本文領域3130を抽出する(図31(a)、(b)の例参照)。そして、各文字について、形状の特徴を抽出する。例えば、図31(c)の例に示すように、文字「P」から「セリフあり」、文字「t」から「「t」シャープアペクス」、文字「c」から「「c」非対称型」の特徴を抽出する。
テイスト判定モジュール120は、書体形状特徴感性テーブル3200から感性得点テーブル3300を生成する。図33は、感性得点テーブル3300のデータ構造例を示す説明図である。感性得点テーブル3300は、統合ID欄3305、プリティ欄3310、カジュアル欄3315、ダイナミック欄3320、エレガント欄3325、クラシック欄3330、ダンディ欄3335、シック欄3340、クリア欄3345を有している。具体的処理例(1)における図13の例のデータ構造と同等である。
具体的には、各書体の感性スコアにより、統合した感性得点との印象距離を計算し、例えば、距離が一番小さい書体(又は、距離が一番小さい書体を含む複数の書体)を選択する。この例では、書体「秀英明朝」が選択される。結果表示モジュール135は、本文について、この書体「秀英明朝」の文字(分析結果テーブル2500の再作成内容欄2515の本文部分)を用いて、処理結果画像2490を作成する。もちろんのことながら、前述したように複数選択してもよい。複数の書体を選択した場合は、各々の書体を用いて複数の処理結果画像2490の本文部分を作成してもよい。
先の見出し部分の処理結果とこの本文部分の処理結果とを組み合わせることによって、処理結果画像2490を生成する。複数の書体を選択した場合は、各々の書体を用いて複数の処理結果画像2490を作成し、ユーザー190に選択可能に提示してもよい。
英語版の販促物(紙文書、チラシ)の一文の中に複数の書体があり、この販促物を日本語に翻訳し、書体感性DB125に記憶されている和文書体を使って電子文書として再作成する場合の例である。つまり、第1の文書が欧文文字であり、第2の文書は和文文書である場合である。
図36は、本実施の形態による具体的処理例(4)を示す説明図である。情報処理装置100は、対象画像3610を対象画像として入力し、翻訳後に再作成した結果として処理結果画像3690を出力する例を示している。具体的には、英語版のチラシをスキャンして情報処理装置100に入力し、テイストが一致している日本語版のチラシを再作成する。
文字形状分析モジュール110は、対象画像3610から見出し領域3820、見出し領域3830を抽出する(図38(a)、(b)の例参照)。そして、各文字について、書体毎に形状の特徴を抽出する。例えば、図38(c1)、(c2)の例に示すように、文字「k」から「セリフなし」、文字「y」から「「y」ケルンあり」、文字「h」から「セリフあり」、文字「a」から「「a」ダブルストーリー型」の特徴を抽出する。ここで、「セリフなし」と「セリフあり」が混在しており、矛盾したものである。矛盾するものは別のグループに分けることを行う。なお、ケルンとは、「f」、「j」、「r」、「y」等の文字にある丸い部分をいう。
図40は、書体形状特徴感性テーブル4000のデータ構造例を示す説明図である。書体形状特徴感性テーブル4000は、特徴ID欄4005、特徴欄4010、プリティ欄4015、カジュアル欄4020、ダイナミック欄4025、エレガント欄4030、クラシック欄4035、ダンディ欄4040、シック欄4045、クリア欄4050を有している。具体的処理例(1)における図12の例のデータ構造と同等である。書体形状特徴感性テーブル4000は、欧文の書体Aに対応した特徴に関するテイスト得点(感性スコア)を示しており、8つのテイストがある。
図41は、書体形状特徴感性テーブル4100のデータ構造例を示す説明図である。書体形状特徴感性テーブル4100は、特徴ID欄4105、特徴欄4110、プリティ欄4115、カジュアル欄4120、ダイナミック欄4125、エレガント欄4130、クラシック欄4135、ダンディ欄4140、シック欄4145、クリア欄4150を有している。具体的処理例(1)における図12の例のデータ構造と同等である。書体形状特徴感性テーブル4100は、欧文の書体Bに対応した特徴に関するテイスト得点(感性スコア)を示しており、8つのテイストがある。
ユーザーインタフェース(UI)メニューを日本語版から英語版に翻訳し、書体感性DB125に記憶されている欧文書体を使ってUIメニューとして再作成する場合の例である。つまり、第1の文書が和文文字であり、第2の文書は欧文文書である場合である。
図42は、本実施の形態による具体的処理例(5)を示す説明図である。情報処理装置100は、日本語メニュー画面4210内のデータを対象文書として入力し、翻訳後に再作成した結果として英語メニュー画面4220を出力する例を示している。
携帯端末4200は、日本語メニュー画面4210、英語メニュー画面4220を表示し得る。日本語メニュー画面4210には、ユーザー名欄4212、パスワード欄4214、「ログインする」ボタン4216、「アカウントをつくる」ボタン4218が表示されている。そして、英語メニュー画面4220には、UseName欄4222、Password欄4224、「Login」ボタン4226、「Sign up」ボタン4228が表示されている。UseName欄4222はユーザー名欄4212に対応しており、Password欄4224はパスワード欄4214に対応しており、「Login」ボタン4226は「ログインする」ボタン4216に対応しており、「Sign up」ボタン4228は「アカウントをつくる」ボタン4218に対応している。つまり、英語版のUIメニューとテイストが一致している日本語版のUIメニューを生成する。
この後の処理は、前述した具体的処理例と同等である。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラムの全体又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分若しくは全部であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
105…受付モジュール
110…文字形状分析モジュール
115…書体形状特徴感性DB
120…テイスト判定モジュール
125…書体感性DB
130…テイストプロフィール比較モジュール
135…結果表示モジュール
190…ユーザー
200…情報処理装置
240…テイスト調整モジュール
300…画像処理装置
310…ユーザー端末
320…画像処理装置
330…フォント管理装置
390…通信回線
Claims (10)
- 文字の形状の特徴と印象を対応させて記憶している記憶手段から抽出した文字の形状の特徴に対応する印象と最も類似する印象を有する書体を少なくとも1つ以上選択する選択手段
を有する情報処理装置。 - 前記印象は複数の項目によって構成されており、
前記特徴に対応する前記各項目における値を抽出する抽出手段
をさらに有し、
前記選択手段は、前記抽出手段によって抽出された値と前記書体の前記各項目における値との距離にしたがって、書体を選択する、
請求項1に記載の情報処理装置。 - 前記抽出手段は、前記特徴に対応する前記各項目における値を、特徴と印象の各項目における値とを対応させた表から抽出する、
請求項2に記載の情報処理装置。 - 操作者の操作にしたがって、前記抽出手段によって抽出された値を調整する調整手段
をさらに有し、
前記選択手段は、前記調整手段によって調整された値と前記書体の前記各項目における値との距離にしたがって、書体を選択する、
請求項2に記載の情報処理装置。 - 前記選択手段は、第1の文書から前記文字を抽出し、
前記選択手段によって選択された書体の文字を用いて第2の文書を生成する生成手段
をさらに有する請求項1に記載の情報処理装置。 - 前記第1の文書の前記文字を翻訳する翻訳手段
をさらに有し、
前記生成手段は、前記選択手段によって選択された書体による翻訳後の文字によって、第2の文書を生成する、
請求項5に記載の情報処理装置。 - 前記第1の文書には、複数の書体による文字が含まれており、
前記選択手段は、前記第1の文書内の前記書体毎に、前記第2の文書に用いる書体を選択する、
請求項5に記載の情報処理装置。 - 画像内の文字を対象として、該文字の形状の特徴を抽出する第2の抽出手段
をさらに有し、
前記選択手段は、前記第2の抽出手段によって抽出された特徴を用いて選択を行う、
請求項1から7のいずれか一項に記載の情報処理装置。 - 電子文書内の文字を対象として、該文字の形状の特徴を抽出する第3の抽出手段
をさらに有し、
前記選択手段は、前記第3の抽出手段によって抽出された特徴を用いて選択を行う、
請求項1から7のいずれか一項に記載の情報処理装置。 - コンピュータを、
文字の形状の特徴と印象を対応させて記憶している記憶手段から抽出した文字の形状の特徴に対応する印象と最も類似する印象を有する書体を少なくとも1つ以上選択する選択手段
として機能させるための情報処理プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017010307A JP2018120338A (ja) | 2017-01-24 | 2017-01-24 | 情報処理装置及び情報処理プログラム |
US15/692,500 US20180210865A1 (en) | 2017-01-24 | 2017-08-31 | Information processing apparatus |
CN201711082740.4A CN108345577A (zh) | 2017-01-24 | 2017-11-07 | 信息处理设备和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017010307A JP2018120338A (ja) | 2017-01-24 | 2017-01-24 | 情報処理装置及び情報処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018120338A true JP2018120338A (ja) | 2018-08-02 |
Family
ID=62906482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017010307A Pending JP2018120338A (ja) | 2017-01-24 | 2017-01-24 | 情報処理装置及び情報処理プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20180210865A1 (ja) |
JP (1) | JP2018120338A (ja) |
CN (1) | CN108345577A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020184661A (ja) * | 2019-05-01 | 2020-11-12 | 菊一 西 | Ud書体化複写機。 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09193489A (ja) * | 1996-01-19 | 1997-07-29 | Fuji Xerox Co Ltd | フォント管理装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060245005A1 (en) * | 2005-04-29 | 2006-11-02 | Hall John M | System for language translation of documents, and methods |
JP4818091B2 (ja) * | 2006-12-13 | 2011-11-16 | キヤノン株式会社 | 情報処理装置、画像処理装置、情報処理装置の制御方法及び画像処理装置の制御方法 |
-
2017
- 2017-01-24 JP JP2017010307A patent/JP2018120338A/ja active Pending
- 2017-08-31 US US15/692,500 patent/US20180210865A1/en not_active Abandoned
- 2017-11-07 CN CN201711082740.4A patent/CN108345577A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09193489A (ja) * | 1996-01-19 | 1997-07-29 | Fuji Xerox Co Ltd | フォント管理装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020184661A (ja) * | 2019-05-01 | 2020-11-12 | 菊一 西 | Ud書体化複写機。 |
Also Published As
Publication number | Publication date |
---|---|
CN108345577A (zh) | 2018-07-31 |
US20180210865A1 (en) | 2018-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4366108B2 (ja) | 文書検索装置、文書検索方法及びコンピュータプログラム | |
JP5663866B2 (ja) | 情報処理装置及び情報処理プログラム | |
US7519221B1 (en) | Reconstructing high-fidelity electronic documents from images via generation of synthetic fonts | |
Clausner et al. | ICDAR2019 competition on recognition of early Indian printed documents–REID2019 | |
JP2016001403A (ja) | テンプレート管理装置及びプログラム | |
EP3910550A1 (en) | Image processing apparatus and image processing method each for obtaining a region of object and pixels of the object using neural network | |
US20090063127A1 (en) | Apparatus, method, and computer program product for creating data for learning word translation | |
JP2018120338A (ja) | 情報処理装置及び情報処理プログラム | |
JP7027757B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP4780184B2 (ja) | 画像処理装置及び画像処理プログラム | |
CN108875570B (zh) | 信息处理装置、存储介质和信息处理方法 | |
JP2012190314A (ja) | 画像処理装置およびプログラム | |
US20220207900A1 (en) | Information processing apparatus, information processing method, and storage medium | |
US11508139B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
US20210006747A1 (en) | Image processing apparatus, image processing method and medium | |
US11170211B2 (en) | Information processing apparatus for extracting portions filled with characters from completed document without user intervention and non-transitory computer readable medium | |
JP2011060268A (ja) | 画像処理装置及び画像処理プログラム | |
US20210182477A1 (en) | Information processing apparatus and non-transitory computer readable medium storing program | |
US20210019554A1 (en) | Information processing device and information processing method | |
JP6379768B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2020047031A (ja) | 文書検索装置、文書検索システム及びプログラム | |
JP6682827B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2014044555A (ja) | 画像処理装置、画像処理システム及びプログラム | |
JP5284342B2 (ja) | 文字認識システムおよび文字認識プログラム | |
JP7383882B2 (ja) | 情報処理装置、及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201015 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201211 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210518 |