JP7229318B1

JP7229318B1 - 新聞電子版システム

Info

Publication number: JP7229318B1
Application number: JP2021178412A
Authority: JP
Inventors: 紀彦澤; 大志猪飼; 豪 ▼高▲木; 雅輝青田
Original assignee: 株式会社日本経済新聞社
Priority date: 2021-10-31
Filing date: 2021-10-31
Publication date: 2023-02-27
Anticipated expiration: 2041-10-31
Also published as: JP2023067314A

Abstract

【課題】最小限の情報量かつ高精度で、紙面ビューアーで読者が書込処理した箇所に対応するテキストビューアーの箇所に自動で書込処理することが可能となる新聞電子版システムを提供する。
【解決手段】サーバ１と、ユーザ端末２とが、通信ネットワーク５を介して接続可能な新聞電子版システム５００であって、サーバ１は、紙面ビューアー２０１に表示される新聞紙面画像を読み込み、そこから文字領域・位置情報を認識してユーザ端末２に送信する。ユーザ端末２においてユーザ３が書込処理を指示した場合には、ユーザ端末２は、指示した箇所（文字列）に関する情報である書込文字位置情報をサーバ１に送信する。サーバ１は、手持ちの対応情報を元に、書込原稿文字情報をユーザ端末２に送信する。書込原稿文字情報は、テキストビューアー２０２に表示される。
【選択図】図２

Description

本発明は、紙面ビューアーとテキストビューアーとの２通りの表示切替が可能である新聞電子版システムのハイライト表示等に関する。特に、新聞記事の紙面ビューアーとテキストビューアーをリンクさせて、紙面ビューアーに電子ペンでハイライト表示等した場合であっても、そのハイライト箇所がテキストビューアーにも反映されるようにするものである。

近年、新聞は、従来普及してきた紙版だけでなく、オンラインで利用可能な電子版でも提供されることが一般的になっている。更にこの電子版においては、紙面ビューアーとテキストビューアーとの両方の種類があることが通常である。図１は、電子版における紙面ビューアーとテキストビューアーのイメージを説明する図である。

電子版におけるテキストビューアーは、新聞記事データをすべてテキスト化して、パソコン画面やスマートフォン、タブレット端末などの電子表示機器で閲覧できるようにしたものである。他方、電子版における紙面ビューアーは、紙版のレイアウトをそのまま画像データとしてデジタルデータ化して、電子表示機器において閲覧できるようにしたものである。実際の紙版のレイアウトと同じであるため、従来の紙版とほぼ同じように閲覧できるメリットがある。

ところで、読者が、紙面ビューアーを閲覧している際に、記事の一部にハイライトや下線などのマーキングを付したいと希望することがある。この場合、読者は、パソコン画面上で記事の該当箇所をマウス操作でマーキングしたり、タッチパネル付きタブレット端末に表示された記事の該当箇所にタッチペンでマーキングしたりすることになる。

関連する従来技術としては、電子記事において、テキストデータ領域と、テキストデータの割付けデータ領域と、表示されたときの記事領域の輪郭を表すデータ領域とを含む電子記事データ構造についての発明が開示されており、これによれば、電子記事を容易にマークアップすることができ、電子記事を保存することができることが開示されている（特許文献１）。

また、他にも、電子書籍に関する従来技術として、電子書籍の画像データとテキストデータを相互にリンクさせてハイライト表示する発明が開示されている（特許文献２）。

特開２００１－２８２７８４特開２０１９－１４９１０１

しかしながら、紙面ビューアーとテキストビューアーとの２通りの表示切替が可能である新聞電子版システムにおいて、読者が紙面ビューアーにマーキングを付した際に、同じ箇所について、テキストビューアーにも自動的にマーキングが付されるという発明は知られていなかった。

上述の特許文献１は、あくまで紙面ビューアー内において電子記事をマークアップして保存する発明であり、テキストビューアーとの連携やその方法については開示されていない。

上述の特許文献２は、紙面ビューアーとテキストビューアーとの２通りの表示切替が可能である新聞電子版システムに関するものではない。また、ＯＣＲ（Optical Character Recognition）機能を使うことが前提となっている（例えば、図１のＯＣＲ機能３６など）。

新聞紙面上の記事の文字は、縦書きで上下の文字間隔が狭く表記されているという特有の事情があるため、ＯＣＲ機能を使っても、その認識精度は低いという問題がある。特に、ＯＣＲ機能の処理手順の一つである、認識した文字の形が既存のどの文字に似ているかを判別する手順で誤認識が発生しやすかった。

また、新聞記事の文字数は非常に多いため、すべてを文字認識してユーザ端末に送信することは、通信速度や処理速度の低下を招くという問題がある。

更に、紙面ビューアーには、紙面レイアウトの関係上テキストデータが埋め込まれていないとしても、新聞社はオリジナルの原稿テキストデータを持っていることが通常であり（これがテキストビューアーなどに用いられる。）、必ずしもＯＣＲ機能を利用して記事のテキスト認識を行う必要はなかった。

本発明の解決課題は、紙面ビューアーとテキストビューアーとの２通りの表示切替が可能である新聞電子版システムにおいて、読者が紙面ビューアーに書込処理した際に、同じ箇所について、テキストビューアーにも自動的に書込処理することを可能とすることである。特に、紙面ビューアーをＯＣＲ機能で記事のテキスト認識を行うことなく、最小限の情報量かつ高精度で上記を実現することである。

上記課題を解決するため、発明者らは、紙面ビューアーの新聞紙面画像の完全な文字認識を行うことを意識的に行うことなく、文字領域の認識とその文字領域の位置情報を紐づけて認識するに留め、これらの情報とサーバに保管されている正確な原稿テキストデータとを対比の上で、読者が書込処理した箇所を正確に把握する手法を見出した。これにより、最小限の情報量かつ高精度で、紙面ビューアーで読者が書込処理した箇所に対応するテキストビューアーの箇所に自動で書込処理することが可能となる。

本発明に係る新聞電子版システムは、新聞紙面をオンラインで閲覧することができ、かつ、紙面ビューアーとテキストビューアーとの２通りの表示切替が可能である新聞電子版システムであって、当該システムは、サーバとユーザ端末とを備え、当該サーバは、当該紙面ビューアーに表示される新聞紙面画像を読み込む読取部と、当該新聞紙面画像の文字領域情報と文字位置情報とを紐づけて文字領域・位置情報として認識する認識部と、当該文字位置情報と新聞記事内容を構成する正確な原稿文字情報とを１：１で紐づける対応情報と、を保管する第一記憶部と、当該対応情報を元に、ユーザが書込処理を指示した文字領域の書込文字位置情報から、対応する当該書込原稿文字情報を特定する特定部と、当該文字領域・位置情報及び当該書込原稿文字情報を、当該ユーザ端末に送信する第一送信部と、当該ユーザ端末から送信された当該書込文字位置情報を受信する第一受信部と、を備え、当該ユーザ端末は、表示部、入力部、通信部と、当該文字領域・位置情報を保管する第二記憶部と、当該紙面ビューアーにおいて、ユーザからの書込指示を受けて当該文字領域情報に含まれる文字領域に沿った書込処理をすると共に、当該書込文字位置情報を特定する書込処理部と、当該書込文字位置情報を当該サーバに送信する第二送信部と、を備え、当該表示部は、当該テキストビューアーにおいて、当該原稿文字情報に対応する文字について、書込処理をして表示することを特徴とする。

本発明によれば、紙面ビューアーとテキストビューアーとの２通りの表示切替が可能である新聞電子版システムにおいて、読者が紙面ビューアーに書込処理をした際に、同じ箇所について、テキストビューアーにも自動的に書込処理することができる。その際、最小限の情報量かつ高精度で上記を実現することができる。

新聞電子版システムのユーザ端末２における紙面ビューアーとテキストビューアーのイメージ図である。新聞電子版システムの全体概略図である。サーバ１及びユーザ端末２の機能ブロック図である。特定の新聞記事における文字領域情報１０１の一例を説明する図である。図４の拡大図である。対応情報１０５の一例を示す図である。書込位置情報２０３の一例を示す図である。特定部１５の特定処理の一例を示す図である。サーバ１とユーザ端末２との間の情報のやり取りを示す図である。サーバ１とユーザ端末２の各機能部の処理ステップを示す図である。紙面ビューアーに書込処理がされた状態を示すイメージ図である。テキストビューアーに自動で書込処理がされた状態を示すイメージ図（１）である。テキストビューアーに自動で書込処理がされた状態を示すイメージ図（２）である。

以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これ
は、あくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。

〔第１の実施形態〕

＜新聞電子版システムの全体構成＞
図２に示す新聞電子版システム５００は、サーバ１と、ユーザ端末２とを備えている。ユーザ端末２は、基地局を介して通信ネットワーク５に接続可能である。サーバ１とユーザ端末２とは、通信ネットワーク５を介して接続可能となっている。

ユーザ端末２は、紙面ビューアー２０１とテキストビューアー２０２との２通りの表示切替が可能である。ユーザ３は、入力装置４（例えば、電子ペン）を介して、紙面ビューアー２０１の文字領域にハイライト表示などの書込みすることができる。

本発明の実施形態によれば、読者が紙面ビューアー２０１に書込処理を付した際に、同じ文字箇所について、テキストビューアー２０２にも自動的に書込処理がされる。

＜サーバ１＞
（全体的な機能）
サーバ１は、新聞紙面画像を読み込み、文字領域・位置情報１０３（後述の通り、文字領域情報１０１と文字位置情報１０２より構成される）を認識し、文字領域・位置情報１０３をユーザ端末２に送信する。その後、ユーザ３の書込みを受けてユーザ端末２から送信されてくる書込文字位置情報２０３を受信し、対応情報１０５を元にユーザ３が書き込みした箇所を特定し、書込原稿文字情報２０４としてユーザ端末２に送信する。

図３（ａ）に示す通り、サーバ１は、読取部１１、認識部１２、第一記憶部１３、第一受信部１４と特定部１５、第一送信部１６を備える。サーバ１は、この他にも当然に、ＣＰＵ、メモリ、通信部などを備える。なお、サーバ１は、物理的に一つのサーバであってもよいし、クラウドサーバであってもよい。

（読取部１１）
読取部１１は、紙面ビューアーに表示される新聞紙面画像を読み込む。新聞紙面画像は、新聞紙面と同じレイアウトで記事が配置されている画像データであり、文字や写真などの要素が配置され紙面を構成している。

通常は、新聞紙面は、組版ソフトを用いて電子的に作成されているので、この組版データを読み込むことで読み取ることができる。他にも、新聞紙面をスキャンして読み取ることでもよい。

新聞紙面画像のデータ形式としては、一般的に用いられる各種データ形式、組版ソフトに用いられるデータ形式など何でもよい。

なお、読み取られた新聞紙面画像データは、例えば、第一記憶部１３で保管される。

（文字領域情報１０１）
文字領域情報１０１は、読取部１１で読み込まれた新聞紙面画像データのうち、一文字（数字や記号も含む。以下同様。）が配置されている領域に関する情報を意味する。

図４は、特定の新聞記事における文字領域情報１０１を説明する図である。この枠の一つの四角で囲まれた領域が文字領域に該当する。文字領域の最小単位は一文字であるが、これらが連なって文字列領域を構成し、文字列領域の集合が段組領域を構成する。図４のように、一つの新聞記事は、通常、複数の段組領域から構成される。文字領域という用語は、場合によって、文字列領域、段組領域を意味することもある。

図５は、図４の一部を拡大したイメージ図である。例えば、「防」という文字を囲む四角形一つが、文字領域情報１０１に含まれる一文字の文字領域である。

文字領域情報１０１は、後述する認識部１２において、機械的に自動で認識される。

（文字位置情報１０２）
文字位置情報１０２は、認識部１２で認識された一つの文字領域の位置を特定するための情報である。新聞記事は、記事全体、段組、列、文字という構成からなるので、これらの構成を利用して一つの文字領域の位置を特定することができる。また、特定の新聞紙面の一面全体における位置によって特定してもよい。

例えば、「段組αの、文字列βの、上からγ番目の、文字領域」のように段組を基準に特定してもよいし、「紙面αの、左からβピクセル、下からγピクセルの、文字領域」のように新聞紙面画像データの客観的な位置で特定してもよい。

図５で説明すると、例えば、「防」の文字は、「段組１の文字列１の上から２番目の文字領域」のように特定することができる。

（文字領域・位置情報１０３）
文字領域・位置情報１０３は、文字領域情報１０１と文字位置情報１０２を併せた称呼である。

（認識部１２：文字領域・位置情報１０３の取得）
認識部１２は、文字領域情報１０１及び文字位置情報１０２、すなわち、文字領域・位置情報１０３を取得する。認識部１２がこれらの情報を認識するために行う処理について、以下に具体例で説明する。

認識部１２が行う第一ステップは、レイアウト解析である。すなわち、読取部１１で読み込まれた新聞紙面画像データから、段組、写真などがどのようにレイアウトされているかについて解析を行い、文字が配置されている領域を見つける工程である。この段階では、文字の部分は、文字のかたまりとして認識されるにとどまる。

第一ステップの具体例としては、文字がたくさん固まっている場所を認識させることにより、文字のかたまりであるパラグラフや段の位置を特定することが挙げられる。

認識部１２が行う第二ステップは、列の切り出しである。すなわち、第一ステップにおいて認識された文字のかたまりから、１列ごとに分解する工程である。この段階では、文字は列としてのみ認識されるにとどまる。

第二ステップの具体例としては、特定されたパラグラフや段から、その中に含まれる文字列を特定することが挙げられる。新聞記事では縦書きであり、かつ、列の幅は新聞社ごとにほぼ固定であるため、認識の際にこの条件設定をすることにより、特定されたパラグラフや段の幅から、含まれる列数を高精度で認識することが可能となる。このようにして認識された列数について、実際に列の区切りに交差する線がないことをチェックすることによって更に精度を上げることができる。

認識部１２が行う第三ステップは、文字の切り出しである。すなわち、第二ステップにおいて認識された列から、１文字ごとに分解する工程である。この段階において、１文字ごとの文字領域が認識されることになる。

第三ステップの具体例としては、文字数候補当てはめ方式を採用することが考えられる。この方式は、新聞記事の場合は、文字の高さが新聞社ごとにほぼ固定であること、１列当たりの基本的な文字数が決まっていることから、予め文字数候補として準備しておき、それに当てはまるかどうか当てはめを行うというものである。文字数が分からない文字列の認識を行うことに比べて、迅速かつ正確に文字分割処理することができる。

例えば、１列当たりの基本的な文字数が１１文字と決まっているのであれば、特定された文字列を１１等分することにより、１文字ごとに分解することが可能となる。このようにして認識された文字について、実際に文字の区切りに交差する線がないことをチェックすることによって更に精度を上げることができる。

１列当たりの文字数を１１文字で固定すると、一列が「。」のみで終わってしまったり、列の最初の文字が「、」で始まったりする不都合が生じるため、例外的に、１列辺りの文字数を、１０文字又は１２文字に調整する場合がある（図４参照）。従って、上記チェックによって文字の区切りに交差する線がある場合には、１０等分又は１２等分して再度チェックすることで、ほとんどの場合は正確に１文字ごとに分解することが可能である。

なお、１列辺りの文字数を１２文字にする場合、句読点や括弧などを半角文字（半分の高さ）にする場合がある。この場合は、１列を単純に１２等分するだけでは正確に分解ができないことになる。しかし、半角文字が含まれる１２文字の場合でも、文字分割のパターンはいくつかに決まっているので、予めその区切りパターン候補を条件設定しておくことができる。

以上のように、最も頻度の高い文字数候補から順番に当てはめしてチェックすることにより、効率的に１文字ごとの文字領域を認識することができる。

第三ステップの具体例としては、他にも、一般的に行われている文字分割方法を採用することも可能である。

例えば、文字の切り出しは、次のような処理で行われる。第二ステップで切り出された文字列の一番上から一番下にかけて、文字列の幅方向の直線を動かしていったときに、当該直線と文字が交差する数をカウントする。交差数が１以上の場合は、文字領域の途中であることが分かる。交差数がゼロになった場合は、基本的に文字と文字の区切りとして判断できる。ただし、「三」「高」などの文字はこの方法では切り出すことができない。この場合は、他の文字領域の大きさから、まだ文字領域の途中であり文字と文字の区切りではないと判断したり、交差数がゼロ又は１以上になる状況を指紋のように文字データと照合させてまだ文字領域の途中であり文字と文字の区切りではないと判断したりすることが考えられる。文字の切り出しについては、公知の方法を適宜利用することができる。

以上のように、認識部１２が行う３つのステップにより、文字領域が認識され、文字領域情報１０１が取得される。

また、認識部１２は、文字領域情報１０１と同時に、文字位置情報１０２も取得することができる。すなわち、一つの文字領域を認識した際に、その文字領域の位置を特定する情報も抽出できるようなアルゴリズムをプログラムしておくことが可能である。

文字領域情報１０１は、文字位置情報１０２と紐づけて、文字領域・位置情報１０３として、第一記憶部１３において保管される。

なお、本発明とは異なるが、比較のために説明しておくと、一般的なＯＣＲソフトの場合、上記３ステップに加えて、更に、文字認識を行う。文字認識は、一般的に、正規化、特徴抽出、マッチング、知識処理の工程を経て処理される。

正規化とは、文字認識したい１つの文字を一定の大きさに変換する工程である。
特徴抽出とは、正規化された状態の文字パターンから、文字の特徴を抽出する工程である。
マッチングとは、文字の特徴を標準パターンの特徴と比較して、似ている文字を選択する工程である。
知識処理とは、日本語の単語情報や言語情報を使用して、より正確な認識を行う工程である。

既に述べた通り、新聞紙面上の記事の文字は、縦書きで上下の文字間隔が狭く表記されているという特有の事情があるため、ＯＣＲ機能を使っても、その認識精度は低いという問題がある。具体的には、新聞紙面にＯＣＲ機能を使っても、認識精度は７０～９０％止まりである。認識精度が低い主な原因は、文字認識の精度が低い点にあった。

本発明は、認識精度が低い文字認識工程を必要としない点に特徴がある。

（原稿文字情報１０４）
原稿文字情報１０４は、新聞記事内容を構成する正確な文字情報のこと、すなわち、新聞記者が作成し、校閲を受けた後の正式な新聞記事のテキストデータである。従って、ごくまれに起きる誤植を除き、文字の誤りのないデータのことである。本発明の新聞電子版システムを利用する主体は、新聞社であるので、当然に、原稿文字情報１０４を保有している。

原稿文字情報１０４は、紙面ビューアー及びテキストビューアーを作成する際に用いられる。ただ、紙面ビューアーの作成に当たっては、レイアウトなどの編集作業が加わるため、最終的にはテキストデータが残っていない画像データが使用される。これに対して、テキストビューアーの作成に当たっては、最後までテキストデータが残っている。

（対応情報１０５）
対応情報１０５は、文字位置情報１０２と原稿文字情報１０４とを１：１で紐づける表である。図６は、対応情報１０５の例を示す図である。左欄には、一つの文字領域の位置を特定する位置情報である文字位置情報１０２が記載されており、右欄には、それに対応する新聞記事内容を構成する正確な文字情報である原稿文字情報１０４が記載されている。これにより、例えば、「2021-07-24_M_01_X=93,Y=220」に位置する文字が、正確には、「大」であることが紐づけられることになる。

なお、この「大」など対応情報１０５に登録されてあるテキストデータは、あくまで原稿文字情報１０４としてのテキストデータであって、新聞紙面画像をスキャンしてＯＣＲによって抽出したテキストデータではない。

対応情報１０５は、事前に作成しておく必要があるが、基本的には、機械的に自動で作成される。以下、その処理方法について詳細に説明する。

まず、文字位置情報１０２に結び付けられている文字領域情報１０１から、新聞記事の全文字数が把握される。この文字数を、保有している原稿文字情報１０４と比較することで、どの新聞記事の文字位置情報１０２なのかが特定される。なお、この処理だけでも高い精度で新聞記事の特定が可能であるが、より精度を上げるために、段落数や一つの段落の文字数など、文字領域・位置情報１０３及びごく簡単な認識処理（例：空白の文字領域かどうか）で判別できる情報も併せて補完的に照合材料にすることもできる。これらの処理により、文字位置情報１０２に対応する原稿文字情報１０４が、記事単位で特定される。

次に、文字位置情報１０２のうち、何らかの文字が埋められている文字領域の一つ一つについて、原稿文字情報１０４を対応させていく。これらの処理により、図６のように、文字位置情報１０２に対応する原稿文字情報１０４を、一文字単位で特定することができる。

以上により、対応情報１０５が機械的に自動で作成される。なお、対応情報１０５作成後に、対応関係が正確であることを確認する目的で、ＯＣＲ機能などを用いて一致率を計算してもよいし、人間の目で見て確認してもよい。また、対応情報１０５は、人間が操作して作成することもできる。

（第一記憶部１３）
第一記憶部１３は、文字領域・位置情報１０３及び対応情報１０５を保管する。

（第一受信部１４）
後述するように、ユーザ３が、ユーザ端末２において、入力装置４で書込処理を指示した際、その文字領域の情報である書込文字位置情報２０３が、サーバ１に送信されてくる。第一受信部１４は、この書込文字位置情報２０３を受信する。書込文字位置情報２０３については、ユーザ端末２の書込処理部２４の項目において説明する。

（特定部１５）
特定部１５は、書込文字位置情報２０３を元に、対応情報１０５と照合して、対応する書込原稿文字情報２０４を特定する。
図６の通り、対応情報１０５は、文字位置情報１０２と原稿文字情報１０４とが、１：１で紐づけられている表である。
ここで、書込文字位置情報２０３は、図７の通り、文字位置情報１０２のうち、ユーザによる書込指示があった文字位置を特定する情報である。書込文字位置情報２０３と対応情報１０５と照合して、対応する原稿文字情報１０４を特定することができ、これが書込原稿文字情報２０４となる。この関係を示したものが、図８である。

（第一送信部１６）
第一送信部１６は、文字領域・位置情報１０３及び書込原稿文字情報２０４を、通信ネットワーク５を介して、ユーザ端末２に送信する。文字領域・位置情報１０３と書込原稿文字情報２０４とを送信するタイミングは異なる。この点は新聞電子版システムの処理において後述する。

＜ユーザ端末２＞
図３（ｂ）に示す通り、ユーザ端末２は、ＣＰＵ、メモリ、表示部２１、入力部２２、通信部２３、書込処理部２４、第二受信部２５、第二送信部２６、第二記憶部２７を備える。ユーザ端末２の例として、例えば、スマートフォン、タブレット端末、パソコンなどの電子表示機器が挙げられる。

ＣＰＵは、メモリに記憶されたプログラムを実行することによって、ユーザ端末２の全体の制御をつかさどる。メモリは、ＣＰＵが実行するプログラムを記憶する。本発明の新聞電子版システムを制御するプログラムも格納されている。

表示部２１は、テキストビューアー及び紙面ビューアーを表示する。テキストビューアーは、新聞記事のテキストデータを電子表示機器において表示するビューアーである。紙面ビューアーは、新聞紙面のレイアウトをそのまま画像データとしてデジタルデータ化して、電子表示機器において表示するビューアーである。表示部２１の例として、液晶表示が挙げられる。２種類のビューアーは、ユーザ３が任意に切り替えることが可能である。

また、表示部２１は、ユーザ３が書込処理をした表示を紙面ビューアー上に表示する。図１１は、その例である。本発明の新聞電子版システムによれば、自動的に、テキストビューアー上にも同じ箇所について、書込処理がなされる。図１２、１３はその例である。

入力部２２は、ユーザ３が、ユーザ端末２に対して指示する際に用いられる。指示の一つとしては、上記２種類のビューアーの切り替え指示が挙げられる。他の指示としては、紙面ビューアーの文字列の一部に書込処理をする指示が挙げられる。入力部２２の例として、ユーザ端末２がスマートフォンやタブレット端末の場合には、タッチパネルが、ユーザ端末２がパソコンの場合には、マウス、キーボードなどが挙げられる。

第二記憶部２７には、紙面ビューアーの新聞紙面画像データと、テキストビューアーの新聞記事のテキストデータが保管されている。これは、サーバ１の第一送信部１６が、通信ネットワーク５を介して、ユーザ端末２に送信したものであってもよいし、ユーザ端末２が、別のサーバから通信によってダウンロードしたものであってもよい。

第二受信部２５は、サーバ１から送信された文字領域・位置情報１０３及び書込原稿文字情報２０４を受信する。その他、サーバ１から、紙面ビューアーの新聞紙面画像データを受信してもよい。

第二記憶部２７は、文字領域・位置情報１０３及び紙面ビューアーの新聞紙面画像データが保管されている。両者を組み合わせることで、文字領域・位置情報１０３を含有する新聞紙面画像データとなる。

書込処理部２４は、ユーザ３の入力部２２における指示に基づいて、紙面ビューアーの文字列の一部に書込処理をする。例えば、ユーザ３が、タブレット端末を手に紙面ビューアーの新聞紙面画像データを閲覧しながら、電子ペンで重要だと思う新聞記事の一部の文字をハイライト表示する場合がこれに相当する。

この際、ユーザ３は、電子ペンを使ってフリーハンドで書込みをするが、紙面ビューアーの新聞紙面画像データと組み合わされた文字領域・位置情報１０３を参照することで、文字領域に沿ったハイライト表示をすることが可能となる。このようにして、ユーザ３が書込処理を指示した文字領域の位置が特定される。

図１１は、ユーザ３が紙面ビューアーの閲覧時に、入力装置４（電子ペン）を使用して、「無観客」という文字の付近をなぞった状況を示している。実際になぞった軌跡ではなく、近傍の対応する文字領域がハイライト表示されている。

書込処理部２４が行う書込処理は、ハイライト表示、下線表示、赤色表示、文字反転表示など、ユーザ３の注意を引く態様であれば、特に限定されない。

また、書込処理部２４は、書込処理に際して、書込文字位置情報２０３を特定する。書込文字位置情報２０３は、文字位置情報１０２のうち、ユーザ３が書込指示をした文字の位置に関する情報である。この意味では、書込文字位置情報２０３は、文字位置情報１０２の一部である。

図７は、書込文字位置情報２０３の一例を示す図である。文字位置情報１０２の一文字一文字について、ユーザ３による書込指示の有無が対応づけられている。

第二送信部２６は、書込文字位置情報２０３を、サーバ１に送信する。

通信部２３は、ユーザ端末２が、通信ネットワーク５へ接続することを可能にする。これにより、ユーザ端末２は、サーバ１や他のサーバと接続されることになる。

図９は、サーバ１とユーザ端末２との間の情報のやり取りを簡単に示したものである。サーバ１とユーザ端末２との間では、順番に、文字領域・位置情報１０３（サーバ１→ユーザ端末２）、書込文字位置情報２０３（ユーザ端末２→サーバ１）、書込原稿文字情報２０４（サーバ１→ユーザ端末２）がやり取りされている。

＜新聞電子版システムの処理＞
図１０を用いて、本発明の新聞電子版システムの処理の一例について、以下に説明する。

サーバ１は、読取部１１において、紙面ビューアーに表示される新聞紙面画像を読み込む（ステップＳ１１）。

サーバ１は、ステップＳ１１で読み込んだ新聞紙面画像を元に、認識部１２において、文字領域・位置情報１０３を取得する（ステップＳ１２）。

サーバ１は、第一送信部１６より、ユーザ端末２に対して、ステップＳ１２で取得した文字領域・位置情報１０３を送信する（ステップＳ１３）。

ユーザ端末２は、第二受信部２５において、ステップＳ１３でサーバ１から送信された文字領域・位置情報１０３を受信する（ステップＳ１４）。

ユーザ端末２の紙面ビューアーを閲覧しているユーザ３が、入力部２２において、入力装置４を用いて、新聞紙面画像に対して、書込指示する（ステップＳ１５）。

ユーザ端末２の書込処理部２４は、ステップＳ１５を受けて、新聞記事の文字領域に沿った書込処理を行う（ステップＳ１６）。これにより、例えば、ユーザ３がフリーハンドでハイライト表示の指示をした文字列について、文字領域に沿って綺麗に直線的にハイライト表示が新聞紙面画像上になされる（図１１を参照。）。また、同時に、ユーザ３が書込処理を指示した文字領域の位置が、書込文字位置情報２０３として特定される（ステップＳ１７）。

ユーザ端末２の第二送信部２６は、ステップＳ１７で特定された書込文字位置情報２０３をサーバ１に対して、送信する（ステップＳ１８）。

サーバ１の第一受信部１６は、ステップＳ１８で送信されてきた書込文字位置情報２０３を受信する（ステップＳ１９）。

サーバ１の特定部１５は、ステップＳ１９で受信した書込文字位置情報２０３を対応情報１０５と照合して、対応する書込原稿文字情報１０４を特定する（ステップＳ２０）。

サーバ１の第一送信部１６は、ステップ２０で特定された書込原稿文字情報１０４を、ユーザ端末２に対して、送信する（ステップＳ２１）。

ユーザ端末２の第二受信部２５は、ステップＳ２１で送信された書込原稿文字情報１０４を受信する（ステップＳ２２）。

ユーザ端末２の表示部２１は、ステップＳ２２で受信した書込原稿文字情報１０４について、書込表示をした上で、テキストビューアー上に表示する（ステップＳ２３）。これにより、ステップＳ１６で紙面ビューアーの新聞紙面画像に対して書込指示をした箇所と同じ箇所について、テキストビューアー上にも書込処理が反映されることになる（図１２、１３を参照。）。

〔第２の実施形態〕

本発明の新聞電子版システムの別の実施形態は、第１の実施形態に加えて、ユーザ３に対して、ユーザ３が書込処理を指示した文字を含む別の関連新聞記事を提案するシステムに関するものである。

サーバ１の第一記憶部１３は、新聞記事データベースを保管している。新聞記事データベースは、過去の新聞記事のテキストデータを集積したデータベースである。

サーバ１には、第１の実施形態に加えて、検索部が備えられている（図示していない。）。検索部は、書込原稿文字情報１０４に基づいて、新聞記事データベースの検索を行い、同じ文字を使用している記事、全く同一の文字を使用してはいないが関連性の高いと判断される記事などを抽出する。検索の方法は、単純に完全一致を検索する方法、ＡＩ技術を用いて関連性という観点から検索する方法など、公知のあらゆる技術を用いることができる。

例えば、書込原稿文字情報１０４が、「オリンピック」「無観客」である場合には、これらの文字を使用している別の新聞記事を新聞記事データベースより検索することになる。書込原稿文字情報１０４は、ユーザ３が書込処理を指示した文字であるため、ユーザ３が関心を持つ文字であるといえる。書込原稿文字情報１０４に基づいて検索することにより、ユーザ３が関心を持つと考えられる新聞記事をユーザ３に提示することができる。

ユーザ端末２への提示の方法としては、例えば、テキストビューアー上に、関連記事情報として掲載する方法がある。提示の際には、単純に新聞記事を表示する方法でもよいし、その際に書込原稿文字情報１０４に相当する箇所についてハイライト表示などをしてユーザ３の着目を引く方法を用いてもよい。

第２の実施形態では、ユーザ３が、紙面ビューアーにおいて書込処理をすればするほど、自己に関心の高い記事が抽出されて閲覧しやすくなるという効果がある。

〔第３の実施形態〕
本発明の新聞電子版システムの別の実施形態は、第１、２の実施形態に加えて、各種機能を付与するものである。これら各種機能は単独で備えていてもよいし、複数同時に備えていてもよい。

（テキストデータの取得と他への応用）
本発明の実施形態によれば、ユーザ３は、紙面ビューアーにおいて書込処理をした箇所を、テキストデータとして取得することができる。これにより、ユーザ端末２においてテキストデータを貼り付けて別の作業に用いることも可能となる。このテキストデータは、ユーザ端末２が受領する書込原稿文字情報２０４から抽出することができる。

（書込処理位置の集計とその分析）
本発明の新聞電子版システムにより、新聞社は、ユーザ３が紙面ビューアーにおいて書込処理をしたテキストを正確に把握することができる。そこで、新聞社は、これらの情報を集計することで、読者がどのような内容に多く関心を示しているかを知ることができる。例えば、書込み処理がされたテキストの内容（企業名、人名など）や、書込み処理がされた記事の主題などの集計から、読者の関心事項や話題性を分析することが可能となる。新聞社は、これをその後のコンテンツ制作の参考にすることができる。

（書込処理の種類分け）
本発明の実施形態によれば、ユーザ３は、紙面ビューアーにおいて書込処理をする際に、種類を選択することができる。例えば、書込処理がハイライト表示である場合、黄色、オレンジ色、青色などのように色分けすることができる。これにより、ユーザ３は、目的ごとに色分けをしてより便利に書込処理をすることができる。

（テキスト検索）
本発明の実施形態によれば、ユーザ３は、過去に紙面ビューアーにおいて書込処理をしたテキストを一覧表示したり、その中からテキスト検索をしたりすることができる。これは、書込処理をしたテキストを記憶媒体に保管しておくことで容易に実現することができる。一覧表示としては、時系列に表示したり、五十音順に表示したりできる。

１サーバ
２ユーザ端末
３ユーザ
４入力装置
５通信ネットワーク
１１読取部
１２認識部
１３第一記憶部
１４第一受信部
１５特定部
１６第一送信部
２１表示部
２２入力部
２３通信部
２４書込処理部
２５第二受信部
２６第二送信部
２７第二記憶部
１０１文字領域情報
１０２文字位置情報
１０３文字領域・位置情報
１０４原稿文字情報
１０５対応情報
２０１紙面ビューアー
２０２テキストビューアー
２０３書込文字位置情報
２０４書込原稿文字情報
３０１、３０２紙面ビューアー上の書込み
３０３、３０４テキストビューアー上に反映された書込み
５００新聞電子版システム

Claims

新聞紙面をオンラインで閲覧することができ、かつ、紙面ビューアーとテキストビューアーとの２通りの表示切替が可能である新聞電子版システムであって、
前記新聞電子版システムは、サーバとユーザ端末とを備え、
前記サーバは、
前記紙面ビューアーに表示される新聞紙面画像を読み込む読取部と、
前記新聞紙面画像の文字領域情報と文字位置情報とを紐づけて文字領域・位置情報として認識する認識部と、
前記文字位置情報と新聞記事内容を構成する正確な原稿文字情報とを１：１で紐づける対応情報と、を保管する第一記憶部と、
前記対応情報を元に、ユーザが書込処理を指示した文字領域の書込文字位置情報から、対応する書込原稿文字情報を特定する特定部と、
前記文字領域・位置情報及び前記書込原稿文字情報を、前記ユーザ端末に送信する第一送信部と、
前記ユーザ端末から送信された前記書込文字位置情報を受信する第一受信部と、を備え、
前記ユーザ端末は、
表示部、入力部、通信部と、
前記文字領域・位置情報を保管する第二記憶部と、
前記紙面ビューアーにおいて、ユーザからの書込指示を受けて前記文字領域情報に含まれる文字領域に沿った書込処理をすると共に、前記書込文字位置情報を特定する書込処理部と、
前記書込文字位置情報を前記サーバに送信する第二送信部と、を備え、
前記表示部は、前記テキストビューアーにおいて、前記原稿文字情報に対応する文字について、書込処理をして表示することを特徴とする新聞電子版システム。
前記書込処理が、ハイライト表示をする処理であることを特徴とする請求項１記載の新聞電子版システム。
前記サーバが、別途保管されている新聞記事データベースの中から、前記書込原稿文字情報に基づいて検索された関連度の高い別の新聞記事データを、前記ユーザ端末に送信することを特徴とする請求項１又は２のいずれか１項に記載の新聞電子版システム。
更に、前記新聞記事データには、予め前記書込原稿文字情報に対応する文字について、書込処理されていることを特徴とする請求項３に記載の新聞電子版システム。