JP7229318B1 - 新聞電子版システム - Google Patents

新聞電子版システム Download PDF

Info

Publication number
JP7229318B1
JP7229318B1 JP2021178412A JP2021178412A JP7229318B1 JP 7229318 B1 JP7229318 B1 JP 7229318B1 JP 2021178412 A JP2021178412 A JP 2021178412A JP 2021178412 A JP2021178412 A JP 2021178412A JP 7229318 B1 JP7229318 B1 JP 7229318B1
Authority
JP
Japan
Prior art keywords
character
information
newspaper
viewer
written
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021178412A
Other languages
English (en)
Other versions
JP2023067314A (ja
Inventor
紀彦 澤
大志 猪飼
豪 ▼高▲木
雅輝 青田
Original Assignee
株式会社日本経済新聞社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日本経済新聞社 filed Critical 株式会社日本経済新聞社
Priority to JP2021178412A priority Critical patent/JP7229318B1/ja
Application granted granted Critical
Publication of JP7229318B1 publication Critical patent/JP7229318B1/ja
Publication of JP2023067314A publication Critical patent/JP2023067314A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Document Processing Apparatus (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Character Input (AREA)

Abstract

Figure 0007229318000001
【課題】最小限の情報量かつ高精度で、紙面ビューアーで読者が書込処理した箇所に対応するテキストビューアーの箇所に自動で書込処理することが可能となる新聞電子版システムを提供する。
【解決手段】サーバ1と、ユーザ端末2とが、通信ネットワーク5を介して接続可能な新聞電子版システム500であって、サーバ1は、紙面ビューアー201に表示される新聞紙面画像を読み込み、そこから文字領域・位置情報を認識してユーザ端末2に送信する。ユーザ端末2においてユーザ3が書込処理を指示した場合には、ユーザ端末2は、指示した箇所(文字列)に関する情報である書込文字位置情報をサーバ1に送信する。サーバ1は、手持ちの対応情報を元に、書込原稿文字情報をユーザ端末2に送信する。書込原稿文字情報は、テキストビューアー202に表示される。
【選択図】図2

Description

本発明は、紙面ビューアーとテキストビューアーとの2通りの表示切替が可能である新聞電子版システムのハイライト表示等に関する。特に、新聞記事の紙面ビューアーとテキストビューアーをリンクさせて、紙面ビューアーに電子ペンでハイライト表示等した場合であっても、そのハイライト箇所がテキストビューアーにも反映されるようにするものである。
近年、新聞は、従来普及してきた紙版だけでなく、オンラインで利用可能な電子版でも提供されることが一般的になっている。更にこの電子版においては、紙面ビューアーとテキストビューアーとの両方の種類があることが通常である。図1は、電子版における紙面ビューアーとテキストビューアーのイメージを説明する図である。
電子版におけるテキストビューアーは、新聞記事データをすべてテキスト化して、パソコン画面やスマートフォン、タブレット端末などの電子表示機器で閲覧できるようにしたものである。他方、電子版における紙面ビューアーは、紙版のレイアウトをそのまま画像データとしてデジタルデータ化して、電子表示機器において閲覧できるようにしたものである。実際の紙版のレイアウトと同じであるため、従来の紙版とほぼ同じように閲覧できるメリットがある。
ところで、読者が、紙面ビューアーを閲覧している際に、記事の一部にハイライトや下線などのマーキングを付したいと希望することがある。この場合、読者は、パソコン画面上で記事の該当箇所をマウス操作でマーキングしたり、タッチパネル付きタブレット端末に表示された記事の該当箇所にタッチペンでマーキングしたりすることになる。
関連する従来技術としては、電子記事において、テキストデータ領域と、テキストデータの割付けデータ領域と、表示されたときの記事領域の輪郭を表すデータ領域とを含む電子記事データ構造についての発明が開示されており、これによれば、電子記事を容易にマークアップすることができ、電子記事を保存することができることが開示されている(特許文献1)。
また、他にも、電子書籍に関する従来技術として、電子書籍の画像データとテキストデータを相互にリンクさせてハイライト表示する発明が開示されている(特許文献2)。
特開2001-282784 特開2019-149101
しかしながら、紙面ビューアーとテキストビューアーとの2通りの表示切替が可能である新聞電子版システムにおいて、読者が紙面ビューアーにマーキングを付した際に、同じ箇所について、テキストビューアーにも自動的にマーキングが付されるという発明は知られていなかった。
上述の特許文献1は、あくまで紙面ビューアー内において電子記事をマークアップして保存する発明であり、テキストビューアーとの連携やその方法については開示されていない。
上述の特許文献2は、紙面ビューアーとテキストビューアーとの2通りの表示切替が可能である新聞電子版システムに関するものではない。また、OCR(Optical Character Recognition)機能を使うことが前提となっている(例えば、図1のOCR機能36など)。
新聞紙面上の記事の文字は、縦書きで上下の文字間隔が狭く表記されているという特有の事情があるため、OCR機能を使っても、その認識精度は低いという問題がある。特に、OCR機能の処理手順の一つである、認識した文字の形が既存のどの文字に似ているかを判別する手順で誤認識が発生しやすかった。
また、新聞記事の文字数は非常に多いため、すべてを文字認識してユーザ端末に送信することは、通信速度や処理速度の低下を招くという問題がある。
更に、紙面ビューアーには、紙面レイアウトの関係上テキストデータが埋め込まれていないとしても、新聞社はオリジナルの原稿テキストデータを持っていることが通常であり(これがテキストビューアーなどに用いられる。)、必ずしもOCR機能を利用して記事のテキスト認識を行う必要はなかった。
本発明の解決課題は、紙面ビューアーとテキストビューアーとの2通りの表示切替が可能である新聞電子版システムにおいて、読者が紙面ビューアーに書込処理した際に、同じ箇所について、テキストビューアーにも自動的に書込処理することを可能とすることである。特に、紙面ビューアーをOCR機能で記事のテキスト認識を行うことなく、最小限の情報量かつ高精度で上記を実現することである。
上記課題を解決するため、発明者らは、紙面ビューアーの新聞紙面画像の完全な文字認識を行うことを意識的に行うことなく、文字領域の認識とその文字領域の位置情報を紐づけて認識するに留め、これらの情報とサーバに保管されている正確な原稿テキストデータとを対比の上で、読者が書込処理した箇所を正確に把握する手法を見出した。これにより、最小限の情報量かつ高精度で、紙面ビューアーで読者が書込処理した箇所に対応するテキストビューアーの箇所に自動で書込処理することが可能となる。
本発明に係る新聞電子版システムは、新聞紙面をオンラインで閲覧することができ、かつ、紙面ビューアーとテキストビューアーとの2通りの表示切替が可能である新聞電子版システムであって、当該システムは、サーバとユーザ端末とを備え、当該サーバは、当該紙面ビューアーに表示される新聞紙面画像を読み込む読取部と、当該新聞紙面画像の文字領域情報と文字位置情報とを紐づけて文字領域・位置情報として認識する認識部と、当該文字位置情報と新聞記事内容を構成する正確な原稿文字情報とを1:1で紐づける対応情報と、を保管する第一記憶部と、当該対応情報を元に、ユーザが書込処理を指示した文字領域の書込文字位置情報から、対応する当該書込原稿文字情報を特定する特定部と、当該文字領域・位置情報及び当該書込原稿文字情報を、当該ユーザ端末に送信する第一送信部と、当該ユーザ端末から送信された当該書込文字位置情報を受信する第一受信部と、を備え、当該ユーザ端末は、表示部、入力部、通信部と、当該文字領域・位置情報を保管する第二記憶部と、当該紙面ビューアーにおいて、ユーザからの書込指示を受けて当該文字領域情報に含まれる文字領域に沿った書込処理をすると共に、当該書込文字位置情報を特定する書込処理部と、当該書込文字位置情報を当該サーバに送信する第二送信部と、を備え、当該表示部は、当該テキストビューアーにおいて、当該原稿文字情報に対応する文字について、書込処理をして表示することを特徴とする。
本発明によれば、紙面ビューアーとテキストビューアーとの2通りの表示切替が可能である新聞電子版システムにおいて、読者が紙面ビューアーに書込処理をした際に、同じ箇所について、テキストビューアーにも自動的に書込処理することができる。その際、最小限の情報量かつ高精度で上記を実現することができる。
新聞電子版システムのユーザ端末2における紙面ビューアーとテキストビューアーのイメージ図である。 新聞電子版システムの全体概略図である。 サーバ1及びユーザ端末2の機能ブロック図である。 特定の新聞記事における文字領域情報101の一例を説明する図である。 図4の拡大図である。 対応情報105の一例を示す図である。 書込位置情報203の一例を示す図である。 特定部15の特定処理の一例を示す図である。 サーバ1とユーザ端末2との間の情報のやり取りを示す図である。 サーバ1とユーザ端末2の各機能部の処理ステップを示す図である。 紙面ビューアーに書込処理がされた状態を示すイメージ図である。 テキストビューアーに自動で書込処理がされた状態を示すイメージ図(1)である。 テキストビューアーに自動で書込処理がされた状態を示すイメージ図(2)である。
以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これ
は、あくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
〔第1の実施形態〕
<新聞電子版システムの全体構成>
図2に示す新聞電子版システム500は、サーバ1と、ユーザ端末2とを備えている。ユーザ端末2は、基地局を介して通信ネットワーク5に接続可能である。サーバ1とユーザ端末2とは、通信ネットワーク5を介して接続可能となっている。
ユーザ端末2は、紙面ビューアー201とテキストビューアー202との2通りの表示切替が可能である。ユーザ3は、入力装置4(例えば、電子ペン)を介して、紙面ビューアー201の文字領域にハイライト表示などの書込みすることができる。
本発明の実施形態によれば、読者が紙面ビューアー201に書込処理を付した際に、同じ文字箇所について、テキストビューアー202にも自動的に書込処理がされる。
<サーバ1>
(全体的な機能)
サーバ1は、新聞紙面画像を読み込み、文字領域・位置情報103(後述の通り、文字領域情報101と文字位置情報102より構成される)を認識し、文字領域・位置情報103をユーザ端末2に送信する。その後、ユーザ3の書込みを受けてユーザ端末2から送信されてくる書込文字位置情報203を受信し、対応情報105を元にユーザ3が書き込みした箇所を特定し、書込原稿文字情報204としてユーザ端末2に送信する。
図3(a)に示す通り、サーバ1は、読取部11、認識部12、第一記憶部13、第一受信部14と特定部15、第一送信部16を備える。サーバ1は、この他にも当然に、CPU、メモリ、通信部などを備える。なお、サーバ1は、物理的に一つのサーバであってもよいし、クラウドサーバであってもよい。
(読取部11)
読取部11は、紙面ビューアーに表示される新聞紙面画像を読み込む。新聞紙面画像は、新聞紙面と同じレイアウトで記事が配置されている画像データであり、文字や写真などの要素が配置され紙面を構成している。
通常は、新聞紙面は、組版ソフトを用いて電子的に作成されているので、この組版データを読み込むことで読み取ることができる。他にも、新聞紙面をスキャンして読み取ることでもよい。
新聞紙面画像のデータ形式としては、一般的に用いられる各種データ形式、組版ソフトに用いられるデータ形式など何でもよい。
なお、読み取られた新聞紙面画像データは、例えば、第一記憶部13で保管される。
(文字領域情報101)
文字領域情報101は、読取部11で読み込まれた新聞紙面画像データのうち、一文字(数字や記号も含む。以下同様。)が配置されている領域に関する情報を意味する。
図4は、特定の新聞記事における文字領域情報101を説明する図である。この枠の一つの四角で囲まれた領域が文字領域に該当する。文字領域の最小単位は一文字であるが、これらが連なって文字列領域を構成し、文字列領域の集合が段組領域を構成する。図4のように、一つの新聞記事は、通常、複数の段組領域から構成される。文字領域という用語は、場合によって、文字列領域、段組領域を意味することもある。
図5は、図4の一部を拡大したイメージ図である。例えば、「防」という文字を囲む四角形一つが、文字領域情報101に含まれる一文字の文字領域である。
文字領域情報101は、後述する認識部12において、機械的に自動で認識される。
(文字位置情報102)
文字位置情報102は、認識部12で認識された一つの文字領域の位置を特定するための情報である。新聞記事は、記事全体、段組、列、文字という構成からなるので、これらの構成を利用して一つの文字領域の位置を特定することができる。また、特定の新聞紙面の一面全体における位置によって特定してもよい。
例えば、「段組αの、文字列βの、上からγ番目の、文字領域」のように段組を基準に特定してもよいし、「紙面αの、左からβピクセル、下からγピクセルの、文字領域」のように新聞紙面画像データの客観的な位置で特定してもよい。
図5で説明すると、例えば、「防」の文字は、「段組1の文字列1の上から2番目の文字領域」のように特定することができる。
(文字領域・位置情報103)
文字領域・位置情報103は、文字領域情報101と文字位置情報102を併せた称呼である。
(認識部12:文字領域・位置情報103の取得)
認識部12は、文字領域情報101及び文字位置情報102、すなわち、文字領域・位置情報103を取得する。認識部12がこれらの情報を認識するために行う処理について、以下に具体例で説明する。
認識部12が行う第一ステップは、レイアウト解析である。すなわち、読取部11で読み込まれた新聞紙面画像データから、段組、写真などがどのようにレイアウトされているかについて解析を行い、文字が配置されている領域を見つける工程である。この段階では、文字の部分は、文字のかたまりとして認識されるにとどまる。
第一ステップの具体例としては、文字がたくさん固まっている場所を認識させることにより、文字のかたまりであるパラグラフや段の位置を特定することが挙げられる。
認識部12が行う第二ステップは、列の切り出しである。すなわち、第一ステップにおいて認識された文字のかたまりから、1列ごとに分解する工程である。この段階では、文字は列としてのみ認識されるにとどまる。
第二ステップの具体例としては、特定されたパラグラフや段から、その中に含まれる文字列を特定することが挙げられる。新聞記事では縦書きであり、かつ、列の幅は新聞社ごとにほぼ固定であるため、認識の際にこの条件設定をすることにより、特定されたパラグラフや段の幅から、含まれる列数を高精度で認識することが可能となる。このようにして認識された列数について、実際に列の区切りに交差する線がないことをチェックすることによって更に精度を上げることができる。
認識部12が行う第三ステップは、文字の切り出しである。すなわち、第二ステップにおいて認識された列から、1文字ごとに分解する工程である。この段階において、1文字ごとの文字領域が認識されることになる。
第三ステップの具体例としては、文字数候補当てはめ方式を採用することが考えられる。この方式は、新聞記事の場合は、文字の高さが新聞社ごとにほぼ固定であること、1列当たりの基本的な文字数が決まっていることから、予め文字数候補として準備しておき、それに当てはまるかどうか当てはめを行うというものである。文字数が分からない文字列の認識を行うことに比べて、迅速かつ正確に文字分割処理することができる。
例えば、1列当たりの基本的な文字数が11文字と決まっているのであれば、特定された文字列を11等分することにより、1文字ごとに分解することが可能となる。このようにして認識された文字について、実際に文字の区切りに交差する線がないことをチェックすることによって更に精度を上げることができる。
1列当たりの文字数を11文字で固定すると、一列が「。」のみで終わってしまったり、列の最初の文字が「、」で始まったりする不都合が生じるため、例外的に、1列辺りの文字数を、10文字又は12文字に調整する場合がある(図4参照)。従って、上記チェックによって文字の区切りに交差する線がある場合には、10等分又は12等分して再度チェックすることで、ほとんどの場合は正確に1文字ごとに分解することが可能である。
なお、1列辺りの文字数を12文字にする場合、句読点や括弧などを半角文字(半分の高さ)にする場合がある。この場合は、1列を単純に12等分するだけでは正確に分解ができないことになる。しかし、半角文字が含まれる12文字の場合でも、文字分割のパターンはいくつかに決まっているので、予めその区切りパターン候補を条件設定しておくことができる。
以上のように、最も頻度の高い文字数候補から順番に当てはめしてチェックすることにより、効率的に1文字ごとの文字領域を認識することができる。
第三ステップの具体例としては、他にも、一般的に行われている文字分割方法を採用することも可能である。
例えば、文字の切り出しは、次のような処理で行われる。第二ステップで切り出された文字列の一番上から一番下にかけて、文字列の幅方向の直線を動かしていったときに、当該直線と文字が交差する数をカウントする。交差数が1以上の場合は、文字領域の途中であることが分かる。交差数がゼロになった場合は、基本的に文字と文字の区切りとして判断できる。ただし、「三」「高」などの文字はこの方法では切り出すことができない。この場合は、他の文字領域の大きさから、まだ文字領域の途中であり文字と文字の区切りではないと判断したり、交差数がゼロ又は1以上になる状況を指紋のように文字データと照合させてまだ文字領域の途中であり文字と文字の区切りではないと判断したりすることが考えられる。文字の切り出しについては、公知の方法を適宜利用することができる。
以上のように、認識部12が行う3つのステップにより、文字領域が認識され、文字領域情報101が取得される。
また、認識部12は、文字領域情報101と同時に、文字位置情報102も取得することができる。すなわち、一つの文字領域を認識した際に、その文字領域の位置を特定する情報も抽出できるようなアルゴリズムをプログラムしておくことが可能である。
文字領域情報101は、文字位置情報102と紐づけて、文字領域・位置情報103として、第一記憶部13において保管される。
なお、本発明とは異なるが、比較のために説明しておくと、一般的なOCRソフトの場合、上記3ステップに加えて、更に、文字認識を行う。文字認識は、一般的に、正規化、特徴抽出、マッチング、知識処理の工程を経て処理される。
正規化とは、文字認識したい1つの文字を一定の大きさに変換する工程である。
特徴抽出とは、正規化された状態の文字パターンから、文字の特徴を抽出する工程である。
マッチングとは、文字の特徴を標準パターンの特徴と比較して、似ている文字を選択する工程である。
知識処理とは、日本語の単語情報や言語情報を使用して、より正確な認識を行う工程である。
既に述べた通り、新聞紙面上の記事の文字は、縦書きで上下の文字間隔が狭く表記されているという特有の事情があるため、OCR機能を使っても、その認識精度は低いという問題がある。具体的には、新聞紙面にOCR機能を使っても、認識精度は70~90%止まりである。認識精度が低い主な原因は、文字認識の精度が低い点にあった。
本発明は、認識精度が低い文字認識工程を必要としない点に特徴がある。
(原稿文字情報104)
原稿文字情報104は、新聞記事内容を構成する正確な文字情報のこと、すなわち、新聞記者が作成し、校閲を受けた後の正式な新聞記事のテキストデータである。従って、ごくまれに起きる誤植を除き、文字の誤りのないデータのことである。本発明の新聞電子版システムを利用する主体は、新聞社であるので、当然に、原稿文字情報104を保有している。
原稿文字情報104は、紙面ビューアー及びテキストビューアーを作成する際に用いられる。ただ、紙面ビューアーの作成に当たっては、レイアウトなどの編集作業が加わるため、最終的にはテキストデータが残っていない画像データが使用される。これに対して、テキストビューアーの作成に当たっては、最後までテキストデータが残っている。
(対応情報105)
対応情報105は、文字位置情報102と原稿文字情報104とを1:1で紐づける表である。図6は、対応情報105の例を示す図である。左欄には、一つの文字領域の位置を特定する位置情報である文字位置情報102が記載されており、右欄には、それに対応する新聞記事内容を構成する正確な文字情報である原稿文字情報104が記載されている。これにより、例えば、「2021-07-24_M_01_X=93,Y=220」に位置する文字が、正確には、「大」であることが紐づけられることになる。
なお、この「大」など対応情報105に登録されてあるテキストデータは、あくまで原稿文字情報104としてのテキストデータであって、新聞紙面画像をスキャンしてOCRによって抽出したテキストデータではない。
対応情報105は、事前に作成しておく必要があるが、基本的には、機械的に自動で作成される。以下、その処理方法について詳細に説明する。
まず、文字位置情報102に結び付けられている文字領域情報101から、新聞記事の全文字数が把握される。この文字数を、保有している原稿文字情報104と比較することで、どの新聞記事の文字位置情報102なのかが特定される。なお、この処理だけでも高い精度で新聞記事の特定が可能であるが、より精度を上げるために、段落数や一つの段落の文字数など、文字領域・位置情報103及びごく簡単な認識処理(例:空白の文字領域かどうか)で判別できる情報も併せて補完的に照合材料にすることもできる。これらの処理により、文字位置情報102に対応する原稿文字情報104が、記事単位で特定される。
次に、文字位置情報102のうち、何らかの文字が埋められている文字領域の一つ一つについて、原稿文字情報104を対応させていく。これらの処理により、図6のように、文字位置情報102に対応する原稿文字情報104を、一文字単位で特定することができる。
以上により、対応情報105が機械的に自動で作成される。なお、対応情報105作成後に、対応関係が正確であることを確認する目的で、OCR機能などを用いて一致率を計算してもよいし、人間の目で見て確認してもよい。また、対応情報105は、人間が操作して作成することもできる。
(第一記憶部13)
第一記憶部13は、文字領域・位置情報103及び対応情報105を保管する。
(第一受信部14)
後述するように、ユーザ3が、ユーザ端末2において、入力装置4で書込処理を指示した際、その文字領域の情報である書込文字位置情報203が、サーバ1に送信されてくる。第一受信部14は、この書込文字位置情報203を受信する。書込文字位置情報203については、ユーザ端末2の書込処理部24の項目において説明する。
(特定部15)
特定部15は、書込文字位置情報203を元に、対応情報105と照合して、対応する書込原稿文字情報204を特定する。
図6の通り、対応情報105は、文字位置情報102と原稿文字情報104とが、1:1で紐づけられている表である。
ここで、書込文字位置情報203は、図7の通り、文字位置情報102のうち、ユーザによる書込指示があった文字位置を特定する情報である。書込文字位置情報203と対応情報105と照合して、対応する原稿文字情報104を特定することができ、これが書込原稿文字情報204となる。この関係を示したものが、図8である。
(第一送信部16)
第一送信部16は、文字領域・位置情報103及び書込原稿文字情報204を、通信ネットワーク5を介して、ユーザ端末2に送信する。文字領域・位置情報103と書込原稿文字情報204とを送信するタイミングは異なる。この点は新聞電子版システムの処理において後述する。
<ユーザ端末2>
図3(b)に示す通り、ユーザ端末2は、CPU、メモリ、表示部21、入力部22、通信部23、書込処理部24、第二受信部25、第二送信部26、第二記憶部27を備える。ユーザ端末2の例として、例えば、スマートフォン、タブレット端末、パソコンなどの電子表示機器が挙げられる。
CPUは、メモリに記憶されたプログラムを実行することによって、ユーザ端末2の全体の制御をつかさどる。メモリは、CPUが実行するプログラムを記憶する。本発明の新聞電子版システムを制御するプログラムも格納されている。
表示部21は、テキストビューアー及び紙面ビューアーを表示する。テキストビューアーは、新聞記事のテキストデータを電子表示機器において表示するビューアーである。紙面ビューアーは、新聞紙面のレイアウトをそのまま画像データとしてデジタルデータ化して、電子表示機器において表示するビューアーである。表示部21の例として、液晶表示が挙げられる。2種類のビューアーは、ユーザ3が任意に切り替えることが可能である。
また、表示部21は、ユーザ3が書込処理をした表示を紙面ビューアー上に表示する。図11は、その例である。本発明の新聞電子版システムによれば、自動的に、テキストビューアー上にも同じ箇所について、書込処理がなされる。図12、13はその例である。
入力部22は、ユーザ3が、ユーザ端末2に対して指示する際に用いられる。指示の一つとしては、上記2種類のビューアーの切り替え指示が挙げられる。他の指示としては、紙面ビューアーの文字列の一部に書込処理をする指示が挙げられる。入力部22の例として、ユーザ端末2がスマートフォンやタブレット端末の場合には、タッチパネルが、ユーザ端末2がパソコンの場合には、マウス、キーボードなどが挙げられる。
第二記憶部27には、紙面ビューアーの新聞紙面画像データと、テキストビューアーの新聞記事のテキストデータが保管されている。これは、サーバ1の第一送信部16が、通信ネットワーク5を介して、ユーザ端末2に送信したものであってもよいし、ユーザ端末2が、別のサーバから通信によってダウンロードしたものであってもよい。
第二受信部25は、サーバ1から送信された文字領域・位置情報103及び書込原稿文字情報204を受信する。その他、サーバ1から、紙面ビューアーの新聞紙面画像データを受信してもよい。
第二記憶部27は、文字領域・位置情報103及び紙面ビューアーの新聞紙面画像データが保管されている。両者を組み合わせることで、文字領域・位置情報103を含有する新聞紙面画像データとなる。
書込処理部24は、ユーザ3の入力部22における指示に基づいて、紙面ビューアーの文字列の一部に書込処理をする。例えば、ユーザ3が、タブレット端末を手に紙面ビューアーの新聞紙面画像データを閲覧しながら、電子ペンで重要だと思う新聞記事の一部の文字をハイライト表示する場合がこれに相当する。
この際、ユーザ3は、電子ペンを使ってフリーハンドで書込みをするが、紙面ビューアーの新聞紙面画像データと組み合わされた文字領域・位置情報103を参照することで、文字領域に沿ったハイライト表示をすることが可能となる。このようにして、ユーザ3が書込処理を指示した文字領域の位置が特定される。
図11は、ユーザ3が紙面ビューアーの閲覧時に、入力装置4(電子ペン)を使用して、「無観客」という文字の付近をなぞった状況を示している。実際になぞった軌跡ではなく、近傍の対応する文字領域がハイライト表示されている。
書込処理部24が行う書込処理は、ハイライト表示、下線表示、赤色表示、文字反転表示など、ユーザ3の注意を引く態様であれば、特に限定されない。
また、書込処理部24は、書込処理に際して、書込文字位置情報203を特定する。書込文字位置情報203は、文字位置情報102のうち、ユーザ3が書込指示をした文字の位置に関する情報である。この意味では、書込文字位置情報203は、文字位置情報102の一部である。
図7は、書込文字位置情報203の一例を示す図である。文字位置情報102の一文字一文字について、ユーザ3による書込指示の有無が対応づけられている。
第二送信部26は、書込文字位置情報203を、サーバ1に送信する。
通信部23は、ユーザ端末2が、通信ネットワーク5へ接続することを可能にする。これにより、ユーザ端末2は、サーバ1や他のサーバと接続されることになる。
図9は、サーバ1とユーザ端末2との間の情報のやり取りを簡単に示したものである。サーバ1とユーザ端末2との間では、順番に、文字領域・位置情報103(サーバ1→ユーザ端末2)、書込文字位置情報203(ユーザ端末2→サーバ1)、書込原稿文字情報204(サーバ1→ユーザ端末2)がやり取りされている。
<新聞電子版システムの処理>
図10を用いて、本発明の新聞電子版システムの処理の一例について、以下に説明する。
サーバ1は、読取部11において、紙面ビューアーに表示される新聞紙面画像を読み込む(ステップS11)。
サーバ1は、ステップS11で読み込んだ新聞紙面画像を元に、認識部12において、文字領域・位置情報103を取得する(ステップS12)。
サーバ1は、第一送信部16より、ユーザ端末2に対して、ステップS12で取得した文字領域・位置情報103を送信する(ステップS13)。
ユーザ端末2は、第二受信部25において、ステップS13でサーバ1から送信された文字領域・位置情報103を受信する(ステップS14)。
ユーザ端末2の紙面ビューアーを閲覧しているユーザ3が、入力部22において、入力装置4を用いて、新聞紙面画像に対して、書込指示する(ステップS15)。
ユーザ端末2の書込処理部24は、ステップS15を受けて、新聞記事の文字領域に沿った書込処理を行う(ステップS16)。これにより、例えば、ユーザ3がフリーハンドでハイライト表示の指示をした文字列について、文字領域に沿って綺麗に直線的にハイライト表示が新聞紙面画像上になされる(図11を参照。)。また、同時に、ユーザ3が書込処理を指示した文字領域の位置が、書込文字位置情報203として特定される(ステップS17)。
ユーザ端末2の第二送信部26は、ステップS17で特定された書込文字位置情報203をサーバ1に対して、送信する(ステップS18)。
サーバ1の第一受信部16は、ステップS18で送信されてきた書込文字位置情報203を受信する(ステップS19)。
サーバ1の特定部15は、ステップS19で受信した書込文字位置情報203を対応情報105と照合して、対応する書込原稿文字情報104を特定する(ステップS20)。
サーバ1の第一送信部16は、ステップ20で特定された書込原稿文字情報104を、ユーザ端末2に対して、送信する(ステップS21)。
ユーザ端末2の第二受信部25は、ステップS21で送信された書込原稿文字情報104を受信する(ステップS22)。
ユーザ端末2の表示部21は、ステップS22で受信した書込原稿文字情報104について、書込表示をした上で、テキストビューアー上に表示する(ステップS23)。これにより、ステップS16で紙面ビューアーの新聞紙面画像に対して書込指示をした箇所と同じ箇所について、テキストビューアー上にも書込処理が反映されることになる(図12、13を参照。)。
〔第2の実施形態〕
本発明の新聞電子版システムの別の実施形態は、第1の実施形態に加えて、ユーザ3に対して、ユーザ3が書込処理を指示した文字を含む別の関連新聞記事を提案するシステムに関するものである。
サーバ1の第一記憶部13は、新聞記事データベースを保管している。新聞記事データベースは、過去の新聞記事のテキストデータを集積したデータベースである。
サーバ1には、第1の実施形態に加えて、検索部が備えられている(図示していない。)。検索部は、書込原稿文字情報104に基づいて、新聞記事データベースの検索を行い、同じ文字を使用している記事、全く同一の文字を使用してはいないが関連性の高いと判断される記事などを抽出する。検索の方法は、単純に完全一致を検索する方法、AI技術を用いて関連性という観点から検索する方法など、公知のあらゆる技術を用いることができる。
例えば、書込原稿文字情報104が、「オリンピック」「無観客」である場合には、これらの文字を使用している別の新聞記事を新聞記事データベースより検索することになる。書込原稿文字情報104は、ユーザ3が書込処理を指示した文字であるため、ユーザ3が関心を持つ文字であるといえる。書込原稿文字情報104に基づいて検索することにより、ユーザ3が関心を持つと考えられる新聞記事をユーザ3に提示することができる。
ユーザ端末2への提示の方法としては、例えば、テキストビューアー上に、関連記事情報として掲載する方法がある。提示の際には、単純に新聞記事を表示する方法でもよいし、その際に書込原稿文字情報104に相当する箇所についてハイライト表示などをしてユーザ3の着目を引く方法を用いてもよい。
第2の実施形態では、ユーザ3が、紙面ビューアーにおいて書込処理をすればするほど、自己に関心の高い記事が抽出されて閲覧しやすくなるという効果がある。
〔第3の実施形態〕
本発明の新聞電子版システムの別の実施形態は、第1、2の実施形態に加えて、各種機能を付与するものである。これら各種機能は単独で備えていてもよいし、複数同時に備えていてもよい。
(テキストデータの取得と他への応用)
本発明の実施形態によれば、ユーザ3は、紙面ビューアーにおいて書込処理をした箇所を、テキストデータとして取得することができる。これにより、ユーザ端末2においてテキストデータを貼り付けて別の作業に用いることも可能となる。このテキストデータは、ユーザ端末2が受領する書込原稿文字情報204から抽出することができる。
(書込処理位置の集計とその分析)
本発明の新聞電子版システムにより、新聞社は、ユーザ3が紙面ビューアーにおいて書込処理をしたテキストを正確に把握することができる。そこで、新聞社は、これらの情報を集計することで、読者がどのような内容に多く関心を示しているかを知ることができる。例えば、書込み処理がされたテキストの内容(企業名、人名など)や、書込み処理がされた記事の主題などの集計から、読者の関心事項や話題性を分析することが可能となる。新聞社は、これをその後のコンテンツ制作の参考にすることができる。
(書込処理の種類分け)
本発明の実施形態によれば、ユーザ3は、紙面ビューアーにおいて書込処理をする際に、種類を選択することができる。例えば、書込処理がハイライト表示である場合、黄色、オレンジ色、青色などのように色分けすることができる。これにより、ユーザ3は、目的ごとに色分けをしてより便利に書込処理をすることができる。
(テキスト検索)
本発明の実施形態によれば、ユーザ3は、過去に紙面ビューアーにおいて書込処理をしたテキストを一覧表示したり、その中からテキスト検索をしたりすることができる。これは、書込処理をしたテキストを記憶媒体に保管しておくことで容易に実現することができる。一覧表示としては、時系列に表示したり、五十音順に表示したりできる。
1 サーバ
2 ユーザ端末
3 ユーザ
4 入力装置
5 通信ネットワーク
11 読取部
12 認識部
13 第一記憶部
14 第一受信部
15 特定部
16 第一送信部
21 表示部
22 入力部
23 通信部
24 書込処理部
25 第二受信部
26 第二送信部
27 第二記憶部
101 文字領域情報
102 文字位置情報
103 文字領域・位置情報
104 原稿文字情報
105 対応情報
201 紙面ビューアー
202 テキストビューアー
203 書込文字位置情報
204 書込原稿文字情報
301、302 紙面ビューアー上の書込み
303、304 テキストビューアー上に反映された書込み
500 新聞電子版システム



Claims (4)

  1. 新聞紙面をオンラインで閲覧することができ、かつ、紙面ビューアーとテキストビューアーとの2通りの表示切替が可能である新聞電子版システムであって、
    前記新聞電子版システムは、サーバとユーザ端末とを備え、
    前記サーバは、
    前記紙面ビューアーに表示される新聞紙面画像を読み込む読取部と、
    前記新聞紙面画像の文字領域情報と文字位置情報とを紐づけて文字領域・位置情報として認識する認識部と、
    前記文字位置情報と新聞記事内容を構成する正確な原稿文字情報とを1:1で紐づける対応情報と、を保管する第一記憶部と、
    前記対応情報を元に、ユーザが書込処理を指示した文字領域の書込文字位置情報から、対応する書込原稿文字情報を特定する特定部と、
    前記文字領域・位置情報及び前記書込原稿文字情報を、前記ユーザ端末に送信する第一送信部と、
    前記ユーザ端末から送信された前記書込文字位置情報を受信する第一受信部と、を備え、
    前記ユーザ端末は、
    表示部、入力部、通信部と、
    前記文字領域・位置情報を保管する第二記憶部と、
    前記紙面ビューアーにおいて、ユーザからの書込指示を受けて前記文字領域情報に含まれる文字領域に沿った書込処理をすると共に、前記書込文字位置情報を特定する書込処理部と、
    前記書込文字位置情報を前記サーバに送信する第二送信部と、を備え、
    前記表示部は、前記テキストビューアーにおいて、前記原稿文字情報に対応する文字について、書込処理をして表示することを特徴とする新聞電子版システム。
  2. 前記書込処理が、ハイライト表示をする処理であることを特徴とする請求項1記載の新聞電子版システム。
  3. 前記サーバが、別途保管されている新聞記事データベースの中から、前記書込原稿文字情報に基づいて検索された関連度の高い別の新聞記事データを、前記ユーザ端末に送信することを特徴とする請求項1又は2のいずれか1項に記載の新聞電子版システム。
  4. 更に、前記新聞記事データには、予め前記書込原稿文字情報に対応する文字について、書込処理されていることを特徴とする請求項3に記載の新聞電子版システム。
JP2021178412A 2021-10-31 2021-10-31 新聞電子版システム Active JP7229318B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021178412A JP7229318B1 (ja) 2021-10-31 2021-10-31 新聞電子版システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021178412A JP7229318B1 (ja) 2021-10-31 2021-10-31 新聞電子版システム

Publications (2)

Publication Number Publication Date
JP7229318B1 true JP7229318B1 (ja) 2023-02-27
JP2023067314A JP2023067314A (ja) 2023-05-16

Family

ID=85320403

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021178412A Active JP7229318B1 (ja) 2021-10-31 2021-10-31 新聞電子版システム

Country Status (1)

Country Link
JP (1) JP7229318B1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013037419A (ja) 2011-08-04 2013-02-21 Dainippon Printing Co Ltd 手書き情報反映システム、手書き情報反映方法、およびプログラム
JP2017117125A (ja) 2015-12-22 2017-06-29 凸版印刷株式会社 文書校正サーバ、文書校正端末および文書校正システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013037419A (ja) 2011-08-04 2013-02-21 Dainippon Printing Co Ltd 手書き情報反映システム、手書き情報反映方法、およびプログラム
JP2017117125A (ja) 2015-12-22 2017-06-29 凸版印刷株式会社 文書校正サーバ、文書校正端末および文書校正システム

Also Published As

Publication number Publication date
JP2023067314A (ja) 2023-05-16

Similar Documents

Publication Publication Date Title
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
JP4509366B2 (ja) 文書上の情報をスキャンしてフォーマット化するシステム
US7801358B2 (en) Methods and systems for analyzing data in media material having layout
CN100568903C (zh) 显示控制装置、图像处理装置、显示控制方法
JP6826293B2 (ja) 情報処理システムと、その処理方法及びプログラム
US20130014007A1 (en) Method for creating an enrichment file associated with a page of an electronic document
CN103384896A (zh) 数字漫画编辑装置及其方法
WO2020187117A1 (zh) 附图页面的展示方法和装置、文本页面的展示方法和装置
JP4868224B2 (ja) 追記情報処理方法、追記情報処理装置、およびプログラム
US20140281948A1 (en) Information displaying apparatus, information editing method and non-transitory computer-readable storage medium
EP2565798A1 (en) Document processing device and program
JP7229318B1 (ja) 新聞電子版システム
US11010978B2 (en) Method and system for generating augmented reality interactive content
JP4278134B2 (ja) 情報検索装置及びプログラム並びに記録媒体
US20150095314A1 (en) Document search apparatus and method
CN113111881A (zh) 信息处理装置及记录媒体
CN113065316A (zh) 将方正小样文件动态转换成html并录入题库、从题库选题组稿并生成小样文件的方法
JP2016103150A (ja) 文書処理装置および文書処理プログラム
US20140111438A1 (en) System, method and apparatus for the transcription of data using human optical character matching (hocm)
JP2016173710A (ja) 情報入力装置、およびプログラム
JP3000349B2 (ja) キー入力編集方法及び編集装置
JPH1166065A (ja) 画像配置装置およびそのプログラム記録媒体
JP2020064428A (ja) コンテンツの表示方法および装置
CN111367478A (zh) 一种用于实验室仪器的数据交互打印系统及其打印方法
US11462014B2 (en) Information processing apparatus and non-transitory computer readable medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20221101

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230214

R150 Certificate of patent or registration of utility model

Ref document number: 7229318

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150