JP2024071936A - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP2024071936A
JP2024071936A JP2022182457A JP2022182457A JP2024071936A JP 2024071936 A JP2024071936 A JP 2024071936A JP 2022182457 A JP2022182457 A JP 2022182457A JP 2022182457 A JP2022182457 A JP 2022182457A JP 2024071936 A JP2024071936 A JP 2024071936A
Authority
JP
Japan
Prior art keywords
character string
information
handwritten
string
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022182457A
Other languages
English (en)
Inventor
亮 小坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2022182457A priority Critical patent/JP2024071936A/ja
Publication of JP2024071936A publication Critical patent/JP2024071936A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】手書きで追記された注釈がわかりやすく反映された要約文を生成する。【解決手段】手書き部分を含む入力画像を取得する。そして、前記入力画像から所定の手書き部分の領域である対象領域を抽出する。さらに、前記対象領域を手書き文字認識して第1の文字列を生成する。また、前記入力画像から活字文字列を抽出する。さらに、前記対象領域の情報に基づいて、抽出された活字文字列のうち、前記第1の文字列に関連する活字文字列である第2の文字列を決定して、前記第1の文字列の情報と前記第2の文字列を含む活字文字列の情報との間の関係性を推定する。そして、前記入力画像から抽出された活字文字列から、要約文を生成する。このとき、前記第1の文字列の情報と、前記第2の文字列の情報と、前記推定された関係性に応じた文字列とを用いて、前記要約文を生成する。【選択図】図4

Description

本発明は、画像から要約文を生成する技術に関する。
ユーザが様々な文書を読んで、その中から必要な情報を短時間で知り得たいという状況は多い。しかし、長い文書を理解するには労力と時間を必要とし、短時間で知り得ることは難しい。また、短時間で理解しようとすると、重要な内容を見落としやすくなってしまう。そのため、ユーザは文書を読み進めていく過程で、重要だと思った個所や気になる個所などにアンダーラインなどを引いたり、手書きでメモ書きを追記して残したりすることがある。そして、このような手書きの注釈が追記された文書を読む際には、手書きの注釈がなされた箇所を注目して理解を進めると効率良く内容を理解できる。また、従来から文書を入力すると、短い要約文を自動で生成するような技術開発が進められてきている。特許文献1は、文書中に追記された手書き注釈を要約文生成の際に活用するための技術を開示している。
特開2003-186889号公報
しかしながら、特許文献1では、手書きの注釈に手書き文字が含まれていた場合に、手書き文字を本文の要約に反映させることはできても、ユーザにとっては手書き文字と本文の要約との繋がりを理解しにくい場合があった。
そこで本発明は、手書きで追記された注釈がわかりやすく反映された要約文を生成することを目的とする。
本発明の情報処理装置は、手書き部分を含む入力画像を取得する画像取得手段と、前記入力画像から所定の手書き部分の領域である対象領域を抽出する対象領域抽出手段と、前記対象領域の画像を手書き文字認識して第1の文字列を生成する手書き文字列生成手段と、前記入力画像から活字文字列を抽出する活字文字列抽出手段と、前記対象領域の情報に基づいて、前記活字文字列抽出手段により抽出された活字文字列のうち、前記第1の文字列に関連する活字文字列である第2の文字列を決定する決定手段と、前記第1の文字列の情報と前記第2の文字列を含む活字文字列の情報との間の関係性を推定する推定手段と、前記活字文字列抽出手段により抽出された活字文字列から、要約文を生成する要約文生成手段と、を有し、前記要約文生成手段は、前記第1の文字列の情報と、前記第2の文字列の情報と、前記推定された関係性に応じた文字列とを用いて、前記要約文を生成することを特徴とする。
本発明によれば、手書きで追記された注釈がわかりやすく反映された要約文を生成することができる。
情報処理システムの全体構成例を示す図である。 各装置の構成例を示す図である。 情報処理システムの利用シーケンスを示す図である。 要約文生成処理を示すフローチャートである。 手書き注釈領域の抽出処理の説明図ある。 手書き注釈領域の抽出処理を示すフローチャートである。 印字情報解析処理を示すフローチャートである。 関係性推定処理の説明図である。 要約文生成処理の説明図である。 要約文の生成結果を示す図である。 要約文の生成結果を示す図である。 要約文の表示画面を示す図である。
以下、本発明の実施形態について、図面を参照して説明する。
[実施形態1]
<情報処理システム>
図1は、情報処理システムの全体構成例を示す図である。図1に示すように、情報処理システム100は、情報処理装置101及び情報処理サーバ103で構成される。情報処理装置101及び情報処理サーバ103は、ネットワーク104を介して互いに接続される。情報処理システム100は、情報処理装置101及び情報処理サーバ103が1台ずつで構成されてもよく、複数台ずつで構成されてもよい。例えば、情報処理サーバ103は、高速演算リソースと有する第1のサーバ装置と、大容量ストレージを有する第2のサーバ装置で構成され、ネットワーク104を介して互いに接続された構成であってもよい。
情報処理装置101は、プリント、スキャン、FAXのように複数の機能を備えたMFP(Multi-Function Peripheral)などで実現されるものであって、画像取得部として機能する。情報処理装置101は、画像取得部によって、紙などの記憶媒体に印字された原稿111を光学的に読み取り、所定のスキャン処理を行うことで文書画像113を生成して、情報処理サーバ103に送信する。この原稿111は、手書きの注釈が追記された活字文書である。また、情報処理装置101は、例えば、画像取得部によって、不図示のFAX送信機から送信されたFAXデータ112を受信し、所定のFAX処理を行うことで文書画像113を生成して、情報処理サーバ103に送信する。なお、情報処理装置101は、前述したスキャンやFAXの機能を備えたMFP以外に、PC(Personal Computer)などで実現される構成であってもよい。具体的には、情報処理装置101としてのPC上で動作する文書作成アプリケーションを用いて生成された、PDFやJPEG等の文書画像113を、情報処理サーバ103に送信してもよい。
情報処理サーバ103は、情報処理部と記憶部とで構成される。情報処理サーバ103の情報処理部は、情報処理装置101から受信した文書画像113に対して、文書画像内の手書き注釈領域の抽出処理を実行する。手書き注釈領域は、矢印線等の手書き注釈記号及び当該手書き注釈記号の周囲の手書き文字の領域である。手書き注釈領域は、処理の対象領域の一例である。また、情報処理サーバ103の情報処理部は、文書画像113の手書き注釈領域をOCR処理(文字認識処理)して、手書き文字列データを生成する。そして、情報処理サーバ103の情報処理部は、文書画像113から手書き部分を除外した文書画像に対して、文書画像内のレイアウトを解析するレイアウト解析処理及びOCR処理を実行して、レイアウト情報及び活字文字列データを取得する。更に、情報処理サーバ103の情報処理部は、文書画像113内の活字文字列データを用いて要約文を生成する。本実施形態では、手書き注釈領域から得られた手書き文字列データと、手書き注釈領域に関連する位置にある活字文字列データとの関係性を推定し、推定した結果を用いて要約文を生成する。情報処理サーバ103の記憶部は、情報処理部によって得られた手書き注釈領域の情報、レイアウト情報、活字文字列データ、及び生成された要約文などのデータを記憶する。
ネットワーク104は、LANやWAN等で実現されるものであって、情報処理装置101、情報処理サーバ103の間を互いに接続して、装置間でデータを送受信するための通信部である。
<装置構成>
図2は、図1の情報処理システム100を実現するための情報処理装置101、情報処理サーバ103の構成例を示す図である。
図2(a)は、情報処理装置101の構成を示す図である。図2(a)に示すように、情報処理装置101は、CPU201、ROM202、RAM204、プリンタデバイス205、スキャナデバイス206、ストレージ208、外部インタフェース211等で構成され、データバス203を介して互いに接続される。
CPU201は、情報処理装置101における動作全体を制御するための制御部である。CPU201は、ROM202に記憶された起動プログラムを実行することで、情報処理装置101のシステムを起動し、ストレージ208に記憶された制御プログラムを実行することで、情報処理装置101のプリント、スキャン、FAX等の機能を実現する。
ROM202は、不揮発性メモリで実現されるものであって、情報処理装置101を起動する起動プログラムを格納するための記憶部である。
データバス203は、情報処理装置101を構成するデバイス間で相互にデータを送受信するための通信部である。
RAM204は、揮発性メモリで実現されるものであって、CPU201が制御プログラムを実行する際のワークメモリとして使用される記憶部である。
プリンタデバイス205は、画像出力デバイスであって、情報処理装置101の内部の文書画像を紙などの記憶媒体に印字して印刷出力するための処理部である。
スキャナデバイス206は、画像入力デバイスであって、文字や図表等が印字された紙などの記憶媒体を光学的に読み取って文書画像として取得するための処理部である。
原稿搬送デバイス207は、ADF(Auto Document Feeder)等で実現されるものであって、原稿台に載置された原稿を検知し、検知した原稿を1枚ずつスキャナデバイス206に搬送するための処理部である。
ストレージ208は、HDD(Hard Disk Drive)等で実現されるものであって、前述の制御プログラムや文書画像を記憶するための記憶部である。
入力デバイス209は、タッチパネルやハードキー等で実現されるものであって、ユーザからの情報処理装置101に対する操作入力を受け付けるための処理部である。
表示デバイス210は、液晶ディスプレイ等で実現されるものであって、情報処理装置101の設定画面をユーザに対して表示出力するための表示部である。
外部インタフェース211は、情報処理装置101とネットワーク104との間を接続するものであって、不図示のFAX送信機からFAXデータを受信したり、情報処理サーバ103に対して文書画像を送信したりするためのインタフェース部である。
図2(b)は、情報処理サーバ103の構成を示す図である。図2(b)に示すように、情報処理サーバ103は、CPU231、ROM232、RAM234、ストレージ235、入力デバイス236、表示デバイス237、外部インタフェース238、GPU239で構成され、データバス233を介して互いに接続される。
CPU231は、情報処理サーバ103における動作全体を制御するための制御部である。CPU231は、ROM232に記憶されたブートプログラムを実行することで、情報処理サーバ103のシステムを起動し、ストレージ235に記憶された情報処理プログラムを実行する。これによりCPU231は、与えられた文書画像に対し、手書き注釈領域の抽出、レイアウト解析、OCR処理、文字列データ間の関係性の推定、要約文の生成などの各種の情報処理を実行する。
ROM232は、不揮発性メモリで実現されるものであって、情報処理サーバ103を起動するブートプログラムを格納するための記憶部である。
データバス233は、情報処理サーバ103を構成するデバイス間で相互にデータを送受信するための通信部である。
RAM234は、揮発性メモリで実現されるものであって、CPU231が情報処理プログラムを実行する際のワークメモリとして使用される記憶部である。
ストレージ235は、HDD等で実現されるものであって、前述の情報処理プログラム、文書画像113、手書き注釈領域の情報、レイアウト情報、活字文字列データ、及び生成された要約文などのデータを記憶するための記憶部である。
入力デバイス236は、マウスやキーボード等で実現されるものであって、情報処理サーバ103に対するユーザからの操作入力を受け付けるための処理部である。
表示デバイス237は、液晶ディスプレイ等で実現されるものであって、情報処理サーバ103の設定画面をユーザに対して表示出力するための表示部である。
外部インタフェース238は、情報処理サーバ103と、ネットワーク104との間を接続するものであって、情報処理装置101から文書画像113を受信したり、複数の情報処理サーバ103間でデータを送受信したりするためのインタフェース部である。
GPU239は、画像処理プロセッサで構成された演算部である。GPU239は、CPU231の制御により、文書画像から手書き注釈情報を抽出したり、文書画像の本文から活字文字列を抽出したり、手書き注釈情報から得られた手書き文字列と本文から得られた活字文字列との関係性を解析したりする演算を実行する。
<利用シーケンス>
図3は、図1の情報処理システム100の利用シーケンスを示す図である。
図3は、ユーザからの要求に対して、情報処理サーバ103が、文書画像113に含まれる文字列から要約文を生成して出力する流れを説明する図である。図3に示すように、情報処理システム100を利用するユーザは、文書画像113における要約文を生成するために、情報処理装置101に原稿111を載置して原稿のスキャン実行を指示する(S301)。これを受けて、情報処理装置101は、スキャンして取得した文書画像113を、情報処理サーバ103に対して送信する(S302)。次に、情報処理サーバ103は、S302で送信された文書画像113を受信し、受信した文書画像113に対して要約文生成処理を実行して、文書画像113に含まれる文字列から要約文を生成する(S303)。文書画像113は、入力画像の一例である。要約文生成処理の詳細は、図4を用いて後述する。その後、情報処理サーバ103は、S303で生成された要約文を、情報処理装置101の表示デバイス210などに表示するなどして、ユーザに対して出力する(S304)。以上で利用シーケンスが終了する。
<要約文生成処理>
図4は、情報処理サーバ103が文書画像113の要約文を生成する流れを説明するフローチャートである。なお、図4で示す各ステップの実行プログラムは、情報処理サーバ103のROM232、ストレージ235のいずれかに記憶され、CPU231、GPU239のいずれかによって実行される。
S401において、CPU231は、要約文を生成する対象である文書画像として、図3のS301でユーザのスキャン操作によって取得された文書画像113を取得する。以下では、図9(a)に示すような手書き注釈が追記された文書画像900が取得された場合について説明を行う。文書画像900は、入力画像の一例である。
次にS402において、CPU231は、S401で取得された文書画像900中から手書き注釈情報の領域を抽出する。図5(a)は、手書き注釈情報の例を示す図である。図5(a)に示すように、手書き注釈情報には、蛍光ペンによるハイライト表示501、アンダーライン502や丸囲み503による強調表示、取り消し線504や挿入記号505などの編集記号、吹き出し506や矢印線507などの指示表示がある。また、手書き注釈情報は、上記のような手書き注釈記号に加えて、手書き注釈記号の周囲にある手書き文字も含む。図5(a)の例では、挿入記号505の下側にある手書き文字509や、吹き出し506の内側にある手書き文字510や、矢印線507の始点にある手書き文字508である。手書き注釈領域を抽出する方法の一例として機械学習モデルを用いた方法について説明する。
次に図6を用いて、手書き注釈領域を抽出する方法の一例として機械学習モデルを用いた方法について説明する。図6(a)は、文書画像中から手書き注釈領域を抽出するための学習済モデルを生成する処理を示すフローチャートである。なお、ここで生成される学習済モデルは、手書き注釈情報が追記された文書画像から、画素ごとに各手書き注釈情報らしさを示す確率値を示す確率マップに変換できるような変換部として形成される。本フローチャートの処理は、CPU231がGPU239と協働して実行してもよい。手書き注釈領域を抽出する処理は、処理の対象領域を抽出する対象領域抽出処理の一例である。
まずS601において、CPU231は、学習モデルとして用いられるニューラルネットワークを構成する重みパラメータの値を初期化する。例えば、ニューラルネットワークを構成する重みパラメータをランダムな値に設定したり、前回学習済の値をロードして再設定したりする。
次にS602において、CPU231は、図5(a)に示すような手書き注釈情報が記載された入力データ500と、入力データ内の各手書き注釈情報が記述された箇所を特定するための正解画素マップのペアを学習データとして取得するように制御する。例えば、図5(b)の正解画素マップ511は、画像内のアンダーラインや取り消し線のような手書き線分が記載された画素を特定するためのマップ情報であり、手書き線分が存在する画素には1を、未記入の画素に0を格納したものである。正解画素マップ512は丸囲みの記入位置を特定するマップ情報である。正解画素マップ513は矢印線の記入位置を特定するマップ情報である。正解画素マップ514は、手書き文字の記入位置を特定するマップ情報である。ニューラルネットワークは、入力データを入力すると、画素ごとに各手書き注釈情報らしさの確率値を出力するように学習を行う。
次にS603において、CPU231は、S601で準備したニューラルネットワークに対して入力データを入力した際の推定された各ラベルに対する確率値と、入力データとペアとなっている正解画素マップとの間での誤差計算する演算を実行するよう制御する。
次にS604において、CPU231は、一般に、誤差逆伝搬法(バックプロパゲーション)と呼ばれる、学習モデルの重みパラメータの値を更新する演算を実行するように制御する。
次にS605において、CPU231は、所定の学習回数だけ演算処理が終了したか否かを判定する。ここで、CPU231が所定の学習回数が終了していないと判定した場合(S605でNO)、S602に遷移してS602~S604の演算を繰り返す。一方、CPU231が所定の学習回数が終了したと判定した場合(S605でYES)、S606に遷移する。
次にS606において、CPU231は、学習済モデルのニューラルネットワークを構成する重みパラメータの値をストレージ235等の記憶部に保存する。以上で本フローチャートの処理が終了する。
図6(b)は、図6(a)で生成された手書き注釈情報抽出モデルを用いて、手書き注釈領域を抽出する処理を示すフローチャートである。
まずS611において、CPU231は、S606でストレージ235に保存された学習済モデルを取得する。
次にS612において、CPU231は、S401で取得された文書画像を入力データとして、S611で取得した学習済モデルに入力し、各手書き注釈情報に対する確率マップを生成する。そして、所定の閾値以上の確率値を持つ画素の領域を手書き注釈領域として抽出する。図9(a)の文書画像900を入力した場合、図9(b)に示すような手書き注釈領域910が抽出される。ここでは、手書き注釈領域として、矢印線911,914、手書き文字912,915、及びアンダーライン913の領域が抽出されている。
次にS613において、CPU231は、S612で抽出された手書き文字に対してOCR処理を行うことで手書き文字列を生成する。図9(b)の例では、CPU231が、手書き文字912,915に対してOCR処理(手書き文字認識処理)を行うことで、手書き文字列を生成する。CPU231は、手書き文字列生成手段の一例である。以上で本フローチャートの処理が終了する。
図4に戻る。S403において、CPU231は、S401で取得した文書画像の印字情報を解析する。具体的には、CPU231は、文字列/段落/線/表などの詳細な属性情報を判定し、それぞれの属性情報を持つ領域に分割するレイアウト分割処理と、文字列に対する文字認識処理を行う。印字情報解析処理について、図7を用いて説明を行う。
図7は、印字情報解析処理を示すフローチャートである。
まずS701において、CPU231は、S401で取得した文書画像から手書き部分を除去することで、もともと印刷されていた印字情報のみが抽出された文書画像を生成する。本実施形態では、CPU231が、図9(a)に示す文書画像900から、S402で抽出された手書き注釈領域910を除去することで、印字情報を抽出する。図9(c)は、印字情報のみ抽出された文書画像920を示す。このとき、CPU231は、手書き注釈情報と印字情報とが重なっている部分については、周囲の印字情報色を使って色補正するなど印字情報が欠損しないような処理を行ってもよい。
次にS702において、CPU231は、S701で印字情報のみ抽出された文書画像920に対して二値化処理を行うことで白黒の二値画像を生成する。
次にS703において、CPU231は、黒画素輪郭で囲まれる画素の塊を抽出する。本実施形態では、CPU231は、S702で生成された二値画像に対して輪郭線追跡を行うことで抽出する。なお、輪郭線追跡で得られた黒画素の塊の面積が所定の面積よりも大きい場合については、内部にある白画素に対しても輪郭線追跡を行い、白画素の塊を抽出する。そして、CPU231は、更に一定面積以上の白画素の塊の内部から再帰的に黒画素の塊を抽出することを繰り返す。
次にS704において、CPU231は、S703で得られた黒画素の塊に対し、大きさ及び形状で分類し、異なる属性情報を持つ領域へ分類する。例えば、縦横比が1に近く、大きさが一定の範囲のものは文字相当の画素塊とする。また、近接する文字が整列よくグループ化されている部分は文字列領域とし、複数の文字列領域が整列よくグループ化されている部分領域は段落領域とする。また、扁平な画素塊は線領域とする。また、一定大きさ以上で且つ四角系の白画素塊を整列よく内包する黒画素塊の占める範囲は表領域とする。また、不定形の画素塊が散在している領域は写真領域とする。そして、それ以外の任意形状の画素塊はオブジェクト領域とする。なお、属性情報はこれらに限られない。CPU231は、さらに詳細に解析を行うことで、罫線なしの表領域を推定したり、オブジェクトの種類を線画、スタンプなどと細分化したりしても構わない。このようにしてCPU231は、S401で取得した文書画像から活字文字領域を抽出する。
最後にS705において、CPU231は、S704で抽出された活字文字領域に対してOCR処理(活字文字認識処理)を行うことで、活字文字列を生成する。CPU231は、活字文字列抽出手段の一例である。以上で本フローチャートの処理が終了する。
図4に戻る。S404において、CPU231は、S403で得られた活字文字列のうち、S402で抽出された手書き注釈領域内の手書き注釈記号が指し示す活字文字列を、注目文字列に決定する。以下、手書き注釈記号が矢印線である場合を例に説明する。本実施形態において、まずCPU231は、S402で抽出された手書き注釈領域から、矢印線を特定し、矢印線の始点/終点位置近傍、又は矢印線に沿った位置にある手書き文字列を特定する。次にCPU231は、S403で得られた活字文字列のうち、矢印線の始点/終点位置に最も近い活字文字を特定し、特定した活字文字を含む単語/文節/文を注目文字列に決定する。このようにCPU231は、手書き注釈記号を用いて、手書き文字列に関連付く活字文字列を決定する。手書き注釈記号が吹き出しであって、吹き出しの内側に手書き文字列がある場合には、CPU231は、吹き出しの起点近傍の活字文字列を注目文字列に決定してもよい。
またCPU231は、複数の手書き注釈記号同士や手書き文字列同士の関連付けを行ってもよい。手書き文字列同士の関連付けを行う例としては、活字文字列の近傍を始点にした矢印の終点に手書き文字列があり、その手書き文字列の近傍を始点にした矢印の終点に更に手書き文字列があるような場合がある。またCPU231は、複数の手書き注釈記号を用いて注目文字列を決定してもよい。図9(d)を用いて、注目文字列を決定する方法について具体的に説明する。図9(d)では、矢印線914の始点位置の近傍に手書き文字915があり、矢印線914の終点位置の近傍にアンダーライン913がある。この場合CPU231は、アンダーライン913によって強調表示された活字文字列を注目文字列931に決定する。つまり、手書き文字915と注目文字列931が関連付けられる。
次にS405において、CPU231は、手書き注釈領域内の手書き文字列の情報と当該手書き文字列に関連付けられた注目文字列を含む文情報との関係性を推定する。関係性としては、注目文字列の内容を分かりやすくするため手書き文字で別の表現に言い換える「並列関係」、注目文字列の内容に手書き文字で補足情報を付け加える「累加関係」がある。また、注目文字列の内容の原因を手書き文字で表す「因果関係」、注目文字列の内容をイメージしやすくするために手書き文字で事例を追記するような「例示関係」もある。また、注目文字列の内容と相反する内容を手書き文字で表す「逆説関係」、注目文字列の内容と対比する内容を手書き文字で表す「対比関係」などもある。関係性は、これらに限られない。関係性を推定する方法の一例として、機械学習モデルを用いた方法について説明する。なお、関係性を推定する際には、TF-IDFなどの手法を用いた文章内の単語の出現頻度、Word2Vecなどの手法を用いた文章内の単語の分散表現、Sent2Vecなどの手法を用いた文章自体の分散表現などの特徴量を使って比較しても構わない。また、CPU231は、手書き文字列の情報(単語情報、文情報)と、注目文字列を含む文情報との間の意味的な関係性を推定してもよい。また、CPU231は、手書き文字列の情報(単語情報、文情報)から抽出された意味情報と、注目文字列を含む文情報から抽出された意味情報との関係性を推定してもよい。更に、CPU231は、注目文字列の前後の単語や文節を含む文字列情報、注目文字列を含む文章情報、段落情報、これらの情報から抽出された意味情報との関係性を推定してもよい。
図6(a)及び図8を用いて、手書き注釈領域内の手書き文字列の情報と当該手書き文字列に関連付けられた注目文字列を含む文情報との間の関係性を推定する方法の一例として機械学習モデルを用いた方法について説明する。なお、関係性を推定するための学習済みモデルを生成する処理は、図6(a)を用いて説明した処理と同様の処理を行えばよい。以下では、差分となる処理についての説明を行う。なお、ここで生成される学習済モデルは、手書き文字列と注目文字列を含む文情報とを入力すると、文字列同士の関連性の確率値が推定できるような変換部として形成される。
まずS601において、CPU231は、モデルパラメータの初期値を取得する。
次にS602において、CPU231は、学習データを取得する。例えば、図8(a)に示すような2つの文と関係性の正解値のペアを学習データとして用いればよい。このとき2つの文にはそれぞれ、短文/長文のような文書形式に限らず、単語列のような手書きで追記されるような単純な表記など、様々な表記を含めるようにする。
次にS603において、CPU231は、GPU239を用いて、2つの入力文を入力すると、各関係性に対する確率値を出力する。そして、2つの入力文とペアとなっている関係性の正解値との間での誤差を算出する。
そしてS604において、CPU231は、GPU239を用いて、算出された誤差に基づきモデルパラメータを更新する。
CPU231は、以上のようなS602~S604の処理を所定回数繰り返す(S605)。所定回数繰り返すと、S606において、CPU231は、学習済モデルのニューラルネットワークを構成する重みパラメータの値をストレージ235等の記憶部に保存する。以上で本フローチャートの処理が終了する。
図8(b)は、図6(a)で生成された関係性推定モデルを用いて、手書き注釈領域内の手書き文字列の情報と当該手書き文字列に関連付けられた注目文字列を含む文情報との関係性を推定する処理を示すフローチャートである。
まずS811において、CPU231は、S606でストレージ235に保存された学習済モデルを取得する。
次にS812において、CPU231は、手書き文字列のデータと、注目文字列を含む文情報のデータのペアを入力データとし、データ同士の関係性に対する確率値を取得して、最大確率値を持つ関係性をデータ間の関係性であると推定する。以上のようにして、CPU231は、手書き注釈領域内の手書き文字列の情報と、当該手書き文字列に関連する注目文字列を含む文情報との間の関係性を、推定する。以上で本フローチャートの処理が終了する。
ここでは、図9(d)の手書き文字915と文情報930とを入力として関係性を推定することで、図9(e)に示すようにすべての関係性に対する確率値が得られる。最大確率0.95となる関係性が対比関係であるため、手書き文字915と文情報930とが対比関係であると推定される。なお、入力には注目文字列931だけではなく、注目文字列931の前後の文字列を含めても構わない。また、注目文字列931を含む文情報、文章情報、段落情報などを入力しても構わない。また、注目文字列931や手書き文字915から抽出された意味情報、言語表現を変えた文書情報などを入力しても構わない。
図4に戻る。CPU231は、S403で文書画像920から得られた活字文字列を用いて要約文を生成する。要約文生成に関しては、公知の手法である入力文書の重要箇所を抽出して並べることで要約文を生成する抽出的手法や、入力文書中の文や単語に限定せずにさまざまな言語表現を用いて要約文を生成する生成的手法を用いることができる。本実施形態において、CPU231は、手書き注釈領域内の手書き文字列と、当該手書き文字列に関連する注目文字列との間を、S405で推定された関係性に応じた文字列を用いて連結させて、要約文に挿入する。図10は、図9(a)の文書画像900から生成される要約文の例を示している。図10(a)は、手書き注釈情報を考慮せずに生成された要約文である。図10(b)は手書き注釈情報を考慮して生成された要約文である。図10(b)では、手書き注釈情報が反映されて、要約文の内容を充実させることができている。
要約文の一部である文字列1001では、手書き文字912が表す「11~25歳くらい」と、矢印線911で指示された活字文字列が表す「Z世代」との間が、並列関係を表す「を意味する」という文字列で連結されている。また、要約文の一部である文字列1002では、手書き文字915が意味する「お金はかけたくない」と、矢印線914で指示された注目文字列931が意味する「早く試してみたい」との間が、対比関係を表す「が」という文字で連結されている。このようにCPU231は、S405で推定された関係性ごとに異なる接続語を用いて、要約文を生成する。手書き注釈内の文字を要約文に単に挿入するだけでは、本文の要約との繋がりが理解しにくい場合があるが、手書き文字と本文の要約との間が、両者の関係性に応じた文字列で補完されているため、手書き文字と本文の要約との繋がりが理解しやすくなる。
図11は、要約文の生成例を示す図である。図11(a)に示すように、手書き注釈領域内の手書き文字列である「共働きの子供のいない夫婦」が、入力文書内の注目文字列である「DINKs層」に矢印線で関連付けられている場合を例に説明する。この場合CPU231は、「共働きの子供のいない夫婦」と、「DINKs層」の前後の文字列を含む文情報との間の関係性を推定する。そしてCPU231は、図11(b)に示すように、推定された各関係性(並列、累加、因果、例示、逆説)に応じた文字列を用いて、「共働きの子供のいない夫婦」と「DINKs層」との間を連結して、要約文に挿入する。なお、図11(b)の関係性の推定結果が異なっている理由としては、注目文字列である「DINKs層」の前後の文字列を含めて関係性を推定しており、その前後の文字列がそれぞれ異なっているためである。
以上述べたように、実施形態1によれば、入力文書中から手書きの注釈を抽出し、本文との関係性を推定した上で、推定された関係性を用いて、本文の要約に盛り込むことができる。これにより、ユーザは本文の要約と手書き注釈との関係性を理解しやすくなる。
[実施形態2]
実施形態1では、手書き注釈情報を反映した要約文を生成する方法について説明した。本実施形態では、要約文の生成に関して修正を行えるUI画面について説明する。
図12は、本実施形態に係るUI画面の一例を示す。UI画面1100は、図4のS406の処理の後で、CPU231の制御により、情報処理サーバ103の表示デバイス237に表示される画面である。なお、UI画面1100は、情報処理装置101の表示デバイス210に表示されてもよい。UI画面1100は、入力された文書画像900を表示するプレビュー表示部1101、生成された要約文を表示する要約文表示部1102、要約文の再生成を行うための再生成ボタン1103、及び確認/修正作業を終了する終了ボタン1104で構成される。CPU231は、UI画面1100を用いて、入力された文書画像900と生成された要約文とを同時に表示デバイス210に表示するよう制御する。
CPU231は、プレビュー表示部1101で表示される図9(a)の文書画像900上の、手書き注釈情報であることで要約文に用いられた文字列の位置と、自動要約により要約文に用いられた文字列の位置とに、それぞれ異なるハイライト表示を行う。手書き注釈情報であることで要約文に用いられた文字列とは、手書き注釈領域内の手書き文字列と、当該手書き文字列に関連する注目文字列である。ハイライト表示は、表示アイテムの一例である。これにより、ユーザは要約文表示部1102に表示される要約文と照らし合わせて要約文に用いられた箇所を簡単に確認することができる。さらにユーザは、プレビュー表示部1101上のマウス操作により、要約文の生成条件を変更することができる。
CPU231は、入力デバイス236としてのマウス1111により、自動要約によるハイライトの部分のクリックを検出すると、クリックされた箇所の近傍に、条件変更メニュー1112を重畳表示する。ユーザは条件変更メニュー1112に表示される詳細化、簡略化、及び削除のアイコンを選択することで、要約文の詳細化、簡略化等の修正を指示することができる。詳細化が選択されると、CPU231は、クリックされた箇所の前後の文字列を使ってより要約内容を詳細化する。簡略化が選択されると、CPU231は、クリックされた箇所の内容から重要部をさらに抽出して簡略化する。削除が選択されると、CPU231は、要約文からクリックされた箇所の内容を削除する。
またCPU231は、入力デバイス236としてのマウス1121により、手書き注釈情報のハイライトの部分のクリックを検出すると、クリックされた箇所の近傍に、条件変更メニュー1122を表示する。ユーザは条件変更メニュー1122を操作することで、手書き注釈と本文との関係性の修正を指示することができる。条件変更メニュー1122内には、対比、並列、例え、などの関係性の種類が表示されている。CPU231は、条件変更メニュー1122におけるユーザの選択操作により、手書き注釈と本文との関係性の変更を受け付ける。CPU231は、条件変更メニュー1122で選択された関係性の種類に応じて、手書き文字列と注目文字列とを繋ぐ文字列を変更する。
再生成ボタン1103が押下されると、CPU231は、指定された要約文生成条件を反映して要約文を再生成して、要約文表示部1102の内容を更新する。終了ボタン1104が押下されると、CPU231は、UI画面1100を閉じる。
以上述べたように、実施形態2によれば、要約文の確認/修正を行うためのUI画面1100を提供したことで、ユーザは要約文を生成した際に要約文に用いられた箇所を容易に確認できる。これにより、周囲の情報も併せて確認することでより理解度を深めながら、短時間で内容の理解を進めることが可能となる。さらに、ユーザは要約文の生成条件を変更でき、所望の要約詳細化レベルとなるように条件を変更したり、手書き注釈と本文との関係性を正しく修正したりすることができる。これにより、ユーザの求めている要約文への修正が容易に行えるようになる。
以上、本発明を実施形態と共に説明したが、上記実施形態は本発明を実施するにあたり具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
上述の各実施形態では、手書きの注釈が追記された原稿をスキャンして得られた文書画像を処理対象の入力画像として説明したが、入力画像としては、スキャン画像に限られない。表示ディスプレイに表示された文書画像に対して、ペンデバイス等の手書き入力用デバイスを用いて手書きの注釈情報が付加された文書画像を、入力画像としてもよい。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本実施形態の開示は、以下の構成、方法及びプログラムを含む。
(構成1)
手書き部分を含む入力画像を取得する画像取得手段と、
前記入力画像から所定の手書き部分の領域である対象領域を抽出する対象領域抽出手段と、
前記対象領域の画像を手書き文字認識して第1の文字列を生成する手書き文字列生成手段と、
前記入力画像から活字文字列を抽出する活字文字列抽出手段と、
前記対象領域の情報に基づいて、前記活字文字列抽出手段により抽出された活字文字列のうち、前記第1の文字列に関連する活字文字列である第2の文字列を決定する決定手段と、
前記第1の文字列の情報と前記第2の文字列を含む活字文字列の情報との間の関係性を推定する推定手段と、
前記活字文字列抽出手段により抽出された活字文字列から、要約文を生成する要約文生成手段と、
を有し、
前記要約文生成手段は、前記第1の文字列の情報と、前記第2の文字列の情報と、前記推定された関係性に応じた文字列とを用いて、前記要約文を生成することを特徴とする情報処理装置。
(構成2)
前記推定手段は、前記第1の文字列の情報と、前記第2の文字列の情報との間を、前記推定された関係性に応じた文字列で連結させて、前記要約文に含めることを特徴とする構成1に記載の情報処理装置。
(構成3)
前記要約文生成手段は、前記推定手段で推定された関係性に応じて連結させる文字列を異ならせることを特徴とする構成2に記載の情報処理装置。
(構成4)
前記推定手段は、例示、累加、因果、例示、逆説、及び対比のうちの少なくとも何れかの関係性であることを推定することを特徴とする構成1乃至3の何れか1つに記載の情報処理装置。
(構成5)
前記推定手段は、前記第1の文字列の情報と、前記第2の文字列の前後の活字文字列を含む文情報との間の関係性を推定することを特徴とする構成1乃至4の何れか1つに記載の情報処理装置。
(構成6)
前記対象領域抽出手段は、手書き注釈記号と、前記手書き注釈記号の周囲にある手書き文字の領域を抽出し、
前記手書き文字列生成手段は、前記手書き文字の領域から前記第1の文字列を生成することを特徴とする構成1乃至5の何れか1つに記載の情報処理装置。
(構成7)
前記決定手段は、前記手書き注釈記号が指し示す位置にある活字文字列を、前記第2の文字列に決定することを特徴とする構成6に記載の情報処理装置。
(構成8)
前記手書き注釈記号は、矢印線であり、
前記第1の文字列は、前記矢印線の始点、終点又は矢印線に沿った位置にある手書き文字列であり、
前記第2の文字列は、前記矢印線の始点又は終点の位置にある活字文字列であることを特徴とする構成6に記載の情報処理装置。
(構成9)
前記推定手段は、前記第1の文字列の情報と前記第2の文字列を含む活字文字列の情報とを学習モデルに入力することにより、前記関係性を推定することを特徴とする構成1乃至8の何れか1つに記載の情報処理装置。
(構成10)
前記入力画像と前記要約文とを表示するよう制御する表示制御手段を更に有し、
前記表示制御手段は、前記入力画像上の前記要約文に用いた活字文字列の位置に表示アイテムを表示し、前記第2の文字列の位置に表示する表示アイテムと、前記第2の文字列以外の活字文字列の位置に表示する表示アイテムとを異ならせることを特徴とする構成1乃至9の何れか1つに記載の情報処理装置。
(構成11)
前記推定手段により推定された前記関係性を変更するため操作を受け付けるための受付手段を更に有することを特徴とする構成1乃至10の何れか1つに記載の情報処理装置。
(構成12)
前記対象領域抽出手段は、前記入力画像を学習モデルに入力することにより、前記入力画像における画素ごとの前記所定の手書き部分らしさを表す確率マップを生成することを特徴とする構成1乃至11の何れか1つに記載の情報処理装置。
(方法)
手書き部分を含む入力画像を取得する画像取得ステップと、
前記入力画像から所定の手書き部分の領域である対象領域を抽出する対象領域抽出ステップと、
前記対象領域の画像を手書き文字認識して第1の文字列を生成する手書き文字列生成ステップと、
前記入力画像から活字文字列を抽出する活字文字列抽出ステップと、
前記対象領域の情報に基づいて、前記活字文字列抽出ステップにより抽出された活字文字列のうち、前記第1の文字列に関連する活字文字列である第2の文字列を決定する決定ステップと、
前記第1の文字列の情報と前記第2の文字列を含む活字文字列の情報との間の関係性を推定する推定ステップと、
前記活字文字列抽出ステップにより抽出された活字文字列から、要約文を生成する要約文生成ステップと、
を含み、
前記要約文生成ステップでは、前記第1の文字列の情報と、前記第2の文字列の情報と、前記推定された関係性に応じた文字列とを用いて、前記要約文を生成することを特徴とする情報処理方法。
(プログラム)
情報処理装置のコンピュータを、
手書き部分を含む入力画像を取得する画像取得手段と、
前記入力画像から所定の手書き部分の領域である対象領域を抽出する対象領域抽出手段と、
前記対象領域の画像を手書き文字認識して第1の文字列を生成する手書き文字列生成手段と、
前記入力画像から活字文字列を抽出する活字文字列抽出手段と、
前記対象領域の情報に基づいて、前記活字文字列抽出手段により抽出された活字文字列のうち、前記第1の文字列に関連する活字文字列である第2の文字列を決定する決定手段と、
前記第1の文字列の情報と前記第2の文字列を含む活字文字列の情報との間の関係性を推定する推定手段と、
前記活字文字列抽出手段により抽出された活字文字列から、要約文を生成する要約文生成手段、
として機能させるプログラムであって、
前記要約文生成手段は、前記第1の文字列の情報と、前記第2の文字列の情報と、前記推定された関係性に応じた文字列とを用いて、前記要約文を生成することを特徴とするプログラム。
100:情報処理システム、101:情報処理装置、103:情報処理サーバ

Claims (14)

  1. 手書き部分を含む入力画像を取得する画像取得手段と、
    前記入力画像から所定の手書き部分の領域である対象領域を抽出する対象領域抽出手段と、
    前記対象領域の画像を手書き文字認識して第1の文字列を生成する手書き文字列生成手段と、
    前記入力画像から活字文字列を抽出する活字文字列抽出手段と、
    前記対象領域の情報に基づいて、前記活字文字列抽出手段により抽出された活字文字列のうち、前記第1の文字列に関連する活字文字列である第2の文字列を決定する決定手段と、
    前記第1の文字列の情報と前記第2の文字列を含む活字文字列の情報との間の関係性を推定する推定手段と、
    前記活字文字列抽出手段により抽出された活字文字列から、要約文を生成する要約文生成手段と、
    を有し、
    前記要約文生成手段は、前記第1の文字列の情報と、前記第2の文字列の情報と、前記推定された関係性に応じた文字列とを用いて、前記要約文を生成することを特徴とする情報処理装置。
  2. 前記推定手段は、前記第1の文字列の情報と、前記第2の文字列の情報との間を、前記推定された関係性に応じた文字列で連結させて、前記要約文に含めることを特徴とする請求項1に記載の情報処理装置。
  3. 前記要約文生成手段は、前記推定手段で推定された関係性に応じて連結させる文字列を異ならせることを特徴とする請求項2に記載の情報処理装置。
  4. 前記推定手段は、例示、累加、因果、例示、逆説、及び対比のうちの少なくとも何れかの関係性であることを推定することを特徴とする請求項1に記載の情報処理装置。
  5. 前記推定手段は、前記第1の文字列の情報と、前記第2の文字列の前後の活字文字列を含む文情報との間の関係性を推定することを特徴とする請求項1に記載の情報処理装置。
  6. 前記対象領域抽出手段は、手書き注釈記号と、前記手書き注釈記号の周囲にある手書き文字の領域を抽出し、
    前記手書き文字列生成手段は、前記手書き文字の領域から前記第1の文字列を生成することを特徴とする請求項1に記載の情報処理装置。
  7. 前記決定手段は、前記手書き注釈記号が指し示す位置にある活字文字列を、前記第2の文字列に決定することを特徴とする請求項6に記載の情報処理装置。
  8. 前記手書き注釈記号は、矢印線であり、
    前記第1の文字列は、前記矢印線の始点、終点又は矢印線に沿った位置にある手書き文字列であり、
    前記第2の文字列は、前記矢印線の始点又は終点の位置にある活字文字列であることを特徴とする請求項6に記載の情報処理装置。
  9. 前記推定手段は、前記第1の文字列の情報と前記第2の文字列を含む活字文字列の情報とを学習モデルに入力することにより、前記関係性を推定することを特徴とする請求項1に記載の情報処理装置。
  10. 前記入力画像と前記要約文とを表示するよう制御する表示制御手段を更に有し、
    前記表示制御手段は、前記入力画像上の前記要約文に用いた活字文字列の位置に表示アイテムを表示し、前記第2の文字列の位置に表示する表示アイテムと、前記第2の文字列以外の活字文字列の位置に表示する表示アイテムとを異ならせることを特徴とする請求項1に記載の情報処理装置。
  11. 前記推定手段により推定された前記関係性を変更するため操作を受け付けるための受付手段を更に有することを特徴とする請求項1に記載の情報処理装置。
  12. 前記対象領域抽出手段は、前記入力画像を学習モデルに入力することにより、前記入力画像における画素ごとの前記所定の手書き部分らしさを表す確率マップを生成することを特徴とする請求項1に記載の情報処理装置。
  13. 手書き部分を含む入力画像を取得する画像取得ステップと、
    前記入力画像から所定の手書き部分の領域である対象領域を抽出する対象領域抽出ステップと、
    前記対象領域の画像を手書き文字認識して第1の文字列を生成する手書き文字列生成ステップと、
    前記入力画像から活字文字列を抽出する活字文字列抽出ステップと、
    前記対象領域の情報に基づいて、前記活字文字列抽出ステップにより抽出された活字文字列のうち、前記第1の文字列に関連する活字文字列である第2の文字列を決定する決定ステップと、
    前記第1の文字列の情報と前記第2の文字列を含む活字文字列の情報との間の関係性を推定する推定ステップと、
    前記活字文字列抽出ステップにより抽出された活字文字列から、要約文を生成する要約文生成ステップと、
    を含み、
    前記要約文生成ステップでは、前記第1の文字列の情報と、前記第2の文字列の情報と、前記推定された関係性に応じた文字列とを用いて、前記要約文を生成することを特徴とする情報処理方法。
  14. 情報処理装置のコンピュータを、
    手書き部分を含む入力画像を取得する画像取得手段と、
    前記入力画像から所定の手書き部分の領域である対象領域を抽出する対象領域抽出手段と、
    前記対象領域の画像を手書き文字認識して第1の文字列を生成する手書き文字列生成手段と、
    前記入力画像から活字文字列を抽出する活字文字列抽出手段と、
    前記対象領域の情報に基づいて、前記活字文字列抽出手段により抽出された活字文字列のうち、前記第1の文字列に関連する活字文字列である第2の文字列を決定する決定手段と、
    前記第1の文字列の情報と前記第2の文字列を含む活字文字列の情報との間の関係性を推定する推定手段と、
    前記活字文字列抽出手段により抽出された活字文字列から、要約文を生成する要約文生成手段、
    として機能させるプログラムであって、
    前記要約文生成手段は、前記第1の文字列の情報と、前記第2の文字列の情報と、前記推定された関係性に応じた文字列とを用いて、前記要約文を生成することを特徴とするプログラム。
JP2022182457A 2022-11-15 2022-11-15 情報処理装置、情報処理方法、及びプログラム Pending JP2024071936A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022182457A JP2024071936A (ja) 2022-11-15 2022-11-15 情報処理装置、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022182457A JP2024071936A (ja) 2022-11-15 2022-11-15 情報処理装置、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2024071936A true JP2024071936A (ja) 2024-05-27

Family

ID=91194065

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022182457A Pending JP2024071936A (ja) 2022-11-15 2022-11-15 情報処理装置、情報処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2024071936A (ja)

Similar Documents

Publication Publication Date Title
JP4948586B2 (ja) 文書画像生成装置、文書画像生成方法、コンピュータプログラム及び記録媒体
JP5372110B2 (ja) 情報出力装置、情報出力方法、及びコンピュータプログラム
JP4785655B2 (ja) 文書処理装置及び文書処理方法
US20060285748A1 (en) Document processing device
JP2009294788A (ja) 情報処理装置、情報処理方法、制御プログラム及び記録媒体
JP2010009509A (ja) 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体
US11418658B2 (en) Image processing apparatus, image processing system, image processing method, and storage medium
CN102141979B (zh) 文档图像生成装置、文档图像生成方法
KR20040078046A (ko) 전표정의데이터 작성방법 및 전표처리장치
US9529792B2 (en) Glossary management device, glossary management system, and recording medium for glossary generation
JP2006252048A (ja) 翻訳装置、翻訳プログラムおよび翻訳方法
US11941903B2 (en) Image processing apparatus, image processing method, and non-transitory storage medium
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
JP7379876B2 (ja) 文字認識装置、文書ファイル生成方法、文書ファイル生成プログラム
JP2024071936A (ja) 情報処理装置、情報処理方法、及びプログラム
JP6809005B2 (ja) 翻訳装置、翻訳システムおよびプログラム
US11170211B2 (en) Information processing apparatus for extracting portions filled with characters from completed document without user intervention and non-transitory computer readable medium
JP7317612B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP6205973B2 (ja) 変更履歴出力装置、プログラム
JP2021064123A (ja) データ入力支援システム、データ入力支援方法、及びプログラム
JP2009205209A (ja) 文書画像処理装置、及び文書画像処理プログラム
JP7497620B2 (ja) 文書データ生成装置、画像形成装置、及び文書データ生成プログラム
JP2001326804A (ja) 画像処理装置及び画像処理システム
US20230046344A1 (en) Systems, Methods, and Devices for a Form Converter
US11656819B2 (en) Information processing apparatus and printing request for designating documents based on a spoken voice