JP7430437B1

JP7430437B1 - 印刷物に印刷された文字情報を収集する方法、プログラム及び情報処理装置

Info

Publication number: JP7430437B1
Application number: JP2023161674A
Authority: JP
Inventors: 宏輝程
Original assignee: Zisedai
Current assignee: Zisedai
Priority date: 2023-09-25
Filing date: 2023-09-25
Publication date: 2024-02-13
Anticipated expiration: 2043-09-25

Abstract

【課題】様々な形式の印刷物から所定の項目に関する文字情報を収集することが可能な方法、プログラム及び情報処理装置を提供する。
【解決手段】情報処理装置１が行う方法は、光学文字認識により印刷物から読み取られた一群の文字列を取得する工程と、所定の１以上の項目に関する１以上の文字情報を一群の文字列から抽出するように大規模言語モデル６へ指示を与える第１プロンプトを生成する工程と、生成した第１プロンプトを大規模言語モデル６に提供し、当該第１プロンプトに応じて一群の文字列から抽出された１以上の文字情報を大規模言語モデル６から取得する工程とを有する。
【選択図】図１

Description

特許法第３０条第２項適用２０２３年４月１８日に株式会社タスキがウェブサイトにて公開

本発明は、印刷物に印刷された文字情報を収集する方法、プログラム及び情報処理装置に関するものである。

光学文字認識（optical character recognition：ＯＣＲ）は、印刷物や手書きの文書などの画像から文字や数字を自動的に検出し、コンピュータが理解可能なテキストに変換する技術である。下記の特許文献には、健康診断書などの非定型文書をＯＣＲ処理し、構造化データとして出力する方法が記載されている。この方法では、非定型文書の画像から複数の枠が検出され、検出された複数の枠の各々に関連して認識される領域から文字列が検出される。そして、検出された複数の枠の各々の位置関係を基に、検出された文字列の組み合わせが検出され、この組み合わせが構造化データとして出力される。

特開２０２１－９９６２３号公報

上記の特許文献の方法では、枠の位置関係を基に文字列の組み合わせ（項目名と数値の組み合わせ）が検出されるため、枠を含まない印刷物にはこの方法を用いることができない。また、印刷物に印刷された所定の項目に関する文字情報（数値などの文字列）を取得しようとした場合、上記の特許文献の方法では項目名が印刷されていることが前提となっているため、項目名がなく文字情報（文字列）のみ印刷されている印刷物にはこの方法を用いることができない。すなわち、従来の方法では、広告のチラシなどのように形式の定まっていない多様な印刷物から所定の項目に関する文字情報を収集することができない。

本発明はかかる事情に鑑みてなされたものであり、その目的は、様々な形式の印刷物から所定の項目に関する文字情報を収集することが可能な方法、プログラム及び情報処理装置を提供することにある。

本発明の第１の態様は、印刷物に印刷された文字情報を情報処理装置が収集する方法であって、情報処理装置が、光学文字認識により印刷物の画像から読み取られた一群の文字列を取得する工程と、情報処理装置が、所定の１以上の項目に関する１以上の文字情報を一群の文字列から抽出するように大規模言語モデルへ指示を与える第１プロンプトを生成する工程と、情報処理装置が、生成した第１プロンプトを大規模言語モデルに提供し、当該第１プロンプトに応じて一群の文字列から抽出された１以上の文字情報を大規模言語モデルから取得する工程とを有する、方法である。

本発明の第２の態様は、印刷物に印刷された文字情報を収集する処理を情報処理装置に行わせる命令を含んだプログラムであって、命令に従って情報処理装置が行う処理は、光学文字認識により印刷物の画像から読み取られた一群の文字列を取得する工程と、所定の１以上の項目に関する１以上の文字情報を一群の文字列から抽出するように大規模言語モデルへ指示を与える第１プロンプトを生成する工程と、生成した第１プロンプトを大規模言語モデルに提供し、当該第１プロンプトに応じて一群の文字列から抽出された１以上の文字情報を大規模言語モデルから取得する工程とを有する、プログラムである。

本発明の第３の態様は、印刷物に印刷された文字情報を収集する処理を行う情報処理装置であって、処理部と、処理部において実行される命令を記憶した記憶部とを有し、処理部が命令に従って行う処理は、光学文字認識により印刷物の画像から読み取られた一群の文字列を取得する工程と、所定の１以上の項目に関する１以上の文字情報を一群の文字列から抽出するように大規模言語モデルへ指示を与える第１プロンプトを生成する工程と、生成した第１プロンプトを大規模言語モデルに提供し、当該第１プロンプトに応じて一群の文字列から抽出された１以上の文字情報を大規模言語モデルから取得する工程とを含む、情報処理装置である。

本発明の第３の態様は、印刷物に印刷された文字情報を収集する処理を行う情報処理装置であって、情報処理装置が、光学文字認識により印刷物の画像から読み取られた一群の文字列を取得する手段と、情報処理装置が、所定の１以上の項目に関する１以上の文字情報を一群の文字列から抽出するように大規模言語モデルへ指示を与える第１プロンプトを生成する手段と、情報処理装置が、生成した第１プロンプトを大規模言語モデルに提供し、当該第１プロンプトに応じて一群の文字列から抽出された１以上の文字情報を大規模言語モデルから取得する手段とを有する、情報処理装置である。

本発明によれば、様々な形式の印刷物から所定の項目に関する文字情報を収集することが可能な方法、プログラム及び情報処理装置を提供できる。

図１は、本実施形態に係るシステムの構成の一例を示す図である。図２は、印刷物の画像からＯＣＲにより一群の文字列を取得する処理の一例を説明するための図である。図３は、ＯＣＲにより読み取られた一群の文字列から所定の項目に関する文字情報を抽出する処理の一例を説明するための図である。図４Ａ及び図４Ｂは、印刷物の画像の一例を示す図である。図５は、印刷物の画像からＯＣＲにより取得された一群の文字列の例を示す図である。図６は、大規模言語モデルに与えるプロンプトの一例を示す図である。図７は、大規模言語モデルにより抽出された文字情報の一例を示す図である。図８は、ＯＣＲにより読み取られた一群の文字列から所定の項目に関する文字情報を抽出する処理の一変形例を説明するための図である。図９は、ＯＣＲにより読み取られた一群の文字列から所定の項目に関する文字情報を抽出する処理の一変形例を説明するための図である。図１０は、ＯＣＲにより読み取られた一群の文字列から所定の項目に関する文字情報を抽出する処理の一変形例を説明するための図である。図１１は、印刷物の画像からＯＣＲにより一群の文字列を取得する処理の一変形例を説明するための図である。図１２は、印刷物の画像からＯＣＲにより読み取られた表データの一例を示す図である。図１３は、大規模言語モデルに与えるプロンプトの一例を示す図である。

図１は、本実施形態に係るシステムの構成の一例を示す図である。図１の例に示すシステムは、インターネットなどの通信ネットワーク９を介して通信可能な情報処理装置１、端末装置３、ＯＣＲ処理サーバ５及び大規模言語モデル６を有する。
情報処理装置１は、本発明の情報処理装置の一例である。
大規模言語モデル６は、本発明の大規模言語モデルの一例である。

図１に示すシステムでは、端末装置３で得られた印刷物の画像からＯＣＲ処理により一群の文字列を読み取り、その一群の文字列から所定の項目に関する文字情報を抽出する処理が行われる。

［端末装置３］
端末装置３は、広告のチラシなどの印刷物に印刷された文字情報を収集するための作業を行う作業者によって操作される装置であり、例えばパーソナルコンピュータ、タブレット、スマートフォンなどの情報通信機能を備えた装置である。図１のシステムの例において端末装置３は１つであるが、本実施形態の他の例において、システムは複数の作業者に対応した複数の端末装置３を有していてもよい。

端末装置３は、例えば、後述する情報処理装置１の通信部１１、記憶部１２、処理部１３と同様な通信部、記憶部、処理部を備える。また、端末装置３は、ユーザの指示を処理部に入力する入力部（タッチパネル、マウス、キーボードなど）、処理部において生成される映像データに応じた映像を表示する表示部（液晶ディスプレイ、有機ＥＬディスプレイなど）、音を出力するスピーカなどを備えていてもよい。

端末装置３には、印刷物の画像を取得するスキャナ４が接続される。端末装置３は、スキャナ４により取得された印刷物の画像を情報処理装置１に提供する。

［ＯＣＲ処理サーバ５］
ＯＣＲ処理サーバ５は、ＯＣＲ処理を行うサーバであり、情報処理装置１からの要求に応じて印刷物の画像から一群の文字列（文字、数字など）を読み取り、読み取った一群の文字列を情報処理装置１に提供する。

なお、図１のシステムの例においてＯＣＲ処理がＯＣＲ処理サーバ５により行われるが、本実施形態の他の例において、情報処理装置１がＯＣＲ処理を行ってもよい。

［大規模言語モデル６］
大規模言語モデル６は、大量のパラメータ（例えば数十億～数千億）を持つ人工ニューラルネットワークに大量のテキストデータを学習させることにより、人間の言語理解能力を模倣するように構成されたシステムである。大規模言語モデル６は、与えられたプロンプトに従って、文章のパターンや文脈の把握、質問への応答、文章の生成、翻訳などの幅広い自然言語処理タスクを行うことができる。大規模言語モデル６としては、例えば米国のＯｐｅｎＡＩ社により運営されるＧＰＴシリーズ（ＣｈａｔＧＰＴなど）を用いることができる。

［情報処理装置１］
情報処理装置１は、印刷物に印刷された文字情報を収集する処理を行う装置である。情報処理装置１は、端末装置３において取得された印刷物の画像から、ＯＣＲ処理サーバ５のＯＣＲにより一群の文字列を読み取り、この一群の文字列から、大規模言語モデル６の自然言語処理によって、所定の項目に関連した文字情報を抽出する。例えば情報処理装置１は、通信ネットワーク９に接続された１台若しくは複数台のコンピュータを含んで構成される。図１の例に示す情報処理装置１は、通信部１１と、記憶部１２と、処理部１３を有する。

通信部１１は、通信ネットワーク９を介して他の装置（端末装置３、ＯＣＲ処理サーバ５、大規模言語モデル６など）と通信を行う。通信部１１は、例えばイーサネット（登録商標）や無線ＬＡＮなどの所定の通信規格に準拠して通信を行う装置（ネットワークインターフェースカードなど）を含む。

記憶部１２は、処理部１３が実行する命令を含んだ１以上のプログラム１２１、処理部１３による処理の過程で一時的に保存されるデータ、処理部１３の処理に利用されるデータ、処理部１３の処理の結果として得られたデータなどを記憶する。記憶部１２は、例えば、主記憶装置（ＲＡＭ、ＲＯＭなど）と補助記憶装置（フラッシュメモリ、ＳＳＤ、ハードディスク、メモリカード、光ディスクなど）を含んでよい。記憶部１２は、１つの記憶装置から構成されてもよいし、複数の記憶装置から構成されてもよい。記憶部１２が複数の記憶装置から構成される場合、各記憶装置は、コンピュータのバスや他の任意の通信手段を介して処理部１３と接続される。

処理部１３は、情報処理装置１の全体的な動作を統括的に司り、所定の情報処理を実行する。処理部１３は、例えば、記憶部１２に格納された１以上のプログラム１２１の命令に従って処理を行う１以上のプロセッサ（ＣＰＵ（central processing unit）、ＭＰＵ（micro-processing unit）、ＤＳＰ（digital signal processor）など）を含む。処理部１３は、記憶部１２に記憶される１以上のプログラム１２１の命令を１以上のプロセッサが実行することにより、コンピュータとして動作する。

処理部１３は、特定の機能を実現するように構成された１つ以上の専用のハードウェア（ＡＳＩＣ（application specific integrated circuit）、ＦＰＧＡ（field-programmable gate array）など）を含んでもよい。この場合、処理部１３は、本実施形態において説明する全ての処理をコンピュータにおいて実行してもよいし、少なくとも一部の処理を専用のハードウェアにおいて実行してもよい。

プログラム１２１は、例えばコンピュータ読み取り可能な記録媒体（光ディスク、メモリカード、ＵＳＢメモリ、その他の非一時的な有形の媒体）に記録されていてもよい。処理部１３は、そのような記録媒体に記録された１以上のプログラム１２１の少なくとも一部を不図示の記録媒体読み取り装置（光ディスク装置など）やインターフェース装置（ＵＳＢインターフェースなど）により読み込んで、記憶部１２に書き込んでもよい。あるいは処理部１３は、通信ネットワーク９に接続される他の装置から通信部１１により１以上のプログラム１２１の少なくとも一部をダウンロードして、記憶部１２に書き込んでもよい。１以上のプログラム１２１は、後述する本実施形態に係る処理の少なくとも一部を処理部１３に行わせる命令を含む。

［記憶装置２］
記憶装置２は、情報処理装置１の処理において使用される種々の情報を記憶する。情報処理装置１と記憶装置２は、任意の通信路（ＬＡＮ、専用回線網、インターネットなど）介して通信可能である。例えば記憶装置２は、複数の装置からのアクセスを受け付けるファイルサーバやデータベースサーバなどに含まれていてもよいし、情報処理装置１のみアクセス可能な専用の記憶装置でもよい。図１の例において、記憶装置２は、印刷物データベース２１と収集情報データベース２２を記憶する。以下の説明では、データベースを「ＤＢ」と省略して記載する場合がある。

印刷物ＤＢ２１は、端末装置３のスキャナ４において画像を取得された複数の印刷物（広告のチラシなど）に関する複数の印刷物情報を含む。一の印刷物情報は、一の印刷物に関する情報として、例えば以下の情報の少なくとも一部を含む。
・印刷物を識別するための識別情報（印刷物ＩＤ）
・印刷物の画像若しくはその保存場所
・印刷物に印刷された情報の種類
（例）印刷物が広告のチラシの場合、広告対象の商品やサービスの種類など
・印刷物の発行日に関する情報

収集情報ＤＢ２２は、それぞれ印刷物の画像に基づいて収集された複数の印刷物収集情報を含む。一の印刷物収集情報は、一の印刷物の画像に基づいて収取された情報として、例えば以下の情報の少なくとも一部を含む。
・印刷物ＩＤ
・印刷物の画像からＯＣＲにより読み取られた一群の文字列
・一群の文字列から抽出された所定の１以上の項目に関する１以上の文字情報
・各項目について大規模言語モデル６により評価された文字情報の抽出結果の信頼性

ここで、上述した構成を有する図１に示すシステムの動作について説明する。
図２は、印刷物の画像からＯＣＲにより一群の文字列を取得する処理の一例を説明するための図である。

端末装置３は、情報の収集対象となる印刷物に関する情報（印刷物に印刷された情報の種類、印刷物の発行日など）を入力するように促す画面を表示部のディスプレイ等に表示し、この画面に応じて作業者の入力操作により入力された印刷物に関する情報を取得する（ＳＴ１００）。また端末装置３は、作業者の操作によってスキャナ４が撮像した印刷物の画像（ＰＤＦ形式のファイルなど）を取得する（ＳＴ１０５）。端末装置３は、ステップＳＴ１００において取得した印刷物に関する情報と、ステップＳＴ１０５において取得した印刷物の画像（画像ファイル、ＰＤＦファイルなど）とを、情報処理装置１に提供する（ＳＴ１２０）。

情報処理装置１は、印刷物に関する情報とその印刷物の画像を端末装置３から取得すると（ＳＴ１２５）、取得したこれらの情報を印刷物ＤＢ２１に登録する（ＳＴ１３０）。また情報処理装置１は、端末装置３から提供された印刷物の画像についてＯＣＲを行うように、ＯＣＲ処理サーバ５に対して要求する（ＳＴ１３５）。例えば情報処理装置１は、ＯＣＲ処理サーバ５が提供するＡＰＩを利用して印刷物の画像のＯＣＲ処理を要求する。

ＯＣＲ処理の要求を受けたＯＣＲ処理サーバ５は、情報処理装置１から提供された印刷物の画像についてＯＣＲを行い、印刷物に印刷された文字列を認識する（ＳＴ１４０）。ＯＣＲ処理サーバ５は、印刷物の画像から認識した一群の文字列をＯＣＲ結果として要求元の情報処理装置１に提供する（ＳＴ１４５）。

情報処理装置１は、ＯＣＲにより印刷物の画像から読み取られた一群の文字列（ＯＣＲ結果）をＯＣＲ処理サーバ５から取得する（ＳＴ１７０）。情報処理装置１は、このＯＣＲ結果として取得した一群の文字列を、収集情報ＤＢ２２に登録する（ＳＴ１８０）。

図４Ａ及び図４Ｂは、情報の収集対象となる印刷物の画像の一例を示す図である。この印刷物は、マンションの賃貸物件の広告が印刷されたチラシであり、図４Ａと図４Ｂはチラシの表面と裏面をそれぞれ示す。図５は、図４Ａ及び図４Ｂに示す印刷物の画像からＯＣＲにより読み取られた一群の文字列の例を示す図である。図５のＯＣＲ結果から分かるように、印刷物から読み取られた文字列は、印刷物上で近い場所に印刷されているほど、テキストデータ中で比較的近い位置に置かれる傾向がある。しかしながら、印刷物の形式が決められていない場合、ＯＣＲ結果のテキストデータ中における文字列の前後関係や出現位置、所定の項目を表す語句のパターンなどが定まっていない。そのため、ルールベースのアルゴリズムでは、このようなＯＣＲ結果のテキストデータから所定の項目に関する文字情報を抽出するのは困難である。そこで、本実施形態では、ＯＣＲ結果から所定の項目に関する文字情報を抽出する処理を行うために、大規模言語モデル６が利用される。

図３は、ＯＣＲにより読み取られた一群の文字列から所定の項目に関する文字情報を抽出する処理の一例を説明するための図である。

情報処理装置１は、所定の１以上の項目に関する１以上の文字情報をＯＣＲ結果の一群の文字列から抽出するように大規模言語モデル６へ指示を与えるプロンプト（以下「第１プロンプト」と記す）を生成する（ＳＴ２３５）。

図６は、大規模言語モデル６に与える第１プロンプトの一例を示す図である。この例に示す第１プロンプトには、大規模言語モデル６に依頼するタスクに関する記載Ｐ１、抽出対象の項目に関する記載Ｐ２、項目の抽出結果の出力形式に関する記載Ｐ３、大規模言語モデル６に与える補足的な指示とアドバイスに関する記載Ｐ４、ＯＣＲ結果の一群の文字列（物件情報）に関する記載Ｐ５が含まれる。

大規模言語モデル６に依頼するタスクに関する記載Ｐ１は、物件情報（ＯＣＲ結果）から所定の項目を抽出すること、所定の項目の各々について、項目に関する文字情報の抽出結果の信頼性を評価すること、項目に関する文字情報の抽出結果を所定の出力形式に従って整形することを指示する。

抽出対象の項目に関する記載Ｐ２は、賃貸物件の広告から抽出する項目を指定する。図６の例では、所定の項目として、賃貸物件の住所、物件名、建物の階数、部屋の間取り、最寄り駅等、建物の構造、建物の築年月、共益費、敷金、礼金、部屋の向き、エレベーターの有無、オートロックの有無、バルコニー等の有無、インターネット無料、家具・家電付き、角部屋、その他の項目（特色、注記）が含まれる。

項目の抽出結果の出力形式に関する記載Ｐ３は、ＯＣＲ結果をＪＳＯＮ形式に整形することを指定する。またこの記載Ｐ３は、ＪＳＯＮ形式に整形されたＯＣＲ結果のサンプルを含む。１つのサンプルを提示することにより、個々の項目について詳細な形式を指定しなくても、大規模言語モデル６にサンプルと同様なＯＣＲ結果の整形を行わせることが可能となる。

補足的な指示とアドバイスに関する記載Ｐ４は、一の項目に関する文字情報をＯＣＲ結果（一群の文字列）から抽出できない場合、当該一の項目に関する文字情報が不明であることを回答するように指示する。これにより、文字情報の不明な項目について正確性の低い文字情報が大規模言語モデル６により回答されることを効果的に回避できる。

また記載Ｐ４は、建物の築年月を西暦で記載すること、建設予定の築年月（現在の日付よりも先の日付）も抽出対象にすることを指定する。

ＯＣＲ結果の一群の文字列（物件情報）に関する記載Ｐ５は、ステップＳＴ１７０においてＯＣＲ処理サーバ５から取得したＯＣＲ結果のテキストデータ（図５）を含む。

情報処理装置１は、ステップＳＴ２３５で生成した第１プロンプト（ＯＣＲ結果のテキストデータを含む）を大規模言語モデル６に提供する（ＳＴ２４０）。大規模言語モデル６は、情報処理装置１から取得した第１プロンプトに従って、印刷物のＯＣＲのテキストデータ（一群の文字列）から所定の１以上の項目に関する１以上の文字情報を抽出する（ＳＴ２４５）。また大規模言語モデル６は、第１プロンプトに従って、各項目に関する文字情報の抽出結果の信頼性を評価し、その評価結果（例えばパーセント値）を取得する。大規模言語モデル６は、各項目について抽出した文字情報と抽出結果の信頼性の評価結果とを、情報処理装置１に提供する（ＳＴ２５５）。

情報処理装置１は、第１プロンプトに応じてＯＣＲ結果のテキストデータ（一群の文字列）から抽出された１以上の項目の文字情報と、その文字情報の信頼性の評価結果とを大規模言語モデル６から取得し（ＳＴ２６０）、収集情報ＤＢ２２に登録する（ＳＴ２７０）。

図７は、図５に示すＯＣＲ結果から図６に示す第１プロンプトに従って大規模言語モデル６により抽出された文字情報の一例を示す図である。図７の例では、記載Ｐ３における出力形式の指定に従って、各項目の文字情報がＪＳＯＮ形式に整形されている。

情報処理装置１は、大規模言語モデル６において抽出された１以上の項目の文字情報を端末装置３に提供し（ＳＴ２７５）、端末装置３は情報処理装置１から取得した１以上の項目の文字情報を表示部のディスプレイに表示する（ＳＴ２８０）。これにより、端末装置３を操作する作業者は、大規模言語モデル６によってＯＣＲ結果から抽出された各項目の文字情報を確認できる。この確認によって文字情報の誤りが見つけられた場合、情報処理装置１は、端末装置３からの文字情報の訂正指示に応じて、収集情報ＤＢ２２に登録される文字情報を訂正してもよい。

以上説明したように、本実施形態によれば、様々な賃貸物件を紹介する広告のチラシのように印刷物の形式が決められていない場合でも、ＯＣＲ結果から各項目の文字情報を抽出するように大規模言語モデル６へ第１プロンプトを与えることにより、各項目に当てはまる適切な文字情報をＯＣＲ結果から抽出できる。従って、様々な形式の印刷物から所定の項目に関する文字情報を収集することができる。

また本実施形態によれば、一の項目に関する文字情報をＯＣＲ結果（一群の文字列）から抽出できない場合（当該一の項目に関する記載がない場合など）には、当該一の項目に関する文字情報が不明であることを回答するように第１プロンプトで指示が与えられるため、文字情報の不明な項目について正確性の低い文字情報が大規模言語モデル６により回答されることを効果的に回避できる。

また本実施形態によれば、１以上の項目の各々について、項目に関する文字情報の抽出結果の信頼性を評価するように第１プロンプトで指示が与えられる。これにより、収集情報ＤＢ２２に登録される印刷物の文字情報の利用者は、大規模言語モデル６により評価された抽出結果の信頼性を参考にして、文字情報の利用の可否を個別に判断することが可能になる。

次に、上述した情報処理装置１における処理の幾つかの変形例について説明する。

＜印刷された情報の種類に応じた第１プロンプトの生成（１）＞
上述した実施形態では、マンション等の賃貸物件に関連する項目について文字情報を抽出する例が挙げられているが、ＯＣＲ結果（一群の文字列）から抽出する情報の種類として、賃貸物件とは別の種類（例えば売買物件など）を作業者が選択できるようにしてもよい。例えば端末装置３は、ステップＳＴ１００（図２）において、印刷物のＯＣＲ結果から抽出する情報の種類として作業者により選択された種類に関する種類情報を入力する。情報処理装置１は、この種類情報を端末装置３から取得し（ＳＴ１２５）、印刷物ＤＢ２１に登録する（ＳＴ１３０）。この場合、情報処理装置１は、ステップＳＴ２３５（図３）において、種類情報が示す種類について定められた１以上の項目に関する１以上の文字情報をＯＣＲ結果（一群の文字列）から抽出するように指示する第１プロンプトを生成する。例えば情報処理装置１は、種類情報が賃貸物件を示す場合には、賃貸物件用の第１プロンプト（図６）を生成し、種類情報が売買物件を示す場合には、売買物件用の第１プロンプトを生成する。これにより、種類情報が示す種類に応じて生成された第１プロンプトを大規模言語モデル６に与えることができるため、種類情報が示す種類に当てはまる適切な情報をＯＣＲ結果（一群の文字列）から抽出することが可能になる。

＜印刷された情報の種類に応じた第１プロンプトの生成（２）＞
上述した（１）の変形例では、端末装置３において作業者により入力された種類情報に応じて第１プロンプトが生成されるが、この変形例では、ＯＣＲ結果（一群の文字列）に基づいて種類（ＯＣＲ結果から抽出する情報の種類）が判定される。図８は、その変形例を説明するための図であり、ＯＣＲにより読み取られた一群の文字列から所定の項目に関する文字情報を抽出する処理の例を示す。

図８に示す変形例において、情報処理装置１は、情報の種類を特徴付ける所定のキーワードをＯＣＲ結果（一群の文字列）において検索する（ＳＴ２００）。例えば、印刷された情報の種類が賃貸物件の場合には、ＯＣＲ結果（一群の文字列）には「賃料」、「敷金」、「共益費」、「更新料」などのキーワードが含まれ、印刷された情報の種類が売買物件の場合には、ＯＣＲ結果（一群の文字列）には「販売額」、「売買契約」、「引渡し日」などのキーワードが含まれる。情報処理装置１は、このようなキーワードをＯＣＲ結果において検索する。この検索より所定のキーワードが見つかった場合、情報処理装置１は、この見つかったキーワードに基づいて、印刷物に印刷された情報の種類（＝ＯＣＲ結果から抽出するべき情報の種類）を判定する（ＳＴ２０５）。情報処理装置１は、ステップＳＴ２０５で判定した種類について定められた１以上の項目に関する１以上の文字情報をＯＣＲ結果（一群の文字列）から抽出するように大規模言語モデル６へ指示を与える第１プロンプトを生成し（ＳＴ２３５Ａ）、大規模言語モデル６に提供する（ＳＴ２４０）。ステップＳＴ２４５以降の処理は、図３に示すフロー図において説明したものと同じである。

この変形例によれば、印刷物に印刷された情報の種類（＝ＯＣＲ結果から抽出するべき情報の種類）が自動的に判定されるため、ステップＳＴ１００において作業者が種類情報を入力する作業を省略することができる。

＜印刷された情報の種類に応じた第１プロンプトの生成（３）＞
上述した（２）の変形例では、ＯＣＲ結果（一群の文字列）に含まれる所定のキーワードに基づいて、印刷物に印刷された情報の種類が判定されるが、この変形例では、大規模言語モデル６の自然言語処理を利用して種類の判定が行われる。図９は、その変形例を説明するための図である。

図９に示す変形例において、情報処理装置１は、所定の複数の種類から該当する１つの種類をＯＣＲ結果（一群の文字列）に基づいて判定するように大規模言語モデル６へ指示を与えるプロンプト（以下「第２プロンプト」と記す）を生成する（ＳＴ２１０）。この第２プロンプトは、例えば、所定の複数の種類（「賃貸物件」、「売買物件」など）から、ＯＣＲ結果（一群の文字列）に当てはまる１つの種類を判定するように指示する記載を含むとともに、そのＯＣＲ結果（一群の文字列）を示す記載を含む。情報処理装置１は、生成した第２プロンプトを大規模言語モデル６に提供する（ＳＴ２１５）。

大規模言語モデル６は、情報処理装置１から取得した第２プロンプトに従って、ＯＣＲ結果（一群の文字列）に当てはまる種類を判定し（ＳＴ２２０）、その判定結果を情報処理装置１に提供する（ＳＴ２２５）。

情報処理装置１は、大規模言語モデル６から種類の判定結果を取得すると（ＳＴ２３０）、この判定された種類について定められた１以上の項目に関する１以上の文字情報をＯＣＲ結果（一群の文字列）から抽出するように大規模言語モデル６へ指示を与える第１プロンプトを生成し（ＳＴ２３５Ａ）、大規模言語モデル６に提供する（ＳＴ２４０）。ステップＳＴ２４５以降の処理は、図３に示すフロー図において説明したものと同じである。

この変形例においても、印刷物に印刷された情報の種類（＝ＯＣＲ結果から抽出するべき情報の種類）が自動的に判定されるため、ステップＳＴ１００において作業者が種類情報を入力する作業を省略することができる。また、印刷された情報を特徴付けるキーワードがあまり明確でない場合でも、大規模言語モデル６の自然言語処理の機能を利用することにより、的確な種類の判定結果を得ることができる。

＜ウェブ検索により得られる関連情報に応じた第１プロンプトの生成＞
上述した実施形態とその変形例では、所定の項目に関する文字情報がＯＣＲ結果（一群の文字列）のみから抽出されるが、所定の項目に関する情報が印刷物に印刷されていない場合や、印刷物の情報が最新のものでない場合、ＯＣＲ結果（一群の文字列）のみからでは適切な文字情報を抽出できない。そこで、この変形例では、ウェブ検索により得られる関連情報も加味した上で、所定の項目に関する情報の抽出が行われる。図１０は、その変形例を説明するための図である。

情報処理装置１は、所定の１以上の項目における少なくとも一部の項目について、ＯＣＲ結果（一群の文字列）から項目に関する文字情報を抽出する指示（第１指示）と、ＯＣＲ結果（一群の文字列）に含まれる項目に関するキーワードに基づいて項目に関する関連情報をウェブ検索により収集する指示（第２指示）とを含んだ第１プロンプトを生成する（ＳＴ２３５Ｂ）。第１指示は、ＯＣＲ結果（一群の文字列）から文字情報を抽出させるものであり、上述した実施形態及び変形例と同様の指示でよい。

第２指示は、項目に関する関連情報をウェブ検索により収集させるものであり、項目ごとに設定される。例えば、賃貸物件における建物の向きに関する関連情報をウェブ検索により収集させる場合、第２指示は、特定の賃貸物件を示す固有のキーワード（物件名、住所など）と、建物の向きを示すキーワードとが含まれたウェブページを検索させて関連情報を収集させる指示でもよい。

情報処理装置１は、ステップＳＴ２３５Ｂで生成した第１プロンプトを大規模言語モデル６に提供する（ＳＴ２４０）。大規模言語モデル６は、第１プロンプトに含まれる第１指示に応じて、ＯＣＲ結果（一群の文字列）から各項目の文字情報を抽出する（ＳＴ２４５）。また大規模言語モデル６は、第１プロンプトに含まれる第２指示に応じて、所定の項目についての関連情報をウェブ検索により収集する（ＳＴ２５０）。大規模言語モデル６は、ステップＳＴ２４５において抽出した各項目の文字情報と、ステップＳＴ２５０において集出した所定の項目の関連情報とを情報処理装置１に提供する（ＳＴ２５５Ｂ）。情報処理装置１は、大規模言語モデル６から提供された文字情報と関連情報を取得する（ＳＴ２６０Ｂ）。

情報処理装置１は、一の項目について大規模言語モデル６から取得した文字情報を、当該一の項目について取得した関連情報に応じて修正する（ＳＴ２６５）。例えば、情報処理装置１は、一の項目についての文字情報が不明であると大規模言語モデル６により回答された場合において、当該一の項目について取得した関連情報には、当該文字情報に該当する情報が含まれている場合、この関連情報に含まれる情報を、当該一の項目に関する文字情報として取得してもよい。

また、情報処理装置１は、一の項目について文字情報が抽出された場合において、当該一の項目について取得した関連情報にも当該文字情報に該当する情報が含まれている場合、関連情報のウェブ上での公開日が印刷物の発行日より後であるならば、抽出された文字情報を関連情報に含まれる情報（当該文字情報に該当する情報）に応じて修正してもよい。すなわち、印刷物に印刷された情報に比べて関連情報が新しい場合、ＯＣＲ結果から抽出された文字情報を関連情報に応じて修正してもよい。

情報処理装置１は、ステップＳＴ２６０Ｂにおいて取得した各項目の文字情報（ステップＳＴ２６５において修正された場合には、修正後の文字情報）を収集情報ＤＢ２２に登録する（ＳＴ２７０）。ステップＳＴ２７５以降の処理は図３に示すフロー図において説明したものと同じである。

この変形例によれば、ウェブ検索により収集された関連情報に基づいて、ＯＣＲ結果（一群の文字列）に含まれていない項目についての文字情報や、ＯＣＲ結果（一群の文字列）に含まれるものよりも新しい文字情報を取得することが可能となる。

なお、図１０に示す変形例では、ステップＳＴ２５０において大規模言語モデル６に関連情報の収集を行わせているが、収集した関連情報から所定の項目に関する文字情報を抽出する処理を大規模言語モデル６に行わせてもよい。例えば情報処理装置１は、ステップＳＴ２３５Ｂにおいて、第２指示に応じて一の項目について収集された関連情報から、当該一の項目についての文字情報を抽出する指示（第３指示）を更に含んだ第１プロンプトを生成してもよい。この場合、情報処理装置１は、ステップＳＴ２６５において、第３指示により関連情報から抽出された文字情報に応じて、第１指示によりＯＣＲ結果（一群の文字列）から抽出された文字情報を修正してもよい。これにより、情報処理装置１において関連情報から文字情報を抽出する処理を省略できる。

また、ステップＳＴ２６５における文字情報の修正を大規模言語モデル６に行わせてもよい。
例えば情報処理装置１は、一の項目についての文字情報をＯＣＲ結果（一群の文字列）から抽出できない場合、当該一の項目についての文字情報を関連情報から抽出する指示（第４指示）を含むように、第１プロンプトをステップＳＴ２３５Ｂにおいて生成してもよい。
また情報処理装置１は、一の項目について収集された関連情報のウェブ上での公開日が印刷物の発行日より後の場合、当該一の項目についてＯＣＲ結果（一群の文字列）から抽出された文字情報を、当該一の項目について関連情報から抽出された文字情報に応じて修正する指示（第５指示）を含むように、第１プロンプトをステップＳＴ２３５Ｂにおいて生成してもよい。
これにより、情報処理装置１において関連情報に基づいて文字情報を修正する処理を省略できる。

＜表が印刷された印刷物から文字情報を収集する処理＞
図４Ｂに示すように表が印刷された印刷物の場合、図５のＯＣＲ結果（末尾付近）に示すように、表に含まれる文字列同士の関係が不明確になり、大規模言語モデル６において正しい文字情報を抽出し難くなる。そこで、この変形例では、表が印刷された印刷物の場合に、ＯＣＲ処理サーバ５のＯＣＲ処理において、印刷物の表から表形式に整形されたデータ（表データ）を読み取る処理が行われる。図１１は、その変形例を説明するための図であり、印刷物の画像からＯＣＲにより一群の文字列を取得する処理の例を示す。

端末装置３は、図２に示すフロー図と同様に、印刷物に関する情報の入力（ＳＴ１００）及び印刷物の画像の取得（ＳＴ１０５）を行うとともに、印刷物に表が印刷されている場合には（ＳＴ１１０のＹｅｓ）、印刷物に印刷された表の画像を取得する処理を行う（ＳＴ１１５）。例えば端末装置３は、ステップＳＴ１０５において取得された印刷物の画像を表示部のディスプレイに表示し、この印刷物の画像から作業者の入力操作（例えばマウス等の操作）により指定された表の範囲の画像を取得する。端末装置３は、ステップＳＴ１００において取得した印刷物に関する情報と、ステップＳＴ１０５、ＳＴ１１５において取得した印刷物の画像とを、情報処理装置１に提供する（ＳＴ１２０）。

情報処理装置１は、印刷物に関する情報とその印刷物の画像を端末装置３から取得すると（ＳＴ１２５）、取得したこれらの情報を印刷物ＤＢ２１に登録する（ＳＴ１３０）。また情報処理装置１は、端末装置３から提供された印刷物の画像のうち、ステップＳＴ１０５において取得された印刷物の全体の画像についてＯＣＲを行うように、ＯＣＲ処理サーバ５に対して要求する（ＳＴ１３５）。

ＯＣＲ処理の要求を受けたＯＣＲ処理サーバ５は、情報処理装置１から提供された印刷物の画像（ステップＳＴ１０５において取得された全体の画像）についてＯＣＲを行い、印刷物に印刷された文字列を認識する（ＳＴ１４０）。ＯＣＲ処理サーバ５は、印刷物の画像から認識した一群の文字列をＯＣＲ結果として要求元の情報処理装置１に提供する（ＳＴ１４５）。

情報処理装置１は、ＯＣＲにより印刷物の全体の画像から読み取られた一群の文字列（ＯＣＲ結果）をＯＣＲ処理サーバ５から取得すると（ＳＴ１５０）、次にステップＳＴ１１５において取得された表の画像についてＯＣＲを行うように、ＯＣＲ処理サーバ５に対して要求する（ＳＴ１５５）。

ＯＣＲ処理の要求を受けたＯＣＲ処理サーバ５は、情報処理装置１から提供された表の画像（ステップＳＴ１１５において取得された表の画像）についてＯＣＲを行い、表の画像から文字列を認識する（ＳＴ１６０）。ＯＣＲ処理サーバ５は、表の画像から認識した表データ（表に含まれる文字列が表形式に整形されたデータ）をＯＣＲ結果として要求元の情報処理装置１に提供する（ＳＴ１６５）。

情報処理装置１は、ＯＣＲにより表の画像から読み取られた表データをＯＣＲ処理サーバ５から取得する（ＳＴ１７５）。情報処理装置１は、ステップＳＴ１５０においてＯＣＲ結果として取得した一群の文字列（表以外の文字列を含む）と、ステップＳＴ１７５においてＯＣＲ結果として取得した表データとを、それぞれ収集情報ＤＢ２２に登録する（ＳＴ１８０）。

図１２は、図４Ｂに示す印刷物の画像における表の画像からＯＣＲにより読み取られた表データの一例を示す図である。図１２の例では、表の各行及び各列に属する文字列がＪＳＯＮ形式の表データに整形されている。

印刷物の全体の画像からＯＣＲにより一群の文字列が読み取られるとともに、印刷物の表からＯＣＲにより表データが読み取られる場合、情報処理装置１は、ステップＳＴ２３５において、この一群の文字列と表データとから各項目の文字情報を抽出するように指示する第１プロンプトを生成する。この場合、情報処理装置１は、図６に示すような第１プロンプトにおける記載Ｐ５の中に、印刷物の全体の画像からＯＣＲにより読み取られた一群の文字列（図５）と、印刷物の表からＯＣＲにより読み取られた表データ（図１２）とを含めるようにしてもよい。

あるいは情報処理装置１は、図１３に示す第１プロンプトの例ように、一群の文字列（図５）が含まれた記載Ｐ５と、表データ（図１２）が含まれた記載Ｐ６を分離させてもよい。この図１３の例において、大規模言語モデル６に依頼するタスクの記載Ｐ１Ａは、分離して記載された「物件情報」（図５）及び「表」（図１２）から所定の項目に関する文字情報を抽出するように指示する。図１３の例における他の記載（Ｐ２～Ｐ４）は、図６に示す第１プロンプトの例と同じである。

この変形例によれば、印刷物に表が含まれている場合、表に含まれる文字列を表形式に整形した表データがＯＣＲにより読み取られ、この表データを用いて文字情報が抽出される。従って、表データに整形されていない一群の文字列のみを用いる場合に比べて、各項目の文字情報を正確に抽出し易くすることができる。

なお、本発明は上述した実施形態に限定されるものではなく、更に種々のバリエーションを含む。当業者は、本発明の技術的範囲またはその均等の範囲内において、上述した実施形態の構成要素に関し、様々な変更や代替を施すことが可能である。

例えば、上述した実施形態では端末装置３において取得された印刷物の画像が通信ネットワーク９を介して情報処理装置１に提供されているが、情報処理装置１にスキャナ４が接続されている場合には、スキャナ４で撮像された印刷物の画像を情報処理装置１が直接取得してもよい。
以下、本願の出願当初の特許請求の範囲に記載された内容を付記する。
［１］
印刷物に印刷された文字情報を情報処理装置が収集する方法であって、
前記情報処理装置が、光学文字認識により前記印刷物の画像から読み取られた一群の文字列を取得する工程と、
前記情報処理装置が、所定の１以上の項目に関する１以上の前記文字情報を前記一群の文字列から抽出するように大規模言語モデルへ指示を与える第１プロンプトを生成する工程と、
前記情報処理装置が、生成した前記第１プロンプトを前記大規模言語モデルに提供し、当該第１プロンプトに応じて前記一群の文字列から抽出された１以上の前記文字情報を前記大規模言語モデルから取得する工程と
を有する方法。
［２］
前記第１プロンプトを生成する工程は、一の前記項目に関する前記文字情報を前記一群の文字列から抽出できない場合、当該一の項目に関する前記文字情報が不明であることを回答するように指示する前記第１プロンプトを生成することを含む、
［１］に記載の方法。
［３］
前記情報処理装置が、前記一群の文字列から抽出する情報の種類に関する種類情報を取得する工程を有し、
前記第１プロンプトを生成する工程は、前記種類情報が示す前記種類について定められた１以上の前記項目に関する１以上の前記文字情報を前記一群の文字列から抽出するように指示する前記第１プロンプトを生成することを含む、
［１］に記載の方法。
［４］
前記種類情報を取得する工程は、
前記種類を特徴付ける所定のキーワードを前記一群の文字列において検索することと、
検索により見つかった前記キーワードに基づいて前記種類を判定することとを含む、
［３］に記載の方法。
［５］
前記種類情報を取得する工程は、
所定の複数の前記種類から該当する１つの前記種類を前記一群の文字列に基づいて判定するように前記大規模言語モデルへ指示を与える第２プロンプトを生成することと、
生成した前記第２プロンプトを前記大規模言語モデルに提供し、当該第２プロンプトに応じて判定された前記種類を前記大規模言語モデルから取得することとを含む、
［３］に記載の方法。
［６］
前記第１プロンプトを生成する工程は、少なくとも一部の前記項目について、前記一群の文字列から前記項目に関する前記文字情報を抽出する第１指示と、前記一群の文字列中の前記項目に関するキーワードに基づいて前記項目に関する関連情報をウェブ検索により収集する第２指示とを含んだ前記第１プロンプトを生成することを含み、
前記文字情報を取得する工程は、前記第１指示に応じて抽出された前記文字情報と、前記第２指示に応じて収集された前記関連情報とを前記大規模言語モデルから取得することを含み、
前記情報処理装置が、一の前記項目について前記大規模言語モデルから取得した前記文字情報を、当該一の項目について取得した前記関連情報に応じて修正する工程を有する、
［１］に記載の方法。
［７］
文字情報を修正する工程は、前記関連情報のウェブ上での公開日が前記印刷物の発行日より後の場合、前記文字情報を前記関連情報に応じて修正することを含む、
［６］に記載の方法。
［８］
前記第１プロンプトを生成する工程は、少なくとも一部の前記項目について、前記一群の文字列から前記項目に関する前記文字情報を抽出する第１指示と、前記一群の文字列中の前記項目に関するキーワードに基づいて前記項目に関する関連情報をウェブ検索により収集する第２指示と、前記第２指示に応じて一の前記項目について収集された前記関連情報から、当該一の項目についての前記文字情報を抽出する第３指示とを含んだ前記第１プロンプトを生成することを含み、
前記文字情報を取得する工程は、前記第１指示に応じて前記一群の文字列から抽出された前記文字情報と、前記第３指示に応じて前記関連情報から抽出された前記文字情報とを前記大規模言語モデルから取得することを含み、
前記文字情報を前記関連情報に応じて修正する工程は、一の前記項目について前記第１指示に応じて前記一群の文字列から抽出された前記文字情報を、当該一の項目について前記第３指示に応じて前記関連情報から抽出された前記文字情報に応じて修正する工程を有する、
［１］に記載の方法。
［９］
前記情報処理装置が、前記印刷物に表が印刷されている場合において、当該印刷物の前記表から光学文字認識により読み取られた表データを取得する工程を有し、
前記第１プロンプトを生成する工程は、前記印刷物の前記表から読み取られた前記表データを取得した場合、前記一群の文字列及び前記表データから前記文字情報を抽出するように指示する前記第１プロンプトを生成することを含む、
［１］に記載の方法。
［１０］
前記第１プロンプトを生成する工程は、１以上の前記項目の各々について、前記項目に関する前記文字情報の抽出結果の信頼性を評価するように指示する前記第１プロンプトを生成することを含み、
前記大規模言語モデルから前記文字情報を取得する工程は、各前記項目についての前記信頼性の評価結果を取得することを含む、
［１］に記載の方法。
［１１］
印刷物に印刷された文字情報を収集する処理を情報処理装置に行わせる命令を含んだプログラムであって、
前記命令に従って前記情報処理装置が行う処理は、［１］～［１０］のいずれか一つに記載された方法の各工程を含む、
プログラム。
［１２］
印刷物に印刷された文字情報を収集する処理を行う情報処理装置であって、
処理部と、
前記処理部において実行される命令を記憶した記憶部とを有し、
前記処理部が前記命令に従って行う処理は、［１］～［１０］のいずれか一つに記載された方法の各工程を含む、
情報処理装置。

１…情報処理装置、１１…通信部、１２…記憶部、１２１…プログラム、１３…処理部、２…記憶装置、２１…印刷物ＤＢ、２２…収集情報ＤＢ、３…端末装置、４…スキャナ、５…ＯＣＲ処理サーバ、６…大規模言語モデル、９…通信ネットワーク

Claims

印刷物に印刷された文字情報を情報処理装置が収集する方法であって、
前記情報処理装置が、光学文字認識により前記印刷物の画像から読み取られた一群の文字列を取得する工程と、
前記情報処理装置が、所定の１以上の項目に関する１以上の前記文字情報を前記一群の文字列から抽出するように大規模言語モデルへ指示を与える第１プロンプトを生成する工程と、
前記情報処理装置が、生成した前記第１プロンプトを前記大規模言語モデルに提供し、当該第１プロンプトに応じて前記一群の文字列から抽出された１以上の前記文字情報を前記大規模言語モデルから取得する工程とを有し、
前記第１プロンプトを生成する工程は、一の前記項目に関する前記文字情報を前記一群の文字列から抽出できない場合、当該一の項目に関する前記文字情報が不明であることを回答するように指示する前記第１プロンプトを生成することを含む、
方法。
印刷物に印刷された文字情報を情報処理装置が収集する方法であって、
前記情報処理装置が、光学文字認識により前記印刷物の画像から読み取られた一群の文字列を取得する工程と、
前記情報処理装置が、所定の１以上の項目に関する１以上の前記文字情報を前記一群の文字列から抽出するように大規模言語モデルへ指示を与える第１プロンプトを生成する工程と、
前記情報処理装置が、生成した前記第１プロンプトを前記大規模言語モデルに提供し、当該第１プロンプトに応じて前記一群の文字列から抽出された１以上の前記文字情報を前記大規模言語モデルから取得する工程と、
前記情報処理装置が、前記一群の文字列から抽出する情報の種類に関する種類情報を取得する工程とを有し、
前記第１プロンプトを生成する工程は、前記種類情報が示す前記種類について定められた１以上の前記項目に関する１以上の前記文字情報を前記一群の文字列から抽出するように指示する前記第１プロンプトを生成することを含む、
方法。
前記種類情報を取得する工程は、
前記種類を特徴付ける所定のキーワードを前記一群の文字列において検索することと、
検索により見つかった前記キーワードに基づいて前記種類を判定することとを含む、
請求項２に記載の方法。
前記種類情報を取得する工程は、
所定の複数の前記種類から該当する１つの前記種類を前記一群の文字列に基づいて判定するように前記大規模言語モデルへ指示を与える第２プロンプトを生成することと、
生成した前記第２プロンプトを前記大規模言語モデルに提供し、当該第２プロンプトに応じて判定された前記種類を前記大規模言語モデルから取得することとを含む、
請求項２に記載の方法。
印刷物に印刷された文字情報を情報処理装置が収集する方法であって、
前記情報処理装置が、光学文字認識により前記印刷物の画像から読み取られた一群の文字列を取得する工程と、
前記情報処理装置が、所定の１以上の項目に関する１以上の前記文字情報を前記一群の文字列から抽出するように大規模言語モデルへ指示を与える第１プロンプトを生成する工程と、
前記情報処理装置が、生成した前記第１プロンプトを前記大規模言語モデルに提供し、当該第１プロンプトに応じて前記一群の文字列から抽出された１以上の前記文字情報を前記大規模言語モデルから取得する工程とを有し、
前記第１プロンプトを生成する工程は、少なくとも一部の前記項目について、前記一群の文字列から前記項目に関する前記文字情報を抽出する第１指示と、前記一群の文字列中の前記項目に関するキーワードに基づいて前記項目に関する関連情報をウェブ検索により収集する第２指示とを含んだ前記第１プロンプトを生成することを含み、
前記文字情報を取得する工程は、前記第１指示に応じて抽出された前記文字情報と、前記第２指示に応じて収集された前記関連情報とを前記大規模言語モデルから取得することを含み、
前記情報処理装置が、一の前記項目について前記大規模言語モデルから取得した前記文字情報を、当該一の項目について取得した前記関連情報に応じて修正する工程を有する、
方法。
文字情報を修正する工程は、前記関連情報のウェブ上での公開日が前記印刷物の発行日より後の場合、前記文字情報を前記関連情報に応じて修正することを含む、
請求項５に記載の方法。
印刷物に印刷された文字情報を情報処理装置が収集する方法であって、
前記情報処理装置が、光学文字認識により前記印刷物の画像から読み取られた一群の文字列を取得する工程と、
前記情報処理装置が、所定の１以上の項目に関する１以上の前記文字情報を前記一群の文字列から抽出するように大規模言語モデルへ指示を与える第１プロンプトを生成する工程と、
前記情報処理装置が、生成した前記第１プロンプトを前記大規模言語モデルに提供し、当該第１プロンプトに応じて前記一群の文字列から抽出された１以上の前記文字情報を前記大規模言語モデルから取得する工程とを有し、
前記第１プロンプトを生成する工程は、少なくとも一部の前記項目について、前記一群の文字列から前記項目に関する前記文字情報を抽出する第１指示と、前記一群の文字列中の前記項目に関するキーワードに基づいて前記項目に関する関連情報をウェブ検索により収集する第２指示と、前記第２指示に応じて一の前記項目について収集された前記関連情報から、当該一の項目についての前記文字情報を抽出する第３指示とを含んだ前記第１プロンプトを生成することを含み、
前記文字情報を取得する工程は、前記第１指示に応じて前記一群の文字列から抽出された前記文字情報と、前記第３指示に応じて前記関連情報から抽出された前記文字情報とを前記大規模言語モデルから取得することを含み、
前記情報処理装置が、一の前記項目について前記第１指示に応じて前記一群の文字列から抽出された前記文字情報を、当該一の項目について前記第３指示に応じて前記関連情報から抽出された前記文字情報に応じて修正する工程を有する、
方法。
印刷物に印刷された文字情報を情報処理装置が収集する方法であって、
前記情報処理装置が、光学文字認識により前記印刷物の画像から読み取られた一群の文字列を取得する工程と、
前記情報処理装置が、所定の１以上の項目に関する１以上の前記文字情報を前記一群の文字列から抽出するように大規模言語モデルへ指示を与える第１プロンプトを生成する工程と、
前記情報処理装置が、生成した前記第１プロンプトを前記大規模言語モデルに提供し、当該第１プロンプトに応じて前記一群の文字列から抽出された１以上の前記文字情報を前記大規模言語モデルから取得する工程とを有し、
前記第１プロンプトを生成する工程は、１以上の前記項目の各々について、前記項目に関する前記文字情報の抽出結果の信頼性を評価するように指示する前記第１プロンプトを生成することを含み、
前記大規模言語モデルから前記文字情報を取得する工程は、各前記項目についての前記信頼性の評価結果を取得することを含む、
方法。
前記情報処理装置が、前記印刷物に表が印刷されている場合において、当該印刷物の前記表から光学文字認識により読み取られた表データを取得する工程を有し、
前記第１プロンプトを生成する工程は、前記印刷物の前記表から読み取られた前記表データを取得した場合、前記一群の文字列及び前記表データから前記文字情報を抽出するように指示する前記第１プロンプトを生成することを含む、
請求項１～請求項８のいずれか一項に記載の方法。
印刷物に印刷された文字情報を収集する処理を情報処理装置に行わせる命令を含んだプログラムであって、
前記命令に従って前記情報処理装置が行う処理は、請求項１～請求項８のいずれか一項に記載された方法の各工程を含む、
プログラム。
印刷物に印刷された文字情報を収集する処理を行う情報処理装置であって、
処理部と、
前記処理部において実行される命令を記憶した記憶部とを有し、
前記処理部が前記命令に従って行う処理は、請求項１～請求項８のいずれか一項に記載された方法の各工程を含む、
情報処理装置。