JP2023166252A

JP2023166252A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2023166252A
Application number: JP2022077175A
Authority: JP
Inventors: 智昭肥後; Tomoaki Higo
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2023-11-21
Also published as: EP4276676A1; US20230359828A1

Abstract

【課題】固有表現抽出における精度の向上と処理時間増大の抑制とを両立させる情報処理装置、制御方法及びプログラムを提供する。【解決手段】情報処理装置は、文書を読み取った文書画像からテキストデータを取得するＯＣＲ部と、該データをトークン単位に分解する処理を行ってトークン列に変換するテキスト変換部と、トークン列に基づき、自然言語処理モデルで処理するために必要な処理回数を算出する処理回数算出部と、トークン列を自然言語処理モデルで処理可能な単位のブロックに分割し、ブロック毎に自然言語処理モデルに入力して、固有表現を推定するブロック生成部とを有する。ブロック生成部は、算出した処理回数に基づき、隣り合うブロック間で少なくとも一部がオーバーラップするようにトークン列をブロックに分割し、隣り合うブロック間でオーバーラップした部分に属する各トークンについては、夫々のブロックから得られる推定結果の一方を選択する。【選択図】図２

Description

文書から固有表現を抽出する技術に関する。

文書から予め定義した項目に対応する文字列（固有表現）を抽出する技術として、一般的にＮＥＲ（Named Entity Recognition）が知られている。このＮＥＲによれば、例えば項目「法人名」と「有効期限」を予め定義しておくことで、「法人名」と「有効期限」それぞれに該当する文字列“ＡＢＣＣｏｍｐａｎｙ”と“２０２２／０３／０７”を、文書内のテキストから抽出することができる。近年、自然言語処理において主流となっているSeq2SeqやTransformerに代表される自然言語処理モデルは、文書内のテキストをトークンと呼ばれる単位に分割したトークン列を入力として、処理結果を得ることができる。このようなモデルを固有表現抽出に用いた場合、入力されたトークン列の中から固有表現を効率的に推定できる。その一方、モデルに一度に入力できるトークン数には上限があるため、長いテキストを入力する場合は複数のトークン列に分割して入力する必要があった。この点、特許文献１には、文書を章や節、段落といったセクションに分割し、セクションごとに固有表現の抽出を行う手法が開示されている。

特開２０２１－６４１４３号公報

上記特許文献１の手法によって文書内のテキストを所定のセクションに分割してトークン列を得る場合、トークン列を構成するトークンの数が入力上限に収まる可能性は高くなる。しかしながら、１つ１つのセクションが独立して処理される結果、固有表現の判別に必要なキーワードがなくなったり、文章全体の文脈が失われてしまい、その結果、上手く固有表現を抽出できないということが起こり得る。また、セクションの単位を細かく規定するほどモデルに入力して処理する回数が増え、結果的に処理時間が増大してしまう。

本開示は係る問題に鑑みてなされたものであり、固有表現抽出における精度の向上と処理時間増大の抑制とを両立させることを目的とする。

本開示に係る情報処理装置は、自然言語処理モデルを用いて、文書から固有表現を抽出する情報処理装置であって、前記文書を読み取った文書画像からテキストデータを取得する取得手段と、前記テキストデータをトークン単位に分解する処理を行ってトークン列に変換する変換手段と、前記トークン列に基づき、前記自然言語処理モデルで処理するために必要な処理回数を算出する算出手段と、前記トークン列を、前記自然言語処理モデルで処理可能な単位のブロックに分割する分割手段と、前記ブロックごとに前記自然言語処理モデルに入力して、固有表現を推定する処理を行う処理手段と、を有し、前記分割手段は、算出された前記処理回数に基づき、隣り合うブロック間で少なくとも一部がオーバーラップするように、前記トークン列を前記ブロックに分割し、前記処理手段は、前記隣り合うブロック間でオーバーラップした部分に属する各トークンについては、それぞれのブロックから得られる推定結果の一方を選択する、ことを特徴とする。

本開示によれば、処理時間の増大を抑えつつ、固有表現抽出の精度を向上させることができる。

情報処理装置のハードウェア構成を示す図。情報処理装置の機能構成例を示す図。文書画像から固有表現を抽出する場合の具体例を説明する図。トークンに対応する文字列にＧＴを付与した結果を表すテーブルの一例。トークン列を分割して入力ブロックを生成する処理の流れを示すフローチャート。長さＴのトークン列をオーバーラップさせて仮ブロックを決定する様子を示す図。仮ブロックに対し区切り条件を適用した場合の結果の一例を示す図。入力ブロック群から固有表現を抽出する処理の流れを示すフローチャート。変形例３の説明図。変形例４に係る、推定結果を決定する処理手順を示すフローチャート。変形例４の効果を説明する図。

以下、本発明を実施するための形態について図面を用いて説明する。なお、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。最初に各実施形態に示す情報処理装置のハードウェア構成について、図１を用いて説明する。

図１は、情報処理装置１００のハードウェア構成図である。図１において、ＣＰＵ１０１は、システムバス１０９に接続された各種デバイスの制御を行う。ＲＯＭ１０２は、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ）のプログラムやブートプログラムを記憶する。ＲＡＭ１０３は、ＣＰＵ１０１の主記憶装置として使用される。外部メモリ１０４は、情報処理装置が処理するプログラムを格納する。入力部１０５は、情報等の入力に用いる各種デバイス、例えばタッチパネルやキーボード、マウス、ロボットコントローラーなどで構成される。表示装置１０６は、液晶モニタ、プロジェクタ、ＬＥＤインジケータなどで構成され、ＣＰＵ１０１からの指示に従ってユーザインタフェース画面（ＵＩ画面）や演算結果等を表示する。通信Ｉ／Ｆ１０７は、イーサネット（登録商標）、ＵＳＢ、ＷｉＦｉといった通信規格に従って、ＬＡＮやインターネット等のネットワークを介して外部装置と情報通信を行うインタフェースである。Ｉ／Ｏ１０８は、例えば不図示のスキャナと接続して文書のスキャン画像（以下、「文書画像」と呼ぶ。）のデータを受信したりする入出力部である。

［実施形態１］
本実施形態では、入力テキストから得たトークン列のトークン数が自然言語処理モデルに入力可能な上限を超える場合に、その全部を処理するのに必要な処理回数を求め、当該処理回数が増加しない範囲でトークン列同士が重なるように入力テキストを分割する。こうすることで、処理時間の増大を抑えつつ、固有表現抽出の精度を向上させる。事前学習した自然言語処理モデルとしては、例えばＢＥＲＴ（Bidirectional Encoder Representations from Transformers）やＸＬＮｅｔなどが挙げられる。なお、上記のような一般公開されているモデルを利用するのに代えて、事前学習を１から行ったモデルを利用してもよい。また、必ずしもtransformerベースの構造を持つモデルでなくてもよく、事前学習された高精度な自然言語処理モデルであればよい。例えば、独自設計の構造を持つモデルでも、ＡＵＴＯＭＬなどにより自動設計された構造を持つモデルでも構わない。以降、事前学習した自然言語処理モデルとしてＢＥＲＴを利用する場合を例に説明を行うものとする。

＜システム構成＞
図２は、本実施形態に係る、文書画像から固有表現を抽出する情報処理装置１００の機能構成例を示す図である。情報処理装置１００は、ＯＣＲ部２０１、テキスト変換部２０２、処理回数算出部２０３、区切り条件取得部２０４、ブロック生成部２０５、固有表現処理部２０６を有する。以下、各機能部について説明する。

ＯＣＲ部２０１は、文書画像内の文字に対応する画像領域（文字領域）に対してＯＣＲ（Optical Character Recognition）を行うことによって、文書内に存在する文字の情報（テキストデータ）を取得する。このテキストデータは、各文字領域の座標に基づき例えば左から右、上から下に走査して、認識された対応する文字列を順に結合することで生成される。ただし、テキストデータの取得方法は、文書画像をＯＣＲする方法に限定されず、例えば、文書の電子ファイル内に画像データとは別にテキストデータが含まれている場合にはそれを取得してもよい。或いは、音声情報から文字起こしによって得られたテキストデータを取得してもよい。取得したテキストデータはテキスト変換部２０２に渡される。

テキスト変換部２０２は、入力されたテキストデータに対して形態素解析を行い、得られた形態素毎に分かち書きを行ってトークンに分解し、トークンの集合であるトークン列に変換する。ここで、トークンとは、ニューラルネットワークモデルに入力する言語情報の最小単位である。ここでは、トークンの単位を形態素としているがこれに限定されない。例えば、トークンの単位として、文節単位や単語単位、文字単位を採用してもよい。固有表現の推定に用いる自然言語処理モデルが、学習時に設定したトークンの単位に合わせてトークンに分解すればよい。得られたトークン列は、処理回数算出部２０３とブロック生成部２０５に渡される。

処理回数算出部２０３は、テキスト変換部２０２から受け取ったトークン列を構成するトークンの数と、使用する自然言語処理モデルで処理可能（一度に入力可能）なトークンの最大数とに基づいて、処理回数を算出する。具体的には、トークン列を構成するトークン数（トークン列の長さ）をＴ、自然言語処理モデルに対してトークン列から一度に入力可能な最大トークン数（上限トークン数）をＬとすると、処理回数Ｐは以下の式（１）で表される。
Ｐ＝ＲｏｕｎｄＵｐ（Ｔ／Ｌ）・・・式（１）

上記式（１）において“ＲｏｕｎｄＵｐ”は小数点以下を切り上げるための関数である。この処理回数Ｐは、トークン数ＴをＢＥＲＴにすべて入力するために要求される、処理しなければならない最小限の回数である。後述するブロック生成部２０５にてトークン列をオーバーラップさせながら入力ブロックを生成するとき、少なくともＭ個のトークンをオーバーラップさせるようにするには、上記式（１）を以下の式（２）に置き換えればよい。
Ｐ＝ＲｏｕｎｄＵｐ（（Ｔ－Ｍ）／（Ｌ－Ｍ））・・・式（２）

上記式（１）又は上記式（２）を用いて算出された処理回数Ｐの情報は、ブロック生成部２０５に渡される。ここで、具体例を示す。いま、ＢＥＲＴに一度に入力可能なトークン数は５１２個であり、トークン列の始まりと終わりを表す特殊トークンである“ＣＬＳ”と“ＳＥＰ”を用いる場合には、上限トークン数Ｌ＝５１２－２＝５１０となる。入力するトークン列のトークン数が１０００個であるならば、上記式（１）より、１０００／５１０＝１．９６・・となり、切り上げによって処理回数Ｐ＝２となる。また、オーバーラップさせたいトークン数をＭ＝３２とした場合、上記式（２）より、（１０００－３２）／（５１０－３２）＝２．０２となり、切り上げによって処理回数Ｐ＝３となる。

区切り条件取得部２０４は、後述するブロック生成部２０５にてトークン列を入力ブロックに分割する際に、文脈を理解するのに適切な箇所で区切るための条件（以下、「区切り条件」と呼ぶ。）を取得する。区切り条件としては、“段落で区切る”、“改行で区切る”、“句点で区切る”、“句読点で句切る”、“トークンで区切る”、といったものが挙げられる。区切り条件取得部２０４は、少なくとも２つ以上の区切り条件を取得し、区切りの細かさに応じてそれらを段階分けする。トークン列が最も細かく区切られることになるのは、トークン列のどこで区切っても構わない“トークン単位で区切る”である。一例を挙げると、例えば「これはりんごです。あれはみかんです。」という文章があったとする。後述する仮の入力ブロックが「です。あれはみかんです。」だった場合、区切り条件が“句点で区切る”であれば、「です。」と「あれはみかんです。」で分割して、入力ブロックを「あれはみかんです。」にすることができる。段階分けされた区切り条件によって例えば先頭に唐突に文字列「です。」が現れて文脈を理解しづらくなるような影響を軽減することができ、推定や学習の精度を上げること可能になる。このような段階分けされた区切り条件（以下、「条件群」と呼ぶ。）は、ブロック生成部２０５に渡される。

ブロック生成部２０５は、テキスト変換部２０２から受け取ったトークン列を、ＢＥＲＴに入力可能な数のトークンの塊（以下、「入力ブロック」と表記）に分割する。テキストデータから固有表現を推定する場合、トークン列のどの辺りに固有表現が存在するかを事前に知ることは困難である。特別な知識によって、トークン列内の特定の範囲には固有表現は存在しない或いは推定する必要がないということが事前に分かっている場合を除き、通常はトークン列全てをＢＥＲＴに入力することになる。ブロック生成部２０５は、最初に、トークン列同士が互いにオーバーラップするように、処理回数Ｐに基づき、ブロック同士の重なりを許容しつつ、上限トークン数Ｌ個のトークンから成る仮の入力ブロックをＰ個決定する。ここで決定されるＰ個の仮の入力ブロックを、以下、「仮ブロック」とする。さらに、ブロック生成部２０５は、各仮ブロックにおいて、条件群に含まれる区切り条件に基づいて仮ブロックの両端のトークンを削除する。このように仮ブロックの端部からトークンを削って得られる入力ブロックが、ＢＥＲＴに入力されることになる。トークン列を入力ブロックに分割する処理の詳細については後述する。分割された入力ブロックのデータは固有表現処理部２０６に渡される。

固有表現処理部２０６は、推定部２０７、決定部２０８、学習部２０９で構成され、トークン列から固有表現を抽出するために必要な各処理を行う。以下、固有表現処理部２０６を構成する各部について説明する。

推定部２０７は、ブロック生成部２０５から受け取った入力ブロックをＢＥＲＴに入力して、入力ブロックから固有表現を推定する処理を行う。ここで用いるＢＥＲＴは、詳しくは、ＢＥＲＴ層に多クラス分類を行うための全結合層（独自層）を追加したニューラルネットワークモデルである。入力ブロックに含まれる各トークンは、エンコードした後にＢＥＲＴに入力可能な形式のベクトルに変換されて、ＢＥＲＴ層に入力される。ＢＥＲＴ層の出力をさらに全結合層によって多クラス分類することによって、入力トークンに対応した固有表現のタグが得られる。例えば、入力ブロックが“ＡＢＣ株式会社”である場合において、“ＡＢＣ”と“株式会社”の２つのトークンが含まれていたとする。それぞれのトークンに対して、ＩＯＢ（Inside-Outside-Beginning）形式の固有表現タグとして、法人名の先頭トークンを指す“Ｂ－ＯＲＧ”と、後に続く“Ｉ－ＯＲＧ”を推定する。これにより、固有表現として、法人名のＡＢＣ株式会社を推定できたことになる。なお、「Ｂ」から始まるタグは固有表現の先頭トークンを表し、「Ｉ」から始まるタグは固有表現の２番目以降のトークンを表す。こうした多クラス分類問題を解けるように、後述する学習部２０９でＢＥＲＴ層と全結合層の学習を行っておく。これにより、推定部２０７は固有表現の推定を実現する。固有表現タグを推定する際には、トークン毎に、推定候補となる固有表現タグ毎に尤もらしさを表すスコアを算出し、スコアが最大となる固有表現タグを推定結果とする。こうして推定したＩＯＢ形式の固有表現タグ及びスコアの情報は決定部２０８に渡される。

決定部２０８は、推定部２０７から受け取った固有表現タグとスコアに基づき、最終的に出力する固有表現を決定する。まず、入力ブロックのうちオーバーラップのない範囲については、推定部２０７が推定した固有表現タグはトークン毎に１つだけであるから、その結果を固有表現として決定すればよい。一方、入力ブロックのうちオーバーラップのある範囲については、推定部２０７がトークン毎に複数の固有表現タグを推定している。そのため、複数の固有表現タグの中から１つの固有表現タグを決定する必要がある。複数の中から１つの固有表現タグを選ぶ際には、その中でスコアが大きい方の固有表現タグを選べばよい。或いは、固有表現タグ毎に得られている複数のスコアの和を計算し、スコアの和が最大となる固有表現タグを選んでもよい。このようにして、入力ブロックにオーバーラップがある部分では、スコアが最大の固有表現タグを選択して固有表現の値を決定する。決定した固有表現の値は、例えば表示部１０５に表示される。

学習部２０９は、入力ブロックを構成するトークンを用いて、推定部２０７で推定を行うためのＢＥＲＴ層と全結合層を多クラス分類器として学習を行う。この学習には、入力と出力のデータセット、具体的には、様々な文書画像に通常「ＧＴ（Ground Truth）」と呼ばれる正解データを付与した教師データを用いる。本実施形態の場合、トークン列に含まれる各トークンに対して、固有表現タグである“Ｂ－ＯＲＧ”等がＧＴとして付与される。例えば、固有表現として、法人名、個人名、日付の３つを入力ブロックから推定したい場合には、固有表現タグとして、法人名を表す“Ｂ－ＯＲＧ”、それに続く“Ｉ－ＯＲＧ”、個人名を表す“Ｂ－ＰＥＲＳＯＮ”、それに続く“Ｉ－ＰＥＲＳＯＮ”、日付を表す“Ｂ－ＤＡＴＥ”、それに続く“Ｉ－ＤＡＴＥ”、さらに固有表現ではないことを表す“Ｏ”の計７つの固有表現タグのうち１つを各トークンに割り当てる。ここで、見積書のスキャン画像から固有表現を抽出する場合の具体例を、図３を参照して説明する。いま、文書画像３００から法人名、個人名、日付の３種類を固有表現として推定することを考えると、文字領域３０１の文字列“ＡＢＣ株式会社”と文字領域３０２の文字列“ＤＥＦ真空株式会社”には法人名のＧＴを付与する。そして、文字領域３０３の文字列“山田太郎”には個人名のＧＴを付与し、文字領域３０４の文字列“１０月３１日”には日付のＧＴを付与しておく。図４は、図３に示す文書画像３００に含まれる、トークンに対応する文字列にＧＴを付与した結果を表すテーブルである。図４に示すテーブル４００は、「識別子」、「トークン文字列」、「ＧＴ」の３列から成り、各行はトークンを表している。例えば、１行目のトークン“見積”と２行目のトークン“書”にはそれぞれ固有表現ではないことを表す“Ｏ”のタグが付与されている。また、３行目のトークン“ＡＢＣ”には“Ｂ－ＯＲＧ”、４行目のトークン“株式会社”には“Ｉ－ＯＲＧ”が付与されており、これにより“ＡＢＣ株式会社”が法人名“ＯＲＧ”であることを示している。このようにして、文書内のテキストに対応するトークン列に固有表現タグをＧＴとして付与しておく。学習部２０９は、入力ブロック単位のテーブル４００を参照し、「トークン文字列」内の各トークンをエンコードした後にベクトル化してＢＥＲＴ層に入力する。そして、全結合層から出力された多クラス分類結果とトークンそれぞれの対応するＧＴとを比較してＬｏｓｓおよび勾配を求め、ＢＥＲＴ層および全結合層の重みを修正する。これを繰り返し行って、ＢＥＲＴ層と全結合層の重みを更新することで学習を行う。学習によって得られた重みは、推定部２０７における推定処理において用いられる。

なお、本実施形態では、１つの情報処理装置１００が有する固有表現処理部２０６内に推定部２０７、決定部２０８、学習部２０９の３つの機能が存在しているが、これら３つの機能部は必ずしも１つの装置が有していなくてもよい。例えば、推定部２０７と決定部２０８の両機能を備えた比較的スペックの低いハードウェア構成を持つ第１の情報処理装置と、学習部２０９の機能を備えた比較的スペックの高いハードウェア構成を持つ第２の情報処理装置との２つに分かれていてもよい。この場合、第２の情報処理装置で多くの教師データを用いて大量の学習を行い、第１の情報処理装置で負荷の軽い推定を行うことで、コストを抑えてサーバーエッジ型のシステムを提供することができる。

＜トークン列の分割＞
次に、トークン列を分割して入力ブロックを生成する処理の流れを、図５のフローチャートを参照して説明する。以下の説明において記号「Ｓ」はステップを意味する。

Ｓ５０１では、初期化処理が行われる。具体的には、以下のような処理を行う。

・自然言語処理モデル（以下、単に「モデル」と表記）の重みをロードし、入力の上限トークン数Ｌを取得・設定
・分かち書きのためのトークン分割方法を取得・設定
・モデルに一度に入力可能な上限トークン数Ｌ、オーバーラップさせる最小トークン数Ｍを取得・設定
・区切り条件の条件群を取得して段階分けを行い、ブロック生成部２０５に出力
Ｓ５０２では、ＯＣＲ部１０１が、文書画像からテキストデータを取得する。取得したテキストデータは、テキスト変換部２０２に渡される。

Ｓ５０３では、テキスト変換部２０２が、入力されたテキストデータに対して、トークンの単位に分解する処理を行って、トークン列に変換する。変換されたトークン列は処理回数算出部２０３とブロック生成部２０５に渡される。

Ｓ５０４では、処理回数算出部２０３が、Ｓ５０１で設定された上限トークン数Ｌに基づいて、Ｓ５０３で得られたトークン列についての処理回数を算出する。算出した処理回数はブロック生成部２０５に渡される。

Ｓ５０５では、ブロック生成部２０５が、長さＴのトークン列と処理回数Ｐを受け取り、上限トークン数Ｌに従ったＰ個の仮ブロックを決定する。図６は、処理回数Ｐ＝３の場合において、長さＴのトークン列をオーバーラップさせて仮ブロックを決定する様子を示す図である。一部がオーバーラップした３つの仮ブロック６０１～６０３が決定されている。この場合において、Ｍｇは、仮ブロック６０１と仮ブロック６０２がオーバーラップしている範囲を表している。ここで、処理回数Ｐの下でオーバーラップする範囲をなるべく多くした場合、範囲Ｍｇの長さは、次の式（３）で求められる。
Ｍｇ＝（Ｐ×Ｌ－Ｔ）／（Ｐ－１）式（３）

仮に処理回数Ｐ＝３、上限トークン数Ｌ＝５１２、トークン列の長さＴ＝１２００の場合であれば、Ｍｇ＝（３×５１０－１２００）／（３－１）＝１６５となり、１つの仮ブロックあたり１６５個のトークンがオーバーラップすることになる。

また、先頭（１番目）の仮ブロックに対するｋ番目の仮ブロックの開始位置Ｐｓと終了位置Ｐｅはそれぞれ以下の式（４）及び式（５）で表される。
Ｐｓ＝（ｋ－１）×（Ｌ－Ｍｇ）・・・式（４）
Ｐｅ＝（ｋ－１）×（Ｌ－Ｍｇ）＋Ｌ・・・式（５）

よって、図６の例において、１番目の仮ブロック６０１は最初のトークンの位置である開始位置Ｐｓ＿１から終了位置Ｐｅ＿２までである。また、２番目の仮ブロック６０２は、開始位置Ｐｓ＿２から終了位置Ｐｅ＿２までであり、開始位置Ｐｓ＿２はＬ－Ｍｇと等しい。同様に、３番目の仮ブロック６０３は、開始位置Ｐｓ＿３から終了位置Ｐｅ＿３までであり、開始位置Ｐｓ＿３は２Ｌ－２Ｍｇと等しい。そして、３つの仮ブロック６０１～６０３の長さはいずれも上限トークン数Ｌである。最後の仮ブロックにおける最後のトークンが、長さＴのトークン列の最後に来るようになっており、これによりデータを効率よく用いることができる。このようにして、ブロック生成部２０５はトークン列の長さＴと処理回数Ｐから、まずＰ個の仮ブロックを決定する。

次のＳ５０６でブロック生成部２０５は、区切り条件取得部２０４から受け取った条件群に含まれる各区切り条件に応じて、Ｓ５０５にて決定された仮ブロックの両端（若しくはいずれか一方の端）にあるトークンを削って、入力ブロックを生成する。ここで具体例を用いて説明する。図７は、“今日は日曜日。次の日は、月曜日ですか。それとも、火曜日ですか。”のトークン列７００について決定された２つの仮ブロックに対し３種類の区切り条件を適用した場合の結果を示している。いま、第一の仮ブロック７０１は“今日は日曜日。次の日は、月曜日で”の範囲であり、次の第二の仮ブロック７０２は“。次の日は、月曜日ですか。それとも、火曜日ですか。”までの範囲である。ここでは、受け取った条件群に含まれる区切り条件が、「句点で区切る」、「句読点で区切る」、「トークンで区切る」、の順により細かくなる３段階であった場合について説明する。

≪句点で区切る場合≫
トークン列７１０は、トークン列７００を句点で区切って分割した場合の文字列を示しており、“／”は区切り位置を示している。区切り条件「句点で区切る」に応じて仮ブロックの端を削る結果、“／”と“／”とで挟まれた範囲が最長ブロックとなるような入力ブロックが得られる。句点で区切った場合のトークン列７１０からは、まず、第一の仮ブロック７０１の後端から“次の日は、月曜日で”を削って、「今日は日曜日。」までの範囲が第一の入力ブロックとして生成される。さらに、第二の仮ブロック７０２の先端から“。”を削って、「次の日は、月曜日ですか。それとも、火曜日ですか。」までの範囲が第二の入力ブロックとして生成されることになる。

≪句読点で区切る場合≫
トークン列７２０は、トークン列７００を句読点で区切って分割した場合の文字列を示しており、“／”は区切り位置を示している。区切り条件「句読点で区切る」に応じて仮ブロックの端を削る結果、“／”と“／”とで挟まれた範囲が最長ブロックとなるような入力ブロックが得られる。句読点で区切った場合のトークン列７２０からは、まず、第一の仮ブロック７０１の後端から“月曜日で”を削って、「今日は日曜日。次の日は、」までの範囲が第一の入力ブロックとして生成される。さらに、第二の仮ブロック７０２の先端から“。”を削って、「次の日は、月曜日ですか。それとも、火曜日ですか。」までの範囲が第二の入力ブロックとして生成されることになる。

≪トークンで区切る場合≫
トークン列７３０は、トークン列７００をトークン単位で区切って分割した場合の文字列を示しており、“／”は区切り位置を示している。区切り条件「トークンで区切る」に応じて仮ブロックの端を削る結果、“／”と“／”とで挟まれた範囲が最長ブロックとなるような入力ブロックが得られる。トークンで区切った場合のトークン列７３０からは、まず、第一の仮ブロック７０１の後端から“で”を削って、「今日は日曜日。次の日は、月曜日」までの範囲が第一の入力ブロックとして生成される。さらに、第二の仮ブロック７０２の先端からは何も削らずに、「。次の日は、月曜日ですか。それとも、火曜日ですか。」までの範囲が第二の入力ブロックとして生成されることになる。

ブロック生成部２０５は、条件群に含まれる複数の区切り条件のうち最も粗く区切られる区切り条件からスタートし、区切り条件を変更しながら、仮ブロックを削って入力ブロックを生成する。なお、仮ブロックを削った結果（或いは最初から）、入力ブロックのトークン数が上限トークン数Ｌよりも短い場合は、先頭側に詰め、上限トークン数Ｌに足りない分は、末尾側にパディングトークンと呼ばれる特殊トークンで埋める処理を行う。これにより、入力ブロックを構成するトークン数が、モデルへ入力可能な上限トークン数Ｌと等しくなるようにする。

Ｓ５０７では、ブロック生成部２０５は、生成したすべての入力ブロックにおいて、隣り合う入力ブロック同士の間でオーバーラップする部分があるかを確認する。もし、全ての入力ブロック間でオーバーラップ部分が確認できた場合は、最適な入力ブロックが生成できたと判断して、処理を終了する。一方、オーバーラップ部分のない箇所が１カ所でもあった場合には、Ｓ５０８へ進む。

Ｓ５０８では、ブロック生成部２０５は、適用する区切り条件を１段階細かいものに変更する。例えば、条件群に上述の３つの区切り条件が含まれており、現在適用中の区切り条件が「句点で区切る」であってオーバーラップが確認できない箇所があった場合、「句読点で区切る」に変更されることになる。区切り条件を１段階変更した後は、Ｓ５０６に戻って処理を続行する。このような処理が、全ての入力ブロック間でオーバーラップが残るまで繰り返されることになる。上述の図７の例では、区切り条件として「句読点で区切る」を適用した時点で、“次の日は、”の部分がオーバーラップするので、この段階で処理終了となる。

以上が、本実施形態に係る、トークン列から入力ブロックを生成する処理の内容である。これにより、長さＴのトークン列から、最小限の処理回数を担保しつつ、文脈を理解しやすい形の入力ブロックを得ることが可能になり、その結果、固有表現の推定や学習の精度向上に寄与することになる。

＜固有表現の抽出処理＞
次に、上述のようにしてトークン列から生成した入力ブロック群から、固有表現処理部２０６にて固有表現を抽出する処理の流れを、図８のフローチャートを参照して説明する。以下の説明において記号「Ｓ」はステップを意味する。
Ｓ８０１では、推定部２０７が、受け取った入力ブロック群の中から注目する入力ブロックを決定してモデルに入力し、トークン毎に固有表現タグを推定する。推定結果（推定された１又は複数の固有表現タグおよび各固有表現タグに対するスコア）は決定部２０８へ渡される。

Ｓ８０２では、受け取った入力ブロック群に含まれるすべての入力ブロックについての推定が完了したかどうかが判定される。全ての入力ブロックに対する推定処理が完了していればＳ８０３に進む。一方、未処理の入力ブロックが残っていればＳ８０１に戻って次の注目する入力ブロックを決定して、固有表現の推定処理を続行する。
Ｓ８０３では、決定部２０８が、入力ブロック群に含まれる全ての入力ブロックに対する推定結果（推定された固有表現タグとそのスコア）に基づき、トークン毎に１つの固有表現タグを決定する。

以上が、固有表現処理部２０６における固有表現抽出処理の内容である。こうしてトークン毎に決定された固有表現タグは、例えば表示部１０６に表示してユーザに提示する。例えば、｛“トークン文字列”，『固有表現タグ』｝の組で表す以下のような処理結果が得られたとする。
・｛“見積”，『Ｏ』｝
・｛“書”，『Ｏ』｝
・｛ＡＢＣ，『Ｂ－ＯＲＧ』｝
・｛株式会社，『Ｉ－ＯＲＧ』｝
・｛山田，『Ｂ－ＰＥＲＳＯＮ』｝
・｛様，『Ｏ』｝
・｛２０２１，『Ｂ－ＤＡＴＥ』｝
・｛年，『Ｉ－ＤＡＴＥ』｝
・｛１０，『Ｉ－ＤＡＴＥ』｝
・｛月，『Ｉ－ＤＡＴＥ』｝
・｛３１，『Ｉ－ＤＡＴＥ』｝
・｛日，『Ｉ－ＤＡＴＥ』｝

この場合、例えば表示部１０６に、法人名を表す「ＯＲＧ」として“ＡＢＣ株式会社”、個人名を表す「ＰＥＲＳＯＮ」として“山田”、日付を表す「ＤＡＴＥ」として“２０２１年１０月３１日”を表示する。なお、処理結果の出力態様としてディスプレイへの表示は一例であり、これに限定されない。

＜変形例１＞
トークン列から入力ブロックを生成する際、図５のフローチャートでは、区切り条件に従って仮ブロックの端のトークンを削った後に、オーバーラップがない箇所が１カ所もないことを条件に処理を終了していた（Ｓ５０７）。しかしながら、以下に示す条件を満たす場合には、オーバーラップがない箇所があっても処理を終了してもよい。

≪条件≫
・オーバーラップがない箇所に対応する２つの入力ブロックに関し、仮ブロックの段階では互いにオーバーラップしている
・区切り条件に従って端のトークンを削って得られた前側の入力ブロックの最終トークンの次トークンが、後ろ側の入力ブロックの先頭トークンになっていて、処理されないトークンが存在しない

これにより、より粗いレベルでの分割による入力ブロックを生成でき、より文脈のまとまりを把握しやすくなる。

＜変形例２＞
トークン列から入力ブロックを生成する際、図５のフローチャートでは、処理回数Ｐを固定し、区切り条件を段階的に変更していくことで、入力ブロックを生成していた。しかしながら、区切り条件の方を固定し、処理回数Ｐの方を増やすようにしてもよい。具体的には、まず、固定する区切り条件を１つ決定する。次に、処理回数Ｐにおいて各仮ブロックを区切り条件に従って削った時、隣り合う入力ブロック間でオーバーラップしないトークンが出てくる場合には、処理回数Ｐをインクリメント（Ｐ＋１）する。そして、前述の式（３）からＭｇを求め直し、求めたＭｇを前述の式（４）及び式（５）に適用して、仮ブロックの範囲を決める。こうして決めた各仮ブロックを固定の区切り条件に従って削り、得られたすべての入力ブロックにおいてオーバーラップがない箇所が１カ所もないかどうかを確認する。そして、オーバーラップがない箇所が１カ所でもあれば、再度、処理回数Ｐをインクリメントして同様の処理を繰り返す。仮に条件が満たされることがなければ、入力ブロックの生成を終了すればよい。本変形例の場合、処理回数は増えてしまうものの、より文脈のまとまりを把握しやすくなるために、固有表現の推定精度を向上させることができる。

＜変形例３＞
トークン列から入力ブロックを生成する際、図５のフローチャートでは、仮ブロックを決定した後で区切り条件に従って仮ブロックの端にあるトークンを削って入力ブロックを生成していた。しかしながら、例えば、区切り条件によって区切ることが可能な位置を先に特定しておき、その後に処理回数Ｐの下で入力ブロックを生成するようにしてもよい。具体的な手法は以下のとおりである。まず前提として、区切り条件によって区切ることができる位置としてＤ＿１からＤ＿ＮまでＮ個が存在するものとする。この場合において、Ｎ個の中にはトークン列の先頭と末尾も含まれているものとする。これらＮ個の中からＤ＿ＩとＤ＿Ｊの２個を選択すると、Ｄ＿ＩからＤ＿Ｊまでの間のトークン数がモデルに入力可能な上限トークン数Ｌよりも小さければ入力ブロックとして生成可能である。Ｎ個から２個を選び出す全ての組み合わせを確認して、入力ブロックの候補群を生成する。そして、これらの入力ブロックの候補群の中からＰ個の入力ブロックを選んで、全トークンを処理できるような組み合わせを選ぶことができれば、それらを入力ブロックとする。一方で、入力ブロックの候補群の中からＰ個の入力ブロックをどのように選んでも全トークンを処理できない場合には、より細かく区切ることが可能な区切り条件に変更して同様の処理を繰り返せばよい。本変形例による効果について、仮ブロックを決定してから区切り条件を適用して入力ブロックを生成した場合と比較して説明する。図９において、トークン列９００は長さＴを有している。Ｄ＿１～Ｄ＿６はある区切り条件によって区切ることのできる位置を表している。いま、処理回数Ｐ＝３である。

まず、比較例について説明する。図９において、中央に示す３つのブロック９２０、９２１、９２２は、左側に示す３つの仮ブロック９１０、９１１、９１２に対して現状の区切り条件に従ってトークンの一部を削って生成した入力ブロックを表している。この場合、区切り位置Ｄ＿３から区切り位置Ｄ＿４の間のトークン列は処理できないことが分かる。結果として、より細かく区切ることができる区切り条件に変更して処理を継続するか、処理回数Ｐを３回から４回に増やして処理を行うことになる。

一方、本変形例の場合、決定済みの区切り位置に基づいて入力ブロックを生成するため、図９において右側に示す３つの入力ブロック９３０、９３１、９３２を得ることができる。つまり、本変形例の場合は、区切り条件も処理回数も変更することなく入力ブロックを生成することができ、その結果、処理時間も抑えた精度の高い固有表現推定が可能となる。

＜変形例４＞
決定部２０８は、オーバーラップ部分の各トークンについて複数の固有表現推定結果から１つを選ぶ際、オーバーラップ部分の前半部に属するトークンであるのか、後半部に属するトークンであるのかによって決定してもよい。具体的には、前半部に属するトークンについてはトークン列の先頭寄りの入力ブロックの推定結果を用い、後半部に属するトークンについては末尾寄りの入力ブロックの推定結果を採用する。以下、本変形例に係る、決定部２０８における処理の流れについて、図１０のフローチャートを参照して説明する。

Ｓ１００１では、複数の入力ブロックに対応する固有表現タグの推定結果の中から、オーバーラップしている部分を特定する。ここで、図１１の具体例を参照して説明する。いま、トークン列１１０１について、第一の入力ブロックに対する固有表現タグの推定結果１１０２と、第二の入力ブロックに対する固有表現タグの推定結果１１０３が得られている。第一の入力ブロックと第二の入力ブロックとの間において、トークン１からトークン９までがオーバーラップしており、複数の推定結果が得られている。この場合、トークン１からトークン９までのトークン列がオーバーラップ部分として特定される。

Ｓ１００２では、特定されたオーバーラップ部分における注目するトークンが決定され、当該注目するトークンについての２つの推定結果が取得される。この際、特定されたオーバーラップ部分に含まれる各トークンのうち先頭に近い方のトークンから順に注目するトークンとして決定する。

Ｓ１００３では、取得した２つの推定結果が所定条件を満足するかによって処理が振り分けられる。ここで、所定条件は以下のとおりである。
≪条件１≫
・２つの推定結果が、同一であること
≪条件２≫
・２つの推定結果が、推定すべき固有表現タグ（本実施形態では、“Ｂ－ＯＲＧ”、“Ｉ－ＯＲＧ”、“Ｂ－ＰＥＲＳＯＮ”、“Ｉ－ＰＥＲＳＯＮ”、“Ｂ－ＤＡＴＥ”、“Ｉ－ＤＡＴＥ”）以外のタグ（本実施形態では“Ｏ”）であること
≪条件３≫
・条件１と条件２を満たすトークンが２つ連続していること

上記３つの条件をすべて満たしている場合はＳ１００４に進み、満たしていない場合はＳ１００２に戻って次の注目するトークンを決定して処理を続行する。例えば、図１１の例において、文字列“３１”のトークン１に注目すると、第一の入力ブロックの推定結果１１０２では“Ｉ－ＤＡＴＥ”、第二の入力ブロックの推定結果１１０３では“Ｏ”となっており一致しないので、条件１を満たさない。また、第一の入力ブロックの推定結果１１０２では“Ｉ－ＤＡＴＥ”なので条件２も満たしていない。よって、この場合はＳ１００２に戻り、文字列“日”のトークン２を次の注目するトークンに決定して処理が続行されることになる。このようにして、上記３つの条件を満たすトークンが見つかるまで、順に確認していく。図１１の例では、文字列“担当”のトークン６で条件１と条件２を満たし、さらに文字列“者”のトークン７でも条件１と条件２を満たすため、条件３も満たすことになる。よって、トークン７まで処理が進んだ段階でＳ１００４へ進むことになる。

Ｓ１００４では、上記所定の条件を満たしたトークンの手前までを前半部、上記所定の条件を満たしたトークン以降を後半部として境界を決定する。図１１の例では、オーバーラップ部分に含まれるトークン１からトークン９のうち、トークン１からトークン６までを前半部、トークン７からトークン９までを後半部とするように、トークン６とトークン７との間が境界として決定されることになる。

Ｓ１００５では、決定された境界に従い、前半部に属するトークンについては第一の入力ブロックの推定結果を採用し、後半部に属するトークンについては第二の入力ブロックの推定結果が採用される。

以上が、本変形例に係る、オーバーラップ部分における各トークンの推定結果の決定方法である。なお、オーバーラップ部分に含まれる全トークンを確認しても上記条件１～３をすべて満たすトークンが見つからない場合がある。その場合は、Ｓ１００３において、条件１または条件２のどちらかの条件を無いものとした時に、残り２つの条件を満たすかどうかによって処理を振り分けてもよい。それでも条件を満たすトークンが見つからない場合には、例えば上述の図１１の例において“株式会社”のトークン５までを前半部、“担当”のトークン６からを後半部といったように、オーバーラップ部分の真ん中で前半部と後半部を分けてもよい。或いは、オーバーラップ部分の全体を１としたとき、例えば先頭から０．７のところまでを前半部といった具合に、境界となる位置を確定するための割合を予め決めておき、当該割合に従って前半部と後半部とに分けてもよい。また、条件３は、２つ連続に限るものではなく、３つ連続としてもよいし、１つだけ（すなわち、条件１と条件２だけを満たせばよい）としてもよい。

このようにして、前半部に属するトークンか、後半部に属するトークンであるかによっていずれの推定結果を採用するのかを決定してもよい。これにより、１つの入力ブロック内で連続した推定結果を採用することができ、推定精度が向上する。

＜変形例５＞
決定部２０８は、オーバーラップ部分の各トークンについて複数の固有表現推定結果から１つを選ぶ際、システムのタイプが、固有表現推定が再現率を優先するタイプか適合率を優先するタイプかによって選択方法を変えてもよい。以下、具体例を用いて説明する。

≪再現率を優先するタイプのシステムの場合≫
このタイプのシステムは、固有表現の複数の推定結果をユーザに提示して、その中から所望の固有表現を選択させるようなユーザーインターフェース（ＵＩ）を提供するシステムである。このタイプの場合、未検出の固有表現が存在した場合にはユーザはその固有表現を選択することができなくなってしまう。したがって、なるべく多くの推定結果を返す方が適切である。よって、このタイプのシステムの場合、オーバーラップ部分において、第一の入力ブロックと第二の入力ブロックそれぞれの固有表現タグの推定結果が異なっており、どちらか一方が“Ｏ”である場合には、“Ｏ”ではない推定結果を選ぶようにする。また、どちらも“Ｏ”以外（すなわち、いずれの推定結果も推定するべき固有表現タグである場合には、前後のトークンにおける推定結果からＩＯＢ形式のタグとして違反しない推定結果を選ぶようにする。例えば、注目するトークンに対し、“Ｉ－ＯＲＧ”と“Ｉ－ＰＥＲＳＯＮ”の２つの固有表現タグが推定されていた場合を考える。この場合、その１つ前のトークンの推定結果が“Ｂ－ＯＲＧ”であれば、“Ｉ－ＰＥＲＳＯＮ”が続くことは違反となるため、“Ｉ－ＯＲＧ”を選択するようにする。どちらの推定結果を選んでも違反に該当しない場合には、スコアがより高い方の推定結果を選ぶようにする。このようにすることで、ユーザ価値を高めることができる。

≪適合率を優先するタイプのシステムの場合≫
このタイプのシステムは、固有表現の推定結果を用いて、他のタスクの処理を自動で行うように構成されたシステムである。このタイプの場合、過検出をしてしまうと、それに伴い他のタスクまで処理されてしまうため、適合率が高い方が望ましい。このようなシステムとしては、例えば、固有表現の推定結果として“××有限会社”の法人名が抽出された場合には、ＯＣＲ部１０１が取得した文字列に対応するメールを削除するシステムなどが挙げられる。こうした適合率を優先するタイプのシステムでは、オーバーラップ部分において２つの固有表現タグの推定結果が異なる場合や、推定された固有表現タグのスコアが閾値よりも低い場合には、“Ｏ”のタグに決定する。このようにして、適合率を優先するタイプのシステムでは、決定部２０８は過検出が抑制されるよう推定結果を決定することで、ユーザ価値を高めることができる。

また、再現率を優先するか適合率を優先するかについてもユーザ選択可能にして、選択結果に応じて決定部２０８における選択方法を切り替えてもよい。

≪変形例６≫
上述の実施形態では、ＯＣＲ部１０１が取得した全てのトークンを処理する例について説明したが、それに限るものではない。例えば、図５のフローチャートにおいて、トークン列への変換（Ｓ５０３）を行った後、処理回数の算出（Ｓ５０４）を行う前に、固有表現推定に不要なトークンを削除する処理を追加で行ってもよい。本変形例の場合、不要なトークンが削除されたトークン列が処理回数算出部２０３に渡されることになる。なお、トークン列から不要なトークンを検出する方法は限定されない。例えば、日本語と英語が混在したテキストデータを対象として、固有表現は日本語からのみ推定したいという場合には、英語の文字列は不要である。このケースであれば英語のトークンを検出して削除すればよい。また、文書のヘッダーやフッター部分の文字列からは固有表現を推定しない場合には、ＯＣＲ部１０１において、文字列の位置やフォントサイズの情報に基づき、ヘッダーやフッターに属する文字列を削除してもよい。具体的には、文書画像からテキストデータを取得する際に、各文字列について、文書内の位置やフォントサイズの情報も取得するようにする。そして、取得した位置やサイズの情報に基づき、例えば、文字列の位置が文書内の所定位置（例えば上端から１０％の位置）より上部でかつフォントサイズが所定サイズ以下であるトークンはヘッダーに属する文字列と判断して削除する。同様に、文字列の位置が文書内の所定位置（例えば下端から１０％の位置）より下部でかつフォントサイズが所定サイズ以下であるトークンはフッターに属する文字列と判断して削除する。これにより、処理対象のトークン列を構成するトークン数が減少するため、処理回数を減らして処理時間を短縮したり、同じ処理回数でもオーバーラップ部分を増やすことで、固有表現の推定精度を高めたりすることができる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

また、本実施形態の開示は、以下の構成及び方法を含む。

（構成１）
自然言語処理モデルを用いて、文書から固有表現を抽出する情報処理装置であって、
前記文書を読み取った文書画像からテキストデータを取得する取得手段と、
前記テキストデータをトークン単位に分解する処理を行ってトークン列に変換する変換手段と、
前記トークン列に基づき、前記自然言語処理モデルで処理するために必要な処理回数を算出する算出手段と、
前記トークン列を、前記自然言語処理モデルで処理可能な単位のブロックに分割する分割手段と、
前記ブロックごとに前記自然言語処理モデルに入力して、固有表現を推定する処理を行う処理手段と、
を有し、
前記分割手段は、算出された前記処理回数に基づき、隣り合うブロック間で少なくとも一部がオーバーラップするように、前記トークン列を前記ブロックに分割し、
前記処理手段は、前記隣り合うブロック間でオーバーラップした部分に属する各トークンについては、それぞれのブロックから得られる推定結果の一方を選択する、
ことを特徴とする情報処理装置。

（構成２）
前記算出手段は、前記トークン列に含まれる全てのトークンを処理するのに必要となる最小の処理回数を算出することを特徴とする構成１に記載の情報処理装置。

（構成３）
前記分割手段は、算出された前記最小の処理回数と同じ数のブロックに前記トークン列を分割すること特徴とする構成２に記載の情報処理装置。

（構成４）
前記トークン列を所定の単位に区切るための区切り条件を取得する条件取得手段をさらに有し、
前記分割手段は、前記区切り条件に基づいて、前記トークン列を前記ブロックに分割する
ことを特徴とする構成１乃至３のいずれか一項に記載の情報処理装置。

（構成５）
前記条件取得手段は、前記トークン列を区切る際の細かさのレベルが異なる複数の区切り条件を取得し、
前記分割手段は、算出された前記処理回数が増えないように前記複数の区切り条件の中から適用する区切り条件を順に変更して、前記トークン列を前記ブロックに分割する、
ことを特徴とする構成４に記載の情報処理装置。

（構成６）
前記分割手段は、
前記トークン列について、前記ブロックの上限トークン数に従って、前記処理回数と同じ数の仮ブロックを決定し、
前記区切り条件に従って、前記仮ブロックの端にあるトークンを削ることにより、前記ブロックを生成する、
ことを特徴とする構成５に記載の情報処理装置。

（構成７）
前記分割手段は、前記複数の区切り条件のうち最も粗く区切るものから順に適用し、前記仮ブロックの端にあるトークンを削った後のすべての隣り合うブロック間でオーバーラップのない箇所が１か所もなくなるまで処理を繰り返す、ことを特徴とする構成６に記載の情報処理装置。

（構成８）
前記分割手段は、前記複数の区切り条件のうち最も粗く区切るものから順に適用し、前記仮ブロックの端にあるトークンを削った後のいずれかの隣り合うブロック間でオーバーラップのない箇所がある場合でも、当該オーバーラップがない箇所に対応する２つのブロックに関し、前記仮ブロックの段階では互いにオーバーラップしており、かつ、前記端のトークンを削って得られた前側のブロックの最終トークンの次トークンが、後ろ側のブロックの先頭トークンになっている場合は、その時点で処理を終了する、ことを特徴とする構成７に記載の情報処理装置。

（構成９）
前記区切り条件には、段落で区切る、改行で区切る、句点で区切る、句読点で句切る、トークンで区切る、のうちいずれか２つ以上が含まれ、
段落で区切る、改行で区切る、句点で区切る、句読点で句切る、トークンで区切る、の順に、前記トークン列を粗く区切ることができる、
ことを特徴とする構成５乃至８のいずれか一項に記載の情報処理装置。

（構成１０）
前記処理手段は、オーバーラップした部分を前半部と後半部に分け、前半部に属するトークンについては先頭寄りのブロックの推定結果をその固有表現として決定し、後半部の属するトークンについては末尾寄りのブロックの推定結果をその固有表現として決定することを特徴とする構成１乃至９のいずれか一項に記載の情報処理装置。

（構成１１）
前記処理手段は、前記前半部と前記後半部との境界を確定するための所定条件に従って、前記オーバーラップした部分を前記前半部と前記後半部とに分ける、ことを特徴とする構成１０に記載の情報処理装置。

（構成１２）
前記処理手段は、固有表現の推定において再現率を優先する場合、前記オーバーラップした部分に含まれるトークンについてどちらか一方の推定結果が固有表現ではないことを表す推定結果であるときは、固有表現であることを表す方の推定結果を選択する、ことを特徴とする構成１乃至９のいずれか一項に記載の情報処理装置。

（構成１３）
前記処理手段は、固有表現の推定において適合率を優先する場合、前記オーバーラップした部分に含まれるトークンについて推定結果が異なるときは、固有表現ではないことを表す推定結果に決定することを特徴とする構成１乃至９のいずれか一項に記載の情報処理装置。

（構成１４）
変換された前記トークン列に対し、不要なトークンを削除する削除手段をさらに有し、
前記算出手段は、前記不要なトークンが削除されたトークン列を対象に、前記処理回数の算出を行うことを特徴とする構成１乃至１３のいずれか一項に記載の情報処理装置。

（構成１５）
前記推定結果には、トークンに対応する固有表現タグの尤もらしさを表すスコアが含まれ、
前記処理手段は、前記ブロックのうちオーバーラップした部分に属するトークンについて、前記スコアに基づき一方の推定結果を選択することを特徴とする構成１乃至９のいずれか一項に記載の情報処理装置。

（方法１）
自然言語処理モデルを用いて、文書から固有表現を抽出する情報処理装置の制御方法であって、
前記文書を読み取った文書画像からテキストデータを取得する取得ステップと、
前記テキストデータをトークン単位に分解する処理を行ってトークン列に変換する変換ステップと、
前記トークン列に基づき、前記自然言語処理モデルで処理するために必要な処理回数を算出する算出ステップと、
前記トークン列を、前記自然言語処理モデルで処理可能な単位のブロックに分割する分割ステップと、
前記ブロックごとに前記自然言語処理モデルに入力して、固有表現を推定する処理を行う処理ステップと、
を含み、
前記分割ステップでは、算出された前記処理回数に基づき、隣り合うブロック間で少なくとも一部がオーバーラップするように、前記トークン列を前記ブロックに分割し、
前記処理ステップでは、前記隣り合うブロック間でオーバーラップした部分に属する各トークンについては、それぞれのブロックから得られる推定結果の一方を選択する、
ことを特徴とする制御方法。

（構成１６）
コンピュータを、構成１乃至１５のいずれか一項に記載の情報処理装置として機能させるためのプログラム。

Claims

自然言語処理モデルを用いて、文書から固有表現を抽出する情報処理装置であって、
前記文書を読み取った文書画像からテキストデータを取得する取得手段と、
前記テキストデータをトークン単位に分解する処理を行ってトークン列に変換する変換手段と、
前記トークン列に基づき、前記自然言語処理モデルで処理するために必要な処理回数を算出する算出手段と、
前記トークン列を、前記自然言語処理モデルで処理可能な単位のブロックに分割する分割手段と、
前記ブロックごとに前記自然言語処理モデルに入力して、固有表現を推定する処理を行う処理手段と、
を有し、
前記分割手段は、算出された前記処理回数に基づき、隣り合うブロック間で少なくとも一部がオーバーラップするように、前記トークン列を前記ブロックに分割し、
前記処理手段は、前記隣り合うブロック間でオーバーラップした部分に属する各トークンについては、それぞれのブロックから得られる推定結果の一方を選択する、
ことを特徴とする情報処理装置。
前記算出手段は、前記トークン列に含まれる全てのトークンを処理するのに必要となる最小の処理回数を算出することを特徴とする請求項１に記載の情報処理装置。
前記分割手段は、算出された前記最小の処理回数と同じ数のブロックに前記トークン列を分割すること特徴とする請求項２に記載の情報処理装置。
前記トークン列を所定の単位に区切るための区切り条件を取得する条件取得手段をさらに有し、
前記分割手段は、前記区切り条件に基づいて、前記トークン列を前記ブロックに分割する、
ことを特徴とする請求項１に記載の情報処理装置。
前記条件取得手段は、前記トークン列を区切る際の細かさのレベルが異なる複数の区切り条件を取得し、
前記分割手段は、算出された前記処理回数が増えないように前記複数の区切り条件の中から適用する区切り条件を順に変更して、前記トークン列を前記ブロックに分割する、
ことを特徴とする請求項４に記載の情報処理装置。
前記分割手段は、
前記トークン列について、前記ブロックの上限トークン数に従って、前記処理回数と同じ数の仮ブロックを決定し、
前記区切り条件に従って、前記仮ブロックの端にあるトークンを削ることにより、前記ブロックを生成する、
ことを特徴とする請求項５に記載の情報処理装置。
前記分割手段は、前記複数の区切り条件のうち最も粗く区切るものから順に適用し、前記仮ブロックの端にあるトークンを削った後のすべての隣り合うブロック間でオーバーラップのない箇所が１か所もなくなるまで処理を繰り返す、ことを特徴とする請求項６に記載の情報処理装置。
前記分割手段は、前記複数の区切り条件のうち最も粗く区切るものから順に適用し、前記仮ブロックの端にあるトークンを削った後のいずれかの隣り合うブロック間でオーバーラップのない箇所がある場合でも、当該オーバーラップがない箇所に対応する２つのブロックに関し、前記仮ブロックの段階では互いにオーバーラップしており、かつ、前記端のトークンを削って得られた前側のブロックの最終トークンの次トークンが、後ろ側のブロックの先頭トークンになっている場合は、その時点で処理を終了する、ことを特徴とする請求項７に記載の情報処理装置。
前記区切り条件には、段落で区切る、改行で区切る、句点で区切る、句読点で句切る、トークンで区切る、のうちいずれか２つ以上が含まれ、
段落で区切る、改行で区切る、句点で区切る、句読点で句切る、トークンで区切る、の順に、前記トークン列を粗く区切ることができる、
ことを特徴とする請求項５に記載の情報処理装置。
前記処理手段は、オーバーラップした部分を前半部と後半部に分け、前半部に属するトークンについては先頭寄りのブロックの推定結果をその固有表現として決定し、後半部の属するトークンについては末尾寄りのブロックの推定結果をその固有表現として決定することを特徴とする請求項１に記載の情報処理装置。
前記処理手段は、前記前半部と前記後半部との境界を確定するための所定条件に従って、前記オーバーラップした部分を前記前半部と前記後半部とに分ける、ことを特徴とする請求項１０に記載の情報処理装置。
前記処理手段は、固有表現の推定において再現率を優先する場合、前記オーバーラップした部分に含まれるトークンについてどちらか一方の推定結果が固有表現ではないことを表す推定結果であるときは、固有表現であることを表す方の推定結果を選択する、ことを特徴とする請求項１に記載の情報処理装置。
前記処理手段は、固有表現の推定において適合率を優先する場合、前記オーバーラップした部分に含まれるトークンについて推定結果が異なるときは、固有表現ではないことを表す推定結果に決定することを特徴とする請求項１に記載の情報処理装置。
変換された前記トークン列に対し、不要なトークンを削除する削除手段をさらに有し、
前記算出手段は、前記不要なトークンが削除されたトークン列を対象に、前記処理回数の算出を行うことを特徴とする請求項１に記載の情報処理装置。
前記推定結果には、トークンに対応する固有表現タグの尤もらしさを表すスコアが含まれ、
前記処理手段は、前記ブロックのうちオーバーラップした部分に属するトークンについて、前記スコアに基づき一方の推定結果を選択することを特徴とする請求項１に記載の情報処理装置。
自然言語処理モデルを用いて、文書から固有表現を抽出する情報処理装置の制御方法であって、
前記文書を読み取った文書画像からテキストデータを取得する取得ステップと、
前記テキストデータをトークン単位に分解する処理を行ってトークン列に変換する変換ステップと、
前記トークン列に基づき、前記自然言語処理モデルで処理するために必要な処理回数を算出する算出ステップと、
前記トークン列を、前記自然言語処理モデルで処理可能な単位のブロックに分割する分割ステップと、
前記ブロックごとに前記自然言語処理モデルに入力して、固有表現を推定する処理を行う処理ステップと、
を含み、
前記分割ステップでは、算出された前記処理回数に基づき、隣り合うブロック間で少なくとも一部がオーバーラップするように、前記トークン列を前記ブロックに分割し、
前記処理ステップでは、前記隣り合うブロック間でオーバーラップした部分に属する各トークンについては、それぞれのブロックから得られる推定結果の一方を選択する、
ことを特徴とする制御方法。
コンピュータに、請求項１６に記載の制御方法を実行させるためのプログラム。