JP7453731B2

JP7453731B2 - 半構造化ドキュメントから情報を取り出す方法及びシステム

Info

Publication number: JP7453731B2
Application number: JP2022062744A
Authority: JP
Inventors: ウォンソクファン; ジンヨンイム; ジウクキム; ミンジュンソ; ヒョンジイ
Original assignee: Line Works; Naver Corp
Current assignee: Line Works; Naver Corp
Priority date: 2021-04-15
Filing date: 2022-04-05
Publication date: 2024-03-21
Anticipated expiration: 2042-04-05
Also published as: JP2022164593A

Description

特許法第３０条第２項適用２０２１年４月１６日、ウェブサイト（ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２１０４．０８０４１）で公開

本発明は、ドキュメントから情報を取り出す方法及びシステムに関する。

人工知能の辞書的な意味は、人間の学習能力、推論能力、知覚能力、および自然言語の理解能力などをコンピュータープログラムにより実現した技術であると言える。このような人工知能は、マシンラーニングに人間の脳を模倣したニューラルネットワークを加えたディープラニングにより、飛躍的な発展を成し遂げた。

ディープラニング（ｄｅｅｐｌｅａｒｎｉｎｇ）とは、コンピューターがまるで人間のように判断し、かつ、学習できるようにし、これを通して、物事やデータを群集化させたり、または、仕分けしたりする技術のことである。近頃は、テキストデータだけではなく、画像データに対する解析まで可能になって、非常に多岐にわたる産業分野に積極的に活用されている。

このような人工知能の発達に伴い、事務自動化（ｏｆｆｉｃｅａｕｔｏｍａｔｉｏｎ）分野においても様々な自動化が進んでいる。特に、事務自動化分野においては、紙（ｐａｐｅｒ）に印刷されたコンテンツを、人工知能を活用した画像データ解析技術に基づいて、データ化させることに多大な努力を注いでいる。その一環として、事務自動化分野においては、紙ドキュメントを画像化させて、画像に含まれているコンテンツを解析する画像解析技術（または、画像データに対する解析技術）を通して、ドキュメントに含まれているコンテンツをデータ化させており、この場合には、ドキュメントに含まれているコンテンツのタイプに合うように画像を解析する技術が必要とされる。

例えば、領収証（ｒｅｃｅｉｐｔ）をはじめとするドキュメントをデータ化させる場合に、領収証の形式、領収証内に含まれているテキストの内容及び領収証に含まれているテキストの位置などのように、領収証を巡る様々な要素に対する正確な解析が必要である。

このため、画像に含まれている情報を電子装備において処理できる形態のデータに加工するための様々な技術が開発されている。例えば、大韓民国登録特許第１０－１１８１２０９号公報においては、ＯＣＲデータベースを構築する方法が開示されている。

しかしながら、これまで開発されてきた方法は、人間が経験的に定めたルールに従ってデータを仕分けするレベルにとどまっているので、対象ドキュメントに含まれているデータの構造及びテキストデータの間の関係性まで正確に再現できるアプリケーションの開発への取り組みを行い続ける必要がある。

大韓民国登録特許第１０－１１８１２０９号公報

本発明は、対象ドキュメントに含まれている複数の言葉の間のデータ構造を反映して、対象ドキュメントから情報を取り出す方法及びシステムに関する。

また、本発明は、対象ドキュメントからデータを取り出すマシンラーニングモデルに対して訓練を行い易い形態のデータとして、対象ドキュメントからデータを取り出す方法及びシステムを提供する。

具体的に、本発明は、対象ドキュメントからデータを取り出すマシンラーニングモデルの正確度を判断するのに活用される学習データ及びマシンラーニングモデルから出力されるデータの形式を人間が加工しやすい形態で実現することにより、マシンラーニングモデルの正確度を判断するのにかかる時間及びコストを削減できるようにする、データ取出方法及びシステムを提供する。

さらに、本発明は、対象ドキュメントに含まれているデータの間の関係性を与えられる、データ取出方法及びシステムを提供するためのものである。

上述した課題を解決するために、本発明は、対象ドキュメントに対する光学的文字認識（ＯＣＲ：Ｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ）を行って、複数の言葉及び前記複数の言葉のそれぞれに関する位置情報を取り出すステップと、前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップと、前記対象ドキュメントに含まれている前記複数の言葉の間のデータ構造が反映されるように、前記複数のトークンを並べるステップと、を含み、前記複数のトークンを並べるステップにおいては、前記複数の言葉の意味及び前記複数の言葉のそれぞれに関する位置情報を用いて、前記複数のトークンを並べることを特徴とする半構造化ドキュメントから情報を取り出す方法を提供することができる。

また、本発明は、対象ドキュメントに対する光学的文字認識（ＯＣＲ：Ｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ）を行って、複数の言葉及び前記複数の言葉のそれぞれに関する位置情報を取り出すＯＣＲ部と、前記複数の言葉のそれぞれに対応する複数のトークンを生成し、前記対象ドキュメントに含まれている前記複数の言葉の間のデータ構造が反映されるように、前記複数のトークンを並べる制御部と、を備え、前記制御部は、前記複数の言葉の意味及び前記複数の言葉のそれぞれに関する位置情報を用いて、前記複数のトークンを並べる、ことを特徴とする、半構造化ドキュメントから情報を取り出すシステムを提供することができる。

さらに、本発明は、複数の指令を含むコンピュータープログラムであって、指令が実行されると、対象ドキュメントに対する光学的文字認識（ＯＣＲ：Ｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ）を行って、複数の言葉及び前記複数の言葉のそれぞれに関する位置情報を取り出すステップと、前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップと、前記対象ドキュメントに含まれている前記複数の言葉の間のデータ構造が反映されるように、前記複数のトークンを並べるステップと、を実施し、前記複数のトークンを並べるステップにおいては、前記複数の言葉の意味及び前記複数の言葉のそれぞれに関する位置情報を用いて、前記複数のトークンを並べる、ことを特徴とする、コンピューターにて起動するコンピュータープログラムを提供することができる。

上述のように、本発明は、対象ドキュメントから取り出された前記複数の言葉の意味及び前記複数の言葉のそれぞれに関する位置情報を用いて、かつ、生成されたトークン及び生成されたトークンの並べを用いて、対象ドキュメントに含まれている複数の言葉の間のデータ構造が反映されたデータを生成することができる。

また、本発明に係る情報取出モデルのマシンラーニングは、情報取出モデルから出力された複数のトークンの正確度を算出することにより行われる。前記出力されたトークンは、言葉の間の関連性が完全に反映されたデータではないので、前記情報取出モデルの正確度を算出するための学習データを生成しやすくなる。

具体的に、学習データの生成に際して既に定められたルール（トークン生成ルール）に従って一定の順番に並べられたトークンを生成した後で、情報取出モデルから出力されたトークンと比較する作業を行うことで、情報取出モデルの正確度を判断し、前記情報取出モデルの正確度を高めるように、情報取出モデルに関する訓練を行うことが可能になる。これにより、情報取出モデルのマシンラーニングのための学習データを生成するのにかかる時間が大幅に短縮される。

本発明に係る情報取出システムを説明するための概念図である。本発明に係る情報取出方法を説明するためのフローチャートである。本発明に係る情報取出モデルを説明するための概念図である。本発明に係る情報取出モデルから出力されたデータを木（ｔｒｅｅ）化させた様子を示す概念図である。本発明に係る情報取出モデルのマシンラーニング方法を示す概念図である。本発明に係る情報取出モデルから出力されたデータの正確度を算出する様子を示す概念図である。従来の情報取出のためのマシンラーニング方法を示す概念図である。

以下、添付図面に基づいて、この明細書に開示されている実施形態について詳しく説明するが、図面符号とは無関係に、同一または類似の構成要素には、同じ参照符号を付し、これについての重複する説明は省略する。以下の説明において用いられる構成要素に対する接尾詞「モジュール」及び「部」は、明細書の作成しやすさのみが考慮されて付されたり混用されたりするものであって、これ自体で互いに区別される意味または役割を有するものではない。また、この明細書に開示されている実施形態を説明するに当たって、関連する公知の技術についての具体的な説明が本明細書に開示されている実施形態の要旨を曖昧にする虞があると認められる場合には、その詳細な説明を省略する。なお、添付図面は、単に本明細書に開示されている実施形態を理解しやすくするためのものに過ぎず、添付図面によって本明細書に開示されている技術的思想が制限されるわけではなく、本発明の思想及び技術範囲に含まれるあらゆる変更、均等物、ないし代替物を含むものと理解されるべきである。

「第１の」、「第２の」などの序数を含む言い回しは、様々な構成要素を説明するうえで使用可能であるが、前記構成要素は、前記言い回しによって何等限定されない。上記の言い回しは、ある構成要素を他の構成要素から区別する目的でしか使えない。

ある構成要素が他の構成要素と「連結」されているとか、または、「接続」されていると言及された場合には、前記ある構成要素が、前記他の構成要素に直接的に連結されたり接続されたりすると理解されるか、または、これらの間に他の構成要素が存在してもよいものと理解されるべきである。これに対し、ある構成要素が他の構成要素と「直接的に連結」されているとか、または、「直接的に接続されている」と言及された場合には、これらの間に他の構成要素が存在しないものと理解されるべきである。

単数の表現は、文脈からみて明らかに他の意味を有さない限り、複数の言い回しを含む。

この出願において、「備える」、「含む」、または「有する」などの用語は、明細書に記載の特徴、数字、段階、動作、構成要素、部品、またはこれらを組み合わせたものが存在することを指定するものに過ぎず、一つまたはそれ以上の他の特徴や数字、段階、動作、構成要素、部品、または、これらを組み合わせたものの存在もしくは付加の可能性を予め排除しないものと理解すべきである。

以上述べたように、人工知能の発達に伴い、様々な形態で事務自動化（ｏｆｆｉｃｅａｕｔｏｍａｔｉｏｎ）が進んでおり、仕事の効率性のために、紙ドキュメントに含まれている一定の形態の情報を、紙ドキュメントに含まれている形式そのままでデジタル化（データ化）させなければならないということへのニーズがますます高まりつつある。

例えば、図１に示す領収証（レシート；ｒｅｃｅｉｐｔ）などのドキュメント１０は、店名・売り場名、売り場の住所、注文商品名、注文商品の数量、注文金額など、販売者及び消費者と関わる複数の範疇（Ｃａｔｅｇｏｒｙ）を含んでおり、データの効率よい処理のために、紙ドキュメントに含まれているデータを、同じ範疇同士で関連付けてデジタル化させる必要がある。

この明細書において、「範疇」とは、定義された分類内において任意のレベルにある項目を意味する。特定の範疇に属するデータと別の範疇に属するデータとを区別する基準は、必ずしも絶対的なものであるとは限らず、範疇を取り決める任意のルールに応じて異なってくる場合がある。このようなルールは、紙ドキュメントと紙ドキュメントをデジタル化させたデータとに対して異ならせて適用可能である。

例えば、紙ドキュメントからなる特定の領収証は、「店名・売り場名」、「売り場の住所」、「注文商品名」、「注文商品の数量」、「注文商品の金額」という五つの範疇を含んでいてもよいが、前記紙ドキュメントに含まれているデータをデジタル化させるとき、「売り場」、「注文商品」という二つの範疇に縮めてもよい。

一方、この明細書においては、特定の範疇の属性を示す言葉を第１のタイプの言葉に仕分けする。例えば、第１のタイプの言葉は、範疇に属しているデータの上位概念を定義する言葉（「店名・売り場名：」、「数量：」、「売り場の住所」）などを含んでいてもよい。

一方、この明細書においては、特定の範疇の値を示す言葉を第２のタイプの言葉に仕分けする。例えば、第２のタイプの言葉は、範疇に属しているデータ（「Ｈａｐｐｙｓｔｏｒｅ」、「１０５ｈ－ｓｔｒｅｅｔ」、「Ｃａｒｒｏｔ」）であってもよい。この明細書においては、前記第１のタイプに仕分けされた第１のタイプの言葉は「フィールド名」、第２のタイプに仕分けされた第２のタイプの言葉は「フィールド値」と称されてもよい。

一方、マシンにおいて処理可能な形式のデータの観点から、前記第１のタイプの言葉は「属性（ｋｅｙ）」と称されてもよく、前記第２のタイプの言葉は「値（ｖａｌｕｅ）」と称されてもよい。

上述した用語や言い回しの定義によれば、領収証などの紙ドキュメントは、同一の範疇に含まれている「属性－値」の組のデータを含んでいてもよい。ただし、これに何ら限定されず、紙領収証などの紙ドキュメントは、特定の範疇に関してはフィールド名なしにフィールド値のみを含んでいてもよい。この場合に、紙ドキュメントから前記フィールド名は省略されただけであり、省略されたフィールド名に対応するフィールド値は、フィールド名に関わる意味を含んでいる。

一方、紙ドキュメントは、フィールド値なしにフィールド名のみを含んでいてもよい。この場合は、特定の項目に割り当てられた値が存在しないことであり、たとえ、特定の項目に割り当てられた値が存在しないとしても、紙ドキュメントに前記特定の項目が存在してもよい。

以下、上述した用語の定義に基づいて、本発明について詳しく説明する。

上述した紙ドキュメントは、紙ドキュメントに含まれている同一の範疇のデータ間の連関性を保ち、マシンが理解可能なデータに変換可能である。

一実施形態において、光学式文字読み取り装置（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ；ＯＣＲ）を用いて、紙ドキュメントに含まれている言葉を取り出すことができる。領収証のように複数の範疇のデータを含むドキュメントの場合、取り出された言葉に対するパース（ｐａｒｓｉｎｇ）過程を経て無関係にデジタル化された言葉を同一の範疇ごとに仕分けすることができる。これにより、複数の属性－値の組を含むデータが形成可能である。

マシンラーニングを通して、ＯＣＲを用いて無関係にデジタル化された言葉に所定のデータ構造を持たせるための取り組みが行われ続けている。図７を参照すると、従来の情報取出モデルは、対象ドキュメント１０に対してＯＣＲ７１１を行うことで、対象ドキュメント１０から複数の言葉及び位置情報を取り出し、これに基づいて、直列化モデル（Ｓｅｒｉａｌｉｚｅｒ）７１２を通して、取り出された言葉の一部を直列化させ、タギングモデル（Ｔａｇｇｉｎｇｍｏｄｅｌ）７１３を通して、直列化されたテキストの範疇を仕分けし、Ｔａｇ２ｐａｒｓｅモデル７１４を通してパース（ｐａｒｓｉｎｇ）を行っていた。

次いで、正規化モデル（ｐａｒｓｅｎｏｒｍａｌｉｚｅｒ）７１５を通して、ＪＳＯＮ形式のデータを生成する。

従来の情報取出モデルの訓練は、Ｔａｇ２ｐａｒｓｅモデル７１４から出力されたデータと原データとの誤差を算出して、誤差を最小化させるように行われていた。このとき、前記誤差の算出のためには、原データ（以下、学習データ）を生成しなければならない。原データは、対象ドキュメント１０に含まれている言葉のそれぞれに関する注釈を表示（７２１）し、対象ドキュメント１０に含まれているテキストセグメントを直列化（７２２）させ、タギングモデル７２３を通して、言葉の間のパースを行うことにより生成される。上述した過程は、いずれも人間が自ら作業することで行われるため、マシンラーニングのための学習データの生成には非常に多大な時間がかかる。

本発明は、上述した学習データの生成にかかる時間を短縮させて、情報取出モデルのマシンラーニングにかかるコストを極力抑えられる情報取出システム及び方法を提供する。

本発明は、対象ドキュメントに含まれている複数の言葉の間のデータ構造を反映して、対象ドキュメントからデータを取り出すシステムを提供する。

以下では、対象ドキュメントからデータを取り出すシステムについて、添付図面と結び付けて詳しく述べる。

図１は、本発明に係る情報取出システムを説明するための概念図である。

本発明に係る情報取出システム１００は、アプリケーションまたはソフトウェアの形態で実現可能である。本発明に係る情報取出システム１００のソフトウェア的な実現によれば、この明細書において述べられる手続き及び機能のような実施形態は、別途のソフトウェアモジュールにより実現可能である。ソフトウェアモジュールのそれぞれは、この明細書において述べられる一つ以上の機能及び作動を行うことができる。

本発明に係るソフトウェア的な実現は、図１に示す情報取出システム１００により実現され、以下では、情報取出システム１００の構成についてさらに詳しく述べる。

本発明に係る情報取出システム１００は、画像に対してＯＣＲを行うことで、ＯＣＲデータを生成することができる。この明細書において、ＯＣＲデータは、画像から取り出されたテキスト及び取り出されたテキストに対応する位置情報を含んでいてもよい。ここで、前記位置情報は、取り出されたテキストの画像（または、紙ドキュメント）内の位置を定義する。

ここで、画像は、紙ドキュメントをスキャンしたことによって取得される画像であってよく、その他の様々な方法により取得された画像であってもよい。

一方、図１に示すように、本発明に係る情報取出システム１００は、通信部１１０、記憶部１２０、ＯＣＲ部１３０、及び制御部１４０のうちの少なくとも一つを備えていてもよい。

通信部１１０は、紙ドキュメントをスキャンした画像（または、ドキュメント）１０を受信する手段であり、通信部、スキャン部、及び入力部のうちの少なくとも一つを備えて構成されてよく、その他に画像を受信可能な手段から構成されてもよい。

情報取出システム１００は、通信部１１０を介して受信した画像１０を用いてデータを取り出してもよい。

次いで、記憶部１２０は、本発明に係る様々な情報を記憶するように構成されてもよい。記憶部１２０の種類は非常に多岐にわたっており、少なくとも一部は、外部サーバー１５０（クラウドサーバー及びデータベース（ｄａｔａｂａｓｅ：ＤＢ）のうちの少なくとも一方）を意味することもある。すなわち、記憶部１２０は、本発明と関わる情報が記憶されるスペースであればよく、物理的なスペースに対する制約はないものと理解されてもよい。

記憶部１２０には、ｉ）紙ドキュメントをスキャンした画像１０及びこれと関わるデータ、ｉｉ）情報取出モデルのマシンラーニングに活用される学習データ、ｉｉｉ）取り出されたデータ、のうちの少なくとも一つが記憶されてもよい。

記憶部１２０には、上述した範疇と関わる情報が記憶されていてもよい。具体的に、範疇と関わる情報としては、範疇に関する概念的な情報、範疇に対応する範疇名を示すテキスト、及び範疇に対応する値を定義する情報が記憶されてもよい。

ここで、範疇名は、フィールド名、範疇に対応する属性とも称されることがある。

一方、範疇に対応する値は、範疇に属する少なくとも一つのテキストを含んでいてもよい。

一方、前記範疇と関わる情報は、本発明に係る情報取出モデルに対する訓練が行われることに伴い更新されてもよい。具体的に、情報取出モデルに対する訓練が行われることに伴い、記憶部１２０に定義された範疇の数が増やされてよく、範疇と関わる情報は、範疇に関する概念的な情報、範疇に対応する範疇名を示すテキスト及び範疇に対応する値を定義する情報のうちの少なくとも一つが更新されてもよい。

次いで、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）部１３０は、画像１０に含まれているコンテンツを認識する手段であり、様々なコンテンツ認識アルゴリズムのうちの少なくとも一つを通して、画像１０に含まれているコンテンツを認識することができる。ＯＣＲ部１３０は、人工知能に基づくアルゴリズムを用いて、コンテンツを認識することができる。ここで、コンテンツは、テキスト（文字）を含んでいてもよい。

ＯＣＲ部は、画像に含まれているテキスト及びテキストの位置情報を取り出してもよい。ここで、テキストの位置情報は、画像１０内においてテキストがどこに位置するかに関する情報を含んでいてもよい。

次いで、制御部１４０は、本発明に係る情報取出システム１００の全般的な動作を制御するように構成されてもよい。制御部１４０は、人工知能アルゴリズムを処理可能なプロセッサー（ｐｒｏｃｅｓｓｏｒ）（または、人工知能プロセッサー）を備えていてもよい。制御部１４０は、ディープラニングアルゴリズムに基づいて、画像１０からテキストを認識し、認識されたテキストに対する情報取出を行ってもよい。

さらに、制御部１４０は、情報取出を行うための作業領域を与え、このような作業領域は、情報取出を行い、または、情報取出のためのマシンラーニングを行ったりするための「ユーザー環境」もしくは「ユーザーインタフェース」とも名付けられてもよい。

このような作業領域は、電子機器のディスプレイ部の上に出力（または、提供）されてもよい。さらに、制御部１４０は、電子機器に配備され、または、電子機器と連動するユーザー入力部（例えば、タッチスクリーン、マウスなど）を介して受信される、ユーザー入力に基づいて、情報取出を行い、または、情報取出のためのマシンラーニングを行ったりすることができる。

一方、本発明において、作業領域が出力される電子機器の種類には格別な制限がなく、本発明に係るアプリケーションが駆動可能であればよい。例えば、電子機器は、スマートフォン（ｓｍａｒｔｐｈｏｎｅ）、携帯電話、タブレットＰＣ、コンピューター、ノート型パソコン、デジタル放送用端末、個人向け情報端末（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔｓ）、ポータブルマルチメディアプレーヤー（ＰＭＰ：ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、スマートミラー（ｓｍａｒｔｍｉｒｒｏｒ、）及びスマートテレビ（ｓｍａｒｔＴＶ）のうちの少なくとも一つであり得る。

本発明においては、電子機器または電子機器に配備されるディスプレイ部、ユーザー入力部に対して別途の図面符号を付さない。しかしながら、本発明において述べられる作業領域は、電子機器のディスプレイ部に出力され、ユーザー入力は、電子機器に配備されるか、あるいは、電子機器と連動するユーザー入力部を介して受信されるということは当業者にとって自明である。

以下では、上述した情報取出システムを用いて情報取出を行う方法についてさらに詳しく述べる。特に、以下では、まず、フローチャートと結び付けて、情報取出方法について述べる。

図２は、本発明に係る情報取出方法を説明するためのフローチャートであり、図３は、本発明に係る情報取出モデルを説明するための概念図であり、図４は、本発明に係る情報取出モデルから出力されたデータを木（ｔｒｅｅ）化させた様子を示す概念図である。

本発明に係る情報取出方法においては、対象ドキュメントに対するＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）を行って、複数の言葉及び前記複数の言葉のそれぞれに関する位置情報を取り出すステップが行われる（Ｓ１１０）。

ここで、対象ドキュメントとは、情報取出の対象となる紙ドキュメントまたは紙ドキュメントに対する画像であってもよい。以上において述べたように、紙ドキュメントに対する画像１０は、様々なルーツを介して受信可能である。

ＯＣＲデータは、画像に含まれているテキスト及びテキストの位置情報を含んでいてもよい。

ＯＣＲデータに含まれている既に設定された基準に従って、前記ＯＣＲデータに含まれているテキストが複数のテキストセグメント（ｔｅｘｔｓｅｇｍｅｎｔ）に区分されてもよい。

一実施形態において、テキストセグメントは、語節単位に区切られ、または、テキストの位置情報に基づいて、隣り合う複数のテキストが一つのテキストセグメントに区切られたりしてもよい。

テキストセグメントを区切る過程において、複数のテキストセグメントが一つにまとめられ、または、一つのテキストセグメントが複数のテキストセグメントに分離されたりしてもよい。例えば、図１の画像１０から取り出されたテキスト「１０５ｈ－ｓｔｒｅｅｔ」は、二つのテキストセグメント（「１０５」及び「ｈ－ｓｔｒｅｅｔ」）に区切られた後で、一つのテキストセグメント（「１０５ｈ－ｓｔｒｅｅｔ」）にまとめられてもよい。他の例を挙げると、図１の画像１０から取り出された「Ｈａｐｐｙｓｔｏｒｅ」は、一つのテキストセグメント「Ｈａｐｐｙｓｔｏｒｅ」に区切られた後で、複数のテキストセグメント（「Ｈａｐｐｙ」及び「ｓｔｏｒｅ」）に分離されてもよい。

制御部１４０は、テキストの位置情報に基づいて、テキストセグメントをまとめたり分離したりすることができる。制御部１４０がテキストセグメントをまとめたり分離したりするモデルは、マシンラーニングを通して生成可能であるが、これに何ら限定されるものではない。

上述した過程を通して、複数の言葉が取り出し可能である。

一方、取り出された複数の言葉ごとに位置情報がマッチングされてもよい。ここで、取り出された言葉に対応する位置情報は、対象ドキュメント上の位置情報であってもよい。具体的に、前記位置情報は、前記対象ドキュメントの画像上のある個所を基準点とし、前記基準点に関する２次元座標情報を含んでいてもよい。

上述したように、前記位置情報は、相対座標であってもよく、前記位置情報を用いて取り出された複数の言葉の間の距離が算出可能である。

複数の言葉のそれぞれに関する位置情報は、複数の言葉の間の関連性を判断するのに活用可能である。これについては、後述する。

次いで、前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップが行われる（Ｓ１２０）。

前記複数のトークンは、３種類のタイプのうちのいずれか一つとして生成されてもよい。まず、複数のトークンタイプのうち、第１及び第２のタイプについて説明する。

複数のトークンは、範疇の属性を有する第１のタイプのトークン及び前記範疇の値に相当するデータ属性を有する第２のタイプのトークンのうちのどちらか一方のタイプを有することができる。

前記第１及び第２のタイプに対応するトークンは、対象ドキュメントから取り出された複数の言葉のそれぞれの意味に基づいて生成可能である。

一実施形態において、前記複数の言葉は、前記複数の言葉のそれぞれの意味及び前記対象ドキュメントにおける複数の言葉のそれぞれに関する位置情報に基づいて、前記複数の言葉を前記範疇の属性を有する第１のタイプに対応する第１のタイプの言葉及び前記データ属性を有する第２のタイプの言葉のうちの少なくとも一方に仕分けされる。

前記仕分け過程は、人工知能モデルを通して行われてもよい。人工知能モデルは、前記既に定義された複数の範疇を基準として、前記複数の言葉のそれぞれがどのような範疇に属する言葉であるかを判断し、前記複数の言葉がそれぞれ「属性」（第１のタイプ）であるか、あるいは、「値」（第２のタイプ）であるかを判断する。

複数の言葉のうち、第１のタイプに仕分けされた第１のタイプの言葉のそれぞれに対応する第１のタイプのトークンが生成され、複数の言葉のうち、第２のタイプに仕分けされた第２のタイプの言葉のそれぞれに対応する第２のタイプのトークンが生成される。

前記第１のタイプのトークンは、範疇の属性を定義するトークンであり、範疇名（フィールド名、範疇の属性）を示すテキストを含んでいてもよい。第１のタイプのトークンに含まれているテキストは、既に記憶された範疇と関わる情報に含まれている範疇名であってもよい。ここで、特定の第１のタイプのトークンに含まれているテキストは、前記特定の第１のタイプのトークンの生成にベースとなった第１のタイプの言葉と同一ではない場合もある。

例えば、図３を参照すると、第１のタイプに仕分けされた言葉の「品名」に基づいて生成される第１のタイプのトークンは、「品名」を含んでおらず、テキスト「ｎａｍｅ」を含んでいる。

前記第２のタイプのトークンは、対象ドキュメントから取り出された言葉それ自体であってもよい。

例えば、図３を参照すると、第２のタイプに仕分けされた言葉の「Ｈａｐｐｙ」に対応する第２のタイプのトークンは、テキスト「Ｈａｐｐｙ」それ自体であってもよい。

一方、特定の第１のタイプのトークンは、第２のタイプの言葉の意味に基づいて生成されてもよい。具体的に、複数の言葉のうち、第２のタイプに仕分けされた第２のタイプの言葉が属する範疇のそれぞれに対する第１のタイプのトークンが生成されてもよい。

一実施形態において、前記複数の言葉のうち、特定の範疇の範疇値に相当する特定の第２のタイプの言葉が存在し、前記特定の範疇に相当する言葉が存在しない場合、前記特定の範疇の範疇値に相当する前記特定の第２のタイプの言葉に基づいて、前記特定の範疇に対応する特定の第１のタイプのトークンが生成されてもよい。

例えば、図３を参照すると、対象ドキュメント１０には、「店名・売り場名」の範疇の属性に対応する言葉が存在しない。本発明は、対象ドキュメント１０から取り出された第２のタイプの言葉「Ｈａｐｐｙ」、「Ｓｔｏｒｅ」１１の意味に基づいて、既に定義された複数の範疇のうち、「店名・売り場名」の範疇を特定し、「店名・売り場名」の範疇に対応する第１のタイプのトークンを生成することができる。

上述したように、本発明は、たとえ、対象ドキュメントに範疇の属性を指し示す言葉が存在しないとしても、第２のタイプの言葉の実質的な意味に基づいて、対象ドキュメントに含まれている範疇を特定する。

一実施形態において、図３を参照すると、対象ドキュメント１０から複数の言葉（「Ｈａｐｐｙ」、「ｓｔｏｒｅ」、「１０５ｈ－ｓｔｒｅｅｔ」、「注文番号：」、「２０２１０５２００１１」、「品名」、「数量」、「金額」、「Ｃａｒｒｏｔ」、「３」、「２９９７」、「ｔｏｍａｔｏ」、「２」、「１０００」）が取り出される。

一方、取り出された言葉の一部（「品名」、「数量」、「金額」、「注文番号：」）は、第１のタイプの言葉に仕分けされ、残りの一部（「Ｈａｐｐｙ」、「ｓｔｏｒｅ」、「１０５ｈ－ｓｔｒｅｅｔ」、「２０２１０５２００１１」、「Ｃａｒｒｏｔ」、「３」、「２９９７」、「ｔｏｍａｔｏ」、「２」、「１０００」、「２０２１０５２００１１」）は、第２のタイプの言葉に仕分けされてもよい。

引き続き、取り出された言葉のそれぞれの意味に基づいて、既に定義された複数の範疇のうち、複数の言葉のそれぞれに対応する一部の範疇が特定される。具体的に、取り出された言葉の意味に基づいて、「ｓｔｏｒｅ」、「ｎａｍｅ」（「ｓｔｏｒｅ」の範疇の下位範疇）、「ａｄｄｒｅｓｓ」、「ｉｔｅｍ」、「ｌｉｓｔ」、「ｍｅｎｕ」、「ｎａｍｅ」（「ｍｅｎｕ」の範疇の下位範疇）、「ｃｏｕｎｔ」、「ｐｒｉｃｅ」の範疇が特定されてもよい。

次いで、「ａｄｄｒｅｓｓ」、「ｉｔｅｍ」、「ｌｉｓｔ」、「ｍｅｎｕ」、「ｎａｍｅ」（「ｍｅｎｕ」の範疇の下位範疇）、「ｃｏｕｎｔ」、「ｐｒｉｃｅ」の範疇のそれぞれに対応する第１のタイプのトークンが生成され、第２のタイプの言葉に仕分けされた言葉に対応する第２のタイプのトークンが生成される。

一方、対象ドキュメントから取り出しようとするデータのうち、ユーザーにとって不要な範疇のデータは、データの取出に際して削除するように設定されてもよい。ユーザーは、ユーザーにとって不要なデータの範疇を予め設定し、当該範疇のデータに対するトークンが生成されないように設定してもよい。既に設定された範疇に属する言葉（「注文番号：」、「２０２１０５２００１１」）は削除されてもよい。

一実施形態において、図３に示す表を参照すると、第１及び第２のタイプの言葉に仕分けされた複数の言葉に基づいて、複数のトークン（出力トークン:ｏｕｔｐｕｔｔｏｋｅｎ）３２０が生成されてもよい。複数のトークンは、時間の流れ（ｔ）に従って順番に生成されてもよい。

前記複数のトークンは、第３のタイプのトークンを含んでいてもよい。第３のタイプのトークンについては後述する。

次いで、対象ドキュメントに含まれている前記複数の言葉の間のデータ構造が反映されるように、前記複数のトークンを並べるステップが行われる（Ｓ１３０）。

対象ドキュメントに含まれている複数の言葉は、所定のデータ構造を有することができる。データ構造とは、複数の言葉の特性及び言葉の間の関係を論理的な観点から示す構造であり、データ構造の種類は、リスト（一覧）、並べ、木（ツリー）、グラフ、キュー及びスタックのうちの少なくとも一つを含んでいてもよいが、これに何ら限定されない。

例えば、図１において述べた対象ドキュメント１０は、「店名・売り場名」の範疇、「売り場の住所」の範疇、「注文商品名」の範疇、「注文数量」の範疇、及び「注文金額」の範疇を含むデータ構造を有する。ただし、対象ドキュメント１０に対応するデータ構造は、必ずしも絶対的なものであるとは限らず、対象ドキュメント１０に関するデータ構造は、データ構造を定義する方式に応じて異なってくる場合がある。

この明細書において、複数のトークンを並べるステップは、対象ドキュメントに含まれている複数の言葉の間のデータ構造と同一の構造のデータを生成するように実現されてよく、対象ドキュメントに含まれている複数の言葉の間のデータ構造が既に設定された方式に従って変形された構造のデータを生成するように実現されてもよい。

例えば、図１において述べた対象ドキュメント１０は、「店名・売り場名」の範疇、「売り場の住所」の範疇、「注文商品名」の範疇、「注文数量」の範疇、及び「注文金額」の範疇を含むデータ構造を有し、本発明に係るトークンを並べるステップは、「店名・売り場名」の範疇及び「売り場の住所」の範疇の上位範疇である「売り場」の範疇、「売り場」の範疇の下位概念である「店名・売り場名」の範疇及び「売り場の住所」の範疇、互いに関連付けられた「注文商品名」の範疇、「注文数量」の範疇、及び「注文金額」の範疇を含むデータ構造を有するデータが実現されるように行われてもよい。

上述したように、本発明は、対象ドキュメント１０に含まれている範疇の上位概念の範疇を新たに定義し、または、互いに異なる範疇のデータを互いに関連付けたりすることができる。

複数のトークンを並べるステップにおいては、前記複数の言葉の意味及び前記複数の言葉のそれぞれに関する位置情報を用いて、前記複数のトークンが順番に並べられる。

前記複数のトークンを並べるステップは、必ずしも複数のトークンがいずれも生成された後に行われる必要はない。本発明は、前記複数のトークンの一部が生成された状態で、生成されたトークンを並べた後で、さらにトークンを生成するような方式によって行われてもよい。

一実施形態において、本発明は、一つのトークンが生成されるたびに、生成されたトークンを並べるような方式により行われてもよい。

以下、複数のトークンを並べる方法について詳しく説明する。

第２のタイプに仕分けされた特定の第２のタイプの言葉が属する第１の範疇に対応する第１のタイプのトークンと、前記特定の第２のタイプの言葉に対応する第２のタイプのトークンは、順番に並べられてもよい。

一実施形態において、同一の範疇である第１の範疇に対応する第１のタイプのトークンと第２のタイプのトークンは、順番に並べられてもよい。この明細書においては、説明のしやすさのために、第１のタイプのトークンが第２のタイプのトークンよりも先に並べられる実施形態について説明するが、これに何ら限定されず、第２のタイプのトークンが第１のタイプのトークンよりも先に並べられてもよい。

他の一実施形態において、一つのトークンが生成されるたびに、生成されたトークンを並べるような方式によりトークンの並べ作業が行われる場合、先に並べられるトークンがこれよりも後で並べられるトークンよりも先に生成されることもある。

一方、前記第１の範疇に属する特定の第２のタイプの言葉は、複数であってもよい。この場合、複数の前記特定の第２のタイプの言葉のそれぞれに対応する複数の第２のタイプのトークンが順番に並べられる。

このとき、順番に並べられた前記複数の第２のタイプのトークンの並べ順は、複数の前記特定の第２のタイプの言葉のそれぞれの意味及び前記対象ドキュメント上の位置情報に基づいて決められてもよい。

例えば、図３を参照すると、生成されたトークン３２０のうち、第２のタイプのトークンである「Ｈａｐｐｙ」のトークンと「ｓｔｏｒｅ」のトークンは、「［ｎａｍｅ］」のトークンに続いて順番に並べられ、前記二つの第２のタイプのトークンのそれぞれの言葉に基づいて、「Ｈａｐｐｙ」のトークンが先に並べられ、「ｓｔｏｒｅ」のトークンが「Ｈａｐｐｙ」のトークンに続いて並べられる。

上述したように、本発明は、対象ドキュメントから取り出された言葉の大きさを最小化させることにより、たとえ、対象ドキュメントの形態が変形されたり一部が失われたりすることに伴い、テキスト間の相対的な位置が不規則的になる場合であっても、言葉の意味に基づいて、高い正確度をもって情報を取り出せるようにする。

一方、互いに異なる範疇に属する第１のタイプのトークンは、順番に並べられる。具体的に、前記第１の範疇に対応する第１のタイプのトークンと、前記第１の範疇とは異なる第２の範疇に対応する第１のタイプのトークンとが順番に並べられる。

このとき、前記第１の範疇に対応する第１のタイプのトークンと、前記第２の範疇に対応する第２のタイプのトークンとの間には、前記第１の範疇及び前記第２の範疇のそれぞれに対応するトークンを区別するための第３のタイプのトークンが並べられてもよい。

一実施形態において、第１の範疇に属するトークンが第１のタイプのトークンのみ存在（対象ドキュメントから属性に対応する言葉のみ取り出され、値に対応する言葉は取り出されていない場合）する場合に、第３のタイプのトークンは、第１のタイプのトークンに続いて並べられる。

他の一実施形態において、第１の範疇に属するトークンが第１のタイプのトークンと一つの第２のタイプのトークンである場合、第１の範疇に対応する第１のタイプのトークンが最初に並べられ、第１のタイプのトークンに続いて第２のタイプのトークンが並べられてもよい。第３のタイプのトークンは、第２のタイプのトークンに続いて並べられる。

他の一実施形態において、第１の範疇に属するトークンが第１のタイプのトークンと複数の第２のタイプのトークンである場合、前記第１の範疇に対応する第１のタイプのトークンが最初に並べられ、前記第１の範疇に対応する第１のタイプのトークンに続いて、前記特定の第２のタイプの言葉に対応する複数の第２のタイプのトークンが順番に並べられ、前記特定の第２のタイプの言葉に対応する第２のタイプのトークンのうち、最後に並べられた特定の第２のタイプのトークンに続いて、前記第３のタイプのトークンが並べられてもよい。

上述したように、前記第３のタイプのトークンは、特定の範疇に属する少なくとも一つのトークンのうち、最後に並べられてもよい。

対象ドキュメント１０から取り出された複数の言葉のそれぞれの意味に基づいて、既に定義された複数の範疇のうち、複数の言葉のそれぞれに対応する範疇が特定されてもよい。既に定義された複数の範疇のうち、前記特定された範疇が定義する概念よりも上位概念の範疇が存在する場合、前記上位概念の範疇が複数の言葉のそれぞれに対応する範疇として特定されてもよい。

上述した上位概念の範疇は、特定のカテゴリーの上位カテゴリーであると理解されてもよい。この明細書において、特定の範疇に対する上位概念の範疇を上位範疇と称し、前記上位範疇の下位概念の範疇を下位範疇と称する。前記言い回しは相対的な言い回しであるため、特定の範疇を基準として活用してもよい。

例えば、前記第１の範疇の上位概念に対応する範疇が存在する場合に、前記上位概念に対応する範疇は第３の範疇と特定されてもよい。この場合、前記第１の範疇は前記第３の範疇の下位範疇と称されてもよく、前記第３の範疇は前記第１の範疇の上位範疇と称されてもよい。

前記上位概念の範疇よりも上位概念の範疇が既に定義された場合に、前記上位概念の範疇よりも上位概念の範疇も、また、複数の言葉のそれぞれに対応する範疇と特定されてもよい。

特定の範疇の上位範疇が特定される場合に、上位範疇に対応する第１のタイプのトークンが生成されてもよい。例えば、前記特定された第３の範疇に対応する前記第１のタイプのトークンが生成される。前記第３の範疇に対応する第１のタイプのトークン、前記第１の範疇に対応する第１のタイプのトークン及び前記第１の範疇に対応する第２のタイプのトークンは、順番に並べられてもよい。

一方、特定の範疇の下位範疇は、複数特定されてもよい。例えば、前記第１及び第２の範疇が前記第３の範疇の下位範疇であってもよい。この場合、第１乃至第３の範疇に対応する第１のタイプのトークンが生成される。前記第３の範疇に対応する第１のタイプのトークン、前記第１の範疇に対応する第１のタイプのトークン、前記第１の範疇に対応する第２のタイプのトークン、第３のタイプのトークン、前記第２の範疇に対応する第１のタイプのトークン及び前記第２の範疇に対応する第２のタイプのトークンは、順番に並べられてもよい。

上述したように、二つの下位範疇のそれぞれに対応する第１のタイプのトークンの間には、第３のタイプのトークンが並べられる。

図３に基づいて、実際の領収証を基に生成されたトークンを並べる方法についてさらに詳しく説明する。

図３においては、トークンが生成された順番とトークンの並べ順とが同一であるということを想定して説明するが、トークンの生成順番とトークンの並べ順とが必ずしも一致するとは限らない。

対象ドキュメント１０から取り出された言葉のそれぞれの意味に基づいて、「［ｓｔｏｒｅ］」、「［ｎａｍｅ］」（「［ｓｔｏｒｅ］」のトークンに対応する範疇の下位範疇に対応）、「［ａｄｄｒｅｓｓ］」（「［ｓｔｏｒｅ］」のトークンに対応する範疇の下位範疇に対応）、「［ｉｔｅｍ］」、「［ｌｉｓｔ］」（「［ｉｔｅｍ］」のトークンに対応する範疇の下位範疇に対応）、「［ｍｅｎｕ］」（「［ｌｉｓｔ］」のトークンに対応する範疇の下位範疇に対応）、「［ｎａｍｅ］」（「［ｍｅｎｕ］」のトークンに対応する範疇の下位範疇に対応）、「［ｃｏｕｎｔ］」（「［ｍｅｎｕ］」のトークンに対応する範疇の下位範疇に対応）、及び「［ｐｒｉｃｅ］」（「［ｍｅｎｕ］」のトークンに対応する範疇の下位範疇に対応）トークンが生成される。

また、第２のタイプに仕分けされた言葉（「Ｈａｐｐｙ」、「ｓｔｏｒｅ」、「１０５ｈ－ｓｔｒｅｅｔ」、「２０２１０５２００１１」、「Ｃａｒｒｏｔ」、「３」、「２９９７」、「ｔｏｍａｔｏ」、「２」、「１０００」）に対応する第２のタイプのトークンが生成される。

複数の範疇のうち、最も上位概念に対応する二つの範疇「ｓｔｏｒｅ」、「ｉｔｅｍ」の範疇のうちのどちらか一方に対応する［ｓｔｏｒｅ］のトークンが最初のトークンとして並べられる。次いで、「ｓｔｏｒｅ」の範疇の下位範疇に対応する「ｎａｍｅ」の範疇に対応する［ｎａｍｅ］のトークンが［ｓｔｏｒｅ］のトークンに続いて並べられ、「ｎａｍｅ」の範疇に属している第２のタイプの言葉に対応する「Ｈａｐｐｙ」、「ｓｔｏｒｅ」のトークンが［ｎａｍｅ］のトークンに続いて続けて並べられる。

「ｎａｍｅ」の範疇に属しているトークン３２１ａがいずれも並べられた後、「ｎａｍｅ」の範疇に対応するトークンのうち、最後のトークン（「ｓｔｏｒｅ」のトークン」）に続いて第３のタイプのトークン（［ｒｅｄｕｃｅ］）３２１ｂが並べられる。次いで、「ｓｔｏｒｅ」の範疇の下位範疇に対応する「ａｄｄｒｅｓｓ」の範疇に対応する［ａｄｄｒｅｓｓ］のトークンが［ｒｅｄｕｃｅ］のトークンに続いて並べられる。

図示はしないが、以降の並べ方について詳述する。「ａｄｄｒｅｓｓ」の範疇に属している第２のタイプの言葉に対応する「１０５ｈ－ｓｔｒｅｅｔ」のトークンが［ａｄｄｒｅｓｓ］のトークンに続いて並べられる。「ａｄｄｒｅｓｓ」の範疇に属しているトークンがいずれも並べられた後、「ａｄｄｒｅｓｓ」の範疇に対応するトークンのうち、最後のトークン（「１０５ｈ－ｓｔｒｅｅｔ」のトークン）に続いて第３のタイプのトークンが並べられる。

一方、「ｓｔｏｒｅ」の範疇に対応するすべてのトークンが並べられたため、第３のタイプのトークンがさらにもう一回並べられる。すなわち、「ａｄｄｒｅｓｓ」の範疇に対応するトークンのうち最後のトークン（「１０５ｈ－ｓｔｒｅｅｔ」のトークン）に続いて、二つの第３のタイプのトークンが続けて並べられる。

続けて並べられた二つの第３のタイプのトークンに続いて、「ｉｔｅｍ」の範疇に対応する［ｉｔｅｍ］のトークンが並べられる。［ｉｔｅｍ］のトークンに続いて、「ｉｔｅｍ」の範疇の下位範疇である「ｌｉｓｔ」の範疇に対応する［ｌｉｓｔ］のトークン、「ｌｉｓｔ」の範疇の下位範疇である「ｍｅｎｕ」の範疇に対応する［ｍｅｎｕ］のトークン、「ｍｅｎｕ」の範疇の下位範疇である「ｎａｍｅ」の範疇に対応する［ｎａｍｅ］のトークンが続けて並べられる。［ｎａｍｅ］のトークンに続いて、「ｎａｍｅ」の範疇に属している値に対応する「ｃａｒｒｏｔ」のトークンが続けて並べられ、「ｃａｒｒｏｔ」のトークンに続いて、［ｒｅｄｕｃｅ］のトークンが並べられる。

次いで、「ｍｅｎｕ」の範疇の下位範疇である「ｃｏｕｎｔ」の範疇に対応する［ｃｏｕｎｔ］のトークンが続けて並べられる。［ｃｏｕｎｔ］のトークンに続いて、「ｃｏｕｎｔ」の範疇に属している値に対応する「３」のトークンが続けて並べられ、「３」のトークンに続いて、［ｒｅｄｕｃｅ］のトークンが並べられる。

次いで、「ｍｅｎｕ」の範疇の下位範疇である「ｐｒｉｃｅ」の範疇に対応する［ｐｒｉｃｅ］のトークンが続けて並べられる。［ｐｒｉｃｅ］のトークンに続いて、「ｐｒｉｃｅ」の範疇に属している値に対応する「２９９７」のトークンが続けて並べられ、「２９９７」のトークンが並べられる。

「ｐｒｉｃｅ」の範疇、「ｍｅｎｕ」の範疇、「ｌｉｓｔ」の範疇に対応するすべてのトークンが並べられたため、「２９９７」のトークンに続いて、三つの第３のタイプのトークンが続けて並べられる。

次いで、続けて並べられた三つの第３のタイプのトークンに続いて、「ｉｔｅｍ」の範疇の下位範疇である「ｌｉｓｔ」の範疇に対応する［ｌｉｓｔ］のトークン、「ｌｉｓｔ」の範疇の下位範疇である「ｍｅｎｕ」の範疇に対応する［ｍｅｎｕ］のトークン、「ｍｅｎｕ」の範疇の下位範疇である「ｎａｍｅ」の範疇に対応する［ｎａｍｅ］のトークンが続けて並べられる。［ｎａｍｅ］のトークンに続いて、「ｎａｍｅ」の範疇に属している値に対応する「ｔｏｍａｔｏ」のトークンが続けて並べられ、「ｔｏｍａｔｏ」のトークンに続いて、［ｒｅｄｕｃｅ］のトークンが並べられる。

次いで、「ｍｅｎｕ」の範疇の下位範疇である「ｔｏｍａｔｏ」の範疇に対応する［ｃｏｕｎｔ］のトークンが続けて並べられる。［ｃｏｕｎｔ］のトークンに続いて、「ｃｏｕｎｔ」の範疇に属している値に対応する「２」のトークンが続けて並べられ、「２」のトークンに続いて、［ｒｅｄｕｃｅ］のトークンが並べられる。

引き続き、「ｍｅｎｕ」の範疇の下位範疇である「ｐｒｉｃｅ」の範疇に対応する［ｐｒｉｃｅ］のトークンが続けて並べられる。［ｐｒｉｃｅ］のトークンに続いて、「ｐｒｉｃｅ」の範疇に属している値に対応する「１０００」のトークンが続けて並べられ、「１０００」のトークンが並べられる。前記「１０００」のトークンを最後にトークンの並べが終わる。

一方、前記生成されたトークン及び前記トークンが並べられた順番に基づいて、前記対象ドキュメントに含まれている前記複数の言葉の間のデータ構造が反映されたデータが生成されてもよい。

前記対象ドキュメントに含まれている前記複数の言葉の間のデータ構造が反映されたデータは、トークンが並べられた順番の通りにトークンに対応するアクションを行うことにより生成される。

一実施形態において、前記対象ドキュメントに含まれている前記複数の言葉の間のデータ構造が反映されたデータは、木（ｔｒｅｅ）状に生成されてもよい。

木データは、複数のノード及び複数のレイヤーを備え、それぞれのノードには複数の範疇のうちのいずれか一つが対応し、対応する範疇の属性及び値のうちの少なくとも一つがマッチングされる。

木データの生成に際して最上位ノードＳを基準ノードとして設定した後で、トークンが並べられた順番の通りに、トークンに対応するアクションを行ってノードを生成するか、あるいは、ノードに対応するデータをマッチングさせる。

第１のタイプのトークンに対するアクションは、基準ノードの下位ノードを生成し、生成された下位ノードを基準ノードに変更するものであり、第２のタイプのトークンに対するアクションは、基準ノードに当該第２のタイプのトークンに対応する言葉を値としてマッチングさせるものである。第３のタイプのトークンに対するアクションは、基準ノードよりも１段階上位のノードを基準ノードに変更するものである。

上述した基準に従い、順番に並べられたトークンから木データが生成されてもよい。

図３及び図４に基づいて、木データを生成する一実施形態について説明する。対象ドキュメント１０からトークンを生成し、かつ、並べる方法に関する説明は、上述した説明に換えるものとする。

図３を参照すると、トークンが並べ順の通りにトークンに対応するアクション３３０を行う。図３に示す表のトークン生成時間列３１１に含まれている数字は、トークンを処理する順番になることがあり、トークンの処理順番の通りにアクション列３３１に含まれているアクションが行われる。これにより、パース３４０が行われ、パース列３４１に含まれているデータが順番に生成される。

最初に木の最上位ノードＳを基準ノードとして設定し、基準ノードにおいて［ｓｔｏｒｅ］のトークンに対応するアクションＮＴ（ｓｔｏｒｅ）が行われる。これにより、基準ノードＳの下位ノードである［ｓｔｏｒｅ］のノード４１０が生成され、基準ノードが［ｓｔｏｒｅ］のノード４１０に変更される。

次いで、［ｎａｍｅ］のトークンに対応するアクションＮＴ（ｎａｍｅ）が行われ、［ｓｔｏｒｅ］のノード４１０の下位ノードである［ｎａｍｅ］のノード４２０が生成され、基準ノードが［ｎａｍｅ］のノード４２０に変更される。

次いで、［ｎａｍｅ］のノード４２０に「Ｈａｐｐｙ」のトークンに対応する言葉「Ｈａｐｐｙ」をマッチングさせるアクションＧＥＮ（Ｈａｐｐｙ）が行われる。続けて、［ｎａｍｅ］のノード４２０に「ｓｔｏｒｅ」のトークンに対応する言葉「ｓｔｏｒｅ」をマッチングさせるアクションＧＥＮ（ｓｔｏｒｅ）が行われる。［ｎａｍｅ］のノード４２０にマッチングされた言葉は、言葉がマッチングされた順番の通りに直列化（ｓｅｒｉａｌｉｚａｔｉｏｎ）される。これにより、［ｎａｍｅ］のノード４２０には、「Ｈａｐｐｙｓｔｏｒｅ」４２１がマッチングされる。

図３に示す表の３３１ａの領域に含まれているすべてのアクションが行われることに伴い、図４の４１０、４２０ノードが生成され、４２０ノードに対応するテキストがマッチングされる。

次いで、図３に示す表の３３１ｂの領域に含まれている［ｒｅｄｕｃｅ］のトークンに対応するアクションが行われる。これにより、基準ノードが［ｎａｍｅ］のノードから［ｎａｍｅ］のノードの上位ノードである［ｓｔｏｒｅ］のノードに変更される。

次いで、［ａｄｄｒｅｓｓ］のトークンに対応するアクションＮＴ（ａｄｄｒｅｓｓ）が行われ、［ｓｔｏｒｅ］のノード４１０の下位ノードである［ａｄｄｒｅｓｓ］のノードが生成され、基準ノードが［ａｄｄｒｅｓｓ］のノードに変更される。

次いで、［ａｄｄｒｅｓｓ］のノードに「１０５ｈ－ｓｔｒｅｅｔ」のトークンに対応する言葉「１０５ｈ－ｓｔｒｅｅｔ」をマッチングさせるアクションＧＥＮ（１０５ｈ－ｓｔｒｅｅｔ）が行われる。これにより、［ａｄｄｒｅｓｓ］のノードには、「１０５ｈ－ｓｔｒｅｅｔ」がマッチングされる。

次いで、続けて並べられた二つの［ｒｅｄｕｃｅ］のトークンに対応するアクションが行われ、基準ノードが最上位ノードＳに変更される。

次いで、［ｉｔｅｍ］のトークン、［ｌｉｓｔ］のトークン、［ｍｅｎｕ］のトークン、［ｎａｍｅ］のトークンに対応するアクションが順番に行われ、［ｉｔｅｍ］のノード４３０、［ｌｉｓｔ］のノード４４０、［ｍｅｎｕ］のノード４５０、［ｎａｍｅ］のノード４６０が順番に生成される。引き続き、「ｃａｒｒｏｔ」のトークンに対応するアクションが行われることにより、［ｎａｍｅ］のノード４６０に言葉「ｃａｒｒｏｔ」４６１がマッチングされる。

上述したルールに従って生成されたトークンに対するアクションを繰り返し行う場合、図４に示す木データが生成可能である。

図４に示す木は、対象ドキュメント１０に含まれている言葉のそれぞれに関するキー－値の組が完全にマッチングされたデータであり、それぞれのデータの範疇が完全に定義されている。

上述したように、本発明は、対象ドキュメントから取り出された前記複数の言葉の意味及び前記複数の言葉のそれぞれに関する位置情報を用いて、かつ、生成されたトークン及び生成されたトークンの並べを用いて、対象ドキュメントに含まれている複数の言葉の間のデータ構造が反映されたデータを生成することができる。

一方、本発明は、情報取出モデルに対するマシンラーニングを行うときに、上述した木データを基準として情報取出モデルに関する正確度を判断する。

図５は、本発明に係る情報取出モデルのマシンラーニング方法を示す概念図であり、図６は、本発明に係る情報取出モデルから出力されたデータの正確度を算出する様子を示す概念図である。

図５を参照すると、対象ドキュメント１０に対するＯＣＲ５１１を行って、複数の言葉及び前記複数の言葉のそれぞれに関する位置情報５１２を推定した後で、複数の言葉及び位置情報を本発明に係る情報取出モデル５１３に入力する。これにより、順番に並べられたトークンが順番に並べられる。

一方、対象ドキュメント１０に対応するデータは、学習データに加工される。学習データのための加工は、パースアノテーター（ｐａｒｓｅａｎｎｏｔａｔｏｒ）５２１により行われるが、パースアノテーター５２１は、既に記憶されたデータを複数のトークンが順番に並べられた複数のトークン状に出力する。すなわち、パースアノテーター５２１は、本発明に係るマシンラーニングモデルの出力データと同一の形式のデータを出力する。これを通して、マシンラーニングのための原データ（学習データ）が生成される。

本発明に係る情報取出モデルから出力された複数のトークンを基に生成された木データと原データとの誤差を算出し、誤差を最小化させるように訓練が行われてもよい。

一実施形態において、図６を参照すると、情報取出モデルの誤差は、情報取出モデルから生成された木データに含まれているノードと原データを構成するノードとを比較することにより算出されてもよい。具体的に、情報取出モデルから出力された木データ（図６における最上段の木）を原データの木（図６における最下段の木）と同様に変化させながら情報取出モデルの誤差が算出されてもよい。

具体的に、情報取出モデルから出力された木データ（図６における最上段の木）の各ノード６１０、６２０、６３０とノードにマッチングされた値６２１、６３１が原データの木と一致するか否かを判断し、一致しないノード６３０及び一致しない値６３１を原データと同様に修正して、一致しないノード６３０が原データと一致するノード６３０’に修正されるようにし、一致しない値６３１が原データと一致する値６３１’に修正されるようにする。このような過程において、情報取出モデルから出力された木データのスコアが算出される。スコアの算出方式は、既に公知の方式を活用するため、具体的な説明は省略する。

上述したように、本発明に係る情報取出モデルのマシンラーニングは、情報取出モデルから出力され、順番に並べられたトークンの正確度を算出することにより行われる。前記出力されたトークンは、「キー－値」の組が完全にマッチングされたデータではないので、前記情報取出モデルの正確度を算出するための学習データが生成されやすくなる。

具体的に、学習データの生成に際して既に定められたルール（トークン生成ルール）に従って一定の順番に並べられたトークンを生成した後で、情報取出モデルから出力されたトークンと比較する作業を行うことで、情報取出モデルの正確度を判断し、前記情報取出モデルの正確度を高めるようにマシンラーニングを行うことが可能になる。これにより、情報取出モデルのマシンラーニングのための学習データを生成するのにかかる時間が大幅に短縮される。

一方、前述した本発明は、コンピューターにおいて一つ以上のプロセスにより実行され、このようなコンピューターにおいて読み取り可能な媒体（または、記録媒体）に記憶可能なプログラムとして実現可能である。

さらに、前述した本発明は、プログラムが記録された媒体にコンピューターにおいて読み取り可能なコードまたはコマンドとして実現することが可能である。すなわち、本発明は、プログラムの形態で提供されてもよい。

一方、コンピューターにおいて読み取り可能な媒体は、コンピューターシステムにより読み込まれるデータが記憶されるあらゆる種類の記録装置を網羅する。コンピューターにおいて読み取り可能な媒体の例としては、ハードディスクドライブ（ＨＤＤ：ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ソリッドステートディスク（ＳＳＤ：ＳｏｌｉｄＳｔａｔｅＤｉｓｋ）、シリコンディスクドライブ（ＳＤＤ：ＳｉｌｉｃｏｎＤｉｓｋＤｒｉｖｅ）、読み取り専用メモリー（ＲＯＭ）、ランダムアクセスメモリー（ＲＡＭ）、ＣＤ－ＲＯＭ、磁気テープ、フロッピーディスク、光データ記憶装置などが挙げられる。

さらにまた、コンピューターにおいて読み取り可能な媒体は、保存先を備え、電子機器が通信を通してアクセスできるサーバーまたはクラウド保存先であってもよい。この場合、コンピューターは、有線または無線通信を通して、サーバーまたはクラウド保存先から本発明に係るプログラムをダウンロードすることができる。

これらに加えて、本発明においては、以上において説明したコンピューターは、プロセッサー、すなわち、中央処理装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）が搭載された電子機器であって、その種類に対して格別に限定をしない。

一方、上記の詳細な説明は、あらゆる面において制限的であると解釈されてはならず、例示的なものであると考慮されるべきである。本発明の範囲は、特許請求の範囲のリーズナブルな解釈によって決められなければならず、本発明の等価的な範囲内におけるあらゆる変更は、本発明の範囲に含まれる。

Claims

コンピュータシステムが半構造化ドキュメントから情報を取り出す方法であって、
前記コンピュータシステムにおけるプロセッサが、対象ドキュメントに対する光学的文字認識（ＯＣＲ：Ｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ）を行って、複数の言葉及び前記複数の言葉のそれぞれに関する位置情報を取り出すステップと、
前記プロセッサが、前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップと、
前記プロセッサが、前記対象ドキュメントに含まれている前記複数の言葉の間のデータ構造が反映されるように、前記複数のトークンを並べるステップと、
を含み、
前記複数のトークンは、範疇の属性を有する第１のタイプのトークン及び前記範疇の値に相当するデータ属性を有する第２のタイプのトークンのうちのどちらか一方のタイプを有し、
前記複数の言葉は、前記範疇の属性を有する第１のタイプに対応する第１のタイプの言葉及び前記データ属性を有する第２のタイプの言葉のうちの少なくとも一方のタイプを有し、
前記複数のトークンを並べるステップにおいては、
前記複数の言葉の意味及び前記複数の言葉のそれぞれに関する位置情報を用いて、前記複数のトークンを並べ、
前記第２のタイプに仕分けされた特定の第２のタイプの言葉が属する第１の範疇に対応する第１のタイプのトークンと、前記特定の第２のタイプの言葉に対応する第２のタイプのトークンとを順番に並べ、
前記特定の第２のタイプの言葉が複数である場合には、
複数の前記特定の第２のタイプの言葉のそれぞれに対応する複数の第２のタイプのトークンを順番に並べ、
順番に並べられた前記複数の第２のタイプのトークンの並べ順は、複数の前記特定の第２のタイプの言葉のそれぞれの意味及び前記対象ドキュメント上の位置情報に基づいて決められる、
ことを特徴とする、方法。
前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップは、
前記複数の言葉のそれぞれの意味に基づいて、前記範疇の属性を有する第１のタイプのトークン及び前記データ属性を有する第２のタイプのトークンのうちの少なくとも一方を生成するステップ、を含む、
ことを特徴とする、請求項１に記載の方法。
前記方法は、さらに、
前記プロセッサが、前記複数の言葉のそれぞれの意味及び前記対象ドキュメントにおける複数の言葉のそれぞれに関する位置情報に基づいて、前記複数の言葉を前記第１のタイプの言葉及び前記第２のタイプの言葉のうちの少なくとも一方に仕分けするステップ、を含む、
ことを特徴とする、請求項２に記載の方法。
前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップにおいては、
前記複数の言葉のうち、前記第１のタイプに仕分けされた前記第１のタイプの言葉にそれぞれ対応するように、少なくとも一つの第１のタイプのトークンを生成し、
前記第２のタイプに仕分けされた前記第２のタイプの言葉にそれぞれ対応するように、少なくとも一つの第２のタイプのトークンを生成する、
ことを特徴とする、請求項３に記載の方法。
前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップにおいては、
前記第２のタイプに仕分けされた第２のタイプの言葉が属する範疇のそれぞれに対する第１のタイプのトークンを生成する、
ことを特徴とする、請求項４に記載の方法。
前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップは、
前記複数の言葉に特定の範疇の範疇値に相当する特定の第２のタイプの言葉が存在し、前記特定の範疇に相当する言葉が存在しない場合に、
前記特定の範疇の範疇値に相当する前記特定の第２のタイプの言葉に基づいて、前記特定の範疇に対応する特定の第１のタイプのトークンを生成するステップ、
をさらに含む、
ことを特徴とする、請求項５に記載の方法。
前記複数のトークンを並べるステップにおいては、
前記第１の範疇に対応する第１のタイプのトークンと、前記第１の範疇とは異なる第２の範疇に対応する第１のタイプのトークンとを順番に並べ、
前記第１の範疇に対応する第１のタイプのトークンと、前記第２の範疇に対応する第２のタイプのトークンとの間には、前記第１の範疇及び前記第２の範疇のそれぞれに対応するトークンを区別するための第３のタイプのトークンが並べられる、
ことを特徴とする、請求項１に記載の方法。
前記複数のトークンを並べるステップにおいては、
前記第１の範疇に対応する第１のタイプのトークン及び前記特定の第２のタイプの言葉に対応する第２のタイプのトークンのうち、前記第１の範疇に対応する第１のタイプのトークンを最初に並べ、
前記第１の範疇に対応する第１のタイプのトークンに続けて、前記特定の第２のタイプの言葉に対応する第２のタイプのトークンを順番に並べ、
前記特定の第２のタイプの言葉に対応する第２のタイプのトークンのうち、最後に並べられた特定の第２のタイプのトークンに続けて、前記第３のタイプのトークンを並べる、
ことを特徴とする、請求項７に記載の方法。
前記方法は、さらに、
前記プロセッサが、前記複数のトークンを用いて、前記対象ドキュメントと対応する構造を有するデータを生成するステップ、を含み、
前記データを生成するステップにおいては、
前記複数のトークンのうち、前記第３のタイプのトークンが検出された場合に、
前記第３のタイプのトークンが検出される直前に検出された特定のトークンと、前記第３のタイプのトークンに続く特定のトークンとを互いに異なる範疇にそれぞれ対応するトークンとして捉える、
ことを特徴とする、請求項８に記載の方法。
前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップにおいては、
前記第１の範疇の上位概念に対応する範疇が存在する場合に、
前記上位概念に対応する範疇を第３の範疇と特定し、前記特定された第３の範疇に対応する前記第１のタイプのトークンを生成する、
ことを特徴とする、請求項９に記載の方法。
前記第３の範疇に対応する第１のタイプのトークン、前記第１の範疇に対応する第１のタイプのトークン、及び前記第１の範疇に対応する第２のタイプのトークンは、順番に並べられる、
ことを特徴とする、請求項１０に記載の方法。
半構造化ドキュメントから情報を取り出すシステムであって、
対象ドキュメントに対する光学的文字認識（ＯＣＲ：Ｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ）を行って、複数の言葉及び前記複数の言葉のそれぞれに関する位置情報を取り出すＯＣＲ部と、
前記複数の言葉のそれぞれに対応する複数のトークンを生成し、前記対象ドキュメントに含まれている前記複数の言葉の間のデータ構造が反映されるように、前記複数のトークンを並べる制御部と、
を備え、
前記複数のトークンは、範疇の属性を有する第１のタイプのトークン及び前記範疇の値に相当するデータ属性を有する第２のタイプのトークンのうちのどちらか一方のタイプを有し、
前記複数の言葉は、前記範疇の属性を有する第１のタイプに対応する第１のタイプの言葉及び前記データ属性を有する第２のタイプの言葉のうちの少なくとも一方のタイプを有し、
前記制御部は、
前記複数の言葉の意味及び前記複数の言葉のそれぞれに関する位置情報を用いて、前記複数のトークンを並べ、
前記第２のタイプに仕分けされた特定の第２のタイプの言葉が属する第１の範疇に対応する第１のタイプのトークンと、前記特定の第２のタイプの言葉に対応する第２のタイプのトークンとを順番に並べ、
前記特定の第２のタイプの言葉が複数である場合には、
複数の前記特定の第２のタイプの言葉のそれぞれに対応する複数の第２のタイプのトークンを順番に並べ、
順番に並べられた前記複数の第２のタイプのトークンの並べ順は、複数の前記特定の第２のタイプの言葉のそれぞれの意味及び前記対象ドキュメント上の位置情報に基づいて決められる、
ことを特徴とする、システム。
コンピューターにて起動する、複数の指令を含むコンピュータープログラムであって、
前記指令が前記コンピューターによって実行されると、
対象ドキュメントに対する光学的文字認識（ＯＣＲ：Ｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ）を行って、複数の言葉及び前記複数の言葉のそれぞれに関する位置情報を取り出すステップと、
前記複数の言葉のそれぞれに対応する複数のトークンを生成するステップと、
前記対象ドキュメントに含まれている前記複数の言葉の間のデータ構造が反映されるように、前記複数のトークンを並べるステップと、
を実施し、
前記複数のトークンは、範疇の属性を有する第１のタイプのトークン及び前記範疇の値に相当するデータ属性を有する第２のタイプのトークンのうちのどちらか一方のタイプを有し、
前記複数の言葉は、前記範疇の属性を有する第１のタイプに対応する第１のタイプの言葉及び前記データ属性を有する第２のタイプの言葉のうちの少なくとも一方のタイプを有し、
前記複数のトークンを並べるステップにおいては、
前記複数の言葉の意味及び前記複数の言葉のそれぞれに関する位置情報を用いて、前記複数のトークンを並べ、
前記第２のタイプに仕分けされた特定の第２のタイプの言葉が属する第１の範疇に対応する第１のタイプのトークンと、前記特定の第２のタイプの言葉に対応する第２のタイプのトークンとを順番に並べ、
前記特定の第２のタイプの言葉が複数である場合には、
複数の前記特定の第２のタイプの言葉のそれぞれに対応する複数の第２のタイプのトークンを順番に並べ、
順番に並べられた前記複数の第２のタイプのトークンの並べ順は、複数の前記特定の第２のタイプの言葉のそれぞれの意味及び前記対象ドキュメント上の位置情報に基づいて決められる、
ことを特徴とする、コンピュータープログラム。