JP7270013B2

JP7270013B2 - 情報処理方法、情報処理装置、電子機器及び記憶媒体

Info

Publication number: JP7270013B2
Application number: JP2021152157A
Authority: JP
Inventors: ニ，ジハン; ソン，イーペン; ヤオ，クン; ハン，ジュンユ; ディン，エルイ; リュウ，ジンツォ; ワン，ハイフェン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-29
Filing date: 2021-09-17
Publication date: 2023-05-09
Anticipated expiration: 2041-09-17
Also published as: EP3842960A2; JP2021193610A; EP3842960A3; US11908219B2; CN112052835A; KR20210125955A; US20210271870A1; CN112052835B

Description

本開示は、一般的に、コンピュータ技術分野及び情報処理技術分野に関し、特に、コンピュータビジョン、深層学習、自然言語処理などの人工知能分野に関する。

ドキュメント又は画像内の構造化情報に対する認識と抽出は、大量の紙ドキュメントの情報構造化を実現するための重要な技術の１つであり、行政、教育、金融、医療などの様々な業界と分野で幅広く適用されている。例えば、ドキュメント又は画像内の構造化情報の認識と抽出技術は、行政機関、教育機関、金融機関、医療機関などが業界プロセスの改善とビジネスシーンのスマートアップグレードを行うのに寄与し、仕事効率を向上させる。

本開示は、情報処理のための技術案を提案し、具体的には、情報処理方法、情報処理装置、電子機器及びコンピュータ読み取り可能な記憶媒体を提供する。

本開示の一態様によれば、情報処理方法を提供する。当該方法は、画像内の複数のテキストアイテムを認識するステップを含む。当該方法は、複数のテキストアイテムの意味に基づいて、複数のテキストアイテムを名称テキストアイテムの第１の集合とコンテンツテキストアイテムの第２の集合に分割するステップをさらに含む。当該方法は、画像における複数のテキストアイテムの配置に基づいて、第１の集合と第２の集合とのマッチングを実行して、第１の集合の名称テキストアイテムにマッチングする第２の集合のコンテンツテキストアイテムを決定するステップをさらに含む。当該方法は、さらに、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを出力するステップを含む。

本開示の別の態様によれば、情報処理装置を提供する。当該装置は、画像内の複数のテキストアイテムを認識するように構成される認識モジュールを含む。当該装置は、複数のテキストアイテムの意味に基づいて、複数のテキストアイテムを名称テキストアイテムの第１の集合とコンテンツテキストアイテムの第２の集合に分割するように構成される分割モジュールをさらに含む。当該装置は、画像における複数のテキストアイテムの配置に基づいて、第１の集合と第２の集合とのマッチングを実行して、第１の集合の名称テキストアイテムにマッチングする第２の集合のコンテンツテキストアイテムを決定するように構成されるマッチングモジュールをさらに含む。当該装置は、さらに、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを出力するように構成される出力モジュールを含む。

本開示の別の態様によれば、電子機器を提供する。当該電子機器は、プロセッサと、プロセッサに通信可能に接続されるメモリとを含む。メモリには、プロセッサによって実行可能な命令が記憶されており、命令は、プロセッサが第１の態様の方法を実行できるようにプロセッサによって実行される。

本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、コンピュータ命令は、コンピュータに第１の態様の方法を実行させるために用いられる。
本開示の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに第１の態様の方法を実行させる。

本開示の実施例は、画像内の構造化情報を認識・抽出するための方法又はシステムの性能を向上させることができる。

なお、この部分に記載されているコンテンツは、本開示の実施例の肝心なまたは重要な特徴を決定することを意図しておらず、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の明細書を通じて理解が容易になる。

本開示の実施例の上記及び他の目的、特徴と利点は、添付図面を参照して下記の詳細な説明を読むことにより、理解しやすくなる。添付図面では、制限的な方式ではなく、示例的な方式で本開示の幾つかの実施例を示した。したがって、添付図面は、本出願の技術案をより良く理解するためのものにすぎず、本出願を制限するものではないことを分かるべきである。
本開示の一部の実施例をその中で実施できる例示環境を示す模式図である。本開示の実施例による情報処理方法の例示プロセスを示すフローチャートである。本開示の実施例によるテキストアイテム検出モデル及び文字認識モデルに基づいて画像のテキストアイテムを認識するステップを示す模式図である。本開示の実施例によるテキストアイテム検出モデルによって検出されたテキストアイテム領域を示す模式図である。本開示の実施例による初期テキストアイテム検出モデルに対してインクリメンタル学習を実行することによりテキストアイテム検出モデルを構築するステップを示す模式図である。本開示の実施例による初期テキストアイテム検出モデルによって検出されたテキスト領域を示す模式図である。本開示の実施例による意味分類モデルに基づいてテキストアイテムを名称テキストアイテムの第１の集合とコンテンツテキストアイテムの第２の集合に分割するステップを示す模式図である。本開示の実施例による初期意味分類モデルに対してインクリメンタル学習を実行することにより意味分類モデルを構築するステップを示す模式図である。本開示の実施例による意味分類モデルの例示構造を示す。本開示の実施例による意味分類モデルの例示構造におけるエンコーダモジュールの例示構造を示す。本開示の実施例による名称テキストアイテムの第１の集合とコンテンツテキストアイテムの第２の集合とのマッチングを実行するための例示プロセスを示すフローチャートである。本開示の実施例による参照名称テキストアイテム及び参照コンテンツテキストアイテムの中心点の連結線と参照方向との間の夾角を示す模式図である。本開示の実施例によるマッチング対象の名称テキストアイテムと候補コンテンツテキストアイテムとの間の距離を決定するための例示プロセスを示すフローチャートである。本開示の実施例による２つのテキストアイテムに対応する２つの矩形領域に基づいて２つのテキストアイテム間の距離を決定するステップを示す模式図である。本開示の別の実施例による名称テキストアイテムとコンテンツテキストアイテムとの局所最近傍マッチングを実行し、かつ、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを出力するか、又はマッチングしない名称テキストアイテム及びコンテンツテキストアイテムを追加的に出力するための例示プロセスを示すフローチャートである。本開示の実施例による名称テキストアイテムとコンテンツテキストアイテムとのマッチング関係を指示するためのグラフィカル表現を示す模式図である。本開示の実施例による情報処理のための例示的な装置を示すブロック図である。本開示の実施例を実施できる例示的な電子機器を示すブロック図である。いずれの図面においても、同じ又は類似の参照番号は、同じ又は類似のコンポーネントを表すために用いられる。

以下、添付図面と参照しながら、本出願の例示的な実施例について説明したが、理解を容易にするために、本出願の実施例の様々な詳細が含まれており、それらは例示的なものにすぎないと考えるべきである。したがって、当業者であれば、本出願の範囲及び精神から逸脱することなく、本明細書で説明された実施例に対して種々な変更と修正を行うことができることを認識されたい。同様に、明確かつ簡単明瞭にするために、以下の説明では、公知の機能と構造についての説明を省略する。

上述したように、ドキュメント又は画像内の構造化情報（構造化データとも呼ばれる。）に対する認識と抽出は、大量の紙ドキュメントの情報構造化を実現するための重要な技術の１つである。しかし、従来の構造化情報の認識・抽出方法には、様々な欠陥と不足があるため、構造化情報の認識・抽出性能が悪くなる。例えば、テンプレートに基づく構造化情報抽出方法は、テンプレートマッチング方式を用いてドキュメント内の構造化情報を抽出する。一部の固定体裁のドキュメントにとって、キー値（ｋｅｙ－ｖａｌｕｅ）ペアの分布パタンは比較的固定的である。したがって、このようなテンプレートマッチング方法は、定義されたテンプレート上で良好な機能を果たすことができるが、それは、予め定義された体裁を有するドキュメントしか処理できず、他の体裁のドキュメントに直接拡張することができないため、汎化性に乏しい。また、テンプレートマッチング方法には、さらに、キー値データのタグ付けコストが高いという問題がある。

一方、通常のドキュメント構造化システムは、ターゲットの検出と分割に基づく方法によりドキュメントの解析を行うものが多い。このため、典型的なタグ付け情報には、文字検出枠、文字コンテンツ、キー値（ＫＶ）のマッチング関係が含まれる可能性があり、そのため、タグ付けコストがとても高くて汎化性に乏しい。機械学習の発展に伴い、ドキュメント情報の構造化は、単語の複数分類という問題になってきた。つまり、抽出する必要のある一部のタグを与え、ドキュメントにおける全ての単語を分類し、各々の単語があるタグに属するか否かを判断する。同様に、このような機械学習に基づく単語分類方法のタグ付けコストも高く、これは、各々の単語に対して複数分類とタグ付けを行う必要があるからである。また、当該方法に用いられるシンプルな分類器は、単語の意味情報を理解することができない恐れがあるので、トレーニングで利用されていない単語に対する汎化性に乏しい。

また、深層学習に基づく構造化情報抽出方法は、エンドツーエンドのネットワークモデルフレームワーク、即ち、画像と文字の埋め込み結果を一緒に畳み込みニューラルネットワーク又はグラフネットワークに送り込んでエンドツーエンドのトレーニングを行うことを採用するのが多い。しかし、このような深層学習に基づくエンドツーエンドフレームワークのデータのタグ付けコストも非常に高く、文字の位置、テキスト情報だけでなく、キーと値の関係にもタグ付けする必要がある。また、深層学習に基づくアルゴリズムは、いずれもデータ駆動型であるため、データの取得が難しいことにより、深層学習に基づくモデルの汎化能力を高めることが難しくなる。

従来の方案における上記問題及び他の潜在的な問題に鑑み、本開示の実施例は、画像から構造化情報を段階的に抽出する技術案を提案する。本開示の技術案において、コンピューティング機器は、まず、画像内の複数のテキストアイテムを認識することができる。続いて、コンピューティング機器は、認識された複数のテキストアイテムを第１の集合と第２の集合に分割することができ、ここで、第１の集合は、名称テキストアイテム（例えば、キー値ペアのうちのキー）を含み、第２の集合は、コンテンツテキストアイテム（例えば、キー値ペアのうちの値）を含む。次に、コンピューティング機器は、第１の集合と第２の集合とのマッチングを実行して、名称テキストアイテムにマッチングするコンテンツテキストアイテムを決定することができる。その後、コンピューティング機器は、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを出力することにより、画像内の構造化情報の抽出を実現することができる。

これから分かるように、従来の方案とは異なり、本開示の技術案によって提案される構造化情報抽出プロセスは、複数の段階に分けられることができるため、抽出プロセス全体が固定テンプレートに依存せず、過剰なデータにタグ付けする必要もなく、それにより、汎化可能性を向上させるとともに、データのタグ付けコストを削減した。また、各々の段階を単独で最適化することができ、かつ、各段階を最適化するためのデータは、エンドツーエンドモデルに用いられるデータよりも取得しやすいため、抽出プロセス全体の性能を向上させることがより容易になる。

一方、段階的な構造化情報抽出プロセスに対応して、本開示の技術案によって提案される構造化情報抽出システムは、複数のモジュールに分解されることができ、それにより、各モジュールを別々にトレーニングすることができるため、トレーニング用データの取得の難しさが低下した。例えば、各モジュールは、まず、汎用のデータを用いてトレーニングしてから、インクリメンタル学習に基づいて、少量の本開示の適用シーンについてのデータを用いてモジュールの微調整を行うことができるため、各モジュールをトレーニングするためのデータをより容易に取得し、さらに、トレーニング後の各モジュールの正確率を向上させることができる。要するに、本開示の実施例は、画像内の構造化情報を抽出するための方法又はシステムの性能を向上させることができる。

図１は、本開示の一部の実施例をその中で実施できる例示環境１００を示す模式図である。図１に示すように、例示環境１００は、画像１１０と、コンピューティング機器１２０とを含み得る。一部の実施例において、画像１１０は、紙ドキュメント又はファイルの写真又は電子データ（スキャン）などの、テキスト情報を提示又は記録したいずれの画像であってもよい。他の実施例において、画像１１０は、紙ドキュメントと関係のない、電子形式で生成されて使用されるテキスト情報付きのいずれの画像であってもよい。より一般的に、画像１１０は、情報がテキスト形式で記載されたいずれのドキュメント又はファイルであってもよい。図１の例示において、画像１１０は、テキストアイテム１１５－１～１１５－１８を含んでもよく、即ち、画像１１０には、情報がテキストアイテム１１５－１～１１５－１８の形式で提示又は記録されている。本明細書で使用されるように、テキストアイテムとは、情報を記録する意味で個別に考慮することが可能なテキスト単位を言う。つまり、単一のテキストアイテムは、理解可能な情報を独立で表現するか、又は示すことができる。例えば、テキストアイテムは、情報をキャリアするための単一の文字、単語、フレーズ、語句や段落などであり得る。本開示の文脈において、説明の便宜上、テキストアイテムは、文字行、文字セグメント、フィールドなどと呼ばれる場合もあり、これらの用語は、本明細書では交換して使用できる。

なお、図１に描いたテキストアイテム１１５－１～１１５－１８を囲んだ点線枠は、単に模式的なものにすぎず、テキストアイテム１１５－１～１１５－１８の画像１１０内の概略位置及び範囲を示すためのものであり、これらの点線枠が画像１１０に実際に存在するわけではない。また、図１に描いた画像１１０の特定の大きさ及び形状、画像１１０内のテキストアイテム１１５－１～１１５－１８の特定の数、特定の大きさ、特定の延伸方向、特定の位置及び特定の配置は、単に例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しない。他の実施例において、画像１１０は、任意の適宜な大きさ及び形状を有してもよく、画像１１０は、任意の適宜な数のテキストアイテムを有してもよく、テキストアイテムは、任意の適宜な大きさ、任意の適宜な延伸方向、任意の適宜な位置及び任意の適宜な配置などを有してもよい。また、本開示の文脈において、中国語を例示としてテキストアイテム１１５－１～１１５－１８のコンテンツを説明したが、中国語のコンテンツは、単に例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しない。本開示の実施例は、いずれの言語の文字又は記号にも同じく適用される。

画像１１０内のテキストアイテム１１５－１～１１５－１８の理解をより容易にするため、ここでは、画像１１０が「餐飲服務許可証（ケータリングサービスライセンス）」の写真であるという具体的な一例示について説明する。当該具体的な例示において、テキストアイテム１１５－１は「餐飲服務許可証」、テキストアイテム１１５－２は「粤餐証字ｘｘｘｘ号」、テキストアイテム１１５－３は「会社名」、テキストアイテム１１５－４は「ＸＸ餐飲管理有限会社」、テキストアイテム１１５－５は「法定代表者（担当者）」、テキストアイテム１１５－６は「張三（法定代表者）」、テキストアイテム１１５－７は「住所」、テキストアイテム１１５－８は「ＸＸ省ＸＸ市ＸＸ路ＸＸ号」、テキストアイテム１１５－９は「カテゴリ」、テキストアイテム１１５－１０は「ファーストフード店」、テキストアイテム１１５－１１は「備考」、テキストアイテム１１５－１２は「ファーストフードの製販（全部、半製品を用いて加工する。含まれていないもの：和え物、生のシーフード、飾られたケーキ）」、テキストアイテム１１５－１３は「有効期間」、テキストアイテム１１５－１４は「ＸＸ年ＸＸ月ＸＸ日～ＸＸ年ＸＸ月ＸＸ日」、テキストアイテム１１５－１５は「有効期間満了後１０日以内に認証発行部門に更新を書面申請してください」、テキストアイテム１１５－１６は「認証発行機関」、テキストアイテム１１５－１７は「ＸＸ市場監督管理局ＸＸ支部」、かつ、テキストアイテム１１５－１８は「ＸＸ年ＸＸ月ＸＸ日」であってもよい。なお、ここに列挙されたテキストアイテム１１５－１～１１５－１８の具体的な文字情報は、模式的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図するものではない。本開示の実施例は、任意の文字情報を記載するためのテキストアイテムに適用されることができる。

示したように、画像１１０のテキストアイテム１１５－１～１１５－１８を使用して記載した情報に対して構造化認識と抽出を行うために、画像１１０をコンピューティング機器１２０に入力してもよい。コンピューティング機器１２０は、まず、画像１１０に記録されているテキストアイテム１１５－１～１１５－１８を認識することができる。次に、コンピューティング機器１２０は、テキストアイテム１１５－１～１１５－１８を名称テキストアイテムの第１の集合１１７及びコンテンツテキストアイテムの第２の集合１１９に分類することができる。つまり、第１の集合１１７は、名称テキストアイテムからなるテキストアイテム集合であり、第２の集合１１９は、コンテンツテキストアイテムからなる集合である。本明細書で使用されるように、名称テキストアイテムとは、情報の名称又は名目を表すテキストアイテムを意味し、即ち、名称テキストアイテムは、ある情報の名称又は総称と見なすことができる。一部の実施例において、名称テキストアイテムは、キー値ペアの意味でのキー（ｋｅｙ）に対応することができる。他の実施例において、名称テキストアイテムの意味は、コンピューティング機器１２０のユーザ又は管理者によって定義又は設定されてもよく、続いて、ユーザ又は管理者は、カスタマイズされた意味にしたがって名称テキストアイテムの第１の集合１１７を決定するように、コンピューティング機器１２０を構成することができる。

一方、本明細書で使用されるように、コンテンツテキストアイテムは、情報のコンテンツ又はエンティティを表すテキストアイテムを指すものであってもよく、つまり、コンテンツテキストアイテムは、ある情報のコンテンツ又は中身であると考えられてもよい。一部の実施例において、コンテンツテキストアイテムは、キー値ペアの意味での値（ｖａｌｕｅ）に対応することができる。他の実施例において、コンテンツテキストアイテムの意味は、コンピューティング機器１２０のユーザ又は管理者によって定義又は設定されてもよく、続いて、ユーザ又は管理者は、カスタマイズされた意味によってコンテンツテキストアイテムの第２の集合１１９を決定するように、コンピューティング機器１２０を構成することができる。より一般的に、本開示の実施例における「名称テキストアイテム」は、情報の名称を示すことに限らず、情報を表す意味で他の「コンテンツテキストアイテム」とペアになり得るテキストアイテムを指し得る。同様に、「コンテンツテキストアイテム」は、情報のコンテンツを示すことに限らず、情報を表現する意味で他の「名称テキストアイテム」とペアになり得るテキストアイテムを指し得る。

例えば、画像１１０が「餐飲服務許可証」の写真である上述の具体的な例示について、コンピューティング機器１２０は、テキストアイテム１１５－１、１１５－３、１１５－５、１１５－７、１１５－９、１１５－１１、１１５－１３及び１１５－１６が名称テキストアイテムであると決定することができるため、第１の集合１１７は、これらの名称テキストアイテムを含み得る。また、コンピューティング機器１２０は、テキストアイテム１１５－２、１１５－４、１１５－６、１１５－８、１１５－１０、１１５－１２、１１５－１４、１１５－１５、１１５－１７及び１１５－１８がコンテンツテキストアイテムであると決定することができるため、第２の集合１１９は、これらのコンテンツテキストアイテムを含み得る。

テキストアイテム１１５－１～１１５－１８を第１の集合１１７及び第２の集合１１９に分類した後、コンピューティング機器１２０は、第１の集合１１７と第２の集合１１９とのマッチング１２５を実行することにより、マッチングする名称テキストアイテム及びコンテンツテキストアイテム１３０を決定することができる。続いて、コンピューティング機器１２０は、マッチングする名称テキストアイテム及びコンテンツテキストアイテム１３０を出力することにより、画像１１０の構造化情報に対する認識と抽出を実現することができる。例えば、一部の実施例において、コンピューティング機器１２０は、第１の集合１１７及び第２の集合１１９内の全てのマッチングする名称テキストアイテム及びコンテンツテキストアイテムを決定して出力することができる。無論、他の実施例において、例えばコンピューティング機器１２０は、ユーザ又は管理者の設定に応じて、又は、特定の適用シーンにおいて、画像１１０内の全てのマッチングする名称テキストアイテムとコンテンツテキストアイテムの部分集合を認識して出力することもでき、例えば、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを１ペア又は所定数のペアだけ出力する。

したがって、本開示の実施例におけるコンピューティング機器１２０は、体裁を汎化することが可能な構造化情報のスマート認識・抽出システムと見なされ得る。コンピューティング機器１２０は、入力されたいずれか１つの画像（例えば、画像１１０）に対して、画像処理又は情報処理を段階的に行った後、画像１１０内の全てのペアになった名称テキストアイテムとコンテンツテキストアイテム、又はその部分集合を出力することができる。無論、画像１１０に構造化情報が記録されていない場合、コンピューティング機器１２０は、マッチングする名称テキストアイテム及びコンテンツテキストアイテムが画像１１０に存在しないと決定することができ、かつ、出力操作を実行しないか、又はマッチングする名称テキストアイテム及びコンテンツテキストアイテムが存在しないことを表すための指示を出力する。さらに、コンピューティング機器１２０は、画像１１０に対してスマート処理を行って、自然言語に関する処理結果を出力するため、コンピューティング機器１２０によってコンピュータビジョンと自然言語処理などの人工知能技術が実現されると考えることもできる。

一部の実施例において、コンピューティング機器１２０は、コンピューティング機能及び／又は制御機能を実現可能な任意の機器を含んでもよく、それは、いずれのタイプの固定コンピューティング機器、モバイルコンピューティング機器又はポータブルコンピューティング機器であってもよく、専用コンピュータ、汎用コンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートパソコン、ネットブックコンピュータ、タブレットコンピュータ、マルチメディアコンピュータ、携帯電話、汎用プロセッサ、マイクロプロセッサ、マイクロコントローラ、又はステートマシンを含むが、これらに限定されない。コンピューティング機器１２０は、個別のコンピューティング機器、又はコンピューティング機器の組み合わせ、例えば、デジタルシグナルプロセッサ（ＤＳＰ）とマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、１つ以上のマイクロプロセッサとＤＳＰコアとの組み合わせ、又はいずれの他のこのような構成として実施され得る。

さらに、図１は、本開示の実施例に関連するオブジェクト、ユニット、要素又はコンポーネントを模式的に示すのにすぎないことを理解されたい。実践において、例示環境１００は、他のオブジェクト、ユニット、要素やコンポーネントなどをさらに含み得る。また、図１に示すオブジェクト、ユニット、要素又はコンポーネントの特定の数は、模式的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しない。他の実施例において、例示環境１００は、オブジェクト、ユニット、要素やコンポーネントなどを任意の適宜な数含むことができる。したがって、本開示の実施例は、図１で描かれた具体的なシーンに限らず、構造化情報を認識・抽出するためのいずれの技術環境にも一般的に適用される。以下、図２を参照しながら、本開示の実施例の構造化情報を認識・抽出するための例示プロセスについて説明する。

図２は、本開示の実施例による情報処理方法の例示プロセス２００を示すフローチャートである。一部の実施例において、例示プロセス２００は、例示環境１００におけるコンピューティング機器１２０によって実施されてよく、例えばコンピューティング機器１２０のプロセッサ又は処理ユニットによって実施されるか、又はコンピューティング機器１２０の様々な機能モジュールによって実施されてもよい。他の実施例において、例示プロセス２００は、例示環境１００から独立したコンピューティング機器によって実施されてもよく、又は、例示環境１００における他のユニット又はモジュールによって実現されてもよい。説明の便宜上、図１を参照して例示プロセス２００を説明する。

枠２１０において、コンピューティング機器１２０は、画像１１０内の複数のテキストアイテム１１５－１～１１５－１８を認識することができる。言い換えれば、コンピューティング機器１２０は、画像１１０にテキストアイテム１１５－１～１１５－１８があることを検出することができるだけでなく、テキストアイテム１１５－１～１１５－１８内の各テキストアイテムがどのような文字又は記号からなっているかを識別することもできる。なお、コンピューティング機器１２０は、様々な異なる方式を用いて画像１１０内のテキストアイテム１１５－１～１１５－１８を認識することができる。例えば、コンピューティング機器１２０は、光学式文字認識（ＯＣＲ）技術を使用して画像１１０内のテキストアイテム１１５－１～１１５－１８を認識することができる。また、例えば、コンピューティング機器１２０は、トレーニングされたエンドツーエンドの、畳み込みニューラルネットワークに基づく文字認識モデルを使用して、画像１１０内のテキストアイテム１１５－１～１１５－１８を認識することができる。他の実施例において、コンピューティング機器１２０は、まず、テキストアイテム１１５－１～１１５－１８の画像１１０において対応するテキストアイテム領域を検出し、続いて、これらのテキストアイテム領域からテキストアイテム１１５－１～１１５－１８をそれぞれ認識することができる。以下、図３から図６を参照しながら、このような実施例について説明する。

枠２２０において、コンピューティング機器１２０は、テキストアイテム１１５－１～１１５－１８の意味に基づいて、テキストアイテム１１５－１～１１５－１８を名称テキストアイテムの第１の集合１１７とコンテンツテキストアイテムの第２の集合１１９に分割することができる。なお、コンピューティング機器１２０は、いずれの適宜な方式を使用してテキストアイテム１１５－１～１１５－１８の意味に基づいて第１の集合１１７と第２の集合１１９に分割することができることは分かるべきである。１つの例示的な方式として、コンピューティング機器１２０は、あるテキストアイテムのキーワードを認識することにより、当該テキストアイテムの意味を決定してから、当該テキストアイテムの意味に基づいて、当該テキストアイテムが名称テキストアイテムに属するか、又はコンテンツテキストアイテムに属するかを決定することができる。例えば、画像１１０が「餐飲服務許可証」の写真であるという具体的な例示において、コンピューティング機器１２０は、テキストアイテム１１５－３の「会社名」に「会社」及び／又は「名称」というキーワードが含まれていることを認識することができ、それにより、当該テキストアイテムの意味とはエンティティタイプである「会社」又はエンティティ名称を指し、情報の名目に属し、さらに、テキストアイテム１１５－３が名称テキストアイテムであると決定する。また、例えば、コンピューティング機器１２０は、テキストアイテム１１５－４の「ＸＸ餐飲管理有限会社」に「会社」というキーワードが含まれていることを認識することができ、それにより、当該テキストアイテムの意味は、ある会社の具体的な名称であり、情報のコンテンツに属し、さらに、テキストアイテム１１５－４がコンテンツテキストアイテムであると決定する。

別の例示的な方式として、コンピューティング機器１２０は、名称テキストアイテムのリスト及びコンテンツテキストアイテムのリストを記憶したり又はそれにアクセスしたりすることができ、この２つのリストは、テキストアイテムの意味によって予め決定されて記録されたものであってもよい。この場合、コンピューティング機器１２０は、テキストアイテム１１５－１～１１５－１８における各テキストアイテムについて、テキストアイテムをこの２つのリストに照会することができ、さらに、テキストアイテムが名称テキストアイテムであるか、又はコンテンツテキストアイテムであるかを決定することができる。例えば、画像１１０が「餐飲服務許可証」の写真であるという具体的な例示において、コンピューティング機器１２０が名称テキストアイテムのリストからテキストアイテム１１５－１を照会した場合、コンピューティング機器１２０は、テキストアイテム１１５－１が名称テキストアイテムであると決定することができる。また、例えば、コンピューティング機器１２０がコンテンツテキストアイテムのリストからテキストアイテム１１５－２を照会した場合、コンピューティング機器１２０は、テキストアイテム１１５－２がコンテンツテキストアイテムであると決定することができる。コンピューティング機器１２０は、２つのリストの両方からも照会されなかったテキストアイテムに対して、テキストアイテムの意味に応じてそれが名称テキストアイテムであるか、又はコンテンツテキストアイテムであるかを決定してから、それを対応するリストに追加することができる。

他の実施例において、コンピューティング機器１２０は、トレーニングされた、機械学習に基づく意味分類モデルを使用して、名称テキストアイテムの第１の集合１１７及びコンテンツテキストアイテムの第２の集合１１９を決定することができる。例えば、コンピューティング機器１２０に、トレーニングされた意味分類モデルを実施することができ、かつ、テキストアイテム１１５－１～１１５－１８をそれぞれ意味分類モデルに入力することができ、それにより、意味分類モデルは、各テキストアイテムが名称テキストアイテムであるか、又はコンテンツテキストアイテムであるかを判断して、対応する分類結果を出力することができる。以下、図７から図１０を参照しながら、このような実施例について説明する。

枠２３０において、コンピューティング機器１２０は、テキストアイテム１１５－１～１１５－１８の画像１１０の配置に基づいて、第１の集合１１７の名称テキストアイテムにマッチングする第２の集合１１９のコンテンツテキストアイテムを決定するために、第１の集合１１７と第２の集合１１９とのマッチングを実行することができる。本明細書で使用されるように、名称テキストアイテムとコンテンツテキストアイテムとの「マッチング」とは、名称テキストアイテム及びコンテンツテキストアイテムを関連付けて提供し、かつ、より完全な情報を共同で提供することができるということを言う。例えば、名称テキストアイテムがキー値ペアのうちのキーである場合、それにマッチングするコンテンツテキストアイテムは、キー値ペアのうちの値であってもよい。より一般的に、本明細書で使用されるように、マッチングする名称テキストアイテム及びコンテンツテキストアイテムは、それらが共同で提供され又は表示されるように、いずれの形式で関連付けられたか又は互いに対応する名称テキストアイテム及びコンテンツテキストアイテムを指し得る。

したがって、画像１１０が「餐飲服務許可証」の写真であるといいう具体的な例示において、名称テキストアイテム１１５－３とコンテンツテキストアイテム１１５－４とがマッチングすると考えることができ、名称テキストアイテム１１５－５とコンテンツテキストアイテム１１５－６とがマッチングすると考えることができ、名称テキストアイテム１１５－７とコンテンツテキストアイテム１１５－８とがマッチングすると考えることができ、名称テキストアイテム１１５－９とコンテンツテキストアイテム１１５－１０とがマッチングすると考えることができ、名称テキストアイテム１１５－１１とコンテンツテキストアイテム１１５－１２とがマッチングすると考えることができ、名称テキストアイテム１１５－１３とコンテンツテキストアイテム１１５－１４とがマッチングすると考えることができ、かつ、名称テキストアイテム１１５－１６とコンテンツテキストアイテム１１５－１７とがマッチングすると考えることができる。しかし、本開示の実施例において、コンピューティング機器１２０は、名称テキストアイテムとコンテンツテキストアイテムとの間の意味関係に基づいて、両方間のマッチング関係を決定することではないことを指摘すべきである。その代りに、コンピューティング機器１２０は、名称テキストアイテム及びコンテンツテキストアイテムの画像１１０における配置、即ち、各テキストアイテムの位置、全体的な配列、及びテキストアイテム間の位置関係などに基づいて、名称テキストアイテムとコンテンツテキストアイテムとの間のマッチング関係を決定する。

具体的に、コンピューティング機器１２０は、様々な異なる方式で、画像における各テキストアイテムの配置に応じて、名称テキストアイテムとコンテンツテキストアイテムとのマッチングを実行することができる。例えば、画像１１０において、ある名称テキストアイテムにマッチングするコンテンツテキストアイテムは、一般的に、当該名称テキストアイテムに最も近いコンテンツテキストアイテムである。したがって、一部の実施例において、第１の集合１１７における各々の名称テキストアイテムについて、コンピューティング機器１２０は、当該名称テキストアイテムに最も近いコンテンツテキストアイテムを、当該名称テキストアイテムにマッチングするコンテンツテキストアイテムとして決定することができる。無論、同様な方式で、コンピューティング機器１２０は、第２の集合１１９における各々のコンテンツテキストアイテムについても、当該コンテンツテキストアイテムに最も近い名称テキストアイテムを、当該コンテンツテキストアイテムにマッチングする名称テキストアイテムとして決定することができる。

追加的に又は代替的に、画像１１０において、ある名称テキストアイテムにマッチングするコンテンツテキストアイテムは、通常、当該名称テキストアイテムと同じ水平方向におけるコンテンツテキストアイテムである。したがって、一部の実施例において、コンピューティング機器１２０は、第１の集合１１７における各々の名称テキストアイテムについて、当該名称テキストアイテムと同じ水平方向におけるコンテンツテキストアイテムを、当該名称テキストアイテムにマッチングするコンテンツテキストアイテムとして決定することができる。無論、同様な方式で、コンピューティング機器１２０は、第２の集合１１９における各々のコンテンツテキストアイテムについても、当該コンテンツテキストアイテムと同じ水平方向における名称テキストアイテムを、当該コンテンツテキストアイテムにマッチングする名称テキストアイテムとして決定することができる。なお、他の実施例において、画像１１０における情報配列方式は、左右配列ではなく、即ち、マッチングする名称テキストアイテム及びコンテンツテキストアイテムの画像１１０における位置は左右配列の関係ではなく、例えば、上下配列の関係などである可能性もある。この場合、マッチングする名称テキストアイテムとコンテンツテキストアイテムとの位置関係は、同じ水平方向にあるとは限らず、画像１１０の情報配列方式に基づいて具体的に決定されてもよい。

他の実施例において、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを決定するコンピューティング機器１２０の正確率を向上させるために、コンピューティング機器１２０は、名称テキストアイテムとコンテンツテキストアイテムとのマッチング条件を予め設定することができる。一部の実施例において、コンピューティング機器１２０が、マッチングしない名称テキストアイテム及びコンテンツテキストアイテムを、マッチングすると決定する可能性を低減するために、マッチング条件を、経験、画像１１０における情報配列方式、及び／又はマッチングする名称テキストアイテムとコンテンツテキストアイテムの位置関係に基づいて決定することができる。したがって、２つの名称テキストアイテム及びコンテンツテキストアイテムが所定のマッチング条件に合致しない場合、コンピューティング機器１２０は、この２つのテキストアイテムがマッチングしないと決定することができ、それにより、名称テキストアイテムとコンテンツテキストアイテムとを誤マッチングすることを回避する。以下、図１１から図１５を参照しながら、このような実施例について説明する。

枠２４０において、コンピューティング機器１２０は、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを出力することができる。例えば、コンピューティング機器１２０は、マッチングする名称テキストアイテム及びコンテンツテキストアイテムをペアにして出力することができ、それにより名称テキストアイテムとコンテンツテキストアイテムとのマッチング関係を表すことができる。一部の実施例において、コンピューティング機器１２０は、テキストの形式を用いてマッチングする名称テキストアイテム及びコンテンツテキストアイテムを出力することができる。例えば、画像１１０が「餐飲服務許可証」の写真であるという具体的な例示において、コンピューティング機器１２０は、下記の書式にしたがってマッチングする名称テキストアイテム及びコンテンツテキストアイテムをペアにして出力することができる。名称テキストアイテム１１５－３：コンテンツテキストアイテム１１５－４、即ち、会社名：ＸＸ餐飲管理有限会社、名称テキストアイテム１１５－５：コンテンツテキストアイテム１１５－６、即ち、法定代表者（担当者）：張三（法定代表者）、・・・、名称テキストアイテム１１５－１６：コンテンツテキストアイテム１１５－１７、即ち、認証発行機関：ＸＸ市場監督管理局ＸＸ支部などである。選択的に、マッチングする名称テキストアイテムとコンテンツテキストアイテムの出力形式は、｛名称テキストアイテム１１５－３、コンテンツテキストアイテム１１５－４｝、即ち｛会社名、ＸＸ餐飲管理有限会社｝、｛名称テキストアイテム１１５－５、コンテンツテキストアイテム１１５－６｝、即ち｛法定代表者（担当者）、張三（法定代表者）｝、・・・、｛名称テキストアイテム１１５－１６、コンテンツテキストアイテム１１５－１７｝、即ち｛認証発行機関、ＸＸ市場監督管理局ＸＸ支部｝など出会ってもよい。他の実施例において、コンピューティング機器１２０は、グラフィカル表現の形式で、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを出力することもできる。以下、図１６を参照しながら、このような実施例について説明する。

これから分かるように、本開示の実施例による例示プロセス２００は、汎用画像（又はドキュメント）の段階的な情報構造化方法を提案しているので、構造化情報抽出プロセス全体が固定のテンプレートに依存せず、過剰なデータにタグ付けする必要もなく、それにより、汎化可能性を向上させるとともに、データのタグ付けコストを削減した。また、各々の段階は単独で最適化することが可能であり、各段階を最適化するためのデータは、エンドツーエンドモデルに用いられるデータよりも取得することがより容易であるため、構造化情報抽出プロセス全体の性能を向上させることがより容易になる。

一方、例示プロセス２００を実行するためのコンピューティング機器１２０は、複数のモジュールが例示プロセス２００の複数の段階をそれぞれ実施することを実現でき、かつ、各モジュールを別々にトレーニングすることができる。具体的には、後でさらに詳述されるように、各段階のモジュールは、いずれも汎用データを用いてトレーニングしてから、インクリメンタル学習に基づいて少量のシーンデータを用いてモジュールの微調整を行うことができる。この方式で、各段階のモジュールをトレーニングするためのデータをより容易に取得し、より多くのトレーニング用データにより、各モジュールの正確率を著しく向上させるとともに、良い汎化能力を実現することができ、エンドツーエンドモデルのトレーニング用データの取得コストが高く、トレーニング収束が難しく、汎化性に乏しいというコールドブートの問題を回避する。

前文の図２の枠２１０を説明した際に言及したように、一部の実施例において、コンピューティング機器１２０は、まず、テキストアイテム１１５－１～１１５－１８の画像１１０内の対応するテキストアイテム領域を検出し、続いて対応するテキストアイテム領域からテキストアイテム１１５－１～１１５－１８をそれぞれ認識することができる。より具体的には、コンピューティング機器１２０は、機械学習（例えば、深層学習）に基づくテキストアイテム検出モデルを使用して、画像１１０内でテキストアイテム１１５－１～１１５－１８が位置する各テキストアイテム領域を検出することができる。そして、コンピューティング機器１２０は、機械学習（例えば、深層学習）に基づく文字認識モデルを使用して、テキストアイテム領域内のテキストアイテム１１５－１～１１５－１８を認識することができる。この方式で、画像１１０内のテキストアイテム１１５－１～１１５－１８に対する認識を、２つの異なる段階に分けることができ、各段階は、それぞれ異なる機能に着目することが可能になるため、特殊用途の機能を有する機械学習モデルを利用してそれぞれ実行することができ、それにより、テキストアイテム１１５－１～１１５－１８の検出正確性を向上させることができる。以下、図３から図６を参照しながら、このような実施例について説明する。

図３は、本開示の実施例によるテキストアイテム検出モデル３１０及び文字認識モデル３２０に基づいて画像１１０内のテキストアイテム１１５－１～１１５－１８を認識することを示す模式図である。図３に示すように、画像１１０のテキストアイテム１１５－１～１１５－１８を認識するために、コンピューティング機器１２０にテキストアイテム検出モデル３１０及び文字認識モデル３２０を実施することができる。テキストアイテム検出モデル３１０は、画像１１０の複数のテキストアイテム領域３１５、即ち、テキストアイテム１１５－１～１１５－１８の画像１１０において対応する画像領域を検出するために用いられてもよい。一部の実施例において、検出するターゲット単位がテキストアイテム（フィールド又は文字行とも呼ばれる。）であるため、テキストアイテム検出モデル３１０は、フィールドレベルの文字行検出器と呼ばれてもよく、それはフィールドレベルの文字行検出を実行することができる。一方、文字認識モデル３２０は、複数のテキストアイテム領域３１５に含まれている文字、即ち、テキストアイテム１１５－１～１１５－１８のそれぞれにどのような文字が含まれているかを認識するために用いられてもよい。

したがって、図３の例において、画像１１０がコンピューティング機器１２０に入力されると、コンピューティング機器１２０は、まず、テキストアイテム検出モデル３１０に基づいて、画像１１０から複数のテキストアイテム領域３１５を検出することができる。続いて、コンピューティング機器１２０は、文字認識モデル３２０に基づいて、複数のテキストアイテム領域３１５からテキストアイテム１１５－１～１１５－１８をそれぞれ認識することができる。具体的には、コンピューティング機器１２０は、テキストアイテム１１５－１～１１５－１８が位置している複数のテキストアイテム領域３１５を文字認識モデル３２０に送り込んで文字認識を行うことにより、画像１１０における全てのテキストアイテム情報を得る。一部の実施例において、文字認識の正確性を向上させるために、コンピューティング機器１２０は、テキストアイテム検出モデル３１０によって取得された画像１１０における複数のテキストアイテム領域３１５を適宜に外へ拡張し、例えば、幅を０．１５倍、又は高さを０．１５倍に拡張することができる。続いて、コンピューティング機器１２０は、文字認識を実行するように、全ての拡張された画像領域を文字認識モデル３２０に送り込むことができる。

一部の実施例において、テキストアイテム検出モデル３１０及び文字認識モデル３２０は、機械学習（例えば、深層学習）に基づくニューラルネットワークモデルであってもよい。例えば、テキストアイテム検出モデル３１０は、残余ネットワークＲｅｓｎｅｔ－５０の高効率かつ正確なシーンテキスト（ＥｆｆｉｃｉｅｎｔａｎｄＡｃｃｕｒａｃｙＳｃｅｎｅＴｅｘｔ、ＥＡＳＴ）文字検出ネットワークに基づいて実現されるものであってもよい。また、例えば、文字認識モデル３２０は、残余ネットワークＲｅｓｎｅｔ～１０１を基にするコネクショニスト時間分類（Ｃｏｎｎｅｃｔｉｏｎｉｓｔｔｅｍｐｏｒａｌｃｌａｓｓｉｆｉｃａｔｉｏｎ、ＣＴＣ）文字認識モデルであってもよい。他の実施例において、テキストアイテム検出モデル３１０及び文字認識モデル３２０は、適宜な他の深層学習モデルであってもよい。別の実施例において、テキストアイテム検出モデル３１０及び文字認識モデル３２０は、非機械学習モデルを用いて実現することができる。

図４は、本開示の実施例によるテキストアイテム検出モデル３１０によって検出されたテキストアイテム領域３１５－１～３１５－１８を示す模式図である。図４に示すように、図１に描いた画像１１０について、テキストアイテム検出モデル３１０は、画像１１０にテキストアイテム１１５－１～１１５－１８があることを検出し、かつ、画像１１０に矩形枠の形でテキストアイテム１１５－１～１１５－１８が位置しているテキストアイテム領域３１５－１～３１５－１８をマークすることができる。例えば、テキストアイテム検出モデル３１０は、テキストアイテム１１５－１を含むテキストアイテム領域３１５－１、テキストアイテム１１５－２を含むテキストアイテム領域３１５－２、・・・、及びテキストアイテム１１５－１８を含むテキストアイテム領域３１５－１８をマークすることができる。なお、図４においてテキストアイテム領域３１５－１～３１５－１８を矩形枠として描くことは例示にすぎず、いずれの方式で本開示の範囲を制限することを意図しない。他の実施例において、テキストアイテム領域３１５－１～３１５－１８は、いずれの適宜な形状を有するか、又はテキストアイテム領域３１５－１～３１５－１８のうちの１つ以上のテキストアイテム領域は、他のテキストアイテム領域と異なる形状を有することができる。

一部の実施例において、テキストアイテム検出モデル３１０は、テキストアイテム領域３１５－１～３１５－１８をマークする以外、テキストアイテム領域３１５－１～３１５－１８内の各テキストアイテム領域の画像１１０での位置座標を提供することもできる。例えば、一部の実施例において、コンピューティング機器１２０は、テキストアイテム領域３１５－１～３１５－１８の位置座標を利用して後続の名称テキストアイテムとコンテンツテキストアイテムとのマッチングを実行することができる。一例示として、テキストアイテム領域３１５－１～３１５－１８が矩形枠である場合、テキストアイテム検出モデル３１０は、テキストアイテム領域３１５－１～３１５－１８の４つの角点の座標を提供すること、又は１つの角点の座標及び矩形枠の幅と高さを提供することなどができる。無論、テキストアイテム領域３１５－１～３１５－１８が他の形状である場合、テキストアイテム検出モデル３１０は、これらの形状に適する他の適宜な方式にしたがって、テキストアイテム領域３１５－１～３１５－１８の位置座標を提供することができる。

一部の実施例において、テキストアイテム検出モデル３１０は、構造化情報抽出の技術シーンについて特別に設計とトレーニングしたモデルであってもよいが、このような専用モデルのトレーニング用データは、取得し難い恐れがあり、それは、構造化情報を抽出するシーンデータを取得するコストが高い、即ち、構造化データの取得が難しいという問題があるからである。したがって、他の実施例において、シーンデータを取得するコストが高いという問題を回避するため、かつ、改めて新しいモデルをトレーニングすることが、既存のモデルに基づいて調整することよりも費用がかかるということを考慮すると、本開示の実施例は、インクリメンタル学習の方式で既存の汎用モデルを最適化することにより、テキストアイテム検出モデル３１０を実施することができる。例えば、テキストアイテム検出モデル３１０を実施するプロセスにおいて、コンピューティング機器１２０は、まず、汎用データに基づいてトレーニングした汎用モデルを取得してから、少量のシーンデータを使用して汎用モデルに対してインクリメンタル学習を行うことにより、インクリメンタル学習後の汎用モデル（即ち、テキストアイテム検出モデル３１０）が、改めてトレーニングされた新しいモデルより良い性能と低いコストを有することができる。以下、図５及び図６を参照しながら、このような実施例について説明する。

図５は、本開示の実施例による初期テキストアイテム検出モデル５１０に対してインクリメンタル学習５３５を実行することによりテキストアイテム検出モデル３１０を構築することを示す模式図である。図５に示すように、テキストアイテム検出モデル３１０は、専用データ５１５に基づいて初期テキストアイテム検出モデル５１０に対してインクリメンタル学習５３５を実行することによって構築され得る。例えば、コンピューティング機器１２０は、モデル供給側から初期テキストアイテム検出モデル５１０を取得し、続いて専用データ５１５を使用して初期テキストアイテム検出モデル５１０に対してインクリメンタル学習５３５を実行することにより、テキストアイテム検出モデル３１０を生成することができる。本明細書で使用されるように、「専用データ」とは、構造化情報の認識・抽出技術シーンについてのデータを指し得る。より一般的に、「専用データ」は、本開示の実施例に係る技術シーンに関連するデータを指し得る。一部の実施例において、専用データ５１５は、タグ付けされた名称テキストアイテム及びコンテンツテキストアイテムを含んでもよく、それにより初期テキストアイテム検出モデル５１０が本開示の実施例における名称テキストアイテム及びコンテンツテキストアイテムの特徴をインクリメンタル学習することができる。本開示の文脈において、名称テキストアイテム及びコンテンツテキストアイテムへのタグ付けは、フィールドレベルのタグ付けと呼ばれてもよい。

なお、コンピューティング機器１２０が初期テキストアイテム検出モデル５１０に対してインクリメンタル学習５３５を実行することを上に説明したが、このような説明は、例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しない。他の実施例において、コンピューティング機器１２０とは異なる１つ以上のコンピューティング機器は、初期テキストアイテム検出モデル５１０に対してインクリメンタル学習５３５を実行することにより、テキストアイテム検出モデル３１０を生成することができる。そして、コンピューティング機器１２０は、当該１つ以上のコンピューティング機器から、インクリメンタル学習５３５により構築されたテキストアイテム検出モデル３１０を直接取得して、画像１１０内のテキストアイテム領域を検出するために用いることができる。

また、図５に示すように、初期テキストアイテム検出モデル５１０は、汎用データ５０５を用いてトレーニング５２５を行うことができるので、初期テキストアイテム検出モデル５１０は、汎用テキストアイテム検出モデル５１０と呼ばれてもよい。本明細書で使用されるように、「汎用データ」は、構造化情報の認識・抽出の技術シーンに特定的に向けられないデータを指し得る。より一般的に、「汎用データ」は、本開示の実施例に係る技術シーンに不特定的に向けられたデータを指し得る。なお、初期テキストアイテム検出モデル５１０のトレーニング５２５は、通常、コンピューティング機器１２０によって実行されなく、また、初期テキストアイテム検出モデル５１０のトレーニング５２５及びインクリメンタル学習５３５は、同じコンピューティング機器によって完成されなくてもよい。無論、一部の実施例において、初期テキストアイテム検出モデル５１０のトレーニング５２５及びインクリメンタル学習５３５は、いずれもコンピューティング機器１２０によって実行されてもよい。

なお、図５の例において、初期テキストアイテム検出モデル５１０は、専用データ５１５を用いてインクリメンタル学習を行うのではなく、汎用データ５０５を用いてトレーニングを行う。汎用データ（例えば、フィールド行検出用トレーニング用データ）は、一般に、意味情報、空間位置などの方式にしたがって区切られてタグ付けされるので、キーと値を良く区切ることができないが、多くのキー値フィールドのデータを改めてタグ付けして専門のモデルをトレーニングするコストは高い。これに比べて、汎用データ５０５をトレーニングして得られた初期テキストアイテム検出モデル５１０を基に、テキストアイテム検出モデル３１０は、専用データ５１５を使用してインクリメンタル学習を実行した。例えば、少量のキー値フィールドレベルのデータを用いて微調整を行うことにより、テキストアイテム検出モデル３１０は、キー値フィールド検出の知識を迅速に取得することができる。テキストアイテムの検出効果から言えば、初期テキストアイテム検出モデル５１０は、画像１１０における各テキストアイテムを正確に検出することができない恐れがあるのに対して、テキストアイテム検出モデル３１０は、画像１１０における各テキストアイテムを正確に検出することができる。以下、図６を参照しながら、これについて説明する。

図６は、本開示の実施例による初期テキストアイテム検出モデル５１０により検出されたテキスト領域を示す模式図である。図６に示すように、図１で描かれた画像１１０について、図４で描かれたテキストアイテム検出モデル３１０がテキストアイテム領域３１５－１～３１５－１８を検出することと比較して、汎用テキストアイテム検出モデル５１０は、テキストアイテム領域３１５－１、３１５－２、３１５－１１、３１５－１２、３１５－１５及び３１５－１８を検出することができ、それは、これらのテキストアイテム領域に対応するテキストアイテムの近傍に、距離が近い他のテキストアイテムがないからである。しかし、テキストアイテム検出モデル３１０がテキストアイテム領域３１５－１～３１５－１８を検出することと比較して、汎用テキストアイテム検出モデル５１０は、テキストアイテム領域３１５－３～３１５－１０、３１５－１３、３１５－１４、３１５－１６及び３１５－１７を検出することができず、それは、これらのテキストアイテム領域に対応するテキストアイテムの近傍に、距離が近い他のテキストアイテムがあるからである。具体的には、テキストアイテム領域３１５－３及び３１５－４に対応するテキストアイテム１１５－３と１１５－４との距離が近く、汎用テキストアイテム検出モデル５１０は専用データ５１５に基づくインクリメンタル学習を行っていないため、汎用テキストアイテム検出モデル５１０は、テキストアイテム１１５－３及び１１５－４の全体をテキストアイテム領域６１５－１として検出する。同様に、示されたように、汎用テキストアイテム検出モデル５１０は、テキストアイテム１１５－５及び１１５－６の全体をテキストアイテム領域６１５－２として検出し、テキストアイテム１１５－７及び１１５－８の全体をテキストアイテム領域６１５－３として検出し、テキストアイテム１１５－９及び１１５－１０の全体をテキストアイテム領域６１５－４として検出し、テキストアイテム１１５－１３及び１１５－１４の全体をテキストアイテム領域６１５－５として検出し、かつテキストアイテム１１５－１６及び１１５－１７の全体をテキストアイテム領域６１５－６として検出する。

上記で図２の枠２２０を説明した際に言及したように、一部の実施例において、コンピューティング機器１２０は、トレーニングされた機械学習に基づく意味分類モデルを使用して、名称テキストアイテムの第１の集合１１７及びコンテンツテキストアイテムの第２の集合１１９を決定することができる。例えば、コンピューティング機器１２０にトレーニングされた意味分類モデルを実施することができ、そしてテキストアイテム１１５－１～１１５－１８を意味分類モデルにそれぞれ入力することができ、それにより、意味分類モデルは、各テキストアイテムが名称テキストアイテムであるか、又はコンテンツテキストアイテムであるかを判断して、対応する分類結果を出力することができる。機械学習（例えば、深層学習）に基づく意味分類モデルで、テキストアイテムを分類するコンピューティング機器１２０の効率及び正確性を向上させることができる。以下、図７から図１０を参照しながら、このような実施例について説明する。

図７は、本開示の実施例による意味分類モデル７１０に基づいてテキストアイテム１１５－１～１１５－１８を名称テキストアイテムの第１の集合１１７とコンテンツテキストアイテムの第２の集合１１８に分割することを示す模式図である。図７に示すように、テキストアイテム１１５－１～１１５－１８を分類するために、コンピューティング機器１２０に意味分類モデル７１０を実施することができ、それは、各テキストアイテムが名称テキストアイテムであるか、又はコンテンツテキストアイテムであるかを決定することができる。したがって、画像１１０内のテキストアイテム１１５－１～１１５－１８を認識した後、コンピューティング機器１２０は、意味分類モデル７１０に基づいて、テキストアイテム１１５－１～１１５－１８における各テキストアイテムが名称テキストアイテムであるか、又はコンテンツテキストアイテムであるかを決定することができ、それにより、名称テキストアイテムからなる第１の集合１１７及びコンテンツテキストアイテムからなる第２の集合１１９が得られる。一部の実施例において、意味分類モデル７１０は、言語の意味を理解する自然言語処理ＥＲＮＩＥ（ＥｎｈａｎｃｅｄＲｅｐｒｅｓｅｎｔａｔｉｏｎｔｈｒｏｕｇｈｋＮｏｗｌｅｄｇｅＩｎｔＥｇｒａｔｉｏｎ）に基づいてモデルであってもよい。他の実施例において、意味分類モデル７１０は、適宜な他の深層学習モデルであってもよい。別の実施例において、意味分類モデル７１０は、非機械学習モデルを用いて実施することができる。

一部の実施例において、意味分類モデル７１０は、構造化情報抽出の技術シーンについて特別に設計とトレーニングしたモデルであってもよいが、このような専用モデルのトレーニング用データは、取得し難い恐れがあり、それは、構造化情報を抽出するシーンデータを取得するコストが高い、即ち、構造化データの取得が難しいという問題があるからである。したがって、他の実施例において、シーンデータを取得するコストが高いという問題を回避するため、かつ、改めて新しいモデルをトレーニングすることが、既存のモデルに基づいて調整することよりも費用がかかるということを考慮すると、本開示の実施例は、インクリメンタル学習の方式で既存の汎用モデルを最適化することにより、意味分類モデル７１０を実施することができる。例えば、意味分類モデル７１０を実施するプロセスにおいて、コンピューティング機器１２０は、まず、汎用データに基づいてトレーニングした汎用モデルを取得しから、少量のシーンデータを使用して汎用モデルに対してインクリメンタル学習を行うことにより、インクリメンタル学習後の汎用モデル（即ち、意味分類モデル７１０）が、改めてトレーニングされた新しいモデルより良い性能と低いコストを有することができる。以下、図８を参照しながら、このような実施例について説明する。

図８は、本開示の実施例による初期意味分類モデル８１０に対してインクリメンタル学習８３５を実行することにより意味分類モデル７１０を構成することを示す模式図である。図８に示すように、意味分類モデル７１０は、専用データ８１５に基づいて初期意味分類モデル８１０に対してインクリメンタル学習８３５を実行することにより構築され得る。例えば、コンピューティング機器１２０は、モデル供給側から初期意味分類モデル８１０を取得し、続いて専用データ８１５を使用して初期意味分類モデル８１０に対してインクリメンタル学習８３５を実行することにより、意味分類モデル７１０を生成することができる。本明細書で使用されるように、「専用データ」とは、構造化情報の認識・抽出技術シーンについてのデータを指し得る。より一般的に、「専用データ」は、本開示の実施例に係る技術シーンに関連するデータを指し得る。一部の実施例において、専用データ８１５は、タグ付けされた名称テキストアイテム及びコンテンツテキストアイテムを含んでもよく、それにより初期意味分類モデル８１０が本開示の実施例における名称テキストアイテム及びコンテンツテキストアイテムの特徴をインクリメンタル学習することができる。本開示の文脈において、名称テキストアイテム及びコンテンツテキストアイテムへのタグ付けは、フィールドレベルのタグ付けと呼ばれてもよい。

なお、コンピューティング機器１２０が初期意味分類モデル８１０に対してインクリメンタル学習８３５を実行することを上に説明したが、このような説明は、例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しない。他の実施例において、コンピューティング機器１２０とは異なる１つ以上のコンピューティング機器は、初期意味分類モデル８１０に対してインクリメンタル学習８３５を実行することにより、意味分類モデル７１０を生成することができる。そして、コンピューティング機器１２０は、当該１つ以上のコンピューティング機器から、インクリメンタル学習８３５により構築された意味分類モデル７１０を直接取得して、テキストアイテム１１５－１～１１５－１８を第１の集合１１７と第２の集合１１９に分割するために用いることができる。上述したように、一部の実施例において、意味分類モデル７１０は、言語の意味を理解するＥＲＮＩＥに基づく意味エンティティ認識モデルであってもよい。これらの実施例において、ＥＲＮＩＥは、語形論、文法、意味という３つの段階で予めトレーニングされたモデルを提供しているので、コンピューティング機器１２０は、少量のデータに基づいてインクリメンタル学習して性能の優れたキー値エンティティ分類モデルを得ることができる。例えば、より良い汎化性を得るために、コンピューティング機器１２０は、汎用コーパスから、ＥＲＮＩＥモデルに対してインクリメンタル学習を実行するためのキー値の言語材料を直接収集することができ、それにより、トレーニング用データを取得するコストを極めて大きく削減した。

また、図８に示すように、初期意味分類モデル８１０は、汎用データ８０５を用いてトレーニング８２５を行うことができるので、初期意味分類モデル８１０は、汎用意味分類モデル８１０と呼ばれてもよい。本明細書で使用されるように、「汎用データ」は、構造化情報の認識・抽出の技術シーンに特定的に向けられないデータを指し得る。より一般的に、「汎用データ」は、決定に本開示の実施例に係る技術シーンを対象として決定しないデータを一般的に指し得る。なお、初期意味分類モデル８１０のトレーニング８２５は、通常、コンピューティング機器１２０によって実行されなく、また、初期意味分類モデル８１０のトレーニング８２５及びインクリメンタル学習８３５は、同じコンピューティング機器によって完成されなくてもよい。無論、一部の実施例において、初期意味分類モデル８１０のトレーニング８２５及びインクリメンタル学習８３５は、いずれもコンピューティング機器１２０によって実行されてもよい。

図９は、本開示の実施例による意味分類モデル７１０の例示構造９００を示す。一部の実施例において、例示構造９００は、ＥＲＮＩＥに基づくモデルのであってもよい。これらの実施例において、言語の意味を理解する意味理解モデルＥＲＮＩＥはドキュメント情報を構造化する技術シーンに使用されるため、ＥＲＮＩＥモデルは、トレーニング集合内の汎用の名称テキストアイテム及びコンテンツテキストアイテム（例えば、キー及び値）の意味を理解することができ、それにより、様々な体裁の名称テキストアイテム及びコンテンツテキストアイテム（例えば、キー及び値）に対してより良い汎化能力を有し、さらに複数タイプの典型的な低周波カテゴリを直接サポートすることができる。他の実施例において、意味分類モデル７１０の例示構造９００は、他の適宜な機械学習モデルに基づいて構築されてもよい。

図９に示すように、例示構造９００は、入力と埋め込み（ｅｍｂｅｄｄｉｎｇ）モジュール９１０と、エンコーダモジュール９２０と、分類器モジュール９３０とを含む。図９の例示において、入力と埋め込みモジュール９１０は、４つの埋め込みベクトルを使用して、入力されるテキストアイテムを表すことができる。この４つの埋め込みベクトルは、Ｔｏｋｅｎ埋め込みベクトル９１２と、語句埋め込みベクトル９１４と、位置埋め込みベクトル９１６と、マスク埋め込みベクトル９１８とを含む。

Ｔｏｋｅｎ埋め込みベクトル９１２を得るために、コンピューティング機器１２０は、入力されたテキストアイテムを文字、単語、又は他の言語単位にしたがって区切って、１つ以上のＴｏｋｅｎを得ることができる。言い換えれば、Ｔｏｋｅｎとは、テキストアイテムが区切られた後の文字、単語、又は他の言語単位を言う。続いて、コンピューティング機器１２０は、所定のマッピング関係（例えば、所定の字典や辞典など）に基づいて各々のＴｏｋｅｎのシリアル番号を決定することができる。次に、コンピューティング機器１２０は、Ｔｏｋｅｎのシリアル番号を埋め込み層に入力することにより、あるＴｏｋｅｎのＴｏｋｅｎ埋め込みベクトル（例えば、１２８又は５１２次元）を得ることができる。図９の例示において、あるテキストアイテムは、Ｔｏｋｅｎ１、Ｔｏｋｅｎ２、Ｔｏｋｅｎ３、・・・、ＴｏｋｅｎＮに区切られる。Ｔｏｋｅｎ埋め込みベクトル９１２－１～９１２－Ｎは、これらのＴｏｋｅｎの埋め込みベクトルをそれぞれ表す。さらに、１番目のＴｏｋｅｎ埋め込みベクトル９１２－０は、例示構造９００が分類タスクに用いられることを表し、［ＣＬＳ］とマークされる。

語句埋め込みベクトル９１４は、各々のＴｏｋｅｎがある語句の番号を指示するために用いられ、ここで、各々のＴｏｋｅｎが、いずれも同じテキストアイテムに属するため、同じ語句にあると考えることができる。したがって、図９の例において、Ｔｏｋｅｎ１、Ｔｏｋｅｎ２、Ｔｏｋｅｎ３、・・・、ＴｏｋｅｎＮの語句埋め込みベクトル９１４－１～９１４－Ｎは、いずれも語句番号０のベクトルを表す。また、語句埋め込みベクトル９１４－０も、語句番号０を示すように設定される。位置埋め込みベクトル９１６は、例示構造９００に複数のＴｏｋｅｎの語句における順番を理解させるためのものであるため、入力と埋め込みベクトルに、各々のＴｏｋｅｎのテキストアイテムにおける位置情報の位置埋め込みベクトル９１６を追加した。図９の例において、Ｔｏｋｅｎ１、Ｔｏｋｅｎ２、Ｔｏｋｅｎ３、・・・、ＴｏｋｅｎＮの位置埋め込みベクトル９１６－１～９１６－Ｎは、それぞれ、位置１から位置Ｎのベクトルを表す。また、位置埋め込みベクトル９１６－０は、位置０を表すように設定される。マスク埋め込みベクトル９１８は、各々のＴｏｋｅｎが遮蔽されたか否かを指示するために用いられ、ここで、各々のＴｏｋｅｎはいずれも遮蔽されていないため、図９の例において、Ｔｏｋｅｎ１、Ｔｏｋｅｎ２、Ｔｏｋｅｎ３、・・・、ＴｏｋｅｎＮのマスク埋め込みベクトル９１８－０～９１９－Ｎは、いずれも、遮蔽しないことを表す指示値１．０のベクトルである。また、マスク埋め込みベクトル９１８－０も、指示値１．０のベクトルに設定される。図９の例において、入力と埋め込みモジュール９１０は、入力されたテキストアイテムの各々のＴｏｋｅｎの４つの埋め込みベクトルを加算して入力ベクトルを得ることができ、これにより、テキストアイテムは、入力ベクトルのシーケンスとしてエンコードされることができる。

一部の実施例において、エンコーダモジュール９２０は、ＥＲＮＩＥに基づくモデルを用いて構築されてもよく、１２個のエンコーダと、１２個のアテンションヘッドとを含み得る。したがって、入力と埋め込みモジュール９１０は、入力ベクトルのシーケンスをエンコーダモジュール９２０の最下層のエンコーダに入力することができる。エンコーダモジュール９２０の各層のエンコーダは、セルフアテンションメカニズム及びフィードフォワードニューラルネットワークを使用して入力ベクトルのシーケンスをエンコードすることができ、続いてエンコード結果を前の層のエンコーダに伝送することができる。以下、図１０を参照しながら、エンコーダモジュール９２０の構造を詳しく説明する。図９に示すように、エンコーダモジュール９２０から出力されたベクトルは、分類器モジュール９３０によって分類されることができ、それにより、例示構造９００によるテキストアイテムの分類結果９４０、例えば、キー値エンティティの分類結果を得ることができる。一部の実施例において、分類器モジュール９３０は、ＥＲＮＩＥモデルに基づいて構築された、いずれの適宜なネットワーク構造を有する分類器を含み得る。なお、図９に列挙されたいずれの特定の値又は数は、例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しない。他の実施例において、これらの値又は数は、いずれもいずれの他の適切な値を取ってもよい。

図１０は、本開示の実施例による意味分類モデル７１０の例示構造９００におけるエンコーダモジュール９２０の例示構造を示す。図１０に示すように、例示構造９００におけるエンコーダモジュール９２０は、１２個のエンコーダ９２０－１～９２０－１２をカスケード連結することにより構成され、かつ、各々のエンコーダは、いずれもさらに２層に分けられることができる。一般性を失うことなく、エンコーダ９２０－２を例示と仮定すると、それは、セルフアテンション層１０２０と、フィードフォワードニューラルネットワーク１０３０とを含み得る。示されるように、入力１０１０は、エンコーダモジュール９２０の最下層のエンコーダ９２０－１に提供されてもよい。一部の実施例において、入力１０１０は、あるＴｏｋｅｎ（例えば、「張」、「三」など）の入力ベクトルであってもよい。

各々のセルフアテンション層（例えば、セルフアテンション層１０２０）において、入力ベクトルは、まず、３つの行列それぞれと乗算して、照会ベクトル、キーベクトル及び値ベクトルを得ることができる。各々のエンコーダのセルフアテンション層が、あるＴｏｋｅｎをエンコードするとき、語句にある全てのＴｏｋｅｎの表現（例えば、値ベクトル）に重み付けして合計することができ、ここで、重みはＴｏｋｅｎ間の相関性を表現し、それにより、セルフアテンション層の当該位置での出力を得る。一部の実施例において、上述の相関性は、あるＴｏｋｅｎの表現（例えば、キーベクトル）とエンコードされたＴｏｋｅｎの表現（例えば、照会ベクトル）とのドット積によって、かつ、ｓｏｆｔｍａｘ関数によって得ることができる。

一部の実施例において、セルフアテンション層（例えば、セルフアテンション層１０２０）は、「マルチヘッド」アテンションメカニズムを用いることもでき、当該メカニズムによって、入力されたＴｏｋｅｎ埋め込みベクトル（又は、低位エンコーダからのベクトル）を異なる表現用部分空間に投影するために、モデルが異なる位置に注目する能力を拡張することができる。その例示として、各エンコーダのセルフアテンション層（例えば、セルフアテンション層１０２０）は、１２個のアテンションヘッドを用いてもよい。

セルフアテンション層（例えば、セルフアテンション層１０２０）は、複数のアテンションヘッドの出力行列を、行列の乗算を行うことで１つの出力行列に圧縮して、フィードフォワードニューラルネットワーク層（例えば、フィードフォワードニューラルネットワーク層１０３０）に送ることができる。一部の実施例において、各々のエンコーダ（即ち、各々の位置）のフィードフォワードニューラルネットワーク層は、共有パラメータであってもよい。なお、図１０に列挙されたいずれの特定の値又は数は、例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しない。他の実施例において、これらの値又は数は、いずれもいずれの他の適切な値を取ってもよい。

上記で図２の枠２３０を説明した際に言及したように、一部の実施例において、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを決定するコンピューティング機器１２０の正確率を向上させるために、コンピューティング機器１２０は、名称テキストアイテムとコンテンツテキストアイテムとのマッチング条件を予め設定することができる。例えば、コンピューティング機器１２０がマッチングしない名称テキストアイテム及びコンテンツテキストアイテムを、マッチングすると決定する可能性を低減するために、マッチング条件を、経験、画像１１０における情報配列方式、及び／又はマッチングする名称テキストアイテムとコンテンツテキストアイテムの位置関係に基づいて決定することができる。したがって、２つの名称テキストアイテム及びコンテンツテキストアイテムが所定のマッチング条件に合致しない場合、コンピューティング機器１２０は、この２つのテキストアイテムがマッチングしないと決定することができ、それにより、名称テキストアイテムとコンテンツテキストアイテムとを誤マッチングすることを回避する。この方式により、コンピューティング機器１２０が、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを決定する効率及び正確性を向上させることができる。以下、図１１から図１５を参照しながら、このような実施例について説明する。

図１１は、本開示の実施例による名称テキストアイテムの第１の集合１１７とコンテンツテキストアイテムの第２の集合１１９とのマッチングを実行するための例示プロセス１１００を示すフローチャートである。一部の実施例において、例示プロセス１１００は、例示環境１００におけるコンピューティング機器１２０によって実施されてよく、例えばコンピューティング機器１２０のプロセッサ又は処理ユニットによって実施されるか、又はコンピューティング機器１２０の様々な機能モジュールによって実施されてもよい。他の実施例において、例示プロセス１１００は、例示環境１００から独立したコンピューティング機器によって実施されるか、又は例示環境１００における他のユニット又はモジュールによって実施されてもよい。説明の便宜上、図１を参照して例示プロセス１１００を説明する。

枠１１１０において、コンピューティング機器１２０は、名称テキストアイテムの第１の集合１１７におけるマッチング対象の名称テキストアイテムについて、それにマッチングするコンテンツテキストアイテムの候補集合を決定することができる。言い換えれば、マッチング対象の名称テキストアイテムに対して、コンピューティング機器１２０は、さきにそれにマッチングする可能性があるコンテンツテキストアイテムの候補集合を決定し、そしてそれにマッチングする可能性がないコンテンツテキストアイテムを排除することができる。一部の実施例において、例えば、第１の集合１１７と第２の集合１１９とのマッチングを実行する初期段階において、コンピューティング機器１２０は、第２の集合１１９を初期的に候補集合として決定することができる。つまり、マッチングの初期段階において、例えば、１番目のマッチング対象の名称テキストアイテムに対して、コンピューティング機器１２０は、全てのコンテンツテキストアイテムを上記候補集合として決定することができる。こうすると、コンピューティング機器１２０は、全てのコンテンツテキストアイテムがいずれも候補集合にあることを確保し、マッチングする可能性のあるコンテンツテキストアイテムを漏らすことを回避できる。例えば、画像１１０において、コンピューティング機器１２０が第１の集合１１７における名称テキストアイテム１１５－１から２つの集合のマッチングを実行し、即ち、名称テキストアイテム１１５－１が１番目のマッチング対象の名称テキストアイテムであると仮定すると、コンピューティング機器１２０は、第２の集合１１９の全体を名称テキストアイテム１１５－１にマッチングするコンテンツテキストアイテムの候補集合として決定することができる。

なお、ある名称テキストアイテムのマッチング中に、その候補集合は、変化し続ける恐れがある。例えば、画像１１０において、第２の集合１１９の全体を初期的に名称テキストアイテム１１５－１の候補集合として決定した後、後で、コンピューティング機器１２０によってコンテンツテキストアイテム１１５－２が名称テキストアイテム１１５－１にマッチングしないと決定された場合、コンピューティング機器１２０は、名称テキストアイテム１１５－１の候補集合からコンテンツテキストアイテム１１５－２を除去することができる。一部の実施例において、あるマッチング対象の名称テキストアイテムについて、コンピューティング機器１２０は、あるコンテンツテキストアイテムが前に既に他の名称テキストアイテムとのマッチングに成功したことを決定すると、コンピューティング機器１２０は、マッチング対象の名称テキストアイテムについての候補集合から、既に他の前テキストアイテムとのマッチングに成功したコンテンツテキストアイテムを除去することができる。例えば、画像１１０において、コンピューティング機器１２０は、名称テキストアイテム１１５－５にマッチングするコンテンツテキストアイテムを決定しようとするが、この前に、コンピューティング機器１２０は既に、コンテンツテキストアイテム１１５－４が名称テキストアイテム１１５－３にマッチングすることを決定したと仮定すると、コンピューティング機器１２０は、名称テキストアイテム１１５－５にマッチングするコンテンツテキストアイテムの候補集合からコンテンツテキストアイテム１１５－４を除去することができる。

枠１１２０において、コンピューティング機器１２０は、マッチング対象の名称テキストアイテムにマッチングするコンテンツテキストアイテムの候補集合から、マッチング対象の名称テキストアイテムに最も近い候補コンテンツテキストアイテムを決定することができる。例えば、画像１１０において、名称テキストアイテム１１５－１がマッチング対象の名称テキストアイテムである場合、コンピューティング機器１２０は、コンテンツテキストアイテム１１５－２が名称テキストアイテム１１５－１に最も近いコンテンツテキストアイテムであると決定することができる。また、例えば、画像１１０において、名称テキストアイテム１１５－３がマッチング対象の名称テキストアイテムである場合、コンピューティング機器１２０は、コンテンツテキストアイテム１１５－４が名称テキストアイテム１１５－３に最も近いコンテンツテキストアイテムであると決定することなどができる。

一般的に、コンピューティング機器１２０は、いずれの適宜な方式を用いて２つのテキストアイテム間の距離を決定することができる。例えば、コンピューティング機器１２０は、まず、２つのテキストアイテムの画像１１０の２つの中心点を決定し、続いて、２つのテキストアイテム間の距離として、この２つの中心点間の距離を算出することができる。また、例えば、コンピューティング機器１２０は、２つのテキストアイテムの画像１１０内での最も近い２つの画素点を決定し、続いて、この２つの画素点間の距離を２つのテキストアイテム間の距離とすることができる。他の実施例において、コンピューティング機器１２０は、先に、２つのテキストアイテムに関連する２つの矩形領域を決定し、続いて、２つの矩形領域の角点間の距離に基づいて２つのテキストアイテム間の距離を決定することができる。以下、図１３及び図１４を参照しながら、このような実施例について説明する。

枠１１３０において、コンピューティング機器１２０は、マッチング対象の名称テキストアイテムに最も近い候補コンテンツテキストアイテムがマッチング条件を満たすか否かを決定することができる。本明細書で使用されるように、「マッチング条件」とは、マッチングする名称テキストアイテム及びコンテンツテキストアイテムが満たす必要のある必要条件を言う。一部の実施例において、マッチング条件は、ユーザ、管理者又は技術者によって、具体的な技術環境及び適用要件に応じて予め決定されてもよい。ある名称テキストアイテムと、あるコンテンツテキストアイテムとが所定のマッチング条件を満たさない場合、この２つのテキストアイテムはマッチングしないと考えることができる。一方、あるマッチング対象の名称テキストアイテムについて、それにマッチングするコンテンツテキストアイテムの候補集合には、所定のマッチング条件を満たすコンテンツテキストアイテムが複数存在する可能性がある。この場合、コンピューティング機器１２０は、マッチング対象の名称テキストアイテムに最も近く、かつ、マッチング条件に合致するコンテンツテキストアイテムを、マッチング対象の名称テキストアイテムにマッチングすると決定することができる。したがって、枠１１２０において、候補コンテンツテキストアイテムが、マッチング対象の名称テキストアイテムに最も近いテキストアイテムであるとすでに決定された後、コンピューティング機器１２０は、候補コンテンツテキストアイテムがマッチング対象の名称テキストアイテムにマッチングするか否かを決定するために、候補コンテンツテキストアイテムが所定のマッチング条件を満たすか否かを判断することができる。

一部の実施例において、マッチング条件は、候補コンテンツテキストアイテムとマッチング対象の名称テキストアイテムとの位置関係が画像１１０内の情報配置構造に合致することを含み得る。本明細書で使用されるように、「情報配置構造」とは、画像１１０の平面上での画像１１０に記録された情報の配列方式であり、一般的に、ほとんどのマッチングする名称テキストアイテムとコンテンツテキストアイテムとの位置配列関係に対応する。画像１１０内の様々な文字情報を１つのドキュメントと見なすと、曖昧さを生じない前提で、本明細書の画像１１０の情報配置構造は、ドキュメント構造又はドキュメントメイン構造と呼ばれてもよい。例えば、画像１１０の情報配置構造は、左右構造、右左構造及び上下構造などであり得る。

具体的には、左右構造とは、画像１１０が順方向に置かれたとき、マッチングする名称テキストアイテム及びコンテンツテキストアイテムは、名称テキストアイテムが左側、コンテンツテキストアイテムが右側にある方式に従って配列されるものを言う。右左構造とは、画像１１０が順方向に置かれたとき、マッチングする名称テキストアイテム及びコンテンツテキストアイテムは、名称テキストアイテムが右側、コンテンツテキストアイテムが左側にある方式に従って配列されるものを言う。上下構造とは、画像１１０が順方向に置かれたとき、マッチングする名称テキストアイテム及びコンテンツテキストアイテムは、名称テキストアイテムが上側、コンテンツテキストアイテムが下側にある方式に従って配列されるものを言う。したがって、上述の情報配置構造に関するマッチング条件により、コンピューティング機器１２０は、位置関係が画像１１０の情報配置構造に合致しない名称テキストアイテムとコンテンツテキストアイテムとを、マッチングすると決定することを回避でき、それにより、誤マッチングの可能性を低減する。

コンピューティング機器１２０は、様々な適宜な方式を用いて画像１１０の情報配置構造を決定することができる。例えば、コンピューティング機器１２０は、名称テキストアイテムの第１の集合１１７及びコンテンツテキストアイテムの第２の集合１１９の、画像１１０での位置分布を統計することができる。名称テキストアイテムとコンテンツテキストアイテムとは、主に左右に離間して分布され、かつ、最左側の一列のテキストアイテムが名称テキストアイテムであると、コンピューティング機器１２０は、画像１１０の情報配置構造が左右構造であると決定することができる。名称テキストアイテムとコンテンツテキストアイテムとは、主に左右に離間して分布され、かつ、最左側一列のテキストアイテムがコンテンツテキストアイテムである場合、コンピューティング機器１２０は、画像１１０の情報配置構造が右左構造であると決定することができる。名称テキストアイテムとコンテンツテキストアイテムとは、主に上下に離間して分布される場合、コンピューティング機器１２０は、画像１１０の情報配置構造が上下構造であると決定することができる。

他の実施例において、同じ画像におけるマッチングする名称テキストアイテム及びコンテンツテキストアイテムは、一般的に画像の情報配置構造に合致し、かつ、マッチングする名称テキストアイテムとコンテンツテキストアイテムとの距離が、一般的に最も近いことを考慮すると、コンピューティング機器１２０は、第１の集合１１７及び第２の集合１１９における距離が最も近い名称テキストアイテム及びコンテンツテキストアイテムに基づいて、画像１１０の情報配置構造を決定することができる。この方式により、コンピューティング機器１２０が画像１１０の情報配置構造を決定するプロセスを簡素化することができ、それによりコンピューティング機器１２０のコンピューティングオーバーヘッドを低減する。

具体的には、コンピューティング機器１２０は、まず、第１の集合１１７及び第２の集合１１９から、距離が最も小さい参照名称テキストアイテムと参照コンテンツテキストアイテムとを決定することができる。言い換えれば、全ての名称テキストアイテム及びコンテンツテキストアイテムにおいて、当該参照名称テキストアイテムと当該参照コンテンツテキストアイテムとの間の距離が、最も小さい。例えば、図１を参照して、画像１１０において全ての名称テキストアイテム及びコンテンツテキストアイテムのうち、名称テキストアイテム１１５－５とコンテンツテキストアイテム１１５－６との間の距離が最も小さいと仮定と、コンピューティング機器１２０は、名称テキストアイテム１１５－５を参照名称テキストアイテムとし、コンテンツテキストアイテム１１５－６を参照コンテンツテキストアイテムとすることができる。

続いて、コンピューティング機器１２０は、参照名称テキストアイテムと参照コンテンツテキストアイテムとの位置関係に基づいて、画像１１０の情報配置構造を決定することができる。例えば、図１の例において、コンピューティング機器１２０は、名称テキストアイテム１１５－５とコンテンツテキストアイテム１１５－６が概略的に同じ水平方向にあり、かつ名称テキストアイテム１１５－５がコンテンツテキストアイテム１１５－６の左側にあると決定することができる。したがって、コンピューティング機器１２０は、名称テキストアイテム１１５－５とコンテンツテキストアイテム１１５－６とが左右構造であると決定することができるため、コンピューティング機器１２０は、画像１１０の情報配置構造が左右構造であるとさらに決定することができる。一部の実施例において、コンピューティング機器１２０は参照名称テキストアイテム及び参照コンテンツテキストアイテムを、マッチングする名称テキストアイテムとコンテンツテキストアイテムの第１のペアとして直接決定し、後で、それらがマッチング条件を満たすか否かを判断せずに、マッチングする名称テキストアイテム及びコンテンツテキストアイテムとして出力することができる。

一部の状況では、画像１１０の情報配置構造を決定するための参照名称テキストアイテムと参照コンテンツテキストアイテムとの位置関係が、判断しやすいように明確ではない。この場合、コンピューティング機器１２０は、参照名称テキストアイテム及び参照コンテンツテキストアイテムの中心点の連結線と参照方向とがなす夾角に基づいて、画像１１０の情報配置構造を定量的に決定することができる。以下、図１２を参照しながら、このような実施例について説明する。

図１２は、本開示の実施例による参照名称テキストアイテム１１５－５及び参照コンテンツテキストアイテム１１５－６の中心点の連結線１２１０－１２２０と、参照方向１２３０との間の夾角１２４０を示す模式図である。図１２の例示において、依然として、画像１１０における名称テキストアイテム１１５－５が画像１１０の参照名称テキストアイテムであり、かつコンテンツテキストアイテム１１５－６が画像１１０の参照コンテンツテキストアイテムであると仮定する。しかし、このような仮定は、例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しないことは理解できるだろう。他の実施例において、画像１１０における各テキストアイテムは、他の配置を有する可能性があるため、参照名称テキストアイテム及び参照コンテンツテキストアイテムは、いずれの他の名称テキストアイテム及びコンテンツテキストアイテムである可能性がある。

図１２に示すように、画像１１０の情報配置構造を決定するために、コンピューティング機器１２０は、まず、参照名称テキストアイテム１１５－５の中心点１２１０、及び参照コンテンツテキストアイテム１１５－６の中心点１２２０を決定することができる。一部の実施例において、コンピューティング機器１２０は、参照名称テキストアイテム１１５－５に係る全ての画素の中心点に基づいて中心点１２１０を決定し、かつ同様に、参照コンテンツテキストアイテム１１５－６に係る全ての画素の中心点に基づいて中心点１２２０を決定することができる。他の実施例において、コンピューティング機器１２０は、参照名称テキストアイテム１１５－５に対応するテキストアイテム領域３１５－５に基づいて中心点１２１０を決定し、かつ同様に、参照コンテンツテキストアイテム１１５－６に対応するテキストアイテム領域３１５－６に基づいて中心点１２２０を決定することができる。

中心点１２１０及び１２２０が決定された後、コンピューティング機器１２０は、参照名称テキストアイテム１１５－５及び参照コンテンツテキストアイテム１１５－６の中心点の連結線１２１０－１２２０と参照方向１２３０とがなす夾角１２４０を決定することができる。本明細書で使用されるように、参照方向とは、画像１１０が順方向に置かれたとき、画像１１０が位置する平面上のある決定方向である。図１２の例において、参照方向１２３０は、水平方向であってもよい。しかし、水平方向を参照方向１２３０とすることは、例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しないと指摘すべきである。他の実施例において、参照方向１２３０は、画像１１０が位置する平面上のいずれの方向であってもよいが、参照方向１２３０の選択は、画像１１０の情報配置構造を決定するための角度範囲に影響を与える。

具体的に、コンピューティング機器１２０が、夾角１２４０が第１の角度範囲に属すると決定すると、コンピューティング機器１２０は、画像１１０の情報配置構造が左右構造であると決定することができる。例えば、参照方向１２３０が水平方向である場合、第１の角度範囲は、－３０°～３０°であってもよい。代わりに、コンピューティング機器１２０は、夾角１２４０が第２の角度範囲に属すると決定すると、画像１１０の情報配置構造が上下構造であると決定することができる。例えば、参照方向１２３０が水平方向である場合、第２の角度範囲は、２１０°～３３０°であってもよい。代わりに、コンピューティング機器１２０は、夾角１２４０が第３角度範囲に属すると決定すると、画像１１０の情報配置構造が右左構造であると決定することができる。例えば、参照方向１２３０が水平方向である場合、第３角度範囲は、１５０°～２１０°であってもよい。コンピューティング機器１２０が、夾角１２４０が上記３つの角度範囲に属さないと決定すると、コンピューティング機器１２０は、画像１１０の情報配置構造が未知の構造であると決定することができる。このような方式により、画像１１０の情報配置構造を、夾角１２４０の大きさに基づいて定量的に決定することができ、それにより、コンピューティング機器１２０が情報配置構造を決定する操作性と正確性が向上する。ここに列挙された具体的な角度値は、例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しないことは理解できるだろう。他の実施例において、上記各角度範囲の境界値は、いずれの適宜な角度値であってもよい。

マッチング条件は、画像１１０の情報配置構造に基づく上記マッチング条件に加え、又はその代わりに、候補コンテンツテキストアイテムとマッチング対象の名称テキストアイテムとの間の距離が閾値距離未満であることをさらに含み得る。これは、テキストアイテム間の距離が閾値距離より大きい名称テキストアイテム及びコンテンツテキストアイテムがマッチングするとみなされないことを意味する。したがって、コンピューティング機器１２０は、距離が遠すぎる名称テキストアイテム及びコンテンツテキストアイテムがマッチングすると決定することを回避することができ、それにより、誤マッチングの可能性を低減する。一部の実施例において、上記閾値距離は、ユーザ、管理者又は技術者によって、具体的な技術環境及び適用要件に応じて予め決定されてもよい。他の実施例において、コンピューティング機器１２０は、既にマッチングすると決定された名称テキストアイテムとコンテンツテキストアイテムとの間の距離に基づいて、上記閾値距離を決定することができる。

具体的には、複数組の名称テキストアイテム及びコンテンツテキストアイテムが既にマッチングすると決定された場合、コンピューティング機器１２０は、当該複数組の名称テキストアイテムとコンテンツテキストアイテムとの間の複数の距離を決定することができる。続いて、コンピューティング機器１２０は、当該複数の距離の平均値に基づいて閾値距離を決定することができる。こうすると、閾値距離は、マッチングする名称テキストアイテムとコンテンツテキストアイテムとの間の平均距離に基づいて決定されるため、閾値距離の合理性を高めることができる。例えば、コンピューティング機器１２０は、当該複数の距離の平均値の５倍を閾値距離として決定してもよい。ここに列挙された具体的な倍数は、単に模式的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しないと指摘すべきである。他の実施例において、コンピューティング機器１２０は、複数の距離の平均値又は当該平均値の他の適宜な倍数を閾値距離として直接決定することができる。

マッチング条件は、情報配置構造及び閾値距離に基づく上記マッチング条件に加え、又はその代わりに、候補コンテンツテキストアイテム及びマッチング対象の名称テキストアイテムの中心点の連結線と参照方向（例えば、図１２における参照方向１２３０）とがなす夾角と、参照夾角との間の差が閾値角度未満であることを含み得る。候補コンテンツテキストアイテム及びマッチング対象の名称テキストアイテムの中心点の連結線と参照方向とがなす夾角は、上記図１２についての説明を参照して同様に決定することができる。当該マッチング条件は、名称テキストアイテム及びコンテンツテキストアイテムに関連する夾角と参照夾角との偏差が閾値角度よりも大きい又は小さい場合、マッチングするとはみなされないことを意味する。したがって、コンピューティング機器１２０は、角度偏差が大きすぎる名称テキストアイテム及びコンテンツテキストアイテムを、マッチングすると決定することを回避でき、それにより、誤マッチングの可能性を低減する。一部の実施例において、参照夾角及び閾値角度は、ユーザ、管理者又は技術者によって、具体的な技術環境及び適用要件に応じて予め決定されてもよい。

他の実施例において、コンピューティング機器１２０は、既にマッチングすると決定された名称テキストアイテム及びコンテンツテキストアイテムに関連する夾角に基づいて、上記参照夾角を決定することができる。こうすると、参照夾角は、マッチングする名称テキストアイテム及びコンテンツテキストアイテムに関する平均夾角に基づいて決定されるものであるため、参照夾角の合理性を高めることができる。具体的には、複数組の名称テキストアイテム及びコンテンツテキストアイテムが既にマッチングすると決定された場合、コンピューティング機器１２０は、マッチングする複数組の名称テキストアイテム及びコンテンツテキストアイテムの中心点の連結線と、参照方向（例えば、図１２における参照方向１２３０）とがなす複数の夾角を決定することができる。続いて、コンピューティング機器１２０は、複数の夾角の平均値に基づいて上記参照夾角を決定することができる。例えば、コンピューティング機器１２０は、複数の夾角の平均値を参照夾角とすることができる。

図１１を参照すると、枠１１４０において、コンピューティング機器１２０が、候補コンテンツテキストアイテムがマッチング条件を満たすと決定すると、コンピューティング機器１２０は、候補コンテンツテキストアイテムがマッチング対象の名称テキストアイテムにマッチングすると決定することができる。例えば、画像１１０において、名称テキストアイテム１１５－３がマッチング対象の名称テキストアイテムであり、コンテンツテキストアイテム１１５－４が候補コンテンツテキストアイテムであると仮定すると、コンピューティング機器１２０は、コンテンツテキストアイテム１１５－４がマッチング条件を満たすと決定することができ、さらに、コンテンツテキストアイテム１１５－４が名称テキストアイテム１１５－３にマッチングすると決定することができる。また、例えば、画像１１０において、名称テキストアイテム１１５－１６がマッチング対象の名称テキストアイテムであり、コンテンツテキストアイテム１１５－１７が候補コンテンツテキストアイテムであると仮定すると、コンピューティング機器１２０は、コンテンツテキストアイテム１１５－１７がマッチング条件を満たすと決定することができ、さらに、コンテンツテキストアイテム１１５－１７が名称テキストアイテム１１５－１６にマッチングすると決定することができる。

枠１１５０において、コンピューティング機器１２０が、候補コンテンツテキストアイテムがマッチング条件を満たさないと決定すると、コンピューティング機器１２０は、マッチング対象の名称テキストアイテムにマッチングするコンテンツテキストアイテムの候補集合から現在の候補コンテンツテキストアイテムを除去することができる。こうすると、コンピューティング機器１２０は、マッチング対象の名称テキストアイテムにマッチングするコンテンツテキストアイテムの候補集合にあるコンテンツテキストアイテムはいずれもマッチングするか否かが判断されていないものであることを確保することができ、それにより、反復的に候補集合に対して、マッチングするコンテンツテキストアイテムを決定することができる。例えば、画像１１０において、名称テキストアイテム１１５－１がマッチング対象の名称テキストアイテムであり、コンテンツテキストアイテム１１５－２が候補コンテンツテキストアイテムであると仮定すると、コンピューティング機器１２０は、コンテンツテキストアイテム１１５－２がマッチング条件を満たさないと決定することができ、さらに、名称テキストアイテム１１５－１にマッチングするコンテンツテキストアイテムの候補集合からコンテンツテキストアイテム１１５－２を除去することができる。また、例えば、画像１１０において、名称テキストアイテム１１５－１６がマッチング対象の名称テキストアイテムであり、コンテンツテキストアイテム１１５－１８が候補コンテンツテキストアイテムであると仮定すると、コンピューティング機器１２０は、コンテンツテキストアイテム１１５－１８がマッチング条件を満たさないと決定することができ、さらに、名称テキストアイテム１１５－１６にマッチングするコンテンツテキストアイテムの候補集合からコンテンツテキストアイテム１１５－１８を除去することができる。

枠１１６０において、コンピューティング機器１２０は、除去された候補コンテンツテキストアイテムの数が閾値に達したか否かを決定することができる。一部の実施例において、ここでの閾値は、ユーザ、管理者又は技術者によって、具体的な技術環境及び適用要件に応じて予め決定されてもよく、例えば、当該閾値は、３に設定されてもよい。ここに列挙された具体的な値は、例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しないことは理解できるだろう。他の実施例において、当該閾値は、いずれの他の適宜な値に設定されてもよい。閾値が３に設定される上記状況では、画像１１０において、名称テキストアイテム１１５－１がマッチング対象の名称テキストアイテムであると仮定すると、コンピューティング機器１２０は、候補集合からコンテンツテキストアイテム１１５－２を除去した後、除去した候補コンテンツテキストアイテムの数が１で、まだ閾値３に達していないと決定できるため、枠１１１０に戻って名称テキストアイテム１１５－１のために候補集合を再決定することができる。

続いて、コンピューティング機器１２０は、コンテンツテキストアイテム１１５－４が名称テキストアイテム１１５－１にマッチングしないと決定できるため、候補集合からコンテンツテキストアイテム１１５－４を除去する。候補集合からコンテンツテキストアイテム１１５－４を除去した後、コンピューティング機器１２０は、除去した候補コンテンツテキストアイテムの数が２であり、まだ閾値３に達していないと決定できるため、枠１１１０に戻って名称テキストアイテム１１５－１のために候補集合を再決定することができる。また、例えば、画像１１０において、名称テキストアイテム１１５－１６がマッチング対象の名称テキストアイテムであり、コンテンツテキストアイテム１１５－１８が候補コンテンツテキストアイテムであると仮定すると、コンピューティング機器１２０は、候補集合からコンテンツテキストアイテム１１５－１８を除去した後、除去した候補コンテンツテキストアイテムの数が１であり、まだ閾値３に達していないと決定できるため、枠１１１０に戻って名称テキストアイテム１１５－１６のために候補集合を再決定することができる。

枠１１７０において、コンピューティング機器１２０は、除去された候補コンテンツテキストアイテムの数が閾値に達したと決定すると、マッチング対象の名称テキストアイテムにマッチングするコンテンツテキストアイテムがないと決定することができる。これは、距離の近いいくつかのコンテンツテキストアイテムは、既にマッチング対象の名称テキストアイテムにマッチングしないと決定されており、マッチング対象の名称テキストアイテムからより遠いコンテンツテキストアイテムは、通常、マッチング対象の名称テキストアイテムにマッチングするコンテンツテキストアイテムではないため、候補集合における各々のコンテンツテキストアイテムがマッチング条件を満たすか否かを判断せず、マッチング対象の名称テキストアイテムにマッチングするコンテンツテキストアイテムがないと早めに決定することができる。この方式により、コンピューティング機器１２０は、マッチング対象の名称テキストアイテムのためにマッチングするコンテンツテキストアイテムを決定するためのオーバーヘッドを低減することができる。上記閾値が３に設定された場合、画像１１０において、名称テキストアイテム１１５－１がマッチング対象の名称テキストアイテムであると仮定すると、コンピューティング機器１２０は、コンテンツテキストアイテム１１５－２、１１５－４及び１１５－６がマッチング条件を満たさないと順次決定し、さらに、名称テキストアイテム１１５－１にマッチングするコンテンツテキストアイテムの候補集合からコンテンツテキストアイテム１１５－２、１１５－４及び１１５－６を除去することができる。したがって、コンテンツテキストアイテム１１５－６を除去した後、コンピューティング機器１２０は、除去した候補コンテンツテキストアイテムの数が３であり、既に閾値３に達したと決定できるため、名称テキストアイテム１１５－１にマッチングするコンテンツテキストアイテムがないと決定する。

上記で図１１の枠１１２０を説明した際に言及したように、一部の実施例において、コンピューティング機器１２０は、先に、２つのテキストアイテムに関連する２つの矩形領域を決定し、続いて、２つの矩形領域の角点間の距離に基づいて２つのテキストアイテムの距離を決定することができる。この方式により、名称テキストアイテムと候補コンテンツテキストアイテムとの間の距離の決定するコンピューティング機器１２０の効率及び正確性を高めることができる。以下、図１３及び図１４を参照しながら、このような実施例について説明する。

図１３は、本開示の実施例によるマッチング対象の名称テキストアイテムと候補コンテンツテキストアイテムとの間の距離を決定するための例示プロセス１３００を示すフローチャートである。一部の実施例において、例示プロセス１３００は、例示環境１００におけるコンピューティング機器１２０によって実施されてもよく、例えば、コンピューティング機器１２０のプロセッサ又は処理ユニットによって実施されてもよく、又は、コンピューティング機器１２０の様々な機能モジュールによって実施されてもよい。他の実施例において、例示プロセス１３００は、例示環境１００から独立したコンピューティング機器によって実施されるか、又は、例示環境１００における他のユニット又はモジュールによって実施されてもよい。

図１４は、本開示の実施例による２つのテキストアイテムに対応する２つの矩形領域に基づいて２つのテキストアイテム間の距離を決定することを示す模式図である。図１４の例において、一般性を失うことなく、画像１１０における名称テキストアイテム１１５－１３は、マッチング対象の名称テキストアイテムの例示として、コンテンツテキストアイテム１１５－１４は候補コンテンツテキストアイテムの例示として使用される。なお、図１４で描かれた距離の決定方式は、本開示の実施例におけるいずれの２つのテキストアイテム間の距離に適用できることを理解されたい。

図１３及び図１４を参照すると、枠１３１０において、コンピューティング機器１２０は、マッチング対象の名称テキストアイテム１１５－１３の画像１１０において対応する第１の矩形領域１４１５－１３を決定することができる。具体的には、コンピューティング機器１２０は、第１の矩形領域１４１５－１３の４つの角点Ａ１、Ｂ１、Ｃ１及びＤ１の参照座標系（例えば、画素座標系又は画像座標系など）における座標位置を検出することができる。一部の実施例において、図４を参照して説明した上記テキストアイテム検出モデル３１０によって検出されたテキストアイテム領域３１５－１３は、矩形形状であってもよい。これらの実施例において、コンピューティング機器１２０は、テキストアイテム領域３１５－１３を第１の矩形領域１４１５－１３とすることができる。他の実施例において、テキストアイテム検出モデル３１０によって検出されたテキストアイテム領域３１５－１３が矩形形状ではないと、コンピューティング機器１２０は、画像１１０内で名称テキストアイテム１１５－１３が位置する画素範囲に基づいて第１の矩形領域１４１５－１３を決定することができる。他の実施例において、テキストアイテム領域３１５－１３が矩形であるか否かに問わず、コンピューティング機器１２０は、第１の矩形領域１４１５－１３を別途に決定することができる。

枠１３２０において、コンピューティング機器１２０は、画像１１０内で候補コンテンツテキストアイテム１１５－１４に対応する第２の矩形領域１４１５－１４を決定することができる。具体的には、コンピューティング機器１２０は、第２の矩形領域１４１５－１４の４つの角点Ａ２、Ｂ２、Ｃ２及びＤ２の参照座標系（例えば、画素座標系又は画像座標系など）における座標位置を検出することができる。一部の実施例において、図４を参照して説明した上記テキストアイテム検出モデル３１０によって検出されたテキストアイテム領域３１５－１４は、矩形形状であってもよい。これらの実施例において、コンピューティング機器１２０は、テキストアイテム領域３１５－１４を第２の矩形領域１４１５－１４とすることができる。他の実施例において、テキストアイテム検出モデル３１０によって検出されたテキストアイテム領域３１５－１４が矩形形状ではないと、コンピューティング機器１２０は、画像１１０内で名称テキストアイテム１１５－１４が位置する画素範囲に基づいて第２の矩形領域１４１５－１４を決定することができる。他の実施例において、テキストアイテム領域３１５－１４が矩形であるか否かに問わず、コンピューティング機器１２０は、第２の矩形領域１４１５－１４を別途に決定することができる。

枠１３３０において、第１の矩形領域１４１５－１３と第２の矩形領域１４１５－１４との角点間の距離に基づいて、コンピューティング機器１２０は、候補コンテンツテキストアイテム１１５－１４とマッチング対象の名称テキストアイテム１１５－１３との間の距離を決定することができる。例えば、第１の矩形領域１４１５－１３及び第２の矩形領域１４１５－１４の大きさが大きく異なる可能性があるため、候補コンテンツテキストアイテム１１５－１４とマッチング対象の名称テキストアイテム１１５－１３との間の距離をより正確に決定するために、コンピューティング機器１２０は、角点間距離Ｄ１Ａ２と角点間距離Ｃ１Ｂ２の平均値を２つのテキストアイテム間の距離として決定することができる。他の実施例において、コンピューティング機器１２０は、角点間距離Ｄ１Ａ２又は角点間距離Ｃ１Ｂ２を２つのテキストアイテム間の距離として単独で決定してもよく、こうすると、コンピューティング機器１２０のコンピューティングの複雑性を低減することができる。

別の実施例において、コンピューティング機器１２０は、第１の矩形領域１４１５－１３と第２の矩形領域１４１５－１４との対応する角点間の距離に基づいて、２つのテキストアイテムの距離を決定することができる。こうすると、画像１１０の情報配置構造が左右構造又は右左構造ではない場合、コンピューティング機器１２０は、２つのテキストアイテム間の距離をより合理的に決定することができる。例えば、コンピューティング機器１２０は、角点間距離Ａ１Ａ２、角点間距離Ｂ１Ｂ２、角点間距離Ｃ１Ｃ２及び角点間距離Ｄ１Ｄ２のうちの１つを２つのテキストアイテム間の距離とすることができる。また、例えば、コンピューティング機器１２０は、これらの角点間距離のうちの２つ以上の角点間距離の平均値を２つのテキストアイテム間の距離とすることができる。より一般的に、コンピューティング機器１２０は、第１の矩形領域１４１５－１３及び第２の矩形領域１４１５－１４のいずれか２つの角点間の距離に基づいて２つのテキストアイテム間の距離を決定することができる。例えば、画像１１０の情報配置構造が上下構造であると決定した場合、コンピューティング機器１２０は、角点間距離Ｂ１Ａ２及び角点間距離Ｃ１Ｄ２の一方又は両方に基づいて２つのテキストアイテム間の距離を決定することができる。

図１５は、本開示の別の実施例による名称テキストアイテムとコンテンツテキストアイテムとの局所最近傍マッチングを実行し、かつ、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを出力し、又は、マッチングしない名称テキストアイテム及びコンテンツテキストアイテムを追加的に出力するための例示プロセス１５００を示すフローチャートである。一部の実施例において、例示プロセス１５００は、例示環境１００におけるコンピューティング機器１２０によって実施されてもよく、例えば、コンピューティング機器１２０のプロセッサ又は処理ユニットによって実施されるか、又は、コンピューティング機器１２０の様々な機能モジュールによって実施されてもよい。他の実施例において、例示プロセス１５００は、例示環境１００から独立したコンピューティング機器によって実施されるか、又は、例示環境１００における他のユニット又はモジュールによって実施されてもよい。説明の便宜上、図１を参照して例示プロセス１５００を説明する。

例示プロセス１５００を説明するために、コンピューティング機器１２０は、画像１１０においてＮ個の名称テキストアイテム１１７－１～１１７－Ｎ及びＭ個のコンテンツテキストアイテム１１９－１～１１９－Ｍを既に決定したと仮定する。例示プロセス１５００において、コンピューティング機器１２０は、局所最近傍測量に基づくアルゴリズムを用い、それは、名称テキストアイテムとコンテンツテキストアイテムとの間の空間位置関係を利用して、局所最近傍アルゴリズムに基づいて、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを発見的に探す。したがって、当該アルゴリズムは、左右、上下、右左などのよく見られる情報配置構造をサポートすることができる。本開示の文脈において、例示プロセス１５００は、局所最近傍測量に基づく名称テキストアイテムとコンテンツテキストアイテムのマッチング（例えば、キー値マッチング）と呼ばれてもよい。

枠１５１０において、コンピューティング機器１２０は、Ｎ個の名称テキストアイテム１１７－１～１１７－Ｎ及びＭ個のコンテンツテキストアイテム１１９－１～１１９－Ｍに対して距離行列Ｄ_ＮＭを確立することができ、ここで、Ｎは名称テキストアイテムの数であり、Ｍはコンテンツテキストアイテムの数である。名称テキストアイテムとコンテンツテキストアイテムとの間の距離は、上記方式によって決定することができ、ここでは繰り返して説明しない。例えば、名称テキストアイテムとコンテンツテキストアイテムの矩形枠の大きさは大きく異なる可能性があるため、テキストアイテム間の距離は、名称テキストアイテム矩形枠の右上角点、右下角点のそれぞれと、コンテンツテキストアイテム矩形枠の左上角点、左下角点との距離の平均値を算出することにより得ることができる。したがって、画像１１０が「餐飲服務許可証」の写真である例示において、距離行列Ｄ_ＮＭを確立するための入力は、・・・、「法定代表者（担当者）、｛ｘ１，ｙ１，ｘ２，ｙ２｝」、「住所、｛ｘ１，ｙ１，ｘ２，ｙ２｝」・・・、などの名称テキストアイテムと、・・・、「張三（法定代表者）、｛ｘ１，ｙ１，ｘ２，ｙ２｝」、「ＸＸ省ＸＸ市ＸＸ路ＸＸ号、｛ｘ１，ｙ１，ｘ２，ｙ２｝」・・・、などのコンテンツテキストアイテムとであってもよく、ここで、｛ｘ１，ｙ１，ｘ２，ｙ２｝は、名称テキストアイテムの矩形枠の右上角点と右下角点の座標、及びコンテンツテキストアイテムの矩形枠の左上角点と左下角点の座標を表す。

枠１５２０において、コンピューティング機器１２０は、距離が最も近い名称テキストアイテム及びコンテンツテキストアイテムに基づいて画像１１０内の情報配置構造を決定することができる。画像１１０の情報配置構造の決定方式は、上記図１１及び図１２の説明を参照することができ、ここでは繰り返して説明しない。枠１５３０において、コンピューティング機器１２０は、１つの名称テキストアイテムについて、それに最も近いＸ個のコンテンツテキストアイテムを決定し、そして距離の遠近にしたがってＸ個のコンテンツテキストアイテムがマッチング条件を満たすか否かを順次決定することができる。例えば、マッチング条件は、コンテンツテキストアイテムと名称テキストアイテムの位置関係が画像１１０内の情報配置構造に一致することを含み得る。無論、マッチング条件は、距離及び夾角に関する条件をさらに含んでもよく、ここでは繰り返して説明しないが、詳細は上記説明を参照してください。

一部の実施例において、コンピューティング機器１２０は、距離が最も近い参照名称テキストアイテム及び参照コンテンツテキストアイテムを、既にマッチングすると決定したと仮定すると、コンピューティング機器１２０は、残りＮ～１個の名称テキストアイテムに対してマッチングを実行することができる。具体的には、コンピューティング機器１２０は、各々の名称テキストアイテムがトラバースされるまで下記のプロセスを繰り返してもよい。毎回、距離行列Ｄ_ＮＭにおける最小値

、即ち、ｉ番目の名称テキストアイテムとｊ番目のコンテンツテキストアイテムの距離が最も短いことを見出し、続いて、それがマッチング条件を満たすか否かを判断する。一部の状況では、複数のコンテンツテキストアイテム間の距離が近い可能性があるため、コンピューティング機器１２０は、ある名称テキストアイテムに最も近いＸ個（例えば、３個）のコンテンツテキストアイテムを見出して、名称テキストアイテム及びＸ個のコンテンツテキストアイテムがマッチング条件を満たすか否かを順次判断することができる。

枠１５４０において、コンピューティング機器１２０は、当該名称テキストアイテムについて、マッチングに成功したか否か、即ち、マッチングするコンテンツテキストアイテムを見出したか否かを決定することができる。枠１５５０において、Ｘ個のコンテンツテキストアイテムにマッチング条件を満たすコンテンツテキストアイテムがあると、それと名称テキストアイテムとのマッチングは成功した。マッチングするコンテンツテキストアイテムを見出すと、コンピューティング機器１２０は、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを出力することができる。一部の実施例において、コンピューティング機器１２０は、距離行列Ｄ_ＮＭにおける既にマッチングに成功した名称テキストアイテムが位置する行全体を無限大に設定してもよい。枠１５６０において、Ｘ個のコンテンツテキストアイテムと名称テキストアイテムが、両方ともマッチングに失敗すると、コンピューティング機器１２０は、この名称テキストアイテムにマッチングするコンテンツテキストアイテムがないと決定することができる。マッチングするコンテンツテキストアイテムが見出されていない場合、コンピューティング機器１２０は、マッチングに成功していない名称テキストアイテム及びコンテンツテキストアイテムを選択的に出力することができる。枠１５７０において、Ｎ個の名称テキストアイテム１１７－１～１１７－Ｎに対してマッチングプロセスをＮ回繰り返して実行して、コンピューティング機器１２０は、Ｎ個の名称テキストアイテム１１７－１～１１７－Ｎのために、マッチングするコンテンツテキストアイテムをそれぞれ決定することができる。

図１５において出力を表すための枠１５０５に示すように、Ｎ個の名称テキストアイテム１１７－１～１１７－Ｎのそれぞれについて、マッチングするコンテンツテキストアイテムを決定するか、又はそれにマッチングするコンテンツテキストアイテムがないことを決定した後、コンピューティング機器１２０は、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを出力することができる。図１５の例示において、出力１５０５は、テキストの形式を用いてマッチングに成功した名称テキストアイテム及びコンテンツテキストアイテムを順次列挙する。例えば、画像１１０が「餐飲服務許可証」の写真であるという具体的な例示において、出力１５０５は、法定代表者（担当者）：張三（法定代表者）、住所：ＸＸ省ＸＸ市ＸＸ路ＸＸ号などを含むことができる。上記で図２の枠２４０を説明した際に言及したように、一部の実施例において、コンピューティング機器１２０は、さらに、グラフィカル表現の形式を用いてマッチングする名称テキストアイテム及びコンテンツテキストアイテムを出力することができる。これにより、コンピューティング機器１２０は、マッチングする名称テキストアイテムとコンテンツテキストアイテムとの間のマッチング関係をより一層直観的にユーザに見せることができる。以下、図１６を参照しながら、このような実施例について説明する。

図１６は、本開示の実施例による名称テキストアイテムとコンテンツテキストアイテムとのマッチング関係を指示するためのグラフィカル表現を示す模式図である。図１６に示すように、コンピューティング機器１２０は、マークされた画像１１０を出力することができ、ここで、それぞれ異なる色又は形状のマーク枠を使用して、名称テキストアイテムの第１の集合１１７及びコンテンツテキストアイテムの第２の集合１１９をマークすることができる。具体的には、コンピューティング機器１２０は、青色又は矩形のマーク枠を使用して画像１１０における全ての名称テキストアイテムをマークし、赤色又は楕円形のマーク枠を使用して画像１１０における全てのコンテンツテキストアイテムをマークすることができる。ここに列挙された色及び形状は、例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しないと指摘すべきである。他の実施例において、コンピューティング機器１２０は、いずれの区別可能な色、形状又は他の特徴を使用して第１の集合１１７及び第２の集合１１９をマークすることができる。

図１６の例において、テキストアイテム領域３１５－１～３１５－１８をテキストアイテム１１５－１～１１５－１８のマーク枠とする。これにより、マークされた画像１１０を出力するとき、コンピューティング機器１２０は、テキストアイテム１１５－１～１１５－１８を認識するために検出したテキストアイテム領域３１５－１～３１５－１８を反復で利用することができ、それにより、マークするためにコンピューティング機器１２０の操作が追加されることを回避し、コンピューティング機器１２０のオーバーヘッドを節約した。無論、他の実施例において、コンピューティング機器１２０は、マークされた画像１１０を出力するために、テキストアイテム１１５－１～１１５－１８のマーク枠を別途に表示してもよい。

図１６で描かれた出力方式で、コンピューティング機器１２０は、名称テキストアイテムとコンテンツテキストアイテムとのマッチング関係を指示するためのグラフィカル表現を出力することができる。例えば、コンピューティング機器１２０は、テキストアイテム領域３１５－３の左上角点とテキストアイテム領域３１５－４の左上角点との間に、名称テキストアイテム１１５－３とコンテンツテキストアイテム１１５－４とのマッチング関係を指示するための連結線１６１０をマークすることができる。同様に、コンピューティング機器１２０は、連結線１６２０をマークして名称テキストアイテム１１５－５とコンテンツテキストアイテム１１５－６とのマッチング関係を指示することができ、連結線１６２０をマークして名称テキストアイテム１１５－７とコンテンツテキストアイテム１１５－８とのマッチング関係を指示することができ、連結線１６４０をマークして名称テキストアイテム１１５－９とコンテンツテキストアイテム１１５－１０とのマッチング関係を指示することができ、連結線１６５０をマークして名称テキストアイテム１１５－１１とコンテンツテキストアイテム１１５－１２とのマッチング関係を指示することができ、連結線１６６０をマークして名称テキストアイテム１１５－１３とコンテンツテキストアイテム１１５－１４とのマッチング関係を指示することができ、かつ、連結線１６７０をマークして名称テキストアイテム１１５－１６とコンテンツテキストアイテム１１５－１７とのマッチング関係を指示することができる。

一部の実施例において、連結線１６１０～１６７０は、名称テキストアイテムのマーク枠及びコンテンツテキストアイテムのマーク枠に対して、テキストアイテム間のマッチング関係を強調表示するために、異なる色（例えば、緑色）でマークされてもよい。一部の実施例において、連結線１６１０～１６７０は、名称テキストアイテムのマーク枠及びコンテンツテキストアイテムのマーク枠に対して、テキストアイテム間のマッチング関係を強調表示するために、より太い線でマークしてもよい。図１６で描かれたマッチング関係を指示するための連結線１６１０～１６７０は、例示的なものにすぎず、いずれの方式で本開示の範囲を制限することを意図しないことは理解できるだろう。

他の実施例において、コンピューティング機器１２０は、いずれの他のグラフィカル表現を使用して名称テキストアイテムとコンテンツテキストアイテムとのマッチング関係を指示することができる。例えば、マッチング関係を指示するための連結線は、名称テキストアイテムのマーク枠とコンテンツテキストアイテムのマーク枠の他の位置とを連結してよく、連結線は、曲線又は他の形式の線に設定されてもよく、連結線の色及び太さは、他の適宜な設定が可能である、などがある。より一般的に、コンピューティング機器１２０は、画像形式の出力において、テキストアイテムのマッチング関係を指示できるいずれのグラフィカル表現を表示することができる。

図１７は、本開示の実施例による情報処理のための示例装置１７００を示すブロック図である。一部の実施例において、装置１７００は、図１のコンピューティング機器１２０に含まれるか、又はコンピューティング機器１２０として実装することができる。

図１７に示すように、装置１７００は、認識モジュール１７１０と、分割モジュール１７２０と、マッチングモジュール１７３０と、出力モジュール１７４０とを含み得る。認識モジュール１７１０は、画像内の複数のテキストアイテムを認識するように構成される。分割モジュール１７２０は、複数のテキストアイテムの意味に基づいて、複数のテキストアイテムを名称テキストアイテムの第１の集合とコンテンツテキストアイテムの第２の集合に分割するように構成される。マッチングモジュール１７３０は、画像における複数のテキストアイテムの配置に基づいて、第１の集合と第２の集合とのマッチングを実行して、第１の集合の名称テキストアイテムにマッチングする第２の集合のコンテンツテキストアイテムを決定するように構成される。出力モジュール１７４０は、マッチングする名称テキストアイテム及びコンテンツテキストアイテムを出力するように構成される。

一部の実施例において、認識モジュール１７１０は、テキストアイテム検出モジュールと、テキストアイテム認識モジュールとを含む。テキストアイテム検出モジュールは、テキストアイテム検出モデルに基づいて、画像から複数のテキストアイテム領域を検出するように構成される。テキストアイテム認識モジュールは、文字認識モデルに基づいて、複数のテキストアイテム領域から複数のテキストアイテムを認識するように構成される。

一部の実施例において、テキストアイテム検出モデルは、専用データに基づいて初期テキストアイテム検出モデルのインクリメンタル学習を実行することにより構築され、ここで、初期テキストアイテム検出モデルは、汎用データを用いてトレーニングされたものであり、専用データは、タグ付けされた名称テキストアイテム及びコンテンツテキストアイテムを含む。

一部の実施例において、分割モジュール１７２０は、テキストアイテムタイプ決定モジュールを含む。テキストアイテムタイプ決定モジュールは、意味分類モデルに基づいて、複数のテキストアイテムにおける各テキストアイテムが名称テキストアイテムであるか、又はコンテンツテキストアイテムであるかを決定するように構成される。

一部の実施例において、意味分類モデルは、専用データに基づいて初期意味分類モデルのインクリメンタル学習を実行することにより構築され、ここで、初期意味分類モデルは、汎用データを用いてトレーニングされたものであり、専用データは、タグ付けされた名称テキストアイテム及びコンテンツテキストアイテムを含む。

一部の実施例において、マッチングモジュール１７３０は、候補集合決定モジュールと、候補コンテンツテキストアイテム決定モジュールと、マッチング判定モジュールとを含む。候補集合決定モジュールは、第１の集合におけるマッチング対象の名称テキストアイテムについて、マッチングするコンテンツテキストアイテムの候補集合を決定するように構成される。候補コンテンツテキストアイテム決定モジュールは、候補集合からマッチング対象の名称テキストアイテムに最も近い候補コンテンツテキストアイテムを決定するように構成される。マッチング判定モジュールは、候補コンテンツテキストアイテムがマッチング条件を満たすと決定すると、候補コンテンツテキストアイテムはマッチング対象の名称テキストアイテムにマッチングすると決定するように構成される。

一部の実施例において、装置１７００は、除去モジュールをさらに含む。除去モジュールは、候補コンテンツテキストアイテムがマッチング条件を満たさないと決定すると、候補集合から候補コンテンツテキストアイテムを除去するように構成される。

一部の実施例において、装置１７００は、マッチング終了モジュールをさらに含む。マッチング終了モジュールは、候補集合から除去されたコンテンツテキストアイテムの数が閾値に達したと決定すると、マッチング対象の名称テキストアイテムにマッチングするコンテンツテキストアイテムがないと決定するように構成される。

一部の実施例において、候補集合決定モジュールは、候補集合初期決定モジュールを含む。候補集合初期決定モジュールは、第２の集合を初期的に候補集合として決定するように構成される。

一部の実施例において、マッチング条件は、候補コンテンツテキストアイテムとマッチング対象の名称テキストアイテムとの位置関係が画像内の情報配置構造に合致すること、候補コンテンツテキストアイテムとマッチング対象の名称テキストアイテムとの間の距離が閾値距離未満であること、候補コンテンツテキストアイテム及びマッチング対象の名称テキストアイテムの中心点の連結線と参照方向とがなす夾角と、参照夾角との差が閾値角度未満であることのうちの少なくとも１つを含む。

一部の実施例において、装置１７００は、参照テキストアイテム決定モジュールと、情報配置構造決定モジュールとをさらに含む。参照テキストアイテム決定モジュールは、第１の集合及び第２の集合から距離が最も小さい参照名称テキストアイテム及び参照コンテンツテキストアイテムを決定するように構成される。情報配置構造決定モジュールは、参照名称テキストアイテムと参照コンテンツテキストアイテムとの位置関係に基づいて、情報配置構造を決定するように構成される。

一部の実施例において、情報配置構造決定モジュールは、夾角決定モジュールと、左右構造決定モジュールと、上下構造決定モジュールと、右左構造決定モジュールとを含む。夾角決定モジュールは、参照名称テキストアイテム及び参照コンテンツテキストアイテムの中心点の連結線と参照方向とがなす夾角を決定するように構成される。左右構造決定モジュールは、夾角が第１の角度範囲に属すると決定された場合、情報配置構造が左右構造であると決定するように構成される。上下構造決定モジュールは、夾角が第２の角度範囲に属すると決定された場合、情報配置構造が上下構造であると決定するように構成される。右左構造決定モジュールは、夾角が第３角度範囲に属すると決定された場合、情報配置構造が右左構造であると決定するように構成される。

一部の実施例において、装置１７００は、マッチングテキストアイテム距離決定モジュールと、閾値距離決定モジュールとをさらに含む。マッチングテキストアイテム距離決定モジュールは、マッチングする複数組の名称テキストアイテムとコンテンツテキストアイテムとの間の複数の距離を決定するように構成される。閾値距離決定モジュールは、複数の距離の平均値に基づいて、閾値距離を決定するように構成される。

一部の実施例において、装置１７００は、マッチングテキストアイテム夾角決定モジュールと、参照夾角決定モジュールとをさらに含む。マッチングテキストアイテム夾角決定モジュールは、マッチングする複数組の名称テキストアイテムとコンテンツテキストアイテムの中心点の連結線と、参照方向とがなす複数の夾角を決定するように構成される。参照夾角決定モジュールは、複数の夾角の平均値に基づいて、参照夾角を決定するように構成される。

一部の実施例において、装置１７００は、第１の矩形領域決定モジュールと、第２の矩形領域決定モジュールと、距離決定モジュールとをさらに含む。第１の矩形領域決定モジュールは、マッチング対象の名称テキストアイテムに対応する画像内の第１の矩形領域を決定するように構成される。第２の矩形領域決定モジュールは、候補コンテンツテキストアイテムに対応する画像内の第２の矩形領域を決定するように構成される。距離決定モジュールは、第１の矩形領域及び第２の矩形領域の角点間の距離に基づいて、候補コンテンツテキストアイテムとマッチング対象の名称テキストアイテムとの間の距離を決定するように構成される。

一部の実施例において、出力モジュール１７４０は、グラフィカル表現出力モジュールを含む。グラフィカル表現出力モジュールは、名称テキストアイテムとコンテンツテキストアイテムとのマッチング関係を指示するためのグラフィカル表現を出力するように構成される。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本出願によって提供される情報処理方法を実行させる。

図１８は、本開示の実施例を実施するために用いることができる示例電子機器１８００を示すブロック図である。図１８に示すように、電子機器１８００は、中央処理ユニット（ＣＰＵ）１８０１を含み、それは、読み取り専用メモリ（ＲＯＭ）１８０２に記憶されているコンピュータプログラム命令、又は記憶ユニット１８０８からランダムアクセスメモリ（ＲＡＭ）１８０３にローディングされたコンピュータプログラム命令にしたがって、様々な適宜な動作と処理を実行することができる。ＲＡＭ１８０３に、機器１８００の操作に必要な様々なプログラムとデータを記憶することもできる。ＣＰＵ１８０１、ＲＯＭ１８０２とＲＡＭ１８０３は、バス１８０４を介して互いに接続される。入力／出力（Ｉ／Ｏ）インターフェース１８０５もバス１８０４に接続される。

電子機器１８００における複数の部材は、Ｉ／Ｏインターフェース１８０５に接続され、例えばキーボード、マウスなどの入力ユニット１８０６と、例えば様々なディスプレイ、スピーカなどの出力ユニット１８０７と、例えば磁気ディスク、光ディスクなどの記憶ユニット１８０８と、例えばネットワークカード、モデム、無線通信用トランシーバーなどの通信ユニット１８０９と、を含む。通信ユニット１８０９によって、電子機器１８００がインターネットなどのコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して他の機器と情報／データを交換することが可能になる。

例示プロセス２００、１１００、１３００、１５００などの上述した各プロセス及び処理は、処理ユニット１８０１によって実行可能である。例えば、一部の実施例において、例示プロセス２００、１１００、１３００、１５００は、コンピュータソフトウェアプログラムとして実装でき、記憶ユニット１８０８などの機械読み取り可能な媒体に物理的に含まれる。一部の実施例において、コンピュータプログラムの一部又は全部は、ＲＯＭ１８０２及び／又は通信ユニット１８０９を介して電子機器１８００にローディング及び／又はインストールされることができる。コンピュータプログラムが、ＲＡＭ１８０３にローディングされてＣＰＵ１８０１によって実行されると、上述した例示プロセス２００、１１００、１３００、１５００の１つ以上のステップを実行することができる。

本明細書で使用されるように、「含む」という用語及びその類似語は、制限のない包含、即ち、「含むが、それに限定されない」という意味で理解すべきである。「に基づく」という用語は、「少なくとも一部が…に基づく」という意味で理解すべきである。「一実施例」又は「当該実施例」という用語は、「少なくとも１つの実施例」という意味で理解すべきである。「第１の」、「第２の」などの用語は、異なる又は同じオブジェクトを指し得る。本明細書に他の明示的及び暗黙的な定義が含まれている可能性もある。

本明細書で使用されるように、「決定」という用語は、様々な動作をカバーしている。例えば、「決定」は、演算、算出、処理、導出、調査、検索（例えば、テーブル、データベース又は他のデータ構造から検索）、確認などを含むことができる。さらに、「決定」は、受信（例えば、情報の受信）、アクセス（例えば、メモリのデータにアクセス）などを含み得る。さらに、「決定」は、解析、選択、選別、確立などを含み得る。

本開示の実施例は、ハードウェア、ソフトウェア、又はソフトウェアとハードウェアの組み合わせによって実現できることに留意されたい。ハードウェア部分は、専用ロジックによって実装でき、ソフトウェア部分は、メモリに記憶されて、マイクロプロセッサ又は専用設計ハードウェアなどの適宜命令実行システムによって実現できる。当業者であれば、上記機器及び方法は、コンピュータ実行可能な命令を使用したり、及び／又は、プロセッサ制御コードに含まれたりすることによって実現でき、例えば、プログラム可能なメモリ、又は光学や電子信号キャリアのデータキャリアにおいてこのようなコード提供することを理解できる。

また、添付図面において、本開示の方法の操作を特定の順序で説明したが、これは、これらの操作を当該特定の順序にしたがって実行する必要があること、又は、所望の結果を達成するために、示された全ての操作を実行する必要があることを要求又は暗示するわけではない。むしろ、フローチャートで描かれたステップは、実行順序を変更することができる。追加的に又は選択的に、一部のステップを省略すること、複数のステップを１つのステップに組み合わせて実行すること、及び／又は、１つのステップを複数のステップに分解して実行することができる。また、本開示による２つ以上の装置の特徴と機能に基づいて、１つの装置に具現化してもよいことに留意されたい。これに反して、上に説明した１つの装置の特徴及び機能を、複数の装置によって具現化されるように分割してもよい。

いくつかの具体的な実施例を参照して本開示を説明したが、本開示は、開示された具体的な実施例に制限されないことに留意されたい。本開示は、添付の特許請求の範囲の精神と範囲内で行われた様々な修正及び等価の配置を網羅することを意図している。

Claims

情報処理方法であって、
画像内の複数のテキストアイテムを認識するステップと、
前記複数のテキストアイテムの意味に基づいて、前記複数のテキストアイテムを名称テキストアイテムの第１の集合とコンテンツテキストアイテムの第２の集合に分割するステップと、
前記画像における前記複数のテキストアイテムの配置に基づいて、前記第１の集合と前記第２の集合とのマッチングを実行して、前記第１の集合の名称テキストアイテムにマッチングする前記第２の集合のコンテンツテキストアイテムを決定するステップと、
マッチングする前記名称テキストアイテム及び前記コンテンツテキストアイテムを出力するステップと、を含み、
前記第１の集合と前記第２の集合とのマッチングを実行するステップは、
前記第１の集合におけるマッチング対象の名称テキストアイテムに対して、マッチングするコンテンツテキストアイテムの候補集合を決定するステップと、
前記候補集合から前記マッチング対象の名称テキストアイテムに最も近い候補コンテンツテキストアイテムを決定するステップと、
前記候補コンテンツテキストアイテムがマッチング条件を満たすと決定された場合、前記候補コンテンツテキストアイテムが前記マッチング対象の名称テキストアイテムにマッチングすると決定するステップと、を含み、
前記マッチング条件は、
前記候補コンテンツテキストアイテムと前記マッチング対象の名称テキストアイテムとの間の位置関係が前記画像内の情報配置構造に合致すること、
前記候補コンテンツテキストアイテムと前記マッチング対象の名称テキストアイテムとの間の距離が閾値距離未満であること、及び
前記候補コンテンツテキストアイテムと前記マッチング対象の名称テキストアイテムとの中心点の連結線と参照方向との夾角と、参照夾角との差が閾値角度未満であることのうちの少なくとも１つを含む、
ことを特徴とする情報処理方法。
前記画像内の前記複数のテキストアイテムを認識するステップは、
テキストアイテム検出モデルに基づいて、前記画像から複数のテキストアイテム領域を検出するステップと、
文字認識モデルに基づいて、前記複数のテキストアイテム領域から前記複数のテキストアイテムを認識するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記テキストアイテム検出モデルは、専用データに基づいて初期テキストアイテム検出モデルのインクリメンタル学習を実行することによって構築され、前記初期テキストアイテム検出モデルは、汎用データを使用してトレーニングされ、前記専用データは、タグ付けされた名称テキストアイテム及びコンテンツテキストアイテムを含む、
ことを特徴とする請求項２に記載の方法。
前記複数のテキストアイテムの意味に基づいて、前記複数のテキストアイテムを前記第１の集合と前記第２の集合に分割するステップは、
意味分類モデルに基づいて、前記複数のテキストアイテムの各々が名称テキストアイテムであるか、又はコンテンツテキストアイテムであるかを決定するステップを含む、
ことを特徴とする請求項１に記載の方法。
前記意味分類モデルは、専用データに基づいて初期意味分類モデルのインクリメンタル学習を実行することによって構築され、前記初期意味分類モデルは、汎用データを使用してトレーニングされ、前記専用データは、タグ付けされた名称テキストアイテム及びコンテンツテキストアイテムを含む、
ことを特徴とする請求項４に記載の方法。
前記候補コンテンツテキストアイテムが前記マッチング条件を満たさないと決定された
場合、前記候補集合から前記候補コンテンツテキストアイテムを除去するステップをさらに含む、
ことを特徴とする請求項１に記載の方法。
前記候補集合から除去されたコンテンツテキストアイテムの数が閾値に達したと決定された場合、前記マッチング対象の名称テキストアイテムにマッチングするコンテンツテキストアイテムがないと決定するステップをさらに含む、
ことを特徴とする請求項６に記載の方法。
前記候補集合を決定するステップは、
前記第２の集合を初期的に前記候補集合として決定するステップを含む、
ことを特徴とする請求項１に記載の方法。
前記マッチング条件は、前記候補コンテンツテキストアイテムと前記マッチング対象の名称テキストアイテムとの間の位置関係が前記画像内の情報配置構造に合致することを含む場合、前記方法は、
前記第１の集合及び前記第２の集合において、距離が最も小さい参照名称テキストアイテム及び参照コンテンツテキストアイテムを決定するステップと、
前記参照名称テキストアイテムと前記参照コンテンツテキストアイテムとの間の位置関係に基づいて、前記情報配置構造を決定するステップと、をさらに含む、
ことを特徴とする請求項１に記載の方法。
前記情報配置構造を決定するステップは、
前記参照名称テキストアイテム及び前記参照コンテンツテキストアイテムの中心点の連結線と、参照方向との夾角を決定するステップと、
前記夾角が第１の角度範囲に属すると決定された場合、前記情報配置構造が左右構造であると決定するステップと、
前記夾角が第２の角度範囲に属すると決定された場合、前記情報配置構造が上下構造であると決定するステップと、
前記夾角が第３角度範囲に属すると決定された場合、前記情報配置構造が右左構造であると決定するステップと、を含む、
ことを特徴とする請求項９に記載の方法。
前記マッチング条件は、前記候補コンテンツテキストアイテムと前記マッチング対象の名称テキストアイテムとの間の距離が閾値距離未満であることを含む場合、前記方法は、
マッチングする複数組の名称テキストアイテムとコンテンツテキストアイテムとの間の複数の距離を決定するステップと、
前記複数の距離の平均値に基づいて、前記閾値距離を決定するステップと、をさらに含む、
ことを特徴とする請求項１に記載の方法。
前記マッチング条件は、前記候補コンテンツテキストアイテムと前記マッチング対象の名称テキストアイテムとの中心点の連結線と参照方向との夾角と、参照夾角との差が閾値角度未満であることを含む場合、前記方法は、
マッチングする複数組の名称テキストアイテムとコンテンツテキストアイテムとの中心点の連結線と、前記参照方向とがなす複数の夾角を決定するステップと、
前記複数の夾角の平均値に基づいて、前記参照夾角を決定するステップと、をさらに含む、
ことを特徴とする請求項１に記載の方法。
前記マッチング対象の名称テキストアイテムに対応する前記画像内の第１の矩形領域を決定するステップと、
前記候補コンテンツテキストアイテムに対応する前記画像内の第２の矩形領域を決定するステップと、
前記第１の矩形領域と前記第２の矩形領域との角点間の距離に基づいて、前記候補コンテンツテキストアイテムと前記マッチング対象の名称テキストアイテムとの間の距離を決定するステップと、をさらに含む、
ことを特徴とする請求項１に記載の方法。
マッチングする前記名称テキストアイテム及び前記コンテンツテキストアイテムを出力するステップは、
前記名称テキストアイテムと前記コンテンツテキストアイテムとのマッチング関係を指示するためのグラフィカル表現を出力するステップを含む、
ことを特徴とする請求項１に記載の方法。
情報処理装置であって、
画像内の複数のテキストアイテムを認識するように構成される認識モジュールと、
前記複数のテキストアイテムの意味に基づいて、前記複数のテキストアイテムを名称テキストアイテムの第１の集合とコンテンツテキストアイテムの第２の集合に分割するように構成される分割モジュールと、
前記画像における前記複数のテキストアイテムの配置に基づいて、前記第１の集合と前記第２の集合とのマッチングを実行して、前記第１の集合の名称テキストアイテムにマッチングする前記第２の集合のコンテンツテキストアイテムを決定するように構成されるマッチングモジュールと、
マッチングする前記名称テキストアイテム及び前記コンテンツテキストアイテムを出力するように構成される出力モジュールと、を含み、
前記マッチングモジュールが、
前記第１の集合におけるマッチング対象の名称テキストアイテムに対して、マッチングするコンテンツテキストアイテムの候補集合を決定するように構成される候補集合決定モジュールと、
前記候補集合から前記マッチング対象の名称テキストアイテムに最も近い候補コンテンツテキストアイテムを決定するように構成される候補コンテンツテキストアイテム決定モジュールと、
前記候補コンテンツテキストアイテムがマッチング条件を満たすと決定された場合、前記候補コンテンツテキストアイテムが前記マッチング対象の名称テキストアイテムにマッチングすると決定するように構成されるマッチング判定モジュールと、を含み、
前記マッチング条件は、
前記候補コンテンツテキストアイテムと前記マッチング対象の名称テキストアイテムとの間の位置関係が前記画像内の情報配置構造に合致すること、
前記候補コンテンツテキストアイテムと前記マッチング対象の名称テキストアイテムとの間の距離が閾値距離未満であること、及び
前記候補コンテンツテキストアイテムと前記マッチング対象の名称テキストアイテムとの中心点の連結線と参照方向との夾角と、参照夾角との差が閾値角度未満であることのうちの少なくとも１つを含む、
ことを特徴とする情報処理装置。
前記認識モジュールが、
テキストアイテム検出モデルに基づいて、前記画像から複数のテキストアイテム領域を検出するように構成されるテキストアイテム検出モジュールと、
文字認識モデルに基づいて、前記複数のテキストアイテム領域から前記複数のテキストアイテムを認識するように構成されるテキストアイテム認識モジュールと、を含む、
ことを特徴とする請求項１５に記載の装置。
前記テキストアイテム検出モデルは、専用データに基づいて初期テキストアイテム検出モデルのインクリメンタル学習を実行することによって構築され、前記初期テキストアイテム検出モデルは、汎用データを使用してトレーニングされ、前記専用データは、タグ付けされた名称テキストアイテム及びコンテンツテキストアイテムを含む、
ことを特徴とする請求項１６に記載の装置。
前記分割モジュールが、
意味分類モデルに基づいて、前記複数のテキストアイテムの各々が名称テキストアイテムであるか、又はコンテンツテキストアイテムであるかを決定するように構成されるテキストアイテムタイプ決定モジュールを含む、
ことを特徴とする請求項１５に記載の装置。
前記意味分類モデルは、専用データに基づいて初期意味分類モデルのインクリメンタル
学習を実行することによって構築され、前記初期意味分類モデルは、汎用データを使用してトレーニングされ、前記専用データは、タグ付けされた名称テキストアイテム及びコンテンツテキストアイテムを含む、
ことを特徴とする請求項１８に記載の装置。
前記候補コンテンツテキストアイテムが前記マッチング条件を満たさないと決定された場合、前記候補集合から前記候補コンテンツテキストアイテムを除去するように構成される除去モジュールをさらに含む、
ことを特徴とする請求項１５に記載の装置。
前記候補集合から除去されたコンテンツテキストアイテムの数が閾値に達したと決定された場合、前記マッチング対象の名称テキストアイテムにマッチングするコンテンツテキストアイテムがないと決定するように構成されるマッチング終了モジュールをさらに含む、
ことを特徴とする請求項２０に記載の装置。
前記候補集合決定モジュールが、
前記第２の集合を初期的に前記候補集合として決定するように構成される候補集合初期決定モジュールを含む、
ことを特徴とする請求項１５に記載の装置。
前記マッチング条件は、前記候補コンテンツテキストアイテムと前記マッチング対象の名称テキストアイテムとの間の位置関係が前記画像内の情報配置構造に合致することを含む場合、前記装置は、
前記第１の集合及び前記第２の集合において、距離が最も小さい参照名称テキストアイテム及び参照コンテンツテキストアイテムを決定するように構成される参照テキストアイテム決定モジュールと、
前記参照名称テキストアイテムと前記参照コンテンツテキストアイテムとの間の位置関係に基づいて、前記情報配置構造を決定するように構成される情報配置構造決定モジュールと、をさらに含む、
ことを特徴とする請求項１５に記載の装置。
前記情報配置構造決定モジュールが、
前記参照名称テキストアイテムと前記参照コンテンツテキストアイテムとの中心点の連結線と、参照方向との夾角を決定するように構成される夾角決定モジュールと、
前記夾角が第１の角度範囲に属すると決定された場合、前記情報配置構造が左右構造であると決定するように構成される左右構造決定モジュールと、
前記夾角が第２の角度範囲に属すると決定された場合、前記情報配置構造が上下構造であると決定するように構成される上下構造決定モジュールと、
前記夾角が第３角度範囲に属すると決定された場合、前記情報配置構造が右左構造であると決定するように構成される右左構造決定モジュールと、を含む、
ことを特徴とする請求項２３に記載の装置。
前記マッチング条件は、前記候補コンテンツテキストアイテムと前記マッチング対象の名称テキストアイテムとの間の距離が閾値距離未満であることを含む場合、前記装置は、
マッチングする複数組の名称テキストアイテムとコンテンツテキストアイテムとの間の複数の距離を決定するように構成されるマッチングテキストアイテム距離決定モジュールと、
前記複数の距離の平均値に基づいて、前記閾値距離を決定するように構成される閾値距離決定モジュールと、をさらに含む、
ことを特徴とする請求項１５に記載の装置。
前記マッチング条件は、前記候補コンテンツテキストアイテムと前記マッチング対象の名称テキストアイテムとの中心点の連結線と参照方向との夾角と、参照夾角との差が閾値角度未満であることを含む場合、前記装置は、
マッチングする複数組の名称テキストアイテムとコンテンツテキストアイテムとの中心点の連結線と、前記参照方向とがなす複数の夾角を決定するように構成されるマッチングテキストアイテム夾角決定モジュールと、
前記複数の夾角の平均値に基づいて、前記参照夾角を決定するように構成される参照夾角決定モジュールと、をさらに含む、
ことを特徴とする請求項１５に記載の装置。
前記マッチング対象の名称テキストアイテムに対応する前記画像内の第１の矩形領域を決定するように構成される第１の矩形領域決定モジュールと、
前記候補コンテンツテキストアイテムに対応する前記画像内の第２の矩形領域を決定するように構成される第２の矩形領域決定モジュールと、
前記第１の矩形領域と前記第２の矩形領域との角点間の距離に基づいて、前記候補コンテンツテキストアイテムと前記マッチング対象の名称テキストアイテムとの間の距離を決定するように構成される距離決定モジュールと、をさらに含む、
ことを特徴とする請求項１５に記載の装置。
前記出力モジュールが、
前記名称テキストアイテムと前記コンテンツテキストアイテムとのマッチング関係を指示するためのグラフィカル表現を出力するように構成されるグラフィカル表現出力モジュールを含む、
ことを特徴とする請求項１５に記載の装置。
プロセッサと、
前記プロセッサに通信可能に接続されるメモリと、を含み、
前記メモリには、前記プロセッサによって実行可能な命令が記憶され、前記命令は、前記プロセッサが請求項１～１４のいずれかに記載の方法を実行できるように、前記プロセッサによって実行される、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項１～１４のいずれかに記載の方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムは、コンピュータに請求項１～１４のいずれかに記載の方法を実行させる、
ことを特徴とするコンピュータプログラム。