JP7134526B1

JP7134526B1 - マッチング装置、マッチング方法、プログラム、及び記録媒体

Info

Publication number: JP7134526B1
Application number: JP2021185939A
Authority: JP
Inventors: アントアンレクバン; ヴァギフハサノフ
Original assignee: Cogent Labs
Current assignee: Cogent Labs
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-09-12
Anticipated expiration: 2041-11-15
Also published as: JP2023073104A

Abstract

【課題】逐次的なパターンマッチング技術において、精度の向上を図る。
【解決手段】マッチング装置（１）は、マッチングの対象である対象情報を取得する取得部（１１）と、ある正規表現に対応する状態モデルを用いて、前記対象情報に含まれる複数の部分情報の各々を対象とするサーチであって、サーチ経路数を所定の数以下に制限したサーチを実行することによって、前記対象情報に対するパターンマッチングを行う第１のマッチング部（１２）と、正規表現に対応する状態モデルを用いることなく、前記対象情報に含まれる複数の部分情報の各々を対象とするビームサーチを実行することによって、前記対象情報に対するパターンマッチングを行う第２マッチング部（１５）と、第１のマッチング部によるマッチング結果及び前記第２のマッチング部によるマッチング結果の何れかを出力する選択部（１６）とを備えている。
【選択図】図１１

Description

本発明は、対象情報とのマッチングを行うマッチング装置、マッチング方法、プログラム、及び記録媒体に関する。

従来、OCR（Optical Character Recognition）等のパターンマッチング技術では、複数の文字を逐次的に識別するために探索アルゴリズムが併用されている。一方、このような探索アルゴリズムの一例として、ビームサーチが知られている（例えば、非特許文献１）。ビームサーチでは、探索のステップごとに、確率が高い上位から所定の数の候補のみを残し、探索のステップを繰り返す。

"Towards End-To-End Speech Recognition with Recurrent Neural Networks," Alex Graves, Navdeep Jaitly, Proceedings of the 31st International Conference on Machine Learning, PMLR 32(2); 1764-1772, 2014. "Regular expressions for decoding of neural network outputs," Tobias Strauss et.al, arXiv:1509.04438v2, 2016.

OCRのようなパターンマッチング技術において、ビームサーチを用いることにより、貪欲法（Greedy Search）等の探索アルゴリズムに比べて精度の向上を期待でき、また、しらみつぶし探索（Exhaustive Search）等の探索アルゴリズムに比べて探索時間の短縮を図ることができる。

しかしながら、ビームサーチを用いたとしても、文字の誤認識等に起因した精度の低下については改善の余地がある。この点に関し、非特許文献２では、正規表現に対応する非決定論的有限オートマトン（NFA: Nondeterministic Finite Automaton）を用いたビームサーチが提唱されている。しかしながら、認識対象の情報がどのようなタイプの情報であるのかに関する先験的な情報がない場合、非特許文献２の手法を用いたとしても、精度の向上を得ることは困難であるという問題がある。

上記の課題を解決するために、本発明の一態様に係るマッチング装置は、マッチングの対象である対象情報を取得する取得部と、ある正規表現に対応する状態モデルを用いて、前記対象情報に含まれる複数の部分情報の各々を対象とするサーチであって、サーチ経路数を所定の数以下に制限したサーチを実行することによって、前記対象情報に対するパターンマッチングを行う第１のマッチング部と、正規表現に対応する状態モデルを用いることなく、前記対象情報に含まれる複数の部分情報の各々を対象とするビームサーチであって、サーチ経路数を所定の数に制限したビームサーチを実行することによって、前記対象情報に対するパターンマッチングを行う第２のマッチング部と、前記第１のマッチング部によるマッチング結果及び前記第２のマッチング部によるマッチング結果の何れかを、前記第１のマッチング部によるマッチング結果の確率情報と前記第２のマッチング部によるマッチング結果の確率情報とに応じて選択する選択部とを備えている。

上記の課題を解決するために、本発明の一態様に係るマッチング方法は、マッチングの対象である対象情報を取得する取得ステップと、ある正規表現に対応する状態モデルを用いて、前記対象情報に含まれる複数の部分情報の各々を対象とするサーチであって、サーチ経路数を所定の数以下に制限したサーチを実行することによって、前記対象情報に対するパターンマッチングを行う第１のマッチングステップと、正規表現に対応する状態モデルを用いることなく、前記対象情報に含まれる複数の部分情報の各々を対象とするビームサーチであって、サーチ経路数を所定の数に制限したビームサーチを実行することによって、前記対象情報に対するパターンマッチングを行う第２のマッチングステップと、前記第１のマッチングステップによるマッチング結果及び前記第２のマッチングステップによるマッチング結果の何れかを、前記第１のマッチングステップによるマッチング結果の確率情報と前記第２のマッチングステップによるマッチング結果の確率情報とに応じて選択する選択ステップとを含んでいる。

本発明の一態様によれば、認識対象の情報がどのようなタイプの情報であるのかに関する先験的な情報がない場合であっても、精度の向上を得ることができる。

本発明の実施形態１に係るマッチング装置の構成を示すブロック図である。本発明の実施形態１に係るマッチング装置が参照する正規表現の例、及び状態モデルの例を示す図である。本発明の実施形態１に係るマッチング装置が実行するマッチング処理の流れを示すフロー図である。本発明の実施形態１に係るマッチング部が取得する複数のマッチング候補と確率情報の例を示す図である。比較例に係るビームサーチにおいて、各々のマッチング候補を用いて探索された、現在状態からの可能な遷移を説明する図である。図４に示した予測結果に重ね合わせて、図５に対応するサーチ経路を示した図である。本発明の実施形態１に係るマッチング部が行うパターンマッチングに用いる状態モデルの例を示す図である。本発明の実施形態１に係るマッチング部によるパターンマッチング処理のサーチにおいて、各々のマッチング候補を用いて探索された、現在状態からの可能な遷移を説明する図である。図４に示した予測結果に重ね合わせて、図８に対応するサーチ経路を示した図である。本発明の実施形態１に係るマッチング装置による出力結果例を、比較例と共に示す図である。本発明の実施形態２に係るマッチング装置の構成を示すブロック図である。本発明の実施形態２に係るマッチング装置によるマッチング結果の出力の一例を示す図である。本発明の実施形態２に係るマッチング装置によるマッチング結果の出力の他の例を示す図である。本発明の実施形態１に係るマッチング装置のハードウェア構成例を示すブロック図である。

〔実施形態１〕
以下、本発明の一実施形態について、詳細に説明する。本実施形態に係るマッチング装置は、画像情報等の対象情報に対するマッチング処理を行い、マッチング結果を出力する。一例として、本実施形態に係るマッチング装置は、撮像装置によって撮像された画像データに含まれる文字列を識別するために用いることができるがこれは本実施形態を限定するものではない。

（マッチング装置）
図１を参照してマッチング装置の構成について具体的に説明する。図１は、本実施形態に係るマッチング装置１の構成を示すブロック図である。図１に示すように、マッチング装置１は、制御部１０、記憶部２０、通信部３０、及び入出力部４０を備えている。

（記憶部）
まず、図１を参照して記憶部２０に格納された各種データについて説明を行う。図１に示すように、記憶部２０には、
・正規表現（Regular Expression）REGEX、及び、
・当該正規表現に対応する状態モデル(State Model)SM
が格納されている。ここで、正規表現REGEXは、後述する通信部３０や入出力部４０を介して、マッチング装置１の外部から取得されたものであってもよいし、通信部３０や入出力部４０を介して取得したユーザの指示に基づき、後述する生成部１４によって生成されたものであってもよい。

正規表現REGEXは、１又は複数のリテラル文字（literal character）、及び１又は複数のメタ文字（meta-character）の少なくとも何れかを含んで構成される。ここで、リテラル文字（literal character）は、識別子によって表現する必要のない明示的な数値、文字、文字列等を指す。一方、メタ文字（meta-character）は、識別子によって表現され種々の意味を有する。一例として、メタ文字（meta-character）には、場所（位置）を表現するメタ文字、文字や文字グループを表現するメタ文字、エスケープを表現するメタ文字、繰り返しを表現するメタ文字、グループ化を表現するメタ文字等があるが、これは本実施形態を限定するものではない。

図２の上段は、記憶部２０に格納された正規表現REGEXの一例を示している。図２に示した正規表現REGEXは、
・リテラル文字「ａ」及び「ｂ」
・グループ化を意味するメタ文字「()」
・択一的選択を意味するメタ文字「｜」
・指定回数分の繰り返しを意味するメタ文字「{}」と指定回数を示すリテラル文字「２」
・０回以上の任意の繰り返しを意味するメタ文字「＊」
を含んで構成されており、全体として、
・（１個のａ、又は２個のｂ）の０回以上の繰り返し
を表現している。

一方、状態モデルSMは、複数の状態（state）と、状態間の遷移（transition）とを含むモデルであり、状態機械（State Machine）とも呼ばれる。状態モデルSMは、一例として、状態を表すノードと、状態間の遷移を示す有向リンクとを含んで構成される。状態モデルSMは、後述するマッチング部１２によるマッチング処理において参照される。

任意の正規表現は、状態モデルとして表現することができる。換言すれば、ある対象の文字列が、ある正規表現に整合しているか否か（当該ある対象の文字列が当該ある正規表現として表現できるものであるか否か）を、当該正規表現に対応する状態モデルを用いて判別することができる。

状態モデルの一例として有限オートマトン（Finite Automaton）が挙げられるが、これは本実施形態を限定するものではない。また、有限オートマトンの例として、
・決定論的有限オートマトン（Deterministic Finite Automaton）
・非決定論的有限オートマトン（Non-deterministic Finite Automaton）
が挙げられるが、これは本実施形態を限定するものではない。有限オートマトンは、一例として、１又は複数の状態と１又は複数の遷移を記述するルールとを含むコンピュータプログラムによって表現可能である。

状態モデルSMは、後述する通信部３０や入出力部４０を介して、マッチング装置１の外部から取得されたものであってもよいし、通信部３０や入出力部４０を介して取得したユーザの指示に基づき、後述する生成部１４によって生成されたものであってもよい。

本実施形態に係る状態モデルSMは、一例として、上述した正規表現に対応付けて生成されたものである。例えば、後述するマッチング部１２によるマッチング処理に先駆けて、当該マッチング処理において用いられる正規表現REGEXに対応する状態モデルSMを、生成部１４が予め生成し、記憶部２０に格納しておくことができる。

図２の下段は、記憶部２０に格納された状態モデルSMの一例を示している。図２の下段に示す状態モデルSMは、図２の上段に示す正規表現REGEXの例を表現する状態モデルである。

図２に例示する状態モデルSMは、
・ノード「１」及び「２」
・ノード「１」からノード「２」へのリンク
・ノード「２」からノード「１」へのリンク、並びに
・ノード「１」から自身のノード「１」へのリンク
を含んで構成される。状態モデルSMに対して対象の文字列がノード「１」に入力され、当該文字列の１番目が「ａ」であればノード「１」に留まり、当該文字列の１番目が「ｂ」であればノード「２」に遷移する。当該文字列の１番目が「ａ」又は「ｂ」以外であれば当該文字列は拒絶（reject）される。また、ノード「２」の状態において、当該文字列の２番目が「ｂ」であれば、ノード「１」に遷移する。

このようにして、対象の文字列が、図２上段の正規表現REGEXを満たしている（当該対象文字列が当該正規表現REGEXによって表現できる）場合に、当該文字列はノード「１」の状態となる。これを、当該対象文字列が、状態モデルSMによって受理（accept）されたと表現することもある。

一方、対象文字列が、図２上段の正規表現REGEXを満たしていない（当該対象文字列が当該正規表現REGEXによって表現できない）場合に、当該文字列はノード「１」以外の状態となる。これを、当該対象文字列が、状態モデルSMによって拒絶（reject）されたと表現することもある。

記憶部２０に格納された他のデータの説明に戻る。図１に示すように、記憶部２０には、画像データIMGが格納されている。画像データIMGは一例として、１又は複数の文字を画角に含む画像データである。画像データIMGは、通信部３０や入出力部４０を介して、マッチング装置１の外部から取得されたものであってもよいし、マッチング装置１が備える図示しないカメラ（撮像装置）によって撮像されたものであってもよい。

また、図１に示すように、記憶部２０には、推論モデルPMも格納されている。より具体的には、記憶部２０には、推論モデルPMを規定する各種のデータが格納されており、後述するマッチング部１２は、これらのデータを参照して推論モデルPMを実行させる。推論モデルPMの具体的構成は本実施形態を限定するものではないが、一例として、推論モデルPMは、CNN(Convolutional Neural Network)を用いて構成することができるが、これは本実施形態を限定するものではない。推論モデルPMは、CNNとRNN(Recurrent Neural Network)とを組み合わせることによって構成してもよいし、その他のDNN(Deep Neural Network)を用いてもよい。

また、図１に示すように、記憶部２０には、マッチング部１２によるマッチング処理の結果を示すパターンマッチ結果PMRも格納されている。画像データIMGが１又は複数の文字を画角に含む画像データである場合、当該画像データIMGに対するマッチング部１２によるパターンマッチングの結果を示すパターンマッチ結果PMRは、一例として文字列（string）である。パターンマッチ結果PMRは、通信部３０や入出力部４０を介して、マッチング装置１の外部に出力される。

（通信部）
通信部３０は、マッチング装置１の外部の装置と通信を行う。通信部３０は、制御部１０から供給されたデータを外部の装置に送信したり、外部の装置から受信したデータを制御部１０に供給したりする。

（入出力部）
入出力部４０は、マッチング装置１の外部からデータを受け付けたり、マッチング装置１の外部にデータを出力したりする。一例として、入出力部４０は、カメラ又はスキャナを備え、当該カメラ又はスキャナで取得した画像を、制御部１０に供給する。ここで、当該画像には、上述した画像データIMGが含まれ得る。他の例として、入出力部４０はキーボードやタッチパッド等の入力デバイスを備え、これらの入力デバイスを介してデータの入力を受け付ける。そして受け付けたデータを制御部１０に供給する。また、一例として、入出力部４０は、表示パネルを備え、制御部１０から供給されたデータを当該表示パネルを介して表示する。表示パネルが表示するデータには、マッチング部１２によるマッチング結果が含まれ得る。

（制御部）
続いて、図１を参照して、マッチング装置１が備える制御部１０の構成について説明する。図１に示すように、制御部１０は、取得部１１、マッチング部１２、選択部１３、及び生成部１４を備えている。

（取得部）
取得部１１は、マッチングの対象である対象情報を取得する。ここで、対象情報は、一例として、１又は複数の文字やパターンを画角に含む画像情報である。一例として、対象情報は、１又は複数の文字やパターンを画角に含む１枚の画像を含んでもよいし、１又は複数の文字やパターンを画角に含む複数枚の画像を含んでもよい。上述した画像データIMGは、対象情報の一例である。ただし、これらの例は、本実施形態を限定するものではない。

（マッチング部）
マッチング部１２は、対象情報に対するパターンマッチング処理を実行する。より具体的には、マッチング部１２は、ある正規表現に対応する状態モデルを用いて、画像データIMGに含まれる複数の部分情報の各々を対象とするサーチであって、サーチ経路数を所定の数以下に制限したサーチを実行することによって、前記対象情報に対するパターンマッチングを行う。マッチング部１２のことを第１のマッチング部と呼ぶこともある。また、本実施形態において、サーチ経路のことを単に経路とも呼ぶ。

ここで、マッチング部１２は、一例として、上述した正規表現REGEXに対応する状態モデルSMを用いることができる。

また、画像データIMGに含まれる複数の部分情報は、一例として、画像データIMGを複数の部分に分割して得られる部分画像である。例えば、マッチング部１２は、画像データIMGを、所定の画素幅の部分画像に分割し、当該部分画像毎にマッチング候補を予測する構成とすることができる。ここで、所定の画素幅は、一例として、４画素（4 pixels）であるが、これは本実施形態を限定するものではない。所定の画素幅は、例えば、６画素（6 pixels）であってもよいし、８画素（8 pixels）であってもよいし、他の画素幅であってもよい。また、マッチング部１２による部分画像毎のマッチング候補の予測は、一例として、上述した推論モデルPMによって実行することができる。

より具体的に言えば、マッチング部１２において、推論モデルPMは、画像データIMGに含まれる所定の画素幅の部分画像毎に、画像データIMGに含まれる文字（character）を予測し、予測結果を表す複数のマッチング候補を、各々のマッチング候補の確率情報と共に出力する。

また、上述したように、マッチング部１２は画像データIMGに含まれる複数の部分画像の各々を対象とするサーチであって、であって、サーチ経路数を所定の数以下に制限したサーチを実行する。ここで、当該サーチは、推論モデルPMが部分画像に対するマッチング候補を出力する度に、
（１）確率情報の示す確率が高い順にＫ個のマッチング候補を選択し
（２）選択した複数のマッチング候補を、前回までのサーチ経路に追加することによって１又は複数のサーチ経路を生成し、
（３）生成した１又は複数のサーチ経路のうち、上位Ｎ番目までのサーチ経路を残し、他の経路を排除する
という処理を行う。

ここで、マッチング部１２は、上記（１）から（３）の各処理に加え、状態モデルSMを参照した選択処理を適用することによって、状態モデルSMに整合しないマッチング候補を排除する処理を行う。一例として、マッチング部１２は、上記（１）の処理の前に、推論モデルPMが出力した複数のマッチング候補に対して、状態モデルSMを参照した選択処理を適用することによって、状態モデルSMに整合しないマッチング候補を排除するフィルタ処理を行う。そして、マッチング部１２は、当該フィルタ処理後のマッチング候補に対して、上記（２）及び（３）の処理を実行する。

このように、マッチング部１２は、上述した複数のマッチング候補に対して、状態モデルSMを参照した選択処理を適用することによって、状態モデルSMに整合しないマッチング候補を排除すると共に、遷移経路の数を所定のビーム幅以下に制限しつつ、次の部分画像のマッチング処理に進む。マッチング部１２は、このような処理を行うことによって、状態モデルを用いたビームサーチを実行する。そして、マッチング部１２は、このような状態モデルを用いたビームサーチを実行することによって、画像データIMGに対するパターンマッチングを行う。

マッチング部１２は、パターンマッチングの結果を、パターンマッチ結果PMRとして出力し、出力したパターンマッチ結果PMRは、一例として記憶部２０に格納される。

（選択部）
選択部１３（状態モデル選択部１３）は、記憶部２０に格納されている状態モデルSMの中から、マッチング部１２によるパターンマッチに用いられる状態モデルSMを選択する。選択部１３は、一例として、入出力部４０が受け付けたコンテンツタイプ情報に基づいて、個々の正規表現に個別に対応する複数の状態モデルから、パターンマッチングに用いる状態モデルを選択する。

マッチング装置１が、特定の１つの状態モデルSMのみを用いる場合には、選択部１３は必須ではない。なお、複数の状態モデルSMには、一例として、
・日付（年、月、日等を含む）に関するパターンマッチに適した正規表現に対応する状態モデル
・住所（都道府県、市、町、番地等を含む）に関するパターンマッチに適した正規表現に対応する状態モデル
・電話番号に関するパターンマッチに適した正規表現に対応する状態モデル
・E-mailアドレスに関するパターンマッチに適した正規表現に対応する状態モデル
・金融的な値（価格や各種の指数など）に関するパターンマッチに適した正規表現に対応する状態モデル
のように、マッチング対象の種類に応じて、予め用意しておくことができる。

（生成部）
生成部１４は、記憶部２０に格納された正規表現REGEXから、当該正規表現に対応する状態モデルSMを生成する。生成部１４は、有限オートマトンとしての状態モデルSMを、一例としてコンピュータプログラムの形式で生成することができる。ただしこれは本実施形態を限定するものではなく、状態モデルSMは、ルールやパラメータの集合であってコンピュータが参照可能な形式として生成されてもよい。

生成部１４は、一例として、記憶部２０に格納された正規表現REGEXから、当該正規表現に対応する非決定論的有限オートマトンを生成し、当該非決定論的有限オートマトンに基づいて、決定論的有限オートマトンを生成してもよい。

上述したマッチング部１２が行うパターンマッチングに用いる状態モデルSMとしては、非決定論的有限オートマトンよりも、決定論的有限オートマトンを用いることが好ましい。これは、決定論的有限オートマトンは、受理又は拒絶の処理を、非決定論的有限オートマトンよりも迅速に行うことができるためである。

なお、状態モデルSMは人間によって作成されたものを記憶部２０に格納する構成としてもよい。そのような構成の場合、生成部１４は必須ではない。

（パターンマッチング処理の流れ）
続いて、マッチング装置１によるパターンマッチング処理の流れについて図３を参照して説明する。図３は、マッチング装置１によるパターンマッチング処理の流れを示すフローチャートである。

（ステップＳ１０１）
まず、ステップＳ１０１において、取得部１１は対象情報を取得する。上述したように、一例として、取得部１１は対象情報として画像データIMGを取得する。

（ステップＳ１０２）
ステップＳ１０２は、対象情報に含まれる複数の部分情報に関する処理のループの始端である。上述したように、一例として、部分情報は、画像データIMGに含まれる所定の画素幅の部分画像である。部分情報に関するループを、一例として、ループ変数n（nは0からN-1（Nは画像データIMGに含まれる部分画像の総数）までの自然数）によって表現している。

（ステップＳ１０３）
続いて、ステップＳ１０３において、マッチング部１２は、部分情報Inを参照した推論モデルPMによって画像データIMGに含まれる文字（character）を予測し、予測結果を表す複数のマッチング候補を、各々のマッチング候補の確率情報と共に取得する。

（ステップＳ１０４）
続いて、ステップＳ１０４において、マッチング部１２は、ステップＳ１０３において取得した各々のマッチング候補を用いて、現在状態からの可能な遷移を取得する。ここで、現在状態とは、ループ変数ｎ－１までの処理によって定まる状態のことを指し、一例として、状態モデルSMにおける現在状態のことを指し、現在状態からの可能な遷移とは、一例として、状態モデルSMにおいて現在状態からの可能な遷移のことを指す。或いは、ループ変数ｎ－１までの各処理に対応する遷移を表現する遷移図において、選択可能な状態として残存している１又は複数の経路のことを現在状態と呼ぶこともできる。

（ステップＳ１０５）
続いて、ステップＳ１０５において、マッチング部１２は、ステップＳ１０４において取得した各々の前記可能な遷移が、状態モデルSMと整合しているかを確認する。換言すれば、各々のマッチング候補が、状態モデルSMと整合しているかを確認する。ここで、前記可能な遷移（又はそれに対応するマッチング候補）が状態モデルSMに整合している場合には、当該遷移（又はそれに対応するマッチング候補）は、状態モデルSMによって受理され、そうでない場合に拒絶される。

（ステップＳ１０６）
続いて、ステップＳ１０６において、マッチング部１２は、状態モデルSMに整合しない遷移（又はそれに対応するマッチング候補）、換言すれば状態モデルSMによって拒絶された遷移（又はそれに対応するマッチング候補）を排除し、以降の処理では考慮しない。

（ステップＳ１０７）
続いて、ステップＳ１０７において、マッチング部１２は、ステップＳ１０６において排除されなかったマッチング候補から、K個のマッチング候補を選択する。一例として、確率が高いK番目までのマッチング候補を選択する。

（ステップＳ１０８）
続いて、ステップＳ１０８において、マッチング部１２は、ステップＳ１０７において選択されたマッチング候補を用いて経路を更新する。

（ステップＳ１０９）
続いて、ステップＳ１０９において、マッチング部１２は、ステップＳ１０８において選択された経路のうち、上記N番目までの経路を残し、それ以外の経路を排除する。排除された経路は、以降の処理では考慮されない。

（ステップＳ１１０）
続いて、ステップＳ１１０において、マッチング部１２は、ループ変数nをn+1にインクリメントする。

（ステップＳ１１１）
ステップＳ１１１は、対象情報に含まれる複数の部分情報に関する処理のループの終端である。

（ステップＳ１１２）
対象情報に含まれる複数の部分情報の全てについて上述した処理が終了した後、ステップＳ１１２において、マッチング部１２は、最も確率の高い経路に対応するマッチング結果を出力する。

以上のように、マッチング装置１によるパターンマッチング処理は、対象情報に含まれるある部分情報に対するマッチング処理として、
前記ある部分情報に対する１又は複数のマッチング候補と、各マッチング候補の確率情報とを取得する処理（ステップＳ１０３）と、
前記１又は複数のマッチング候補のうち、前記状態モデルに整合しないマッチング候補を除外する第１の選択処理（ステップＳ１０６）と、
前記確率情報を参照して、前記第１の選択処理後のマッチング候補から、前記所定の数以下のマッチング候補を選択する第２の選択処理（ステップＳ１０７）と、を含んでいる。

（マッチング部１２の処理による状態の遷移例）
以下では、マッチング部１２の処理による状態の遷移例について説明する。以下の説明では、撮像装置によって撮像された画像データに含まれる文字列が「1年2月8日」であった場合を例に挙げて説明する。換言すれば、上述したステップＳ１０１において、取得部１１が、「1年2月8日」との文字列が撮像された画像データIMGを対象情報として取得した場合を例に挙げて説明する。

上記のような例では、対象情報に含まれる複数の部分情報In（ｎ＝０～５）は、それぞれ「1」、「年」、「2」、「月」、「8」、および「日」に対応する６個の部分画像となる。

上述したように、ステップＳ１０３において、マッチング部１２は、部分情報Inを参照した推論モデルPMによって画像データIMGに含まれる文字（character）を予測し、予測結果を表す複数のマッチング候補を、各々のマッチング候補の確率情報と共に取得する。これにより、例えば、図４に示される情報が取得されることになる。

図４は、マッチング部１２が取得する複数のマッチング候補と確率情報の例を示す図である。

図４の例では、部分情報I0～部分情報I5が、Slice0～Slice５として表されている。また、部分情報I0～部分情報I5のマッチング候補として、Characters「1」、「2」、「3」、・・・「月」、「日」、・・・が示されている。

そして、図４においては、各Sliceに対応する列と各Charactersに対応する行とにより、各部分情報に対する予測結果としての各マッチング候補の確率情報が示されている。ここで、各マッチング候補の確率情報は、部分情報毎に、値の大きい順に上位３つが選択される。図４において、この上位３つの確率情報は、それぞれ異なるハッチングを付して示されている。

次に、マッチング部１２の処理により得られるサーチ経路とマッチング結果の例について、より具体的に説明する。

（比較例に係る処理）
まず、比較のため、従来のビームサーチによる遷移を、比較例として先に説明する。

図５は、従来のビームサーチにおいて、各々のマッチング候補を用いて探索された、現在状態からの可能な遷移を説明する図である。この例において、維持すべきビームの数Nは、２であり、遷移先として考慮されるマッチング候補（Considered characters）の数Kは３である。

すなわち、部分情報I0～部分情報I5のそれぞれに対するビームサーチにおいて、確率が高い３番目までのマッチング候補が選択され、選択されたマッチング候補を用いてビームサーチの経路が更新される。このとき、ビームサーチの経路のうち、上位２番目までの経路を残し、それ以外の経路が排除され、排除された経路は、以降の処理では考慮されない。

いまの場合、部分情報I0～部分情報I5のそれぞれに対するビームサーチに伴って状態が遷移する。このため、図５においては、部分情報I0に対応する状態がStep0で示され、部分情報I1に対応する状態がStep1で示され、部分情報I2に対応する状態がStep2で示され、・・・部分情報I5に対応する状態がStep5で示されている。

また、図５において、Considered charactersは、確率が高いK番目までのマッチング候補であり、例えば、Step0では、「/」、「1」、および「l」の３つのマッチング候補がConsidered charactersとして特定されている。

さらに、図５においては、上位２番目までの経路がBeam 1とBeam 2で表されている。経路Beam 1での現在状態に対応するマッチング候補は、Beam 1 charactersで示されており、経路Beam 2での現在状態に対応するマッチング候補は、Beam 2 charactersで示されている。

また、図５においては、Beam 1 charactersで示されたマッチング候補の確率情報がBeam 1 probabilityで示され、Beam 2 charactersで示されたマッチング候補の確率情報がBeam 1 probabilityで示されている。

図５とともに図６を参照してさらに詳細に説明する。図６は、図４に示した予測結果に重ね合わせて、図５に対応するサーチ経路を示した図である。図６においては、上位２番目までの経路Beam 1と経路Beam 2が、それぞれ直線の矢印と一点鎖線の矢印によって示されている。

ここで、経路Beam 1および経路Beam 2は、それぞれBest beamおよび2nd best beamとも称される。また、図６において、排除された経路は、Considered expansionと称され、破線の矢印で示されている。

図６において、Step0（Slice0）では、確率情報が参照され、「/」がBest beamとなり、「1」(数字の1)が2nd best beamとなる。一方、「l」（アルファベットのl）は、３つのマッチング候補の中で確率情報の値が最も低いので、Considered expansionとなり、排除される。

Step1（Slice1）では、「/」および「1」のそれぞれを現在状態として、ビームサーチが実行される。Step1（Slice1）のConsidered charactersは、「年」、「月」、および「日」なので、「/」から「年」への経路、「/」から「月」への経路、「/」から「日」への経路、「1」から「年」への経路、「1」から「月」への経路、および「1」から「日」への経路があり得る。

「/」から「年」への経路に対応する確率は、0.32（=0.4×0.8）、「/」から「月」への経路に対応する確率は、0.04（=0.4×0.1）、「/」から「日」への経路に対応する確率は、0.02（=0.4×0.05）である。また、「1」から「年」への経路に対応する確率は、0.24（=0.3×0.8）であり、「1」から「月」への経路に対応する確率は、0.03（=0.3×0.1）であり、「1」から「月」への経路に対応する確率は、0.015（=0.3×0.05）である。

上記に説明した６本の経路のうち、上位２番目までの経路は、「/」から「年」への経路および「1」から「月」への経路である。従って、Step1（Slice1）でのBest beamは、「/」から「年」への経路となり、2nd best beamは、「1」から「年」への経路になり、それ以外の経路は排除される。

同様に、Step2（Slice2）では、「/」、「年」、「2」の経路がBest beamになり、「1」、「年」、「2」の経路が2nd best beamとなる。

このような処理が、Step5（Slice5）まで繰り返されることにより、対象情報「1年2月8日」の予測結果としてのBest beamと2nd best beamが得られることになる。この例では、Best beamは、「/」、「年」、「2」、「月」、「8」、「8」の経路になり、2nd best beamは、「/」、「年」、「2」、「月」、「8」、「日」の経路になる。ここで、Best beamの確率（Beam 1 probability）は、0.09216であり、2nd best beamの確率（Beam 2 probability）は、0.073728となる。

（本実施形態に係る処理例）
次に、本実施形態のマッチング装置１によるパターンマッチング処理による状態の遷移について、より具体的に説明する。

図７は、マッチング部１２が行うパターンマッチングに用いる状態モデルSMの例を示す図である。図７は、日付（年、月、日等を含む）に関するパターンマッチに適した正規表現に対応する状態モデルである。図７に示す状態モデルは、一例として、複数の状態モデルの中から、選択部１３によって選択されたものである。

図７の状態モデルを参照して、マッチング部１２は、
Step0（ノード０からノード１への遷移）において、各マッチング候補と正規表現「[0-9]」との整合性を判定し、当該正規表現「[0-9]に整合するマッチング候補を残し、当該正規表現「[0-9]に整合しないマッチング候補を除外し、
Step1（ノード１からノード２への遷移）において、各マッチング候補と正規表現「年」との整合性を判定し、当該正規表現「年」に整合するマッチング候補を残し、当該正規表現「年」に整合しないマッチング候補を除外し、
・・・
Step5（ノード５からノード６への遷移）において、各マッチング候補と正規表現「日」との整合性を判定し、当該正規表現「日」に整合するマッチング候補を残し、当該正規表現「日」に整合しないマッチング候補を除外する、
という処理を行う。

図８は、本実施形態のマッチング装置１によるパターンマッチング処理のサーチにおいて、各々のマッチング候補を用いて探索された、現在状態からの可能な遷移を説明する図である。この例において、維持すべきビームの数Nは、２であり、遷移先として考慮されるマッチング候補（Considered characters）の数Kは３である。

すなわち、図５の場合と同様に、部分情報I0～部分情報I5のそれぞれに対するサーチにおいて、確率が高い３番目までのマッチング候補が選択され、選択されたマッチング候補を用いてサーチの経路が更新される。このとき、サーチの経路のうち、上位２番目までの経路を残し、それ以外の経路が排除され、排除された経路は、以降の処理では考慮されない。

図８においては、図７の状態モデルが適用されることにより、マッチング候補の選択が図５の場合とは異なっている。

すなわち、Step0（Slice0）では、正規表現「[0-9]」が適用されるため、Considered charactersとなるマッチング候補は、「1」、「2」、および「3」の３つとなり、「/」はマッチング候補から除外されている。

図８とともに図９を参照してさらに詳細に説明する。図９は、図４に示した予測結果に重ね合わせて、図８に対応するサーチ経路を示した図である。図６においては、上位２番目までの経路Beam 1と経路Beam 2が、それぞれ直線の矢印と一点鎖線の矢印によって示されている。

ここで、経路Beam 1および経路Beam 2は、それぞれBest beamおよび2nd best beamとも称される。また、図９において、排除された経路は、Considered expansionと称され、破線の矢印で示されている。

図８と図９の例では、Step1（Slice1）では、「1」および「2」のそれぞれを現在状態として、サーチが実行される。図７の状態モデルが適用されることにより、Step1（Slice1）のConsidered charactersは、「年」のみとなるので、「1」から「年」への経路、および「2」から「年」への経路があり得る。従って、Step1（Slice1）でのBest beamは、「1」から「年」への経路となり、2nd best beamは、「2」から「年」への経路になる。

同様に、Step2（Slice2）では、「1」、「年」、「2」の経路がBest beamになり、「2」、「年」、「2」の経路が2nd best beamとなる。

このような処理が、Step5（Slice5）まで繰り返されることにより、対象情報「1年2月8日」の予測結果としてのBest beamと2nd best beamが得られることになる。この例では、Best beamは、「1」、「年」、「2」、「月」、「8」、「日」の経路になり、2nd best beamは、「2」、「年」、「2」、「月」、「8」、「日」の経路になる。ここで、Best beamの確率（Beam 1 probability）は、0.055296であり、2nd best beamの確率（Beam 2 probability）は、0となる。

図５と図６を参照して説明した比較例に係るビームサーチによれば、対象情報「1年2月8日」の予測結果として、「/年2月88」と「/年2月8日」とが得られることになり、いずれも誤った予測結果となっている。

一方、図７～図９を参照して説明した本実施形態のサーチによれば、対象情報「1年2月8日」の予測結果として、「1年2月8日」と「2年2月8日」とが得られることになるが、「2年2月8日」の確率は0であるため、実際には、「1年2月8日」のみが得られることになる。

このように本実施形態によれば、マッチング部１２が行うパターンマッチングにおいて正規表現に対応する状態モデルが用いられるので、より正確な予測結果を得ることができる。

（マッチング装置１による出力結果例）
図１０は、本実施形態に係るマッチング装置１による出力結果例を、比較例と共に示す図である。図１０に示す例では、マッチング装置１が、画像データ１０１を対象情報として取得した場合の、マッチング結果を示している。

図１０に示す例では、入出力部４０が、コンテンツタイプ情報として、「date（日付）」を受け付け、選択部１３が、当該コンテンツタイプ情報に基づいて、個々の正規表現に個別に対応する複数の状態モデルから、日付（年、月、日等を含む）に関するパターンマッチに適した正規表現に対応する状態モデルを選択した場合を示している。

そして、図１０に示す例では、マッチング部１２は当該状態モデルを用いて、上述したように、対象情報に含まれる複数の部分情報の各々を対象とするサーチであって、サーチ経路数を所定の数以下に制限したサーチを実行することによって、対象情報に対するパターンマッチングを行う。そして、入出力部４０は、図１０に示すように、マッチング部１２によるマッチング結果１０３を表示する。

一方で、マッチング結果１０２Ａ、及び１０２Ｂは比較例に係るマッチング結果を示している。マッチング結果１０２Ａは、状態モデルを用いないビームサーチを実行した結果の一例を示している。

より具体的には、マッチング結果１０２Ａは、推論モデルPMの出力のうち、キャラクタータイプ（character type）として、
数字（numbers）、漢字（kanji）、及び句読点（punctuation）のみを残す処理、換言すれば、数字（numbers）、漢字（kanji）、及び句読点（punctuation）以外の出力の確率情報を０に設定する処理
を実行したうえで、状態モデルを用いないビームサーチを実行した結果を示している。

マッチング結果１０２Ｂは、状態モデルを用いないビームサーチを実行した結果の他の例を示している。より具体的には、マッチング結果１０２Ｂは、推論モデルPMの出力のうち、キャラクタータイプ（character type）として、
数字（numbers）、漢字（kanji）のみを残す処理、換言すれば、数字（numbers）、及び漢字（kanji）以外の出力の確率情報を０に設定する処理
を実行したうえで、状態モデルを用いないビームサーチを実行した結果を示している。

図１０に示すように、状態モデルを用いないサーチでは、マッチング結果１０２Ａに示すように「1」ではなく「/」が出力されたり、マッチング結果１０２Ｂに示すように、「日」ではなく「8」が出力されたりしてしまい、適切なマッチング結果を出力することが出来ていない。

一方、図１０に示すように、状態モデルを用いたサーチの結果であるマッチング結果１０３では、適切なマッチング結果が出力されている。

このように、本実施形態１に係るマッチング装置１によれば、逐次的なパターンマッチング処理において、精度の向上を図ることができる。

〔実施形態２〕
以下、本発明の第２の実施形態について説明する。実施形態１において説明した構成と同じ構成については同じ参照符号を付し説明を適宜省略する。

本実施形態に係るマッチング装置１Ａは、実施形態１に係るマッチング装置１と同様に、画像情報等の対象情報に対するマッチング処理を行い、マッチング結果を出力する。

図１１は、本実施形態に係るマッチング装置１Ａの構成を示すブロック図である。図１１に示すように、制御部１０、記憶部２０、通信部３０、及び入出力部４０を備えている。

記憶部２０に格納された各種のデータは、実施形態１に係るマッチング装置１が備える記憶部２０とほぼ同様である。ただし、本実施形態に係る記憶部２０には、一例として、状態モデルSMが１つのみ格納されている。本実施形態に係る状態モデルSMは、一例として、正規表現REGEXとして実施形態１よりも一般的な表現を用いている。

また、図１１に示すように、本実施形態に係るマッチング装置１Ａの制御部１０は、取得部１１、第１マッチング部１２、第２マッチング部１５、マッチング結果選択部１６、及びマッチング結果出力部１７を備えている。

第１マッチング部１２は、実施形態１に係るマッチング部１２と同様の構成である。したがって、実施形態１において説明したマッチング部１２の各種の処理が本実施形態にも適用される。一方、第２マッチング部１５は、状態モデルを用いないビームサーチを実行する。換言すれば、第２マッチング部１５は、実施形態１において説明した比較例に係るビームサーチを実行する。より具体的に言えば、第２マッチング部１５は、正規表現に対応する状態モデルを用いることなく、対象情報に含まれる複数の部分情報の各々を対象とするビームサーチであって、サーチ経路数を所定の数に制限したビームサーチを実行することによって、前記対象情報に対するパターンマッチングを行う。

マッチング結果選択部１６は、第１マッチング部１２によるマッチング結果及び第２マッチング部１５によるマッチング結果の何れかを、第１マッチング部１２によるマッチング結果の確率情報と第２マッチング部１５によるマッチング結果の確率情報とに応じて選択する。そして、マッチング結果出力部１７は、マッチング結果選択部１６による選択結果を出力する。マッチング結果出力部１７が出力するマッチング結果は、一例として入出力部４０が備える表示パネルに表示される。

換言すれば、マッチング装置１Ａによるマッチング方法は、
マッチングの対象である対象情報を取得する取得ステップと、
ある正規表現に対応する状態モデルを用いて、前記対象情報に含まれる複数の部分情報の各々を対象とするサーチであって、サーチ経路数を所定の数以下に制限したサーチを実行することによって、前記対象情報に対するパターンマッチングを行う第１のマッチングステップと、
正規表現に対応する状態モデルを用いることなく、前記対象情報に含まれる複数の部分情報の各々を対象とするビームサーチであって、サーチ経路数を所定の数に制限したビームサーチを実行することによって、前記対象情報に対するパターンマッチングを行う第２のマッチングステップと、
前記第１のマッチングステップによるマッチング結果及び前記第２のマッチングステップによるマッチング結果の何れかを、前記第１のマッチングステップによるマッチング結果の確率情報と前記第２のマッチングステップによるマッチング結果の確率情報とに応じて選択する選択ステップと
を含んでいると表現してもよい。

図１２は、本実施形態に係るマッチング装置１Ａによるマッチング結果の出力の一例を示す図である。図１２に示す例では、マッチング装置１Ａが、画像データ１０１を対象情報として取得した場合の、マッチング結果を示している。

図１２に示す例では、第１マッチング部１２は、上述した一般的な状態モデルを用いて、対象情報に含まれる複数の部分情報の各々を対象とするサーチであって、サーチ経路数を所定の数以下に制限したサーチを実行することによって、対象情報に対するパターンマッチングを行い、マッチング結果１０３を得る。

一方で、第２マッチング部１５は、正規表現に対応する状態モデルを用いることなく、対象情報に含まれる複数の部分情報の各々を対象とするビームサーチであって、サーチ経路数を所定の数に制限したビームサーチを実行することによって、前記対象情報に対するパターンマッチングを行い、マッチング結果１０２を得る。

図１２に示す例では、第１マッチング部１２が得たマッチング結果１０３の確率（Beam probability）は、０．９８であり、十分に大きい値と言える。換言すれば、一例として予め設定された閾値を０．８とすると、当該閾値よりも大きい値の確率を得ている。

一方、図１２に示す例では、第２マッチング部１５が得たマッチング結果１０２の確率（Beam probability）は、０．９９であり、十分に大きい値と言える。換言すれば、一例として予め設定された閾値を０．８とすると、当該閾値よりも大きい値の確率を得ている。

このように、第１マッチング部１２が得たマッチング結果の確率情報と、第２マッチング部１５が得たマッチング結果の確率情報とが、共に高い確率を示している場合、換言すれば、両者のマッチング結果の確率情報が共に所定の閾値よりも大きい場合、マッチング結果出力部１６は、第１マッチング部１２が得たマッチング結果及び第２マッチング部１５が得たマッチング結果のうち、第１マッチング部１２が得たマッチング結果のみを出力する。又は、第１マッチング部１２が得たマッチング結果を優先的に表示する。

一方、図１３は、本実施形態に係るマッチング装置１Ａによるマッチング結果の出力の他の例を示す図である。図１３に示す例では、マッチング装置１Ａが、画像データ１０１を対象情報として取得した場合の、マッチング結果を示している。

図１３に示す例では、第１マッチング部１２が得たマッチング結果１０３の確率（Beam probability）は、０．０２であり、十分に小さい値と言える。換言すれば、一例として予め設定された閾値を０．８とすると、当該閾値よりも小さい値の確率を得ている。

一方、図１３に示す例では、第２マッチング部１５が得たマッチング結果１０２の確率（Beam probability）は、０．９６であり、十分に大きい値と言える。換言すれば、一例として予め設定された閾値を０．８とすると、当該閾値よりも大きい値の確率を得ている。

このように、第１マッチング部１２が得たマッチング結果の確率情報が、第２マッチング部１５が得たマッチング結果の確率情報よりも小さい場合、換言すれば、第１マッチング部１２が得たマッチング結果の確率情報が所定の閾値よりも小さく、第２マッチング部１５が得たマッチング結果の確率情報が所定の閾値よりも大きい場合、マッチング結果出力部１６は、第１マッチング部１２が得たマッチング結果及び第２マッチング部１５が得たマッチング結果のうち、第２マッチング部１５が得たマッチング結果のみを出力する。又は、第２マッチング部１５が得たマッチング結果を優先的に表示する。

以上のように構成されたマッチング装置１Ａによれば、ユーザに対してより適切なマッチング結果を提示することができる。また、上記の処理を行うマッチング装置１Ａによれば、対象情報（画像データ）がどのようなタイプの情報であるのかに関する先験的な情報がなくとも、精度の向上を得ることができる。
（具体的な処理例）
なお、マッチング結果選択部１６による具体的な処理例は、以下のように表現してもよい。すなわち、マッチング結果選択部１６は、
第１マッチング部１２によるマッチング結果の確率情報が示す確率値と、第２マッチング部１５によるマッチング結果の確率情報が示す確率値で除算して得られる比を示す値と、閾値とを比較する。そして、マッチング結果選択部１６は、
前記比を示す値が、前記閾値以上であれば、第１マッチング部１２によるマッチング結果を選択し、
前記比を示す値が、前記閾値未満であれば、第２マッチング部１５によるマッチング結果を選択する。ここで、前記閾値は、適宜設定しておくことができる。一例として前記閾値は、０．９～１．０までの任意の値としてもよいし、他の値としてもよい。

一例として、図１２の例を、本処理例の観点から説明すると、マッチング結果選択部１６は、第１マッチング部１２が得たマッチング結果１０３の確率（Beam probability）である０．９８を、第２マッチング部１５が得たマッチング結果１０２の確率（Beam probability）である０．９９で除算することによって、比の値（ratio）
０．９８９
を算出する。ここで、上記閾値（threshold value）を０．９とする。

マッチング結果選択部１６は、上記比の値０．９８９と上記閾値を０．９とを比較する。そして、上記比の値は、上記閾値以上であるので、マッチング結果選択部１６は、第１マッチング部１２によるマッチング結果１０３を選択する。

一方、図１３の例では、マッチング結果選択部１６は、第１マッチング部１２が得たマッチング結果１０３の確率（Beam probability）である０．０２を、第２マッチング部１５が得たマッチング結果１０２の確率（Beam probability）である０．９６で除算することによって、比の値
０．０２１
を算出する。ここで、上記閾値は、図１２の例の場合と同じく、０．９とする。

マッチング結果選択部１６は、上記比の値０．０２１と上記閾値を０．９とを比較する。そして、上記比の値は、上記閾値未満であるので、マッチング結果選択部１６は、第２マッチング部１５によるマッチング結果１０２を選択する。

なお、マッチング結果選択部１６は、上記閾値を、第１マッチング部１２によるマッチング結果及び前記第２マッチング部１２によるマッチング結果の少なくとも何れかに応じた値に設定してもよい。一例として、上記閾値を、第１マッチング部１２によるマッチング結果の確率情報が示す確率値、及び第２マッチング部１５によるマッチング結果の確率情報が示す確率値の少なくとも何れかに応じた値に設定してもよい。

（マッチング装置のハードウェア構成例）
図１４は、マッチング装置１，１Ａとして用いられるコンピュータの物理的構成を例示したブロック図である。情報処理装置１は、図１４に示すように、バス２１０と、プロセッサ２０１と、主メモリ２０２と、補助メモリ２０３と、通信インタフェース２０４と、入出力インタフェース２０５とを備えたコンピュータによって構成可能である。プロセッサ２０１、主メモリ２０２、補助メモリ２０３、通信インタフェース２０４、及び入出力インタフェース２０５は、バス２１０を介して互いに接続されている。入出力インタフェース２０５には、入力装置２０６および出力装置２０７が接続されている。

プロセッサ２０１としては、例えば、ＣＰＵ（Central Processing Unit）、マイクロプロセッサ、デジタルシグナルプロセッサ、マイクロコントローラ、またはこれらの組み合わせ等が用いられる。

主メモリ２０２としては、例えば、半導体ＲＡＭ（random access memory）等が用いられる。

補助メモリ２０３としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、またはこれらの組み合わせ等が用いられる。補助メモリ２０３には、上述したマッチング装置１，１Ａの動作をプロセッサ２０１に実行させるためのプログラムが格納されている。プロセッサ２０１は、補助メモリ２０３に格納されたプログラムを主メモリ２０２上に展開し、展開したプログラムに含まれる各命令を実行する。

通信インタフェース２０４は、ネットワークＮに接続するインタフェースである。

入出力インタフェース２０５としては、例えば、ＵＳＢインタフェース、赤外線やBluetooth（登録商標）等の近距離通信インタフェース、またはこれらの組み合わせが用いられる。

入力装置２０６としては、例えば、キーボード、マウス、タッチパッド、マイク、又はこれらの組み合わせ等が用いられる。出力装置２０７としては、例えば、ディスプレイ、プリンタ、スピーカ、又はこれらの組み合わせが用いられる。

この例で、プロセッサ２０１は制御部１０を実現するハードウェア要素の一例である。また、主メモリ２０２及び補助メモリ０３は、記憶部２０を実現するハードウェア要素の一例である。また、通信インタフェース２０４は、通信部３０を実現するハードウェア要素の一例である。また、入出力インタフェース２０５、入力装置２０６及び出力装置２０７は、上述した入出力部４０を実現するハードウェア要素の一例である。

〔ソフトウェアによる実現例〕
情報処理装置１、１Ａの機能は、当該装置としてコンピュータを機能させるためのプログラムであって、当該装置の各制御ブロック（特に制御部１０に含まれる各部）としてコンピュータを機能させるためのプログラムにより実現することができる。

この場合、上記装置は、上記プログラムを実行するためのハードウェアとして、少なくとも１つの制御装置（例えばプロセッサ）と少なくとも１つの記憶装置（例えばメモリ）を有するコンピュータを備えている。この制御装置と記憶装置により上記プログラムを実行することにより、上記各実施形態で説明した各機能が実現される。

上記プログラムは、一時的ではなく、コンピュータ読み取り可能な、１または複数の記録媒体に記録されていてもよい。この記録媒体は、上記装置が備えていてもよいし、備えていなくてもよい。後者の場合、上記プログラムは、有線または無線の任意の伝送媒体を介して上記装置に供給されてもよい。

また、上記各制御ブロックの機能の一部または全部は、論理回路により実現することも可能である。例えば、上記各制御ブロックとして機能する論理回路が形成された集積回路も本発明の範疇に含まれる。

また、上記各制御ブロックの機能の一部または全部は、上記制御装置で動作するものであってもよいし、他の装置（例えばエッジコンピュータまたはクラウドサーバ（cloud server）等）で動作するものであってもよい。

〔まとめ〕
上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。

（付記１）
マッチングの対象である対象情報を取得する取得部と、ある正規表現に対応する状態モデルを用いて、前記対象情報に含まれる複数の部分情報の各々を対象とするサーチであって、サーチ経路数を所定の数以下に制限したサーチを実行することによって、前記対象情報に対するパターンマッチングを行う第１のマッチング部とを備えているマッチング装置。

（付記２）
前記第１のマッチング部が実行する前記サーチは、前記対象情報に含まれるある部分情報に対するマッチング処理として、前記ある部分情報に対する１又は複数のマッチング候補と、各マッチング候補の確率情報とを取得する処理と、前記１又は複数のマッチング候補のうち、前記状態モデルに整合しないマッチング候補を除外する第１の選択処理と、前記確率情報を参照して、前記第１の選択処理後のマッチング候補から、前記所定の数以下のマッチング候補を選択する第２の選択処理と、を含んでいる付記１に記載のマッチング装置。

（付記３）
前記状態モデルは、決定論的有限オートマトンである付記１又は２に記載のマッチング装置。

（付記４）
コンテンツタイプ情報に基づいて、個々の正規表現に個別に対応する複数の状態モデルから、前記パターンマッチングに用いる状態モデルを選択する選択部を更に備えている付記１から３の何れか１項に記載のマッチング装置。

（付記５）
前記状態モデルを生成する生成部を更に備えている付記１から４の何れか１項に記載のマッチング装置。

（付記６）
前記対象情報は、１又は複数の画像を含んでいる付記１から５の何れか１項に記載のマッチング装置。

（付記７）
前記第１のマッチング部によるマッチング結果を出力する出力部を備えている付記１から６の何れか１項に記載のマッチング装置。

（付記８）
正規表現に対応する状態モデルを用いることなく、前記対象情報に含まれる複数の部分情報の各々を対象とするビームサーチであって、サーチ経路数を所定の数に制限したビームサーチを実行することによって、前記対象情報に対するパターンマッチングを行う第２のマッチング部を更に備え、
前記第１のマッチング部によるマッチング結果及び前記第２のマッチング部によるマッチング結果の何れかを、前記第１のマッチング部によるマッチング結果の確率情報と前記第２のマッチング部によるマッチング結果の確率情報とに応じて出力する出力部
を備えている付記１から６の何れか１項に記載のマッチング装置。

（付記９）
マッチングの対象である対象情報を取得する取得ステップと、ある正規表現に対応する状態モデルを用いて、前記対象情報に含まれる複数の部分情報の各々を対象とするサーチであって、サーチ経路数を所定の数以下に制限したサーチを実行することによって、前記対象情報に対するパターンマッチングを行うマッチングステップとを含んでいるマッチング方法。

（付記１０）
付記１に記載のマッチング装置としてコンピュータを機能させるためのプログラムであって、上記取得部、および上記マッチング部としてコンピュータを機能させるためのプログラム。

（付記１１）
付記１０に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

１，１Ａマッチング装置
１０制御部
１１取得部
１２マッチング部（第１マッチング部）
１３選択部（状態モデル選択部）
１４生成部
１５第２マッチング部
１６マッチング結果選択部
１７マッチング結果出力部
２０記憶部
３０通信部
４０入出力部

Claims

マッチングの対象である対象情報として１又は複数の文字、数字および／または記号を含む文字列の画像データを取得する取得部と、
前記対象情報に対するパターンマッチングを行う第１のマッチング部であって、
前記対象情報に含まれるある部分情報に対するマッチング処理として、
前記ある部分情報に対する１又は複数のマッチング候補を、推論モデルを用いて予測し、各マッチング候補の確率情報と共に取得する処理を実行するとともに、
前記複数の部分情報のそれぞれに対する１又は複数のマッチング候補の各々を対象とするサーチであって、前記文字列を表現する正規表現に対応する状態モデルを用いて、サーチ経路数を所定の数以下に制限したサーチを実行することによって、
前記１又は複数のマッチング候補のうち、前記状態モデルに整合しないマッチング候補を除外する第１の選択処理と、前記確率情報を参照して、前記第１の選択処理後のマッチング候補から、前記所定の数以下のマッチング候補を選択する第２の選択処理と、を実行する第１のマッチング部と、
前記対象情報に対するパターンマッチングを行う第２のマッチング部であって、
前記対象情報に含まれるある部分情報に対するマッチング処理として、
前記ある部分情報に対する１又は複数のマッチング候補を、推論モデルを用いて予測し、各マッチング候補の確率情報と共に取得する処理を実行するとともに、
前記複数の部分情報のそれぞれに対する１又は複数のマッチング候補の各々を対象とするビームサーチであって、前記文字列を表現する正規表現に対応する状態モデルを用いることなく、サーチ経路数を所定の数に制限したビームサーチを実行することによって、
前記確率情報を参照して、前記１又は複数のマッチング候補から、前記所定の数のマッチング候補を選択する選択処理を実行する、第２のマッチング部と、
前記第１のマッチング部によるマッチング結果及び前記第２のマッチング部によるマッチング結果の何れかを、前記第１のマッチング部によるマッチング結果の確率情報と前記第２のマッチング部によるマッチング結果の確率情報とに応じて選択するマッチング結果選択部とを備える
マッチング装置。
前記状態モデルは、決定論的有限オートマトンである
請求項１に記載のマッチング装置。
前記状態モデルを生成する生成部
を更に備えている請求項１または２の何れか１項に記載のマッチング装置。
前記マッチング結果選択部による選択結果を出力する出力部
を備えている請求項１から３の何れか１項に記載のマッチング装置。
前記マッチング結果選択部は、
前記第１のマッチング部によるマッチング結果の確率情報が示す確率値を、前記第２のマッチング部によるマッチング結果の確率情報が示す確率値で除算して得られる比を示す値と、閾値とを比較し、
前記比を示す値が、前記閾値以上であれば、前記第１のマッチング部によるマッチング結果を選択し、
前記比を示す値が、前記閾値未満であれば、前記第２のマッチング部によるマッチング結果を選択する
ことを特徴とする請求項１から４の何れか１項に記載のマッチング装置。
マッチングの対象である対象情報として１又は複数の文字、数字および／または記号を含む文字列の画像データを取得する取得ステップと、
前記対象情報に対するパターンマッチングを行う第１のマッチングステップであって、
前記対象情報に含まれるある部分情報に対するマッチング処理として、
前記ある部分情報に対する１又は複数のマッチング候補を、推論モデルを用いて予測し、各マッチング候補の確率情報と共に取得する処理が実行されるとともに、
前記複数の部分情報のそれぞれに対する１又は複数のマッチング候補の各々を対象とするサーチであって、前記文字列を表現する正規表現に対応する状態モデルを用いて、サーチ経路数を所定の数以下に制限したサーチが実行されることによって、
前記１又は複数のマッチング候補のうち、前記状態モデルに整合しないマッチング候補を除外する第１の選択処理と、前記確率情報を参照して、前記第１の選択処理後のマッチング候補から、前記所定の数以下のマッチング候補を選択する第２の選択処理と、が実行される第１のマッチングステップと、
前記対象情報に対するパターンマッチングを行う第２のマッチングステップであって、
前記対象情報に含まれるある部分情報に対するマッチング処理として、
前記ある部分情報に対する１又は複数のマッチング候補を、推論モデルを用いて予測し、各マッチング候補の確率情報と共に取得する処理が実行されるとともに、
前記複数の部分情報のそれぞれに対する１又は複数のマッチング候補の各々を対象とするビームサーチであって、前記文字列を表現する正規表現に対応する状態モデルを用いることなく、サーチ経路数を所定の数に制限したビームサーチが実行されることによって、
前記確率情報を参照して、前記１又は複数のマッチング候補から、前記所定の数のマッチング候補を選択する選択処理が実行される、第２のマッチングステップと、
前記第１のマッチングステップによるマッチング結果及び前記第２のマッチングステップによるマッチング結果の何れかを、前記第１のマッチングステップによるマッチング結果の確率情報と前記第２のマッチングステップによるマッチング結果の確率情報とに応じて選択する選択ステップと
を含んでいるマッチング方法。
請求項１に記載のマッチング装置としてコンピュータを機能させるためのプログラムであって、上記取得部、上記第１のマッチング部、上記第２のマッチング部、及び上記マッチング結果選択部としてコンピュータを機能させるためのプログラム。
請求項７に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。