JP2024094101A

JP2024094101A - 類似度判定方法および類似度判定プログラム

Info

Publication number: JP2024094101A
Application number: JP2022210853A
Authority: JP
Inventors: 雅基石川; Masaki Ishikawa; 勇太中谷; Yuta Nakatani; 涼堀添; Ryo Horizoe; 龍一郎小池; Ryuichiro Koike
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2024-07-09

Abstract

【課題】数詞を含む文字列同士の類似度を精度よく判定できること。【解決手段】類似度判定装置１００は、起案伝票のデータＡと、請求書のデータＢとを突合させて類似度を判定する。類似度判定装置１００は、データＡとデータＢを取得し、データＡとデータＢの文字列からそれぞれ数詞を抽出し、当該数詞の一致度を判定し、数詞突合結果Ｓ１として出力する。また、類似度判定装置１００は、データＡとデータＢの文字列の類似度％を判定し、ＡＩ突合結果Ｓ２として出力する。ここで、類似度判定装置１００は、判定した数詞が一致しなければ、判定した文字列の類似度％をより低い値に変更し、ＡＩ突合結果Ｓ２として出力する。【選択図】図１

Description

本発明は、類似度判定方法および類似度判定プログラムに関する。

例えば、自治体等の財務会計では、物品購入にかかる起案伝票と、物品購入後の請求書とを突合させて内容一致の審査を行っている。突合の処理では、請求日や債権者等の各種の項目毎の文字列の一致を確認している。例えば、突合する起票伝票と請求書の項目「件名」の文字列が「ボールペンの購入」と「筆記具の購入」である場合、単純な文字列の突合では、同一の内容であっても一致であるとの判定が行えない。

これに対し、人工知能（ＡＩ）による意味類似度判定を行うことで、起票伝票と請求書とが同一のものであるか否かの判定材料となる意味類似度を得ることができ、審査の効率化を図ることができる。

類似度判定の先行技術としては、例えば、証憑データを画像認識し、文字認識ＡＩで文字認識し、取引明細情報項目の「金額」を判定し、仕訳ＡＩで取引明細情報と対応する勘定科目の組み合わせの判定を行う技術がある。また、入力された検索対象の文書を形態素解析し、解析結果に基づいて、数値と単位と範囲を含めた数詞範囲を抽出することで、検索条件に数詞や数詞範囲が含まれる場合に対応した検索結果を得る技術がある。また、通帳の画像データから通帳の記載形式を含めた読取要素を抽出し、勘定科目と補助科目とをそれぞれの仕訳ＡＩを用いて選定して仕訳データを生成し、補助科目に相当する事項を選定できる技術がある（例えば、下記特許文献１～３参照。）。

特開２０２１－１６５９６７号公報特開２０２０－１８７５３３号公報国際公開第２０１９／１４６１１８号明細書

従来技術において、ＡＩを用いた意味類似度判定では、一般的に文字列全体の類似度を判定する。ここで、突合する起票伝票と請求書の項目「件名」の文字列に数詞が含まれ、「ボールペンの購入（１０月度）」と、「筆記具の購入（１１月度）」であるとする。この場合、ＡＩを用いた意味類似度判定では、文字列に含まれている数詞の一致／不一致を正確に判定することができないことが多い。財務会計の審査では、数詞の一致／不一致が重要であるが、現状、ＡＩに対し数詞の一致／不一致に関する再学習やチューニングを行うことは困難である。

一つの側面では、本発明は、数詞を含む文字列同士の類似度を精度よく判定できることを目的とする。

本発明の一側面によれば、第１のデータと第２のデータとを突合させて類似度を判定する類似度判定方法において、前記第１のデータと前記第２のデータを取得し、前記第１のデータと前記第２のデータの文字列からそれぞれ数詞を抽出し、当該数詞の一致度を判定し、前記第１のデータと前記第２のデータの文字列の類似度を判定し、判定した前記数詞の一致度と、前記文字列の類似度とに基づき、前記第１のデータと前記第２のデータとの類似度を決定する、ことを要件とする。

本発明の一態様によれば、数詞を含む文字列同士の類似度を精度よく判定できるという効果を奏する。

図１は、実施の形態にかかる類似度判定方法の概要を示す説明図である。図２は、類似度判定装置を用いた財務会計の処理の流れを示す説明図である。図３は、類似度判定装置のハードウェア構成例を示す図である。図４は、突合の類似度判定に用いる請求書の記載例を示す図である。図５は、請求書のＯＣＲ結果のデータ例を示す図である。図６は、請求書照合結果リストの出力例を示す図である。図７は、類似度判定装置が実行する処理例を示すフローチャートである。

以下に図面を参照して、開示の類似度判定方法および類似度判定プログラムの実施の形態を詳細に説明する。

（実施の形態にかかる類似度判定方法の一実施例）
図１は、実施の形態にかかる類似度判定方法の概要を示す説明図である。実施の形態の類似度判定装置１００は、例えば、財務会計において互いに突合させる書類（データ）の入力に基づき、データ間の類似度に関する情報を出力する処理を行う。類似度判定装置１００は、サーバや、端末等のコンピュータである。

以下の説明では、起案伝票のデータＡと、請求書のデータＢの項目「件名」に数詞が含まれており、類似度判定装置１００が項目毎に突合処理し、含まれた数詞を考慮して類似度判定する例について説明する。項目「件名」は、起案伝票および請求書の表題に相当し、両者の一致／不一致の判断に重要な項目である。

類似度判定装置１００は、取得部１０１、前処理部１０２、数詞突合部１０３、ＡＩ突合部１０４、類似度判定部１０５の各機能を含む。

類似度判定装置１００が実行するデータ処理の流れの例は、例えば、下記１．～５．である。
１．取得部１０１によるデータＡ，Ｂの取得
取得部１０１は、互いに突合処理する第一のデータ（データＡ）と、第二のデータ（データＢ）とを取得する。

例えば、データＡは、物品購入にかかる起案伝票の記載内容の文字列であり、紙の起案伝票の画像をＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）処理することで、起案伝票の内容を項目毎に文字列のデータに変換したものである。また、データＢは、物品購入後の請求書の画像をＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）処理することで、起案伝票の内容を項目毎に文字列のデータに変換したものである。

実施の形態の説明では、起案伝票のデータＡと、請求書のデータＢの項目「件名」に数詞が含まれるものとして説明する。図１の例では、取得部１０１は、起案伝票のデータＡの件名「ボールペンの購入（１０月度）」を抽出し、請求書のデータＢの件名「筆記具の購入（１１月度）」を抽出する。

２．前処理部１０２による突合の前処理
前処理部１０２は、突合の前処理として、データＡと、データＢの項目に含まれる数詞をそれぞれ抽出する。例えば、前処理部１０２は、正規表現にてデータＡ，Ｂの項目に含まれる数詞を抽出する処理と、ＡＩ突合部１０４でのＡＩ突合（類似度解析）用に、項目のデータ（文字列）の形態素解析を行う。

図１の例では、前処理部１０２は、データＡの項目から数詞「１０月」を抽出し、データＢの項目から数詞「１１月」を抽出し、それぞれ数詞突合部１０３に出力する。また、前処理部１０２は、データＡの文字列の形態素解析結果「ボールペン／の／購入／１０月／度」と、データＢの文字列の形態素解析結果「筆記具／の／購入／１１月／度」の情報をＡＩ突合部１０４に出力する。

３．数詞突合部１０３による数詞の突合処理
数詞突合部１０３は、前処理部１０２から入力されるデータＡ、データＢそれぞれの項目の文字列に含まれる数詞の突合処理を行い、突合処理結果として一致（図中〇）または不一致（×）の情報を類似度判定部１０５に出力する。

図１の例では、数詞突合部１０３は、データＡの項目に含まれる数詞「１０月度」とデータＢの項目に含まれる数詞「１１月度」との突合処理結果として不一致×を出力する。

４．ＡＩ突合部１０４による文字列の突合処理
ＡＩ突合部１０４は、前処理部１０２から入力されたデータＡ，Ｂの文字列の形態素解析結果に基づき、データＡ，Ｂの類似度（割合％、値：０～１００％）を判断し、類似度の情報を類似度判定部１０５に出力する。

図１の例では、ＡＩ突合部１０４は、データＡの文字列「ボールペンの購入（１０月度）」と、データＢの文字列「筆記具の購入（１１月度）」との類似度を判断し、類似度の情報を類似度判定部１０５に出力する。ここで、ＡＩ突合部１０４は、データＡ，Ｂの文字列から前処理部１０２で抽出した数詞「１０月」、「１１月」を除いた文字列「ボールペンの購入」と、「筆記具の購入」との類似度を判断する。

５．類似度判定部１０５による数詞突合結果と、ＡＩ突合結果に対する総合判定
類似度判定部１０５は、データＡ，Ｂについて、数詞突合部１０３から入力される数詞突合結果と、ＡＩ突合部１０４から入力されるＡＩ突合結果と、をそれぞれ出力する。総合判定結果は、数詞突合結果Ｓ１として一致／不一致の情報、例えばマーク〇／×と、ＡＩ突合結果Ｓ２として、例えば類似度％の情報を出力する。類似度判定部１０５は、例えば、データＡ，Ｂの類似度判定結果を請求書照合結果リストとして出力する。

ここで、類似度判定部１０５は、数詞の突合結果に基づき、ＡＩ突合部１０４が出力するＡＩ突合結果である類似度（％）を変更する。例えば、類似度判定部１０５は、数詞判定結果が×（不一致）のときには、ＡＩ突合部１０４が判定した類似度をより低くなるように変更（例えば０．５倍）して出力する。一方、類似度判定部１０５は、数詞判定結果が〇（一致）のときには、ＡＩ突合部１０４から入力される類似度をそのまま（値を変更せず）出力する。

図１の例では、数詞判定結果が×であるため、類似度判定部１０５は、ＡＩ突合部１０４が判定した類似度を０．５倍して出力する。例えば、ＡＩ突合部１０４が判定した類似度の値が８０％であれば、類似度判定部１０５は、８０％を０．５倍した４０％を類似度として出力する。

なお、数詞判定結果が仮に〇であった場合、ＡＩ突合部１０４から入力される類似度の値が８０％であれば、類似度判定部１０５は、８０％をそのまま類似度として出力する。

図１に示す例では、類似度判定部１０５は、数詞突合結果Ｓ１として数詞の突合結果が一致（〇）している旨を出力し、ＡＩ突合結果（類似度）Ｓ２として「ｘｘ％」を出力する。このように、類似度判定部１０５は、ＡＩ突合部１０４によるデータＡ，Ｂの類似度（％）をそのまま出力するのではなく、データＡ，Ｂの数詞の判定結果に基づき、データＡ，Ｂの類似度（％）を変更して出力する。

このほか、類似度判定部１０５は、数詞突合結果と、ＡＩ突合部１０４から入力されるＡＩ突合結果とを組み合わせた総合判定結果（類似に関する情報）Ｓ３を、さらに生成してもよい。例えば、類似度判定部１０５は、判定した類似度０～１００％を複数段階に分け、データＡ，Ｂの総合判定結果Ｓ３として各段階別のマークを出力する。例えば、類似度を３段階に分け、類似度０～３０％未満を×、類似度３０％以上６０％未満を△、類似度６０％以上１００％を〇のマークで出力する。

従来技術では、データＡ，Ｂの項目に数詞が含まれることがあることを考慮していない。このため、従来技術では、データＡ，Ｂの項目「件名」の数詞（１０月と１１月）が異なっているにも関わらず、ＡＩ突合部１０４の突合結果である類似度８０％と判定し、適切な類似度（％）を出力できなかった。

財務会計の審査や決済の処理では、各項目間の整合性チェックが必要となる。整合性チェックを行う際には、特に書類（起案伝票や請求書）に記載の「件名」について、単純な文字列突合ではなく意味も踏まえた判定が必要となり、例えば、学習済みＡＩによる意味類似度の算出が効果的と考えられている。

そして、財務会計の審査や決済の処理では、一般的に数詞が重要となる。しかし、学習済みＡＩによる意味類似度では数詞を考慮することが難しい。学習済みＡＩでは審査を想定せずに文の類似度を学習している。審査の観点で見れば、数詞の一致／不一致が重要となるが、従来技術では、その再学習・チューニングをＡＩに対して行うことは困難である。例えば、「筆記具の購入（１０月度）」と「ボールペンの購入（１１月度）」は審査としては不一致となるが、ＡＩでは数詞を考慮せずに意味合いを判定するため、類似度を高く判定してしまう。仮に、この判定結果に対して類似度を低くするように再学習させても、ＡＩは文（文字列）全体を見るため、数詞に特化して学習することは難しい。

これに対し、実施の形態によれば、データＡ，Ｂの項目、例えば「件名」に数詞が混入している場合、数詞についてＡＩ突合（類似度判定）と分離した前処理で別個に突合処理している。これにより、総合的な類似度判定において、データＡ，Ｂの数詞の判定結果に基づき、データＡ，Ｂの類似度（％）を適切に変更して出力できるようになる。

（財務会計の処理の流れ）
図２は、類似度判定装置を用いた財務会計の処理の流れを示す説明図である。実施の形態の類似度判定装置１００は、例えば、図２に示す財務会計の処理に適用できる。

例えば、自治体における財務管理では、支出者である起案者Ｈが購入物の購入に際して、例えば端末Ｅ１により起案伝票２０１を作成し、財務管理部に提出する（ステップＳ２０１）。また、起案者Ｈは、購入物の請求書２０２を添付書類Ｔに添付して財務管理部に提出する（ステップＳ２０２）。添付書類Ｔは、請求書２０２のほか起案にかかる書類一式を含み、起案伝票２０１を含んでもよい。

請求書２０２は、例えば、紙媒体の書類として発行される。図１には、紙媒体の請求書２０２である場合の処理例を記載し、起案伝票２０１については、電子データ化されたデータＡであるとする。起案伝票２０１が紙媒体である場合、請求書２０２と同様の処理を行う。財務管理部の会計担当者Ｕは、端末Ｅ２を操作し、請求書２０２に記載された画像を図示しないスキャナで読み取る操作を行う。

類似度判定装置１００は、ＯＣＲ機能を有してもよい。類似度判定装置１００は、紙媒体の請求書２０２の画像を読み取り、ＡＩを用いたＯＣＲ機能により、請求書２０２に記載の文字列を切り出して文字認識する（ステップＳ２０３）。ＯＣＲによる切り出しは、請求書２０２の項目毎に行う。また、端末Ｅ２は、類似度判定装置１００の機能を有してもよい。類似度判定装置１００は、請求書２０２のＯＣＲ項目を読み取り、日本語ＡＩにより手書き文字補正し、テキスト化する（ステップＳ２０４）。

類似度判定装置１００は、図１に示す会計担当者Ｕの端末Ｅ２に設けるに限らず、サーバに設けてもよく、この場合、端末Ｅ２がネットワーク接続されたサーバにアクセスしてサーバが類似度判定にかかる処理を実施し、端末Ｅ２に処理結果を返答する。

また、類似度判定装置１００は、請求書２０２に押印された受付印や社印、代表者印等の印影画像Ｍを画像認識により抽出する（ステップＳ２０５）。そして、類似度判定装置１００は、請求書２０２について、項目別のテキストの文字列と、抽出した印影画像ＭとからなるデータＢとして電子データ化する。

この後、類似度判定装置１００は、起案伝票２０１のデータＡと、請求書ＢのデータＢとを突合処理する（ステップＳ２０６）。この突合処理において、類似度判定装置１００は、起案伝票２０１のデータＡの各項目と、データＡの各項目に対応する請求書ＢのデータＢの各項目と、を突合処理する。

類似度判定装置１００は、この突合処理において、データＡ，Ｂの数詞突合と、文字列同士のＡＩ突合（類似度）とを行い、数詞突合結果と、ＡＩ突合結果（類似度）とを請求書照合結果リストＬに出力する。

会計担当者Ｕは、添付書類Ｔとともに、データＡ、Ｂの突合結果、すなわち、起案伝票２０１と請求書２０２とを突合したＡＩ結果の請求書照合結果リストＬと、抽出した印影画像Ｍと、を決裁者・審査者Ｋに提出する（ステップＳ２０７）。

決裁者・審査者Ｋは、会計担当者Ｕから提出された添付書類Ｔと、請求書照合結果リストＬ（印影画像Ｍを含む）とに基づき、起案伝票２０１と請求書２０２の内容の齟齬の有無を確認し、起案内容に対する決済の処理を行う（ステップＳ２０８）。決裁者・審査者Ｋは、端末決裁（審査）の内容は、例えば、端末Ｅ３から起案者Ｈの端末Ｅ１に対し、Ｅメール等で通知してもよい（ステップＳ２０９）。

（類似度判定装置のハードウェア構成例）
図３は、類似度判定装置のハードウェア構成例を示す図である。類似度判定装置１００は、図３に示す汎用のハードウェアからなるサーバ等のコンピュータで構成することができる。

類似度判定装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３０１と、メモリ３０２と、ネットワークＩ／Ｆ（Ｉｎｔｅｒｆａｃｅ）３０３と、を有する。また、類似度判定装置１００は、記録媒体Ｉ／Ｆ３０４と、記録媒体３０５と、可搬型記録媒体Ｉ／Ｆ３０６と、可搬型記録媒体３０７と、を有する。また、各構成部は、バス３００によってそれぞれ接続される。

ＣＰＵ３０１は、類似度判定装置１００の全体の制御を司る制御部として機能する。ＣＰＵ３０１は、複数のコアを有していてもよい。メモリ３０２は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびフラッシュＲＯＭなどを有する。具体的には、例えば、フラッシュＲＯＭがＯＳのプログラムを記憶し、ＲＯＭがアプリケーションプログラムを記憶し、ＲＡＭがＣＰＵ３０１のワークエリアとして使用される。メモリ３０２に記憶されるプログラムは、ＣＰＵ３０１にロードされることで、コーディングされている処理をＣＰＵ３０１に実行させる。

ネットワークＩ／Ｆ３０３は、通信回線を通じてネットワークＮＷに接続され、ネットワークＮＷを介して外部のコンピュータに接続される。外部のコンピュータは、例えば、図２に示した各担当者の端末Ｅ１～Ｅ３等である。そして、ネットワークＩ／Ｆ３０３は、ネットワークＮＷと装置内部とのインターフェースを司り、外部のコンピュータからのデータの入出力を制御する。ネットワークＩ／Ｆ３０３には、例えば、モデムやＬＡＮアダプタなどを採用することができる。

記録媒体Ｉ／Ｆ３０４は、ＣＰＵ３０１の制御にしたがって記録媒体３０５に対するデータのリード／ライトを制御する。記録媒体３０５は、記録媒体Ｉ／Ｆ３０４の制御で書き込まれたデータを記憶する。記録媒体３０５としては、例えば、磁気ディスク、光ディスクなどが挙げられる。

可搬型記録媒体Ｉ／Ｆ３０６は、ＣＰＵ３０１の制御にしたがってって可搬型記録媒体３０７に対するデータのリード／ライトを制御する。可搬型記録媒体３０７は、可搬型記録媒体Ｉ／Ｆ３０６の制御で書き込まれたデータを記憶する。可搬型記録媒体３０７としては、例えば、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）－ＲＯＭ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリなどが挙げられる。

なお、類似度判定装置１００は、上述した構成部の他に、例えば、キーボード、マウス等の入力装置やディスプレイなどを有することにしてもよい。

また、図２に示した各担当者の端末Ｅ１～Ｅ３は、上記の各構成に加えて、図３に示した入力装置３０８と、ディスプレイ３０９を有する。また、図２で説明したように、類似度判定装置１００の機能を会計担当者Ｕの端末Ｅ２に実装する場合、端末Ｅ２は、図３に示したバス３００、ＣＰＵ３０１～可搬型記録媒体３０７の各構成に加えて、入力装置３０８と、ディスプレイ３０９を有する。

図１に示した取得部１０１～類似度判定部１０５の各機能は、図１４に示したＣＰＵ３０１がプログラム実行することで機能を実現できる。また、図２の起案伝票２０１のデータＡ、および請求書２０２のデータＢ、請求書照合結果リストＬ等の類似度判定装置１００が処理する処理データは、例えば、図３に示したメモリ３０２、記録媒体３０５、可搬型記録媒体３０７に格納保持することができる。また、類似度判定装置１００（サーバ）の処理データは、ネットワークＮＷを介して端末Ｅ１～Ｅ３との間で送受信することができる。

（請求書およびＯＣＲデータの例）
図４は、突合の類似度判定に用いる請求書の記載例を示す図である。図４の請求書２０２は、紙媒体で発行された例を示す。請求書２０２には、請求内容が項目毎の項目内容として記載されている。

各項目と項目内容は、例えば、請求日「令和３年３月２４日」、債権者番号「「１００００００９６５」、債権者住所「松山市」、債権者氏名「主幹法人次郎」、件名「一般管理費ソフトウェアの購入（１０月度）」、金額「７８９００００」、等である。

紙媒体の請求書２０２は、例えば、図２に示した財務管理部の会計担当者Ｕのスキャナ操作により、記載された画像が読み取られ、画像データが類似度判定装置１００に入力される。

図４において、項目「件名」の項目内容「一般管理費ソフトウェアの購入（１０月度）」４０１には、上述した数詞（１０月）が含まれている。

図５は、請求書のＯＣＲ結果のデータ例を示す図である。図５は、図４に示した請求書２０２を電子データ化したデータＢ（図１参照）を示す。類似度判定装置１００は、ＯＣＲ機能により、請求書２０２の画像データを解析し、各項目と項目内容をテキスト文字にデータ変換する。類似度判定装置１００は、ＯＣＲ処理により請求書２０２の項目毎に画像を切り出し、切り出した領域単位で画像の文字をテキスト文字に変換する。

図５に示すように、ＯＣＲ処理結果、紙媒体の請求書２０２は、項目毎に、コードと、項目内容がテキスト文字列を含むデータＢ（カンマ区切りＣＳＶデータ）として電子データ化される。

類似度判定装置１００は、請求書２０２のＯＣＲにより、項目毎に複数行（複数レコード）の読取項目５０１を生成する。

図５に示すＯＣＲ結果、コード「１１００５」の項目「件名」の項目内容「一般管理費ソフトウェアの購入（１０月度）」５０１ａには、上述した数詞（１０月）が含まれている。また、類似度判定装置１００は、項目「請求日」については、請求書２０２に記載の年号「令和」を「西暦」表記に変換している。

図５に示す付帯情報５０２は、ＯＣＲ処理にかかる情報であり、類似度判定装置１００は、項目毎のコードと、項目内容を生成する。例えば、コード「２１００１」の項目は、請求書２０２に対するＯＣＲ処理が「ＡＩ－ＯＣＲ読取形式」であることを示し、項目内容が「請求書（定型フォーマット）」である解析結果を示している。

類似度判定装置１００は、これら読取項目５０１と、付帯情報５０２のデータをメモリ３０２等に格納保持し、突合処理時にメモリ３０２から読み出す。

（請求書照合結果リストの出力例）
図６は、請求書照合結果リストの出力例を示す図である。類似度判定装置１００は、類似度判定結果を請求書照合結果リストＬとして出力する。類似度判定装置１００は、例えば、財務会計処理の決済者・審査者Ｋの端末Ｅ２に請求書照合結果リストＬをデータ出力する。

請求書照合結果リストＬには、起案伝票２０１のデータＡと、請求書２０２のデータＢとを、項目毎に突合処理した結果が示され、図６の例では、類似度判定装置１００は、突合処理の結果、不一致があることが「不一致あり」６０１として表示している。類似度判定装置１００は、複数の項目のうち少なくとも一つの項目で突合処理の結果に不一致がある場合、照合結果６０１として「不一致あり」と表示する。

なお、類似度判定装置１００は、複数の項目全の項目で突合処理の結果に不一致がない場合、照合結果６０１として「不一致なし」と表示する。初号結果６０１は、上述した総合判定結果Ｓ３に相当する。

類似度判定装置１００は、請求書照合結果リストＬに表形式の各行に項目毎の突合内容を表示する。各行は、通番「Ｎｏ．１～ｎ」と、判定結果「〇／×」と、項目名と、該当する項目における「請求書の記載内容」および「起案伝票の記載内容」と、類似度％と、を含む。

判定結果「〇／×」は、図１に示した数詞突合結果Ｓ１を示す。項目名と、該当する項目における請求書の記載内容および起案伝票の記載内容は、図１に示したデータＢ（請求書２０２）の項目および項目別の項目内容と、データＡ（起案伝票２０１）の項目および項目別の項目内容を示す。類似度％は、図１に示したＡＩ突合結果Ｓ２（類似度％を示す。

図６に示す例では、符号６０２で示す通番「Ｎｏ．２」のみ判定結果が「×」である。この通番「Ｎｏ．２」の項目名は「件名」であり、項目「件名」の請求書の記載内容は「ボールペンの購入（１０月度）」、起案伝票の記載内容は「筆記具の購入（１１月度）」である。類似度判定装置１００は、請求書「ボールペン」と起案伝票「筆記具」については類似度が「４０％」と判定している。そして、類似度判定装置１００は、請求書の記載内容の数詞「１０月」、起案伝票の記載内容の数詞「１１月」が異なるため、「×」と判定している。

このように、類似度判定装置１００は、請求書照合結果リストＬ上の項目毎の突合結果に、数詞を含む文字列突合の判定結果「〇／×」と、文字列突合の類似度％を表示する。これにより、決済者・審査者Ｋは、突合する項目に数詞が含まれる場合であっても、数詞が混入している項目（文字列）を探す必要がなく、請求書照合結果リストＬ上での判定結果「〇／×」と、文字列突合の類似度％の表示を見るだけで、不一致の項目を簡単に判断できる。

（類似度判定装置のデータ処理例）
図７は、類似度判定装置が実行する処理例を示すフローチャートである。図７には、類似度判定装置１００のＣＰＵ３０１が実行する処理内容を示す。類似度判定装置１００は、起案伝票２０１と、請求書２０２の各項目について突合の処理を行うが、図７では、起案伝票２０１および請求書２０２の項目に数詞が含まれている「件名」に対する処理例を説明する。

はじめに、類似度判定装置１００は、起案伝票２０１と請求書２０２の項目「件目」のデータＡ，Ｂを取得する（ステップＳ７０１）。次に、類似度判定装置１００は、起案伝票２０１の「件名」のデータＡの文字列を文字列１とし、請求書２０２の「件名」のデータＡの文字列を文字列２とし、メモリ３０２に格納しておく（ステップＳ７０２）。図１等に示したように、文字列１，２には、数詞（１０月、１１月）が含まれている。

次に、類似度判定装置１００は、文字列１，２から正規表現で数詞を抽出し、抽出した数詞を変数（数詞１，２）としてメモリ３０２に格納しておく（ステップＳ７０３）。

次に、類似度判定装置１００は、メモリ３０２から変数（数詞１，２）を読み出し、数詞１，２に対する数詞突合処理を行う（ステップＳ７０４）。

また、類似度判定装置１００は、例えば、ステップＳ７０４の処理と並行して、メモリ３０２から文字列１，２を読み出し、文字列１，２を形態素解析し、ＡＩ突合処理する（ステップＳ７０５）。

次に、類似度判定装置１００は、類似に関する情報判定処理を行う（ステップＳ７０６）。類似度判定装置１００は、ステップＳ７０４の数詞突合処理の判定結果Ｓ１（〇／×）に基づき、ＡＩ突合部１０４が出力するＡＩ突合結果Ｓ２である類似度（％）を決定する。

例えば、類似度判定装置１００は、数詞判定結果Ｓ１が×のときには、ＡＩ突合部１０４の判定結果Ｓ２である類似度を０．５倍する。一方、類似度判定部１０５は、数詞判定結果が〇のときには、ＡＩ突合部１０４の判定結果Ｓ２の類似度をそのまま（値を変更せず）にする。

また、類似度判定装置１００は、数詞突合結果と、ＡＩ突合結果に基づいて、類似に関する情報（総合判定結果Ｓ３）を決定してもよい。例えば、類似度判定装置１００は、類似度０～１００％を複数段階に分け、総合判定結果Ｓ３として各段階別のマークを付与する。例えば、類似度を３段階に分け、類似度０～４０％未満を×、類似度４０％以上７０％未満を△、類似度７０％以上１００％を〇のマークとする。

類似度判定装置１００は、ステップＳ７０６による数詞の判定結果と、ＡＩ突合結果（類似度）、さらには総合判定結果を請求書照合結果リストＬに出力し（ステップＳ７０７）、以上の処理を終了する。

以上説明した実施の形態では、突合処理する書類として、起案伝票２０１と、請求書２０２を例に説明した。実施の形態の類似度判定装置１００は、突合処理する各種書類（データＡ，Ｂ）に適用でき、例えば、領収書と請求書、見積書と請求書、発注書と請求書、納品書と請求書、についても上記同様に突合処理することができる。また、上述した実施の形態の機能を有する類似度判定プログラムをサーバや端末にインストールして備えることで、財務会計等を行う部署における突合処理を正確かつ効率的に実施できるようになる。

また、実施の形態では、類似度判定装置１００を財務会計の処理に適用した例を説明したが、これに限らない。類似度判定装置１００を互いに突合させてデータＡ，Ｂの類似度を判定する各種態様の処理に適用でき、自治体、企業、事務所、個人の会計、監査、申告等の各種処理に適用できる。特に、実施の形態の類似度判定装置１００によれば、数詞を含むデータＡ，Ｂの類似度を精度よく判定できるようになる。

以上説明した実施の形態の類似度判定装置１００は、第１のデータと第２のデータとを突合させて類似度を判定する。類似度判定装置１００は、第１のデータと第２のデータを取得し、第１のデータと第２のデータの文字列からそれぞれ数詞を抽出し、当該数詞の一致度を判定する。また、類似度判定装置１００は、第１のデータと第２のデータの文字列の類似度を判定する。そして、類似度判定装置１００は、判定した数詞の一致度と、文字列の類似度とに基づき、第１のデータと第２のデータとの類似度を決定する。例えば、第１のデータは、起案伝票のデータであり、第２のデータは、請求書のデータであり、このような財務会計における審査・決済処理において、数詞を含む起案伝票と請求書の突合にかかる処理を正確かつ効率的に行えるようになる。

また、類似度判定装置１００は、決定の処理を、判定した数詞の一致度が一致すれば、判定した文字列の類似度の値を変更せず、判定した数詞の一致度が不一致であれば、判定した文字列の類似度の値をより低く変更することとしてもよい。これにより、文字列に数詞が含まれるか否かによって文字列の類似度（％）をより適切な値で提示できるようになる。

また、類似度判定装置１００は、決定の処理を、判定した数詞の一致度と、文字列の類似度とを組み合わせた類似度に関する総合判定結果を生成することとしてもよい。この総合判定結果により、互いに突合させた第１のデータと第２のデータの数詞を含む文字列の類似度を容易に判断できるようになる。

また、類似度判定装置１００は、決定した類似度の情報を照合結果リストに出力する処理を含んでもよい。これにより、データＡ，Ｂの突合結果である数詞の一致度および文字列の類似度を容易に把握できるようになる。

また、類似度判定装置１００は、取得の処理は、第１のデータと、第２のデータとを、それぞれに対応する書類の電子データあるいは、書類をＯＣＲ処理して取得し、類似度の決定の処理は、第１のデータと、第２のデータの項目毎の文字列を抽出する処理を含むこととしてもよい。例えば、互いに突合させる書類の一方が紙媒体である場合、ＯＣＲ処理により電子データ化でき、第１のデータと第２のデータとを突合処理できるようになる。また、類似度判定装置１００は、第１のデータと、第２のデータの項目毎に数詞の一致度と、文字列の類似度を判定でき、審査時に書類上で異なる項目を容易に抽出できるようになる。

なお、本発明の実施の形態で説明した類似度判定方法は、予め用意されたプログラムをサーバ等のプロセッサに実行させることにより実現することができる。本方法は、ハードディスク、フレキシブルディスク、ＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃ－ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、フラッシュメモリ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また本方法は、インターネット等のネットワークを介して配布してもよい。

上述した実施の形態に関し、さらに以下の付記を開示する。

（付記１）第１のデータと第２のデータとを突合させて類似度を判定する類似度判定方法において、
前記第１のデータと前記第２のデータを取得し、
前記第１のデータと前記第２のデータの文字列からそれぞれ数詞を抽出し、当該数詞の一致度（Ｓ１）を判定し、
前記第１のデータと前記第２のデータの文字列の類似度を判定し、
判定した前記数詞の一致度と、前記文字列の類似度とに基づき、前記第１のデータと前記第２のデータとの類似度を決定する、
処理をコンピュータが実行することを特徴とする類似度判定方法。

（付記２）前記決定の処理は、
判定した前記数詞の一致度が一致すれば、判定した前記文字列の類似度の値を変更せず、
判定した前記数詞の一致度が不一致であれば、判定した前記文字列の類似度の値をより低く変更する、
ことを特徴とする付記１に記載の類似度判定方法。

（付記３）前記決定の処理は、
判定した前記数詞の一致度と、前記文字列の類似度とを組み合わせた類似度に関する総合判定結果を生成する、
処理を含むことを特徴とする付記１に記載の類似度判定方法。

（付記４）決定した前記類似度の情報を照合結果リストに出力する、
処理を含むことを特徴とする付記１に記載の類似度判定方法。

（付記５）前記取得の処理は、
前記第１のデータと、前記第２のデータとを、それぞれに対応する書類の電子データあるいは、書類をＯＣＲ処理して取得し、
前記類似度の決定の処理は、
前記第１のデータと、第２のデータの項目毎の文字列を抽出する処理を含む、
ことを特徴とする付記１に記載の類似度判定方法。

（付記６）前記第１のデータは、起案伝票のデータであり、
前記第２のデータは、請求書のデータである、
ことを特徴とする付記１に記載の類似度判定方法。

（付記７）第１のデータと第２のデータとを突合させて類似度を判定する類似度判定プログラムにおいて、
前記第１のデータと前記第２のデータを取得し、
前記第１のデータと前記第２のデータの文字列からそれぞれ数詞を抽出し、当該数詞の一致度を判定し、
前記第１のデータと前記第２のデータの文字列の類似度を判定し、
判定した前記数詞の一致度と、前記文字列の類似度とに基づき、前記第１のデータと前記第２のデータとの類似度を決定する、
処理をコンピュータに実行させることを特徴とする類似度判定プログラム。

１００類似度判定装置
１０１取得部
１０２前処理部
１０３数詞突合部
１０４ＡＩ突合部
１０５類似度判定部
２０１起案伝票（データＡ）
２０２請求書（データＢ）
３０１ＣＰＵ
３０２メモリ
３０３ネットワークＩ／Ｆ
３０５記録媒体
３０７可搬型記録媒体
３０８入力装置
３０９ディスプレイ
Ｅ１～Ｅ３端末
Ｈ起案者
Ｋ決裁者・審査者
Ｌ請求書照合結果リスト
ＮＷネットワーク
Ｓ１数詞突合結果
Ｓ２ＡＩ突合結果（類似度）
Ｕ会計担当者

Claims

第１のデータと第２のデータとを突合させて類似度を判定する類似度判定方法において、
前記第１のデータと前記第２のデータを取得し、
前記第１のデータと前記第２のデータの文字列からそれぞれ数詞を抽出し、当該数詞の一致度を判定し、
前記第１のデータと前記第２のデータの文字列の類似度を判定し、
判定した前記数詞の一致度と、前記文字列の類似度とに基づき、前記第１のデータと前記第２のデータとの類似度を決定する、
処理をコンピュータが実行することを特徴とする類似度判定方法。
前記決定の処理は、
判定した前記数詞の一致度が一致すれば、判定した前記文字列の類似度の値を変更せず、
判定した前記数詞の一致度が不一致であれば、判定した前記文字列の類似度の値をより低く変更する、
ことを特徴とする請求項１に記載の類似度判定方法。
前記決定の処理は、
判定した前記数詞の一致度と、前記文字列の類似度とを組み合わせた類似度に関する総合判定結果を生成する、
処理を含むことを特徴とする請求項１に記載の類似度判定方法。
決定した前記類似度の情報を照合結果リストに出力する、
処理を含むことを特徴とする請求項１に記載の類似度判定方法。
前記取得の処理は、
前記第１のデータと、前記第２のデータとを、それぞれに対応する書類の電子データあるいは、書類をＯＣＲ処理して取得し、
前記類似度の決定の処理は、
前記第１のデータと、第２のデータの項目毎の文字列を抽出する処理を含む、
ことを特徴とする請求項１に記載の類似度判定方法。
第１のデータと第２のデータとを突合させて類似度を判定する類似度判定プログラムにおいて、
前記第１のデータと前記第２のデータを取得し、
前記第１のデータと前記第２のデータの文字列からそれぞれ数詞を抽出し、当該数詞の一致度を判定し、
前記第１のデータと前記第２のデータの文字列の類似度を判定し、
判定した前記数詞の一致度と、前記文字列の類似度とに基づき、前記第１のデータと前記第２のデータとの類似度を決定する、
処理をコンピュータに実行させることを特徴とする類似度判定プログラム。