JP2024094101A - 類似度判定方法および類似度判定プログラム - Google Patents

類似度判定方法および類似度判定プログラム Download PDF

Info

Publication number
JP2024094101A
JP2024094101A JP2022210853A JP2022210853A JP2024094101A JP 2024094101 A JP2024094101 A JP 2024094101A JP 2022210853 A JP2022210853 A JP 2022210853A JP 2022210853 A JP2022210853 A JP 2022210853A JP 2024094101 A JP2024094101 A JP 2024094101A
Authority
JP
Japan
Prior art keywords
data
similarity
numerals
similarity determination
character strings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022210853A
Other languages
English (en)
Inventor
雅基 石川
Masaki Ishikawa
勇太 中谷
Yuta Nakatani
涼 堀添
Ryo Horizoe
龍一郎 小池
Ryuichiro Koike
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2022210853A priority Critical patent/JP2024094101A/ja
Publication of JP2024094101A publication Critical patent/JP2024094101A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】数詞を含む文字列同士の類似度を精度よく判定できること。【解決手段】類似度判定装置100は、起案伝票のデータAと、請求書のデータBとを突合させて類似度を判定する。類似度判定装置100は、データAとデータBを取得し、データAとデータBの文字列からそれぞれ数詞を抽出し、当該数詞の一致度を判定し、数詞突合結果S1として出力する。また、類似度判定装置100は、データAとデータBの文字列の類似度%を判定し、AI突合結果S2として出力する。ここで、類似度判定装置100は、判定した数詞が一致しなければ、判定した文字列の類似度%をより低い値に変更し、AI突合結果S2として出力する。【選択図】図1

Description

本発明は、類似度判定方法および類似度判定プログラムに関する。
例えば、自治体等の財務会計では、物品購入にかかる起案伝票と、物品購入後の請求書とを突合させて内容一致の審査を行っている。突合の処理では、請求日や債権者等の各種の項目毎の文字列の一致を確認している。例えば、突合する起票伝票と請求書の項目「件名」の文字列が「ボールペンの購入」と「筆記具の購入」である場合、単純な文字列の突合では、同一の内容であっても一致であるとの判定が行えない。
これに対し、人工知能(AI)による意味類似度判定を行うことで、起票伝票と請求書とが同一のものであるか否かの判定材料となる意味類似度を得ることができ、審査の効率化を図ることができる。
類似度判定の先行技術としては、例えば、証憑データを画像認識し、文字認識AIで文字認識し、取引明細情報項目の「金額」を判定し、仕訳AIで取引明細情報と対応する勘定科目の組み合わせの判定を行う技術がある。また、入力された検索対象の文書を形態素解析し、解析結果に基づいて、数値と単位と範囲を含めた数詞範囲を抽出することで、検索条件に数詞や数詞範囲が含まれる場合に対応した検索結果を得る技術がある。また、通帳の画像データから通帳の記載形式を含めた読取要素を抽出し、勘定科目と補助科目とをそれぞれの仕訳AIを用いて選定して仕訳データを生成し、補助科目に相当する事項を選定できる技術がある(例えば、下記特許文献1~3参照。)。
特開2021-165967号公報 特開2020-187533号公報 国際公開第2019/146118号明細書
従来技術において、AIを用いた意味類似度判定では、一般的に文字列全体の類似度を判定する。ここで、突合する起票伝票と請求書の項目「件名」の文字列に数詞が含まれ、「ボールペンの購入(10月度)」と、「筆記具の購入(11月度)」であるとする。この場合、AIを用いた意味類似度判定では、文字列に含まれている数詞の一致/不一致を正確に判定することができないことが多い。財務会計の審査では、数詞の一致/不一致が重要であるが、現状、AIに対し数詞の一致/不一致に関する再学習やチューニングを行うことは困難である。
一つの側面では、本発明は、数詞を含む文字列同士の類似度を精度よく判定できることを目的とする。
本発明の一側面によれば、第1のデータと第2のデータとを突合させて類似度を判定する類似度判定方法において、前記第1のデータと前記第2のデータを取得し、前記第1のデータと前記第2のデータの文字列からそれぞれ数詞を抽出し、当該数詞の一致度を判定し、前記第1のデータと前記第2のデータの文字列の類似度を判定し、判定した前記数詞の一致度と、前記文字列の類似度とに基づき、前記第1のデータと前記第2のデータとの類似度を決定する、ことを要件とする。
本発明の一態様によれば、数詞を含む文字列同士の類似度を精度よく判定できるという効果を奏する。
図1は、実施の形態にかかる類似度判定方法の概要を示す説明図である。 図2は、類似度判定装置を用いた財務会計の処理の流れを示す説明図である。 図3は、類似度判定装置のハードウェア構成例を示す図である。 図4は、突合の類似度判定に用いる請求書の記載例を示す図である。 図5は、請求書のOCR結果のデータ例を示す図である。 図6は、請求書照合結果リストの出力例を示す図である。 図7は、類似度判定装置が実行する処理例を示すフローチャートである。
以下に図面を参照して、開示の類似度判定方法および類似度判定プログラムの実施の形態を詳細に説明する。
(実施の形態にかかる類似度判定方法の一実施例)
図1は、実施の形態にかかる類似度判定方法の概要を示す説明図である。実施の形態の類似度判定装置100は、例えば、財務会計において互いに突合させる書類(データ)の入力に基づき、データ間の類似度に関する情報を出力する処理を行う。類似度判定装置100は、サーバや、端末等のコンピュータである。
以下の説明では、起案伝票のデータAと、請求書のデータBの項目「件名」に数詞が含まれており、類似度判定装置100が項目毎に突合処理し、含まれた数詞を考慮して類似度判定する例について説明する。項目「件名」は、起案伝票および請求書の表題に相当し、両者の一致/不一致の判断に重要な項目である。
類似度判定装置100は、取得部101、前処理部102、数詞突合部103、AI突合部104、類似度判定部105の各機能を含む。
類似度判定装置100が実行するデータ処理の流れの例は、例えば、下記1.~5.である。
1.取得部101によるデータA,Bの取得
取得部101は、互いに突合処理する第一のデータ(データA)と、第二のデータ(データB)とを取得する。
例えば、データAは、物品購入にかかる起案伝票の記載内容の文字列であり、紙の起案伝票の画像をOCR(Optical Character Recognition)処理することで、起案伝票の内容を項目毎に文字列のデータに変換したものである。また、データBは、物品購入後の請求書の画像をOCR(Optical Character Recognition)処理することで、起案伝票の内容を項目毎に文字列のデータに変換したものである。
実施の形態の説明では、起案伝票のデータAと、請求書のデータBの項目「件名」に数詞が含まれるものとして説明する。図1の例では、取得部101は、起案伝票のデータAの件名「ボールペンの購入(10月度)」を抽出し、請求書のデータBの件名「筆記具の購入(11月度)」を抽出する。
2.前処理部102による突合の前処理
前処理部102は、突合の前処理として、データAと、データBの項目に含まれる数詞をそれぞれ抽出する。例えば、前処理部102は、正規表現にてデータA,Bの項目に含まれる数詞を抽出する処理と、AI突合部104でのAI突合(類似度解析)用に、項目のデータ(文字列)の形態素解析を行う。
図1の例では、前処理部102は、データAの項目から数詞「10月」を抽出し、データBの項目から数詞「11月」を抽出し、それぞれ数詞突合部103に出力する。また、前処理部102は、データAの文字列の形態素解析結果「ボールペン/の/購入/10月/度」と、データBの文字列の形態素解析結果「筆記具/の/購入/11月/度」の情報をAI突合部104に出力する。
3.数詞突合部103による数詞の突合処理
数詞突合部103は、前処理部102から入力されるデータA、データBそれぞれの項目の文字列に含まれる数詞の突合処理を行い、突合処理結果として一致(図中〇)または不一致(×)の情報を類似度判定部105に出力する。
図1の例では、数詞突合部103は、データAの項目に含まれる数詞「10月度」とデータBの項目に含まれる数詞「11月度」との突合処理結果として不一致×を出力する。
4.AI突合部104による文字列の突合処理
AI突合部104は、前処理部102から入力されたデータA,Bの文字列の形態素解析結果に基づき、データA,Bの類似度(割合%、値:0~100%)を判断し、類似度の情報を類似度判定部105に出力する。
図1の例では、AI突合部104は、データAの文字列「ボールペンの購入(10月度)」と、データBの文字列「筆記具の購入(11月度)」との類似度を判断し、類似度の情報を類似度判定部105に出力する。ここで、AI突合部104は、データA,Bの文字列から前処理部102で抽出した数詞「10月」、「11月」を除いた文字列「ボールペンの購入」と、「筆記具の購入」との類似度を判断する。
5.類似度判定部105による数詞突合結果と、AI突合結果に対する総合判定
類似度判定部105は、データA,Bについて、数詞突合部103から入力される数詞突合結果と、AI突合部104から入力されるAI突合結果と、をそれぞれ出力する。総合判定結果は、数詞突合結果S1として一致/不一致の情報、例えばマーク〇/×と、AI突合結果S2として、例えば類似度%の情報を出力する。類似度判定部105は、例えば、データA,Bの類似度判定結果を請求書照合結果リストとして出力する。
ここで、類似度判定部105は、数詞の突合結果に基づき、AI突合部104が出力するAI突合結果である類似度(%)を変更する。例えば、類似度判定部105は、数詞判定結果が×(不一致)のときには、AI突合部104が判定した類似度をより低くなるように変更(例えば0.5倍)して出力する。一方、類似度判定部105は、数詞判定結果が〇(一致)のときには、AI突合部104から入力される類似度をそのまま(値を変更せず)出力する。
図1の例では、数詞判定結果が×であるため、類似度判定部105は、AI突合部104が判定した類似度を0.5倍して出力する。例えば、AI突合部104が判定した類似度の値が80%であれば、類似度判定部105は、80%を0.5倍した40%を類似度として出力する。
なお、数詞判定結果が仮に〇であった場合、AI突合部104から入力される類似度の値が80%であれば、類似度判定部105は、80%をそのまま類似度として出力する。
図1に示す例では、類似度判定部105は、数詞突合結果S1として数詞の突合結果が一致(〇)している旨を出力し、AI突合結果(類似度)S2として「xx%」を出力する。このように、類似度判定部105は、AI突合部104によるデータA,Bの類似度(%)をそのまま出力するのではなく、データA,Bの数詞の判定結果に基づき、データA,Bの類似度(%)を変更して出力する。
このほか、類似度判定部105は、数詞突合結果と、AI突合部104から入力されるAI突合結果とを組み合わせた総合判定結果(類似に関する情報)S3を、さらに生成してもよい。例えば、類似度判定部105は、判定した類似度0~100%を複数段階に分け、データA,Bの総合判定結果S3として各段階別のマークを出力する。例えば、類似度を3段階に分け、類似度0~30%未満を×、類似度30%以上60%未満を△、類似度60%以上100%を〇のマークで出力する。
従来技術では、データA,Bの項目に数詞が含まれることがあることを考慮していない。このため、従来技術では、データA,Bの項目「件名」の数詞(10月と11月)が異なっているにも関わらず、AI突合部104の突合結果である類似度80%と判定し、適切な類似度(%)を出力できなかった。
財務会計の審査や決済の処理では、各項目間の整合性チェックが必要となる。整合性チェックを行う際には、特に書類(起案伝票や請求書)に記載の「件名」について、単純な文字列突合ではなく意味も踏まえた判定が必要となり、例えば、学習済みAIによる意味類似度の算出が効果的と考えられている。
そして、財務会計の審査や決済の処理では、一般的に数詞が重要となる。しかし、学習済みAIによる意味類似度では数詞を考慮することが難しい。学習済みAIでは審査を想定せずに文の類似度を学習している。審査の観点で見れば、数詞の一致/不一致が重要となるが、従来技術では、その再学習・チューニングをAIに対して行うことは困難である。例えば、「筆記具の購入(10月度)」と「ボールペンの購入(11月度)」は審査としては不一致となるが、AIでは数詞を考慮せずに意味合いを判定するため、類似度を高く判定してしまう。仮に、この判定結果に対して類似度を低くするように再学習させても、AIは文(文字列)全体を見るため、数詞に特化して学習することは難しい。
これに対し、実施の形態によれば、データA,Bの項目、例えば「件名」に数詞が混入している場合、数詞についてAI突合(類似度判定)と分離した前処理で別個に突合処理している。これにより、総合的な類似度判定において、データA,Bの数詞の判定結果に基づき、データA,Bの類似度(%)を適切に変更して出力できるようになる。
(財務会計の処理の流れ)
図2は、類似度判定装置を用いた財務会計の処理の流れを示す説明図である。実施の形態の類似度判定装置100は、例えば、図2に示す財務会計の処理に適用できる。
例えば、自治体における財務管理では、支出者である起案者Hが購入物の購入に際して、例えば端末E1により起案伝票201を作成し、財務管理部に提出する(ステップS201)。また、起案者Hは、購入物の請求書202を添付書類Tに添付して財務管理部に提出する(ステップS202)。添付書類Tは、請求書202のほか起案にかかる書類一式を含み、起案伝票201を含んでもよい。
請求書202は、例えば、紙媒体の書類として発行される。図1には、紙媒体の請求書202である場合の処理例を記載し、起案伝票201については、電子データ化されたデータAであるとする。起案伝票201が紙媒体である場合、請求書202と同様の処理を行う。財務管理部の会計担当者Uは、端末E2を操作し、請求書202に記載された画像を図示しないスキャナで読み取る操作を行う。
類似度判定装置100は、OCR機能を有してもよい。類似度判定装置100は、紙媒体の請求書202の画像を読み取り、AIを用いたOCR機能により、請求書202に記載の文字列を切り出して文字認識する(ステップS203)。OCRによる切り出しは、請求書202の項目毎に行う。また、端末E2は、類似度判定装置100の機能を有してもよい。類似度判定装置100は、請求書202のOCR項目を読み取り、日本語AIにより手書き文字補正し、テキスト化する(ステップS204)。
類似度判定装置100は、図1に示す会計担当者Uの端末E2に設けるに限らず、サーバに設けてもよく、この場合、端末E2がネットワーク接続されたサーバにアクセスしてサーバが類似度判定にかかる処理を実施し、端末E2に処理結果を返答する。
また、類似度判定装置100は、請求書202に押印された受付印や社印、代表者印等の印影画像Mを画像認識により抽出する(ステップS205)。そして、類似度判定装置100は、請求書202について、項目別のテキストの文字列と、抽出した印影画像MとからなるデータBとして電子データ化する。
この後、類似度判定装置100は、起案伝票201のデータAと、請求書BのデータBとを突合処理する(ステップS206)。この突合処理において、類似度判定装置100は、起案伝票201のデータAの各項目と、データAの各項目に対応する請求書BのデータBの各項目と、を突合処理する。
類似度判定装置100は、この突合処理において、データA,Bの数詞突合と、文字列同士のAI突合(類似度)とを行い、数詞突合結果と、AI突合結果(類似度)とを請求書照合結果リストLに出力する。
会計担当者Uは、添付書類Tとともに、データA、Bの突合結果、すなわち、起案伝票201と請求書202とを突合したAI結果の請求書照合結果リストLと、抽出した印影画像Mと、を決裁者・審査者Kに提出する(ステップS207)。
決裁者・審査者Kは、会計担当者Uから提出された添付書類Tと、請求書照合結果リストL(印影画像Mを含む)とに基づき、起案伝票201と請求書202の内容の齟齬の有無を確認し、起案内容に対する決済の処理を行う(ステップS208)。決裁者・審査者Kは、端末決裁(審査)の内容は、例えば、端末E3から起案者Hの端末E1に対し、Eメール等で通知してもよい(ステップS209)。
(類似度判定装置のハードウェア構成例)
図3は、類似度判定装置のハードウェア構成例を示す図である。類似度判定装置100は、図3に示す汎用のハードウェアからなるサーバ等のコンピュータで構成することができる。
類似度判定装置100は、CPU(Central Processing Unit)301と、メモリ302と、ネットワークI/F(Interface)303と、を有する。また、類似度判定装置100は、記録媒体I/F304と、記録媒体305と、可搬型記録媒体I/F306と、可搬型記録媒体307と、を有する。また、各構成部は、バス300によってそれぞれ接続される。
CPU301は、類似度判定装置100の全体の制御を司る制御部として機能する。CPU301は、複数のコアを有していてもよい。メモリ302は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)およびフラッシュROMなどを有する。具体的には、例えば、フラッシュROMがOSのプログラムを記憶し、ROMがアプリケーションプログラムを記憶し、RAMがCPU301のワークエリアとして使用される。メモリ302に記憶されるプログラムは、CPU301にロードされることで、コーディングされている処理をCPU301に実行させる。
ネットワークI/F303は、通信回線を通じてネットワークNWに接続され、ネットワークNWを介して外部のコンピュータに接続される。外部のコンピュータは、例えば、図2に示した各担当者の端末E1~E3等である。そして、ネットワークI/F303は、ネットワークNWと装置内部とのインターフェースを司り、外部のコンピュータからのデータの入出力を制御する。ネットワークI/F303には、例えば、モデムやLANアダプタなどを採用することができる。
記録媒体I/F304は、CPU301の制御にしたがって記録媒体305に対するデータのリード/ライトを制御する。記録媒体305は、記録媒体I/F304の制御で書き込まれたデータを記憶する。記録媒体305としては、例えば、磁気ディスク、光ディスクなどが挙げられる。
可搬型記録媒体I/F306は、CPU301の制御にしたがってって可搬型記録媒体307に対するデータのリード/ライトを制御する。可搬型記録媒体307は、可搬型記録媒体I/F306の制御で書き込まれたデータを記憶する。可搬型記録媒体307としては、例えば、CD(Compact Disc)-ROM、DVD(Digital Versatile Disk)、USB(Universal Serial Bus)メモリなどが挙げられる。
なお、類似度判定装置100は、上述した構成部の他に、例えば、キーボード、マウス等の入力装置やディスプレイなどを有することにしてもよい。
また、図2に示した各担当者の端末E1~E3は、上記の各構成に加えて、図3に示した入力装置308と、ディスプレイ309を有する。また、図2で説明したように、類似度判定装置100の機能を会計担当者Uの端末E2に実装する場合、端末E2は、図3に示したバス300、CPU301~可搬型記録媒体307の各構成に加えて、入力装置308と、ディスプレイ309を有する。
図1に示した取得部101~類似度判定部105の各機能は、図14に示したCPU301がプログラム実行することで機能を実現できる。また、図2の起案伝票201のデータA、および請求書202のデータB、請求書照合結果リストL等の類似度判定装置100が処理する処理データは、例えば、図3に示したメモリ302、記録媒体305、可搬型記録媒体307に格納保持することができる。また、類似度判定装置100(サーバ)の処理データは、ネットワークNWを介して端末E1~E3との間で送受信することができる。
(請求書およびOCRデータの例)
図4は、突合の類似度判定に用いる請求書の記載例を示す図である。図4の請求書202は、紙媒体で発行された例を示す。請求書202には、請求内容が項目毎の項目内容として記載されている。
各項目と項目内容は、例えば、請求日「令和3年3月24日」、債権者番号「「1000000965」、債権者住所「松山市」、債権者氏名「主幹法人次郎」、件名「一般管理費 ソフトウェアの購入(10月度)」、金額「7890000」、等である。
紙媒体の請求書202は、例えば、図2に示した財務管理部の会計担当者Uのスキャナ操作により、記載された画像が読み取られ、画像データが類似度判定装置100に入力される。
図4において、項目「件名」の項目内容「一般管理費 ソフトウェアの購入(10月度)」401には、上述した数詞(10月)が含まれている。
図5は、請求書のOCR結果のデータ例を示す図である。図5は、図4に示した請求書202を電子データ化したデータB(図1参照)を示す。類似度判定装置100は、OCR機能により、請求書202の画像データを解析し、各項目と項目内容をテキスト文字にデータ変換する。類似度判定装置100は、OCR処理により請求書202の項目毎に画像を切り出し、切り出した領域単位で画像の文字をテキスト文字に変換する。
図5に示すように、OCR処理結果、紙媒体の請求書202は、項目毎に、コードと、項目内容がテキスト文字列を含むデータB(カンマ区切りCSVデータ)として電子データ化される。
類似度判定装置100は、請求書202のOCRにより、項目毎に複数行(複数レコード)の読取項目501を生成する。
図5に示すOCR結果、コード「11005」の項目「件名」の項目内容「一般管理費 ソフトウェアの購入(10月度)」501aには、上述した数詞(10月)が含まれている。また、類似度判定装置100は、項目「請求日」については、請求書202に記載の年号「令和」を「西暦」表記に変換している。
図5に示す付帯情報502は、OCR処理にかかる情報であり、類似度判定装置100は、項目毎のコードと、項目内容を生成する。例えば、コード「21001」の項目は、請求書202に対するOCR処理が「AI-OCR読取形式」であることを示し、項目内容が「請求書(定型フォーマット)」である解析結果を示している。
類似度判定装置100は、これら読取項目501と、付帯情報502のデータをメモリ302等に格納保持し、突合処理時にメモリ302から読み出す。
(請求書照合結果リストの出力例)
図6は、請求書照合結果リストの出力例を示す図である。類似度判定装置100は、類似度判定結果を請求書照合結果リストLとして出力する。類似度判定装置100は、例えば、財務会計処理の決済者・審査者Kの端末E2に請求書照合結果リストLをデータ出力する。
請求書照合結果リストLには、起案伝票201のデータAと、請求書202のデータBとを、項目毎に突合処理した結果が示され、図6の例では、類似度判定装置100は、突合処理の結果、不一致があることが「不一致あり」601として表示している。類似度判定装置100は、複数の項目のうち少なくとも一つの項目で突合処理の結果に不一致がある場合、照合結果601として「不一致あり」と表示する。
なお、類似度判定装置100は、複数の項目全の項目で突合処理の結果に不一致がない場合、照合結果601として「不一致なし」と表示する。初号結果601は、上述した総合判定結果S3に相当する。
類似度判定装置100は、請求書照合結果リストLに表形式の各行に項目毎の突合内容を表示する。各行は、通番「No.1~n」と、判定結果「〇/×」と、項目名と、該当する項目における「請求書の記載内容」および「起案伝票の記載内容」と、類似度%と、を含む。
判定結果「〇/×」は、図1に示した数詞突合結果S1を示す。項目名と、該当する項目における請求書の記載内容および起案伝票の記載内容は、図1に示したデータB(請求書202)の項目および項目別の項目内容と、データA(起案伝票201)の項目および項目別の項目内容を示す。類似度%は、図1に示したAI突合結果S2(類似度%を示す。
図6に示す例では、符号602で示す通番「No.2」のみ判定結果が「×」である。この通番「No.2」の項目名は「件名」であり、項目「件名」の請求書の記載内容は「ボールペンの購入(10月度)」、起案伝票の記載内容は「筆記具の購入(11月度)」である。類似度判定装置100は、請求書「ボールペン」と起案伝票「筆記具」については類似度が「40%」と判定している。そして、類似度判定装置100は、請求書の記載内容の数詞「10月」、起案伝票の記載内容の数詞「11月」が異なるため、「×」と判定している。
このように、類似度判定装置100は、請求書照合結果リストL上の項目毎の突合結果に、数詞を含む文字列突合の判定結果「〇/×」と、文字列突合の類似度%を表示する。これにより、決済者・審査者Kは、突合する項目に数詞が含まれる場合であっても、数詞が混入している項目(文字列)を探す必要がなく、請求書照合結果リストL上での判定結果「〇/×」と、文字列突合の類似度%の表示を見るだけで、不一致の項目を簡単に判断できる。
(類似度判定装置のデータ処理例)
図7は、類似度判定装置が実行する処理例を示すフローチャートである。図7には、類似度判定装置100のCPU301が実行する処理内容を示す。類似度判定装置100は、起案伝票201と、請求書202の各項目について突合の処理を行うが、図7では、起案伝票201および請求書202の項目に数詞が含まれている「件名」に対する処理例を説明する。
はじめに、類似度判定装置100は、起案伝票201と請求書202の項目「件目」のデータA,Bを取得する(ステップS701)。次に、類似度判定装置100は、起案伝票201の「件名」のデータAの文字列を文字列1とし、請求書202の「件名」のデータAの文字列を文字列2とし、メモリ302に格納しておく(ステップS702)。図1等に示したように、文字列1,2には、数詞(10月、11月)が含まれている。
次に、類似度判定装置100は、文字列1,2から正規表現で数詞を抽出し、抽出した数詞を変数(数詞1,2)としてメモリ302に格納しておく(ステップS703)。
次に、類似度判定装置100は、メモリ302から変数(数詞1,2)を読み出し、数詞1,2に対する数詞突合処理を行う(ステップS704)。
また、類似度判定装置100は、例えば、ステップS704の処理と並行して、メモリ302から文字列1,2を読み出し、文字列1,2を形態素解析し、AI突合処理する(ステップS705)。
次に、類似度判定装置100は、類似に関する情報判定処理を行う(ステップS706)。類似度判定装置100は、ステップS704の数詞突合処理の判定結果S1(〇/×)に基づき、AI突合部104が出力するAI突合結果S2である類似度(%)を決定する。
例えば、類似度判定装置100は、数詞判定結果S1が×のときには、AI突合部104の判定結果S2である類似度を0.5倍する。一方、類似度判定部105は、数詞判定結果が〇のときには、AI突合部104の判定結果S2の類似度をそのまま(値を変更せず)にする。
また、類似度判定装置100は、数詞突合結果と、AI突合結果に基づいて、類似に関する情報(総合判定結果S3)を決定してもよい。例えば、類似度判定装置100は、類似度0~100%を複数段階に分け、総合判定結果S3として各段階別のマークを付与する。例えば、類似度を3段階に分け、類似度0~40%未満を×、類似度40%以上70%未満を△、類似度70%以上100%を〇のマークとする。
類似度判定装置100は、ステップS706による数詞の判定結果と、AI突合結果(類似度)、さらには総合判定結果を請求書照合結果リストLに出力し(ステップS707)、以上の処理を終了する。
以上説明した実施の形態では、突合処理する書類として、起案伝票201と、請求書202を例に説明した。実施の形態の類似度判定装置100は、突合処理する各種書類(データA,B)に適用でき、例えば、領収書と請求書、見積書と請求書、発注書と請求書、納品書と請求書、についても上記同様に突合処理することができる。また、上述した実施の形態の機能を有する類似度判定プログラムをサーバや端末にインストールして備えることで、財務会計等を行う部署における突合処理を正確かつ効率的に実施できるようになる。
また、実施の形態では、類似度判定装置100を財務会計の処理に適用した例を説明したが、これに限らない。類似度判定装置100を互いに突合させてデータA,Bの類似度を判定する各種態様の処理に適用でき、自治体、企業、事務所、個人の会計、監査、申告等の各種処理に適用できる。特に、実施の形態の類似度判定装置100によれば、数詞を含むデータA,Bの類似度を精度よく判定できるようになる。
以上説明した実施の形態の類似度判定装置100は、第1のデータと第2のデータとを突合させて類似度を判定する。類似度判定装置100は、第1のデータと第2のデータを取得し、第1のデータと第2のデータの文字列からそれぞれ数詞を抽出し、当該数詞の一致度を判定する。また、類似度判定装置100は、第1のデータと第2のデータの文字列の類似度を判定する。そして、類似度判定装置100は、判定した数詞の一致度と、文字列の類似度とに基づき、第1のデータと第2のデータとの類似度を決定する。例えば、第1のデータは、起案伝票のデータであり、第2のデータは、請求書のデータであり、このような財務会計における審査・決済処理において、数詞を含む起案伝票と請求書の突合にかかる処理を正確かつ効率的に行えるようになる。
また、類似度判定装置100は、決定の処理を、判定した数詞の一致度が一致すれば、判定した文字列の類似度の値を変更せず、判定した数詞の一致度が不一致であれば、判定した文字列の類似度の値をより低く変更することとしてもよい。これにより、文字列に数詞が含まれるか否かによって文字列の類似度(%)をより適切な値で提示できるようになる。
また、類似度判定装置100は、決定の処理を、判定した数詞の一致度と、文字列の類似度とを組み合わせた類似度に関する総合判定結果を生成することとしてもよい。この総合判定結果により、互いに突合させた第1のデータと第2のデータの数詞を含む文字列の類似度を容易に判断できるようになる。
また、類似度判定装置100は、決定した類似度の情報を照合結果リストに出力する処理を含んでもよい。これにより、データA,Bの突合結果である数詞の一致度および文字列の類似度を容易に把握できるようになる。
また、類似度判定装置100は、取得の処理は、第1のデータと、第2のデータとを、それぞれに対応する書類の電子データあるいは、書類をOCR処理して取得し、類似度の決定の処理は、第1のデータと、第2のデータの項目毎の文字列を抽出する処理を含むこととしてもよい。例えば、互いに突合させる書類の一方が紙媒体である場合、OCR処理により電子データ化でき、第1のデータと第2のデータとを突合処理できるようになる。また、類似度判定装置100は、第1のデータと、第2のデータの項目毎に数詞の一致度と、文字列の類似度を判定でき、審査時に書類上で異なる項目を容易に抽出できるようになる。
なお、本発明の実施の形態で説明した類似度判定方法は、予め用意されたプログラムをサーバ等のプロセッサに実行させることにより実現することができる。本方法は、ハードディスク、フレキシブルディスク、CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disk)、フラッシュメモリ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また本方法は、インターネット等のネットワークを介して配布してもよい。
上述した実施の形態に関し、さらに以下の付記を開示する。
(付記1)第1のデータと第2のデータとを突合させて類似度を判定する類似度判定方法において、
前記第1のデータと前記第2のデータを取得し、
前記第1のデータと前記第2のデータの文字列からそれぞれ数詞を抽出し、当該数詞の一致度(S1)を判定し、
前記第1のデータと前記第2のデータの文字列の類似度を判定し、
判定した前記数詞の一致度と、前記文字列の類似度とに基づき、前記第1のデータと前記第2のデータとの類似度を決定する、
処理をコンピュータが実行することを特徴とする類似度判定方法。
(付記2)前記決定の処理は、
判定した前記数詞の一致度が一致すれば、判定した前記文字列の類似度の値を変更せず、
判定した前記数詞の一致度が不一致であれば、判定した前記文字列の類似度の値をより低く変更する、
ことを特徴とする付記1に記載の類似度判定方法。
(付記3)前記決定の処理は、
判定した前記数詞の一致度と、前記文字列の類似度とを組み合わせた類似度に関する総合判定結果を生成する、
処理を含むことを特徴とする付記1に記載の類似度判定方法。
(付記4)決定した前記類似度の情報を照合結果リストに出力する、
処理を含むことを特徴とする付記1に記載の類似度判定方法。
(付記5)前記取得の処理は、
前記第1のデータと、前記第2のデータとを、それぞれに対応する書類の電子データあるいは、書類をOCR処理して取得し、
前記類似度の決定の処理は、
前記第1のデータと、第2のデータの項目毎の文字列を抽出する処理を含む、
ことを特徴とする付記1に記載の類似度判定方法。
(付記6)前記第1のデータは、起案伝票のデータであり、
前記第2のデータは、請求書のデータである、
ことを特徴とする付記1に記載の類似度判定方法。
(付記7)第1のデータと第2のデータとを突合させて類似度を判定する類似度判定プログラムにおいて、
前記第1のデータと前記第2のデータを取得し、
前記第1のデータと前記第2のデータの文字列からそれぞれ数詞を抽出し、当該数詞の一致度を判定し、
前記第1のデータと前記第2のデータの文字列の類似度を判定し、
判定した前記数詞の一致度と、前記文字列の類似度とに基づき、前記第1のデータと前記第2のデータとの類似度を決定する、
処理をコンピュータに実行させることを特徴とする類似度判定プログラム。
100 類似度判定装置
101 取得部
102 前処理部
103 数詞突合部
104 AI突合部
105 類似度判定部
201 起案伝票(データA)
202 請求書(データB)
301 CPU
302 メモリ
303 ネットワークI/F
305 記録媒体
307 可搬型記録媒体
308 入力装置
309 ディスプレイ
E1~E3 端末
H 起案者
K 決裁者・審査者
L 請求書照合結果リスト
NW ネットワーク
S1 数詞突合結果
S2 AI突合結果(類似度)
U 会計担当者

Claims (6)

  1. 第1のデータと第2のデータとを突合させて類似度を判定する類似度判定方法において、
    前記第1のデータと前記第2のデータを取得し、
    前記第1のデータと前記第2のデータの文字列からそれぞれ数詞を抽出し、当該数詞の一致度を判定し、
    前記第1のデータと前記第2のデータの文字列の類似度を判定し、
    判定した前記数詞の一致度と、前記文字列の類似度とに基づき、前記第1のデータと前記第2のデータとの類似度を決定する、
    処理をコンピュータが実行することを特徴とする類似度判定方法。
  2. 前記決定の処理は、
    判定した前記数詞の一致度が一致すれば、判定した前記文字列の類似度の値を変更せず、
    判定した前記数詞の一致度が不一致であれば、判定した前記文字列の類似度の値をより低く変更する、
    ことを特徴とする請求項1に記載の類似度判定方法。
  3. 前記決定の処理は、
    判定した前記数詞の一致度と、前記文字列の類似度とを組み合わせた類似度に関する総合判定結果を生成する、
    処理を含むことを特徴とする請求項1に記載の類似度判定方法。
  4. 決定した前記類似度の情報を照合結果リストに出力する、
    処理を含むことを特徴とする請求項1に記載の類似度判定方法。
  5. 前記取得の処理は、
    前記第1のデータと、前記第2のデータとを、それぞれに対応する書類の電子データあるいは、書類をOCR処理して取得し、
    前記類似度の決定の処理は、
    前記第1のデータと、第2のデータの項目毎の文字列を抽出する処理を含む、
    ことを特徴とする請求項1に記載の類似度判定方法。
  6. 第1のデータと第2のデータとを突合させて類似度を判定する類似度判定プログラムにおいて、
    前記第1のデータと前記第2のデータを取得し、
    前記第1のデータと前記第2のデータの文字列からそれぞれ数詞を抽出し、当該数詞の一致度を判定し、
    前記第1のデータと前記第2のデータの文字列の類似度を判定し、
    判定した前記数詞の一致度と、前記文字列の類似度とに基づき、前記第1のデータと前記第2のデータとの類似度を決定する、
    処理をコンピュータに実行させることを特徴とする類似度判定プログラム。
JP2022210853A 2022-12-27 2022-12-27 類似度判定方法および類似度判定プログラム Pending JP2024094101A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022210853A JP2024094101A (ja) 2022-12-27 2022-12-27 類似度判定方法および類似度判定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022210853A JP2024094101A (ja) 2022-12-27 2022-12-27 類似度判定方法および類似度判定プログラム

Publications (1)

Publication Number Publication Date
JP2024094101A true JP2024094101A (ja) 2024-07-09

Family

ID=91804857

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022210853A Pending JP2024094101A (ja) 2022-12-27 2022-12-27 類似度判定方法および類似度判定プログラム

Country Status (1)

Country Link
JP (1) JP2024094101A (ja)

Similar Documents

Publication Publication Date Title
US10783367B2 (en) System and method for data extraction and searching
CN107608958B (zh) 基于条款统一建模的合同文本风险信息挖掘方法和系统
US10366123B1 (en) Template-free extraction of data from documents
USRE47037E1 (en) Efficient work flow system and method for processing taxpayer source documents
CN101685499B (zh) 用于纠正字符识别错误的技术
Oral et al. Information extraction from text intensive and visually rich banking documents
US11232300B2 (en) System and method for automatic detection and verification of optical character recognition data
US20140064618A1 (en) Document information extraction using geometric models
US20180300323A1 (en) Multi-Factor Document Analysis
CA3048356A1 (en) Unstructured data parsing for structured information
US11880435B2 (en) Determination of intermediate representations of discovered document structures
JP2015118488A (ja) 会計データ入力システム、方法、およびプログラム
US20200184267A1 (en) System to extract information from documents
Ha et al. Information extraction from scanned invoice images using text analysis and layout features
EP4141818A1 (en) Document digitization, transformation and validation
CN112016294A (zh) 一种基于文本的新闻重要性评估方法、装置及电子设备
CN111967246A (zh) 一种购物票据识别结果纠错方法
Janssen et al. Receipts2go: the big world of small documents
JP2024094101A (ja) 類似度判定方法および類似度判定プログラム
JP6155409B1 (ja) 決算分析システムおよび決算分析プログラム
JP2006252575A (ja) 財務諸表自動入力装置及び財務諸表自動入力方法
Jasmonts et al. New Information Extracting and Analysis Methodology for the Terminology Research Purposes: The Field of Biology.
Szegedi et al. Context-based Information Classification on Hungarian Invoices.
Fernando Intelligent Document Processing: A Guide For Building RPA Solutions
WO2023007612A1 (ja) データ処理装置、データ処理方法及びプログラム