JP7332190B2

JP7332190B2 - 機械学習基盤情報の提供方法および装置

Info

Publication number: JP7332190B2
Application number: JP2021189435A
Authority: JP
Inventors: ジェ・ミン・ソン; クァン・ソプ・キム; ホ・ジン・ファン; ジョン・フィ・パク
Original assignee: エムロ・カンパニー・リミテッド
Priority date: 2020-11-23
Filing date: 2021-11-22
Publication date: 2023-08-23
Anticipated expiration: 2041-11-22
Also published as: JP2022082525A; KR102265947B1; US20220164705A1

Description

本開示は、機械学習に基づいて情報を提供する方法および装置に関する。特に、機械学習に基づいて伝票データに関連した情報を提供する方法および装置に関する。

自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ＮＬＰ）は、人間の言語現象をコンピュータのような機械を用いて模写することができるよう研究し、これを具現する人工知能の主要分野のうちの一つである。最近の機械学習およびディープラーニング技術が発展することによって、機械学習およびディープランニング基盤の自然語処理を通じて膨大なテキストから意味のある情報を抽出し活用するための言語処理研究開発が活発に進められている。

一方、企業は、業務の効率および生産性を向上させるために、企業において算出される各種情報を標準化して統合および管理することが要求される。例えば、企業において購入するアイテムの場合、体系的な管理がなされなければ、購入の重複が発生することがあり、既存の購入内訳の検索が困難になり得る。このとき、企業において算出される各種情報は、テキストである場合が多いため、自然言語処理基盤のアイテムに関する情報を提供する方法およびシステムに関する必要性が存在する。

本実施形態が解決しようとする課題は、機械学習を通じて学習された少なくとも一つの学習モデルを用いて、購入アイテムに関する伝票データに基づいて前記アイテムが間接費の分類対象であるか否かに関する情報およびアイテムの費用カテゴリー情報を提供する方法および装置を提供することにある。

本実施形態が達成しようとする技術的課題は、前記のような技術的課題に限定されず、以下の実施形態からさらに他の技術的課題が類推され得る。

多様な実施形態によると、購入アイテムに関する伝票データを獲得する段階、前記伝票データから前記アイテムの属性関連文字列を抽出する段階、機械学習を通じて学習された第１学習モデルを用いて、前記文字列に基づいて、前記アイテムのうち間接費に該当する少なくとも一つのアイテムを確認する段階、および機械学習を通じて学習された第２学習モデルを用いて、前記文字列に基づいて、前記少なくとも一つのアイテムの費用カテゴリー情報を確認する段階を含むことができる。

多様な実施形態に係る電子装置は、メモリおよび前記メモリと電気的に連結されたプロセッサーを含み、前記プロセッサーは、購入アイテムに関する伝票データを獲得し、前記伝票データから前記アイテムの属性に関連した文字列を抽出し、機械学習を通じて学習された少なくとも一つの学習モデルを用いて、前記特徴ベクトルから前記アイテムのうち間接費に該当する少なくとも一つのアイテムを確認し、前記少なくとも一つのアイテムの費用カテゴリーの関連情報を確認するように設定され得る。

多様な実施形態に係る機械学習基盤情報の提供方法をコンピュータで実行させるためのプログラムを記録したコンピュータで読み取り可能な非一時的記憶媒体は、前記機械学習基盤情報の提供方法は、購入アイテムに関する伝票データを獲得する段階、前記伝票データから前記アイテムの属性関連文字列を抽出する段階、機械学習を通じて学習された第１学習モデルを用いて、前記文字列に基づいて、前記アイテムのうち間接費に該当する少なくとも一つのアイテムを確認する段階、および機械学習を通じて学習された第２学習モデルを用いて、前記文字列に基づいて、前記少なくとも一つのアイテムの費用カテゴリー情報を確認する段階を含むことができる。

その他、実施形態の具体的な事項は、詳細な説明および図面に含まれている。

多様な実施形態によると、機械学習を通じて学習された少なくとも一つの学習モデルを用いて、購入アイテムに関する伝票データに基づいて前記アイテムが間接費の分類対象であるか否かに関する情報およびアイテムの費用カテゴリー情報を提供することができる。これを通じて、間接費の費用関連情報を効果的に分析し、間接費に関する費用削減方案を用意することができる。

発明の効果は、以上で言及した効果に制限されず、言及されていないさらに他の効果は、請求の範囲の記載から当該技術分野の通常の技術者に明確に理解され得るだろう。

本開示の多様な実施形態に係る電子装置の構成ブロック図である。一実施形態に係る伝票データに基づいた情報獲得方法に関する図面である。本開示の一実施形態に係る電子装置の情報提供方法を説明するための図面である。本開示の一実施形態に係る電子装置の情報提供方法に関するフローチャートである。本開示の一実施形態に係る電子装置の特徴ベクトルの生成方法を説明するための概略的な図面である。本開示の一実施形態に係る電子装置の機械学習のための設定入力画面を概略的に図示した図面である。本開示の一実施形態に係る電子装置の機械学習基盤の情報提供関連のユーザーインターフェイス画面である。

実施形態において使われる用語は、本開示における機能を考慮しつつ、可能な限り現在広く使われる一般的な用語を選択したが、これは当分野に従事する技術者の意図または判例、新たな技術の出現などによって変わり得る。また、特定の場合は、出願人が任意に選定した用語もあり、この場合、該当する説明の部分で詳細にその意味を記載するであろう。従って、本開示において使われる用語は、単純な用語の名称ではなく、その用語が有する意味と本開示の全般にわたった内容に基づいて定義されるべきである。

明細書全体において、ある部分がある構成要素を「含む」とする時、これは特に反対の記載がない限り他の構成要素を除くものではなく、他の構成要素をさらに含み得ることを意味する。

明細書全体において記載された、「ａ、ｂ、およびｃのうち少なくとも一つ」の表現は、「ａ単独」、「ｂ単独」、「ｃ単独」、「ａおよびｂ」、「ａおよびｃ」、「ｂおよびｃ」、または「ａ、ｂ、およびｃすべて」を包括することができる。

明細書全体において記載されたノードは、無線ネットワークシステムにおいて通信の再分配地点または終端点を意味し、ネットワークの基本要素として、地域ネットワークに接続されたコンピュータ、端末、およびその中に属する装備を通称する意味として解釈され得る。

以下では、添付した図面を参照して、本開示の実施形態に関して本開示が属する技術分野において通常の知識を有する者が容易に実施することができるよう詳細に説明する。しかし、本開示は、多様な異なる形態で具現され得、ここで説明する実施形態に限定されない。

以下では、図面を参照して本開示の実施形態を詳細に説明する。

図１は、本開示の多様な実施形態に係る電子装置の構成ブロック図である。

多様な実施形態に係る電子装置１００は、アイテム情報を管理するシステムとして、例えば、購入アイテムに関する伝票データに基づいて間接費のデータを分類（ｃｌａｓｓｉｆｙ）するサービスを提供する装置に該当し得る。

図１を参照すると、電子装置１００は、プロセッサー１２０およびメモリ１４０を含むことができる。

プロセッサー１２０は、電子装置１００に含まれた構成要素を全般的に制御し、電子装置１００に具現される多様な機能を処理するための一連の動作を遂行することができる。例えば、プロセッサー１２０は、学習データが入力されると、該当学習データを用いて機械学習を通じて学習モデルを学習させることができる。また、プロセッサー１２０は、前記機械学習を通じて学習された学習モデルを用いて、新たな伝票データが入力されると、該当データをテストデータとして前記伝票データに関連した情報を出力することができる。

一実施形態によると、プロセッサー１２０は、伝票データからアイテムの属性に関連した文字列を抽出することができる。例えば、前記属性関連文字列は、伝票データに含まれた複数の項目のうち属性（例：費用属性）関連情報が含まれた項目として、業者名情報および勘定摘要情報のうち少なくとも一部に対応するテキストから抽出され得る。

プロセッサー１２０は、機械学習を通じて学習された少なくとも一つの学習モデル（例：第１学習モデル）を用いて、伝票データから間接費に該当するアイテムと直接費に該当するアイテムを区別して分類することができる。

また、プロセッサー１２０は、前記機械学習を通じて学習された少なくとも一つの学習モデル（例：第２学習モデル）を用いて、前記伝票データからアイテムの費用カテゴリー情報を確認することができる。

例えば、プロセッサー１２０は、複数の購入アイテムに関する伝票データから抽出された文字列に基づいて、前記第１学習モデルを通じて、間接費に該当する少なくとも一つのアイテムを確認することができる。また、前記文字列に基づいて、前記第２学習モデルを通じて、間接費に分類された少なくとも一つのアイテムに関する費用カテゴリー情報を確認することができる。

プロセッサー１２０は、伝票データから抽出した文字列を所定の学習モデルに入力させるために、前記文字列を構成する文字要素を確認し、それぞれの文字要素に対応するベクトル情報に基づいてマトリックスを生成することができる。また、プロセッサー１２０は、設定された少なくとも一つのフィルターを用いて、前記マトリックスから文字列に対応する特徴ベクトルを生成することができる。プロセッサー１２０は、前記特徴ベクトルを学習データまたはテストデータとして、前記学習モデルに入力させることができる。

プロセッサー１２０は、前記文字列を構成するそれぞれの文字要素に基づいて、文字（ｃｈａｒａｃｔｅｒ）単位にエンベディングして特徴ベクトルを生成し、これを通じて、アイテム関連情報を確認することによって、前記文字列を構成する文字要素の種類（例：英字、ハングル文字、特殊文字、または空白）に関係なく、アイテム関連情報を提供することができる。また、文字列に一部の誤脱字が含まれていても、正確度の高いデータ（例：アイテム関連情報）を算出することができる。

一方、一実施形態によると、プロセッサー１２０は、機械学習を通じて少なくとも一つの学習モデル（例：第１学習モデルおよび第２学習モデル）を学習させるための方法として、第２購入アイテムに関する第２伝票データと前記第２アイテムが間接費に属するか否かに関する情報、前記第２アイテムの費用カテゴリー情報をそれぞれ獲得して学習データとして用いることができる。このとき、前記第２購入アイテムに関する第２伝票データは、特定企業の前年度の伝票データに該当し得る。即ち、プロセッサー１２０は、特定企業の今年度の伝票データを分析する前に、前年度の伝票データおよびこれに関連した情報（例：各アイテムの間接費の該当可否に関する情報および費用カテゴリー情報）を予め獲得し、これを通じて、少なくとも一つの学習モデルを学習させることができ、学習された学習モデルを通じて今年度の伝票データを分析して情報を提供することができる。

一方、プロセッサー１２０は、前記前年度の伝票データのうち所定の比率の一部アイテム（例えば、８０％のアイテム）に対応する伝票データは、学習データとして使用し、残りのアイテム（例：残り２０％のアイテム）に対応する伝票データは、前記学習データを通じて学習した学習モデルの信頼性を検証する検証用データとして使用してもよい。

他の実施形態によると、プロセッサー１２０は、前年度の伝票データに関連した別の情報を獲得することができない場合、前記分析を遂行し情報を確認しようとする今年度の伝票データの一部を用いて全体の伝票データの分析に使用される学習モデルを学習させることができる。例えば、プロセッサー１２０は、複数の購入アイテム間の類似度情報を、機械学習を通じて学習された第３学習モデルを通じて確認し、前記類似度情報に基づいて、複数のアイテムから一部のサンプルアイテム（例：２０％のアイテム）を決定することができる。プロセッサー１２０は、前記一部のサンプルアイテムに関する間接費関連情報を獲得し、これを学習データとして学習モデルを学習させることができ、前記サンプルアイテムを除いた残りのアイテムに対応する伝票データに関する分析を遂行してもよい。

メモリ１４０は、前記プロセッサー１２０と電気的に連結され、プロセッサー１２０の動作に関連した命令語を保存することができる。また、電子装置１００において使用される多様なデータ（例：学習データ、機械学習のための命令語、学習モデル関連データ（例：第１学習モデル、第２学習モデル、パラメータ関連データ）、学習モデルを用いて獲得した情報（例：特徴ベクトル関連情報、間接費データ、間接費アイテムの費用カテゴリー情報など）を保存することができる。

図１に図示されていないが、多様な実施形態に係る電子装置１００は、メモリ１４０に保存された情報またはプロセッサー１２０によって処理された所定の情報を他の装置に伝送したり、または他の装置から電子装置１００に所定の情報を受信する機能を遂行する通信モジュール、各種ユーザー入力を受信する入力モジュール、および電子装置１００において処理された情報や電子装置１００から提供されるユーザーインターフェイスを表示するディスプレイのうち少なくとも一部をさらに含むことができる。

図２は、一実施形態に係る伝票データに基づいて情報を獲得する方法を説明するために図示した図面である。

図２を参照すると、特定企業において購入したアイテムに関する情報を含む伝票データは、直接費項目と間接費項目を含むことができる。間接費は、企業全体の支出のうち少なくない比重を占め、間接費の細部項目に関する分析を通じて各類型別に費用を削減し得る可能性が高いため、企業においては、前記間接費に該当する購入アイテムを詳細カテゴリー別に管理し検討しようとすることができる。

このために、企業において間接費項目の情報を確認しなければならない担当者（または、作業者）は、前記伝票データを用いて間接費に関する情報を獲得し、間接費に該当するそれぞれの購入アイテムが具体的にどの費用カテゴリーに属するかを分類する作業を通じて、間接費に該当する購入アイテムに関連した情報を分析し管理することができる。このように、伝票データから間接費項目を抽出し、各アイテム項目の費用カテゴリーを区別する作業は、一般的には複数の担当者によって手作業で遂行され得る。

例えば、特定企業の購買関連の伝票データ２１０ａ、２１０ｂには、該当企業の会社名（法人名）（例：図２のＰ社、Ｐ社の系列会社など）または部署名、各アイテムを供給した供給業者名（例：図２のＡ社、Ｂ社など）、購入アイテムに関連した勘定名（例：図２の「ソフトウェアＣｌｅａｒｉｎｇ」、「建設中資産－ソフトウェアＣｌｅａｒｉｎｇ」、「工機具備品仕入Ｃｌｅａｒｉｎｇ」など）、そして、前記購入アイテムの購入目的などが記載された勘定摘要（または費用ｄｅｓｃｒｉｐｔｉｏｎ）（例：図２のＡＩを活用した知能型チャットボット開発の実効性検証」、「税務調査対策ノートパソコン購入」など）の項目などに関する情報が含まれ得る。このほかにも、伝票データには、業者コード、部署コード、送状日付、送状摘要、会計日付などの各種情報がされに含まれ得る。

複数の担当者（例：図２の担当者Ａ、担当者Ｂ、担当者Ｃ、担当者Ｄ）は、前記伝票データ２１０ａ、２１０ｂの購入アイテムに関する情報を確認し、各アイテムが間接費の項目に該当するかどうか識別し、また、間接費項目に該当する場合、具体的には、各アイテムがどの費用カテゴリーに対応しているかに関する情報２３０ａ、２３０ｂを記入することができる。例えば、前記費用カテゴリーは、大分類、中分類、および小分類のように、複数の階層化された細部カテゴリーを含むことができる。例えば、中分類カテゴリーは、前記大分類カテゴリーの下位カテゴリーに該当し、小分類カテゴリーは、前記中分類カテゴリーの下位カテゴリーに該当し得る。

前述したように、伝票データから間接費に該当するアイテムに関連した費用カテゴリー情報を導出する作業は、複数の担当者によって手作業で遂行され得る。この場合、特定アイテムがどの費用カテゴリーに属するかが不明確な場合が発生することがあり、担当者によって、同一のアイテム関連の伝票データを見ても、他のカテゴリーに属するものと誤って判断する可能性があり得る。例えば、勘定摘要情報が、「ＡＩを活用した知能型チャットボット開発の実効性検証」として同一の場合にも、担当者Ａは、該当アイテムを「情報通信＞＞ソフトウェア＞＞ソフトウェア」の項目に分類し、担当者Ｂは「情報通信＞＞ＳＭ＞＞ＳＭ（システム維持保守）」の項目に分類し得る。このように、不明確な基準によって分類されたデータは、正確度が落ちて間接費の支出費用分析の障害要因となり得る。

図３は、本開示の一実施形態に係る電子装置の情報提供方法を説明するための図面である。

図３を参照すると、多様な実施形態に係る電子装置１００は、機械学習を通じて学習された少なくとも一つの学習モデル（例：第１学習モデル３０２、第２学習モデル３０４）を用いて、複数の購入アイテムに関する伝票データ３１０から間接費に関連した間接費データ３２０を獲得することができ、また、これらの間接費データ３２０に属する購入アイテムの費用カテゴリー情報３３０を確認し、該当情報を提供することができる。

前述したように、伝票データ３１０には、特定企業において購入した複数のアイテムの購入に関連した情報が含まれ得、これら複数のアイテムは、直接費と間接費に区分され得る。

電子装置１００は、第１学習モデル３０２を用いて前記伝票データ３１０に対応する複数の購入アイテムのうち間接費に関連した少なくとも一部の購入アイテムのデータ３２０を獲得することができる。例えば、電子装置１００は、伝票データ３１０に含まれた多様な項目の情報のうちアイテムの属性に関連した項目として業者名情報および勘定摘要情報のうち少なくとも一部に対応するテキスト情報を抽出することができる。また、電子装置１００は、前記業者名情報および勘定摘要情報のうち少なくとも一部に対応するテキスト情報を一つの文字列（ｃｈａｒａｃｔｅｒｓｔｒｉｎｇ）に構成した後、前記文字列に対応する特徴ベクトルを生成することができ、前記第１学習モデル３０２を用いて前記特徴ベクトルに相応する間接費関連情報３２０を確認することができる。

また、電子装置１００は、複数のアイテムのうち間接費に該当するアイテムの伝票データ３２０から、前記アイテムの費用カテゴリー情報を確認することができる。

例えば、電子装置１００は、前記アイテムの属性に関連したテキスト情報から抽出した文字列に対応する特徴ベクトルを用いて、第２学習モデル３０４を用いて前記特徴ベクトルに相応する費用カテゴリー情報を確認することができる。費用カテゴリー情報に関連して、図３においては、一つのカテゴリーのみを含む実施形態が図示されているが、本発明の多様な実施形態によると、前記費用カテゴリー情報は、大分類、中分類、小分類のように階層化された複数のカテゴリーに該当するする情報を含むことができることは、前述した通りである。

このように、電子装置１００は、機械学習を通じて決定された一定の基準に基づいて伝票データを分析して間接費可否の分類および費用カテゴリー情報を提供するため、間接費の支出分析に関連したデータの信頼性が確保され得る。

以下、図４を参照して、本発明の多様な実施形態に係る電子装置１００の情報提供方法に関する具体的な動作方法に関して説明する。

図４は、本開示の一実施形態に係る電子装置の情報提供方法に関するフローチャートである。より具体的には、図４は、電子装置１００において機械学習基盤として情報を提供する方法に関する図面である。

図４を参照すると、多様な実施形態に係る情報提供方法は、先ず、段階４１０において、伝票データ（例：図３の伝票データ３１０）からアイテムの属性に関連した文字列を抽出する段階を含むことができる。

電子装置１００は、段階４１０を遂行する前に、所定の購入アイテムに関する伝票データを獲得することができる。例えば、前記伝票データは、間接費に該当する購入アイテムを選別し、該当アイテムの費用カテゴリーを決定する作業を遂行すべき作業対象の非定型化された形態のテキスト情報を含む伝票データに対応し得る。

伝票データには、購入したアイテムに関連した多様な情報が含まれ得る。段階４１０において、電子装置１００は、伝票データに含まれた複数の非定型化されたテキスト情報のうち少なくとも一部からアイテムの属性に関連した所定の文字列を抽出することができる。例えば、電子装置１００は、伝票データに含まれた様々な項目のうち該当アイテムの業者名情報と勘定摘要情報に含まれたテキスト情報を引き継ぐ形式として、前記アイテムの属性に関連した所定の文字列を抽出することができる。

段階４２０において、電子装置１００は、前記抽出された文字列に含まれた文字要素（ｃｈａｒａｃｔｅｒｓ）を用いて、学習モデルに関する入力データ（例：学習データまたはテストデータ）として使用される特徴ベクトルを生成することができる。即ち、電子装置１００は、段階４２０において獲得する特徴ベクトルを学習データとして入力して、機械学習を通じて特定学習モデルを学習させることができ、または機械学習を通じて学習された特定学習モデルに前記特徴ベクトルをテストデータとして入力して前記特徴ベクトルに対応する結果情報（例：間接費の関連可否に関する情報、費用カテゴリー情報）を確認することができる。

例えば、段階４１０において抽出された前記文字列に含まれた文字要素は、英字（ａｌｐｈａｂｅｔｃｈａｒａｃｔｅｒ）、音節単位のハングル文字、および特殊文字のうちの少なくとも一部を含むことができ、空白を含めてもよい。電子装置１００は、段階４２０において前記文字列を構成する各文字要素に対応するインデックス番号を確認し、前記インデックス番号に対応するベクトル情報を確認することができ、前記ベクトル情報に基づいて、機械学習を通じて、前記文字列に相応する特徴ベクトルを生成することができる。段階４２０の特徴ベクトルを生成する過程に関連したより具体的な説明は、図５を参照して後述するようにする。

次に、段階４３０において、電子装置１００は、機械学習を通じて学習された少なくとも一つの学習モデル（例：第１学習モデル３０２、図３参照）を用いて、特徴ベクトルに対応する購入アイテムが間接費の分類対象か否かを識別することができる。即ち、電子装置１００は、前記段階４２０において生成した特徴ベクトルをテストデータとして、第１学習モデル３０２に入力し、これから前記特徴ベクトルに対応するアイテムが間接費項目に該当するか否かを確認することができる。前記第１学習モデル３０２は、特定購入アイテムに関する伝票データと前記購入アイテムが間接費項目であるか否かを示す情報を学習データとして、機械学習を通じて予め学習された学習モデルに該当し得る。

また、電子装置１００は、段階４４０において、機械学習を通じて学習された少なくとも一つの学習モデル（例：第２学習モデル３０４、図３参照）を用いて前記特徴ベクトルに該当するアイテムの費用カテゴリー情報を確認することができる。例えば、電子装置１００は、前記段階４２０において生成した特徴ベクトルをテストデータとして第２学習モデル３０４に入力し、これから前記特徴ベクトルに対応するアイテムの費用カテゴリー情報を獲得することができる。前記第２学習モデル３０４は、特定購入アイテムに関する伝票データと前記購入アイテムが属する費用カテゴリー情報を学習データとして、機械学習を通じて予め学習されたものであり得る。

図５は、本開示の一実施形態に係る電子装置において特徴ベクトルを生成する方法を説明するための概略的な図面である。

図５を参照すると、電子装置１００は、伝票データからアイテムの属性に関連した所定の文字列を抽出することができる。

一例を挙げると、電子装置１００は、図５に図示されたように「ＧＬＯＢＥＶＡＬＶＥＳＩＺＥ１－１／２”ＦＣ－２０ＦＬＧ」という文字列５００を前記伝票データに含まれた属性関連情報として抽出することができる。このとき、抽出された文字列５００は、空白および特殊文字を含みＸ個（例：３００個）以下の文字要素に構成され得る。

電子装置１００は、それぞれの文字要素に対応するインデックス番号と前記文字要素がマッピングされたインデックス辞典（または、テーブル）をメモリ１４０に予め保存することができる。電子装置１００は、前記インデックス辞典を用いて、文字列５００を機械学習を遂行することができる所定の形態に変換する前処理作業を遂行することができ、特定ベクトル情報が意味する文字要素が何であるかを確認することができるキー（ｋｅｙ）値として利用してもよい。

前記文字要素または前記文字要素に対応するそれぞれのインデックス番号は、エンベディング過程を通じて多次元の特徴ベクトルを抽出するのに用いられ得る。

例えば、文字列５００を構成する文字要素（例：「Ｇ」、「Ｌ」、「Ｏ」、「Ｂ」、「Ｅ」など）は、各文字要素に対応するインデックス番号（未図示）の形態に変換され得、前記インデックス番号（未図示）は、再びＹ次元のベクトル情報（例：３０次元のｅｍｂｅｄｄｉｎｇｓｉｚｅベクトル）（例：５００ａ、５００ｂ、５００ｃ、５００ｄ、５００ｅなど）として変換されて表現され得る。電子装置１００は、機械学習を通じて前記文字要素（またはインデックス番号）に対応するベクトル情報（例：５００ａ、５００ｂ、５００ｃ、５００ｄ、５００ｅなど）の最適化された組み合わせを決定することができる。これにより、文字列５００は、図５に図示されたように、Ｘ×Ｙのマトリックス形態として表現され得る。

一方、電子装置１００は、前記マトリックスに対して、ＣＮＮアルゴリズムを適用することができる。具体的には、電子装置１００は、任意のフィルターを設定し、前記フィルターを用いて前記マトリックスの特徴を学習することによって、特定の次元の特徴ベクトル（例：図５に図示された２５６次元の特徴ベクトル５０５）を獲得することができる。

例えば、本開示の一実施形態において、電子装置１００は、前記フィルターのナンバー（ＣＮＮｆｉｌｔｅｒｎｕｍｂｅｒｓ）を[２、３、４、５]に設定して、前記文字列をなす文字要素のうち少なくとも一部（例えば、文字列において互いに隣接する２個、３個、４個、および５個単位の文字要素の組み合わせ）に対応するベクトル情報に該当する特徴（例：５０１、５０２、５０３、５０４）を学習することができる。

また、電子装置１００は、それぞれのフィルターを用いて学習する特徴（例：５０１、５０２、５０３、５０４）の次元数に該当するチャンネル（ｃｈａｎｎｅｌ）の数（例：「ｃｈａｎｎｅｌ＝６４」）を設定することができる。これにより、前記それぞれのフィルターを用いて獲得する特徴（例：５０１、５０２、５０３、５０４）は、各チャンネルに対応する次元（例：６４次元）のベクトルとして具現され得る。

また、電子装置１００は、これらの特徴をチャンネル方向に連結（ｃｏｎｃａｔｅｎａｔｉｏｎ）して、最終的に文字列に対応する一つの特徴ベクトルを獲得することができる。前記特徴ベクトルは、フィルターの数（例：「２」、「３」、「４」、および「５」のナンバーを有するフィルターである場合、４個）とチャンネルの数（例：６４次元の）の積に該当する次元（例：２５６次元）に対応し得る。

多様な実施形態に係る電子装置１００は、テキスト形態の学習データ（例えば、伝票データから抽出された文字列）を前述したような方式で特徴ベクトル５０５に表現し、前記特徴ベクトル５０５を用いて少なくとも一つの学習モデル（例：第１学習モデルおよび第２学習モデル）を学習するのに使用することができる。

また、電子装置１００は、テキスト形態のテストデータ（例：伝票データから抽出された文字列）も前述したような方式で特徴ベクトル５０５に表現され得、前記少なくとも一つの学習モデル（例：第１学習モデルおよび第２学習モデル）を用いて所定の情報（即ち、間接費の該当可否に関する情報、費用カテゴリー情報）を提供することができる。

図６は、本開示の一実施形態に係る電子装置の機械学習のためのユーザー設定入力画面を概略的に図示した図面である。

図６を参照すると、多様な実施形態に係る電子装置１００は、機械学習のための学習データおよび前記機械学習条件に関連した学習パラメータに関するユーザー入力を受信することができる。電子装置１００は、前記ユーザー入力に基づいて、前記学習パラメータを調節することによって学習モデルの性能を改善することができる。

例えば、電子装置１００は、前記学習パラメータとして、ｅｐｏｃｈ数（例：３０回）、Ｍａｘｗｏｒｄｌｅｎｇｔｈ（例：３００個）、Ｍａｘｎｕｍｂｅｒｏｆｗｏｒｄｓ（例：１）、Ｅｍｂｅｄｄｉｎｇｓｉｚｅ（例：３０次元）、ＣＮＮフィルターナンバー（例：［２、３、４、５］）、ＣＮＮフィルター出力（例：６４次元）、ＣＮＮｄｒｏｐｏｕｔ（例：０．８）、FＮＮｈｉｄｄｅｎｕｎｉｔｓ（例：５１２個）、ｂａｔｃｈｓｉｚｅ（例：１０２４）、ｌｅａｒｎｉｎｇｒａｔｅ（例：０．００９）のうち少なくとも一つを含むことができる。

特に、本開示の多様な実施形態に係る電子装置１００は、伝票データから間接費の該当可否を確認したり、費用カテゴリー情報を確認するための学習モデルと関連して、「ｅｐｏｃｈ数」、「ＣＮＮフィルターナンバー」、「ＣＮＮフィルター出力」、「ＣＮＮｄｒｏｐｏｕｔ」、「ＦＮＣｈｉｄｄｅｎｕｎｉｔｓ」、「ｂａｔｃｈｓｉｚｅ」、および「ｌｅａｒｎｉｎｇｒａｔｅ」の項目を主要パラメータとして調節することによって、学習モデルの性能を改善することができる。

例えば、ｅｐｏｃｈは、学習反復回数に関するものとして、電子装置１００は、学習データ（例えば、購入アイテムに関する伝票データおよび前記伝票アイテムに対応する各アイテムに関する間接費の可否に関する情報、費用カテゴリー関連情報）の数が多いと、前記ｅｐｏｃｈ数を大きく設定することができる。ＣＮＮフィルターナンバーは、分析する文字要素の文字数（ｎ－ｇｒａｍ）に対応し、もし、フィルターナンバーが２である場合、電子装置１００が文字列に含まれた文字要素を二文字単位で分析して特徴を抽出するということを意味し得る。ＣＮＮフィルター出力は、フィルターを通じて抽出した特徴を表現するベクトルの次元数に対応し得る。ＣＮＮｄｒｏｐｏｕｔは、過大適合（ｏｖｅｒｆｉｔｔｉｎｇ）を防止するために学習ノードを一部の比率程度に減らして学習することを意味し得る。ＦＮＣｈｉｄｄｅｎｕｎｉｔｓは、ｆｕｌｌｙｃｏｎｎｅｃｔｉｏｎｎｅｔｗｏｒｋ基盤の学習時にｈｉｄｄｅｎｕｎｉｔの個数に該当し得、ｂａｔｃｈｓｉｚｅは、前記学習時に並列的に処理されるデータの数に該当し得る。ｌｅａｒｎｉｎｇｒａｔｅは、学習速度を調節する変数として学習データが多く学習データ間の差が微細なほど小さい値として設定することができる。

この他にも、学習パラメータとしては、学習モデルの検証を行うか否か、学習モデルの検証を遂行するデータの比率、または前記学習モデルの検証開始ｅｐｏｃｈのうち少なくとも一つをさらに含むことができ、その他のシステム設計の要求によってさらに他のパラメータが調節可能なように用意され得る。

図７は、本開示の一実施形態に係る電子装置の機械学習基盤の情報提供に関連したユーザーインターフェイス画面の例示的な図面である。

図７を参照すると、電子装置１００は、一つ以上の購入アイテムに関する伝票データ７１０を獲得することができ、これからアイテムの属性に関連したテキスト（例：業者名（例：「Ｓｕｐｐｌｉｅｒ」）情報７１１、勘定摘要（例：「Ｄｅｓｃｒｉｐｔｉｏｎ」）情報７１２から所定の文字列７２０を抽出することができる。前記文字列は、各アイテムに対応する文字列のセットに該当し得る。

一実施形態において、電子装置１００は、情報提供のための実行ボタン（例：「分析予測実行」）７２５に対するユーザー入力を受信することができる。また、電子装置１００は、前記ユーザー入力に基づいて、本開示の多様な実施形態に係る機械学習基盤の情報提供のための動作を遂行することができ、各購入アイテム（ら）に関する分類予測結果情報７３０を画面を通じて提供することができる。

例えば、電子装置１００は、複数の購入アイテムのうち間接費に該当するアイテムを区分し、分類予測結果情報７３０として、前記間接費に該当する各アイテムの費用カテゴリー情報を提供することができる。

また、電子装置１００は、前記提供された費用カテゴリー情報の分類予測結果に関連した正確度情報（例：９９．２％、１００％）を算出して、前記費用カテゴリー情報と共に併記して提供してもよい。一実施形態において、電子装置１００は、伝票データに基づいてアイテム間の類似度情報を確認することができ、前記類似度情報に基づいて前記正確度関連情報を提供することができる。例えば、電子装置１００は、機械学習を通じて学習された第３学習モデルを用いて前記アイテム間の類似度情報を確認して前記正確度関連情報を提供することができる。

前述した本開示の多様な実施形態に係るプロセッサー（例：プロセッサー１２０）は、プロセッサー、プログラムデータを保存し実行するメモリ、ディスクドライブのような永久保存部（ｐｅｒｍａｎｅｎｔｓｔｏｒａｇｅ）、外部装置と通信する通信ポート、タッチパネル、キー（key）、ボタンなどのようなユーザーインターフェイス装置などを含むことができる。

一方、本開示の多様な実施形態によるソフトウェアモジュールまたはアルゴリズムで具現される方法は、前述したプロセッサー上で実行可能なコンピュータで読み取り可能なコードまたはプログラム命令として、コンピュータで読み取り可能な記憶媒体上に保存され得る。ここで、コンピュータで読み取り可能な記憶媒体として磁気記憶媒体（例えば、ＲＯＭ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）、ＲＡＭ（ｒａｎｄｏｍ－Ａｃｃｅｓｓｍｅｍｏｒｙ）、フロッピーディスク、ハードディスクなど）、および光学的読み取り媒体（例えば、シーディーロム（ＣＤ－ＲＯＭ）、ディーブイディー（ＤＶＤ：ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ））などがある。コンピュータで読み取り可能な記憶媒体は、ネットワークに接続されたコンピュータシステムに分散されて、分散方式でコンピュータで読み取り可能なコードが保存され実行され得る。媒体は、コンピュータによって読み取り可能であり、メモリに保存され、プロセッサー上で実行され得る。

本実施形態は、機能的なブロック構成および多様な処理段階で示され得る。このような機能ブロックは、特定機能を実行する多様な個数のハードウェアまたは／およびソフトウェア構成で具現され得る。例えば、実施形態は、一つ以上のマイクロプロセッサーの制御または他の制御装置によって多様な機能を実行できる、メモリ、プロセッシング、ロジック（ｌｏｇｉｃ）、ルックアップテーブル（ｌｏｏｋ－ｕｐｔａｂｌｅ）などのような直接回路構成を採用することができる。構成要素がソフトウェアプログラミングまたはソフトウェア要素で実行され得るのと同様に、本実施形態はデータ構造、プロセス、ルーチンまたは他のプログラミング構成の組み合わせで具現される多様なアルゴリズムを含み、Ｃ、Ｃ＋＋、ジャバ（Ｊａｖａ）、パイソン（Ｐｙｔｈｏｎ）などのようなプログラミングまたはスクリプト言語で具現され得る。しかし、このような言語は制限がなく、機械学習を具現するのに使用され得るプログラム言語は多様に使用され得る。機能的な側面は、一つ以上のプロセッサーで実行されるアルゴリズムで具現され得る。また、本実施形態は、電子的な環境設定、信号処理、および／またはデータ処理などのために従来技術を採用することができる。「メカニズム」、「要素」、「手段」、「構成」のような用語は広く使われ得、機械的かつ物理的な構成として限定されるものではない。前記用語は、プロセッサーなどと連係してソフトウェアの一連の処理（ｒｏｕｔｉｎｅｓ）の意味を含むことができる。

前述した実施形態は、一例示に過ぎず、後述する請求項の範囲内で他の実施形態が具現され得る。

Claims

電子装置による機械学習基盤情報の提供方法であって、
前記電子装置によって、第１購入アイテムに関する第１伝票データを獲得する段階と、
前記電子装置によって、前記第１伝票データに含まれた前記第１購入アイテムの業者名情報および勘定摘要情報のうち少なくとも一部に対応するテキストを用いて、前記第１伝票データから前記第１購入アイテムの費用属性に関連した文字列を抽出する段階と、
前記電子装置によって、機械学習を通じて前記抽出された文字列に含まれた文字要素に対応するマトリックスを生成する段階と、
前記電子装置によって、少なくとも一つのフィルターを用いて前記マトリックスから前記抽出された文字列に対応する特徴ベクトルを生成する段階と、
前記電子装置によって、機械学習を通じて学習された第１学習モデルを用いて、テストデータとして前記特徴ベクトルを入力することによって、前記第１購入アイテムのうち間接費に該当する少なくとも一つのアイテムを確認する段階と、
前記電子装置によって、機械学習を通じて学習された第２学習モデルを用いて、テストデータとして前記特徴ベクトルを入力することによって、前記少なくとも一つのアイテムの費用カテゴリー情報を提供する段階と、を含む、機械学習基盤情報の提供方法。
前記文字列に含まれた文字要素は、英字、ハングル文字、および特殊文字のうち少なくとも一部を含む、請求項１に記載の機械学習基盤情報の提供方法。
前記電子装置によって、機械学習を通じて学習された第３学習モデルを用いて、テストデータとして前記特徴ベクトルを入力することによって、前記第１購入アイテム間の類似度情報を確認する段階と、
前記電子装置によって、前記第１購入アイテム間の類似度情報に基づいて、前記第１購入アイテムの予め設定された比率に該当する一部アイテムをサンプルアイテムとして決定する段階と、
前記電子装置によって、前記第１伝票データから前記サンプルアイテムの属性に関連したサンプル文字列を抽出する段階と、
前記電子装置によって、前記サンプルアイテムの間接費の該当可否に関する情報および前記サンプルアイテムの費用カテゴリー情報を獲得する段階と、をさらに含み、
前記第１学習モデルは、前記サンプル文字列および前記サンプルアイテムの間接費の該当可否に関する情報を第１学習データとして学習され、
前記第２学習モデルは、前記サンプル文字列および前記サンプルアイテムの費用カテゴリー情報を第２学習データとして学習された、請求項１に記載の機械学習基盤情報の提供方法。
前記第１購入アイテムに関する前記第１伝票データを獲得する前に、
前記電子装置によって、第２購入アイテムに関する第２伝票データを獲得する段階と、
前記電子装置によって、前記第２購入アイテムの間接費の該当可否に関する情報および費用カテゴリー情報を獲得する段階と、
前記電子装置によって、前記第２伝票データに含まれた前記第２購入アイテムの業者名情報および勘定摘要情報のうち少なくとも一部に対応するテキストを用いて、前記第２伝票データから前記第２購入アイテムの費用属性に関連した文字列を抽出する段階と、をさらに含み、
前記第１学習モデルは、前記第２購入アイテムの文字列および前記第２購入アイテムの間接費の該当可否に関する情報を第１学習データとして学習され、
前記第２学習モデルは、前記第２購入アイテムの文字列および前記第２購入アイテムの費用カテゴリー情報を第２学習データとして学習される、請求項１に記載の機械学習基盤情報の提供方法。
前記第１学習モデルおよび前記第２学習モデルのうちの少なくとも一つは、ＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎｎｅｕｒａｌｎｅｔｗｏｒｋ）を含む、請求項１に記載の機械学習基盤情報の提供方法。
前記費用カテゴリー情報は、階層化された複数のカテゴリーを含む、請求項１に記載の機械学習基盤情報の提供方法。
前記電子装置によって、学習繰り返し（ｉｔｅｒａｔｉｏｎ）回数、ＣＮＮフィルターナンバー、ＣＮＮフィルター出力、ＣＮＮドロップアウト（ｄｒｏｐｏｕｔ）、ＦＣＮ（ＦｕｌｌｙＣｏｎｎｅｃｔｉｏｎＮｅｔｗｏｒｋ）隠れユニット（ｈｉｄｄｅｎｕｎｉｔ）、バッチサイズ（ｂａｔｃｈｓｉｚｅ）、およびラーニングレート（ｌｅａｒｎｉｎｇｒａｔｅ）のうち少なくとも一つに対するユーザー入力を受信する段階をさらに含み、
前記第１学習モデルおよび前記第２学習モデルのうち少なくとも一つは、前記ユーザー入力に基づいて学習された、請求項１に記載の機械学習基盤情報の提供方法。
電子装置であって、
メモリと、
前記メモリと電気的に連結されたプロセッサーと、を含み、
前記プロセッサーは、
購入アイテムに関する伝票データを獲得し、
前記伝票データに含まれた前記購入アイテムの業者名情報および勘定摘要情報のうち少なくとも一部に対応するテキストを用いて、前期伝票データから前記購入アイテムの費用属性に関連した文字列を抽出し、
機械学習を通じて前記抽出された文字列に含まれた文字要素に対応するマトリックスを生成し、
少なくとも一つのフィルターを用いて前記マトリックスから前記抽出された文字列に対応する特徴ベクトルを生成し、
機械学習を通じて学習された第１学習モデルを用いて、テストデータとして前記特徴ベクトルを入力することによって、前記購入アイテムのうち間接費に該当する少なくとも一つのアイテムを確認し、
機械学習を通じて学習された第２学習モデルを用いて、テストデータとして前記特徴ベクトルを入力することによって、前記少なくとも一つのアイテムの費用カテゴリー情報を提供するように設定された、電子装置。
機械学習基盤情報の提供方法をコンピュータで実行させるためのプログラムを記録したコンピュータで読み取り可能な非一時的記憶媒体であって、
前記機械学習基盤情報の提供方法は、
購入アイテムに関する伝票データを獲得する段階と、
前記伝票データに含まれた前記購入アイテムの業者名情報および勘定摘要情報のうち少なくとも一部に対応するテキストを用いて、前記伝票データから前記購入アイテムの費用属性に関連した文字列を抽出する段階と、
機械学習を通じて前記抽出された文字列に含まれた文字要素に対応するマトリックスを生成する段階と、
少なくとも一つのフィルターを用いて前記マトリックスから前記抽出された文字列に対応する特徴ベクトルを生成する段階と、
機械学習を通じて学習された第１学習モデルを用いて、テストデータとして前記特徴ベクトルを入力することによって、前記購入アイテムのうち間接費に該当する少なくとも一つのアイテムを確認する段階と、
機械学習を通じて学習された第２学習モデルを用いて、テストデータとして前記特徴ベクトルを入力することによって、前記少なくとも一つのアイテムの費用カテゴリー情報を提供する段階と、を含む、非一時的記憶媒体。