JP2022082523A

JP2022082523A - 機械学習基盤類似アイテムに関する情報を提供する方法および装置

Info

Publication number: JP2022082523A
Application number: JP2021189433A
Authority: JP
Inventors: ジェ・ミン・ソン; Jae Min Song; クァン・ソプ・キム; Kwang Seob Kim; ホ・ジン・ファン; Ho Jin Hwang; ジョン・フィ・パク; Jong Hwi Park
Original assignee: Emro Co Ltd
Current assignee: Emro Co Ltd
Priority date: 2020-11-23
Filing date: 2021-11-22
Publication date: 2022-06-02
Anticipated expiration: 2041-11-22
Also published as: KR102265946B1; JP7291419B2; US20220164851A1

Abstract

【課題】機械学習基盤類似アイテムに関する情報を提供する方法および装置を提供する。【解決手段】対象アイテムに関する情報を受信する段階；機械学習モデルを使って対象アイテムに関する情報に対応する文字列に基づいて対象ベクトルを生成する段階；前記機械学習モデルを通じて導き出された複数のアイテムのそれぞれに対応する少なくとも一つのベクトルセットを確認する段階；および前記少なくとも一つのベクトルセットで前記生成された対象ベクトルと類似度値が予め設定された臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報を提供する段階を含む、機械学習基盤類似アイテムに関する情報を提供する方法を提供する。【選択図】図１３

Description

本開示は機械学習基盤類似アイテムに関する情報を提供する方法および装置に関する。より具体的には、本開示は受信した対象アイテムに関する情報に対して機械学習を通じて生成された学習モデルを使って、類似するベクトル値を有する少なくとも一つのアイテムに関する情報を提供する方法およびこれを利用した装置に関する。

最近機械学習およびディープラーニング技術が発展するにつれ、機械学習およびディープラーニング基盤の自然語処理を通じて、膨大なテキストから意味のある情報を抽出して活用するための言語処理研究開発が活発に進行している。

先行技術文献：韓国公開特許１０－２０２０－０１０３１８２号公報

先行技術文献はディープラーニング基盤類似商品提供方法について開示している。このように企業は入力データに対して類似する商品を提供するためにマシンラーニング技術を活用しているが、商品のイメージやキーワード抽出基盤の商品の推薦に止まっており、具体的な予測モデル生成方法や在庫管理に特化した類似アイテム提供方法については開示していない。

企業は業務の効率および生産性を向上させるために、企業で算出される各種情報を標準化して統合および管理することが要求される。特に、購入の重複を避け、保有中の類似アイテムの現況を確認するために、アイテムに関する情報を体系的に管理し、新規アイテムに対して類似アイテム情報を提供する方法およびシステムに関する必要性が存在する。

本明細書の実施形態は前述した問題点を解決するために提案されたものであり、機械学習モデルを使って複数のアイテムに関する文字列情報および対象アイテムに関するテキスト情報に基づいてそれぞれベクトルセットを構成し、対象アイテムに関するベクトルと複数のアイテムに関するベクトルセットとの比較を通じて対象アイテムと類似アイテムに関する情報を提供することにある。

また、本明細書の実施形態はアイテムに関する属性に基づいて文字列を生成し、生成された文字列のベクトル情報に基づいて複数のアイテムを分類する方法および装置を提供することにある。

本実施形態が達成しようとする技術的課題は上記のような技術的課題に限定されず、以下の実施形態からさらに他の技術的課題が類推され得る。

前述した課題を達成するために、本明細書の一実施形態に係る機械学習基盤類似アイテムに関する情報を提供する方法は、対象アイテムに関する情報を受信する段階；機械学習モデルを使って対象アイテムに関する情報に対応する文字列に基づいて対象ベクトルを生成する段階；前記機械学習モデルを通じて導き出された複数のアイテムのそれぞれに対応する少なくとも一つのベクトルセットを確認する段階；および前記少なくとも一つのベクトルセットで前記生成された対象ベクトルと類似度値が第１臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報を提供する段階を含むことができる。

また、本明細書の一実施形態に係る機械学習基盤類似アイテムに関する情報を提供する装置は、少なくとも一つの命令語（ｉｎｓｔｒｕｃｔｉｏｎ）を保存するメモリ（ｍｅｍｏｒｙ）；および前記少なくとも一つの命令語を実行して対象アイテムに関する情報を受信し、機械学習モデルを使って対象アイテムに関する情報に対応する文字列に基づいて対象ベクトルを生成し、前記機械学習モデルを通じて導き出された複数のアイテムのそれぞれに対応する少なくとも一つのベクトルセットを確認し、前記少なくとも一つのベクトルセットで前記生成された対象ベクトルと類似度値が第１臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報を提供するプロセッサ（ｐｒｏｃｅｓｓｏｒ）を含むことができる。

また、本明細書の一実施形態に係る機械学習基盤類似アイテムに関する情報を提供する方法をコンピュータで実行させるためのプログラムを記録したコンピュータ読み取り可能な非一過性の記録媒体であって、前記機械学習基盤類似アイテムに関する情報を提供する方法は、対象アイテムに関する情報を受信する段階；機械学習モデルを使って対象アイテムに関する情報に対応する文字列に基づいて対象ベクトルを生成する段階；前記機械学習モデルを通じて導き出された複数のアイテムのそれぞれに対応する少なくとも一つのベクトルセットを確認する段階；および前記少なくとも一つのベクトルセットで前記生成された対象ベクトルと類似度値が第１臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報を提供する段階を含むことができる。

その他の実施形態の具体的な事項は詳細な説明および図面に含まれている。

本明細書の実施形態によると、既存に入力されたアイテム情報に基づいて、新しく入力されるアイテムの情報に基づいて既存に入力されたアイテムのうち類似するアイテムの情報を推薦することによって、一貫性のあるアイテムの在庫管理ができる効果がある。

また、本明細書の実施形態によると、新規アイテムに関する一部の属性に関する情報を選択的に入力する場合にも、入力された情報のうち一部の情報に基づいて既存に入力されたアイテムとの類似度を判断することによって入力効率性が高くなり得、類似する品目の数字が多い場合、入力されていない品目に関する情報を追加的に入力することによってより細密な在庫管理とともにユーザー便宜性が向上し得る。

また、本明細書の実施形態によると、複数の属性に関する情報それぞれに対して加重値を割り当てることができるため、一部の属性が重複するアイテムが多数ある場合でも異なる類似度結果を算出することができ、そのため、一部の属性が同一のアイテムに対しても異なるアイテム情報として区分して管理できる効果がある。

発明の効果は以上で言及した効果に制限されず、言及されていないさらに他の効果は特許請求の範囲の記載から当該技術分野の通常の技術者に明確に理解され得るであろう。

本発明の実施形態に係るアイテム管理システムを説明するための図面である。一実施形態により対象アイテムに関する情報を入力する方法を説明するための図面である。本発明の一実施形態に係るアイテムに関する情報を管理する方法を説明するための図面である。一実施形態により、アイテムに関する情報に対してベクトル化を遂行する方法を説明するための図面である。一実施形態により、アイテムに関する情報に対してベクトル化を遂行する方法を説明するための図面である。一実施形態により、単語エンベッディングベクトルテーブルに含まれるベクトルを生成する方法を説明するための図面である。一実施形態によりアイテム分類を遂行する前にアイテムに関する情報を前処理する方法を説明するための図面である。一実施形態によりアイテム分類に関連した学習モデルを生成する時に調整され得るパラメータを説明するための図面である。一実施形態によりアイテムの類似度結果を説明するための図面である。一実施形態によりアイテムの類似度結果を説明するための図面である。一実施形態によりアイテムの類似度結果を説明するための図面である。一実施形態により類似アイテムに関する情報を提供する方法を説明するための図面である。一実施形態に係る機械学習基盤類似アイテムに関する情報を提供する方法を説明するためのフローチャートである。一実施形態に係る機械学習基盤類似アイテムに関する情報を提供する装置を説明するためのブロック図である。

実施形態で使われる用語は本開示での機能を考慮しつつ、可能な限り現在広く使われる一般的な用語を選択したが、これは当分野に従事する技術者の意図または判例、新しい技術の出現などによって変わり得る。また、特定の場合は出願人が任意に選定した用語もあり、この場合、該当する説明の部分で詳細にその意味を記載するであろう。したがって、本開示で使われる用語は単純な用語の名称ではなく、その用語が有する意味と本開示の全般にわたった内容に基づいて定義されるべきである。

明細書の全体において、或る部分が何らかの構成要素を「含む」とする時、これは特に反対の記載がない限り他の構成要素を除くものではなく他の構成要素をさらに含み得ることを意味する。

明細書全体で記載された「ａ、ｂ、およびｃのうち少なくとも一つ」の表現は、「ａ単独」、「ｂ単独」、「ｃ単独」、「ａおよびｂ」、「ａおよびｃ」、「ｂおよびｃ」、または「ａ、ｂ、およびｃすべて」を含むことができる。

以下では、添付した図面を参照して本開示の実施形態について、本開示が属する技術分野で通常の知識を有する者が容易に実施できるように詳細に説明する。しかし、本開示は多様な異なる形態として具現され得、ここで説明する実施形態に限定されない。

以下では、図面を参照して本開示の実施形態を詳細に説明する。

図１は、本発明の実施形態に係るアイテム管理システムを説明するための図面である。

本発明の一実施形態に係るアイテム管理システム１００はアイテムに関する情報が受信されると、各アイテムに関する情報を統一された形式に加工し、別途のコードが割り当てられていないアイテムに対してコードを割り当てることができ、特定のアイテムに対して最も先に割り当てられるコードは代表コードであり得る。実施形態でアイテム情報は一般的な文字列を含むことができ、少なくとも一つの区分子を含む文字列であり得る。実施形態で区分子は空白および文章記号を含むことができ、これに制限されず、特定項目の間を区別できる文字を含むことができる。

図１を参照すると、アイテム管理システム１００は複数の管理者１１１、１１２から購入アイテム情報を受信することができる。実施形態で購入アイテム情報は該当アイテムを購入するための購入要請であり得、この時、複数の管理者１１１、１１２から受信される購入アイテム情報は形式が異なり得るため、複数の購入要請の統合および管理が困難であり得る。

したがって、一実施形態に係るアイテム管理システム１００は既存のアイテム情報に基づいて機械学習を遂行し、これを通じて生成された学習結果により複数の管理者１１１、１１２から受信された購入アイテム情報を一定の形式に加工し、保存することができる。

例えば、第１管理者１１１が提供したアイテム情報にはアイテムの具体的なモデル名（Ｐ０００９０３）および用途（ＰＣＢエッチング腐食用）のみが含まれているだけであり、アイテムの分類に必要な情報（大分類、中分類、小分類に関する情報）は含まれていないこともある。このような場合、アイテム管理システム１００は機械学習結果に基づいて、第１管理者１１１が提供したアイテム情報を受信するとアイテムおよびアイテムの属性情報を分類し、分類結果を保存および出力することができる。

また、アイテム管理システム１００は、第１管理者１１１が提供したアイテム情報に含まれた各属性項目の順序が第２管理者１１２が提供したアイテム情報に含まれた各属性項目の順序と異なっていても、各属性項目を識別して属性情報を分類および保存することができる。一方、実施形態で第１管理者１１１および第２管理者１１２は同一の管理者であり得る。また、同一のアイテムに関する情報を誤記や表示形態により異なるように記録した場合にも、学習モデルの学習結果により入力されたアイテム情報間の類似度を判断して、すでに入力されたアイテムとの類似度を判断したり新しい代表コードを割り当てるなどの動作を遂行できる。

したがって、一実施形態に係るアイテム管理システム１００は各アイテムに関する情報の管理効率性を増大させることができる。

一方、図１のアイテム管理システム１００はアイテム購入に関する情報の統合管理のためのものであることを前提として説明したが、アイテム管理システム１００の用途はアイテム購入に限定されず、すでに入力されたアイテム情報に基づいて該当情報を再び分類することにも使われ得、本明細書の実施形態は複数のアイテムを統合および管理するすべてのシステムに適用され得ることは該当技術分野の通常の技術者に自明である。換言すると、アイテムの購入要請だけでなく既存に保存されたアイテム情報の加工にも本明細書の実施形態が活用され得ることは自明である。

図２は、一実施形態により対象アイテムに関する情報を入力する方法を説明するための図面である。

一実施形態に係るアイテムに関するシステムは、アイテムに関する情報をユーザーから入力を受けることができる。アイテムに関する情報は、アイテムに関する必須属性に関する情報およびアイテムに関する選択属性に関する情報を含むことができる。必須属性に関する情報は、複数のアイテムを分類するために最小限に必要な情報を含むことができる。例えば、必須属性に関する情報はアイテムの品目名とアイテム分類情報などを含むことができる。ここで、アイテム分類情報は該当アイテムが属する製品の種類であり、大分類、中分類および小分類に区分される情報であり得る。

図２で必須属性に関する情報のうち品目名２１０とアイテム分類情報２２０を図示した。一実施形態によると、必須属性に関する情報は必須的に入力されるように、選択属性に関する情報２３０とは異なって別途の標識が項目に追加され得る。例えば、図２では必須属性に関する情報が入力される項目の左側上段の角に色相が異なる標識を挿入して、該当項目が必須的に入力されなければならない項目であることを表記した。

一実施形態によると、選択属性に関する情報はアイテム分類において必ずしも要求される情報ではないものの、複数のアイテムをより細かく区分するのに役に立ち得る選択的な情報を含むことができる。例えば、選択属性に関する情報は、メーカー、モデル名、サイズ、強度、材料、容量、位置、タイプなどを含むことができる。選択属性に関する情報はアイテム分類情報によって異なって導き出され得る。例えば、アイテム分類情報のうち大分類が「機械」である場合、機械類型のアイテムが示し得る属性、例えば、材料、強度、容量、補助装備情報などを選択属性に関する情報として表すことができる。

図２で選択属性に関する情報２３０は必須属性に関する情報とは別途の領域に表示され得る。選択属性に関する情報２３０はすべて入力される必要はなく、ユーザーの望む項目に対して情報を入力することができる。例えば、図２で対象アイテムに関して、選択属性に関する情報２３０のうち、モデル名とアイテム加工（ｐｒｏｃｅｓｓ）業者、メーカー、シリアルナンバーおよび装備番号に対する情報を入力することができる。

一実施形態によると、アイテムごとに固有の品目コードが付与され得る。品目コードはアイテムに関する情報に基づいてサーバーで自動的に付与する固有コードであり得る。または品目コードはアイテムに関する情報を入力する時にユーザーが指定して入力するコードであり得る。これに伴い、同一のアイテムではない限り、アイテム別に品目コードは異なり得る。

図３は、本発明の一実施形態に係るアイテムに関する情報を管理する方法を説明するための図面である。

一実施形態に係るアイテム管理システムは、アイテムに関する情報が受信されると、各属性項目に基づいて受信された情報から属性情報を分類することができる。ここで、アイテムに関する情報は複数の属性情報を含むことができ、属性情報は属性項目により分類され得る。より具体的には、アイテムに関する情報は複数の属性情報を含む文字列であり得、アイテム管理システムはアイテムに関する情報を分類して各属性に対応する情報を導き出すことができる。

図３の（ａ）を参照すると、アイテム管理システムは形式が互いに異なる複数のアイテムに関する情報を受信することができる。例えば、アイテム管理システムは複数のアイテムに関する情報を顧客のデータベースからクローリングしたりまたは受信することができ、ユーザーの入力から受信することができる。この時、アイテムに関する情報に含まれた属性（アイテム名または品目名、メーカー、ＯＳなど）項目が識別されていない状態であり得る。

このような場合、一実施形態に係るアイテム管理システムは、機械学習を通じてアイテムに関する情報に含まれた各属性情報を分類することができる。例えば、図３の（ａ）に図示されたアイテム情報３１０は、図３の（ｂ）のように、アイテム名を含む各種属性項目により属性情報を分類することができる。実施形態で管理システムは、学習モデルにより分類された各情報がどのような属性に該当するかを判断することができ、各属性に該当する値に基づいて一つのアイテムに関する文字列がどのアイテムに関するものであるかを確認し、同一の分類のアイテムに関する情報を確認してこのようなアイテムを一括的に管理できるようにする。

このようなアイテム管理システムにより、アイテムに関する情報から各属性に対応する情報を導き出してこれを分けて整理することができ、今後これと対応する文字列が入力される場合にも該当文字列を分析して対応する属性値を確認し、これを分類して保存することができる。

したがって、一実施形態に係るアイテム管理システムは、アイテムに関する情報を標準化し、主要属性情報を管理することができるため、類似するか重複するアイテムを分類することができ、データ整備の便宜性を増大させることができる効果がある。

一実施形態によると、アイテムに関する情報を図３の（ａ）のアイテム情報３１０のように文字列で受信する前に、アイテムに関する情報が図２のように属性情報に対する項目別に入力され得る。この場合、アイテム情報に対応する文字列で表すために、複数の属性に関する情報のうち少なくとも一部が連接して生成され得る。例えば、アイテムに関する情報が必須属性に関する情報および選択属性に関する情報として受信され得る。この場合、アイテム情報に対応する文字列は選択属性に関する情報のうち少なくとも一部および必須属性に関する情報が学習モデルによる順序によって連接して生成され得る。一実施形態によると、それぞれの属性情報の間に区分子（ｄｅｌｉｍｉｔｅｒ）が含まれて文字列が形成され得る。例えば、「｜」、特殊文字、空白などの多様な形態の区分子を通じて属性情報を区分してアイテムに関する情報が単一の文字列で構成され得る。文字列は機械学習による学習モデルによる順序に基づいて生成されるが、このような学習モデルを生成する方法については下記の図４～８を通じて詳しく説明する。

図４および図５は、一実施形態により、アイテムに関する情報に対してベクトル化を遂行する方法を説明するための図面である。

本開示のアイテムを分類する装置はアイテム管理システムの一例であり得る。換言すると、本開示の一実施形態はアイテムに関する情報に基づいてアイテムを分類する装置であり得る。アイテム分類装置はアイテムに関する情報を単語単位でトークン化してベクトルを生成することができる。

一実施形態によると、アイテムに関する情報が文字列として表現される時に学習モデルによる順序により属性情報が連接して生成されるため、アイテムに関する情報がトークン化される順序は学習モデルによる順序に基づき得る。反面、アイテムに関する情報で学習モデルによる順序のうち特定の順序に関する情報が入力されていない場合、文字列は特定の順序に空白に対応する文字が含まれて生成され得る。例えば、受信していない属性情報に対しては文字列上で「０」からなる空白値で代替することができる。

図４の（ａ）を参照すると、アイテムに関する情報が［ＧＬＯＢＥＶＡＬＶＥ．ＳＩＺＥ１－１／２”．Ａ－１０５．ＳＣＲ’Ｄ．８００＃．ＪＩＳ］である場合、アイテムに関する情報は各単語単位でトークン化され得、トークン化結果である［ＧＬＯＢＥ、ＶＡＬＶＥ、ＳＩＺＥ、１－１／２”、Ａ－１０５、ＳＣＲ’Ｄ、８００＃、ＪＩＳ］に基づいて単語辞書から各トークンに対応するインデックス番号を探すことができ、該当トークン化結果の単語辞書インデックス番号は［２１、３０、７７、９、８３、１１、１２５、２５６、１０２４］であり得る。

単語辞書のインデックス番号は、全体学習データセットから抽出された単語をインデックス化した単語辞書に基づいてアイテム情報を単語のインデックス値として羅列した情報と定義され得る。また、単語辞書のインデックス番号は単語エンベッディングベクトルテーブル（ｗｏｒｄｅｍｂｅｄｄｉｎｇｖｅｃｔｏｒｔａｂｌｅ）で単語のベクトル値を探すためのキー（ｋｅｙ）値として利用され得る。

ここで、実施形態で単語単位のトークン化は、分かち書きおよび文章記号のような区分子のうち少なくとも一つを基準として遂行され得る。トークン化が区分子のうち少なくとも一つを基準として遂行され得るため、空白文字で代替された属性値に対しても同様にトークン化が適用され得る。

一実施形態によると、アイテム情報に対応する文字列に対して類似度分析に関わらない文字を除去して前処理を遂行できる。例えば、特殊文字や属性の区分に使われない分かち書きなどを削除して文字列を構成することができる。またはアイテム情報に対応する文字列に対して英文の場合すべて大文字で置き換えることによって前処理を遂行できる。このような前処理過程を通じてアイテム情報に対するトークン化が役立つようになり得る。

このように分かち書きおよび文章記号のうち少なくとも一つを基準としてトークン化を遂行することができ、トークン化された単語は該当アイテムを示す情報を含むことができる。またはトークン化された単語は通常の辞書に記載された単語ではないか、アイテムを示すための情報を有する単語であり得るが、これに制限されず、トークン化された単語は実際の意味を有さない単語を含むことができる。

このために、アイテム分類装置は図４の（ｂ）のような単語辞書を保存することができる。図４の（ａ）にＧＬＯＢＥと対応するインデックス番号は図４の（ｂ）に図示された通り、２１であり得、これに伴いＧＬＯＢＥに対応する単語辞書のインデックス番号として２１が保存され得る。これと同様にＶＡＬＶＥの場合、３０、ＳＩＺＥの場合、７７がインデックス番号として保存され得る。

一方、各単語に対応するベクトルは、アイテムに関する情報に含まれた各ワードとベクトルがマッピングされている単語エンベッディングベクトルテーブルに基づいて決定され得る。単語エンベッディングベクトルテーブルを生成するために、ｗｏｒｄ２ｖｅｃアルゴリズムが活用され得るが、ベクトルを生成する方法はこれに制限されない。ｗｏｒｄ２ｖｅｃアルゴリズムの中で、ｗｏｒｄ２ｖｅｃｓｋｉｐ－ｇｒａｍアルゴリズムは文章（ｓｅｎｔｅｎｃｅ）を構成する各単語を通じて周辺の各種単語を予測する技法である。例えば、ｗｏｒｄ２ｖｅｃｓｋｉｐ－ｇｒａｍアルゴリズムのウインドウのサイズ（ｗｉｎｄｏｗｓｉｚｅ）が３であるとき、一つの単語が入力されると合計６個の単語が出力され得る。一方、実施形態でウインドウのサイズを異ならせて同一のアイテム情報に対して各種単位でベクトル値を生成することができ、生成されたベクトル値を考慮して学習を遂行してもよい。

単語エンベッディングベクトルテーブルは、図５の（ａ）のように、エンベッディング次元で表現された複数のベクトルで構成されたマトリックスの形態であり得る。また、単語エンベッディングベクトルテーブルの行の数は複数のアイテムに関する情報に含まれた単語の数と対応し得る。単語エンベッディングベクトルテーブルで該当単語のベクトル値を探すために単語のインデックス値を使うことができる。換言すると、ルックアップテーブルとして活用される単語エンベッディングベクトルテーブルのキー値が単語のインデックス値であり得る。一方、各アイテムのベクトルは図５の（ｂ）のように図示され得る。

一方、単語単位でトークン化を遂行する時、単語エンベッディングベクトルテーブルに含まれていない単語が入力されると、対応するベクトルが存在しないためアイテムに関する情報に対応するベクトルの生成が困難であり得る。また、アイテムに関する情報に単語エンベッディングベクトルテーブルに存在しない単語が多数含まれる場合、アイテム分類性能が低下し得る。

したがって、一実施形態に係るアイテム管理システムは、アイテムに関する情報に含まれた各単語のサブワードを利用してアイテムに関する情報に関する単語エンベッディングベクトルテーブルを生成することができる。

図６は、一実施形態により、単語エンベッディングベクトルテーブルに含まれるベクトルを生成する方法を説明するための図面である。

図６の（ａ）を参照すると、単語単位でトークン化が遂行された後、各単語のサブワードに対応するサブワードベクトルが生成され得る。例えば、「ＧＬＯＢＥ」単語に対して２－ｇｒａｍのサブワードが生成される場合、４個のサブワード（ＧＬ、ＬＯ、ＯＢ、ＢＥ）が生成され得、３－ｇｒａｍのサブワードが生成される場合、３個のサブワード（ＧＬＯ、ＬＯＢ、ＯＢＥ）が生成され得る。そして、４－ｇｒａｍのサブワードが生成される場合、２個のサブワード（ＧＬＯＢ、ＬＯＢＥ）が生成され得る。

図６の（ｂ）を参照すると、一実施形態に係るアイテム分類装置は各単語のサブワードを抽出し、サブワードに関する機械学習を通じて各サブワードに対応するサブワードベクトルを生成することができる。また、各サブワードに関するベクトルを合わせることによって各単語のベクトルを生成することができる。その後、各単語のベクトルを利用して図６の（ｂ）に図示された単語エンベッディングベクトルテーブルを生成することができる。一方、各単語のベクトルはサブワードベクトルの和だけでなく、平均に基づいて生成され得るが、これに制限されない。

一方、サブワードベクトルを利用して各単語のベクトルを生成する場合、入力されたアイテム情報に誤記が含まれていてもアイテムの分類性能が維持され得る効果がある。

その後、図６の（ｃ）を参照すると、アイテム分類装置は各単語に対応する単語ベクトルを合わせたり平均を計算することによって、アイテムに関する情報と対応する文章ベクトル（ｓｅｎｔｅｎｃｅｖｅｃｔｏｒ）を生成することができる。この時、文章ベクトルのエンベッディング次元は各単語ベクトルのエンベッディング次元と同一である。すなわち、文章ベクトルの長さと各単語ベクトルの長さは同一である。

ここで、サブワードの字数および種類はこれに制限されず、システム設計の要求事項によって変わり得ることは該当技術分野の通常の技術者に自明である。

一方、一実施形態に係るアイテム分類装置はアイテムを分類する時、アイテムに関する情報に含まれた単語ごとに加重値を割り当ててベクトルを生成することができる。

例えば、第１アイテムに関する情報は［ＧＬＯＢＥ、ＶＡＬＶＥ、ＳＩＺＥ、１－１／２”、ＦＣ－２０、Ｐ／Ｎ：１００、ＪＩＳ］であり得、第２アイテムに関する情報は［ＧＬＯＶＥ、ＶＡＬＶ、ＳＩＺＥ、１－１／３”、ＦＣ２０、Ｐ／Ｎ：１１０、ＪＩＳ］であり得る。この時、アイテムに関する情報に含まれた属性項目のうち、サイズおよびパートナンバーに関する単語に加重値を割り当ててアイテムに関する情報に対応するベクトルを生成するのであれば、サイズおよびパートナンバーに異なる二つのアイテムに関する情報の類似度は低くなり得る。また、加重値が比較的低い項目の誤記および特殊文字などの脱落によりアイテムに関する情報に対応するベクトルが互いに異なる場合、二つのアイテムに関する情報は比較的類似度が高くてもよい。一方、実施形態で加重値が適用される文字はアイテムの種類によって異なるように設定され得る。一例として、同一の品目名を有するが属性値により異なるアイテムに分類されなければならないアイテムに対しては、該当属性値に高い加重値を割り当ててこれに基づいて類似度を判断することができる。また、学習モデルでこのような高い加重値を割り当てなければならない属性値を把握することができ、分類データに基づいて同一名称を有するアイテムが互いに異なる属性情報を有する場合、このような属性情報に高い加重値を割り当てることができる。

したがって、一実施形態に係るアイテム管理システムは、アイテムに関する情報に含まれた属性ごとに加重値を割り当てた後にベクトルを生成することによって、アイテムの分類性能をさらに向上させることができる効果がある。

図７は、一実施形態によりアイテム分類を遂行する前にアイテムに関する情報を前処理する方法を説明するための図面である。

一実施形態によると、アイテムに関する情報を前処理するために、特殊文字や属性の区分に使われない分かち書きなどのような類似度分析に関わらない文字を除去したり、英文の場合、文字をすべて大文字に置き換えることができる。一方、アイテムに関する情報に含まれた各属性情報は区分子で分類されたものであり得、区分子なしに連続した文字で構成され得る。もし、アイテムに関する情報に含まれた各属性項目が区分されずに連続した文字で入力された場合、前処理なしでは各属性項目の識別が困難であり得る。このような場合、一実施形態に係るアイテム分類装置はアイテム分類を遂行する前にアイテムに関する情報を前処理することができる。

具体的には、一実施形態に係るアイテム分類装置は、アイテムに関する情報間の類似度を計算する前に機械学習を通じてアイテムに関する情報に含まれたそれぞれの単語を識別するための前処理を遂行できる。

図７を参照すると、アイテムに関する情報が連続した文字列７１０で入力された場合、一実施形態に係るアイテム分類装置は空白または特定文字を基準として、連続した文字列７１０内の文字をタギング（ｔａｇｇｉｎｇ）のための単位として分類することができる。ここで、タギングのための単位の文字列７２０は、トークン化単位の文字列７４０より長さが小さい文字列と定義され、開始（ＢＥＧＩＮ＿）、連続（ＩＮＮＥＲ＿）および終了（Ｏ）タグを追加する単位を意味する。

その後、アイテム分類装置は各タギングのための単位の文字列７２０ごとに機械学習アルゴリズム７３０を利用してタグを追加することができる。例えば、図７のＧＬＯＢＥにはＢＥＧＩＮ＿タグが追加され得、／にはＩＮＮＥＲ＿タグが追加され得る。

一方、アイテム分類装置は開始（ＢＥＧＩＮ＿）タグが追加されたトークンから終了（Ｏ）タグが追加されたトークンまでを一つの単語として認識することができ、または開始（ＢＥＧＩＮ＿）タグが追加されたトークンから次の開始（ＢＥＧＩＮ＿）タグが追加されたトークンの前のトークンまでを一つの単語として認識することができる。したがって、アイテム分類装置は連続した文字列７１０からトークン化単位の文字列７４０を認識できることになる。

したがって、アイテム分類装置は図７に開示された方法により、アイテムに関する情報に含まれた各トークンを識別した後、アイテムに関する情報を分類することができる。

図８は、一実施形態によりアイテム分類に関連した学習モデルを生成する時に調整され得るパラメータを説明するための図面である。

一方、一実施形態によりアイテムを分類する方法は、パラメータを調整することによって性能を改善することができる。図８を参照すると、アイテムを分類する方法は、システム設計の要求事項により第１パラメータ（ｄｅｌｉｍｉｔｗａｙ）～第１１パラメータ（ｍａｘｎｇｒａｍｓ）等を調整することができる。このうち、一実施形態に係るアイテムを分類する方法では第５パラメータ（ｗｉｎｄｏｗ）～第１１パラメータ（ｍａｘｎｇｒａｍｓ）が比較的頻繁に調整され得る。

例えば、第１０パラメータ（ｍｉｎｎｇｒａｍｓ）が２であり、第１１パラメータ（ｍａｘｎｇｒａｍｓ）が５である場合、一つの単語を２字、３字、４字、５字単位で分けて学習後にベクトル化することを意味し得る。

一方、アイテムに関する情報を分類する方法のために調整され得るパラメータは図８に制限されず、システム設計の要求事項によって変わり得ることは該当技術分野の通常の技術者に自明である。

一方、実施形態で学習モデルを生成した後、これを通じてアイテムに関するデータを処理した結果の正確度が落ちる場合、このようなパラメータのうち少なくとも一つを調節して学習モデルを新しく生成したり追加学習を遂行できる。図８の説明に対応して、パラメータのうち少なくとも一つを遂行して学習モデルをアップデートしたり新しく生成することができる。例えば、類似度基準を満足する少なくとも一つのアイテムに関する情報を提供する時、類似度基準を満足するアイテムが多数確認される場合、複数の属性それぞれに適用される加重値を修正する必要性がある。一実施形態によると、どの属性にどのような加重値を与えるかは予め設定（Ｃｏｎｆｉｇｕｒａｔｉｏｎ）で指定することができ、加重値の大きさはアイテム情報による属性個数の区間によって異なるように指定することができる。例えば、サイズに関する属性個数が多いほどサイズ属性に対する加重値を高く指定することができる。この場合、加重値に関連したパラメータのうち少なくとも一つを修正して学習モデルを再構成することができる。

図９～図１１は、一実施形態によりアイテムの類似度結果を説明するための図面である。

一実施形態に係るアイテムを分類する装置は、アイテムに関する情報に含まれた属性ごとに加重値を割り当てた後にベクトルを生成し、これに基づいて類似度を計算することができる。この時、二つのアイテムに関する情報に含まれた属性情報のうち、比較的大きい値の加重値が適用された属性項目の値が異なると、二つのアイテムに関する情報の類似度が低くなり得る。その反対に、比較的大きい値の加重値が適用された属性項目の値が同じであれば、二つのアイテムに関する情報の類似度が高くなり得る。

図９の（ａ）は各属性項目に加重値を反映していない場合の第１アイテムに関する情報と第２アイテムに関する情報の類似度を計算した結果を図示したものであり、図９の（ｂ）および（ｃ）はパートナンバー（Ｐ／Ｎ）およびシリアルナンバー（Ｓ／Ｎ）項目に加重値を割り当てた後、第１アイテムに関する情報と第２アイテムに関する情報の類似度を計算した結果を図示したものである。また、図９の（ｂ）のパートナンバー（Ｐ／Ｎ）およびシリアルナンバー（Ｓ／Ｎ）項目に割り当てられた加重値より、図９の（ｂ）のパートナンバー（Ｐ／Ｎ）およびシリアルナンバー（Ｓ／Ｎ）項目に割り当てられた加重値がより大きな値である。

まず、加重値が割り当てられたパートナンバー（Ｐ／Ｎ）が異なるため、図９の（ａ）と比較して図９の（ｂ）および（ｃ）の類似度結果が低くなったことを確認することができる。また、図９の（ｂ）のパートナンバー（Ｐ／Ｎ）に割り当てられた加重値より図９の（ｃ）のパートナンバー（Ｐ／Ｎ）に割り当てられた加重値がより大きいため、図９の（ｃ）の全体類似度結果が比較的より低いことを確認することができる。

一実施形態に係るアイテム分類装置によって計算された類似度結果は、アイテムに関する情報に含まれた属性項目が多いほど、加重値の影響が減少し得る。したがって、一実施形態に係るアイテム分類装置はアイテムに関する情報に含まれた属性項目が多いほど、該当アイテムに関する情報に含まれた一部の属性項目により大きい加重値を割り当てることができる。

一方、図１０の（ａ）および（ｂ）を参照すると、特殊記号の後に表示された属性項目（ＯＴＯＳ）に加重値が割り当てられたことを確認することができる。この時、第１アイテムに関する情報および第２アイテムに関する情報に含まれた属性項目の数が２個であり、これは比較的少ない数であるので、類似度結果は加重値が割り当てられた属性項目の同一の有無により大きく変わり得る。一方、図１０の（ｂ）は加重値が割り当てられた属性が同一の第１アイテムに関する情報と第２アイテムに関する情報の類似度を図示したものであり、類似度結果は加重値を割り当てていない場合に比べて大きく増加し得る。

図１１の（ａ）および（ｂ）を参照すると、特殊記号の後に表示された大きさ（ｓｉｚｅ）およびパートナンバー（Ｐ／Ｎ）属性に加重値が割り当てられたことを確認することができる。この時、第１アイテムに関する情報および第２アイテムに関する情報が、加重値が割り当てられていない素材（ｍａｔｅｒｉａｌ）属性項目が異なる場合、二つの情報間の類似度は加重値を割り当てていない場合に比べて増加し得る。

図１２は、一実施形態により類似アイテムに関する情報を提供する方法を説明するための図面である。

一実施形態によると、類似アイテム情報提供装置は学習モデルを使って対象アイテムに関する情報に対応する文字列に基づいて対象ベクトルを生成することができる。そして、既存に学習モデルを通じて導き出された複数のアイテムにそれぞれ対応するベクトルセットを生成された対象ベクトルと比較して、ベクトルセットのうち類似度値が臨界値以上であるベクトルに対応する少なくとも一つのアイテムに関する情報を提供することができる。または、ベクトルセットのうち類似度値が臨界値以上であるベクトルに対応する少なくとも一つのアイテムに関する情報を一定の品目数以下で提供することができる。この時、類似度値が臨界値以上であるベクトルに対応するアイテムに関する情報が、予め設定された品目数以上である場合、類似度値が高い順で対応するアイテムに関する情報を一定の品目数だけ提供することができる。例えば、ベクトルセットのうち対象アイテムに関する情報に対応するベクトルとの類似度値が９０％以上であるベクトルに対応するアイテム情報を、上位５個だけ提供することができる。

万一、ベクトルセットのうち類似度値が臨界値以上であるベクトルに対応するアイテムに関する情報が予め設定された品目数未満である場合、確認されたアイテム情報のみを提供したり、臨界値を調整することができる。例えば、ベクトルセットのうち対象アイテムに関する情報に対応するベクトルとの類似度値が９０％以上であるベクトルに対応するアイテム情報が５個より少ない、例えば３個であるとき、確認された３個のアイテム情報のみを提供したり、臨界値を８５％に調整して類似度値が８５％以上であるベクトルに対応するアイテム情報を上位５個だけ提供することができる。このような類似度臨界値と提供を受けることができる品目数はユーザーが設定したりシステムで設定され得る。

図１２では、ユーザーが類似度臨界値と提供を受けようとする品目数を指定している。例えば、ユーザーは最大類似品目数を５個に設定し、９０％以上の類似度値を有するアイテム情報の提供を受けようとする。

このような設定値に基づいて、類似度値が９０％以上であるベクトルに対応するアイテム情報のうち上位５個のアイテム情報が露出され得る。図１２では類似度値が１００％である、すなわち対象アイテムとベクトルが同一のアイテムに関する情報が３個提供されており、その下に類似度の高い順でそれぞれ９０．３８％および９０．２１％の類似度値を有するベクトルに対応するアイテムに関する情報が提供されている。

一方、類似度値が臨界値以上であるベクトルに対応するアイテムに関する情報が一定数以上確認され得る。この場合、加重値適用基準を修正して品目のベクトル値を再構成することによって類似度比較結果に影響を与えることができる。例えば、類似度値が９０％以上であるベクトルに対応するアイテム情報が１００個以上確認される場合、特定属性情報に対する加重値を低くしたり高めることによって品目のベクトル値を再構成することができる。一例として、類似度値が９０％以上であるベクトルに対応するアイテム情報が１５個以下に導き出されるように加重値適用基準を修正することができる。

一実施形態によると、少なくとも一つのアイテムに関する情報はそれぞれ対応する類似度および認識コードを含む。例えば、図１２で類似アイテムに関する情報が提供されながら各アイテムに対応する類似度と品目コードが共に提供され得る。

また、提供されるアイテムに関する情報として、アイテムの品目コードと品目名、アイテム分類情報（大分類、中分類、小分類）、規格、提供単位などが含まれ得る。このうち、品目名とアイテム分類情報は図２に関連して説明されたアイテムに関する必須属性に関する情報であり得る。一実施形態によると、類似アイテムに関する情報は対象アイテムの分類情報に基づいて検索され得るが、分類が異なるアイテム間にも類似度を比較することができる。

一方、類似度値が臨界値以上であるベクトルのうち、類似度値が同一のベクトルの中で各アイテムに関する情報による品目コードが異なるアイテムに関する情報が複数個あり得る。すなわち、類似度は同一であるものの、品目コードが異なるアイテム情報が複数個確認され得る。この場合、同じ文字列を有するアイテム情報に対して異なる品目コードが割り当てられたものであるので、異なる品目コードをこれ以上使用できないように処理する必要性がある。このために、アイテムの過去使用履歴を参照して特定品目コードを使用中止処理することができる。この場合、使用中止される品目コードも過去使用履歴などにより実績に集計され得るため、同一のアイテムの品目コードのうち引き続き使用可能な品目コードを代替コードに指定して実績の集計時に脱落しないようにすることができる。

例えば、図１２で類似度値が１００％である上位３つのアイテム情報に対して品目コードがそれぞれ異なり得る。この場合、品目名、分類、規格などのアイテムに関する属性情報が同一であるにも関わらず品目コードが異なる場合であるので、一部の品目コードを使用中止処理する必要性がある。これに伴い、類似アイテム情報提供装置は結果値に基づいてアイテムに関する情報を修正することができる。

一方、類似度値が臨界値以上であるベクトルに対応するアイテムに関する情報が一個も確認されないこともある。この場合、提供できるアイテム情報がないので臨界値変更に対する入力を受信することができる。一実施形態によると、臨界値変更にもかかわらず、類似アイテムが一個も検索されない場合には該当アイテムが既存に保有中であったデータと一致しない新しいアイテムとみなし、アイテムに関する情報を登録する手続きに進行することができる。

図１３は、一実施形態に係る機械学習基盤類似アイテムに関する情報を提供する方法を説明するためのフローチャートである。

段階Ｓ１３１０で、一実施形態に係る方法は対象アイテムに関する情報を受信することができる。対象アイテムに関する情報は既存に受信したり保存された記録がない新しいアイテムデータを意味し得る。ここで、対象アイテムに関する情報は対象アイテムに関する複数の属性に関する情報を含むことができる。または対象アイテムに関する情報は対象アイテムに関する必須属性に関する情報および対象アイテムに関する選択属性に関する情報を含むことができる。一方、段階Ｓ１３１０で対象アイテムに関する情報を受信しながら、受信された対象アイテムに関する情報のうち類似度分析に関わらない文字を除去して前処理を遂行できる。この時、対象アイテムに関する情報に対応する文字列は前処理の遂行結果によって導き出された情報に基づいて生成され得る。

段階Ｓ１３２０で、一実施形態に係る方法は機械学習モデルを使って対象アイテムに関する情報に対応する文字列に基づいて対象ベクトルを生成することができる。一実施形態によると、文字列は学習モデルによる順序に基づいて複数の属性に関する情報のうち少なくとも一部が連接して生成され得る。または文字列は選択属性に関する情報のうち少なくとも一部および必須属性に関する情報を学習モデルによる順序によって連接して生成され得る。この時、文字列内のそれぞれの属性情報の間に区分子が含まれ得る。一方、対象アイテムに関する情報で学習モデルによる順序のうち特定の順序に関する情報が入力されていない場合、文字列は特定の順序に空白に対応する文字が含まれて生成され得る。空白に対応する文字は予め設定された文字であり得、一例として「０」であり得、このように文字列を構成し、入力されていない文字に対しては別途に考慮することなく類似度の判断を遂行できる。

一実施形態によると、対象ベクトルを生成するために、機械学習モデルを使って文字列に含まれるそれぞれの複数の属性に関する情報より長さが短いサブワードに対応するサブワードベクトルを生成することができる。そして、生成されたサブワードベクトルに基づいて、それぞれの複数の属性に関する情報に対応する単語ベクトルおよび対象アイテムに関する情報に対応する文章ベクトルを生成することができる。ここで、単語ベクトルはサブワードベクトルの和または平均のうち少なくとも一つに基づいて生成され得る。実施形態でベクトルの和または平均を遂行する時、各ベクトルに加重値を適用してもよく、適用される加重値は学習結果やユーザー入力によって変わり得、適用対象ベクトルも変わり得る。

一方、段階Ｓ１３２０以前に複数の属性に関する情報のそれぞれに対して加重値を割り当てる段階を含むことができ、この時、文章ベクトルは加重値によって変わり得る。また、加重値はアイテムに関する情報に含まれた属性項目の数によって変わり得る。

段階Ｓ１３３０で、一実施形態に係る方法は機械学習モデルを通じて導き出された複数のアイテムのそれぞれに対応する少なくとも一つのベクトルセットを確認することができる。この時のベクトルセットは全体品目マスターに対して機械学習を通じて生成されたベクトルの集合であり得る。

段階Ｓ１３４０で、一実施形態に係る方法は少なくとも一つのベクトルセットで生成された対象ベクトルと類似度値が予め設定された臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報を提供することができる。換言すると、対象アイテムの対象ベクトルとベクトルセットに含まれたベクトルを比較して、類似度値が予め設定された臨界値以上である少なくとも一つのベクトルに対して対応する少なくとも一つのアイテム情報を対象アイテムに関する類似アイテム情報として提供することができる。少なくとも一つのアイテムに関する情報はそれぞれ対応する類似度および認識コードを含むことができる。

一実施形態によると、少なくとも一つのアイテムに関する情報のうち、類似度値が予め設定された臨界値以上であるベクトルに対応するアイテムに関する情報を予め設定された品目数以下で提供することができる。この時、類似度値が予め設定された臨界値以上であるベクトルに対応するアイテムに関する情報が予め設定された品目数以上である場合、類似度値が高い順で対応するアイテムに関する情報を予め設定された品目数だけ提供することができる。

一方、類似度値が予め設定された臨界値以上であるベクトルのうち、類似度値が同一のベクトルに対応し、各アイテムに関する情報による認識コードが異なるアイテムに関する情報が複数個確認され得る。この場合、複数のアイテムに関する情報のそれぞれの認識コードを修正してデータベースに保存することができる。

または段階Ｓ１３４０で類似度値が予め設定された臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報が予め設定された数以上確認される場合、加重値を修正することができる。すなわち、類似度値が特定値以上のベクトルに対応するアイテム情報が多数確認される場合、加重値を修正することができる。そして修正された加重値を利用して機械学習モデルを再構成することができる。

図１４は、一実施形態に係る機械学習基盤類似アイテムに関する情報を提供する装置を説明するためのブロック図である。本開示の類似アイテム情報提供装置１４００は前述したアイテム分類装置を包括する装置であり、アイテム分類装置の動作を遂行できる。

類似アイテム情報提供装置１４００は一実施形態により、メモリ（ｍｅｍｏｒｙ）１４１０およびプロセッサ（ｐｒｏｃｅｓｓｏｒ）１４２０を含むことができる。図１４に図示された類似アイテム情報提供装置１４００は、本実施形態に関連した構成要素のみが図示されている。したがって、図１４に図示された構成要素の他に別の汎用的な構成要素がさらに含まれ得ることを本実施形態に関連した技術分野で通常の知識を有する者であれば理解することができる。

メモリ１４１０は類似アイテム情報提供装置１４００内で処理される各種データを保存するハードウェアであり、例えば、メモリ１４１０は類似アイテム情報提供装置１４００で処理されたデータおよび処理されるデータを保存することができる。メモリ１４１０はプロセッサ１４２０の動作のための少なくとも一つの命令語（ｉｎｓｔｒｕｃｔｉｏｎ）を保存することができる。また、メモリ１４１０は類似アイテム情報提供装置１４００により駆動されるプログラムまたはアプリケーションなどを保存することができる。メモリ１４１０はＤＲＡＭ（ｄｙｎａｍｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＳＲＡＭ（ｓｔａｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）などのようなＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）、ＥＥＰＲＯＭ（ｅｌｅｃｔｒｉｃａｌｌｙｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）、ＣＤ－ＲＯＭ、ブルーレイまたは他の光学ディスクストレージ、ＨＤＤ（ｈａｒｄｄｉｓｋｄｒｉｖｅ）、ＳＳＤ（ｓｏｌｉｄｓｔａｔｅｄｒｉｖｅ）、またはフラッシュメモリを含むことができる。

プロセッサ１４２０は類似アイテム情報提供装置１４００の全般の動作を制御し、データおよび信号を処理することができる。プロセッサ１４２０はメモリ１４１０に保存された少なくとも一つの命令語または少なくとも一つのプログラムを実行することによって、類似アイテム情報提供装置１４００を全般的に制御することができる。プロセッサ１４２０はＣＰＵ（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、ＧＰＵ（ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、ＡＰ（ａｐｐｌｉｃａｔｉｏｎｐｒｏｃｅｓｓｏｒ）等として具現され得るが、これに制限されない。

プロセッサ１４２０は対象アイテムに関する情報を受信することができる。対象アイテムに関する情報は既存に受信したり保存された記録がない新しいアイテムデータを意味し得る。ここで、対象アイテムに関する情報は対象アイテムに関する複数の属性に関する情報を含むことができる。または対象アイテムに関する情報は対象アイテムに関する必須属性に関する情報および対象アイテムに関する選択属性に関する情報を含むことができる。一方、プロセッサ１４２０が対象アイテムに関する情報を受信し、受信された対象アイテムに関する情報のうち類似度分析に関わらない文字を除去して前処理を遂行できる。この時、対象アイテムに関する情報に対応する文字列は前処理の遂行結果によって導き出された情報に基づいて生成され得る。

プロセッサ１４２０は機械学習モデルを使って対象アイテムに関する情報に対応する文字列に基づいて対象ベクトルを生成することができる。一実施形態によると、文字列は学習モデルによる順序に基づいて複数の属性に関する情報のうち少なくとも一部が連接して生成され得る。または文字列は選択属性に関する情報のうち少なくとも一部および必須属性に関する情報を学習モデルによる順序によって連接して生成され得る。この時、文字列内のそれぞれの属性情報の間に区分子が含まれ得る。一方、対象アイテムに関する情報で学習モデルによる順序のうち特定の順序に関する情報が入力されていない場合、文字列は特定の順序に空白に対応する文字が含まれて生成され得る。

一実施形態によると、プロセッサ１４２０は対象ベクトルを生成するために、機械学習モデルを使って文字列に含まれるそれぞれの複数の属性に関する情報より長さが短いサブワードに対応するサブワードベクトルを生成することができる。そして、生成されたサブワードベクトルに基づいて、それぞれの複数の属性に関する情報に対応する単語ベクトルおよび対象アイテムに関する情報に対応する文章ベクトルを生成することができる。ここで、単語ベクトルはサブワードベクトルの和または平均のうち少なくとも一つに基づいて生成され得る。実施形態でプロセッサ１４２０がベクトルの和または平均を遂行する時、各ベクトルに加重値を適用してもよく、適用される加重値は学習結果やユーザー入力によって変わり得、適用対象ベクトルも変わり得る。

一方、プロセッサ１４２０は複数の属性に関する情報のそれぞれに対して加重値を割り当てることができ、この時、文章ベクトルは加重値によって変わり得る。また、加重値はアイテムに関する情報に含まれた属性項目の数によって変わり得る。

プロセッサ１４２０は機械学習モデルを通じて導き出された複数のアイテムのそれぞれに対応する少なくとも一つのベクトルセットを確認することができる。この時のベクトルセットは全体品目マスターに対して機械学習を通じて生成されたベクトルの集合であり得る。

プロセッサ１４２０は少なくとも一つのベクトルセットで生成された対象ベクトルと類似度値が予め設定された臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報を提供することができる。換言すると、プロセッサ１４２０は対象アイテムの対象ベクトルとベクトルセットに含まれたベクトルを比較して、類似度値が予め設定された臨界値以上である少なくとも一つのベクトルに対して対応する少なくとも一つのアイテム情報を対象アイテムに関する類似アイテム情報として提供することができる。少なくとも一つのアイテムに関する情報はそれぞれ対応する類似度および認識コードを含むことができる。

一実施形態によると、プロセッサ１４２０は少なくとも一つのアイテムに関する情報のうち、類似度値が予め設定された臨界値以上であるベクトルに対応するアイテムに関する情報を予め設定された品目数以下で提供することができる。この時、類似度値が予め設定された臨界値以上であるベクトルに対応するアイテムに関する情報が予め設定された品目数以上である場合、プロセッサ１４２０は類似度値が高い順で対応するアイテムに関する情報を予め設定された品目数だけ提供することができる。

一方、類似度値が予め設定された臨界値以上であるベクトルのうち、類似度値が同一のベクトルに対応して各アイテムに関する情報による認識コードが異なるアイテムに関する情報が複数個確認され得る。この場合、プロセッサ１４２０は複数のアイテムに関する情報のそれぞれの認識コードを修正してデータベースに保存することができる。

または類似度値が予め設定された臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報が予め設定された数以上確認される場合、プロセッサ１４２０は加重値を修正することができる。すなわち、プロセッサ１４２０は類似度値が特定値以上のベクトルに対応するアイテム情報が多数確認される場合、加重値を修正することができる。そして修正された加重値を利用して機械学習モデルを再構成することができる。

前述した実施形態に係るプロセッサはプロセッサ、プログラムデータを保存し実行するメモリ、ディスクドライブのような永久保存部（ｐｅｒｍａｎｅｎｔｓｔｏｒａｇｅ）、外部装置と通信する通信ポート、タッチパネル、キー（ｋｅｙ）、ボタンなどのようなユーザインターフェース装置などを含むことができる。ソフトウェアモジュールまたはアルゴリズムで具現される方法は前記プロセッサ上で実行可能なコンピュータ読み取り可能なコードまたはプログラム命令であり、コンピュータ読み取り可能な記録媒体上に保存され得る。ここで、コンピュータ読み取り可能な記録媒体として、マグネチック保存媒体（例えば、ＲＯＭ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）、ＲＡＭ（ｒａｎｄｏｍ－Ａｃｃｅｓｓｍｅｍｏｒｙ）、フロッピーディスク、ハードディスクなど）および光学的読み取り媒体（例えば、シーディーロム（ＣＤ－ＲＯＭ）、ティブイディ（ＤＶＤ：ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ））等がある。コンピュータ読み取り可能な記録媒体はネットワークに連結されたコンピュータシステムに分散されて、分散方式でコンピュータが読み取り可能なコードが保存され実行され得る。媒体はコンピュータによって読み取り可能であり、メモリに保存され、プロセッサで実行され得る。

本実施形態は機能的なブロック構成および多様な処理段階で示され得る。このような機能ブロックは特定の機能を実行する多様な個数のハードウェアまたは／およびソフトウェア構成で具現され得る。例えば、実施形態は一つ以上のマイクロプロセッサの制御または他の制御装置によって多様な機能を実行できる、メモリ、プロセッシング、ロジック（ｌｏｇｉｃ）、ルックアップテーブル（ｌｏｏｋ－ｕｐｔａｂｌｅ）などのような直接回路構成を採用することができる。構成要素がソフトウェアプログラミングまたはソフトウェア要素で実行され得るのと同様に、本実施形態はデータ構造、プロセス、ルーチンまたは他のプログラミング構成の組み合わせで具現される多様なアルゴリズムを含み、Ｃ、Ｃ＋＋、ジャバ（Ｊａｖａ）、パイソン（Ｐｙｔｈｏｎ）などのようなプログラミングまたはスクリプト言語で具現され得る。しかし、このような言語は制限がなく、機械学習の実現に使われ得るプログラム言語は多様に使われ得る。機能的な側面は一つ以上のプロセッサで実行されるアルゴリズムで具現され得る。また、本実施形態は電子的な環境設定、信号処理、および／またはデータ処理などのために従来技術を採用することができる。「メカニズム」、「要素」、「手段」、「構成」のような用語は広く使われ得、機械的かつ物理的な構成で限定されるものではない。前記用語はプロセッサなどと連係してソフトウェアの一連の処理（ｒｏｕｔｉｎｅｓ）の意味を含むことができる。

前述した実施形態は一例示に過ぎず、後述する請求項の範囲内で他の実施形態が具現され得る。

Claims

対象アイテムに関する情報を受信する段階と、
機械学習モデルを使って対象アイテムに関する情報に対応する文字列に基づいて対象ベクトルを生成する段階と、
前記機械学習モデルを通じて導き出された複数のアイテムのそれぞれに対応する少なくとも一つのベクトルセットを確認する段階と、
前記少なくとも一つのベクトルセットで前記生成された対象ベクトルと類似度値が予め設定された臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報を提供する段階と、を含む、機械学習基盤類似アイテムに関する情報を提供する方法。
前記対象アイテムに関する情報を受信する段階は、
前記対象アイテムに関する複数の属性に関する情報を受信する段階を含み、
前記文字列は前記機械学習モデルによる順序に基づいて前記複数の属性に関する情報のうち少なくとも一部が連接して生成されることを特徴とする、請求項１に記載の機械学習基盤類似アイテムに関する情報を提供する方法。
前記対象アイテムに関する情報を受信する段階は、
前記対象アイテムに関する必須属性に関する情報および前記対象アイテムに関する選択属性に関する情報を受信する段階を含み、
前記文字列は、前記選択属性に関する情報のうち少なくとも一部および前記必須属性に関する情報が前記機械学習モデルによる順序によって連接して生成され、前記選択属性に関する情報のうち少なくとも一部および前記必須属性に関する情報のそれぞれの間に区分子が含まれることを特徴とする、請求項１に記載の機械学習基盤類似アイテムに関する情報を提供する方法。
前記対象アイテムに関する情報で前記機械学習モデルによる順序のうち特定の順序に関する情報が入力されていない場合、前記文字列は前記特定の順序に空白に対応する文字が含まれて生成されることを特徴とする、請求項３に記載の機械学習基盤類似アイテムに関する情報を提供する方法。
前記対象アイテムに関する情報を受信する段階は、
前記受信された対象アイテムに関する情報のうち類似度分析に関わらない文字を除去して前処理を遂行する段階を含み、
前記文字列は前記前処理の遂行結果によって導き出された情報に基づいて生成されることを特徴とする、請求項１に記載の機械学習基盤類似アイテムに関する情報を提供する方法。
前記少なくとも一つのアイテムに関する情報を提供する段階は、
前記少なくとも一つのアイテムに関する情報のうち類似度値が前記予め設定された臨界値以上であるベクトルに対応するアイテムに関する情報を予め設定された品目数以下で提供する段階を含む、請求項１に記載の機械学習基盤類似アイテムに関する情報を提供する方法。
類似度値が前記予め設定された臨界値以上であるベクトルに対応するアイテムに関する情報が前記予め設定された品目数以上である場合、類似度値が高い順で対応するアイテムに関する情報を前記予め設定された品目数だけ提供する、請求項６に記載の機械学習基盤類似アイテムに関する情報を提供する方法。
類似度値が前記予め設定された臨界値以上であるベクトルのうち、類似度値が同一のベクトルに対応し、各アイテムに関する情報による認識コードが異なる複数のアイテムに関する情報が確認される場合、異なる認識コードのうち少なくとも一つの認識コードを使用中止処理する段階を含む、請求項６に記載の機械学習基盤類似アイテムに関する情報を提供する方法。
前記対象ベクトルを生成する段階は、
前記機械学習モデルを使って前記文字列に含まれるそれぞれの複数の属性に関する情報より長さが短いサブワードに対応するサブワードベクトルを生成する段階と、
前記サブワードベクトルに基づいて、前記それぞれの複数の属性に関する情報に対応する単語ベクトルおよび前記対象アイテムに関する情報に対応する文章ベクトルを生成する段階と、を含む、請求項１に記載の機械学習基盤類似アイテムに関する情報を提供する方法。
前記機械学習モデルを使う前に、前記複数の属性に関する情報のそれぞれに対して加重値を割り当てる段階を含み、
前記文章ベクトルは前記加重値により生成されるものである、請求項９に記載の機械学習基盤類似アイテムに関する情報を提供する方法。
前記少なくとも一つのアイテムに関する情報を提供する段階で、類似度値が前記予め設定された臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報が予め設定された数以上確認される場合、前記加重値を修正する段階と、
前記修正された加重値を利用して前記機械学習モデルを再構成する段階と、を含む、請求項１０に記載の機械学習基盤類似アイテムに関する情報を提供する方法。
前記少なくとも一つのアイテムに関する情報はそれぞれ対応する類似度値および認識コードを含む、請求項１に記載の機械学習基盤類似アイテムに関する情報を提供する方法。
少なくとも一つの命令語（ｉｎｓｔｒｕｃｔｉｏｎ）を保存するメモリ（ｍｅｍｏｒｙ）；および
前記少なくとも一つの命令語を実行して、
対象アイテムに関する情報を受信し、
機械学習モデルを使って対象アイテムに関する情報に対応する文字列に基づいて対象ベクトルを生成し、
前記機械学習モデルを通じて導き出された複数のアイテムのそれぞれに対応する少なくとも一つのベクトルセットを確認し、
前記少なくとも一つのベクトルセットで前記生成された対象ベクトルと類似度値が第１臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報を提供するプロセッサ（ｐｒｏｃｅｓｓｏｒ）を含む、機械学習基盤類似アイテムに関する情報を提供する装置。
機械学習基盤類似アイテムに関する情報を提供する方法をコンピュータで実行させるためのプログラムを記録したコンピュータ読み取り可能な非一過性の記録媒体であって、
前記機械学習基盤類似アイテムに関する情報を提供する方法は、
対象アイテムに関する情報を受信する段階と、
機械学習モデルを使って対象アイテムに関する情報に対応する文字列に基づいて対象ベクトルを生成する段階と、
前記機械学習モデルを通じて導き出された複数のアイテムのそれぞれに対応する少なくとも一つのベクトルセットを確認する段階と、
前記少なくとも一つのベクトルセットで前記生成された対象ベクトルと類似度値が第１臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報を提供する段階と、を含む、非一過性の記録媒体。