JP2022082523A - 機械学習基盤類似アイテムに関する情報を提供する方法および装置 - Google Patents

機械学習基盤類似アイテムに関する情報を提供する方法および装置 Download PDF

Info

Publication number
JP2022082523A
JP2022082523A JP2021189433A JP2021189433A JP2022082523A JP 2022082523 A JP2022082523 A JP 2022082523A JP 2021189433 A JP2021189433 A JP 2021189433A JP 2021189433 A JP2021189433 A JP 2021189433A JP 2022082523 A JP2022082523 A JP 2022082523A
Authority
JP
Japan
Prior art keywords
information
item
vector
machine learning
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021189433A
Other languages
English (en)
Other versions
JP7291419B2 (ja
Inventor
ジェ・ミン・ソン
Jae Min Song
クァン・ソプ・キム
Kwang Seob Kim
ホ・ジン・ファン
Ho Jin Hwang
ジョン・フィ・パク
Jong Hwi Park
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Emro Co Ltd
Original Assignee
Emro Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Emro Co Ltd filed Critical Emro Co Ltd
Publication of JP2022082523A publication Critical patent/JP2022082523A/ja
Application granted granted Critical
Publication of JP7291419B2 publication Critical patent/JP7291419B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0629Directed, with specific intent or strategy for generating comparisons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/087Inventory or stock management, e.g. order filling, procurement or balancing against orders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】機械学習基盤類似アイテムに関する情報を提供する方法および装置を提供する。【解決手段】対象アイテムに関する情報を受信する段階;機械学習モデルを使って対象アイテムに関する情報に対応する文字列に基づいて対象ベクトルを生成する段階;前記機械学習モデルを通じて導き出された複数のアイテムのそれぞれに対応する少なくとも一つのベクトルセットを確認する段階;および前記少なくとも一つのベクトルセットで前記生成された対象ベクトルと類似度値が予め設定された臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報を提供する段階を含む、機械学習基盤類似アイテムに関する情報を提供する方法を提供する。【選択図】図13

Description

本開示は機械学習基盤類似アイテムに関する情報を提供する方法および装置に関する。より具体的には、本開示は受信した対象アイテムに関する情報に対して機械学習を通じて生成された学習モデルを使って、類似するベクトル値を有する少なくとも一つのアイテムに関する情報を提供する方法およびこれを利用した装置に関する。
最近機械学習およびディープラーニング技術が発展するにつれ、機械学習およびディープラーニング基盤の自然語処理を通じて、膨大なテキストから意味のある情報を抽出して活用するための言語処理研究開発が活発に進行している。
先行技術文献:韓国公開特許10-2020-0103182号公報
先行技術文献はディープラーニング基盤類似商品提供方法について開示している。このように企業は入力データに対して類似する商品を提供するためにマシンラーニング技術を活用しているが、商品のイメージやキーワード抽出基盤の商品の推薦に止まっており、具体的な予測モデル生成方法や在庫管理に特化した類似アイテム提供方法については開示していない。
企業は業務の効率および生産性を向上させるために、企業で算出される各種情報を標準化して統合および管理することが要求される。特に、購入の重複を避け、保有中の類似アイテムの現況を確認するために、アイテムに関する情報を体系的に管理し、新規アイテムに対して類似アイテム情報を提供する方法およびシステムに関する必要性が存在する。
本明細書の実施形態は前述した問題点を解決するために提案されたものであり、機械学習モデルを使って複数のアイテムに関する文字列情報および対象アイテムに関するテキスト情報に基づいてそれぞれベクトルセットを構成し、対象アイテムに関するベクトルと複数のアイテムに関するベクトルセットとの比較を通じて対象アイテムと類似アイテムに関する情報を提供することにある。
また、本明細書の実施形態はアイテムに関する属性に基づいて文字列を生成し、生成された文字列のベクトル情報に基づいて複数のアイテムを分類する方法および装置を提供することにある。
本実施形態が達成しようとする技術的課題は上記のような技術的課題に限定されず、以下の実施形態からさらに他の技術的課題が類推され得る。
前述した課題を達成するために、本明細書の一実施形態に係る機械学習基盤類似アイテムに関する情報を提供する方法は、対象アイテムに関する情報を受信する段階;機械学習モデルを使って対象アイテムに関する情報に対応する文字列に基づいて対象ベクトルを生成する段階;前記機械学習モデルを通じて導き出された複数のアイテムのそれぞれに対応する少なくとも一つのベクトルセットを確認する段階;および前記少なくとも一つのベクトルセットで前記生成された対象ベクトルと類似度値が第1臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報を提供する段階を含むことができる。
また、本明細書の一実施形態に係る機械学習基盤類似アイテムに関する情報を提供する装置は、少なくとも一つの命令語(instruction)を保存するメモリ(memory);および前記少なくとも一つの命令語を実行して対象アイテムに関する情報を受信し、機械学習モデルを使って対象アイテムに関する情報に対応する文字列に基づいて対象ベクトルを生成し、前記機械学習モデルを通じて導き出された複数のアイテムのそれぞれに対応する少なくとも一つのベクトルセットを確認し、前記少なくとも一つのベクトルセットで前記生成された対象ベクトルと類似度値が第1臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報を提供するプロセッサ(processor)を含むことができる。
また、本明細書の一実施形態に係る機械学習基盤類似アイテムに関する情報を提供する方法をコンピュータで実行させるためのプログラムを記録したコンピュータ読み取り可能な非一過性の記録媒体であって、前記機械学習基盤類似アイテムに関する情報を提供する方法は、対象アイテムに関する情報を受信する段階;機械学習モデルを使って対象アイテムに関する情報に対応する文字列に基づいて対象ベクトルを生成する段階;前記機械学習モデルを通じて導き出された複数のアイテムのそれぞれに対応する少なくとも一つのベクトルセットを確認する段階;および前記少なくとも一つのベクトルセットで前記生成された対象ベクトルと類似度値が第1臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報を提供する段階を含むことができる。
その他の実施形態の具体的な事項は詳細な説明および図面に含まれている。
本明細書の実施形態によると、既存に入力されたアイテム情報に基づいて、新しく入力されるアイテムの情報に基づいて既存に入力されたアイテムのうち類似するアイテムの情報を推薦することによって、一貫性のあるアイテムの在庫管理ができる効果がある。
また、本明細書の実施形態によると、新規アイテムに関する一部の属性に関する情報を選択的に入力する場合にも、入力された情報のうち一部の情報に基づいて既存に入力されたアイテムとの類似度を判断することによって入力効率性が高くなり得、類似する品目の数字が多い場合、入力されていない品目に関する情報を追加的に入力することによってより細密な在庫管理とともにユーザー便宜性が向上し得る。
また、本明細書の実施形態によると、複数の属性に関する情報それぞれに対して加重値を割り当てることができるため、一部の属性が重複するアイテムが多数ある場合でも異なる類似度結果を算出することができ、そのため、一部の属性が同一のアイテムに対しても異なるアイテム情報として区分して管理できる効果がある。
発明の効果は以上で言及した効果に制限されず、言及されていないさらに他の効果は特許請求の範囲の記載から当該技術分野の通常の技術者に明確に理解され得るであろう。
本発明の実施形態に係るアイテム管理システムを説明するための図面である。 一実施形態により対象アイテムに関する情報を入力する方法を説明するための図面である。 本発明の一実施形態に係るアイテムに関する情報を管理する方法を説明するための図面である。 一実施形態により、アイテムに関する情報に対してベクトル化を遂行する方法を説明するための図面である。 一実施形態により、アイテムに関する情報に対してベクトル化を遂行する方法を説明するための図面である。 一実施形態により、単語エンベッディングベクトルテーブルに含まれるベクトルを生成する方法を説明するための図面である。 一実施形態によりアイテム分類を遂行する前にアイテムに関する情報を前処理する方法を説明するための図面である。 一実施形態によりアイテム分類に関連した学習モデルを生成する時に調整され得るパラメータを説明するための図面である。 一実施形態によりアイテムの類似度結果を説明するための図面である。 一実施形態によりアイテムの類似度結果を説明するための図面である。 一実施形態によりアイテムの類似度結果を説明するための図面である。 一実施形態により類似アイテムに関する情報を提供する方法を説明するための図面である。 一実施形態に係る機械学習基盤類似アイテムに関する情報を提供する方法を説明するためのフローチャートである。 一実施形態に係る機械学習基盤類似アイテムに関する情報を提供する装置を説明するためのブロック図である。
実施形態で使われる用語は本開示での機能を考慮しつつ、可能な限り現在広く使われる一般的な用語を選択したが、これは当分野に従事する技術者の意図または判例、新しい技術の出現などによって変わり得る。また、特定の場合は出願人が任意に選定した用語もあり、この場合、該当する説明の部分で詳細にその意味を記載するであろう。したがって、本開示で使われる用語は単純な用語の名称ではなく、その用語が有する意味と本開示の全般にわたった内容に基づいて定義されるべきである。
明細書の全体において、或る部分が何らかの構成要素を「含む」とする時、これは特に反対の記載がない限り他の構成要素を除くものではなく他の構成要素をさらに含み得ることを意味する。
明細書全体で記載された「a、b、およびcのうち少なくとも一つ」の表現は、「a単独」、「b単独」、「c単独」、「aおよびb」、「aおよびc」、「bおよびc」、または「a、b、およびcすべて」を含むことができる。
以下では、添付した図面を参照して本開示の実施形態について、本開示が属する技術分野で通常の知識を有する者が容易に実施できるように詳細に説明する。しかし、本開示は多様な異なる形態として具現され得、ここで説明する実施形態に限定されない。
以下では、図面を参照して本開示の実施形態を詳細に説明する。
図1は、本発明の実施形態に係るアイテム管理システムを説明するための図面である。
本発明の一実施形態に係るアイテム管理システム100はアイテムに関する情報が受信されると、各アイテムに関する情報を統一された形式に加工し、別途のコードが割り当てられていないアイテムに対してコードを割り当てることができ、特定のアイテムに対して最も先に割り当てられるコードは代表コードであり得る。実施形態でアイテム情報は一般的な文字列を含むことができ、少なくとも一つの区分子を含む文字列であり得る。実施形態で区分子は空白および文章記号を含むことができ、これに制限されず、特定項目の間を区別できる文字を含むことができる。
図1を参照すると、アイテム管理システム100は複数の管理者111、112から購入アイテム情報を受信することができる。実施形態で購入アイテム情報は該当アイテムを購入するための購入要請であり得、この時、複数の管理者111、112から受信される購入アイテム情報は形式が異なり得るため、複数の購入要請の統合および管理が困難であり得る。
したがって、一実施形態に係るアイテム管理システム100は既存のアイテム情報に基づいて機械学習を遂行し、これを通じて生成された学習結果により複数の管理者111、112から受信された購入アイテム情報を一定の形式に加工し、保存することができる。
例えば、第1管理者111が提供したアイテム情報にはアイテムの具体的なモデル名(P000 903)および用途(PCBエッチング腐食用)のみが含まれているだけであり、アイテムの分類に必要な情報(大分類、中分類、小分類に関する情報)は含まれていないこともある。このような場合、アイテム管理システム100は機械学習結果に基づいて、第1管理者111が提供したアイテム情報を受信するとアイテムおよびアイテムの属性情報を分類し、分類結果を保存および出力することができる。
また、アイテム管理システム100は、第1管理者111が提供したアイテム情報に含まれた各属性項目の順序が第2管理者112が提供したアイテム情報に含まれた各属性項目の順序と異なっていても、各属性項目を識別して属性情報を分類および保存することができる。一方、実施形態で第1管理者111および第2管理者112は同一の管理者であり得る。また、同一のアイテムに関する情報を誤記や表示形態により異なるように記録した場合にも、学習モデルの学習結果により入力されたアイテム情報間の類似度を判断して、すでに入力されたアイテムとの類似度を判断したり新しい代表コードを割り当てるなどの動作を遂行できる。
したがって、一実施形態に係るアイテム管理システム100は各アイテムに関する情報の管理効率性を増大させることができる。
一方、図1のアイテム管理システム100はアイテム購入に関する情報の統合管理のためのものであることを前提として説明したが、アイテム管理システム100の用途はアイテム購入に限定されず、すでに入力されたアイテム情報に基づいて該当情報を再び分類することにも使われ得、本明細書の実施形態は複数のアイテムを統合および管理するすべてのシステムに適用され得ることは該当技術分野の通常の技術者に自明である。換言すると、アイテムの購入要請だけでなく既存に保存されたアイテム情報の加工にも本明細書の実施形態が活用され得ることは自明である。
図2は、一実施形態により対象アイテムに関する情報を入力する方法を説明するための図面である。
一実施形態に係るアイテムに関するシステムは、アイテムに関する情報をユーザーから入力を受けることができる。アイテムに関する情報は、アイテムに関する必須属性に関する情報およびアイテムに関する選択属性に関する情報を含むことができる。必須属性に関する情報は、複数のアイテムを分類するために最小限に必要な情報を含むことができる。例えば、必須属性に関する情報はアイテムの品目名とアイテム分類情報などを含むことができる。ここで、アイテム分類情報は該当アイテムが属する製品の種類であり、大分類、中分類および小分類に区分される情報であり得る。
図2で必須属性に関する情報のうち品目名210とアイテム分類情報220を図示した。一実施形態によると、必須属性に関する情報は必須的に入力されるように、選択属性に関する情報230とは異なって別途の標識が項目に追加され得る。例えば、図2では必須属性に関する情報が入力される項目の左側上段の角に色相が異なる標識を挿入して、該当項目が必須的に入力されなければならない項目であることを表記した。
一実施形態によると、選択属性に関する情報はアイテム分類において必ずしも要求される情報ではないものの、複数のアイテムをより細かく区分するのに役に立ち得る選択的な情報を含むことができる。例えば、選択属性に関する情報は、メーカー、モデル名、サイズ、強度、材料、容量、位置、タイプなどを含むことができる。選択属性に関する情報はアイテム分類情報によって異なって導き出され得る。例えば、アイテム分類情報のうち大分類が「機械」である場合、機械類型のアイテムが示し得る属性、例えば、材料、強度、容量、補助装備情報などを選択属性に関する情報として表すことができる。
図2で選択属性に関する情報230は必須属性に関する情報とは別途の領域に表示され得る。選択属性に関する情報230はすべて入力される必要はなく、ユーザーの望む項目に対して情報を入力することができる。例えば、図2で対象アイテムに関して、選択属性に関する情報230のうち、モデル名とアイテム加工(process)業者、メーカー、シリアルナンバーおよび装備番号に対する情報を入力することができる。
一実施形態によると、アイテムごとに固有の品目コードが付与され得る。品目コードはアイテムに関する情報に基づいてサーバーで自動的に付与する固有コードであり得る。または品目コードはアイテムに関する情報を入力する時にユーザーが指定して入力するコードであり得る。これに伴い、同一のアイテムではない限り、アイテム別に品目コードは異なり得る。
図3は、本発明の一実施形態に係るアイテムに関する情報を管理する方法を説明するための図面である。
一実施形態に係るアイテム管理システムは、アイテムに関する情報が受信されると、各属性項目に基づいて受信された情報から属性情報を分類することができる。ここで、アイテムに関する情報は複数の属性情報を含むことができ、属性情報は属性項目により分類され得る。より具体的には、アイテムに関する情報は複数の属性情報を含む文字列であり得、アイテム管理システムはアイテムに関する情報を分類して各属性に対応する情報を導き出すことができる。
図3の(a)を参照すると、アイテム管理システムは形式が互いに異なる複数のアイテムに関する情報を受信することができる。例えば、アイテム管理システムは複数のアイテムに関する情報を顧客のデータベースからクローリングしたりまたは受信することができ、ユーザーの入力から受信することができる。この時、アイテムに関する情報に含まれた属性(アイテム名または品目名、メーカー、OSなど)項目が識別されていない状態であり得る。
このような場合、一実施形態に係るアイテム管理システムは、機械学習を通じてアイテムに関する情報に含まれた各属性情報を分類することができる。例えば、図3の(a)に図示されたアイテム情報310は、図3の(b)のように、アイテム名を含む各種属性項目により属性情報を分類することができる。実施形態で管理システムは、学習モデルにより分類された各情報がどのような属性に該当するかを判断することができ、各属性に該当する値に基づいて一つのアイテムに関する文字列がどのアイテムに関するものであるかを確認し、同一の分類のアイテムに関する情報を確認してこのようなアイテムを一括的に管理できるようにする。
このようなアイテム管理システムにより、アイテムに関する情報から各属性に対応する情報を導き出してこれを分けて整理することができ、今後これと対応する文字列が入力される場合にも該当文字列を分析して対応する属性値を確認し、これを分類して保存することができる。
したがって、一実施形態に係るアイテム管理システムは、アイテムに関する情報を標準化し、主要属性情報を管理することができるため、類似するか重複するアイテムを分類することができ、データ整備の便宜性を増大させることができる効果がある。
一実施形態によると、アイテムに関する情報を図3の(a)のアイテム情報310のように文字列で受信する前に、アイテムに関する情報が図2のように属性情報に対する項目別に入力され得る。この場合、アイテム情報に対応する文字列で表すために、複数の属性に関する情報のうち少なくとも一部が連接して生成され得る。例えば、アイテムに関する情報が必須属性に関する情報および選択属性に関する情報として受信され得る。この場合、アイテム情報に対応する文字列は選択属性に関する情報のうち少なくとも一部および必須属性に関する情報が学習モデルによる順序によって連接して生成され得る。一実施形態によると、それぞれの属性情報の間に区分子(delimiter)が含まれて文字列が形成され得る。例えば、「|」、特殊文字、空白などの多様な形態の区分子を通じて属性情報を区分してアイテムに関する情報が単一の文字列で構成され得る。文字列は機械学習による学習モデルによる順序に基づいて生成されるが、このような学習モデルを生成する方法については下記の図4~8を通じて詳しく説明する。
図4および図5は、一実施形態により、アイテムに関する情報に対してベクトル化を遂行する方法を説明するための図面である。
本開示のアイテムを分類する装置はアイテム管理システムの一例であり得る。換言すると、本開示の一実施形態はアイテムに関する情報に基づいてアイテムを分類する装置であり得る。アイテム分類装置はアイテムに関する情報を単語単位でトークン化してベクトルを生成することができる。
一実施形態によると、アイテムに関する情報が文字列として表現される時に学習モデルによる順序により属性情報が連接して生成されるため、アイテムに関する情報がトークン化される順序は学習モデルによる順序に基づき得る。反面、アイテムに関する情報で学習モデルによる順序のうち特定の順序に関する情報が入力されていない場合、文字列は特定の順序に空白に対応する文字が含まれて生成され得る。例えば、受信していない属性情報に対しては文字列上で「0」からなる空白値で代替することができる。
図4の(a)を参照すると、アイテムに関する情報が[GLOBE VALVE.SIZE 1-1/2”.A-105.SCR’D.800#.JIS]である場合、アイテムに関する情報は各単語単位でトークン化され得、トークン化結果である[GLOBE、VALVE、SIZE、1-1/2”、A-105、SCR’D、800#、JIS]に基づいて単語辞書から各トークンに対応するインデックス番号を探すことができ、該当トークン化結果の単語辞書インデックス番号は[21、30、77、9、83、11、125、256、1024]であり得る。
単語辞書のインデックス番号は、全体学習データセットから抽出された単語をインデックス化した単語辞書に基づいてアイテム情報を単語のインデックス値として羅列した情報と定義され得る。また、単語辞書のインデックス番号は単語エンベッディングベクトルテーブル(word embedding vector table)で単語のベクトル値を探すためのキー(key)値として利用され得る。
ここで、実施形態で単語単位のトークン化は、分かち書きおよび文章記号のような区分子のうち少なくとも一つを基準として遂行され得る。トークン化が区分子のうち少なくとも一つを基準として遂行され得るため、空白文字で代替された属性値に対しても同様にトークン化が適用され得る。
一実施形態によると、アイテム情報に対応する文字列に対して類似度分析に関わらない文字を除去して前処理を遂行できる。例えば、特殊文字や属性の区分に使われない分かち書きなどを削除して文字列を構成することができる。またはアイテム情報に対応する文字列に対して英文の場合すべて大文字で置き換えることによって前処理を遂行できる。このような前処理過程を通じてアイテム情報に対するトークン化が役立つようになり得る。
このように分かち書きおよび文章記号のうち少なくとも一つを基準としてトークン化を遂行することができ、トークン化された単語は該当アイテムを示す情報を含むことができる。またはトークン化された単語は通常の辞書に記載された単語ではないか、アイテムを示すための情報を有する単語であり得るが、これに制限されず、トークン化された単語は実際の意味を有さない単語を含むことができる。
このために、アイテム分類装置は図4の(b)のような単語辞書を保存することができる。図4の(a)にGLOBEと対応するインデックス番号は図4の(b)に図示された通り、21であり得、これに伴いGLOBEに対応する単語辞書のインデックス番号として21が保存され得る。これと同様にVALVEの場合、30、SIZEの場合、77がインデックス番号として保存され得る。
一方、各単語に対応するベクトルは、アイテムに関する情報に含まれた各ワードとベクトルがマッピングされている単語エンベッディングベクトルテーブルに基づいて決定され得る。単語エンベッディングベクトルテーブルを生成するために、word2vecアルゴリズムが活用され得るが、ベクトルを生成する方法はこれに制限されない。word2vecアルゴリズムの中で、word2vec skip-gramアルゴリズムは文章(sentence)を構成する各単語を通じて周辺の各種単語を予測する技法である。例えば、word2vec skip-gramアルゴリズムのウインドウのサイズ(window size)が3であるとき、一つの単語が入力されると合計6個の単語が出力され得る。一方、実施形態でウインドウのサイズを異ならせて同一のアイテム情報に対して各種単位でベクトル値を生成することができ、生成されたベクトル値を考慮して学習を遂行してもよい。
単語エンベッディングベクトルテーブルは、図5の(a)のように、エンベッディング次元で表現された複数のベクトルで構成されたマトリックスの形態であり得る。また、単語エンベッディングベクトルテーブルの行の数は複数のアイテムに関する情報に含まれた単語の数と対応し得る。単語エンベッディングベクトルテーブルで該当単語のベクトル値を探すために単語のインデックス値を使うことができる。換言すると、ルックアップテーブルとして活用される単語エンベッディングベクトルテーブルのキー値が単語のインデックス値であり得る。一方、各アイテムのベクトルは図5の(b)のように図示され得る。
一方、単語単位でトークン化を遂行する時、単語エンベッディングベクトルテーブルに含まれていない単語が入力されると、対応するベクトルが存在しないためアイテムに関する情報に対応するベクトルの生成が困難であり得る。また、アイテムに関する情報に単語エンベッディングベクトルテーブルに存在しない単語が多数含まれる場合、アイテム分類性能が低下し得る。
したがって、一実施形態に係るアイテム管理システムは、アイテムに関する情報に含まれた各単語のサブワードを利用してアイテムに関する情報に関する単語エンベッディングベクトルテーブルを生成することができる。
図6は、一実施形態により、単語エンベッディングベクトルテーブルに含まれるベクトルを生成する方法を説明するための図面である。
図6の(a)を参照すると、単語単位でトークン化が遂行された後、各単語のサブワードに対応するサブワードベクトルが生成され得る。例えば、「GLOBE」単語に対して2-gramのサブワードが生成される場合、4個のサブワード(GL、LO、OB、BE)が生成され得、3-gramのサブワードが生成される場合、3個のサブワード(GLO、LOB、OBE)が生成され得る。そして、4-gramのサブワードが生成される場合、2個のサブワード(GLOB、LOBE)が生成され得る。
図6の(b)を参照すると、一実施形態に係るアイテム分類装置は各単語のサブワードを抽出し、サブワードに関する機械学習を通じて各サブワードに対応するサブワードベクトルを生成することができる。また、各サブワードに関するベクトルを合わせることによって各単語のベクトルを生成することができる。その後、各単語のベクトルを利用して図6の(b)に図示された単語エンベッディングベクトルテーブルを生成することができる。一方、各単語のベクトルはサブワードベクトルの和だけでなく、平均に基づいて生成され得るが、これに制限されない。
一方、サブワードベクトルを利用して各単語のベクトルを生成する場合、入力されたアイテム情報に誤記が含まれていてもアイテムの分類性能が維持され得る効果がある。
その後、図6の(c)を参照すると、アイテム分類装置は各単語に対応する単語ベクトルを合わせたり平均を計算することによって、アイテムに関する情報と対応する文章ベクトル(sentence vector)を生成することができる。この時、文章ベクトルのエンベッディング次元は各単語ベクトルのエンベッディング次元と同一である。すなわち、文章ベクトルの長さと各単語ベクトルの長さは同一である。
ここで、サブワードの字数および種類はこれに制限されず、システム設計の要求事項によって変わり得ることは該当技術分野の通常の技術者に自明である。
一方、一実施形態に係るアイテム分類装置はアイテムを分類する時、アイテムに関する情報に含まれた単語ごとに加重値を割り当ててベクトルを生成することができる。
例えば、第1アイテムに関する情報は[GLOBE、VALVE、SIZE、1-1/2”、FC-20、P/N:100、JIS]であり得、第2アイテムに関する情報は[GLOVE、VALV、SIZE、1-1/3”、FC20、P/N:110、JIS]であり得る。この時、アイテムに関する情報に含まれた属性項目のうち、サイズおよびパートナンバーに関する単語に加重値を割り当ててアイテムに関する情報に対応するベクトルを生成するのであれば、サイズおよびパートナンバーに異なる二つのアイテムに関する情報の類似度は低くなり得る。また、加重値が比較的低い項目の誤記および特殊文字などの脱落によりアイテムに関する情報に対応するベクトルが互いに異なる場合、二つのアイテムに関する情報は比較的類似度が高くてもよい。一方、実施形態で加重値が適用される文字はアイテムの種類によって異なるように設定され得る。一例として、同一の品目名を有するが属性値により異なるアイテムに分類されなければならないアイテムに対しては、該当属性値に高い加重値を割り当ててこれに基づいて類似度を判断することができる。また、学習モデルでこのような高い加重値を割り当てなければならない属性値を把握することができ、分類データに基づいて同一名称を有するアイテムが互いに異なる属性情報を有する場合、このような属性情報に高い加重値を割り当てることができる。
したがって、一実施形態に係るアイテム管理システムは、アイテムに関する情報に含まれた属性ごとに加重値を割り当てた後にベクトルを生成することによって、アイテムの分類性能をさらに向上させることができる効果がある。
図7は、一実施形態によりアイテム分類を遂行する前にアイテムに関する情報を前処理する方法を説明するための図面である。
一実施形態によると、アイテムに関する情報を前処理するために、特殊文字や属性の区分に使われない分かち書きなどのような類似度分析に関わらない文字を除去したり、英文の場合、文字をすべて大文字に置き換えることができる。一方、アイテムに関する情報に含まれた各属性情報は区分子で分類されたものであり得、区分子なしに連続した文字で構成され得る。もし、アイテムに関する情報に含まれた各属性項目が区分されずに連続した文字で入力された場合、前処理なしでは各属性項目の識別が困難であり得る。このような場合、一実施形態に係るアイテム分類装置はアイテム分類を遂行する前にアイテムに関する情報を前処理することができる。
具体的には、一実施形態に係るアイテム分類装置は、アイテムに関する情報間の類似度を計算する前に機械学習を通じてアイテムに関する情報に含まれたそれぞれの単語を識別するための前処理を遂行できる。
図7を参照すると、アイテムに関する情報が連続した文字列710で入力された場合、一実施形態に係るアイテム分類装置は空白または特定文字を基準として、連続した文字列710内の文字をタギング(tagging)のための単位として分類することができる。ここで、タギングのための単位の文字列720は、トークン化単位の文字列740より長さが小さい文字列と定義され、開始(BEGIN_)、連続(INNER_)および終了(O)タグを追加する単位を意味する。
その後、アイテム分類装置は各タギングのための単位の文字列720ごとに機械学習アルゴリズム730を利用してタグを追加することができる。例えば、図7のGLOBEにはBEGIN_タグが追加され得、/にはINNER_タグが追加され得る。
一方、アイテム分類装置は開始(BEGIN_)タグが追加されたトークンから終了(O)タグが追加されたトークンまでを一つの単語として認識することができ、または開始(BEGIN_)タグが追加されたトークンから次の開始(BEGIN_)タグが追加されたトークンの前のトークンまでを一つの単語として認識することができる。したがって、アイテム分類装置は連続した文字列710からトークン化単位の文字列740を認識できることになる。
したがって、アイテム分類装置は図7に開示された方法により、アイテムに関する情報に含まれた各トークンを識別した後、アイテムに関する情報を分類することができる。
図8は、一実施形態によりアイテム分類に関連した学習モデルを生成する時に調整され得るパラメータを説明するための図面である。
一方、一実施形態によりアイテムを分類する方法は、パラメータを調整することによって性能を改善することができる。図8を参照すると、アイテムを分類する方法は、システム設計の要求事項により第1パラメータ(delimit way)~第11パラメータ(max ngrams)等を調整することができる。このうち、一実施形態に係るアイテムを分類する方法では第5パラメータ(window)~第11パラメータ(max ngrams)が比較的頻繁に調整され得る。
例えば、第10パラメータ(min ngrams)が2であり、第11パラメータ(max ngrams)が5である場合、一つの単語を2字、3字、4字、5字単位で分けて学習後にベクトル化することを意味し得る。
一方、アイテムに関する情報を分類する方法のために調整され得るパラメータは図8に制限されず、システム設計の要求事項によって変わり得ることは該当技術分野の通常の技術者に自明である。
一方、実施形態で学習モデルを生成した後、これを通じてアイテムに関するデータを処理した結果の正確度が落ちる場合、このようなパラメータのうち少なくとも一つを調節して学習モデルを新しく生成したり追加学習を遂行できる。図8の説明に対応して、パラメータのうち少なくとも一つを遂行して学習モデルをアップデートしたり新しく生成することができる。例えば、類似度基準を満足する少なくとも一つのアイテムに関する情報を提供する時、類似度基準を満足するアイテムが多数確認される場合、複数の属性それぞれに適用される加重値を修正する必要性がある。一実施形態によると、どの属性にどのような加重値を与えるかは予め設定(Configuration)で指定することができ、加重値の大きさはアイテム情報による属性個数の区間によって異なるように指定することができる。例えば、サイズに関する属性個数が多いほどサイズ属性に対する加重値を高く指定することができる。この場合、加重値に関連したパラメータのうち少なくとも一つを修正して学習モデルを再構成することができる。
図9~図11は、一実施形態によりアイテムの類似度結果を説明するための図面である。
一実施形態に係るアイテムを分類する装置は、アイテムに関する情報に含まれた属性ごとに加重値を割り当てた後にベクトルを生成し、これに基づいて類似度を計算することができる。この時、二つのアイテムに関する情報に含まれた属性情報のうち、比較的大きい値の加重値が適用された属性項目の値が異なると、二つのアイテムに関する情報の類似度が低くなり得る。その反対に、比較的大きい値の加重値が適用された属性項目の値が同じであれば、二つのアイテムに関する情報の類似度が高くなり得る。
図9の(a)は各属性項目に加重値を反映していない場合の第1アイテムに関する情報と第2アイテムに関する情報の類似度を計算した結果を図示したものであり、図9の(b)および(c)はパートナンバー(P/N)およびシリアルナンバー(S/N)項目に加重値を割り当てた後、第1アイテムに関する情報と第2アイテムに関する情報の類似度を計算した結果を図示したものである。また、図9の(b)のパートナンバー(P/N)およびシリアルナンバー(S/N)項目に割り当てられた加重値より、図9の(b)のパートナンバー(P/N)およびシリアルナンバー(S/N)項目に割り当てられた加重値がより大きな値である。
まず、加重値が割り当てられたパートナンバー(P/N)が異なるため、図9の(a)と比較して図9の(b)および(c)の類似度結果が低くなったことを確認することができる。また、図9の(b)のパートナンバー(P/N)に割り当てられた加重値より図9の(c)のパートナンバー(P/N)に割り当てられた加重値がより大きいため、図9の(c)の全体類似度結果が比較的より低いことを確認することができる。
一実施形態に係るアイテム分類装置によって計算された類似度結果は、アイテムに関する情報に含まれた属性項目が多いほど、加重値の影響が減少し得る。したがって、一実施形態に係るアイテム分類装置はアイテムに関する情報に含まれた属性項目が多いほど、該当アイテムに関する情報に含まれた一部の属性項目により大きい加重値を割り当てることができる。
一方、図10の(a)および(b)を参照すると、特殊記号の後に表示された属性項目(OTOS)に加重値が割り当てられたことを確認することができる。この時、第1アイテムに関する情報および第2アイテムに関する情報に含まれた属性項目の数が2個であり、これは比較的少ない数であるので、類似度結果は加重値が割り当てられた属性項目の同一の有無により大きく変わり得る。一方、図10の(b)は加重値が割り当てられた属性が同一の第1アイテムに関する情報と第2アイテムに関する情報の類似度を図示したものであり、類似度結果は加重値を割り当てていない場合に比べて大きく増加し得る。
図11の(a)および(b)を参照すると、特殊記号の後に表示された大きさ(size)およびパートナンバー(P/N)属性に加重値が割り当てられたことを確認することができる。この時、第1アイテムに関する情報および第2アイテムに関する情報が、加重値が割り当てられていない素材(material)属性項目が異なる場合、二つの情報間の類似度は加重値を割り当てていない場合に比べて増加し得る。
図12は、一実施形態により類似アイテムに関する情報を提供する方法を説明するための図面である。
一実施形態によると、類似アイテム情報提供装置は学習モデルを使って対象アイテムに関する情報に対応する文字列に基づいて対象ベクトルを生成することができる。そして、既存に学習モデルを通じて導き出された複数のアイテムにそれぞれ対応するベクトルセットを生成された対象ベクトルと比較して、ベクトルセットのうち類似度値が臨界値以上であるベクトルに対応する少なくとも一つのアイテムに関する情報を提供することができる。または、ベクトルセットのうち類似度値が臨界値以上であるベクトルに対応する少なくとも一つのアイテムに関する情報を一定の品目数以下で提供することができる。この時、類似度値が臨界値以上であるベクトルに対応するアイテムに関する情報が、予め設定された品目数以上である場合、類似度値が高い順で対応するアイテムに関する情報を一定の品目数だけ提供することができる。例えば、ベクトルセットのうち対象アイテムに関する情報に対応するベクトルとの類似度値が90%以上であるベクトルに対応するアイテム情報を、上位5個だけ提供することができる。
万一、ベクトルセットのうち類似度値が臨界値以上であるベクトルに対応するアイテムに関する情報が予め設定された品目数未満である場合、確認されたアイテム情報のみを提供したり、臨界値を調整することができる。例えば、ベクトルセットのうち対象アイテムに関する情報に対応するベクトルとの類似度値が90%以上であるベクトルに対応するアイテム情報が5個より少ない、例えば3個であるとき、確認された3個のアイテム情報のみを提供したり、臨界値を85%に調整して類似度値が85%以上であるベクトルに対応するアイテム情報を上位5個だけ提供することができる。このような類似度臨界値と提供を受けることができる品目数はユーザーが設定したりシステムで設定され得る。
図12では、ユーザーが類似度臨界値と提供を受けようとする品目数を指定している。例えば、ユーザーは最大類似品目数を5個に設定し、90%以上の類似度値を有するアイテム情報の提供を受けようとする。
このような設定値に基づいて、類似度値が90%以上であるベクトルに対応するアイテム情報のうち上位5個のアイテム情報が露出され得る。図12では類似度値が100%である、すなわち対象アイテムとベクトルが同一のアイテムに関する情報が3個提供されており、その下に類似度の高い順でそれぞれ90.38%および90.21%の類似度値を有するベクトルに対応するアイテムに関する情報が提供されている。
一方、類似度値が臨界値以上であるベクトルに対応するアイテムに関する情報が一定数以上確認され得る。この場合、加重値適用基準を修正して品目のベクトル値を再構成することによって類似度比較結果に影響を与えることができる。例えば、類似度値が90%以上であるベクトルに対応するアイテム情報が100個以上確認される場合、特定属性情報に対する加重値を低くしたり高めることによって品目のベクトル値を再構成することができる。一例として、類似度値が90%以上であるベクトルに対応するアイテム情報が15個以下に導き出されるように加重値適用基準を修正することができる。
一実施形態によると、少なくとも一つのアイテムに関する情報はそれぞれ対応する類似度および認識コードを含む。例えば、図12で類似アイテムに関する情報が提供されながら各アイテムに対応する類似度と品目コードが共に提供され得る。
また、提供されるアイテムに関する情報として、アイテムの品目コードと品目名、アイテム分類情報(大分類、中分類、小分類)、規格、提供単位などが含まれ得る。このうち、品目名とアイテム分類情報は図2に関連して説明されたアイテムに関する必須属性に関する情報であり得る。一実施形態によると、類似アイテムに関する情報は対象アイテムの分類情報に基づいて検索され得るが、分類が異なるアイテム間にも類似度を比較することができる。
一方、類似度値が臨界値以上であるベクトルのうち、類似度値が同一のベクトルの中で各アイテムに関する情報による品目コードが異なるアイテムに関する情報が複数個あり得る。すなわち、類似度は同一であるものの、品目コードが異なるアイテム情報が複数個確認され得る。この場合、同じ文字列を有するアイテム情報に対して異なる品目コードが割り当てられたものであるので、異なる品目コードをこれ以上使用できないように処理する必要性がある。このために、アイテムの過去使用履歴を参照して特定品目コードを使用中止処理することができる。この場合、使用中止される品目コードも過去使用履歴などにより実績に集計され得るため、同一のアイテムの品目コードのうち引き続き使用可能な品目コードを代替コードに指定して実績の集計時に脱落しないようにすることができる。
例えば、図12で類似度値が100%である上位3つのアイテム情報に対して品目コードがそれぞれ異なり得る。この場合、品目名、分類、規格などのアイテムに関する属性情報が同一であるにも関わらず品目コードが異なる場合であるので、一部の品目コードを使用中止処理する必要性がある。これに伴い、類似アイテム情報提供装置は結果値に基づいてアイテムに関する情報を修正することができる。
一方、類似度値が臨界値以上であるベクトルに対応するアイテムに関する情報が一個も確認されないこともある。この場合、提供できるアイテム情報がないので臨界値変更に対する入力を受信することができる。一実施形態によると、臨界値変更にもかかわらず、類似アイテムが一個も検索されない場合には該当アイテムが既存に保有中であったデータと一致しない新しいアイテムとみなし、アイテムに関する情報を登録する手続きに進行することができる。
図13は、一実施形態に係る機械学習基盤類似アイテムに関する情報を提供する方法を説明するためのフローチャートである。
段階S1310で、一実施形態に係る方法は対象アイテムに関する情報を受信することができる。対象アイテムに関する情報は既存に受信したり保存された記録がない新しいアイテムデータを意味し得る。ここで、対象アイテムに関する情報は対象アイテムに関する複数の属性に関する情報を含むことができる。または対象アイテムに関する情報は対象アイテムに関する必須属性に関する情報および対象アイテムに関する選択属性に関する情報を含むことができる。一方、段階S1310で対象アイテムに関する情報を受信しながら、受信された対象アイテムに関する情報のうち類似度分析に関わらない文字を除去して前処理を遂行できる。この時、対象アイテムに関する情報に対応する文字列は前処理の遂行結果によって導き出された情報に基づいて生成され得る。
段階S1320で、一実施形態に係る方法は機械学習モデルを使って対象アイテムに関する情報に対応する文字列に基づいて対象ベクトルを生成することができる。一実施形態によると、文字列は学習モデルによる順序に基づいて複数の属性に関する情報のうち少なくとも一部が連接して生成され得る。または文字列は選択属性に関する情報のうち少なくとも一部および必須属性に関する情報を学習モデルによる順序によって連接して生成され得る。この時、文字列内のそれぞれの属性情報の間に区分子が含まれ得る。一方、対象アイテムに関する情報で学習モデルによる順序のうち特定の順序に関する情報が入力されていない場合、文字列は特定の順序に空白に対応する文字が含まれて生成され得る。空白に対応する文字は予め設定された文字であり得、一例として「0」であり得、このように文字列を構成し、入力されていない文字に対しては別途に考慮することなく類似度の判断を遂行できる。
一実施形態によると、対象ベクトルを生成するために、機械学習モデルを使って文字列に含まれるそれぞれの複数の属性に関する情報より長さが短いサブワードに対応するサブワードベクトルを生成することができる。そして、生成されたサブワードベクトルに基づいて、それぞれの複数の属性に関する情報に対応する単語ベクトルおよび対象アイテムに関する情報に対応する文章ベクトルを生成することができる。ここで、単語ベクトルはサブワードベクトルの和または平均のうち少なくとも一つに基づいて生成され得る。実施形態でベクトルの和または平均を遂行する時、各ベクトルに加重値を適用してもよく、適用される加重値は学習結果やユーザー入力によって変わり得、適用対象ベクトルも変わり得る。
一方、段階S1320以前に複数の属性に関する情報のそれぞれに対して加重値を割り当てる段階を含むことができ、この時、文章ベクトルは加重値によって変わり得る。また、加重値はアイテムに関する情報に含まれた属性項目の数によって変わり得る。
段階S1330で、一実施形態に係る方法は機械学習モデルを通じて導き出された複数のアイテムのそれぞれに対応する少なくとも一つのベクトルセットを確認することができる。この時のベクトルセットは全体品目マスターに対して機械学習を通じて生成されたベクトルの集合であり得る。
段階S1340で、一実施形態に係る方法は少なくとも一つのベクトルセットで生成された対象ベクトルと類似度値が予め設定された臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報を提供することができる。換言すると、対象アイテムの対象ベクトルとベクトルセットに含まれたベクトルを比較して、類似度値が予め設定された臨界値以上である少なくとも一つのベクトルに対して対応する少なくとも一つのアイテム情報を対象アイテムに関する類似アイテム情報として提供することができる。少なくとも一つのアイテムに関する情報はそれぞれ対応する類似度および認識コードを含むことができる。
一実施形態によると、少なくとも一つのアイテムに関する情報のうち、類似度値が予め設定された臨界値以上であるベクトルに対応するアイテムに関する情報を予め設定された品目数以下で提供することができる。この時、類似度値が予め設定された臨界値以上であるベクトルに対応するアイテムに関する情報が予め設定された品目数以上である場合、類似度値が高い順で対応するアイテムに関する情報を予め設定された品目数だけ提供することができる。
一方、類似度値が予め設定された臨界値以上であるベクトルのうち、類似度値が同一のベクトルに対応し、各アイテムに関する情報による認識コードが異なるアイテムに関する情報が複数個確認され得る。この場合、複数のアイテムに関する情報のそれぞれの認識コードを修正してデータベースに保存することができる。
または段階S1340で類似度値が予め設定された臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報が予め設定された数以上確認される場合、加重値を修正することができる。すなわち、類似度値が特定値以上のベクトルに対応するアイテム情報が多数確認される場合、加重値を修正することができる。そして修正された加重値を利用して機械学習モデルを再構成することができる。
図14は、一実施形態に係る機械学習基盤類似アイテムに関する情報を提供する装置を説明するためのブロック図である。本開示の類似アイテム情報提供装置1400は前述したアイテム分類装置を包括する装置であり、アイテム分類装置の動作を遂行できる。
類似アイテム情報提供装置1400は一実施形態により、メモリ(memory)1410およびプロセッサ(processor)1420を含むことができる。図14に図示された類似アイテム情報提供装置1400は、本実施形態に関連した構成要素のみが図示されている。したがって、図14に図示された構成要素の他に別の汎用的な構成要素がさらに含まれ得ることを本実施形態に関連した技術分野で通常の知識を有する者であれば理解することができる。
メモリ1410は類似アイテム情報提供装置1400内で処理される各種データを保存するハードウェアであり、例えば、メモリ1410は類似アイテム情報提供装置1400で処理されたデータおよび処理されるデータを保存することができる。メモリ1410はプロセッサ1420の動作のための少なくとも一つの命令語(instruction)を保存することができる。また、メモリ1410は類似アイテム情報提供装置1400により駆動されるプログラムまたはアプリケーションなどを保存することができる。メモリ1410はDRAM(dynamic random access memory)、SRAM(static random access memory)などのようなRAM(random access memory)、ROM(read-only memory)、EEPROM(electrically erasable programmable read-only memory)、CD-ROM、ブルーレイまたは他の光学ディスクストレージ、HDD(hard disk drive)、SSD(solid state drive)、またはフラッシュメモリを含むことができる。
プロセッサ1420は類似アイテム情報提供装置1400の全般の動作を制御し、データおよび信号を処理することができる。プロセッサ1420はメモリ1410に保存された少なくとも一つの命令語または少なくとも一つのプログラムを実行することによって、類似アイテム情報提供装置1400を全般的に制御することができる。プロセッサ1420はCPU(central processing unit)、GPU(graphics processing unit)、AP(application processor)等として具現され得るが、これに制限されない。
プロセッサ1420は対象アイテムに関する情報を受信することができる。対象アイテムに関する情報は既存に受信したり保存された記録がない新しいアイテムデータを意味し得る。ここで、対象アイテムに関する情報は対象アイテムに関する複数の属性に関する情報を含むことができる。または対象アイテムに関する情報は対象アイテムに関する必須属性に関する情報および対象アイテムに関する選択属性に関する情報を含むことができる。一方、プロセッサ1420が対象アイテムに関する情報を受信し、受信された対象アイテムに関する情報のうち類似度分析に関わらない文字を除去して前処理を遂行できる。この時、対象アイテムに関する情報に対応する文字列は前処理の遂行結果によって導き出された情報に基づいて生成され得る。
プロセッサ1420は機械学習モデルを使って対象アイテムに関する情報に対応する文字列に基づいて対象ベクトルを生成することができる。一実施形態によると、文字列は学習モデルによる順序に基づいて複数の属性に関する情報のうち少なくとも一部が連接して生成され得る。または文字列は選択属性に関する情報のうち少なくとも一部および必須属性に関する情報を学習モデルによる順序によって連接して生成され得る。この時、文字列内のそれぞれの属性情報の間に区分子が含まれ得る。一方、対象アイテムに関する情報で学習モデルによる順序のうち特定の順序に関する情報が入力されていない場合、文字列は特定の順序に空白に対応する文字が含まれて生成され得る。
一実施形態によると、プロセッサ1420は対象ベクトルを生成するために、機械学習モデルを使って文字列に含まれるそれぞれの複数の属性に関する情報より長さが短いサブワードに対応するサブワードベクトルを生成することができる。そして、生成されたサブワードベクトルに基づいて、それぞれの複数の属性に関する情報に対応する単語ベクトルおよび対象アイテムに関する情報に対応する文章ベクトルを生成することができる。ここで、単語ベクトルはサブワードベクトルの和または平均のうち少なくとも一つに基づいて生成され得る。実施形態でプロセッサ1420がベクトルの和または平均を遂行する時、各ベクトルに加重値を適用してもよく、適用される加重値は学習結果やユーザー入力によって変わり得、適用対象ベクトルも変わり得る。
一方、プロセッサ1420は複数の属性に関する情報のそれぞれに対して加重値を割り当てることができ、この時、文章ベクトルは加重値によって変わり得る。また、加重値はアイテムに関する情報に含まれた属性項目の数によって変わり得る。
プロセッサ1420は機械学習モデルを通じて導き出された複数のアイテムのそれぞれに対応する少なくとも一つのベクトルセットを確認することができる。この時のベクトルセットは全体品目マスターに対して機械学習を通じて生成されたベクトルの集合であり得る。
プロセッサ1420は少なくとも一つのベクトルセットで生成された対象ベクトルと類似度値が予め設定された臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報を提供することができる。換言すると、プロセッサ1420は対象アイテムの対象ベクトルとベクトルセットに含まれたベクトルを比較して、類似度値が予め設定された臨界値以上である少なくとも一つのベクトルに対して対応する少なくとも一つのアイテム情報を対象アイテムに関する類似アイテム情報として提供することができる。少なくとも一つのアイテムに関する情報はそれぞれ対応する類似度および認識コードを含むことができる。
一実施形態によると、プロセッサ1420は少なくとも一つのアイテムに関する情報のうち、類似度値が予め設定された臨界値以上であるベクトルに対応するアイテムに関する情報を予め設定された品目数以下で提供することができる。この時、類似度値が予め設定された臨界値以上であるベクトルに対応するアイテムに関する情報が予め設定された品目数以上である場合、プロセッサ1420は類似度値が高い順で対応するアイテムに関する情報を予め設定された品目数だけ提供することができる。
一方、類似度値が予め設定された臨界値以上であるベクトルのうち、類似度値が同一のベクトルに対応して各アイテムに関する情報による認識コードが異なるアイテムに関する情報が複数個確認され得る。この場合、プロセッサ1420は複数のアイテムに関する情報のそれぞれの認識コードを修正してデータベースに保存することができる。
または類似度値が予め設定された臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報が予め設定された数以上確認される場合、プロセッサ1420は加重値を修正することができる。すなわち、プロセッサ1420は類似度値が特定値以上のベクトルに対応するアイテム情報が多数確認される場合、加重値を修正することができる。そして修正された加重値を利用して機械学習モデルを再構成することができる。
前述した実施形態に係るプロセッサはプロセッサ、プログラムデータを保存し実行するメモリ、ディスクドライブのような永久保存部(permanent storage)、外部装置と通信する通信ポート、タッチパネル、キー(key)、ボタンなどのようなユーザインターフェース装置などを含むことができる。ソフトウェアモジュールまたはアルゴリズムで具現される方法は前記プロセッサ上で実行可能なコンピュータ読み取り可能なコードまたはプログラム命令であり、コンピュータ読み取り可能な記録媒体上に保存され得る。ここで、コンピュータ読み取り可能な記録媒体として、マグネチック保存媒体(例えば、ROM(read-only memory)、RAM(random-Access memory)、フロッピーディスク、ハードディスクなど)および光学的読み取り媒体(例えば、シーディーロム(CD-ROM)、ティブイディ(DVD:Digital Versatile Disc))等がある。コンピュータ読み取り可能な記録媒体はネットワークに連結されたコンピュータシステムに分散されて、分散方式でコンピュータが読み取り可能なコードが保存され実行され得る。媒体はコンピュータによって読み取り可能であり、メモリに保存され、プロセッサで実行され得る。
本実施形態は機能的なブロック構成および多様な処理段階で示され得る。このような機能ブロックは特定の機能を実行する多様な個数のハードウェアまたは/およびソフトウェア構成で具現され得る。例えば、実施形態は一つ以上のマイクロプロセッサの制御または他の制御装置によって多様な機能を実行できる、メモリ、プロセッシング、ロジック(logic)、ルックアップテーブル(look-up table)などのような直接回路構成を採用することができる。構成要素がソフトウェアプログラミングまたはソフトウェア要素で実行され得るのと同様に、本実施形態はデータ構造、プロセス、ルーチンまたは他のプログラミング構成の組み合わせで具現される多様なアルゴリズムを含み、C、C++、ジャバ(Java)、パイソン(Python)などのようなプログラミングまたはスクリプト言語で具現され得る。しかし、このような言語は制限がなく、機械学習の実現に使われ得るプログラム言語は多様に使われ得る。機能的な側面は一つ以上のプロセッサで実行されるアルゴリズムで具現され得る。また、本実施形態は電子的な環境設定、信号処理、および/またはデータ処理などのために従来技術を採用することができる。「メカニズム」、「要素」、「手段」、「構成」のような用語は広く使われ得、機械的かつ物理的な構成で限定されるものではない。前記用語はプロセッサなどと連係してソフトウェアの一連の処理(routines)の意味を含むことができる。
前述した実施形態は一例示に過ぎず、後述する請求項の範囲内で他の実施形態が具現され得る。

Claims (14)

  1. 対象アイテムに関する情報を受信する段階と、
    機械学習モデルを使って対象アイテムに関する情報に対応する文字列に基づいて対象ベクトルを生成する段階と、
    前記機械学習モデルを通じて導き出された複数のアイテムのそれぞれに対応する少なくとも一つのベクトルセットを確認する段階と、
    前記少なくとも一つのベクトルセットで前記生成された対象ベクトルと類似度値が予め設定された臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報を提供する段階と、を含む、機械学習基盤類似アイテムに関する情報を提供する方法。
  2. 前記対象アイテムに関する情報を受信する段階は、
    前記対象アイテムに関する複数の属性に関する情報を受信する段階を含み、
    前記文字列は前記機械学習モデルによる順序に基づいて前記複数の属性に関する情報のうち少なくとも一部が連接して生成されることを特徴とする、請求項1に記載の機械学習基盤類似アイテムに関する情報を提供する方法。
  3. 前記対象アイテムに関する情報を受信する段階は、
    前記対象アイテムに関する必須属性に関する情報および前記対象アイテムに関する選択属性に関する情報を受信する段階を含み、
    前記文字列は、前記選択属性に関する情報のうち少なくとも一部および前記必須属性に関する情報が前記機械学習モデルによる順序によって連接して生成され、前記選択属性に関する情報のうち少なくとも一部および前記必須属性に関する情報のそれぞれの間に区分子が含まれることを特徴とする、請求項1に記載の機械学習基盤類似アイテムに関する情報を提供する方法。
  4. 前記対象アイテムに関する情報で前記機械学習モデルによる順序のうち特定の順序に関する情報が入力されていない場合、前記文字列は前記特定の順序に空白に対応する文字が含まれて生成されることを特徴とする、請求項3に記載の機械学習基盤類似アイテムに関する情報を提供する方法。
  5. 前記対象アイテムに関する情報を受信する段階は、
    前記受信された対象アイテムに関する情報のうち類似度分析に関わらない文字を除去して前処理を遂行する段階を含み、
    前記文字列は前記前処理の遂行結果によって導き出された情報に基づいて生成されることを特徴とする、請求項1に記載の機械学習基盤類似アイテムに関する情報を提供する方法。
  6. 前記少なくとも一つのアイテムに関する情報を提供する段階は、
    前記少なくとも一つのアイテムに関する情報のうち類似度値が前記予め設定された臨界値以上であるベクトルに対応するアイテムに関する情報を予め設定された品目数以下で提供する段階を含む、請求項1に記載の機械学習基盤類似アイテムに関する情報を提供する方法。
  7. 類似度値が前記予め設定された臨界値以上であるベクトルに対応するアイテムに関する情報が前記予め設定された品目数以上である場合、類似度値が高い順で対応するアイテムに関する情報を前記予め設定された品目数だけ提供する、請求項6に記載の機械学習基盤類似アイテムに関する情報を提供する方法。
  8. 類似度値が前記予め設定された臨界値以上であるベクトルのうち、類似度値が同一のベクトルに対応し、各アイテムに関する情報による認識コードが異なる複数のアイテムに関する情報が確認される場合、異なる認識コードのうち少なくとも一つの認識コードを使用中止処理する段階を含む、請求項6に記載の機械学習基盤類似アイテムに関する情報を提供する方法。
  9. 前記対象ベクトルを生成する段階は、
    前記機械学習モデルを使って前記文字列に含まれるそれぞれの複数の属性に関する情報より長さが短いサブワードに対応するサブワードベクトルを生成する段階と、
    前記サブワードベクトルに基づいて、前記それぞれの複数の属性に関する情報に対応する単語ベクトルおよび前記対象アイテムに関する情報に対応する文章ベクトルを生成する段階と、を含む、請求項1に記載の機械学習基盤類似アイテムに関する情報を提供する方法。
  10. 前記機械学習モデルを使う前に、前記複数の属性に関する情報のそれぞれに対して加重値を割り当てる段階を含み、
    前記文章ベクトルは前記加重値により生成されるものである、請求項9に記載の機械学習基盤類似アイテムに関する情報を提供する方法。
  11. 前記少なくとも一つのアイテムに関する情報を提供する段階で、類似度値が前記予め設定された臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報が予め設定された数以上確認される場合、前記加重値を修正する段階と、
    前記修正された加重値を利用して前記機械学習モデルを再構成する段階と、を含む、請求項10に記載の機械学習基盤類似アイテムに関する情報を提供する方法。
  12. 前記少なくとも一つのアイテムに関する情報はそれぞれ対応する類似度値および認識コードを含む、請求項1に記載の機械学習基盤類似アイテムに関する情報を提供する方法。
  13. 少なくとも一つの命令語(instruction)を保存するメモリ(memory);および
    前記少なくとも一つの命令語を実行して、
    対象アイテムに関する情報を受信し、
    機械学習モデルを使って対象アイテムに関する情報に対応する文字列に基づいて対象ベクトルを生成し、
    前記機械学習モデルを通じて導き出された複数のアイテムのそれぞれに対応する少なくとも一つのベクトルセットを確認し、
    前記少なくとも一つのベクトルセットで前記生成された対象ベクトルと類似度値が第1臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報を提供するプロセッサ(processor)を含む、機械学習基盤類似アイテムに関する情報を提供する装置。
  14. 機械学習基盤類似アイテムに関する情報を提供する方法をコンピュータで実行させるためのプログラムを記録したコンピュータ読み取り可能な非一過性の記録媒体であって、
    前記機械学習基盤類似アイテムに関する情報を提供する方法は、
    対象アイテムに関する情報を受信する段階と、
    機械学習モデルを使って対象アイテムに関する情報に対応する文字列に基づいて対象ベクトルを生成する段階と、
    前記機械学習モデルを通じて導き出された複数のアイテムのそれぞれに対応する少なくとも一つのベクトルセットを確認する段階と、
    前記少なくとも一つのベクトルセットで前記生成された対象ベクトルと類似度値が第1臨界値以上である少なくとも一つのベクトルに対応する少なくとも一つのアイテムに関する情報を提供する段階と、を含む、非一過性の記録媒体。
JP2021189433A 2020-11-23 2021-11-22 機械学習基盤類似アイテムに関する情報を提供する方法および装置 Active JP7291419B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200158142A KR102265946B1 (ko) 2020-11-23 2020-11-23 기계 학습 기반 유사 아이템에 관한 정보를 제공하는 방법 및 장치
KR10-2020-0158142 2020-11-23

Publications (2)

Publication Number Publication Date
JP2022082523A true JP2022082523A (ja) 2022-06-02
JP7291419B2 JP7291419B2 (ja) 2023-06-15

Family

ID=76603702

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021189433A Active JP7291419B2 (ja) 2020-11-23 2021-11-22 機械学習基盤類似アイテムに関する情報を提供する方法および装置

Country Status (3)

Country Link
US (1) US20220164851A1 (ja)
JP (1) JP7291419B2 (ja)
KR (1) KR102265946B1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11775565B2 (en) 2020-10-14 2023-10-03 Coupang Corp. Systems and methods for database reconciliation
KR20230071098A (ko) * 2020-10-14 2023-05-23 쿠팡 주식회사 데이터베이스 조정을 위한 시스템 및 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003186888A (ja) * 2001-12-20 2003-07-04 Just Syst Corp 部品情報分類装置、部品情報検索装置および部品情報検索サーバ
JP2014153744A (ja) * 2013-02-05 2014-08-25 Nippon Hoso Kyokai <Nhk> 情報検索装置及び情報検索プログラム
JP2019125257A (ja) * 2018-01-18 2019-07-25 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP2020086548A (ja) * 2018-11-15 2020-06-04 日本電信電話株式会社 処理装置、処理方法、及び処理プログラム
JP2020160867A (ja) * 2019-03-27 2020-10-01 三菱ロジスネクスト株式会社 Ft図生成装置、トラブルシューティング用フロー図生成装置およびプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050096967A1 (en) * 2003-10-31 2005-05-05 Gerrits Kevin G. Method and apparatus for processing of purchase orders
US10565498B1 (en) * 2017-02-28 2020-02-18 Amazon Technologies, Inc. Deep neural network-based relationship analysis with multi-feature token model
US11195099B2 (en) 2017-09-01 2021-12-07 Facebook, Inc. Detecting content items in violation of an online system policy using semantic vectors
KR102055899B1 (ko) * 2017-09-28 2019-12-16 한국과학기술원 맥락을 이용하여 문서를 검색하는 시스템 및 방법
US11776036B2 (en) * 2018-04-19 2023-10-03 Adobe Inc. Generating and utilizing classification and query-specific models to generate digital responses to queries from client device
JP7163618B2 (ja) * 2018-05-22 2022-11-01 大日本印刷株式会社 学習装置、学習方法、プログラム及び推定装置
KR102540774B1 (ko) * 2018-12-04 2023-06-08 한국전자통신연구원 서브워드 임베딩 및 스킵서트 기반 문장 임베딩 방법 및 장치
CN111325226B (zh) * 2018-12-14 2024-03-08 北京京东尚科信息技术有限公司 信息呈现方法和装置
US11416908B2 (en) * 2019-08-23 2022-08-16 Walmart Apollo, Llc Complementary-similarity learning using a quadruplet network
US11681747B2 (en) * 2019-11-25 2023-06-20 Gracenote, Inc. Methods and apparatus to generate recommendations based on attribute vectors
US11232501B2 (en) * 2019-12-13 2022-01-25 Microsoft Technology Licensing, Llc Machine-learning for combinatorial decisioning
US11922478B2 (en) * 2020-10-30 2024-03-05 Ncr Voyix Corporation Alternative item booster service

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003186888A (ja) * 2001-12-20 2003-07-04 Just Syst Corp 部品情報分類装置、部品情報検索装置および部品情報検索サーバ
JP2014153744A (ja) * 2013-02-05 2014-08-25 Nippon Hoso Kyokai <Nhk> 情報検索装置及び情報検索プログラム
JP2019125257A (ja) * 2018-01-18 2019-07-25 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP2020086548A (ja) * 2018-11-15 2020-06-04 日本電信電話株式会社 処理装置、処理方法、及び処理プログラム
JP2020160867A (ja) * 2019-03-27 2020-10-01 三菱ロジスネクスト株式会社 Ft図生成装置、トラブルシューティング用フロー図生成装置およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
小形 真平、外1名: "モデル駆動要求分析におけるエンドユーザ入力制約のモデル化とバリデーションコード生成", 情報処理学会研究報告 平成22年度(4) [CD−ROM], JPN6023004103, 4 January 2011 (2011-01-04), JP, pages 1 - 8, ISSN: 0004981470 *

Also Published As

Publication number Publication date
KR102265946B1 (ko) 2021-06-17
JP7291419B2 (ja) 2023-06-15
US20220164851A1 (en) 2022-05-26

Similar Documents

Publication Publication Date Title
US10565498B1 (en) Deep neural network-based relationship analysis with multi-feature token model
CN108391446B (zh) 基于机器学习算法对针对数据分类器的训练语料库的自动提取
US11580119B2 (en) System and method for automatic persona generation using small text components
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
WO2022222300A1 (zh) 开放关系抽取方法、装置、电子设备及存储介质
JP2022082523A (ja) 機械学習基盤類似アイテムに関する情報を提供する方法および装置
KR20210023452A (ko) 속성 단위 리뷰 분석 장치 및 방법
US10699112B1 (en) Identification of key segments in document images
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN111858843A (zh) 一种文本分类方法及装置
CN112101029B (zh) 一种基于bert模型的高校导师推荐管理方法
JP7287699B2 (ja) 機械学習を通じての学習モデルを使った情報提供方法および装置
CN113658002B (zh) 基于决策树的交易结果生成方法、装置、电子设备及介质
CN114491079A (zh) 知识图谱构建和查询方法、装置、设备和介质
EP4196900A1 (en) Identifying noise in verbal feedback using artificial text from non-textual parameters and transfer learning
CN113360654A (zh) 文本分类方法、装置、电子设备及可读存储介质
CN115210705A (zh) 具有无效值或等效值的关系表的向量嵌入模型
JP7261095B2 (ja) ビジネスマッチング支援装置、及びビジネスマッチング支援方法
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
CN113705201B (zh) 基于文本的事件概率预测评估算法、电子设备及存储介质
CN115221323A (zh) 基于意图识别模型的冷启动处理方法、装置、设备及介质
JP7351544B2 (ja) 機械学習基盤アイテムを分類する方法および装置
KR102299618B1 (ko) 리뷰 광고 매칭 장치 및 방법
CN111506776B (zh) 数据标注方法以及相关装置
CN113724055A (zh) 一种商品属性挖掘方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230418

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230529

R150 Certificate of patent or registration of utility model

Ref document number: 7291419

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150