JP2022082524A - 機械学習を通じての学習モデルを使った情報提供方法および装置 - Google Patents

機械学習を通じての学習モデルを使った情報提供方法および装置 Download PDF

Info

Publication number
JP2022082524A
JP2022082524A JP2021189434A JP2021189434A JP2022082524A JP 2022082524 A JP2022082524 A JP 2022082524A JP 2021189434 A JP2021189434 A JP 2021189434A JP 2021189434 A JP2021189434 A JP 2021189434A JP 2022082524 A JP2022082524 A JP 2022082524A
Authority
JP
Japan
Prior art keywords
information
learning model
strings
character string
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021189434A
Other languages
English (en)
Other versions
JP7287699B2 (ja
Inventor
ジェ・ミン・ソン
Jae Min Song
クァン・ソプ・キム
Kwang Seob Kim
ホ・ジン・ファン
Ho Jin Hwang
ジョン・フィ・パク
Jong Hwi Park
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Emro Co Ltd
Original Assignee
Emro Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Emro Co Ltd filed Critical Emro Co Ltd
Publication of JP2022082524A publication Critical patent/JP2022082524A/ja
Application granted granted Critical
Publication of JP7287699B2 publication Critical patent/JP7287699B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0627Directed, with specific intent or strategy using item specifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/087Inventory or stock management, e.g. order filling, procurement or balancing against orders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Educational Administration (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】機械学習に基づいて生成された学習モデルを使って情報を提供する方法およびこれを利用した装置を提供する。【解決手段】機械学習を通じての学習モデルを使った情報提供方法は、学習モデル生成に関連した複数のアイテムに関する情報を示す複数の文字列を含む第1セットの文字列を確認する段階;前記第1セットの文字列に基づいて少なくとも一つの学習モデルを生成する段階;情報分類対象に関連した複数のアイテムに関する情報を示す複数の文字列を含む第2セットの文字列を確認する段階;および前記少なくとも一つの学習モデルを使って、前記第2セットの文字列の少なくとも一部それぞれに対する基準品名情報および属性情報を確認する段階;を含む機械学習を通じての学習モデルを使う情報提供方法を提供する。【選択図】図6

Description

本開示は機械学習に基づいて生成された学習モデルを使って情報を提供する方法およびこれを利用した装置に関する。
自然言語処理(Natural Language Processing、NLP)は人間の言語現象をコンピュータのような機械を利用して模写できるように研究し、これを具現する人工知能の主要分野の一つである。最近機械学習およびディープラーニング技術が発展するにつれ、機械学習およびディープラーニング基盤の自然語処理を通じて、膨大なテキストから意味のある情報を抽出して活用するための言語処理研究開発が活発に進行している。
先行技術文献:韓国登録10-1939106号公報
先行技術文献は学習システムを利用した在庫管理システムおよび在庫管理方法について開示している。このように企業は業務の効率および生産性を向上させるために、企業で算出される各種情報を標準化して統合および管理することが要求される。例えば、企業が購入するアイテムの場合、体系的な管理がなされないと購入の重複が発生し得、既存の購入内訳の検索が困難であり得る。先行技術文献の場合、予測モデルを生成し、これに基づいて在庫管理を遂行する技術的特徴を開示しているが、具体的な予測モデル生成方法や在庫管理に特化したアイテム分類方法については開示していない。
一般的に、企業でローテキスト(raw text)で構成された形態のアイテム情報を使う場合が多い。ローテキストの場合、別途の項目分類がなっておらず、作成者の性向により一括的な記載形式を有さずにランダムな構成を有する場合が多いため、ローテキストが意味するアイテムに関する情報を正確に識別するには多少困難が存在する。したがって、より高い正確性を有し、効果的にアイテムに関する情報を識別してそれに関する情報を提供するための方法が要求される。
本実施形態が解決しようとする課題は、アイテムに関する情報を示す文字列に基づいて学習モデルを生成し、生成された学習モデルを使ってアイテムに関する情報を示す文字列をより正確かつ効果的に確認する方法および装置を提供することにある。
本実施形態が解決しようとする課題は、アイテムに関する情報を示す文字列をより効果的に確認する学習モデルを生成する方法および装置を提供することにある。
本実施形態が達成しようとする技術的課題は上記のような技術的課題に限定されず、以下の実施形態からさらに他の技術的課題が類推され得る。
第1実施形態により、機械学習を通じての学習モデルを使った情報提供方法は、学習モデル生成に関連した複数のアイテムに関する情報を示す複数の文字列を含む第1セットの文字列を確認する段階;前記第1セットの文字列に基づいて少なくとも一つの学習モデルを生成する段階;情報分類対象に関連した複数のアイテムに関する情報を示す複数の文字列を含む第2セットの文字列を確認する段階;および前記少なくとも一つの学習モデルを使って、前記第2セットの文字列の少なくとも一部それぞれに対する基準品名および属性情報を確認する段階;を含むことができる。
第2実施形態により、機械学習を通じての学習モデルを使った情報提供装置は、少なくとも一つの命令語(instruction)を含むメモリと、プロセッサを含み、前記プロセッサは前記少なくとも一つの命令語に基づいて、学習モデル生成に関連した複数のアイテムに関する情報を示す複数の文字列を含む第1セットの文字列を確認し、前記第1セットの文字列に基づいて少なくとも一つの学習モデルを生成し、情報分類対象に関連した複数のアイテムに関する情報を示す複数の文字列を含む第2セットの文字列を確認し、前記少なくとも一つの学習モデルを使って、前記第2セットの文字列の少なくとも一部それぞれに対する基準品名および属性情報を確認することができる。
第3実施形態により、コンピュータ読み取り可能な記録媒体は機械学習を通じての学習モデルを使った情報提供方法をコンピュータで実行させるためのプログラムを記録したコンピュータ読み取り可能な非一過性の記録媒体であって、前記情報提供方法は、学習モデル生成に関連した複数のアイテムに関する情報を示す複数の文字列を含む第1セットの文字列を確認する段階;前記第1セットの文字列に基づいて少なくとも一つの学習モデルを生成する段階;情報分類対象に関連した複数のアイテムに関する情報を示す複数の文字列を含む第2セットの文字列を確認する段階;および前記少なくとも一つの学習モデルを使って、前記第2セットの文字列の少なくとも一部それぞれに対する基準品名および属性情報を確認する段階;を含む非一過性の記録媒体を含むことができる。
その他の実施形態の具体的な事項は詳細な説明および図面に含まれている。
本開示に係る情報提供方法および装置は、アイテムに関する情報を示す文字列を利用して生成された学習モデルを利用して文字列を分析することによって、アイテムに対応する基準品名および属性情報がより正確かつ効果的に確認されるようにすることができる。
また、本開示に係る情報提供方法および装置は、学習モデルを利用して文字列を入力しさえすれば自動で文字列に対応するアイテムの情報が提供されるようにすることによって、アイテムに関する情報を示す文字列を迅速かつ効率的に分析することができる。
発明の効果は以上で言及した効果に制限されず、言及されていないさらに他の効果は特許請求の範囲の記載から当該技術分野の通常の技術者に明確に理解され得るであろう。
本明細書の実施形態に係るアイテム管理システムを説明するための図面である。 本明細書の一実施形態に係るアイテムに関する情報を管理する方法を説明するための図面である。 本明細書の一実施形態により学習モデルを生成する方法を説明するための図面である。 本明細書の一実施形態により学習モデルを利用して文字列を確認する方法を説明するための図面である。 本明細書の一実施形態に係る情報提供装置の機能ブロック図である。 本明細書の一実施形態に係る情報提供方法の各段階の流れを示す図面である。 本明細書の一実施形態に係る情報提供装置で少なくとも一つの学習モデルの生成のために利用される文字列セットを説明するための図面である。 本明細書の一実施形態に係る情報提供装置で利用される学習モデルのパラメータを説明するための図面である。 本明細書の一実施形態に係る情報提供装置によって基準品名情報が確認される場合を説明するための図面である。 本明細書の一実施形態に係る情報提供装置によって属性情報が確認される場合を説明するための図面である。 本明細書の一実施形態により属性情報基盤の分類を遂行する前に前処理を遂行する方法を説明するための図面である。
実施形態で使われる用語は本開示での機能を考慮しつつ、可能な限り現在広く使われる一般的な用語を選択したが、これは当分野に従事する技術者の意図または判例、新しい技術の出現などによって変わり得る。また、特定の場合は出願人が任意に選定した用語もあり、この場合、該当する説明の部分で詳細にその意味を記載するであろう。したがって、本開示で使われる用語は単純な用語の名称ではなく、その用語が有する意味と本開示の全般にわたった内容に基づいて定義されるべきである。
明細書全体で或る部分が何らかの構成要素を「含む」とする時、これは特に反対の記載がない限り他の構成要素を除くものではなく他の構成要素をさらに含み得ることを意味する。
明細書全体で記載された「a、b、およびcのうち少なくとも一つ」の表現は、「a単独」、「b単独」、「c単独」、「aおよびb」、「aおよびc」、「bおよびc」、または「a、b、およびcすべて」を含むことができる。
以下では、添付した図面を参照して本開示の実施形態について、本開示が属する技術分野で通常の知識を有する者が容易に実施できるように詳細に説明する。しかし、本開示は多様な異なる形態で具現され得、ここで説明する実施形態に限定されない。
以下では、図面を参照して本開示の実施形態を詳細に説明する。
図1は、本明細書の実施形態に係るアイテム管理システムを説明するための図面である。
本明細書の一実施形態に係るアイテム管理システム100は、アイテムに関する情報が受信されると、各アイテムに関する情報を統一された形式に加工し、別途のコードが割り当てられていないアイテムに対してコードを割り当てることができ、特定のアイテムに対して最も先に割り当てられるコードは代表コードであり得る。実施形態でアイテム情報は一般的な文字列を含むことができ、少なくとも一つの区分子を含む文字列であり得る。実施形態で区分子は空白および文章記号を含むことができ、これに制限されず、特定項目の間を区別できる文字を含むことができる。
図1を参照すると、アイテム管理システム100は複数の管理者111、112から購入アイテム情報を受信することができる。実施形態で購入アイテム情報は該当アイテムを購入するための購入要請であり得、この時、複数の管理者111、112から受信される購入アイテム情報は形式が異なり得るため、複数の購入要請の統合および管理が困難であり得る。
したがって、一実施形態に係るアイテム管理システム100は既存のアイテム情報に基づいて機械学習を遂行し、これを通じて生成された学習結果により複数の管理者111、112から受信された購入アイテム情報を一定の形式に加工し、保存することができる。
例えば、第1管理者111が提供したアイテム情報にはアイテムの具体的なモデル名(P000 903)および用途(PCBエッチング腐食用)のみが含まれているだけであって、アイテムの分類に必要な情報(大分類、中分類、小分類に関する情報)は含まれていないこともある。このような場合、アイテム管理システム100は機械学習結果に基づいて、第1管理者111が提供したアイテム情報を受信するとアイテムおよびアイテムの属性情報を分類し、分類結果を保存および出力することができる。
また、アイテム管理システム100は第1管理者111が提供したアイテム情報に含まれた各属性項目の順序が第2管理者112が提供したアイテム情報に含まれた各属性項目の順序と異なっていても、各属性項目を識別して属性情報を分類および保存することができる。一方、実施形態で第1管理者111および第2管理者112は同一の管理者であり得る。また、同一のアイテムに関する情報を誤記や表示形態により異なるように記録した場合にも、学習モデルの学習結果により入力されたアイテム情報間の類似度を判断して、すでに入力されたアイテムとの類似度を判断したり新しい代表コードを割り当てるなどの動作を遂行できる。
したがって、一実施形態に係るアイテム管理システム100は各アイテムに関する情報の管理効率性を増大させることができる。
一方、図1のアイテム管理システム100はアイテム購入に関する情報の統合管理のためのものであることを前提として説明したが、アイテム管理システム100の用途はアイテム購入に限定されず、すでに入力されたアイテム情報に基づいて該当情報を再び分類することにも使われ得、本明細書の実施形態は複数のアイテムを統合および管理するすべてのシステムに適用され得ることは該当技術分野の通常の技術者に自明である。換言すると、アイテムの購入要請だけでなく既存に保存されたアイテム情報の加工にも本明細書の実施形態が活用され得ることは自明である。
図2は、本明細書の一実施形態に係るアイテムに関する情報を管理する方法を説明するための図面である。
一実施形態に係るアイテム管理システムは、アイテムに関する情報が受信されると、各属性項目に基づいて受信された情報から属性情報を分類することができる。ここで、アイテムに関する情報は複数の属性情報を含むことができ、属性情報は属性項目により分類され得る。より具体的には、アイテムに関する情報は複数の属性情報を含む文字列であり得、アイテム管理システムはアイテムに関する情報を分類して各属性に対応する情報を導き出すことができる。
図2の(a)を参照すると、アイテム管理システムは形式が互いに異なる複数のアイテムに関する情報を受信することができる。例えば、アイテム管理システムは複数のアイテムに関する情報を顧客のデータベースからクローリングしたり受信することができ、またはユーザーの入力から受信することができる。この時、アイテムに関する情報に含まれた属性(アイテム名または品目名、メーカー、OSなど)項目は識別されていない状態であり得る。
このような場合、一実施形態に係るアイテム管理システムは、機械学習を通じてアイテムに関する情報に含まれた各属性情報を分類することができる。例えば、図2の(a)に図示されたアイテム情報210は、図2の(b)のようにアイテム名を含む各種属性項目により属性情報を分類することができる。実施形態で管理システムは、学習モデルにより分類された各情報がどのような属性に該当するかを判断することができ、各属性に該当する値に基づいて一つのアイテムに対する文字列がどのアイテムに対するものであるかを確認し、同一の分類のアイテムに関する情報を確認してこのようなアイテムを一括的に管理できるようにする。
このようなアイテム管理システムにより、アイテムに関する情報から各属性に対応する情報を導き出してこれを分けて整理することができ、今後これと対応する文字列が入力される場合にも該当文字列を分析して対応する属性値を確認し、これを分類して保存することができる。
したがって、一実施形態に係るアイテム管理システムは、アイテムに関する情報を標準化し、主要属性情報を管理することができるため、類似するか重複するアイテムを分類することができ、データ整備の便宜性を増大させることができる効果がある。
図3は、本明細書の一実施形態により学習モデルを生成する方法を説明するための図面である。
図3を参照すると、演算装置はアイテム情報に関連した複数の文字列301を利用して学習が遂行されて少なくとも一つの学習モデル320を生成することができる。例えば演算装置は、アイテム情報に関連した文字列でアイテムに関連した属性情報303を確認し、属性情報303に基づいて属性学習305を遂行し、これに伴い、第1学習モデルを生成することができる。また、演算装置はアイテム情報に関連した文字列でアイテムに関連した基準品名情報311を確認し、基準品名情報311に基づいて基準品名学習313を遂行し、これに伴い、第2学習モデルを生成することができる。
アイテム情報に関連した複数の文字列301は学習モデル生成に関連した複数のアイテムに関する情報を示してもよい。複数の文字列301はソース文字列セットに含まれ得るが、このような場合、ソース文字列セットは分析対象となる多様なアイテムに関する情報を示す文字列の集合であり得る。すなわち、学習に利用される複数の文字列301はソース文字列セットに含まれる多様な文字列のうち一部であり得る。
一実施形態で、文字列はアイテムに関する情報を示す字の組み合わせであり、例えば、文字列は図2の(a)に図示されたアイテム情報210と同一であり得る。複数の文字列301それぞれごとに対応する属性情報(例:メーカー、OS、バッテリー、重さ)と基準品名情報(例:アイテム名)が存在し得る。属性情報と基準品名情報はアイテムにより予め指定された値であり、アイテム情報を示す文字列にもアイテムと同一に予め指定され得る。
一方、実施形態でアイテムのメーカーによって、同一のアイテムであっても指称する品名は異なり得る。例えばAメーカーのスイッチはKと指称され、BメーカーのスイッチはMと指称され得る。本明細書の一実施形態によると、KとMという品名がいずれも「R」という基準品名によって分類されることによって、アイテムがより効果的に管理され得る。また、これと同様に同じ属性に対して他の用語で指称される場合にも、本明細書の一実施形態によると、同じ属性を分析してこれに関する情報を提供することによってアイテムがより効果的に管理され得る。
一実施形態で、基準品名により属性情報の類型の少なくとも一部は異なり得る。例えば基準品名が「BIO-DISPERSANT」である場合、属性情報の類型は「FLOW RATE」、「PUMPING HEAD」、「POWER」、および「SIZE」を含むことができる。基準品名が「SMART PHONE」である場合、属性情報の類型は「OS」、「POWER」、および「SIZE」を含むことができる。
このような属性情報と基準品名情報それぞれは学習モデルの正解値として利用され得、これに伴い、属性情報に対する学習モデルと基準品名情報に対する学習モデルが生成され得る。
一実施形態で、複数の文字列301を入力値とし、複数の文字列301それぞれに対応する属性情報303を正解値として属性情報に対する学習305が遂行されて第1学習モデルが生成され得る。例えば第1文字列が入力されると、第1文字列が示す属性情報を正解値として学習が遂行され、その後第2文字列が入力されると第2文字列が示す属性情報を正解値として学習が遂行され得る。このように複数の文字列301と属性情報に基づいて第1学習モデルの学習が遂行されることによって、第1学習モデルは文字列が入力されると入力された文字列に対応する属性情報を確認することができる。
他の例として、複数の文字列301を入力値とし、基準品名情報311を正解値として基準品名情報に対する学習313が遂行されることによって第2学習モデルが生成され得る。例えば第1文字列が入力されると第1文字列が示す基準品名情報を正解値として学習が遂行され、その後第2文字列が入力されると第2文字列が示す基準品名情報を正解値として学習が遂行され得る。このように複数の文字列301と属性情報に基づいて第2学習モデルの学習が遂行されることによって、第1学習モデルは文字列が入力されると入力された文字列に対応する基準品名情報を確認することができる。
実施形態で、基準品名情報により属性情報の類型が異なり得るため、属性情報を利用した学習と基準品名情報を利用した学習は関連づけられてなされ得る。例えば属性情報を利用した学習は基準品名により区分されてなされ得る。このような場合、少なくとも一つの学習モデル320は基準品名を確認する学習モデルと基準品名別属性情報を確認する少なくとも一つの学習モデルを含むことができる。例えば少なくとも一つの学習モデル320は、文字列に対応する基準品名を確認するように学習された第1学習モデル、第1基準品名に対応する属性情報の類型により属性情報を確認するように学習がなされた第2学習モデル、および第2基準品名に対応する属性情報の類型により属性情報を確認するように学習がなされた第3学習モデルを含むことができる。
実施形態で、第2学習モデルと第3学習モデルは一つの学習モデルとして具現され得る。例えば第2学習モデルと第3学習モデルが一つの学習モデルである第4学習モデルとして具現される場合、第4学習モデルは文字列および基準品名情報の入力を受けると、文字列に対応する属性情報を確認することができる。
ただし、これに制限されるものではなく、場合により少なくとも一つの学習モデル320は基準品名の指定にかかわらず、文字列だけ入力されても属性情報を確認するように学習された学習モデルを含むことができる。
少なくとも一つの学習モデル320は前述した第1学習モデルと第2学習モデルを含むことができる。少なくとも一つの学習モデル320それぞれはCNN(convolution neural network)で構成され得るが、これに制限されるものではない。
図4は、本明細書の一実施形態により学習モデルを利用して文字列を確認する方法を説明するための図面である。
図4を参照すると、分類しようとする対象となる文字列である分類対象文字列401は第1学習モデル403に入力され得る。第1学習モデル403は分類対象文字列401が示す基準品名情報を確認(405)することができる。
基準品名情報が確認された分類対象文字列は第2学習モデル407に入力され得る。第2学習モデル407は基準品名が確認された分類対象文字列に対する属性情報を確認(409)することができる。
図示されてはいないが、実施形態により基準品名情報が確認された分類対象文字列に対して属性トークン化(tokenization)が遂行され得る。属性トークン化は文字列を構成する単語単位で区分することを意味し得る。具体的には、例えば文字列が[GLOBE VALVE.SIZE 1-1/2”.A-105.SCR’D.800#.JIS]である場合、文字列は単語単位でトークン化されて[GLOBE、VALVE、SIZE、1-1/2”、A-105、SCR’D、800#、JIS]のように表され得る。このような単語単位のトークン化は分かち書きおよび文章記号のうち少なくとも一つを基準として遂行され得る。トークン化された単語は特定の意味を有する単語であり得るが、これに制限されるものではない。
実施形態で、文字列がトークン化されると、少なくとも一つのトークンが生成され得る。少なくとも一つのトークンには機械学習が遂行された学習モデルによってタグが追加され得る。タグの追加は機械学習に基づいて設けられたタグ追加のための学習モデルに基づいてなされ得る。タグに基づいて一つ以上のトークンは単語に決定され得る。決定された単語は第2学習モデル407に入力され得る。第2学習モデル407は入力された単語に対応する属性情報を確認することができる。一方、トークン化およびタグ追加に関連したより具体的な説明は図11を参照することができる。
図5は、本明細書の一実施形態に係る情報提供装置の機能ブロック図である。図5には本実施形態に関連した構成要素が図示されているがこれに制限されるものではなく、図5に図示された構成要素以外に他の汎用的な構成要素がさらに含まれ得る。
図5を参照すると、機械学習を通じての学習モデルを使った情報提供装置500はメモリ510とプロセッサ520を含むことができる。一方、実施形態で情報提供装置500は演算装置の形態であり得る。図5に図示された各要素(element)は少なくとも一つの機能や動作を処理する単位を意味し、これはハードウェアやソフトウェア、またはハードウェアおよびソフトウェアの結合で具現され得る。
メモリ510は情報提供装置500に関連した多様なデータを保存することができる。例えばメモリ510は情報提供装置500の動作のための少なくとも一つの命令語(instruction)を保存することができる。このような場合、プロセッサ520はメモリ510に保存された命令語に基づいて多様な動作を遂行できる。
プロセッサ520は情報提供装置500の全般的な動作を制御することができる。例えば、プロセッサ520はメモリ510に保存された命令語に基づいて情報提供装置500の要素を制御することによって情報提供装置500の動作を制御することができる。
プロセッサ520は学習モデル生成に関連した複数のアイテムに関する情報を示す複数の文字列を含む第1セットの文字列を確認することができる。複数の文字列それぞれは互いに区分されるアイテムに関する情報を示すことができる。複数の文字列それぞれは少なくとも一つの単語で構成され得、場合により文字列を構成する単語の配列または属性情報は非規則的であり得る。例えば、互いに異なる単語が互いに同じ意味を示してもよく、または文字列を構成する単語の配列が文字列ごとに異なってもよい。
ここで、単語は分離して自立的に使うことができる字の組み合わせ(またはグループ、集合)を含むことができるが、これに制限されるものではなく、例えば分かち書きや文章記号を利用して区分される字の組み合わせを含んでもよい。また、単語は特定の意味を有し得るがこれに制限されるものではない。
プロセッサ520は第1セットの文字列に基づいて少なくとも一つの学習モデルを生成することができる。プロセッサ520は第1セットの文字列を学習データとして利用して少なくとも一つの学習モデルを生成することができる。
一実施形態で、プロセッサ520は第1セットの文字列と第1セットの文字列それぞれが示す基準品名情報を利用して学習モデルを学習させることができる。このような場合、特定文字列が入力されると入力された文字列が示す基準品名情報を確認する学習モデルが生成され得る。
一実施形態で、プロセッサ520は第1セットの文字列と第1セットの文字列それぞれに対応する属性情報を利用して学習モデルを学習させることができる。このような場合、特定文字列が入力されると入力された文字列が示す属性情報を確認する学習モデルが生成され得る。
場合によって、属性情報は基準品名によりその類型が異なり得る。このような場合、学習は基準品名が指定されることに基づいてなされ得る。例えば第1基準品名を有する文字列と文字列それぞれに対応する属性情報を利用して学習が遂行され得る。その後第1基準品名を有する文字列と文字列それぞれに対応する属性情報を利用して学習が遂行され得る。他の例として、文字列および文字列に対応する基準品名が入力され、属性情報が正解値として入力されることに対応して学習がなされてもよい。しかし、これに制限されるものではなく、基準品目の区分がなくても文字列が入力されさえすれば該当する属性情報が出力されるように学習が遂行されてもよい。
実施形態で、少なくとも一つの学習モデルは教師あり学習(supervised learning)に基づいて学習が遂行され得る。少なくとも一つの学習モデルは第1セットの文字列および第1セットの文字列に対して品名情報と属性情報に基づいて生成され得る。例えば少なくとも一つの学習モデルは第1セットの文字列を入力値とし、基準品名情報と属性情報を正解値とする教師あり学習に基づいて学習が遂行され得る。他の例として、少なくとも一つの学習モデルは第1学習モデルと第2学習モデルを含むことができ、第1学習モデルの場合、基準品名を正解値とする教師あり学習に基づいて学習が遂行され、第2学習モデルの場合、属性を正解値とする教師あり学習に基づいて学習が遂行され得る。この時、学習データとして利用される文字列それぞれに対応する正解値(例:基準品名、属性)は予め指定されたものであり得る。
プロセッサ520は情報分類対象に関連した複数のアイテムに関する情報を示す複数の文字列を含む第2セットの文字列を確認することができる。第2セットの文字列は情報分類対象である複数のアイテムに対するものであり得る。
一方、第1セットの文字列と第2セットの文字列はソース文字列セットに含まれ得る。ソース文字列セットは一つ以上のアイテムそれぞれを示す文字列を含むグループであり得る。ソース文字列セットのうち、学習のための文字列として第1セットの文字列が選択され、学習モデルを利用した分析対象となる文字列として第2セットの文字列が選択され得る。
実施形態により第1セットの文字列のうち少なくとも一部は第2セットの文字列のうち少なくとも一部と重複され得、このような場合は学習に利用されたデータが学習の検証にもう一度利用される場合と見ることができるであろう。しかし、これは例示に過ぎず、このような例に本実施形態が制限されるものではない。
実施形態で、ソース文字列セットに含まれる文字列はカテゴリー化されてもよい。すなわち、ソース文字列セットに含まれた文字列は文字列間の類似性に基づいてカテゴリー化され、カテゴリー単位で区分され得る。例えば第1文字列と第2文字列は第1カテゴリーに含まれ、第3文字列と第4文字列は第2カテゴリーに含まれ得る。第1カテゴリーに含まれた第1文字列と第2文字列は互いに類似し、第2カテゴリーに含まれた第3文字列と第4文字列は互いに類似し得る。
文字列のカテゴリー化に利用される類似性は多様な基準によって決定され得る。例えば類似性は文字列に関連した属性情報に基づいて決定され得る。このような場合、ソース文字列セットに含まれる文字列は属性情報に対応するカテゴリー情報を有することができる。
一実施形態で第1セットの文字列はカテゴリー情報を基準としてソース文字列セットから選択され得る。例えば第1セットの文字列はカテゴリー情報を基準としてソース文字列セットから、同一カテゴリーを有する文字列のうち基準比率(例:20%)以上の文字列を含むように選択され得る。すなわち、第1セットの文字列は、ソース文字列セットを構成する各カテゴリ別に特定比率以上に対応する個数の文字列が含まれるように生成されたものであり得る。例えば、第1カテゴリーに10個の文字列が含まれ、第2カテゴリーに20個の文字列が含まれ、基準比率が20%である場合、第1セットの文字列は第1カテゴリーの文字列のうち2個、第2カテゴリーの文字列のうち4個を含むことができる。この時、各カテゴリ別に選択される文字列はランダムに選択され得るがこれに制限されるものではない。
一実施形態で、第1セットの文字列に含まれる文字列を選択するための基準比率は、複数のアイテムの種類、複数の文字列の長さおよびカテゴリーの個数のうち少なくとも一つに基づいて決定され得る。ここで、複数のアイテムの種類は例えば複数のアイテムが示すことができる基準品名の種類を含むことができる。複数の文字列の長さは例えば複数の文字列それぞれの平均の長さを含むことができる。カテゴリーの個数は例えばソース文字列セットを構成するカテゴリーの個数を含むことができる。
例えば、基準比率は複数のアイテムの種類、複数の文字列の長さおよびカテゴリーの個数のうち少なくとも一つが示す値に比例して決定され得る。他の例として、基準比率は複数のアイテムの種類が所定個数以上であるか、文字列の長さが所定長さ以上であるか、カテゴリーの個数が所定個数以上の場合、より大きな値に決定され得る。ただしこれに制限されるものではなく、基準比率は予め指定された値であってもよい。
プロセッサ520は少なくとも一つの学習モデルを使って、第2セットの文字列の少なくとも一部それぞれに対する基準品名情報および属性情報を確認することができる。少なくとも一つの学習モデルは基準品名情報の導出に関連した第1学習モデルと属性情報の導出に関連した第2学習モデルを含むことができる。このような場合、プロセッサ520は第1学習モデルを通じて第2セットの文字列に基づいて基準品名情報を導き出すことができる。プロセッサ520は導き出された基準品名情報に基づいて第2セットの文字列それぞれのうち少なくとも一部をトークン化することができる。プロセッサ520は第2学習モデルを通じてトークン化された文字列に基づいて属性情報を導き出すことができる。
実施形態で、トークン化に関連して、プロセッサ520は第2セットの文字列に含まれた空白を基準として第2セットの文字列それぞれのうち少なくとも一部をトークン化することができる。プロセッサ520は機械学習を通じて、トークン化に基づいて生成された複数のトークンそれぞれにタグを追加することができる。ここで、タグを追加する過程は前記機械学習に基づいて予め設けられた学習モデルに基づいてなされ得る。
プロセッサ520はタグに基づいて一つ以上のトークンを単語として決定することができる。タグは例えば開始タグ、連続タグ、および終了タグを含むことができる。このような場合、プロセッサ520は開始タグが追加されたトークンから次の開始タグが追加されたトークン以前のトークンまで、または開始タグが追加されたトークンから終了タグが追加されたトークンまでを一つの単語として決定することができる。トークン化に関連したより具体的な説明は図11を参照することができる。
プロセッサ520は第2学習モデルを利用して決定された単語に基づいて属性情報を導き出すことができる。例えばプロセッサ520は決定された単語を第2学習モデルに入力させることに基づいて、単語それぞれに該当する属性情報を導き出すことができる。
実施形態で、少なくとも一つの学習モデルは一つ以上のパラメータ(parameter)を利用して学習が遂行され得る。一つ以上のパラメータは例えば、学習繰り返し(iteration)回数、学習のためのテキスト個数単位、機械学習アルゴリズムの隠れユニット(hidden unit)の個数、機械学習アルゴリズムの出力ベクトルの次元、出力ベクトルのドロップアウト(dropout)、機械学習アルゴリズムのバッチサイズ(batch size)およびラーニングレート(learning rate)のうち少なくとも一つを含むことができる。プロセッサ520は一つ以上のパラメータのうち少なくとも一つを調節することに基づいて、学習モデルの学習がより効果的になされるように制御することができる。パラメータの調節に関連したより具体的な説明は図8を参照することができる。
実施形態で、プロセッサ520は基準品名情報および属性情報の確認に基づいて、基準品名情報および属性情報のうち少なくとも一つを利用して入力された文字列を修正することができる。プロセッサ520は修正された文字列を提供することができる。例えば、プロセッサ520は文字列を見て基準品名または属性がより容易に確認されるように、文字列に基準品名または属性を示すテキストが含まれるように文字列を修正して提供することができる。これに関連した具体的な例は図9を参照することができる。
図6は、本明細書の一実施形態に係る情報提供方法の各段階の流れを示す図面である。図6に図示された方法の各段階は、場合により図面に図示されたものとその順序を異ならせて遂行され得ることは言うまでもない。以下の図面に対する説明では前述した内容と重複する内容が省略され得る。
図6を参照すると、段階610で情報提供装置は、学習モデル生成に関連した複数のアイテムに関する情報を示す複数の文字列を含む第1セットの文字列を確認することができる。第1セットの文字列は複数の文字列で構成されたソース文字列セットの少なくとも一部であり得る。複数の文字列それぞれはアイテムに関する情報を示すことができる。アイテムに関する情報はアイテムの基準品名および属性のうち少なくとも一つに関する情報を含むことができる。
段階620で、情報提供装置は第1セットの文字列に基づいて少なくとも一つの学習モデルを生成することができる。情報提供装置は第1セットの文字列を学習データとして利用して少なくとも一つの学習モデルを生成することができる。具体的には、情報提供装置は第1セットの文字列と文字列それぞれに対応する基準品名情報および属性情報を利用して、文字列が入力されると基準品名情報および属性情報のうち少なくとも一つを導き出す学習モデルを生成することができる。
段階630で、情報提供装置は情報分類対象に関連した複数のアイテムに関する情報を示す複数の文字列を含む第2セットの文字列を確認することができる。第2セットの文字列はソース文字列セットの少なくとも一部であり得る。第2セットの文字列は分類(または分析)しようとする対象となるアイテムに関するものであり得る。
段階640で、情報提供装置は少なくとも一つの学習モデルを使って第2セットの文字列の少なくとも一部それぞれに対する基準品名情報および属性情報を確認することができる。情報提供装置は前記第1セットの文字列に基づいて生成された少なくとも一つの学習モデルに第2セットの文字列を入力することに基づいて第2セットの文字列それぞれに対応する基準品名情報および属性情報を確認することができる。
実施形態で、少なくとも一つの学習モデルは基準品名情報の導出に関連した第1学習モデルと属性情報の導出に関連した第2学習モデルを含むことができる。情報提供装置は第2セットの文字列を第1学習モデルを通じて分析することに基づいて第2セットの文字列それぞれが示す基準品名情報を確認することができる。情報提供装置は基準品名情報に基づいて第2セットの文字列それぞれに対するトークン化を遂行できる。情報提供装置はトークン化に基づいて第2セットの文字列それぞれに対応する単語を決定することができる。情報提供装置は決定された単語を第2学習モデルを通じて分析することに基づいて決定された単語が示す属性情報を確認することができる。これに伴い、結果として第2セットの文字列それぞれに対する基準品名情報と属性情報が確認され得る。
図7は、本明細書の一実施形態に係る情報提供装置で少なくとも一つの学習モデルの生成のために利用される文字列セットを説明するための図面である。
具体的には、図7は、ソース文字列セット710が複数のカテゴリーに区分される場合、カテゴリー別に基準比率以上の文字列が選択されて第1文字列セット730に含まれる実施形態を概念的に図示する。
図7を参照すると、ソース文字列セット710は複数のカテゴリー、例えば第1カテゴリー721、第2カテゴリー722ないし第kカテゴリー723を含むことができる。複数のカテゴリーそれぞれには少なくとも一つの文字列が含まれ得る(図示されず)。このような場合、第1文字列セット730は各カテゴリ別に基準比率以上の文字列が選択されることに基づいて設けられ得る。
例えば、基準比率以上が20%である場合、第1カテゴリー721に含まれた文字列個数の20%に該当する個数だけの文字列が選択されて第1文字列セット730に含まれ得る。第2カテゴリー722~第kカテゴリー723も第1カテゴリー721と同様にそれぞれ20%に該当する個数だけの文字列が選択されて第1文字列セット730に含まれ得る。
一方、実施形態で、カテゴリーは属性情報に基づいて区分されたものであり得、このような場合、第1文字列セット730はカテゴリー情報に基づいて構成されることによって多様な属性情報を有する文字列を含むことになり得る。このような第1文字列セット730を利用して学習モデルが生成される場合、生成された学習モデルは多様な属性情報に対する分類が可能となり得る。
ただし、これに制限されるものではなく、カテゴリーは文字列間の類似度に基づいて区分されたものであり得る。例えばカテゴリーは類似するデータをカテゴリー化する学習モデル(以下、第3学習モデル)に基づいて生成されたものであり得る。このような場合、ソース文字列セットに含まれる文字列が第3学習モデルに入力されることに基づいて類似する文字列同士でカテゴリー化されることによって、前記複数のカテゴリーが生成され得る。このような第3学習モデルは教師なし学習(unsupervised learning)に基づいた多様な種類の学習モデル(例:GAN(generative adversarial network))で具現され得る。
図8は、本明細書の一実施形態に係る情報提供装置で利用される学習モデルのパラメータを説明するための図面である。
一実施形態に係る情報提供装置は文字列を利用して機械学習を遂行することに基づいて学習モデルを生成し、生成された学習モデルを利用して文字列に関する情報を分類して分類された情報を提供することができる。文字列に関する情報を分類するにおいて、情報提供装置はパラメータを調整することによって学習モデルの性能を改善することができる。図8は、学習モデルの性能改善のためにパラメータを調整する場合を説明するための図面である。
図8を参照すると、情報提供装置は情報提供のために利用される学習モデルに対するリスト810を提供することができる。リスト810は第1学習モデルと第2学習モデルに対するリストを含むことができるが、これに制限されるものではなく、トークン化のために利用される学習モデルまたはソース文字列セットのカテゴリー化のために利用される学習モデルに対するリストを含んでもよい。
図8によると、ユーザーの入力に基づいてリスト810に含まれる学習モデルのうち一つが選択され得る。このような場合、選択された学習モデルに対する詳細情報820が提供され得る。以下では、選択された学習モデルが第1文字列セットを利用して学習が遂行された少なくとも一つの学習モデルのうち第1学習モデルであると仮定する。
実施形態において、第1学習モデルが選択されることに基づいて、詳細情報820には第1学習モデルを指称するために指定された名称が「学習名」欄に表示され得る。第1学習モデルの類型は「モデル類型」欄に表示され得る。詳細情報820は例示的に示したものであり、これに制限されず、第1学習モデルに関連した多様な情報例えば、生成日が表示されてもよい。
実施形態において、第1学習モデルが選択されることに基づいて第1学習モデルに関連したパラメータ情報830が表示され得る。パラメータ情報830は第1学習モデルの性能調節のために制御される要素であり、情報提供装置またはアイテム管理システムの設計要求事項により調節され得る。図8に図示されたパラメータに対するより具体的な内容は下記の表1を参照することができる。
Figure 2022082524000002
一方、学習モデルの性能向上のために調節され得るパラメータは図8または表1に制限されず、システム設計の要求事項によって変わり得ることは該当技術分野の通常の技術者に自明である。
一方、実施形態で学習モデルを生成した後、これを通じて基準品名情報および属性情報の確認結果の正確度が落ちる場合、このようなパラメータのうち少なくとも一つを調節して学習モデルを新しく生成したり追加学習を遂行できる。
図9および図10は、本明細書の一実施形態により確認される基準品名情報および属性情報を説明するための図面である。
図9は、本明細書の一実施形態に係る情報提供装置によって基準品名情報が確認される場合を説明するための図面である。
図9を参照すると、情報提供装置は「#1 CW BIO-DISPERSANTFOR」という文字列を少なくとも一つの学習モデルを通じて確認することができる。例えば情報提供装置は、文字列を第1学習モデルを使って分析することに基づいて文字列に対応する基準品名情報を確認することができる。情報提供装置は確認された基準品名情報を提供することができる。例えば、情報提供装置は「#1 CW BIO-DISPERSANTFOR」が示す基準品名情報である「BIO-DISPERSANT」を確認してこれに関する情報を提供することができる。
実施形態において、情報提供装置は入力された文字列を確認された基準品目情報に基づいて修正して提供することができる。例えば情報提供装置は「#1 CW BIO-DISPERSANTFOR」という文字列が示す基準品目情報が「BIO-DISPERSANT」であることに対応して、文字列を「#1 CW BIO-DISPERSANT」という文字列に修正して提供することができる。
図10は、本明細書の一実施形態に係る情報提供装置によって属性情報が確認された場合を説明するための図面である。
図10を参照すると、情報提供装置は文字列を第2学習モデルを利用して分析することができる。情報提供装置は第2学習モデルを通じて文字列が示す属性情報を確認し、確認された属性情報を提供することができる。
実施形態において、第2学習モデルに文字列が入力される前、基準品目情報が決定されることにより文字列に対するトークン化が遂行され得る。例えば基準品目情報に対応する属性情報に基づいてトークン化が遂行されることに基づいて、文字列は一つ以上の単語に区分され得る。区分された単語は第2学習モデルを通じて分析されることに基づいて単語別に対応する属性情報が確認され得る。
一実施形態において、トークン化に基づいて、基準品目情報により予め指定された属性情報の類型別に文字列を構成する単語が区分され得る。例えば文字列が第1基準品目であり、予め指定された属性情報がSIZE、FLOW RATE、PUMPING HEAD、POWERである場合、トークン化により文字列を構成する単語のうち「Q:10M3/HR HEAD:20M 3.7KW」はSIZEに関連したものであると区分され得る。
ただし、このようなトークン化は文字列の分かち書きや文章記号のような構成によって遂行されるものであるため、「Q:10M3/HR HEAD:20M 3.7KW」はSIZEに関連したものではなく異なる属性情報(例:FLOW RATE、PUMPING HEAD、POWER)に関連したものであり得る。情報提供装置は第2学習モデルを通じてトークン化された単語を分析することによって正確な属性情報を確認することができる。トークン化に関連したより具体的な説明は図11を参照することができる。
すなわち、図示された通り、情報提供装置は「Q:10M3/HR HEAD:20M 3.7KW」を第2学習モデルを通じて分析して実際の属性情報(例:FLOW RATE、PUMPING HEAD、POWER)を確認することができる。また、実際の属性情報により単語を再構成して、これに関する情報を図示されたように提供することができる。
ただし、これに制限されるものではなく、実施形態により属性情報はマッチングされていない状態で文字列が単語で区分されてもよい。このような場合にも情報提供装置は区分された単語を第2学習モデルに適用することができ、単語に対応する属性情報を確認することができる。
図11は、本明細書の一実施形態により属性情報基盤の分類を遂行する前に前処理を遂行する方法を説明するための図面である。
実施形態において、アイテムに関する情報に含まれた各属性情報は区画文字で分類されたものであり得、区画文字なしに連続した文字で構成され得る。もしアイテムに関する情報に含まれた各属性項目が区分されず、連続した文字で入力された場合、前処理なしでは各属性項目を識別することが困難であり得る。このような場合、一実施形態に係るアイテム分類装置はアイテム分類を遂行する前にアイテムに関する情報を前処理することができる。
具体的には、一実施形態に係るアイテム分類装置は、アイテムに関する情報間の類似度を計算する前に機械学習を通じてアイテムに関する情報に含まれたそれぞれの単語を識別するための前処理を遂行できる。
図11を参照すると、アイテムに関する情報が連続した文字列1110で入力された場合、一実施形態に係るアイテム分類装置は空白または特定文字を基準として、連続した文字列1110内の文字をタギング(tagging)のための単位として分類することができる。ここで、タギングのための単位の文字列1120はトークン化単位の文字列1140より長さが短い文字列と定義され、開始(BEGIN_)、連続(INNER_)および終了(O)タグを追加する単位を意味する。
その後、アイテム分類装置は各タギングのための単位の文字列1120ごとに機械学習アルゴリズム1130を利用してタグを追加することができる。例えば、図11のGLOBEにはBEGIN_タグが追加され得、/にはINNER_タグが追加され得る。
一方、アイテム分類装置は開始(BEGIN_)タグが追加されたトークンから終了(O)タグが追加されたトークンまでを一つの単語として認識することができ、または開始(BEGIN_)タグが追加されたトークンから次の開始(BEGIN_)タグが追加されたトークン以前のトークンまでを一つの単語として認識することができる。したがって、アイテム分類装置は連続した文字列1110からトークン化単位の文字列1140を認識できることになる。
したがって、アイテム分類装置は図11に開示された方法により、アイテムに関する情報に含まれた各トークンを識別した後、アイテムに関する情報を分類することができる。
前述した実施形態に係るプロセッサは、プロセッサ、プログラムデータを保存し実行するメモリ、ディスクドライブのような永久保存部(permanent storage)、外部装置と通信する通信ポート、タッチパネル、キー(key)、ボタンなどのようなユーザインターフェース装置などを含むことができる。ソフトウェアモジュールまたはアルゴリズムで具現される方法は前記プロセッサ上で実行可能なコンピュータ読み取り可能なコードまたはプログラム命令であって、コンピュータ読み取り可能な記録媒体上に保存され得る。ここで、コンピュータ読み取り可能な記録媒体として、マグネチック保存媒体(例えば、ROM(read-only memory)、RAM(random-Access memory)、フロッピーディスク、ハードディスクなど)および光学的読み取り媒体(例えば、シーディーロム(CD-ROM)、ティブイディ(DVD:Digital Versatile Disc))等がある。コンピュータ読み取り可能な記録媒体はネットワークに連結されたコンピュータシステムに分散されて、分散方式でコンピュータが読み取り可能なコードが保存され実行され得る。媒体はコンピュータによって読み取り可能であり、メモリに保存され、プロセッサで実行され得る。
本実施形態は機能的なブロック構成および多様な処理段階で示され得る。このような機能ブロックは特定の機能を実行する多様な個数のハードウェアまたは/およびソフトウェア構成で具現され得る。例えば、実施形態は一つ以上のマイクロプロセッサの制御または他の制御装置によって多様な機能を実行できる、メモリ、プロセッシング、ロジック(logic)、ルックアップテーブル(look-up table)などのような直接回路構成を採用することができる。構成要素がソフトウェアプログラミングまたはソフトウェア要素で実行され得るのと同様に、本実施形態はデータ構造、プロセス、ルーチンまたは他のプログラミング構成の組み合わせで具現される多様なアルゴリズムを含み、C、C++、ジャバ(Java)、パイソン(python)などのようなプログラミングまたはスクリプト言語で具現され得る。機能的な側面は一つ以上のプロセッサで実行されるアルゴリズムで具現され得る。また、本実施形態は電子的な環境設定、信号処理、および/またはデータ処理などのために従来技術を採用することができる。「メカニズム」、「要素」、「手段」、「構成」のような用語は広く使われ得、機械的かつ物理的な構成で限定されるものではない。前記用語はプロセッサなどと連係してソフトウェアの一連の処理(routines)の意味を含むことができる。
前述した実施形態は一例示に過ぎず、後述する請求項の範囲内で他の実施形態が具現され得る。

Claims (14)

  1. 機械学習を通じての学習モデルを使った情報提供方法であって、
    学習モデル生成に関連した複数のアイテムに関する情報を示す複数の文字列を含む第1セットの文字列を確認する段階と、
    前記第1セットの文字列に基づいて少なくとも一つの学習モデルを生成する段階と、
    情報分類対象に関連した複数のアイテムに関する情報を示す複数の文字列を含む第2セットの文字列を確認する段階と、
    前記少なくとも一つの学習モデルを使って、前記第2セットの文字列の少なくとも一部それぞれに対する基準品名情報および属性情報を確認する段階と、を含む、情報提供方法。
  2. 前記第1セットの文字列は前記第2セットの文字列を含むソース文字列セットから選択され、
    前記少なくとも一つの学習モデルは前記第1セットの文字列および前記第1セットの文字列に対して基準品名情報と属性情報に基づいて生成される、請求項1に記載の情報提供方法。
  3. 前記第1セットの文字列は前記第2セットの文字列を含むソース文字列セットから選択され、
    前記ソース文字列セットに含まれる文字列は属性情報に対応するカテゴリー情報を有し、前記第1セットの文字列は前記カテゴリー情報を基準として前記ソース文字列セットから選択される、請求項1に記載の情報提供方法。
  4. 前記第1セットの文字列は前記カテゴリー情報を基準として前記ソース文字列セットで同一カテゴリーを有する文字列のうち基準比率以上の文字列を含む、請求項3に記載の情報提供方法。
  5. 前記基準比率は前記複数のアイテムの種類、前記複数の文字列の長さおよびカテゴリーの個数のうち少なくとも一つに基づいて決定される、請求項4に記載の情報提供方法。
  6. 前記少なくとも一つの学習モデルは基準品名情報の導出に関連した第1学習モデルおよび属性情報の導出に関連した第2学習モデルを含む、請求項1に記載の情報提供方法。
  7. 前記基準品名情報および属性情報を確認する段階は、
    前記第1学習モデルを通じて前記第2セットの文字列に基づいて基準品名情報を導き出す段階と、
    前記基準品名情報に基づいて前記第2セットの文字列それぞれのうち少なくとも一部をトークン化する段階と、
    前記第2学習モデルを通じて前記トークン化された文字列に基づいて属性情報を導き出す段階と;を含む、請求項6に記載の情報提供方法。
  8. 前記トークン化する段階は、
    前記第2セットの文字列に含まれた空白を基準として前記第2セットの文字列それぞれのうち少なくとも一部をトークン化する段階と、
    機械学習を通じて、前記トークン化に基づいて生成された複数のトークンそれぞれにタグを追加する段階と、
    前記タグに基づいて一つ以上のトークンを単語として決定する段階を含む、請求項7に記載の情報提供方法。
  9. 前記属性情報を導き出す段階は、前記第2学習モデルを通じて前記決定された単語に基づいて属性情報を導き出す段階を含む、請求項8に記載の情報提供方法。
  10. 前記タグは開始タグ、連続タグおよび終了タグを含み、
    前記単語で決定する段階は、前記開始タグが追加されたトークンから次の開始タグが追加されたトークン以前のトークンまたは終了タグが追加されたトークンまでを一つの単語として決定する段階を含む、請求項8に記載の情報提供方法。
  11. 前記少なくとも一つの学習モデルはCNN(convolution neural network)を含む、請求項1に記載の情報提供方法。
  12. 前記少なくとも一つの学習モデルは、学習繰り返し(iteration)回数、前記機械学習のためのテキスト個数単位、前記機械学習アルゴリズムの隠れユニット(hidden unit)の個数、前記機械学習アルゴリズムの出力ベクトルの次元、前記出力ベクトルのドロップアウト(dropout)、前記機械学習アルゴリズムのバッチサイズ(batch size)およびラーニングレート(learning rate)のうち少なくとも一つを利用して学習が遂行される、請求項1に記載の情報提供方法。
  13. 機械学習を通じての学習モデルを使った情報提供装置であって、
    少なくとも一つの命令語(instruction)を含むメモリと、
    プロセッサを含み、
    前記プロセッサは前記少なくとも一つの命令語に基づいて、
    学習モデル生成に関連した複数のアイテムに関する情報を示す複数の文字列を含む第1セットの文字列を確認し、
    前記第1セットの文字列に基づいて少なくとも一つの学習モデルを生成し、
    情報分類対象に関連した複数のアイテムに関する情報を示す複数の文字列を含む第2セットの文字列を確認し、
    前記少なくとも一つの学習モデルを使って、前記第2セットの文字列の少なくとも一部それぞれに対する基準品名情報および属性情報を確認する、情報提供装置。
  14. 機械学習を通じての学習モデルを使った情報提供方法をコンピュータで実行させるためのプログラムを記録したコンピュータ読み取り可能な非一過性の記録媒体であって、
    前記情報提供方法は、
    学習モデル生成に関連した複数のアイテムに関する情報を示す複数の文字列を含む第1セットの文字列を確認する段階と、
    前記第1セットの文字列に基づいて少なくとも一つの学習モデルを生成する段階と、
    情報分類対象に関連した複数のアイテムに関する情報を示す複数の文字列を含む第2セットの文字列を確認する段階と、
    前記少なくとも一つの学習モデルを使って、前記第2セットの文字列の少なくとも一部それぞれに対する基準品名情報および属性情報を確認する段階と、を含む、非一過性の記録媒体。
JP2021189434A 2020-11-23 2021-11-22 機械学習を通じての学習モデルを使った情報提供方法および装置 Active JP7287699B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200158143A KR102271810B1 (ko) 2020-11-23 2020-11-23 기계 학습을 통한 학습 모델을 사용한 정보 제공 방법 및 장치
KR10-2020-0158143 2020-11-23

Publications (2)

Publication Number Publication Date
JP2022082524A true JP2022082524A (ja) 2022-06-02
JP7287699B2 JP7287699B2 (ja) 2023-06-06

Family

ID=76896811

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021189434A Active JP7287699B2 (ja) 2020-11-23 2021-11-22 機械学習を通じての学習モデルを使った情報提供方法および装置

Country Status (3)

Country Link
US (1) US20220164850A1 (ja)
JP (1) JP7287699B2 (ja)
KR (1) KR102271810B1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230100462A (ko) * 2021-12-28 2023-07-05 (주)메디아이플러스 다국가 임상데이터 표준화 방법 및 장치
KR102417554B1 (ko) * 2022-02-18 2022-07-07 주식회사 튜닙 비식별 처리된 대화 서비스용 학습 데이터를 생성하는 장치, 방법 및 컴퓨터 프로그램

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080167974A1 (en) * 2005-05-19 2008-07-10 Nhn Corporation Commodity Information Registering Method and System Which Automatically Matches Commodity Model and Category With the Commodity Information
JP2009026195A (ja) * 2007-07-23 2009-02-05 Yokohama National Univ 商品分類装置、商品分類方法及びプログラム
JP2012088803A (ja) * 2010-10-15 2012-05-10 Univ Of Aizu 悪性ウェブコード判別システム、悪性ウェブコード判別方法および悪性ウェブコード判別用プログラム
JP2017182663A (ja) * 2016-03-31 2017-10-05 日本電気株式会社 コンテンツ管理装置、コンテンツ管理方法及びプログラム
JP2019164402A (ja) * 2018-03-19 2019-09-26 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8285721B2 (en) * 2008-09-29 2012-10-09 Ebay Inc. Mapping item records to product records
US11367116B1 (en) * 2018-12-11 2022-06-21 Staples, Inc. System and method for automatic product matching
KR102199835B1 (ko) * 2018-12-31 2021-01-07 주식회사 엘솔루 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법
JP2020113035A (ja) * 2019-01-11 2020-07-27 株式会社東芝 分類支援システム、分類支援装置、学習装置、分類支援方法、及びプログラム
US20210303726A1 (en) * 2020-03-31 2021-09-30 Intuit Inc. Privacy preserving synthetic string generation using recurrent neural networks
US20210374825A1 (en) * 2020-05-27 2021-12-02 Ebay Inc. Generating relationship data from listing data
US10949907B1 (en) * 2020-06-23 2021-03-16 Price Technologies Inc. Systems and methods for deep learning model based product matching using multi modal data
US20220114821A1 (en) * 2020-07-17 2022-04-14 Nielsen Consumer Llc Methods, systems, articles of manufacture and apparatus to categorize image text
WO2022031999A1 (en) * 2020-08-05 2022-02-10 Foodspace Technology, LLC Method and apparatus for extracting product attributes from packaging

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080167974A1 (en) * 2005-05-19 2008-07-10 Nhn Corporation Commodity Information Registering Method and System Which Automatically Matches Commodity Model and Category With the Commodity Information
JP2009026195A (ja) * 2007-07-23 2009-02-05 Yokohama National Univ 商品分類装置、商品分類方法及びプログラム
JP2012088803A (ja) * 2010-10-15 2012-05-10 Univ Of Aizu 悪性ウェブコード判別システム、悪性ウェブコード判別方法および悪性ウェブコード判別用プログラム
JP2017182663A (ja) * 2016-03-31 2017-10-05 日本電気株式会社 コンテンツ管理装置、コンテンツ管理方法及びプログラム
JP2019164402A (ja) * 2018-03-19 2019-09-26 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
US20220164850A1 (en) 2022-05-26
JP7287699B2 (ja) 2023-06-06
KR102271810B1 (ko) 2021-07-02

Similar Documents

Publication Publication Date Title
US10380236B1 (en) Machine learning system for annotating unstructured text
US11663409B2 (en) Systems and methods for training machine learning models using active learning
US20230015665A1 (en) Multi-turn dialogue response generation with template generation
US20190180196A1 (en) Systems and methods for generating and updating machine hybrid deep learning models
Ahmed et al. Capbug-a framework for automatic bug categorization and prioritization using nlp and machine learning algorithms
US20200333772A1 (en) Semantic modeling and machine learning-based generation of conceptual plans for manufacturing assemblies
KR20210023452A (ko) 속성 단위 리뷰 분석 장치 및 방법
Iqbal et al. A bird's eye view on requirements engineering and machine learning
US20230297776A1 (en) Intelligent knowledge management-driven decision making model
JP7287699B2 (ja) 機械学習を通じての学習モデルを使った情報提供方法および装置
WO2020005769A1 (en) Visualization of user intent in virtual agent interaction
Sharp et al. Toward Semi-autonomous Information: Extraction for Unstructured Maintenance Data in Root Cause Analysis
US11836331B2 (en) Mathematical models of graphical user interfaces
JP7291419B2 (ja) 機械学習基盤類似アイテムに関する情報を提供する方法および装置
CN112101029B (zh) 一种基于bert模型的高校导师推荐管理方法
US20230351121A1 (en) Method and system for generating conversation flows
CN111126038B (zh) 信息获取模型生成方法、装置及信息获取方法、装置
US10529002B2 (en) Classification of visitor intent and modification of website features based upon classified intent
JP7332190B2 (ja) 機械学習基盤情報の提供方法および装置
Viswanathan et al. R: Recipes for analysis, visualization and machine learning
Wang et al. Numerical Machine Learning
CN111506554B (zh) 数据标注方法以及相关装置
AU2021258019A1 (en) Utilizing machine learning models to generate initiative plans
Trivedi Machine Learning Fundamental Concepts
US20240070588A1 (en) Intelligent systems and methods for managing application portfolios

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230424

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230518

R150 Certificate of patent or registration of utility model

Ref document number: 7287699

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150