JP6850806B2 - 電子データ構造から属性を抽出するための注釈システム - Google Patents
電子データ構造から属性を抽出するための注釈システム Download PDFInfo
- Publication number
- JP6850806B2 JP6850806B2 JP2018536265A JP2018536265A JP6850806B2 JP 6850806 B2 JP6850806 B2 JP 6850806B2 JP 2018536265 A JP2018536265 A JP 2018536265A JP 2018536265 A JP2018536265 A JP 2018536265A JP 6850806 B2 JP6850806 B2 JP 6850806B2
- Authority
- JP
- Japan
- Prior art keywords
- string
- token
- tokens
- annotation
- attributes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 82
- 238000012360 testing method Methods 0.000 claims description 59
- 238000004891 communication Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 28
- 238000013507 mapping Methods 0.000 claims description 15
- 238000013179 statistical model Methods 0.000 claims description 8
- 239000003550 marker Substances 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 19
- 230000006870 function Effects 0.000 description 17
- 238000000605 extraction Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 241000220223 Fragaria Species 0.000 description 2
- 235000016623 Fragaria vesca Nutrition 0.000 description 2
- 235000011363 Fragaria x ananassa Nutrition 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 235000013618 yogurt Nutrition 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 235000013351 cheese Nutrition 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- Medical Informatics (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Library & Information Science (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
電子商取引および電子棚札システムがより広く普及するにつれて、製品情報の提供および製品情報の正確性の保証に関して新たな困難が生じる。例えば、電子棚札において、異なる製品の各々は、多くの異なる属性を含む。これらの属性は、識別番号、価格、ブランド名、詳細な説明などを含むことができる。したがって、棚札の個々のカテゴリに数千個の異なる製品が含まれている場合、特に情報の入力が手動作業であることを考慮すると、情報の正確性を保証することは、複雑で時間のかかる作業である。
本開示の一態様において、命令を格納する非一時的なコンピュータ可読媒体が開示される。命令は、コンピューティング装置の1つ以上のプロセッサによって実行されると、コンピューティング装置に少なくとも以下のことを実行させ、以下のことは、記述文字列からのトークンを製品の規定の属性と相関させることを含み、規定の属性は、電子棚札データベース内の列に編成され、トークンを相関させることは、規定の属性のうちトークンとマッチする規定の属性を識別することと、規定の属性と各トークンとの間のマッチを示すように、注釈文字列を用いてトークンを列にマッピングすることとを含み、製品の各々は、記述文字列および注釈文字列のうち対応する1つに関連付けられ、記述文字列の各々は、棚札中の製品の属性を示す英数字の構造化されていない組み合わせを含み、以下のことは、規定の属性と識別されたトークンとの間の相関に従って、記述文字列および注釈文字列を反復的に解析することによって、トークンのうち識別されていないトークンについての推奨マッチを生成することと、記述文字列からトークンを抽出し、注釈文字列のマッピングによって指定された列にトークンを挿入することによって、トークンを電子棚札データベースにポピュレートすることを含む。同様の機能を実行するコンピュータ実装方法が開示される。
本明細書は、コンピュータ化システムおよび方法を記載する。これらのシステムおよび方法は、製品に関する非構造化属性情報を含む記述文字列を、その属性情報を適切な列と相関させるデータベース内の構造化エントリに変換する。一実施形態において、コンピューティングシステムは、データ構造にアクセスし、単一のカテゴリに分類された製品のデータ構造から、記述文字列の形にした属性情報を読み取る。カテゴリは、例えば、ヨーグルト、チーズ、男性用ネクタイ、または他の製品種類である。いずれの場合、製品は通常種類に関連させられる。しかしながら、記述文字列に含まれた情報が様々な異なるソースから提供され且つ任意の標準に準拠するように制御されていないため、これらの記述文字列は、構造化されていない。すなわち、例えば、記述文字列は、既知のクラス分け、ラベリングまたは他の既知のフォーマットに従って個々の属性を抽出できるように、体系的に編成されていない。記述文字列は、特定のフォーマット、プロトコルまたは他の配置に準拠していない。したがって、これらの記述文字列は、構造化されていない。
図6は、本明細書に記載された1つ以上の例示的なシステムおよび方法および/または等価物で構成および/またはプログラムされたコンピューティング装置の例を示す。例示的なコンピューティング装置は、バス608によって動作可能に接続されたプロセッサ602、メモリ604および入出力ポート610を含むコンピュータ600であってもよい。一例では、コンピュータ600は、図1のコンピューティングシステム100および関連する方法200〜500と同様に、記述ストリングから非構造化属性を容易に抽出するように構成された注釈ロジック630を含むことができる。異なる例では、抽出ロジック630は、ハードウェア、命令を記憶する非一時的なコンピュータ可読媒体、ファームウェア、および/またはそれらの組み合わせで実装されてもよい。抽出ロジック630は、バス608に取り付けられたハードウェア要素として示されているが、他の実施形態では、抽出ロジック630は、プロセッサ602に実装され、メモリ604に格納され、またはディスク606に格納されてもよい。
別の実施形態において、記載の方法および/またはその均等物は、コンピュータ実行可能な命令を用いて実装されてもよい。したがって、一実施形態において、非一時的コンピュータ可読/記憶媒体は、格納されたアルゴリズム/実行可能アプリケーションのコンピュータ実行可能な命令を含むように構成され、これらの命令は、機械装置によって実行されると、機械装置(および/または関連する要素)に方法を実行させる。例示的な機械装置は、プロセッサ、コンピュータ、クラウドコンピューティングシステムで動作するサーバ、SaaS(Software as a Service)アーキテクチャに構築されたサーバ、スマートフォンなどを含むがこれらに限定されない。一実施形態において、コンピューティング装置は、開示された方法のいずれかを実行するように構成された1つ以上の実行可能なアルゴリズムで実装される。
Claims (10)
- 命令を含むコンピュータ可読プログラムであって、前記命令は、コンピューティング装置の1つ以上のプロセッサによって実行されると、前記コンピューティング装置に少なくとも以下のことを実行させ、
前記以下のことは、記述文字列からのトークンを複数の製品の規定の属性と相関させることを含み、前記規定の属性は、電子棚札データベース内の列に編成され、
前記トークンを相関させることは、前記規定の属性のうち前記トークンとマッチする規定の属性を識別することと、前記規定の属性と前記各トークンとの間のマッチを示すように、注釈文字列を用いて前記トークンを前記列にマッピングすることとを含み、
前記複数の製品の各々は、前記記述文字列および前記注釈文字列のうち対応する1つに関連付けられ、前記記述文字列の各々は、棚札中の前記複数の製品の属性を示す英数字の構造化されていない組み合わせを含み、
前記以下のことは、
前記規定の属性と識別されたトークンとの間の相関に従って、前記記述文字列および前記注釈文字列を反復的に解析することによって、前記トークンのうち識別されていないトークンについての推奨マッチを生成することと、
前記記述文字列から前記トークンを抽出し、前記注釈文字列のマッピングによって指定された列に前記トークンを挿入することによって、前記トークンを前記電子棚札データベースにポピュレートすることとを含む、コンピュータ可読プログラム。 - 前記トークンを前記電子棚札データベースにポピュレートすることを前記コンピューティング装置に実行させる前記命令は、前記コンピューティング装置に、
前記記述文字列から前記トークンを自動的に抽出し、記述を前記複数の製品の各々についての前記電子棚札データベースにポピュレートするために前記注釈文字列によって識別された前記電子棚札データベースの列に前記トークンを格納することによって、前記注釈文字列に従って前記記述文字列を構造化することを実行させる命令を含み、
前記トークンは、異なる長さを有し、
前記棚札は、小売業の棚札であり、
境界マーカは、前記記述文字列のトークンを区切り、スペースまたは英数字以外の文字を含む、請求項1に記載のコンピュータ可読プログラム。 - 前記棚札のカテゴリ内の前記複数の製品の前記記述文字列を含む電子データを記憶媒体から読み取ることによって、前記電子データにアクセスすることを前記コンピューティング装置に実行させる命令をさらに含み、前記記述文字列は、規定のプロトコルに準拠していない非構造化データ文字列であり、
前記規定の属性は、前記電子棚札データベースの列に関連付けられ、前記複数の製品の特性を含み、
前記トークンを相関させることは、前記注釈文字列を初期化することによって、前記トークンと前記規定の属性との間のマッチを初期に識別する、請求項1または2に記載のコンピュータ可読プログラム。 - 前記トークンを相関させることを前記コンピューティング装置に実行させる前記命令は、前記コンピューティング装置に、前記トークンと前記電子棚札データベース内の前記規定の属性との間のマッピングを追跡するように前記注釈文字列を作成することを実行させる命令を含み、前記注釈文字列を作成することは、電子データ構造を生成することと、前記記述文字列内の各文字に対応する値を用いて前記電子データ構造内の前記各注釈文字列を初期化することとを含み、前記記述文字列は、前記値が識別されていないトークンであることを指定し、前記注釈文字列は、前記記述文字列と1対1で対応し、
前記トークンを相関させることを前記コンピューティング装置に実行させる前記命令は、
前記トークンのうちの別個のトークンについての前記記述文字列を走査することによって、前記記述文字列を解析して、前記トークンのうちの別個のトークンについてのトークン頻度を決定することと、
前記別個のトークンについての前記トークン頻度に従って前記トークンをフィルタリングすることによって、前記トークンをリストアップすることと、
前記トークンを前記電子棚札データベース内の前記規定の属性と相関させるトークン制御入力によって指定された前記注釈文字列を変更することによって、前記トークンを識別することとを実行させる命令を含み、前記注釈文字列を変更することは、特有の識別子に従って前記注釈文字列内の前記識別されたトークンを注釈することによって、前記識別されたトークンを前記規定の属性にマッピングすることとを実行させる命令を含む、請求項1〜3のいずれか1項に記載のコンピュータ可読プログラム。 - 前記トークンを相関させることを前記コンピューティング装置に実行させる前記命令は、前記識別されたトークンを隣接する識別されていないトークンに関連付ける有向グラフに従って前記注釈文字列を絞り込むことによって、前記規定の属性のうち前記識別されていないトークンに対応する規定の属性を識別することを実行させる命令を含み、
前記有向グラフの各々は、前記記述文字列の各々からの2つの隣接トークンを含む、請求項1〜4のいずれか1項に記載のコンピュータ可読プログラム。 - 前記注釈文字列を絞り込むことを前記コンピューティング装置に実行させる前記命令は、
識別されたトークンである第1のトークンと識別されていないトークンである第2のトークンとを含む隣接トークンに従って、前記有向グラフを生成することを実行させる命令を含み、前記有向グラフの各々は、前記記述文字列の各々からの2つの隣接トークンの組み合わせであり、
前記注釈文字列を絞り込むことを前記コンピューティング装置に実行させる前記命令は、
前記有向グラフを解析することによって、前記トークンのうちの別個のペアについての有向グラフ頻度を決定することと、
前記有向グラフ頻度に従って前記有向グラフをフィルタリングすることによって、前記有向グラフをリストアップすることと、
前記有向グラフの各々の有向グラフ制御入力に従って、前記第1のトークンの注釈を用いて前記第2のトークンの注釈を置換することによって、前記注釈文字列を変更することと、
前記注釈文字列を変更した後、前記有向グラフのうち識別されていないトークンを含む有向グラフを示す未承認有向グラフのリストを生成することとを実行させる命令を含む、請求項5に記載のコンピュータ可読プログラム。 - 前記推奨マッチを生成することを前記コンピューティング装置に実行させる前記命令は、前記識別されていないトークンの数が規定の閾値を満たすまで、前記推奨マッチを用いて前記注釈文字列を反復的に更新することを前記コンピューティング装置に実行させる命令を含み、
前記推奨マッチを生成することを前記コンピューティング装置に実行させる前記命令は、選択された分布に従って、前記記述文字列および対応する前記注釈文字列をトレーニングセットおよびテストセットに分割することによって、2つの異なる文字列セットを電子入力として提供することを実行させる命令を含み、前記テストセット内の記述文字列には、注釈を含まず且つ前記テストセット内の記述文字列についての、前記注釈文字列の元の注釈文字列を一時的に置換するテスト用注釈文字列が割り当てられ、
前記推奨マッチを生成することを前記コンピューティング装置に実行させる前記命令は、条件付き確率場モデルを用いて前記トレーニングセットの前記注釈文字列からモデル化された前記トレーニングセットの前記トークンと前記規定の属性との間の相関に従って、前記テストセットおよび前記規定の属性を解析することを実行させる命令を含み、前記テストセットを解析することは、前記テストセットの前記記述文字列にテスト用注釈文字列を新たに注釈することによって、前記テストセットの前記記述文字列のトークンと前記規定の属性との間のマッチを提案することを含み、
前記推奨マッチを生成することを前記コンピューティング装置に実行させる前記命令は、前記テスト用注釈文字列と前記元の注釈文字列とを比較することによって、前記テストセットから新たに識別されたトークンから前記推奨マッチを生成することを実行させる命令を含む、請求項1〜6のいずれか1項に記載のコンピュータ可読プログラム。 - 前記注釈文字列と前記記述文字列の前記規定の属性との間の相関精度を検証するように、前記注釈文字列を解析することによって前記注釈文字列のエラーを検出することを前記コンピューティング装置に実行させる命令をさらに含む、請求項1〜7のいずれか1項に記載のコンピュータ可読プログラム。
- コンピューティングシステムであって、
コンピュータ可読プログラムに格納され、記述文字列からのトークンを製品の規定の属性と相関させるための命令を含むように構成された注釈モジュールを含み、前記規定の属性は、電子棚札データベース内の列に編成され、
前記トークンを相関させることは、前記規定の属性のうち前記トークンとマッチする規定の属性を識別することと、前記規定の属性と前記各トークンとの間のマッチを示すように、注釈文字列を用いて前記トークンを前記列にマッピングすることとを含み、
前記製品の各々は、前記記述文字列および前記注釈文字列のうち対応する1つに関連付けられ、前記記述文字列の各々は、棚札中の前記製品の属性を示す英数字の構造化されていない組み合わせを含み、
コンピュータ可読プログラムに格納され、相関の関数である統計モデルによって識別された前記規定の属性と識別されたトークンとの間の相関に従って、前記記述文字列および前記注釈文字列を反復的に解析することによって、前記トークンのうち識別されていないトークンについての推奨マッチを生成するための命令を含むように構成された推論モジュールを含み、前記推奨マッチを生成することは、前記推奨マッチを用いて前記注釈文字列を更新することによって、前記トークンのうち前記識別されていないトークンを前記規定の属性にマッピングすることを含み、
コンピュータ可読プログラムに格納され、前記注釈文字列のマッピングによって指定された列に前記トークンを挿入することによって、前記トークンを前記電子棚札データベースにポピュレートするための命令を含むように構成される構造モジュールを含む、コンピューティングシステム。 - 記述文字列から属性を抽出するように構成されたプロセッサを含むコンピューティング装置によって実行されるコンピュータで実現される方法であって、
通信ネットワークを介して遠隔装置から、前記記述文字列を含む電子データのストリームを受信するステップを含み、前記記述文字列は、棚札中の複数の製品の属性を記述する英数字の構造化されていない組み合せであり、
少なくとも前記プロセッサが、前記記述文字列のトークンとマッチする電子棚札データベース内の規定の属性を識別し、注釈文字列を用いて前記トークンを前記規定の属性に関連付けられたデータベースの列にマッピングすることによって、前記トークンを前記電子棚札データベース内の前記規定の属性と相関させるステップを含み、
少なくとも前記プロセッサが、条件付き確率場モデルを用いて、前記識別されたトークンと前記規定の属性との間の既知の相関に従って、前記トークンのうち識別されていないトークンについての推奨マッチングを生成することによって、前記識別されていないトークンの前記注釈文字列を反復的に更新するステップと、
少なくとも前記プロセッサが、前記注釈文字列によって識別された列に前記記述文字列からの前記トークンを自動的に格納することによって、前記注釈文字列に従って前記記述文字列から識別された前記トークンをデータベースにポピュレートするステップとを含む、コンピュータで実現される方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/007,381 US10628403B2 (en) | 2016-01-27 | 2016-01-27 | Annotation system for extracting attributes from electronic data structures |
US15/007,381 | 2016-01-27 | ||
PCT/US2017/015002 WO2017132296A1 (en) | 2016-01-27 | 2017-01-26 | Annotation system for extracting attributes from electronic data structures |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2019503541A JP2019503541A (ja) | 2019-02-07 |
JP2019503541A5 JP2019503541A5 (ja) | 2019-11-14 |
JP6850806B2 true JP6850806B2 (ja) | 2021-03-31 |
Family
ID=57963504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018536265A Active JP6850806B2 (ja) | 2016-01-27 | 2017-01-26 | 電子データ構造から属性を抽出するための注釈システム |
Country Status (5)
Country | Link |
---|---|
US (1) | US10628403B2 (ja) |
EP (1) | EP3408802A1 (ja) |
JP (1) | JP6850806B2 (ja) |
CN (1) | CN108496190B (ja) |
WO (1) | WO2017132296A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11010768B2 (en) * | 2015-04-30 | 2021-05-18 | Oracle International Corporation | Character-based attribute value extraction system |
US10997507B2 (en) * | 2017-06-01 | 2021-05-04 | Accenture Global Solutions Limited | Data reconciliation |
US11509540B2 (en) * | 2017-12-14 | 2022-11-22 | Extreme Networks, Inc. | Systems and methods for zero-footprint large-scale user-entity behavior modeling |
US10642869B2 (en) * | 2018-05-29 | 2020-05-05 | Accenture Global Solutions Limited | Centralized data reconciliation using artificial intelligence mechanisms |
KR102129843B1 (ko) * | 2018-12-17 | 2020-07-03 | 주식회사 크라우드웍스 | 검증용 주석 처리 작업을 이용한 실전용 주석 처리 작업의 검증 방법 및 장치 |
US12028455B2 (en) * | 2020-07-14 | 2024-07-02 | Visa International Service Association | Privacy-preserving identity attribute verification using policy tokens |
US11645318B2 (en) * | 2020-08-20 | 2023-05-09 | Walmart Apollo, Llc | Systems and methods for unified extraction of attributes |
US11016980B1 (en) * | 2020-11-20 | 2021-05-25 | Coupang Corp. | Systems and method for generating search terms |
CN113377775B (zh) * | 2021-06-21 | 2024-02-02 | 特赞(上海)信息科技有限公司 | 信息处理方法及装置 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7082426B2 (en) * | 1993-06-18 | 2006-07-25 | Cnet Networks, Inc. | Content aggregation method and apparatus for an on-line product catalog |
MXPA04001463A (es) * | 2001-08-16 | 2005-04-29 | Trans World New York Llc | Sistema de muestreo, recomendacion y compra de medios de usuario personalizado utilizando base de datos de inventario en tiempo real. |
US7139752B2 (en) * | 2003-05-30 | 2006-11-21 | International Business Machines Corporation | System, method and computer program product for performing unstructured information management and automatic text analysis, and providing multiple document views derived from different document tokenizations |
US8977953B1 (en) * | 2006-01-27 | 2015-03-10 | Linguastat, Inc. | Customizing information by combining pair of annotations from at least two different documents |
JP2009026195A (ja) * | 2007-07-23 | 2009-02-05 | Yokohama National Univ | 商品分類装置、商品分類方法及びプログラム |
JP2010134709A (ja) * | 2008-12-04 | 2010-06-17 | Toshiba Corp | 語彙誤り検出装置及び語彙誤り検出方法 |
US8352473B2 (en) * | 2010-04-21 | 2013-01-08 | Microsoft Corporation | Product synthesis from multiple sources |
EP2469421A1 (en) * | 2010-12-23 | 2012-06-27 | British Telecommunications Public Limited Company | Method and apparatus for processing electronic data |
US20120330971A1 (en) * | 2011-06-26 | 2012-12-27 | Itemize Llc | Itemized receipt extraction using machine learning |
US8706758B2 (en) | 2011-10-04 | 2014-04-22 | Galisteo Consulting Group, Inc. | Flexible account reconciliation |
CN103309961B (zh) * | 2013-05-30 | 2015-07-15 | 北京智海创讯信息技术有限公司 | 基于马尔可夫随机场的网页正文提取方法 |
US9348815B1 (en) * | 2013-06-28 | 2016-05-24 | Digital Reasoning Systems, Inc. | Systems and methods for construction, maintenance, and improvement of knowledge representations |
CN103678665B (zh) * | 2013-12-24 | 2016-09-07 | 焦点科技股份有限公司 | 一种基于数据仓库的异构大数据整合方法和系统 |
US20150331936A1 (en) * | 2014-05-14 | 2015-11-19 | Faris ALQADAH | Method and system for extracting a product and classifying text-based electronic documents |
CN104008186B (zh) * | 2014-06-11 | 2018-10-16 | 北京京东尚科信息技术有限公司 | 从目标文本中确定关键词的方法和装置 |
CN105243162B (zh) * | 2015-10-30 | 2018-10-30 | 方正国际软件有限公司 | 基于关系型数据库存储的对象化数据模型查询方法及装置 |
-
2016
- 2016-01-27 US US15/007,381 patent/US10628403B2/en active Active
-
2017
- 2017-01-26 WO PCT/US2017/015002 patent/WO2017132296A1/en unknown
- 2017-01-26 CN CN201780005536.4A patent/CN108496190B/zh active Active
- 2017-01-26 JP JP2018536265A patent/JP6850806B2/ja active Active
- 2017-01-26 EP EP17703307.3A patent/EP3408802A1/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
WO2017132296A1 (en) | 2017-08-03 |
US10628403B2 (en) | 2020-04-21 |
JP2019503541A (ja) | 2019-02-07 |
CN108496190B (zh) | 2022-06-24 |
US20170212921A1 (en) | 2017-07-27 |
EP3408802A1 (en) | 2018-12-05 |
CN108496190A (zh) | 2018-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6850806B2 (ja) | 電子データ構造から属性を抽出するための注釈システム | |
CN109472033B (zh) | 文本中的实体关系抽取方法及系统、存储介质、电子设备 | |
CN106815192B (zh) | 模型训练方法及装置和语句情感识别方法及装置 | |
WO2017216980A1 (ja) | 機械学習装置 | |
CN111522989B (zh) | 用于图像检索的方法、计算设备和计算机存储介质 | |
JP2019503541A5 (ja) | ||
US20160117405A1 (en) | Information Processing Method and Apparatus | |
CN110515896B (zh) | 模型资源管理方法、模型文件制作方法、装置和系统 | |
US20150032708A1 (en) | Database analysis apparatus and method | |
US10002142B2 (en) | Method and apparatus for generating schema of non-relational database | |
US20200272668A1 (en) | Error correction method and apparatus, and computer readable medium | |
US11507746B2 (en) | Method and apparatus for generating context information | |
JP2008198132A (ja) | 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 | |
CN109933803B (zh) | 一种成语信息展示方法、展示装置、电子设备及存储介质 | |
CN114254110A (zh) | 用于确定文本数据的标签的方法和设备 | |
JP2019032704A (ja) | 表データ構造化システムおよび表データ構造化方法 | |
CN117093556A (zh) | 日志分类方法、装置、计算机设备及计算机可读存储介质 | |
US7853597B2 (en) | Product line extraction | |
JP2015018372A (ja) | 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム | |
US11113314B2 (en) | Similarity calculating device and method, and recording medium | |
CN113704519B (zh) | 一种数据集的确定方法、装置、计算机设备以及存储介质 | |
CN115204155A (zh) | 一种配置异常检测方法、装置、计算机设备和存储介质 | |
CN110543467B (zh) | 时间序列数据库的模式转换方法及装置 | |
JP6123372B2 (ja) | 情報処理システム、名寄せ判定方法及びプログラム | |
Thamviset et al. | Structured web information extraction using repetitive subject pattern |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190930 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190930 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201023 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210209 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210308 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6850806 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |