JP2019503541A5 - - Google Patents

Download PDF

Info

Publication number
JP2019503541A5
JP2019503541A5 JP2018536265A JP2018536265A JP2019503541A5 JP 2019503541 A5 JP2019503541 A5 JP 2019503541A5 JP 2018536265 A JP2018536265 A JP 2018536265A JP 2018536265 A JP2018536265 A JP 2018536265A JP 2019503541 A5 JP2019503541 A5 JP 2019503541A5
Authority
JP
Japan
Prior art keywords
string
token
annotation
instructions
tokens
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018536265A
Other languages
English (en)
Other versions
JP6850806B2 (ja
JP2019503541A (ja
Filing date
Publication date
Priority claimed from US15/007,381 external-priority patent/US10628403B2/en
Application filed filed Critical
Publication of JP2019503541A publication Critical patent/JP2019503541A/ja
Publication of JP2019503541A5 publication Critical patent/JP2019503541A5/ja
Application granted granted Critical
Publication of JP6850806B2 publication Critical patent/JP6850806B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (10)

  1. 命令を格納するコンピュータ可読プログラムであって、前記命令は、コンピューティング装置の1つ以上のプロセッサによって実行されると、前記コンピューティング装置に少なくとも以下のことを実行させ、
    前記以下のことは、記述文字列からのトークンを複数の製品の規定の属性と相関させることを含み、前記規定の属性は、電子棚札データベース内の列に編成され、
    前記トークンを相関させることは、前記規定の属性のうち前記トークンとマッチする規定の属性を識別することと、前記規定の属性と前記各トークンとの間のマッチを示すように、注釈文字列を用いて前記トークンを前記列にマッピングすることとを含み、
    前記複数の製品の各々は、前記記述文字列および前記注釈文字列のうち対応する1つに関連付けられ、前記記述文字列の各々は、棚札中の前記複数の製品の属性を示す英数字の構造化されていない組み合わせを含み、
    前記以下のことは、
    前記規定の属性と識別されたトークンとの間の相関に従って、前記記述文字列および前記注釈文字列を反復的に解析することによって、前記トークンのうち識別されていないトークンについての推奨マッチを生成することと、
    前記記述文字列から前記トークンを抽出し、前記注釈文字列のマッピングによって指定された列に前記トークンを挿入することによって、前記トークンを前記電子棚札データベースにポピュレートすることとを含む、コンピュータ可読プログラム
  2. 前記トークンを前記電子棚札データベースにポピュレートすることを前記コンピューティング装置に実行させる前記命令は、前記コンピューティング装置に、
    前記記述文字列から前記トークンを自動的に抽出し、記述を前記複数の製品の各々についての前記電子棚札データベースにポピュレートするために前記注釈文字列によって識別された前記電子棚札データベースの列に前記トークンを格納することによって、前記注釈文字列に従って前記記述文字列を構造化することを実行させる命令を含み、
    前記トークンは、異なる長さを有し、
    前記棚札は、小売業の棚札であり、
    境界マーカは、前記記述文字列のトークンを区切り、スペースまたは英数字以外の文字を含む、請求項1に記載のコンピュータ可読プログラム
  3. 前記棚札のカテゴリ内の前記複数の製品の前記記述文字列を含む電子データを記憶媒体から読み取ることによって、前記電子データにアクセスすることを前記コンピューティング装置に実行させる命令をさらに含み、前記記述文字列は、規定のプロトコルに準拠していない非構造化データ文字列であり、
    前記規定の属性は、前記電子棚札データベースの列に関連付けられ、前記複数の製品の特性を含み、
    前記トークンを相関させることは、前記注釈文字列を初期化することによって、前記トークンと前記規定の属性との間のマッチを初期に識別する、請求項1または2に記載のコンピュータ可読プログラム
  4. 前記トークンを相関させることを前記コンピューティング装置に実行させる前記命令は、前記コンピューティング装置に、前記トークンと前記電子棚札データベース内の前記規定の属性との間のマッピングを追跡するように前記注釈文字列を作成することを実行させる命令を含み、前記注釈文字列を作成することは、電子データ構造を生成することと、前記記述文字列内の各文字に対応する値を用いて前記電子データ構造内の前記各注釈文字列を初期化することとを含み、前記記述文字列は、前記値が識別されていないトークンであることを指定し、前記注釈文字列は、前記記述文字列と1対1で対応し、
    前記トークンを相関させることを前記コンピューティング装置に実行させる前記命令は、
    前記トークンのうちの別個のトークンについての前記記述文字列を走査することによって、前記記述文字列を解析して、前記トークンのうちの別個のトークンについてのトークン頻度を決定することと、
    前記別個のトークンについての前記トークン頻度に従って前記トークンをフィルタリングすることによって、前記トークンをリストアップすることと、
    前記トークンを前記電子棚札データベース内の前記規定の属性と相関させるトークン制御入力によって指定された前記注釈文字列を変更することによって、前記トークンを識別することとを実行させる命令を含み、前記注釈文字列を変更することは、特有の識別子に従って前記注釈文字列内の前記識別されたトークンを注釈することによって、前記識別されたトークンを前記規定の属性にマッピングすることとを実行させる命令を含む、請求項1〜3のいずれか1項に記載のコンピュータ可読プログラム
  5. 前記トークンを相関させることを前記コンピューティング装置に実行させる前記命令は、前記識別されたトークンを隣接する識別されていないトークンに関連付ける有向グラフに従って前記注釈文字列を絞り込むことによって、前記規定の属性のうち前記識別されていないトークンに対応する規定の属性を識別することを実行させる命令を含み、
    前記有向グラフの各々は、前記記述文字列の各々からの2つの隣接トークンを含む、請求項1〜4のいずれか1項に記載のコンピュータ可読プログラム
  6. 前記注釈文字列を絞り込むことを前記コンピューティング装置に実行させる前記命令は、
    識別されたトークンである第1のトークンと識別されていないトークンである第2のトークンとを含む隣接トークンに従って、前記有向グラフを生成することを実行させる命令を含み、前記有向グラフの各々は、前記記述文字列の各々からの2つの隣接トークンの組み合わせであり、
    前記注釈文字列を絞り込むことを前記コンピューティング装置に実行させる前記命令は、
    前記有向グラフを解析することによって、前記トークンのうちの別個のペアについての有向グラフ頻度を決定することと、
    前記有向グラフ頻度に従って前記有向グラフをフィルタリングすることによって、前記有向グラフをリストアップすることと、
    前記有向グラフの各々の有向グラフ制御入力に従って、前記第1のトークンの注釈を用いて前記第2のトークンの注釈を置換することによって、前記注釈文字列を変更することと、
    前記注釈文字列を変更した後、前記有向グラフのうち識別されていないトークンを含む有向グラフを示す未承認有向グラフのリストを生成することとを実行させる命令を含む、請求項5に記載のコンピュータ可読プログラム
  7. 前記推奨マッチを生成することを前記コンピューティング装置に実行させる前記命令は、前記識別されていないトークンの数が規定の閾値を満たすまで、前記推奨マッチを用いて前記注釈文字列を反復的に更新することを前記コンピューティング装置に実行させる命令を含み、
    前記推奨マッチを生成することを前記コンピューティング装置に実行させる前記命令は、選択された分布に従って、前記記述文字列および対応する前記注釈文字列をトレーニングセットおよびテストセットに分割することによって、2つの異なる文字列セットを電子入力として提供することを実行させる命令を含み、前記テストセット内の記述文字列には、注釈を含まず且つ前記テストセット内の記述文字列についての、前記注釈文字列の元の注釈文字列を一時的に置換するテスト用注釈文字列が割り当てられ、
    前記推奨マッチを生成することを前記コンピューティング装置に実行させる前記命令は、条件付き確率場モデルを用いて前記トレーニングセットの前記注釈文字列からモデル化された前記トレーニングセットの前記トークンと前記規定の属性との間の相関に従って、前記テストセットおよび前記規定の属性を解析することを実行させる命令を含み、前記テストセットを解析することは、前記テストセットの前記記述文字列にテスト用注釈文字列を新たに注釈することによって、前記テストセットの前記記述文字列のトークンと前記規定の属性との間のマッチを提案することを含み、
    前記推奨マッチを生成することを前記コンピューティング装置に実行させる前記命令は、前記テスト用注釈文字列と前記元の注釈文字列とを比較することによって、前記テストセットから新たに識別されたトークンから前記推奨マッチを生成することを実行させる命令を含む、請求項1〜6のいずれか1項に記載のコンピュータ可読プログラム
  8. 前記注釈文字列と前記記述文字列の前記規定の属性との間の相関精度を検証するように、前記注釈文字列を解析することによって前記注釈文字列のエラーを検出することを前記コンピューティング装置に実行させる命令をさらに含む、請求項1〜7のいずれか1項に記載のコンピュータ可読プログラム
  9. コンピューティングシステムであって、
    ンピュータ可読プログラムに格納され、記述文字列からのトークンを製品の規定の属性と相関させるための命令を含むように構成された注釈モジュールを含み、前記規定の属性は、電子棚札データベース内の列に編成され、
    前記トークンを相関させることは、前記規定の属性のうち前記トークンとマッチする規定の属性を識別することと、前記規定の属性と前記各トークンとの間のマッチを示すように、注釈文字列を用いて前記トークンを前記列にマッピングすることとを含み、
    前記製品の各々は、前記記述文字列および前記注釈文字列のうち対応する1つに関連付けられ、前記記述文字列の各々は、棚札中の前記製品の属性を示す英数字の構造化されていない組み合わせを含み、
    ンピュータ可読プログラムに格納され、相関の関数である統計モデルによって識別された前記規定の属性と識別されたトークンとの間の相関に従って、前記記述文字列および前記注釈文字列を反復的に解析することによって、前記トークンのうち識別されていないトークンについての推奨マッチを生成するための命令を含むように構成された推論モジュールを含み、前記推奨マッチを生成することは、前記推奨マッチを用いて前記注釈文字列を更新することによって、前記トークンのうち前記識別されていないトークンを前記規定の属性にマッピングすることを含み、
    ンピュータ可読プログラムに格納され、前記注釈文字列のマッピングによって指定された列に前記トークンを挿入することによって、前記トークンを前記電子棚札データベースにポピュレートするための命令を含むように構成される構造モジュールを含む、コンピューティングシステム。
  10. 記述文字列から属性を抽出するように構成されたプロセッサを含むコンピューティング装置によって実行されるコンピュータで実現される方法であって、
    通信ネットワークを介して遠隔装置から、前記記述文字列を含む電子データのストリームを受信するステップを含み、前記記述文字列は、棚札中の複数の製品の属性を記述する英数字の構造化されていない組み合せであり、
    少なくとも前記プロセッサ、前記記述文字列のトークンとマッチしている電子棚札データベース内の規定の属性を識別し、前記トークンを前記規定の属性に関連付けられたデータベースの列にリンクすることによって、前記トークンを前記電子棚札データベース内の前記規定の属性と相関させるステップを含み、前記トークンを相関させることは、前記複数の製品の各々について、注釈文字列を用いて前記リンクを追跡し注釈することを含み、
    少なくとも前記プロセッサ、条件付き確率場モデルを用いて、前記識別されたトークンと前記規定の属性との間の既知の相関に従って、前記トークンのうち識別されていないトークンについての推奨マッチングを生成することによって、前記識別されていないトークンの前記注釈文字列を反復的に更新するステップと、
    少なくとも前記プロセッサ、前記注釈文字列によって識別された列に前記記述文字列からの前記トークンを自動的に格納することによって、前記注釈文字列に従って前記記述文字列から識別された前記トークンをデータベースにポピュレートするステップとを含む、コンピュータで実現される方法。
JP2018536265A 2016-01-27 2017-01-26 電子データ構造から属性を抽出するための注釈システム Active JP6850806B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/007,381 2016-01-27
US15/007,381 US10628403B2 (en) 2016-01-27 2016-01-27 Annotation system for extracting attributes from electronic data structures
PCT/US2017/015002 WO2017132296A1 (en) 2016-01-27 2017-01-26 Annotation system for extracting attributes from electronic data structures

Publications (3)

Publication Number Publication Date
JP2019503541A JP2019503541A (ja) 2019-02-07
JP2019503541A5 true JP2019503541A5 (ja) 2019-11-14
JP6850806B2 JP6850806B2 (ja) 2021-03-31

Family

ID=57963504

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018536265A Active JP6850806B2 (ja) 2016-01-27 2017-01-26 電子データ構造から属性を抽出するための注釈システム

Country Status (5)

Country Link
US (1) US10628403B2 (ja)
EP (1) EP3408802A1 (ja)
JP (1) JP6850806B2 (ja)
CN (1) CN108496190B (ja)
WO (1) WO2017132296A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11010768B2 (en) * 2015-04-30 2021-05-18 Oracle International Corporation Character-based attribute value extraction system
US10997507B2 (en) * 2017-06-01 2021-05-04 Accenture Global Solutions Limited Data reconciliation
US11509540B2 (en) * 2017-12-14 2022-11-22 Extreme Networks, Inc. Systems and methods for zero-footprint large-scale user-entity behavior modeling
US10642869B2 (en) * 2018-05-29 2020-05-05 Accenture Global Solutions Limited Centralized data reconciliation using artificial intelligence mechanisms
KR102129843B1 (ko) * 2018-12-17 2020-07-03 주식회사 크라우드웍스 검증용 주석 처리 작업을 이용한 실전용 주석 처리 작업의 검증 방법 및 장치
US20220021537A1 (en) * 2020-07-14 2022-01-20 Visa International Service Association Privacy-preserving identity attribute verification using policy tokens
US11645318B2 (en) * 2020-08-20 2023-05-09 Walmart Apollo, Llc Systems and methods for unified extraction of attributes
US11016980B1 (en) 2020-11-20 2021-05-25 Coupang Corp. Systems and method for generating search terms
CN113377775B (zh) * 2021-06-21 2024-02-02 特赞(上海)信息科技有限公司 信息处理方法及装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7082426B2 (en) * 1993-06-18 2006-07-25 Cnet Networks, Inc. Content aggregation method and apparatus for an on-line product catalog
WO2003017045A2 (en) * 2001-08-16 2003-02-27 Trans World New York Llc User-personalized media sampling, recommendation and purchasing system using real-time inventory database
US7139752B2 (en) * 2003-05-30 2006-11-21 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, and providing multiple document views derived from different document tokenizations
US8977953B1 (en) * 2006-01-27 2015-03-10 Linguastat, Inc. Customizing information by combining pair of annotations from at least two different documents
JP2009026195A (ja) * 2007-07-23 2009-02-05 Yokohama National Univ 商品分類装置、商品分類方法及びプログラム
JP2010134709A (ja) * 2008-12-04 2010-06-17 Toshiba Corp 語彙誤り検出装置及び語彙誤り検出方法
US8352473B2 (en) * 2010-04-21 2013-01-08 Microsoft Corporation Product synthesis from multiple sources
EP2469421A1 (en) * 2010-12-23 2012-06-27 British Telecommunications Public Limited Company Method and apparatus for processing electronic data
US20120330971A1 (en) * 2011-06-26 2012-12-27 Itemize Llc Itemized receipt extraction using machine learning
US8706758B2 (en) 2011-10-04 2014-04-22 Galisteo Consulting Group, Inc. Flexible account reconciliation
CN103309961B (zh) * 2013-05-30 2015-07-15 北京智海创讯信息技术有限公司 基于马尔可夫随机场的网页正文提取方法
US9348815B1 (en) * 2013-06-28 2016-05-24 Digital Reasoning Systems, Inc. Systems and methods for construction, maintenance, and improvement of knowledge representations
CN103678665B (zh) * 2013-12-24 2016-09-07 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和系统
US20150331936A1 (en) * 2014-05-14 2015-11-19 Faris ALQADAH Method and system for extracting a product and classifying text-based electronic documents
CN104008186B (zh) * 2014-06-11 2018-10-16 北京京东尚科信息技术有限公司 从目标文本中确定关键词的方法和装置
CN105243162B (zh) * 2015-10-30 2018-10-30 方正国际软件有限公司 基于关系型数据库存储的对象化数据模型查询方法及装置

Similar Documents

Publication Publication Date Title
JP2019503541A5 (ja)
JP6850806B2 (ja) 電子データ構造から属性を抽出するための注釈システム
CN107704503A (zh) 用户关键词提取装置、方法及计算机可读存储介质
JP2017142844A5 (ja)
EP3218811B1 (en) Testing insecure computing environments using random data sets generated from characterizations of real data sets
CN107330613A (zh) 一种舆情监控方法、设备及计算机可读存储介质
JP5245255B2 (ja) 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置
JP2017536601A5 (ja)
CN112650923A (zh) 新闻事件的舆情处理方法及装置、存储介质、计算机设备
CN109471889B (zh) 报表加速方法、系统、计算机设备和存储介质
CN106294128B (zh) 一种导出报表数据的自动化测试方法及装置
CN109840255A (zh) 答复文本生成方法、装置、设备及存储介质
CN113641707B (zh) 知识图谱消歧方法、装置、设备及存储介质
US11288266B2 (en) Candidate projection enumeration based query response generation
CN111045670B (zh) 一种二进制代码与源代码间复用关系的识别方法与装置
CN113434542B (zh) 数据关系识别方法、装置、电子设备及存储介质
Chu et al. Automatic data extraction of websites using data path matching and alignment
CN110309214A (zh) 一种指令执行方法及其设备、存储介质、服务器
CN108052520A (zh) 基于主题模型的关联词分析方法、电子装置及存储介质
CN107861950A (zh) 异常文本的检测方法和装置
CN115062049B (zh) 一种数据血缘分析方法及装置
CN113704519B (zh) 一种数据集的确定方法、装置、计算机设备以及存储介质
US9842112B1 (en) System and method for identifying fields in a file using examples in the file received from a user
CN110334055B (zh) 一种获取材料计算数据的方法
CN113515630A (zh) 三元组生成和校验方法、装置、电子设备和存储介质