JP2013016172A5 - - Google Patents

Download PDF

Info

Publication number
JP2013016172A5
JP2013016172A5 JP2012148194A JP2012148194A JP2013016172A5 JP 2013016172 A5 JP2013016172 A5 JP 2013016172A5 JP 2012148194 A JP2012148194 A JP 2012148194A JP 2012148194 A JP2012148194 A JP 2012148194A JP 2013016172 A5 JP2013016172 A5 JP 2013016172A5
Authority
JP
Japan
Prior art keywords
data
partially
segment
processing
unstructured data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012148194A
Other languages
English (en)
Other versions
JP6022239B2 (ja
JP2013016172A (ja
Filing date
Publication date
Priority claimed from US13/173,028 external-priority patent/US9501455B2/en
Application filed filed Critical
Publication of JP2013016172A publication Critical patent/JP2013016172A/ja
Publication of JP2013016172A5 publication Critical patent/JP2013016172A5/ja
Application granted granted Critical
Publication of JP6022239B2 publication Critical patent/JP6022239B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (12)

  1. 少なくとも部分的に非構造化されたデータを処理する方法であって、
    データ処理ツールにおいて少なくとも一つのデータソースから少なくとも部分的に非構造化されたデータであって、メインアプリケーションからの実際のデータを含む少なくとも部分的に非構造化されたデータ含むデータファイルを受信するステップと
    タグ付きデータを含む少なくとも部分的に構造化されたデータの生成をもたらすために、プロセッサによって少なくとも部分的に非構造化されたデータを処理するステップであって、タグ付きデータは少なくとも1つの対象項目を含み、
    連想記憶アプリケーションを使用して少なくとも部分的に非構造化されたデータを処理することと
    正規表現処理プログラムを使用して少なくとも部分的に非構造化されたデータを処理すること、
    のうちの少なくとも一つを含む、前記少なくとも部分的に非構造化されたデータを処理するステップと、
    少なくとも部分的に構造化されたデータを含むデータファイルをメインアプリケーションへ送信するステップと
    少なくとも一部にはタグ付きデータに基づいて少なくとも部分的に構造化されたデータをメインアプリケーションへ組み込むステップであって、タグの存在、コンテンツ及び種類のうちの少なくとも1つに基づいてデータを含める及び除外するうちの少なくとも1つを含む、少なくとも部分的に構造化されたデータを組み込むステップと、
    ユーザインターフェースにおいて少なくとも部分的に構造化されたデータであって、間違ってタグ付けされた、及び間違ってタグ付けされなかったうちの少なくとも1つである誤認データの少なくとも1つのセグメントを含む少なくとも部分的に構造化されたデータを表示するステップと、
    ユーザインターフェースにおいて誤認データの少なくとも1つのセグメントのユーザ選択を受信するステップと、
    再識別データを形成するために誤認データをアップデートするステップと、
    再識別データをメインアプリケーションに組み込むステップと
    を備える、方法。
  2. 少なくとも部分的に構造化されたデータが正確にタグ付けされているかを検証し、
    少なくとも部分的に構造化されたデータをメインアプリケーションに組み込むことができるように、少なくとも部分的に構造化されたデータを開放する
    ステップをさらに含む、請求項1に記載の方法。
  3. 少なくとも部分的に構造化されたデータを検証するステップが、少なくとも部分的に構造化されたデータの一以上の識別タグを調べるステップを含む、請求項2に記載の方法。
  4. 連想記憶アプリケーションを使用して少なくとも部分的に非構造化されたデータを処理するステップが、
    少なくとも部分的に非構造化されたデータを少なくとも部分的に非構造化されたデータの一以上のセグメントにパースし、
    少なくとも部分的に非構造化されたデータの少なくとも1つのセグメントについて連想記憶アプリケーションにクエリを行い、
    少なくとも部分的に非構造化されたデータの少なくとも1つのセグメントと、連想記憶アプリケーションのデータの少なくとも1つのセグメントに関するスコアを生成し、
    スコアに基づいて少なくとも部分的に非構造化されたデータの少なくとも1つのセグメントをタグ付けする
    ステップを含む、請求項1又は2に記載の方法。
  5. 連想記憶アプリケーションにクエリを行うステップが、ボイラープレートを含むデータの少なくとも1つのセグメントを含む連想記憶アプリケーションにクエリを行うステップを含み、少なくとも部分的に非構造化されたデータの少なくとも1つのセグメントをタグ付けするステップが、ボイラープレートを含む少なくとも部分的に非構造化されたデータの少なくとも1つのセグメントをタグ付けするステップを含む、請求項4に記載の方法。
  6. 認データの少なくとも1つのセグメントに基づいてデータ処理ツールをアップデートする
    ステップをさらに含む、請求項1又は2又は4に記載の方法。
  7. 少なくとも部分的に構造化されたデータを出力テーブル及び出力ハイパーテキストマークアップ言語(HTML)ページのうちの一つに出力するステップをさらに含む、請求項1又は2は4又は6に記載の方法。
  8. 正規表現処理プログラムを使用して、少なくとも部分的に非構造化されたデータを処理するステップが、
    少なくとも1つのソースの正規表現パターンを少なくとも部分的に非構造化されたデータに適用し、
    少なくとも部分的に非構造化されたデータの少なくとも1つのセグメントを少なくとも1つのソースの正規表現パターンと照合し、
    少なくとも部分的に非構造化されたデータの少なくとも1つの照合済みセグメントを識別タグでタグ付けすることを含む、少なくとも部分的に非構造化されたデータの少なくとも一つの照合済みセグメントをタグ付けする
    ステップを含む、請求項1又は2又は4又は6又は7に記載の方法。
  9. 少なくとも部分的に非構造化されたデータを処理するシステムであって、
    処理デバイスと、
    前記処理デバイスに通信可能に連結されたユーザインターフェースと、
    前記処理デバイスに通信可能に連結された記憶装置及び前記処理装置に通信可能に連結された通信インターフェースのうちの少なくとも1つと、
    を含むシステムであって、前記処理デバイスは、
    前記記憶装置及び前記通信インターフェースのうちの少なくとも1つから少なくとも部分的に非構造化されたデータであって、メインアプリケーションからの実際のデータを備える少なくとも部分的に非構造化されたデータを受信し、
    少なくとも1つの対象項目を含むタグ付きデータを含む少なくとも部分的に構造化されたデータの生成をもたらすために、
    処理デバイス上で実行される連想記憶アプリケーションを使用して少なくとも部分的に非構造化されたデータを処理することと
    処理デバイス上で実行される正規表現処理プログラムを使用して少なくとも部分的に非構造化されたデータを処理すること
    のうちの少なくとも1つによって、処理デバイス上で実行されるデータ処理ツールを使用して少なくとも部分的に非構造化されたデータを処理し、
    タグ付けに基づいて少なくとも部分的に構造化されたデータをメインアプリケーションに組み込み、少なくとも部分的に構造化されたデータを組み込むステップがタグの存在に基づいてデータを含める及び除外するうちの少なくとも1つを含み、
    少なくとも部分的に構造化されたデータであって、間違ってタグ付けされた及び間違ってタグ付けされなかったもののうちの少なくとも1つである誤認データの少なくとも1つのセグメントを含む、少なくとも部分的に構造化されたデータをユーザインターフェースにおいて表示させ、
    誤認データの少なくとも1つのセグメントのユーザ選択を受信し、
    再識別データを形成するために誤認データをアップデートし、
    再識別データをメインアプリケーションに組み込む
    ようにプログラミングされている、システム。
  10. 前記処理デバイスがさらに、
    認データの少なくとも1つのセグメントに基づいて、処理デバイス上で実行されるデータ処理ツールをアップデートする
    ようにプログラミングされている、請求項9に記載のシステム。
  11. 連想記憶アプリケーションを使用して少なくとも部分的に非構造化されたデータを処理するために、前記処理デバイスがさらに、
    少なくとも部分的に非構造化されたデータを少なくとも部分的に非構造化されたデータの一以上のセグメントにパースし、
    少なくとも部分的に非構造化されたデータの少なくとも1つのセグメントについて、処理デバイス上で実行される連想記憶アプリケーションにクエリを行い、
    少なくとも部分的に非構造化されたデータの少なくとも1つのセグメントと、連想記憶アプリケーションのデータの少なくとも1つのセグメントに関するスコアを生成し、
    スコアに基づいて少なくとも部分的に非構造化されたデータの少なくとも1つのセグメントをタグ付けする
    ようにプログラミングされている、請求項9又は10に記載のシステム。
  12. 正規表現処理プログラムを使用して少なくとも部分的に非構造化されたデータを処理するために、前記処理デバイスがさらに、
    少なくとも1つのソースの正規表現パターンを少なくとも部分的に非構造化されたデータに適用し、
    少なくとも部分的に非構造化されたデータの少なくとも1つのセグメントを少なくとも1つのソースの正規表現パターンと照合し、
    少なくとも部分的に非構造化されたデータの少なくとも1つの照合済みセグメントをタグ付けする
    ようにプログラミングされており、
    前記処理デバイスがさらに、少なくとも部分的に構造化されたデータを前記記憶装置の出力テーブル及び出力ハイパーテキストマークアップ言語(HTML)ページのうちの一つに出力して、前記ユーザインターフェースを介して表示するようにプログラミングされている、
    請求項9は10又は11に記載のシステム。
JP2012148194A 2011-06-30 2012-07-02 データを処理するシステム及び方法 Active JP6022239B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/173,028 US9501455B2 (en) 2011-06-30 2011-06-30 Systems and methods for processing data
US13/173,028 2011-06-30

Publications (3)

Publication Number Publication Date
JP2013016172A JP2013016172A (ja) 2013-01-24
JP2013016172A5 true JP2013016172A5 (ja) 2015-08-13
JP6022239B2 JP6022239B2 (ja) 2016-11-09

Family

ID=46717696

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012148194A Active JP6022239B2 (ja) 2011-06-30 2012-07-02 データを処理するシステム及び方法

Country Status (5)

Country Link
US (1) US9501455B2 (ja)
EP (1) EP2541434A3 (ja)
JP (1) JP6022239B2 (ja)
CN (1) CN102915321B (ja)
CA (1) CA2775879C (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8818978B2 (en) * 2008-08-15 2014-08-26 Ebay Inc. Sharing item images using a similarity score
US8521769B2 (en) 2011-07-25 2013-08-27 The Boeing Company Locating ambiguities in data
US8527695B2 (en) 2011-07-29 2013-09-03 The Boeing Company System for updating an associative memory
US9111014B1 (en) * 2012-01-06 2015-08-18 Amazon Technologies, Inc. Rule builder for data processing
US9031967B2 (en) * 2012-02-27 2015-05-12 Truecar, Inc. Natural language processing system, method and computer program product useful for automotive data mapping
US9336187B2 (en) 2012-05-14 2016-05-10 The Boeing Company Mediation computing device and associated method for generating semantic tags
US10380246B2 (en) * 2014-12-18 2019-08-13 International Business Machines Corporation Validating topical data of unstructured text in electronic forms to control a graphical user interface based on the unstructured text relating to a question included in the electronic form
CN106375233B (zh) * 2015-11-09 2019-11-15 北京智谷技术服务有限公司 数据传输方法及数据传输装置
WO2017083742A1 (en) * 2015-11-12 2017-05-18 Google Inc. Neural network programmer
US10360501B2 (en) * 2015-12-31 2019-07-23 International Business Machines Corporation Real-time capture and translation of human thoughts and ideas into structured patterns
GB2547887A (en) * 2016-01-29 2017-09-06 Waazon (Holdings) Ltd Method and apparatus for generating amended marked-up text
US10592749B2 (en) 2016-11-14 2020-03-17 General Electric Company Systems and methods for analyzing turns at an airport
US10986061B2 (en) * 2017-01-16 2021-04-20 Ercan TURFAN Knowledge-based structured communication system
US10834336B2 (en) 2018-01-29 2020-11-10 Ge Aviation Systems Llc Thermal imaging of aircraft
US11783127B2 (en) * 2019-08-07 2023-10-10 Zinatt Technologies, Inc. Data entry feature for information tracking system

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5365430A (en) 1991-06-25 1994-11-15 At&T Bell Laboratories Method for parsing images
JP2001290801A (ja) 2000-02-04 2001-10-19 Fujitsu Ltd 構造文書化システム,構造文書化プログラム,及び、コンピュータ可読格納媒体
US7027974B1 (en) * 2000-10-27 2006-04-11 Science Applications International Corporation Ontology-based parser for natural language processing
US7194483B1 (en) * 2001-05-07 2007-03-20 Intelligenxia, Inc. Method, system, and computer program product for concept-based multi-dimensional analysis of unstructured information
US6947947B2 (en) * 2001-08-17 2005-09-20 Universal Business Matrix Llc Method for adding metadata to data
US20030154071A1 (en) * 2002-02-11 2003-08-14 Shreve Gregory M. Process for the document management and computer-assisted translation of documents utilizing document corpora constructed by intelligent agents
US20040024760A1 (en) * 2002-07-31 2004-02-05 Phonetic Research Ltd. System, method and computer program product for matching textual strings using language-biased normalisation, phonetic representation and correlation functions
US7769628B2 (en) 2003-06-03 2010-08-03 The Boeing Company Systems, methods and computer program products for modeling uncertain future demand, supply and associated profitability of a good
US20050278362A1 (en) * 2003-08-12 2005-12-15 Maren Alianna J Knowledge discovery system
US20090204507A1 (en) * 2004-02-26 2009-08-13 Change Research Incorporated Method and system for discovering and generating an insight via a network
US8041713B2 (en) * 2004-03-31 2011-10-18 Google Inc. Systems and methods for analyzing boilerplate
US20060224682A1 (en) * 2005-04-04 2006-10-05 Inmon Data Systems, Inc. System and method of screening unstructured messages and communications
US7653633B2 (en) * 2005-11-12 2010-01-26 Logrhythm, Inc. Log collection, structuring and processing
US7747605B2 (en) * 2006-04-17 2010-06-29 Perry J. Narancic Organizational data analysis and management
US8015162B2 (en) * 2006-08-04 2011-09-06 Google Inc. Detecting duplicate and near-duplicate files
US20090300482A1 (en) * 2006-08-30 2009-12-03 Compsci Resources, Llc Interactive User Interface for Converting Unstructured Documents
US8326819B2 (en) * 2006-11-13 2012-12-04 Exegy Incorporated Method and system for high performance data metatagging and data indexing using coprocessors
US20140188919A1 (en) * 2007-01-26 2014-07-03 Google Inc. Duplicate document detection
US8161045B2 (en) 2007-02-01 2012-04-17 The Boeing Company Use of associate memory learning agent technology to identify interchangeable parts in parts catalogs
US20080313143A1 (en) 2007-06-14 2008-12-18 Boeing Company Apparatus and method for evaluating activities of a hostile force
US8811596B2 (en) 2007-06-25 2014-08-19 The Boeing Company Apparatus including associative memory for evaluating audio communications
WO2009061399A1 (en) * 2007-11-05 2009-05-14 Nagaraju Bandaru Method for crawling, mapping and extracting information associated with a business using heuristic and semantic analysis
US8086592B2 (en) * 2007-11-30 2011-12-27 SAP France S.A. Apparatus and method for associating unstructured text with structured data
US8000956B2 (en) * 2008-02-08 2011-08-16 Xerox Corporation Semantic compatibility checking for automatic correction and discovery of named entities
US20090204610A1 (en) * 2008-02-11 2009-08-13 Hellstrom Benjamin J Deep web miner
JP5364296B2 (ja) 2008-06-05 2013-12-11 株式会社東芝 文書構造化処理装置、及び方法
US8266148B2 (en) * 2008-10-07 2012-09-11 Aumni Data, Inc. Method and system for business intelligence analytics on unstructured data
US10410146B2 (en) 2009-02-09 2019-09-10 The Boeing Company Associative memory learning agent for analysis of manufacturing non-conformance applications
US9542436B2 (en) 2009-02-09 2017-01-10 The Boeing Company Employing associative memory for enhanced lifecycle management
US9053159B2 (en) 2009-02-09 2015-06-09 The Boeing Company Non-conformance analysis using an associative memory learning agent
US8335754B2 (en) * 2009-03-06 2012-12-18 Tagged, Inc. Representing a document using a semantic structure
US8838490B2 (en) 2009-04-07 2014-09-16 The Boeing Company Associate memory learning for analyzing financial transactions
US20100268673A1 (en) 2009-04-16 2010-10-21 The Boeing Company Associate memory learning agent technology for travel optimization and monitoring
US20100306249A1 (en) * 2009-05-27 2010-12-02 James Hill Social network systems and methods
WO2011032094A1 (en) * 2009-09-11 2011-03-17 Arcsight, Inc. Extracting information from unstructured data and mapping the information to a structured schema using the naive bayesian probability model
EP2325762A1 (en) * 2009-10-27 2011-05-25 Exalead Method and system for processing information of a stream of information
US8417709B2 (en) * 2010-05-27 2013-04-09 International Business Machines Corporation Automatic refinement of information extraction rules
US9082140B2 (en) * 2010-06-09 2015-07-14 Ebay Inc. Systems and methods to extract and utilize textual semantics
US8239349B2 (en) * 2010-10-07 2012-08-07 Hewlett-Packard Development Company, L.P. Extracting data
US20120101860A1 (en) * 2010-10-25 2012-04-26 Ezzat Ahmed K Providing business intelligence
US8484245B2 (en) * 2011-02-08 2013-07-09 Xerox Corporation Large scale unsupervised hierarchical document categorization using ontological guidance
US8239425B1 (en) * 2011-02-28 2012-08-07 Battelle Memorial Institute Isolating desired content, metadata, or both from social media
US20120278336A1 (en) * 2011-04-29 2012-11-01 Malik Hassan H Representing information from documents

Similar Documents

Publication Publication Date Title
JP2013016172A5 (ja)
CA2775879A1 (en) Systems and methods for processing data
JP2014533407A5 (ja)
JP2004310748A5 (ja)
BR112014015666A8 (pt) sistema de análise de texto, estação de trabalho, sistema de informações de serviço de saúde para a provisão de um fluxo de trabalho de relatório eletrônico, método de análise de texto, e produto de programa de computador
JP2013533527A5 (ja)
US20120317472A1 (en) Creation of data extraction rules to facilitate web scraping of unstructured data from web pages
CA2676697A1 (en) Method and apparatus for providing information content for display on a client device
JP2016509711A5 (ja)
CA2751646A1 (en) Determining conversion probability using session metrics
CN104331640A (zh) 基于生物云平台的项目结题报告分析系统和方法
TW201614519A (en) Apparatus and application server for providing a service to a user
US20160132708A1 (en) Displaying method and decoding method for a dynamic recognizable two-dimensional code
CN109190062B (zh) 目标语料数据的爬取方法、装置及存储介质
TW201220087A (en) Finding partition boundaries for parallel processing of markup language documents
JP2015515657A5 (ja)
BR112018007488A2 (pt) método e sistema para determinar dados de tempo em relação a um processo de saída de não combustão de um gás combustível a partir de um tanque de gás em um veículo
BR112013030043A2 (pt) sistema de processamento de informações, método de gerenciamento de dados, dispositivo de processamento de informações e método de controle e programa de controle para o mesmo
JP2017538193A5 (ja)
US20140281878A1 (en) Aligning Annotation of Fields of Documents
CN104281711B (zh) Web应用多语言处理方法和装置
WO2012143948A3 (en) Method and apparatus for processing content written in an application form using an e-pen
JP2014534517A5 (ja)
RU2013107466A (ru) Устройство и способ для вывода контента путем распознания заданных веб-сайта и веб-страницы
ATE553453T1 (de) Verfahren und vorrichtung zum kennzeichnen eines sozialen umfelds