JP2013544397A5 - - Google Patents

Download PDF

Info

Publication number
JP2013544397A5
JP2013544397A5 JP2013537776A JP2013537776A JP2013544397A5 JP 2013544397 A5 JP2013544397 A5 JP 2013544397A5 JP 2013537776 A JP2013537776 A JP 2013537776A JP 2013537776 A JP2013537776 A JP 2013537776A JP 2013544397 A5 JP2013544397 A5 JP 2013544397A5
Authority
JP
Japan
Prior art keywords
candidate
computer system
candidate pool
pool
language processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013537776A
Other languages
English (en)
Other versions
JP2013544397A (ja
JP5990178B2 (ja
Filing date
Publication date
Application filed filed Critical
Priority claimed from PCT/US2011/058899 external-priority patent/WO2012061462A1/en
Publication of JP2013544397A publication Critical patent/JP2013544397A/ja
Publication of JP2013544397A5 publication Critical patent/JP2013544397A5/ja
Application granted granted Critical
Publication of JP5990178B2 publication Critical patent/JP5990178B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (19)

  1. (a)ウェブページからテキストを抽出して少なくとも候補キーワードの第1のセットを生成し、言語処理を適用して少なくとも候補キーワードの第2のセットを生成し、前記候補キーワードの第1及び第2のセットを第1の候補プールに結合する前処理部と、
    (b)少なくとも前記第1の候補プールを記述するデータを前記前処理部から受信して第2の候補プールを生成する候補抽出部と、
    (c)前記前処理部および前記候補抽出部に接続され、少なくとも前記第2の候補プールを記述するデータを受信し、一般的特徴及び言語的特徴について前記第2の候補プールを分析する特徴抽出部と、
    (d)少なくとも前記第2の候補プールを記述する前記データと関連データとを前記特徴抽出部から受信し、前記第2の候補プール内の各候補が1次又は2次キーワードである尤度を判定する分類部と
    を備えるコンピュータシステム。
  2. 前記言語処理の少なくとも一部がトークナイザ及びパーサによって実行される、
    請求項1に記載のコンピュータシステム。
  3. 前記言語処理の少なくとも一部がトークナイザ、パーサ、品詞タグ付けプログラム、及び固有表現タグ付けプログラムによって実行される、
    請求項1に記載のコンピュータシステム。
  4. 前記言語処理の少なくとも一部がトークナイザによって実行される、
    請求項1に記載のコンピュータシステム。
  5. 前記言語処理の少なくとも一部がパーサによって実行される、
    請求項1に記載のコンピュータシステム。
  6. 前記言語処理の少なくとも一部が品詞タグ付けプログラムによって実行される、
    請求項1に記載のコンピュータシステム。
  7. 前記言語処理の少なくとも一部が固有表現タグ付けプログラムによって実行される、
    請求項1に記載のコンピュータシステム。
  8. 前記候補キーワードの第1のセットがメタデータテキストを含む、
    請求項1に記載のコンピュータシステム。
  9. 前記第2の候補プールが名詞句及び名詞列を含む、
    請求項1に記載のコンピュータシステム。
  10. 前記第2の候補プールが名詞句、名詞列、及びnグラムを含む、
    請求項1に記載のコンピュータシステム。
  11. 前記一般的特徴が頻度、文書中の位置、及び大文字使用のうちの一又は複数を含む、
    請求項1に記載のコンピュータシステム。
  12. 前記言語的特徴が品詞、語句構造、及び固有表現情報のうちの一又は複数に関連する、
    請求項1に記載のコンピュータシステム。
  13. 前記一般的特徴が頻度特徴を含み、前記頻度特徴が前記ウェブページ内の関連語出現頻度と語出現頻度のログとのうちの一又は複数を含む、
    請求項1に記載のコンピュータシステム。
  14. 各候補が1次又は2次キーワードである尤度の前記判定が注釈付きトレーニングデータに基づく、
    請求項1に記載のコンピュータシステム。
  15. 各候補が1次又は2次キーワードである尤度の前記判定が、複数の注釈者からの注釈入力を結合することによって作成されたトレーニングデータに基づき、各注釈が1次キーワードと2次キーワードとの間の区別を含む、
    請求項1に記載のコンピュータシステム。
  16. 前記一般的特徴が頻度、文書中の位置、及び大文字使用を含み、前記言語的特徴が品詞、語句構造、及び固有表現情報に関連する、
    請求項1に記載のコンピュータシステム。
  17. 前記一般的特徴が頻度特徴を含み、前記頻度特徴が前記ウェブページ内の関連語出現頻度と語出現頻度のログとのうちの一又は複数を含み、前記言語的特徴が品詞、語句構造、及び固有表現情報に関連する、
    請求項1に記載のコンピュータシステム。
  18. コンピュータ処理システムによって実装されるステップを含む方法であって、
    (a)ウェブページからテキストを抽出して少なくとも候補キーワードの第1のセットを生成し、言語処理を適用して少なくとも候補キーワードの第2のセットを生成し、前記候補キーワードの第1及び第2のセットを第1の候補プールに結合するステップと、
    (b)少なくとも前記第1の候補プールを記述するデータを受信して第2の候補プールを生成するステップと、
    (c)少なくとも前記第2の候補プールを記述するデータを受信し、一般的特徴及び言語的特徴について前記第2の候補プールを分析するステップと、
    (d)少なくとも前記第2の候補プールを記述する前記データと関連データとを特徴抽出部から受信し、前記第2の候補プール内の各候補が1次又は2次キーワードである尤度を判定するステップと
    を含む方法。
  19. (a)ウェブページからテキストを抽出して少なくとも候補キーワードの第1のセットを生成し、言語処理を適用して少なくとも候補キーワードの第2のセットを生成し、前記候補キーワードの第1及び第2のセットを第1の候補プールに結合するステップと、
    (b)少なくとも前記第1の候補プールを記述するデータを受信して第2の候補プールを生成するステップと、
    (c)少なくとも前記第2の候補プールを記述するデータを受信し、一般的特徴及び言語的特徴について前記第2の候補プールを分析するステップと、
    (d)少なくとも前記第2の候補プールを記述する前記データと関連データとを特徴抽出部から受信し、前記第2の候補プール内の各候補が1次又は2次キーワードである尤度を判定するステップと
    コンピュータシステムに実行させるためのプログラム
JP2013537776A 2010-11-05 2011-11-02 キーワード抽出に関するシステム及び方法 Active JP5990178B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US41039210P 2010-11-05 2010-11-05
US61/410,392 2010-11-05
PCT/US2011/058899 WO2012061462A1 (en) 2010-11-05 2011-11-02 Systems and methods regarding keyword extraction

Publications (3)

Publication Number Publication Date
JP2013544397A JP2013544397A (ja) 2013-12-12
JP2013544397A5 true JP2013544397A5 (ja) 2014-09-25
JP5990178B2 JP5990178B2 (ja) 2016-09-07

Family

ID=46020615

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013537776A Active JP5990178B2 (ja) 2010-11-05 2011-11-02 キーワード抽出に関するシステム及び方法

Country Status (6)

Country Link
US (1) US8874568B2 (ja)
EP (1) EP2635965A4 (ja)
JP (1) JP5990178B2 (ja)
KR (1) KR101672579B1 (ja)
CN (1) CN103201718A (ja)
WO (1) WO2012061462A1 (ja)

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120076414A1 (en) * 2010-09-27 2012-03-29 Microsoft Corporation External Image Based Summarization Techniques
US8732014B2 (en) * 2010-12-20 2014-05-20 Yahoo! Inc. Automatic classification of display ads using ad images and landing pages
US9558267B2 (en) * 2011-02-11 2017-01-31 International Business Machines Corporation Real-time data mining
US8898163B2 (en) 2011-02-11 2014-11-25 International Business Machines Corporation Real-time information mining
US8983826B2 (en) * 2011-06-30 2015-03-17 Palo Alto Research Center Incorporated Method and system for extracting shadow entities from emails
CN103198057B (zh) * 2012-01-05 2017-11-07 深圳市世纪光速信息技术有限公司 一种自动给文档添加标签的方法和装置
US9613125B2 (en) * 2012-10-11 2017-04-04 Nuance Communications, Inc. Data store organizing data using semantic classification
US9292797B2 (en) 2012-12-14 2016-03-22 International Business Machines Corporation Semi-supervised data integration model for named entity classification
EP3011473A1 (en) * 2013-06-21 2016-04-27 Hewlett-Packard Development Company, L.P. Topic based classification of documents
CN103473317A (zh) * 2013-09-12 2013-12-25 百度在线网络技术(北京)有限公司 提取关键词的方法和设备
WO2015063784A1 (en) * 2013-10-31 2015-05-07 Hewlett-Packard Development Company, L.P. Classifying document using patterns
CN104679768B (zh) * 2013-11-29 2019-08-09 百度在线网络技术(北京)有限公司 从文档中提取关键词的方法和设备
US9384287B2 (en) 2014-01-15 2016-07-05 Sap Portals Isreal Ltd. Methods, apparatus, systems and computer readable media for use in keyword extraction
US8924338B1 (en) 2014-06-11 2014-12-30 Fmr Llc Automated predictive tag management system
KR101624909B1 (ko) * 2014-12-10 2016-05-27 주식회사 와이즈넛 정규화된 키워드 가중치에 기반한 연관 키워드 추출 방법
JP6074820B2 (ja) * 2015-01-23 2017-02-08 国立研究開発法人情報通信研究機構 アノテーション補助装置及びそのためのコンピュータプログラム
US10140314B2 (en) * 2015-08-21 2018-11-27 Adobe Systems Incorporated Previews for contextual searches
US10169374B2 (en) * 2015-08-21 2019-01-01 Adobe Systems Incorporated Image searches using image frame context
KR101708444B1 (ko) * 2015-11-16 2017-02-22 주식회사 위버플 키워드 및 자산 가격 관련성 평가 방법 및 그 장치
CN105653701B (zh) * 2015-12-31 2019-01-15 百度在线网络技术(北京)有限公司 模型生成方法及装置、词语赋权方法及装置
US10558785B2 (en) 2016-01-27 2020-02-11 International Business Machines Corporation Variable list based caching of patient information for evaluation of patient rules
US10528702B2 (en) 2016-02-02 2020-01-07 International Business Machines Corporation Multi-modal communication with patients based on historical analysis
US11037658B2 (en) 2016-02-17 2021-06-15 International Business Machines Corporation Clinical condition based cohort identification and evaluation
US10565309B2 (en) * 2016-02-17 2020-02-18 International Business Machines Corporation Interpreting the meaning of clinical values in electronic medical records
US10937526B2 (en) 2016-02-17 2021-03-02 International Business Machines Corporation Cognitive evaluation of assessment questions and answers to determine patient characteristics
US10685089B2 (en) 2016-02-17 2020-06-16 International Business Machines Corporation Modifying patient communications based on simulation of vendor communications
US10282356B2 (en) * 2016-03-07 2019-05-07 International Business Machines Corporation Evaluating quality of annotation
CN107203542A (zh) * 2016-03-17 2017-09-26 阿里巴巴集团控股有限公司 词组提取方法及装置
US10311388B2 (en) 2016-03-22 2019-06-04 International Business Machines Corporation Optimization of patient care team based on correlation of patient characteristics and care provider characteristics
US10923231B2 (en) 2016-03-23 2021-02-16 International Business Machines Corporation Dynamic selection and sequencing of healthcare assessments for patients
CN105912524B (zh) * 2016-04-09 2019-08-20 北京交通大学 基于低秩矩阵分解的文章话题关键词提取方法和装置
RU2619193C1 (ru) 2016-06-17 2017-05-12 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков
US10318562B2 (en) 2016-07-27 2019-06-11 Google Llc Triggering application information
KR101931859B1 (ko) * 2016-09-29 2018-12-21 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템
CN108073568B (zh) * 2016-11-10 2020-09-11 腾讯科技(深圳)有限公司 关键词提取方法和装置
US9965460B1 (en) * 2016-12-29 2018-05-08 Konica Minolta Laboratory U.S.A., Inc. Keyword extraction for relationship maps
CN107248927B (zh) * 2017-05-02 2020-06-09 华为技术有限公司 故障定位模型的生成方法、故障定位方法和装置
CN107704503A (zh) * 2017-08-29 2018-02-16 平安科技(深圳)有限公司 用户关键词提取装置、方法及计算机可读存储介质
US10417268B2 (en) * 2017-09-22 2019-09-17 Druva Technologies Pte. Ltd. Keyphrase extraction system and method
CN112037774B (zh) * 2017-10-24 2024-04-26 北京嘀嘀无限科技发展有限公司 用于关键短语识别的系统和方法
US11216452B2 (en) * 2017-11-01 2022-01-04 Sap Se Systems and methods for disparate data source aggregation, self-adjusting data model and API
KR102019194B1 (ko) 2017-11-22 2019-09-06 주식회사 와이즈넛 문서 내 핵심 키워드 추출 시스템 및 방법
JP7239991B2 (ja) * 2018-01-05 2023-03-15 国立大学法人九州工業大学 ラベル付与装置、ラベル付与方法、及びプログラム
US20190272071A1 (en) * 2018-03-02 2019-09-05 International Business Machines Corporation Automatic generation of a hierarchically layered collaboratively edited document view
US10831803B2 (en) * 2018-07-26 2020-11-10 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for true product word recognition
US11183176B2 (en) 2018-10-31 2021-11-23 Walmart Apollo, Llc Systems and methods for server-less voice applications
US11404058B2 (en) 2018-10-31 2022-08-02 Walmart Apollo, Llc System and method for handling multi-turn conversations and context management for voice enabled ecommerce transactions
US11195524B2 (en) * 2018-10-31 2021-12-07 Walmart Apollo, Llc System and method for contextual search query revision
US11238850B2 (en) 2018-10-31 2022-02-01 Walmart Apollo, Llc Systems and methods for e-commerce API orchestration using natural language interfaces
CN109977397B (zh) * 2019-02-18 2022-11-15 广州市诚毅科技软件开发有限公司 基于词性组合的新闻热点提取方法、系统及存储介质
WO2020240871A1 (ja) * 2019-05-31 2020-12-03 日本電気株式会社 パラメータ学習装置、パラメータ学習方法、及びコンピュータ読み取り可能な記録媒体
US11874882B2 (en) * 2019-07-02 2024-01-16 Microsoft Technology Licensing, Llc Extracting key phrase candidates from documents and producing topical authority ranking
US11250214B2 (en) 2019-07-02 2022-02-15 Microsoft Technology Licensing, Llc Keyphrase extraction beyond language modeling
CN110362827B (zh) * 2019-07-11 2024-05-14 腾讯科技(深圳)有限公司 一种关键词提取方法、装置及存储介质
CN110377725B (zh) * 2019-07-12 2021-09-24 深圳新度博望科技有限公司 数据生成方法、装置、计算机设备及存储介质
CN110516237B (zh) * 2019-08-15 2022-12-09 重庆长安汽车股份有限公司 短文本短语提取方法、系统及存储介质
CN110781662B (zh) * 2019-10-21 2022-02-01 腾讯科技(深圳)有限公司 一种逐点互信息的确定方法和相关设备
CN113703588A (zh) * 2020-05-20 2021-11-26 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
US10878174B1 (en) * 2020-06-24 2020-12-29 Starmind Ag Advanced text tagging using key phrase extraction and key phrase generation
CN112347778B (zh) * 2020-11-06 2023-06-20 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质
KR102639979B1 (ko) * 2020-12-08 2024-02-22 주식회사 카카오엔터프라이즈 주요 키워드 추출 장치, 그것의 제어 방법 및 주요 키워드 추출 프로그램
US11379763B1 (en) 2021-08-10 2022-07-05 Starmind Ag Ontology-based technology platform for mapping and filtering skills, job titles, and expertise topics
KR102334255B1 (ko) 2021-08-31 2021-12-02 (주)네오플로우 AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법
KR102334236B1 (ko) 2021-08-31 2021-12-02 (주)네오플로우 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
CN114398968B (zh) * 2022-01-06 2022-09-20 北京博瑞彤芸科技股份有限公司 基于文件相似度对同类获客文件进行标注的方法和装置
CN115204146B (zh) * 2022-07-28 2023-06-27 平安科技(深圳)有限公司 关键词抽取方法、装置、计算机设备及存储介质

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0765018A (ja) * 1993-08-31 1995-03-10 Matsushita Electric Ind Co Ltd キーワード自動抽出装置
US6167368A (en) * 1998-08-14 2000-12-26 The Trustees Of Columbia University In The City Of New York Method and system for indentifying significant topics of a document
US7925610B2 (en) * 1999-09-22 2011-04-12 Google Inc. Determining a meaning of a knowledge item using document-based information
US7526425B2 (en) 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
JP2004139553A (ja) * 2002-08-19 2004-05-13 Matsushita Electric Ind Co Ltd 文書検索システムおよび質問応答システム
US7139752B2 (en) * 2003-05-30 2006-11-21 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, and providing multiple document views derived from different document tokenizations
US7555705B2 (en) * 2003-09-10 2009-06-30 Microsoft Corporation Annotation management in a pen-based computing system
US7428529B2 (en) * 2004-04-15 2008-09-23 Microsoft Corporation Term suggestion for multi-sense query
JP2006146705A (ja) * 2004-11-22 2006-06-08 Mitsubishi Electric Corp 構造化文書曖昧照合装置及びそのプログラム
US8135728B2 (en) * 2005-03-24 2012-03-13 Microsoft Corporation Web document keyword and phrase extraction
US7519588B2 (en) * 2005-06-20 2009-04-14 Efficient Frontier Keyword characterization and application
WO2007084616A2 (en) 2006-01-18 2007-07-26 Ilial, Inc. System and method for context-based knowledge search, tagging, collaboration, management and advertisement
JP4236057B2 (ja) * 2006-03-24 2009-03-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 新たな複合語を抽出するシステム
US8341112B2 (en) * 2006-05-19 2012-12-25 Microsoft Corporation Annotation by search
US8001105B2 (en) * 2006-06-09 2011-08-16 Ebay Inc. System and method for keyword extraction and contextual advertisement generation
JP2008065417A (ja) * 2006-09-05 2008-03-21 Hottolink Inc 連想語群検索装置、システム及びコンテンツマッチ型広告システム
JP3983265B1 (ja) 2006-09-27 2007-09-26 沖電気工業株式会社 辞書作成支援システム、方法及びプログラム
US20080098300A1 (en) * 2006-10-24 2008-04-24 Brilliant Shopper, Inc. Method and system for extracting information from web pages
US20090254512A1 (en) 2008-04-03 2009-10-08 Yahoo! Inc. Ad matching by augmenting a search query with knowledge obtained through search engine results
JP5193669B2 (ja) * 2008-05-08 2013-05-08 株式会社野村総合研究所 検索システム
US8386519B2 (en) * 2008-12-30 2013-02-26 Expanse Networks, Inc. Pangenetic web item recommendation system
US8768960B2 (en) * 2009-01-20 2014-07-01 Microsoft Corporation Enhancing keyword advertising using online encyclopedia semantics
JP5143057B2 (ja) * 2009-03-02 2013-02-13 日本電信電話株式会社 重要キーワード抽出装置及び方法及びプログラム
US20100281025A1 (en) * 2009-05-04 2010-11-04 Motorola, Inc. Method and system for recommendation of content items
NZ599047A (en) * 2009-09-26 2013-02-22 Sajari Pty Ltd Document analysis and association system and method
US8463786B2 (en) * 2010-06-10 2013-06-11 Microsoft Corporation Extracting topically related keywords from related documents

Similar Documents

Publication Publication Date Title
JP2013544397A5 (ja)
Zhou et al. LIMIT-BERT: Linguistic informed multi-task bert
Ramisch et al. mwetoolkit: A framework for multiword expression identification.
JP6955963B2 (ja) 検索装置、類似度算出方法、およびプログラム
JP2018077850A (ja) 単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置
Narasimhan et al. Morphological segmentation for keyword spotting
Wang et al. Automatic construction of discourse corpora for dialogue translation
Diehl et al. Morphological decomposition in Arabic ASR systems
Toral et al. Linguistically-augmented perplexity-based data selection for language models
Nivre et al. Bootstrapping a Swedish Treebank using cross-corpus harmonization and annotation projection
Victor et al. Application of extractive text summarization algorithms to speech-to-text media
Stepanov et al. The Development of the Multilingual LUNA Corpus for Spoken Language System Porting.
Beke et al. Automatic summarization of highly spontaneous speech
MacKinlay et al. The effects of semantic annotations on precision parse ranking
Galiotou et al. Asia minor greek: towards a computational processing
Brierley et al. Tools for Arabic Natural Language Processing: a case study in qalqalah prosody
Szaszák et al. Summarization of spontaneous speech using automatic speech recognition and a speech prosody based tokenizer
Rott et al. Speech-to-text summarization using automatic phrase extraction from recognized text
Linhares Pontes et al. Cross-lingual speech-to-text summarization
Jauhar et al. Prosody-based unsupervised speech summarization with two-layer mutually reinforced random walk
Arora et al. An investigative study of multi-modal cross-lingual retrieval
Yang et al. Nested named entity recognition as corpus aware holistic structure parsing
TWI594135B (zh) 英文資料之抄襲偵測方法
Kholy et al. Morphological constraints for phrase pivot statistical machine translation
JP2019087058A (ja) 文章中の省略を特定する人工知能装置