JP2013544397A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2013544397A5 JP2013544397A5 JP2013537776A JP2013537776A JP2013544397A5 JP 2013544397 A5 JP2013544397 A5 JP 2013544397A5 JP 2013537776 A JP2013537776 A JP 2013537776A JP 2013537776 A JP2013537776 A JP 2013537776A JP 2013544397 A5 JP2013544397 A5 JP 2013544397A5
- Authority
- JP
- Japan
- Prior art keywords
- candidate
- computer system
- candidate pool
- pool
- language processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Claims (19)
- (a)ウェブページからテキストを抽出して少なくとも候補キーワードの第1のセットを生成し、言語処理を適用して少なくとも候補キーワードの第2のセットを生成し、前記候補キーワードの第1及び第2のセットを第1の候補プールに結合する前処理部と、
(b)少なくとも前記第1の候補プールを記述するデータを前記前処理部から受信して第2の候補プールを生成する候補抽出部と、
(c)前記前処理部および前記候補抽出部に接続され、少なくとも前記第2の候補プールを記述するデータを受信し、一般的特徴及び言語的特徴について前記第2の候補プールを分析する特徴抽出部と、
(d)少なくとも前記第2の候補プールを記述する前記データと関連データとを前記特徴抽出部から受信し、前記第2の候補プール内の各候補が1次又は2次キーワードである尤度を判定する分類部と
を備えるコンピュータシステム。 - 前記言語処理の少なくとも一部がトークナイザ及びパーサによって実行される、
請求項1に記載のコンピュータシステム。 - 前記言語処理の少なくとも一部がトークナイザ、パーサ、品詞タグ付けプログラム、及び固有表現タグ付けプログラムによって実行される、
請求項1に記載のコンピュータシステム。 - 前記言語処理の少なくとも一部がトークナイザによって実行される、
請求項1に記載のコンピュータシステム。 - 前記言語処理の少なくとも一部がパーサによって実行される、
請求項1に記載のコンピュータシステム。 - 前記言語処理の少なくとも一部が品詞タグ付けプログラムによって実行される、
請求項1に記載のコンピュータシステム。 - 前記言語処理の少なくとも一部が固有表現タグ付けプログラムによって実行される、
請求項1に記載のコンピュータシステム。 - 前記候補キーワードの第1のセットがメタデータテキストを含む、
請求項1に記載のコンピュータシステム。 - 前記第2の候補プールが名詞句及び名詞列を含む、
請求項1に記載のコンピュータシステム。 - 前記第2の候補プールが名詞句、名詞列、及びnグラムを含む、
請求項1に記載のコンピュータシステム。 - 前記一般的特徴が頻度、文書中の位置、及び大文字使用のうちの一又は複数を含む、
請求項1に記載のコンピュータシステム。 - 前記言語的特徴が品詞、語句構造、及び固有表現情報のうちの一又は複数に関連する、
請求項1に記載のコンピュータシステム。 - 前記一般的特徴が頻度特徴を含み、前記頻度特徴が前記ウェブページ内の関連語出現頻度と語出現頻度のログとのうちの一又は複数を含む、
請求項1に記載のコンピュータシステム。 - 各候補が1次又は2次キーワードである尤度の前記判定が注釈付きトレーニングデータに基づく、
請求項1に記載のコンピュータシステム。 - 各候補が1次又は2次キーワードである尤度の前記判定が、複数の注釈者からの注釈入力を結合することによって作成されたトレーニングデータに基づき、各注釈が1次キーワードと2次キーワードとの間の区別を含む、
請求項1に記載のコンピュータシステム。 - 前記一般的特徴が頻度、文書中の位置、及び大文字使用を含み、前記言語的特徴が品詞、語句構造、及び固有表現情報に関連する、
請求項1に記載のコンピュータシステム。 - 前記一般的特徴が頻度特徴を含み、前記頻度特徴が前記ウェブページ内の関連語出現頻度と語出現頻度のログとのうちの一又は複数を含み、前記言語的特徴が品詞、語句構造、及び固有表現情報に関連する、
請求項1に記載のコンピュータシステム。 - コンピュータ処理システムによって実装されるステップを含む方法であって、
(a)ウェブページからテキストを抽出して少なくとも候補キーワードの第1のセットを生成し、言語処理を適用して少なくとも候補キーワードの第2のセットを生成し、前記候補キーワードの第1及び第2のセットを第1の候補プールに結合するステップと、
(b)少なくとも前記第1の候補プールを記述するデータを受信して第2の候補プールを生成するステップと、
(c)少なくとも前記第2の候補プールを記述するデータを受信し、一般的特徴及び言語的特徴について前記第2の候補プールを分析するステップと、
(d)少なくとも前記第2の候補プールを記述する前記データと関連データとを特徴抽出部から受信し、前記第2の候補プール内の各候補が1次又は2次キーワードである尤度を判定するステップと
を含む方法。 - (a)ウェブページからテキストを抽出して少なくとも候補キーワードの第1のセットを生成し、言語処理を適用して少なくとも候補キーワードの第2のセットを生成し、前記候補キーワードの第1及び第2のセットを第1の候補プールに結合するステップと、
(b)少なくとも前記第1の候補プールを記述するデータを受信して第2の候補プールを生成するステップと、
(c)少なくとも前記第2の候補プールを記述するデータを受信し、一般的特徴及び言語的特徴について前記第2の候補プールを分析するステップと、
(d)少なくとも前記第2の候補プールを記述する前記データと関連データとを特徴抽出部から受信し、前記第2の候補プール内の各候補が1次又は2次キーワードである尤度を判定するステップと
をコンピュータシステムに実行させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US41039210P | 2010-11-05 | 2010-11-05 | |
US61/410,392 | 2010-11-05 | ||
PCT/US2011/058899 WO2012061462A1 (en) | 2010-11-05 | 2011-11-02 | Systems and methods regarding keyword extraction |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2013544397A JP2013544397A (ja) | 2013-12-12 |
JP2013544397A5 true JP2013544397A5 (ja) | 2014-09-25 |
JP5990178B2 JP5990178B2 (ja) | 2016-09-07 |
Family
ID=46020615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013537776A Active JP5990178B2 (ja) | 2010-11-05 | 2011-11-02 | キーワード抽出に関するシステム及び方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8874568B2 (ja) |
EP (1) | EP2635965A4 (ja) |
JP (1) | JP5990178B2 (ja) |
KR (1) | KR101672579B1 (ja) |
CN (1) | CN103201718A (ja) |
WO (1) | WO2012061462A1 (ja) |
Families Citing this family (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120076414A1 (en) * | 2010-09-27 | 2012-03-29 | Microsoft Corporation | External Image Based Summarization Techniques |
US8732014B2 (en) * | 2010-12-20 | 2014-05-20 | Yahoo! Inc. | Automatic classification of display ads using ad images and landing pages |
US9558267B2 (en) * | 2011-02-11 | 2017-01-31 | International Business Machines Corporation | Real-time data mining |
US8898163B2 (en) | 2011-02-11 | 2014-11-25 | International Business Machines Corporation | Real-time information mining |
US8983826B2 (en) * | 2011-06-30 | 2015-03-17 | Palo Alto Research Center Incorporated | Method and system for extracting shadow entities from emails |
CN103198057B (zh) * | 2012-01-05 | 2017-11-07 | 深圳市世纪光速信息技术有限公司 | 一种自动给文档添加标签的方法和装置 |
US9613125B2 (en) * | 2012-10-11 | 2017-04-04 | Nuance Communications, Inc. | Data store organizing data using semantic classification |
US9292797B2 (en) | 2012-12-14 | 2016-03-22 | International Business Machines Corporation | Semi-supervised data integration model for named entity classification |
EP3011473A1 (en) * | 2013-06-21 | 2016-04-27 | Hewlett-Packard Development Company, L.P. | Topic based classification of documents |
CN103473317A (zh) * | 2013-09-12 | 2013-12-25 | 百度在线网络技术(北京)有限公司 | 提取关键词的方法和设备 |
WO2015063784A1 (en) * | 2013-10-31 | 2015-05-07 | Hewlett-Packard Development Company, L.P. | Classifying document using patterns |
CN104679768B (zh) * | 2013-11-29 | 2019-08-09 | 百度在线网络技术(北京)有限公司 | 从文档中提取关键词的方法和设备 |
US9384287B2 (en) | 2014-01-15 | 2016-07-05 | Sap Portals Isreal Ltd. | Methods, apparatus, systems and computer readable media for use in keyword extraction |
US8924338B1 (en) | 2014-06-11 | 2014-12-30 | Fmr Llc | Automated predictive tag management system |
KR101624909B1 (ko) * | 2014-12-10 | 2016-05-27 | 주식회사 와이즈넛 | 정규화된 키워드 가중치에 기반한 연관 키워드 추출 방법 |
JP6074820B2 (ja) * | 2015-01-23 | 2017-02-08 | 国立研究開発法人情報通信研究機構 | アノテーション補助装置及びそのためのコンピュータプログラム |
US10140314B2 (en) * | 2015-08-21 | 2018-11-27 | Adobe Systems Incorporated | Previews for contextual searches |
US10169374B2 (en) * | 2015-08-21 | 2019-01-01 | Adobe Systems Incorporated | Image searches using image frame context |
KR101708444B1 (ko) * | 2015-11-16 | 2017-02-22 | 주식회사 위버플 | 키워드 및 자산 가격 관련성 평가 방법 및 그 장치 |
CN105653701B (zh) * | 2015-12-31 | 2019-01-15 | 百度在线网络技术(北京)有限公司 | 模型生成方法及装置、词语赋权方法及装置 |
US10558785B2 (en) | 2016-01-27 | 2020-02-11 | International Business Machines Corporation | Variable list based caching of patient information for evaluation of patient rules |
US10528702B2 (en) | 2016-02-02 | 2020-01-07 | International Business Machines Corporation | Multi-modal communication with patients based on historical analysis |
US11037658B2 (en) | 2016-02-17 | 2021-06-15 | International Business Machines Corporation | Clinical condition based cohort identification and evaluation |
US10565309B2 (en) * | 2016-02-17 | 2020-02-18 | International Business Machines Corporation | Interpreting the meaning of clinical values in electronic medical records |
US10937526B2 (en) | 2016-02-17 | 2021-03-02 | International Business Machines Corporation | Cognitive evaluation of assessment questions and answers to determine patient characteristics |
US10685089B2 (en) | 2016-02-17 | 2020-06-16 | International Business Machines Corporation | Modifying patient communications based on simulation of vendor communications |
US10282356B2 (en) * | 2016-03-07 | 2019-05-07 | International Business Machines Corporation | Evaluating quality of annotation |
CN107203542A (zh) * | 2016-03-17 | 2017-09-26 | 阿里巴巴集团控股有限公司 | 词组提取方法及装置 |
US10311388B2 (en) | 2016-03-22 | 2019-06-04 | International Business Machines Corporation | Optimization of patient care team based on correlation of patient characteristics and care provider characteristics |
US10923231B2 (en) | 2016-03-23 | 2021-02-16 | International Business Machines Corporation | Dynamic selection and sequencing of healthcare assessments for patients |
CN105912524B (zh) * | 2016-04-09 | 2019-08-20 | 北京交通大学 | 基于低秩矩阵分解的文章话题关键词提取方法和装置 |
RU2619193C1 (ru) | 2016-06-17 | 2017-05-12 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков |
US10318562B2 (en) | 2016-07-27 | 2019-06-11 | Google Llc | Triggering application information |
KR101931859B1 (ko) * | 2016-09-29 | 2018-12-21 | (주)시지온 | 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템 |
CN108073568B (zh) * | 2016-11-10 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置 |
US9965460B1 (en) * | 2016-12-29 | 2018-05-08 | Konica Minolta Laboratory U.S.A., Inc. | Keyword extraction for relationship maps |
CN107248927B (zh) * | 2017-05-02 | 2020-06-09 | 华为技术有限公司 | 故障定位模型的生成方法、故障定位方法和装置 |
CN107704503A (zh) * | 2017-08-29 | 2018-02-16 | 平安科技(深圳)有限公司 | 用户关键词提取装置、方法及计算机可读存储介质 |
US10417268B2 (en) * | 2017-09-22 | 2019-09-17 | Druva Technologies Pte. Ltd. | Keyphrase extraction system and method |
CN112037774B (zh) * | 2017-10-24 | 2024-04-26 | 北京嘀嘀无限科技发展有限公司 | 用于关键短语识别的系统和方法 |
US11216452B2 (en) * | 2017-11-01 | 2022-01-04 | Sap Se | Systems and methods for disparate data source aggregation, self-adjusting data model and API |
KR102019194B1 (ko) | 2017-11-22 | 2019-09-06 | 주식회사 와이즈넛 | 문서 내 핵심 키워드 추출 시스템 및 방법 |
JP7239991B2 (ja) * | 2018-01-05 | 2023-03-15 | 国立大学法人九州工業大学 | ラベル付与装置、ラベル付与方法、及びプログラム |
US20190272071A1 (en) * | 2018-03-02 | 2019-09-05 | International Business Machines Corporation | Automatic generation of a hierarchically layered collaboratively edited document view |
US10831803B2 (en) * | 2018-07-26 | 2020-11-10 | Beijing Jingdong Shangke Information Technology Co., Ltd. | System and method for true product word recognition |
US11183176B2 (en) | 2018-10-31 | 2021-11-23 | Walmart Apollo, Llc | Systems and methods for server-less voice applications |
US11404058B2 (en) | 2018-10-31 | 2022-08-02 | Walmart Apollo, Llc | System and method for handling multi-turn conversations and context management for voice enabled ecommerce transactions |
US11195524B2 (en) * | 2018-10-31 | 2021-12-07 | Walmart Apollo, Llc | System and method for contextual search query revision |
US11238850B2 (en) | 2018-10-31 | 2022-02-01 | Walmart Apollo, Llc | Systems and methods for e-commerce API orchestration using natural language interfaces |
CN109977397B (zh) * | 2019-02-18 | 2022-11-15 | 广州市诚毅科技软件开发有限公司 | 基于词性组合的新闻热点提取方法、系统及存储介质 |
WO2020240871A1 (ja) * | 2019-05-31 | 2020-12-03 | 日本電気株式会社 | パラメータ学習装置、パラメータ学習方法、及びコンピュータ読み取り可能な記録媒体 |
US11874882B2 (en) * | 2019-07-02 | 2024-01-16 | Microsoft Technology Licensing, Llc | Extracting key phrase candidates from documents and producing topical authority ranking |
US11250214B2 (en) | 2019-07-02 | 2022-02-15 | Microsoft Technology Licensing, Llc | Keyphrase extraction beyond language modeling |
CN110362827B (zh) * | 2019-07-11 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置及存储介质 |
CN110377725B (zh) * | 2019-07-12 | 2021-09-24 | 深圳新度博望科技有限公司 | 数据生成方法、装置、计算机设备及存储介质 |
CN110516237B (zh) * | 2019-08-15 | 2022-12-09 | 重庆长安汽车股份有限公司 | 短文本短语提取方法、系统及存储介质 |
CN110781662B (zh) * | 2019-10-21 | 2022-02-01 | 腾讯科技(深圳)有限公司 | 一种逐点互信息的确定方法和相关设备 |
CN113703588A (zh) * | 2020-05-20 | 2021-11-26 | 北京搜狗科技发展有限公司 | 一种输入方法、装置和用于输入的装置 |
US10878174B1 (en) * | 2020-06-24 | 2020-12-29 | Starmind Ag | Advanced text tagging using key phrase extraction and key phrase generation |
CN112347778B (zh) * | 2020-11-06 | 2023-06-20 | 平安科技(深圳)有限公司 | 关键词抽取方法、装置、终端设备及存储介质 |
KR102639979B1 (ko) * | 2020-12-08 | 2024-02-22 | 주식회사 카카오엔터프라이즈 | 주요 키워드 추출 장치, 그것의 제어 방법 및 주요 키워드 추출 프로그램 |
US11379763B1 (en) | 2021-08-10 | 2022-07-05 | Starmind Ag | Ontology-based technology platform for mapping and filtering skills, job titles, and expertise topics |
KR102334255B1 (ko) | 2021-08-31 | 2021-12-02 | (주)네오플로우 | AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법 |
KR102334236B1 (ko) | 2021-08-31 | 2021-12-02 | (주)네오플로우 | 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용 |
CN114398968B (zh) * | 2022-01-06 | 2022-09-20 | 北京博瑞彤芸科技股份有限公司 | 基于文件相似度对同类获客文件进行标注的方法和装置 |
CN115204146B (zh) * | 2022-07-28 | 2023-06-27 | 平安科技(深圳)有限公司 | 关键词抽取方法、装置、计算机设备及存储介质 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0765018A (ja) * | 1993-08-31 | 1995-03-10 | Matsushita Electric Ind Co Ltd | キーワード自動抽出装置 |
US6167368A (en) * | 1998-08-14 | 2000-12-26 | The Trustees Of Columbia University In The City Of New York | Method and system for indentifying significant topics of a document |
US7925610B2 (en) * | 1999-09-22 | 2011-04-12 | Google Inc. | Determining a meaning of a knowledge item using document-based information |
US7526425B2 (en) | 2001-08-14 | 2009-04-28 | Evri Inc. | Method and system for extending keyword searching to syntactically and semantically annotated data |
JP2004139553A (ja) * | 2002-08-19 | 2004-05-13 | Matsushita Electric Ind Co Ltd | 文書検索システムおよび質問応答システム |
US7139752B2 (en) * | 2003-05-30 | 2006-11-21 | International Business Machines Corporation | System, method and computer program product for performing unstructured information management and automatic text analysis, and providing multiple document views derived from different document tokenizations |
US7555705B2 (en) * | 2003-09-10 | 2009-06-30 | Microsoft Corporation | Annotation management in a pen-based computing system |
US7428529B2 (en) * | 2004-04-15 | 2008-09-23 | Microsoft Corporation | Term suggestion for multi-sense query |
JP2006146705A (ja) * | 2004-11-22 | 2006-06-08 | Mitsubishi Electric Corp | 構造化文書曖昧照合装置及びそのプログラム |
US8135728B2 (en) * | 2005-03-24 | 2012-03-13 | Microsoft Corporation | Web document keyword and phrase extraction |
US7519588B2 (en) * | 2005-06-20 | 2009-04-14 | Efficient Frontier | Keyword characterization and application |
WO2007084616A2 (en) | 2006-01-18 | 2007-07-26 | Ilial, Inc. | System and method for context-based knowledge search, tagging, collaboration, management and advertisement |
JP4236057B2 (ja) * | 2006-03-24 | 2009-03-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 新たな複合語を抽出するシステム |
US8341112B2 (en) * | 2006-05-19 | 2012-12-25 | Microsoft Corporation | Annotation by search |
US8001105B2 (en) * | 2006-06-09 | 2011-08-16 | Ebay Inc. | System and method for keyword extraction and contextual advertisement generation |
JP2008065417A (ja) * | 2006-09-05 | 2008-03-21 | Hottolink Inc | 連想語群検索装置、システム及びコンテンツマッチ型広告システム |
JP3983265B1 (ja) | 2006-09-27 | 2007-09-26 | 沖電気工業株式会社 | 辞書作成支援システム、方法及びプログラム |
US20080098300A1 (en) * | 2006-10-24 | 2008-04-24 | Brilliant Shopper, Inc. | Method and system for extracting information from web pages |
US20090254512A1 (en) | 2008-04-03 | 2009-10-08 | Yahoo! Inc. | Ad matching by augmenting a search query with knowledge obtained through search engine results |
JP5193669B2 (ja) * | 2008-05-08 | 2013-05-08 | 株式会社野村総合研究所 | 検索システム |
US8386519B2 (en) * | 2008-12-30 | 2013-02-26 | Expanse Networks, Inc. | Pangenetic web item recommendation system |
US8768960B2 (en) * | 2009-01-20 | 2014-07-01 | Microsoft Corporation | Enhancing keyword advertising using online encyclopedia semantics |
JP5143057B2 (ja) * | 2009-03-02 | 2013-02-13 | 日本電信電話株式会社 | 重要キーワード抽出装置及び方法及びプログラム |
US20100281025A1 (en) * | 2009-05-04 | 2010-11-04 | Motorola, Inc. | Method and system for recommendation of content items |
NZ599047A (en) * | 2009-09-26 | 2013-02-22 | Sajari Pty Ltd | Document analysis and association system and method |
US8463786B2 (en) * | 2010-06-10 | 2013-06-11 | Microsoft Corporation | Extracting topically related keywords from related documents |
-
2011
- 2011-11-02 EP EP11838723.2A patent/EP2635965A4/en not_active Withdrawn
- 2011-11-02 KR KR1020137011659A patent/KR101672579B1/ko active IP Right Grant
- 2011-11-02 JP JP2013537776A patent/JP5990178B2/ja active Active
- 2011-11-02 US US13/287,294 patent/US8874568B2/en active Active
- 2011-11-02 WO PCT/US2011/058899 patent/WO2012061462A1/en active Application Filing
- 2011-11-02 CN CN2011800531753A patent/CN103201718A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2013544397A5 (ja) | ||
Zhou et al. | LIMIT-BERT: Linguistic informed multi-task bert | |
Ramisch et al. | mwetoolkit: A framework for multiword expression identification. | |
JP6955963B2 (ja) | 検索装置、類似度算出方法、およびプログラム | |
JP2018077850A (ja) | 単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置 | |
Narasimhan et al. | Morphological segmentation for keyword spotting | |
Wang et al. | Automatic construction of discourse corpora for dialogue translation | |
Diehl et al. | Morphological decomposition in Arabic ASR systems | |
Toral et al. | Linguistically-augmented perplexity-based data selection for language models | |
Nivre et al. | Bootstrapping a Swedish Treebank using cross-corpus harmonization and annotation projection | |
Victor et al. | Application of extractive text summarization algorithms to speech-to-text media | |
Stepanov et al. | The Development of the Multilingual LUNA Corpus for Spoken Language System Porting. | |
Beke et al. | Automatic summarization of highly spontaneous speech | |
MacKinlay et al. | The effects of semantic annotations on precision parse ranking | |
Galiotou et al. | Asia minor greek: towards a computational processing | |
Brierley et al. | Tools for Arabic Natural Language Processing: a case study in qalqalah prosody | |
Szaszák et al. | Summarization of spontaneous speech using automatic speech recognition and a speech prosody based tokenizer | |
Rott et al. | Speech-to-text summarization using automatic phrase extraction from recognized text | |
Linhares Pontes et al. | Cross-lingual speech-to-text summarization | |
Jauhar et al. | Prosody-based unsupervised speech summarization with two-layer mutually reinforced random walk | |
Arora et al. | An investigative study of multi-modal cross-lingual retrieval | |
Yang et al. | Nested named entity recognition as corpus aware holistic structure parsing | |
TWI594135B (zh) | 英文資料之抄襲偵測方法 | |
Kholy et al. | Morphological constraints for phrase pivot statistical machine translation | |
JP2019087058A (ja) | 文章中の省略を特定する人工知能装置 |