JP2009545808A5 - - Google Patents

Download PDF

Info

Publication number
JP2009545808A5
JP2009545808A5 JP2009522777A JP2009522777A JP2009545808A5 JP 2009545808 A5 JP2009545808 A5 JP 2009545808A5 JP 2009522777 A JP2009522777 A JP 2009522777A JP 2009522777 A JP2009522777 A JP 2009522777A JP 2009545808 A5 JP2009545808 A5 JP 2009545808A5
Authority
JP
Japan
Prior art keywords
fact
description
search term
factual
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009522777A
Other languages
English (en)
Other versions
JP5202524B2 (ja
JP2009545808A (ja
Filing date
Publication date
Priority claimed from US11/496,650 external-priority patent/US7668791B2/en
Application filed filed Critical
Publication of JP2009545808A publication Critical patent/JP2009545808A/ja
Publication of JP2009545808A5 publication Critical patent/JP2009545808A5/ja
Application granted granted Critical
Publication of JP5202524B2 publication Critical patent/JP5202524B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (20)

  1. 電子リソース内で意見と事実との区別をプロセッサにより実施するコンピュータ実装方法であって、
    名詞を含む検索用語を受け取ること、
    前記検索用語に一致する関連する電子リソースを発見すること、
    前記検索用語に一致する単語を含む前記関連する電子リソースのリスト及び前記リスト内の前記電子リソースの断片を表示すること、
    前記検索用語の名詞と、事実の表現を示唆するように判定された動詞のリストを含むように構成された事実−単語表に一致する1以上の動詞とからなる文書の事実の記述を発見するために、関連する電子リソースをスキャンすること、
    前記検索用語と一致しない単語と、前記事実−単語表の単語とからなる事実の抽出処理から、前記関連する電子リソースの部分を削除すること、
    前記関連する電子リソースの部分を削除することの後に、前記事実の記述の言語成分を識別するために、前記発見した事実の記述を調査すること、
    前記識別した言語成分に基づいた事実として事実の記述を提示するか否かを決定すること、
    前記検索用語と、前記検索用語に関連する事実であると判定された事実の記述とを含む文書の少なくとも一部を表現すること
    から成ることを特徴とする方法。
  2. 前記識別した言語成分に基づいた事実として事実の記述を提示するか否かを決定することは、
    ある事実の記述を考慮からはずすために、前記事実の記述の前記言語成分に関する除外規則を適用すること、
    前記事実の記述にスコアをつけること、
    考慮するために残っている事実の記述の各々の前記スコアを閾値と比較すること、
    前記閾値を超えるスコアを有する事実の記述の各々に対して、事実として前記事実の記述を含む文章の少なくとも一部を提示すること
    から成ることを特徴とする請求項1に記載の方法。
  3. 更に会話の部分と共に前記事実の記載の単語にタグを付けることから成ることを特徴とする請求項2に記載の方法。
  4. 会話の部分と共に前記事実の記載の単語にタグを付けることは、単語が動詞か名詞のいずれかであるとき、名詞タグを適用することから成ることを特徴とする請求項3に記載の方法。
  5. 前記除外規則を適用することは、主語の役目を有する統語上の句のための規則の第1のセットを適用することと、目的語の役目を有する統語上の句のための規則の第2のセットを適用することから成ることを特徴とする請求項4に記載の方法。
  6. 規則の前記第1のセットを適用することは、主語又は目的語の意見又は偏った修飾語句を有する名詞句を除外することから成ることを特徴とする請求項5に記載の方法。
  7. 規則の前記第2のセットを適用することは、
    固有名詞でない限定記述を含む主語名詞句を除外すること、
    代名詞を含む名詞句を除外すること、文書の冒頭に現れない主語名詞句を除外することから成ることを特徴とする請求項5に記載の方法。
  8. 前記名詞句の役目に関係なく、更に規則の第3のセットを適用することから成ることを特徴とする請求項5に記載の方法。
  9. 規則の前記第3のセットを適用することは、前記文章の句読点が疑問符である事実の記述を除外することと、ストップワードを含む句を有する文章を除外することから成ることを特徴とする請求項8に記載の方法。
  10. 前記事実の記述にスコアを付けることは、前記除外規則の適用後、又は適用中のどちらかに考慮するために残っているこれらの事実の記述だけにスコアを付けることから成ることを特徴とする請求項2に記載の方法。
  11. コンピュータが読みとり可能な記録媒体であって、
    名詞を含む検索用語を受け取ること、
    前記検索用語に一致する関連する電子リソースを発見すること、
    前記検索用語に一致する単語を含む前記関連する電子リソースのリスト及び前記リスト内の前記電子リソースの断片を表示すること、
    前記検索用語の名詞と、事実の表現を示唆するように判定された動詞のリストを含むように構成された事実−単語表の単語に一致する1以上の動詞とからなる文書の事実の記述を発見するために、複数の関連する電子文書を構文解析すること、
    前記検索用語と一致しない単語と、前記事実−単語表の単語とからなる事実の抽出処理から、前記関連する電子文書の部分を削除すること、
    前記関連する電子文書の部分を削除することの後に、前記事実の記述の言語成分を識別するために、前記発見した事実の記述を調査すること、
    前記言語成分に関する候補となる事実の記述に除外規則を適用することにより、前記識別した言語成分に基づいた前記検索用語に関連する事実として事実の記述を提示するか否かを決定すること、
    一致する事実−単語表に基づき、かつ、主語と目的語の個々の重みに基づき、候補となる事実の記述をスコアリングすること、
    前記除外規則および事実の記述のスコアリングに従って、前記候補となる事実の記述を考慮からはずすこと、
    前記検索用語と、前記検索用語に関連する事実であると判定された事実の記述とを含む文書の少なくとも一部を表現すること
    から成ることを特徴とする行為を、プロセッサにより実行されたときに、プロセッサに実行させる実効可能プログラム命令を含むコンピュータが読みとり可能な記録媒体。
  12. 前記行為は、さらに電子文書の集合を検索して、前記検索用語を含むこれらの文書を発見することにより前記複数の文書を得ることから成り、
    前記集合は、前記複数の電子文書を解析する前に前記検索用語を含むこれらの文書を発見するために検索されること
    を特徴とする請求項11に記載のコンピュータが読みとり可能な記録媒体。
  13. 前記行為は、さらに前記電子文書を入手して前記検索用語を受け取る前に事実の記述を提示すること、又前記電子文書と事実の記述を検索して、これらの電子文書と前記検索用語に関連する対応する事実の記述を見つけることから成ることを特徴とする請求項11に記載のコンピュータが読取り可能な記録媒体。
  14. 前記行為は、さらに考慮するために残っている事実の記述の各々の前記スコアを閾値に対して比較すること、
    前記検索用語を含み、前記閾値を超えるスコアを有する電子文書から取られた事実の記述の各々に対して、前記検索用語に関連する事実として前記事実の記述を含む前記文章の少なくとも一部を提示することから成ることを特徴とする請求項11に記載のコンピュータが読みとり可能な記録媒体。
  15. 前記事実の記述にスコアを付けることは、前記除外規則を適用した後に考慮するために残っているこれらの事実の記述にだけスコアをつけること
    から成ることを特徴とする請求項14に記載のコンピュータが読みとり可能な記録媒体。
  16. 本文情報から成る複数の電子リソースを含むストレージと、
    プロセッサとから成るコンピュータシステムであって、
    前記プロセッサは、名詞を含む検索用語を受け取り、前記検索用語と一致する関連する電子リソースを発見し、前記検索用語に一致する単語を含む前記関連する電子リソースのリスト及び前記リスト内の前記電子リソースの断片を表示し、電子文書のセットから前記検索用語に関する事実を提示するための要求を受け取り、前記検索用語の名詞と、事実の表現を示唆するように判定された動詞のリストを含むように構成された事実−単語表の単語に一致する1以上の動詞とからなる文書の事実の記述を発見するために、前記関連する電子文書を構文解析し、前記検索用語と一致しない単語と、前記事実−単語表の単語とからなる事実の抽出処理から、前記関連する電子文書の部分を削除し、前記関連する電子文書の部分を削除した後に、前記事実の記述の言語成分を識別するために、前記発見した事実の記述を調査し、前記識別した言語成分に基づいた事実として事実の記述を提示するか否かを決定し、前記事実として提示されると判定された事実の記述と、前記検索用語に関連する事実の記述とを含む文書の少なくとも一部を表現する
    ことを特徴とするコンピュータシステム。
  17. 表示装置を更に備え、前記表示装置上に前記文章の少なくとも前記部分を表示することにより、前記プロセッサが前記文章の少なくとも前記部分を提示することを特徴とする請求項16に記載のコンピュータシステム。
  18. ネットワークインタフェースを更に備え、前記ネットワークインタフェースを介してこれらの部分を他のコンピュータに出力することにより、前記プロセッサが前記文章の少なくとも前記部分を提示することを特徴とする請求項16に記載のコンピュータシステム。
  19. ネットワークインタフェースを更に備え、前記ストレージは前記ネットワークインタフェースを介して前記プロセッサによりアクセス可能なことを特徴とする請求項16に記載のコンピュータシステム。
  20. 前記事実の記述の前記言語成分に関連して除外規則を適用して前記事実の記述の一部を考慮から外すこと、
    前記事実の記述にスコアを付けること、
    閾値に対して考慮するために残存する事実の記述の各々のスコアを比較すること、
    前記検索用語を含み、前記閾値を超えるスコアを有する事実の記述の各々に対して、前記検索用語に関連する事実として前記事実の記述を含む前記文章の少なくとも前記部分を提示すること、
    により、事実として事実の記述を提示するか否かを前記プロセッサが決定することを特徴とする請求項16に記載のコンピュータシステム。
JP2009522777A 2006-07-31 2007-07-20 多段アプローチを使用した事実の抽出の最適化 Active JP5202524B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/496,650 US7668791B2 (en) 2006-07-31 2006-07-31 Distinguishing facts from opinions using a multi-stage approach
US11/496,650 2006-07-31
PCT/US2007/016435 WO2008016491A1 (en) 2006-07-31 2007-07-20 Optimization of fact extraction using a multi-stage approach

Publications (3)

Publication Number Publication Date
JP2009545808A JP2009545808A (ja) 2009-12-24
JP2009545808A5 true JP2009545808A5 (ja) 2010-09-09
JP5202524B2 JP5202524B2 (ja) 2013-06-05

Family

ID=38987573

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009522777A Active JP5202524B2 (ja) 2006-07-31 2007-07-20 多段アプローチを使用した事実の抽出の最適化

Country Status (10)

Country Link
US (1) US7668791B2 (ja)
EP (1) EP2050019A4 (ja)
JP (1) JP5202524B2 (ja)
AU (1) AU2007281638B2 (ja)
BR (1) BRPI0714311A2 (ja)
MX (1) MX2009000588A (ja)
NO (1) NO20085387L (ja)
RU (1) RU2451999C2 (ja)
TW (1) TWI431493B (ja)
WO (1) WO2008016491A1 (ja)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7269875B1 (en) * 2003-11-19 2007-09-18 David Brian Grimes Cleaning apparatus
US9495358B2 (en) 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US8671341B1 (en) * 2007-01-05 2014-03-11 Linguastat, Inc. Systems and methods for identifying claims associated with electronic text
US8190628B1 (en) * 2007-11-30 2012-05-29 Google Inc. Phrase generation
EP2294519A1 (en) 2008-06-13 2011-03-16 Neil Young A sortable and updateable data compilation and archiving platform and uses thereof
US20110231387A1 (en) * 2010-03-22 2011-09-22 Yahoo! Inc. Engaging content provision
US8719692B2 (en) 2011-03-11 2014-05-06 Microsoft Corporation Validation, rejection, and modification of automatically generated document annotations
US8812301B2 (en) * 2011-09-26 2014-08-19 Xerox Corporation Linguistically-adapted structural query annotation
CN102929934A (zh) * 2012-09-25 2013-02-13 东莞宇龙通信科技有限公司 照片信息显示的方法及移动终端
US10922326B2 (en) * 2012-11-27 2021-02-16 Google Llc Triggering knowledge panels
US10289653B2 (en) 2013-03-15 2019-05-14 International Business Machines Corporation Adapting tabular data for narration
USD805535S1 (en) 2013-06-04 2017-12-19 Abbyy Production Llc Display screen or portion thereof with a transitional graphical user interface
USD802609S1 (en) 2013-06-04 2017-11-14 Abbyy Production Llc Display screen with graphical user interface
US9164977B2 (en) 2013-06-24 2015-10-20 International Business Machines Corporation Error correction in tables using discovered functional dependencies
US9600461B2 (en) 2013-07-01 2017-03-21 International Business Machines Corporation Discovering relationships in tabular data
US9830314B2 (en) 2013-11-18 2017-11-28 International Business Machines Corporation Error correction in tables using a question and answer system
RU2665239C2 (ru) 2014-01-15 2018-08-28 Общество с ограниченной ответственностью "Аби Продакшн" Автоматическое извлечение именованных сущностей из текста
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
US10331782B2 (en) 2014-11-19 2019-06-25 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for automatic identification of potential material facts in documents
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
RU2592396C1 (ru) 2015-02-03 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система для машинного извлечения и интерпретации текстовой информации
RU2610241C2 (ru) 2015-03-19 2017-02-08 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов
US10095740B2 (en) * 2015-08-25 2018-10-09 International Business Machines Corporation Selective fact generation from table data in a cognitive system
CN105260091B (zh) * 2015-09-07 2019-06-21 努比亚技术有限公司 照片处理方法及装置
US10776587B2 (en) * 2016-07-11 2020-09-15 International Business Machines Corporation Claim generation
RU2637992C1 (ru) * 2016-08-25 2017-12-08 Общество с ограниченной ответственностью "Аби Продакшн" Способ извлечения фактов из текстов на естественном языке
CN106648390B (zh) * 2016-12-05 2018-12-21 网易(杭州)网络有限公司 一种控制指令生成方法、装置及移动终端
CN106649786B (zh) * 2016-12-28 2020-04-07 北京百度网讯科技有限公司 基于深度问答的答案检索方法及装置
CN106924963B (zh) * 2017-04-26 2023-06-27 温州大学 一种视力听力康复训练娱乐打靶机
CN108038263A (zh) * 2017-11-15 2018-05-15 南京邮电大学 考虑性能相关结构不确定的芯片多元参数成品率预测方法
CN108257380B (zh) * 2017-12-05 2020-11-10 北京掌行通信息技术有限公司 一种基于路况信息检测拥堵事件的方法及系统
US10303771B1 (en) * 2018-02-14 2019-05-28 Capital One Services, Llc Utilizing machine learning models to identify insights in a document
CN109344993B (zh) * 2018-08-23 2021-08-24 江西省水利科学研究院 一种基于条件概率分布的河道洪峰水位预报方法
CN111026597B (zh) * 2019-01-31 2023-12-26 安天科技集团股份有限公司 一种芯片隐藏存储空间的检测方法、装置及存储介质
CN110007589B (zh) * 2019-02-26 2021-05-18 湖南盛世威得科技有限公司 一种具有火灾自动求救功能的智能手表
CN110057634B (zh) * 2019-04-11 2021-09-07 东北石油大学 一种制造岩心裂缝的装置及方法
CN111858225A (zh) * 2019-04-28 2020-10-30 中国移动通信集团上海有限公司 延时预测方法、装置、设备及计算机存储介质
CN111090785A (zh) * 2019-06-10 2020-05-01 工盒(嘉兴)网络技术有限公司 一种紧固云系统
CN110597108B (zh) * 2019-08-23 2021-12-21 广州电力设计院有限公司 电缆隧道区域控制系统、控制方法、装置及计算机设备
CN110737010B (zh) * 2019-09-19 2021-11-16 西安空间无线电技术研究所 一种基于低轨通信卫星的安全定位授时信号生成系统
CN111078849B (zh) * 2019-12-02 2023-07-25 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN111126057B (zh) * 2019-12-09 2023-08-01 航天科工网络信息发展有限公司 一种分级神经网络的案件情节精准量刑系统
DE102020103941A1 (de) * 2020-02-14 2021-08-19 Grimme Landmaschinenfabrik Gmbh & Co. Kg Verfahren zum Betrieb einer Maschine zum Ernten und/oder Trennen von Hackfrüchten, zugehörige Maschine und zugehöriges Computerprogrammprodukt
JP2021164005A (ja) * 2020-03-30 2021-10-11 Kddi株式会社 画像復号装置、画像復号方法及びプログラム
CN111526397A (zh) * 2020-03-30 2020-08-11 深圳市懿美莱科技有限公司 一种智能家庭网络播放器
CN111836065B (zh) * 2020-07-14 2022-04-29 北京场景互娱传媒科技有限公司 一种直播商标自动隐藏的智能方法
CN111882828B (zh) * 2020-07-22 2021-08-20 淮北智淮科技有限公司 一种防滑坡预警装置及其使用方法
CN112182895B (zh) * 2020-10-10 2022-08-23 中际联合(天津)科技有限公司 一种风机塔筒爬梯及防坠落布置方案图的自动分析方法
CN112890771B (zh) * 2021-01-14 2022-08-26 四川写正智能科技有限公司 一种基于毫米波雷达传感器监测睡眠状态的儿童手表
US11687539B2 (en) 2021-03-17 2023-06-27 International Business Machines Corporation Automatic neutral point of view content generation
US11972210B2 (en) * 2021-05-13 2024-04-30 Motorola Solutions, Inc. System and method for predicting a penal code and modifying an annotation based on the prediction
CN115191786B (zh) * 2022-08-04 2023-12-19 慕思健康睡眠股份有限公司 一种控制方法、装置、设备和存储介质
CN115432851B (zh) * 2022-08-23 2023-06-23 长兴瑷晟环保装备有限公司 一种高效混凝水力空化一体机
CN118278385B (zh) * 2024-05-29 2024-09-17 暗物智能科技(广州)有限公司 一种基于篇章卷面分析的测试方法、装置及可读存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0756933A (ja) * 1993-06-24 1995-03-03 Xerox Corp 文書検索方法
US5519608A (en) * 1993-06-24 1996-05-21 Xerox Corporation Method for extracting from a text corpus answers to questions stated in natural language by using linguistic analysis and hypothesis generation
US5331556A (en) * 1993-06-28 1994-07-19 General Electric Company Method for natural language data processing using morphological and part-of-speech information
US5715468A (en) * 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
JP2000029902A (ja) * 1998-07-15 2000-01-28 Nec Corp 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体
US6167370A (en) * 1998-09-09 2000-12-26 Invention Machine Corporation Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures
US6741986B2 (en) * 2000-12-08 2004-05-25 Ingenuity Systems, Inc. Method and system for performing information extraction and quality control for a knowledgebase
US6665661B1 (en) * 2000-09-29 2003-12-16 Battelle Memorial Institute System and method for use in text analysis of documents and records
JP4630480B2 (ja) * 2001-03-19 2011-02-09 株式会社東芝 要約抽出プログラム、文書分析支援プログラム、要約抽出方法、文書分析支援方法、文書分析支援システム
JP2001357064A (ja) * 2001-04-09 2001-12-26 Toshiba Corp 情報共有支援システム
US9009590B2 (en) * 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
US7526425B2 (en) * 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
US7254530B2 (en) * 2001-09-26 2007-08-07 The Trustees Of Columbia University In The City Of New York System and method of generating dictionary entries
US7426509B2 (en) * 2002-11-15 2008-09-16 Justsystems Evans Research, Inc. Method and apparatus for document filtering using ensemble filters
WO2004072780A2 (en) * 2003-02-05 2004-08-26 Verint Systems, Inc. Method for automatic and semi-automatic classification and clustering of non-deterministic texts
RU2236699C1 (ru) * 2003-02-25 2004-09-20 Открытое акционерное общество "Телепортал. Ру" Способ поиска и выборки информации с повышенной релевантностью
KR100515641B1 (ko) * 2003-04-24 2005-09-22 우순조 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법
US20050108630A1 (en) * 2003-11-19 2005-05-19 Wasson Mark D. Extraction of facts from text
US7496500B2 (en) * 2004-03-01 2009-02-24 Microsoft Corporation Systems and methods that determine intent of data and respond to the data based on the intent
US7970600B2 (en) * 2004-11-03 2011-06-28 Microsoft Corporation Using a first natural language parser to train a second parser
US20070027860A1 (en) * 2005-07-28 2007-02-01 International Business Machines Corporation Method and apparatus for eliminating partitions of a database table from a join query using implicit limitations on a partition key value
US7376551B2 (en) * 2005-08-01 2008-05-20 Microsoft Corporation Definition extraction

Similar Documents

Publication Publication Date Title
JP2009545808A5 (ja)
KR102256240B1 (ko) 논팩토이드형 질의 응답 시스템 및 방법
US9569527B2 (en) Machine translation for query expansion
JP5825676B2 (ja) ノン・ファクトイド型質問応答システム及びコンピュータプログラム
TWI431493B (zh) 用於使用多階段方式之事實摘取的最佳化之方法、電腦可讀取儲存媒體及電腦系統
KR101508070B1 (ko) 어휘지도를 이용한 용언의 다의어 의미 분석 방법
Gupta et al. Automatic keywords extraction for Punjabi language
Sardinha An assessment of metaphor retrieval methods
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
CN112036120A (zh) 一种技能短语抽取方法
US8108391B1 (en) Identifying non-compositional compounds
Chaibi et al. Topic segmentation for textual document written in arabic language
JP6106489B2 (ja) 語義解析装置、及びプログラム
Ehsan et al. A Pairwise Document Analysis Approach for Monolingual Plagiarism Detection.
US10572592B2 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
JP4934115B2 (ja) キーワード抽出装置、方法及びプログラム
JP2008257511A (ja) 専門用語抽出装置、方法及びプログラム
Elghannam et al. Keyphrase based evaluation of automatic text summarization
Ram et al. Identification of plagiarism using syntactic and semantic filters
Généreux et al. Towards a validated model for affective classification of texts
Xu et al. A machine learning approach to recognizing acronyms and their expansion
Kliegr et al. Wikipedia as the premiere source for targeted hypernym discovery
Kokkinakis et al. Investigating the Effects of MWE Identification in Structural Topic Modelling
Pinheiro et al. Knowledge-intensive word disambiguation via common-sense and wikipedia
Vechtomova Related Entity Finding: University of Waterloo at TREC 2010 Entity Track.