JP2012520527A - ユーザ質問及びテキスト文書の意味ラベリングに基づく質問応答システム及び方法 - Google Patents

ユーザ質問及びテキスト文書の意味ラベリングに基づく質問応答システム及び方法 Download PDF

Info

Publication number
JP2012520527A
JP2012520527A JP2011554249A JP2011554249A JP2012520527A JP 2012520527 A JP2012520527 A JP 2012520527A JP 2011554249 A JP2011554249 A JP 2011554249A JP 2011554249 A JP2011554249 A JP 2011554249A JP 2012520527 A JP2012520527 A JP 2012520527A
Authority
JP
Japan
Prior art keywords
question
user
esao
text
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011554249A
Other languages
English (en)
Inventor
ジェイムズ トッドハンター
イゴール ソーペル
ジアニス パスタノハウ
Original Assignee
インベンション マシーン コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インベンション マシーン コーポレーション filed Critical インベンション マシーン コーポレーション
Publication of JP2012520527A publication Critical patent/JP2012520527A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

ユーザにより自然言語で表現された質問に対する的確な答えを電子的又はデジタルの形態で提供されるテキスト文書群の中からサーチするための質問応答システムは、テキスト文書群とユーザの質問の自動意味ラベリングに基づいている。このシステムは、基礎的知識タイプ、それらの構成要素及び属性に関するマーカー、ターゲットについての所定の分類辞からの質問タイプに関するマーカー、及びあり得る答えの構成要素に関するマーカーの助けにより意味ラベリングを実行する。照合処理では、意味ラベルの対応を利用して、質問に対する的確な答えを求め、ユーザに対してそれら答えを文の断片又は新たに合成された自然言語の句の形で提示する。ユーザは、独立的に、システムの分類器に新たなタイプの質問を追加し、システムの言語知識ベースのために必要な言語パターンを生成することができる。

Description

本発明は、「ユーザ質問及びテキスト文書の意味ラベリングに基づく質問応答システム及び方法」("Question-Answering System And Method Based On Semantic Labeling Of Text Documents And User Questions")と題される2009年3月13日に出願された米国仮出願第61/159,959号、及び「自然言語テキストの自動的意味ラベリングのためのシステム及び方法」("System And Method For Automatic Semantic Labeling Of Natural Language Texts")と題される2009年3月13日に出願された米国仮出願第61/159,972号に対する優先権を主張し、それら出願の各々を全体として参照のためにこの明細書に組み込む。
本出願は、優先権は主張していないものの、「コンピュータを用いた自然言語文書の要約処理」("Computer based summarization of natural language documents")と題されるバチロら(Batchilo et al.)に対する2007年7月31日に発行された米国特許第7,251,781号、「言語間の知識検索のためのシステム及び方法」("System And Method for Cross-Language Knowledge Searching")と題されるトッドハンターら(Todhunter et al.)に対して2010年3月2日に発行された米国特許第7,672,831号、「意味的応答システム及び方法」("Semantic Answering System and Method")と題される、2001年11月16日に出願された米国特許出願第09/991,079号(米国特許出願公開第20020116176号として公開)に関連しており、それら各々を全体として参照のためにこの明細書に組み込む。
この出願は、ユーザが自然言語で表現した質問に対して、テキスト文書データベースの中から回答を取り出すためのサーチを実行する、コンピュータを用いた質問応答システムに関する。
以下の米国特許文書は、本出願に関連する分野の説明を提供する。ダールグレンら(Dahlgren et al.)に対して1998年8月に発行された米国特許第5,794,050号、ブレイデン-ハーダーら(Braden-Harder et al.)に対して1999年8月に発行された米国特許第5,933,822号、ヘイドーンら(Heidorn et al.)に対して1999年10月に発行された米国特許第5,966,686号、メサーリーら(Messerly et al.)に対して2001年6月に発行された米国特許第6,246,977号、パイクら(Paik et al.)に対して2001年6月に発行された米国特許第6,263,335号。
コンピュータを用いた情報検索システムの分野には、自然言語(NL:natural language)で表現された異なる複数の種類の質問に対する回答を引き出すための情報システムとみなされる、いくつかの種類の質問応答(Q−A)システムが存在する。回答は、様々なソース(情報源)(例えばテキスト文書、百科事典、データベース等)から求められる。
そのようなクエリが来た場合、従来のシステムは、例えば特別の解析を用いるなどの形式的方法で回答を提示しようとする。そのような試みはNL(自然言語)理解システムと呼ばれる。提示の最初の形態は、キーワードの列、すなわち複数のキーワード、特定の単位等から構成されるブール論理式であった。この場合、回答の検索は、つまるところ、テキスト又はその断片内において、理想的にはその質問のすべてのキーワードをいくつかの予め定められた形態のうちの一つの形態で含んだ文をサーチすることであった。例えば、"What is the color of octopus blood?"(「タコの血の色は何色か?」)という質問に対する回答は、"color"(「色」)、 "blood" (「血」)、及び "octopus"(「タコ」)についてのキーワードサーチを、"the color of octopus blood is …"(「タコの血の色は…」)、 "blood of octopus has … color"(「タコの血は、…色を持つ」)等といったパターンの助けを受けつつ実行した結果から求めることができた。しかしながら、この方法は、そのような質問に対する答えが、"The octopus blood is blue."(「タコの血は青い。」)という文(この文は使用可能なすべての情報源に存在する唯一の回答かも知れない)に表現されているかもしれないことを考慮に入れていなかった。従来のシステムでは、この文内にキーワード"color"(「色」)がないことにより、元のクエリに対する答えは、この文からは得られなかった。
一般的には、従来のキーワードサーチは、大量の情報と無制約の自然言語によるユーザクエリを取り扱う場合には、大変非効率になる。例えば、前述の例では、単語"color"(「色」)を除くことにより、返ってくる回答は管理できないほど膨大な量となる一方、単語"color"(「色」)を含めることにより極めて有益な回答が無視されてしまうことになりかねなかった。
そのようなシステムの欠点のため、更なる研究が行われてきた。コンピュータ技術は進歩してきた。コンピュータ技術は、入手できる情報の前処理や、ユーザの要求/テキスト文書についての品詞タグ付与、構文解析、意味解析等の言語的手段(これによりユーザの要求/テキスト文書の、より正確な形式的表現が得られる)を用いた解析に取り組んできた。以下に示すのは、このようなシステムに関連する特許の概要である。
ダールグレンらに対する米国特許第5,794,050号には、NL(自然言語)理解モジュールを用いることが記載されている。そのモジュールは、素朴意味語彙目録(naive semantic lexicon)、及び、名詞及び動詞句認識を含み、NL入力を受け取り、第1階論理(FOL:first order logic)の出力を生成する。
ブレイデン-ハーダーらに対する米国特許第5,933,822号及びヘイドーンらに対する米国特許第5,966,686号には、ユーザの要求を論理形式グラフ(LFG: logical form graph)に変換することが記載されている。LFGは、論理形式の三つ組(トリプル:triple)の集合である。それらの特許は、一つの句の中の重要な単語(すなわち深層主語、深層目的語など)同士の間の意味関係を求めるものとされているが、実際には、これらLFG法は、文法上の主語、目的語等の間の意味関係を求めるものに過ぎず、「深層」の主語や「深層」の目的語等の意味関係を求めるものではない。
これらの方法に関しては、一般に、NL処理システムに新たな意味ルールを追加することはますます困難になってきていることに注意すべきである。新たなルールを追加することは、新たな処理手順上のロジックにつながり、これは意味サブシステム内に既にプログラム済みのロジックと矛盾するかも知れない。LFG及びFOLのサイズ及び複雑さにより、それらを用いることはかなり困難であり、多くの問題を解決するには不十分である。それにもかかわらず、人間の振る舞いをモデル化し、テキスト文書群の中からクエリに対する回答をサーチするアルゴリズムと組み合わされたユーザ要求/テキスト文書の先進的な言語解析は、効率的なQ−Aシステムを構築するのに有望な手段であることが明らかになってきた。
言語解析の深さに関しては、その種の開発済みのシステムは、一般には、概念化の二項関係のみを用いる。
このような方法では、メサーリーらに対する米国特許第6,246,977号には、論理形式「深層主語−動詞−深層目的語」("deep subject-verb-deep object")の形式でテキストの意味解析を実行することが記載されているが、上述の論理形式は純粋に文法的な概念である。「深層主語」と「深層目的語」はそれぞれ「名詞」でしかなく、「動詞」は「本動詞」("principle verb")にすぎない。このように、深層主語、深層目的語等の判定及び解析は、この特許には本当のところでは説明されているとはいえない。
パイクらに対する米国特許第6,263,355号には、ドメイン非依存であり、自分自身の主語(主題)知識ベースを自動的に構築する情報抽出システムが説明されている。この知識ベースの基礎は、概念−関係−概念のトリプル(三つ組)(CRC)から構成されており、CRCにおいて最初の概念は一般には固有名詞である。これは、単一の概念に関連づけられている単項関係と概念とのペアを組み合わせる二項関係の認識に依拠する、かなり単純化され厳格に規定された深層意味解析の一例である。システムは、事前に品詞タグを付され統語論的に構文解析されたテキストから、特殊な概念種類といくつかの前置詞、句読点、又は特殊なフレーズなどの言語的な手がかりとを探すことにより、意味関係を抽出する。
もちろん、意味ラベリングの処理は、この例では、CRC関係の枠組みによって制限される。例えば、因果関係の認識は、ある種の動詞と共に現れる目的語についてのみ実行することができる。そのような認識にはしばしばより広い文脈が必要となるが、一般的なケースでは、それは、いわゆる事実という、テキスト内で自動認識された意味構成要素の集合に基づいているべきであることがわかる。例えば、そのような事実の構成要素群のうちの1つは、単なる「動詞」とは対照的に、「アクション(行為・動作)」の意味概念である。課されたCRC関係の枠組みに内在する制約を考慮すると、このケースでの意味ラベリングには、非常に多大な労力を要する、多数のパターンの作成が必要である。最終的には、そのような意味ラベリングは、実際にはテキストの話題(トピックス)内容のみを取り扱うものであって、テキストの論理的な内容を考慮に入れていない。このように、そのような言語解析に基づくQ−Aシステムは、いわゆる擬似事実(factoid)タイプの質問に回答することができるのみである。まとめると、このことは、個人ユーザの現実世界での実務におけるそのようなシステムの利用に深刻な制限をもたらす。
米国特許出願公開第20080319735号明細書 米国特許出願公開第20080294637号明細書 米国特許出願公開第20020169598号明細書 米国特許出願公開第20040001099号明細書
GIRJU, ET AL, "Automatic Discovery of Part-Whole Relations", Association for Computational Linguistics, 2006年3月, 83-135頁, Vol. 32, No.1, MIT Press, アメリカ合衆国マサチューセッツ州ケンブリッジ Davidov, et al."Classification of Semantic Relationships between Nominals Using Pattern Clusters" In:Proc of ACL-08:HTL, アメリカ合衆国オハイオ州コロンバス, 227-235頁, 2008年6月30日
本発明のいくつかの側面では、ユーザにより自然言語で提示された話題内容及び論理内容に関する異なる性質の質問群に対して、テキスト文書群から答えを自動抽出するための質問応答システム及び方法が提供される。それはセマンティックプロセッサ(Semantic Processor)に基づくものであり、このセマンティックプロセッサは、テキスト文書群の事前フォーマット処理(プレフォーマット:preformatting)、テキスト文書群/ユーザクエリの基礎言語解析(例えば語彙的、品詞的、統語(構文)的、意味的な解析)、及び、基礎知識種類(例えば、外側の世界/知識ドメイン(領域)の規則性を因果関係の形で反映したルール群、事実群、及びオブジェクト/オブジェクトのクラス)の用語(例えば、マーカー)、それらの構成要素及び属性を用いたそれら文書/クエリの意味ラベリング、を実行する。同時に、そのシステム及び方法は、(テキスト文書についての)あり得る回答及び質問種類の構成要素のあらかじめ定められた分類辞を用いて、いわゆるターゲット(目標)語について、質問種類の用語による意味ラベリング(このように、それは人間の振る舞いをモデル化する)を実行することができる。
照合処理では、上述した種類の意味ラベルを利用し、入力された質問に対する的確な答えが見つけられるようにし、それら答えを文、文の断片、又は新たに合成した自然言語のフレーズ(句)などの形でユーザに提示する。従来の情報検索システムと比較した場合、本照合処理の重点は、テキスト文書群のターゲット意味ラベリング(target semantic labeling)に移っている。このとき、テキスト文書/ユーザクエリの上記意味解析の深さにより、答えの意味的コンテキスト(文脈)を正確に定めることができ、テキスト文書/ユーザクエリの意味ラベリングのために必要な言語パターン群の作成のための効率的な技術が提供される。彼/彼女の情報の必要性、及びテキスト文書群内でのその表現の言語的手段を解析して、ユーザは、独自に、システム分類辞に対して新たな種類の質問を追加することができ、更に、特定の技術に従い、要求された言語パターンを作成することができる。
本発明の一つの側面では、テキスト文書群及びユーザの質問の自動意味ラベリングに基づく質問応答方法が提供される。この方法では、少なくとも一つの一時的でない記憶媒体に接続された少なくとも一つのコンピュータプロセッサを設けるステップを含む。当該少なくとも一つのコンピュータプロセッサは、その方法を実行する。この方法は、自然言語のテキスト文書群を電子的に受け取るステップと、自然言語で表現されたユーザの質問を電子的に受け取るステップと、前記テキスト文書群と前記ユーザの質問との基礎言語解析を実行するステップと、意味解析により前記テキスト文書群の意味ラベリングを実行し、意味ラベリング(意味ラベル付与)済みのテキスト文書群をラベル付与済みテキスト文書データベースに格納するステップと、意味解析により前記ユーザの質問の意味ラベリングを実行するステップと、前記ラベル付与済みテキスト文書データベースから前記意味ラベル付与済みのユーザの質問に関連を持つテキスト断片群をサーチするステップであって、関連は前記意味ラベル付与済みのユーザの質問に対する各テキスト断片のランキングに基づくステップと、関連を持つテキスト断片群から前記ユーザの質問に対する答えを合成し、合成した答えを前記ユーザに電子的に提示するステップと、を含む。
この方法は、更に、前記テキスト文書群及び前記ユーザの質問に対して品詞タグを付与することによりタグ付与済みのテキスト文書群及びユーザの質問を生成するステップと、タグ付与済みのテキスト文書群及びユーザの質問を構文解析することにより、構文解析済み且つタグ付与済みのテキスト文書群及びユーザの質問を生成するステップと、構文解析済み且つタグ付与済みのテキスト文書群及びユーザの質問を意味解析することにより、意味解析済み且つ構文解析済み且つタグ付与済みのテキスト文書群及びユーザの質問を生成するステップと、を含んでいてもよい。
品詞タグを付与するステップは、非自然言語のシンボルが除去されたテキストを含む事前フォーマット(プレフォーマット)済みのテキストに対して実行されるようにしてもよい。
意味解析は、前記テキスト文集群及び前記ユーザの質問の中の一以上の拡張された主語−アクション−目的語(eSAO:expanded Subject-Action-Object)セットの形態の、一以上の事実を認識するステップであって、各eSAOセットは一以上のeSAO構成要素を含むところのステップと、前記前記テキスト文集群及び前記ユーザの質問の中から、外側の世界/知識ドメインの規則性を反映するルール群を前記eSAOセット群における複数の因果関係の形式で認識するステップであって、前記複数の因果関係の各々は、原因eSAOと結果eSAOを含むところのステップと、を含んでいてもよい。
前記少なくとも一つのeSAO構成要素は、主語、目的語、アクション(行為)、形容詞、前置詞、間接目的語、及び副詞からなるグループの中から選ばれた一以上の要素に関係するテキストを含んでいてもよい。
原因eSAOは、前記一以上のeSAOセットのうちの一以上のeSAO構成要素を含んでいてもよく、結果eSAOは、前記一以上のeSAOセットのうちの一以上の他のeSAO構成要素を含んでいてもよい。
前記因果関係は、前記原因eSAOの前記eSAO構成要素を前記結果eSAOの前記他のeSAO構成要素に対して語彙的、文法的、及び/又は意味的言語手段により関係づける順次演算子(sequential operator)を含んでいてもよい。
前記テキスト文書群及び前記ユーザの質問の中の一以上の拡張された主語−アクション−目的語(eSAO)セットを認識する処理では、前記テキスト文書群及び前記ユーザの質問の一以上の文の中の一以上の主語、目的語、アクション(行為)、形容詞、前置詞、間接目的語、及び副詞を認識してもよい。
前記テキスト文書群及び前記ユーザの質問の中の一以上の拡張された主語−アクション−目的語(eSAO)セット及び複数の因果関係を認識する処理では、eSAO及び原因-結果(因果)の構成要素を規定する複数のパターンを含むデータベースを有する言語知識ベースにアクセスしてもよい。
前記意味解析されたテキスト文書群の意味ラベリングは、言語知識ベースの一部であるパターンデータベース内の質問分類(question classification)に基づく言語パターン群に対して前記意味解析済みのテキスト文書群を照合する処理に基づいていてもよい。その方法は、前記テキスト文書群の中のテキストについて、品詞タグ、統語タグ、及び意味ラベル及びeSAOセット及び因果(原因-結果)セットを求めるステップ、eSAOラベル及び因果(原因-結果)ラベルを生成するステップ、及び前記eSAOラベル及び前記因果ラベルを、ターゲット語についての答え要素及び質問種類の意味ラベルと照合するステップ、を含んでいてもよい。
前記意味解析されたユーザの質問の意味ラベリングは、言語知識ベースの一部であるパターンデータベース内の質問分類に基づく言語パターン群に対して前記意味解析済みのユーザの質問を照合する処理に基づいていてもよい。その方法は、前記ユーザの質問の中の単語群の品詞タグ、統語タグ、及び意味ラベルを求めるステップ、前記ユーザの質問の単語群からeSAOラベル及び因果ラベルを生成するステップ、及び前記eSAOラベル及び前記因果ラベルを、ターゲット語についての質問種類の意味ラベルと照合するステップ、を含んでいてもよい。
前記ラベル付与済みテキスト文書データベースから前記意味ラベル付与済み(意味ラベリング済み)のユーザの質問に関連を持つテキスト断片群をサーチするステップは、前記ラベル付与済みテキスト文書データベースからの文に対して、前記意味ラベル付与済みのユーザの質問を照合する処理に基づいていてもよい。これは、単語群と意味ラベル群を照合する処理、及び前記ユーザの質問に関連を持つ文と関連の程度の指標のリストを構築する処理、を含んでいてもよい。
この方法は、オプションとして、前記ユーザの質問に関連を持つ、前記ラベル付与済みテキスト文書データベースからの文を、各文からの意味情報を前記ユーザの質問からの意味情報と照合するためのあらかじめ定められた基準に従って求められる、ユーザの質問に対する各文の関連の程度に基づきランク付けする処理を含んでいてもよい。
前記答えを合成するステップでは、関連する複数の文からユーザの質問に対する自然言語の答えを合成する処理が、テキスト文書群の意味ラベリングの段階での答えの構成要素のラベルで印を付けられた関連する複数の文の元の断片群の形で、及びeSAO形式に基づいて、前記言語知識ベースからの言語パターンに基づいて生成された新たな自然言語のフレーズ(句)の形で、実行されてもよい。
本発明の別の側面では、テキスト文書群及びユーザの質問の自動意味ラベリングに基づく質問応答のための方法を実行する、コンピュータが実行可能な命令群が格納されたコンピュータ読み取り可能な媒体を含んだコンピュータプログラム製品が提供される。この方法は、自然言語のテキスト文書群を電子的に受け取るステップと、自然言語で表現されたユーザの質問を電子的に受け取るステップと、前記テキスト文書群と前記ユーザの質問との基礎言語解析を実行するステップと、意味解析により前記テキスト文書群の意味ラベリングを実行し、意味ラベル付与(意味ラベリング)済みのテキスト文書群をラベル付与済みテキスト文書データベースに格納するステップと、意味解析により前記ユーザの質問の意味ラベリングを実行するステップと、前記ラベル付与済みテキスト文書データベースから前記意味ラベル付与済みのユーザの質問に関連を持つテキスト断片群をサーチするステップであって、関連は前記意味ラベル付与済みのユーザの質問に対する各テキスト断片のランキングに基づくステップと、前記関連を持つテキスト断片群から前記ユーザの質問に対する答えを合成するステップと、を含む。
この方法は、更に、前記ユーザに対して前記答えを電子的に提示するステップを含んでもよい。
本発明の他の側面では、自然言語で表現された電子的又はデジタル的形式のテキスト文書群及びユーザの質問の自動意味ラベリングを用いる質問応答システムが提供される。このシステムは、言語知識ベースと、言語解析されたテキスト文書群及びユーザの質問を生成する言語解析部とを備える。前記言語解析部は、意味解析部を備え、この意味解析部は、拡張主語−アクション−目的語(eSAO)認識部及び原因-結果認識部を備え、前記テキスト文書群及び前記ユーザの質問に基づいて、一以上のeSAOセットの形の一以上の事実を認識し、意味解析されたテキスト文書群を生成する。ここで、eSAO及び原因-結果(因果)の認識は、前記言語知識ベースに記憶されたパターン群に基づく。
前記言語解析部は、更に、電子的又はデジタル的形式の前記テキスト文書群に基づいた事前フォーマット済みのテキスト文書群及び前記ユーザの質問を受け取る品詞タグ付与部と、前記品詞タグ付与部によりタグが付与された前記テキスト文書及びユーザの質問を受け取り、構文解析済みのテキスト文書群及びユーザの質問を前記意味解析部に提供する構文解析部と、を備えていてもよい。前記タグ付与部及び前記構文解析部は、前記言語知識ベースに記憶されたデータを用いて処理を行ってもよい。
前記質問応答システムは、更に、電子的又はデジタル的形式の前記テキスト文書群を受け取って事前フォーマット済みのテキスト文書群を生成する事前フォーマット部と、前記言語知識ベースに記憶された質問分類に基づく言語パターン群に対して前記意味解析済みのテキスト文書群を照合し、前記意味解析済みのテキスト文書群と前記照合とに基づいて意味関係ラベルを生成し、意味ラベル付与済みのテキスト文書群がラベル付与済みテキスト文書データベースに格納されるようにするテキスト文書ラベル付与部と、前記言語知識ベースに記憶された質問分類ベースの言語パターン群に対して前記意味解析済みのユーザの質問を照合し、前記意味解析済みのユーザの質問と前記照合とに基づいて意味関係ラベルを生成する質問ラベル付与部と、前記意味ラベル付与済みのユーザの質問をラベル付与済みテキスト文書データベースからの文と照合するサーチ部であって、単語群及び意味ラベル群を照合し、関連の程度の指標を有する前記ユーザの質問に関連を持つ文のリストを構築するサーチ部と、前記ユーザの質問に関連を持つ、前記ラベル付与済みテキスト文書データベースからの各文をユーザの質問に対する各文の関連の程度に従ってソートする答えランク付け部と、前記関連を持つ文から前記ユーザに対する自然言語の答えを生成し、それら答えを前記ユーザに電子的に提示するテキスト合成部と、を含んでいてもよい。
前記事前フォーマット部は、以下に示す機能のうちの少なくとも一つを実行するように構成されていてもよい。前記テキスト文書群のデジタル的又は電子的表現の中から自然言語テキストの部分を構成しないシンボルを除去する機能、テキスト文書群内の食い違い及び誤りを検出及び修正する機能、そのテキストを文及び単語の構造へ分割する機能。
前記テキスト文書ラベル付与部は、単語、品詞タグ、統語タグ、eSAO及び因果セットを照合することにより、前記意味解析済みのテキスト文書群を言語パターンと照合するように構成してもよい。
前記テキスト文書ラベル付与部は、eSAO及び因果(原因-結果)ラベルを生成することにより、及び、ターゲット語についての答え構成要素と質問種類の意味ラベルの照合に基づいて、意味関係ラベルを生成するように構成してもよい。
前記質問ラベル付与部は、単語、品詞タグ、統語タグ、質問語のラベル、eSAO及び因果セットを照合することにより、前記意味解析済みのユーザの質問を言語パターンと照合するように構成してもよい。
前記質問ラベル付与部は、eSAO及び因果ラベルを生成することにより、ターゲット語についての質問種類の意味ラベルの照合に基づき、意味関係ラベルを生成するように構成してもよい。
前記テキスト合成部は、関連する複数の文の元の断片群の形で、及びeSAO形式に基づいて、前記言語知識ベースからの言語パターンに基づいて生成された新たな自然言語のフレーズ(句)の形で、答えを生成することにより、前記ユーザの質問に対する自然言語の答えを生成するように構成してもよい。
前記意味解析部は、前記eSAOセットから因果関係を生成するように構成されてもよく、ここで、前記因果関係の各々は、原因eSAO、結果eSAO、及び前記原因eSAOを前記結果eSAOに関連づける少なくとも一つの順次演算子を含む。
前記各eSAOセットは、eSAO構成要素を含んでいてもよく、ここで前記原因eSAOは一以上のeSAO構成要素を含み、前記結果eSAOは前記原因eSAOの前記一以上のeSAO構成要素以外の一以上のeSAO構成要素を含む。
前記一以上のeSAO構成要素は、主語、目的語、アクション、形容詞、前置詞、間接目的語、及び副詞からなるグループの一以上の要素を含んでいてもよい。
図面は、好適な実施の形態を例示のために図示するものであって、限定的なものではない。それら図面において、類似の符号は同一又は類似の要素を指し示す。それら図面は、必ずしも寸法に合ったものである必要はなく、その代わりに本発明の例示した側面を強調する。
本発明のいくつかの側面に従って、質問応答システムを構成するための、一以上のコンピュータ内に実装可能な、一組の機能モジュール又はプロセッサの実施形態の高レベルアーキテクチャの図である。 本発明のいくつかの側面に従って、言語解析部を構成するための、一以上のコンピュータ内に実装可能な、一組の機能モジュール又はプロセッサの実施形態の高レベルアーキテクチャの図である。 本発明のいくつかの側面に従って、意味解析部を構成するための、一以上のコンピュータ内に実装可能な、一組の機能モジュール又はプロセッサの実施形態の高レベルアーキテクチャの図である。 本発明に従う具体的すなわち特定の文についてのeSAO認識部の出力の例を示す図である。 本発明に従う別の具体的すなわち特定の文についてのC−E認識部の出力の例を示す図である。 本発明に従って、2つの具体的すなわち特定の文の例と、それらについての言語解析の結果と、記載された言語パターンに基づいて求められたそれらの形式的表現と、を例示する図である。 本発明に従って、2つの具体的すなわち特定の文の例と、それらについての言語解析の結果と、記載された言語パターンに基づいて求められたそれらの形式的表現と、を例示する図である。 本発明のいくつかの側面に従って、適切に構成されると、この明細書に記載される一以上の機能又は方法を実行するのに用いることができるコンピュータ実装例のアーキテクチャーの図である。 本発明が実装され得る、コンピュータ装置群のネットワークの例を示す図である。
以下では、本発明のいくつかの側面が、添付の図面を参照しつつ、それら側面の例示のための実施の形態を説明することにより記述される。それら実施形態を説明するに当たっては、周知の項目や機能、構成などの詳細な説明は典型的には簡潔さのために省略する。
了解されるように、「第1の」、「第2の」等の用語は、この明細書では、様々な要素を記述するために用いられ、それら要素はそれら用語により限定されるべきではない。これらの用語は、ある要素を別の要素から区別するのに用いられるものであり、複数の要素の間に要求される順序を示すものではない。本発明の範囲から逸脱することなく、例えば、第1の要素を第2の要素と呼んでもよいし、同様に、第2の要素を第1の要素と呼んでもよい。この明細書内で用いるように、「及び/又は」という用語は、対応するリスト内の複数の項目の一以上のものについての、いかなる組合せ、すべての組合せを含んでいる。
了解されるように、ある要素が他の要素に「接して」、「接続されて」、又は「結合されて」いると表現される場合、その要素は当該他の要素に直接に接して、又は接続されて、又は結合されていてもよいし、間に介在する要素が存在していてもよい。これに対し、ある要素が他の要素に対して「直接接して」、「直接接続されて」、又は「直接結合されて」いると表現される場合、間に介在する要素は存在しない。要素間の関係を記述するのに用いられる他の語句も、同様の方式で解釈されるべきである(例えば、「(二者の)間に」と「(二者の)直接の間に」との関係、「隣り合う」と「直接隣り合う」との関係など)。
この明細書で用いられる用語は、特定の実施形態を説明する目的のためのものであって、本発明を限定することを意図したものではない。この明細書で用いられるように、単数形の記載(「a」、「an」、及び「the」)は、文脈上明らかにそうでない限り、複数形をも含むことを意図している。更に了解されるように、「含む」、「含んでいる」、「包含する」、及び/又は「包含している」という用語は、この明細書で使用される場合、記載された特徴、ステップ、処理、要素、及び/又は構成要素が存在することを示すものであって、一以上の他の特徴、ステップ、処理、要素、構成要素、及び/又はそれら特徴等のグループが存在すること又はそれらを付加することを排除するものではない。
本発明の実施の形態は、テキストデータベースにおける何らかの自然言語(NL)で表現されたユーザクエリのサーチを実行し、そのクエリに関連を持つ、すなわちその質問に対する的確な答えを含んだ文書の断片(例えば、文又はその一部)だけでなく、質問に向いた冗長性が最小限の新たなNLフレーズ(自然言語の句)の形で合成された答えも検索する、質問応答システムに関する。このシステムは、厳密にではないが、あらかじめ定められたそのような質問種類の集合からの質問に対する答えの検索を指向したものである。質問の分類は、当該Q−Aシステム内で最も頻繁な質問についての既知のデータに基づくと共に、外側の世界/主語ドメイン(実際のところ、テキスト文書群はそのような種類の知識を表現する手段として機能する)についての三つのよく知られた主たる種類の知識に基づいている。このような種類の知識は、テキストDBのインデキシング(インデックス付け)/ラベリング(ラベル付け)の段階で認識されると共に、とりわけ、答えの意味的なコンテキスト(文脈)を制約することを可能にする。ユーザには、自分にとっての関心を表現するあらたな質問種類を生成して、言及した質問の集合に含めるための機構が提供される。
このシステムは、例えばユーザから、受け取った質問と、データベース(DB)内のテキスト文書群と、の言語解析を実行し、前記主たる種類の知識とその構成要素の観点からそれら質問及び文書群の意味ラベリングを実行する。同時に、このシステムは、質問種類と、あり得る答えの構成要素、の観点から、いわゆる「ターゲット語彙単位」("target lexical units.")について、テキストのラベリングを実行する(テキスト文書群の場合)。このシステムは人間の振る舞いに対応するテキストラベリングモデルを用いる。この場合、照合手順では、言及された種類の意味ラベルを用い、提出された質問に対する的確な答えが見つけられるようにする。必要ならば、その答えは、認識した種類の知識とその構成要素の意味ラベルに基づいて、新たなNL(自然言語)フレーズの形で合成してもよい。
本発明のいくつかの側面では、自動意味ラベリングに基づいた質問応答システムの実施形態(この明細書ではQ−Aシステム150又はシステム160と呼ぶ)は、図1の例示的な実施形態を参照することで理解される。Q−Aシステム150は、受け取ったユーザの質問70を処理し、その質問に対する答えを、ラベル付与済みテキスト文書データベース50に記憶されている既に処理済みのテキスト文書群の中からサーチし、それら答えを答え130の形でユーザに適用する。答えは、テキスト文書群からの元(オリジナル)のフレーズを含み、要求されるならば、それらフレーズに基づいて合成されたNL(自然言語)フレーズを含む。この実施形態では、Q−Aシステム150は、(元のテキスト文書群を事前フォーマットする)事前フォーマット部20と、(事前フォーマット済みのテキストの言語解析のための)言語解析部30と、(テキスト文書分のサーチインデックスを構築し、ラベル付与済みテキスト文書データベース50を生成する)テキスト文書ラベル付与部と、(ユーザの質問の言語解析のための)言語解析部80と、(その質問のサーチインデックスを構築する)質問ラベル付与部90と、(ラベル付与済みテキスト文書データベースからのその質問に対する答えのサーチを実行する)サーチ部100と、(ユーザの質問70に対してQ−Aシステム150により検索された複数の答えを、例えば関連性に基づいて、ランク付けする)答えランク付け部110と、(ユーザの質問70に対する答えをテキスト文書群の元の断片群の形、及び合成されたNLフレーズの形で生成する)テキスト合成部120とを含む。
Q−Aシステム150の各モジュールの機能は、少なくとも一つのプロセッサにより実行可能な言語知識ベース60内に保持されるコンピュータプログラムコードとして具現化されていてもよい。この代わりに、又はこれに加えて、この意味処理機能は、ハードウエア、ファームウエア、又はこれらの組合せとして具現化してもよく、このことはこの明細書に記載する他の機能モジュール又はプロセッサでも成り立つ。言語知識ベース60は、辞書、分類辞(classifiers)、統計データ等の様々なデータベースと、テキストから単語への分割、名詞及び動詞の句、主語、目的語、アクション及びそれらの属性の認識、因果関係の認識等に用いられる言語モデル又は言語パターンを認識するデータベースと、を含んでいてもよい。事前フォーマット部20により実行されるテキスト事前フォーマット処理は、この実施形態では、好適には、米国特許第7,251,781号に記載される技術に従って実行される。好適には、テキストの事前フォーマット処理にて、句読点などの非自然言語のシンボルを除去する。
図2には、言語解析部30を構成し得るモジュール群の実施形態が示されている。言語解析部30は、事前フォーマット部20からの事前フォーマット済みテキスト12を処理して意味解析済みテキスト16を生成する。事前フォーマット済みテキスト12は、品詞タグ付与部32により受け取られ、品詞タグ付与部32は、事前フォーマット済みテキスト12に対して、品詞タグ群を求めて付与する。次に構文解析部34は、意味解析部300による処理のために、POS(品詞)タグ付与済みテキストを構文解析する。品詞タグ付与部32及び構文解析部34により実行される機能は、この実施形態では、好適には、米国特許第7,251,781号に記載された技術に従って実行される。
図3には、意味解析部300を構成し得るモジュール群の実施形態が示されている。意味解析部300は、構文解析済みテキスト14を受け取り、意味解析済みのテキスト16を生成する。意味解析部300は、拡張主語−アクション−目的語(eSAO)意味関係(又は関係性)認識を実行し、eSAOセットの形のeSAO群を見つけるeSAO認識部310と、eSAO内又はeSAO間での原因-結果(因果)意味関係(又は関係性)認識を実行するC−E認識部320とを有する。eSAOタイプの意味関係とは、主語(S)-アクション(A)-目的語(O)のタイプの関係であり、それら各構成要素についての前置詞、間接目的語、形容詞、副詞相当語句などの属性を含む。
図4Aには、次の文についてeSAO認識部310により実行されるeSAOタイプの意味関係の認識の例を示す。
"The maximum value of x is dependent of the ionic radius of the lanthanide element"(「xの最大値は、ランタニド元素のイオン半径に依存する」)
一般に、主語、目的、及び間接目的語は内部構造(すなわちその構成要素自身とその属性)を有しており、それらは意味関係、すなわちパラメータ、全体-部分等に対応する。eSAO関係の認識は、この実施形態では、好適には、米国特許第7,251,781号に記載された技術に従って実行される。
この実施形態に従って因果関係を求める処理は、原因としての一以上のeSAO(完全であるにせよ不完全であるにせよ)を、結果としての一以上のeSAO(これも完全であるにせよ不完全であるにせよ)とペアにする処理を含んでいる。単一のeSAOが原因eSAO及び結果eSAOの両方を生み出すことができることに留意されたい。また、知識工学及び自然言語の特殊性の観点から見れば、因果関係は個々のeSAOから見出すことができる。
C−E認識部320は、言語知識データベース60からの言語パターンを用いて、テキスト内の、単一のeSAO内、及び異なる複数のeSAO同士の間の因果関係を検出する。
図4Bには、言語知識ベース60内に提示される言語パターンの一つに従って、C−E認識部320により認識された、入力された文内の二つのeSAO内の因果関係が例示される。
"The register contains the proper bit pattern to begin its shift-out operation,"(「レジスタは、シフトアウト操作を開始するための適切なビットパターンを含んでいる」)
因果(原因-結果)関係の認識は、本実施形態では、好適には、米国特許出願公開第20060041424号に記載された技術に従って実行される。
言語解析部30により設定される、言語解析段階での入力テキスト内の意味ラベル(主語|目的語|間接目的語、eSAO、C−E)は、外側の世界/主語ドメインについての三つの主要な種類の知識(すなわち、オブジェクト(もの)群、事実群、及び外側の世界/知識ドメインの規則性を反映したルール群)に対応し、語彙的、文法的及び統語的タグと一緒になって、実用的には、入力された文のすべての語彙単位(lexical units)をカバー(包含)し、目標とする意味ラベリングのための、目的に応じた更なるテキスト意味ラベリングのための言語パターン群を生成するための効率的なコンピュータ利用の技術を提供する。この技術のアイデアは、言語解析部30が、専門家に対して、言語ドメイン及び知識ドメインに依存しない、語彙的、文法的、統語的及び意味的解析などのような言語解析の互いに異なる複数のレベルについての、ラベルを有する新たなタグ付けされた意味関係のいかなる特定の例をも「ラップする」(包み込む)能力を提供することである。ユーザは、例えばコンピュータディスプレイ上のテキストの断片内の対応する単語群を強調表示することにより、新たなタグ付与済み意味関係を指定することができる。このように、言語解析部30は、一方では、テキスト内の意味関係を認識するための言語パターンの一般化のための能力、もう一方では、生成された言語パターンに基づいてどのようなテキスト中の意味関係の自動認識をも機能的に支援する能力、を提供する。なぜなら、言語解析部は、言語パターンにより用いられるレベルのテキスト解析にアクセスすることができるからである。この認識処理は、話題(トピック)内容のみならず、論理内容についても実行することができる。
説明した意味ラベリングの方法、及び必要な言語パターンの生成の技術は、テキスト文書ラベル付与部40がテキスト文書群の効率的なサーチインデックスを生成するのに用いられる。Q−Aシステム150には、あらかじめ、言語知識ベース60の構成要素群の一つを表す主要な質問の種類の分類辞62が、ターゲットの質問として供給されていてもよい。それに基づいて、質問に対する的確な答えの検索には、一般には、ユーザのクエリ(すなわち質問)/テキスト文書群の言語的解析だけでなく意味解析も必要であり、それらの照合のための効率的な手順が必要であることを考慮すると、その手順の戦略の強調点は、テキスト文書群のターゲット意味ラベリングの段階に移る。
この段階では、いわゆるターゲット語が、テキストの中で、言語パターン群に基づいて認識される。ターゲット語は、定められた分類の中の種類の質問を提示することができる対象の単語である。そのような単語には、対応する質問種類のマーカーと、それら単語のコンテキスト(文脈)のある種の構成要素のマーカーとが割り当てられる。そのような構成要素がこれらの質問に対する潜在的な答えを表現する。ターゲット語群及びそれらのコンテキストを表す語群がeSAO及び因果(原因-結果)のタイプの意味関係の構成要素である(かつ、対応する意味ラベルを持つ)という事実に起因して、必要な言語パターンの生成は、上述した効率的な方法に従って実行される。同時に、ターゲット語は、ある意味クラスに属すれば、その意味を認識しないにせよその意味を認識するにせよ、言及した意味関係の構成要素として、その語に対する直接の質問の答えになるかも知れないことを考慮に入れる。したがって、その答えの意味コンテキストは非常に厳密に設定される。eSAO形式の厳密さにより、NLフレーズの形式の質問に対する答えを正しく合成するためのすべての前提条件が存在する。
このように、言語解析されたテキスト文書群は、テキスト文書ラベル付与部40に進み、この付与部40はまず、それら文書群の語彙的、文法的、及び統語的タグと、意味ラベルとを登録し、次に、言語知識ベース60内に設定されている対応する言語パターン群と質問の分類とに基づいて、それら文書群のターゲット意味ラベリングを実行する。例えば、システム150により処理されるテキスト文書10の文の一つが次の文であるとしよう。
Da Vinci was 51 years old when he painted Mona Lisa.(モナリザを描いたとき、ダ・ビンチは51歳であった。)
事前フォーマット部20及び言語解析部30によるその文書処理の後、次のような表現が求められる(簡潔にするため、主語と目的語の内部構造の「主/属性」マーカーは省略している。
Figure 2012520527
ここで、NP,BE,CD,NNS,JJ,VBは単語のPOS(品詞)タグであり、主語、アクション等は意味ラベル、すなわちいわゆるeSAOラベルである。
更に、テキスト文書ラベル付与部40は、言語知識ベース60からの言語パターンの一つに基づいて、例えば、単語の並び"Da Vinci"(ダ・ビンチ)が"Age"(年齢)タイプの質問の一つについてのターゲットであると判定する。すなわち、この並びに対して意味ラベル"QT_Age"を割り当てる。以下に示すのは、上述した言語パターンの形式的記述である。
Figure 2012520527
ここで、アクションフィールド内の語彙単位は、品詞タグBEを持っているべきであり、形容詞フィールドは意味"[ABOUT] + NUMBER + MEASURE"を持っている。好適な実施形態では、意味"ABOUT"は、単語又は句"about | approximately | at least | over | only | below | above | more than | less than"に少なくとも等しく、"NUMBER"は語又は数字を用いて何らかの数(どのような場合でもそれはCDのPOSタグを持つであろう)を表す非終端シンボルであり、"MEASURE"は時間の測定の単位(day | week | month | year |など)を表す非終端シンボルである。
同様に、テキスト文書ラベル付与部40は、文"Oxygen also has a similar harmful effect on the grain growth"(「酸素は穀物の生育に関しても同様の有害な作用をもたらす。」)内で、単語"oxygen"(「酸素」)が、"disadvantage"(「不利益」)の種類の質問についてのターゲットであると判定し、この単語に対して"QT_Disadvantage"という意味ラベルを割り当てる。また、例えば、文"Mr. Mark Chapman is a killer of John Lennon"(「マーク・チャップマン氏はジョン・レノンの殺害者である」)において、ターゲット語"killer"(「殺害者」)には意味ラベル"QT_SubjectPerson"が割り当てられるであろう。
単一のターゲット語は、様々な種類の質問を表すいくつかの異なった種類のラベルを持ってもよいことに留意すべきである。
ターゲット語のその意味ラベルを検出するのと同時に、テキスト文書ラベル付与部40は、同じ言語パターンに基づき、その質問種類に対する答えを構成する文の各構成要素を登録し、印付けする。このように、例えば、最初の文の意味ラベル"QT_Age"を有するターゲット語"Da Vinci"については、形容詞1フィールドが、上述したパターンの形式的表現からのマーカー"ANS_Adj"に基づいた答え、すなわち"51 years"として登録される。である。二番目の文の意味ラベル"QT_Disadvantage"を有するターゲット語"oxygen"については、目的語フィールド+前置詞フィールド+間接目的語フィールドが答え、すなわち"harmful effect on the grain growth"として登録され、三番目の文からの意味ラベル"QT_SubjectPerson"を持つターゲット語"killer"については、主語フィールドが答え、すなわち"Mr. Mark Chapman"として登録されるであろう。
eSAO形式の厳密さを考慮に入れると、上述した答えはeSAOのある種の構成要素を表し、したがって、NL(自然言語)の文の形式で合成されてもよい。
言語解析部30とテキスト文書ラベル付与部40の補助によりラベルが付与されると、テキスト文書群はラベル付与済みテキスト文書データベース50へと進み、入力された質問70に対する答えの検索を実行するシステム150内の他の要素の利用に供される。
事前に、質問70は、テキスト文書群に対して言語解析部30により実行される言語解析と同様の言語解析を実行する言語解析部80による処理を受ける。
例えば、質問"How old was Da Vinci when he painted Mona Lisa?"(「モナリザを描いたときダ・ビンチはいくつだったか?」)の言語解析の結果として、次の形式的表現が求められる。
Figure 2012520527
更にこの段階で、その質問内の単語"how"にマーカー"QWord"を与えられ、単語"old"にマーカー"QHowClassifier"が与えられる。この処理は、言語知識ベース60からの言語パターン群に基づいて実行される。
求められた形式的表現は、更に質問ラベル付与部90に進む。質問ラベル付与部90は、言語パターン群に基づき、質問のターゲット語と、定められた分類に従った質問の種類とを求め、その質問のターゲット語に対して対応する意味マーカーを割り当てる。以下に示すのは、上述の質問を処理するのに利用されることになる言語パターンのうちの一つの例である(パターンにとって重要でないeSAOの構成要素は記述から省かれている)。
Figure 2012520527
このパターンに基づいて、質問についての上述した言語解析結果を考慮に入れ、質問ラベル付与部90は、上述の質問"How old was Da Vinci when he painted Mona Lisa?"について以下に示す最終的な形式的表現を生成する。
Figure 2012520527
この形式的表現に従って、サーチ部100は、ラベル付与済みテキスト文書データベース50をサーチして、テキスト文書群の中の意味マーカーQT_Ageを含んだ文を求める。更に、そのようなマーカーが、名詞グループ(NG)に対して、当該名詞グループの持つeSAOマーカーが何であるか、すなわち主語、目的語又は間接目的語のいずれであるか、に無関係に、付与されてもよい。また、そのような文は、主語、アクション及び目的語のフィールドが以下に示す対応する値、すなわち"Da Vinci"、 "paint"、 "Mona Lisa"、を有する一以上のeSAOを含んでいるべきである。この場合、このeSAOは、答えの意味コンテキストを決定する。図5A及び5Bは、二つの更なる質問"What are the disadvantages of oxygen?"(「酸素の不利益は何か?」)及び"Who killed John Lennon?"(「誰がジョン・レノンを殺したのか?」)についての、対応する言語パターン群に基づいた言語解析及び意味ラベリングの結果を例示している。コンパクトにするために、そこには空でないeSAOフィールドのみが示されている。
後者の例では、質問の形式的記述は、言い換え(リフレーズ:rephrasing)(REPH)の言語手段を用いた結果として得られる三つの表現からなるグループから構成される。これは、言語パターンの対応するフィールド内のマーカーREPHにより示される。図5Bを参照。
どんな場合でも、質問ラベル付与部90により求められる質問の形式的表現は、実際のところ、選言標準形(disjunctive normal form)である。その標準形の連言(論理和:Conjunctions)は、対応する意味マーカーを有する質問のある種の語彙単位を表現する。このように、例として提示した、一番目及び二番目の表現は一つの連言項を含み、一方、三番目の表現は三つの連言項を含む。そこで、単一のターゲット語が、それら連言項の各々の中で選択される。そのような語には、eSAOマーカーに加え、例えばQT_Age、 QT_Disadvantage、 QT_SubjectPersonなどの質問タイプを示す意味マーカーが割り当てられる。
意味ラベル付与済みの質問は、更にサーチ部100に進む。サーチ部100は、入力された質問に対する答えの自動サーチを実行する。このサーチは、ラベル付与済みテキスト文書データベース50に対して、その質問から求められた形式的表現に基づいて、行われる。
結果として、サーチ部100は、以下の基準に従って、意味ラベル付与済みのテキスト文書群から、質問の形式的表現の連言項の少なくとも一つを完全に又は部分的に満足する文を、関連するものとして登録する。
1.ターゲット語と答えのコンテキストを規定する単語群とを含む、連言項のすべての単語は、意味ラベル付与済みの文内に存在する。
2.質問種類のマーカーを含む、同じ単語とそれらのセットの意味ラベルが、質問の連言項内及びその文の中で一致する。
それらの基準に従って選択された文は、更に、答えランク付け部110に進む。答えランク付け部110は、上述の基準に対するそれら各文の関連の程度に従って、それら文のランク付けを実行する。ここで、ユーザは、どの特定の基準が優先されるべきかを、例えばコンピュータディスプレイを介する答えランク付け部110との対話処理により、独自に設定することもできる。どのような場合でも、最も関連するのは、その定式化された基準に完全に対応する文である。
質問に関連する文は、更に、テキスト合成部120に進む。テキスト合成部120は、その文からのフレーズ、又は新たなNL(自然言語)フレーズの形で、答え130を合成する。これは、テキスト文書ラベル付与部40によりその文に設定されたマーカー、すなわちその質問に対する答えの構成要素を判定するマーカー、に基づいて行われる。新たなNLフレーズの形での答えの提示は、質問の形式的表現の形式(eSAO形式)の厳密さと、言語知識ベース60からの対応する言語パターン群と、によって達成される。例えば、上述の質問のうちの最初のものについては、この種の答えは"Da Vinci was 51 years old"(「ダ・ビンチは51歳だった」)であり、二番目の質問については"Disadvantage of oxygen is harmful effect on the grain growth"(「酸素の不利な点は、穀物の生育に関する有害な作用である」)である。
このようにして、例えば、次に示す三つの関連する文が、システム150により、上述の例の各問題に対する答えとして、この明細書に示す方法に基づいて、選ばれる。
1.Da Vinci was 51 years old when he painted Mona Lisa.(モナリザを描いたとき、ダ・ビンチは51歳であった。)
2.Oxygen also has a similar harmful effect on the grain growth.(「酸素は穀物の生育に関しても同様の有害な作用をもたらす。」)
3.Mr. Mark Chapman is a killer of John Lennon.(マーク・チャップマン氏はジョン・レノンの殺害者である)
これに応じて、システムは以下のような短い答えをそれぞれ求める。
1.51 years(51歳)
2.harmful effect on grain growth(穀物の生育に関する有害な作用)
3.Mark Chapman(マーク・チャップマン)
これまでに説明したように、テキスト文書ラベル付与部40及び質問ラベル付与部90の機能は、質問種類の分類辞62と、言語知識ベース60からの多数の対応する言語パターン群とにより保証される。ユーザの情報の必要性とテキスト文書群の中でのその表現の言語的手段を解析することで、ユーザは新たな種類の質問を表現する能力を持ち、その分類辞62をそれらに付加し、対応する言語パターン群を、それらを効率的に生成する技術を用いることにより生成する。
好適な実施形態では、言語知識ベース60は、以下に示す例を含む(ただしこれらに限定されるわけではない)異なる複数の種類の質問とこれらに対応する言語パターン群とを体現する。ここで、大まかに示すのは、質問種類のマーカーと、質問種類の各々についての特定の例と、この明細書で説明した方法に基づいてシステム150により最も関連するものとして選ばれた、テキスト文書群からの文の例と、その質問に対するそれら文書の元の断片群の形の答え(簡潔にするために、対応する形式的な記述はすべて省略されている)と、であり、質問と文のターゲット語には下線が付されている。
Figure 2012520527
Figure 2012520527
Figure 2012520527
Figure 2012520527
Figure 2012520527
Figure 2012520527
Figure 2012520527
Figure 2012520527
本発明のいくつかの側面に従った実施形態は、一以上のコンピュータ、マイクロプロセッサ、マイクロコントローラその他の処理装置により実行可能な、コンピュータ実行可能な命令群により提供することができる。そのシステム及び方法を実行するためのコンピュータ実行可能な命令群は、その処理装置によりアクセス可能なメモリ内にあるか、フレキシブルディスクやハードディスク、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、リードオンリーメモリ(ROM)、その他の記憶媒体により、処理装置に提供されてもよい。
例えば、本発明のいくつかの側面に従った実施形態は、図6に示されるコンピュータシステム600のような、特別に構成されたコンピュータシステム内に実装されてもよい。コンピュータシステム600は、少なくとも1つの処理要素601と、ディスプレイ603と、入力装置605と、上述した意味ラベリングを実現するために必要な情報を提供するデータベース607(又は他のコンピュータ読み取り可能な記憶媒体)へのリンクとを含んでいてもよい。
様々な実施形態では、この明細書に説明したアプリケーション群、機能モジュール群、及び/又はプロセッサ群には、ハードウエア、ソフトウエア、ファームウエア、又はそれらの何らかの組合せが含まれ得る。機能群が全体的又は部分的にプログラムコード内に実現される範囲で、それらの機能は、一以上の特定のマシンとして、一緒になって本発明の概念の機能群を実行するように適応した、一以上のプロセッサにより実行される。また、様々な実施形態においてソフトウエア又はコンピュータプログラムコード又は命令群(「アプリケーション」と呼ぶこともある)が使用される範囲で、そのソフトウエアは、様々な一時的でない記憶装置又は媒体のうちのいずれに格納されてもよく、この明細書に記載したシステム又は方法の明示的な、暗黙の、及び/又は固有の機能を実現するように一以上のプロセッサやマイクロプロセッサ、マイクロコントローラ、その他の処理装置により実行されてもよい。例えば、コンピュータプログラムコードは、処理装置内のメモリ内にあってもよいし、フレキシブルディスクやハードディスク、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、リードオンリーメモリ(ROM)、又はその他の一時的でない記憶媒体により、処理装置に提供されてもよい。そのような記憶装置又は媒体、及びそのようなプロセッサは、論理的にせよ物理的にせよ、同じ場所配置されてもよいし互いに離れていてもよい。例えば、本発明の概念に従ったシステムは、一以上の他のコンピュータやデータベース等に対して、インターネット(及びWWW)やイントラネット、エクストラネット、VPN、その他のネットワーク等のうちの一以上のようなネットワークを介して、アクセスしてもよい。
ことさら指示することがなければ、この明細書で用いているように、コンピュータは、少なくとも一つのプロセッサと記憶媒体とを含んだ、既知の又はこれから開発されるいかなる装置の形態をとってもよい。例えば、図7を参照すると、コンピュータ又はコンピュータシステムには、サーバ78、PDA(personal digital assistant)91、ラップトップコンピュータ72、携帯音楽装置73、パーソナルコンピュータ74、携帯電話75、ワークステーション(図示省略)、メインフレーム(図示省略)等、又はそれらの何らかの組合せが含まれ得る。それらの装置は、例えばキーパッドやキーボード、マイク、ビデオカメラ、タッチスクリーン等の一以上の入力装置を備えていてもよい。またそのような装置は、更に、例えばビデオ画面(例えばコンピュータや携帯電話、PDAの画面)、タッチスクリーン、画像投影システム、スピーカー、プリンタ等の一以上の出力装置を備えていてもよい。いくつかの実施形態では、データポートを入力装置又は出力装置又はその両方と見なしてもよい。いくつかの実施形態では、様々なユーザ装置70は、例えばインターネットを介してアクセス可能なコンピュータ78にて実行される知識サーチ・マッピングシステム10と協働してもよい。
この明細書に記載された要素群が互いに離れている場合、それら要素同士は、ローカルエリアネットワーク、ワイドエリアネットワーク、VPN、イントラネット、コンピュータベースのソーシャルネットワーク、ケーブルネットワーク、携帯電話ネットワーク、インターネット、WWW、又はそれらの何らかの組合せなどの、様々な既知の、又はこれから開発されるネットワーク76を介して情報を通信及び/又は交換してもよい。
上述した例示的な好適な実施の形態の詳細な説明は、あくまで説明のために提示されるものである。この説明は、網羅性を意図したものでも、記載した厳密な形に発明を限定することを意図したものでもなく、本発明がどのようにして特定の用途又は実装に適応させられるかを当業者に理解でいるようにすることを意図したものに過ぎない。この明細書を理解すれば、当業者には、改良や変形が可能であることが明らかであろう。例示の実施形態の説明は、いかなる限定をも意図しておらず、様々な公差、様々な特徴の寸法、様々な特定の動作条件、様々な技術上の仕様(工業規格)等を含んでいてもよく、実装が異なれば異なり得ると共に技術水準に応じて変化するものであり、その説明はいかなる限定も含意するものではない。
この明細書は、現在の技術水準に応じて作成されたものであるが、進歩を考慮しており、将来におけるこの技術の適応はそのような進歩、すなわちその時点での技術水準、を考慮に入れてもよい。本発明の範囲は、記載した特許請求の範囲と応用上のその均等物により規定されるものである。また、この明細書の中のどの要素、どの構成要素又はどの方法・処理のステップも、それら要素、構成要素、又はステップが特許請求の範囲内に明示的に記載されているか否かによらず、一般公衆に開放することを意図してはいない。ここに記載される請求項の要素は、その要素が「〜のための手段」という言い回しを用いてはっきりと記載されない限り、米国特許法112条第6項の規定の下で解釈されるべきではなく、ここに記載される処理ステップは、その1つ又は複数のステップが「〜のステップを含む」という言い回しを用いてはっきりと記載されない限り、それらの規定の下で解釈されるべきではない。
このように、様々な変形がなし得ること、本発明が様々な形式及び実施形態として実行し得ること、及びそれらを数多くの応用分野に適用できることが理解され、この明細書にはそのうちのいくつかのみが記載される。以下に示す各請求項は、文字通り記載されていること、及び、それら各請求項の範囲内のすべての改良及び変形を含む、そのすべての均等物を請求することを意図している。

Claims (28)

  1. テキスト文書群及びユーザの質問の自動意味ラベリングに基づく質問応答方法であって、
    少なくとも一つの一時的でない記憶媒体に接続された少なくとも一つのコンピュータプロセッサを設けるステップを含み、当該少なくとも一つのコンピュータプロセッサは、
    自然言語のテキスト文書群を電子的に受け取るステップと、
    自然言語で表現されたユーザの質問を電子的に受け取るステップと、
    前記テキスト文書群と前記ユーザの質問との基礎言語解析を実行するステップと、
    意味解析により前記テキスト文書群の意味ラベリングを実行し、意味ラベル付与済みのテキスト文書群をラベル付与済みテキスト文書データベースに格納するステップと、
    意味解析により前記ユーザの質問の意味ラベリングを実行するステップと、
    前記ラベル付与済みテキスト文書データベースから前記意味ラベル付与済みのユーザの質問に関連を持つテキスト断片群をサーチするステップであって、関連は前記意味ラベル付与済みのユーザの質問に対する各テキスト断片のランキングに基づくステップと、
    関連を持つテキスト断片群から前記ユーザの質問に対する答えを合成し、合成した答えを前記ユーザに電子的に提示するステップと、を含む。
  2. 請求項1に記載の方法であって、更に、
    前記テキスト文書群及び前記ユーザの質問に対して品詞タグを付与することによりタグ付与済みのテキスト文書群及びユーザの質問を生成するステップと、
    タグ付与済みのテキスト文書群及びユーザの質問を構文解析することにより、構文解析済み且つタグ付与済みのテキスト文書群及びユーザの質問を生成するステップと、
    構文解析済み且つタグ付与済みのテキスト文書群及びユーザの質問を意味解析することにより、意味解析済み且つ構文解析済み且つタグ付与済みのテキスト文書群及びユーザの質問を生成するステップと、
    を含むことを特徴とする方法。
  3. 請求項2に記載の方法であって、前記品詞タグを付与するステップが、非自然言語のシンボルが除去されたテキストを含む事前フォーマット済みのテキストに対して実行されることを特徴とする方法。
  4. 請求項2に記載の方法であって、前記意味解析のステップは、
    前記テキスト文集群及び前記ユーザの質問の中の、一以上の拡張された主語−アクション−目的語(eSAO:expanded Subject-Action-Object)セットの形態の、一以上の事実を認識するステップであって、各eSAOセットは一以上のeSAO構成要素を含むところのステップと、
    前記前記テキスト文集群及び前記ユーザの質問の中から、外側の世界/知識ドメインの規則性を反映するルール群を前記eSAOセット群における複数の因果関係の形式で認識するステップであって、前記複数の因果関係の各々は、原因eSAOと結果eSAOを含むところのステップと、
    を含むことを特徴とする方法。
  5. 請求項4に記載の方法であって、前記少なくとも一つのeSAO構成要素は、主語、目的語、アクション、形容詞、前置詞、間接目的語、及び副詞からなるグループの中から選ばれた一以上の要素を含むことを特徴とする方法。
  6. 請求項4に記載の方法であって、前記原因eSAOは、前記一以上のeSAOセットのうちの一以上のeSAO構成要素を含んでいてもよく、前記結果eSAOは、前記一以上のeSAOセットのうちの一以上の他のeSAO構成要素を含むことを特徴とする方法。
  7. 請求項6に記載の方法であって、前記因果関係は、前記原因eSAOの前記eSAO構成要素を前記結果eSAOの前記他のeSAO構成要素に対して語彙的、文法的、及び/又は意味的言語手段により関係づける順次演算子を含むことを特徴とする方法。
  8. 請求項4に記載の方法であって、前記テキスト文書群及び前記ユーザの質問の中の一以上の拡張された主語−アクション−目的語(eSAO)セットを認識する処理では、前記テキスト文書群及び前記ユーザの質問の一以上の文の中の一以上の主語、目的語、アクション、形容詞、前置詞、間接目的語、及び副詞を認識することを特徴とする方法。
  9. 請求項4に記載の方法であって、前記テキスト文書群及び前記ユーザの質問の中の一以上の拡張された主語−アクション−目的語(eSAO)セット及び複数の因果関係を認識する処理では、eSAO構成要素及び原因-結果の構成要素を規定する複数のパターンを含むデータベースを有する言語知識ベースにアクセスすることを特徴とする方法。
  10. 請求項1に記載の方法であって、前記意味解析済されたテキスト文書群の意味ラベリングは、言語知識ベースの一部であるパターンデータベース内の質問分類に基づく言語パターン群に対して前記意味解析済みのテキスト文書群を照合する処理に基づいており、
    前記方法は、
    前記テキスト文書群の中のテキストについて、品詞タグ、統語タグ、及び意味ラベル及びeSAOセット及び因果セットを求めるステップ、
    eSAOラベル及び因果ラベルを生成するステップ、及び、
    前記eSAOラベル及び前記因果ラベルを、ターゲット語についての答え要素及び質問種類の意味ラベルと照合するステップ、
    を含むことを特徴とする方法。
  11. 請求項1に記載の方法であって、前記意味解析されたユーザの質問の意味ラベリングは、言語知識ベースの一部であるパターンデータベース内の質問分類に基づく言語パターン群に対して前記意味解析済みのユーザの質問を照合する処理に基づいており、
    前記方法は、
    前記ユーザの質問の中の単語群の品詞タグ、統語タグ、及び意味ラベルを求め、前記ユーザの質問の単語群からeSAOセット及び因果セットを求めるステップ、
    前記eSAOセット及び前記因果セットからeSAOラベル及び因果ラベルを生成するステップ、及び、
    前記eSAOラベル及び前記因果ラベルを、ターゲット語についての質問種類の意味ラベルと照合するステップ、を含むことを特徴とする方法。
  12. 請求項1に記載の方法であって、前記ラベル付与済みテキスト文書データベースから前記意味ラベル付与済みのユーザの質問に関連を持つテキスト断片群をサーチするステップは、前記ラベル付与済みテキスト文書データベースからの文に対して、前記意味ラベル付与済みのユーザの質問を照合する処理に基づいており、
    単語群と意味ラベル群を照合する処理、及び、
    関連の程度の指標を有する前記ユーザの質問に関連を持つ文のリストを構築する処理、
    を含むことを特徴とする方法。
  13. 請求項1に記載の方法であって、更に、前記ユーザの質問に関連を持つ、前記ラベル付与済みテキスト文書データベースからの文を、各文からの意味情報を前記ユーザの質問からの意味情報と照合するためのあらかじめ定められた基準に従って求められる、ユーザの質問に対する各文の関連の程度に基づきランク付けする処理を含む、ことを特徴とする方法。
  14. 請求項1に記載の方法であって、前記答えを合成するステップでは、関連する複数の文からユーザの質問に対する自然言語の答えを合成する処理が、テキスト文書群の意味ラベリングの段階での答えの構成要素のラベルで印を付けられた関連する複数の文の元の断片群の形で、及びeSAO形式に基づいて、前記言語知識ベースからの言語パターンに基づいて生成された新たな自然言語の句の形で、実行される、ことを特徴とする方法。
  15. テキスト文書群及びユーザの質問の自動意味ラベリングに基づく質問応答のための方法を実行する、コンピュータが実行可能な命令群が格納されたコンピュータ読み取り可能な媒体を含んだコンピュータプログラム製品であって、前記方法は、
    自然言語のテキスト文書群を電子的に受け取るステップと、
    自然言語で表現されたユーザの質問を電子的に受け取るステップと、
    前記テキスト文書群と前記ユーザの質問との基礎言語解析を実行するステップと、
    意味解析により前記テキスト文書群の意味ラベリングを実行し、意味ラベル付与済みのテキスト文書群をラベル付与済みテキスト文書データベースに格納するステップと、
    意味解析により前記ユーザの質問の意味ラベリングを実行するステップと、
    前記ラベル付与済みテキスト文書データベースから前記意味ラベル付与済みのユーザの質問に関連を持つテキスト断片群をサーチするステップであって、関連は前記意味ラベル付与済みのユーザの質問に対する各テキスト断片のランキングに基づくステップと、
    前記関連を持つテキスト断片群から前記ユーザの質問に対する答えを合成するステップと、を含むことを特徴とするコンピュータプログラム製品。
  16. 請求項15に記載のコンピュータプログラム製品であって、前記方法は、更に、前記ユーザに対して前記答えを電子的に提示するステップを含むことを特徴とする方法。
  17. 自然言語で表現された電子的又はデジタル的形式のテキスト文書群及びユーザの質問の自動意味ラベリング処理を用いる質問応答システムであって、
    言語知識ベースと、言語解析されたテキスト文書群及びユーザの質問を生成する言語解析部と、を備え、前記言語解析部は意味解析部を備え、当該意味解析部は、
    前記テキスト文書群及び前記ユーザの質問に基づいて、一以上のeSAOセットの形の一以上の事実を認識し、意味解析されたテキスト文書群を生成する、拡張主語−アクション−目的語(eSAO)認識部及び原因-結果認識部を備え、
    eSAO及び原因-結果の認識は、前記言語知識ベースに記憶されたパターン群に基づく、ことを特徴とする質問応答システム。
  18. 請求項17に記載の質問応答システムであって、前記言語解析部は、更に、
    電子的又はデジタル的形式の前記テキスト文書群に基づいた事前フォーマット済みのテキスト文書群及び前記ユーザの質問を受け取る品詞タグ付与部と、
    前記品詞タグ付与部によりタグが付与された前記テキスト文書及びユーザの質問を受け取り、構文解析済みのテキスト文書群及びユーザの質問を前記意味解析部に提供する構文解析部と、
    を備え、
    前記タグ付与部及び前記構文解析部は、前記言語知識ベースに記憶されたデータを用いて処理を行うことを特徴とする質問応答システム。
  19. 請求項18に記載の質問応答システムであって、更に、
    電子的又はデジタル的形式の前記テキスト文書群を受け取って事前フォーマット済みのテキスト文書群を生成する事前フォーマット部と、
    前記言語知識ベースに記憶された質問分類に基づく言語パターン群に対して前記意味解析済みのテキスト文書群を照合し、前記意味解析済みのテキスト文書群と前記照合とに基づいて意味関係ラベルを生成し、意味ラベル付与済みのテキスト文書群がラベル付与済みテキスト文書データベースに格納されるようにするテキスト文書ラベル付与部と、
    前記言語知識ベースに記憶された質問分類に基づく言語パターン群に対して前記意味解析済みのユーザの質問を照合し、前記意味解析済みのユーザの質問と前記照合とに基づいて意味関係ラベルを生成する質問ラベル付与部と、
    前記意味ラベル付与済みのユーザの質問をラベル付与済みテキスト文書データベースからの文と照合するサーチ部であって、単語群及び意味ラベル群を照合し、関連の程度の指標を持つ前記ユーザの質問に関連を持つ文のリストを構築するサーチ部と、
    前記ユーザの質問に関連を持つ、前記ラベル付与済みテキスト文書データベースからの各文を、ユーザの質問に対する各文の関連の程度に従ってソートする答えランク付け部と、
    前記関連を持つ文から前記ユーザに対する自然言語の答えを生成し、それら答えを前記ユーザに電子的に提示するテキスト合成部と、
    を含む質問応答システム。
  20. 請求項19に記載の質問応答システムであって、前記事前フォーマット部は、以下に示す機能のうちの少なくとも一つを実行するように構成されていることを特徴とする質問応答システム。
    前記テキスト文書群のデジタル的又は電子的表現の中から自然言語テキストの部分を構成しないシンボルを除去する機能、
    テキスト文書群内の食い違い及び誤りを検出及び修正する機能、及び、
    そのテキストを文及び単語の構造へ分割する機能。
  21. 請求項19に記載の質問応答システムであって、前記テキスト文書ラベル付与部は、単語、品詞タグ、統語タグ、eSAO及び因果セットを照合することにより、前記意味解析済みのテキスト文書群を言語パターンと照合するように構成されていることを特徴とする質問応答システム。
  22. 請求項19に記載の質問応答システムであって、前記テキスト文書ラベル付与部は、eSAO及び因果ラベルを生成することにより、及び、ターゲット語についての答え構成要素と質問種類の意味ラベルの照合に基づいて、意味関係ラベルを生成するように構成されることを特徴とする質問応答システム。
  23. 請求項19に記載の質問応答システムであって、前記質問ラベル付与部は、単語、品詞タグ、統語タグ、質問語のラベル、eSAO及び因果セットを照合することにより、前記意味解析済みのユーザの質問を言語パターンと照合するように構成されることを特徴とする質問応答システム。
  24. 請求項19に記載の質問応答システムであって、前記質問ラベル付与部は、eSAO及び因果ラベルを生成することにより、ターゲット語についての質問種類の意味ラベルの照合に基づき、意味関係ラベルを生成するように構成されることを特徴とする質問応答システム。
  25. 請求項19に記載の質問応答システムであって、前記テキスト合成部は、関連する複数の文の元の断片群の形で、及びeSAO形式に基づいて、前記言語知識ベースからの言語パターンに基づいて生成された新たな自然言語の句の形で、答えを生成することにより、前記ユーザの質問に対する自然言語の答えを生成するように構成されることを特徴とする質問応答システム。
  26. 請求項17に記載の質問応答システムであって、前記意味解析部は、前記eSAOセットから因果関係を生成するように構成されており、前記因果関係の各々は、原因eSAO、結果eSAO、及び前記原因eSAOを前記結果eSAOに関連づける少なくとも一つの順次演算子、を含むことを特徴とする質問応答システム。
  27. 請求項26に記載の質問応答システムであって、前記各eSAOセットは、eSAO構成要素を含み、前記原因eSAOは一以上のeSAO構成要素を含み、前記結果eSAOは前記原因eSAOの前記一以上のeSAO構成要素以外の一以上のeSAO構成要素を含むことを特徴とする質問応答システム。
  28. 請求項27に記載の質問応答システムであって、前記一以上のeSAO構成要素は、主語、目的語、アクション、形容詞、前置詞、間接目的語、及び副詞からなるグループの一以上の要素を含むことを特徴とする質問応答システム。
JP2011554249A 2009-03-13 2010-03-12 ユーザ質問及びテキスト文書の意味ラベリングに基づく質問応答システム及び方法 Withdrawn JP2012520527A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US15997209P 2009-03-13 2009-03-13
US15995909P 2009-03-13 2009-03-13
US61/159,972 2009-03-13
US61/159,959 2009-03-13
PCT/US2010/027218 WO2010105214A2 (en) 2009-03-13 2010-03-12 Question-answering system and method based on semantic labeling of text documents and user questions

Publications (1)

Publication Number Publication Date
JP2012520527A true JP2012520527A (ja) 2012-09-06

Family

ID=42729147

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2011554250A Withdrawn JP2012520528A (ja) 2009-03-13 2010-03-12 自然言語テキストの自動的意味ラベリングのためのシステム及び方法
JP2011554249A Withdrawn JP2012520527A (ja) 2009-03-13 2010-03-12 ユーザ質問及びテキスト文書の意味ラベリングに基づく質問応答システム及び方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2011554250A Withdrawn JP2012520528A (ja) 2009-03-13 2010-03-12 自然言語テキストの自動的意味ラベリングのためのシステム及び方法

Country Status (6)

Country Link
US (2) US8583422B2 (ja)
EP (2) EP2406738A4 (ja)
JP (2) JP2012520528A (ja)
KR (2) KR20120009446A (ja)
CN (2) CN102439595A (ja)
WO (2) WO2010105216A2 (ja)

Families Citing this family (178)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8799776B2 (en) * 2001-07-31 2014-08-05 Invention Machine Corporation Semantic processor for recognition of whole-part relations in natural language documents
US7493253B1 (en) * 2002-07-12 2009-02-17 Language And Computing, Inc. Conceptual world representation natural language understanding system and method
US8190422B2 (en) * 2007-05-20 2012-05-29 George Mason Intellectual Properties, Inc. Semantic cognitive map
CN101963965B (zh) 2009-07-23 2013-03-20 阿里巴巴集团控股有限公司 基于搜索引擎的文档索引方法、数据查询方法及服务器
US20110307252A1 (en) * 2010-06-15 2011-12-15 Microsoft Corporation Using Utterance Classification in Telephony and Speech Recognition Applications
WO2011160140A1 (en) * 2010-06-18 2011-12-22 Susan Bennett System and method of semantic based searching
US8515736B1 (en) * 2010-09-30 2013-08-20 Nuance Communications, Inc. Training call routing applications by reusing semantically-labeled data collected for prior applications
US20130204614A1 (en) * 2010-10-06 2013-08-08 Nec Corporation Request acquisition support system in system development, request acquisition support method and recording medium
CN102004794B (zh) * 2010-12-09 2013-05-08 百度在线网络技术(北京)有限公司 搜索引擎系统及其实现方法
US9064004B2 (en) * 2011-03-04 2015-06-23 Microsoft Technology Licensing, Llc Extensible surface for consuming information extraction services
US9015031B2 (en) * 2011-08-04 2015-04-21 International Business Machines Corporation Predicting lexical answer types in open domain question and answering (QA) systems
US9536517B2 (en) * 2011-11-18 2017-01-03 At&T Intellectual Property I, L.P. System and method for crowd-sourced data labeling
US9082403B2 (en) 2011-12-15 2015-07-14 Microsoft Technology Licensing, Llc Spoken utterance classification training for a speech recognition system
US9037452B2 (en) * 2012-03-16 2015-05-19 Afrl/Rij Relation topic construction and its application in semantic relation extraction
US8935277B2 (en) * 2012-03-30 2015-01-13 Sap Se Context-aware question answering system
US9684648B2 (en) 2012-05-31 2017-06-20 International Business Machines Corporation Disambiguating words within a text segment
US9280520B2 (en) 2012-08-02 2016-03-08 American Express Travel Related Services Company, Inc. Systems and methods for semantic information retrieval
US9195647B1 (en) * 2012-08-11 2015-11-24 Guangsheng Zhang System, methods, and data structure for machine-learning of contextualized symbolic associations
US9460069B2 (en) 2012-10-19 2016-10-04 International Business Machines Corporation Generation of test data using text analytics
WO2014071330A2 (en) 2012-11-02 2014-05-08 Fido Labs Inc. Natural language processing system and method
US9535899B2 (en) * 2013-02-20 2017-01-03 International Business Machines Corporation Automatic semantic rating and abstraction of literature
US9875237B2 (en) * 2013-03-14 2018-01-23 Microsfot Technology Licensing, Llc Using human perception in building language understanding models
US20140278362A1 (en) * 2013-03-15 2014-09-18 International Business Machines Corporation Entity Recognition in Natural Language Processing Systems
US9311294B2 (en) * 2013-03-15 2016-04-12 International Business Machines Corporation Enhanced answers in DeepQA system according to user preferences
CN103246641A (zh) * 2013-05-16 2013-08-14 李营 一种文本语义信息分析系统和方法
US9448992B2 (en) 2013-06-04 2016-09-20 Google Inc. Natural language search results for intent queries
CN104216913B (zh) 2013-06-04 2019-01-04 Sap欧洲公司 问题回答方法、系统和计算机可读介质
JP6206840B2 (ja) * 2013-06-19 2017-10-04 国立研究開発法人情報通信研究機構 テキストマッチング装置、テキスト分類装置及びそれらのためのコンピュータプログラム
US9436681B1 (en) * 2013-07-16 2016-09-06 Amazon Technologies, Inc. Natural language translation techniques
US9292490B2 (en) 2013-08-16 2016-03-22 International Business Machines Corporation Unsupervised learning of deep patterns for semantic parsing
US9483519B2 (en) * 2013-08-28 2016-11-01 International Business Machines Corporation Authorship enhanced corpus ingestion for natural language processing
US20150066963A1 (en) * 2013-08-29 2015-03-05 Honeywell International Inc. Structured event log data entry from operator reviewed proposed text patterns
US10867597B2 (en) 2013-09-02 2020-12-15 Microsoft Technology Licensing, Llc Assignment of semantic labels to a sequence of words using neural network architectures
US9959307B2 (en) 2013-09-24 2018-05-01 Empire Technology Development Llc Automatic question sorting
US9898554B2 (en) 2013-11-18 2018-02-20 Google Inc. Implicit question query identification
US20150142826A1 (en) * 2013-11-21 2015-05-21 Moxbi, LLC Systems and Methods for Management and Improvement of Romantically Linked Relationships
US10073835B2 (en) * 2013-12-03 2018-09-11 International Business Machines Corporation Detecting literary elements in literature and their importance through semantic analysis and literary correlation
US9298802B2 (en) 2013-12-03 2016-03-29 International Business Machines Corporation Recommendation engine using inferred deep similarities for works of literature
US9396235B1 (en) * 2013-12-13 2016-07-19 Google Inc. Search ranking based on natural language query patterns
JP5904559B2 (ja) * 2013-12-20 2016-04-13 国立研究開発法人情報通信研究機構 シナリオ生成装置、及びそのためのコンピュータプログラム
CN103678281B (zh) * 2013-12-31 2016-10-19 北京百度网讯科技有限公司 对文本进行自动标注的方法和装置
US9778817B2 (en) * 2013-12-31 2017-10-03 Findo, Inc. Tagging of images based on social network tags or comments
KR101787062B1 (ko) 2014-01-07 2017-10-19 한국전자통신연구원 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치 및 정보검색 방법
US9626961B2 (en) * 2014-01-31 2017-04-18 Vivint, Inc. Systems and methods for personifying communications
US9411878B2 (en) 2014-02-19 2016-08-09 International Business Machines Corporation NLP duration and duration range comparison methodology using similarity weighting
CN103902672B (zh) * 2014-03-19 2018-05-22 微梦创科网络科技(中国)有限公司 问答系统及其问答处理方法
RU2544739C1 (ru) * 2014-03-25 2015-03-20 Игорь Петрович Рогачев Способ преобразования структурированного массива данных
WO2015164209A1 (en) 2014-04-25 2015-10-29 Mayo Foundation For Medical Education And Research Enhancing reading accuracy, efficiency and retention
US10127901B2 (en) * 2014-06-13 2018-11-13 Microsoft Technology Licensing, Llc Hyper-structure recurrent neural networks for text-to-speech
US10049102B2 (en) 2014-06-26 2018-08-14 Hcl Technologies Limited Method and system for providing semantics based technical support
US20160098645A1 (en) * 2014-10-02 2016-04-07 Microsoft Corporation High-precision limited supervision relationship extractor
CN104317890B (zh) * 2014-10-23 2018-05-01 苏州大学 一种文本连接词的识别方法及装置
US11100557B2 (en) 2014-11-04 2021-08-24 International Business Machines Corporation Travel itinerary recommendation engine using inferred interests and sentiments
US9946763B2 (en) 2014-11-05 2018-04-17 International Business Machines Corporation Evaluating passages in a question answering computer system
US9892362B2 (en) 2014-11-18 2018-02-13 International Business Machines Corporation Intelligence gathering and analysis using a question answering system
US11204929B2 (en) 2014-11-18 2021-12-21 International Business Machines Corporation Evidence aggregation across heterogeneous links for intelligence gathering using a question answering system
US10318870B2 (en) 2014-11-19 2019-06-11 International Business Machines Corporation Grading sources and managing evidence for intelligence analysis
US11244113B2 (en) 2014-11-19 2022-02-08 International Business Machines Corporation Evaluating evidential links based on corroboration for intelligence analysis
US9472115B2 (en) 2014-11-19 2016-10-18 International Business Machines Corporation Grading ontological links based on certainty of evidential statements
US9727642B2 (en) 2014-11-21 2017-08-08 International Business Machines Corporation Question pruning for evaluating a hypothetical ontological link
US11836211B2 (en) 2014-11-21 2023-12-05 International Business Machines Corporation Generating additional lines of questioning based on evaluation of a hypothetical link between concept entities in evidential data
US9764477B2 (en) * 2014-12-01 2017-09-19 At&T Intellectual Property I, L.P. System and method for semantic processing of natural language commands
US9940370B2 (en) 2015-01-02 2018-04-10 International Business Machines Corporation Corpus augmentation system
US10496749B2 (en) 2015-06-12 2019-12-03 Satyanarayana Krishnamurthy Unified semantics-focused language processing and zero base knowledge building system
US10503786B2 (en) 2015-06-16 2019-12-10 International Business Machines Corporation Defining dynamic topic structures for topic oriented question answer systems
CN106326303B (zh) * 2015-06-30 2019-09-13 芋头科技(杭州)有限公司 一种口语语义解析系统及方法
US9760564B2 (en) 2015-07-09 2017-09-12 International Business Machines Corporation Extracting veiled meaning in natural language content
US10216802B2 (en) 2015-09-28 2019-02-26 International Business Machines Corporation Presenting answers from concept-based representation of a topic oriented pipeline
US10380257B2 (en) 2015-09-28 2019-08-13 International Business Machines Corporation Generating answers from concept-based representation of a topic oriented pipeline
CN105279274B (zh) * 2015-10-30 2018-11-02 北京京东尚科信息技术有限公司 基于自然语义问答系统的答案合成与匹配的方法和系统
US10585984B2 (en) * 2015-11-10 2020-03-10 International Business Machines Corporation Techniques for improving input text processing in a data processing system that answers questions
US9959504B2 (en) 2015-12-02 2018-05-01 International Business Machines Corporation Significance of relationships discovered in a corpus
CN109063075A (zh) * 2015-12-31 2018-12-21 上海智臻智能网络科技股份有限公司 优化抽象语义库的方法、装置及存储介质
US11227113B2 (en) * 2016-01-20 2022-01-18 International Business Machines Corporation Precision batch interaction with a question answering system
US10073834B2 (en) * 2016-02-09 2018-09-11 International Business Machines Corporation Systems and methods for language feature generation over multi-layered word representation
KR20180111979A (ko) 2016-02-11 2018-10-11 이베이 인크. 의미론적 카테고리 분류법
US10282411B2 (en) * 2016-03-31 2019-05-07 International Business Machines Corporation System, method, and recording medium for natural language learning
US9836454B2 (en) 2016-03-31 2017-12-05 International Business Machines Corporation System, method, and recording medium for regular rule learning
RU2628436C1 (ru) * 2016-04-12 2017-08-16 Общество с ограниченной ответственностью "Аби Продакшн" Классификация текстов на естественном языке на основе семантических признаков
US10796230B2 (en) 2016-04-15 2020-10-06 Pearson Education, Inc. Content based remote data packet intervention
CN105930452A (zh) * 2016-04-21 2016-09-07 北京紫平方信息技术股份有限公司 一种识别自然语言的智能应答方法
CN105955963A (zh) * 2016-05-25 2016-09-21 北京谛听机器人科技有限公司 一种机器人问答交互开放平台及交互方法
US10607153B2 (en) * 2016-06-28 2020-03-31 International Business Machines Corporation LAT based answer generation using anchor entities and proximity
CN107578769B (zh) * 2016-07-04 2021-03-23 科大讯飞股份有限公司 语音数据标注方法和装置
CN106294323B (zh) * 2016-08-10 2020-03-06 上海交通大学 对短文本进行常识性因果推理的方法
US10354009B2 (en) 2016-08-24 2019-07-16 Microsoft Technology Licensing, Llc Characteristic-pattern analysis of text
US10762297B2 (en) 2016-08-25 2020-09-01 International Business Machines Corporation Semantic hierarchical grouping of text fragments
US10606893B2 (en) 2016-09-15 2020-03-31 International Business Machines Corporation Expanding knowledge graphs based on candidate missing edges to optimize hypothesis set adjudication
US20180121545A1 (en) * 2016-09-17 2018-05-03 Cogilex R&D inc. Methods and system for improving the relevance, usefulness, and efficiency of search engine technology
US10303683B2 (en) 2016-10-05 2019-05-28 International Business Machines Corporation Translation of natural language questions and requests to a structured query format
US10754886B2 (en) 2016-10-05 2020-08-25 International Business Machines Corporation Using multiple natural language classifier to associate a generic query with a structured question type
JP6721179B2 (ja) * 2016-10-05 2020-07-08 国立研究開発法人情報通信研究機構 因果関係認識装置及びそのためのコンピュータプログラム
US11704551B2 (en) 2016-10-12 2023-07-18 Microsoft Technology Licensing, Llc Iterative query-based analysis of text
CN108073628A (zh) * 2016-11-16 2018-05-25 中兴通讯股份有限公司 一种基于智能问答的交互系统与方法
US10977247B2 (en) 2016-11-21 2021-04-13 International Business Machines Corporation Cognitive online meeting assistant facility
US20180204106A1 (en) * 2017-01-16 2018-07-19 International Business Machines Corporation System and method for personalized deep text analysis
US10740373B2 (en) 2017-02-08 2020-08-11 International Business Machines Corporation Dialog mechanism responsive to query context
US20180276301A1 (en) * 2017-03-23 2018-09-27 International Business Machines Corporation System and method for type-specific answer filtering for numeric questions
CN107193872B (zh) * 2017-04-14 2021-04-23 深圳前海微众银行股份有限公司 问答数据处理方法及装置
US10339180B2 (en) 2017-04-14 2019-07-02 International Business Machines Corporation Preventing biased queries by using a dictionary of cause and effect terms
CN108959240A (zh) * 2017-05-26 2018-12-07 上海醇聚信息科技有限公司 一种专有本体自动生成系统及方法
US10713519B2 (en) * 2017-06-22 2020-07-14 Adobe Inc. Automated workflows for identification of reading order from text segments using probabilistic language models
US10489502B2 (en) * 2017-06-30 2019-11-26 Accenture Global Solutions Limited Document processing
US11017037B2 (en) 2017-07-03 2021-05-25 Google Llc Obtaining responsive information from multiple corpora
US11157829B2 (en) 2017-07-18 2021-10-26 International Business Machines Corporation Method to leverage similarity and hierarchy of documents in NN training
US20190095444A1 (en) * 2017-09-22 2019-03-28 Amazon Technologies, Inc. Voice driven analytics
US11526518B2 (en) 2017-09-22 2022-12-13 Amazon Technologies, Inc. Data reporting system and method
US11409749B2 (en) * 2017-11-09 2022-08-09 Microsoft Technology Licensing, Llc Machine reading comprehension system for answering queries related to a document
US10558689B2 (en) 2017-11-15 2020-02-11 International Business Machines Corporation Leveraging contextual information in topic coherent question sequences
CN108053023A (zh) * 2017-12-01 2018-05-18 北京物灵智能科技有限公司 一种自动式意图分类方法及装置
CN110019983B (zh) * 2017-12-14 2021-06-04 北京三快在线科技有限公司 标签结构的扩展方法、装置及电子设备
CN108197102A (zh) * 2017-12-26 2018-06-22 百度在线网络技术(北京)有限公司 一种文本数据统计方法、装置和服务器
CN108256056A (zh) * 2018-01-12 2018-07-06 广州杰赛科技股份有限公司 智能问答方法与系统
CN108376151B (zh) * 2018-01-31 2020-08-04 深圳市阿西莫夫科技有限公司 问题分类方法、装置、计算机设备和存储介质
CN108319720A (zh) * 2018-02-13 2018-07-24 北京百度网讯科技有限公司 基于人工智能的人机交互方法、装置及计算机设备
US10956670B2 (en) 2018-03-03 2021-03-23 Samurai Labs Sp. Z O.O. System and method for detecting undesirable and potentially harmful online behavior
US10838996B2 (en) * 2018-03-15 2020-11-17 International Business Machines Corporation Document revision change summarization
CN108683491B (zh) * 2018-03-19 2021-02-05 中山大学 一种基于加密和自然语言生成的信息隐藏方法
US11023684B1 (en) * 2018-03-19 2021-06-01 Educational Testing Service Systems and methods for automatic generation of questions from text
RU2691836C1 (ru) * 2018-06-07 2019-06-18 Игорь Петрович Рогачев Способ преобразования структурированного массива данных, содержащего основные лингво-логические объекты
US11120059B2 (en) * 2018-06-27 2021-09-14 Adobe Inc. Conversational query answering system
CN110659354B (zh) 2018-06-29 2023-07-14 阿里巴巴(中国)有限公司 问答系统的建立方法、装置、存储介质及电子设备
CN109002498B (zh) * 2018-06-29 2020-05-05 北京百度网讯科技有限公司 人机对话方法、装置、设备及存储介质
CN108986191B (zh) * 2018-07-03 2023-06-27 百度在线网络技术(北京)有限公司 人物动作的生成方法、装置及终端设备
US11698921B2 (en) 2018-09-17 2023-07-11 Ebay Inc. Search system for providing search results using query understanding and semantic binary signatures
US11721229B2 (en) * 2018-09-26 2023-08-08 Hangzhou Dana Technology Inc. Question correction method, device, electronic equipment and storage medium for oral calculation questions
CN110019749B (zh) * 2018-09-28 2021-06-15 北京百度网讯科技有限公司 生成vqa训练数据的方法、装置、设备和计算机可读介质
US11822588B2 (en) * 2018-10-24 2023-11-21 International Business Machines Corporation Supporting passage ranking in question answering (QA) system
CN109388700A (zh) * 2018-10-26 2019-02-26 广东小天才科技有限公司 一种意图识别方法及系统
US10853398B2 (en) * 2018-11-13 2020-12-01 Adobe Inc. Generating three-dimensional digital content from natural language requests
CN109657013A (zh) * 2018-11-30 2019-04-19 杭州数澜科技有限公司 一种系统化生成标签的方法和系统
CN109871428B (zh) 2019-01-30 2022-02-18 北京百度网讯科技有限公司 用于确定文本相关度的方法、装置、设备和介质
US10885045B2 (en) 2019-03-07 2021-01-05 Wipro Limited Method and system for providing context-based response for a user query
CN109947921B (zh) * 2019-03-19 2022-09-02 河海大学常州校区 一种基于自然语言处理的智能问答系统
CN109977370B (zh) * 2019-03-19 2023-06-16 河海大学常州校区 一种基于文档结构树的问答对自动构建方法
CN110008322B (zh) * 2019-03-25 2023-04-07 创新先进技术有限公司 多轮对话场景下的话术推荐方法和装置
CN110134771B (zh) * 2019-04-09 2022-03-04 广东工业大学 一种基于多注意力机制融合网络问答系统的实现方法
US11501233B2 (en) 2019-05-21 2022-11-15 Hcl Technologies Limited System and method to perform control testing to mitigate risks in an organization
CN112069791B (zh) * 2019-05-22 2024-04-26 谷松 以语用为核心的自然语言文本辅助知识库书写和检测系统与方法
CN110516061A (zh) * 2019-07-24 2019-11-29 视联动力信息技术股份有限公司 一种数据处理方法、装置和计算机可读存储介质
CN112307769B (zh) * 2019-07-29 2024-03-15 武汉Tcl集团工业研究院有限公司 一种自然语言模型的生成方法和计算机设备
WO2021021012A1 (en) * 2019-07-29 2021-02-04 Ai Robotics Limited Stickering method and system for linking contextual text elements to actions
CN110647627B (zh) * 2019-08-06 2022-05-27 北京百度网讯科技有限公司 答案生成方法及装置、计算机设备与可读介质
CN110517688A (zh) * 2019-08-20 2019-11-29 合肥凌极西雅电子科技有限公司 一种语音关联提示系统
CN110765778B (zh) * 2019-10-23 2023-08-29 北京锐安科技有限公司 一种标签实体处理方法、装置、计算机设备和存储介质
JP7362424B2 (ja) * 2019-10-29 2023-10-17 株式会社東芝 情報処理装置、情報処理方法、および情報処理システム
US10853580B1 (en) * 2019-10-30 2020-12-01 SparkCognition, Inc. Generation of text classifier training data
WO2021091432A1 (ru) * 2019-11-10 2021-05-14 Игорь Петрович РОГАЧЕВ Способ преобразования структурированного массива данных
RU2722461C1 (ru) * 2019-11-19 2020-06-01 Общество с ограниченной ответственностью "Уралинновация" Голосовая роботизированная вопросно-ответная система и способ ее автоматического взаимодействия с электронным устройством пользователя
CN111177369A (zh) * 2019-11-19 2020-05-19 厦门二五八网络科技集团股份有限公司 一种文章自动标签分类的方法及装置
RU2724600C1 (ru) * 2019-11-19 2020-06-25 Общество с ограниченной ответственностью "Уралинновация" Голосовая роботизированная вопросно-ответная система и способ ее автоматического взаимодействия с электронным устройством пользователя
US11651250B2 (en) 2019-11-20 2023-05-16 International Business Machines Corporation Automatically generated conversation output
US20210157881A1 (en) * 2019-11-22 2021-05-27 International Business Machines Corporation Object oriented self-discovered cognitive chatbot
EP3828730A1 (en) 2019-11-28 2021-06-02 42 Maru Inc. A method and apparatus for question-answering using similarity measures for question vectors
CN111159408A (zh) * 2019-12-31 2020-05-15 湖南星汉数智科技有限公司 一种文本数据标注方法、装置、计算机装置及计算机可读存储介质
US11443211B2 (en) * 2020-01-08 2022-09-13 International Business Machines Corporation Extracting important sentences from documents to answer hypothesis that include causes and consequences
CN111488438B (zh) * 2020-02-21 2022-07-29 天津大学 一种问答匹配注意力处理方法、计算机设备及存储介质
US11630869B2 (en) 2020-03-02 2023-04-18 International Business Machines Corporation Identification of changes between document versions
CN111459131B (zh) * 2020-03-04 2023-01-24 辽宁工程技术大学 一种故障过程因果关系文本转化为符号序列的方法
US11074402B1 (en) * 2020-04-07 2021-07-27 International Business Machines Corporation Linguistically consistent document annotation
CN111428514A (zh) * 2020-06-12 2020-07-17 北京百度网讯科技有限公司 语义匹配方法、装置、设备以及存储介质
KR102457985B1 (ko) 2020-09-17 2022-10-31 주식회사 포티투마루 페러프레이저 모델을 이용한 질의 응답 검색 방법 및 검색 장치
KR20220037060A (ko) 2020-09-17 2022-03-24 주식회사 포티투마루 질의 벡터로 구성된 데이터베이스를 이용한 검색 방법 및 검색 장치
CN112307337B (zh) * 2020-10-30 2024-04-12 中国平安人寿保险股份有限公司 基于标签知识图谱的关联推荐方法、装置及计算机设备
US20220147896A1 (en) * 2020-11-06 2022-05-12 International Business Machines Corporation Strategic planning using deep learning
US20220156298A1 (en) * 2020-11-16 2022-05-19 Cisco Technology, Inc. Providing agent-assist, context-aware recommendations
CN112507124B (zh) * 2020-12-04 2024-03-19 武汉大学 一种基于图模型的篇章级别事件因果关系抽取方法
CN112686039A (zh) * 2020-12-29 2021-04-20 东莞理工学院 一种基于机器学习的文本特征提取方法
CN112800848A (zh) * 2020-12-31 2021-05-14 中电金信软件有限公司 票据识别后信息结构化提取方法、装置和设备
KR102576350B1 (ko) * 2021-02-08 2023-09-07 서울대학교산학협력단 입력 문장을 사건구조프레임이 주석된 문장으로 출력하는 자동 주석방법
CN113010642B (zh) * 2021-03-17 2023-12-15 腾讯科技(深圳)有限公司 语义关系的识别方法、装置、电子设备及可读存储介质
CN113496124A (zh) * 2021-07-08 2021-10-12 上海信医科技有限公司 医疗文书的语义分析方法、装置、电子设备及存储介质
US12008322B2 (en) * 2021-07-26 2024-06-11 Atlassian Pty Ltd Machine learning techniques for semantic processing of structured natural language documents to detect action items
KR20230091322A (ko) * 2021-12-16 2023-06-23 삼성전자주식회사 전자 장치 및 전자 장치의 음성 명령어 추천 방법
CN114333760B (zh) * 2021-12-31 2023-06-02 科大讯飞股份有限公司 一种信息预测模块的构建方法、信息预测方法及相关设备
CN117041633A (zh) * 2022-02-14 2023-11-10 杭州脸脸会网络技术有限公司 虚拟智能客服方法、装置、电子装置和存储介质
EP4250133A1 (en) * 2022-03-22 2023-09-27 Tata Consultancy Services Limited Systems and methods for similarity analysis in incident reports using event timeline representations
CN114861653B (zh) * 2022-05-17 2023-08-22 马上消费金融股份有限公司 用于虚拟交互的语言生成方法、装置、设备及存储介质

Family Cites Families (128)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4270182A (en) * 1974-12-30 1981-05-26 Asija Satya P Automated information input, storage, and retrieval system
US4829423A (en) 1983-01-28 1989-05-09 Texas Instruments Incorporated Menu-based natural language understanding system
US5696916A (en) 1985-03-27 1997-12-09 Hitachi, Ltd. Information storage and retrieval system and display method therefor
US4887212A (en) 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
US4868750A (en) 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US4864502A (en) 1987-10-07 1989-09-05 Houghton Mifflin Company Sentence analyzer
US5146405A (en) 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
NL8900247A (nl) 1989-02-01 1990-09-03 Bso Buro Voor Systeemontwikkel Werkwijze en stelsel voor het weergeven van meervoudige analyses in een afhankelijkheidsgrammatica, alsmede ontleed-inrichting voor het genereren van een dergelijke weergave.
JP3266246B2 (ja) 1990-06-15 2002-03-18 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
US5404295A (en) 1990-08-16 1995-04-04 Katz; Boris Method and apparatus for utilizing annotations to facilitate computer retrieval of database material
US5559940A (en) 1990-12-14 1996-09-24 Hutson; William H. Method and system for real-time information analysis of textual material
JP2804403B2 (ja) * 1991-05-16 1998-09-24 インターナショナル・ビジネス・マシーンズ・コーポレイション 質問回答システム
US5418889A (en) 1991-12-02 1995-05-23 Ricoh Company, Ltd. System for generating knowledge base in which sets of common causal relation knowledge are generated
US5377103A (en) 1992-05-15 1994-12-27 International Business Machines Corporation Constrained natural language interface for a computer that employs a browse function
US5369575A (en) 1992-05-15 1994-11-29 International Business Machines Corporation Constrained natural language interface for a computer system
JP2821840B2 (ja) 1993-04-28 1998-11-05 日本アイ・ビー・エム株式会社 機械翻訳装置
US5638543A (en) 1993-06-03 1997-06-10 Xerox Corporation Method and apparatus for automatic document summarization
US5519608A (en) * 1993-06-24 1996-05-21 Xerox Corporation Method for extracting from a text corpus answers to questions stated in natural language by using linguistic analysis and hypothesis generation
US5331556A (en) 1993-06-28 1994-07-19 General Electric Company Method for natural language data processing using morphological and part-of-speech information
US5523945A (en) * 1993-09-17 1996-06-04 Nec Corporation Related information presentation method in document processing system
US5774845A (en) 1993-09-17 1998-06-30 Nec Corporation Information extraction processor
US5873056A (en) 1993-10-12 1999-02-16 The Syracuse University Natural language processing system for semantic vector representation which accounts for lexical ambiguity
US5576954A (en) 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
US5692176A (en) 1993-11-22 1997-11-25 Reed Elsevier Inc. Associative text search and retrieval system
JPH07160684A (ja) 1993-12-03 1995-06-23 Matsushita Electric Ind Co Ltd 文書圧縮装置および文書圧縮方法
US5485372A (en) 1994-06-01 1996-01-16 Mitsubishi Electric Research Laboratories, Inc. System for underlying spelling recovery
US5802504A (en) 1994-06-21 1998-09-01 Canon Kabushiki Kaisha Text preparing system using knowledge base and method therefor
US5748973A (en) 1994-07-15 1998-05-05 George Mason University Advanced integrated requirements engineering system for CE-based requirements assessment
US5799268A (en) 1994-09-28 1998-08-25 Apple Computer, Inc. Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like
US5715468A (en) 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
US5794050A (en) 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
JP3571408B2 (ja) 1995-03-31 2004-09-29 株式会社日立製作所 文書加工方法および装置
US5708825A (en) 1995-05-26 1998-01-13 Iconovex Corporation Automatic summary page creation and hyperlink generation
US5631466A (en) * 1995-06-16 1997-05-20 Hughes Electronics Apparatus and methods of closed loop calibration of infrared focal plane arrays
US5724571A (en) 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
EP0856175A4 (en) 1995-08-16 2000-05-24 Univ Syracuse SYSTEM AND METHOD FOR RETURNING MULTI-LANGUAGE DOCUMENTS USING A SEMANTIC VECTOR COMPARISON
US6026388A (en) 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US5873076A (en) 1995-09-15 1999-02-16 Infonautics Corporation Architecture for processing search queries, retrieving documents identified thereby, and method for using same
US5867164A (en) 1995-09-29 1999-02-02 Apple Computer, Inc. Interactive document summarization
US6076088A (en) 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
US5924108A (en) 1996-03-29 1999-07-13 Microsoft Corporation Document summarizer for word processors
US5966686A (en) 1996-06-28 1999-10-12 Microsoft Corporation Method and system for computing semantic logical forms from syntax trees
US5878385A (en) 1996-09-16 1999-03-02 Ergo Linguistic Technologies Method and apparatus for universal parsing of language
US6202043B1 (en) 1996-11-12 2001-03-13 Invention Machine Corporation Computer based system for imaging and analyzing a process system and indicating values of specific design changes
US6056428A (en) 1996-11-12 2000-05-02 Invention Machine Corporation Computer based system for imaging and analyzing an engineering object system and indicating values of specific design changes
US5836771A (en) * 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
JP3579204B2 (ja) 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
US6076051A (en) 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
EP0968478A1 (de) 1997-03-18 2000-01-05 Siemens Aktiengesellschaft Verfahren zur automatischen generierung einer zusammenfassung von einem text durch einen rechner
JP3001047B2 (ja) 1997-04-17 2000-01-17 日本電気株式会社 文書要約装置
US5933822A (en) 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6055528A (en) 1997-07-25 2000-04-25 Claritech Corporation Method for cross-linguistic document retrieval
US6185592B1 (en) 1997-11-18 2001-02-06 Apple Computer, Inc. Summarizing text documents by resolving co-referentiality among actors or objects around which a story unfolds
US6128634A (en) 1998-01-06 2000-10-03 Fuji Xerox Co., Ltd. Method and apparatus for facilitating skimming of text
JP3614648B2 (ja) 1998-03-13 2005-01-26 富士通株式会社 文書理解支援装置、要約文生成方法、並びに文書理解支援プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3429184B2 (ja) 1998-03-19 2003-07-22 シャープ株式会社 テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US6778970B2 (en) * 1998-05-28 2004-08-17 Lawrence Au Topological methods to organize semantic network data flows for conversational applications
EP0962873A1 (en) 1998-06-02 1999-12-08 International Business Machines Corporation Processing of textual information and automated apprehension of information
US6167370A (en) 1998-09-09 2000-12-26 Invention Machine Corporation Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures
US6789230B2 (en) 1998-10-09 2004-09-07 Microsoft Corporation Creating a summary having sentences with the highest weight, and lowest length
US6459949B1 (en) 1998-10-21 2002-10-01 Advanced Micro Devices, Inc. System and method for corrective action tracking in semiconductor processing
US6442566B1 (en) 1998-12-15 2002-08-27 Board Of Trustees Of The Leland Stanford Junior University Frame-based knowledge representation system and methods
US6381598B1 (en) 1998-12-22 2002-04-30 Xerox Corporation System for providing cross-lingual information retrieval
US6317708B1 (en) 1999-01-07 2001-11-13 Justsystem Corporation Method for producing summaries of text document
US6584464B1 (en) * 1999-03-19 2003-06-24 Ask Jeeves, Inc. Grammar template query system
CN1176432C (zh) 1999-07-28 2004-11-17 国际商业机器公司 提供本国语言查询服务的方法和系统
US6242362B1 (en) * 1999-08-04 2001-06-05 Taiwan Semiconductor Manufacturing Company Etch process for fabricating a vertical hard mask/conductive pattern profile to improve T-shaped profile for a silicon oxynitride hard mask
US6665666B1 (en) * 1999-10-26 2003-12-16 International Business Machines Corporation System, method and program product for answering questions using a search engine
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6823325B1 (en) 1999-11-23 2004-11-23 Trevor B. Davies Methods and apparatus for storing and retrieving knowledge
WO2001067225A2 (en) 2000-03-06 2001-09-13 Kanisa Inc. A system and method for providing an intelligent multi-step dialog with a user
US20010021934A1 (en) 2000-03-08 2001-09-13 Takeshi Yokoi Processing device for searching information in one language using search query in another language, and recording medium and method thereof
US7120574B2 (en) 2000-04-03 2006-10-10 Invention Machine Corporation Synonym extension of search queries with validation
US6701345B1 (en) 2000-04-13 2004-03-02 Accenture Llp Providing a notification when a plurality of users are altering similar data in a health care solution environment
US7962326B2 (en) * 2000-04-20 2011-06-14 Invention Machine Corporation Semantic answering system and method
US20020010574A1 (en) 2000-04-20 2002-01-24 Valery Tsourikov Natural language processing and query driven information retrieval
WO2001084376A2 (en) * 2000-04-28 2001-11-08 Global Information Research And Technologies Llc System for answering natural language questions
US20040006560A1 (en) 2000-05-01 2004-01-08 Ning-Ping Chan Method and system for translingual translation of query and search and retrieval of multilingual information on the web
WO2001098942A2 (en) * 2000-06-19 2001-12-27 Lernout & Hauspie Speech Products N.V. Package driven parsing using structure function grammar
US8396859B2 (en) * 2000-06-26 2013-03-12 Oracle International Corporation Subject matter context search engine
US8706747B2 (en) 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
US7092928B1 (en) * 2000-07-31 2006-08-15 Quantum Leap Research, Inc. Intelligent portal engine
US20020103793A1 (en) 2000-08-02 2002-08-01 Daphne Koller Method and apparatus for learning probabilistic relational models having attribute and link uncertainty and for performing selectivity estimation using probabilistic relational models
US6823331B1 (en) 2000-08-28 2004-11-23 Entrust Limited Concept identification system and method for use in reducing and/or representing text content of an electronic document
US6557011B1 (en) 2000-10-31 2003-04-29 International Business Machines Corporation Methods for analyzing dynamic program behavior using user-defined classifications of an execution trace
US6766316B2 (en) * 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
SE0101127D0 (sv) * 2001-03-30 2001-03-30 Hapax Information Systems Ab Method of finding answers to questions
DE10122756A1 (de) 2001-05-10 2002-11-21 Daimler Chrysler Ag Verfahren zur Generierung von Daten für die semantische Sprachanalyse
US20030004706A1 (en) * 2001-06-27 2003-01-02 Yale Thomas W. Natural language processing system and method for knowledge management
US9009590B2 (en) * 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
WO2003012661A1 (en) * 2001-07-31 2003-02-13 Invention Machine Corporation Computer based summarization of natural language documents
US8799776B2 (en) 2001-07-31 2014-08-05 Invention Machine Corporation Semantic processor for recognition of whole-part relations in natural language documents
US7526425B2 (en) * 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
US7146358B1 (en) 2001-08-28 2006-12-05 Google Inc. Systems and methods for using anchor text as parallel corpora for cross-language information retrieval
US6754654B1 (en) 2001-10-01 2004-06-22 Trilogy Development Group, Inc. System and method for extracting knowledge from documents
US7035877B2 (en) 2001-12-28 2006-04-25 Kimberly-Clark Worldwide, Inc. Quality management and intelligent manufacturing with labels and smart tags in event-based product manufacturing
US7260570B2 (en) 2002-02-01 2007-08-21 International Business Machines Corporation Retrieving matching documents by queries in any national language
JP2003288360A (ja) 2002-03-28 2003-10-10 Toshiba Corp 言語横断情報検索装置及び方法
US7403890B2 (en) * 2002-05-13 2008-07-22 Roushar Joseph C Multi-dimensional method and apparatus for automated language interpretation
US20040001099A1 (en) * 2002-06-27 2004-01-01 Microsoft Corporation Method and system for associating actions with semantic labels in electronic documents
US7454393B2 (en) * 2003-08-06 2008-11-18 Microsoft Corporation Cost-benefit approach to automatically composing answers to questions by extracting information from large unstructured corpora
US7552149B2 (en) 2003-09-06 2009-06-23 Oracle International Corporation Querying past versions of data in a distributed database
JP3882048B2 (ja) * 2003-10-17 2007-02-14 独立行政法人情報通信研究機構 質問応答システムおよび質問応答処理方法
JP3981734B2 (ja) * 2003-11-21 2007-09-26 独立行政法人情報通信研究機構 質問応答システムおよび質問応答処理方法
US7536368B2 (en) 2003-11-26 2009-05-19 Invention Machine Corporation Method for problem formulation and for obtaining solutions from a database
US20050131874A1 (en) 2003-12-15 2005-06-16 Mikhail Verbitsky Method and system for obtaining solutions to contradictional problems from a semantically indexed database
US20060053000A1 (en) * 2004-05-11 2006-03-09 Moldovan Dan I Natural language question answering system and method utilizing multi-modal logic
US8126890B2 (en) 2004-12-21 2012-02-28 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US7953720B1 (en) * 2005-03-31 2011-05-31 Google Inc. Selecting the best answer to a fact query from among a set of potential answers
JP4654745B2 (ja) * 2005-04-13 2011-03-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
CN100573448C (zh) 2005-04-22 2009-12-23 瑞士银行股份有限公司 平台无关服务建模技术
US7805496B2 (en) 2005-05-10 2010-09-28 International Business Machines Corporation Automatic generation of hybrid performance models
US7668825B2 (en) 2005-08-26 2010-02-23 Convera Corporation Search system and method
US7672831B2 (en) 2005-10-24 2010-03-02 Invention Machine Corporation System and method for cross-language knowledge searching
US8832064B2 (en) 2005-11-30 2014-09-09 At&T Intellectual Property Ii, L.P. Answer determination for natural language questioning
CN1794233A (zh) 2005-12-28 2006-06-28 刘文印 一种网上用户交互问答方法及其系统
WO2007149216A2 (en) * 2006-06-21 2007-12-27 Information Extraction Systems An apparatus, system and method for developing tools to process natural language text
US7958104B2 (en) * 2007-03-08 2011-06-07 O'donnell Shawn C Context based data searching
US8527262B2 (en) 2007-06-22 2013-09-03 International Business Machines Corporation Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications
US7970766B1 (en) * 2007-07-23 2011-06-28 Google Inc. Entity type assignment
CN101802812B (zh) 2007-08-01 2015-07-01 金格软件有限公司 使用互联网语料库的自动的上下文相关的语言校正和增强
WO2009032287A1 (en) * 2007-09-07 2009-03-12 Enhanced Medical Decisions, Inc. Management and processing of information
US20100100546A1 (en) * 2008-02-08 2010-04-22 Steven Forrest Kohler Context-aware semantic virtual community for communication, information and knowledge management
US7966316B2 (en) * 2008-04-15 2011-06-21 Microsoft Corporation Question type-sensitive answer summarization
US8332394B2 (en) * 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US8275803B2 (en) * 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
US8478581B2 (en) * 2010-01-25 2013-07-02 Chung-ching Chen Interlingua, interlingua engine, and interlingua machine translation system

Also Published As

Publication number Publication date
CN102439590A (zh) 2012-05-02
WO2010105216A2 (en) 2010-09-16
KR20110134909A (ko) 2011-12-15
WO2010105216A3 (en) 2011-01-13
JP2012520528A (ja) 2012-09-06
US8583422B2 (en) 2013-11-12
US8666730B2 (en) 2014-03-04
EP2406731A2 (en) 2012-01-18
EP2406738A2 (en) 2012-01-18
KR20120009446A (ko) 2012-01-31
US20100235164A1 (en) 2010-09-16
EP2406738A4 (en) 2012-08-15
US20100235165A1 (en) 2010-09-16
WO2010105214A3 (en) 2011-01-13
CN102439595A (zh) 2012-05-02
WO2010105214A2 (en) 2010-09-16
EP2406731A4 (en) 2012-08-22

Similar Documents

Publication Publication Date Title
JP2012520527A (ja) ユーザ質問及びテキスト文書の意味ラベリングに基づく質問応答システム及び方法
US10482115B2 (en) Providing question and answers with deferred type evaluation using text with limited structure
US10489439B2 (en) System and method for entity extraction from semi-structured text documents
US8060357B2 (en) Linguistic user interface
Gaizauskas et al. Information extraction: Beyond document retrieval
KR101130444B1 (ko) 기계번역기법을 이용한 유사문장 식별 시스템
US8332394B2 (en) System and method for providing question and answers with deferred type evaluation
US7584092B2 (en) Unsupervised learning of paraphrase/translation alternations and selective application thereof
US8799776B2 (en) Semantic processor for recognition of whole-part relations in natural language documents
US7546235B2 (en) Unsupervised learning of paraphrase/translation alternations and selective application thereof
RU2488877C2 (ru) Идентификация семантических взаимоотношений в косвенной речи
US20100332217A1 (en) Method for text improvement via linguistic abstractions
US20040117352A1 (en) System for answering natural language questions
US20090287678A1 (en) System and method for providing answers to questions
Proux et al. A pragmatic information extraction strategy for gathering data on genetic interactions.
US20080172378A1 (en) Paraphrasing the web by search-based data collection
Malik et al. NLP techniques, tools, and algorithms for data science
Lee Natural Language Processing: A Textbook with Python Implementation
Klavans et al. Computational linguistics for metadata building (CLiMB): using text mining for the automatic identification, categorization, and disambiguation of subject terms for image metadata
Chaichi et al. Deploying natural language processing to extract key product features of crowdfunding campaigns: the case of 3D printing technologies on kickstarter
Paik CHronological information Extraction SyStem (CHESS)
Madi et al. Grammar checking and relation extraction in text: approaches, techniques and open challenges
Vileiniškis et al. An approach for Semantic search over Lithuanian news website corpus
Sumam et al. Design and development of an adaptable Frame-Based System for Dravidian Language Processing
Keighobadi-Lamjiri A syntactic candidate ranking method for answering non-copulative questions

Legal Events

Date Code Title Description
A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20130116