JP2006338457A - 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム - Google Patents

質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム Download PDF

Info

Publication number
JP2006338457A
JP2006338457A JP2005163752A JP2005163752A JP2006338457A JP 2006338457 A JP2006338457 A JP 2006338457A JP 2005163752 A JP2005163752 A JP 2005163752A JP 2005163752 A JP2005163752 A JP 2005163752A JP 2006338457 A JP2006338457 A JP 2006338457A
Authority
JP
Japan
Prior art keywords
tree structure
search
evaluation
sentence
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005163752A
Other languages
English (en)
Other versions
JP4654776B2 (ja
Inventor
Hiroki Yoshimura
宏樹 吉村
Hiroshi Masuichi
博 増市
Tomoko Okuma
智子 大熊
Daigo Sugihara
大悟 杉原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2005163752A priority Critical patent/JP4654776B2/ja
Priority to US11/302,226 priority patent/US7418443B2/en
Publication of JP2006338457A publication Critical patent/JP2006338457A/ja
Application granted granted Critical
Publication of JP4654776B2 publication Critical patent/JP4654776B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 質問応答システムにおいて、的確な回答を提供可能とした構成を実現する。
【解決手段】 入力質問に基づく検索処理を実行し、質問に対する回答候補を取得し、検索結果として取得したパッセージ構成文についての構文解析処理または構文・意味解析処理を実行して、解析結果に基づいて木構造を生成し、生成した木構造から、検索処理において適用した検索語と、取得した回答候補との関係を各回答候補に対応する素性として抽出して、抽出した素性に基づく機械学習手法を適用した評価処理を実行して、各回答候補に対する評価値を決定し、決定した評価値に基づいて、回答候補のリランキングを実行してクライアント(質問者としてのユーザ)に提示する。
【選択図】 図2

Description

本発明は、質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラムに関する。さらに詳細には、質問文を入力して、質問に対応する回答を提供するシステムにおいて、質問に対して、より的確な回答を提供可能とした質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラムに関する。
昨今、インターネットなどを介したネットワーク通信が盛んになり、様々なサービスがネットワークを介して行なわれている。ネットワークを介したサービスの1つとして検索サービスがある。検索サービスは、例えばネットワーク接続されたパーソナルコンピュータ、携帯端末などのユーザ端末からの検索要求を検索サーバが受信し、検索サーバにおいて、検索要求に応じた処理を実行して処理結果をユーザ端末に送信するサービスである。
例えば、インターネットを介した検索処理を実行する場合、検索サービスを提供しているWebサイトにアクセスし、Webサイトの提示メニューに従って、キーワード、カテゴリなどの検索条件を入力しサーバに送信する。サーバは、これらの検索条件に従って、処理を実行し、処理結果をユーザ端末に表示する。
データ検索処理には様々な態様がある。例えば、ユーザがキーワードを入力し、入力したキーワードを含む文書の一覧情報をユーザに提示するキーワードベースの検索方式や、ユーザが質問文を入力して質問に対する回答を提供するいわゆる質問応答システムなどがある。質問応答システムは、ユーザがキーワードを選択する必要がなく、また、質問に対する回答のみを受領することができるシステムであり利用が広まっている。
例えば特許文献1は、典型的な質問応答システムについて開示している。特許文献1には、ユーザの提示する質問文から検索語(検索キーワード)集合と質問種別の判定を行う質問解析部と、検索語(検索キーワード)集合に基づく検索により、検索語を含む文としてのパッセージを抽出する情報検査部と、パッセージからいくつかの回答候補を抽出する回答抽出部と、回答候補の根拠を提示する根拠提示部からなる質問応答システム構成が開示されている。
このような質問応答システムにおいて、回答抽出部は、検索結果の中からユーザの質問に対応する回答を抽出する処理を行なうことになるが、情報検査部から得られた多くの検索結果の中からユーザの質問に対応する回答を的確に抽出することは容易ではない。
そこで、パッセージの文中に出現する検索語と回答候補との位置関係には特徴があるという仮説に基づき、抽出された回答候補を検査する技術が開発されている。例えば、非特許文献1では、パッセージ中に含まれる検索語と回答候補との文節間の距離の近さを決定木で学習して回答候補を選択する処理構成を開示している。
また、非特許文献2では、パッセージ中の文に構文解析を施した結果をグラフ化し、グラフ中に含まれる検索語と回答候補との距離の計算結果を回答候補の順位付けに利用する処理構成を開示している。
特開2002−132811号公報 Ganesh Ramakrishnan, Soumen Chakrabarti, Deepa Paranjpe, Pushpak Bhattacharya, "Is Question Answering an Acquired Skill?", in proceedings of the 13th international conference on World Wide Web, pp.111−120(2004) 倉田岳人, 岡崎直観, 石塚満, "係り受け関係に基づくグラフ構造を用いた質問応答システム", 情報処理学会研究報告NL−158, pp. 69−74(2003)
上述したように、ユーザの質問に基づいて、例えばデータベース、Webページなどの検索対象である知識源を検索して抽出されたパッセージ(検索キーワードを含む文章群)中に質問に適合する回答が含まれている場合でも、従来の質問応答システムでは、ユーザの必要とする適切な回答を効率的に抽出することは困難である。
上述したように、非特許文献1,2には、回答候補を選択する処理構成が示されているが、非特許文献1の課題は、重文や複文または多くの修飾語からなる複雑な文構造を持つ文の場合、検索語と回答候補を含む文節が離れてしまう傾向がある。この場合、文節間距離の測定を学習しても、適切な検索語と回答候補の関係が抽出されないため、誤った学習結果を出力してしまうという問題点がある。
また、非特許文献2の課題は、該当するパッセージ中の文集合をまとめてグラフ化し距離を算出するため、文単位で距離計算と比較して正確な検索語と回答候補の関係を取り出すことができず、適切な回答候補の順位付けが難しいという問題点がある。
本発明は、このような問題点に鑑みてなされたものであり、ユーザの質問に基づく検索処理によって取得されたパッセージ中の文に含まれる回答候補間の関係を考慮し、回答精度の向上を実現した質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラムを提供することを目的とする。
特に本発明は、質問応答システムで得た検索語と回答候補に対して、格関係(述語に対して何が主語で何が目的語であるかなど)という精緻な文構造の特徴を機械学習手法のデータに用いて評価を行うことで、検査能力の高い回答候補のリランキングを行い、適切な回答を効率的に提示することを可能とした質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラムを提供することを目的とする。
これまでの従来技術において、文に精緻な解析を施して、回答候補の検査を行った技術はなく、正解・不正解の回答候補が含まれる文の部分構造のパターンを学習することは、正解の回答を得るために有用であり、本発明は、このような文解析処理によって、質問に対する適切な回答を効率的に抽出する構成を持つ。
本発明の第1の側面は、
入力質問に基づく検索処理を実行し、質問に対する回答候補を取得する質問応答手段と、
前記質問応答手段における検索結果として取得したパッセージ構成文についての構文解析処理または構文・意味解析処理を実行する解析手段と、
前記解析手段の解析結果に基づいて木構造を生成する木構造生成手段と、
前記木構造生成手段の生成した木構造から、前記質問応答手段における検索処理において適用した検索語と、取得した回答候補との関係を各回答候補に対応する素性として抽出する素性抽出手段と、
前記素性抽出手段において抽出した素性に基づいて各回答候補に対する評価値を決定する評価手段と、
前記評価手段の決定した評価値に基づいて、前記回答候補のリランキングを実行するリランキング手段と、
を有することを特徴とする質問応答システムにある。
さらに、本発明の質問応答システムの一実施態様において、前記評価手段は、前記素性抽出手段において抽出した素性について、機械学習法を適用した評価処理を実行し、各回答候補に対する評価値を決定する構成であることを特徴とする。
さらに、本発明の質問応答システムの一実施態様において、前記解析手段は、前記パッセージ構成文についての構文・意味解析処理を実行し、解析対象文の語の格関係を保持したf−structureを生成する構成であり、前記木構造生成手段は、前記f−structureに基づいて、格関係を明示した格関係表現木構造を生成する構成であり、前記素性抽出手段は、前記格関係表現木構造に基づいて、検索語と回答候補との格関係を各回答候補に対応する素性として抽出する処理を実行する構成であることを特徴とする。
さらに、本発明の質問応答システムの一実施態様において、前記解析手段は、前記パッセージ構成文についての構文解析処理を実行する構成であり、前記木構造生成手段は、前記解析手段における構文解析処理結果に基づく構文木を生成する構成であり、前記素性抽出手段は、前記構文木に基づいて、検索語と回答候補との間の述語の語数を素性として抽出する処理を実行する構成であることを特徴とする。
さらに、本発明の質問応答システムの一実施態様において、前記評価手段は、前記素性抽出手段において抽出した素性について、異なる複数の機械学習法を適用した評価処理を実行する複数の評価手段を有し、さらに、該複数の評価手段の複数の評価結果を統合し、各回答候補に対する最終的な評価値を決定する評価統合手段と、を有する構成であることを特徴とする。
さらに、本発明の質問応答システムの一実施態様において、前記質問応答システムは、さらに、前記木構造生成手段の生成した木構造データを、該木構造データの生成元であるパッセージ構成文に対応付けて格納する木構造データベースと、前記質問応答手段から入力するパッセージ構成文に基づいて前記木構造データベースの検索処理を実行するパッセージ文検索手段とを有し、前記パッセージ文検索手段による検索処理によって、前記木構造データベースに一致するパッセージ文が検出された場合は、前記木構造生成手段による木構造生成処理を省略し、前記木構造データベースから検出されたパッセージ文に対応して格納された木構造を利用する構成を有することを特徴とする。
さらに、本発明の第2の側面は、
データ検索方法であり、
入力質問に基づく検索処理を実行し、質問に対する回答候補を取得する質問応答ステップと、
前記質問応答ステップにおける検索結果として取得したパッセージ構成文についての構文解析処理または構文・意味解析処理を実行する解析ステップと、
前記解析ステップの解析結果に基づいて木構造を生成する木構造生成ステップと、
前記木構造生成ステップにおいて生成した木構造から、前記質問応答ステップにおける検索処理において適用した検索語と、取得した回答候補との関係を各回答候補に対応する素性として抽出する素性抽出ステップと、
前記素性抽出ステップにおいて抽出した素性に基づいて各回答候補に対する評価値を決定する評価ステップと、
前記評価ステップにおいて決定した評価値に基づいて、前記回答候補のリランキングを実行するリランキングステップと、
を有することを特徴とするデータ検索方法にある。
さらに、本発明のデータ検索方法の一実施態様において、前記評価ステップは、前記素性抽出ステップにおいて抽出した素性について、機械学習法を適用した評価処理を実行し、各回答候補に対する評価値を決定するステップであることを特徴とする。
さらに、本発明のデータ検索方法の一実施態様において、前記解析ステップは、前記パッセージ構成文についての構文・意味解析処理を実行し、解析対象文の語の格関係を保持したf−structureを生成するステップであり、前記木構造生成ステップは、前記f−structureに基づいて、格関係を明示した格関係表現木構造を生成するステップであり、前記素性抽出ステップは、前記格関係表現木構造に基づいて、検索語と回答候補との格関係を各回答候補に対応する素性として抽出する処理を実行するステップであることを特徴とする。
さらに、本発明のデータ検索方法の一実施態様において、前記解析ステップは、前記パッセージ構成文についての構文解析処理を実行するステップであり、前記木構造生成ステップは、前記解析ステップにおける構文解析処理結果に基づく構文木を生成するステップであり、前記素性抽出ステップは、前記構文木に基づいて、検索語と回答候補との間の述語の語数を素性として抽出する処理を実行するステップであることを特徴とする。
さらに、本発明のデータ検索方法の一実施態様において、前記評価ステップは、前記素性抽出ステップにおいて抽出した素性について、異なる複数の機械学習法を適用した評価処理を実行する複数の評価処理を実行するステップと、該複数の評価ステップの複数の評価結果を統合し、各回答候補に対する最終的な評価値を決定する評価統合ステップと、を有することを特徴とする。
さらに、本発明のデータ検索方法の一実施態様において、前記データ検索方法は、さらに、前記質問応答ステップにおいて取得したパッセージ構成文をクエリとして、木構造データと該木構造データの生成元であるパッセージ構成文とを対応付けて格納した木構造データベースを検索するパッセージ文検索ステップと、前記パッセージ文検索処理によって、前記木構造データベースに一致するパッセージ文が検出された場合は、前記木構造データベースから検出されたパッセージ文に対応して格納された木構造を利用して、素性抽出処理を実行するステップとを有することを特徴とする。
さらに、本発明の第3の側面は、
データ検索処理をコンピュータ上において実行させるコンピュータ・プログラムであり、
入力質問に基づく検索処理を実行し、質問に対する回答候補を取得する質問応答ステップと、
前記質問応答ステップにおける検索結果として取得したパッセージ構成文についての構文解析処理または構文・意味解析処理を実行する解析ステップと、
前記解析ステップの解析結果に基づいて木構造を生成する木構造生成ステップと、
前記木構造生成ステップにおいて生成した木構造から、前記質問応答ステップにおける検索処理において適用した検索語と、取得した回答候補との関係を各回答候補に対応する素性として抽出する素性抽出ステップと、
前記素性抽出ステップにおいて抽出した素性に基づいて各回答候補に対する評価値を決定する評価ステップと、
前記評価ステップにおいて決定した評価値に基づいて、前記回答候補のリランキングを実行するリランキングステップと、
を有することを特徴とするコンピュータ・プログラムにある。
なお、本発明のコンピュータ・プログラムは、例えば、様々なプログラム・コードを実行可能なコンピュータシステムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体、例えば、CDやFD、MOなどの記録媒体、あるいは、ネットワークなどの通信媒体によって提供可能なコンピュータ・プログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、コンピュータシステム上でプログラムに応じた処理が実現される。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本発明の構成によれば、入力質問に基づく検索処理を実行し、質問に対する回答候補を取得し、検索結果として取得したパッセージ構成文についての構文解析処理または構文・意味解析処理を実行して、解析結果に基づいて木構造を生成し、生成した木構造から、検索処理において適用した検索語と、取得した回答候補との関係を各回答候補に対応する素性として抽出して、抽出した素性に基づく機械学習手法を適用した評価処理を実行して、各回答候補に対する評価値を決定し、決定した評価値に基づいて、回答候補のリランキングを実行してクライアント(質問者としてのユーザ)に提示する構成としたので、質問に対するより適格な回答をリストの上位に提示した回答候補の提供が可能となる。
以下、図面を参照しながら本発明の実施形態に係る質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラムの詳細について説明する。
[実施例1]
まず、図1を参照して、本発明の質問応答システムの利用形態の一例について説明する。図1は本発明の質問応答システム200をネットワークに接続したネットワーク構成を示す図である。図1に示すネットワーク100は、インターネットやイントラネットなどのネットワークであり、ネットワーク100には、質問応答システム200に対する質問を送信するユーザ端末としてのクライアント101−1〜n、クライアント101−1〜nに対する回答を取得するための素材としてのWebページを提供する様々なWebページ提供サーバ102A〜Nやデータベース103a〜nが接続されている。
質問応答システム200は、クライアント101−1〜nから、ユーザの生成した様々な質問文を入力し、入力質問に対する回答をクライアント101−1〜nに提供する。質問に対する回答は、Webページ提供サーバ102A〜Nの提供するWebページや、データベース103a〜nに格納された文書データなどから取得する。Webページ提供サーバ102A〜Nの提供するWebページや、データベース103a〜nに格納されたデータが検索対象データであり知識源と呼ばれる。
Webページ提供サーバ102A〜Nは、WWW(World Wide Web)システムによる公開ページとしてWebページを提供する。Webページは、Webブラウザに表示されるデータ集合であり、テキストデータやHTMLによるレイアウト情報、文書中に埋め込まれた画像や音声、動画などによって構成される。Webページの集合はWebサイトであり、Webサイトは、トップページ(ホームページ)とトップページからリンクされた他のWebページで構成される。
質問応答システム200の構成および処理について図2を参照して説明する。質問応答システム200は、ネットワーク100に接続され、ネットワーク100に接続されたクライアントからの質問を受領し、ネットワーク100に接続されたWebページ提供サーバの提供するWebページやその他のデータベースを知識源として回答を検索して、例えば回答候補からなるリストを生成してクライアントに提供する処理を実行する。
本発明の質問応答システム200の構成について、図2を参照して説明する。質問応答システム200は、図2に示すように、質問応答手段210、構文・意味解析手段221、木構造生成手段222、素性抽出手段223、評価手段224、リランキング手段225、学習データベース230を有する。以下、質問応答システム200の有する各処理手段の実行する処理について説明する。
[質問応答手段]
質問応答手段210は、一般的な質問応答システムを用いて、質問文から得られる検索語(検索キーワード)に基づくデータベース、WEbページ検索などの知識源の検索を実行し、検索結果から得られるパッセージから回答候補を出力する手段である。図2に示す質問応答手段210は、既存の一般的な質問応答システムを適用可能である。なお、既存の質問応答システムでは、回答候補は複数出力される場合が多い。
図3を参照して、質問応答手段210の実行するプロセスについて説明する。質問応答手段210は、図3に示すように、質問解析部211、情報検索部212、回答候補抽出部213を有する。質問解析部211は、入力質問の解析処理を実行する。例えば質問が求めている回答が、人であるか場所であるかなどの質問タイプの判別や、質問の構成文から検索語(検索キーワード)となる特徴語の検出などが行なわれる。
情報検索部212は、質問解析部211の解析によって抽出された検索語(検索キーワード)に基づく検索を実行する。すなわち、例えば、ネットワークに接続されたWebページ提供サーバの提供するWebページやデータベースを検索対象文書(知識源)215とした検索処理を実行して質問に対応する回答の含まれると判定される文章群としてのパッセージを取得する。
回答候補抽出部213は、情報検索部212の抽出した文章群としてのパッセージから質問に対する回答として適当であると判定される回答候補を選択する処理を実行する。従来の質問応答システムでは、この時点で得られた回答候補が例えば出現頻度などに基づいてランキングされたリストとしてユーザに提示されていた。
しかし、前述したように、この時点の回答候補には、ユーザの質問に対応する正確な回答が含まれない場合も多い。本発明のシステムでは、この回答候補抽出部213の抽出した回答候補を構文・意味解析手段221に出力し、以下、構文・意味解析手段221、木構造生成手段222、素性抽出手段223、評価手段224、リランキング手段225において、回答候補の検査を行い、質問に対する回答としてより適切なランキングを行なった結果を質問者としてのクライアント(ユーザ)に提示する。以下、構文・意味解析手段221、木構造生成手段222、素性抽出手段223、評価手段224、リランキング手段225の各手段において実行する処理について説明する。
[構文・意味解析手段]
構文・意味解析手段221は、図3に示す質問応答手段の情報検索部212がキーワードに基づく検索処理によって取得した検索結果としてのパッセージを入力する。パッセージは、知識源に対する検索語(検索キーワード)を適用した検索の結果として取得した文であり、検索語(検索キーワード)を含む文章の集合である。
構文・意味解析手段221は、情報検索部212から入力するパッセージ中の文に対して、Lexical Functional Grammar(LFG)に基づく構文・意味解析を施す。
構文意味解析処理について簡単に説明する。日本語や英語を始めとする各種の言語で記述される自然言語は、本来抽象的であいまい性が高い性質を持つが、文章を数学的に取り扱うことにより、コンピュータ処理を行なうことができる。この結果、機械翻訳や対話システム、検索システム、質問応答システムなど、自動化処理により自然言語に関するさまざまなアプリケーション/サービスが実現される。かかる自然言語処理は一般に、形態素解析、構文解析、意味解析、文脈解析という各処理フェーズに区分される。
形態素解析では、文を意味的最小単位である形態素(morpheme)に分節して品詞の認定処理を行なう。構文解析では、文法規則などを基に句構造などの文の構造を解析する。文法規則が木構造であることから、構文解析結果は一般に個々の形態素が係り受け関係などを基にして接合された木構造となる。意味解析では、文中の語の語義(概念)や、語と語の間の意味関係などに基づいて、文が伝える意味を表現する意味構造を求めて、意味構造を合成する。また、文脈解析では、文の系列である文章(談話)を解析の基本単位とみなして、文間の意味的なまとまりを得て談話構造を構成する。
構文解析及び意味解析は、自然言語処理の分野において、対話システム、機械翻訳、文書校正支援、文書要約などのアプリケーションを実現する上で必要不可欠の技術であるとされている。
構文解析では、自然言語文を受け取り、文法規則に基づいて単語(文節)間の係り受け関係を決定する処理を行なう。構文解析結果は、依存構造と呼ばれる木構造(依存木)の形態で表現することができる。また、意味解析では、単語(文節)間の係り受け関係に基づいて文中の格関係を決定する処理を行なうことができる。ここで言う格関係とは、文を構成する各要素が持つ、主語(SUBJ)、目的語(OBJ)といった文法上の役割のことを指す。また、文の時制や様相、話法などを判定する処理を意味解析が含む場合もある。
構文意味解析システムの詳細については、例えば、「増市,大熊,"Lexical Functional Grammarに基づく実用的な日本語解析システムの構築",自然言語処理,Vol.10,No.2,pp.79−109,言語処理学会,2003」及び当該論文中の引用文献に詳細が記述されている。構文・意味解析手段221は、このLFGに基づく自然言語処理システムを適用する。
構文・意味解析手段221は、LFGに基づくパッセージ解析によって、格関係を解析結果に含むf−structure(f−str)と呼ばれる構造を出力する。
図4を参照して、f−structure(f−str)について説明する。f−structureは、文法機能の概念に基づき、文の格構造、時制、様相、話法などの意味情報を属性―属性値のマトリックス構造で表現するものである。
図4には、「継母は、シンデレラが履いたガラスの靴を割った」という文の構文意味解析結果としてのf−structureを示す。f−structureは、文法的な機能を明確に表現したものであり、文法的な機能名、意味的形式、並びに特徴シンボルにより構成される。f−structureを参照することにより、主語(subject)、目的語(object)、補語(complement)、修飾語(adjunct)といった意味理解を得ることができる。
構文・意味解析手段221は、情報検索部212から入力する検索語(キーワード)に基づく知識源の検索結果として得られたパッセージ中のキーワードを含む文に対して、Lexical Functional Grammar(LFG)に基づく構文・意味解析を施し、図4に示すような格関係を解析結果に含むf−structure(f−str)構造を出力する。
[木構造生成手段]
木構造生成手段222は、構文・意味解析手段221が検索結果としてのパッセージに基づいて生成したf−structure(f−str)を入力し、f−strから格関係を抜き出し、格関係に基づく木構造を生成する。
図5を参照して、f−structure(f−str)に基づく木構造の生成処理例について説明する。図5(1)は図4に示すと同様の「継母は、シンデレラが履いたガラスの靴を割った」という文の構文意味解析結果としてのf−structureを示す。図5(2)は、図5(1)に示す、f−strから格関係を抜き出して生成した格関係に基づく木構造を示している。
図5(2)に示す木構造において、Tnnは、解析対象としての文に含まれる主語、述語、目的語等を示し、Annは、連結された語相互の格関係を示している。この木構造を格関係表現木構造と呼ぶ。図5(2)に示す語Tnnは、図5(1)に示すf−strに示す語Tnnに対応し、図5(2)に示す格関係Annは、図5(1)に示すf−strに示す格関係Annに対応する。
図5(2)に示す格関係表現木構造は、図5(1)に示すf−structureから、主語(subject)、目的語(object)、補語(complement)、修飾語(adjunct)といった文の構成を取得して生成されるものである。
図5(1)に示すf−structureの左上部の「割る」を木構造の頂点として設定し、右下方に順に語を取得して、主語(subject)、目的語(object)、補語(complement)、修飾語(adjunct)といった格関係をf−strから取得し設定することで生成することができる。
このように、木構造生成手段222は、構文・意味解析手段221が検索結果としてのパッセージに基づいて生成したf−structure(f−str)を入力し、f−strから格関係を抜き出し、格関係に基づく木構造(格関係表現木構造)を生成する。
[素性抽出手段]
素性抽出手段223は、木構造生成手段222が生成したパッセージ構成文に基づく木構造を入力し、さらに、図3に示す質問応答手段210の質問解析部211が保持する検索語(検索キーワード)と回答候補抽出部213が保持する回答候補をそれぞれ入力し、パッセージのf−strに基づいて生成した木構造における検索語(検索キーワード)と回答候補との位置関係を特定する。
木構造において、検索語と回答候補が同じ述語で結ばれているか否かなどを判定する。同じ述語である場合は、格関係(SUBJ,OBJなど)を抽出する。素性抽出手段223が、木構造(格関係表現木構造)から抽出する検索語と回答候補の連結パターンの例を図6に示す。
図6(A)は、検索語と回答候補が同じ述語(PRED)によって結ばれている検索語と回答候補の連結パターンである。
図6(B)は、回答候補が述語(PRED)であり、検索語と主語(subject)、目的語(object)等の格関係で直接、接続された連結パターンである。
図6(C)は、検索語が述語(PRED)であり、回答候補と主語(subject)、目的語(object)等の格関係で直接、接続された連結パターンである。
素性抽出手段223は、木構造生成手段222が生成したパッセージ構成文に基づく木構造を入力し、さらに、図3に示す質問応答手段210の質問解析部211が保持する検索語(検索キーワード)と回答候補抽出部213が保持する回答候補をそれぞれ入力し、パッセージのf−strに基づいて生成した木構造における検索語(検索キーワード)と回答候補との格関係(例えば図6(A)〜(C)などの格関係)を解析する。
[評価手段]
評価手段224は、素性抽出手段223の抽出した検索結果としてのパッセージに基づく木構造における検索語(検索キーワード)と回答候補との格関係情報を入力し、機械学習手法の一つであるSupport Vector Machine(SVM)を用いて、あらかじめ集められ学習データベース230に格納された機械学習用のデータ(素性)に基づいて、木構造から解析された検索語(検索キーワード)と回答候補との格関係が、回答としての適正の高い関係に相当するか否かを判定し、各回答候補の適正を評価する。
SVMは、正解(正例)と不正解(負例)に素性を分類して、入力されたデータが正例または負例であるかどうか判定する機械学習手法である。SVMについては、例えば文献「Fabrizio Sebaastiani, Machine Learning in Automated Text Categorization, ACM Compurting Surveys Vol.34, No.1, pp.1−47,2002」及び当該論文中の引用文献に詳細が記載されている。
評価手段224は、素性抽出手段223の抽出した検索結果としてのパッセージに基づく木構造における検索語(検索キーワード)と回答候補との格関係情報を、機械学習手法の一つであるSVMを用いて、学習データベース230に格納された機械学習用のデータ(素性)を適用して評価し、木構造から解析された検索語(検索キーワード)と回答候補との格関係が、回答としての適正の高い関係に相当するか否かを判定し、各回答候補の適正評価値を例えば、数値として各回答候補に付与する。
[リランキング手段]
リランキング手段225は、評価手段224から得られた、各回答候補の適正評価値を入力し、評価値に基づいて、回答候補を並べ替えて、回答候補リストを生成する。ここで生成された回答候補リストが、質問応答手段に対して110に対して質問を入力したクライアント(ユーザ)に提示される。
次に、本発明の質問応答システムの実行する具体的な処理手順について、図7に示すフローチャートを参照して説明する。
まず、ステップS101において、クライアント(ユーザ)からの質問を入力する。次に、ステップS102において、一般的な質問応答システムと同様の処理によって、図3に示す質問応答手段210の質問解析部211によりクライアント(ユーザ)の入力した質問文Qの解析を実行し、質問文からの重要語抽出により、検索キーワードとして適用する検索語を選択する。これを検索語集合S={s1,s2,s3}とする。
ステップS103において、検索語を適用した知識源の検索を質問応答手段210の検索部212おいて実行し、検索語を含む文章群としてのパッセージを取得する。取得したパッセージ中の文集合をP={p1,p2,・・・,pn}とする。
次に、ステップS104において、パッセージに基づいて、回答候補抽出部213が回答候補の抽出処理を実行し、回答候補が得られる、回答候補抽出部213の抽出した回答候補の集合を、回答候補集合A={a1,a2,a3}とする。ここまでの処理は、質問応答手段210において実行される。
次に、ステップS105の処理に進む。ステップS105は、構文・意味解析手段221の処理である。パッセージ中の文pnに対して、LFGによって構文・意味解析を施し、f−structure(f−str)を出力する。図4を参照して説明したf−structure(f−str)である。なお、f−strは、入力文(ここでは検索結果としてのパッセージ構成文)によって複数の解析結果を出力する。ここでは、f−str集合F={f1,f2,f3}とする。
次に、ステップS106において、f−str集合F={f1,f2,f3}に対して、木構造を生成する。この処理は、木構造生成手段222の処理である。図5を参照して説明したように、木構造生成手段222は、構文・意味解析手段221が検索結果としてのパッセージに基づいて生成したf−structure(f−str)を入力し、f−strから格関係を抜き出し、格関係に基づく木構造を生成する。
f−str集合Fから生成される木構造集合をT={t1,t2,t3}とする。f−str集合と木構造集合の要素は、1対1に対応する。たとえばf−str集合Fの要素f1の木構造は木構造集合Tの要素t1に対応する。木構造は、先に図5を参照して説明したように各ノードに対して、ノードID、ノードの親ID、SUBJやOBJなどの格情報が記述されるデータ構造になっている。
次に、ステップS107において、木構造(格関係表現木構造)から検索語と回答候補のペアの素性(格関係)を解析する。この処理は素性抽出手段223の実行する処理である。
素性抽出手段223は、まず、木構造に基づく素性を抽出する準備として、検索語集合S={s1,s2,s3}と回答候補集合A={a1,a2,a3}から素性表を作成する。素性表とは、検索語と回答候補のペアが含まれた木構造を発見したときに、そのペアの格情報を入力するための表である。図8に、本実施例での素性表を示す。
本例では、検索語集合S={s1,s2,s3}と回答候補集合A={a1,a2,a3}があり、それぞれ3つの検索語、回答候補がある。これらのすべての組み合わせについての素性(木構造における格関係)を記録するための表として図8に示す素性表を生成する。例えばs1a1の項目には、検索語s1と回答候補a1のペアについての素性(木構造における格関係)を記録する。素性表は、検索語と回答候補の数に応じた記入欄を持つ表として設定される。
さらに、素性抽出手段223は、木構造集合の木構造ごとに、素性表の検索語と回答候補のペアが木構造に含まれているかを確認する。含まれている場合、検索語と回答候補が同じ述語で結ばれていれば、格関係を抽出する。抽出された格関係を素性とする。取得した検索語と回答候補の素性を素性表の対応欄に記入して、素性表を完成させる。
図9に、検索語集合S={s1,s2,s3}と回答候補集合A={a1,a2,a3}の各々の組について、木構造から抽出された検索語と回答候補の素性を記入した素性表の例を示す。図9に示す例では、例えば、検索語s1と、回答候補a1との素性(木構造における格関係)は、主語(SUBJ)と目的語(OBJ)の関係である。これは、図6(A)の関係に相当する。
図10を参照して、素性表に登録する検索語と回答候補の例について説明する。図10(A)は、検索語と回答候補が同じ述語で結ばれている関係にあり、素性表に登録される対象となる。この場合の検索語(s1)と回答候補(a1)の素性は、[SUBJ−OBJ]である。一方、図10(B)に示す検索語(s1)と回答候補(a1)は、検索語と回答候補が同じ述語で結ばれている関係になく、素性表に登録される対象とならない。
このような検索語と回答候補の素性解析が各回答候補、各木構造ごとに作成される。さらに、ステップS107では、木構造ごとに作成された素性表を木構造集合tでまとめ、それを回答候補{a1,a2,a3}ごとに並べ替える。これによって回答候補ごとの素性が完成する。
次にステップS108において、回答候補ごとにSVMを用いて評価を行う。この処理は評価手段224において実行する処理である。SVMでは、あらかじめ作成された学習データをSVMによって学習した学習モデルを用いる。学習データは、人手によって正解と不正解の素性を用意する。
評価手段224は、素性抽出手段223の抽出した検索結果としてのパッセージに基づく木構造における検索語(検索キーワード)と回答候補との格関係情報を、機械学習手法の一つであるSVMを用いて、学習データベース230に格納された機械学習用のデータ(素性)を適用して評価し、木構造から解析された検索語(検索キーワード)と回答候補との格関係が、回答としての適正の高い関係に相当するか否かを判定し、各回答候補の適正評価値を例えば、数値として各回答候補に付与する。例えば、回答候補a1,a2,a3について、評価値が以下のように設定される。
a1=(0.50)、
a2=(−1.03)、
a3=(0.90)
次に、ステップS109において、評価によって得られた評価値に基づき、回答候補のリランキングを行う。この処理はリランキング手段225の実行する処理である。例えば、a1(0.50)、a2(−1.03)、a3(0.90)が評価結果から得られた評価値とすると、リランキング手段225は、評価値の高い回答候補から順にリストを生成し、a3、a1、a2の回答候補順のリストを生成して、質問応答手段に対して110に対して質問を入力したクライアント(ユーザ)に提示する。
このように、本発明の質問応答システムでは、一般的な質問応答システムにおいて生成した検索語と、検索結果として得られたパッセージから取得した回答候補との関係を木構造(格関係表現木構造)として解析し、さらに、パッセージから生成した木構造に基づいて、検索語と回答候補間の素性(検索語と回答候補との格関係)を解析し、解析した関係に基づいて、回答候補ごとにSVMを用いて評価を行い、この評価によって回答候補毎の評価値を取得して、取得した評価値に基づく回答候補のリランキングを実行して評価値順の回答候補リストを生成してクライアント(質問者としてのユーザ)に提示する構成としたので、質問に対する回答としての適正の高い回答を上位としたリストをクライアントに提示することが可能となる。
なお、上述した実施例においては日本語の場合の処理例を例として説明したが、英語など他の言語に対しても同様に適用することが可能である。
[その他の実施例]
次に、上述した質問応答システムの実施例と異なる構成を持つ実施例について説明する。
[実施例2]
上述した実施例では、図2に示す評価手段224は、学習データベース230に格納されたデータを適用し、SVM手法に基づく1つの機械学習手法によって評価する構成として説明した。しかし、機械学習手法を適用した評価手法はSVMに限らず、その他の様々な手法を適用することも可能であり、また、複数の手法を組み合わせて使用することも可能である。
機械学習手法を適用した評価手法はSVMの他に、例えば、Maximum Entropy法などがある。このように、複数の機械学習手法によって評価する構成とすることで、より客観的な評価が可能となる。このような複数の機械学習手法を適用した評価構成について、図11を参照して説明する。
図11は、図2に示す質問応答システムの素性抽出手段〜リランキング手段の変形構成例を示している。その他の構成は、図2に示す構成と同様の構成を持つ。本構成例では、評価手段323として、複数の評価手段1〜nを持つ構成となっている。これらの各評価手段は、それぞれ異なる機械学習手法を適用し、異なる学習データをそれぞれの学習データベース1〜n,324に保持し、上述したSVM,Maximum Entropy法などを個別に適用して素性抽出手段223が抽出した素性の評価を実行する。
しかし、素性抽出手段321が抽出した素性をそのまま利用できない機械学習手法も存在するため、本方式では素性を評価可能な素性に変換する素性変換手段322を設ける。この素性変換手段322は、後段の評価手段の適用する機械学習手法による評価が可能なデータに、素性抽出手段321が抽出した素性データを変換する処理を行なう。
複数の異なる機械学習手法によって評価された結果は、評価統合手段325に入力され、例えば加重平均などの演算処理により、総合的な評価値を算出する。評価値は前述の実施例と同様、各回答候補に対応して設定される。リランキング手段326は、この総合的な評価値に基づいて回答候補のリランキングを実行して、回答リストを生成してクライアント(質問ユーザ)に提示する。
本構成例によれば、さまざまな機械学習手法を取り入れ、それぞれの評価結果をまとめることによって、評価の精度向上を期待できる。これにより回答提示におけるリランキングの精度の向上が可能となる。
[実施例3]
次に、図2に示す評価手段224において生成した評価データによって使用される学習データのデータ数を自動的に増やす構成例について、図12を参照して説明する。図12も図11と同様、図2に示す質問応答システムの素性抽出手段〜リランキング手段の変形構成例を示している。その他の構成は、図2に示す構成と同様の構成を持つ。
本構成例では、評価手段352は、素性抽出手段351から素性データを入力し、例えばSVM手法を適用し、学習データベース353に格納された学習データに基づく評価処理を実行し、評価結果をリランキング手段354に出力する。ここまでは前述の実施例と同様の処理である。
例えば、評価手段352が、評価処理において適用するSVMでは評価対象となる素性ごとに正例または負例に分類される。この評価結果としての正例/負例データを素性に付与して学習データベース353に蓄積する。学習データ生成手段356は、評価手段352から評価対象の素性データを取得し、素性に対して設定された正例または負例の情報を付与し、この情報付与済の素性データを学習データベース353に蓄積する。
このように、新たに学習データが学習データベース353に蓄積されると、学習手段355が、SVMの評価で用いる学習モデルを更新し、学習データベースに学習モデルを蓄積する。蓄積された新たな学習モデルは、次の評価に用いられる。
本構成例によれば、新たな評価結果を新たに学習データに追加することで、学習モデルを更新することができ、例えばユーザの興味の変化などを反映した学習モデルをタイムリーに声新することが可能となり、ユーザの興味の推移に応じた評価を行なうことが可能となる。
[実施例4]
上述した実施例では、回答候補の評価値の順にリランキングを実行して生成した回答候補リストをクライアントに提示する構成としたが、SVMでは正負の評価結果を出力することができるため、正例と判定された回答候補のみを提示する構成としてもよい。
例えば、評価結果により回答候補a1〜a3について、
a1:評価値=0.50、
a2:評価値=−1.03、
a3:評価値=0.90、
の各評価値が得られたとすると、リランキング手段では、評価値が性の値を持つ回答候補[a1、a3]のみを選択してリストを生成してクライアントに提示する。正負の評価結果は、評価値の正負の記号で判定することができる。この処理によって、不適当な回答を多く含むリストを提示することないため、ユーザに混乱を招かせることがなく、回答候補のスクリーニングができるという効果がある。
[実施例5]
前述した実施例では、検索結果に基づくパッセージ構成文に対応したf−structureを生成し、f−structureに基づく木構造を逐次生成する構成例として説明した。以下、説明する変形実施例は、生成した木構造をデータベースに蓄積し、蓄積した木構造を再利用することを可能とした構成である。
この構成例について、図13を参照して説明する。図13は、本変形実施例に係る質問応答システムの全体構成を示している。図2に示す質問応答システムとの差異は、パッセージ文検索手段381を有する点、木構造データベース393を有する点である。その他の質問応答手段370、構文・意味解析手段382、木構造生成手段383、素性抽出手段384、評価手段385、リランキング手段386、学習データベース390は、図2を参照して説明したと基本的に同様の構成である。図2に示す構成および処理との差異について以下、説明する。
図13の構成を持つ質問応答システムでは、過去に生成された木構造を再利用する。パッセージ文検索手段381は、質問応答手段370の情報検索部からパッセージ構成文を入力し、同じパッセージ構成文が木構造データヘース393にあるかを検索する。木構造データベース393は、木構造生成手段383によって生成された木構造を入力文(パッセージ構成文)とともに入力し、これらを対応付けて格納するデータベースである。
本構成例における処理シーケンスは以下の通りである。
ステップ1.パッセージ文検索手段381は、パッセージの構成文をクエリとして木構造データベース393を検索する。
ステップ2−a.木構造データベース393から、検索対象のパッセージ構成文と同一のパッセージ構成文が検索された場合は、その文に対応する木構造を木構造データベース393から取得して、素性抽出手段394に送る。
ステップ2−b.木構造データベース393から、検索対象のパッセージ構成文と同一のパッセージ構成文が検索されなかった場合、構文・意味解析手段382において、パッセージ中の文に対して構文・意味解析を実施し、木構造生成手段383が木構造を生成する。生成された木構造は、パッセージ中の文とともに木構造データベースDBに格納する。以降のステップは、図2を参照して説明した実施例と同様である。
本構成例によれば、入力文(パッセージ構成文)と同じ文に基づく木構造が生成され、データベースに蓄積されている場合、構文・意味解析処理や木構造生成処理を実施する必要がないため、処理の効率化が実現される。
[実施例6]
図2を参照して説明した実施例では、パッセージ構成文について、構文・意味解析手段221において、構文・意味解析処理を実行してf−structureを生成する処理構成として説明した。以下、構文・意味解析ではなく、構文解析のみに置き換えた実施例について、図14を参照して説明する。
図14に示す質問応答システムは、図2に示す質問応答システムにおける構文・意味解析手段221を構文解析手段421に置き換えた点、木構造生成手段222を構文木生成手段に置き換えたが異なる。他の質問応答手段410、素性抽出手段423、評価手段424、リランキング手段425、学習データベース430は、図2を参照して説明したと基本的に同様の構成である。図2に示す構成および処理との差異について以下、説明する。
構文解析手段421は、質問応答手段410の情報検索部(図3参照)が保持するパッセージ中の文に対して、構文解析(係り受け関係)のみを実施する。すなわち意味解析処理については実行しない。構文木生成手段422は、構文解析手段の解析結果である、パッセージ構成文の構文解析結果に基づいて構文木を生成する。
図15を参照して構文木生成手段422の生成する構文木と、生成構文木からの素性抽出処理について説明する。
構文木生成手段422の生成する構文木は、先に図5を参照して説明した木構造とは異なり、意味解析結果を適用していないので、格情報(SUBJ,OBJなど)が付与されていない。そのため、抽出される素性は、検索語(sn)と回答候補(an)が、いくつの述語を介してつながっているかデータのみが取得できる表現形式となる。
本実施例における検索語(sn)と回答候補(an)の素性は、いくつの述語を介してつながっているかを素性として取得する。例えば、図15(A)は、検索語(s1)と回答候補(a1)とは、述語1のみの1つの述語を介して連結されている。この場合、検索語(s1)と回答候補(a1)の素性は[1]となる。これをs1a1:1とあらわす。
また、図15(B)は、検索語(s1)と回答候補(a1)とは、述語1と述語2の2つの述語を介して連結されている。この場合、検索語(s1)と回答候補(a1)の素性は[2]となる。これをs1a1:2とあらわす。
このように、本実施例では、パッセージ構成文の意味解析処理を行なわず、構文解析結果のみから構文木を生成し、構文木から、検索語(sn)と回答候補(an)とが、いくつの述語を介してつながっているかをカウントしてこれを素性として取得する。本構成によれば、パッセージ構成文の意味解析処理を省略することができ、処理の高速化が実現される。
最後に、上述した処理を実行する質問応答システムを構成する情報処理装置のハードウェア構成例について、図16を参照して説明する。CPU(Central Processing Unit)501は、OS(Operating System)に対応する処理や、上述の実施例において説明した入力質問に基づく検索語抽出、検索処理、パッセージ解析としての構文・意味解析処理、木構造生成処理、素性抽出処理、機械学習手法に基づく評価処理、リランキング処理などを実行する。これらの処理は、各情報処理装置のROM、ハードディスクなどのデータ記憶部に格納されたコンピュータ・プログラムに従って実行される。
ROM(Read Only Memory)502は、CPU501が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)503は、CPU501の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス504により相互に接続されている。
ホストバス504は、ブリッジ505を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス506に接続されている。
キーボード508、ポインティングデバイス509は、ユーザにより操作される入力デバイスである。ディスプレイ510は、液晶表示装置またはCRT(Cathode Ray Tube)などから成り、各種情報をテキストやイメージで表示する。
HDD(Hard Disk Drive)511は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU501によって実行するプログラムや情報を記録または再生させる。ハードディスクは、例えば検索結果としての回答候補、パッセージの格納、さらに、機械学習手法を適用する評価処理に利用する学習データの格納、木構造データの格納、回答候補の格納手段などに利用され、さらに、データ処理プログラム等、各種コンピュータ・プログラムが格納される。
ドライブ512は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体521に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース507、外部バス506、ブリッジ505、およびホストバス504を介して接続されているRAM503に供給する。
接続ポート514は、外部接続機器522を接続するポートであり、USB,IEEE1394等の接続部を持つ。接続ポート514は、インタフェース507、および外部バス506、ブリッジ505、ホストバス504等を介してCPU501等に接続されている。通信部515は、ネットワークに接続され、クライアントやネットワーク接続サーバとの通信を実行する。
なお、図16に示す質問応答システムとして適用される情報処理装置のハードウェア構成例は、PCを適用して構成した装置の一例であり、本発明の質問応答システムは、図16に示す構成に限らず、上述した実施例において説明した処理を実行可能な構成であればよい。
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
なお、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。
例えば、プログラムは記録媒体としてのハードディスクやROM(Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、CD−ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することができる。
なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本発明の構成によれば、入力質問に基づく検索処理を実行し、質問に対する回答候補を取得し、検索結果として取得したパッセージ構成文についての構文解析処理または構文・意味解析処理を実行して、解析結果に基づいて木構造を生成し、生成した木構造から、検索処理において適用した検索語と、取得した回答候補との関係を各回答候補に対応する素性として抽出して、抽出した素性に基づく機械学習手法を適用した評価処理を実行して、各回答候補に対する評価値を決定し、決定した評価値に基づいて、回答候補のリランキングを実行してクライアント(質問者としてのユーザ)に提示する構成としたので、質問に対するより適格な回答をリストの上位に提示した回答候補の提供が可能となる。
本発明の質問応答システムの適用例を示すネットワーク構成図である。 本発明の一実施形態に係る質問応答システムの構成について説明する図である。 質問応答システムにおける質問応答手段の構成および処理について説明する図である 構文・意味解析手段の生成するf−structureの構成例について説明する図である。 木構造生成手段がf−structureに基づいて生成する木構造の構成および生成処理について説明する図である。 素性抽出手段が木構造から抽出する検索語と回答候補間の木構造における関係および素性の例について説明する図である。 本発明の質問応答システムの実行する処理シーケンスについて説明するフローチャートを示す図である。 本発明の質問応答システムの生成する素性表について説明する図である。 本発明の質問応答システムの生成する完成した素性表について説明する図である。 本発明の質問応答システムにおいて抽出する素性について説明する図である。 本発明の一実施形態(実施例2)に係る質問応答システムの評価手段の構成を示す図である。 本発明の一実施形態(実施例3)に係る質問応答システムの評価手段の構成を示す図である。 本発明の一実施形態(実施例5)に係る質問応答システムの構成を示す図である。 本発明の一実施形態(実施例6)に係る質問応答システムの評価手段の構成を示す図である。 本発明の一実施形態(実施例6)に係る質問応答システムにおいて生成する構文木の構成および素性抽出処理について説明する図である。 本発明の一実施形態に係る質問応答システムのハードウェア構成例について説明する図である。
符号の説明
100 ネットワーク
101 クライアント
102 Webページ提供サーバ
103 データベース
200 質問応答システム
210 質問応答手段
211 質問解析部
212 情報検索部
213 回答候補抽出部
221 構文・意味解析手段
222 木構造生成手段
223 素性抽出手段
224 評価手段
225 リランキング手段
230 学習データベース
321 素性抽出手段
322 素性変換手段
323 評価手段
324 学習データベース
325 評価統合手段
326 リランキング手段
351 素性抽出手段
352 評価手段
353 学習データベース
354 リランキング手段
355 学習手段
356 学習データ生成手段
370 質問応答手段
381 パッセージ文検索手段
382 構文・意味解析手段
383 木構造生成手段
384 素性抽出手段
385 評価手段
386 リランキング手段
390 学習データベース
393 木構造データベース
410 質問応答手段
421 構文解析手段
422 木構造生成手段
423 素性抽出手段
424 評価手段
425 リランキング手段
430 学習データベース
501 CPU(Central Processing Unit)
502 ROM(Read-Only-Memory)
503 RAM(Random Access Memory)
504 ホストバス
505 ブリッジ
506 外部バス
507 インタフェース
508 キーボード
509 ポインティングデバイス
510 ディスプレイ
511 HDD(Hard Disk Drive)
512 ドライブ
514 接続ポート
515 通信部
521 リムーバブル記録媒体
522 外部接続機器

Claims (13)

  1. 入力質問に基づく検索処理を実行し、質問に対する回答候補を取得する質問応答手段と、
    前記質問応答手段における検索結果として取得したパッセージ構成文についての構文解析処理または構文・意味解析処理を実行する解析手段と、
    前記解析手段の解析結果に基づいて木構造を生成する木構造生成手段と、
    前記木構造生成手段の生成した木構造から、前記質問応答手段における検索処理において適用した検索語と、取得した回答候補との関係を各回答候補に対応する素性として抽出する素性抽出手段と、
    前記素性抽出手段において抽出した素性に基づいて各回答候補に対する評価値を決定する評価手段と、
    前記評価手段の決定した評価値に基づいて、前記回答候補のリランキングを実行するリランキング手段と、
    を有することを特徴とする質問応答システム。
  2. 前記評価手段は、
    前記素性抽出手段において抽出した素性について、機械学習法を適用した評価処理を実行し、各回答候補に対する評価値を決定する構成であることを特徴とする請求項1に記載の質問応答システム。
  3. 前記解析手段は、
    前記パッセージ構成文についての構文・意味解析処理を実行し、解析対象文の語の格関係を保持したf−structureを生成する構成であり、
    前記木構造生成手段は、
    前記f−structureに基づいて、格関係を明示した格関係表現木構造を生成する構成であり、
    前記素性抽出手段は、
    前記格関係表現木構造に基づいて、検索語と回答候補との格関係を各回答候補に対応する素性として抽出する処理を実行する構成であることを特徴とする請求項1に記載の質問応答システム。
  4. 前記解析手段は、
    前記パッセージ構成文についての構文解析処理を実行する構成であり、
    前記木構造生成手段は、
    前記解析手段における構文解析処理結果に基づく構文木を生成する構成であり、
    前記素性抽出手段は、
    前記構文木に基づいて、検索語と回答候補との間の述語の語数を素性として抽出する処理を実行する構成であることを特徴とする請求項1に記載の質問応答システム。
  5. 前記評価手段は、
    前記素性抽出手段において抽出した素性について、異なる複数の機械学習法を適用した評価処理を実行する複数の評価手段を有し、さらに、
    該複数の評価手段の複数の評価結果を統合し、各回答候補に対する最終的な評価値を決定する評価統合手段と、
    を有する構成であることを特徴とする請求項1に記載の質問応答システム。
  6. 前記質問応答システムは、さらに、
    前記木構造生成手段の生成した木構造データを、該木構造データの生成元であるパッセージ構成文に対応付けて格納する木構造データベースと、
    前記質問応答手段から入力するパッセージ構成文に基づいて前記木構造データベースの検索処理を実行するパッセージ文検索手段とを有し、
    前記パッセージ文検索手段による検索処理によって、前記木構造データベースに一致するパッセージ文が検出された場合は、前記木構造生成手段による木構造生成処理を省略し、前記木構造データベースから検出されたパッセージ文に対応して格納された木構造を利用する構成を有することを特徴とする請求項1に記載の質問応答システム。
  7. データ検索方法であり、
    入力質問に基づく検索処理を実行し、質問に対する回答候補を取得する質問応答ステップと、
    前記質問応答ステップにおける検索結果として取得したパッセージ構成文についての構文解析処理または構文・意味解析処理を実行する解析ステップと、
    前記解析ステップの解析結果に基づいて木構造を生成する木構造生成ステップと、
    前記木構造生成ステップにおいて生成した木構造から、前記質問応答ステップにおける検索処理において適用した検索語と、取得した回答候補との関係を各回答候補に対応する素性として抽出する素性抽出ステップと、
    前記素性抽出ステップにおいて抽出した素性に基づいて各回答候補に対する評価値を決定する評価ステップと、
    前記評価ステップにおいて決定した評価値に基づいて、前記回答候補のリランキングを実行するリランキングステップと、
    を有することを特徴とするデータ検索方法。
  8. 前記評価ステップは、
    前記素性抽出ステップにおいて抽出した素性について、機械学習法を適用した評価処理を実行し、各回答候補に対する評価値を決定するステップであることを特徴とする請求項7に記載のデータ検索方法。
  9. 前記解析ステップは、
    前記パッセージ構成文についての構文・意味解析処理を実行し、解析対象文の語の格関係を保持したf−structureを生成するステップであり、
    前記木構造生成ステップは、
    前記f−structureに基づいて、格関係を明示した格関係表現木構造を生成するステップであり、
    前記素性抽出ステップは、
    前記格関係表現木構造に基づいて、検索語と回答候補との格関係を各回答候補に対応する素性として抽出する処理を実行するステップであることを特徴とする請求項7に記載のデータ検索方法。
  10. 前記解析ステップは、
    前記パッセージ構成文についての構文解析処理を実行するステップであり、
    前記木構造生成ステップは、
    前記解析ステップにおける構文解析処理結果に基づく構文木を生成するステップであり、
    前記素性抽出ステップは、
    前記構文木に基づいて、検索語と回答候補との間の述語の語数を素性として抽出する処理を実行するステップであることを特徴とする請求項7に記載のデータ検索方法。
  11. 前記評価ステップは、
    前記素性抽出ステップにおいて抽出した素性について、異なる複数の機械学習法を適用した評価処理を実行する複数の評価処理を実行するステップと、
    該複数の評価ステップの複数の評価結果を統合し、各回答候補に対する最終的な評価値を決定する評価統合ステップと、
    を有することを特徴とする請求項7に記載のデータ検索方法。
  12. 前記データ検索方法は、さらに、
    前記質問応答ステップにおいて取得したパッセージ構成文をクエリとして、木構造データと該木構造データの生成元であるパッセージ構成文とを対応付けて格納した木構造データベースを検索するパッセージ文検索ステップと、
    前記パッセージ文検索処理によって、前記木構造データベースに一致するパッセージ文が検出された場合は、前記木構造データベースから検出されたパッセージ文に対応して格納された木構造を利用して、素性抽出処理を実行するステップと、
    を有することを特徴とする請求項7に記載のデータ検索方法。
  13. データ検索処理をコンピュータ上において実行させるコンピュータ・プログラムであり、
    入力質問に基づく検索処理を実行し、質問に対する回答候補を取得する質問応答ステップと、
    前記質問応答ステップにおける検索結果として取得したパッセージ構成文についての構文解析処理または構文・意味解析処理を実行する解析ステップと、
    前記解析ステップの解析結果に基づいて木構造を生成する木構造生成ステップと、
    前記木構造生成ステップにおいて生成した木構造から、前記質問応答ステップにおける検索処理において適用した検索語と、取得した回答候補との関係を各回答候補に対応する素性として抽出する素性抽出ステップと、
    前記素性抽出ステップにおいて抽出した素性に基づいて各回答候補に対する評価値を決定する評価ステップと、
    前記評価ステップにおいて決定した評価値に基づいて、前記回答候補のリランキングを実行するリランキングステップと、
    を有することを特徴とするコンピュータ・プログラム。
JP2005163752A 2005-06-03 2005-06-03 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム Expired - Fee Related JP4654776B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005163752A JP4654776B2 (ja) 2005-06-03 2005-06-03 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US11/302,226 US7418443B2 (en) 2005-06-03 2005-12-14 Question answering system, data search method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005163752A JP4654776B2 (ja) 2005-06-03 2005-06-03 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
JP2006338457A true JP2006338457A (ja) 2006-12-14
JP4654776B2 JP4654776B2 (ja) 2011-03-23

Family

ID=37495339

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005163752A Expired - Fee Related JP4654776B2 (ja) 2005-06-03 2005-06-03 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム

Country Status (2)

Country Link
US (1) US7418443B2 (ja)
JP (1) JP4654776B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010266970A (ja) * 2009-05-12 2010-11-25 Ntt Data Corp 情報検索装置、情報検索方法、辞書作成装置、およびプログラム
JP5408380B1 (ja) * 2013-06-17 2014-02-05 富士ゼロックス株式会社 情報処理プログラム及び情報処理装置
JP2014102383A (ja) * 2012-11-20 2014-06-05 Sprix:Kk 学習支援システム、学習支援サーバ、学習支援方法、及び学習支援プログラム
JP2016085685A (ja) * 2014-10-28 2016-05-19 日本電信電話株式会社 次発話候補スコアリング装置、方法、及びプログラム
JP2017508210A (ja) * 2014-02-07 2017-03-23 サイランス・インコーポレイテッドCylance Inc. 識別のためのアンサンブル機械学習を利用するアプリケーション実行コントロール
JP2017509049A (ja) * 2014-01-14 2017-03-30 マイクロソフト テクノロジー ライセンシング,エルエルシー 検索結果におけるコヒーレントな質問回答
JP2018124914A (ja) * 2017-02-03 2018-08-09 日本電信電話株式会社 パッセージ型質問応答装置、方法、及びプログラム
JP2020071678A (ja) * 2018-10-31 2020-05-07 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム
JP2020123134A (ja) * 2019-01-30 2020-08-13 富士通株式会社 抽出方法,情報処理装置および抽出プログラム
JP2021523464A (ja) * 2018-05-09 2021-09-02 オラクル・インターナショナル・コーポレイション 収束質問に対する回答を改善するための仮想談話ツリーの構築
JP7546096B2 (ja) 2017-05-10 2024-09-05 オラクル・インターナショナル・コーポレイション コミュニケーション用談話ツリーの使用による修辞学的分析の可能化

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7548847B2 (en) * 2002-05-10 2009-06-16 Microsoft Corporation System for automatically annotating training data for a natural language understanding system
KR20090046862A (ko) * 2006-07-24 2009-05-11 차차 써치 인코포레이티드 정보 검색 시스템에서 팟캐스팅 및 비디오 훈련에 대한 방법, 시스템 및 컴퓨터 판독가능한 저장부
US20080221870A1 (en) * 2007-03-08 2008-09-11 Yahoo! Inc. System and method for revising natural language parse trees
US8566777B2 (en) * 2007-04-13 2013-10-22 International Business Machines Corporation Work packet forecasting in a software factory
US8296719B2 (en) 2007-04-13 2012-10-23 International Business Machines Corporation Software factory readiness review
US8464205B2 (en) * 2007-04-13 2013-06-11 International Business Machines Corporation Life cycle of a work packet in a software factory
US9189757B2 (en) * 2007-08-23 2015-11-17 International Business Machines Corporation Monitoring and maintaining balance of factory quality attributes within a software factory environment
US8539437B2 (en) * 2007-08-30 2013-09-17 International Business Machines Corporation Security process model for tasks within a software factory
US20090150387A1 (en) * 2007-11-08 2009-06-11 Marchewitz Jodi L Guided research tool
US7966316B2 (en) * 2008-04-15 2011-06-21 Microsoft Corporation Question type-sensitive answer summarization
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
US8332394B2 (en) 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US8595044B2 (en) 2008-05-29 2013-11-26 International Business Machines Corporation Determining competence levels of teams working within a software
US8667469B2 (en) 2008-05-29 2014-03-04 International Business Machines Corporation Staged automated validation of work packets inputs and deliverables in a software factory
US8452629B2 (en) 2008-07-15 2013-05-28 International Business Machines Corporation Work packet enabled active project schedule maintenance
US8527329B2 (en) 2008-07-15 2013-09-03 International Business Machines Corporation Configuring design centers, assembly lines and job shops of a global delivery network into “on demand” factories
US8375370B2 (en) * 2008-07-23 2013-02-12 International Business Machines Corporation Application/service event root cause traceability causal and impact analyzer
US8418126B2 (en) * 2008-07-23 2013-04-09 International Business Machines Corporation Software factory semantic reconciliation of data models for work packets
US8448129B2 (en) 2008-07-31 2013-05-21 International Business Machines Corporation Work packet delegation in a software factory
US8271949B2 (en) 2008-07-31 2012-09-18 International Business Machines Corporation Self-healing factory processes in a software factory
US8336026B2 (en) 2008-07-31 2012-12-18 International Business Machines Corporation Supporting a work packet request with a specifically tailored IDE
US20100063797A1 (en) * 2008-09-09 2010-03-11 Microsoft Corporation Discovering question and answer pairs
US20110125734A1 (en) * 2009-11-23 2011-05-26 International Business Machines Corporation Questions and answers generation
US8407073B2 (en) 2010-08-25 2013-03-26 International Business Machines Corporation Scheduling resources from a multi-skill multi-level human resource pool
US9002773B2 (en) 2010-09-24 2015-04-07 International Business Machines Corporation Decision-support application and system for problem solving using a question-answering system
US8892550B2 (en) 2010-09-24 2014-11-18 International Business Machines Corporation Source expansion for information retrieval and information extraction
US8943051B2 (en) 2010-09-24 2015-01-27 International Business Machines Corporation Lexical answer type confidence estimation and application
WO2012040356A1 (en) 2010-09-24 2012-03-29 International Business Machines Corporation Providing question and answers with deferred type evaluation using text with limited structure
WO2012040677A1 (en) 2010-09-24 2012-03-29 International Business Machines Corporation Efficient passage retrieval using document metadata
JP5816936B2 (ja) 2010-09-24 2015-11-18 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 質問に対する解答を自動的に生成するための方法、システム、およびコンピュータ・プログラム
EP2622592A4 (en) 2010-09-28 2017-04-05 International Business Machines Corporation Providing answers to questions using multiple models to score candidate answers
US9317586B2 (en) 2010-09-28 2016-04-19 International Business Machines Corporation Providing answers to questions using hypothesis pruning
CN103229162B (zh) 2010-09-28 2016-08-10 国际商业机器公司 使用候选答案逻辑综合提供问题答案
KR101173561B1 (ko) * 2010-10-25 2012-08-13 한국전자통신연구원 질문 형태 및 도메인 인식 장치 및 그 방법
US8515986B2 (en) 2010-12-02 2013-08-20 Microsoft Corporation Query pattern generation for answers coverage expansion
US8660878B2 (en) 2011-06-15 2014-02-25 International Business Machines Corporation Model-driven assignment of work to a software factory
CN102903008B (zh) 2011-07-29 2016-05-18 国际商业机器公司 用于计算机问答的方法及系统
CN102789496A (zh) * 2012-07-13 2012-11-21 携程计算机技术(上海)有限公司 智能应答的实现方法及系统
US10614725B2 (en) 2012-09-11 2020-04-07 International Business Machines Corporation Generating secondary questions in an introspective question answering system
US20140236577A1 (en) * 2013-02-15 2014-08-21 Nec Laboratories America, Inc. Semantic Representations of Rare Words in a Neural Probabilistic Language Model
US9146987B2 (en) * 2013-06-04 2015-09-29 International Business Machines Corporation Clustering based question set generation for training and testing of a question and answer system
US9230009B2 (en) 2013-06-04 2016-01-05 International Business Machines Corporation Routing of questions to appropriately trained question and answer system pipelines using clustering
US9348900B2 (en) 2013-12-11 2016-05-24 International Business Machines Corporation Generating an answer from multiple pipelines using clustering
US10372739B2 (en) * 2014-03-17 2019-08-06 NLPCore LLC Corpus search systems and methods
US20160171900A1 (en) * 2014-12-11 2016-06-16 International Business Machines Corporation Determining the Correct Answer in a Forum Thread
US10347146B2 (en) 2014-12-23 2019-07-09 International Business Machines Corporation Managing answer feasibility
CN105786936A (zh) * 2014-12-23 2016-07-20 阿里巴巴集团控股有限公司 用于对搜索数据进行处理的方法及设备
US9720917B2 (en) * 2015-02-17 2017-08-01 International Business Machines Corporation Electronic meeting question management
US10325212B1 (en) * 2015-03-24 2019-06-18 InsideView Technologies, Inc. Predictive intelligent softbots on the cloud
CN106326227A (zh) * 2015-06-17 2017-01-11 中兴通讯股份有限公司 一种提供在线客服的方法及装置
US9720905B2 (en) * 2015-06-22 2017-08-01 International Business Machines Corporation Augmented text search with syntactic information
KR102598273B1 (ko) * 2015-09-01 2023-11-06 삼성전자주식회사 답신 메시지 추천 방법 및 이를 위한 디바이스
US9720981B1 (en) * 2016-02-25 2017-08-01 International Business Machines Corporation Multiple instance machine learning for question answering systems
JP2017151860A (ja) * 2016-02-26 2017-08-31 富士通株式会社 検索制御プログラム、検索制御装置及び検索制御方法
CN105843849B (zh) * 2016-03-15 2019-11-26 北京百度网讯科技有限公司 搜索方法及装置
CN108073628A (zh) * 2016-11-16 2018-05-25 中兴通讯股份有限公司 一种基于智能问答的交互系统与方法
US10789425B2 (en) * 2017-06-05 2020-09-29 Lenovo (Singapore) Pte. Ltd. Generating a response to a natural language command based on a concatenated graph
CN107729453B (zh) * 2017-10-09 2020-11-24 北京京东尚科信息技术有限公司 一种提取中心产品词的方法和装置
CN108090127B (zh) * 2017-11-15 2021-02-12 北京百度网讯科技有限公司 建立问答文本评价模型与评价问答文本的方法、装置
KR20200054360A (ko) * 2018-11-05 2020-05-20 삼성전자주식회사 전자 장치 및 그 제어 방법
CN109408726B (zh) * 2018-11-09 2022-02-08 大连海事大学 问答网站中问题回答者推荐方法
CN111209385B (zh) * 2020-01-14 2024-02-02 重庆兆光科技股份有限公司 一种基于凸神经网络的咨询对话唯一答案寻优方法
WO2021171344A1 (ja) * 2020-02-25 2021-09-02 日本電信電話株式会社 文書作成支援装置、文書作成支援方法、および、文書作成支援プログラム
WO2022043675A2 (en) 2020-08-24 2022-03-03 Unlikely Artificial Intelligence Limited A computer implemented method for the automated analysis or use of data
CN113806500B (zh) * 2021-02-09 2024-05-28 京东科技控股股份有限公司 信息处理方法、装置和计算机设备
US11782974B2 (en) 2021-03-25 2023-10-10 Bank Of America Corporation System and method for dynamically identifying and retrieving information responsive to voice requests
US11798551B2 (en) 2021-03-25 2023-10-24 Bank Of America Corporation System and method for voice controlled automatic information access and retrieval
US11657819B2 (en) 2021-03-25 2023-05-23 Bank Of America Corporation Selective use of tools for automatically identifying, accessing, and retrieving information responsive to voice requests
CN113407813B (zh) * 2021-06-28 2024-01-26 北京百度网讯科技有限公司 确定候选信息的方法、确定查询结果的方法、装置、设备
US11989527B2 (en) 2021-08-24 2024-05-21 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model
US11977854B2 (en) 2021-08-24 2024-05-07 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model
US12067362B2 (en) 2021-08-24 2024-08-20 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model
US11989507B2 (en) 2021-08-24 2024-05-21 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model
US12073180B2 (en) 2021-08-24 2024-08-27 Unlikely Artificial Intelligence Limited Computer implemented methods for the automated analysis or use of data, including use of a large language model

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09179875A (ja) * 1995-12-25 1997-07-11 Sharp Corp 情報検索装置
JP2002132811A (ja) * 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JP2005092279A (ja) * 2003-09-12 2005-04-07 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774845A (en) * 1993-09-17 1998-06-30 Nec Corporation Information extraction processor
US5694523A (en) * 1995-05-31 1997-12-02 Oracle Corporation Content processing system for discourse
US6460034B1 (en) * 1997-05-21 2002-10-01 Oracle Corporation Document knowledge base research and retrieval system
US6243670B1 (en) * 1998-09-02 2001-06-05 Nippon Telegraph And Telephone Corporation Method, apparatus, and computer readable medium for performing semantic analysis and generating a semantic structure having linked frames
JP2003242136A (ja) * 2002-02-20 2003-08-29 Fuji Xerox Co Ltd 構文情報タグ付与支援システムおよび方法
KR100530154B1 (ko) * 2002-06-07 2005-11-21 인터내셔널 비지네스 머신즈 코포레이션 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
JP2004139427A (ja) * 2002-10-18 2004-05-13 Fuji Xerox Co Ltd コミュニケーション支援システム及びコミュニケーション支援システム、並びにコンピュータ・プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09179875A (ja) * 1995-12-25 1997-07-11 Sharp Corp 情報検索装置
JP2002132811A (ja) * 2000-10-19 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JP2005092279A (ja) * 2003-09-12 2005-04-07 Fuji Xerox Co Ltd 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010266970A (ja) * 2009-05-12 2010-11-25 Ntt Data Corp 情報検索装置、情報検索方法、辞書作成装置、およびプログラム
JP2014102383A (ja) * 2012-11-20 2014-06-05 Sprix:Kk 学習支援システム、学習支援サーバ、学習支援方法、及び学習支援プログラム
JP5408380B1 (ja) * 2013-06-17 2014-02-05 富士ゼロックス株式会社 情報処理プログラム及び情報処理装置
JP2015001888A (ja) * 2013-06-17 2015-01-05 富士ゼロックス株式会社 情報処理プログラム及び情報処理装置
JP2017509049A (ja) * 2014-01-14 2017-03-30 マイクロソフト テクノロジー ライセンシング,エルエルシー 検索結果におけるコヒーレントな質問回答
JP2017508210A (ja) * 2014-02-07 2017-03-23 サイランス・インコーポレイテッドCylance Inc. 識別のためのアンサンブル機械学習を利用するアプリケーション実行コントロール
JP2016085685A (ja) * 2014-10-28 2016-05-19 日本電信電話株式会社 次発話候補スコアリング装置、方法、及びプログラム
JP2018124914A (ja) * 2017-02-03 2018-08-09 日本電信電話株式会社 パッセージ型質問応答装置、方法、及びプログラム
JP7546096B2 (ja) 2017-05-10 2024-09-05 オラクル・インターナショナル・コーポレイション コミュニケーション用談話ツリーの使用による修辞学的分析の可能化
JP7546096B6 (ja) 2017-05-10 2024-10-02 オラクル・インターナショナル・コーポレイション コミュニケーション用談話ツリーの使用による修辞学的分析の可能化
JP2021523464A (ja) * 2018-05-09 2021-09-02 オラクル・インターナショナル・コーポレイション 収束質問に対する回答を改善するための仮想談話ツリーの構築
JP7258047B2 (ja) 2018-05-09 2023-04-14 オラクル・インターナショナル・コーポレイション 収束質問に対する回答を改善するための仮想談話ツリーの構築
JP2020071678A (ja) * 2018-10-31 2020-05-07 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム
JP7256357B2 (ja) 2018-10-31 2023-04-12 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム
JP2020123134A (ja) * 2019-01-30 2020-08-13 富士通株式会社 抽出方法,情報処理装置および抽出プログラム

Also Published As

Publication number Publication date
JP4654776B2 (ja) 2011-03-23
US20060277165A1 (en) 2006-12-07
US7418443B2 (en) 2008-08-26

Similar Documents

Publication Publication Date Title
JP4654776B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US7461047B2 (en) Question answering system, data search method, and computer program
JP4650072B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US20070118519A1 (en) Question answering system, data search method, and computer program
JP4654780B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US10558754B2 (en) Method and system for automating training of named entity recognition in natural language processing
US7526474B2 (en) Question answering system, data search method, and computer program
JP4654745B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US7689411B2 (en) Concept matching
JP7232831B2 (ja) 複雑な回答の補強証拠取り出し
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
US11687826B2 (en) Artificial intelligence (AI) based innovation data processing system
JP2004118740A (ja) 質問応答システム、質問応答方法、質問応答プログラム
Al-Safadi et al. Developing ontology for Arabic blogs retrieval
WO2016121048A1 (ja) 文章生成装置及び方法
Lommatzsch et al. An Information Retrieval-based Approach for Building Intuitive Chatbots for Large Knowledge Bases.
JP2007207127A (ja) 質問応答システム、質問応答処理方法及び質問応答プログラム
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
Li et al. Chinese frame identification using t-crf model
JP2008204133A (ja) 回答検索装置及びコンピュータプログラム
Karkaletsis et al. Populating ontologies in biomedicine and presenting their content using multilingual generation
JP2885489B2 (ja) 文書内容検索装置
Tratz et al. Language and dialect identification in social media analysis
Wu et al. Recommending Relevant Tutorial Fragments for API-Related Natural Language Questions
Buntine et al. ALVIS: Superpeer Semantic Search Engine.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100819

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101124

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101207

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140107

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4654776

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees