JP2020123134A

JP2020123134A - 抽出方法，情報処理装置および抽出プログラム

Info

Publication number: JP2020123134A
Application number: JP2019014459A
Authority: JP
Inventors: 曉窪田; Akira Kubota; 片岡　正弘; Masahiro Kataoka; 正弘片岡; 智範大田; Tomonori Ota
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2020-08-13

Abstract

【課題】検索クエリに対応しない文書の出力を抑制できるようにする。【解決手段】複数の単語を含む検索クエリを受け付ける受付部１１１と、受け付けた検索クエリから複数の特徴単語を抽出する単語抽出部１１２と、それぞれが１つ以上のセンテンスを含む複数の文書を記憶する記憶部２００を参照して、複数の文書２１０に含まれる各文書について、抽出した複数の単語の、各文書に含まれるセンテンスでの出現状況と、抽出した複数の単語の、検索クエリに含まれるセンテンスでの出現状況との関係性を特定する特定部１３１と、特定した関係性に基づき、複数の文書２１０の中から少なくともいずれかの文書を抽出する文書抽出部１３２とを備える。【選択図】図１

Description

本発明は、抽出方法，情報処理装置および抽出プログラムに関する。

近年、チャットボット（Chatbot）を用いた検索サービスとして、ユーザが入力した質問文（ユーザ質問文）に対してＦＡＱ（Frequently Asked Questions）を応答するシステムが知られている。

ここで、チャットボットとは、チャット（会話）とボット（ロボット）とを組み合わせた言葉であり、人工知能（ＡＩ：Artificial Intelligence）を活用した自動会話プログラムである。

検索サービスで用いられる検索技術としては、例えば、利用者によって入力された質問文を構文解析した結果を用いて検索条件情報を作成し、作成した検索条件情報に対応する文書を検索結果として表示する検索技術が知られている（例えば、特許文献１）。

特開２０１１−１１３５３６号公報特開２００５−６３１５８号公報

ところで、単にユーザ質問文の特徴単語が含まれるＦＡＱが検索結果として抽出する検索システムでは、特徴単語と主語のみが一致するＦＡＱや述語のみが一致するＦＡＱ等、ユーザが回答として期待するものとは内容が異なるＦＡＱが抽出されることも多い。すなわち、ユーザ質問文に対応しないＦＡＱが出力されることがある。

１つの側面では、本発明は、検索クエリに対応しない文書の出力を抑制することを目的とする。

このため、この抽出方法は、複数の単語を含む検索クエリを受け付け、受け付けた前記検索クエリから前記複数の単語を抽出し、それぞれが１つ以上のセンテンスを含む複数の文書を記憶する記憶部を参照して、前記複数の文書に含まれる各文書について、抽出した前記複数の単語の、前記各文書に含まれるセンテンスでの出現状況と、抽出した前記複数の単語の、前記検索クエリに含まれるセンテンスでの出現状況との関係性を特定し、特定した前記関係性に基づき、前記複数の文書の中から少なくともいずれかの文書を抽出する、処理を備える。

一実施形態によれば、検索クエリに対応しない文書の出力を抑制できる。

第１実施形態の一例としての情報処理装置の機能構成を模式的に示す図である。第１実施形態の一例としての情報処理装置のハードウェア構成を例示する図である。第１実施形態の一例としての情報処理装置におけるＦＡＱ検索方法を説明するためのフローチャートである。第２実施形態の一例としての情報処理装置の機能構成を模式的に示す図である。第２実施形態の一例としての情報処理装置におけるユーザ質問文に対して構文・意味解析を行なった結果得られる文書構造情報を例示する図である。第２実施形態の一例としての情報処理装置におけるＦＡＱ検索方法を説明するためのフローチャートである。第３実施形態の一例としての情報処理装置におけるＦＡＱ検索方法を説明するためのフローチャートである。第３実施形態の一例としての情報処理装置におけるＦＡＱ質問文に対して構文・意味解析を行なった結果得られる文書構造情報を例示する図である。第３実施形態の一例としての情報処理装置におけるＦＡＱ質問文に対して構文・意味解析を行なった結果得られる文書構造情報を例示する図である。第３実施形態の一例としての情報処理装置におけるＦＡＱ質問文に対して構文・意味解析を行なった結果得られる文書構造情報を例示する図である。第３実施形態の一例としての情報処理装置におけるＦＡＱ質問文に対して構文・意味解析を行なった結果得られる文書構造情報を例示する図である。第３実施形態の一例としての情報処理装置におけるＦＡＱ質問文に対して構文・意味解析を行なった結果得られる文書構造情報を例示する図である。

以下、図面を参照して本抽出方法，情報処理装置および抽出プログラムに係る実施の形態を説明する。ただし、以下に示す実施形態はあくまでも例示に過ぎず、実施形態で明示しない種々の変形例や技術の適用を排除する意図はない。すなわち、本実施形態を、その趣旨を逸脱しない範囲で種々変形（実施形態および各変形例を組み合わせる等）して実施することができる。また、各図は、図中に示す構成要素のみを備えるという趣旨ではなく、他の機能等を含むことができる。

（Ｉ）第１実施形態の説明
（Ａ）構成
図１は第１実施形態の一例としての情報処理装置１ａの機能構成を模式的に示す図、図２はそのハードウェア構成を例示する図である。

本第１実施形態の情報処理装置１ａは、ユーザによって入力された質問文（ユーザ質問文）に応答するＦＡＱを検索し、ユーザに提供するチャットボット機能を実現する。ユーザ質問文は検索クエリに相当する。ユーザ質問文は１つ以上のセンテンス（文）を含み、特に、複数のセンテンスを含むことが望ましい。

ＦＡＱは、よくある（あるいはあると想定される）質問とその回答との組み合わせであり、よくある質問の質問文（ＦＡＱ質問文）が、それに対する答え（ＦＡＱ回答文）と関連付けられている。本情報処理装置１ａにおいてＦＡＱは抽出対象の文書である。ＦＡＱ質問文は１つ以上のセンテンスを含み、センテンスには複数の単語（特徴単語）が含まれる。ＦＡＱ質問文は複数のセンテンスを含むことが望ましい。

情報処理装置１ａは、図１に示すように、制御部１００ａ，記憶部２００，入力部３０１，出力部３０２および通信部３０３を備える。

入力部３０１は、本情報処理装置１ａに各種の情報を入力するための入力装置である。入力部３０１は、キーボードはマウス，タッチパネル等に対応する。例えば、ユーザは、入力部３０１を操作してユーザ質問文を入力してもよい。

出力部３０２は、制御部１００ａから出力される各種の情報を出力する装置であり、例えば、ディスプレイやタッチパネル等のモニタや、プリンタ，音声合成出力装置等に対応する。例えば、出力部３０２は、制御部１００ａによって出力（抽出）されるＦＡＱをディスプレイに表示してもよい。

通信部３０３は、ネットワーク等を介して他の外部装置とデータ通信を実行する処理部である。通信部３０３は、ＬＡＮ（Local Area Network）カード等の通信装置等に対応する。例えば、情報処理装置１ａは、ユーザの使用する端末装置と通信部３０３を介したデータ通信を実行して、ユーザ質問文を受信してもよい。また、情報処理装置１ａは、サーバ機能を備えたコンピュータ（サーバコンピュータ）と通信部３０３を介したデータ通信を実行して、後述するＦＡＱデータ群２１０を構成するデータを受信してもよい。

記憶部２００は、ＦＡＱデータ群２１０およびＦＡＱ検索プログラム２２０を記憶する。記憶部２００は、ＲＡＭ（Random Access Memory），ＲＯＭ（Read Only Memory），フラッシュメモリなどの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

ＦＡＱデータ群２１０は、複数のＦＡＱを備え、複数の文書に相当する。また、記憶部２００は複数の文書を記憶する記憶部に相当する。ＦＡＱデータ群２１０はデータベースとして構成されてもよい。

ＦＡＱ検索プログラム２２０は、本情報処理装置１ａにＦＡＱ検索機能を実現させるためのプログラム（抽出プログラム）である。

制御部１００ａは、質問文処理部１１０ａ，ＦＡＱ第１処理部１２０およびＦＡＱ第２処理部１３０ａとしての機能を有する。制御部１００ａは、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro-processor Unit）などによって実現できる。また、制御部１００ａは、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによっても実現できる。

質問文処理部１１０ａは、入力部３０１を解して入力されたユーザ質問文を処理する。質問文処理部１１０ａは、図１に示すように、受付部１１１および質問文第１処理部１１２としての機能を備える。

受付部１１１は、ユーザが入力部３０１を介して入力するユーザ質問文を受け付ける。例えば、受付部１１１は、出力部３０２にユーザに対して質問文の入力を行なわせるメッセージを表示させ、このメッセージに応じてユーザが入力部３０１を用いて入力する質問文を取得する。ユーザ質問文は複数の特徴単語（単語）を含むことが望ましい。

質問文第１処理部１１２は、入力されたユーザ質問文から特徴単語を抽出する。文章中からの特徴単語の抽出は既知の種々の手法を用いて実現することができ、その詳細な説明は省略する。例えば、特徴単語の抽出にTF-IDF（Term Frequency - Inverse Document Frequency）手法を用いてもよい。また、TF-IDF手法に代えてOkapi BM25等の他の手法を用いてもよく、種々変形して実施することができる。

本情報処理装置１ａにおいては、質問文第１処理部１１２は、ユーザ質問文から複数の特徴単語を抽出することが望ましい。

例えば、「WindowsのスケジュールサーバからLinuxの実行サーバへネットワークジョブを実行したら正常終了となるが、直ぐに終了する処理が完了までに約5〜6分かかります。原因と対処方法を教えてください。」とのユーザ質問文において、質問文第１処理部１１２は、[Windows]，[スケジュールサーバ]，[Linux]，[実行サーバ]，[ネットワークジョブ]および [対処方法]を特徴単語として抽出する。なお、WindowsおよびLinuxはいずれも登録商標である。

質問文第１処理部１１２は、ユーザ質問文が含む１つ以上のセンテンスのそれぞれに対して、特徴単語を抽出する。本第１実施形態において、ユーザ質問文のセンテンスに含まれる特徴単語が、検索クエリに含まれるセンテンスでの出現状況に相当する。

例えば、文頭から句点（。）までの文字列や、句点とこの句点に後続する次の句点との間の文字列を、一のセンテンスとして取り扱ってもよい。また、英文においては、文頭からピリオド（.）までの文字列や、ピリオドとこのピリオドに後続する次のピリオドとの間の文字列を、一のセンテンスとして取り扱ってもよい。

ＦＡＱ第１処理部１２０は、ＦＡＱデータ群２１０に含まれる複数のＦＡＱに基づき転置インデックスを生成する。また、ＦＡＱ第１処理部１２０は、ＦＡＱ検索部１２１としての機能を備える。

ＦＡＱ検索部１２１は、入力されたユーザ質問文に対応するＦＡＱの検索（一次検索）を行なう。ＦＡＱ検索部１２１は、質問文処理部１１０ａの質問文第１処理部１１２によって抽出された特徴単語に基づいて転置インデックスでＦＡＱデータ群２１０に対して全文検索を行ない、ユーザ質問文の特徴単語を含むＦＡＱ（ＦＡＱ候補）を１つ以上抽出する。ＦＡＱ検索部１２１は、複数のＦＡＱ候補を抽出することが望ましい。

ＦＡＱ検索部１２１は、例えば、ＦＡＱにおけるＦＡＱ質問文の全文（テキスト）に対して、ユーザ質問文の特徴単語に基づき転置インデックスによる全文検索を行なうことで、ＦＡＱ候補の抽出を行なう。

なお、特徴単語をもとに転置インデックスでＦＡＱ質問文を全文検索してＦＡＱ候補を抽出する処理は、既知の手法を用いて実現することができ、その説明は省略する。

ＦＡＱ第２処理部１３０ａは、ＦＡＱ第１処理部１２０によって検索されたＦＡＱに対して、ユーザ質問文に基づく絞り込み（二次検索，抽出）を行なう。ＦＡＱ第２処理部１３０ａは、ＦＡＱテキスト処理部１３１および絞込処理部１３２としての機能を備える。

ＦＡＱテキスト処理部１３１は、ＦＡＱ第１処理部１２０（ＦＡＱ検索部１２１）によって抽出されたＦＡＱ候補のテキスト（ＦＡＱテキスト）をＦＡＱデータ群２１０から取得する。例えば、ＦＡＱテキスト処理部１３１は、ＦＡＱ候補のＦＡＱ質問文のテキストをＦＡＱデータ群２１０から取得する。

また、ＦＡＱテキスト処理部１３１は、取得したＦＡＱテキストから特徴単語を抽出する。ＦＡＱテキスト処理部１３１は、前述した質問文第１処理部１１２と同様の手法（例えば、TF-IDF手法やOkapi BM25手法）を用いて特徴単語の抽出を実現する。

ＦＡＱテキスト処理部１３１は、ＦＡＱ質問文が含む１つ以上のセンテンスのそれぞれに対して、特徴単語を抽出する。本第１実施形態において、ＦＡＱ質問文のセンテンスに含まれる特徴単語が、文書に含まれるセンテンスでの出現状況に相当する。

絞込処理部１３２は、ＦＡＱ検索部１２１によって抽出された各ＦＡＱ候補において、質問文第１処理部１１２によってユーザ質問文から抽出された特徴単語が、同一センテンス内にあるかを確認する。絞込処理部１３２は、ユーザ質問文から抽出された特徴単語が、同一センテンス（文）内にあるＦＡＱ候補を、ユーザに提供するＦＡＱとして選択（抽出）する。

すなわち、本第１実施形態において、ＦＡＱ候補においてユーザ質問文から抽出された特徴単語が、同一センテンス内にあることが、ＦＡＱデータ群２１０（複数の文書）に含まれる各ＦＡＱ質問文（文書）について、抽出した前記複数の特徴単語の、各ＦＡＱ質問文に含まれるセンテンスでの出現状況と、抽出した複数の特徴単語の、ユーザ質問文（検索クエリ）に含まれるセンテンスでの出現状況との関係性に相当する。

なお、ユーザ質問文が複数のセンテンスで構成されている場合には、絞込処理部１３２は、ユーザ質問文の一つのセンテンスに含まれる複数の特徴単語が、ＦＡＱ質問文の１つのセンテンスに含まれていることを確認することが望ましい。すなわち、絞込処理部１３２は、ユーザ質問文において１つのセンテンスに含まれる複数の特徴単語が、ＦＡＱ質問文における１つのセンテンスに含まれている当該ＦＡＱ質問文のＦＡＱ候補をユーザに応答するＦＡＱ（応答ＦＡＱ）として決定する。

同じ複数の特徴単語を一センテンス内に含む２つの文章は、互いに同様の内容を有する蓋然性が高いと考えられる。従って、ユーザ質問文において１つのセンテンスに含まれる複数の特徴単語がＦＡＱ質問文の１つのセンテンスにも含まれている場合には、当該ＦＡＱ質問文はユーザ質問文と同様の内容を有する可能が高い。

絞込処理部１３２は、このようなＦＡＱ質問文を含むＦＡＱをユーザに応答する応答ＦＡＱとして決定する。

このようにして決定した応答ＦＡＱは、ＦＡＱ検索部１２１により検索されたユーザ質問文に対応する複数のＦＡＱ候補（一次検索結果）から、ユーザに応答するＦＡＱとして絞り込まれた絞り込み結果（二次検索結果）に相当する。

次に、図２を参照しながら、第１実施形態の一例としての情報処理装置（コンピュータ）１のハードウェア構成について説明する。図２は、当該ハードウェア構成の一例を示すブロック図である。

情報処理装置１ａは、例えば、プロセッサ１１，メモリ１２，記憶装置１３，グラフィック処理装置１４，入力インタフェース１５，光学ドライブ装置１６，機器接続インタフェース１７およびネットワークインタフェース１８を構成要素として有する。これらの構成要素１１〜１８は、バス１９を介して相互に通信可能に構成される。

プロセッサ（処理部）１１は、情報処理装置１ａ全体を制御する。プロセッサ１１は、マルチプロセッサであってもよい。プロセッサ１１は、例えばＣＰＵ，ＭＰＵ，ＤＳＰ（Digital Signal Processor），ＡＳＩＣ，ＰＬＤ（Programmable Logic Device），ＦＰＧＡのいずれか一つであってもよい。また、プロセッサ１１は、ＣＰＵ，ＭＰＵ，ＤＳＰ，ＡＳＩＣ，ＰＬＤ，ＦＰＧＡのうちの２種類以上の要素の組み合わせであってもよい。そして、プロセッサ１１がＦＡＱ検索プログラム２２０を実行することにより、前述した制御部１００ａとして機能する。検索プログラム２２０は抽出プログラムに相当する。

なお、情報処理装置１ａは、例えばコンピュータ読み取り可能な非一時的な記録媒体に記録されたプログラム〔ＦＡＱ検索プログラム２２０やＯＳ（Operating System）プログラム等〕を実行することにより、本第１実施形態のＦＡＱ検索機能（抽出方法）を実現する。情報処理装置１ａに実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、情報処理装置１ａに実行させるプログラムを記憶装置１３に格納しておくことができる。プロセッサ１１は、記憶装置１３内のプログラムの少なくとも一部をメモリ（ＲＡＭ）１２にロードし、ロードしたプログラムを実行する。

また、情報処理装置１ａ（プロセッサ１１）に実行させるプログラムを、光ディスク１６ａ，メモリ装置１７ａ，メモリカード１７ｃ等の非一時的な可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ１１からの制御により、記憶装置１３にインストールされた後、実行可能になる。また、プロセッサ１１が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。

メモリ１２は、ＲＯＭおよびＲＡＭを含む記憶メモリである。メモリ１２のＲＡＭは情報処理装置１ａの主記憶装置として使用される。ＲＡＭには、プロセッサ１１に実行させるＯＳプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ１２には、プロセッサ１１による処理に必要な各種データが格納される。アプリケーションプログラム（ＦＡＱ検索プログラム２２０）には、情報処理装置１ａによって本第１実施形態のＦＡＱ検索機能を実現するためにプロセッサ１１によって実行されるＦＡＱ検索プログラム（図１の符号２２０参照）が含まれてもよい。

記憶装置１３は、ハードディスクドライブ（Hard Disk Drive：ＨＤＤ）、ＳＳＤ（Solid State Drive）、ストレージクラスメモリ（Storage Class Memory：ＳＣＭ）等の記憶装置であって、種々のデータを格納するものである。記憶装置１３は、情報処理装置１ａの補助記憶装置として使用される。記憶装置１３には、ＯＳプログラム，アプリケーションプログラム、および各種データが格納される。なお、補助記憶装置としては、ストレージクラスメモリ（ＳＣＭ：Storage Class Memory）や、フラッシュメモリ等の半導体記憶装置（ＳＳＤ：Solid State Drive）を使用することもできる。この記憶装置１３が前述した記憶部２００に相当する。

グラフィック処理装置１４には、モニタ１４ａが接続されている。グラフィック処理装置１４は、プロセッサ１１からの命令に従って、画像をモニタ１４ａの画面に表示させる。モニタ１４ａとしては、ＣＲＴ（Cathode Ray Tube）を用いた表示装置や液晶表示装置等が挙げられる。モニタ１４ａが前述した出力部３０２に相当する。

入力インタフェース１５には、キーボード１５ａおよびマウス１５ｂが接続されている。入力インタフェース１５は、キーボード１５ａやマウス１５ｂから送られてくる信号をプロセッサ１１に送信する。なお、マウス１５ｂは、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル，タブレット，タッチパッド，トラックボール等が挙げられる。これらのキーボード１５ａおよびマウス１５ｂが、前述した入力部３０１に相当する。

光学ドライブ装置１６は、レーザ光等を利用して、光ディスク１６ａに記録されたデータの読み取りを行なう。光ディスク１６ａは、光の反射によって読み取り可能にデータを記録された可搬型の非一時的な記録媒体である。光ディスク１６ａには、ＤＶＤ（Digital Versatile Disc），ＤＶＤ−ＲＡＭ，ＣＤ−ＲＯＭ（Compact Disc Read Only Memory），ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等が挙げられる。

機器接続インタフェース１７は、本情報処理装置１ａに周辺機器を接続するための通信インタフェースである。例えば、機器接続インタフェース１７には、メモリ装置１７ａやメモリリーダライタ１７ｂを接続することができる。メモリ装置１７ａは、機器接続インタフェース１７との通信機能を搭載した非一時的な記録媒体、例えばＵＳＢ（Universal Serial Bus）メモリである。メモリリーダライタ１７ｂは、メモリカード１７ｃへのデータの書き込み、またはメモリカード１７ｃからのデータの読み出しを行なう。メモリカード１７ｃは、カード型の非一時的な記録媒体である。

ネットワークインタフェース１８は、図示しないネットワークに接続される。ネットワークインタフェース１８は、ネットワークを介して、他の情報処理装置や通信機器等の外部装置との間でデータの送受信を行なう。ネットワークインタフェース１８が前述した通信部３０３に相当する。

以上のようなハードウェア構成を有する情報処理装置１ａによって、図１に示した本第１実施形態のＦＡＱ検索機能を実現することができる。

（Ｂ）動作
上述の如く構成された第１実施形態の一例としての情報処理装置１ａにおけるＦＡＱ検索方法を、図３に示すフローチャート（ステップＡ１〜Ａ８）に従って説明する。

以下に示す例においては、情報処理装置１ａにおいてチャットボット機能が実行される場合について示す。すなわち、ユーザが入力する質問文（ユーザ質問文）に基づいてＦＡＱデータ群２１０に対する検索を行ない、ユーザ質問文に合ったＦＡＱ（応答ＦＡＱ）を抽出してユーザに応答する例について示す。

ステップＡ１において、受付部１１１は、出力部３０２（モニタ１４ａ）にユーザに対して質問文の入力を行なわせるメッセージ（質問受付メッセージ）を表示させる。例えば、受付部１１１は、「問い合わせ内容を入力してください」とのメッセージをディスプレイ１４ａに表示させる。

ステップＡ２において、ユーザは入力部３０１（キーボード１５ａ等）を操作してユーザ質問文を入力し、受付部１１１は入力されたユーザ質問文を取得する。入力されたユーザ質問文はメモリ１２の所定の記憶領域等に格納される。

ステップＡ３において、質問文第１処理部１１２は、ユーザ質問文から特徴単語を抽出する。

ステップＡ４において、ＦＡＱ第１処理部１２０のＦＡＱ検索部１２１は、抽出した特徴単語に基づきＦＡＱデータ群２１０に対して転置インデックスを用いて検索を行ない（一次検索）、ユーザ質問文の特徴単語を含む複数のＦＡＱ（ＦＡＱ候補）を抽出する。

ステップＡ５において、ＦＡＱ第２処理部１３０ａのＦＡＱテキスト処理部１３１は、抽出された複数のＦＡＱ候補のそれぞれについて、ＦＡＱデータ群２１０からＦＡＱ質問文の全文テキスト（ＦＡＱテキスト）を取得する。取得したＦＡＱテキストはメモリ１２の所定の記憶領域等に格納される。

ステップＡ６において、ＦＡＱテキスト処理部１３１は、取得したＦＡＱテキストから特徴単語を抽出する。

ステップＡ７において、絞込処理部１３２は、ＦＡＱ検索部１２１によって抽出されたＦＡＱ候補の中から、ユーザ質問文から抽出された特徴単語が、ＦＡＱ質問文の同一センテンス（文）内にあるＦＡＱ候補を、ＦＡＱをユーザに応答するＦＡＱ（応答ＦＡＱ）として決定する絞り込みを行なう（二次検索）。

ステップＡ８において、絞込処理部１３２は、抽出したＦＡＱをディスプレイ１４ａ（出力部３０２）に表示させる。例えば、絞込処理部１３２は、抽出したＦＡＱのＦＡＱ質問文とＦＡＱ回答文とをディスプレイ１４ａに表示させる。その後、処理を終了する。

（Ｃ）効果
このように、第１実施形態の一例としての情報処理装置１ａによれば、ＦＡＱ第１処理部１２０において、ユーザ質問文から抽出した特徴単語に基づき、ＦＡＱ検索部１２１がＦＡＱデータ群２１０に対して転置インデックスで検索を行なう。そして、ＦＡＱ第２処理部１３０ａにおいて、絞込処理部１３２が、ＦＡＱ検索部１２１によって抽出された複数のＦＡＱ候補の中から、ユーザ質問文から抽出された特徴単語が、同一センテンス（文）内にあるＦＡＱ候補をユーザに提供するＦＡＱとして抽出（選択）する絞り込みを行なう。

これにより、絞込処理部１３２は、ユーザ質問文と同様の内容を有する可能性が高いＦＡＱ質問文のＦＡＱを抽出してユーザに提供するとともに、ユーザ質問文に対応しないＦＡＱの出力を抑制することができる。従って、ユーザに対してユーザ質問文に合ったＦＡＱを提供することができ、ユーザの満足度を向上させることができる。

一方、ＦＡＱ検索部１２１によって抽出された複数のＦＡＱ候補の中から、ユーザ質問文から抽出された特徴単語が同一センテンス（文）内にないＦＡＱ候補についてはユーザに提供しないことで、ユーザ質問文に対応しないＦＡＱ候補のユーザへの出力を抑制でき、これによってもユーザの満足度を向上させることができる。

また、本情報処理装置１ａにおいては、ＦＡＱのＦＡＱ質問文やＦＡＱ回答文に対して文要素間関係の分析を行なう必要がなく、システムが管理するデータ量やメモリ使用量が増大することがない。従って、これらの影響によるＦＡＱ検索処理能力の低下が生じることもない。

例えば、上記特許文献１には、質問文に対応する検索結果を提示すべく、検索対象の文章に対して構文解析を行なうことで、文要素および当該文要素の関係を示す文要素間関係を抽出する一方、利用者によって入力された質問文を構文解析した結果を用いて検索条件情報を作成し、作成した検索条件情報に対応する文章を検索条件に対する検索結果として表示する手法が開示されている。

しかしながら、この特許文献１に開示の手法においては、検索対象の全ての文章について、各文章内の全ての単語に対して文要素間関係の生成を行なう。そのため、当該手法をＦＡＱシステムに適用する場合に、ＦＡＱの全ての回答文章について文要素間関係の生成を行なうことで、ＦＡＱのソーステキストとほぼ同等サイズもしくはそれを超えるデータ量となる場合がある。

このようにシステムが管理するデータ量が増大することで、質問文に該当する単語の比較に時間がかかる。例えば、質問文に含まれる単語とその文要素関係を判定しようとすると、ほぼ全ソースファイルと同等のデータを照合させることと同等の処理が必要となるので、メモリ使用量が莫大となり、処理速度が低下し、ＦＡＱの検索機能に影響をきたす。

本情報処理装置１ａにおいては、予めＦＡＱデータ群２１０の全ＦＡＱのＦＡＱ質問文やＦＡＱ回答文に対して文要素間関係の分析を行なう必要がないので、システムが管理するデータ量やメモリ使用量が増大することがない。従って、これらの影響によるＦＡＱ検索処理能力の低下が生じることもない。

（ＩＩ）第２実施形態の説明
（Ａ）構成
図４は本発明の第２実施形態の一例としての情報処理装置１ｂの機能構成を模式的に示す図である。

第２実施形態の情報処理装置１ｂは、図４に示すように、第１実施形態の情報処理装置１ａの制御部１００ａに代えて制御部１００ｂを備える。なお、その他の部分は第１実施形態の情報処理装置１ａと同様に構成されている。また、本第２実施形態の情報処理装置１ｂは、第１実施形態の情報処理装置１ａと同様のハードウェア構成（図２参照）を備える。
以下、図中、既述の符号と同一の符号は同様の部分を示しているので、その詳細な説明は省略する。

本第２実施形態の情報処理装置１ｂにおいて、プロセッサ１１がＦＡＱ検索プログラム２２０を実行することにより、制御部１００ｂとして機能する。制御部１００ｂは、質問文処理部１１０ｂ，ＦＡＱ第１処理部１２０およびＦＡＱ第２処理部１３０ｂを備える。

質問文処理部１１０ｂは、第１実施形態の質問文処理部１１０ａの受付部１１１および質問文第１処理部１１２に加えて、質問文解析部１１３を備える。

質問文解析部１１３は、ユーザ質問文に対して構文解析と意味解析とを実行する。質問文解析部１１３は、ユーザ質問文に構文解析を行なうことで、ユーザ質問文中の単語の属性を特定する。単語の属性には、単語の品詞と単語のＳＶＯＣと単語の係り受けとを含んでもよい。単語の品詞は、名詞，代名詞，形容詞，動詞，副詞，前置詞，接続詞，感動詞等を含む。

単語のＳＶＯＣは、文章中に含まれる各単語の要素を区別するための記号である。質問文解析部１１３は、ユーザ質問文のテキストに含まれる各単語について、主語（Ｓ），動詞（Ｖ），目的語（Ｏ）および補語（Ｃ）や、単語同士の属性を特定する。

構文解析は、文を構成する単語の位置関係（係り受け等）を決める。構文解析を行なうことで、特徴単語を修飾している単語と修飾関係を規定するとともに、特徴単語により被修飾されている単語と被修飾関係を規定する。意味解析は、単語の意味を明らかにし、また、係り受け関係にある（文節の代表）語間の役割的関係を明らかにする。これらの構文解析および意味解析は既知手法を用いて実現することができ、その詳細な説明は省略する。

質問文解析部１１３は、ユーザ質問文に対して構文解析および意味解析を行なうことで、文を単語に分割し、単語の係り受けや意味的な関係を解析する。例えば、ユーザ質問文に含まれる特徴単語を修飾している単語と修飾関係や特徴単語に被修飾されている単語と非修飾関係を明確化する。以下、構文解析と意味解析とを実行することを構文・意味解析と表す。

質問文解析部１１３は、ユーザ質問文に対して構文・意味解析を行なうことで、文書構造情報を生成する。

図５は第２実施形態の一例としての情報処理装置１ｂにおけるユーザ質問文に対して構文・意味解析を行なった結果得られる文書構造情報を例示する図である。

この図５においては、「WindowsのスケジュールサーバからLinuxの実行サーバへネットワークジョブを実行したら正常終了となるが、直ぐに終了する処理が完了までに約5〜6分かかります。原因と対処方法を教えてください。」というユーザ質問文に対して構文・意味解析を行なうことで得られる文書構造情報を例示する。

このユーザ質問文は、「WindowsのスケジュールサーバからLinuxの実行サーバへネットワークジョブを実行したら正常終了となるが、直ぐに終了する処理が完了までに約5〜6分かかります。」という第１センテンスと、「原因と対処方法を教えてください。」という第２センテンスとを備える。

また、このユーザ質問文においては、[Windows]，[スケジュールサーバ]，[Linux]，[実行サーバ]，[ネットワークジョブ]および[対処方法]が特徴単語に相当する。以下、単語の前後に“[”および“]”を付すことで特徴単語を表す場合がある。

質問文解析部１１３は、このようなユーザ質問文に対して構文・意味解析を行なうことで、図５に例示するような文書構造情報を生成する。文書構造情報は、文書に含まれる複数の単語（文要素）について、文要素の組み合わせの関係性を表す。

図５に例示する文書構造情報は、関係番号，文番号，要素間関係，文要素１および文要素２を項目として備え、これらの情報を相互に関連付けることで構成されている。文書構造情報は文書毎に作成される。従って、ユーザ質問文が複数入力された場合には、これらのユーザ質問文毎に文書構造情報が作成される。

文要素１および文要素２は、それぞれ文書内に含まれる単語（文要素）である。関係番号は、文要素の組み合わせを特定する識別情報であり、文書構造情報におけるエントリを特定する。文番号は文要素が含まれるセンテンスを特定する識別番号である。要素間関係は、文要素１の単語（文要素）と文要素２の単語（文要素）との間の関係を示す。

例えば、図５に示す例において、関係番号“P1”で表されるエントリは、“スケジュールサーバ（文要素１）”と“Windows（文要素２）”とが文番号“1”で特定されるセンテンスに含まれ、これらの文要素が連体修飾子である「の」によって接続されていることを表す。

また、図５に示す例において、例えば、関係番号“P7”で表されるエントリの文要素「教えてください」は特徴単語である[対処方法]に関連する単語として文書構造情報に登録されている。

質問文解析部１１３は、ユーザ質問文に構文解析を行なうことで、ユーザ質問文中の単語に対して、属性の特定や修飾／被修飾関係の規定を行なう。また、質問文解析部１１３は、ユーザ質問文に対して意味解析を行なうことで、単語の意味を明らかにし、また、係り受け関係にある語間の役割的関係を明らかにする。

質問文解析部１１３は、ユーザ質問文に対して構文・意味解析を行なうことで、文を単語に分割し、単語の係り受けや意味的な関係を解析する。すなわち、質問文解析部１１３は、ユーザ質問文のテキストに対して構文・意味解析を行なうことで、特徴単語の属性（ＳＶＯＣ）および係り受けを分析する。

質問文解析部１１３は、ユーザ質問文に対して構文・意味解析を行なうことで、文書構造情報を生成する。ユーザ質問文に対して構文・意味解析を行なうことで生成した文書構造情報（特徴単語の属性および係り受け）は、ユーザ質問文における複数の特徴単語の出現状況に相当する。

ＦＡＱ第２処理部１３０ｂは、第１実施形態のＦＡＱ第２処理部１３０ａにＦＡＱ解析部１３３を備える。

ＦＡＱ解析部１３３は、ＦＡＱテキスト処理部１３１によって取得されたＦＡＱ候補のＦＡＱ質問文のテキストに対して構文解析と意味解析とを実行する。ＦＡＱ解析部１３３は、質問文解析部１１３と同様の手法を用いてＦＡＱ質問文に対する構文・意味解析を行なう。

ＦＡＱ解析部１３３は、ＦＡＱ質問文に構文解析を行なうことで、ＦＡＱ質問文中の単語に対して、属性の特定や修飾／被修飾関係の規定を行なう。また、ＦＡＱ解析部１３３は、ＦＡＱ質問文に対して意味解析を行なうことで、単語の意味を明らかにし、また、係り受け関係にある語間の役割的関係を明らかにする。

ＦＡＱ解析部１３３は、ＦＡＱ質問文に対して構文・意味解析を行なうことで、文を単語に分割し、単語の係り受けや意味的な関係を解析する。すなわち、ＦＡＱ解析部１３３は、ＦＡＱ質問文のテキストに対して構文・意味解析を行なうことで、特徴単語の属性（ＳＶＯＣ）および係り受けを分析する。

質問文解析部１１３は、ユーザ質問文に対して構文・意味解析を行なうことで、文書構造情報を生成する。文書構造情報は文書毎に作成される。従って、ＦＡＱ候補が複数ある場合には、これらのＦＡＱ候補毎に文書構造情報が作成される。ＦＡＱ質問文に対して構文・意味解析を行なうことで生成した文書構造情報（特徴単語の属性および係り受け）は、ＦＡＱ質問文における複数の特徴単語の出現状況に相当する。

また、第２実施形態においては、絞込処理部１３２は、ユーザ質問文中の特徴単語の属性（ＳＶＯＣ）および係り受けと、ＦＡＱ質問文中の特徴単語の属性（ＳＶＯＣ）および係り受けとを比較する。そして、絞込処理部１３２は、ユーザ質問文中の特徴単語の属性（ＳＶＯＣ）および係り受けと、特徴単語の属性（ＳＶＯＣ）および係り受けが一致するＦＡＱ質問文を備えるＦＡＱをユーザに応答するＦＡＱ（応答ＦＡＱ）として決定する。

すなわち、絞込処理部１３２は、ＦＡＱ解析部１３３による構文・意味解析の結果、ユーザ質問文と特徴単語の属性および係り受けが一致するＦＡＱ質問文を検索し、当該ＦＡＱ質問文のＦＡＱを応答ＦＡＱとしてＦＡＱデータ群２１０から抽出する。

ＦＡＱ質問文から抽出した複数の特徴単語の属性および係り受けが、ユーザ質問文から抽出した複数の特徴単語の属性および係り受けと一致するか否かは、複数の特徴単語の、各ＦＡＱ質問文に含まれるセンテンスでの出現状況と、ユーザ質問文に含まれるセンテンスでの出現状況との関係性に相当する。

このようにして決定した応答ＦＡＱは、ＦＡＱ検索部１２１により検索されたユーザ質問文に対応する複数のＦＡＱ候補（検索結果）から、ユーザに応答するＦＡＱとして絞り込まれた絞り込み結果である。

（Ｂ）動作
上述の如く構成された第２実施形態の一例としての情報処理装置１ｂにおけるＦＡＱ検索方法を、図６に示すフローチャート（ステップＢ１〜Ｂ１３）に従って説明する。なお、図６に示すフローチャート中において、ステップＢ１〜Ｂ６においては、図３に示したフローチャートのステップＡ１〜Ａ６と同様の処理が行なわれる。

以下に示す例においても、情報処理装置１ｂにおいてチャットボット機能が実行される場合について示す。すなわち、ユーザが入力する質問文（ユーザ質問文）に基づいてＦＡＱデータ群２１０に対する検索を行ない、ユーザ質問文に合ったＦＡＱ（応答ＦＡＱ）を抽出してユーザに応答する例について示す。

ステップＢ１において、受付部１１１は、出力部３０２（モニタ１４ａ）にユーザに対して質問文の入力を行なわせるメッセージ（質問受付メッセージ）を表示させる。

ステップＢ２において、ユーザは入力部３０１（キーボード１５ａ等）を操作してユーザ質問文を入力し、受付部１１１は入力されたユーザ質問文を取得する。

ステップＢ３において、質問文第１処理部１１２は、ユーザ質問文から特徴単語を抽出する。

ステップＢ４において、ＦＡＱ第１処理部１２０のＦＡＱ検索部１２１は、抽出した特徴単語に基づきＦＡＱデータ群２１０に対して転置インデックスで検索を行ない（一次検索）、ユーザ質問文の特徴単語を含むＦＡＱ（ＦＡＱ候補）を複数個、抽出する。図６においては、検出結果として、１０個のＦＡＱ（１）〜（１０）がＦＡＱ候補として抽出された例が示されている（符号Ｔ１参照）

ステップＢ５において、ＦＡＱ第２処理部１３０ｂのＦＡＱテキスト処理部１３１は、抽出された複数のＦＡＱ候補のそれぞれについて、ＦＡＱデータ群２１０からＦＡＱ質問文の全文テキスト（ＦＡＱテキスト）を取得する。

ステップＢ６において、ＦＡＱテキスト処理部１３１は、取得したＦＡＱテキストから特徴単語を抽出する。

ステップＢ７において、質問文解析部１１３は、ユーザ質問文に対して構文・意味解析を行ない、ユーザ質問文中の特徴単語の属性（ＳＶＯＣ）および係り受けを分析する。

ステップＢ８において、ＦＡＱテキスト処理部１３１は、ＦＡＱ第１処理部１２０（ＦＡＱ検索部１２１）によって抽出されたＦＡＱ候補のうち、絞込処理部１３２によるユーザ質問文と特徴単語のＳＶＯＣおよび特徴単語の係り受けが一致するかの比較が行なわれていないＦＡＱ質問文のテキストをＦＡＱデータ群２１０から取得（抽出）する。

ステップＢ９において、ＦＡＱ解析部１３３は、ステップＢ８において取得したＦＡＱ質問文のテキストに対して、構文・意味解析を行ない、ＦＡＱ質問文中の特徴単語の属性（ＳＶＯＣ）および係り受けを分析する。

ステップＢ１０において、絞込処理部１３２は、ステップＢ９において分析したＦＡＱ質問文中の特徴単語の属性（ＳＶＯＣ）および係り受けと、ユーザ質問文中の特徴単語の属性（ＳＶＯＣ）および係り受けとを比較し、一致するかを確認する（図６の符号Ｔ２参照）。

確認の結果、ユーザ質問文とＦＡＱ質問文とで文中の特徴単語の属性（ＳＶＯＣ）および係り受けが一致する場合には（ステップＢ１０のＹＥＳルート参照）、ステップＢ１１に移行する。

ステップＢ１１において、絞込処理部１３２は、ユーザ質問文中の特徴単語の属性（ＳＶＯＣ）および係り受けと一致したＦＡＱ質問文を備えるＦＡＱを応答ＦＡＱとして確定する。

絞込処理部１３２は、確定した応答ＦＡＱを、ユーザに応答するＦＡＱの絞り込み結果として、メモリ１２等の所定の記憶領域に保存する（図６の符号Ｔ３参照）。

ステップＢ１２において、絞込処理部１３２は、ＦＡＱ第１処理部１２０（ＦＡＱ検索部１２１）によって抽出されたＦＡＱ候補のうち、ユーザ質問文と特徴単語のＳＶＯＣおよび特徴単語の係り受けが一致するかの比較を行なっていないＦＡＱ質問文が残っているかを確認する。

確認の結果、ユーザ質問文と特徴単語のＳＶＯＣおよび特徴単語の係り受けが一致するかの比較を行なっていないＦＡＱ質問文が残っていない場合には（ステップＢ１２のＮＯルート参照）、ステップＢ１３に移行する。

ステップＢ１３において、絞込処理部１３２は、ステップＢ１１において絞り込み結果として保存した応答ＦＡＱをディスプレイ１４ａ等に表示させ、処理を終了する。

また、ステップＢ１０における確認の結果、ユーザ質問文とＦＡＱ質問文とで文中の特徴単語の属性（ＳＶＯＣ）および係り受けが一致しない場合には（ステップＢ１０のＮＯルート参照）、ステップＢ８に戻る。また、ステップＢ１２における確認の結果、ユーザ質問文と特徴単語のＳＶＯＣおよび特徴単語の係り受けが一致するかの比較を行なっていないＦＡＱ質問文が残っている場合にも（ステップＢ１２のＹＥＳルート参照）、ステップＢ８に戻る。すなわち、ステップＢ８において、質問文と特徴単語のＳＶＯＣおよび特徴単語の係り受けが一致するかの比較が行なわれていない次のＦＡＱ質問文のテキストをＦＡＱデータ群２１０から取得し、以下、同様の処理を繰り返し行なう。

（Ｃ）効果
このように、第２実施形態の一例としての情報処理装置１ｂによれば、ＦＡＱ第１処理部１２０において、ユーザ質問文から抽出した特徴単語に基づき、ＦＡＱ検索部１２１がＦＡＱデータ群２１０に対して転置インデックスで検索を行なうことで複数のＦＡＱ候補を検索する。

一方、質問文解析部１１３が、ユーザ質問文に対して構文・意味解析を行なうことで文書構造情報を取得し、ＦＡＱ解析部１３３が、ＦＡＱ候補の各ＦＡＱ質問文に対して構文・意味解析を行なうことで文書構造情報を取得する。

そして、絞込処理部１３２が、ユーザ質問文中の特徴単語の属性（ＳＶＯＣ）および係り受けと、特徴単語の属性（ＳＶＯＣ）および係り受けが一致するＦＡＱ質問文を備えるＦＡＱをユーザに応答するＦＡＱ（応答ＦＡＱ）として決定する。

これにより、絞込処理部１３２は、ユーザ質問文と同様の内容を有する可能性が高いＦＡＱ質問文のＦＡＱを抽出してユーザに提供することができる。すなわち、絞込処理部１３２は、ユーザ質問文に対応しないＦＡＱ候補の出力を抑止することができる。これにより、ユーザに対してユーザ質問文と近い内容のＦＡＱを提供することができ、顧客満足度を向上させることができる。

一方、ＦＡＱ検索部１２１によって抽出された複数のＦＡＱ候補の中から、ユーザ質問文中の特徴単語の属性（ＳＶＯＣ）および係り受けと、特徴単語の属性（ＳＶＯＣ）および係り受けが一致しないＦＡＱ質問文を備えるＦＡＱ候補についてはユーザに提供しないことで、ユーザ質問文に対応しないＦＡＱ候補のユーザへの出力を抑制でき、これによってもユーザの満足度を向上させることができる。

ＦＡＱ解析部１３３は、ＦＡＱ検索部１２１によって抽出されたＦＡＱ候補のＦＡＱ質問文に対してだけ構文・意味解析を行なうので、構文・意味解析を行なうことで生じる文章索引情報のデータ量の増加を少なくすることができ、ＦＡＱ検索処理能力の低下を抑止することができる。

すなわち、本情報処理装置１ｂにおいても、予めＦＡＱデータ群２１０の全ＦＡＱのＦＡＱ質問文やＦＡＱ回答文に対して文要素間関係の分析を行なう必要がないので、システムが管理するデータ量やメモリ使用量が増大することがない。従って、これらの影響によるＦＡＱ検索処理能力の低下が生じることもない。

また、ＦＡＱ解析部１３３は、特徴単語と、当該特徴単語を修飾している単語と、その修飾関係という限定的な範囲に対して構文・意味解析を行なう。これによっても、構文・意味解析を行なうことで生じる文章索引情報のデータ量の増加を少なくすることができ、ＦＡＱ検索処理能力の低下を抑止することができる。

（ＩＩＩ）第３実施形態の説明
（Ａ）構成
第３実施形態の情報処理装置１ｃは、第１実施形態の情報処理装置１ａの制御部１００ａと、第２実施形態の情報処理装置１ｂの制御部１００ｂとの両方の機能を兼ね備える。また、本第３実施形態の情報処理装置１ｃは、第１実施形態の情報処理装置１ａと同様のハードウェア構成（図２参照）を備える。

なお、第３実施形態の情報処理装置１ｃは、図４に例示した第２実施形態の情報処理装置１ｂと同様の機能構成を有する。本第３実施形態の情報処理装置１ｃにおいて、プロセッサ１１がＦＡＱ検索プログラム２２０を実行することにより、制御部１００ｃとして機能する。

すなわち、情報処理装置１ｃにおいて、絞込処理部１３２は、第１実施形態の絞込処理部１３２と同様に、ＦＡＱ検索部１２１によって抽出された各ＦＡＱ候補において、質問文第１処理部１１２によってユーザ質問文から抽出された特徴単語が、同一センテンス内にあるかを確認する機能を有する。

そして、絞込処理部１３２は、ユーザ質問文から抽出された特徴単語が、ＦＡＱ質問文の同一センテンス（文）内にあるＦＡＱ候補を、ユーザに応答する応答ＦＡＱとして決定する。

また、情報処理装置１ｃにおいて、質問文解析部１１３は、第２実施形態の質問文解析部１１３と同様に、ユーザ質問文に対して構文・意味解析を行ない、ユーザ質問文中の特徴単語の属性（ＳＶＯＣ）および係り受けを分析する。

また、情報処理装置１ｃにおいて、ＦＡＱ解析部１３３は、ＦＡＱ質問文のテキストに対して構文・意味解析を行なうことで、特徴単語のＳＶＯＣおよび係り受けを分析する。

そして、情報処理装置１ｃにおいて、絞込処理部１３２は、ユーザ質問文中の特徴単語の属性（ＳＶＯＣ）および係り受けと、ＦＡＱ質問文中の特徴単語の属性（ＳＶＯＣ）および係り受けとを比較する。そして、絞込処理部１３２は、ユーザ質問文中の特徴単語の属性（ＳＶＯＣ）および係り受けと、特徴単語の属性（ＳＶＯＣ）および係り受けが一致するＦＡＱ質問文を備えるＦＡＱをユーザに応答するＦＡＱ（応答ＦＡＱ）として決定する。

（Ｂ）動作
上述の如く構成された第３実施形態の一例としての情報処理装置１ｃにおけるＦＡＱ検索方法を、図５および図８〜図１２を参照しながら、図７に示すフローチャート（ステップＢ１〜Ｂ９，Ａ７，Ｂ１０〜Ｂ１３）に従って説明する。

この図７に示すフローチャートにおいては、図６に示した第２実施形態の情報処理装置１ｂにおけるＦＡＱ検索方法のフローチャート（ステップＢ１〜Ｂ１３）に、図３に示した第１実施形態の情報処理装置１ｃにおけるＦＡＱ検索方法のフローチャートのステップＡ７の処理を備えるものである。

以下に示す例においても、情報処理装置１ｃにおいてチャットボット機能が実行される場合について示す。すなわち、ユーザが入力する質問文（ユーザ質問文）に基づいてＦＡＱデータ群２１０に対する検索を行ない、ユーザ質問文に合ったＦＡＱ（応答ＦＡＱ）を抽出してユーザに応答する例について示す。

また、以下においては、ＦＡＱ検索部１２１が５つのＦＡＱ候補を検索結果として抽出し、ＦＡＱ第２処理部１３０がこれらの５つのＦＡＱ候補（回答候補1〜5）の中から応答ＦＡＱを抽出する例について説明する。

図８〜図１２は、それぞれ第３実施形態の一例としての情報処理装置１ｃにおけるＦＡＱ質問文に対して構文・意味解析を行なった結果得られる文書構造情報を例示する図である。

なお、図８は回答候補1のＦＡＱ候補のＦＡＱ質問文に構文・意味解析を行なった結果得られる文書構造情報を例示する図である。同様に、図９〜図１２は、回答候補2〜4のＦＡＱ候補のＦＡＱ質問文に構文・意味解析を行なった結果得られる文書構造情報をそれぞれ例示する図である。

なお、図中、既述の符号と同一の符号を付したステップは同様の処理を示している。すなわち、図７に示すフローチャート中において、ステップＡ７においては、図３に示したフローチャートのステップＡ７と同様の処理が行なわれ、ステップＢ１〜Ｂ９，Ｂ１０〜Ｂ１３においては、図６に示したフローチャートのステップＢ１〜Ｂ９，Ｂ１０〜Ｂ１３と同様の処理が行なわれる。

ステップＢ１において、受付部１１１は、出力部３０２（モニタ１４ａ）にユーザに対して質問文の入力を行なわせるメッセージ（質問受付メッセージ）を表示させる。例えば、受付部１１１は、「問い合わせ内容を入力してください」とのメッセージをディスプレイ１４ａに表示させる。

ステップＢ２において、ユーザは入力部３０１（キーボード１５ａ等）を操作してユーザ質問文の入力を行なう。本例においては、「WindowsのスケジュールサーバからLinuxの実行サーバへネットワークジョブを実行したら正常終了となるが、直ぐに終了する処理が完了までに約5〜6分かかります。原因と対処方法を教えてください。」とのユーザ質問文が入力されたものとする。入力されたユーザ質問文はメモリ１２の所定の記憶領域等に格納される。受付部１１１は入力されたユーザ質問文を取得する。

ステップＢ３において、質問文第１処理部１１２は、ユーザ質問文から特徴単語を抽出する。質問文第１処理部１１２は、入力されたユーザ質問文から特徴単語の抽出を行なう。本例においては、[windows]，[スケジュールサーバ]，[Linux]，[実行サーバ]，[ネットワークジョブ]および[対処方法]がユーザ質問文の特徴単語として抽出されたものとする。

ステップＢ４において、ＦＡＱ第１処理部１２０のＦＡＱ検索部１２１は、抽出した特徴単語に基づきＦＡＱデータ群２１０に対して転置インデックスで検索を行ない（一次検索）、ユーザ質問文の特徴単語を含む１つ以上（本例では５つ）のＦＡＱ（ＦＡＱ候補）を抽出する。

なお、本処理を行なうに際して、ＦＡＱ第１処理部１２０が、予め、ＦＡＱデータ群２１０に含まれる複数のＦＡＱに基づき転置インデックスを生成しておくものとする。

ステップＢ５において、ＦＡＱ第２処理部１３０ｂのＦＡＱテキスト処理部１３１は、抽出された複数のＦＡＱ候補のそれぞれについて、ＦＡＱデータ群２１０からＦＡＱ質問文の全文テキスト（ＦＡＱテキスト）を取得する。以下に回答候補1〜5のＦＡＱ質問文を示す。

回答候補1： Windowsのスケジュールサーバから、Linuxの実行サーバへネットワークジョブを実行するときの注意点を教えてください。

回答候補2： Linux版のスケジュールサーバから、Windows版の実行サーバへネットワークジョブを投入できますか。

回答候補3：ネットワークジョブを実行したとき、毎回ジョブの終了を認識するまでに約5分かかります。原因と対処方法を教えてください。

回答候補4：スケジュールサーバがクラスタ環境で実行サーバがNAT変換した後のシングルサーバです。このときに実行サーバからの結果通知ができず、ジョブの完了までに5分かかります。原因と対処方法を教えて下さい。

回答候補5：スケジュールサーバがクラスタ構成の場合、ネットワークジョブが終了するまでに時間がかかる

ステップＢ６において、ＦＡＱテキスト処理部１３１は、取得したＦＡＱテキストから特徴単語を抽出する。以下に回答候補1〜5の特徴単語をそれぞれ示す。

回答候補1の特徴単語：Windows、スケジュールサーバ、Linux、実行サーバ、ネットワークジョブ
回答候補2の特徴単語： Linux、スケジュールサーバ、Windows、実行サーバ、ネットワークジョブ
回答候補3の特徴単語：ネットワークジョブ、対処方法

回答候補4の特徴単語：スケジュールサーバ、クラスタ環境、実行サーバ、NAT変換、シングルサーバ、対処方法

回答候補5の特徴単語：スケジュールサーバ、クラスタ構成、ネットワークジョブ

質問文解析部１１３は、ユーザ質問文に対して構文・意味解析を行なうことで、文書構造情報を作成する。

本例においては、質問文解析部１１３がユーザ質問文に対して構文・意味解析を行なうことで、図５に例示した文書構造情報を生成したものとする。

ＦＡＱ解析部１３３が回答候補1〜回答候補5に対して構文・意味解析を行なうことで図８〜図１２に例示する文書構造情報が生成されたものとする。

絞込処理部１３２は、ＦＡＱ検索部１２１によって抽出された各ＦＡＱ候補のそれぞれについて、ユーザ質問文における１センテンス中の特徴単語とＦＡＱ候補における１センテンス中の特徴単語とを比較する。

絞込処理部１３２は、ユーザ質問文の１センテンス中の特徴単語が、ＦＡＱ候補のＦＡＱ質問文の１センテンス中に含まれるかを調べる。

本例においては、絞込処理部１３２は、ユーザ質問文の１センテンス中の複数の特徴単語が、ＦＡＱ候補において複数のセンテンスに分かれて配置されていないことを要件として判断を行なう。

絞込処理部１３２は、ユーザ質問文の一センテンス中に含まれる複数の特徴単語が、ＦＡＱ候補（回答候補）において異なるセンテンスに分散して配置されている場合、当該ＦＡＱ候補（回答候補）を応答ＦＡＱから除外する。

以下に、絞込処理部１３２によるステップＡ７の処理を例示する。

（１）ユーザ質問文中の特徴単語は以下の通り
第１センテンス中の特徴単語：Windows、スケジュールサーバ、Linux、実行サーバ、ネットワークジョブ
第２センテンス中の特徴単語：対処方法

（２）回答候補1中の特徴単語は以下の通り
第１センテンス中：Windows、スケジュールサーバ、Linux、実行サーバ、ネットワークジョブ

ユーザ質問文の第１センテンス中の特徴単語であるWindows、スケジュールサーバ、Linux、実行サーバ、ネットワークジョブが、回答候補1の第１センテンスに含まれているので、絞込処理部１３２は、この回答候補1を応答ＦＡＱの候補から除外しない。

（３）回答候補2中の特徴単語は以下の通り
第１センテンス中：Linux、スケジュールサーバ、Windows、実行サーバ、ネットワークジョブ

ユーザ質問文の第１センテンス中の特徴単語に含まれるWindows、スケジュールサーバ、Linux、実行サーバ、ネットワークジョブが、回答候補2の第１センテンスに含まれているので、絞込処理部１３２は、この回答候補2を応答ＦＡＱの候補から除外しない。

（４）回答候補3中の特徴単語は以下の通り
第１センテンス中：ネットワークジョブ
第２センテンス中：対処方法

ユーザ質問文の第１センテンス中の特徴単語であるネットワークジョブが回答候補3の第１センテンスに含まれており、また、ユーザ質問文の第２センテンス中の特徴単語である対処方法が回答候補3の第２センテンスに含まれている。ユーザ質問文の一センテンス中の特徴単語が回答候補3において複数のセンテンスに分かれているわけではないので、絞込処理部１３２は、この回答候補3を応答ＦＡＱの候補から除外しない。

（５）回答候補4中の特徴単語は以下の通り
第１センテンス中：スケジュールサーバ、クラスタ環境、実行サーバ、シングルサーバ
第２センテンス中：実行サーバ
第３センテンス中：対処方法

ユーザ質問文の第１センテンス中の特徴単語であるスケジュールサーバおよび実行サーバが回答候補4の第１センテンスに含まれており、また、ユーザ質問文の第１センテンス中の特徴単語である実行サーバが回答候補4の第２センテンスに含まれている。さらに、ユーザ質問文の第２センテンス中の特徴単語である対処方法が回答候補4の第３センテンスに含まれている。

ユーザ質問文の一センテンス中の特徴単語が回答候補4において複数のセンテンスに分かれているわけではないので、絞込処理部１３２は、この回答候補4を応答ＦＡＱの候補から除外しない。

（６）回答候補5中の特徴単語は以下の通り
第１センテンス中：スケジュールサーバ、クラスタ構成、ネットワークジョブ

ユーザ質問文の第１センテンス中の特徴単語に含まれるスケジュールサーバおよびネットワークジョブが、回答候補5の第１センテンスに含まれているので、絞込処理部１３２は、この回答候補5を応答ＦＡＱの候補から除外しない。

本例においては、ユーザ質問文の一センテンス中に含まれる複数の特徴単語が、いずれの回答候補においても異なるセンテンスに分散して配置されていることはないので、絞込処理部１３２は、各回答候補1〜5を応答ＦＡＱの候補から除外しない。

ステップＢ１０において、絞込処理部１３２は、ステップＢ９において分析したＦＡＱ質問文中の特徴単語の属性（ＳＶＯＣ）および係り受けと、ユーザ質問文中の特徴単語の属性（ＳＶＯＣ）および係り受けとを比較し、一致するかを確認する。

絞込処理部１３２は、ユーザ質問文とＦＡＱ質問文の特徴単語の属性と係り受けが一致、且つ、各特徴単語の修飾関係がユーザ質問文と同じかを比較する。

具体的には、絞込処理部１３２は、ユーザ質問文についての文書構造情報（図５参照）と、回答候補1〜5についての文書構造情報（図８〜図１２参照）とを比較する。本例における各回答候補1〜5についてのユーザ質問文との比較の結果は以下のとおり

回答候補1：図８のP1〜P5は図５のP1〜P5と比べて修飾関係で違いは見られないことから、回答候補1を応答ＦＡＱとする

回答候補2： [スケジュールサーバ]にかかる単語が[Linux]であり（図９のP1参照）、 [実行サーバ]にかかる単語が[Windows]であり（図９のP3参照）、図５のP1およびP3と相違するので、回答候補2を応答ＦＡＱから除外する

回答候補3：図１０のP1〜P3は図５のP5〜P7と比べて特に共通する特徴語間で係り受けの関係に違いは見られないことから、回答候補3を応答ＦＡＱとする

回答候補4：[スケジュールサーバ]が[クラスタ構成]に修飾しており（図１１のP1参照）、図５のP2と相違するので、回答候補4を応答ＦＡＱから除外する

回答候補5：[スケジュールサーバ]が[クラスタ構成]に修飾しているので（図１２のP1参照）、図５のP2と相違するので、回答候補5を応答ＦＡＱから除外する

これらの比較の結果、回答候補1に対応するＦＡＱ候補と、回答候補3に対応するＦＡＱ候補とが応答ＦＡＱとして決定される。なお、本例においては、ユーザ質問文に対して最適な応答ＦＡＱは回答候補3に対応するＦＡＱ候補である。

絞込処理部１３２は、確定した応答ＦＡＱを、ユーザに応答するＦＡＱの絞り込み結果として、メモリ１２等の所定の記憶領域に保存する（図７の符号Ｔ４参照）。

なお、上記の回答候補1〜5を用いた例示のうち、ステップＡ７に関する記載は前述した第１実施形態にも同様に適用することができる。同様に、上記の回答候補1〜5を用いた例示のうち、ステップＢ１〜Ｂ９，Ｂ１０〜Ｂ１３に関する記載は前述した第２実施形態にも同様に適用することができる。

（Ｃ）効果
第３実施形態の一例としての情報処理装置１ｃによれば、上述した第１実施形態および第２実施形態と同様の作用効果を得ることができる。

（ＩＶ）その他
開示の技術は上述した実施形態に限定されるものではなく、各実施形態の趣旨を逸脱しない範囲で種々変形して実施することができる。

例えば、各実施形態の各構成および各処理は、必要に応じて取捨選択することができ、あるいは適宜組み合わせてもよい。

また、上述した各実施形態において、制御部１００ａ，１００ｂ，１００ｃの一部の機能をネットワークを介して接続された他の情報処理装置に備えてもよい。また、上述した各実施形態において、記憶部２００に記憶されたＦＡＱデータ群２１０およびＦＡＱ検索プログラムの少なくとも一部をネットワークを介して接続された外部ストレージに備えてもよい。

上述した各実施形態において、ＦＡＱ検索部１２１は、質問文第１処理部１１２によって抽出された特徴単語に基づいて転置インデックスでＦＡＱデータ群２１０に対して全文検索を行ない、ユーザ質問文の特徴単語を含むＦＡＱ候補を抽出しているが、これに限定されるものではない。ＦＡＱ検索部１２１は他の検索手法を用いてユーザ質問文の特徴単語を含むＦＡＱ候補を抽出してもよい。例えば、ＦＡＱ検索部１２１は、類似語検索や類義語検索を組み合わせて行なってもよく、種々変形して実施することができる。

また、絞込処理部１３２は、特徴単語の属性（ＳＶＯＣ）および係り受けの一致の判断を行なうに際して、特徴単語の類似語や類義語を判断対象に含めてもよく、種々変形して実施することができる

また、上述した各実施形態においては、情報処理装置１にチャットボットを実現するに際して、ユーザが入力したユーザ質問文に応答する応答ＦＡＱを抽出するシステムについて示しているがこれに限定されるものではない。入力された検索クエリに対して、複数の文書に対して検索を行ない、検索クエリに応じた文書を応答する機能を有する種々のシステムに適用することができる。

また、上述した開示により本実施形態を当業者によって実施・製造することが可能である。

（Ｖ）付記
以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）
複数のセンテンスを含む検索クエリを受け付け、
受け付けた前記検索クエリより複数の単語を抽出し、
それぞれが複数のセンテンスを含む複数の文書を記憶する記憶部を参照して、前記複数の文書に含まれる各文書について、抽出した前記複数の単語の、前記各文書に含まれる複数のセンテンスでの出現状況と、抽出した前記複数の単語の、前記検索クエリに含まれる前記複数のセンテンスでの出現状況との関係性を特定し、
特定した前記関係性に基づき、前記複数の文書より少なくともいずれかの文書を抽出する、
処理をコンピュータが実行することを特徴とする抽出方法。

（付記２）
複数の単語を含む検索クエリを受け付け、
受け付けた前記検索クエリから前記複数の単語を抽出し、
それぞれが１つ以上のセンテンスを含む複数の文書を記憶する記憶部を参照して、前記複数の文書に含まれる各文書について、抽出した前記複数の単語の、前記各文書に含まれるセンテンスでの出現状況と、抽出した前記複数の単語の、前記検索クエリに含まれるセンテンスでの出現状況との関係性を特定し、
特定した前記関係性に基づき、前記複数の文書の中から少なくともいずれかの文書を抽出する、
処理をコンピュータが実行することを特徴とする抽出方法。

（付記３）
前記検索クエリから抽出した前記複数の単語に基づき、前記複数の文書に対する検索を行なうことで、複数の候補文書を抽出し、
抽出した前記複数の候補文書の中から、前記特定した前記関係性に基づき前記文書を抽出する、
処理を前記コンピュータが実行することを特徴とする、付記１または２記載の抽出方法。

（付記４）
抽出した前記複数の候補文書の中から、前記検索クエリに含まれる一のセンテンスから抽出した前記複数の単語と同一の複数の単語を有するセンテンスを含む前記候補文書を前記文書として抽出する、
処理を前記コンピュータが実行することを特徴とする、付記３記載の抽出方法。

（付記５）
抽出した前記複数の候補文書の中から、前記検索クエリに含まれる単語の属性および係り受けと同一の単語の属性および係り受けを含む前記候補文書を前記文書として抽出する、
処理を前記コンピュータが実行することを特徴とする、付記３または４記載の抽出方法。

（付記６）
複数の単語を含む検索クエリを受け付ける受付部と、
受け付けた前記検索クエリから前記複数の単語を抽出する単語抽出部と、
それぞれが１つ以上のセンテンスを含む複数の文書を記憶する記憶部を参照して、前記複数の文書に含まれる各文書について、抽出した前記複数の単語の、前記各文書に含まれるセンテンスでの出現状況と、抽出した前記複数の単語の、前記検索クエリに含まれるセンテンスでの出現状況との関係性を特定する特定部と、
特定した前記関係性に基づき、前記複数の文書の中から少なくともいずれかの文書を抽出する文書抽出部と
を備えることを特徴とする、情報処理装置。

（付記７）
前記検索クエリから抽出した前記複数の単語に基づき、前記複数の文書に対する検索を行なうことで、複数の候補文書を抽出する検索部を備え、
前記文書抽出部が、
抽出した前記複数の候補文書の中から、前記特定した前記関係性に基づき前記文書を抽出する、
ことを特徴とする、付記６記載の情報処理装置。

（付記８）
前記文書抽出部が、
前記検索部が抽出した前記複数の候補文書の中から、前記検索クエリに含まれる一のセンテンスから抽出した前記複数の単語と同一の複数の単語を有するセンテンスを含む前記候補文書を前記文書として抽出する、
ことを特徴とする、付記７記載の情報処理装置。

（付記９）
前記文書抽出部が、
前記検索部が抽出した前記複数の候補文書の中から、前記検索クエリに含まれる単語の属性および係り受けと同一の単語の属性および係り受けを含む前記候補文書を前記文書として抽出する、
ことを特徴とする、付記７または８記載の情報処理装置。

（付記１０）
複数の単語を含む検索クエリを受け付け、
受け付けた前記検索クエリから前記複数の単語を抽出し、
それぞれが１つ以上のセンテンスを含む複数の文書を記憶する記憶部を参照して、前記複数の文書に含まれる各文書について、抽出した前記複数の単語の、前記各文書に含まれるセンテンスでの出現状況と、抽出した前記複数の単語の、前記検索クエリに含まれるセンテンスでの出現状況との関係性を特定し、
特定した前記関係性に基づき、前記複数の文書の中から少なくともいずれかの文書を抽出する、
処理をコンピュータに実行させることを特徴とする抽出プログラム。

（付記１１）
前記検索クエリから抽出した前記複数の単語に基づき、前記複数の文書に対する検索を行なうことで、複数の候補文書を抽出し、
抽出した前記複数の候補文書の中から、前記特定した前記関係性に基づき前記文書を抽出する、
処理を前記コンピュータに実行させることを特徴とする、付記１０記載の抽出プログラム。

（付記１２）
抽出した前記複数の候補文書の中から、前記検索クエリに含まれる一のセンテンスから抽出した前記複数の単語と同一の複数の単語を有するセンテンスを含む前記候補文書を前記文書として抽出する、
処理を前記コンピュータに実行させることを特徴とする、付記１１記載の抽出プログラム。

（付記１３）
抽出した前記複数の候補文書の中から、前記検索クエリに含まれる単語の属性および係り受けと同一の単語の属性および係り受けを含む前記候補文書を前記文書として抽出する、
処理を前記コンピュータに実行させることを特徴とする、付記１１または１２記載の抽出プログラム。

１ａ，１ｂ，１ｃ情報処理装置
１００ａ，１００ｂ，１００ｃ制御部
１１０質問文処理部
１１１受付部
１１２質問文第１処理部（単語抽出部）
１１３質問文解析部
１２０ＦＡＱ第１処理部
１２１ＦＡＱ検索部（検索部）
１３０ＦＡＱ第２処理部
１３１ＦＡＱテキスト処理部（特定部）
１３２絞込処理部（文書抽出部）
１３３ＦＡＱ解析部
２００記憶部
２１０ＦＡＱデータ群（複数の単語）
２２０ＦＡＱ検索プログラム
３０１入力部
３０２出力部
３０３通信部
１５入力インタフェース
１５ａキーボード（入力部）
１５ｂマウス（入力部）
１６光学ドライブ装置
１６ａ光ディスク
１７機器接続インタフェース
１７ａメモリ装置
１７ｂメモリリーダライタ
１７ｃメモリカード
１８ネットワークインタフェース
１９バス

Claims

複数のセンテンスを含む検索クエリを受け付け、
受け付けた前記検索クエリより複数の単語を抽出し、
それぞれが複数のセンテンスを含む複数の文書を記憶する記憶部を参照して、前記複数の文書に含まれる各文書について、抽出した前記複数の単語の、前記各文書に含まれる複数のセンテンスでの出現状況と、抽出した前記複数の単語の、前記検索クエリに含まれる前記複数のセンテンスでの出現状況との関係性を特定し、
特定した前記関係性に基づき、前記複数の文書より少なくともいずれかの文書を抽出する、
処理をコンピュータが実行することを特徴とする抽出方法。
複数の単語を含む検索クエリを受け付け、
受け付けた前記検索クエリから前記複数の単語を抽出し、
それぞれが１つ以上のセンテンスを含む複数の文書を記憶する記憶部を参照して、前記複数の文書に含まれる各文書について、抽出した前記複数の単語の、前記各文書に含まれるセンテンスでの出現状況と、抽出した前記複数の単語の、前記検索クエリに含まれるセンテンスでの出現状況との関係性を特定し、
特定した前記関係性に基づき、前記複数の文書の中から少なくともいずれかの文書を抽出する、
処理をコンピュータが実行することを特徴とする抽出方法。
前記検索クエリから抽出した前記複数の単語に基づき、前記複数の文書に対する検索を行なうことで、複数の候補文書を抽出し、
抽出した前記複数の候補文書の中から、前記特定した前記関係性に基づき前記文書を抽出する、
処理を前記コンピュータが実行することを特徴とする、請求項１または２記載の抽出方法。
抽出した前記複数の候補文書の中から、前記検索クエリに含まれる一のセンテンスから抽出した前記複数の単語と同一の複数の単語を有するセンテンスを含む前記候補文書を前記文書として抽出する、
処理を前記コンピュータが実行することを特徴とする、請求項３記載の抽出方法。
抽出した前記複数の候補文書の中から、前記検索クエリに含まれる単語の属性および係り受けと同一の単語の属性および係り受けを含む前記候補文書を前記文書として抽出する、
処理を前記コンピュータが実行することを特徴とする、請求項３または４記載の抽出方法。
複数の単語を含む検索クエリを受け付ける受付部と、
受け付けた前記検索クエリから前記複数の単語を抽出する単語抽出部と、
それぞれが１つ以上のセンテンスを含む複数の文書を記憶する記憶部を参照して、前記複数の文書に含まれる各文書について、抽出した前記複数の単語の、前記各文書に含まれるセンテンスでの出現状況と、抽出した前記複数の単語の、前記検索クエリに含まれるセンテンスでの出現状況との関係性を特定する特定部と、
特定した前記関係性に基づき、前記複数の文書の中から少なくともいずれかの文書を抽出する文書抽出部と
を備えることを特徴とする、情報処理装置。
複数の単語を含む検索クエリを受け付け、
受け付けた前記検索クエリから前記複数の単語を抽出し、
それぞれが１つ以上のセンテンスを含む複数の文書を記憶する記憶部を参照して、前記複数の文書に含まれる各文書について、抽出した前記複数の単語の、前記各文書に含まれるセンテンスでの出現状況と、抽出した前記複数の単語の、前記検索クエリに含まれるセンテンスでの出現状況との関係性を特定し、
特定した前記関係性に基づき、前記複数の文書の中から少なくともいずれかの文書を抽出する、
処理をコンピュータに実行させることを特徴とする抽出プログラム。