JP2019175203A

JP2019175203A - 学習対象抽出装置、学習対象抽出方法及び学習対象抽出プログラム

Info

Publication number: JP2019175203A
Application number: JP2018063481A
Authority: JP
Inventors: 智松澤; Satoshi Matsuzawa; 勝仁小寺; Katsuhito Kodera
Original assignee: NTT Data Intellilink Corp
Current assignee: NTT Data Intellilink Corp
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2019-10-10
Anticipated expiration: 2038-03-29
Also published as: JP7126843B2

Abstract

【課題】自然文検索を可能とする検索システムの学習対象のデータを抽出する学習対象抽出装置、方法及びプログラムに関する。【解決手段】検索可能な既知の質問を含む自然文を記憶する自然文記憶部と、検索要求のあった質問データを当該自然文と比較して、質問データを分類する自然文分類部と、既知の質問と回答とを記憶する質問回答記憶部と、質問データに基づいて自然文分類部を実行して検索結果を出力する自然文検索部と、当該検索結果から回答を抽出する回答抽出部と、キーワードデータに基づいて質問回答記憶部を検索して回答を出力する回答出力部と、回答抽出部、回答出力部が出力する出力結果から、質問データに対応する回答を抽出した抽出結果と質問データが学習対象であるか否かを判定する学習対象判定部と、抽出結果と質問データを学習対象のデータとして抽出する学習対象抽出部と、を有する。【選択図】図１

Description

本発明は、自然文検索を可能とする検索システムの学習対象のデータを抽出する学習対象抽出装置、学習対象抽出方法及び学習対象抽出プログラムに関する。

近年自然文検索を可能とする検索システムが様々な分野で利用されるようになってきている。例えば、コンタクトセンター等に導入するＦＡＱ検索システムが挙げられる。このＦＡＱ検索システム内に自然文検索を可能とする検索システム、例えば人工知能等を搭載することで、顧客からの質問文を解析して回答候補を提示する。また、オペレータからのフィードバックを人工知能等に学習させることで回答精度を高めていく仕組みである。このような検索システムの場合、大量の質の良い学習対象のデータを学習する必要がある。

特開２０１７−１５３０７８号公報

特許文献１には、インスタントメッセージング環境でメッセージングサービスを利用して質問データをユーザに送信し、質問データに対するユーザの返答を利用して人工知能を学習させることができる、人工知能学習方法及びシステムを提供する内容が開示されている。しかしながら、特許文献１では返答データを学習データとする点、フィルタリングした返答データを学習データとしてもよい点等が記載されているが、具体的にどの返答データを学習データとし、どの返答データを学習データとしないのか、学習データの切り分けについても、推奨すべき学習データの選別方法についても開示されていない。

そこで、本発明の目的は、自然文検索を可能とする検索システムに学習させるべき学習対象のデータを抽出する、学習対象抽出装置、学習対象抽出方法及び学習対象抽出プログラムを提供することにある。

本発明は、自然文検索を可能とする自然文検索システムの学習対象のデータを抽出する学習対象抽出装置であって、検索可能な既知の質問を含む自然文を記憶する自然文記憶部と、検索要求のあった質問データを前記自然文記憶部で記憶する前記自然文と比較して、前記質問データを分類する自然文分類部と、前記自然文記憶部で記憶する既知の質問と前記既知の質問への回答を対応させて記憶する質問回答記憶部と、前記質問データを検索語として前記自然文分類部を実行して前記自然文を検索して検索結果を出力する自然文検索部と、前記自然文検索部を実行して出力した前記検索結果から前記質問データに対応する前記質問回答記憶部の前記回答を抽出する回答抽出部と、前記既知の質問の検索語となるキーワードデータを検索語として前記質問回答記憶部へ前記既知の質問を検索して前記回答を出力する回答出力部と、前記回答抽出部が出力する出力結果と、回答出力部が出力する出力結果から、前記質問データに対応する回答の抽出を検知し、検知した抽出結果と、前記質問データが学習対象であるか否かを判定する学習対象判定部と、前記学習対象判定部が前記質問データを学習対象であると判定した場合に、前記抽出結果と前記質問データを学習対象のデータとして抽出する学習対象抽出部と、を有することを特徴とする。

本発明に係る学習対象抽出装置の前記自然文記憶部は、前記自然文の特徴をベクトル化した学習データと、前記ベクトル化した学習データに対応する識別子との形態で前記自然文を記憶し、前記自然文分類部は、前記質問データの特徴をベクトル化して、前記自然文記憶部で記憶する前記ベクトル化した学習データと比較し、類似度に基づいて前記質問データを分類し、前記質問回答記憶部は、前記識別子に紐づけした識別子を前記既知の質問に対応させて前記既知の質問と前記既知の質問への回答を記憶する、ことを特徴とする。

本発明は、メールサーバ及び前記学習対象抽出装置と情報の入出力を行う入出力部を有し、前記入出力部は、前記メールサーバから受信したメール本文から前記質問データを抽出する質問データ抽出部と、前記キーワードデータを抽出するキーワードデータ抽出部と、前記抽出した前記質問データを前記自然文検索部へ出力する質問データ出力部と、前記抽出した前記キーワードデータを前記回答出力部へ出力するキーワードデータ出力部と、を備えることを特徴とする。

本発明に係る学習対象抽出装置の前記学習対象判定部は、前記回答抽出部から出力した前記出力結果を対象としたものであり、更に、前記質問データに対応する前記回答を抽出した前記抽出結果の類似度が、複数の前記出力結果のうち最も高い類似度と比較して、前記最も高い類似度よりも低い場合に、前記質問データを学習対象として判定することを特徴とする。

本発明に係る学習対象抽出装置の前記学習対象判定部は、前記回答抽出部から出力した前記出力結果を対象としたものであり、更に、前記質問データに対応する前記回答を抽出した前記抽出結果の類似度が、複数の前記出力結果のうち最も高い類似度と比較して、前記最も高い類似度よりも低く、更に予め設定している閾値と比較して、前記閾値よりも低い場合に、前記質問データを学習対象として判定することを特徴とする。

本発明に係る学習対象抽出装置の前記学習対象判定部は、前記回答出力部から出力した前記出力結果を対象としたものである場合に、前記質問データを学習対象として判定することを特徴とする。

本発明に係る学習対象抽出装置の前記学習対象抽出装置は、学習対象抽出部が抽出した前記学習対象のデータを、前記自然文記憶部へ登録する登録部を有することを特徴とする。

本発明は、前記学習対象判定部が前記学習対象のデータを表示する学習対象表示部と、前記学習対象のデータから登録するデータを抽出する登録データ抽出部と、前記登録部へ登録する前記学習対象のデータの登録指示を行う登録指示部と、を有することを特徴とする。

本発明によれば、自然言語分類器や人工知能等の自然文検索を可能とする検索システムに学習させるべき学習対象のデータを抽出することが可能である。学習の必要性が高い学習対象のデータのみ抽出することで、自然言語分類器や人工知能等の自然文検索を可能とする検索システムの学習に係る機械的負荷を減らし、更に、これまで学習効果の低い学習対象のデータをも保持していたデータ容量を削減することが可能となる。

本発明によれば、組をなす質問を含む自然文と回答に対して、当該回答に対応する別の質問を学習させて質問の多様化を図ることで、質問の意図を正しく解釈できるよう自然言語分類器や人工知能等の自然文検索を可能とする検索システムを学習させていくことが可能である。

本発明によれば、質問データとキーワードデータを分けた検索を可能とすることで、自然言語分類器や人工知能等の自然文検索を可能とする検索システムで質問データからユーザの要求する回答を得られなかった場合にも、キーワードデータからユーザの要求する回答を得ることが可能となり、更に、質問データとキーワードデータを学習対象のデータとするか否かの判定要素として使用することで、より精度の高い学習対象の判定が可能となる。

本発明の基本構成に係る学習対象抽出装置の機能ブロック図である。本発明の基本構成に係る学習対象抽出装置の処理フロー図である。本発明の基本構成に係る学習対象抽出装置の自然文記憶部２１及び質問回答記憶部３に保持する情報であり、Ａは自然文記憶部２１のテーブル構成図、Ｂは質問回答記憶部３のテーブル構成図である。本発明の実施形態１に係る学習対象抽出装置の機能ブロック図である。本発明の実施形態１に係る学習対象抽出装置のメール受信からＦＡＱ検索結果表示までの処理フロー図であり、Ａは前述の一連の処理フロー図、ＢはＦＡＱ検索結果判定処理の詳細を記載した処理フロー図である。本発明の実施形態１に係る学習対象抽出装置のＦＡＱ検索結果表示からメール送信までの処理フロー図である。本発明の実施形態２に係る学習対象抽出装置の機能ブロック図である。本発明の実施形態１に係る学習対象抽出装置のお問い合わせメッセージ画面を示す図である。本発明の実施形態１に係る学習対象抽出装置のお問い合わせメッセージ画面からの質問データ抽出を示す図である。本発明の実施形態１に係る学習対象抽出装置のＦＡＱ検索返信画面を示す図である。本発明の実施形態１に係る学習対象抽出装置のＦＡＱ検索返信画面において抽出した回答をＦＡＱ挿入箇所へ表示することを示す図である。本発明の実施形態１に係る学習対象抽出装置のＦＡＱ検索返信画面においてキーワード検索を実行した際の画面を示す図である。本発明の実施形態１に係る学習対象抽出装置のＦＡＱ検索返信画面において、学習対象確認ダイアログを表示している画面を示す図である。

以下、図面を参照して、本発明による学習対象抽出装置を実施するための形態について説明する。なお、本発明は、自然文検索を可能とする検索システムの学習対象のデータを抽出する学習対象抽出装置であり、本発明に係る学習対象抽出装置の検索システムは、質問を含む自然文とその回答（応答を含む）を取り扱うシステム（Ｑ＆Ａシステム等）であればいずれのものでもよい。

以下の実施形態では、本発明の学習対象抽出装置の検索システムとして、メールで顧客からの質問（問い合わせ）や依頼を受け付けて応対するコンタクトセンターで使用するＦＡＱ検索システムを対象としており、このＦＡＱ検索システムへ本発明を適用した一例を説明する。
［基本構成］
以下、本発明の基本構成を図１乃至図３を参照して説明する。

図１において、学習対象抽出装置１は、自然文記憶部２１と、自然文分類部２２と、質問回答記憶部３と、自然文検索部４１と、回答抽出部４２と、回答出力部４３と、学習対象判定部５１と、学習対象抽出部５２を有している。

質問回答記憶部３は、通常のデータベース上に構成するものとし、自然文記憶部２１で記憶する既知の質問とその既知の質問に対応する回答を記憶する。例えば、図３のＢでは、ＦＡＱ（よくある質問とその回答）を記憶させた質問回答記憶部３の記憶形態の一例を示すテーブル構成図を示しており、図３のＢに示すように、既知の質問及び回答を一意に特定するための識別子を対応させて記憶してもよいものとする。

自然文記憶部２１は、自然言語分類器や人工知能等の学習を必要とする自然文検索が可能なシステム上に構成するものとし、検索可能な既知の質問を含む自然文を記憶する。例えば、図３のＡでは、図３のＢの質問回答記憶部３に保持するＦＡＱの既知の質問と同一の既知の質問及び識別子を対応させて保持し、更には、当該質問の言い換え表現や、同一の回答となる多様化した質問等の情報を保持する自然文記憶部２１の記憶形態の一例を示すテーブル構成図を示している。

自然文分類部２２は、自然文記憶部２１と同一の自然言語分類器や人工知能等の学習を必要とする自然文検索が可能なシステム上に構成するものであり、検索要求のあった質問データを自然文記憶部２１で記憶する自然文と比較して、当該質問データを分類するものである。

図１では、自然文記憶部２１と、自然文分類部２２とを自然言語分類器や人工知能等から構成される自然言語処理部２上に構成するものとして記載しているが、この構成に限定するものではない。また、明細書中、質問回答記憶部３は、通常のデータベース上に構成するものとして説明するが、自然文記憶部２１及び自然文分類部２２と同様に自然言語処理部２上に構成してもよく、この構成に限定するものではない。

自然文検索部４１は、質問データを検索語として自然文分類部２２を実行して検索可能な既知の質問を含む自然文を検索して検索結果を出力する。自然文分類部２２は、検索要求のあった質問データを自然文記憶部２１で記憶する自然文と比較して、質問データを分類する。回答抽出部４２は、自然文検索部４１を実行して出力した検索結果から質問データに対応する質問回答記憶部３の回答を抽出する。

具体的には、質問データに基づいて自然文検索部４１が自然文分類部２２を実行して、識別子を含む検索結果及び類似度を出力し、回答抽出部４２は、自然文検索部４１が出力する識別子に基づいて質問回答記憶部３から回答を抽出する。

回答出力部４３は、質問回答記憶部３に記憶する既知の質問の検索語となるキーワードデータに基づいて質問回答記憶部３から回答を出力する。

学習対象判定部５１は、回答抽出部４２が出力する出力結果と、回答出力部４３が出力する出力結果から、質問データに対応する回答の抽出を検知し、検知した抽出結果と、前記質問データが学習対象であるか否かを判定し、学習対象抽出部５２は、学習対象判定部５１が質問データを学習対象であると判定した場合に、抽出結果と質問データを学習対象のデータとして抽出する。具体的には、学習対象判定部５１は、回答抽出部４２又は回答出力部４３からの出力を受けて、出力結果に含まれる回答の抽出を検知して、検知した抽出結果の類似度を判定し、学習対象であるか否かの判定を行い、学習対象抽出部５２が、学習対象判定部５１が当該質問データを学習対象として判定したものを、当該抽出結果と当該質問データを学習対象のデータとして抽出する。

明細書中における質問データとは、自然文検索部４１が自然文分類部２２を実行して自然文記憶部２１を検索する際に用いる検索語であり、顧客から受け付けるメール内容から、質問文のみ検索対象として抽出したデータのことを指す。例えば、「タイヤがパンクしました。ご回答よろしくお願いします。」という内容のメールを受信した場合、質問文は「タイヤがパンクしました。」の箇所であり、これを質問データとする。

また、明細書中において、類似度とは、自然文検索部４１が自然文分類部２２を実行して質問データを自然文記憶部２１で記憶する検索可能な既知の質問を含む自然文と比較して当該質問データを分類する際に出力するものであり、その質問データと検索可能な既知の質問を含む自然文との要素の一致が多いほど、類似度は高い値を示し、正解に対する可能性の高さを示すものである。また、一般的に類似度は確信度やスコアとも呼ばれ、自然言語分類器や人工知能等のメーカーによりその表現方法は様々であるが、明細書中では、類似度と統一して記載する。

また、明細書中において、キーワードデータとは、回答出力部４３が質問回答記憶部３を検索する際に用いる検索語であり、上述の質問データを言い換え表現等を用いたデータのことを指す。例えば、既知の質問の検索語となる「タイヤがバーストしました。」という質問データを用いて自然文検索部４１を実行して検索を行うが、ユーザの要求する回答を出力しない場合に、質問データから「タイヤ」及び「バースト」を抽出してキーワードデータを生成する。もしくは、質問データからの抽出単語だけでなく、「バースト」の言い換え表現として「パンク」を用いて、「タイヤ」及び「パンク」という単語をキーワードデータとして生成してもよい。回答出力部４３は、生成したキーワードデータ「タイヤ」及び「バースト」や、「タイヤ」及び「パンク」を検索語として、質問回答記憶部３へ全文検索を実行する。なお、本発明の学習対象抽出装置の検索システムとして、メールで顧客からの質問（問い合わせ）や依頼を受け付けて応対するコンタクトセンターで使用するＦＡＱ検索システムを対象としており、このＦＡＱ検索システムへ本発明を適用した一例を基本構成及び実施形態で説明しているため、ここで記載するユーザとは、コンタクトセンターで業務を行うオペレータに該当する。

また、明細書中において、出力結果とは、回答抽出部４２が抽出した回答と自然文検索部４１の検索結果を出力する出力結果と、回答出力部４３が回答を出力する出力結果のことを示す。そして、抽出結果とは、当該出力結果から質問データに対応する回答として学習対象判定部５１が検出して抽出した回答を抽出結果とする。なお、出力結果に含まれる情報から回答を抽出するため、抽出結果にも出力結果に含まれる情報を含むことが可能である。

また、明細書中において、検索可能な既知の質問を含む自然文とは、自然文記憶部２１で記憶し、質問回答記憶部３に記憶する既知の質問の言い換え表現等の自然文から構成される。例えば、図３のＡに示す通り、いずれも同一の回答を有する自然文には同一の識別子を対応させて記憶し、質問を含む自然文のバリエーションを増やすことで、多様な質問データに対して、ユーザの要求する回答の出力率を向上させることが可能となる。

また、明細書中において、既知の質問とは、自然文記憶部２１に記憶する多様な質問を含む自然文のうち、質問回答記憶部３に回答と対応させて記憶するものである。従って、本実施形態に示す通り、本発明をＦＡＱ検索システムへ適用した場合には、質問回答記憶部３に記憶する「既知の質問とその回答」を、「よくある質問とその回答」として記憶する。明細書中における「質問」には問い合わせ、依頼、要求等が含まれる。

また、本実施形態において、質問回答記憶部３は、通常のデータベース上に構成するものとしているため、質問回答記憶部３に記憶する既知の質問とその回答に保存するのは自然文のテキストデータに限らず、パスやファイル等、通常のデータベース上に保存可能な媒体であれば、いずれを記憶してもよいものとする。

図１では、自然文検索部４１と、回答抽出部４２と、回答出力部４３と、学習対象判定部５１と、学習対象抽出部５２をＡＰＩ（アプリケーションプログラミングインタフェース）サーバ４上に構成するものとして記載しているが、図４に示すように学習対象判定部５１及び学習対象抽出部５２を端末５上に構成するものとしてもよい。

以上の説明では、本発明をハードウェアの学習対象抽出装置として構築したが、本発明はコンピュータ（ＣＰＵ）でメモリに記憶されたアプリケーションを実行することにより、ソフトウェア上に上述した自然文記憶部２１と、自然文分類部２２と、質問回答記憶部３と、自然文検索部４１と、回答抽出部４２と、回答出力部４３と、学習対象判定部５１と、学習対象抽出部５２をアプリケーション上に構築するためのソフトウェアのプログラムとして構築してもよいものである。

次に、図２を参照して、本発明の基本動作を説明する。図２のステップＳ１乃至ステップＳ１０は、メールで受け付けた問い合わせを検索し、ユーザの要求する結果を検索システムが出力しなかった場合に、当該問い合わせ内容を学習対象のデータとして抽出する動作を説明したものである。

コンタクトセンターは顧客からのメールでの問い合わせを受け付けて、自然文検索部４１はメール内容から検索対象として抽出した質問データに基づいて自然文分類部２２を実行する。自然文分類部２２は当該質問データを自然文記憶部２１の記憶している質問を含む自然文と比較して、当該質問データを分類し、自然文検索部４１は質問データを検索語として自然文分類部２２を実行して自然文を検索して検索結果を出力する（図２のステップＳ１）。回答抽出部４２は自然文検索部４１を実行して出力した検索結果から質問データに対応する質問回答記憶部３の回答を抽出する。自然文検索部４１が出力する検索結果が複数存在する場合には、検索結果に対応して回答抽出部４２は複数回質問回答記憶部３から回答を抽出する。そして、回答抽出部４２は回答及び類似度を含む出力結果を出力する（図２のステップＳ２）。

自然文検索部４１及び回答抽出部４２の図２のステップＳ１及びステップＳ２の動作の一例を、図３を参照して以下に説明する。自然文検索部４１は質問データ「タイヤがパンクしました。」に基づいて自然文分類部２２を実行し、質問データ「タイヤがパンクしました。」を自然文記憶部２１で記憶する自然文と比較して分類し、自然文記憶部２１へ質問を含む自然文の検索を行う。自然文分類部２２は、当該分類の際に、類似度をも出力する。

自然文検索部４１は、自然文記憶部２１から図３のＡに図示する４行に含まれる「３１」及び「３４」の識別子及び類似度を検索結果として出力する。次に、回答抽出部４２は、自然文検索部４１が出力した検索結果に含まれる識別子「３１」及び「３４」を検索語として、図３のＢに図示する質問回答記憶部３の識別子に基づいて、識別子「３１」の回答「修理店にご連絡ください」及び識別子「３４」の回答「ホイールのエアバルブから空気を抜いてください。」を出力する。更に、回答抽出部４２は、少なくとも識別子「３１」、回答「修理店にご連絡ください」及び類似度を紐付けたデータ、及び、識別子「３４」、回答「ホイールのエアバルブから空気を抜いてください。」及び類似度が紐付けられたデータを出力結果として出力する。

なお、図２のステップＳ１乃至ステップＳ２の記載及び図３は、いずれも説明上の記載であり、自然文記憶部２１及び質問回答記憶部３への記憶形態は、自然文記憶部２１及び質問回答記憶部３を構成する各機器の仕様に従うものとする。

例えば、自然文記憶部２１及び自然文分類部２２を構成する上で、ベクトル化して記憶する必要がある場合には、自然文分類部２２は、質問データ「タイヤがパンクしました。」の特徴をベクトル化して、自然文記憶部２１で記憶するベクトル化した質問を含む自然文と比較し、類似度に基づいて当該質問データを分類する。

学習対象判定部５１は、回答抽出部４２が出力する出力結果から、質問データに対応する回答の抽出を検知し、検知した抽出結果の類似度を判定する。なお、学習対象判定部５１が取り扱う「質問データに対応する回答」をユーザの要求する回答として取り扱うものとする。

学習対象判定部５１が、出力結果中、質問データに対応する回答として最も高い類似度の回答の抽出を検知した場合（図２のステップＳ３類似度上位１位を抽出）、学習対象判定部５１は抽出結果を学習対象でないと判定して処理を終了する（図２のステップＳ７）。

学習対象判定部５１による類似度の判定過程において、学習対象判定部５１が最も高い類似度の回答以外の回答の抽出を検知した場合（図２のステップＳ３類似度上位１位以外を抽出）、オプションの有無を確認する（図２のステップＳ４）。

オプションとは、最も高い類似度の回答以外の回答の抽出を検知した場合（図２のステップＳ３類似度上位１位以外を抽出）、最も高い類似度の回答以外の回答すべてを学習対象とするか否か、選択を可能とする機能のことを指す。

オプションが無い場合（図２のステップＳ４オプション無）、学習対象判定部５１は、出力結果中、質問データに対応する回答として最も高い類似度の回答以外の回答のいずれの抽出を検知しても、抽出結果を学習対象であると判定し、学習対象抽出部５２を実行する。学習対象抽出部５２は、学習対象判定部５１の判定結果に基づいて、学習対象のデータとして検索に使用した質問データ及び抽出結果を抽出し（図２のステップＳ６）、処理を終了する（図２のステップＳ７）。なお、図３のＡ及びＢに示す記憶形態を実施する場合には、学習対象抽出部５２が抽出する学習対象のデータの抽出結果には、識別子が含まれる。

なお、学習対象判定部５１は、回答抽出部４２から出力した出力結果から、質問データに対応する回答として抽出した抽出結果の類似度が、複数の出力結果のうち最も高い類似度と比較して、最も高い類似度よりも低い場合に、質問データを学習対象として判定するが、この判定処理フローは上述の図２のステップＳ２、ステップＳ３、ステップＳ４及びステップＳ６に記載する処理フローがこれに該当する。

オプションが有る場合（図２のステップＳ４オプション有）、学習対象判定部５１は学習対象判定用の類似度と閾値とを比較する（図２のステップＳ５）。

学習対象判定用の閾値とは、類似度と比較して使用するものであり、学習対象であるか否かの境界値として用いる値である。従って、本発明を実施する際に予め設定しておくべき値である。

学習対象判定部５１は学習対象判定用の類似度と閾値とを比較し、抽出結果の類似度よりも学習対象判定用の閾値が高い場合に（図２のステップＳ５閾値≧類似度）、学習対象判定部５１は学習対象であると判定し、学習対象抽出部５２を実行する。学習対象抽出部５２は、学習対象判定部５１の判定結果に基づいて、学習対象のデータとして検索に使用した質問データ及び抽出結果を抽出し（図２のステップＳ６）、処理を終了する（図２のステップＳ７）。

なお、学習対象判定部５１は、回答抽出部４２から出力した出力結果から、質問データに対応する回答として抽出した抽出結果の類似度が、複数の前記出力結果のうち最も高い類似度と比較して、最も高い類似度よりも低く、更に予め設定している閾値と比較して、閾値よりも低い場合に、質問データを学習対象として判定するが、この判定処理フローは上述の図２のステップＳ２、ステップＳ３、ステップＳ４、ステップＳ５及びステップＳ６に記載する処理フローがこれに該当する。

学習対象判定部５１は学習対象判定用の閾値と類似度を比較し、類似度よりも学習対象判定用の閾値が低い場合に（図２のステップＳ５閾値<類似度）、学習対象判定部５１は学習対象でないと判定して処理を終了する（図２のステップＳ７）。

回答抽出部４２が図２のステップＳ２で出力した出力結果中、学習対象判定部５１が質問データに対応する回答の抽出を検知しない場合（図２のステップＳ３抽出しない）、回答出力部４３は既知の質問の検索語となるキーワードデータを検索語として、質問回答記憶部３へ既知の質問の検索を行う（図２のステップＳ８）。回答出力部４３は、回答を含む出力結果を出力する（図２のステップＳ９）。回答出力部４３が出力した出力結果から学習対象判定部５１が質問データに対応する回答の抽出を検知した場合（図２のステップＳ１０出力結果から抽出）、学習対象判定部５１は抽出結果を学習対象であると判定し、学習対象抽出部５２を実行する。学習対象抽出部５２は、学習対象判定部５１の判定結果に基づいて、学習対象のデータとして質問データ及び抽出結果を抽出し（図２のステップＳ６）、処理を終了する（図２のステップＳ７）。

なお、学習対象判定部５１は、回答出力部４３から出力した出力結果から、質問データを学習対象として判定するが、この判定処理フローは上述の図２のステップＳ２、ステップＳ３、ステップＳ８、ステップＳ９、ステップＳ１０及びステップＳ６に記載する処理フローがこれに該当する。

回答出力部４３が図２のステップＳ９で出力した出力結果から学習対象判定部５１が質問データに対応する回答の抽出を検知しない場合（図２のステップＳ１０出力結果から抽出しない）、学習対象判定部５１は抽出結果を学習対象でないと判定して処理を終了する（図２のステップＳ７）。

本発明によれば、図２のステップＳ２で回答抽出部４２が出力した出力結果中、最も高い類似度の回答と比較して、質問データに対応する回答として類似度が低い回答の抽出を検知した場合に、学習対象判定部５１は抽出結果を学習対象として判定する。そして、学習対象抽出部５２は、学習対象判定部５１が学習対象として判定した抽出結果と質問データの組み合わせを学習対象のデータとして抽出することが可能となる。

更に、本発明によれば、回答抽出部４２が図２のステップＳ２で出力した出力結果中、最も高い類似度の回答と比較して、質問データに対応する回答として類似度が低い回答の抽出を学習対象判定部５１が検知した場合でも、オプションによって予め設定した学習対象判定用の閾値を使用して、更に学習対象を絞り込むことが可能となる。これは、当該類似度が学習対象判定用の閾値よりも高い回答を抽出した場合には、自然文分類部２２が質問の意図を正しく解釈できているものとして学習対象のデータとして抽出せず、当該類似度が学習対象判定用の閾値よりも低い回答のみを学習効果の高いデータとして抽出するためである。

例えば、回答抽出部４２が図２のステップＳ２で出力する出力結果で、学習対象判定用の閾値を「０．６５」とし、類似度が「０．９１」、「０．８８」、「０．５５」の３つがある場合、学習対象判定部５１が類似度「０．８８」の回答の抽出を検知したとしても、類似度「０．８８」と学習対象判定用の閾値「０．６５」を比較し、類似度が学習対象判定用の閾値よりも高いため、学習対象として判定しない。最も高い類似度「０．９１」よりは類似度「０．８８」は低いが、学習対象判定用の閾値「０．６５」よりも高く、自然文分類部２２は質問の意図を正しく解釈できていると考えられる。このような場合に、類似度「０．８８」の回答を学習対象のデータとして自然文記憶部２１へ学習させても学習効果は低いものと考えられる。

それに対して、学習対象判定部５１が類似度「０．５５」の回答の抽出を検知した場合には、類似度「０．５５」と学習対象判定用の閾値「０．６５」を比較し、類似度が学習対象判定用の閾値よりも低いため、学習対象として判定する。これは、ユーザの要求する結果であるにも関わらず、自然文分類部２２が質問の意図を正しく解釈できていないために低い類似度で出力していると考えられる。このような場合に、類似度「０．５５」の回答を学習対象のデータとして自然文記憶部２１へ学習させることで高い学習効果を得ることが可能となる。

更に、本発明によれば、図２のステップＳ８において、回答抽出部４２が図２のステップＳ２で出力した出力結果中、学習対象判定部５１が質問データに対応する回答の抽出を検知しない場合に、回答出力部４３は既知の質問を検索する検索語となるキーワードデータを検索語として抽出し、質問回答記憶部３へ質問の検索を行う。これにより、質問データを検索語とした自然文検索によって質問データに対応する回答を得られなかった場合等に、当該キーワードデータに基づいて回答出力部４３が質問回答記憶部３を直接検索してユーザの要求する結果を出力することが可能となる。

図２のステップＳ１０の「出力結果から抽出」に示すように、キーワードデータの検索によって質問データに対応する回答の抽出を検知した場合には、自然文記憶部２１に該当する既知の質問を含む自然文を記憶しているにも関わらず、自然文分類部２２が質問データの意図を正しく解釈できていないものと考えられる。従って、抽出結果と当該質問データの組み合わせを学習対象のデータとして抽出する。

なお、図２のステップＳ１０で「出力結果から抽出しない」場合には、自然文記憶部２１及び質問回答記憶部３に該当する既知の質問を記憶していないものと取り扱う。従って、学習対象判定部５１は図２のステップＳ７に示す通り、処理を終了する。

本発明は、予め質問回答記憶部３に記憶する組をなす既知の質問を含む自然文と当該既知の質問に対応する回答に対して、当該回答に対応する別の質問を多様化させるための学習対象のデータの抽出装置である。従って、前述の図２のステップＳ１０で「出力結果から抽出しない」場合、本発明の基本動作においては図２のステップＳ７に示す通り処理を終了するものとしたが、本発明を実施する形態においては、例えば、管理者画面等により、質問回答記憶部３へ組をなす質問と回答を新規で登録する機能を設けてもよく、本発明の実施の態様は、図２に記載の動作に制限するものではない。

上述の通り、本発明は学習効果の高いデータを抽出することが可能であり、自然言語分類器や人工知能等の自然文検索を可能とする検索システムに抽出した学習効果の高いデータのみを学習させることで、学習に係る機械的負荷を減らし、更に、これまで学習効果の低いデータをも保持していたデータ容量を削減することが可能となる。

学習効果とは、本発明により抽出した学習対象のデータを自然文記憶部２１へ学習させることで、自然文分類部２２の分類と検索の精度が向上し、次回以降、同様の質問データが発生した際に、より高い精度でユーザの要求する結果を出力することが可能となる。例えば、回答抽出部４２が出力した出力結果中、最も高い類似度の回答と比較して、類似度の低い回答、例えば類似度０．５１の回答を学習対象抽出部５２が学習対象のデータとして抽出し、自然文記憶部２１へ学習させた場合に、学習後に再度同一の質問データに基づく出力結果は前回類似度（０．５１）よりも高い類似度として出力することが可能となる。

更に、回答出力部４３が出力した出力結果から、学習対象判定部５１が回答を抽出した場合に、自然文分類部２２が分類できなかった質問データをも質問回答記憶部３で記憶する「既知の質問とその回答」へ新たに紐付けて学習対象のデータとして抽出することが可能となる。

要するに、質問データとキーワードデータを分けた検索を可能とすることで、学習対象判定部５１が抽出を検知した回答が、質問データに基づいた出力結果なのか、キーワードデータに基づいた出力結果なのかを判別して、学習対象の判定処理を分岐させることで、数段階にわたった学習対象とするか否かの判定が可能となる。この学習対象の判定処理の分岐によって学習対象の判定は更に厳選され、学習の必要の高い学習対象のデータを抽出することが可能となる。

このように、自然文記憶部２１及び質問回答記憶部３に予め記憶している既知の質問を含む自然文に対し、学習対象抽出部５２が同一の回答を有する質問データを学習対象のデータとして抽出し、学習対象判定部５１が学習対象として判定した学習対象のみを、自然文記憶部２１へ繰り返し学習させることで、自然文分類部２２及び自然文記憶部２１への分類と検索の精度を継続的に向上させることが可能となる。
［実施形態１］
基本構成では、学習対象抽出装置１が自然文記憶部２１と、自然文分類部２２と、質問回答記憶部３と、自然文検索部４１と、回答抽出部４２と、回答出力部４３と、学習対象判定部５１と、学習対象抽出部５２を有する構成とし、学習対象のデータの抽出までの基本的な構成及び動作の説明をしたが、実施形態１では、本発明の学習対象抽出装置の検索システムとして、メールで顧客からの質問（問い合わせ）や依頼を受け付けて応対するコンタクトセンターで使用するＦＡＱ検索システムへ本発明を適用し、抽出した学習対象のデータを登録するまでの処理を実施するための形態の一例を説明する。図４に示すようにユーザが使用する端末５と、ＦＡＱ検索サーバ６と、通信網７から成る構成とし、以下、本発明の実施形態１を図３乃至図６及び図８乃至図１３を参照して説明する。

図４において、学習対象抽出装置１は、複数のユーザがそれぞれ所持する端末５と、ＦＡＱ検索に係る種々の処理を行うＦＡＱ検索サーバ６と、端末５とＦＡＱ検索サーバ６とを接続する通信網７を有している。

通信網７は、インターネット（ＴｈｅＩｎｔｅｒｎｅｔ）、公衆交換電話網（ＰＳＴＮ）、携帯電話網、ＩＰ電話網、閉域網、無線ＬＡＮ（ＷｉＦｉ）等であり、ネットワークその他の通信網として機能するものであればよい。

端末５は、スマートフォン、携帯電話、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、タブレット等であり、本発明の機能を実施できるものであればよい。実施形態１では、端末５は、学習対象判定部５１と、学習対象抽出部５２と、入出力部５３と、質問データ抽出部５３１と、キーワードデータ抽出部５３２と、質問データ出力部５３３と、キーワードデータ出力部５３４を有する構成とする。

ＦＡＱ検索サーバ６は、実施形態１におけるＦＡＱ検索（自然文検索）に係る処理を実行するサーバのことを指し、ＡＰＩを搭載するＡＰＩサーバ４と、自然言語分類器や人工知能等から構成される自然言語処理部２と通常のデータベースから構成される質問回答記憶部３から構成される。

そして、ＡＰＩサーバ４は、自然文検索部４１と、回答抽出部４２と、回答出力部４３と、登録部４４から構成され、自然言語処理部２は、自然文記憶部２１と、自然文分類部２２から構成される。

実施形態１において、基本構成の機能に加えて、自然文記憶部２１は、検索可能な既知の質問を含む自然文の特徴をベクトル化した学習データと、ベクトル化した学習データに対応する識別子との形態で当該自然文を記憶する。自然文分類部２２は、質問データの特徴をベクトル化して、自然文記憶部２１で記憶するベクトル化した学習データと比較し、類似度に基づいて質問データを分類する。更に、質問回答記憶部３は、自然文記憶部２１の識別子に紐づけした識別子を既知の質問に対応させて前記既知の質問と既知の質問への回答を記憶する。

次に、本発明の実施形態１の動作を説明する。

コンタクトセンターで顧客からのメールでの問い合わせを受信し（図５のＡのステップＳ２１）、入出力部５３は端末５へ図８に示すお問い合わせメッセージ画面１００を表示する。質問データ抽出部５３１はお問い合わせメッセージ画面１００に表示するメール内容フォーム１０１から質問データを抽出する（図５のＡのステップＳ２２）。質問データ抽出部５３１は、図９に示すコンテキストメニュー１０２の「ＦＡＱ検索・返信」を抽出すると、抽出した質問データを端末５のメモリ上に保存し（図５のＡのステップＳ２３）、質問データ出力部５３３は、メモリ上に保存した質問データを、通信網７を介して、自然文検索部４１へ送信する。

自然文検索部４１は、自然文分類部２２を実行し、自然文分類部２２は質問データの特徴をベクトル化して自然文記憶部２１で記憶するベクトル化した既知の質問を含む自然文（学習データ）と比較し、類似度に基づいて当該質問データを分類し、ＦＡＱ検索を実行する（図５のＡのステップＳ２４）。自然文検索部４１は識別子及び類似度を含む検索結果を出力する。回答抽出部４２は、自然文検索部４１を実行して出力した検索結果に含まれる識別子に基づいて質問データに対応する回答を質問回答記憶部３から抽出する。自然文検索部４１の出力した識別子が複数存在する場合には、識別子の回数分回答を抽出する。

回答抽出部４２は自然文検索部４１を実行して出力した識別子及び類似度を含む検索結果と、検索結果の識別子から抽出した回答を出力結果として出力し、通信網７を介して、入出力部５３へ送信する。入出力部５３は、出力結果をＦＡＱ検索結果として受信し（図５のＡのステップＳ２５）、ＦＡＱ検索結果判定処理を実行する（図５のＡのステップＳ２６）。

ＦＡＱ検索結果判定処理とは、基本動作に記載した学習対象判定用の閾値とは別に、表示用の閾値を設け、ＦＡＱ検索結果に含まれる類似度と表示用の閾値を比較して、表示用の閾値よりも類似度が高い出力結果のみを表示させる判定を行う処理である。

ＦＡＱ検索結果判定処理の動作を図５のＢを参照して、以下に説明する。入出力部５３がＦＡＱ検索結果を受信すると（図５のＡ及び図５のＢのステップＳ２５）、ＦＡＱ検索結果に含まれる類似度を表示用の閾値と比較し、類似度が表示用の閾値よりも高い場合（図５のＢのステップＳ２６１類似度≧表示用閾値）、入出力部５３はＦＡＱ検索結果を出力する（図５のＢのステップＳ２６２）。

ＦＡＱ検索結果に含まれる類似度を表示用の閾値と比較し、類似度が表示用の閾値よりも低い場合（図５のＢのステップＳ２６１類似度<表示用閾値）、入出力部５３はＦＡＱ検索結果を出力しない（図５のＢのステップＳ２６３）。

前述のＦＡＱ検索結果判定処理（図５のＢのステップＳ２５乃至Ｓ２６３）を、入出力部５３が受信したＦＡＱ検索結果の件数分処理を繰り返す。

入出力部５３は、ＦＡＱ検索結果判定処理の結果を受けて、出力したＦＡＱ検索結果を図１０に示すＦＡＱ検索返信画面１１０の検索結果表示フォーム１１６へ表示する（図５のＡのステップＳ２７）。ＦＡＱ検索結果に含まれる回答を検索結果表示フォーム１１６の回答１１７、ＦＡＱ検索結果に含まれる類似度を検索結果表示フォーム１１６の類似度１１８へ表示する。なお、この時に出力可能なＦＡＱ検索結果が存在しない場合には、「検索結果：０件」等、適宜表示する。

なお、ＦＡＱ検索結果判定処理及びＦＡＱ検索結果表示（図５のステップＳ２６乃至ステップＳ２７）を入出力部５３の処理として説明したが、回答抽出部４２で実行し、表示するものとして判定されたＦＡＱ検索結果のみを入出力部５３へ送信する構成としてもよく、順序や実施の構成はこれに限定するものではない。

検索結果表示フォーム１１６に表示するＦＡＱ検索結果中、学習対象判定部５１が質問データに対応する回答として最も高い類似度の回答の抽出を検知した場合（図６のステップＳ２８類似度上位１位を採用）、入出力部５３は図１１に示すＦＡＱ検索返信画面１１０のＦＡＱ挿入箇所１１９へ抽出した回答を表示し（図６のステップＳ２９）、学習対象判定部５１は抽出結果を学習対象でないと判定して、入出力部５３はメールを送信する（図６のステップＳ３０）。なお、抽出結果には、抽出した回答に紐付くＦＡＱ検索結果として出力した識別子及び類似度を少なくとも含む。

検索結果表示フォーム１１６に表示するＦＡＱ検索結果中、学習対象判定部５１が質問データに対応する回答として最も高い類似度以外の回答の抽出を検知した場合（図６のステップＳ２８類似度上位１位以外を採用）、図６のステップＳ２９と同様に、入出力部５３は、図１１に示すＦＡＱ検索返信画面１１０のＦＡＱ挿入箇所１１９へ抽出した回答を表示し（図６のステップＳ３１）、学習対象判定部５１は抽出結果の類似度を学習対象判定用の閾値と比較する（図６のステップＳ３２）。

学習対象判定用の閾値は基本構成に記載の通り、本発明を実施する際に予め設定しておくべき値である。

学習対象判定部５１は抽出結果の類似度を学習対象判定用の閾値と比較し、抽出結果の類似度よりも学習対象判定用の閾値が高い場合に（図６のステップＳ３２類似度≧学習対象閾値）、学習対象判定部５１は抽出結果を学習対象でないと判定して、入出力部５３はメールを送信する（図６のステップＳ３０）。

学習対象判定部５１は抽出結果の類似度を学習対象判定用の閾値と比較し、抽出結果の類似度よりも学習対象判定用の閾値が低い場合に（図６のステップＳ３２類似度<学習対象閾値）、学習対象判定部５１は抽出結果を学習対象であると判定し、学習対象抽出部５２を実行する。学習対象抽出部５２は、学習対象判定部５１の判定結果に基づいて、検索に使用した質問データ及び抽出結果の識別子を学習対象のデータとして抽出し、自動採用フラグの有無の確認を実行する（図６のステップＳ３３）。

自動採用フラグとは、学習対象抽出部５２が抽出した学習対象のデータを自動で採用して自然文記憶部２１へ学習させるか否かを選択するフラグのことを指す。自動で採用しない場合には、本発明を実施する際に予め設定しておく必要がある。

自動採用フラグが有の場合（図６のステップＳ３３フラグ有）、学習対象抽出部５２は抽出した学習対象のデータを通信網７を介して、登録部４４へ抽出した学習対象のデータを送信する。登録部４４は、学習対象のデータを自然文記憶部２１へ登録する（図６のステップＳ３５）。

自動採用フラグが無の場合（図６のステップＳ３３フラグ無）、学習対象抽出部５２は、ＦＡＱ検索返信画面１１０上に学習対象確認ダイアログ１２０を表示する。学習対象抽出部５２が図１３に示す学習対象確認ダイアログ１２０より「はい」を抽出した場合（図６のステップＳ３４採用する）、学習対象抽出部５２は抽出した学習対象のデータを通信網７を介して、登録部４４へ抽出した学習対象のデータを送信する。登録部４４は、学習対象のデータを自然文記憶部２１へ登録する（図６のステップＳ３５）。

学習対象抽出部５２が図１３に示す学習対象確認ダイアログ１２０より「いいえ」を抽出した場合（図６のステップＳ３４採用しない）、学習対象抽出部５２は処理を終了し、入出力部５３はメールを送信する（図６のステップＳ３６）。

検索結果表示フォーム１１６に表示するＦＡＱ検索結果中、学習対象判定部５１が回答の抽出を検知しない場合（図６のステップＳ２８不採用）、キーワードデータ抽出部５３２がキーワードデータを抽出し、キーワードデータ出力部５３４は、通信網７を介して回答出力部４３へキーワードデータを送信する。

なお、図６のステップＳ３７以下の動作を以下に説明するが、図５のステップＳ２１乃至ステップＳ２７の処理を開始せずに、図６のステップＳ３７の処理から開始してもよいものとする。要するに、質問データの検索の有無に関わらず、キーワードデータの検索を行ってもよい。

回答出力部４３は抽出したキーワードデータを検索語として、質問回答記憶部３へ既知の質問の検索を行う（図６のステップＳ３７）。回答出力部４３は、回答を含む出力結果をキーワード検索結果として出力し、通信網７を介して入出力部５３へキーワード検索結果を送信する。入出力部５３は、図１２に示すＦＡＱ検索返信画面１１０の検索結果表示フォーム１１６へキーワード検索結果を表示する。キーワード検索結果に含まれる回答を検索結果表示フォーム１１６の回答１１７へ表示する。なお、キーワード検索では、類似度が出力されないため、検索結果表示フォーム１１６の類似度１１８はハイフン等の表示や非表示にて対応する。

検索結果表示フォーム１１６に表示するキーワード検索結果中、学習対象判定部５１が回答の抽出を検知した場合（図６のステップＳ３８抽出する）、学習対象判定部５１は抽出結果を学習対象であると判定し、学習対象抽出部５２を実行する。学習対象抽出部５２は、学習対象判定部５１の判定結果に基づいて、学習対象のデータとして質問データ及び抽出結果の識別子を抽出し、自動採用フラグの確認を実行する（図６のステップＳ３３）。図６のステップＳ３３乃至Ｓ３６の動作については、上述の通りである。

検索結果表示フォーム１１６に表示するキーワード検索結果中、学習対象判定部５１が回答の抽出を検知しない場合（図６のステップＳ３８抽出しない）、学習対象判定部５１は学習対象でないと判定して、ＦＡＱ検索返信画面１１０のＦＡＱ挿入箇所１１９へ適切な回答を作成してメールを編集する（図６のステップＳ３９）。入出力部５３は編集が完了したメールを送信する（図６のステップＳ４０）。

なお、実施形態１に記載する図１０に示すＦＡＱ検索返信画面１１０の画面の項目を以下に説明する。検索する値を入力させる検索テキストボックス１１２を画面右上に設けており、質問データ抽出部５３１が抽出する質問データ及びキーワードデータ抽出部５３２が抽出するキーワードデータを入力させるテキストボックスとして構成する。

検索テキストボックス１１２への入力は、いずれの方法であってもよいが、例えば、質問データの場合には、端末５の入出力部５３が、ＦＡＱ検索返信画面１１０を表示して、図５のＡのステップＳ２７のＦＡＱ検索結果を検索結果表示フォーム１１６へ表示し、図５のＡのステップＳ２３でアドインのメモリ上に保存した質問データを返信内容フォーム１１１へ表示する際に、前述の質問データを、検索テキストボックス１１２へ表示させてもよい。

なお、実施形態１では、検索テキストボックス１１２の入力値は、質問データキーワードデータ選択ラジオボタン１１４により、質問データとキーワードデータの切り替えを行うものとして取り扱う。

検索ボタン１１３は、ＦＡＱ検索返信画面１１０の表示後に、検索テキストボックス１１２から、質問データ、又はキーワードデータに基づいて検索実行をするボタンである。

対象カテゴリプルダウン１１５は、自然文記憶部２１及び質問回答記憶部３への検索を行う際に、質問の範囲の絞り込みを行う機能としてＦＡＱ検索返信画面１１０上に設けているが、本発明とは直接関連しないためここでは省略する。

なお、図１０に示すＦＡＱ検索返信画面１１０の構成及びその他の構成は、一例であり、これに限定するものではない。

実施形態１によれば、図５のステップＳ２６に記載のＦＡＱ検索結果判定処理を行うことで、表示用の閾値よりも類似度の低いＦＡＱ検索結果を端末５に表示しないことで、ユーザの要求する結果である可能性が低いデータを表示させないことが可能である。本発明により、学習対象抽出部５２が抽出する学習効果の高いデータのみを自然文記憶部２１へ学習させることで、自然文記憶部２１への検索及び分類の精度が向上した後に、表示用の閾値を用いてＦＡＱ検索結果判定処理を行うと更に有効である。また、本発明の使用前の精度の低い自然言語処理部２においては、ＦＡＱ検索結果判定処理を行わない、又は表示用の閾値を低く設けて、多くのＦＡＱ検索結果を表示して、学習対象のデータを抽出し、繰り返し学習させ、精度が向上した後に、表示用の閾値を引き上げていくことも可能である。このように、学習対象用の閾値だけでなく、表示用の閾値によっても学習対象の抽出は変動するため、自然言語処理部２の精度に応じた対応が可能となる。

実施形態１によれば、類似度と閾値の比較、及び検索元がキーワードデータであるか否かが、学習対象判定５１の判定基準となっているが、図６のステップＳ３３に記載の自動採用フラグの確認を行うことで、それのみでは判定しきれないデータの判定を行うことが可能となる。本発明の学習対象抽出装置１の補助的な機能として使用すると有効である。

更に、実施形態に記載の通り、コンタクトセンターで継続的に使用することで、学習対象のデータを継続的に抽出することが可能となり、抽出した学習対象のデータを継続的に自然言語分類器や人工知能等の自然文検索を可能とする検索システムへ学習させることで、より高い効果を得ることが可能となる。
［実施形態２］
実施形態１では、本発明の学習対象抽出装置の検索システムとして、メールで顧客からの質問（問い合わせ）や依頼を受け付けて応対するコンタクトセンターで使用するＦＡＱ検索システムへ本発明を適用し、学習対象抽出装置１をユーザが使用する端末５と、ＦＡＱ検索サーバ６と、通信網７上に搭載する構成として説明したが、実施形態２では、実施形態１の構成に、学習対象抽出部５２が抽出した学習対象のデータを管理するための管理端末８を付加する構成を、図７を参照して説明する。

実施形態１に記載する学習対象抽出装置１は、複数のユーザがそれぞれ所持する端末５と、ＦＡＱ検索に係る種々の処理を行うＦＡＱ検索サーバ６と、端末５とＦＡＱ検索サーバ６とを接続する通信網７を有する構成を図４に示しているが、更に管理端末８を付加した構成を図７に示す。

管理端末８は端末５と同様に、スマートフォン、携帯電話、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、タブレット等であり、本発明の機能を実施できるものであればよい。実施形態１では、管理端末８は、学習対象表示部８１と、登録データ抽出部８２と、登録指示部８３を有する構成とする。

次に、本発明の実施形態２の動作について図６を参照して説明する。

実施形態２の動作は、図６のステップＳ３５に記載する学習対象データ登録処理以外の動作に関して、実施形態１と同様である。

図６のステップＳ３５において、学習対象抽出部５２は抽出した学習対象のデータを通信網７を介して、登録部４４へ抽出した学習対象のデータを送信する。登録部４４は、学習対象のデータを未確認学習対象データとして保存する。

管理端末８の学習対象表示部８１は、登録部４４が保存した未確認学習対象データを表示する。登録データ抽出部８２は、管理端末８から学習対象のデータとして登録する登録用の学習対象のデータを抽出すると、登録指示部８３は登録データ抽出部８２が抽出した学習対象のデータを、通信網７を介して登録部４４へ送信する。登録部４４は、学習対象のデータを自然文記憶部２１へ登録する（図６のステップＳ３５）。

実施形態２によれば、管理端末８を設けることで、学習対象抽出部５２が抽出した学習対象のデータから更に学習対象のデータを絞ることが可能となる。これにより、更に、学習に係る機械的負荷を減らし、これまで学習効果の低いデータをも保持していたデータ容量を削減することが可能となる。

なお、明細書中の実施形態では、顧客からのメールによる問い合わせを受け付けて応対するコンタクトセンターで使用するＦＡＱ検索システムに本発明を適用する一例を説明したが、上述の通り、本発明は、自然文検索を可能とする検索システムの学習対象のデータを抽出する学習対象抽出装置であり、当該検索システムは、質問とその回答（応答を含む）を取り扱うシステム（Ｑ＆Ａシステム等）であればいずれのものでもよく、その用途は限定しない。

従って、顧客等に向けた社外向けの検索システムだけでなく、本発明に係る学習対象抽出装置の検索システムとして、社内の検索システム、例えば総務や経理部門等の社内業務の質問とその回答（応答を含む）を取り扱うナレッジデータベースのような検索システムを対象として、その検索システムに本発明を適用してもよい。

更には、営業の担当者が使用する質問を含む自然文とその回答（応答を含む）を取り扱う営業支援用の検索システム（Ｑ＆Ａシステム等）に本発明を適用することも可能である。例えば、営業の担当者が顧客からの問い合わせを受け付けて、当該検索システムへその質問データを検索することで、実施形態に記載の効果が得られる。

以上のように、本発明の学習対象抽出装置が対象とする検索システムは、質問を受け付けて回答（応答を含む）を提供する機能を有する検索システムであれば、いずれのものでもよい。

また、実施形態では、顧客からのメールによる問い合わせを受け付ける場合の一例を説明したが、質問データを自然文として受け付けることができれば本発明の対象とすることが可能である。メッセージチャットでの受付、電話等を音声認識させて文字へ変換し受付等いずれのものでもよく、メールに限定するものではない。

上述の通り、本発明は質問とその回答（応答）を取り扱うシステム（Ｑ＆Ａシステム等）であればいずれのものに対しても適用が可能であるため、その活用方法は多岐にわたる。また、このように蓄積されたナレッジ等のデータを、その他の目的に応じて収集し、分類、整理及び取捨選択等行ってデータ分析等に用いてもよい。なお、データ分析は本発明とは直接関連しないため、ここでは省略する。

この発明は、その本質的特性から逸脱することなく数多くの形式のものとして具体化することができる。よって、上述した実施形態は専ら説明上のものであり、本発明を制限するものではないことは言うまでもない。

１学習対象抽出装置
２自然言語処理部
２１自然文記憶部
２２自然文分類部
３質問回答記憶部
４ＡＰＩサーバ
４１自然文検索部
４２回答抽出部
４４登録部
５端末
５１学習対象判定部
５２学習対象抽出部
５３入出力部
５３１質問データ抽出部
５３２キーワードデータ抽出部
５３３質問データ出力部
５３４キーワードデータ出力部
６ＦＡＱ検索サーバ
７通信網
８管理端末
８１学習対象表示部
８２登録データ抽出部
８３登録指示部
１００お問い合わせメッセージ画面
１０１メール内容フォーム
１０２コンテキストメニュー
１１０ＦＡＱ検索返信画面
１１１返信内容フォーム
１１２検索テキストボックス
１１３検索ボタン
１１４質問データキーワードデータ選択ラジオボタン
１１５対象カテゴリプルダウン
１１６検索結果表示フォーム
１１７回答
１１８類似度
１１９ＦＡＱ挿入箇所
１２０学習対象確認ダイアログ

Claims

自然文検索を可能とする自然文検索システムの学習対象のデータを抽出する学習対象抽出装置であって、
検索可能な既知の質問を含む自然文を記憶する自然文記憶部と、
検索要求のあった質問データを前記自然文記憶部で記憶する前記自然文と比較して、前記質問データを分類する自然文分類部と、
前記自然文記憶部で記憶する既知の質問と前記既知の質問への回答を対応させて記憶する質問回答記憶部と、
前記質問データを検索語として前記自然文分類部を実行して前記自然文を検索して検索結果を出力する自然文検索部と、
前記自然文検索部を実行して出力した前記検索結果から前記質問データに対応する前記質問回答記憶部の前記回答を抽出する回答抽出部と、
前記既知の質問の検索語となるキーワードデータを検索語として前記質問回答記憶部へ前記既知の質問を検索して前記回答を出力する回答出力部と、
前記回答抽出部が出力する出力結果と、前記回答出力部が出力する出力結果から、前記質問データに対応する回答の抽出を検知し、検知した抽出結果と、前記質問データが学習対象であるか否かを判定する学習対象判定部と、
前記学習対象判定部が前記質問データを学習対象であると判定した場合に、前記抽出結果と前記質問データを学習対象のデータとして抽出する学習対象抽出部と、
を有することを特徴とする学習対象抽出装置。
前記自然文記憶部は、前記自然文の特徴をベクトル化した学習データと、前記ベクトル化した学習データに対応する識別子との形態で前記自然文を記憶し、
前記自然文分類部は、前記質問データの特徴をベクトル化して、前記自然文記憶部で記憶する前記ベクトル化した学習データと比較し、類似度に基づいて前記質問データを分類し、
前記質問回答記憶部は、前記識別子に紐づけした識別子を前記既知の質問に対応させて前記既知の質問と前記既知の質問への回答を記憶する、ことを特徴とする請求項１に記載の学習対象抽出装置。
前記学習対象抽出装置は、
メールサーバ及び前記学習対象抽出装置と情報の入出力を行う入出力部を有し、
前記入出力部は、
前記メールサーバから受信したメール本文から前記質問データを抽出する質問データ抽出部と、
前記キーワードデータを抽出するキーワードデータ抽出部と、
前記抽出した前記質問データを前記自然文検索部へ出力する質問データ出力部と、
前記抽出した前記キーワードデータを前記回答出力部へ出力するキーワードデータ出力部と、
を備えることを特徴とする請求項１に記載の学習対象抽出装置。
前記学習対象判定部は、
前記回答抽出部から出力した前記出力結果を対象としたものであり、
更に、前記質問データに対応する前記回答を抽出した前記抽出結果の類似度が、複数の前記出力結果のうち最も高い類似度と比較して、前記最も高い類似度よりも低い場合に、前記質問データを学習対象として判定することを特徴とする請求項１に記載の学習対象抽出装置。
前記学習対象判定部は、
前記回答抽出部から出力した前記出力結果を対象としたものであり、
更に、前記質問データに対応する前記回答を抽出した前記抽出結果の類似度が、複数の前記出力結果のうち最も高い類似度と比較して、前記最も高い類似度よりも低く、更に予め設定している閾値と比較して、前記閾値よりも低い場合に、前記質問データを学習対象として判定することを特徴とする請求項１に記載の学習対象抽出装置。
前記学習対象判定部は、
前記回答出力部から出力した前記出力結果を対象としたものである場合に、前記質問データを学習対象として判定することを特徴とする請求項１に記載の学習対象抽出装置。
前記学習対象抽出装置は、
前記学習対象抽出部が抽出した前記学習対象のデータを、前記自然文記憶部へ登録する登録部を有することを特徴とする請求項１に記載の学習対象抽出装置。
前記学習対象抽出装置は、
前記学習対象判定部が前記学習対象のデータを表示する学習対象表示部と、
前記学習対象のデータから登録するデータを抽出する登録データ抽出部と、
前記登録部へ登録する前記学習対象のデータの登録指示を行う登録指示部と、
を有することを特徴とする請求項７に記載の学習対象抽出装置。
自然文検索を可能とする自然文検索システムの学習対象のデータを抽出する学習対象抽出方法であって、
検索要求のあった質問データを検索可能な既知の質問を含む自然文と比較して、前記質問データを分類する自然文分類ステップと、
前記質問データを検索語として前記自然文を検索して検索結果を出力する自然文検索ステップと、
前記自然文検索ステップで出力した前記検索結果から前記質問データに対応する回答を抽出する回答抽出ステップと、
前記既知の質問の検索語となるキーワードデータを検索語として前記既知の質問を検索して前記既知の質問に対する前記回答を出力する回答出力ステップと、
前記回答抽出ステップで出力する前記回答の出力結果と、前記回答出力ステップで出力する前記回答の出力結果とを切り替えて、前記回答の出力結果から回答の抽出を検知し、検知した抽出結果と前記質問データが学習対象であるか否かを判定する学習対象判定ステップと、
前記学習対象判定ステップで前記質問データが学習対象のデータであると判定した場合に、前記抽出結果と前記質問データを学習対象のデータとして抽出する学習対象抽出ステップと、
を実行することを特徴とする学習対象抽出方法。
自然文検索を可能とする自然文検索システムの学習対象のデータを抽出する学習対象抽出プログラムであって、
自然文検索システムを構築するコンピュータに、
検索要求のあった質問データを検索語として検索可能な既知の質問を含む自然文を検索して検索結果を出力する自然文検索機能と、
前記自然文検索機能を実行して出力した前記検索結果から前記質問データに対応する回答を抽出する回答抽出機能と、
前記既知の質問の検索語となるキーワードデータを検索語として前記既知の質問を検索して前記既知の質問に対応する前記回答を出力する回答出力機能と、
前記回答抽出機能を実行して出力する前記回答の出力結果と、前記回答出力機能を実行して出力する前記回答の出力結果とを切り替えて、前記回答の出力結果から回答の抽出を検知し、検知した抽出結果と、前記質問データが学習対象であるか否かを判定する学習対象判定機能と、
前記学習対象判定機能を実行した結果、前記質問データが学習データであると判定した場合に、前記抽出結果と前記質問データを学習対象のデータとして抽出する学習対象抽出機能と、
を実行させることを特徴とする学習対象抽出プログラム。