JP7126843B2 - 学習対象抽出装置、学習対象抽出方法及び学習対象抽出プログラム - Google Patents

学習対象抽出装置、学習対象抽出方法及び学習対象抽出プログラム Download PDF

Info

Publication number
JP7126843B2
JP7126843B2 JP2018063481A JP2018063481A JP7126843B2 JP 7126843 B2 JP7126843 B2 JP 7126843B2 JP 2018063481 A JP2018063481 A JP 2018063481A JP 2018063481 A JP2018063481 A JP 2018063481A JP 7126843 B2 JP7126843 B2 JP 7126843B2
Authority
JP
Japan
Prior art keywords
data
unit
answer
learning
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018063481A
Other languages
English (en)
Other versions
JP2019175203A (ja
Inventor
智 松澤
勝仁 小寺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Intellilink Corp
Original Assignee
NTT Data Intellilink Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Intellilink Corp filed Critical NTT Data Intellilink Corp
Priority to JP2018063481A priority Critical patent/JP7126843B2/ja
Publication of JP2019175203A publication Critical patent/JP2019175203A/ja
Application granted granted Critical
Publication of JP7126843B2 publication Critical patent/JP7126843B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、自然文検索を可能とする検索システムの学習対象のデータを抽出する学習対象抽出装置、学習対象抽出方法及び学習対象抽出プログラムに関する。
近年自然文検索を可能とする検索システムが様々な分野で利用されるようになってきている。例えば、コンタクトセンター等に導入するFAQ検索システムが挙げられる。このFAQ検索システム内に自然文検索を可能とする検索システム、例えば人工知能等を搭載することで、顧客からの質問文を解析して回答候補を提示する。また、オペレータからのフィードバックを人工知能等に学習させることで回答精度を高めていく仕組みである。このような検索システムの場合、大量の質の良い学習対象のデータを学習する必要がある。
特開2017-153078号公報
特許文献1には、インスタントメッセージング環境でメッセージングサービスを利用して質問データをユーザに送信し、質問データに対するユーザの返答を利用して人工知能を学習させることができる、人工知能学習方法及びシステムを提供する内容が開示されている。しかしながら、特許文献1では返答データを学習データとする点、フィルタリングした返答データを学習データとしてもよい点等が記載されているが、具体的にどの返答データを学習データとし、どの返答データを学習データとしないのか、学習データの切り分けについても、推奨すべき学習データの選別方法についても開示されていない。
そこで、本発明の目的は、自然文検索を可能とする検索システムに学習させるべき学習対象のデータを抽出する、学習対象抽出装置、学習対象抽出方法及び学習対象抽出プログラムを提供することにある。
本発明は、サーバと1以上の端末を備え、前記サーバと前記端末は通信網を介して接続される、自然文検索を可能とする自然文検索システムの学習対象のデータを抽出する学習対象抽出装置であって、前記サーバは、検索可能な既知の質問を含む自然文を記憶する自然文記憶部と、検索要求のあった質問データを前記自然文記憶部で記憶する前記自然文と比較して、前記質問データを分類する自然文分類部と、前記自然文記憶部で記憶する既知の質問と前記既知の質問への回答を対応させて記憶する質問回答記憶部と、前記質問データを検索語として前記自然文分類部を実行して前記自然文を検索して検索結果を出力する自然文検索部と、前記自然文検索部を実行して出力した前記検索結果から前記質問データに対応する前記質問回答記憶部の前記回答を抽出する回答抽出部と、キーワードデータを検索語として前記質問回答記憶部へ前記既知の質問を全文検索して前記回答を出力する回答出力部と、を備え、前記端末は、メールサーバから受信したメール本文から前記質問データを抽出する質問データ抽出部と、検索する値を入力させる検索テキストボックスと、前記検索テキストボックスに入力された値から前記キーワードデータを抽出するキーワードデータ抽出部と、前記抽出した前記質問データを前記自然文検索部へ出力する質問データ出力部と、前記抽出した前記キーワードデータを前記回答出力部へ出力するキーワードデータ出力部と、前記メールサーバ及び前記サーバとの情報の入出力を行う入出力部と、を備え、前記回答抽出部が出力する出力結果と、前記回答出力部が出力する出力結果から、前記質問データに対応する回答の抽出を検知し、検知した抽出結果と、前記質問データが学習対象であるか否かを判定する学習対象判定部と、前記学習対象判定部が前記質問データを学習対象であると判定した場合、且つ、学習の要否を確認する学習対象確認により学習が要となった場合に、前記抽出結果と前記質問データを学習対象のデータとして抽出する学習対象抽出部と、を備える、ことを特徴とする。
本発明に係る学習対象抽出装置の前記自然文記憶部は、前記自然文の特徴をベクトル化した学習データと、前記ベクトル化した学習データに対応する識別子との形態で前記自然文を記憶し、前記自然文分類部は、前記質問データの特徴をベクトル化して、前記自然文記憶部で記憶する前記ベクトル化した学習データと比較し、類似度に基づいて前記質問データを分類し、前記質問回答記憶部は、前記識別子に紐づけした識別子を前記既知の質問に対応させて前記既知の質問と前記既知の質問への回答を記憶する、ことを特徴とする。
本発明に係る学習対象抽出装置の前記学習対象判定部は、前記回答抽出部から出力した前記出力結果を対象としたものであり、更に、前記質問データに対応する前記回答を抽出した前記抽出結果の類似度が、複数の前記出力結果のうち最も高い類似度と比較して、前記最も高い類似度よりも低い場合に、前記質問データを学習対象として判定することを特徴とする。
本発明に係る学習対象抽出装置の前記学習対象判定部は、前記回答抽出部から出力した前記出力結果を対象としたものであり、更に、前記質問データに対応する前記回答を抽出した前記抽出結果の類似度が、複数の前記出力結果のうち最も高い類似度と比較して、前記最も高い類似度よりも低く、更に予め設定している閾値と比較して、前記閾値よりも低い場合に、前記質問データを学習対象として判定することを特徴とする。
本発明に係る学習対象抽出装置の前記学習対象判定部は、前記回答出力部から出力した前記出力結果から回答の抽出を検知した場合に、前記質問データを学習対象として判定することを特徴とする。
本発明に係る学習対象抽出装置の前記学習対象抽出装置は、学習対象抽出部が抽出した前記学習対象のデータを、前記自然文記憶部へ登録する登録部を有することを特徴とする。
本発明は、前記学習対象判定部が前記学習対象のデータを表示する学習対象表示部と、前記学習対象のデータから登録するデータを抽出する登録データ抽出部と、前記登録部へ登録する前記学習対象のデータの登録指示を行う登録指示部と、を有することを特徴とする。
本発明によれば、自然言語分類器や人工知能等の自然文検索を可能とする検索システムに学習させるべき学習対象のデータを抽出することが可能である。学習の必要性が高い学習対象のデータのみ抽出することで、自然言語分類器や人工知能等の自然文検索を可能とする検索システムの学習に係る機械的負荷を減らし、更に、これまで学習効果の低い学習対象のデータをも保持していたデータ容量を削減することが可能となる。
本発明によれば、組をなす質問を含む自然文と回答に対して、当該回答に対応する別の質問を学習させて質問の多様化を図ることで、質問の意図を正しく解釈できるよう自然言語分類器や人工知能等の自然文検索を可能とする検索システムを学習させていくことが可能である。
本発明によれば、質問データとキーワードデータを分けた検索を可能とすることで、自然言語分類器や人工知能等の自然文検索を可能とする検索システムで質問データからユーザの要求する回答を得られなかった場合にも、キーワードデータからユーザの要求する回答を得ることが可能となり、更に、質問データとキーワードデータを学習対象のデータとするか否かの判定要素として使用することで、より精度の高い学習対象の判定が可能となる。
本発明の基本構成に係る学習対象抽出装置の機能ブロック図である。 本発明の基本構成に係る学習対象抽出装置の処理フロー図である。 本発明の基本構成に係る学習対象抽出装置の自然文記憶部21及び質問回答記憶部3に保持する情報であり、Aは自然文記憶部21のテーブル構成図、Bは質問回答記憶部3のテーブル構成図である。 本発明の実施形態1に係る学習対象抽出装置の機能ブロック図である。 本発明の実施形態1に係る学習対象抽出装置のメール受信からFAQ検索結果表示までの処理フロー図であり、Aは前述の一連の処理フロー図、BはFAQ検索結果判定処理の詳細を記載した処理フロー図である。 本発明の実施形態1に係る学習対象抽出装置のFAQ検索結果表示からメール送信までの処理フロー図である。 本発明の実施形態2に係る学習対象抽出装置の機能ブロック図である。 本発明の実施形態1に係る学習対象抽出装置のお問い合わせメッセージ画面を示す図である。 本発明の実施形態1に係る学習対象抽出装置のお問い合わせメッセージ画面からの質問データ抽出を示す図である。 本発明の実施形態1に係る学習対象抽出装置のFAQ検索返信画面を示す図である。 本発明の実施形態1に係る学習対象抽出装置のFAQ検索返信画面において抽出した回答をFAQ挿入箇所へ表示することを示す図である。 本発明の実施形態1に係る学習対象抽出装置のFAQ検索返信画面においてキーワード検索を実行した際の画面を示す図である。 本発明の実施形態1に係る学習対象抽出装置のFAQ検索返信画面において、学習対象確認ダイアログを表示している画面を示す図である。
以下、図面を参照して、本発明による学習対象抽出装置を実施するための形態について説明する。なお、本発明は、自然文検索を可能とする検索システムの学習対象のデータを抽出する学習対象抽出装置であり、本発明に係る学習対象抽出装置の検索システムは、質問を含む自然文とその回答(応答を含む)を取り扱うシステム(Q&Aシステム等)であればいずれのものでもよい。
以下の実施形態では、本発明の学習対象抽出装置の検索システムとして、メールで顧客からの質問(問い合わせ)や依頼を受け付けて応対するコンタクトセンターで使用するFAQ検索システムを対象としており、このFAQ検索システムへ本発明を適用した一例を説明する。
[基本構成]
以下、本発明の基本構成を図1乃至図3を参照して説明する。
図1において、学習対象抽出装置1は、自然文記憶部21と、自然文分類部22と、質問回答記憶部3と、自然文検索部41と、回答抽出部42と、回答出力部43と、学習対象判定部51と、学習対象抽出部52を有している。
質問回答記憶部3は、通常のデータベース上に構成するものとし、自然文記憶部21で記憶する既知の質問とその既知の質問に対応する回答を記憶する。例えば、図3のBでは、FAQ(よくある質問とその回答)を記憶させた質問回答記憶部3の記憶形態の一例を示すテーブル構成図を示しており、図3のBに示すように、既知の質問及び回答を一意に特定するための識別子を対応させて記憶してもよいものとする。
自然文記憶部21は、自然言語分類器や人工知能等の学習を必要とする自然文検索が可能なシステム上に構成するものとし、検索可能な既知の質問を含む自然文を記憶する。例えば、図3のAでは、図3のBの質問回答記憶部3に保持するFAQの既知の質問と同一の既知の質問及び識別子を対応させて保持し、更には、当該質問の言い換え表現や、同一の回答となる多様化した質問等の情報を保持する自然文記憶部21の記憶形態の一例を示すテーブル構成図を示している。
自然文分類部22は、自然文記憶部21と同一の自然言語分類器や人工知能等の学習を必要とする自然文検索が可能なシステム上に構成するものであり、検索要求のあった質問データを自然文記憶部21で記憶する自然文と比較して、当該質問データを分類するものである。
図1では、自然文記憶部21と、自然文分類部22とを自然言語分類器や人工知能等から構成される自然言語処理部2上に構成するものとして記載しているが、この構成に限定するものではない。また、明細書中、質問回答記憶部3は、通常のデータベース上に構成するものとして説明するが、自然文記憶部21及び自然文分類部22と同様に自然言語処理部2上に構成してもよく、この構成に限定するものではない。
自然文検索部41は、質問データを検索語として自然文分類部22を実行して検索可能な既知の質問を含む自然文を検索して検索結果を出力する。自然文分類部22は、検索要求のあった質問データを自然文記憶部21で記憶する自然文と比較して、質問データを分類する。回答抽出部42は、自然文検索部41を実行して出力した検索結果から質問データに対応する質問回答記憶部3の回答を抽出する。
具体的には、質問データに基づいて自然文検索部41が自然文分類部22を実行して、識別子を含む検索結果及び類似度を出力し、回答抽出部42は、自然文検索部41が出力する識別子に基づいて質問回答記憶部3から回答を抽出する。
回答出力部43は、質問回答記憶部3に記憶する既知の質問の検索語となるキーワードデータに基づいて質問回答記憶部3から回答を出力する。
学習対象判定部51は、回答抽出部42が出力する出力結果と、回答出力部43が出力する出力結果から、質問データに対応する回答の抽出を検知し、検知した抽出結果と、前記質問データが学習対象であるか否かを判定し、学習対象抽出部52は、学習対象判定部51が質問データを学習対象であると判定した場合に、抽出結果と質問データを学習対象のデータとして抽出する。具体的には、学習対象判定部51は、回答抽出部42又は回答出力部43からの出力を受けて、出力結果に含まれる回答の抽出を検知して、検知した抽出結果の類似度を判定し、学習対象であるか否かの判定を行い、学習対象抽出部52が、学習対象判定部51が当該質問データを学習対象として判定したものを、当該抽出結果と当該質問データを学習対象のデータとして抽出する。
明細書中における質問データとは、自然文検索部41が自然文分類部22を実行して自然文記憶部21を検索する際に用いる検索語であり、顧客から受け付けるメール内容から、質問文のみ検索対象として抽出したデータのことを指す。例えば、「タイヤがパンクしました。ご回答よろしくお願いします。」という内容のメールを受信した場合、質問文は「タイヤがパンクしました。」の箇所であり、これを質問データとする。
また、明細書中において、類似度とは、自然文検索部41が自然文分類部22を実行して質問データを自然文記憶部21で記憶する検索可能な既知の質問を含む自然文と比較して当該質問データを分類する際に出力するものであり、その質問データと検索可能な既知の質問を含む自然文との要素の一致が多いほど、類似度は高い値を示し、正解に対する可能性の高さを示すものである。また、一般的に類似度は確信度やスコアとも呼ばれ、自然言語分類器や人工知能等のメーカーによりその表現方法は様々であるが、明細書中では、類似度と統一して記載する。
また、明細書中において、キーワードデータとは、回答出力部43が質問回答記憶部3を検索する際に用いる検索語であり、上述の質問データを言い換え表現等を用いたデータのことを指す。例えば、既知の質問の検索語となる「タイヤがバーストしました。」という質問データを用いて自然文検索部41を実行して検索を行うが、ユーザの要求する回答を出力しない場合に、質問データから「タイヤ」及び「バースト」を抽出してキーワードデータを生成する。もしくは、質問データからの抽出単語だけでなく、「バースト」の言い換え表現として「パンク」を用いて、「タイヤ」及び「パンク」という単語をキーワードデータとして生成してもよい。回答出力部43は、生成したキーワードデータ「タイヤ」及び「バースト」や、「タイヤ」及び「パンク」を検索語として、質問回答記憶部3へ全文検索を実行する。なお、本発明の学習対象抽出装置の検索システムとして、メールで顧客からの質問(問い合わせ)や依頼を受け付けて応対するコンタクトセンターで使用するFAQ検索システムを対象としており、このFAQ検索システムへ本発明を適用した一例を基本構成及び実施形態で説明しているため、ここで記載するユーザとは、コンタクトセンターで業務を行うオペレータに該当する。
また、明細書中において、出力結果とは、回答抽出部42が抽出した回答と自然文検索部41の検索結果を出力する出力結果と、回答出力部43が回答を出力する出力結果のことを示す。そして、抽出結果とは、当該出力結果から質問データに対応する回答として学習対象判定部51が検出して抽出した回答を抽出結果とする。なお、出力結果に含まれる情報から回答を抽出するため、抽出結果にも出力結果に含まれる情報を含むことが可能である。
また、明細書中において、検索可能な既知の質問を含む自然文とは、自然文記憶部21で記憶し、質問回答記憶部3に記憶する既知の質問の言い換え表現等の自然文から構成される。例えば、図3のAに示す通り、いずれも同一の回答を有する自然文には同一の識別子を対応させて記憶し、質問を含む自然文のバリエーションを増やすことで、多様な質問データに対して、ユーザの要求する回答の出力率を向上させることが可能となる。
また、明細書中において、既知の質問とは、自然文記憶部21に記憶する多様な質問を含む自然文のうち、質問回答記憶部3に回答と対応させて記憶するものである。従って、本実施形態に示す通り、本発明をFAQ検索システムへ適用した場合には、質問回答記憶部3に記憶する「既知の質問とその回答」を、「よくある質問とその回答」として記憶する。明細書中における「質問」には問い合わせ、依頼、要求等が含まれる。
また、本実施形態において、質問回答記憶部3は、通常のデータベース上に構成するものとしているため、質問回答記憶部3に記憶する既知の質問とその回答に保存するのは自然文のテキストデータに限らず、パスやファイル等、通常のデータベース上に保存可能な媒体であれば、いずれを記憶してもよいものとする。
図1では、自然文検索部41と、回答抽出部42と、回答出力部43と、学習対象判定部51と、学習対象抽出部52をAPI(アプリケーションプログラミングインタフェース)サーバ4上に構成するものとして記載しているが、図4に示すように学習対象判定部51及び学習対象抽出部52を端末5上に構成するものとしてもよい。
以上の説明では、本発明をハードウェアの学習対象抽出装置として構築したが、本発明はコンピュータ(CPU)でメモリに記憶されたアプリケーションを実行することにより、ソフトウェア上に上述した自然文記憶部21と、自然文分類部22と、質問回答記憶部3と、自然文検索部41と、回答抽出部42と、回答出力部43と、学習対象判定部51と、学習対象抽出部52をアプリケーション上に構築するためのソフトウェアのプログラムとして構築してもよいものである。
次に、図2を参照して、本発明の基本動作を説明する。図2のステップS1乃至ステップS10は、メールで受け付けた問い合わせを検索し、ユーザの要求する結果を検索システムが出力しなかった場合に、当該問い合わせ内容を学習対象のデータとして抽出する動作を説明したものである。
コンタクトセンターは顧客からのメールでの問い合わせを受け付けて、自然文検索部41はメール内容から検索対象として抽出した質問データに基づいて自然文分類部22を実行する。自然文分類部22は当該質問データを自然文記憶部21の記憶している質問を含む自然文と比較して、当該質問データを分類し、自然文検索部41は質問データを検索語として自然文分類部22を実行して自然文を検索して検索結果を出力する(図2のステップS1)。回答抽出部42は自然文検索部41を実行して出力した検索結果から質問データに対応する質問回答記憶部3の回答を抽出する。自然文検索部41が出力する検索結果が複数存在する場合には、検索結果に対応して回答抽出部42は複数回質問回答記憶部3から回答を抽出する。そして、回答抽出部42は回答及び類似度を含む出力結果を出力する(図2のステップS2)。
自然文検索部41及び回答抽出部42の図2のステップS1及びステップS2の動作の一例を、図3を参照して以下に説明する。自然文検索部41は質問データ「タイヤがパンクしました。」に基づいて自然文分類部22を実行し、質問データ「タイヤがパンクしました。」を自然文記憶部21で記憶する自然文と比較して分類し、自然文記憶部21へ質問を含む自然文の検索を行う。自然文分類部22は、当該分類の際に、類似度をも出力する。
自然文検索部41は、自然文記憶部21から図3のAに図示する4行に含まれる「31」及び「34」の識別子及び類似度を検索結果として出力する。次に、回答抽出部42は、自然文検索部41が出力した検索結果に含まれる識別子「31」及び「34」を検索語として、図3のBに図示する質問回答記憶部3の識別子に基づいて、識別子「31」の回答「修理店にご連絡ください」及び識別子「34」の回答「ホイールのエアバルブから空気を抜いてください。」を出力する。更に、回答抽出部42は、少なくとも識別子「31」、回答「修理店にご連絡ください」及び類似度を紐付けたデータ、及び、識別子「34」、回答「ホイールのエアバルブから空気を抜いてください。」及び類似度が紐付けられたデータを出力結果として出力する。
なお、図2のステップS1乃至ステップS2の記載及び図3は、いずれも説明上の記載であり、自然文記憶部21及び質問回答記憶部3への記憶形態は、自然文記憶部21及び質問回答記憶部3を構成する各機器の仕様に従うものとする。
例えば、自然文記憶部21及び自然文分類部22を構成する上で、ベクトル化して記憶する必要がある場合には、自然文分類部22は、質問データ「タイヤがパンクしました。」の特徴をベクトル化して、自然文記憶部21で記憶するベクトル化した質問を含む自然文と比較し、類似度に基づいて当該質問データを分類する。
学習対象判定部51は、回答抽出部42が出力する出力結果から、質問データに対応する回答の抽出を検知し、検知した抽出結果の類似度を判定する。なお、学習対象判定部51が取り扱う「質問データに対応する回答」をユーザの要求する回答として取り扱うものとする。
学習対象判定部51が、出力結果中、質問データに対応する回答として最も高い類似度の回答の抽出を検知した場合(図2のステップS3 類似度上位1位を抽出)、学習対象判定部51は抽出結果を学習対象でないと判定して処理を終了する(図2のステップS7)。
学習対象判定部51による類似度の判定過程において、学習対象判定部51が最も高い類似度の回答以外の回答の抽出を検知した場合(図2のステップS3 類似度上位1位以外を抽出)、オプションの有無を確認する(図2のステップS4)。
オプションとは、最も高い類似度の回答以外の回答の抽出を検知した場合(図2のステップS3 類似度上位1位以外を抽出)、最も高い類似度の回答以外の回答すべてを学習対象とするか否か、選択を可能とする機能のことを指す。
オプションが無い場合(図2のステップS4 オプション無)、学習対象判定部51は、出力結果中、質問データに対応する回答として最も高い類似度の回答以外の回答のいずれの抽出を検知しても、抽出結果を学習対象であると判定し、学習対象抽出部52を実行する。学習対象抽出部52は、学習対象判定部51の判定結果に基づいて、学習対象のデータとして検索に使用した質問データ及び抽出結果を抽出し(図2のステップS6)、処理を終了する(図2のステップS7)。なお、図3のA及びBに示す記憶形態を実施する場合には、学習対象抽出部52が抽出する学習対象のデータの抽出結果には、識別子が含まれる。
なお、学習対象判定部51は、回答抽出部42から出力した出力結果から、質問データに対応する回答として抽出した抽出結果の類似度が、複数の出力結果のうち最も高い類似度と比較して、最も高い類似度よりも低い場合に、質問データを学習対象として判定するが、この判定処理フローは上述の図2のステップS2、ステップS3、ステップS4及びステップS6に記載する処理フローがこれに該当する。
オプションが有る場合(図2のステップS4 オプション有)、学習対象判定部51は学習対象判定用の類似度と閾値とを比較する(図2のステップS5)。
学習対象判定用の閾値とは、類似度と比較して使用するものであり、学習対象であるか否かの境界値として用いる値である。従って、本発明を実施する際に予め設定しておくべき値である。
学習対象判定部51は学習対象判定用の類似度と閾値とを比較し、抽出結果の類似度よりも学習対象判定用の閾値が高い場合に(図2のステップS5 閾値≧類似度)、学習対象判定部51は学習対象であると判定し、学習対象抽出部52を実行する。学習対象抽出部52は、学習対象判定部51の判定結果に基づいて、学習対象のデータとして検索に使用した質問データ及び抽出結果を抽出し(図2のステップS6)、処理を終了する(図2のステップS7)。
なお、学習対象判定部51は、回答抽出部42から出力した出力結果から、質問データに対応する回答として抽出した抽出結果の類似度が、複数の前記出力結果のうち最も高い類似度と比較して、最も高い類似度よりも低く、更に予め設定している閾値と比較して、閾値よりも低い場合に、質問データを学習対象として判定するが、この判定処理フローは上述の図2のステップS2、ステップS3、ステップS4、ステップS5及びステップS6に記載する処理フローがこれに該当する。
学習対象判定部51は学習対象判定用の閾値と類似度を比較し、類似度よりも学習対象判定用の閾値が低い場合に(図2のステップS5 閾値<類似度)、学習対象判定部51は学習対象でないと判定して処理を終了する(図2のステップS7)。
回答抽出部42が図2のステップS2で出力した出力結果中、学習対象判定部51が質問データに対応する回答の抽出を検知しない場合(図2のステップS3 抽出しない)、回答出力部43は既知の質問の検索語となるキーワードデータを検索語として、質問回答記憶部3へ既知の質問の検索を行う(図2のステップS8)。回答出力部43は、回答を含む出力結果を出力する(図2のステップS9)。回答出力部43が出力した出力結果から学習対象判定部51が質問データに対応する回答の抽出を検知した場合(図2のステップS10 出力結果から抽出)、学習対象判定部51は抽出結果を学習対象であると判定し、学習対象抽出部52を実行する。学習対象抽出部52は、学習対象判定部51の判定結果に基づいて、学習対象のデータとして質問データ及び抽出結果を抽出し(図2のステップS6)、処理を終了する(図2のステップS7)。
なお、学習対象判定部51は、回答出力部43から出力した出力結果から、質問データを学習対象として判定するが、この判定処理フローは上述の図2のステップS2、ステップS3、ステップS8、ステップS9、ステップS10及びステップS6に記載する処理フローがこれに該当する。
回答出力部43が図2のステップS9で出力した出力結果から学習対象判定部51が質問データに対応する回答の抽出を検知しない場合(図2のステップS10 出力結果から抽出しない)、学習対象判定部51は抽出結果を学習対象でないと判定して処理を終了する(図2のステップS7)。
本発明によれば、図2のステップS2で回答抽出部42が出力した出力結果中、最も高い類似度の回答と比較して、質問データに対応する回答として類似度が低い回答の抽出を検知した場合に、学習対象判定部51は抽出結果を学習対象として判定する。そして、学習対象抽出部52は、学習対象判定部51が学習対象として判定した抽出結果と質問データの組み合わせを学習対象のデータとして抽出することが可能となる。
更に、本発明によれば、回答抽出部42が図2のステップS2で出力した出力結果中、最も高い類似度の回答と比較して、質問データに対応する回答として類似度が低い回答の抽出を学習対象判定部51が検知した場合でも、オプションによって予め設定した学習対象判定用の閾値を使用して、更に学習対象を絞り込むことが可能となる。これは、当該類似度が学習対象判定用の閾値よりも高い回答を抽出した場合には、自然文分類部22が質問の意図を正しく解釈できているものとして学習対象のデータとして抽出せず、当該類似度が学習対象判定用の閾値よりも低い回答のみを学習効果の高いデータとして抽出するためである。
例えば、回答抽出部42が図2のステップS2で出力する出力結果で、学習対象判定用の閾値を「0.65」とし、類似度が「0.91」、「0.88」、「0.55」の3つがある場合、学習対象判定部51が類似度「0.88」の回答の抽出を検知したとしても、類似度「0.88」と学習対象判定用の閾値「0.65」を比較し、類似度が学習対象判定用の閾値よりも高いため、学習対象として判定しない。最も高い類似度「0.91」よりは類似度「0.88」は低いが、学習対象判定用の閾値「0.65」よりも高く、自然文分類部22は質問の意図を正しく解釈できていると考えられる。このような場合に、類似度「0.88」の回答を学習対象のデータとして自然文記憶部21へ学習させても学習効果は低いものと考えられる。
それに対して、学習対象判定部51が類似度「0.55」の回答の抽出を検知した場合には、類似度「0.55」と学習対象判定用の閾値「0.65」を比較し、類似度が学習対象判定用の閾値よりも低いため、学習対象として判定する。これは、ユーザの要求する結果であるにも関わらず、自然文分類部22が質問の意図を正しく解釈できていないために低い類似度で出力していると考えられる。このような場合に、類似度「0.55」の回答を学習対象のデータとして自然文記憶部21へ学習させることで高い学習効果を得ることが可能となる。
更に、本発明によれば、図2のステップS8において、回答抽出部42が図2のステップS2で出力した出力結果中、学習対象判定部51が質問データに対応する回答の抽出を検知しない場合に、回答出力部43は既知の質問を検索する検索語となるキーワードデータを検索語として抽出し、質問回答記憶部3へ質問の検索を行う。これにより、質問データを検索語とした自然文検索によって質問データに対応する回答を得られなかった場合等に、当該キーワードデータに基づいて回答出力部43が質問回答記憶部3を直接検索してユーザの要求する結果を出力することが可能となる。
図2のステップS10の「出力結果から抽出」に示すように、キーワードデータの検索によって質問データに対応する回答の抽出を検知した場合には、自然文記憶部21に該当する既知の質問を含む自然文を記憶しているにも関わらず、自然文分類部22が質問データの意図を正しく解釈できていないものと考えられる。従って、抽出結果と当該質問データの組み合わせを学習対象のデータとして抽出する。
なお、図2のステップS10で「出力結果から抽出しない」場合には、自然文記憶部21及び質問回答記憶部3に該当する既知の質問を記憶していないものと取り扱う。従って、学習対象判定部51は図2のステップS7に示す通り、処理を終了する。
本発明は、予め質問回答記憶部3に記憶する組をなす既知の質問を含む自然文と当該既知の質問に対応する回答に対して、当該回答に対応する別の質問を多様化させるための学習対象のデータの抽出装置である。従って、前述の図2のステップS10で「出力結果から抽出しない」場合、本発明の基本動作においては図2のステップS7に示す通り処理を終了するものとしたが、本発明を実施する形態においては、例えば、管理者画面等により、質問回答記憶部3へ組をなす質問と回答を新規で登録する機能を設けてもよく、本発明の実施の態様は、図2に記載の動作に制限するものではない。
上述の通り、本発明は学習効果の高いデータを抽出することが可能であり、自然言語分類器や人工知能等の自然文検索を可能とする検索システムに抽出した学習効果の高いデータのみを学習させることで、学習に係る機械的負荷を減らし、更に、これまで学習効果の低いデータをも保持していたデータ容量を削減することが可能となる。
学習効果とは、本発明により抽出した学習対象のデータを自然文記憶部21へ学習させることで、自然文分類部22の分類と検索の精度が向上し、次回以降、同様の質問データが発生した際に、より高い精度でユーザの要求する結果を出力することが可能となる。例えば、回答抽出部42が出力した出力結果中、最も高い類似度の回答と比較して、類似度の低い回答、例えば類似度0.51の回答を学習対象抽出部52が学習対象のデータとして抽出し、自然文記憶部21へ学習させた場合に、学習後に再度同一の質問データに基づく出力結果は前回類似度(0.51)よりも高い類似度として出力することが可能となる。
更に、回答出力部43が出力した出力結果から、学習対象判定部51が回答を抽出した場合に、自然文分類部22が分類できなかった質問データをも質問回答記憶部3で記憶する「既知の質問とその回答」へ新たに紐付けて学習対象のデータとして抽出することが可能となる。
要するに、質問データとキーワードデータを分けた検索を可能とすることで、学習対象判定部51が抽出を検知した回答が、質問データに基づいた出力結果なのか、キーワードデータに基づいた出力結果なのかを判別して、学習対象の判定処理を分岐させることで、数段階にわたった学習対象とするか否かの判定が可能となる。この学習対象の判定処理の分岐によって学習対象の判定は更に厳選され、学習の必要の高い学習対象のデータを抽出することが可能となる。
このように、自然文記憶部21及び質問回答記憶部3に予め記憶している既知の質問を含む自然文に対し、学習対象抽出部52が同一の回答を有する質問データを学習対象のデータとして抽出し、学習対象判定部51が学習対象として判定した学習対象のみを、自然文記憶部21へ繰り返し学習させることで、自然文分類部22及び自然文記憶部21への分類と検索の精度を継続的に向上させることが可能となる。
[実施形態1]
基本構成では、学習対象抽出装置1が自然文記憶部21と、自然文分類部22と、質問回答記憶部3と、自然文検索部41と、回答抽出部42と、回答出力部43と、学習対象判定部51と、学習対象抽出部52を有する構成とし、学習対象のデータの抽出までの基本的な構成及び動作の説明をしたが、実施形態1では、本発明の学習対象抽出装置の検索システムとして、メールで顧客からの質問(問い合わせ)や依頼を受け付けて応対するコンタクトセンターで使用するFAQ検索システムへ本発明を適用し、抽出した学習対象のデータを登録するまでの処理を実施するための形態の一例を説明する。図4に示すようにユーザが使用する端末5と、FAQ検索サーバ6と、通信網7から成る構成とし、以下、本発明の実施形態1を図3乃至図6及び図8乃至図13を参照して説明する。
図4において、学習対象抽出装置1は、複数のユーザがそれぞれ所持する端末5と、FAQ検索に係る種々の処理を行うFAQ検索サーバ6と、端末5とFAQ検索サーバ6とを接続する通信網7を有している。
通信網7は、インターネット(The Internet)、公衆交換電話網(PSTN)、携帯電話網、IP電話網、閉域網、無線LAN(WiFi)等であり、ネットワークその他の通信網として機能するものであればよい。
端末5は、スマートフォン、携帯電話、PC(Personal Computer)、タブレット等であり、本発明の機能を実施できるものであればよい。実施形態1では、端末5は、学習対象判定部51と、学習対象抽出部52と、入出力部53と、質問データ抽出部531と、キーワードデータ抽出部532と、質問データ出力部533と、キーワードデータ出力部534を有する構成とする。
FAQ検索サーバ6は、実施形態1におけるFAQ検索(自然文検索)に係る処理を実行するサーバのことを指し、APIを搭載するAPIサーバ4と、自然言語分類器や人工知能等から構成される自然言語処理部2と通常のデータベースから構成される質問回答記憶部3から構成される。
そして、APIサーバ4は、自然文検索部41と、回答抽出部42と、回答出力部43と、登録部44から構成され、自然言語処理部2は、自然文記憶部21と、自然文分類部22から構成される。
実施形態1において、基本構成の機能に加えて、自然文記憶部21は、検索可能な既知の質問を含む自然文の特徴をベクトル化した学習データと、ベクトル化した学習データに対応する識別子との形態で当該自然文を記憶する。自然文分類部22は、質問データの特徴をベクトル化して、自然文記憶部21で記憶するベクトル化した学習データと比較し、類似度に基づいて質問データを分類する。更に、質問回答記憶部3は、自然文記憶部21の識別子に紐づけした識別子を既知の質問に対応させて前記既知の質問と既知の質問への回答を記憶する。
次に、本発明の実施形態1の動作を説明する。
コンタクトセンターで顧客からのメールでの問い合わせを受信し(図5のAのステップS21)、入出力部53は端末5へ図8に示すお問い合わせメッセージ画面100を表示する。質問データ抽出部531はお問い合わせメッセージ画面100に表示するメール内容フォーム101から質問データを抽出する(図5のAのステップS22)。質問データ抽出部531は、図9に示すコンテキストメニュー102の「FAQ検索・返信」を抽出すると、抽出した質問データを端末5のメモリ上に保存し(図5のAのステップS23)、質問データ出力部533は、メモリ上に保存した質問データを、通信網7を介して、自然文検索部41へ送信する。
自然文検索部41は、自然文分類部22を実行し、自然文分類部22は質問データの特徴をベクトル化して自然文記憶部21で記憶するベクトル化した既知の質問を含む自然文(学習データ)と比較し、類似度に基づいて当該質問データを分類し、FAQ検索を実行する(図5のAのステップS24)。自然文検索部41は識別子及び類似度を含む検索結果を出力する。回答抽出部42は、自然文検索部41を実行して出力した検索結果に含まれる識別子に基づいて質問データに対応する回答を質問回答記憶部3から抽出する。自然文検索部41の出力した識別子が複数存在する場合には、識別子の回数分回答を抽出する。
回答抽出部42は自然文検索部41を実行して出力した識別子及び類似度を含む検索結果と、検索結果の識別子から抽出した回答を出力結果として出力し、通信網7を介して、入出力部53へ送信する。入出力部53は、出力結果をFAQ検索結果として受信し(図5のAのステップS25)、FAQ検索結果判定処理を実行する(図5のAのステップS26)。
FAQ検索結果判定処理とは、基本動作に記載した学習対象判定用の閾値とは別に、表示用の閾値を設け、FAQ検索結果に含まれる類似度と表示用の閾値を比較して、表示用の閾値よりも類似度が高い出力結果のみを表示させる判定を行う処理である。
FAQ検索結果判定処理の動作を図5のBを参照して、以下に説明する。入出力部53がFAQ検索結果を受信すると(図5のA及び図5のBのステップS25)、FAQ検索結果に含まれる類似度を表示用の閾値と比較し、類似度が表示用の閾値よりも高い場合(図5のBのステップS261 類似度≧表示用閾値)、入出力部53はFAQ検索結果を出力する(図5のBのステップS262)。
FAQ検索結果に含まれる類似度を表示用の閾値と比較し、類似度が表示用の閾値よりも低い場合(図5のBのステップS261 類似度<表示用閾値)、入出力部53はFAQ検索結果を出力しない(図5のBのステップS263)。
前述のFAQ検索結果判定処理(図5のBのステップS25乃至S263)を、入出力部53が受信したFAQ検索結果の件数分処理を繰り返す。
入出力部53は、FAQ検索結果判定処理の結果を受けて、出力したFAQ検索結果を図10に示すFAQ検索返信画面110の検索結果表示フォーム116へ表示する(図5のAのステップS27)。FAQ検索結果に含まれる回答を検索結果表示フォーム116の回答117、FAQ検索結果に含まれる類似度を検索結果表示フォーム116の類似度118へ表示する。なお、この時に出力可能なFAQ検索結果が存在しない場合には、「検索結果:0件」等、適宜表示する。
なお、FAQ検索結果判定処理及びFAQ検索結果表示(図5のステップS26乃至ステップS27)を入出力部53の処理として説明したが、回答抽出部42で実行し、表示するものとして判定されたFAQ検索結果のみを入出力部53へ送信する構成としてもよく、順序や実施の構成はこれに限定するものではない。
検索結果表示フォーム116に表示するFAQ検索結果中、学習対象判定部51が質問データに対応する回答として最も高い類似度の回答の抽出を検知した場合(図6のステップS28 類似度上位1位を採用)、入出力部53は図11に示すFAQ検索返信画面110のFAQ挿入箇所119へ抽出した回答を表示し(図6のステップS29)、学習対象判定部51は抽出結果を学習対象でないと判定して、入出力部53はメールを送信する(図6のステップS30)。なお、抽出結果には、抽出した回答に紐付くFAQ検索結果として出力した識別子及び類似度を少なくとも含む。
検索結果表示フォーム116に表示するFAQ検索結果中、学習対象判定部51が質問データに対応する回答として最も高い類似度以外の回答の抽出を検知した場合(図6のステップS28 類似度上位1位以外を採用)、図6のステップS29と同様に、入出力部53は、図11に示すFAQ検索返信画面110のFAQ挿入箇所119へ抽出した回答を表示し(図6のステップS31)、学習対象判定部51は抽出結果の類似度を学習対象判定用の閾値と比較する(図6のステップS32)。
学習対象判定用の閾値は基本構成に記載の通り、本発明を実施する際に予め設定しておくべき値である。
学習対象判定部51は抽出結果の類似度を学習対象判定用の閾値と比較し、抽出結果の類似度よりも学習対象判定用の閾値が高い場合に(図6のステップS32 類似度≧学習対象閾値)、学習対象判定部51は抽出結果を学習対象でないと判定して、入出力部53はメールを送信する(図6のステップS30)。
学習対象判定部51は抽出結果の類似度を学習対象判定用の閾値と比較し、抽出結果の類似度よりも学習対象判定用の閾値が低い場合に(図6のステップS32 類似度<学習対象閾値)、学習対象判定部51は抽出結果を学習対象であると判定し、学習対象抽出部52を実行する。学習対象抽出部52は、学習対象判定部51の判定結果に基づいて、検索に使用した質問データ及び抽出結果の識別子を学習対象のデータとして抽出し、自動採用フラグの有無の確認を実行する(図6のステップS33)。
自動採用フラグとは、学習対象抽出部52が抽出した学習対象のデータを自動で採用して自然文記憶部21へ学習させるか否かを選択するフラグのことを指す。自動で採用しない場合には、本発明を実施する際に予め設定しておく必要がある。
自動採用フラグが有の場合(図6のステップS33 フラグ有)、学習対象抽出部52は抽出した学習対象のデータを通信網7を介して、登録部44へ抽出した学習対象のデータを送信する。登録部44は、学習対象のデータを自然文記憶部21へ登録する(図6のステップS35)。
自動採用フラグが無の場合(図6のステップS33 フラグ無)、学習対象抽出部52は、FAQ検索返信画面110上に学習対象確認ダイアログ120を表示する。学習対象抽出部52が図13に示す学習対象確認ダイアログ120より「はい」を抽出した場合(図6のステップS34 採用する)、学習対象抽出部52は抽出した学習対象のデータを通信網7を介して、登録部44へ抽出した学習対象のデータを送信する。登録部44は、学習対象のデータを自然文記憶部21へ登録する(図6のステップS35)。
学習対象抽出部52が図13に示す学習対象確認ダイアログ120より「いいえ」を抽出した場合(図6のステップS34 採用しない)、学習対象抽出部52は処理を終了し、入出力部53はメールを送信する(図6のステップS36)。
検索結果表示フォーム116に表示するFAQ検索結果中、学習対象判定部51が回答の抽出を検知しない場合(図6のステップS28 不採用)、キーワードデータ抽出部532がキーワードデータを抽出し、キーワードデータ出力部534は、通信網7を介して回答出力部43へキーワードデータを送信する。
なお、図6のステップS37以下の動作を以下に説明するが、図5のステップS21乃至ステップS27の処理を開始せずに、図6のステップS37の処理から開始してもよいものとする。要するに、質問データの検索の有無に関わらず、キーワードデータの検索を行ってもよい。
回答出力部43は抽出したキーワードデータを検索語として、質問回答記憶部3へ既知の質問の検索を行う(図6のステップS37)。回答出力部43は、回答を含む出力結果をキーワード検索結果として出力し、通信網7を介して入出力部53へキーワード検索結果を送信する。入出力部53は、図12に示すFAQ検索返信画面110の検索結果表示フォーム116へキーワード検索結果を表示する。キーワード検索結果に含まれる回答を検索結果表示フォーム116の回答117へ表示する。なお、キーワード検索では、類似度が出力されないため、検索結果表示フォーム116の類似度118はハイフン等の表示や非表示にて対応する。
検索結果表示フォーム116に表示するキーワード検索結果中、学習対象判定部51が回答の抽出を検知した場合(図6のステップS38 抽出する)、学習対象判定部51は抽出結果を学習対象であると判定し、学習対象抽出部52を実行する。学習対象抽出部52は、学習対象判定部51の判定結果に基づいて、学習対象のデータとして質問データ及び抽出結果の識別子を抽出し、自動採用フラグの確認を実行する(図6のステップS33)。図6のステップS33乃至S36の動作については、上述の通りである。
検索結果表示フォーム116に表示するキーワード検索結果中、学習対象判定部51が回答の抽出を検知しない場合(図6のステップS38 抽出しない)、学習対象判定部51は学習対象でないと判定して、FAQ検索返信画面110のFAQ挿入箇所119へ適切な回答を作成してメールを編集する(図6のステップS39)。入出力部53は編集が完了したメールを送信する(図6のステップS40)。
なお、実施形態1に記載する図10に示すFAQ検索返信画面110の画面の項目を以下に説明する。検索する値を入力させる検索テキストボックス112を画面右上に設けており、質問データ抽出部531が抽出する質問データ及びキーワードデータ抽出部532が抽出するキーワードデータを入力させるテキストボックスとして構成する。
検索テキストボックス112への入力は、いずれの方法であってもよいが、例えば、質問データの場合には、端末5の入出力部53が、FAQ検索返信画面110を表示して、図5のAのステップS27のFAQ検索結果を検索結果表示フォーム116へ表示し、図5のAのステップS23でアドインのメモリ上に保存した質問データを返信内容フォーム111へ表示する際に、前述の質問データを、検索テキストボックス112へ表示させてもよい。
なお、実施形態1では、検索テキストボックス112の入力値は、質問データキーワードデータ選択ラジオボタン114により、質問データとキーワードデータの切り替えを行うものとして取り扱う。
検索ボタン113は、FAQ検索返信画面110の表示後に、検索テキストボックス112から、質問データ、又はキーワードデータに基づいて検索実行をするボタンである。
対象カテゴリプルダウン115は、自然文記憶部21及び質問回答記憶部3への検索を行う際に、質問の範囲の絞り込みを行う機能としてFAQ検索返信画面110上に設けているが、本発明とは直接関連しないためここでは省略する。
なお、図10に示すFAQ検索返信画面110の構成及びその他の構成は、一例であり、これに限定するものではない。
実施形態1によれば、図5のステップS26に記載のFAQ検索結果判定処理を行うことで、表示用の閾値よりも類似度の低いFAQ検索結果を端末5に表示しないことで、ユーザの要求する結果である可能性が低いデータを表示させないことが可能である。本発明により、学習対象抽出部52が抽出する学習効果の高いデータのみを自然文記憶部21へ学習させることで、自然文記憶部21への検索及び分類の精度が向上した後に、表示用の閾値を用いてFAQ検索結果判定処理を行うと更に有効である。また、本発明の使用前の精度の低い自然言語処理部2においては、FAQ検索結果判定処理を行わない、又は表示用の閾値を低く設けて、多くのFAQ検索結果を表示して、学習対象のデータを抽出し、繰り返し学習させ、精度が向上した後に、表示用の閾値を引き上げていくことも可能である。このように、学習対象用の閾値だけでなく、表示用の閾値によっても学習対象の抽出は変動するため、自然言語処理部2の精度に応じた対応が可能となる。
実施形態1によれば、類似度と閾値の比較、及び検索元がキーワードデータであるか否かが、学習対象判定51の判定基準となっているが、図6のステップS33に記載の自動採用フラグの確認を行うことで、それのみでは判定しきれないデータの判定を行うことが可能となる。本発明の学習対象抽出装置1の補助的な機能として使用すると有効である。
上述の通り、本発明は学習効果の高いデータを抽出することが可能であり、自然言語分類器や人工知能等の自然文検索を可能とする検索システムに抽出した学習効果の高いデータのみを学習させることで、学習に係る機械的負荷を減らし、更に、これまで学習効果の低いデータをも保持していたデータ容量を削減することが可能となる。
更に、実施形態に記載の通り、コンタクトセンターで継続的に使用することで、学習対象のデータを継続的に抽出することが可能となり、抽出した学習対象のデータを継続的に自然言語分類器や人工知能等の自然文検索を可能とする検索システムへ学習させることで、より高い効果を得ることが可能となる。
[実施形態2]
実施形態1では、本発明の学習対象抽出装置の検索システムとして、メールで顧客からの質問(問い合わせ)や依頼を受け付けて応対するコンタクトセンターで使用するFAQ検索システムへ本発明を適用し、学習対象抽出装置1をユーザが使用する端末5と、FAQ検索サーバ6と、通信網7上に搭載する構成として説明したが、実施形態2では、実施形態1の構成に、学習対象抽出部52が抽出した学習対象のデータを管理するための管理端末8を付加する構成を、図7を参照して説明する。
実施形態1に記載する学習対象抽出装置1は、複数のユーザがそれぞれ所持する端末5と、FAQ検索に係る種々の処理を行うFAQ検索サーバ6と、端末5とFAQ検索サーバ6とを接続する通信網7を有する構成を図4に示しているが、更に管理端末8を付加した構成を図7に示す。
管理端末8は端末5と同様に、スマートフォン、携帯電話、PC(Personal Computer)、タブレット等であり、本発明の機能を実施できるものであればよい。実施形態1では、管理端末8は、学習対象表示部81と、登録データ抽出部82と、登録指示部83を有する構成とする。
次に、本発明の実施形態2の動作について図6を参照して説明する。
実施形態2の動作は、図6のステップS35に記載する学習対象データ登録処理以外の動作に関して、実施形態1と同様である。
図6のステップS35において、学習対象抽出部52は抽出した学習対象のデータを通信網7を介して、登録部44へ抽出した学習対象のデータを送信する。登録部44は、学習対象のデータを未確認学習対象データとして保存する。
管理端末8の学習対象表示部81は、登録部44が保存した未確認学習対象データを表示する。登録データ抽出部82は、管理端末8から学習対象のデータとして登録する登録用の学習対象のデータを抽出すると、登録指示部83は登録データ抽出部82が抽出した学習対象のデータを、通信網7を介して登録部44へ送信する。登録部44は、学習対象のデータを自然文記憶部21へ登録する(図6のステップS35)。
実施形態2によれば、管理端末8を設けることで、学習対象抽出部52が抽出した学習対象のデータから更に学習対象のデータを絞ることが可能となる。これにより、更に、学習に係る機械的負荷を減らし、これまで学習効果の低いデータをも保持していたデータ容量を削減することが可能となる。
なお、明細書中の実施形態では、顧客からのメールによる問い合わせを受け付けて応対するコンタクトセンターで使用するFAQ検索システムに本発明を適用する一例を説明したが、上述の通り、本発明は、自然文検索を可能とする検索システムの学習対象のデータを抽出する学習対象抽出装置であり、当該検索システムは、質問とその回答(応答を含む)を取り扱うシステム(Q&Aシステム等)であればいずれのものでもよく、その用途は限定しない。
従って、顧客等に向けた社外向けの検索システムだけでなく、本発明に係る学習対象抽出装置の検索システムとして、社内の検索システム、例えば総務や経理部門等の社内業務の質問とその回答(応答を含む)を取り扱うナレッジデータベースのような検索システムを対象として、その検索システムに本発明を適用してもよい。
更には、営業の担当者が使用する質問を含む自然文とその回答(応答を含む)を取り扱う営業支援用の検索システム(Q&Aシステム等)に本発明を適用することも可能である。例えば、営業の担当者が顧客からの問い合わせを受け付けて、当該検索システムへその質問データを検索することで、実施形態に記載の効果が得られる。
以上のように、本発明の学習対象抽出装置が対象とする検索システムは、質問を受け付けて回答(応答を含む)を提供する機能を有する検索システムであれば、いずれのものでもよい。
また、実施形態では、顧客からのメールによる問い合わせを受け付ける場合の一例を説明したが、質問データを自然文として受け付けることができれば本発明の対象とすることが可能である。メッセージチャットでの受付、電話等を音声認識させて文字へ変換し受付等いずれのものでもよく、メールに限定するものではない。
上述の通り、本発明は質問とその回答(応答)を取り扱うシステム(Q&Aシステム等)であればいずれのものに対しても適用が可能であるため、その活用方法は多岐にわたる。また、このように蓄積されたナレッジ等のデータを、その他の目的に応じて収集し、分類、整理及び取捨選択等行ってデータ分析等に用いてもよい。なお、データ分析は本発明とは直接関連しないため、ここでは省略する。
この発明は、その本質的特性から逸脱することなく数多くの形式のものとして具体化することができる。よって、上述した実施形態は専ら説明上のものであり、本発明を制限するものではないことは言うまでもない。
1 学習対象抽出装置
2 自然言語処理部
21 自然文記憶部
22 自然文分類部
3 質問回答記憶部
4 APIサーバ
41 自然文検索部
42 回答抽出部
44 登録部
5 端末
51 学習対象判定部
52 学習対象抽出部
53 入出力部
531 質問データ抽出部
532 キーワードデータ抽出部
533 質問データ出力部
534 キーワードデータ出力部
6 FAQ検索サーバ
7 通信網
8 管理端末
81 学習対象表示部
82 登録データ抽出部
83 登録指示部
100 お問い合わせメッセージ画面
101 メール内容フォーム
102 コンテキストメニュー
110 FAQ検索返信画面
111 返信内容フォーム
112 検索テキストボックス
113 検索ボタン
114 質問データキーワードデータ選択ラジオボタン
115 対象カテゴリプルダウン
116 検索結果表示フォーム
117 回答
118 類似度
119 FAQ挿入箇所
120 学習対象確認ダイアログ

Claims (11)

  1. サーバと1以上の端末を備え、前記サーバと前記端末は通信網を介して接続される、自然文検索を可能とする自然文検索システムの学習対象のデータを抽出する学習対象抽出装置であって、
    前記サーバは、検索可能な既知の質問を含む自然文を記憶する自然文記憶部と、
    検索要求のあった質問データを前記自然文記憶部で記憶する前記自然文と比較して、前記質問データを分類する自然文分類部と、
    前記自然文記憶部で記憶する既知の質問と前記既知の質問への回答を対応させて記憶する質問回答記憶部と、
    前記質問データを検索語として前記自然文分類部を実行して前記自然文を検索して検索結果を出力する自然文検索部と、
    前記自然文検索部を実行して出力した前記検索結果から前記質問データに対応する前記質問回答記憶部の前記回答を抽出する回答抽出部と、
    キーワードデータを検索語として前記質問回答記憶部へ前記既知の質問を全文検索して前記回答を出力する回答出力部と、を備え、
    前記端末は、
    メールサーバから受信したメール本文から前記質問データを抽出する質問データ抽出部と、
    検索する値を入力させる検索テキストボックスと、
    前記検索テキストボックスに入力された値から前記キーワードデータを抽出するキーワードデータ抽出部と、
    前記抽出した前記質問データを前記自然文検索部へ出力する質問データ出力部と、
    前記抽出した前記キーワードデータを前記回答出力部へ出力するキーワードデータ出力部と、
    前記メールサーバ及び前記サーバとの情報の入出力を行う入出力部と、を備え、
    前記回答抽出部が出力する出力結果と、前記回答出力部が出力する出力結果から、前記質問データに対応する回答の抽出を検知し、検知した抽出結果と、前記質問データが学習対象であるか否かを判定する学習対象判定部と、
    前記学習対象判定部が前記質問データを学習対象であると判定した場合、且つ、学習の要否を確認する学習対象確認により学習が要となった場合に、前記抽出結果と前記質問データを学習対象のデータとして抽出する学習対象抽出部と、を備える、
    ことを特徴とする学習対象抽出装置。
  2. 前記自然文記憶部は、前記自然文の特徴をベクトル化した学習データと、前記ベクトル化した学習データに対応する識別子との形態で前記自然文を記憶し、
    前記自然文分類部は、前記質問データの特徴をベクトル化して、前記自然文記憶部で記憶する前記ベクトル化した学習データと比較し、類似度に基づいて前記質問データを分類し、
    前記質問回答記憶部は、前記識別子に紐づけした識別子を前記既知の質問に対応させて前記既知の質問と前記既知の質問への回答を記憶する、ことを特徴とする請求項1に記載の学習対象抽出装置。
  3. 前記検索可能な既知の質問を含む自然文は、前記質問回答記憶部に記憶する既知の質問の言い換え表現の自然文を含むことを特徴とする請求項1に記載の学習対象抽出装置。
  4. 前記回答抽出部が出力した出力結果中、前記学習対象判定部が前記質問データに対応する回答の抽出を検知しない場合に、前記回答出力部は既知の質問を検索する検索語となるキーワードデータを検索語として抽出し、前記質問回答記憶部へ全文検索を行うことを特徴とする請求項1に記載の学習対象抽出装置。
  5. 前記学習対象判定部は、
    前記回答抽出部から出力した前記出力結果を対象としたものであり、
    更に、前記質問データに対応する前記回答を抽出した前記抽出結果の類似度が、複数の前記出力結果のうち最も高い類似度と比較して、前記最も高い類似度よりも低い場合に、前記質問データを学習対象として判定することを特徴とする請求項1に記載の学習対象抽出装置。
  6. 前記学習対象判定部は、
    前記回答抽出部から出力した前記出力結果を対象としたものであり、
    更に、前記質問データに対応する前記回答を抽出した前記抽出結果の類似度が、複数の前記出力結果のうち最も高い類似度と比較して、前記最も高い類似度よりも低く、更に予め設定している閾値と比較して、前記閾値よりも低い場合に、前記質問データを学習対象として判定することを特徴とする請求項1に記載の学習対象抽出装置。
  7. 前記学習対象判定部は、
    前記回答出力部から出力した前記出力結果から回答の抽出を検知した場合に、前記質問データを学習対象として判定することを特徴とする請求項1に記載の学習対象抽出装置。
  8. 前記学習対象抽出装置は、
    前記学習対象抽出部が抽出した前記学習対象のデータを、前記自然文記憶部へ登録する登録部を有することを特徴とする請求項1に記載の学習対象抽出装置。
  9. 前記学習対象抽出装置は、
    前記学習対象判定部が前記学習対象のデータを表示する学習対象表示部と、
    前記学習対象のデータから登録するデータを抽出する登録データ抽出部と、
    前記登録部へ登録する前記学習対象のデータの登録指示を行う登録指示部と、
    を有することを特徴とする請求項に記載の学習対象抽出装置。
  10. 自然文検索を可能とする自然文検索システムの学習対象のデータを抽出する学習対象抽出方法であって、
    前記学習対象抽出方法は、自然文記憶部、自然文分類部、質問回答記憶部、自然文検索部、回答抽出部、回答出力部、学習対象判定部、学習対象抽出部、及び、端末を備えた学習対象抽出装置によって実行され、
    前記端末は、検索テキストボックスとキーワードデータ抽出部とを備え、
    前記自然文分類部が、検索要求のあった質問データを、前記自然文記憶部で記憶する、検索可能な既知の質問を含む自然文と比較して、前記質問データを分類する自然文分類ステップと、
    自然文検索部が、前記質問データを検索語として前記自然文を検索して検索結果を出力する自然文検索ステップと、
    前記回答抽出部が、前記自然文検索ステップで出力した前記検索結果から、前記質問回答記憶部に記憶された、前記質問データに対応する回答を抽出する回答抽出ステップと、
    前記キーワードデータ抽出部が、前記検索テキストボックスに入力された値からキーワードデータを抽出するキーワードデータ抽出ステップと、
    前記回答出力部が、前記キーワードデータを検索語として前記既知の質問を全文検索して前記既知の質問に対する前記回答を出力する回答出力ステップと、
    前記学習対象判定部が、前記回答抽出ステップで出力する前記回答の出力結果と、前記回答出力ステップで出力する前記回答の出力結果とを切り替えて、前記回答の出力結果から回答の抽出を検知し、検知した抽出結果と前記質問データが学習対象であるか否かを判定する学習対象判定ステップと、
    前記学習対象抽出部が、前記学習対象判定ステップで前記質問データが学習対象のデータであると判定した場合、且つ、学習の要否を確認する学習対象確認により学習が要となった場合に、前記抽出結果と前記質問データを学習対象のデータとして抽出する学習対象抽出ステップと、
    を実行することを特徴とする学習対象抽出方法。
  11. 自然文検索を可能とする自然文検索システムの学習対象のデータを抽出する学習対象抽出プログラムであって、
    自然文検索システムを構築するコンピュータに、
    検索要求のあった質問データを検索語として検索可能な既知の質問を含む自然文を検索して検索結果を出力する自然文検索機能と、
    前記自然文検索機能を実行して出力した前記検索結果から前記質問データに対応する回答を抽出する回答抽出機能と、
    前記自然文検索システムに接続される端末の検索テキストボックスに入力された値からキーワードデータを抽出するキーワードデータ抽出機能と、
    前記キーワードデータを検索語として前記既知の質問を全文検索して前記既知の質問に対応する前記回答を出力する回答出力機能と、
    前記回答抽出機能を実行して出力する前記回答の出力結果と、前記回答出力機能を実行して出力する前記回答の出力結果とを切り替えて、前記回答の出力結果から回答の抽出を検知し、検知した抽出結果と、前記質問データが学習対象であるか否かを判定する学習対象判定機能と、
    前記学習対象判定機能を実行した結果、前記質問データが学習データであると判定した場合、且つ、学習の要否を確認する学習対象確認により学習が要となった場合に、前記抽出結果と前記質問データを学習対象のデータとして抽出する学習対象抽出機能と、
    を実行させることを特徴とする学習対象抽出プログラム。
JP2018063481A 2018-03-29 2018-03-29 学習対象抽出装置、学習対象抽出方法及び学習対象抽出プログラム Active JP7126843B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018063481A JP7126843B2 (ja) 2018-03-29 2018-03-29 学習対象抽出装置、学習対象抽出方法及び学習対象抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018063481A JP7126843B2 (ja) 2018-03-29 2018-03-29 学習対象抽出装置、学習対象抽出方法及び学習対象抽出プログラム

Publications (2)

Publication Number Publication Date
JP2019175203A JP2019175203A (ja) 2019-10-10
JP7126843B2 true JP7126843B2 (ja) 2022-08-29

Family

ID=68168922

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018063481A Active JP7126843B2 (ja) 2018-03-29 2018-03-29 学習対象抽出装置、学習対象抽出方法及び学習対象抽出プログラム

Country Status (1)

Country Link
JP (1) JP7126843B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6714268B1 (ja) * 2019-10-11 2020-06-24 株式会社エクサウィザーズ 質問文出力方法、コンピュータプログラム及び情報処理装置
JP7475977B2 (ja) 2020-06-12 2024-04-30 株式会社エクサ 知識収集支援システム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008129692A (ja) 2006-11-17 2008-06-05 Nec Corp 回答支援装置、回答支援システム、回答支援方法および回答支援プログラム
JP2017049681A (ja) 2015-08-31 2017-03-09 国立研究開発法人情報通信研究機構 質問応答システムの訓練装置及びそのためのコンピュータプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3495912B2 (ja) * 1998-05-25 2004-02-09 シャープ株式会社 学習機能付き検索装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008129692A (ja) 2006-11-17 2008-06-05 Nec Corp 回答支援装置、回答支援システム、回答支援方法および回答支援プログラム
JP2017049681A (ja) 2015-08-31 2017-03-09 国立研究開発法人情報通信研究機構 質問応答システムの訓練装置及びそのためのコンピュータプログラム

Also Published As

Publication number Publication date
JP2019175203A (ja) 2019-10-10

Similar Documents

Publication Publication Date Title
CN104615608B (zh) 一种数据挖掘处理系统及方法
US20200210648A1 (en) System and Methods of Language Processing
CN110597624A (zh) 通信建立方法和系统
JP2017505964A (ja) 機械学習に基づく自動タスク分類
US11113336B2 (en) Information processing apparatus to output answer information in response to inquiry information
US20140052445A1 (en) Voice search and response based on relevancy
US11531816B2 (en) Search apparatus based on synonym of words and search method thereof
US11675845B2 (en) Identifying merchant data associated with multiple data structures
CN112966081A (zh) 处理问答信息的方法、装置、设备和存储介质
JP7126843B2 (ja) 学習対象抽出装置、学習対象抽出方法及び学習対象抽出プログラム
CN110533456A (zh) 一种优惠券信息推送方法、系统及服务器
CN111241400B (zh) 一种信息搜索方法及装置
US10701513B2 (en) Raising priorities of information based on social media relationships
CN107465797B (zh) 终端设备来电信息显示方法和装置
CN112487159B (zh) 检索方法、检索装置及计算机可读存储介质
CN105096138A (zh) 实现o2o对话交互的方法和装置
KR20220116794A (ko) 빅데이터를 기반으로 한 취향 분석 맛집 추천 서비스 제공 시스템
WO2020095776A1 (ja) 知識情報作成支援装置
CN116595149A (zh) 一种人机对话生成方法、装置、设备及存储介质
CN110489517B (zh) 虚拟助理的自动学习方法及系统
CN113422810B (zh) 向服务提供商发送信息的方法及设备
CN108415916B (zh) 货物分拣提示方法、装置与电子设备
CN115936016A (zh) 基于对话的情绪主题识别方法、装置、设备以及介质
CN114492306A (zh) 语料标注方法、装置、电子设备及存储介质
CN111046151B (zh) 一种消息处理方法及装置

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20180413

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180413

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211224

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220414

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220506

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220805

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220817

R150 Certificate of patent or registration of utility model

Ref document number: 7126843

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150