JP2017037588A - 情報処理装置及び情報処理プログラム - Google Patents
情報処理装置及び情報処理プログラム Download PDFInfo
- Publication number
- JP2017037588A JP2017037588A JP2015160094A JP2015160094A JP2017037588A JP 2017037588 A JP2017037588 A JP 2017037588A JP 2015160094 A JP2015160094 A JP 2015160094A JP 2015160094 A JP2015160094 A JP 2015160094A JP 2017037588 A JP2017037588 A JP 2017037588A
- Authority
- JP
- Japan
- Prior art keywords
- question
- training data
- module
- answer
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】情報処理装置の選択手段は、トピックに対応した質問トレーニングデータ内の単語を選択し、拡張手段は、前記質問トレーニングデータ内の選択された単語を、前記トピックに対応した回答データ内の単語に置換することによって、前記質問トレーニングデータを拡張する。
【選択図】図1
Description
しかし、トピック推定精度を高めるために大量の質問と回答の組み合わせを用意しなければならず、しかもそれらはそれぞれトピックと関連付けなければならない。
そこで、本発明は、予め質問と回答の組み合わせを用意しておき、ユーザーからの問い合わせに対して最も類似した質問を見つけ、対応する回答を返す技術と比較して、予め用意するトピックと関連付けられた質問文が少なくても、トピック推定精度を高めることができるようにした情報処理装置及び情報処理プログラムを提供することを目的としている。
請求項1の発明は、トピックに対応した質問トレーニングデータ内の単語を選択する、選択手段と、前記質問トレーニングデータ内の選択された単語を、前記トピックに対応した回答データ内の単語に置換することによって、前記質問トレーニングデータを拡張する、拡張手段を有する情報処理装置である。
まず、本実施の形態を説明する前に、その前提又は本実施の形態を利用する情報処理装置について説明する。なお、この説明は、本実施の形態の理解を容易にすることを目的とするものである。
例えば、何かの製品やサービスについてのユーザーからの質問を、電子メール、電話、Webユーザーインターフェスなどを介して受け取り、回答するような質問回答サービスがある。
一般的には、ヘルプデスクやコールセンターと呼ばれる専用の部署の人員が、ユーザーからの質問を受け取り、回答することで一つ一つ対応している。ここで現在、人員コストや回答までの時間の短縮の必要性から、コンピュータを用いた自動回答が求められてきている。
特許文献1に記載の技術は、予めタスクに関するスクリプト的知識を用意しておき、質問文を自然言語解析技術を用いて意味表現に変換し、そのスクリプトとの対応をとり回答文を出力する技術である。この技術は、意味解析が可能な質問文であれば任意の質問文に対応できるが、逆に意味解析における辞書や文法を用意しなければならず、また新しい言葉に対応するために継続的にメンテナンスしなければならない。
一方、特許文献2に記載の技術は、予め質問と回答の組みを用意しておき、ユーザーからの問い合わせに対して最も類似した質問を見つけ、対応する回答を返す。この技術は、質問と回答の組みを数多く準備すればさまざまな質問に対応できるため、特許文献1に記載の技術のような辞書や文法の継続的なメンテナンスを必要としない。しかし、質問と回答の組みを数多く準備する必要がある。
つまり、質問回答システムにおいて、トピック推定精度を高めるために大量の質問文を用意しなければならず、しかもそれらはそれぞれトピックと関連付けなければならない。
本実施の形態では、少数の質問文を用意し、トピックと関連付けておき、質問文中の単語を一つ又は複数選択し、その質問に関連付けられたトピックに対応付けられた回答文のなかの単語の一つ又は複数と入れ替えることで、新しい質問文を作成する。単語の選択の組み合わせによって、多量の質問文を自動生成することができる。なお、ここで予め用意する「少数の質問文」とは、背景技術で示したものと同程度の精度で回答を行うために用意する質問文数と比較して少ないことである。なお、学習モデルを生成するための質問文は、本実施の形態によって作成された質問文である。
図1は、第1の実施の形態(情報処理装置100)の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するという意味である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
そして、質問トレーニングデータ拡張モジュール130は、回答記憶モジュール120からトピックに対応した回答データを抽出し、質問トレーニングデータ内の選択された単語を、その回答データ内の単語に置換することによって、質問トレーニングデータを拡張する。
また、質問トレーニングデータ拡張モジュール130は、例えば、質問トレーニングデータ記憶モジュール110又は回答記憶モジュール120内のデータが更新されると、処理を開始してもよい。また、質問トレーニングデータ記憶モジュール110又は回答記憶モジュール120内の予め定められた数又は割合のデータが更新されたことを契機として処理を開始してもよいし、予め定められた期間毎に処理を開始してもよい。
ユーザーからの質問文を事前に多く準備できれば、それだけ機械学習によるトピック推定の精度が高くなる。質問トレーニングデータ拡張モジュール130は、与えられた質問トレーニングデータとトピック毎の回答データを利用して元の質問トレーニングデータより多い質問トレーニングデータとそれに対応するトピックの識別子のペアを自動生成することで、質問トレーニングデータを拡張する。
例えば、機械学習トレーニングモジュール140は、教師ありの機械学習分類器のトレーニングモジュールである。質問文トレーニングデータをテキスト解析してその結果を機械学習の素性とし、トピックの識別子を分類カテゴリとみなすことでトレーニングする。学習結果は、学習モデルとして出力される。
学習モデル記憶モジュール150は、機械学習トレーニングモジュール140と接続されている。学習モデル記憶モジュール150は、機械学習トレーニングモジュール140に生成された学習モデルを記憶する。
回答記憶モジュール120は、回答モジュール280と接続されている。回答記憶モジュール120は、トピックに対応した回答データを記憶している。具体的には、回答テキストテーブル1000を記憶している。なお、図面内の符号(120)として、情報処理装置100内の回答記憶モジュール120と同じであるが、学習モデルを生成するのに用いた回答データを記憶しているのであれば、必ずしも物理的に同じ記憶装置である必要はない。
学習モデル記憶モジュール150は、トピック推定モジュール270と接続されている。学習モデル記憶モジュール150は、情報処理装置100が生成した学習モデルを記憶している。なお、図面内の符号(150)として、情報処理装置100内の学習モデル記憶モジュール150と同じであるが、情報処理装置100が生成した学習モデルを記憶しているのであれば、必ずしも物理的に同じ記憶装置である必要はない。
情報処理装置300は、質問トレーニングデータ記憶モジュール110、回答記憶モジュール120、質問トレーニングデータ拡張モジュール130、機械学習トレーニングモジュール140、学習モデル記憶モジュール150、質問文受付モジュール260、トピック推定モジュール270、回答モジュール280を有している。情報処理装置300は、情報処理装置100と情報処理装置200を組み合わせたものであり、学習モデルの生成と、ユーザーからの質問に対して回答を行うものである。各モジュールは、前述のモジュールと同等の機能、処理を行う。
質問トレーニングデータ記憶モジュール110は、質問トレーニングデータ拡張モジュール130と接続されている。回答記憶モジュール120は、質問トレーニングデータ拡張モジュール130、回答モジュール280と接続されている。質問トレーニングデータ拡張モジュール130は、質問トレーニングデータ記憶モジュール110、回答記憶モジュール120、機械学習トレーニングモジュール140と接続されている。機械学習トレーニングモジュール140は、質問トレーニングデータ拡張モジュール130、学習モデル記憶モジュール150と接続されている。学習モデル記憶モジュール150は、機械学習トレーニングモジュール140、トピック推定モジュール270と接続されている。質問文受付モジュール260は、トピック推定モジュール270と接続されている。トピック推定モジュール270は、学習モデル記憶モジュール150、質問文受付モジュール260、回答モジュール280と接続されている。回答モジュール280は、回答記憶モジュール120、トピック推定モジュール270と接続されている。
情報処理装置100A、情報処理装置200A、情報処理装置200B、情報処理装置300、ユーザー端末410A、ユーザー端末410B、ユーザー端末410C、回答文書記憶装置420は、通信回線490を介してそれぞれ接続されている。通信回線490は、無線、有線、これらの組み合わせであってもよく、例えば、通信インフラとしてのインターネット、イントラネット等であってもよい。また、情報処理装置100、情報処理装置200、情報処理装置300による機能は、クラウドサービスとして実現してもよい。
回答文書記憶装置420は、回答記憶モジュール120を有している。
情報処理装置200Bと情報処理装置100Bは接続されている。
情報処理装置100Aは、ユーザー端末410から質問トレーニングデータを取得し、学習モデルを生成する。
情報処理装置200Aは、情報処理装置100Aが生成した学習モデルを通信回線490を経由して取得する。
情報処理装置100Bは、管理者等の指示にしたがって、学習モデルを生成する。情報処理装置200Bは、情報処理装置100Bが生成した学習モデルを取得する。
情報処理装置300は、ユーザー端末410から質問トレーニングデータを取得し、学習モデルを生成する。
この場合、情報処理装置100A、情報処理装置100B、情報処理装置300は、通信回線490内の回答記憶モジュール120を用いて、学習モデルを生成し、情報処理装置200A、情報処理装置200B、情報処理装置300は、通信回線490内の回答記憶モジュール120を用いて、回答を作成するようにしてもよい。
ステップS502では、トピック毎の回答テキストを回答記憶モジュール120から抽出する。
ステップS504では、ステップS502で抽出した各回答テキストを形態素解析器などを用いて単語の列に分解する。この単語を、図6の例に示すフローチャートのステップS610で用いる。
ステップS602では、質問トレーニングデータを質問トレーニングデータ記憶モジュール110から抽出する。
ステップS604では、質問トレーニングデータから質問テキストを一つ選択する。
ステップS606では、質問テキストを形態素解析器などを用いて単語の列に分解する。
ステップS608では、質問テキスト内の単語を1つ又は複数選択する。
ステップS612では、ステップS608〜ステップS610の処理を別の単語を選択し、選択する単語がなくなるまで繰り返す。
ステップS614では、ステップS604〜ステップS612の処理を別の質問テキストを選択し、選択する質問テキストがなくなるまで繰り返す。
ステップS702では、質問トレーニングデータ拡張モジュール130によって拡張された質問トレーニングデータ(図6の例に示すフローチャートによって作成された質問トレーニングデータ)を用いて学習モデルを作成する。
ステップS802では、質問文受付モジュール260は、ユーザーからの質問文テキストを受け付ける。
ステップS804では、トピック推定モジュール270は、学習モデル記憶モジュール150を用いて、質問文テキストのトピックを推定する。
ステップS806では、回答モジュール280は、トピックに対応する回答テキストを回答記憶モジュール120から抽出する。
ステップS808では、回答モジュール280は、ユーザーに回答テキストを送信する。
事前に、回答テキストテーブル1000内の回答テキストそれぞれについて、テキストを単語に分解する(図5の例に示したフローチャート参照)。
例えば、図10の例に示すように、トピックID1のテキストは、「Our|phone|number|is|01−234−5678|.」(単語の区切りを|で表した)となる。
ここで、これらの単語のうち、その質問やトピックに対して特徴的な語だけを選択しておく。この場合、「Our」、「is」、「.」は一般的な語であるので選択せず、「phone」、「number」、「01−234−5678」を選択する。選択したものに下線を付けると以下のようになる。
「Our|phone|number|is|01−234−5678|.」
ここで、特徴的な語の選択は、TF−iDF法のような単語の出現の偏りに基づく方法や、ストップワードリストと呼ばれる一般的な語の辞書を用いて、そのストップワードリスト以外の単語を特徴的な語として選択することによって可能である。また、回答テキストテーブル1000内で、出現回数が予め定められた閾値より多い又は以上である単語以外の単語を、特徴的な語として選択するようにしてもよい。
同様に、回答テキストテーブル1000内のトピックID2の回答テキストも単語に分解し、特徴的な語を選択する。
質問トレーニングデータテーブル900内の質問トレーニングデータから一つデータを選択し、質問文を同様に単語に分解し、特徴的な語を選択する。回答テキストに対して行った前述の処理を、質問トレーニングデータに対して行えばよい。
例えば、質問トレーニングデータテーブル900内の一つ目のデータは、「Where|is|contact|information|?」となる。
次に、質問文中の特徴的な語を対応する回答テキストの特徴的な語と入れ替えた結果、以下のようなデータを得る。逆に、一般的な語は、質問文の単語として残しておきたい単語である。
「Where|is|phone|information|?」
「Where|is|number|information|?」
「Where|is|01−234−5678|information|?」
「Where|is|contact|phone|?」
「Where|is|contact|number|?」
「Where|is|contact|01−234−5678|?」
最初の3つの文は「contact」を入れ替えたものであり、最後の3つの文は「information」を入れ替えたものである。
分解した単語を連結して、文を構成し対応するトピックIDを付加することで、図11の例に示すような拡張質問トレーニングデータテーブル1100のデータを得る。図11は、拡張質問トレーニングデータテーブル1100のデータ構造例を示す説明図である。拡張質問トレーニングデータテーブル1100は、質問文欄1110、トピックID欄1120を有しており、図9の例に示した質問トレーニングデータテーブル900と同等のデータ構造を有している。質問文欄1110は、質問文を記憶している。トピックID欄1120は、トピックIDを記憶している。
最終的に、機械学習トレーニングモジュール140が用いる教師データは、質問トレーニングデータ(教師データ)テーブル1200のようになる。図12は、質問トレーニングデータ(教師データ)テーブル1200のデータ構造例を示す説明図である。質問トレーニングデータ(教師データ)テーブル1200は、質問文欄1210、トピックID欄1220を有しており、図9の例に示した質問トレーニングデータテーブル900と同等のデータ構造を有している。質問文欄1210は、質問文を記憶している。トピックID欄1220は、トピックIDを記憶している。質問トレーニングデータ(教師データ)テーブル1200は、質問トレーニングデータテーブル900に拡張質問トレーニングデータテーブル1100を付加したものである。
図13は、第2の実施の形態(情報処理装置1300)の構成例についての概念的なモジュール構成図である。情報処理装置1300は、質問回答システムが用いる学習モデルを生成するものであって、図13の例に示すように、質問トレーニングデータ記憶モジュール110、回答記憶モジュール120、質問トレーニングデータ拡張モジュール130、機械学習トレーニングモジュール140、学習モデル記憶モジュール150を有している。情報処理装置1300は、図1の例に示す情報処理装置100の質問トレーニングデータ拡張モジュール130内に不自然文除外モジュール1335を付加したものである。もちろんのことながら、情報処理装置300の質問トレーニングデータ拡張モジュール130内に不自然文除外モジュール1335を付加してもよい。
なお、前述の実施の形態と同種の部位には同一符号を付し重複した説明を省略する(以下、同様)。
不自然文除外モジュール1335は、質問トレーニングデータ拡張モジュール130によって拡張された質問トレーニングデータから、不自然な文を除外する。
また、不自然な質問文の数が、予め定められた閾値A未満又は以下であり、かつ、予め定められた閾値Bより多い又は以上となるように、不自然な質問文を取り除くようにしてもよい。教師データとしてノイズ(不自然な質問文)を含んでいた方が、トピック推定の精度が高くなる学習モデルを生成することができる場合があるからである。
ステップS1402では、質問トレーニングデータを質問トレーニングデータ記憶モジュール110から抽出する。
ステップS1404では、質問トレーニングデータから質問テキストを一つ選択する。
ステップS1406では、質問テキストを形態素解析器などを用いて単語の列に分解する。
ステップS1408では、単語を1つ又は複数選択する。
ステップS1410では、選択した単語をその質問に対応する回答テキスト内の単語に置換する。
ステップS1412では、ステップS1408〜ステップS1410の処理を別の単語選択し、繰り返す。
ステップS1414では、ステップS1404〜ステップS1412の処理を別の質問テキストを選択し、繰り返す。
ステップS1416では、不自然文除外モジュール1335は、拡張した質問トレーニングデータから不自然な文を取り除く。
図15は、第3の実施の形態(情報処理装置1500)の構成例についての概念的なモジュール構成図である。情報処理装置1500は、質問回答システムが用いる学習モデルを生成するものであって、図15の例に示すように、質問トレーニングデータ記憶モジュール110、回答記憶モジュール120、質問トレーニングデータ拡張モジュール130、機械学習トレーニングモジュール140、学習モデル記憶モジュール150を有している。情報処理装置1500は、図1の例に示す情報処理装置100の質問トレーニングデータ拡張モジュール130内に質問トレーニングデータ数調整モジュール1535を付加したものである。もちろんのことながら、情報処理装置300の質問トレーニングデータ拡張モジュール130内に質問トレーニングデータ数調整モジュール1535を付加してもよい。
質問トレーニングデータ数調整モジュール1535は、質問トレーニングデータ拡張モジュール130によって拡張された質問トレーニングデータについて、トピック毎の質問トレーニングデータ数の差分が予め定められた閾値未満又は以下となるように、質問トレーニングデータ数を調整する。
なお、この調整の結果として除外の対象となる質問トレーニングデータは、第2の実施の形態で特定した不自然な文を優先して除外するようにしてもよい。
そこで、トピックそれぞれに対する質問文の数の割合をコントロールする。そのためにランダムサンプリングなどの方法でデータの数を正規化してもよい。例えば、各トピックに対応する質問トレーニングデータ数を同じにするように、間引き処理を行ってもよい。その間引きの対象を、不自然文除外モジュール1335で特定した不自然な質問文としてもよい。
ステップS1602では、質問トレーニングデータを質問トレーニングデータ記憶モジュール110から抽出する。
ステップS1604では、質問トレーニングデータから質問テキストを一つ選択する。
ステップS1606では、質問テキストを形態素解析器などを用いて単語の列に分解する。
ステップS1608では、単語を1つ又は複数選択する。
ステップS1610では、選択した単語をその質問に対応する回答テキスト内の単語に置換する。
ステップS1612では、ステップS1608〜ステップS1610の処理を別の単語選択し、繰り返す。
ステップS1614では、ステップS1604〜ステップS1612の処理を別の質問テキストを選択し、繰り返す。
ステップS1616では、質問トレーニングデータ数調整モジュール1535は、トピック毎の質問トレーニングデータ数の差分が予め定められた閾値未満又は以下になるように間引く。
なお、図16に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図16に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図16に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器(携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む)、情報家電、ロボット、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
110…質問トレーニングデータ記憶モジュール
120…回答記憶モジュール
130…質問トレーニングデータ拡張モジュール
140…機械学習トレーニングモジュール
150…学習モデル記憶モジュール
200…情報処理装置
260…質問文受付モジュール
270…トピック推定モジュール
280…回答モジュール
300…情報処理装置
410…ユーザー端末
420…回答文書記憶装置
490…通信回線
1300…情報処理装置
1335…不自然文除外モジュール
1500…情報処理装置
1535…質問トレーニングデータ数調整モジュール
Claims (6)
- トピックに対応した質問トレーニングデータ内の単語を選択する、選択手段と、
前記質問トレーニングデータ内の選択された単語を、前記トピックに対応した回答データ内の単語に置換することによって、前記質問トレーニングデータを拡張する、拡張手段
を有する情報処理装置。 - 前記拡張された質問トレーニングデータを用いて、質問に対して回答を行う学習モデルを機械学習によって生成する、生成手段
をさらに有する請求項1に記載の情報処理装置。 - 前記生成された学習モデルを用いて、質問に対する回答データを抽出する、抽出手段と、
前記抽出された回答データをユーザーに提示する、提示手段
をさらに有する請求項2に記載の情報処理装置。 - 前記拡張された質問トレーニングデータから、不自然な文を除外する、除外手段
をさらに有する請求項1から3のいずれか一項に情報処理装置。 - 前記トピック毎の質問トレーニングデータ数の差分が予め定められた閾値未満又は以下となるように、質問トレーニングデータ数を調整する、調整手段
をさらに有する請求項1から4のいずれか一項に情報処理装置。 - コンピュータを、
トピックに対応した質問トレーニングデータ内の単語を選択する、選択手段と、
前記質問トレーニングデータ内の選択された単語を、前記トピックに対応した回答データ内の単語に置換することによって、前記質問トレーニングデータを拡張する、拡張手段
として機能させるための情報処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015160094A JP6544131B2 (ja) | 2015-08-14 | 2015-08-14 | 情報処理装置及び情報処理プログラム |
US15/016,809 US10860948B2 (en) | 2015-08-14 | 2016-02-05 | Extending question training data using word replacement |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015160094A JP6544131B2 (ja) | 2015-08-14 | 2015-08-14 | 情報処理装置及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017037588A true JP2017037588A (ja) | 2017-02-16 |
JP6544131B2 JP6544131B2 (ja) | 2019-07-17 |
Family
ID=57996307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015160094A Active JP6544131B2 (ja) | 2015-08-14 | 2015-08-14 | 情報処理装置及び情報処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US10860948B2 (ja) |
JP (1) | JP6544131B2 (ja) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018181259A (ja) * | 2017-04-21 | 2018-11-15 | 日本電信電話株式会社 | 対話ルール照合装置、対話装置、対話ルール照合方法、対話方法、対話ルール照合プログラム、及び対話プログラム |
JP2019028898A (ja) * | 2017-08-02 | 2019-02-21 | ハイウエア株式会社 | 質問抽出装置、質問抽出方法、及び質問抽出用のコンピュータプログラム |
WO2019039375A1 (ja) * | 2017-08-23 | 2019-02-28 | 国立研究開発法人情報通信研究機構 | 対話応答システム、モデル学習装置および対話装置 |
JP2019040574A (ja) * | 2017-08-23 | 2019-03-14 | 国立研究開発法人情報通信研究機構 | 対話応答システム、モデル学習装置および対話装置 |
JP2019046019A (ja) * | 2017-08-31 | 2019-03-22 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
WO2019167281A1 (ja) * | 2018-03-02 | 2019-09-06 | 富士通株式会社 | 応答処理プログラム、応答処理方法、応答処理装置および応答処理システム |
JP2019192080A (ja) * | 2018-04-27 | 2019-10-31 | 日本電気株式会社 | 情報提示システム、情報提示方法、およびプログラム |
JP2020052858A (ja) * | 2018-09-28 | 2020-04-02 | 大和ハウス工業株式会社 | 情報管理システム |
WO2021082836A1 (zh) * | 2019-10-30 | 2021-05-06 | 中国银联股份有限公司 | 机器人对话方法、装置、设备及计算机可读存储介质 |
KR20210105288A (ko) * | 2020-02-18 | 2021-08-26 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 질문 응답 로봇 생성 방법 및 장치 |
JPWO2020110953A1 (ja) * | 2018-11-28 | 2021-09-02 | 昭和電工株式会社 | 技術予測装置、方法、およびプログラム |
JP2022047291A (ja) * | 2020-09-11 | 2022-03-24 | 株式会社東芝 | 情報処理装置、方法、及びプログラム |
JP2022126998A (ja) * | 2021-02-19 | 2022-08-31 | ヤフー株式会社 | 回答装置、回答方法、回答プログラム |
JP7137028B1 (ja) | 2022-02-25 | 2022-09-13 | 株式会社Jsol | 質問文生成装置、質問文生成方法、質問文生成プログラム |
WO2023153082A1 (ja) * | 2022-02-08 | 2023-08-17 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP7483751B2 (ja) | 2019-04-25 | 2024-05-15 | グーグル エルエルシー | 教師なしデータ拡張を使用した機械学習モデルのトレーニング |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10606952B2 (en) | 2016-06-24 | 2020-03-31 | Elemental Cognition Llc | Architecture and processes for computer learning and understanding |
US20180293508A1 (en) * | 2017-04-06 | 2018-10-11 | International Business Machines Corporation | Training question dataset generation from query data |
CN107368524B (zh) | 2017-06-07 | 2020-06-02 | 创新先进技术有限公司 | 一种对话生成方法、装置以及电子设备 |
US11593433B2 (en) * | 2018-08-07 | 2023-02-28 | Marlabs Incorporated | System and method to analyse and predict impact of textual data |
KR102128549B1 (ko) * | 2018-09-19 | 2020-07-08 | 주식회사 포티투마루 | 인공 지능 질의 응답 시스템, 방법 및 컴퓨터 프로그램 |
US11467817B2 (en) * | 2019-01-28 | 2022-10-11 | Adobe Inc. | Software component defect prediction using classification models that generate hierarchical component classifications |
WO2020159606A1 (en) | 2019-01-30 | 2020-08-06 | Hewlett-Packard Development Company, L.P. | Processing service notes |
CN111552787B (zh) * | 2020-04-23 | 2023-06-30 | 支付宝(杭州)信息技术有限公司 | 问答处理方法、装置、设备及存储介质 |
US20230177075A1 (en) * | 2021-12-03 | 2023-06-08 | International Business Machines Corporation | Stop word detection for qa corpus |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060206472A1 (en) * | 2005-03-14 | 2006-09-14 | Fuji Xerox Co., Ltd. | Question answering system, data search method, and computer program |
JP2012079161A (ja) * | 2010-10-04 | 2012-04-19 | National Institute Of Information & Communication Technology | 自然言語文生成装置及びコンピュータプログラム |
JP2014229275A (ja) * | 2013-05-27 | 2014-12-08 | 株式会社Nttドコモ | 質問応答装置、及び質問応答方法 |
US20170039482A1 (en) * | 2015-08-03 | 2017-02-09 | International Business Machines Corporation | Mapping Questions to Complex Database Lookups using Synthetic Events |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0793351A (ja) | 1993-09-22 | 1995-04-07 | Matsushita Electric Ind Co Ltd | 自然言語質問応答生成装置 |
US7269545B2 (en) * | 2001-03-30 | 2007-09-11 | Nec Laboratories America, Inc. | Method for retrieving answers from an information retrieval system |
JP2003006207A (ja) | 2001-06-18 | 2003-01-10 | Nippon Telegr & Teleph Corp <Ntt> | 質問回答方法、質問回答装置及び質問回答プログラム。 |
US7092888B1 (en) * | 2001-10-26 | 2006-08-15 | Verizon Corporate Services Group Inc. | Unsupervised training in natural language call routing |
US7454393B2 (en) * | 2003-08-06 | 2008-11-18 | Microsoft Corporation | Cost-benefit approach to automatically composing answers to questions by extracting information from large unstructured corpora |
US7680659B2 (en) * | 2005-06-01 | 2010-03-16 | Microsoft Corporation | Discriminative training for language modeling |
US9063975B2 (en) * | 2013-03-15 | 2015-06-23 | International Business Machines Corporation | Results of question and answer systems |
WO2010030794A1 (en) * | 2008-09-10 | 2010-03-18 | Digital Infuzion, Inc. | Machine learning methods and systems for identifying patterns in data |
US20110301941A1 (en) * | 2009-03-20 | 2011-12-08 | Syl Research Limited | Natural language processing method and system |
JP5424001B2 (ja) * | 2009-04-15 | 2014-02-26 | 日本電気株式会社 | 学習データ生成装置、固有表現抽出システム、学習データ生成方法、及びプログラム |
JP4890585B2 (ja) * | 2009-04-30 | 2012-03-07 | 沖電気工業株式会社 | 対話制御システム及びプログラム、並びに、多次元オントロジー処理システム及びプログラム |
US20110289025A1 (en) * | 2010-05-19 | 2011-11-24 | Microsoft Corporation | Learning user intent from rule-based training data |
US8645298B2 (en) * | 2010-10-26 | 2014-02-04 | Microsoft Corporation | Topic models |
US20130103668A1 (en) * | 2011-10-21 | 2013-04-25 | Telcordia Technologies, Inc. | Question conversion for information searching |
JP5825676B2 (ja) * | 2012-02-23 | 2015-12-02 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答システム及びコンピュータプログラム |
US20140040181A1 (en) * | 2012-07-31 | 2014-02-06 | Rawllin International Inc. | Automatic faq generation |
US9396723B2 (en) * | 2013-02-01 | 2016-07-19 | Tencent Technology (Shenzhen) Company Limited | Method and device for acoustic language model training |
US9646226B2 (en) * | 2013-04-16 | 2017-05-09 | The Penn State Research Foundation | Instance-weighted mixture modeling to enhance training collections for image annotation |
US10372815B2 (en) * | 2013-07-12 | 2019-08-06 | Microsoft Technology Licensing, Llc | Interactive concept editing in computer-human interactive learning |
US20150095017A1 (en) * | 2013-09-27 | 2015-04-02 | Google Inc. | System and method for learning word embeddings using neural language models |
US9348900B2 (en) * | 2013-12-11 | 2016-05-24 | International Business Machines Corporation | Generating an answer from multiple pipelines using clustering |
US9817813B2 (en) * | 2014-01-08 | 2017-11-14 | Genesys Telecommunications Laboratories, Inc. | Generalized phrases in automatic speech recognition systems |
US9378273B2 (en) * | 2014-03-13 | 2016-06-28 | International Business Machines Corporation | System and method for question answering by reformulating word problems |
US20160155067A1 (en) * | 2014-11-20 | 2016-06-02 | Shlomo Dubnov | Mapping Documents to Associated Outcome based on Sequential Evolution of Their Contents |
KR102167719B1 (ko) * | 2014-12-08 | 2020-10-19 | 삼성전자주식회사 | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 |
US10628521B2 (en) * | 2015-08-03 | 2020-04-21 | International Business Machines Corporation | Scoring automatically generated language patterns for questions using synthetic events |
-
2015
- 2015-08-14 JP JP2015160094A patent/JP6544131B2/ja active Active
-
2016
- 2016-02-05 US US15/016,809 patent/US10860948B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060206472A1 (en) * | 2005-03-14 | 2006-09-14 | Fuji Xerox Co., Ltd. | Question answering system, data search method, and computer program |
JP2006252380A (ja) * | 2005-03-14 | 2006-09-21 | Fuji Xerox Co Ltd | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
JP2012079161A (ja) * | 2010-10-04 | 2012-04-19 | National Institute Of Information & Communication Technology | 自然言語文生成装置及びコンピュータプログラム |
JP2014229275A (ja) * | 2013-05-27 | 2014-12-08 | 株式会社Nttドコモ | 質問応答装置、及び質問応答方法 |
US20170039482A1 (en) * | 2015-08-03 | 2017-02-09 | International Business Machines Corporation | Mapping Questions to Complex Database Lookups using Synthetic Events |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018181259A (ja) * | 2017-04-21 | 2018-11-15 | 日本電信電話株式会社 | 対話ルール照合装置、対話装置、対話ルール照合方法、対話方法、対話ルール照合プログラム、及び対話プログラム |
JP2019028898A (ja) * | 2017-08-02 | 2019-02-21 | ハイウエア株式会社 | 質問抽出装置、質問抽出方法、及び質問抽出用のコンピュータプログラム |
JP7162827B2 (ja) | 2017-08-02 | 2022-10-31 | ハイウエア株式会社 | 質問抽出装置、質問抽出方法、及び質問抽出用のコンピュータプログラム |
JP7058438B2 (ja) | 2017-08-23 | 2022-04-22 | 国立研究開発法人情報通信研究機構 | 対話応答システム、モデル学習装置および対話装置 |
WO2019039375A1 (ja) * | 2017-08-23 | 2019-02-28 | 国立研究開発法人情報通信研究機構 | 対話応答システム、モデル学習装置および対話装置 |
JP2019040574A (ja) * | 2017-08-23 | 2019-03-14 | 国立研究開発法人情報通信研究機構 | 対話応答システム、モデル学習装置および対話装置 |
JP2019046019A (ja) * | 2017-08-31 | 2019-03-22 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
JP7080609B2 (ja) | 2017-08-31 | 2022-06-06 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
WO2019167281A1 (ja) * | 2018-03-02 | 2019-09-06 | 富士通株式会社 | 応答処理プログラム、応答処理方法、応答処理装置および応答処理システム |
JPWO2019167281A1 (ja) * | 2018-03-02 | 2020-12-03 | 富士通株式会社 | 応答処理プログラム、応答処理方法、応答処理装置および応答処理システム |
JP7102910B2 (ja) | 2018-04-27 | 2022-07-20 | 日本電気株式会社 | 情報提示システム、情報提示方法、およびプログラム |
JP2019192080A (ja) * | 2018-04-27 | 2019-10-31 | 日本電気株式会社 | 情報提示システム、情報提示方法、およびプログラム |
JP2020052858A (ja) * | 2018-09-28 | 2020-04-02 | 大和ハウス工業株式会社 | 情報管理システム |
JPWO2020110953A1 (ja) * | 2018-11-28 | 2021-09-02 | 昭和電工株式会社 | 技術予測装置、方法、およびプログラム |
JP7483751B2 (ja) | 2019-04-25 | 2024-05-15 | グーグル エルエルシー | 教師なしデータ拡張を使用した機械学習モデルのトレーニング |
WO2021082836A1 (zh) * | 2019-10-30 | 2021-05-06 | 中国银联股份有限公司 | 机器人对话方法、装置、设备及计算机可读存储介质 |
KR102490712B1 (ko) | 2020-02-18 | 2023-01-19 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 질문 응답 로봇 생성 방법 및 장치 |
JP2021131846A (ja) * | 2020-02-18 | 2021-09-09 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | 質問応答ロボットの生成方法および装置 |
KR20210105288A (ko) * | 2020-02-18 | 2021-08-26 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 질문 응답 로봇 생성 방법 및 장치 |
US11321370B2 (en) | 2020-02-18 | 2022-05-03 | Beijin Baidu Netcom Science Technology Co., Ltd. | Method for generating question answering robot and computer device |
JP7093397B2 (ja) | 2020-02-18 | 2022-06-29 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 質問応答ロボットの生成方法および装置 |
JP2022047291A (ja) * | 2020-09-11 | 2022-03-24 | 株式会社東芝 | 情報処理装置、方法、及びプログラム |
JP2022126998A (ja) * | 2021-02-19 | 2022-08-31 | ヤフー株式会社 | 回答装置、回答方法、回答プログラム |
JP7268070B2 (ja) | 2021-02-19 | 2023-05-02 | ヤフー株式会社 | 回答装置、回答方法、回答プログラム |
WO2023153082A1 (ja) * | 2022-02-08 | 2023-08-17 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2023124315A (ja) * | 2022-02-25 | 2023-09-06 | 株式会社Jsol | 質問文生成装置、質問文生成方法、質問文生成プログラム |
JP7137028B1 (ja) | 2022-02-25 | 2022-09-13 | 株式会社Jsol | 質問文生成装置、質問文生成方法、質問文生成プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6544131B2 (ja) | 2019-07-17 |
US10860948B2 (en) | 2020-12-08 |
US20170046625A1 (en) | 2017-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6544131B2 (ja) | 情報処理装置及び情報処理プログラム | |
US10776580B2 (en) | Method for providing dialogue service with chatbot assisted by human agents | |
JP6718828B2 (ja) | 情報入力方法および装置 | |
KR20220150859A (ko) | 자연어 처리 시스템, 자연어 처리 장치, 자연어 처리 방법 및 컴퓨터 판독가능 기록매체 | |
US9317501B2 (en) | Data security system for natural language translation | |
KR102364400B1 (ko) | 다수의 코퍼스들로부터 응답 정보 획득 | |
US20190197041A1 (en) | Answerer extraction system, answerer extraction method, and non-transitory computer-readable medium | |
US9483582B2 (en) | Identification and verification of factual assertions in natural language | |
CN108509591B (zh) | 信息问答交互方法及系统、存储介质、终端、智能知识库 | |
JP6791825B2 (ja) | 情報処理装置、対話処理方法及び対話システム | |
JP2015176099A (ja) | 対話システム構築支援装置、方法、及びプログラム | |
KR102348084B1 (ko) | 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체 | |
US10860588B2 (en) | Method and computer device for determining an intent associated with a query for generating an intent-specific response | |
JP2012113542A (ja) | 感情推定装置、その方法、プログラム及びその記録媒体 | |
JP2015032193A (ja) | 応答装置及び応答プログラム | |
US20220207066A1 (en) | System and method for self-generated entity-specific bot | |
JP2016162163A (ja) | 情報処理装置及び情報処理プログラム | |
US11165737B2 (en) | Information processing apparatus for conversion between abbreviated name and formal name | |
JP2018159729A (ja) | 対話システム構築支援装置、方法、及びプログラム | |
US20180307669A1 (en) | Information processing apparatus | |
JP6585288B2 (ja) | 知識構築活用システムおよびプログラム | |
US11947872B1 (en) | Natural language processing platform for automated event analysis, translation, and transcription verification | |
JP2018106551A (ja) | 会話記録装置、会話記録方法及び会話記録プログラム | |
US20230089757A1 (en) | Call routing based on technical skills of users | |
JP2002297646A (ja) | サービスシステム、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180622 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190521 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190603 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6544131 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |