JP2020080025A - 質問応答データ生成装置および質問応答データ生成方法 - Google Patents

質問応答データ生成装置および質問応答データ生成方法 Download PDF

Info

Publication number
JP2020080025A
JP2020080025A JP2018212590A JP2018212590A JP2020080025A JP 2020080025 A JP2020080025 A JP 2020080025A JP 2018212590 A JP2018212590 A JP 2018212590A JP 2018212590 A JP2018212590 A JP 2018212590A JP 2020080025 A JP2020080025 A JP 2020080025A
Authority
JP
Japan
Prior art keywords
question
response
response data
sentence
slot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018212590A
Other languages
English (en)
Other versions
JP7163143B2 (ja
Inventor
敬一 松澤
Keiichi Matsuzawa
敬一 松澤
光雄 早坂
Mitsuo Hayasaka
光雄 早坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018212590A priority Critical patent/JP7163143B2/ja
Priority to PCT/JP2019/041828 priority patent/WO2020100553A1/ja
Publication of JP2020080025A publication Critical patent/JP2020080025A/ja
Application granted granted Critical
Publication of JP7163143B2 publication Critical patent/JP7163143B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】質問に対して情報処理装置が自動的に応答を返す質問応答システムの応答のための応答データにおいて、修正・確認のための人手をそれほど要することなく、質の高い応答データを生成する。【解決手段】質問応答データ生成装置は、文書の構造情報の抽出パターンと質問とその応答のテキストを当てはめる応答データテンプレートとからなる応答データ生成パターンとを保持し、入力された文書を解析し、文書の構造情報を生成し、入力された文書の構造情報の示す構造と、応答データ生成パターンの抽出パターンとで、パターンマッチングを行い、抽出パターンの示すパターンにマッチした文書から、テキストを抽出し、抽出したテキストを、応答データテンプレートに当てはめることにより、応答データを生成する。【選択図】図3

Description

本発明は、質問応答データ生成装置および質問応答データ生成方法に係り、特に、情報処理装置が質問者に対して自動的に応答を行う質問応答システムで用いる応答データにおいて、質の高い応答データを生成するのに好適な質問応答データ生成装置および質問応答データ生成方法に関する。
自然言語処理技術の発展と、顧客満足度の改善や人件費削減と言った社会・経済的な要請の両面の理由により、自然言語を用いた質問応答システムへの注目が高まっている。
質問応答システムを実現する一つの方法として、新聞、書籍、論文、マニュアル、Webなどの文書に対し、質問者の質問文に類似した記述を含む文を探し、それを回答として応答する方法がある。しかしながら、この方法では、応答が本当に質問の内容に対応するものであることを判断できないため、正確な応答を要する用途には適さない。
今一つの方法としては、文書群に対し事前に質問内容と応答内容の対応関係を示す応答データを作成し、質問者の入力と応答データ中の質問内容を照らし合わせて対応する応答を返す方法がある。この方法によれば、質問と応答の対応が正しいことは、データ作成時に人間が確認でき、応答時に何の質問に対応する応答であるかを明示できるので、質問者自体もその正しさを検証できる。また、この方法による質問応答システムでは、質問者の入力と応答データの照らし合わせを行うために複数のデータ形式や質問内容の絞り込み方法が提案されている。
後者の文書群に対し事前に質問内容と応答内容の対応関係を示す応答データを作成する質問応答の実現方法によれば、質問・応答の関係を事前に応答データ作成者が確認できる点で優れる。しかしながら、より多くの質問に対して、適切な回答を行うためには、応答データの質と量を保たなければならず、応答データ作成者は、それなりの作業を要する。なお、以下、本明細書中において「応答データの質が高い」とは、質問応答システムが質問者の質問を認識するために必要な手数が小さいことや応答文として質問に対し正確で十分な情報を返すことなど、迅速で明解な回答を返せることを意味する。
応答データ作成の作業を軽減するための手段として、過去の対人間の対話履歴を分析し、質問・応答関係にある文を抽出して応答データを機械的に作成する手法がある。しかしながら、この手法は新規に質問応答システムを構築する場合など、そのような履歴が無い場合には利用できない。
それと異なる手法として、新聞、書籍、論文、マニュアル、Webなどにおける質問・応答の体裁を成さない文書を元に応答データを生成する手法が開示されている。例えば、特許文献1には、文書中で事前定義された文型パターンに合致する記述を抽出し、文章を組み替えて質問文と応答文を生成する手法が開示されている。また、特許文献2には、文書中の文や図表からキーワードを抽出し、事前定義された質問文のテンプレートに代入して、そのキーワードが回答となる質問・応答関係を作る手法が開示されている。特許文献3には、事実型質問について、ルール・回答表や正規表現ルール表に基づいて、回答文章を作成する技術が開示されている。
米国特許出願公開2011/0125734号明細書 米国特許出願公開2017/0105666号明細書 特開2014−85873号公報
上記従来技術の手法では、文書中のある1単語や1文のみに着目して質問・応答関係を生成する。そのため、文書中で離れた位置にある複数の記述を関連付けた質問・応答関係を生成できず、生成可能な質問・応答関係が限定的となるため、質問に対し正確で十分な情報を返すことができなくなるおそれがある。
上記のように、一般的に、後者の文書群に対し事前に質問内容と応答内容の対応関係を示す応答データを作成する方法によれば、応答データの質を高めるには、確認者が修正の作業をすることが必要になる。そのため、確認者の作業量と応答データの質は、トレードオフの関係にあるということができる。
本発明の目的は、修正・確認のための人手をそれほど要することなく、質の高い応答データを生成することのできる質問応答データ生成装置および質問応答データ生成方法を提供することある。
本発明の質問応答データ生成装置の構成は、好ましくは、質問に対して情報処理装置が自動的に応答を返す質問応答システムのための応答データを生成する質問応答データ生成装置であって、文書の構造情報の抽出パターンと質問とその応答のテキストを当てはめる応答データテンプレートとからなる応答データ生成パターンとを保持し、入力された文書を解析し、文書の構造情報を生成し、入力された文書の構造情報の示す構造と応答データ生成パターンの抽出パターンとで、パターンマッチングを行い、抽出パターンの示すパターンにマッチした文書から、テキストを抽出し、抽出したテキストを、応答データテンプレートに当てはめることにより、応答データを生成するようにしたものである。
本発明によれば、修正・確認のための人手をそれほど要することなく、質の高い応答データを生成することのできる質問応答データ生成装置および質問応答データ生成方法を提供することができる。
質問応答システムの全体構成図である。 質問応答装置のハードウェア・ソフトウェア構成図である。 質問応答データ生成装置の機能構成図である。 質問応答データ生成装置のハードウェア・ソフトウェア構成図である。 質問応答テーブルの一例を示す図である。 文書構成の一例を示す図である。 実施形態1の文章の構造情報の一例を示す図である。 実施形態1の応答データ生成パターンの一例を示す図である。 実施形態1の応答データの一例を示す図である。 実施形態1の応答データ生成処理を示すフローチャートである。 質問のシナリオ分岐図の一例を示す図である。 シナリオ記述テーブルの一例を示す図である。 実施形態1の文章の構造情報の一例を示す図である。 実施形態2の応答データ生成パターンの一例を示す図である。 応答文マッピングテーブルの一例を示す図である。 実施形態2の応答データの一例を示す図である。 実施形態2の応答データ生成処理を示すフローチャートである。 実施形態2の応答データテンプレートの複製・変更の処理(図17のS865)を示すフローチャートである。 応答データテンプレートの中のシナリオ記述テーブルテンプレートの変更を説明する図である。 質問応答テーブルの一例を示した図である。 スロット属性テーブルの一例を示した図である。 実施形態3の応答データ生成パターンの一例を示す図である。 実施形態3の応答データテンプレートの複製・変更の処理(図17のS865)を示すフローチャートである。 応答データ生成処理により生成された質問応答テーブルの一例を示す図である。 応答データ生成処理により生成されたスロット属性テーブル生成の一例を示す図である。
以下、本実施形態の質問応答システムを、図1ないし図25を用いて説明する。
〔質問応答システムの構成〕
先ず、図1ないし図4を用いて質問応答システムの構成について説明する。
この質問応答システムの構成は、以下の実施形態1〜実施形態3で共通に用いられるものである。
質問応答システム100は、図1に示されるように、質問応答装置120と質問応答データ生成装置130がネットワーク5により接続された形態である。質問応答システム100では、質問者110は、質問応答端末111を介して、質問応答装置120に質問内容が記述された質問文112を送り、その応答文113を受け取る。
質問応答の一連の流れは以下の通りである。質問応答端末111は、質問者110が音声、入力デバイス、画面上の操作、ジェスチャーなどを通じて質問内容を入力すると、その内容を質問文112として質問応答装置120に送る。質問文112は、質問文や単語、またはそれに類する表現(文章で記述された選択肢における選択番号など)など、自然言語によるテキスト表記された物、あるいはそれに変換可能な形式で表現される。質問応答装置120は、質問文112を受け取ると、応答データベース121中で質問文112と近い意味を有する質問文に対応する応答文を検索し、見つかった場合には、その応答文を質問者への応答文113として返す。質問応答端末111は、質問応答装置120から応答文113を受け取るとそれを画面や音声などで質問者に通知し、質問応答の一連の作業が完了する。
上記質問応答の一連の作業で参照される応答データベース121の格納データは、質問応答データ生成装置130により作成される。質問応答データ生成装置130は、一ないし複数の文書140を格納する文書データベース131と、一ないし複数の応答データ生成パターン141を格納するパターンデータベース132を保持する。応答データ生成パターン141は、文書140中に現れる特定のパターン(章の階層構造や文における単語の係り受け関係など)と、それに対応する応答データのテンプレートで構成される。質問応答データ生成装置130は、文書データベース131中の文書140から、上記応答データ生成パターン141に記述されたパターンに合致する部分を抽出し、その部分に含まれる語句をテンプレートにあてはめ、応答データベース121の格納データを生成する。
次に、図2を用いて質問応答装置のハードウェア・ソフトウェア構成について説明する。
質問応答装置120は、図2に示されるような一般的な情報処理装置で実現することができ、ハードウェア構成として、CPU(Central Processing Unit)210、メインメモリ220、ネットワークインタフェース230、ストレージインタフェース240がバスによって接続された形態である。
CPU210は、メモリ220中にロードされた各種プログラムを実行し、質問応答装置120の各構成要素を制御する。メインメモリ220は、HDD250に格納されているプログラムと必要なワークデータを実行時に保持する。ネットワークインタフェース230は、質問応答装置120と他の計算機(質問応答端末111や質問応答データ生成装置130)とデータを送受信するためのインタフェース装置であり、例えば、NIC(Network Internet Card)や無線LAN(Local Area Network)の送受信装置が、これに該当する。
ストレージインタフェース240は、補助記憶装置上のデータを読み書きするための補助記憶装置とのインタフェース装置である。例えば、HBA(Host Bus Adapter)などが該当する。ストレージインタフェース240に接続された補助記憶装置は、データを長期的に保存する比較的大容量の記憶装置であり、HDD(Hard Disk Drive)やSSD(Solid State Drive)、光ディスク、磁気ディスク、磁気テープなどが該当する。なお、図2では、補助記憶装置の例として、HDD250を図示している。
HDD250には、質問応答プログラム221がインストールされており、その下位のプログラムとして、一問一答型応答プログラム222、シナリオ分岐型応答プログラム223、ドリルダウン型応答プログラム224を有する。これらのプログラムは、後に説明する実施形態1ないし実施形態3に示す応答文113の生成方式毎に応じて、それぞれ動作するプログラムである。
応答データ管理プログラム225は、HDD250中にある応答データベース121を管理し、応答データベース121および応答履歴データベース122内に格納されたデータを読み書きするプログラムである。
また、HDD250は、応答データベース121、応答履歴データベース122を保持する。
応答データベース121は、質問文112に対し応答文113を決定するために質問応答プログラム221が用いるデータを格納するデータベースである。応答履歴データベース122は、過去の質問・応答のやり取りの履歴において、応答データベース121に格納された応答データがどれだけ利用されたかを格納するデータベースである。応答履歴データベース122の実現方式として、質問・応答のやり取りのログの形で保持してもよいし、応答データベース121に格納された応答データ毎に対応して利用回数のカウンタを保持してもよい。また、その利用回数のカウンタは、応答履歴データベース122として応答データベース121と別に保持するのではなく、応答データベース121中の各応答データにカウンタが付与されていてもよい。
次に、図3を用いて質問応答データ生成装置の機能構成について説明する。
質問応答データ生成装置130は、図3に示されように、機能部として、応答データ生成部360、記憶部350を有する。
応答データ生成部360は、応答データを生成する機能部であり、下位の機能部として、構造解析部370、テキスト解析部380、パターンマッチング処理部385、データ生成関連部390、応答データ管理部395を有する。
構造解析部370は、文章140の構造を解析する部分であり、下位のレイアウト分析部371、章階層分析部372、表形式分析部373、図形式分析部374を有する。レイアウト分析部371は、文章レイアウトを解析する機能部である。章階層分析部372は、文章140の章の階層を解析する機能部である。表形式分析部373は、文章140内に記述された表の形式を解析する機能部である。図形式分析部374は、文章140内に記述された図の形式を解析する機能部である。構造解析部370は、これらに限られず、文書の構造を解析する他の機能部を内包することができる。
テキスト解析部380は、文章内の意味内容に着目してテキストの情報を分析する機能部であり、下位の機能部として、形態素解析部381、係り受け解析部382、照応解析部383、正規表現部384を有する。形態素解析部381は、文章140内の形態素(言語学でいう意味を有する最初単位)を解析する機能部である。係り受け解析部382は、文章140内の単語の関係を解析する機能部である。照応解析部383は、文章140内の代名詞の情報などの意味内容に解析する機能部である。正規表現部384は、文章140の正規表現を解析する機能部である。
テキスト解析部380は、これらに限られず、テキストの情報を分析する他の機能部を内包することができる。
パターンマッチング処理部385は、文章140と応答データ生成パターン(後述)のマッチング処理を行う部分である。
データ生成関連部390は、応答データを生成する機能に関連する機能部であり、下位の機能部として、マッチデータ統計部391、生成可否判定部392、出力データ変更部393、同義語・言い換え展開部394を有する。マッチデータ統計部391は、スロットの値(単語)の出現回数をカウントする機能部である(実施形態2で詳述)。生成可否判定部392は、応答データの品質を高めるために、応答データとして生成する価値があるか否かを判定する機能部である。出力データ変更部393は、テンプレート(実施形態2、実施形態3で詳述)を書き換えるための機能部である。同義語・言い換え展開部394は、質問文の同義語を言い換えとして、展開したり、応答データにおいて、語句を類義語、同義語に置き換える機能部である。
応答データ管理部395は、一度生成した応答データに関し、後日削除や階層管理を行う機能部である。応答データ管理部395は、質問応答データ生成装置130ではなく質問応答装置120内にあってもよい。
記憶部350は、情報を記憶する機能部である。記憶部350は、文書データベース131、パターンデータベース132、マッチ済みデータ133、類義語・言い換え辞書134を保持する。文書データベース131は、文章140を保持するデータベースである。パターンデータベース132は、応答データ生成のためのパターン情報を保持するデータベースである。マッチ済みデータ133は、文章140の応答データ生成のためのパターンのマッチングを行ったデータである。類義語・言い換え辞書134は、同義語・言い換え展開部394によって使用される単語の同義語・類義語を保持するシソーラスである。
次に、図4を用いて質問応答データ生成装置のハードウェア・ソフトウェア構成について説明する。
質問応答装置120は、質問応答装置120と同様に、図4に示されるような一般的な情報処理装置で実現することができる。質問応答装置120のハードウェア構成は、質問応答装置120と同様である。
質問応答装置120のHDD250には、応答データ生成プログラム260を有する。応答データ生成プログラム260は、応答データ生成部360の機能を実現するプログラムである。応答データ生成プログラム260には、下位のプログラムとして、構造解析プログラム261、テキスト解析プログラム262、パターンマッチング処理プログラム263、データ生成関連プログラム264、応答データ管理プログラム265を有する。
構造解析プログラム261、テキスト解析プログラム262、パターンマッチング処理プログラム263、データ生成関連プログラム264、応答データ管理プログラム265は、それぞれ、構造解析部370、テキスト解析部380、パターンマッチング処理部385、データ生成関連部390、応答データ管理部395の機能を実現するプログラムである。
また、質問応答装置120のHDD250には、文書データベース131、パターンデータベース132、マッチ済みデータ133、類義語・言い換え辞書134が格納されている。
〔実施形態1〕
以下、実施形態1に係る質問応答システムを、図5ないし図10を用いて説明する。
本実施形態の質問応答データ生成装置では、一問一答型質問応答の応答データを生成する。一問一答型質問応答とは、質問者110の質問を、個々で捉え、前後の関連についてはシステム側で解析をしない応答である。
本実施形態では、質問者110が税務処理の年末調整に関する質問を行い、質問応答データ生成装置130は、年末調整マニュアルに基づいて応答データを生成する例について説明する。
先ず、図5ないし図9を用いて本実施形態の質問応答データ生成装置で用いられるデータ構造について説明する。
先ず、図5を用いて質問応答テーブル400について説明する。
質問応答テーブル400は、質問応答装置120の一問一答型プログラム222が質問応答に利用するテーブルであり、応答データベース121内に一つまたは複数格納される。
質問応答テーブル400は、図5に示されるように、質問文410と応答文420の対応関係を列挙し、行に該当するエントリごとに格納したテーブルである。例えば、図5に示される質問応答テーブル400では、質問文・応答文の対がエントリ431、432、433の3件登録されている。
一問一答型プログラム222は、質問文112を受け取ると、質問応答テーブル400のエントリ431、432、433のうち、エントリ中の質問文410と質問文112が近いものを探す。ここで、「近い」とは、例えば、単語の数が一致する、また、単語の意味的距離が近いなどにより、計測される。もし、近い質問を有するエントリが存在した場合、そのエントリの応答文420を一問一答型プログラム222の応答として出力する。また、その際参照したエントリの情報は、応答履歴データベース122に格納される。
次に、図6を用いて文書の構成例について説明する。
文書140は、メタデータ部510と文書本体520で構成される。メタデータ部510は、文書内部の記述ではなく文書そのものに関する情報を、項目名511とその値512の対応関係を列挙した形式で保持する。図6の例では、三つのメタデータエントリ513、514、515があり、メタデータエントリ513は、文書の名称、メタデータエントリ514は、ファイル名、メタデータエントリ515は、最終更新日付が格納されている。
文書本体520は、文書140を構成する実際のテキスト・図・表などのデータが格納されている。文書本体520は、一般的に構造を有する。この構造は、テキストの位置・内容・大きさ・装飾や、それらが罫線によって区切られることで定義される。図の例では、文書本体520は、タイトル530をタイトルとする一つの章を表しており、その章には節タイトル540、550で示される二つの節があると考えることができる。タイトル540に対応する節では、節本文541の後に、箇条書き542が並んでいる。タイトル550に対応する節では、節本文551の後に、表キャプション552および表553が並んでいる。
すなわち、この文書本体520は章の後に節が来て、節の後に節本文が来るという階層構造を示している。
次に、図7を用いて本実施形態の文書の構造情報について説明する。
本実施形態の構造情報600は、文章140の構造を解析した情報であり、図7に示される例では、木構造の形で表現されている。構造情報600は、根ノード610を根(ルート)とするノード群が成す木構造である。この構造情報600において、文書中で包含関係にある関係は、親子関係として表現される。例えば、根ノード610は、メタデータ510に対応するノード620と文書本体に対応するノード630を子ノードとする。メタデータに対応するノード620は、メタデータエントリ513、514、515に対応するノード621、622、623を子ノードとして有する。本文に対応するノード630は、章に対応するノード640を子ノードとして有し、章に対応するノード640は、節に対応するノード641、650を子ノードとして有する。また、節に対応するノード641、650は、節の内容に関連して、節本文に対応するノード642、651や、箇条書きに対応するノード643、表に対応するノード660などを子ノードとして有する。箇条書きに対応するノード643は、箇条書きを構成する各項目に対応するノード644、645、646を有する。
表に対応するノード660は表を構成する各行に対応するノード661、664、667を有し、行に対応するノード661、664、667は、それぞれその行を構成する各セルに対応するノード662、663、664、665、668、669を有する。表は構造情報上で異なる表現方法を取ってもよい。例えば、表を構成する列に対応するノードを表に対応するノードの子ノードとし、列に対応するノードが列を構成する各セルに対応するノードを子ノードに有するようにしてもよい。また、列、行の順を問わず、表を構成する全セルを表に対応するノードとして表の子ノードとしてもよい。
各ノードは、ノードに対応する文書の部分に対し、階層名(章や節、表など)に留まらずその部分に含まれるテキストや、構造に基づく情報(文書におけるページ数や章、節、表の番号、テキストの位置やフォント情報)を同様に保持することができる。
本実施形態では、構造情報600に示す木構造において、事前に定義されたパターンに合致する記述、すなわち木構造の部分木を抽出し、応答文を生成する。
次に、図8を用いて応答データ生成パターンについて説明する。
応答データ生成パターン700は、応答データを生成するためにあてまめるパターンである。応答データ生成パターン700は、図8に示されるように、三つのパターン710、711、712からなる。パターン710、711、712は、構造情報の木構造の一部に相当する抽出パターン720と、そのパターンに合致した記述を抽出した場合に生成される質問、応答対の元となる応答データテンプレート730からなる。
抽出パターン記述721は、抽出パターン720の情報を記述するものである。本パターンでは、木構造にある、親子関係にあるノードの階層名とテキストを対にして記載することで抽出したい構造を示している。この例では、階層名722「節」と階層名724「節本文」が親子関係にある場合を示しているまた、各階層名に対応してスロット723「<語句>」とスロット725「<意味>」が記載されている。これは、抽出した構造において、対応するノードのテキストがこれらのスロットに代入されることを示している。スロットとは、応答データ生成のときに、その部分に具体的な値が代入されることを示すパターン表現である。
抽出パターン記述741には、また、別の抽出パターン720が記述されている。抽出パターン記述741は、複数の階層名742、743、745を有する点は、抽出パターン記述721と同一である。しかし、スロット746、747においてその部分に対応するテキストの種類(例えば、数字)を記述していたり、スロット以外のテキストを含む点が異なる。この場合、構造情報600において、本抽出パターン720で抽出される部分木の階層名745に対応付けられるノードは、ノード中のテキストとスロットの対応関係が取れなければならない。このようなテキストとスロットの対応関係を取る手法には、ワイルドカードや正規表現などの手法が利用できる。
また、抽出パターン720の記述方法として、木構造同士で柔軟に対応関係を取る技術を取り入れることもできる。例えば、論文Dongwon Lee et al., Taxonomy of XML schema languages using formal language theory. ACM Trans. Internet Technol. 5, 4 (November 2005), 660-704.ではXML(Extensible Markup Language)で記述された木構造の文書に対し、パターンに合致する部分木を柔軟に抽出する方法を提案している。
応答データテンプレート730は、質問文と応答文の対として記述される。これらの質問文・応答文は、文中に抽出パターン720中に現れるスロットを含めることができる。この場合、抽出された部分木において、抽出パターン720中のスロットに対応付けられるテキストがあった場合には、そのテキストが応答文中のスロットに代入されて応答文が生成される。
また、応答データテンプレート730は、同一の抽出パターン720と対応付けられる複数の部分木に関して集計した内容を含むことができる。例えば、応答文736において、スロット「<項目:一覧>」767は、抽出パターン例761中のスロット「<項目>」766に対応付けられた複数のテキストを列挙したテキストが代入される。
図8には記載されていないが、応答データテンプレート730において、スロットの出力方法を加工する記述を加えてもよい。例えば、日本語であれば適切な活用形への変更や、英語であれば、動詞の時制を特定の時制に変更するなどの加工が考えられる。
なお、図7、図8に示される例では、文書構造を木構造で表現しているが、部分構造を表現可能であれば、別の表現形式であってもよい。例えば、文書における表は、木構造ではなく、多次元配列などの形で表現してもよい。
次に、図9を用いて生成される応答データについて説明する。
応答データ900は、文書140およびそれに対応する文書構造600から、応答データ生成パターン700を用いて生成される
応答データのエントリ931、932は、節に対応するノード641、650およびその子ノードがパターン710と対応づいた結果生成された例である。エントリ932における応答文は表を含んでいる。これは、ノード651に含まれる記述「表2」の参照先がノード660であり、文書中に表553が含まれているから、後に説明する置換処理により、表553が応答文に含まれたものである。
応答データのエントリ933、934は、行に対応するノード664、667およびその子ノードが、パターン741と対応づいた結果生成された例である。
応答データのエントリ935は、行に対応するノード664、667およびその子ノードが、パターン761と対応づいた結果生成された例である。
次に、図10を用いて質問応答データ生成装置が行う本実施形態の応答データ生成処理について説明する。
応答データ生成処理では、質問応答データ生成装置130中の応答データ生成プログラム360が文書データベース131に格納された文書群から質問応答装置120が用いる応答データベース121に格納する質問応答テーブル形式の応答データ900を生成する。
ループ開始のS810からループ終了のS840の間に示す処理は、入力される文書140毎に繰り返し行う。また、もし既に文書群のうち、応答データ生成処理が実行済みの文書があれば、未実行の文書のみを対象としてもよい。
先ず、質問応答データ生成装置130の構造解析部370の下位機能部であるレイアウト分析部371、章階層分析部372、表形式分析部373、図形式分析部374が文書140を分析して、図7に示した文書構造600のような木構造の表現に変換する(S815)。文書140を木構造の表現に変換するには、既存の技術が利用できる。例えば、レイアウト分析部371に相当する段落に関する情報を保持しない形式の文書ファイルを段落ごとに分ける手法として、互いに近傍に位置する文を同一段落と見なす手法がある。
次に、テキスト解析部380は、変換した文書140の木構造表現に対し、各ノードの保持するテキスト情報を解析する(S820)。このS820の処理は、テキスト解析部380に含まれる形態素解析部381、係り受け解析部382、照応解析部383などがそれぞれの機能に応じた処理を行う。
次に、パターンマッチング処理部385は、パターンデータベース132に格納された各パターンについて、文書140の木構造表現から抽出パターン720に合致する部分木を抽出する(S825)。ノード間の関係が一致するようなノード群の抽出には、前述のDongwon Lee論文に記載された手法などを用いることができる。さらに、抽出した部分木の各ノードにおけるテキストと、抽出パターン720中のテキストやスロットを照合し、対応が取れるか否かを判定する。対応が取れない場合には、その部分木は抽出できないと見なす。この照合処理には、正規表現などが利用できる。
次に、S825で抽出した部分木について、抽出パターン720と部分木を対にしてマッチ済みデータ133に格納する(S835)。
次に、全文書の処理が完了していれば続くS850に進み、未完の文書があれば、S810に戻る(S840)。
S850からS885に示す処理は、マッチ済みデータ133において特定の抽出パターン720と対応関係が取れた部分木が複数ある場合、抽出パターン720毎にデータ生成関連部390が実施する。
先ず、実施対象の抽出パターン720に対応づく複数の部分木について、S870で選択した応答データテンプレート730中のスロットを埋め、応答データを出力する(S875)。その際、一つの部分木から応答データテンプレート730に従い、一つの応答データを出力するだけでなく、複数のデータを出力してもよい。例えば、類義語・言い換え辞書134を参照して、応答データの単語を類義語に置き換えたり、語順を変更するなどした応答データを合わせて出力することができる。
また、S875では、応答データテンプレート730中にS815で解析した文書の構造600とS835で格納したマッチ済みデータ133から生成可能な他の情報を含んでもよい。例えば、文書における章のタイトルの一覧を列挙したり、表における項目数を応答文に含める際に利用できる。図8に示した応答文736におけるスロット「<項目:一覧>」767に、抽出パターン761中のスロット「<項目>」766に対応付けられた複数のテキストを列挙したテキストを代入する場合は、その一例である。
次に、必要ならば、S875で出力された応答文の書き換えを行う(S880)。応答文中に「上記の」「表2の」「ページ180」など文書中の他の位置を示す記述があった場合、対応する文書140の木構造を参照して、そのような記述の指し示す文章や図表を取得し、その記述を置き換えたり、応答文の末尾に追加するなどして、応答文中に対応する文書140中の記述が現れるようにする。また、「上記の」のようにその単語の現れる位置から相対的な位置を示す記述の場合には、絶対的な位置を示す記述、例えば、ページ番号や段落番号に置き換えてもよい。
そして、すべての抽出パターン720に対する処理が完了済みであれば、応答データ生成フロー800は終了し、そうでなければ、未完の抽出パターン720に対し、S850以降の処理を繰り返す(S885)。
最後に、重複データの削除、不適切データの削除を行う(S890)。
ここまでのステップを実施した結果、同じ質問文・応答文の対応関係を有する応答データが複数できる場合がある。その場合重複するデータは、一つだけ残し他を削除することにより、応答データの量を削減することができる。S890は補足的な処理であり、実施しなくても応答質問システムの応答内容には変化しないが、質問応答データ生成装置の計算機リソース(CPUの利用時間やメモリ・記憶媒体の使用容量)の削減に影響する。
また、データ生成関連部390の生成可否判定部392は、文法的に正しくない、あるいは、質問応答システムに用いることが不適切であるか否かをチェックし、そのような応答文を含む応答データを削除する。
次に、応答データ管理部の処理について説明する。
図10に示した応答データ生成処理により生成したデータは、以下のいずれかの観点で正しくない場合がある。一つは、質問文と応答文の対応関係が合っていないケースであり、今一つは、質問文自体が文法や意味の観点で不自然な場合である。これらが生じる原因として、例えば、複雑な表において、先頭行と先頭列どちらが項目タイトルを意味するかは、構造情報だけから特定できないなどがある。
そのため、応答データ管理部395は、一度生成して質問応答プログラム221により使用され始めた応答データベース121について、各生成結果の利用状況に応じて削除などを行う。例えば、応答履歴データベース122を参照し、一定時間以上利用されていない質問・応答対は、前述の二つの観点のうち、後者の質問文自体が不自然な結果については、質問者110の質問文112と類似するとみなせる可能性はないと考えることができる。この場合、利用価値がないので、応答データ管理部395はそのような質問・応答対を削除する。
また、応答データ管理部395は、応答データベース121について、各生成結果の利用状況に応じて、各応答データを複数にグループに分けてもよい。例えば、質問・応答対を利用頻度の高・中・低でグループ分けし、各グループ毎の統計情報などを取得して、以後の応答データ作成の際にその統計情報を教師データとして、生成データの利用頻度を推定するのに利用できる。
以上、本実施形態によると、パターンデータベース132内にパターンを作成しておくことにより、そのパターンと文書140から応答データベース121に格納する応答データを生成することができる。また、重複した余分な応答データを削除したり、応答文として解析した文書構造や、抽出パターンに対応する複数の部分木に基づく記述も含めることにより、応答データテンプレート730中のスロットに単語を代入するだけではない、質の高い応答文を生成することができる。
〔実施形態2〕
以下、本発明の実施形態2を、図11ないし図17を用いて説明する。
本実施形態の質問応答データ生成装置では、シナリオ分岐型システムの応答データを生成する。シナリオ分岐型システムの応答データは、質問者110の質問について、シナリオを想定し、質問がシナリオに従って、分岐するものとして作成される応答データである。シナリオ分岐型システムの応答データは、シナリオ分岐型応答プログラム223による質問応答を行う場合に用いられるものである。
本実施形態では、実施形態1と異なる所を中心に説明する。
実施形態1に示す一問一答型の質問応答システムでは、質問者110が質問文112を質問応答装置120に送ると、その回答が応答文113として質問者110に返り、質問応答が一つの区切りとして完了していた。
本実施形態が対象とするシナリオ分岐型の質問応答システムでは、質問者110と質問応答装置120が質問文112、応答文113のやりとりを複数回繰り返し、その中で最終的に質問者110の質問内容を絞り混んで質問応答装置120が回答を返すものである。
先ず、図11および図12を用いて質問のシナリオについて説明する。
シナリオ分岐図1000は、質問のシナリオをツリー構造の図として表現したものであり、図11に示されるように、例えば、状態1010、1020、1030、1031、1040、1041、1042、1043、1050、1051、1052、1053、1054、1055と、それらの間をつなぐ状態遷移関係で定義される。
本実施形態では、質問者110が銀行の顧客であり、質問は、銀行口座に関する質問をすることを想定する。特に、ここでは、例えば、普通預金口座の口座開設における営業時間を問い合わせる場合の状態遷移を例に採って説明する。
初期状態1010から状態遷移が始まり、先ず続く状態1020に遷移する。この状態1020には、応答文「ご要望の作業は?」が設定されているので、シナリオ分岐型応答プログラム222は応答文113として「ご要望の作業は?」を質問者110に返す。
状態1020からは、状態1030、1031と二つの遷移先がある。両遷移先の状態1030、1031は共に質問文が設定されている。この時、シナリオ分岐型応答プログラム222は、質問者110に次の入力を促す。そして、その質問文112と、遷移先の状態1030、1031に設定された質問文を比較し、近い方の状態に遷移する。文同士の近さは、一致する単語数や編集距離、単語や文章のベクトル表現における距離などで評価できる。なお、質問者110の質問文112と状態1030、1031に設定された質問文がいずれも遠い場合には、シナリオ分岐型応答プログラム222は、再度、質問者110に入力を促してもよい。
例えば、質問文112が「口座開設について」の場合、状態1030、1031では、前者に設定される質問文の方が同じ単語を含む数が多いため、状態1030に遷移する。
同様に、状態1030における応答文「どの口座ですか」に対し質問者110が「普通預金口座」と入力すると、次は状態1040に遷移し、状態1040における応答文「知りたい内容は何ですか?」に対し、質問者110が「営業している時間」と入力すると、次は状態1051に遷移する。状態1051はそれ以上遷移先が設定されていないので、状態1051に設定された応答文「平日の朝10時から…」を応答すると、この質問応答のやり取りは完了する。この状態遷移の過程において、参照した各エントリの情報は、応答履歴データベース122に格納される。
シナリオ記述テーブル1100は、図12に示されるように、シナリオ分岐図1000で表されたシナリオを、テーブル形式で表現したものであり、応答データベース121に格納され、シナリオ分岐型応答プログラム223が参照する。
シナリオ記述テーブル1100のエントリ1120〜1132は、シナリオ分岐図1000における各状態と、1対1で対応付けられる。よって、シナリオ記述テーブル1100が生成できればシナリオ分岐図1000に示すようなシナリオの質問応答が可能となる。
シナリオ記述テーブル1100の各エントリは、状態ID1110、質問文1111、応答文1112、遷移先状態ID1113を有する。各エントリは、状態ID1100に示す状態において、質問者110の質問文112が質問文1111と近い場合、遷移先状態ID1113の状態となり応答文1112を応答する。なお、ここで、各エントリ中の状態IDは遷移元の状態をさしていることに留意する。
次に、図13を用いて本実施形態の文書の構造情報について説明する。
本実施形態の構造情報1900は、実施形態1同様に、文章140の構造を解析した情報であり、図13に示されるように、木構造の形で表現されている。
図13に示される構造では、ルートノードの下にノード1910(本文)を有し、その下の子ノードとしては、章を表すノード1920、1940、1950を有する。ノード1920の下の子ノードとしては、節を表すノード1921、1919、1930を有する。ノード1921の子ノードとしては、項を表すノード1922、1924を有する。ノード1922の子ノードとしては、項本文を表すノード1923を有する。
次に、図14を用いて本実施形態の応答データ生成パターンについて説明する。
本実施形態では、構造情報1900に示す木構造において、事前に定義されたパターンに合致する記述、すなわち木構造の部分木を抽出し、応答データを生成する点は、実施形態1と同じである。しかしながら、本実施形態では、図11、図12で表されるシナリオに基づいて、質問と応答が行われることを想定しているため、応答データ生成パターンの形式が異なる。
応答データ生成パターン1200は、図14に示されるように、抽出パターン720と応答データテンプレート1230のエントリを有する。抽出パターン720は、実施形態1の図8における応答データ生成パターン700と同様に、図13の構造情報1900中の木構造の一部に合致する内容を記述する。抽出パターン記述1221は、実際に構造情報1900の一部に合致する例を記述する。応答データ生成パターン1200が有する応答データテンプレート1230は、シナリオ記述テーブル1100に合わせたデータを保持する。本実施形態の応答データテンプレート1230では、シナリオ記述テーブルテンプレート1231が記述されている。シナリオ記述テーブルテンプレート1231は、図12に示したシナリオ記述テーブル1100と同様、状態ID1110、質問文1111、応答文1112、遷移先状態ID1113を有する。ただし、質問文1111や応答文1112の内容には、抽出パターン例1221で用いたスロットを含めることができる。また、状態ID1110、遷移先状態ID1113には具体的な状態のIDを含めず、仮の値<a><b><c>が入っている。これは同一のパターンに対応する部分木が複数存在する場合、それぞれの部分木において<a><b><c>に異なるIDを生成して割り当てることにより、異なる部分木間でIDが重複することを防ぐためである。
また、応答データテンプレート1230は、部分木に対応して生成される複数のエントリ1240、1241、1242、1243を有する。同一部分木内では、異なるエントリ間で同一のIDの仮の値<a><b><c>に対しては、同一のIDが生成され、割り当てられる。
次に、図15を用いて応答文マッピングテーブルについて説明する。
応答文マッピングテーブル1400は、応答データ生成パターン1200に基づいて、応答データを生成するときに、スロットの値の対応関係を示すテーブルであり、図15に示される例では、文書中においてパターン1200に対応付けられる各木構造に対してスロットに対応する項目1410、1411、1412に対してそれぞれに対応する値1420、1421、1422の組み合わせに対し、値1430は、対応する応答文の有無を示している。スロットの値1420、1421、1422は必ずしも埋まっている場合に限らず、空白やアスタリスク(任意の値を示す値)でもよい。これは正規表現などを用いて、当該スロットに対応するテキストやノードが存在しない部分木との対応付けがなされた場合に発生する。
次に、図16を用いて本実施形態の応答データの一例を示す図である。
本実施形態では、図11、図12に基づくシナリオと、図14の応答データ生成パターン1200に基づき、応答データ2000として、図16に示されるようなシナリオ記述テーブルの形式のデータが生成される。
応答データ2000として出力されるシナリオ記述テーブルの質問文、応答文、状態IDの意義は、図12により説明したものと同様である。
次に、図17ないし図19を用いて質問応答データ生成装置が行う本実施形態の応答データ生成処理について説明する。
本実施形態は、質問応答データ生成装置130中の応答データ生成プログラム360が文書データベース131に格納された文書群から質問応答装置120が用いる応答データベース121に格納するシナリオ記述テーブル1100を生成する。
本実施形態の応答データ生成テーブルの処理は、実施形態1の図10のフローチャートで示したものとほぼ同様であるが、図17に示されるように、S850とS875の間に、S865とS870の処理が挿入されている所が異なっている。以下、この異なっている所のみを説明する。
S865では、必要ならば、S815で解析した文書の構造600と、S835で格納したマッチ済みデータ133を用いて、出力データ変更部393が抽出パターン720に対応する応答データテンプレート730の内容を書き換えて、異なる応答データテンプレート730を作成する。
次に、S870では、S865で応答データテンプレート730の書き換えにより複数の応答データテンプレート730が作成された場合、実施対象の抽出パターン720に対応づく複数の部分木について、部分木の数などに応じて各部分木に対応づく、応答データテンプレート730を選択する。
次に、図18および図19を用いて応答データテンプレートの複製・変更の処理(図17のS865)の詳細について説明する。
先ず、図15に示した応答文マッピングテーブル1400を参照し、抽出パターン720に含まれるスロット毎に、そのスロットの値を固定させた場合に、他のスロットの値の範囲が狭くなるか否かを判定し(S1310)、複数のスロットについて、そのスロットの値を固定させた場合に、より範囲が狭くなりやすい順にスロットの確定順を定める(S1315)。
以下、図15の示した応答文マッピングテーブルの具体例より、応答文マッピングテーブルのスロットの値の範囲が狭くなるか否かの判定について説明する。
図15(a)に示した応答文マッピングテーブル1400が並べ替え前のものであり、図15(b)に示した応答文マッピングテーブル1450がスロットの順を並べ替えたものである。
応答文マッピングテーブル1450は、応答文マッピングテーブル1400に対し、項目1410、1411、1412の並びを変えたものである。応答文マッピングテーブル1400では、先に項目1410(<作業>)により値が分類され、その後、項目1411(<事項>)により分類されているが、応答文マッピングテーブル1450では、先に項目1411(<事項>)により分類を行っている。その結果、応答文マッピングテーブル1450では、値1430における範囲1460、1461、1462の例では、項目1411(<事項>)の値が確定すると、その時点で項目1412(<口座名>)の取りえる値が一通りに定まることがわかる(値1430に1以上の値を有する口座名が一意に定まる)。例えば、<事項>=“営業時間”の値が確定すると、<作業>の値如何にかかわらず、<口座名>=“普通預金”が確定する。一方、元の応答文マッピングテーブル1400においては、項目1410(<作業>)を定めても、項目1412(<口座名>)の値は、候補が絞りきれない(例えば、<作業>=“開設”が定まった時点では、<口座名>の取りうる値は、<事項>の値に従って、“普通預金”、“当座預金”、“普通預金”、“定期預金”の三通りの可能性がある)。よって、項目1411は項目1410に比べ、それを確定させることによって、他の項目の取りえる範囲が狭くなりやすいと言える。
次に、S1315でスロットの確定順を決定後、S1320とS1325で対応してシナリオ記述テーブルテンプレート1231の変更、複製を行う。
以下、S1320とS1325の手順を、図19を用いて説明する。
図19は、図14に示した応答データ生成パターン1200中のシナリオ記述テーブルテンプレート1231を変更する例について説明する図であり、図19(a)に示されるのが、変更前シナリオ記述テーブルテンプレート1500、図19(b)に示されるのが、エントリ並べ替えシナリオ記述テーブルテンプレート1520、図19(c)に示されるのが、エントリ削減後シナリオ記述テーブルテンプレート1540である。
S1320では、シナリオ記述テーブルテンプレート1231中の各エントリの記述内容を比較し、どのエントリの応答文1112がどのスロットの入力を促し、どのエントリの質問文1111がそれを受けて状態遷移を行うものか推定する。
変更前シナリオ記述テーブルテンプレート1500においては、エントリ1510は、遷移先状態ID1113に「<a>」を有し、エントリ1511は状態IDに同じ「<a>」を有する。また、エントリ1511は質問文にスロット<作業>を有する。このことから、エントリ1510の応答文1112は、エントリ1511の質問文1111にあるスロット<作業>の入力を促すものであると推定する。同様に、エントリ1511の応答文1112は、エントリ1512の質問文1111にあるスロット<口座名>、エントリ1512の応答文1112は、エントリ1513の質問文1111にあるスロット<事項>入力を促すものであると推定する。
そして、S1325では、S1315で定めたスロットの確定順と、S1320で推定したエントリとスロットの関係に基づいて、シナリオ記述テーブルテンプレート1231の内容を入れ替える。エントリ並べ替えシナリオ記述テーブルテンプレート1520は、変更前シナリオ記述テーブルテンプレート1500に対し、図15(b)の例で示したS1315で定めたスロットの確定順が「<事項>→<口座名>→<作業>」であった場合の入れ替え後のテンプレートを示している。
変更前シナリオ記述テーブルテンプレート1500から入れ替えを行いエントリ並べ替えシナリオ記述テーブルテンプレート1520を作成する手順は、以下の通りである。
S1320において、スロット毎に、その内容を問う応答文1112を有するエントリと、そのスロットの内容を受ける質問文1111を有するエントリが推定できている。よって、状態ID1110として初期状態対応するエントリ1530の応答文として、最初に確定させるスロット<事項>を問う応答文1112を設定する。エントリ1530の遷移先状態ID1113「<a>」に対して、続くエントリ1531では状態ID1111として同じ「<a>」を有するようにする。その質問文1111は、スロット<事項>を受ける質問文であるエントリ1513の質問文1111を設定する。このように、スロットに対応する応答文1112をあるエントリに設定し、そのエントリに設定された遷移先状態ID1113に対応する状態ID1110を有する続くエントリ、そのスロットに対応する質問文1111を設定するということを確定順に繰り返し、全スロットが確定するエントリ1533の応答文1112には、元の変更前シナリオ記述テーブルテンプレート1500における最後の(遷移先状態ID1113として終了状態を有する)エントリ1513の応答文1112を設定する。
次に、スロットの確定順によっては、分岐中一意に定まるケースがあるか否かを判定する(S1330)。例えば、図15(b)の応答文マッピングテーブル1450では、値1430における範囲1460、1461、1462の例では、項目1411の値が確定すると、その時点で項目1412の取りえる値が一通りに定まることがある。よって、図15(b)の応答文マッピングテーブル1450ではそのようなケースがあると判定される。そのようなケースがある場合、S1335へ進む。
そして、スロットの確定順とその値によって、本来後で確定される以後のスロットの値が参考して確定されるケースにおいて、そのスロットの値を問う応答・入力のためのエントリを削除する(S1335)。
図15(b)の応答文マッピングテーブル1450では、値1430における範囲1460、1461、1462の例では、スロット<事項>の値が確定した時点で、その後の状態遷移先としてスロット<口座名>はそれぞれ一通りに決まる。図19(c)に示されるエントリ削減後シナリオ記述テーブルテンプレート1540は、それに従って、図19(b)に示されるエントリ並べ替えシナリオ記述テーブルテンプレート1520から、スロット<口座名>を問うエントリを削除した例である。S1320、1325の処理により、エントリ並べ替えシナリオ記述テーブルテンプレート1520において、エントリ1531の応答文1112と、エントリ1532の質問文1111はスロット<口座名>の値を確定させるためのものであることが分かっている。そこで本ステップでは、エントリ並べ替えシナリオ記述テーブルテンプレート1520に対し、初期状態から終了状態までに至る一連の状態遷移のうち、スロット<口座名>を特定させるための項目、すなわち、エントリ1531の応答文1112とエントリ1532の質問文1111を切り詰め、エントリ並べ替えシナリオ記述テーブルテンプレート1520からエントリ削減後シナリオ記述テーブルテンプレート1540を作成する。
上記に示したような一連の手順により、S865の処理では、文書の構造情報と、抽出パターン720に対応する複数の部分木の情報を用いて、応答データテンプレートを更新・変更することができる。
そして、図8のステップ870では、スロットの値に応じて、図18に示した応答データテンプレートの複製・変更の処理で生成した複数の応答データテンプレート1230の内、最適なもの一つを選択することができる。例えば、図15(b)に示した応答文マッピングテーブル1450に従うと、スロット<事項>が「営業時間」となる部分木に対しては、図19(c)のエントリ削減後シナリオ記述テーブルテンプレート1540を選択し、スロット<事項>が「必要書類」である部分木に対しては、図19(b)のエントリ並べ替えシナリオ記述テーブルテンプレート1520を選択することにより、図16に示したような不要な応答・入力エントリを省いたシナリオに基づいた応答データ2000を生成することができる。
また、応答データ管理部395は、質問応答プログラム221の運用開始後、応答履歴データベース122を参照して、エントリ並べ替えシナリオ記述テーブルテンプレート1520を更新することもできる。図15(a)の応答文マッピングテーブル1400の値1430は、図18の応答データテンプレートの複製・変更の処理実行時の段階では、スロットの値に対し、応答文の有無の真偽値しか持たない。しかしながら、運用開始後は、応答履歴データベース122から各応答文の利用頻度がわかるので、値1430として真偽値ではなく前述の利用頻度を用いることによって、スロットの確定順の並び替えを行うことができる。
次に、図10のS890におけるシナリオ分岐型の質問応答システム固有の応答データ削減の例について説明する。
例えば、図8のステップ890において、いずれも、実質同じ遷移を行うような状態を一つにまとめることによって、シナリオ分岐図1000における状態数、および、対応するシナリオ記述テーブル1100のエントリ数が減少し、応答データを削減することができる。
状態のまとめあげの例を二つ上げる。一つは部分木のまとめあげである。シナリオ分岐図1000において、一部の部分木において質問文・応答文の対応関係が全く同じ構成になる場合がある。例えば、図11において状態1051と状態1054は同じ内容であり、状態1053と状態1055は同じ内容である。このように、個々の状態に限らず、そこから遷移する遷移先の各状態も含め完全に一致する部分木が複数存在するケースがある。このようなケースでは、シナリオ記述テーブル1100においてもエントリ1125と1130が一致し、エントリ1129と1132が一致する形で現れる。このような場合、エントリ1125とエントリ1130をまとめて単一のエントリにすることが考えられる(状態ID1110は、単一の値だけでなく、複数の値を格納可能とする)。また、仮にそのようにまとめたエントリが遷移先を有する場合、遷移先状態IDも一つに設定することで、複数の部分木に対応するエントリを保持する必要がなくなる。
今一つは、分岐前の重複状態のまとめあげである。図14に示した抽出パターン記述1221では、章・節・項の組一つに対しシナリオ記述テーブルテンプレート1231(または、それを変更したテーブル)一つを出力する。しかしながら、一般に、文書において一つの章に対し複数の節があり、一つの節に対し複数の項がある場合がある。よって、章や節に含まれるスロットの値の問い合わせに関するエントリ1240、1241、1242について、全項の数だけ応答データが出力される。章や節の数は項より少ないため、これが不必要に状態を増やすことになるうえ、同一のスロットの値に対応する質問文を保持するエントリが複数できるため、質問応答質システムにおいて遷移先状態が特定できず、質問応答システムとして正常な動作が期待できない。そこで、その状態に至る直前の状態が同じで、かつ受け付ける質問文が同じエントリ群は、一つにまとめる。例えば、同じ章に対応するエントリ群や同じ節に対応するエントリ群が項の数だけできても、それぞれ章・節の数だけ残しあとは削除する。
これらの手順は、シナリオ分岐図1000を有向グラフと見なしたときの頂点の縮約に相当する。また、ここに挙げた以外にも、これらグラフの縮約処理を適用することによって、シナリオ分岐図1000における状態数、および、対応するシナリオ記述テーブル1100のエントリ数を減少させることができ、それによって応答データを削減することができる。
本実施形態によると、パターンデータベース内に質問のシナリオに沿ったパターンを作成しておくことによって、質問のシナリオを前提とした応答データを生成することができる。また、応答文として解析した文書構造や、抽出パターンに対応する複数の部分木に基づく記述を解析して、応答データテンプレートの内容を更新・変更することによって、生成する応答データの質を高めることができる。
〔実施形態3〕
以下、本発明の実施形態3を、図20ないし図23を用いて説明する。
本実施形態の質問応答データ生成装置では、ドリルダウン型の質問応答システムの応答データを生成する。ドリルダウン型の質問応答システムは、実施形態2に示すシナリオ分岐型の質問応答システム同様に、質問者110と質問応答装置120が質問文112・応答文113のやりとりを複数回繰り返し、その中で、最終的に質問者110の質問内容を絞り混んで質問応答装置120が回答を返すものであり、いずれも、複数のスロットの項目に対し、値を確定させていき最終的に必要なスロットの値が確定した時点で、最終的な質問応答を返す点は同じである。しかしながら、スロットの値を確定させる方法と、そのための応答データの構造が異なる。ドリルダウン型の質問応答システムの応答データは、ドリルダウン型応答プログラム224による質問応答を行う場合に使用される。
なお、ドリルダウン型とは、スロットの値を絞り込んで値を確定させることから、名付けたものである。
以下では、実施形態1と実施形態2と比較して、異なる所を重点的に説明する。
先ず、図20および図21を用いてドリルダウン型の質問応答システムで用いる応答データについて説明する。
ドリルダウン型の質問応答システムで用いる応答データは、図20に示される質問応答テーブル1600と、図21に示されるスロット属性テーブル1650で構成される。
質問応答テーブル1600は、スロットの値に対し最終的に質問に対する応答文を対にしたものである。質問応答テーブル1600の各エントリ1630〜1636は、スロット群1610と対応する応答文1620を有する。スロット群1610は、複数のスロット1611、1612、1613を有する。質問者110と質問応答装置120は、質問文112と応答文113のやり取りを複数繰り返し、その中で、ドリルダウン型応答プログラム224は、質問文112からスロットの値を取得していく。そして、各スロット1611、1612、1613の値が合致するエントリが質問応答テーブル1600中にある場合、対応する応答文1620を応答して、質問応答を終了する。質問応答の終了には、必ずしも全スロットの値を確定させる必要はない。例えば、エントリ1632は、スロット1613に相当する値としてアスタリスク(*)を設定している。これは、他のスロット1611、1612の値が入力から得られた値と一致すれば、スロット1613に相当する値を問わない(未確定でもよい)ことを示している。また、各エントリにおけるスロットの値は、単一の値および未確定を示す値だけではなく、複数の値を列挙したり、正規表現を用いるなど複数の値を許容する記載をしてもよい。
ドリルダウン型応答プログラム224による質問応答の一連のやりとりでは、開始時には全てのスロットの値が未確定である。以後、質問者110からの質問文112を分析して、スロット1611、1612、1613の値を取得する。質問文112からスロットの値を取得する方法として、例えば、特許文献3に開示されている。質問文112からスロットの値を取得し、質問応答テーブル1600中でスロット群1610の値が一致するエントリが一意に定まる場合、そのエントリに対応する応答文1620を返すようにする。また、エントリについて、その際参照したエントリの情報は、応答履歴データベース122にて格納される。
質問文112からスロットの値を取得しても、質問応答テーブル1600中にスロット群1610の値が一致するエントリが一意に定まらない場合、ドリルダウン型応答プログラム224は、未確定のスロットの値を確定させるよう質問者110に応答文113を用いて問い返すようにする。このとき、ドリルダウン型応答プログラム224は、問い返しの応答文113を生成するために、図21に示したスロット属性テーブル1650を用いる。スロット属性テーブル1650は、スロット毎にエントリ1680〜1683を有する。例外的に、スロットに対応しないエントリ1680などを含んでもよい。各エントリは、空きスロットの項目1661、空きスロットの優先度1662、応答文1670の組で構成される。値が未確定のスロットが複数ある場合、ドリルダウン型応答プログラム224は、それらのスロットに対し、スロット属性テーブル1650の空きスロットの項目1661に一致するエントリを探し、エントリ中の優先度1662の値を取得する(図21の例では、0が優先度が一番高く、3が優先度が一番低いとしている)。複数の値が未確定のスロットに対して、それぞれ優先度1662の値を求めたときに、その内で優先度が一番高い優先度1662を有するスロットを定め、対応するエントリ中の応答文1670を応答文113として返すことにより、質問者110に該当するスロットの値を確定させる入力を促す。エントリ1680〜1683には、スロットと対応付かないエントリ1680を含んでもよい。例えば、エントリ1680は、質問応答のやり取りを最初に行う場合に出力するあいさつ文を含んでいる。
実施形態2のシナリオ分岐型の質問応答システムとドリルダウン型の質問応答システムにおける応答データ生成については、スロットの値の確定順が異なっている。シナリオ分岐型は、シナリオ分岐図1000で定められた順でしか、スロットの値を確定できない。その確定順を変更するには、シナリオ分岐図1000自体をそのように書き換えなければならない。一方、ドリルダウン型は、スロットの値の確定順は任意である。例えば、ドリルダウン型応答プログラム224がスロット属性テーブル1650のエントリ1681に従い、口座名の入力を促す応答文1670を出力したとする。しかしながら、その後に続く質問者110の質問文112がスロット<事項>に関する内容を含む場合には、先にスロット<事項>の値を確定させることもできる。また、一つの質問文112から複数のスロットの値を確定させることもできる。
次に、図22を用いて本実施形態の応答データ生成パターンについて説明する。
本実施形態では、実施形態1の図7に示した構造情報600のような木構造において、事前に定義されたパターンに合致する記述、すなわち木構造の部分木を抽出し、応答データを生成する点は実施形態1と同じである。しかしながら、本実施形態では応答データが質問応答テーブル1600、スロット属性テーブル1650であることから、応答データ生成パターンの形式が異なる。
応答データ生成パターン1700が有する抽出パターン720は、実施形態1における応答データ生成パターン700同様に、構造情報1900中の木構造の一部に合致する内容を記述する。抽出パターン記述1721は、実際に構造情報1900の一部に合致する例を示している。応答データ生成パターン1700が有する応答データテンプレート1730は、質問応答テーブル1600およびスロット属性テーブル1650を生成するためのデータを保持する。応答データ生成パターン1700では、データ生成のための応答データテンプレート1730として、質問応答テーブルテンプレート1740およびスロット属性テーブルテンプレート1760を有する。
質問応答テーブルテンプレート1740は、質問応答テーブル1600同様にスロット群1610と対応する応答文1620を有する。スロット群1610は、複数のスロット1611、1612、1613を有する。質問応答テーブルテンプレート1740のエントリ1750は、文書構造600中で抽出パターン例1721に対応づけられる部分木を抽出した場合、そのテキストから取得した各スロットの値を代入して生成される質問応答テーブル1600のエントリを示している。
スロット属性テーブルテンプレート1760は、スロット属性テーブル1650同様にスロット項目1661、優先度1662、応答文1670を有する。スロット属性テーブルテンプレート1760の各エントリ1770〜1773の応答文1670は、スロットの値の集合を代入するプレースホルダ1780、1781を含むことができる。
次に、図23を用いて本実施形態の質問応答データ生成装置が行う本実施形態の応答データ生成処理について説明する。
図23は、実施形態3の応答データテンプレートの複製・変更の処理(図17のS865)を示すフローチャートである。
本実施形態においては、応答データ生成フロー800を用いて実施形態1、2同様に応答データを生成する。しかしながら、文書構造600中で抽出パターン例1721に対応づけられる部分木を複数抽出しても、スロット属性テーブルテンプレート1760は、抽出パターン例1721一つに対し一つのスロット属性テーブル1650しか生成されない。これは、値が未確定のスロットに対し入力を促す応答文は、スロットの値の確定状況に依らないためである。その代わりに、応答文1670は、スロットの値の集合を代入するプレースホルダ1780、1781を含む。例えば、プレースホルダ1780、1781は、統計情報取得の過程で得られたスロットの値の一覧を応答文1670に代入し、応答文を生成する。
本実施形態の応答データ生成処理は、図17に示した実施形態2における応答データ生成処理と同様に、フロー800と同等の処理を用いて、質問応答データ生成装置130中の応答データ生成プログラム360が文書データベース131に格納された文書群から質問応答装置120が用いる応答データベース121に格納する応答データ(質問応答テーブル1600およびスロット属性テーブル1650)を生成する。
しかしながら、応答データテンプレートの複製・変更の処理(図17のS865)が異なっている。
以下では、応答データテンプレートの複製・変更の処理(図17のS865)の詳細な例を二つ説明する。
先ず、一つ目は、図23に示される例である。
先ず、テンプレート変更フロー1800で実施するS1310、1315は、実施形態2の図18に示したテンプレート変更、複製の処理と同一である。
次のS1820では、S1310、1315で定めたスロットの値の確定順に応じて、スロット属性テーブルテンプレート1760の内容を変更する。実施形態2の応答文マッピングテーブル1450同様に、S1310、1315により定められたスロットの確定順が「<事項>→<口座名>→<作業>」とする。その場合、スロット属性テーブルテンプレート1760における優先度1662を前記確定順に合わせて、標準でその優先度1662の値を設定する。
二つ目の例は、統計データに基づくスロットの生成・細分化例である。
図22に示した応答データ生成パターン1700においては、質問応答テーブルテンプレート1740では、スロット1611、1612、1613は既に設定されている。しかしながら、抽出した部分木を用いて、スロットの生成することができる。これは、例えばスロットに充当しうる値が多すぎる場合、それらをグループ分けして独立したスロットとして扱いたい場合に行う。例えば、文書構造600中スロット<事項>に該当する複数の値が、単語や意味により分類できるとする。例として、「本人確認」「必要書類」のような<作業>を進める手順に関する値が入る場合と、「営業時間」「対応店舗」など<作業>を進める条件に関する値で分類できる場合がある。この場合、スロット<事項>を<事項:手順>と<事項:条件>に細分化し、質問応答テーブルテンプレート1740やスロット属性テーブルテンプレート1760をそれぞれに分けることができる。このようにスロットを細分化すると、細分化されたそれぞれのスロット属性テーブルテンプレート1760に異なる優先度を設定するなど、きめ細やかな応答データの作成が可能となる。
また、応答データ管理部395は、質問応答プログラム221の運用開始後、応答履歴データベース122を参照して、図21に示すスロット属性テーブル1650を更新することもできる。実施形態2の図15に示した応答文マッピングテーブル1400の値1430は、応答データテンプレートの複製・変更の処理の実行時の段階では、スロットの値に対し、応答文の有無の真偽値しか持たない。しかしながら、運用開始後は、応答履歴データベース122から各応答文の利用頻度がわかるので、値1430として真偽値ではなく前述の利用頻度を用いることにより、例えば、プレースホルダ1780・1781に出力するスロット値の順番を、利用頻度の高い順に並べ替えたり、質問・応答履歴を元に早い段階で値が確定するスロットに対し、優先度1662に優先度が高い値を設定したりすることができる。
次に、ドリルダウン型の質問応答システム固有の応答データ削減する方法について説明する。
図17に示した応答データ生成処理のS890において、実質同じ状態を一つにまとめることにより、図21に示した質問応答テーブル1600のエントリ数を削減することができる。例えば、エントリ1631と1634は、スロット1612<作業>を除き同一内容である。この場合、スロット1612<作業>に複数の値を記述することで、両エントリを単一のエントリにまとめることができる。
次に、図24および図25を用いて本実施形態における応答データ生成処理により生成した応答データについて説明する。
図24は、応答データ生成処理により生成された質問応答テーブルの一例を示す図である。
図25は、応答データ生成処理により生成されたスロット属性テーブル生成の一例を示す図である。
本実施形態の応答データは、図24に示す質問応答テーブル2100と、図25に示すスロット属性テーブル2150である。
図24に示す質問応答テーブル2100および図25に示すスロット属性テーブル2150は、それぞれ、図20の質問応答テーブル1600および図21のスロット属性テーブル1650と対応するスロットの値および応答文は同等であり、質問応答できる範囲も等しいといえる。しかしながら、文書構成に基づき重複の削除や優先度の変更を行うことにより、本実施形態の質問応答テーブル生成例2100およびスロット属性テーブル生成例2150は、質問応答テーブル1600およびスロット属性テーブル1650に比べて、データ量(テーブルの行数)や優先度を考慮したより適切な質問順を実現することができる。
本実施形態によると、スロットと応答文からなる応答データが用意されている場合に、データ量を削減し、優先度を考慮したより適切な質問順になった応答データとして最適化することで、生成する応答データの質を高めることができる。
5…ネットワーク
100…質問応答システム
110…質問者
111…質問応答端末
112…質問文
113…応答文
120…質問応答装置
121…応答データベース
130…質問応答データ生成装置
131…文書データベース
132…パターンデータベース
140…文書
141…応答データ生成パターン

Claims (13)

  1. 質問に対して情報処理装置が自動的に応答を返す質問応答システムのための応答データを生成する質問応答データ生成装置であって、
    文書の構造情報の抽出パターンと質問とその応答のテキストを当てはめる応答データテンプレートとからなる応答データ生成パターンとを保持し、
    入力された文書を解析し、文書の構造情報を生成し、
    前記入力された文書の構造情報の示す構造と前記応答データ生成パターンの抽出パターンとで、パターンマッチングを行い、
    前記抽出パターンの示すパターンにマッチした文書から、テキストを抽出し、
    抽出したテキストを、前記応答データテンプレートに当てはめることにより、応答データを生成することを特徴とする質問応答データ生成装置。
  2. 前記応答データは、質問文とその質問文に応答する応答文が一対一に対応した形式であることを特徴とする請求項1記載の質問応答データ生成装置。
  3. 前記応答データテンプレートに、質問文のその質問文に応答する応答文を一つの状態と定義し、状態とその状態から遷移する状態とを定義したシナリオ記述テーブルのテンプレートを含み、
    応答データとして、シナリオ記述テーブルを生成することを特徴とする請求項1記載の質問応答データ生成装置。
  4. 前記応答データテンプレートに、文書からテキストを取り出すスロットと応答文を生成するパターンを対応付けた質問応答テーブルテンプレートと、
    スロットとそのスロットの値を確定させる優先度とスロットの値が未確定なときに生成する応答文のパターンとを対応付けたスロット属性テーブルテンプレートとを保持し、
    前記応答データは、前記質問応答テーブルテンプレートから生成され、スロット毎の値と、応答文を対応付けた質問応答テーブルと、
    スロット属性テーブルテンプレートから生成され、スロットとそのスロットの値を確定させる優先度とスロットの値が未確定なときに生成する応答文のパターンとを対応付けたスロット属性テーブルとからなることを特徴とする請求項1記載の質問応答データ生成装置。
  5. 前記生成された応答データを加工することを特徴とする請求項1記載の質問応答データ生成装置。
  6. 前記生成された応答データを加工は、前記文書の情報に基づいて行われることを特徴とする請求項1記載の質問応答データ生成装置。
  7. 前記文書のテキストを当てはめるスロットの値の確定状態に従い、前記応答データテンプレート内に定義される質問文とその質問文に応答する応答文を一つの状態としてまとめた状態の状態遷移を変更して、前記応答データテンプレートを更新することを特徴とする請求項3記載の質問応答データ生成装置。
  8. 前記文書のテキストを当てはめるスロットの値の確定状態に従い、前記スロットの値を確定させる優先度を変更して、前記応答データテンプレートを更新することを特徴とする請求項4記載の質問応答データ生成装置。
  9. 前記生成された応答データの内で、重複データ、不適切データをチェックして、該当する応答データを削除することを特徴とする請求項1記載の質問応答データ生成装置。
  10. 質問応答システムの統計情報に基づき、
    使用頻度が少ない応答データを削除することを特徴とする請求項1記載の質問応答データ生成装置。
  11. 応答データ生成に関して、同じ質問文と応答文の状態があるとき、複数の状態をまとめた応答データを生成することを特徴とする請求項3記載の質問応答データ生成装置。
  12. 応答データ生成に関して、前記質問応答テーブルに同一のエントリがあるときに、一つを残して、他を削除した応答データを生成することを特徴とする請求項4記載の質問応答データ生成装置。
  13. 質問に対して情報処理装置が自動的に応答を返す質問応答システムのための応答データを生成する質問応答データ生成方法であって、
    文書の構造情報の抽出パターンと質問とその応答のテキストを当てはめる応答データテンプレートとからなる応答データ生成パターンとを保持するステップと、
    入力された文書を解析し、文書の構造情報を生成するステップと、
    前記入力された文書の構造情報の示す構造と前記応答データ生成パターンの抽出パターンとで、パターンマッチングを行うステップと、
    前記抽出パターンの示すパターンにマッチした文書から、テキストを抽出するステップと、
    抽出したテキストを、前記応答データテンプレートに当てはめることにより、応答データを生成するステップとを有することを特徴とする質問応答データ生成方法。
JP2018212590A 2018-11-13 2018-11-13 質問応答データ生成装置および質問応答データ生成方法 Active JP7163143B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018212590A JP7163143B2 (ja) 2018-11-13 2018-11-13 質問応答データ生成装置および質問応答データ生成方法
PCT/JP2019/041828 WO2020100553A1 (ja) 2018-11-13 2019-10-25 質問応答データ生成装置および質問応答データ生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018212590A JP7163143B2 (ja) 2018-11-13 2018-11-13 質問応答データ生成装置および質問応答データ生成方法

Publications (2)

Publication Number Publication Date
JP2020080025A true JP2020080025A (ja) 2020-05-28
JP7163143B2 JP7163143B2 (ja) 2022-10-31

Family

ID=70730828

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018212590A Active JP7163143B2 (ja) 2018-11-13 2018-11-13 質問応答データ生成装置および質問応答データ生成方法

Country Status (2)

Country Link
JP (1) JP7163143B2 (ja)
WO (1) WO2020100553A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102410068B1 (ko) * 2021-08-11 2022-06-22 주식회사 보인정보기술 자연어 모델을 기반으로 한 질의-응답 페어 생성 방법 및 이러한 방법을 수행하는 장치
JP7347559B2 (ja) 2022-02-24 2023-09-20 沖電気工業株式会社 対話知識作成装置及び対話知識作成プログラム
CN117371404A (zh) * 2023-12-08 2024-01-09 城云科技(中国)有限公司 一种文本问答数据对生成方法及装置
WO2024014383A1 (ja) * 2022-07-13 2024-01-18 ソニーグループ株式会社 情報処理装置、情報処理方法、端末装置および端末プログラム
WO2024015252A1 (en) * 2022-07-11 2024-01-18 Pryon Incorporated Supervised summarization and structuring of unstructured documents

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7416665B2 (ja) 2020-06-12 2024-01-17 株式会社日立製作所 対話システム、及び対話システムの制御方法
CN113190767B (zh) * 2021-04-27 2023-05-05 维沃移动通信(深圳)有限公司 一种信息应答方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877179A (ja) * 1994-09-02 1996-03-22 Fujitsu Ltd 文書索引生成装置
JP2004102818A (ja) * 2002-09-11 2004-04-02 Toshiba Corp 検索支援方法および検索支援装置
JP2004334369A (ja) * 2003-05-01 2004-11-25 Nippon Telegr & Teleph Corp <Ntt> 音声対話シナリオ変換方法、音声対話シナリオ変換装置、音声対話シナリオ変換プログラム
JP2008145769A (ja) * 2006-12-11 2008-06-26 Hitachi Ltd 対話シナリオ生成システム,その方法およびプログラム
JP2012079161A (ja) * 2010-10-04 2012-04-19 National Institute Of Information & Communication Technology 自然言語文生成装置及びコンピュータプログラム
US20160035234A1 (en) * 2014-07-29 2016-02-04 Samsung Electronics Co., Ltd. Server, information providing method of server, display apparatus, controlling method of display apparatus and information providing system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877179A (ja) * 1994-09-02 1996-03-22 Fujitsu Ltd 文書索引生成装置
JP2004102818A (ja) * 2002-09-11 2004-04-02 Toshiba Corp 検索支援方法および検索支援装置
JP2004334369A (ja) * 2003-05-01 2004-11-25 Nippon Telegr & Teleph Corp <Ntt> 音声対話シナリオ変換方法、音声対話シナリオ変換装置、音声対話シナリオ変換プログラム
JP2008145769A (ja) * 2006-12-11 2008-06-26 Hitachi Ltd 対話シナリオ生成システム,その方法およびプログラム
JP2012079161A (ja) * 2010-10-04 2012-04-19 National Institute Of Information & Communication Technology 自然言語文生成装置及びコンピュータプログラム
US20160035234A1 (en) * 2014-07-29 2016-02-04 Samsung Electronics Co., Ltd. Server, information providing method of server, display apparatus, controlling method of display apparatus and information providing system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
伊藤 博典: "1教師1生徒対話形式教育用脚本の自動生成", 第9回データ工学と情報マネジメントに関するフォーラム (第15回日本データベース学会年次大会) [O, JPN6022030379, 27 February 2017 (2017-02-27), ISSN: 0004833709 *
佐藤 紗都: "製品マニュアル文からの質問自動生成", 一般社団法人 人工知能学会 第32回全国大会論文集DVD [DVD−ROM] 2018年度 人工知能, JPN6022030376, 5 June 2018 (2018-06-05), ISSN: 0004833708 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102410068B1 (ko) * 2021-08-11 2022-06-22 주식회사 보인정보기술 자연어 모델을 기반으로 한 질의-응답 페어 생성 방법 및 이러한 방법을 수행하는 장치
JP7347559B2 (ja) 2022-02-24 2023-09-20 沖電気工業株式会社 対話知識作成装置及び対話知識作成プログラム
WO2024015252A1 (en) * 2022-07-11 2024-01-18 Pryon Incorporated Supervised summarization and structuring of unstructured documents
WO2024014383A1 (ja) * 2022-07-13 2024-01-18 ソニーグループ株式会社 情報処理装置、情報処理方法、端末装置および端末プログラム
CN117371404A (zh) * 2023-12-08 2024-01-09 城云科技(中国)有限公司 一种文本问答数据对生成方法及装置
CN117371404B (zh) * 2023-12-08 2024-02-27 城云科技(中国)有限公司 一种文本问答数据对生成方法及装置

Also Published As

Publication number Publication date
JP7163143B2 (ja) 2022-10-31
WO2020100553A1 (ja) 2020-05-22

Similar Documents

Publication Publication Date Title
WO2020100553A1 (ja) 質問応答データ生成装置および質問応答データ生成方法
US5802504A (en) Text preparing system using knowledge base and method therefor
RU2571373C2 (ru) Метод анализа тональности текстовых данных
US8484238B2 (en) Automatically generating regular expressions for relaxed matching of text patterns
US5111398A (en) Processing natural language text using autonomous punctuational structure
US20170161255A1 (en) Extracting entities from natural language texts
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
JP2005507524A (ja) 機械翻訳
JPH02288960A (ja) 文書作成支援方法及びそのシステム
KR19990076970A (ko) 다수 및/또는 복합 질의를 사용하여 데이터 세트의 내용을 평가하는 방법 및 시스템
US7398196B1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
CA2360067A1 (en) Any-to-any component computing system
JP2019016181A (ja) テキスト要約システム
JP2020067971A (ja) 情報処理システムおよび情報処理方法
JP2020113129A (ja) 文書評価装置、文書評価方法及びプログラム
US6125377A (en) Method and apparatus for proofreading a document using a computer system which detects inconsistencies in style
Klahold et al. Computer aided writing
Jung Semantic wiki-based knowledge management system by interleaving ontology mapping tool
JP2019021194A (ja) 情報処理システムおよび情報処理方法
JP7253951B2 (ja) 自然言語データ処理装置およびプログラム
JP7227705B2 (ja) 自然言語処理装置、検索装置、自然言語処理方法、検索方法およびプログラム
KR20100075118A (ko) 번역서비스 제공방법 및 그 시스템
Anderl Some reflections on the Database of Medieval Chinese Texts as a multi-purpose tool for research, teaching, and international collaboration
JP4187802B2 (ja) 文書作成装置
US20230186022A1 (en) Method and system for finding associations between natural language and computer language

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220908

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221019

R150 Certificate of patent or registration of utility model

Ref document number: 7163143

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150