JP7099397B2

JP7099397B2 - Ｑ＆ａ抽出装置、方法、プログラム、および応答システム

Info

Publication number: JP7099397B2
Application number: JP2019078072A
Authority: JP
Inventors: 隆一高野; 朋之田附; 潔渡辺
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2022-07-12
Anticipated expiration: 2039-04-16
Also published as: JP2020177360A

Description

本発明は、Ｑ＆Ａ抽出装置、方法、プログラム、および応答システムに関する。

従来、音声やテキストによる人間からの質問に対してコンピュータが回答することができる自動応答システム（チャットボットとも呼ばれる）が知られている（特許文献１等）。

このような自動応答システムでは、あらかじめ、多数の質問や回答（以下、Ｑ＆Ａともいう）のデータを収集しておく必要がある。例えば、自動応答システムでは、収集した質問や回答のデータを教師データとして手作業により作成し、機械学習を行って自動応答のための学習済みモデルを生成したり（機械学習型の自動応答システムの場合）、あるいは、収集した質問や回答のデータをもとに自動応答のためのシナリオを手作業により作成したり（ルールベース型の自動応答システムの場合）する。

しかしながら、多数の質問や回答を収集し、教師データや自動応答のためのシナリオを手作業で作成することは手間と時間がかかり容易ではない。

そこで、本発明の一実施形態では、教師データ又は自動応答のためのシナリオを作成する負荷を軽減することを目的とする。

上述した課題を解決するために、本発明の一実施形態は、質問と回答とのうちの少なくとも一方を識別するための指標を設定する設定部と、前記指標に基づいて、データの中から前記質問と前記回答とのうちの少なくとも一方を抽出する抽出部と、を備える。

本発明の一実施形態によれば、教師データ又は自動応答のためのシナリオを作成する負荷を軽減することができる。

本発明の一実施形態に係るＱ＆Ａ抽出装置を含む応答システムの全体の構成図である。本発明の一実施形態に係るＱ＆Ａ抽出装置および応答装置のハードウェア構成図である。本発明の一実施形態に係る質問用装置のハードウェア構成図である。本発明の一実施形態に係る質問と回答の収集例を説明するための図である。本発明の一実施形態に係るＱ＆Ａ抽出装置の機能ブロック図である。本発明の一実施形態に係る会話の音声内の指標を説明するための図である。本発明の一実施形態に係るウェブページ内のフォーマットによる指標を説明するための図である。本発明の一実施形態に係るＱ＆Ａ記憶部に格納されるデータの一例である。本発明の一実施形態に係るＱ＆Ａ抽出の処理のフローチャートである。本発明の一実施形態に係るＱ＆Ａ抽出の処理のフローチャートである。

以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。

＜システム構成＞
図１は、本発明の一実施形態に係るＱ＆Ａ抽出装置１０（情報処理装置の一例）を含む応答システム１の全体の構成図である。図１に示されるように、応答システム１は、Ｑ＆Ａ抽出装置（以下、単に抽出装置ともいう）１０、応答装置２０、質問用装置３０を含む。応答装置２０は、質問用装置３０および抽出装置１０と任意のネットワーク４０によって通信可能に接続されている。以下、それぞれについて説明する。

なお、図１では、抽出装置１０と応答装置２０とを別々の装置として説明しているが、抽出装置１０と応答装置２０とを１つの装置として実装する（例えば、既存の応答装置２０内に抽出装置１０を設置する）ようにしてもよい。

Ｑ＆Ａ抽出装置１０は、応答装置２０が提供する自動応答サービスのために用いられる質問データと回答データとのうちの少なくとも一方を抽出する装置である。具体的には、抽出装置１０は、マイク５１（図４を参照しながら後述する）によって取得された音声データの中から、質問データと回答データとのうちの少なくとも一方を抽出することができる。また、抽出装置１０は、ウェブページの中から、質問データと回答データとのうちの少なくとも一方を抽出することができる。後段で、図５を参照しながら、Ｑ＆Ａ抽出装置１０について詳細に説明する。

応答装置２０は、質問用装置３０からの質問に応答する装置である。具体的には、応答装置２０は、質問用装置３０から質問を受信する。また、応答装置２０は、質問用装置３０へ回答を送信する。

応答装置２０は、音声により質問を受け付ける構成としてもよいし、テキストにより質問を受け付ける構成としてもよい。また、応答装置２０は、音声により応答する構成としてもよいし、テキストにより応答する構成としてもよい。

応答装置２０は、機械学習により生成された学習済みモデルに質問を入力することによって出力される回答を用いて応答する構成とすることができる。あるいは、応答装置２０は、あらかじめ定められたシナリオに従って回答する構成とすることができる。つまり、応答装置２０は、抽出装置１０が抽出した質問や回答のデータを教師データとして機械学習を行って自動応答のための学習済みモデルを生成したり（機械学習型の場合）、あるいは、抽出装置１０が抽出した質問や回答のデータをもとに自動応答のためのシナリオを生成したり（ルールベース型の場合）することができる。

質問用装置３０は、応答装置２０が提供する自動応答サービスに対して質問をしたい者が利用する装置である。質問用装置３０は、例えば、図３で説明するようなデジタルサイネージ３１、コントローラ３２、マイク３３、スピーカ３４から構成される。なお、質問用装置３０は、パーソナルコンピュータ、タブレット、スマートフォン等の任意のコンピュータであってもよい。例えば、質問用装置３０は、観光地に設置される観光地を案内するための装置であり、観光地の訪問者からの質問を受け付ける。

＜ハードウェア構成＞
図２は、本発明の一実施形態に係るＱ＆Ａ抽出装置１０および応答装置２０のハードウェア構成図である。抽出装置１０、応答装置２０は、１または複数のコンピュータからなる。

抽出装置１０、応答装置２０は、ＣＰＵ（Central Processing Unit）１１、ＲＯＭ（Read Only Memory）１２、ＲＡＭ（Random Access Memory）１３を有する。ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３は、いわゆるコンピュータを形成する。

また、抽出装置１０、応答装置２０は、補助記憶装置１４、表示装置１５、操作装置１６、Ｉ／Ｆ（Interface）装置１７、ドライブ装置１８を有する。なお、抽出装置１０、応答装置２０の各ハードウェアは、バス１９を介して相互に接続されている。

ＣＰＵ１１は、補助記憶装置１４にインストールされている各種プログラムを実行する演算デバイスである。

ＲＯＭ１２は、不揮発性メモリである。ＲＯＭ１２は、補助記憶装置１４にインストールされている各種プログラムをＣＰＵ１１が実行するために必要な各種プログラム、データ等を格納する主記憶デバイスとして機能する。具体的には、ＲＯＭ１２はＢＩＯＳ（Basic Input/Output System）やＥＦＩ（Extensible Firmware Interface）等のブートプログラム等を格納する、主記憶デバイスとして機能する。

ＲＡＭ１３は、ＤＲＡＭ（Dynamic Random Access Memory）やＳＲＡＭ（Static Random Access Memory）等の揮発性メモリである。ＲＡＭ１３は、補助記憶装置１４にインストールされている各種プログラムがＣＰＵ１１によって実行される際に展開される作業領域を提供する、主記憶デバイスとして機能する。

補助記憶装置１４は、各種プログラムや、各種プログラムが実行される際に用いられる情報を格納する補助記憶デバイスである。

表示装置１５は、抽出装置１０、応答装置２０の内部状態等を表示する表示デバイスである。

操作装置１６は、抽出装置１０、応答装置２０の管理者が抽出装置１０、応答装置２０に対して各種指示を入力する入力デバイスである。

Ｉ／Ｆ装置１７は、ネットワーク４０に接続し、抽出装置１０、応答装置２０、質問用装置３０と通信を行うための通信デバイスである。

ドライブ装置１８は記憶媒体２１をセットするためのデバイスである。ここでいう記憶媒体２１には、ＣＤ－ＲＯＭ、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記憶媒体２１には、ＥＰＲＯＭ (Erasable Programmable Read Only Memory)、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。

なお、補助記憶装置１４にインストールされる各種プログラムは、例えば、配布された記憶媒体２１がドライブ装置１８にセットされ、該記憶媒体２１に記録された各種プログラムがドライブ装置１８により読み出されることでインストールされる。あるいは、補助記憶装置１４にインストールされる各種プログラムは、Ｉ／Ｆ装置１７を介して、ネットワーク４０とは異なる他のネットワークよりダウンロードされることでインストールされてもよい。

図３は、本発明の一実施形態に係る質問用装置３０のハードウェア構成図である。図３に示されるように、質問用装置３０は、デジタルサイネージ３１、コントローラ３２、マイク３３、スピーカ３４を含むことができる。

デジタルサイネージ３１は、例えば、タッチパネル式のサイネージである。デジタルサイネージ３１は、例えば、ウェブブラウザを介して、ユーザに自動応答サービスを提供することができる。具体的には、デジタルサイネージ３１は、マイク３３に向かって質問を発するよう促す画面を表示することができる。また、デジタルサイネージ３１は、タッチパネルを用いて質問を入力するよう促す画面を表示することができる。また、デジタルサイネージ３１は、応答装置２０から送信された回答を表示することができる。

コントローラ３２は、デジタルサイネージ３１を制御するための装置である。

マイク３３は、応答装置２０が提供する自動応答サービスに対して質問をしたい者が発した音声（質問）を取得する。

スピーカ３４は、応答装置２０から送信された音声データ（回答）を再生する。

図４は、本発明の一実施形態に係る質問と回答の収集例を説明するための図である。図４に示されるように、質問者６０（例えば、観光地を訪問した訪問者）と回答者５０（例えば、観光地を案内する案内者）の会話が、回答者５０が装着しているマイク５１によって録音される。Ｑ＆Ａ抽出装置１０は、このように取得された会話の音声データの中から、質問データと回答データとのうちの少なくとも一方を抽出することができる。

＜機能ブロック＞
図５は、本発明の一実施形態に係るＱ＆Ａ抽出装置１０の機能ブロック図である。図５に示されるように、抽出装置１０は、設定部１０１、音声取得部１０２、ウェブページ検索部１０３、抽出部１０４、Ｑ＆Ａ記憶部１０５を含む。また、抽出装置１０は、プログラムを実行することで、設定部１０１、音声取得部１０２、ウェブページ検索部１０３、抽出部１０４として機能する。以下、それぞれについて説明する。

設定部１０１は、質問文や回答文を識別するための指標を設定する。具体的には、設定部１０１は、抽出装置１０の操作装置１６または他のコンピュータ等によって入力された設定を受け付ける。また、設定部１０１は、受け付けた設定を抽出部１０４が参照できるように抽出装置１０内等のメモリに記憶する。

ここで、質問文や回答文を識別するための指標について説明する。以下、＜会話の音声内の指標＞、＜ウェブページ内のフォーマットによる指標＞、＜ウェブページ内の自然言語解析による指標＞の３つの例について説明する。

＜会話の音声内の指標＞
設定部１０１は、質問者と回答者との会話（例えば、観光地の案内者と訪問者との会話）内で、質問文の始まりおよび終わり、および、回答文の始まりおよび終わりに発せられるべき文言（以下、キーワードともいう）を、質問文や回答文を識別するための指標として設定することができる。以下、図６を参照しながら、＜会話の音声内の指標＞について詳細に説明する。

図６は、本発明の一実施形態に係る会話の音声内の指標を説明するための図である。図６では、左から右へ時間が経過する。例えば、質問文の始まりのキーワードを「はい、ご質問ですね」とし、質問文の終わりのキーワードを「あなたのご質問は以上ですね」とし、回答の始まりを「それに対する答えは」とし、回答の終わりを「以上です」とする。回答する人（あるいは質問する人）がこれらのキーワードを発することによって、質問文の始まりのキーワード（「はい、ご質問ですね」）から質問文の終わりのキーワード（「あなたのご質問は以上ですね」）までの間に発せられた音声が質問文であると識別されることとなる。また、回答する人（あるいは質問する人）がこれらのキーワードを発することによって、回答文の始まりのキーワード（「それに対する答えは」）から回答文の終わりのキーワード（「以上です」）までの間に発せられた音声が回答文であると識別されることとなる。

なお、会話の終わりのキーワードを設定することによって、会話が終了したことを識別できるようにしてもよい。あるいは、会話の始まりおよび終わりのキーワードを設定することによって、会話の始まりのキーワードから会話の終わりのキーワードまでの間に発せられた音声が、１つの会話であると識別できるようにしてもよい。

＜ウェブページ内のフォーマットによる指標＞
設定部１０１は、ウェブページ内の所定のフォーマットを、質問文や回答文を識別するための指標として設定することができる。以下、図７を参照しながら、＜ウェブページ内のフォーマットによる指標＞について詳細に説明する。

図７は、本発明の一実施形態に係るウェブページ内のフォーマットによる指標を説明するための図である。図７は、ＦＡＱ（よくある質問とその回答）のウェブページを示す。ＦＡＱのウェブページが所定のフォーマットで作成されると、質問文のフォーマットで記載された文章は質問文であると識別され、回答文のフォーマットで記載された文章は回答文であると識別されることとなる。以下、２つのフォーマット例を説明する。なお、＜＜フォーマット例１＞＞と＜＜フォーマット例２＞＞とを組み合わせてもよい。

＜＜フォーマット例１＞＞
例えば、設定部１０１は、ＨＴＭＬ（HyperText Markup Language）の所定の属性（例えば、隠し属性＜hidden＞）を、質問文や回答文を識別するための指標として設定することができる。そのため、ＦＡＱのウェブページの作成者は、隠し属性＜hidden＞を用いて、質問文の始まりおよび終わり、および、回答文の始まりおよび終わりを指定することができる。なお、質問文の始まりおよび終わり、および、回答文の始まりおよび終わりの指定は、隠し属性＜hidden＞であるので、図７のように、ユーザのウェブブラウザ上には表示されない。

なお、一連の文章の終わりの隠し属性＜hidden＞を設定することによって、一連の文章が終了したことを識別できるようにしてもよい。あるいは、一連の文章の始まりおよび終わりの隠し属性＜hidden＞を設定することによって、一連の文章の始まりの隠し属性＜hidden＞から一連の文章の終わりの隠し属性＜hidden＞までの間に記載された文章が、１つのＦＡＱの対であると識別できるようにしてもよい。

＜＜フォーマット例２＞＞
例えば、設定部１０１は、ウェブページ内で文章が配置される位置を、質問文や回答文を識別するための指標として設定することができる。そのため、ＦＡＱのウェブページの作成者は、例えば、図７のように、左側の欄に配置される文章を質問文、右側の欄に配置される文章を回答文と指定することができる。

＜ウェブページ内の自然言語解析による指標＞
設定部１０１は、質問または質問内の一部の文言を、回答文を識別するための指標として設定することができる。例えば、設定部１０１は、質問者が質問用装置３０に入力した質問または質問内の一部の文言、あるいは、応答システム１のシステム管理者等が指定した質問または質問内の一部の文言を、指標として設定することができる。

図５の説明に戻る。音声取得部１０２は、質問者と回答者との会話の音声データを取得する。例えば、音声取得部１０２は、回答者が装着しているマイク５１（図４参照）が集音した質問者と回答者との会話の音声データを取得する。また、音声取得部１０２は、取得した音声データをテキスト化して文書データを生成する。また、音声取得部１０２は、生成した文書データを抽出部１０４が参照できるように抽出装置１０内等のメモリに記憶する。

なお、本発明の一実施形態では、Ｑ＆Ａ抽出装置１０は、音声データをテキスト化して文書データを生成することなく、音声データのままで処理を行う（つまり、音声データから質問文、回答文を特定して抽出する）構成とすることもできる。

ウェブページ検索部１０３は、ウェブページ（ＨＴＭＬ）を取得する。例えば、ウェブページ検索部１０３は、指定された範囲または全てのウェブページから情報を収集（クロール）する。また、ウェブページ検索部１０３は、収集した情報をテキスト化して文書データを生成する。また、ウェブページ検索部１０３は、生成した文書データを抽出部１０４が参照できるように抽出装置１０内等のメモリに記憶する。

抽出部１０４は、音声取得部１０２が生成した文書データ、ウェブページ検索部１０３が生成した文書データの中から、設定部１０１が設定した指標に基づいて、質問と回答とのうちの少なくとも一方を抽出する。また、抽出部１０４は、抽出した質問および回答をＱ＆Ａ記憶部１０５に記憶する。以下、＜会話の音声内の指標に基づいて抽出＞、＜ウェブページ内のフォーマットによる指標に基づいて抽出＞、＜ウェブページ内の自然言語解析による指標に基づいて抽出＞の３つの例に分けて説明する。

＜会話の音声内の指標に基づいて抽出＞
抽出部１０４は、音声取得部１０２が生成した文書データの中から、設定部１０１によって設定された質問文の始まりおよび終わり、および、回答文の始まりおよび終わりに発せられるべきキーワードを検索する。また、抽出部１０４は、質問文の始まりのキーワードから質問文の終わりのキーワードまでの間の文章を質問として抽出する。また、抽出部１０４は、回答文の始まりのキーワードから回答文の終わりのキーワードまでの間の文章を回答として抽出する。

このように、＜会話の音声内の指標に基づいて抽出＞では、回答する人（あるいは質問する人）は、所定のキーワードを発するだけで会話内の質問と回答とをＱ＆Ａとして登録することができる。また、所定のキーワードが発せられないかぎり質問と回答とが登録されないので、不必要な会話（例えば、応答装置２０が必要としない情報）が登録されずに済む。

＜ウェブページ内のフォーマットによる指標に基づいて抽出＞
抽出部１０４は、ウェブページ検索部１０３が生成した文書データの中から、設定部１０１によって設定されたフォーマットで記載された文章を抽出する。以下、上述した２つのフォーマット例に分けて説明する。

＜＜フォーマット例１のウェブページからの抽出＞＞
例えば、抽出部１０４は、ウェブページ検索部１０３が生成した文書データの中から、設定部１０１によって設定されたＨＴＭＬの所定の属性（例えば、隠し属性＜hidden＞）を検索する。また、抽出部１０４は、ＨＴＭＬの所定の属性（例えば、隠し属性＜hidden＞）を用いて指定された、質問文の始まりおよび終わり、および、回答文の始まりおよび終わりを検索する。また、抽出部１０４は、質問文の始まりの隠し属性＜hidden＞から質問文の終わりの隠し属性＜hidden＞までの間の文章を質問として抽出する。また、抽出部１０４は、回答文の始まりの隠し属性＜hidden＞から回答文の終わりの隠し属性＜hidden＞までの間の文章を回答として抽出する。

＜＜フォーマット例２のウェブページからの抽出＞＞
例えば、抽出部１０４は、ウェブページ検索部１０３が生成した文書データの中から、設定部１０１によって設定された位置に配置される文章を検索する。また、抽出部１０４は、質問文が配置されるべきと設定部１０１によって設定された位置にある文章を質問として抽出する。また、抽出部１０４は、回答文が配置されるべきと設定部１０１によって設定された位置にある文章を回答として抽出する。

このように、＜ウェブページ内のフォーマットによる指標に基づいて抽出＞では、ウェブページの作成者は、所定のフォーマットでＦＡＱを記載するだけでＦＡＱ内の質問と回答とをＱ＆Ａとして登録することができる。また、ウェブページ内のＦＡＱが更新されると、更新されたＦＡＱ内の質問と回答とが自動的にＱ＆Ａとして登録される。

＜ウェブページ内の自然言語解析による指標に基づいて抽出＞
抽出部１０４は、ウェブページ検索部１０３が生成した文書データを自然言語解析し、設定部１０１によって設定された質問または質問内の一部の文言に対する回答を抽出する。

ここで、＜ウェブページ内の自然言語解析による指標に基づいて抽出＞が行われるタイミングの例について説明する。

＜タイミング１＞
応答装置２０が、＜会話の音声内の指標に基づいて抽出＞や＜ウェブページ内のフォーマットによる指標に基づいて抽出＞によって事前に収集された質問および回答を用いて稼働中であるとする。抽出部１０４は、応答装置２０が質問用装置３０からの質問に対する回答を見つけ出せないときに、＜ウェブページ内の自然言語解析による指標に基づいて抽出＞によって回答を見つけ出す構成とすることができる。

＜タイミング２＞
抽出部１０４は、＜会話の音声内の指標に基づいて抽出＞や＜ウェブページ内のフォーマットによる指標に基づいて抽出＞と同様に、＜ウェブページ内の自然言語解析による指標に基づいて抽出＞によって回答を収集する構成とすることができる。応答装置２０は、＜会話の音声内の指標に基づいて抽出＞＜ウェブページ内のフォーマットによる指標に基づいて抽出＞＜ウェブページ内の自然言語解析による指標に基づいて抽出＞によって収集された質問および回答を用いて稼働することができる。

Ｑ＆Ａ記憶部１０５は、抽出部１０４が抽出した質問および回答を格納する。以下、図８を参照しながら、Ｑ＆Ａ記憶部１０５に格納されるデータについて詳細に説明する。

図８は、本発明の一実施形態に係るＱ＆Ａ記憶部１０５に格納されるデータの一例である。図８に示されるように、Ｑ＆Ａ記憶部１０５には、質問のデータと回答のデータとが対応付けられて格納される。上述した＜会話の音声内の指標に基づいて抽出＞＜ウェブページ内のフォーマットによる指標に基づいて抽出＞では、抽出部１０４が抽出した質問と回答とが対応付けられて格納される。また、上述した＜ウェブページ内の自然言語解析による指標に基づいて抽出＞では、指標となった質問と、抽出部１０４が抽出した回答とが対応付けられて格納される。

なお、図８に示されるように、質問のデータは、質問文だけでなく、質問文に含まれる検索キーワード（質問用装置３０で指定されるであろうキーワード）も格納するようにしてもよい。また、回答のデータは、回答文だけでなく、応答装置２０が応答する際のキャラクターの声、動作、遷移するＵＲＬも格納するようにしてもよい。

図９は、本発明の一実施形態に係るＱ＆Ａ抽出＜会話の音声内の指標に基づいて抽出＞
の処理のフローチャートである。

ステップ１１（Ｓ１１）において、音声取得部１０２は、質問者と回答者との会話の音声データを取得する。

ステップ１２（Ｓ１２）において、音声取得部１０２は、Ｓ１１で取得した音声データを解析する。具体的には、音声取得部１０２は、Ｓ１１で取得した音声データをテキスト化して文書データを生成する。そして、音声取得部１０２は、生成した文書データを抽出部１０４が参照できるように抽出装置１０内等のメモリに記憶する。

ステップ１３（Ｓ１３）において、抽出部１０４は、Ｓ１２で生成された文書データの中から、設定部１０１によって設定された会話の終わりのキーワードを時間の経過に沿って検索する。会話の終わりのキーワードが検出された場合には処理を終了し、検出されなかった場合にはステップ１４へ進む。

ステップ１４（Ｓ１４）において、抽出部１０４は、Ｓ１２で生成された文書データの中から、設定部１０１によって設定された質問文の始まりのキーワードを時間の経過に沿って検索する。質問文の始まりのキーワードが検出された場合にはステップ１５へ進み、検出されなかった場合にはステップ１６へ進む。

ステップ１５（Ｓ１５）において、抽出部１０４は、Ｓ１２で生成された文書データの中から、設定部１０１によって設定された質問文の終わりのキーワードを時間の経過に沿って検索する。そして、抽出部１０４は、質問文の始まりのキーワードから質問文の終わりのキーワードまでの間の文章を質問として抽出して、Ｑ＆Ａ記憶部１０５に記憶する。

ステップ１６（Ｓ１６）において、抽出部１０４は、Ｓ１２で生成された文書データの中から、設定部１０１によって設定された回答文の始まりのキーワードを時間の経過に沿って検索する。回答文の始まりのキーワードが検出された場合にはステップ１７へ進み、検出されなかった場合にはステップ１１へ戻る。

ステップ１７（Ｓ１７）において、抽出部１０４は、Ｓ１２で生成された文書データの中から、設定部１０１によって設定された回答文の終わりのキーワードを時間の経過に沿って検索する。そして、抽出部１０４は、回答文の始まりのキーワードから回答文の終わりのキーワードまでの間の文章を回答として抽出して、Ｑ＆Ａ記憶部１０５に記憶する。

図１０は、本発明の一実施形態に係るＱ＆Ａ抽出＜ウェブページ内のフォーマットによる指標に基づいて抽出＞の処理のフローチャートである。

ステップ２１（Ｓ２１）において、ウェブページ検索部１０３は、ウェブページ（ＨＴＭＬ）を取得する。具体的には、ウェブページ検索部１０３は、指定された範囲または全てのウェブページから情報を収集（クロール）する。

ステップ２２（Ｓ２２）において、ウェブページ検索部１０３は、Ｓ２１で取得したウェブページを解析する。具体的には、ウェブページ検索部１０３は、収集した情報をテキスト化して文書データを生成する。そして、ウェブページ検索部１０３は、生成した文書データを抽出部１０４が参照できるように抽出装置１０内等のメモリに記憶する。

ステップ２３（Ｓ２３）において、抽出部１０４は、Ｓ２２で生成された文書データの中から、設定部１０１によって設定された一連の文章の終わりの隠し属性＜hidden＞を先頭から順に検索する。一連の文章の終わりの隠し属性＜hidden＞が検出された場合には処理を終了し、検出されなかった場合にはステップ２４へ進む。

ステップ２４（Ｓ２４）において、抽出部１０４は、Ｓ２２で生成された文書データの中から、設定部１０１によって設定された質問文の始まりの隠し属性＜hidden＞を先頭から順に検索する。質問文の始まりの隠し属性＜hidden＞が検出された場合にはステップ２５へ進み、検出されなかった場合にはステップ２６へ進む。

ステップ２５（Ｓ２５）において、抽出部１０４は、Ｓ２２で生成された文書データの中から、設定部１０１によって設定された質問文の終わりの隠し属性＜hidden＞を先頭から順に検索する。そして、抽出部１０４は、質問文の始まりの隠し属性＜hidden＞から質問文の終わりの隠し属性＜hidden＞までの間の文章を質問として抽出して、Ｑ＆Ａ記憶部１０５に記憶する。

ステップ２６（Ｓ２６）において、抽出部１０４は、Ｓ２２で生成された文書データの中から、設定部１０１によって設定された回答文の始まりの隠し属性＜hidden＞を先頭から順に検索する。回答文の始まりの隠し属性＜hidden＞が検出された場合にはステップ２７へ進み、検出されなかった場合にはステップ２１へ戻る。

ステップ２７（Ｓ２７）において、抽出部１０４は、Ｓ２２で生成された文書データの中から、設定部１０１によって設定された回答文の終わりの隠し属性＜hidden＞を先頭から順に検索する。そして、抽出部１０４は、回答文の始まりの隠し属性＜hidden＞から回答文の終わりの隠し属性＜hidden＞までの間の文章を回答として抽出して、Ｑ＆Ａ記憶部１０５に記憶する。

上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたＡＳＩＣ（Application Specific Integrated Circuit）、ＤＳＰ（digital signal processor）、ＦＰＧＡ（field programmable gate array）や従来の回路モジュール等のデバイスを含むものとする。

なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。

１応答システム
１０Ｑ＆Ａ抽出装置
２０応答装置
３０質問用装置
４０ネットワーク
３１デジタルサイネージ
３２コントローラ
３３マイク
３４スピーカ
５０回答者
５１マイク
６０質問者
１０１設定部
１０２音声取得部
１０３ウェブページ検索部
１０４抽出部
１０５Ｑ＆Ａ記憶部

特開２００１－２５６０３６号公報

Claims

質問と回答とのうちの少なくとも一方を識別するための指標を設定し、前記指標は、前記質問の始まりおよび終わり、および、前記回答の始まりおよび終わりを示す設定部と、
前記指標に基づいて、データの中から前記質問と前記回答とのうちの少なくとも一方を抽出する抽出部と
を備えた情報処理装置。
質問者と回答者との会話の音声データを取得し、前記音声データをテキスト化して前記データを生成する音声取得部をさらに備え、
前記指標は、前記質問の始まりおよび終わり、および、前記回答の始まりおよび終わりに発せられるキーワードである、請求項１に記載の情報処理装置。
ウェブページのうち、指定された範囲または前記ウェブページの全体から情報を収集し、前記情報をテキスト化して前記データを生成するウェブページ検索部をさらに備え、
前記指標は、前記ウェブページ内の隠し属性であり、
質問の始まりの隠し属性から質問の終わりの隠し属性までの間の文章が前記質問として抽出され、回答の始まりの隠し属性から回答の終わりの隠し属性までの間の文章が前記回答として抽出される、請求項１に記載の情報処理装置。
コンピュータが実行する方法であって、
質問と回答とのうちの少なくとも一方を識別するための指標を設定し、前記指標は、前記質問の始まりおよび終わり、および、前記回答の始まりおよび終わりを示すステップと、
前記指標に基づいて、データの中から前記質問と前記回答とのうちの少なくとも一方を抽出するステップと
を含む方法。
コンピュータを
質問と回答とのうちの少なくとも一方を識別するための指標を設定し、前記指標は、前記質問の始まりおよび終わり、および、前記回答の始まりおよび終わりを示す設定部、
前記指標に基づいて、データの中から前記質問と前記回答とのうちの少なくとも一方を抽出する抽出部、として機能させるためのプログラム。
情報処理装置と、応答装置と、質問用装置とを含む応答システムであって、
前記情報処理装置は、
質問と回答とのうちの少なくとも一方を識別するための指標を設定し、前記指標は、前記質問の始まりおよび終わり、および、前記回答の始まりおよび終わりを示す設定部と、
前記指標に基づいて、データの中から前記質問と前記回答とのうちの少なくとも一方を抽出する抽出部と、を備え、
前記応答装置は、前記抽出部が抽出した前記質問および前記回答に基づいて、前記質問用装置から受信した質問に対して回答を送信し、
前記質問用装置は、前記応答装置へ質問を送信し、前記応答装置から回答を受信する、
応答システム。