JP2020177360A - Q&a extraction device, method, program, and answering system - Google Patents
Q&a extraction device, method, program, and answering system Download PDFInfo
- Publication number
- JP2020177360A JP2020177360A JP2019078072A JP2019078072A JP2020177360A JP 2020177360 A JP2020177360 A JP 2020177360A JP 2019078072 A JP2019078072 A JP 2019078072A JP 2019078072 A JP2019078072 A JP 2019078072A JP 2020177360 A JP2020177360 A JP 2020177360A
- Authority
- JP
- Japan
- Prior art keywords
- question
- answer
- web page
- index
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、Q&A抽出装置、方法、プログラム、および応答システムに関する。 The present invention relates to Q & A extraction devices, methods, programs, and response systems.
従来、音声やテキストによる人間からの質問に対してコンピュータが回答することができる自動応答システム(チャットボットとも呼ばれる)が知られている(特許文献1等)。 Conventionally, there is known an automatic response system (also called a chatbot) in which a computer can answer a question from a human by voice or text (Patent Document 1 and the like).
このような自動応答システムでは、あらかじめ、多数の質問や回答(以下、Q&Aともいう)のデータを収集しておく必要がある。例えば、自動応答システムでは、収集した質問や回答のデータを教師データとして手作業により作成し、機械学習を行って自動応答のための学習済みモデルを生成したり(機械学習型の自動応答システムの場合)、あるいは、収集した質問や回答のデータをもとに自動応答のためのシナリオを手作業により作成したり(ルールベース型の自動応答システムの場合)する。 In such an automatic response system, it is necessary to collect data of a large number of questions and answers (hereinafter, also referred to as Q & A) in advance. For example, in an automatic response system, the collected question and answer data are manually created as teacher data, and machine learning is performed to generate a trained model for automatic response (machine learning type automatic response system). (In the case), or manually create a scenario for automatic response based on the collected question and answer data (in the case of a rule-based automatic response system).
しかしながら、多数の質問や回答を収集し、教師データや自動応答のためのシナリオを手作業で作成することは手間と時間がかかり容易ではない。 However, collecting a large number of questions and answers and manually creating scenarios for teacher data and automatic responses is laborious, time-consuming, and not easy.
そこで、本発明の一実施形態では、教師データ又は自動応答のためのシナリオを作成する負荷を軽減することを目的とする。 Therefore, one embodiment of the present invention aims to reduce the load of creating a scenario for teacher data or automatic response.
上述した課題を解決するために、本発明の一実施形態は、質問と回答とのうちの少なくとも一方を識別するための指標を設定する設定部と、前記指標に基づいて、データの中から前記質問と前記回答とのうちの少なくとも一方を抽出する抽出部と、を備える。 In order to solve the above-mentioned problems, one embodiment of the present invention includes a setting unit for setting an index for identifying at least one of a question and an answer, and the data from the data based on the index. It includes an extraction unit that extracts at least one of a question and the answer.
本発明の一実施形態によれば、教師データ又は自動応答のためのシナリオを作成する負荷を軽減することができる。 According to one embodiment of the present invention, the load of creating a scenario for teacher data or automatic response can be reduced.
以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。 Hereinafter, each embodiment will be described with reference to the accompanying drawings. In the present specification and the drawings, components having substantially the same functional configuration are designated by the same reference numerals, so that duplicate description will be omitted.
<システム構成>
図1は、本発明の一実施形態に係るQ&A抽出装置10(情報処理装置の一例)を含む応答システム1の全体の構成図である。図1に示されるように、応答システム1は、Q&A抽出装置(以下、単に抽出装置ともいう)10、応答装置20、質問用装置30を含む。応答装置20は、質問用装置30および抽出装置10と任意のネットワーク40によって通信可能に接続されている。以下、それぞれについて説明する。
<System configuration>
FIG. 1 is an overall configuration diagram of a response system 1 including a Q & A extraction device 10 (an example of an information processing device) according to an embodiment of the present invention. As shown in FIG. 1, the response system 1 includes a Q & A extraction device (hereinafter, also simply referred to as an extraction device) 10, a
なお、図1では、抽出装置10と応答装置20とを別々の装置として説明しているが、抽出装置10と応答装置20とを1つの装置として実装する(例えば、既存の応答装置20内に抽出装置10を設置する)ようにしてもよい。
Although the
Q&A抽出装置10は、応答装置20が提供する自動応答サービスのために用いられる質問データと回答データとのうちの少なくとも一方を抽出する装置である。具体的には、抽出装置10は、マイク51(図4を参照しながら後述する)によって取得された音声データの中から、質問データと回答データとのうちの少なくとも一方を抽出することができる。また、抽出装置10は、ウェブページの中から、質問データと回答データとのうちの少なくとも一方を抽出することができる。後段で、図5を参照しながら、Q&A抽出装置10について詳細に説明する。
The Q &
応答装置20は、質問用装置30からの質問に応答する装置である。具体的には、応答装置20は、質問用装置30から質問を受信する。また、応答装置20は、質問用装置30へ回答を送信する。
The
応答装置20は、音声により質問を受け付ける構成としてもよいし、テキストにより質問を受け付ける構成としてもよい。また、応答装置20は、音声により応答する構成としてもよいし、テキストにより応答する構成としてもよい。
The
応答装置20は、機械学習により生成された学習済みモデルに質問を入力することによって出力される回答を用いて応答する構成とすることができる。あるいは、応答装置20は、あらかじめ定められたシナリオに従って回答する構成とすることができる。つまり、応答装置20は、抽出装置10が抽出した質問や回答のデータを教師データとして機械学習を行って自動応答のための学習済みモデルを生成したり(機械学習型の場合)、あるいは、抽出装置10が抽出した質問や回答のデータをもとに自動応答のためのシナリオを生成したり(ルールベース型の場合)することができる。
The
質問用装置30は、応答装置20が提供する自動応答サービスに対して質問をしたい者が利用する装置である。質問用装置30は、例えば、図3で説明するようなデジタルサイネージ31、コントローラ32、マイク33、スピーカ34から構成される。なお、質問用装置30は、パーソナルコンピュータ、タブレット、スマートフォン等の任意のコンピュータであってもよい。例えば、質問用装置30は、観光地に設置される観光地を案内するための装置であり、観光地の訪問者からの質問を受け付ける。
The
<ハードウェア構成>
図2は、本発明の一実施形態に係るQ&A抽出装置10および応答装置20のハードウェア構成図である。抽出装置10、応答装置20は、1または複数のコンピュータからなる。
<Hardware configuration>
FIG. 2 is a hardware configuration diagram of the Q &
抽出装置10、応答装置20は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13を有する。CPU11、ROM12、RAM13は、いわゆるコンピュータを形成する。
The
また、抽出装置10、応答装置20は、補助記憶装置14、表示装置15、操作装置16、I/F(Interface)装置17、ドライブ装置18を有する。なお、抽出装置10、応答装置20の各ハードウェアは、バス19を介して相互に接続されている。
Further, the
CPU11は、補助記憶装置14にインストールされている各種プログラムを実行する演算デバイスである。
The
ROM12は、不揮発性メモリである。ROM12は、補助記憶装置14にインストールされている各種プログラムをCPU11が実行するために必要な各種プログラム、データ等を格納する主記憶デバイスとして機能する。具体的には、ROM12はBIOS(Basic Input/Output System)やEFI(Extensible Firmware Interface)等のブートプログラム等を格納する、主記憶デバイスとして機能する。
The
RAM13は、DRAM(Dynamic Random Access Memory)やSRAM(Static Random Access Memory)等の揮発性メモリである。RAM13は、補助記憶装置14にインストールされている各種プログラムがCPU11によって実行される際に展開される作業領域を提供する、主記憶デバイスとして機能する。
The
補助記憶装置14は、各種プログラムや、各種プログラムが実行される際に用いられる情報を格納する補助記憶デバイスである。
The
表示装置15は、抽出装置10、応答装置20の内部状態等を表示する表示デバイスである。
The
操作装置16は、抽出装置10、応答装置20の管理者が抽出装置10、応答装置20に対して各種指示を入力する入力デバイスである。
The
I/F装置17は、ネットワーク40に接続し、抽出装置10、応答装置20、質問用装置30と通信を行うための通信デバイスである。
The I /
ドライブ装置18は記憶媒体21をセットするためのデバイスである。ここでいう記憶媒体21には、CD−ROM、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記憶媒体21には、EPROM (Erasable Programmable Read Only Memory)、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。
The
なお、補助記憶装置14にインストールされる各種プログラムは、例えば、配布された記憶媒体21がドライブ装置18にセットされ、該記憶媒体21に記録された各種プログラムがドライブ装置18により読み出されることでインストールされる。あるいは、補助記憶装置14にインストールされる各種プログラムは、I/F装置17を介して、ネットワーク40とは異なる他のネットワークよりダウンロードされることでインストールされてもよい。
The various programs installed in the
図3は、本発明の一実施形態に係る質問用装置30のハードウェア構成図である。図3に示されるように、質問用装置30は、デジタルサイネージ31、コントローラ32、マイク33、スピーカ34を含むことができる。
FIG. 3 is a hardware configuration diagram of the
デジタルサイネージ31は、例えば、タッチパネル式のサイネージである。デジタルサイネージ31は、例えば、ウェブブラウザを介して、ユーザに自動応答サービスを提供することができる。具体的には、デジタルサイネージ31は、マイク33に向かって質問を発するよう促す画面を表示することができる。また、デジタルサイネージ31は、タッチパネルを用いて質問を入力するよう促す画面を表示することができる。また、デジタルサイネージ31は、応答装置20から送信された回答を表示することができる。
The
コントローラ32は、デジタルサイネージ31を制御するための装置である。
The
マイク33は、応答装置20が提供する自動応答サービスに対して質問をしたい者が発した音声(質問)を取得する。
The
スピーカ34は、応答装置20から送信された音声データ(回答)を再生する。
The
図4は、本発明の一実施形態に係る質問と回答の収集例を説明するための図である。図4に示されるように、質問者60(例えば、観光地を訪問した訪問者)と回答者50(例えば、観光地を案内する案内者)の会話が、回答者50が装着しているマイク51によって録音される。Q&A抽出装置10は、このように取得された会話の音声データの中から、質問データと回答データとのうちの少なくとも一方を抽出することができる。
FIG. 4 is a diagram for explaining a collection example of questions and answers according to an embodiment of the present invention. As shown in FIG. 4, the conversation between the questioner 60 (for example, a visitor who visited a tourist spot) and the respondent 50 (for example, a guide who guides the tourist spot) is a microphone worn by the respondent 50. Recorded by 51. The Q &
<機能ブロック>
図5は、本発明の一実施形態に係るQ&A抽出装置10の機能ブロック図である。図5に示されるように、抽出装置10は、設定部101、音声取得部102、ウェブページ検索部103、抽出部104、Q&A記憶部105を含む。また、抽出装置10は、プログラムを実行することで、設定部101、音声取得部102、ウェブページ検索部103、抽出部104として機能する。以下、それぞれについて説明する。
<Functional block>
FIG. 5 is a functional block diagram of the Q &
設定部101は、質問文や回答文を識別するための指標を設定する。具体的には、設定部101は、抽出装置10の操作装置16または他のコンピュータ等によって入力された設定を受け付ける。また、設定部101は、受け付けた設定を抽出部104が参照できるように抽出装置10内等のメモリに記憶する。
The
ここで、質問文や回答文を識別するための指標について説明する。以下、<会話の音声内の指標>、<ウェブページ内のフォーマットによる指標>、<ウェブページ内の自然言語解析による指標>の3つの例について説明する。 Here, an index for identifying a question sentence or an answer sentence will be described. Hereinafter, three examples of <index in voice of conversation>, <index by format in web page>, and <index by natural language analysis in web page> will be described.
<会話の音声内の指標>
設定部101は、質問者と回答者との会話(例えば、観光地の案内者と訪問者との会話)内で、質問文の始まりおよび終わり、および、回答文の始まりおよび終わりに発せられるべき文言(以下、キーワードともいう)を、質問文や回答文を識別するための指標として設定することができる。以下、図6を参照しながら、<会話の音声内の指標>について詳細に説明する。
<Indicator in conversation voice>
The
図6は、本発明の一実施形態に係る会話の音声内の指標を説明するための図である。図6では、左から右へ時間が経過する。例えば、質問文の始まりのキーワードを「はい、ご質問ですね」とし、質問文の終わりのキーワードを「あなたのご質問は以上ですね」とし、回答の始まりを「それに対する答えは」とし、回答の終わりを「以上です」とする。回答する人(あるいは質問する人)がこれらのキーワードを発することによって、質問文の始まりのキーワード(「はい、ご質問ですね」)から質問文の終わりのキーワード(「あなたのご質問は以上ですね」)までの間に発せられた音声が質問文であると識別されることとなる。また、回答する人(あるいは質問する人)がこれらのキーワードを発することによって、回答文の始まりのキーワード(「それに対する答えは」)から回答文の終わりのキーワード(「以上です」)までの間に発せられた音声が回答文であると識別されることとなる。 FIG. 6 is a diagram for explaining an index in the voice of conversation according to an embodiment of the present invention. In FIG. 6, time elapses from left to right. For example, the keyword at the beginning of the question sentence is "Yes, you have a question", the keyword at the end of the question sentence is "Your question is over", and the beginning of the answer is "The answer to that". End the answer with "that's it". By issuing these keywords by the respondent (or the person asking the question), the keywords at the beginning of the question ("Yes, you have a question") to the keywords at the end of the question ("Your question is over." The voice uttered up to that point will be identified as an interrogative sentence. Also, when the respondent (or the person asking the question) issues these keywords, the keyword at the beginning of the answer sentence (“the answer to it”) to the keyword at the end of the answer sentence (“more than”) The voice uttered in is identified as the answer sentence.
なお、会話の終わりのキーワードを設定することによって、会話が終了したことを識別できるようにしてもよい。あるいは、会話の始まりおよび終わりのキーワードを設定することによって、会話の始まりのキーワードから会話の終わりのキーワードまでの間に発せられた音声が、1つの会話であると識別できるようにしてもよい。 By setting a keyword at the end of the conversation, it may be possible to identify that the conversation has ended. Alternatively, by setting the start and end keywords of the conversation, the voice emitted between the start keyword of the conversation and the end keyword of the conversation may be identified as one conversation.
<ウェブページ内のフォーマットによる指標>
設定部101は、ウェブページ内の所定のフォーマットを、質問文や回答文を識別するための指標として設定することができる。以下、図7を参照しながら、<ウェブページ内のフォーマットによる指標>について詳細に説明する。
<Indicator by format in web page>
The
図7は、本発明の一実施形態に係るウェブページ内のフォーマットによる指標を説明するための図である。図7は、FAQ(よくある質問とその回答)のウェブページを示す。FAQのウェブページが所定のフォーマットで作成されると、質問文のフォーマットで記載された文章は質問文であると識別され、回答文のフォーマットで記載された文章は回答文であると識別されることとなる。以下、2つのフォーマット例を説明する。なお、<<フォーマット例1>>と<<フォーマット例2>>とを組み合わせてもよい。 FIG. 7 is a diagram for explaining an index in a format in a web page according to an embodiment of the present invention. FIG. 7 shows a FAQ (Frequently Asked Questions and Answers) web page. When the FAQ web page is created in a predetermined format, the text written in the question text format is identified as the question text, and the text written in the answer text format is identified as the answer text. It will be. Two format examples will be described below. In addition, << format example 1 >> and << format example 2 >> may be combined.
<<フォーマット例1>>
例えば、設定部101は、HTML(HyperText Markup Language)の所定の属性(例えば、隠し属性<hidden>)を、質問文や回答文を識別するための指標として設定することができる。そのため、FAQのウェブページの作成者は、隠し属性<hidden>を用いて、質問文の始まりおよび終わり、および、回答文の始まりおよび終わりを指定することができる。なお、質問文の始まりおよび終わり、および、回答文の始まりおよび終わりの指定は、隠し属性<hidden>であるので、図7のように、ユーザのウェブブラウザ上には表示されない。
<< Format Example 1 >>
For example, the
なお、一連の文章の終わりの隠し属性<hidden>を設定することによって、一連の文章が終了したことを識別できるようにしてもよい。あるいは、一連の文章の始まりおよび終わりの隠し属性<hidden>を設定することによって、一連の文章の始まりの隠し属性<hidden>から一連の文章の終わりの隠し属性<hidden>までの間に記載された文章が、1つのFAQの対であると識別できるようにしてもよい。 By setting the hidden attribute <hidden> at the end of a series of sentences, it may be possible to identify that the series of sentences has ended. Alternatively, by setting the hidden attribute <hidden> at the beginning and end of a series of sentences, it is described between the hidden attribute <hidden> at the beginning of a series of sentences and the hidden attribute <hidden> at the end of a series of sentences. The text may be identified as a pair of FAQs.
<<フォーマット例2>>
例えば、設定部101は、ウェブページ内で文章が配置される位置を、質問文や回答文を識別するための指標として設定することができる。そのため、FAQのウェブページの作成者は、例えば、図7のように、左側の欄に配置される文章を質問文、右側の欄に配置される文章を回答文と指定することができる。
<< Format Example 2 >>
For example, the
<ウェブページ内の自然言語解析による指標>
設定部101は、質問または質問内の一部の文言を、回答文を識別するための指標として設定することができる。例えば、設定部101は、質問者が質問用装置30に入力した質問または質問内の一部の文言、あるいは、応答システム1のシステム管理者等が指定した質問または質問内の一部の文言を、指標として設定することができる。
<Indicator by natural language analysis in web page>
The
図5の説明に戻る。音声取得部102は、質問者と回答者との会話の音声データを取得する。例えば、音声取得部102は、回答者が装着しているマイク51(図4参照)が集音した質問者と回答者との会話の音声データを取得する。また、音声取得部102は、取得した音声データをテキスト化して文書データを生成する。また、音声取得部102は、生成した文書データを抽出部104が参照できるように抽出装置10内等のメモリに記憶する。
Returning to the description of FIG. The
なお、本発明の一実施形態では、Q&A抽出装置10は、音声データをテキスト化して文書データを生成することなく、音声データのままで処理を行う(つまり、音声データから質問文、回答文を特定して抽出する)構成とすることもできる。
In one embodiment of the present invention, the Q &
ウェブページ検索部103は、ウェブページ(HTML)を取得する。例えば、ウェブページ検索部103は、指定された範囲または全てのウェブページから情報を収集(クロール)する。また、ウェブページ検索部103は、収集した情報をテキスト化して文書データを生成する。また、ウェブページ検索部103は、生成した文書データを抽出部104が参照できるように抽出装置10内等のメモリに記憶する。
The web
抽出部104は、音声取得部102が生成した文書データ、ウェブページ検索部103が生成した文書データの中から、設定部101が設定した指標に基づいて、質問と回答とのうちの少なくとも一方を抽出する。また、抽出部104は、抽出した質問および回答をQ&A記憶部105に記憶する。以下、<会話の音声内の指標に基づいて抽出>、<ウェブページ内のフォーマットによる指標に基づいて抽出>、<ウェブページ内の自然言語解析による指標に基づいて抽出>の3つの例に分けて説明する。
The
<会話の音声内の指標に基づいて抽出>
抽出部104は、音声取得部102が生成した文書データの中から、設定部101によって設定された質問文の始まりおよび終わり、および、回答文の始まりおよび終わりに発せられるべきキーワードを検索する。また、抽出部104は、質問文の始まりのキーワードから質問文の終わりのキーワードまでの間の文章を質問として抽出する。また、抽出部104は、回答文の始まりのキーワードから回答文の終わりのキーワードまでの間の文章を回答として抽出する。
<Extracted based on the index in the voice of conversation>
The
このように、<会話の音声内の指標に基づいて抽出>では、回答する人(あるいは質問する人)は、所定のキーワードを発するだけで会話内の質問と回答とをQ&Aとして登録することができる。また、所定のキーワードが発せられないかぎり質問と回答とが登録されないので、不必要な会話(例えば、応答装置20が必要としない情報)が登録されずに済む。 In this way, in <extracting based on the index in the voice of the conversation>, the person who answers (or the person who asks the question) can register the question and the answer in the conversation as Q & A simply by issuing a predetermined keyword. it can. Further, since the question and the answer are not registered unless a predetermined keyword is issued, unnecessary conversation (for example, information not required by the response device 20) can be prevented from being registered.
<ウェブページ内のフォーマットによる指標に基づいて抽出>
抽出部104は、ウェブページ検索部103が生成した文書データの中から、設定部101によって設定されたフォーマットで記載された文章を抽出する。以下、上述した2つのフォーマット例に分けて説明する。
<Extracted based on the index by the format in the web page>
The
<<フォーマット例1のウェブページからの抽出>>
例えば、抽出部104は、ウェブページ検索部103が生成した文書データの中から、設定部101によって設定されたHTMLの所定の属性(例えば、隠し属性<hidden>)を検索する。また、抽出部104は、HTMLの所定の属性(例えば、隠し属性<hidden>)を用いて指定された、質問文の始まりおよび終わり、および、回答文の始まりおよび終わりを検索する。また、抽出部104は、質問文の始まりの隠し属性<hidden>から質問文の終わりの隠し属性<hidden>までの間の文章を質問として抽出する。また、抽出部104は、回答文の始まりの隠し属性<hidden>から回答文の終わりの隠し属性<hidden>までの間の文章を回答として抽出する。
<< Extraction from the web page of format example 1 >>
For example, the
<<フォーマット例2のウェブページからの抽出>>
例えば、抽出部104は、ウェブページ検索部103が生成した文書データの中から、設定部101によって設定された位置に配置される文章を検索する。また、抽出部104は、質問文が配置されるべきと設定部101によって設定された位置にある文章を質問として抽出する。また、抽出部104は、回答文が配置されるべきと設定部101によって設定された位置にある文章を回答として抽出する。
<< Extraction from the web page of format example 2 >>
For example, the
このように、<ウェブページ内のフォーマットによる指標に基づいて抽出>では、ウェブページの作成者は、所定のフォーマットでFAQを記載するだけでFAQ内の質問と回答とをQ&Aとして登録することができる。また、ウェブページ内のFAQが更新されると、更新されたFAQ内の質問と回答とが自動的にQ&Aとして登録される。 In this way, in <extracting based on the index by the format in the web page>, the creator of the web page can register the question and answer in the FAQ as Q & A simply by describing the FAQ in the predetermined format. it can. In addition, when the FAQ in the web page is updated, the questions and answers in the updated FAQ are automatically registered as Q & A.
<ウェブページ内の自然言語解析による指標に基づいて抽出>
抽出部104は、ウェブページ検索部103が生成した文書データを自然言語解析し、設定部101によって設定された質問または質問内の一部の文言に対する回答を抽出する。
<Extracted based on indicators by natural language analysis in web pages>
The
ここで、<ウェブページ内の自然言語解析による指標に基づいて抽出>が行われるタイミングの例について説明する。 Here, an example of the timing at which <extraction based on an index by natural language analysis in a web page> is performed will be described.
<タイミング1>
応答装置20が、<会話の音声内の指標に基づいて抽出>や<ウェブページ内のフォーマットによる指標に基づいて抽出>によって事前に収集された質問および回答を用いて稼働中であるとする。抽出部104は、応答装置20が質問用装置30からの質問に対する回答を見つけ出せないときに、<ウェブページ内の自然言語解析による指標に基づいて抽出>によって回答を見つけ出す構成とすることができる。
<Timing 1>
It is assumed that the
<タイミング2>
抽出部104は、<会話の音声内の指標に基づいて抽出>や<ウェブページ内のフォーマットによる指標に基づいて抽出>と同様に、<ウェブページ内の自然言語解析による指標に基づいて抽出>によって回答を収集する構成とすることができる。応答装置20は、<会話の音声内の指標に基づいて抽出><ウェブページ内のフォーマットによる指標に基づいて抽出><ウェブページ内の自然言語解析による指標に基づいて抽出>によって収集された質問および回答を用いて稼働することができる。
<Timing 2>
The
Q&A記憶部105は、抽出部104が抽出した質問および回答を格納する。以下、図8を参照しながら、Q&A記憶部105に格納されるデータについて詳細に説明する。
The Q &
図8は、本発明の一実施形態に係るQ&A記憶部105に格納されるデータの一例である。図8に示されるように、Q&A記憶部105には、質問のデータと回答のデータとが対応付けられて格納される。上述した<会話の音声内の指標に基づいて抽出><ウェブページ内のフォーマットによる指標に基づいて抽出>では、抽出部104が抽出した質問と回答とが対応付けられて格納される。また、上述した<ウェブページ内の自然言語解析による指標に基づいて抽出>では、指標となった質問と、抽出部104が抽出した回答とが対応付けられて格納される。
FIG. 8 is an example of data stored in the Q &
なお、図8に示されるように、質問のデータは、質問文だけでなく、質問文に含まれる検索キーワード(質問用装置30で指定されるであろうキーワード)も格納するようにしてもよい。また、回答のデータは、回答文だけでなく、応答装置20が応答する際のキャラクターの声、動作、遷移するURLも格納するようにしてもよい。
As shown in FIG. 8, the question data may store not only the question text but also the search keyword (keyword that will be specified by the question device 30) included in the question text. .. Further, the answer data may store not only the answer sentence but also the voice, action, and transition URL of the character when the
図9は、本発明の一実施形態に係るQ&A抽出<会話の音声内の指標に基づいて抽出>
の処理のフローチャートである。
FIG. 9 shows a Q & A extraction according to an embodiment of the present invention <extraction based on an index in the voice of conversation>.
It is a flowchart of the process of.
ステップ11(S11)において、音声取得部102は、質問者と回答者との会話の音声データを取得する。
In step 11 (S11), the
ステップ12(S12)において、音声取得部102は、S11で取得した音声データを解析する。具体的には、音声取得部102は、S11で取得した音声データをテキスト化して文書データを生成する。そして、音声取得部102は、生成した文書データを抽出部104が参照できるように抽出装置10内等のメモリに記憶する。
In step 12 (S12), the
ステップ13(S13)において、抽出部104は、S12で生成された文書データの中から、設定部101によって設定された会話の終わりのキーワードを時間の経過に沿って検索する。会話の終わりのキーワードが検出された場合には処理を終了し、検出されなかった場合にはステップ14へ進む。
In step 13 (S13), the
ステップ14(S14)において、抽出部104は、S12で生成された文書データの中から、設定部101によって設定された質問文の始まりのキーワードを時間の経過に沿って検索する。質問文の始まりのキーワードが検出された場合にはステップ15へ進み、検出されなかった場合にはステップ16へ進む。
In step 14 (S14), the
ステップ15(S15)において、抽出部104は、S12で生成された文書データの中から、設定部101によって設定された質問文の終わりのキーワードを時間の経過に沿って検索する。そして、抽出部104は、質問文の始まりのキーワードから質問文の終わりのキーワードまでの間の文章を質問として抽出して、Q&A記憶部105に記憶する。
In step 15 (S15), the
ステップ16(S16)において、抽出部104は、S12で生成された文書データの中から、設定部101によって設定された回答文の始まりのキーワードを時間の経過に沿って検索する。回答文の始まりのキーワードが検出された場合にはステップ17へ進み、検出されなかった場合にはステップ11へ戻る。
In step 16 (S16), the
ステップ17(S17)において、抽出部104は、S12で生成された文書データの中から、設定部101によって設定された回答文の終わりのキーワードを時間の経過に沿って検索する。そして、抽出部104は、回答文の始まりのキーワードから回答文の終わりのキーワードまでの間の文章を回答として抽出して、Q&A記憶部105に記憶する。
In step 17 (S17), the
図10は、本発明の一実施形態に係るQ&A抽出<ウェブページ内のフォーマットによる指標に基づいて抽出>の処理のフローチャートである。 FIG. 10 is a flowchart of a process of Q & A extraction <extraction based on an index in a format in a web page> according to an embodiment of the present invention.
ステップ21(S21)において、ウェブページ検索部103は、ウェブページ(HTML)を取得する。具体的には、ウェブページ検索部103は、指定された範囲または全てのウェブページから情報を収集(クロール)する。
In step 21 (S21), the web
ステップ22(S22)において、ウェブページ検索部103は、S21で取得したウェブページを解析する。具体的には、ウェブページ検索部103は、収集した情報をテキスト化して文書データを生成する。そして、ウェブページ検索部103は、生成した文書データを抽出部104が参照できるように抽出装置10内等のメモリに記憶する。
In step 22 (S22), the web
ステップ23(S23)において、抽出部104は、S22で生成された文書データの中から、設定部101によって設定された一連の文章の終わりの隠し属性<hidden>を先頭から順に検索する。一連の文章の終わりの隠し属性<hidden>が検出された場合には処理を終了し、検出されなかった場合にはステップ24へ進む。
In step 23 (S23), the
ステップ24(S24)において、抽出部104は、S22で生成された文書データの中から、設定部101によって設定された質問文の始まりの隠し属性<hidden>を先頭から順に検索する。質問文の始まりの隠し属性<hidden>が検出された場合にはステップ25へ進み、検出されなかった場合にはステップ26へ進む。
In step 24 (S24), the
ステップ25(S25)において、抽出部104は、S22で生成された文書データの中から、設定部101によって設定された質問文の終わりの隠し属性<hidden>を先頭から順に検索する。そして、抽出部104は、質問文の始まりの隠し属性<hidden>から質問文の終わりの隠し属性<hidden>までの間の文章を質問として抽出して、Q&A記憶部105に記憶する。
In step 25 (S25), the
ステップ26(S26)において、抽出部104は、S22で生成された文書データの中から、設定部101によって設定された回答文の始まりの隠し属性<hidden>を先頭から順に検索する。回答文の始まりの隠し属性<hidden>が検出された場合にはステップ27へ進み、検出されなかった場合にはステップ21へ戻る。
In step 26 (S26), the
ステップ27(S27)において、抽出部104は、S22で生成された文書データの中から、設定部101によって設定された回答文の終わりの隠し属性<hidden>を先頭から順に検索する。そして、抽出部104は、回答文の始まりの隠し属性<hidden>から回答文の終わりの隠し属性<hidden>までの間の文章を回答として抽出して、Q&A記憶部105に記憶する。
In step 27 (S27), the
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。 Each function of the embodiment described above can be realized by one or more processing circuits. Here, the "processing circuit" in the present specification is a processor programmed to execute each function by software such as a processor implemented by an electronic circuit, or a processor designed to execute each function described above. It shall include devices such as ASIC (Application Specific Integrated Circuit), DSP (digital signal processor), FPGA (field programmable gate array) and conventional circuit modules.
なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。 The present invention is not limited to the configurations shown here, such as combinations with other elements in the configurations and the like described in the above embodiments. These points can be changed without departing from the spirit of the present invention, and can be appropriately determined according to the application form thereof.
1 応答システム
10 Q&A抽出装置
20 応答装置
30 質問用装置
40 ネットワーク
31 デジタルサイネージ
32 コントローラ
33 マイク
34 スピーカ
50 回答者
51 マイク
60 質問者
101 設定部
102 音声取得部
103 ウェブページ検索部
104 抽出部
105 Q&A記憶部
1 Response system 10 Q &
Claims (10)
前記指標に基づいて、データの中から前記質問と前記回答とのうちの少なくとも一方を抽出する抽出部と
を備えた情報処理装置。 A setting unit that sets an index to identify at least one of a question and an answer,
An information processing device including an extraction unit that extracts at least one of the question and the answer from the data based on the index.
前記指標は、前記質問の始まりおよび終わり、および、前記回答の始まりおよび終わりに発せられるキーワードである、請求項1に記載の情報処理装置。 Further provided with a voice acquisition unit that acquires voice data of a conversation between a questioner and a respondent, converts the voice data into text, and generates the data.
The information processing apparatus according to claim 1, wherein the index is a keyword issued at the beginning and end of the question and the beginning and end of the answer.
前記指標は、前記ウェブページ内の所定のフォーマットである、請求項1に記載の情報処理装置。 It further includes a web page search unit that collects information from a specified range of web pages or the entire web page, converts the information into text, and generates the data.
The information processing apparatus according to claim 1, wherein the index is in a predetermined format in the web page.
質問の始まりの隠し属性から質問の終わりの隠し属性までの間の文章が前記質問として抽出され、回答の始まりの隠し属性から回答の終わりの隠し属性までの間の文章が前記回答として抽出される、請求項3に記載の情報処理装置。 The predetermined format is a hidden attribute and
The text between the hidden attribute at the beginning of the question and the hidden attribute at the end of the question is extracted as the question, and the text between the hidden attribute at the beginning of the answer and the hidden attribute at the end of the answer is extracted as the answer. , The information processing apparatus according to claim 3.
質問が配置されるべき位置にある文章が前記質問として抽出され、回答が配置されるべき位置にある文章が前記回答として抽出される、請求項3に記載の情報処理装置。 The predetermined format is a position in the web page where the text is arranged.
The information processing apparatus according to claim 3, wherein the sentence at the position where the question should be arranged is extracted as the question, and the sentence at the position where the answer should be arranged is extracted as the answer.
前記指標は、質問または前記質問内の一部の文言であり、
前記抽出部は、前記データを自然言語解析し、前記質問または前記質問内の一部の文言に対する回答を抽出する、請求項1に記載の情報処理装置。 It further includes a web page search unit that collects information from a specified range of web pages or the entire web page, converts the information into text, and generates the data.
The indicator is a question or some wording within the question.
The information processing apparatus according to claim 1, wherein the extraction unit analyzes the data in natural language and extracts an answer to the question or a part of the wording in the question.
質問または前記質問内の一部の文言を取得し、
ウェブページのうち、指定された範囲または前記ウェブページの全体を自然言語解析し、前記質問または前記質問内の一部の文言に対する回答を抽出する、請求項2または3に記載の情報処理装置。 The extraction unit
Get the question or some wording in the question and
The information processing apparatus according to claim 2 or 3, wherein a specified range of a web page or the entire web page is analyzed in natural language, and an answer to the question or a part of the wording in the question is extracted.
質問と回答とのうちの少なくとも一方を識別するための指標を設定するステップと、
前記指標に基づいて、データの中から前記質問と前記回答とのうちの少なくとも一方を抽出するステップと
を含む方法。 The way the computer does
Steps to set indicators to identify at least one of the question and answer,
A method comprising the step of extracting at least one of the question and the answer from the data based on the index.
質問と回答とのうちの少なくとも一方を識別するための指標を設定する設定部、
前記指標に基づいて、データの中から前記質問と前記回答とのうちの少なくとも一方を抽出する抽出部、として機能させるためのプログラム。 A setting unit that sets an index to identify at least one of a question and an answer on a computer.
A program for functioning as an extraction unit that extracts at least one of the question and the answer from the data based on the index.
前記情報処理装置は、
質問と回答とのうちの少なくとも一方を識別するための指標を設定する設定部と、
前記指標に基づいて、データの中から前記質問と前記回答とのうちの少なくとも一方を抽出する抽出部と、を備え、
前記応答装置は、前記抽出部が抽出した前記質問および前記回答に基づいて、前記質問用装置から受信した質問に対して回答を送信し、
前記質問用装置は、前記応答装置へ質問を送信し、前記応答装置から回答を受信する、
応答システム。 A response system including an information processing device, a response device, and a question device.
The information processing device
A setting unit that sets an index to identify at least one of a question and an answer,
An extraction unit that extracts at least one of the question and the answer from the data based on the index is provided.
The response device transmits an answer to the question received from the question device based on the question and the answer extracted by the extraction unit.
The questioning device sends a question to the answering device and receives an answer from the answering device.
Response system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019078072A JP7099397B2 (en) | 2019-04-16 | 2019-04-16 | Q & A extractor, method, program, and response system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019078072A JP7099397B2 (en) | 2019-04-16 | 2019-04-16 | Q & A extractor, method, program, and response system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020177360A true JP2020177360A (en) | 2020-10-29 |
JP7099397B2 JP7099397B2 (en) | 2022-07-12 |
Family
ID=72937350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019078072A Active JP7099397B2 (en) | 2019-04-16 | 2019-04-16 | Q & A extractor, method, program, and response system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7099397B2 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH113335A (en) * | 1997-06-13 | 1999-01-06 | Fuji Xerox Co Ltd | Question and answer managing device |
JP2006092473A (en) * | 2004-09-27 | 2006-04-06 | Toshiba Corp | Answering support system and apparatus, and answering support program |
JP2011123565A (en) * | 2009-12-08 | 2011-06-23 | Nomura Research Institute Ltd | Faq candidate extracting system and faq candidate extracting program |
JP2018513480A (en) * | 2015-12-30 | 2018-05-24 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | Information extraction method and apparatus |
-
2019
- 2019-04-16 JP JP2019078072A patent/JP7099397B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH113335A (en) * | 1997-06-13 | 1999-01-06 | Fuji Xerox Co Ltd | Question and answer managing device |
JP2006092473A (en) * | 2004-09-27 | 2006-04-06 | Toshiba Corp | Answering support system and apparatus, and answering support program |
JP2011123565A (en) * | 2009-12-08 | 2011-06-23 | Nomura Research Institute Ltd | Faq candidate extracting system and faq candidate extracting program |
JP2018513480A (en) * | 2015-12-30 | 2018-05-24 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | Information extraction method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP7099397B2 (en) | 2022-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11262979B2 (en) | Machine learning webpage accessibility testing tool | |
US10115056B2 (en) | Method and apparatus for responding to an inquiry | |
JP5664978B2 (en) | Learning support system and learning support method | |
KR101004501B1 (en) | Presentation of data based on user input | |
US10546508B2 (en) | System and method for automated literacy assessment | |
US9740769B2 (en) | Interpreting and distinguishing lack of an answer in a question answering system | |
US9766868B2 (en) | Dynamic source code generation | |
US9619209B1 (en) | Dynamic source code generation | |
US20140164296A1 (en) | Chatbot system and method with entity-relevant content from entity | |
US10089898B2 (en) | Information processing device, control method therefor, and computer program | |
KR20130086971A (en) | Question answering system using speech recognition and its application method thereof | |
JP2019128533A (en) | Language ability evaluation device using brain activity and language ability evaluation system | |
JP7099397B2 (en) | Q & A extractor, method, program, and response system | |
US11803590B2 (en) | Smart and interactive book audio services | |
JP2021022292A (en) | Information processor, program, and information processing method | |
JP2013506187A (en) | Document processing apparatus and method for expression and description extraction | |
JP4659433B2 (en) | Problem automatic creation device and problem automatic creation program | |
KR20210124890A (en) | Online english learning service and management server implementing the same | |
JP2013109575A (en) | Mental care device, mental care method and mental care program | |
JP7180168B2 (en) | Information processing system, information processing method and program | |
JP7131518B2 (en) | Electronic device, pronunciation learning method, server device, pronunciation learning processing system and program | |
Bidarra et al. | Development of an interactive kiosk with screen amplifier for the elderly and those with low vision | |
KR102260558B1 (en) | Learning data generating system and method for chatbot | |
KR20170057074A (en) | Intelligent auto-completion method and apparatus sentence | |
JP7485986B2 (en) | Information processing method, information processing device, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210304 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220111 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220531 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220613 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7099397 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |