JP2017167367A - 対話コーパス収集装置、方法、及びプログラム - Google Patents

対話コーパス収集装置、方法、及びプログラム Download PDF

Info

Publication number
JP2017167367A
JP2017167367A JP2016052976A JP2016052976A JP2017167367A JP 2017167367 A JP2017167367 A JP 2017167367A JP 2016052976 A JP2016052976 A JP 2016052976A JP 2016052976 A JP2016052976 A JP 2016052976A JP 2017167367 A JP2017167367 A JP 2017167367A
Authority
JP
Japan
Prior art keywords
role
task
worker
option
dialogue corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016052976A
Other languages
English (en)
Other versions
JP6591321B2 (ja
Inventor
祐美子 下郡
Yumiko Shimogoori
祐美子 下郡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2016052976A priority Critical patent/JP6591321B2/ja
Priority to US15/392,830 priority patent/US20170270094A1/en
Publication of JP2017167367A publication Critical patent/JP2017167367A/ja
Application granted granted Critical
Publication of JP6591321B2 publication Critical patent/JP6591321B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】効率的に対話コーパスを収集することができる。
【解決手段】実施形態によれば、対話コーパス収集装置は、第1の格納部と、第2の格納部と、抽出部と、制御部とを備える。第1の格納部は、対話コーパスを収集するためのタスクを示すタスク情報と、タスクの実行状態と、第1の役に割り当てられたワーカーの情報と、第2の役に割り当てられた1人以上のワーカーの情報とを対応付けて格納する。第2の格納部は、タスクごとに、第1の役からの入力に対して第2の役が選択して回答するための現在の選択肢と、過去の選択肢の回答とを対応付けて格納する。抽出部は、第1の役からの入力があったタスクに対し、第2の役による過去の選択肢の回答に応じて、現在の選択肢を抽出する。制御部は、タスク情報と、第1の役による入力と、第2の役による現在の選択肢の回答とを対応付けて対話コーパスとして収集する。
【選択図】図1

Description

本発明の実施形態は、対話コーパス収集装置、方法、及びプログラムに関する。
従来、対話コーパスを収集する手法としてWizard of Oz(WOZ)法が知られている。係るWOZ法は、ユーザ役とシステム役とに分かれて対話を行うことで対話コーパスを収集する。しかしながら、WOZ法は、実際に対話を行う作業者を必要とするため、募集の手間や実施のコストが掛かるという問題がある。係る問題を解決するために、クラウドソーシングを用いて対話コーパスを収集する手法が提案されている。
上記提案手法は、クラウドソーシングを用いて作業者を募集し、ユーザ役およびシステム役のペアでチャットをすることによって同一の課題に取り組むというものである。しかしながら、提案手法は、ユーザ役とシステム役とのやりとりによっては、対話システムが行うことが可能なサービスの範疇を超えた受け答えをしてしまう可能性があり、目的の対話システムにとって無駄となる発話が集まってしまう可能性がある。また、提案手法は、ペアで課題に取り組むため、一方の入力が遅い場合には、他方に待ち時間が発生し、対話コーパス収集の効率が悪くなるという問題がある。
Walter S. Lasecki, Ece Kamar, Dan Bohus "Conversations in the Crowd: Collecting Data for Task-Oriented Dialog Learning" In: Human Computation Workshop on Scaling Speech and Language Understanding and Dialog through Crowdsourcing, 2013.
本発明が解決しようとする課題は、効率的に対話コーパスを収集することができる対話コーパス収集装置、方法、及びプログラムを提供することである。
実施形態によれば、対話コーパス収集装置は、第1の格納部と、割り当て部と、第2の格納部と、抽出部と、制御部とを備える。第1の格納部は、対話コーパスを収集するためのタスクを示すタスク情報と、タスクの実行状態と、第1の役に割り当てられたワーカーの情報と、第2の役に割り当てられた1人以上のワーカーの情報とを対応付けて格納する。割り当て部は、実行状態に応じて、第1の役にワーカーが割り当てられているタスクについては、第2の役にワーカーを割り当てる。第2の格納部は、タスクごとに、第1の役からの入力に対して第2の役が選択して回答するための現在の選択肢と、過去の選択肢の回答とを対応付けて格納する。抽出部は、第1の役からの入力があったタスクに対し、第2の役による過去の選択肢の回答に応じて、現在の選択肢を抽出する。制御部は、タスク情報と、第1の役による入力と、第2の役による現在の選択肢の回答とを対応付けて対話コーパスとして収集する。
第1の実施形態に係る対話コーパス収集装置を含むシステム構成例を示す図。 図1のジョブ格納部に格納される対話コーパス収集ジョブを例示する図。 図1のアクティブワーカー格納部に格納されるデータを例示する図。 図1の対話タスク実行状態格納部に格納されるデータを例示する図。 割り当て処理を例示するフローチャート。 図1の対話タスク格納部に格納されるデータを例示する図。 ユーザ役とシステム役との対話画面を示す図。 ユーザ役とシステム役との対話画面を示す図。 ユーザ役とシステム役との対話画面を示す図。 システム役作業ページを例示する図。 ワーカーへの通知の動作を例示するフローチャート。 対話コーパスのデータを例示する図。 図1の対話コーパス収集装置の動作を例示するフローチャート。
以下、図面を参照しながら実施形態の説明が述べられる。尚、以降、解説済みの要素と同一または類似の要素には同一または類似の符号が付され、重複する説明は基本的に省略される。
(第1の実施形態)
図1において、第1の実施形態に係る対話コーパス収集装置100を含むシステム構成例が示される。係るシステムは、対話コーパス収集装置100と、クラウドサーバ110と、ジョブ格納部120と、対話コーパス格納部130とを備える。尚、対話コーパス収集装置100が、クラウドサーバ110、ジョブ格納部120、および対話コーパス格納部130の少なくとも1つを備えてもよい。
作業者(ワーカー)は、クラウドサーバ110にアクセスすることによって種々の作業(ジョブ)を行うことができる。係るジョブは、ジョブ格納部120に格納され、ワーカーからの指示によってクラウドサーバ110へと読み出される。本実施形態では、ワーカーは、対話コーパスを収集するジョブ(対話コーパス収集ジョブ)を行うこととする。
対話コーパス収集ジョブは、同一の課題(タスク)についてワーカーをユーザ役(第1の役)とシステム役(第2の役)とに分けて対話させることによって対話コーパスを収集する。上記収集した対話コーパスは、例えば対話型検索システム、自動案内システム、自動予約システムおよびQ&Aシステムなどで用いることができる。本実施形態では、同一のタスクにおいて、1人のユーザ役に対して複数のシステム役と対話することを想定する。
本実施形態における具体的な対話コーパス収集ジョブは、ユーザ役のワーカーが入力したテキストに対して、システム役のワーカーが回答を選択する一連の対話を対話コーパスとして収集するジョブである。また、ユーザ役のワーカーに提示される課題文と、システム役のワーカーに提示される課題文とは、それぞれ異なる課題文が提示され、ワーカーは、互いに相手の課題文を見ることができないようになっている。尚、ユーザ役のワーカーは、自由記述、選択肢の回答、および、発話音声の少なくとも1つを用いてテキストを入力することができる。また、システム役のワーカーは、自由記述を必要とする選択肢を回答した場合に、当該自由記述を入力することができる。
クラウドサーバ110は、クラウドソーシングを行うためのAPI(Application Programming Interface)を提供する。クラウドサーバ110は、ワーカーからの指示(アクセス)によってジョブ格納部120に格納されているジョブを読み込む。以降では、ワーカーが、クラウドサーバ110上に展開される対話コーパス収集ジョブにアクセスして作業を行うものとする。
ジョブ格納部120は、対話コーパス収集ジョブを含む種々のジョブを格納するために使用される。図2に例示されるように、ジョブ格納部120は、タスクIDと、ユーザ役課題文と、システム役課題文とが対応付けて格納されている。タスクIDは、収集したい状況の対話に応じて分けられたタスクのIDを示す。例えば、タスクID「task1」は、対話型アシスタント機能によるレストラン検索におけるユーザとシステムとのやりとりを収集するためのタスクを示す。
対話コーパス格納部130は、対話コーパス収集ジョブが実行されることによって取得された対話コーパスを格納する。ここでは、対話コーパス収集装置100で収集された対話コーパスを格納する。
対話コーパス収集装置100は、アクティブワーカー格納部101(第3の格納部)と、対話タスク実行状態格納部102(第1の格納部)と、ワーカー状態管理部103(管理部)と、割り当て部104と、対話タスク格納部105(第2の格納部)と、応答文抽出部106(抽出部)と、アクション通知部107(通知部)と、優先通知部108と、制御部109とを備える。対話コーパス収集装置100は、クラウドサーバ110にアクセスしているワーカーの状態などを管理し、対話コーパスを収集する。尚、対話コーパス収集装置100の各部は、制御部109を介してクラウドサーバ110とデータ受け渡しを行うこととし、以降、「制御部109を介して」の文言は省略する。
アクティブワーカー格納部101は、対話コーパス収集ジョブにアクセス中のワーカーを示すワーカーの情報と、ユーザ役に割り当てられたワーカーの情報と、システム役に割り当てられた1人以上のワーカーの情報とを対応付けたデータを格納するために使用される。
アクティブワーカー格納部101は、図3に例示されるように、ワーカーIDとロールIDとが対応付けたデータが格納されている。ワーカーIDは、アクセス中のワーカーを識別するためのIDを示す。ロールIDは、対話コーパス収集ジョブでの役割を示す。例えば、ロールID「user」は、ユーザ役を示し、ロールID「system」は、システム役を示す。尚、ロールIDは、役割が割り当てられていない場合は空欄となる。
対話タスク実行状態格納部102は、対話コーパスを収集するためのタスクを示すタスク情報と、当該タスクの実行状態と、ユーザ役に割り当てられたワーカーの情報と、システム役に割り当てられた1人以上のワーカーの情報とを対応付けたデータを格納するために使用される。さらに、タスクは、同一のタスクに対して複数の対話コーパスを収集するための単位であるセッションを含んでもよい。尚、対話コーパス収集装置100は、タスク毎にセッションを設けた場合に、対話タスク実行状態格納部102の実行状態は、セッションの実行状態を示す。
対話タスク実行状態格納部102は、図4に例示されるように、タスクIDと、セッションIDと、実行状態と、ユーザ役ワーカーIDと、システム役ワーカーIDとを対応付けたデータが格納されている。セッションIDは、同一のタスクにおける複数のセッションを識別するためのIDを示す。実行状態は、セッションの実行状態(「終了」「実行中」「未実行」など)を示す。実行状態「終了」は、例えば、あるセッションにおいてユーザ役が2人以上のシステム役と対話を行った場合を想定する。実行状態「実行中」は、例えば、あるセッションについて対話中(即ち、システム役の割り当て待ち)の場合を想定する。実行状態「未実行」は、セッションが開始していない(即ち、ユーザ役およびシステム役にワーカーが割り当てられていない)場合を想定する。ユーザ役ワーカーIDは、ユーザ役に割り当てられたワーカーのワーカーIDを示し、システム役ワーカーIDは、システム役に割り当てられたワーカーのワーカーIDを示す。
ワーカー状態管理部103は、アクティブワーカー格納部101および対話タスク実行状態格納部102に格納されるデータを更新する。例えば、ワーカー状態管理部103は、対話コーパス収集装置100の各部およびクラウドサーバ110からの指示によって、アクティブワーカー格納部101および対話タスク実行状態格納部102に格納されるデータを更新する。具体的には、ワーカー状態管理部103は、あるセッションが終了した場合に、対話タスク実行状態格納部102の当該セッションに対応する事項状態を「実行中」から「終了」へと更新する。また、ワーカー状態管理部103は、対話コーパス収集装置100の各部に代わって、対話タスク実行状態格納部102に格納されるデータを参照してもよい。尚、具体的な動作は後述される。
割り当て部104は、対話コーパス収集ジョブに新規にアクセスしたワーカー(新規ワーカー)に対して役割を割り当てる。具体的には、割り当て部104は、対話タスク実行状態格納部102において実行中のセッションが存在するか否かを判定する。実行中のセッションが存在する場合は、割り当て部104は、新規ワーカーをシステム役に割り当て、そうでなければ新規ワーカーをユーザ役に割り当てる。換言すると、割り当て部104は、対話タスク実行状態格納部102の実行状態に応じて、ユーザ役にワーカーが割り当てられているセッション(或いはタスク)については、システム役にワーカーを割り当てる。尚、新規ワーカーは、これまで取り組んでいたセッションが終了し、一時的に役割が割り当てられていないワーカーも含む。
図5において、新規ワーカーに対する役割の割り当て処理のフローチャートが例示される。図5の処理は、対話コーパス収集装置100がクラウドサーバ110から新規ワーカーの情報を受け取ることによって開始する。
ステップS501において、ワーカー状態管理部103は、新規ワーカーのワーカーID(新規ワーカーID)をアクティブワーカー格納部101に登録する。なお、既にワーカーIDがアクティブワーカー格納部101に登録されている場合は、ステップS501の処理は省略する。
ステップS502では、割り当て部104は、対話タスク実行状態格納部102において実行中のセッションが存在するか否かを判定する。実行中のセッションが存在する場合は、処理はステップS503へと進み、そうでなければ処理はステップS504へと進む。
ステップS503において、割り当て部104は、対話タスク実行状態格納部102における実行状態「実行中」のいずれかのセッションに対して新規ワーカーをシステム役に割り当てる。
ステップS504において、割り当て部104は、対話タスク実行状態格納部102における実行状態「未実行」のいずれかのセッションに対して新規ワーカーをユーザ役に割り当てる。
ステップS505において、ワーカー状態管理部103は、新規ワーカーをユーザ役に割り当てたセッションの実行状態を「未実行」から「実行中」へと更新する。
ステップS506において、ワーカー状態管理部103は、新規ワーカーIDおよびロールIDを対応付けてアクティブワーカー格納部101を更新する。具体的には、ワーカー状態管理部103は、新規ワーカーIDがシステム役に割り当てられた場合は、ロールIDの項目に「system」を追加し、新規ワーカーIDがユーザ役に割り当てられた場合は、ロールIDの項目に「user」を追加する。
ステップS507において、ワーカー状態管理部103は、セッションIDおよび新規ワーカーIDを対応付けて対話タスク実行状態格納部102を更新する。具体的には、ワーカー状態管理部103は、新規ワーカーが割り当てられたセッションにワーカーIDを追加する。ステップS507の後に処理は終了する。
対話タスク格納部105は、タスクごとに、ユーザ役からの入力に対してシステム役が選択して回答するための現在の選択肢と、過去の選択肢の回答とを対応付けたデータを格納するために使用される。尚、対話タスク格納部105は、回答と選択肢との組を全てのパターンについて格納しているものとする。
対話タスク格納部105は、図6に例示されるように、タスクIDと、ターンIDと、直前のシステム役回答と、システム役選択肢とを対応付けたデータが格納されている。ターンIDは、同一のタスクの対話におけるやりとりの回数を示す。例えば、ターンID「turn1」は、1回目のやりとり(ターン)を表し、ターンID「turn2」は、2回目のやりとり(ターン)を表す。直前のシステム役回答は、対話中のターン(現在のターン)よりも1つ前のターン(過去のターン)におけるシステム役回答を示す。システム役選択肢は、後述するシステム役のワーカーの作業画面に提示される選択肢を示す。
応答文抽出部106は、ユーザ役からの入力があったタスクに対し、システム役による過去の選択肢の回答に応じて、現在の選択肢を抽出する。具体的には、応答文抽出部106は、直前のシステム役回答に対応するシステム役選択肢を対話タスク格納部105から抽出する。応答文抽出部106は、抽出した選択肢をシステム役に提示する。
アクション通知部107は、ユーザ役からの入力があったタスクの情報をシステム役に通知する。具体的な動作は後述される。
優先通知部108は、アクション通知部107によってタスクの情報をシステム役に通知する際に、システム役が当該タスクにおいて過去に回答をしていた場合に、当該タスクの情報をシステム役に優先して通知する。具体的な動作は後述される。
制御部109は、対話コーパス収集装置100の各部を制御する。また、制御部109は、クラウドサーバ110にアクセス中のワーカーから入力データなどを受け取り、対話コーパスとして収集する。尚、対話コーパスの具体的な説明は後述される。
図7A〜7Cにおいて、ユーザ役とシステム役との対話画面が時系列で例示される。ユーザ役は、ユーザ役表示画面701が表示され、システム役は、システム役表示画面702が表示される。ユーザ役およびシステム役は、それぞれ表示された画面を用いて対話を行う。尚、図7A〜7Cでは、説明を簡便にするため、ユーザ役表示画面701およびシステム役表示画面702を並べて示している。
図7Aは、対話の初期画面を示し、あるタスクに対しユーザ役とシステム役とにそれぞれワーカーが割り当てられ、ユーザ役の入力待ちの状態であるセッションの一例である。ユーザ役は、ユーザ役課題703が提示され、システム役は、システム役課題704が提示される。ユーザ役は、ユーザ役課題703に即したテキスト(発話文)を入力欄705に入力し、発話文を回答する。ユーザ役の回答の後、画面は図7Bへと遷移する。尚、図7Aにおけるユーザ役履歴表示部706およびシステム役履歴表示部707は、対話履歴を表示し、更に、対話相手の状態を表示してもよい。
図7Bは、ユーザ役が発話文を回答し、システム役の入力待ちの状態である。ユーザ役履歴表示部708およびシステム役履歴表示部709には、ユーザ役が回答した発話文「人気のあるレストラン」が追加されて表示される。システム役は、ユーザ役の回答を受けて提示された応答文の選択肢710から、システムの挙動としてふさわしい応答文を選択して回答する。システム役の回答の後、画面は図7Cへと遷移する。
図7Cは、システム役が応答文を回答し、ユーザ役の入力待ちの状態である。ユーザ役履歴表示部711およびシステム役履歴表示部712には、システム役が回答した応答文「現在位置周辺のレストランランキングを検索します。」が追加されて表示される。更に、ユーザ役表示画面701およびシステム役表示画面702に対して、応答文に即した検索結果713および検索結果714が表示される。ユーザ役は、課題が解決されていない場合は、更に発話文を回答し、課題が解決された場合は、終了を選択する。
図8において、システム役作業ページ800が例示される。システム役作業ページ800は、システム役表示画面801と、優先選択画面802と、通常選択画面803とを備える。
システム役表示画面801は、図7A〜7Cにおけるシステム役表示画面702と同様である。システム役は、システム役表示画面801の表示に従って、課題を進める。
優先選択画面802は、過去に回答したセッションの一覧が表示される。システム役は、例えば優先選択画面802に表示されるセッションのアイコン(優先アイコン)を選択することによって、選択したセッションに切り替えることができる。
通常選択画面803は、新規に回答できるセッションの一覧が表示される。システム役は、例えば通常選択画面803に表示されるセッションのアイコン(通常アイコン)を選択することによって、選択したセッションを新たに行うことができる。ワーカーが新たなセッションを選択した場合は、ワーカー状態管理部103は、対話タスク実行状態格納部102の当該新たなセッションに対応するシステム役ワーカーIDの項目を更新する。
図9において、ワーカーへの通知の動作のフローチャートが例示される。図9の動作は、あるセッションについてユーザ役が発話文を回答することで開始する。
ステップS901において、アクション通知部107は、アクティブワーカー格納部101からシステム役に割り当てられたワーカーを検索する。
ステップS902では、優先通知部108は、対話タスク実行状態格納部102を参照し、発話文を回答したユーザ役に対して、過去に回答したセッションが存在するか否かを判定する。過去に回答したセッション存在する場合は、処理はステップS903へと進み、そうでなければ、処理はステップS904へと進む。
ステップS903において、優先通知部108は、あるセッションについてユーザ役が発話文を回答した情報を優先アイコンとしてシステム役に通知する。ステップS903の後に処理は終了する。
ステップS904において、アクション通知部107は、あるセッションについてユーザ役が発話文を回答した情報を通常アイコンとしてシステム役に通知する。ステップS904の後に処理は終了する。
尚、優先アイコンおよび通常アイコンを区別せずに通知する場合は、ステップS901において、アクション通知部107は、システム役のワーカーに対してセッションの情報を通知し、処理を終了してもよい。
図10において、対話コーパスのデータが例示される。対話コーパスのデータは、タスクIDと、セッションIDと、ターンIDと、ロールIDと、ワーカーIDと、発話文と、応答選択肢と、その他とが対応付けられている。発話文は、ユーザ役の入力を示す。その他は、例えばシステム役が自由記述を必要とする選択肢を回答した場合に、当該自由記述の入力内容を示す。対話コーパス収集装置100は、例えばタスクID、セッションIDおよびターンIDの組が同一のデータを統合することによって、あるセッションのあるターンにおけるユーザ役の発話文に対応するシステム役の応答選択肢の組を対話コーパスとして得ることができる。
以上の説明をまとめると、第1の実施形態に係る対話コーパス収集装置100は、図11に例示されるように動作する。
ステップS1101において、割り当て部104は、タスクの実行状態に応じて、ユーザ役およびシステム役のどちらかにワーカーを割り当てる。具体的には、割り当て部104は、対話タスク実行状態格納部102に応じて、実行中のセッションが存在しない場合には、未実行のセッションのユーザ役にワーカーを割り当て、実行中のセッションが存在する場合には、実行中のセッションのシステム役にワーカーを割り当てる。
ステップS1102において、応答文抽出部106は、ユーザ役からの入力があったタスクに対し、システム役による過去の選択肢の回答に応じて、現在の選択肢を抽出する。具体的には、応答文抽出部106は、直前のシステム役回答に対応するシステム役選択肢を対話タスク格納部105から抽出する。
ステップS1103において、制御部109は、タスク情報と、ユーザ役による入力と、システム役による現在の選択肢の回答とを対応付けて対話コーパスとして収集する。ステップS1103の後に処理は終了する。
以上説明したように、第1の実施形態に係る対話コーパス収集装置は、ジョブにアクセスしているワーカーを、ユーザ役およびシステム役に割り当て、ユーザ役からの入力があったタスクに対し、システム役による過去の選択肢の回答に応じて、現在の選択肢を抽出する。そして、この対話コーパス収集装置は、タスク毎にユーザ役による入力とシステム役による現在の選択肢の回答とを対応付けて対話コーパスとして収集する。
上記構成によれば、この対話コーパス収集装置は、システム役が選択肢を選んで回答するため、的外れな対話コーパスが作成されにくくなる。また、この対話コーパス収集装置は、システム役が選択肢を選んで回答するため、システム役の回答時間が短縮され、大量の対話コーパスを取得することができる。従って、この対話コーパス収集装置によれば、効率的に対話コーパスを収集することができる。
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の対話コーパス収集装置による効果と同様な効果を得ることも可能である。
上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータ、組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の対話コーパス収集装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶又は一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、多機能携帯電話、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100・・・対話コーパス収集装置、101・・・アクティブワーカー格納部、102・・・対話タスク実行状態格納部、103・・・ワーカー状態管理部、104・・・割り当て部、105・・・対話タスク格納部、106・・・応答文抽出部、107・・・アクション通知部、108・・・優先通知部、109・・・制御部、110・・・クラウドサーバ、120・・・ジョブ格納部、130・・・対話コーパス格納部、701・・・ユーザ役表示画面、702,801・・・システム役表示画面、703・・・ユーザ役課題、704・・・システム役課題、705・・・入力欄、706,708,711・・・ユーザ役履歴表示部、707,709,712・・・システム役履歴表示部、710・・・選択肢、713,714・・・検索結果、800・・・システム役作業ページ、802・・・優先選択画面、803・・・通常選択画面。

Claims (10)

  1. 対話コーパスを収集するためのタスクを示すタスク情報と、前記タスクの実行状態と、第1の役に割り当てられたワーカーの情報と、第2の役に割り当てられた1人以上のワーカーの情報とを対応付けて格納する第1の格納部と、
    前記実行状態に応じて、前記第1の役にワーカーが割り当てられているタスクについては、前記第2の役にワーカーを割り当てる割り当て部と、
    タスクごとに、前記第1の役からの入力に対して前記第2の役が選択して回答するための現在の選択肢と、過去の選択肢の回答とを対応付けて格納する第2の格納部と、
    前記第1の役からの入力があったタスクに対し、前記第2の役による前記過去の選択肢の回答に応じて、前記現在の選択肢を抽出する抽出部と、
    前記タスク情報と、前記第1の役による入力と、前記第2の役による前記現在の選択肢の回答とを対応付けて対話コーパスとして収集する制御部と
    を具備する、対話コーパス収集装置。
  2. 前記第1の役からの入力があったタスクを前記第2の役に通知する通知部
    を更に具備する、請求項1に記載の対話コーパス収集装置。
  3. 前記タスクを前記第2の役に通知する際に、前記第2の役が当該タスクにおいて過去に回答をしていた場合に、当該タスクを前記第2の役に優先して通知する優先通知部
    を更に具備する、請求項2に記載の対話コーパス収集装置。
  4. 前記ワーカーを示すワーカー情報と、前記第1の役および前記第2の役のどちらか一方とを対応付けて格納する第3の格納部
    を更に具備する、請求項1乃至請求項3のいずれか1項に記載の対話コーパス収集装置。
  5. 前記第1の格納部および前記第2の格納部に格納されるデータを更新する管理部、
    を更に具備する、請求項1乃至請求項4のいずれか1項に記載の対話コーパス収集装置。
  6. 前記タスクは、同一のタスクに対して複数の対話コーパスを収集するための単位であるセッションを含む、請求項1乃至請求項5のいずれか1項に記載の対話コーパス収集装置。
  7. 前記第1の役は、自由記述、選択肢の回答、および発話音声の少なくとも1つを用いて入力する、請求項1乃至請求項6のいずれか1項に記載の対話コーパス収集装置。
  8. 前記第2の役は、自由記述を必要とする選択肢を回答した場合に、当該自由記述を入力する、請求項1乃至請求項7のいずれか1項に記載の対話コーパス収集装置。
  9. 対話コーパスを収集するためのタスクを示すタスク情報と、前記タスクの実行状態と、第1の役に割り当てられたワーカーの情報と、第2の役に割り当てられた1人以上のワーカーの情報とを対応付けて格納することと、
    前記実行状態に応じて、前記第1の役にワーカーが割り当てられているタスクについては、前記第2の役にワーカーを割り当てることと、
    タスクごとに、前記第1の役からの入力に対して前記第2の役が選択して回答するための現在の選択肢と、過去の選択肢の回答とを対応付けて格納することと、
    前記第1の役からの入力があったタスクに対し、前記第2の役による前記過去の選択肢の回答に応じて、前記現在の選択肢を抽出することと、
    前記タスク情報と、前記第1の役による入力と、前記第2の役による前記現在の選択肢の回答とを対応付けて対話コーパスとして収集することと
    を具備する、対話コーパス収集方法。
  10. コンピュータを、
    対話コーパスを収集するためのタスクを示すタスク情報と、前記タスクの実行状態と、第1の役に割り当てられたワーカーの情報と、第2の役に割り当てられた1人以上のワーカーの情報とを対応付けて格納する手段と、
    前記実行状態に応じて、前記第1の役にワーカーが割り当てられているタスクについては、前記第2の役にワーカーを割り当てる手段と、
    タスクごとに、前記第1の役からの入力に対して前記第2の役が選択して回答するための現在の選択肢と、過去の選択肢の回答とを対応付けて格納する手段と、
    前記第1の役からの入力があったタスクに対し、前記第2の役による前記過去の選択肢の回答に応じて、前記現在の選択肢を抽出する手段と、
    前記タスク情報と、前記第1の役による入力と、前記第2の役による前記現在の選択肢の回答とを対応付けて対話コーパスとして収集する手段
    として機能させる、対話コーパス収集プログラム。
JP2016052976A 2016-03-16 2016-03-16 対話コーパス収集装置、方法、及びプログラム Expired - Fee Related JP6591321B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016052976A JP6591321B2 (ja) 2016-03-16 2016-03-16 対話コーパス収集装置、方法、及びプログラム
US15/392,830 US20170270094A1 (en) 2016-03-16 2016-12-28 Dialog corpus collecting apparatus, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016052976A JP6591321B2 (ja) 2016-03-16 2016-03-16 対話コーパス収集装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017167367A true JP2017167367A (ja) 2017-09-21
JP6591321B2 JP6591321B2 (ja) 2019-10-16

Family

ID=59847491

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016052976A Expired - Fee Related JP6591321B2 (ja) 2016-03-16 2016-03-16 対話コーパス収集装置、方法、及びプログラム

Country Status (2)

Country Link
US (1) US20170270094A1 (ja)
JP (1) JP6591321B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019074865A (ja) * 2017-10-13 2019-05-16 ロボットスタート株式会社 会話収集装置、会話収集システム及び会話収集方法
WO2022186450A1 (ko) * 2021-03-05 2022-09-09 삼성전자주식회사 전자 장치 및 그 제어 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001166785A (ja) * 1999-12-10 2001-06-22 Fujitsu Ltd 音声対話コーパスの作成装置及び方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6292767B1 (en) * 1995-07-18 2001-09-18 Nuance Communications Method and system for building and running natural language understanding systems
US8660844B2 (en) * 2007-10-24 2014-02-25 At&T Intellectual Property I, L.P. System and method of evaluating user simulations in a spoken dialog system with a diversion metric
US8001469B2 (en) * 2007-11-07 2011-08-16 Robert Bosch Gmbh Automatic generation of interactive systems from a formalized description language
KR101410163B1 (ko) * 2013-01-02 2014-06-20 포항공과대학교 산학협력단 통계적 음성 언어 이해 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001166785A (ja) * 1999-12-10 2001-06-22 Fujitsu Ltd 音声対話コーパスの作成装置及び方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019074865A (ja) * 2017-10-13 2019-05-16 ロボットスタート株式会社 会話収集装置、会話収集システム及び会話収集方法
JP7055327B2 (ja) 2017-10-13 2022-04-18 ロボットスタート株式会社 会話収集装置、会話収集システム及び会話収集方法
WO2022186450A1 (ko) * 2021-03-05 2022-09-09 삼성전자주식회사 전자 장치 및 그 제어 방법

Also Published As

Publication number Publication date
JP6591321B2 (ja) 2019-10-16
US20170270094A1 (en) 2017-09-21

Similar Documents

Publication Publication Date Title
US11588760B2 (en) Initialization of automated workflows
JP6850805B2 (ja) コンピューティングデバイスにおけるユーザ対話動作の自動実行
US10839322B2 (en) Tag-based performance framework for contact center
KR102121135B1 (ko) 기계 학습에 기반한 최적화된 컨택 센터 에이전트와의 라우팅 인터랙션
AU2019204649B2 (en) Data processor for projects
EP3513324B1 (en) Computerized natural language query intent dispatching
WO2016185809A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP7259030B2 (ja) スクリプトに基づく自動ボット作成
KR20200117070A (ko) 선택 가능한 그래픽 요소를 통해 자동화된 에이전트를 사용하여 대화를 초기화
US20100077327A1 (en) Guidance across complex tasks
US11468449B2 (en) Method and system for dynamic visualization of a user journey for customer support
JP6235757B2 (ja) 対話データ収集システム、対話データ収集方法、対話データ収集プログラム、対話データ収集支援装置、対話データ収集支援方法および対話データ収集支援プログラム
WO2016143131A1 (ja) 対話支援装置、方法およびプログラム、および端末
US20150088567A1 (en) Methods for building project teams and devices thereof
JP7112522B2 (ja) コンタクトセンターアプリケーションのためのコンテキスト支援を提供するシステム及び方法
JP2015530658A (ja) ユーザー端末のユーザーインターフェース装置及びそれをサポートする方法
KR20230117252A (ko) 대화형 어시스턴트 컨텍스트 포함하여 사후 검색 결과를자율적으로 제공
US20200073895A1 (en) Information platform for a virtual assitant
JP6367063B2 (ja) 情報処理装置、方法およびプログラム
JP6591321B2 (ja) 対話コーパス収集装置、方法、及びプログラム
CN111028007A (zh) 用户画像信息提示方法、装置及系统
CN105554090B (zh) 指引处理方法、系统及游戏系统
JPH11305998A (ja) 計算機システム
US10885129B2 (en) Using frames for action dialogs
JP2019101617A (ja) 求人マッチングシステム、求人マッチング方法及び該方法を実行することが可能なコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190820

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190918

R151 Written notification of patent or utility model registration

Ref document number: 6591321

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees