JP6964558B2 - 音声対話システムとモデル作成装置およびその方法 - Google Patents
音声対話システムとモデル作成装置およびその方法 Download PDFInfo
- Publication number
- JP6964558B2 JP6964558B2 JP2018119325A JP2018119325A JP6964558B2 JP 6964558 B2 JP6964558 B2 JP 6964558B2 JP 2018119325 A JP2018119325 A JP 2018119325A JP 2018119325 A JP2018119325 A JP 2018119325A JP 6964558 B2 JP6964558 B2 JP 6964558B2
- Authority
- JP
- Japan
- Prior art keywords
- value
- slot
- character string
- learning data
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 18
- 238000000605 extraction Methods 0.000 claims description 119
- 230000002093 peripheral effect Effects 0.000 claims description 54
- 238000012549 training Methods 0.000 claims description 30
- 239000000284 extract Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 36
- 238000010586 diagram Methods 0.000 description 28
- 230000004044 response Effects 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000010365 information processing Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
以下、図面に基づいて、本発明の一実施の形態を詳述する。
図1は、本発明の実施の形態1に係る音声対話システム2000の構成の一例を示すブロック図である。本実施の形態1の音声対話システム2000は、例えば、人間との音声対話を行う、いわゆる対話型ロボット(サービスロボット)であり、対話に係る音声の入出力処理を行う音声処理システム3000と、対話に関する情報処理を行うテキスト対話システム1000と、を含んで構成されている。
次に、本発明の実施の形態1における音声対話システム2000の処理フローについて説明する。図9に音声対話システム2000における音声認識処理フローを示す。図9に示すように、マイクを含む音声入力部10は、音声対話システム2000の対話相手の音声(入力用音声)100を取得する(S10)。音声認識部20は、音声入力部10で取得した音声100から対話相手の音声以外の音(雑音という)を除去し、音声100に含まれるテキスト情報を入力文字列200の情報に変換する(S11)。次に、音声認識部20は、テキスト対話システム1000に対して入力文字列200の情報を送信し(S12)、ステップS10に移行する。この後、ステップS10〜ステップS12の処理が繰り返される。
次に、テキスト対話システム1000の処理フローについて説明する。図11にテキスト対話システム1000の基本的な処理フローを示す。図11に示すように、スロットバリュー抽出部30は、事前に作成したスロットバリュー抽出モデル500を参照し、実際の入力文字列200から、スロットに関する文字列(バリュー)の位置を推定し、推定した位置のバリューを抽出し、バリューとスロットの情報をバリュー識別子推定部40に転送する(S30)。
次に、本発明の実施の形態1におけるモデル作成装置1100の処理フローについて説明する。図12にモデル作成装置1100の処理フローを示す。図12に示すように、学習データ作成部80は、バリューリスト510と回答文リスト520及び周辺文字列リスト540を参照し、参照結果を基に学習データ550を作成する。学習データ550は、想定入力文字列とスロットとバリューを含むデータである。以下、学習データ550の具体的な作成方法について説明する。
学習データ作成部80は、想定入力文字列を作成する為、回答文リスト520から、回答文523の中の1つの回答文と紐付いた複数のバリュー識別子を取得する(S40)。次に、学習データ作成部80は、取得した複数のバリュー識別子の中から、N個(N=1〜Nmax(事前に定義された最大値))を選択する組合せを作成し(S41)、作成した各組み合毎に、順列を作成する(S42)。例えば、回答文523と紐付いたバリュー識別子が2個の場合、2個のバリュー識別子として、例えば、「<勝田駅>」、「<東京駅>」を使った順列として、例えば、M21=[<勝田駅>,<東京駅>]、M22=[<東京駅>,<勝田駅>])を作成し、1個のバリュー識別子を使った順列として、例えば、M11=[<勝田駅>]、M12=[<東京駅>])を作成する。
モデル作成部90は、学習データ(第1の学習データ)550からスロットバリュー抽出モデル(第1のスロットバリュー抽出モデル)500を作成する。スロットバリュー抽出モデル500は、事前に定義した想定入力文字列とスロットとバリューが登録されている。例えば、学習データ550とスロットバリュー抽出モデル500が同一であっても良い。また、スロットバリュー抽出モデル500は、学習データ550の想定入力文字列とスロット及びバリューを入力として、機械学習(例えば、Conditional Random Fields法)で作成しても良い。
本実施の形態2は、実施の形態1に記載の音声対話システム2000において、複数のスロットバリュー抽出モデル(第1又は第2のスロットバリュー抽出モデル)を切替えることにより、高精度なスロットバリュー抽出を可能とする。また、複数のスロットバリュー抽出モデルの作成に必要な作業コストを軽減する。
対話相手の入力文字列から高精度にスロットバリュー抽出するため、本実施の形態3のスロットバリュー抽出部30は、対話ログに基づいて、使用するスロットバリュー抽出モデルを第1のスロットバリュー抽出モデルから第3のスロットバリュー抽出モデルに切替える。対話ログの一例を図15に示す。
Claims (11)
- 入力される入力用音声を入力文字列の情報に変換し、変換された前記入力文字列の情報を基に回答文又は質問文の情報を含む出力文字列を作成し、作成した前記出力文字列の情報を合成音声に変換し、変換された前記合成音声を出力用音声として出力する音声対話システムであって、
文字列を構成する情報であって、予め想定された文字列の候補を示す複数のバリューと、前記複数のバリューの各々を識別する複数のバリュー識別子とが紐付けられて記憶されたバリューリストと、
前記文字列を構成する情報を識別する識別子を示す複数のスロットの各々と、前記複数のバリュー識別子の各々とが紐付けられて記憶され、且つ前記複数のスロットの各々と前記複数のバリュー識別子の各々とが1以上の回答文に紐付けられて記憶された回答文リストと、
前記複数のスロットの各々と、前記複数のスロットの各々に隣接配置される複数の周辺文字列とが紐付けられて記憶された周辺文字列リストと、
予め想定された複数の想定入力文字列と、前記複数の想定入力文字列の各々に紐付けられた1又は2以上の前記スロット及び前記バリューを含む複数のスロットバリュー抽出モデルを記憶する記憶部と、
前記入力文字列と前記複数のスロットバリュー抽出モデルの中の前記各想定入力文字列との類似度を比較し、類似度の高い想定入力文字列に紐付けられた前記スロットを基に前記入力文字列における前記スロットの位置を推定し、推定した前記スロットの位置に対応した前記バリューを前記入力文字列から抽出するスロットバリュー抽出部と、
前記バリューリストと前記回答文リスト及び前記周辺文字列リストを基に第1の学習データを作成する学習データ作成部と、
前記第1の学習データを基に第1のスロットバリュー抽出モデルを作成し、作成した前記第1のスロットバリュー抽出モデルを、前記複数のスロットバリュー抽出モデルに属するモデルとして前記記憶部に格納するモデル作成部と、を備えることを特徴とする音声対話システム。 - 請求項1に記載の音声対話システムであって、
前記学習データ作成部は、
前記回答文リストを基に、前記回答文リストの中の前記回答文に紐付けられた前記バリュー識別子の組み合わせを1又は2以上作成し、前記1又は2以上の組み合わせ毎に前記バリュー識別子の順列を作成し、
前記バリュー識別子の順列の組み合わせ毎に、前記バリュー識別子の順列に属する各要素の前記バリュー識別子に紐付けられた前記バリューを前記各要素のバリューとして前記バリューリストの中からそれぞれ取得し、且つ前記各要素のバリュー識別子に紐付けられた前記スロットを、前記各要素のスロットとして前記回答文リストの中からそれぞれ取得し、さらに、前記各要素のスロットに紐付けられた前記周辺文字列を前記各要素の周辺文字列として前記周辺文字列リストの中からそれぞれ取得し、
前記バリュー識別子の順列の組み合わせ毎に、取得した前記各要素のバリューと取得した前記各要素の周辺文字列とを結合した文字列を前記各要素の文字列として作成し、且つ前記各要素の文字列を結合して複数の想定入力文字列を作成し、
作成した前記複数の想定入力文字列と、前記複数の想定入力文字列の各々の作成に用いた前記各要素のスロット及び前記各要素のバリューを基に、前記各想定入力文字列と、前記各要素のスロット及び前記各要素のバリューとを紐付けたデータを前記第1の学習データとして作成することを特徴とする音声対話システム。 - 請求項2に記載の音声対話システムであって、
前記学習データ作成部は、
前記第1の学習データに紐付けられた前記各要素の前記スロットのうち1又は2以上の特定のスロットの組み合わせを作成し、作成した前記特定のスロットの組み合わせから除外されたスロットに紐付けられた学習データを前記第1の学習データの中から除外して、第2の学習データを作成し、
前記モデル作成部は、
前記第2の学習データを基に第2のスロットバリュー抽出モデルを作成し、作成した前記第2のスロットバリュー抽出モデルを、前記複数のスロットバリュー抽出モデルに属するモデルとして前記記憶部に格納することを特徴とする音声対話システム。 - 請求項2又は3に記載の音声対話システムであって、
予め設定された1又は2以上の音声出力用文字列に、少なくとも前記各要素のスロットが含まれる確率が紐付けられた対話ログを更に備え、
前記学習データ作成部は、
前記第1の学習データに紐付けられた前記各要素の前記スロットのうち前記対話ログで規定された前記確率が閾値以上のスロットに関する前記想定入力文字列を含むデータを前記第1の学習データの中から抽出して、第3の学習データを作成し、
前記モデル作成部は、
前記第3の学習データを基に第3のスロットバリュー抽出モデルを作成し、作成した前記第3のスロットバリュー抽出モデルを、前記複数のスロットバリュー抽出モデルに属するモデルとして前記記憶部に格納することを特徴とする音声対話システム。 - 請求項1〜4のうちいずれか1項に記載の音声対話システムであって、
前記複数のスロットの各々と複数の質問文の各々とが紐付けられて記憶された質問文リストと、
前記スロットバリュー抽出部の抽出による前記バリューと前記バリューリストの中の前記バリューとの類似度を比較し、類似度の高いバリューと紐付けられた前記バリュー識別子を、前記スロットバリュー抽出部の抽出による前記バリューの前記バリュー識別子として推定するバリュー識別子推定部と、
前記バリュー識別子推定部で推定された前記バリュー識別子を基に前記回答文リストを参照し、情報提示に用いる前記スロットの前記バリュー識別子が前記回答文に存在する場合、前記情報提示に用いる前記スロットの前記バリュー識別子に紐付けられた前記回答文を前記出力文字列として出力し、前記情報提示に用いる前記スロットの前記バリュー識別子が前記回答文に存在しない場合、前記質問文リストを参照し、前記情報提示に用いる前記スロットに対して不足している前記スロットに紐付けられた前記質問文を前記出力文字列として出力する回答絞込み部と、を更に備えることを特徴とする音声対話システム。 - 文字列を構成する情報であって、予め想定された文字列の候補を示す複数のバリューと、前記複数のバリューの各々を識別する複数のバリュー識別子とが紐付けられて記憶されたバリューリストと、
前記文字列を構成する情報を識別する識別子を示す複数のスロットの各々と、前記複数のバリュー識別子の各々とが紐付けられて記憶され、且つ前記複数のスロットの各々と前記複数のバリュー識別子の各々とが1以上の回答文に紐付けられて記憶された回答文リストと、
前記複数のスロットの各々と、前記複数のスロットの各々に隣接配置される複数の周辺文字列とが紐付けられて記憶された周辺文字列リストと、
前記バリューリストと前記回答文リスト及び前記周辺文字列リストを基に第1の学習データを作成する学習データ作成部と、
前記第1の学習データを基に第1のスロットバリュー抽出モデルを作成するモデル作成部と、を備え、
前記学習データ作成部は、
前記回答文リストを基に、前記回答文リストの中の前記回答文に紐付けられた前記バリュー識別子の組み合わせを1又は2以上作成し、前記1又は2以上の組み合わせ毎に前記バリュー識別子の順列を作成し、
前記バリュー識別子の順列の組み合わせ毎に、前記バリュー識別子の順列に属する各要素のバリュー識別子に紐付けられたバリューを前記各要素のバリューとして前記バリューリストの中からそれぞれ取得し、且つ前記各要素のバリュー識別子に紐付けられたスロットを、前記各要素のスロットとして前記回答文リストの中からそれぞれ取得し、さらに、前記各要素のスロットに紐付けられた前記周辺文字列を前記各要素の周辺文字列として前記周辺文字列リストの中からそれぞれ取得し、
前記バリュー識別子の順列の組み合わせ毎に、取得した前記各要素のバリューと取得した前記各要素の周辺文字列とを結合した文字列を前記各要素の文字列として作成し、且つ前記各要素の文字列を結合して複数の想定入力文字列を作成し、
作成した前記複数の想定入力文字列と、前記複数の想定入力文字列の各々の作成に用いた前記各要素のスロット及び前記各要素のバリューを基に、前記各想定入力文字列と、前記各要素のスロット及び前記各要素のバリューとを紐付けたデータを前記第1の学習データとして作成することを特徴とするモデル作成装置。 - 請求項6に記載のモデル作成装置であって、
前記学習データ作成部は、
前記第1の学習データに紐付けられた前記各要素のスロットのうち1又は2以上の特定のスロットの組み合わせを作成し、作成した前記特定のスロットの組み合わせから除外されたスロットに紐付けられた学習データを前記第1の学習データの中から除外して、第2の学習データを作成し、
前記モデル作成部は、
前記第2の学習データを基に第2のスロットバリュー抽出モデルを作成することを特徴とするモデル作成装置。 - 請求項6又は7に記載のモデル作成装置であって、
予め設定された1又は2以上の音声出力用文字列に、少なくとも前記各要素のスロットが含まれる確率が紐付けられた対話ログを更に有し、
前記学習データ作成部は、
前記第1の学習データに紐付けられた前記各要素のスロットのうち前記対話ログで規定された前記確率が閾値以上のスロットに関する前記想定入力文字列を含むデータを前記第1の学習データの中から抽出して、第3の学習データを作成し、
前記モデル作成部は、
前記第3の学習データを基に第3スロットバリュー抽出モデルを作成することを特徴とするモデル作成装置。 - 文字列を構成する情報であって、予め想定された文字列の候補を示す複数のバリューと、前記複数のバリューの各々を識別する複数のバリュー識別子とが紐付けられて記憶されたバリューリストと、
前記文字列を構成する情報を識別する識別子を示す複数のスロットの各々と、前記複数のバリュー識別子の各々とが紐付けられて記憶され、且つ前記複数のスロットの各々と前記複数のバリュー識別子の各々とが1以上の回答文に紐付けられて記憶された回答文リストと、
前記複数のスロットの各々と、前記複数のスロットの各々に隣接配置される複数の周辺文字列とが紐付けられて記憶された周辺文字列リストと、
前記バリューリストと前記回答文リスト及び前記周辺文字列リストを基に第1の学習データを作成する学習データ作成部と、
前記第1の学習データを基に第1のスロットバリュー抽出モデルを作成するモデル作成部と、を備えたモデル作成装置におけるモデル作成方法であって、
前記学習データ作成部が、前記回答文リストを基に、前記回答文リストの中の前記回答文に紐付けられた前記バリュー識別子の組み合わせを1又は2以上作成し、前記1又は2以上の組み合わせ毎に前記バリュー識別子の順列を作成する順列作成ステップと、
前記学習データ作成部が、前記バリュー識別子の順列の組み合わせ毎に、前記バリュー識別子の順列に属する各要素の前記バリュー識別子に紐付けられたバリューを前記各要素のバリューとして前記バリューリストの中からそれぞれ取得し、且つ前記各要素のバリュー識別子に紐付けられたスロットを、前記各要素のスロットとして前記回答文リストの中からそれぞれ取得し、さらに、前記各要素のスロットに紐付けられた前記周辺文字列を前記各要素の周辺文字列として前記周辺文字列リストの中からそれぞれ取得する取得ステップと、
前記学習データ作成部が、前記バリュー識別子の順列の組み合わせ毎に、取得した前記各要素のバリューと取得した前記各要素の周辺文字列とを結合した文字列を前記各要素の文字列として作成し、且つ前記各要素の文字列を結合して複数の想定入力文字列を作成する想定入力文字列作成ステップと、
前記学習データ作成部が、前記想定入力文字列作成ステップで作成した前記複数の想定入力文字列と、前記複数の想定入力文字列の各々の作成に用いた前記各要素のスロット及び前記各要素のバリューを基に、前記各想定入力文字列と、前記各要素のスロット及び前記各要素のバリューとを紐付けたデータを前記第1の学習データとして作成する第1の学習データ作成ステップと、を含むことを特徴とするモデル作成方法。 - 請求項9に記載のモデル作成方法であって、
前記学習データ作成部が、前記第1の学習データに紐付けられた前記各要素のスロットのうち1又は2以上の特定のスロットの組み合わせを作成し、作成した前記特定のスロットの組み合わせから除外されたスロットに紐付けられた学習データを前記第1の学習データの中から除外して、第2の学習データを作成する第2の学習データ作成ステップと、
前記モデル作成部が、前記第2の学習データ作成ステップで作成された前記第2の学習データを基に第2のスロットバリュー抽出モデルを作成する第2のスロットバリュー抽出モデル作成ステップと、を含むことを特徴とするモデル作成方法。 - 請求項9又は10に記載のモデル作成方法であって、
予め設定された1又は2以上の音声出力用文字列に、少なくとも前記各要素のスロットが含まれる確率が紐付けられた対話ログを更に備え、
前記学習データ作成部が、前記第1の学習データに紐付けられた前記各要素のスロットのうち前記対話ログで規定された前記確率が閾値以上のスロットに関する前記想定入力文字列を含むデータを前記第1の学習データの中から抽出して、第3の学習データを作成する第3の学習データ作成ステップと、
前記モデル作成部が、前記第3の学習データ作成ステップで作成された前記第3の学習データを基に第3のスロットバリュー抽出モデルを作成する第3のスロットバリュー抽出モデル作成ステップと、を含むことを特徴とするモデル作成方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018119325A JP6964558B2 (ja) | 2018-06-22 | 2018-06-22 | 音声対話システムとモデル作成装置およびその方法 |
US16/420,479 US20190392005A1 (en) | 2018-06-22 | 2019-05-23 | Speech dialogue system, model creating device, model creating method |
CN201910489647.8A CN110634480B (zh) | 2018-06-22 | 2019-06-06 | 语音对话系统与模型创建装置及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018119325A JP6964558B2 (ja) | 2018-06-22 | 2018-06-22 | 音声対話システムとモデル作成装置およびその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019220115A JP2019220115A (ja) | 2019-12-26 |
JP6964558B2 true JP6964558B2 (ja) | 2021-11-10 |
Family
ID=68968838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018119325A Active JP6964558B2 (ja) | 2018-06-22 | 2018-06-22 | 音声対話システムとモデル作成装置およびその方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20190392005A1 (ja) |
JP (1) | JP6964558B2 (ja) |
CN (1) | CN110634480B (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145734A (zh) * | 2020-02-28 | 2020-05-12 | 北京声智科技有限公司 | 一种语音识别方法及电子设备 |
JP7566476B2 (ja) * | 2020-03-17 | 2024-10-15 | 東芝テック株式会社 | 情報処理装置、情報処理システム及びその制御プログラム |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002023783A (ja) * | 2000-07-13 | 2002-01-25 | Fujitsu Ltd | 対話処理システム |
JP2005157494A (ja) * | 2003-11-20 | 2005-06-16 | Aruze Corp | 会話制御装置及び会話制御方法 |
JP4075067B2 (ja) * | 2004-04-14 | 2008-04-16 | ソニー株式会社 | 情報処理装置および情報処理方法、並びに、プログラム |
JP4464770B2 (ja) * | 2004-08-31 | 2010-05-19 | 日本電信電話株式会社 | 対話戦略学習方法および対話戦略学習装置 |
JP2009244639A (ja) * | 2008-03-31 | 2009-10-22 | Sanyo Electric Co Ltd | 発話装置、発話制御プログラムおよび発話制御方法 |
JP5346327B2 (ja) * | 2010-08-10 | 2013-11-20 | 日本電信電話株式会社 | 対話学習装置、要約装置、対話学習方法、要約方法、プログラム |
JP5660441B2 (ja) * | 2010-09-22 | 2015-01-28 | 独立行政法人情報通信研究機構 | 音声認識装置、音声認識方法、及びプログラム |
JP6078964B2 (ja) * | 2012-03-26 | 2017-02-15 | 富士通株式会社 | 音声対話システム及びプログラム |
DE102013007502A1 (de) * | 2013-04-25 | 2014-10-30 | Elektrobit Automotive Gmbh | Computer-implementiertes Verfahren zum automatischen Trainieren eins Dialogsystems und Dialogsystem zur Erzeugung von semantischen Annotationen |
JP6235360B2 (ja) * | 2014-02-05 | 2017-11-22 | 株式会社東芝 | 発話文収集装置、方法、及びプログラム |
JP6604542B2 (ja) * | 2015-04-02 | 2019-11-13 | パナソニックIpマネジメント株式会社 | 対話方法、対話プログラム及び対話システム |
JP2017027234A (ja) * | 2015-07-17 | 2017-02-02 | 日本電信電話株式会社 | フレーム作成装置、方法、及びプログラム |
US10176463B2 (en) * | 2015-12-17 | 2019-01-08 | International Business Machines Corporation | Machine learning system for intelligently identifying suitable time slots in a user's electronic calendar |
CN105632495B (zh) * | 2015-12-30 | 2019-07-05 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
JP6651973B2 (ja) * | 2016-05-09 | 2020-02-19 | 富士通株式会社 | 対話処理プログラム、対話処理方法および情報処理装置 |
US20180032884A1 (en) * | 2016-07-27 | 2018-02-01 | Wipro Limited | Method and system for dynamically generating adaptive response to user interactions |
CN106448670B (zh) * | 2016-10-21 | 2019-11-19 | 竹间智能科技(上海)有限公司 | 基于深度学习和强化学习的自动回复对话系统 |
US9977778B1 (en) * | 2016-11-03 | 2018-05-22 | Conduent Business Services, Llc | Probabilistic matching for dialog state tracking with limited training data |
US20180129484A1 (en) * | 2016-11-04 | 2018-05-10 | Microsoft Technology Licensing, Llc | Conversational user interface agent development environment |
CN107220292A (zh) * | 2017-04-25 | 2017-09-29 | 上海庆科信息技术有限公司 | 智能对话装置、反馈式智能语音控制系统及方法 |
CN117112761A (zh) * | 2017-09-05 | 2023-11-24 | 声音猎手公司 | 域间通过语法槽的分类 |
US11010656B2 (en) * | 2017-10-30 | 2021-05-18 | Clinc, Inc. | System and method for implementing an artificially intelligent virtual assistant using machine learning |
EP3483746A1 (en) * | 2017-11-09 | 2019-05-15 | Snips | Methods and devices for generating data to train a natural language understanding component |
US10572801B2 (en) * | 2017-11-22 | 2020-02-25 | Clinc, Inc. | System and method for implementing an artificially intelligent virtual assistant using machine learning |
-
2018
- 2018-06-22 JP JP2018119325A patent/JP6964558B2/ja active Active
-
2019
- 2019-05-23 US US16/420,479 patent/US20190392005A1/en not_active Abandoned
- 2019-06-06 CN CN201910489647.8A patent/CN110634480B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019220115A (ja) | 2019-12-26 |
CN110634480A (zh) | 2019-12-31 |
CN110634480B (zh) | 2023-04-28 |
US20190392005A1 (en) | 2019-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10366154B2 (en) | Information processing device, information processing method, and computer program product | |
JP5245255B2 (ja) | 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 | |
JP2019212321A (ja) | 意味情報生成方法、意味情報生成装置、およびプログラム | |
US11907659B2 (en) | Item recall method and system, electronic device and readable storage medium | |
CN109360550A (zh) | 语音交互系统的测试方法、装置、设备和存储介质 | |
EP2887229A2 (en) | Communication support apparatus, communication support method and computer program product | |
US10410632B2 (en) | Input support apparatus and computer program product | |
JP6873805B2 (ja) | 対話支援システム、対話支援方法、及び対話支援プログラム | |
JP7031462B2 (ja) | 分類プログラム、分類方法、および情報処理装置 | |
JP6964558B2 (ja) | 音声対話システムとモデル作成装置およびその方法 | |
JP6307822B2 (ja) | プログラム、コンピュータおよび訓練データ作成支援方法 | |
JP2017204018A (ja) | 検索処理方法、検索処理プログラムおよび情報処理装置 | |
CN110209780B (zh) | 一种问题模板生成方法、装置、服务器及存储介质 | |
JP6085149B2 (ja) | 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム | |
CN110580905B (zh) | 识别装置及方法 | |
CN111326142A (zh) | 基于语音转文本的文本信息提取方法、系统和电子设备 | |
JP6107003B2 (ja) | 辞書更新装置、音声認識システム、辞書更新方法、音声認識方法、および、コンピュータ・プログラム | |
US11893814B2 (en) | Extraction method, computer-readable recording medium storing extraction program, and information processing device | |
JPWO2019171537A1 (ja) | 意味推定システム、方法およびプログラム | |
JP6123372B2 (ja) | 情報処理システム、名寄せ判定方法及びプログラム | |
CN113064982A (zh) | 一种问答库生成方法及相关设备 | |
CN111858994A (zh) | 文字检索方法和装置 | |
KR20200079629A (ko) | 대화형 정보 제공 시스템 및 그 방법 | |
JP6085574B2 (ja) | 作業記録内容解析装置及び方法及びプログラム | |
JP2019135593A (ja) | 言語処理方法及び言語処理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210915 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211012 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211019 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6964558 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |