JP6998517B2 - 発話継続判定方法、発話継続判定装置およびプログラム - Google Patents
発話継続判定方法、発話継続判定装置およびプログラム Download PDFInfo
- Publication number
- JP6998517B2 JP6998517B2 JP2017117084A JP2017117084A JP6998517B2 JP 6998517 B2 JP6998517 B2 JP 6998517B2 JP 2017117084 A JP2017117084 A JP 2017117084A JP 2017117084 A JP2017117084 A JP 2017117084A JP 6998517 B2 JP6998517 B2 JP 6998517B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- user
- utterance
- data
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 84
- 230000004044 response Effects 0.000 claims description 197
- 239000013598 vector Substances 0.000 claims description 76
- 238000012549 training Methods 0.000 claims description 23
- 238000004458 analytical method Methods 0.000 claims description 21
- 230000009471 action Effects 0.000 claims description 20
- 230000000877 morphologic effect Effects 0.000 claims description 20
- 238000001514 detection method Methods 0.000 claims description 12
- 238000010801 machine learning Methods 0.000 claims description 7
- 238000012706 support-vector machine Methods 0.000 claims description 7
- 238000003062 neural network model Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 69
- 230000008569 process Effects 0.000 description 36
- 238000004891 communication Methods 0.000 description 28
- 238000004364 calculation method Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 20
- 235000013305 food Nutrition 0.000 description 15
- 241000251468 Actinopterygii Species 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 235000014102 seafood Nutrition 0.000 description 4
- 239000007787 solid Substances 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 235000013372 meat Nutrition 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000287828 Gallus gallus Species 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- User Interface Of Digital Computer (AREA)
Description
発話継続判定技術は、ユーザが発話を継続したいか否かを推定する技術すなわちユーザの発話継続を判定する技術である。そして、発話継続判定技術を用いて、対話システムの応答のタイミングおよび内容を動的に制御する。しかしながら、この判定精度が悪いと、ユーザが発話を継続しようとしている一方で、対話システムは、同じ内容もしくは次の質問内容などを誤って応答していまい、ユーザの発話を聞き逃してしまう。そして、誤った応答をすることは対話システムとユーザとの対話時間の増加をもたらす。そのため、ユーザの発話継続の精度の向上が望まれている。
以下では、図面を参照しながら、実施の形態1における発話継続判定方法等の説明を行う。
図1は、実施の形態1に係る発話継続判定システム1の構成例を示すブロック図である。図2は、実施の形態1に係る発話継続判定システム1Aの構成の別例を示すブロック図である。なお、図1と同様の要素には同一の符号を付している。
記憶装置10は、コーパス101および対話データ102を記憶する。コーパス101は、対話における発話を示すテキストデータが大規模に集められデータベース化されたものである。本実施の形態では、コーパス101は、複数の学習用データ1011を含む。学習用データ1011は、学習処理装置11が学習処理を行う際に用いられる。
学習処理装置11は、記憶装置10に記憶されるコーパス101から1以上の学習用データ1011を取得し、ユーザの発話に対する応答の待ち時間を示す応答遅延量を推定するための所定のモデルの学習処理を行う。学習処理装置11は、コンピュータ等で実現される。
次に、本実施の形態に係る発話継続判定装置12の構成について説明する。
学習処理装置11は、図1等に示すように、取得部111と、学習部112と、記憶部113とを備える。
記憶部113は、学習部112において学習された結果を学習結果情報1131として記憶する。記憶部113は、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリーで構成される。
取得部111は、ユーザに対して発話された第3発話文のテキストデータである第3文章と、第3文章に続いて当該ユーザにより発話された第4発話文のテキストデータである第4文章と、第3文章が示す意図を構造化したデータである構造化データと、第4文章に対する応答の待ち時間を示す応答遅延量とを含む学習用データを取得する。
学習部112は、学習用データ1011を用いて、所定のモデルに学習させる。より具体的には、学習部112は、学習用データ1011に含まれる応答遅延量146を教師データとして、ユーザ文章145(第4文章)と応答遅延量146との対応付けを学習させる。より具体的に、図3を用いて説明すると、学習部112は、取得部111により取得された学習用データ1011を所定のモデルに適用することにより、システム意図143に含まれる対話行為およびキーワードで示される構造化データと、ユーザ文章145に含まれる単語とに基づいて、対話状態を示す第1特徴ベクトルを算出する。そして、算出した第1特徴ベクトルと重みパラメータを用いて、ユーザ文章145と応答遅延量146との対応付けを学習する。そして、学習部112は、学習した結果を学習結果情報1131として記憶部113に記憶する。
形態素解析部1121は、取得部111で取得されたユーザ文章145において自然言語で意味を持つ最小単位である形態素を解析して、形態素を単語とする単語列に変換する。
素性ベクトル算出部1122は、形態素解析部1121で得られた単語列と、システム意図143に含まれる対話行為とキーワードとを、各素性として表現した文ベクトル表現である素性ベクトルに変換する。
対話状態算出部1123は、所定のモデルに含まれる第1モデルを用いて、素性ベクトル算出部1122で算出された素性ベクトルから、対話状態を示す第1特徴ベクトルを算出する。
応答遅延推定部1124は、所定のモデルに含まれる第2モデルを用いて、対話状態算出部1123により算出された第1特徴ベクトルから、ユーザ文章145に対する応答遅延量を推定する。
重み更新部1125は、応答遅延推定部1124により推定される応答遅延量と、学習用データ1011に含まれる応答遅延量146との間の誤差に基づいて、所定のモデルの第1重みパラメータおよび第2重みパラメータを更新する。
次に、発話継続判定装置12の詳細構成について説明する。
記憶部123は、応答遅延推定結果1231、ユーザ状況情報1232および発話継続判定結果1233を記憶する。記憶部123は、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリーで構成される。なお、ユーザ状況情報1232および発話継続判定結果1233の詳細については後述する。
対話取得部121は、ユーザに対して発話された、第1時刻の第1発話文のテキストデータである第1文章と、第1文章に続いてユーザにより発話された、第2時刻の第2発話文のテキストデータである第2文章と、第1文章が示す意図を構造化したデータである構造化データとを含む対話データを取得する。
推定部122は、学習処理装置11により機械学習されることで得た学習結果情報1131を反映した所定のモデルに、対話データを適用することにより、第2文章に対する応答の待ち時間を示す応答遅延量を推定する。
形態素解析部1221は、対話取得部121で取得された対話データ102(発話データ181)に含まれるユーザ文章185の形態素を解析して、形態素を単語とする単語に分割することで単語列に変換する。
素性ベクトル算出部1222は、形態素解析部1221で変換された単語列と、システム意図143に含まれる対話行為とキーワードとを、各素性として表現した文ベクトル表現である素性ベクトルに変換する。
対話状態算出部1223は、学習済みの所定のモデルに含まれる第1モデルを用いて、素性ベクトル算出部1222で算出された素性ベクトルなどから、対話状態を示す第1特徴ベクトルを算出する。本実施の形態では、対話状態算出部1223は、記憶部123が記憶する学習結果情報1131を読み込み、第1モデルの第1重みパラメータに反映させ、素性ベクトル算出部1222で算出された素性ベクトルと、学習済みの第1重みパラメータとに基づき、対話状態を示す第1特徴ベクトルに変換する。
応答遅延推定部1224は、学習済みの所定のモデルに含まれる第2モデルを用いて、対話状態算出部1223で算出された第1特徴ベクトルなどから、ユーザ文章185に対する応答遅延量を推定する。本実施の形態では、応答遅延推定部1224は、記憶部123が記憶する学習結果情報1131を読み込み、第1モデルの第1重みパラメータに反映させ、対話状態算出部1223で算出された第1特徴ベクトルと、学習済みの第2重みパラメータとに基づき、ユーザ文章185に対する応答遅延量(0もしくは1)の確率分布を示す事後確率を算出する。
応答遅延決定部1225は、応答遅延推定部1224により推定された応答遅延量の事後確率に基づき、予測応答遅延量を決定する。応答遅延決定部1225は、決定した予測応答遅延量を応答遅延推定結果1231として記憶部123に記憶する。例えば、応答遅延決定部1225は、事後確率で示される応答遅延量の確率値のうち確率値が高い方を予測応答遅延量と決定し、応答遅延推定結果1231として記憶部123に記憶する。
状況取得部124は、ユーザの状況を示すユーザ状況情報1232を取得する。本実施の形態では、状況取得部124は、待ち時間が経過するまでの時間に含まれるユーザ状況情報1232を少なくとも取得し、記憶部123に記憶する。ユーザ状況情報1232は、後述する判定部125の発話継続の判定に用いられる。
判定部125は、予測応答遅延量192が示す待ち時間におけるユーザ状況情報1232に応じて、ユーザ文章185(第2文章)に続いてユーザの発話文が継続するか否かを判定する。より具体的には、判定部125は、予測応答遅延量192が示す待ち時間が0である場合に、ユーザの発話文が継続しない旨を示す第1判定を行えばよい。一方、判定部125は、予測応答遅延量192が示す待ち時間が0より大きい場合において、当該待ち時間中におけるユーザ状況情報が所定の値を示すとき、ユーザの発話文が継続する旨を示す第2判定を行い、当該待ち時間中におけるユーザ状況情報が当該所定の値でないとき、上記のような第1判定を行う。
待ち時間生成部1251は、記憶部123に記憶されている応答遅延推定結果1231を取得し、応答遅延推定結果1231が示す待ち時間の有無に応じて、ユーザ文章185に続くシステム文章184の出力を遅延させる。例えば、待ち時間生成部1251は、応答遅延推定結果1231が示す予測応答遅延量が「1」のときには、「待ち状態」への遷移命令を生成して、システム文章を出力するシステムに対して出力する。これにより、待ち時間生成部1251は、例えば5秒など所定の待ち時間が経過するまでユーザ文章185に続くシステム文章184の出力を行わないように当該システムを制御することができる。
統合判定部1252は、推定部122が推定した応答遅延推定結果1231に示される待ち時間の有無と、待ち時間中におけるユーザ状況情報1232に示されるユーザ状況222とに基づいて、ユーザの発話継続の有無を判定する。
次に、以上のように構成された発話継続判定システム1の動作について説明する。
次に、学習処理装置11が行う学習処理(S1)の詳細について説明する。
次に、発話継続判定装置12が行う発話継続判定の詳細について説明する。
以上のように、本実施の形態によれば、過去のシステムの発話文におけるシステム意図と、過去のシステムの発話文に対するユーザ発話文を含む学習用データを用いて、学習用データに含まれる当該ユーザ発話文に対する応答遅延量を教師データとして、ユーザ発話文と応答遅延量との対応づけを行う学習処理を行う。これにより、システム発話文に続くユーザ発話文から、応答遅延量を精度よく推定できる。
次に、実施の形態2として、上述した発話継続判定装置12の利用形態について説明する。
携帯端末40は、スマートフォンまたはタブレットなどである。携帯端末40は、文字入力装置401、ユーザ状況取得装置402、信号処理部403、入出力制御部404、通信部405、および、応答実行部406を備える。
サーバ50は、通信部501、対話履歴記憶部502、言語理解部503、発話継続判定装置504、対話戦略部505、応答生成部506、および、発話継続通知装置を備える。
10 記憶装置
11 学習処理装置
11A 学習処理装置部
12、504 発話継続判定装置
12A 発話継続判定装置部
40 携帯端末
50 サーバ
101 コーパス
102 対話データ
111 取得部
112 学習部
113、123 記憶部
121 対話取得部
122 推定部
141 訓練データ
142、182、220 データID
143、183 システム意図
144、184 システム文章
145、185 ユーザ文章
146 応答遅延量
181 発話データ
192 予測応答遅延量
221 時刻
232 発話継続判定
401 文字入力装置
402 ユーザ状況取得装置
403 信号処理部
404 入出力制御部
405、501 通信部
406 応答実行部
502 対話履歴記憶部
503 言語理解部
505 対話戦略部
506 応答生成部
507 発話継続通知装置
1011 学習用データ
1131 学習結果情報
1121、1221 形態素解析部
1122、1222 素性ベクトル算出部
1123、1223 対話状態算出部
1124、1224 応答遅延推定部
1125 重み更新部
1225 応答遅延決定部
1231 応答遅延推定結果
1232 ユーザ状況情報
1233 発話継続判定結果
1251 待ち時間生成部
1252 統合判定部
Claims (9)
- 機械学習される所定のモデルを用いてユーザの発話継続を判定する発話継続判定方法であって、
前記ユーザに対して発話された、第1時刻の第1発話文のテキストデータである第1文章と、前記第1文章に続いて前記ユーザにより発話された、第2時刻の第2発話文のテキストデータである第2文章と、前記第1文章をカテゴリおよび行為により分類することで得られる前記第1文章の意図の種類を示す対話行為及び前記第1文章に含まれるキーワードで構成される前記第1文章が示す意図を構造化したデータである構造化データとを含む対話データを取得する対話取得ステップと、
機械学習されることで得た学習結果情報を反映した前記モデルに、前記対話データを適用することにより、前記第2文章に対する応答の待ち時間を示す応答遅延量を推定させる推定ステップと、
前記ユーザが発話継続のための動作を行っている状況か否を示すユーザ状況情報を取得する状況取得ステップと、
前記応答遅延量が示す前記待ち時間の値と、前記応答遅延量が示す前記待ち時間中における前記ユーザ状況情報が予め定めた状況の少なくとも一に対応する値か否かとより、前記第2文章に続いて前記ユーザの発話文が継続するか否かを判定する判定ステップと、を含み、
前記ユーザ状況情報は、
(1)前記ユーザの発話をテキストにより入力するためのテキスト入力部におけるテキスト入力欄が選択中か否か、(2)前記ユーザの発話を音により入力するための集音部における音声信号が入力中か否か、(3)前記ユーザの視線を検出するための視線検出部における前記ユーザの視線位置が前記第1文章を提示する提示部を含む装置にあるか否か、および、(4)前記ユーザの姿勢を検出するための姿勢検出部における前記ユーザの顔方向および体方向が前記第1文章を提示する提示部を含む装置であるか否かのうちの少なくとも一に対応する値を示す、
発話継続判定方法。 - 前記判定ステップは、
前記応答遅延量が示す待ち時間が0である場合に、前記ユーザの発話文が継続しない旨を示す第1判定を行い、
前記応答遅延量が示す待ち時間が0より大きい場合において、前記待ち時間中における前記ユーザ状況情報が所定の値を示すとき、前記ユーザの発話文が継続する旨を示す第2判定を行い、前記待ち時間中における前記ユーザ状況情報が前記所定の値を示さないとき、前記第1判定を行う、
請求項1に記載の発話継続判定方法。 - 前記発話継続判定方法は、さらに、
ユーザに対して発話された、第3発話文のテキストデータである第3文章と、前記第3文章に続いて当該ユーザにより発話された第4発話文のテキストデータである第4文章と、前記第3文章が示す意図を構造化したデータである構造化データと、前記第4文章に対する応答の待ち時間を示す応答遅延量とを含む学習用データを取得する学習取得ステップと、
前記学習用データを用いて、前記モデルに、学習させる学習ステップと、
前記学習ステップにおいて学習した結果を前記学習結果情報として記憶する記憶ステップとを含み、
前記学習ステップでは、前記学習用データに含まれる前記応答遅延量を教師データとして、前記第4文章と前記応答遅延量との対応付けを学習させる、
請求項1または2に記載の発話継続判定方法。 - 前記モデルは、
前記第4文章を形態素解析することで得た単語列に含まれる単語、並びに、前記構造化データに含まれる対話行為およびキーワードを素性とする第1素性ベクトルを算出し、算出した前記第1素性ベクトルと第1重みパラメータとに基づき、前記第4文章の対話状態を表現する第1特徴ベクトルを出力する第1モデルと、
前記第1特徴ベクトルと第2重みパラメータとに基づき、前記第4文章に対する応答遅延量を出力する第2モデルとを含み、
前記学習ステップでは、前記第2モデルにより出力される前記応答遅延量と、前記学習用データに含まれる前記応答遅延量との間の誤差に基づいて、前記第1重みパラメータおよび前記第2重みパラメータを誤差逆伝搬法で更新することにより、前記学習用データを用いて前記モデルに学習させる、
請求項3に記載の発話継続判定方法。 - 前記第1モデルは、
前記第1重みパラメータを持ち、算出された前記第1素性ベクトルから第1特徴ベクトルを算出するニューラルネットワークを有し、
前記第2モデルは、
シグモイド回帰を出力とするニューラルネットワークモデル、SVM(Support Vector Machine)モデルまたはナイーブベイズ分類器を用いる、
請求項4記載の発話継続判定方法。 - 前記学習取得ステップでは、
前記学習用データを、ユーザに対して発話された発話文と、当該発話文が示す意図の構造化データと、当該発話文に続いて当該ユーザにより発話された発話文と、当該ユーザにより発話された発話文に対する応答遅延量とが集積されたコーパスから取得する、
請求項3~5のいずれか1項に記載の発話継続判定方法。 - 前記第3文章が示す意図は、
前記第3文章をカテゴリおよび行為により分類することで得られる前記第3文章の意図の種類を示す対話行為と、前記第3文章に含まれるキーワードとを含む、
請求項3~5のいずれか1項に記載の発話継続判定方法。 - 機械学習される所定のモデルを用いてユーザの発話継続を判定する発話継続判定装置であって、
前記ユーザに対して発話された、第1時刻の第1発話文のテキストデータである第1文章と、前記第1文章に続いて前記ユーザにより発話された、第2時刻の第2発話文のテキストデータである第2文章と、前記第1文章をカテゴリおよび行為により分類することで得られる前記第1文章の意図の種類を示す対話行為及び前記第1文章に含まれるキーワードで構成される前記第1文章が示す意図を構造化したデータである構造化データとを含む対話データを取得する対話取得部と、
機械学習されることで得た学習結果情報を反映した前記モデルに、前記対話データを適用することにより、前記第2文章に対する応答の待ち時間を示す応答遅延量を推定させる推定部と、
前記ユーザが発話継続のための動作を行っている状況か否を示すユーザ状況情報を取得する状況取得部と、
前記応答遅延量が示す前記待ち時間の値と、前記応答遅延量が示す前記待ち時間中における前記ユーザ状況情報が予め定めた状況の少なくとも一に対応する値か否かとより、前記第2文章に続いて前記ユーザの発話文が継続するか否かを判定する判定部と、を備え、
前記ユーザ状況情報は、
(1)前記ユーザの発話をテキストにより入力するためのテキスト入力部におけるテキスト入力欄が選択中か否か、(2)前記ユーザの発話を音により入力するための集音部における音声信号が入力中か否か、(3)前記ユーザの視線を検出するための視線検出部における前記ユーザの視線位置が前記第1文章を提示する提示部を含む装置にあるか否か、および、(4)前記ユーザの姿勢を検出するための姿勢検出部における前記ユーザの顔方向および体方向が前記第1文章を提示する提示部を含む装置であるか否かのうちの少なくとも一に対応する値を示す、
発話継続判定装置。 - 請求項1に記載の発話継続判定方法をコンピュータに実行させる、
プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017117084A JP6998517B2 (ja) | 2017-06-14 | 2017-06-14 | 発話継続判定方法、発話継続判定装置およびプログラム |
US15/989,603 US10789951B2 (en) | 2017-06-14 | 2018-05-25 | Speech continuation determination method, speech continuation determination device, and recording medium |
CN201810578751.XA CN109086264B (zh) | 2017-06-14 | 2018-06-07 | 说话继续判定方法、说话继续判定装置以及记录介质 |
EP18176721.1A EP3416163B1 (en) | 2017-06-14 | 2018-06-08 | Speech continuation determination method, speech continuation determination device, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017117084A JP6998517B2 (ja) | 2017-06-14 | 2017-06-14 | 発話継続判定方法、発話継続判定装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019003380A JP2019003380A (ja) | 2019-01-10 |
JP6998517B2 true JP6998517B2 (ja) | 2022-01-18 |
Family
ID=62567551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017117084A Active JP6998517B2 (ja) | 2017-06-14 | 2017-06-14 | 発話継続判定方法、発話継続判定装置およびプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US10789951B2 (ja) |
EP (1) | EP3416163B1 (ja) |
JP (1) | JP6998517B2 (ja) |
CN (1) | CN109086264B (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704482A (zh) * | 2016-08-09 | 2018-02-16 | 松下知识产权经营株式会社 | 方法、装置以及程序 |
US10741173B2 (en) * | 2018-06-25 | 2020-08-11 | International Business Machines Corporation | Artificial intelligence (AI) based voice response system etiquette |
CN113646835B (zh) * | 2019-04-05 | 2024-05-28 | 谷歌有限责任公司 | 联合自动语音识别和说话人二值化 |
US20230326456A1 (en) * | 2019-04-23 | 2023-10-12 | Mitsubishi Electric Corporation | Equipment control device and equipment control method |
CN110827821B (zh) * | 2019-12-04 | 2022-04-12 | 三星电子(中国)研发中心 | 一种语音交互装置、方法和计算机可读存储介质 |
US11594224B2 (en) | 2019-12-04 | 2023-02-28 | Samsung Electronics Co., Ltd. | Voice user interface for intervening in conversation of at least one user by adjusting two different thresholds |
CN112466296A (zh) * | 2020-11-10 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音交互的处理方法、装置、电子设备及存储介质 |
CN114679515B (zh) * | 2022-05-30 | 2022-08-30 | 杭州一知智能科技有限公司 | 外呼系统的接通时刻点判定方法、装置、设备和存储介质 |
WO2024073803A1 (en) * | 2022-10-05 | 2024-04-11 | Tepy Pty Ltd | Soundless speech recognition method, system and device |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09269889A (ja) * | 1996-04-02 | 1997-10-14 | Sharp Corp | 対話装置 |
JP4667085B2 (ja) | 2005-03-11 | 2011-04-06 | 富士通株式会社 | 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法 |
US7865552B2 (en) * | 2007-07-24 | 2011-01-04 | Cisco Technology, Inc. | Rich-media instant messaging with selective rich media messaging broadcast |
CN101247358B (zh) * | 2007-11-20 | 2012-05-09 | 北京九合创胜网络科技有限公司 | 一种计算即时通讯有效时间的方法和装置 |
JP2010277388A (ja) * | 2009-05-29 | 2010-12-09 | Nippon Telegr & Teleph Corp <Ntt> | 情報提供方法、情報提供システム及び情報提供プログラム |
US9141916B1 (en) * | 2012-06-29 | 2015-09-22 | Google Inc. | Using embedding functions with a deep network |
CN104253902A (zh) * | 2014-07-21 | 2014-12-31 | 宋婉毓 | 与智能语音设备进行语音交互的方法 |
JP6097791B2 (ja) | 2015-06-19 | 2017-03-15 | 日本電信電話株式会社 | 話題継続願望判定装置、方法、及びプログラム |
JP2017049471A (ja) * | 2015-09-03 | 2017-03-09 | カシオ計算機株式会社 | 対話制御装置、対話制御方法及びプログラム |
CN105912111B (zh) * | 2016-04-06 | 2018-11-09 | 北京地平线机器人技术研发有限公司 | 人机交互中的结束语音对话的方法及语音识别装置 |
-
2017
- 2017-06-14 JP JP2017117084A patent/JP6998517B2/ja active Active
-
2018
- 2018-05-25 US US15/989,603 patent/US10789951B2/en active Active
- 2018-06-07 CN CN201810578751.XA patent/CN109086264B/zh active Active
- 2018-06-08 EP EP18176721.1A patent/EP3416163B1/en active Active
Non-Patent Citations (1)
Title |
---|
Antoine Raux 他1名,Optimizing Endpointing Thresholds using Dialogue Features in a Spoken Dialogue System,Proceedings of the 9th SIGdial Workshop on Discourse and Dialogue[online],Association for Computational Linguistics,2008年,1-10頁,https://dl.acm.org/doi/abs/10.5555/1622064.1622066,(検索日:令和3年4月15日) |
Also Published As
Publication number | Publication date |
---|---|
JP2019003380A (ja) | 2019-01-10 |
US20180366120A1 (en) | 2018-12-20 |
US10789951B2 (en) | 2020-09-29 |
EP3416163B1 (en) | 2020-02-26 |
EP3416163A1 (en) | 2018-12-19 |
CN109086264B (zh) | 2024-04-02 |
CN109086264A (zh) | 2018-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6998517B2 (ja) | 発話継続判定方法、発話継続判定装置およびプログラム | |
US10453454B2 (en) | Dialog system with self-learning natural language understanding | |
US10991366B2 (en) | Method of processing dialogue query priority based on dialog act information dependent on number of empty slots of the query | |
KR20190004495A (ko) | 챗봇을 이용한 태스크 처리 방법, 장치 및 시스템 | |
US20170084274A1 (en) | Dialog management apparatus and method | |
US10395641B2 (en) | Modifying a language conversation model | |
JP6832501B2 (ja) | 意味生成方法、意味生成装置及びプログラム | |
US11270683B2 (en) | Interactive system, apparatus, and method | |
US20200219487A1 (en) | Information processing apparatus and information processing method | |
JPWO2008001486A1 (ja) | 音声処理装置およびプログラム、並びに、音声処理方法 | |
EP3857544B1 (en) | Speaker awareness using speaker dependent speech model(s) | |
EP2988298B1 (en) | Response generation method, response generation apparatus, and response generation program | |
KR20190064314A (ko) | 지능형 대화 에이전트를 위한 대화 태스크 처리 방법 및 그 장치 | |
US11990124B2 (en) | Language model prediction of API call invocations and verbal responses | |
CN116583837A (zh) | 用于自然语言处理的基于距离的logit值 | |
JP6629172B2 (ja) | 対話制御装置、その方法及びプログラム | |
WO2014176489A2 (en) | A system and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis | |
TWI776296B (zh) | 語音應答系統和語音應答方法 | |
JP2019109424A (ja) | 計算機、言語解析方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200520 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210427 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210621 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211201 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6998517 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |