JP2018087847A - 対話制御装置、その方法及びプログラム - Google Patents
対話制御装置、その方法及びプログラム Download PDFInfo
- Publication number
- JP2018087847A JP2018087847A JP2016229908A JP2016229908A JP2018087847A JP 2018087847 A JP2018087847 A JP 2018087847A JP 2016229908 A JP2016229908 A JP 2016229908A JP 2016229908 A JP2016229908 A JP 2016229908A JP 2018087847 A JP2018087847 A JP 2018087847A
- Authority
- JP
- Japan
- Prior art keywords
- scenario
- start index
- response
- dialogue
- talk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
図2は第一実施形態に係る対話制御装置100の機能ブロック図を、図3はその処理フローを示す。
例えば、マイクロホンアレイ61は、N個のマイクロホンからなり、出力信号x(t0)はx1(t0),x2(t0),…,xN(t0)を含む。例えば、x(t0)={x1(t0),x2(t0),…,xN(t0)}である。Nは1以上の整数の何れかである。
顔検出部72は、イメージセンサの出力信号y(u)を入力とし、出力信号y(u)に対応する画像に含まれる顔がカメラ71から見てどの方向にあるかを求め、求めた方向を検出結果yD(u)として出力する。
人感センサ81は、例えば、赤外線、超音波、可視光などを用いたセンサであり、人の所在を検知し、検知結果を出力信号I7(t7)として出力する。例えば、サンプル時刻t7において人感センサ81の感知しうる範囲に人が存在する場合I7(t7)=1であり、人が存在しないI7(t7)=0である。
開始指標計算部110は、発音の検出結果I1(t0)、音源方向の推定結果xD(t0)、音声のレベルの推定結果xL(t0)、音声認識結果xR(t4)、顔の方向を示す検出結果yD(u)、顔の大きさを示す検出結果yS(u)、人感センサ81の出力信号I7(t7)を入力とする。開始指標計算部110は、これらの入力値を総合的に解析して、話しかけ開始指標S(u)と応答開始指標R(t4)とを求め(S110)、対応決定部120に出力する。
対応決定部120は、話しかけ開始指標S(u)及び応答開始指標R(t4)を入力とし、これらの指標に基づき、対話装置の動作を決定し(S120)、対話装置を動作させるための制御信号z(t8)を出力する。なお、話しかけ開始指標S(u)及び応答開始指標R(t4)は異なるタイミングで対応決定部120に入力される。そのため、対応決定部120は、話しかけ開始指標S(u)及び応答開始指標R(t4)の何れかが入力された時点で動作する。
シナリオ記憶部123には、話しかけシナリオ、応答シナリオ、及び、確認シナリオを利用に先立ち記憶しておく。なお、(i)話しかけシナリオとは、対話装置側から対話の契機となる音声を出力して対話を開始する対話シナリオであり、(ii)応答シナリオとは、話し利用者側からの発話に対して応答する対話シナリオであり、(iii)確認シナリオとは、利用者に対して対話を開始するか否かを確認する対話シナリオである。
シナリオ選択部122は、話しかけ開始指標S(u)及び応答開始指標R(t4)を入力とし、話しかけ開始指標S(u)とJ個の閾値Ths,1,Ths,2,…,Ths,Jとの大小関係、及び、応答開始指標R(t4)とK個の閾値Thr,1,Thr,2,…,Thr,Kとの大小関係とに基づき、話しかけシナリオ、応答シナリオ、または、確認シナリオを選択し、選択したシナリオに対応して動作させるための制御信号z(t8)を出力する。なお、本実施形態では、上述の2つの確認シナリオ(確認シナリオ1、確認シナリオ2)を用意する。また、対話装置側からきっかけとなる音声を出力して対話を開始するべきではなく、かつ、対話装置側が応答すべきでない場合のために、「動作無し」というシナリオを用意する。「動作無し」の場合には、制御信号z(t8)を出力しなくともよいし、動作しないことを示す制御信号z(t8)を出力してもよい。なお、J及びKは、それぞれ1以上の整数の何れかである。
(i)話しかけ開始指標S(u)の値が大きい(対話装置側からきっかけとなる音声を出力して対話を開始するべきである)と話しかけシナリオを選択しやすく、応答開始指標R(t4)の値が大きい(ある音声に対して、対話装置側が応答すべきである)と応答シナリオを選択しやすくなるように選択基準を作成する。
(ii)対話装置側からきっかけとなる音声を出力して対話を開始するべきか否かが不明確な場合、自然な挙動で対話を開始するかを確認するシナリオ(確認シナリオ2)を選択しやすくなるように選択基準を作成する。また、対話装置側が応答すべきであるか否かが不明確な場合、自分に話しかけているのかを問いかけるシナリオ(確認シナリオ1)を選択しやすくなるように選択基準を作成する。
(iii)対話装置側からきっかけとなる音声を出力して対話を開始するべきではなく、かつ、対話装置側が応答すべきでない場合、対話装置は動作しないように選択基準を作成する。
(iv)より高い区分に分類された指標を優先するように選択基準を作成する。例えば、話しかけ開始指標S(u)が高に分類され、応答開始指標R(t4)が中や低に分類された場合には、話しかけ開始指標S(u)が高の場合に選択される話しかけシナリオが選択しやすくなるように選択基準を作成する。
(v)応答開始指標R(t4)と話しかけ開始指標S(u)とに対して同程度の分類がなされた場合、応答開始指標R(t4)を優先するように選択基準を作成する。例えば、Ths,1<S(u)かつThR,1<R(t4)の場合には応答シナリオを選択し、Ths,2<S(u)≦Ths,1かつThR,2<R(t4)≦ThR,1の場合には、確認シナリオ1(問いかけ)を選択する。利用者が話しかけているのに応答がない場合(無視された場合)、誤って対話装置が応答しているよりも、対話意欲は削がれると想定し、このような選択基準を作成することで、利用者の対話意欲が削がれることを防ぐ。
このような構成により、対話装置への話しかけかどうかあやふやな場合に、質問で聞き返したり、利用者のほうを向いて自分への話しかけであるかを確認したりすることができ、より人間らしいふるまいをすることができる。その結果、誤った応答を低減することができる。
第一実施形態と異なる部分を中心に説明する。
待ち受け状態において、シナリオ選択部122は、話しかけ開始指標S(u)及び応答開始指標R(t4)を入力とし、待ち受け状態における判定基準に基づき、応答シナリオ、話しかけシナリオ、確認シナリオ1、確認シナリオ2、動作無しの何れかを選択し、選択したシナリオに対応して動作させるための制御信号z(t8)を出力する。
シナリオ選択部122は、話しかけ開始指標S(u)及び応答開始指標R(t4)を入力とし、確認状態における判定基準に基づき、応答シナリオ、話しかけシナリオ、動作無しの何れかを選択し、選択したシナリオに対応して動作させるための制御信号z(t8)を出力する。応答シナリオまたは話しかけシナリオが選択された場合には対話状態に遷移し、何れのシナリオも選択されなかった場合(動作無しが選択された場合)には確認状態から確認状態に遷移する。但し、動作無しが選択されつづけ、確認状態のまま一定時間が経過すると(または一定回数の入力S(u),R(t4)を受け付けると)待ち受け状態に遷移する。
シナリオ選択部122は、話しかけ開始指標S(u)及び応答開始指標R(t4)を入力とし、対話状態における判定基準に基づき、応答シナリオ、動作無しの何れかを選択し、選択したシナリオに対応して動作させるための制御信号z(t8)を出力する。この状態では対話状態から対話状態に遷移する。但し、動作無しが選択されつづけ、一定時間が経過すると(または一定回数の入力S(u),R(t4)を受け付けると)待ち受け状態に遷移する。
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、確認シナリオを連続して実施して不自然な対応となってしまうことを防ぐことができる。
第一実施形態及び第二実施形態と異なる部分を中心に説明する。
図8は開始指標計算部110の機能ブロック図を、図9はその処理フローの例を示す。
方向一致度計算部111は、カメラから見た顔の方向を示す検出結果yD(u)と音源方向の推定結果xD(t0)とを入力とし、音源方向の推定結果と映像による顔認識方向の一致度合いI2(u)を計算し(S111)、出力する。一致度合いI2(u)は、例えば0.0〜1.0の値をとり1.0に近いほど一致していることを表す指標である。例えば、カメラから見た顔の方向を示す検出結果yD(u)と音源方向の推定結果xD(t0)との差分の絶対値|(xD(t0))-(yD(u))|をとり、その値があらかじめ設定した第1の閾値T1よりも大きければI2(u)=0を出力し、あらかじめ設定した第2の閾値T2よりも小さければI2(u)=1を出力し、どちらでもなければ以下の式により、差分の絶対値|(xD(t0))-(yD(u))|が第1の閾値T1の時に0になり、第2の閾値T2のときに1となる直線上の値を出力する。
I2(u)={|(xD(t0))-(yD(u))|-(T1)}/{(T2)-(T1)}
この関係をグラフにしたものを図10に示す。つまり、
I2(u)=0 if |(xD(t0))-(yD(u))|>T1
I2(u)=1 if |(xD(t0))-(yD(u))|<T2
I2(u)={|(xD(t0))-(yD(u))|-(T1)}/{(T2)-(T1)} if T2≦|(xD(t0))-(yD(u))|≦T1
となる。
発話距離指標計算部112は、音声のレベルの推定結果xL(t0)を入力とし、マイクロホンアレイ61と発話者と距離に応じて変化する発話距離指標I3(t0)を計算し(S112)、出力する。例えば、発話距離指標I3(t0)を、マイクロホンアレイ61に含まれるマイクロホンと発話者との距離が近いほど1.0に近くなり、距離が遠いほど0.0に近くなる指標とする。音は音源から受音位置までの距離に反比例して受音される音の大きさが変化する。よって、マイクロホンで観測された音声のレベルからおおよその距離を推定することができる。例えば1mの位置で標準的な音量で発話したときのマイクロホンの出力のレベルをAとした場合、推定対象音声のマイクロホンの出力のレベルがBであったとすれば、推定対象音声のマイクロホンから音源までの距離は、その比A/B(m)で推定することができる。推定された距離があらかじめ設定した第3の閾値T3よりも大きければI3(t0)=0を出力し、あらかじめ設定した第4の閾値T4よりも小さければI3(t0)=1を出力し、どちらでもなければ以下の式により第3の閾値T3の時に0になりと第4の閾値T4のときに1となる直線上の値を出力する。
I3(t0)={A/B-(T3)}/{(T4)-(T3)}
キーワード検出部113は、音声認識結果xR(t4)を入力とし、音声認識結果xR(t4)に含まれる単語列と、キーワードデータベース114に格納されているキーワードとのマッチングを行い、音声認識結果xR(t4)に含まれる単語列の何れかがキーワードデータベース114にある場合には検出結果I4(t4)=1を出力し、無い場合には検出結果I4(t4)=0を出力する(S113)。キーワードデータベース114に格納されているキーワードは、話しかけるきっかけに良く使われるものである。または、キーワードデータベース114に格納されているキーワード毎に0.0〜1.0の数値をあらかじめ指定しておき、そのキーワードが検出された際に対応する数値を検出結果I4(t4)として出力する構成としてもよい。数値は、話しかけるきっかけに良く使われるキーワードほど1に近い値をあらかじめ設定しておく。
発話頻度計算部115は、発音の検出結果I1(t0)と音源方向の推定結果xD(t0)とを入力とし、同一の方向からの発話が過去T秒の間にどのくらいあったかを計算する(S115)。例えば、過去T秒の間に音源方向の推定結果xD(t0)がθであり、かつ、発音があった時間(I1(t0)=1)の合計をA(θ)秒とすれば、θ方向の発音頻度を、それらの比D(θ)=A(θ)/Tとして求めることができる。発話頻度計算部115は、この頻度D(θ)を現時点t0の推定結果(音源方向)xD(t0)について求める。例えば音源がテレビや音楽受聴用のスピーカであった場合、これらは長時間の間ほとんど無音になることなく、同じ方向から音が到来し続けることとなる。このような音源がθ方向にあった場合、発音頻度D(θ)は1に近い大きな値をとることになる。発話頻度計算部115は、発音頻度D(θ)があらかじめ設定した第7の閾値T7よりも大きければ発話頻度指標I5=0を出力し、あらかじめ設定した第8の閾値T8よりも小さければ発話頻度指標I5=1を出力し、どちらでもなければ以下の式により第7の閾値T7の時にI5=0になりと第8の閾値T8のときにI5=1となる直線上の値を出力する。
I5(t0)={D(θ)-(T7)}/{(T8)-(T7)}
顔の距離指標計算部116は、顔の大きさを示す検出結果yS(u)を入力とし、この値を用いて、利用者とカメラ71との距離を示す距離指標I6(u)を計算し(S116)、出力する。例えば、距離指標I6(u)は、利用者とカメラ71との距離が近いほど1.0に近くなり、距離が遠いほど0.0に近くなる指標である。
I6(u)={F/G-(T5)}/{(T6)-(T5)}
応答開始指標計算部117は、発音の検出結果I1(t0),一致度合いI2(u),発話距離指標I3(t0),検出結果I4(t4),発話頻度指標I5(t0),距離指標I6(u),人感センサ81の出力信号I7(t7)を入力とし、これらの情報の全てを使って、応答するか否かを判定するための指標である応答開始指標R(t4)を計算し(S117)、出力する。
R(t4)=F{I1(t0),I2(u),I3(t0),I4(t4),I5(t0),I6(u),I7(t7)}
話しかけ開始指標計算部118は、上述のI1(t0),I2(u),I3(t0),I4(t4),I5(t0),I6(u),I7(t7)を入力とし、これらの情報の全てを使って、話しかけをするか否かを判定するための指標である話しかけ開始指標S(u)を計算し(S118)、出力する。話しかけ開始指標計算部118は、応答開始指標計算部117と同様の方法で話しかけ開始指標S(u)を計算することができる。ただし、あらかじめ設定した重みWnやVn,mの値は応答開始指標計算部117とは異なる数値で設定される。また、話しかけ開始指標S(u)は、外部からの話しかけがない場合に大きな値をとるので、発音の検出結果I1(t0)、一致度合いI2(u)、発話距離指標I3(t0)、キーワード検出部113の出力値I4(t4)を、それぞれ、1から減算した値を入力するように置きなおしてもよい。つまり、I1(t0)を1-I1(t0)に、I2(u)を1-I2(u)に、I3(t0)を1-I3(t0)に、I4(t4)を1-I4(t4)に置き換えてもよい。
このような構成により、様々なセンサの情報から、外部からの音に対して応答するか否かの指標である応答開始指標Rと、対話装置側から会話を開始すべきか否かの指標である話しかけ開始指標Sを求め、これに基づいて対話の開始の制御をすることができ、対話とは無関係の音声などに対して反応することを防ぐことができる。
本実施形態の開始指標計算部110は、話しかけ開始指標S(u)と応答開始指標R(t4)とを求め、出力しているが、何れか一方の指標のみを求める構成としてもよい。その場合、他方の指標は、本実施形態とは異なる方法を用いて求めればよい。または、シナリオ選択部122は、話しかけ開始指標S(u)または応答開始指標R(t4)を入力とし、話しかけ開始指標S(u)とJ個の閾値Ths,1,Ths,2,…,Ths,Jとの大小関係、または、応答開始指標R(t4)とK個の閾値Thr,1,Thr,2,…,Thr,Kとの大小関係とに基づき、(A)話しかけシナリオ若しくは確認シナリオ(例えば確認シナリオ2(動作、独り言))、または、(B)応答シナリオ若しくは確認シナリオ(例えば確認シナリオ1(問いかけ))を選択し、選択したシナリオに対応して動作させるための制御信号z(t8)を出力する。
第三実施形態と異なる部分を中心に説明する。
このような構成により、第三実施形態では人手により設定されていた計算式や重みWnやVn,mを、実データを用いて最適に自動設定することが可能となり、より精度の高い指標の出力が可能となる。
第三実施形態及び第四実施形態と異なる部分を中心に説明する。
図11は、時間補正部310の機能ブロック図を示す。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (8)
- (i)対話装置側から対話の契機となる音声を出力して対話を開始する話しかけシナリオ、(ii)利用者側からの発話に対して応答する応答シナリオ、及び、(iii)利用者に対して対話を開始するか否かを確認する確認シナリオを記憶するシナリオ記憶部と、
対話装置側から対話の契機となる音声を出力して対話を開始すべきであるか否かを示す話しかけ開始指標Sと、ある音声に対して応答すべきであるか否かを示す応答開始指標Rとを入力とし、J及びKをそれぞれ1以上の整数の何れかとし、前記話しかけ開始指標SとJ個の閾値Ths,1,Ths,2,…,Ths,Jとの大小関係、及び、前記応答開始指標RとK個の閾値Thr,1,Thr,2,…,Thr,Kとの大小関係とに基づき、前記話しかけシナリオ、前記応答シナリオ、または、前記確認シナリオを選択するシナリオ選択部を含む、
対話制御装置。 - 請求項1の対話制御装置であって、
前記シナリオ選択部は、(I)待ち受け状態、(II)前記確認シナリオを実行後の状態である確認状態、(III)前記話しかけシナリオまたは前記応答シナリオを実行後の状態である対話状態の何れかの状態に遷移し、前記待ち受け状態、前記確認状態、前記対話状態の何れかの状態に応じて、前記話しかけシナリオ、前記応答シナリオ、または、前記確認シナリオを選択する際の選択基準を変更する、
対話制御装置。 - 請求項1または請求項2の対話制御装置であって、
マイクロホンの出力信号及び人感センサの出力信号のうちの少なくとも1つの出力信号とイメージセンサの出力信号とに基づき、前記話しかけ開始指標を計算する話しかけ開始指標計算部を含み、
前記話しかけ開始指標計算部は、前記イメージセンサの出力信号を用いて得られる顔の方向を示す検出結果及び顔の大きさを示す検出結果の少なくとも何れかを用いて、前記話しかけ開始指標を計算する、
対話制御装置。 - 請求項1から請求項3の何れかの対話制御装置であって、
イメージセンサ及び人感センサの出力信号のうちの少なくとも1つの出力信号とマイクロホンの出力信号とに基づき、前記応答開始指標を計算する応答開始指標計算部を含み、
前記応答開始指標計算部は、前記マイクロホンの出力信号を用いて得られる音声認識結果を用いて応答開始指標を計算する、
対話制御装置。 - シナリオ記憶部には、(i)対話装置側から対話の契機となる音声を出力して対話を開始する話しかけシナリオ、(ii)利用者側からの発話に対して応答する応答シナリオ、及び、(iii)利用者に対して対話を開始するか否かを確認する確認シナリオが記憶されるものとし、
シナリオ選択部が、対話装置側から対話の契機となる音声を出力して対話を開始すべきであるか否かを示す話しかけ開始指標Sと、ある音声に対して応答すべきであるか否かを示す応答開始指標Rとを入力とし、J及びKをそれぞれ1以上の整数の何れかとし、前記話しかけ開始指標SとJ個の閾値Ths,1,Ths,2,…,Ths,Jとの大小関係、及び、前記応答開始指標RとK個の閾値Thr,1,Thr,2,…,Thr,Kとの大小関係とに基づき、前記話しかけシナリオ、前記応答シナリオ、または、前記確認シナリオを選択するシナリオ選択ステップを含む、
対話制御方法。 - 請求項5の対話制御方法であって、
話しかけ開始指標計算部が、マイクロホンの出力信号及び人感センサの出力信号のうちの少なくとも1つの出力信号とイメージセンサの出力信号とに基づき、前記話しかけ開始指標を計算する話しかけ開始指標計算ステップを含み、
前記話しかけ開始指標計算ステップは、前記イメージセンサの出力信号を用いて得られる顔の方向を示す検出結果及び顔の大きさを示す検出結果の少なくとも何れかを用いて、前記話しかけ開始指標を計算する、
対話制御方法。 - 請求項5または請求項6の対話制御方法であって、
応答開始指標計算部が、イメージセンサ及び人感センサの出力信号のうちの少なくとも1つの出力信号とマイクロホンの出力信号とに基づき、前記応答開始指標を計算する応答開始指標計算ステップを含み、
前記応答開始指標計算ステップは、前記マイクロホンの出力信号を用いて得られる音声認識結果を用いて応答開始指標を計算する、
対話制御方法。 - 請求項1から請求項4の対話制御装置として、コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016229908A JP6629172B2 (ja) | 2016-11-28 | 2016-11-28 | 対話制御装置、その方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016229908A JP6629172B2 (ja) | 2016-11-28 | 2016-11-28 | 対話制御装置、その方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018087847A true JP2018087847A (ja) | 2018-06-07 |
JP6629172B2 JP6629172B2 (ja) | 2020-01-15 |
Family
ID=62493011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016229908A Active JP6629172B2 (ja) | 2016-11-28 | 2016-11-28 | 対話制御装置、その方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6629172B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020067562A (ja) * | 2018-10-24 | 2020-04-30 | Kddi株式会社 | ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法 |
US10800043B2 (en) | 2018-09-20 | 2020-10-13 | Electronics And Telecommunications Research Institute | Interaction apparatus and method for determining a turn-taking behavior using multimodel information |
WO2020256161A1 (ko) * | 2019-06-17 | 2020-12-24 | 엘지전자 주식회사 | 인공지능 홈 로봇 및 그의 제어 방법 |
JP7554921B2 (ja) | 2021-05-17 | 2024-09-20 | グーグル エルエルシー | 自動アシスタントに関する自然な会話を可能にすること |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014191029A (ja) * | 2013-03-26 | 2014-10-06 | Fuji Soft Inc | 音声認識システムおよび音声認識システムの制御方法 |
JP2016071192A (ja) * | 2014-09-30 | 2016-05-09 | 株式会社Nttドコモ | 対話装置および対話方法 |
-
2016
- 2016-11-28 JP JP2016229908A patent/JP6629172B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014191029A (ja) * | 2013-03-26 | 2014-10-06 | Fuji Soft Inc | 音声認識システムおよび音声認識システムの制御方法 |
JP2016071192A (ja) * | 2014-09-30 | 2016-05-09 | 株式会社Nttドコモ | 対話装置および対話方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10800043B2 (en) | 2018-09-20 | 2020-10-13 | Electronics And Telecommunications Research Institute | Interaction apparatus and method for determining a turn-taking behavior using multimodel information |
JP2020067562A (ja) * | 2018-10-24 | 2020-04-30 | Kddi株式会社 | ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法 |
JP7032284B2 (ja) | 2018-10-24 | 2022-03-08 | Kddi株式会社 | ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法 |
WO2020256161A1 (ko) * | 2019-06-17 | 2020-12-24 | 엘지전자 주식회사 | 인공지능 홈 로봇 및 그의 제어 방법 |
US11511410B2 (en) | 2019-06-17 | 2022-11-29 | Lg Electronics Inc. | Artificial intelligence (AI) robot and control method thereof |
JP7554921B2 (ja) | 2021-05-17 | 2024-09-20 | グーグル エルエルシー | 自動アシスタントに関する自然な会話を可能にすること |
Also Published As
Publication number | Publication date |
---|---|
JP6629172B2 (ja) | 2020-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11823679B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
US11769492B2 (en) | Voice conversation analysis method and apparatus using artificial intelligence | |
CN109086264B (zh) | 说话继续判定方法、说话继续判定装置以及记录介质 | |
WO2018048549A1 (en) | Method and system of automatic speech recognition using posterior confidence scores | |
JP6629172B2 (ja) | 対話制御装置、その方法及びプログラム | |
JP7230806B2 (ja) | 情報処理装置、及び情報処理方法 | |
US11289085B2 (en) | Automatic turn delineation in multi-turn dialogue | |
JP7229847B2 (ja) | 対話装置、対話方法、及び対話コンピュータプログラム | |
JP2019053126A (ja) | 成長型対話装置 | |
US11574637B1 (en) | Spoken language understanding models | |
JP2022534888A (ja) | 2パスエンドツーエンド音声認識 | |
US10755704B2 (en) | Information processing apparatus | |
US20220335953A1 (en) | Voice shortcut detection with speaker verification | |
JP2004347761A (ja) | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 | |
CN106875936A (zh) | 语音识别方法及装置 | |
WO2019026617A1 (ja) | 情報処理装置、及び情報処理方法 | |
JP7531164B2 (ja) | 発話解析装置、発話解析方法及びプログラム | |
US20190043527A1 (en) | Routing audio streams based on semantically generated result sets | |
US11398221B2 (en) | Information processing apparatus, information processing method, and program | |
US20210166685A1 (en) | Speech processing apparatus and speech processing method | |
JP2020119221A (ja) | 対話装置、対話方法、及びプログラム | |
JP4864783B2 (ja) | パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法 | |
CN115552517A (zh) | 自动化助理响应呈现的无热词抢占 | |
CN117708305B (zh) | 一种针对应答机器人的对话处理方法和系统 | |
US20240029717A1 (en) | System to provide natural utterance by a voice assistant and method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191009 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191204 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6629172 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |