JP7119008B2

JP7119008B2 - 自動発話認識を使用して生成された入力を発話に基づいて訂正する方法およびシステム

Info

Publication number: JP7119008B2
Application number: JP2019564454A
Authority: JP
Inventors: アルンスリーダラ，
Original assignee: ロヴィガイズ，インコーポレイテッド
Priority date: 2017-05-24
Filing date: 2017-05-24
Publication date: 2022-08-16
Anticipated expiration: 2037-05-24
Also published as: WO2018217194A1; EP3631794A1; US11521608B2; US20200143806A1; KR20220114094A; JP2021144250A; JP2020522733A; CN110663079A; KR102428911B1; CA3002383A1; KR20200010455A; US20230138030A1; JP7159400B2

Description

ユーザは、自動発話認識（ＡＳＲ）によってテキストに変換される口語入力を使用して、検索を開始し得る。ユーザはまた、後続の口語入力を使用して、前の口語入力の認識のエラーを訂正しようとし得る。しかしながら、ユーザが後続の口語入力で認識エラーを訂正することを意図するかどうかを決定することは、特に、ユーザが後続の発話でエラーを訂正することを意図する、語句「そうではなくて」または「言おうとしたのは～」等の後続の口語入力の中の明示的指示がない場合、困難であり得る。

故に、システムおよび方法が、発話に基づいて、ユーザが発話で入力を訂正することを意図したという発話の中の明示的指示がない場合、自動発話認識を使用して生成される入力を訂正するために、本明細書に説明される。いくつかの実施形態では、メディアガイドアプリケーションは、時間の差を使用し、発話に基づいて、自動発話認識を使用して生成される入力のエラーを訂正する。例えば、ユーザは、最初に、「オースティンについての番組を見せて」と話し得る。メディアガイドアプリケーションは、発話を「ボストンについての番組を見せて」と不正確に認識し、ボストンについての番組を含む検索結果を提示し得る。ユーザは、次いで、不正確に認識された「ボストン」を「オースティン」と訂正することを意図して、「オースティン」と話し得る。そのような場合において、ユーザは、検索が最初に要求されたものに合致しないことが迅速に明白であり得るため、検索結果が提示されるときから「オースティン」と話すときまで長い時間を要しない場合があり、ユーザは、エラーを訂正しようとする前、検索結果を精査することに長い時間量を費やさないであろう。他方で、メディアガイドアプリケーションが初期発話を「オースティンについての番組を見せて」として正確に認識し、オースティンについての番組を含む検索結果を提示する場合、ユーザは、検索結果を精査するために長い時間量を要し得る。したがって、いくつかの実施形態では、検索結果の提示と後続の口語入力との間の時間が長いかどうか（すなわち、閾値を上回るかどうか）は、ユーザが後続の発話で自動発話認識を使用して生成される入力を訂正することを意図するかどうかを示し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、加速の差を使用し、発話に基づいて、自動発話認識を使用して生成される入力のエラーを訂正する。例えば、ユーザは、最初に、「オースティンについての番組を見せて」と話し得る。メディアガイドアプリケーションは、発話を「ボストンについての番組を見せて」と不正確に認識し、ボストンについての番組を含む検索結果を提示し得る。ユーザは、次いで、不正確に認識された「ボストン」を「オースティン」と訂正することを意図して、「オースティン」と話し得る。そのような場合において、ユーザは、ユーザ入力デバイスが後続の話された「オースティン」をより正確に検出することを可能にする意図を持って、自分が話し掛けているユーザ入力デバイスを自分の口に近づけ得る。ユーザ入力デバイスの本運動は、検索結果が提示されたときとユーザが「オースティン」と話すときとの間のユーザ入力デバイスの加速の変化として検出され得る。本加速の変化は、したがって、ユーザが後続の発話で自動発話認識を使用して生成される入力を訂正することを意図するかどうかを示し得る。

これらの目的で、いくつかの側面では、メディアガイドアプリケーションは、発話に基づいて、ユーザが発話で入力を訂正することを意図したという発話の中の明示的指示がない場合、自動発話認識を使用して生成される入力を訂正する。具体的には、いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の発話を受信する。第１の発話は、例えば、ユーザによって話された言葉を含み得る。例えば、第１の発話は、「オースティンについての番組を見せて」であり得る。

いくつかの実施形態では、メディアガイドアプリケーションは、自動発話認識を使用して、第１の発話に基づいて第１の入力を決定する。例えば、第１の発話が「オースティンについての番組を見せて」である場合、メディアガイドアプリケーションは、第１の入力を「ボストンについての番組を見せて」であると決定し、それによって、第１の発話の中の「オースティン」を「ボストン」として不正確に認識し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、データベースから、第１の入力に基づいて検索結果を読み出す。データベースは、例えば、情報リポジトリを含み得る。

いくつかの実施形態では、メディアガイドアプリケーションは、検索結果を表示のために生成する。例えば、第１の入力が「ボストンについての番組を見せて」である場合、メディアガイドアプリケーションは、ボストンで行われているテレビ番組Ｆｒｉｎｇｅのリスト項目を読み出し、表示のために生成し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、検索結果が表示のために生成された第１の時間を決定する。例えば、メディアガイドアプリケーションは、表示画面のピクセルに伝送される信号が第１の時間に続いて最初に変化する時間を検出することによって、第１の時間を決定し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の発話を受信することに続いて、第２の発話を受信する。第２の発話は、例えば、ユーザによって話された言葉を含み得る。第２の発話は、メディアガイドアプリケーションによって不正確に認識された第１の入力の一部を訂正することをユーザによって意図され得る。例えば、検索結果がボストンについての番組を含む場合、ユーザは、メディアガイドアプリケーションが、第１の発話（「オースティンについての番組を見せて」）に応答して、第１の入力として「ボストンについての番組を見せて」を不正確に生成したことを決定し得る。故に、第２の発話は、ユーザが「ボストン」を「オースティン」に訂正することを意図する、「オースティン」であり得る。

いくつかの実施形態では、メディアガイドアプリケーションは、自動発話認識を使用して、第２の発話に基づいて第２の入力を決定する。例えば、第２の発話が「オースティン」である場合、メディアガイドアプリケーションは、第２の入力を「オースティン」であると決定し、それによって、第２の発話の中の「オースティン」を正確に認識し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、第２の発話が受信された第２の時間を決定する。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の時間に続く最も早い発音が起こった時間を測定することによって、第２の時間を決定し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、第２の時間と第１の時間との間の時間差を閾値時間と比較する。例えば、第１の時間が午前１０：００：００であり、第２の時間が午前１０：００：１０である場合、メディアガイドアプリケーションは、時間差を１０秒であると算出し得る。

いくつかの実施形態では、第２の時間と第１の時間との間の時間差を閾値時間と比較することに基づいて、メディアガイドアプリケーションは、第２の時間と第１の時間との間の時間差が閾値時間未満であることを決定する。例えば、時間差が１０秒であり、閾値時間が２０秒である場合、メディアガイドアプリケーションは、時間差が閾値時間未満であることを決定し得る。

いくつかの実施形態では、第２の時間と第１の時間との間の時間差が閾値時間未満であることを決定することに基づいて、メディアガイドアプリケーションは、第１の入力の一部を第２の入力の一部と置換することによって、第１の入力に基づいて訂正された入力を生成する。例えば、第１の入力が「ボストンについての番組を見せて」であり、第２の入力が「オースティン」である場合、メディアガイドアプリケーションは、「ボストン」を「オースティン」と置換し、「オースティンについての番組を見せて」という訂正された入力を生成し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、検索結果をブラウズすることに関連付けられたいかなる入力も、第１の時間と第２の時間との間にユーザ入力デバイスを介して受信されなかったことを決定することにさらに基づいて、訂正された入力を生成する。例えば、第１の入力が「ボストンについての番組を見せて」であり、第２の入力が「オースティン」である場合、メディアガイドアプリケーションは、「ボストン」を「オースティン」と置換し、時間差が閾値時間未満であること、および検索結果をブラウズすることに関連付けられたいかなる入力も受信されないことに基づいて、「オースティンについての番組を見せて」という訂正された入力を生成し得る。いくつかの実施形態では、検索結果をブラウズすることに関連付けられたいかなる入力も、第１の時間と第２の時間との間にユーザ入力デバイスを介して受信されなかったことを決定することは、検索結果をスクロールする、検索結果の説明を読む、検索結果を開く、または検索結果を再生するためのいかなる入力も、第１の時間と第２の時間との間にユーザ入力デバイスを介して受信されなかったことを決定することを含む。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の時間と第２の時間との間に、ユーザの顔の画像を捕捉する。例えば、ユーザ入力デバイスが携帯電話である場合、携帯電話は、そのカメラを使用して、ユーザの顔の画像を捕捉し得る。例えば、ユーザは、テレビ上でメディアアセットを視聴していることもあり、テレビは、統合型カメラを有し、カメラを使用してユーザの顔の画像を捕捉し得る。例えば、ユーザは、コンピュータ上でメディアアセットを視聴していることもあり、コンピュータは、統合型カメラを有し、カメラを使用してユーザの顔の画像を捕捉し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、画像内のユーザの顔が不満な感情に関連付けられていることを決定することにさらに基づいて、訂正された入力を生成する。例えば、画像内のユーザの顔が不満な感情に関連付けられていることを決定するために、メディアガイドアプリケーションは、顔認識技法を使用してユーザの顔の画像を分析し、怒りおよび悲しみ等の表情を検出し得る。例えば、第１の入力が「ボストンについての番組を見せて」であり、第２の入力が「オースティン」である場合、メディアガイドアプリケーションは、「ボストン」を「オースティン」と置換し、時間差が閾値時間未満であること、および画像内のユーザの顔が不満な感情に関連付けられていることに基づいて、「オースティンについての番組を見せて」という訂正された入力を生成し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の発話が受信されている間にユーザの顔の第１の画像を捕捉し、第１の画像内のユーザの顔の第１の相対サイズを決定する。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第２の発話が受信されている間に、ユーザの顔の第２の画像を捕捉し、第２の画像内のユーザの顔の第２の相対サイズを決定する。例えば、ユーザ入力デバイスが携帯電話である場合、携帯電話は、そのカメラを使用して、ユーザの顔の画像を捕捉し得る。例えば、ユーザは、テレビ上でメディアアセットを視聴していることもあり、テレビは、統合型カメラを有し、カメラを使用してユーザの顔の画像を捕捉し得る。例えば、ユーザは、コンピュータ上でメディアアセットを視聴していることもあり、コンピュータは、統合型カメラを有し、カメラを使用してユーザの顔の画像を捕捉し得る。例えば、メディアガイドアプリケーションは、画像内のユーザの顔によって占有されるピクセルの数を数えることによって、画像内のユーザの顔の相対サイズを計算し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザの顔の第１の相対サイズとユーザの顔の第２の相対サイズとの間の相対サイズ差を閾値相対サイズと比較する。例えば、第１の相対サイズが３メガピクセルであり、第２の相対サイズが４メガピクセルである場合、メディアガイドアプリケーションは、相対サイズ差を１メガピクセルであると算出し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザの顔の第１の相対サイズとユーザの顔の第２の相対サイズとの間の相対サイズ差を閾値相対サイズと比較することに基づいて、相対サイズ差が閾値相対サイズを上回ることを決定する。例えば、相対サイズ差が１メガピクセルであり、閾値相対サイズが０．５メガピクセルである場合、メディアガイドアプリケーションは、相対サイズ差が閾値相対サイズを上回ることを決定し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、相対サイズ差が閾値相対サイズを上回ることを決定することにさらに基づいて、訂正された入力を生成する。例えば、第１の入力が「ボストンについての番組を見せて」であり、第２の入力が「オースティン」である場合、メディアガイドアプリケーションは、「ボストン」を「オースティン」と置換し、時間差が閾値時間未満であること、および相対サイズ差が閾値相対サイズを上回ることに基づいて、「オースティンについての番組を見せて」という訂正された入力を生成し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、第２の時間と第１の時間との間の時間差を他の閾値時間と比較し、第２の時間と第１の時間との間の時間差を他の閾値時間と比較することに基づいて、第２の時間と第１の時間との間の時間差が他の閾値時間を上回ることを決定する。例えば、時間差が１０秒であり、他の閾値時間が２秒である場合、メディアガイドアプリケーションは、時間差が他の閾値時間を上回ることを決定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、第２の時間と第１の時間との間の時間差が他の閾値時間を上回ることを決定することにさらに基づいて、訂正された入力を生成する。例えば、第１の入力が「ボストンについての番組を見せて」であり、第２の入力が「オースティン」である場合、メディアガイドアプリケーションは、「ボストン」を「オースティン」と置換し、時間差が閾値時間未満であること、および時間差が他の閾値時間を上回ることに基づいて、「オースティンについての番組を見せて」という訂正された入力を生成し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザに関連付けられた複数の入力間の平均時間に基づいて、閾値時間を調節する。例えば、メディアガイドアプリケーションは、閾値時間をデフォルト値に設定し、平均時間に基づいて閾値時間を調節し得る。例えば、メディアガイドアプリケーションは、平均時間の範囲に関連付けられる量によって閾値時間を調節し得る。例えば、メディアガイドアプリケーションは、平均時間に比例する量によって閾値時間を調節し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、基準環境雑音レベルを測定する。例えば、基準環境雑音レベルを測定するために、ユーザ入力デバイスは、ユーザがいかなる入力も話していないときに、基準オーディオ録音を捕捉し得る。例えば、メディアガイドアプリケーションは、基準オーディオ録音の中の平均出力として基準環境雑音レベルを測定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の発話が受信されている間の環境雑音レベルを測定する。例えば、第１の発話が受信されている間の環境雑音レベルを測定するために、ユーザ入力デバイスは、第１の発話が受信されているときに、オーディオ録音を捕捉し、オーディオ録音の中の音声を除外し、本オーディオ録音の中の残留信号の平均出力を測定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、第１の発話が受信されている間の環境雑音レベルと基準環境雑音レベルとの間の環境雑音レベル差を閾値環境雑音レベルと比較する。例えば、環境雑音レベル差が０．１ｍＷであり、閾値環境雑音レベルが０．０１ｍＷである場合、メディアガイドアプリケーションは、０．１ｍＷを０．０１ｍＷと比較し得る。いくつかの実施形態では、第１の発話が受信されている間の環境雑音レベルと基準環境雑音レベルとの間の環境雑音レベル差を閾値環境雑音レベルと比較することに基づいて、メディアガイドアプリケーションは、環境雑音レベル差が閾値環境雑音レベルを上回ることを決定する。例えば、環境雑音レベル差が０．１ｍＷであり、閾値環境雑音レベルが０．０１ｍＷである場合、メディアガイドアプリケーションは、０．１ｍＷが０．０１ｍＷを上回ることを決定し得る。いくつかの実施形態では、メディアガイドは、環境雑音レベル差が閾値環境雑音レベルを上回ることを決定することにさらに基づいて、訂正された入力を生成する。例えば、第１の入力が「ボストンについての番組を見せて」であり、第２の入力が「オースティン」である場合、メディアガイドアプリケーションは、「ボストン」を「オースティン」と置換し、時間差が閾値時間未満であること、および環境雑音レベル差が閾値環境雑音レベルを上回ることに基づいて、「オースティンについての番組を見せて」という訂正された入力を生成し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の時間に続く最も早い発音が起こった時間を測定することによって、第２の時間を決定する。例えば、メディアガイドアプリケーションが午前１０：００：００に検索結果を表示のために生成し、ユーザからの次の発音が「オースティン」であった場合、メディアガイドアプリケーションは、「オースティン」の中の最初の「Ａｕ（オー）」という音が午前１０：００：００に起こったことを測定し、午前１０：００：００を第２の時間と見なし得る。

いくつかの実施形態では、メディアガイドアプリケーションは、表示画面のピクセルに伝送される信号が第１の時間に続いて最初に変化する時間を検出することによって、第１の時間を決定する。例えば、表示画面のピクセルに伝送される信号は、表示画面を変化させ、例えば、新しい項目を表示させ得る。例えば、検索結果が読み出され、表示画面上に表示される準備ができると、表示画面のピクセルに伝送される信号は、検索結果を表示するために変化し得る。表示画面のピクセルに伝送される信号が変化するときに、第１の発話が受信された後の初期時間は、表示されている検索結果を表し得る。したがって、表示画面のピクセルに伝送される信号が変化するときに、第１の発話が受信された後の初期時間は、第１の時間と見なされることができる。

いくつかの側面では、メディアガイドアプリケーションは、発話に基づいて、ユーザが発話で入力を訂正することを意図したという発話の中の明示的指示がない場合、自動発話認識を使用して生成される入力を訂正する。具体的には、いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の発話を受信する。第１の発話は、例えば、ユーザによって話された言葉を含み得る。例えば、第１の発話は、「オースティンについての番組を見せて」であり得る。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の時間におけるユーザ入力デバイスの第１の加速を測定する。例えば、第１の時間におけるユーザ入力デバイスが近似的に静止している場合、第１の加速は、０ｍ／秒^２であり得る。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の時間と第２の時間との間のユーザ入力デバイスの第２の加速を測定する。例えば、ユーザ入力デバイスが第１の時間と第２の時間との間に１ｍ／秒の速度で移動した場合、第２の加速は、１ｍ／秒^２であり得る。

いくつかの実施形態では、メディアガイドアプリケーションは、第２の加速と第１の加速との間の加速の差を決定する。例えば、第１の加速が０ｍ／秒^２であり、第２の加速が１ｍ／秒^２である場合、加速の差は、１ｍ／秒^２であり得る。

いくつかの実施形態では、第２の加速と第１の加速との間の加速の差を決定することに基づいて、メディアガイドアプリケーションは、加速の差を閾値加速と比較する。例えば、加速の差が１ｍ／秒^２であり、閾値加速が０．２５ｍ／秒^２である場合、メディアガイドアプリケーションは、１ｍ／秒^２を０．２５ｍ／秒^２と比較し得る。

いくつかの実施形態では、加速の差を閾値加速と比較することに基づいて、メディアガイドアプリケーションは、加速の差が閾値加速を上回ることを決定する。例えば、加速の差が１ｍ／秒^２であり、閾値加速が０．２５ｍ／秒^２である場合、メディアガイドアプリケーションは、１ｍ／秒^２が０．２５ｍ／秒^２を上回ることを決定し得る。

いくつかの実施形態では、加速の差が閾値加速を上回ることを決定することに基づいて、メディアガイドアプリケーションは、第１の入力の一部を第２の入力の一部と置換することによって、第１の入力に基づいて訂正された入力を生成する。例えば、第１の入力が「ボストンについての番組を見せて」であり、第２の入力が「オースティン」である場合、メディアガイドアプリケーションは、「ボストン」を「オースティン」と置換し、「オースティンについての番組を見せて」という訂正された入力を生成し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、検索結果をブラウズすることに関連付けられたいかなる入力も、第１の時間と第２の時間との間にユーザ入力デバイスを介して受信されなかったことを決定することにさらに基づいて、訂正された入力を生成する。例えば、第１の入力が「ボストンについての番組を見せて」であり、第２の入力が「オースティン」である場合、メディアガイドアプリケーションは、「ボストン」を「オースティン」と置換し、加速の差が閾値加速を上回ること、または検索結果をブラウズすることに関連付けられたいかなる入力も受信されないことに基づいて、「オースティンについての番組を見せて」という訂正された入力を生成し得る。いくつかの実施形態では、検索結果をブラウズすることに関連付けられたいかなる入力も、第１の時間と第２の時間との間にユーザ入力デバイスを介して受信されなかったことを決定することは、検索結果をスクロールする、検索結果の説明を読む、検索結果を開く、または検索結果を再生するためのいかなる入力も、第１の時間と第２の時間との間にユーザ入力デバイスを介して受信されなかったことを決定することを含む。

いくつかの実施形態では、メディアガイドアプリケーションは、画像内のユーザの顔が不満な感情に関連付けられていることを決定することにさらに基づいて、訂正された入力を生成する。例えば、画像内のユーザの顔が不満な感情に関連付けられていることを決定するために、メディアガイドアプリケーションは、顔認識技法を使用してユーザの顔の画像を分析し、怒りおよび悲しみ等の表情を検出し得る。例えば、第１の入力が「ボストンについての番組を見せて」であり、第２の入力が「オースティン」である場合、メディアガイドアプリケーションは、「ボストン」を「オースティン」と置換し、加速の差が閾値加速を上回ること、および画像内のユーザの顔が不満な感情に関連付けられていることに基づいて、「オースティンについての番組を見せて」という訂正された入力を生成し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザの顔の第１の相対サイズとユーザの顔の第２の相対サイズとの間の相対サイズ差を閾値相対サイズと比較することに基づいて、相対サイズ差が閾値相対サイズを上回ることを決定する。例えば、相対サイズ差が１メガピクセルであり、閾値相対サイズが０．５メガピクセルである場合、メディアガイドアプリケーションは、１メガピクセルが０．５メガピクセルを上回ることを決定し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、相対サイズ差が閾値相対サイズを上回ることを決定することにさらに基づいて、訂正された入力を生成する。例えば、第１の入力が「ボストンについての番組を見せて」であり、第２の入力が「オースティン」である場合、メディアガイドアプリケーションは、「ボストン」を「オースティン」と置換し、加速の差が閾値加速を上回ること、および相対サイズ差が閾値相対サイズを上回ることに基づいて、「オースティンについての番組を見せて」という訂正された入力を生成し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、基準環境雑音レベルを測定する。例えば、基準環境雑音レベルを測定するために、ユーザ入力デバイスは、ユーザがいかなる入力も話していないときに、基準オーディオ録音を捕捉し得る。例えば、メディアガイドアプリケーションは、基準オーディオ録音の中の平均出力として基準環境雑音レベルを測定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の発話が受信されている間の環境雑音レベルを測定する。例えば、第１の発話が受信されている間の環境雑音レベルを測定するために、ユーザ入力デバイスは、第１の発話が受信されているときに、オーディオ録音を捕捉し、オーディオ録音の中の音声を除外し、本オーディオ録音の中の残留信号の平均出力を測定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、第１の発話が受信されている間の環境雑音レベルと基準環境雑音レベルとの間の環境雑音レベル差を閾値環境雑音レベルと比較する。例えば、環境雑音レベル差が０．１ｍＷであり、閾値環境雑音レベルが０．０１ｍＷである場合、メディアガイドアプリケーションは、０．１ｍＷを０．０１ｍＷと比較し得る。いくつかの実施形態では、第１の発話が受信されている間の環境雑音レベルと基準環境雑音レベルとの間の環境雑音レベル差を閾値環境雑音レベルと比較することに基づいて、メディアガイドアプリケーションは、環境雑音レベル差が閾値環境雑音レベルを上回ることを決定する。例えば、環境雑音レベル差が０．１ｍＷであり、閾値環境雑音レベルが０．０１ｍＷである場合、メディアガイドアプリケーションは、０．１ｍＷが０．０１ｍＷを上回ることを決定し得る。いくつかの実施形態では、メディアガイドは、環境雑音レベル差が閾値環境雑音レベルを上回ることを決定することにさらに基づいて、訂正された入力を生成する。例えば、第１の入力が「ボストンについての番組を見せて」であり、第２の入力が「オースティン」である場合、メディアガイドアプリケーションは、「ボストン」を「オースティン」と置換し、加速の差が閾値加速を上回ること、および環境雑音レベル差が閾値環境雑音レベルを上回ることに基づいて、「オースティンについての番組を見せて」という訂正された入力を生成し得る。

いくつかの実施形態では、ユーザ入力デバイスは、加速度計を含む、携帯電話である。例えば、携帯電話は、スマートフォンであり得る。いくつかの実施形態では、ユーザ入力デバイスは、タブレットである。

いくつかの実施形態では、第２の加速を測定することは、第１の時間と第２の時間との間のユーザ入力デバイスの最大加速を測定することを含む。例えば、ユーザ入力デバイスの加速が、第１の時間と第２の時間との間に０ｍ／秒^２から最大で０．７５ｍ／秒^２まで上昇する場合、第２の加速は、０．７５ｍ／秒^２であり得る。

従来のシステムは、後続の発話に基づいて、後続の発話の中の「そうではなくて」または「言おうとしたのは～」等の語句を検出することによって、自動発話認識によって生成される入力を訂正し得る。これらの語句は、ユーザが後続の発話で入力を訂正することを意図するという明示的指示としての役割を果たすことができる。そのような語句がない場合、新しい検索を開始すること、または前の検索から結果をフィルタ処理することとは対照的に、ユーザが後続の発話で入力を訂正することを意図するかどうかを決定することは、困難であり得る。説明されるシステムおよび方法は、「そうではなくて」または「言おうとしたのは～」等の語句以外に、他の指示を使用し、ユーザが後続の発話で入力を訂正することを意図するかどうかを決定する。例えば、結果の提示と後続の発話との間の時間差、および結果の提示と後続の発話との間のユーザ入力デバイスの加速の差は、ユーザが後続の発話で入力を訂正することを意図するかどうかを決定するために使用されることができる。

上記で説明されるシステムおよび／または方法は、本開示に説明される他のシステム、方法、および／または装置に適用される、もしくはそれに従って使用され得ることに留意されたい。
本願明細書は、例えば、以下の項目も提供する。
（項目１）
ユーザが発話を用いて入力を訂正することを意図したという明示的指示が前記発話の中にない場合、前記発話に基づいて、前記入力を訂正する方法であって、前記入力は、自動発話認識を使用して生成されており、前記方法は、
第１の発話を受信することと、
自動発話認識を使用して、前記第１の発話に基づいて第１の入力を生成することと、
前記第１の入力に基づく検索結果を表示のために生成することと、
第２の発話を受信することと、
前記検索結果が表示されたときと前記第２の発話が受信されたときとの間の時間差が閾値時間未満であるかどうかを決定することと、
前記検索結果が表示されたときと前記第２の発話が受信されたときとの間の前記時間差が前記閾値時間未満であることを決定することに基づいて、前記第２の発話に基づいて前記第１の入力を訂正することと
を含む、方法。
（項目２）
ユーザが発話を用いて入力を訂正することを意図したという明示的指示が前記発話の中にない場合、前記発話に基づいて、前記入力を訂正する方法であって、前記入力は、自動発話認識を使用して生成されており、前記方法は、
ユーザ入力デバイスを介して、第１の発話を受信することと、
制御回路および自動発話認識を使用して、前記第１の発話に基づいて第１の入力を決定することと、
データベースから、前記第１の入力に基づく検索結果を読み出すことと、
前記制御回路を使用して、前記検索結果を表示のために生成することと、
前記制御回路を使用して、前記検索結果が表示のために生成された第１の時間を決定することと、
前記ユーザ入力デバイスを介して、前記第１の発話を受信することに続いて、第２の発話を受信することと、
前記制御回路および自動発話認識を使用して、前記第２の発話に基づいて第２の入力を決定することと、
前記制御回路を使用して、前記第２の発話が受信された第２の時間を決定することと、
前記制御回路を使用して、前記第２の時間と前記第１の時間との間の時間差を閾値時間と比較することと、
前記第２の時間と前記第１の時間との間の前記時間差を前記閾値時間と比較することに基づいて、前記制御回路を使用して、前記第２の時間と前記第１の時間との間の前記時間差が前記閾値時間未満であることを決定することと、
前記第２の時間と前記第１の時間との間の前記時間差が前記閾値時間未満であることを決定することに基づいて、前記制御回路を使用して、前記第１の入力の一部を前記第２の入力の一部と置換することによって、訂正された入力を前記第１の入力に基づいて生成することと
を含む、方法。
（項目３）
前記訂正された入力を生成することは、前記制御回路を使用して、検索結果をブラウズすることに関連付けられたいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定することにさらに基づく、項目２に記載の方法。
（項目４）
検索結果をブラウズすることに関連付けられたいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定することは、前記検索結果をスクロールすること、前記検索結果の説明を読むこと、前記検索結果を開くこと、または前記検索結果を再生することを行うためのいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定することを含む、項目３に記載の方法。
（項目５）
前記ユーザ入力デバイスを介して、前記第１の時間と前記第２の時間との間にユーザの顔の画像を捕捉することをさらに含み、
前記訂正された入力を生成することは、前記制御回路を使用して、前記画像内の前記ユーザの顔が不満な感情に関連付けられていることを決定することにさらに基づく、項目２に記載の方法。
（項目６）
前記ユーザ入力デバイスを介して、前記第１の発話が受信されている間にユーザの顔の第１の画像を捕捉することと、
前記制御回路を使用して、前記第１の画像内の前記ユーザの顔の第１の相対サイズを決定することと、
前記ユーザ入力デバイスを介して、前記第２の発話が受信されている間に前記ユーザの顔の第２の画像を捕捉することと、
前記制御回路を使用して、前記第２の画像内の前記ユーザの顔の第２の相対サイズを決定することと、
前記制御回路を使用して、前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の相対サイズ差を閾値相対サイズと比較することと、
前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の前記相対サイズ差を前記閾値相対サイズと比較することに基づいて、前記制御回路を使用して、前記相対サイズ差が前記閾値相対サイズを上回ることを決定することと
をさらに含み、
前記訂正された入力を生成することは、前記制御回路を使用して、前記相対サイズ差が前記閾値相対サイズを上回ることを決定することにさらに基づく、項目２に記載の方法。
（項目７）
前記制御回路を使用して、前記第２の時間と前記第１の時間との間の前記時間差を他の閾値時間と比較することと、
前記第２の時間と前記第１の時間との間の前記時間差を前記他の閾値時間と比較することに基づいて、前記制御回路を使用して、前記第２の時間と前記第１の時間との間の前記時間差が前記他の閾値時間を上回ることを決定することと、
をさらに含み、
前記訂正された入力を生成することは、前記制御回路を使用して、前記第２の時間と前記第１の時間との間の前記時間差が前記他の閾値時間を上回ることを決定することにさらに基づく、項目２に記載の方法。
（項目８）
ユーザに関連付けられた複数の入力間の平均時間に基づいて、前記閾値時間を調節することをさらに含む、項目２に記載の方法。
（項目９）
前記ユーザ入力デバイスを介して、基準環境雑音レベルを測定することと、
前記ユーザ入力デバイスを介して、前記第１の発話が受信されている間の環境雑音レベルを測定することと、
前記制御回路を使用して、前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の環境雑音レベル差を閾値環境雑音レベルと比較することと、
前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の前記環境雑音レベル差を前記閾値環境雑音レベルと比較することに基づいて、前記制御回路を使用して、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定することと
をさらに含み、
前記訂正された入力を生成することは、前記制御回路を使用して、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定することにさらに基づく、項目２に記載の方法。
（項目１０）
前記第２の発話が受信されたときの前記第２の時間を決定することは、前記ユーザ入力デバイスを介して、前記第１の時間に続く最も早い発音が受信された時間を測定することを含む、項目２に記載の方法。
（項目１１）
前記検索結果が表示のために生成された前記第１の時間を決定することは、前記制御回路を使用して、表示画面のピクセルに伝送される信号が前記第１の時間に続いて最初に変化した時間を検出することを含む、項目２に記載の方法。
（項目１２）
ユーザが発話を用いて入力を訂正することを意図したという明示的指示が前記発話の中にない場合、前記発話に基づいて、前記入力を訂正するためのシステムであって、前記入力は、自動発話認識を使用して生成されており、前記システムは、
データベースを記憶しているメモリと、
制御回路と通信しているユーザ入力デバイスと
を備え、
前記制御回路は、
前記ユーザ入力デバイスを介して、第１の発話を受信することと、
自動発話認識を使用して、前記第１の発話に基づいて第１の入力を決定することと、
前記データベースから、前記第１の入力に基づく検索結果を読み出すことと、
前記検索結果を表示のために生成することと、
前記検索結果が表示のために生成された第１の時間を決定することと、
前記ユーザ入力デバイスを介して、前記第１の発話を受信することに続いて、第２の発話を受信することと、
自動発話認識を使用して、前記第２の発話に基づいて第２の入力を決定することと、
前記第２の発話が受信された第２の時間を決定することと、
前記第２の時間と前記第１の時間との間の時間差を閾値時間と比較することと、
前記第２の時間と前記第１の時間との間の前記時間差を前記閾値時間と比較することに基づいて、前記第２の時間と前記第１の時間との間の前記時間差が前記閾値時間未満であることを決定することと、
前記第２の時間と前記第１の時間との間の前記時間差が前記閾値時間未満であることを決定することに基づいて、前記第１の入力の一部を前記第２の入力の一部と置換することによって、訂正された入力を前記第１の入力に基づいて生成することと
を行うように構成されている、システム。
（項目１３）
前記制御回路は、検索結果をブラウズすることに関連付けられたいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定することにさらに基づいて、前記訂正された入力を生成するように構成されている、項目１２に記載のシステム。
（項目１４）
前記制御回路は、検索結果をブラウズすることに関連付けられたいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定する場合、前記検索結果をスクロールすること、前記検索結果の説明を読むこと、前記検索結果を開くこと、または前記検索結果を再生することを行うためのいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定するように構成されている、項目１３に記載のシステム。
（項目１５）
前記制御回路は、前記ユーザ入力デバイスを介して、前記第１の時間と前記第２の時間との間にユーザの顔の画像を捕捉するようにさらに構成され、
前記制御回路は、前記画像内の前記ユーザの顔が不満な感情に関連付けられていることを決定することにさらに基づいて、前記訂正された入力を生成するように構成されている、項目１２に記載のシステム。
（項目１６）
前記制御回路は、
前記ユーザ入力デバイスを介して、前記第１の発話が受信されている間にユーザの顔の第１の画像を捕捉することと、
前記第１の画像内の前記ユーザの顔の第１の相対サイズを決定することと、
前記ユーザ入力デバイスを介して、前記第２の発話が受信されている間に前記ユーザの顔の第２の画像を捕捉することと、
前記第２の画像内の前記ユーザの顔の第２の相対サイズを決定することと、
前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の相対サイズ差を閾値相対サイズと比較することと、
前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の前記相対サイズ差を前記閾値相対サイズと比較することに基づいて、前記相対サイズ差が前記閾値相対サイズを上回ることを決定することと
を行うようにさらに構成され、
前記制御回路は、前記相対サイズ差が前記閾値相対サイズを上回ることを決定することにさらに基づいて、前記訂正された入力を生成するように構成されている、項目１２に記載のシステム。
（項目１７）
前記制御回路は、
前記第２の時間と前記第１の時間との間の前記時間差を他の閾値時間と比較することと、
前記第２の時間と前記第１の時間との間の前記時間差を前記他の閾値時間と比較することに基づいて、前記第２の時間と前記第１の時間との間の前記時間差が前記他の閾値時間を上回ることを決定することと
を行うようにさらに構成され、
前記制御回路は、前記第２の時間と前記第１の時間との間の前記時間差が前記他の閾値時間を上回ることを決定することにさらに基づいて、前記訂正された入力を生成するように構成されている、項目１２に記載のシステム。
（項目１８）
前記制御回路は、ユーザに関連付けられた複数の入力間の平均時間に基づいて、前記閾値時間を調節するようにさらに構成されている、項目１２に記載のシステム。
（項目１９）
前記制御回路は、
前記ユーザ入力デバイスを介して、基準環境雑音レベルを測定することと、
前記ユーザ入力デバイスを介して、前記第１の発話が受信されている間の環境雑音レベルを測定することと、
前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の環境雑音レベル差を閾値環境雑音レベルと比較することと、
前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の前記環境雑音レベル差を前記閾値環境雑音レベルと比較することに基づいて、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定することと
を行うようにさらに構成され、
前記制御回路は、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定することにさらに基づいて、前記訂正された入力を生成するように構成されている、項目１２に記載のシステム。
（項目２０）
前記制御回路は、前記第２の発話が受信されたときの前記第２の時間を決定する場合、前記ユーザ入力デバイスを介して、前記第１の時間に続く最も早い発音が受信された時間を測定するように構成されている、項目１２に記載のシステム。
（項目２１）
前記制御回路は、前記検索結果が表示のために生成された前記第１の時間を決定する場合、表示画面のピクセルに伝送される信号が前記第１の時間に続いて最初に変化した時間を検出するように構成されている、項目１２に記載のシステム。
（項目２２）
ユーザが発話を用いて入力を訂正することを意図したという明示的指示が前記発話の中にない場合、前記発話に基づいて、前記入力を訂正する方法であって、前記入力は、自動発話認識を使用して生成されており、前記方法は、
ユーザ入力デバイスを介して、第１の発話を受信することと、
制御回路および自動発話認識を使用して、前記第１の発話に基づいて第１の入力を決定することと、
データベースから、前記制御回路を使用して、前記第１の入力に基づく検索結果を読み出すことと、
前記制御回路を使用して、前記検索結果を表示のために生成することと、
前記制御回路を使用して、前記検索結果が表示のために生成された第１の時間を決定することと、
前記ユーザ入力デバイスを介して、前記第１の発話を受信することに続いて、第２の発話を受信することと、
前記制御回路および自動発話認識を使用して、前記第２の発話に基づいて第２の入力を決定することと、
前記制御回路を使用して、前記第２の発話が受信された第２の時間を決定することと、
前記制御回路を使用して、前記第２の時間と前記第１の時間との間の時間差を閾値時間と比較することと、
前記第２の時間と前記第１の時間との間の前記時間差を前記閾値時間と比較することに基づいて、前記制御回路を使用して、前記第２の時間と前記第１の時間との間の前記時間差が前記閾値時間未満であることを決定することと、
前記第２の時間と前記第１の時間との間の前記時間差が前記閾値時間未満であることを決定することに基づいて、前記制御回路を使用して、前記第１の入力の一部を前記第２の入力の一部と置換することによって、訂正された入力を前記第１の入力に基づいて生成することと
を含む、方法。
（項目２３）
前記訂正された入力を生成することは、前記制御回路を使用して、検索結果をブラウズすることに関連付けられたいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定することにさらに基づく、項目２２に記載の方法。
（項目２４）
検索結果をブラウズすることに関連付けられたいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定することは、前記検索結果をスクロールすること、前記検索結果の説明を読むこと、前記検索結果を開くこと、または前記検索結果を再生することを行うためのいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定することを含む、項目２３に記載の方法。
（項目２５）
前記ユーザ入力デバイスを介して、前記第１の時間と前記第２の時間との間にユーザの顔の画像を捕捉することをさらに含み、
前記訂正された入力を生成することは、前記制御回路を使用して、前記画像内の前記ユーザの顔が不満な感情に関連付けられていることを決定することにさらに基づく、項目２２－２４のいずれかに記載の方法。
（項目２６）
前記ユーザ入力デバイスを介して、前記第１の発話が受信されている間にユーザの顔の第１の画像を捕捉することと、
前記制御回路を使用して、前記第１の画像内の前記ユーザの顔の第１の相対サイズを決定することと、
前記ユーザ入力デバイスを介して、前記第２の発話が受信されている間に前記ユーザの顔の第２の画像を捕捉することと、
前記制御回路を使用して、前記第２の画像内の前記ユーザの顔の第２の相対サイズを決定することと、
前記制御回路を使用して、前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の相対サイズ差を閾値相対サイズと比較することと、
前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の前記相対サイズ差を前記閾値相対サイズと比較することに基づいて、前記制御回路を使用して、前記相対サイズ差が前記閾値相対サイズを上回ることを決定することと
をさらに含み、
前記訂正された入力を生成することは、前記制御回路を使用して、前記相対サイズ差が前記閾値相対サイズを上回ることを決定することにさらに基づく、項目２２－２５のいずれかに記載の方法。
（項目２７）
前記制御回路を使用して、前記第２の時間と前記第１の時間との間の前記時間差を他の閾値時間と比較することと、
前記第２の時間と前記第１の時間との間の前記時間差を前記他の閾値時間と比較することに基づいて、前記制御回路を使用して、前記第２の時間と前記第１の時間との間の前記時間差が前記他の閾値時間を上回ることを決定することと
をさらに含み、前記訂正された入力を生成することは、前記制御回路を使用して、前記第２の時間と前記第１の時間との間の前記時間差が前記他の閾値時間を上回ることを決定することにさらに基づく、項目２２－２６のいずれかに記載の方法。
（項目２８）
ユーザに関連付けられた複数の入力間の平均時間に基づいて、前記閾値時間を調節することをさらに含む、項目２２－２７のいずれかに記載の方法。
（項目２９）
前記ユーザ入力デバイスを介して、基準環境雑音レベルを測定することと、
前記ユーザ入力デバイスを介して、前記第１の発話が受信されている間の環境雑音レベルを測定することと、
前記制御回路を使用して、前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の環境雑音レベル差を閾値環境雑音レベルと比較することと、
前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の前記環境雑音レベル差を前記閾値環境雑音レベルと比較することに基づいて、前記制御回路を使用して、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定することと
をさらに含み、
前記訂正された入力を生成することは、前記制御回路を使用して、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定することにさらに基づく、項目２２－２８のいずれかに記載の方法。
（項目３０）
前記第２の発話が受信されたときの前記第２の時間を決定することは、前記ユーザ入力デバイスを介して、前記第１の時間に続く最も早い発音が受信された時間を測定することを含む、項目２２－２９のいずれかに記載の方法。
（項目３１）
前記検索結果が表示のために生成された前記第１の時間を決定することは、前記制御回路を使用して、表示画面のピクセルに伝送される信号が前記第１の時間に続いて最初に変化した時間を検出することを含む、項目２２－３０のいずれかに記載の方法。
（項目３２）
ユーザが発話を用いて入力を訂正することを意図したという明示的指示が前記発話の中にない場合、前記発話に基づいて、入力を訂正するための装置であって、前記入力は、自動発話認識を使用して生成されており、前記装置は、
ユーザ入力デバイスを介して、第１の発話を受信する手段と、
制御回路および自動発話認識を使用して、前記第１の発話に基づいて第１の入力を決定する手段と、
データベースから、前記第１の入力に基づく検索結果を読み出す手段と、
前記制御回路を使用して、前記検索結果を表示のために生成する手段と、
前記制御回路を使用して、前記検索結果が表示のために生成された第１の時間を決定する手段と、
前記ユーザ入力デバイスを介して、前記第１の発話を受信することに続いて、第２の発話を受信する手段と、
前記制御回路および自動発話認識を使用して、前記第２の発話に基づいて第２の入力を決定する手段と、
前記制御回路を使用して、前記第２の発話が受信された第２の時間を決定する手段と、
前記制御回路を使用して、前記第２の時間と前記第１の時間との間の時間差を閾値時間と比較する手段と、
前記第２の時間と前記第１の時間との間の前記時間差を前記閾値時間と比較することに基づいて、前記制御回路を使用して、前記第２の時間と前記第１の時間との間の前記時間差が前記閾値時間未満であることを決定する手段と、
前記第２の時間と前記第１の時間との間の前記時間差が前記閾値時間未満であることを決定することに基づいて、前記制御回路を使用して、前記第１の入力の一部を前記第２の入力の一部と置換することによって、訂正された入力を前記第１の入力に基づいて生成する手段と
を備えている、装置。
（項目３３）
前記訂正された入力を生成する前記手段は、前記制御回路を使用して、検索結果をブラウズすることに関連付けられたいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定することにさらに基づいて、前記訂正された入力を生成する手段を備えている、項目３２に記載の装置。
（項目３４）
検索結果をブラウズすることに関連付けられたいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定する前記手段は、前記検索結果をスクロールすること、前記検索結果の説明を読むこと、前記検索結果を開くこと、または前記検索結果を再生することを行うためのいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定する手段を備えている、項目３３に記載の装置。
（項目３５）
前記ユーザ入力デバイスを介して、前記第１の時間と前記第２の時間との間にユーザの顔の画像を捕捉する手段をさらに備え、
前記訂正された入力を生成する前記手段は、前記制御回路を使用して、前記画像内の前記ユーザの顔が不満な感情に関連付けられていることを決定することにさらに基づいて、前記訂正された入力を生成する手段を備えている、項目３２に記載の装置。
（項目３６）
前記ユーザ入力デバイスを介して、前記第１の発話が受信されている間にユーザの顔の第１の画像を捕捉する手段と、
前記制御回路を使用して、前記第１の画像内の前記ユーザの顔の第１の相対サイズを決定する手段と、
前記ユーザ入力デバイスを介して、前記第２の発話が受信されている間に前記ユーザの顔の第２の画像を捕捉する手段と、
前記制御回路を使用して、前記第２の画像内の前記ユーザの顔の第２の相対サイズを決定する手段と、
前記制御回路を使用して、前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の相対サイズ差を閾値相対サイズと比較する手段と、
前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の前記相対サイズ差を前記閾値相対サイズと比較することに基づいて、前記制御回路を使用して、前記相対サイズ差が前記閾値相対サイズを上回ることを決定する手段と
をさらに備え、
前記訂正された入力を生成する前記手段は、前記制御回路を使用して、前記相対サイズ差が前記閾値相対サイズを上回ることを決定することにさらに基づいて、前記訂正された入力を生成する手段を備えている、項目３２に記載の装置。
（項目３７）
前記制御回路を使用して、前記第２の時間と前記第１の時間との間の前記時間差を他の閾値時間と比較する手段と、
前記第２の時間と前記第１の時間との間の前記時間差を前記他の閾値時間と比較することに基づいて、前記制御回路を使用して、前記第２の時間と前記第１の時間との間の前記時間差が前記他の閾値時間を上回ることを決定する手段と
をさらに備え、
前記訂正された入力を生成する前記手段は、前記制御回路を使用して、前記第２の時間と前記第１の時間との間の前記時間差が前記他の閾値時間を上回ることを決定することにさらに基づいて、前記訂正された入力を生成する手段を備えている、項目３２に記載の装置。
（項目３８）
ユーザに関連付けられた複数の入力間の平均時間に基づいて、前記閾値時間を調節する手段をさらに備えている、項目３２に記載の装置。
（項目３９）
前記ユーザ入力デバイスを介して、基準環境雑音レベルを測定する手段と、
前記ユーザ入力デバイスを介して、前記第１の発話が受信されている間の環境雑音レベルを測定する手段と、
前記制御回路を使用して、前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の環境雑音レベル差を閾値環境雑音レベルと比較する手段と、
前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の前記環境雑音レベル差を前記閾値環境雑音レベルと比較することに基づいて、前記制御回路を使用して、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定する手段と
をさらに備え、
前記訂正された入力を生成する前記手段は、前記制御回路を使用して、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定することにさらに基づいて、前記訂正された入力を生成する手段を備えている、項目３２に記載の装置。
（項目４０）
前記第２の発話が受信されたときの前記第２の時間を決定する前記手段は、前記ユーザ入力デバイスを介して、前記第１の時間に続く最も早い発音が受信された時間を測定する手段を備えている、項目３２に記載の装置。
（項目４１）
前記検索結果が表示のために生成された前記第１の時間を決定する前記手段は、前記制御回路を使用して、表示画面のピクセルに伝送される信号が前記第１の時間に続いて最初に変化した時間を検出する手段を備えている、項目３２に記載の装置。
（項目４２）
エンコードされた命令を有するメモリを備えている非一過性の機械読み取り可能な媒体であって、前記命令は、ユーザが発話を用いて入力を訂正することを意図したという明示的指示が前記発話の中にない場合、前記発話に基づいて、前記入力を訂正するためのものであり、前記入力は、自動発話認識を使用して生成されており、前記非一過性の機械読み取り可能な媒体は、
ユーザ入力デバイスを介して、第１の発話を受信するための命令と、
制御回路および自動発話認識を使用して、前記第１の発話に基づいて第１の入力を決定するための命令と、
データベースから、前記第１の入力に基づく検索結果を読み出すための命令と、
前記制御回路を使用して、前記検索結果を表示のために生成するための命令と、
前記制御回路を使用して、前記検索結果が表示のために生成された第１の時間を決定するための命令と、
前記ユーザ入力デバイスを介して、前記第１の発話を受信することに続いて、第２の発話を受信するための命令と、
前記制御回路および自動発話認識を使用して、前記第２の発話に基づいて第２の入力を決定するための命令と、
前記制御回路を使用して、前記第２の発話が受信された第２の時間を決定するための命令と、
前記制御回路を使用して、前記第２の時間と前記第１の時間との間の時間差を閾値時間と比較するための命令と、
前記第２の時間と前記第１の時間との間の前記時間差を前記閾値時間と比較することに基づいて、前記制御回路を使用して、前記第２の時間と前記第１の時間との間の前記時間差が前記閾値時間未満であることを決定するための命令と、
前記第２の時間と前記第１の時間との間の前記時間差が前記閾値時間未満であることを決定することに基づいて、前記制御回路を使用して、前記第１の入力の一部を前記第２の入力の一部と置換することによって、訂正された入力を前記第１の入力に基づいて生成するための命令と
を備えている、非一過性の機械読み取り可能な媒体。
（項目４３）
前記訂正された入力を生成するための前記命令は、前記制御回路を使用して、検索結果をブラウズすることに関連付けられたいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定することにさらに基づいて、前記訂正された入力を生成するための命令を備えている、項目４２に記載の非一過性の機械読み取り可能な媒体。
（項目４４）
検索結果をブラウズすることに関連付けられたいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定するための前記命令は、前記検索結果をスクロールすること、前記検索結果の説明を読むこと、前記検索結果を開くこと、または前記検索結果を再生することを行うためのいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定するための命令を備えている、項目４３に記載の非一過性の機械読み取り可能な媒体。
（項目４５）
前記ユーザ入力デバイスを介して、前記第１の時間と前記第２の時間との間にユーザの顔の画像を捕捉するための命令をさらに備え、
前記訂正された入力を生成するための前記命令は、前記制御回路を使用して、前記画像内の前記ユーザの顔が不満な感情に関連付けられていることを決定することにさらに基づいて、前記訂正された入力を生成するための命令を備えている、項目４２に記載の非一過性の機械読み取り可能な媒体。
（項目４６）
前記ユーザ入力デバイスを介して、前記第１の発話が受信されている間にユーザの顔の第１の画像を捕捉するための命令と、
前記制御回路を使用して、前記第１の画像内の前記ユーザの顔の第１の相対サイズを決定するための命令と、
前記ユーザ入力デバイスを介して、前記第２の発話が受信されている間に前記ユーザの顔の第２の画像を捕捉するための命令と、
前記制御回路を使用して、前記第２の画像内の前記ユーザの顔の第２の相対サイズを決定するための命令と、
前記制御回路を使用して、前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の相対サイズ差を閾値相対サイズと比較するための命令と、
前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の前記相対サイズ差を前記閾値相対サイズと比較することに基づいて、前記制御回路を使用して、前記相対サイズ差が前記閾値相対サイズを上回ることを決定するための命令と
をさらに備え、
前記訂正された入力を生成するための前記命令は、前記制御回路を使用して、前記相対サイズ差が前記閾値相対サイズを上回ることを決定することにさらに基づいて、前記訂正された入力を生成するための命令を備えている、項目４２に記載の非一過性の機械読み取り可能な媒体。
（項目４７）
前記制御回路を使用して、前記第２の時間と前記第１の時間との間の前記時間差を他の閾値時間と比較するための命令と、
前記第２の時間と前記第１の時間との間の前記時間差を前記他の閾値時間と比較することに基づいて、前記制御回路を使用して、前記第２の時間と前記第１の時間との間の前記時間差が前記他の閾値時間を上回ることを決定するための命令と
をさらに備え、
前記訂正された入力を生成するための前記命令は、前記制御回路を使用して、前記第２の時間と前記第１の時間との間の前記時間差が前記他の閾値時間を上回ることを決定することにさらに基づいて、前記訂正された入力を生成するための命令を備えている、項目４２に記載の非一過性の機械読み取り可能な媒体。
（項目４８）
ユーザに関連付けられた複数の入力間の平均時間に基づいて、前記閾値時間を調節するための命令をさらに備えている、項目４２に記載の非一過性の機械読み取り可能な媒体。
（項目４９）
前記ユーザ入力デバイスを介して、基準環境雑音レベルを測定するための命令と、
前記ユーザ入力デバイスを介して、前記第１の発話が受信されている間の環境雑音レベルを測定するための命令と、
前記制御回路を使用して、前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の環境雑音レベル差を閾値環境雑音レベルと比較するための命令と、
前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の前記環境雑音レベル差を前記閾値環境雑音レベルと比較することに基づいて、前記制御回路を使用して、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定するための命令と
をさらに備え、
前記訂正された入力を生成するための前記命令は、前記制御回路を使用して、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定することにさらに基づいて、前記訂正された入力を生成するための命令を備えている、項目４２に記載の非一過性の機械読み取り可能な媒体。
（項目５０）
前記第２の発話が受信されたときの前記第２の時間を決定するための前記命令は、前記ユーザ入力デバイスを介して、前記第１の時間に続く最も早い発音が受信された時間を測定するための命令を備えている、項目４２に記載の非一過性の機械読み取り可能な媒体。
（項目５１）
前記検索結果が表示のために生成された前記第１の時間を決定するための前記命令は、前記制御回路を使用して、表示画面のピクセルに伝送される信号が前記第１の時間に続いて最初に変化した時間を検出するための命令を備えている、項目４２に記載の非一過性の機械読み取り可能な媒体。
（項目５２）
ユーザが発話を用いて入力を訂正することを意図したという明示的指示が前記発話の中にない場合、前記発話に基づいて、前記入力を訂正する方法であって、前記入力は、自動発話認識を使用して生成されており、前記方法は、
ユーザ入力デバイスを介して、第１の発話を受信することと、
自動発話認識を使用して、前記第１の発話に基づいて第１の入力を生成することと、
前記第１の入力に基づく検索結果を表示のために生成することと、
前記ユーザ入力デバイスを介して、第２の発話を受信することと、
前記検索結果が表示されたときと前記第２の発話が受信されたときとの間の前記ユーザ入力デバイスの加速の差が閾値加速を上回るかどうかを決定することと、
前記検索結果が表示されたときと前記第２の発話が受信されたときとの間の前記ユーザ入力デバイスの前記加速の差が前記閾値加速を上回ることを決定することに基づいて、前記第２の発話に基づいて前記第１の入力を訂正することと
を含む、方法。
（項目５３）
ユーザが発話を用いて入力を訂正することを意図したという明示的指示が前記発話の中にない場合、前記発話に基づいて、前記入力を訂正する方法であって、前記入力は、自動発話認識を使用して生成されており、前記方法は、
ユーザ入力デバイスを介して、第１の発話を受信することと、
制御回路および自動発話認識を使用して、前記第１の発話に基づいて第１の入力を決定することと、
データベースから、前記第１の入力に基づく検索結果を読み出すことと、
前記制御回路を使用して、前記検索結果を表示のために生成することと、
前記制御回路を使用して、前記検索結果が表示のために生成された第１の時間を決定することと、
前記ユーザ入力デバイスを介して、前記第１の時間における前記ユーザ入力デバイスの第１の加速を測定することと、
前記ユーザ入力デバイスを介して、前記第１の発話を受信することに続いて、第２の発話を受信することと、
前記制御回路を使用して、前記第２の発話に基づいて第２の入力を決定することと、
前記制御回路および自動発話認識を使用して、前記第２の発話が受信された第２の時間を決定することと、
前記ユーザ入力デバイスを介して、前記第１の時間と前記第２の時間との間における前記ユーザ入力デバイスの第２の加速を測定することと、
前記制御回路を使用して、前記第２の加速と前記第１の加速との間の加速の差を決定することと、
前記第２の加速と前記第１の加速との間の前記加速の差を決定することに基づいて、前記制御回路を使用して、前記加速の差を閾値加速と比較することと、
前記加速の差を前記閾値加速と比較することに基づいて、前記制御回路を使用して、前記加速の差が前記閾値加速を上回ることを決定することと、
前記加速の差が前記閾値加速を上回ることを決定することに基づいて、前記制御回路を使用して、前記第１の入力の一部を前記第２の入力の一部と置換することによって、訂正された入力を前記第１の入力に基づいて生成することと
を含む、方法。
（項目５４）
前記訂正された入力を生成することは、前記制御回路を使用して、検索結果をブラウズすることに関連付けられたいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定することにさらに基づく、項目５３に記載の方法。
（項目５５）
検索結果をブラウズすることに関連付けられたいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定することは、前記検索結果をスクロールすること、前記検索結果の説明を読むこと、前記検索結果を開くこと、または前記検索結果を再生することを行うためのいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定することを含む、項目５４に記載の方法。
（項目５６）
前記ユーザ入力デバイスを介して、前記第１の時間と前記第２の時間との間にユーザの顔の画像を捕捉することをさらに含み、
前記訂正された入力を生成することは、前記制御回路を使用して、前記画像内の前記ユーザの顔が不満な感情に関連付けられていることを決定することにさらに基づく、項目５３に記載の方法。
（項目５７）
前記ユーザ入力デバイスを介して、前記第１の発話が受信されている間にユーザの顔の第１の画像を捕捉することと、
前記制御回路を使用して、前記第１の画像内の前記ユーザの顔の第１の相対サイズを決定することと、
前記ユーザ入力デバイスを介して、前記第２の発話が受信されている間に前記ユーザの顔の第２の画像を捕捉することと、
前記制御回路を使用して、前記第２の画像内の前記ユーザの顔の第２の相対サイズを決定することと、
前記制御回路を使用して、前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の相対サイズ差を閾値相対サイズと比較することと、
前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の前記相対サイズ差を前記閾値相対サイズと比較することに基づいて、前記制御回路を使用して、前記相対サイズ差が前記閾値相対サイズを上回ることを決定することと
をさらに含み、
前記訂正された入力を生成することは、前記制御回路を使用して、前記相対サイズ差が前記閾値相対サイズを上回ることを決定することにさらに基づく、項目５３に記載の方法。
（項目５８）
前記ユーザ入力デバイスを介して、基準環境雑音レベルを測定することと、
前記ユーザ入力デバイスを介して、前記第１の発話が受信されている間の環境雑音レベルを測定することと、
前記制御回路を使用して、前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の環境雑音レベル差を閾値環境雑音レベルと比較することと、
前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の前記環境雑音レベル差を前記閾値環境雑音レベルと比較することに基づいて、前記制御回路を使用して、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定することと
をさらに含み、
前記訂正された入力を生成することは、前記制御回路を使用して、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定することにさらに基づく、項目５３に記載の方法。
（項目５９）
前記第２の発話が受信されたときの前記第２の時間を決定することは、前記ユーザ入力デバイスを介して、前記第１の時間に続く最も早い発音が受信された時間を測定することを含む、項目５３に記載の方法。
（項目６０）
前記検索結果が表示のために生成された前記第１の時間を決定することは、前記制御回路を使用して、表示画面のピクセルに伝送される信号が前記第１の時間に続いて最初に変化した時間を検出することを含む、項目５３に記載の方法。
（項目６１）
前記ユーザ入力デバイスは、加速度計を備えている携帯電話である、項目５３に記載の方法。
（項目６２）
前記第２の加速を測定することは、前記第１の時間と前記第２の時間との間における前記ユーザ入力デバイスの最大加速を測定することを含む、項目５３に記載の方法。
（項目６３）
ユーザが発話を用いて入力を訂正することを意図したという明示的指示が前記発話の中にない場合、前記発話に基づいて、前記入力を訂正するためのシステムであって、前記入力は、自動発話認識を使用して生成されており、前記システムは、
データベースを記憶しているメモリと、
制御回路と通信しているユーザ入力デバイスと
を備え、
前記制御回路は、
ユーザ入力デバイスを介して、第１の発話を受信することと、
制御回路および自動発話認識を使用して、前記第１の発話に基づいて第１の入力を決定することと、
データベースから、前記第１の入力に基づく検索結果を読み出すことと、
前記制御回路を使用して、前記検索結果を表示のために生成することと、
前記制御回路を使用して、前記検索結果が表示のために生成された第１の時間を決定することと、
前記ユーザ入力デバイスを介して、前記第１の時間における前記ユーザ入力デバイスの第１の加速を測定することと、
前記ユーザ入力デバイスを介して、前記第１の発話を受信することに続いて、第２の発話を受信することと、
前記制御回路を使用して、前記第２の発話に基づいて第２の入力を決定することと、
前記制御回路および自動発話認識を使用して、前記第２の発話が受信された第２の時間を決定することと、
前記ユーザ入力デバイスを介して、前記第１の時間と前記第２の時間との間における前記ユーザ入力デバイスの第２の加速を測定することと、
前記制御回路を使用して、前記第２の加速と前記第１の加速との間の加速の差を決定することと、
前記第２の加速と前記第１の加速との間の前記加速の差を決定することに基づいて、前記制御回路を使用して、前記加速の差を閾値加速と比較することと、
前記加速の差を前記閾値加速と比較することに基づいて、前記制御回路を使用して、前記加速の差が前記閾値加速を上回ることを決定することと、
前記加速の差が前記閾値加速を上回ることを決定することに基づいて、前記第１の入力の一部を前記第２の入力の一部と置換することによって、訂正された入力を前記第１の入力に基づいて生成することと
を行うように構成されている、システム。
（項目６４）
前記制御回路は、検索結果をブラウズすることに関連付けられたいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定することにさらに基づいて、前記訂正された入力を生成するように構成されている、項目６３に記載のシステム。
（項目６５）
前記制御回路は、検索結果をブラウズすることに関連付けられたいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定する場合、前記検索結果をスクロールすること、前記検索結果の説明を読むこと、前記検索結果を開くこと、または前記検索結果を再生することを行うためのいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定するように構成されている、項目６４に記載のシステム。
（項目６６）
前記制御回路は、前記ユーザ入力デバイスを介して、前記第１の時間と前記第２の時間との間にユーザの顔の画像を捕捉するようにさらに構成され、
前記制御回路は、前記画像内の前記ユーザの顔が不満な感情に関連付けられていることを決定することにさらに基づいて、前記訂正された入力を生成するように構成されている、項目６３に記載のシステム。
（項目６７）
前記制御回路は、
前記ユーザ入力デバイスを介して、前記第１の発話が受信されている間にユーザの顔の第１の画像を捕捉することと、
前記第１の画像内の前記ユーザの顔の第１の相対サイズを決定することと、
前記ユーザ入力デバイスを介して、前記第２の発話が受信されている間に前記ユーザの顔の第２の画像を捕捉することと、
前記第２の画像内の前記ユーザの顔の第２の相対サイズを決定することと、
前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の相対サイズ差を閾値相対サイズと比較することと、
前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の前記相対サイズ差を前記閾値相対サイズと比較することに基づいて、前記相対サイズ差が前記閾値相対サイズを上回ることを決定することと
を行うようにさらに構成され、
前記制御回路は、前記相対サイズ差が前記閾値相対サイズを上回ることを決定することにさらに基づいて、前記訂正された入力を生成するように構成されている、項目６３に記載のシステム。
（項目６８）
前記制御回路は、
前記ユーザ入力デバイスを介して、基準環境雑音レベルを測定することと、
前記ユーザ入力デバイスを介して、前記第１の発話が受信されている間の環境雑音レベルを測定することと、
前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の環境雑音レベル差を閾値環境雑音レベルと比較することと、
前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の前記環境雑音レベル差を前記閾値環境雑音レベルと比較することに基づいて、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定することと
を行うようにさらに構成され、
前記制御回路は、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定することにさらに基づいて、前記訂正された入力を生成するように構成されている、項目６３に記載のシステム。
（項目６９）
前記制御回路は、前記第２の発話が受信されたときの前記第２の時間を決定する場合、前記ユーザ入力デバイスを介して、前記第１の時間に続く最も早い発音が受信された時間を測定するように構成されている、項目６３に記載のシステム。
（項目７０）
前記制御回路は、前記検索結果が表示のために生成された前記第１の時間を決定する場合、表示画面のピクセルに伝送される信号が前記第１の時間に続いて最初に変化した時間を検出するように構成されている、項目６３に記載のシステム。
（項目７１）
前記ユーザ入力デバイスは、加速度計を備えている携帯電話である、項目６３に記載のシステム。
（項目７２）
前記制御回路は、前記第２の加速を測定する場合、前記第１の時間と前記第２の時間との間における前記ユーザ入力デバイスの最大加速を測定するように構成されている、項目６３に記載のシステム。
（項目７３）
ユーザが発話を用いて入力を訂正することを意図したという明示的指示が前記発話の中にない場合、前記発話に基づいて、前記入力を訂正する方法であって、前記入力は、自動発話認識を使用して生成されており、前記方法は、
ユーザ入力デバイスを介して、第１の発話を受信することと、
制御回路および自動発話認識を使用して、前記第１の発話に基づいて第１の入力を決定することと、
データベースから、前記制御回路を使用して、前記第１の入力に基づく検索結果を読み出すことと、
前記制御回路を使用して、前記検索結果を表示のために生成することと、
前記制御回路を使用して、前記検索結果が表示のために生成された第１の時間を決定することと、
前記ユーザ入力デバイスを介して、前記第１の時間における前記ユーザ入力デバイスの第１の加速を測定することと、
前記ユーザ入力デバイスを介して、前記第１の発話を受信することに続いて、第２の発話を受信することと、
前記制御回路を使用して、前記第２の発話に基づいて第２の入力を決定することと、
前記制御回路および自動発話認識を使用して、前記第２の発話が受信された第２の時間を決定することと、
前記ユーザ入力デバイスを介して、前記第１の時間と前記第２の時間との間における前記ユーザ入力デバイスの第２の加速を測定することと、
前記制御回路を使用して、前記第２の加速と前記第１の加速との間の加速の差を決定することと、
前記第２の加速と前記第１の加速との間の前記加速の差を決定することに基づいて、前記制御回路を使用して、前記加速の差を閾値加速と比較することと、
前記加速の差を前記閾値加速と比較することに基づいて、前記制御回路を使用して、前記加速の差が前記閾値加速を上回ることを決定することと、
前記加速の差が前記閾値加速を上回ることを決定することに基づいて、前記制御回路を使用して、前記第１の入力の一部を前記第２の入力の一部と置換することによって、訂正された入力を前記第１の入力に基づいて生成することと
を含む、方法。
（項目７４）
前記訂正された入力を生成することは、前記制御回路を使用して、検索結果をブラウズすることに関連付けられたいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定することにさらに基づく、項目７３に記載の方法。
（項目７５）
検索結果をブラウズすることに関連付けられたいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定することは、前記検索結果をスクロールすること、前記検索結果の説明を読むこと、前記検索結果を開くこと、または前記検索結果を再生することを行うためのいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定することを含む、項目７４に記載の方法。
（項目７６）
前記ユーザ入力デバイスを介して、前記第１の時間と前記第２の時間との間にユーザの顔の画像を捕捉することをさらに含み、
前記訂正された入力を生成することは、前記制御回路を使用して、前記画像内の前記ユーザの顔が不満な感情に関連付けられていることを決定することにさらに基づく、項目７３－７５のいずれかに記載の方法。
（項目７７）
前記ユーザ入力デバイスを介して、前記第１の発話が受信されている間にユーザの顔の第１の画像を捕捉することと、
前記制御回路を使用して、前記第１の画像内の前記ユーザの顔の第１の相対サイズを決定することと、
前記ユーザ入力デバイスを介して、前記第２の発話が受信されている間に前記ユーザの顔の第２の画像を捕捉することと、
前記制御回路を使用して、前記第２の画像内の前記ユーザの顔の第２の相対サイズを決定することと、
前記制御回路を使用して、前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の相対サイズ差を閾値相対サイズと比較することと、
前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の前記相対サイズ差を前記閾値相対サイズと比較することに基づいて、前記制御回路を使用して、前記相対サイズ差が前記閾値相対サイズを上回ることを決定することと
をさらに含み、
前記訂正された入力を生成することは、前記制御回路を使用して、前記相対サイズ差が前記閾値相対サイズを上回ることを決定することにさらに基づく、項目７３－７６のいずれかに記載の方法。
（項目７８）
前記ユーザ入力デバイスを介して、基準環境雑音レベルを測定することと、
前記ユーザ入力デバイスを介して、前記第１の発話が受信されている間の環境雑音レベルを測定することと、
前記制御回路を使用して、前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の環境雑音レベル差を閾値環境雑音レベルと比較することと、
前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の前記環境雑音レベル差を前記閾値環境雑音レベルと比較することに基づいて、前記制御回路を使用して、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定することと
をさらに含み、
前記訂正された入力を生成することは、前記制御回路を使用して、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定することにさらに基づく、項目７３－７７のいずれかに記載の方法。
（項目７９）
前記第２の発話が受信されたときの前記第２の時間を決定することは、前記ユーザ入力デバイスを介して、前記第１の時間に続く最も早い発音が受信された時間を測定することを含む、項目７３－７８のいずれかに記載の方法。
（項目８０）
前記検索結果が表示のために生成された前記第１の時間を決定することは、前記制御回路を使用して、表示画面のピクセルに伝送される信号が前記第１の時間に続いて最初に変化した時間を検出することを含む、項目７３－７９のいずれかに記載の方法。
（項目８１）
前記ユーザ入力デバイスは、加速度計を備えている携帯電話である、項目７３－８０のいずれかに記載の方法。
（項目８２）
前記第２の加速を測定することは、前記第１の時間と前記第２の時間との間における前記ユーザ入力デバイスの最大加速を測定することを含む、項目７３－８１のいずれかに記載の方法。
（項目８３）
ユーザが発話を用いて入力を訂正することを意図したという明示的指示が前記発話の中にない場合、前記発話に基づいて、入力を訂正するための装置であって、前記入力は、自動発話認識を使用して生成されており、前記装置は、
ユーザ入力デバイスを介して、第１の発話を受信する手段と、
制御回路および自動発話認識を使用して、前記第１の発話に基づいて第１の入力を決定する手段と、
データベースから、前記第１の入力に基づく検索結果を読み出す手段と、
前記制御回路を使用して、前記検索結果を表示のために生成する手段と、
前記制御回路を使用して、前記検索結果が表示のために生成された第１の時間を決定する手段と、
前記ユーザ入力デバイスを介して、前記第１の時間における前記ユーザ入力デバイスの第１の加速を測定する手段と、
前記ユーザ入力デバイスを介して、前記第１の発話を受信することに続いて、第２の発話を受信する手段と、
前記制御回路を使用して、前記第２の発話に基づいて第２の入力を決定する手段と、
前記制御回路および自動発話認識を使用して、前記第２の発話が受信された第２の時間を決定する手段と、
前記ユーザ入力デバイスを介して、前記第１の時間と前記第２の時間との間における前記ユーザ入力デバイスの第２の加速を測定する手段と、
前記制御回路を使用して、前記第２の加速と前記第１の加速との間の加速の差を決定する手段と、
前記第２の加速と前記第１の加速との間の前記加速の差を決定することに基づいて、前記制御回路を使用して、前記加速の差を閾値加速と比較する手段と、
前記加速の差を前記閾値加速と比較することに基づいて、前記制御回路を使用して、前記加速の差が前記閾値加速を上回ることを決定する手段と、
前記加速の差が前記閾値加速を上回ることを決定することに基づいて、前記制御回路を使用して、前記第１の入力の一部を前記第２の入力の一部と置換することによって、訂正された入力を前記第１の入力に基づいて生成する手段と
を備えている、装置。
（項目８４）
前記訂正された入力を生成する前記手段は、前記制御回路を使用して、検索結果をブラウズすることに関連付けられたいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定することにさらに基づいて、前記訂正された入力を生成する手段を備えている、項目８３に記載の装置。
（項目８５）
検索結果をブラウズすることに関連付けられたいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定する前記手段は、前記検索結果をスクロールすること、前記検索結果の説明を読むこと、前記検索結果を開くこと、または前記検索結果を再生することを行うためのいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定する手段を備えている、項目８４に記載の装置。
（項目８６）
前記ユーザ入力デバイスを介して、前記第１の時間と前記第２の時間との間にユーザの顔の画像を捕捉する手段をさらに備え、
前記訂正された入力を生成する前記手段は、前記制御回路を使用して、前記画像内の前記ユーザの顔が不満な感情に関連付けられていることを決定することにさらに基づいて、前記訂正された入力を生成する手段を備えている、項目８３に記載の装置。
（項目８７）
前記ユーザ入力デバイスを介して、前記第１の発話が受信されている間にユーザの顔の第１の画像を捕捉する手段と、
前記制御回路を使用して、前記第１の画像内の前記ユーザの顔の第１の相対サイズを決定する手段と、
前記ユーザ入力デバイスを介して、前記第２の発話が受信されている間に前記ユーザの顔の第２の画像を捕捉する手段と、
前記制御回路を使用して、前記第２の画像内の前記ユーザの顔の第２の相対サイズを決定する手段と、
前記制御回路を使用して、前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の相対サイズ差を閾値相対サイズと比較する手段と、
前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の前記相対サイズ差を前記閾値相対サイズと比較することに基づいて、前記制御回路を使用して、前記相対サイズ差が前記閾値相対サイズを上回ることを決定する手段と
をさらに備え、
前記訂正された入力を生成する前記手段は、前記制御回路を使用して、前記相対サイズ差が前記閾値相対サイズを上回ることを決定することにさらに基づいて、前記訂正された入力を生成する手段を備えている、項目８３に記載の装置。
（項目８８）
前記ユーザ入力デバイスを介して、基準環境雑音レベルを測定する手段と、
前記ユーザ入力デバイスを介して、前記第１の発話が受信されている間の環境雑音レベルを測定する手段と、
前記制御回路を使用して、前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の環境雑音レベル差を閾値環境雑音レベルと比較する手段と、
前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の前記環境雑音レベル差を前記閾値環境雑音レベルと比較することに基づいて、前記制御回路を使用して、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定する手段と
をさらに備え、
前記訂正された入力を生成する前記手段は、前記制御回路を使用して、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定することにさらに基づいて、前記訂正された入力を生成する手段を備えている、項目８３に記載の装置。
（項目８９）
前記第２の発話が受信されたときの前記第２の時間を決定する前記手段は、前記ユーザ入力デバイスを介して、前記第１の時間に続く最も早い発音が受信された時間を測定する手段を備えている、項目８３に記載の装置。
（項目９０）
前記検索結果が表示のために生成された前記第１の時間を決定する前記手段は、前記制御回路を使用して、表示画面のピクセルに伝送される信号が前記第１の時間に続いて最初に変化した時間を検出する手段を備えている、項目８３に記載の装置。
（項目９１）
前記ユーザ入力デバイスは、加速度計を備えている携帯電話である、項目８３に記載の装置。
（項目９２）
前記第２の加速を測定する前記手段は、前記第１の時間と前記第２の時間との間における前記ユーザ入力デバイスの最大加速を測定する手段を備えている、項目８３に記載の装置。
（項目９３）
エンコードされた命令を有するメモリを備えている非一過性の機械読み取り可能な媒体であって、前記命令は、ユーザが発話を用いて入力を訂正することを意図したという明示的指示が前記発話の中にない場合、前記発話に基づいて、前記入力を訂正するためのものであり、前記入力は、自動発話認識を使用して生成されており、前記非一過性の機械読み取り可能な媒体は、
ユーザ入力デバイスを介して、第１の発話を受信するための命令と、
制御回路および自動発話認識を使用して、前記第１の発話に基づいて第１の入力を決定するための命令と、
データベースから、前記第１の入力に基づく検索結果を読み出すための命令と、
前記制御回路を使用して、前記検索結果を表示のために生成するための命令と、
前記制御回路を使用して、前記検索結果が表示のために生成された第１の時間を決定するための命令と、
前記ユーザ入力デバイスを介して、前記第１の時間における前記ユーザ入力デバイスの第１の加速を測定するための命令と、
前記ユーザ入力デバイスを介して、前記第１の発話を受信することに続いて、第２の発話を受信するための命令と、
前記制御回路を使用して、前記第２の発話に基づいて第２の入力を決定するための命令と、
前記制御回路および自動発話認識を使用して、前記第２の発話が受信された第２の時間を決定するための命令と、
前記ユーザ入力デバイスを介して、前記第１の時間と前記第２の時間との間における前記ユーザ入力デバイスの第２の加速を測定するための命令と、
前記制御回路を使用して、前記第２の加速と前記第１の加速との間の加速の差を決定するための命令と、
前記第２の加速と前記第１の加速との間の前記加速の差を決定することに基づいて、前記制御回路を使用して、前記加速の差を閾値加速と比較するための命令と、
前記加速の差を前記閾値加速と比較することに基づいて、前記制御回路を使用して、前記加速の差が前記閾値加速を上回ることを決定するための命令と、
前記加速の差が前記閾値加速を上回ることを決定することに基づいて、前記制御回路を使用して、前記第１の入力の一部を前記第２の入力の一部と置換することによって、訂正された入力を前記第１の入力に基づいて生成するための命令と
を備えている、非一過性の機械読み取り可能な媒体。
（項目９４）
前記訂正された入力を生成するための前記命令は、前記制御回路を使用して、検索結果をブラウズすることに関連付けられたいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定することにさらに基づいて、前記訂正された入力を生成するための命令を備えている、項目９３に記載の非一過性の機械読み取り可能な媒体。
（項目９５）
検索結果をブラウズすることに関連付けられたいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定するための前記命令は、前記検索結果をスクロールすること、前記検索結果の説明を読むこと、前記検索結果を開くこと、または前記検索結果を再生することを行うためのいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定するための命令を備えている、項目９４に記載の非一過性の機械読み取り可能な媒体。
（項目９６）
前記ユーザ入力デバイスを介して、前記第１の時間と前記第２の時間との間にユーザの顔の画像を捕捉するための命令をさらに備え、
前記訂正された入力を生成するための前記命令は、前記制御回路を使用して、前記画像内の前記ユーザの顔が不満な感情に関連付けられていることを決定することにさらに基づいて、前記訂正された入力を生成するための命令を備えている、項目９３に記載の非一過性の機械読み取り可能な媒体。
（項目９７）
前記ユーザ入力デバイスを介して、前記第１の発話が受信されている間にユーザの顔の第１の画像を捕捉するための命令と、
前記制御回路を使用して、前記第１の画像内の前記ユーザの顔の第１の相対サイズを決定するための命令と、
前記ユーザ入力デバイスを介して、前記第２の発話が受信されている間に前記ユーザの顔の第２の画像を捕捉するための命令と、
前記制御回路を使用して、前記第２の画像内の前記ユーザの顔の第２の相対サイズを決定するための命令と、
前記制御回路を使用して、前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の相対サイズ差を閾値相対サイズと比較するための命令と、
前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の前記相対サイズ差を前記閾値相対サイズと比較することに基づいて、前記制御回路を使用して、前記相対サイズ差が前記閾値相対サイズを上回ることを決定するための命令と
をさらに備え、
前記訂正された入力を生成するための前記命令は、前記制御回路を使用して、前記相対サイズ差が前記閾値相対サイズを上回ることを決定することにさらに基づいて、前記訂正された入力を生成するための命令を備えている、項目９３に記載の非一過性の機械読み取り可能な媒体。
（項目９８）
前記ユーザ入力デバイスを介して、基準環境雑音レベルを測定するための命令と、
前記ユーザ入力デバイスを介して、前記第１の発話が受信されている間の環境雑音レベルを測定するための命令と、
前記制御回路を使用して、前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の環境雑音レベル差を閾値環境雑音レベルと比較するための命令と、
前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の前記環境雑音レベル差を前記閾値環境雑音レベルと比較することに基づいて、前記制御回路を使用して、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定するための命令と
をさらに備え、
前記訂正された入力を生成するための前記命令は、前記制御回路を使用して、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定することにさらに基づいて、前記訂正された入力を生成するための命令を備えている、項目９３に記載の非一過性の機械読み取り可能な媒体。
（項目９９）
前記第２の発話が受信されたときの前記第２の時間を決定するための前記命令は、前記ユーザ入力デバイスを介して、前記第１の時間に続く最も早い発音が受信された時間を測定するための命令を備えている、項目９３に記載の非一過性の機械読み取り可能な媒体。
（項目１００）
前記検索結果が表示のために生成された前記第１の時間を決定するための前記命令は、前記制御回路を使用して、表示画面のピクセルに伝送される信号が前記第１の時間に続いて最初に変化した時間を検出するための命令を備えている、項目９３に記載の非一過性の機械読み取り可能な媒体。
（項目１０１）
前記ユーザ入力デバイスは、加速度計を備えている携帯電話である、項目９３に記載の非一過性の機械読み取り可能な媒体。
（項目１０２）
前記第２の加速を測定するための前記命令は、前記第１の時間と前記第２の時間との間における前記ユーザ入力デバイスの最大加速を測定するための命令を備えている、項目９３に記載の非一過性の機械読み取り可能な媒体。

本開示の上記および他の目的ならびに利点は、同様の参照文字が全体を通して同様の部分を指す、添付の図面と併せて考慮される、以下の発明を実施するための形態の検討から明白となるであろう。

図１は、本開示のいくつかの実施形態による、メディアガイドアプリケーションが、後続の第２の発話に基づいて、ユーザが第２の発話で第１の入力を訂正することを意図したという第２の発話の中の明示的指示がない場合、自動発話認識を使用して第１の発話から生成される第１の入力のエラーを訂正し得る方法の例証的実施例を示す。

図２は、本開示のいくつかの実施形態による、メディアガイドアプリケーションが、後続の第２の発話に基づいて、ユーザが第２の発話で第１の入力を訂正することを意図したという第２の発話の中の明示的指示がない場合、自動発話認識を使用して第１の発話から生成される第１の入力のエラーを訂正し得る方法の例証的実施例を示す。

図３は、本開示のいくつかの実施形態による、メディアガイドアプリケーションリスト項目および他のメディアガイド情報を提供するために使用され得る、表示画面の例証的実施形態を示す。

図４は、本開示のいくつかの実施形態による、メディアガイドアプリケーションリスト項目を提供するために使用され得る、表示画面の別の例証的実施形態を示す。

図５は、本開示のいくつかの実施形態による、例証的ユーザ機器デバイス（ＵＥ）のブロック図を示す。

図６は、本開示のいくつかの実施形態による、例証的メディアシステムのブロック図を示す。

図７は、本開示のいくつかの実施形態による、後続の第２の発話に基づいて、ユーザが第２の発話で第１の入力を訂正することを意図したという第２の発話の中の明示的指示がない場合、自動発話認識を使用して第１の発話から生成される第１の入力のエラーを訂正するためのプロセスの例証的フローチャートを描写する。

図８は、本開示のいくつかの実施形態による、後続の第２の発話に基づいて、ユーザが第２の発話で第１の入力を訂正することを意図したという第２の発話の中の明示的指示がない場合、自動発話認識を使用して第１の発話から生成される第１の入力のエラーを訂正するためのプロセスの例証的フローチャートを描写する。

図９は、本開示のいくつかの実施形態による、画像内の顔の相対サイズを決定することの例証的実施例を示す。

図１０は、本開示のいくつかの実施形態による、画像内の顔の相対サイズを決定するためのプロセスの例証的擬似コードを示す。

後続の第２の発話に基づいて、ユーザが第２の発話で入力を訂正することを意図したという第２の発話の中の明示的指示を伴わずに、自動発話認識を使用して第１の発話から生成される入力のエラーを訂正する方法およびシステムが、説明され、入力に応答した検索結果が表示されたときと第２の発話が受信されたときとの間の時間差が閾値時間未満であることを決定することと、決定に基づいて、第２の発話に基づいて入力を訂正するステップとを含む。方法およびシステムはまた、入力に応答した検索結果が表示されたときと第２の発話が受信されたときとの間の第１の発話および第２の発話を入力するために使用されるユーザ入力デバイスの加速の差が、閾値加速未満であることを決定することと、決定に基づいて、第２の発話に基づいて入力を訂正するステップとを含む。

例えば、ユーザが「オースティンについての番組を見せて」と話し、メディアガイドアプリケーションが（「オースティン」を「ボストン」として不正確に認識したため）ボストンについての番組を含む検索結果を提示する場合、ユーザは、迅速に「オースティン」と話し得る。メディアガイドアプリケーションは、検索結果が提示された後にユーザが迅速に「オースティン」と話した程度に基づいて、ユーザが「オースティン」と話すことによって不正確に認識された「ボストン」を訂正することを意図したと決定し得る。認識エラーが存在しなかった場合、ユーザは、検索結果を精査するためにより長い時間を要し得る。別の実施例として、ユーザが「オースティンについての番組を見せて」とユーザ入力デバイス（例えば、携帯電話）に話し掛け、メディアガイドアプリケーションが（「オースティン」を「ボストン」として不正確に認識したため）ボストンについての番組を含む検索結果を提示する場合、ユーザは、正確な発話認識を補助しようとして、ユーザ入力デバイスを自分の口に近づけた後に「オースティン」と話し得る。ユーザの口に近づけられたことに応じたユーザ入力デバイスの加速は、ユーザが「オースティン」と話すことによって不正確に認識された「ボストン」を訂正することを意図したと決定するためにメディアガイドアプリケーションによって使用されることができる。

図１は、メディアガイドアプリケーションが、後続の第２の発話１１６に基づいて、ユーザが第２の発話１１６で第１の入力１０８を訂正することを意図したという第２の発話の中の明示的指示がない場合、自動発話認識を使用して第１の発話１０６から生成される第１の入力１０８のエラーを訂正し得る方法の例証的実施例を示す。図１は、３つの時間１０４、１１０、および１１４がマークされた時間軸１０２を含む。時間１０４では、ユーザは、図１の実施例では「オースティンについての番組を見せて」である、第１の発話１０６を話す。メディアガイドアプリケーションは、自動発話認識を使用し、第１の発話１０６に基づいて、図１の実施例では「ボストンについての番組を見せて」である、第１の入力１０８を生成し得る。故に、図１の実施例では、メディアガイドアプリケーションは、第１の発話１０６の中の「オースティン」を「ボストン」として不正確に認識した。第１の時間１１０では、メディアガイドアプリケーションは、図１の実施例ではボストンについての番組である、検索結果１１２を表示のために生成することによって、第１の入力１０８に応答する。第２の時間１１４では、ユーザは、図１の実施例では「オースティン」である、第２の発話１１６を話す。メディアガイドアプリケーションは、自動発話認識を使用し、第２の発話１１６に基づいて、図１の実施例では「オースティン」である、第２の入力１２０を生成し得る。故に、図１の実施例では、メディアガイドアプリケーションは、第２の発話１１６の中の「オースティン」を正確に認識した。第２の発話１１６を話すことによって、ユーザは、第２の発話１１６で第１の入力１０８のエラーを訂正しようとしている場合がある。図１の実施例では、ユーザは、第２の発話１１６の「オースティン」で、第１の発話１０６から不正確に生成された第１の入力１０８の中の「ボストン」を訂正しようとしている場合がある。しかしながら、第２の発話１１６は、ユーザが第２の発話１１６で第１の入力１０８のエラーを訂正することを意図するかどうか、またはユーザが、例えば、新しい検索を開始するか、もしくは前もって提示された検索結果１１２をフィルタ処理するかどうかという明示的指示が欠如し得る。例えば、図１では、第２の発話１１６は、ユーザが「オースティン」で「ボストン」を訂正することを意図するという明示的指示を表し得る、「そうではなくて」または「言おうとしたのは～」等の語句が欠如する。本曖昧性を解決するために、メディアガイドアプリケーションは、ユーザが第２の発話１１６（図１の実施例では「オースティン」）を話した第２の時間１１４とメディアガイドアプリケーションが検索結果１１２（図１の実施例では、ボストンについての番組）を表示のために生成した第１の時間１１０との間の時間差１１８を計算し得る。メディアガイドアプリケーションは、時間差１１８を閾値時間と比較し、時間差１１８が閾値時間未満である場合、ユーザが第２の発話１１６で第１の入力１０８を訂正することを意図したと予測し得る。故に、メディアガイドアプリケーションは、第１の入力１０８の一部を第２の入力１２０の一部と置換することによって、第１の入力１０８に基づいて訂正された入力１２２を生成し得る。図１では、例えば、メディアガイドアプリケーションは、第１の入力１０８の中の「ボストン」を第２の入力１２０からの「オースティン」と置換し、訂正された入力１２２を生成し得る。

ユーザが第２の発話１１６（図１の実施例では「オースティン」）を話した第２の時間１１４と、第１の時間１１０、すなわち、メディアガイドアプリケーションが検索結果１１２（図１の実施例では、ボストンについての番組）を提示した時間との間の時間差１１８を計算することは、時間差１１８が、ユーザが第２の発話１１６で第１の入力１０８を訂正する（図１の実施例では、「オースティン」で「ボストン」を訂正する）ことを意図したかどうかを示し得るため、役立ち得る。第１の入力１０８のエラーがない場合、ユーザは、検索結果１１２が第１の時間１１０において表示のために生成された後に、後続の入力を話すために第１の入力１０８のエラーがある場合よりも長い時間を要し得る。図１の実施例では、「ボストン」が正確に認識された場合、ユーザは、検索結果１１２をスクロールする、検索結果１１２の説明を読む、検索結果１１２を開く、検索結果１１２を再生する等のために、長い時間量（すなわち、閾値時間を上回る時間量）を要し得る。しかしながら、「ボストン」が正確に認識された場合、ユーザは、短い時間量（すなわち、閾値時間よりも小さい時間量）で、検索結果１１２が第１の発話１０６の中で要求されたもの、すなわち、オースティンについての番組に合致しないことに気付き得る。故に、ユーザは、検索結果１１２をスクロールする、検索結果１１２の説明を読む、検索結果１１２を開く、検索結果１１２を再生する等のために、長い時間量を要さないこともある。代わりに、ユーザは、第２の発話１１６を話し、検索結果１１２を見た後にすぐに（すなわち、閾値時間よりも小さい時間量）第１の入力１０８のエラーを訂正し得る。したがって、時間差１１８を閾値時間と比較することは、ユーザが第２の発話１１６で第１の入力１０８を訂正することを意図したかどうかを示すことができる。

図２は、メディアガイドアプリケーションが、後続の第２の発話２１６に基づいて、ユーザが第２の発話２１６で第１の入力２０８を訂正することを意図したという第２の発話２１６の中の明示的指示がない場合、自動発話認識を使用して第１の発話２０６から生成される第１の入力２０８のエラーを訂正し得る方法の例証的実施例を示す。図２は、３つの時間２０４、２１０、および２１４がマークされた時間軸２０２を含む。図２はまた、２つの加速、すなわち、第１の加速２１３および第２の加速２１７がマークされた、ユーザの発話を受信するユーザ入力デバイスの加速を示す、加速軸２０３も含む。加速軸２０４上に示される加速は、３次元空間内の単一の方向へのユーザ入力デバイスの加速であり得る。時間２０４では、ユーザは、図２の実施例では「オースティンについての番組を見せて」である、第１の発話２０６を話す。メディアガイドアプリケーションは、自動発話認識を使用し、第１の発話２０６に基づいて、図２の実施例では「ボストンについての番組を見せて」である、第１の入力２０８を生成し得る。故に、図２の実施例では、メディアガイドアプリケーションは、第１の発話２０６の中の「オースティン」を「ボストン」として不正確に認識した。第１の時間２１０では、メディアガイドアプリケーションは、図２の実施例ではボストンについての番組である、検索結果２１２を表示のために生成することによって、第１の入力２０８に応答する。第２の時間２１４では、ユーザは、図２の実施例では「オースティン」である、第２の発話２１６を話す。メディアガイドアプリケーションは、自動発話認識を使用し、第２の発話２１６に基づいて、図２の実施例では「オースティン」である、第２の入力２２０を生成し得る。第２の発話２１６を話すことによって、ユーザは、第２の発話２１６で第１の入力２０８のエラーを訂正しようとしている場合がある。図２の実施例では、ユーザは、第２の発話２１６の「オースティン」で、第１の発話２０６から不正確に生成された第１の入力２０８の中の「ボストン」を訂正しようとしている場合がある。しかしながら、第２の発話２１６は、ユーザが第２の発話２１６で第１の入力２０８のエラーを訂正することを意図するかどうか、またはユーザが、例えば、新しい検索を開始するか、もしくは前もって提示された検索結果２１２をフィルタ処理するかどうかという明示的指示が欠如し得る。例えば、図２では、第２の発話２１６は、ユーザが「オースティン」で「ボストン」を訂正することを意図するという明示的指示を表し得る、「そうではなくて」または「言おうとしたのは～」等の語句が欠如する。本曖昧性を解決するために、メディアガイドアプリケーションは、ユーザが第２の発話２１６（図２の実施例では「オースティン」）を話した第２の時間２１４とメディアガイドアプリケーションが検索結果２１２（図２の実施例では、ボストンについての番組）を表示のために生成した第１の時間２１０との間のユーザ入力デバイスの加速の差２１８を計算し得る。例えば、図２では、メディアガイドアプリケーションは、第２の加速２１７と第１の加速２１３との間の加速の差２１８を計算し得る。メディアガイドアプリケーションは、加速の差２１８を閾値時間と比較し、加速の差２１８が閾値時間を上回る場合、ユーザが第２の発話２１６で第１の入力２０８を訂正することを意図したと予測し得る。故に、メディアガイドアプリケーションは、第１の入力２０８の一部を第２の入力２２０の一部と置換することによって、第１の入力２０８および第２の入力２２０に基づいて、訂正された入力２２２を生成し得る。図２では、例えば、メディアガイドアプリケーションは、第１の入力２０８の中の「ボストン」を第２の入力２２０からの「オースティン」と置換し、訂正された入力２２２を生成し得る。

ユーザが第２の発話２１６（図２の実施例では、「オースティン」）を話した第２の時間２１４と、第１の時間２１０、すなわち、メディアガイドアプリケーションが検索結果２１２（図２の実施例では、ボストンについての番組）を提示した時間との間のユーザ入力デバイスの加速の差２１８を計算することは、加速の差２１８が、ユーザが第２の発話２１６で第１の入力２０８を訂正する（図２の実施例では、「オースティン」で「ボストン」を訂正する）ことを意図したかどうかを示し得るため、役立ち得る。第１の発話２０６の中で要求されたものに合致しない検索結果２１２によって証明されるように、第１の入力２０８のエラーがある場合、ユーザは、ユーザ入力デバイスが第２の発話２１６をより正確に検出し、第２の発話２１６を正確に認識する可能性が高いことを可能にする意図を持って、ユーザ入力デバイスを自分の口に近づけ得る。ユーザ入力デバイスをユーザの口に近づけることは、閾値加速を超える第１の時間２１０と第２の時間２１４との間のユーザ入力デバイスの加速の差として検出されることができる。したがって、加速の差２１８を閾値加速と比較することは、ユーザが第２の発話２１６で第１の入力２０８を訂正することを意図したかどうかを示すことができる。

以下の説明は、メディアガイドアプリケーションが、後続の第２の発話に基づいて、ユーザが第２の発話で第１の入力を訂正することを意図したという第２の発話の中の明示的指示がない場合、自動発話認識を使用して第１の発話から生成される第１の入力のエラーを訂正し得る方法をより詳細に説明するであろう。

いくつかの実施形態では、メディアガイドアプリケーションは、時間の差を決定することに基づいて、訂正された入力を生成し得る。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイス（例えば、ユーザ入力インターフェース５１０、無線ユーザ通信デバイス６０６）を介して、第１の発話１０６を受信し得る。第１の発話１０６は、例えば、ユーザによって話された言葉を含み得る。第１の発話１０６は、メディアアセット等の項目の検索を開始することをユーザによって意図され得る。例えば、第１の発話１０６は、「オースティンについての番組を見せて」であり得る。

いくつかの実施形態では、メディアガイドアプリケーションは、自動発話認識を使用して、第１の発話１０６に基づいて第１の入力１０８を決定し得る。例えば、メディアガイドアプリケーションは、Ｇａｉｋｗａｄ，ＳａｎｔｏｓｈＫ．，ＢｈａｒｔｉＷ．Ｇａｗａｌｉ，ａｎｄＰｒａｖｉｎＹａｎｎａｗａｒ． “Ａｒｅｖｉｅｗｏｎｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｔｅｃｈｎｉｑｕｅ．” ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ１０．３（２０１０）：１６－２４（その開示がその全体として参照することによって本明細書に組み込まれる）に説明されるもの等の公知の自動発話認識技法を使用して、第１の発話１０６をテキストに変換することによって、第１の入力１０８を決定し得る。例えば、第１の発話１０６が「オースティンについての番組を見せて」である場合、メディアガイドアプリケーションは、第１の入力１０８を「ボストンについての番組を見せて」であると決定し、それによって、第１の発話１０６の中の「オースティン」を「ボストン」として不正確に認識し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、（例えば、通信ネットワーク６１４を通してメディアコンテンツソース６１６またはメディアガイドデータソース６１８から、もしくは記憶装置５０８からデータベースを読み出すことによって）データベースから第１の入力１０８に基づいて検索結果１１２を読み出し得る。データベースは、例えば、情報リポジトリを含み得る。情報リポジトリから検索結果１１２を読み出すために、メディアガイドアプリケーションは、米国特許第８，５７７，６７１号（その開示がその全体として参照することによって本明細書に組み込まれる）に説明されるもの等の公知の情報読出技法を使用し得る。いくつかの実施形態では、検索結果１１２は、１つだけの検索結果を含み得る。

いくつかの実施形態では、メディアガイドアプリケーションは、検索結果１１２を（例えば、ディスプレイ５１２上に）表示のために生成し得る。例えば、第１の入力１０８が「ボストンについての番組を見せて」である場合、メディアガイドアプリケーションは、ボストンで行われているテレビ番組Ｆｒｉｎｇｅのリスト項目（例えば、リスト項目３０８、４０６、４０８、４１０、または４１２）を読み出し、表示のために生成し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、検索結果１１２が表示のために生成された第１の時間１１０を決定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、表示画面（例えば、ディスプレイ５１２）のピクセルに伝送される信号（例えば、処理回路５０６から）が第１の時間１１０に続いて最初に変化する時間を検出することによって、第１の時間１１０を決定し得る。いくつかの実施形態では、表示画面のピクセルに伝送される信号は、表示画面を変化させ、例えば、新しい項目を表示させる。例えば、第１の発話１０６が受信されるとき、表示画面のピクセルに伝送される信号は、いかなる結果もまだ読み出されていないため変化しなくてもよい。しかしながら、検索結果１１２が読み出され、表示画面上に表示される準備ができると、表示画面のピクセルに伝送される信号は、検索結果１１２を表示するために変化し得る。表示画面のピクセルに伝送される信号が変化するときに、第１の発話１０６が受信された後の初期時間は、表示されている検索結果１１２を表し得る。したがって、表示画面のピクセルに伝送される信号が変化するときに、第１の発話１０６が受信された後の初期時間は、検索結果１１２が表示のために生成された第１の時間１１０と見なされることができる。いくつかの実施形態では、メディアガイドアプリケーションは、第１の時間１１０を決定するときに、検索結果１１２に関連付けられないクロック、カーソル、および他の項目等の項目の表示の変化を表す、表示画面のピクセルに伝送される信号の変化を無視し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の発話１０６を受信するステップに続いて、第２の発話１１６を受信し得る。第２の発話１１６は、例えば、ユーザによって話された言葉を含み得る。第２の発話１１６は、メディアガイドアプリケーションによって不正確に認識された第１の入力１０８の一部を訂正することをユーザによって意図され得る。例えば、ユーザは、第１の発話１０６に合致しない検索結果１１２に基づいて、メディアガイドが第１の発話１０６の一部を不正確に認識したことを決定し得る。例えば、検索結果１１２がボストンについての番組を含む場合、ユーザは、メディアガイドアプリケーションが、第１の発話１０６（「オースティンについての番組を見せて」）に応答して、第１の入力１０８として「ボストンについての番組を見せて」を不正確に生成したことを決定し得る。故に、第２の発話１１６は、ユーザが「ボストン」を「オースティン」に訂正することを意図する、「オースティン」であり得る。第２の発話１１６は、ユーザが第２の発話１１６で第１の入力１０８のエラーを訂正することを意図するかどうか、またはユーザが、例えば、新しい検索を開始するか、もしくは前もって提示された検索結果１１２を第２の発話１１６でフィルタ処理することを意図するかどうかという明示的指示が欠如し得る。例えば、第２の発話１１６は、ユーザが第１の入力１０８を訂正することを意図するという明示的指示を表し得る、「そうではなくて」または「言おうとしたのは～」等の語句が欠如し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、自動発話認識を使用して、第２の発話１１６に基づいて第２の入力１２０を決定し得る。例えば、メディアガイドアプリケーションは、Ｇａｉｋｗａｄ，ＳａｎｔｏｓｈＫ．，ＢｈａｒｔｉＷ．Ｇａｗａｌｉ，ａｎｄＰｒａｖｉｎＹａｎｎａｗａｒ． “Ａｒｅｖｉｅｗｏｎｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｔｅｃｈｎｉｑｕｅ．” ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ１０．３（２０１０）：１６－２４に説明されるもの等の公知の自動発話認識技法を使用して、第２の発話１１６をテキストに変換することによって、第２の入力１２０を決定し得る。例えば、第２の発話１１６が「オースティン」である場合、メディアガイドアプリケーションは、第２の入力１２０を「オースティン」であると決定し、それによって、第２の発話１１６の中の「オースティン」を正確に認識し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、第２の発話１１６が受信された第２の時間１１４を決定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の時間１１０に続く最も早い発音が起こった時間を測定することによって、第２の時間１１４を決定し得る。例えば、メディアガイドアプリケーションが午前１０：００：００に検索結果１１２を提示し、ユーザからの次の発音が「オースティン」であった場合、メディアガイドアプリケーションは、「オースティン」の中の最初の「Ａｕ（オー）」という音が午前１０：００：００に起こったことを測定し、午前１０：００：００を第２の時間１１４と見なし得る。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスにおける入力の量が第１の時間１１０に続く第１の時間に関して閾値量を超えるときを検出することによって、最も早い発音を検出し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、第２の時間１１４と第１の時間１１０との間の時間差１１８を閾値時間と比較し得る。メディアガイドアプリケーションは、第２の時間１１４から第１の時間１１０を減算することによって、時間差１１８を算出し得る。例えば、第１の時間１１０が午前１０：００：００であり、第２の時間１１４が午前１０：００：１０である場合、メディアガイドアプリケーションは、時間差１１８を１０秒であると算出し得る。時間差１１８を算出する際に、メディアガイドアプリケーションは、第１の時間１１０、第２の時間１１４、および／または時間差１１８を最近傍秒、分、時間等に丸めてもよい。いくつかの実施形態では、メディアガイドアプリケーションは、閾値時間をデフォルト値であるように設定する、または閾値時間をユーザ定義値であるように設定し得る。

いくつかの実施形態では、時間差１１８を閾値時間と比較するステップに基づいて、メディアガイドアプリケーションは、時間差１１８が閾値時間未満であることを決定し得る。例えば、時間差１１８が１０秒であり、閾値時間が２０秒である場合、メディアガイドアプリケーションは、時間差１１８が閾値時間未満であることを決定し得る。

いくつかの実施形態では、時間差１１８が閾値時間未満であることを決定することに基づいて、メディアガイドアプリケーションは、第１の入力１０８の一部を第２の入力１２０の一部と置換することによって、第１の入力１０８に基づいて訂正された入力１２２を生成し得る。いくつかの実施形態では、メディアガイドアプリケーションは、第１の入力１０８の一部を第２の入力１２０全体と置換することによって、第１の入力１０８に基づいて訂正された入力１２２を生成し得る。例えば、第１の入力１０８が「ボストンについての番組を見せて」であり、第２の入力１２０が「オースティン」である場合、メディアガイドアプリケーションは、「ボストン」を「オースティン」と置換し、「オースティンについての番組を見せて」という訂正された入力１２２を生成し得る。メディアガイドアプリケーションは、米国特許出願公開第２０１４／０３３７３７０号、米国特許第９，５１４，７４３号、および米国特許出願公開第２００９／０２２８２７３号（それぞれの内容がそれらの全体として参照することによって本明細書に組み込まれる）に説明されるもの等の第１の入力１０８の一部を第２の入力１２０の一部と置換するための任意の公知の方法を使用し得る。

ユーザが第２の発話１１６を話した第２の時間１１４とメディアガイドアプリケーションが第１の入力１０８の検索結果１１２を表示のために生成した第１の時間１１０との間の時間差１１８を計算することは、時間差１１８が、ユーザが第２の発話１１６で第１の入力１０８のエラーを訂正することを意図したかどうかを示し得るため、役立ち得る。第１の発話１０６が第１の入力１０８を生成する際に正確に認識された場合、ユーザは、検索結果１１２が表示のために生成された後に、後続の入力を話すために第１の発話１０６の一部が不正確に認識された場合よりも長い時間を要し得る。例えば、第１の発話１０６が正確に認識された場合、ユーザは、検索結果１１２をスクロールする、検索結果１１２の説明を読む、検索結果１１２を開く、検索結果１１２を再生する等のために、長い時間量（すなわち、閾値時間を上回る時間量）を要し得る。しかしながら、第１の発話１０６の一部が不正確に認識された場合、ユーザは、短い時間量（すなわち、閾値時間よりも小さい時間量）で、検索結果１１２が第１の発話１０６の中で要求されたものに合致しないことに気付き得る。故に、ユーザは、検索結果１１２をスクロールする、検索結果１１２の説明を読む、検索結果１１２を開く、検索結果１１２を再生する等のために、長い時間量を要さないこともある。代わりに、ユーザは、第２の発話１１６を話し、検索結果１１２を見た後にすぐに（すなわち、閾値時間よりも小さい時間量）不正確に認識された第１の発話１０６を訂正し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザに関連付けられた複数の入力間の平均時間に基づいて、閾値時間を調節し得る。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザによって入力される口語入力の間の平均時間を監視し、本平均時間をユーザに関連付けられるユーザ履歴の中に記憶し得る。いくつかの実施形態では、メディアガイドアプリケーションは、閾値時間をデフォルト値に設定し、ユーザ履歴の中に記憶された平均時間に基づいて閾値時間を調節し得る。いくつかの実施形態では、メディアガイドアプリケーションは、平均時間の範囲に関連付けられる量によって閾値時間を調節し得る。例えば、平均時間が１秒～５秒である場合、メディアガイドアプリケーションは、閾値時間を５秒だけ増加させ得る一方で、平均時間が５秒～１０秒である場合、メディアガイドアプリケーションは、閾値時間を１０秒だけ増加させ得る。いくつかの実施形態では、メディアガイドアプリケーションは、平均時間に比例する量によって閾値時間を調節し得る。例えば、メディアガイドアプリケーションは、平均時間と等しい時間量だけ閾値時間を増加させ得る。いくつかの実施形態では、メディアガイドアプリケーションは、正または負の時間量によって閾値時間を調節し得る。ユーザに関連付けられた複数の入力間の平均時間に基づいて閾値時間を調節することは、ユーザが、概して、検索結果１１２を精査することに費やす時間を予測することに役立ち得る。入力の間のユーザの平均時間が大きい場合には、ユーザは、検索結果１１２を精査することに長い時間を費やし得、故に、ユーザが第２の発話１１６で第１の入力１０８を訂正することを意図したかどうかを予測するときに、閾値時間を増加させることが保証され得る。いくつかの実施形態では、閾値時間は、ネットワーク速度、例えば、メディアガイドアプリケーションがクエリに応答する速度に基づいて、選定され得る。いくつかの実施形態では、標準化されたクエリ（例えば、「ピングクエリ」）が、サブミットされ、応答時間が、ネットワーク速度を測定し、閾値時間を決定するために測定され得る。

いくつかの実施形態では、メディアガイドアプリケーションは、検索結果１１２をブラウズすることに関連付けられたいかなる入力も、第１の時間１１０と第２の時間１１４との間でユーザ入力デバイスを介して受信されなかったことを決定することに基づいて、訂正された入力１２２を生成し得る。例えば、検索結果１１２をブラウズすることに関連付けられる入力は、表示された検索結果１１２を上または下にスクロールするための入力、検索結果１１２を開くための入力、検索結果１１２を再生するための入力、および検索結果１１２の説明を読むための入力を含み得る。メディアガイドアプリケーションは、第１の時間１１０と第２の時間１１４との間でユーザ入力デバイスを介して受信される入力を監視し、受信された入力のタイプのうちのいずれも検索結果１１２をブラウズすることに関連付けられないことを決定し得る。

検索結果１１２をブラウズすることに関連付けられたいかなる入力も、ユーザが第２の発話１１６を話した第２の時間１１４とメディアガイドアプリケーションが第１の入力１０８の検索結果１１２を表示のために生成した第１の時間１１０との間でユーザ入力デバイスを介して受信されなかったことを決定することは、本決定が、ユーザが第２の発話１１６で第１の入力１０８のエラーを訂正することを意図したかどうかを示し得るため、役立ち得る。第１の発話１０６が第１の入力１０８を生成する際に正確に認識された場合、ユーザは、検索結果１１２が提示された後に、検索結果１１２をブラウズすることに関連付けられる入力を入力し得る。例えば、第１の発話１０６が正確に認識された場合、ユーザは、検索結果１１２をスクロールする、検索結果１１２の説明を読む、検索結果１１２を開く、検索結果１１２を再生する等し得る。しかしながら、第１の発話１０６の一部が不正確に認識された場合、ユーザは、検索結果１１２が第１の発話１０６の中で要求されたものに合致しないことに気付き得る。故に、ユーザは、検索結果１１２をスクロールする、検索結果１１２の説明を読む、検索結果１１２を開く、検索結果１１２を再生する等をしなくてもよい。代わりに、ユーザは、第２の発話１１６を話し、検索結果１１２をブラウズすることに関連付けられるユーザ入力デバイスを介していかなる入力も入力することなく、検索結果１１２を見た後に不正確に認識された第１の発話１０６を訂正し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の時間１１０と第２の時間１１４との間で、ユーザの顔の画像を捕捉し得る。いくつかの実施形態では、ユーザ入力デバイスは、ユーザ入力デバイスの中に含まれるカメラを使用して、ユーザの顔の画像を捕捉し得る。例えば、ユーザ入力デバイスが携帯電話である場合、携帯電話は、そのカメラを使用して、ユーザの顔の画像を捕捉し得る。いくつかの実施形態では、ユーザは、テレビ上でメディアアセットを視聴していることもあり、テレビは、統合型カメラを有し、カメラを使用してユーザの顔の画像を捕捉し得る。いくつかの実施形態では、ユーザは、コンピュータ上でメディアアセットを視聴していることもあり、コンピュータは、統合型カメラを有し、カメラを使用してユーザの顔の画像を捕捉し得る。いくつかの実施形態では、メディアガイドアプリケーションは、画像内のユーザの顔が不満な感情に関連付けられていることを決定することに基づいて、訂正された入力１２２を生成し得る。いくつかの実施形態では、画像内のユーザの顔が不満な感情に関連付けられていることを決定するために、メディアガイドアプリケーションは、顔認識技法を使用してユーザの顔の画像を分析し、怒りおよび悲しみ等の表情を検出し得る。メディアガイドアプリケーションは、Ｋｕｌｋａｒｎｉ，ＳａｋｅｔＳ．，ＮａｒｅｎｄｅｒＰ．Ｒｅｄｄｙ，ａｎｄＳ．Ｉ．Ｈａｒｉｈａｒａｎ． “Ｆａｃｉａｌｅｘｐｒｅｓｓｉｏｎ（ｍｏｏｄ）ｒｅｃｏｇｎｉｔｉｏｎｆｒｏｍｆａｃｉａｌｉｍａｇｅｓｕｓｉｎｇｃｏｍｍｉｔｔｅｅｎｅｕｒａｌｎｅｔｗｏｒｋｓ．” ＢｉｏｍｅｄｉｃａｌＥｎｇｉｎｅｅｒｉｎｇＯｎｌｉｎｅ８．１（２００９）：１６（その内容がその全体として参照することによって本明細書に組み込まれる）の中の方法等の顔の画像内で表情を検出する任意の方法を使用し得る。いくつかの実施形態では、メディアガイドアプリケーションは、不満な顔の表情を検出することに加えて／その代わりに、不平を言うこと等の不満な音を検出し得る。

画像内のユーザの顔が不満な感情に関連付けられていることを決定することは、本決定が、ユーザが第２の発話１１６で第１の入力１０８のエラーを訂正することを意図したかどうかを示し得るため、役立ち得る。第１の発話１０６が不正確に認識され、提示される検索結果１１２が、ユーザが意図したものに合致しない場合、ユーザは、不満になり得、したがって、ユーザの顔は、不満な表情を呈し得る。第１の発話１０６が正確に認識され、提示される検索結果１１２が、ユーザが意図したものに合致する場合、ユーザは、満足し得、したがって、ユーザの顔は、不満な表情を呈さないこともある。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の発話１０６が受信されている間に、ユーザの顔の第１の画像を捕捉し、第１の画像内のユーザの顔の第１の相対サイズを決定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第２の発話１１６が受信されている間に、ユーザの顔の第２の画像を捕捉し、第２の画像内のユーザの顔の第２の相対サイズを決定し得る。いくつかの実施形態では、ユーザ入力デバイスは、ユーザ入力デバイスの中に含まれるカメラを使用して、ユーザの顔の画像を捕捉し得る。例えば、ユーザ入力デバイスが携帯電話である場合、携帯電話は、そのカメラを使用して、ユーザの顔の画像を捕捉し得る。いくつかの実施形態では、ユーザは、テレビ上でメディアアセットを視聴していることもあり、テレビは、統合型カメラを有し、カメラを使用してユーザの顔の画像を捕捉し得る。いくつかの実施形態では、ユーザは、コンピュータ上でメディアアセットを視聴していることもあり、コンピュータは、統合型カメラを有し、カメラを使用してユーザの顔の画像を捕捉し得る。いくつかの実施形態では、メディアガイドアプリケーションは、画像内のユーザの顔によって占有されるピクセルの数を数えることによって、画像内のユーザの顔の相対サイズを計算し得る。第１および第２の画像内のユーザの顔の相対サイズを決定するために、メディアガイドアプリケーションは、図９－１０を参照して説明される方法を使用し得る。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザの顔の第１の相対サイズとユーザの顔の第２の相対サイズとの間の相対サイズ差を閾値相対サイズと比較し得る。メディアガイドアプリケーションは、第２の相対サイズから第１の相対サイズを減算することによって相対サイズ差を算出し得る。例えば、第１の相対サイズが３メガピクセルであり、第２の相対サイズが４メガピクセルである場合、メディアガイドアプリケーションは、相対サイズ差を１メガピクセルであると算出し得る。いくつかの実施形態では、メディアガイドアプリケーションは、相対サイズ差を閾値相対サイズと比較するステップに基づいて、相対サイズ差が閾値相対サイズを上回ることを決定し得る。例えば、相対サイズ差が１メガピクセルであり、閾値相対サイズが０．５メガピクセルである場合、メディアガイドアプリケーションは、相対サイズ差が閾値相対サイズを上回ることを決定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、相対サイズ差が閾値相対サイズを上回ることを決定することに基づいて、訂正された入力１２２を生成し得る。

故に、前述の方法は、第１の発話１０６が受信されている間に撮影される画像内のユーザの顔の相対サイズが、第２の発話１１６が受信されている間に撮影される画像内のユーザの顔の相対サイズよりも小さいかどうかを決定する。これは、ユーザが第２の発話１１６で第１の入力１０８のエラーを訂正することを意図したかどうかを決定することに役立ち得る。ユーザが第２の発話１１６で第１の入力１０８のエラーを訂正することを意図した場合、ユーザは、自分の口をユーザ入力デバイスに近づけようとし得るため、ユーザ入力デバイスは、第２の発話１１６をより正確に検出することができ、第２の発話１１６を正確に認識する可能性が高い。ユーザが自分の顔をユーザ入力デバイスに近づける場合、これは、第１の発話１０６が受信されている間に捕捉される画像内のユーザの顔のサイズと対比して、第２の発話１１６が受信されている間に捕捉される画像内のユーザの顔のサイズの増加として検出されることができる。

いくつかの実施形態では、メディアガイドアプリケーションは、第２の時間１１４と第１の時間１１０との間の時間差１１８を第２の閾値時間と比較し、時間差１１８を第２の閾値時間と比較するステップに基づいて、時間差１１８が第２の閾値時間を上回ることを決定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、時間差１１８が閾値時間未満であり、かつ第２の閾値時間を上回ることを決定することに基づいて、訂正された入力１２２を生成し得る。例えば、時間差１１８が１０秒であり、閾値時間が２０秒であり、第２の閾値時間が２秒である場合、メディアガイドアプリケーションは、時間差１１８が閾値時間未満であり、かつ第２の閾値時間を上回ることを決定し得る。第２の閾値時間は、閾値時間未満であり得る。時間差１１８が第２の閾値時間上回ることを決定することは、ユーザが第２の発話１１６を伴って第１の発話１０６を継続することを意図しているときに、訂正された入力１２２を生成することを回避することに役立ち得る。例えば、第１の発話１０６は、「オースティンについての番組を見せて」であってもよく、メディアガイドアプリケーションは、検索結果１１２としてオースティン（テキサスの都市）についての番組を提示し得る。第２の発話１１６は、「Ｐｏｗｅｒｓ」であり得る。本実施例では、第２の発話１１６は、実際には、第１の発話１０６の続きであってもよく、すなわち、ユーザは、「ＡｕｓｔｉｎＰｏｗｅｒｓについての番組を見せて」（ＡｕｓｔｉｎＰｏｗｅｒｓは映画シリーズの中の登場人物である）と言うことを意図した。しかしながら、メディアガイドアプリケーションは、ユーザが「Ｐｏｗｅｒｓ」と言い終わる前に検索結果１１２を提示している場合がある。そのような状況では、ユーザは、第２の発話１１６（「Ｐｏｗｅｒｓ」）で第１の発話１０６（「オースティンについての番組を見せて」）を訂正することを意図していない。むしろ、ユーザは、第２の発話１１６を伴って第１の発話１０６を継続することを意図している。故に、メディアガイドアプリケーションは、第２の時間１１４と第１の時間１１０との間の時間差１１８を、閾値時間よりも小さい第２の閾値時間と比較し得る。時間差１１８が第２の閾値時間未満またはそれと等しい場合、これは、検索結果１１２が提示された後にすぐにユーザが第２の発話１１６を話した、おそらく、検索結果１１２が提示された後に検索結果１１２を閲覧するには早すぎたことを示し得る。故に、これは、ユーザがまだ第１の発話１０６を話し終わっておらず、メディアガイドアプリケーションが第２の発話１１６で第１の発話１０６を訂正するべきではないことを示し得る。しかしながら、時間差１１８が第２の閾値時間を上回るが、依然として閾値時間未満である場合、これは、ユーザが合理的な時間量後に第２の発話１１６を話し、検索結果１１２を簡潔に閲覧し、それらが第１の発話１０６に合致しないことを決定することを示し得る。故に、これは、ユーザが第２の発話１１６で第１の発話１０６を訂正することを意図したことを示し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、基準環境雑音レベルを測定し得る。いくつかの実施形態では、基準環境雑音レベルを測定するために、ユーザ入力デバイスは、ユーザがいかなる入力も話していないときに、基準オーディオ録音を捕捉し得る。メディアガイドアプリケーションは、基準オーディオ録音の中の平均出力を測定することによって、本基準オーディオ録音の中の基準環境雑音レベルを決定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の発話１０６が受信されている間の環境雑音レベルを測定し得る。いくつかの実施形態では、第１の発話１０６が受信されている間の環境雑音レベルを測定するために、ユーザ入力デバイスは、米国特許出願公開第２００５／０１８２５０４号および米国特許出願公開第２００８／０１３４８６６号で議論されるもの等の任意の公知の技法を使用して、第１の発話１０６が受信されているときにオーディオ録音を捕捉し、オーディオ録音の中の音声を除外し得る。メディアガイドアプリケーションは、次いで、オーディオ録音の中の残留信号の平均出力を測定し、本オーディオ録音の中の環境雑音レベルを決定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、第１の発話１０６が受信されている間の環境雑音レベルと基準環境雑音レベルとの間の環境雑音レベル差を閾値環境雑音レベルと比較し得る。いくつかの実施形態では、第１の発話１０６が受信されている間の環境雑音レベルと基準環境雑音レベルとの間の環境雑音レベル差を閾値環境雑音レベルと比較するステップに基づいて、メディアガイドアプリケーションは、環境雑音レベル差が閾値環境雑音レベルを上回ることを決定し得る。例えば、環境雑音レベル差が０．１ｍＷであり、閾値環境雑音レベルが０．０１ｍＷである場合、メディアガイドアプリケーションは、０．１ｍＷが０．０１ｍＷを上回ることを決定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、環境雑音レベル差が閾値環境雑音レベルを上回ることを決定することに基づいて、訂正された入力１２２を生成し得る。

第１の発話１０６が受信されるときの環境雑音レベルが基準環境雑音レベルを上回る閾値環境雑音レベルであることを決定することは、ユーザが第２の発話１１６で第１の入力１０８のエラーを訂正することを意図したかどうかを決定することに役立ち得る。例えば、第１の発話１０６が受信されるときの環境雑音レベルが大きい場合には、雑音に起因して、第１の発話１０６が正確に認識されなかった可能性が高くあり得、ユーザが第２の発話１１６で第１の入力１０８のエラーを訂正することを意図した可能性が高くあり得る。

いくつかの実施形態では、メディアガイドアプリケーションは、質問で第１の入力１０８に応答し、曖昧性を解決し得る。例えば、第１の入力１０８が「Ｓｏｘの試合を見せて」である場合、メディアガイドアプリケーションは、ＢｏｓｔｏｎＲｅｄＳｏｘおよびＣｈｉｃａｇｏＷｈｉｔｅＳｏｘ（両方ともスポーツのチーム）の両方の検索結果１１２を表示し得る。メディアガイドアプリケーションはまた、「ＢｏｓｔｏｎＲｅｄＳｏｘまたはＣｈｉｃａｇｏＷｈｉｔｅＳｏｘという意味でしたか？」等の曖昧性を除去する質問をユーザに提示し得る。ユーザは、「ＢｏｓｔｏｎＲｅｄＳｏｘ」等の第２の発話１１６でこの曖昧性を除去する質問に応答し得る。メディアガイドアプリケーションが曖昧性を除去する質問を提示した場合において、メディアガイドアプリケーションは、第１の時間１１０と第２の時間１１４との間の時間差１１８にもかかわらず、第２の発話１１６が第１の入力１０８を訂正するために使用されるべきではなく、むしろその曖昧性を除去する、または検索結果１１２をフィルタ処理するために使用されるべきであることを自動的に考慮し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスの加速の差を決定することに基づいて、訂正された入力を生成し得る。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイス（例えば、ユーザ入力インターフェース５１０または無線ユーザ通信デバイス６０６）を介して、第１の発話２０６を受信し得る。第１の発話２０６は、例えば、ユーザによって話された言葉を含み得る。第１の発話２０６は、メディアアセット等の項目の検索を開始することをユーザによって意図され得る。例えば、第１の発話２０６は、「オースティンについての番組を見せて」であり得る。

いくつかの実施形態では、メディアガイドアプリケーションは、自動発話認識を使用して、第１の発話２０６に基づいて第１の入力２０８を決定し得る。例えば、メディアガイドアプリケーションは、Ｇａｉｋｗａｄ，ＳａｎｔｏｓｈＫ．，ＢｈａｒｔｉＷ．Ｇａｗａｌｉ，ａｎｄＰｒａｖｉｎＹａｎｎａｗａｒ． “Ａｒｅｖｉｅｗｏｎｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｔｅｃｈｎｉｑｕｅ．” ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ１０．３（２０１０）：１６－２４（その開示がその全体として参照することによって本明細書に組み込まれる）に説明されるもの等の公知の自動発話認識技法を使用して、第１の発話２０６をテキストに変換することによって、第１の入力２０８を決定し得る。例えば、第１の発話２０６が「オースティンについての番組を見せて」である場合、メディアガイドアプリケーションは、第１の入力２０８を「ボストンについての番組を見せて」であると決定し、それによって、第１の発話２０６の中の「オースティン」を「ボストン」として不正確に認識し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、（例えば、通信ネットワーク６１４を通してメディアコンテンツソース６１６またはメディアガイドデータソース６１８における、もしくは記憶装置５０８における）データベースから、第１の入力２０８に基づいて検索結果２１２を読み出し得る。データベースは、例えば、情報リポジトリを含み得る。情報リポジトリから検索結果２１２を読み出すために、メディアガイドアプリケーションは、米国特許第８，５７７，６７１号（その開示がその全体として参照することによって本明細書に組み込まれる）に説明されるもの等の公知の情報読出技法を使用し得る。いくつかの実施形態では、検索結果２１２は、１つだけの検索結果を含み得る。

いくつかの実施形態では、メディアガイドアプリケーションは、検索結果２１２を（例えば、ディスプレイ５１２上に）表示のために生成し得る。例えば、第１の入力２０８が「ボストンについての番組を見せて」である場合、メディアガイドアプリケーションは、ボストンで行われているテレビ番組Ｆｒｉｎｇｅのリスト項目（例えば、リスト項目３０８、４０６、４０８、４１０、または４１２）を読み出し、表示のために生成し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、検索結果２１２が表示のために生成された第１の時間２１０を決定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、表示画面（例えば、ディスプレイ５１２）のピクセルに伝送される信号が第１の時間２１０に続いて最初に変化する時間を検出することによって、第１の時間２１０を決定し得る。いくつかの実施形態では、表示画面のピクセルに（例えば、処理回路５０６から）伝送される信号は、表示画面を変化させ、例えば、新しい項目を表示させる。例えば、第１の発話２０６が受信されるとき、表示画面のピクセルに伝送される信号は、いかなる結果もまだ読み出されていないため変化しなくてもよい。しかしながら、検索結果２１２が読み出され、表示画面上に表示される準備ができると、表示画面のピクセルに伝送される信号は、検索結果２１２を表示するために変化し得る。表示画面のピクセルに伝送される信号が変化するときに、第１の発話２０６が受信された後の初期時間は、表示されている検索結果２１２を表し得る。したがって、表示画面のピクセルに伝送される信号が変化するときに、第１の発話２０６が受信された後の初期時間は、検索結果２１２が表示のために生成された第１の時間２１０と見なされることができる。いくつかの実施形態では、メディアガイドアプリケーションは、第１の時間２１０を決定するときに、検索結果２１２に関連付けられないクロック、カーソル、および他の項目の表示の変化を表す、表示画面のピクセルに伝送される信号の変化を無視し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の時間２１０におけるユーザ入力デバイスの第１の加速２１３を測定し得る。いくつかの実施形態では、ユーザ入力デバイスは、携帯電話（例えば、スマートフォン）であり、携帯電話は、内部加速度計を使用して、第１の加速２１３を決定し得る。いくつかの実施形態では、ユーザ入力デバイスは、タブレットであり、タブレットは、内部加速度計を使用して、第１の加速２１３を決定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、第１の時間２１０における３つの空間次元のうちの１つの中のユーザ入力デバイスの加速を測定することによって、ユーザ入力デバイスを介して第１の加速２１３を測定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の時間２１０における３つの空間次元内のユーザ入力デバイスの加速の最大値として、第１の加速２１３を決定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の時間２１０における３つの空間次元内のユーザ入力デバイスの加速の平均として、第１の加速２１３を決定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の時間２１０における３つの空間次元内のユーザ入力デバイスの加速の二乗和の平方根として、第１の加速２１３を決定し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の発話２０６を受信するステップに続いて、第２の発話２１６を受信し得る。第２の発話２１６は、例えば、ユーザによって話された言葉を含み得る。第２の発話２１６は、メディアガイドアプリケーションによって不正確に認識された第１の入力２０８の一部を訂正することをユーザによって意図され得る。例えば、ユーザは、第１の発話２０６に合致しない検索結果２１２に基づいて、メディアガイドが第１の発話２０６の一部を不正確に認識したことを決定し得る。例えば、検索結果２１２がボストンについての番組を含む場合、ユーザは、メディアガイドアプリケーションが、第１の発話２０６（「オースティンについての番組を見せて」）に応答して、第１の入力２０８として「ボストンについての番組を見せて」を不正確に生成したことを決定し得る。故に、第２の発話２１６は、ユーザが「ボストン」を「オースティン」に訂正することを意図する、「オースティン」であり得る。第２の発話２１６は、ユーザが第２の発話２１６で第１の入力２０８のエラーを訂正することを意図するかどか、またはユーザが、例えば、新しい検索を開始するか、もしくは前もって提示された検索結果２１２を第２の発話２１６でフィルタ処理するかどうかという明示的指示が欠如し得る。例えば、第２の発話２１６は、ユーザが第１の入力２０８を訂正することを意図するという明示的指示を表し得る、「そうではなくて」または「言おうとしたのは～」等の語句が欠如し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、自動発話認識を使用して、第２の発話２１６に基づいて第２の入力２２０を決定し得る。例えば、メディアガイドアプリケーションは、Ｇａｉｋｗａｄ，ＳａｎｔｏｓｈＫ．，ＢｈａｒｔｉＷ．Ｇａｗａｌｉ，ａｎｄＰｒａｖｉｎＹａｎｎａｗａｒ． “Ａｒｅｖｉｅｗｏｎｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｔｅｃｈｎｉｑｕｅ．” ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ１０．３（２０１０）：１６－２４に説明されるもの等の公知の自動発話認識技法を使用して、第２の発話２１６をテキストに変換することによって、第２の入力２２０を決定し得る。例えば、第２の発話２１６が「オースティン」である場合、メディアガイドアプリケーションは、第２の入力２２０を「オースティン」であると決定し、それによって、第２の発話２１６の中の「オースティン」を正確に認識し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、第２の発話２１６が受信された第２の時間２１４を決定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の時間２１０に続く最も早い発音が起こった時間を測定することによって、第２の時間２１４を決定し得る。例えば、メディアガイドアプリケーションが午前１０：００：００に検索結果２１２を提示し、ユーザからの次の発音が「オースティン」であった場合、メディアガイドアプリケーションは、「オースティン」の中の最初の「Ａｕ（オー）」という音が午前１０：００：００に起こったことを測定し、午前１０：００：００を第２の時間と見なし得る。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスにおける入力の量が第１の時間２１０に続く第１の時間に関して閾値量を超えるときを検出することによって、最も早い発音を検出し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の時間２１０と第２の時間２１４との間のユーザ入力デバイスの第２の加速２１７を測定し得る。いくつかの実施形態では、ユーザ入力デバイスは、携帯電話（例えば、スマートフォン）であり、携帯電話は、内部加速度計を使用して、第２の加速２１７を決定し得る。いくつかの実施形態では、ユーザ入力デバイスは、タブレットであり、タブレットは、内部加速度計を使用して、第２の加速２１７を決定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、第１の時間２１０と第２の時間２１４との間の３つの空間次元のうちの１つの中のユーザ入力デバイスの加速を測定することによって、ユーザ入力デバイスを介して第２の加速２１７を測定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の時間２１０と第２の時間２１４との３つの空間次元内のユーザ入力デバイスの加速の最大値として、第２の加速２１７を決定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の時間２１０と第２の時間２１４との間の３つの空間次元内のユーザ入力デバイスの加速の平均として、第２の加速２１７を決定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の時間２１０と第２の時間２１４との間の３つの空間次元内のユーザ入力デバイスの加速の二乗和の平方根として、第２の加速２１７を決定し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、第１の時間２１０と第２の時間２１４との間のユーザ入力デバイスの最大加速を測定することによって、ユーザ入力デバイスを介して第２の加速２１７を測定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、第１の時間２１０と第２の時間２１４との間のユーザ入力デバイスの平均加速を測定することによって、ユーザ入力デバイスを介して第２の加速２１７を測定し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、第２の加速２１７と第１の加速２１３との間の加速の差２１８を決定し得る。例えば、第１の加速２１３が０ｍ／秒^２であり、第２の加速２１７が１ｍ／秒^２である場合、メディアガイドアプリケーションは、加速の差２１８を１ｍ／秒^２であると算出し得る。メディアガイドアプリケーションは、第２の加速２１７から第１の加速２１３を減算し、随意に、結果の絶対値を求めることによって、加速の差２１８を算出し得る。加速の差２１８を算出する際に、メディアガイドアプリケーションは、第１の加速２１３、第２の加速２１７、および／または加速の差２１８を近くの値に丸め得る。

いくつかの実施形態では、第２の加速と第１の加速との間の加速の差２１８を決定することに基づいて、メディアガイドアプリケーションは、加速の差２１８を閾値加速と比較し得る。例えば、加速の差２１８が１ｍ／秒^２であり、閾値加速が０．２５ｍ／秒^２である場合、メディアガイドアプリケーションは、１ｍ／秒^２を０．２５ｍ／秒^２と比較し得る。いくつかの実施形態では、閾値加速は、ユーザがユーザ入力デバイスをその口に近づけるときに、ユーザ入力デバイスの平均加速として決定され得る。

いくつかの実施形態では、加速の差２１８を閾値加速と比較するステップに基づいて、メディアガイドアプリケーションは、加速の差２１８が閾値加速を上回ることを決定し得る。例えば、加速の差２１８が１ｍ／秒^２であり、閾値加速が０．２５ｍ／秒^２である場合、メディアガイドアプリケーションは、１ｍ／秒^２が０．２５ｍ／秒^２を上回ることを決定し得る。

いくつかの実施形態では、加速の差２１８が閾値加速未満であることを決定することに基づいて、メディアガイドアプリケーションは、第１の入力２０８の一部を第２の入力２２０の一部と置換することによって、第１の入力２０８に基づいて訂正された入力２２２を生成し得る。いくつかの実施形態では、メディアガイドアプリケーションは、第１の入力２０８の一部を第２の入力２２０全体と置換することによって、第１の入力２０８に基づいて訂正された入力２２２を生成し得る。例えば、第１の入力２０８が「ボストンについての番組を見せて」であり、第２の入力２２０が「オースティン」である場合、メディアガイドアプリケーションは、「ボストン」を「オースティン」と置換し、「オースティンについての番組を見せて」という訂正された入力２２２を生成し得る。メディアガイドアプリケーションは、米国特許出願公開第２０１４／０３３７３７０号、米国特許第９，５１４，７４３号、および米国特許出願公開第２００９／０２２８２７３号（それぞれの内容がそれらの全体として参照することによって本明細書に組み込まれる）に説明されるもの等の第１の入力２０８の一部を第２の入力２２０の一部と置換するための任意の公知の方法を使用し得る。

検索結果２１２が提示されるときとユーザが第２の発話２１６を話すときとの間のユーザ入力デバイスの加速の差２１８を計算することは、加速の差２１８が、ユーザが第２の発話２１６で第１の入力２０８のエラーを訂正することを意図したかどうかを示し得るため、役立ち得る。第１の入力２０８のエラーがある場合、ユーザは、ユーザ入力デバイスが第２の発話２１６をより正確に検出し、第２の発話２１６を正確に認識する可能性が高いことを可能にする意図を持って、ユーザ入力デバイスを自分の口に近づけ得る。ユーザ入力デバイスをユーザの口に近づけるという運動は、閾値加速を超えるユーザ入力デバイスの加速の差として検出されることができる。

いくつかの実施形態では、メディアガイドアプリケーションは、検索結果２１２をブラウズすることに関連付けられたいかなる入力も、第１の時間２１０と第２の時間２１４との間でユーザ入力デバイスを介して受信されなかったことを決定することに基づいて、訂正された入力１２２を生成し得る。例えば、検索結果２１２をブラウズすることに関連付けられる入力は、表示された検索結果２１２を上または下にスクロールするための入力、検索結果２１２を開くための入力、検索結果２１２を再生するための入力、および検索結果２１２の説明を読むための入力を含み得る。メディアガイドアプリケーションは、第１の時間２１０と第２の時間２１４との間でユーザ入力デバイスを介して受信される入力を監視し、受信された入力のタイプのうちのいずれも検索結果２１２をブラウズすることに関連付けられないことを決定し得る。

検索結果２１２をブラウズすることに関連付けられたいかなる入力も、ユーザが第２の発話２１６を話した第２の時間２１４とメディアガイドアプリケーションが第１の入力２０８の検索結果２１２を表示のために生成した第１の時間２１０との間でユーザ入力デバイスを介して受信されなかったことを決定することは、本決定が、ユーザが第２の発話２１６で第１の入力２０８のエラーを訂正することを意図したかどうかを示し得るため、役立ち得る。第１の発話２０６が第１の入力２０８を生成する際に正確に認識された場合、ユーザは、検索結果２１２が提示された後に、検索結果２１２をブラウズすることに関連付けられる入力を入力し得る。例えば、第１の発話２０６が正確に認識された場合、ユーザは、検索結果２１２をスクロールする、検索結果２１２の説明を読む、検索結果２１２を開く、検索結果２１２を再生する等し得る。しかしながら、第１の発話２０６の一部が不正確に認識された場合、ユーザは、検索結果２１２が第１の発話２０６の中で要求されたものに合致しないことに気付き得る。故に、ユーザは、検索結果２１２をスクロールする、検索結果２１２の説明を読む、検索結果２１２を開く、検索結果２１２を再生する等をしなくてもよい。代わりに、ユーザは、第２の発話２１６を話し、検索結果２１２をブラウズすることに関連付けられるユーザ入力デバイスを介していかなる入力も入力することなく、検索結果２１２を見た後に不正確に認識された第１の発話２０６を訂正し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の時間２１０と第２の時間２１４との間で、ユーザの顔の画像を捕捉し得る。いくつかの実施形態では、ユーザ入力デバイスは、ユーザ入力デバイスの中に含まれるカメラを使用して、ユーザの顔の画像を捕捉し得る。例えば、ユーザ入力デバイスが携帯電話である場合、携帯電話は、そのカメラを使用して、ユーザの顔の画像を捕捉し得る。いくつかの実施形態では、ユーザは、テレビ上でメディアアセットを視聴していることもあり、テレビは、統合型カメラを有し、カメラを使用してユーザの顔の画像を捕捉し得る。いくつかの実施形態では、ユーザは、コンピュータ上でメディアアセットを視聴していることもあり、コンピュータは、統合型カメラを有し、カメラを使用してユーザの顔の画像を捕捉し得る。いくつかの実施形態では、メディアガイドアプリケーションは、画像内のユーザの顔が不満な感情に関連付けられていることを決定することに基づいて、訂正された入力２２２を生成し得る。いくつかの実施形態では、画像内のユーザの顔が不満な感情に関連付けられていることを決定するために、メディアガイドアプリケーションは、顔認識技法を使用してユーザの顔の画像を分析し、怒りおよび悲しみ等の表情を検出し得る。メディアガイドアプリケーションは、Ｋｕｌｋａｒｎｉ，ＳａｋｅｔＳ．，ＮａｒｅｎｄｅｒＰ．Ｒｅｄｄｙ，ａｎｄＳ．Ｉ．Ｈａｒｉｈａｒａｎ． “Ｆａｃｉａｌｅｘｐｒｅｓｓｉｏｎ（ｍｏｏｄ）ｒｅｃｏｇｎｉｔｉｏｎｆｒｏｍｆａｃｉａｌｉｍａｇｅｓｕｓｉｎｇｃｏｍｍｉｔｔｅｅｎｅｕｒａｌｎｅｔｗｏｒｋｓ．” ＢｉｏｍｅｄｉｃａｌＥｎｇｉｎｅｅｒｉｎｇＯｎｌｉｎｅ８．１（２００９）：１６（その内容がその全体として参照することによって本明細書に組み込まれる）の中の方法等の顔の画像内で表情を検出する任意の方法を使用し得る。いくつかの実施形態では、メディアガイドアプリケーションは、不満な顔の表情を検出することに加えて／その代わりに、不平を言うこと等の不満な音を検出し得る。

画像内のユーザの顔が不満な感情に関連付けられていることを決定することは、本決定が、ユーザが第２の発話２１６で第１の入力２０８のエラーを訂正することを意図したかどうかを示し得るため、役立ち得る。第１の発話２０６が不正確に認識され、提示される検索結果２１２が、ユーザが意図したものに合致しない場合、ユーザは、不満になり得、したがって、ユーザの顔は、不満な表情を呈し得る。第１の発話２０６が正確に認識され、提示される検索結果２１２が、ユーザが意図したものに合致する場合、ユーザは、満足し得、したがって、ユーザの顔は、不満な表情を呈さないこともある。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の発話２０６が受信されている間に、ユーザの顔の第１の画像を捕捉し、第１の画像内のユーザの顔の第１の相対サイズを決定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第２の発話２１６が受信されている間に、ユーザの顔の第２の画像を捕捉し、第２の画像内のユーザの顔の第２の相対サイズを決定し得る。いくつかの実施形態では、ユーザ入力デバイスは、ユーザ入力デバイスの中に含まれるカメラを使用して、ユーザの顔の画像を捕捉し得る。例えば、ユーザ入力デバイスが携帯電話である場合、携帯電話は、そのカメラを使用して、ユーザの顔の画像を捕捉し得る。いくつかの実施形態では、ユーザは、テレビ上でメディアアセットを視聴していることもあり、テレビは、統合型カメラを有し、カメラを使用してユーザの顔の画像を捕捉し得る。いくつかの実施形態では、ユーザは、コンピュータ上でメディアアセットを視聴していることもあり、コンピュータは、統合型カメラを有し、カメラを使用してユーザの顔の画像を捕捉し得る。いくつかの実施形態では、メディアガイドアプリケーションは、画像内のユーザの顔によって占有されるピクセルの数を数えることによって、画像内のユーザの顔の相対サイズを計算し得る。第１および第２の画像内のユーザの顔の相対サイズを決定するために、メディアガイドアプリケーションは、図９－１０を参照して説明される方法を使用し得る。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザの顔の第１の相対サイズとユーザの顔の第２の相対サイズとの間の相対サイズ差を閾値相対サイズと比較し得る。メディアガイドアプリケーションは、第２の相対サイズから第１の相対サイズを減算することによって相対サイズ差を算出し得る。例えば、第１の相対サイズが３メガピクセルであり、第２の相対サイズが４メガピクセルである場合、メディアガイドアプリケーションは、相対サイズ差を１メガピクセルであると算出し得る。いくつかの実施形態では、メディアガイドアプリケーションは、相対サイズ差を閾値相対サイズと比較するステップに基づいて、相対サイズ差が閾値相対サイズを上回ることを決定し得る。例えば、相対サイズ差が１メガピクセルであり、閾値相対サイズが０．５メガピクセルである場合、メディアガイドアプリケーションは、相対サイズ差が閾値相対サイズを上回ることを決定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、相対サイズ差が閾値相対サイズを上回ることを決定することに基づいて、訂正された入力２２２を生成し得る。

故に、前述の方法は、第１の発話２０６が受信されている間に撮影される画像内のユーザの顔の相対サイズが、第２の発話２１６が受信されている間に撮影される画像内のユーザの顔の相対サイズよりも小さいかどうかを決定する。これは、ユーザが第２の発話２１６で第１の入力２０８のエラーを訂正することを意図したかどうかを決定することに役立ち得る。ユーザが第２の発話２１６で第１の入力２０８のエラーを訂正することを意図した場合、ユーザは、自分の口をユーザ入力デバイスに近づけようとし得るため、ユーザ入力デバイスは、第２の発話２１６をより正確に検出することができ、第２の発話２１６を正確に認識する可能性が高い。ユーザが自分の顔をユーザ入力デバイスに近づける場合、これは、第１の発話２０６が受信されている間に捕捉される画像内のユーザの顔のサイズと対比して、第２の発話２１６が受信されている間に捕捉される画像内のユーザの顔のサイズの増加として検出されることができる。

いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、基準環境雑音レベルを測定し得る。いくつかの実施形態では、基準環境雑音レベルを測定するために、ユーザ入力デバイスは、ユーザがいかなる入力も話していないときに、基準オーディオ録音を捕捉し得る。メディアガイドアプリケーションは、基準オーディオ録音の中の平均出力を測定することによって、本基準オーディオ録音の中の基準環境雑音レベルを決定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、ユーザ入力デバイスを介して、第１の発話２０６が受信されている間の環境雑音レベルを測定し得る。いくつかの実施形態では、第１の発話２０６が受信されている間の環境雑音レベルを測定するために、ユーザ入力デバイスは、米国特許出願公開第２００５／０１８２５０４号および米国特許出願公開第２００８／０１３４８６６号で議論されるもの等の任意の公知の技法を使用して、第１の発話２０６が受信されているときにオーディオ録音を捕捉し、オーディオ録音の中の音声を除外し得る。メディアガイドアプリケーションは、次いで、オーディオ録音の中の残留信号の平均出力を測定し、本オーディオ録音の中の環境雑音レベルを決定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、第１の発話２０６が受信されている間の環境雑音レベルと基準環境雑音レベルとの間の環境雑音レベル差を閾値環境雑音レベルと比較し得る。いくつかの実施形態では、第１の発話１０６が受信されている間の環境雑音レベルと基準環境雑音レベルとの間の環境雑音レベル差を閾値環境雑音レベルと比較するステップに基づいて、メディアガイドアプリケーションは、環境雑音レベル差が閾値環境雑音レベルを上回ることを決定し得る。例えば、環境雑音レベル差が０．１ｍＷであり、閾値環境雑音レベルが０．０１ｍＷである場合、メディアガイドアプリケーションは、０．１ｍＷが０．０１ｍＷを上回ることを決定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、環境雑音レベル差が閾値環境雑音レベルを上回ることを決定することに基づいて、訂正された入力２２２を生成し得る。

第１の発話２０６が受信されるときの環境雑音レベルが基準環境雑音レベルを上回る閾値環境雑音レベルであることを決定することは、ユーザが第２の発話２１６で第１の発話２０８のエラーを訂正することを意図したかどうかを決定することに役立ち得る。例えば、第１の発話２０６が受信されるときの環境雑音レベルが大きい場合には、雑音に起因して、第１の発話２０６が正確に認識されなかった可能性が高くあり得、ユーザが第２の発話２１６で第１の入力２０８のエラーを訂正することを意図した可能性が高くあり得る。

上記で議論されるように、メディアガイドアプリケーションは、（１）第１の時間と第２の時間との間の差が閾値未満であること、（２）検索結果をブラウズすることに関連付けられたいかなる入力も、第１の時間と第２の時間との間に受信されないこと、（３）第１の時間と第２の時間との間に捕捉される画像内のユーザの顔が不満な感情に関連付けられていること、（４）第２の発話が受信されている間に捕捉される画像内のユーザの顔の相対サイズが、第１の発話が受信されている間に捕捉される画像内のユーザの顔の相対サイズを上回ること、（５）第１の発話が受信されているときの環境雑音レベルと基準環境雑音レベルとの間の差が閾値環境雑音レベルを上回ること、および（６）第１の加速と第２の加速との間の差が閾値加速を上回ることを含む、異なる条件に基づいて、訂正された入力を生成し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、他の条件を使用し、訂正された入力を生成するかどうかを決定し得る。ユーザが第１の入力を訂正するときに第２の発話をよりゆっくりと話し得るため、いくつかの実施形態では、メディアガイドアプリケーションは、第２の発話の各言葉を発音するためにユーザが要した時間を測定し、第２の発話の中の言葉の平均発音時間を計算し得る。いくつかの実施形態では、メディアガイドアプリケーションは、平均発音時間が閾値発音時間を上回ることに基づいて、訂正された入力を生成し得る。いくつかの実施形態では、メディアガイドアプリケーションは、第１の発話の中の言葉の平均発音時間を計算し、第２の発話の平均発音時間が第１の発話の中の言葉の平均発音時間を上回ることに基づいて、訂正された入力を生成し得る。

ユーザが第１の入力を訂正するときにより高いピッチで第２の発話を話し得るため、いくつかの実施形態では、メディアガイドアプリケーションは、第２の発話の中の平均エネルギーレベルを測定し得る。いくつかの実施形態では、メディアガイドアプリケーションは、第２の発話の中の平均エネルギーレベルが閾値エネルギーレベルを上回ることに基づいて、訂正された入力を生成し得る。いくつかの実施形態では、メディアガイドアプリケーションは、第１の発話の中の平均エネルギーレベルを測定し、第２の発話の平均発音時間が第１の発話の中の言葉の平均発音時間を上回ることに基づいて、平均発音時間に基づいて訂正された入力を生成し得る。いくつかの実施形態では、メディアガイドアプリケーションは、発話の中のオーディオのピーク値を計算すること、または発話の中の二乗平均平方根値を計算することによって、平均エネルギーレベルを測定し得る。

いくつかの実施形態では、メディアガイドアプリケーションは、上記の条件のうちの１つが満たされていることに基づいて、訂正された入力を生成し得る。例えば、メディアガイドアプリケーションは、条件（１）が満たされていることに基づいて、訂正された入力を生成し得る。例えば、メディアガイドアプリケーションは、条件（６）が満たされていることに基づいて、訂正された入力を生成し得る。いくつかの実施形態では、メディアガイドアプリケーションは、上記の条件のうちの２つが満たされていることに基づいて、訂正された入力を生成し得る。例えば、メディアガイドアプリケーションは、条件（１）および（２）が満たされていること、または条件（１）および（３）が満たされていること、もしくは条件（１）および（４）が満たされていること、または条件（１）および（５）が満たされていること、もしくは条件（６）および（２）が満たされていること、または条件（６）および（３）が満たされていること、もしくは条件（６）および（４）が満たされていること、または条件（６）および（５）が満たされていること、もしくは条件（１）および（６）が満たされていることに基づいて、訂正された入力を生成し得る。いくつかの実施形態では、メディアガイドアプリケーションは、上記の条件のうちの２つを上回るものが満たされていることに基づいて、訂正された入力を生成し得る。いくつかの実施形態では、メディアガイドアプリケーションは、２つの条件のうちの１つが満たされていること、または任意の他の数の条件の間からの任意の数の条件が満たされていることに基づいて、訂正された入力を生成し得る。

任意の所与のコンテンツ配信システムでユーザに利用可能なコンテンツの量が、膨大であり得る。その結果、多くのユーザは、ユーザがコンテンツの選択を効率的にナビゲートし、所望し得るコンテンツを容易に識別することを可能にする、インターフェースを通したメディアガイドの形態を所望している。そのようなガイドを提供するアプリケーションは、本明細書では、双方向メディアガイドアプリケーションと称されるが、時として、メディアガイドアプリケーションまたはガイドアプリケーションと称されることもある。

双方向メディアガイドアプリケーションは、ガイドを提供するコンテンツに応じて、種々の形態をとってもよい。１つの典型的なタイプのメディアガイドアプリケーションは、双方向テレビ番組ガイドである。双方向テレビ番組ガイド（時として、電子番組ガイドと称される）は、とりわけ、ユーザが、多くのタイプのコンテンツまたはメディアアセット間をナビゲートし、それを特定することを可能にする、周知のガイドアプリケーションである。双方向メディアガイドアプリケーションは、ユーザが、コンテンツ間をナビゲートし、それを特定および選択することを可能にする、グラフィカルユーザインターフェース画面を生成し得る。本明細書で参照されるように、用語「メディアアセット」および「コンテンツ」は、例えば、テレビ番組、ならびに有料番組、オンデマンド番組（ビデオオンデマンド（ＶＯＤ）システムにおけるような）、インターネットコンテンツ（例えば、ストリーミングコンテンツ、ダウンロード可能コンテンツ、ウェブキャスト等）、ビデオクリップ、オーディオ、コンテンツ情報、写真、回転画像、ドキュメント、再生リスト項目、ウェブサイト、記事、書籍、電子書籍、ブログ、チャットセッション、ソーシャルメディア、アプリケーション、ゲーム、および／または任意の他のメディアもしくはマルチメディア、ならびに／もしくはそれらの組み合わせ等の電子的に消費可能なユーザアセットを意味すると理解されたい。ガイドアプリケーションはまた、ユーザが、コンテンツ間をナビゲートし、それを特定することを可能にする。本明細書で参照されるように、用語「マルチメディア」は、上記で説明される少なくとも２つの異なるコンテンツ形態、例えば、テキスト、オーディオ、画像、ビデオ、または双方向コンテンツ形態を利用する、コンテンツを意味すると理解されたい。コンテンツは、ユーザ機器デバイスによって、録画、再生、表示、またはアクセスされ得るが、また、ライブパーフォーマンスの一部であることもできる。

本明細書で議論される実施形態のいずれかを実施するためのメディアガイドアプリケーションおよび／または任意の命令は、コンピュータ可読媒体上にエンコードされ得る。コンピュータ可読媒体は、データを記憶することが可能な任意の媒体を含む。コンピュータ可読媒体は、限定ではないが、電気もしくは電磁信号の伝搬を含む、一過性であり得る、または限定ではないが、ハードディスク、フロッピー（登録商標）ディスク、ＵＳＢドライブ、ＤＶＤ、ＣＤ、メディアカード、レジスタメモリ、プロセッサキャッシュ、ランダムアクセスメモリ（「ＲＡＭ」）等の揮発性および不揮発性コンピュータメモリもしくは記憶デバイスを含む、非一過性であり得る。

インターネット、モバイルコンピューティング、および高速無線ネットワークの出現に伴って、ユーザは、従来は使用しなかったユーザ機器デバイス上でメディアにアクセスするようになっている。本明細書で参照されるように、語句「ユーザ機器デバイス」、「ユーザ機器」、「ユーザデバイス」、「電子デバイス」、「電子機器」、「メディア機器デバイス」、または「メディアデバイス」は、テレビ、スマートＴＶ、セットトップボックス、衛星テレビに対応するための統合型受信機デコーダ（ＩＲＤ）、デジタル記憶デバイス、デジタルメディア受信機（ＤＭＲ）、デジタルメディアアダプタ（ＤＭＡ）、ストリーミングメディアデバイス、ＤＶＤプレーヤ、ＤＶＤレコーダ、接続型ＤＶＤ、ローカルメディアサーバ、ＢＬＵ－ＲＡＹ（登録商標）プレーヤ、ＢＬＵ－ＲＡＹ（登録商標）レコーダ、パーソナルコンピュータ（ＰＣ）、ラップトップコンピュータ、タブレットコンピュータ、ウェブＴＶボックス、パーソナルコンピュータテレビ（ＰＣ／ＴＶ）、ＰＣメディアサーバ、ＰＣメディアセンター、ハンドヘルドコンピュータ、固定電話、携帯情報端末（ＰＤＡ）、携帯電話、ポータブルビデオプレーヤ、ポータブル音楽プレーヤ、ポータブルゲーム機、スマートフォン、または任意の他のテレビ機器、コンピューティング機器、もしくは無線デバイス、および／またはそれらの組み合わせ等の上記で説明されるコンテンツにアクセスするための任意のデバイスを意味すると理解されたい。いくつかの実施形態では、ユーザ機器デバイスは、正面画面および裏面画面、複数の正面画面、または複数の角度付き画面を有し得る。いくつかの実施形態では、ユーザ機器デバイスは、正面カメラおよび／または裏面カメラを有し得る。これらのユーザ機器デバイス上で、ユーザは、テレビを通して利用可能な同一のコンテンツ間をナビゲートし、それを特定することが可能であり得る。その結果として、メディアガイドは、これらのデバイス上でも利用可能であり得る。提供されるガイドは、テレビのみを通して利用可能なコンテンツ、他のタイプのユーザ機器デバイスのうちの１つ以上のもののみを通して利用可能なコンテンツ、もしくはテレビおよび他のタイプのユーザ機器デバイスのうちの１つ以上のものの両方を通して利用可能なコンテンツのためのものであり得る。メディアガイドアプリケーションは、ユーザ機器デバイス上で、オンラインアプリケーション（すなわち、ウェブサイト上で提供される）として、または独立型アプリケーションもしくはクライアントとして提供され得る。メディアガイドアプリケーションを実装し得る、種々のデバイスおよびプラットフォームは、下記でより詳細に説明される。

メディアガイドアプリケーションの機能のうちの１つは、メディアガイドデータをユーザに提供することである。本明細書で参照されるように、語句「メディアガイドデータ」または「ガイドデータ」は、コンテンツに関連する任意のデータもしくはガイドアプリケーションを動作させる際に使用されるデータを意味すると理解されたい。例えば、ガイドデータは、番組情報、ガイドアプリケーション設定、ユーザ選好、ユーザプロファイル情報、メディアリスト項目、メディア関連情報（例えば、放送時間、放送チャネル、タイトル、内容、評価情報（例えば、ペアレンタルコントロール評価、批評家の評価等）、ジャンルまたはカテゴリ情報、俳優情報、放送会社またはプロバイダのロゴのロゴデータ等）、メディア形式（例えば、標準解像度、高解像度、３Ｄ等）、オンデマンド情報、ブログ、ウェブサイト、およびユーザが所望のコンテンツ選択間をナビゲートし、それを特定するために役立つ、任意の他のタイプのガイドデータを含み得る。

図３－４は、メディアガイドデータを提供するために使用され得る、例証的表示画面を示す。図３－４に示される表示画面は、任意の好適なユーザ機器デバイスまたはプラットフォーム上に実装され得る。図３－４の表示は、フル画面表示として図示されているが、それらはまた、表示されているコンテンツ上に完全または部分的にオーバーレイされ得る。ユーザは、表示画面内に提供された選択可能なオプション（例えば、メニューオプション、リスト項目オプション、アイコン、ハイパーリンク等）を選択することによって、またはリモートコントロールもしくは他のユーザ入力インターフェースまたはデバイス上の専用ボタン（例えば、「ガイド」ボタン）を押下することによって、コンテンツ情報にアクセスする要望を示し得る。ユーザの指示に応答して、メディアガイドアプリケーションは、グリッド内の時間およびチャネル別、時間別、チャネル別、ソース別、コンテンツタイプ別、カテゴリ別（例えば、映画、スポーツ、ニュース、子供向け、または他の番組カテゴリ）、または他の所定、ユーザ定義、もしくは他の編成基準等のいくつかの方法のうちの１つにおいて編成されたメディアガイドデータを表示画面に提供し得る。

図３は、単一表示内の異なるタイプのコンテンツへのアクセスも可能にする、時間およびチャネル別に配列された番組リスト項目表示３００の例証的グリッドを示す。表示３００は、以下、すなわち、（１）各チャネル／コンテンツタイプ識別子（列内のセル）が利用可能な異なるチャネルまたはコンテンツのタイプを識別する、チャネル／コンテンツタイプ識別子３０４の列、および（２）各時間識別子（行内のセル）が番組の時間帯を識別する、時間識別子３０６の行を伴うグリッド３０２を含み得る。グリッド３０２はまた、番組リスト項目３０８等の番組リスト項目のセルも含み、各リスト項目は、リスト項目の関連チャネルおよび時間の上に提供される、番組のタイトルを提供する。ユーザ入力デバイスを用いて、ユーザは、ハイライト領域３１０を移動させることによって番組リスト項目を選択することができる。ハイライト領域３１０によって選択される番組リスト項目に関する情報が、番組情報領域３１２内に提供され得る。領域３１２は、例えば、番組タイトル、番組内容、番組が提供される時間（該当する場合）、番組が放送されるチャネル（該当する場合）、番組の評価、および他の所望の情報を含み得る。

線形番組（例えば、所定の時間に複数のユーザ機器デバイスに伝送されるようにスケジュールされ、スケジュールに従って提供されるコンテンツ）にアクセスを提供することに加えて、メディアガイドアプリケーションはまた、非線形番組（例えば、任意の時間においてユーザ機器デバイスにアクセス可能であって、スケジュールに従って提供されないコンテンツ）へのアクセスも提供する。非線形番組は、オンデマンドコンテンツ（例えば、ＶＯＤ）、インターネットコンテンツ（例えば、ストリーミングメディア、ダウンロード可能メディア等）、ローカルで記憶されたコンテンツ（例えば、上記で説明される任意のユーザ機器デバイスまたは他の記憶デバイス上に記憶されたコンテンツ）、または時間的制約のない他のコンテンツを含む、異なるコンテンツソースからのコンテンツを含み得る。オンデマンドコンテンツは、特定のコンテンツプロバイダ（例えば、「ＴｈｅＳｏｐｒａｎｏｓ」および「ＣｕｒｂＹｏｕｒＥｎｔｈｕｓｉａｓｍ」を提供するＨＢＯＯｎＤｅｍａｎｄ）によって提供される映画または任意の他のコンテンツを含み得る。ＨＢＯＯＮＤＥＭＡＮＤは、ＴｉｍｅＷａｒｎｅｒＣｏｍｐａｎｙＬ．Ｐ．ｅｔａｌ．によって所有されるサービスマークであり、ＴＨＥＳＯＰＲＡＮＯＳおよびＣＵＲＢＹＯＵＲＥＮＴＨＵＳＩＡＳＭは、ＨｏｍｅＢｏｘＯｆｆｉｃｅ，Ｉｎｃ．によって所有される商標である。インターネットコンテンツは、チャットセッションまたはウェブキャスト等のウェブイベント、もしくはインターネットウェブサイトまたは他のインターネットアクセス（例えば、ＦＴＰ）を通してストリーミングコンテンツまたはダウンロード可能なコンテンツとしてオンデマンドで利用可能なコンテンツを含み得る。

グリッド３０２は、オンデマンドリスト項目３１４、録画コンテンツリスト項目３１６、およびインターネットコンテンツリスト項目３１８を含む、非線形番組のメディアガイドデータを提供し得る。異なるタイプのコンテンツソースからのコンテンツのためのメディアガイドデータを組み合わせる表示は、時として、「混合メディア」表示と称されることもある。表示３００とは異なる、表示され得るメディアガイドデータのタイプの種々の順列は、ユーザ選択またはガイドアプリケーション定義に基づき得る（例えば、録画および放送リスト項目のみの表示、オンデマンドおよび放送リスト項目のみの表示等）。例証されるように、リスト項目３１４、３１６、および３１８は、これらのリスト項目の選択が、それぞれ、オンデマンドリスト項目、録画リスト項目、またはインターネットリスト項目専用の表示へのアクセスを提供し得ることを示すように、グリッド３０２内に表示される時間帯全体に及ぶものとして示されている。いくつかの実施形態では、これらのコンテンツタイプのリスト項目は、グリッド３０２に直接含まれ得る。ユーザがナビゲーションアイコン３２０のうちの１つを選択することに応答して、付加的メディアガイドデータが表示され得る（ユーザ入力デバイス上の矢印キーを押下することは、ナビゲーションアイコン３２０を選択することと同様に表示に影響を及ぼし得る）。

表示３００はまた、ビデオ領域３２２、およびオプション領域３２６を含み得る。ビデオ領域３２２は、ユーザが、ユーザに現在利用可能である、今後利用可能となる、もしくは利用可能であった番組を視聴および／またはプレビューすることを可能にし得る。ビデオ領域３２２のコンテンツは、グリッド３０２に表示されるリスト項目のうちの１つに対応する、またはそれから独立し得る。ビデオ領域を含むグリッド表示は、時として、ピクチャインガイド（ＰＩＧ）表示と称されることもある。ＰＩＧ表示およびそれらの機能性は、２００３年５月１３日発行のＳａｔｔｅｒｆｉｅｌｄｅｔａｌ．の米国特許第６，５６４，３７８号、および２００１年５月２９日発行のＹｕｅｎｅｔａｌ．の米国特許第６，２３９，７９４号（それらの全体として参照することによって本明細書に組み込まれる）でより詳細に説明されている。ＰＩＧ表示は、本明細書に説明される実施形態の他のメディアガイドアプリケーション表示画面に含まれ得る。

オプション領域３２６は、ユーザが、異なるタイプのコンテンツ、メディアガイドアプリケーション表示、および／またはメディアガイドアプリケーション特徴にアクセスすることを可能にし得る。オプション領域３２６は、表示３００（および本明細書に説明される他の表示画面）の一部であり得る、または画面上のオプションを選択すること、もしくはユーザ入力デバイス上の専用または割当可能ボタンを押下することによって、ユーザによって呼び出され得る。オプション領域３２６内の選択可能オプションは、グリッド３０２内の番組リスト項目に関連する特徴に関し得る、またはメインメニュー表示から利用可能なオプションを含み得る。番組リスト項目に関連する特徴は、他の放送時間または番組の受信方法の検索、番組の録画、番組の連続録画の有効化、番組および／またはチャネルをお気に入りとして設定、番組の購入、もしくは他の特徴を含み得る。メインメニュー表示から利用可能なオプションは、検索オプション、ＶＯＤオプション、ペアレンタルコントロールオプション、インターネットオプション、クラウドベースのオプション、デバイス同期オプション、第２の画面デバイスオプション、種々のタイプのメディアガイドデータ表示にアクセスするオプション、プレミアムサービスをサブスクライブするオプション、ユーザのプロファイルを編集するオプション、ブラウザオーバーレイにアクセスするオプション、または他のオプションを含み得る。

メディアガイドアプリケーションは、ユーザの選好に基づいて個人化され得る。個人化されたメディアガイドアプリケーションは、ユーザが、メディアガイドアプリケーションを用いて個人化された「体験」を生成するように、表示および特徴をカスタマイズすることを可能にする。この個人化された体験は、ユーザがこれらのカスタマイズを入力することを可能にすることによって、および／または種々のユーザ選好を決定するようにメディアガイドアプリケーションがユーザアクティビティを監視することによって、生成され得る。ユーザは、ログインすることによって、または別様にガイドアプリケーションに対して自らを識別することによって、それらの個人化されたガイドアプリケーションにアクセスし得る。メディアガイドアプリケーションのカスタマイズは、ユーザプロファイルに従って作成され得る。カスタマイズは、提示方式（例えば、表示の色方式、テキストのフォントサイズ等）、表示されるコンテンツリスト項目の側面（例えば、ＨＤＴＶ番組のみまたは３Ｄ番組のみ、お気に入りチャネル選択に基づいたユーザ指定の放送チャネル、チャネルの表示の並び替え、推奨コンテンツ等）、所望の録画特徴（例えば、特定のユーザに対する録画または連続録画、録画品質等）、ペアレンタルコントロール設定、インターネットコンテンツのカスタマイズされた提示（例えば、ソーシャルメディアコンテンツ、電子メール、電子的に配信された記事等の提示）、および他の所望のカスタマイズを変更させるステップを含み得る。

メディアガイドアプリケーションは、ユーザが、ユーザプロファイル情報を提供することを可能にし得る、またはユーザプロファイル情報を自動的にコンパイルし得る。メディアガイドアプリケーションは、例えば、ユーザがアクセスするコンテンツ、および／またはユーザがガイドアプリケーションと行い得る他の相互作用を監視し得る。加えて、メディアガイドアプリケーションは、特定のユーザに関連する他のユーザプロファイルの全体または一部を取得し（例えば、ｗｗｗ．Ｔｉｖｏ．ｃｏｍ等のユーザがアクセスするインターネット上の他のウェブサイトから、ユーザがアクセスする他のメディアガイドアプリケーションから、ユーザがアクセスする他の双方向アプリケーションから、ユーザの別のユーザ機器デバイスから等）、および／またはメディアガイドアプリケーションがアクセスし得る他のソースから、ユーザについての情報を取得し得る。結果として、ユーザは、ユーザの異なるユーザ機器デバイスにわたって、統一されたガイドアプリケーション体験を提供されることができる。本タイプのユーザ体験は、図６に関連して下記でより詳細に説明される。付加的な個人化されたメディアガイドアプリケーション特徴は、２００５年７月１１日出願のＥｌｌｉｓｅｔａｌ．の米国特許出願第２００５／０２５１８２７号、２００７年１月１６日出願のＢｏｙｅｒｅｔａｌ．の米国特許第７，１６５，０９８号、および２００２年２月２１日出願のＥｌｌｉｓｅｔａｌ．の米国特許出願第２００２／０１７４４３０号（それらの全体として参照することによって本明細書に組み込まれる）でより詳細に説明されている。

メディアガイドを提供するための別の表示配列が、図４に示されている。ビデオモザイク表示４００は、コンテンツのタイプ、ジャンル、および／または他の編成基準に基づいて編成されたコンテンツ情報のための選択可能オプション４０２を含む。表示４００では、テレビリスト項目オプション４０４が、選択され、したがって、リスト項目４０６、４０８、４１０、および４１２を放送番組リスト項目として提供する。表示４００では、リスト項目は、カバーアート、コンテンツからの静止画像、ビデオクリップのプレビュー、コンテンツからのライブビデオ、またはリスト項目中のメディアガイドデータによって記述されているコンテンツをユーザに示す他のタイプのコンテンツを含む、グラフィック画像を提供し得る。グラフィックリスト項目はまた、それぞれ、リスト項目に関連付けられるコンテンツに関するさらなる情報を提供するように、テキストを伴ってもよい。例えば、リスト項目４０８は、メディア部分４１４およびテキスト部分４１６を含む、２つ以上の部分を含み得る。メディア部分４１４および／またはテキスト部分４１６は、コンテンツをフル画面で視聴するように、またはメディア部分４１４に表示されるコンテンツに関連する情報を閲覧するように（例えば、ビデオが表示されるチャネルのリスト項目を閲覧するように）、選択可能であり得る。

表示４００内のリスト項目は、異なるサイズである（すなわち、リスト項目４０６は、リスト項目４０８、４１０、および４１２より大きい）が、所望に応じて、全てのリスト項目が同一のサイズであり得る。リスト項目は、コンテンツプロバイダの所望に応じて、またはユーザ選好に基づいて、ユーザの関心の程度を示すように、またはあるコンテンツを強調するように、異なるサイズであるか、またはグラフィック的に強調され得る。コンテンツリスト項目をグラフィック的に強調するための種々のシステムおよび方法は、例えば、２００９年１１月１２日に出願されたＹａｔｅｓの米国特許出願公開第２０１０／０１５３８８５号（その全体として参照することによって本明細書に組み込まれる）で議論されている。

ユーザは、そのユーザ機器デバイスのうちの１つ以上のものから、コンテンツおよびメディアガイドアプリケーション（ならびに上記および下記で説明されるその表示画面）にアクセスし得る。図５は、例証的ユーザ機器デバイス５００の汎用実施形態を示す。ユーザ機器デバイスのより具体的な実装は、図６に関連して下記で議論される。ユーザ機器デバイス５００は、入出力（以下「Ｉ／Ｏ」）パス５０２を介して、コンテンツおよびデータを受信し得る。Ｉ／Ｏパス５０２は、処理回路５０６および記憶装置５０８を含む制御回路５０４に、コンテンツ（例えば、放送番組、オンデマンド番組、インターネットコンテンツ、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を経由して利用可能なコンテンツ、および／または他のコンテンツ）およびデータを提供し得る。制御回路５０４は、Ｉ／Ｏパス５０２を使用して、コマンド、要求、および他の好適なデータを送受信するために使用され得る。Ｉ／Ｏパス５０２は、制御回路５０４（具体的には、処理回路５０６）を１つ以上の通信パス（下記に説明される）に接続し得る。Ｉ／Ｏ機能は、これらの通信パスのうちの１つ以上のものによって提供され得るが、図面が複雑になり過ぎることを回避するため、図５では単一パスとして示されている。

制御回路５０４は、処理回路５０６等の任意の好適な処理回路に基づき得る。本明細書で参照されるように、処理回路は、１つ以上のマイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、プログラマブル論理デバイス、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）等に基づく回路を意味すると理解され、マルチコアプロセッサ（例えば、デュアルコア、クアドコア、ヘクサコア、または任意の好適な数のコア）またはスーパーコンピュータを含み得る。いくつかの実施形態では、処理回路は、複数の別個のプロセッサまたは処理ユニット、例えば、複数の同一のタイプの処理ユニット（例えば、２つのＩｎｔｅｌＣｏｒｅｉ７プロセッサ）または複数の異なるプロセッサ（例えば、ＩｎｔｅｌＣｏｒｅｉ５プロセッサおよびＩｎｔｅｌＣｏｒｅｉ７プロセッサ）にわたって分散され得る。いくつかの実施形態では、制御回路５０４は、メモリ（すなわち、記憶装置５０８）に記憶されたメディアガイドアプリケーションに対する命令を実行する。具体的には、制御回路５０４は、メディアガイドアプリケーションによって、上記および下記で議論される機能を果たすように命令され得る。例えば、メディアガイドアプリケーションは、制御回路５０４に、メディアガイド表示を生成するための命令を提供し得る。いくつかの実装では、制御回路５０４によって実施される任意のアクションは、メディアガイドアプリケーションから受信される命令に基づき得る。

クライアントサーバベースの実施形態では、制御回路５０４は、ガイドアプリケーションサーバまたは他のネットワークもしくはサーバと通信するための好適な通信回路を含み得る。上記に述べられる機能性を実施するための命令は、ガイドアプリケーションサーバ上に記憶され得る。通信回路は、ケーブルモデム、総合デジタル通信網（ＩＳＤＮ）モデム、デジタルサブスクライバ回線（ＤＳＬ）モデム、電話モデム、イーサネット（登録商標）カード、または他の機器との通信用の無線モデム、もしくは任意の他の好適な通信回路を含み得る。そのような通信は、インターネットまたは任意の他の好適な通信ネットワークもしくはパスを伴ってもよい（図６に関連してより詳細に説明される）。加えて、通信回路は、ユーザ機器デバイスのピアツーピア通信、または相互から遠隔の場所にあるユーザ機器デバイスの通信を可能にする回路を含み得る（下記でより詳細に説明される）。

メモリは、制御回路５０４の一部である、記憶装置５０８として提供される、電子記憶デバイスであり得る。本明細書で参照されるように、語句「電子記憶デバイス」または「記憶デバイス」とは、ランダムアクセスメモリ、読取専用メモリ、ハードドライブ、光学ドライブ、デジタルビデオディスク（ＤＶＤ）レコーダ、コンパクトディスク（ＣＤ）レコーダ、ＢＬＵ－ＲＡＹ（登録商標）ディスク（ＢＤ）レコーダ、ＢＬＵ－ＲＡＹ（登録商標）３Ｄディスクレコーダ、デジタルビデオレコーダ（ＤＶＲ、または時として、パーソナルビデオレコーダもしくはＰＶＲと呼ばれる場合もある）、ソリッドステートデバイス、量子記憶デバイス、ゲームコンソール、ゲームメディア、または任意の他の好適な固定もしくはリムーバブル記憶デバイス、および／またはそれらの任意の組み合わせ等の電子データ、コンピュータソフトウェア、もしくはファームウェアを記憶するための任意のデバイスを意味すると理解されたい。記憶装置５０８は、本明細書に説明される種々のタイプのコンテンツ、ならびに上記で説明されるメディアガイドデータを記憶するために使用され得る。不揮発性メモリもまた、（例えば、ブートアップルーチンおよび他の命令を起動するために）使用され得る。図６に関連して説明される、クラウドベースの記憶装置が、記憶装置５０８を補完するために使用される、または記憶装置５０８の代わりに使用され得る。

制御回路５０４は、１つ以上のアナログチューナ、１つ以上のＭＰＥＧ－２デコーダ、もしくは他のデジタルデコード回路、高解像度チューナ、または任意の他の好適な同調もしくはビデオ回路、またはそのような回路の組み合わせ等のビデオ生成回路および同調回路を含み得る。（例えば、記憶するために、無線、アナログ、またはデジタル信号をＭＰＥＧ信号に変換するための）エンコード回路もまた、提供され得る。制御回路５０４はまた、コンテンツをユーザ機器５００の好ましい出力形式に上方変換および下方変換するためのスケーリング回路を含み得る。回路５０４はまた、デジタル信号とアナログ信号との間で変換するためのデジタル／アナログ変換回路ならびにアナログ／デジタル変換回路を含み得る。同調およびエンコード回路は、コンテンツを受信して表示する、再生する、または録画するために、ユーザ機器デバイスによって使用され得る。同調およびエンコード回路はまた、ガイドデータを受信するために使用され得る。例えば、同調、ビデオ生成、エンコード、デコード、暗号化、解読、スケーリング、およびアナログ／デジタル回路を含む、本明細書に説明される回路は、１つ以上の汎用もしくは特殊プロセッサ上で起動するソフトウェアを使用して実装され得る。複数のチューナが、同時同調機能（例えば、視聴および録画機能、ピクチャインピクチャ（ＰＩＰ）機能、多重チューナ録画機能等）に対処するように提供され得る。記憶装置５０８が、ユーザ機器５００とは別のデバイスとして提供される場合、同調およびエンコード回路（複数のチューナを含む）は、記憶装置５０８に関連付けられ得る。

ユーザは、ユーザ入力インターフェース５１０を使用して、命令を制御回路５０４に送信し得る。ユーザ入力インターフェース５１０は、リモートコントロール、マウス、トラックボール、キーパッド、キーボード、タッチスクリーン、タッチパッド、スタイラス入力、ジョイスティック、音声認識インターフェース、または他のユーザ入力インターフェース等の任意の好適なユーザインターフェースであり得る。ディスプレイ５１２は、独立型デバイスとして提供される、またはユーザ機器デバイス５００の他の要素と統合され得る。例えば、ディスプレイ５１２は、タッチスクリーンまたはタッチセンサ式ディスプレイであり得る。そのような状況では、ユーザ入力インターフェース５１０は、ディスプレイ５１２と統合される、または組み合わせられ得る。ディスプレイ５１２は、モニタ、テレビ、モバイルデバイス用液晶ディスプレイ（ＬＣＤ）、非晶質シリコンディスプレイ、低温ポリシリコンディスプレイ、電子インクディスプレイ、電気泳動ディスプレイ、アクティブマトリクスディスプレイ、エレクトロウェッティングディスプレイ、電気流体ディスプレイ、ブラウン管ディスプレイ、発光ダイオードディスプレイ、エレクトロルミネセントディスプレイ、プラズマディスプレイパネル、高性能アドレッシングディスプレイ、薄膜トランジスタディスプレイ、有機発光ダイオードディスプレイ、表面伝導型電子放出素子ディスプレイ（ＳＥＤ）、レーザテレビ、カーボンナノチューブ、量子ドットディスプレイ、干渉変調器ディスプレイ、もしくは視覚的画像を表示するための任意の他の好適な機器のうちの１つ以上のものであり得る。いくつかの実施形態では、ディスプレイ５１２は、ＨＤＴＶ対応型であり得る。いくつかの実施形態では、ディスプレイ５１２は、３Ｄディスプレイであってもよく、双方向メディアガイドアプリケーションおよび任意の好適なコンテンツは、３Ｄで表示され得る。ビデオカードまたはグラフィックカードは、ディスプレイ５１２への出力を生成し得る。ビデオカードは、３Ｄシーンおよび２Ｄグラフィックのレンダリングの加速、ＭＰＥＧ－２／ＭＰＥＧ－４デコード、ＴＶ出力、または複数のモニタを接続する能力等の種々の機能を提供し得る。ビデオカードは、制御回路５０４に関連して上記で説明される任意の処理回路であり得る。ビデオカードは、制御回路５０４と統合され得る。スピーカ５１４は、ユーザ機器デバイス５００の他の要素と統合されたものとして提供され得る、または独立型ユニットであり得る。ディスプレイ５１２上に表示されるビデオおよび他のコンテンツのオーディオコンポーネントは、スピーカ５１４を通して再生され得る。いくつかの実施形態では、オーディオは、スピーカ５１４を介して音声を処理および出力する、受信機（図示せず）に配布され得る。

ガイドアプリケーションは、任意の好適なアーキテクチャを使用して実装され得る。例えば、これは、ユーザ機器デバイス５００上で完全に実装される、独立型アプリケーションであり得る。そのようなアプローチでは、アプリケーションの命令は、ローカルで（例えば、記憶装置５０８の中に）記憶され、アプリケーションによって使用するためのデータは、周期的にダウンロードされる（例えば、帯域外フィードから、インターネットリソースから、または別の好適なアプローチを使用して）。制御回路５０４は、記憶装置５０８からアプリケーションの命令を読み出し、本明細書で議論される表示のうちのいずれかを生成するための命令を処理し得る。処理された命令に基づいて、制御回路５０４は、入力が入力インターフェース５１０から受信されるときに実施するアクションを決定し得る。例えば、表示上のカーソルの上／下への移動は、入力インターフェース５１０が上／下ボタンが選択されたことを示すとき、処理された命令によって示され得る。

いくつかの実施形態では、メディアガイドアプリケーションは、クライアントサーバベースのアプリケーションである。ユーザ機器デバイス５００上に実装される、シックまたはシンクライアントによって使用するためのデータは、ユーザ機器デバイス５００の遠隔にあるサーバに要求を発行することによって、オンデマンドで読み出される。クライアントサーバベースのガイドアプリケーションの一実施例では、制御回路５０４は、遠隔サーバによって提供されるウェブページを解釈する、ウェブブラウザを起動する。例えば、遠隔サーバは、記憶デバイス内にアプリケーションのための命令を記憶し得る。遠隔サーバは、回路（例えば、制御回路５０４）を使用して、記憶された命令を処理し、上記および下記で議論される表示を生成し得る。クライアントデバイスは、遠隔サーバによって生成される表示を受信してもよく、表示のコンテンツを機器デバイス５００上でローカルで表示し得る。このように、命令の処理が、サーバによって遠隔で実施される一方、結果として生じる表示は、機器デバイス５００上にローカルで提供される。機器デバイス５００は、入力インターフェース５１０を介して、ユーザからの入力を受信し、対応する表示を処理および生成するために、それらの入力を遠隔サーバに伝送し得る。例えば、機器デバイス５００は、上／下ボタンが入力インターフェース５１０を介して選択されたことを示す、通信を遠隔サーバに伝送し得る。遠隔サーバは、その入力に従って命令を処理し、入力に対応するアプリケーションの表示を生成し得る（例えば、カーソルを上／下に移動させる表示）。生成された表示は、次いで、ユーザへの提示のために、機器デバイス５００に伝送される。

いくつかの実施形態では、メディアガイドアプリケーションは、インタープリタまたは仮想マシン（制御回路５０４によって起動される）によって、ダウンロードされ、解釈または別様に起動される。いくつかの実施形態では、ガイドアプリケーションは、ＥＴＶバイナリ交換形式（ＥＴＶＢｉｎａｒｙＩｎｔｅｒｃｈａｎｇｅＦｏｒｍａｔ／ＥＢＩＦ）でエンコードされ、好適なフィードの一部として制御回路５０４によって受信され、制御回路５０４上で起動するユーザエージェントによって解釈され得る。例えば、ガイドアプリケーションは、ＥＢＩＦアプリケーションであり得る。いくつかの実施形態では、ガイドアプリケーションは、制御回路５０４によって実行されるローカル仮想マシンまたは他の好適なミドルウェアによって受信および起動される、一連のＪＡＶＡ（登録商標）ベースのファイルによって定義され得る。そのような実施形態のうちのいくつか（例えば、ＭＰＥＧ－２または他のデジタルメディアエンコードスキームを採用するもの）では、ガイドアプリケーションは、例えば、番組のＭＰＥＧオーディオおよびビデオパケットを用いたＭＰＥＧ－２オブジェクトカルーセルにおいてエンコードおよび伝送され得る。

図５のユーザ機器デバイス５００は、ユーザテレビ機器６０２、ユーザコンピュータ機器６０４、無線ユーザ通信デバイス６０６、または非携帯用ゲーム機等のコンテンツにアクセスするために好適な任意の他のタイプのユーザ機器として、図６のシステム６００に実装されることができる。簡単にするために、これらのデバイスは、本明細書では総称して、ユーザ機器またはユーザ機器デバイスと称されてもよく、上記で説明されるユーザ機器デバイスに実質的に類似し得る。メディアガイドアプリケーションが実装され得る、ユーザ機器デバイスは、独立型デバイスとして機能し得る、またはデバイスのネットワークの一部であり得る。デバイスの種々のネットワーク構成が実装されてもよく、下記でより詳細に議論される。

図５に関連して上記で説明されるシステム特徴のうちの少なくともいくつかを利用する、ユーザ機器デバイスは、単に、ユーザテレビ機器６０２、ユーザコンピュータ機器６０４、または無線ユーザ通信デバイス６０６として分類されなくてもよい。例えば、ユーザテレビ機器６０２は、いくつかのユーザコンピュータ機器６０４のように、インターネットコンテンツへのアクセスを可能にするインターネット対応型であり得る一方で、ユーザコンピュータ機器６０４は、あるテレビ機器６０２のように、テレビ番組へのアクセスを可能にするチューナを含み得る。メディアガイドアプリケーションはまた、種々の異なるタイプのユーザ機器上で同一のレイアウトを有し得る、またはユーザ機器の表示能力に合わせられ得る。例えば、ユーザコンピュータ機器６０４上では、ガイドアプリケーションは、ウェブブラウザによってアクセスされるウェブサイトとして提供され得る。別の実施例では、ガイドアプリケーションは、無線ユーザ通信デバイス６０６用に縮小され得る。

システム６００では、典型的には、各タイプのユーザ機器デバイスが２つ以上存在するが、図面が複雑になり過ぎることを回避するように、それぞれ１つだけが図６に示されている。加えて、各ユーザは、２つ以上のタイプのユーザ機器デバイスと、また、各タイプのユーザ機器デバイスのうちの２つ以上のものとを利用し得る。

いくつかの実施形態では、ユーザ機器デバイス（例えば、ユーザテレビ機器６０２、ユーザコンピュータ機器６０４、無線ユーザ通信デバイス６０６）は、「第２の画面デバイス」と称され得る。例えば、第２の画面デバイスは、第１のユーザ機器デバイス上に提示されるコンテンツを補完し得る。第２の画面デバイス上に提示されるコンテンツは、第１のデバイス上に提示されるコンテンツを補完する、任意の好適なコンテンツであり得る。いくつかの実施形態では、第２の画面デバイスは、第１のデバイスの設定および表示選好を調節するためのインターフェースを提供する。いくつかの実施形態では、第２の画面デバイスは、他の第２の画面デバイスと相互作用する、またはソーシャルネットワークと相互作用するために構成される。第２の画面デバイスは、第１のデバイスと同一の部屋内に、第１のデバイスと異なる部屋であるが、同一の家または建物内に、もしくは第１のデバイスと異なる建物内に位置することができる。

ユーザはまた、家庭内デバイスおよび遠隔デバイスにわたって一貫したメディアガイドアプリケーション設定を維持するように、種々の設定を設定し得る。設定は、本明細書に説明されるもの、ならびにお気に入りのチャネルおよび番組、番組を推奨するためにガイドアプリケーションが利用する番組選好、表示選好、および他の望ましいガイド設定を含む。例えば、ユーザが、そのオフィスのパーソナルコンピュータ上、例えば、ウェブサイトｗｗｗ．Ｔｉｖｏ．ｃｏｍの上で、チャネルをお気に入りとして設定した場合、同一のチャネルが、ユーザの家庭内デバイス（例えば、ユーザテレビ機器およびユーザコンピュータ機器）上で、ならびに所望に応じて、ユーザのモバイルデバイス上でお気に入りとして表示されるであろう。したがって、同一または異なるタイプのユーザ機器デバイスであるかどうかにかかわらず、１つのユーザ機器デバイス上で行われる変更は、別のユーザ機器デバイス上のガイド体験を変更することができる。加えて、行われる変更は、ユーザによって入力される設定、ならびにガイドアプリケーションによって監視されるユーザアクティビティに基づき得る。

ユーザ機器デバイスは、通信ネットワーク６１４に結合され得る。すなわち、ユーザテレビ機器６０２、ユーザコンピュータ機器６０４、および無線ユーザ通信デバイス６０６は、それぞれ、通信パス６０８、６１０、および６１２を介して、通信ネットワーク６１４に結合される。通信ネットワーク６１４は、インターネット、携帯電話ネットワーク、モバイルボイスまたはデータネットワーク（例えば、４ＧまたはＬＴＥネットワーク）、ケーブルネットワーク、公衆交換電話ネットワーク、または他のタイプの通信ネットワーク、もしくは通信ネットワークの組み合わせを含む、１つ以上のネットワークであり得る。パス６０８、６１０、および６１２は、別個または一緒に、衛星パス、光ファイバパス、ケーブルパス、インターネット通信をサポートするパス（例えば、ＩＰＴＶ）、フリースペース接続（例えば、放送または他の無線信号用）、または任意の他の好適な有線もしくは無線通信パス、またはそのようなパスの組み合わせ等の１つ以上の通信パスを含み得る。パス６１２は、図６に示される例示的実施形態では、無線パスであることを示すように破線で描かれ、パス６０８および６１０は、有線パスであることを示すように実線として描かれている（しかし、これらのパスは、所望に応じて、無線パスであり得る）。ユーザ機器デバイスとの通信は、これらの通信パスのうちの１つ以上のものによって提供され得るが、図６では、図面が複雑になり過ぎることを回避するように、単一パスとして示されている。

通信パスは、ユーザ機器デバイスの間には描かれていないが、これらのデバイスは、パス６０８、６１０、および６１２に関連して上記で説明されるもの、ならびにＵＳＢケーブル、ＩＥＥＥ１３９４ケーブル、無線パス（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、赤外線、ＩＥＥＥ８０２－１１ｘ等）等の他の短距離ポイントツーポイント通信パス、または有線もしくは無線パスを介した他の短距離通信等を介して、相互に直接通信し得る。ＢＬＵＥＴＯＯＴＨ（登録商標）は、Ｂｌｕｅｔｏｏｔｈ（登録商標）ＳＩＧ，ＩＮＣ．によって所有される認証マークである。ユーザ機器デバイスはまた、通信ネットワーク６１４を介した間接パスを通して、相互に直接通信し得る。

システム６００は、それぞれ、通信パス６２０および６２２を介して、通信ネットワーク６１４に結合される、コンテンツソース６１６およびメディアガイドデータソース６１８を含む。パス６２０および６２２は、パス６０８、６１０、および６１２に関連して上記で説明される通信パスのうちのいずれかを含み得る。コンテンツソース６１６およびメディアガイドデータソース６１８との通信は、１つ以上の通信パスを介して交信され得るが、図６では、図面が複雑になり過ぎることを回避するように、単一パスとして示される。加えて、コンテンツソース６１６およびメディアガイドデータソース６１８のそれぞれが１つを上回って存在し得るが、図６では、図面が複雑になり過ぎることを回避するように、それぞれ１つだけが示されている。（異なるタイプのこれらのソースのそれぞれが下記で議論される）。所望に応じて、コンテンツソース６１６およびメディアガイドデータソース６１８は、１つのソースデバイスとして統合され得る。ソース６１６および６１８と、ユーザ機器デバイス６０２、６０４、および６０６との間の通信は、通信ネットワーク６１４を通したものとして示されるが、いくつかの実施形態では、ソース６１６および６１８は、パス６０８、６１０、および６１２に関連して上記で説明されるもの等の通信パス（図示せず）を介して、ユーザ機器デバイス６０２、６０４、および６０６と直接通信し得る。

コンテンツソース６１６は、テレビ配信施設、ケーブルシステムヘッドエンド、衛星配信施設、番組ソース（例えば、ＮＢＣ、ＡＢＣ、ＨＢＯ等のテレビ放送会社）、中間配信施設および／またはサーバ、インターネットプロバイダ、オンデマンドメディアサーバ、および他のコンテンツプロバイダを含む、１つ以上のタイプのコンテンツ配信機器を含み得る。ＮＢＣは、ＮａｔｉｏｎａｌＢｒｏａｄｃａｓｔｉｎｇＣｏｍｐａｎｙ，Ｉｎｃ．によって所有される商標であり、ＡＢＣは、ＡｍｅｒｉｃａｎＢｒｏａｄｃａｓｔｉｎｇＣｏｍｐａｎｙ，ＩＮＣ．によって所有される商標であり、ＨＢＯは、ＨｏｍｅＢｏｘＯｆｆｉｃｅ，Ｉｎｃ．によって所有される商標である。コンテンツソース６１６は、コンテンツの発信元であり得る（例えば、テレビ放送会社、ウェブキャストプロバイダ等）、またはコンテンツの発信元でなくてもよい（例えば、オンデマンドコンテンツプロバイダ、ダウンロード用放送番組のコンテンツのインターネットプロバイダ等）。コンテンツソース６１６は、ケーブルソース、衛星プロバイダ、オンデマンドプロバイダ、インターネットプロバイダ、オーバーザトップコンテンツプロバイダ、または他のコンテンツのプロバイダを含み得る。コンテンツソース６１６はまた、ユーザ機器デバイスのうちのいずれかから遠隔の場所にある、異なるタイプのコンテンツ（ユーザによって選択されるビデオコンテンツを含む）を記憶するために使用される、遠隔メディアサーバを含み得る。コンテンツの遠隔記憶のため、および遠隔に記憶されたコンテンツをユーザ機器に提供するためのシステムならびに方法は、２０１０年７月２０日発行のＥｌｌｉｓｅｔａｌ．の米国特許出願第７，７６１，８９２号（その全体として参照することによって本明細書に組み込まれる）に関連して、より詳細に議論されている。

メディアガイドデータソース６１８は、上記で説明されるメディアガイドデータ等のメディアガイドデータを提供し得る。メディアガイドデータは、任意の好適なアプローチを使用して、ユーザ機器デバイスに提供され得る。いくつかの実施形態では、ガイドアプリケーションは、データフィード（例えば、継続フィードまたはトリクルフィード）を介して、番組ガイドデータを受信する、独立型双方向テレビ番組ガイドであり得る。番組スケジュールデータおよび他のガイドデータは、テレビチャネルのサイドバンド上で、帯域内デジタル信号を使用して、帯域外デジタル信号を使用して、または任意の他の好適なデータ伝送技術によって、ユーザ機器に提供され得る。番組スケジュールデータおよび他のメディアガイドデータは、複数のアナログまたはデジタルテレビチャネル上でユーザ機器に提供され得る。

いくつかの実施形態では、メディアガイドデータソース６１８からのガイドデータは、クライアントサーバアプローチを使用して、ユーザの機器に提供され得る。例えば、ユーザ機器デバイスは、メディアガイドデータをサーバからプルし得る、またはサーバは、メディアガイドデータをユーザ機器デバイスにプッシュし得る。いくつかの実施形態では、ユーザの機器上に常駐するガイドアプリケーションクライアントは、必要に応じて、例えば、ガイドデータが、古くなっているとき、またはユーザ機器デバイスが、データを受信する要求をユーザから受信するとき、ソース６１８とセッションを開始し、ガイドデータを取得し得る。メディアガイドは、任意の好適な頻度で（例えば、継続的に、毎日、ユーザ規定期間で、システム規定期間で、ユーザ機器からの要求に応答して等）ユーザ機器に提供され得る。メディアガイドデータソース６１８は、ユーザ機器デバイス６０２、６０４、および６０６に、メディアガイドアプリケーション自体、またはメディアガイドアプリケーションのソフトウェア更新を提供し得る。

いくつかの実施形態では、メディアガイドデータは、視聴者データを含み得る。例えば、視聴者データは、現在および／または履歴ユーザアクティビティ情報（例えば、ユーザが典型的に鑑賞するコンテンツ、ユーザがコンテンツを鑑賞する時刻、ユーザがソーシャルネットワークと相互作用するかどうか、ユーザがソーシャルネットワークと相互作用し、情報をポストする時間、ユーザが典型的に鑑賞するコンテンツのタイプ（例えば、有料ＴＶまたは無料ＴＶ）、気分、脳の活動情報等）を含み得る。メディアガイドデータはまた、サブスクリプションデータを含み得る。例えば、サブスクリプションデータは、所与のユーザがサブスクライブするソースもしくはサービス、および／または所与のユーザが以前にサブスクライブしていたが後にアクセスを打ち切ったソースもしくはサービス（例えば、ユーザがプレミアムチャネルをサブスクライブしているかどうか、ユーザがプレミアムレベルのサービスを追加したかどうか、ユーザがインターネット速度を加速させたかどうか）を識別し得る。いくつかの実施形態では、視聴者データおよび／またはサブスクリプションデータは、１年を上回る周期の間の所与のユーザのパターンを識別し得る。メディアガイドデータは、所与のユーザがサービス／ソースへのアクセスを打ち切るであろう可能性を示すスコアを生成するために使用される、モデル（例えば、残存者モデル）を含み得る。例えば、メディアガイドアプリケーションは、所与のユーザが特定のサービスまたはソースへのアクセスを打ち切るであろうかどうかの可能性を示す、値またはスコアを生成するためのモデルを併用して、サブスクリプションデータとともに視聴者データを処理し得る。特に、より高いスコアは、ユーザが特定のサービスまたはソースへのアクセスを打ち切るであろう、より高いレベルの信頼性を示し得る。スコアに基づいて、メディアガイドアプリケーションは、ユーザがアクセスを打ち切る可能性が高いであろうものとしてスコアによって示される特定のサービスまたはソースをユーザが維持するように勧誘する宣伝を生成し得る。

メディアガイドアプリケーションは、例えば、ユーザ機器デバイス上に実装される独立型アプリケーションであり得る。例えば、メディアガイドアプリケーションは、記憶装置５０８内に記憶され、ユーザ機器デバイス５００の制御回路５０４によって実行され得る、ソフトウェアまたは実行可能命令のセットとして実装され得る。いくつかの実施形態では、メディアガイドアプリケーションは、クライアント－サーバアプリケーションであってもよく、その場合、クライアントアプリケーションのみが、ユーザ機器デバイス上に常駐し、サーバアプリケーションは、遠隔サーバ上に常駐する。例えば、メディアガイドアプリケーションは、部分的にユーザ機器デバイス５００の制御回路５０４上のクライアントアプリケーションとして、および遠隔サーバの制御回路上で起動するサーバアプリケーション（例えば、メディアガイドデータソース６１８）として部分的に遠隔サーバ上で、実装され得る。遠隔サーバの制御回路（メディアガイドデータソース６１８等）によって実行されると、メディアガイドアプリケーションは、制御回路に、ガイドアプリケーション表示を生成し、生成された表示をユーザ機器デバイスに伝送するように命令し得る。サーバアプリケーションは、メディアガイドデータソース６１８の制御回路に、ユーザ機器上での記憶のためのデータを伝送するように命令し得る。クライアントアプリケーションは、受信用ユーザ機器の制御回路に、ガイドアプリケーション表示を生成するように命令し得る。

ユーザ機器デバイス６０２、６０４、および６０６に配信されるコンテンツおよび／またはメディアガイドデータは、オーバーザトップ（ＯＴＴ）コンテンツであり得る。ＯＴＴコンテンツ配信は、上記で説明される任意のユーザ機器デバイスを含む、インターネット対応型ユーザデバイスが、ケーブルまたは衛星接続を経由して受信されるコンテンツに加えて、上記で説明される任意のコンテンツを含む、インターネットを経由して転送されるコンテンツを受信することを可能にする。ＯＴＴコンテンツは、インターネットサービスプロバイダ（ＩＳＰ）によって提供されるインターネット接続を介して配布されるが、第三者も、コンテンツを配布する。ＩＳＰは、視聴能力、著作権、またはコンテンツの再配布に責任がない場合があり、ＯＴＴコンテンツプロバイダによって提供されるＩＰパケットのみを転送し得る。ＯＴＴコンテンツプロバイダの実施例は、ＩＰパケットを介して、オーディオおよびビデオを提供する、ＹＯＵＴＵＢＥ（登録商標）、ＮＥＴＦＬＩＸ、ならびにＨＵＬＵを含む。Ｙｏｕｔｕｂｅは、ＧｏｏｇｌｅＩｎｃ．によって所有される商標であり、Ｎｅｔｆｌｉｘは、Ｎｅｔｆｌｉｘ，Ｉｎｃ．によって所有される商標であり、Ｈｕｌｕは、Ｈｕｌｕ，ＬＬＣ．によって所有される商標である。ＯＴＴコンテンツプロバイダは、加えて、または代替として、上記で説明されるメディアガイドデータを提供し得る。コンテンツおよび／またはメディアガイドデータに加えて、ＯＴＴコンテンツのプロバイダは、メディアガイドアプリケーション（例えば、ウェブベースのアプリケーションまたはクラウドベースのアプリケーション）を配布することができる、またはコンテンツは、ユーザ機器デバイス上に記憶されたメディアガイドアプリケーションによって表示されることができる。

メディアガイドシステム６００は、いくつかのアプローチまたはネットワーク構成を例証することを意図しており、これによって、ユーザ機器デバイスおよびコンテンツならびにガイドデータのソースは、コンテンツにアクセスし、メディアガイドを提供する目的のために、相互に通信し得る。本明細書に説明される実施形態は、これらのアプローチのうちのいずれか１つまたは一部において、もしくはコンテンツを配信し、メディアガイドを提供するための他のアプローチを採用するシステムにおいて、適用され得る。以下の４つのアプローチは、図６の汎用実施例の具体的例証を提供する。

あるアプローチでは、ユーザ機器デバイスは、ホームネットワーク内で相互に通信し得る。ユーザ機器デバイスは、上記で説明される短距離ポイントツーポイント通信方式を介して、ホームネットワーク上に提供されるハブまたは他の類似デバイスを通した間接パスを介して、もしくは通信ネットワーク６１４を介して、相互に直接通信することができる。１つの家庭内の複数の個人のそれぞれが、ホームネットワーク上の異なるユーザ機器デバイスを動作させ得る。結果として、種々のメディアガイド情報または設定が、異なるユーザ機器デバイスの間で通信されることが望ましくあり得る。例えば、２００５年７月１１日出願のＥｌｌｉｓｅｔａｌ．の米国特許公開第２００５／０２５１８２７号でより詳細に説明されるように、ホームネットワーク内の異なるユーザ機器デバイス上で、ユーザが一貫したメディアガイドアプリケーション設定を維持することが望ましくあり得る。ホームネットワーク内の異なるタイプのユーザ機器デバイスもまた、相互に通信し、コンテンツを伝送し得る。例えば、ユーザは、ユーザコンピュータ機器から携帯用ビデオプレーヤまたは携帯用音楽プレーヤにコンテンツを伝送し得る。

第２のアプローチでは、ユーザは、複数のタイプのユーザ機器を有してもよく、これによって、コンテンツにアクセスし、メディアガイドを取得する。例えば、一部のユーザは、家庭内およびモバイルデバイスによってアクセスされる、ホームネットワークを有し得る。ユーザは、遠隔デバイス上に実装されるメディアガイドアプリケーションを介して、家庭内デバイスを制御し得る。例えば、ユーザは、そのオフィスのパーソナルコンピュータ、またはＰＤＡもしくはウェブ対応携帯電話等のモバイルデバイスを介して、ウェブサイト上のオンラインメディアガイドアプリケーションにアクセスし得る。ユーザは、オンラインガイドアプリケーション上で種々の設定（例えば、録画、リマインダ、または他の設定）を設定して、ユーザの家庭内機器を制御し得る。オンラインガイドは、直接、またはユーザの家庭内機器上のメディアガイドアプリケーションと通信することによって、ユーザの機器を制御し得る。ユーザ機器デバイスが相互から遠隔の場所にある、ユーザ機器デバイスの通信のための種々のシステムおよび方法は、例えば、Ｅｌｌｉｓｅｔａｌ．の２０１１年１０月２５日発行の米国特許第８，０４６，８０１号（その全体として参照することによって本明細書に組み込まれる）で議論されている。

第３のアプローチでは、家庭内外のユーザ機器デバイスのユーザは、コンテンツソース６１６と直接通信し、コンテンツにアクセスするために、そのメディアガイドアプリケーションを使用することができる。具体的には、家庭内では、ユーザテレビ機器６０２およびユーザコンピュータ機器６０４のユーザは、メディアガイドアプリケーションにアクセスし、所望のコンテンツ間をナビゲートし、それを特定し得る。ユーザはまた、無線ユーザ通信デバイス６０６を使用して、家庭外のメディアガイドアプリケーションにアクセスし、所望のコンテンツ間をナビゲートし、それを特定し得る。

第４のアプローチでは、ユーザ機器デバイスは、クラウドコンピューティング環境内で動作し、クラウドサービスにアクセスし得る。クラウドコンピューティング環境では、コンテンツ共有、記憶、または配布のための種々のタイプのコンピューティングサービス（例えば、ビデオ共有サイトまたはソーシャルネットワーキングサイト）が、「クラウド」と称される、ネットワークアクセス可能コンピューティングおよび記憶リソースの集合によって提供される。例えば、クラウドは、通信ネットワーク６１４を介したインターネット等のネットワークを介して接続される、種々のタイプのユーザおよびデバイスにクラウドベースのサービスを提供する、中央にまたは分散場所に位置し得る、サーバコンピューティングデバイスの集合を含むことができる。これらのクラウドリソースは、１つ以上のコンテンツソース６１６および１つ以上のメディアガイドデータソース６１８を含み得る。加えて、または代替として、遠隔コンピューティングサイトは、ユーザテレビ機器６０２、ユーザコンピュータ機器６０４、および無線ユーザ通信デバイス６０６等の他のユーザ機器デバイスを含み得る。例えば、他のユーザ機器デバイスは、ビデオの記憶されたコピーまたはストリーミングされたビデオへのアクセスを提供し得る。そのような実施形態では、ユーザ機器デバイスは、中央サーバと通信することなく、ピアツーピア様式で動作し得る。

クラウドは、ユーザ機器デバイスのために、他の実施例の中でもとりわけ、コンテンツ記憶、コンテンツ共有、またはソーシャルネットワーキングサービス等のサービスへのアクセス、ならびに上記で説明される任意のコンテンツへのアクセスを提供する。サービスは、クラウドコンピューティングサービスプロバイダを通して、またはオンラインサービスの他のプロバイダを通して、クラウド内で提供されることができる。例えば、クラウドベースのサービスは、コンテンツ記憶サービス、コンテンツ共有サイト、ソーシャルネットワーキングサイト、または他のサービスを含むことができ、それを介して、ユーザ供給コンテンツは、接続されたデバイス上で他者によって視聴するために配布される。これらのクラウドベースのサービスは、ユーザ機器デバイスが、コンテンツをローカルで記憶し、ローカルで記憶されたコンテンツにアクセスするのではなく、コンテンツをクラウドに記憶し、コンテンツをクラウドから受信することを可能にし得る。

ユーザは、カムコーダ、ビデオモード付きデジタルカメラ、オーディオレコーダ、携帯電話、およびハンドヘルドコンピューティングデバイス等の種々のコンテンツ捕捉デバイスを使用して、コンテンツを録画し得る。ユーザは、直接、例えば、ユーザコンピュータ機器６０４から、またはコンテンツ捕捉特徴を有する無線ユーザ通信デバイス６０６からのいずれかにおいて、クラウド上のコンテンツ記憶サービスにコンテンツをアップロードすることができる。代替として、ユーザは、最初に、コンテンツをユーザコンピュータ機器６０４等のユーザ機器デバイスに転送することができる。コンテンツを記憶するユーザ機器デバイスは、通信ネットワーク６１４上のデータ伝送サービスを使用して、コンテンツをクラウドにアップロードする。いくつかの実施形態では、ユーザ機器デバイス自体が、クラウドリソースであり、他のユーザ機器デバイスは、直接、ユーザがコンテンツを記憶したユーザ機器デバイスから、コンテンツにアクセスすることができる。

クラウドリソースは、例えば、ウェブブラウザ、メディアガイドアプリケーション、デスクトップアプリケーション、モバイルアプリケーション、および／またはそれらのアクセスアプリケーションの任意の組み合わせを使用して、ユーザ機器デバイスによってアクセスされ得る。ユーザ機器デバイスは、アプリケーション配信のためにクラウドコンピューティングに依拠する、クラウドクライアントであり得る、またはユーザ機器デバイスは、クラウドリソースにアクセスすることなく、ある機能性を有し得る。例えば、ユーザ機器デバイス上で起動するいくつかのアプリケーションは、クラウドアプリケーション、すなわち、インターネットを経由して、サービスとして配信されるアプリケーションであり得る一方で、他のアプリケーションは、ユーザ機器デバイス上に記憶され、起動され得る。いくつかの実施形態では、ユーザデバイスは、コンテンツを複数のクラウドリソースから同時に受信し得る。例えば、ユーザデバイスは、オーディオを１つのクラウドリソースからストリーミングする一方で、コンテンツを第２のクラウドリソースからダウンロードすることができる。または、ユーザデバイスは、より効率的なダウンロードのために、コンテンツを複数のクラウドリソースからダウンロードすることができる。いくつかの実施形態では、ユーザ機器デバイスは、図５に関連して説明される処理回路によって実施される処理動作等の処理動作のために、クラウドリソースを使用することができる。

本明細書で参照されるように、用語「～に応答して」は、「～の結果として開始される」ことを指す。例えば、第２のアクションに応答して実施されている第１のアクションは、第１のアクションと第２のアクションとの間に介在ステップを含み得る。本明細書で参照されるように、用語「～に直接応答して」は、「～によって引き起こされる」ことを指す。例えば、第２のアクションに直接応答して実施されている第１のアクションは、第１のアクションと第２のアクションとの間に介在ステップを含まなくてもよい。

図７は、後続の第２の発話に基づいて、ユーザが第２の発話で第１の入力を訂正することを意図したという第２の発話の中の明示的指示がない場合、自動発話認識を使用して第１の発話から生成される第１の入力のエラーを訂正するためのプロセス７００の例証的フローチャートを描写する。メディアガイドアプリケーションは、ユーザ機器（例えば、ユーザ機器５００、ユーザテレビ機器６０２、ユーザコンピュータ機器６０４、または無線ユーザ通信デバイス６０６）の制御回路５０４に、図７の要素のそれぞれを実行させる。プロセス７００は、制御回路５０４が、ユーザ入力デバイス（例えば、ユーザ入力インターフェース５１０、無線通信デバイス６０６）を介して、第１の発話（例えば、第１の発話１０６）を受信する、７０２から開始する。第１の発話は、例えば、ユーザによって話された言葉を含み得る。第１の発話は、メディアアセット等の項目の検索を開始することをユーザによって意図され得る。例えば、第１の発話は、「オースティンについての番組を見せて」であり得る。

プロセス７００は、制御回路５０４が、自動発話認識（ＡＳＲ）を使用して、第１の発話に基づいて第１の入力（例えば、第１の入力１０８）を決定する、７０４に続く。例えば、制御回路５０４は、公知の自動発話認識技法を使用して、第１の発話をテキストに変換することによって、第１の入力を決定し得る。例えば、第１の発話が「オースティンについての番組を見せて」である場合、制御回路５０４は、第１の入力を「ボストンについての番組を見せて」であると決定し、それによって、第１の発話の中の「オースティン」を「ボストン」として不正確に認識し得る。

プロセス７００は、制御回路５０４が、データベースから（例えば、通信ネットワーク６１４を通してメディアコンテンツソース６１６もしくはメディアガイドデータソース６１８から、または記憶装置５０８から）、第１の入力に基づいて検索結果（例えば、検索結果１１２）を読み出す、７０６に続く。データベースは、例えば、情報リポジトリを含み得る。例えば、第１の入力が「ボストンについての番組を見せて」である場合、制御回路５０４は、ボストンで行われているテレビ番組Ｆｒｉｎｇｅを読み出し得る。

プロセス７００は、制御回路５０４が、検索結果を（例えば、ディスプレイ５１２上に）表示のために生成する、７０８に続く。例えば、検索結果がテレビ番組Ｆｒｉｎｇｅを含む場合、制御回路５０４は、Ｆｒｉｎｇｅのリスト項目（例えば、リスト項目３０８、４０６、４０８、４１０、または４１２）を表示のために生成し得る。

プロセス７００は、制御回路５０４が、検索結果が表示のために生成された第１の時間（例えば、第１の時間１１０）を決定する、７１０に続く。例えば、制御回路５０４は、表示画面（例えば、ディスプレイ５１２）のピクセルに伝送される信号が第１の発話を受信するステップに続いて最初に変化した時間を検出することによって、第１の時間を決定し得る。

プロセス７００は、制御回路５０４が、ユーザ入力デバイスを介して、第１の発話を受信するステップに続いて、第２の発話（例えば、第２の発話１１６）を受信する、７１２に続く。第２の発話は、例えば、ユーザによって話された言葉を含み得る。第２の発話は、制御回路５０４によって不正確に認識された第１の入力の一部を訂正することをユーザによって意図され得る。例えば、ユーザは、第１の発話に合致しない検索結果に基づいて、メディアガイドが第１の発話を不正確に認識したことを決定し得る。例えば、検索結果がボストンについての番組を含む場合、ユーザは、制御回路５０４が、第１の発話（「オースティンについての番組を見せて」）に応答して、「ボストンについての番組を見せて」を不正確に生成したことを決定し得る。故に、第２の発話は、ユーザが「ボストン」を「オースティン」に訂正することを意図する、「オースティン」であり得る。

プロセス７００は、制御回路５０４が、自動発話認識（ＡＳＲ）を使用して、第２の発話に基づいて第２の入力（例えば、第２の入力１２０）を決定する、７１４に続く。例えば、制御回路５０４は、公知の自動発話認識技法を使用して、第２の発話をテキストに変換することによって、第２の入力を決定し得る。例えば、第２の発話が「オースティン」である場合、制御回路５０４は、第２の入力を「オースティン」であると決定し、それによって、第２の発話の中の「オースティン」を正確に認識し得る。

プロセス７００は、制御回路５０４が、第２の発話が受信された第２の時間（例えば、第２の時間１１４）を決定する、７１６に続く。例えば、制御回路５０４は、第１の時間に続く最も早い発音が起こった時間を測定することによって、第２の時間を決定し得る。例えば、制御回路５０４が午前１０：００：００に検索結果を表示のために生成し、ユーザからの次の発音が「オースティン」であった場合、制御回路５０４は、「オースティン」の中の最初の「Ａｕ（オー）」という音が午前１０：００：００に起こったことを測定し、午前１０：００：００を第２の時間と見なし得る。

プロセス７００は、制御回路５０４が、第２の時間と第１の時間との間の時間差（例えば、時間差１１８）を閾値時間と比較する、７１８に続く。例えば、第１の時間が午前１０：００：００であり、第２の時間が午前１０：００：１０である場合、制御回路５０４は、時間差を１０秒であると算出し、本時間差を、２０秒であり得る閾値時間と比較し得る。

プロセス７００は、制御回路５０４が、第２の時間と第１の時間との間の時間差を閾値時間と比較するステップに基づいて、第２の時間と第１の時間との間の時間差が閾値時間未満であることを決定する、７２０に続く。例えば、時間差が１０秒であり、閾値時間が２０秒である場合、制御回路５０４は、１０秒が２０秒未満であることを決定し得る。

プロセス７００は、制御回路５０４が、第２の時間と第１の時間との間の時間差が閾値時間未満であることを決定することに基づいて、第１の入力の一部を第２の入力の一部と置換することによって、第１の入力に基づいて訂正された入力（例えば、訂正された入力１２２）を生成する、７２２に続く。例えば、第１の入力が「ボストンについての番組を見せて」であり、第２の入力が「オースティン」である場合、制御回路５０４は、「ボストン」を「オースティン」と置換し、「オースティンについての番組を見せて」という訂正された入力を生成し得る。

プロセス７００またはその任意のステップは、図４－５に示されるデバイスのうちのいずれかの上で実施される、もしくはそれによって提供され得ることに留意されたい。例えば、プロセス６００は、後続の第２の発話に基づいて、ユーザが第２の発話で第１の入力を訂正することを意図したという第２の発話の中の明示的指示がない場合、自動発話認識を使用して第１の発話から生成される第１の入力のエラーを訂正するために、ユーザ機器６０２、６０４、６０６（図６）、および／またはユーザ機器５００（図５）上に実装される制御回路によって命令されるように、制御回路５０４（図５）によって実行され得る。加えて、プロセス７００は、任意の他のプロセスまたは実施形態の１つ以上のステップに組み込まれる、もしくはそれと組み合わせられ得る。

図８は、後続の第２の発話に基づいて、ユーザが第２の発話で第１の入力を訂正することを意図したという第２の発話の中の明示的指示がない場合、自動発話認識を使用して第１の発話から生成される第１の入力のエラーを訂正するためのプロセス８００の例証的フローチャートを描写する。メディアガイドアプリケーションは、ユーザ機器（例えば、ユーザ機器５００、ユーザテレビ機器６０２、ユーザコンピュータ機器６０４、または無線ユーザ通信デバイス６０６）の制御回路５０４に、図８の要素のそれぞれを実行させる。プロセス８００は、制御回路５０４が、ユーザ入力デバイス（例えば、ユーザ入力インターフェース５１０、無線通信デバイス６０６）を介して、第１の発話（例えば、第１の発話２０６）を受信する、８０２から開始する。第１の発話は、例えば、ユーザによって話された言葉を含み得る。第１の発話は、メディアアセット等の項目の検索を開始することをユーザによって意図され得る。例えば、第１の発話は、「オースティンについての番組を見せて」であり得る。

プロセス８００は、制御回路５０４が、自動発話認識（ＡＳＲ）を使用して、第１の発話に基づいて第１の入力（例えば、第１の入力２０８）を決定する、８０４に続く。例えば、制御回路５０４は、公知の自動発話認識技法を使用して、第１の発話をテキストに変換することによって、第１の入力を決定し得る。例えば、第１の発話が「オースティンについての番組を見せて」である場合、制御回路５０４は、第１の入力を「ボストンについての番組を見せて」であると決定し、それによって、第１の発話の中の「オースティン」を「ボストン」として不正確に認識し得る。

プロセス８００は、制御回路５０４が、データベースから（例えば、通信ネットワーク６１４を通してメディアコンテンツソース６１６もしくはメディアガイドデータソース６１８から、または記憶装置５０８から）、第１の入力に基づいて検索結果（例えば、検索結果２１２）を読み出す、８０６に続く。データベースは、例えば、情報リポジトリを含み得る。例えば、第１の入力が「ボストンについての番組を見せて」である場合、制御回路５０４は、ボストンで行われているテレビ番組Ｆｒｉｎｇｅを読み出し得る。

プロセス８００は、制御回路５０４が、検索結果を（例えば、ディスプレイ５１２上に）表示のために生成する、８０８に続く。例えば、検索結果がテレビ番組Ｆｒｉｎｇｅを含む場合、制御回路５０４は、Ｆｒｉｎｇｅのリスト項目（例えば、リスト項目３０８、４０６、４０８、４１０、または４１２）を表示のために生成し得る。

プロセス８００は、制御回路５０４が、検索結果が表示のために生成された第１の時間（例えば、第１の時間２１０）を決定する、８１０に続く。例えば、制御回路５０４は、表示画面（例えば、ディスプレイ５１２）のピクセルに伝送される信号が第１の発話を受信するステップに続いて最初に変化した時間を検出することによって、第１の時間を決定し得る。

プロセス８００は、制御回路が、ユーザ入力デバイスを介して、第１の時間におけるユーザ入力デバイスの第１の加速（例えば、第１の加速２１３）を測定する、８１２に続く。例えば、第１の時間におけるユーザ入力デバイスが近似的に静止している場合、第１の加速は、０ｍ／秒^２であり得る。

プロセス８００は、制御回路５０４が、ユーザ入力デバイスを介して、第１の発話を受信するステップに続いて、第２の発話（例えば、第２の発話２１６）を受信する、８１４に続く。第２の発話は、例えば、ユーザによって話された言葉を含み得る。第２の発話は、制御回路５０４によって不正確に認識された第１の入力の一部を訂正することをユーザによって意図され得る。例えば、ユーザは、第１の発話に合致しない検索結果に基づいて、メディアガイドが第１の発話を不正確に認識したことを決定し得る。例えば、検索結果がボストンについての番組を含む場合、ユーザは、制御回路５０４が、第１の発話（「オースティンについての番組を見せて」）に応答して、「ボストンについての番組を見せて」を不正確に生成したことを決定し得る。故に、第２の発話は、ユーザが「ボストン」を「オースティン」に訂正することを意図する、「オースティン」であり得る。

プロセス８００は、制御回路５０４が、自動発話認識（ＡＳＲ）を使用して、第２の発話に基づいて第２の入力（例えば、第２の入力７２０）を決定する、８１６に続く。例えば、制御回路５０４は、公知の自動発話認識技法を使用して、第２の発話をテキストに変換することによって、第２の入力を決定し得る。例えば、第２の発話が「オースティン」である場合、制御回路５０４は、第２の入力を「オースティン」であると決定し、それによって、第２の発話の中の「オースティン」を正確に認識し得る。

プロセス８００は、制御回路５０４が、第２の発話が受信された第２の時間（例えば、第２の時間２１４）を決定する、８１８に続く。例えば、制御回路５０４は、第１の時間に続く最も早い発音が起こった時間を測定することによって、第２の時間を決定し得る。例えば、制御回路５０４が午前１０：００：００に検索結果を表示のために生成し、ユーザからの次の発音が「オースティン」であった場合、制御回路５０４は、「オースティン」の中の最初の「Ａｕ（オー）」という音が午前１０：００：００に起こったことを測定し、午前１０：００：００を第２の時間と見なし得る。

プロセス８００は、制御回路が、ユーザ入力デバイスを介して、第１の時間と第２の時間との間のユーザ入力デバイスの第２の加速（例えば、第２の加速２１７）を測定する、８２０に続く。例えば、ユーザ入力デバイスが第１の時間と第２の時間との間に１ｍ／秒の速度で移動した場合、第２の加速は、１ｍ／秒^２であり得る。

プロセス８００は、制御回路が、第２の加速と第１の加速との間の加速の差（例えば、加速の差２１８）を決定する、８２２に続く。例えば、第１の加速が０ｍ／秒^２であり、第２の加速が１ｍ／秒^２である場合、加速の差は、１ｍ／秒^２であり得る。

プロセス８００は、制御回路５０４が、加速の差を閾値加速と比較する、８２４に続く。例えば、第１の時間におけるユーザ入力デバイスの加速が０ｍ／秒^２であり、第２の時間におけるデバイスの加速が１ｍ／秒^２である場合、制御回路は、加速の差を１ｍ／秒^２であると算出し、本加速の差を、０．２５ｍ／秒^２であり得る閾値加速と比較し得る。

プロセス８００は、制御回路５０４が、加速の差を閾値加速と比較するステップに基づいて、加速の差が閾値加速を上回ることを決定する、８２６に続く。例えば、加速の差が１ｍ／秒^２であり、閾値加速が０．２５ｍ／秒^２である場合、制御回路５０４は、１ｍ／秒^２が０．２５ｍ／秒^２を上回ることを決定し得る。

プロセス８００は、制御回路５０４が、加速の差が閾値加速を上回ることを決定することに基づいて、第１の入力の一部を第２の入力の一部と置換することによって、第１の入力に基づいて訂正された入力（例えば、訂正された入力２２２）を生成する、８２８に続く。例えば、第１の入力が「ボストンについての番組を見せて」であり、第２の入力が「オースティン」である場合、メディアガイドアプリケーションは、「ボストン」を「オースティン」と置換し、「オースティンについての番組を見せて」という訂正された入力を生成し得る。

プロセス８００またはその任意のステップは、図４－５に示されるデバイスのうちのいずれかの上で実施される、もしくはそれによって提供され得ることに留意されたい。例えば、プロセス８００は、後続の第２の発話に基づいて、ユーザが第２の発話で第１の入力を訂正することを意図したという第２の発話の中の明示的指示がない場合、自動発話認識を使用して第１の発話から生成される第１の入力のエラーを訂正するために、ユーザ機器６０２、６０４、６０６（図６）、および／またはユーザ機器５００（図５）上に実装される制御回路によって命令されるように、制御回路５０４（図５）によって実行され得る。加えて、プロセス８００は、任意の他のプロセスまたは実施形態の１つ以上のステップに組み込まれる、もしくはそれと組み合わせられ得る。例えば、第１の入力が「ボストンについての番組を見せて」であり、第２の入力が「オースティン」である場合、制御回路５０４は、「ボストン」を「オースティン」と置換し、「オースティンについての番組を見せて」という訂正された入力を生成し得る。

図９は、画像内の顔の相対サイズを決定することの例証的実施例を示す。図９は、複数のピクセル９００を備えている、表示画面を示す。各ピクセルは、ホリゾンタルインデックス９０２およびバーティカルインデックス９０４に基づくホリゾンタルアドレスを含む、アドレスを割り当てられる。例えば、複数のピクセル９００の右下隅におけるピクセルは、一対のうちの第１の数字がホリゾンタルアドレスを表し、一対のうちの第２の数字がバーティカルアドレスを表す、アドレス（６，０）を有する。複数のピクセル９００は、オブジェクト９０６を含む。オブジェクト９０６は、単純な形状として示されるが、本明細書に説明される方法は、オブジェクト９０６が顔である場合に同等に適用される。オブジェクト９０６の縁は、縁検出、限定ではないが、自己学習システム（例えば、ニューラルネットワーク）を含む、パターン認識、および／または任意の他の好適な技法もしくは方法を使用して、決定される。オブジェクト９０６が顔である場合、これは、Ｙａｎｇ，Ｍｉｎｇ－Ｈｓｕａｎ，ＤａｖｉｄＪ．Ｋｒｉｅｇｍａｎ，ａｎｄＮａｒｅｎｄｒａＡｈｕｊａ． “Ｄｅｔｅｃｔｉｎｇｆａｃｅｓｉｎｉｍａｇｅｓ：Ａｓｕｒｖｅｙ．” ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ２４Ａ（２００２）：３４－５８（その内容がそれらの全体として参照することによって本明細書に組み込まれる）に説明されるもの等の任意の顔検出方法を使用して、検出され得る。オブジェクト９０６の左縁は、アドレス（１，１）、（１，２）、（１，３）、および（１，４）にピクセルを含むことが決定され、底縁は、アドレス（１，１）、（２，１）、（３，１）、および（４，１）にピクセルを含むことが決定され、右縁は、アドレス（４，１）、（４，２）、（４，３）、（３，３）、および（３，４）にピクセルを含むことが決定され、上縁は、アドレス（１，４）、（２，４）、（３，４）、（３，３）、および（４，３）にピクセルを含むことが決定される。オブジェクト９０６はまた、縁の内部にピクセル、すなわち、アドレス（２，２）、（２，３）、および（３，２）にピクセルを含む。故に、オブジェクト９０６が発生する、複数のピクセル９００のうちのピクセルのサブセットは、（１，１）、（１，２）、（１，３）、（１，４）、（２，１）、（２，２）、（２，３）、（２，４）、（３，１）、（３，２）、（３，３）、（３，４）、（４，１）、（４，２）、および（４，３）である。オブジェクト９０６の相対サイズは、オブジェクト９０６が発生する、複数のピクセル９００のうちのピクセルの数と見なされ得る。図９の実施例では、オブジェクト９０６が発生する、複数のピクセル９００のうちのピクセルの数は、１５である。

図１０は、画像内の顔の相対サイズを決定するためのプロセスの例証的擬似コードを示す。下記の議論は、単純なオブジェクト９０６を対象とするが、オブジェクト９０６が顔である場合に同等に適用される。行１０００では、行列は、オブジェクトの左縁のピクセルのアドレスを含有して初期化され、変数ｌｅｆｔとして記憶される。図９の実施例に従って、ｌｅｆｔは、（１，１）、（１，２）、（１，３）、および（１，４）を含むであろう。行１００２では、行列は、オブジェクトの右縁のピクセルのアドレスを含有して初期化され、変数ｒｉｇｈｔとして記憶される。図９の実施例に従って、ｒｉｇｈｔは、（４，１）、（４，２）、（４，３）、（３，３）、および（３，４）を含むであろう。行１００４では、行列は、ｌｅｆｔおよびｒｉｇｈｔを含有して初期化され、ｓｈａｐｅとして記憶される。図９の実施例に従って、ｓｈａｐｅは、（１，１）、（１，２）、（１，３）、（１，４）、（４，１）、（４，２）、（４，３）、（３，３）、および（３，４）を含むであろう。行１００６－１００８は、ｌｅｆｔの各要素を通してループし、ｌｅｆｔ＿ｔｅｓｔとして要素を記憶する。例えば、要素（１，２）が、選定され得る。行１０１０－１０１２では、ｌｅｆｔ＿ｔｅｓｔのホリゾンタルおよびバーティカル成分は、それぞれ、ｌｅｆｔ＿ｔｅｓｔ＿ｈおよびｌｅｆｔ＿ｔｅｓｔ＿ｖとして記憶される。上記の実施例に従って、ｌｅｆｔ＿ｔｅｓｔ＿ｈは、１に等しく、ｌｅｆｔ＿ｔｅｓｔ＿ｖは、２に等しいであろう。行１０１４では、ｌｅｆｔ＿ｔｅｓｔ＿ｖに合致するバーティカル成分を有する、ｒｉｇｈｔの中の要素が、見出され、ｒｉｇｈｔ＿ｔｅｓｔとして記憶される。行１０１４は、ｒｉｇｈｔを通したループとして実装され得る。上記の実施例に従って、（４，２）が、選定され、ｒｉｇｈｔ＿ｔｅｓｔとして記憶され得る。行１０１６では、ｌｅｆｔ＿ｔｅｓｔ＿ｈは、１だけインクリメントされる。上記の実施例に従って、ｌｅｆｔ＿ｔｅｓｔ＿ｈは、２までインクリメントされるであろう。行１０１８－１０２２では、ｒｉｇｈｔ＿ｔｅｓｔのホリゾンタル成分がｌｅｆｔ＿ｔｅｓｔ＿ｈを上回る場合には、アドレス（ｌｅｆｔ＿ｔｅｓｔ＿ｈ，ｌｅｆｔ＿ｔｅｓｔ＿ｖ）を伴うピクセルが、ｓｈａｐｅに追加され、プロセスは、行１０１６に戻る。上記の実施例に従って、ｒｉｇｈｔ＿ｔｅｓｔのホリゾンタル成分は、４であり、ｌｅｆｔ＿ｔｅｓｔ＿ｈは、２であるため、（２，２）が、ｓｈａｐｅに追加され、プロセスは、行１０１６に戻る。行１６－２２を通した後続の行程では、（３，２）が、ｓｈａｐｅに追加されるであろう。後続の行程では、ｌｅｆｔ＿ｔｅｓｔ＿ｈがｒｉｇｈｔ＿ｔｅｓｔのホリゾンタル成分４に等しいであろうため、行１０１８内の条件文は、真ではなく、したがって、プロセスは、（１，３）等のｌｅｆｔの別の要素が選定される、行１００６に進むであろう。ｌｅｆｔの各要素が行１００６において選定されると、プロセスは、重複がｓｈａｐｅから除去される、行１０３２に進むであろう。本プロセスは、上および底縁に関して同様に繰り返されると、オブジェクトが発生する、複数のピクセルのうちのピクセルのサブセットを含むｓｈａｐｅをもたらすであろう。ｓｈａｐｅの要素の数は、次いで、オブジェクト９０６の相対サイズと見なされ得る。

上記で議論されるプロセスは、例証的であって、限定を意図するものではない。当業者は、本明細書で議論されるプロセスのステップが、本発明の範囲から逸脱することなく、省略される、修正される、組み合わせられる、および／または再配列されてもよく、任意の付加的ステップが、実施され得ることを理解するであろう。より一般的には、上記の開示は、例示的であって、限定を意図するものではない。続く請求項のみが、本発明が含むものに関する境界を設定することが意図されている。さらに、いずれか１つの実施形態で説明される特徴および限定は、本明細書の任意の他の実施形態に適用され得、一実施形態に関するフローチャートまたは実施例は、好適な様式で任意の他の実施形態と組み合わせられる、異なる順序で行われる、または並行して行われ得ることに留意されたい。加えて、本明細書で説明されるシステムおよび方法は、リアルタイムで実施され得る。また、上記で説明されるシステムおよび／または方法は、他のシステムならびに／もしくは方法に適用される、またはそれらに従って使用され得ることにも留意されたい。

Claims

ユーザが発話を用いて入力を訂正することを意図したという明示的指示が前記発話の中にない場合、前記発話に基づいて、前記入力を訂正する方法であって、前記入力は、自動発話認識を使用して生成され、前記方法は、
第１の発話を受信することと、
自動発話認識を使用して、前記第１の発話に基づいて第１の入力を生成することであって、前記第１の入力は、前記第１の発話の発話認識結果である、ことと、
前記第１の入力に基づく検索結果を表示のために生成することと、
第２の発話を受信することと、
前記検索結果が表示されたときと前記第２の発話が受信されたときとの間の時間差が閾値時間未満であるかどうかを決定することと、
前記検索結果が表示されたときと前記第２の発話が受信されたときとの間の前記時間差が前記閾値時間未満であることを決定することに基づいて、前記第２の発話に基づいて前記第１の入力を訂正することと
を含む、方法。
ユーザが発話を用いて入力を訂正することを意図したという明示的指示が前記発話の中にない場合、前記発話に基づいて、前記入力を訂正する方法であって、前記入力は、自動発話認識を使用して生成され、前記方法は、
ユーザ入力デバイスを介して、第１の発話を受信することと、
制御回路および自動発話認識を使用して、前記第１の発話に基づいて第１の入力を決定することであって、前記第１の入力は、前記第１の発話の発話認識結果である、ことと、
データベースから、前記第１の入力に基づく検索結果を読み出すことと、
前記制御回路を使用して、前記検索結果を表示のために生成することと、
前記制御回路を使用して、前記検索結果が表示のために生成された第１の時間を決定することと、
前記ユーザ入力デバイスを介して、前記第１の発話を受信することに続いて、第２の発話を受信することと、
前記制御回路および自動発話認識を使用して、前記第２の発話に基づいて第２の入力を決定することであって、前記第２の入力は、前記第２の発話の発話認識結果である、ことと、
前記制御回路を使用して、前記第２の発話が受信された第２の時間を決定することと、
前記制御回路を使用して、前記第２の時間と前記第１の時間との間の時間差を閾値時間と比較することと、
前記第２の時間と前記第１の時間との間の前記時間差を前記閾値時間と比較することに基づいて、前記制御回路を使用して、前記第２の時間と前記第１の時間との間の前記時間差が前記閾値時間未満であることを決定することと、
前記第２の時間と前記第１の時間との間の前記時間差が前記閾値時間未満であることを決定することに基づいて、前記制御回路を使用して、前記第１の入力の一部を前記第２の入力の一部と置換することによって、訂正された入力を前記第１の入力に基づいて生成することと
を含む、方法。
前記ユーザ入力デバイスを介して、前記第１の発話が受信されている間にユーザの顔の第１の画像を捕捉することと、
前記制御回路を使用して、前記第１の画像内の前記ユーザの顔の第１の相対サイズを決定することと、
前記ユーザ入力デバイスを介して、前記第２の発話が受信されている間に前記ユーザの顔の第２の画像を捕捉することと、
前記制御回路を使用して、前記第２の画像内の前記ユーザの顔の第２の相対サイズを決定することと、
前記制御回路を使用して、前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の相対サイズ差を閾値相対サイズと比較することと、
前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の前記相対サイズ差を前記閾値相対サイズと比較することに基づいて、前記制御回路を使用して、前記相対サイズ差が前記閾値相対サイズを上回ることを決定することと
をさらに含み、
前記訂正された入力を生成することは、前記制御回路を使用して、前記相対サイズ差が前記閾値相対サイズを上回ることを決定することにさらに基づく、請求項２に記載の方法。
前記ユーザ入力デバイスを介して、基準環境雑音レベルを測定することと、
前記ユーザ入力デバイスを介して、前記第１の発話が受信されている間の環境雑音レベルを測定することと、
前記制御回路を使用して、前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の環境雑音レベル差を閾値環境雑音レベルと比較することと、
前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の前記環境雑音レベル差を前記閾値環境雑音レベルと比較することに基づいて、前記制御回路を使用して、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定することと
をさらに含み、
前記訂正された入力を生成することは、前記制御回路を使用して、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定することにさらに基づく、請求項２に記載の方法。
前記訂正された入力を生成することは、前記制御回路を使用して、検索結果をブラウズすることに関連付けられたいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定することにさらに基づく、請求項２～４のいずれか一項に記載の方法。
検索結果をブラウズすることに関連付けられたいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定することは、前記検索結果をスクロールすること、前記検索結果の説明を読むこと、前記検索結果を開くこと、または前記検索結果を再生することを行うためのいかなる入力も、前記第１の時間と前記第２の時間との間に前記ユーザ入力デバイスを介して受信されなかったことを決定することを含む、請求項２～４のいずれか一項に記載の方法。
前記ユーザ入力デバイスを介して、前記第１の時間と前記第２の時間との間にユーザの顔の画像を捕捉することをさらに含み、
前記訂正された入力を生成することは、前記制御回路を使用して、前記画像内の前記ユーザの顔が不満な感情に関連付けられていることを決定することにさらに基づく、請求項２～４のいずれか一項に記載の方法。
前記制御回路を使用して、前記第２の時間と前記第１の時間との間の前記時間差を他の閾値時間と比較することと、
前記第２の時間と前記第１の時間との間の前記時間差を前記他の閾値時間と比較することに基づいて、前記制御回路を使用して、前記第２の時間と前記第１の時間との間の前記時間差が前記他の閾値時間を上回ることを決定することと、
をさらに含み、
前記訂正された入力を生成することは、前記制御回路を使用して、前記第２の時間と前記第１の時間との間の前記時間差が前記他の閾値時間を上回ることを決定することにさらに基づく、請求項２～４のいずれか一項に記載の方法。
ユーザに関連付けられた複数の入力間の平均時間に基づいて、前記閾値時間を調節することをさらに含む、請求項２～４のいずれか一項に記載の方法。
前記第２の発話が受信されたときの前記第２の時間を決定することは、前記ユーザ入力デバイスを介して、前記第１の時間に続く最も早い発音が受信された時間を測定することを含む、請求項２～４のいずれか一項に記載の方法。
ユーザ入力デバイスを介して、前記第１の発話が受信されている間にユーザの顔の第１の画像を捕捉することと、
制御回路を使用して、前記第１の画像内の前記ユーザの顔の第１の相対サイズを決定することと、
前記ユーザ入力デバイスを介して、前記第２の発話が受信されている間に前記ユーザの顔の第２の画像を捕捉することと、
前記制御回路を使用して、前記第２の画像内の前記ユーザの顔の第２の相対サイズを決定することと、
前記制御回路を使用して、前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の相対サイズ差を閾値相対サイズと比較することと、
前記ユーザの顔の前記第１の相対サイズと前記ユーザの顔の前記第２の相対サイズとの間の前記相対サイズ差を前記閾値相対サイズと比較することに基づいて、前記制御回路を使用して、前記相対サイズ差が前記閾値相対サイズを上回ることを決定することと
をさらに含み、
前記訂正された入力を生成することは、前記制御回路を使用して、前記相対サイズ差が前記閾値相対サイズを上回ることを決定することにさらに基づく、請求項１に記載の方法。
ユーザ入力デバイスを介して、基準環境雑音レベルを測定することと、
前記ユーザ入力デバイスを介して、前記第１の発話が受信されている間の環境雑音レベルを測定することと、
制御回路を使用して、前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の環境雑音レベル差を閾値環境雑音レベルと比較することと、
前記第１の発話が受信されている間の前記環境雑音レベルと前記基準環境雑音レベルとの間の前記環境雑音レベル差を前記閾値環境雑音レベルと比較することに基づいて、前記制御回路を使用して、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定することと
をさらに含み、
前記訂正された入力を生成することは、前記制御回路を使用して、前記環境雑音レベル差が前記閾値環境雑音レベルを上回ることを決定することにさらに基づく、請求項１に記載の方法。