JP2021006888A

JP2021006888A - 音声処理方法及び装置

Info

Publication number: JP2021006888A
Application number: JP2019218976A
Authority: JP
Inventors: ジンユイェ、; Jingyu Ye; メンメンジャン、; Mengmeng Zhang; ウェンミンワン、; Wenming Wang; ジリンリウ、; Zhilin Liu
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2019-06-27
Filing date: 2019-12-03
Publication date: 2021-01-21
Anticipated expiration: 2039-12-03
Also published as: CN110265017A; US20200410999A1; US11164583B2; CN110265017B; JP6868082B2

Abstract

【課題】端末の信頼性を向上させる音声処理方法を提供する。【解決手段】方法は、端末が第１のタイプのコンテンツを再生する時、端末はユーザによって入力される第１の音声を取得し、第１の音声は再生されるコンテンツを第２のタイプのコンテンツに切り替えるように端末に指示する。ただし、端末が第１のタイプのコンテンツを再生する前に、端末は予め設定されたタイプのコンテンツを再生する。端末は、第１の音声に対する第１の応答音声を再生する。第１の応答音声は、所定時間帯に予め設定されたタイプのコンテンツの再生を完了した後に引き続き第２のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に、引き続き目的タイプのコンテンツを再生する。目的タイプは、第１の応答音声に対するユーザのフィードバックに関連する。【選択図】図２

Description

本願の実施例はコンピュータ技術に関し、特に音声処理方法及び装置に関する。

現在、スマートスピーカーはますます普及しており、スマートスピーカーは、ユーザの生活に関係するコンテンツ、例えば、天気予報を再生することができる。また、スマートスピーカーはユーザと簡単な対話を実現し、ユーザの音声コマンドを実行することで、ユーザのニーズを満足させることもできるため、多くの人々に愛用される。

しかしながら、従来のスマートスピーカーは再生されるコンテンツがユーザの聴きたいコンテンツではない可能性があるため、従来のスマートスピーカーは信頼性が低い。

本願の実施例は端末の信頼性を向上させるための音声処理方法及び装置を提供する。

第１の態様として、本願の実施例は音声処理方法を提供し、当該方法は、端末が第１のタイプのコンテンツを再生する時、前記端末はユーザによって入力される第１の音声を取得し、前記第１の音声は再生されるコンテンツを第２のタイプのコンテンツに切り替えるように前記端末に指示し、ただし、前記端末が第１のタイプのコンテンツを再生する前に、前記端末は予め設定されたタイプのコンテンツを再生することと、前記端末は前記第１の音声に対する第１の応答音声を再生し、前記第１の応答音声は所定時間帯に前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き前記第２のタイプのコンテンツを再生するか否かをユーザに確認するためのものであることと、前記所定時間帯に、前記端末が前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生し、前記目的タイプは前記第１の応答音声に対する前記ユーザのフィードバックに関連することとを含む。

本態様において、端末が再生するコンテンツのタイプはユーザのニーズに基づき調整を行うことができるため、端末はユーザのニーズに合致するコンテンツを再生することができ、端末の信頼性が向上する。

第１の態様によれば、第１の態様の一つの可能な形態において、前記端末はサーバに前記第１の音声を送信することをさらに含む。

第１の態様によれば、第１の態様の一つの可能な形態において、所定時間帯に、前記端末は前記サーバから目的タイプのコンテンツを受信することをさらに含む。

第１の態様によれば、第１の態様の一つの可能な形態において、前記端末が前記第１の音声に基づき第１の応答音声を再生することは、前記第１の音声がスロット情報を含む場合、前記端末は前記スロット情報に基づき、前記第１の応答音声を再生することと、前記第１の音声がスロット情報を含まない場合、前記端末は前記第１の音声に基づき、予め設定された音声を再生し、前記予め設定された音声は前記第１の応答音声であることとを含む。

第１の態様によれば、第１の態様の一つの可能な形態において、前記端末はサーバから第１の音声に対する第１の応答音声を受信することをさらに含む。

第１の態様によれば、第１の態様の一つの可能な形態において、所定時間帯に、前記端末が前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き前記目的タイプのコンテンツを再生する前に、さらに、前記第１の応答音声の再生時間を開始時間として、前記端末は第１の予め設定された時間長内にユーザによって入力される第２の音声を取得し、前記第２の音声に基づき、前記目的タイプを決定することを含み、ただし、前記第２の音声は前記第１の応答音声に対するユーザのフィードバックであり、且つ、前記第２の音声は前記第１の応答音声に対するユーザの肯定応答又は否定応答である。

第１の態様によれば、第１の態様の一つの可能な形態において、前記端末が前記第２の音声に基づき、前記目的タイプを決定することは、前記第２の音声が前記第１の応答音声に対するユーザの肯定応答である場合、前記端末は前記目的タイプを前記第２のタイプに決定することと、前記第２の音声が前記第１の応答音声に対するユーザの否定応答である場合、前記端末は前記目的タイプを前記第１のタイプに決定することとを含む。

第１の態様によれば、第１の態様の一つの可能な形態において、前記端末は前記第２の音声に対する第２の応答音声を再生することをさらに含む。

第１の態様によれば、第１の態様の一つの可能な形態において、前記端末が前記第２の音声を取得した後に、さらに、前記第２のタイプのコンテンツを再生することを含む。

第１の態様によれば、第１の態様の一つの可能な形態において、前記端末はサーバに対して第２の音声を送信することをさらに含む。

第１の態様によれば、第１の態様の一つの可能な形態において、前記端末は前記サーバから前記第２の音声に対する第２の応答音声を受信することをさらに含む。

第１の態様によれば、第１の態様の一つの可能な形態において、前記端末が第２の音声を取得した後に、さらに、前記端末は前記サーバから前記第２のタイプのコンテンツを受信することを含む。

第１の態様によれば、第１の態様の一つの可能な形態において、前記第１の応答音声の再生時間を開始時間として、前記端末は第１の予め設定された時間長内にユーザによって入力される第３の音声を取得し、前記第３の音声は再生されるコンテンツを第３のタイプのコンテンツに切り替えるように前記端末に指示するためのものであり、前記第３の音声は前記第１の応答音声に対するユーザのフィードバックであることと、前記端末は前記第３のタイプのコンテンツを再生することとをさらに含み、これに対応して、前記目的タイプは前記第１のタイプである。

第１の態様によれば、第１の態様の一つの可能な形態において、前記端末はサーバに対して第３の音声を送信することをさらに含む。

第１の態様によれば、第１の態様の一つの可能な形態において、前記端末は前記サーバから前記第３のタイプのコンテンツを受信することをさらに含む。

第１の態様によれば、第１の態様の一つの可能な形態において、前記第１の応答音声の再生時間を開始時間として、前記端末が第１の予め設定された時間長内に前記第１の応答音声に対するユーザの応答を取得しなかった又は第４の音声を取得した場合、前記端末は前記第２のタイプのコンテンツを再生することをさらに含み、前記第４の音声は再生タイプを指示せず、前記第４の音声は前記第１の応答音声に対するユーザのフィードバックであり、これに対応して、前記目的タイプは前記第１のタイプである。

第１の態様によれば、第１の態様の一つの可能な形態において、前記端末はサーバに対して第４の音声を送信することをさらに含む。

第１の態様によれば、第１の態様の一つの可能な形態において、前記第１の応答音声の再生時間を開始時間として、前記端末が第１の予め設定された時間長内に前記第１の応答音声に対するユーザの応答を取得しなかった又は第４の音声を取得した場合、さらに、前記端末は前記サーバから前記第２のタイプのコンテンツを受信することを含む。

第１の態様によれば、第１の態様の一つの可能な形態において、前記端末が前記第１の音声に対する第１の応答音声を再生する前に、さらに、前記端末は前記第１のタイプのコンテンツの再生の時間長が第２の予め設定された時間長以下であることを決定することを含む。

第２の態様として、本願の実施例は音声処理方法を提供し、当該方法は、端末が第１のタイプのコンテンツを再生する時、サーバは前記端末から第１の音声を受信し、前記第１の音声は再生されるコンテンツを第２のタイプのコンテンツに切り替えるように前記端末に指示し、ただし、前記端末が第１のタイプのコンテンツを再生する前に、前記端末は予め設定されたタイプのコンテンツを再生することと、前記サーバは前記第１の音声に対する第１の応答音声を取得し、前記第１の応答音声を前記端末に送信することにより、前記端末は前記第１の応答音声を再生し、前記第１の応答音声は所定時間帯に前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き前記第２のタイプのコンテンツを再生するか否かをユーザに確認するためのものであることと、前記所定時間帯に、前記サーバは前記端末に対して目的タイプのコンテンツをプッシュし、前記目的タイプは前記所定時間帯に、前記端末が前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き再生するコンテンツのタイプであり、前記目的タイプは前記第１の応答音声に対する前記ユーザのフィードバックに関連することと、を含む。

第２の態様によれば、第２の態様の一つの可能な形態において、前記サーバが前記第１の音声に対する第１の応答音声を取得することは、前記第１の音声がスロット情報を含む場合、前記サーバは前記スロット情報に基づき、前記第１の応答音声を決定することと、第１の音声がスロット情報を含まない場合、前記サーバは前記第１の音声に基づき、予め設定された音声を前記第１の応答音声に決定することとを含む。

第２の態様によれば、第２の態様の一つの可能な形態において、前記サーバは前記端末から第２の音声を受信し、前記第２の音声は前記第１の応答音声に対するユーザのフィードバックであり、且つ、前記第２の音声は前記第１の応答音声に対するユーザの肯定応答又は否定応答であることと、前記サーバは第２の音声に基づき、前記目的タイプを決定することとをさらに含む。

第２の態様によれば、第２の態様の一つの可能な形態において、サーバが第２の音声に基づき、前記目的タイプを決定することは、前記第２の音声が前記第１の応答音声に対するユーザの肯定応答である場合、前記サーバは前記目的タイプを前記第２のタイプに決定することと、前記第２の音声が前記第１の応答音声に対するユーザの否定応答である場合、前記サーバは前記目的タイプを前記第１のタイプに決定することとを含む。

第２の態様によれば、第２の態様の一つの可能な形態において、前記サーバが前記端末に対して前記第２のタイプのコンテンツをプッシュすることにより、前記端末は前記第２のタイプのコンテンツを再生することをさらに含む。

第２の態様によれば、第２の態様の一つの可能な形態において、前記サーバは前記端末から第３の音声を受信し、前記第３の音声は前記第１の応答音声に対するユーザのフィードバックであり、且つ、前記第３の音声は再生されるコンテンツを第３のタイプのコンテンツに切り替えるように前記端末に指示することと、前記サーバは前記第３の音声に基づき、前記端末に対して前記第３のタイプのコンテンツをプッシュすることにより、前記端末は前記第３のタイプのコンテンツを再生することとをさらに含み、これに対応して、前記目的タイプは前記第１のタイプである。

第２の態様によれば、第２の態様の一つの可能な形態において、前記サーバは前記端末から第４の音声を受信し、前記第４の音声は前記第１の応答音声に対するユーザのフィードバックであり、且つ、前記第４の音声は再生タイプを指示しないことと、前記サーバは前記第４の音声に基づき、前記端末に対して前記第２のタイプのコンテンツをプッシュすることにより、前記端末は前記第２のタイプのコンテンツを再生することとをさらに含み、これに対応して、前記目的タイプは前記第１のタイプである。

第２の態様によれば、第２の態様の一つの可能な形態において、ユーザが前記第１の応答音声に対して応答を行わなかった場合、さらに、前記サーバが前記端末に対して前記第２のタイプのコンテンツをプッシュすることにより、前記端末は前記第２のタイプのコンテンツを再生することを含み、これに対応して、前記目的タイプは前記第１のタイプである。

第２の態様によれば、第２の態様の一つの可能な形態において、前記サーバが前記第１の音声に対する第１の応答音声を取得する前に、さらに、前記サーバは前記端末による前記第１のタイプのコンテンツの再生の時間長が第２の予め設定された時間長以下であることを決定することを含む。

第３の態様として、本願の実施例は端末を提供し、当該端末はメモリとプロセッサを含み、前記メモリが前記プロセッサに接続され、前記メモリはプログラムコマンドを記憶するために用いられ、前記プロセッサはプログラムコマンドが実行される時、第１の態様及び第１の態様のいずれか可能な形態に記載の方法を実現するために用いられる。

第４の態様として、本願の実施例はサーバを提供し、当該サーバはメモリとプロセッサを含み、前記メモリが前記プロセッサに接続され、前記メモリはプログラムコマンドを記憶するために用いられ、前記プロセッサはプログラムコマンドが実行される時、第２の態様及び第２の態様のいずれか可能な形態に記載の方法を実現するために用いられる。

第５の態様として、本願の実施例はコンピュータプログラムが記憶されるコンピュータ可読記憶媒体を提供し、前記コンピュータプログラムがプロセッサによって実行される時、第１の態様及び第１の態様のいずれか可能な形態に記載の方法が実現される、又は第２の態様及び第２の態様いずれか可能な形態に記載の方法が実現される。

本願において、端末が再生するコンテンツのタイプはユーザのニーズに基づき調整を行うことができるため、端末はユーザのニーズに合致するコンテンツを再生することができ、端末の信頼性が向上する。

本願の実施例又は従来技術による技術的解決手段をより明瞭に説明するため、以下、実施例又は従来技術の説明で必要な各図を簡単に紹介する。明らかなように、以下で説明する図面はただ本願のある実施例だけであり、当業者にとって、創造的な作業なしに更にこれらの図面に基づいてその他の図面を取得することができる。
本願の実施例に係るシステムの構成図である。本願の実施例によって提供される音声処理方法のフローチャートである。本願の実施例によって提供される音声処理方法の対話図１である。本願の実施例によって提供される音声処理方法の対話図２である。本願の実施例によって提供される音声処理方法の対話図３である。本願の実施例によって提供される音声処理方法の対話図４である。本願の実施例によって提供される音声処理装置の構造を示す概略図１である。本願の実施例によって提供される音声処理装置の構造を示す概略図２である。本願の一つの実施例によって提供される装置の構造を示す概略図である。

本願の実施例の目的、技術的解決手段及びその利点をより明瞭にするために、以下、本願の実施例における各図を用いて、本願の実施例に係る技術的解決手段を明瞭で且つ完全に説明する。言うまでもないが、説明される実施例は本願の一部の実施例に過ぎず、その全ての実施例ではない。当業者が本願の実施例に基づき、創造的な作業なしに得たすべてのその他の実施例は、いずれも本願の保護範囲に含まれる。

図１は本願の実施例に係るシステムの構成図である。図１が示すように、本実施例のシステムはサーバと端末を含んで構成される。サーバは端末に対して再生されるコンテンツをプッシュするために用いられ、端末はサーバによってプッシュされるコンテンツを再生するために用いられる。

ただし、端末はスマートスピーカーとすることができる。

図２は本願の実施例によって提供される音声処理方法のフローチャートであり、図２に示すように、本実施例に係る方法はステップＳ２０１〜ステップＳ２０３を含むことができる。
ステップＳ２０１において、端末が第１のタイプのコンテンツを再生する時、端末はユーザによって入力される第１の音声を取得し、第１の音声は再生されるコンテンツを第２のタイプのコンテンツに切り替えるように端末に指示し、ただし、端末が第１のタイプのコンテンツを再生する前に、端末は予め設定されたタイプのコンテンツを再生する。

本実施例において端末は音声を再生できるスマートスピーカーとすることができる。スマートスピーカーは所定の順番に従って１つ又は複数のタイプのコンテンツを再生できる、例えば、まず天気予報を再生し、次に音楽、ニュース、コーディネーション等のうちの１つ又は複数のタイプのコンテンツを順に再生する。

任意選択的に、本実施例において第１のタイプは当日の前に、端末に設定された各再生タイプのうちのいずれかのタイプであってよく、予め設定されたタイプは端末が第１のタイプを再生する前に再生される各タイプのうちのタイプである。

例示的に、当日の前に、端末に設定された各再生タイプは順に天気予報、ニュース、音楽及びコーディネーションである場合、第１のタイプは天気予報、ニュース、音楽、コーディネーションのうちのいずれかのタイプとすることができる。第１のタイプがニュースである場合、予め設定されたタイプは天気予報である。第１のタイプが音楽である場合、天気予報及びニュースはいずれも予め設定されたタイプである。

例示的に、当日の前に、端末に設定された各再生タイプは順に天気予報、ニュースである場合、第１のタイプは天気予報、ニュースのいずれかのタイプとすることができる。第１のタイプがニュースである場合、予め設定されたタイプは天気予報である。

任意選択的に、第１のタイプは当日の前に、端末に設定された天気予報以外の各再生タイプのいずれかのタイプである。

例示的に、当日の前に、端末に設定された各再生タイプは順に天気予報、ニュース、音楽及びコーディネーションである場合、第１のタイプはニュース、音楽、コーディネーションのいずれかのタイプとすることができる。第１のタイプがニュースである場合、予め設定されたタイプは天気予報である。第１のタイプが音楽である場合、天気予報及びニュースはいずれも予め設定されたタイプである。

例示的に、当日の前に、端末に設定された各再生タイプは順に天気予報、ニュースである場合、第１のタイプはニュースとすることができ、予め設定されたタイプは天気予報である。

第１の音声に関しては、端末が再生中の第１のタイプのコンテンツは音楽に関連するコンテンツであり、第２のタイプがニュースである場合、第１の音声は「科学技術ニュースを聴きたい」とすることができる。即ち第１の音声には、少なくとも第２のタイプを指示する情報が含まれる。

ステップＳ２０２において、端末は第１の音声に対する第１の応答音声を再生し、第１の応答音声は所定時間帯に予め設定されたタイプのコンテンツの再生を完了した後に引き続き第２のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。

任意選択的に、本願の実施例において所定時間帯は、現時点で端末の使用を終了した後の時間帯であり、例えば、所定時間帯は当日以後の時間帯である。

一つの形態において、端末はユーザによって入力される第１の音声を取得した後、第１の音声を認識し、第１のタイプと第２のタイプは同一ではないことを決定したら、第１の音声に対する第１の応答音声を決定しこれを再生し、第１の応答音声は所定時間帯に予め設定されたタイプのコンテンツの再生を完了した後に引き続き第２のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。

別の形態において、端末はユーザによって入力される第１の音声を取得した後、第１の音声をサーバに送信し、サーバは第１の音声を受信し、第１のタイプと第２のタイプは同一ではないことを決定したら、第１の音声に対する第１の応答音声を決定し、第１の応答音声を端末に送信し、端末は第１の音声に対する第１の応答音声を再生し、第１の応答音声は所定時間帯に予め設定されたタイプのコンテンツの再生を完了した後に引き続き第２のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。

具体的に、端末又はサーバが第１の音声に対する第１の応答音声を決定することは、第１の音声に対応するスロット情報がある場合、端末又はサーバは第１の音声に対応するスロット情報に基づき、第１の応答音声を決定することと、第１の音声に対応するスロット情報がない場合、予め設定された音声を第１の応答音声に決定する、即ち第１の応答音声は予め設定されたものであることとを含む。ただし、スロット情報とは、第２のタイプの下位タイプ又は第２のタイプの細分されたタイプを決定するために用いられることができる情報を指す。

ただし、端末又はサーバが第１の音声の対応するスロット情報に基づき、第１の応答音声を決定することは、端末又はサーバは第１の音声に対応するスロット情報及び第１の音声に対応するスロット情報の優先度に基づき、第１の応答音声を決定することを含む。一つの形態において、第１の音声に対応するスロット情報がある場合、第１の応答音声には、第１の音声に対応するスロット情報のうちの優先度が最高のスロット情報が含まれる。

以下、例１〜例５によって第１の応答音声を説明する。

例１において、第２のタイプはニュースであり、対応するスロットは、都市（ｃｉｔｙ）、ニュースカテゴリー（ｃａｔｅｇｏｒｙ）、時間タイプ（ｓｏｒｔ−ｔｙｐｅ）、ニュース名称（ａｌｂｕｍ）を含むことができ、各スロットの優先度は高いものから低いものまで順に、ニュース名称、ニュースカテゴリー、都市、時間タイプである。スロットの優先度とスロット情報の優先度は同一である。

第１の音声が「太原のスポーツニュースを聴きたい」である場合、「太原」及び「スポーツ」はいずれも第１の音声に対応するスロット情報であり、「太原」は都市というスロットに該当する情報であり、「スポーツ」はニュースカテゴリーというスロットに該当する情報であり、ニュースカテゴリーは都市よりも優先度が高いため、第１の応答音声は「スポーツ」及び「ニュース」を含む、例えば、第１の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれもスポーツニュースを再生しますか」であり、ただし、「××」は端末が第１のタイプのコンテンツを再生する前に、端末が再生する予め設定されたタイプのコンテンツにおける第１のタイプのコンテンツに隣り合うコンテンツのタイプである。例えば、端末が第１のタイプのコンテンツを再生する前に、端末が再生するコンテンツのタイプは順に天気予報、コーディネーションであり、コーディネーションを再生した後、第１のタイプのコンテンツを再生し、この場合、「××」は「コーディネーション」である。別の例として、予め設定されたタイプは「天気予報」という１つのものしかない場合、第１の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「天気予報」の後に、いずれもスポーツニュースを再生しますか」である。一つの形態において、「天気予報」のコンテンツは「おはよう」というコンテンツとすることができ、第１の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「おはよう」の後に、いずれもスポーツニュースを再生しますか」である。以下「××」は同じ意味のものであるため、説明は省略される。

第１の音声が「経済ニュースを再生してください」である場合、「経済」は第１の音声に対応するスロット情報であり、「経済」はニュースカテゴリーというスロットに該当する情報であるため、第１の応答音声は「経済」及び「ニュース」を含む、例えば、第１の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも経済ニュースを再生しますか」である。

第１の音声が「今朝のニュースを再生してください」である場合、「今朝」は「最新」を指示し、「最新」は第１の音声に対応するスロット情報であり、「最新」は時間タイプというスロットに該当する情報であるため、第１の応答音声は「最新」及び「ニュース」を含む、例えば、第１の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも最新のニュースを再生しますか」である。

第１の音声が「ニュースまとめを再生してください」である場合、「ニュースまとめ」は第１の音声に対応するスロット情報であり、「ニュースまとめ」はニュース名称というスロットに該当する情報であるため、第１の応答音声は「ニュースまとめ」を含む、例えば、第１の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれもニュースまとめを再生しますか」である。

第１の音声が「ニュースを聴きたい」であり、対応するスロット情報がない場合、第１の応答音声は予め設定された音声である、例えば予め設定された音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれもニュースを再生しますか」である。

例２において、第２のタイプは子供向け音楽以外の音楽であり、対応するスロットは、音楽カテゴリー（ｔａｇ）、指定カテゴリー（ｕｎｉｔ）を含むことができ、各スロットの優先度は高いものから低いものまで順に、指定カテゴリー、音楽カテゴリーであり、スロットの優先度とスロット情報の優先度は同一である。

第１の音声が「張国栄さんのピアノ曲を聴きたい」である場合、「ピアノ曲」は第１の音声に対応するスロット情報であり、「ピアノ曲」は音楽カテゴリーというスロットに該当する情報であるため、第１の応答音声は「ピアノ曲」を含む、例えば、第１の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれもピアノ曲を再生しますか」である。

第１の音声が「お気に入りに登録された歌曲中のピアノ曲を聴きたい」である場合、「ピアノ曲」及び「お気に入りに登録された歌曲」は第１の音声に対応するスロット情報であり、「ピアノ曲」は音楽カテゴリーというスロットに該当する情報であり、「お気に入りに登録された歌曲」は指定カテゴリーというスロットに該当する情報であり、指定カテゴリーの優先度は音楽カテゴリーの優先度より高いため、第１の応答音声は「お気に入りに登録された歌曲」を含み、例えば、第１の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれもお気に入りに登録された歌曲を再生しますか」である。

第１の音声が「張信哲さんの「過火」を聴きたい」である場合、対応するスロット情報がないため、第１の応答音声は予め設定された音声である、例えば、予め設定された音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも音楽を再生しますか」である。

第１の音声が「音楽を再生してください」である場合、対応するスロット情報がないため、第１の応答音声は予め設定された音声である、例えば、予め設定された音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも音楽を再生しますか」である。

例３において、第２のタイプは子供向けの音楽であり、対応するスロットが存在しなくてもよい。

第１の音声が「子供向けの音楽を聴きたい」である場合、対応するスロット情報がないため、第１の応答音声は予め設定された音声である、例えば、予め設定された音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも子供向けの音楽を再生しますか」である。

例４において、第２のタイプは中継型のサラウンド放送番組カテゴリーであり、対応するスロットはレベル１カテゴリー、レベル２カテゴリー、番組名称とすることができ、各スロットの優先度は高いものから低いものまで順に、番組名称、レベル２カテゴリー、レベル１カテゴリーであり、スロットの優先度とスロット情報の優先度は同一である。

第１の音声が「講談番組「三侠剣」を聴きたい」である場合、「講談番組」及び「三侠剣」は第１の音声に対応するスロット情報であり、「講談番組」はレベル１というスロットに該当する情報であり、「三侠剣」は番組名称というスロットに該当する情報であり、番組名称の優先度はレベル１カテゴリーの優先度より高いため、第１の応答音声は「三侠剣」を含む、例えば、第１の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも「三侠剣」を再生しますか」である。

第１の音声が「「超級飛侠」を聴きたい」である場合、「超級飛侠」は第１の音声に対応するスロット情報であり、「超級飛侠」は番組名称というスロットに該当する情報であるため、第１の応答音声は「超級飛侠」を含む、例えば、第１の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも「超級飛侠」を再生しますか」である。

第１の音声が「物語を聴きたい」である場合、「物語」は第１の音声に対応するスロット情報であり、「物語」は「レベル２」というスロットに該当する情報であるため、第１の応答音声は「物語」を含む、例えば、第１の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも物語を再生しますか」である。

例５において、第２のタイプはサウンド生放送番組であり、対応するスロットはチャンネル名称とすることができる。

第１の音声が「「ボイスオブチャイナ」を聴きたい」である場合、「ボイスオブチャイナ」は第１の音声に対応するスロット情報であり、「ボイスオブチャイナ」は「チャンネル名称」というスロットに該当する情報であるため、第１の応答音声は「ボイスオブチャイナ」を含む、例えば、第１の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれもボイスオブチャイナを再生しますか」である。

上述した例を用いて、第１の応答音声を説明している。

当業者であれば分かるように、第１のタイプと第２のタイプが同一である場合、端末又はサーバは第１の応答音声を決定しなくてもよいため、端末は第１の応答音声を再生せず、引き続き第１のタイプのコンテンツを再生し、これに対応して、サーバは引き続き端末に対して第１のタイプのコンテンツをプッシュする。

任意選択的に、端末又はサーバが第１の音声に対する第１の応答音声を決定する前に、さらに、端末が第１の音声を取得した時、端末による第１のタイプのコンテンツの再生の時間長が第２の予め設定された時間長以下であることを決定することを含む。すなわち、端末が第１の音声を取得した場合、第１のタイプのコンテンツの再生の時間長が第２の予め設定された時間長より長ければ、第１の応答音声を決定しなくてもよく、端末は引き続き第１のタイプのコンテンツを再生し、これに対応して、サーバは引き続き端末に対して第１のタイプのコンテンツをプッシュする。ユーザは一定の時間長で第１のタイプのコンテンツを再生させてから、再生タイプを切り替える音声を入力したため、ユーザは第１のタイプのコンテンツに比較的に満足することが示され、端末の再生タイプの順番を更新しなくてもよい。これにより端末の信頼性はある程度で向上し、端末の電力消費を低減できる。

ただし、第２の予め設定された時間長は３〜５ｍｉｎの任意の値とすることができる。

ステップＳ２０３において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生し、目的タイプは第１の応答音声に対するユーザのフィードバックに関連する。

ただし、端末が第１の応答音声を再生した後、ユーザは第１の応答音声に対してフィードバックすることができる。例えば、第１の応答音声の再生時間を開始時間として、第１の予め設定された時間長内にユーザは第２の音声又は第３の音声又は第４の音声を入力し、端末は第２の音声又は第３の音声又は第４の音声を取得する。ただし、第２の音声は第１の応答音声に対するユーザの肯定応答又は否定応答であり、第３の音声は再生されるコンテンツを第３のタイプのコンテンツに切り替えるように端末に指示し、第４の音声はいずれの再生タイプも指示しない。

まず、端末が取得した第１の応答音声に対するユーザのフィードバックが第２の音声である場合に対応する後続の音声処理方法を説明する。

一つの実施形態において、端末が取得した第１の応答音声に対するユーザのフィードバックが第２の音声である場合に対応する後続の音声処理方法は、以下のａ１〜ａ３のうちの少なくとも一つを含むことができる。
ａ１において、端末は第２のタイプのコンテンツを再生する。

端末が第２の音声を取得した後、第２の音声を認識し、第２の音声は第１の応答音声に対するユーザの肯定応答又は否定応答であることを決定する。ただし、肯定応答は、例えば、「はい」、「いいよ」、「ノープロブレム」、「ＯＫ」である。端末に肯定応答用語集が記憶されてもよく、端末は肯定応答用語集に基づき、第２の音声は第１の応答音声に対するユーザの肯定応答であることを決定することができる。また端末は機械学習アルゴリズムにより、第２の音声は第１の応答音声に対するユーザの肯定応答であることを決定することもできる。否定応答は、例えば、「ダメ」、「いらない」である。端末に否定応答用語集が記憶されてもよく、端末は否定応答用語集に基づき、第２の音声は第１の応答音声に対するユーザの否定応答であることを決定することができる。また端末は機械学習アルゴリズムにより、第２の音声は第１の応答音声に対するユーザの否定応答であることを決定することもできる。

端末は、第２の音声が第１の応答音声に対するユーザの肯定応答又は否定応答であることを決定した後に、
一つの形態において、サーバに対して第２のタイプのコンテンツをプッシュする要求を送信し、サーバは第２のタイプのコンテンツをプッシュする要求に基づき、端末に対して第２のタイプのコンテンツをプッシュし、端末はサーバによってプッシュされる第２のタイプのコンテンツを受信し、これを再生する。

別の形態において、端末は第２の音声に対する第２の応答音声を決定しこれを再生し、サーバに対して第２のタイプのコンテンツをプッシュする要求を送信し、サーバは第２のタイプのコンテンツをプッシュする要求に基づき、端末に対して第２のタイプのコンテンツをプッシュし、端末はサーバによってプッシュされる第２のタイプのコンテンツを受信する。端末は第２の応答音声を再生した後、第２のタイプのコンテンツを再生する。

ただし、第２の音声が第１の応答音声に対するユーザの肯定応答である場合、第２の応答音声は、「はい、覚えました」とすることができる。第２の音声が第１の応答音声に対するユーザの否定応答である場合、第２の応答音声は、「ごめんなさい、お邪魔しました」とすることができる。

理解できることだろうが、ａ１において端末が第２のタイプのコンテンツを再生する時間帯は、カレントの端末を使用する過程中の時間帯である。

ａ２において、端末は第２の音声に基づき、目的タイプを決定する。

第２の音声が第１の応答音声に対するユーザの肯定応答である場合、端末は目的タイプを第２のタイプに決定する。第２の音声が第１の応答音声に対するユーザの否定応答である場合、端末は目的タイプを第１のタイプに決定する。

任意選択的に、第２の音声が第１の応答音声に対するユーザの否定応答である場合、端末は目的タイプを決定する動作を実行しなくてもよい。

ただし、ａ１とａ２の実行順番に対して、本実施例は限定しない。

ａ３において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生する。

ただし、端末が予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生することは、端末が予め設定されたタイプのコンテンツの再生を完了した後すぐに目的タイプのコンテンツを再生することを指す。

第２の音声が第１の応答音声に対するユーザの肯定応答である場合、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き第２のタイプのコンテンツを再生する。上述したように、カレントの端末が第１の音声を取得する前に、端末が予め設定されたタイプのコンテンツの再生を完了した後に引き続き再生するのは第１のタイプのコンテンツであり、所定時間帯に、端末が予め設定されたタイプのコンテンツの再生を完了した後に引き続き再生するのは第２のタイプのコンテンツである、すなわち、端末が再生するコンテンツはユーザのニーズに基づき更新される。これによりユーザのニーズを満足でき、端末の信頼性が向上する。

第２の音声が第１の応答音声に対するユーザの否定応答である場合、第２の音声は第１の応答音声に対するユーザの否定応答であるため、ユーザは所定時間帯に、端末が予め設定されたタイプのコンテンツの再生を完了した後に引き続き第２のタイプのコンテンツを再生することを望まないことが示される。従って、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に依然として引き続き第１のタイプのコンテンツを再生する。すなわち、端末によって再生されるコンテンツにはユーザのニーズが考慮され、端末の信頼性が向上する。

当業者であれば分かるように、ユーザが次回に端末を使用する時、端末が再生するコンテンツのタイプが再度更新されるまで、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生する。

理解できることだろうが、ａ３の前に以下のａ３１及びａ３２を含むことができる。
ａ３１において、端末は設定情報をサーバに送信し、当該設定情報はサーバに端末が予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生することを指示する。

サーバは設定情報を受信し、記憶されている端末が再生するコンテンツのタイプの順番を更新する、即ち第１の情報を第２の情報に更新する。第１の情報は端末が予め設定されたタイプのコンテンツの再生を完了した後に第１のタイプのコンテンツを再生すべきであることの情報であり、第２の情報は端末が予め設定されたタイプのコンテンツの再生を完了した後に第２のタイプのコンテンツを再生すべきであることの情報である。

ただし、ａ３１は任意選択的なものである、即ち第２の音声が第１の応答音声に対するユーザの否定応答である場合、ａ３１は存在しなくてもよい。

ａ３２において、所定時間帯に、サーバは端末に対して目的タイプのコンテンツをプッシュする。

別の実施形態において、端末が取得した第１の応答音声に対するユーザのフィードバックが第２の音声である場合に対応する後続の音声処理方法は、以下のｂ１〜ｂ３のうちの少なくとも一つを含むことができる。
ｂ１において、端末は第２の音声をサーバに送信し、第２の音声はサーバが目的タイプを決定するために用いられる。

サーバは第２の音声を受信し、第２の音声に基づき、目的タイプを決定することは具体的に、サーバは第２の音声を受信した後、第２の音声を認識し、第２の音声は第１の応答音声に対するユーザの肯定応答又は否定応答であることを決定する。ただし、肯定応答は、例えば、「はい」、「いいよ」、「ノープロブレム」、「ＯＫ」である。サーバに肯定応答用語集が記憶されてもよく、サーバは肯定応答用語集に基づき、第２の音声は第１の応答音声に対するユーザの肯定応答であることを決定することができる。またサーバは機械学習アルゴリズムにより、第２の音声は第１の応答音声に対するユーザの肯定応答であることを決定することもできる。否定応答は、例えば、「ダメ」、「いらない」である。サーバに否定応答用語集が記憶されてもよく、サーバは否定応答用語集に基づき、第２の音声は第１の応答音声に対するユーザの否定応答であることを決定することができる。またサーバは機械学習アルゴリズムにより、第２の音声は第１の応答音声に対するユーザの否定応答であることを決定することもできる。

サーバが第２の音声は第１の応答音声に対するユーザの肯定応答又は否定応答であることを決定した後、サーバは第２の音声に基づき、目的タイプを決定する。第２の音声が第１の応答音声に対するユーザの肯定応答である場合、サーバは目的タイプを第２のタイプに決定し、第１の情報を第２の情報に更新する。第１の情報は端末が予め設定されたタイプのコンテンツの再生を完了した後に第１のタイプのコンテンツを再生すべきであることの情報であり、第２の情報は端末が予め設定されたタイプのコンテンツの再生を完了した後に第２のタイプのコンテンツを再生すべきであることの情報である。

第２の音声が第１の応答音声に対するユーザの否定応答である場合、サーバは目的タイプを第１のタイプに決定する。任意選択的に、第２の音声が第１の応答音声に対するユーザの否定応答である場合、サーバは目的タイプを決定する動作を実行しなくてもよい。

ｂ２において、端末は第２のタイプのコンテンツを再生する。

サーバが第２の音声は第１の応答音声に対するユーザの肯定応答又は否定応答であることを決定した後に、
一つの形態において、サーバは端末に対して第２のタイプのコンテンツをプッシュし、端末はサーバによってプッシュされる第２のタイプのコンテンツを受信し、これを再生する。

別の形態において、サーバは第２の音声に対する第２の応答音声を決定し、第２の応答音声を端末に送信し、端末は第２の応答音声を再生する。また、サーバは端末に対して第２のタイプのコンテンツをプッシュし、端末はサーバによってプッシュされる第２のタイプのコンテンツを受信し、端末は第２の応答音声を再生した後、第２のタイプのコンテンツを再生する。ただし、第２の応答音声に関しては上述した説明を参照してよい。

理解できることだろうが、ｂ２において端末が第２のタイプのコンテンツを再生する時間帯は、カレントに端末を使用する過程中の時間帯である。

ｂ３において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生する。

所定時間帯に、端末はサーバによってプッシュされる目的タイプのコンテンツを受信し、予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生する。

次に、端末が取得した第１の応答音声に対するユーザのフィードバックが第３の音声である場合に対応する後続の音声処理方法を説明する。

端末が取得した第１の応答音声に対するユーザのフィードバックが第３の音声である場合に対応する後続の音声処理方法は、以下のｃ１〜ｃ２のうちの少なくとも一つを含むことができる。
ｃ１において、端末は第３のタイプのコンテンツを再生する。

一つの形態において、端末は第３の音声を取得した後、第３の音声を認識し、第３の音声が再生されるコンテンツを第３のタイプのコンテンツに切り替えるように端末に指示することを決定する。

端末は第３の音声が再生されるコンテンツを第３のタイプのコンテンツに切り替えるように端末に指示することを決定した後、サーバに対して第３のタイプのコンテンツをプッシュする要求を送信し、サーバは第３のタイプのコンテンツをプッシュする要求に基づき、端末に対して第３のタイプのコンテンツをプッシュし、端末はサーバによってプッシュされる第３のタイプのコンテンツを受信し、これを再生する。

別の形態において、端末は第３の音声をサーバに送信し、サーバは第３の音声を受信し、第３の音声に基づき、端末に対してプッシュする第３のタイプのコンテンツは具体的に、サーバは第３の音声を認識し、第３の音声が再生されるコンテンツを第３のタイプのコンテンツに切り替えるように端末に指示することを決定し、端末に対してプッシュする第３のタイプのコンテンツである。端末はサーバによってプッシュされる第３のタイプのコンテンツを受信し、これを再生する。

理解できることだろうが、ｃ１において端末が第３のタイプのコンテンツを再生する時間帯は、カレントに端末を使用する過程中の時間帯である。

ｃ２において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き第１のタイプのコンテンツを再生する。

即ち第１の応答音声に対するユーザのフィードバックが更新を意図するフィードバックである場合、目的タイプは第１のタイプである。

当業者であれば分かるように、ユーザが次回に当該端末を使用する時、端末は予め設定されたタイプのコンテンツの再生を完了した後に、端末の再生されるコンテンツのタイプが更新されるまで、依然として引き続き第１のタイプのコンテンツを再生する。

続いて、端末が取得した第１の応答音声に対するユーザのフィードバックが第４の音声である場合に対応する後続の音声処理方法を説明する。

端末が取得した第１の応答音声に対するユーザのフィードバックが第４の音声である場合に対応する後続の音声処理方法は、以下のｄ１〜ｄ３のうちの少なくとも一つを含むことができる。
ｄ１において、端末は第２のタイプのコンテンツを再生する。

一つの形態において、端末は第４の音声を取得した後、第４の音声を認識し、第４の音声はいずれの再生タイプも指示しないことを決定する。

端末は第４の音声はいずれの再生タイプも指示しないことを決定した後、サーバに対して第２のタイプのコンテンツをプッシュする要求を送信し、サーバは第２のタイプのコンテンツをプッシュする要求に基づき、端末に対して第２のタイプのコンテンツをプッシュし、端末はサーバによってプッシュされる第２のタイプのコンテンツを受信し、これを再生する。

別の形態において、端末は第４の音声をサーバに送信し、サーバは第４の音声を受信し、第４の音声に基づき、端末に対してプッシュする第２のタイプのコンテンツは具体的に、サーバは第４の音声を認識し、第４の音声はいずれの再生タイプも指示しないことを決定し、端末に対してプッシュする第２のタイプのコンテンツである。端末はサーバによってプッシュされる第２のタイプのコンテンツを受信し、これを再生する。

ｄ２において、端末は第４の音声の第３の応答音声を再生する。

一つの形態において、端末は第４の音声はいずれの再生タイプも指示しないことを決定した後、第４の音声の第３の応答音声を決定し、これを再生する。

別の形態において、端末は第４の音声をサーバに送信し、サーバは第４の音声を受信し、第４の音声に基づき、第４の音声に対する第３の応答音声を決定し、端末に対して第３の応答音声を送信することは具体的に、サーバは第４の音声を認識し、第４の音声はいずれの再生タイプも指示しないことを決定した後、第４の音声の第３の応答音声を決定し、端末に対して第３の応答音声を送信する。端末は第３の応答音声を受信し、第３の応答音声を再生する。

ただし、ｄ２は任意選択的なものである。ｄ２が存在する場合、端末が第２のタイプのコンテンツを再生することは、端末が第３の応答音声を再生した後とすることができる。

ｄ３において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き第１のタイプのコンテンツを再生する。

上述した内容において第１の応答音声に対するフィードバックが第２の音声又は第３の音声又は第４の音声である場合に対応する音声処理方法を説明している。第１の応答音声に対するフィードバックは第２の音声又は第３の音声又は第４の音声である場合以外に、以下の場合も存在する。
第１の応答音声の再生時間を開始時間として、第１の予め設定された時間長内に端末がユーザによって入力される音声を取得しなかった（即ち第１の応答音声に対するユーザの応答を取得しなかった）場合、端末は第２のタイプのコンテンツを再生する。

一つの形態において、端末は第１の応答音声の再生時間を開始時間として、第１の予め設定された時間長内にユーザによって入力される音声を取得しなかったことを決定した場合、端末がサーバに対して第２のタイプのコンテンツをプッシュする要求を送信し、サーバは第２のタイプのコンテンツをプッシュする要求に基づき、端末に対して第２のタイプのコンテンツをプッシュし、端末はこれを受信した後、第２のタイプのコンテンツを再生する。

別の形態において、サーバは第１の応答音声の再生時間を開始時間として、第３の予め設定された時間長内に端末によって送信される音声を受信しなかった場合、サーバは第１の応答音声に対するユーザのフィードバックが第１の応答音声に対して応答を行わなかったことであることを決定し、サーバは端末に対して第２のタイプのコンテンツをプッシュし、端末はこれを受信した後、第２のタイプのコンテンツを再生する。第３の予め設定された時間長と第１の予め設定された時間長は同一であってもよければ、異なっていてもよい。

また別の形態において、端末は第１の応答音声の再生時間を開始時間として、第１の予め設定された時間長内にユーザによって入力される音声を取得しなかったことを決定した場合、端末がサーバに対して通知情報を送信し、通知情報は第１の応答音声の再生時間を開始時間として、端末が第１の予め設定された時間長内にユーザによって入力される音声を取得しなかったことを指示し、サーバは当該通知情報に基づき、端末に対して第２のタイプのコンテンツをプッシュし、端末はこれを受信した後、第２のタイプのコンテンツを再生する。

すなわち、ユーザが第１の応答音声に対して応答を行わなかった場合、サーバは端末に対して第２のタイプのコンテンツをプッシュし、端末はサーバによってプッシュされる第２のタイプコンテンツを受信し、第２のタイプのコンテンツを再生する。

以上から分かるように、本実施例において、端末はユーザのニーズに合致するコンテンツを再生することができ、端末の信頼性が向上する。

以下、具体的な実施例を用いて、図２に示される実施例の音声処理方法に係る対話のプロセスを説明する。

図３は本願の実施例によって提供される音声処理方法の対話図１であり、図３に示すように、本実施例に係る方法は、ステップＳ３０１〜ステップＳ３０７を含むことができる。
ステップＳ３０１において、端末が第１のタイプのコンテンツを再生する時、端末はユーザによって入力される第１の音声を取得し、第１の音声は再生されるコンテンツを第２のタイプのコンテンツに切り替えるように端末に指示し、ただし、端末が第１のタイプのコンテンツを再生する前に、端末は予め設定されたタイプのコンテンツを再生する。

ステップＳ３０２において、端末は第１の音声をサーバに送信する。

ステップＳ３０３において、サーバは第１の音声に基づき第１の応答音声を決定し、第１の応答音声は所定時間帯に予め設定されたタイプのコンテンツの再生を完了した後に引き続き第２のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。

ステップＳ３０４において、サーバは第１の応答音声を端末に送信する。

ステップＳ３０５において、端末は第１の応答音声を再生する。

ステップＳ３０６において、サーバは所定時間帯に、端末に対して目的タイプのコンテンツをプッシュし、目的タイプは第１の応答音声に対するユーザのフィードバックに関連する。

ステップＳ３０７において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生する。

上記各ステップの具体的な実現は図２に示される実施例における説明を参照できるため、ここで説明は省略される。

本実施例において、端末はユーザのニーズに合致するコンテンツを再生することができ、端末の信頼性が向上する。

以下、図４を参照して、第１の応答音声に対するユーザのフィードバックが第２の音声である場合に対応する音声処理方法を説明し、第２の音声は第１の応答音声に対する肯定応答又は否定応答である。

図４は本願の実施例によって提供される音声処理方法の対話図２であり、図４に示すように、本実施例に係る方法はステップＳ４０１〜ステップＳ４１４を含むことができる。
ステップＳ４０１において、端末が第１のタイプのコンテンツを再生する時、端末はユーザによって入力される第１の音声を取得し、第１の音声は再生されるコンテンツを第２のタイプのコンテンツに切り替えるように端末に指示し、ただし、端末が第１のタイプのコンテンツを再生する前に、端末は予め設定されたタイプのコンテンツを再生する。

ステップＳ４０２において、端末は第１の音声をサーバに送信する。

ステップＳ４０３において、サーバは第１の音声に基づき第１の応答音声を決定し、第１の応答音声は所定時間帯に予め設定されたタイプのコンテンツの再生を完了した後に引き続き第２のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。

ステップＳ４０４において、サーバは第１の応答音声を端末に送信する。

ステップＳ４０５において、端末は第１の応答音声を再生する。

ステップＳ４０６において、端末は第１の応答音声の再生時間を開始時間として、第１の予め設定された時間長内にユーザによって入力される第２の音声を取得し、第２の音声は第１の応答音声に対するユーザのフィードバックであり、且つ、第２の音声は第１の応答音声に対するユーザの肯定応答又は否定応答である。

ステップＳ４０７において、端末は第２の音声をサーバに送信する。

ステップＳ４０８において、サーバは第２の音声に基づき、目的タイプを決定する。
ステップＳ４０９において、サーバは第２の音声に基づき第２の応答音声を決定する。
ステップＳ４１０において、サーバは第２の応答音声を端末に送信する。

ステップＳ４１１において、端末は第２の応答音声を再生する。

ただし、ステップＳ４０９〜ステップＳ４１１は任意選択的なものである。

ステップＳ４１２において、サーバは第２のタイプのコンテンツを端末にプッシュする。
ステップＳ４１３において、端末は第２のタイプのコンテンツを再生する。

ステップＳ４１４において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生する。

以下、図５を参照して、第１の応答音声に対するユーザのフィードバックが第３の音声である場合に対応する音声処理方法を説明し、第３の音声は再生されるコンテンツを第３のタイプのコンテンツに切り替えるように端末に指示する。

図５は本願の実施例によって提供される音声処理方法の対話図３であり、図５に示すように、本実施例に係る方法はステップＳ５０１〜ステップＳ５１０を含むことができる。
ステップＳ５０１において、端末が第１のタイプのコンテンツを再生する時、端末はユーザによって入力される第１の音声を取得し、第１の音声は再生されるコンテンツを第２のタイプのコンテンツに切り替えるように端末に指示し、ただし、端末が第１のタイプのコンテンツを再生する前に、端末は予め設定されたタイプのコンテンツを再生する。

ステップＳ５０２において、端末は第１の音声をサーバに送信する。

ステップＳ５０３において、サーバは第１の音声に基づき第１の応答音声を決定し、第１の応答音声は所定時間帯に予め設定されたタイプのコンテンツの再生を完了した後に引き続き第２のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。

ステップＳ５０４において、サーバは第１の応答音声を端末に送信する。

ステップＳ５０５において、端末は第１の応答音声を再生する。

ステップＳ５０６において、端末は第１の応答音声の再生時間を開始時間として、第１の予め設定された時間長内にユーザによって入力される第３の音声を取得し、第３の音声は再生されるコンテンツを第３のタイプのコンテンツに切り替えるように端末に指示する。

ステップＳ５０７において、端末は第３の音声をサーバに送信する。

ステップＳ５０８において、サーバは第３の音声に基づき、第３のタイプのコンテンツを端末にプッシュする。

ステップＳ５０９において、端末は第３のタイプのコンテンツを再生する。

ステップＳ５１０において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き第１のタイプのコンテンツを再生する。

上記各ステップの具体的の実現は図２に示される実施例における説明を参照できるため、ここで説明は省略される。

以下、図６を参照して、第１の応答音声に対するユーザのフィードバックが第４の音声である場合に対応する音声処理方法を説明し、第４の音声は再生タイプを指示しない。

図６は本願の実施例によって提供される音声処理方法の対話図４であり、図６に示すように、本実施例に係る方法は、ステップＳ６０１〜ステップＳ６１３を含むことができる。
ステップＳ６０１において、端末が第１のタイプのコンテンツを再生する時、端末はユーザによって入力される第１の音声を取得し、第１の音声は再生されるコンテンツを第２のタイプのコンテンツに切り替えるように端末に指示し、ただし、端末が第１のタイプのコンテンツを再生する前に、端末は予め設定されたタイプのコンテンツを再生する。

ステップＳ６０２において、端末は第１の音声をサーバに送信する。

ステップＳ６０３において、サーバは第１の音声に基づき第１の応答音声を決定し、第１の応答音声は所定時間帯に予め設定されたタイプのコンテンツの再生を完了した後に引き続き第２のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。

ステップＳ６０４において、サーバは第１の応答音声を端末に送信する。

ステップＳ６０５において、端末は第１の応答音声を再生する。

ステップＳ６０６において、端末は第１の応答音声の再生時間を開始時間として、第１の予め設定された時間長内にユーザによって入力される第４の音声を取得し、第４の音声はいずれの再生タイプも指示しない。

ステップＳ６０７において、端末は第４の音声をサーバに送信する。

ステップＳ６０８において、サーバは第４の音声に基づき、第４の音声に対する第３の応答音声を決定する。
ステップＳ６０９において、サーバは第３の応答音声を端末に送信する。

ステップＳ６１０において、端末は第３の応答音声を再生する。

ただし、ステップＳ６０８〜ステップＳ６１０は任意選択的なものである。

ステップＳ６１１において、サーバは第４の音声に基づき、第２のタイプのコンテンツを端末にプッシュする。
ステップＳ６１２において、端末は第２のタイプのコンテンツを再生する。

ステップＳ６１３において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き第１のタイプのコンテンツを再生する。

上述した内容において本願の実施例に係る音声処理方法を説明しており、以下、本願の実施例に係る音声処理装置を説明する。

図７は本願の実施例によって提供される音声処理装置の構造を示す概略図１であり、本実施例に係る音声処理装置は端末又は端末の部品とすることができる。図７に示すように、本実施例に係る装置は処理モジュール７１と送受信モジュール７２とを含むことができる。

音声処理装置が第１のタイプのコンテンツを再生する時、処理モジュール７１はユーザによって入力される第１の音声を取得するために用いられ、前記第１の音声は再生されるコンテンツを第２のタイプのコンテンツに切り替えるように音声処理装置に指示し、ただし、前記音声処理装置が第１のタイプのコンテンツを再生する前に、前記音声処理装置は予め設定されたタイプのコンテンツを再生する。前記処理モジュール７１は前記第１の音声に対する第１の応答音声を再生するためにも用いられ、前記第１の応答音声は所定時間帯に前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き前記第２のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。前記処理モジュール７１は、所定時間帯に、前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生するためにも用いられ、前記目的タイプは前記第１の応答音声に対する前記ユーザのフィードバックに関連する。

任意選択的に、前記送受信モジュール７２は、前記第１の音声をサーバに送信するために用いられる。

任意選択的に、前記送受信モジュール７２は、所定時間帯に、前記サーバから目的タイプのコンテンツを受信するためにも用いられる。

任意選択的に、前記処理モジュール７１が前記第１の音声に対する第１の応答音声を再生するために用いられることは、前記処理モジュール７１が具体的に、前記第１の音声がスロット情報を含む場合、前記スロット情報に基づき、前記第１の応答音声を再生し、前記第１の音声がスロット情報を含まない場合、前記第１の音声に基づき、予め設定された音声を再生するために用いられ、前記予め設定された音声は前記第１の応答音声であることを含む。

任意選択的に、前記送受信モジュール７１は、前記サーバから前記第１の音声の第１の応答音声を受信するためにも用いられる。

任意選択的に、所定時間帯に、前記処理モジュール７１は前記予め設定されたタイプのコンテンツの再生を完了した後、前記目的タイプのコンテンツを再生する前に、前記処理モジュール７１は、前記第１の応答音声の再生時間を開始時間として、第１の予め設定された時間長内にユーザによって入力される第２の音声を取得し、前記第２の音声は前記第１の応答音声に対するユーザのフィードバックであり、且つ、前記第２の音声は前記第１の応答音声に対するユーザの肯定応答又は否定応答であり、前記第２の音声に基づき、前記目的タイプを決定するためにも用いられる。

任意選択的に、前記処理モジュール７１は前記第２の音声に基づき、前記目的タイプを決定するために用いられることは、前記処理モジュール７１が具体的に、前記第２の音声が前記第１の応答音声に対するユーザの肯定応答である場合、前記目的タイプを前記第２のタイプに決定し、前記第２の音声が前記第１の応答音声に対するユーザの否定応答である場合、前記目的タイプを前記第１のタイプに決定するためにも用いられることを含む。

任意選択的に、前記処理モジュール７１は前記第２の音声に対する第２の応答音声を再生するためにも用いられる。

任意選択的に、前記送受信モジュール７２は、前記サーバから前記第２の音声に対する第２の応答音声を受信するためにも用いられる。

任意選択的に、前記処理モジュール７１が前記第２の音声を取得した後に、前記処理モジュール７１は、前記第２のタイプのコンテンツを再生するためにも用いられる。

任意選択的に、前記送受信モジュール７１は、前記第２の音声をサーバに送信するためにも用いられる。

任意選択的に、前記処理モジュール７１は、前記第１の応答音声の再生時間を開始時間として、第１の予め設定された時間長内にユーザによって入力される第３の音声を取得し、前記第３の音声は再生されるコンテンツを第３のタイプのコンテンツに切り替えるように指示し、前記第３の音声は前記第１の応答音声に対するユーザのフィードバックであり、前記第３のタイプのコンテンツを再生するためにも用いられる。これに対応して、前記目的タイプは前記第１のタイプである。

任意選択的に、前記送受信モジュール７２は、第３の音声をサーバに送信するためにも用いられる。

任意選択的に、前記第１の応答音声の再生時間を開始時間として、第１の予め設定された時間長内に前記第１の応答音声に対するユーザの応答を取得しなかった又は第４の音声を取得した場合、前記処理モジュール７１は、前記第２のタイプのコンテンツを再生するためにも用いられ、前記第４の音声は再生タイプを指示せず、前記第４の音声は前記第１の応答音声に対するユーザのフィードバックであり、これに対応して、前記目的タイプは前記第１のタイプである。

任意選択的に、前記送受信モジュール７２は、前記サーバから第２のタイプのコンテンツを受信するためにも用いられる。

任意選択的に、前記処理モジュール７１が前記第１の音声に対する第１の応答音声を再生するために用いられる前に、前記処理モジュール７１は、前記第１のタイプのコンテンツの再生の時間長が第２の予め設定された時間長以下であることを決定するためにも用いられる。

本実施例に係る装置は、上記方法の実施例における端末に対応する技術的解決手段を実行するために用いることができ、その実現の原理及び技術的効果は類似するため、ここで説明は省略される。

図８は、本願の実施例によって提供される音声処理装置の構造を概略的に示す図２であり、本実施例に係る音声処理装置はサーバ又はサーバの部品とすることができる。図８に示すように、本実施例に係る装置は、処理モジュール８１と、送受信モジュール８２とを含むことができる。

端末が第１のタイプのコンテンツを再生する時、送受信モジュール８２は前記端末から第１の音声を取得するために用いられ、前記第１の音声は再生されるコンテンツを第２のタイプのコンテンツに切り替えるように前記端末に指示し、ただし、前記端末が第１のタイプのコンテンツを再生する前に、前記端末は予め設定されたタイプのコンテンツを再生する。前記処理モジュール８１は前記第１の音声に対する第１の応答音声を取得するために用いられ、前記送受信モジュール８２は前記第１の応答音声を前記端末に送信するためにも用いられ、これにより前記端末は前記第１の応答音声を再生し、前記第１の応答音声は所定時間帯に前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き前記第２のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。前記所定時間帯に、前記送受信モジュール８２は前記端末に対して目的タイプのコンテンツをプッシュするためにも用いられ、前記目的タイプは前記所定時間帯に、前記端末が前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き再生するコンテンツのタイプであり、前記目的タイプは前記第１の応答音声に対する前記ユーザのフィードバックに関連する。

任意選択的に、前記処理モジュール８１が前記第１の音声に対する第１の応答音声を取得するために用いられることは、前記処理モジュール８１が具体的に、前記第１の音声がスロット情報を含む場合、前記スロット情報に基づき、前記第１の応答音声を決定し、第１の音声がスロット情報を含まない場合、前記第１の音声に基づき、予め設定された音声を前記第１の応答音声に決定するために用いられることを含む。

任意選択的に、前記送受信モジュール８２は、前記端末から第２の音声を受信するためにも用いられ、前記第２の音声は前記第１の応答音声に対するユーザのフィードバックであり、且つ、前記第２の音声は前記第１の応答音声に対するユーザの肯定応答又は否定応答である。前記処理モジュール８１は、第２の音声に基づき、前記目的タイプを決定するためにも用いられる。

任意選択的に、前記処理モジュール８１は、第２の音声に基づき、前記目的タイプを決定するために用いられることは、前記処理モジュール８１が具体的に、前記第２の音声が前記第１の応答音声に対するユーザの肯定応答である場合、前記目的タイプを前記第２のタイプに決定し、前記第２の音声が前記第１の応答音声に対するユーザの否定応答である場合、前記目的タイプを前記第１のタイプに決定するために用いられることを含む。

任意選択的に、前記送受信モジュール８２は、前記端末に対して前記第２のタイプのコンテンツをプッシュするためにも用いられ、これにより前記端末は前記第２のタイプのコンテンツを再生する。

任意選択的に、前記送受信モジュール８２は、前記端末から第３の音声を受信し、前記第３の音声は前記第１の応答音声に対するユーザのフィードバックであり、且つ、前記第３の音声は再生されるコンテンツを第３のタイプのコンテンツに切り替えるように前記端末に指示し、前記第３の音声に基づき、前記端末に対して前記第３のタイプのコンテンツをプッシュし、これにより前記端末は前記第３のタイプのコンテンツを再生するためにも用いられ、これに対応して、前記目的タイプは前記第１のタイプである。

任意選択的に、前記送受信モジュール８２は、前記端末から第４の音声を受信し、前記第４の音声は前記第１の応答音声に対するユーザのフィードバックであり、且つ、前記第４の音声は再生タイプを指示しなく、前記第４の音声に基づき、前記端末に対して前記第２のタイプのコンテンツをプッシュし、これにより前記端末は前記第２のタイプのコンテンツを再生するためにも用いられ、これに対応して、前記目的タイプは前記第１のタイプである。

任意選択的に、ユーザが前記第１の応答音声に対して応答を行わなかった場合、前記送受信モジュール８２は、前記端末に対して前記第２のタイプのコンテンツをプッシュし、これにより前記端末は前記第２のタイプのコンテンツを再生するためにも用いられ、これに対応して、前記目的タイプは前記第１のタイプである。

任意選択的に、前記処理モジュール８１が前記第１の音声に対する第１の応答音声を取得するために用いられる前に、前記処理モジュール８１は前記端末による前記第１のタイプのコンテンツの再生の時間長が第２の予め設定された時間長以下であることを決定するためにも用いられる。

本実施例に係る装置は、上記方法の実施例に係る技術的解決手段を実行するために用いることができ、その実現の原理及び技術的効果は類似するため、ここで説明は省略される。

図９は、本願の一つの実施例によって提供される装置の構造を示す概略図であり、図９が参照されるように、前記装置５００はサーバ、又は端末とすることができ、あるいはサーバ又は端末による上記方法の実現をサポートするチップ、チップシステム、又はプロセッサ等とすることもでき、さらに、上記方法の実現をサポートするチップ、チップシステム、又はプロセッサ等とすることもできる。当該装置は上記方法の実施例で説明されるサーバ又は端末に対応する方法を実現するために用いられることができ、その詳細は上記方法の実施例における説明を参照できる。

前記装置５００は１つ又は複数のプロセッサ５０１を含むことができ、前記プロセッサ５０１は処理ユニットと称することができ、所定の制御機能を実現できる。前記プロセッサ５０１は汎用プロセッサ又は専用プロセッサ等とすることができる。例えば、ベースバンド処理装置又は中央処理装置とすることができる。ベースバンド処理装置は通信プロトコル及び通信データに対して処理を行うために用いることができ、中央処理装置は通信装置（例えば、基地局、ベースバンドチップ、端末、端末チップ、分散ユニット（ＤｉｓｔｒｉｂｕｔｅｄＵｎｉｔ、ＤＵ）又は集積ユニット（ＣｅｎｔｒａｌｉｚｅｄＵｎｉｔ、ＣＵ）等）に対して制御を行う、ソフトウェアプログラムを実行する、ソフトウェアプログラムのデータを処理するために用いることができる。

一つの選択可能な構成において、プロセッサ５０１にコマンド及び／又はデータ５０３が記憶されてもよく、前記コマンド及び／又はデータ５０３が前記プロセッサ５０１によって実行されることで、前記装置５００に上記方法の実施例で説明される方法を実行させることができる。

別の選択可能な構成において、プロセッサ５０１は受信及び送信機能を実現するための送受信ユニットを含むことができる。例えば、当該送受信ユニットは送受信回路であるか、又はインタフェース、もしくはインタフェース回路とすることができる。受信及び送信機能を実現するための送受信回路、インタフェース又はインタフェース回路は分離されてもよければ、集積されてもよい。上記送受信回路、インタフェース又はインタフェース回路はコード／データの読み書きのために用いることができる、又は、上記送受信回路、インタフェース又はインタフェース回路は信号の伝送又は転送のために用いることができる。

もう一つの可能な構成において、装置５００は回路を含むことができ、前記回路は前述した方法の実施例における送信、受信又は通信の機能を実現できる。

任意選択的に、前記装置５００は１つ又は複数のメモリ５０２を含むことができ、メモリにコマンド５０４が記憶されてもよく、前記コマンドが前記プロセッサにおいて実行されることで、前記装置５００に上記方法の実施例で説明される方法を実行させることができる。任意選択的に、前記メモリにさらにデータが記憶されてもよい。任意選択的に、プロセッサにもコマンド及び／又はデータが記憶されてもよい。前記プロセッサ及びメモリは単独に設けられてもよければ、集積されてもよい。例えば、上記方法の実施例で説明される対応関係はメモリに記憶されるか、又はプロセッサに記憶されてもよい。

任意選択的に、前記装置５００は送受信器５０５及び／又はアンテナ５０６を含むこともできる。前記プロセッサ５０１は処理ユニットと称することができ、前記装置５００に対して制御を行うために用いられる。前記送受信器５０５は送受信ユニット、送受信機、送受信回路又は送受信器等と称することができ、送受信機能を実現するために用いられる。

本願はさらに、コンピュータ可読記憶媒体を提供し、当該媒体にコンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによって実行される時、上記方法の実施例における端末に対応する方法又は上記方法の実施例におけるサーバに対応する方法が実現される。

なお、明細書の全体にわたって用いられる「実施例」というのは、実施例に関連する特定の特徴、構造または特性が本願の少なくとも一つの実施例に含まれることを意味する。従って、明細書全体における各実施例は必ずしも同一の実施例を指すものではない。また、これらの特定の特徴、構造または特性は任意の適切な方式で１つ又は複数の実施例に組み合わせることができる。なお、本願の様々な実施例において、上記各過程の番号の大きさは実行順番の前後を表すものではなく、各過程の実行順番はその機能及び内在的な論理により決定されるべきであり、本願の実施例を実施する過程に対しいかなる限定も構成しない。

なお、本願において、「〜の場合」、「である場合」及び「であると」は、いずれも特定の客観的な状況において端末又はサーバが対応する処理を行うことを意味し、時間を限定するものではなければ、端末又はサーバが実現する際に必ず判断の動作を行うことも要求されず、その他の限定が存在することも意味しない。

本願において単数の形式で説明される要素は「１つ、且つ１つのみ」ではなく、「１つ又は複数」を表すものであり、ただし特段の説明がある場合は除く。本願において、特段の説明がない限り、「少なくとも１つ」は「１つ又は複数」を表すものであり、「複数」は「２つ以上」を表すものである。

本明細書において「及び／又は」という用語は、関連する対象の相関関係を説明するためのものに過ぎず、３種の関係が存在できることを表す。例えば、「Ａ及び／又はＢ」というのは、Ａが単独で存在する、ＡとＢが同時に存在する、Ｂが単独で存在するという３種の状況が存在することを表すことができ、ただしＡは単数でも複数でもよく、Ｂは単数でも複数でもよい。

本明細書において、「〜のうちの少なくとも１つ」又は「〜のうちの少なくとも１種」という表現は、挙げられた各項目の全て又はその任意の組み合わせを表す。例えば、「Ａ、Ｂ及びＣのうちの少なくとも１種」は、Ａが単独で存在する、Ｂが単独で存在する、Ｃが単独で存在する、ＡとＢが同時に存在する、ＢとＣが同時存在する、ＡとＣが同時存在する、Ａ、ＢとＣが同時に存在するという７種の状況が存在することを表すことができ、ただしＡは単数でも複数でもよく、Ｂは単数でも複数でもよく、Ｃは単数でも複数でもよい。

なお、本願の各実施例において、「Ａに対応するＢ」はＢがＡに関連し、Ａに基づきＢを決定できることを意味する。理解できることだろうが、Ａに基づきＢを決定することは、Ａのみに基づきＢを決定するだけでなく、Ａ及び／又はその他の情報に基づきＢを決定することもできる。

当業者であれば分かるように、上記各方法の実施例を実現するためのステップの全て又はその一部は、プログラムコードに関連するハードウェアで完了できる。前述したプログラムは、コンピュータ可読記憶媒体に記憶されてもよい。当該プログラムが実行される時、上記各方法の実施例を含むステップを実行する。前述した記憶媒体はＲＯＭ、ＲＡＭ、磁気ディスク又は光ディスク等、プログラムコードを記憶可能な様々な媒体を含む。

最後に説明すべきこととして、上記各実施例は本願に係る技術的解決手段を説明するためのものに過ぎず、それを限定するためのものではない。前述した各実施例を参照して本願を詳細に説明しているが、当業者であれば理解できるように、なおも前述した各実施例に記載されている技術的解決手段に対し修正を行うか、その一部又は全ての技術的特徴に対し均等な差し替えを行うことができる。これらの修正又は差し替えにより、関係する技術的解決手段の主旨が本願の各実施例に係る技術的解決手段の範囲から逸脱することはない。

Claims

音声処理方法であって、
端末が第１のタイプのコンテンツを再生する時、前記端末はユーザによって入力される第１の音声を取得し、前記第１の音声は再生されるコンテンツを第２のタイプのコンテンツに切り替えるように前記端末に指示し、ただし、前記端末が第１のタイプのコンテンツを再生する前に、前記端末は予め設定されたタイプのコンテンツを再生することと、
前記端末は前記第１の音声に基づく第１の応答音声を再生し、前記第１の応答音声は所定時間帯に前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き前記第２のタイプのコンテンツを再生するか否かをユーザに確認するためのものであることと、
前記所定時間帯に、前記端末が前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生し、前記目的タイプは前記第１の応答音声に対する前記ユーザのフィードバックに関連することとを含むことを特徴とする音声処理方法。
前記端末が前記第１の音声に基づき第１の応答音声を再生することは、
前記第１の音声がスロット情報を含む場合、前記端末は前記スロット情報に基づき、前記第１の応答音声を再生することと、
前記第１の音声がスロット情報を含まない場合、前記端末は前記第１の音声に基づき、予め設定された音声を再生し、前記予め設定された音声は前記第１の応答音声であることとを含むことを特徴とする請求項１に記載の方法。
前記所定時間帯に、前記端末が前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生する前に、さらに、
前記第１の応答音声の再生時間を開始時間として、前記端末は第１の予め設定された時間長内にユーザによって入力される第２の音声を取得し、前記第２の音声は前記第１の応答音声に対するユーザのフィードバックであり、且つ、前記第２の音声は前記第１の応答音声に対するユーザの肯定応答又は否定応答であることと、
前記端末は前記第２の音声に基づき、前記目的タイプを決定することとを含むことを特徴とする請求項１に記載の方法。
前記端末が前記第２の音声に基づき、前記目的タイプを決定することは、
前記第２の音声が前記第１の応答音声に対するユーザの肯定応答である場合、前記端末は前記目的タイプを前記第２のタイプに決定することと、
前記第２の音声が前記第１の応答音声に対するユーザの否定応答である場合、前記端末は前記目的タイプを前記第１のタイプに決定することとを含むことを特徴とする請求項３に記載の方法。
前記端末が前記第２の音声に基づく第２の応答音声を再生することをさらに含むことを特徴とする請求項４に記載の方法。
前記端末が第２の音声を取得した後に、さらに、
前記端末は前記第２のタイプのコンテンツを再生することを含むことを特徴とする請求項３〜請求項５のいずれか１項に記載の方法。
前記第１の応答音声の再生時間を開始時間として、前記端末は第１の予め設定された時間長内にユーザによって入力される第３の音声を取得し、前記第３の音声は再生されるコンテンツを第３のタイプのコンテンツに切り替えるように前記端末に指示するためのものであり、前記第３の音声は前記第１の応答音声に対するユーザのフィードバックであることと、
前記端末は前記第３のタイプのコンテンツを再生することとをさらに含み、
ただし、前記目的タイプは前記第１のタイプであることを特徴とする請求項１又は請求項２に記載の方法。
前記第１の応答音声の再生時間を開始時間として、前記端末が第１の予め設定された時間長内に前記第１の応答音声に対するユーザの応答を取得しなかった又はユーザによって入力される第４の音声を取得し、前記第４の音声は前記第１の応答音声に対するユーザのフィードバックであり、且つ、前記第４の音声は再生タイプを指示しない場合、前記端末は前記第２のタイプのコンテンツを再生することをさらに含み、
ただし、前記目的タイプは前記第１のタイプであることを特徴とする請求項１又は請求項２に記載の方法。
前記端末が前記第１の音声に基づく第１の応答音声を再生する前に、さらに、
前記端末は前記第１のタイプのコンテンツの再生の時間長が第２の予め設定された時間長以下であることを決定することを含むことを特徴とする請求項１又は請求項２に記載の方法。
前記所定時間帯は当日以後の時間帯であることを特徴とする請求項１又は請求項２に記載の方法。
音声処理方法であって、
端末が第１のタイプのコンテンツを再生する時、サーバは前記端末から第１の音声を受信し、前記第１の音声は再生されるコンテンツを第２のタイプのコンテンツに切り替えるように前記端末に指示し、ただし、前記端末が第１のタイプのコンテンツを再生する前に、前記端末は予め設定されたタイプのコンテンツを再生することと、
前記サーバは前記第１の音声に基づく第１の応答音声を取得し、前記第１の応答音声を前記端末に送信することにより、前記端末は前記第１の応答音声を再生し、前記第１の応答音声は所定時間帯に前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き前記第２のタイプのコンテンツを再生するか否かをユーザに確認するためのものであることと、
前記所定時間帯に、前記サーバは前記端末に対して目的タイプのコンテンツをプッシュし、前記目的タイプは前記所定時間帯に、前記端末が前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き再生するコンテンツのタイプであり、前記目的タイプは前記第１の応答音声に対する前記ユーザのフィードバックに関連することとを含むことを特徴とする音声処理方法。
前記サーバが前記第１の音声に基づく第１の応答音声を取得することは、
前記第１の音声がスロット情報を含む場合、前記サーバは前記スロット情報に基づき、前記第１の応答音声を決定することと、
第１の音声がスロット情報を含まない場合、前記サーバは前記第１の音声に基づき、予め設定された音声を前記第１の応答音声に決定することとを含むことを特徴とする請求項１１に記載の方法。
前記サーバは前記端末から第２の音声を受信し、前記第２の音声は前記第１の応答音声に対するユーザのフィードバックであり、且つ、前記第２の音声は前記第１の応答音声に対するユーザの肯定応答又は否定応答であることと、
前記サーバは第２の音声に基づき、前記目的タイプを決定することとをさらに含むことを特徴とする請求項１１に記載の方法。
サーバが第２の音声に基づき、前記目的タイプを決定することは、
前記第２の音声が前記第１の応答音声に対するユーザの肯定応答である場合、前記サーバは前記目的タイプを前記第２のタイプに決定することと、
前記第２の音声が前記第１の応答音声に対するユーザの否定応答である場合、前記サーバは前記目的タイプを前記第１のタイプに決定することとを含むことを特徴とする請求項１３に記載の方法。
前記サーバが前記端末に対して前記第２のタイプのコンテンツをプッシュすることにより、前記端末は前記第２のタイプのコンテンツを再生することをさらに含むことを特徴とする請求項１３又は請求項１４に記載の方法。
前記サーバは前記端末から第３の音声を受信し、前記第３の音声は前記第１の応答音声に対するユーザのフィードバックであり、且つ、前記第３の音声は再生されるコンテンツを第３のタイプのコンテンツに切り替えるように前記端末に指示することと、
前記サーバは前記第３の音声に基づき、前記端末に対して前記第３のタイプのコンテンツをプッシュすることにより、前記端末は前記第３のタイプのコンテンツを再生することとをさらに含み、
ただし、前記目的タイプは前記第１のタイプであることを特徴とする請求項１１又は請求項１２に記載の方法。
前記サーバは前記端末から第４の音声を受信し、前記第４の音声は前記第１の応答音声に対するユーザのフィードバックであり、且つ、前記第４の音声は再生タイプを指示しないことと、
前記サーバは前記第４の音声に基づき、前記端末に対して前記第２のタイプのコンテンツをプッシュすることにより、前記端末は前記第２のタイプのコンテンツを再生することとをさらに含み、
ただし、前記目的タイプは前記第１のタイプであることを特徴とする請求項１１又は請求項１２に記載の方法。
ユーザが前記第１の応答音声に対して応答を行わなかった場合、さらに、
前記サーバが前記端末に対して前記第２のタイプのコンテンツをプッシュすることにより、前記端末は前記第２のタイプのコンテンツを再生することを含み、
ただし、前記目的タイプは前記第１のタイプであることを特徴とする請求項１１又は請求項１２に記載の方法。
前記サーバが前記第１の音声に基づく第１の応答音声を取得する前に、さらに、
前記サーバは前記端末による前記第１のタイプのコンテンツの再生の時間長が第２の予め設定された時間長以下であることを決定することを含むことを特徴とする請求項１１又は請求項１２に記載の方法。
端末であって、メモリとプロセッサを含み、前記メモリが前記プロセッサに接続され、
前記メモリは、プログラムコマンドを記憶するために用いられ、
前記プロセッサは、プログラムコマンドを実行することで、請求項１〜請求項１０のいずれか１項に記載の方法を実現するために用いられることを特徴とする端末。
サーバであって、メモリとプロセッサを含み、前記メモリが前記プロセッサに接続され、
前記メモリは、プログラムコマンドを記憶するために用いられ、
前記プロセッサは、プログラムコマンドを実行することで、請求項１１〜請求項１９のいずれか１項に記載の方法を実現するために用いられることを特徴とするサーバ。
コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行される時、請求項１〜請求項１０又は請求項１１〜請求項１９のいずれか１項に記載の方法が実現されることを特徴とするコンピュータ可読記憶媒体。