JP2021006888A - 音声処理方法及び装置 - Google Patents

音声処理方法及び装置 Download PDF

Info

Publication number
JP2021006888A
JP2021006888A JP2019218976A JP2019218976A JP2021006888A JP 2021006888 A JP2021006888 A JP 2021006888A JP 2019218976 A JP2019218976 A JP 2019218976A JP 2019218976 A JP2019218976 A JP 2019218976A JP 2021006888 A JP2021006888 A JP 2021006888A
Authority
JP
Japan
Prior art keywords
voice
type
terminal
content
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019218976A
Other languages
English (en)
Other versions
JP6868082B2 (ja
Inventor
ジンユ イェ、
Jingyu Ye
ジンユ イェ、
メンメン ジャン、
Mengmeng Zhang
メンメン ジャン、
ウェンミン ワン、
Wenming Wang
ウェンミン ワン、
ジリン リウ、
Zhilin Liu
ジリン リウ、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Publication of JP2021006888A publication Critical patent/JP2021006888A/ja
Application granted granted Critical
Publication of JP6868082B2 publication Critical patent/JP6868082B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/611Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for multicast or broadcast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47202End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】端末の信頼性を向上させる音声処理方法を提供する。【解決手段】方法は、端末が第1のタイプのコンテンツを再生する時、端末はユーザによって入力される第1の音声を取得し、第1の音声は再生されるコンテンツを第2のタイプのコンテンツに切り替えるように端末に指示する。ただし、端末が第1のタイプのコンテンツを再生する前に、端末は予め設定されたタイプのコンテンツを再生する。端末は、第1の音声に対する第1の応答音声を再生する。第1の応答音声は、所定時間帯に予め設定されたタイプのコンテンツの再生を完了した後に引き続き第2のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に、引き続き目的タイプのコンテンツを再生する。目的タイプは、第1の応答音声に対するユーザのフィードバックに関連する。【選択図】図2

Description

本願の実施例はコンピュータ技術に関し、特に音声処理方法及び装置に関する。
現在、スマートスピーカーはますます普及しており、スマートスピーカーは、ユーザの生活に関係するコンテンツ、例えば、天気予報を再生することができる。また、スマートスピーカーはユーザと簡単な対話を実現し、ユーザの音声コマンドを実行することで、ユーザのニーズを満足させることもできるため、多くの人々に愛用される。
しかしながら、従来のスマートスピーカーは再生されるコンテンツがユーザの聴きたいコンテンツではない可能性があるため、従来のスマートスピーカーは信頼性が低い。
本願の実施例は端末の信頼性を向上させるための音声処理方法及び装置を提供する。
第1の態様として、本願の実施例は音声処理方法を提供し、当該方法は、端末が第1のタイプのコンテンツを再生する時、前記端末はユーザによって入力される第1の音声を取得し、前記第1の音声は再生されるコンテンツを第2のタイプのコンテンツに切り替えるように前記端末に指示し、ただし、前記端末が第1のタイプのコンテンツを再生する前に、前記端末は予め設定されたタイプのコンテンツを再生することと、前記端末は前記第1の音声に対する第1の応答音声を再生し、前記第1の応答音声は所定時間帯に前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き前記第2のタイプのコンテンツを再生するか否かをユーザに確認するためのものであることと、前記所定時間帯に、前記端末が前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生し、前記目的タイプは前記第1の応答音声に対する前記ユーザのフィードバックに関連することとを含む。
本態様において、端末が再生するコンテンツのタイプはユーザのニーズに基づき調整を行うことができるため、端末はユーザのニーズに合致するコンテンツを再生することができ、端末の信頼性が向上する。
第1の態様によれば、第1の態様の一つの可能な形態において、前記端末はサーバに前記第1の音声を送信することをさらに含む。
第1の態様によれば、第1の態様の一つの可能な形態において、所定時間帯に、前記端末は前記サーバから目的タイプのコンテンツを受信することをさらに含む。
第1の態様によれば、第1の態様の一つの可能な形態において、前記端末が前記第1の音声に基づき第1の応答音声を再生することは、前記第1の音声がスロット情報を含む場合、前記端末は前記スロット情報に基づき、前記第1の応答音声を再生することと、前記第1の音声がスロット情報を含まない場合、前記端末は前記第1の音声に基づき、予め設定された音声を再生し、前記予め設定された音声は前記第1の応答音声であることとを含む。
第1の態様によれば、第1の態様の一つの可能な形態において、前記端末はサーバから第1の音声に対する第1の応答音声を受信することをさらに含む。
第1の態様によれば、第1の態様の一つの可能な形態において、所定時間帯に、前記端末が前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き前記目的タイプのコンテンツを再生する前に、さらに、前記第1の応答音声の再生時間を開始時間として、前記端末は第1の予め設定された時間長内にユーザによって入力される第2の音声を取得し、前記第2の音声に基づき、前記目的タイプを決定することを含み、ただし、前記第2の音声は前記第1の応答音声に対するユーザのフィードバックであり、且つ、前記第2の音声は前記第1の応答音声に対するユーザの肯定応答又は否定応答である。
第1の態様によれば、第1の態様の一つの可能な形態において、前記端末が前記第2の音声に基づき、前記目的タイプを決定することは、前記第2の音声が前記第1の応答音声に対するユーザの肯定応答である場合、前記端末は前記目的タイプを前記第2のタイプに決定することと、前記第2の音声が前記第1の応答音声に対するユーザの否定応答である場合、前記端末は前記目的タイプを前記第1のタイプに決定することとを含む。
第1の態様によれば、第1の態様の一つの可能な形態において、前記端末は前記第2の音声に対する第2の応答音声を再生することをさらに含む。
第1の態様によれば、第1の態様の一つの可能な形態において、前記端末が前記第2の音声を取得した後に、さらに、前記第2のタイプのコンテンツを再生することを含む。
第1の態様によれば、第1の態様の一つの可能な形態において、前記端末はサーバに対して第2の音声を送信することをさらに含む。
第1の態様によれば、第1の態様の一つの可能な形態において、前記端末は前記サーバから前記第2の音声に対する第2の応答音声を受信することをさらに含む。
第1の態様によれば、第1の態様の一つの可能な形態において、前記端末が第2の音声を取得した後に、さらに、前記端末は前記サーバから前記第2のタイプのコンテンツを受信することを含む。
第1の態様によれば、第1の態様の一つの可能な形態において、前記第1の応答音声の再生時間を開始時間として、前記端末は第1の予め設定された時間長内にユーザによって入力される第3の音声を取得し、前記第3の音声は再生されるコンテンツを第3のタイプのコンテンツに切り替えるように前記端末に指示するためのものであり、前記第3の音声は前記第1の応答音声に対するユーザのフィードバックであることと、前記端末は前記第3のタイプのコンテンツを再生することとをさらに含み、これに対応して、前記目的タイプは前記第1のタイプである。
第1の態様によれば、第1の態様の一つの可能な形態において、前記端末はサーバに対して第3の音声を送信することをさらに含む。
第1の態様によれば、第1の態様の一つの可能な形態において、前記端末は前記サーバから前記第3のタイプのコンテンツを受信することをさらに含む。
第1の態様によれば、第1の態様の一つの可能な形態において、前記第1の応答音声の再生時間を開始時間として、前記端末が第1の予め設定された時間長内に前記第1の応答音声に対するユーザの応答を取得しなかった又は第4の音声を取得した場合、前記端末は前記第2のタイプのコンテンツを再生することをさらに含み、前記第4の音声は再生タイプを指示せず、前記第4の音声は前記第1の応答音声に対するユーザのフィードバックであり、これに対応して、前記目的タイプは前記第1のタイプである。
第1の態様によれば、第1の態様の一つの可能な形態において、前記端末はサーバに対して第4の音声を送信することをさらに含む。
第1の態様によれば、第1の態様の一つの可能な形態において、前記第1の応答音声の再生時間を開始時間として、前記端末が第1の予め設定された時間長内に前記第1の応答音声に対するユーザの応答を取得しなかった又は第4の音声を取得した場合、さらに、前記端末は前記サーバから前記第2のタイプのコンテンツを受信することを含む。
第1の態様によれば、第1の態様の一つの可能な形態において、前記端末が前記第1の音声に対する第1の応答音声を再生する前に、さらに、前記端末は前記第1のタイプのコンテンツの再生の時間長が第2の予め設定された時間長以下であることを決定することを含む。
第2の態様として、本願の実施例は音声処理方法を提供し、当該方法は、端末が第1のタイプのコンテンツを再生する時、サーバは前記端末から第1の音声を受信し、前記第1の音声は再生されるコンテンツを第2のタイプのコンテンツに切り替えるように前記端末に指示し、ただし、前記端末が第1のタイプのコンテンツを再生する前に、前記端末は予め設定されたタイプのコンテンツを再生することと、前記サーバは前記第1の音声に対する第1の応答音声を取得し、前記第1の応答音声を前記端末に送信することにより、前記端末は前記第1の応答音声を再生し、前記第1の応答音声は所定時間帯に前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き前記第2のタイプのコンテンツを再生するか否かをユーザに確認するためのものであることと、前記所定時間帯に、前記サーバは前記端末に対して目的タイプのコンテンツをプッシュし、前記目的タイプは前記所定時間帯に、前記端末が前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き再生するコンテンツのタイプであり、前記目的タイプは前記第1の応答音声に対する前記ユーザのフィードバックに関連することと、を含む。
第2の態様によれば、第2の態様の一つの可能な形態において、前記サーバが前記第1の音声に対する第1の応答音声を取得することは、前記第1の音声がスロット情報を含む場合、前記サーバは前記スロット情報に基づき、前記第1の応答音声を決定することと、第1の音声がスロット情報を含まない場合、前記サーバは前記第1の音声に基づき、予め設定された音声を前記第1の応答音声に決定することとを含む。
第2の態様によれば、第2の態様の一つの可能な形態において、前記サーバは前記端末から第2の音声を受信し、前記第2の音声は前記第1の応答音声に対するユーザのフィードバックであり、且つ、前記第2の音声は前記第1の応答音声に対するユーザの肯定応答又は否定応答であることと、前記サーバは第2の音声に基づき、前記目的タイプを決定することとをさらに含む。
第2の態様によれば、第2の態様の一つの可能な形態において、サーバが第2の音声に基づき、前記目的タイプを決定することは、前記第2の音声が前記第1の応答音声に対するユーザの肯定応答である場合、前記サーバは前記目的タイプを前記第2のタイプに決定することと、前記第2の音声が前記第1の応答音声に対するユーザの否定応答である場合、前記サーバは前記目的タイプを前記第1のタイプに決定することとを含む。
第2の態様によれば、第2の態様の一つの可能な形態において、前記サーバが前記端末に対して前記第2のタイプのコンテンツをプッシュすることにより、前記端末は前記第2のタイプのコンテンツを再生することをさらに含む。
第2の態様によれば、第2の態様の一つの可能な形態において、前記サーバは前記端末から第3の音声を受信し、前記第3の音声は前記第1の応答音声に対するユーザのフィードバックであり、且つ、前記第3の音声は再生されるコンテンツを第3のタイプのコンテンツに切り替えるように前記端末に指示することと、前記サーバは前記第3の音声に基づき、前記端末に対して前記第3のタイプのコンテンツをプッシュすることにより、前記端末は前記第3のタイプのコンテンツを再生することとをさらに含み、これに対応して、前記目的タイプは前記第1のタイプである。
第2の態様によれば、第2の態様の一つの可能な形態において、前記サーバは前記端末から第4の音声を受信し、前記第4の音声は前記第1の応答音声に対するユーザのフィードバックであり、且つ、前記第4の音声は再生タイプを指示しないことと、前記サーバは前記第4の音声に基づき、前記端末に対して前記第2のタイプのコンテンツをプッシュすることにより、前記端末は前記第2のタイプのコンテンツを再生することとをさらに含み、これに対応して、前記目的タイプは前記第1のタイプである。
第2の態様によれば、第2の態様の一つの可能な形態において、ユーザが前記第1の応答音声に対して応答を行わなかった場合、さらに、前記サーバが前記端末に対して前記第2のタイプのコンテンツをプッシュすることにより、前記端末は前記第2のタイプのコンテンツを再生することを含み、これに対応して、前記目的タイプは前記第1のタイプである。
第2の態様によれば、第2の態様の一つの可能な形態において、前記サーバが前記第1の音声に対する第1の応答音声を取得する前に、さらに、前記サーバは前記端末による前記第1のタイプのコンテンツの再生の時間長が第2の予め設定された時間長以下であることを決定することを含む。
第3の態様として、本願の実施例は端末を提供し、当該端末はメモリとプロセッサを含み、前記メモリが前記プロセッサに接続され、前記メモリはプログラムコマンドを記憶するために用いられ、前記プロセッサはプログラムコマンドが実行される時、第1の態様及び第1の態様のいずれか可能な形態に記載の方法を実現するために用いられる。
第4の態様として、本願の実施例はサーバを提供し、当該サーバはメモリとプロセッサを含み、前記メモリが前記プロセッサに接続され、前記メモリはプログラムコマンドを記憶するために用いられ、前記プロセッサはプログラムコマンドが実行される時、第2の態様及び第2の態様のいずれか可能な形態に記載の方法を実現するために用いられる。
第5の態様として、本願の実施例はコンピュータプログラムが記憶されるコンピュータ可読記憶媒体を提供し、前記コンピュータプログラムがプロセッサによって実行される時、第1の態様及び第1の態様のいずれか可能な形態に記載の方法が実現される、又は第2の態様及び第2の態様いずれか可能な形態に記載の方法が実現される。
本願において、端末が再生するコンテンツのタイプはユーザのニーズに基づき調整を行うことができるため、端末はユーザのニーズに合致するコンテンツを再生することができ、端末の信頼性が向上する。
本願の実施例又は従来技術による技術的解決手段をより明瞭に説明するため、以下、実施例又は従来技術の説明で必要な各図を簡単に紹介する。明らかなように、以下で説明する図面はただ本願のある実施例だけであり、当業者にとって、創造的な作業なしに更にこれらの図面に基づいてその他の図面を取得することができる。
本願の実施例に係るシステムの構成図である。 本願の実施例によって提供される音声処理方法のフローチャートである。 本願の実施例によって提供される音声処理方法の対話図1である。 本願の実施例によって提供される音声処理方法の対話図2である。 本願の実施例によって提供される音声処理方法の対話図3である。 本願の実施例によって提供される音声処理方法の対話図4である。 本願の実施例によって提供される音声処理装置の構造を示す概略図1である。 本願の実施例によって提供される音声処理装置の構造を示す概略図2である。 本願の一つの実施例によって提供される装置の構造を示す概略図である。
本願の実施例の目的、技術的解決手段及びその利点をより明瞭にするために、以下、本願の実施例における各図を用いて、本願の実施例に係る技術的解決手段を明瞭で且つ完全に説明する。言うまでもないが、説明される実施例は本願の一部の実施例に過ぎず、その全ての実施例ではない。当業者が本願の実施例に基づき、創造的な作業なしに得たすべてのその他の実施例は、いずれも本願の保護範囲に含まれる。
図1は本願の実施例に係るシステムの構成図である。図1が示すように、本実施例のシステムはサーバと端末を含んで構成される。サーバは端末に対して再生されるコンテンツをプッシュするために用いられ、端末はサーバによってプッシュされるコンテンツを再生するために用いられる。
ただし、端末はスマートスピーカーとすることができる。
図2は本願の実施例によって提供される音声処理方法のフローチャートであり、図2に示すように、本実施例に係る方法はステップS201〜ステップS203を含むことができる。
ステップS201において、端末が第1のタイプのコンテンツを再生する時、端末はユーザによって入力される第1の音声を取得し、第1の音声は再生されるコンテンツを第2のタイプのコンテンツに切り替えるように端末に指示し、ただし、端末が第1のタイプのコンテンツを再生する前に、端末は予め設定されたタイプのコンテンツを再生する。
本実施例において端末は音声を再生できるスマートスピーカーとすることができる。スマートスピーカーは所定の順番に従って1つ又は複数のタイプのコンテンツを再生できる、例えば、まず天気予報を再生し、次に音楽、ニュース、コーディネーション等のうちの1つ又は複数のタイプのコンテンツを順に再生する。
任意選択的に、本実施例において第1のタイプは当日の前に、端末に設定された各再生タイプのうちのいずれかのタイプであってよく、予め設定されたタイプは端末が第1のタイプを再生する前に再生される各タイプのうちのタイプである。
例示的に、当日の前に、端末に設定された各再生タイプは順に天気予報、ニュース、音楽及びコーディネーションである場合、第1のタイプは天気予報、ニュース、音楽、コーディネーションのうちのいずれかのタイプとすることができる。第1のタイプがニュースである場合、予め設定されたタイプは天気予報である。第1のタイプが音楽である場合、天気予報及びニュースはいずれも予め設定されたタイプである。
例示的に、当日の前に、端末に設定された各再生タイプは順に天気予報、ニュースである場合、第1のタイプは天気予報、ニュースのいずれかのタイプとすることができる。第1のタイプがニュースである場合、予め設定されたタイプは天気予報である。
任意選択的に、第1のタイプは当日の前に、端末に設定された天気予報以外の各再生タイプのいずれかのタイプである。
例示的に、当日の前に、端末に設定された各再生タイプは順に天気予報、ニュース、音楽及びコーディネーションである場合、第1のタイプはニュース、音楽、コーディネーションのいずれかのタイプとすることができる。第1のタイプがニュースである場合、予め設定されたタイプは天気予報である。第1のタイプが音楽である場合、天気予報及びニュースはいずれも予め設定されたタイプである。
例示的に、当日の前に、端末に設定された各再生タイプは順に天気予報、ニュースである場合、第1のタイプはニュースとすることができ、予め設定されたタイプは天気予報である。
第1の音声に関しては、端末が再生中の第1のタイプのコンテンツは音楽に関連するコンテンツであり、第2のタイプがニュースである場合、第1の音声は「科学技術ニュースを聴きたい」とすることができる。即ち第1の音声には、少なくとも第2のタイプを指示する情報が含まれる。
ステップS202において、端末は第1の音声に対する第1の応答音声を再生し、第1の応答音声は所定時間帯に予め設定されたタイプのコンテンツの再生を完了した後に引き続き第2のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。
任意選択的に、本願の実施例において所定時間帯は、現時点で端末の使用を終了した後の時間帯であり、例えば、所定時間帯は当日以後の時間帯である。
一つの形態において、端末はユーザによって入力される第1の音声を取得した後、第1の音声を認識し、第1のタイプと第2のタイプは同一ではないことを決定したら、第1の音声に対する第1の応答音声を決定しこれを再生し、第1の応答音声は所定時間帯に予め設定されたタイプのコンテンツの再生を完了した後に引き続き第2のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。
別の形態において、端末はユーザによって入力される第1の音声を取得した後、第1の音声をサーバに送信し、サーバは第1の音声を受信し、第1のタイプと第2のタイプは同一ではないことを決定したら、第1の音声に対する第1の応答音声を決定し、第1の応答音声を端末に送信し、端末は第1の音声に対する第1の応答音声を再生し、第1の応答音声は所定時間帯に予め設定されたタイプのコンテンツの再生を完了した後に引き続き第2のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。
具体的に、端末又はサーバが第1の音声に対する第1の応答音声を決定することは、第1の音声に対応するスロット情報がある場合、端末又はサーバは第1の音声に対応するスロット情報に基づき、第1の応答音声を決定することと、第1の音声に対応するスロット情報がない場合、予め設定された音声を第1の応答音声に決定する、即ち第1の応答音声は予め設定されたものであることとを含む。ただし、スロット情報とは、第2のタイプの下位タイプ又は第2のタイプの細分されたタイプを決定するために用いられることができる情報を指す。
ただし、端末又はサーバが第1の音声の対応するスロット情報に基づき、第1の応答音声を決定することは、端末又はサーバは第1の音声に対応するスロット情報及び第1の音声に対応するスロット情報の優先度に基づき、第1の応答音声を決定することを含む。一つの形態において、第1の音声に対応するスロット情報がある場合、第1の応答音声には、第1の音声に対応するスロット情報のうちの優先度が最高のスロット情報が含まれる。
以下、例1〜例5によって第1の応答音声を説明する。
例1において、第2のタイプはニュースであり、対応するスロットは、都市(city)、ニュースカテゴリー(category)、時間タイプ(sort−type)、ニュース名称(album)を含むことができ、各スロットの優先度は高いものから低いものまで順に、ニュース名称、ニュースカテゴリー、都市、時間タイプである。スロットの優先度とスロット情報の優先度は同一である。
第1の音声が「太原のスポーツニュースを聴きたい」である場合、「太原」及び「スポーツ」はいずれも第1の音声に対応するスロット情報であり、「太原」は都市というスロットに該当する情報であり、「スポーツ」はニュースカテゴリーというスロットに該当する情報であり、ニュースカテゴリーは都市よりも優先度が高いため、第1の応答音声は「スポーツ」及び「ニュース」を含む、例えば、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれもスポーツニュースを再生しますか」であり、ただし、「××」は端末が第1のタイプのコンテンツを再生する前に、端末が再生する予め設定されたタイプのコンテンツにおける第1のタイプのコンテンツに隣り合うコンテンツのタイプである。例えば、端末が第1のタイプのコンテンツを再生する前に、端末が再生するコンテンツのタイプは順に天気予報、コーディネーションであり、コーディネーションを再生した後、第1のタイプのコンテンツを再生し、この場合、「××」は「コーディネーション」である。別の例として、予め設定されたタイプは「天気予報」という1つのものしかない場合、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「天気予報」の後に、いずれもスポーツニュースを再生しますか」である。一つの形態において、「天気予報」のコンテンツは「おはよう」というコンテンツとすることができ、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「おはよう」の後に、いずれもスポーツニュースを再生しますか」である。以下「××」は同じ意味のものであるため、説明は省略される。
第1の音声が「経済ニュースを再生してください」である場合、「経済」は第1の音声に対応するスロット情報であり、「経済」はニュースカテゴリーというスロットに該当する情報であるため、第1の応答音声は「経済」及び「ニュース」を含む、例えば、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも経済ニュースを再生しますか」である。
第1の音声が「今朝のニュースを再生してください」である場合、「今朝」は「最新」を指示し、「最新」は第1の音声に対応するスロット情報であり、「最新」は時間タイプというスロットに該当する情報であるため、第1の応答音声は「最新」及び「ニュース」を含む、例えば、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも最新のニュースを再生しますか」である。
第1の音声が「ニュースまとめを再生してください」である場合、「ニュースまとめ」は第1の音声に対応するスロット情報であり、「ニュースまとめ」はニュース名称というスロットに該当する情報であるため、第1の応答音声は「ニュースまとめ」を含む、例えば、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれもニュースまとめを再生しますか」である。
第1の音声が「ニュースを聴きたい」であり、対応するスロット情報がない場合、第1の応答音声は予め設定された音声である、例えば予め設定された音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれもニュースを再生しますか」である。
例2において、第2のタイプは子供向け音楽以外の音楽であり、対応するスロットは、音楽カテゴリー(tag)、指定カテゴリー(unit)を含むことができ、各スロットの優先度は高いものから低いものまで順に、指定カテゴリー、音楽カテゴリーであり、スロットの優先度とスロット情報の優先度は同一である。
第1の音声が「張国栄さんのピアノ曲を聴きたい」である場合、「ピアノ曲」は第1の音声に対応するスロット情報であり、「ピアノ曲」は音楽カテゴリーというスロットに該当する情報であるため、第1の応答音声は「ピアノ曲」を含む、例えば、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれもピアノ曲を再生しますか」である。
第1の音声が「お気に入りに登録された歌曲中のピアノ曲を聴きたい」である場合、「ピアノ曲」及び「お気に入りに登録された歌曲」は第1の音声に対応するスロット情報であり、「ピアノ曲」は音楽カテゴリーというスロットに該当する情報であり、「お気に入りに登録された歌曲」は指定カテゴリーというスロットに該当する情報であり、指定カテゴリーの優先度は音楽カテゴリーの優先度より高いため、第1の応答音声は「お気に入りに登録された歌曲」を含み、例えば、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれもお気に入りに登録された歌曲を再生しますか」である。
第1の音声が「張信哲さんの「過火」を聴きたい」である場合、対応するスロット情報がないため、第1の応答音声は予め設定された音声である、例えば、予め設定された音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも音楽を再生しますか」である。
第1の音声が「音楽を再生してください」である場合、対応するスロット情報がないため、第1の応答音声は予め設定された音声である、例えば、予め設定された音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも音楽を再生しますか」である。
例3において、第2のタイプは子供向けの音楽であり、対応するスロットが存在しなくてもよい。
第1の音声が「子供向けの音楽を聴きたい」である場合、対応するスロット情報がないため、第1の応答音声は予め設定された音声である、例えば、予め設定された音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも子供向けの音楽を再生しますか」である。
例4において、第2のタイプは中継型のサラウンド放送番組カテゴリーであり、対応するスロットはレベル1カテゴリー、レベル2カテゴリー、番組名称とすることができ、各スロットの優先度は高いものから低いものまで順に、番組名称、レベル2カテゴリー、レベル1カテゴリーであり、スロットの優先度とスロット情報の優先度は同一である。
第1の音声が「講談番組「三侠剣」を聴きたい」である場合、「講談番組」及び「三侠剣」は第1の音声に対応するスロット情報であり、「講談番組」はレベル1というスロットに該当する情報であり、「三侠剣」は番組名称というスロットに該当する情報であり、番組名称の優先度はレベル1カテゴリーの優先度より高いため、第1の応答音声は「三侠剣」を含む、例えば、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも「三侠剣」を再生しますか」である。
第1の音声が「「超級飛侠」を聴きたい」である場合、「超級飛侠」は第1の音声に対応するスロット情報であり、「超級飛侠」は番組名称というスロットに該当する情報であるため、第1の応答音声は「超級飛侠」を含む、例えば、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも「超級飛侠」を再生しますか」である。
第1の音声が「物語を聴きたい」である場合、「物語」は第1の音声に対応するスロット情報であり、「物語」は「レベル2」というスロットに該当する情報であるため、第1の応答音声は「物語」を含む、例えば、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれも物語を再生しますか」である。
例5において、第2のタイプはサウンド生放送番組であり、対応するスロットはチャンネル名称とすることができる。
第1の音声が「「ボイスオブチャイナ」を聴きたい」である場合、「ボイスオブチャイナ」は第1の音声に対応するスロット情報であり、「ボイスオブチャイナ」は「チャンネル名称」というスロットに該当する情報であるため、第1の応答音声は「ボイスオブチャイナ」を含む、例えば、第1の応答音声は、「はい、かしこまりました。ちなみにお聞きしたいですが、今後毎日「××」の後に、いずれもボイスオブチャイナを再生しますか」である。
上述した例を用いて、第1の応答音声を説明している。
当業者であれば分かるように、第1のタイプと第2のタイプが同一である場合、端末又はサーバは第1の応答音声を決定しなくてもよいため、端末は第1の応答音声を再生せず、引き続き第1のタイプのコンテンツを再生し、これに対応して、サーバは引き続き端末に対して第1のタイプのコンテンツをプッシュする。
任意選択的に、端末又はサーバが第1の音声に対する第1の応答音声を決定する前に、さらに、端末が第1の音声を取得した時、端末による第1のタイプのコンテンツの再生の時間長が第2の予め設定された時間長以下であることを決定することを含む。すなわち、端末が第1の音声を取得した場合、第1のタイプのコンテンツの再生の時間長が第2の予め設定された時間長より長ければ、第1の応答音声を決定しなくてもよく、端末は引き続き第1のタイプのコンテンツを再生し、これに対応して、サーバは引き続き端末に対して第1のタイプのコンテンツをプッシュする。ユーザは一定の時間長で第1のタイプのコンテンツを再生させてから、再生タイプを切り替える音声を入力したため、ユーザは第1のタイプのコンテンツに比較的に満足することが示され、端末の再生タイプの順番を更新しなくてもよい。これにより端末の信頼性はある程度で向上し、端末の電力消費を低減できる。
ただし、第2の予め設定された時間長は3〜5minの任意の値とすることができる。
ステップS203において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生し、目的タイプは第1の応答音声に対するユーザのフィードバックに関連する。
ただし、端末が第1の応答音声を再生した後、ユーザは第1の応答音声に対してフィードバックすることができる。例えば、第1の応答音声の再生時間を開始時間として、第1の予め設定された時間長内にユーザは第2の音声又は第3の音声又は第4の音声を入力し、端末は第2の音声又は第3の音声又は第4の音声を取得する。ただし、第2の音声は第1の応答音声に対するユーザの肯定応答又は否定応答であり、第3の音声は再生されるコンテンツを第3のタイプのコンテンツに切り替えるように端末に指示し、第4の音声はいずれの再生タイプも指示しない。
まず、端末が取得した第1の応答音声に対するユーザのフィードバックが第2の音声である場合に対応する後続の音声処理方法を説明する。
一つの実施形態において、端末が取得した第1の応答音声に対するユーザのフィードバックが第2の音声である場合に対応する後続の音声処理方法は、以下のa1〜a3のうちの少なくとも一つを含むことができる。
a1において、端末は第2のタイプのコンテンツを再生する。
端末が第2の音声を取得した後、第2の音声を認識し、第2の音声は第1の応答音声に対するユーザの肯定応答又は否定応答であることを決定する。ただし、肯定応答は、例えば、「はい」、「いいよ」、「ノープロブレム」、「OK」である。端末に肯定応答用語集が記憶されてもよく、端末は肯定応答用語集に基づき、第2の音声は第1の応答音声に対するユーザの肯定応答であることを決定することができる。また端末は機械学習アルゴリズムにより、第2の音声は第1の応答音声に対するユーザの肯定応答であることを決定することもできる。否定応答は、例えば、「ダメ」、「いらない」である。端末に否定応答用語集が記憶されてもよく、端末は否定応答用語集に基づき、第2の音声は第1の応答音声に対するユーザの否定応答であることを決定することができる。また端末は機械学習アルゴリズムにより、第2の音声は第1の応答音声に対するユーザの否定応答であることを決定することもできる。
端末は、第2の音声が第1の応答音声に対するユーザの肯定応答又は否定応答であることを決定した後に、
一つの形態において、サーバに対して第2のタイプのコンテンツをプッシュする要求を送信し、サーバは第2のタイプのコンテンツをプッシュする要求に基づき、端末に対して第2のタイプのコンテンツをプッシュし、端末はサーバによってプッシュされる第2のタイプのコンテンツを受信し、これを再生する。
別の形態において、端末は第2の音声に対する第2の応答音声を決定しこれを再生し、サーバに対して第2のタイプのコンテンツをプッシュする要求を送信し、サーバは第2のタイプのコンテンツをプッシュする要求に基づき、端末に対して第2のタイプのコンテンツをプッシュし、端末はサーバによってプッシュされる第2のタイプのコンテンツを受信する。端末は第2の応答音声を再生した後、第2のタイプのコンテンツを再生する。
ただし、第2の音声が第1の応答音声に対するユーザの肯定応答である場合、第2の応答音声は、「はい、覚えました」とすることができる。第2の音声が第1の応答音声に対するユーザの否定応答である場合、第2の応答音声は、「ごめんなさい、お邪魔しました」とすることができる。
理解できることだろうが、a1において端末が第2のタイプのコンテンツを再生する時間帯は、カレントの端末を使用する過程中の時間帯である。
a2において、端末は第2の音声に基づき、目的タイプを決定する。
第2の音声が第1の応答音声に対するユーザの肯定応答である場合、端末は目的タイプを第2のタイプに決定する。第2の音声が第1の応答音声に対するユーザの否定応答である場合、端末は目的タイプを第1のタイプに決定する。
任意選択的に、第2の音声が第1の応答音声に対するユーザの否定応答である場合、端末は目的タイプを決定する動作を実行しなくてもよい。
ただし、a1とa2の実行順番に対して、本実施例は限定しない。
a3において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生する。
ただし、端末が予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生することは、端末が予め設定されたタイプのコンテンツの再生を完了した後すぐに目的タイプのコンテンツを再生することを指す。
第2の音声が第1の応答音声に対するユーザの肯定応答である場合、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き第2のタイプのコンテンツを再生する。上述したように、カレントの端末が第1の音声を取得する前に、端末が予め設定されたタイプのコンテンツの再生を完了した後に引き続き再生するのは第1のタイプのコンテンツであり、所定時間帯に、端末が予め設定されたタイプのコンテンツの再生を完了した後に引き続き再生するのは第2のタイプのコンテンツである、すなわち、端末が再生するコンテンツはユーザのニーズに基づき更新される。これによりユーザのニーズを満足でき、端末の信頼性が向上する。
第2の音声が第1の応答音声に対するユーザの否定応答である場合、第2の音声は第1の応答音声に対するユーザの否定応答であるため、ユーザは所定時間帯に、端末が予め設定されたタイプのコンテンツの再生を完了した後に引き続き第2のタイプのコンテンツを再生することを望まないことが示される。従って、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に依然として引き続き第1のタイプのコンテンツを再生する。すなわち、端末によって再生されるコンテンツにはユーザのニーズが考慮され、端末の信頼性が向上する。
当業者であれば分かるように、ユーザが次回に端末を使用する時、端末が再生するコンテンツのタイプが再度更新されるまで、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生する。
理解できることだろうが、a3の前に以下のa31及びa32を含むことができる。
a31において、端末は設定情報をサーバに送信し、当該設定情報はサーバに端末が予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生することを指示する。
サーバは設定情報を受信し、記憶されている端末が再生するコンテンツのタイプの順番を更新する、即ち第1の情報を第2の情報に更新する。第1の情報は端末が予め設定されたタイプのコンテンツの再生を完了した後に第1のタイプのコンテンツを再生すべきであることの情報であり、第2の情報は端末が予め設定されたタイプのコンテンツの再生を完了した後に第2のタイプのコンテンツを再生すべきであることの情報である。
ただし、a31は任意選択的なものである、即ち第2の音声が第1の応答音声に対するユーザの否定応答である場合、a31は存在しなくてもよい。
a32において、所定時間帯に、サーバは端末に対して目的タイプのコンテンツをプッシュする。
別の実施形態において、端末が取得した第1の応答音声に対するユーザのフィードバックが第2の音声である場合に対応する後続の音声処理方法は、以下のb1〜b3のうちの少なくとも一つを含むことができる。
b1において、端末は第2の音声をサーバに送信し、第2の音声はサーバが目的タイプを決定するために用いられる。
サーバは第2の音声を受信し、第2の音声に基づき、目的タイプを決定することは具体的に、サーバは第2の音声を受信した後、第2の音声を認識し、第2の音声は第1の応答音声に対するユーザの肯定応答又は否定応答であることを決定する。ただし、肯定応答は、例えば、「はい」、「いいよ」、「ノープロブレム」、「OK」である。サーバに肯定応答用語集が記憶されてもよく、サーバは肯定応答用語集に基づき、第2の音声は第1の応答音声に対するユーザの肯定応答であることを決定することができる。またサーバは機械学習アルゴリズムにより、第2の音声は第1の応答音声に対するユーザの肯定応答であることを決定することもできる。否定応答は、例えば、「ダメ」、「いらない」である。サーバに否定応答用語集が記憶されてもよく、サーバは否定応答用語集に基づき、第2の音声は第1の応答音声に対するユーザの否定応答であることを決定することができる。またサーバは機械学習アルゴリズムにより、第2の音声は第1の応答音声に対するユーザの否定応答であることを決定することもできる。
サーバが第2の音声は第1の応答音声に対するユーザの肯定応答又は否定応答であることを決定した後、サーバは第2の音声に基づき、目的タイプを決定する。第2の音声が第1の応答音声に対するユーザの肯定応答である場合、サーバは目的タイプを第2のタイプに決定し、第1の情報を第2の情報に更新する。第1の情報は端末が予め設定されたタイプのコンテンツの再生を完了した後に第1のタイプのコンテンツを再生すべきであることの情報であり、第2の情報は端末が予め設定されたタイプのコンテンツの再生を完了した後に第2のタイプのコンテンツを再生すべきであることの情報である。
第2の音声が第1の応答音声に対するユーザの否定応答である場合、サーバは目的タイプを第1のタイプに決定する。任意選択的に、第2の音声が第1の応答音声に対するユーザの否定応答である場合、サーバは目的タイプを決定する動作を実行しなくてもよい。
b2において、端末は第2のタイプのコンテンツを再生する。
サーバが第2の音声は第1の応答音声に対するユーザの肯定応答又は否定応答であることを決定した後に、
一つの形態において、サーバは端末に対して第2のタイプのコンテンツをプッシュし、端末はサーバによってプッシュされる第2のタイプのコンテンツを受信し、これを再生する。
別の形態において、サーバは第2の音声に対する第2の応答音声を決定し、第2の応答音声を端末に送信し、端末は第2の応答音声を再生する。また、サーバは端末に対して第2のタイプのコンテンツをプッシュし、端末はサーバによってプッシュされる第2のタイプのコンテンツを受信し、端末は第2の応答音声を再生した後、第2のタイプのコンテンツを再生する。ただし、第2の応答音声に関しては上述した説明を参照してよい。
理解できることだろうが、b2において端末が第2のタイプのコンテンツを再生する時間帯は、カレントに端末を使用する過程中の時間帯である。
b3において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生する。
所定時間帯に、端末はサーバによってプッシュされる目的タイプのコンテンツを受信し、予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生する。
次に、端末が取得した第1の応答音声に対するユーザのフィードバックが第3の音声である場合に対応する後続の音声処理方法を説明する。
端末が取得した第1の応答音声に対するユーザのフィードバックが第3の音声である場合に対応する後続の音声処理方法は、以下のc1〜c2のうちの少なくとも一つを含むことができる。
c1において、端末は第3のタイプのコンテンツを再生する。
一つの形態において、端末は第3の音声を取得した後、第3の音声を認識し、第3の音声が再生されるコンテンツを第3のタイプのコンテンツに切り替えるように端末に指示することを決定する。
端末は第3の音声が再生されるコンテンツを第3のタイプのコンテンツに切り替えるように端末に指示することを決定した後、サーバに対して第3のタイプのコンテンツをプッシュする要求を送信し、サーバは第3のタイプのコンテンツをプッシュする要求に基づき、端末に対して第3のタイプのコンテンツをプッシュし、端末はサーバによってプッシュされる第3のタイプのコンテンツを受信し、これを再生する。
別の形態において、端末は第3の音声をサーバに送信し、サーバは第3の音声を受信し、第3の音声に基づき、端末に対してプッシュする第3のタイプのコンテンツは具体的に、サーバは第3の音声を認識し、第3の音声が再生されるコンテンツを第3のタイプのコンテンツに切り替えるように端末に指示することを決定し、端末に対してプッシュする第3のタイプのコンテンツである。端末はサーバによってプッシュされる第3のタイプのコンテンツを受信し、これを再生する。
理解できることだろうが、c1において端末が第3のタイプのコンテンツを再生する時間帯は、カレントに端末を使用する過程中の時間帯である。
c2において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き第1のタイプのコンテンツを再生する。
即ち第1の応答音声に対するユーザのフィードバックが更新を意図するフィードバックである場合、目的タイプは第1のタイプである。
当業者であれば分かるように、ユーザが次回に当該端末を使用する時、端末は予め設定されたタイプのコンテンツの再生を完了した後に、端末の再生されるコンテンツのタイプが更新されるまで、依然として引き続き第1のタイプのコンテンツを再生する。
続いて、端末が取得した第1の応答音声に対するユーザのフィードバックが第4の音声である場合に対応する後続の音声処理方法を説明する。
端末が取得した第1の応答音声に対するユーザのフィードバックが第4の音声である場合に対応する後続の音声処理方法は、以下のd1〜d3のうちの少なくとも一つを含むことができる。
d1において、端末は第2のタイプのコンテンツを再生する。
一つの形態において、端末は第4の音声を取得した後、第4の音声を認識し、第4の音声はいずれの再生タイプも指示しないことを決定する。
端末は第4の音声はいずれの再生タイプも指示しないことを決定した後、サーバに対して第2のタイプのコンテンツをプッシュする要求を送信し、サーバは第2のタイプのコンテンツをプッシュする要求に基づき、端末に対して第2のタイプのコンテンツをプッシュし、端末はサーバによってプッシュされる第2のタイプのコンテンツを受信し、これを再生する。
別の形態において、端末は第4の音声をサーバに送信し、サーバは第4の音声を受信し、第4の音声に基づき、端末に対してプッシュする第2のタイプのコンテンツは具体的に、サーバは第4の音声を認識し、第4の音声はいずれの再生タイプも指示しないことを決定し、端末に対してプッシュする第2のタイプのコンテンツである。端末はサーバによってプッシュされる第2のタイプのコンテンツを受信し、これを再生する。
d2において、端末は第4の音声の第3の応答音声を再生する。
一つの形態において、端末は第4の音声はいずれの再生タイプも指示しないことを決定した後、第4の音声の第3の応答音声を決定し、これを再生する。
別の形態において、端末は第4の音声をサーバに送信し、サーバは第4の音声を受信し、第4の音声に基づき、第4の音声に対する第3の応答音声を決定し、端末に対して第3の応答音声を送信することは具体的に、サーバは第4の音声を認識し、第4の音声はいずれの再生タイプも指示しないことを決定した後、第4の音声の第3の応答音声を決定し、端末に対して第3の応答音声を送信する。端末は第3の応答音声を受信し、第3の応答音声を再生する。
ただし、d2は任意選択的なものである。d2が存在する場合、端末が第2のタイプのコンテンツを再生することは、端末が第3の応答音声を再生した後とすることができる。
d3において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き第1のタイプのコンテンツを再生する。
当業者であれば分かるように、ユーザが次回に当該端末を使用する時、端末は予め設定されたタイプのコンテンツの再生を完了した後に、端末の再生されるコンテンツのタイプが更新されるまで、依然として引き続き第1のタイプのコンテンツを再生する。
上述した内容において第1の応答音声に対するフィードバックが第2の音声又は第3の音声又は第4の音声である場合に対応する音声処理方法を説明している。第1の応答音声に対するフィードバックは第2の音声又は第3の音声又は第4の音声である場合以外に、以下の場合も存在する。
第1の応答音声の再生時間を開始時間として、第1の予め設定された時間長内に端末がユーザによって入力される音声を取得しなかった(即ち第1の応答音声に対するユーザの応答を取得しなかった)場合、端末は第2のタイプのコンテンツを再生する。
一つの形態において、端末は第1の応答音声の再生時間を開始時間として、第1の予め設定された時間長内にユーザによって入力される音声を取得しなかったことを決定した場合、端末がサーバに対して第2のタイプのコンテンツをプッシュする要求を送信し、サーバは第2のタイプのコンテンツをプッシュする要求に基づき、端末に対して第2のタイプのコンテンツをプッシュし、端末はこれを受信した後、第2のタイプのコンテンツを再生する。
別の形態において、サーバは第1の応答音声の再生時間を開始時間として、第3の予め設定された時間長内に端末によって送信される音声を受信しなかった場合、サーバは第1の応答音声に対するユーザのフィードバックが第1の応答音声に対して応答を行わなかったことであることを決定し、サーバは端末に対して第2のタイプのコンテンツをプッシュし、端末はこれを受信した後、第2のタイプのコンテンツを再生する。第3の予め設定された時間長と第1の予め設定された時間長は同一であってもよければ、異なっていてもよい。
また別の形態において、端末は第1の応答音声の再生時間を開始時間として、第1の予め設定された時間長内にユーザによって入力される音声を取得しなかったことを決定した場合、端末がサーバに対して通知情報を送信し、通知情報は第1の応答音声の再生時間を開始時間として、端末が第1の予め設定された時間長内にユーザによって入力される音声を取得しなかったことを指示し、サーバは当該通知情報に基づき、端末に対して第2のタイプのコンテンツをプッシュし、端末はこれを受信した後、第2のタイプのコンテンツを再生する。
すなわち、ユーザが第1の応答音声に対して応答を行わなかった場合、サーバは端末に対して第2のタイプのコンテンツをプッシュし、端末はサーバによってプッシュされる第2のタイプコンテンツを受信し、第2のタイプのコンテンツを再生する。
以上から分かるように、本実施例において、端末はユーザのニーズに合致するコンテンツを再生することができ、端末の信頼性が向上する。
以下、具体的な実施例を用いて、図2に示される実施例の音声処理方法に係る対話のプロセスを説明する。
図3は本願の実施例によって提供される音声処理方法の対話図1であり、図3に示すように、本実施例に係る方法は、ステップS301〜ステップS307を含むことができる。
ステップS301において、端末が第1のタイプのコンテンツを再生する時、端末はユーザによって入力される第1の音声を取得し、第1の音声は再生されるコンテンツを第2のタイプのコンテンツに切り替えるように端末に指示し、ただし、端末が第1のタイプのコンテンツを再生する前に、端末は予め設定されたタイプのコンテンツを再生する。
ステップS302において、端末は第1の音声をサーバに送信する。
ステップS303において、サーバは第1の音声に基づき第1の応答音声を決定し、第1の応答音声は所定時間帯に予め設定されたタイプのコンテンツの再生を完了した後に引き続き第2のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。
ステップS304において、サーバは第1の応答音声を端末に送信する。
ステップS305において、端末は第1の応答音声を再生する。
ステップS306において、サーバは所定時間帯に、端末に対して目的タイプのコンテンツをプッシュし、目的タイプは第1の応答音声に対するユーザのフィードバックに関連する。
ステップS307において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生する。
上記各ステップの具体的な実現は図2に示される実施例における説明を参照できるため、ここで説明は省略される。
本実施例において、端末はユーザのニーズに合致するコンテンツを再生することができ、端末の信頼性が向上する。
以下、図4を参照して、第1の応答音声に対するユーザのフィードバックが第2の音声である場合に対応する音声処理方法を説明し、第2の音声は第1の応答音声に対する肯定応答又は否定応答である。
図4は本願の実施例によって提供される音声処理方法の対話図2であり、図4に示すように、本実施例に係る方法はステップS401〜ステップS414を含むことができる。
ステップS401において、端末が第1のタイプのコンテンツを再生する時、端末はユーザによって入力される第1の音声を取得し、第1の音声は再生されるコンテンツを第2のタイプのコンテンツに切り替えるように端末に指示し、ただし、端末が第1のタイプのコンテンツを再生する前に、端末は予め設定されたタイプのコンテンツを再生する。
ステップS402において、端末は第1の音声をサーバに送信する。
ステップS403において、サーバは第1の音声に基づき第1の応答音声を決定し、第1の応答音声は所定時間帯に予め設定されたタイプのコンテンツの再生を完了した後に引き続き第2のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。
ステップS404において、サーバは第1の応答音声を端末に送信する。
ステップS405において、端末は第1の応答音声を再生する。
ステップS406において、端末は第1の応答音声の再生時間を開始時間として、第1の予め設定された時間長内にユーザによって入力される第2の音声を取得し、第2の音声は第1の応答音声に対するユーザのフィードバックであり、且つ、第2の音声は第1の応答音声に対するユーザの肯定応答又は否定応答である。
ステップS407において、端末は第2の音声をサーバに送信する。
ステップS408において、サーバは第2の音声に基づき、目的タイプを決定する。
ステップS409において、サーバは第2の音声に基づき第2の応答音声を決定する。
ステップS410において、サーバは第2の応答音声を端末に送信する。
ステップS411において、端末は第2の応答音声を再生する。
ただし、ステップS409〜ステップS411は任意選択的なものである。
ステップS412において、サーバは第2のタイプのコンテンツを端末にプッシュする。
ステップS413において、端末は第2のタイプのコンテンツを再生する。
ステップS414において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生する。
上記各ステップの具体的な実現は図2に示される実施例における説明を参照できるため、ここで説明は省略される。
本実施例において、端末はユーザのニーズに合致するコンテンツを再生することができ、端末の信頼性が向上する。
以下、図5を参照して、第1の応答音声に対するユーザのフィードバックが第3の音声である場合に対応する音声処理方法を説明し、第3の音声は再生されるコンテンツを第3のタイプのコンテンツに切り替えるように端末に指示する。
図5は本願の実施例によって提供される音声処理方法の対話図3であり、図5に示すように、本実施例に係る方法はステップS501〜ステップS510を含むことができる。
ステップS501において、端末が第1のタイプのコンテンツを再生する時、端末はユーザによって入力される第1の音声を取得し、第1の音声は再生されるコンテンツを第2のタイプのコンテンツに切り替えるように端末に指示し、ただし、端末が第1のタイプのコンテンツを再生する前に、端末は予め設定されたタイプのコンテンツを再生する。
ステップS502において、端末は第1の音声をサーバに送信する。
ステップS503において、サーバは第1の音声に基づき第1の応答音声を決定し、第1の応答音声は所定時間帯に予め設定されたタイプのコンテンツの再生を完了した後に引き続き第2のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。
ステップS504において、サーバは第1の応答音声を端末に送信する。
ステップS505において、端末は第1の応答音声を再生する。
ステップS506において、端末は第1の応答音声の再生時間を開始時間として、第1の予め設定された時間長内にユーザによって入力される第3の音声を取得し、第3の音声は再生されるコンテンツを第3のタイプのコンテンツに切り替えるように端末に指示する。
ステップS507において、端末は第3の音声をサーバに送信する。
ステップS508において、サーバは第3の音声に基づき、第3のタイプのコンテンツを端末にプッシュする。
ステップS509において、端末は第3のタイプのコンテンツを再生する。
ステップS510において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き第1のタイプのコンテンツを再生する。
上記各ステップの具体的の実現は図2に示される実施例における説明を参照できるため、ここで説明は省略される。
本実施例において、端末はユーザのニーズに合致するコンテンツを再生することができ、端末の信頼性が向上する。
以下、図6を参照して、第1の応答音声に対するユーザのフィードバックが第4の音声である場合に対応する音声処理方法を説明し、第4の音声は再生タイプを指示しない。
図6は本願の実施例によって提供される音声処理方法の対話図4であり、図6に示すように、本実施例に係る方法は、ステップS601〜ステップS613を含むことができる。
ステップS601において、端末が第1のタイプのコンテンツを再生する時、端末はユーザによって入力される第1の音声を取得し、第1の音声は再生されるコンテンツを第2のタイプのコンテンツに切り替えるように端末に指示し、ただし、端末が第1のタイプのコンテンツを再生する前に、端末は予め設定されたタイプのコンテンツを再生する。
ステップS602において、端末は第1の音声をサーバに送信する。
ステップS603において、サーバは第1の音声に基づき第1の応答音声を決定し、第1の応答音声は所定時間帯に予め設定されたタイプのコンテンツの再生を完了した後に引き続き第2のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。
ステップS604において、サーバは第1の応答音声を端末に送信する。
ステップS605において、端末は第1の応答音声を再生する。
ステップS606において、端末は第1の応答音声の再生時間を開始時間として、第1の予め設定された時間長内にユーザによって入力される第4の音声を取得し、第4の音声はいずれの再生タイプも指示しない。
ステップS607において、端末は第4の音声をサーバに送信する。
ステップS608において、サーバは第4の音声に基づき、第4の音声に対する第3の応答音声を決定する。
ステップS609において、サーバは第3の応答音声を端末に送信する。
ステップS610において、端末は第3の応答音声を再生する。
ただし、ステップS608〜ステップS610は任意選択的なものである。
ステップS611において、サーバは第4の音声に基づき、第2のタイプのコンテンツを端末にプッシュする。
ステップS612において、端末は第2のタイプのコンテンツを再生する。
ステップS613において、所定時間帯に、端末は予め設定されたタイプのコンテンツの再生を完了した後に引き続き第1のタイプのコンテンツを再生する。
上記各ステップの具体的な実現は図2に示される実施例における説明を参照できるため、ここで説明は省略される。
本実施例において、端末はユーザのニーズに合致するコンテンツを再生することができ、端末の信頼性が向上する。
上述した内容において本願の実施例に係る音声処理方法を説明しており、以下、本願の実施例に係る音声処理装置を説明する。
図7は本願の実施例によって提供される音声処理装置の構造を示す概略図1であり、本実施例に係る音声処理装置は端末又は端末の部品とすることができる。図7に示すように、本実施例に係る装置は処理モジュール71と送受信モジュール72とを含むことができる。
音声処理装置が第1のタイプのコンテンツを再生する時、処理モジュール71はユーザによって入力される第1の音声を取得するために用いられ、前記第1の音声は再生されるコンテンツを第2のタイプのコンテンツに切り替えるように音声処理装置に指示し、ただし、前記音声処理装置が第1のタイプのコンテンツを再生する前に、前記音声処理装置は予め設定されたタイプのコンテンツを再生する。前記処理モジュール71は前記第1の音声に対する第1の応答音声を再生するためにも用いられ、前記第1の応答音声は所定時間帯に前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き前記第2のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。前記処理モジュール71は、所定時間帯に、前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生するためにも用いられ、前記目的タイプは前記第1の応答音声に対する前記ユーザのフィードバックに関連する。
任意選択的に、前記送受信モジュール72は、前記第1の音声をサーバに送信するために用いられる。
任意選択的に、前記送受信モジュール72は、所定時間帯に、前記サーバから目的タイプのコンテンツを受信するためにも用いられる。
任意選択的に、前記処理モジュール71が前記第1の音声に対する第1の応答音声を再生するために用いられることは、前記処理モジュール71が具体的に、前記第1の音声がスロット情報を含む場合、前記スロット情報に基づき、前記第1の応答音声を再生し、前記第1の音声がスロット情報を含まない場合、前記第1の音声に基づき、予め設定された音声を再生するために用いられ、前記予め設定された音声は前記第1の応答音声であることを含む。
任意選択的に、前記送受信モジュール71は、前記サーバから前記第1の音声の第1の応答音声を受信するためにも用いられる。
任意選択的に、所定時間帯に、前記処理モジュール71は前記予め設定されたタイプのコンテンツの再生を完了した後、前記目的タイプのコンテンツを再生する前に、前記処理モジュール71は、前記第1の応答音声の再生時間を開始時間として、第1の予め設定された時間長内にユーザによって入力される第2の音声を取得し、前記第2の音声は前記第1の応答音声に対するユーザのフィードバックであり、且つ、前記第2の音声は前記第1の応答音声に対するユーザの肯定応答又は否定応答であり、前記第2の音声に基づき、前記目的タイプを決定するためにも用いられる。
任意選択的に、前記処理モジュール71は前記第2の音声に基づき、前記目的タイプを決定するために用いられることは、前記処理モジュール71が具体的に、前記第2の音声が前記第1の応答音声に対するユーザの肯定応答である場合、前記目的タイプを前記第2のタイプに決定し、前記第2の音声が前記第1の応答音声に対するユーザの否定応答である場合、前記目的タイプを前記第1のタイプに決定するためにも用いられることを含む。
任意選択的に、前記処理モジュール71は前記第2の音声に対する第2の応答音声を再生するためにも用いられる。
任意選択的に、前記送受信モジュール72は、前記サーバから前記第2の音声に対する第2の応答音声を受信するためにも用いられる。
任意選択的に、前記処理モジュール71が前記第2の音声を取得した後に、前記処理モジュール71は、前記第2のタイプのコンテンツを再生するためにも用いられる。
任意選択的に、前記送受信モジュール71は、前記第2の音声をサーバに送信するためにも用いられる。
任意選択的に、前記処理モジュール71は、前記第1の応答音声の再生時間を開始時間として、第1の予め設定された時間長内にユーザによって入力される第3の音声を取得し、前記第3の音声は再生されるコンテンツを第3のタイプのコンテンツに切り替えるように指示し、前記第3の音声は前記第1の応答音声に対するユーザのフィードバックであり、前記第3のタイプのコンテンツを再生するためにも用いられる。これに対応して、前記目的タイプは前記第1のタイプである。
任意選択的に、前記送受信モジュール72は、第3の音声をサーバに送信するためにも用いられる。
任意選択的に、前記第1の応答音声の再生時間を開始時間として、第1の予め設定された時間長内に前記第1の応答音声に対するユーザの応答を取得しなかった又は第4の音声を取得した場合、前記処理モジュール71は、前記第2のタイプのコンテンツを再生するためにも用いられ、前記第4の音声は再生タイプを指示せず、前記第4の音声は前記第1の応答音声に対するユーザのフィードバックであり、これに対応して、前記目的タイプは前記第1のタイプである。
任意選択的に、前記送受信モジュール72は、前記サーバから第2のタイプのコンテンツを受信するためにも用いられる。
任意選択的に、前記送受信モジュール72は、第3の音声をサーバに送信するためにも用いられる。
任意選択的に、前記処理モジュール71が前記第1の音声に対する第1の応答音声を再生するために用いられる前に、前記処理モジュール71は、前記第1のタイプのコンテンツの再生の時間長が第2の予め設定された時間長以下であることを決定するためにも用いられる。
本実施例に係る装置は、上記方法の実施例における端末に対応する技術的解決手段を実行するために用いることができ、その実現の原理及び技術的効果は類似するため、ここで説明は省略される。
図8は、本願の実施例によって提供される音声処理装置の構造を概略的に示す図2であり、本実施例に係る音声処理装置はサーバ又はサーバの部品とすることができる。図8に示すように、本実施例に係る装置は、処理モジュール81と、送受信モジュール82とを含むことができる。
端末が第1のタイプのコンテンツを再生する時、送受信モジュール82は前記端末から第1の音声を取得するために用いられ、前記第1の音声は再生されるコンテンツを第2のタイプのコンテンツに切り替えるように前記端末に指示し、ただし、前記端末が第1のタイプのコンテンツを再生する前に、前記端末は予め設定されたタイプのコンテンツを再生する。前記処理モジュール81は前記第1の音声に対する第1の応答音声を取得するために用いられ、前記送受信モジュール82は前記第1の応答音声を前記端末に送信するためにも用いられ、これにより前記端末は前記第1の応答音声を再生し、前記第1の応答音声は所定時間帯に前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き前記第2のタイプのコンテンツを再生するか否かをユーザに確認するためのものである。前記所定時間帯に、前記送受信モジュール82は前記端末に対して目的タイプのコンテンツをプッシュするためにも用いられ、前記目的タイプは前記所定時間帯に、前記端末が前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き再生するコンテンツのタイプであり、前記目的タイプは前記第1の応答音声に対する前記ユーザのフィードバックに関連する。
任意選択的に、前記処理モジュール81が前記第1の音声に対する第1の応答音声を取得するために用いられることは、前記処理モジュール81が具体的に、前記第1の音声がスロット情報を含む場合、前記スロット情報に基づき、前記第1の応答音声を決定し、第1の音声がスロット情報を含まない場合、前記第1の音声に基づき、予め設定された音声を前記第1の応答音声に決定するために用いられることを含む。
任意選択的に、前記送受信モジュール82は、前記端末から第2の音声を受信するためにも用いられ、前記第2の音声は前記第1の応答音声に対するユーザのフィードバックであり、且つ、前記第2の音声は前記第1の応答音声に対するユーザの肯定応答又は否定応答である。前記処理モジュール81は、第2の音声に基づき、前記目的タイプを決定するためにも用いられる。
任意選択的に、前記処理モジュール81は、第2の音声に基づき、前記目的タイプを決定するために用いられることは、前記処理モジュール81が具体的に、前記第2の音声が前記第1の応答音声に対するユーザの肯定応答である場合、前記目的タイプを前記第2のタイプに決定し、前記第2の音声が前記第1の応答音声に対するユーザの否定応答である場合、前記目的タイプを前記第1のタイプに決定するために用いられることを含む。
任意選択的に、前記送受信モジュール82は、前記端末に対して前記第2のタイプのコンテンツをプッシュするためにも用いられ、これにより前記端末は前記第2のタイプのコンテンツを再生する。
任意選択的に、前記送受信モジュール82は、前記端末から第3の音声を受信し、前記第3の音声は前記第1の応答音声に対するユーザのフィードバックであり、且つ、前記第3の音声は再生されるコンテンツを第3のタイプのコンテンツに切り替えるように前記端末に指示し、前記第3の音声に基づき、前記端末に対して前記第3のタイプのコンテンツをプッシュし、これにより前記端末は前記第3のタイプのコンテンツを再生するためにも用いられ、これに対応して、前記目的タイプは前記第1のタイプである。
任意選択的に、前記送受信モジュール82は、前記端末から第4の音声を受信し、前記第4の音声は前記第1の応答音声に対するユーザのフィードバックであり、且つ、前記第4の音声は再生タイプを指示しなく、前記第4の音声に基づき、前記端末に対して前記第2のタイプのコンテンツをプッシュし、これにより前記端末は前記第2のタイプのコンテンツを再生するためにも用いられ、これに対応して、前記目的タイプは前記第1のタイプである。
任意選択的に、ユーザが前記第1の応答音声に対して応答を行わなかった場合、前記送受信モジュール82は、前記端末に対して前記第2のタイプのコンテンツをプッシュし、これにより前記端末は前記第2のタイプのコンテンツを再生するためにも用いられ、これに対応して、前記目的タイプは前記第1のタイプである。
任意選択的に、前記処理モジュール81が前記第1の音声に対する第1の応答音声を取得するために用いられる前に、前記処理モジュール81は前記端末による前記第1のタイプのコンテンツの再生の時間長が第2の予め設定された時間長以下であることを決定するためにも用いられる。
本実施例に係る装置は、上記方法の実施例に係る技術的解決手段を実行するために用いることができ、その実現の原理及び技術的効果は類似するため、ここで説明は省略される。
図9は、本願の一つの実施例によって提供される装置の構造を示す概略図であり、図9が参照されるように、前記装置500はサーバ、又は端末とすることができ、あるいはサーバ又は端末による上記方法の実現をサポートするチップ、チップシステム、又はプロセッサ等とすることもでき、さらに、上記方法の実現をサポートするチップ、チップシステム、又はプロセッサ等とすることもできる。当該装置は上記方法の実施例で説明されるサーバ又は端末に対応する方法を実現するために用いられることができ、その詳細は上記方法の実施例における説明を参照できる。
前記装置500は1つ又は複数のプロセッサ501を含むことができ、前記プロセッサ501は処理ユニットと称することができ、所定の制御機能を実現できる。前記プロセッサ501は汎用プロセッサ又は専用プロセッサ等とすることができる。例えば、ベースバンド処理装置又は中央処理装置とすることができる。ベースバンド処理装置は通信プロトコル及び通信データに対して処理を行うために用いることができ、中央処理装置は通信装置(例えば、基地局、ベースバンドチップ、端末、端末チップ、分散ユニット(Distributed Unit、DU)又は集積ユニット(Centralized Unit、CU)等)に対して制御を行う、ソフトウェアプログラムを実行する、ソフトウェアプログラムのデータを処理するために用いることができる。
一つの選択可能な構成において、プロセッサ501にコマンド及び/又はデータ503が記憶されてもよく、前記コマンド及び/又はデータ503が前記プロセッサ501によって実行されることで、前記装置500に上記方法の実施例で説明される方法を実行させることができる。
別の選択可能な構成において、プロセッサ501は受信及び送信機能を実現するための送受信ユニットを含むことができる。例えば、当該送受信ユニットは送受信回路であるか、又はインタフェース、もしくはインタフェース回路とすることができる。受信及び送信機能を実現するための送受信回路、インタフェース又はインタフェース回路は分離されてもよければ、集積されてもよい。上記送受信回路、インタフェース又はインタフェース回路はコード/データの読み書きのために用いることができる、又は、上記送受信回路、インタフェース又はインタフェース回路は信号の伝送又は転送のために用いることができる。
もう一つの可能な構成において、装置500は回路を含むことができ、前記回路は前述した方法の実施例における送信、受信又は通信の機能を実現できる。
任意選択的に、前記装置500は1つ又は複数のメモリ502を含むことができ、メモリにコマンド504が記憶されてもよく、前記コマンドが前記プロセッサにおいて実行されることで、前記装置500に上記方法の実施例で説明される方法を実行させることができる。任意選択的に、前記メモリにさらにデータが記憶されてもよい。任意選択的に、プロセッサにもコマンド及び/又はデータが記憶されてもよい。前記プロセッサ及びメモリは単独に設けられてもよければ、集積されてもよい。例えば、上記方法の実施例で説明される対応関係はメモリに記憶されるか、又はプロセッサに記憶されてもよい。
任意選択的に、前記装置500は送受信器505及び/又はアンテナ506を含むこともできる。前記プロセッサ501は処理ユニットと称することができ、前記装置500に対して制御を行うために用いられる。前記送受信器505は送受信ユニット、送受信機、送受信回路又は送受信器等と称することができ、送受信機能を実現するために用いられる。
本願はさらに、コンピュータ可読記憶媒体を提供し、当該媒体にコンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによって実行される時、上記方法の実施例における端末に対応する方法又は上記方法の実施例におけるサーバに対応する方法が実現される。
なお、明細書の全体にわたって用いられる「実施例」というのは、実施例に関連する特定の特徴、構造または特性が本願の少なくとも一つの実施例に含まれることを意味する。従って、明細書全体における各実施例は必ずしも同一の実施例を指すものではない。また、これらの特定の特徴、構造または特性は任意の適切な方式で1つ又は複数の実施例に組み合わせることができる。なお、本願の様々な実施例において、上記各過程の番号の大きさは実行順番の前後を表すものではなく、各過程の実行順番はその機能及び内在的な論理により決定されるべきであり、本願の実施例を実施する過程に対しいかなる限定も構成しない。
なお、本願において、「〜の場合」、「である場合」及び「であると」は、いずれも特定の客観的な状況において端末又はサーバが対応する処理を行うことを意味し、時間を限定するものではなければ、端末又はサーバが実現する際に必ず判断の動作を行うことも要求されず、その他の限定が存在することも意味しない。
本願において単数の形式で説明される要素は「1つ、且つ1つのみ」ではなく、「1つ又は複数」を表すものであり、ただし特段の説明がある場合は除く。本願において、特段の説明がない限り、「少なくとも1つ」は「1つ又は複数」を表すものであり、「複数」は「2つ以上」を表すものである。
本明細書において「及び/又は」という用語は、関連する対象の相関関係を説明するためのものに過ぎず、3種の関係が存在できることを表す。例えば、「A及び/又はB」というのは、Aが単独で存在する、AとBが同時に存在する、Bが単独で存在するという3種の状況が存在することを表すことができ、ただしAは単数でも複数でもよく、Bは単数でも複数でもよい。
本明細書において、「〜のうちの少なくとも1つ」又は「〜のうちの少なくとも1種」という表現は、挙げられた各項目の全て又はその任意の組み合わせを表す。例えば、「A、B及びCのうちの少なくとも1種」は、Aが単独で存在する、Bが単独で存在する、Cが単独で存在する、AとBが同時に存在する、BとCが同時存在する、AとCが同時存在する、A、BとCが同時に存在するという7種の状況が存在することを表すことができ、ただしAは単数でも複数でもよく、Bは単数でも複数でもよく、Cは単数でも複数でもよい。
なお、本願の各実施例において、「Aに対応するB」はBがAに関連し、Aに基づきBを決定できることを意味する。理解できることだろうが、Aに基づきBを決定することは、Aのみに基づきBを決定するだけでなく、A及び/又はその他の情報に基づきBを決定することもできる。
当業者であれば分かるように、上記各方法の実施例を実現するためのステップの全て又はその一部は、プログラムコードに関連するハードウェアで完了できる。前述したプログラムは、コンピュータ可読記憶媒体に記憶されてもよい。当該プログラムが実行される時、上記各方法の実施例を含むステップを実行する。前述した記憶媒体はROM、RAM、磁気ディスク又は光ディスク等、プログラムコードを記憶可能な様々な媒体を含む。
最後に説明すべきこととして、上記各実施例は本願に係る技術的解決手段を説明するためのものに過ぎず、それを限定するためのものではない。前述した各実施例を参照して本願を詳細に説明しているが、当業者であれば理解できるように、なおも前述した各実施例に記載されている技術的解決手段に対し修正を行うか、その一部又は全ての技術的特徴に対し均等な差し替えを行うことができる。これらの修正又は差し替えにより、関係する技術的解決手段の主旨が本願の各実施例に係る技術的解決手段の範囲から逸脱することはない。

Claims (22)

  1. 音声処理方法であって、
    端末が第1のタイプのコンテンツを再生する時、前記端末はユーザによって入力される第1の音声を取得し、前記第1の音声は再生されるコンテンツを第2のタイプのコンテンツに切り替えるように前記端末に指示し、ただし、前記端末が第1のタイプのコンテンツを再生する前に、前記端末は予め設定されたタイプのコンテンツを再生することと、
    前記端末は前記第1の音声に基づく第1の応答音声を再生し、前記第1の応答音声は所定時間帯に前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き前記第2のタイプのコンテンツを再生するか否かをユーザに確認するためのものであることと、
    前記所定時間帯に、前記端末が前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生し、前記目的タイプは前記第1の応答音声に対する前記ユーザのフィードバックに関連することとを含むことを特徴とする音声処理方法。
  2. 前記端末が前記第1の音声に基づき第1の応答音声を再生することは、
    前記第1の音声がスロット情報を含む場合、前記端末は前記スロット情報に基づき、前記第1の応答音声を再生することと、
    前記第1の音声がスロット情報を含まない場合、前記端末は前記第1の音声に基づき、予め設定された音声を再生し、前記予め設定された音声は前記第1の応答音声であることとを含むことを特徴とする請求項1に記載の方法。
  3. 前記所定時間帯に、前記端末が前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き目的タイプのコンテンツを再生する前に、さらに、
    前記第1の応答音声の再生時間を開始時間として、前記端末は第1の予め設定された時間長内にユーザによって入力される第2の音声を取得し、前記第2の音声は前記第1の応答音声に対するユーザのフィードバックであり、且つ、前記第2の音声は前記第1の応答音声に対するユーザの肯定応答又は否定応答であることと、
    前記端末は前記第2の音声に基づき、前記目的タイプを決定することとを含むことを特徴とする請求項1に記載の方法。
  4. 前記端末が前記第2の音声に基づき、前記目的タイプを決定することは、
    前記第2の音声が前記第1の応答音声に対するユーザの肯定応答である場合、前記端末は前記目的タイプを前記第2のタイプに決定することと、
    前記第2の音声が前記第1の応答音声に対するユーザの否定応答である場合、前記端末は前記目的タイプを前記第1のタイプに決定することとを含むことを特徴とする請求項3に記載の方法。
  5. 前記端末が前記第2の音声に基づく第2の応答音声を再生することをさらに含むことを特徴とする請求項4に記載の方法。
  6. 前記端末が第2の音声を取得した後に、さらに、
    前記端末は前記第2のタイプのコンテンツを再生することを含むことを特徴とする請求項3〜請求項5のいずれか1項に記載の方法。
  7. 前記第1の応答音声の再生時間を開始時間として、前記端末は第1の予め設定された時間長内にユーザによって入力される第3の音声を取得し、前記第3の音声は再生されるコンテンツを第3のタイプのコンテンツに切り替えるように前記端末に指示するためのものであり、前記第3の音声は前記第1の応答音声に対するユーザのフィードバックであることと、
    前記端末は前記第3のタイプのコンテンツを再生することとをさらに含み、
    ただし、前記目的タイプは前記第1のタイプであることを特徴とする請求項1又は請求項2に記載の方法。
  8. 前記第1の応答音声の再生時間を開始時間として、前記端末が第1の予め設定された時間長内に前記第1の応答音声に対するユーザの応答を取得しなかった又はユーザによって入力される第4の音声を取得し、前記第4の音声は前記第1の応答音声に対するユーザのフィードバックであり、且つ、前記第4の音声は再生タイプを指示しない場合、前記端末は前記第2のタイプのコンテンツを再生することをさらに含み、
    ただし、前記目的タイプは前記第1のタイプであることを特徴とする請求項1又は請求項2に記載の方法。
  9. 前記端末が前記第1の音声に基づく第1の応答音声を再生する前に、さらに、
    前記端末は前記第1のタイプのコンテンツの再生の時間長が第2の予め設定された時間長以下であることを決定することを含むことを特徴とする請求項1又は請求項2に記載の方法。
  10. 前記所定時間帯は当日以後の時間帯であることを特徴とする請求項1又は請求項2に記載の方法。
  11. 音声処理方法であって、
    端末が第1のタイプのコンテンツを再生する時、サーバは前記端末から第1の音声を受信し、前記第1の音声は再生されるコンテンツを第2のタイプのコンテンツに切り替えるように前記端末に指示し、ただし、前記端末が第1のタイプのコンテンツを再生する前に、前記端末は予め設定されたタイプのコンテンツを再生することと、
    前記サーバは前記第1の音声に基づく第1の応答音声を取得し、前記第1の応答音声を前記端末に送信することにより、前記端末は前記第1の応答音声を再生し、前記第1の応答音声は所定時間帯に前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き前記第2のタイプのコンテンツを再生するか否かをユーザに確認するためのものであることと、
    前記所定時間帯に、前記サーバは前記端末に対して目的タイプのコンテンツをプッシュし、前記目的タイプは前記所定時間帯に、前記端末が前記予め設定されたタイプのコンテンツの再生を完了した後に引き続き再生するコンテンツのタイプであり、前記目的タイプは前記第1の応答音声に対する前記ユーザのフィードバックに関連することとを含むことを特徴とする音声処理方法。
  12. 前記サーバが前記第1の音声に基づく第1の応答音声を取得することは、
    前記第1の音声がスロット情報を含む場合、前記サーバは前記スロット情報に基づき、前記第1の応答音声を決定することと、
    第1の音声がスロット情報を含まない場合、前記サーバは前記第1の音声に基づき、予め設定された音声を前記第1の応答音声に決定することとを含むことを特徴とする請求項11に記載の方法。
  13. 前記サーバは前記端末から第2の音声を受信し、前記第2の音声は前記第1の応答音声に対するユーザのフィードバックであり、且つ、前記第2の音声は前記第1の応答音声に対するユーザの肯定応答又は否定応答であることと、
    前記サーバは第2の音声に基づき、前記目的タイプを決定することとをさらに含むことを特徴とする請求項11に記載の方法。
  14. サーバが第2の音声に基づき、前記目的タイプを決定することは、
    前記第2の音声が前記第1の応答音声に対するユーザの肯定応答である場合、前記サーバは前記目的タイプを前記第2のタイプに決定することと、
    前記第2の音声が前記第1の応答音声に対するユーザの否定応答である場合、前記サーバは前記目的タイプを前記第1のタイプに決定することとを含むことを特徴とする請求項13に記載の方法。
  15. 前記サーバが前記端末に対して前記第2のタイプのコンテンツをプッシュすることにより、前記端末は前記第2のタイプのコンテンツを再生することをさらに含むことを特徴とする請求項13又は請求項14に記載の方法。
  16. 前記サーバは前記端末から第3の音声を受信し、前記第3の音声は前記第1の応答音声に対するユーザのフィードバックであり、且つ、前記第3の音声は再生されるコンテンツを第3のタイプのコンテンツに切り替えるように前記端末に指示することと、
    前記サーバは前記第3の音声に基づき、前記端末に対して前記第3のタイプのコンテンツをプッシュすることにより、前記端末は前記第3のタイプのコンテンツを再生することとをさらに含み、
    ただし、前記目的タイプは前記第1のタイプであることを特徴とする請求項11又は請求項12に記載の方法。
  17. 前記サーバは前記端末から第4の音声を受信し、前記第4の音声は前記第1の応答音声に対するユーザのフィードバックであり、且つ、前記第4の音声は再生タイプを指示しないことと、
    前記サーバは前記第4の音声に基づき、前記端末に対して前記第2のタイプのコンテンツをプッシュすることにより、前記端末は前記第2のタイプのコンテンツを再生することとをさらに含み、
    ただし、前記目的タイプは前記第1のタイプであることを特徴とする請求項11又は請求項12に記載の方法。
  18. ユーザが前記第1の応答音声に対して応答を行わなかった場合、さらに、
    前記サーバが前記端末に対して前記第2のタイプのコンテンツをプッシュすることにより、前記端末は前記第2のタイプのコンテンツを再生することを含み、
    ただし、前記目的タイプは前記第1のタイプであることを特徴とする請求項11又は請求項12に記載の方法。
  19. 前記サーバが前記第1の音声に基づく第1の応答音声を取得する前に、さらに、
    前記サーバは前記端末による前記第1のタイプのコンテンツの再生の時間長が第2の予め設定された時間長以下であることを決定することを含むことを特徴とする請求項11又は請求項12に記載の方法。
  20. 端末であって、メモリとプロセッサを含み、前記メモリが前記プロセッサに接続され、
    前記メモリは、プログラムコマンドを記憶するために用いられ、
    前記プロセッサは、プログラムコマンドを実行することで、請求項1〜請求項10のいずれか1項に記載の方法を実現するために用いられることを特徴とする端末。
  21. サーバであって、メモリとプロセッサを含み、前記メモリが前記プロセッサに接続され、
    前記メモリは、プログラムコマンドを記憶するために用いられ、
    前記プロセッサは、プログラムコマンドを実行することで、請求項11〜請求項19のいずれか1項に記載の方法を実現するために用いられることを特徴とするサーバ。
  22. コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行される時、請求項1〜請求項10又は請求項11〜請求項19のいずれか1項に記載の方法が実現されることを特徴とするコンピュータ可読記憶媒体。
JP2019218976A 2019-06-27 2019-12-03 音声処理方法及び装置 Active JP6868082B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910567044.5 2019-06-27
CN201910567044.5A CN110265017B (zh) 2019-06-27 2019-06-27 语音处理方法和装置

Publications (2)

Publication Number Publication Date
JP2021006888A true JP2021006888A (ja) 2021-01-21
JP6868082B2 JP6868082B2 (ja) 2021-05-12

Family

ID=67922300

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019218976A Active JP6868082B2 (ja) 2019-06-27 2019-12-03 音声処理方法及び装置

Country Status (3)

Country Link
US (1) US11164583B2 (ja)
JP (1) JP6868082B2 (ja)
CN (1) CN110265017B (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017535798A (ja) * 2015-09-25 2017-11-30 小米科技有限責任公司Xiaomi Inc. オーディオの再生のための制御方法及び装置
JP2018097029A (ja) * 2016-12-08 2018-06-21 三菱電機株式会社 音声認識装置および音声認識方法
US20190147864A1 (en) * 2017-11-15 2019-05-16 Baidu Online Network Technology (Beijing) Co., Ltd. Voice interaction based method and apparatus for generating multimedia playlist
US20190147052A1 (en) * 2017-11-16 2019-05-16 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for playing multimedia
JP2019091014A (ja) * 2017-11-14 2019-06-13 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド マルチメディアを再生するための方法及び装置
JP2019101264A (ja) * 2017-12-04 2019-06-24 シャープ株式会社 外部制御装置、音声対話型制御システム、制御方法、およびプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101537693B1 (ko) * 2008-11-24 2015-07-20 엘지전자 주식회사 단말기 및 그 제어 방법
JP2010204442A (ja) * 2009-03-04 2010-09-16 Nec Corp 音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体
WO2013012107A1 (ko) * 2011-07-19 2013-01-24 엘지전자 주식회사 전자 기기 및 그 제어 방법
CN103281683B (zh) * 2013-06-08 2016-08-17 网易(杭州)网络有限公司 一种发送语音消息的方法及装置
CN104423924B (zh) * 2013-08-20 2019-01-29 腾讯科技(深圳)有限公司 应用声音播放切换方法及装置
CN105679318A (zh) * 2015-12-23 2016-06-15 珠海格力电器股份有限公司 一种基于语音识别的显示方法、装置、显示系统和空调
US20200014981A1 (en) * 2018-07-06 2020-01-09 Telus Communications Inc. System and method for sending multimedia to a remote television
CN109036388A (zh) * 2018-07-25 2018-12-18 李智彤 一种基于对话设备的智能语音交互方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017535798A (ja) * 2015-09-25 2017-11-30 小米科技有限責任公司Xiaomi Inc. オーディオの再生のための制御方法及び装置
JP2018097029A (ja) * 2016-12-08 2018-06-21 三菱電機株式会社 音声認識装置および音声認識方法
JP2019091014A (ja) * 2017-11-14 2019-06-13 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド マルチメディアを再生するための方法及び装置
US20190147864A1 (en) * 2017-11-15 2019-05-16 Baidu Online Network Technology (Beijing) Co., Ltd. Voice interaction based method and apparatus for generating multimedia playlist
US20190147052A1 (en) * 2017-11-16 2019-05-16 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for playing multimedia
JP2019101264A (ja) * 2017-12-04 2019-06-24 シャープ株式会社 外部制御装置、音声対話型制御システム、制御方法、およびプログラム

Also Published As

Publication number Publication date
CN110265017A (zh) 2019-09-20
US20200410999A1 (en) 2020-12-31
US11164583B2 (en) 2021-11-02
CN110265017B (zh) 2021-08-17
JP6868082B2 (ja) 2021-05-12

Similar Documents

Publication Publication Date Title
US8140116B2 (en) Duplex audio for mobile communication device and accessory
US10908870B2 (en) Audio playing method, apparatus, device and server
CN105630586B (zh) 一种信息处理方法及电子设备
JP2002186079A (ja) 非連結且つ内容のワイヤレス・ダウンロードを許容するパーソナル・オンデマンド・オーディオ・エンターテイメント装置
JP2019128586A (ja) 音声処理方法、装置及びコンピュータ読み取り可能な記憶媒体
CN102104680A (zh) 音频播放方法、外挂播放终端及移动终端
US20150055781A1 (en) Wireless speaker device and wirelessly multi-channel audio system thereof
CN104867513A (zh) 一种播放控制方法及设备
US11494159B2 (en) Speaker with broadcasting mode and broadcasting method thereof
EP2962303A1 (en) Method, apparatus, and computer program product for including device playback preferences
TW202218449A (zh) 無縫交接通訊之方法、行動裝置及配件
US20140140674A1 (en) Wireless transmission of media to an audio/visual output device
CN115631738A (zh) 音频数据处理方法、装置、电子设备及存储介质
WO2022062999A1 (zh) 一种分配声道的方法及相关设备
CN110868621B (zh) 一种音频播放方法、装置、设备及计算机可读介质
KR101238368B1 (ko) 복수의 오디오 신호 출력이 가능한 멀티미디어 재생 장치및 그의 운영 방법
CN113760219A (zh) 信息处理方法和装置
JP6868082B2 (ja) 音声処理方法及び装置
JP2015002394A (ja) 情報処理装置及びコンピュータプログラム
KR101946055B1 (ko) 차량 헤드 유닛의 오디오 출력 관리 방법
CN103309968A (zh) 一种歌曲播放方法及装置
KR20130125112A (ko) 오디오 출력 관리 가능한 차량 멀티미디어 장치 및 오디오 출력 관리 방법
CN103945305A (zh) 一种信息处理的方法及电子设备
CN105682010A (zh) 音频播放系统中的蓝牙连接控制方法、装置及播放设备
CN112188361A (zh) 音频数据传输方法、音箱系统及计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210323

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210409

R150 Certificate of patent or registration of utility model

Ref document number: 6868082

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250