CN107871500A - 一种播放多媒体的方法和装置 - Google Patents
一种播放多媒体的方法和装置 Download PDFInfo
- Publication number
- CN107871500A CN107871500A CN201711138844.2A CN201711138844A CN107871500A CN 107871500 A CN107871500 A CN 107871500A CN 201711138844 A CN201711138844 A CN 201711138844A CN 107871500 A CN107871500 A CN 107871500A
- Authority
- CN
- China
- Prior art keywords
- multimedia
- request
- information
- semantic groove
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000004044 response Effects 0.000 claims description 66
- 238000004590 computer program Methods 0.000 claims description 8
- 230000002452 interceptive effect Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 8
- 230000006854 communication Effects 0.000 description 6
- 244000025254 Cannabis sativa Species 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 210000000988 bone and bone Anatomy 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 2
- 206010037180 Psychiatric symptoms Diseases 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000005291 magnetic effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000011435 rock Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 244000269722 Thea sinensis Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
- G06F16/433—Query formulation using audio data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/438—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了播放多媒体的方法和装置。方法的一具体实施方式包括:接收用户输入的语音播放请求;匹配语音播放请求的语义与语义槽,得到请求语义槽信息;基于多媒体库中的多媒体对请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于语音播放请求的答复信息;播放用于播放的多媒体。该实施方式提高了语音交互的准确性以及播放的多媒体的准确性和针对性。
Description
技术领域
本申请实施例涉及计算机技术领域,具体涉及计算机网络技术领域,尤其涉及一种播放多媒体的方法和装置。
背景技术
随着网络时代的来临,越来越多的用户倾向于接受智能化的服务。以视听服务为例,人们希望智能终端能够理解用户的语音输入,并基于对用户语音的理解,向用户提供一些个性化的视听服务。
目前,在智能终端的视听语音交互场景中,对于用户的语音输入,终端可以满足对于用户的任何点播需求,根据对用户语音的理解改变当前播放的多媒体内容。
发明内容
本申请实施例的目的在于提出一种播放多媒体的方法和装置。
第一方面,本申请实施例提供了一种播放多媒体的方法,包括:接收用户输入的语音播放请求;匹配语音播放请求的语义与语义槽,得到请求语义槽信息;基于多媒体库中的多媒体对请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于语音播放请求的答复信息;播放用于播放的多媒体。
在一些实施例中,基于多媒体库中的多媒体对请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于语音播放请求的答复信息:响应于多媒体库中的多媒体与请求语义槽信息完全匹配,基于与请求语义槽信息完全匹配的多媒体,确定用于播放的多媒体,并语音反馈对于语音播放请求的答复信息和/或对于用于播放的多媒体的推荐信息。
在一些实施例中,基于多媒体库中的多媒体对请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于语音播放请求的答复信息:响应于多媒体库中的多媒体与请求语义槽信息部分匹配,基于所匹配的语义槽的综合优先级,从与请求语义槽信息部分匹配的多媒体中确定用于播放的多媒体,基于所匹配的语义槽、未匹配的语义槽和选取的多媒体,语音反馈对于语音播放请求的引导性答复信息和/或对于用于播放的多媒体的推荐信息。
在一些实施例中,基于多媒体库中的多媒体对请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于语音播放请求的答复信息:响应于多媒体库中的多媒体与请求语义槽信息无匹配且语音播放请求的表述不符合预定规则,确定无用于播放的多媒体,语音反馈对于表达语音播放请求的导引性答复信息。
在一些实施例中,基于多媒体库中的多媒体对请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于语音播放请求的答复信息:响应于多媒体库中的多媒体与请求语义槽信息无准确匹配,基于由请求语义槽信息得到的推测语义槽信息,确定用于播放的多媒体,语音反馈对于表达语音播放请求的推测性答复信息和/或对于用于播放的多媒体的推荐信息。
在一些实施例中,基于多媒体库中的多媒体对请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于语音播放请求的答复信息:响应于多媒体库中的多媒体与请求语义槽信息中的部分槽位匹配且请求语义槽信息中的末端语义槽为不支持的语义槽,或者响应于多媒体库中的多媒体与请求语义槽信息无匹配且请求语义槽信息中包括不支持的语义槽,确定无用于播放的多媒体,语音反馈对于语音播放请求的兜底答复信息。
在一些实施例中,基于多媒体库中的多媒体对请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于语音播放请求的答复信息:响应于多媒体库中的多媒体与请求语义槽信息的匹配相似概率大于预定阈值,将与请求语义槽信息的匹配相似概率大于预定阈值的多媒体确定为用于播放的多媒体,基于请求语义槽信息和与请求语义槽信息完全匹配的多媒体,语音反馈对于语音播放请求的指引性答复信息和/或对于用于播放的多媒体的推荐信息。
在一些实施例中,基于多媒体库中的多媒体对请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于语音播放请求的答复信息:响应于请求语义槽信息包括满足同一语义槽的多个信息,基于多媒体库中的多媒体对多个语义槽的分类匹配结果,语音反馈对于语音播放请求的类别组合答复信息,并将基于各类分类匹配结果的组合确定为用于播放的多媒体。
在一些实施例中,基于多媒体库中的多媒体对请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于语音播放请求的答复信息:响应于请求语义槽信息指示播放用户喜好的多媒体,基于用户历史喜好数据,确定用于播放的多媒体,语音反馈以下一项或多项信息:对于语音播放请求的答复信息、对于用于播放的多媒体的推荐信息和对于表达喜好的引导信息。
在一些实施例中,方法还包括:响应于语音播放请求的语义未匹配到语义槽,语音反馈对于语音播放请求的兜底答复信息和/或对于表达语音播放请求的导引性答复信息。
第二方面,本申请实施例提供了一种播放多媒体的装置,包括:播放请求接收单元,用于接收用户输入的语音播放请求;语义槽匹配单元,用于匹配语音播放请求的语义与语义槽,得到请求语义槽信息;多媒体确定及语音反馈单元,用于基于多媒体库中的多媒体对请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于语音播放请求的答复信息;多媒体播放单元,用于播放用于播放的多媒体。
在一些实施例中,多媒体确定及语音反馈单元进一步用于:响应于多媒体库中的多媒体与请求语义槽信息完全匹配,基于与请求语义槽信息完全匹配的多媒体,确定用于播放的多媒体,并语音反馈对于语音播放请求的答复信息和/或对于用于播放的多媒体的推荐信息。
在一些实施例中,多媒体确定及语音反馈单元进一步用于:响应于多媒体库中的多媒体与请求语义槽信息部分匹配,基于所匹配的语义槽的综合优先级,从与请求语义槽信息部分匹配的多媒体中确定用于播放的多媒体,基于所匹配的语义槽、未匹配的语义槽和选取的多媒体,语音反馈对于语音播放请求的引导性答复信息和/或对于用于播放的多媒体的推荐信息。
在一些实施例中,多媒体确定及语音反馈单元进一步用于:响应于多媒体库中的多媒体与请求语义槽信息无匹配且语音播放请求的表述不符合预定规则,确定无用于播放的多媒体,语音反馈对于表达语音播放请求的导引性答复信息。
在一些实施例中,多媒体确定及语音反馈单元进一步用于:响应于多媒体库中的多媒体与请求语义槽信息无准确匹配,基于由请求语义槽信息得到的推测语义槽信息,确定用于播放的多媒体,语音反馈对于表达语音播放请求的推测性答复信息和/或对于用于播放的多媒体的推荐信息。
在一些实施例中,多媒体确定及语音反馈单元进一步用于:响应于多媒体库中的多媒体与请求语义槽信息中的部分槽位匹配且请求语义槽信息中的末端语义槽为不支持的语义槽,或者响应于多媒体库中的多媒体与请求语义槽信息无匹配且请求语义槽信息中包括不支持的语义槽,确定无用于播放的多媒体,语音反馈对于语音播放请求的兜底答复信息。
在一些实施例中,多媒体确定及语音反馈单元进一步用于:响应于多媒体库中的多媒体与请求语义槽信息的匹配相似概率大于预定阈值,将与请求语义槽信息的匹配相似概率大于预定阈值的多媒体确定为用于播放的多媒体,基于请求语义槽信息和与请求语义槽信息完全匹配的多媒体,语音反馈对于语音播放请求的指引性答复信息和/或对于用于播放的多媒体的推荐信息。
在一些实施例中,多媒体确定及语音反馈单元进一步用于:响应于请求语义槽信息包括满足同一语义槽的多个信息,基于多媒体库中的多媒体对多个语义槽的分类匹配结果,语音反馈对于语音播放请求的类别组合答复信息,并将基于各类分类匹配结果的组合确定为用于播放的多媒体。
在一些实施例中,多媒体确定及语音反馈单元进一步用于:响应于请求语义槽信息指示播放用户喜好的多媒体,基于用户历史喜好数据,确定用于播放的多媒体,语音反馈以下一项或多项信息:对于语音播放请求的答复信息、对于用于播放的多媒体的推荐信息和对于表达喜好的引导信息。
在一些实施例中,装置还包括:未匹配语音反馈单元,响应于语音播放请求的语义未匹配到语义槽,语音反馈对于语音播放请求的兜底答复信息和/或对于表达语音播放请求的导引性答复信息。
第三方面,本申请实施例提供了一种设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上任意一项一种播放多媒体的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上任意一项一种播放多媒体的方法。
本申请实施例提供的一种播放多媒体的方法和装置,首先,接收用户输入的语音播放请求;之后,匹配语音播放请求的语义与语义槽,得到请求语义槽信息;之后,基于多媒体库中的多媒体对请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于语音播放请求的答复信息;播放用于播放的多媒体。在这一过程中,可以根据用户语音提出的播放请求,基于对用户的个性化识别,语音反馈对于语音播放请求的答复信息并播放用于播放的多媒体,从而提高了语音交互的准确性、播放的多媒体的准确度和针对性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请实施例的其它特征、目的和优点将会变得更明显:
图1示出了可以应用本申请的播放多媒体的方法或播放多媒体的装置的实施例的示例性系统架构图;
图2是根据本申请的一种播放多媒体的方法的一个实施例的示意性流程图;
图3是根据本申请的一种播放多媒体的方法的一个应用场景的示意性流程图;
图4是根据本申请的一种播放多媒体的装置的一个实施例的示例性结构图;
图5是适于用来实现本申请的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请实施例中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请实施例。
图1示出了可以应用本申请的播放多媒体的方法或播放多媒体的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105、106。网络104用以在终端设备101、102、103和服务器105、106之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户110可以使用终端设备101、102、103通过网络104与服务器105、106交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如搜索引擎类应用、购物类应用、即时通信工具、邮箱客户端、社交平台软件、音视频播放类应用等。
终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能音箱、智能手机、可穿戴设备、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105、106可以是提供各种服务的服务器,例如对终端设备101、102、103提供支持的后台服务器。后台服务器可以对终端的数据进行分析或计算等处理,并将分析或计算结果推送给终端设备。
需要说明的是,本申请中实施例所提供的播放多媒体的方法一般由服务器105、106或终端设备101、102、103执行,相应地,播放多媒体的装置一般设置于服务器105、106或终端设备101、102、103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,图2示出了根据本申请的一种播放多媒体的方法的一个实施例的示意性流程。
如图2所示,该生成一种播放多媒体的方法200包括:
在步骤210中,接收用户输入的语音播放请求。
在本实施例中,运行一种播放多媒体的方法的电子设备(例如图1中所示的服务器或图1中所示的终端设备)可以经由终端设备的麦克风接收用户输入的语音播放请求。这里的语音播放请求,用以指示终端设备播放的多媒体,多媒体的内容可以为音频内容,视频内容,或者音频内容和视频内容的组合。
在本实施例的一些可选实现方式中,接收用户输入的语音播放请求可以包括:首先,接收用户输入的唤醒指令;之后,语音反馈应答信息并接收用户输入的语音播放请求。
以多媒体为音频内容中的歌曲为例,终端设备可以接收用户的语音输入“小A”,其中“小A”为预先确定的唤醒指令;之后,终端设备语音反馈用户“哎!”,之后,用户输入语音播放请求“下一首播放BB的CCC”,其中,“下一首”为播放时机,BB和CCC均为播放参数BB,其中BB为歌手名称,CCC为歌曲名称。
在步骤220中,匹配所述语音播放请求的语义与语义槽,得到请求语义槽信息。
在本实施例中,语义槽允许用户去详细描述说法的变量值部分,是描述数据的数据。在语音播放请求的语义匹配语义槽后,语义槽及其中填充的信息即为请求语义槽信息。
通常,语音播放请求中的语义槽至少可以包括以下一项或多项:多媒体的类型、名称、主创人员、专题多媒体列表、兴趣多媒体列表、语种、风格、场景、情感以及主题等。
下面,以多媒体为音频中的歌曲为例进行说明,语义槽中的多媒体名称可以为歌名;主创人员可以为歌手、词作者或曲作者;专题多媒体列表可以为专辑;兴趣多媒体列表可以为歌单;语种可以为华语、粤语、英语、日语、韩语、德语、法语、其它语种等;风格可以为流行、摇滚、民谣、电子、舞曲、说唱、轻音乐、爵士、乡村、黑人音乐、古典、民族、英伦、金属、朋克、蓝调、雷鬼、拉丁、另类、新纪元、古风、后摇滚、新派爵士等;场景可以为清晨、夜晚、学习、工作、午休、下午茶、地铁、驾车、运动、旅行、散步、酒吧等;情感可以为怀旧、清新、浪漫、性感、伤感、治愈、放松、孤独、感动、兴奋、快乐、安静、思念等;主题则可以为:影视原声、动漫、校园、游戏、70后、80后、90后、网络歌曲、KTV、经典、翻唱、吉他、钢琴、器乐、儿童、榜单、00后等。
在一个具体的示例中,以请求播放歌曲为例,若用户语音请求“播放AA的歌”,那么此时匹配所述语音播放请求的语义与语义槽的结果为:“AA”命中语义槽“歌手”,从而可以得到请求语义槽信息“歌手:AA”。
在步骤230中,基于多媒体库中的多媒体对请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于语音播放请求的答复信息。
在本实施例中,基于请求语义槽信息,可以从多媒体库或网络数据中提取符合播放参数的多媒体。例如,若语义槽信息包括“多媒体的语种:英语”、“多媒体的风格:乡村”和“多媒体的类型:歌曲”,那么,可以从曲库中提取同时满足“多媒体的语种:英语”、“多媒体的风格:乡村”和“多媒体的类型:歌曲”的歌曲,生成用于播放的歌曲列表。
在确定用于播放的多媒体之后,可以通过语音反馈来答复语音播放请求,以便用户可以及时便捷的接收终端设备的反馈。例如,在生成上述用于播放的歌曲列表后,可以向用户反馈“好的,英语乡村歌曲”。
示例性地,以下描述基于多媒体库中的多媒体对请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于语音播放请求的答复信息的应用场景:
在一些场景中,响应于多媒体库中的多媒体与请求语义槽信息完全匹配,基于与请求语义槽信息完全匹配的多媒体,确定用于播放的多媒体,并语音反馈对于语音播放请求的答复信息和/或对于用于播放的多媒体的推荐信息。
例如,响应于基于语音播放请求的得到请求语义槽信息为“歌手:XXX”、歌名“XYZ”,从多媒体库中与该语义槽信息完全匹配的多媒体中,确定用于播放的多媒体,并语音反馈对于语音播放请求的答复信息:“好的”和“XXX,XYZ”。上述用于播放的多媒体,可以基于预设的选择参数(例如热点、上市时间或与用户喜好的匹配程度等),从与请求语义槽信息完全匹配的多媒体中确定。
在一些场景中,响应于多媒体库中的多媒体与请求语义槽信息部分匹配,基于所匹配的语义槽的综合优先级,从与请求语义槽信息部分匹配的多媒体中确定用于播放的多媒体,基于所匹配的语义槽、未匹配的语义槽和选取的多媒体,语音反馈对于语音播放请求的引导性答复信息和/或对于用于播放的多媒体的推荐信息。
例如,语音播放请求输入“ZXY的歌、雷鬼的”,得到请求语义槽信息为“类型:歌曲”、“歌手:ZXY”和“风格:雷鬼”,从多媒体库中无法查询到与该请求语义槽信息完全匹配的多媒体,但可以查询到与“类型:歌曲”、“歌手:ZXY”相匹配的歌,以及“类型:歌曲”、“风格:雷鬼”相匹配的歌,此时可以基于预设的各个槽位的权重,计算所匹配的语义槽的综合优先级,之后根据综合优先级确定用于播放的多媒体,例如,基于预设的各个槽位的权重计算得到“类型:歌曲”、“歌手:ZXY”的综合优先级低于“类型:歌曲”、“风格:雷鬼”的综合优先级,那么,可以语音反馈对于语音播放请求的答复信息:“没有找到ZXY的雷鬼音箱,可以听听雷鬼音乐XY乐队不要停止ABCD”。
在一些场景中,响应于多媒体库中的多媒体与请求语义槽信息无匹配且语音播放请求的表述不符合预定规则,确定无用于播放的多媒体,语音反馈对于表达语音播放请求的导引性答复信息。
例如,语音播放请求输入“我想听hofhfjfhqd的歌”,得到请求语义槽草信息为“类型:歌曲”、“歌手:hofhfjfhqd”或“风格:hofhfjfhqd”等,基于该请求语义槽信息,多媒体库中确定无用于播放的多媒体,因此,可以语音反馈对于语音播放请求的答复信息:“我没有听清楚,你可以告诉我想听ZXY(歌手名)XYZ(歌曲名)”。
在一些场景中,响应于多媒体库中的多媒体与请求语义槽信息无准确匹配,基于由请求语义槽信息得到的推测语义槽信息,确定用于播放的多媒体,语音反馈对于表达语音播放请求的推测性答复信息和/或对于用于播放的多媒体的推荐信息。这里的由请求语义槽信息得到的推测语义槽信息的方法,可以采用预设规则或预先训练的推测模型来由请求语义槽信息得到推测语义槽信息。
例如,语音播放请求输入“我想听一个人孤单时候听的歌”,得到请求语义槽草信息为“类型:歌曲”、“歌手:孤单时候听”或“风格:孤单时候听”等,基于该请求语义槽信息,多媒体库中无准确匹配的多媒体,基于多媒体的参数确定与该请求语义槽信息“风格:孤单时候听”推测得到的推测语义槽信息“风格:孤单”,确定用于播放的多媒体,并可以语音反馈对于语音播放请求的答复信息:“你可能想听孤单的歌曲,可以听听XXX(乐队)AB(歌曲名)”。
在一些场景中,响应于多媒体库中的多媒体与请求语义槽信息中的部分槽位匹配且请求语义槽信息中的末端语义槽为不支持的语义槽,或者响应于多媒体库中的多媒体与请求语义槽信息无匹配且请求语义槽信息中包括不支持的语义槽,确定无用于播放的多媒体,语音反馈对于语音播放请求的兜底答复信息。这里的兜底答复信息,为预先根据不支持的语义槽的内容设定的答复信息。这里的末端语义槽,是指识别语音播放请求得到的语义中处于末端的槽位。
例如,语音播放请求输入“ZXY(歌手名)的CBA(专辑名)”,得到请求语义槽草信息为“类型:歌曲”、“歌手:ZXY”和“专辑:CBA”等,基于该请求语义槽信息,多媒体库中确定有歌手ZXY的歌,但无该专辑CBA的版权,确定无用于播放的多媒体,因此,可以语音反馈对于语音播放请求的答复信息:“这个专辑还没有版权,可以听听ZXY DEF(专辑名)”。
又例如,语音播放请求输入“这首歌再播一遍”,得到请求语义槽草信息为“类型:歌曲”、“歌曲名:这首”以及“播放要求:再播一遍”等,末端语义槽“播放要求:再播一遍”为不支持的语义槽,确定无用于播放的多媒体,因此,可以语音反馈对于语音播放请求的答复信息:“抱歉,这个还不支持”。
或者例如,语音播放请求输入“这里都有什么乐器”,得到请求语义槽草信息为“乐器:有什么”等,包括不支持的语义槽“乐器”,确定无用于播放的多媒体,因此,可以语音反馈对于语音播放请求的答复信息:“抱歉,这个还不支持”。
在一些场景中,响应于多媒体库中的多媒体与请求语义槽信息完全匹配且请求语义槽信息基于与语音播放请求的语义的相似概率大于预定阈值的语义槽确定,将与请求语义槽信息完全匹配的多媒体确定为用于播放的多媒体,基于请求语义槽信息和与请求语义槽信息完全匹配的多媒体,语音反馈对于语音播放请求的指引性答复信息和/或对于用于播放的多媒体的推荐信息。
例如,语音播放请求输入“爱在公AB”,命中语义槽“歌曲:爱在公AB”,但曲库中存在与该语义槽最相似的命中“歌曲:爱在西AB”的歌曲,将命中“歌曲:爱在西AB”的歌曲确定为用于播放的多媒体,之后可以语音反馈对于语音播放请求的答复信息:“你想听的可能是ZXY(歌手名)爱在西AB(歌曲名)”。
在一些场景中,响应于请求语义槽信息包括包括满足同一语义槽的多个信息,基于多媒体库中的多媒体对多个语义槽的分类匹配结果,语音反馈对于语音播放请求的类别组合答复信息,并将基于各类分类匹配结果的组合确定为用于播放的多媒体。
例如,语音播放请求输入“ZXY(歌手)LMN(歌手)CDF(歌手)”,命中语义槽“歌手:ZXY”、“歌手:LMN”、“歌手:CDF”,基于多媒体库中的多媒体对多个语义槽的分类匹配结果,语音反馈对于语音播放请求的答复信息:“精选组合歌单ZXY ABCD(歌曲名)”。
在一些场景中,响应于请求语义槽信息指示播放用户喜好的多媒体,基于用户历史喜好数据,确定用于播放的多媒体,语音反馈以下一项或多项信息:对于语音播放请求的答复信息、对于用于播放的多媒体的推荐信息和对于表达喜好的引导信息。
例如,语音播放请求输入“放点我喜欢的歌”,命中语义槽“歌单”,指示播放用户喜好的多媒体,基于用户历史喜好数据,确定用于播放的多媒体YZGF,之后可以语音反馈对于语音播放请求的答复信息:“好的,可以听听ZXY(歌手名)YZGF(歌曲名),遇到喜欢的歌曲可以跟我说喜欢这首歌”。
在步骤240中,播放所述用于播放的多媒体。
在本实施例中,可以经由终端设备的扬声器来播放用于播放的多媒体。
可选地,在步骤250中,响应于语音播放请求的语义未匹配到语义槽,语音反馈对于语音播放请求的兜底答复信息和/或对于表达语音播放请求的导引性答复信息。
在本实施例中,语音播放请求的语义未匹配到语义槽,可能目前还不支持该功能,因此可以语音反馈关于不支持的兜底答复信息,备选地或附加地,还可以答复对于表达语音播放请求的导引性答复信息。
本申请上述实施例提供的一种播放多媒体的方法,基于用户的语音播放请求确定请求语义槽信息,并基于多媒体库中的多媒体对请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于语音播放请求的答复信息;最后播放用于播放的多媒体,在这一过程中,针对用户的不同播放请求,提供细分的用于播放的多媒体并语音反馈对于语音播放请求的答复信息,提升了语音交互的准确性、向用户播放的多媒体的准确度和针对性。
以下结合图3,描述本申请的一种播放多媒体的方法的示例性应用场景。
如图3所示,图3示出了根据本申请的一种播放多媒体的方法的一个应用场景的示意性流程图。
如图3所示,播放多媒体的方法300运行于智能音箱320中,可以包括:
首先,接收用户输入的语音播放请求301;
之后,识别语音播放请求301的语义302;
之后,匹配语音播放请求301的语义302与语义槽303,得到请求语义槽信息304;
之后,基于多媒体库中的多媒体305对请求语义槽信息304的匹配结果,确定用于播放的多媒体306以及对于语音播放请求的语音答复信息307;
最后,对用于播放的多媒体306及对于语音播放请求的语音答复信息307执行播放动作308。
应当理解,上述图3中所示出的播放多媒体的方法,仅为播放多媒体的方法的示例性实施例,并不代表对本申请实施例的限定。例如,对用于播放的多媒体306及对于语音播放请求的语音答复信息307执行播放动作308时,可以分别执行播放用于播放的多媒体306,以及语音反馈对于语音播放请求的语音答复信息307。
本申请实施例的上述应用场景中提供的一种播放多媒体的方法,可以提高语音交互的准确性、提高播放的多媒体的准确性和针对性。
进一步参考图4,作为对上述方法的实现,本申请提供了一种播放多媒体的装置的一个实施例,该一种播放多媒体的装置的实施例与图1至图3所示的一种播放多媒体的方法的实施例相对应,由此,上文针对图1至图3中一种播放多媒体的方法描述的操作和特征同样适用于一种播放多媒体的装置400及其中包含的单元,在此不再赘述。
如图4所示,该一种播放多媒体的装置400包括:播放请求接收单元410,用于接收用户输入的语音播放请求;语义槽匹配单元420,用于匹配语音播放请求的语义与语义槽,得到请求语义槽信息;多媒体确定及语音反馈单元430,用于基于多媒体库中的多媒体对请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于语音播放请求的答复信息;多媒体播放单元440,用于播放用于播放的多媒体。
在一些实施例中,多媒体确定及语音反馈单元430进一步用于:响应于多媒体库中的多媒体与请求语义槽信息完全匹配,基于与请求语义槽信息完全匹配的多媒体,确定用于播放的多媒体,并语音反馈对于语音播放请求的答复信息和/或对于用于播放的多媒体的推荐信息。
在一些实施例中,多媒体确定及语音反馈单元430进一步用于:响应于多媒体库中的多媒体与请求语义槽信息部分匹配,基于所匹配的语义槽的综合优先级,从与请求语义槽信息部分匹配的多媒体中确定用于播放的多媒体,基于所匹配的语义槽、未匹配的语义槽和选取的多媒体,语音反馈对于语音播放请求的引导性答复信息和/或对于用于播放的多媒体的推荐信息。
在一些实施例中,多媒体确定及语音反馈单元430进一步用于:响应于多媒体库中的多媒体与请求语义槽信息无匹配且语音播放请求的表述不符合预定规则,确定无用于播放的多媒体,语音反馈对于表达语音播放请求的导引性答复信息。
在一些实施例中,多媒体确定及语音反馈单元430进一步用于:响应于多媒体库中的多媒体与请求语义槽信息无准确匹配,基于由请求语义槽信息得到的推测语义槽信息,确定用于播放的多媒体,语音反馈对于表达语音播放请求的推测性答复信息和/或对于用于播放的多媒体的推荐信息。
在一些实施例中,多媒体确定及语音反馈单元430进一步用于:响应于多媒体库中的多媒体与请求语义槽信息中的部分槽位匹配且请求语义槽信息中的末端语义槽为不支持的语义槽,或者响应于多媒体库中的多媒体与请求语义槽信息无匹配且请求语义槽信息中包括不支持的语义槽,确定无用于播放的多媒体,语音反馈对于语音播放请求的兜底答复信息。
在一些实施例中,多媒体确定及语音反馈单元430进一步用于:响应于多媒体库中的多媒体与请求语义槽信息的匹配相似概率大于预定阈值,将与请求语义槽信息的匹配相似概率大于预定阈值的多媒体确定为用于播放的多媒体,基于请求语义槽信息和与请求语义槽信息完全匹配的多媒体,语音反馈对于语音播放请求的指引性答复信息和/或对于用于播放的多媒体的推荐信息。
在一些实施例中,多媒体确定及语音反馈单元430进一步用于:响应于请求语义槽信息包括满足同一语义槽的多个信息,基于多媒体库中的多媒体对多个语义槽的分类匹配结果,语音反馈对于语音播放请求的类别组合答复信息,并将基于各类分类匹配结果的组合确定为用于播放的多媒体。
在一些实施例中,多媒体确定及语音反馈单元430进一步用于:响应于请求语义槽信息指示播放用户喜好的多媒体,基于用户历史喜好数据,确定用于播放的多媒体,语音反馈以下一项或多项信息:对于语音播放请求的答复信息、对于用于播放的多媒体的推荐信息和对于表达喜好的引导信息。
在一些实施例中,装置400还包括:未匹配语音反馈单元450,响应于语音播放请求的语义未匹配到语义槽,语音反馈对于语音播放请求的兜底答复信息和/或对于表达语音播放请求的导引性答复信息。
本申请还提供了一种设备的实施例,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上任意一项所述的一种播放多媒体的方法。
本申请还提供了一种计算机可读存储介质的实施例,其上存储有计算机程序,该程序被处理器执行时实现如上任意一项所述的一种播放多媒体的方法。
下面参考图5,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请实施例的方法中限定的上述功能。
需要说明的是,本申请实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请实施例中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请实施例各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个单元、程序段、或代码的一部分,所述单元、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括播放请求接收单元、语义槽匹配单元、多媒体确定及语音反馈单元和多媒体播放单元。这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,播放请求接收单元还可以被描述为“接收用户输入的语音播放请求的单元”。
作为另一方面,本申请实施例还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:接收用户输入的语音播放请求;匹配语音播放请求的语义与语义槽,得到请求语义槽信息;基于多媒体库中的多媒体对请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于语音播放请求的答复信息;播放用于播放的多媒体。
以上描述仅为本申请实施例的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (22)
1.一种播放多媒体的方法,包括:
接收用户输入的语音播放请求;
匹配所述语音播放请求的语义与语义槽,得到请求语义槽信息;
基于多媒体库中的多媒体对所述请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于所述语音播放请求的答复信息;
播放所述用于播放的多媒体。
2.根据权利要求1所述的方法,其中,所述基于多媒体库中的多媒体对所述请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于所述语音播放请求的答复信息:
响应于多媒体库中的多媒体与所述请求语义槽信息完全匹配,基于与所述请求语义槽信息完全匹配的多媒体,确定用于播放的多媒体,并语音反馈对于所述语音播放请求的答复信息和/或对于用于播放的多媒体的推荐信息。
3.根据权利要求1所述的方法,其中,所述基于多媒体库中的多媒体对所述请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于所述语音播放请求的答复信息:
响应于多媒体库中的多媒体与所述请求语义槽信息部分匹配,基于所匹配的语义槽的综合优先级,从与所述请求语义槽信息部分匹配的多媒体中确定用于播放的多媒体,基于所匹配的语义槽、未匹配的语义槽和选取的多媒体,语音反馈对于所述语音播放请求的引导性答复信息和/或对于用于播放的多媒体的推荐信息。
4.根据权利要求1所述的方法,其中,所述基于多媒体库中的多媒体对所述请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于所述语音播放请求的答复信息:
响应于多媒体库中的多媒体与所述请求语义槽信息无匹配且语音播放请求的表述不符合预定规则,确定无用于播放的多媒体,语音反馈对于表达所述语音播放请求的导引性答复信息。
5.根据权利要求1所述的方法,其中,所述基于多媒体库中的多媒体对所述请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于所述语音播放请求的答复信息:
响应于多媒体库中的多媒体与所述请求语义槽信息无准确匹配,基于由所述请求语义槽信息得到的推测语义槽信息,确定用于播放的多媒体,语音反馈对于表达所述语音播放请求的推测性答复信息和/或对于所述用于播放的多媒体的推荐信息。
6.根据权利要求1所述的方法,其中,所述基于多媒体库中的多媒体对所述请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于所述语音播放请求的答复信息:
响应于多媒体库中的多媒体与所述请求语义槽信息中的部分槽位匹配且所述请求语义槽信息中的末端语义槽为不支持的语义槽,或者响应于多媒体库中的多媒体与所述请求语义槽信息无匹配且所述请求语义槽信息中包括不支持的语义槽,确定无用于播放的多媒体,语音反馈对于所述语音播放请求的兜底答复信息。
7.根据权利要求1所述的方法,其中,所述基于多媒体库中的多媒体对所述请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于所述语音播放请求的答复信息:
响应于多媒体库中的多媒体与所述请求语义槽信息的匹配相似概率大于预定阈值,将与所述请求语义槽信息的匹配相似概率大于预定阈值的多媒体确定为用于播放的多媒体,基于所述请求语义槽信息和与所述请求语义槽信息完全匹配的多媒体,语音反馈对于所述语音播放请求的指引性答复信息和/或对于用于播放的多媒体的推荐信息。
8.根据权利要求1所述的方法,其中,所述基于多媒体库中的多媒体对所述请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于所述语音播放请求的答复信息:
响应于所述请求语义槽信息包括满足同一语义槽的多个信息,基于所述多媒体库中的多媒体对所述多个语义槽的分类匹配结果,语音反馈对于所述语音播放请求的类别组合答复信息,并将基于各类分类匹配结果的组合确定为用于播放的多媒体。
9.根据权利要求1所述的方法,其中,所述基于多媒体库中的多媒体对所述请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于所述语音播放请求的答复信息:
响应于所述请求语义槽信息指示播放用户喜好的多媒体,基于用户历史喜好数据,确定所述用于播放的多媒体,语音反馈以下一项或多项信息:对于所述语音播放请求的答复信息、对于用于播放的多媒体的推荐信息和对于表达喜好的引导信息。
10.根据权利要求1-9任意一项所述的方法,其中,所述方法还包括:
响应于所述语音播放请求的语义未匹配到语义槽,语音反馈对于所述语音播放请求的兜底答复信息和/或对于表达所述语音播放请求的导引性答复信息。
11.一种播放多媒体的装置,包括:
播放请求接收单元,用于接收用户输入的语音播放请求;
语义槽匹配单元,用于匹配所述语音播放请求的语义与语义槽,得到请求语义槽信息;
多媒体确定及语音反馈单元,用于基于多媒体库中的多媒体对所述请求语义槽信息的匹配结果,确定用于播放的多媒体并语音反馈对于所述语音播放请求的答复信息;
多媒体播放单元,用于播放所述用于播放的多媒体。
12.根据权利要求11所述的装置,其中,所述多媒体确定及语音反馈单元进一步用于:
响应于多媒体库中的多媒体与所述请求语义槽信息完全匹配,基于与所述请求语义槽信息完全匹配的多媒体,确定用于播放的多媒体,并语音反馈对于所述语音播放请求的答复信息和/或对于用于播放的多媒体的推荐信息。
13.根据权利要求11所述的装置,其中,所述多媒体确定及语音反馈单元进一步用于:
响应于多媒体库中的多媒体与所述请求语义槽信息部分匹配,基于所匹配的语义槽的综合优先级,从与所述请求语义槽信息部分匹配的多媒体中确定用于播放的多媒体,基于所匹配的语义槽、未匹配的语义槽和选取的多媒体,语音反馈对于所述语音播放请求的引导性答复信息和/或对于用于播放的多媒体的推荐信息。
14.根据权利要求11所述的装置,其中,所述多媒体确定及语音反馈单元进一步用于:
响应于多媒体库中的多媒体与所述请求语义槽信息无匹配且语音播放请求的表述不符合预定规则,确定无用于播放的多媒体,语音反馈对于表达所述语音播放请求的导引性答复信息。
15.根据权利要求11所述的装置,其中,所述多媒体确定及语音反馈单元进一步用于:
响应于多媒体库中的多媒体与所述请求语义槽信息无准确匹配,基于由所述请求语义槽信息得到的推测语义槽信息,确定用于播放的多媒体,语音反馈对于表达所述语音播放请求的推测性答复信息和/或对于所述用于播放的多媒体的推荐信息。
16.根据权利要求11所述的装置,其中,所述多媒体确定及语音反馈单元进一步用于:
响应于多媒体库中的多媒体与所述请求语义槽信息中的部分槽位匹配且所述请求语义槽信息中的末端语义槽为不支持的语义槽,或者响应于多媒体库中的多媒体与所述请求语义槽信息无匹配且所述请求语义槽信息中包括不支持的语义槽,确定无用于播放的多媒体,语音反馈对于所述语音播放请求的兜底答复信息。
17.根据权利要求11所述的装置,其中,所述多媒体确定及语音反馈单元进一步用于:
响应于多媒体库中的多媒体与所述请求语义槽信息的匹配相似概率大于预定阈值,将与所述请求语义槽信息的匹配相似概率大于预定阈值的多媒体确定为用于播放的多媒体,基于所述请求语义槽信息和与所述请求语义槽信息完全匹配的多媒体,语音反馈对于所述语音播放请求的指引性答复信息和/或对于用于播放的多媒体的推荐信息。
18.根据权利要求11所述的装置,其中,所述多媒体确定及语音反馈单元进一步用于:
响应于所述请求语义槽信息包括满足同一语义槽的多个信息,基于所述多媒体库中的多媒体对所述多个语义槽的分类匹配结果,语音反馈对于所述语音播放请求的类别组合答复信息,并将基于各类分类匹配结果的组合确定为用于播放的多媒体。
19.根据权利要求11所述的装置,其中,所述多媒体确定及语音反馈单元进一步用于:
响应于所述请求语义槽信息指示播放用户喜好的多媒体,基于用户历史喜好数据,确定所述用于播放的多媒体,语音反馈以下一项或多项信息:对于所述语音播放请求的答复信息、对于用于播放的多媒体的推荐信息和对于表达喜好的引导信息。
20.根据权利要求11-19任意一项所述的装置,其中,所述装置还包括:
未匹配语音反馈单元,响应于所述语音播放请求的语义未匹配到语义槽,语音反馈对于所述语音播放请求的兜底答复信息和/或对于表达所述语音播放请求的导引性答复信息。
21.一种设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任意一项所述的一种播放多媒体的方法。
22.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-10中任意一项所述的一种播放多媒体的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711138844.2A CN107871500B (zh) | 2017-11-16 | 2017-11-16 | 一种播放多媒体的方法和装置 |
US15/856,850 US20190147052A1 (en) | 2017-11-16 | 2017-12-28 | Method and apparatus for playing multimedia |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711138844.2A CN107871500B (zh) | 2017-11-16 | 2017-11-16 | 一种播放多媒体的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107871500A true CN107871500A (zh) | 2018-04-03 |
CN107871500B CN107871500B (zh) | 2021-07-20 |
Family
ID=61754209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711138844.2A Active CN107871500B (zh) | 2017-11-16 | 2017-11-16 | 一种播放多媒体的方法和装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20190147052A1 (zh) |
CN (1) | CN107871500B (zh) |
Cited By (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920657A (zh) * | 2018-07-03 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN108986805A (zh) * | 2018-06-29 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 用于发送信息的方法和装置 |
CN109215636A (zh) * | 2018-11-08 | 2019-01-15 | 广东小天才科技有限公司 | 一种语音信息的分类方法及系统 |
CN109582819A (zh) * | 2018-11-23 | 2019-04-05 | 珠海格力电器股份有限公司 | 一种音乐播放方法、装置、存储介质及空调 |
CN109688475A (zh) * | 2018-12-29 | 2019-04-26 | 深圳Tcl新技术有限公司 | 视频播放跳转方法、系统及计算机可读存储介质 |
CN109697290A (zh) * | 2018-12-29 | 2019-04-30 | 咪咕数字传媒有限公司 | 一种信息处理方法、设备及计算机存储介质 |
CN109903783A (zh) * | 2019-02-27 | 2019-06-18 | 百度在线网络技术(北京)有限公司 | 多媒体控制方法、装置和终端 |
CN110265017A (zh) * | 2019-06-27 | 2019-09-20 | 百度在线网络技术(北京)有限公司 | 语音处理方法和装置 |
CN110310641A (zh) * | 2019-02-26 | 2019-10-08 | 北京蓦然认知科技有限公司 | 一种用于语音助手的方法及装置 |
CN110349599A (zh) * | 2019-06-27 | 2019-10-18 | 北京小米移动软件有限公司 | 音频播放方法及装置 |
CN111586487A (zh) * | 2020-06-01 | 2020-08-25 | 联想(北京)有限公司 | 一种多媒体文件的播放方法及装置 |
CN112465555A (zh) * | 2020-12-04 | 2021-03-09 | 北京搜狗科技发展有限公司 | 一种广告信息推荐的方法及相关装置 |
US10978090B2 (en) | 2013-02-07 | 2021-04-13 | Apple Inc. | Voice trigger for a digital assistant |
US10984798B2 (en) | 2018-06-01 | 2021-04-20 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US11070949B2 (en) | 2015-05-27 | 2021-07-20 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US11126400B2 (en) | 2015-09-08 | 2021-09-21 | Apple Inc. | Zero latency digital assistant |
US11169616B2 (en) | 2018-05-07 | 2021-11-09 | Apple Inc. | Raise to speak |
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
US11321116B2 (en) | 2012-05-15 | 2022-05-03 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11388291B2 (en) | 2013-03-14 | 2022-07-12 | Apple Inc. | System and method for processing voicemail |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US11467802B2 (en) | 2017-05-11 | 2022-10-11 | Apple Inc. | Maintaining privacy of personal information |
US11516537B2 (en) | 2014-06-30 | 2022-11-29 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11532306B2 (en) | 2017-05-16 | 2022-12-20 | Apple Inc. | Detecting a trigger of a digital assistant |
US11538469B2 (en) | 2017-05-12 | 2022-12-27 | Apple Inc. | Low-latency intelligent automated assistant |
US11580990B2 (en) | 2017-05-12 | 2023-02-14 | Apple Inc. | User-specific acoustic models |
US11610065B2 (en) | 2020-06-12 | 2023-03-21 | Apple Inc. | Providing personalized responses based on semantic context |
US11657820B2 (en) | 2016-06-10 | 2023-05-23 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11671920B2 (en) | 2007-04-03 | 2023-06-06 | Apple Inc. | Method and system for operating a multifunction portable electronic device using voice-activation |
US11670289B2 (en) | 2014-05-30 | 2023-06-06 | Apple Inc. | Multi-command single utterance input method |
US11675829B2 (en) | 2017-05-16 | 2023-06-13 | Apple Inc. | Intelligent automated assistant for media exploration |
US11675491B2 (en) | 2019-05-06 | 2023-06-13 | Apple Inc. | User configurable task triggers |
US11696060B2 (en) | 2020-07-21 | 2023-07-04 | Apple Inc. | User identification using headphones |
US11705130B2 (en) | 2019-05-06 | 2023-07-18 | Apple Inc. | Spoken notifications |
US11710482B2 (en) | 2018-03-26 | 2023-07-25 | Apple Inc. | Natural assistant interaction |
US11727219B2 (en) | 2013-06-09 | 2023-08-15 | Apple Inc. | System and method for inferring user intent from speech inputs |
US11749275B2 (en) | 2016-06-11 | 2023-09-05 | Apple Inc. | Application integration with a digital assistant |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11765209B2 (en) | 2020-05-11 | 2023-09-19 | Apple Inc. | Digital assistant hardware abstraction |
US11783815B2 (en) | 2019-03-18 | 2023-10-10 | Apple Inc. | Multimodality in digital assistant systems |
US11790914B2 (en) | 2019-06-01 | 2023-10-17 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11798547B2 (en) | 2013-03-15 | 2023-10-24 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US11810562B2 (en) | 2014-05-30 | 2023-11-07 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
US11809886B2 (en) | 2015-11-06 | 2023-11-07 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11838734B2 (en) | 2020-07-20 | 2023-12-05 | Apple Inc. | Multi-device audio adjustment coordination |
US11842734B2 (en) | 2015-03-08 | 2023-12-12 | Apple Inc. | Virtual assistant activation |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11854539B2 (en) | 2018-05-07 | 2023-12-26 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11853647B2 (en) | 2015-12-23 | 2023-12-26 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11886805B2 (en) | 2015-11-09 | 2024-01-30 | Apple Inc. | Unconventional virtual assistant interactions |
US11888791B2 (en) | 2019-05-21 | 2024-01-30 | Apple Inc. | Providing message response suggestions |
US11893992B2 (en) | 2018-09-28 | 2024-02-06 | Apple Inc. | Multi-modal inputs for voice commands |
US11914848B2 (en) | 2020-05-11 | 2024-02-27 | Apple Inc. | Providing relevant data items based on context |
US11947873B2 (en) | 2015-06-29 | 2024-04-02 | Apple Inc. | Virtual assistant for media playback |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200143805A1 (en) * | 2018-11-02 | 2020-05-07 | Spotify Ab | Media content steering |
CN110333840B (zh) * | 2019-06-28 | 2023-04-18 | 百度在线网络技术(北京)有限公司 | 推荐方法、装置、电子设备和存储介质 |
CN111414764A (zh) * | 2020-03-18 | 2020-07-14 | 苏州思必驰信息科技有限公司 | 对话文本的技能领域确定方法及系统 |
EP3910495A1 (en) * | 2020-05-12 | 2021-11-17 | Apple Inc. | Reducing description length based on confidence |
WO2021231197A1 (en) * | 2020-05-12 | 2021-11-18 | Apple Inc. | Reducing description length based on confidence |
CN115579008B (zh) * | 2022-12-05 | 2023-03-31 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器及计算机可读存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6643620B1 (en) * | 1999-03-15 | 2003-11-04 | Matsushita Electric Industrial Co., Ltd. | Voice activated controller for recording and retrieving audio/video programs |
US20070088696A1 (en) * | 2005-10-13 | 2007-04-19 | Microsoft Corporation | Distributed named entity recognition architecture |
CN102084417A (zh) * | 2008-04-15 | 2011-06-01 | 移动技术有限责任公司 | 现场维护语音到语音翻译的系统和方法 |
CN103165151A (zh) * | 2013-03-29 | 2013-06-19 | 华为技术有限公司 | 多媒体文件播放方法和装置 |
CN103428355A (zh) * | 2012-05-24 | 2013-12-04 | 上海博泰悦臻电子设备制造有限公司 | 基于移动终端的语音控制装置及其语音控制方法 |
US8660849B2 (en) * | 2010-01-18 | 2014-02-25 | Apple Inc. | Prioritizing selection criteria by automated assistant |
US20140257792A1 (en) * | 2013-03-11 | 2014-09-11 | Nuance Communications, Inc. | Anaphora Resolution Using Linguisitic Cues, Dialogue Context, and General Knowledge |
US20140309990A1 (en) * | 2013-03-11 | 2014-10-16 | Nuance Communications, Inc. | Semantic re-ranking of nlu results in conversational dialogue applications |
CN104965592A (zh) * | 2015-07-08 | 2015-10-07 | 苏州思必驰信息科技有限公司 | 基于语音和手势识别的多模态非触摸人机交互方法及系统 |
CN105654950A (zh) * | 2016-01-28 | 2016-06-08 | 百度在线网络技术(北京)有限公司 | 自适应语音反馈方法和装置 |
CN106558309A (zh) * | 2015-09-28 | 2017-04-05 | 中国科学院声学研究所 | 一种口语对话策略生成方法及口语对话方法 |
CN106557461A (zh) * | 2016-10-31 | 2017-04-05 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语义解析处理方法和装置 |
CN107316643A (zh) * | 2017-07-04 | 2017-11-03 | 科大讯飞股份有限公司 | 语音交互方法及装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0543329B1 (en) * | 1991-11-18 | 2002-02-06 | Kabushiki Kaisha Toshiba | Speech dialogue system for facilitating human-computer interaction |
US6567778B1 (en) * | 1995-12-21 | 2003-05-20 | Nuance Communications | Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores |
US6553345B1 (en) * | 1999-08-26 | 2003-04-22 | Matsushita Electric Industrial Co., Ltd. | Universal remote control allowing natural language modality for television and multimedia searches and requests |
US6330537B1 (en) * | 1999-08-26 | 2001-12-11 | Matsushita Electric Industrial Co., Ltd. | Automatic filtering of TV contents using speech recognition and natural language |
EP1281173A1 (en) * | 2000-05-03 | 2003-02-05 | Koninklijke Philips Electronics N.V. | Voice commands depend on semantics of content information |
US7031477B1 (en) * | 2002-01-25 | 2006-04-18 | Matthew Rodger Mella | Voice-controlled system for providing digital audio content in an automobile |
EP1693829B1 (en) * | 2005-02-21 | 2018-12-05 | Harman Becker Automotive Systems GmbH | Voice-controlled data system |
US7818176B2 (en) * | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
JP5637131B2 (ja) * | 2011-12-26 | 2014-12-10 | 株式会社デンソー | 音声認識装置 |
US9547647B2 (en) * | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
-
2017
- 2017-11-16 CN CN201711138844.2A patent/CN107871500B/zh active Active
- 2017-12-28 US US15/856,850 patent/US20190147052A1/en not_active Abandoned
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6643620B1 (en) * | 1999-03-15 | 2003-11-04 | Matsushita Electric Industrial Co., Ltd. | Voice activated controller for recording and retrieving audio/video programs |
US20070088696A1 (en) * | 2005-10-13 | 2007-04-19 | Microsoft Corporation | Distributed named entity recognition architecture |
CN102084417A (zh) * | 2008-04-15 | 2011-06-01 | 移动技术有限责任公司 | 现场维护语音到语音翻译的系统和方法 |
US8660849B2 (en) * | 2010-01-18 | 2014-02-25 | Apple Inc. | Prioritizing selection criteria by automated assistant |
CN103428355A (zh) * | 2012-05-24 | 2013-12-04 | 上海博泰悦臻电子设备制造有限公司 | 基于移动终端的语音控制装置及其语音控制方法 |
US20140309990A1 (en) * | 2013-03-11 | 2014-10-16 | Nuance Communications, Inc. | Semantic re-ranking of nlu results in conversational dialogue applications |
US20140257792A1 (en) * | 2013-03-11 | 2014-09-11 | Nuance Communications, Inc. | Anaphora Resolution Using Linguisitic Cues, Dialogue Context, and General Knowledge |
CN103165151A (zh) * | 2013-03-29 | 2013-06-19 | 华为技术有限公司 | 多媒体文件播放方法和装置 |
CN104965592A (zh) * | 2015-07-08 | 2015-10-07 | 苏州思必驰信息科技有限公司 | 基于语音和手势识别的多模态非触摸人机交互方法及系统 |
CN106558309A (zh) * | 2015-09-28 | 2017-04-05 | 中国科学院声学研究所 | 一种口语对话策略生成方法及口语对话方法 |
CN105654950A (zh) * | 2016-01-28 | 2016-06-08 | 百度在线网络技术(北京)有限公司 | 自适应语音反馈方法和装置 |
CN106557461A (zh) * | 2016-10-31 | 2017-04-05 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语义解析处理方法和装置 |
CN107316643A (zh) * | 2017-07-04 | 2017-11-03 | 科大讯飞股份有限公司 | 语音交互方法及装置 |
Non-Patent Citations (4)
Title |
---|
YUN-NUNG CHEN: ""Unsupervised induction and filling of semantic slots for spoken dialogue systems using frame-semantic parsing"", 《2013 IEEE WORKSHOP ON AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING》 * |
张俊翕: ""智能家居自然语言处理算法的研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
文博: "" 面向智能客服机器人的交互式问句理解研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
邢宣宇: ""基于主题会话的语义分析工具的研制"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (86)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11979836B2 (en) | 2007-04-03 | 2024-05-07 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US11671920B2 (en) | 2007-04-03 | 2023-06-06 | Apple Inc. | Method and system for operating a multifunction portable electronic device using voice-activation |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11900936B2 (en) | 2008-10-02 | 2024-02-13 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US11321116B2 (en) | 2012-05-15 | 2022-05-03 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11636869B2 (en) | 2013-02-07 | 2023-04-25 | Apple Inc. | Voice trigger for a digital assistant |
US11557310B2 (en) | 2013-02-07 | 2023-01-17 | Apple Inc. | Voice trigger for a digital assistant |
US11862186B2 (en) | 2013-02-07 | 2024-01-02 | Apple Inc. | Voice trigger for a digital assistant |
US10978090B2 (en) | 2013-02-07 | 2021-04-13 | Apple Inc. | Voice trigger for a digital assistant |
US11388291B2 (en) | 2013-03-14 | 2022-07-12 | Apple Inc. | System and method for processing voicemail |
US11798547B2 (en) | 2013-03-15 | 2023-10-24 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US11727219B2 (en) | 2013-06-09 | 2023-08-15 | Apple Inc. | System and method for inferring user intent from speech inputs |
US11810562B2 (en) | 2014-05-30 | 2023-11-07 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11670289B2 (en) | 2014-05-30 | 2023-06-06 | Apple Inc. | Multi-command single utterance input method |
US11699448B2 (en) | 2014-05-30 | 2023-07-11 | Apple Inc. | Intelligent assistant for home automation |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
US11838579B2 (en) | 2014-06-30 | 2023-12-05 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11516537B2 (en) | 2014-06-30 | 2022-11-29 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11842734B2 (en) | 2015-03-08 | 2023-12-12 | Apple Inc. | Virtual assistant activation |
US11070949B2 (en) | 2015-05-27 | 2021-07-20 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display |
US11947873B2 (en) | 2015-06-29 | 2024-04-02 | Apple Inc. | Virtual assistant for media playback |
US11126400B2 (en) | 2015-09-08 | 2021-09-21 | Apple Inc. | Zero latency digital assistant |
US11550542B2 (en) | 2015-09-08 | 2023-01-10 | Apple Inc. | Zero latency digital assistant |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11954405B2 (en) | 2015-09-08 | 2024-04-09 | Apple Inc. | Zero latency digital assistant |
US11809886B2 (en) | 2015-11-06 | 2023-11-07 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11886805B2 (en) | 2015-11-09 | 2024-01-30 | Apple Inc. | Unconventional virtual assistant interactions |
US11853647B2 (en) | 2015-12-23 | 2023-12-26 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11657820B2 (en) | 2016-06-10 | 2023-05-23 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11749275B2 (en) | 2016-06-11 | 2023-09-05 | Apple Inc. | Application integration with a digital assistant |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
US11467802B2 (en) | 2017-05-11 | 2022-10-11 | Apple Inc. | Maintaining privacy of personal information |
US11837237B2 (en) | 2017-05-12 | 2023-12-05 | Apple Inc. | User-specific acoustic models |
US11538469B2 (en) | 2017-05-12 | 2022-12-27 | Apple Inc. | Low-latency intelligent automated assistant |
US11862151B2 (en) | 2017-05-12 | 2024-01-02 | Apple Inc. | Low-latency intelligent automated assistant |
US11580990B2 (en) | 2017-05-12 | 2023-02-14 | Apple Inc. | User-specific acoustic models |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US11532306B2 (en) | 2017-05-16 | 2022-12-20 | Apple Inc. | Detecting a trigger of a digital assistant |
US11675829B2 (en) | 2017-05-16 | 2023-06-13 | Apple Inc. | Intelligent automated assistant for media exploration |
US11710482B2 (en) | 2018-03-26 | 2023-07-25 | Apple Inc. | Natural assistant interaction |
US11487364B2 (en) | 2018-05-07 | 2022-11-01 | Apple Inc. | Raise to speak |
US11900923B2 (en) | 2018-05-07 | 2024-02-13 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11907436B2 (en) | 2018-05-07 | 2024-02-20 | Apple Inc. | Raise to speak |
US11854539B2 (en) | 2018-05-07 | 2023-12-26 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11169616B2 (en) | 2018-05-07 | 2021-11-09 | Apple Inc. | Raise to speak |
US11630525B2 (en) | 2018-06-01 | 2023-04-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US11360577B2 (en) | 2018-06-01 | 2022-06-14 | Apple Inc. | Attention aware virtual assistant dismissal |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US10984798B2 (en) | 2018-06-01 | 2021-04-20 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
CN108986805A (zh) * | 2018-06-29 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 用于发送信息的方法和装置 |
CN108920657A (zh) * | 2018-07-03 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
JP2020009440A (ja) * | 2018-07-03 | 2020-01-16 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 情報を生成するための方法と装置 |
US11893992B2 (en) | 2018-09-28 | 2024-02-06 | Apple Inc. | Multi-modal inputs for voice commands |
CN109215636A (zh) * | 2018-11-08 | 2019-01-15 | 广东小天才科技有限公司 | 一种语音信息的分类方法及系统 |
CN109582819A (zh) * | 2018-11-23 | 2019-04-05 | 珠海格力电器股份有限公司 | 一种音乐播放方法、装置、存储介质及空调 |
CN109688475A (zh) * | 2018-12-29 | 2019-04-26 | 深圳Tcl新技术有限公司 | 视频播放跳转方法、系统及计算机可读存储介质 |
CN109697290A (zh) * | 2018-12-29 | 2019-04-30 | 咪咕数字传媒有限公司 | 一种信息处理方法、设备及计算机存储介质 |
CN109688475B (zh) * | 2018-12-29 | 2020-10-02 | 深圳Tcl新技术有限公司 | 视频播放跳转方法、系统及计算机可读存储介质 |
CN110310641B (zh) * | 2019-02-26 | 2022-08-26 | 杭州蓦然认知科技有限公司 | 一种用于语音助手的方法及装置 |
CN110310641A (zh) * | 2019-02-26 | 2019-10-08 | 北京蓦然认知科技有限公司 | 一种用于语音助手的方法及装置 |
CN109903783A (zh) * | 2019-02-27 | 2019-06-18 | 百度在线网络技术(北京)有限公司 | 多媒体控制方法、装置和终端 |
US11783815B2 (en) | 2019-03-18 | 2023-10-10 | Apple Inc. | Multimodality in digital assistant systems |
US11705130B2 (en) | 2019-05-06 | 2023-07-18 | Apple Inc. | Spoken notifications |
US11675491B2 (en) | 2019-05-06 | 2023-06-13 | Apple Inc. | User configurable task triggers |
US11888791B2 (en) | 2019-05-21 | 2024-01-30 | Apple Inc. | Providing message response suggestions |
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11790914B2 (en) | 2019-06-01 | 2023-10-17 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN110265017B (zh) * | 2019-06-27 | 2021-08-17 | 百度在线网络技术(北京)有限公司 | 语音处理方法和装置 |
CN110349599B (zh) * | 2019-06-27 | 2021-06-08 | 北京小米移动软件有限公司 | 音频播放方法及装置 |
US11164583B2 (en) | 2019-06-27 | 2021-11-02 | Baidu Online Network Technology (Beijing) Co., Ltd. | Voice processing method and apparatus |
CN110349599A (zh) * | 2019-06-27 | 2019-10-18 | 北京小米移动软件有限公司 | 音频播放方法及装置 |
CN110265017A (zh) * | 2019-06-27 | 2019-09-20 | 百度在线网络技术(北京)有限公司 | 语音处理方法和装置 |
US11924254B2 (en) | 2020-05-11 | 2024-03-05 | Apple Inc. | Digital assistant hardware abstraction |
US11765209B2 (en) | 2020-05-11 | 2023-09-19 | Apple Inc. | Digital assistant hardware abstraction |
US11914848B2 (en) | 2020-05-11 | 2024-02-27 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
CN111586487A (zh) * | 2020-06-01 | 2020-08-25 | 联想(北京)有限公司 | 一种多媒体文件的播放方法及装置 |
US11610065B2 (en) | 2020-06-12 | 2023-03-21 | Apple Inc. | Providing personalized responses based on semantic context |
US11838734B2 (en) | 2020-07-20 | 2023-12-05 | Apple Inc. | Multi-device audio adjustment coordination |
US11750962B2 (en) | 2020-07-21 | 2023-09-05 | Apple Inc. | User identification using headphones |
US11696060B2 (en) | 2020-07-21 | 2023-07-04 | Apple Inc. | User identification using headphones |
CN112465555A (zh) * | 2020-12-04 | 2021-03-09 | 北京搜狗科技发展有限公司 | 一种广告信息推荐的方法及相关装置 |
CN112465555B (zh) * | 2020-12-04 | 2024-05-14 | 北京搜狗科技发展有限公司 | 一种广告信息推荐的方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
US20190147052A1 (en) | 2019-05-16 |
CN107871500B (zh) | 2021-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107871500A (zh) | 一种播放多媒体的方法和装置 | |
CN107918653A (zh) | 一种基于喜好反馈的智能播放方法和装置 | |
CN107895016A (zh) | 一种播放多媒体的方法和装置 | |
US10333876B2 (en) | Method and system for communicating between a sender and a recipient via a personalized message including an audio clip extracted from a pre-existing recording | |
Braunhofer et al. | Location-aware music recommendation | |
US10560410B2 (en) | Method and system for communicating between a sender and a recipient via a personalized message including an audio clip extracted from a pre-existing recording | |
US8972265B1 (en) | Multiple voices in audio content | |
CN109346076A (zh) | 语音交互、语音处理方法、装置和系统 | |
CN108962219A (zh) | 用于处理文本的方法和装置 | |
CN110278388A (zh) | 展示视频的生成方法、装置、设备及存储介质 | |
US10200323B2 (en) | Method and system for communicating between a sender and a recipient via a personalized message including an audio clip extracted from a pre-existing recording | |
CN104471512A (zh) | 内容定制化 | |
CN109272984A (zh) | 用于语音交互的方法和装置 | |
JP2008529345A (ja) | 個人化メディアの生成及び配布のためのシステム及び方法 | |
CN107464555A (zh) | 向包含语音的音频数据添加背景声音 | |
US20140258858A1 (en) | Content customization | |
US9075760B2 (en) | Narration settings distribution for content customization | |
CN109036417A (zh) | 用于处理语音请求的方法和装置 | |
US20200137011A1 (en) | Method and system for communicating between a sender and a recipient via a personalized message including an audio clip extracted from a pre-existing recording | |
CN111782576B (zh) | 背景音乐的生成方法、装置、可读介质、电子设备 | |
CN108885869A (zh) | 控制包含语音的音频数据的回放 | |
CN107994879A (zh) | 响度控制方法及装置 | |
CN108900612A (zh) | 用于推送信息的方法和装置 | |
CN114073854A (zh) | 基于多媒体文件的游戏方法和系统 | |
CN113257218B (zh) | 语音合成方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210512 Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing Applicant after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. Applicant after: Shanghai Xiaodu Technology Co.,Ltd. Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |