CN110503954A - 语音技能启动方法、装置、设备及存储介质 - Google Patents

语音技能启动方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110503954A
CN110503954A CN201910809147.8A CN201910809147A CN110503954A CN 110503954 A CN110503954 A CN 110503954A CN 201910809147 A CN201910809147 A CN 201910809147A CN 110503954 A CN110503954 A CN 110503954A
Authority
CN
China
Prior art keywords
technical ability
party
voice
voice technical
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910809147.8A
Other languages
English (en)
Other versions
CN110503954B (zh
Inventor
朱光亚
周晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910809147.8A priority Critical patent/CN110503954B/zh
Publication of CN110503954A publication Critical patent/CN110503954A/zh
Priority to JP2020019065A priority patent/JP6990728B2/ja
Priority to US16/847,852 priority patent/US11741952B2/en
Application granted granted Critical
Publication of CN110503954B publication Critical patent/CN110503954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开了语音技能启动方法、装置、设备及存储介质,涉及人工智能领域。具体实现方案为:该方法应用于电子设备,电子设备包括:至少一个第三方语音技能和内置语音技能,电子设备当前处于内置语音技能。该方法包括:接收用户的当前需求指令;响应于当前需求指令,根据映射关系判断当前需求指令是否属于第三方语音技能对应的入口需求指令,映射关系是预先构建的第三方语音技能与入口需求指令的映射关系,映射关系是根据第一历史需求指令在各第三方语音技能下的技能关联特征数据确定的,第一历史需求指令位于内置语音技能中;若确定当前需求指令属于第三方语音技能对应的入口需求指令,则将内置语音技能切换至第三方语音技能。

Description

语音技能启动方法、装置、设备及存储介质
技术领域
本申请涉及到数据处理技术领域,尤其涉及人工智能技术。
背景技术
随着人工智能技术的成熟,出现了越来越多的智能语音交互设备,如智能音箱,智能电视,智能冰箱等家电设备。为了不断丰富智能语音交互设备的语音技能,在智能语音交互设备中可同时存在内置语音技能(英文为:built-in)和第三方语音技能。
现有技术中,若需要智能语音交互设备启动某一第三方语音技能,则均需要通过明显的需求指令启动该第三方语音技能。如该明显的需求指令为“打开XX音乐”,则智能语音交互设备启动“XX音乐”。
现有技术中第三方语音技能的启动方法只有在用户命令打开该第三方语音技能后才能进行启动。导致第三方语音技能无法与内置语音技能公平参与竞争,不能为用户提供更能满足用户需求的响应。
发明内容
本申请实施例提供一种语音技能启动方法、装置、设备及存储介质,解决了现有技术中第三方语音技能无法与内置语音技能公平参与竞争,不能为用户提供更能满足用户需求的响应的技术问题。
本申请实施例第一方面提供一种语音技能启动方法,所述方法应用于电子设备,所述电子设备包括:至少一个第三方语音技能和内置语音技能,所述电子设备当前处于所述内置语音技能,所述方法包括:
接收用户的当前需求指令;响应于所述当前需求指令,根据映射关系判断所述当前需求指令是否属于第三方语音技能对应的入口需求指令,所述映射关系是预先构建的第三方语音技能与入口需求指令的映射关系,所述映射关系是根据第一历史需求指令在各第三方语音技能下的技能关联特征数据确定的,所述第一历史需求指令位于所述内置语音技能中;若确定所述当前需求指令属于第三方语音技能对应的入口需求指令,则将所述内置语音技能切换至所述第三方语音技能。
在本申请实施例中,在电子设备当前处于内置语音技能,对当前需求指令是否属于第三方语音技能的入口需求指令进行判断,能够使第三方语音技能与当前内置语音技能公平参与竞争。并且由于与第三方语音技能具有映射关系的入口需求指令是根据第一历史需求指令在各第三方语音技能下的技能关联特征数据对第一历史需求指令进行筛选获得的,该入口需求指令与该第三方语音技能的关联关系强于与该入口需求指令与内置语音技能的关联关系,所以在确定出当前需求指令为某第三方语音技能的入口需求指令,由该第三方语音技能进行响应时,相比当前内置语音技能的响应,更能满足用户需求。
进一步地,如上所述的方法,接收用户的当前需求指令之前,还包括:
获取所述内置语音技能中的第一历史需求指令;确定所述第一历史需求指令在各第三方语音技能下的技能关联特征数据;根据所述技能关联特征数据对所述第一历史需求指令进行筛选,以获取各所述第三方语音技能对应的入口需求指令;构建各所述第三方语音技能与对应的入口需求指令的映射关系。
本申请实施例中,由于第一历史需求指令在各第三方语音技能下的技能关联特征数据是体现该第一历史需求指令是否能够作为入口需求指令使用,并且和内置语音技能相比,第一历史需求指令是否与各第三方语音技能有更强的关联关系的特征数据,所以通过技能关联特征数据对第一历史需求指令进行筛选,确定各第三方语音技能对应的入口需求指令,能够使确定出的入口需求指令更适合作为第三方语音技能的入口需求指令。
进一步地,如上所述的方法,所述根据所述技能关联特征数据对所述第一历史需求指令进行筛选,以获取各所述第三方语音技能对应的入口需求指令之后,还包括:
判断各所述入口需求指令对应的第三方语音技能是否为一个;若某入口需求指令对应的第三方语音技能为多个,则确定每个对应的第三方语音技能中该入口需求指令出现的频次;将出现频次最高的第三方语音技能确定为与该入口需求指令存在映射关系的第三方语音技能。
本申请实施例中,通过入口需求指令在对应的第三方语音技能中出现的频次确定与每个入口需求指令有映射关系的第三方语音技能只有一个,能够从当前内置语音技能切换到最佳的第三方语音技能中,避免无法确定切换到哪个第三方语音技能的问题。而且切换到最佳的第三方语音技能,由该最佳的第三方语音技能进行响应,进一步提高了用户需求的满足度。
进一步地,如上所述的方法,所述确定所述第一历史需求指令在各第三方语音技能下的技能关联特征数据,包括:
确定所述第一历史需求指令在各第三方语音技能下的技能关联入口特征数据;确定所述第一历史需求指令中的第二历史需求指令在各第三方语音技能下的技能满足数据。
本申请实施例中,首先确定第一历史需求指令在各第三方语音技能下的技能关联入口特征数据,然后确定第一历史需求指令中的第二历史需求指令在各第三方语音技能下的技能满足数据,能够为第一历史需求指令的筛选提供全面的特征依据,使筛选出的各第三方语音技能的入口需求指令更加准确。
进一步地,如上所述的方法,根据所述技能关联特征数据对所述第一历史需求指令进行筛选,以获取各所述第三方语音技能对应的入口需求指令,包括:
根据所述技能关联入口特征数据对所述第一历史需求指令进行筛选,以获得各所述第三方语音技能对应的第二历史需求指令;根据所述技能满足数据对所述第二历史需求指令进行筛选,获得各所述第三方语音技能对应的入口需求指令。
本申请实施例中,能够通过技能关联入口特征数据对第一历史需求指令进行第一次筛选,剔除不能不具有第三方语音技能入口需求指令特征的第一历史需求指令。能够根据技能满足数据对第二历史需求指令进行第二次筛选,剔除第三语音技能无法满足的第二历史需求指令,使筛选出的各第三方语音技能的入口需求指令更加准确。
进一步地,如上所述的方法,所述根据所述技能关联入口特征数据对所述第一历史需求指令进行筛选,以获得各所述第三方语音技能对应的第二历史需求指令,包括:
将所述第一历史需求指令的技能关联入口特征数据输入到各所述第三方语音技能对应的已训练至收敛的分类模型中,以由所述分类模型对所述第一历史需求指令进行分类,获得各所述第三方语音技能对应的第二历史需求指令。
本申请实施例中,对于每个第三方语音技能都有对应的已训练至收敛的分类模型,并采用该已训练至收敛的分类模型对第一历史需求指令进行筛选,获得第二历史需求指令,能够使筛选出的第二历史需求指令为更满足对应第三方语音技能的入口特征的需求指令。
进一步地,如上所述的方法,所述将所述第一历史需求指令的技能关联入口特征数据输入到各所述第三方语音技能对应的已训练至收敛的分类模型中之前,还包括:
获取各所述分类模型的训练样本,所述训练样本为需求指令样本,所述需求指令样本具有是否可作为对应第三方语音技能入口需求指令的标识;采用所述训练样本的技能关联入口特征数据对对应的分类模型进行训练直至收敛,以获得各所述已训练至收敛的分类模型。
本申请实施例中,采用具有标识信息的需求指令样本作为分类模型的训练样本,能够使训练出的分类模型更加适合测试样本,进而使分类结果更加准确。
进一步地,如上所述的方法,技能关联入口特征数据包括:入口行为特征数据,技能相关性特征数据及入口语法特征数据。
本申请实施例中,技能关联入口特征数据包括多种类型,能够更加全面的对第一历史需求指令的技能关联入口特征进行提取。
进一步地,如上所述的方法,所述技能满足数据包括内容满足度或互动满意度,所述确定所述第一历史需求指令中的第二历史需求指令在各第三方语音技能下的技能满足数据,包括:
判断各第三方语音技能的类型是否为资源类技能;若某第三方语音技能的类型为资源类技能,则确定第二历史需求指令在该第三方语音技能下的内容满足度;若某第三方语音技能的类型为非资源类技能,则确定第二历史需求指令在该第三方语音技能下的互动满意度。
本申请实施例中,根据第三方语音技能的类型确定对应的技能满足数据,能够为后续第二历史需求指令的筛选提供准确的依据。
进一步地,如上所述的方法,所述确定第二历史需求指令在该第三方语音技能下的内容满足度,包括:
获取所述第二历史需求指令在该第三方语音技能下的第一播放资源时长和在所述内置语音技能下的第二播放资源时长;根据所述第一播放资源时长和所述第二播放资源时长确定所述内容满足度。
本申请实施例中,由于播放资源时长是衡量资源类语音技能是否满足用户需求的重要指标,所以根据第三方语音技能的播放资源时长和内置语音节能的播放资源时长确定第二历史需求指令在第三方语音技能下的内容满足度,使确定出的内容满足度更加准确。
进一步地,如上所述的方法,确定第二历史需求指令在该第三方语音技能下的互动满意度,包括:
获取第二历史需求指令在该第三方语音技能下对应的多轮会话文本;根据所述多轮会话文本确定所述第二历史需求指令在该第三方语音技能下的技能响应满意度和技能响应重复率;根据所述技能响应满意度和所述技能响应重复率确定所述互动满意度。
本申请实施例中,由于技能响应满意度和技能响应重复率是衡量互动类语音技能是否满足用户需求的重要指标,所以采用第二历史需求指令在该第三方语音技能下的技能响应满意度和技能响应重复率确定互动满意度,能够使确定出的互动满意度更加准确。
进一步地,如上所述的方法,根据所述技能满足数据对所述第二历史需求指令进行筛选,获得所述入口需求指令,包括:
若某第三方语音技能的类型为资源类技能,则根据第二历史需求指令在该第三方语音技能下的内容满足度对所述第二历史需求指令进行筛选,获得所述入口需求指令。若某第三方语音技能的类型为非资源类技能,则确定所述内置语音技能中未有所述第二历史需求指令对应的播放资源记录后,根据第二历史需求指令在该第三方语音技能下的互动满意度对所述第二历史需求指令进行筛选,获得所述入口需求指令。
本申请实施例中,根据第三方语音技能的类型分别确定对第二历史需求指令进行筛选的特征依据,能够使第三方语音技能根据筛选出的入口需求指令启动后,达到有效的内容满足或互动满足,提高用户对语音技能响应的满意度。
本申请实施例第二方面提供一种语音技能启动装置,所述装置位于电子设备,所述电子设备包括:至少一个第三方语音技能和内置语音技能,所述电子设备当前处于所述内置语音技能,所述装置包括:
指令接收模块,用于接收用户的当前需求指令。入口指令判断模块,用于响应于所述当前需求指令,根据映射关系判断所述当前需求指令是否属于第三方语音技能对应的入口需求指令,所述映射关系是预先构建的第三方语音技能与入口需求指令的映射关系,所述映射关系是根据第一历史需求指令在各第三方语音技能下的技能关联特征数据确定的,所述第一历史需求指令位于所述内置语音技能中。技能切换模块,用于若确定所述当前需求指令属于第三方语音技能对应的入口需求指令,则将所述内置语音技能切换至所述第三方语音技能。
进一步地,如上所述的装置,还包括:指令获取模块,用于获取内置语音技能中的第一历史需求指令。特征数据确定模块,用于确定第一历史需求指令在各第三方语音技能下的技能关联特征数据。指令筛选模块,用于根据技能关联特征数据对第一历史需求指令进行筛选,以获取各第三方语音技能对应的入口需求指令。映射关系构建模块,用于构建各第三方语音技能与对应的入口需求指令的映射关系。
进一步地,如上所述的装置,还包括:映射技能确定模块,用于判断各入口需求指令对应的第三方语音技能是否为一个;若某入口需求指令对应的第三方语音技能为多个,则确定每个对应的第三方语音技能中该入口需求指令出现的频次;将出现频次最高的第三方语音技能确定为与该入口需求指令存在映射关系的第三方语音技能。
进一步地,如上所述的装置,特征数据确定模块,具体用于确定第一历史需求指令在各第三方语音技能下的技能关联入口特征数据,并确定第一历史需求指令中的第二历史需求指令在各第三方语音技能下的技能满足数据。
进一步地,如上所述的装置,指令筛选模块,具体用于根据技能关联入口特征数据对第一历史需求指令进行筛选,以获得各第三方语音技能对应的第二历史需求指令;根据技能满足数据对第二历史需求指令进行筛选,获得各第三方语音技能对应的入口需求指令。
进一步地,如上所述的装置,指令筛选模块,在根据技能关联入口特征数据对第一历史需求指令进行筛选,以获得各第三方语音技能对应的第二历史需求指令时,具体用于将第一历史需求指令的技能关联入口特征数据输入到各第三方语音技能对应的已训练至收敛的分类模型中,以由分类模型对第一历史需求指令进行分类,获得各第三方语音技能对应的第二历史需求指令。
进一步地,如上所述的装置,指令筛选模块,在将第一历史需求指令的技能关联入口特征数据输入到各第三方语音技能对应的已训练至收敛的分类模型中之前,还用于获取各分类模型的训练样本,训练样本为需求指令样本,需求指令样本具有是否可作为对应第三方语音技能入口需求指令的标识。采用训练样本的技能关联入口特征数据对对应的分类模型进行训练直至收敛,以获得各已训练至收敛的分类模型。
其中,技能关联入口特征数据包括:入口行为特征数据,技能相关性特征数据及入口语法特征数据。
进一步地,如上所述的装置,技能满足数据包括内容满足度或互动满意度,特征数据确定模块,在确定第一历史需求指令中的第二历史需求指令在各第三方语音技能下的技能满足数据时,具体用于判断各第三方语音技能的类型是否为资源类技能。若某第三方语音技能的类型为资源类技能,则确定第二历史需求指令在该第三方语音技能下的内容满足度。若某第三方语音技能的类型为非资源类技能,则确定第二历史需求指令在该第三方语音技能下的互动满意度。
进一步地,如上所述的装置,特征数据确定模块,在确定第二历史需求指令在该第三方语音技能下的内容满足度时,具体用于获取第二历史需求指令在该第三方语音技能下的第一播放资源时长和在内置语音技能下的第二播放资源时长。根据第一播放资源时长和第二播放资源时长确定内容满足度。
进一步地,如上所述的装置,特征数据确定模块,在确定第二历史需求指令在该第三方语音技能下的互动满意度时,具体用于获取第二历史需求指令在该第三方语音技能下对应的多轮会话文本。根据多轮会话文本确定第二历史需求指令在该第三方语音技能下的技能响应满意度和技能响应重复率。根据技能响应满意度和技能响应重复率确定互动满意度。
进一步地,如上所述的装置,指令筛选模块,在根据技能满足数据对第二历史需求指令进行筛选,获得入口需求指令时,具体用于若某第三方语音技能的类型为资源类技能,则根据第二历史需求指令在该第三方语音技能下的内容满足度对第二历史需求指令进行筛选,获得入口需求指令。若某第三方语音技能的类型为非资源类技能,则确定内置语音技能中未有第二历史需求指令对应的播放资源记录后,根据第二历史需求指令在该第三方语音技能下的互动满意度对第二历史需求指令进行筛选,获得入口需求指令。
本申请实施例第三方面提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够第一方面中任一项所述的方法。
本申请实施例第四方面提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面任一项所述的方法。
本申请第五方面提供一种语音技能启动方法,所述方法应用于电子设备,所述电子设备包括:至少一个第三方语音技能和内置语音技能,所述方法包括:
获取用户的当前需求指令;根据映射关系判断所述当前需求指令是否属于第三方语音技能对应的入口需求指令,所述映射关系是预先构建的第三方语音技能与入口需求指令的映射关系,所述映射关系是根据第一历史需求指令在各第三方语音技能下的技能关联特征数据确定的;若确定所述当前需求指令属于第三方语音技能对应的入口需求指令,则启动所述第三方语音技能。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是可以实现本申请实施例的语音技能启动方法的第一场景图;
图2是可以实现本申请实施例的语音技能启动方法的第二场景图;
图3是根据本申请第一实施例提供的语音技能启动方法的流程示意图;
图4是根据本申请第二实施例提供的语音技能启动方法的流程示意图;
图5是根据本申请第二实施例提供的语音技能启动方法中步骤203的流程示意图;
图6是根据本申请第二实施例提供的语音技能启动方法中步骤204的流程示意图;
图7是根据本申请第二实施例提供的语音技能启动方法中步骤2042的流程示意图;
图8是根据本申请第二实施例提供的语音技能启动方法中步骤2043的流程示意图;
图9是根据本申请第二实施例提供的语音技能启动方法中步骤205的流程示意图;
图10为根据本申请第三实施例提供的语音技能启动装置的结构示意图;
图11为根据本申请第四实施例提供的语音技能启动装置的结构示意图;
图12是用来实现本申请实施例的语音技能启动方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
为了清楚理解本申请的技术方案,下面对本申请中涉及的设备和术语进行解释:
智能语音交互设备:是采用语音方式实现人机交互的智能设备。如智能语音家居设备,终端设备等。智能语音家居设备可以为智能音箱,智能电视,智能冰箱等,终端设备可以为智能手机,车载终端,可穿戴设备等。智能语音交互设备能够识别用户的语音请求指令进行对应的响应。
内置语音技能:智能语音交互设备自身带有的语音技能。如智能音箱具有的音乐播放技能,录音技能等。智能电视具有的电视节目直播技能,回播技能等。
第三方语音技能:智能语音交互设备向第三方开发者开放技能平台,让开发者能够在平台上简单、高效地开发出的各类语音技能。第三方语音技能能够装载到智能语音交互设备中对用户需求进行响应。如安装到智能音箱中的百科查询语音技能,游戏语音技能等。
首先以电子设备为智能语音交互设备为例对本申请实施例提供的语音技能启动方法的应用场景进行介绍。如图1所示,在该应用场景中,智能语音交互设备中包括至少一种内置语音技能和至少一种第三方语音技能。智能语音交互设备当前可处于待机状态,即未启动任何一个语音技能的状态。用户为了由最能满足用户需求的语音技能启动并对用户需求进行响应,用户并未采取命令某一语音技能打开的明显的入口需求指令,而直接提出想要获取响应的指令,如说出的入口需求指令为“小A小A,帮我查看一下今天天气”。则本申请中为了使第三方语音技能和内置技能参与公平竞争,预先设置了第三方语音技能与入口需求指令的映射关系,还可设置内置语音技能与入口需求指令的映射关系。在获取到当前需求指令后,判断当前需求指令是否属于某一第三方语音技能对应的入口需求指令,还可判断当前需求指令是否属于某一内置语音技能对应的入口需求指令。若确定当前需求指令属于某一第三方语音技能对应的入口需求指令,则启动该第三方语音技能,若确定当前需求指令属于某一内置语音技能对应的入口需求指令,则启动该内置语音技能。由于第三方语音技能与入口需求指令的映射关系是根据第一历史需求指令在各第三方语音技能下的技能关联特征数据确定的,第一历史需求指令是位于内置语音技能中的需求指令。即第三方语音技能的入口需求指令是从内置语音技能的第一历史需求指令中筛选出来的,筛选的原则是该第一历史需求指令是否能够作为入口需求指令使用,并且和内置语音技能相比,第一历史需求指令是否与各第三方语音技能有更强的关联关系。这一筛选原则是通过第一历史需求指令在各第三方语音技能下的技能关联特征数据体现的。所以在确定当前需求指令属于某一第三方语音技能对应的入口需求指令,启动该第三方语音技能后,该第三方语音技能是能够提供更能满足用户需求的语音技能。如图1所示,若智能语音交互设备中的语音技能包括内置语音技能“XX音乐”、“XX巴士”和第三方语音技能“XX天气”,在用户说出“小A小A,帮我查看一下今天天气”后,启动“XX天气”,由“XX天气”进行响应,输出“今天天气为晴天,温度为28-35摄氏度”的响应话术。
进一步地,如图2所示,若智能语音交互设备不处于待机状态,当前处于某一内置语音技能中,则本申请提供的语音技能启动方法还可以应用在如图2的场景中。具体地,在内置语音技能中,用户说出当前需求指令,智能语音交互设备接收用户的当前需求指令,为了使第三方语音技能与该当前内置语音技能公平参与竞争,由最能满足用户需求的语音技能进行响应。智能语音交互设备对该当前需求指令进行判断,判断其是否为某一第三方语音技能对应的入口需求指令,若为该第三方语音技能对应的入口需求指令,则将内置语音技能切换至该第三方语音技能,控制该第三方语音技能对当前需求指令进行响应。由于在判断当前需求指令是否属于某一第三方语音技能对应的入口需求指令时,是根据预先构建的第三方语音技能与入口需求指令的映射关系确定的,并且该映射关系是根据第一历史需求指令在各第三方语音技能下的技能关联特征数据确定的,第一历史需求指令是位于内置语音技能中的需求指令。即第三方语音技能的入口需求指令是从内置语音技能的第一历史需求指令中筛选出来的,筛选的原则是该第一历史需求指令是否能够作为入口需求指令使用,并且和内置语音技能相比,第一历史需求指令是否与各第三方语音技能有更强的关联关系。这一筛选原则是通过第一历史需求指令在各第三方语音技能下的技能关联特征数据体现的。所以在确定当前需求指令属于某一第三方语音技能对应的入口需求指令,这表示当前需求指令更适合对应的第三方语音技能进行响应。将当前内置语音技能切换至第三方语音技能后,该第三方语音技能能够提供更能满足用户需求的响应。如图2所示,若智能语音交互设备中当前的内置语音技能为“XX音乐”,当用户说出“小A小A,帮我查看一下今天天气”的当前需求指令后,将“XX音乐”切换至第三方语音技能:“XX天气”,由“XX天气”进行响应,输出“今天天气为晴天,温度为28-35摄氏度”的响应话术。
以下将参照附图来具体描述本申请的实施例。
实施例一
图3是根据本申请第一实施例提供的语音技能启动方法的流程示意图,如图3所示,本申请实施例的执行主体为语音技能启动装置,该语音技能启动装置可以集成在电子设备中,电子设备包括:多个语音技能,多个语音技能包括:至少一个第三方语音技能和内置语音技能,电子设备当前处于内置语音技能。以电子设备是智能语音交互设备为例对本实施例进行说明。则本实施例提供的语音技能启动方法包括以下几个步骤。
步骤101,接收用户的当前需求指令。
本实施例中,在电子设备可具有收音组件和播放组件。通过收音组件接收用户发出的需求指令的语音。通过播放组件实现对需求指令进行响应的语音播放。
具体地,在本实施例中,电子设备处于内置语音技能中。可通过收音组件接收用户的当前需求指令,并对当前需求指令进行语音识别,确定出当前需求指令的语义信息。
步骤102,响应于当前需求指令,根据映射关系判断当前需求指令是否属于第三方语音技能对应的入口需求指令,映射关系是预先构建的第三方语音技能与入口需求指令的映射关系,映射关系是根据第一历史需求指令在各第三方语音技能下的技能关联特征数据确定的,第一历史需求指令位于内置语音技能中。
具体地,本实施例中,将当前需求指令与预先构建的第三方语音技能与入口需求指令的映射关系中的每个入口需求指令进行匹配,若当前需求指令与某一第三方语音技能的入口需求指令相匹配,则确定该当前需求指令属于相匹配的第三方语音技能对应的入口需求指令。
在本实施例中,预先构建出的第三方语音技能与入口需求指令的映射关系是根据第一历史需求指令在各第三方语音技能下的技能关联特征数据确定的。第一历史需求指令在各第三方语音技能下的技能关联特征数据是体现该第一历史需求指令是否能够作为入口需求指令使用,并且和内置语音技能相比,第一历史需求指令是否与各第三方语音技能有更强的关联关系的特征数据。
由于需求指令与语音技能的关联关系的强弱能够表征该语音技能能否为该需求指令提供更满足用户需求的响应。所以若能够作为第三方语音技能的入口需求指令,则由该入口需求指令进入到第三方语音技能后,该第三方语音技能能够为用户提供比内置语音技能更满足用户需求的响应。
步骤103,若确定当前需求指令属于第三方语音技能对应的入口需求指令,则将内置语音技能切换至该第三方语音技能。
具体地,若确定当前需求指令属于某一第三方语音技能对应的入口需求指令,则说明可启动该第三方语音技能,由于电子设备处于内置语音技能中,所以将内置语音技能切换至该第三方语音技能。
本实施例中,将内置语音技能切换至该第三方语音技能后,可控制该第三方语音技能对当前需求指令进行响应时,由第三方语音技能获取当前需求指令对应的响应话术,并通过播放组件对响应话术进行语音播放。
若电子设备具有显示组件,也可将播放组件和显示组件进行联动,采用语音形式输出响应话术的同时,在显示组件上显示响应话术的内容。
可以理解的是,由于当前需求指令与进行响应的第三方语音技能有更强的关联关系,所以采用该第三方语音技能进行的响应比当前内置语音技能进行的响应更加能够满足用户需求。
本实施例提供的语音技能启动方法,接收用户的当前需求指令;响应于当前需求指令,根据映射关系判断当前需求指令是否属于第三方语音技能对应的入口需求指令,映射关系是预先构建的第三方语音技能与入口需求指令的映射关系,映射关系是根据第一历史需求指令在各第三方语音技能下的技能关联特征数据确定的,第一历史需求指令位于内置语音技能中;若确定当前需求指令属于第三方语音技能对应的入口需求指令,则将内置语音技能切换至第三方语音技能。在电子设备当前处于内置语音技能,对当前需求指令是否属于第三方语音技能的入口需求指令进行判断,能够使第三方语音技能与当前内置语音技能公平参与竞争。并且由于与第三方语音技能具有映射关系的入口需求指令是根据第一历史需求指令在各第三方语音技能下的技能关联特征数据对第一历史需求指令进行筛选获得的,该入口需求指令与该第三方语音技能的关联关系强于与该入口需求指令与内置语音技能的关联关系,所以在确定出当前需求指令为某第三方语音技能的入口需求指令,由该第三方语音技能进行响应时,相比当前内置语音技能的响应,更能满足用户需求。
实施例二
图4是根据本申请第二实施例提供的语音技能启动方法的流程示意图,如图4所示,本实施例提供的语音技能启动方法,是在本申请实施例一提供的语音技能启动方法的基础上,还包括构建第三方语音技能与入口需求指令的映射关系的步骤,则本实施例提供的语音技能启动方法包括以下步骤。
步骤201,获取内置语音技能中的第一历史需求指令。
本实施例中,电子设备中可以包括至少一个内置语音技能,第一历史需求指令为所有内置语音技能中已经发生过的需求指令。第一历史需求指令的个数可以为多个。
具体地,获取内置语音技能中的第一历史需求指令的方法可以为:从各内置语音技能的日志文件中获取自然上下文,从自然上下文中获取第一历史需求指令。
其中,自然上下文为人机交互对话的上下文,在自然上下文中包括多轮会话的上下文。
步骤202,确定第一历史需求指令在各第三方语音技能下的技能关联入口特征数据。
值得说明的是,步骤202和步骤204为确定第一历史需求指令在各第三方语音技能下的技能关联特征数据的具体步骤。
进一步地,本实施例中,由于第一历史需求指令为内置语音技能中的需求指令,第一历史需求指令也会出现在各第三方语音技能中。但第一历史需求指令在每种第三方语音技能下的技能关联特征数据会有所不同,所以分别确定第一历史需求指令在每个第三方语音技能下的技能关联特征数据。
首先确定第一历史需求指令在各第三方语音技能下的技能关联入口特征数据。在确定第一历史需求指令在各第三方语音技能下的技能关联入口特征数据时,是针对每个第一历史需求指令分别确定在各第三方语音技能下的技能关联入口特征数据。
其中,技能关联入口特征数据是与第三方语音技能相关联的表征入口需求指令特征的数据。可选地,技能关联入口特征数据包括:入口行为特征数据,技能相关性特征数据及入口语法特征数据。
可选地,入口行为特征数据可以包括:第一历史需求指令在语音技能的自然上下文中作为入口需求指令的频次、第一历史需求指令在打开所有第三方语音技能后是第一个需求指令的频次、第一历史需求指令是否命中指令意图等。
具体地,第一历史需求指令在语音技能的自然上下文中作为入口需求指令的频次确定方法为:获取在所有语音技能下的所有自然上下文,对自然上下文进行解析,获取自然上下文第一个需求指令,该第一个需求指令即为自然上下文的入口需求指令。确定第一历史需求指令是否为对应语音技能的入口需求指令,即确定第一历史需求指令是否为对应语音技能的自然上下文中的第一个需求指令。并对第一历史需求指令为对应语音技能的第一个需求指令的频次进行统计,以确定第一历史需求指令在语音技能的自然上下文中作为入口需求指令的频次。
具体地,第一历史需求指令在打开所有第三方语音技能后是第一个需求指令的频次的确定方法为:获取所有第三方语音技能的日志文件,从日志文件中获取打开第三方语音技能的第一个需求指令,判断第一历史需求指令是否为该第一个需求指令,并对第一历史需求指令为第一个需求指令的次数进行统计,获得第一历史需求指令在打开所有第三方语音技能后是第一个需求指令的频次。
第一历史需求指令是否命中指令意图的确定方法为:首先确定表示指令意图的关键词,如“退出”、“返回”、“关机”、“开启”等。然后将第一历史需求指令与指令意图关键词进行匹配,若第一历史需求指令与指令意图关键词匹配,则说明第一历史需求指令命中指令意图,否则确定第一历史需求指令未命中指令意图。
可选地,技能相关性特征数据包括:出现第一历史需求指令的所有第三方语音技能的数目、第一历史需求指令在对应的第三方语音技能中的响应是否为空、第一历史需求指令在对应的第三方语音技能中的tfidf信息、第一历史需求指令在对应的第三方语音技能的响应话术是否为高满足响应话术、第一历史需求指令在对应第三方语音技能内是高频需求指令的比例、第一历史需求指令在对应第三方语音技能内外出现的频次相关特征等。
具体地,第一历史需求指令虽然为内置语音技能中的历史需求指令,但该第一历史需求指令也可以出现在第三方语音技能中。所以从各第三方语音技能的日志文件中判断是否出现了第一历史需求指令,并对出现第一历史需求指令的第三方语音技能的数目进行统计,确定一历史需求指令的所有第三方语音技能的数目。
具体地,第一历史需求指令在对应的第三方语音技能中的tfidf信息是指第一历史需求指令在对应的第三方语音技能中的内外比例分布关系信息。可通过现有的方式计算获得。
具体地,第一历史需求指令在对应的第三方语音技能的响应话术是否为高满足响应话术的确定方法为:首先训练一个满足度响应话术的预测模型。将该第一历史需求指令在对应的第三方语音技能的响应话术输入到已训练至收敛的满足度响应话术的预测模型中,由该预测模型对响应话术是否为高满足响应话术进行预测。该满足度响应话术的预测模型可以为逻辑回归模型,若逻辑回归模型输出为1,则确定为第一历史需求指令在对应的第三方语音技能的响应话术是高满足响应话术。若逻辑回归模型输出为0,确定为非高满足响应话术。
具体地,第一历史需求指令在对应第三方语音技能内是高频需求指令的比例的确定方法为:获取所有语音技能中的日志文件,获取出前N个出现频次高的需求指令。该前N个出现频次高的需求指令为高频需求指令。然后确定第一历史需求指令在该第三方语音技能中属于高频需求指令的频次,将第一历史需求指令在该第三方语音技能中属于高频需求指令的频次与高频需求指令出现频次的比值确定为第一历史需求指令在对应第三方语音技能内是高频需求指令的比例。
具体地,第一历史需求指令在对应第三方语音技能内外出现的频次相关特征包括:第一历史需求指令在内置语音技能中出现的频次,第一历史需求指令在对应第三方语音技能内出现的频次,第一历史需求指令在内置语音技能中出现的频次与第一历史需求指令在对应第三方语音技能内出现的频次的差值,第一历史需求指令在内置语音技能中出现的频次与第一历史需求指令在对应第三方语音技能内出现的频次的比值。
可选地,入口语法特征数据为从第一历史需求指令自身解析出的特征。可以包括:是否含有想要关键词、是否含有意图谓词、是否是单双字指令、是否包括高频词等。
具体地,确定是否含有想要关键词的方法可以为:首先设置想要关键词(英文为:wantkey),如设置的想要关键词为:“我想去”、“我要收听”、“我想要看”等。将第一历史需求指令与预设的想要关键词进行对比,确定是否含有想要关键词。
具体地,确定是否含有意图谓词的方法可以为:首先设置意图谓语,如设置的意图谓语可以包括:“收看”、“收听”、“吃饭”等。将第一历史需求指令与预设的意图谓语进行对比,确定是否含有意图谓语。
具体地,确定是否是单双字指令的方法为:获取第一历史需求指令,确定第一历史需求指令包括的字的个数,若大于两个,则确定不为单双字指令,否则确定为单双字指令。
具体地,确定是否包括高频词的方法为:确定出现在历史需求指令中的所有词,并确定出现频次高的高频词。将第一历史需求指令与高频词进行对比,确定是否包括高频词。
步骤203,根据技能关联入口特征数据对第一历史需求指令进行筛选,以获得各第三方语音技能对应的第二历史需求指令。
进一步地,图5是根据本申请第二实施例提供的语音技能启动方法中步骤203的流程示意图,如图5所示,步骤203可以包括以下步骤:
步骤2031,获取各分类模型的训练样本,训练样本为需求指令样本,需求指令样本具有是否可作为对应第三方语音技能入口需求指令的标识。
步骤2032,采用训练样本的技能关联入口特征数据对对应的分类模型进行训练直至收敛,以获得各已训练至收敛的分类模型。
具体地,针对每个第三方语音技能都有对应的分类模型。首先对每个分类模型进行训练。在对分类模型进行训练时获取需求指令样本,对于每个需求指令样本标注是否可作为对应第三方语音技能入口需求指令的标识,如可作为对应第三方语音技能入口需求指令,则标识为1,否则标识为0。然后采用该需求指令样本作为训练样本,确定每个训练样本在各第三方语音技能下的技能关联入口特征数据。将每个训练样本的技能关联入口特征数据输入至对应的分类模型中对分类模型进行训练,优化分类模型中的参数,直到达到最大迭代次数使该分类模型收敛,得到已训练至收敛的分类模型。
可选地,分类模型可以为机器学习模型或深度学习模型。本实施例中,分类模型为GBDT分类模型。
本申请实施例中,采用具有标识信息的需求指令样本作为分类模型的训练样本,能够使训练出的分类模型更加适合测试样本,进而使分类结果更加准确。
步骤2033,将第一历史需求指令的技能关联入口特征数据输入到各第三方语音技能对应的已训练至收敛的分类模型中,以由分类模型对第一历史需求指令进行分类,获得各第三方语音技能对应的第二历史需求指令。
值得说明的是,同一第一历史需求指令在不同第三方语音技能下的技能关联入口特征数据会有所不同,所以将第一历史需求指令的技能关联入口特征数据输入到各第三方语音技能对应的已训练至收敛的分类模型中,已训练至收敛的分类模型根据第一历史需求指令的技能关联入口特征数据对第一历史需求指令进行分类,若某一第一历史需求指令的分类结果的值大于预设分类数值,则说明该第一历史需求指令为筛选出的第二历史需求指令。若该第一历史需求指令的分类结果的值小于或等于预设分类数值,则说明该第一历史需求指令为筛选后需要去除掉的历史需求指令。
其中,第二历史需求指令是根据技能关联入口特征数据从第一历史需求指令中筛选出来的历史需求指令。
本申请实施例中,对于每个第三方语音技能都有对应的已训练至收敛的分类模型,并采用该已训练至收敛的分类模型对第一历史需求指令进行筛选,获得第二历史需求指令,能够使筛选出的第二历史需求指令为更满足对应第三方语音技能的入口特征的需求指令。
步骤204,确定第一历史需求指令中的第二历史需求指令在各第三方语音技能下的技能满足数据。
其中,技能满足数据表示第三方语音技能能否满足第二历史需求指令的特征数据。可选地,技能满足数据可以为:内容满足度或互动满意度。
进一步地,图6是根据本申请第二实施例提供的语音技能启动方法中步骤204的流程示意图,如图6所示,步骤204可以包括以下步骤:
步骤2041,判断各第三方语音技能的类型是否为资源类技能,若是,则执行步骤2042,否则执行步骤2043。
其中,资源类技能可以包括:音频技能,视频技能及语音合成类技能(简称:TTS类技能)等。
具体地,本实施例中,预先将资源类技能的每种类型标识进行存储,获取各第三方语音技能的类型标识,将各第三方语音技能的类型标识与预存储的资源类技能的每种类型标识进行匹配,若某第三方语音技能的类型标识与某个预存储的资源类技能的类型标识相匹配,则确定该第三方语音技能为资源类技能,否则确定该第三方语音技能为非资源类技能。
步骤2042,确定第二历史需求指令在该第三方语音技能下的内容满足度。
若某第三方语音技能的类型为资源类技能,则确定第二历史需求指令在该第三方语音技能下的内容满足度。
可选地,本实施例中,图7是根据本申请第二实施例提供的语音技能启动方法中步骤2042的流程示意图,如图7所示,步骤2042可以包括以下步骤:
步骤2042a,获取第二历史需求指令在该第三方语音技能下的第一播放资源时长和在内置语音技能下的第二播放资源时长。
具体地,本实施例中,从该第三方语音技能的历史日志中获取第二历史需求指令在该第三方语音技能下对应的播放资源时长,在该第三方语音技能下对应的播放资源时长为第一播放资源时长。并从内置语音技能的历史日志中获取第二历史需求指令在内置语音技能下对应的播放资源时长,在内置语音技能下对应的播放资源时长为第二播放资源时长。
步骤2042b,根据第一播放资源时长和第二播放资源时长确定内容满足度。
进一步地,本实施例中,将第一播放资源时长和第二播放资源时长进行对比,根据对比结果确定内容满足度。
作为一种可选实施方式,将第一播放资源时长和第二播放资源时长进行对比,若第一播放资源时长大于第二播放资源时长,则确定内容满足度为1,否则确定内容满足度为0。
作为又一种可选实施方式,首先设置第一播放资源时长与第二播放资源时长的差值、内容满足度的映射关系,然后计算第一播放资源时长和第二播放资源时长的差值,根据计算出的差值与该映射关系确定对应的内容满足度。内容满足度为0-1之间的数值。
本申请实施例中,由于播放资源时长是衡量资源类语音技能是否满足用户需求的重要指标,所以根据第三方语音技能的播放资源时长和内置语音节能的播放资源时长确定第二历史需求指令在第三方语音技能下的内容满足度,使确定出的内容满足度更加准确。
步骤2043,确定第二历史需求指令在该第三方语音技能下的互动满意度。
在本实施例中,若某第三方语音技能的类型为非资源类技能,则说明该第三语音技能可能为游戏类技能或其他非资源类技能。若为游戏类技能,可以为指令类游戏,知识游戏或其他游戏。该非资源类技能具有多轮对话的特点。
可选地,本实施例中,图8是根据本申请第二实施例提供的语音技能启动方法中步骤2043的流程示意图,如图8所示,步骤2043可以包括以下步骤:
步骤2043a,获取第二历史需求指令在该第三方语音技能下对应的多轮会话文本。
可选地,从该第三方语音技能下的日志文件中获取包括第二历史需求指令的多轮会话文本。每轮会话文本包括一个需求指令和对应的响应话术。
其中,获取的多轮会话文本的轮数可以预先设置或者多轮会话文本的轮数从进入到该第三方语音技能到退出该第三方语音技能为止的轮数。
步骤2043b,根据多轮会话文本确定第二历史需求指令在该第三方语音技能下的技能响应满意度和技能响应重复率。
其中,技能响应满意度可根据多轮会话文本的响应话术中出现低满意度关键词的频次确定的。可预先设置一个低满意度关键词频次与技能响应满意度的对应关系。获取多轮会话文本的响应话术中出现低满意度关键词的频次并根据上述对应关系确定技能响应满意度。
若多轮会话文本中出现低满意度关键词的频次越高,则确定技能响应满意度越低。相反,若多轮会话文本中出现低满意度关键词的频次越低,则确定技能响应满意度越高。
本实施例中,技能响应重复率的确定方法为:获取包括第二历史需求指令的多轮会话文本的响应话术,对比每轮响应话术,确定每种响应话术的重复次数,将各响应话术的重复次数与响应话术的总个数的比值确定为技能响应重复率。
下面以第三方语音技能为“智能导诊”对技能响应满意度和技能响应重复率进行举例说明。
在智能导诊中包括第二历史需求指令的多轮会话文本包括五轮会话文本。这五轮会话文本通过询问用户症状,年龄,性别,生病类型等最终实现为用户推荐响应的挂号科室的需求。若该“智能导诊”的响应话术总是包括“不知道”,“不理解”等明显低满足度的关键词,则确定该“智能导诊”对用户需求的理解能力比较弱,技能响应满意度比较低。同样,如果“智能导诊”总是重复同样的响应话术,如总是重复询问用户的症状的响应话术,即技能响应重复率较高,说明该“智能导诊”没有理解用户的需求指令。
步骤2043c,根据技能响应满意度和技能响应重复率确定互动满意度。
作为一种可选实施方式,由于技能响应满意度和互动满意度呈正相关的关系,而技能响应重复率与互动满意度呈负相关的关系,所以可将技能响应重复率进行转换,变成与互动满意度呈正相关关系后,通过对技能响应满意度和技能响应重复率进行加权求和,确定互动满意度。
作为另一种可选实施方式,可训练一个互动满意度预测模型。通过将技能响应满意度和技能响应重复率输入到该互动满意度预测模型中,由互动满意度预测模型预测出互动满意度。
可以理解的是,根据技能响应满意度和技能响应重复率确定互动满意度的方式还可以为其他方式,本实施例中对此不做限定。
本申请实施例中,由于技能响应满意度和技能响应重复率是衡量互动类语音技能是否满足用户需求的重要指标,所以采用第二历史需求指令在该第三方语音技能下的技能响应满意度和技能响应重复率确定互动满意度,能够使确定出的互动满意度更加准确。
步骤205,根据技能满足数据对第二历史需求指令进行筛选,获得各第三方语音技能对应的入口需求指令。
进一步地,图9是根据本申请第二实施例提供的语音技能启动方法中步骤205的流程示意图,如图9所示,步骤205可以包括以下步骤:
步骤2051,若某第三方语音技能的类型为资源类技能,则根据第二历史需求指令在该第三方语音技能下的内容满足度对第二历史需求指令进行筛选,获得入口需求指令。
作为一种可选实施方式,获取第二历史需求指令在该第三方语音技能下的内容满足度,若内容满意度只包括0和1的两个数值,则若内容满意度为1,则确定该第二历史需求指令为该第三方语音技能的入口需求指令,若内容满意度为0,则确定该第二历史需求指令不为该第三方语音技能的入口需求指令。
作为另一种可选实施方式,获取第二历史需求指令在该第三方语音技能下的内容满足度,若内容满意度为0-1之间的数值,则设置一个内容满意度阈值,如预设的内容满意度阈值为0.8,若内容满意度大于该预设的内容满意度阈值,则确定该第二历史需求指令为该第三方语音技能的入口需求指令,若内容满意度小于或等于该预设的内容满意度阈值,则确定该第二历史需求指令不为该第三方语音技能的入口需求指令。
本实施例中,某第三方语音技能的类型为资源类技能,则根据第二历史需求指令在该第三方语音技能下的内容满足度对第二历史需求指令进行筛选,获得入口需求指令,由于内容满足度是根据第二历史需求指令在第三方语音技能和内置语音技能中的播放资源时长确定的,所以筛选出来的入口需求指令与第三方语音技能在内容上的关联性强于入口需求指令与内置语音技能在内容上的关联性。该筛选出的第二历史需求指令更适合作为第三方语音技能的入口需求指令,以为用户提供更满足需求的播放资源。
步骤2052,若某第三方语音技能的类型为非资源类技能,则确定内置语音技能中未有第二历史需求指令对应的播放资源记录后,根据第二历史需求指令在该第三方语音技能下的互动满意度对第二历史需求指令进行筛选,获得入口需求指令。
进一步地,本实施例中,若某第三方语音技能的类型为非资源类技能,则判断该第二历史需求指令在内置语音技能中有无播放资源记录,若有,则说明该第二历史需求指令可作为资源类语音技能的需求指令,不适合作为非资源类技能的入口需求指令,将该第二历史需求指令删除。若该第二历史需求指令未有在内置语音技能中对应的播放资源记录,则说明该第二历史需求指令可作为非资源类技能的需求指令。通过非资源类技能的多轮会话的特点,根据第二历史需求指令在该第三方语音技能下的互动满意度对第二历史需求指令进行筛选,获得入口需求指令。
具体地,可预先设置一个互动满意度阈值,将第二历史需求指令在该第三方语音技能下的互动满意度与该预设的互动满意度阈值进行对比,若大于该预设的互动满意度阈值,则将该第二历史需求指令作为入口需求指令,若小于或等于该预设的互动满意度阈值,则不将该第二历史需求指令作为入口需求指令。
本申请实施例中,根据第三方语音技能的类型分别确定对第二历史需求指令进行筛选的特征依据,能够使第三方语音技能根据筛选出的入口需求指令启动后,达到有效的内容满足或互动满足,提高用户对语音技能响应的满意度。
并且本申请实施例中,根据所述技能关联入口特征数据对所述第一历史需求指令进行筛选,以获得各所述第三方语音技能对应的第二历史需求指令;根据所述技能满足数据对所述第二历史需求指令进行筛选,获得各所述第三方语音技能对应的入口需求指令,能够通过技能关联入口特征数据对第一历史需求指令进行第一次筛选,剔除不能不具有第三方语音技能入口需求指令特征的第一历史需求指令。能够根据技能满足数据对第二历史需求指令进行第二次筛选,剔除第三语音技能无法满足的第二历史需求指令,使筛选出的各第三方语音技能的入口需求指令更加准确。
步骤206,判断各入口需求指令对应的第三方语音技能是否为一个,若否,则执行步骤207,否则执行步骤209。
本实施例中,可作为某第三方语音技能的入口需求指令的个数为至少一个。同理,每个入口需求指令也可作为至少一个第三方语音技能的入口需求指令。这就导致了当前需求指令可以与至少一个第三方语音技能的入口需求指令匹配上,致使无法确定由哪个第三方语音技能进行响应。所以若判断出某入口需求指令对应的第三方语音技能为多个,则只保留该入口需求指令对应的一个第三方语音技能。
步骤207,确定每个对应的第三方语音技能中该入口需求指令出现的频次。
进一步地,为了只保留入口需求指令对应的一个第三方语音技能,确定每个对应的第三方语音技能中该入口需求指令出现的频次,出现的频次越高,说明该入口需求指令与该第三方语音技能的关联越强。
步骤208,将出现频次最高的第三方语音技能确定为与该入口需求指令存在映射关系的第三方语音技能。
进一步地,本实施例中,将出现频次最高的第三方语音技能确定为与该入口需求指令存在映射关系的第三方语音技能,去除其他对应的第三方语音技能与该入口需求指令的映射关系。使得一个入口需求指令只与一个第三方语音技能有映射关系。
步骤209,构建各第三方语音技能与对应的入口需求指令的映射关系。
进一步地,本实施例中,构建各第三方语音技能与对应的入口需求指令的映射关系时,可以以入口需求指令与第三方语音技能对的形式建立映射关系。
本申请实施例中,通过入口需求指令在对应的第三方语音技能中出现的频次确定与每个入口需求指令有映射关系的第三方语音技能只有一个,能够从当前内置语音技能切换到最佳的第三方语音技能中,避免无法确定切换到哪个第三方语音技能的问题。而且切换到最佳的第三方语音技能,由该最佳的第三方语音技能进行响应,进一步提高了用户需求的满足度。
步骤210,接收用户的当前需求指令。
步骤211,响应于当前需求指令,根据预先构建的第三方语音技能与入口需求指令的映射关系判断当前需求指令是否属于第三方语音技能对应的入口需求指令。
其中,映射关系是根据第一历史需求指令在各第三方语音技能下的技能关联特征数据确定的,第一历史需求指令位于内置语音技能中。
步骤212,若确定当前需求指令属于第三方语音技能对应的入口需求指令,则将内置语音技能切换至该第三方语音技能。
步骤213,控制该第三方语音技能对当前需求指令进行响应。
本实施例中,步骤210-步骤212的实现方式与本申请图3所示实施例中的步骤101-步骤103的实现方式相似,在此不再一一赘述。
实施例三
图10为根据本申请第三实施例提供的语音技能启动装置的结构示意图,如图10所示,本实施例提供的语音技能启动装置位于电子设备,电子设备包括:至少一个第三方语音技能和内置语音技能,电子设备当前处于内置语音技能,电子设备当前处于内置语音技能。该语音技能启动装置1000包括:指令接收模块1001,入口指令判断模块1002,技能切换模块1003和技能控制模块1004。
其中,指令接收模块1001,用于接收用户的当前需求指令。入口指令判断模块1002,用于响应于所述当前需求指令,根据映射关系判断所述当前需求指令是否属于第三方语音技能对应的入口需求指令,所述映射关系是预先构建的第三方语音技能与入口需求指令的映射关系,所述映射关系是根据第一历史需求指令在各第三方语音技能下的技能关联特征数据确定的,所述第一历史需求指令位于所述内置语音技能中。技能切换模块1003,用于若确定所述当前需求指令属于第三方语音技能对应的入口需求指令,则将所述内置语音技能切换至所述第三方语音技能。
本实施例提供的语音技能启动装置可以执行图3所示方法实施例的技术方案,其实现原理和技术效果与图3所示方法实施例类似,在此不再一一赘述。
实施例四
图11为根据本申请第四实施例提供的语音技能启动装置的结构示意图,如图11所示,本实施例提供的语音技能启动装置在本申请实施例三提供的语音技能启动装置的基础上,该语音技能启动装置1100还包括:指令获取模块1101,特征数据确定模块1102,指令筛选模块1103,映射关系构建模块1104及映射技能确定模块1105。
进一步地,指令获取模块1101,用于获取内置语音技能中的第一历史需求指令。特征数据确定模块1102,用于确定第一历史需求指令在各第三方语音技能下的技能关联特征数据。指令筛选模块1103,用于根据技能关联特征数据对第一历史需求指令进行筛选,以获取各第三方语音技能对应的入口需求指令。映射关系构建模块1104,用于构建各第三方语音技能与对应的入口需求指令的映射关系。
进一步地,本实施例中的语音技能启动装置还包括:映射技能确定模块1105。
映射技能确定模块1105,用于判断各入口需求指令对应的第三方语音技能是否为一个;若某入口需求指令对应的第三方语音技能为多个,则确定每个对应的第三方语音技能中该入口需求指令出现的频次;将出现频次最高的第三方语音技能确定为与该入口需求指令存在映射关系的第三方语音技能。
进一步地,特征数据确定模块1102,具体用于确定第一历史需求指令在各第三方语音技能下的技能关联入口特征数据,并确定第一历史需求指令中的第二历史需求指令在各第三方语音技能下的技能满足数据。
进一步地,指令筛选模块1103,具体用于根据技能关联入口特征数据对第一历史需求指令进行筛选,以获得各第三方语音技能对应的第二历史需求指令;根据技能满足数据对第二历史需求指令进行筛选,获得各第三方语音技能对应的入口需求指令。
进一步地,指令筛选模块1103,在根据技能关联入口特征数据对第一历史需求指令进行筛选,以获得各第三方语音技能对应的第二历史需求指令时,具体用于将第一历史需求指令的技能关联入口特征数据输入到各第三方语音技能对应的已训练至收敛的分类模型中,以由分类模型对第一历史需求指令进行分类,获得各第三方语音技能对应的第二历史需求指令。
进一步地,指令筛选模块1103,在将第一历史需求指令的技能关联入口特征数据输入到各第三方语音技能对应的已训练至收敛的分类模型中之前,还用于获取各分类模型的训练样本,训练样本为需求指令样本,需求指令样本具有是否可作为对应第三方语音技能入口需求指令的标识。采用训练样本的技能关联入口特征数据对对应的分类模型进行训练直至收敛,以获得各已训练至收敛的分类模型。
其中,技能关联入口特征数据包括:入口行为特征数据,技能相关性特征数据及入口语法特征数据。
进一步地,技能满足数据包括内容满足度或互动满意度,特征数据确定模块1102,在确定第一历史需求指令中的第二历史需求指令在各第三方语音技能下的技能满足数据时,具体用于判断各第三方语音技能的类型是否为资源类技能。若某第三方语音技能的类型为资源类技能,则确定第二历史需求指令在该第三方语音技能下的内容满足度。若某第三方语音技能的类型为非资源类技能,则确定第二历史需求指令在该第三方语音技能下的互动满意度。
进一步地,特征数据确定模块1102,在确定第二历史需求指令在该第三方语音技能下的内容满足度时,具体用于获取第二历史需求指令在该第三方语音技能下的第一播放资源时长和在内置语音技能下的第二播放资源时长。根据第一播放资源时长和第二播放资源时长确定内容满足度。
进一步地,特征数据确定模块1102,在确定第二历史需求指令在该第三方语音技能下的互动满意度时,具体用于获取第二历史需求指令在该第三方语音技能下对应的多轮会话文本。根据多轮会话文本确定第二历史需求指令在该第三方语音技能下的技能响应满意度和技能响应重复率。根据技能响应满意度和技能响应重复率确定互动满意度。
进一步地,指令筛选模块1103,在根据技能满足数据对第二历史需求指令进行筛选,获得入口需求指令时,具体用于若某第三方语音技能的类型为资源类技能,则根据第二历史需求指令在该第三方语音技能下的内容满足度对第二历史需求指令进行筛选,获得入口需求指令。若某第三方语音技能的类型为非资源类技能,则确定内置语音技能中未有第二历史需求指令对应的播放资源记录后,根据第二历史需求指令在该第三方语音技能下的互动满意度对第二历史需求指令进行筛选,获得入口需求指令。
本实施例提供的语音技能启动装置可以执行图4-图9所示方法实施例的技术方案,其实现原理和技术效果与图4-图9所示方法实施例类似,在此不再一一赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图12所示,是根据本申请实施例的语音技能启动方法的电子设备的框图。电子设备旨在具有语音交互功能的各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的具有语音交互功能的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。电子设备还可以表示各种形式的具有语音交互功能的家电设备,如智能音箱,智能电视,智能冰箱等。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图12所示,该电子设备包括:一个或多个处理器1201、存储器1202,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图12中以一个处理器1201为例。
存储器1202即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的语音技能启动方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的语音技能启动方法。
存储器1202作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的语音技能启动方法对应的程序指令/模块(例如,附图10所示的指令接收模块1001、入口指令判断模块1002和技能切换模块1003)。处理器1101通过运行存储在存储器1102中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的语音技能启动方法。
存储器1102可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据图12的电子设备的使用所创建的数据等。此外,存储器1102可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1102可选包括相对于处理器1101远程设置的存储器,这些远程存储器可以通过网络连接至图12的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
图12的电子设备还可以包括:输入装置1103和输出装置1104。处理器1101、存储器1102、输入装置1103和输出装置1104可以通过总线或者其他方式连接,图12中以通过总线连接为例。
输入装置1103可接收输入的语音、数字或字符信息,以及产生与图12的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1104可以包括语音播放设备、显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,在电子设备当前处于内置语音技能,对当前需求指令是否属于第三方语音技能的入口需求指令进行判断,能够使第三方语音技能与当前内置语音技能公平参与竞争。并且由于与第三方语音技能具有映射关系的入口需求指令是根据第一历史需求指令在各第三方语音技能下的技能关联特征数据对第一历史需求指令进行筛选获得的,该入口需求指令与该第三方语音技能的关联关系强于与该入口需求指令与内置语音技能的关联关系,所以在确定出当前需求指令为某第三方语音技能的入口需求指令,由该第三方语音技能进行响应时,相比当前内置语音技能的响应,更能满足用户需求。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (16)

1.一种语音技能启动方法,其特征在于,所述方法应用于电子设备,所述电子设备包括:至少一个第三方语音技能和内置语音技能,所述电子设备当前处于所述内置语音技能,所述方法包括:
接收用户的当前需求指令;
响应于所述当前需求指令,根据映射关系判断所述当前需求指令是否属于第三方语音技能对应的入口需求指令,所述映射关系是预先构建的第三方语音技能与入口需求指令的映射关系,所述映射关系是根据第一历史需求指令在各第三方语音技能下的技能关联特征数据确定的,所述第一历史需求指令位于所述内置语音技能中;
若确定所述当前需求指令属于第三方语音技能对应的入口需求指令,则将所述内置语音技能切换至所述第三方语音技能。
2.根据权利要求1所述的方法,其特征在于,所述接收用户的当前需求指令之前,还包括:
获取所述内置语音技能中的第一历史需求指令;
确定所述第一历史需求指令在各第三方语音技能下的技能关联特征数据;
根据所述技能关联特征数据对所述第一历史需求指令进行筛选,以获取各所述第三方语音技能对应的入口需求指令;
构建各所述第三方语音技能与对应的入口需求指令的映射关系。
3.根据权利要求2所述的方法,其特征在于,所述根据所述技能关联特征数据对所述第一历史需求指令进行筛选,以获取各所述第三方语音技能对应的入口需求指令之后,还包括:
判断各所述入口需求指令对应的第三方语音技能是否为一个;
若某入口需求指令对应的第三方语音技能为多个,则确定每个对应的第三方语音技能中该入口需求指令出现的频次;
将出现频次最高的第三方语音技能确定为与该入口需求指令存在映射关系的第三方语音技能。
4.根据权利要求2所述的方法,其特征在于,所述确定所述第一历史需求指令在各第三方语音技能下的技能关联特征数据,包括:
确定所述第一历史需求指令在各第三方语音技能下的技能关联入口特征数据;
确定所述第一历史需求指令中的第二历史需求指令在各第三方语音技能下的技能满足数据。
5.根据权利要求4所述的方法,其特征在于,所述根据所述技能关联特征数据对所述第一历史需求指令进行筛选,以获取各所述第三方语音技能对应的入口需求指令,包括:
根据所述技能关联入口特征数据对所述第一历史需求指令进行筛选,以获得各所述第三方语音技能对应的第二历史需求指令;
根据所述技能满足数据对所述第二历史需求指令进行筛选,获得各所述第三方语音技能对应的入口需求指令。
6.根据权利要求5所述的方法,其特征在于,所述根据所述技能关联入口特征数据对所述第一历史需求指令进行筛选,以获得各所述第三方语音技能对应的第二历史需求指令,包括:
将所述第一历史需求指令的技能关联入口特征数据输入到各所述第三方语音技能对应的已训练至收敛的分类模型中,以由所述分类模型对所述第一历史需求指令进行分类,获得各所述第三方语音技能对应的第二历史需求指令。
7.根据权利要求6所述的方法,其特征在于,所述将所述第一历史需求指令的技能关联入口特征数据输入到各所述第三方语音技能对应的已训练至收敛的分类模型中之前,还包括:
获取各所述分类模型的训练样本,所述训练样本为需求指令样本,所述需求指令样本具有是否可作为对应第三方语音技能入口需求指令的标识;
采用所述训练样本的技能关联入口特征数据对对应的分类模型进行训练直至收敛,以获得各所述已训练至收敛的分类模型。
8.根据权利要求4-7任一项所述的方法,其特征在于,所述技能关联入口特征数据包括:入口行为特征数据,技能相关性特征数据及入口语法特征数据。
9.根据权利要求4所述的方法,其特征在于,所述技能满足数据包括内容满足度或互动满意度,所述确定所述第一历史需求指令中的第二历史需求指令在各第三方语音技能下的技能满足数据,包括:
判断各第三方语音技能的类型是否为资源类技能;
若某第三方语音技能的类型为资源类技能,则确定第二历史需求指令在该第三方语音技能下的内容满足度;
若某第三方语音技能的类型为非资源类技能,则确定第二历史需求指令在该第三方语音技能下的互动满意度。
10.根据权利要求9所述的方法,其特征在于,所述确定第二历史需求指令在该第三方语音技能下的内容满足度,包括:
获取所述第二历史需求指令在该第三方语音技能下的第一播放资源时长和在所述内置语音技能下的第二播放资源时长;
根据所述第一播放资源时长和所述第二播放资源时长确定所述内容满足度。
11.根据权利要求9所述的方法,其特征在于,所述确定第二历史需求指令在该第三方语音技能下的互动满意度,包括:
获取第二历史需求指令在该第三方语音技能下对应的多轮会话文本;
根据所述多轮会话文本确定所述第二历史需求指令在该第三方语音技能下的技能响应满意度和技能响应重复率;
根据所述技能响应满意度和所述技能响应重复率确定所述互动满意度。
12.根据权利要求11所述的方法,其特征在于,所述根据所述技能满足数据对所述第二历史需求指令进行筛选,获得所述入口需求指令,包括:
若某第三方语音技能的类型为资源类技能,则根据第二历史需求指令在该第三方语音技能下的内容满足度对所述第二历史需求指令进行筛选,获得所述入口需求指令;
若某第三方语音技能的类型为非资源类技能,则确定所述内置语音技能中未有所述第二历史需求指令对应的播放资源记录后,根据第二历史需求指令在该第三方语音技能下的互动满意度对所述第二历史需求指令进行筛选,获得所述入口需求指令。
13.一种语音技能启动装置,其特征在于,所述装置位于电子设备,所述电子设备包括:至少一个第三方语音技能和内置语音技能,所述电子设备当前处于所述内置语音技能,所述装置包括:
指令接收模块,用于接收用户的当前需求指令;
入口指令判断模块,用于响应于所述当前需求指令,根据映射关系判断所述当前需求指令是否属于第三方语音技能对应的入口需求指令,所述映射关系是预先构建的第三方语音技能与入口需求指令的映射关系,所述映射关系是根据第一历史需求指令在各第三方语音技能下的技能关联特征数据确定的,所述第一历史需求指令位于所述内置语音技能中;
技能切换模块,用于若确定所述当前需求指令属于第三方语音技能对应的入口需求指令,则将所述内置语音技能切换至所述第三方语音技能。
14.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-12中任一项所述的方法。
15.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-12中任一项所述的方法。
16.一种语音技能启动方法,其特征在于,所述方法应用于电子设备,所述电子设备包括:至少一个第三方语音技能和内置语音技能,所述方法包括:
获取用户的当前需求指令;
根据映射关系判断所述当前需求指令是否属于第三方语音技能对应的入口需求指令,所述映射关系是预先构建的第三方语音技能与入口需求指令的映射关系,所述映射关系是根据第一历史需求指令在各第三方语音技能下的技能关联特征数据确定的;
若确定所述当前需求指令属于第三方语音技能对应的入口需求指令,则启动所述第三方语音技能。
CN201910809147.8A 2019-08-29 2019-08-29 语音技能启动方法、装置、设备及存储介质 Active CN110503954B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910809147.8A CN110503954B (zh) 2019-08-29 2019-08-29 语音技能启动方法、装置、设备及存储介质
JP2020019065A JP6990728B2 (ja) 2019-08-29 2020-02-06 音声スキルの起動方法、装置、デバイスおよび記憶媒体
US16/847,852 US11741952B2 (en) 2019-08-29 2020-04-14 Voice skill starting method, apparatus, device and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910809147.8A CN110503954B (zh) 2019-08-29 2019-08-29 语音技能启动方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110503954A true CN110503954A (zh) 2019-11-26
CN110503954B CN110503954B (zh) 2021-12-21

Family

ID=68590562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910809147.8A Active CN110503954B (zh) 2019-08-29 2019-08-29 语音技能启动方法、装置、设备及存储介质

Country Status (3)

Country Link
US (1) US11741952B2 (zh)
JP (1) JP6990728B2 (zh)
CN (1) CN110503954B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949178A (zh) * 2020-08-13 2020-11-17 百度在线网络技术(北京)有限公司 技能切换方法、装置、设备以及存储介质
CN112767916A (zh) * 2021-02-05 2021-05-07 百度在线网络技术(北京)有限公司 智能语音设备的语音交互方法、装置、设备、介质及产品

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020223742A2 (en) * 2019-05-02 2020-11-05 Colleen David Generation and operation of artificial intelligence based conversation systems
US11568865B2 (en) * 2019-09-18 2023-01-31 Walgreen Co. Communication mode selection based upon device context for prescription processes

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4785420A (en) * 1986-04-09 1988-11-15 Joyce Communications Systems, Inc. Audio/telephone communication system for verbally handicapped
CN103295389A (zh) * 2012-03-01 2013-09-11 王琦凡 移动终端控制家电的方法、系统及外接设备
CN103605531A (zh) * 2013-09-12 2014-02-26 广东美的制冷设备有限公司 家电设备的控制方法及装置、移动终端
CN105161100A (zh) * 2015-08-24 2015-12-16 联想(北京)有限公司 控制方法及电子设备
CN107018239A (zh) * 2017-06-05 2017-08-04 青岛海信移动通信技术股份有限公司 短信息处理方法及装置
US9730040B2 (en) * 2014-08-04 2017-08-08 Carolyn W. Hafeman Communication apparatus, system and method
CN109508399A (zh) * 2018-11-20 2019-03-22 维沃移动通信有限公司 一种表情图像处理方法、移动终端
CN109710137A (zh) * 2018-12-25 2019-05-03 苏州思必驰信息科技有限公司 用于语音对话平台的技能优先级配置方法及系统
CN109901899A (zh) * 2019-01-28 2019-06-18 百度在线网络技术(北京)有限公司 视频语音技能处理方法、装置、设备及可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981632A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 情報公開装置
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
DE112014002747T5 (de) * 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
EP4030295B1 (en) 2016-04-18 2024-06-05 Google LLC Automated assistant invocation of appropriate agent
US20180336045A1 (en) * 2017-05-17 2018-11-22 Google Inc. Determining agents for performing actions based at least in part on image data
US11657797B2 (en) * 2019-04-26 2023-05-23 Oracle International Corporation Routing for chatbots

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4785420A (en) * 1986-04-09 1988-11-15 Joyce Communications Systems, Inc. Audio/telephone communication system for verbally handicapped
CN103295389A (zh) * 2012-03-01 2013-09-11 王琦凡 移动终端控制家电的方法、系统及外接设备
CN103605531A (zh) * 2013-09-12 2014-02-26 广东美的制冷设备有限公司 家电设备的控制方法及装置、移动终端
US9730040B2 (en) * 2014-08-04 2017-08-08 Carolyn W. Hafeman Communication apparatus, system and method
CN105161100A (zh) * 2015-08-24 2015-12-16 联想(北京)有限公司 控制方法及电子设备
CN107018239A (zh) * 2017-06-05 2017-08-04 青岛海信移动通信技术股份有限公司 短信息处理方法及装置
CN109508399A (zh) * 2018-11-20 2019-03-22 维沃移动通信有限公司 一种表情图像处理方法、移动终端
CN109710137A (zh) * 2018-12-25 2019-05-03 苏州思必驰信息科技有限公司 用于语音对话平台的技能优先级配置方法及系统
CN109901899A (zh) * 2019-01-28 2019-06-18 百度在线网络技术(北京)有限公司 视频语音技能处理方法、装置、设备及可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949178A (zh) * 2020-08-13 2020-11-17 百度在线网络技术(北京)有限公司 技能切换方法、装置、设备以及存储介质
CN112767916A (zh) * 2021-02-05 2021-05-07 百度在线网络技术(北京)有限公司 智能语音设备的语音交互方法、装置、设备、介质及产品
CN112767916B (zh) * 2021-02-05 2024-03-01 百度在线网络技术(北京)有限公司 智能语音设备的语音交互方法、装置、设备、介质及产品

Also Published As

Publication number Publication date
JP6990728B2 (ja) 2022-01-12
US20210065707A1 (en) 2021-03-04
CN110503954B (zh) 2021-12-21
JP2021034002A (ja) 2021-03-01
US11741952B2 (en) 2023-08-29

Similar Documents

Publication Publication Date Title
CN110503954A (zh) 语音技能启动方法、装置、设备及存储介质
US20230161799A1 (en) Method for adaptive conversation state management with filtering operators applied dynamically as part of a conversational interface
CN111049996B (zh) 多场景语音识别方法及装置、和应用其的智能客服系统
CN106548773B (zh) 基于人工智能的儿童用户搜索方法及装置
US20210201886A1 (en) Method and device for dialogue with virtual object, client end, and storage medium
CN106648535A (zh) 直播客户端语音输入方法及终端设备
US20140207811A1 (en) Electronic device for determining emotion of user and method for determining emotion of user
CN105690385A (zh) 基于智能机器人的应用调用方法与装置
CN108737933A (zh) 一种基于智能音箱的对话方法、装置及电子设备
CN106297801A (zh) 语音处理方法及装置
CN107040452B (zh) 一种信息处理方法、装置和计算机可读存储介质
CN106384591A (zh) 一种与语音助手应用交互的方法和装置
US20140028780A1 (en) Producing content to provide a conversational video experience
CN103168298A (zh) 基于搜索引擎推断的虚拟协助
KR102451925B1 (ko) 자연 언어 처리를 위한 네트워크-기반 학습 모델
CN110473537A (zh) 语音技能的控制方法、装置、设备及存储介质
CN109364477A (zh) 基于语音控制进行打麻将游戏的方法及装置
CN110209778A (zh) 一种对话生成的方法以及相关装置
CN110047484A (zh) 一种语音识别交互方法、系统、设备和存储介质
CN106601242A (zh) 操作事件的执行方法及装置、终端
WO2024060559A1 (zh) 互动小说中弹幕的处理方法及装置
CN109686370A (zh) 基于语音控制进行斗地主游戏的方法及装置
CN108549481B (zh) 一种互动方法及系统
CN117253478A (zh) 一种语音交互方法和相关装置
US20210098012A1 (en) Voice Skill Recommendation Method, Apparatus, Device and Storage Medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210521

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Applicant after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant