CN112017650B - 电子设备的语音控制方法、装置、计算机设备和存储介质 - Google Patents

电子设备的语音控制方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112017650B
CN112017650B CN201910468915.8A CN201910468915A CN112017650B CN 112017650 B CN112017650 B CN 112017650B CN 201910468915 A CN201910468915 A CN 201910468915A CN 112017650 B CN112017650 B CN 112017650B
Authority
CN
China
Prior art keywords
type
user instruction
instruction
user
electronic device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910468915.8A
Other languages
English (en)
Other versions
CN112017650A (zh
Inventor
罗咏曦
王莎莎
张刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd, Shanghai Xiaodu Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910468915.8A priority Critical patent/CN112017650B/zh
Priority to JP2019236057A priority patent/JP6814871B2/ja
Priority to US16/728,249 priority patent/US20200380994A1/en
Priority to KR1020190176009A priority patent/KR102331660B1/ko
Priority to EP19220036.8A priority patent/EP3745253B1/en
Publication of CN112017650A publication Critical patent/CN112017650A/zh
Application granted granted Critical
Publication of CN112017650B publication Critical patent/CN112017650B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本申请提出一种电子设备的语音控制方法、装置、计算机设备和存储介质,其中,方法包括:通过接收用户的第一语音指令进入音乐模式;进入音乐模式之后预定时间段内启动电子设备的全双工聆听状态,在全双工聆听状态之下获取第一类型用户指令并识别;第一类型用户指令与音乐模式相关执行第一类型用户指令;第一类型用户指令与音乐模式不相关不执行第一类型用户指令;在预定时间段之后,退出全双工聆听状态。由此,进入音乐模式之后预定时间段内,启动电子设备的全双工聆听状态,直接对不具有唤醒词的第一类型用户指令进行识别,并且第一类型用户指令与音乐模式相关才执行,节约用户语音发起指令成本,保证电子设备正常播放语音,提升用户使用体验。

Description

电子设备的语音控制方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种电子设备的语音控制方法、装置、计算机设备和存储介质。
背景技术
目前,随着互联网技术和智能设备的快速发展,用户可以与智能设备进行语音交互来满足相关需求,比如,通过与智能音箱进行对话,来满足播放音乐的需求。
相关技术中,在与智能设备进行交互之前,需要唤醒智能设备,也就是说每一次与智能设备进行交互之前都需要进行一遍唤醒智能设备操作,以及在智能设备工作状态下,进行遍唤醒智能设备操作会导致当前工作状态停止,由此,操作繁琐,影响智能设备的正常工作。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请提出一种电子设备的语音控制方法、装置、计算机设备和存储介质,用于解决现有技术中用户与电子设备进行语音交互时操作繁琐,影响电子设备的正常工作,导致用户使用电子设备的体验较差的技术问题,通过在进入音乐模式之后的预定时间段内,启动电子设备的全双工聆听状态,直接对不具有唤醒词的第一类型用户指令进行识别,并且在第一类型用户指令为与音乐模式相关的指令时才执行,从而,节约用户语音发起指令成本,保证电子设备正常播放语音,提升用户使用体验。
为达上述目的,本申请第一方面实施例提出了一种电子设备的语音控制方法,包括:
接收用户的第一语音指令,并根据所述第一语音指令进入音乐模式;
在进入所述音乐模式之后的预定时间段内,启动所述电子设备的全双工聆听状态,其中,在所述全双工聆听状态之下,所述电子设备识别第一类型用户指令,其中,所述第一类型用户指令不具有唤醒语;
在所述全双工聆听状态之下,获取所述第一类型用户指令,并识别所述第一类型用户指令;
当所述第一类型用户指令为与所述音乐模式相关的指令时,则执行所述第一类型用户指令;
当所述第一类型用户指令不为与所述音乐模式相关的指令时,则不执行所述第一类型用户指令;
在所述预定时间段之后,退出所述全双工聆听状态。
本实施例的电子设备的语音控制方法,通过接收用户的第一语音指令,并根据第一语音指令进入音乐模式;在进入音乐模式之后的预定时间段内,启动电子设备的全双工聆听状态,其中,在全双工聆听状态之下,电子设备识别第一类型用户指令,其中,第一类型用户指令不具有唤醒语;在全双工聆听状态之下,获取第一类型用户指令,并识别第一类型用户指令;当第一类型用户指令为与音乐模式相关的指令时,则执行第一类型用户指令;当第一类型用户指令不为与音乐模式相关的指令时,则不执行第一类型用户指令;在预定时间段之后,退出全双工聆听状态。解决了现有技术中用户与电子设备进行语音交互时操作繁琐,影响电子设备的正常工作,导致用户使用电子设备的体验较差的技术问题,通过在进入音乐模式之后的预定时间段内,启动电子设备的全双工聆听状态,直接对不具有唤醒词的第一类型用户指令进行识别,并且在第一类型用户指令为与音乐模式相关的指令时才执行,从而,节约用户语音发起指令成本,保证电子设备正常播放语音,提升用户使用体验。
为达上述目的,本申请第二方面实施例提出了一种电子设备的语音控制装置,包括:
接收模块,用于接收用户的第一语音指令,并根据所述第一语音指令进入音乐模式;
启动模块,用于在进入所述音乐模式之后的预定时间段内,启动所述电子设备的全双工聆听状态,其中,在所述全双工聆听状态之下,所述电子设备识别第一类型用户指令,其中,所述第一类型用户指令不具有唤醒语;
获取模块,用于在所述全双工聆听状态之下,获取所述第一类型用户指令;
识别模块,用于识别所述第一类型用户指令;
处理模块,用于当所述第一类型用户指令为与所述音乐模式相关的指令时,则执行所述第一类型用户指令;
所述处理模块,还用于当所述第一类型用户指令不为与所述音乐模式相关的指令时,则不执行所述第一类型用户指令;
退出模块,用于在所述预定时间段之后,退出所述全双工聆听状态。
本实施例的电子设备的语音控制装置,通过接收用户的第一语音指令,并根据第一语音指令进入音乐模式;在进入音乐模式之后的预定时间段内,启动电子设备的全双工聆听状态,其中,在全双工聆听状态之下,电子设备识别第一类型用户指令,其中,第一类型用户指令不具有唤醒语;在全双工聆听状态之下,获取第一类型用户指令,并识别第一类型用户指令;当第一类型用户指令为与音乐模式相关的指令时,则执行第一类型用户指令;当第一类型用户指令不为与音乐模式相关的指令时,则不执行第一类型用户指令;在预定时间段之后,退出全双工聆听状态。解决了现有技术中用户与电子设备进行语音交互时操作繁琐,影响电子设备的正常工作,导致用户使用电子设备的体验较差的技术问题,通过在进入音乐模式之后的预定时间段内,启动电子设备的全双工聆听状态,直接对不具有唤醒词的第一类型用户指令进行识别,并且在第一类型用户指令为与音乐模式相关的指令时才执行,从而,节约用户语音发起指令成本,保证电子设备正常播放语音,提升用户使用体验。
为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括:处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的电子设备的语音控制方法。
为达上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的电子设备的语音控制方法。
为达上述目的,本申请第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,实现如第一方面实施例所述的电子设备的语音控制方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例所提供的一种电子设备的语音控制方法的流程示意图;
图2为本申请实施例所提供的另一种电子设备的语音控制方法的流程示意图;
图3为本申请实施例所提供的一种电子设备的显示示例图;
图4为本申请实施例所提供的一种电子设备的语音控制装置的结构示意图;
图5为本申请实施例所提供的另一种电子设备的语音控制装置的结构示意图;
图6为本申请实施例所提供的又一种电子设备的语音控制装置的结构示意图;以及
图7为本申请实施例所提供的计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的电子设备的语音控制方法、装置、计算机设备和存储介质。
图1为本申请实施例所提供的一种电子设备的语音控制方法的流程示意图。
如图1所示,该电子设备的语音控制方法可以包括以下步骤:
步骤101,接收用户的第一语音指令,并根据第一语音指令进入音乐模式。
具体地,用户可以与电子设备进行语音交互,其中,电子设备可以是机器人、智能音箱和智能学习机等,可以根据实际应用需要进行选择。
在实际应用中,当用户发起了一个语音指令后,电子设备进入音乐模式进行音乐播放,电子设备不再聆听用户的语音指令,当用户再次有发起语音指令时,需要预设唤醒词比如“小度小度”唤醒电子设备,此时音乐暂停,电子设备聆听并识别用户指令,识别完成后响应该用户指令。
因此,可以看出当用户再次有发起语音指令时,需要再次通过预设唤醒词唤醒电子设备,对用户来说有语音成本,且显得电子设备不够“智能”,也就是说,当用户再次有发起语音指令时,喇叭和麦克风只能有一个在工作,此时喇叭会关闭,音乐暂停播放,麦克风开启,电子设备聆听并识别用户指令,由于喇叭关闭,用户听音乐的体验不连续,每当再次有发起语音指令时,都会中断音乐,影响电子设备的正常工作,导致用户使用电子设备的体验较差。
针对上述描述的问题,本申请提出一种电子设备的语音控制方法,通过在进入音乐模式之后的预定时间段内,启动电子设备的全双工聆听状态,直接对不具有唤醒词的第一类型用户指令进行识别,并且在第一类型用户指令为与音乐模式相关的指令时才执行,从而,节约用户语音发起指令成本,保证电子设备正常播放语音,提升用户使用体验。
首先,接收用户的第一语音指令,并根据第一语音指令进入音乐模式,其中,第一语音指令比如“播放周杰伦七里香”,电子设备进行播放“七里香”音乐模式,可以理解的是,在接收用户的第一语音指令时,电子设备处于唤醒状态。
步骤102,在进入音乐模式之后的预定时间段内,启动电子设备的全双工聆听状态,其中,在全双工聆听状态之下,电子设备识别第一类型用户指令,其中,第一类型用户指令不具有唤醒语。
步骤103,在全双工聆听状态之下,获取第一类型用户指令,并识别第一类型用户指令。
具体地,在进入音乐模式之后的预定时间段内,启动电子设备的全双工聆听状态,其中,根据实际应用对预设时间段进行选择设置,考虑到用户操作习惯和电子设备能耗问题,优选20秒至40秒。
其中,为了进一步提高用户使用体验或者让用户能够确定当前是否在全双工聆听状态下,可以在启动电子设备的全双工聆听状态后,在电子设备的屏幕上的相关图案或者文字等方式提示用户,比如将电子设备标志图案显示为彩色。
其中,电子设备的全双工聆听状态是喇叭和麦克风同时工作的一个状态,在用户发起第一语音指令后,电子设备会持续聆听预定时间段比如30秒(此时音乐正常播放,不影响听音乐的体验)。
其中,在全双工聆听状态之下获取第一类型用户指令的方式有很多种,举例说明如下:
第一种示例,获取电子设备的当前播放语音信息,根据当前播放语音信息将用户语音信息从当前语音信息之中分离,对用户语音信息进行识别以获取第一类型用户指令。
第二种示例,根据预设输入的用户声纹特征,直接从当前语音信息之中提取与用户声纹特征对应的用户语音信息,对用户语音信息进行识别以获取第一类型用户指令。
可以理解的是,在全双工聆听状态之下,可以获取不具有唤醒语的第一类型用户指令,直接对第一类型用户指令进行识别,可以理解的是,对第一类型用户指令的方式有很多种,作为一种示例,获取第一类型用户指令后通过语音文本转换方法将其转换为文本,接着对文本形式的第一类型用户指令进行切词处理或者关键词提取等,与预设指令表进行匹配从而获取对应的目标指令完成对第一类型用户指令的识别操作。
步骤104,当第一类型用户指令为与音乐模式相关的指令时,则执行第一类型用户指令。
步骤105,当第一类型用户指令不为与音乐模式相关的指令时,则不执行第一类型用户指令。
步骤106,在预定时间段之后,退出全双工聆听状态。
具体地,第一类型用户指令可以为与音乐模式相关的指令也可以不为与音乐模式相关的指令,比如电子设备进行播放“七里香”音乐模式,识别到第一类型用户指令为“播放下一首”和“增加音量”等,可以认为该第一类型用户指令为与音乐模式相关的指令,可以直接执行第一类型用户指令;再比如电子设备进行播放“七里香”音乐模式,识别到第一类型用户指令为“今天天气怎么样”等,可以认为该第一类型用户指令不为与音乐模式相关的指令,不执行第一类型用户指令。
最后,为了提高电子设备的续航能力以及满足用户的操作需求,在预定时间段之后,退出全双工聆听状态。
本实施例的电子设备的语音控制方法,通过接收用户的第一语音指令,并根据第一语音指令进入音乐模式;在进入音乐模式之后的预定时间段内,启动电子设备的全双工聆听状态,其中,在全双工聆听状态之下,电子设备识别第一类型用户指令,其中,第一类型用户指令不具有唤醒语;在全双工聆听状态之下,获取第一类型用户指令,并识别第一类型用户指令;当第一类型用户指令为与音乐模式相关的指令时,则执行第一类型用户指令;当第一类型用户指令不为与音乐模式相关的指令时,则不执行第一类型用户指令;在预定时间段之后,退出全双工聆听状态。解决了现有技术中用户与电子设备进行语音交互时操作繁琐,影响电子设备的正常工作,导致用户使用电子设备的体验较差的技术问题,通过在进入音乐模式之后的预定时间段内,启动电子设备的全双工聆听状态,直接对不具有唤醒词的第一类型用户指令进行识别,并且在第一类型用户指令为与音乐模式相关的指令时才执行,从而,节约用户语音发起指令成本,保证电子设备正常播放语音,提升用户使用体验。
图2为本申请实施例所提供的又一种电子设备的语音控制方法的流程示意图。
如图2所示,该电子设备的语音控制方法可以包括以下步骤:
步骤201,接收用户的第一语音指令,并根据第一语音指令进入音乐模式。
步骤202,在进入音乐模式之后的预定时间段内,启动电子设备的全双工聆听状态,其中,在全双工聆听状态之下,电子设备识别第一类型用户指令,其中,第一类型用户指令不具有唤醒语。
需要说明的是,步骤201-步骤202与上述实施例的步骤101-步骤102相同,具体描述参见对步骤101-步骤102的描述,此处不再详细描述。
步骤203,在全双工聆听状态之下,获取电子设备的当前播放语音信息,根据当前播放语音信息将用户语音信息从当前语音信息之中分离,对用户语音信息进行识别以获取第一类型用户指令,并识别第一类型用户指令。
可以理解的是,在全双工聆听状态之下,喇叭和麦克风都在工作,也就是说,麦克风接收到的当前语音信息包括喇叭播放的声音和用户语音信息,因此需要根据当前播放语音信息将用户语音信息从当前语音信息之中分离,对用户语音信息进行识别以获取第一类型用户指令,并识别第一类型用户指令,从而提高语音识别的准确性。
步骤204,在电子设备的显示屏之上显示第一类型用户指令。
具体地,为了进一步提升用户体验,可以在电子设备的显示屏之上显示第一类型用户指令,举例说明如下:
第一种示例,当第一类型用户指令为与音乐模式相关的指令时,则以第一字体颜色显示第一类型用户指令,当第一类型用户指令不为与音乐模式相关的指令时,则以第二字体颜色显示第一类型用户指令,其中,第一字体颜色深于第二字体颜色。比如图3所示,音乐模式相关的第一类型用户指令,则字体变蓝,如果不是音乐模式相关的第一类型用户指令,则字体置灰。
第二种示例,当第一类型用户指令为与音乐模式相关的指令时,则以第一字体大小显示第一类型用户指令,当第一类型用户指令不为与音乐模式相关的指令时,则以第二字体大小显示第一类型用户指令,其中,第一字体大小大于于第二字体大小。
需要说明的是,不限于字体的颜色、大小和不同的字体,还可以是显示的方式,比如速度、位置等等。
步骤205,当第一类型用户指令为与音乐模式相关的指令时,则执行第一类型用户指令,当第一类型用户指令不为与音乐模式相关的指令时,则不执行第一类型用户指令。
步骤206,在预定时间段之后,退出全双工聆听状态。
具体地,第一类型用户指令可以为与音乐模式相关的指令也可以不为与音乐模式相关的指令,比如电子设备进行播放“七里香”音乐模式,识别到第一类型用户指令为“播放下一首”和“增加音量”等,可以认为该第一类型用户指令为与音乐模式相关的指令,可以直接执行第一类型用户指令;再比如电子设备进行播放“七里香”音乐模式,识别到第一类型用户指令为“今天天气怎么样”等,可以认为该第一类型用户指令不为与音乐模式相关的指令,不执行第一类型用户指令。
最后,为了提高电子设备的续航能力以及满足用户的操作需求,在预定时间段之后,退出全双工聆听状态。
步骤207,获取第二类型用户指令,并识别第二类型用户指令,其中,第二类型用户指令有唤醒语,执行第二类型用户指令。
具体地,在退出全双工聆听状态后,只有麦克风在工作,因此获取有唤醒语第二类型用户指令,并执行第二类型用户指令。
由此,在用户发起一个语音指令后,彩色电子设备图像方式显示在电子设备屏幕上,可以直接再次发起音乐相关的语音指令,可以直接在听音乐的时候发起,节约用户语音发起指令成本,不需要打断音乐,听音乐的体验是连续、完整的。
本实施例的电子设备的语音控制方法,通过接收用户的第一语音指令,并根据第一语音指令进入音乐模式;在进入音乐模式之后的预定时间段内,启动电子设备的全双工聆听状态,其中,在全双工聆听状态之下,电子设备识别第一类型用户指令,其中,第一类型用户指令不具有唤醒语;在全双工聆听状态之下,获取第一类型用户指令,并识别第一类型用户指令;当第一类型用户指令为与音乐模式相关的指令时,则执行第一类型用户指令;当第一类型用户指令不为与音乐模式相关的指令时,则不执行第一类型用户指令;在预定时间段之后,退出全双工聆听状态。解决了现有技术中用户与电子设备进行语音交互时操作繁琐,影响电子设备的正常工作,导致用户使用电子设备的体验较差的技术问题,通过在进入音乐模式之后的预定时间段内,启动电子设备的全双工聆听状态,直接对不具有唤醒词的第一类型用户指令进行识别,并且在第一类型用户指令为与音乐模式相关的指令时才执行,从而,节约用户语音发起指令成本,保证电子设备正常播放语音,提升用户使用体验。
为了实现上述实施例,本申请还提出一种电子设备的语音控制装置。
图4为本申请实施例所提供的一种电子设备的语音控制装置的结构示意图。
如图4所示,该电子设备的语音控制装置可以包括:接收模块401、启动模块402、获取模块403、识别模块404、处理模块405和退出模块406。其中,
其中,接收模块401,用于接收用户的第一语音指令,并根据第一语音指令进入音乐模式。
启动模块402,用于在进入所述音乐模式之后的预定时间段内,启动电子设备的全双工聆听状态,其中,在全双工聆听状态之下,电子设备识别第一类型用户指令,其中,第一类型用户指令不具有唤醒语。
获取模块403,用于在全双工聆听状态之下,获取第一类型用户指令。
识别模块404,用于识别第一类型用户指令。
处理模块405,用于当第一类型用户指令为与音乐模式相关的指令时,则执行第一类型用户指令。
所述处理模块405,还用于当第一类型用户指令不为与音乐模式相关的指令时,则不执行第一类型用户指令。
退出模块406,用于在预定时间段之后,退出全双工聆听状态。
在本申请实施例一种可能的实现方式中,如图5所示,在图4的基础上还包括:获取识别模块407和执行模块408。
其中,获取识别模块407,用于获取第二类型用户指令,并识别第二类型用户指令,其中,第二类型用户指令有唤醒语。
执行模块408,用于执行第二类型用户指令。
在本申请实施例一种可能的实现方式中,如图6所示,在图4的基础上还包括:显示模块409。
显示模块409,用于在电子设备的显示屏之上显示第一类型用户指令。
在本申请实施例一种可能的实现方式中,显示模块409,具体用于:当第一类型用户指令为与音乐模式相关的指令时,则以第一字体颜色显示第一类型用户指令;当第一类型用户指令不为与音乐模式相关的指令时,则以第二字体颜色显示第一类型用户指令,其中,第一字体颜色深于第二字体颜色。
在本申请实施例一种可能的实现方式中,获取模块403,具体用于:采集当前语音信息,其中,当前语音信息包括用户语音信息和当前播放语音信息;获取电子设备的所述当前播放语音信息;根据当前播放语音信息将用户语音信息从当前语音信息之中分离;对用户语音信息进行识别以获取第一类型用户指令。
在本申请实施例一种可能的实现方式中,预定时间段为20-40秒。
需要说明的是,前述对电子设备的语音控制方法实施例的解释说明也适用于该实施例的电子设备的语音控制装置,其实现原理类似,此处不再赘述。
本申请实施例的电子设备的语音控制装置,通过接收用户的第一语音指令,并根据第一语音指令进入音乐模式;在进入音乐模式之后的预定时间段内,启动电子设备的全双工聆听状态,其中,在全双工聆听状态之下,电子设备识别第一类型用户指令,其中,第一类型用户指令不具有唤醒语;在全双工聆听状态之下,获取第一类型用户指令,并识别第一类型用户指令;当第一类型用户指令为与音乐模式相关的指令时,则执行第一类型用户指令;当第一类型用户指令不为与音乐模式相关的指令时,则不执行第一类型用户指令;在预定时间段之后,退出全双工聆听状态。解决了现有技术中用户与电子设备进行语音交互时操作繁琐,影响电子设备的正常工作,导致用户使用电子设备的体验较差的技术问题,通过在进入音乐模式之后的预定时间段内,启动电子设备的全双工聆听状态,直接对不具有唤醒词的第一类型用户指令进行识别,并且在第一类型用户指令为与音乐模式相关的指令时才执行,从而,节约用户语音发起指令成本,保证电子设备正常播放语音,提升用户使用体验。
通过为了实现上述实施例,本申请还提出一种计算机设备,包括:处理器和存储器。其中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现如前述实施例所述的电子设备的语音控制方法。
图7为本申请实施例所提供的计算机设备的结构示意图,示出了适于用来实现本申请实施方式的示例性计算机设备90的框图。图7显示的计算机设备90仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机设备90以通用计算机设备的形式表现。计算机设备90的组件可以包括但不限于:一个或者多个处理器或者处理单元906,系统存储器910,连接不同系统组件(包括系统存储器910和处理单元906)的总线908。
总线908表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备90典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备90访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器910可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)911和/或高速缓存存储器912。计算机设备90可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统913可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc ReadOnly Memory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线908相连。系统存储器910可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。
具有一组(至少一个)程序模块9140的程序/实用工具914,可以存储在例如系统存储器910中,这样的程序模块9140包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块9140通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备90也可以与一个或多个外部设备10(例如键盘、指向设备、显示器100等)通信,还可与一个或者多个使得用户能与该终端设备90交互的设备通信,和/或与使得该计算机设备90能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口902进行。并且,计算机设备90还可以通过网络适配器900与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图7所示,网络适配器900通过总线908与计算机设备90的其它模块通信。应当明白,尽管图7中未示出,可以结合计算机设备90使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元906通过运行存储在系统存储器910中的程序,从而执行各种功能应用以及基于车载场景的电子设备的语音控制,例如实现前述实施例中提及的电子设备的语音控制方法。
为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如前述实施例所述的电子设备的语音控制方法。
为了实现上述实施例,本申请还提出一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,实现如前述实施例所述的电子设备的语音控制方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种电子设备的语音控制方法,其特征在于,包括:
接收用户的第一语音指令,并根据所述第一语音指令进入音乐模式;
在进入所述音乐模式之后的预定时间段内,启动所述电子设备的全双工聆听状态,并通过在所述电子设备的屏幕上显示图案或者文字的方式提示用户电子设备在全双工聆听状态之下,其中,在所述全双工聆听状态之下,所述电子设备识别第一类型用户指令,其中,所述第一类型用户指令不具有唤醒语,所述电子设备的全双工聆听状态是指喇叭和麦克风同时工作的一个状态;
在所述全双工聆听状态之下,获取所述第一类型用户指令,并识别所述第一类型用户指令;
当所述第一类型用户指令为与所述音乐模式相关的指令时,则执行所述第一类型用户指令;
当所述第一类型用户指令不为与所述音乐模式相关的指令时,则不执行所述第一类型用户指令;
在所述预定时间段之后,退出所述全双工聆听状态;
所述在所述全双工聆听状态之下获取所述第一类型用户指令,包括:
采集当前语音信息,其中,所述当前语音信息包括用户语音信息和当前播放语音信息;
获取所述电子设备的所述当前播放语音信息;
根据所述当前播放语音信息将所述用户语音信息从所述当前语音信息之中分离;
对所述用户语音信息进行识别以获取所述第一类型用户指令;
在所述识别所述第一类型用户指令之后,还包括:
在所述电子设备的显示屏之上显示所述第一类型用户指令;
当所述第一类型用户指令为与所述音乐模式相关的指令时,则以第一字体颜色显示所述第一类型用户指令;
当所述第一类型用户指令为不与所述音乐模式相关的指令时,则以第二字体颜色显示所述第一类型用户指令,其中,所述第一字体颜色深于所述第二字体颜色。
2.如权利要求1所述的电子设备的语音控制方法,其特征在于,在所述退出所述全双工聆听状态之后,还包括:
获取第二类型用户指令,并识别所述第二类型用户指令,其中,所述第二类型用户指令有唤醒语;
执行所述第二类型用户指令。
3.如权利要求1所述的电子设备的语音控制方法,其特征在于,所述预定时间段为20-40秒。
4.一种电子设备的语音控制装置,其特征在于,包括:
接收模块,用于接收用户的第一语音指令,并根据所述第一语音指令进入音乐模式;
启动模块,用于在进入所述音乐模式之后的预定时间段内,启动所述电子设备的全双工聆听状态,并通过在所述电子设备的屏幕上显示图案或者文字的方式提示用户电子设备在全双工聆听状态之下,其中,在所述全双工聆听状态之下,所述电子设备识别第一类型用户指令,其中,所述第一类型用户指令不具有唤醒语,所述电子设备的全双工聆听状态是指喇叭和麦克风同时工作的一个状态;
获取模块,用于在所述全双工聆听状态之下,获取所述第一类型用户指令;
识别模块,用于识别所述第一类型用户指令;
处理模块,用于当所述第一类型用户指令为与所述音乐模式相关的指令时,则执行所述第一类型用户指令;
所述处理模块,还用于当所述第一类型用户指令不为与所述音乐模式相关的指令时,则不执行所述第一类型用户指令;
退出模块,用于在所述预定时间段之后,退出所述全双工聆听状态;
所述获取模块,具体用于:
采集当前语音信息,其中,所述当前语音信息包括用户语音信息和当前播放语音信息;
获取所述电子设备的所述当前播放语音信息;
根据所述当前播放语音信息将所述用户语音信息从所述当前语音信息之中分离;
对所述用户语音信息进行识别以获取所述第一类型用户指令;
显示模块,用于在所述电子设备的显示屏之上显示所述第一类型用户指令;
所述显示模块,具体用于:
当所述第一类型用户指令为与所述音乐模式相关的指令时,则以第一字体颜色显示所述第一类型用户指令;
当所述第一类型用户指令不为与所述音乐模式相关的指令时,则以第二字体颜色显示所述第一类型用户指令,其中,所述第一字体颜色深于所述第二字体颜色。
5.如权利要求4所述的电子设备的语音控制装置,其特征在于,还包括:
获取识别模块,用于获取第二类型用户指令,并识别所述第二类型用户指令,其中,所述第二类型用户指令有唤醒语;
执行模块,用于执行所述第二类型用户指令。
6.如权利要求4所述的电子设备的语音控制装置,其特征在于,所述预定时间段为20-40秒。
7.一种计算机设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-3中任一项所述的电子设备的语音控制方法。
8.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一项所述的电子设备的语音控制方法。
CN201910468915.8A 2019-05-31 2019-05-31 电子设备的语音控制方法、装置、计算机设备和存储介质 Active CN112017650B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201910468915.8A CN112017650B (zh) 2019-05-31 2019-05-31 电子设备的语音控制方法、装置、计算机设备和存储介质
JP2019236057A JP6814871B2 (ja) 2019-05-31 2019-12-26 電子デバイスの音声制御方法、電子デバイスの音声制御装置、コンピュータ機器及び記憶媒体
US16/728,249 US20200380994A1 (en) 2019-05-31 2019-12-27 Voice control methods and apparatuses for electronic device, computer devices, and storage medium
KR1020190176009A KR102331660B1 (ko) 2019-05-31 2019-12-27 전자 기기의 음성 제어 방법, 장치, 컴퓨터 기기 및 저장 매체
EP19220036.8A EP3745253B1 (en) 2019-05-31 2019-12-30 Voice control methods and apparatuses for electronic device, computer devices, and storage media

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910468915.8A CN112017650B (zh) 2019-05-31 2019-05-31 电子设备的语音控制方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112017650A CN112017650A (zh) 2020-12-01
CN112017650B true CN112017650B (zh) 2024-05-24

Family

ID=69055851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910468915.8A Active CN112017650B (zh) 2019-05-31 2019-05-31 电子设备的语音控制方法、装置、计算机设备和存储介质

Country Status (5)

Country Link
US (1) US20200380994A1 (zh)
EP (1) EP3745253B1 (zh)
JP (1) JP6814871B2 (zh)
KR (1) KR102331660B1 (zh)
CN (1) CN112017650B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732340B (zh) * 2019-10-14 2022-03-15 思必驰科技股份有限公司 人机对话处理方法及装置
JP7482640B2 (ja) * 2020-02-05 2024-05-14 キヤノン株式会社 音声入力装置およびその制御方法ならびにプログラム
CN112700775B (zh) * 2020-12-29 2024-07-26 维沃移动通信有限公司 语音接收周期的更新方法、装置和电子设备
CN113066493B (zh) * 2021-03-30 2023-01-06 联想(北京)有限公司 一种设备控制方法、系统及第一电子设备
CN114038468B (zh) * 2022-01-07 2022-04-15 深圳市声扬科技有限公司 语音数据比对处理方法、装置、电子设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6744452B1 (en) * 2000-05-04 2004-06-01 International Business Machines Corporation Indicator to show that a cached web page is being displayed
CN102915732A (zh) * 2012-10-31 2013-02-06 黑龙江省电力有限公司信息通信分公司 抑制背景广播的语音指令识别方法与装置
CN103593348A (zh) * 2012-08-14 2014-02-19 腾讯科技(深圳)有限公司 浏览器标签的显示方法及装置
CN103870155A (zh) * 2014-02-21 2014-06-18 联想(北京)有限公司 信息处理的方法及电子设备
CN105810211A (zh) * 2015-07-13 2016-07-27 维沃移动通信有限公司 一种音频数据的处理方法及终端
CN106855797A (zh) * 2015-12-09 2017-06-16 阿里巴巴集团控股有限公司 一种界面元素颜色的设置方法及装置
CN107122160A (zh) * 2017-04-26 2017-09-01 海信集团有限公司 用于语音输入控制指令的显示方法、装置和终端
WO2018135753A1 (ko) * 2017-01-17 2018-07-26 삼성전자주식회사 전자 장치 및 그의 동작 방법
KR20190021012A (ko) * 2017-08-22 2019-03-05 네이버 주식회사 인공지능 기기에서의 연속 대화 기능

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4285371B2 (ja) * 2003-11-14 2009-06-24 株式会社デンソー 音場制御システム
US20170125016A1 (en) * 2015-11-02 2017-05-04 Le Holdings (Beijing) Co., Ltd. Method and electronic device for processing voice messages
US10097919B2 (en) * 2016-02-22 2018-10-09 Sonos, Inc. Music service selection
KR101889279B1 (ko) * 2017-01-16 2018-08-21 주식회사 케이티 음성 명령에 기반하여 서비스를 제공하는 시스템 및 방법

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6744452B1 (en) * 2000-05-04 2004-06-01 International Business Machines Corporation Indicator to show that a cached web page is being displayed
CN103593348A (zh) * 2012-08-14 2014-02-19 腾讯科技(深圳)有限公司 浏览器标签的显示方法及装置
CN102915732A (zh) * 2012-10-31 2013-02-06 黑龙江省电力有限公司信息通信分公司 抑制背景广播的语音指令识别方法与装置
CN103870155A (zh) * 2014-02-21 2014-06-18 联想(北京)有限公司 信息处理的方法及电子设备
CN105810211A (zh) * 2015-07-13 2016-07-27 维沃移动通信有限公司 一种音频数据的处理方法及终端
CN106855797A (zh) * 2015-12-09 2017-06-16 阿里巴巴集团控股有限公司 一种界面元素颜色的设置方法及装置
WO2018135753A1 (ko) * 2017-01-17 2018-07-26 삼성전자주식회사 전자 장치 및 그의 동작 방법
CN107122160A (zh) * 2017-04-26 2017-09-01 海信集团有限公司 用于语音输入控制指令的显示方法、装置和终端
KR20190021012A (ko) * 2017-08-22 2019-03-05 네이버 주식회사 인공지능 기기에서의 연속 대화 기능
JP2019040602A (ja) * 2017-08-22 2019-03-14 ネイバー コーポレーションNAVER Corporation 人工知能機器における連続会話機能

Also Published As

Publication number Publication date
EP3745253A1 (en) 2020-12-02
KR20200138644A (ko) 2020-12-10
KR102331660B1 (ko) 2021-11-26
EP3745253B1 (en) 2023-10-04
JP6814871B2 (ja) 2021-01-20
US20200380994A1 (en) 2020-12-03
CN112017650A (zh) 2020-12-01
JP2020197695A (ja) 2020-12-10

Similar Documents

Publication Publication Date Title
CN112017650B (zh) 电子设备的语音控制方法、装置、计算机设备和存储介质
US11502859B2 (en) Method and apparatus for waking up via speech
CN108922564B (zh) 情绪识别方法、装置、计算机设备及存储介质
CN107886944B (zh) 一种语音识别方法、装置、设备及存储介质
CN112231021B (zh) 软件新功能的引导方法和装置
CN111653265B (zh) 语音合成方法、装置、存储介质和电子设备
CN108133707A (zh) 一种内容分享方法及系统
CN110544473B (zh) 语音交互方法和装置
CN105551498A (zh) 一种语音识别的方法及装置
CN109166575A (zh) 智能设备的交互方法、装置、智能设备和存储介质
EP3593346B1 (en) Graphical data selection and presentation of digital content
WO2022228377A1 (zh) 录音方法、装置、电子设备和可读存储介质
CN110858479B (zh) 语音识别模型更新方法、装置、存储介质及电子设备
CN112017651B (zh) 电子设备的语音控制方法、装置、计算机设备和存储介质
CN106228047B (zh) 一种应用程序图标处理方法及终端设备
CN113643704A (zh) 车机语音系统的测试方法、上位机、系统和存储介质
CN111768759A (zh) 用于生成信息的方法和装置
CN112712799B (zh) 一种误触发语音信息的获取方法、装置、设备及存储介质
CN117959703A (zh) 交互方法、装置、计算机可读存储介质和计算机程序产品
CN108922523B (zh) 位置提示方法、装置、存储介质及电子设备
CN110516043A (zh) 用于问答系统的答案生成方法和装置
CN114915836A (zh) 用于编辑音频的方法、装置、设备和存储介质
CN111899738A (zh) 对话生成方法、装置及存储介质
CN117059094A (zh) 语音互动方法、装置及电子设备
CN115774506A (zh) 用户界面的图标控制方法及图标控制装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210429

Address after: 100085 Beijing, Haidian District, No. ten on the ground floor, No. 10 Baidu building, layer three

Applicant after: BAIDU ONLINE NETWORK TECHNOLOGY (BEIJING) Co.,Ltd.

Applicant after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Beijing, Haidian District, No. ten on the ground floor, No. 10 Baidu building, layer three

Applicant before: BAIDU ONLINE NETWORK TECHNOLOGY (BEIJING) Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant