CN108492827B - 应用程序的唤醒处理方法、装置及存储介质 - Google Patents

应用程序的唤醒处理方法、装置及存储介质 Download PDF

Info

Publication number
CN108492827B
CN108492827B CN201810282805.8A CN201810282805A CN108492827B CN 108492827 B CN108492827 B CN 108492827B CN 201810282805 A CN201810282805 A CN 201810282805A CN 108492827 B CN108492827 B CN 108492827B
Authority
CN
China
Prior art keywords
wake
word
voice data
voice
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810282805.8A
Other languages
English (en)
Other versions
CN108492827A (zh
Inventor
常先堂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810282805.8A priority Critical patent/CN108492827B/zh
Publication of CN108492827A publication Critical patent/CN108492827A/zh
Priority to US16/236,285 priority patent/US11037560B2/en
Priority to JP2018247645A priority patent/JP6751433B2/ja
Application granted granted Critical
Publication of CN108492827B publication Critical patent/CN108492827B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • G06F9/4418Suspend and resume; Hibernate and awake
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Navigation (AREA)
  • Stored Programmes (AREA)

Abstract

本发明提供一种应用程序的唤醒处理方法、装置及存储介质,通过采集并识别用户输入的第一语音数据,并在每次识别出第一语音数据中包括目标应用程序的唤醒词时对目标应用程序执行唤醒操作,其中,第一语音数据中一次或多次出现目标应用程序的唤醒词。本发明提供的应用程序的唤醒处理方法、装置及存储介质,能够在用户输入的第一语音数据中包括一次或多次出现的唤醒词时,对目标应用程序进行唤醒,从而提高了应用程序唤醒的准确度。

Description

应用程序的唤醒处理方法、装置及存储介质
技术领域
本发明涉及计算机应用技术,尤其涉及一种应用程序的唤醒处理方法、装置及存储介质。
背景技术
现有支持人机语音交互的终端设备,通常需要先进行唤醒操作,即用户先说唤醒词,将该终端设备唤醒,之后用户再说真正的识别内容,从而进行语音识别操作。
现有技术中,终端设备会先进行语音唤醒,在唤醒后,再进入语音识别状态。当语音识别完成后,终端设备又进入了等待语音唤醒状态。然而,现有的技术方案只能实现单次唤醒,然而,在某些场景下,用户需要进行连续唤醒,例如:若唤醒词为“你好”,当用户说“你好,今天,你好,明天天气怎么样”,利用现有技术中的唤醒和识别方案,终端设备会通过第一个“你好”唤醒,然后将“今天,你好,明天天气怎么样”作为待识别的语音内容进行识别。综上,由于现有技术不能针对用户的连续语音数据对应用程序实现连续唤醒,因此导致了基于用户语音唤醒应用程序的唤醒准确度不高。
发明内容
为解决现有技术中存在的问题,本发明提供一种应用程序的唤醒处理方法、装置及存储介质,提高了应用程序唤醒的准确度。
本发明提供一种应用程序唤醒处理方法,包括:
采集用户输入的第一语音数据;
对所述第一语音数据进行识别;
在每次识别出所述第一语音数据中包括目标应用程序的唤醒词时,对所述目标应用程序执行唤醒操作,所述第一语音数据中一次或多次出现目标应用程序的唤醒词。
当所述第一语音数据中一次出现目标应用的唤醒词,所述方法还包括:
在每次识别出所述第一语音数据中包括目标应用程序的部分唤醒词时,对所述目标应用程序执行唤醒操作。
在本发明一实施例中,当所述第一语音数据中多次出现目标应用的唤醒词,所述方法还包括:
当第i次在所述第一语音数据中识别出所述唤醒词时,则控制该目标应用程序停止执行该唤醒词之前的语音数据执行的语音识别操作。
在本发明一实施例中,所述方法还包括:
在对所述第一语音数据中第i次出现的所述唤醒词执行唤醒操作之后,对所述第一语音中该唤醒词之后的语音数据进行语音识别操作,所述i为大于或等于2的正整数。
在本发明一实施例中,所述对所述第一语音中该唤醒词之后的语音数据进行语音识别操作,包括:
将该唤醒词之后的语音数据发送给服务器,以使所述服务器对该唤醒词之后的语音数据进行识别。
在本发明一实施例中,对所述第一语音中该唤醒词之后的语音数据的起始位置为该唤醒词在所述第一语音数据中的结束位置。
在本发明一实施例中,所述方法还包括:
确定所述识别出的唤醒词在所述第一语音数据中的结束位置以及所述识别出的唤醒词的长度信息;
根据所述结束位置和所述长度信息,确定所述识别出的唤醒词在所述第一语音数据中的起始位置;
将所述起始位置确定为所述截取起始位置。
在本发明一实施例中,所述方法还包括:
将所述长度信息和/或所述识别出的唤醒词发送给服务器,所述长度信息和/或所述识别出的唤醒词用于指示所述服务器从所述第一语音数据中确定出待识别的语音数据。
在本发明一实施例中,所述方法还包括:
根据采集所述第一语音数据时的环境信息确定权重值,所述权重值表示所述第一语音数据的可靠度;
将所述权重值发送给所述服务器,所述权重值用于指示所述服务器确定是否需要对所述识别出的唤醒词进行二次识别。
本发明提供一种应用程序的唤醒装置,包括:
采集模块,用于采集用户输入的第一语音数据;
识别模块,用于对所述第一语音数据进行识别;
唤醒模块,用于在每次识别出所述第一语音数据中包括目标应用程序的唤醒词时,对所述目标应用程序执行唤醒操作,所述第一语音数据中一次或多次出现目标应用程序的唤醒词。
在本发明一实施例中,当所述第一语音数据中一次出现目标应用程序的唤醒词,所述唤醒模块还用于,
在每次识别出所述第一语音数据中包括目标应用程序的部分唤醒词时,对所述目标应用程序执行唤醒操作。
在本发明一实施例中,当所述第一语音数据中多次出现目标应用程序的唤醒词,所述唤醒模块还用于,
当第i次在所述第一语音数据中识别出所述唤醒词时,则控制该目标应用程序停止执行该唤醒词之前的语音数据执行的语音识别操作。
在本发明一实施例中,所述识别模块还用于,
在对所述第一语音数据中第i次出现的所述唤醒词执行唤醒操作之后,对所述第一语音中该唤醒词之后的语音数据进行语音识别操作,所述i为大于或等于2的正整数。
在本发明一实施例中,所述识别模块具体用于,
将该唤醒词之后的语音数据发送给服务器,以使所述服务器对该唤醒词之后的语音数据进行识别。
在本发明一实施例中,对所述第一语音中该唤醒词之后的语音数据的起始位置为该唤醒词在所述第一语音数据中的结束位置。
在本发明一实施例中,所述识别模块还用于,
确定所述识别出的唤醒词在所述第一语音数据中的结束位置以及所述识别出的唤醒词的长度信息;
根据所述结束位置和所述长度信息,确定所述识别出的唤醒词在所述第一语音数据中的起始位置;
将所述起始位置确定为所述截取起始位置。
在本发明一实施例中,所述识别模块还用于,
将所述长度信息和/或所述识别出的唤醒词发送给服务器,所述长度信息和/或所述识别出的唤醒词用于指示所述服务器从所述第二语音数据中确定出待识别的语音数据。
在本发明一实施例中,所述识别模块还用于,
根据采集所述第一语音数据时的环境信息确定权重值,所述权重值表示所述第一语音数据的可靠度;
将所述权重值发送给所述服务器,所述权重值用于指示所述服务器确定是否需要对所述识别出的唤醒词进行二次识别。
本发明还提供一种电子设备可读存储介质,包括程序,当所述程序在电子设备上运行时,使得电子设备执行上述各实施例中任一项所述的方法。
本发明提供一种应用程序的唤醒处理方法、装置及存储介质,通过采集并识别用户输入的第一语音数据,并在每次识别出第一语音数据中包括目标应用程序的唤醒词时对目标应用程序执行唤醒操作,其中,第一语音数据中一次或多次出现目标应用程序的唤醒词。本发明提供的应用程序的唤醒处理方法、装置及存储介质,能够在用户输入的第一语音数据中包括一次或多次次出现的唤醒词时,对目标应用程序进行唤醒,从而提高了应用程序唤醒的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明应用程序的唤醒处理方法实施例一的流程示意图;
图2为本发明应用程序的唤醒处理方法实施例二的流程示意图;
图3为本发明应用程序的唤醒处理装置实施例一的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1为本发明应用程序的唤醒处理方法实施例一的流程示意图。如图1所示,本实施例提供的应用程序的唤醒处理方法包括:
S101:采集用户输入的第一语音数据
S102:对第一语音数据进行识别
S103:在每次识别出第一语音数据中包括目标应用程序的唤醒词时,对目标应用程序执行唤醒操作,第一语音数据一次或多次出现目标应用程序的唤醒词。
本实施例的执行主体可以是具备语音采集和处理功能的电子设备。例如:电子设备可以是膝上型计算机,包含嵌入式计算机的计算机监视器,平板计算机,蜂窝电话,媒体播放器或者其他手持式或便携式电子设备,注入腕表设备、垂饰设备、耳机或耳塞设备或者其他可穿戴或微型设备的具有显示功能的较小设备,电视机,不包含嵌入式计算机的计算机显示器,游戏设备,导航设备,嵌入式系统(诸如其中具有显示器的电子设备被安装在信息亭或汽车中的系统),实现这些设备中的两个或更多个的功能设备,或者台式计算机(Computer)、笔记本电脑(Notebook)、平板电脑(Pad)、智能手机(Smart Phone)、智能手表(Smart Watch)、智能眼镜、工作站、数据库或服务器等。
具体地,电子设备可以通过麦克风、耳机等语音设备采集用户表达出的语音作为第一语音数据,并对第一语音数据进行识别处理。同时,电子设备中的每个目标应用程序均设置有专门的唤醒词,用于当用户的第一语音数据中出现该唤醒词,则唤醒该唤醒词对应的目标应用程序。例如:照片管理应用程序对应的唤醒词是“相册”,天气预报应用程序对应的唤醒词是“天气”。而需要说明的是,此处的应用程序也可以为电子设备本身,例如专门的空气净化器只有空气净化的功能,则该空气净化器内的空气净化应用程序对应的唤醒词是“净化”,因此当空气净化器采集用户的第一语音数据为“净化,开始”则空气净化应用程序被唤醒。也即为空气净化器本身被唤醒并通过其内的应用程序响应该唤醒。
而由于用户在通过语言输出其想表达的问题时,可能会由于口误或重复表达等原因,导致一句话内多次出现一个应用程序对应的唤醒词。例如:一个天气预报应用程序对应的唤醒词为“你好”,一用户想咨询天气的时,电子设备采集到用户表达出的第一语音数据为“你好,今天,你好,明天天气怎么样”。明显地,由于用户的口误,本意咨询明天天气的语句中存在错误的表达“今天”。而现有技术中对于语音数据进行识别并唤醒应用程序的方案并不能准确识别其中用户在第一语音数据中想表达的真正含义。
因此,本实施例的S103中,在第一语音数据中,每次识别出的第一语音数据中出现唤醒词时,都对唤醒词对应的目标应用程序进行唤醒,可以使目标应用程序对每个唤醒词之后的语音数据进行语音识别操作。例如上述示例中,第一语音数据中两次出现了唤醒词“你好”,则电子设备在第一个“你好”出现后对目标应用程序天气预报进行唤醒,并使得天气预报对“你好”进行语音识别操作;在第二个“你好”出现后对目标应用程序天气预报进行唤醒,并使得天气预报对“明天天气怎么样”。由此,将用户重复表达的不明确的第一语音数据中每个唤醒词后都对目标程序进行唤醒。与现有技术中由整个第一语音数据对目标应用程序进行唤醒、并对整个第一语音数据“今天,你好,明天天气怎么样”进行识别相比,现有的语句明显在结构上是一个病句,并不利于目标应用程序的识别。本实施例提供的应用程序的唤醒处理方法,将用户一次表达的第一语音数据中每个唤醒词后都对目标应用程序进行唤醒,从而提高了应用程序唤醒的准确度,也进一步地降低了应用程序对唤醒词之后的语音数据进行语音识别操作时语音识别的难度。
可选地,在上述实施例中,当第一语音数据中一次出现目标应用的唤醒词,则在每次识别出第一语音数据中包括目标应用程序的部分唤醒词时,对目标应用程序执行唤醒操作。例如:一个图片处理应用程序对应的唤醒词为“图片处理”,一用户想对相册中的图片通过图片处理应用程序进行处理时,电子设备采集到用户表达出的第一语音数据为“图片处理,美化图片”。则当电子设备可以在识别出唤醒词“图片处理”的前半部分“图片”后,立即对该图片处理应用程序进行唤醒。并在随后使得图片处理应用程序对将“美化图片”语音识别操作。如此,当唤醒词设置的较长或者电子设备处理较慢的电子设备中,可以通过提前唤醒的方式,在识别出部分唤醒词后,就对目标应用程序进行唤醒。从而提高了应用程序唤醒的效率,提高了用户体验。需要说明的是,本示例中对于部分唤醒词的选取仅为示例,在实际应用中,可以根据唤醒词的长度N、内容或者用户的语速等参数,设置唤醒词中N个词汇的前M个词作为部分唤醒词,并根据设置后的部分唤醒词对应用程序进行唤醒操作。
进一步可选地,在上述实施例中,当第一语音数据中多次出现目标应用的唤醒词,则在当第i次在第一语音数据中识别出唤醒词时,则控制该目标应用程序停止执行该唤醒词之前的语音数据执行的语音识别操作。并且可选地,在对第一语音数据中第i次出现的唤醒词执行唤醒操作之后,对第一语音中该唤醒词之后的语音数据进行语音识别操作,i为大于或等于2的正整数。
例如:在上述示例中,对于电子设备采集的用户所表达出的第一语音数据“你好,今天,你好,明天天气怎么样”,共出现了两次唤醒词“你好”。而明显地,第一次“你好”后的语音数据为错误的、无意义的数据,而目标应用程序还需要对错误数据“今天”进行语音识别。则本实施例考虑在识别出第一语音数据中出现第二次“你好”之后,控制目标应用程序停止执行对“今天”的语音识别操作,并执行第二次“你好”之后,“明天天气怎么样”的语音识别操作。因此,本实施例能够在第一次唤醒后,如果这次语音识别尚未正式结束,用户又开启一次新的语音唤醒情况下,取消之前的语音识别操作而不是保持等待状态。也就能够及时响应用户的语音唤醒和语音识别请求,解决了用户再次语音交互有等待时间的问题。从而能够避免多次唤醒词出现时无意的语音数据被目标应用执行,减少了目标应用程序执行无效识别的次数,也从一定程度上进一步地提高了应用程序唤醒的准确度。
可选地,在上述实施例中,对第一语音中该唤醒词之后的语音数据进行语音识别操作,包括:将该唤醒词之后的语音数据发送给服务器,以使服务器对该唤醒词之后的语音数据进行识别。
较佳地,在上述各实施例中,对第一语音中该唤醒词之后的语音数据的起始位置为该唤醒词在第一语音数据中的结束位置。
具体地,上述方法包括:确定识别出的唤醒词在第一语音数据中的结束位置以及识别出的唤醒词的长度信息;根据结束位置和长度信息,确定识别出的唤醒词在第一语音数据中的起始位置;将起始位置确定为截取起始位置。
具体地,上述方法包括:将长度信息和/或识别出的唤醒词发送给服务器,长度信息和/或识别出的唤醒词用于指示服务器从第一语音数据中确定出待识别的语音数据。
例如:图2为本发明应用程序的唤醒处理方法实施例二的流程示意图。由于现有技术中,电子设备针对用户的语音数据中唤醒词的语音唤醒具有一定的延后性。例如:电子设备采集到用户所表达的第一语音数据为“你好北京今天天气怎么样”,而由于语音唤醒的延迟,可能导致唤醒词后的语音数据中“北京”被遗漏、仅识别出唤醒词后的“今天天气怎么样”的语音数据,降低了应用程序唤醒的准确度以及应用程序语音数据识别的准确度。因此,在本申请如图2所示的实施例中,在电子设备的语音录音模块采集用户的语音数据后,将语音数据通过写入数据流送入循环缓存队列。循环缓存队列可以设计被用于保存例如15秒的语音数据,当15秒的循环缓存区被填满后,第16秒数据会对第1秒的数据进行覆盖,依次循环。其中,根据经验所得的人类表达出的语音数据的速度通常是16k/s,因此循环缓存队列的数据大小为15*16k=240k,并可以利用电子设备的内存空间实现。图2中所示的语音读取模块用于从循环缓存队列中不断读取录音数据,每次读取的录音数据可以看作上述实施例中的第一语音数据。则语音读取模块从循环缓存队列中获取第一语音数据后,将第一语音数据送入图2中所示的唤醒模块,由唤醒模块对第一语音数据进行识别和唤醒。当语音唤醒成功后,语音读取模块从唤醒词的尾点开始(“你好”语音数据结束后的比特为唤醒词的尾点),将后续的语音数据都推送给图2中的识别模块进行语音数据识别,即执行实施例一中的使目标应用程序对每个唤醒词之后的语音数据进行语音识别操作。其中,图2中示出的识别模块可以设置在服务器上,电子设备上的语音读取模块将唤醒词后的数据都发送至服务器,由服务器对该唤醒词之后的语音数据进行识别。
特别地,本实施例中的语音读取模块能够不间断地从循环缓存队列中读取语音数据,每次读取的语音数据作为上述实施例中的第一语音数据。并且语音读取模块读取语音数据的频率应该设置为大于循环缓存队列完全更新一次的频率,使得被采集并存入循环缓存队列的语音数据都能被识别而不会遗漏。例如上述示例中的“你好北京今天天气怎么样”将被全部送入到循环缓存队列后,再进行语音数据的获取、识别及后续的应用程序唤醒,从而保证了所有语音数据都能够被识别而不会遗漏,进而解决了语音连续唤醒的问题,并提高了应用程序唤醒的准确度以及应用程序语音识别的准确度。
更为具体地,为了更为准确地从循环缓存队列中读取第一语音数据中唤醒词之后的语音数据,需要获取唤醒词的起点位置。在本实施例中,当语音读取模块读取第一语音数据中存在唤醒词,并获取唤醒词的起始点位置信息后,将起始点之后的语音数据都推送至图2中的语音识别模块。而在实际应用中,如果无法获取唤醒词的起点位置,则可以在获取唤醒词词尾(“你好”语音数据结束后的比特为唤醒词的词尾的位置)的位置信息后,从词尾位置向前的N秒的数据认为是唤醒词的起点位置。其中,N秒为经验值,根据观察得到的例如用户语音说出唤醒词“你好”最多需要1秒。则本实施例中的语音读取模块将唤醒词的语音数据和唤醒词后的待识别语音数据都发送至识别模块进行识别,并在发送时会携带唤醒词语音数据的长度和识别结果。从而使得识别模块根据该长度将接收到的第一语音数据分为两部分,前一部分数据是唤醒词的语音数据,后一部分数据是待识别语音的语音数据。
可选地,在上述实施例中的方法,还包括:根据采集第一语音数据时的环境信息确定权重值,权重值表示第一语音数据的可靠度;将权重值发送给服务器,权重值用于指示服务器确定是否需要对识别出的唤醒词进行二次识别。具体地,由于识别模块通常可以被设置在云端,当识别模块接收到第一语音数据中唤醒词后的语音数据时,还可以对其中的唤醒词做二次识别。如果识别出的结果跟设置在电子设备上的唤醒模块的对于唤醒词的判断结果相同,则认为是正确的唤醒;如果结果不同,则认为是错误的唤醒。或者,在电子设别上的唤醒模块对第一语音数据中的唤醒词进行识别时,携带一个权重值,若权重值大于预设阈值,就以本地的唤醒模块的识别结果为准,云端不需要对唤醒数据进行再次识别判断;反之,如果权重值小于预设阈值,则需要识别模块做二次确认。例如:唤醒模块处于安静的环境下采集的用户的第一语音数据做识别后,则认为该数据是可靠的,携带较大的权重值比如90%,云端判断权重值大于50%,则不需要再次确认判断。而当唤醒模块处于吵杂的环境下对的用户的第一语音数据做识别,则认为该数据可能不可靠,携带一较小的权重值比如20%,并使得云端判断权重值小于50%,需要再次对唤醒词进行确认判断。从而进一步提高了应用程序唤醒的准确度以及应用程序语音识别的准确度。
图3为本发明应用程序的唤醒处理装置实施例一的结构示意图。如图3所示,本实施例中的应用程序的唤醒处理装置包括:采集模块301,识别模块302和唤醒模块303。
其中,采集模块301,用于采集用户输入的第一语音数据;识别模块302,用于对第一语音数据进行识别;唤醒模块303用于在每次识别出第一语音数据中包括目标应用程序的唤醒词时,对目标应用程序执行唤醒操作,第一语音数据中一次或多次出现目标应用程序的唤醒词。
本实施例提供的应用程序的唤醒处理装置用于执行图1所示的实施例中的应用程序的唤醒方法,具有相同的技术特征和技术效果,不再赘述。
可选地,在上述实施例中,当第一语音数据中一次出现目标应用的唤醒词,唤醒模块303还用于在识别出第一语音数据中包括目标应用程序的部分唤醒词时,对目标应用程序执行唤醒操作。
可选地,在上述实施例中,当第一语音数据中多次出现目标应用的唤醒词,唤醒模块303还用于,当第i次在第一语音数据中识别出唤醒词时,则控制该目标应用程序停止执行该唤醒词之前的语音数据执行的语音识别操作。
可选地,在上述实施例中,识别模块302还用于,在对第一语音数据中第i次出现的唤醒词执行唤醒操作之后,对第一语音中该唤醒词之后的语音数据进行语音识别操作,i为大于或等于2的正整数。
可选地,在上述实施例中,识别模块302具体用于,将该唤醒词之后的语音数据发送给服务器,以使服务器对该唤醒词之后的语音数据进行识别。
可选地,在上述实施例中,对第一语音中该唤醒词之后的语音数据的起始位置为该唤醒词在第一语音数据中的结束位置。
可选地,在上述实施例中,识别模块302还用于,确定识别出的唤醒词在第一语音数据中的结束位置以及识别出的唤醒词的长度信息;
根据结束位置和长度信息,确定识别出的唤醒词在第一语音数据中的起始位置;将起始位置确定为截取起始位置。
可选地,在上述实施例中,识别模块302还用于,将长度信息和/或识别出的唤醒词发送给服务器,长度信息和/或识别出的唤醒词用于指示服务器从第一语音数据中确定出待识别的语音数据。
可选地,在上述实施例中,识别模块302还用于,根据采集第一语音数据时的环境信息确定权重值,权重值表示第一语音数据的可靠度;
将权重值发送给服务器,权重值用于指示服务器确定是否需要对识别出的唤醒词进行二次识别。
上述实施例提供的应用程序的唤醒处理装置用于执行前述实施例所示的实施例中的应用程序的唤醒方法,具有相同的技术特征和技术效果,不再赘述。
本发明还提出一种电子设备可读存储介质,包括程序,当其在电子设备上运行时,使得电子设备执行上述任一实施例所述的应用程序的唤醒处理方法。
本发明一实施例还提供一种电子设备,包括:
处理器;以及,
存储器,用于存储处理器的可执行指令;
其中,处理器配置为经由执行可执行指令来执行上述任一项实施例中的应用程序的唤醒处理方法。
本发明一实施例还提供一种应用程序的唤醒处理设备,包括:
存储器、处理器及计算机程序,所述计算机程序存储在所述存储器中,所述处理器运行所述计算机程序执行上述各实施例中所述的应用程序的唤醒处理方法。
本发明一实施例还提供一种存储介质,包括:
可读存储介质和计算机程序,所述计算机程序存储在可读存储介质上,所述计算机程序用于实现上述各实施例中所述的应用程序的唤醒处理方法。
本发明一实施例还提供一种程序产品,该程序产品包括:
计算机程序(即执行指令),该计算机程序存储在可读存储介质中。编码设备的至少一个处理器可以从可读存储介质读取该计算机程序,至少一个处理器执行该计算机程序使得编码设备实施前述的各种实施方式提供的应用程序的唤醒处理方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (15)

1.一种应用程序的唤醒处理方法,其特征在于,包括:
采集用户输入的第一语音数据;
对所述第一语音数据进行识别;
在每次识别出所述第一语音数据中包括目标应用程序的唤醒词时,对所述目标应用程序执行唤醒操作;
当所述第一语音数据中多次出现目标应用的唤醒词,所述方法还包括:
当第i次在所述第一语音数据中识别出所述唤醒词时,则控制该目标应用程序停止执行该唤醒词之前的语音数据执行的语音识别操作,i为大于或等于2的正整数。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在对所述第一语音数据中第i次出现的所述唤醒词执行唤醒操作之后,对所述第一语音中该唤醒词之后的语音数据进行语音识别操作,所述i为大于或等于2的正整数。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一语音中该唤醒词之后的语音数据进行语音识别操作,包括:
将该唤醒词之后的语音数据发送给服务器,以使所述服务器对该唤醒词之后的语音数据进行识别。
4.根据权利要求3所述的方法,其特征在于,对所述第一语音中该唤醒词之后的语音数据的起始位置为该唤醒词在所述第一语音数据中的结束位置。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
确定所述识别出的唤醒词在所述第一语音数据中的结束位置以及所述识别出的唤醒词的长度信息;
根据所述结束位置和所述长度信息,确定所述识别出的唤醒词在所述第一语音数据中的起始位置;
将所述起始位置确定为截取起始位置。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
将所述长度信息和/或所述识别出的唤醒词发送给服务器,所述长度信息和/或所述识别出的唤醒词用于指示所述服务器从所述第一语音数据中确定出待识别的语音数据。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
根据采集所述第一语音数据时的环境信息确定权重值,所述权重值表示所述第一语音数据的可靠度;
将所述权重值发送给所述服务器,所述权重值用于指示所述服务器确定是否需要对所述识别出的唤醒词进行二次识别。
8.一种应用程序的唤醒装置,其特征在于,包括:
采集模块,用于采集用户输入的第一语音数据;
识别模块,用于对所述第一语音数据进行识别;
唤醒模块,用于在每次识别出所述第一语音数据中包括目标应用程序的唤醒词时,对所述目标应用程序执行唤醒操作;
当所述第一语音数据中多次出现目标应用程序的唤醒词,所述唤醒模块还用于,
当第i次在所述第一语音数据中识别出所述唤醒词时,则控制该目标应用程序停止执行该唤醒词之前的语音数据执行的语音识别操作,i为大于或等于2的正整数。
9.根据权利要求8所述的装置,其特征在于,所述识别模块还用于,
在对所述第一语音数据中第i次出现的所述唤醒词执行唤醒操作之后,对所述第一语音中该唤醒词之后的语音数据进行语音识别操作,所述i为大于或等于2的正整数。
10.根据权利要求9所述的装置,其特征在于,所述识别模块具体用于,
将该唤醒词之后的语音数据发送给服务器,以使所述服务器对该唤醒词之后的语音数据进行识别。
11.根据权利要求10所述的装置,其特征在于,对所述第一语音中该唤醒词之后的语音数据的起始位置为该唤醒词在所述第一语音数据中的结束位置。
12.根据权利要求11所述的装置,其特征在于,所述识别模块还用于,
确定所述识别出的唤醒词在所述第一语音数据中的结束位置以及所述识别出的唤醒词的长度信息;
根据所述结束位置和所述长度信息,确定所述识别出的唤醒词在所述第一语音数据中的起始位置;
将所述起始位置确定为截取起始位置。
13.根据权利要求12所述的装置,其特征在于,所述识别模块还用于,
将所述长度信息和/或所述识别出的唤醒词发送给服务器,所述长度信息和/或所述识别出的唤醒词用于指示所述服务器从所述第一语音数据中确定出待识别的语音数据。
14.根据权利要求13所述的装置,其特征在于,所述识别模块还用于,
根据采集所述第一语音数据时的环境信息确定权重值,所述权重值表示所述第一语音数据的可靠度;
将所述权重值发送给所述服务器,所述权重值用于指示所述服务器确定是否需要对所述识别出的唤醒词进行二次识别。
15.一种电子设备可读存储介质,其特征在于,包括程序,当所述程序在电子设备上运行时,使得电子设备执行权利要求1~7任一项所述的方法。
CN201810282805.8A 2018-04-02 2018-04-02 应用程序的唤醒处理方法、装置及存储介质 Active CN108492827B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201810282805.8A CN108492827B (zh) 2018-04-02 2018-04-02 应用程序的唤醒处理方法、装置及存储介质
US16/236,285 US11037560B2 (en) 2018-04-02 2018-12-28 Method, apparatus and storage medium for wake up processing of application
JP2018247645A JP6751433B2 (ja) 2018-04-02 2018-12-28 アプリケーションプログラムをウェイクアップする処理方法、装置及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810282805.8A CN108492827B (zh) 2018-04-02 2018-04-02 应用程序的唤醒处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN108492827A CN108492827A (zh) 2018-09-04
CN108492827B true CN108492827B (zh) 2019-07-30

Family

ID=63318168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810282805.8A Active CN108492827B (zh) 2018-04-02 2018-04-02 应用程序的唤醒处理方法、装置及存储介质

Country Status (3)

Country Link
US (1) US11037560B2 (zh)
JP (1) JP6751433B2 (zh)
CN (1) CN108492827B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11062703B2 (en) * 2018-08-21 2021-07-13 Intel Corporation Automatic speech recognition with filler model processing
CN109360552B (zh) * 2018-11-19 2021-12-24 广东小天才科技有限公司 一种自动过滤唤醒词的方法及系统
CN109448720A (zh) * 2018-12-18 2019-03-08 维拓智能科技(深圳)有限公司 便民服务自助终端及其语音唤醒方法
CN109493863A (zh) * 2018-12-26 2019-03-19 广州灵聚信息科技有限公司 一种智能唤醒方法和装置
CN111862943B (zh) * 2019-04-30 2023-07-25 北京地平线机器人技术研发有限公司 语音识别方法和装置、电子设备和存储介质
CN110223687B (zh) * 2019-06-03 2021-09-28 Oppo广东移动通信有限公司 指令执行方法、装置、存储介质及电子设备
CN110211589B (zh) * 2019-06-05 2022-03-15 广州小鹏汽车科技有限公司 车载系统的唤醒方法、装置以及车辆、机器可读介质
KR102246936B1 (ko) * 2019-06-20 2021-04-29 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
CN110310636A (zh) * 2019-06-24 2019-10-08 歌尔股份有限公司 交互控制方法、装置、设备及音频设备
CN110989963B (zh) * 2019-11-22 2023-08-01 北京梧桐车联科技有限责任公司 唤醒词推荐方法及装置、存储介质
CN113031749A (zh) * 2019-12-09 2021-06-25 Oppo广东移动通信有限公司 电子设备
CN111367488B (zh) * 2020-01-07 2023-08-22 百度在线网络技术(北京)有限公司 语音设备及语音设备的交互方法、设备、存储介质
CN113096651A (zh) * 2020-01-07 2021-07-09 北京地平线机器人技术研发有限公司 语音信号处理方法、装置、可读存储介质及电子设备
CN112382285B (zh) * 2020-11-03 2023-08-15 北京百度网讯科技有限公司 语音控制方法、装置、电子设备和存储介质
GB2612073A (en) * 2021-10-21 2023-04-26 Jaguar Land Rover Ltd Apparatus and method for providing a wake-up signal
CN114915514B (zh) * 2022-03-28 2024-03-22 青岛海尔科技有限公司 意图的处理方法和装置、存储介质及电子装置
CN115312049A (zh) * 2022-06-30 2022-11-08 青岛海尔科技有限公司 指令的响应方法、存储介质及电子装置
CN118053423A (zh) * 2022-11-16 2024-05-17 荣耀终端有限公司 唤醒应用程序的方法及电子设备

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6629077B1 (en) * 2000-11-22 2003-09-30 Universal Electronics Inc. Universal remote control adapted to receive voice input
US20060085199A1 (en) * 2004-10-19 2006-04-20 Yogendra Jain System and method for controlling the behavior of a device capable of speech recognition
DE102009051508B4 (de) * 2009-10-30 2020-12-03 Continental Automotive Gmbh Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung
US20120052907A1 (en) * 2010-08-30 2012-03-01 Sensory, Incorporated Hands-Free, Eyes-Free Mobile Device for In-Car Use
US9117449B2 (en) * 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
US9219559B2 (en) * 2012-05-16 2015-12-22 The Nielsen Company (Us), Llc Methods and systems for audience measurement
US10770075B2 (en) * 2014-04-21 2020-09-08 Qualcomm Incorporated Method and apparatus for activating application by speech input
US9368105B1 (en) * 2014-06-26 2016-06-14 Amazon Technologies, Inc. Preventing false wake word detections with a voice-controlled device
JP6520100B2 (ja) * 2014-12-15 2019-05-29 オンキヨー株式会社 電子機器制御システム、端末装置、及び、サーバー
TWI525532B (zh) * 2015-03-30 2016-03-11 Yu-Wei Chen Set the name of the person to wake up the name for voice manipulation
BR112017021673B1 (pt) * 2015-04-10 2023-02-14 Honor Device Co., Ltd Método de controle de voz, meio não-transitório legível por computador e terminal
US9792907B2 (en) * 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
CN105741838B (zh) * 2016-01-20 2019-10-15 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
US10043521B2 (en) * 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
CN106875945B (zh) * 2017-03-09 2020-06-26 广东美的制冷设备有限公司 语音控制方法、装置和空调器
CN110444199B (zh) * 2017-05-27 2022-01-07 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
CN107134279B (zh) * 2017-06-30 2020-06-19 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质
CN107610695B (zh) * 2017-08-08 2021-07-06 大众问问(北京)信息科技有限公司 驾驶人语音唤醒指令词权重的动态调整方法
KR102374910B1 (ko) * 2017-08-22 2022-03-16 삼성전자주식회사 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
CN107919119A (zh) * 2017-11-16 2018-04-17 百度在线网络技术(北京)有限公司 多设备交互协同的方法、装置、设备及计算机可读介质
WO2019193590A1 (en) * 2018-04-02 2019-10-10 High Sec Labs Ltd. Secured audio switch
EP3564949A1 (en) * 2018-04-23 2019-11-06 Spotify AB Activation trigger processing

Also Published As

Publication number Publication date
CN108492827A (zh) 2018-09-04
US20190304449A1 (en) 2019-10-03
US11037560B2 (en) 2021-06-15
JP6751433B2 (ja) 2020-09-02
JP2019185011A (ja) 2019-10-24

Similar Documents

Publication Publication Date Title
CN108492827B (zh) 应用程序的唤醒处理方法、装置及存储介质
CN110199350B (zh) 用于感测语音结束的方法和实现该方法的电子设备
US10424290B2 (en) Cross device companion application for phone
US11146670B2 (en) Electronic device and method of executing function of electronic device
US10783364B2 (en) Method, apparatus and device for waking up voice interaction function based on gesture, and computer readable medium
US20220012432A1 (en) Dialog interaction method, graphical user interface, terminal device, and network device
CN107077464B (zh) 电子设备和用于其口头交互的方法
CN107256707B (zh) 一种语音识别方法、系统及终端设备
KR20180073493A (ko) 자연어 가상 비서에서의 양방향 발화 처리 기법
CN110211589B (zh) 车载系统的唤醒方法、装置以及车辆、机器可读介质
KR102343084B1 (ko) 전자 장치 및 전자 장치의 기능 실행 방법
CN109215646B (zh) 语音交互处理方法、装置、计算机设备及存储介质
JP7158217B2 (ja) 音声認識方法、装置及びサーバ
CN110706707B (zh) 用于语音交互的方法、装置、设备和计算机可读存储介质
CN109887505A (zh) 用于唤醒设备的方法和装置
KR20180081922A (ko) 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치
CN117253478A (zh) 一种语音交互方法和相关装置
CN111739515B (zh) 语音识别方法、设备、电子设备和服务器、相关系统
CN112242143B (zh) 一种语音交互方法、装置、终端设备及存储介质
CN107819937A (zh) 一种备忘信息提醒方法及装置、终端和可读存储介质
CN112328308A (zh) 用于识别文本的方法和装置
EP4270156A1 (en) Gesture data acquisition method and apparatus, terminal, and storage medium
CN115631251A (zh) 基于文本生成图像的方法、装置、电子设备和介质
KR101993368B1 (ko) 멀티 모달 입력을 처리하는 전자 장치, 멀티 모달 입력을 처리하는 방법 및 멀티 모달 입력을 처리하는 서버
CN113593553B (zh) 语音识别方法、装置、语音管理服务器以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210513

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Patentee after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Patentee after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Patentee before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.