CN108847216A - 语音处理方法及电子设备、存储介质 - Google Patents

语音处理方法及电子设备、存储介质 Download PDF

Info

Publication number
CN108847216A
CN108847216A CN201810671403.7A CN201810671403A CN108847216A CN 108847216 A CN108847216 A CN 108847216A CN 201810671403 A CN201810671403 A CN 201810671403A CN 108847216 A CN108847216 A CN 108847216A
Authority
CN
China
Prior art keywords
phonetic order
electronic equipment
wake
input object
states
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810671403.7A
Other languages
English (en)
Other versions
CN108847216B (zh
Inventor
阮海鹏
汪俊杰
孙艳庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201810671403.7A priority Critical patent/CN108847216B/zh
Publication of CN108847216A publication Critical patent/CN108847216A/zh
Application granted granted Critical
Publication of CN108847216B publication Critical patent/CN108847216B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例公开一种语音处理方法,包括:当电子设备处于唤醒状态时,采集第N个语音指令,N为大于1的正整数;对第N个语音指令进行分析,得到针对第N个语音指令的分析结果,所述分析结果至少包括第N个语音指令的输入对象的音频特性;依据所述分析结果,确定是否响应所述第N个语音指令。还公开一种电子设备和计算机存储介质。

Description

语音处理方法及电子设备、存储介质
技术领域
本发明涉及语音处理技术,具体涉及一种语音处理方法及电子设备、存储介质。
背景技术
在目前的移动终端、穿戴式设备、语音交互设备等电子设备中,有至少部分电子设备能够支持语音交互功能,语音交互功能是指电子设备接收用户语音指令的输入,对语音指令进行解析并查询期望数据,并将期望数据展示至用户。目前的语音交互功能无法在一次被唤醒后实现针对同一用户的长时间响应,主要是因为,在某个用户进行语音指令输入的过程中可能存在其它语音干扰如其它用户的语音干扰,目前的电子设备不区分语音指令和语音干扰指令,只要接收到语音指令即执行解析与查询功能,而输入语音指令的用户具有希望电子设备在一定的时间段内只服务于他一个人的诉求,用户体验不足。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种语音处理方法、电子设备和计算机存储介质。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种语音处理方法,应用于电子设备中,所述方法包括:
当电子设备处于唤醒状态时,
采集第N个语音指令,N为大于1的正整数;
对第N个语音指令进行分析,得到针对第N个语音指令的分析结果,所述分析结果至少包括第N个语音指令的输入对象的音频特性;
依据所述分析结果,确定是否响应所述第N个语音指令。
本发明实施例提供一种电子设备,包括采集器和处理器;其中,
采集器,用于当电子设备处于唤醒状态时,采集第N个语音指令,N为大于1的正整数;
处理器,用于对第N个语音指令进行分析,得到针对第N个语音指令的分析结果,所述分析结果至少包括第N个语音指令的输入对象的音频特性;依据所述分析结果,确定是否响应所述第N个语音指令。
本发明实施例提供一种计算机存储介质,所述存储介质存储有计算机可执行指令,在执行所述可执行指令时至少用于执行前述的语音处理方法。
本发明实施例提供的语音处理方法、电子设备和计算机存储介质,当电子设备处于唤醒状态时,采集第N个语音指令,并基于对第N个语音指令进行分析得到的分析结果,确定是否响应所述第N个语音指令。至少能够区分有效的语音指令和语音干扰指令,避免不必要的响应,提升用户体验,突显电子设备的功能多样性。
附图说明
图1为本发明提供的语音处理方法的第一实施例的实现流程示意图;
图2为本发明提供的语音处理方法的第二实施例的实现流程示意图;
图3为本发明提供的语音处理方法的第三实施例的实现流程示意图;
图4为本发明实施例提供的一应用场景示意图;
图5为本申请提供的电子设备的硬件组成示意图一;
图6为本申请提供的电子设备的硬件组成示意图二。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细的说明。
相关技术中,还存在这样的问题:语音交互功能需要在电子设备被唤醒的状态下进行,其中利用预定的唤醒词(通过语音形式输入)可将智能设备从非唤醒状态如休眠状态切换至唤醒状态,在唤醒状态接收用户语音指令的输入。目前的电子设备通常在针对一个语音指令或连续的多个语音指令的解析与查询之后即进入非唤醒状态。即使是同一用户,如果想要有语音指令的输入需求,需要再次将电子设备从非唤醒状态中唤醒出来,体验度较差。
本申请提供的以下各实施例至少能够解决由于电子设备不区分语音指令和语音干扰指令而导致的用户体验不足、以及由于电子设备处于的唤醒时长较短需要被频繁唤醒而导致的用户体验较差的问题。
本领域技术人员应该而知,本申请以下各实施例中涉及到的电子设备包括但不仅限于:语音交互设备、工业控制计算机、个人计算机等各种类型计算机、一体式电脑、笔记本电脑、平板电脑、手机、电子阅读器等,还可以为智能眼镜、智能手表、智能鞋等穿戴式设备。本申请实施例中优选的电子设备为手机、平板电脑或语音交互设备。
本申请提供语音处理方法的第一实施例,应用于电子设备中,所述电子设备能够基于唤醒指令而被唤醒。例如,当电子设备接收到预定语音而被唤醒;当电子设备检测到用户对唤醒键的预定操作而被唤醒,该唤醒键可以是电子设备的已有按键、也可以是为唤醒电子设备而特意设置的按键。电子设备被唤醒之后,能够工作于唤醒状态;除此之外,还可以工作于非唤醒状态,非唤醒状态可以是睡眠状态,也可以是半睡眠状态。
图1为本发明提供的语音处理方法的第一实施例的实现流程示意图;如图1所示,所述方法包括:
步骤101:当电子设备处于唤醒状态时,采集第N个语音指令,N为大于1的正整数;
步骤101~103的执行主体为电子设备。
这里,当电子设备被唤醒、处于唤醒状态时,启动音频采集单元,通过音频采集单元如麦克风对电子设备当前所处的环境内的语音数据进行采集,并视采集到的语音数据为语音指令且该语音指令可以由人产生、也可以为其它噪声源而产生。其它噪声源可以是由动物、汽车等产生的噪声。
步骤102:对第N个语音指令进行分析,得到针对第N个语音指令的分析结果,所述分析结果至少包括第N个语音指令的输入对象的音频特性;
这里,考虑到在电子设备当前所处的环境内,可能会存在汽车鸣笛、动物撕咬、旁人的说话声音等噪声,在采集到语音指令时,电子设备不立即对采集到的语音指令进行响应而是先对采集到的语音指令进行分析,得到针对第N个语音指令的分析结果。具体的,以采集到第N个语音指令为例,电子设备对采集到的当前语音指令(第N个语音指令)进行分析,至少得到第N个语音指令的输入对象的音频特性。
其中,输入对象的音频特性可以是输入对象的声纹信息,该声纹信息具体是输入对象的声音的频率、大小等。在实际应用中,电子设备采集到的语音数据可以来自于汽车发出的声音、动物发出的声音、用户(人)发出的声音等等。预先获取汽车鸣笛时产生的频率、声音大小等音频特性;动物撕咬、吼叫时产生的频率、声音大小等音频特性,以及获取所有可能对电子设备进行语音指令输入的用户中每个用户的声音的频率、大小等。并存储每一输入对象和对应输入对象的音频特性之间的对应关系,并视该对应关系为第一对应关系。
步骤103:依据所述分析结果,确定是否响应所述第N个语音指令。
这里,依据对语音指令的分析结果,进一步的,至少依据第N个语音指令的输入对象的音频特性,确定是否对第N个语音指令进行响应。
这里,步骤103可以具体是:电子设备调用存储的第一对应关系,依据第一对应关系以及第N个语音指令的输入对象的音频特性,确定是否对第N个语音指令进行响应。进一步的,在第一对应关系中,依据采集到的第N个语音指令的音频特性,确定第N个语音指令的输入对象是哪个。在实际应用中,如果确定出所采集的第N个语音指令是汽车鸣笛时产生的声音数据或是动物撕咬、吼叫时产生的声音,则确定输入对象是汽车或是动物,这几种类型的输入对象产生的声音多数情况下为干扰音频(语音干扰指令),则无需对第N个语音指令进行响应。如果出所采集的第N个语音指令是用户(人)产生的声音数据,则确定输入对象为人,这种类型的输入对象产生的声音多数情况下为有效语音指令,则对第N个语音指令进行响应。可以理解,本申请实施例中在于区分语音指令是有效的语音指令和语音干扰指令,即区分语音指令是由人发出的还是由汽车、动物等其它可产生噪声的对象产生的。
上述方案中,在电子设备处于唤醒状态时采集语音指令,并针对采集到的第N个语音指令电子设备没有立即对其进行响应而是对第N个语音指令进行分析,得到一分析结果,并基于得到的分析结果确定是否对第N个语音指令进行响应。与现有技术中无法区分语音指令和语音干扰指令相比,本申请实施例中通过对采集到的语音指令进行分析得到该语音指令的输入对象的音频特性,并基于得到输入该语音指令的输入对象的音频特性确定是否对该语音指令进行响应的方式,至少能够区分有效的语音指令和语音干扰指令,避免不必要的响应,实现了误操作的识别,提升用户体验,突显电子设备的功能多样性。
考虑到对电量的节省,电子设备被唤醒的时间通常并不长。但是在实际应用中,可以理解,在语音指令为有效的语音指令,电子设备对有效的语音指令进行响应的情况下,因为有使用需求,所以电子设备的唤醒时间会长些,不会很快切换到非唤醒状态。而针对采集到的语音指令是干扰语音指令,电子设备不对干扰语音指令的情况下,连续几次的不响应,必然会让电子设备从唤醒状态切换到非唤醒状态,等到有使用需求时不得不再次唤醒。为避免对电子设备的频繁唤醒,也即为避免电子设备由于长时间不对干扰语音指令进行响应而从唤醒状态切换至非唤醒状态,待到需要时再次唤醒情况的频繁发生,本申请实施例中,语音处理方法还包括:在采集第N个语音指令时进行计时;当确定不响应第N个语音指令且在预定的时长内未检测到第N+1个语音指令时,从所述唤醒状态切换至非唤醒状态。具体实现上,对于处于唤醒状态的电子设备,在其采集到第N个语音指令时,启动电子设备的计时器进行计时,在确定不对第N个语音指令进行响应的情况下,计时器的计时时间达到了预先设定的时长(预定的时长),而在该预定的时长内始终没有检测到下一个语音指令(第N+1个语音指令),则电子设备从唤醒状态切换至非唤醒状态。其中,可以理解,预定的时长可以是电子设备能够容忍的下一次语音指令本应该出现的最大时长,如5分钟、10分钟,20分钟等。也即在该最大时长内下一个语音指令本应该出现但却没有出现,那么电子设备认为不存在用户的语音交互需求,则从唤醒状态切换至非唤醒状态。这种通过计时器的计时、适当的延长电子设备所处的唤醒状态的时间的方式可大大避免电子设备从唤醒状态到非唤醒状态的切换、同时也可避免由于频繁的状态切换而导致的不得不频繁唤醒的技术问题。其中,因为非唤醒状态可以是睡眠状态或是半睡眠状态,在睡眠状态或半睡眠状态下电子设备的功耗比唤醒状态下的小,可有效节约电子设备的电量。
考虑到电子设备的状态包括唤醒状态和非唤醒状态。睡眠状态和半睡眠状态等不同的状态,所述电子设备包括用于指示所述电子设备的状态标识指示键,该状态标识指示键用于指示电子设备处于哪种状态。在一个可选的实施例中,当电子设备从唤醒状态切换到非唤醒状态时,所述状态标识指示键从显示第一信息切换为显示第二信息;其中,第一信息与第二信息不同;所述状态标识指示键显示第一信息时所述电子设备处于唤醒状态。也即状态标识指示键显示第一信息表示电子设备处于唤醒状态;状态标识指示键显示第二信息表示电子设备处于非唤醒状态。
可以理解,状态标识指示键可以是实体按键,也可以是虚拟按键。状态标识指示键可以是特意设置的按键也可以是与电子设备已有的按键进行复用的按键。当然,状态标识指示键也可以不是按键类标识,而是能够标识不同状态的应用类、组件类内容、音视频类等标识。第一信息和第二信息可以是不同的输出声音,也可以是不同的显示色彩,还可以是不同的输出图像,用以表示电子设备处于不同的状态。第一、二信息可以是任何能够表示两者不同的音频和/或视频信息。
例如,状态标识指示键为设置在电子设备上的LED(发光二极管)灯,其显示为红色(第一信息)表示电子设备处于唤醒状态;当显示为白色(第二信息)表示电子设备处于非唤醒状态。
例如,状态标识指示键为电子设备的显示屏的上半区域呈现的应用1,应用1用于对电子设备所处状态进行检测并依据检测结果进行显示。当应用1显示图像1时表示电子设备处于唤醒状态;当应用1显示图像2时表示电子设备处于非唤醒状态。
其中,非唤醒状态包括睡眠状态和半睡眠状态。第二信息可以为第一子信息或第二子信息。当电子设备处于非唤醒状态中的睡眠状态时,显示第一子信息;当电子设备处于非唤醒状态中的半睡眠状态时,显示第二子信息。第一子信息、第二子信息可以是任何能够表示两者不同的音频和/或视频信息,只要能够区分第一、二子信息即可。
状态标识指示键对电子设备所处各个状态的显示,可让用户知道当前电子设备处于哪种工作状态,并基于当前的工作状态输入哪种语音指令如在非唤醒状态下先输入唤醒指令,在唤醒状态下输入有效的语音指令。能够大大提升用户的使用体验。
在电子设备能够对用户(人)输入的语音指令和噪音指令进行区分的基础上,在实际应用中,电子设备更多希望的是能够在一段时长内对同一用户进行语音指令的响应,也即在一段时长内实现对同一用户的专注,如仅对与上一次输入语音指令的用户为同一用户输入的语音指令进行响应。具体的实现方式可采用语音处理方法的第二实施例所描述的内容,实施例二描述的内容在于实现电子设备对同一用户保持专注。在实施例二中。
图2为本发明提供的语音处理方法的第二实施例的实现流程示意图;如图2所示,针对在电子设备处于唤醒状态下采集到的第N个语音指令为由用户产生的情况,所述方法包括:
步骤201~203的执行主体为电子设备。
步骤201:获取第N个语音指令的输入用户的音频特性和第N-1个语音指令的输入用户的音频特性;
这里,音频特性为用户的声纹信息,具体可以是用户声音的频率和/或大小信息。电子设备从第N个语音指令中解析出第N个语音指令的输入对象的声纹信息,得到第一声纹信息。针对采集到的第N-1个语音指令,从第N-1个语音指令中解析出第N-1个语音指令的输入对象的声纹信息,得到第二声纹信息。
在每采集到一个语音指令时,电子设备需要从每个语音指令中解析出输入各个输入指令的用户声音的频率和/或大小等信息,并存储,以备用。电子设备从存储的信息中,读取出输入第N-1个语音指令的用户声音的频率和/或大小信息。
步骤202:对第N个语音指令的输入对象的音频特性和第N-1个语音指令的输入对象的音频特性进行相似度运算,得到一运算结果;
这里,电子设备将第一声纹信息和第二声纹信息进行相似度匹配。也即对输入第N个语音指令的用户的音频特性和对输入第N-1个语音指令的用户的音频特性进行相似度匹配。
步骤203:依据运算结果,确定是否响应所述第N个语音指令。
这里,当匹配相似度高于或等于预定的第一相似度阈值时,说明输入第N个语音指令的用户和输入第N-1个语音指令的用户为同一用户,确定响应所述第N个语音指令。否则,当匹配相似度低于预定的第一相似度阈值时,说明输入第N个语音指令的用户和输入第N-1个语音指令的用户不是同一用户,确定不响应所述第N个语音指令。其中,第一相似度阈值可以是任何合理的取值,如第一相似度阈值为80%、85%、或90%。以第一相似度为80%为例,当输入第N个语音指令的用户的音频特性和对输入第N-1个语音指令的用户的音频特性的相似度高于或等于80%时,对第N个语音指令进行响应,否则不对第N个语音指令进行响应。
可以理解,用户输入的语音指令中通常包括期望电子设备处理的内容如查询、更新、删除指定内容,所述的响应第N个语音指令可以这样理解:对指定的内容进行处理操作如查询、更新、删除等,并将处理后的结果进行呈现。例如,用户输入的语音指令为“请查询今天的天气情况”,则电子设备对天气情况进行查询并显示给用户;用户输入的语音指令为“我现在在哪儿”,则电子设备对当前用户所处的位置进行定位并显示给用户。可显著提升用户的使用体验。
上述方案中,依据对第N个语音指令的输入用户的音频特性和第N-1个语音指令的输入用户的音频特性的相似度运算结果,也即基于对相邻两次语音指令的输入用户的音频特性判断是否为同一用户的语音指令输入,并依据该判断结果,确定是否响应第N个语音指令。其中,在相似度运算结果高于或等于预定的第一相似度阈值的情况下对第N个语音指令进行响应,实现对同一用户的专注,满足了用户具有希望电子设备在一定的时间段内只服务于他一个人的诉求,大大提升了用户体验,突显电子设备的多样性。
在电子设备能够对用户(人)输入的语音指令和噪音指令进行区分的基础上,在实际应用中,存在这样的应用场景:用户对电子设备的同一次唤醒状态下与电子设备多次交互的内具有一定的相关性,如交互话题相关,例如第一次交互用户输入语音“今天是否有会议”,第二次交互用户输入语音“会议地点在哪儿”,第三次交互用户输入语音“会议的大概内容是什么”,均是与会议相关的话题内容。以下实施例基于以上应用场景而提出。
图3为本发明提供的语音处理方法的第三实施例的实现流程示意图;如图3所示,针对在电子设备处于唤醒状态下采集到的第N个语音指令为由用户产生的情况,所述方法包括:
步骤301~302的执行主体为电子设备。
步骤301:对第N个语音指令进行分析,得到分析结果,所述分析结果至少包括第N个语音指令的输入用户的音频特性和第N个语音指令相关联的数据;
从第N个语音指令中解析出输入所述语音指令的用户的声纹信息、以及解析第N个语音指令中的关键信息,确定所述声纹信息为输入所述第N个语音指令的用户的音频特性,确定与关键信息为与第N个语音指令相关联的数据。
步骤302:依据第N个语音指令的输入用户的音频特性和与第N个语音指令相关联的数据,确定是否响应第N个语音指令。
上述方案中,依据语音指令的输入用户的音频特征和与语音指令相关联的数据,确定是否响应当前的语音指令。该方案不仅考虑到与电子设备交互的对象的特性(如是否为相同用户)也考虑到与电子设备交互的话题的特性(如话题的相关度),并基于这两方面的内容,决定是否对当前的语音指令进行响应。如此,便可避免不必要的响应,至少可避免对恶意语音指令或错误语音指令或其他非善意的语音指令的不必要响应。可减少由于电子设备对不必要的语音指令进行响应而导致的资源处理负担,用户使用体验也大大提升。
在一个可选的实施例中,所述语音处理方法(步骤301、302)还可以为:
步骤301:对第N个语音指令进行分析,得到分析结果,所述分析结果至少包括第N个语音指令的输入用户的音频特性和第N个语音指令相关联的数据;
步骤303:获取第N-1个语音指令的输入对象的音频特性以及与第N-1个语音指令相关联的数据;
相应的,所述步骤302为步骤302a:
依据第N个语音指令的输入对象的音频特性和第N-1个语音指令的输入对象的音频特性的相似度运算结果,以及与第N个语音指令相关联的数据和与第N-1个语音指令相关联的数据的关联度运算结果,确定是否响应所述第N个语音指令。
在具体实现上,步骤302a可以这样理解:当第N个语音指令的输入对象的音频特性和第N-1个语音指令的输入对象的音频特性之间的相似度高于预定的第一相似度阈值、且与第N个语音指令相关联的数据和与第N-1个语音指令相关联的数据之间的关联度高于预定的第二相似度阈值时,确定响应所述第N个语音指令;否则不响应第N个语音指令。也即当输入第N个语音指令的用户与输入第N-1个语音指令的用户为相同用户且这两次语音交互的话题具有一定的相关性,则对第N个语音指令进行响应,否则不响应。其中,第一相似度阈值和第二相似度阈值可以为任何合理的取值,请参见前述对第一相似度阈值的说明。需要说明的是,第一、二相似度阈值取值可以为相同,也可以不同。
在一个可选的实施例中,所述步骤302还可以为步骤302b:依据第N个语音指令的输入对象的音频特性和第N-1个语音指令的输入对象的音频特性的相似度运算结果,得到第一分值;依据与第N个语音指令相关联的数据和与第N-1个语音指令相关联的数据的关联度运算结果,得到第二分值;依据预先设定的第一权重值、第二权重值、以及第一分值和第二分值,确定是否响应所述第N个语音指令。在具体实现上,将第一权重值和第一分值进行相乘运算,将第二权重值和第二分值进行相乘运算,再将这两个相乘结果相加得到总分值,当总分值高于或等于设定的分数阈值,对第N个语音指令进行响应。此处请参见后续对分值模型的相关说明。
上述方案中,当输入第N个语音指令的用户与输入第N-1个语音指令的用户为相同用户且这两次语音交互的话题具有一定的相关性,则对第N个语音指令进行响应,否则不响应。当输入第N个语音指令的用户与输入第N-1个语音指令的用户为相同用户。该方案能够达到令电子设备对输入相关话题的同一用户保持对其的专注的技术效果,可满足用户具有希望电子设备在一定的时间段内只服务于他一个人的诉求,大大提升了用户体验,突显电子设备的多样性。
下面结合图4所示的应用场景,对本实施例做详细说明。
在图4所示的应用场景中,以电子设备为手机为例,该手机具有能够与用户进行语音交互的功能。
假定初始阶段,手机处于睡眠状态,设置在手机背面的LED显示为白色,用户1通过该色彩可区分出当前手机处于睡眠状态在进行语音交互之前,还需要通过语音指令将其唤醒。用户1输入语音指令“小A同学”(手机的名字)将其从睡眠状态中唤醒,LED显示为红色,可让用户1清楚的知道手机已从睡眠状态切换到唤醒状态。在手机的唤醒状态中用户1顺序输入多次具有话题相关性的语音指令,以其中两次为例。
假定第2(N-1=2)次(个)输入的语音指令(除唤醒语音指令之外的其它语音指令中的第2个语音指令)为“今天是否有会议”,第3(N=3)次(个)输入的语音指令为“会议地点在哪儿”。可以理解:对于每次输入的语音指令,手机都会对输入该语音指令的用户的音频特性和该语音指令的关键信息进行存储。
手机处于唤醒状态时,启动麦克风,为采集语音指令做准备。当麦克风采集到第3个输入的语音指令“会议地点在哪儿”时,解析该语音指令的波形得到输入该语音指令的用户的音频特性,并从语音指令中得到语音内容的关键信息如“会议”、“地点”。手机调用存储的输入第2个语音指令的用户的音频特性信息、以及第2个语音指令中的关键信息。然后,对这两次语音指令的输入用户是否为相同用户进行判断:手机对第3个语音指令的输入用户的音频特性和第2个语音指令的输入用户的音频特性之间的相似度进行计算,假定经计算得到相似度为95%,高于预定的第一相似度阈值90%,则认定为输入这两次语音指令的用户为同一用户、均为用户1。对这两次语音指令输入的话题是否为相关话题进行运算:对第N个语音指令中的关键信息和第N-1个语音指令中的关键信息之间的关联度进行计算,两次语音指令均是和会议有关的指令,假定经计算得到的关联度为85%,高于预定的第一相似度阈值80%,则认定为这两次语音指令中的关键信息均有很强的关联性,也即这两次语音指令涉及的话题具有很大的关联性。手机对第3个语音指令“会议地点在哪儿”进行响应,读取之前存储的备忘录日程,从中获知会议地点,并展示给用户1。
上述方案中,通过用户特性(用户是否为相同用户)、话题相关性这2个元素进行是否对第N个语音指令的响应的判断,在具体实现上,通过分值模型(如下公式)确定是否对第N个语音指令进行响应。
C=A1*B1+A2*B2+…+An*Bn;
其中,C为总分值,A1、A2..An为为每个元素预先分配好的权重值,B1、B2…Bn为基于对各个元素的判断得到的得分;n为元素的数量。
还可以为预先为每个元素分配一定的权重值,比如在只有用户特性、话题相关性这2个元素的情况下,为用户特性分配的权重值A1=0.8(第一权重值),为话题相关性分配的权重值A2=0.2(第二权重值),在判断手机对第3个语音指令的输入用户的音频特性和第2个语音指令的输入用户的音频特性之间的相似度高于预定的第一相似度阈值时,也即相邻两次语音指令的输入用户为相同用户,则为用户特性这一个元素打较高分值如取B1=95(第一分值);在判断出相邻两次语音指令涉及的话题具有很大的关联性时,为话题相关性这一元素打较高的分值如取B2=90(第二分值),在只有用户特性和话题相关性2个元素的影响下,C=0.8*90+0.2*90=90,由分值模型得到的最终分值为90(得分较高),高于设定的分数阈值如70、80或90,则对第N个语音指令进行响应。如果经过分值模型得到的最终分值小于70,则不对第N个语音指令进行响应。
可以理解,在分值模型中,对影响总分值C的元素除了用户特性和话题相关度这2个元素之外,还可以包括用户的位置这一元素、用户与手机之间的交互间隔这一元素等等,由此得出如上所述的分值模型(与n个元素有关)。与用户的位置这一元素有关是考虑到:在实际应用中,考虑到用户与电子设备进行多次语音交互的期间内,用户所处的位置通常为固定或变化较小。用户与手机之间的交互间隔越短越好,以便更快的完成语音交互,一方面利于电量的节省另一方面可令手机对同一用户进行集中响应。结合以上的应用场景,假定总分值C与以上四个元素都有关系(假定n=4),预先分配权重值A1=0.5、A2=0.3、A=0.1(位置元素对应的权重值)和A4=0.1(交互间隔元素对应的权重值),假定采集第3个语音指令时手机所处的位置比采集第2个语音指令时手机所处的位置变化较小或没有发生变化,则为这一元素打较高的分值如取B3=90,否则为这一元素打较低的分值如取B3=30;假定第2个语音指令和第3个语音指令的采集时间差小于预定的时间阈值如2min或3min时,认为用户与手机的交互频繁度不低,则为交互间隔元素这一元素打较高的分值如取B4=80,否则为这一元素打较低的分值如取B4=35。最后总分值C=0.5*90+0.3*90+0.1*90+0.1*80=89高于设定的分数阈值如70,得分较高,则对第3个语音指令进行响应。如果经过分值模型得到的最终分值小于70,则不对第N个语音指令进行响应。
可以理解,前述是以四个元素对分值模型的影响进行的说明,本发明实施例不仅仅限定于这四个元素,还可以包括其它任何合理的元素,如用户所处的环境如是办公室还是家里等。无论分值模型与几个元素有关,遵循着这样一个原则:在众多的元素中,为用户特性和话题相关度这2个元素分配的权重值较大,且为用户特性分配的权重值大于为话题相关度分配的权重值。
上述方案中,电子设备能够对同一用户保持专注,可满足在一定的时间段内只服务于特定用户的诉求,大大提升了用户体验。
本申请实施例还提供一种电子设备,如图5所示,所述电子设备包括采集器501和处理器502;其中,
采集器501,用于当电子设备处于唤醒状态时,采集第N个语音指令,N为大于1的正整数;
处理器502,用于对第N个语音指令进行分析,得到针对第N个语音指令的分析结果,所述分析结果至少包括第N个语音指令的输入对象的音频特性;依据所述分析结果,确定是否响应所述第N个语音指令。
所述处理器502,还用于:
在采集第N个语音指令时进行计时;
当确定不响应第N个语音指令且计时达到预定的时长仍未检测到第N+1个语音指令时,从所述唤醒状态切换至非唤醒状态。
在一个可选的实施例中,所述处理器502,还用于:
获取第N-1个语音指令的输入对象的音频特性;
对第N个语音指令的输入对象的音频特性和第N-1个语音指令的输入对象的音频特性进行相似度运算,得到一运算结果;
相应的,依据分析结果,确定是否响应所述第N个语音指令,包括:
依据运算结果,确定是否响应所述第N个语音指令。
在一个可选的实施例中,所述处理器502,还用于:
从第N个语音指令中解析出第N个语音指令的输入对象的声纹信息,得到第一声纹信息;
从第N-1个语音指令中解析出第N-1个语音指令的输入对象的声纹信息,得到第二声纹信息;
将第一声纹信息和第二声纹信息进行相似度匹配;
当匹配相似度高于或等于预定的第一相似度阈值时,确定响应所述第N个语音指令。
在一个可选的实施例中,所述分析结果至少还包括与第N个语音指令相关联的数据;
所述处理器502,还用于:
依据第N个语音指令的输入对象的音频特性和与第N个语音指令相关联的数据,确定是否响应第N个语音指令。
在一个可选的实施例中,所述处理器502,还用于:
获取第N-1个语音指令的输入对象的音频特性以及与第N-1个语音指令相关联的数据;
依据第N个语音指令的输入对象的音频特性和第N-1个语音指令的输入对象的音频特性的相似度运算结果,以及与第N个语音指令相关联的数据和与第N-1个语音指令相关联的数据的关联度运算结果,确定是否响应所述第N个语音指令。
在一个可选的实施例中,所述处理器502,还用于:
当第N个语音指令的输入对象的音频特性和第N-1个语音指令的输入对象的音频特性之间的相似度高于预定的第一相似度阈值、且与第N个语音指令相关联的数据和与第N-1个语音指令相关联的数据之间的关联度高于预定的第二相似度阈值时,确定响应所述第N个语音指令。
在一个可选的实施例中,
所述电子设备还包括用于指示所述电子设备的状态标识指示键;
当所述电子设备从唤醒状态切换到非唤醒状态时,所述状态标识指示键从显示第一信息切换为显示第二信息;其中,第一信息与第二信息不同;所述状态标识指示键显示第一信息时所述电子设备处于唤醒状态。
所述电子设备还可以如图6所示,还包括存储器600,用于存储计算机可执行指令,当处理器502执行存储器600存储的可执行指令时,至少执行以下操作:
对采集器501在电子设备处于唤醒状态时采集到的第N个语音指令进行分析,得到针对第N个语音指令的分析结果,所述分析结果至少包括第N个语音指令的输入对象的音频特性;依据所述分析结果,确定是否响应所述第N个语音指令;N为大于1的正整数。
本申请实施例还提供一种计算机存储介质,所述存储介质存储有计算机可执行指令,在处理器502执行所述可执行指令时至少用于执行前述任一实施例所述的语音处理方法。本实施例中的计算机存储介质可以如图6所示的存储器600,该存储器600可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-OnlyMemory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-OnlyMemory)、磁性随机存取存储器(FRAM,Ferromagnetic Random Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-OnlyMemory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器600旨在包括但不限于这些和任意其它适合类型的存储器。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种语音处理方法,应用于电子设备中,其特征在于,所述方法包括:
当电子设备处于唤醒状态时,
采集第N个语音指令,N为大于1的正整数;
对第N个语音指令进行分析,得到针对第N个语音指令的分析结果,所述分析结果至少包括第N个语音指令的输入对象的音频特性;
依据所述分析结果,确定是否响应所述第N个语音指令。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在采集第N个语音指令时进行计时;
当确定不响应第N个语音指令且计时达到预定的时长仍未检测到第N+1个语音指令时,从所述唤醒状态切换至非唤醒状态。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
获取第N-1个语音指令的输入对象的音频特性;
对第N个语音指令的输入对象的音频特性和第N-1个语音指令的输入对象的音频特性进行相似度运算,得到一运算结果;
相应的,依据分析结果,确定是否响应所述第N个语音指令,包括:
依据运算结果,确定是否响应所述第N个语音指令。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
从第N个语音指令中解析出第N个语音指令的输入对象的声纹信息,得到第一声纹信息;
从第N-1个语音指令中解析出第N-1个语音指令的输入对象的声纹信息,得到第二声纹信息;
将第一声纹信息和第二声纹信息进行相似度匹配;
当匹配相似度高于或等于预定的第一相似度阈值时,确定响应所述第N个语音指令。
5.根据权利要求1或2所述的方法,其特征在于,所述分析结果至少还包括与第N个语音指令相关联的数据;
相应的,所述依据所述分析结果,确定是否响应所述第N个语音指令,包括:
依据第N个语音指令的输入对象的音频特性和与第N个语音指令相关联的数据,确定是否响应第N个语音指令。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取第N-1个语音指令的输入对象的音频特性以及与第N-1个语音指令相关联的数据;
依据第N个语音指令的输入对象的音频特性和第N-1个语音指令的输入对象的音频特性的相似度运算结果,以及与第N个语音指令相关联的数据和与第N-1个语音指令相关联的数据的关联度运算结果,确定是否响应所述第N个语音指令。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
当第N个语音指令的输入对象的音频特性和第N-1个语音指令的输入对象的音频特性之间的相似度高于预定的第一相似度阈值、且与第N个语音指令相关联的数据和与第N-1个语音指令相关联的数据之间的关联度高于预定的第二相似度阈值时,确定响应所述第N个语音指令。
8.根据权利要求2所述的电子设备,其特征在于,所述电子设备还包括用于指示所述电子设备的状态标识指示键;
当所述电子设备从唤醒状态切换到非唤醒状态时,所述状态标识指示键从显示第一信息切换为显示第二信息;其中,第一信息与第二信息不同;所述状态标识指示键显示第一信息时所述电子设备处于唤醒状态。
9.一种电子设备,其特征在于,包括采集器和处理器;其中,
采集器,用于当电子设备处于唤醒状态时,采集第N个语音指令,N为大于1的正整数;
处理器,用于对第N个语音指令进行分析,得到针对第N个语音指令的分析结果,所述分析结果至少包括第N个语音指令的输入对象的音频特性;依据所述分析结果,确定是否响应所述第N个语音指令。
10.一种计算机存储介质,所述存储介质存储有计算机可执行指令,在执行所述可执行指令时至少用于执行前述权利要求1至8任一项所述的语音处理方法。
CN201810671403.7A 2018-06-26 2018-06-26 语音处理方法及电子设备、存储介质 Active CN108847216B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810671403.7A CN108847216B (zh) 2018-06-26 2018-06-26 语音处理方法及电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810671403.7A CN108847216B (zh) 2018-06-26 2018-06-26 语音处理方法及电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN108847216A true CN108847216A (zh) 2018-11-20
CN108847216B CN108847216B (zh) 2021-07-16

Family

ID=64202337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810671403.7A Active CN108847216B (zh) 2018-06-26 2018-06-26 语音处理方法及电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN108847216B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111128200A (zh) * 2019-12-30 2020-05-08 云知声智能科技股份有限公司 语音响应方法及装置
CN111768769A (zh) * 2019-03-15 2020-10-13 阿里巴巴集团控股有限公司 语音交互方法、装置、设备及存储介质
CN112086097A (zh) * 2020-07-29 2020-12-15 广东美的白色家电技术创新中心有限公司 语音终端的指令响应方法、电子设备及计算机存储介质
CN112951207A (zh) * 2021-02-10 2021-06-11 网易有道信息技术(北京)有限公司 口语评测方法、装置及相关产品
CN116386676A (zh) * 2023-06-02 2023-07-04 北京探境科技有限公司 语音唤醒方法、语音唤醒装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103871401A (zh) * 2012-12-10 2014-06-18 联想(北京)有限公司 一种语音识别的方法及电子设备
US20140278443A1 (en) * 2012-10-30 2014-09-18 Motorola Mobility Llc Voice Control User Interface with Progressive Command Engagement
US20160077574A1 (en) * 2014-09-11 2016-03-17 Nuance Communications, Inc. Methods and Apparatus for Unsupervised Wakeup with Time-Correlated Acoustic Events
CN106653021A (zh) * 2016-12-27 2017-05-10 上海智臻智能网络科技股份有限公司 语音唤醒的控制方法、装置及终端
CN107274897A (zh) * 2013-04-10 2017-10-20 威盛电子股份有限公司 语音操控方法与移动终端装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278443A1 (en) * 2012-10-30 2014-09-18 Motorola Mobility Llc Voice Control User Interface with Progressive Command Engagement
CN103871401A (zh) * 2012-12-10 2014-06-18 联想(北京)有限公司 一种语音识别的方法及电子设备
CN107274897A (zh) * 2013-04-10 2017-10-20 威盛电子股份有限公司 语音操控方法与移动终端装置
US20160077574A1 (en) * 2014-09-11 2016-03-17 Nuance Communications, Inc. Methods and Apparatus for Unsupervised Wakeup with Time-Correlated Acoustic Events
CN106653021A (zh) * 2016-12-27 2017-05-10 上海智臻智能网络科技股份有限公司 语音唤醒的控制方法、装置及终端

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111768769A (zh) * 2019-03-15 2020-10-13 阿里巴巴集团控股有限公司 语音交互方法、装置、设备及存储介质
CN111128200A (zh) * 2019-12-30 2020-05-08 云知声智能科技股份有限公司 语音响应方法及装置
CN112086097A (zh) * 2020-07-29 2020-12-15 广东美的白色家电技术创新中心有限公司 语音终端的指令响应方法、电子设备及计算机存储介质
CN112086097B (zh) * 2020-07-29 2023-11-10 广东美的白色家电技术创新中心有限公司 语音终端的指令响应方法、电子设备及计算机存储介质
CN112951207A (zh) * 2021-02-10 2021-06-11 网易有道信息技术(北京)有限公司 口语评测方法、装置及相关产品
CN112951207B (zh) * 2021-02-10 2022-01-07 网易有道信息技术(北京)有限公司 口语评测方法、装置及相关产品
CN116386676A (zh) * 2023-06-02 2023-07-04 北京探境科技有限公司 语音唤醒方法、语音唤醒装置及存储介质
CN116386676B (zh) * 2023-06-02 2023-08-29 北京探境科技有限公司 语音唤醒方法、语音唤醒装置及存储介质

Also Published As

Publication number Publication date
CN108847216B (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN108847216A (zh) 语音处理方法及电子设备、存储介质
CN105912092B (zh) 人机交互中的语音唤醒方法及语音识别装置
CN111223497B (zh) 一种终端的就近唤醒方法、装置、计算设备及存储介质
CN109493849A (zh) 语音唤醒方法、装置及电子设备
CN109326289A (zh) 免唤醒语音交互方法、装置、设备及存储介质
CN104866274B (zh) 信息处理方法及电子设备
CN110336723A (zh) 智能家电的控制方法及装置、智能家电设备
CN109597313A (zh) 场景切换方法及装置
CN110010125A (zh) 一种智能机器人的控制方法、装置、终端设备及介质
CN108564948A (zh) 一种语音识别方法及电子设备
CN111413877A (zh) 控制家电设备的方法及装置
KR20190136706A (ko) 개인 관심상황 발생 예측/인지 장치 및 방법
CN108932947B (zh) 语音控制方法及家电设备
CN106874092A (zh) 机器人任务托管方法及系统
CN111513678A (zh) 基于美容仪的皮肤管理方法、装置及计算机可读存储介质
CN113031456B (zh) 家电设备控制方法、系统、设备及计算机可读存储介质
CN113593595A (zh) 基于人工智能的语音降噪方法、装置及电子设备
CN112908321A (zh) 设备控制方法、装置、存储介质及电子装置
CN110375417A (zh) 语音模块的控制方法及装置、空调器
CN112667129B (zh) 界面主题切换方法及装置、终端、存储介质
CN109550232A (zh) 触控设备及其响应方法、装置
CN108231074A (zh) 一种数据处理方法、语音助手设备及计算机可读存储介质
Dargie Adaptive audio-based context recognition
CN111986670A (zh) 语音控制方法、装置、电子设备和计算机可读存储介质
JPWO2018146923A1 (ja) 分散協調システム、機器行動監視装置及び家電機器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant