CN111554298A - 语音交互方法、语音交互设备和电子设备 - Google Patents

语音交互方法、语音交互设备和电子设备 Download PDF

Info

Publication number
CN111554298A
CN111554298A CN202010419908.1A CN202010419908A CN111554298A CN 111554298 A CN111554298 A CN 111554298A CN 202010419908 A CN202010419908 A CN 202010419908A CN 111554298 A CN111554298 A CN 111554298A
Authority
CN
China
Prior art keywords
word
voice
awakening
words
voice interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010419908.1A
Other languages
English (en)
Other versions
CN111554298B (zh
Inventor
蔡文雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Zhilian Beijing Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010419908.1A priority Critical patent/CN111554298B/zh
Publication of CN111554298A publication Critical patent/CN111554298A/zh
Priority to JP2021044277A priority patent/JP7257434B2/ja
Priority to KR1020210036798A priority patent/KR102554916B1/ko
Application granted granted Critical
Publication of CN111554298B publication Critical patent/CN111554298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种语音交互方法、语音交互设备和电子设备,涉及语音交互技术领域。其中方法包括:响应于接收到包含第一词语的第一语音指令,判断第二语音指令是否包含唤醒特征词;其中,所述第一词语与所述语音交互设备的唤醒词相匹配,所述第二语音指令为所述第一语音指令的上一轮语音指令,所述唤醒特征词为与所述语音交互设备的名称相关联的词语;在所述第二语音指令包含所述唤醒特征词的情况下,将所述唤醒特征词添加至第一词库。本申请丰富了语音交互设备的唤醒方式,使语音交互设备的唤醒更加自然、多样。

Description

语音交互方法、语音交互设备和电子设备
技术领域
本申请涉及数据处理技术,尤其涉及语音技术领域,具体涉及一种语音交互方法、装置和电子设备。
背景技术
语音交互设备如语音助手等逐渐走进人们的生活,人们可以通过语音与语音交互设备进行人机交互。目前,在与语音交互设备进行人机交互时,均需要先通过特定的唤醒词将语音交互设备唤醒。
发明内容
本申请提供一种语音交互方法、语音交互设备和电子设备,以丰富了语音交互设备的唤醒方式。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请提供了一种语音交互方法,所述方法包括:
响应于接收到包含第一词语的第一语音指令,判断第二语音指令是否包含唤醒特征词;其中,所述第一词语与所述语音交互设备的唤醒词相匹配,所述第二语音指令为所述第一语音指令的上一轮语音指令,所述唤醒特征词为与所述语音交互设备的名称相关联的词语;
在所述第二语音指令包含所述唤醒特征词的情况下,将所述唤醒特征词添加至第一词库。
因为采用上述技术手段,丰富了语音交互设备的唤醒方式,使语音交互设备的唤醒更加自然、多样。
可选的,所述唤醒词是预先设定的。
该实施方式中,选择在第一词语与语音交互设备的预先设定的唤醒词相匹配时,进一步检测上一轮语音指令是否包含唤醒特征词,能够提高获取新唤醒词的成功概率,避免语音交互设备过度的对上一轮语音指令进行检测,节省语音交互设备的消耗。
可选的,所述方法还包括:
在第三语音指令包含误唤醒纠正词的情况下,将第四语音指令包含的第二词语添加至第二词库;其中,所述第四语音指令为所述第三语音指令的上一轮语音指令,所述第二词语与所述第一词库中的词语相匹配。
该实施方式中,通过自动更新误唤醒词库,能够避免语音交互设备被误唤醒,提高语音交互设备的唤醒效果。
可选的,在所述将第四语音指令包含的第二词语添加至第二词库之后,所述方法还包括:
判断所述第一词库中是否包含所述第二词语;
在所述第一词库中包含所述所述第二词语的情况下,从所述第一词库中移除所述第二词语。
该实施方式不仅能够有效避免语音交互设备再次被该词语误唤醒,还可以节省第一词库所占据的存储空间,并加快第一词库的匹配效率。
可选的,在所述将所述唤醒特征词添加至第一词库之后,所述方法还包括:
判断所述第二词库中是否包含所述唤醒特征词;
在所述第二词库中包含所述唤醒特征词的情况下,从所述第二词库中移除所述唤醒特征词。
该实施方式能够确保用户能够通过新的唤醒词唤醒语音交互设备。
第二方面,本申请提供了一种语音交互设备,包括:
第一判断模块,用于响应于接收到包含第一词语的第一语音指令,判断第二语音指令是否包含唤醒特征词;其中,所述第一词语与所述语音交互设备的唤醒词相匹配,所述第二语音指令为所述第一语音指令的上一轮语音指令,所述唤醒特征词为与所述语音交互设备的名称相关联的词语;
第一添加模块,用于在所述第二语音指令包含所述唤醒特征词的情况下,将所述唤醒特征词添加至第一词库。
可选的,所述唤醒词是预先设定的。
可选的,还包括:
第二添加模块,用于在第三语音指令包含误唤醒纠正词的情况下,将第四语音指令包含的第二词语添加至第二词库;其中,所述第四语音指令为所述第三语音指令的上一轮语音指令,所述第二词语与所述第一词库中的词语相匹配。
可选的,还包括:
第二判断模块,用于判断所述第一词库中是否包含所述第二词语;
第一移除模块,用于在所述第一词库中包含所述所述第二词语的情况下,从所述第一词库中移除所述第二词语。
可选的,还包括:
第三判断模块,用于判断所述第二词库中是否包含所述唤醒特征词;
第二移除模块,用于在所述第二词库中包含所述唤醒特征词的情况下,从所述第二词库中移除所述唤醒特征词。
第三方面,本申请提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面中的任一项方法。
第四方面,本申请提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行第一方面中的任一项方法。
本申请中的一个实施例具有如下优点或有益效果:
本申请中,在语音交互设备被唤醒后,语音交互设备可将上一轮语音指令中包含的唤醒特征词添加为新的唤醒词,这样,后续用户可以使用新的唤醒词来唤醒语音交互设备,而无需限于固定的唤醒词。因为采用上述技术手段,丰富了语音交互设备的唤醒方式,使语音交互设备的唤醒更加自然、多样。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请实施例提供的语音交互方法的流程示意图;
图2是本申请实施例提供的语音交互方法的流程示例图;
图3是本申请实施例提供的语音交互设备的结构示意图;
图4是用来实现本申请实施例的语音交互方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请提供一种语音交互方法,该语音交互方法可应用于语音交互设备。
如图1所示,该语音交互方法包括如下步骤:
步骤101:响应于接收到包含第一词语的第一语音指令,判断第二语音指令是否包含唤醒特征词;其中,所述第一词语与语音交互设备的唤醒词相匹配,所述第二语音指令为所述第一语音指令的上一轮语音指令,所述唤醒特征词为与所述语音交互设备的名称相关联的词语。
本申请中所涉及的语音指令,如上述第一语音指令、第二语音指令以及后续的第三语音指令等语音指令,均指用户发出的语音指令。
上述语音交互设备的唤醒词可以是预先设定的唤醒词,也可以是非预先设定的唤醒词,因此,上述第一词语既可以是与语音交互设备的预先设定唤醒词相匹配的词语,也可以是与语音交互设备的其他唤醒词相匹配的词语。
这里,预先设定的唤醒词可以理解为语音交互设备预先配置的固有的唤醒词,可以简称为“预设唤醒词”,同样的语音交互设备一般具有相同的预设唤醒词,语音交互设备的预设唤醒词一般为语音交互设备的名字,语音交互设备的预设唤醒词的数量一般为1个或两个,语音交互设备的预设唤醒词也可称为强唤醒词。例如,语音交互设备的名字为小A,则“小A”可以为语音交互设备的预设唤醒词。
这里,非预先设定的唤醒词,例如可以是通过本申请的语音交互方法新添加的唤醒词,将在后续进行具体说明。
本申请中,词语与词语相匹配,既可以是词语完全相同,或者,也可以是词语中的部分字符相同,或者,也可以是通过词语间隔包含,或者,还可以是词语模糊近似,等等。因此,第一词语与语音交互设备的唤醒词相匹配,即包括第一词语与语音交互设备的唤醒词完全相同的情况,也包括第一词语与语音交互设备的唤醒词部分字符相同或模糊近似的情况。
第二语音指令为第一语音指令的上一轮语音指令,可以理解为,第二语音指令为第一语音指令的上一条语音指令,或者说,第一语音指令为用户在发出第二语音指令之后,在一定的时间间隔内发出的语音指令。该时间间隔可以是用户根据需求自行设定的时间间隔,也可以是预先设定的时间间隔,例如,该时间间隔可以是10秒、20秒、30秒等等。
本申请中,第二语音指令中不包含与语音交互设备的唤醒词相匹配的词语,因此,语音交互设备无法被第二语音指令唤醒,从而不会对第二语音指令作出响应。
本申请中,第一语音指令中包含了与语音交互设备的唤醒词相匹配的词语,因此,语音交互设备可以被第一语音指令唤醒,并对第一语音指令作出响应。这里,语音交互设备响应第一语音指令,可以理解为,语音交互设备被第一语音指令唤醒,并作出回应。语音交互设备响应第一语音指令的方式可以预设设置,也可以通过用户设置,本申请对此不作限定。
语音交互设备在被第一语音指令唤醒之后,可以进一步判断第二语音指令中是否包含唤醒特征词。例如,语音交互设备的名称为小A,则AXX(如A姐姐、A哥哥)、XXA、AX、XA、小AA、AA、A小A等均可以视为与小A关联的词语,从而可以将这些词语视为唤醒特征词。需要说明的是,该步骤中的唤醒特征词还不是语音交互设备的唤醒词,在该步骤执行之前,用户还无法通过唤醒特征词来唤醒设备。
本申请中,之所以在语音交互设备被唤醒之后,进一步判断上一轮语音指令中是否包含唤醒特征词,是为了判断用户是否在上一轮语音指令中就存在用于唤醒语音交互设备的表示,或者说,为了判断用户在上一轮语音指令中是否存在其他的唤醒表示。
步骤102:在所述第二语音指令包含所述唤醒特征词的情况下,将所述唤醒特征词添加至第一词库。
该步骤中,在语音交互设备判定第二语音指令包含唤醒特征词的情况下,可以将该唤醒特征词添加至第一词库中。
这里,添加至第一词库中的唤醒特征词可以理解为语音交互设备的昵称、花名或别名,第一词库可以理解为设备名称词库、设备昵称词库或设备花名词库等等。
在将唤醒特征词添加至第一词库之后,该唤醒特征词可以理解为新的唤醒词,用户可以使用该唤醒特征词来唤醒语音交互设备。该第一词库中,除了存储唤醒特征词之外,还可以存储其他的唤醒词,因此,第一词库也可以理解为语音交互设备的唤醒词词库,语音交互设备可以被任何与第一词库中的词语相匹配的词语唤醒。
需要说明的是,步骤101中的唤醒特征词还不是语音交互设备的唤醒词,在步骤101执行之前,甚至在步骤102执行之前,用户还无法使用唤醒特征词来唤醒语音交互设备。只有在步骤102执行之后,即,在将唤醒特征词添加至第一词库之后,用户才可以使用唤醒特征词来唤醒语音交互设备。
本申请中,语音交互设备在将唤醒特征词添加至第一词库之后,用户可使用该唤醒特征词来唤醒语音交互设备,而无需限于固定的唤醒词。由于该唤醒特征词是语音交互设备在人机对话过程中自动添加的,是语音交互设备从用户的自然表达中获取到的,因此,该唤醒特征词能够使用户更自然地唤醒语音交互设备。
为了更好地理解本申请的技术方案,以下结合具体的语音交互场景对本申请中添加唤醒词的过程进行示例性说明。
假设语音交互设备的一个唤醒词为小A。
【用户】:A姐姐你觉得今天天气怎么样
【用户】:小A叫你呢(或者,小A在吗;或者,小A说话)
【语音交互设备】:TTS(Text To Speech,从文本到语音)播报:我刚才走神了,可以再说一次吗
语音交互设备在被“小A”唤醒后,语音交互设备在检测到“A姐姐你觉得今天天气怎么样”中的“A姐姐”与“小A”相关联,则可以将“A姐姐”添加至第一词库中。
从上述语音交互场景中可以看出,用户在发出“A姐姐你觉得今天天气怎么样”的语音指令时,该语音指令是包含有唤醒语音交互设备的主观表示的,因此,在语音交互设备没有响应的情况下,用户再次用唤醒词来唤醒语音交互设备。
因此,语音交互设备在被唤醒后,通过检测上一轮语音指令,能够自动地识别用户发出的包含唤醒意图的唤醒特征词,并自动地将唤醒特征词添加为新的唤醒词。语音交互设备所添加的新的唤醒词是在用户与语音交互设备交流过程中自然形成的,既丰富了语音交互设备的唤醒方式,又使语音交互设备的唤醒更加自然、多样。
本申请中,在语音交互设备被唤醒后,语音交互设备可将上一轮语音指令中包含的唤醒特征词添加为新的唤醒词,这样,后续用户可以使用新的唤醒词来唤醒语音交互设备,而无需限于固定的唤醒词。因为采用上述技术手段,丰富了语音交互设备的唤醒方式,使语音交互设备的唤醒更加自然、多样。
可选的,所述唤醒词是预先设定的。
预先设定的唤醒词可以理解为语音交互设备预先配置的固有的唤醒词,可以简称为“预设唤醒词”,同样的语音交互设备一般具有相同的预设唤醒词,语音交互设备的预设唤醒词一般为语音交互设备的名字,语音交互设备的预设唤醒词的数量一般为1个或两个,语音交互设备的预设唤醒词也可称为强唤醒词。
这样,所述第一词语与所述语音交互设备的预设唤醒词相匹配。
如前所述,第一词语既可以是与语音交互设备的预设唤醒词相匹配的词语,也可以是与语音交互设备的其他唤醒词相匹配的词语。
结合实际的语音交互场景,用户在发出包含有唤醒语音交互设备的主观表示的语音指令时,如果语音交互设备没有作出被唤醒的回应,则用户一般倾向于用更强烈的唤醒词,例如,语音交互设备的预设唤醒词,再次作出唤醒的主观表示。
可见,在第一词语与语音交互设备的预设唤醒词相匹配的情况下,用户在上一轮语音指令中携带唤醒特征词的概率相对较大。而在第一词语与语义交互设备的其他唤醒词相匹配的情况下,用户在上一轮语音指令中携带唤醒特征词的概率相对较小。鉴于此,该实施方式中,选择在第一词语与语音交互设备的预设唤醒词相匹配时,进一步检测上一轮语音指令是否包含唤醒特征词,能够提高获取新唤醒词的成功概率,避免语音交互设备过度的对上一轮语音指令进行检测,节省语音交互设备的消耗。
进一步的,在所述第一词语与所述语音交互设备的预设唤醒词相匹配,且所述第一语音指令包含唤醒强调词的情况下,所述语音交互设备判断所述第二语音指令是否包含唤醒特征词。
其中,唤醒强调词例如可以是“叫你呢”、“说话”、“听到没”、“在吗”等强调唤醒意图的词,唤醒强调词一般和预设唤醒词同时存在于第一语音指令中,例如,“小A叫你呢”、“说话,小A”、“小A听到没”、“在吗,小A”等等。
结合实际的语音交互场景,在第一语音指令包含与预设唤醒词相匹配的词语,并包含唤醒强调词的情况下,用户在上一轮语音指令中作出唤醒的主观表示的概率更大。鉴于此,该实施方式中,选择在第一语音指令包含与预设唤醒词相匹配的词语,并包含唤醒强调词时,进一步检测上一轮语音指令是否包含唤醒特征词,能够进一步提高获取新唤醒词的成功概率,避免语音交互设备过度的对上一轮语音指令进行检测,进一步节省语音交互设备的消耗。
可选的,所述方法还包括:
在第三语音指令包含误唤醒纠正词的情况下,将第四语音指令包含的第二词语添加至第二词库;其中,所述第四语音指令为所述第三语音指令的上一轮语音指令,所述第二词语与所述第一词库中的词语相匹配。
该实施方式中,由于语音交互设备的唤醒词可以在用户与语音交互设备的交流过程中自然形成,语音交互设备的唤醒词更加多样化,这就可能导致语音交互设备被误唤醒。
以下结合具体的语音交互场景对误唤醒的场景进行示例性说明。
假设语音交互设备的预设唤醒词为“小A”,并将“A姐姐”作为新的唤醒词添加到第一词库中。
【用户】:A姐的电话是多少(与车内其他乘客聊天)
【语音交互设备】:我在(第一次误唤醒)
【用户】:不是叫你小A(或者,没叫你小A)
其中,“不是叫你”、“没叫你”等可理解为误唤醒纠正词,第四语音指令“A姐的电话是多少”中的“A姐”与“A姐姐”相匹配,语音交互设备以为用户作出唤醒表示,因此作出响应。语音交互设备在检测到第三语音指令“不是叫你小A”中包含的误唤醒纠正词“不是叫你”时,会将第四语音指令中的“A姐”添加至第二词库中。这样,后续语音交互设备将不会被“A姐”唤醒。
第二词库也可以称为误唤醒词库、误唤醒黑名单等等。
本申请中,第一词库和第二词库可以为逻辑上进行区分的两个词库,也可以是存储位置上隔离的两个词库。第一词库可以理解为唤醒词库、唤醒白名单等等,第二词库可以理解为误唤醒词库、误唤醒黑名单等等。
此外,语音交互设备还可设置误唤醒纠正词库,该误唤醒纠正词库用于存储误唤醒纠正词,这样,语音交互设备在接收到用户发出的语音指令时,可以判断语音指令中是否包含与误唤醒纠正词库中的词语相匹配的词语。
该实施方式中,通过自动更新误唤醒词库,能够避免语音交互设备被误唤醒,提高语音交互设备的唤醒效果。
本申请中,为了避免语音交互设备错过用户的唤醒表示,并避免语音交互设备被误唤醒,语音交互设备对语音指令中的词语匹配原则可以满足如下条件:当语音指令中的词语与第一词库中的词语相匹配(包括完全相同和部分相同)时,语音交互设备即可执行唤醒操作(即作出响应),也就是说,语音交互设备可以被与第一词库中的词语相匹配的词语唤醒,或者,语音交互设备支持被与第一词库中的词语相匹配的词语唤醒。当语音指令中的词语与第二词库中的词语完全相同时,语音交互设备才执行误唤醒操作(即不作出响应),也就是说,语音交互设备不被第二词库中的词语唤醒,或者,语音交互设备不支持被第二词库中的词语唤醒。
本申请中,考虑到语音指令中的词语可能与第一词库中的词语相匹配,但同时又与第二词库中的词语完全相同,语音交互设备在判断是否被唤醒时,可以按照如下的方式进行判断:语音交互设备首先判断语音指令中的词语是否与第二词库中的词语相同,若相同,则直接执行误唤醒操作;若不相同,再进一步判断语音指令中的词语是否与第一词库中的词语相匹配,若相匹配,则执行唤醒操作。这样,可避免语音交互设备被误唤醒,并避免语音交互设备错过用户的唤醒表示。或者,还可以按照如下的方式进行判断:语音交互设备首先判断语音指令中的词语是否与第一词库中的词语相匹配,若相匹配,则进一步判断语音指令中的词语是否与第二词库中的词语相同,若相同,则执行误唤醒操作,若不相同,则执行唤醒操作。这样,也可避免语音交互设备被误唤醒,并避免语音交互设备错过用户的唤醒表示。
如图2所示,结合具体的语音交互场景,语音交互设备可以采用如下的方式进行语音交互:
步骤201:语音交互设备接收第一语音指令;
步骤202:语音交互设备判断第一语音指令中是否包含与语音交互设备的唤醒词相匹配的词语,若是,则执行步骤203,若否,则执行步骤206;
步骤203:语音交互设备判断该词语是否为第二词库中的词语,若是,则语音交互设备不作出响应,若否,则语音交互设备作出响应,并执行步骤204;
步骤204:语音交互设备判断第一语音指令的下一轮语音指令中是否包含误唤醒纠正词,若是,则执行步骤205;
步骤205:语音交互设备对第二词库进行更新,将该词语添加至第二词库中;
步骤206:语音交互设备判断第一语音指令的下一轮语音指令中是否包含预设的唤醒词,若是,则执行步骤207,若否,则语音交互设备不作出响应;
步骤207:语音交互设备判断第一语音指令中是否包含唤醒特征词,若是,则执行步骤208;
步骤208:语音交互设备对第一词库进行更新,将第一语音指令中与语音交互设备的名称相关联的词语添加至第一词库中。
以上仅为语音交互场景的示例,本申请并不限于按照上述的步骤进行语音交互。
可选的,在所述将第四语音指令包含的第二词语添加至第二词库之后,所述方法还包括:
判断所述第一词库中是否包含所述第二词语;
在所述第一词库中包含所述所述第二词语的情况下,从所述第一词库中移除所述第二词语。
在实际的交互场景中,语音交互设备可能在之前将某个词语作为新的唤醒词存储于第一词库中,而在之后这个词语又被语音交互设备作为误唤醒词添加至第二词库中,这时,第一词库和第二词库可能存在相同的词语。
鉴于此,该实施方式可以从第一词库中移除与第二词库相同的词语,这样,不仅能够有效避免语音交互设备再次被该词语误唤醒,还可以节省第一词库所占据的存储空间,并加快第一词库的匹配效率。
可选的,在所述将所述唤醒特征词添加至第一词库之后,所述方法还包括:
判断所述第二词库中是否包含所述唤醒特征词;
在所述第二词库中包含所述唤醒特征词的情况下,从所述第二词库中移除所述唤醒特征词。
在实际的交互场景中,语音交互设备可能在之前将某个词语作为误唤醒词存储于第二词库中,而在之后这个词语又被用户用作新的唤醒词,语音交互设备将该词语(即唤醒特征词)作为新的唤醒词添加至第一词库中。这时,第二词库中存在与新的唤醒词相同的词语。
鉴于此,为了提高用户的唤醒体验,该实施方式可以从第二词库中移除该唤醒特征词,以确保用户能够通过新的唤醒词唤醒语音交互设备。
需要说明的是,本申请中的语音交互方法中的多种可选的实施方式,彼此可以相互结合实现,也可以单独实现,对此本申请不作限定。
本申请的上述实施例具有如下优点或有益效果:
本申请中,在语音交互设备被唤醒后,语音交互设备可将上一轮语音指令中包含的唤醒特征词添加为新的唤醒词,这样,后续用户可以使用新的唤醒词来唤醒语音交互设备,而无需限于固定的唤醒词。因为采用上述技术手段,丰富了语音交互设备的唤醒方式,使语音交互设备的唤醒更加自然、多样。
本申请可以改善人机交互体验,无需限定于特定的唤醒词也可以唤醒语音交互设备,能够实现语音交互设备的自然唤醒,同时能够有效避免误唤醒,是人机交互过程更加流畅自然。
本申请还提供了一种语音交互设备,如图3所示,语音交互设备300包括:
第一判断模块301,用于响应于接收到包含第一词语的第一语音指令,判断第二语音指令是否包含唤醒特征词;其中,所述第一词语与所述语音交互设备的唤醒词相匹配,所述第二语音指令为所述第一语音指令的上一轮语音指令,所述唤醒特征词为与所述语音交互设备的名称相关联的词语;
第一添加模块302,用于在所述第二语音指令包含所述唤醒特征词的情况下,将所述唤醒特征词添加至第一词库。
可选的,所述唤醒词是预先设定的。
可选的,语音交互设备300还包括:
第二添加模块,用于在第三语音指令包含误唤醒纠正词的情况下,将第四语音指令包含的第二词语添加至第二词库;其中,所述第四语音指令为所述第三语音指令的上一轮语音指令,所述第二词语与所述第一词库中的词语相匹配。
可选的,语音交互设备300还包括:
第二判断模块,用于判断所述第一词库中是否包含所述第二词语;
第一移除模块,用于在所述第一词库中包含所述所述第二词语的情况下,从所述第一词库中移除所述第二词语。
可选的,语音交互设备300还包括:
第三判断模块,用于判断所述第二词库中是否包含所述唤醒特征词;
第二移除模块,用于在所述第二词库中包含所述唤醒特征词的情况下,从所述第二词库中移除所述唤醒特征词。
本申请提供的语音交互设备300能够实现上述语音交互方法实施例中语音交互设备实现的各个过程,且能够达到相同的有益效果,为避免重复,这里不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图4所示,是根据本申请实施例的语音交互方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图4所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的语音交互方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的语音交互方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的语音交互方法对应的程序指令/模块(例如,附图3所示的第一判断模块401和第一添加模块402)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行语音交互设备的各种功能应用以及数据处理,即实现上述方法实施例中的语音交互方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音交互方法的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至语音交互方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
语音交互方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图4中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与语音交互方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,在语音交互设备被唤醒后,语音交互设备可将上一轮语音指令中包含的唤醒特征词添加为新的唤醒词,这样,后续用户可以使用新的唤醒词来唤醒语音交互设备,而无需限于固定的唤醒词。因为采用上述技术手段,丰富了语音交互设备的唤醒方式,使语音交互设备的唤醒更加自然、多样。
本申请可以改善人机交互体验,无需限定于特定的唤醒词也可以唤醒语音交互设备,能够实现语音交互设备的自然唤醒,同时能够有效避免误唤醒,是人机交互过程更加流畅自然。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (12)

1.一种语音交互方法,应用于语音交互设备,其特征在于,所述方法包括:
响应于接收到包含第一词语的第一语音指令,判断第二语音指令是否包含唤醒特征词;其中,所述第一词语与所述语音交互设备的唤醒词相匹配,所述第二语音指令为所述第一语音指令的上一轮语音指令,所述唤醒特征词为与所述语音交互设备的名称相关联的词语;
在所述第二语音指令包含所述唤醒特征词的情况下,将所述唤醒特征词添加至第一词库。
2.根据权利要求1所述的方法,其特征在于,所述唤醒词是预先设定的。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
在第三语音指令包含误唤醒纠正词的情况下,将第四语音指令包含的第二词语添加至第二词库;其中,所述第四语音指令为所述第三语音指令的上一轮语音指令,所述第二词语与所述第一词库中的词语相匹配。
4.根据权利要求3所述的方法,其特征在于,在所述将第四语音指令包含的第二词语添加至第二词库之后,所述方法还包括:
判断所述第一词库中是否包含所述第二词语;
在所述第一词库中包含所述所述第二词语的情况下,从所述第一词库中移除所述第二词语。
5.根据权利要求3所述的方法,其特征在于,在所述将所述唤醒特征词添加至第一词库之后,所述方法还包括:
判断所述第二词库中是否包含所述唤醒特征词;
在所述第二词库中包含所述唤醒特征词的情况下,从所述第二词库中移除所述唤醒特征词。
6.一种语音交互设备,其特征在于,包括:
第一判断模块,用于响应于接收到包含第一词语的第一语音指令,判断第二语音指令是否包含唤醒特征词;其中,所述第一词语与所述语音交互设备的唤醒词相匹配,所述第二语音指令为所述第一语音指令的上一轮语音指令,所述唤醒特征词为与所述语音交互设备的名称相关联的词语;
第一添加模块,用于在所述第二语音指令包含所述唤醒特征词的情况下,将所述唤醒特征词添加至第一词库。
7.根据权利要求6所述的语音交互设备,其特征在于,所述唤醒词是预先设定的。
8.根据权利要求6或7所述的语音交互设备,其特征在于,还包括:
第二添加模块,用于在第三语音指令包含误唤醒纠正词的情况下,将第四语音指令包含的第二词语添加至第二词库;其中,所述第四语音指令为所述第三语音指令的上一轮语音指令,所述第二词语与所述第一词库中的词语相匹配。
9.根据权利要求8所述的语音交互设备,其特征在于,还包括:
第二判断模块,用于判断所述第一词库中是否包含所述第二词语;
第一移除模块,用于在所述第一词库中包含所述所述第二词语的情况下,从所述第一词库中移除所述第二词语。
10.根据权利要求8所述的语音交互设备,其特征在于,还包括:
第三判断模块,用于判断所述第二词库中是否包含所述唤醒特征词;
第二移除模块,用于在所述第二词库中包含所述唤醒特征词的情况下,从所述第二词库中移除所述唤醒特征词。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1至5中任一项所述的方法。
CN202010419908.1A 2020-05-18 2020-05-18 语音交互方法、语音交互设备和电子设备 Active CN111554298B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010419908.1A CN111554298B (zh) 2020-05-18 2020-05-18 语音交互方法、语音交互设备和电子设备
JP2021044277A JP7257434B2 (ja) 2020-05-18 2021-03-18 音声対話方法、音声対話デバイス、電子デバイス、記憶媒体及びコンピュータプログラム製品
KR1020210036798A KR102554916B1 (ko) 2020-05-18 2021-03-22 음성 인터렉션 방법, 음성 인터렉션 기기 및 전자 기기

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010419908.1A CN111554298B (zh) 2020-05-18 2020-05-18 语音交互方法、语音交互设备和电子设备

Publications (2)

Publication Number Publication Date
CN111554298A true CN111554298A (zh) 2020-08-18
CN111554298B CN111554298B (zh) 2023-03-28

Family

ID=72001648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010419908.1A Active CN111554298B (zh) 2020-05-18 2020-05-18 语音交互方法、语音交互设备和电子设备

Country Status (3)

Country Link
JP (1) JP7257434B2 (zh)
KR (1) KR102554916B1 (zh)
CN (1) CN111554298B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114283793A (zh) * 2021-12-24 2022-04-05 北京达佳互联信息技术有限公司 一种语音唤醒方法、装置、电子设备、介质及程序产品
CN116798419A (zh) * 2022-03-14 2023-09-22 追觅创新科技(苏州)有限公司 设备的语音控制方法和装置、存储介质及电子装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010072098A (ja) * 2008-09-16 2010-04-02 Internatl Business Mach Corp <Ibm> 発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP2015148758A (ja) * 2014-02-07 2015-08-20 トヨタ自動車株式会社 音声対話システム及び音声対話方法
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
CN108538298A (zh) * 2018-04-04 2018-09-14 科大讯飞股份有限公司 语音唤醒方法及装置
JP2018180260A (ja) * 2017-04-12 2018-11-15 トヨタ自動車株式会社 音声認識装置
US20190043492A1 (en) * 2017-08-07 2019-02-07 Sonos, Inc. Wake-Word Detection Suppression
CN110012166A (zh) * 2019-03-31 2019-07-12 联想(北京)有限公司 一种信息处理方法及装置
CN110097876A (zh) * 2018-01-30 2019-08-06 阿里巴巴集团控股有限公司 语音唤醒处理方法和被唤醒设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004341033A (ja) 2003-05-13 2004-12-02 Matsushita Electric Ind Co Ltd 音声媒介起動装置およびその方法
JP4816409B2 (ja) 2006-01-10 2011-11-16 日産自動車株式会社 認識辞書システムおよびその更新方法
KR20180083587A (ko) * 2017-01-13 2018-07-23 삼성전자주식회사 전자 장치 및 그의 동작 방법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010072098A (ja) * 2008-09-16 2010-04-02 Internatl Business Mach Corp <Ibm> 発話入力の音声認識のためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
JP2015148758A (ja) * 2014-02-07 2015-08-20 トヨタ自動車株式会社 音声対話システム及び音声対話方法
JP2018180260A (ja) * 2017-04-12 2018-11-15 トヨタ自動車株式会社 音声認識装置
US20190043492A1 (en) * 2017-08-07 2019-02-07 Sonos, Inc. Wake-Word Detection Suppression
CN110097876A (zh) * 2018-01-30 2019-08-06 阿里巴巴集团控股有限公司 语音唤醒处理方法和被唤醒设备
CN108538298A (zh) * 2018-04-04 2018-09-14 科大讯飞股份有限公司 语音唤醒方法及装置
CN110012166A (zh) * 2019-03-31 2019-07-12 联想(北京)有限公司 一种信息处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JWU-SHENG HU: "Wake-up-word detection for robots using spatial eigenspace consistency and resonant curve similarity" *
王攀凯: "针对老年陪伴机器人的语音交互设计研究" *

Also Published As

Publication number Publication date
KR102554916B1 (ko) 2023-07-11
JP7257434B2 (ja) 2023-04-13
CN111554298B (zh) 2023-03-28
JP2021099534A (ja) 2021-07-01
KR20210039354A (ko) 2021-04-09

Similar Documents

Publication Publication Date Title
CN111192591A (zh) 智能设备的唤醒方法、装置、智能音箱及存储介质
CN112987986B (zh) 实现游戏应用的方法、装置、存储介质及电子设备
CN112533041A (zh) 视频播放方法、装置、电子设备和可读存储介质
CN111554298B (zh) 语音交互方法、语音交互设备和电子设备
US20210097993A1 (en) Speech recognition control method and apparatus, electronic device and readable storage medium
EP3796308A1 (en) Speech recognition control method and apparatus, electronic device and readable storage medium
CN112908318A (zh) 智能音箱的唤醒方法、装置、智能音箱及存储介质
CN112382294A (zh) 语音识别方法、装置、电子设备和存储介质
CN112652304B (zh) 智能设备的语音交互方法、装置和电子设备
CN112071323B (zh) 误唤醒样本数据的获取方法、装置和电子设备
US11126260B2 (en) Control method and apparatus of intelligent device, and storage medium
CN110517684B (zh) 用于智能设备的控制方法、装置、智能设备及存储介质
CN112382292A (zh) 基于语音的控制方法和装置
CN112259090A (zh) 基于语音交互的业务办理方法、装置和电子设备
CN111369999A (zh) 一种信号处理方法、装置以及电子设备
CN116339871A (zh) 终端设备的控制方法、装置、终端设备及存储介质
CN112037794A (zh) 语音交互方法、装置、设备以及存储介质
CN111986682A (zh) 语音交互方法、装置、设备以及存储介质
CN113808585A (zh) 耳机唤醒方法、装置、设备以及存储介质
CN113556649A (zh) 智能音箱的播报控制方法和装置
CN113655894A (zh) 一种文本输入方法、装置、电子设备及存储介质
CN112786048A (zh) 一种语音交互方法、装置、电子设备和介质
CN112466304B (zh) 离线语音交互方法、装置、系统、设备和存储介质
CN112507714B (zh) 文本的分割方法和装置
CN112037786A (zh) 语音交互方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20211014

Address after: 100176 101, floor 1, building 1, yard 7, Ruihe West 2nd Road, Beijing Economic and Technological Development Zone, Daxing District, Beijing

Applicant after: Apollo Zhilian (Beijing) Technology Co.,Ltd.

Address before: 2 / F, baidu building, 10 Shangdi 10th Street, Haidian District, Beijing 100085

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant